(58)【調査した分野】(Int.Cl.,DB名)
表1もしくは表1Aにおいて優先順位が1のアノテーションを有する少なくともX個の遺伝子由来のサブゲノム間隔は、一意のアライメント方法でアライメントされ、Xは、10、15、20、または30に相当する、請求項1〜3のいずれか1項に記載の方法。
前記サブゲノム間隔は、単一ヌクレオチド位置;遺伝子内領域もしくは遺伝子間領域;エクソンもしくはイントロン、またはそれらの断片、エクソン配列またはその断片;コード領域もしくは非コード領域、プロモーター、エンハンサー、5’非翻訳領域(5’UTR)もしくは3’非翻訳領域(3’UTR)、またはそれらの断片;cDNAまたはその断片;SNP;体細胞変異、生殖細胞変異、もしくはそれら両方;変化、点変異もしくは単一変異;欠失変異;インフレーム欠失、遺伝子内欠失、全遺伝子欠失;挿入変異;遺伝子内挿入;逆位変異;染色体内逆位;連鎖変異;連鎖された挿入変異;逆位重複変異;タンデム重複;染色体内タンデム重複;転座;染色体転座、非相反転座;再編成;ゲノム再編成;1つ以上のイントロンもしくはその断片の再編成;5’−もしくは3’−UTRを含む再編成されたイントロン;あるいはそれらの組み合わせのうちの1つ以上を含むか、またはそれらからなる、請求項1〜6のいずれかに記載の方法。
前記変化は、正常かつ健康な組織または細胞と比較して、癌組織または癌細胞におけるヌクレオチド配列の変化、アミノ酸配列の変化、染色体転座、染色体内逆位、コピー数の変化、発現レベルの変化、タンパク質レベルの変化、タンパク質活性の変化、またはメチル化状態の変化を含む、請求項8に記載の方法。
前記変化は、癌の危険性、癌進行、癌治療、もしくは癌治療に対する耐性;癌の遺伝的危険因子;正の治療応答予測因子;負の治療応答予測因子;正の予後因子;負の予後因子;または診断因子のうちの1つ以上に関連するか、または関連しない、請求項8に記載の方法。
前記試料由来の少なくとも5、6、7、8、9、10、15、20、25、30個、もしくはそれ以上の遺伝子または遺伝子産物由来のサブゲノム間隔を配列決定することを含み、前記遺伝子または遺伝子産物は、ABL1、AKT1、AKT2、AKT3、ALK、APC、AR、BRAF、CCND1、CDK4、CDKN2A、CEBPA、CTNNB1、EGFR、ERBB2、ESR1、FGFR1、FGFR2、FGFR3、FLT3、HRAS、JAK2、KIT、KRAS、MAP2K1、MAP2K2、MET、MLL、MYC、NF1、NOTCH1、NPM1、NRAS、NTRK3、PDGFRA、PIK3CA、PIK3CG、PIK3R1、PTCH1、PTCH2、PTEN、RB1、RET、SMO、STK11、SUFU、またはTP53から選択される、請求項1〜16のいずれかに記載の方法。
以下うちの少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13個、もしくはすべてから選択されるサブゲノム間隔を配列決定することを含む、請求項1〜17のいずれかに記載の方法:
A)ABL1、AKT1、AKT2、AKT3、ALK、APC、AR、BRAF、CCND1、CDK4、CDKN2A、CEBPA、CTNNB1、EGFR、ERBB2、ESR1、FGFR1、FGFR2、FGFR3、FLT3、HRAS、JAK2、KIT、KRAS、MAP2K1、MAP2K2、MET、MLL、MYC、NF1、NOTCH1、NPM1、NRAS、NTRK3、PDGFRA、PIK3CA、PIK3CG、PIK3R1、PTCH1、PTCH2、PTEN、RB1、RET、SMO、STK11、SUFU、もしくはTP53のうちの少なくとも5つ以上から選択される変異または野生型遺伝子もしくは遺伝子産物由来の少なくとも5、6、7、8、9、10、15、20、25、30個、もしくはそれ以上のサブゲノム間隔、
B)ABL2、ARAF、ARFRP1、ARID1A、ATM、ATR、AURKA、AURKB、BAP1、BCL2、BCL2A1、BCL2L1、BCL2L2、BCL6、BRCA1、BRCA2、CBL、CARD11、CBL、CCND2、CCND3、CCNE1、CD79A、CD79B、CDH1、CDH2、CDH20、CDH5、CDK6、CDK8、CDKN2B、CDKN2C、CHEK1、CHEK2、CRKL、CRLF2、DNMT3A、DOT1L、EPHA3、EPHA5、EPHA6、EPHA7、EPHB1、EPHB4、EPHB6、ERBB3、ERBB4、ERG、ETV1、ETV4、ETV5、ETV6、EWSR1、EZH2、FANCA、FBXW7、FGFR4、FLT1、FLT4、FOXP4、GATA1、GNA11、GNAQ、GNAS、GPR124、GUCY1A2、HOXA3、HSP90AA1、IDH1、IDH2、IGF1R、IGF2R、IKBKE、IKZF1、INHBA、IRS2、JAK1、JAK3、JUN、KDM6A、KDR、LRP1B、LRP6、LTK、MAP2K4、MCL1、MDM2、MDM4、MEN1、MITF、MLH1、MPL、MRE11A、MSH2、MSH6、MTOR、MUTYH、MYCL1、MYCN、NF2、NKX2−1、NTRK1、NTRK2、PAK3、PAX5、PDGFRB、PKHD1、PLCG1、PRKDC、PTPN11、PTPRD、RAF1、RARA、RICTOR、RPTOR、RUNX1、SMAD2、SMAD3、SMAD4、SMARCA4、SMARCB1、SOX10、SOX2、SRC、TBX22、TET2、TGFBR2、TMPRSS2、TNFAIP3、TNK、TNKS2、TOP1、TSC1、TSC2、USP9X、VHL、もしくはWT1のうちの少なくとも5つ以上から選択される変異または野生型遺伝子もしくは遺伝子産物由来の少なくとも5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120個、もしくはそれ以上のサブゲノム間隔、
C)表1、1A、2、3、もしくは4に記載の遺伝子または遺伝子産物由来の少なくとも5、6、7、8、9、10、15、20個、もしくはそれ以上のサブゲノム間隔、
D)ABL1、AKT1、ALK、AR、BRAF、BRCA1、BRCA2、CEBPA、EGFR、ERBB2、FLT3、JAK2、KIT、KRAS、MET、NPM1、PDGFRA、PIK3CA、RARA、AKT2、AKT3、MAP2K4、NOTCH1、およびTP53のうちの1つ以上から選択される遺伝子または遺伝子産物由来の少なくとも5、6、7、8、9、10、15、20個、もしくはそれ以上のサブゲノム間隔、
E)前記ABL1遺伝子のコドン315;APCのコドン1114、1338、1450、もしくは1556;BRAFのコドン600;CTNNB1のコドン32、33、34、37、41、もしくは45;EGFRのコドン719、746〜750、768、790、858、もしくは861;FLT3のコドン835;HRASのコドン12、13、もしくは61;JAK2のコドン617;KITのコドン816;KRASのコドン12、13、もしくは61;PIK3CAのコドン88、542、545、546、1047、もしくは1049;PTENのコドン130、173、233、もしくは267;RETのコドン918;TP53のコドン175、245、248、273、もしくは306のうちの1つ以上から選択される変異コドンまたは野生型コドンを含む少なくとも5、6、7、8、9、10個、もしくはそれ以上のサブゲノム間隔、
F)ABCB1、BCC2、ABCC4、ABCG2、C1orf144、CYP1B1、CYP2C19、CYP2C8、CYP2D6、CYP3A4、CYP3A5、DPYD、ERCC2、ESR2、FCGR3A、GSTP1、ITPA、LRP2、MAN1B1、MTHFR、NQO1、NRP2、SLC19A1、SLC22A2、SLCO1B3、SOD2、SULT1A1、TPMT、TYMS、UGT1A1、もしくはUMPSから選択される変異または野生型遺伝子もしくは遺伝子産物由来の少なくとも5、6、7、8、9、10、15、20、25、30個、もしくはそれ以上のサブゲノム間隔、
G)(i)薬物で治療された癌患者のより良好な生存率、(ii)パクリタキセル代謝、(iii)薬物毒性、もしくは(iv)薬物の副作用のうちの1つ以上に関連した変異または野生型PGx遺伝子もしくは遺伝子産物由来の少なくとも5、6、7、8、9、10、15、20、25、30個、もしくはそれ以上のサブゲノム間隔、
H)表3に記載の少なくとも5、10、15、20、25、30、35、40、45、50、75、110個、もしくはそれ以上の遺伝子または遺伝子産物の転座変化、
I)表3に明記される前記癌型由来の固形腫瘍試料における、表3に記載の少なくとも5、10、15、20、25、30、35、40、45、50、75、110個、もしくはそれ以上の遺伝子または遺伝子産物の転座変化、
J)表4に記載の少なくとも5、10、15、20、25、30、35、40、45、50、75、100、150、200個、もしくはそれ以上の遺伝子または遺伝子産物の転座変化、
K)表4に明記される前記癌型由来のヘム腫瘍試料における、表4に記載の少なくとも5、10、15、20、25、30、35、40、45、50、75、100、150、200個、もしくはそれ以上の遺伝子または遺伝子産物の転座変化、
L)対立遺伝子変異が事前選択された腫瘍型に関連し、前記対立遺伝子変異が前記腫瘍型の前記細胞の5%未満に存在する、表1、表1A−4から選択される少なくとも5個の遺伝子もしくは遺伝子産物、
M)GCが豊富な領域に埋め込まれる表1、表1A−4から選択される少なくとも5個の遺伝子もしくは遺伝子産物、あるいは
N)BRCA1、BRCA2、EGFR、HRAS、KIT、MPL、ALK、PTEN、RET、APC、CDKN2A、MLH1、MSH2、MSH6、NF1、NF2、RB1、TP53、VHL、もしくはWT1のうちの1つ以上から選択される癌を発現させる遺伝因子を示す少なくとも5個の遺伝子もしくは遺伝子産物。
電子形態、ウェブベース形態、または書面形態で、報告書を、前記患者、または別の人物もしくは事業体、介護人、医師、癌専門医、病院、診療所、第三者支払人、保険会社、または官庁に提供することをさらに含む、請求項1〜23のいずれかに記載の方法。
【発明を実施するための形態】
【0115】
選択された群の遺伝子および遺伝子産物を評価することによる、1つ以上の対象由来の試料、例えば、腫瘍試料由来の多数の遺伝子および遺伝子産物を配列決定するための最適化方法およびアッセイが開示される。一実施形態において、本発明で取り上げられる方法およびアッセイは、マルチプレックスアッセイ形式で、例えば、多数の様々な遺伝的事象からの複数のシグナルを多数の遺伝子に組み込んだアッセイにおいて使用される。癌表現型(例えば、癌の危険性、癌進行、癌治療、または治療に対する抵抗のうちの1つ以上)に(例えば、正もしくは負に)関連した選択された群の遺伝子または遺伝子産物に少なくともある程度基づく方法およびアッセイが本明細書に開示される。そのような事前選択された遺伝子または遺伝子産物は、配列決定方法、具体的には、例えば、腫瘍または対照試料由来の多数の様々な遺伝子の大規模並列配列決定に依存する方法の適用を可能にする。
【0116】
ある特定の用語が最初に定義される。さらなる用語が本明細書を通して定義される。
【0117】
本明細書で使用される「a」および「an」という冠詞は、冠詞の文法上の目的語の1つまたは2つ以上(例えば、少なくとも1つ)を指す。
【0118】
「約(about)」および「約(approxyimately)」は、概して、測定の本質または精度を考慮して測定される量に対する誤差の許容できる程度を意味する。例となる誤差の程度は、所与の値または値の範囲の20パーセント(%)以内、典型的には、10%以内、より典型的には、5%以内である。
【0119】
「取得する」または「取得すること」という用語が本明細書で使用されるとき、物理的実体または値、例えば、数値を、物理的実体または値を「直接的に取得する」か、または「間接的に取得する」ことによって、入手することを指す。「直接的に取得する」とは、プロセスを行って(例えば、合成または分析方法を行って)物理的実体または値を得ることを意味する。「間接的に取得する」とは、物理的実体または値を別の団体またはソース(例えば、物理的実体または値を直接的に取得した第三者研究所)から受け取ることを指す。物理的実体を直接的に取得することは、物理的物質、例えば、出発原料の物理的変化を含むプロセスを行うことを含む。例となる変化は、物理的実体を2つ以上の出発原料から作製すること、物質を剪断または断片化すること、物質を分離または精製すること、2つ以上の別個の実体を混合物中に合わせること、共有もしくは非共有結合の破壊または形成を含む化学反応を行うことを含む。値を直接的に取得することは、試料または別の物質の物理的変化を含むプロセスを行うこと、例えば、物質、例えば、試料、検体、または試薬の物理的変化を含む分析プロセスを行うこと(本明細書で「物理的分析」と称される場合もある)、分析方法、例えば、物質、例えば、検体、またはその断片もしくは他の誘導体を別の物質から分離または精製すること、検体、またはその断片もしくは他の誘導体を、別の物質、例えば、緩衝液、溶媒、または反応物と合わせること、あるいは例えば、検体の第1の原子と第2の原子との間の共有もしくは非共有結合を破壊または形成することによって、検体、またはその断片もしくは他の誘導体の構造を変化させること、あるいは例えば、試薬の第1の原子と第2の原子との間の共有または非共有結合を破壊または形成することによって、試薬、またはその断片もしくは他の誘導体の構造を変化させることのうちの1つ以上を含む方法を行うことを含む。
【0120】
「配列を取得する」または「読み取りを取得する」という用語が本明細書で使用されるとき、配列または読み取りを「直接的に取得する」か、または「間接的に取得する」ことによって、ヌクレオチド配列またはアミノ酸配列を入手することを指す。配列または読み取りを「直接的に取得する」とは、プロセスを行って(例えば、合成または分析方法を行って)、例えば、配列決定方法(例えば、次世代配列決定(NGS)方法)を行って、配列を得ることを意味する。配列または読み取りを「間接的に取得する」ことは、別の団体またはソース(例えば、配列を直接的に取得した第三者研究所)から配列の情報または知識を受け取ること、あるいは配列を受け取ることを指す。取得した配列または読み取りは、完全な配列である必要はなく、例えば、少なくとも1つのヌクレオチドを配列決定するか、または対象に存在する本明細書に開示の変化のうちの1つ以上を特定する情報もしくは知識を得ることが、配列を取得することの本質をなす。
【0121】
配列または読み取りを直接的に取得することは、物理的物質、例えば、組織もしくは細胞試料、例えば、生検、または単離された核酸(例えば、DNAもしくはRNA)試料等の出発原料の物理的変化を含むプロセスを行うことを含む。例となる変化は、物理的実体を2つ以上の出発原料から作製すること、ゲノムDNA断片等の物質を剪断または断片化すること、物質を分離または精製すること(例えば、核酸試料を組織から単離すること)、2つ以上の別個の実体を混合物中に合わせること、共有もしくは非共有結合の破壊また形成を含む化学反応を行うことを含む。値を直接的に取得することは、上述の試料または別の物質の物理的変化を含むプロセスを行うことを含む。
【0122】
「試料を取得する」という用語が本明細書で使用されるとき、試料を「直接的に取得する」か、または「間接的に取得する」ことによって、試料、例えば、組織試料または核酸試料を入手することを指す。「試料を直接的に取得する」とは、プロセスを行って(例えば、手術または摘出等の物理的方法を行って)試料を得ることを意味する。「試料を間接的に取得する」とは、試料を別の団体またはソース(例えば、試料を直接的に取得した第三者研究所)から受け取ることを指す。試料を直接的に取得することは、物理的物質、例えば、出発原料、例えば、ヒト患者の組織または患者から以前に単離された組織等の組織の物理的変化を含むプロセスを行うことを含む。例となる変化は、物理的実体を出発原料から作製すること、組織を解剖または解体すること、物質(例えば、試料組織もしくは核酸試料)を分離または精製すること、2つ以上の別個の実体を混合物中に合わせること、共有もしくは非共有結合の破壊または形成を含む化学反応を行うことを含む。試料を直接的に取得することは、例えば、上述の試料または別の物質の物理的変化を含むプロセスを行うことを含む。
【0123】
本明細書で使用される「アライメントセレクタ」、は、アライメント方法の選択を可能にするか、または指向するパラメータ、例えば、事前選択されたサブゲノム間隔の配列決定を最適化することができるアライメントアルゴリズムまたはパラメータを指す。アライメントセレクタは、例えば、以下のうちの1つ以上の関数に特異的であり得るか、またはその関数として選択され得る:
1.該サブゲノム間隔についての読み取りの誤アライメント傾向に関連した配列コンテキスト、例えば、サブゲノム間隔(例えば、評価される事前選択されたヌクレオチド位置)の配列コンテキスト。例えば、ゲノムの他の場所で繰り返される評価されるサブゲノム間隔における配列要素、またはその付近での配列要素の存在が、誤アライメントを引き起こし、それによって、性能を低下させ得る。誤アライメントを最小化するアルゴリズムまたはアルゴリズムパラメータを選択することによって、性能を強化することができる。この場合において、アライメントセレクタの値は、配列コンテキスト、例えば、ゲノム(または分析されるゲノムの一部)で少なくとも事前選択された回数繰り返される事前選択された長さの配列の存在または不在の関数であり得る。
2.分析される腫瘍型。例えば、特定の腫瘍型は、欠失速度の増加を特徴とし得る。したがって、インデルにより敏感なアルゴリズムまたはアルゴリズムパラメータを選択することによって、性能を強化することができる。この場合において、アライメントセレクタの値は、腫瘍型の関数、例えば、腫瘍型の識別子であり得る。ある実施形態において、値は、腫瘍型、例えば、乳癌の識別である。
3.分析される遺伝子または遺伝子型、例えば、ある遺伝子または遺伝子型を分析することができる。癌遺伝子は、例として、多くの場合、置換またはインフレームインデルを特徴とする。したがって、これらのバリアントに特に敏感であり、かつ他のバリアントに対して特異的なアルゴリズムまたはアルゴリズムパラメータを選択することによって、性能を強化することができる。腫瘍抑制遺伝子は、多くの場合、フレームシフトインデルを特徴とする。したがって、これらのバリアントに特に敏感なアルゴリズムまたはアルゴリズムパラメータを選択することによって、性能を強化することができる。したがって、サブゲノム間隔と適合するアルゴリズムまたはアルゴリズムパラメータを選択することによって、性能を強化することができる。この場合において、アライメントセレクタの値は、遺伝子または遺伝子型の関数、例えば、遺伝子または遺伝子型の識別子であり得る。ある実施形態において、値は、遺伝子の識別である。
4.分析される部位(例えば、ヌクレオチド位置)。この場合において、アライメントセレクタの値は、部位または部位型の関数、例えば、部位または部位型の識別子であり得る。ある実施形態において、値は、部位の識別である(例えば、その部位を含有する遺伝子が別の遺伝子と高度に相同する場合、標準/高速の短い読み取りアライメントアルゴリズム(例えば、BWA)は、2つの遺伝子を見分けるのが困難である場合があり、より集約的なアライメント方法(Smith−Waterman)またはさらにはアセンブリ(ARACHNE)を必要とする可能性がある。)同様に、遺伝子配列が複雑度の低い領域(例えば、AAAAAA)を含有する場合、より集約的なアライメント方法が必要であり得る。
5.評価されるサブゲノム間隔に関連したバリアントまたはバリアント型。例えば、置換、挿入、欠失、転座、または他の再編成。したがって、特定のバリアント型により敏感なアルゴリズムまたはアルゴリズムパラメータを選択することによって、性能を強化することができる。この場合において、アライメントセレクタの値は、バリアント型の関数、例えば、バリアント型の識別子であり得る。ある実施形態において、値は、バリアント型、例えば、置換の識別である。
6.試料の種類、FFPE、または他の固定試料。試料型/品質は、エラー(非参照配列の誤った観察)速度に影響を及ぼし得る。したがって、試料における真のエラー率を正確にモデル化するアルゴリズムまたはアルゴリズムパラメータを選択することによって、性能を強化することができる。この場合において、アライメントセレクタの値は、試料の種類の関数、例えば、試料の種類の識別子であり得る。ある実施形態において、値は、試料の種類、例えば、固定試料の識別である。
【0124】
本明細書で使用される遺伝子もしくは遺伝子産物(例えば、マーカー遺伝子もしくは遺伝子産物)の「変化」または「変化した構造」は、遺伝子もしくは遺伝子産物内における1つの変異もしくは複数の変異の存在、例えば、正常な遺伝子または野生型遺伝子と比較して、遺伝子もしくは遺伝子産物の量または活性に影響を及ぼす変異を指す。変化は、癌組織または癌細胞における量、構造、および/または活性の、正常もしくは健常組織または細胞(例えば、対照)におけるその量、構造、および/または活性と比較した変化であり得、癌等の病状に関連する。例えば、癌に関連した変化、または抗癌治療に対する応答性を予測する変化は、正常かつ健康な組織または細胞と比較して、1つの癌組織または複数の癌細胞におけるヌクレオチド配列(例えば、変異)、アミノ酸配列、染色体転座、染色体内逆位、コピー数、発現レベル、タンパク質レベル、タンパク質活性、またはメチル化状態の変化を有し得る。例となる変異には、点変異(例えば、サイレント、ミスセンス、またはナンセンス)、欠失、挿入、逆位、連鎖変異、重複、転座、染色体外再編成、および染色体内再編成が含まれるが、これらに限定されない。変異は、遺伝子のコード領域または非コード領域に存在し得る。ある特定の実施形態において、変化(複数を含む)は、再編成、例えば、その1つ以上のイントロンまたは断片を含むゲノム再編成(例えば、5’および/または3’−UTRにおける1つ以上の再編成)として検出される。ある特定の実施形態において、変化は、表現型、例えば、癌表現型(例えば、癌の危険性、癌進行、癌治療、または癌治療に対する抵抗のうちの1つ以上)に関連する(か、または関連しない)。一実施形態において、変化は、癌の遺伝的危険因子、正の治療応答予測因子、負の治療応答予測因子、正の予後因子、負の予後因子、または診断因子のうちの1つ以上に関連する。
【0125】
本明細書で使用される「ベイト」は、一種のハイブリッド捕捉試薬である。ベイトは、標的核酸にハイブリダイズし(例えば、標的核酸に相補的である)、それによって、標的核酸の捕捉を可能にする核酸分子、例えば、DNA分子またはRNA分子であり得る。一実施形態において、ベイトは、RNA分子(例えば、自然発生のRNA分子もしくは修飾されたRNA分子)、DNA分子(例えば、自然発生のDNA分子もしくは修飾されたDNA分子)、またはそれらの組み合わせである。他の実施形態では、ベイトは、例えば、結合実体に結合することによって、結合実体、例えば、ベイトによって形成されたハイブリッドおよびベイトにハイブリダイズした核酸の捕捉および分離を可能にする親和性タグを含む。一実施形態において、ベイトは、溶液相ハイブリダイゼーションに好適である。
【0126】
本明細書で使用される「ベイトセット」は、1つまたは複数のベイト分子を指す。
【0127】
「結合実体」とは、検体に特異的に結合することができる、分子タグが直接的または間接的に結合し得る任意の分子を意味する。結合実体は、それぞれのベイト配列上の親和性タグであり得る。ある特定の実施形態において、結合実体は、アビジン分子等のパートナー、またはハプテンもしくはその抗原結合断片に結合する抗体に結合することによって、ハイブリダイゼーション混合物からのベイト/メンバーハイブリッドの分離を可能にする。例となる結合実体には、ビオチン分子、ハプテン、抗体、抗体結合断片、ペプチド、およびタンパク質が含まれるが、これらに限定されない。
【0128】
「相補的」とは、2つの核酸鎖の領域間または同一の核酸鎖の2つの領域間の配列相補性を指す。第1の核酸領域のアデニン残基は、残基がチミンまたはウラシルである場合、第1の領域に逆平行な第2の核酸領域の残基と特定の水素結合を形成(「塩基対合」)できることが知られている。同様に、第1の核酸鎖のシトシン残基は、残基がグアニンである場合、第1の鎖に逆平行な第2の核酸鎖の残基と塩基対合できることが知られている。2つの領域が逆平行様式で配置されるとき、核酸の第1の領域は、第1の領域の少なくとも1つのヌクレオチド残基が第2の領域の残基と塩基対合できる場合、同一または異なる核酸の第2の領域に相補的である。ある特定の実施形態において、第1の領域が第1の部分を含み、第2の領域が第2の部分を含み、それにより、第1および第2の部分が逆平行様式で配置されるとき、第1の部分のヌクレオチド残基の少なくとも約50%、少なくとも約75%、少なくとも約90%、または少なくとも約95%が、第2の部分のヌクレオチド残基で塩基対合できる。他の実施形態では、第1の部分のすべてのヌクレオチド残基が、第2の部分のヌクレオチド残基と塩基対合することができる。
【0129】
「癌」または「腫瘍」という用語は、本明細書で同義に使用される。これらの用語は、無制限増殖、不死、転移能、速い成長および増殖速度、ならびにある特定の特徴的な形態学的特徴等の発癌性細胞の典型的な特性を有する細胞の存在を指す。癌細胞は、多くの場合、腫瘍の形態であるが、そのような細胞は、動物内に単独で存在し得るか、または白血病細胞等の非腫瘍原性癌細胞であり得る。これらの用語は、固形腫瘍、軟組織腫瘍、または転移病巣を含む。本明細書で使用される「癌」という用語は、前悪状態、ならびに悪性癌を含む。
【0130】
本明細書で使用される「〜の可能性が高い」または「可能性の増加」は、項目、目的物、物体、または人が生じる確率の増加を指す。したがって、一例において、参照対象または対象群と比較して、治療に応答する可能性の高い対象は治療に応答する確率が増加する。
【0131】
「〜の可能性が低い」とは、参照に対して、事象、項目、目的物、物体、または人が生じる確率の減少を指す。したがって、参照対象または対象群と比較して、治療に応答する可能性の低い対象は治療に応答する確率が減少する。
【0132】
「対照メンバー」は、非腫瘍細胞由来の配列を有するメンバーを指す。
【0133】
本明細書で使用される「インデルアライメント配列セレクタ」は、事前選択されたインデルの場合、読み取りがアライメントされる配列の選択を可能にするか、または指向するパラメータを指す。そのような配列を用いて、インデルを含む事前選択されたサブゲノム間隔の配列決定を最適化することができる。インデルアライメント配列セレクタの値は、事前選択されたインデルの関数、例えば、インデルの識別子である。ある実施形態において、値は、インデルの識別である。
【0134】
本明細書で使用される「ライブラリ」という用語は、メンバーの収集物を指す。一実施形態において、ライブラリは、核酸メンバーの収集物、例えば、全ゲノム、サブゲノム断片、cDNA、cDNA断片、RNA、RNA断片、またはそれらの組み合わせの収集物を含む。一実施形態において、ライブラリメンバーの一部またはすべては、アダプター配列を含む。アダプター配列は、一方の末端または両方の末端に位置し得る。アダプター配列は、例えば、増幅、逆転写、またはベクターへのクローニングのための配列決定方法(例えば、NGS方法)に有用であり得る。
【0135】
ライブラリは、メンバーの収集物、例えば、標的メンバー(例えば、腫瘍メンバー、参照メンバー、PGxメンバー、またはそれらの組み合わせ)を含み得る。ライブラリのメンバーは、1人の個人由来であり得る。実施形態において、ライブラリは、1人を超える対象(例えば、2、3、4、5、6、7、8、9、10、20、30人、またはそれ以上の対象)由来のメンバーを含んでもよく、例えば、異なる対象由来の2つ以上のライブラリを、1人を超える対象由来のメンバーを有するライブラリと合わせることができる。一実施形態において、対象は、癌もしくは腫瘍を有するか、またはそれを有する危険性のあるヒトである。
【0136】
「ライブラリ捕獲物」は、ライブラリのサブセット、例えば、事前選択されたサブゲノム間隔に対して濃縮されたサブセット、例えば、事前選択されたベイトとのハイブリダイゼーションによって捕捉された産物を指す。
【0137】
本明細書で使用される「メンバー」もしくは「ライブラリメンバー」または他の同様の用語は、ライブラリのメンバーである核酸分子、例えば、DNA、RNA、またはそれらの組み合わせを指す。典型的には、メンバーは、DNA分子、例えば、ゲノムDNAまたはcDNAである。メンバーは、断片化された、例えば、剪断されたか、または酵素的に調製されたゲノムDNAであり得る。メンバーは、対象由来の配列を含み、対象由来ではない配列、例えば、アダプター配列、プライマー配列、または他の同定を可能にする配列、例えば、「バーコード」配列も含み得る。
【0138】
本明細書で使用される「次世代配列決定またはNGSもしくはNG配列決定」は、ハイスループット様式で、(例えば、単一分子配列決定における)個別の核酸分子または個別の核酸分子のクローン的に広がったプロキシのいずれかのヌクレオチド配列を決定する(例えば、10
3、10
4、10
5より多いか、またはそれ以上の数の分子が同時に配列決定される)任意の配列決定方法を指す。一実施形態において、配列決定実験によって生成されるデータにおけるそれらの同族配列発生の相対数を計数することによって、ライブラリにおける核酸種の相対存在量を推定することができる。次世代配列決定方法は当技術分野で既知であり、例えば、参照により本明細書に組み込まれるMetzker,M.(2010)Nature Biotechnology Reviews 11:31−46に記載されている。次世代配列決定は、試料中の核酸の5%未満に存在するバリアントを検出することができる。
【0139】
本明細書で言及される「ヌクレオチド値」は、事前選択されたヌクレオチド位置を占有するか、またはそれに割り当てられるヌクレオチド(複数を含む)の識別を表す。典型的なヌクレオチド値は、喪失(例えば、欠失)、付加(例えば、1つ以上のヌクレオチドの挿入であり、その識別は含まれても含まれなくてもよい)、または存在(占有)、A、T、C、もしくはGを含む。他の値は、例えば、Yでなくてもよく(Yは、A、T、G、もしくはCである)、AもしくはX(Xは、T、G、もしくはCのうちの1つもしくは2つである)、TもしくはX(Xは、A、G、もしくはCのうちの1つもしくは2つである)、GもしくはX(Xは、T、A、もしくはCのうちの1つもしくは2つである)、CもしくはX(Xは、T、G、もしくはAのうちの1つもしくは2つである)、ピリミジンヌクレオチド、またはプリンヌクレオチドであり得る。ヌクレオチド値は、ヌクレオチド位置における1個以上、例えば、2、3、もしくは4個の塩基の頻度(または本明細書に記載の他の値、例えば、喪失または付加)であり得る。例えば、ヌクレオチド値は、ヌクレオチド位置におけるAの頻度およびGの頻度を含み得る。
【0140】
本明細書で使用される「または」は、文脈が別途明確に示さない限り、「および/または」という用語を意味し、それと同義に使用される。本明細書のいくつかの箇所での「および/または」という用語の使用は、文脈が別途明確に示さない限り、「または」という用語の使用が「および/または」という用語と同義ではないことを意味しない。
【0141】
「一次対照」は、腫瘍試料中のNAT組織以外の非腫瘍組織を指す。血液は、典型的な一次対照である。
【0142】
本明細書で使用される「再編成アライメント配列セレクタ」は、事前選択された再編成の場合に、読み取りがアライメントされる配列の選択を可能にするか、または指向するパラメータを指す。そのような配列の使用が、再編成を含む事前選択されたサブゲノム間隔の配列決定を最適化することができる。再編成アライメント配列セレクタの値は、事前選択された再編成の関数、例えば、再編成の識別子である。ある実施形態において、値は、再編成の識別である。「インデルアライメント配列セレクタ」(本明細書の他の箇所でも定義される)は、再編成アライメント配列セレクタの一例である。
【0143】
「試料」、「組織試料」、「患者試料」、「患者細胞もしくは組織試料」、または「検体」はそれぞれ、対象もしくは患者の組織または循環細胞から得られる同様の細胞の収集物を指す。組織試料の供給源は、新鮮な、凍結し、かつ/もしくは保存された器官、組織試料、生検、または吸引物;血液または任意の血液成分;脳脊髄液、羊水、腹水、もしくは間質液等の体液;あるいは対象の妊娠または発達における任意の時点の細胞由来の固体組織であり得る。組織試料は、防腐剤、抗凝固剤、緩衝液、固定剤、栄養剤、抗生物質等の本質的に組織と自然混合されていない化合物を含有し得る。一実施形態において、試料は、冷凍試料として、またはホルムアルデヒドもしくはパラホルムアルデヒド固定パラフィン包埋(FFPE)組織調製物として保存される。例えば、試料を、マトリックス、例えば、FFPEブロックまたは冷凍試料に埋め込むことができる。
【0144】
一実施形態において、試料は、腫瘍試料であり、例えば、1つ以上の前悪性または悪性細胞を含む。ある特定の実施形態において、試料、例えば、腫瘍試料は、固形腫瘍、軟組織腫瘍、または転移病巣から取得される。他の実施形態では、試料、例えば、腫瘍試料は、切除縁由来の組織または細胞を含む。別の実施形態では、試料、例えば、腫瘍試料は、1つ以上の循環腫瘍細胞(CTC)(例えば、血液試料から取得されたCTC)を含む。
【0145】
本明細書で使用される「感度」は、方法が配列の不均一集団において事前選択された配列バリアントを検出することができる尺度である。方法は、事前選択された配列バリアントが試料中で配列の少なくともF%で存在する試料を考慮して、方法がC%の事前選択された信頼度(S%の確率)で事前選択された配列を検出することができる場合、F%のバリアントに対してS%の感度を有する。例として、方法は、事前選択されたバリアント配列が試料中で配列の少なくとも5%で存在する試料を考慮して、方法が99%の事前選択された信頼度(10中9)で事前選択された配列を検出することができる場合(F=5%、C=99%、S=90%)、5%のバリアントに対して90%の感度を有する。例となる感度は、C=90%、95%、99%、および99.9%の信頼度レベルで、F=1%、5%、10%、20%、50%、100%の配列バリアントに対して、S=90%、95%、99%の感度を含む。
【0146】
本明細書で使用される「特異性」は、方法が偽りなく生じる事前選択された配列バリアントを配列決定アーチファクトまたは他の密接に関連した配列から見分けることができる尺度である。これは、誤検出を回避する能力である。誤検出は、試料調製中に目的とする配列に導入されたエラー、配列決定エラー、または偽遺伝子もしくは遺伝子ファミリーのメンバー等の密接に関連した配列の不注意による配列決定に起因し得る。方法は、X
True個の配列が偽りのないバリアントであり、X
Not trueが偽りのないバリアントではない、N
Total個の配列の試料セットに適用されるとき、方法が偽りのないバリアントではない配列の少なくともX%をバリアントではない配列として選択する場合、X%の特異性を有する。例えば、方法は、500個が偽りなくバリアント配列であり、500個が偽りのないバリアント配列である、1,000個の配列の試料セットに適用されるとき、方法が500個の偽りのないバリアントではない配列の90%をバリアントではない配列としてを選択する場合、90%の特異性を有する。例となる特異性は、90、95、98、および99%を含む。
【0147】
本明細書で使用される「腫瘍核酸試料」は、腫瘍または癌試料由来の核酸分子を指す。典型的には、それは、腫瘍もしくは癌試料由来のDNA、例えば、ゲノムDNA、またはRNA由来のcDNAである。ある特定の実施形態において、腫瘍核酸試料は、精製または単離される(例えば、その天然の状態から除去される)。
【0148】
本明細書で使用される「対照」または「参照」「核酸試料」は、対照または参照試料由来の核酸分子を指す。典型的には、これは、遺伝子もしくは遺伝子産物の変化または変異を含有しないDNA、例えば、ゲノムDNA、またはRNA由来のcDNAである。ある特定の実施形態において、参照または対照核酸試料は、野生型または非変異配列である。ある特定の実施形態において、参照核酸試料は、精製または単離される(例えば、その天然の状態から除去される)。他の実施形態では、参照核酸試料は、同一または異なる対象由来の非腫瘍試料、例えば、血液対照、正常な隣接腫瘍(NAT)、または任意の他の非癌性試料に由来する。
【0149】
核酸分子の「配列決定」は、分子中の少なくとも1個のヌクレオチドの識別の決定を必要とする。実施形態において、分子中のヌクレオチドのうちのすべてより少ない識別が決定される。他の実施形態では、分子中のヌクレオチドのうちの大多数またはすべての識別が決定される。
【0150】
本明細書で言及される「サブゲノム間隔」は、ゲノム配列の一部を指す。ある実施形態において、サブゲノム間隔は、単一ヌクレオチド位置であり得、例えば、そのヌクレオチド位置バリアントは、腫瘍表現型と(正または負に)関連する。ある実施形態において、サブゲノム間隔は、1個を超えるヌクレオチド位置を含む。そのような実施形態は、少なくとも2、5、10、50、100、150、または250長のヌクレオチド位置の配列を含む。サブゲノム間隔は、全遺伝子、またはその事前選択された部分、例えば、コード領域(もしくはその部分)、事前選択されたイントロン(もしくはその部分)、またはエクソン(もしくはその部分)を含み得る。サブゲノム間隔は、自然発生の、例えば、ゲノムの核酸の断片のすべてまたは一部を含み得る。例えば、サブゲノム間隔は、配列決定反応に供されるゲノムDNAの断片に相当し得る。実施形態において、サブゲノム間隔は、ゲノムソース由来の連続配列である。実施形態において、サブゲノム間隔は、ゲノムにおいて連続していない配列を含み、例えば、これは、cDNA中のエクソン−エクソン接合部に見られる形成された接合部を含み得る。
【0151】
ある実施形態において、サブゲノム間隔は、単一ヌクレオチド位置;遺伝子内領域または遺伝子間領域;エクソンもしくはイントロン、またはその断片、典型的には、エクソン配列またはその断片;コード領域もしくは非コード領域、例えば、プロモーター、エンハンサー、5’非翻訳領域(5’UTR)、もしくは3’非翻訳領域(3’UTR)、またはその断片;cDNAもしくはその断片;SNP;体細胞変異、生殖細胞変異、もしくはそれら両方;変化、例えば、点もしくは単一変異;欠失変異(例えば、インフレーム欠失、遺伝子内欠失、全遺伝子欠失);挿入変異(例えば、遺伝子内挿入);逆位変異(例えば、染色体内逆位);連鎖変異;連鎖された挿入変異;逆位重複変異;タンデム重複(例えば、染色体内タンデム重複);転座(例えば、染色体転座、非相反転座);再編成(例えば、ゲノム再編成(例えば、1つ以上のイントロン、またはその断片の再編成;再編成されたイントロンは、5’−および/もしくは3’−UTRを含み得る);遺伝子コピー数の変化;遺伝子発現の変化;RNAレベルの変化;あるいはそれらの組み合わせを含むか、またはそれらからなる。「遺伝子のコピー数」とは、特定の遺伝子産物をコードする細胞におけるDNA配列の数を指す。概して、所与の遺伝子の場合、哺乳動物は、それぞれの遺伝子の2つのコピーを有する。コピー数は、例えば、遺伝子増幅もしくは重複により増加し得るか、または欠失により減少し得る。
【0152】
本明細書で使用される「閾値」は、ヌクレオチド値をサブゲノム間隔に割り当てるために存在することが要求される読み取りの数の関数の値である。例えば、これは、サブゲノム間隔においてそのヌクレオチド値をそのヌクレオチド位置に割り当てることが要求される、ヌクレオチド位置での特定のヌクレオチド値、例えば、Aを有する読み取りの数の関数である。閾値を、例えば、読み取りの数(もしくはその関数)として、例えば、整数、または事前選択された値を有する読み取りの割合として表すことができる。例として、閾値がXであり、「A」のヌクレオチド値を有するX+1個の読み取りが存在する場合、「A」の値は、サブゲノム間隔において事前選択された位置に割り当てられる。閾値を、変異またはバリアント予想、変異頻度、またはベイズ先行の関数として表すことができる。ある実施形態において、事前選択された変異頻度は、そのヌクレオチド値を呼び出すために、事前選択された位置でヌクレオチド値、例えば、AもしくはGを有する事前選択された数または割合の読み取りを必要とする。実施形態において、閾値は、変異予想、例えば、変異頻度、および腫瘍型の関数であり得る。例えば、事前選択されたヌクレオチド位置における事前選択されたバリアントは、患者が第1の腫瘍型を有する場合、第1の閾値を有し得、患者が第2の腫瘍型を有する場合、第2の閾値を有し得る。
【0153】
本明細書で使用される「標的メンバー」は、核酸ライブラリから単離することが所望される核酸分子を指す。一実施形態において、標的メンバーは、本明細書に記載の腫瘍メンバー、参照メンバー、対照メンバー、またはPGxメンバーであり得る。
【0154】
本明細書で使用される「腫瘍メンバー」、または他の同様の用語(例えば、「腫瘍または癌関連メンバー」)は、腫瘍細胞由来の配列を有するメンバーを指す。一実施形態において、腫瘍メンバーは、癌表現型に関連した変化(例えば、変異)を有する配列(例えば、ヌクレオチド配列)を有するサブゲノム間隔を含む。他の実施形態では、腫瘍メンバーは、野生型配列(例えば、野生型ヌクレオチド配列)を有するサブゲノム間隔を含む。例えば、ヘテロ接合性またはホモ接合性野生型対立遺伝子由来のサブゲノム間隔は、癌細胞に存在する。腫瘍メンバーには、参照メンバーまたはPGxメンバーが含まれ得る。
【0155】
本明細書で使用される「参照メンバー」または他の同様の用語(例えば、「対照メンバー」)は、癌表現型に関連しない配列(例えば、ヌクレオチド配列)を有するサブゲノム間隔を含むメンバーを指す。一実施形態において、参照メンバーは、変異が癌表現型に関連する場合に、遺伝子もしくは遺伝子産物の野生型または非変異ヌクレオチド配列を含む。参照メンバーは、癌細胞または非癌細胞に存在し得る。
【0156】
本明細書で使用される「PGxメンバー」または他の同様の用語は、遺伝子の薬理遺伝学的または薬理ゲノム学的特性に関連したサブゲノム間隔を含むメンバーを指す。一実施形態において、PGxメンバーは、SNP(例えば、本明細書に記載のSNP)を含む。他の実施形態では、PGxメンバーは、表1または表2に従うサブゲノム間隔を含む。
【0157】
本明細書で使用される「バリアント」は、2個以上の構造を有し得るサブゲノム間隔で存在し得る構造、例えば、多型遺伝子座における対立遺伝子を指す。
【0158】
例えば、(a)、(b)、(i)等の見出しは、単に本明細書および特許請求の範囲の解釈を簡略化するために提示される。本明細書または特許請求の範囲における見出しの使用は、ステップもしくは要素をアルファベット順もしくは番号順、またはそれらが提示される順序で行うことを必要としない。
遺伝子または遺伝子産物の選択
【0159】
選択された遺伝子または遺伝子産物(本明細書で「標的遺伝子または遺伝子産物」とも称される)は、遺伝子内領域または遺伝子間領域を含むサブゲノム間隔を含み得る。例えば、サブゲノム間隔は、エクソンもしくはイントロン、またはその断片、典型的には、エクソン配列もしくはその断片を含み得る。サブゲノム間隔は、コード領域もしくは非コード領域、例えば、プロモーター、エンハンサー、5’非翻訳領域(5’UTR)、または3’非翻訳領域(3’UTR)、あるいはその断片を含み得る。他の実施形態では、サブゲノム間隔は、cDNAまたはその断片を含む。他の実施形態では、サブゲノム間隔は、SNP、例えば、本明細書に記載のSNPを含む。
【0160】
他の実施形態では、サブゲノム間隔、例えば、本明細書に記載のサブゲノム間隔のうちの1つ以上は、ゲノム中の実質的にすべてのエクソン(例えば、目的とする選択された遺伝子または遺伝子産物由来のエクソン(例えば、本明細書に記載の癌表現型に関連した遺伝子または遺伝子産物))を含む。一実施形態において、サブゲノム間隔は、体細胞変異、生殖細胞変異、またはこれら両方を含む。一実施形態において、サブゲノム間隔は、変化、例えば、点変異もしくは単一変異、欠失変異(例えば、インフレーム欠失、遺伝子内欠失、全遺伝子欠失)、挿入変異(例えば、遺伝子内挿入)、逆位変異(例えば、染色体内逆位)、連鎖変異、連鎖された挿入変異、逆位重複変異、タンデム重複(例えば、染色体内タンデム重複)、転座(例えば、染色体転座、非相反転座)、再編成、遺伝子コピー数の変化、またはそれらの組み合わせを含む。ある特定の実施形態において、サブゲノム間隔は、試料中の腫瘍細胞のゲノムのコード領域の5、1、0.5、0.1%、0.01%、0.001%未満を構成する。他の実施形態では、サブゲノム間隔は、疾患に関与せず、例えば、本明細書に記載の癌表現型に関連しない。
【0161】
一実施形態において、標的遺伝子または遺伝子産物は、バイオマーカーである。本明細書で使用される「バイオマーカー」または「マーカー」は、変化することができる遺伝子、mRNA、またはタンパク質であり、該変化は、癌に関連する。変化は、正常もしくは健常な組織または細胞(例えば、対照)におけるその量、構造、および/または活性と比較した、癌組織または癌細胞の量、構造、および/または活性の変化であり得、癌等の病状に関連する。例えば、癌に関連したマーカー、または抗癌治療に対する応答性を予測するマーカーは、正常かつ健康な組織もしくは細胞と比較して、癌組織もしくは癌細胞におけるヌクレオチド配列、アミノ酸配列、染色体転座、染色体内逆位、コピー数、発現レベル、タンパク質レベル、タンパク質活性、またはメチル化状態の変化を有し得る。さらに、「マーカー」は、癌等の病状に関連した組織もしくは細胞に存在するときに、その構造が変化する、例えば、変異する(変異を含有する)、例えば、ヌクレオチドまたはアミノ酸レベルで野生型配列とは、例えば、置換、欠失、または挿入の分だけ異なる分子を含む。
【0162】
一実施形態において、標的遺伝子または遺伝子産物は、単一ヌクレオチド多型(SNP)を含む。別の実施形態では、遺伝子または遺伝子産物は、小さい欠失、例えば、小さい遺伝子内欠失(例えば、インフレームまたはフレームシフト欠失)を有する。さらに別の実施形態では、標的配列は、全遺伝子の欠失に起因する。さらに別の実施形態では、標的配列は、小さい挿入、例えば、小さい遺伝子内挿入を有する。一実施形態において、標的配列は、逆位、例えば、染色体内逆位に起因する。別の実施形態では、標的配列は、染色体間転座に起因する。さらに別の実施形態では、標的配列は、タンデム重複を有する。一実施形態において、標的配列は、望ましくない特徴(例えば、高GC含量または反復要素)を有する。別の実施形態では、標的配列は、例えば、その反復性のため、それ自体うまく標的化されることができないヌクレオチド配列の一部を有する。一実施形態において、標的配列は、選択的スプライシングに起因する。別の実施形態では、標的配列は、表1、1A、2、3、または4に従う遺伝子もしくは遺伝子産物、またはその断片から選択される。
【0163】
癌には、B細胞癌、例えば、多発性骨髄腫、黒色腫、乳癌、肺癌(非小細胞肺癌またはNSCLC等)、気管支癌、結腸直腸癌、前立腺癌、膵臓癌、胃癌(stomach cancer)、卵巣癌、膀胱癌(urinary bladder cancer)、脳または中枢神経系の癌、末梢神経系の癌、食道癌、子宮頸癌、子宮または子宮内膜癌、口腔または咽頭癌、肝臓癌、腎臓癌、睾丸癌、胆道癌、小腸または虫垂癌、唾液腺癌、甲状腺癌、副腎癌、骨肉腫、軟骨肉腫、血液組織の癌、腺癌、炎症性筋線維芽腫瘍、消化管間質腫瘍(GIST)、結腸癌、多発性骨髄腫(MM)、骨髄異形成症候群(MDS)、骨髄増殖症候群(MPD)、急性リンパ性白血病(ALL)、急性骨髄性白血病(AML)、慢性骨髄性白血病(CML)、慢性リンパ球性白血病(CLL)、真性赤血球増加症、ホジキンリンパ腫、非ホジキンリンパ腫(NHL)、軟部組織肉腫、線維肉腫、粘液肉腫、脂肪肉腫、骨肉腫、脊索腫、血管肉腫、内皮肉腫、リンパ管肉腫、リンパ管内皮肉腫、滑液腫瘍、中皮腫、ユーイング腫瘍、平滑筋肉腫、横紋筋肉腫、扁平上皮癌、基底細胞癌、腺癌、汗腺癌、脂腺癌、乳頭癌、乳頭腺癌、髄様癌、気管支癌、腎細胞癌、肝癌、胆管癌、絨毛腫、セミノーマ、胎生期癌、ウィルムス腫瘍、膀胱癌(bladder carcinoma)、上皮癌、神経膠腫、星状細胞腫、髄芽細胞腫、頭蓋咽頭腫、上衣細胞腫、松果体腫、血管芽細胞腫、聴神経腫、乏突起膠腫、髄膜腫、神経芽細胞腫、網膜芽細胞腫、濾胞性リンパ腫、びまん性大細胞型B細胞リンパ腫、マントル細胞リンパ腫、肝細胞癌、甲状腺癌、胃癌(gastric cancer)、頭頸部癌、小細胞癌、本態性血小板血症、原発性骨髄線維症、好酸球増加症候群、全身性肥満細胞症、家族性過好酸球増加症、慢性好酸球性白血病、神経内分泌癌、カルチノイド腫瘍等が含まれるが、これらに限定されない。
【0164】
一実施形態において、標的遺伝子もしくは遺伝子産物は、ABCB1、ABCC2、ABCC4、ABCG2、ABL1、ABL2、AKT1、AKT2、AKT3、ALK、APC、AR、ARAF、ARFRP1、ARID1A、ATM、ATR、AURKA、AURKB、BCL2、BCL2A1、BCL2L1、BCL2L2、BCL6、BRAF、BRCA1、BRCA2、C1orf144、CARD11、CBL、CCND1、CCND2、CCND3、CCNE1、CDH1、CDH2、CDH20、CDH5、CDK4、CDK6、CDK8、CDKN2A、CDKN2B、CDKN2C、CEBPA、CHEK1、CHEK2、CRKL、CRLF2、CTNNB1、CYP1B1、CYP2C19、CYP2C8、CYP2D6、CYP3A4、CYP3A5、DNMT3A、DOT1L、DPYD、EGFR、EPHA3、EPHA5、EPHA6、EPHA7、EPHB1、EPHB4、EPHB6、ERBB2、ERBB3、ERBB4、ERCC2、ERG、ESR1、ESR2、ETV1、ETV4、ETV5、ETV6、EWSR1、EZH2、FANCA、FBXW7、FCGR3A、FGFR1、FGFR2、FGFR3、FGFR4、FLT1、FLT3、FLT4、FOXP4、GATA1、GNA11、GNAQ、GNAS、GPR124、GSTP1、GUCY1A2、HOXA3、HRAS、HSP90AA1、IDH1、IDH2、IGF1R、IGF2R、IKBKE、IKZF1、INHBA、IRS2、ITPA、JAK1、JAK2、JAK3、JUN、KDR、KIT、KRAS、LRP1B、LRP2、LTK、MAN1B1、MAP2K1、MAP2K2、MAP2K4、MCL1、MDM2、MDM4、MEN1、MET、MITF、MLH1、MLL、MPL、MRE11A、MSH2、MSH6、MTHFR、MTOR、MUTYH、MYC、MYCL1、MYCN、NF1、NF2、NKX2−1、NOTCH1、NPM1、NQO1、NRAS、NRP2、NTRK1、NTRK3、PAK3、PAX5、PDGFRA、PDGFRB、PIK3CA、PIK3R1、PKHD1、PLCG1、PRKDC、PTCH1、PTEN、PTPN11、PTPRD、RAF1、RARA、RB1、RET、RICTOR、RPTOR、RUNX1、SLC19A1、SLC22A2、SLCO1B3、SMAD2、SMAD3、SMAD4、SMARCA4、SMARCB1、SMO、SOD2、SOX10、SOX2、SRC、STK11、SULT1A1、TBX22、TET2、TGFBR2、TMPRSS2、TOP1、TP53、TPMT、TSC1、TSC2、TYMS、UGT1A1、UMPS、USP9X、VHL、およびWT1からなる群から選択される全長のものまたはそれらの断片から選択される。
【0165】
一実施形態において、標的遺伝子もしくは遺伝子産物、またはその断片は、薬理遺伝学および薬理ゲノム学(PGx)、例えば、薬物代謝および毒性に関連する1つ以上のSNPを有する。例となる遺伝子または遺伝子産物には、ABCB1、ABCC2、ABCC4、ABCG2、C1orf144、CYP1B1、CYP2C19、CYP2C8、CYP2D6、CYP3A4、CYP3A5、DPYD、ERCC2、ESR2、FCGR3A、GSTP1、ITPA、LRP2、MAN1B1、MTHFR、NQO1、NRP2、SLC19A1、SLC22A2、SLCO1B3、SOD2、SULT1A1、TPMT、TYMS、UGT1A1、およびUMPSが含まれるが、これらに限定されない。
【0166】
別の実施形態では、標的遺伝子もしくは遺伝子産物、またはその断片は、癌に関連した1つ以上のコドンを有する。例となる遺伝子または遺伝子産物には、ABL1(例えば、コドン315)、AKT1、ALK、APC(例えば、コドン1114、1338、1450、および1556)、AR、BRAF(例えば、コドン600)、CDKN2A、CEBPA、CTNNB1(例えば、コドン32、33、34、37、41、および45)、EGFR(例えば、719、746−750、768、790、858、および861)、ERBB2、ESR1、FGFR1、FGFR2、FGFR3、FLT3(例えば、コドン835)、HRAS(例えば、コドン12、13、および61)、JAK2(例えば、コドン617)、KIT(例えば、コドン816)、KRAS(例えば、コドン12、13、および61)、MET、MLL、MYC、NF1、NOTCH1、NPM1、NRAS、PDGFRA、PIK3CA(例えば、コドン88、542、545、546、1047、および1049)、PTEN(例えば、コドン130、173、233、および267)、RB1、RET(例えば、コドン918)、TP53(例えば、175、245、248、273、および306)が含まれるが、これらに限定されない。
【0167】
さらに別の実施形態では、標的遺伝子もしくは遺伝子産物、またはその断片は、癌に関連する。例となる遺伝子または遺伝子産物には、ABL2、AKT2、AKT3、ARAF、ARFRP1、ARID1A、ATM、ATR、AURKA、AURKB、BCL2、BCL2A1、BCL2L1、BCL2L2、BCL6、BRCA1、BRCA2、CARD11、CBL、CCND1、CCND2、CCND3、CCNE1、CDH1、CDH2、CDH20、CDH5、CDK4、CDK6、CDK8、CDKN2B、CDKN2C、CHEK1、CHEK2、CRKL、CRLF2、DNMT3A、DOT1L、EPHA3、EPHA5、EPHA6、EPHA7、EPHB1、EPHB4、EPHB6、ERBB3、ERBB4、ERG、ETV1、ETV4、ETV5、ETV6、EWSR1、EZH2、FANCA、FBXW7、FGFR4、FLT1、FLT4、FOXP4、GATA1、GNA11、GNAQ、GNAS、GPR124、GUCY1A2、HOXA3、HSP90AA1、IDH1、IDH2、IGF1R、IGF2R、IKBKE、IKZF1、INHBA、IRS2、JAK1、JAK3、JUN、KDR、LRP1B、LTK、MAP2K1、MAP2K2、MAP2K4、MCL1、MDM2、MDM4、MEN1、MITF、MLH1、MPL、MRE11A、MSH2、MSH6、MTOR、MUTYH、MYCL1、MYCN、NF2、NKX2−1、NTRK1、NTRK3、PAK3、PAX5、PDGFRB、PIK3R1、PKHD1、PLCG1、PRKDC、PTCH1、PTPN11、PTPRD、RAF1、RARA、RICTOR、RPTOR、RUNX1、SMAD2、SMAD3、SMAD4、SMARCA4、SMARCB1、SMO、SOX10、SOX2、SRC、STK11、TBX22、TET2、TGFBR2、TMPRSS2、TOP1、TSC1、TSC2、USP9X、VHL、およびWT1が含まれるが、これらに限定されない。
【0168】
前述の方法の適用は、医学検体における配列決定のために特定の遺伝子または遺伝子のすべての既知の配列バリアント(またはそのサブセット)を含有するオリゴヌクレオチドのライブラリの使用を含む。
遺伝子選択モジュール
【0169】
このモジュールは、本発明で取り上げられる方法で用いる複数の組のサブゲノム間隔、例えば、本明細書に記載の遺伝子および他の領域の複数の組または群のサブゲノム間隔を開示する。
【0170】
1名以上の対象由来の試料、例えば、腫瘍試料由来の多数の遺伝子および遺伝子産物を配列決定するための最適化方法およびアッセイが開示される。一実施形態において、本発明で特色とする方法およびアッセイ、例えば、多数の遺伝子に多数の様々な遺伝的事象からの複数のシグナルを組み込むアッセイは、マルチプレックスな多重遺伝子アッセイ形式で使用される。癌表現型(例えば、癌の危険性、癌進行、癌治療応答、または癌治療に対する抵抗のうちの1つ以上)に(例えば、正もしくは負に)関連する事前選択された組の遺伝子または遺伝子産物に少なくともある程度基づく方法およびアッセイが本明細書に開示される。そのような事前選択された遺伝子または遺伝子産物は、配列決定方法、具体的には、例えば、腫瘍または対照試料由来の多数の様々な遺伝子の大規模並列配列決定に依存する方法の適用を可能にする
【0171】
したがって、本発明は、試料、例えば、腫瘍試料を分析する方法を特色とする。方法は、
(a)複数のメンバーを含むライブラリを試料から、例えば、複数の腫瘍メンバーを含むライブラリを腫瘍試料から取得することと、
(b)任意で、例えば、ライブラリをベイトセット(または複数のベイトセット)と接触させることによって、事前選択された配列のライブラリを濃縮して、選択されたメンバー(本明細書でライブラリ捕獲物と称される場合もある)を提供することと、
(c)サブゲノム間隔についての読み取りを、例えば、配列決定を含む方法によって、例えば、次世代配列決定方法を用いて、該ライブラリまたはライブラリ捕獲物からのメンバー、例えば、腫瘍メンバーから取得することと、
(d)該読み取りを、アライメント方法、例えば、本明細書に記載のアライメント方法を用いてアライメントすることと、
(e)事前選択されたヌクレオチド位置に対する該読み取りからのヌクレオチド値を割り当てる(例えば、ベイズ方法または本明細書に記載の方法を用いて、例えば、変異を呼び出す)ことと、を含み、
それによって、該腫瘍試料を分析し、
方法は、例えば、次世代配列決定方法を用いて、試料由来の少なくとも5、6、7、8、9、10、15、20、25、30個、もしくはそれ以上の遺伝子もしくは遺伝子産物由来のサブゲノム間隔を配列決定することを含み、遺伝子もしくは遺伝子産物は、ABL1、AKT1、AKT2、AKT3、ALK、APC、AR、BRAF、CCND1、CDK4、CDKN2A、CEBPA、CTNNB1、EGFR、ERBB2、ESR1、FGFR1、FGFR2、FGFR3、FLT3、HRAS、JAK2、KIT、KRAS、MAP2K1、MAP2K2、MET、MLL、MYC、NF1、NOTCH1、NPM1、NRAS、NTRK3、PDGFRA、PIK3CA、PIK3CG、PIK3R1、PTCH1、PTCH2、PTEN、RB1、RET、SMO、STK11、SUFU、またはTP53から選択される。
【0172】
ある実施形態において、ステップ(b)が存在する。ある実施形態において、ステップ(b)が欠如する。
【0173】
したがって、実施形態において、方法は、例えば、次世代配列決定方法を用いて、取得された核酸試料由来の少なくとも5、6、7、8、9、10、15、20、25、30個、もしくはそれ以上の遺伝子もしくは遺伝子産物由来のサブゲノム間隔を配列決定することを含み、遺伝子もしくは遺伝子産物は、ABL1、AKT1、AKT2、AKT3、ALK、APC、AR、BRAF、CCND1、CDK4、CDKN2A、CEBPA、CTNNB1、EGFR、ERBB2、ESR1、FGFR1、FGFR2、FGFR3、FLT3、HRAS、JAK2、KIT、KRAS、MAP2K1、MAP2K2、MET、MLL、MYC、NF1、NOTCH1、NPM1、NRAS、NTRK3、PDGFRA、PIK3CA、PIK3CG、PIK3R1、PTCH1、PTCH2、PTEN、RB1、RET、SMO、STK11、SUFU、またはTP53から選択され、それによって、腫瘍試料を分析する。
【0174】
ある特定の実施形態において、方法またはアッセイは、ABL2、ARAF、ARFRP1、ARID1A、ATM、ATR、AURKA、AURKB、BAP1、BCL2、BCL2A1、BCL2L1、BCL2L2、BCL6、BRCA1、BRCA2、CBL、CARD11、CBL、CCND2、CCND3、CCNE1、CD79A、CD79B、CDH1、CDH2、CDH20、CDH5、CDK6、CDK8、CDKN2B、CDKN2C、CHEK1、CHEK2、CRKL、CRLF2、DNMT3A、DOT1L、EPHA3、EPHA5、EPHA6、EPHA7、EPHB1、EPHB4、EPHB6、ERBB3、ERBB4、ERG、ETV1、ETV4、ETV5、ETV6、EWSR1、EZH2、FANCA、FBXW7、FGFR4、FLT1、FLT4、FOXP4、GATA1、GNA11、GNAQ、GNAS、GPR124、GUCY1A2、HOXA3、HSP90AA1、IDH1、IDH2、IGF1R、IGF2R、IKBKE、IKZF1、INHBA、IRS2、JAK1、JAK3、JUN、KDM6A、KDR、LRP1B、LRP6、LTK、MAP2K4、MCL1、MDM2、MDM4、MEN1、MITF、MLH1、MPL、MRE11A、MSH2、MSH6、MTOR、MUTYH、MYCL1、MYCN、NF2、NKX2−1、NTRK1、NTRK2、PAK3、PAX5、PDGFRB、PKHD1、PLCG1、PRKDC、PTPN11、PTPRD、RAF1、RARA、RICTOR、RPTOR、RUNX1、SMAD2、SMAD3、SMAD4、SMARCA4、SMARCB1、SOX10、SOX2、SRC、TBX22、TET2、TGFBR2、TMPRSS2、TNFAIP3、TNK、TNKS2、TOP1、TSC1、TSC2、USP9X、VHL、またはWT1のうちの1、2、3、4、5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120個、もしくはそれ以上から選択される遺伝子または遺伝子産物由来のサブゲノム間隔を配列決定することをさらに含む。
【0175】
他の実施形態では、方法またはアッセイは、薬物代謝、薬物応答性、または毒性のうちの1つ以上に関連した遺伝子もしくは遺伝子産物(本明細書で「PGx」遺伝子とも称される)中に存在するサブゲノム間隔を配列決定することをさらに含む。ある特定の実施形態において、配列決定されるサブゲノム間隔は、変化(例えば、単一ヌクレオチド多型(SNP))を含む。一実施形態において、配列決定されるサブゲノム間隔は、ABCB1、BCC2、ABCC4、ABCG2、C1orf144、CYP1B1、CYP2C19、CYP2C8、CYP2D6、CYP3A4、CYP3A5、DPYD、ERCC2、ESR2、FCGR3A、GSTP1、ITPA、LRP2、MAN1B1、MTHFR、NQO1、NRP2、SLC19A1、SLC22A2、SLCO1B3、SOD2、SULT1A1、TPMT、TYMS、UGT1A1、またはUMPSのうちの1、2、3、4、5、10、15、20、25、30個、もしくはそれ以上から選択される遺伝子または遺伝子産物に由来する。
【0176】
他の実施形態では、方法またはアッセイは、ARFRP1、BCL2A1、CARD11、CDH20、CDH5、DDR2、EPHA3、EPHA5、EPHA7、EPHB1、FOXP4、GPR124、GUCY1A2、INSR、LRP1B、LTK、PAK3、PHLPP2、PLCG1、PTPRD、STAT3、TBX22、またはUSP9Xのうちの1、2、3、4、5、10、15、20個、もしくはそれ以上から選択される遺伝子または遺伝子産物中に存在するサブゲノム間隔を配列決定することをさらに含む。
【0177】
ある特定の実施形態において、核酸試料の配列決定されたサブゲノム間隔は、表1もしくは表1Aの少なくとも50、75、100、150、200個、もしくはそれ以上の遺伝子または遺伝子産物由来のヌクレオチド配列を含む。他の実施形態では、核酸試料の配列決定されたサブゲノム間隔は、表1もしくは表1Aに明記される癌型由来の腫瘍試料から取得された表1もしくは表1Aの少なくとも50、75、100、150、200個、もしくはそれ以上の遺伝子または遺伝子産物由来のヌクレオチド配列を含む。さらに他の実施形態では、配列決定されたサブゲノム間隔は、表1もしくは表1Aに従う優先順位が1の遺伝子およびPGx遺伝子(例えば、表1もしくは表1Aに従う、少なくとも5、10、20、もしくは30個の優先順位が1の遺伝子、および少なくとも5、10、20、もしくは30個のPGX遺伝子)との組み合わせを含む。他の実施形態では、配列決定されたサブゲノム間隔は、表1もしくは表1Aに従う、優先順位が1の遺伝子、癌遺伝子、およびPGx遺伝子(例えば、表1もしくは表1Aに従う、少なくとも5、10、20、もしくは30個の優先順位が1の遺伝子;少なくとも5、10、20、もしくは30個の癌遺伝子;および少なくとも5、10、20、もしくは30個のPGX遺伝子)の組み合わせを含む。
【0178】
ある特定の実施形態において、核酸試料の配列決定されたサブゲノム間隔は、ABL1遺伝子のコドン315;APCのコドン1114、1338、1450、もしくは1556;BRAFのコドン600;CTNNB1のコドン32、33、34、37、41、もしくは45;EGFRのコドン719、746〜750、768、790、858、もしくは861;FLT3のコドン835;HRASのコドン12、13、もしくは61;JAK2のコドン617;KITのコドン816;KRASのコドン12、13、もしくは61;PIK3CAのコドン88、542、545、546、1047、もしくは1049;PTENのコドン130、173、233、もしくは267;RETのコドン918;TP53のコドン175、245、248、273、もしくは306のうちの1つ以上から選択されるコドンを含む。ある特定の実施形態において、前述のコドンのうちの2、3、4、5、10、15、20個、もしくはそれ以上が配列決定される。他の実施形態では、配列決定されたサブゲノム間隔は、表1もしくは表1Aに示されるコドンのうちの1つ以上を含む。
【0179】
他の実施形態では、核酸試料の配列決定されたサブゲノム間隔は、表1の少なくとも1、5、10、15、20、25個、もしくはそれ以上のPGx遺伝子または遺伝子産物由来のヌクレオチド配列を含む。他の実施形態では、核酸試料の配列決定されたサブゲノム間隔は、表2の少なくとも1、5、10、15、20、25、30、35、40、45、50、75個、もしくはそれ以上のPGx遺伝子または遺伝子産物由来のヌクレオチド配列を含む。さらに他の実施形態では、配列決定されたサブゲノム間隔は、薬物代謝、薬物応答性、薬物毒性、または副作用のうちの1つ以上に関連した表2に従う少なくとも1つのPGx遺伝子(および/または少なくとも1つのPGx遺伝子変異)由来のヌクレオチド配列を含む。例えば、配列決定されたサブゲノム間隔は、薬物で治療された癌患者のより良好な生存率(例えば、パクリタキセル(例えば、ABCB1遺伝子)で治療された乳癌患者のより良好な生存率)に関連した少なくとも1個のPGx遺伝子由来のヌクレオチド配列を含み得る。他の実施形態では、配列決定されたサブゲノム間隔は、パクリタキセル代謝(例えば、表2に示される異なる遺伝子座および変異におけるCYP2C8遺伝子、CYP3A4遺伝子)に関連する。さらに他の実施形態では、配列決定されたサブゲノム間隔は、薬物に対する毒性(例えば、ABCC4遺伝子で見られる6−MP毒性(表2);DPYD遺伝子、TYMS遺伝子、およびUMPS遺伝子で見られる5−FU毒性(表2);TMPT遺伝子で見られるプリン毒性(表2);NRP2遺伝子、Clorf144遺伝子、CYP1B1遺伝子で見られるダウノルビシン毒性(表2))に関連する。他の実施形態では、配列決定されたサブゲノム間隔は、薬物の副作用(例えば、ABCG2、TYMS、UGT1A1、ESR1、およびESR2遺伝子(表2))に関連する。
【0180】
別の実施形態では、以下の組または群のうちの1つ由来のサブゲノム間隔、例えば、腫瘍または癌遺伝子もしくは遺伝子産物、参照(例えば、野生型)遺伝子もしくは遺伝子産物、またはPGx遺伝子もしくは遺伝子産物に関連したサブゲノム間隔が分析され、それによって、腫瘍試料由来のサブゲノム間隔の選択されたサブセットが得られる。
【0181】
ある実施形態において、方法は、腫瘍試料由来のサブゲノム間隔のサブセットを配列決定し、サブゲノム間隔は、以下のうちの少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13個、もしくはすべてから選択される:
A)ABL1、AKT1、AKT2、AKT3、ALK、APC、AR、BRAF、CCND1、CDK4、CDKN2A、CEBPA、CTNNB1、EGFR、ERBB2、ESR1、FGFR1、FGFR2、FGFR3、FLT3、HRAS、JAK2、KIT、KRAS、MAP2K1、MAP2K2、MET、MLL、MYC、NF1、NOTCH1、NPM1、NRAS、NTRK3、PDGFRA、PIK3CA、PIK3CG、PIK3R1、PTCH1、PTCH2、PTEN、RB1、RET、SMO、STK11、SUFU、またはTP53のうちの少なくとも5つ以上から選択される変異または野生型遺伝子もしくは遺伝子産物由来の少なくとも5、6、7、8、9、10、15、20、25、30個、もしくはそれ以上のサブゲノム間隔、
B)ABL2、ARAF、ARFRP1、ARID1A、ATM、ATR、AURKA、AURKB、BAP1、BCL2、BCL2A1、BCL2L1、BCL2L2、BCL6、BRCA1、BRCA2、CBL、CARD11、CBL、CCND2、CCND3、CCNE1、CD79A、CD79B、CDH1、CDH2、CDH20、CDH5、CDK6、CDK8、CDKN2B、CDKN2C、CHEK1、CHEK2、CRKL、CRLF2、DNMT3A、DOT1L、EPHA3、EPHA5、EPHA6、EPHA7、EPHB1、EPHB4、EPHB6、ERBB3、ERBB4、ERG、ETV1、ETV4、ETV5、ETV6、EWSR1、EZH2、FANCA、FBXW7、FGFR4、FLT1、FLT4、FOXP4、GATA1、GNA11、GNAQ、GNAS、GPR124、GUCY1A2、HOXA3、HSP90AA1、IDH1、IDH2、IGF1R、IGF2R、IKBKE、IKZF1、INHBA、IRS2、JAK1、JAK3、JUN、KDM6A、KDR、LRP1B、LRP6、LTK、MAP2K4、MCL1、MDM2、MDM4、MEN1、MITF、MLH1、MPL、MRE11A、MSH2、MSH6、MTOR、MUTYH、MYCL1、MYCN、NF2、NKX2−1、NTRK1、NTRK2、PAK3、PAX5、PDGFRB、PKHD1、PLCG1、PRKDC、PTPN11、PTPRD、RAF1、RARA、RICTOR、RPTOR、RUNX1、SMAD2、SMAD3、SMAD4、SMARCA4、SMARCB1、SOX10、SOX2、SRC、TBX22、TET2、TGFBR2、TMPRSS2、TNFAIP3、TNK、TNKS2、TOP1、TSC1、TSC2、USP9X、VHL、またはWT1のうちの少なくとも5つ以上から選択される変異または野生型遺伝子もしくは遺伝子産物由来の少なくとも5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120個、もしくはそれ以上のサブゲノム間隔、
C)表1、1A、2、3、もしくは4に従う遺伝子もしくは遺伝子産物由来の少なくとも5、6、7、8、9、10、15、20個、もしくはそれ以上のサブゲノム間隔、
D)腫瘍もしくは癌に関連した(例えば、腫瘍もしくは癌の正もしくは負の治療応答予測因子であるか、腫瘍もしくは癌の正もしくは負の予後因子であるか、または腫瘍もしくは癌の差次的診断を可能にする)遺伝子もしくは遺伝子産物、例えば、ABL1、AKT1、ALK、AR、BRAF、BRCA1、BRCA2、CEBPA、EGFR、ERBB2、FLT3、JAK2、KIT、KRAS、MET、NPM1、PDGFRA、PIK3CA、RARA、AKT2、AKT3、MAP2K4、NOTCH1、およびTP53のうちの1つ以上から選択される遺伝子もしくは遺伝子産物由来の少なくとも5、6、7、8、9、10、15、20個、もしくはそれ以上のサブゲノム間隔、
E)ABL1遺伝子のコドン315;APCのコドン1114、1338、1450、もしくは1556;BRAFのコドン600;CTNNB1のコドン32、33、34、37、41、もしくは45;EGFRのコドン719、746−750、768、790、858、もしくは861;FLT3のコドン835;HRASのコドン12、13、もしくは61;JAK2のコドン617;KITのコドン816;KRASのコドン12、13、もしくは61;PIK3CAのコドン88、542、545、546、1047、もしくは1049;PTENのコドン130、173、233、もしくは267;RETのコドン918;TP53のコドン175、245、248、273、もしくは306のうちの1つ以上から選択される変異コドンまたは野生型コドンを含む、少なくとも5、6、7、8、9、10個、もしくはそれ以上のサブゲノム間隔(例えば、表1もしくは表1Aに示されるコドンのうちの1つ以上を含む、少なくとも5、10、15、20個、もしくはそれ以上のサブゲノム間隔)、
F)ABCB1、BCC2、ABCC4、ABCG2、C1orf144、CYP1B1、CYP2C19、CYP2C8、CYP2D6、CYP3A4、CYP3A5、DPYD、ERCC2、ESR2、FCGR3A、GSTP1、ITPA、LRP2、MAN1B1、MTHFR、NQO1、NRP2、SLC19A1、SLC22A2、SLCO1B3、SOD2、SULT1A1、TPMT、TYMS、UGT1A1、またはUMPSから選択される薬物代謝、薬物応答性、または毒性のうちの1つ以上に関連した遺伝子または遺伝子産物に存在するサブゲノム間隔の変異または野生型遺伝子もしくは遺伝子産物(例えば、単一ヌクレオチド多型(SNP))由来の少なくとも5、6、7、8、9、10、15、20、25、30個、もしくはそれ以上のサブゲノム間隔、
G)(i)薬物で治療された癌患者のより良好な生存率(例えば、パクリタキセル(例えば、ABCB1遺伝子)で治療された乳癌患者のより良好な生存率)、(ii)パクリタキセル代謝(例えば、表2に示される異なる遺伝子座および変異におけるCYP2C8遺伝子、CYP3A4遺伝子)、(iii)薬物に対する毒性(例えば、ABCC4遺伝子で見られる6−MP毒性(表2);DPYD遺伝子、TYMS遺伝子、もしくはUMPS遺伝子で見られる5−FU毒性(表2);TMPT遺伝子で見られるプリン毒性(表2);NRP2遺伝子、Clorf144遺伝子、CYP1B1遺伝子で見られるダウノルビシン毒性(表2)、または(iv)薬物の副作用(例えば、ABCG2、TYMS、UGT1A1、ESR1、およびESR2遺伝子(表2))のうちの1つ以上に関連した遺伝子もしくは遺伝子産物に存在するサブゲノム間隔の変異または野生型PGx遺伝子もしくは遺伝子産物(例えば、単一ヌクレオチド多型(SNP))由来の少なくとも5、6、7、8、9、10、15、20、25、30個、もしくはそれ以上のサブゲノム間隔、
H)表3に従う少なくとも5、10、15、20、25、30、35、40、45、50、75、110個、もしくはそれ以上の遺伝子または遺伝子産物の転座変化、
J)表3に明記される癌型由来の固形腫瘍試料における、表3に従う少なくとも5、10、15、20、25、30、35、40、45、50、75、110個、もしくはそれ以上の遺伝子もしくは遺伝子産物の転座変化、
K)表4に従う少なくとも5、10、15、20、25、30、35、40、45、50、75、100、150、200個、もしくはそれ以上の遺伝子もしくは遺伝子産物の転座変化、
L)表4に明記される癌型由来のヘム腫瘍試料における、表4に従う少なくとも5、10、15、20、25、30、35、40、45、50、75、100、150、200個、もしくはそれ以上の遺伝子もしくは遺伝子産物の転座変化、
M)例えば、事前選択された位置での対立遺伝子変異は、事前選択された腫瘍型に関連し、該対立遺伝子変異は、該腫瘍型の細胞の5%未満に存在する、表1、表1A−4から選択される少なくとも5個の遺伝子もしくは遺伝子産物、
N)GCが豊富な領域に埋め込まれる表1、表1A−4から選択される少なくとも5個の遺伝子もしくは遺伝子産物、あるいは
O)癌を発現させる遺伝(例えば、生殖細胞系危険)因子を示す少なくとも5個の遺伝子もしくは遺伝子産物(例えば、遺伝子もしくは遺伝子産物は、BRCA1、BRCA2、EGFR、HRAS、KIT、MPL、ALK、PTEN、RET、APC、CDKN2A、MLH1、MSH2、MSH6、NF1、NF2、RB1、TP53、VHL、またはWT1のうちの1つ以上から選択される)。
【0182】
ある特定の実施形態において、方法またはアッセイを取得するステップは、該腫瘍試料由来の本明細書に記載の複数の腫瘍または癌関連メンバー、参照メンバー、および/またはPGxメンバーを含むライブラリを取得することを含む。ある特定の実施形態において、選択するステップは、例えば、それぞれ、本明細書に記載の遺伝子または遺伝子産物由来のサブゲノム間隔を含む、腫瘍もしくは癌関連メンバー、参照メンバー(例えば、野生型メンバー)、またはPGxメンバーを選択または濃縮するために、溶液ベースのハイブリダイゼーションを含む。
【0183】
本発明のさらなる実施形態または特徴は、以下の通りである。
一実施形態において、核酸試料のサブゲノム間隔は、遺伝子内領域または遺伝子間領域を含む。一実施形態において、サブゲノム間隔は、遺伝子もしくはその断片、エクソンもしくはその断片、または事前選択されたヌクレオチド位置を含む。別の実施形態では、サブゲノム間隔は、エクソンもしくはイントロン、またはその断片、典型的には、エクソンまたはその断片を含む。一実施形態において、サブゲノム間隔は、コード領域または非コード領域、例えば、プロモーター、エンハンサー、5’非翻訳領域(5’UTR)、もしくは3’非翻訳領域(3’UTR)、またはその断片を含む。
【0184】
他の実施形態では、核酸試料のサブゲノム間隔は、例えば、癌表現型(例えば、癌の危険性、癌進行、癌治療、または治療に対する抵抗のうちの1つ以上)に正もしくは負に関連した変化(例えば、1つ以上の変異)を含む。さらに別の実施形態では、サブゲノム間隔は、変化、例えば、点変異もしくは単一変異、欠失変異(例えば、インフレーム欠失、遺伝子内欠失、全遺伝子欠失)、挿入変異(例えば、遺伝子内挿入)、逆位変異(例えば、染色体内逆位)、連鎖変異、連鎖された挿入変異、逆位重複変異、タンデム重複(例えば、染色体内タンデム重複)、転座(例えば、染色体転座、非相反転座)、再編成、遺伝子コピー数の変化、またはそれらの組み合わせを含む。
【0185】
他の実施形態では、核酸試料のサブゲノム間隔は、試料由来の腫瘍型の癌表現型に関連しない核酸分子を(同一または異なるサブゲノム間隔において)含む。一実施形態において、配列決定されたサブゲノム間隔は、変異が癌表現型に関連するとき、遺伝子もしくは遺伝子産物の野生型または非変異ヌクレオチド配列(例えば、エクソン配列またはその断片)(例えば、本明細書に記載の遺伝子もしくは遺伝子産物の野生型または非変異配列)を含む。例えば、配列決定されたサブゲノム間隔は、腫瘍を有するか、または有する危険性のある同一の対象由来の正常な(例えば、非癌性)参照試料(例えば、腫瘍試料を得た同一の対象由来)、正常な隣接組織(NAT)、または血液試料に由来する。他の実施形態では、配列決定されたサブゲノム間隔は、1名以上の異なる対象(例えば、健常な対象、あるいは腫瘍を有するか、または有する危険性のある他の対象)由来の腫瘍または癌関連メンバーとは異なる対象に由来する(例えば、異なる対象由来の同一もしくは異なる腫瘍試料、正常な(例えば、非癌性)参照試料、正常な隣接組織(NAT)、または血液試料のうちの1つ以上に由来する)。
【0186】
他の実施形態では、核酸試料のサブゲノム間隔は、表3、表4、またはそれらの組み合わせに示される1つ以上の転座変化を含む。ある特定の実施形態において、配列決定されたサブゲノム間隔は、表3に従う少なくとも5、10、15、20、25、30、35、40、45、50、75、110個、もしくはそれ以上の遺伝子または遺伝子産物の転座変化を含む。他の実施形態では、配列決定されたサブゲノム間隔は、表3に明記される癌型由来の腫瘍試料における表3に従う少なくとも5、10、15、20、25、30、35、40、45、50、75、110個、もしくはそれ以上の遺伝子または遺伝子産物の転座変化を含む。他の実施形態では、配列決定されたサブゲノム間隔は、表4に従う少なくとも5、10、15、20、25、30、35、40、45、50、75、100、150、200個、もしくはそれ以上の遺伝子または遺伝子産物の転座変化を含む。他の実施形態では、配列決定されたサブゲノム間隔は、表4に明記される癌型由来の腫瘍試料における表4の少なくとも5、10、15、20、25、30、35、40、45、50、75、100、150、200個、もしくはそれ以上の遺伝子または遺伝子産物の転座変化を含む。
【0187】
一実施形態において、核酸試料のサブゲノム間隔は、癌表現型に関連した単一ヌクレオチド変化を含むエクソン配列を含む。例えば、サブゲノム間隔は、染色体12のヌクレオチド25,398,215〜25,398,334を含む。他の実施形態では、サブゲノム間隔は、KRAS遺伝子においてG12S変異を表す25,398,286位でのC−T置換を含む。
【0188】
別の実施形態では、核酸試料のサブゲノム間隔は、参照ヌクレオチド(例えば、染色体)配列由来の1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20個、もしくはそれ以上のコドンのインフレーム欠失を含む。一実施形態において、サブゲノム間隔は、EGFR遺伝子のコドン746〜750のインフレーム欠失を含む(例えば、サブゲノム間隔は、染色体7のヌクレオチド55,242,400〜55,242,535を含むが、ヌクレオチド55,242,464〜55,242,479を欠く)。
【0189】
さらに別の実施形態では、核酸試料のサブゲノム間隔は、PTEN遺伝子のコドン64からのジヌクレオチド配列「CA」の欠失を含む(例えば、サブゲノム間隔は、染色体10のヌクレオチド9,675,214〜89,675,274、続いて、染色体10の塩基89,675,277〜89,675,337を含む)。
【0190】
さらに別の実施形態では、核酸試料のサブゲノム間隔は、PTENのコドン136に続くアミノ酸残基「Gly−Met」の挿入を含む(例えば、サブゲノム間隔は、染色体10のヌクレオチド89,692,864〜89,692,924、続いて、ヌクレオチド配列「GGNATG」、続いて、染色体10のヌクレオチド89,692,925〜89,692,980を含む)。
【0191】
さらに別の実施形態では、核酸試料のサブゲノム間隔は、CDKN2A遺伝子の欠失を含む(例えば、サブゲノム間隔は、染色体9の塩基22,001,175〜22,001,235に隣接した染色体9のヌクレオチド21,961,007〜21,961,067を含む)。
【0192】
別の実施形態では、配列決定された核酸試料のサブゲノム間隔は、EML4−ALK融合を引き起こす逆位を含む(例えば、サブゲノム間隔は、染色体2のヌクレオチド29,449,993〜29,449,933と並列した染色体2のヌクレオチド42,522,893〜42,522,953を含む)。
【0193】
別の実施形態では、核酸試料のサブゲノム間隔は、BCR−ABL融合をもたらす染色体間転座を含む(例えば、サブゲノム間隔は、染色体9のヌクレオチド133,681,793〜133,681,853と並列した染色体22のヌクレオチド23,632,552〜23,632,612を含む)。
【0194】
別の実施形態では、核酸試料のサブゲノム間隔は、FLT3遺伝子における内部タンデム重複(ITD)変異を含む(例えば、サブゲノム間隔は、同一の配向に2回反復した染色体13のヌクレオチド28,608,259〜28,608,285を含む)。
【0195】
別の実施形態では、核酸試料のサブゲノム間隔は、マイクロサテライトマーカー配列を含む(例えば、サブゲノム間隔は、D2S123のマイクロサテライトマーカー配列、例えば、染色体2のヌクレオチド51,288,380〜51,288,500およびヌクレオチド51,288,560〜51,288,680を含む)。
【0196】
別の実施形態では、核酸試料のサブゲノム間隔は、融合配列に対応するヌクレオチド配列(例えば、非融合転写物の融合転写物または癌関連の選択的スプライシングされた形態)を含む。
【0197】
他の実施形態では、核酸試料のサブゲノム間隔は、ヌクレオチド配列を含み、事前選択された対立遺伝子バリアントの存在もしくは不在は、癌関連の表現型(例えば、癌の危険性、癌進行、癌治療応答、または治療に対する抵抗、腫瘍病期分類、転移可能性等のうちの1つ以上)を示す。ある特定の実施形態において、配列決定された核酸試料のサブゲノム間隔は、ヌクレオチド配列を含み、事前選択された対立遺伝子バリアントの存在もしくは不在は、正の臨床転帰、および/または治療に対する応答性を予測する。他の実施形態では、配列決定された核酸試料のサブゲノム間隔は、ヌクレオチド配列を含み、事前選択された対立遺伝子バリアントの存在もしくは不在は、負の臨床転帰、および/または治療に対する応答性を予測する。ある特定の実施形態において、配列決定された核酸試料のサブゲノム間隔は、ヌクレオチド配列を含み、事前選択された対立遺伝子バリアントの存在または不在は、癌を発現させる遺伝(例えば、生殖細胞系危険)因子を示す(例えば、遺伝子または遺伝子産物は、BRCA1、BRCA2、EGFR、HRAS、KIT、MPL、ALK、PTEN、RET、APC、CDKN2A、MLH1、MSH2、MSH6、NF1、NF2、RB1、TP53、VHL、またはWT1のうちの1つ以上から選択される)。
【0198】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、表1、1A、3、もしくは4に記載される癌型のうちの1つ以上から選択される癌に関連した表1、1A、3、もしくは4に示される1つ以上の遺伝子または遺伝子産物に由来する。
【0199】
一実施形態において、核酸試料のサブゲノム間隔は、癌表現型、例えば、CML、ALL、またはT−ALLのうちの1つ以上から選択される軟組織悪性腫瘍に関連したABL−1遺伝子もしくは遺伝子産物に由来する。他の実施形態では、配列決定された核酸試料のサブゲノム間隔は、癌表現型、例えば、乳癌、結腸直腸癌、卵巣癌、または非小細胞肺癌(NSCLC)のうちの1つ以上から選択される癌に関連したAKT1遺伝子もしくは遺伝子産物に由来する。
【0200】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、ALCL、NSCLC、または神経芽細胞腫のうちの1つ以上から選択される癌に関連したALK遺伝子もしくは遺伝子産物に由来する。
【0201】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、結腸直腸癌、膵臓癌、類腱腫、肝芽腫、神経膠腫、または他のCNS癌もしくは腫瘍のうちの1つ以上から選択される癌に関連したAPC遺伝子もしくは遺伝子産物に由来する。
【0202】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、黒色腫、結腸直腸癌、肺癌、他の上皮悪性腫瘍、またはAMLもしくはALLを含む血液悪性腫瘍のうちの1つ以上から選択される癌に関連したBRAF遺伝子もしくは遺伝子産物に由来する。
【0203】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、黒色腫、膵臓癌、または他の腫瘍型のうちの1つ以上から選択される癌に関連したCDKN2A遺伝子もしくは遺伝子産物に由来する。
【0204】
他の実施形態では、配列決定された核酸試料のサブゲノム間隔は、癌表現型、例えば、AMLまたはMDSのうちの1つ以上から選択される癌に関連したCEBPA遺伝子もしくは遺伝子産物に由来する。
【0205】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、結腸直腸癌、卵巣癌、肝芽腫、または多形性唾液腺腫のうちの1つ以上から選択される癌に関連したCTNNB1遺伝子もしくは遺伝子産物に由来する。
【0206】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、神経膠腫、肺癌、またはNSCLCのうちの1つ以上から選択される癌に関連したEGFR遺伝子もしくは遺伝子産物に由来する。
【0207】
他の実施形態では、核酸試料のサブゲノム間隔は、例えば、癌表現型、例えば、乳癌、卵巣癌、NSCLC、胃癌、または他の固形腫瘍のうちの1つ以上から選択される癌に正もしくは負に関連したERBB2遺伝子もしくは遺伝子産物に由来する。
【0208】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、乳房腫瘍、卵巣腫瘍、または子宮内膜腫瘍のうちの1つ以上から選択される癌に関連したESR1遺伝子もしくは遺伝子産物に由来する。
【0209】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、MPDまたはNHLのうちの1つ以上から選択される癌に関連したFGFR1遺伝子もしくは遺伝子産物に由来する。
【0210】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、胃腫瘍、NSCLC、または子宮内膜腫瘍のうちの1つ以上から選択される癌に関連したFGFR2遺伝子もしくは遺伝子産物に由来する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、胃腫瘍、NSCLC、もしくは子宮内膜腫瘍のうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0211】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、膀胱癌、多発性骨髄腫、またはT細胞リンパ腫のうちの1つ以上から選択される癌に関連したFGFR3遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔に由来する。
【0212】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、AML、黒色腫、結腸直腸癌、甲状腺乳頭癌、卵巣癌、非小細胞肺癌(NSCLC)、胆管癌、または毛様細胞性星状細胞腫のうちの1つ以上から選択される癌に関連したFLT3遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔に由来する。
【0213】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、横紋筋肉腫、神経節芽細胞腫、膀胱癌、肉腫、または他の癌型のうちの1つ以上から選択される癌に関連したHRAS遺伝子もしくは遺伝子産物に由来する。
【0214】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、ALL、AML、MPD、またはCMLのうちの1つ以上から選択される癌に関連したJAK2遺伝子もしくは遺伝子産物に由来する。
【0215】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、消化管間質腫瘍(GIST)、AML、TGCT、肥満細胞症、粘膜黒色腫、または上皮腫のうちの1つ以上から選択される癌に関連したKIT遺伝子もしくは遺伝子産物に由来する。
【0216】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、膵臓癌、結腸癌、結腸直腸癌、肺癌、甲状腺癌、またはAMLのうちの1つ以上から選択される癌に関連したKRAS遺伝子もしくは遺伝子産物に由来する。
【0217】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、腎臓癌または頭頸部扁平上皮癌のうちの1つ以上から選択される癌に関連したMET遺伝子もしくは遺伝子産物に由来する。
【0218】
他の実施形態では、配列決定された核酸試料のサブゲノム間隔は、癌表現型、例えば、AMLまたはALLのうちの1つ以上から選択される癌に関連したMLL遺伝子もしくは遺伝子産物に由来する。
【0219】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、神経繊維腫または神経膠腫のうちの1つ以上から選択される癌に関連したNF1遺伝子もしくは遺伝子産物に由来する。
【0220】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、T−ALL癌に関連したNOTCH1遺伝子もしくは遺伝子産物に由来する。
【0221】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、NHL、APLまたはAMLのうちの1つ以上から選択される癌に関連したNPM1遺伝子もしくは遺伝子産物に由来する。
【0222】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、黒色腫、結腸直腸癌、多発性骨髄腫、AML、または甲状腺癌のうちの1つ以上から選択される癌に関連したNRAS遺伝子もしくは遺伝子産物に由来する。
【0223】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、GISTまたは特発性好酸球増加症候群のうちの1つ以上から選択される癌に関連したPDGFRA遺伝子もしくは遺伝子産物に由来する。
【0224】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、結腸直腸癌、胃癌、膠芽腫、または乳癌のうちの1つ以上から選択される癌に関連したPIK3CA遺伝子もしくは遺伝子産物に由来する。
【0225】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、結腸直腸癌、神経膠腫、前立腺癌、または子宮内膜癌のうちの1つ以上から選択される癌に関連したPTEN遺伝子もしくは遺伝子産物に由来する。
【0226】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、網膜芽細胞腫、肉腫、乳癌、または小細胞肺癌のうちの1つ以上から選択される癌に関連したRB1遺伝子もしくは遺伝子産物に由来する。
【0227】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、甲状腺髄様癌、甲状腺乳頭癌、または褐色細胞腫のうちの1つ以上から選択される癌に関連したRET遺伝子もしくは遺伝子産物に由来する。
【0228】
他の実施形態では、核酸試料のサブゲノム間隔は、癌表現型、例えば、乳癌、結腸直腸癌、肺癌、肉腫、副腎皮質癌、神経膠腫、または他の腫瘍型のうちの1つ以上から選択される癌に関連したTP53遺伝子もしくは遺伝子産物に由来する。
【0229】
一実施形態において、核酸試料のサブゲノム間隔は、治療応答の正の予測因子である。治療応答の正の予測因子の例には、NSCLC患者の小分子EGFR TKI(例えば、イレッサ/ゲフィチニブ)に対する応答性を予測するEGFR遺伝子における活性化変異、NSCLC患者のALK阻害剤(例えば、PF−02341066)に対する応答性を予測するEML4/ALK融合遺伝子の存在、黒色腫患者のBRAF阻害(例えば、PLX−4032)に対する応答性を予測するBRAF V600E変異の存在が挙げられるが、これらに限定されない。
【0230】
他の実施形態では、核酸試料のサブゲノム間隔は、治療応答の負の予測因子である。治療応答の負の予測因子の例には、CRC患者の抗EGFRモノクローナル抗体(セテュキマブ、パニツムマブ)への応答欠如を予測するKRAS遺伝子における活性化変異、およびCML患者のグリーベック/イマチニブに対する抵抗を予測するBCR/Abl融合遺伝子におけるM351T変異の存在が挙げられるが、これらに限定されない。
【0231】
他の実施形態では、核酸試料のサブゲノム間隔は、予後因子である。予後因子の例には、AML患者の再発の負の予後であるFLT3遺伝子における挿入変異の存在、甲状腺髄様癌患者の生存の負の予後因子である特定のRET遺伝子変異、例えば、M918Tの存在が挙げられるが、これらに限定されない。
【0232】
他の実施形態では、核酸試料のサブゲノム間隔は、診断因子である。予後因子の例には、CMLの診断であるBCR/Abl融合遺伝子の存在、および腎臓のラブドイド腫瘍の診断であるSMARCB1変異の存在が挙げられるが、これらに限定されない。
【0233】
他の実施形態では、核酸試料は、腫瘍試料中の細胞の少数の一部(例えば、5%未満)に存在する遺伝子または遺伝子産物由来のサブゲノム間隔を含む。一実施形態において、核酸試料は、例えば、癌関連の表現型に正もしくは負に関連するが、腫瘍試料中の細胞の少数の一部(例えば、未満5%)に存在する遺伝子または遺伝子産物由来のサブゲノム間隔を含む。他の実施形態では、核酸試料は、腫瘍試料中の細胞の50、40、30、10、5、もしくは1%未満に存在する遺伝子または遺伝子産物由来のサブゲノム間隔を含む。さらに他の実施形態では、核酸試料は、腫瘍試料中の細胞の50、60、70、80%を超えるか、もしくはそれ以上に存在する遺伝子または遺伝子産物由来のサブゲノム間隔を含む。
【0234】
さらに他の実施形態では、核酸試料は、腫瘍試料中の腫瘍細胞のゲノムのコード領域の5、1、0.5、0.1%、0.01%、0.001%未満に存在する遺伝子または遺伝子産物由来のサブゲノム間隔を含む。
【0235】
一実施形態において、核酸試料は、腫瘍または癌に関連した(例えば、腫瘍または癌の正もしくは負の治療応答予測因子であるか、腫瘍または癌の正もしくは負の予後因子であるか、あるいは腫瘍または癌の差次的診断を可能にする)遺伝子または遺伝子産物、例えば、ABL1、AKT1、ALK、AR、BRAF、BRCA1、BRCA2、CEBPA、EGFR、ERBB2、FLT3、JAK2、KIT、KRAS、MET、NPM1、PDGFRA、PIK3CA、RARA、AKT2、AKT3、MAP2K4、NOTCH1、およびTP53のうちの1つ以上から選択される遺伝子または遺伝子産物由来のサブゲノム間隔を含む。
【0236】
一実施形態において、遺伝子または遺伝子産物に関連した癌表現型は、腫瘍試料と同一の腫瘍型である。他の実施形態では、遺伝子または遺伝子産物に関連した癌表現型は、腫瘍試料とは異なる腫瘍型に由来する。
【0237】
ある特定の実施形態において、方法またはアッセイは、少なくともX名の対象(X=1、2、3、4、5、6、7、8、9、10、20、30、40名、またはそれ以上の対象)由来の腫瘍試料由来の核酸試料を配列決定することを含む。一実施形態において、対象は、癌もしくは腫瘍を有するか、または有する危険性のあるヒトである。方法は、少なくともX名の対象由来の本明細書に記載の少なくとも5、10、15、20、30、40、50、75個、もしくはそれ以上の遺伝子または遺伝子産物(例えば、表1、1A、2、3、もしくは4の遺伝子または遺伝子産物)を配列決定することを含む。ある特定の実施形態において、遺伝子または遺伝子産物は、癌表現型、例えば、癌の危険性、癌進行、癌治療応答、または治療に対する抵抗のうちの1つ以上に関連した変化を含む。
【0238】
他の実施形態において、または前述の実施形態に加えて、方法またはアッセイは、腫瘍試料と同一の対象由来の遺伝子または遺伝子産物由来の対照または参照サブゲノム間隔、例えば、本明細書に記載の遺伝子または遺伝子産物(例えば、表1、1A、2、3、もしくは4の遺伝子または遺伝子産物)の野生型または非変異ヌクレオチド配列を配列決定することを含む。一実施形態において、対照遺伝子または遺伝子産物は、腫瘍を有するか、または有する危険性のある同一の対象由来、あるいは異なる対象由来の腫瘍試料と同一の対象または腫瘍試料とは異なる対象に由来する(例えば、同一もしくは異なる腫瘍試料、正常な(例えば、非癌性)試料、正常な隣接組織(NAT)、または血液試料のうちの1つ以上に由来する)。
【0239】
他の実施形態において、または前述の実施形態に加えて、方法またはアッセイは、薬物代謝、薬物応答性、または毒性に関連した遺伝子(本明細書に記載のPGx遺伝子)に存在するサブゲノム間隔を配列決定することを含む。ある特定の実施形態において、配列されたサブゲノム間隔は、変化(例えば、単一ヌクレオチド多型(SNP))を含む。
【0240】
ある特定の実施形態において、方法またはアッセイは、第1の対象由来の表1、1A、2、3、もしくは4の第1の組の遺伝子または遺伝子産物を配列決定する(かつ/または配列決定の結果を報告する)ことを含む。他の実施形態では、方法またはアッセイは、第1もしくは第2の対象由来の表1、1A、2、3、もしくは4の遺伝子または遺伝子産物の第2の組、第3の組、またはそれ以上の(例えば、オーバーラップするが、異なる)組を配列決定する(かつ/または配列決定の結果を報告する)ことを含む。ある特定の実施形態において、第1の対象由来の腫瘍試料は、第1の型の腫瘍を含み、第2の対象由来の腫瘍試料は、第2の型の腫瘍を含む。他の実施形態では、第1の対象および第2の対象由来の腫瘍試料は、同一の腫瘍型に由来する。
【0241】
ある特定の実施形態において、方法またはアッセイは、以下のうちの1つ以上をさらに含む:
(i) 核酸試料をフィンガープリントすること、
(ii) 核酸試料における遺伝子または遺伝子産物(例えば、本明細書に記載の遺伝子または遺伝子産物)の存在量を定量化すること、
(iii) 試料における転写物の相対存在量を定量化すること、
(iv) 特定の対象(例えば、正常な対照または癌患者)に属する核酸試料を特定すること、
(v) 核酸試料中の遺伝形質(例えば、1つ以上の対象の遺伝子構造(例えば、民族性、人種、家族性形質))を特定すること、
(vi) 核酸試料の倍数性を決定し、核酸試料におけるヘテロ接合性の消失を決定すること、
(vii) 核酸試料における遺伝子重複事象の存在もしくは不在を決定すること、
(viii) 核酸試料における遺伝子増幅事象の存在もしくは不在を決定すること、
あるいは
(ix) 核酸試料中の腫瘍/正常な細胞混合物のレベルを決定すること。
【0242】
他の実施形態では、核酸試料は、腫瘍試料由来の複数の腫瘍核酸メンバー、参照もしくは対照(例えば、野生型)核酸メンバー、および/またはPGx関連の核酸メンバー(例えば、本明細書に記載のサブゲノム間隔を含む核酸)を含むライブラリ、または選択されたライブラリ出力を含む。一実施形態において、ライブラリ(例えば、核酸ライブラリ)は、1、2、3、4、5、6、7、8、9、10、20、30名、もしくはそれ以上の対象由来の複数のメンバー、例えば、標的核酸メンバーを含む。一実施形態において、対象は、癌もしくは腫瘍を有するか、または有する危険性のあるヒトである。ある特定の実施形態において、ライブラリは、1、2、3、4、5、6、7、8、9、10、20、30名、もしくはそれ以上の対象由来の腫瘍または癌関連の核酸メンバーおよび対照核酸断片をさらに含む。
【0243】
ある特定の実施形態において、選択されたサブゲノム間隔のサブセットは、溶液または固体支持体ベースのハイブリダイゼーションによって核酸試料から分離または濃縮される。一実施形態において、方法またはアッセイは、核酸ライブラリ(例えば、ライブラリ捕獲物)の選択されたメンバーを提供する。方法は、
複数のメンバー、例えば、標的メンバー(例えば、複数の腫瘍もしくは癌関連のメンバー、参照メンバー、および/またはPGxメンバーを含む)を含むライブラリ(例えば、核酸ライブラリ)を提供することと、
ライブラリを、例えば、溶液もしくは固体支持体ベースの反応で、複数のベイト(例えば、オリゴヌクレオチドベイト)と接触させて、複数のベイト/メンバーハイブリッドを含むハイブリダイゼーション混合物を形成することと、
複数のベイト/メンバーハイブリッドを、例えば、該ハイブリダイゼーション混合物を、該複数のベイト/メンバーハイブリッドの分離を可能にする結合実体と接触させることによって、該ハイブリダイゼーション混合物から分離することと、を含み、
それによって、ライブラリ捕獲物(例えば、ライブラリ由来の核酸分子の選択または濃縮されたサブグループ)を提供し、
複数のベイトは、
a)本明細書に記載の腫瘍または参照遺伝子もしくは遺伝子産物、例えば、表1、1A、3、もしくは4に記載される腫瘍または参照遺伝子もしくは遺伝子産物由来のサブゲノム間隔を含む腫瘍もしくは癌関連または参照(例えば、野生型)メンバーを選択する第1のベイトセット、
b)表1もしくは表2に記載される遺伝子もしくは遺伝子産物由来のサブゲノム間隔を(aと同一または異なるサブゲノム間隔において)含むPGxメンバーを選択する第2のベイトセットのうちの少なくとも1つもしくは2つを含む。
【0244】
ある特定の実施形態において、方法またはアッセイは、該メンバーを配列決定するステップをさらに含む。ある特定の実施形態において、少なくとも1、2、3、4、5、6、7、8、9、10、20、30名、もしくはそれ以上の対象由来の腫瘍メンバーが配列決定される(例えば、それぞれの対象由来の表1もしくは表1Aの遺伝子または遺伝子産物由来の少なくとも50、75、100、もしくは150個のサブゲノム間隔が配列決定される)。
【0245】
ある特定の実施形態において、方法またはアッセイは、核酸試料において、表1の少なくとも10個(例えば、20、30、40個)の優先、癌、またはPGx遺伝子もしくは遺伝子産物の事前選択された変化(例えば、対立遺伝子変異)を検出するステップをさらに含む。ある特定の実施形態において、変化(例えば、対立遺伝子変異)は、とりわけ、細胞遺伝学的異常、非相反転座、再編成、染色体内逆位、変異、点変異、欠失、遺伝子コピー数の変化、SNPを含む。
【0246】
ある特定の実施形態において、方法またはアッセイは、検出された変化(例えば、対立遺伝子変異)の存在もしくは不在を参照値(例えば、文献報告書または腫瘍試料と同一の対象または異なる対象由来の対照試料の配列、例えば、血液適合対照またはNAT(正常な隣接腫瘍))と比較するステップをさらに含む。
【0247】
ある特定の実施形態において、方法またはアッセイは、変化(例えば、事前選択された対立遺伝子変異)の存在もしくは不在をメモリアライズし、かつ例えば、メモリアライゼーションを含む報告書を提供するするステップをさらに含む。
【0248】
ある特定の実施形態において、方法またはアッセイは、変化をアノテートし、かつ例えば、変異構造の指標を有する事前選択された対立遺伝子変異、例えば、ミスセンス変異、または関数、例えば、疾患表現型との関連をアノテートするステップをさらに含む。
【0249】
ある特定の実施形態において、方法またはアッセイは、データセットを提供するステップをさらに含み、データセットのそれぞれの要素は、腫瘍型、遺伝子、および事前選択された変化(例えば、対立遺伝子変異)(「TGA」)の関連性を含む。
【0250】
ある特定の実施形態において、方法またはアッセイは、対象のTGAの存在もしくは不在をメモリアライズし、任意で関連したアノテーションを行って、報告書を形成するステップをさらに含む。
【0251】
ある特定の実施形態において、方法またはアッセイは、報告書を受領関係者に送信するステップをさらに含む。
【0252】
前述の選択方法および試薬を含むアッセイ、例えば、マルチプレックスアッセイも提供される。
核酸試料
【0253】
様々な組織試料が、本方法で使用される核酸試料の供給源であり得る。ゲノムまたはサブゲノム核酸(例えば、DNAまたはRNA)を、対象の試料(例えば、腫瘍試料、正常な隣接組織(NAT)、血液試料、循環腫瘍細胞(CTC)もしくは任意の正常な対照を含有する試料)から単離することができる。ある特定の実施形態において、組織試料は、冷凍試料またはホルムアルデヒドもしくはパラホルムアルデヒド固定パラフィン包埋(FFPE)組織調製物として保存される。例えば、試料を、マトリックス、例えば、FFPEブロック、または冷凍試料に埋め込んでもよい。単離ステップは、個別の染色体の流動選別、および/または対象の試料(例えば、腫瘍試料、NAT、血液試料)のミクロ解剖を含んでもよい。
【0254】
「単離された」核酸分子は、核酸分子の天然供給源に存在する他の核酸分子から分離されるものである。ある特定の実施形態において、「単離された」核酸分子は、核酸が由来する生物のゲノムDNA中の核酸に自然に隣接する配列(タンパク質をコードする配列等)(すなわち、核酸の5’末端および3’末端に位置する配列)を含まない。例えば、様々な実施形態において、単離された核酸分子は、核酸が由来する細胞のゲノムDNA中の核酸分子に自然に隣接するヌクレオチド配列の約5kB未満、約4kB未満、約3kB未満、約2kB未満、約1kB未満、約0.5kB未満、または約0.1kB未満を含有し得る。さらに、cDNA分子等の「単離された」核酸分子は、組換え技術によって産生されるときに他の細胞物質または培養培地を実質的に含まないか、または化学的に合成されるときに化学的前駆体もしくは他の化学物質を実質的に含まない場合がある。
【0255】
「他の細胞物質もしくは培養培地を実質的に含まない」という言い回しは、分子が細胞の細胞成分から分離される核酸分子の調製物を含み、分子が細胞の細胞成分から単離されるか、または組換え産生される。したがって、細胞物質を実質的に含まない核酸分子は、他の細胞物質または培養培地の約30乾燥重量%未満、約20乾燥重量%未満、約10乾燥重量%未満、もしくは約5乾燥重量%未満を有する核酸分子の調製物を含む。
【0256】
ある特定の実施形態において、核酸は、熟成試料、例えば、熟成FFPE試料から単離される。熟成試料は、例えば、年齢、例えば、1年、2年、3年、4年、5年、10年、15年、20年、25年、50年、75年、もしくは100年齢、またはそれ以上の年齢であり得る。
【0257】
核酸試料を、様々な大きさの組織試料(例えば、生検またはFFPE試料)から得ることができる。例えば、核酸を、5〜200μm、またはそれより大きい組織試料から単離することができる。例えば、組織試料は、5μm、10μm、20μm、30μm、40μm、50μm、70μm、100μm、110μm、120μm、150μm、もしくは200μm、またはそれ以上の大きさであることができる。
【0258】
組織試料からのDNA単離のプロトコルが実施例1に提供される。核酸(例えば、DNA)をホルムアルデヒドまたはパラホルムアルデヒド固定パラフィン包埋(FFPE)組織から単離するさらなる方法が、例えば、Cronin M.et al.,(2004)Am J Pathol.164(1):35−42、Masuda N.et al.,(1999)Nucleic Acids Res.27(22):4436−4443、Specht K.et al.,(2001)Am J Pathol.158(2):419−429、Ambion RecoverAll(商標)全核酸単離プロトコル(Ambion、カタログ番号AM1975、2008年9月)、Maxwell(登録商標)16 FFPEPlus LEV DNA精製キット技術マニュアル(Promega文献番号TM349、2011年2月)、E.Z.N.A.(登録商標)FFPE DNAキットハンドブック(OMEGA bio−tek,Norcross,GA、製品番号D3399−00、D3399−01、およびD3399−02、2009年6月)、ならびにQIAamp(登録商標)DNA FFPE組織ハンドブック(Qiagen、カタログ番号37625、2007年10月)に開示される。RecoverAll(商標)全核酸単離キットは、パラフィン包埋試料を可溶化するためにキシレンを高温で、かつ核酸を捕捉するためにガラス繊維フィルタを使用する。Maxwell(登録商標)16 FFPEPlus LEV DNA精製キットは、1〜10μmのFFPE組織切片由来のゲノムDNAの精製のために、Maxwell(登録商標)16機器とともに使用される。DNAは、シリカクラッド常磁性粒子(PMP)を用いて精製され、低溶出体積中に溶出される。E.Z.N.A.(登録商標)FFPE DNAキットは、ゲノムDNAの単離のためにスピンカラムおよび緩衝系を使用する。QIAamp(登録商標)DNA FFPE組織キットは、ゲノムおよびミトコンドリアDNAの精製のためにQIAamp(登録商標)DNAマイクロ技術を使用する。血液からのDNA単離のプロトコルが、例えば、Maxwell(登録商標)16 LEV血液DNAキットおよびMaxwell 16 Buccal Swab LEV DNA精製キット技術マニュアル(Promega文献番号TM333、2011年1月1日)に開示される。
【0259】
RNA単離のプロトコルが、例えば、Maxwell(登録商標)16全RNA精製キット技術告示(Promega文献番号TB351、2009年8月)に開示される。
【0260】
単離された核酸試料(例えば、ゲノムDNA試料)を、日常の技術を実践して断片化または剪断することができる。例えば、物理的剪断方法、酵素的切断方法、化学的切断方法、および当業者に周知の他の方法によって、ゲノムDNAを断片化することができる。核酸ライブラリは、ゲノムの複雑度のうちのすべてまたは実質的にすべてを含有し得る。「実質的にすべて」という用語は、この文脈において、実際には、手順の最初のステップ中に、ゲノムの複雑度にある望ましくない喪失が存在し得る可能性を指す。本明細書に記載の方法は、核酸ライブラリがゲノムの一部である場合、すなわち、ゲノムの複雑度が設計によって低下する場合にも有用である。いくつかの実施形態では、ゲノムの任意の選択された部分を本明細書に記載の方法とともに使用することができる。ある特定の実施形態において、全エクソームまたはそのサブセットが単離される。
【0261】
本発明が特色とする方法は、核酸試料を単離して、ライブラリ(例えば、本明細書に記載の核酸ライブラリ)を提供することをさらに含むことができる。ある特定の実施形態において、核酸試料は、全ゲノム断片、サブゲノム断片、またはこれらの両方を含む。単離された核酸試料を用いて、核酸ライブラリを調製することができる。したがって、一実施形態において、本発明で取り上げられる方法は、核酸試料を単離して、ライブラリ(例えば、本明細書に記載の核酸ライブラリ)を提供することをさらに含む。ライブラリを全ゲノム断片またはサブゲノム断片から単離および調製するためのプロトコル(例えば、IlluminaのゲノムDNA試料調製キット)は、当技術分野で既知である。ある特定の実施形態において、ゲノムまたはサブゲノムDNA断片は、対象の試料(例えば、腫瘍試料、正常な隣接組織(NAT)、血液試料、または任意の正常な対照)から単離される。一実施形態において、試料(例えば、腫瘍またはNAT試料)は、保存された検体である。例えば、試料は、マトリックス、例えば、FFPEブロックまたは冷凍試料に埋め込まれる。ある特定の実施形態において、単離ステップは、個別の染色体の流動選別、および/または対象の試料(例えば、腫瘍試料、NAT、血液試料)のミクロ解剖を含む。ある特定の実施形態において、核酸ライブラリを生成するために使用される核酸試料は、5マイクログラム未満、1マイクログラム未満、または500ng未満、200ng未満、100ng未満、50ng未満、10ng未満、5ng未満、もしくは1ng未満である。
【0262】
さらに他の実施形態において、ライブラリを生成するために使用される核酸試料は、RNAまたはRNA由来のcDNAを含む。いくつかの実施形態では、RNAは、全細胞RNAを含む。他の実施形態では、ある特定の豊富なRNA配列(例えば、リボソームRNA)が枯渇している。いくつかの実施形態では、全RNA調製物中のポリ(A)尾部mRNA画分が濃縮されている。いくつかの実施形態では、cDNAは、ランダムプライムcDNA合成法によって産生される。他の実施形態では、cDNA合成は、オリゴ(dT)含有オリゴヌクレオチドによるプライミングによって、成熟したmRNAのポリ(A)尾部で始まる。枯渇方法、ポリ(A)濃縮方法、およびcDNA合成方法は、当業者に周知である。
【0263】
方法は、当業者に周知の特異的または非特異的核酸増幅法によって核酸試料を増幅することをさらに含んでもよい。いくつかの実施形態、ある特定の実施形態では、核酸試料は、例えば、ランダムプライム鎖置換増幅等の全ゲノム増幅法によって増幅される。
【0264】
他の実施形態では、核酸試料は、物理的もしくは酵素的方法によって断片化または剪断され、合成アダプターにライゲートされ、寸法選択され(例えば、分取ゲル電気泳動によって)増幅される(例えば、PCRによって)。他の実施形態では、断片化され、かつアダプターでライゲートされた核酸の基は、ハイブリッド選択の前に明確な寸法選択または増幅なしで使用される。
【0265】
他の実施形態では、単離されたDNA(例えば、ゲノムDNA)は、断片化または剪断される。いくつかの実施形態では、ライブラリは、ゲノムの簡約表示または定義された部分である、例えば、他の手段によって細分画されたゲノムDNAの細画分等のゲノムDNAの50%未満を含む。他の実施形態では、ライブラリは、すべてまたは実質的にすべてのゲノムDNAを含む。
【0266】
いくつかの実施形態では、ライブラリは、ゲノムの簡約表示または定義された部分である、例えば、他の手段によって細分画されたゲノムDNAの細画分等のゲノムDNAの50%未満を含む。他の実施形態では、ライブラリは、すべてまたは実質的にすべてのゲノムDNAを含む。ライブラリを全ゲノムまたはサブゲノム断片から単離および調製するためのプロトコルは、当技術分野で既知であり(例えば、IlluminaのゲノムDNA試料調製キット)、実施例2A、2B、および3として本明細書に記載される。DNA剪断の代替方法が実施例2Bとして本明細書に記載される。例えば、代替のDNA剪断方法は、より自動化可能であり、かつ/またはより効率的であり得る(例えば、劣化したFFPE試料を用いて)。DNA剪断方法の代替案を、ライブラリ調製中のライゲーションステップを回避するために使用することもできる。
【0267】
本明細書に記載の方法を、例えば、供給源DNAの量が限定的であるとき(例えば、全ゲノム増幅後でさえも)少量の核酸を用いて行うことができる。一実施形態において、核酸は、約5μg、4μg、3μg、2μg、1μg、0.8μg、0.7μg、0.6μg、0.5μg、または400ng、300ng、200ng、100ng、50ng、10ng、5ng、1ng未満、もしくはそれ以下の核酸試料を含む。例えば、典型的には、50〜100ngのゲノムDNAから始めてもよい。しかしながら、ハイブリダイゼーションステップ、例えば、溶液ハイブリダイゼーションの前にゲノムDNAを増幅する場合(例えば、PCRを用いて)、それ未満で始めてもよい。したがって、ハイブリダイゼーション、例えば、溶液ハイブリダイゼーションの前にゲノムDNAを増幅することは可能であるが、必須ではない。
【0268】
ライブラリを生成するために使用される核酸試料は、RNAまたはRNA由来のcDNAも含み得る。いくつかの実施形態では、RNAは、全細胞RNAを含む。他の実施形態では、ある特定の豊富なRNA配列(例えば、リボソームRNA)が枯渇している。他の実施形態では、全RNA調製物中のポリ(A)尾部mRNA画分が濃縮されている。いくつかの実施形態では、cDNAは、ランダムプライムcDNA合成法によって産生される。他の実施形態では、cDNA合成は、オリゴ(dT)含有オリゴヌクレオチドによるプライミングによって、成熟したmRNAのポリ(A)尾部で始まる。枯渇方法、ポリ(A)濃縮方法、およびcDNA合成方法は、当業者に周知である。
【0269】
方法は、当業者に既知の特異的または非特異的核酸増幅法によって核酸試料を増幅することをさらに含んでもよい。核酸試料を、例えば、ランダムプライム鎖置換増幅等の全ゲノム増幅法によって増幅することができる。
【0270】
核酸試料を、本明細書に記載の物理的もしくは酵素的方法によって断片化または剪断し、合成アダプターにライゲートし、寸法選択し(例えば、分取ゲル電気泳動によって)、増幅する(例えば、PCRによって)ことができる。断片化され、かつアダプターでライゲートされた核酸の基は、ハイブリッド選択の前に明確な寸法選択または増幅なしで使用される。
ライブラリメンバー
【0271】
本明細書で使用される「メンバー」もしくは「ライブラリメンバー」または他の同様の用語は、ライブラリのメンバー(または「ライブラリ捕獲物」)である核酸分子、例えば、DNAまたはRNAを指す。ライブラリメンバーは、本明細書に記載の腫瘍メンバー、参照メンバー、またはPGxメンバーのうちの1つ以上であり得る。典型的には、メンバーは、DNA分子、例えば、ゲノムDNAまたはcDNA分子である。メンバーを、例えば、酵素的に、またはゲノムDNAを剪断することによって断片化することができる。メンバーは、対象由来のヌクレオチド配列を含むことができ、対象由来ではないヌクレオチド配列、例えば、プライマーまたはアダプター(例えば、PCR増幅または配列決定のために)、または試料の特定を可能にする配列、例えば、「バーコード」配列も含むことができる。
【0272】
本明細書で使用される「標的メンバー」は、核酸ライブラリから単離することが所望される核酸分子を指す。一実施形態において、標的メンバーは、本明細書に記載の腫瘍メンバー、参照メンバー、またはPGxメンバーであり得る。実際に核酸ライブラリから選択されるメンバーは、本明細書で「ライブラリ捕獲物」と称される。一実施形態において、ライブラリ捕獲物は、ライブラリのメンバーの選択または濃縮、例えば、本明細書に記載の1つ以上のラウンドのハイブリッド捕捉後のライブラリの濃縮または選択された出力を含む。
【0273】
標的メンバーは、ライブラリのサブグループであり得、すなわち、ライブラリメンバーのすべてが本明細書に記載のプロセスの任意の特定の使用によって選択されるわけではない。他の実施形態では、標的メンバーは、所望の標的領域内である。例えば、標的メンバーは、いくつかの実施形態では、最低で10%または最高で95%〜98%、またはそれ以上のライブラリメンバーの割合であってもよい。一実施形態において、ライブラリ捕獲物は、標的メンバーの少なくとも約20%、30%、40%、50%、60%、70%、75%、80%、85%、90%、95%、98%、99%、99.9%、またはそれ以上を含む。別の実施形態では、ライブラリは、標的メンバーの100%を含有する。一実施形態において、ライブラリ捕獲物の純度(標的に対してアライメントする読み取りの割合)は、少なくとも約20%、30%、40%、50%、60%、70%、75%、80%、85%、90%、95%、98%、99%、99.9%、またはそれ以上である。
【0274】
ゲノムDNAから得られる標的メンバー(またはライブラリ捕獲物)は、それがゲノムDNAの約0.0001%未満、少なくとも約0.0001%、少なくとも約0.001%、少なくとも約0.01%、または少なくとも約0.1%を含むように、全ゲノムDNAのごく一部を含み得るか、またはそれがゲノムDNAの少なくとも約1%、2%、3%、4%、5%、6%、7%、8%、9%、もしくは10%、またはゲノムDNAの10%超を含むように、全ゲノムDNAのより有意な割合を含み得る。
【0275】
一実施形態において、標的メンバー(またはライブラリ捕獲物)は、ゲノムの複合混合物から選択される。例えば、1つの細胞型(例えば、癌細胞)由来のDNAの選択は、他の細胞型(例えば、正常な細胞)由来のDNAを含有する試料からである。そのような適用において、標的メンバーは、複合試料に存在する核酸配列の全複雑度の0.0001%未満、少なくとも0.0001%、少なくとも約0.001%、少なくとも約0.01%、もしくは少なくとも約0.1%を含み得るか、またはそれが複合試料に存在する核酸配列の全複雑度の少なくとも約1%、2%、5%、10%、もしくは10%超を含むように、より有意な割合を含み得る。
【0276】
一実施形態において、本明細書に記載の方法(例えば、溶液ハイブリダイゼーション選択法)によって選択された標的メンバー(またはライブラリ捕獲物)は、ゲノム中のエクソンのすべてまたは一部、例えば、ゲノムエクソンの約0.1%、1%、2%、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、もしくは95%超を含む。別の実施形態では、標的メンバー(またはライブラリ捕獲物)は、特定の群のエクソン、例えば、少なくとも約100、200、300、400、500、600、700、800、900、または1000個の特定のエクソン、例えば、癌等の特定の疾患に関連したエクソンであり得る。さらに別の実施形態では、標的メンバー(またはライブラリ捕獲物)は、目的とする選択された遺伝子のエクソンまたは他の部分を含有する。特定のベイト配列の使用は、熟練者が標的配列(選択される理想的な組の配列)および多くのエクソンもしくはわずかなエクソン(または他の配列)を含有する核酸のサブグループ(選択される実際の組の配列)を特定の選択のために核酸の群から選択することを可能にする。
【0277】
一実施形態において、標的メンバー(またはライブラリ捕獲物)は、一組のcDNAを含む。cDNA捕捉を用いて、例えば、スプライスバリアントを見出し、融合転写物を特定する(例えば、ゲノムDNA転座から)ことができる。別の実施形態では、標的メンバー(およびライブラリ捕獲物)は、例えば、腫瘍中の細胞、組織、または器官のRNA画分に現れる単一塩基変化および他の配列変化を見出すために使用される。
【0278】
標的メンバー(またはライブラリ捕獲物)(例えば、エクソン、cDNA、および他の配列)は、所望に応じて、関連性があってもなくてもよい。例えば、選択された標的メンバー(およびライブラリ捕獲物)を、疾患に関与する遺伝子である核酸の群、例えば、癌等の1つ以上の疾患に関与する遺伝子の群、特定のSNPを含有する核酸の群から得ることができる。
ベイトの設計および構築
【0279】
ベイトは、標的核酸にハイブリダイズし(例えば、標的核酸に相補的であり)、それによって、標的核酸の捕捉を可能にすることができる核酸分子、例えば、DNA分子またはRNA分子であり得る。一実施形態において、ベイトは、RNA分子である。他の実施形態では、ベイトは、例えば、結合実体に結合することによって、ベイトによって形成されたハイブリッドおよびベイトにハイブリダイズした核酸の捕捉および分離を可能にする結合実体、例えば、親和性タグを含む。一実施形態において、ベイトは、溶液相ハイブリダイゼーションに好適である。
【0280】
典型的には、RNA分子が、ベイト配列として使用される。RNA−DNA二本鎖は、DNA−DNA二本鎖よりも安定しており、したがって、潜在的により良好な核酸の捕捉を提供する。
【0281】
DNA依存性RNAポリメラーゼを用いたDNA分子のデノボ化学合成および転写を含むが、これに限定されない当技術分野で既知の方法を用いて、RNAベイトを本明細書の他の箇所で記載されるように作製することができる。一実施形態において、ベイト配列は、PCR等の既知の核酸増幅法を用いて、例えば、鋳型としてヒトDNAまたはプールされたヒトDNA試料を用いて産生される。その後、オリゴヌクレオチドをRNAベイトに変換することができる。一実施形態において、生体外転写は、例えば、RNAポリメラーゼプロモーター配列のオリゴヌクレオチドの一方の末端への付加に基づいて使用される。一実施形態において、RNAポリメラーゼプロモーター配列は、例えば、PCRまたは他の核酸増幅法を用いてベイト配列を増幅または再増幅することによって、例えば、それぞれの標的特異的プライマー対の一方のプライマーにRNAプロモーター配列をテーリングすることによって、ベイトの末端に付加される。一実施形態において、RNAポリメラーゼは、T7ポリメラーゼ、SP6ポリメラーゼ、またはT3ポリメラーゼである。一実施形態において、RNAベイトは、タグ、例えば、親和性タグで標識化される。一実施形態において、RNAベイトは、例えば、ビオチン化されたUTPを用いた生体外転写によって作製される。別の実施形態では、RNAベイトは、ビオチンを用いることなく産生され、その後、ビオチンは、ソラレン架橋結合等の当技術分野で周知の方法を用いて、RNA分子に架橋結合される。一実施形態において、RNAベイトは、RNase抵抗性RNA分子であり、例えば、転写中に修飾されたヌクレオチドを用いて作製し、RNase分解に抵抗するRNA分子を産生することができる。一実施形態において、RNAベイトは、二本鎖DNA標的の1本の鎖にのみ一致する。典型的には、そのようなRNAベイトは、自己相補的ではなく、ハイブリダイゼーションドライバとしてより効果的である。
【0282】
ベイトが参照配列の標的選択に最適であるように、ベイトセットを参照配列から設計することができる。いくつかの実施形態では、ベイト配列は、混合塩基(例えば、縮重)を用いて設計される。例えば、混合塩基(複数を含む)を共通のSNPまたは変異の位置(複数を含む)でベイト配列に含み、ベイト配列を最適化して、両方の対立遺伝子(例えば、SNPおよび非SNP、変異体および非変異体)を捕獲することができる。いくつかの実施形態では、すべての既知の配列バリエーション(またはそのサブセット)を、混合縮重オリゴヌクレオチドを用いるのではなく、複数のオリゴヌクレオチドベイトで標的化することができる。
【0283】
ある特定の実施形態において、ベイトセットは、約100ヌクレオチド長〜300ヌクレオチド長のオリゴヌクレオチド(または複数のオリゴヌクレオチド)を含む。典型的には、ベイトセットは、約130ヌクレオチド長〜230ヌクレオチド長、または約150〜200ヌクレオチド長のオリゴヌクレオチド(または複数のオリゴヌクレオチド)を含む。他の実施形態では、ベイトセットは、約300ヌクレオチド長〜1000ヌクレオチド長のオリゴヌクレオチド(または複数のオリゴヌクレオチド)を含む。
【0284】
いくつかの実施形態では、オリゴヌクレオチド中の標的メンバー特異的配列は、約40〜1000ヌクレオチド長、約70〜300ヌクレオチド長、約100〜200ヌクレオチド長、典型的には、約120〜170ヌクレオチド長である。
【0285】
いくつかの実施形態では、ベイトセットは、結合実体を含む。結合実体は、それぞれのベイト配列上の親和性タグであり得る。いくつかの実施形態では、親和性タグは、ビオチン分子またはハプテンである。ある特定の実施形態において、結合実体は、アビジン分子等のパートナー、またはハプテンもしくはその抗原結合断片に結合する抗体に結合することによって、ベイト/メンバーハイブリッドのハイブリダイゼーション混合物からの分離を可能にする。
【0286】
他の実施形態では、ベイトセット中のオリゴヌクレオチドは、同一の標的メンバー配列に対して順方向および逆位の相補的配列を含有し、それによって、逆方向相補メンバー特異的配列を有するオリゴヌクレオチドは、逆方向に相補的なユニバーサル尾部も担持する。これは、同一の鎖である、すなわち、相互に相補的ではないRNA転写物をもたらし得る。
【0287】
他の実施形態では、ベイトセットは、1つ以上の位置で縮重または混合塩基を含有するオリゴヌクレオチドを含む。さらに他の実施形態において、ベイトセットは、生物の単一の種または群集の集団に存在する複数または実質的にすべての既知の配列バリアントを含む。一実施形態において、ベイトセットは、ヒト集団に存在する複数または実質的にすべての既知の配列バリアントを含む。
【0288】
他の実施形態では、ベイトセットは、cDNA配列を含むか、またはcDNA配列に由来する。他の実施形態では、ベイトセットは、ゲノムDNA、cDNA、またはクローン化DNAから増幅される増幅産物(例えば、PCR産物)を含む。
【0289】
他の実施形態では、ベイトセットは、RNA分子を含む。いくつかの実施形態では、ベイトセットは、より安定しており、かつRNaseに対して抵抗性を示すRNA分子を含むが、これに限定されない、化学的かつ酵素的に修飾されたか、または生体外で転写されたRNA分子を含む。
【0290】
さらに他の実施形態では、ベイトは、参照により本明細書に組み込まれる米国第2010/0029498号およびGnirke,A.et al.(2009)Nat Biotechnol.27(2):182−189に記載の方法によって産生される。例えば、ビオチン化されたRNAベイトを、マイクロアレイ上に最初に合成された長い合成オリゴヌクレオチドのプールを得て、かつオリゴヌクレオチドを増幅してベイト配列を産生することによって産生することができる。いくつかの実施形態では、ベイトは、ベイト配列の一方の末端にRNAポリメラーゼプロモーター配列を付加し、かつRNAポリメラーゼを用いてRNA配列を合成することによって産生される。一実施形態において、合成オリゴデオキシヌクレオチドのライブラリを、Agilent Technologies,Inc.等の商業的供給業者から入手することができ、既知の核酸増幅法を用いて増幅することができる。
【0291】
したがって、前述のベイトセットの作製方法が提供される。方法は、1つ以上の標的特異的ベイトオリゴヌクレオチド配列(例えば、本明細書に記載の参照または対照オリゴヌクレオチド配列を捕捉する1つ以上の変異)を選択すること、標的特異的ベイトオリゴヌクレオチド配列のプールを得る(例えば、マイクロアレイ合成によって、例えば、標的特異的ベイトオリゴヌクレオチド配列のプールを合成する)こと、および任意で、オリゴヌクレオチドを増幅してベイトセットを産生することを含む。
【0292】
他の実施形態では、方法は、1つ以上のビオチン化されたプライマーを用いてオリゴヌクレオチドを増幅する(例えば、PCRによって)ことをさらに含む。いくつかの実施形態では、オリゴヌクレオチドは、マイクロアレイに結合したそれぞれのオリゴヌクレオチドの末端にユニバーサル配列を含む。方法は、ユニバーサル配列をオリゴヌクレオチドから除去することをさらに含み得る。そのような方法は、オリゴヌクレオチドの相補鎖を除去することと、オリゴヌクレオチドをアニーリングすることと、オリゴヌクレオチドを伸長することとも含み得る。これらの実施形態のいくつかにおいて、オリゴヌクレオチドを増幅する(例えば、PCRによって)方法は、1つ以上のビオチン化されたプライマーを用いる。いくつかの実施形態では、方法は、増幅したオリゴヌクレオチドをサイズ選択することをさらに含む。
【0293】
一実施形態において、RNAベイトセットが作製される。方法は、本明細書に記載の方法に従って一組のベイト配列を産生すること、ベイト配列の一方の末端にRNAポリメラーゼプロモーター配列を付加すること、およびRNAポリメラーゼを用いてRNA配列を合成することを含む。RNAポリメラーゼを、T7 RNAポリメラーゼ、SP6 RNAポリメラーゼ、またはT3 RNAポリメラーゼから選択することができる。他の実施形態では、RNAポリメラーゼプロモーター配列は、ベイト配列を増幅する(例えば、PCRによって)ことによって、ベイト配列の末端に付加される。ベイト配列がゲノムまたはcDNA由来の特異的プライマー対を用いてPCRによって増幅される実施形態において、それぞれの対における2つの特異的プライマーのうちの1つの5’末端へのRNAプロモーター配列の付加が、標準方法を用いてRNAベイトに転写され得るPCR産物をもたらす。
【0294】
他の実施形態では、ベイトセットを、鋳型としてヒトDNAまたはプールされたヒトDNA試料を用いて産生することができる。そのような実施形態において、オリゴヌクレオチドは、ポリメラーゼ連鎖反応(PCR)によって増幅される。他の実施形態では、増幅したオリゴヌクレオチドは、ローリングサークル増幅または超分岐ローリングサークル増幅によって再増幅される。鋳型としてヒトDNAまたはプールされたヒトDNA試料を用いてベイト配列を産生するために、同一の方法を使用することもできる。制限消化、パルスフィールドゲル電気泳動、流動選別、CsCl密度勾配遠心分離法、選択的動的再会合、染色体調製物のミクロ解剖、および当業者に既知の他の分画方法を含むが、これらに限定されない他の方法によって得られるゲノムの細画分を用いてベイト配列を産生するために、同一の方法を使用することもできる。
【0295】
ある特定の実施形態において、ベイトセット中のベイトの数は、1,000未満である。他の実施形態では、ベイトセット中のベイトの数は、1,000を超えるか、5,000を超えるか、10,000を超えるか、20,000を超えるか、50,000を超えるか、100,000を超えるか、または500,000を超える。
【0296】
一実施形態において、ベイト配列は、例えば、SNPをコードする標的遺伝子もしくは遺伝子産物、またはその断片におけるその結合能力(例えば、親和性および/または特異性)を増大させるために、SNPに相補的な塩基を選択する。例となる遺伝子もしくは遺伝子産物には、ABCB1、ABCC2、ABCC4、ABCG2、C1orf144、CYP1B1、CYP2C19、CYP2C8、CYP2D6、CYP3A4、CYP3A5、DPYD、ERCC2、ESR2、FCGR3A、GSTP1、ITPA、LRP2、MAN1B1、MTHFR、NQO1、NRP2、SLC19A1、SLC22A2、SLCO1B3、SOD2、SULT1A1、TPMT、TYMS、UGT1A1、およびUMPSが含まれるが、これらに限定されない。
【0297】
別の実施形態では、ベイトセットは、癌に関連した標的遺伝子もしくは遺伝子産物、またはその断片中のコドンを選択する。例となる遺伝子もしくは遺伝子産物には、ABL1(例えば、コドン315)、AKT1、ALK、APC(例えば、コドン1114、1338、1450、および1556)、AR、BRAF(例えば、コドン600)、CDKN2A、CEBPA、CTNNB1(例えば、コドン32、33、34、37、41、および45)、EGFR(例えば、719、746〜750、768、790、858、および861)、ERBB2、ESR1、FGFR1、FGFR2、FGFR3、FLT3(例えば、コドン835)、HRAS(例えば、コドン12、13、および61)、JAK2(例えば、コドン617)、KIT(例えば、コドン816)、KRAS(例えば、コドン12、13、および61)、MET、MLL、MYC、NF1、NOTCH1、NPM1、NRAS、PDGFRA、PIK3CA(例えば、コドン88、542、545、546、1047、および1049)、PTEN(例えば、コドン130、173、233、および267)、RB1、RET(例えば、コドン918)、TP53(例えば、175、245、248、273、および306)が含まれるが、これらに限定されない。
【0298】
さらに別の実施形態では、ベイトセットは、癌に関連した標的遺伝子もしくは遺伝子産物、またはその断片を選択する。例となる遺伝子もしくは遺伝子産物には、ABL2、AKT2、AKT3、ARAF、ARFRP1、ARID1A、ATM、ATR、AURKA、AURKB、BCL2、BCL2A1、BCL2L1、BCL2L2、BCL6、BRCA1、BRCA2、CARD11、CBL、CCND1、CCND2、CCND3、CCNE1、CDH1、CDH2、CDH20、CDH5、CDK4、CDK6、CDK8、CDKN2B、CDKN2C、CHEK1、CHEK2、CRKL、CRLF2、DNMT3A、DOT1L、EPHA3、EPHA5、EPHA6、EPHA7、EPHB1、EPHB4、EPHB6、ERBB3、ERBB4、ERG、ETV1、ETV4、ETV5、ETV6、EWSR1、EZH2、FANCA、FBXW7、FGFR4、FLT1、FLT4、FOXP4、GATA1、GNA11、GNAQ、GNAS、GPR124、GUCY1A2、HOXA3、HSP90AA1、IDH1、IDH2、IGF1R、IGF2R、IKBKE、IKZF1、INHBA、IRS2、JAK1、JAK3、JUN、KDR、LRP1B、LTK、MAP2K1、MAP2K2、MAP2K4、MCL1、MDM2、MDM4、MEN1、MITF、MLH1、MPL、MRE11A、MSH2、MSH6、MTOR、MUTYH、MYCL1、MYCN、NF2、NKX2−1、NTRK1、NTRK3、PAK3、PAX5、PDGFRB、PIK3R1、PKHD1、PLCG1、PRKDC、PTCH1、PTPN11、PTPRD、RAF1、RARA、RICTOR、RPTOR、RUNX1、SMAD2、SMAD3、SMAD4、SMARCA4、SMARCB1、SMO、SOX10、SOX2、SRC、STK11、TBX22、TET2、TGFBR2、TMPRSS2、TOP1、TSC1、TSC2、USP9X、VHL、およびWT1が含まれるが、これらに限定されない。
【0299】
ベイト配列は、約70ヌクレオチド長〜1000ヌクレオチド長であり得る。一実施形態において、ベイトの長さは、約100〜300ヌクレオチド長、110〜200ヌクレオチド長、または120〜170ヌクレオチド長である。上述のものに加えて、約70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、300、400、500、600、700、800、および900ヌクレオチド長の中程度のオリゴヌクレオチドを本明細書に記載の方法で使用することができる。いくつかの実施形態では、約70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、または230塩基長のオリゴヌクレオチドを用いることができる。
【0300】
それぞれのベイト配列は、標的特異的(例えば、メンバー特異的)ベイト配列および一方または両方の末端にユニバーサル尾部を含み得る。本明細書で使用される「ベイト配列」という用語は、標的特異的ベイト配列、または標的特異的「ベイト配列」およびオリゴヌクレオチドの他のヌクレオチドを含む全オリゴヌクレオチドを指し得る。ベイトの標的特異的配列は、約40ヌクレオチド長〜1000ヌクレオチド長である。一実施形態において、標的特異的配列は、約70ヌクレオチド長〜300ヌクレオチド長である。別の実施形態では、標的特異的配列は、約100ヌクレオチド長〜200ヌクレオチド長である。さらに別の実施形態では、標的特異的配列は、約120ヌクレオチド長〜170ヌクレオチド長、典型的には、120ヌクレオチド長である。上述のものに加えて中程度の長さ、例えば、約40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、300、400、500、600、700、800、および900ヌクレオチド長の標的特異的配列、ならびに上述の範囲内の長さの標的特異的配列等も本明細書に記載の方法で使用することができる。
【0301】
一実施形態において、ベイトは、約50〜200ヌクレオチド長(例えば、約50、60、80、90、100、110、120、130、140、150、160、170、190、または200ヌクレオチド長)のオリゴマー(例えば、RNAオリゴマー、DNAオリゴマー、またはそれらの組み合わせから成る)である。一実施形態において、それぞれのベイトオリゴマーは、標的特異的ベイト配列である約120〜170個、または典型的には、約120個のヌクレオチドを含む。ベイトは、一方または両方の末端に追加の非標的特異的ヌクレオチド配列を含み得る。それらの追加のヌクレオチド配列を、例えば、PCT増幅のために、またはベイト識別子として使用してもよい。ある特定の実施形態において、ベイトは、本明細書に記載の結合実体(例えば、ビオチン分子等の捕捉タグ)をさらに含む。結合実体、例えば、ビオチン分子は、ベイト、例えば、ベイトの5’末端、3’末端、または内部に(例えば、ビオチン化されたヌクレオチドを組み込むことによって)結合することができる。一実施形態において、ビオチン分子は、ベイトの5’末端に結合する。
【0302】
例となる一実施形態において、ベイトは、約150ヌクレオチド長のオリゴヌクレオチドであり、そのうちの120個のヌクレオチドは、標的特異的「ベイト配列」である。残りの30個のヌクレオチド(例えば、それぞれの末端に15個のヌクレオチド)は、PCR増幅に使用される任意のユニバーサル尾部である。尾部は、ユーザが選択した任意の配列であり得る。例えば、合成オリゴヌクレオチドのプールは、5’−ATCGCACCAGCGTGTN
120CACTGCGGCTCCTCA−3’(配列番号1)の配列のオリゴヌクレオチドを含み得、N
120は、標的特異的ベイト配列を示す。
【0303】
本明細書に記載のベイト配列を、エクソンおよび短い標的配列の選択に用いることができる。一実施形態において、ベイトは、約100ヌクレオチド長〜300ヌクレオチド長である。別の実施形態では、ベイトは、約130ヌクレオチド長〜230ヌクレオチド長である。さらに別の実施形態では、ベイトは、約150ヌクレオチド長〜200ヌクレオチド長である。ベイトの標的特異的配列は、例えば、エクソンおよび短い標的配列の選択のために、約40ヌクレオチド長〜1000ヌクレオチド長である。一実施形態において、標的特異的配列は、約70ヌクレオチド長〜300ヌクレオチド長である。別の実施形態では、標的特異的配列は、約100ヌクレオチド長〜200ヌクレオチド長である。さらに別の実施形態では、標的特異的配列は、約120ヌクレオチド長〜170ヌクレオチド長である。
【0304】
いくつかの実施形態では、長いオリゴヌクレオチドは、標的配列を捕捉するのに必要なオリゴヌクレオチドの数を最小限に抑えることができる。例えば、1個のエクソンにつき1個のオリゴヌクレオチドを用いることができる。ヒトゲノムのタンパク質コードエクソンの長さの平均および中央値が、それぞれ、約164個および120個の塩基対であることは、既知の当技術分野では既知である。より長いベイトは、短いベイトよりも特異的であり、より良好に捕捉することができる。結果として、1個のオリゴヌクレオチドベイト配列当たりの成功率は、短いオリゴヌクレオチドよりも高い。一実施形態において、最小のベイトが対象範囲とする配列は、例えば、エクソンサイズの標的を捕捉するために、1個のベイト(例えば、120〜170個の塩基)の大きさである。ベイト配列の長さを決定する際、不必要に長いベイトがより多くの望ましくない標的に直接隣接したDNAを捕獲することを考慮に入れることができる。より長いオリゴヌクレオチドベイトは、DNA試料の標的化された領域における多型性に短いオリゴヌクレオチドベイトよりも高い耐性を示し得る。典型的には、ベイト配列は、参照ゲノム配列に由来する。実際のDNA試料中の標的配列が参照配列から外れる場合、例えば、それが単一ヌクレオチド多型(SNP)を含有する場合、それは、より低い効率でベイトにハイブリダイズし得、したがって、ベイト配列にハイブリダイズした配列において表示不足であるか、または完全に不在であり得る。例えば、120〜170個の塩基における単一のミスマッチのハイブリッド安定性に与える影響が20個または70個の塩基(それぞれ、マルチプレックス増幅およびマイクロアレイ捕捉において典型的なベイトまたはプライマーの長さである)における単一のミスマッチよりも小さくあり得るという理由から、より長い合成ベイト分子におけるSNPによる対立遺伝子ドロップアウトの可能性はより低い場合がある。
【0305】
ゲノム領域等の捕捉ベイトの長さよりも長い標的を選択する場合、ベイト配列の長さは、典型的には、上述の短い標的のベイトと同一のサイズ範囲であるが、但し、隣接配列の標的化を最小限に抑えることを唯一の目的としてベイト配列の最大サイズを制限する必要はないということを除く。あるいは、はるかにより幅広いウィンドウ(典型的には、600個の塩基)にわたってオリゴヌクレオチドにタイトル付けすることができる。この方法を用いて、典型的なエクソンよりもはるかに大きい(例えば、約500個の塩基)DNA断片を捕捉することができる。結果として、はるかにより多くの望ましくないフランキング非標的配列が選択される。
ベイト合成
【0306】
ベイトは、任意の種類のオリゴヌクレオチド、例えば、DNAまたはRNAであり得る。DNAまたはRNAベイト(「オリゴベイト」)を、DNAまたはRNAベイトセット(「アレイベイト」)として、個別に合成することができるか、またはアレイで合成することができる。オリゴベイトは、アレイ形式で提供されるか、または単離されたオリゴとして提供されるかにかかわらず、典型的には、一本鎖である。ベイトは、本明細書に記載の結合実体(例えば、ビオチン分子等の捕捉タグ)をさらに含み得る。結合実体、例えば、ビオチン分子は、ベイト、例えば、ベイトの5’末端または3’末端、典型的には、ベイトの5’末端に結合し得る。
【0307】
いくつかの実施形態では、個別のオリゴベイトをアレイベイトセットに付加してもよい。これらの場合において、オリゴベイトを、アレイベイトによって標的化される領域と同一の領域を標的化するように設計することができ、追加のオリゴベイトを設計し、標準のアレイベイトに付加して、ゲノムのある特定の領域において強化されたか、またはより完全な対象範囲を達成することができる。例えば、追加のオリゴベイトを、標準のアレイベイトセットを用いた最初の配列決定ラウンド後に配列対象範囲の低い領域を標的化するように設計することができる。いくつかの実施形態では、オリゴベイトは、アレイベイトセットの対象範囲領域にわたってタイル状効果を有するか、または他のオリゴベイトの対象範囲領域にわたってタイル状効果を有するように設計される。
【0308】
一実施形態において、個別のオリゴベイトは、RNAもしくはDNAオリゴアレイベイトセット、またはその組み合わせ(例えば、市販のアレイベイトセット)を補充するために使用されるDNAオリゴである。他の実施形態では、個別のオリゴベイトは、個別に設計および合成されたオリゴの収集物であるRNAもしくはDNAオリゴベイトセット、またはその組み合わせを補充するために使用されるDNAオリゴである。一実施形態において、個別のオリゴベイトは、RNAもしくはDNAオリゴアレイベイトセット、またはその組み合わせ(例えば、市販のアレイベイトセット)を補充するために使用されるRNAオリゴである。他の実施形態では、個別のオリゴベイトは、個別に設計および合成されたオリゴの収集物であるRNAもしくはDNAオリゴベイトセット、またはその組み合わせを補充するために使用されるRNAオリゴである。
【0309】
さらに別の実施形態では、個別のオリゴベイトは、DNAオリゴアレイベイトセット(例えば、市販のアレイベイトセット)を補充するために使用されるDNAオリゴであり、他の実施形態では、個別のオリゴベイトは、個別に設計および合成されたオリゴの収集物であるDNAオリゴベイトセットを補充するために使用されるDNAオリゴである。
【0310】
さらに別の実施形態では、個別のオリゴベイトは、RNAオリゴアレイベイトセット(例えば、市販のアレイベイトセット)を補充するために使用されるDNAオリゴであり、他の実施形態では、個別のオリゴベイトは、個別に設計および合成されたオリゴの収集物であるRNAオリゴベイトセットを補充するために使用されるDNAオリゴである。
【0311】
さらに別の実施形態では、個別のオリゴベイトは、RNAオリゴアレイベイトセット(例えば、市販のアレイベイトセット)を補充するために使用されるRNAオリゴであり、他の実施形態では、個別のオリゴベイトは、個別に設計および合成されたオリゴの収集物であるRNAオリゴベイトセットを補充するために使用されるRNAオリゴである。
【0312】
さらに別の実施形態では、個別のオリゴベイトは、DNAオリゴアレイベイトセット(例えば、市販のアレイベイトセット)を補充するために使用されるRNAオリゴであり、他の実施形態では、個別のオリゴベイトは、個別に設計および合成されたオリゴの収集物であるDNAオリゴベイトセットを補充するために使用されるRNAオリゴである。
【0313】
一実施形態において、オリゴベイトは、特に関心のある遺伝子の配列を標的とする、例えば、拡大された遺伝子の組の配列対象範囲増加を達成するように設計される。
【0314】
別の実施形態では、オリゴベイトは、ゲノムのサブセットを表す配列を標的とするように設計され、混合され、アレイベイトの代わりに、またはアレイベイトに加えて、プールとして使用される。
【0315】
一実施形態において、第1の組のオリゴベイトは、配列対象範囲の低い領域を標的とするように設計され、第2の組のオリゴベイトは、特に関心のある遺伝子を標的化するように設計される。その後、両方の組のオリゴベイトは合わせられ、任意で、配列決定のために使用される標準のアレイベイトセットと混合される。
【0316】
一実施形態において、オリゴベイト混合物が、例えば、ゲノム再編成およびコピー数の変化(アレイCGH(包括的ゲノムハイブリダイゼーション)と同等)を探す目的で、例えば、標的化された遺伝子パネルを同時に配列決定し、かつ作成された単一ヌクレオチド多型(SNP)のパネルをスクリーニングするために使用される。例えば、SNPのパネルを最初にアレイベイトとしてアレイ方法によって作製することができ、その後、追加のDNAオリゴヌクレオチドベイトを、配列対象範囲の低い領域を標的化された組の遺伝子に標的化するように設計することができる。その後、SNPの収集物の配列決定を最初のアレイベイトセットに加えて追加のオリゴベイトで繰り返し、目的とする全配列対象範囲を達成することができる。
【0317】
いくつかの実施形態では、オリゴベイトが、より完全な配列対象範囲を達成するために、標準のアレイベイトセットに付加される。一実施形態において、オリゴベイトは、標準のアレイベイトセットでの最初の配列決定ラウンド後に配列対象範囲の低い領域を標的するように設計される。
【0318】
別の実施形態では、オリゴベイトは、特に関心のある遺伝子の配列を標的化するように設計される。これらのオリゴベイトを標準のアレイベイトセットまたは現行のオリゴ/アレイハイブリッドベイトセットに付加して、例えば、全アレイベイトプール再設計サイクルを経ることなく、拡大された遺伝子の組の配列対象範囲増加を達成することができる。
【0319】
オリゴベイトを、NimbleGen(Roche)から、またはDNAオリゴの場合はIntegrated DNA Technologies(IDT)等の商業的供給源から入手することができる。オリゴをAgilent Technologiesから入手することができる。濃縮のプロトコルは、公的に入手可能であり、例えば、SureSelect Target Enrichment Systemがある。
【0320】
ベイトを、参照により本明細書に組み込まれる米国第2010/0029498号およびGnirke,A.et al.(2009)Nat Biotechnol.27(2):182−189に記載の方法で産生することができる。例えば、ビオチン化されたRNAベイトを、マイクロアレイ上で最初に合成された長い合成オリゴヌクレオチドのプールを得て、かつオリゴヌクレオチドを増幅してベイト配列を産生することによって産生することができる。いくつかの実施形態では、ベイトは、ベイト配列の一方の末端にRNAポリメラーゼプロモーター配列を付加し、かつRNAポリメラーゼを用いてRNA配列を合成することによって産生される。一実施形態において、合成オリゴデオキシヌクレオチドのライブラリを、Agilent Technologies,Inc.等の商業的供給業者から入手することができ、既知の核酸増幅法を用いて増幅することができる。
【0321】
例えば、ベイトの大きな収集物を、最初にオリゴヌクレオチドアレイ、例えば、Agilentのプログラム可能なDNAマイクロアレイ上で合成された合成オリゴヌクレオチドのカスタムプールから生成することができる。したがって、少なくとも約2,500、5,000、10,000、20,000、3,000、40,000、50,000、または60,000個の一意のオリゴヌクレオチドを同時に合成することができる。
【0322】
一実施形態において、最小の組の一意のオリゴヌクレオチドが選択され、例えば、事前選択された組の標的(例えば、事前選択された組のエクソン)を捕捉するように設計されたベイトの場合、合成オリゴヌクレオチドアレイの最大容量に達するまで、追加のコピー(例えば、逆補体と最初の順方向鎖との間で交互に起こる)が付加される。別の実施形態では、標的は、例えば、順方向および逆方向相補オリゴヌクレオチドの両方を合成することによって、少なくとも2回表される。所与の標的のために順方向および逆方向相補オリゴヌクレオチドを合成することで、この合成ステップにおいて全く同一の配列を2回合成するよりも良好な冗長性を提供することができる。さらに別の実施形態では、PCR産物またはベイトは、順方向および逆方向相補オリゴヌクレオチドの場合でも同じである。
【0323】
チップからのオリゴヌクレオチドを1度合成し、その後、増幅して、一組のオリゴヌクレオチドを作成することができ、それを何度も使用することができる。この手法は、多数の選択実験用のベイトとして使用することができるユニバーサル試薬を生成し、それによって、配列決定費用のごく一部であるチップの費用を償却する。あるいは、ベイト配列を、鋳型としてヒトDNAまたはプールされたヒトDNA試料を用いたPCR等の既知の核酸増幅法を用いて産生することができる。
【0324】
合成後、オリゴヌクレオチドを化学的切断によってアレイから解放し(例えば、取り去り)、その後、保護基を除去し、ユニバーサルプライマーを用いてPCRを二本鎖DNAに増幅することができる。第2ラウンドのPCRを用いて、プロモーター(例えば、T7、SP6、またはT3プロモーター)部位を増幅産物に組み込むことができ、これは、DNAを一本鎖RNAに転写するために使用される。
【0325】
一実施形態において、ベイトは、ギャップまたはオーバーラップなしで、配列(例えば、エクソン)に沿ってタイルされる。例えば、ベイトは、UCSCゲノムブラウザに示される参照ゲノム配列の鎖の最も「左」のコード塩基で始まってもよく(例えば、遺伝子の配向に応じて、コード配列に沿って5’から3’または3’から5’)、すべてのコード塩基が対象範囲とされるまでさらにベイトが付加される。別の実施形態では、それぞれの標的につき少なくとも2つ、3つ、4つ、または5つのベイトが、少なくとも約15、30、45、または60個の塩基分オーバーラップさせて設計される。オリゴヌクレオチド合成およびユニバーサルプライマーを用いたPCR増幅後、二本鎖DNAの尾部のうちの一方を酵素分解することができ、その後、その鎖のうちの1本を分解する。一本鎖産物をハイブリダイズし、充填して完全な二本鎖にし、PCRによって増幅することができる。この様式で、少なくとも約300、400、500、または600個の連続した標的特異的塩基を含有するベイトを産生することは可能であり、これは、化学的に合成され得るよりも多い。そのような長いベイトは、高い特異性および感度を必要とする用途、またはベイト長を制限すること(例えば、長く連続したゲノム領域の捕捉)から恩恵を受けるとは限らない用途に有用であり得る。
【0326】
一実施形態において、それぞれの標的の対象範囲を評価することができ、同様の対象範囲もたらす標的をグループ化することができる。はっきりと異なる組のベイト配列をそれぞれの標的群のために作成し、表示をさらに改善することができる。別の実施形態では、マイクロアレイチップからのオリゴヌクレオチドは、ハイブリダイゼーションの有効性について試験され、オリゴヌクレオチドがそれらの捕捉有効性によってグループ化されるマイクロアレイチップの産生ラウンドが要求され、したがって、ベイト有効性の変化を相殺する。さらに別の実施形態では、複合体プールの間に捕捉有効性の変化が少ししか存在しないように、オリゴヌクレオチドプールを凝集して比較的少ない数の複合体プールを形成することができる。
【0327】
本明細書に記載のベイトをタグ、例えば、親和性タグで標識化することができる。例となる親和性タグには、ビオチン分子、磁気粒子、ハプテン、またはタグ分子でタグ付けされたベイトの単離を可能にする他のタグ分子が含まれるが、これらに限定されない。それらを核酸に結合するそのような分子および方法(例えば、本明細書に開示の方法で使用されるベイト)は、当技術分野で周知である。ビオチン化されたベイトを作製する例となる方法は、例えば、参照により全体が本明細書に組み込まれるGnirke A.et al.,Nat.Biotechnol.2009;27(2):182−9に記載されている。
【0328】
タグ付けされたベイトに結合するか、またはタグ付けされたベイトをハイブリダイゼーション混合物から分離することができる分子、粒子、またはデバイスも当技術分野で既知である。一実施形態において、分子、粒子、またはデバイスは、タグ(例えば、親和性タグ)に結合する。一実施形態において、分子、粒子、またはデバイスは、アビジン分子、磁石、または抗体もしくはその抗原結合断片である。一実施形態において、タグ付けされたベイトは、ストレプトアビジン分子でコーティングされた磁気ビーズを用いて分離される。
【0329】
オリゴヌクレオチドライブラリを調製する例となる方法は、例えば、参照により全体が本明細書に組み込まれるGnirke A.et al.,Nat.Biotechnol.2009;27(2):182−9、およびBlumenstiel B.et al.,Curr.Protoc.Hum.Genet.2010;Chapter 18:Unit 18.4に記載されている。
ハイブリダイゼーション条件
【0330】
本発明で特色とする方法は、ライブラリ(例えば、核酸ライブラリ)を複数のベイトと接触させて、選択されたライブラリ捕獲物を提供するステップを含む。接触ステップを、溶液ハイブリダイゼーションにおいて達成することができる。ある特定の実施形態において、方法は、1つ以上のさらなるラウンドの溶液ハイブリダイゼーションによってハイブリダイゼーションステップを繰り返すことを含む。いくつかの実施形態では、方法は、同一または異なるベイト収集物を用いて、ライブラリ捕獲物を1つ以上のさらなるラウンドの溶液ハイブリダイゼーションに供することをさらに含む。
【0331】
他の実施形態では、本発明で取り上げられる方法は、ライブラリ捕獲物を増幅する(例えば、PCRによって)ことをさらに含む。他の実施形態では、ライブラリ捕獲物は増幅されない。
【0332】
さらに他の実施形態では、方法は、ライブラリ捕獲物を遺伝子型判定に供し、それによって、選択された核酸の遺伝子型を特定するステップをさらに含む。
【0333】
より具体的には、数千個のベイト配列の混合物が、核酸基のうちの相補的な核酸に効果的にハイブリダイズすることができ、そのようなハイブリダイズした核酸(核酸のサブグループ)を効果的に分離し、回収することができる。一実施形態において、本明細書に記載の方法は、約1,000個を超えるベイト配列、約2,000個を超えるベイト配列、約3,000個を超えるベイト配列、約4,000個を超えるベイト配列、約5,000個を超えるベイト配列、約6,000個を超えるベイト配列、約7,000個を超えるベイト配列、約8,000個を超えるベイト配列、約9,000個を超えるベイト配列、約10,000個を超えるベイト配列、約15,000個を超えるベイト配列、約20,000個を超えるベイト配列、約30,000個を超えるベイト配列、約40,000個を超えるベイト配列、または約50,000個を超えるベイト配列を含有する一組のベイト配列を使用する。
【0334】
いくつかの実施形態では、選択プロセスは、例えば、選択された核酸の濃縮を増加させるために、核酸の選択されたサブグループ上で繰り返される。例えば、ハイブリダイゼーションの1ラウンド後、数千倍の核酸の濃縮を観察することができる。第2ラウンド後、濃縮は、例えば、約15,000倍の平均濃縮まで上昇することができ、単一のシーケンサーランで数百倍の標的対象範囲を提供することができる。したがって、ハイブリッド選択の単一のラウンドでは達成不可能な濃縮因子を必要とする実験において、方法は、典型的には、その組のベイト配列を用いて、単離された核酸のサブグループ(すなわち、標的配列の一部またはすべて)を1つ以上のさらなるラウンドの溶液ハイブリダイゼーションに供することを含む。
【0335】
2つの異なるベイト配列(ベイト1、ベイト2)を用いた連続ハイブリッド選択を用いて、「交差点」、すなわち、例えば、染色体間の濃縮を含むが、これに限定されない用途に使用されるベイト1およびベイト2に結合するDNA配列のサブグループを単離し、配列決定することができる。例えば、染色体1上の配列に特異的なベイトを有する腫瘍試料からのDNAの選択、続いて、染色体2に特異的なベイトにハイブリダイズする配列の第1の選択の産物からの選択は、それら両方の染色体由来の配列を含有する染色体転座接合部で配列を濃縮することができる。
【0336】
任意の特定の核酸のモル濃度が、核酸のサブグループ内のすべての選択された核酸の平均モル濃度のわずかな変化の範囲内であるように、選択された核酸のサブグループのモル濃度を制御することができる。標的表示の均等性を制御および最適化する方法には、当技術分野で周知のプローブ設計の物理化学的および経験的規定に基づいたベイト配列の合理的設計、ならびに平均よりも低い働きをすることで既知であるか、または平均よりも低い働きをする疑いのある配列がそれらの本質的弱点を相殺するために大きな比率を占めるベイトのプールが含まれるが、これらに限定されない。いくつかの実施形態では、単離された核酸のサブグループの少なくとも約50%、60%、65%、70%、75%、80%、85%、90%、または95%は、平均モル濃度の約20倍、15倍、10倍、5倍、3倍、または2倍の範囲内である。一実施形態において、単離された核酸のサブグループの少なくとも約50%は、平均モル濃度の約3倍の範囲内である。別の実施形態では、単離された核酸のサブグループの少なくとも約90%は、平均モル濃度の約10倍の範囲内である。
【0337】
ベイトの濃度を変化させることによって、選択効率の変化をさらに調節することができる。一実施形態において、選択効率は、ベイトの等モル混合物を用いるときに観察される差次的配列捕捉効率を参照してベイトの相対存在量または結合実体の密度(例えば、ハプテンもしくは親和性タグ密度)を調節することによって、ある群内の個別のベイト(例えば、第1、第2、もしくは第3の複数のベイト)の効率を平準化し、その後、内部的に平準化された第2群に対して、差次的の過度の内部的に平準化された第1群の必要な量を全体のベイト混合物に導入することにより調節される。
【0338】
ある特定の実施形態において、本明細書に記載の方法は、標的配列の均等な対象範囲を達成することができる。一実施形態において、予想される対象範囲の少なくとも約50%を有する標的塩基の割合は、例えば、タンパク質コードエクソン等の短い標的の場合、少なくとも約60%、70%、80%、または90%である。別の実施形態では、予想される対象範囲の少なくとも約50%を有する標的塩基の割合は、例えば、ゲノム領域等の捕捉ベイトの長さよりも長い標的の場合、少なくとも約80%、90%、または95%である。
【0339】
ハイブリダイゼーションの前に、ベイトを当技術分野で周知の方法に従って変性することができる。概して、ハイブリダイゼーションステップは、過剰なブロッキングDNAを標識化されたベイト組成物に付加すること、ハイブリダイゼーション条件下でブロッキングされたベイト組成物を検出される標的配列と接触させること、ハイブリダイズされていないベイトを洗い流すこと、およびベイト組成物の標的への結合を検出することを含む。
【0340】
ベイトは、ハイブリダイゼーション条件下で標的配列にハイブリダイズまたはアニーリングされる。「ハイブリダイゼーション条件」は、ベイトと標的核酸との間のアニーリングを促進する条件である。異なるベイトのアニーリングがプローブの長さ、塩基濃度等に応じて変化するため、アニーリングは、ベイト濃度、ハイブリダイゼーション温度、塩濃度、および当技術分野で周知の他の要因を変化させることによって促進される。
【0341】
ハイブリダイゼーション条件は、ベイトの濃度、塩基組成、複雑度、および長さ、ならびにインキュベーションの塩濃度、温度、および期間を変化させることによって促進される。例えば、ハイブリダイゼーションを、5倍SSPE、5倍デンハルト液、5mMのEDTA、および0.1%のSDS、ならびにブロッキングDNAを含有するハイブリダイゼーション緩衝液中で行って、非特異的ハイブリダイゼーションを抑制することができる。ベイトがRNAである場合、RNase阻害剤を使用することができる。概して、上述のハイブリダイゼーション条件は、約25℃〜約65℃、典型的には、約65℃の温度、および約0.5時間〜約96時間、典型的には、約66時間のインキュベーション期間を含む。さらなる例となるハイブリダイゼーション条件は、本明細書の実施例12A〜12Cおよび表14にある。
【0342】
本明細書に記載の方法は、標準の液体処理方法およびデバイスに適応可能である。いくつかの実施形態では、方法は、マルチウェルプレートを処理するデバイス等の当技術分野で既知の自動液体処理技術を用いて実行される(例えば、Gnirke,A.et al.(2009)Nat Biotechnol.27(2):182−189を参照のこと)。これは、自動ライブラリ構築、ならびに溶液ハイブリダイゼーションの設定および溶液ハイブリダイゼーション後の洗浄を含む溶液ハイブリダイゼーションステップを含み得るが、これらに限定されない。例えば、そのような自動化された方法を実行するための装置を溶液ハイブリダイゼーション反応後のビーズ捕捉および洗浄ステップに使用することができる。例となる装置は、ストレプトアビジンでコーティングされた磁気ビーズを含有するマルチウェルプレート用の位置;試薬を予熱し、かつユーザ定義の温度で洗浄ステップを実行するためのI/O制御熱ブロックである、ハイブリッド−選択反応溶液を含有するマルチウェルプレート用の位置;ピペット先端のラック用の位置;ピペット先端を洗浄し、かつ廃棄物を処分する洗浄ステーションである、磁石固定化ビーズからの上清の分離を促進するある特定の構成でレイアウトされた磁石を有する位置;ならびに低および高ストリンジェンシー洗浄緩衝液または最終捕獲物のアルカリ溶出用の溶液等の他の溶液および試薬用の位置を含み得るが、これらに限定されない。一実施形態において、装置は、同時に捕獲中和ステップを介するビーズ捕捉ステップからの最大96個のハイブリッド選択を処理するように設計される。別の実施形態では、1つ以上の位置が二重機能を有する。さらに別の実施形態では、ユーザは、1つのプレートを別のプレートに交換するプロトコルによって指示される。
【0343】
直接的に選択された核酸を連鎖させて剪断することができ、これは、短い配列決定読み取りの制限を打開するために行われる。一実施形態において、それぞれのエクソンサイズの配列決定標的は、標的と略同一のサイズであり、かつ標的のエンドポイントに近いエンドポイントを有する単一のベイト分子で捕捉される。約100個以上の連続塩基対を有する二本鎖分子を形成するハイブリッドのみが、ストリンジェントなハイブリダイゼーション後の洗浄に耐え抜く。結果として、選択された核酸のサブグループ(すなわち、「捕獲物」)は、ランダムに剪断されたゲノムDNA断片のために濃縮され、その末端は、ベイト分子の末端に近い。非常に短い配列決定読み取りを用いた単なる「捕獲物」の末端配列決定が、標的の末端近く(またはさらには外側)でより高い対象範囲をもたらし、中間近くで対象範囲を低下させ得る。
【0344】
ライゲーションによって「捕獲」分子を連鎖し、その後、ランダム剪断およびショットガン配列決定を行うことは、標的配列の全長に沿って配列対象範囲を得る1つの方法である。この方法は、非常に短い読み取りでの末端配列決定よりも高い割合の(標的付近ではなく)標的上の配列決定された塩基を産生する。共ライゲーションによって分子を連鎖させる方法は、当技術分野で周知である。連鎖を平滑末端ライゲーションによって行うことができる。効率的なライゲーションのための「粘着」末端を、それらの5’末端近くに制限部位を有するPCRプライマーを用いた「捕獲物」のPCR増幅、その後、対応する制限酵素(例えば、NotI)での消化を含む様々な方法によって、あるいはT4 DNAポリメラーゼによる部分的「チューバック」等のPCR産物のライゲーション依存性クローニングに一般的に使用される戦略と同様の戦略(Aslanidis and de Jong,Nucleic Acids Res.18:6069−6074,1990)、またはUDGグリコシラーゼおよびリアーゼエンドVIIIでのウラシル含有PCR産物の処理(例えば、New England Biolabs cat.E5500S)によって産生することができる。
【0345】
別の実施形態では、互い違いの組のベイト分子を用いて領域を標的とし、標的領域にわたって頻出するベイト末端を得る。いくつかの実施形態では、単に末端配列された「捕獲物」(すなわち、連鎖および剪断なし)が、実際の配列決定標的(例えば、エクソン)を含むベイトによって対象範囲とされる全領域に沿って極めて均一な配列対象範囲を提供する。ベイト分子を互い違いにしてベイトによって対象範囲とされる断片を広げると、配列決定された塩基は、より広い領域にわたって分布される。結果として、標的上の配列と標的付近の配列との比率は、1つの標的につき単一のベイトのみを必要とすることの多いオーバーラップしないベイトで選択した場合よりも低い。
【0346】
別の実施形態では、わずかにより長い読み取り(例えば、76個の塩基)での末端配列決定は、短い選択された標的(例えば、エクソン)を配列決定するための典型的な方法である。非常に短い読み取りでの末端配列決定とは異なり、この方法は、中間での対象範囲の低下を伴うことなく単様式の対象範囲特性をもたらす。この方法は、上述の連鎖および剪断方法よりも簡単に行われ、標的に沿って比較的均一の対象範囲をもたらし、ベイトおよび標的に適切の重なる高い割合の配列決定された塩基を生成する。
【0347】
一実施形態において、選択された核酸のサブグループは、配列決定または遺伝子型判定によって分析される前に増幅される(例えば、PCRによって)。別の実施形態では、サブグループは、例えば、選択されたサブグループが、単一の分子を読み取ることができる高感度分析法によって分析されるとき、増幅ステップなしで分析される。
ベイトモジュール
【0348】
本明細書に記載の方法は、配列決定される標的核酸の選択のために、ベイト、例えば、溶液ハイブリダイゼーション用のベイトの適切な選択による1名以上の対象由来の試料、例えば、腫瘍試料由来の多数の遺伝子および遺伝子産物の最適化配列決定を提供する。様々なサブゲノム間隔またはそのクラスの選択効率は、事前選択された選択効率を有するベイトセットに従って適合される。
【0349】
したがって、方法(例えば、上述の方法の要素(b))は、ライブラリを複数のベイトと接触させて選択されたメンバー(本明細書でライブラリ捕獲物と称される場合もある)を提供することを含む。
【0350】
したがって、試料、例えば、腫瘍試料を分析する方法が提供される。方法は、
(a)複数のメンバーを含むライブラリを試料から、例えば、複数の腫瘍メンバーを含むライブラリを腫瘍試料から取得することと、
(b)ライブラリをベイトセットと接触させて選択されたメンバー(例えば、ライブラリ捕獲物)を提供することと、
(c)サブゲノム間隔についての読み取りを、例えば、配列決定を含む方法によって、例えば、次世代配列決定方法を用いて、該ライブラリまたはライブラリ捕獲物からのメンバー、例えば、腫瘍メンバーから取得することと、
(d)該読み取りを、アライメント方法、例えば、本明細書に記載のアライメント方法によってアライメントすることと、
(e)事前選択されたヌクレオチド位置に対する該読み取りからのヌクレオチド値を割り当てる(例えば、ベイズ方法または本明細書に記載の方法を用いて、例えば、変異を呼び出す)ことと、を含み、
それによって、該腫瘍試料を分析し、
方法は、ライブラリを複数、例えば、少なくとも2つ、3つ、4つ、または5つのベイトセットと接触させることとを含み、該複数のベイトセットはそれぞれ、(他の複数のベイトセットとは対照的に)一意の事前選択された選択効率を有し、例えば、それぞれの一意のベイトセットは、一意の配列決定深度を提供する。
【0351】
ある実施形態において、第1の複数のベイトセットの選択効率は、第2の複数のベイトセットの効率とは少なくとも2倍異なる。ある実施形態において、第1および第2のベイトセットは、少なくとも2倍異なる配列決定深度を提供する。
【0352】
ある実施形態において、方法は、以下のベイトセットのうちの1つまたは複数をライブラリと接触させることを含む:
a)約500倍以上の配列決定深度を提供する、例えば、試料由来の5%を超えない細胞に存在する変異を配列決定するのに十分な数のサブゲノム間隔を含むメンバーを選択するベイトセット、
b)約200倍以上、例えば、約200倍〜約500倍の配列決定深度を提供する、例えば、試料由来の10%を超えない細胞に存在する変異を配列決定するのに十分な数のサブゲノム間隔を含むメンバーを選択するベイトセット、
c)約10〜100倍の配列決定深度を提供する、例えば、a)異なる薬物を代謝する患者の能力を説明し得る薬理ゲノム(PGx)単一ヌクレオチド多型(SNP)、b)患者を一意に同定する(例えば、フィンガープリントする)ために使用され得るゲノムSNP、c)ゲノムDNAのコピー数の獲得/喪失およびヘテロ接合性の消失(LOH)を評価するために使用され得るゲノムSNP/遺伝子座から選択される1つ以上のサブゲノム間隔(例えば、エクソン)を配列決定するのに十分な数のサブゲノム間隔を含むメンバーを選択するベイトセット、
d)約5〜50倍の配列決定深度を提供する、例えば、ゲノム転座またはインデル等の構造ブレークポイントを検出するのに十分な数のサブゲノム間隔を含むメンバーを選択するベイトセット(例えば、イントロンブレークポイントの検出は、高い検出信頼性を確保するために、5〜50倍の配列対スパン深度を必要とし、そのようなベイトセットを用いて、例えば、転座/インデルの傾向のある癌遺伝子を検出することができる)、または
e)約0.1〜300倍の配列決定深度を提供する、例えば、コピー数の変化を検出するのに十分な数のサブゲノム間隔を含むメンバーを選択するベイトセット。一実施形態において、コピー数の変化を検出するための配列決定深度は、約0.1〜10倍の配列決定深度の範囲である。他の実施形態では、ゲノムDNAのコピー数獲得/喪失またはヘテロ接合性の消失(LOH)を評価するために使用されるゲノムSNP/遺伝子座を検出するための配列決定深度は、約100〜300倍の範囲である。そのようなベイトセットを用いて、例えば、増幅/欠失の傾向のある癌遺伝子を検出することができる。
【0353】
実施形態において、方法は、それぞれが異なるベイト設計戦略を有する2つ以上の異なる標的カテゴリーを捕捉するように設計されるベイトの使用を含む。実施形態において、本明細書に開示のハイブリッド捕捉方法および組成物は、標的配列(例えば、標的メンバー)の定義されたサブセットの外側の対象範囲を最小限に抑えながら、そのサブセットを捕捉し、標的配列の均一な対象範囲を提供する。一実施形態において、標的配列は、ゲノムDNAからの全エクソーム、またはその選択されたサブセットを含む。本明細書に開示の方法および組成物は、異なる深度およびパターンの複合標的核酸配列(例えば、核酸ライブラリ)の対象範囲を達成するために、異なるベイトセットを提供する。
【0354】
ある実施形態において、方法は、核酸ライブラリ(例えば、ライブラリ捕獲物)の選択されたメンバーを提供することを含む。方法は、
複数のメンバー、例えば、標的核酸メンバー(例えば、複数の腫瘍メンバー、参照メンバー、および/またはPGxメンバーを含む)を含むライブラリ(例えば、核酸ライブラリ)を提供することと、
ライブラリを、例えば、溶液またはアレイベースの反応で、複数のベイト(例えば、オリゴヌクレオチドベイト)と接触させて、複数のベイト/メンバーハイブリッドを含むハイブリダイゼーション混合物を形成することと、
複数のベイト/メンバーハイブリッドを、例えば、該ハイブリダイゼーション混合物を該複数のベイト/メンバーハイブリッドの分離を可能にする結合実体と接触させることによって、該ハイブリダイゼーション混合物から分離することと、を含み、
それによって、ライブラリ捕獲物(例えば、ライブラリ由来の核酸分子の選択または濃縮されたサブグループ)を提供し、
複数のベイトは、以下のうちの2つ以上を含む:
a)低頻度、例えば、約5%(すなわち、それらのゲノムにおける変化を持つ試料由来の細胞の5%)以下で出現する変化(例えば、1つ以上の変異)に対する高レベルの感度を可能にするために最深の対象範囲が要求される、高レベルの標的(例えば、遺伝子、エクソン、または塩基等のサブゲノム間隔を含む1つ以上の腫瘍メンバー)を選択する第1のベイトセット(一実施形態において、第1のベイトセットは、約500倍以上の配列決定深度を必要とする変化(例えば、点変異)を含む腫瘍メンバーを選択する(例えば、それに相補的である))、
b)a)における高レベルの標的よりも高い頻度、例えば、約10%(すなわち、それらのゲノムにおける変化を持つ試料由来の細胞の10%)の頻度で出現する変化(例えば、1つ以上の変異)に対する高レベルの感度を可能にするために高い対象範囲が要求される、中間レベルの標的(例えば、遺伝子、エクソン、または塩基等のサブゲノム間隔を含む1つ以上の腫瘍メンバー)を選択する第2のベイトセット(一実施形態において、第2のベイトセットは、約200倍以上の配列決定深度を必要とする変化(例えば、点変異)を含む腫瘍メンバーを選択する(例えば、それに相補的である))、
c)高レベルの感度を可能にするために、例えば、ヘテロ接合体対立遺伝子を検出するために低〜中程度の対象範囲が要求される、低レベルの標的(例えば、遺伝子、エクソン、または塩基等のサブゲノム間隔を含む1つ以上のPGxメンバー)を選択する第3のベイトセット(例えば、ヘテロ接合体対立遺伝子の検出は、高い検出信頼性を確保するために、10〜100倍の配列決定深度を必要とする。一実施形態において、第3のベイトセットは、a)異なる薬物を代謝する患者の能力を説明し得る薬理ゲノム(PGx)単一ヌクレオチド多型(SNP)、またはb)患者を一意に同定する(例えば、フィンガープリントする)ために使用され得るゲノムSNP、c)ゲノムDNAのコピー数の獲得/喪失およびヘテロ接合性の消失(LOH)を評価するために使用され得るゲノムSNP/遺伝子座から選択される1つ以上のサブゲノム間隔(例えば、エクソン)を選択する、
d)例えば、ゲノム転座またはインデル等の構造ブレークポイントを検出するために低〜中程度の対象範囲が要求される、第1のイントロン標的(例えば、イントロン配列を含むメンバー)を選択する第4のベイトセット(例えば、イントロンブレークポイントの検出は、高い検出信頼性を確保するために、5〜50倍の配列対スパン深度を必要とする。該第4のベイトセットを用いて、例えば、転座/インデルの傾向のある癌遺伝子を検出することができる)、または
e)コピー数の変化を検出する能力を改善するためにわずかな対象範囲が要求される、第2のイントロン標的(例えば、イントロンメンバー)を選択する第5のベイトセット((例えば、いくつかの末端エクソンの1コピー欠失の検出は、高い検出信頼性を確保するために、0.1〜10倍の対象範囲を必要とする。該第5のベイトセットを用いて、例えば、増幅/欠失の傾向のある癌遺伝子を検出することができる)。
【0355】
前述のベイトセットのうちの2、3、4つ、またはそれ以上の任意の組み合わせ、例えば、第1および第2のベイトセット;第1および第3のベイトセット;第1および第4のベイトセット;第1および第5のベイトセット;第2および第3のベイトセット;第2および第4のベイトセット;第2および第5のベイトセット;第3および第4のベイトセット;第3および第5のベイトセット;第4および第5のベイトセット;第1、第2、および第3のベイトセット;第1、第2、および第4のベイトセット;第1、第2、および第5のベイトセット;第1、第2、第3、第4のベイトセット;第1、第2、第3、第4、および第5のベイトセットの組み合わせ等を、本明細書で取り上げられる方法および組成物で使用することができる。
【0356】
一実施形態において、第1、第2、第3、第4、または第5のベイトセットはそれぞれ、事前選択された選択(例えば、捕捉)効率を有する。一実施形態において、選択効率値は、a)〜e)に従って、5つすべてのベイトのうちの少なくとも2つ、3つ、4つにおいて同一である。他の実施形態では、選択効率値は、a)〜e)に従って、5つすべてのベイトのうちの少なくとも2つ、3つ、4つにおいて異なる。
【0357】
いくつかの実施形態では、少なくとも2つ、3つ、4つ、または5つすべてのベイトセットは、異なる事前選択された効率値を有する。例えば、選択効率値は、のうちの1つ以上から選択される:
(i)第1の事前選択された効率が、少なくとも約500倍以上の配列決定深度である第1の選択効率値を有する(例えば、第2、第3、第4、もしくは第5の事前選択された選択効率よりも大きい(例えば、第2の選択効率値よりも約2〜3倍大きく、第3の選択効率値よりも約5〜6倍大きく、第4の選択効率値よりも約10倍大きく、第5の選択効率値よりも約50〜5000倍大きい)選択効率値を有する)こと、
(ii)第2の事前選択された効率が、少なくとも約200倍以上の配列決定深度である第2の選択効率値を有する(例えば、第3、第4、もしくは第5の事前選択された選択効率よりも大きい(例えば、第3の選択効率値よりも約2倍大きく、第4の選択効率値よりも約4倍大きく、第5の選択効率値よりも約20〜2000倍大きい)選択効率値を有する)こと、
(iii)第3の事前選択された効率が、少なくとも約100倍以上の配列決定深度である第3の選択効率値を有する(例えば、第4もしくは第5の事前選択された選択効率よりも大きい(例えば、第4の選択効率値よりも約2倍大きく、第5の選択効率値よりも約10〜1000倍大きい)選択効率値を有する)こと、
(iv)第4の事前選択された効率が、少なくとも約50倍以上の配列決定深度である第4の選択効率値を有する(例えば、第5の事前選択された選択効率よりも大きい(例えば、第5の選択効率値よりも約50〜500倍大きい)選択効率値を有する)こと、または
(v)第5の事前選択された効率が、少なくとも約10〜0.1倍の配列決定深度である第5の選択効率値を有すること。
【0358】
ある特定の実施形態において、選択効率値は、異なるベイトセットの差次的表示、ベイトサブセットの差次的オーバーラップ、差次的ベイトパラメータ、または異なるベイトセットの混合のうちの1つ以上によって修正される。例えば、選択効率(例えば、それぞれのベイトセット/標的カテゴリーの相対配列対象範囲)の変化を、以下のうちの1つ以上を変化させることによって調節することができる。
(i)異なるベイトセットの差次的表示:所与の標的(例えば、標的メンバー)を捕捉するためのベイトセット設計をより多い/より少ない数のコピーに含んで、相対標的対象範囲深度を強化する/減少させることができる。
(ii)ベイトサブセットの差次的オーバーラップ:所与の標的(例えば、標的メンバー)を捕捉するためのベイトセット設計に、隣接ベイト間により長いか、またはより短いオーバーラップを含ませて、相対標的対象範囲深度を強化する/減少させることができる。
(iii)差次的ベイトパラメータ:所与の標的(例えば、標的メンバー)を捕捉するためのベイトセット設計に、配列修正/より短い長さを含ませて、捕捉効率を減少させ、かつ相対標的対象範囲深度を低下させることができる。
(iv)異なるベイトセットの混合:異なる標的セットを捕捉するように設計されるベイトセットを異なるモル比で混合して、相対標的対象範囲深度を強化する/減少させることができる。
(v)異なる種類のオリゴヌクレオチドベイトセットの使用:ある特定の実施形態において、ベイトセットは、以下のものを含んでもよい:
(a)1つ以上の化学的に(例えば、非酵素的に)合成された(例えば、個別に合成された)ベイト、
(b)アレイで合成された1つ以上のベイト、
(c)1つ以上の酵素的に調製された、例えば、生体外で転写されたベイト、
(d)(a)、(b)、および/もしくは(c)の任意の組み合わせ、
(e)1つ以上のDNAオリゴヌクレオチド(例えば、自然発生もしくは非自然発生のDNAオリゴヌクレオチド)、
(f)1つ以上のRNAオリゴヌクレオチド(例えば、自然発生もしくは非自然発生のRNAオリゴヌクレオチド)、
(g)(e)および(f)の組み合わせ、または
(h)上記のうちのいずれかの組み合わせ。
【0359】
異なるオリゴヌクレオチドの組み合わせを、異なる比率で、例えば、1:1、1:2、1:3、1:4、1:5、1:10、1:20、1:50、1:100、1:1000等から選択される比率で混合してもよい。一実施形態において、化学的に合成されたベイトとアレイで生成されたベイトの比率は、1:5、1:10、または1:20から選択される。DNAまたはRNAオリゴヌクレオチドは、自然発生または非自然発生であり得る。ある特定の実施形態において、ベイトは、例えば、融解温度を増加させるために、1つ以上の非自然発生のヌクレオチドを含む。例となる非自然発生のオリゴヌクレオチドは、修飾されたDNAまたはRNAヌクレオチドを含む。例となる修飾されたヌクレオチド(例えば、修飾されたRNAまたはDNAヌクレオチド)は、LNAヌクレオチドのリボース部分が2’酸素と4’炭素を結合する追加の架橋で修飾されるロックド核酸(LNA);ペプチド核酸(PNA)、例えば、ペプチド結合によって結合された反復N−(2−アミノエチル)−グリシンユニットから成るPNA;低GC領域を捕捉するように修飾されたDNAまたはRNAオリゴヌクレオチド;二環式核酸(BNA);架橋オリゴヌクレオチド;修飾された5−メチルデオキシシチジン;および2,6−ジアミノプリンを含むが、これらに限定されない。他の修飾されたDNAおよびRNAヌクレオチドは、当技術分野で既知である。
【0360】
ある特定の実施形態において、実質的に均一または同様の対象範囲の標的配列(例えば、標的メンバー)が得られる。例えば、それぞれのベイトセット/標的カテゴリー内で、対象範囲の均一性を、ベイトパラメータを修正することによって、例えば、以下のうちの1つ以上によって最適化することができる:
(i)ベイト表示またはオーバーラップの増加/減少を用いて、同一のカテゴリー内の他の標的と比較して不十分に/過度に対象範囲とされるされる標的(例えば、標的メンバー)の対象範囲を強化する/減少させることができること、
(ii)標的配列(例えば、高GC含量配列)を捕捉するのが困難な低対象範囲の場合、ベイトセットで標的化される領域を拡大して、例えば、隣接配列(例えば、GCが比較的豊富ではない隣接配列)を対象範囲とすること、
(iii)ベイト配列の修正を行って、ベイトの二次構造を減少させ、かつその選択効率を強化することができること、
(iv)ベイト長の修正を用いて、同一のカテゴリー内の異なるベイトの融解ハイブリダイゼーション動態を均等化することができること(ベイト長を直接的に(異なる長さを有するベイトを産生することによって)または間接的に(一貫した長さのベイトを産生し、ベイト末端を任意の配列に置き換えることによって)修飾することができる)、
(v)同一の標的領域(すなわち、順方向鎖および逆方向鎖)に対して異なる配向を有するベイトの修正が、異なる結合効率を有し得ること(それぞれの標的に最適な対象範囲を提供するいずれかの配向を有するベイトセットを選択することができる)、
(vi)それぞれのベイト上に存在する結合実体、例えば、捕捉タグ(例えば、ビオチン)の量の修正が、その結合効率に影響を及ぼし得ること(特定の標的を標的化するベイトのタグレベルの増加/減少を用いて、相対標的対象範囲を強化する/減少させることができる)、
(vii)異なるベイトに使用されるヌクレオチドの種類の修正を変更して、標的に対する結合親和性に影響を及ぼし、かつ相対標的対象範囲を強化する/減少させることができること、または
(viii)例えば、より安定した塩基対合を有する修飾されたオリゴヌクレオチドベイトを使用して、高GC含量と比較して低いか、もしくは正常なGC含量の領域間の融解ハイブリダイゼーション動態を均等化することができること。
【0361】
他の実施形態では、選択効率は、等モル混合物のベイトを用いるときに観察される差次的配列捕捉効率を参照してベイトの相対存在量または結合実体の密度(例えば、ハプテンまたは親和性タグ密度)を調節することによって、ある群内の個別のベイト(例えば、第1、第2、または第3の複数のベイト)の効率を平準化し、その後、内部的に平準化された第2群に対して、差次的の過度の内部的に平準化された第1群を全体のベイト混合物に導入することにより調節される。
【0362】
ある実施形態において、ライブラリ捕獲物が、腫瘍メンバー、例えば、腫瘍細胞由来のサブゲノム間隔を含む核酸分子を選択するベイトセット(本明細書で「腫瘍ベイトセット」とも称される)を含む複数のベイトセットの使用によって提供される。腫瘍メンバーは、腫瘍細胞に存在する任意のヌクレオチド配列(例えば、変異、野生型、PGx、参照)または腫瘍もしくは癌細胞に存在する本明細書に記載のイントロンヌクレオチド配列(例えば、メンバー)であり得る。一実施形態において、腫瘍メンバーは、低頻度、例えば、それらのゲノムの変化を持つ腫瘍試料由来の細胞の約5%以下で出現する変化(例えば、1つ以上の変異)を含む。他の実施形態では、腫瘍メンバーは、腫瘍試料由来の細胞の約10%の頻度で出現する変化(例えば、1つ以上の変異)を含む。他の実施形態では、腫瘍メンバーは、PGx遺伝子または遺伝子産物由来のサブゲノム間隔、イントロン配列、例えば、本明細書に記載のイントロン配列、腫瘍細胞に存在する参照配列を含む。
【0363】
他の実施形態では、方法は、非腫瘍メンバー、例えば、非腫瘍細胞に存在する核酸分子(サブゲノム間隔等)を検出することをさらに含む。一実施形態において、複数のベイトセットは、非腫瘍メンバー(本明細書で「非腫瘍ベイトセット」とも称される)を選択するベイトセットを含む。例えば、非腫瘍メンバーは、腫瘍を有するか、または有する危険性のある同一の対象由来の正常な(例えば、非癌性)参照試料(例えば、腫瘍試料を得た同一の対象由来)、正常な隣接組織(NAT)、または血液試料由来であり得る。他の実施形態では、非腫瘍メンバーは、1名以上の異なる対象(例えば、健常な対象、あるいは腫瘍を有するか、または有する危険性のある他の対象)由来の腫瘍メンバーとは異なる対象に由来する(例えば、正常な(例えば、非癌性)参照試料、正常な隣接組織(NAT)、または血液試料に由来する)。一実施形態において、非腫瘍メンバーは、非腫瘍細胞に存在するPGx遺伝子または遺伝子産物、イントロン配列、参照配列由来のサブゲノム間隔を含む。
【0364】
一実施形態において、腫瘍ベイトセットは、以下のA〜Mのうちの1、2、3、4、5、6、7、8、9、10、11、12個、もしくはすべてから選択される:
A.癌表現型に関連した単一ヌクレオチド変化を含むエクソン配列を選択するベイトセット、
B.参照ヌクレオチド(例えば、染色体)配列由来の1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20個、またはそれ以上のコドンのインフレーム欠失を選択するベイトセット、
C.遺伝子内欠失を選択するベイトセット、
D.遺伝子内挿入を選択するベイトセット、
E.全遺伝子の欠失を選択するベイトセット、
F.逆位、例えば、染色体内逆位を選択するベイトセット、
G.染色体間転座を選択するベイトセット、
H.タンデム重複、例えば、染色体内タンデム重複を選択するベイトセット、
I.非反復隣接配列に隣接する目的とするヌクレオチド配列を選択するベイトセット、
J.融合配列に対応する1つ以上のサブゲノム間隔、例えば、融合配列(例えば、融合転写物または非融合転写物の癌関連選択的スプライシングされた形態)に対応する事前選択された対のサブゲノム間隔(例えば、事前選択された対のエクソン)を選択するベイトセット、
K.望ましくない特徴を含むヌクレオチド配列、例えば、高GC含量のヌクレオチド配列、1つ以上の反復要素および/または逆位反復を含むヌクレオチド配列に隣接したサブゲノム間隔を選択するベイトセット、
L.再編成、例えば、ゲノム再編成(例えば、イントロン配列、例えば、5’もしくは3’−UTRを含む再編成)を選択するベイトセット、あるいは
M.癌関連遺伝子融合物に隣接したエクソンを含むサブゲノム間隔を選択するベイトセット。
【0365】
ベイトセットおよびそれらを使用する方法のさらなる実施形態は、以下の通りである。
一実施形態において、ベイトセットは、ハイブリダイゼーションによってメンバーを選択する(例えば、ベイトセット中のベイトまたは複数のベイトは、本明細書に記載の1つ以上のメンバー、例えば、第1〜第5のメンバー等の標的メンバー、腫瘍または非腫瘍メンバーに相補的である)。
【0366】
一実施形態において、ライブラリ(例えば、核酸ライブラリ)は、1、2、3、4、5、6、7、8、9、10、20、30名、もしくはそれ以上の対象由来の複数のメンバー、例えば、標的核酸メンバーを含む。一実施形態において、対象は、癌もしくは腫瘍を有するか、または有する危険性のあるヒトである。
【0367】
ある特定の実施形態において、方法は、少なくともX名の対象由来の腫瘍試料由来の腫瘍メンバーを配列決定することを含む(X=1、2、3、4、5、6、7、8、9、10、20、30、40名、もしくはそれ以上の対象)。一実施形態において、対象は、癌もしくは腫瘍を有するか、または有する危険性のあるヒトである。方法は、少なくともX名の対象由来の本明細書に記載の少なくとも5、10、15、20、30、40、50、75個、もしくはそれ以上の遺伝子または遺伝子産物(例えば、表1、1A、2、3、もしくは4の遺伝子または遺伝子産物)を配列決定することを含む。
【0368】
他の実施形態において、または前述の実施形態に加えて、方法は、腫瘍試料と同一の対象由来の遺伝子または遺伝子産物、例えば、本明細書に記載の遺伝子または遺伝子産物(例えば、表1、1A、2、3、もしくは4の遺伝子または遺伝子産物)の野生型または非変異ヌクレオチド配列からの参照サブゲノム間隔を配列決定することを含む。一実施形態において、参照遺伝子または遺伝子産物は、腫瘍を有するか、または有する危険性のある同一の対象由来、あるいは異なる対象由来の腫瘍試料と同一の対象または異なる対象に由来する(例えば、同一もしくは異なる腫瘍試料、正常な(例えば、非癌性)試料、正常な隣接組織(NAT)、または血液試料のうちの1つ以上に由来する)。
【0369】
一実施形態において、メンバー(例えば、本明細書に記載のメンバーのうちのいずれか)は、サブゲノム間隔を含む。一実施形態において、サブゲノム間隔は、遺伝子内領域または遺伝子間領域を含む。一実施形態において、サブゲノム間隔は、遺伝子もしくはその断片、エクソンもしくはその断片、または事前選択されたヌクレオチド位置(例えば、塩基)を含む。別の実施形態では、サブゲノム間隔は、エクソンもしくはイントロン、またはその断片、典型的には、エクソンまたはその断片を含む。一実施形態において、サブゲノム間隔は、コード領域もしくは非コード領域、例えば、プロモーター、エンハンサー、5’非翻訳領域(5’UTR)、または3’非翻訳領域(3’UTR)、あるいはその断片を含む。
【0370】
別の実施形態では、メンバー(例えば、本明細書に記載のメンバーのうちのいずれか)のサブゲノム間隔は、癌表現型(例えば、癌の危険性、癌進行、癌治療、または癌治療に対する抵抗のうちの1つ以上)に、例えば、正もしくは負に関連した変化(例えば、1つ以上の変異)を含む。さらに別の実施形態では、サブゲノム間隔は、変化、例えば、点変異または単一変異、欠失変異(例えば、インフレーム欠失、遺伝子内欠失、全遺伝子欠失)、挿入変異(例えば、遺伝子内挿入)、逆位変異(例えば、染色体内逆位)、連鎖変異、連鎖された挿入変異、逆位重複変異、タンデム重複(例えば、染色体内タンデム重複)、転座(例えば、染色体転座、非相反転座)、再編成(例えば、ゲノム再編成(例えば、1つ以上のイントロンもしくはその断片の再編成;再編成されたイントロンは、5’−および/もしくは3’−UTRを含み得る)、遺伝子コピー数の変化、遺伝子発現の変化、RNAレベルの変化、またはそれらの組み合わせを含む。一実施形態において、第1もしくは第2のメンバーのサブゲノム間隔は、表1、1A、3、もしくは4に従う遺伝子または遺伝子産物の変化を含む。
【0371】
一実施形態において、腫瘍メンバーは、1つ以上の変化(例えば、腫瘍試料由来の遺伝子もしくは遺伝子産物由来の1つ以上の変化または変異したサブゲノム間隔)を含む。いくつかの実施形態では、ベイトセット(例えば、本明細書に記載のベイトセットのうちのいずれか)は、癌表現型に、例えば、正もしくは負に関連した変化(例えば、1つ以上の変異)を含む腫瘍メンバー、例えば、核酸分子(例えば、遺伝子、エクソン、またはその断片等のサブゲノム間隔)を選択する(例えば、それに相補的である)。
【0372】
ある実施形態において、メンバーは、癌表現型、例えば、癌の危険性、癌進行、癌治療、または癌治療に対する抵抗のうちの1つ以上に関連する。癌表現型との関連は、癌の遺伝的危険因子、正の治療応答予測因子、負の治療応答予測因子、正の予後因子、負の予後因子、または診断因子のうちの1つ以上を含み得る。一実施形態において、腫瘍メンバーに関連した癌表現型は、試料の組織学的分析によって検出されるものと同一の腫瘍型である。他の実施形態では、腫瘍メンバーに関連した癌表現型は、試料の組織学的分析によって検出されるものとは異なる腫瘍型に由来する。
【0373】
ある特定の実施形態において、サブゲノム間隔は、ヌクレオチド配列を含み、事前選択された対立遺伝子バリアントの存在もしくは不在は、正の臨床転帰および/または治療に対する応答性を予測する。他の実施形態では、サブゲノム間隔は、ヌクレオチド配列を含み、事前選択された対立遺伝子バリアントの存在もしくは不在は、負の臨床転帰および/または治療に対する応答性を予測する。ある特定の実施形態において、核酸試料のサブゲノム間隔は、ヌクレオチド配列を含み、事前選択された対立遺伝子バリアントの存在もしくは不在は、癌を発現させる遺伝(例えば、生殖細胞系危険)因子を示す(例えば、遺伝子または遺伝子産物は、BRCA1、BRCA2、EGFR、HRAS、KIT、MPL、ALK、PTEN、RET、APC、CDKN2A、MLH1、MSH2、MSH6、NF1、NF2、RB1、TP53、VHL、もしくはWT1のうちの1つ以上から選択される)。
【0374】
他の実施形態では、メンバーは、癌表現型に関連しない。ある特定の実施形態において、メンバー(例えば、本明細書に記載のメンバーのうちのいずれか)のサブゲノム間隔は、試料由来の腫瘍型の癌表現型に関連しない核酸分子を(同一または異なるサブゲノム間隔において)含む。
【0375】
一実施形態において、メンバー(例えば、本明細書に記載のメンバーのうちのいずれか)のサブゲノム間隔は、遺伝子もしくは遺伝子産物の野生型または非変異ヌクレオチド配列(例えば、エクソン配列またはその断片)を含む。一実施形態において、第1もしくは第2のメンバーのサブゲノム間隔は、変異が癌表現型に関連するときに遺伝子もしくは遺伝子産物の野生型または非変異ヌクレオチド配列(例えば、本明細書に記載の遺伝子もしくは遺伝子産物、例えば、本明細書の表1、1A、3、もしくは4に記載の遺伝子もしくは遺伝子産物の野生型または非変異配列)を含む。野生型または非変異遺伝子もしくは遺伝子産物配列を含有するメンバーは、本明細書で「参照メンバー」とも称される。例えば、サブゲノム間隔は、ヘテロ接合体変異の野生型対立遺伝子、正常な(例えば、非癌性)参照試料(例えば、腫瘍試料を得た同一の対象由来)、正常な隣接組織(NAT)、あるいは腫瘍を有するか、または有する危険性のある同一の対象由来の血液試料のうちの1つ以上に由来する。他の実施形態では、サブゲノム間隔は、1名以上の異なる対象(例えば、健常な対象、あるいは腫瘍を有するか、または有する危険性のある他の対象)由来の腫瘍メンバーとは異なる対象に由来する(例えば、異なる対象、正常な(例えば、非癌性)参照試料、正常な隣接組織(NAT)、または血液試料由来の同一または異なる腫瘍試料のうちの1つ以上に由来する)。
【0376】
一実施形態において、第1のベイトセットまたは腫瘍ベイトセットは、約5%以下の頻度で出現する、例えば、高い検出信頼性を確保するために約500倍以上の配列決定深度を必要とする点変異を含む(すなわち、試料を調製した細胞の5%がそれらのゲノムでこの変異を持つ)サブゲノム間隔を選択する(例えば、それに相補的である)。
【0377】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、ABL1、AKT1、AKT2、AKT3、ALK、APC、AR、BRAF、CCND1、CDK4、CDKN2A、CEBPA、CTNNB1、EGFR、ERBB2、ESR1、FGFR1、FGFR2、FGFR3、FLT3、HRAS、JAK2、KIT、KRAS、MAP2K1、MAP2K2、MET、MLL、MYC、NF1、NOTCH1、NPM1、NRAS、NTRK3、PDGFRA、PIK3CA、PIK3CG、PIK3R1、PTCH1、PTCH2、PTEN、RB1、RET、SMO、STK11、SUFU、またはTP53遺伝子もしくは遺伝子産物のうちの1、2、3、4、5、6、7、8、9、10、15、20、25、30個、もしくはそれ以上から選択される腫瘍または参照メンバーを選択する(例えば、それに相補的である)。一実施形態において、第1のベイトセットまたは腫瘍ベイトセットは、ABL1遺伝子のコドン315;APCのコドン1114、1338、1450、もしくは1556;BRAFのコドン600;CTNNB1のコドン32、33、34、37、41、もしくは45;EGFRのコドン719、746〜750、768、790、858、もしくは861;FLT3のコドン835;HRASのコドン12、13、もしくは61;JAK2のコドン617;KITのコドン816;KRASのコドン12、13、もしくは61;PIK3CAのコドン88、542、545、546、1047、もしくは1049;PTENのコドン130、173、233、もしくは267;RETのコドン918;TP53のコドン175、245、248、273、もしくは306のうちの1つ以上から選択される1、2、3、4、5、6、7、8、9、10、15、20、25、30、35個のコドンを選択する(例えば、それに相補的である)。
【0378】
一実施形態において、第1のベイトセットまたは腫瘍ベイトセットは、ある特定の癌型において頻繁に変異する1つ以上のサブゲノム間隔、例えば、表1もしくは表1Aに従う優先順位が1の癌遺伝子または遺伝子産物由来の少なくとも5、10、20、30個、もしくはそれ以上のサブゲノム間隔を選択する。
【0379】
他の実施形態では、第2のベイトセットは、10%の頻度で出現する、例えば、高い検出信頼性を確保するために約200倍以上の配列決定深度を必要とする変化(例えば、点変異)を含む腫瘍メンバーを選択する(例えば、それに相補的である)。
【0380】
他の実施形態では、第2のベイトセットは、ABL2、ARAF、ARFRP1、ARID1A、ATM、ATR、AURKA、AURKB、BAP1、BCL2、BCL2A1、BCL2L1、BCL2L2、BCL6、BRCA1、BRCA2、CBL、CARD11、CBL、CCND2、CCND3、CCNE1、CD79A、CD79B、CDH1、CDH2、CDH20、CDH5、CDK6、CDK8、CDKN2B、CDKN2C、CHEK1、CHEK2、CRKL、CRLF2、DNMT3A、DOT1L、EPHA3、EPHA5、EPHA6、EPHA7、EPHB1、EPHB4、EPHB6、ERBB3、ERBB4、ERG、ETV1、ETV4、ETV5、ETV6、EWSR1、EZH2、FANCA、FBXW7、FGFR4、FLT1、FLT4、FOXP4、GATA1、GNA11、GNAQ、GNAS、GPR124、GUCY1A2、HOXA3、HSP90AA1、IDH1、IDH2、IGF1R、IGF2R、IKBKE、IKZF1、INHBA、IRS2、JAK1、JAK3、JUN、KDM6A、KDR、LRP1B、LRP6、LTK、MAP2K4、MCL1、MDM2、MDM4、MEN1、MITF、MLH1、MPL、MRE11A、MSH2、MSH6、MTOR、MUTYH、MYCL1、MYCN、NF2、NKX2−1、NTRK1、NTRK2、PAK3、PAX5、PDGFRB、PKHD1、PLCG1、PRKDC、PTPN11、PTPRD、RAF1、RARA、RICTOR、RPTOR、RUNX1、SMAD2、SMAD3、SMAD4、SMARCA4、SMARCB1、SOX10、SOX2、SRC、TBX22、TET2、TGFBR2、TMPRSS2、TNFAIP3、TNK、TNKS2、TOP1、TSC1、TSC2、USP9X、VHL、またはWT1遺伝子もしくは遺伝子産物のうちの1、2、3、4、5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120個、もしくはそれ以上から選択される腫瘍メンバーを選択する(例えば、それに相補的である)。
【0381】
一実施形態において、第2のベイトセットまたは腫瘍ベイトセットは、表1もしくは表1Aに従う少なくとも5、10、20、30、40、50、60、70、80、90、100個、もしくはそれ以上の癌遺伝子または遺伝子産物から選択される1つ以上のサブゲノム間隔(例えば、エクソン)を選択する。
【0382】
ある特定の実施形態において、第1もしくは第2のベイトセットまたは腫瘍ベイトセットは、野生型および/または非変異ヌクレオチド配列、例えば、野生型または非変異ヌクレオチド配列、例えば、本明細書に記載される、例えば、表1、1A、3、もしくは4に記載される遺伝子もしくは遺伝子産物のサブゲノム間隔の野生型および/または非変異ヌクレオチド配列を有する参照メンバーを選択する。
【0383】
一実施形態において、第1もしくは第2のベイトセットまたは腫瘍セットは、変異が癌表現型に、例えば、正もしくは負に関連するときに、遺伝子もしくは遺伝子産物の野生型または非変異ヌクレオチド配列(例えば、エクソン配列またはその断片)を有するメンバー、例えば、参照メンバーを選択する。
【0384】
一実施形態において、参照メンバーは、腫瘍を有するか、または有する危険性のある同一の対象由来の腫瘍メンバーと同一の対象に由来する(例えば、同一もしくは異なる腫瘍試料、変異メンバーの野生型ヘテロ接合体対立遺伝子、正常な(例えば、非癌性)参照試料、正常な隣接組織(NAT)、または血液試料のうちの1つ以上に由来する)。他の実施形態では、参照メンバーは、腫瘍を有するか、または有する危険性のある1名以上の異なる対象由来の腫瘍メンバーとは異なる対象に由来する(例えば、異なる対象由来の同一もしくは異なる腫瘍試料、正常な(例えば、非癌性)参照試料、正常な隣接組織(NAT)、または血液試料のうちの1つ以上に由来する)。
【0385】
一実施形態において、第1もしくは第2のベイトセットまたは腫瘍ベイトセットは、癌表現型に関連した単一ヌクレオチド変化を含むエクソン配列を選択する。例えば、第1のベイトセットまたは腫瘍ベイトセットは、染色体12のヌクレオチド25,398,215〜25,398,334に相補的なヌクレオチド配列を含むことができ、KRAS遺伝子におけるG12S変異を表す25,398,286位でのC−T置換に相補的な塩基を含有する。
【0386】
別の実施形態では、第1もしくは第2のベイトセットまたは腫瘍ベイトセットは、参照ヌクレオチド(例えば、染色体)配列由来の1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20個、もしくはそれ以上のコドンのインフレーム欠失を特徴とする腫瘍メンバーを選択する。一実施形態において、第1のベイトセットまたは腫瘍ベイトセットは、それらの参照の5’から3’の配向で、3、6、9、12、15、18、21、24、27、30、33、36、39、42、45、48、51、54、57、60個、もしくはそれ以上のヌクレオチドのうちのいずれかのギャップによって参照染色体配列上で分離された参照染色体配列の2つの不連続のヌクレオチド配列を含む(またはそれらからなる)。例えば、第1のベイトセットまたは腫瘍ベイトセット、染色体7のヌクレオチド55,242,400〜55,242,535に相補的であるが、ヌクレオチド55,242,464〜55,242,479を欠くヌクレオチド配列を含んでもよく、これは、EGFR遺伝子のコドン746〜750のインフレーム欠失を表す。
【0387】
さらに別の実施形態では、第1もしくは第2のベイトセットまたは腫瘍ベイトセットは、遺伝子内欠失を特徴とする腫瘍メンバーを選択する。一実施形態において、第1のベイトセットまたは腫瘍ベイトセットは、それらの参照の5’から3’の配向で、1、5、10、15、20、25、30、35、40、45、50、55、60個のヌクレオチドによって参照染色体配列から分離された参照ヌクレオチド(例えば、染色体)配列の2つの不連続の断片を含む(またはそれらからなる)。例えば、第1のベイトセットまたは腫瘍ベイトセットは、染色体10のヌクレオチド9,675,214〜89,675,274、続いて、染色体10の塩基89,675,277〜89,675,337に相補的なヌクレオチド配列を含んでもよく、これは、PTEN遺伝子のコドン64からのジヌクレオチド配列「CA」の欠失を表す。
【0388】
さらに別の実施形態では、第1もしくは第2のベイトセットまたは腫瘍ベイトセットは、遺伝子内挿入を特徴とする腫瘍メンバーを選択する。一実施形態において、第1のベイトセットまたは腫瘍ベイトセットは、1、5、10、15、20、25、30、35、40、45、50、55、60個のヌクレオチドの非参照配列によって分離された参照ヌクレオチド(例えば、染色体)配列の2つの連続した断片を含む(またはそれらからなる)。例えば、第1のベイトセットまたは腫瘍ベイトセットは、染色体10のヌクレオチド89,692,864〜89,692,924、続いて、ヌクレオチド配列「GGNATG」、続いて、染色体10のヌクレオチド89,692,925〜89,692,980に相補的なヌクレオチド配列を含んでもよく、これは、PTEN遺伝子のコドン136の後のアミノ酸残基「Gly−Met」の挿入を表す。
【0389】
別の実施形態では、第1もしくは第2のベイトセットまたは腫瘍ベイトセットは、全遺伝子の欠失を特徴とする腫瘍メンバーを選択する。一実施形態において、第1のベイトセットまたは腫瘍ベイトセットは、それらの参照の5’から3’の配向で、500、1000、1500、2000、2500、3000、4000、5000個、もしくはそれ以上のヌクレオチドによって参照染色体配列から分離された参照ヌクレオチド(例えば、染色体)配列の2つの不連続の断片を含む(またはそれらからなる)。例えば、第1のベイトセットまたは腫瘍ベイトセットは、染色体9の塩基22,001,175〜22,001,235に隣接した染色体9の塩基21,961,007〜21,961,067に相補的なヌクレオチド配列を含んでもよく、これは、CDKN2A遺伝子の欠失を表す。
【0390】
別の実施形態では、第1もしくは第2のベイトセットまたは腫瘍ベイトセットは、逆位、例えば、染色体内逆位を特徴とする腫瘍メンバーを選択する。一実施形態において、第1のベイトセットまたは腫瘍ベイトセットは、参照ヌクレオチド(例えば、染色体)配列の2つの不連続の断片に相補的なヌクレオチド配列を含み、それらのうちの1つは、例えば、逆位に起因するメンバーを捕捉するために、その参照配向とは逆方向である。例えば、第1のベイトセットまたは腫瘍ベイトセットは、染色体2のヌクレオチド29,449,993〜29,449,933と並列した染色体2のヌクレオチド42,522,893〜42,522,953を含んでもよく、これは、EML4:ALK融合を産生する逆位を表す。
【0391】
別の実施形態では、第1もしくは第2のベイトセットまたは腫瘍ベイトセットは、染色体間転座を特徴とする腫瘍メンバーを選択する。一実施形態において、第1のベイトセットまたは腫瘍ベイトセットは、例えば、染色体内転座に起因するメンバーを捕捉するために、異なる参照染色体配列由来の参照ヌクレオチド(例えば、ゲノム)配列の2つの不連続の断片に相補的なヌクレオチド配列を含む。例えば、第1のベイトセットまたは腫瘍ベイトセットは、染色体9のヌクレオチド133,681,793〜133,681,853と並列した染色体22のヌクレオチド23,632,552〜23,632,612を含んでもよく、これは、BCR−ABL融合をもたらす染色体転座の存在を表す。
【0392】
さらに別の実施形態では、第1もしくは第2のベイトセットまたは腫瘍ベイトセットは、タンデム重複、例えば、染色体内タンデム重複を特徴とする腫瘍メンバーを選択する。一実施形態において、第1のベイトセットまたは腫瘍ベイトセットは、例えば、タンデム重複を有するメンバーを捕捉するために、その参照配向で少なくとも1度、例えば、2、3、4、もしくは5回繰り返される、少なくとも3、6、9、12、15、18、21、24、27、もしくは30ヌクレオチド長の参照ヌクレオチド(例えば、染色体)配列の1つの断片に相補的なヌクレオチド配列を含む。例えば、ベイトは、同一の配向で2回繰り返される染色体13の塩基28,608,259〜28,608,285を含んでもよく、これは、FLT3遺伝子における内部タンデム重複(ITD)変異を表す。
【0393】
さらに別の実施形態では、第1もしくは第2のベイトセットまたは腫瘍ベイトセットは、非反復隣接配列に隣接する目的とするヌクレオチド配列を特徴とする腫瘍メンバーを選択する。一実施形態において、第1のベイトセットまたは腫瘍ベイトセットは、少なくとも2つの不連続のヌクレオチド配列を含む。第1のヌクレオチド配列は、目的とする配列の5’フランキング領域に相補的であり、第2のヌクレオチド配列は、目的とする配列の3’フランキング領域に相補的である。例えば、ベイトの第1および第2の対は、染色体2のヌクレオチド51,288,380〜51,288,500(ベイト1)に相補的な第1のヌクレオチド配列と染色体2のヌクレオチド51,288,560〜51,288,680(ベイト2)に相補的な第2のヌクレオチド配列を含んでもよく、これは、マイクロサテライトマーカー配列D2S123を含有するメンバーを捕捉することができる。
【0394】
別の実施形態では、第1もしくは第2のベイトセットまたは腫瘍ベイトセットは、融合配列(例えば、融合転写物または非融合転写物の癌関連選択的スプライシングされた形態)に対応する事前選択された対のサブゲノム間隔(例えば、事前選択された対のエクソン)を選択する(例えば、それに相補的である)。
【0395】
他の実施形態では、第1もしくは第2のベイトセットまたは腫瘍ベイトセットは、望ましくない特徴を含むヌクレオチド配列、例えば、高GC含量のヌクレオチド配列、1つ以上の反復要素および/または逆位反復を含むヌクレオチド配列に隣接したサブゲノム間隔を選択する。一実施形態において、第1のベイトセットまたは腫瘍ベイトセットは、反復要素を含むが、反復要素にハイブリダイズしない(例えば、BRCA2遺伝子において反復要素にハイブリダイズしない)サブゲノム間隔を選択する。
【0396】
他の実施形態では、第1もしくは第2のベイトセットまたは腫瘍ベイトセットは、癌関連遺伝子融合物に隣接したエクソンを含むサブゲノム間隔を選択し、それによって、遺伝子融合物に隣接した核酸配列(例えば、cDNA断片)の捕捉を促進する。
【0397】
他の実施形態では、第1もしくは第2のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、表1、1A、3、もしくは4に記載される癌型のうちの1つ以上から選択される癌に関連した、表1、1A、3、もしくは4に示される1つ以上の遺伝子または遺伝子産物に由来するサブゲノム間隔を選択する。
【0398】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、CML、ALL、もしくはT−ALLのうちの1つ以上から選択される軟組織悪性腫瘍に関連したABL−1遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、CML、ALL、もしくはT−ALLのうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0399】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、乳癌、結腸直腸癌、卵巣癌、もしくは非小細胞肺癌(NSCLC)のうちの1つ以上から選択される癌に関連したAKT1遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、乳癌、結腸直腸癌、卵巣癌、もしくは非小細胞肺癌(NSCLC)のうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0400】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、ALCL、NSCLC、もしくは神経芽細胞腫のうちの1つ以上から選択される癌に関連したALK遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、ALCL、NSCLC、もしくは神経芽細胞腫のうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0401】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、結腸直腸癌、膵臓癌、類腱腫、肝芽腫、神経膠腫、もしくは他のCNS癌または腫瘍のうちの1つ以上から選択される癌に関連したAPC遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、結腸直腸癌、膵臓癌、類腱腫、肝芽腫、神経膠腫、もしくは他のCNS癌または腫瘍のうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0402】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、黒色腫、結腸直腸癌、肺癌、他の上皮悪性腫瘍、またはAMLもしくはALLを含む血液悪性腫瘍のうちの1つ以上から選択される癌に関連したBRAF遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、黒色腫、結腸直腸癌、肺癌、他の上皮悪性腫瘍、またはAMLもしくはALLを含む血液悪性腫瘍のうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0403】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、黒色腫、膵臓癌、もしくは他の腫瘍型のうちの1つ以上から選択される癌に関連したCDKN2A遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、黒色腫、膵臓癌、または他の腫瘍型のうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0404】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、AMLもしくはMDSのうちの1つ以上から選択される癌に関連したCEBPA遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、AMLもしくはMDSのうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0405】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、結腸直腸癌、卵巣癌、肝芽腫、もしくは多形性唾液腺腫のうちの1つ以上から選択される癌に関連したCTNNB1遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、結腸直腸癌、卵巣癌、肝芽腫、もしくは多形性唾液腺腫のうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0406】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、神経膠腫、肺癌、もしくはNSCLCのうちの1つ以上から選択される癌に関連したEGFR遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、神経膠腫、肺癌、もしくはNSCLCのうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0407】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、例えば、癌表現型、例えば、乳癌、卵巣癌、NSCLC、胃癌、もしくは他の固形腫瘍のうちの1つ以上から選択される癌に正もしくは負に関連したERBB2遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、乳房、卵巣、NSCLC、胃、もしくは他の固形腫瘍型のうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0408】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、乳癌、卵巣癌、もしくは子宮内膜腫瘍のうちの1つ以上から選択される癌に関連したESR1遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、乳癌、卵癌、もしくは子宮内膜腫瘍のうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0409】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、MPDもしくはNHLのうちの1つ以上から選択される癌に関連したFGFR1遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、MPDもしくはNHLのうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0410】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、胃癌、NSCLC、もしくは子宮内膜腫瘍のうちの1つ以上から選択される癌に関連したFGFR2遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、胃癌、NSCLC、もしくは子宮内膜腫瘍のうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0411】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、膀胱癌、多発性骨髄腫、もしくはT細胞リンパ腫のうちの1つ以上から選択される癌に関連したFGFR3遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、膀胱癌、多発性骨髄腫、もしくはT細胞リンパ腫のうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0412】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、。癌表現型、例えば、黒色腫、結腸直腸癌、甲状腺乳頭癌、卵巣癌、非小細胞肺癌(NSCLC)、胆管癌、もしくは毛様細胞性星状細胞腫のうちの1つ以上から選択される癌に関連したFLT3遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、黒色腫、結腸直腸癌、甲状腺乳頭癌、卵巣癌、非小細胞肺癌(NSCLC)、胆管癌、もしくは毛様細胞性星状細胞腫のうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0413】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、横紋筋肉腫、神経節芽細胞腫、膀胱癌、肉腫、もしくは他の癌型のうちの1つ以上から選択される癌に関連したHRAS遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、横紋筋肉腫、神経節芽細胞腫、膀胱癌、肉腫、もしくは他の癌型のうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0414】
他の実施形態では、癌表現型、例えば、ALL、AML、MPD、もしくはCMLのうちの1つ以上から選択される癌に関連した第1のベイトセットまたは腫瘍ベイトセットは、JAK2遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、ALL、AML、MPD、もしくはCMLのうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0415】
他の実施形態では、癌表現型、例えば、消化管間質腫瘍(GIST)、AML、TGCT、肥満細胞症、粘膜黒色腫、もしくは上皮腫のうちの1つ以上から選択される癌に関連した第1のベイトセットまたは腫瘍ベイトセットは、KIT遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、消化管間質腫瘍(GIST)、AML、TGCT、肥満細胞症、粘膜黒色腫、もしくは上皮腫のうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0416】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、膵臓癌、結腸癌、結腸直腸癌、肺癌、甲状腺癌、もしくはAMLのうちの1つ以上から選択される癌に関連したKRAS遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、膵臓癌、結腸癌、結腸直腸癌、肺癌、甲状腺癌、もしくはAMLのうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0417】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、腎臓癌もしくは頭頸部扁平上皮癌のうちの1つ以上から選択される癌に関連したMET遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、腎臓癌もしくは頭頸部扁平上皮癌のうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0418】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、AMLもしくはALLのうちの1つ以上から選択される癌に関連したMLL遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、AMLもしくはALLのうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0419】
他の実施形態では、第1のベイトセットは、癌表現型、例えば、神経繊維腫もしくは神経膠腫のうちの1つ以上から選択される癌に関連したNF1遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する(例えば、それに相補的である)。一実施形態において、ライブラリ、例えば、核酸ライブラリは、神経繊維腫もしくは神経膠腫のうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0420】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、T−ALL癌に関連したNOTCH1遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、T−ALL癌を有するか、または有する危険性のある対象由来の試料から得られる。
【0421】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、NHL、APL、もしくはAMLのうちの1つ以上から選択される癌に関連したNPM1遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、NHL、APL、もしくはAMLのうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0422】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、黒色腫、結腸直腸癌、多発性骨髄腫、AML、もしくは甲状腺癌のうちの1つ以上から選択される癌に関連したNRAS遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、黒色腫、結腸直腸癌、多発性骨髄腫、AML、もしくは甲状腺癌のうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0423】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、GISTもしくは特発性好酸球増加症候群のうちの1つ以上から選択される癌に関連したPDGFRA遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、GISTもしくは特発性好酸球増加症候群のうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0424】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、結腸直腸癌、胃癌、膠芽腫、もしくは乳癌のうちの1つ以上から選択される癌に関連したPIK3CA遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、結腸直腸癌、胃癌、膠芽腫、もしくは乳癌のうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0425】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、結腸直腸癌、神経膠腫、前立腺癌、もしくは子宮内膜癌のうちの1つ以上から選択される癌に関連したPTEN遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、結腸直腸癌、神経膠腫、前立腺癌、もしくは子宮内膜癌のうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0426】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、網膜芽細胞腫、肉腫、乳癌、もしくは小細胞肺癌のうちの1つ以上から選択される癌に関連したRB1遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、網膜芽細胞腫、肉腫、乳癌、もしくは小細胞肺癌のうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0427】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、甲状腺髄様癌、甲状腺乳頭癌、もしくは褐色細胞腫のうちの1つ以上から選択される癌に関連したRET遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、甲状腺髄様癌、甲状腺乳頭癌、もしくは褐色細胞腫のうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0428】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、癌表現型、例えば、乳癌、結腸直腸癌、肺癌、肉腫、副腎皮質癌、神経膠腫、もしくは他の腫瘍型のうちの1つ以上から選択される癌に関連したTP53遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。一実施形態において、ライブラリ、例えば、核酸ライブラリは、乳癌、結腸直腸癌、肺癌、肉腫、副腎皮質癌、神経膠腫、もしくは他の腫瘍型のうちの1つ以上を有するか、または有する危険性のある対象由来の試料から得られる。
【0429】
一実施形態において、第1のベイトセットまたは腫瘍ベイトセットは、治療応答の正の予測因子である遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。治療応答の正の予測因子の例には、NSCLC患者の小分子EGFR TKI(例えば、イレッサ/ゲフィチニブ)に対する応答性を予測するEGFR遺伝子における活性化変異、NSCLC患者のALK阻害剤(例えば、PF−02341066)に対する応答性を予測するEML4/ALK融合遺伝子の存在、黒色腫患者のBRAF阻害(例えば、PLX−4032)に対する応答性を予測するBRAF V600E変異の存在が挙げられるが、これらに限定されない。
【0430】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、治療応答の負の予測因子である遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。治療応答の負の予測因子の例には、CRC患者の抗EGFRモノクローナル抗体(セテュキマブ、パニツムマブ)への応答欠如を予測するKRAS遺伝子における活性化変異、およびCML患者のグリーベック/イマチニブに対する抵抗を予測するBCR/Abl融合遺伝子におけるM351T変異の存在が挙げられるが、これらに限定されない。
【0431】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、予後因子である遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。予後因子の例には、AML患者の再発の負の予後であるFLT3遺伝子における挿入変異の存在、甲状腺髄様癌患者の生存の負の予後因子である特定のRET遺伝子変異、例えば、M918Tの存在が挙げられるが、これらに限定されない。
【0432】
他の実施形態では、第1のベイトセットまたは腫瘍ベイトセットは、診断因子である遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択する。予後因子の例には、CMLの診断であるBCR/Abl融合遺伝子の存在、および腎臓のラブドイド腫瘍の診断であるSMARCB1変異の存在が挙げられるが、これらに限定されない。
【0433】
さらに他の実施形態では、第1もしくは第2のベイトセットまたは腫瘍ベイトセットは、腫瘍進行および/または耐性に関連した変化を含み、かつ癌進行の後期発症(例えば、転移関連変異、薬物抵抗関連変異)を有する核酸分子(例えば、サブゲノム間隔)を選択する。
【0434】
さらに他の実施形態では、腫瘍メンバーは、腫瘍試料中の腫瘍細胞のゲノムのコード領域の5、1、0.5、0.1%、0.01%、0.001%未満に存在する遺伝子または遺伝子産物由来のサブゲノム間隔を含む。
【0435】
一実施形態において、腫瘍メンバーは、腫瘍または癌に関連した(例えば、正もしくは負の治療応答予測因子であるか、正もしくは負の予後因子であるか、または腫瘍または癌の差次的診断を可能にする)遺伝子または遺伝子産物、例えば、ABL1、AKT1、ALK、AR、BRAF、BRCA1、BRCA2、CEBPA、EGFR、ERBB2、FLT3、JAK2、KIT、KRAS、MET、NPM1、PDGFRA、PIK3CA、RARA、AKT2、AKT3、MAP2K4、NOTCH1、およびTP53のうちの1つ以上から選択される遺伝子または遺伝子産物由来のサブゲノム間隔を含む。
【0436】
一実施形態において、腫瘍メンバーは、表1、表1A−4に従う野生型または変異遺伝子もしくは遺伝子産物から選択されるサブゲノム間隔を含む。
【0437】
一実施形態において、腫瘍メンバーは、GCが豊富な領域に埋め込まれる、表1、表1A−4に従う野生型または変異遺伝子もしくは遺伝子産物から選択されるサブゲノム間隔を含む。
【0438】
別の実施形態では、腫瘍メンバーは、表3に従う少なくとも5、10、15、20、25、30、35、40、45、50、75、110個、もしくはそれ以上の遺伝子または遺伝子産物の転座変化を含む。他の実施形態では、腫瘍メンバーは、表3に明記される癌型由来の固形腫瘍試料における、表3に従う少なくとも5、10、15、20、25、30、35、40、45、50、75、110個、もしくはそれ以上の遺伝子または遺伝子産物の転座変化を含む。
【0439】
一実施形態において、腫瘍メンバーは、表4に従う少なくとも5、10、15、20、25、30、35、40、45、50、75、100、150、200個、もしくはそれ以上の遺伝子または遺伝子産物の転座変化を含む。別の実施形態では、腫瘍メンバーは、表4に明記される癌型由来のヘム腫瘍試料における、表4に従う少なくとも5、10、15、20、25、30、35、40、45、50、75、100、150、200個、もしくはそれ以上の遺伝子または遺伝子産物の転座変化を含む。
【0440】
他の実施形態では、複数のベイトは、対照メンバー、例えば、ライブラリにおける標的核酸メンバーのフィンガープリント、ライブラリ中の標的核酸メンバーの存在量の定量化、ライブラリ中の患者の標的核酸メンバーの同定、ライブラリが由来する試料の倍数性の決定、ライブラリが由来する試料におけるヘテロ接合性の消失の決定、ライブラリが由来する試料における遺伝子重複の決定、ライブラリが由来する試料における遺伝子増幅の決定、またはライブラリが由来する試料における腫瘍/正常な細胞混合物の決定のうちの1つ以上のために使用される核酸を選択する(例えば、それに相補的な)ベイトセットをさらに含む。そのようなベイトは、本明細書で「対照ベイト」と称される。一実施形態において、対照ベイトセットは、第3のベイトセットまたはPGxベイトセットである。他の実施形態では、対照ベイトセットは、本明細書に記載のPGxメンバーを選択する(例えば、それに相補的である)。他の実施形態では、対照ベイトは、SNP(例えば、本明細書に記載のSNP)を含む核酸分子を選択する。
【0441】
ある特定の実施形態において、第3のベイトセット、腫瘍もしくは非腫瘍ベイトセット、またはPGxベイトセット(本明細書で集合的に「対照ベイトセット」と称される)は、低レベルの標的である核酸分子を(腫瘍または参照メンバーと同一または異なるサブゲノム間隔において)選択し、例えば、ヘテロ接合体対立遺伝子の検出は、高い検出信頼性を確保するために、10〜100倍の配列決定深度を必要とする。一実施形態において、第3のベイトセット、または腫瘍もしくはPGxベイトセットは、ライブラリにおける標的核酸メンバーのフィンガープリント、ライブラリにおける標的核酸メンバーの存在量の定量化、ライブラリにおける患者の標的核酸メンバーの同定、ライブラリが由来する試料の倍数性の決定、ライブラリが由来する試料におけるヘテロ接合性の消失の決定、ライブラリが由来する試料における遺伝子重複の決定、ライブラリが由来する試料における遺伝子増幅の決定、またはライブラリが由来する試料における腫瘍/正常な細胞混合物の決定のうちの1つ以上のために使用されるサブゲノム間隔を選択する。
【0442】
一実施形態において、対照ベイトセット(例えば、第3のベイトセット、腫瘍もしくは非腫瘍ベイトセット、またはPGxベイトセット)は、a)異なる薬物を代謝する患者の能力を説明し得る薬理ゲノムSNP、b)患者を一意に特定する(フィンガープリントする)ために使用され得るゲノムSNP、c)ゲノムDNAのコピー数獲得/喪失およびヘテロ接合性の消失(LOH)を評価するために使用され得るゲノムSNP/遺伝子座から選択される1つ以上のサブゲノム間隔(例えば、エクソン)を選択する。
【0443】
一実施形態において、対照ベイトセット(例えば、第3のベイトセット、腫瘍もしくは非腫瘍ベイトセット、またはPGxベイトセット)は、薬物代謝または毒性に関連したバリアントを含む核酸分子を選択する。一実施形態において、対照ベイトセット(例えば、第3のベイトセット、腫瘍もしくは非腫瘍ベイトセット、またはPGxベイトセット)は、対象の遺伝子構造(例えば、民族性、人種、家族性形質)に関連した核酸分子を選択する(例えば、それに相補的である)。
【0444】
他の実施形態では、対照ベイトセット(例えば、第3のベイトセット、腫瘍もしくは非腫瘍ベイトセット、またはPGxベイトセット)は、単一ヌクレオチド多型(SNP)を選択する。一実施形態において、第3のベイトセット、腫瘍もしくは非腫瘍(例えば、PGx)ベイトセットは、ABCB1、ABCC2、ABCC4、ABCG2、C1orf144、CYP1B1、CYP2C19、CYP2C8、CYP2D6、CYP3A4、CYP3A5、DPYD、ERCC2、ESR2、FCGR3A、GSTP1、ITPA、LRP2、MAN1B1、MTHFR、NQO1、NRP2、SLC19A1、SLC22A2、SLCO1B3、SOD2、SULT1A1、TPMT、TYMS、UGT1A1、およびUMPSのうちの1、2、3、4、5、10、15、20、25、または30個から選択されるSNPを選択する(例えば、それに相補的である)。一実施形態において、対照ベイトセットは、表2に従う遺伝子または遺伝子産物を選択する。
【0445】
他の実施形態では、対照ベイトセット(例えば、第3のベイトセット、腫瘍もしくは非腫瘍ベイトセット、またはPGxベイトセット)は、(i)薬物で治療された癌患者のより良好な生存率(例えば、パクリタキセル(例えば、ABCB1遺伝子)で治療された乳癌患者のより良好な生存率)、(ii)パクリタキセル代謝(例えば、表2に示される異なる遺伝子座および変異におけるCYP2C8遺伝子、CYP3A4遺伝子)、(iii)薬物に対する毒性(例えば、ABCC4遺伝子で見られる6−MP毒性(表2);DPYD遺伝子、TYMS遺伝子、またはUMPS遺伝子で見られる5−FU毒性(表2);TMPT遺伝子で見られるプリン毒性(表2);NRP2遺伝子、Clorf144遺伝子、CYP1B1遺伝子で見られるダウノルビシン毒性(表2)、または(iv)薬物の副作用(例えば、ABCG2、TYMS、UGT1A1、ESR1、およびESR2遺伝子(表2))のうちの1つ以上に関連した遺伝子もしくは遺伝子産物に存在するサブゲノム間隔の変異または野生型PGx遺伝子もしくは遺伝子産物(例えば、単一ヌクレオチド多型(SNP))由来のサブゲノム間隔を選択する。
【0446】
他の実施形態では、対照ベイトセット(例えば、第3のベイトセット、腫瘍もしくは非腫瘍ベイトセット、またはPGxベイトセット)は、ライブラリにおける標的核酸メンバーの存在量の定量化を提供するために事前選択されたサブゲノム間隔(例えば、エクソンまたはUTR配列)を選択する。一実施形態において、第3のベイトセット、腫瘍もしくは非腫瘍(例えば、PGx)は、ライブラリ、例えば、cDNAライブラリにおける転写物の相対存在量の定量化を提供する。
【0447】
他の実施形態では、第4のベイトセットは、例えば、ゲノム転座またはインデル等の構造ブレークポイントを検出するために低〜中程度の対象範囲が要求される、第1のイントロン標的(例えば、イントロン配列含むメンバー)を選択する。例えば、イントロンブレークポイントの検出は、高い検出信頼性を確保するために、5〜50倍の配列対スパン深度を必要とする。該第4のベイトセットを用いて、例えば、転座/インデルの傾向のある癌遺伝子を検出することができる。
【0448】
さらに他の実施形態では、第5のベイトセットは、コピー数の変化を検出する能力を改善するために、わずかな対象範囲が要求される、第2のイントロン標的(例えば、イントロンメンバー)を選択する。例えば、いくつかの末端エクソンの1コピー欠失の検出は、高い検出信頼性を確保するために、0.1〜10倍の対象範囲を必要とする。該第5のベイトセットを用いて、例えば、増幅/欠失の傾向のある癌遺伝子を検出することができる。
【0449】
さらに別の実施形態では、本明細書に記載のベイトセットのうちのいずれも(例えば、第1、第2、第3のベイト、第4のベイト、第5のベイトセット、対照、腫瘍、非腫瘍ベイトセット、またはPGxベイトセット)、二次構造の形成を減少させるように修飾される(例えば、ヌクレオチドを二次構造の形成の減少をもたらす異なるヌクレオチドで置換することによって)。一実施形態において、修飾されたベイトセットを用いて、高GC含量の領域を捕捉する。一実施形態において、修飾されたベイト(または複数のベイト)は、1つ以上のヌクレオチドの異なる天然ヌクレオチド(例えば、A、C、G、U、またはT)での置換を含む。別の実施形態では、修飾されたベイト(または複数のベイト)は、1つ以上のヌクレオチドの非天然ヌクレオチド類似体(例えば、イノシンまたはデオキシイノシン)での置換を含む。一実施形態において、ベイトセットは、表8の例となる配列によって示されるように修飾される。
【0450】
他の実施形態では、第1、第2、または第3のベイトセットのうちの2つ以上は、同一のサブゲノム間隔(例えば、同一の遺伝子または遺伝子産物)である。一実施形態において、第1および第2のベイトセットは、同一のサブゲノム間隔である。別の実施形態では、第1および第3のベイトセットは、同一のサブゲノム間隔である。別の実施形態では、第2および第3のベイトセットは、同一のサブゲノム間隔である。他の実施形態では、第1、第2、および第3のベイトセットは、異なるサブゲノム間隔(例えば、異なる遺伝子または遺伝子産物)である。
【0451】
前述のベイトセットの任意の組み合わせが、本明細書に記載の方法で使用され得る。一実施形態において、前述の第1、第2、および/もしくは第3のベイトのサブセットまたはすべて、あるいは複数のベイトは、組み合わせて使用される。
【0452】
一実施形態において、組み合わせは、本明細書に記載の第1のベイトセットおよび第2のベイトセットを含む。例えば、第1のベイトセットは、表1もしくは表1Aにおいて優先順位が1の本明細書に記載の変化(例えば、1つ以上の変異)を含む腫瘍メンバー、例えば、サブゲノム間隔を選択し、第2のベイトセットは、表1もしくは表1Aにおいて癌遺伝子として本明細書に記載のメンバーを選択する。
【0453】
他の実施形態では、組み合わせは、本明細書に記載の第1のベイトおよび第3のベイトセットを含む。例えば、第1のベイトセットは、表1もしくは表1Aにおける優先順位が1の本明細書に記載の変化(例えば、1つ以上の変異)を含む腫瘍メンバー、例えば、サブゲノム間隔を選択し、第3のベイトセットは、PGxメンバー、例えば、試料のフィンガープリント、患者の試料の特定、倍数性の決定、ヘテロ接合性の消失の決定、遺伝子重複の決定、遺伝子増幅の決定、または腫瘍/正常な細胞混合物(例えば、本明細書に記載のSNP)のうちの1つ以上の決定のために使用される核酸分子を(同一または異なるサブゲノム間隔において)選択する。
【0454】
他の実施形態では、組み合わせは、本明細書に記載の第2のベイトセットおよび第3のベイトセットを含む。例えば、第2のベイトセットは、表1もしくは表1Aにおける癌遺伝子として本明細書に記載のメンバーを選択し、第3のベイトセットは、PGxメンバー、例えば、試料のフィンガープリント、患者の試料の同定、倍数性の決定、ヘテロ接合性の消失の決定、遺伝子重複の決定、遺伝子増幅の決定、または腫瘍/正常な細胞混合物(例えば、本明細書に記載のSNP)の決定のうちの1つ以上のために使用れる核酸分子を(同一または異なるサブゲノム間隔において)選択する。
【0455】
さらに他の実施形態では、組み合わせは、本明細書に記載の第1のベイトセット、第2のベイトセット、および第3のベイトセットを含む。
【0456】
さらに他の実施形態では、組み合わせは、表1もしくは表1Aに従う遺伝子または遺伝子産物の変化(例えば、本明細書に記載の1つ以上の変異)を含む変異腫瘍メンバー、例えば、サブゲノム間隔を選択する第1のベイトセットを含む。一実施形態において、第1のベイトセットは、ABL1遺伝子のコドン315;APCのコドン1114、1338、1450、もしくは1556;BRAFのコドン600;CTNNB1のコドン32、33、34、37、41、もしくは45;EGFRのコドン719、746〜750、768、790、858、もしくは861;FLT3のコドン835;HRASのコドン12、13、もしくは61;JAK2のコドン617;KITのコドン816;KRASのコドン12、13、もしくは61;PIK3CAのコドン88、542、545、546、1047、もしくは1049;PTENのコドン130、173、233、もしくは267;RETのコドン918;TP53のコドン175、245、248、273、もしくは306のうちの1つ以上から選択される1、2、3、4、5、6、7、8、9、10、15、20、25、30、35個のコドンを選択し、野生型配列(例えば、参照メンバー)を選択する第1のベイトセットは、前述の遺伝子または遺伝子産物のうちの1つ以上に対応する。
【0457】
さらに他の実施形態では、組み合わせは、腫瘍メンバー、例えば、変化(例えば、本明細書に記載の1つ以上の変異)を含むサブゲノム間隔を選択する第1のベイトセットを含む。腫瘍または癌関連のメンバーは、ABL1、AKT1、ALK、APC、AR、BRAF、CDKN2A、CEBPA、CTNNB1、EGFR、ERBB2、ESR1、FGFR1、FGFR2、FGFR3、FLT3、HRAS、JAK2、KIT、KRAS、MET、MLL、MYC、NF1、NOTCH1、NPM1、NRAS、PDGFRA、PIK3CA、PTEN、RB1、RET、またはTP53遺伝子もしくは遺伝子産物のうちの1、2、3、4、5、6、7、8、9、10、15、20、25、30個、もしくはそれ以上から選択される。一実施形態において、第1のベイトセットは、ABL1遺伝子のコドン315;APCのコドン1114、1338、1450、もしくは1556;BRAFのコドン600;CTNNB1のコドン32、33、34、37、41、もしくは45;EGFRのコドン719、746〜750、768、790、858、もしくは861;FLT3のコドン835;HRASのコドン12、13、もしくは61;JAK2のコドン617;KITのコドン816;KRASのコドン12、13、もしくは61;PIK3CAのコドン88、542、545、546、1047、もしくは1049;PTENのコドン130、173、233、もしくは267;RETのコドン918;TP53のコドン175、245、248、273、もしくは306のうちの1つ以上から選択される1、2、3、4、5、6、7、8、9、10、15、20、25、30、35個のコドンを選択し、第3のベイトセットは、試料のフィンガープリント、患者の試料の同定、倍数性の決定、ヘテロ接合性の消失の決定、遺伝子重複の決定、遺伝子増幅の決定、または腫瘍/正常な細胞混合物(例えば、本明細書に記載のSNP)の決定のうちの1つ以上のために使用される核酸分子を(同一または異なるサブゲノム間隔において)選択する。
【0458】
さらに他の実施形態では、第1のベイトセットは、腫瘍進行および/または耐性に関連した変化を含み、かつ癌進行の後期発症(例えば、転移関連変異、薬物抵抗関連変異)を有する核酸分子(例えば、サブゲノム間隔)を選択し、第2のベイトセットは、腫瘍進行および/または耐性に関連した変化を含み、かつ癌進行の早期発症(例えば、結腸癌におけるAPCまたはTP53変異)を有する核酸分子(例えば、サブゲノム間隔)を選択する(例えば、それに相補的である)。
【0459】
別の実施形態では、ベイトセットは、以下のうちの少なくとも2つ、もしくはすべてを含む:
第1のサブゲノム間隔の対象範囲の第1のパターンを有する第1のベイトセット、
第2のサブゲノム間隔の対象範囲の第2のパターンを有する第2のベイトセット、および
(任意で)第3のサブゲノム間隔の対象範囲の第3のパターンを有する第3、第4、または第5のベイトセット。
【0460】
一実施形態において、第1のサブゲノム間隔は、第1の遺伝子、エクソン、イントロン、遺伝子間領域、または本明細書に記載の事前選択されたSNPを有する領域のヌクレオチド配列のうちの1つ以上から選択される。
【0461】
一実施形態において、第2のサブゲノム間隔は、第1の遺伝子、エクソン、イントロン、遺伝子間領域、または本明細書に記載の事前選択されたSNPを有する領域のヌクレオチド配列のうちの1つ以上から選択される。
【0462】
一実施形態において、第3のサブゲノム間隔は、第1の遺伝子、エクソン、イントロン、遺伝子間領域、または本明細書に記載の事前選択されたSNPを有する領域のヌクレオチド配列のうちの1つ以上から選択される。
【0463】
一実施形態において、第4のサブゲノム間隔は、第1の遺伝子、エクソン、イントロン、遺伝子間領域、または本明細書に記載の事前選択されたSNPを有する領域のヌクレオチド配列のうちの1つ以上から選択される。
【0464】
一実施形態において、第5のサブゲノム間隔は、第1の遺伝子、エクソン、イントロン、遺伝子間領域、または本明細書に記載の事前選択されたSNPを有する領域のヌクレオチド配列のうちの1つ以上から選択される。
【0465】
一実施形態において、第1、第2、および第3のサブゲノム間隔は、異なる遺伝子または遺伝子産物に存在する。
【0466】
一実施形態において、第1、第2、および第3のサブゲノム間隔のうちの少なくとも2つは、同一遺伝子または遺伝子産物に存在する。
【0467】
一実施形態において、第1、第2、および第3のサブゲノム間隔は、同一の遺伝子または遺伝子産物に存在する。
【0468】
ある特定の実施形態において、対象範囲の第1、第2、および第3のパターンは同一である。
【0469】
他の実施形態では、該対象範囲パターンのうちの少なくとも1つ以上は異なる。
【0470】
他の実施形態では、該対象範囲パターンのうちの少なくとも2つ以上は異なる。
【0471】
さらに他の実施形態では、対象範囲の第1、第2、および第3のパターンは異なる。
【0472】
別の実施形態では、複数のベイトは、
第1のサブゲノム間隔に対して第1のレベルのオーバーハング(正または負)を有する第1の複数のベイト、
第2のサブゲノム間隔に対して第2のレベルのオーバーハング(正または負)を有する第2の複数のベイト、
第3のサブゲノム間隔に対して第2のレベルのオーバーハング(正または負)を有する第3の複数のベイト、および
(任意で)第3のサブゲノム間隔に対して第2のレベルのオーバーハング(正または負)を有する第4または第5の複数のベイトのうちの少なくとも2つ、もしくはすべてを含み、少なくとも複数の該レベルは異なる。
【0473】
一実施形態において、第1、第2、第3、第4、または第5のサブゲノム間隔は、第1の遺伝子、エクソン、イントロン、遺伝子間領域、または本明細書に記載の事前選択されたSNPを有する領域のヌクレオチド配列のうちの1つ以上から選択される。
【0474】
別の態様では、本発明は、修飾されたベイトセットを提供する方法を特色とする。方法は、二次構造を減少させるためにベイト配列および/または長さを修正することを含む。
【0475】
一実施形態において、二次構造は、ベイト配列の5’末端で形成される。別の実施形態では、二次構造は、ベイト配列の中間で形成される。さらに別の実施形態では、二次構造は、ベイト配列の3’末端で形成される。
【0476】
一実施形態において、方法は、ヌクレオチドを二次構造の形成の減少をもたらす異なるヌクレオチドで置換するステップを含む。一実施形態において、修飾されたベイト(または複数のベイト)は、高GC含量の領域を捕捉するために使用される。一実施形態において、修飾されたベイト(または複数のベイト)は、1つ以上のヌクレオチドの異なる天然ヌクレオチド(例えば、A、C、G、U、またはT)での置換を含む。別の実施形態では、修飾されたベイト(または複数のベイト)は、1つ以上のヌクレオチドの非天然ヌクレオチド類似体(例えば、イノシンまたはデオキシイノシン)での置換を含む。一実施形態において、ベイトセットは、表8の例となる配列によって示されるように修飾される。
【0477】
別の実施形態では、方法は、本明細書に記載のベイトのうちのいずれか、または複数のベイト(例えば、第1、第2、もしくは第3のベイト、もしくは複数のベイト)の比率(例えば、モル濃度)の調節、最適化ハイブリダイゼーション緩衝液の提供のうちの1つ以上を含む。
【0478】
別の態様では、本発明は、ベイトセット(例えば、本明細書に記載のベイトセット)を特色とする。
【0479】
一実施形態において、ベイトまたはベイトの収集物は、本明細書に記載の第1、第2、第3、第4、第5、腫瘍、もしくは対照ベイトセットのうちの1つ、そのサブセット、またはそれらのすべてである/を含む。他の実施形態では、ベイトセットは、本明細書に記載の変異捕捉、参照、もしくは対照ベイトセットのうちの1つ、そのサブセット、またはそれらのすべてである/を含む。
【0480】
いくつかの実施形態では、ベイトセットは、本明細書に記載の遺伝子もしくは遺伝子産物、またはそのサブゲノム間隔を選択し、本明細書に記載の癌表現型に、例えば、正もしくは負に関連する。
【0481】
ある特定の実施形態において、ベイトセットは、野生型または非変異ヌクレオチド配列を選択する。
【0482】
他の実施形態では、本明細書に記載のベイトセットは、ライブラリにおける標的核酸メンバーのフィンガープリント、ライブラリにおける標的核酸メンバーの存在量の定量化、ライブラリにおける患者の標的核酸メンバーの同定、ライブラリが由来する試料の倍数性の決定、ライブラリが由来する試料におけるヘテロ接合性の消失の決定、ライブラリが由来する試料における遺伝子重複の決定、ライブラリが由来する試料における遺伝子増幅の決定、またはライブラリが由来する試料における腫瘍/正常な細胞混合物の決定のうちの1つ以上のために使用される核酸を選択する。そのようなベイトは、本明細書で「対照ベイト」と称される。一実施形態において、核酸分子に相補的な対照ベイト(または複数の対照ベイト)は、SNP(例えば、本明細書に記載のSNP)を含む。
【0483】
さらに別の実施形態では、本明細書に記載のベイトセットのうちのいずれかは、二次構造の形成を減少させるように修飾される(例えば、ヌクレオチドを二次構造の形成の減少をもたらす異なるヌクレオチドで置換することによって)。一実施形態において、修飾されたベイト(または複数のベイト)は、高GC含量の領域を捕捉するために使用される。一実施形態において、修飾されたベイト(または複数のベイト)は、1つ以上のヌクレオチドの異なる天然ヌクレオチド(例えば、A、C、G、U、またはT)での置換を含む。別の実施形態では、修飾されたベイト(または複数のベイト)は、1つ以上のヌクレオチドの非天然ヌクレオチド類似体(例えば、イノシンまたはデオキシイノシン)での置換を含む。一実施形態において、ベイトセットは、表8の例となる配列によって示されるように修飾される。
【0484】
本発明のさらなる実施形態または特徴は、以下の通りである。
別の態様では、本発明は、前述のベイトセットを作製する方法を特色とする。方法は、1つ以上の標的特異的ベイトオリゴヌクレオチド配列(例えば、本明細書に記載の遺伝子または遺伝子産物のサブゲノム間隔に対応するベイト配列のうちのいずれか)を選択すること、標的特異的ベイトオリゴヌクレオチド配列のプールを得ること(例えば、標的特異的ベイトオリゴヌクレオチド配列のプールを、例えば、マイクロアレイ合成によって合成すること)、および任意で、オリゴヌクレオチドを増幅してベイトセットを産生することを含む。
【0485】
さらに別の態様では、本発明は、核酸試料における癌表現型(例えば、本明細書に記載の遺伝子または遺伝子産物の変化のうちの少なくとも10、20、30、50個、もしくはそれ以上)に、例えば、正もしくは負に関連した変化の存在もしくは不在を決定するための方法を特色とする。方法は、試料中の核酸を本明細書に記載の方法およびベイトのうちのいずれかに従う溶液ベースの選択に供して、核酸捕獲物を得ること、ならびに核酸捕獲物のすべてまたはサブセットを(例えば、次世代配列決定によって)配列決定することを含み、それによって、本明細書に記載の遺伝子または遺伝子産物における変化の存在もしくは不在を決定する。
【0486】
ある特定の実施形態において、ベイトセットは、約100ヌクレオチド長〜300ヌクレオチド長のオリゴヌクレオチド(または複数のオリゴヌクレオチド)を含む。典型的には、ベイトセットは、約130ヌクレオチド長〜230ヌクレオチド長、または約150〜200ヌクレオチド長のオリゴヌクレオチド(または複数のオリゴヌクレオチド)を含む。他の実施形態では、ベイトセットは、約300ヌクレオチド長〜1000ヌクレオチド長のオリゴヌクレオチド(または複数のオリゴヌクレオチド)を含む。
【0487】
いくつかの実施形態では、オリゴヌクレオチドの標的メンバー特異的配列は、約40〜1000ヌクレオチド長、約70〜300ヌクレオチド長、約100〜200ヌクレオチド長、典型的には、約120〜170ヌクレオチド長である。
【0488】
いくつかの実施形態では、ベイトセットは、結合実体を含む。結合実体は、それぞれのベイト配列上の親和性タグであり得る。いくつかの実施形態では、親和性タグは、ビオチン分子またはハプテンである。ある特定の実施形態において、結合実体は、アビジン分子等のパートナー、またはハプテンもしくはその抗原結合断片に結合する抗体に結合することによって、ベイト/メンバーハイブリッドのハイブリダイゼーション混合物からの分離を可能にする。
【0489】
他の実施形態では、ベイトセット中のオリゴヌクレオチドは、同一の標的メンバー配列に対して順方向および逆位の相補的配列を含有し、それによって、逆方向相補メンバー特異的配列を有するオリゴヌクレオチドは、逆方向に相補的なユニバーサル尾部も担持する。これは、同一の鎖である、すなわち、相互に相補的ではないRNA転写物をもたらし得る。
【0490】
他の実施形態では、ベイトセットは、1つ以上の位置で縮重または混合塩基を含有するオリゴヌクレオチドを含む。さらに他の実施形態において、ベイトセットは、生物の単一の種または群集の集団に存在する複数または実質的にすべての既知の配列バリアントを含む。一実施形態において、ベイトセットは、ヒト集団に存在する複数または実質的にすべての既知の配列バリアントを含む。
【0491】
他の実施形態では、ベイトセットは、cDNA配列を含むか、またはcDNA配列由来である。一実施形態において、cDNAは、RNA配列、例えば、腫瘍または癌細胞由来のRNA、例えば、腫瘍−FFPE試料から得られるRNAから調製される。他の実施形態では、ベイトセットは、ゲノムDNA、cDNA、またはクローン化DNAから増幅される増幅産物(例えば、PCR産物)を含む。
【0492】
他の実施形態では、ベイトセットは、RNA分子を含む。いくつかの実施形態では、ベイトセットは、より安定しており、かつRNaseに対して抵抗性を示すRNA分子を含むが、これらに限定されない、化学的かつ酵素的に修飾されたか、または生体外で転写されたRNA分子を含む。
【0493】
さらに他の実施形態では、ベイトは、参照により本明細書に組み込まれる米国第2010/0029498号およびGnirke,A.et al.(2009)Nat Biotechnol.27(2):182−189に記載の方法によって産生される。例えば、ビオチン化されたRNAベイトを、マイクロアレイ上に最初に合成された長い合成オリゴヌクレオチドのプールを得て、オリゴヌクレオチドを増幅してベイト配列を産生することによって産生することができる。いくつかの実施形態では、ベイトは、RNAポリメラーゼプロモーター配列を末端ベイト配列の一方に付加し、RNAポリメラーゼを用いてRNA配列を合成することによって産生される。一実施形態において、合成オリゴデオキシヌクレオチドのライブラリを、Agilent Technologies,Inc.等の商業的供給業者から入手することができ、既知の核酸増幅法を用いて増幅することができる。
【0494】
したがって、前述のベイトセットを作製する方法が提供される。方法は、1つ以上の標的特異的ベイトオリゴヌクレオチド配列(例えば、本明細書に記載の1つ以上の変異捕捉、参照、または対照オリゴヌクレオチド配列)を選択すること、標的特異的ベイトオリゴヌクレオチド配列のプールを得ること(例えば、標的特異的ベイトオリゴヌクレオチド配列のプールを、例えば、マイクロアレイ合成によって合成すること)、および任意で、オリゴヌクレオチドを増幅してベイトセットを産生することを含む。
【0495】
他の実施形態では、方法は、1つ以上のビオチン化されたプライマーを用いてオリゴヌクレオチドを増幅すること(例えば、PCRによって)をさらに含む。いくつかの実施形態では、オリゴヌクレオチドは、マイクロアレイに結合したそれぞれのオリゴヌクレオチドの末端にユニバーサル配列を含む。方法は、ユニバーサル配列をオリゴヌクレオチドから除去することをさらに含み得る。そのような方法は、オリゴヌクレオチドの相補鎖の除去、オリゴヌクレオチドのアニーリング、およびオリゴヌクレオチドの伸長も含み得る。これらの実施形態のうちのいくつかにおいて、オリゴヌクレオチドを増幅するための方法(例えば、PCRによって)は、1つ以上のビオチン化されたプライマーを使用する。いくつかの実施形態では、方法は、増幅したオリゴヌクレオチドをサイズ選択することをさらに含む。
【0496】
一実施形態において、RNAベイトセットが作製される。方法は、本明細書に記載の方法に従って一組のベイト配列を産生すること、RNAポリメラーゼプロモーター配列を末端ベイト配列の一方に付加すること、およびRNAポリメラーゼを用いてRNA配列を合成することを含む。RNAポリメラーゼを、T7 RNAポリメラーゼ、SP6 RNAポリメラーゼ、またはT3 RNAポリメラーゼから選択することができる。他の実施形態では、RNAポリメラーゼプロモーター配列は、ベイト配列を増幅する(例えば、PCRによって)ことによって、ベイト配列の末端に付加される。ベイト配列がゲノムまたはcDNA由来の特異的プライマー対を用いてPCRによって増幅される実施形態において、それぞれの対における2つの特異的プライマーのうちの1つの5’末端へのRNAプロモーター配列の付加が、標準方法を用いてRNAベイトに転写され得るPCR産物をもたらす。
【0497】
他の実施形態では、ベイトセットを、鋳型としてヒトDNAまたはプールされたヒトDNA試料を用いて産生することができる。そのような実施形態において、オリゴヌクレオチドは、ポリメラーゼ連鎖反応(PCR)によって増幅される。他の実施形態では、増幅したオリゴヌクレオチドは、ローリングサークル増幅または超分岐ローリングサークル増幅によって再増幅される。同一の方法を用いて、鋳型としてヒトDNAまたはプールされたヒトDNA試料を用いてベイト配列を産生することもできる。制限消化、パルスフィールドゲル電気泳動、流動選別、CsCl密度勾配遠心分離法、選択的動的再会合、染色体調製物のミクロ解剖、および当業者に既知の他の分画方法を含むが、これらに限定されない他の方法によって得られるゲノムの細画分を用いてベイト配列を産生するために、同一の方法を使用することもできる。
【0498】
ある特定の実施形態において、ベイトセット中のベイトの数は、1,000未満、例えば、2、3、4、5、10、50、100、500個である。他の実施形態では、ベイトセット中のベイトの数は、1,000を超えるか、5,000を超えるか、10,000を超えるか、20,000を超えるか、50,000を超えるか、100,000を超えるか、または500,000を超える。
【0499】
ある特定の実施形態において、ライブラリ(例えば、核酸ライブラリ)は、メンバーの収集物を含む。本明細書に記載されるように、ライブラリメンバーは、標的メンバー(例えば、本明細書でそれぞれ、第1、第2、および/または第3のメンバーとも称される腫瘍メンバー、参照メンバー、および/または対照メンバー)を含み得る。ライブラリのメンバーは、1人の個人由来であり得る。実施形態において、ライブラリは、1名を超える対象(例えば、2、3、4、5、6、7、8、9、10、20、30名、もしくはそれ以上の対象)由来のメンバーを含み得る。、例えば、異なる対象由来の2つ以上のライブラリを合わせて、1名を超える対象由来のメンバーを有するライブラリを形成することができる。一実施形態において、対象は、癌もしくは腫瘍を有するか、または有する危険性のあるヒトである。
【0500】
本明細書で使用される「メンバー」もしくは「ライブラリメンバー」または他の同様の用語は、ライブラリのメンバーである核酸分子、例えば、DNAまたはRNAを指す。典型的には、メンバーは、DNA分子、例えば、ゲノムDNAまたはcDNAである。メンバーは、剪断されたゲノムDNAであり得る。他の実施形態では、メンバーは、cDNAであり得る。他の実施形態では、メンバーは、RNAであり得る。メンバーは、対象由来の配列を含み、対象由来ではない配列、例えば、同定を可能にするプライマーまたは配列、例えば、「バーコード」配列も含み得る。
【0501】
さらに別の実施形態では、本発明で特色とされる方法は、核酸試料を単離してライブラリ(例えば、本明細書に記載の核酸ライブラリ)を提供することをさらに含む。ある特定の実施形態において、核酸試料は、全ゲノム、サブゲノム断片、またはこれら両方を含む。ライブラリを全ゲノムまたはサブゲノム断片から単離および調製するためのプロトコルは、既知の当技術分野で既知である(例えば、IlluminaのゲノムDNA試料調製キット)。ある特定の実施形態において、ゲノムまたはサブゲノムDNA断片は、対象の試料(例えば、腫瘍試料、正常な隣接組織(NAT)、血液試料、または任意の正常な対照))から単離される。一実施形態において、試料(例えば、腫瘍またはNAT試料)は、保存される。例えば、試料は、マトリックス、例えば、FFPEブロックまたは冷凍試料に埋め込まれる。ある特定の実施形態において、単離ステップは、個別の染色体の流動選別、および/または対象の試料(例えば、腫瘍試料、NAT、血液試料)のミクロ解剖を含む。ある特定の実施形態において、核酸ライブラリを生成するために使用される核酸試料は、5マイクログラム未満、1マイクログラム未満、または500ng未満(例えば、200ng以下)である。
【0502】
さらに他の実施形態において、ライブラリを生成するために使用される核酸試料は、RNAまたはRNA由来のcDNAを含む。いくつかの実施形態では、RNAは、全細胞RNAを含む。他の実施形態では、ある特定の豊富なRNA配列(例えば、リボソームRNA)が枯渇している。いくつかの実施形態では、全RNA調製物中のポリ(A)尾部mRNA画分が濃縮されている。いくつかの実施形態では、cDNAは、ランダムプライムcDNA合成法によって産生される。他の実施形態では、cDNA合成は、オリゴ(dT)含有オリゴヌクレオチドによるプライミングによって、成熟したmRNAのポリ(A)尾部で始まる。枯渇方法、ポリ(A)濃縮方法、およびcDNA合成方法は、当業者に周知である。
【0503】
方法は、当業者に周知の特異的または非特異的核酸増幅法によって核酸試料を増幅することをさらに含み得る。
【0504】
いくつかの実施形態では、ある特定の実施形態、核酸試料は、例えば、ランダムプライム鎖置換増幅等の全ゲノム増幅法によって増幅される。
【0505】
他の実施形態では、核酸試料は、物理的もしくは酵素的方法によって断片化または剪断され、合成アダプターにライゲートされ、寸法選択され(例えば、分取ゲル電気泳動によって)、増幅される(例えば、PCRによって)。他の実施形態では、断片化され、かつアダプターでライゲートされた核酸の基は、ハイブリッド選択の前に明確な寸法選択または増幅なしで使用される。
【0506】
他の実施形態では、単離されたDNA(例えば、ゲノムDNA)は、断片化または剪断される。いくつかの実施形態では、ライブラリは、ゲノムの簡約表示または定義された部分である、例えば、他の手段によって細分画されたゲノムDNAの細画分等のゲノムDNAの50%未満を含む。他の実施形態では、ライブラリは、すべてまたは実質的にすべてのゲノムDNAを含む。
【0507】
ある特定の実施形態において、ライブラリのメンバーは、遺伝子内領域または遺伝子間領域を含むサブゲノム間隔を含む。別の実施形態では、サブゲノム間隔は、エクソンもしくはイントロン、またはその断片、典型的には、エクソン配列またはその断片を含む。一実施形態において、サブゲノム間隔は、コード領域もしくは非コード領域、例えば、プロモーター、エンハンサー、5’非翻訳領域(5’UTR)、もしくは3’非翻訳領域(3’UTR)、またはその断片を含む。他の実施形態では、サブゲノム間隔は、cDNAまたはその断片(例えば、腫瘍RNAから得られるcDNA(例えば、腫瘍試料、例えば、FFPE−腫瘍試料から抽出されるRNA)を含む。他の実施形態では、サブゲノム間隔は、例えば、本明細書に記載のSNPを含む。他の実施形態では、標的メンバーは、ゲノム中の実質的にすべてのエクソンを含む。他の実施形態では、標的メンバーは、本明細書に記載のサブゲノム間隔、例えば、選択された目的とする遺伝子または遺伝子産物(例えば、本明細書に記載の癌表現型に関連した遺伝子または遺伝子産物)由来のサブゲノム間隔、例えば、エクソンを含む。
【0508】
一実施形態において、サブゲノム間隔は、体細胞変異、生殖細胞変異、またはこれら両方を含む。一実施形態において、サブゲノム間隔は、変化、例えば、点変異もしくは単一変異、欠失変異(例えば、インフレーム欠失、遺伝子内欠失、全遺伝子欠失)、挿入変異(例えば、遺伝子内挿入)、逆位変異(例えば、染色体内逆位)、連鎖変異、連鎖された挿入変異、逆位重複変異、タンデム重複(例えば、染色体内タンデム重複)、転座(例えば、染色体転座、非相反転座)、再編成(例えば、ゲノム再編成)、遺伝子コピー数の変化、またはそれらの組み合わせを含む。ある特定の実施形態において、サブゲノム間隔は、試料中の腫瘍細胞のゲノムのコード領域の5、1、0.5、0.1%、0.01%、0.001%未満を構成する。他の実施形態では、サブゲノム間隔は、疾患に関与しない、例えば、本明細書に記載の癌表現型に関連しない。
【0509】
本発明で特色とされる方法は、ライブラリ(例えば、核酸ライブラリ)を複数のベイトと接触させて、核酸の選択されたサブグループ、例えば、ライブラリ捕獲物を提供するステップを含む。一実施形態において、接触ステップは、固体支持体、例えば、アレイにおいて達成される。ハイブリダイゼーションに好適な固体支持体は、例えば、Albert,T.J.et al.(2007)Nat.Methods 4(11):903−5、Hodges,E.et al.(2007)Nat.Genet.39(12):1522−7、Okou,D.T.et al.(2007)Nat.Methods 4(11):907−9に記載されており、それらの内容は、参照により本明細書に組み込まれる。他の実施形態では、接触ステップは、溶液ハイブリダイゼーションにおいて達成される。ある特定の実施形態において、方法は、1つ以上のさらなるラウンドのハイブリダイゼーションによってハイブリダイゼーションステップを繰り返すことを含む。いくつかの実施形態では、方法は、ライブラリ捕獲物を同一または異なるベイト収集物を用いて1つ以上のさらなるラウンドのハイブリダイゼーションに供することをさらに含む。
【0510】
他の実施形態では、本発明で特色とされる方法は、ライブラリ捕獲物の増幅(例えば、PCRによる)をさらに含む。他の実施形態では、ライブラリ捕獲物は増幅されない。
【0511】
さらに他の実施形態では、方法は、ライブラリ捕獲物の分析をさらに含む。一実施形態において、ライブラリ捕獲物は、配列決定方法、例えば、本明細書に記載の次世代配列決定方法によって分析される。方法は、溶液ハイブリダイゼーションによってライブラリ捕獲物を単離すること、および核酸配列決定によってライブラリ捕獲物を供することを含む。ある特定の実施形態において、ライブラリ捕獲物を再配列決定することができる。次世代配列決定方法は、当技術分野で既知であり、例えば、Metzker,M.(2010)Nature Biotechnology Reviews 11:31−46に記載されている。
【0512】
さらに他の実施形態では、方法は、ライブラリ捕獲物を遺伝子型判定に供し、それによって、選択された核酸の遺伝子型を特定するステップをさらに含む。
ある特定の実施形態において、方法は、以下のうちの1つ以上をさらに含む:
(i) 核酸試料をフィンガープリントすること、
(ii) 核酸試料における遺伝子または遺伝子産物(例えば、本明細書に記載の遺伝子または遺伝子産物)の存在量を定量化すること(例えば、試料における転写物の相対存在量を定量化すること)、
(iii) 特定の対象(例えば、正常な対照または癌患者)に属するとして核酸試料を特定すること、
(iv) 核酸試料における遺伝形質(例えば、1名以上の対象の遺伝子構成(例えば、民族性、人種、家族性形質))を特定定すること、
(v) 核酸試料の倍数性を決定し、核酸試料におけるヘテロ接合性の消失を決定すること、
(vi) 核酸試料における遺伝子重複事象の存在もしくは不在を決定すること、
(vii) 核酸試料における遺伝子増幅事象の存在もしくは不在を決定すること、あるいは
(viii) 核酸試料における腫瘍/正常な細胞混合物のレベルを決定すること。
【0513】
本明細書に記載の方法のうちのいずれをも、以下の実施形態のうちの1つ以上と組み合わせることができる。
【0514】
ある実施形態において、方法は、腫瘍および/または対照核酸試料(例えば、FFPE由来の核酸試料)から得られるヌクレオチド配列読み取りを取得することを含む。
【0515】
ある実施形態において、読み取りは、次世代配列決定方法によって提供される。
【0516】
ある実施形態において、方法は、核酸メンバーライブラリを提供すること、および該ライブラリの複数のメンバー由来の事前選択されたサブゲノム間隔を配列決定することを含む。実施形態において、方法は、配列決定、例えば、溶液ベースの選択のために、該ライブラリのサブセットを選択するステップを含み得る。
【0517】
ある特定の実施形態において、方法は、それぞれが異なるベイト設計戦略を有する2つ以上の異なる標的カテゴリーを捕捉するように設計されるハイブリッド捕捉方法を含む。ハイブリッド捕捉方法および組成物は、標的配列(例えば、標的メンバー)の定義されたサブセットの外側の対象範囲を最小限に抑えながら、そのサブセットを捕捉し、標的配列の均一な対象範囲を提供するよう意図される。一実施形態において、標的配列は、ゲノムDNAからの全エクソーム、またはその選択されたサブセットを含む。本明細書に開示の方法および組成物は、複合標的核酸配列(例えば、ライブラリ)の異なる深度およびパターンの対象範囲を達成するために、異なるベイトセットを提供する。
【0518】
ある特定の実施形態において、ベイトセットおよび標的の異なるカテゴリーは、以下の通りである。
A.低頻度で出現する変異に対する高レベルの感度を可能にするために最深の対象範囲が要求される、高レベルの標的(例えば、遺伝子、エクソン、または塩基等の1つ以上の腫瘍メンバーおよび/もしくは参照メンバー)を選択する第1のベイトセット。例えば、約5%以下の頻度で出現する点変異の検出(すなわち、試料が調製された細胞の5%がそれらのゲノムでこの変異を持つ)。第1のベイトセットは、典型的には、高い検出信頼性を確保するために、約500倍以上の配列決定深度を必要とする。一実施形態において、第1のベイトセットは、ある特定の癌型、例えば、表1もしくは表1Aに従う優先順位が1の癌遺伝子または遺伝子産物において頻繁に変異する1つ以上のサブゲノム間隔(例えば、エクソン)を選択する。
B.高レベルの標的よりも高い頻度、例えば、約10%の頻度で出現する変異に対する高レベルの感度を可能にするために対象範囲が要求される、中間レベルの標的標的(例えば、遺伝子、エクソン、または塩基等の1つ以上の腫瘍メンバーおよび/もしくは参照メンバー)を選択する第2のベイトセット。例えば、10%の頻度で出現する変化(例えば、点変異)の検出は、高い検出信頼性を確保するために、約200倍以上の配列決定深度を必要とする。一実施形態において、第2のベイトセットは、表1もしくは表1Aに従う癌遺伝子または遺伝子産物から選択される1つ以上のサブゲノム間隔(例えば、エクソン)を選択する。
C.高レベルの感度を可能にする、例えば、ヘテロ接合体対立遺伝子を検出するために低〜中程度の対象範囲が要求される、低レベルの標的(例えば、遺伝子、エクソン、または塩基等の1つ以上のPGxメンバー)を選択する第3のベイトセット。例えば、ヘテロ接合体対立遺伝子の検出は、高い検出信頼性を確保するために、10〜100倍の配列決定深度を必要とする。一実施形態において、第3のベイトセットは、から選択される1つ以上のサブゲノム間隔(例えば、エクソン)を選択する。a)異なる薬物を代謝する患者の能力を説明し得る薬理ゲノムSNP、b)患者を一意に特定する(フィンガープリントする)ために使用され得るゲノムSNP、c)ゲノムDNAのコピー数獲得/喪失およびヘテロ接合性の消失(LOH)を評価するために使用され得るゲノムSNP/遺伝子座。
D.ゲノム転座またはインデル等の構造ブレークポイントを検出するために低〜中程度の対象範囲が要求される、イントロン標的(例えば、イントロンメンバー)を選択する第4のベイトセット。例えば、イントロンブレークポイントの検出は、高い検出信頼性を確保するために、5〜50倍の配列対スパン深度を必要とする。該第4のベイトセットを用いて、例えば、転座/インデルの傾向のある癌遺伝子を検出することができる。
E.コピー数の変化を検出する能力を改善するために、わずかな対象範囲が要求される、イントロン標的(例えば、イントロンメンバー)を選択する第5のベイトセット。例えば、いくつかの末端エクソンの1コピー欠失の検出は、高い検出信頼性を確保するために、0.1〜10倍の対象範囲を必要とする。該第5のベイトセットを用いて、例えば、増幅/欠失の傾向のある癌遺伝子を検出することができる。
【0519】
本発明で特色とされる方法および組成物は、それぞれのベイトセット/標的カテゴリーの対象範囲の相対配列の調整を含む。ベイト設計における相対配列対象範囲の差を実行するための方法は、以下のうちの1つ以上を含む。
(i)異なるベイトセットの差次的表示:所与の標的(例えば、標的メンバー)を捕捉するためのベイトセット設計をより多い/より少ない数のコピーに含んで、相対標的対象範囲深度を強化する/減少させることができる。
(ii)ベイトサブセットの差次的オーバーラップ:所与の標的(例えば、標的メンバー)を捕捉するためのベイトセット設計に、隣接ベイト間により長いか、またはより短いオーバーラップを含ませて、相対標的対象範囲深度を強化する/減少させることができる。
(iii)差次的ベイトパラメータ:所与の標的(例えば、標的メンバー)を捕捉するためのベイトセット設計に、配列修正/より短い長さを含ませて、捕捉効率を減少させ、かつ相対標的対象範囲深度を低下させることができる。
(iv)異なるベイトセットの混合:異なる標的セットを捕捉するように設計されるベイトセットを異なるモル比で混合して、相対標的対象範囲深度を強化する/減少させることができる。
(v)異なる種類のオリゴヌクレオチドベイトセットの使用:ある特定の実施形態において、ベイトセットは、以下のものを含んでもよい:
(a)1つ以上の化学的に(例えば、非酵素的に)合成された(例えば、個別に合成された)ベイト、
(b)アレイで合成された1つ以上のベイト、
(c)1つ以上の酵素的に調製された、例えば、生体外で転写されたベイト、
(d)(a)、(b)、および/もしくは(c)の任意の組み合わせ、
(e)1つ以上のDNAオリゴヌクレオチド(例えば、自然発生もしくは非自然発生のDNAオリゴヌクレオチド)、
(f)1つ以上のRNAオリゴヌクレオチド(例えば、自然発生もしくは非自然発生のRNAオリゴヌクレオチド)、
(g)(e)および(f)の組み合わせ、または
(h)上記のうちのいずれかの組み合わせ。
【0520】
異なるオリゴヌクレオチド組み合わせを、異なる比率、例えば、1:1、1:2、1:3、1:4、1:5、1:10、1:20、1:50、1:100、1:1000等から選択される比率で混合してもよい。一実施形態において、化学的に合成されたベイトとアレイで生成されたベイトの比率は、1:5、1:10、または1:20から選択される。DNAまたはRNAオリゴヌクレオチドは、自然発生または非自然発生であり得る。ある特定の実施形態において、ベイトは、例えば、融解温度を増加させるために、1つ以上の非自然発生のヌクレオチドを含む。例となる非自然発生のオリゴヌクレオチドは、修飾されたDNAまたはRNAヌクレオチドを含む。例となる修飾されたRNAヌクレオチドは、ロックド核酸(LNA)であり、LNAヌクレオチドのリボース部分は、2’酸素と4’炭素とを結合する追加の架橋で修飾される(Kaur,H、Arora,A、Wengel,J、Maiti,S、Arora,A.、Wengel,J.、Maiti,S.(2006)“Thermodynamic,Counterion,and Hydration Effects for the Incorporation of Locked Nucleic Acid Nucleotides into DNA Duplexes”.Biochemistry 45(23):7347−55)。他の修飾された例となるDNAおよびRNAヌクレオチドは、ペプチド結合によって結合された反復N−(2−アミノエチル)−グリシンユニットから成るペプチド核酸(PNA)(Egholm,M.et al.(1993)Nature 365(6446):566−8)、低GC領域を捕捉するように修飾されたDNAまたはRNAオリゴヌクレオチド、二環式核酸(BNA)または架橋オリゴヌクレオチド、修飾された5−メチルデオキシシチジン、および2,6−ジアミノプリンを含むが、これらに限定されない。他の修飾されたDNAおよびRNAヌクレオチドは、当技術分野で既知である。
【0521】
ある特定の実施形態において、実質的に均一または同様の対象範囲の標的配列(例えば、標的メンバー)が得られる。例えば、それぞれのベイトセット/標的カテゴリー内で、対象範囲の均一性を、ベイトパラメータを修正することによって、例えば、以下のうちの1つ以上によって最適化することができる:
(i)ベイト表示またはオーバーラップの増加/減少を用いて、同一のカテゴリー内の他の標的と比較して不十分に/過度に対象範囲とされる標的(例えば、標的メンバー)の対象範囲を強化する/減少させることができること、
(ii)標的配列(例えば、高GC含量配列)を捕捉するのが困難な低対象範囲の場合、ベイトセットで標的化される領域を拡大して、例えば、隣接配列(例えば、GCが比較的豊富ではない隣接配列)を対象範囲とすること、
(iii)ベイト配列の修正を行って、ベイトの二次構造を減少させ、かつその選択効率を強化することができること、
(iv)ベイト長の修正を用いて、同一のカテゴリー内の異なるベイトの融解ハイブリダイゼーション動態を均等化することができること(ベイト長を直接的に(異なる長さを有するベイトを産生することによって)または間接的に(一貫した長さのベイトを産生し、ベイト末端を任意の配列に置き換えることによって)修飾することができる)、
(v)同一の標的領域(すなわち、順方向鎖および逆方向鎖)に対して異なる配向を有するベイトの修正が、異なる結合効率を有し得ること(それぞれの標的に最適な対象範囲を提供するいずれかの配向を有するベイトセットを選択することができる)、
(vi)それぞれのベイト上に存在する結合実体、例えば、捕捉タグ(例えば、ビオチン)の量の修正が、その結合効率に影響を及ぼし得ること(特定の標的を標的化するベイトのタグレベルの増加/減少を用いて、相対標的対象範囲を強化する/減少させることができる)、
(vii)異なるベイトに使用されるヌクレオチドの種類の修正を変更して、標的に対する結合親和性に影響を及ぼし、かつ相対標的対象範囲を強化する/減少させることができること、または
(viii)例えば、より安定した塩基対合を有する修飾されたオリゴヌクレオチドベイトを使用して、高GC含量と比較して低いか、もしくは正常なGC含量の領域間の融解ハイブリダイゼーション動態を均等化することができること。
【0522】
例えば、異なる種類のオリゴヌクレオチドベイトセットを用いることができる。
【0523】
一実施形態において、選択効率値は、異なる種類のベイトオリゴヌクレオチドを用いることによって修正され、事前選択された標的領域を包囲する。例えば、第1のベイトセット(例えば、10,000〜50,000個のRNAまたはDNAベイトを含むアレイベースのベイトセット)を用いて、広大な標的領域(例えば、1〜2MBの全標的領域)を対象範囲とすることができる。第1のベイトセットを、第2のベイトセット(例えば、5,000個未満のベイトを含む個別に合成されたRNAまたはDNAベイトセット)でスパイクして、事前選択された標的領域(例えば、250kb以下の標的領域にまたがる、例えば、目的とする選択されたサブゲノム間隔)および/またはより高い二次構造、例えば、より高いGC含量の領域を対象範囲とすることができる。目的とする選択されたサブゲノム間隔は、本明細書に記載の遺伝子もしくは遺伝子産物、またはその断片のうちの1つ以上に相当し得る。第2のベイトセットは、所望のベイトオーバーラップに応じて、約2,000〜5,000個のベイトを含み得る。さらに他の実施形態では、第2のベイトセットは、第1のベイトセット内にスパイクされる選択されたオリゴベイト(例えば、400、200、100、50、40、30、20、10個未満のベイト)を含み得る。第2のベイトセットを、個別のオリゴベイトの任意の比率で混合してもよい。例えば、第2のベイトセットは、1:1の等モル比で存在する個別のベイトを含み得る。あるいは、第2のベイトセットは、例えば、ある特定の標的の捕捉を最適化するために、異なる比率(例えば、1:5、1:10、1:20)で存在する個別のベイトを含み得る(例えば、ある特定の標的は、他の標的と比較して、第2のベイトの5〜10倍を有し得る)。
配列決定
【0524】
本発明は、核酸を配列決定する方法も含む。これらの方法において、核酸ライブラリメンバーは、本明細書に記載の方法を用いることによって、例えば、溶液ハイブリダイゼーションを用いることによって単離され、それによって、ライブラリ捕獲物を提供する。ライブラリ捕獲物またはそのサブグループを配列決定することができる。したがって、本発明で特色とされる方法は、ライブラリ捕獲物の分析をさらに含む。一実施形態において、ライブラリ捕獲物は、配列決定方法、例えば、本明細書に記載の次世代配列決定方法によって分析される。方法は、溶液ハイブリダイゼーションによってライブラリ捕獲物を単離すること、および核酸配列決定によってライブラリ捕獲物を供することを含む。ある特定の実施形態において、ライブラリ捕獲物を再配列決定することができる。
【0525】
当技術分野で既知の任意の配列決定方法を用いることができる。選択方法によって単離された核酸の配列決定は、典型的には、次世代配列決定(NGS)を用いて実行される。次世代配列決定は、高度に並行した様式で、個別の核酸分子または個別の核酸分子のクローン的に広がったプロキシのいずれかのヌクレオチド配列を決定する任意の配列決定方法を含む(例えば、10
5個を超える分子が同時に配列決定される)。一実施形態において、ライブラリにおける核酸種の相対存在量を、配列決定実験によって生成されるデータにおけるそれらの同族配列の発生の相対数を計数することにより推定することができる。次世代配列決定方法は、当技術分野で既知であり、例えば、参照により本明細書に組み込まれるMetzker,M.(2010)Nature Biotechnology Reviews 11:31−46に記載されている。
【0526】
一実施形態において、次世代配列決定は、個別の核酸分子のヌクレオチド配列の決定を可能にする(例えば、Helicos BioSciencesのHeliScope遺伝子配列決定システム、およびPacific BiosciencesのPacBio RSシステム)。他の実施形態では、配列決定方法は、個別の核酸分子のクローン的に広がったプロキシのヌクレオチド配列を決定し(例えば、Solexaシーケンサ、Illumina Inc.,San Diego,Calif;454 Life Sciences(Branford,Conn.);およびIon Torrent)(例えば、短い読み取りの大規模並列配列決定(例えば、Solexaシーケンサ、Illumina Inc.,San Diego,Calif.))、それは、より少ない数であるがより長い読み取りを生成する他の配列決定方法よりも1つの配列決定ユニット当たりより多くの配列塩基を生成する。次世代配列決定のための他の方法または機械には、454 Life Sciences(Branford,Conn.)、Applied Biosystems(Foster City,Calif.、SOLiDシーケンサ)、Helicos BioSciences Corporation(Cambridge,Mass.)によって提供されるシーケンサ、ならびにエマルジョンおよびマイクロ流体配列決定技術であるナノ液滴(例えば、GnuBio液滴)が含まれるが、これらに限定されない。
【0527】
次世代配列決定用のプラットフォームには、Roche/454のゲノムシーケンサ(GS)FLXシステム、Illumina/Solexaのゲノムアナライザ(GA)、Life/APGの支持オリゴヌクレオチドライゲーション検出(SOLiD)システム、PolonatorのG.007システム、Helicos BioSciencesのHeliScope遺伝子配列決定システム、およびPacific BiosciencesのPacBio RSシステムが含まれるが、これらに限定されない。
【0528】
NGS技術は、以下のステップ、例えば、鋳型調製、配列決定および画像化、ならびにデータ分析のうちの1つ以上を含み得る。
【0529】
鋳型調製。鋳型調製法は、核酸(例えば、ゲノムDNAまたはcDNA)をランダムに破壊してより小さくするステップ、および配列決定鋳型(例えば、断片鋳型または噛合対鋳型)を生成するステップ等を含み得る。空間的に分離された鋳型は、固体表面もしくは支持体に結合または固定化されてもよく、同時に行われる大量の配列決定反応を可能にする。NGS反応に使用することができる鋳型の種類には、例えば、単一DNA分子由来のクローン的に増幅した鋳型、および単一DNA分子鋳型が含まれる。
【0530】
クローン的に増幅した鋳型を調製する方法には、例えば、エマルジョンPCR(emPCR)および固相増幅が含まれる。
【0531】
EmPCRを用いて、NGS用の鋳型を調製することができる。典型的には、核酸断片のライブラリが生成され、ユニバーサルプライミング部位を含有するアダプターが、断片の末端にライゲートされる。その後、断片は一本鎖に変性され、ビーズによって捕捉される。それぞれのビーズは、単一の核酸分子を捕捉する。emPCRビーズの増幅および濃縮後、大量の鋳型は、標準の顕微鏡スライド(例えば、Polonator)上のポリアクリルアミドゲル中で結合または固定化されるか、アミノコーティングガラス表面(例えば、Life/APG、Polonator)に化学的に架橋結合するか、またはNGS反応が行われ得る個別のPicoTiterPlate(PTP)ウェル(例えば、Roche/454)内に沈着することができる。
【0532】
固相増幅を用いて、NGS用の鋳型を産生することもできる。典型的には、順方向および逆方向プライマーは、固体支持体に共有結合される。増幅した断片の表面密度は、支持体上のプライマーと鋳型の比率によって定義される。固相増幅は、何億もの空間的に分離された鋳型クラスター(例えば、Illumina/Solexa)を産生することができる。鋳型クラスターの末端を、NGS反応用のユニバーサル配列決定プライマーにハイブリダイズさせてもよい。
【0533】
クローン的に増幅した鋳型を調製する他の方法には、例えば、複数の置換増幅(MDA)(Lasken R.S.Curr Opin Microbiol.2007;10(5):510−6)も含まれる。MDAは、非PCRベースのDNA増幅技術である。この反応は、ランダムな六量体プライマーの鋳型へのアニーリング、および高忠実度酵素(典型的には、一定温度でФ29)によるDNA合成を含む。MDAは、大型の産物を低いエラー頻度で生成することができる。
【0534】
PCR等の鋳型増幅法をNGSプラットフォームと連動させて、ゲノムの特定の領域(例えば、エクソン)を標的化または濃縮することができる。例となる鋳型濃縮方法は、例えば、微小液滴PCR技術(Tewhey R.et al.,Nature Biotech.2009,27:1025−1031)、カスタム設計されたオリゴヌクレオチドマイクロアレイ(例えば、Roche/NimbleGenオリゴヌクレオチドマイクロアレイ)、および溶液ベースのハイブリダイゼーション法(例えば、分子逆位プローブ(MIP)(Porreca G.J.et al.,Nature Methods,2007,4:931−936、Krishnakumar S.et al.,Proc.Natl.Acad.Sci.USA,2008,105:9296−9310、Turner E.H.et al.,Nature Methods,2009,6:315−316)、ならびにビオチン化されたRNA捕捉配列(Gnirke A.et al.,Nat.Biotechnol.2009;27(2):182−9)を含む。
【0535】
単一分子鋳型は、NGS反応に使用され得る別の種類の鋳型である。空間的に分離された単一分子鋳型は、様々な方法によって固体支持体上に固定化され得る。1つの手法において、個別のプライマー分子は、固体支持体に共有結合される。アダプターが鋳型に付加され、その後、鋳型は固定化プライマーにハイブリダイズされる。別の手法では、単一分子鋳型が、一本鎖の単一分子鋳型をプライムし、かつそれを固定化されたプライマーから伸長させることによって固体支持体に共有結合される。その後、ユニバーサルプライマーが、鋳型にハイブリダイズされる。さらに別の手法では、単一ポリメラーゼ分子は、プライムされた鋳型が結合される固体支持体に結合される。
【0536】
配列決定および画像化。NGSのための例となる配列決定および画像化方法には、循環可逆的停止(CRT)、ライゲーションによる配列決定(SBL)、単一分子付加(熱配列決定)、およびリアルタイム配列決定が含まれるが、これらに限定されない。
【0537】
CRTは、ヌクレオチド組み込みステップ、蛍光画像化ステップ、および切断ステップを最小限に含む循環方法において、可逆的ターミネーターを使用する。典型的には、DNAポリメラーゼは、鋳型塩基の相補的ヌクレオチドに対応する単一の蛍光修飾されたヌクレオチドをプライマーに組み込む。DNA合成は、単一のヌクレオチドの付加後に終了し、組み込まれていないヌクレオチドは洗い流される。画像化を行い、組み込まれた標識化ヌクレオチドの同一性を決定する。その後、切断ステップにおいて、終了/阻害群および蛍光色素が除去される。CRT方法を用いた例となるNGSプラットフォームには、全内部反射蛍光(TIRF)によって検出される4色のCRT方法に連動してクローン的に増幅した鋳型方法を用いるIllumina/Solexaゲノムアナライザ(GA)、およびTIRFによって検出される1色のCRT方法と連動して単一分子鋳型方法を用いるHelicos BioSciences/HeliScopeが含まれるが、これらに限定されない。
【0538】
SBLは、配列決定のために、DNAリガーゼおよび1塩基コードプローブまたは2塩基コードプローブのいずれかを使用する。典型的には、蛍光標識されたプローブは、プライムされた鋳型に隣接したその相補的配列にハイブリダイズする。DNAリガーゼを用いて、色素標識されたプローブをプライマーにライゲートする。蛍光画像化を行い、ライゲートしていないプローブが洗い流された後にライゲートしたプローブの同一性を決定する。蛍光色素を切断可能なプローブを用いて除去し、その後のライゲーションサイクルのために、5’−PO
4基を再生成することができる。あるいは、古いプライマーが除去された後に、新たなプライマーを鋳型にハイブリダイズさせてもよい。例となるSBLプラットフォームには、2塩基コードプローブを用いるLife/APG/SOLiD(支持オリゴヌクレオチドライゲーション検出)が含まれるが、これに限定されない。
【0539】
熱配列決定方法は、別の化学発光酵素を用いたDNAポリメラーゼの活性検出に基づく。典型的には、この方法は、DNAの一本鎖に沿って相補鎖を1塩基対ずつ合成することによるDNAの一本鎖の配列決定、およびどの塩基が各ステップで実際に付加されたかの検出を可能にする。鋳型DNAは不動であり、A、C、G、およびTヌクレオチドの溶液は、連続して添加され、反応物から除去される。ヌクレオチド溶液が鋳型の第1の不対塩基を補完する場合にのみ、光が産生される。化学発光シグナルを産生する溶液の配列は、鋳型の配列決定を可能にする。例となる熱配列決定プラットフォームには、PTPウェル内に沈着した100〜200万個のビーズを用いたemPCRによって調製されたDNA鋳型を用いるRoche/454が含まれるが、これに限定されない。
【0540】
リアルタイム配列決定は、DNA合成中に色素標識されたヌクレオチドの連続的な組み込みを画像化することを含む。例となるリアルタイム配列決定プラットフォームには、リン酸結合されたヌクレオチドが増大するプライマー鎖に組み込まれるときに、個別のゼロモード導波路(ZMW)検出器の表面に結合したDNAポリメラーゼ分子を用いて配列情報を得るPacific Biosciencesプラットフォーム、蛍光共鳴エネルギー移動(FRET)によるヌクレオチド組み込み後に、結合した蛍光色素を有する改変されたDNAポリメラーゼを用いて強化されたシグナルを生成するLife/VisiGenプラットフォーム、および配列決定反応において色素クエンチャーヌクレオチドを用いるLI−COR Biosciencesプラットフォームが含まれるが、これらに限定されない。
【0541】
NGSの他の配列決定方法には、ナノ細孔配列決定、ハイブリダイゼーションによる配列決定、ナノトランジスタアレイに基づく配列決定、ポロニー配列決定、走査トンネル顕微鏡法(STM)に基づく配列決定、およびナノワイヤ分子センサに基づく配列決定が含まれるが、これらに限定されない。
【0542】
ナノ細孔配列決定は、その中で単一核酸ポリマーを分析することができる高度に閉ざされた空間を提供するナノスケール細孔を通る溶液中での核酸分子の電気泳動を含む。ナノ細孔配列決定の例となる方法は、例えば、Branton D.et al.,Nat Biotechnol.2008;26(10):1146−53に記載されている。
【0543】
ハイブリダイゼーションによる配列決定は、DNAマイクロアレイを用いる非酵素的方法である。典型的には、DNAの単一のプールが蛍光標識され、既知の配列を含有するアレイにハイブリダイズされる。アレイ上の所与のスポットからのハイブリダイゼーションシグナルは、DNA配列を特定することができる。DNAの1本鎖のそのDNA二重らせんの相補鎖への結合は、ハイブリッド領域が短いときに均一な単一塩基ミスマッチに敏感であるか、ミスマッチを検出するタンパク質が存在するときに特殊化される。ハイブリダイゼーションによる配列決定の例となる方法は、例えば、Hanna G.J.et al.,J.Clin.Microbiol.2000;38(7):2715−21、およびEdwards J.R.et al.,Mut.Res.2005;573(1−2):3−12に記載されている。
【0544】
ポロニー配列決定は、複数の単一塩基伸長を介するポロニー増幅および合成による配列決定に基づく(FISSEQ)。ポロニー増幅は、ポリアクリルアミド膜上でDNAをインサイチュ増幅する方法である。例となるポロニー配列決定方法は、例えば、米国特許出願公開第2007/0087362号に記載されている。
【0545】
カーボンナノチューブ電界効果トランジスタ(CNTFET)等のナノトランジスタアレイベースのデバイスもNGSに用いることができる。例えば、DNA分子が駆動微細加工電極によって伸張され、ナノチューブ上を駆動する。DNA分子は、カーボンナノチューブ表面と連続的に接触し、それぞれの塩基からの電流フローの差異は、DNA分子とナノチューブとの間の電荷移動によって産生される。DNAは、これらの差異を記録することによって配列決定される。例となるナノトランジスタアレイに基づく配列決定方法は、例えば、米国特許出願公開第2006/0246497号に記載されている。
【0546】
走査トンネル顕微鏡法(STM)もNGSに用いることができる。STMは、検体のラスター走査を行ってその表面の画像を形成する圧電制御プローブを用いる。STMを用いて、単一DNA分子の物理的特性を画像化する、例えば、走査トンネル顕微鏡とアクチュエータ駆動型の可塑性のギャップを統合することによって、コヒーレント電子トンネル画像化および分光法を生成することができる。STMを用いた例となる配列決定方法は、例えば、米国特許出願公開第2007/0194225号に記載されている。
【0547】
ナノワイヤ分子センサから成る分子分析デバイスもNGSに用いることができる。そのようなデバイスは、ナノワイヤ上に配置される窒素性物質とDNA等の核酸分子との相互作用を検出することができる。分子ガイドが、分子センサ付近の分子を誘導するように構成され、相互作用およびその後の検出を可能にする。方法ナノワイヤ分子センサを用いた例となる配列決定は、例えば、米国特許出願公開第2006/0275779号に記載されている。
【0548】
両末端配列決定方法をNGSに用いることができる。両末端配列決定は、ブロックされたプライマーおよびブロックされていないプライマーを用いて、DNAのセンス鎖およびアンチセンス鎖の両方を配列決定する。典型的には、これらの方法は、ブロックされていないプライマーを核酸の第1の鎖にアニーリングするステップ、第2のブロックされたプライマーを核酸の第2の鎖にアニーリングするステップ、ポリメラーゼを用いて第1の鎖に沿って核酸を伸長するステップ、第1の配列決定プライマーを終了するステップ、第2のプライマーを脱ブロッキングするステップ、および第2の鎖に沿って核酸を伸長するステップを含む。例となる両末端配列決定方法は、例えば、米国特許第7,244,567号に記載されている。
【0549】
データ分析。NGSの読み取りが生成された後、それらを既知の参照配列に対してアライメントするか、またはデノボアセンブリすることができる。
【0550】
例えば、試料(例えば、腫瘍試料)における単一ヌクレオチド多型および構造バリアント等の遺伝的バリエーションの特定を、NGS読み取りを参照配列(例えば、野生型配列)に対してアライメントすることによって達成することができる。NGSのための配列アライメント方法は、例えば、Trapnell C.and Salzberg S.L.Nature Biotech.,2009,27:455−457に記載されている。
【0551】
デノボアセンブリの例は、例えば、Warren R.et al.、Bioinformatics,2007,23:500−501、Butler J.et al.,Genome Res.,2008,18:810−820、およびZerbino D.R.and Birney E.,Genome Res.,2008,18:821−829に記載されている。
【0552】
配列アライメントまたはアセンブリを、例えば、Roche/454およびIllumina/Solexa読み取りデータを混合した1つ以上のNGSプラットフォームからの読み取りデータを用いて行うことができる。
アライメント
概要
【0553】
アライメントは、読み取りを位置、例えば、ゲノム位置と適合させるプロセスである。誤アライメント(例えば、ゲノム内の誤った位置上の短い読み取りからの塩基対の配置)、例えば、実際の癌変異前後の読み取りの配列コンテキスト(例えば、反復配列の存在)による誤アライメントは、代替対立遺伝子の読み取りが代替対立遺伝子読み取りの主な集積から変化し得るため、変異検出の感度の減少につながり得る。実際の変異が存在しない場合に問題のある配列コンテキストが生じるとき、誤アライメントは、参照ゲノム塩基の実際の読み取りを間違った位置に配置することによって、「変異」対立遺伝子の人為的な読み取りを導入し得る。複数の多重遺伝子分析の変異呼び出しアルゴリズムがさらに低い存在量変異に敏感であるべきであるという理由から、これらの誤アライメントは、誤検出発見率を増加させ得る/特異性を減少させ得る。
【0554】
本明細書で論じられるように、実際の変異に対する感度の減少は、分析される遺伝子における予想される変異部位周囲のアライメントの品質を評価する(手作業で、または自動化された様式で)ことによって対処することができる。評価される部位を、癌変異のデータベース(例えば、COSMIC)から得ることができる。問題があると見なされる領域を、例えば、Smith−Watermanアライメント等のより緩徐であるがより正確なアライメントアルゴリズムを用いたアライメント最適化(または再アライメント)によって関連性のある配列コンテキストにおいてより良好な性能をもたらすために選択されるアルゴリズムを用いて修復することができる。一般的なアライメントアルゴリズムがその問題を修正できない場合において、カスタマイズされたアライメント手法を、例えば、置換を含有する可能性の高い遺伝子の最大差ミスマッチペナルティパラメータの調節、ある特定の腫瘍型でよく見られる特異的変異型に基づく特定のミスマッチペナルティパラメータの調節(例えば、黒色腫におけるC→T)、またはある特定の試料型でよく見られる特異的変異型に基づく特定のミスマッチペナルティパラメータの調節(例えば、FFPEでよく見られる置換)によって作成することができる。誤アライメントによる評価される遺伝子領域の特異性低下(誤検出率増加)を、配列決定される試料におけるすべての変異呼び出しの手動または自動化された試験によって評価することができる。誤アライメントに起因した誤った変異呼び出しの傾向があると考えられるそれらの領域を、上述と同一のアライメント修正に供してもよい。いかなるアルゴリズム修正も可能ではないと見なされる場合、問題の領域からの「変異」を、試験パネルから分類または排除してもよい。
挿入/欠失(インデル)
【0555】
概して、インデル変異の正確な検出は、本明細書で無効にされた配列決定プラットフォーム上での誤ったインデル率が比較的低いため、アライメントの演習である(したがって、正しくアライメントされたインデルのわずかな観察でさえも変異の有力な証拠であり得る)。しかしながら、インデルの存在下における正確なアライメントは困難であり得る(特にインデルの長さが増加するとき)。アライメントに関連した一般的な問題、例えば、置換の一般的な問題に加えて、インデル自体がアライメントに関連する問題を引き起こし得る(例えば、ジヌクレオチド繰り返しの2bpの欠失を容易かつ断定的に配置することはできない)。感度および特異性の両方が、より短い(15bp未満)外見上のインデルを含有する読み取りの誤った配置によって低下し得る。より大きいインデル(我々の現在のプロセスにおいて、大きさが個別の読み取りの長さ(36bp)に近づいている)は、全く読み取りをアライメントせず、標準の組のアライメントされた読み取りにおけるインデルの検出を不可能にし得る。
【0556】
癌変異のデータベースを用いて、これらの問題に対処し、性能を改善することができる。誤検出インデルの発見を減少させる(特異性を改善する)ために、一般に予想されるインデル周辺の領域を、配列コンテキストに起因する問題のあるアライメントについて試験し、上記の置換と同様に対処することができる。インデル検出の感度を改善するために、癌において予想されるインデルに関する情報を用いたいくつかの異なる手法を使用することができる。例えば、予想されるインデルを含有する短い読み取りを模擬し、アライメントを試みることができる。アライメントを研究することができ、問題のあるインデル領域は、例えば、ギャップの開き/伸長ペナルティを減少させることによって、または部分的な読み取り(例えば、読み取りの前半もしくは後半)をアライメントすることによって、アライメントパラメータを調節することができる。
【0557】
あるいは、正常な参照ゲノムだけでなく、既知のまたは見込みのある癌インデル変異のそれぞれを含有するゲノムの代替バージョンも用いて最初のアライメントを試みることができる。この手法において、最初にアライメントし損なったか、または誤ってアライメントされたインデルの読み取りは、ゲノムの代替(変異)バージョンでうまく配置される。
【0558】
この方法で、予想される癌遺伝子/部位のインデルアライメント(したがって、呼び出し)を最適化することができる。例えば、乳癌試料を評価するとき、腫瘍抑制遺伝子PTENにおけるアライメントを、表5に例示されるように、インデル変異の存在の可能性のために最適化することができる。
調整
調整:配列アライメントアルゴリズム
【0559】
本明細書で使用されるとき、配列アライメントアルゴリズムは、読み取り配列(例えば、次世代配列決定に由来する、例えば、短い読み取り配列)が由来する可能性の高いゲノム中の位置を読み取り配列と参照配列との間の類似性を評価することによって特定するために使用される計算法または手法を具現化する。様々なアルゴリズムを、配列アライメント問題に適用してもよい。いくつかのアルゴリズムは、比較的緩徐であるが、比較的高い特異性を可能にする。これらには、例えば、ダイナミックプログラミングに基づくアルゴリズムが含まれる。ダイナミックプログラミングは、より単純なステップに分けることによって複雑な問題を解決するための方法である。他の手法は、比較的より効率的であるが、典型的には、それほど完全ではない。これらには、例えば、大規模のデータベース検索用に設計される発見的アルゴリズムおよび確率論的方法が含まれる。
【0560】
典型的には、アライメントプロセスには、2つのステップ、すなわち候補検索および配列アライメントが存在し得る。候補検索は、配列アライメント用の検索空間を全ゲノムからより短いリストの可能性のあるアライメント位置まで減少させる。その用語が示唆するように、配列アライメントは、配列を候補検索ステップで提供される配列とアライメントすることを含む。これを、大域アライメント(例えば、Needleman−Wunschアライメント)または局所アライメント(例えば、Smith−Watermanアライメント)を用いて行うことができる。
【0561】
高速アライメントアルゴリズムのほとんどを、インデックス作成方法、すなわち、ハッシュ表(例えば、BLAST、ELAND、SOAP)、サフィックス木(例えば、Bowtie、BWA)、およびマージソート(例えば、Slider)に基づくアルゴリズムに基づいて、3種類のうちの1つとして特徴づけることができる。
【0562】
短い読み取り配列は、典型的には、アライメントに使用される。短い読み取り配列用の配列アライメントアルゴリズム/プログラムの例には、BFAST(Homer N.et al.、PLoS One.2009;4(11):e7767)、BLASTN(www.blast.ncbi.nlm.nih.gov上)、BLAT(Kent W.J.Genome Res.2002;12(4):656−64)、Bowtie(Langmead B.et al.,Genome Biol.2009;10(3):R25)、BWA(Li H.and Durbin R.Bioinformatics,2009,25:1754−60)、BWA−SW(Li H.and Durbin R.Bioinformatics,2010;26(5):589−95)、CloudBurst(Schatz M.C.Bioinformatics.2009;25(11):1363−9)、Corona Lite(Applied Biosystems,Carlsbad,California,USA)、CASHX(Fahlgren N.et al.,RNA,2009;15,992−1002)、CUDA−EC(Shi H.et al.,J Comput Biol.2010;17(4):603−15)、ELAND(www.bioit.dbi.udel.edu/howto/eland上)、GNUMAP(Clement N.L.et al.,Bioinformatics.2010;26(1):38−45)、GMAP(Wu T.D.and Watanabe C.K.Bioinformatics.2005;21(9):1859−75)、GSNAP(Wu T.D.and Nacu S.,Bioinformatics.2010;26(7):873−81)、Geneious Assembler(Biomatters Ltd.,Auckland,New Zealand)、LAST、MAQ(Li H.et al.,Genome Res.2008;18(11):1851−8)、Mega−BLAST(www.ncbi.nlm.nih.gov/blast/megablast.shtml上)、MOM(Eaves H.L.and Gao Y.Bioinformatics.2009;25(7):969−70)、MOSAIK(www.Bioinformatics.bc.edu/marthlab/Mosaik上)、Novoalign(www.novocraft.com/main/index.php上)、PALMapper(www.fml.tuebingen.mpg.de/raetsch/suppl/palmapper上)、PASS(Campagna D.et al.,Bioinformatics.2009;25(7):967−8)、PatMaN(Prufer K.et al.、Bioinformatics.2008;24(13):1530−1)、PerM(Chen Y.et al.、Bioinformatics,2009、25(19):2514−2521)、ProbeMatch(Kim Y.J.et al.,Bioinformatics.2009;25(11):1424−5)、QPalma(de Bona F.et al.,Bioinformatics,2008,24(16):i174)、RazerS(Weese D.et al.,Genome Research,2009,19:1646−1654)、RMAP(Smith A.D.et al.、Bioinformatics.2009;25(21):2841−2)、SeqMap(Jiang H.et al.Bioinformatics.2008;24:2395−2396.)、Shrec(Salmela L.,Bioinformatics.2010;26(10):1284−90)、SHRiMP(Rumble S.M.et al.,PLoS Comput.Biol.,2009,5(5):e1000386)、SLIDER(Malhis N.et al.,Bioinformatics,2009、25(1):6−13)、SLIM Search(Muller T.et al.,Bioinformatics.2001;17 Suppl 1:S182−9)、SOAP(Li R.et al.,Bioinformatics.2008;24(5):713−4)、SOAP2(Li R.et al.,Bioinformatics.2009;25(15):1966−7)、SOCS(Ondov B.D.et al.,Bioinformatics,2008;24(23):2776−7)、SSAHA(Ning Z.et al.,Genome Res.2001;11(10):1725−9)、SSAHA2(Ning Z.et al.,Genome Res.2001;11(10):1725−9)、Stampy(印刷前に電子出版されたLunter G.and Goodson M.Genome Res.2010)、Taipan(www.taipan.sourceforge.net上)、UGENE(www.ugene.unipro.ru上)、XpressAlign(www.bcgsc.ca/platform/bioinfo/software/XpressAlign上)、およびZOOM(Bioinformatics Solutions Inc.,Waterloo,ON,Canada)が含まれるが、これらに限定されない。
【0563】
配列アライメントアルゴリズムを、例えば、配列決定技術、読み取りの長さ、読み取りの数、利用可能な計算資源、および感度/スコア化要件を含むいくつかの要因に基づいて選択することができる。異なる配列アライメントアルゴリズムは、異なるレベルの速度、アライメント感度、およびアライメント特異性を得ることができる。アライメント特異性は、典型的には、予測されるアライメントと比較した、正しくアライメントされる提出試料において見られるアライメントされた標的配列残基の割合を指す。アライメント感度は、通常、予測されるアライメントにおいて見られるアライメントされた標的配列残基の割合を指し、それは、提出試料でも正しくアライメントされている。
【0564】
速度が最初に考慮されるべき要因である場合、ELANDまたはSOAP等のアライメントアルゴリズムを、短い読み取り(例えば、Illumina/Solexaシーケンサからの)を参照ゲノムに対してアライメントする目的で使用することができる。特異性が最も重要な要因である場合、BLASTまたはMega−BLAST等のアライメントアルゴリズムを、短い読み取り(例えば、Roche FLXからの)を用いた類似点検索の目的で用いることができるが、これらの方法は比較的緩徐である。MAQまたはNovoalign等のアライメントアルゴリズムは、品質スコアを考慮に入れるため、精度が絶対不可欠である場合に(例えば、ハイスループットSNP調査において)、シングルエンドまたはペアエンドデータセットの両方に用いることができる。BowtieまたはBWA等のアライメントアルゴリズムは、Burrows−Wheeler変換(BWT)を用いるため、比較的小さいメモリフットプリントを必要とする。BFAST、PerM、SHRiMP、SOCS、またはZOOM等のアライメントアルゴリズムは、色空間読み取りをマッピングするため、ABIのSOLiDプラットフォームとともに用いてもよい。いくつかの適用において、2つ以上のアライメントアルゴリズムからの結果を合わせてもよい。
調整:アライメントパラメータ
【0565】
アライメントパラメータが、アルゴリズムの性能を調節する、例えば、読み取り配列と参照配列との間の最適な大域アライメントまたは局所アライメントをもたらすために、アライメントアルゴリズムで使用される。アライメントパラメータは、適合、ミスマッチ、およびインデルに重み付けを与えることができる。例えば、より低い重みは、より多くのミスマッチおよびインデルとのアライメントを可能にする。
【0566】
アライメントパラメータの例には、マッチリワード、ミスマッチペナルティ、ギャップペナルティ(例えば、ギャップ開きペナルティ、ギャップ伸長ペナルティ)、予測閾値、語長、フィルタ、またはマスクが含まれるが、これらに限定されない。
【0567】
例えば、ギャップペナルティは、アライメントが読み取り配列または参照配列における挿入によって破壊されたときにアライメントスコアを減少させるように設計される。ギャップペナルティを用いて、配列中の他の隣接点で残基と残基の良好なアライメントを達成することが可能である場合に、アライメントにおけるギャップまたは挿入を容認するかの決定を支援することができる。具体的には、ペナルティを、それぞれの開かれたギャップ(「ギャップ開き」ペナルティ)のスコアと、損失(「ギャップ伸長」ペナルティ)を乗じたギャップ空間の総数のスコアから差し引くことができる。典型的には、ギャップを伸長する損失は、ギャップを開く損失よりも少なくとも約2、3、4、5、6、7、8、9、または10倍低くなっている。予測閾値は、特定のサイズのデータベースを検索するときに偶然目撃することが「予測」され得るヒットの数を説明するパラメータである。
調整:アルゴリズムおよびパラメータの配列コンテキストに基づく選択/調整
【0568】
配列コンテキスト、例えば、反復配列(例えば、タンデム反復配列、散在反復配列)、複雑度の低い領域、インデル、偽遺伝子、またはパラログの存在が、アライメント特異性に影響を及ぼし得る(例えば、誤アライメントを引き起こし得る)。本明細書で使用されるとき、誤アライメントは、ゲノム中の誤った位置上での短い読み取りからの塩基対の配置を指す。
【0569】
より緩徐であるが、より正確なアライメントアルゴリズム(例えば、Smith−Watermanアライメント、または多配列(読み取り)アライナCLUSTALW)等のアライメントアルゴリズムを選択して、アライメント特異性を増加させる(例えば、配列コンテキスト、例えば、反復配列の存在によって引き起こされる誤アライメントの可能性を減少させる)ことができる。
【0570】
マッチリワード、ミスマッチペナルティ、ギャップペナルティ(例えば、ギャップ開きペナルティ、ギャップ伸長ペナルティ)、予測閾値、語長、フィルタ、またはマスク等のアライメントパラメータを調節して(例えば、増加または減少させて)、アライメント特異性を増加させる(例えば、配列コンテキストによって引き起こされる誤アライメントの可能性を減少させる)ことができる。
調整:アルゴリズムおよびパラメータの腫瘍型に基づく選択/調整
【0571】
腫瘍型、例えば、特異的変異もしくは変異型を有する傾向のある腫瘍型に基づいて、アライメントアルゴリズムが選択されるか、またはアライメントパラメータが調節されるとき、アライメント感度を増加させることができる。
【0572】
核酸がある特定の腫瘍型の試料から単離されるときに、アライメントアルゴリズムを選択して、アライメント感度を調節する(例えば、増加させる)ことができる。
【0573】
核酸がある特定の腫瘍型の試料から単離されるときに、マッチリワード、ミスマッチペナルティ、ギャップペナルティ(例えば、ギャップ開きペナルティ、ギャップ伸長ペナルティ)、予測閾値、語長、フィルタ、またはマスク等のアライメントパラメータを調節して(例えば、増加または減少させて)、アライメント感度を調節する(例えば、増加させる)ことができる。例えば、C→T置換は、黒色腫の一般的な変異型である。したがって、黒色腫試料からの核酸配列のミスマッチペナルティが減少または増加するときに、アライメント感度を調節する(例えば、増加させる)ことができる。
調整:アルゴリズムおよびパラメータの遺伝子型に基づく選択/調整
【0574】
特定の遺伝子型(例えば、癌遺伝子、腫瘍抑制遺伝子遺伝子)に基づいて、アライメントアルゴリズムが選択されるか、またはアライメントパラメータが調節されるとき、アライメント感度を増加させることができる。異なる種類の癌関連遺伝子における変異は、癌表現型に異なる影響を有し得る。例えば、変異体癌遺伝子対立遺伝子は、典型的には、優性である。変異体腫瘍抑制遺伝子対立遺伝子は、典型的には、劣性であり、これは、多くの場合、影響が現れる前に腫瘍抑制遺伝子の両方の対立遺伝子が影響を受けていなくてはならないことを意味する。
【0575】
遺伝子型(例えば、癌遺伝子、腫瘍抑制遺伝子)に基づいて、アライメントアルゴリズムを選択して、アライメント感度を調節する(例えば、増加させる)ことができる。
【0576】
遺伝子型(例えば、癌遺伝子、腫瘍抑制遺伝子)に基づいて、マッチリワード、ミスマッチペナルティ、ギャップペナルティ(例えば、ギャップ開きペナルティ、ギャップ伸長ペナルティ)、予測閾値、語長、フィルタ、またはマスク等のアライメントパラメータを調節して(例えば、増加または減少させて)、アライメント感度/特異性を調節する(例えば、増加させる)ことができる。例えば、インフレームインデルは、腫瘍抑制遺伝子に一般に関連している。したがって、標準のギャップペナルティ手法(例えば、ギャップ開き+ギャップ伸長)が、癌遺伝子の場合はインフレームインデルを、腫瘍抑制遺伝子の場合はフレームシフトインデルを好むように修正されるときに、アライメント感度および特異性を調節する(例えば、増加させる)ことができる。
調整:アルゴリズムおよびパラメータの変異型に基づく選択/調整
【0577】
変異型(例えば、単一ヌクレオチド多型、インデル(挿入もしくは欠失)、逆位、転座、タンデム反復)に基づいて、アライメントアルゴリズムが選択されるか、またはアライメントパラメータが調節されるときに、アライメント感度を調節する(例えば、増加させる)ことができる。
【0578】
変異型(例えば、単一ヌクレオチド多型、インデル(挿入または欠失)、逆位、転座、タンデム反復)に基づいて、BWA(高速の単一の短い読み取り)、Smith−Waterman(より緩徐でより正確な単一の短い読み取り)、およびCLUSTALW(さらにより緩徐であるが、複数の読み取りを考慮する)等のアライメントアルゴリズムを選択して、アライメント感度を調節する(例えば、増加させる)ことができる。
【0579】
変異型(例えば、単一ヌクレオチド多型、インデル(挿入もしくは欠失)、逆位、転座、タンデム反復)に基づいて、マッチリワード、ミスマッチペナルティ、ギャップペナルティ(例えば、ギャップ開きペナルティ、ギャップ伸長ペナルティ)、予測閾値、語長、フィルタ、またはマスク等のアライメントパラメータを調節して(例えば、増加または減少させて)、アライメント感度/特異性を調節する(例えば、増加させる)ことができる。例えば、点変異は、KRAS遺伝子に一般に関連している。したがって、その位置のミスマッチペナルティが減少すると、アライメント感度が増加し得る。同様に、欠失は、EGFR遺伝子に一般に関連している。したがって、その位置(複数を含む)または遺伝子のギャップペナルティ(例えば、ギャップの開きペナルティ、ギャップ伸長ペナルティ)が減少すると、アライメント感度が増加し得る。部分的な配列(例えば、読み取りの前半または後半)がアライメントに使用される場合、アライメント感度が増加する場合もある。
アルゴリズムおよびパラメータの調整/変異部位に基づく選択/調整
【0580】
変異部位(例えば、変異ホットスポット)に基づいて、アライメントアルゴリズムが選択されるか、またはアライメントパラメータが調節されるときに、アライメント感度を調節する(例えば、増加させる)ことができる。変異ホットスポットは、変異が通常の変異率よりも最大100倍頻繁に生じるゲノム中の部位を指す。
【0581】
変異部位(例えば、変異ホットスポット)に基づいて、アライメントアルゴリズムを選択して、アライメント感度を調節する(例えば、増加させる)ことができる。
【0582】
変異部位(例えば、変異ホットスポット)に基づいて、マッチリワード、ミスマッチペナルティ、ギャップペナルティ(例えば、ギャップ開きペナルティ、ギャップ伸長ペナルティ)、予測閾値、語長、フィルタ、またはマスク等のアライメントパラメータを調節して(例えば、増加または減少させて)、アライメント感度を調節する(例えば、増加させる)ことができる。例えば、コドン12での変異は、KRAS遺伝子に一般に関連している。したがって、その部位のミスマッチペナルティが減少すると、アライメント感度が増加し得る。
調整:アルゴリズムおよびパラメータの試料型に基づく選択/調整
【0583】
試料型(例えば、FFPE試料)に基づいて、アライメントアルゴリズムが選択されるか、またはアライメントパラメータが調節されるときに、アライメント感度/特異性を調節する(例えば、増加させる)ことができる。
【0584】
試料型(例えば、FFPE試料)に基づいて、アライメントアルゴリズムを選択して、アライメント感度/特異性を調節する(例えば、増加させる)ことができる。
【0585】
試料型(例えば、FFPE試料)に基づいて、マッチリワード、ミスマッチペナルティ、ギャップペナルティ(例えば、ギャップ開きペナルティ、ギャップ伸長ペナルティ)、予測閾値、語長、フィルタ、またはマスク等のアライメントパラメータを調節して(例えば、増加または減少させて)、アライメント感度/特異性を調節する(例えば、増加させる)ことができる。例えば、DNA損傷による移行変異アーチファクトは、FFPE試料に一般に関連している。したがって、FFPE試料から得られる配列のミスマッチペナルティが増加すると、アライメント感度/特異性が増加し得る。
アライメントモジュール
アライメントの一般方法
【0586】
本明細書に開示の方法は、複数の個別に調整されたアライメント方法またはアルゴリズムの使用を可能にし、配列決定方法、特に多数の様々な遺伝子における多数の様々な遺伝的事象の大規模並列配列決定に依存する方法、例えば、腫瘍試料を分析する方法における能力を最適化する。実施形態において、異なる遺伝子におけるいくつかのバリアントのそれぞれに個別にカスタマイズまたは調整される複数のアライメント方法を用いて、読み取りを分析する。実施形態において、調整は、配列決定される遺伝子(または他のサブゲノム間隔)、試料の腫瘍型、配列決定されるバリアント、または試料もしくは対象の特性(のうちの1つ以上)の関数であり得る。配列決定されるいくつかのサブゲノム間隔に個別に調整されたアライメント条件の選択または使用は、速度、感度、および特異性の最適化を可能にする。方法は、比較的多数の様々なサブゲノム間隔についての読み取りのアライメントが最適化されるときに特に効果的である。
【0587】
したがって、一態様において、試料、例えば、腫瘍試料を分析する方法が提供される。方法は、
(a)複数のメンバーを含むライブラリを試料から、例えば、複数の腫瘍メンバーを含むライブラリを腫瘍試料から取得することと、
(b)任意で、例えば、ライブラリをベイトセット(または複数のベイトセット)と接触させることによって事前選択された配列のライブラリを濃縮して、選択されたメンバー(本明細書でライブラリ捕獲物と称される場合もある)を提供することと、
(c)サブゲノム間隔についての読み取りを、例えば、配列決定を含む方法によって、例えば、次世代配列決定方法を用いて、該ライブラリまたはライブラリ捕獲物からのメンバー、例えば、腫瘍メンバーから取得することと、
(d)該読み取りを、アライメント方法、例えば、本明細書に記載のアライメント方法を用いてアライメントすることと、
(e)事前選択されたヌクレオチド位置に対する該読み取りからのヌクレオチド値を割り当てる(例えば、ベイズ方法を用いて、例えば、変異を呼び出す)ことと、を含み、
それによって、該腫瘍試料を分析し、
X個の一意のサブゲノム間隔のそれぞれからの読み取りは、一意のアライメント方法とアライメントされ、一意のサブゲノム間隔とは、他のX−1個のサブゲノム間隔とは異なることを意味し、一意のアライメント方法とは、他のX−1個のアライメント方法とは異なることを意味し、Xは、少なくとも2である。
【0588】
ある実施形態において、ステップ(b)が存在する。ある実施形態において、ステップ(b)が欠如する。
【0589】
ある実施形態において、Xは、少なくとも3、4、5、10、15、20、30、50、100、500、または1,000である。
【0590】
したがって、ある実施形態において、本明細書に記載の方法、例えば、腫瘍試料を分析する方法は、本明細書に記載のアライメント方法を含む。例として、方法(例えば、ステップ(c))は、該読み取りを分析する、例えば、アライメントするためにアライメント方法を選択することを含んでもよく、アライメント方法は、以下のうちの1つ以上もしくはすべての関数であるか、それらに応答して選択されるか、またはそれらのために最適化される:
(i)該試料における腫瘍型、例えば、腫瘍型、
(ii)配列決定される該サブゲノム間隔が位置する遺伝子または遺伝子型、例えば、バリアントまたはバリアント型、例えば、変異の事前選択された確率に関連した遺伝子または遺伝子型、
(iii)分析される部位(例えば、ヌクレオチド位置)、
(iv)評価されるサブゲノム間隔内のバリアント型、例えば、置換、
(v)試料型、例えば、FFPE試料、および
(vi)評価される該サブゲノム間隔における配列またはその付近の配列、例えば、該サブゲノム間隔の予想される誤アライメント傾向、例えば、該サブゲノム間隔における反復配列またはその付近の反復配列の存在。
【0591】
本明細書の他の箇所で言及されるように、方法は、比較的多数のサブゲノム間隔についての読み取りのアライメントが最適化されるときに特に効果的である。したがって、ある実施形態において、少なくともX個の一意のアライメント方法を用いて、少なくともX個の一意のサブゲノム間隔についての読み取りを分析し、一意とは、他のX−1とは異なることを意味し、Xは、2、3、4、5、10、15、20、30、50、100、200、500、または1,000に等しい。
【0592】
ある実施形態において、サブゲノム間隔が表1の少なくともX個の遺伝子から分析され、Xは、3、4、5、10、15、20、または30に等しい。
【0593】
ある実施形態において、サブゲノム間隔が優先順位が1のアノテーションを有する表1の少なくともX個の遺伝子から分析され、Xは、3、4、5、10、15、20、または30に等しい。
【0594】
ある実施形態において、一意のアライメント方法は、少なくとも3、5、10、20、40、50、60、70、80、90、または100個の異なる遺伝子のそれぞれにおけるサブゲノム間隔に適用される。
【0595】
ある実施形態において、少なくとも20、40、60、80、100、120、140、160、または180個の遺伝子、例えば、表1もしくは表1Aの遺伝子におけるヌクレオチド位置に、ヌクレオチド値が割り当てられる。ある実施形態において、一意のアライメント方法は、少なくとも10、20、30、40、または50%の分析される該遺伝子のそれぞれにおけるサブゲノム間隔に適用される。
【0596】
ある実施形態において、優先順位が1のアノテーションを有する表1もしくは表1Aの少なくとも5、10、20、30、または40個の遺伝子におけるヌクレオチド位置に、ヌクレオチド値が割り当てられる。ある実施形態において、一意のアライメント方法は、少なくとも10、20、30、40、または50%の分析される該遺伝子のそれぞれにおけるサブゲノム間隔に適用される。
【0597】
ある実施形態において、表1、表1A、表2、または表3の少なくとも10、20、30、40、50、100、150、200、300、400、または500個のバリアントまたはコドン、例えば、変異のヌクレオチド位置に、ヌクレオチド値が割り当てられる。ある実施形態において、一意のアライメント方法は、少なくとも10、20、30、40、または50%の分析される該遺伝子のそれぞれにおけるサブゲノム間隔に適用される。
【0598】
ある実施形態において、方法は、
一意のアライメント方法をX個のゲノム間隔のそれぞれに適用することを含み、該ゲノム間隔はそれぞれ、腫瘍表現型に関連したバリアントを有し、例えば、バリアントは、点変異であり、Xは、2、3、5、10、20、40、50、60、70、80、90、または100より大きく、例えば、該サブゲノム間隔はそれぞれ、異なる遺伝子に位置する。
【0599】
ある実施形態において、方法は、
一意のアライメント方法をX個のゲノム間隔のそれぞれ適用することを含み、該ゲノム間隔はそれぞれ、腫瘍表現型に関連したバリアントを有し、例えば、バリアントは、再編成、例えば、欠失、挿入、または転座であり、Xは、2、3、5、10、20、40、50、60、70、80、90、または100より大きく、該サブゲノム間隔はそれぞれ、異なる遺伝子に位置する。
【0600】
ある実施形態において、
第1の一意のアライメント方法は、事前選択されたヌクレオチド位置を含む第1のサブゲノム間隔に適用され、そのバリアントは、腫瘍表現型に関連し、
第2の一意のアライメント方法は、該第1の事前選択されたヌクレオチド位置以外の事前選択されたヌクレオチドを含むサブゲノム間隔、例えば、腫瘍表現型を有するバリアントを有しない位置に適用される。
【0601】
ある実施形態において、方法は、
a)第1のゲノム間隔のバリアントが腫瘍表現型に関連し、例えば、バリアントが、点変異、例えば、表6の変異である、第1の一意のアライメント方法を第1のゲノム間隔に適用することと、
b)第2のゲノム間隔のバリアントが腫瘍表現型に関連し、例えば、バリアントが、再編成、例えば、欠失、挿入、または転座、例えば、表5の変異である、第2の一意のアライメント方法を第2のゲノム間隔に適用することと、
c)第3の一意のアライメント方法を第3のゲノム間隔、例えば、バリアントが腫瘍表現型または該試料におけるその型の腫瘍に関連しないゲノム間隔に適用することと、を含む。
【0602】
ある実施形態において、遺伝子または遺伝子型は、
例えば、チロシンキナーゼ領域における活性化変異に関連し得る癌遺伝子、
不活性化(例えば、ナンセンス)変異を伴い得る腫瘍抑制遺伝子、または
高活性もしくは低活性の生殖細胞系遺伝的バリエーションを伴い得る薬物ADME関連遺伝子である。
【0603】
ある実施形態において、アライメント方法の選択は、アライメントアルゴリズムで用いるパラメータ(またはその値)、例えば、マッチリワード、ミスマッチペナルティ、ギャップペナルティ(例えば、ギャップ開きペナルティ、ギャップ伸長ペナルティ)、予想閾値、語長、フィルタ、またはマスクの選択を含む。パラメータ(またはその値)を、事前選択されたパラメータ、例えば、事前選択された限界または限度によって定義されるパラメータのパネルから選択してもよい。
【0604】
ある実施形態において、既知の癌置換および既知の生殖細胞系インデルを含有する遺伝子のためにアライメントする(またはアライメントを最適化する)とき、生殖細胞系バリアントが正しく捕捉され、かつ目的とする体細胞変異周辺のアライメントに悪影響を及ぼさないように、ギャップペナルティを減少させることができる。
【0605】
ある実施形態において、アライメント方法の選択は、置換を含有する可能性の高い遺伝子の最大差ミスマッチペナルティパラメータの選択を含む。
【0606】
ある実施形態において、アライメント方法の選択は、アライメントアルゴリズムの選択、例えば、より高速な、例えば、BWAの代わりに、より緩徐であるが、より正確なアルゴリズム、例えば、Smith−Watermanアライメントの選択、またはCLUSTALW等の複数のアライメント方法を用いたアライメント最適化の選択を含む。
【0607】
ある実施形態において、該アライメント方法は、核酸試料の特性、例えば、試料年齢、試料組織源(例えば、膵臓)、発癌物質の存在/変異原暴露(例えば、喫煙、UV)、試料における核酸試料の品質(例えば、核酸断片化のレベル)の関数であるか、それらに応答して選択されるか、またはそれらのために最適化される。
【0608】
ある実施形態において、少なくともX個(Xは、1、2、3、4、5、10、15、20、30、40、もしくは50である)のアライメント方法(複数を含む)は、(i)の関数であるか、それに応答して選択されるか、またはそのために最適化される。
【0609】
ある実施形態において、少なくともX個(Xは、1、2、3、4、5、10、15、20、30、40、もしくは50である)のアライメント方法(複数を含む)は、(ii)の関数であるか、それに応答して選択されるか、またはそのために最適化される。
【0610】
ある実施形態において、少なくともX個(Xは、1、2、3、4、5、10、15、20、30、40、もしくは50である)のアライメント方法(複数を含む)は、(iii)の関数であるか、それに応答して選択されるか、またはそのために最適化される。
【0611】
ある実施形態において、第1のアライメント方法は、(i)の関数であるか、それに応答して選択されるか、またはそのために最適化され、第2のアライメント方法は、(ii)の関数であるか、それに応答して選択されるか、またはそのために最適化され、第3のアライメント方法は、(iii)の関数であるか、それに応答して選択されるか、またはそのために最適化される。
【0612】
ある実施形態において、少なくとも1つのアライメント方法は、(i)および(ii)、(iii)、(iv)、(v)、または(vii)のうちの1つ以上の関数であるか、それらに応答して選択されるか、またはそれらのために最適化される。
【0613】
ある実施形態において、少なくともX個(Xは、1、2、3、4、5、10、15、20、30、40、もしくは50である)のアライメント方法(複数を含む)は、(ii)および(ii)、(iii)、(iv)、(v)、または(vii)のうちの1つ以上の関数であるか、それらに応答して選択されるか、またはそれらのために最適化される。
【0614】
ある実施形態において、該アライメント方法は、遺伝子もしくは遺伝子型、例えば、事前選択された確率またはバリアント型、例えば、変異に関連した遺伝子もしくは遺伝子型の関数であるか、それらに応答して選択されるか、またはそれらのために最適化される。
【0615】
ある実施形態において、該アライメント方法は、以下を提供する:
置換を含有する可能性の高い遺伝子の最大差ミスマッチペナルティパラメータの調節、設定、もしくは使用、
事前選択された腫瘍型によく見られる特異的変異型に基づく特定のミスマッチペナルティパラメータ(例えば、黒色腫におけるC→T)の調節、設定、もしくは使用、または
ある特定の試料型によく見られる特異的変異型に基づく特定のミスマッチペナルティパラメータ(例えば、FFPEによく見られる置換)の調節、設定、もしくは使用。
【0616】
ある実施形態において、方法は、再編成に関連しないサブゲノム間隔のために最適化された第1のアライメント方法および再編成に関連したサブゲノム間隔のために最適化された第2のアライメント方法の使用を含む。
【0617】
ある実施形態において、方法は、以下のうちの1、2、3、4個、もしくはすべての適用を含む(実施形態において、以下のうちの2つ以上の群が含まれ、その群のそれぞれのアライメント方法が一意である):
(i)比較的低い頻度で出現する変異に対する高レベルの感度を可能にするために最深の対象範囲が要求される高レベルの標的(例えば、遺伝子、エクソン、または塩基)に応答して選択されるか、またはそのために最適化される第1のアライメント方法。例えば、試料中の細胞、ライブラリの核酸、またはライブラリ捕獲物の核酸において5%以下の頻度で出現するバリアント、例えば、点変異に応答して選択されるか、またはそのために最適化されるアライメント方法。典型的には、これらのバリアントは、高い検出信頼性を確保するために、500倍を超える配列決定深度を必要とする。例となる適用は、事前選択された癌において頻繁に変異されるエクソンである。
(ii)比較的高い頻度、例えば、上記の(i)の変異よりも高い頻度で出現する変異に対する高レベルの感度を可能にするために高い対象範囲(実施形態において、上記の(i)の対象範囲未満であるが)が要求される中間レベルの標的(例えば、遺伝子、エクソン、または塩基)に応答して選択されるか、またはそのために最適化される第2のアライメント方法。例えば、試料中の細胞、ライブラリの核酸、またはライブラリ捕獲物の核酸において5%を超え、最大10、15、もしくは20%の頻度で出現するバリアント、例えば、点変異に応答して選択されるか、またはそのために最適化されるアライメント方法。典型的には、これらのバリアントは、高い検出信頼性を確保するために、200倍を超える配列決定深度を必要とする。例となる適用は、癌に関連した遺伝子における適用である。
(iii)低〜中程度の対象範囲(実施形態において、上述の(i)もしくは(ii)の対象範囲未満)が、ヘテロ接合体対立遺伝子に対する高レベルの感度を可能にするために要求される低レベルの標的(例えば、遺伝子、エクソン、または塩基)に応答して選択されるか、またはそのために最適化される第3のアライメント方法。例えば、バリアント、例えば、(1)薬物に応答するか、またはそれを代謝する患者の能力に関連し得る薬理ゲノムSNP、(2)患者を一意に特定する(フィンガープリントする)ために使用され得るゲノムSNP、あるいは(3)ゲノムDNAおよびLOHのコピー数獲得/喪失を評価するために使用され得るゲノムSNP/遺伝子座に応答して選択されるか、またはそのために最適化されるアライメント方法。
(iv)中間レベルの標的(例えば、再編成、例えば、転座またはインデルにおける、例えば、構造ブレークポイント)に応答して選択されるか、またはそのために最適化される第4のアライメント方法。実施形態において、該対象範囲は、(i)、(ii)、または(iii)のうちの1つの対象範囲未満である。例えば、実施形態において、高い検出信頼性を確保するために5〜50倍の配列対スパン深度を必要とするバリアント、例えば、イントロンブレークポイントに応答して選択されるか、またはそのために最適化されるアライメント方法。例となる適用は、転座/インデルの傾向のある癌遺伝子である。
(v)わずかな対象範囲がコピー数の変化を検出する能力を改善し得るイントロン標的等の標的に応答して選択されるか、またはそのために最適化される第5のアライメント方法。実施形態において、該対象範囲は、(i)、(ii)、(iii)、または(iv)のうちの1つの対象範囲未満である。例えば、いくつかの末端エクソンの1コピー欠失の検出は、高い検出信頼性を確保するために、0.1〜10倍の対象範囲を必要とする。例となる適用は、増幅/欠失の傾向のある癌遺伝子に対する。
【0618】
ある実施形態において、該アライメント方法は、別のアライメント方法が読み取りをアライメントする目的、例えば、受け入れ難い目的で使用された後に適用される。
【0619】
ある実施形態において、方法は、事前選択されたサブゲノム間隔についての読み取りをアライメントする第2またはその後の目的で第2のアライメント方法を選択および適用することをさらに含む。例えば、ある実施形態において、第1の方法は、第1の比較的高速なアルゴリズムの使用を含み、第2のアライメント方法は、第2のより緩徐であるがより正確なアルゴリズムの使用を含む。
【0620】
ある実施形態において、該アライメント方法は、Smith−Watermanアライメントアルゴリズムもしくは同様のアルゴリズム、またはCLUSTALW等の複数のアライメントアルゴリズムを含む。
【0621】
ある実施形態において、(例えば、任意の方法によって)正確なアライメントに対して抵抗性を示すサブゲノム間隔において、デノボまたは参照誘導アセンブリは、ARACHNEまたはPhusion等の方法を用いることによって始まる。
【0622】
ある実施形態において、a〜c、またはb〜cは、上記の配列において行われる。
【0623】
ある実施形態において、方法は、
d)読み取りと該選択されたアライメント方法(例えば、事前選択されたアルゴリズムまたはパラメータ)との比較、例えば、アライメント比較を行うこと、および
e)任意で、該読み取りが所定のアライメント基準(例えば、所定の基準は、事前選択された数未満のミスマッチまたはギャップを有する参照とのアライメントである)を満たすかを決定することをさらに含む。
【0624】
ある実施形態において、(c)は、
f)サブゲノム間隔、例えば、バリアント、例えば、置換または再編成、例えば、インデルに関連したヌクレオチド位置を含むサブゲノム間隔のアライメントセレクタの値を取得すること、および
g)アライメントセレクタの該取得された値に応答して、読み取りを分析する、例えば、アライメントするためのアライメント方法を選択することによってアライメント方法を選択することを含むが、
但し、該アライメントセレクタが、以下のうちの1つ以上もしくはすべての関数であるか、それらに応答して選択されるか、またはそれらのために最適化されることを条件とする:
i)該試料における腫瘍型、例えば、腫瘍型、
ii)配列決定される該サブゲノム間隔が位置する遺伝子もしくは遺伝子型、例えば、事前選択された確率またはバリアント型、例えば、変異に関連した遺伝子もしくは遺伝子型、
iii)分析される部位(例えば、ヌクレオチド位置)、
iv)評価されるサブゲノム間隔に関連したバリアントの種類、例えば、置換、
v)試料の種類、例えば、FFPE試料、および
vi)評価される該サブゲノム間隔における配列またはその付近の配列、例えば、該サブゲノム間隔の予想される誤アライメント傾向、例えば、該サブゲノム間隔における反復配列またはその付近の反復配列の存在。
【0625】
ある実施形態において、方法は、一意の閾値以外の閾値、例えば、一意ではない閾値を取得し、かつそれをサブゲノム間隔、例えば、本明細書に記載の該サブゲノム間隔のうちの1つに適用することを含む。
再編成をアライメントするための方法
【0626】
本明細書に開示の方法は、再編成、例えば、インデルに関連したサブゲノム間隔の配列決定の性能、具体的には、例えば、腫瘍試料由来の多数の様々な遺伝子における多数の様々な遺伝的事象の大規模並列配列決定に依存する方法の性能を最適化するように複数の個別に調整されたアライメント方法またはアルゴリズムの使用を可能にする。実施形態において、異なる遺伝子におけるいくつかの再編成のそれぞれに個別にカスタマイズまたは調整される複数のアライメント方法を用いて、読み取りを分析する。実施形態において、調整は、配列決定される遺伝子(もしくは他のサブゲノム間隔)、試料における腫瘍型、配列決定されるバリアント、または試料もしくは対象の特性(のうちの1つ以上)の関数であり得る。配列決定されるいくつかのサブゲノム間隔に微調整されたこのアライメント条件の選択または使用は、速度、感度、および特異性の最適化を可能にする。方法は、比較的多数の様々なサブゲノム間隔についての読み取りのアライメントが最適化されるときに特に効果的である。実施形態において、方法は、再編成のために最適化されたアライメント方法および再編成に関連しないサブゲノム間隔のために最適化されたその他のアライメント方法の使用を含む。
【0627】
したがって、ある実施形態において、本明細書に記載の方法、例えば、腫瘍試料を分析する方法は、本明細書に記載の再編成のアライメント方法を含む。
【0628】
例として、サブゲノム間隔についての読み取りが、再編成、例えば、インデルを有するヌクレオチド位置を含む場合、方法は、
c)事前選択された再編成とアライメントするために事前選択される再編成参照配列を読み取りとのアライメントのために選択すること(実施形態において、参照配列は、ゲノム再編成と同一ではない)(ある実施形態において、再編成参照配列断片(すなわち「代替の参照」)は、読み取りにおいて見られることが予想される再編成と同一である。この代替の参照が予想される再編成とも多少異なる(例えば、周辺の生殖細胞系バリアントも含有し得る)ことも可能である)、
e)該事前選択された再編成参照配列を読み取りと比較する、例えば、アライメントすること、および
f)任意で、該読み取りが所定のアライメント基準を満たすかを決定することを含むアライメント方法を用いること(例えば、所定の基準は、事前選択されたレベル未満のミスマッチまたはギャップを有する該事前選択された再編成参照とのアライメントであり得る)を含み、
それによって、読み取りを分析するが、
但し、少なくともX個の一意の事前選択された再編成アライメント配列は、少なくともX個の一意のサブゲノム間隔についての読み取りを分析するために使用されることを条件とし、一意とは、他のX−1とは異なることを意味し、Xは、2、3、4、5、10、15、20、30、50、100、300、500、1000、2000、または3000に等しい。
【0629】
ある実施形態において、事前選択された再編成アライメント配列は、該事前選択された再編成、例えば、事前選択されたインデルの特定を可能にするために選択された配列を含む。
【0630】
ある実施形態において、事前選択された再編成アライメント配列は、該事前選択された再編成、例えば、事前選択されたインデルに対応する配列(例えば、配列またはその相補体のいずれか)を含む。
【0631】
ある実施形態において、事前選択された再編成アライメント配列は、該事前選択された配列の読み取りとアライメントするために選択された模擬配列(例えば、インデルの配列またはその相補体以外の配列)を含む。
【0632】
ある実施形態において、事前選択された再編成アライメント配列は、再編成の一方の側面または両方の側面に隣接する配列、例えば、模擬配列を含む。
【0633】
ある実施形態において、事前選択された再編成アライメント配列は、該再編成の接合部からの配列、例えば、模擬配列を含む。
【0634】
ある実施形態において、アライメントは、腫瘍型のために事前選択される事前選択された再編成アライメント配列で行われる。
【0635】
ある実施形態において、部分的な読み取りアライメントが行われる、例えば、すべてに満たない読み取りがアライメントされる、例えば、90、80、70、50、50、40、30、20、または10%未満の読み取りがアライメントされる。
【0636】
ある実施形態において、方法は、再編成に関連したサブゲノム間隔のために最適化される第1のアライメント方法および再編成に関連しないサブゲノム間隔のために最適化される第2のアライメント方法の使用を含む。
【0637】
ある実施形態において、方法は、
(g)該読み取りを分析する、例えば、アライメントするためにアライメント方法を選択または適用することをさらに含み、
それによって、該読み取りを分析するが、
但し、該アライメント方法が、以下のうちの1つ以上もしくはすべての関数であるか、それらに応答して選択されるか、またはそれらのために最適化されることを条件とする:
i)該試料における腫瘍型、例えば、腫瘍型、
ii)配列決定される該サブゲノム間隔が位置する遺伝子もしくは遺伝子型、例えば、バリアントまたはバリアント型、例えば、変異の事前選択された確率に関連した遺伝子もしくは遺伝子型、
iii)分析される部位(例えば、ヌクレオチド位置)、
iv)評価されるサブゲノム間隔に関連したバリアント型、例えば、置換、
v)試料型、例えば、FFPE試料、および
vi)評価される該サブゲノム間隔における配列またはその付近の配列、例えば、該サブゲノム間隔の予想される誤アライメント傾向、例えば、該サブゲノム間隔における反復配列またはその付近の反復配列の存在。
【0638】
本明細書の他の箇所で言及されるように、方法は、比較的多数のサブゲノム間隔についての読み取りのアライメントが最適化されるときに特に効果的である。したがって、ある実施形態において、少なくともX個の一意のアライメント方法を用いて、少なくともX個の一意のサブゲノム間隔についての読み取りを分析し、一意とは、他のX−1とは異なることを意味し、Xは、2、3、4、5、10、15、20、または30に等しい。
【0639】
ある実施形態において、表1もしくは表1Aの少なくともX個の遺伝子のサブゲノム間隔が分析され、Xは、2、3、4、5、10、15、20、または30に等しい。
【0640】
ある実施形態において、優先順位が1のアノテーションを有する表1もしくは表1Aの少なくともX個の遺伝子のサブゲノム間隔が分析され、Xは、2、3、4、5、10、15、20、または30に等しい。
【0641】
ある実施形態において、一意のアライメント方法が、少なくとも3、5、10、20、40、50、60、70、80、90、または100個の異なる遺伝子のそれぞれにおけるサブゲノム間隔に適用される。
【0642】
ある実施形態において、少なくとも20、40、60、80、100、120、140、160、または180個の遺伝子、例えば、表1もしくは表1Aの遺伝子におけるヌクレオチド位置に、ヌクレオチド値が割り当てられる。ある実施形態において、一意のアライメント方法が、少なくとも10、20、30、40、または50%の分析される該遺伝子のそれぞれにおけるサブゲノム間隔に適用される。
【0643】
ある実施形態において、優先順位が1のアノテーションを有する表1もしくは表1Aの少なくとも5、10、20、30、または40個の遺伝子におけるヌクレオチド位置に、ヌクレオチド値が割り当てられる。ある実施形態において、一意のアライメント方法が、少なくとも10、20、30、40、または50%の分析される該遺伝子のそれぞれにおけるサブゲノム間隔に適用される。
【0644】
ある実施形態において、例えば、表1、表2、または表3の少なくとも10、20、30、40、50、100、150、200、300、400、または500個のバリアントまたはコドンのヌクレオチド位置に、ヌクレオチド値が割り当てられる。ある実施形態において、一意のアライメント方法が、少なくとも10、20、30、40、または50%の分析される該遺伝子のそれぞれにおけるサブゲノム間隔に適用される。
【0645】
ある実施形態において、方法は、
一意のアライメント方法をX個のゲノム間隔のそれぞれに適用することを含み、該ゲノム間隔はそれぞれ、腫瘍表現型に関連したバリアントを有し、例えば、バリアントは、点変異であり、Xは、2、3、5、10、20、40、50、60、70、80、90、または100より大きく、例えば、該サブゲノム間隔はそれぞれ、異なる遺伝子に位置する。
【0646】
ある実施形態において、方法は、
一意のアライメント方法をX個のゲノム間隔のそれぞれに適用することを含み、該ゲノム間隔はそれぞれ、腫瘍表現型に関連したバリアントを有し、例えば、バリアントは、再編成、例えば、欠失、挿入、または転座であり、Xは、2、3、5、10、20、40、50、60、70、80、90、もしくは100より大きく、該サブゲノム間隔はそれぞれ、異なる遺伝子に位置する。
【0647】
ある実施形態において、
第1の一意のアライメント方法は、第1の事前選択されたヌクレオチド位置に適用され、そのバリアントは、腫瘍表現型に関連し(例えば、表10に提供されるバリアント、例えば、一般的な上皮癌、すなわち、肺癌、乳癌、結腸癌、前立腺癌におけるインデルバリアント)、
第2の一意のアライメント方法は、該第1の事前選択されたヌクレオチド位置以外の事前選択されたヌクレオチド、例えば、腫瘍表現型に関連したバリアントを有しない位置(例えば、表10において変数として存在しない配列)に適用される。
【0648】
ある実施形態において、方法は、
a)第1のゲノム間隔のバリアントが腫瘍表現型に関連し、例えば、バリアントが、点変異、例えば、表6の変異である第1のゲノム間隔に、第1の一意のアライメント方法を適用することと、
b)第2のゲノム間隔のバリアントが腫瘍表現型に関連し、例えば、バリアントが、再編成、例えば、欠失、挿入、または転座、例えば、表5の変異である第2のゲノム間隔に、第2の一意のアライメント方法を適用することと、
c)第3の一意のアライメント方法を取得し、これを第3のゲノム間隔、例えば、バリアントが腫瘍表現型または該試料におけるその型の腫瘍に関連しないゲノム間隔に適用することとを含む。
【0649】
ある実施形態において、遺伝子もしくは遺伝子型は、
例えば、変異チロシンキナーゼ領域における活性化に関連し得る癌遺伝子、
不活性化(例えば、ナンセンス)変異を伴い得る腫瘍抑制遺伝子、または
高活性もしくは低活性の生殖細胞系遺伝的バリエーションを伴い得る薬物ADME関連遺伝子である。
【0650】
ある実施形態において、アライメント方法の選択は、アライメントアルゴリズムに用いるパラメータ(もしくはその値)、例えば、マッチリワード、ミスマッチペナルティ、ギャップペナルティ(例えば、ギャップ開きペナルティ、ギャップ伸長ペナルティ)、予想閾値、語長、フィルタ、またはマスク、の選択を含む。パラメータ(またはその値)を、事前選択されたパラメータ、例えば、事前選択された限界または限度によって定義されるパラメータのパネルから選択してもよい。
【0651】
ある実施形態において、既知の癌置換および既知の生殖細胞系インデルを含有する遺伝子をアライメントする(またはアライメントを最適化する)とき、生殖細胞系バリアントが正しく捕捉され、かつ目的とする体細胞変異周囲のアライメントに悪影響を及ぼさないように、ギャップペナルティを減少させることができる。
【0652】
ある実施形態において、アライメント方法の選択は、置換を含有する可能性の高い遺伝子の最大差ミスマッチペナルティパラメータの選択を含む。
【0653】
ある実施形態において、アライメント方法の選択は、アライメントアルゴリズムの選択、例えば、より高速なアルゴリズム、例えば、BWAの代わりに、より緩徐であるが、より正確なアルゴリズム、例えば、Smith−Watermanアライメントの選択、またはCLUSTALW等の複数のアライメント方法を用いたアライメント最適化の選択を含む。
【0654】
ある実施形態において、該アライメント方法は、核酸試料の特性、例えば、試料年齢、試料組織源(例えば、膵臓)、発癌物質の存在/変異原暴露(例えば、喫煙、UV)、試料における核酸試料の品質(例えば、核酸断片化のレベル)の関数であるか、それらに応答して選択されるか、またはそれらのために最適化される。
【0655】
ある実施形態において、少なくともX個(Xは、1、2、3、4、5、10、15、20、30、40、もしくは50である)のアライメント方法(複数を含む)は、(i)の関数であるか、それに応答して選択されるか、またはそのために最適化される。
【0656】
ある実施形態において、少なくともX個(Xは、1、2、3、4、5、10、15、20、30、40、もしくは50である)のアライメント方法(複数を含む)は、(ii)の関数であるか、それに応答して選択されるか、またはそのために最適化される。
【0657】
ある実施形態において、少なくともX個(Xは、1、2、3、4、5、10、15、20、30、40、もしくは50である)のアライメント方法(複数を含む)は、(iii)の関数であるか、それに応答して選択されるか、またはそのために最適化される。
【0658】
ある実施形態において、第1のアライメント方法は、(i)の関数であるか、それに応答して選択されるか、またはそのために最適化され、第2のアライメント方法は、(ii)の関数であるか、それに応答して選択されるか、またはそのために最適化され、第3のアライメント方法は、(iii)の関数であるか、それに応答して選択されるか、またはそのために最適化される。
【0659】
ある実施形態において、少なくとも1つのアライメント方法は、(i)および(ii)、(iii)、(iv)、(v)、または(vii)のうちの1つ以上の関数であるか、それらに応答して選択されるか、またはそれらのために最適化される。
【0660】
ある実施形態において、少なくともX個(Xは、1、2、3、4、5、10、15、20、30、40、もしくは50である)のアライメント方法(複数を含む)は、(ii)および(ii)、(iii)、(iv)、(v)、または(vii)のうちの1つ以上の関数であるか、それに応答して選択されるか、またはそのために最適化される。
【0661】
ある実施形態において、該アライメント方法は、遺伝子もしくは遺伝子型、例えば、事前選択された確率またはバリアント型、例えば、変異に関連した遺伝子または遺伝子型の関数であるか、それらに応答して選択されるか、またはそれらのために最適化される。
【0662】
ある実施形態において、該アライメント方法は、以下を提供する:
置換を含有する可能性の高い遺伝子の最大差ミスマッチペナルティパラメータの調節、設定、もしくは使用、
インデルを含有する可能性の高い遺伝子のギャップペナルティパラメータの調節、設定、もしくは使用(例えば、NSCLCにおけるEGFR)、
事前選択された腫瘍型によく見られる特異的変異型に基づく特定のミスマッチペナルティパラメータの調節、設定、もしくは使用(例えば、黒色腫におけるC→T)、または
ある特定の試料型によく見られる特異的変異型に基づく特定のミスマッチペナルティパラメータの調節、設定、もしくは使用(例えば、FFPEによく見られる置換)。
【0663】
ある実施形態において、方法は、再編成に関連しないサブゲノム間隔のために最適化された第1のアライメント方法および最適化再編成に関連したサブゲノム間隔のために最適化された第2のアライメント方法の使用を含む。
【0664】
ある実施形態において、アライメントパラメータ、例えば、ギャップの開き/伸長ペナルティは、調節される、例えば、減少させられる。
【0665】
ある実施形態において、方法は、以下のうちの1、2、3、4個、もしくはすべての適用を含む(実施形態において、以下のうちの2つ以上の群が含まれ、その群のそれぞれのアライメント方法が一意である):
(i)比較的低い頻度で出現する変異に対する高レベルの感度を可能にするために最深の対象範囲が要求される高レベルの標的(例えば、遺伝子、エクソン、または塩基)に応答して選択されるか、またはそのために最適化される第1のアライメント方法。例えば、試料中の細胞、ライブラリの核酸、またはライブラリ捕獲物の核酸において5%以下の頻度で出現するバリアント、例えば、点変異に応答して選択されるか、またはそのために最適化されるアライメント方法。典型的には、これらのバリアントは、高い検出信頼性を確保するために、500倍を超える配列決定深度を必要とする。例となる適用は、事前選択された癌において頻繁に変異されるエクソンである。
(ii)比較的高い頻度、例えば、上記の(i)の変異よりも高い頻度で出現する変異に対する高レベルの感度を可能にするために高い対象範囲(実施形態において、上記の(i)の対象範囲未満であるが)が要求される中間レベルの標的(例えば、遺伝子、エクソン、または塩基)に応答して選択されるか、またはそのために最適化される第2のアライメント方法。例えば、試料中の細胞、ライブラリの核酸、またはライブラリ捕獲物の核酸において5%を超え、最大10、15、もしくは20%の頻度で出現するバリアント、例えば、点変異に応答して選択されるか、またはそのために最適化されるアライメント方法。典型的には、これらのバリアントは、高い検出信頼性を確保するために、200倍を超える配列決定深度を必要とする。例となる適用は、癌に関連した遺伝子における適用である。
(iii)低〜中程度の対象範囲(実施形態において、上述の(i)もしくは(ii)の対象範囲未満)が、ヘテロ接合体対立遺伝子に対する高レベルの感度を可能にするために要求される低レベルの標的(例えば、遺伝子、エクソン、または塩基)に応答して選択されるか、またはそのために最適化される第3のアライメント方法。例えば、バリアント、例えば、(1)薬物に応答するか、またはそれを代謝する患者の能力に関連し得る薬理ゲノムSNP、(2)患者を一意に特定する(フィンガープリントする)ために使用され得るゲノムSNP、あるいは(3)ゲノムDNAおよびLOHのコピー数獲得/喪失を評価するために使用され得るゲノムSNP/遺伝子座に応答して選択されるか、またはそのために最適化されるアライメント方法。
(iv)中間レベルの標的(例えば、再編成、例えば、転座またはインデルにおける、例えば、構造ブレークポイント)に応答して選択されるか、またはそのために最適化される第4のアライメント方法。実施形態において、実施形態において、該対象範囲は、(i)、(ii)、または(iii)のうちの1つの対象範囲未満である。例えば、実施形態において、高い検出信頼性を確保するために5〜50倍の配列対スパン深度を必要とするバリアント、例えば、イントロンブレークポイントに応答して選択されるか、またはそのために最適化されるアライメント方法。例となる適用は、転座/インデルの傾向のある癌遺伝子である。
(v)わずかな対象範囲がコピー数の変化を検出する能力を改善し得るイントロン標的等の標的に応答して選択されるか、またはそのために最適化される第5のアライメント方法。実施形態において、該対象範囲は、(i)、(ii)、(iii)、または(iv)のうちの1つの対象範囲未満である。例えば、いくつかの末端エクソンの1コピー欠失の検出は、高い検出信頼性を確保するために、0.1〜10倍の対象範囲を必要とする。例となる適用は、増幅/欠失の傾向のある癌遺伝子に対する。
【0666】
ある実施形態において、該アライメント方法は、別のアライメント方法が読み取りをアライメントする目的、例えば、受け入れ難い目的で使用された後に適用される。
【0667】
ある実施形態において、方法は、事前選択されたサブゲノム間隔についての読み取りをアライメントする第2またはその後の目的で第2のアライメント方法を選択および適用することをさらに含む。例えば、ある実施形態において、第1の方法は、第1の比較的高速なアルゴリズムの使用を含み、第2のアライメント方法は、第2のより緩徐であるがより正確なアルゴリズムの使用を含む。
【0668】
ある実施形態において、該アライメント方法は、Smith−Watermanもしくは同様のアルゴリズム、またはCLUSTALW等の複数のアライメントアルゴリズムを含む。
【0669】
ある実施形態において、(例えば、任意の方法によって)正確なアライメントに対して抵抗性を示すサブゲノム間隔において、デノボまたは参照誘導アセンブリは、ARACHNEまたはPhusion等の方法を用いることによって始まる。
【0670】
ある実施形態において、a〜c、またはb〜cは、上記の順序において行われる。
【0671】
ある実施形態において、方法は、
d)読み取りと該選択されたアライメント方法(例えば、事前選択されたアルゴリズムまたはパラメータ)との比較、例えば、アライメント比較を行うことと、
e)任意で、該読み取りが所定のアライメント基準(例えば、所定の基準は、事前選択された数未満のミスマッチまたはギャップを有する参照とのアライメントである)を満たすかを決定することとをさらに含む。
【0672】
ある実施形態において、方法は、腫瘍および/または対照核酸試料(例えば、FFPE由来の核酸試料)から得られるヌクレオチド配列読み取りの取得を含む。
【0673】
ある実施形態において、読み取りは、NGS配列決定方法によって提供される。
【0674】
ある実施形態において、方法は、核酸メンバーのライブラリを提供すること、および該ライブラリの複数のメンバーからの事前選択されたサブゲノム間隔を配列決定することを含む。実施形態において、方法は、配列決定のために、該ライブラリのサブセットを選択するステップ、例えば、溶液ベースの選択を含み得る。
【0675】
ある実施形態において、(c)は、
f)サブゲノム間隔、例えば、バリアント、例えば、置換または再編成、例えば、インデルに関連したヌクレオチド位置を含むサブゲノム間隔のアライメントセレクタの値を取得すること、および
g)アライメントセレクタの該取得された値に応答して、読み取りを分析する、例えば、アライメントするためのアライメント方法を選択することによってアライメント方法を選択することを含むが、
但し、該アライメントセレクタが、以下のうちの1つ以上もしくはすべての関数であるか、それらに応答して選択されるか、またはそれらのために最適化されることを条件とする:
i)該試料における腫瘍型、例えば、腫瘍型、
ii)配列決定される該サブゲノム間隔が位置する遺伝子もしくは遺伝子型、例えば、事前選択された確率またはバリアント型、例えば、変異に関連した遺伝子もしくは遺伝子型、
iii)分析される部位(例えば、ヌクレオチド位置)、
iv)評価されるサブゲノム間隔に関連したバリアント型、例えば、置換、
v)試料型、例えば、FFPE試料、および
vi)評価される該サブゲノム間隔における配列またはその付近の配列、例えば、該サブゲノム間隔の予想される誤アライメント傾向、例えば、該サブゲノム間隔における反復配列またはその付近の反復配列の存在。
【0676】
ある実施形態において、該取得された値は、核酸試料の特性、例えば、試料年齢、試料組織源(例えば、膵臓)、発癌物質の存在/変異原暴露(例えば、喫煙、UV)、試料における核酸試料の品質(例えば、核酸断片化のレベル)の関数である。
【0677】
ある実施形態において、例えば、第1の(または2個以上の)アライメント方法の失敗後、方法は、例えば、新規の複雑な再編成を回収するために、アライメントされていない読み取りの(例えば、ARACHNE方法を伴う)アセンブリを含む。
より困難な読み取りのアライメント
【0678】
本明細書に開示の方法は、厄介な読み取りの迅速かつ効率的なアライメントを可能にする。方法は、比較的多数の様々なサブゲノム間隔についての読み取りのアライメントが最適化されるときに特に効果的である。例として、腫瘍試料を分析する方法は、
任意で、核酸を配列決定して読み取りを取得すること、
任意で、読み取りを取得すること(例えば、腫瘍および/または対照核酸試料(例えば、FFPE由来の核酸試料)から得られるヌクレオチド配列読み取りを取得すること)、
第1の組のパラメータ下で(例えば、第1のマッピングアルゴリズム下で、または第1の参照配列との)読み取りの比較、例えば、アライメント比較を行って、該読み取りが第1の所定のアライメント基準を満たす(例えば、読み取りが、例えば、事前選択された数未満のミスマッチを有する該第1の参照配列とアライメントされ得る)かを決定すること、
該読み取りが第1の所定のアライメント基準を満たすことができない場合、第2の組のパラメータ下で(例えば、第2のマッピングアルゴリズム下で、または第2の参照配列との)第2のアライメント比較を行うこと、および
任意で、該読み取りが該第2の所定の基準を満たす(例えば、読み取りが事前選択された数未満のミスマッチを有する該第2の参照配列とアライメントされ得る)かを決定することを含んでもよく、
該第2の組のパラメータは、一組のパラメータ、例えば、該第1の組のパラメータと比較して、事前選択されたバリアント、例えば、再編成、例えば、挿入、欠失、または転座についての読み取りとのアライメントをもたらす可能性が高い該第2の参照配列の使用を含み、
それによって、読み取りを分析する。
【0679】
ある実施形態において、該第2の参照配列は、事前選択されたバリアント、例えば、染色体再編成、例えば、挿入、欠失、または転座に隣接する配列を含む。
【0680】
ある実施形態において、該第2の参照配列は、事前選択されたバリアント、例えば、染色体再編成、例えば、挿入、欠失、または転座からの読み取りとアライメントするように設計される配列を含む。
【0681】
ある実施形態において、該第2の参照配列は、該事前選択された再編成、例えば、事前選択されたインデルの同定を可能にするように選択された配列を含む。
【0682】
ある実施形態において、該第2の参照配列は、該事前選択された再編成、例えば、事前選択されたインデルに対応する配列(例えば、配列またはその相補体のいずれか)を含む。
【0683】
ある実施形態において、該第2の参照配列は、該事前選択された配列の読み取りとアライメントするように選択された模擬配列(例えば、インデルの配列またはその相補体以外の配列)を含む。
【0684】
ある実施形態において、該第2の参照配列は、再編成の一方の側面または両方の側面に隣接する配列、例えば、模擬配列を含む。
【0685】
ある実施形態において、該第2の参照配列は、該再編成の接合部からの配列、例えば、模擬配列を含む。
変異呼び出し
【0686】
塩基呼び出しは、配列決定デバイスの生出力を指す。変異呼び出しは、配列決定されるヌクレオチド位置のヌクレオチド値、例えば、A、G、T、またはCを選択するプロセスを指す。典型的には、位置についての配列決定読み取り(または塩基呼び出し)は、2個以上の値を提供し、例えば、いくつかの読み取りはTを提供し、いくつかの読み取りはGを提供する。変異呼び出しは、ヌクレオチド値、例えば、配列に対する値のうちの1つを割り当てるプロセスである。これは「変異」呼び出しと称されるが、これを適用して、ヌクレオチド値を任意のヌクレオチド位置、例えば、変異体対立遺伝子、野生型対立遺伝子、変異体もしくは野生型のいずれにも見なされていない対立遺伝子に対応する位置、または可変性を特徴としない位置に割り当ててもよい。変異呼び出し方法は、参照配列におけるそれぞれの位置での情報に基づいて独立した呼び出しを行うこと(例えば、配列読み取りを試験すること、塩基呼び出しおよび品質スコアを試験すること、可能性のある遺伝子型を考慮して観察される塩基および品質スコアの確率を計算すること、および遺伝子型を割り当てること(例えば、ベイズの規則を用いて))、誤検出を除去すること(例えば、深度閾値を用いて、予測よりもはるかに低いか、または高い読み取り深度を有するSNPを拒否する;局所再アライメントを用いて小さなインデルによる誤検出を除去する)、ならびに連鎖不均衡(LD)/インピュテーションに基づく分析を行って呼び出しを洗練することのうちの1つ以上を含み得る。
【0687】
特定の遺伝子型および位置に関連した遺伝子型の可能性を計算する等式は、例えば、Li H.and Durbin R.Bioinformatics,2010;26(5):589−95に記載されている。ある特定の癌型における特異的変異についての先行予想をその癌型由来の試料を評価するときに用いることができる。そのような可能性は、癌変異の公開データベース、例えば、癌における体細胞変異カタログ(COSMIC)、HGMD(ヒト遺伝子変異データベース)、SNPコンソーシアム、乳癌変異データベース(BIC)、および乳癌遺伝子データベース(BCGD)に由来し得る。
【0688】
LD/インピュテーションに基づく分析の例は、例えば、Browning B.L.and Yu Z.Am.J.Hum.Genet.2009,85(6):847−61に記載されている。低対象範囲SNP呼び出し方法の例は、例えば、Li Y.et al.,Annu.Rev.Genomics Hum.Genet.2009,10:387−406に記載されている。
変異呼び出し:置換
【0689】
アライメント後、呼び出し方法、例えば、ベイズ変異呼び出し方法を用いて置換の検出を行うことができ、それは、サブゲノム間隔のそれぞれにおける各塩基、例えば、評価される遺伝子のエクソンに適用され、そこで代替の対立遺伝子の存在が観察される。この方法は、変異の存在下で読み取りデータを観察する確率と塩基呼び出しエラーのみの存在下で読み取りデータを観察する確率を比較する。この比較が変異の存在を十分かつ強力に支援する場合、変異を呼び出すことができる。
【0690】
癌DNAの分析のために50%または100%の頻度からの限定的なずれに対処する方法が開発されている(例えば、SNVMix−Bioinformatics.2010 March15;26(6):730−736)。しかしながら、本明細書に開示の方法は、試料DNAの1%〜100%、および特に、50%よりも低いレベルでの変異体対立遺伝子の存在の可能性の検討を可能にする。この手法は、天然(多クローン)腫瘍DNAの低純度のFFPE試料における変異の検出にとって特に重要である。
【0691】
ベイズ変異−検出手法の利点は、変異の存在の確率と塩基呼び出しエラーのみの確率との比較をその部位における変異の存在の先行予想によって重み付けをすることができることである。代替の対立遺伝子のいくつかの読み取りが所与の癌型の頻繁に変異した部位で観察される場合、変異の存在は、変異の証拠量が通常閾値を満たさない場合でさえも確信的に呼び出され得る。ひいては、この柔軟性を用いて、より珍しい変異/より低い純度の試料の検出感度さえも増加させるか、または試験をよりロバストにして、読み取り対象範囲を減少させることができる。癌において変異するゲノムにおけるランダム塩基対の可能性は、約1e−6である。典型的な多遺伝子性癌ゲノムパネルにおける多くの部位での特異的変異の可能性は、桁違いに高くあり得る。これらの可能性は、癌変異の公開データベース(例えば、COSMIC)に由来し得る。例えば、分析される遺伝子のうちの1つであるKRASについて、以下の表6に提供される変異の先行予想を結腸癌試料の評価時に用いることができる。
そこで、そのような表を作成し、公開データベース内の十分な情報が利用可能な多遺伝子試験における任意の遺伝子の変異呼び出しアルゴリズムで用いることができる。
変異呼び出し:インデル
【0692】
インデル呼び出しは、挿入または欠失の点で参照配列とは異なる配列決定データにおいて塩基を見つけるプロセスであり、典型的には、関連した信頼スコアまたは統計学的証拠メトリックを含む。
【0693】
インデル呼び出し方法は、候補インデルを特定するステップ、局所再アライメントを介して遺伝子型の可能性を計算するステップ、ならびにLDベースの遺伝子型推測および呼び出しを行うステップを含み得る。典型的には、可能性のあるインデル候補を得るためにベイズ手法が使用され、その後、これらの候補は、ベイズフレームワーク内の参照配列とともに試験される。
【0694】
候補インデルを生成するアルゴリズムは、例えば、McKenna A.et al.,Genome Res.2010;20(9):1297−303、Ye K.et al.,Bioinformatics,2009;25(21):2865−71、Lunter G.and Goodson M.Genome Res.2010(印刷前に電子出版された)、Li H.et al.,Bioinformatics 2009,Bioinformatics 25(16):2078−9に記載されている。
【0695】
インデル呼び出しおよび個別レベルの遺伝子型の可能性を生成するための方法は、例えば、Dindelアルゴリズム(Albers C.A.et al.,Genome Res.2010 Oct 27(印刷前に電子出版された))を含む。例えば、ベイズEMアルゴリズムを用いて、読み取りを分析し、最初のインデル呼び出しを作製し、それぞれの候補インデルの遺伝子型の可能性を生成することができ、その後、例えば、QCALL(Le S.Q.and Durbin R.Genome Res.2010 Oct 27(印刷前に電子出版された))を用いた遺伝子型のインピュテーションが続く。インデルを観察する先行予想等のパラメータをインデルのサイズまたは位置に基づいて調節する(例えば、増加または減少させる)ことができる。
変異呼び出しモジュール
【0696】
本明細書に開示の方法は、配列決定方法、具体的には、例えば、腫瘍試料由来の多数の様々な遺伝子における多数の様々な遺伝的事象の大規模並列配列決定に依存する方法の性能を最適化するようにカスタマイズまたは調整された変異呼び出しパラメータの使用を提供する。本方法の実施形態において、いくつかの事前選択されたサブゲノム間隔のそれぞれの変異呼び出しは、個別にカスタマイズまたは微調整される。カスタマイゼーションもしくは調整は、本明細書に記載の要因、例えば、試料の癌型、配列決定されるサブゲノム間隔が位置する遺伝子、または配列決定されるバリアントのうちの1つ以上に基づき得る。
【0697】
この配列決定されるいくつかのサブゲノム間隔に微調整されたアライメント条件の選択または使用は、速度、感度、および特異性の最適化を可能にする。方法は、比較的多数の様々なサブゲノム間隔についての読み取りのアライメントが最適化されるときに特に効果的である。
【0698】
したがって、一態様において、本発明は、試料、例えば、腫瘍試料を分析する方法を特色とする。方法は、
(a)複数のメンバーを含むライブラリを試料から、例えば、複数の腫瘍メンバーを含むライブラリを腫瘍試料から取得することと、
(b)任意で、例えば、ライブラリをベイトセット(または複数のベイトセット)と接触させることとによって事前選択された配列のライブラリを濃縮して、選択されたメンバー(本明細書でライブラリ捕獲物と称される場合もある)を提供することと、
(c)サブゲノム間隔についての読み取りを、例えば、配列決定を含む方法によって、例えば、次世代配列決定方法を用いて、該ライブラリまたはライブラリ捕獲物からのメンバー、例えば、腫瘍メンバーから取得することと、
(d)該読み取りを、アライメント方法、例えば、本明細書に記載のアライメント方法を用いてアライメントすることと、
(e)事前選択されたヌクレオチド位置に対する該読み取りからのヌクレオチド値を割り当てる(例えば、本明細書に記載のベイズ方法または呼び出し方法を用いて、例えば、変異を呼び出す)こととを含み、
それによって、該腫瘍試料を分析し、
X個の一意のサブゲノム間隔のそれぞれにおいてヌクレオチド位置に対して割り当てられるヌクレオチド値は、一意の呼び出し方法によって割り当てられ、一意のサブゲノム間隔とは、他のX−1個のサブゲノム間隔とは異なることを意味し、一意の呼び出し方法とは、他のX−1個の呼び出し方法とは異なることを意味し、Xは、少なくとも2である。呼び出し方法は異なってもよく、それによって、例えば、異なるベイズ先行値に依存するという点で一意であってもよい。
【0699】
ある実施形態において、ステップ(b)が存在する。ある実施形態において、ステップ(b)が欠如する。
【0700】
ある実施形態において、該ヌクレオチド値の割り当ては、腫瘍型における該事前選択されたヌクレオチド位置で事前選択されたバリアント、例えば、変異を示す読み取りを観察する先行(例えば、文献)予想であるか、またはそれを表す値の関数である。
【0701】
ある実施形態において、方法は、少なくとも10、20、40、50、60、70、80、90、または100個の事前選択されたヌクレオチド位置に対するヌクレオチド値を割り当てる(例えば、変異を呼び出す)ことを含み、それぞれの割り当ては、腫瘍型における該事前選択されたヌクレオチド位置で事前選択されたバリアント、例えば、変異を示す読み取りを観察する先行(例えば、文献)予想であるか、またはそれを表す(他の割り当ての値ではなく)一意の値の関数である。
【0702】
ある実施形態において、該ヌクレオチド値の割り当ては、バリアントがある頻度で(例えば、1%、5%、10%等)試料中に存在する場合、および/またはバリアントが不在である(例えば、塩基呼び出しエラーのみによる読み取りにおいて観察される)場合、該事前選択されたヌクレオチド位置で該事前選択されたバリアントを示す読み取りを観察する確率を表す一組の値の関数である。
【0703】
したがって、腫瘍試料を分析する方法は、変異呼び出し方法を含み得る。本明細書に記載の変異呼び出し方法は、
(b)それぞれの該X個のサブゲノム間隔の事前選択されたヌクレオチド位置のために、以下を取得することと、
(i)腫瘍型Xにおける該事前選択されたヌクレオチド位置で事前選択されたバリアント、例えば、変異を示す読み取りを観察する先行(例えば、文献)予想であるか、またはそれを表す第1の値、
(ii)バリアントがある頻度で(例えば、1%、5%、10%等)試料中に存在する場合、および/またはバリアントが不在である(例えば、塩基呼び出しエラーのみによる読み取りにおいて観察される)場合、該事前選択されたヌクレオチド位置で該事前選択されたバリアントを示す読み取りを観察する確率を表す第2の一組の値、
(c)該値に応答して、例えば、本明細書に記載のベイズ方法によって、第1の値を用いて第2の組の値の比較を検討する(例えば、変異の存在の事後確率を算出する)ことによって、該事前選択されたヌクレオチド位置のそれぞれに対する該読み取りからのヌクレオチド値を割り当てる(例えば、変異を呼び出す)こととを含んでもよく、それによって、該試料を分析する。
【0704】
ある実施形態において、方法は、以下のうちの1つ以上もしくはすべてを含む:
(i)少なくとも10、20、40、50、60、70、80、90、もしくは100個の事前選択されたヌクレオチド位置に対するヌクレオチド値を割り当てる(例えば、変異を呼び出す)こと(それぞれの割り当ては、(他の割り当てではなく)一意の第1および/もしくは第2の値に基づく)、
(ii)(i)の方法の割り当て(その割り当ての少なくとも10、20、30、もしくは40個は、例えば、事前選択された腫瘍型における細胞の5、10、または20%未満で存在する事前選択されたバリアントの確率の関数である第1の値で作成される)、
(iii)少なくともX個の事前選択されたヌクレオチド位置に対するヌクレオチド値を割り当てる(例えば、変異を呼び出す)こと(X個の事前選択されたヌクレオチド位置のそれぞれは、事前選択された腫瘍型、例えば、該試料の腫瘍型に存在する(他のX−1個の割り当てとは対照的に)一意の確率を有する事前選択されたバリアントに関連し、任意で、該X個の割り当てのそれぞれは、(他のX−1個の割り当てではなく)一意の第1および/もしくは第2の値に基づく(X=23、5、10、20、40、50、60、70、80、90、もしくは100))、
(iv)ヌクレオチド値を第1および第2のヌクレオチド位置で割り当てる(例えば、変異を呼び出す)こと(事前選択された腫瘍型(例えば、該試料の腫瘍型)に存在する該第1のヌクレオチド位置での第1の事前選択されたバリアントの可能性は、存在する該第2のヌクレオチド位置での第2の事前選択されたバリアントの可能性よりも少なくとも2、5、10、20、30、もしくは40倍大きく、任意で、それぞれの割り当ては、(他の割り当てではなく)一意の第1および/もしくは第2の値に基づく)、
(v)ヌクレオチド値を複数の事前選択されたヌクレオチド位置に割り当てる(例えば、変異を呼び出す)こと(該複数は、以下の確率範囲のうちの1つ以上の、例えば、少なくとも3、4、5、6、7個、もしくはすべてに分類されるバリアントの割り当てを含む:
0.01未満、0.01〜0.2、
0.02より大きく、0.03以下、
0.03より大きく、0.04以下、
0.04より大きく、0.05以下、
0.05より大きく、0.1以下、
0.1より大きく、0.2以下、
0.2より大きく、0.5以下、
0.5より大きく、1.0以下、
1.0より大きく、2.0以下、
2.0より大きく、5.0以下、
5.0より大きく、10.0以下、
10.0より大きく、20.0以下、
20.0より大きく、50.0以下、および
50より大きく、100.0%以下、
ここで確率範囲は、事前選択されたヌクレオチド位置での事前選択されたバリアントが事前選択された腫瘍型(例えば、該試料の腫瘍型)に存在する確率、または事前選択されたヌクレオチド位置での事前選択されたバリアントが事前選択された型の腫瘍試料(例えば、該試料の腫瘍型)、腫瘍試料由来のライブラリ、もしくはそのライブラリからのライブラリ捕獲物中の細胞の列挙された%に存在する確率の範囲であり、
任意で、それぞれの割り当ては、一意の第1および/もしくは第2の値に基づく(例えば、列挙された確率範囲の他の割り当てではなく、一意であるか、または他の列記された確率範囲のうちの1つ以上もしくはすべての第1および/もしくは第2の値ではなく、一意である))、
(vi)少なくとも1、2、3、5、10、20、40、50、60、70、80、90、もしくは100個の事前選択されたヌクレオチド位置に対するヌクレオチド値を割り当てる(例えば、変異を呼び出す)こと(事前選択されたヌクレオチド位置はそれぞれ、独立して、該試料中のDNAの50、40、25、20、15、10、5、4、3、2、1、0.5、0.4、0.3、0.2、もしくは0.1%未満に存在する事前選択されたバリアントを有し、任意で、それぞれの割り当ては、(他の割り当てではなく)一意の第1および/もしくは第2の値に基づく)、
(vii)ヌクレオチド値を第1および第2のヌクレオチド位置で割り当てる(例えば、変異を呼び出す)こと(該試料のDNAにおける第1の位置での事前選択されたバリアントの可能性は、該試料のDNAにおける該第2のヌクレオチド位置での事前選択されたバリアントの可能性よりも少なくとも2、5、10、20、30、もしくは40倍大きく、任意で、それぞれの割り当ては、(他の割り当てではなく)一意の第1および/もしくは第2の値に基づく)、
(viii)ヌクレオチド値を以下のうちの1つ以上もしくはすべてにおいて割り当てる(例えば、変異を呼び出す)こと、
(1)該試料由来のライブラリにおける核酸、またはそのライブラリ由来のライブラリ捕獲物における核酸の該試料の細胞の1.0%未満に存在する事前選択されたバリアントを有する少なくとも1、2、3、4、もしくは5個の事前選択されたヌクレオチド位置、
(2)該試料由来のライブラリにおける核酸、またはそのライブラリ由来のライブラリ捕獲物における核酸の該試料の細胞の1.0〜2.0%に存在する事前選択されたバリアントを有する少なくとも1、2、3、4、もしくは5個の事前選択されたヌクレオチド位置、
(3)該試料由来のライブラリにおける核酸、またはそのライブラリ由来のライブラリ捕獲物における核酸の該試料の細胞の2.0%より大きく3%以下に存在する事前選択されたバリアントを有する少なくとも1、2、3、4、もしくは5個の事前選択されたヌクレオチド位置、
(4)該試料由来のライブラリにおける核酸、またはそのライブラリ由来のライブラリ捕獲物における核酸の該試料の細胞の3.0%より大きく4%以下に存在する事前選択されたバリアントを有する少なくとも1、2、3、4、もしくは5個の事前選択されたヌクレオチド位置、
(5)該試料由来のライブラリにおける核酸、またはそのライブラリ由来のライブラリ捕獲物における核酸の該試料の細胞の4.0%より大きく5%以下に存在する事前選択されたバリアントを有する少なくとも1、2、3、4、もしくは5個の事前選択されたヌクレオチド位置、
(6)該試料由来のライブラリにおける核酸、またはそのライブラリ由来のライブラリ捕獲物における核酸の該試料の細胞の5.0%より大きく10%以下に存在する事前選択されたバリアントを有する少なくとも1、2、3、4、もしくは5個の事前選択されたヌクレオチド位置、
(7)該試料由来のライブラリにおける核酸、またはそのライブラリ由来のライブラリ捕獲物における核酸の該試料の細胞の10.0%より大きく20%以下に存在する事前選択されたバリアントを有する少なくとも1、2、3、4、もしくは5個の事前選択されたヌクレオチド位置、
(8)該試料由来のライブラリにおける核酸、またはそのライブラリ由来のライブラリ捕獲物における核酸の該試料の細胞の20.0%より大きく40%以下に存在する事前選択されたバリアントを有する少なくとも1、2、3、4、もしくは5個の事前選択されたヌクレオチド位置、
(9)該試料由来のライブラリにおける核酸、またはそのライブラリ由来のライブラリ捕獲物における核酸の該試料の細胞の40.0%より大きく50%以下に存在する事前選択されたバリアントを有する少なくとも1、2、3、4、もしくは5個の事前選択されたヌクレオチド位置、または
(10)該試料由来のライブラリにおける核酸、またはそのライブラリ由来のライブラリ捕獲物における核酸の該試料の細胞の50.0%より大きく100%以下に存在する事前選択されたバリアントを有する少なくとも1、2、3、4、もしくは5個の事前選択されたヌクレオチド位置、
ここで、任意で、それぞれの割り当ては、一意の第1および/もしくは第2の値に基づく(例えば、列挙された範囲(例えば、(i)の1%未満の範囲)の他の割り当てではなく、一意であるか、または他の列記された範囲のうちの1つ以上もしくはすべてにおける決定のために第1および/もしくは第2の値ではなく、一意である))、あるいは
(ix)ヌクレオチド値をX個のヌクレオチド位置のそれぞれで割り当てる(例えば、変異を呼び出す)こと(それぞれのヌクレオチド位置は、独立して、他のX−1個のヌクレオチド位置での事前選択されたバリアントの可能性と比較して一意である(該試料のDNAに存在する事前選択されたバリアントの)可能性を有し、Xは、1、23、5、10、20、40、50、60、70、80、90、もしくは100以上であり、それぞれの割り当ては、(他の割り当てではなく)一意の第1および/もしくは第2の値に基づく)。
【0705】
ある実施形態において、方法は、ヌクレオチド値を少なくとも2、3、5、10、20、40、50、60、70、80、90、または100個の事前選択されたヌクレオチド位置で割り当てることを含み、事前選択されたヌクレオチド位置はそれぞれ独立して、0.5、0.4、0.25、0.15、0.10、0.05、0.04、0.03、0.02、または0.01未満の確率の関数である第1の値を有する。
【0706】
ある実施形態において、方法は、ヌクレオチド値を少なくともX個のヌクレオチド位置のそれぞれで割り当てることを含み、X個のヌクレオチド位置はそれぞれ独立して、他のX−1個の第1の値と比較して一意の第1の値を有し、該X個の第1の値はそれぞれ、0.5、0.4、0.25、0.15、0.10、0.05、0.04、0.03、0.02、または0.01未満の確率の関数であり、Xは、1、2、3、5、10、20、40、50、60、70、80、90、または100以上である。
【0707】
ある実施形態において、該第1および/または第2の値は、該事前選択されたヌクレオチド位置での事前選択されたバリアントの存在の先行予想によって、例えば、腫瘍型の関数として重み付けされる。
【0708】
ある実施形態において、事前選択されたヌクレオチド位置に対するヌクレオチド値を割り当てる(例えば、変異を呼び出す)のに必要とされる読み取りの数は、該第1の値の大きさと逆相関する。
【0709】
ある実施形態において、事前選択されたヌクレオチド位置に対するヌクレオチド値を割り当てる(例えば、変異を呼び出す)のに必要とされる読み取りの数は、事前選択されたバリアントの予想される確率の大きさと正に相関する。
【0710】
本明細書の他の箇所で言及されるように、方法は、比較的多数のサブゲノム間隔の変異呼び出しが最適化されるときに特に効果的である。したがって、ある実施形態において、少なくともX個の一意の第1および/または第2の値は、少なくともX個の一意のサブゲノム間隔についての読み取りを分析するために使用され、一意とは、他のX−1とは異なることを意味し、Xは、2、3、4、5、10、15、20、または30に相当する。
【0711】
ある実施形態において、表1の少なくともX個の遺伝子からのサブゲノム間隔が分析され、Xは、3、4、5、10、15、20、または30に等しい。
【0712】
ある実施形態において、優先順位が1のアノテーションを有する表1の少なくともX個の遺伝子からのサブゲノム間隔が分析され、Xは、3、4、5、10、15、20、または30に等しい。
【0713】
ある実施形態において、一意の第1および/または第2の値が、少なくとも3、5、10、20、40、50、60、70、80、90、または100個の異なる遺伝子のそれぞれのサブゲノム間隔に適用される。
【0714】
ある実施形態において、少なくとも20、40、60、80、100、120、140、160または180個の遺伝子、例えば、表1もしくは表1Aの遺伝子におけるヌクレオチド位置に、ヌクレオチド値が割り当てられる。ある実施形態において、一意の第1および/または第2の値が、少なくとも10、20、30、40、または50%の分析される該遺伝子のそれぞれのサブゲノム間隔に適用される。
【0715】
ある実施形態において、優先順位が1のアノテーションを有する表1もしくは表1Aの少なくとも5、10、20、30、または40個の遺伝子におけるヌクレオチド位置に、ヌクレオチド値が割り当てられる。ある実施形態において、一意の第1および/または第2の値が、少なくとも10、20、30、40、または50%の分析される該遺伝子のそれぞれのサブゲノム間隔に適用される。
【0716】
ある実施形態において、表1、表1A、表2、もしくは表3の少なくとも10、20、30、40、50、100、150、200、300、400、もしくは500個のバリアントまたはコドン、例えば、変異のヌクレオチド位置に、ヌクレオチド値が割り当てられる。ある実施形態において、一意の第1および/もしくは第2の値が、少なくとも10、20、30、40、もしくは50%の分析される該遺伝子のそれぞれのサブゲノム間隔に適用される。
【0717】
ある実施形態において、方法は、
一意の第1および/または第2の値をX個のゲノム間隔のそれぞれに適用することを含み、該ゲノム間隔はそれぞれ、腫瘍表現型に関連したバリアントを有し、例えば、バリアントは、点変異であり、Xは、2、3、5、10、20、40、50、60、70、80、90、または100より大きく、例えば、該サブゲノム間隔はそれぞれ、異なる遺伝子に位置する。
【0718】
ある実施形態において、方法は、
一意の第1および/または第2の値をX個のゲノム間隔のそれぞれに適用することを含み、該ゲノム間隔はそれぞれ、腫瘍表現型に関連したバリアントを有し、例えば、バリアントは、再編成、例えば、欠失、挿入、または転座であり、Xは、2、3、5、10、20、40、50、60、70、80、90、または100より大きく、該サブゲノム間隔はそれぞれ、異なる遺伝子に位置する。
【0719】
ある実施形態において、方法は、以下のうちの1、2、3、4個、もしくはすべてを含む(実施形態において、以下のうちの2つ以上の群が含まれ、その群のそれぞれの第1および/もしくは第2の値は一意である):
(i)第1および/もしくは第2の値に応答して、例えば、比較的低頻度で出現する変異に対する高レベルの感度を可能にするために最深の対象範囲が要求される第1の事前選択されたヌクレオチド位置に対する読み取りからのヌクレオチド値を割り当てる(例えば、変異を呼び出す)こと(例として、試料中の細胞、ライブラリの核酸、またはライブラリ捕獲物の核酸において5%以下の頻度で出現するバリアント、例えば、点変異が挙げられる。典型的には、これらのバリアントは、高い検出信頼性を確保するために、500倍を超える配列決定深度を必要とする。例となる適用は、事前選択された癌において頻繁に変異するエクソンである)、
(ii)第1および/もしくは第2の値に応答して、例えば、高対象範囲(実施形態において、上記の(i)の対象範囲未満であるが)が、比較的高い頻度で、例えば、上記の(i)における変異よりも高い頻度で出現する変異に対する高レベルの感度を可能にするために要求される第2の事前選択されたヌクレオチド位置に対する読み取りからのヌクレオチド値を割り当てる(例えば、変異を呼び出す)こと(例として、試料中の細胞、ライブラリの核酸、またはライブラリ捕獲物の核酸において5%より大きく、最大10、15、もしくは20%の頻度で出現するバリアント、例えば、点変異が挙げられる。典型的には、これらのバリアントは、高い検出信頼性を確保するために、200倍を超える配列決定深度を必要とする。例となる適用は、癌に関連した遺伝子においてである)、
(iii)第1および/もしくは第2の値に応答して、例えば、低〜中間の対象範囲(実施形態において、上述の(i)もしくは(ii)の対象範囲未満である)が、ヘテロ接合体対立遺伝子に対する高レベルの感度を可能にするために要求される第3の事前選択されたヌクレオチド位置に対する読み取りからのヌクレオチド値を割り当てる(例えば、変異を呼び出す)こと(例として、バリアント、例えば、(1)薬物に応答するか、またはそれを代謝する患者の能力に関連し得る薬理ゲノムSNP、(2)患者を一意に特定する(フィンガープリントする)ために使用され得るゲノムSNP、あるいは(3)ゲノムDNAおよびLOHのコピー数獲得/喪失を評価するために使用され得るゲノムSNP/遺伝子座が挙げられる)、
(iv)第1および/もしくは第2の値に応答して、第4の事前選択されたヌクレオチド位置、例えば、再編成、例えば、転座またはインデルにおける、例えば、構造ブレークポイントに対する読み取りからのヌクレオチド値を割り当てる(例えば、変異を呼び出す)こと(実施形態において、対象範囲は、(i)、(ii)、もしくは(iii)のうちの1つの対象範囲未満である。例として、実施形態において、高い検出信頼性を確保するために、5〜50倍の配列対スパン深度を必要とするイントロンブレークポイントが挙げられる。例となる適用は、転座/インデルの傾向のある癌遺伝子である)、
(v)第1および/もしくは第2の値に応答して、例えば、わずかな対象範囲がコピー数の変化を検出する能力を改善し得る第5の事前選択されたヌクレオチド位置に対する読み取りからのヌクレオチド値を割り当てる(例えば、変異を呼び出す)こと(実施形態において、対象範囲は、(i)、(ii)(iii)、もしくは(iv)のうちの1つの対象範囲未満である。例として、例えば、高い検出信頼性を確保するために0.1〜10倍の対象範囲を必要とするいくつかの末端エクソンの1コピー欠失がある。例となる適用は、増幅/欠失の傾向のある癌遺伝子に対する)。
【0720】
本明細書に開示の方法は、配列決定方法、具体的には、多数の様々な遺伝子における多数の様々な遺伝的事象の大規模並列配列決定に依存する方法の性能を最適化するようにカスタマイズまたは調整された変異呼び出しパラメータの使用を提供する。本方法の実施形態において、「閾値」を用いて、読み取りを評価し、読み取りからヌクレオチド位置の値を選択する、例えば、遺伝子の特定の位置で変異を呼び出す。本方法の実施形態において、いくつかの事前選択されたサブゲノム間隔のそれぞれの閾値は、カスタマイズまたは微調整される。カスタマイゼーションまたは調整は、本明細書に記載の要因、例えば、試料の癌型、配列決定されるサブゲノム間隔が位置する遺伝子、または配列決定されるバリアントのうちの1つ以上に基づき得る。これは、配列決定されるいくつかのサブゲノム間隔のそれぞれに微調整される呼び出しを提供する。方法は、比較的多数の様々なサブゲノム間隔が分析されるときに特に効果的である。
【0721】
したがって、別の態様では、対象由来の試料、例えば、腫瘍試料を分析する方法を特徴とする。方法は、
(a)X個のサブゲノム間隔のそれぞれについての1つまたは複数の読み取りを該試料由来の核酸から取得することと、
(b)該X個のサブゲノム間隔のそれぞれのために、閾値を取得し(該取得されたX個の閾値のそれぞれは、他のX−1個の閾値と比較して一意である)、それによって、X個の一意の閾値を提供することと、
(c)該X個のサブゲノム間隔のそれぞれのために、事前選択されたヌクレオチド位置で事前選択されたヌクレオチド値を有する読み取りの数の関数である観察された値をその一意の閾値と比較し、それによって、その一意の閾値を該X個のサブゲノム間隔のそれぞれに適用することと、
(d)任意で、該比較の結果に応答して、ヌクレオチド値を事前選択されたヌクレオチド位置に割り当てることとを含み、
Xは、2以上であり、
それによって、該試料を分析する。
【0722】
本方法の実施形態は、例えば、以下の実施形態に見られるように、比較的多数のサブゲノム間隔の閾値が最適化される場合に適用され得る。
【0723】
ある実施形態において、Xは、少なくとも3、5、10、20、40、50、60、70、80、90、もしくは100である。
【0724】
ある実施形態において、一意の閾値が、少なくとも3、5、10、20、40、50、60、70、80、90、もしくは100個の異なる遺伝子のそれぞれのサブゲノム間隔に適用される。
【0725】
ある実施形態において、少なくとも20、40、60、80、100、120、140、160、もしくは180個の遺伝子、例えば、表1もしくは表1Aの遺伝子におけるヌクレオチド位置に、ヌクレオチド値が割り当てられる。ある実施形態において、一意の閾値が、少なくとも10、20、30、40、もしくは50%の分析される該遺伝子のそれぞれのサブゲノム間隔に適用される。
【0726】
ある実施形態において、優先順位が1のアノテーションを有する表1もしくは表1Aの少なくとも5、10、20、30、もしくは40個の遺伝子におけるヌクレオチド位置に、ヌクレオチド値が割り当てられる。ある実施形態において、一意の閾値が、少なくとも10、20、30、40、もしくは50%の分析される該遺伝子のそれぞれのサブゲノム間隔に適用される。
【0727】
ある実施形態において、表1、表1A、表2、もしくは表3の少なくとも10、20、30、40、50、100、150、200、300、400、もしくは500個のバリアントまたはコドン、例えば、変異のヌクレオチド位置に、ヌクレオチド値が割り当てられる。ある実施形態において、一意の閾値が、少なくとも10、20、30、40、もしくは50%の分析される該遺伝子のそれぞれのサブゲノム間隔に適用される。
【0728】
ある実施形態において、表9の下半分または下3分の1の少なくとも10、20、30、40、50、100、もしくは200個のバリアント、例えば、変異のヌクレオチド位置に、ヌクレオチド値が割り当てられる。ある実施形態において、一意の閾値が、少なくとも10、20、30、40、もしくは50%の分析される該遺伝子のそれぞれのサブゲノム間隔に適用される。
【0729】
ある実施形態において、方法は、
一意の閾値を取得し、それをX個のゲノム間隔のそれぞれに適用することを含み、該ゲノム間隔はそれぞれ、腫瘍表現型に関連したバリアントを有し、例えば、バリアントは、点変異であり、Xは、2、3、5、10、20、40、50、60、70、80、90、もしくは100より大きく、例えば、該サブゲノム間隔はそれぞれ、異なる遺伝子に位置する。
【0730】
ある実施形態において、方法は、
一意の閾値を取得し、それをX個のゲノム間隔のそれぞれに適用することを含み、該ゲノム間隔はそれぞれ、腫瘍表現型に関連したバリアントを有し、例えば、バリアントは、再編成、例えば、欠失、挿入、または転座であり、Xは、2、3、5、10、20、40、50、60、70、80、90、もしくは100より大きく、該サブゲノム間隔はそれぞれ、異なる遺伝子に位置する。
【0731】
本方法の実施形態は、例えば、以下の実施形態で見られるように、適用において使用される他の閾値と比較した閾値の調整を可能にし得る。
【0732】
ある実施形態において、
一意の閾値が、ヌクレオチド値を表4の少なくとも10、20、30、40、50、75、100、150、もしくは200個のバリアント、例えば、変異に対応する事前選択されたヌクレオチド位置に割り当てるために、サブゲノム間隔に適用される。
適用される該一意の閾値のうちのX個は、試験で使用される別の閾値よりも高い、例えば、50%高い閾値、例えば、使用される最低の閾値、使用される平均もしくは中央閾値、または表9に列記される閾値等の一般的な臨床的に関連する変異の閾値を有し、Xは、1、2、3、4、5、10、15、20、もしくは30以上である。
【0733】
ある実施形態において、表9の上半分または上3分の1の少なくとも10、20、30、40、50、100、もしくは200個のバリアント、例えば、変異のヌクレオチド位置にヌクレオチド値が割り当てられ、任意で、その割り当ては、第三者に送信される。実施形態において、
一意の閾値は、ヌクレオチド値を少なくとも10、20、30、40、50、75、100、150、もしくは200個のバリアントに対応する事前選択されたヌクレオチド位置に割り当てるために、サブゲノム間隔に適用され、
適用される該一意の閾値のX個は、試験で使用される別の閾値よりも低い、例えば、50%低い閾値、例えば、使用される最高閾値、使用される平均もしくは中央閾値、または以前は癌において変異するように見られなかったゲノム位置の閾値を有し、Xは、1、2、3、4、5、10、15、20、もしくは30以上である。
【0734】
ある実施形態において、
一意の閾値が、表11の大腸癌の遺伝子に列記される遺伝子のうちの少なくとも2、3、5、7、もしくは8個のそれぞれのサブゲノム間隔に適用され、
適用される一意の閾値のうちの3つずつのX個の組み合わせ(すなわち、対での組み合わせ)について、対での組み合わせのメンバーは、表11のそれらの遺伝子が相互に対して有する相対順位と同一の相対順位を相互に対して有し、Xは、1、2、3、4、5、10、もしくは20以上である。例として、ある実施形態では、大腸癌の分析において、一意の閾値が、APC、SMAD4、およびCDNK2aのサブゲノム間隔に(低い閾値から高い閾値の順に)適用される。したがって、3つの対での組み合わせ、APC/SMAD4、APC/CDNK2a、およびSMAD4/CDNK2aのそれぞれにおいて、対での組み合わせのそれぞれの両方のメンバーは、表11のそれらの遺伝子が相互に対して有する相対順位と同一の相対順位を相互に対して有する(例えば、実施形態および表11の両方において、APCはSMAD4よりも低い)。
【0735】
ある実施形態において、
一意の閾値が、表11の大腸癌の遺伝子に列記される遺伝子のうちの少なくとも3、5、7、もしくは8個のそれぞれのサブゲノム間隔に適用され、
適用される一意の閾値のうちの3つずつのX個の組み合わせ(すなわち、3元の組み合わせ)について、3元の組み合わせのメンバーは、表11のそれらの遺伝子が相互に対して有する相対順位と同一の相対順位を相互に対して有し、Xは、1、2、3、4、5、10、もしくは20以上である。例として、ある実施形態では、大腸癌の分析において、一意の閾値が、APC、SMAD4、CDNK2a、およびVHLのサブゲノム間隔に適用される(低い閾値から高い閾値の順)。したがって、例えば、3元の組み合わせ、APC/SMAD4/CDNK2aにおいて、3元の組み合わせの3つのメンバーはすべて、表11のそれらの遺伝子が相互に対して有する相対順位と同一の相対順位を相互に対して有する。同様に、3元の組み合わせ、APC/CDNK2a/VHLにおいて、3元の組み合わせの3つのメンバーはすべて、表11のそれらの遺伝子が相互に対して有する相対順位と同一の相対順位を相互に対して有する。
【0736】
ある実施形態において、
一意の閾値が、表11の大腸癌の遺伝子に列記された遺伝子のうちの少なくとも4、5、7、もしくは8個のそれぞれのサブゲノム間隔に適用され、
適用される一意の閾値の4つずつのX個の組み合わせ(すなわち、4元の組み合わせ)について、4元の組み合わせのメンバーは、表11のそれらの遺伝子が相互に対して有する相対順位と同一の相対順位を相互に対して有し、Xは、1、2、3、4、10、もしくは20以上である。例として、ある実施形態では、大腸癌の分析において、一意の閾値が、APC、SMAD4、CDNK2a、VHL、MSH6、およびMSH2におけるサブゲノム間隔に適用される(低い閾値から高い閾値の順)。したがって、例えば、APC/SMAD4/CDNK2a/MSH2の4元の組み合わせにおいて、4元の組み合わせの4つのメンバーはすべて、表11のそれらの遺伝子が相互に対して有する相対順位と同一の相対順位を相互に対して有する。
【0737】
ある実施形態において、
一意の閾値が、表11の肺癌の遺伝子に列記された遺伝子のうちの少なくとも2、3、5、もしくは7個のそれぞれのサブゲノム間隔に適用され、
適用される一意の閾値の2つずつのX個の組み合わせ(すなわち、対での組み合わせ)について、対での組み合わせのメンバーは、表11のそれらの遺伝子が相互に対して有する相対順位と同一の相対順位を相互に対して有し、Xは、1、2、3、4、5、10、もしくは20以上である。例として、ある実施形態では、肺癌の分析において、一意の閾値が、CDNK2a、STK11、RB1、APC、およびSMAD4におけるサブゲノム間隔に適用される(低い閾値から高い閾値の順)。したがって、3つの対での組み合わせ、CDNK2a/STK11、STK11/APC、およびRB1/SMAD4のそれぞれにおいて、対での組み合わせのそれぞれの両方のメンバーは、表11のそれらの遺伝子が相互に対して有する相対順位と同一の相対順位を相互に対して有する(例えば、実施形態および表11の両方において、STK11はSMAD4よりも低い)。
【0738】
ある実施形態において、
一意の閾値は、表11の肺癌の遺伝子に列記された遺伝子のうちの少なくとも3、5、もしくは7個のそれぞれのサブゲノム間隔に適用され、
適用される一意の閾値の3つずつのX個の組み合わせ(すなわち、3元の組み合わせ)について、3元の組み合わせのメンバーは、表11のそれらの遺伝子が相互に対して有する相対順位と同一の相対順位を相互に対して有し、Xは、1、2、3、4、5、10、もしくは20以上である。例として、ある実施形態では、肺癌の分析において、一意の閾値は、CDNK2a、STK11、RB1、APC、およびSMAD4におけるサブゲノム間隔に適用される(低い閾値から高い閾値の順)。したがって、例えば、3元の組み合わせ、CDNK2/APC/SMAD4において、3元の組み合わせの3つのメンバーはすべて、表11のそれらの遺伝子が相互に対して有する相対順位と同一の相対順位を相互に対して有する。
【0739】
ある実施形態において、
一意の閾値は、表11の肺癌の遺伝子に列記された遺伝子のうちの少なくとも4、5、もしくは7個のそれぞれのサブゲノム間隔に適用され、
適用される一意の閾値の4つずつのX個の組み合わせ(すなわち、4元の組み合わせ)について、4元の組み合わせのメンバーは、表11のそれらの遺伝子が相互に対して有する相対順位と同一の相対順位を相互に対して有し、Xは、1、2、3、4、10、もしくは20以上である。例として、ある実施形態では、肺癌の分析において、一意の閾値が、CDNK2a、STK11、RB1、APC、およびSMAD4におけるサブゲノム間隔に適用される(低い閾値から高い閾値の順)。したがって、例えば、4元の組み合わせ、CDNK2a/STK11/APC/SMAD4において、4元の組み合わせの4つのメンバーはすべて、表11のそれらの遺伝子が相互に対して有する相対順位と同一の相対順位を相互に対して有する。
【0740】
ある実施形態において、
一意の閾値が、表11の前立腺癌の遺伝子に列記された遺伝子のうちの少なくとも2、3、4、5、6、もしくは7個のそれぞれのサブゲノム間隔に適用され、
適用される一意の閾値の2つずつのX個の組み合わせ(すなわち、対での組み合わせ)について、対での組み合わせのメンバーは、表11のそれらの遺伝子が相互に対して有する相対順位と同一の相対順位を相互に対して有し、Xは、1、2、3、4、5、10、もしくは20以上である。例として、ある実施形態では、前立腺癌の分析において、一意の閾値が、CEBPA、MSH2、CDKN2A、APC、RB1、NF1におけるサブゲノム間隔に適用される(低い閾値から高い閾値の順)。したがって、3つの対での組み合わせ、STK11/CEBPA、RB1/NF1、およびCEBPA/CDKN2Aのそれぞれにおいて、対での組み合わせのそれぞれの両方のメンバーは、表11のそれらの遺伝子が相互に対して有する相対順位と同一の相対順位を相互に対して有する(例えば、実施形態および表11の両方において、STK11はCEBPAよりも低い)。
【0741】
ある実施形態において、
一意の閾値が、表11の前立腺癌の遺伝子に列記された遺伝子のうちの少なくとも3、4、5、6、もしくは7個のそれぞれのサブゲノム間隔に適用され、
適用される一意の閾値の3つずつのX個の組み合わせ(すなわち、3元の組み合わせ)について、3元の組み合わせのメンバーは、表11のそれらの遺伝子が相互に対して有する相対順位と同一の相対順位を相互に対して有し、Xは、1、2、3、4、もしくは5、10、もしくは20以上である。例として、ある実施形態では、前立腺癌の分析において、一意の閾値が、STK11、CEBPA、MSH2、CDKN2A、APC、およびRB1におけるサブゲノム間隔に適用される(低い閾値から高い閾値の順)。したがって、例えば、3元の組み合わせ、CDNK2/APC/RB1において、3元の組み合わせの3つのメンバーはすべて、表11のそれらの遺伝子が相互に対して有する相対順位と同一の相対順位を相互に対して有する。
【0742】
ある実施形態において、
一意の閾値が、表11の前立腺癌の遺伝子に列記された遺伝子のうちの少なくとも4、5、6、もしくは7個のそれぞれのサブゲノム間隔に適用され、
適用される一意の閾値の4つずつのX個の組み合わせ(すなわち、4元の組み合わせ)について、4元の組み合わせのメンバーは、表11のそれらの遺伝子が相互に対して有する相対順位と同一の相対順位を相互に対して有し、Xは、1、2、3、4、10、もしくは20以上である。例として、ある実施形態では、前立腺癌の分析において、一意の閾値が、STK11、CEBPA、MSH2、CDKN2A、APC、RB1、およびNF1におけるサブゲノム間隔に適用される(低い閾値から高い閾値の順)。したがって、例えば、4元の組み合わせ、STK11/APC/RB1/NF1において、4元の組み合わせの4つのメンバーはすべて、表11のそれらの遺伝子が相互に対して有する相対順位と同一の相対順位を相互に対して有する。
【0743】
ある実施形態において、
一意の閾値は、表11の乳癌の遺伝子に列記された遺伝子のうちの少なくとも2、3、5、7、もしくは8個のそれぞれのサブゲノム間隔に適用され、
適用される一意の閾値の2つずつのX個の組み合わせ(すなわち、対での組み合わせ)について、対での組み合わせのメンバーは、表11のそれらの遺伝子が相互に対して有する相対順位と同一の相対順位を相互に対して有し、Xは、1、2、3、4、5、10、もしくは20以上である。例として、ある実施形態では、乳癌の分析において、一意の閾値が、CDH1、CDKN2A、APC、RB1、SMAD4、NF2、STK11、MSH2におけるサブゲノム間隔に適用される(低い閾値から高い閾値の順)。したがって、3つの対での組み合わせ、APC/SMAD4、APC/NF2、およびSMAD4/MSH2のそれぞれにおいて、対での組み合わせのそれぞれの両方のメンバーは、表11のそれらの遺伝子が相互に対して有する相対順位と同一の相対順位を相互に対して有する(例えば、実施形態および表11の両方において、APCはSMAD4よりも低い)。
【0744】
ある実施形態において、
一意の閾値が、表11の乳癌の遺伝子に列記された遺伝子のうちの少なくとも3、5、7、または8個のそれぞれのサブゲノム間隔に適用され、
適用される一意の閾値の3つずつのX個の組み合わせ(すなわち、3元の組み合わせ)について、3元の組み合わせのメンバーは、表11のそれらの遺伝子が相互に対して有する相対順位と同一の相対順位を相互に対して有し、Xは、1、2、3、4、5、10、もしくは20以上である。例として、ある実施形態では、乳癌の分析において、一意の閾値が、CDH1、CDKN2A、RB1、SMAD4、NF2、STK11、MSH2におけるサブゲノム間隔に適用される(低い閾値から高い閾値の順)。したがって、例えば、3元の組み合わせ、CDH1/RB1/STK11において、3元の組み合わせの3つのメンバーはすべて、表11のそれらの遺伝子が相互に対して有する相対順位と同一の相対順位を相互に対して有する。
【0745】
ある実施形態において、
一意の閾値が、表11の乳癌の遺伝子に列記された遺伝子のうちの少なくとも4、5、7、または8個のそれぞれのサブゲノム間隔に適用され、
適用される一意の閾値の4つずつのX個の組み合わせ(すなわち、4元の組み合わせ)について、4元の組み合わせのメンバーは、表11のそれらの遺伝子が相互に対して有する相対順位と同一の相対順位を相互に対して有し、Xは、1、2、3、4、10、もしくは20以上である。例として、ある実施形態では、乳癌の分析において、一意の閾値が、CDH1、CDKN2A、APC、RB1、SMAD4、NF2、STK11、MSH2におけるサブゲノム間隔に適用される(低い閾値から高い閾値の順)。したがって、例えば、4元の組み合わせ、CDH1/SMAD4/STK11/MSH2において、4元の組み合わせの4つのメンバーはすべて、表11のそれらの遺伝子が相互に対して有する相対順位と同一の相対順位を相互に対して有する。
【0746】
ある実施形態において、
一意の閾値が、遺伝子APC、SMAD4、およびATMのうちの少なくとも2個もしくは3個のそれぞれのサブゲノム間隔に適用され、
適用される一意の閾値の2つずつのX個の組み合わせ(すなわち、対での組み合わせ)について、対での組み合わせのメンバーは、APC、SMAD4、およびATMの相対順位であり、Xは、1、2、もしくは3以上である。例として、ある実施形態では、大腸癌の分析において、一意の閾値が、APC、SMAD4、およびATMにおけるサブゲノム間隔に適用される(低い閾値から高い閾値の順)。したがって、対での組み合わせ、APC/SMAD4およびAPC/ATMのそれぞれにおいて、対での組み合わせのそれぞれの両方のメンバーは、APC、SMAD4、およびATMにおける相対順位と同一の相対順位を有する。
【0747】
ある実施形態において、
一意の閾値が、遺伝子APC、SMAD4、およびATMのそれぞれのサブゲノム間隔に適用され、低い閾値から高い閾値の順位は、APC、SMAD4、およびATMである。
(表11は、それらの遺伝子のいくつかまたはすべてのコード塩基対、例えば、表9の塩基等のより速い速度で変異することで特に知られている塩基の別の廃止リストによって別様に特定されない塩基対の閾値が増加する順に遺伝子の順序を列挙する。)
【0748】
ある実施形態において、
第1の一意の閾値が、第1の事前選択されたヌクレオチド位置に適用され、そのバリアントは、腫瘍表現型に関連し、
第2の一意の閾値が、該第1の事前選択されたヌクレオチド位置以外の事前選択されたヌクレオチド、例えば、腫瘍表現型に関連したバリアントを有しない位置に適用され、該第1の閾値は、第2の閾値よりも高い。
【0749】
ある実施形態において、方法は、
a)第1の一意の閾値を取得し、それを第1のゲノム間隔に適用することと(そのバリアントは、腫瘍表現型に関連し、例えば、バリアントは、点変異、例えば、表6の変異である)、
b)第2の一意の閾値を取得し、それを第2のゲノム間隔に適用することと(そのバリアントは、腫瘍表現型に関連し、例えば、バリアントは、再編成、例えば、欠失、挿入、または転座、例えば、表5の変異である)、
c)第3の一意の閾値を取得し、それを第3のゲノム間隔、例えば、バリアントが腫瘍表現型または該試料の腫瘍型に関連しないゲノム間隔に適用することとを含む。
【0750】
ある実施形態において、方法は、以下のうちの1、2、3、4個、もしくはすべてを含む(実施形態において、以下のうちの2つ以上の群が含まれ、その群のそれぞれの閾値が一意である):
(i)例えば、最深の対象範囲が比較的低い頻度で出現する変異に対する高レベルの感度を可能にするように要求される、第1の閾値を第1の事前選択されたヌクレオチド位置についての読み取りに適用すること(例として、試料中の細胞、ライブラリの核酸、またはライブラリ捕獲物の核酸において5%以下の頻度で出現するバリアント、例えば、点変異が挙げられる。典型的には、これらのバリアントは、高い検出信頼性を確保するために、500倍を超える配列決定深度を必要とする。例となる適用は、事前選択された癌において頻繁に変異するエクソンである)、
(ii)例えば、高い対象範囲(実施形態において、上記の(i)未満であるが)が、比較的高い頻度、例えば、上記の(i)における変異よりも高い頻度で出現する変異に対する高レベルの感度を可能にするために要求される、第2の閾値を第2の事前選択されたヌクレオチド位置についての読み取りに適用すること(例として、試料中の細胞、ライブラリの核酸、またはライブラリ捕獲物の核酸において5%より大きく、最大10、15、もしくは20%の頻度で出現するバリアント、例えば、点変異が挙げられる。典型的には、これらのバリアントは、高い検出信頼性を確保するために、200倍を超える配列決定深度を必要とする。例となる適用は、癌に関連した遺伝子においてである)、
(iii)例えば、低〜中程度の対象範囲(実施形態において、上述の(i)または(ii)の対象範囲未満)が、ヘテロ接合体対立遺伝子に対する高レベルの感度を可能にするために要求される、第3の閾値を第3の事前選択されたヌクレオチド位置についての読み取りに適用すること(例として、バリアント、例えば、(1)薬物に応答するか、またはそれを代謝する患者の能力に関連し得る薬理ゲノムSNP、(2)患者を一意に特定する(フィンガープリントする)ために使用され得るゲノムSNP、あるいは(3)ゲノムDNAおよびLOHのコピー数獲得/喪失を評価するために使用され得るゲノムSNP/遺伝子座が挙げられる)、
(iv)第4の閾値を第4の事前選択されたヌクレオチド位置、例えば、再編成、例えば、転座またはインデルにおける、例えば、構造ブレークポイントについての読み取りに適用すること(実施形態において、対象範囲は、(i)、(ii)、もしくは(iii)のうちの1つの対象範囲未満である。例として、実施形態において、高い検出信頼性を確保するために5〜50倍の配列対スパン深度を必要とするイントロンブレークポイントが挙げられる。例となる適用は、転座/インデルの傾向のある癌遺伝子である)、
(v)例えば、わずかな対象範囲がコピー数の変化を検出する能力を改善し得る、第5の閾値を第5の事前選択されたヌクレオチド位置についての読み取りに適用すること(実施形態において、対象範囲は、(i)、(ii)(iii)、もしくは(iv)のうちの1つの対象範囲未満である。例として、例えば、高い検出信頼性を確保するために0.1〜10倍の対象範囲を必要とするいくつかの末端エクソンの1コピー欠失がある。例となる適用は、増幅/欠失の傾向のある癌遺伝子に対する)。
【0751】
ある実施形態において、
第1の閾値は、第2の閾値よりも大きく、
第2の閾値は、第3の閾値よりも大きく、
第3の閾値は、第4の閾値よりも大きく、
第4の閾値は、第5の閾値よりも大きい。
【0752】
ある実施形態において、X個の閾値、例えば、一意または非一意の閾値は、以下の特性:
a)変異予想、
b)変異確率値、
c)ベイズ先行、
d)変異頻度、
e)事前選択されたヌクレオチド位置に関連したバリアント型、例えば、腫瘍表現型、例えば、点変異または再編成、例えば、欠失、挿入、または転座に関連したバリアント、
f)コピー数、
g)サブゲノム間隔の腫瘍型、あるいは
h)サブゲノム間隔、
のうちの1、2、3、4個以上、もしくはすべての関数であるか、あるいはそれらに基づいて選択され、Xは、少なくとも1、2、3、5、10、20、40、50、60、70、80、90、もしくは100である。
【0753】
ある実施形態において、X個の閾値、例えば、一意または非一意の閾値は、aおよびe、aおよびg、eおよびgを含むか、またはそれらである要因の関数であるか、あるいはそれらに基づいて選択され、Xは、少なくとも1、2、3、5、10、20、40、50、60、70、80、90、もしくは100である。
【0754】
ある実施形態において、特性a〜fのうちの1つ以上もしくはすべては、事前選択されたヌクレオチド位置、事前選択された腫瘍型、または事前選択された遺伝子のうちの1つ以上もしくはすべての関数である。
【0755】
ある実施形態において、X個の閾値、例えば、一意または非一意の閾値は、バックグラウンドゲノム変異頻度の関数であるか、またはそれに基づいて選択され、Xは、少なくとも1、2、3、5、10、20、40、50、60、70、80、90、もしくは100である。
【0756】
ある実施形態において、X個の閾値、例えば、一意または非一意の閾値は、以下の患者特性:
年齢、性別、事前環境暴露、例えば、変異原もしくは発癌物質への事前環境暴露、薬物もしくは治療への事前暴露、例えば、抗腫瘍剤での事前治療、患者が現在喫煙しているか、または過去に喫煙していたか、腫瘍型、あるいはサブゲノム間隔における生殖細胞系変化のうちの1、2、3、4個以上、もしくはすべての関数であるか、またはそれらに基づいて選択され、
Xは、少なくとも1、2、3、5、10、20、40、50、60、70、80、90、もしくは100である。
【0757】
ある実施形態において、X個の閾値、例えば、一意または非一意の閾値は、以下の試料特性:
腫瘍型、部位特異的腫瘍倍数性(例えば、SNP分析に基づいて)、腫瘍接合性、試料純度、腫瘍試料中の細胞充実度(例えば、試料中の腫瘍細胞の割合)、対象の腫瘍と対照SNP遺伝子型が適合するか、あるいは予測または観察されるDNA損傷のレベルのうちの1、2、3、4個以上、もしくはすべての関数であるか、またはそれに基づいて選択され、
Xは、少なくとも1、2、3、5、10、20、40、50、60、70、80、90、もしくは100である。
【0758】
ある実施形態において、方法は、一意の閾値を複数のサブゲノム間隔に適用することを含む。
【0759】
ある実施形態において、方法は、一意の閾値を第1のサブゲノム間隔の事前選択された組の位置、例えば、遺伝子に適用することを含む。例えば、ある実施形態において、
該事前選択された組は、
第1の遺伝子におけるヌクレオチド位置のすべて、またはその事前選択された部分、
第1の遺伝子のイントロンのヌクレオチド位置のすべて、またはその事前選択された部分、
第1の遺伝子のエクソンのヌクレオチド位置のすべて、またはその事前選択された部分、
第1の遺伝子におけるヌクレオチド位置、例えば、バリアントが腫瘍表現型に関連するヌクレオチド位置を含む、事前選択された範囲内のヌクレオチド位置のすべてを含むか、あるいはそれらに限定され、例えば、バリアントは、点変異または再編成、例えば、欠失、挿入、または転座である。
【0760】
ある実施形態において、方法は、一意の閾値を、第1のサブゲノム間隔、例えば、遺伝子の事前選択された組の位置に適用すること、および一意の閾値を、それに続く、例えば、第2、第3、第4、第5、もしくは第6のサブゲノム間隔、例えば、遺伝子の事前選択された組の位置にさらに適用することを含む。ある実施形態において、該それに続く遺伝子の事前選択された組は、
該それに続く遺伝子におけるヌクレオチド位置のすべて、またはその事前選択された部分、
該それに続く遺伝子のイントロンのヌクレオチド位置のすべて、またはその事前選択された部分、
該それに続く遺伝子のエクソンのヌクレオチド位置のすべて、またはその事前選択された部分、
該それに続く遺伝子におけるヌクレオチド位置を含む、事前選択された範囲内のヌクレオチド位置のすべてを含むか、あるいはそれに限定され、そのバリアントは、腫瘍表現型に関連し、例えば、バリアントは、点変異または再編成、例えば、欠失、挿入、または転座である。
【0761】
実施形態において、2個以上の閾値が、遺伝子、または他のサブゲノム間隔に適用される。したがって、ある実施形態において、方法は、
例えば、バックグラウンド変異率の関数である第1の一意の閾値を、サブゲノム間隔、例えば、遺伝子の第1の事前選択された位置または第1の事前選択された組の位置に適用すること、および
例えば、本明細書に開示の要因、例えば、腫瘍表現型に関連したバリアントの予想頻度に応答して選択される、それに続く、例えば、第2、第3、第4、第5、もしくは第6の一意の閾値を、該サブゲノム間隔のそれに続く、例えば、第2、第3、第4、第5、もしくは第6の事前選択された位置または事前選択された組の位置に適用することを含む。
【0762】
そのような実施形態において、第1の事前選択された組は、
そのバリアントが腫瘍表現型に関連するヌクレオチド位置以外のヌクレオチド位置、または
遺伝子におけるヌクレオチド位置の大部分を含み得るか、あるいはそれに限定され得る。
【0763】
ある実施形態において、第2の事前選択された組は、
そのバリアントが腫瘍表現型に関連するヌクレオチド位置、
該遺伝子のイントロンの第1の事前選択された部分のヌクレオチド位置、
該遺伝子のエクソンの第1の事前選択された部分のヌクレオチド位置、
そのバリアントが腫瘍表現型に関連するヌクレオチド位置を含む、事前選択された範囲内のヌクレオチド位置のすべて(例えば、バリアントは、点変異または再編成、例えば、欠失、挿入、または転座である)、
遺伝子におけるヌクレオチド位置の小さな一部、あるいは
遺伝子の1、2、3、3、5、10、もしくは20個を超えないヌクレオチド位置を含むか、またはそれに限定される。
【0764】
そのような実施形態において、第1の事前選択された組は、
そのバリアントが腫瘍表現型に関連する該ヌクレオチド位置以外のヌクレオチド位置、
該遺伝子のイントロンの第1の事前選択された部分の該ヌクレオチド位置以外のヌクレオチド位置、
該遺伝子のエクソンの第1の事前選択された部分の該ヌクレオチド位置以外のヌクレオチド位置、
そのバリアントが腫瘍表現型に関連するヌクレオチド位置を含む、事前選択された範囲内の該ヌクレオチド位置以外のヌクレオチド位置(例えば、バリアントは、点変異または再編成、例えば、欠失、挿入、または転座である)を含み得るか、あるいはそれに限定され得る。
【0765】
そのような実施形態において、第1の一意の閾値は、該その後の一意の閾値よりも低くあり得る。
臨床癌検体の次世代の配列決定からの体細胞のゲノム変化の高感度検出のためのベイズ手法
【0766】
本明細書の他の箇所で論じられるように、本発明は、試料、例えば、腫瘍試料を分析する方法を特色とする。本明細書に記載の方法は、
(aaa)X個のサブゲノム間隔のそれぞれについての1つまたは複数の読み取りを該試料由来の核酸から取得することと、
(bbb)該X個のサブゲノム間隔のそれぞれの事前選択されたヌクレオチド位置のために、以下を取得することと、
(i)腫瘍型Xの該事前選択されたヌクレオチド位置で事前選択されたバリアント、例えば、変異を示す読み取りを観察する先行(例えば、文献)予想であるか、またはそれを表す第1の値、および
(ii)バリアントがある頻度(例えば、1%、5%、10%等)で試料に存在する場合、および/またはバリアントが不在である(例えば、塩基呼び出しエラーのみにより読み取りで観察される)場合、該事前選択されたヌクレオチド位置で該事前選択されたバリアントを示す読み取りを観察する確率を表す第2の組の値、
(ccc)該値に応答して、第1の値を用いて第2の組の値の間の比較を検討する(例えば、変異の存在の事後確率を算出する)ことによって、該事前選択されたヌクレオチド位置のそれぞれに対する該読み取りからのヌクレオチド値を割り当てる(例えば、変異を呼び出す)こととを含んでもよく、それによって、該試料を分析する。
【0767】
この方法は、例えば、その変数間の比較の検討において、NGSに基づく手法のための分析成分を、体細胞変異頻度および多様性の知識を組み込んで検出を最適化する腫瘍ゲノム評価に提供する。癌ゲノムにおける変異の頻度は比較的低いが(例えば、1Mbゲノム幅当たり約1〜10の割合の塩基置換が予想される)、特定のドライバ変異は、ある特定の腫瘍型において頻繁に生じることが知られている。例えば、KRAS変異c.35G>A(p.G12D)は、結腸癌の約10%において予想され得る。効率的な変異−検出手法は、この先行情報を利用して、感度と特異性との間のトレードオフを最適化し、かつ「困難な」試料における検出力を最大化することができる。例えば、方法は、以下の関係を用いた分析を含み得る:
P(変異存在|読み取りデータ「R」)=P(変異の頻度「F」>0|R)=1−P(F=0|R)
【化1】
【化2】
は、等式Aに対する離散近似であり、これを、離散化近似の代わりにこの関係において代替的に評価することができる。
等式A:
【化3】
P(F=0)=癌型における変異の1−先行予想。「p」上記の(i)の値は、pに対応する。
【化4】
(例えば、n=100)は、先行過剰頻度の均一な分布を仮定し、したがって、ii)で言及される変異頻度の先行予想を特定する。この項は、特定の試料で測定された純度もしくは異数性等の予想される変異頻度、または特定の腫瘍型、摘出方法等の予想される変異頻度に関する任意の先行知識に対して調整するために、均一な分布から調節へと変化させることができる。
【化5】
は、例えば、対立遺伝子計数観察、較正品質スコア、および置換変異の多項分布を用いて、変異型に従って評価される。
【0768】
本明細書で提供される検出手法は、以下のステップを含むことができる:配列決定およびアライメント、品質スコア再較正、ベイズ変異呼び出し、ならびに変異呼び出しフィルタリング。例えば、配列決定およびアライメントは、182個の癌関連遺伝子のエクソンのハイブリッド選択、Illumina HiSeqプラットフォーム上での深部配列決定、Burrows−Wheelerアライナ(BWA)でのアライメント(Li H.and Durbin R.(2009)Bioinformatics,25:1754−60)、ならびにゲノム分析ツールキット(GATK)(McKenna A.H.et al.,Genome Res.2010 20(9):1297−303)を用いたアライメント最適化を含み得る。品質スコア再較正は、報告された品質スコアを経験的エラー率にマッピングする。ベイズ変異呼び出しは、変異が任意の頻度で存在する可能性を可能にする(二倍体に限定されない)。COSMICからの変異の組織特異的先行確率を組み込み、感度を高める。変異呼び出しフィルタリングは、鎖バイアス、低マッピング品質、および読み取り位置バイアス等の指標を用いてアーチファクトをフィルタリングし、最も細菌様のバリエーション(dbSNP)を除去する。
【0769】
関連性のあるP(読み取りデータR|変異頻度=f)を導き出すことによって、この手法を追加の変異型(インデル/転座/CNV)まで拡張することができる。
重複読み取り
【0770】
配列決定プロセス中、エラーは、例えば、配列決定化学によって、または画像分析ソフトウェアによってプロセスの異なる段階で読み取りに導入され得る。重複読み取りは、典型的には、別個の読み取りとして配列決定される。変異呼び出しアルゴリズムは、配列決定エラーと実際の配列バリエーションを見分け、後者を正しく呼び出す必要がある。本明細書に記載の方法は、配列決定エラーを減少させるように重複読み取りを分析し、それによって、変異呼び出しアルゴリズムの感度を改善することができる。
【0771】
これは、典型的には、同一のゲノム位置を対象範囲とする独立した読み取りを比較することによって行われる。読み取り重複は、ライブラリ調製(例えば、PCR増幅)の様々なステップ中に生成され、別個の読み取りとして配列決定される。これらが独立した読み取りではない(すなわち、それらが同一の最初のDNA分子に由来する)ため、典型的には、任意の数の重複のうちの1つのみが変異検出プロセスに使用され、残りは破棄される。
【0772】
配列決定エラーを減少させ、それによって、変異呼び出しアルゴリズムの感度を改善するための重複読み取りの使用が本明細書に記載される。重複読み取りを、同一の開始および終了位置の所有によって特定することができる。本質的には重複読み取りが同一の最初のDNA分子の複製読み取りであるため、重複の間の任意の相違は、配列決定エラーであるはずであり、したがって、無視してもよい。例えば、高度に重複したデータが利用可能である場合、3個以上の重複のコンセンサスを用いることができる。あるいは、塩基の品質スコアを、2個以上の読み取り重複の間の同意を反映するために再定義し、任意の下流プロセスによって利用してもよい。例えば、変異呼び出しアルゴリズムは、すべての重複によって支援されない配列相違に置かれる重点を軽くしてもよい。
【0773】
重複にコンセンサス配列を生成することによって、推奨される方法をいくつかの配列決定データ上で試験した。コンセンサス読み取り配列のエラー率は、最初の読み取りのエラー率よりも著しく低いことが示された。
【0774】
この方法は、例えば、1)シーケンサのいくつかの失敗モードがより高いエラー率を有する使用可能な配列データをもたらし、これがこのデータにおける変異呼び出す能力に悪影響を及ぼすときに用いることができる。2)試料における特にまれな癌細胞由来のDNAを配列決定するときに(例えば、循環腫瘍細胞は、試料中の細胞の1%未満であり得る)、重複を用いてエラーを減少させることは、このシナリオにおいて特に効果的であるべきであり、変異呼び出しパイプラインを機械故障に対してよりロバストにし、塩基エラー率の任意の改善は、これらの腫瘍細胞における変異を正しく同定する能力を著しく増加させ得る。
【0775】
例となる一実施形態において、高い重複率(69%)を有するデータセットが重複について走査される。重複の1つの読み取りを任意に選択する一般に使用されるソフトウェア除去ツール(Picard MarkDuplicates)を用いて重複が除去されるとき、結果として生じるエラー率は、0.40%であった。並行して、少なくとも3個の重複を有するすべての読み取りは別個に処理され、それぞれの組の重複のコンセンサス配列は、重複の最も一般的な配列を選択することによって得られた。コンセンサス配列のエラー率は0.20%であり、それらの配列を比較することによってより低い重複読み取りエラー率を達成することができることを実証した。
コンセンサス読み取りを導き出す例:
読み取り1: CCAAAACTAAACTGCTCTTTAAATATCTTAGACACT(配列番号2)
読み取り2: CCAAAACTAAACTGCTCTTTAAATATCTTAGACACT(配列番号3)
読み取り3: CCAACACTAAACTGCTCTTTAAATATCTTAGACACT(配列番号4)
コンセンサス: CCAAAACTAAACTGCTCTTTAAATATCTTAGACACT(配列番号5)
【0776】
したがって、別の態様では、本発明は、例えば、
(a)任意で、(例えば、該サブゲノム間隔の最初のコピーの増幅によって形成された)サブゲノム間隔の複数の重複を取得することと、
(b)該複数の重複のそれぞれについての読み取りを取得して、複数の重複読み取りを提供することと、
(c)該複数の重複読み取りのそれぞれにおける第1のヌクレオチド位置でのヌクレオチド値を比較することと(典型的には、1個の重複読み取りにおけるヌクレオチド位置は、第2の読み取りにおける対応するヌクレオチド位置と比較される)、
(d)任意で、該複数の重複読み取りのそれぞれにおける第2のヌクレオチド位置でのヌクレオチド値を比較することと、
(この場合において、ヌクレオチド位置のうちの一方では、該複数の読み取りのそれぞれは、同一のヌクレオチド値を有さず、任意で、該ヌクレオチド位置の他方では、該複数の読み取りのそれぞれは、同一のヌクレオチド値を有する)
(e)第1の分類子、例えば、品質スコアまたは重複調節されたヌクレオチド値を、該複数の読み取りのすべてにおいて同一のヌクレオチド値を有しない位置でのヌクレオチド値に割り当てることと、
(f)任意で、第2の分類子、例えば、品質スコアまたは重複調節されたヌクレオチド値を、複数の読み取りのそれぞれにおいて同一のヌクレオチド値を有する位置でのヌクレオチド値に割り当てることとを含む、腫瘍試料由来の核酸の配列を分析する方法を含み、
該第1の分類子は、それが割り当てられるヌクレオチド値が正しいという第1のレベルの品質または信頼度を示し、該第2の分類子は、それが割り当てられるヌクレオチド値が正しいという第2のレベルの品質または信頼度を示し、該第1のレベルは、事前選択された基準以下である。
【0777】
一実施形態において、該第1のレベルは、該複数の読み取りがそれぞれ同一のヌクレオチド値を有した場合に割り当てられるヌクレオチド値よりも低い。
【0778】
別の実施形態では、該第1のレベルは、該第2のレベルよりも低い。
【0779】
別の実施形態では、分類は、複数のそのヌクレオチド位置とは異なるヌクレオチド値の割合の関数である。
【0780】
別の実施形態では、分類は、複数の重複読み取りの数の関数である。
【0781】
さらに別の実施形態では、ヌクレオチド位置での変異呼び出し方法は、そのヌクレオチド位置でのそのヌクレオチド値の分類の関数である。
【0782】
別の実施形態では、重複読み取りは、同定も除去もされない。重複読み取りの非除去は、重複読み取りの画分が対照試料と試験試料との間で著しく異なるとき、腫瘍DNAにおけるコピー数異常の同定および対立遺伝子バランスの評価に特に有用であり得る。例えば、高い重複率を有する試料における高い対象範囲深度を有するゲノム領域は、低い重複率を有する試料における比較可能な深度を有する同一の領域よりも多くの読み取りを喪失し得るが、低対象範囲の領域は、この作用を起こす傾向が低いと思われる。したがって、重複読み取りの画分が対照試料と試験試料との間で著しく異なる場合、その2つの間の比較はよりノイズを有する場合があり、したがって、コピー数変化の呼び出しの感度および/または特異性を低下させる。
【0783】
DNA試験試料、例えば、腫瘍から抽出されるDNA試料の配列分析は、試験試料と対照試料、例えば、非癌性組織由来のDNA試料との比較を必要とする。
【0784】
ゲノムDNA試料の配列決定の際に重複読み取りが生成される。読み取り重複は、ライブラリ調製(例えば、PCR増幅)の様々なステップ中に生成され、別個の読み取りとして配列決定される。これらが独立した読み取りではない(すなわち、それらが同一の最初のDNA分子に由来する)ため、典型的には、任意の数の重複のうちの1つのみが変異検出プロセスに使用されるが、残りは破棄される。典型的には、対照試料および試験試料の両方からの重複読み取りは、試験DNA配列と対照DNA配列との間の比較分析を行う前に除去される。
【0785】
一実施形態において、本出願者は、重複読み取りの数が試験試料と対照試料との間で著しく異なる状況下において、(対照試料および試験試料のいずれか、またはそれらの両方からの)重複読み取りの除去は、それが異なる試料の対象範囲深度パターンを別様に変形させるため、コピー数の変化等の変化を呼び出す能力に悪影響を与えることを発見した。したがって、重複読み取りの画分が試験試料と対照試料との間で著しく異なる(例えば、20%超、30%超、40%超、50%超、60%超、またはそれ以上異なる)という状況下において、試験試料における変異を正しく同定する能力を最大化するために、重複読み取りが比較分析前に除去されないことが好ましい。例えば、対照試料および試験試料における重複読み取りの数が、それぞれ、20%および80%(または70%または60%または50%)である状況下において、重複読み取りは、好ましくは、比較分析前に除去されない。
他の実施形態
【0786】
本明細書に記載の方法の実施形態において、本方法におけるステップまたはパラメータが、本方法における下流ステップまたはパラメータを修正するために使用される。
【0787】
ある実施形態において、腫瘍試料の特性が、該試料からの核酸の単離、ライブラリ構築、ベイト設計もしくは選択、ハイブリダイゼーション条件、配列決定、読み取りマッピング、変異呼び出し方法の選択、変異呼び出し、または変異アノテーションのうちの1つ以上もしくはすべてにおける下流ステップまたはパラメータを修正するために使用される。
【0788】
ある実施形態において、単離された腫瘍または対照核酸の特性が、該試料からの核酸の単離、ライブラリ構築、ベイト設計もしくは選択、ハイブリダイゼーション条件、配列決定、読み取りマッピング、変異呼び出し方法の選択、変異呼び出し、または変異アノテーションのうちの1つ以上もしくはすべて下流ステップまたはパラメータを修正するために使用される。
【0789】
ある実施形態において、ライブラリの特性が、該試料からの核酸の再単離、その後のライブラリ構築、ベイト設計もしくは選択、ハイブリダイゼーション条件、配列決定、読み取りマッピング、変異呼び出し方法の選択、変異呼び出し、または変異アノテーションのうちの1つ以上もしくはすべてにおける下流ステップまたはパラメータを修正するために使用される。
【0790】
ある実施形態において、ライブラリ捕獲物の特性が、該試料からの核酸の再単離、その後のライブラリ構築、ベイト設計もしくは選択、ハイブリダイゼーション条件、配列決定、読み取りマッピング、変異呼び出し方法の選択、変異呼び出し、または変異アノテーションのうちの1つ以上もしくはすべてにおける下流ステップまたはパラメータを修正するために使用される。
【0791】
ある実施形態において、配列決定方法の特性が、該試料からの核酸の再単離、その後のライブラリ構築、ベイト設計もしくは選択、ハイブリダイゼーション条件のその後の決定、その後の配列決定、読み取りマッピング、変異呼び出し方法の選択、変異呼び出し、または変異アノテーションのうちの1つ以上もしくはすべてにおける下流ステップまたはパラメータを修正するために使用される。
【0792】
ある実施形態において、マッピングされた読み取りの収集物の特性が、該試料からの核酸の再単離、その後のライブラリ構築、ベイト設計もしくは選択、ハイブリダイゼーション条件のその後の決定、その後の配列決定、その後の読み取りマッピング、変異呼び出し方法の選択、変異呼び出し、または変異アノテーションのうちの1つ以上もしくはすべてにおける下流ステップまたはパラメータを修正するために使用される。
【0793】
ある実施形態において、方法は、腫瘍試料特性の値を取得すること、例えば、該試料中の腫瘍細胞の割合の値、該腫瘍試料の細胞充実度の値、または腫瘍試料の画像から値を取得することを含む。
【0794】
実施形態において、方法は、該取得された腫瘍試料特性の値に応答して、腫瘍試料からの核酸の単離、ライブラリ構築、ベイト設計もしくは選択、ベイト/ライブラリメンバーハイブリダイゼーション、配列決定、または変異呼び出しのパラメータを選択することを含む。
【0795】
ある実施形態において、方法は、該腫瘍試料に存在する腫瘍組織の量の値を取得すること、該取得された値を参照基準と比較すること、および該参照基準が満たされる場合、該腫瘍試料を受容すること、例えば、該腫瘍試料が30、40、または50%を超える腫瘍細胞を含有する場合、該腫瘍試料を受容することをさらに含む。
【0796】
ある実施形態において、方法は、例えば、該腫瘍試料、参照基準を満たすことができない腫瘍試料由来の腫瘍組織をマクロ解剖することによって、腫瘍細胞のために濃縮されたサブ試料を取得することをさらに含む。
【0797】
ある実施形態において、方法は、一次対照、例えば、血液試料が利用可能であるかを決定すること、および利用可能である場合、対照核酸(例えば、DNA)を該一次対照から単離することをさらに含む。
【0798】
ある実施形態において、方法は、NATが(例えば、いずれの一次対照試料も利用可能ではない)該腫瘍試料に存在するかを決定することをさらに含む。
【0799】
ある実施形態において、方法は、例えば、一次対照を伴わない腫瘍試料中の該NAT由来の非腫瘍組織をマクロ解剖することによって、非腫瘍細胞のために濃縮されたサブ試料を取得することをさらに含む。
【0800】
ある実施形態において、方法は、一次対照もNATも利用可能ではないことを決定すること、および適合した対照なしで分析用の該腫瘍試料を作製することをさらに含む。
【0801】
ある実施形態において、方法は、核酸を該腫瘍試料から単離して、単離された腫瘍核酸試料を提供することをさらに含む。
【0802】
ある実施形態において、方法は、核酸を対照から単離して、単離された対照核酸試料を提供することをさらに含む。
【0803】
ある実施形態において、方法は、検出可能な核酸を有しない試料を拒否することをさらに含む。
【0804】
ある実施形態において、方法は、該単離された核酸試料における核酸収率の値を取得すること、および取得された値を参照基準と比較すること、例えば、該取得された値が該参照基準未満である場合、ライブラリ構築前に該単離された核酸試料を増幅することをさらに含む。
【0805】
ある実施形態において、方法は、該単離された核酸試料中の核酸断片の大きさの値を取得すること、および取得された値を参照基準、例えば、少なくとも300、600、または900bpの大きさ、例えば、平均の大きさと比較することをさらに含む。本明細書に記載のパラメータを、この決定に応じて調節または選択することができる。
【0806】
ある実施形態において、方法は、該核酸断片の大きさが参照値以下であるライブラリを取得することをさらに含み、該ライブラリは、DNA単離とライブラリ作製の間に断片化ステップを伴うことなく作製される。
【0807】
ある実施形態において、方法は、核酸断片を取得することをさらに含み、該核酸断片の大きさが参照値以上である場合、断片化され、その後、ライブラリにされる。
【0808】
ある実施形態において、方法は、例えば、同定可能なはっきりと異なる核酸配列(バーコード)を複数のメンバーのそれぞれに付加することによって、複数のライブラリメンバーのそれぞれを標識化することをさらに含む。
【0809】
ある実施形態において、方法は、プライマーを複数のライブラリメンバーのそれぞれに付着させることをさらに含む。
【0810】
ある実施形態において、方法は、複数のベイトを提供すること、および
複数のベイトを選択することをさらに含み、該選択は、1)患者の特性、例えば、年齢、腫瘍の病期、前治療、または抵抗力、2)腫瘍型、3)腫瘍試料の特性、4)対照試料の特性、5)対照の存在または種類、6)単離された腫瘍(または対照)核酸試料の特性、7)ライブラリの特性、8)腫瘍試料の腫瘍型に関連することが知られている変異、9)腫瘍試料の腫瘍型に関連することが知られていない変異、10)事前選択された配列を配列決定する(またはハイブリダイズもしくは回収する)か、または事前選択された変異、例えば、高GC領域の配列決定もしくは再編成に関連した困難性を同定する能力、あるいは11)配列決定される遺伝子に応答する。
【0811】
ある実施形態において、方法は、例えば、該腫瘍試料中の少数の腫瘍細胞の決定に応じて、ベイトまたは複数のベイトを選択すること、第2の遺伝子のメンバーと比較して第1の遺伝子からのメンバーに比較的高効率の捕捉を与えることをさらに含み、例えば、第1の遺伝子における変異は、腫瘍試料の腫瘍型の腫瘍表現型に関連する。
【0812】
ある実施形態において、方法は、ライブラリ捕獲物の特性、例えば、核酸濃度または表示の値を取得すること、および取得された値を核酸濃度または表示の参照基準と比較することをさらに含む。
【0813】
ある実施形態において、方法は、再処理の参照基準を満たさないライブラリ特性の値を有するライブラリを選択することをさらに含む。
【0814】
ある実施形態において、方法は、ライブラリ定量化の参照基準を満たすライブラリ特性の値を有するライブラリを選択することをさらに含む。
【0815】
ある実施形態において、方法は、対象の腫瘍型、遺伝子、および遺伝子変化(TGA)の関連性を提供することをさらに含む。
【0816】
ある実施形態において、方法は、複数の要素を有する事前選択されたデータベースを提供することをさらに含み、それぞれの要素は、TGAを含む。
【0817】
ある実施形態において、方法は、対象のTGAを特徴付けることをさらに含み、
該TGAが事前選択されたデータベース、例えば、有効なTGAのデータベースに存在するかを決定すること、
所定のデータベースからのTGAの情報を該対象の該TGAと関連付ける(アノテートする)こと、および
任意で、該対象の第2またはその後のTGAが該事前選択されたデータベースに存在するかを決定し、かつ存在する場合、所定のデータベースからの第2またはその後のTGAの情報を該患者に存在する該第2のTGAと関連付けることを含む。
【0818】
ある実施形態において、方法は、報告書を作成するために、対象のTGAの存在もしくは不在、および任意で関連したアノテーションをメモリアライズすることをさらに含む。
【0819】
ある実施形態において、方法は、該報告書を受領関係者に送信することをさらに含む。
【0820】
ある実施形態において、方法は、対象のTGAを特徴付けることをさらに含み、
該TGAが事前選択されたデータベース、例えば、有効なTGAのデータベースに存在するかを決定すること、
該事前選択されたデータベースに存在しないTGAが既知の臨床的に関連性のあるGまたはAを有するかを決定し、有する場合、該事前選択されたデータベースにおける該TGAの入力を提供することを含む。
【0821】
ある実施形態において、方法は、報告書を作成するために、対象由来の腫瘍試料のDNAに見られる変異の存在もしくは不在をメモリアライズすることをさらに含む。
【0822】
ある実施形態において、方法は、報告書を作成するために、対象のTGAの存在もしくは不在、および任意で関連したアノテーションをメモリアライズすることをさらに含む。
【0823】
ある実施形態において、方法は、該報告書を受領関係者に送信することをさらに含む。
【0824】
腫瘍試料の多重遺伝子分析方法の実施形態のフローチャート描写が
図1に提供される。
例証
【0825】
本発明は、以下の実施例によってさらに説明され、それらは、限定的であると解釈されるべきではない。本出願を通して引用されるすべての参考文献、図、配列表、特許、および公開された特許出願の内容は、参照により本明細書に組み込まれる。
実施例1:腫瘍試料からの核酸単離
【0826】
パラフィンブロックから切り取られた3×20μmの切片を400μLの緩衝液FTLとボルテックスによって混合し、1.5mLの遠心分離管内で90℃で15分間インキュベートした。88〜92℃の範囲がインキュベーションのために許容できるものであった。その後、試料を20μLのプロテイナーゼKとともに55℃で6時間、および10μLのRNase(1mg/mL)とともに室温で5分間インキュベートした。次に、460μLの緩衝液BLおよび500μLの無水エタノールを試料に添加した。結果として得られた試料溶液をさらに使用するまで室温で保管した。
【0827】
DNA結合カラムを調製するために、100μLの平衡緩衝液をMicroEluteカラムに添加し、そのカラムを10,000xgで30秒間遠心分離した。上述の700μLの試料溶液をMicroEluteカラムに移し、そのカラムを10,000xgで1分間遠心分離した。流体がMicroEluteカラムを完全に通過しなかった場合、遠心分離ステップを繰り返した。残りの試料溶液をMicroEluteカラムに上述と同一の方法で適用した。その後、MicroEluteカラムを500μLの緩衝液HBで処理し、10,000xgで1分間遠心分離した。次に、エタノールで希釈した700μLのDNA洗浄緩衝液をMicroEluteカラム内に添加し、そのカラムを10,000xgで1分間遠心分離した。MicroEluteカラムをエタノールで希釈した700μLのDNA洗浄緩衝液を用いて再度洗浄し、10,000xgで1分間遠心分離し、13,000xg超で3分間遠心分離して、カラムを乾燥させた。MicroEluteカラムを、蓋が取り外された状態の標準の1.5mLの遠心分離管内に設置した。70℃に予熱した50〜75μLの溶出緩衝液をカラム内に添加し、室温で3分間インキュベートした。そのカラムを回収管内で13,000xg超で1分間遠心分離した。70℃に予熱した別の50〜75μLの溶出緩衝液をMicroEluteカラム内に添加し、室温で3分間インキュベートした。そのカラムを回収管内で13,000xg超で1分間再度遠心分離した。全溶液を新鮮な1.5mLの遠心分離管に移し、−20℃で保管した。
【0828】
FTL緩衝液、プロテイナーゼK、BL緩衝液、平衡緩衝液、MicroEluteカラム、緩衝液HB、DNA洗浄緩衝液、および溶出緩衝液は、E.Z.N.A.(商標)FFPE DNAキット(OMEGA bio−tek,Norcross,GA、カタログ番号D3399−00、D3399−01、およびD3399−02)内に提供される。
【0829】
核酸(例えば、DNA)をホルムアルデヒドまたはパラホルムアルデヒド固定パラフィン包埋(FFPE)組織から単離するさらなる方法が、例えば、Cronin M.et al.,(2004)Am J Pathol.164(1):35−42、Masuda N.et al.,(1999)Nucleic Acids Res.27(22):4436−4443、Specht K.et al.,(2001)Am J Pathol.158(2):419−429、Ambion RecoverAll(商標)全核酸単離プロトコル(Ambion、カタログ番号AM1975、2008年9月)、Maxwell(登録商標)16 FFPEPlus LEV DNA精製キット技術マニュアル(Promega、文献番号TM349、2011年2月)、およびQIAamp(登録商標)DNA FFPE組織ハンドブック(Qiagen、カタログ番号37625、2007年10月)に開示されている。RecoverAll(商標)全核酸単離キットは、パラフィン包埋試料を可溶化するためにキシレンを高温で、かつ核酸を捕捉するためにガラス繊維フィルタを使用する。Maxwell(登録商標)16 FFPEPlus LEV DNA精製キットを、FFPE組織の1〜10μm切片のゲノムDNA精製のために、Maxwell(登録商標)16機器とともに使用する。DNAをシリカクラッド常磁性粒子(PMP)を用いて精製し、低溶出体積中に溶出される。QIAamp(登録商標)DNA FFPE組織キットは、ゲノムおよびミトコンドリアDNAの精製のために、QIAamp(登録商標)DNAマイクロ技術を使用する。
実施例2A:DNAの剪断
【0830】
循環冷却器を有するCovaris(商標)E210機器を4℃に設定した。その機器の水槽に蒸留/脱イオン水を充填ラインのレベル「6」まで充填した。SonoLab(商標)ソフトウェアを起動させ、指示されたときにシステムがホーミング配列を実行することができた。機器の水槽内の水を少なくとも45分間脱気した後に、試料を剪断した。
【0831】
剪断用のゲノムDNA試料を調製するために、試料を最初にマイクロプレートリーダー(Spectramax M2、分子デバイス)上のPicoGreen(登録商標)アッセイ(Invitrogen)を用いて定量した。濃度に基づいて、低TE(10mMのTris、0.2mMのEDTA、pH8.0)を有する120μLの所望の入力DNA(2ng/μL)をこの実験に使用した。その100μLの個別の試料を管の蓋の隔壁を通してCovaris MicroTUBE(Covaris、カタログ番号520045)内にピペットで緩徐に移した。その後、Covaris MicroTUBEをCovaris Eシリーズの管立てに設置した。200bp剪断のために、設定は以下の通りであった:負荷サイクル10%、強度5、200サイクル/バースト、180秒間、および周波数掃引モード。剪断後、小型遠心分離機内の適切なアダプターを用いてCovaris MicroTUBEを短期間沈降させ、剪断した試料をきれいな1.5mLのマイクロ遠心分離管に移した。それぞれの剪断したDNA試料をQIAGEN MinElute(登録商標)カラムを用いて精製した。簡潔に、5倍のQIAGEN PBI緩衝液を1.5mLのマイクロ遠心分離管内の試料に添加した(例えば、500μLのPBI緩衝液を100μLの試料に添加した)。それぞれの試料をボルテックスし、短期間沈降させ、MinEluteスピンカラムに移した。MinEluteスピンカラムを13,000rpmで1分間遠心分離し、流入物を廃棄した。750μLのQIAGEN PE緩衝液をそのカラムに添加し、13,000rpmで1分間遠心分離し、流入物を廃棄した。スピンカラムを再度13,000rpmで1分間遠心分離し、きれいな1.5mLのマイクロ遠心分離管に移した。そのカラムを2〜3分間風乾させた。第1の溶出において、18μLのQIAGEN溶出緩衝液をそれぞれのカラムに添加し、2〜3分間インキュベートし、その後、13,000rpmで1分間遠心分離した。第2の溶出において、15μLのQIAGEN溶出緩衝液を添加し、1分間インキュベートし、その後、13,000rpmで1分間遠心分離した。溶出物を回収し、スピンカラムを廃棄した。
【0832】
典型的には、200ngはDNA剪断のために使用されるが、DNAの量は、20〜200ngまたはそれ以上に及び得る。
実施例2B:DNA剪断の代替案
【0833】
本実施例は、実施例2AのDNA剪断の代替方法を説明する。
【0834】
二本鎖ゲノムDNAを最初に変性して一本鎖DNAとし、その後、プライマー、DNAポリメラーゼ(例えば、エキソ−DNAポリメラーゼ)、dNTP、および少量のddNTPと混合した。プライマー配列は、ランダム六量体、または5’末端においてアダプター配列でタグ付けされたランダム六量体であり得る。タグ付けされたランダム六量体増幅を用いて微量のDNAをクローニングおよび配列決定する方法は、例えば、Wong K.K.et al.,Nucleic Acids Res.1996;24(19):3778−83に記載されている。反応物をプライマー−鋳型アニーリングおよびDNA合成を可能にする条件下でインキュベートする。DNA合成は、ddNTPが新たに合成された第1の鎖に組み込まれるときに終了する。合成された第1の鎖DNAの長さを、dNTPとddNTPの比率によって制御することができる。例えば、dNTPとddNTPのモル比は、少なくとも約1000:1、約5000:1、または約10000:1である。第1の鎖の合成後、短い断片(短い長さおよびddNTPを有するプライマーおよび合成された第1の鎖DNA等)を、寸法選択によって(例えば、寸法選択スピンカラムを用いて)除去することができる。結果として得られた第1の鎖DNAを、プライマー(例えば、ランダム六量体またはアダプター配列でタグ付けされたランダム六量体)、DNAポリメラーゼ(例えば、エキソ+DNAポリメラーゼ)、およびdNTPと混合する。エキソ+DNAポリメラーゼを用いて、3’末端ddNTPを第1の鎖DNAから除去するか、またはさらには第2のプライミング部位上に平滑末端を生成することができる。その後、反応物をプライマー−鋳型アニーリングおよびDNA合成を可能にする条件下でインキュベートする。第2の鎖の合成後、結果として得られる二本鎖DNA断片を精製し、ライブラリ構築で直接使用することができる。あるいは、二本鎖DNA断片を、アダプター配列を含有するプライマーを用いてPCR増幅することができる。これらのアダプター配列が第1および第2の鎖合成のためにプライマーに含まれていた場合に、PCR増幅用のプライマーは、全配列および/またはバーコード配列も含み得る。
実施例3:ライブラリ調製
末端修復反応
【0835】
末端修復試薬(NEB番号E6050L)を解凍し、末端修復マスターミックスを氷上で調製した。1つの試料につき70μLのマスターミックスを調製するために、55μLのヌクレアーゼを含まない水を10μLの10倍の末端修復反応緩衝液および5μLの末端修復酵素ミックスと混合した。その後、70μLのマスターミックスを氷上の96ウェルPCRプレート中の30μLのそれぞれ剪断されたDNA試料に添加した。反応物を熱循環機内で20℃で30分間インキュベートした。それぞれの試料をQIAGEN MinElute(登録商標)カラムを用いて精製した。簡潔に、5倍のQIAGEN PBI緩衝液を、1.5mLのマイクロ遠心分離管中の試料に添加した(例えば、500μLのPBI緩衝液を100μLの試料に添加した)。それぞれの試料をボルテックスし、短期間沈降させ、MinEluteスピンカラムに移した。MinEluteスピンカラムを13,000rpmで1分間遠心分離し、流入物を廃棄した。750μLのQIAGEN PE緩衝液をそのカラムに添加し、13,000rpmで1分間遠心分離し、流入物を廃棄した。スピンカラムを再度13,000rpmで1分間遠心分離し、きれいな1.5mLのマイクロ遠心分離管に移した。カラムを2〜3分間風乾させた。第1の溶出において、22μLのQIAGEN溶出緩衝液(10mMのTris、pH8.5)をそれぞれのカラムに添加し、2〜3分間インキュベートし、その後、13,000rpmで1分間遠心分離した。第2の溶出において、22μLのQIAGEN溶出緩衝液を添加し、1分間インキュベートし、その後、13,000rpmで1分間遠心分離した。溶出物を回収し、スピンカラムを廃棄した。
3’A−塩基添加
【0836】
A−塩基添加試薬(NEB番号E6053L)を氷上で解凍し、A−塩基添加マスターミックスを氷上で調製した。1つの試料につき10μLのマスターミックスを調製するために、2μLのヌクレアーゼを含まない水を5μLの10倍のdAテーリング反応緩衝液および3μLのKlenow断片(3’→5’のエキソ)と混合した。10μLのマスターミックスを氷上の96ウェルPCRプレート内の40μLのそれぞれ精製された末端修復DNA試料に添加した。反応物を熱循環機内で37℃で30分間インキュベートした。それぞれの試料をQIAGEN MinElute(登録商標)カラムを用いて精製した。簡潔に、5倍のQIAGEN PBI緩衝液を1.5mLのマイクロ遠心分離管中の試料に添加した(例えば、250μLのPBI緩衝液を50μLの試料に添加した)。それぞれの試料をボルテックスし、短期間沈降させ、MinEluteスピンカラムに移した。MinEluteスピンカラムを13,000rpmで1分間で遠心分離し、流入物を廃棄した。750μLのQIAGEN PE緩衝液をそのカラムに添加し、13,000rpmで1分間遠心分離し、流入物を廃棄した。スピンカラムを再度13,000rpmで1分間遠心分離し、きれいな1.5mLのマイクロ遠心分離管に移した。カラムを2〜3分間風乾させた。第1の溶出において、13μLのQIAGEN溶出緩衝液(10mMのTris、pH8.5)をそれぞれのカラムに添加し、2〜3分間インキュベートし、その後、13,000rpmで1分間遠心分離した。第2の溶出において、13μLのQIAGEN溶出緩衝液を添加し、1分間インキュベートし、その後、13,000rpmで1分間遠心分離した。溶出物を回収し、スピンカラムを廃棄した。
マルチプレックスアダプターのライゲーション
【0837】
ライゲーション試薬(NEB番号E6056L)を解凍し、ライゲーションマスターミックスを氷上で調製した。1つの試料につき36μLのマスターミックスを調製するために、12μLの5倍のQuickライゲーション反応緩衝液を3.3μLのIlluminaマルチプレックスアダプター(15uM、Illumina、カタログ番号PE−400−1001に含まれる)に添加した(3.3μLのアダプター/1μgの出発入力DNAを使用した)。例えば、500ngの入力DNAの1つの試料に対し、アダプターを最初に水(2μLのアダプターおよび2μLのH
2O)中に希釈し、その後、3.3μLのこの希釈したアダプター混合物、15.7μLのヌクレアーゼを含まない水、および5μLのQuick T4 DNAリガーゼをライゲーション反応物に添加した。1μgを超える出発原料に対しては、3.3μLを超えるアダプターを使用した。したがって、より少ない水を添加して、希釈したアダプター混合物の全体積およびヌクレアーゼを含まない水を19μLで維持した。
【0838】
36μLのマスターミックスおよびそれぞれ24μLのdAテーリングDNA試料を氷上の96ウェルPCRプレートのウェルに添加した。反応物を熱循環機内で25℃で30分間インキュベートした。それぞれの試料をQIAGEN MinElute(登録商標)カラムを用いて精製した。簡潔に、5倍のQIAGEN PBI緩衝液を1.5mLのマイクロ遠心分離管中の試料に添加した(例えば、300μLのPBI緩衝液を60μLの試料に添加した)。それぞれの試料をボルテックスし、短期間沈降させ、MinEluteスピンカラムに移した。MinEluteスピンカラムを13,000rpmで1分間遠心分離し、流入物を廃棄した。750μLのQIAGEN PE緩衝液をそのカラムに添加し、13,000rpmで1分間遠心分離し、流入物を廃棄した。スピンカラムを再度13,000rpmで1分間遠心分離し、きれいな1.5mLのマイクロ遠心分離管に移した。カラムを2〜3分間風乾させた。第1の溶出において、20μLのQIAGEN溶出緩衝液(10mMのTris、pH8.5)をそれぞれのカラムに添加し、2〜3分間インキュベートし、その後、13,000rpmで1分間遠心分離した。第2の溶出において、20μLのQIAGEN溶出緩衝液を添加し、1分間インキュベートし、その後、13,000rpmで1分間遠心分離した。溶出物を回収し、スピンカラムを廃棄した。
PCR濃縮
【0839】
PCR試薬を解凍し、PCRマスターミックスを氷上で調製した。1つの試料につき62μLのマスターミックスにおいて、50μLのHF緩衝液を有する2倍のPhusion高忠実度マスターミックス(Finnzyme、NEBカタログ番号F−531S)、8μLのヌクレアーゼを含まない水、2μLのIlluminaプライマー1.0(25μM)、および2μLのIlluminaプライマー2.0(0.5μM)を使用した。その後、62μLのマスターミックスを、適切なバーコードを有する2μLのIlluminaインデックスプライマー(25μM、Illuminaカタログ番号PE−400−1001に含まれる)および36μLのライゲートされたDNA試料と96ウェルPCRプレート中で混合した。反応物を熱循環機内で以下のようにインキュベートした:
1サイクル 98℃ 30秒間
18サイクル 98℃ 10秒間
65℃ 30秒間
72℃ 30秒間
1サイクル 72℃ 5分間
4℃ 保持
【0840】
それぞれのPCR反応物を、1.8倍の体積のAMPureXPビーズ(Agencourt、Beckman Coulter Genomicsカタログ番号A6388)でサイズ選択した。簡潔に、1.8倍のAMPureXPビーズを1.5mLのマイクロ遠心分離管中の試料に添加し(例えば、180μLのビーズを100μLの試料に添加し)、ボルテックスし、転倒回転混合しながら5分間インキュベートした。溶液が透明になるまで(2分間)管を磁石スタンドに設置した。磁石上に捕捉されたビーズを乱さずに上清を廃棄した。600μLの新たに作製された70%エタノールをそのビーズに添加し、1分間インキュベートし、その後、エタノールを除去した。第2の一定分量の600μLの新たに作製された70%エタノールをそのビーズに添加し、1分間インキュベートし、エタノールを除去した。管を磁石スタンドに1〜2分間戻し、ビーズを再捕捉した。残りのエタノールを除去し、ビーズを室温で5〜10分間風乾させた。30μLのQIAGEN溶出緩衝液をそのビーズに添加し、ボルテックスし、2分間インキュベートした。溶液が透明になるまで(2分間)管を磁石スタンドに戻して設置した。上清を新鮮な1.5mLの管に移し、ビーズを廃棄した。Q−PCRアッセイを用いて溶出したDNA試料を定量化した。これらの定量化は、プールされたハイブリッド捕捉選択内のそれぞれのライブラリの均等な表示を確保するために、等モルプーリングを可能にする。
実施例4:ハイブリッド選択
プールインデックス試料ライブラリ
【0841】
Q−PCRによってインデックスされ、精製され、かつ定量化されたライブラリのプール(最大12plex)を氷上で作製した。等モルプールを1.5mLのマイクロ遠心分離管内で調製し、それぞれの試料がハイブリッド選択プロセスで均等に表されることを確実にした。これらのプールのそれぞれの全入力DNAは、2000ng〜500ngに及び得る。典型的には、全入力DNAは、2000ngである。したがって、12個の試料がプールされる場合、それぞれ166.67ngをプールして、合計2000ngにすることができる。2000ngのライブラリプールの最終量は、4μLであるはずである。インデックスされたライブラリの異なる濃度により、より大量のプールを作製することができるが、そのプールを(低熱を用いた)SpeedVacによって乾燥させ、4μLのヌクレアーゼを含まない水中で再構成するべきである。
【0842】
ライブラリ構築の収率が大きいほど、ライブラリの複雑さが増す。
プールされたDNAライブラリをビオチン化RNAベイトにハイブリダイズする
【0843】
AgilentのSureSelect標的濃縮対合末端キット(番号G3360A−J)をこの実験で使用した。ハイブリダイゼーション緩衝液3番、SureSelectブロック1番、SureSelectブロック2番、対合末端プライマー1.0ブロック、インデックスプライマー1−12ブロック、RNAeブロック、およびビオチン化されたRNAベイトを氷上で解凍した。以下のマスターミックスを調製した。
a. ハイブリダイゼーション緩衝混合液(1反応当たり13μL):
i. ハイブリダイゼーション緩衝液1番(Agilent)−25μL
ii. ハイブリダイゼーション緩衝液2番(Agilent)−1μL
iii. ハイブリダイゼーション緩衝液3番(Agilent)−10μL
iv. ハイブリダイゼーション緩衝液4番(Agilent)−13μL
b. ブロッキング混合物(1反応当たり8μL):
i. SureSelectブロック1番(Agilent)−2.5μL
ii. SureSelectブロック2番(Agilent)−2.5μL
iii. 対合末端プライマー1.0ブロック(IDT、H
2Oで200uMに再懸濁した)−1.5μL
iv. インデックスプライマー1−12ブロック(IDT、H
2Oで200uMに再懸濁した)−1.5μL
c. RNaseブロックの希釈
i. 3Mb未満のテリトリーを有するカスタムビオチン化RNAベイトの場合:1μLのRNaseブロック(Agilent)を9μLの水中に希釈した。
ii. 3Mbを超えるベイトテリトリーを有するカスタムベイトの場合:1μLのRNaseブロックを3μLの水中に希釈した(7uLの捕捉反応につき依然として0.5μLのRNaseブロック)
d. ベイト混合物:(1反応当たり7μL)
i. RNAベイト−2μL(3Mbを超えるベイトテリトリーを有するベイトの場合、5μLのベイトを使用した)
ii. 希釈されたRNaseブロック−5μL(3Mbを超えるベイトテリトリーを有するベイトの場合、上述のように希釈された2μLのRNaseブロックを使用した)
【0844】
ハイブリダイゼーション緩衝混合液、ブロッキング混合物、およびベイト混合物(複数を含む)を調製した時点で、ハイブリダイゼーション緩衝混合液をボルテックスし、沈降させ、65℃になるまで熱ブロック内で加熱した。ハイブリッド選択される4μLのそれぞれプールされた試料ライブラリを8μLのブロッキング混合物と96ウェルPCRプレート中で混合した。反応物を熱循環機内で95℃で5分間インキュベートし、その後、65℃で保持した。プールされた試料ライブラリ/ブロッキング混合物を95℃で5分間、その後、65℃で2.5分間インキュベートしているときに、ベイト混合物(=ベイト/RNAeブロック混合物)を熱ブロック内に65℃で2.5分間入れた。ハイブリダイゼーション緩衝液含有管を急速に沈降させ、その後、即座に65℃の熱ブロックに戻した。96ウェルプレートを65℃の熱循環機内に残したまま、13μLの加熱したハイブリダイゼーション緩衝混合液をピペットでそれぞれの試料ライブラリ/ブロック混合物に移した。ベイト混合物を65℃で2.5分間インキュベートした時点で、96ウェルプレートを65℃の熱循環機内に残したまま、7μLのベイト混合物をそれぞれの試料ライブラリ/ブロック/ハイブリダイゼーション緩衝混合液に添加した。反応物(全体積は32μLであった)を熱循環機内で65℃で24時間インキュベートした。
磁気ビーズの調製
【0845】
SureSelect洗浄緩衝液2番を熱ブロック内で65℃で予温した。Dynal MyOneストレプトアビジンT1ビーズ(Invitrogen)をボルテックスし、再懸濁させた。ビーズを、50μLのDynalビーズにつき200μLのSureSelect結合緩衝液を添加することによって洗浄した(例えば、300μLのDynalビーズを調製するのに1200μLのSureSelect結合緩衝液を使用した)。ビーズを5秒間ボルテックスし、短期間沈降させた。ビーズを約15秒間、またはすべてのビーズが捕捉されるまで磁石スタンドに設置した。上清を除去し、廃棄した。SureSelect結合緩衝液での洗浄をもう2回繰り返し、合計3回洗浄した。洗浄後、ビーズを50μLのDynalビーズにつき200μLのSureSelect結合緩衝液中に再懸濁させた(例えば、300μLのDynalビーズを調製するのに1200μLのSureSelect結合緩衝液を使用した)。再懸濁したビーズをボルテックスし、短期間沈降させた。200μLの再懸濁したビーズを個別の1.5mLのマイクロ遠心分離管に分注した。
ハイブリッド捕捉DNAの選択
【0846】
24時間インキュベートした後、65℃の熱循環機内のPCRプレートのそれぞれのハイブリダイズした試料を室温の200μLの調製したビーズを含有する管にピペットで迅速に移した。試料およびビーズの混合物を5秒間ボルテックスし、室温で30分間、ローテータ上でインキュベートし、適切な混合を確保した。その後、管を急速に沈降させた。ビーズを磁石上に捕捉し(2分間)、上清を除去し、廃棄した。ビーズを低ストリンジェンシー洗浄のために500μLのSureSelect洗浄緩衝液1番中に再懸濁させた。試料を5秒間ボルテックスし、室温で15分間インキュベートし、磁石から外した。試料を3〜5分間おきに5秒間ボルテックスした。管を急速に沈降させた。その後、ビーズを磁石スタンド上で2分間捕捉し、上清を除去し、廃棄した。高ストリンジェンシー洗浄で的外れの物質を除去するために、ビーズをSureSelect洗浄緩衝液2番で洗浄し、65℃に予熱した。簡潔に、ビーズを500μLの予め加温したSureSelect洗浄緩衝液2番中に再懸濁させ、ボルテクサー上で5秒間混合し、ビーズを再懸濁した。ビーズを遠心分離機内で短期間沈降させ、時々室温で5秒間ボルテックス混合しながら65℃で10分間、熱ブロック内でインキュベートした。その後、ビーズを遠心分離機内で短期間沈降させ、磁石上に2分間捕捉した。65℃に予め加温したSureSelect洗浄緩衝液2番での洗浄をさらに2回繰り返し、合計3回洗浄した。その後、洗浄緩衝液を完全に除去し、50μLのSureSelect溶出緩衝液をビーズに添加し、続いて5秒間ボルテックスしてビーズを混合した。時々5秒間ボルテックス混合しながら、試料を室温で10分間インキュベートした。ビーズを遠心分離機内で短期間沈降させ、磁石スタンド上で捕捉した。捕捉DNAを含有する上清を新しい1.5mLのマイクロ遠心分離管にピペットで移した。50μLのSureSelect中和緩衝液を捕捉DNAに添加した。試料を5秒間ボルテックスし、遠心分離機内で短期間沈降させ、1.8倍量のAMPureXPビーズを用いて精製した。DNAを40μLのヌクレアーゼを含まない水中に溶出した。
捕捉DNAのPCR濃縮
【0847】
PCR試薬を解凍し、PCRマスターミックスを氷上で調製した。1つの試料につき60μLのマスターミックスにおいて、HF緩衝液(NEB番号F−531S)を有する50μLの2倍のPhusion高忠実度マスターミックスを、8μLのヌクレアーゼを含まない水、1μLのQPCRプライマー1.1(H
2O中100μM)、および1μLのQPCRプライマー2.1(H
2O中100μM)と混合した。Q−PCRのプライマー配列は、以下の通りである。
QPCRプライマー1.1(IDTからHPLC精製した):
5’AATGATACGGCGACCACCGAGAT3’(配列番号48)
QPCRプライマー2.1(IDTからHPLC精製した):
5’CAAGCAGAAGACGGCATACGA3’(配列番号49)
60μLのマスターミックスを96ウェルPCRプレート中の40μLのそれぞれ精製した捕捉DNA試料に添加した。反応物を以下のように熱循環機内でインキュベートした:
1サイクル 98℃ 30秒間
12サイクル 98℃ 10秒間
65℃ 30秒間
72℃ 30秒間
1サイクル 72℃ 5分間
4℃ 保持
【0848】
それぞれの100μLのPCR反応物を1.8倍量のAMPureXPビーズで精製し、35μLの溶出緩衝液(10mMのTris、pH8.5)中に溶出した。ハイブリッド選択/捕捉DNA試料をQ−PCRアッセイを用いて定量化した。Q−PCRアッセイは、末端アダプターを検出し、読み取りは、適切なクラスター密度を得るためにどれだけのそれぞれの試料が配列決定フローセル上に装填されるべきかを示した。
実施例5:方法
【0849】
以下は、実施例に従って変化を特定するために使用されるある特定の方法の実施形態および実験条件を例示する。さらなる転座スクリーニングを、例えば、事前選択された腫瘍試料から調製されたcDNAのqRT−PCR分析のいずれかを用いて行うことができる。
【0850】
大規模並列DNA配列決定を、アーカイブした固定パラフィン包埋組織から単離されたDNAを用いてハイブリダイゼーションで捕捉したアダプターライゲーションベースのライブラリ上で行った。分析ツールの組み合わせを用いてデータを分析し、DNA変化呼び出しを割り当てた。さらなる転座スクリーニングを、冷凍腫瘍から調製されたcDNAのqRT−PCR分析またはアーカイブしたFFPE検体のIHC評価のいずれかを用いて行った。FFPE組織から単離されたRNAを用いて両方の新規の転座の発現を確認するために大規模並列cDNA配列決定を行った。血液由来の適合した正常な参照ゲノムDNAをインデックスNSCLC患者のために配列決定して、再編成の体細胞起源を確認した。
ゲノムDNA配列決定
【0851】
145個の癌遺伝子の2574個のエクソンの配列決定をアーカイブしたホルマリン固定パラフィン包理(FFPE)腫瘍検体由来のDNAを用いて行い、24個はNSCLC患者由来であった。配列決定ライブラリをゲノムDNAを用いたアダプターライゲーション方法によって構築し、最適化RNAハイブリダイゼーション捕捉プローブ(AgilentのSureSelectカスタムキット)でのハイブリダイゼーション選択が続いた。253倍の平均深度に対して36×36の対合読み取りを用いて、配列決定をHiSeq2000機器(Illumina)上で行った。腫瘍組織からの変異呼び出しのために最適化されたツールの組み合わせを用いて、塩基置換、インデル、コピー数変化、およびゲノム再編成のデータ処理ならびに変異割り当てを行った。
cDNA配列決定
【0852】
Roche High Pureキットを用いて単一の5〜10umのFFPE組織切片から抽出される全RNAからcDNAを生成し、SuperScript(登録商標)III第1鎖合成システム(Invitrogen)を用いてランダム六量体プライマーでcDNAに逆転写した。二本鎖cDNAをNEBNext(登録商標)mRN第2鎖合成モジュール(New England Biolabs)で作製し、FFPE DNA試料に関して、ライブラリ構築への入力、ハイブリッド捕捉、および配列決定として使用した。分析ツールの組み合わせを用いて発現レベルの分析を行った。
実施例6:マルチプレックス分析用の例となる選択された遺伝子およびバリアント
【0853】
この実施例は、マルチプレックス分析のために遺伝子、バリアント、および癌型の選択を概要する4つの例となる表を提供する。
【0854】
実用能カテゴリーは、下記のように分類される。表1Bは、異なる癌型の例となる変化への異なるカテゴリーの適用の概要を提供する。
【0855】
カテゴリーA:承認された/標準の治療に対する感度または抵抗を予測する承認された/標準の変化
転移性結腸癌におけるKRAS G13D
乳癌におけるERBB2増幅
非小細胞肺癌におけるEGFR L858R
カテゴリーB:特定の実験的治療の対象基準または除外基準である変化
結腸癌、肺癌、または乳癌におけるKRAS G13D
黒色腫、結腸癌、または肺癌におけるBRAF V600E
黒色腫におけるNRAS Q61K
乳癌におけるPIK3CA H1047R
乳癌におけるFGFR1増幅
乳癌におけるPTEN両アレル不活性化
乳癌または膵臓癌におけるBRCA1両アレル不活性化
カテゴリーC:標準治療もしくは実験的治療に対する感度または抵抗を予測する限られた証拠(早期臨床データ、相反する臨床データ、臨床前データ、理論的データ)を有する変化
結腸癌におけるKRAS Q61H(早期臨床)
乳癌におけるPIK3CA H1047R(相反する臨床)
結腸癌におけるBRAF V600E(相反する臨床)
肺癌におけるERBB2変異または増幅(ケース報告)
肺癌におけるBRAF D594G(臨床前)
乳癌におけるFGFR1増幅(臨床前)
乳癌におけるATM両アレル不活性化(臨床前)
結腸癌におけるTSC1両アレル不活性化(臨床前)
乳癌におけるATR二対立遺伝子不活性化(理論的)
肉腫におけるBRAF V600E変異(理論的)
カテゴリーD:特定の癌のサブタイプの予後または診断的有用性を有する変化
結腸癌におけるMSH2両アレル不活性化(強力な臨床的証拠)
結腸癌におけるBRAF V600E(強力な臨床的証拠)
肺癌におけるKRAS G13D(強力な臨床的証拠)
乳癌におけるBRCA1不活性化(強力な臨床的証拠)
カテゴリーE:明確な臨床的意義を有しない、癌における明確な生物学的意義を有する変化(すなわち、ドライバ変異)
結腸癌におけるAPC両アレル不活性化
乳癌におけるTP53両アレル不活性化
黒色腫におけるMITF増幅
卵巣癌におけるARID1A
カテゴリーF:癌における既知の生物学的意義を有しない変化
既知の癌遺伝子における新規の変化
治療の標的
既知の癌遺伝子のオルソログ
実施例7:ハイブリッド捕捉のための例となるベイト配列
【0856】
表7は、例となるベイトを3つの標的:SMAD3_標的_10、SMAD3_標的_11、SMAD3_標的_12に提供する。
表7:例となるベイト
1.遺伝子 標的 ベイトゲノム位置
SMAD3 SMAD3_標的_10 染色体15:67477013〜67477132
CCATTGTGTGTGAGCAAAGGCACCCTGTCCAGTCTAACCTGAATCTCTGTAGGAAGAGGCGTGCGGCTCTACTACATCGGAGGGGAGGTCTTCGCAGAGTGCCTCAGTGACAGCGCTATT(配列番号6)
(ベイトID: SMAD3_標的_10.2)
2.遺伝子 標的 ベイトゲノム位置
SMAD3 SMAD3_標的_10 染色体15:67477037〜67477156
CTGTCCAGTCTAACCTGAATCTCTGTAGGAAGAGGCGTGCGGCTCTACTACATCGGAGGGGAGGTCTTCGCAGAGTGCCTCAGTGACAGCGCTATTTTTGTCCAGTCTCCCAACTGTAAC(配列番号7)
(ベイトID: SMAD3_標的_10.4)
3.遺伝子 標的 ベイトゲノム位置
SMAD3 SMAD3_標的_10 染色体15:67477061〜67477180
GTAGGAAGAGGCGTGCGGCTCTACTACATCGGAGGGGAGGTCTTCGCAGAGTGCCTCAGTGACAGCGCTATTTTTGTCCAGTCTCCCAACTGTAACCAGCGCTATGGCTGGCACCCGGCC(配列番号8)
(ベイトID: SMAD3_標的_10.6)
4.遺伝子 標的 ベイトゲノム位置
SMAD3 SMAD3_標的_10 染色体15:67477085〜67477204
TACATCGGAGGGGAGGTCTTCGCAGAGTGCCTCAGTGACAGCGCTATTTTTGTCCAGTCTCCCAACTGTAACCAGCGCTATGGCTGGCACCCGGCCACCGTCTGCAAGATCCCACCAGGT(配列番号9)
(ベイトID: SMAD3_標的_10.1)
5.遺伝子 標的 ベイトゲノム位置
SMAD3 SMAD3_標的_10 染色体15:67477109〜67477228
GAGTGCCTCAGTGACAGCGCTATTTTTGTCCAGTCTCCCAACTGTAACCAGCGCTATGGCTGGCACCCGGCCACCGTCTGCAAGATCCCACCAGGTAAACGAGCCGCACAGGCACCCCTG(配列番号10)
(ベイトID: SMAD3_標的_10.5)
6.遺伝子 標的 ベイトゲノム位置
SMAD3 SMAD3_標的_10 染色体15:67477133〜67477252
TTTGTCCAGTCTCCCAACTGTAACCAGCGCTATGGCTGGCACCCGGCCACCGTCTGCAAGATCCCACCAGGTAAACGAGCCGCACAGGCACCCCTGCCTTGAGGTCCCTCTCCGAGTGCA(配列番号11)
(ベイトID: SMAD3_標的_10.3)
7.遺伝子 標的 ベイトゲノム位置
SMAD3 SMAD3_標的_11 染色体15:67479655〜67479774
GACCTGGCCACTTCCATCCCCACAGCCCTGTTTCTGTGTTTTTGGCAGGATGCAACCTGAAGATCTTCAACAACCAGGAGTTCGCTGCCCTCCTGGCCCAGTCGGTCAACCAGGGCTTTG(配列番号12)
(ベイトID: SMAD3_標的_11.1)
8.遺伝子 標的 ベイトゲノム位置
SMAD3 SMAD3_標的_11 染色体15:67479679〜67479798
GCCCTGTTTCTGTGTTTTTGGCAGGATGCAACCTGAAGATCTTCAACAACCAGGAGTTCGCTGCCCTCCTGGCCCAGTCGGTCAACCAGGGCTTTGAGGCTGTCTACCAGTTGACCCGAA(配列番号13)
(ベイトID: SMAD3_標的_11.5)
9.遺伝子 標的 ベイトゲノム位置
SMAD3 SMAD3_標的_11 染色体15:67479703〜67479822
GATGCAACCTGAAGATCTTCAACAACCAGGAGTTCGCTGCCCTCCTGGCCCAGTCGGTCAACCAGGGCTTTGAGGCTGTCTACCAGTTGACCCGAATGTGCACCATCCGCATGAGCTTCG(配列番号14)
(ベイトID: SMAD3_標的_11.3)
10.遺伝子 標的 ベイトゲノム位置
SMAD3 SMAD3_標的_11 染色体15:67479727〜67479846
ACCAGGAGTTCGCTGCCCTCCTGGCCCAGTCGGTCAACCAGGGCTTTGAGGCTGTCTACCAGTTGACCCGAATGTGCACCATCCGCATGAGCTTCGTCAAAGGCTGGGGAGCGGAGTACA(配列番号15)
(ベイトID: SMAD3_標的_11.4)
11.遺伝子 標的 ベイトゲノム位置
SMAD3 SMAD3_標的_11 染色体15:67479751〜67479870
CCCAGTCGGTCAACCAGGGCTTTGAGGCTGTCTACCAGTTGACCCGAATGTGCACCATCCGCATGAGCTTCGTCAAAGGCTGGGGAGCGGAGTACAGGTCAGTTATGGGTGCTGCCTACA(配列番号16)
(ベイトID: SMAD3_標的_11.2)
12.遺伝子 標的 ベイトゲノム位置
SMAD3 SMAD3_標的_11 染色体15:67479775〜67479894
AGGCTGTCTACCAGTTGACCCGAATGTGCACCATCCGCATGAGCTTCGTCAAAGGCTGGGGAGCGGAGTACAGGTCAGTTATGGGTGCTGCCTACATCAGGGGACCCAACTCCAGGTGAC(配列番号17)
(ベイトID: SMAD3_標的_11.6)
13.遺伝子 標的 ベイトゲノム位置
SMAD3 SMAD3_標的_12 染色体15:67482692〜67482811
TGTAACCCCCTGGAGATTTTTTAAGTCCCCCACCCCACCCCTTTCCCTATTTCTTACAGGAGACAGACTGTGACCAGTACCCCCTGCTGGATTGAGCTGCACCTGAATGGGCCTTTGCAG(配列番号18)
(ベイトID: SMAD3_標的_12.5)
14.遺伝子 標的 ベイトゲノム位置
SMAD3 SMAD3_標的_12 染色体15:67482716〜67482835
GTCCCCCACCCCACCCCTTTCCCTATTTCTTACAGGAGACAGACTGTGACCAGTACCCCCTGCTGGATTGAGCTGCACCTGAATGGGCCTTTGCAGTGGCTTGACAAGGTCCTCACCCAG(配列番号19)
(ベイトID: SMAD3_標的_12.3)
15.遺伝子 標的 ベイトゲノム位置
SMAD3 SMAD3_標的_12 染色体15:67482740〜67482859
ATTTCTTACAGGAGACAGACTGTGACCAGTACCCCCTGCTGGATTGAGCTGCACCTGAATGGGCCTTTGCAGTGGCTTGACAAGGTCCTCACCCAGATGGGCTCCCCAAGCATCCGCTGT(配列番号20)
(ベイトID: SMAD3_標的_12.2)
16.遺伝子 標的 ベイトゲノム位置
SMAD3 SMAD3_標的_12 染色体15:67482764〜67482883
ACCAGTACCCCCTGCTGGATTGAGCTGCACCTGAATGGGCCTTTGCAGTGGCTTGACAAGGTCCTCACCCAGATGGGCTCCCCAAGCATCCGCTGTTCCAGTGTGTCTTAGAGACATCAA(配列番号21)
(ベイトID: SMAD3_標的_12.4)
17.遺伝子 標的 ベイトゲノム位置
SMAD3 SMAD3_標的_12 染色体15:67482788〜67482907
CTGCACCTGAATGGGCCTTTGCAGTGGCTTGACAAGGTCCTCACCCAGATGGGCTCCCCAAGCATCCGCTGTTCCAGTGTGTCTTAGAGACATCAAGTATGGTAGGGGAGGGCAGGCTTG(配列番号22)
(ベイトID: SMAD3_標的_12.6)
18.遺伝子 標的 ベイトゲノム位置
SMAD3 SMAD3_標的_12 染色体15:67482812〜67482931
TGGCTTGACAAGGTCCTCACCCAGATGGGCTCCCCAAGCATCCGCTGTTCCAGTGTGTCTTAGAGACATCAAGTATGGTAGGGGAGGGCAGGCTTGGGGAAAATGGCCATGCAGGAGGTG(配列番号23)
(ベイトID: SMAD3_標的_12.1)
【0857】
表8は、配列を有するベイトを2つの標的:二次構造を減少させるように修飾されたFLT3_標的_24、より短いベイトに効果的に類似したベイトの両末端上にいくつかの任意の配列を有するFLT4_標的_31に提供する。両方ともに対象範囲を約4倍改善した(約4倍の対象範囲改善)。
表8:例となるベイト
1.遺伝子 標的 ベイトゲノム位置
FLT3 FLT3_標的_24 染色体13:28674626〜28674745
元の配列
CGTCGCGCGCCAACGCCGGCATGGCCTCCGGAGCCCGGGGTCCCCAGGCCGCGCCGGCCCAGCCCTGCGATGCCGCCTGGAGCGGCGCGCCTCGCGCTGCAGGTGGCTCTCTTAAGGATG(配列番号24)
修飾された配列
CGTCTCACGCCAACGCAAGCATGTCCTCCGGAGCCCGGGGTCCCCAGGCCGCGCCGGCCCAGCCCTGCGATGCCGCCTGGAGCGGCGCGCCTCGCACTGCAGATGGCTCTCTTAAGGATG(配列番号25)
(ベイトID: FLT3_標的_24.1)
2.遺伝子 標的 ベイトゲノム位置
FLT3 FLT3_標的_24 染色体13:28674602〜28674721
元の配列
TACCGAGCAGCGGCAGCTGGCCGCCGTCGCGCGCCAACGCCGGCATGGCCTCCGGAGCCCGGGGTCCCCAGGCCGCGCCGGCCCAGCCCTGCGATGCCGCCTGGAGCGGCGCGCCTCGCG(配列番号26)
修飾された配列
TACCGAGCAGCGGCAGCTGGCCGCCGTCGCGCGCCAACGCCGGCATGGCCTCCGGAGCCCGGGGTCCCCAGGCCGCGCATGCCCAGCCCTGCGATGCCGCCTTGAGCAACGCGCCTCACG(配列番号27)
(ベイトID: FLT3_標的_24.2)
3.遺伝子 標的 ベイトゲノム位置
FLT3 FLT3_標的_24 染色体13:28674578〜28674697
元の配列
GCTGCGAGCGAGCGAGCGGGGCCTTACCGAGCAGCGGCAGCTGGCCGCCGTCGCGCGCCAACGCCGGCATGGCCTCCGGAGCCCGGGGTCCCCAGGCCGCGCCGGCCCAGCCCTGCGATG(配列番号28)
修飾された配列
GCTTCGAGAGAGCGAGCGGGGCCTTACCGAGCAGCAGCAGCTGGCCGCCGTCGCGCGCCAACGCCGGCATGGCCTCCGGAGCCCGGGGTCCCCAGGCCGCGCCAGCCCAGCCCTGAGATG(配列番号29)
(ベイトID: FLT3_標的_24.3)
4.遺伝子 標的 ベイトゲノム位置
FLT3 FLT3_標的_24 染色体13:28674554〜28674673
元の配列
GTGGGGGCTGAGGGACCGCGAGGGGCTGCGAGCGAGCGAGCGGGGCCTTACCGAGCAGCGGCAGCTGGCCGCCGTCGCGCGCCAACGCCGGCATGGCCTCCGGAGCCCGGGGTCCCCAGG(配列番号30)
修飾された配列
GAGGTGGCTGAGAGACCGCGAGGAGCTGCGAGCGAGCGAGCGGGGCCTTACCGAGCAGCGGCAGCTGGCCGCCGTCGCGCGCCAACGCAGGCATGGCCTCCGGAGCCCAGGGTCCCCAGG(配列番号31)
(ベイトID: FLT3_標的_24.4)
5.遺伝子 標的 ベイトゲノム位置
FLT3 FLT3_標的_24 染色体13:28674506〜28674625
元の配列
CGAGGCGGCTGGGCCGGAGGAGGCGCGCGCCCGGGTCCACACTGCGGGGTGGGGGCTGAGGGACCGCGAGGGGCTGCGAGCGAGCGAGCGGGGCCTTACCGAGCAGCGGCAGCTGGCCGC(配列番号32)
修飾された配列
CGAGGCGGCTGGGCCGGAGGAGGCGCGCGCCCGGATCCACACTGCGGGGTGGGGGCTGAGGGACCGCGAGGGGCTGCGAGCGAGCGAGCGGGGACTTACCGAGCAGCGGCAACTGGACGC(配列番号33)
(ベイトID: FLT3_標的_24.5)
6.遺伝子 標的 ベイトゲノム位置
FLT3 FLT3_標的_24 染色体13:28674530〜28674649
元の配列
GCGCGCCCGGGTCCACACTGCGGGGTGGGGGCTGAGGGACCGCGAGGGGCTGCGAGCGAGCGAGCGGGGCCTTACCGAGCAGCGGCAGCTGGCCGCCGTCGCGCGCCAACGCCGGCATGG(配列番号34)
修飾された配列
GCACGCACGGATCCACACTGCGGGGTGGGGGCTGAGGGACCGCGAGGAGCTGCGAGCGAGCGAGCGGGGCCTTACCGAGCAGCGGCAGCTGGCAGCCGTCGCGCGCCAACGCCGGCATGG(配列番号35)
(ベイトID: FLT3_標的_24.6)
7.遺伝子 標的 ベイトゲノム位置
FLT4 FLT4_標的_31 染色体5:180076516〜180076635
元の配列
TCGCAGGCACAGCGCGGCGCCCCGCTGCATCTCCGGCCGCTGCGCGTGGGTCCGACCCGAGCGGCCGCGGCTCGGGGCTGAAAGTGTCCGCGCGGGCGCCGGCTGGCCTGGGGCGGGGCG(配列番号36)
修飾された配列
CACACACACAAGCGCGGCGCCCCGCTGCATCTCCGGCCGCTGCGCGTGGGTCCGACCCGAGCGGCCGCGGCTCGGGGCTGAAAGTGTCCGCGCGGGCGCCGGCTGGCCTGCACACACACA(配列番号37)
(ベイトID: FLT4_標的_31.1)
8.遺伝子 標的 ベイトゲノム位置
FLT4 FLT4_標的_31 染色体5:180076396〜180076515
元の配列
GGCGGAGCGGTCTCAGCGCCCGCCCCAGGTGCGCGGTACCCCCTCCCCGGCCAGCCCCACGCTCGGGCGGGTGGCCCGTTCGCCGCGCTCACCGTCCAGGAGTCCCAGGCAGAGCCACAG(配列番号38)
修飾された配列
CACACACACATCTCAGCGCCCGCCCCAGGTGCGCGGTACCCCCTCCCCGGCCAGCCCCACGCTCGGGCGGGTGGCCCGTTCGCCGCGCTCACCGTCCAGGAGTCCCAGGCCACACACACA(配列番号39)
(ベイトID: FLT4_標的_31.2)
9.遺伝子 標的 ベイトゲノム位置
FLT4 FLT4_標的_31 染色体5:180076420〜180076539
元の配列
CCAGGTGCGCGGTACCCCCTCCCCGGCCAGCCCCACGCTCGGGCGGGTGGCCCGTTCGCCGCGCTCACCGTCCAGGAGTCCCAGGCAGAGCCACAGTCGCAGGCACAGCGCGGCGCCCCG(配列番号40)
修飾された配列
CACACACACAGGTACCCCCTCCCCGGCCAGCCCCACGCTCGGGCGGGTGGCCCGTTCGCCGCGCTCACCGTCCAGGAGTCCCAGGCAGAGCCACAGTCGCAGGCACAGCGCACACACACA(配列番号41)
(ベイトID: FLT4_標的_31.3)
10.遺伝子 標的 ベイトゲノム位置
FLT4 FLT4_標的_31 染色体5:180076468〜180076587
元の配列
GGCCCGTTCGCCGCGCTCACCGTCCAGGAGTCCCAGGCAGAGCCACAGTCGCAGGCACAGCGCGGCGCCCCGCTGCATCTCCGGCCGCTGCGCGTGGGTCCGACCCGAGCGGCCGCGGCT(配列番号42)
修飾された配列
CACACACACACCGCGCTCACCGTCCAGGAGTCCCAGGCAGAGCCACAGTCGCAGGCACAGCGCGGCGCCCCGCTGCATCTCCGGCCGCTGCGCGTGGGTCCGACCCGAGCCACACACACA(配列番号43)
(ベイトID: FLT4_標的_31.4)
11.遺伝子 標的 ベイトゲノム位置
FLT4 FLT4_標的_31 染色体5:180076444〜180076563
元の配列
GGCCAGCCCCACGCTCGGGCGGGTGGCCCGTTCGCCGCGCTCACCGTCCAGGAGTCCCAGGCAGAGCCACAGTCGCAGGCACAGCGCGGCGCCCCGCTGCATCTCCGGCCGCTGCGCGTG(配列番号44)
修飾された配列
CACACACACAACGCTCGGGCGGGTGGCCCGTTCGCCGCGCTCACCGTCCAGGAGTCCCAGGCAGAGCCACAGTCGCAGGCACAGCGCGGCGCCCCGCTGCATCTCCGGCCCACACACACA(配列番号45)
(ベイトID: FLT4_標的_31.5)
12.遺伝子 標的 ベイトゲノム位置
FLT4 FLT4_標的_31 染色体5:180076492〜180076611
元の配列
CAGGAGTCCCAGGCAGAGCCACAGTCGCAGGCACAGCGCGGCGCCCCGCTGCATCTCCGGCCGCTGCGCGTGGGTCCGACCCGAGCGGCCGCGGCTCGGGGCTGAAAGTGTCCGCGCGGG(配列番号46)
修飾された配列
CACACACACAAGGCAGAGCCACAGTCGCAGGCACAGCGCGGCGCCCCGCTGCATCTCCGGCCGCTGCGCGTGGGTCCGACCCGAGCGGCCGCGGCTCGGGGCTGAAAGTGCACACACACA(配列番号47)
(ベイトID: FLT4_標的_31.6)
実施例8:次世代の配列決定臨床癌検体由来の体細胞ゲノム変化の高感度検出のためのベイズ手法
【0858】
本明細書に記載のベイズ手法を以下の例で実現した。
【0859】
この手法の実用性は、出力計算によって説明され、臨床状況において関連性のある変異頻度のより狭い範囲内の置換検出へのデータ駆動先行の影響を説明する。
図2に示されるように、先行予想(例えば、1e−6または10%先行)および変異頻度(例えば、1%、5%、または15%変異)の値は、それぞれ、「次世代の配列決定臨床癌検体由来の体細胞ゲノム変化の高感度検出のためのベイズ手法」の(i)および(ii)に記載される値に相当する。
図2は、先行予想を組み込むことで、例えば、変異部位での必須の対象範囲深度を減少させるか、または推定の変異検出力(感度)を増加させることにより、より珍しい変異の検出力を改善することができることを示す。
実施例9:ベイズ手法:構成された低純度多クローン性試料への適用
【0860】
本明細書に開示のベイズ手法のこれらの利点をさらに実証するために、1000人ゲノム計画のうちの10名の参加者由来のDNAを均等に混合することによって人工的な低純度の多クローン性「腫瘍」試料を構築し、それによって、(非公式のヘテロ接合体SNPから生じた)全DNAの約5%または10%に存在する多数の配列バリアントを含有するDNAプールを作成した。その混合物を182個の癌関連遺伝子のエクソンのハイブリッド選択に供し、llumina HiSeq2000プラットフォーム上で配列決定して、遺伝子パネルにわたって約350倍の平均対象範囲をもたらした。それぞれの成分試料も同様に個別に処理し、すべてのSNP部位における遺伝子型を決定した。プールに存在する約260個の約5%「変異」のうち、89%が1e−6先行を用いて高信頼度で検出された一方で、94%および95%が、それぞれ、1%および10%先行を用いて検出可能であり(見逃された部位の平均対象範囲約125倍)、上記の理論的結論を支援する。プールに存在する102個の10%「変異」のうち、98%が1e−6先行を用いて高信頼度で検出されたが、99%および99%が、1%および10%先行を用いて検出可能であった(見逃された部位の対象範囲13倍)。
実施例10:ベイズ手法:肺および結腸腫瘍試料への適用
【0861】
COSMICデータベース(www.sanger.ac.uk/genetics/CGP/cosmic上)からのいくつかの癌型における関連性のある変異の頻度の先行予想を導き出し、日常の臨床検体から抽出される80個を超える肺および結腸癌試料を分析した。20個を超える異なる遺伝子における既知の変異が観察され、その観察には、この癌型におけるこの変異の3%先行の組み込みによってのみ検出することができた結腸癌における1%のPIK3CA変異p.H1047Rが含まれた。これらの結果は、腫瘍型特異的変異スペクトル周辺の先行予想の賢明な組み込みがNGSベースの腫瘍ゲノム分析の臨床状況への変換において有益であり得ることを示す。
実施例11:ベイズ手法:乳癌試料への適用
【0862】
FFPE乳癌試料のために約260回配列決定された182個の癌関連遺伝子のエクソンにおける置換変異呼び出しを行った。代替の対立遺伝子2個を超えるコピーを有する部位の数は、1,793である。変異の存在下で99%を超える事後信頼を有する部位の数は、402である。フィルタ後に留まったままの部位の数は188であり、バリアント部位の予想数に近い。dbSNP中に存在しない部位の数は14であり、dbSNPが90%を超えるバリエーションを捕捉するため、dbSNP中に存在しない部位の予想数に近い。非同義部位の数は5である。COSMIC中の部位の数は2である(PIK3CA p.H1047RおよびP53 p.F113S)。
実施例12:ベイズ手法:低頻度変異の検出
【0863】
多くの日常の臨床検体は、関連性のある珍しい変異を含有する。
図3は、100個を超える臨床癌試料における変異頻度を示す。試料は、主に結腸および肺癌のFFPE生検、外科的切除物、または細針吸引物であった。一連の臨床試料において見られる既知の変異の頻度スペクトルが表12に示される。
実施例13A.個別に合成されたオリゴヌクレオチド捕捉プローブを用いた高性能の溶液ベースの標的選択
【0864】
溶液ベースのゲノム標的選択技術の可用性は、標的とされた配列決定適用の迅速な開発を可能にしており、それらのうちのいくつかは、臨床配列決定試験の導入をもたらした。商品化されたハイブリダイゼーション捕捉試薬は、アレイ合成オリゴヌクレオチドに基づき、それは、ビオチン化DNAまたはRNAプローブ(「ベイト」)に変換される。しかしながら、プローブのこれらの複雑なプールを生成する方法は、性能上の課題、例えば、高いGC含量標的の捕捉に直面する。
【0865】
57個の臨床的に関連し、かつ実用的な癌関連遺伝子を表す約130kbの標的領域を捕捉するために個別に合成された5’−ビオチン化オリゴヌクレオチド(「オリゴベイト」)を用いた代替の手法が本明細書に記載される。24時間のハイブリダイゼーション手順でこれらのオリゴベイトを用いて選択されたインデックス付き配列決定ライブラリは、5,000倍の標的濃縮をもたらした。50Mの49×49対合末端読み取りは、568倍(27%)の標準偏差で2100倍の平均標的対象範囲を生成した。99.95%の標的化塩基が500倍超で対象範囲とされ、すべての標的を対象範囲とすることに成功した。さらに、標的対象範囲は、実質的にGCバイアスを有しなかった。70%を超えるGC含量を有する標的は、平均して1,975倍の対象範囲となり、35%未満のGC含量を有する標的は、平均して1,996倍の対象範囲になった。
【0866】
さらにより短いハイブリダイゼーション時間を用いて高性能を維持した:99.3%の標的化塩基が2.5時間のハイブリダイゼーション後に500倍超で対象範囲とされた。
【0867】
SSPE(Salmon Sperm,PE)/デンハルト液の使用は、TEACl、TMACl、および/または硫酸デキストランを含有するハイブリッド/洗浄緩衝液よりも優れていた。
【0868】
オリゴベイトをアレイ由来のベイトプール内にスパイクして、別の方法では捕捉するのが困難な(例えば、高GC含量の)領域の対象範囲を増加させるか、または新たな遺伝子含量を迅速に付加することができる。この手法は、高性能の標的化臨床配列決定試験を開発する非常に効果的かつ拡張可能な方法を提供する。
実施例13B:ベイトの捕捉を最適化する方法
【0869】
3つのベイトセットを試験した。結果は
図5に要約される。ベイトセットは以下のものであった:
ベイトセット1は、個別に合成された5’−ビオチン化DNAオリゴヌクレオチドベイトのみからなる。
ベイトセット2は、個別に合成された5’−ビオチン化DNAオリゴヌクレオチドベイトでスパイクされたアレイ由来のビオチン化RNAベイトを含む。
ベイトセット3は、アレイ由来のビオチン化RNAベイトのみからなる。
【0870】
すべての個別に合成された5’−ビオチン化DNAオリゴヌクレオチドは、5’ビオチンを有する120個の塩基であった。
【0871】
図5は、ベイトセット3と比較した、ベイトセット1およびベイトセット2で検出された対象範囲の均一性を比較する対象範囲ヒストグラムである。ベイトセットは、
図5において1、2、および3で示される。
図5に示されるように、高GC含量に相当するベイトセット3を用いたときに対象範囲におけるいくつかのギャップが存在したが、対応する領域は、ベイトセット1および2を用いたときに深く対象範囲とされた。
図5において、「GC_密度_標的...」とラベル付けされた左側のパネルは、標的内の局所GC含量を示す。線は、65%のGC含量を表し、その線を超える任意の値は、より高いGC含量を表す。ヒストグラムに示されるように、高GC含量の領域におけるベイトセット3の対象範囲が最も低い。
図5の「IDT_ベイト...」とラベル付けされた一番下のパネルは、示される標的を対象範囲とするオリゴの配置を示す。
【0872】
アレイ由来のベイトセットのみまたは個別に合成されたベイトでスパイクされたベイトを用いた標的の数および対象範囲の変化を示すグラフが
図4に示される。より具体的には、
図4は、対象範囲ヒストグラムの線形表示である。標的の数(Y軸)は、対象範囲の関数(X軸)として示される。線1は、個別に合成された5’−ビオチン化DNAオリゴヌクレオチドベイト(
図4において「ベイトセット1」と称される)でスパイクされたアレイ由来の5’−ビオチン化RNAオリゴヌクレオチドベイトを含むベイトセットを用いた対象範囲を表す。線2は、アレイ由来のビオチン化RNAオリゴヌクレオチドベイトのみ(
図4において「ベイトセット2」と称される)を含むベイトセットを用いて得られた対象範囲を表す。ベイトセット2を用いたときの全体の平均対象範囲が924であった一方で、ベイトセット2を用いたときの高GC含量(約68%)の領域における対象範囲は73であった。対照的に、ベイトセット1を使用したとき、全体の対象範囲は、ベイトセット1と同様であった(約918)が、高GC含量の領域における対象範囲は、183に改善された。
実施例13C:ベイトセットを評価するための例となる実験条件
【0873】
ベイトセットAは、個別に合成された5’−ビオチン化DNAオリゴヌクレオチドベイトのみからなる。最初のセットは、133kbの標的テリトリーを対象範囲とする1000個のオリゴ(本明細書で「ラージセット」、「ベイトセットA」、または「DNAオリゴベイト」と称される)であった。
【0874】
「スパイクイン」実験において、最初の1000個のDNAオリゴセット(「ラージセット」)を、アレイ由来のビオチン化RNAオリゴヌクレオチドベイトからなるベイトセット(この実施例において「ベイトセットB」または「RNAベイト」と称される)に添加した。ベイトセットAとは異なる比率のDNAオリゴベイトをベイトセットB由来のRNAベイトと混合した。具体的には、1:10比のDNAオリゴベイト:RNAベイトを使用した(合計10ngのDNAオリゴベイト:合計100ngのRNAベイト)。ハイブリダイゼーションおよび洗浄条件を、RNAベイトにとって最も理想的な条件に適合した(RNAベイトの最適な洗浄温度は約70Cであるが、DNAオリゴベイトにおいては約50Cであることが主な相違点である)。
【0875】
低タイリング密度で、対象範囲の強度の周期性がベイト配置に一致したDNAオリゴベイトを用いたときに検出された。加えて、低タイリング密度は、インデルを有する対立遺伝子の捕捉をより困難にし得る。したがって、ベイトセットを表13に示される異なるタイリング密度でMAP3K1のために設計した。以下の混合物において、6個の癌関連遺伝子(DAXX、TRRAP、CREBBP、GRIN2A、SPOP、GNA11)のエクソンを捕捉するように設計された個別に合成された5’−ビオチン化DNAオリゴベイトを含有する混合物1を、アレイ由来のRNAオリゴヌクレオチドベイトのみ(ベイトセットB)内にスパイクした。DAXX、TRRAP、CREBBP、GRIN2A、およびSPOPは、RNAベイトセット中に存在しなかった。混合物2〜4をベイトセットA(DNAオリゴベイトのラージセット)内にスパイクして、異なるタイリング密度(混合物2の密度が最も高い)のMAP3K1のエクソンの捕捉ベイトを試験した。RNAベイトセットのみが約1MBの配列を対象範囲とした。
【0876】
2μgのプールされた細胞株DNAライブラリを捕捉物に入れた。2μgのライブラリをブロッキング混合物(表14)と混合し、乾燥させ、9μLの水中に再懸濁させた。その後、この混合物をプレートに入れ、サイクラーに移し、98℃で5分間、続いて68℃で2分間実行した。その後、プレートを開封し、68℃の11μLのDNAベイト/ハイブリッド緩衝液混合物を添加した。68℃のDNAベイト/ハイブリッド混合物は、10μLのハイブリッド緩衝液+1μLのベイト(10ng、50ng、または100ngのベイトを含有する)であった。
【0877】
DNAベイトのみ(例えば、ベイトセットA)での捕捉の場合、68℃でハイブリダイゼーションを行い、50℃で洗浄を行った。ベイトを、(2ugの入力ライブラリにつき)5ng、10ng、100ng、1000ng、および2000ngで試験した。24時間のハイブリダイゼーションの場合、5〜10ng条件が理想的であり、100ng条件も許容可能であった。2.5時間のハイブリダイゼーションの場合、100ngが最も良好に作用した。
【0878】
低性能/高GC領域をレスキューするためにRNA−アレイベイトセット(b)内にスパイクされる大きいDNAベイトセット(100kb)での捕捉の場合、68℃でハイブリダイゼーションを行い、70℃で洗浄を行った。ベイトセットを1:10のDNAオリゴ:RNAベイトで試験した(すなわち、合計質量10ngのオリゴベイトおよび合計質量100ngのRNAベイト)。
【0879】
RNAベイトセット内にスパイクされる遺伝子に焦点を当てた小さいDNAベイトセットでの捕捉の場合、68℃でハイブリダイゼーションを行い、洗浄温度の範囲を試験した(62℃、64℃、66℃、68℃、70℃、および72℃)。
【0880】
混合物1(6個の新たな遺伝子を添加した)を、1:5、1:10、および1:20の全オリゴDNAベイト質量:RNAベイト質量(すなわち、20ng:100ng、10ng:100ng、および5ng:100ng)の比率で試験した。
【0881】
混合物5(経路低対象範囲に対するSTK11のエクソン3を表す3個のオリゴ)を1:500、1:1000、および1:2000のDNAオリゴ:RNAオリゴで試験した。合計100ngのRNAベイトを使用した。RNAベイトのみで捕捉したときにSTK11が低検出性能で重要な癌標的を示すとして、STK11を試験した。STK11のエクソン3のDNAオリゴスパイキングは、対象範囲を平均70倍から300倍に増加させた。
実施例14.低入力のホルマリン固定組織由来のDNAを用いた敏感な腫瘍プロファイリングのための日常の超深度配列決定
【0882】
ハイスループットDNA配列決定技術を幅広く採用することで、癌ゲノムの急速な発達を促進している。しかしながら、ゲノム癌診断における標準治療は、依然として個別の遺伝子および特異的変異に焦点を当てた試験を含む。臨床的に実用的な変異の数が増加すると、特に組織検体が概して生検と同様に限定的であるときに、1試験パラダイム当たりのこの単一の変異は実現不可能になる。腫瘍試料の包括的ゲノムプロファイリングの臨床的必要性に対処するために、我々は、200個を超える癌関連遺伝子の大規模並列配列データを送達する臨床試験を開発した。さらに、この試験は、臨床的に関連性があると示されており、超深部配列決定データを最低で50ngのDNA入力を有するホルマリン固定パラフィン包埋(FFPE)組織試料および最長で11年齢の試料から生成する。
【0883】
多種多様の試料上でこの試験の性能を評価するために、DNAを経年したブロックセット由来の96個のFFPE検体から単離し、1、3、5、7、9、および11年齢にわたってそれぞれの組織に均一に分布された乳房、結腸、肺、および腎臓組織のそれぞれに由来する12個の腫瘍組織/正常な組織の対を含んだ。200ngおよび/または50ngの入力DNAを用いて、インデックス付き配列決定ライブラリを構築し、その後、これを溶液ベースのハイブリッド捕捉方法を用いて200個を超える癌関連遺伝子に濃縮し、Illumina HiSeq(商標)2000プラットフォーム上で配列決定した。
【0884】
ライブラリ構築のために少なくとも200ngのDNAを産生する76個の試料の場合、配列対象範囲は、PCR重複の除去後に平均して1,000倍になり、95%を超える試料が350倍を超える平均対象範囲をもたらした。ライブラリ構築に50ngを使用した試料の場合、対象範囲は、平均して450倍になった。配列決定性能は、すべての試料組織型および年齢にわたって一致した。そのような超深部配列決定は、最低で5〜10%の頻度で存在する変異の高信頼度検出を可能にする。
実施例15.循環腫瘍細胞を用いた腫瘍ゲノムのプロファイリング
【0885】
循環腫瘍細胞(CTC)は、低侵襲的な連続した様式でヒト悪性腫瘍をサンプリングする独自の機会を提供する。癌ゲノムの分子を特徴付けるためにCTCを使用することは、2つの主要課題を提示する。第1に、CTCを血液から効率的に単離しなければならず、その場合、CTCは非腫瘍細胞の数の10
7分の1であり得る。第2に、材料の喪失およびバイアスの導入を最小限に抑えながら、CTC試料中に存在する腫瘍ゲノムの限られた数をアクセス可能な形態で捕捉しなければならない。
【0886】
以前のCTC遺伝分析は、対立遺伝子特異的PCRを使用しており、これらの方法は、10
4倍以上の野生型配列のバックグラウンドにおける非常に少ないコピー数の特異的変異の検出を可能にする。CTC存在量および捕捉効率の二重課題に対処するが、この手法は、本来、予め指定された選択バリアントの限られた特徴付けに限定される。分子CTC分析をゲノム時代に持ち込むために、我々は、CTCの回収を可能にする珍しい細胞のマイクロ流体捕捉システムと何万ではなく数百個のみの白血球のバックグラウンドを連結し、次世代プラットフォームは、単一のCTC試料由来の200個を超える癌関連遺伝子の再深度配列決定を可能にする。
【0887】
最大10個の癌細胞株の複合混合物を用いたとき、敏感な変異検出(10%以上の存在量の遺伝子の場合、約94%)は、最少で合計100個の細胞を形成し、対立遺伝子頻度を概して保存した(R
2約0.90)。全血内にスパイクされる培養細胞を再捕捉することによって、10個という少ない癌細胞を含有する検体からの多遺伝子変異特性を得た。この感度レベルは、臨床CTC試料の大半をNGS分析の届く範囲に配置する。乳癌患者由来の一連の血液試料において、潜在的なCTC異質性を、Her2Neu陽性細胞の頻度を体細胞変異陽性DNAの相対存在量と比較することによって調査した。
実施例16.FFPE腫瘍試料の標的化DNAおよびRNA深度配列決定の統合を介する遺伝子発現における癌関連変異、転座、および変化の検出
【0888】
個別治療の癌への広範な適用は、腫瘍のゲノムおよびトランスクリプトームに存在する様々な異常の包括的で敏感かつタイムリーな特徴付けを必要とする。ホルマリン固定パラフィン包理(FFPE)ブロックとして一般に保管される大部分の臨床癌試料由来のRNAおよびDNAは、品質が悪く、分子プロファイリングでの使用が困難であった。新生の次世代DNA配列決定アッセイは、損傷されたDNAとうまく機能し、多くの種類のゲノム異常を検出するのに十分敏感である。現在、FFPE腫瘍試料由来のトランスクリプトームの包括的分析の比較可能なRNA配列決定プロトコルが存在しない。
結果:
【0889】
FFPE適合性標的化RNA配列決定ならびに200個を超える癌関連遺伝子における変異、再編成、および発現変化の高感度検出の分析方法を開発した。プロトコルを細胞株RNA上で検証し、50個を超えるFFPE非小細胞肺癌(NSCLC)腫瘍を研究するために使用した。既知の変異および遺伝子融合物(例えば、BCR−ABL1)を細胞株中で検出した。デジタル発現プロファイリングの技術的再現性は、細胞株およびFFPE RNAにおいて、それぞれ、R
2=0.99および0.9を上回った。癌ゲノムでは予想通り、RNA配列は、既知の癌遺伝子を伴う点変異および新規の再編成を含むゲノムにおける以上の証拠を提供した。EGFR、FGFR3、CDH5、KIT、およびRETを含む癌遺伝子の非常に有意な差次的発現が明らかになり、異なる腫瘍にわたって2.5〜70倍の範囲に及んだ。同一のFFPE試料上でのRNAおよびDNA配列決定データの組み合わせは、ゲノム変化の機能的結果を裏付け、例として、変異TP53対立遺伝子の発現およびDNAレベルでヘテロ接合性の消失を呈した腫瘍におけるSTK11発現の減少が挙げられる。次世代配列決定技術のFFPE RNAへの適用および現存のDNA配列決定方法との統合が、臨床的に関連する癌生物学の理解を深め、患者ケアを改善することが期待される。
方法:
【0890】
製造業者の指示に従って、Roche High Pureパラフィンキットを用いて、RNAをFFPE組織切片、典型的には、1個または2個の10μmカールから抽出する。抽出したRNAを−80℃で保管する。RNAの収量および品質を、それぞれ、製造業者の指示に従って、RiboGreen(Invitrogen)およびバイオアナライザRNAピコチップ(Agilent)で評価する。典型的な収量は500ng〜2μgであり、RINスコアは4未満である。
【0891】
相補的DNA(cDNA)の第1の鎖を、製造業者のプロトコルに従って、SuperScript III(Invitrogen)を使用して、550pmolのランダム六量体をプライマーとして用いて、20μLの反応物中の100〜600ngのFFPE RNAから産生する。第1の鎖合成の直後に、製造業者のプロトコルに従って、60μLのNEBNext Second Strand Synthesis Module(New England Biolabs)マスターミックスを添加し、16℃で150分間インキュベートして、完全な二本鎖cDNAを生成する第2の鎖合成を行う。二本鎖cDNAの品質および収量を、それぞれ、PicoGreen(Invitrogen)およびバイオアナライザ高感度チップ(Agilent)を用いて評価することができる。概して、全cDNA合成収量を標準のFMIライブラリ構築プロトコルへの入力として使用する。
【0892】
対合末端適合性配列決定ライブラリの構築ならびにFFPE RNAから生成されるcDNAのその後のハイブリッド選択および配列決定を、本明細書に記載のFFPE DNAと同様のプロトコルを用いて行うが、FFPE RNAの高度な断片化特性が剪断を不必要にするため、末端修復ステップから直接開始する。
【0893】
当技術分野で既知の方法を用いてFFPE RNAからの配列決定データの分析を行うことができる。例えば、読み取り対すべてを参照ゲノム配列(hg19)および/または参照トランスクリプトーム(既知の転写物の配列すべて、例えば、RefSeq)にマッピングすることによって、FFPE RNAからの配列決定データの分析を行うことができる。その後、マッピングされた読み取りは、例えば、Berger et al.(2010)Genome Res.20(4):413−27(PMID20179022)およびGarber et al.(2011)Nat Methods.8(6):469−77(PMID21623353)の文献に記載されるように、遺伝子融合、遺伝子配列における変異、選択的スプライシングを特定し、かつ遺伝子発現を定量化するために使用される。Levin et al.(2009)Genome Biol.10(10):R115(PMID19835606)によって実証されるように、標的化RNA配列を採用して、選択された組の遺伝子における変異検出および融合発見を改善し、かつ発現プロファイリングの定量的情報を保存することができる。
実施例17.臨床腫瘍試料の超深度配列決定による高感度かつ正確な変異呼び出し
【0894】
癌ゲノムの理解の急速な進歩および利用可能な標的療法数の増大は、包括的な腫瘍プロファイリングに基づいて、効果的な癌治療の拡大する機会を提供する。研究セッティングにおける次世代配列決定による腫瘍ゲノムを分析する実験的および計算的手法が著しく進歩したが、これらの技術を診療所に拡大適用することは、重大なさらなる課題を提示する。これらの課題の手がかりは、臨床検体の限定的な純度および異質性であり、その要件と相まって、広範囲の臨床的に実用的な可能性のある変異に高感度および高精度を提供する。
【0895】
この課題に対処するために、我々は、200個を超える癌関連遺伝子の超深度配列データ(700倍超)を日常のFFPE腫瘍試料から生成することができる臨床試験、ならびにこの深度を利用して低画分で存在する異なる種類の変異に高レベルの感度および精度を提供することができる計算ツールを開発した。我々の分析パイプラインは、既知の変異頻度を説明するマッピングされた配列データ中の短いバリアントを検出し、ブレークポイント検出と局所アセンブリを合わせて代替の方法では頻繁に見逃されるより大きい挿入および欠失を特定する。加えて、コピー数の変化および主要な癌遺伝子を含む再編成を特定する。
【0896】
我々が新たに開発した方法の分析性能を検証するために、我々は、異種DNAにおける珍しい事象のモデルとして20個の正常なHapMap細胞株および28個の個別に特徴付けられた癌細胞株を含む試料混合物の広範囲な研究を設計および実行した。我々は、混合物の10%超に存在する置換に対して100%の感度および1〜50bpのインデルに対して90%を超える感度を報告し、両方ともに、PPVが99%を超える。我々の試験の227個の黒色腫、前立腺、乳房、結腸、および肺腫瘍試料のコホートへの適用は、427個の既知の見込みのある体細胞ドライバ変異を示し、そのうちの40%は、20%および18%未満、10%未満の試料画分に存在し、高感度の変異呼び出しの重要性を強調した。
実施例18.切除縁における癌変異の検出
【0897】
腫瘍の縁の組織が組織学的に正常な場合でも、癌関連変異を検出することができることが見出されている。過形成性結腸ポリープに関連した組織試料を三連構造としてBioServe(Beltsville,MD)から購入した。その三連構造は、末梢血液白血球由来のゲノムDNA、正常な組織FFPE(ホルマリン固定パラフィン包埋)、および腫瘍組織FFPEを含んだ。
【0898】
例えば、
増分的に試験した過形成性結腸ポリープの縁から単離された正常な結腸試料由来の6個の切片において、ポリープから最も遠位の切片(切片1)ではKRAS変異は観察されなかった。ポリープから2番目に遠位の切片(切片2)の細胞の1%、ポリープから3番目に遠位の切片(切片3)の細胞の2%、ポリープから4番目に遠位の切片(切片4)の細胞の3%、ポリープから5番目に遠位の切片(切片5)の細胞の4%、およびポリープに最も近い切片(切片6)の細胞の5%においてKRAS p.G13D変異が観察された。ポリープの縁由来の切片から単離された細胞の6%において変異が観察された。
【0899】
切片1、3、および5由来の組織試料のH&E染色から、癌組織の組織学的証拠は確認されなかった。切片6由来の組織のH&E染色から、ポリープの存在が確認された。
【0900】
腫瘍の異質性が、遠位直腸由来の適度に分化した浸潤性の腺癌の切片で検出された。具体的には、増分的に試験した切片1〜6は、それぞれ、変異BRAF p.V600E、TP53 p.R213X、BRCA1 c.2105delG、APC c.5541insG、およびAPC c.6463delAを含んだ。
【0901】
これらの実験の結果は、切除縁での組織の遺伝子検査が癌組織または前癌組織の検出により敏感であることを示した。したがって、切除縁で組織の遺伝子検査を行うことによって、例えば、本明細書に記載の配列決定方法によって、医療関係者は、より情報に基づいてさらなる治療過程について提言することができる。例えば、遺伝子検査の結果に応じて、さらなる治療を提言するか、またはそれ以上の治療を行わないことについて提言することができる。さらなる治療には、遺伝子検査によって特定された変異に基づいて、例えば、化学治療もしくは放射線、またはそれら両方、あるいは化学治療の場合、特定の薬物もしくは薬物の組み合わせ、または特定の投与レジメンが含まれ得る。
参照による組み込み
【0902】
本明細書で言及されるすべての出版物、特許、および特許出願は、それぞれの個別の出版物、特許、または特許出願が参照により組み込まれると具体的かつ個別に示されるかのように、参照によりそれらの全体が本明細書に組み込まれる。矛盾が生じる場合、本明細書における任意の定義を含めて、本出願が優先される。
【0903】
ワールドワイドウエブ上のtigr.orgにおいてゲノム研究期間(The Institute for Genomic Research:TIGR)によって、および/またはワールドワイドウエブ上のncbi.nlm.nih.govにおいて国立生物工学情報センター(National Center for Biotechnology Information:NCBI)によって維持される公開データベース等の公開データベースのエントリと相関する受入番号を参照する任意のポリヌクレオチドおよびポリペプチド配列も、参照によりそれらの全体が組み込まれる。
等価物
【0904】
当業者であれば、本明細書に記載の本発明の特定の実施形態に対する多くの等価物を理解するか、または日常の実験のみを用いて確かめることができる。そのような等価物は、以下の特許請求の範囲によって包含されるよう意図される。