(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-26
(45)【発行日】2024-07-04
(54)【発明の名称】がんにおける変異シグネチャ
(51)【国際特許分類】
C12Q 1/6827 20180101AFI20240627BHJP
A61K 45/00 20060101ALI20240627BHJP
A61P 35/00 20060101ALI20240627BHJP
A61P 43/00 20060101ALI20240627BHJP
C12N 15/09 20060101ALI20240627BHJP
C12Q 1/04 20060101ALI20240627BHJP
G01N 33/50 20060101ALI20240627BHJP
【FI】
C12Q1/6827 Z
A61K45/00
A61P35/00
A61P43/00 111
C12N15/09 Z
C12Q1/04
G01N33/50 P
(21)【出願番号】P 2019508296
(86)(22)【出願日】2017-04-28
(86)【国際出願番号】 EP2017060289
(87)【国際公開番号】W WO2017191073
(87)【国際公開日】2017-11-09
【審査請求日】2020-04-10
【審判番号】
【審判請求日】2022-05-18
(32)【優先日】2016-05-01
(33)【優先権主張国・地域又は機関】GB
(73)【特許権者】
【識別番号】518369590
【氏名又は名称】ゲノム・リサーチ・リミテッド
(74)【代理人】
【識別番号】110002572
【氏名又は名称】弁理士法人平木国際特許事務所
(72)【発明者】
【氏名】ニク-ザイナル,セリーナ
(72)【発明者】
【氏名】ストラットン,マイク
(72)【発明者】
【氏名】デービス,ヘレン
(72)【発明者】
【氏名】グロドジク,ドミニク
【合議体】
【審判長】福井 悟
【審判官】加々美 一恵
【審判官】天野 貴子
(56)【参考文献】
【文献】特表2015-506678(JP,A)
【文献】特表2011-503111(JP,A)
【文献】Cell Reports、2013 JAN 31、vol.3、pp.246-259
【文献】植村昌子、米田誠治、「白金制がん剤の今とこれから」、Biomedical Research on Trace Elements、2015年、第26巻、第4号、p157-165
(58)【調査した分野】(Int.Cl.,DB名)
C12Q1/00-3/00
JSTPlus/JMEDPlus/JST7580(JDreamIII)
CAplus/WPIDS/MEDLINE/BIOSIS/EMBASE(STN)
(57)【特許請求の範囲】
【請求項1】
がんを有する患者が、PARP阻害剤又は白金ベースの薬物に応答する可能性が高いかどうかを予測する方法であって、該方法は、前記患者から得られたDNAサンプルにおける再編成シグネチャ
3、及び/又は5の1つ以上の存在又は不在を決定するステップを含み、再編成シグネチャ
3、及び5は、表1に定義され、前記再編成シグネチャのそれぞれ又は組み合わせの1つ以上に関連すると決定されたその再編成カタログにおける再編成の数又は割合が、所定の閾値を超える場合に、DNAサンプルは、再編成シグネチャの存在を示すと見なされ、前記再編成シグネチャの1つがサンプルに存在する場合、患者は、PARP阻害剤又は白金ベースの薬物に応答する可能性が高い、方法、
ここで前記サンプルにおける再編成シグネチャの存在又は不在を決定するステップは、 前記サンプルにおける体細胞変異をカタログ化して、サンプルにおける同定された再編成変異を複数のカテゴリに分類するそのサンプルについての再編成カタログを生成するステップを含み、
前記再編成変異の分類は、変異をクラスタ化又は非クラスタ化されていると同定することを含み、
前記再編成変異の分類は、変異を、タンデム重複、欠失、逆位、又は転座のうちの1つと同定することを含み、
前記再編成変異の分類は、タンデム重複、欠失、又は逆位と同定された変異を、サイズによりグループ化することを含む、前記方法。
【請求項2】
PARP阻害剤又は白金ベースの薬物を用いた治療についてがんを有する患者を選択する方法であって、該方法は、前記患者から得られたDNAサンプルにおける再編成シグネチャ
3、及び/又は5の1つ以上の存在又は不在を同定するステップ、ここで、再編成シグネチャ
3、及び5は、表1に定義され、前記再編成シグネチャのそれぞれ又は組み合わせの1つ以上に関連すると決定されたその再編成カタログにおける再編成の数又は割合が、所定の閾値を超える場合に、DNAサンプルは、再編成シグネチャの存在を示すと見なされ、及び前記再編成シグネチャの1つがサンプルに存在する場合、PARP阻害剤又は白金ベースの薬物を用いた治療について患者を選択するステップを含む、方法、
ここで前記サンプルにおける再編成シグネチャの存在又は不在を決定するステップは、 前記サンプルにおける体細胞変異をカタログ化して、サンプルにおける同定された再編成変異を複数のカテゴリに分類するそのサンプルについての再編成カタログを生成するステップを含み、
前記再編成変異の分類は、変異をクラスタ化又は非クラスタ化されていると同定することを含み、
前記再編成変異の分類は、変異を、タンデム重複、欠失、逆位、又は転座のうちの1つと同定することを含み、
前記再編成変異の分類は、タンデム重複、欠失、又は逆位と同定された変異を、サイズによりグループ化することを含む、前記方法。
【請求項3】
患者から得られたDNAサンプルにおける再編成シグネチャ1~6のいずれか1つの存在を決定する方法であって、再編成シグネチャは、表1に定義され、特定の再編成シグネチャに関連すると決定されたその再編成カタログにおける再編成の数又は割合が、所定の閾値を超える場合に、DNAサンプルは、その特定の再編成シグネチャの存在を示すと見なされる、方法、
ここで前記サンプルにおける再編成シグネチャの存在又は不在を決定するステップは、 前記サンプルにおける体細胞変異をカタログ化して、サンプルにおける同定された再編成変異を複数のカテゴリに分類するそのサンプルについての再編成カタログを生成するステップを含み、
前記再編成変異の分類は、変異をクラスタ化又は非クラスタ化されていると同定することを含み、
前記再編成変異の分類は、変異を、タンデム重複、欠失、逆位、又は転座のうちの1つと同定することを含み、
前記再編成変異の分類は、タンデム重複、欠失、又は逆位と同定された変異を、サイズによりグループ化することを含む、前記方法。
【請求項4】
サンプルにおける再編成シグネチャの存在又は不在を決定するステップが、さらに、
前記カタログにおける再編成変異と再編成変異シグネチャとの間のコサイン類似度を計算することによって、
既知の再編成シグネチャの前記再編成カタログへの寄与を決定するステップを含む、請求項
1~3のいずれか一項に記載の方法。
【請求項5】
前記決定するステップの前に、前記カタログにおける変異をフィルタリングして、残存する生殖細胞系列変異、コピー数多型、及び
既知の配列決定アーティファクトのうちの1つ以上を除去するさらなるステップを含む、請求項
4に記載の方法。
【請求項6】
フィルタリングが、
既知の生殖細胞系列多型のリストを使用する、請求項
5に記載の方法。
【請求項7】
フィルタリングが、DNAサンプルと同じプロセスによって配列決定されたマッチングされていない正常ヒト組織のBAMファイルを使用し、前記BAMファイルの少なくとも2つにおける少なくとも2つの良好にマッピングされたリードに存在する任意の体細胞変異を捨てる、請求項
5に記載の方法。
【請求項8】
変異が、個々の患者のサンプルについての再編成の全ゲノム平均密度の少なくとも10倍大きい再編成ブレークポイントの平均密度を有する場合、クラスタ化されていると同定する、請求項
1~7のいずれか一項に記載の方法。
【請求項9】
このサンプルのカタログ
と
との間のコサイン類似度(
):
【数1】
に比例する、i番目の
既知の変異シグネチャ
に関連する再編成カタログにおける再編成の数E
iを決定するステップをさらに含み、ここで、
【数2】
であり、
及び
は、それぞれ
既知の再編成シグネチャ及び再編成カタログである、非負成分を有する等しいサイズのベクトルであり、qは、前記複数の
既知の再編成シグネチャにおけるシグネチャの数であり、E
iは、
【数3】
及び
【数4】
という要件によってさらに制約されている、請求項
1~8のいずれか一項に記載の方法。
【請求項10】
再編成の数を決定するステップが、カタログとの相関がより小さいシグネチャから、カタログとの相関がより大きいシグネチャへ1つ以上の再編成を再割り当てすることによって、各シグネチャに割り当てられると決定された再編成の数をフィルタリングするステップをさらに含む、請求項
9に記載の方法。
【請求項11】
フィルタリングのステップが、貪欲アルゴリズムを使用して、カタログ
と、再構築されたカタログ
【数5】
との間のコサイン類似度を改善するか、又は変更しない、シグネチャへの再編成の代替的割り当てを反復的に見出すものであり、
は、シグネチャiからシグネチャjへ変異を移動させることによって得られるベクトル
のバージョンであり、各反復において、シグネチャ間の全ての可能な移動の影響が推定され、これらの可能な再割り当ての全てがコサイン類似度に負の影響を与える場合、フィルタリングステップは終了する、請求項
10に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、がんを有する患者におけるいくつかの変異シグネチャの同定に関する。変異シグネチャは、新しい塩基置換シグネチャ及び再編成シグネチャを含む。これらの変異シグネチャは、がんを特徴付けるために使用することができ、治療の特定に使用することができる。本発明はまた、これらのシグネチャを検出する方法に関する。
【背景技術】
【0002】
体細胞変異は、人体の全ての細胞に存在し、生涯を通じて発生する。それらは、複数の変異プロセス、例えば、DNA複製機構の固有のわずかな不正確性、外因性若しくは内因性変異原曝露、DNAの酵素的改変、並びに欠陥のあるDNA修復の結果である。異なる変異プロセスは、「変異シグネチャ」と呼ばれる変異タイプの独自の組み合わせを生成する。
【0003】
過去数年、大規模な分析により、種々のヒトがんタイプにわたる多くの変異シグネチャが明らかになっている。
【0004】
がんの変異理論は、「ドライバ」変異と呼ばれるDNA配列の変化が、細胞に増殖上の利点を与え、新生物クローンの増殖をもたらすことを提案する[1]。いくつかのドライバ変異は、生殖細胞系列において遺伝するが、大部分は、がん発達に関与しない多くの「パッセンジャ」変異と共に、がん患者の生存期間中に体細胞で発生する[1]。複数の変異プロセス、例えば、内因性及び外因性変異原曝露、異常なDNA編集、複製エラー、並びに欠陥のあるDNA維持が、これらの変異の生成の原因である[10、12、13]。
【0005】
過去50年間にわたり、技術のいくつかの波が、がんゲノムにおける変異の特徴付けを進めてきた。核型分析により、再編成された染色体及びコピー数の変化が明らかになった。その後、ヘテロ接合性喪失分析、がん由来DNAのマイクロアレイへのハイブリダイゼーション、及び他のアプローチにより、コピー数変化へのより高い分解能の洞察が得られた[14~18]。最近、DNA配列決定により、塩基置換、小さな挿入/欠失、再編成、及びコピー数変化[19~23]を含む、変異タイプの完全なレパートリーの体系的な特徴付けが可能となり、変異したがん遺伝子、及びヒトのがんにおいて作用する変異プロセスへの本質的な洞察がもたらされた。
【0006】
体細胞変異を生成する変異プロセスは、シグネチャと呼ばれるがんゲノム上の変異の特定のパターンをインプリントする[10、28、30]。変異シグネチャを抽出するための数学的アプローチ[28]の適用により、乳がんにおける5つの塩基置換シグネチャであるシグネチャ1、2、3、8、及び13が以前に明らかになった[5、10]。
【0007】
BRCA1及び/又はBRCA2における生殖細胞系列の不活性化変異は、早期発症乳がん[1、2]、卵巣がん[2、3]、及び膵臓がん[4]のリスクの増加を引き起こすが、これらの2つの遺伝子における体細胞変異及びBRCA1プロモータ過剰メチル化もまた、これらのがんタイプの発達に関与している[5、6]。BRCA1及びBRCA2は、エラーのない相同性指向型二本鎖切断修復に関与している[7]。BRCA1及びBRCA2における欠損を有するがんは、結果的に、二本鎖切断修復の責任を負う、非相同末端結合機構によるエラープローン修復に起因して、多数の再編成及びインデル(indel)を示す[8、9]。
【0008】
欠陥のある二本鎖切断修復は、細胞の変異負荷を増加させ、こうして、新生物形質転換をもたらす体細胞変異を獲得する機会を増加させるが、それはまた、白金ベースの抗新生物薬などの薬剤へ曝露された場合に、細胞を、細胞周期停止及びその後のアポトーシスに対してより感受性にする[10、11]。この感受性は、BRCA1及び/又はBRCA2変異を含む乳がん、卵巣がん、及び膵臓がんの治療のための、標的化された毒性の低い治療戦略、特にポリ(ADP-リボース)ポリメラーゼ(PARP)阻害剤の開発にうまく活用されている[10、11]。これらの治療は、欠陥のあるBRCA1及びBRCA2機能を有する新生細胞が、二本鎖切断を効果的に修復する能力を欠くため、該細胞を強制的にアポトーシスさせる多くのDNA二本鎖切断を引き起こす。対照的に、正常細胞は、それらの修復機構が損なわれていないため、ほとんど影響を受けないままである。
【先行技術文献】
【非特許文献】
【0009】
【文献】Ford, D. et al. Genetic heterogeneity and penetrance analysis of the BRCA1 and BRCA2 genes in breast cancer families. The Breast Cancer Linkage Consortium. American journal of human genetics 62, 676-689 (1998).
【文献】King, M. C., Marks, J. H., Mandell, J. B. & New York Breast Cancer Study, G. Breast and ovarian cancer risks due to inherited mutations in BRCA1 and BRCA2. Science 302, 643-646, doi:10.1126/science.1088759 (2003).
【文献】Risch, H. A. et al. Prevalence and penetrance of germline BRCA1 and BRCA2 mutations in a population series of 649 women with ovarian cancer. American journal of human genetics 68, 700-710, doi:10.1086/318787 (2001).
【文献】Greer, J. B. & Whitcomb, D. C. Role of BRCA1 and BRCA2 mutations in pancreatic cancer. Gut 56, 601-605, doi:10.1136/gut.2006.101220 (2007).
【文献】Alexandrov, L. B. et al. Signatures of mutational processes in human cancer. Nature 500, 415-421, doi:10.1038/nature12477 (2013). REF 24 from COMPENDIUM
【文献】Waddell, N. et al. Whole genomes redefine the mutational landscape of pancreatic cancer. Nature 518, 495-501, doi:10.1038/nature14169 (2015).
【文献】Merajver, S. D. et al. Somatic mutations in the BRCA1 gene in sporadic ovarian tumours. Nature genetics 9, 439-443, doi:10.1038/ng0495-439 (1995).
【文献】Miki, Y., Katagiri, T., Kasumi, F., Yoshimoto, T. & Nakamura, Y. Mutation analysis in the BRCA2 gene in primary breast cancers. Nature genetics 13, 245-247, doi:10.1038/ng0696-245 (1996).
【文献】Jackson, S. P. Sensing and repairing DNA double-strand breaks. Carcinogenesis 23, 687-696 (2002).
【文献】Nik-Zainal, S. et al. Mutational processes molding the genomes of 21 breast cancers. Cell 149, 979-993, doi:10.1016/j.cell.2012.04.024 (2012).
【文献】Walsh, T. et al. Spectrum of mutations in BRCA1, BRCA2, CHEK2, and TP53 in families at high risk of breast cancer. Jama 295, 1379-1388, doi:10.1001/jama.295.12.1379 (2006).
【文献】Stratton, M. R., Campbell, P. J. & Futreal, P. A. The cancer genome. Nature 458, 719-724, doi:10.1038/nature07943 (2009).
【文献】Nik-Zainal, S. et al. The life history of 21 breast cancers. Cell 149, 994-1007, doi:10.1016/j.cell.2012.04.023 (2012).
【文献】Hicks, J. et al. Novel patterns of genome rearrangement and their association with survival in breast cancer. Genome research 16, 1465-1479, doi:10.1101/gr.5460106 (2006).
【文献】Bergamaschi, A. et al. Extracellular matrix signature identifies breast cancer subgroups with different clinical outcome. The Journal of pathology 214, 357-367, doi:10.1002/path.2278 (2008).
【文献】Ching, H. C., Naidu, R., Seong, M. K., Har, Y. C. & Taib, N. A. Integrated analysis of copy number and loss of heterozygosity in primary breast carcinomas using high-density SNP array. International journal of oncology 39, 621-633, doi:10.3892/ijo.2011.1081 (2011).
【文献】Fang, M. et al. Genomic differences between estrogen receptor (ER)-positive and ER-negative human breast carcinoma identified by single nucleotide polymorphism array comparative genome hybridization analysis. Cancer 117, 2024-2034, doi:10.1002/cncr.25770 (2011).
【文献】Curtis, C. et al. The genomic and transcriptomic architecture of 2,000 breast tumours reveals novel subgroups. Nature 486, 346-352, doi:10.1038/nature10983 (2012).
【文献】Pleasance, E. D. et al. A comprehensive catalogue of somatic mutations from a human cancer genome. Nature 463, 191-196, doi:10.1038/nature08658 (2010).
【文献】Pleasance, E. D. et al. A small-cell lung cancer genome with complex signatures of tobacco exposure. Nature 463, 184-190, doi:10.1038/nature08629 (2010).
【文献】Banerji, S. et al. Sequence analysis of mutations and translocations across breast cancer subtypes. Nature 486, 405-409, doi:10.1038/nature11154 (2012).
【文献】Ellis, M. J. et al. Whole-genome analysis informs breast cancer response to aromatase inhibition. Nature 486, 353-360, doi:10.1038/nature11143 (2012).
【文献】Shah, S. P. et al. The clonal and mutational evolution spectrum of primary triple-negative breast cancers. Nature 486, 395-399, doi:10.1038/nature10933 (2012).
【文献】Alexandrov, L. B., Nik-Zainal, S., Wedge, D. C., Campbell, P. J. & Stratton, M. R. Deciphering signatures of mutational processes operative in human cancer. Cell reports 3, 246-259, doi:10.1016/j.celrep.2012.12.008 (2013).
【文献】Helleday, T., Eshtad, S. & Nik-Zainal, S. Mechanisms underlying mutational signatures in human cancers. Nature reviews. Genetics 15, 585-598, doi:10.1038/nrg3729 (2014).
【発明の概要】
【課題を解決するための手段】
【0010】
発明の記載
本発明者らは、560個の乳がんの全ゲノム配列を解析して、体細胞変異を生成する変異プロセスの理解を前進させている。公知の変異シグネチャ分析[28]により、7つの新しい塩基置換シグネチャ(存在することが既に知られている5つに加えて)が明らかになった。これらのうち、5つは、他のがんタイプで以前に検出されており(シグネチャ5、6、17、18、及び20)、一方、2つは全く新しい(シグネチャ26及び30)。
【0011】
同様の数学的原理がゲノム再編成に拡張され、6つの全く新しい「再編成シグネチャ」(特定の再編成変異を特徴付けるシグネチャ)が560個の乳がん内で同定された。
【0012】
したがって、本発明の第1の態様は、DNAサンプルにおける再編成シグネチャ1~6のいずれか1つ以上の存在を検出する方法を提供する。
【0013】
本明細書に記載される結果は、再編成シグネチャ3が、BRCA1変異又はプロモータ過剰メチル化に強く関連し、したがって、それを示すがんが、白金療法又はPARP阻害剤のいずれかから恩恵を受ける可能性が高いことを示唆する。
【0014】
本明細書に記載される結果は、再編成シグネチャ1が、高い相同組換え欠損(HRD)指数を示す、TP53変異のトリプルネガティブ乳がんに頻繁に関連することを示唆する。したがって、このシグネチャを示すがんはまた、白金療法又はPARP阻害剤のいずれかから恩恵を受ける可能性が高い。
【0015】
本明細書に記載される結果は、再編成シグネチャ5が、BRCA1変異若しくはプロモータ過剰メチル化の存在、並びにBRCA2変異に強く関連していることを示唆する。したがって、このシグネチャを示すがんはまた、白金療法又はPARP阻害剤のいずれかから恩恵を受ける可能性が高い。
【0016】
したがって、本発明のさらなる態様は、がんを有する患者が、PARP阻害剤又は白金ベースの薬物に応答する可能性が高いかどうかを予測する方法であって、該方法は、前記患者から得られたDNAサンプルにおける再編成シグネチャ1、3、及び/又は5の1つ以上の存在又は不在を決定するステップを含み、再編成シグネチャ1、3、及び5は、表1に定義され、前記再編成シグネチャの1つに関連すると決定されたその再編成カタログにおける再編成の数又は割合が、所定の閾値を超える場合に、DNAサンプルは、再編成シグネチャの存在を示すと見なされ、前記再編成シグネチャの1つがサンプルに存在する場合、患者は、PARP阻害剤又は白金ベースの薬物に応答する可能性が高い、方法を提供する。
【0017】
この態様、及び再編成シグネチャの存在の決定に関する本発明の他の態様の全てにおいて、所定の閾値は、いくつかの方法で選択することができる。特に、この決定のための異なる閾値は、状況、及び結果の所望の確実性に応じて設定することができる。
【0018】
いくつかの実施形態では、閾値は、特定の再編成シグネチャに関連すると決定された、DNAサンプルの再編成カタログからの再編成の絶対数である。この数を超えた場合、特定の再編成シグネチャが、DNAサンプルに存在すると決定することができる。
【0019】
再編成シグネチャは、互いに対して一般的に「相加的」である(すなわち、腫瘍は、2つ以上のシグネチャに関連する根底にある変異プロセスの影響を受けてもよく、この場合、その腫瘍由来のサンプルは、一般的に、(根底にあるプロセスのそれぞれに関連する別個の再編成の合計である)より多い全体的な数の再編成を示すが、再編成の割合は、存在するシグネチャに広がる)。結果として、特定のシグネチャの存在又は不在を決定する際に、(本発明の他の態様において以下に記載される方法で計算してもよい)サンプル中の特定のシグネチャに関連する再編成の絶対数に注意が集中してもよい。このような閾値は、一般的に、複数のシグネチャがサンプルに存在する状況においてより良い。
【0020】
これらの実施形態では、シグネチャは、少なくとも5個、好ましくは少なくとも10個の、情報を与える再編成がそれに関連する場合、存在すると決定されてもよい。
【0021】
他の実施形態では、閾値は、(再度、本発明の他の態様において以下に記載される方法によって決定される)特定のシグネチャに関連する再編成の割合と共に、(分析が代表的であることを保証するように設定されてもよい)サンプルにおいて検出された再編成の総数を組み合わせる。
【0022】
例えば、シグネチャが存在すると決定するための要件は、少なくとも20個、好ましくは少なくとも40個、より好ましくは少なくとも50個の、情報を与える再編成が存在することであってよく、再編成の少なくとも10%、好ましくは少なくとも20%、より好ましくは少なくとも30%の割合がそれに関連する場合、シグネチャが存在すると見なされてもよい。サンプルに存在する再編成の数が多いほど、特定のシグネチャを検出するための比閾値は低くなり得る。
【0023】
本実施形態下で決定された閾値が30%であったとしても、比閾値は、サンプルに見出される再編成のかなりの部分を構成する他のシグネチャの数に応じて調整されてもよい(例えば、4個のシグネチャが、再編成の20~25%でそれぞれ存在する場合、シグネチャが全く存在しないのではなく、4つ全てのシグネチャが存在すると決定してもよい)。
【0024】
上記の閾値は、30~40倍の深度まで配列決定されたゲノムから得られたデータに基づく。データが、より低いカバレッジで配列決定されたゲノムから得られた場合、全体的に検出される再編成の数は、より少なくなる可能性が高く、閾値はそれに応じて調整される必要がある。
【0025】
本態様、及び再編成シグネチャ1、3、又は5のいずれか1つの存在の決定に関する以下の本発明の他の態様では、使用される閾値(複数可)は、組み合わせにおけるこれらのシグネチャの全てに適用されてもよく、及びそれぞれのシグネチャに個別に適用されてもよい。
【0026】
さらなる態様では、本発明は、PARP阻害剤又は白金ベースの薬物を用いた治療についてがんを有する患者を選択する方法であって、該方法は、前記患者から得られたDNAサンプルにおける再編成シグネチャ1、3、及び/又は5の1つ以上の存在又は不在を同定するステップ、ここで、再編成シグネチャ1、3、及び5は、表1に定義され、前記再編成シグネチャのそれぞれ又は組み合わせの1つ以上に関連すると決定されたその再編成カタログにおける再編成の数又は割合が、所定の閾値を超える場合に、DNAサンプルは、再編成シグネチャの存在を示すと見なされ、及び前記再編成シグネチャの1つがサンプルに存在する場合、PARP阻害剤又は白金ベースの薬物を用いた治療について患者を選択するステップを含む、方法を提供する。
【0027】
さらなる態様では、本発明は、再編成シグネチャ1、3、及び/又は5の1つ以上を有する患者におけるがんの治療方法に使用するためのPARP阻害剤又は白金ベースの薬物であって、再編成シグネチャ1、3、及び5は、表1に定義され、前記再編成シグネチャのそれぞれ又は組み合わせの1つ以上に関連すると決定されたその再編成カタログにおける再編成の数又は割合が、所定の閾値を超える場合に、DNAサンプルは、再編成シグネチャの存在を示すと見なされる、PARP阻害剤又は白金ベースの薬物を提供する。
【0028】
さらなる態様では、本発明は、再編成シグネチャ1、3、及び/又は5の1つ以上を有すると決定された患者におけるがんの治療方法であって、再編成シグネチャ1、3、及び5は、表1に定義され、前記再編成シグネチャのそれぞれ又は組み合わせの1つ以上に関連すると決定されたその再編成カタログにおける再編成の数又は割合が、所定の閾値を超える場合に、DNAサンプルは、再編成シグネチャの存在を示すと見なされ、該方法は、PARP阻害剤又は白金ベースの薬物を前記患者に投与するステップを含む、方法を提供する。
【0029】
さらなる態様では、本発明は、患者におけるがんの治療方法に使用するためのPARP阻害剤又は白金ベースの薬物であって、該方法は、
(i)再編成シグネチャ1、3、及び/又は5の1つ以上が、前記患者から得られたDNAサンプルに存在するかどうかを決定するステップ、ここで、再編成シグネチャ1、3、及び5は、表1に定義され、前記再編成シグネチャのそれぞれ又は組み合わせの1つ以上に関連すると決定されたその再編成カタログにおける再編成の数又は割合が、所定の閾値を超える場合に、DNAサンプルは、再編成シグネチャの存在を示すと見なされ、及び
(ii)前記再編成シグネチャの1つが前記サンプルに存在する場合、PARP阻害剤又は白金ベースの薬物を患者に投与するステップ
を含む、PARP阻害剤又は白金ベースの薬物を提供する。
【0030】
上記態様の方法は、DNAサンプル内の個々の再編成シグネチャ1、3、又は5のいずれか1つ、並びにそれらのシグネチャの任意の組み合わせの存在をカバーするものとして解釈されるべきである。
【0031】
本明細書に記載される結果は、再編成シグネチャ2が、大部分のがんに存在したが、穏やかなコピー数プロファイルを有するエストロゲン受容体(ER)陽性がんにおいて特に富化されたことを示唆する。ER陽性の乳がんは、ホルモン療法(例えば、タモキシフェン)に応答する可能性が高く、したがって、再編成シグネチャ2について特に富化された乳がんは、ホルモン療法、例えば、タモキシフェンによる治療に応答する可能性が高い。
【0032】
特定の例において、がんは、乳がん、卵巣がん、又は膵臓がんである。
【0033】
本発明のさらなる態様は、患者から得られたDNAサンプルにおける再編成シグネチャ1~6のいずれか1つの存在を決定する方法であって、再編成シグネチャは、表1に定義され、特定の再編成シグネチャに関連すると決定されたその再編成カタログにおける再編成の数又は割合が、所定の閾値を超える場合に、DNAサンプルは、その特定の再編成シグネチャの存在を示すと見なされる、方法を提供する。
【0034】
本発明の上記の態様及び実施形態のいずれかにおいて、再編成シグネチャのいずれかの存在又は不在を決定又は同定するステップは、出願番号PCT/EP2017/060279で本願と同日に出願された同時係属出願(その内容は参照により本明細書に組み込まれる)に記載されるとおりであってもよい。より具体的には、再編成シグネチャの存在又は不在を決定又同定するステップは、公知の再編成シグネチャの、DNAサンプルの再編成カタログへの寄与を、前記カタログにおける再編成変異と、公知の再編成変異シグネチャとの間のコサイン類似度を計算することによって、決定することを含んでもよい。
【0035】
好ましくは、この方法は、前記決定するステップの前に、前記カタログにおける変異をフィルタリングして、残存する生殖細胞系列の構造的変動、又は公知の配列決定アーティファクトのいずれか、又は両方を除去するさらなるステップを含む。このようなフィルタリングは、体細胞変異以外のメカニズムから生じることが知られており、したがって、再編成シグネチャの寄与をぼやけさせたり、若しくはあいまいにしたり、又は偽陽性結果をもたらし得る再編成を、カタログから除去するのに非常に有利であり得る。
【0036】
例えば、フィルタリングは、公知の生殖細胞系列再編成又はコピー数多型のリストを使用し、再編成シグネチャの寄与を決定する前に、それらの多型から生じる体細胞変異をカタログから除去してもよい。
【0037】
さらなる例として、フィルタリングは、DNAサンプルと同じプロセスによって配列決定されたマッチングされていない(unmatched)正常ヒト組織のBAMファイルを使用してもよく、前記BAMファイルの少なくとも2つにおける少なくとも2つの良好にマッピングされたリード(well-mapping read)に存在する任意の体細胞変異を捨てる。このアプローチは、サンプルを得るために使用された配列決定技術から生じるアーティファクトを除去することができる。
【0038】
再編成変異の分類は、変異をクラスタ化又は非クラスタ化されていると同定することを含んでもよい。これは、シーケンシャルデータのセグメント化の方法である、区分的一定適合(「PCF」)アルゴリズムによって決定してもよい。特定の実施形態では、セグメント内の再編成ブレークポイントの平均密度が、個々の患者のサンプルについての再編成の全ゲノム平均密度よりも、ある特定の倍率大きい場合、再編成は、クラスタ化されていると同定されてもよい。例えば、倍率は、少なくとも8倍、好ましくは少なくとも9倍であってもよく、特定の実施形態では10倍である。再編成間距離は、再編成ブレークポイントから、参照ゲノム中のその直前の再編成ブレークポイントまでの距離である。この測定値は既に知られている。
【0039】
再編成変異の分類は、再編成を、タンデム重複、欠失、逆位、又は転座のうちの1つと同定することを含んでもよい。このような再編成変異の分類は、既に知られている。
【0040】
再編成変異の分類は、タンデム重複、欠失、又は逆位と同定された変異を、サイズによりグループ化することをさらに含んでもよい。例えば、変異は、再編成中の塩基数によって複数のサイズグループにグループ化されてもよい。好ましくは、サイズグループは、対数ベースであり、例えば、1~10kb、10~100kb、100kb~1Mb、1Mb~10Mb、及び10Mbより大きい。転座は、サイズによって分類することができない。
【0041】
特定の実施形態では、各DNAサンプルにおいて、i番目の変異シグネチャ
に関連する再編成の数E
iは、このサンプルのカタログ
と
との間のコサイン類似度(
):
【数1】
に比例するとして決定され、ここで、
【数2】
であり、
及び
は、それぞれ公知の再編成シグネチャ及び変異カタログである、非負成分を有する等しいサイズのベクトルであり、qは、前記複数の公知の再編成シグネチャにおけるシグネチャの数である。
【0042】
この方法は、カタログとの相関がより小さいシグネチャから、カタログとの相関がより大きいシグネチャへ1つ以上の再編成を再割り当てすることによって、各シグネチャに割り当てられると決定された再編成の数をフィルタリングするステップをさらに含んでもよい。そのようなフィルタリングは、それに関連する再編成をわずかしか有しない(そのためおそらく存在しない)シグネチャから、それに関連する再編成の数がより大きいシグネチャへ再編成を再割り当てするのに役立ち得る。これは、割り当てプロセスにおける「ノイズ」を低減する効果を有することができる。
【0043】
一実施形態では、フィルタリングのステップは、貪欲アルゴリズムを使用して、カタログ
と、再構築されたカタログ
【数3】
との間のコサイン類似度を改善するか、又は変更しない、シグネチャへの再編成の代替的割り当てを反復的に見出すものであり、
は、シグネチャiからシグネチャjへ変異を移動させることによって得られるベクトル
のバージョンであり、各反復において、シグネチャ間の全ての可能な移動の影響が推定され、これらの可能な再割り当ての全てがコサイン類似度に負の影響を与える場合、フィルタリングステップは終了する。
【0044】
さらなる態様では、本発明は、DNAサンプルにおける変異シグネチャ26又は変異シグネチャ30を検出する方法であって、変異シグネチャ26及び30は、表2に定義され、該方法は、前記サンプルにおける体細胞変異をカタログ化して、そのサンプルについての変異カタログを生成するステップ; 前記カタログにおける変異と、スカラー因子によってスケーリングされた複数の公知の変異シグネチャの組み合わせから予測される変異との間の差を表す関数を一緒になって最小化する、複数の前記公知の変異シグネチャのそれぞれについてのスカラー因子を決定することによって、変異シグネチャ26又は変異シグネチャ30を含む公知の変異シグネチャの前記変異カタログへの寄与を決定するステップ; 及び変異シグネチャ26又は変異シグネチャ30に対応するスカラー因子が、所定の閾値を超える場合に、前記サンプルを、対応する変異シグネチャ26又は変異シグネチャ30をそれぞれ含有すると同定するステップを含む、方法を提供する。
【0045】
好ましくは、この態様の方法は、前記決定するステップの前に、前記カタログにおける変異をフィルタリングして、残存する生殖細胞系列変異、又は公知の配列決定アーティファクトのいずれか、又は両方を除去するさらなるステップを含む。このようなフィルタリングは、体細胞変異以外のメカニズムから生じることが知られており、したがって、変異シグネチャの寄与をぼやけさせたり、若しくはあいまいにしたり、又は偽陽性結果をもたらし得る変異を、カタログから除去するのに非常に有利であり得る。
【0046】
例えば、フィルタリングは、公知の生殖細胞系列多型のリストを使用し、変異シグネチャの寄与を決定する前に、それらの多型から生じる体細胞変異をカタログから除去してもよい。
【0047】
さらなる例として、フィルタリングは、DNAサンプルと同じプロセスによって配列決定されたマッチングされていない(不適合)正常ヒト組織のBAMファイルを使用してもよく、及び前記BAMファイルの少なくとも2つにおける少なくとも2つの良好にマッピングされたリード(ウェルマッピングリード)に存在する任意の体細胞変異を捨ててもよい。このアプローチは、サンプルを得るために使用された配列決定技術から生じるアーティファクトを除去することができる。
【0048】
この方法は、前記複数の公知の変異シグネチャを、全ての公知の変異シグネチャのサブセットとして選択するステップをさらに含んでもよい。例えば、サンプルについての事前の知識に基づいて、サブセットを選択することにより、変異カタログに寄与する可能性のあるシグネチャの数が低減され、これは決定ステップの正確性を高める可能性が高い。
【0049】
例えば、変異シグネチャのサブセットは、DNAサンプル又は変異シグネチャ又は両方についての生物学的知識に基づいて選択してもよい。したがって、特定のDNAサンプルが、DNAサンプル及び特定の変異シグネチャの特徴の結果として、特定の変異シグネチャから生じた可能性がないことが直ちに明らかであり得る。さらなる可能性については、以下の実施形態でより詳細に説明する。
【0050】
特定の実施形態では、決定するステップは、フロベニウスノルム(Frobenius norm):
【数4】
を最小化するスカラーE
iを決定してもよく、
及び
は、それぞれコンセンサス変異シグネチャ及び変異カタログである、非負成分を有する等しいサイズのベクトルであり、qは、前記複数の公知の変異シグネチャにおけるシグネチャの数であり、E
iは、
【数5】
及び
【数6】
という要件によってさらに制約されている。
【図面の簡単な説明】
【0051】
【
図1-1】
図1は、本発明者らによって研究された560個の乳がんゲノムのコホートをまとめたものである。
【
図2】
図2は、データから抽出された6つの再編成シグネチャと共に、他のゲノムの、組織学的な、又は遺伝子発現の特性との明確な関連性を示す7つの主要なサブグループを示す図である。
【
図3】
図3は、研究されたゲノムのコホートのさらなる概要である。
【
図4-1】
図4は、コホートにおいて同定された塩基置換シグネチャを示す。
【
図5】
図5は、コホートにおいて同定された再編成シグネチャを示す。
【
図6-1】
図6は、同定された再編成シグネチャに基づくクラスタリングの臨床的関連性を示す。
【
図7】
図7は、ブレークポイント特徴を示し、ここでは、「平滑」の左側の棒が非テンプレート配列であり、「平滑」と標識された棒が平滑末端結合であり、「平滑」の右側の棒がマイクロホモロジーである。
【
図8】
図8は、本発明の一実施形態による再編成シグネチャの存在を決定する方法における概略ステップを示すフローチャートである。
【発明を実施するための形態】
【0052】
表1は、いくつかの再編成シグネチャの定量的定義を示し; 及び
表2は、塩基置換シグネチャ26及び30の定量的定義を示す。
【0053】
詳細な説明
本発明は、がんを有する患者のサブセットが、特定の変異又は再編成シグネチャを有するという知見に基づく。再編成シグネチャは、以下により詳細に定義され、表1に定量的に記載される。変異(又は「塩基置換」)シグネチャは、表2に定量的に記載される。
【0054】
さらに以下に同定されるように、再編成シグネチャのいくつか(シグネチャ1、3、及び5)は、相同組換えによる二本鎖切断修復の障害に関連し、及び/又はBRCA1/2欠損を欠き、したがって、これらの再編成シグネチャの1つ以上を有するがん患者は、白金療法又はPARP阻害剤による治療のいずれかの恩恵を受ける可能性が高い。
【0055】
したがって、本発明は、とりわけ、患者から得られたDNAサンプルにおける再編成シグネチャ1、3、又は5の1つ以上の存在又は不在に基づいて、がんを有する患者が、PARP阻害剤又は白金ベースの薬物に応答する可能性が高いかどうかを予測する方法、あるいはPARP阻害剤又は白金ベースの薬物を用いた治療についてがんを有する患者を選択する方法に関する。
【0056】
「再編成シグネチャ1、3、又は5の1つ以上の存在」という句は、本明細書で使用される場合、とりわけ、それらのシグネチャのいずれか1つの存在、及びそれらのシグネチャの任意の組み合わせの存在を含むことに留意する。特に、これらのシグネチャの全ての存在に起因して、これらのシグネチャのいずれか1つに関連すると決定されたDNAサンプルにおける再編成の割合が、特定のシグネチャが存在するという決定に達するのに適切であると他のやり方では見なされ得るより低い場合であっても、それは、これらのシグネチャの3つ全ての存在を含む。
【0057】
患者は、好ましくはヒト患者である。
【0058】
再編成シグネチャ1、3、及び/又は5を有するがん患者は、相同組換えによるDNA二本鎖修復の障害を有し、二本鎖切断を生じる薬物、例えば、PARP阻害剤又は白金ベースの薬物に感受性である可能性が高い。
【0059】
酵素ポリADPリボースポリメラーゼ(PARP1)は、「ニック」としても知られている一本鎖切断を修復するために重要なタンパク質である。DNAが複製されるまで、このようなニックが未修復のままでいると、複製自体が、多数の二本鎖切断の形成を引き起こし得る。PARP1を阻害する薬物は、大量の二本鎖切断を引き起こす。エラーのない相同組換えによる二本鎖DNA切断修復の障害を伴う腫瘍において、PARP1の阻害により、これらの二本鎖切断の修復ができなくなり、腫瘍細胞の死がもたらされる。本発明に使用するためのPARP阻害剤は、好ましくは、PARP1阻害剤である。PARP阻害剤の例としては、イニパリブ、タラゾパリブ、オラパリブ、ルカパリブ、及びベリパリブが挙げられる。
【0060】
白金ベースの抗新生物薬は、がんを治療するために使用される化学療法剤である。それらは、単一付加物、鎖間架橋、鎖内架橋、又はDNAタンパク質架橋としてDNAの架橋を引き起こす白金の配位錯体である。大部分は、それらは、グアニンの隣接するN-7位に作用し、1,2鎖内架橋を形成する。得られた架橋は、がん細胞におけるDNA修復及び/又はDNA合成を阻害する。いくつかの一般的に使用される白金ベースの抗新生物薬としては、シスプラチン、カルボプラチン、オキサリプラチン、サトラプラチン、ピコプラチン、ネダプラチン、トリプラチン、及びリポプラチンが挙げられる。
【0061】
再編成シグネチャ1、3、及び/又は5の存在又は不在は、患者から得られたDNAサンプルにおいて決定される。好ましくは、これらは全ゲノムサンプルであり、再編成シグネチャ(複数可)の存在又は不在は、全ゲノム配列決定によって決定してもよい。DNAサンプルは、全エクソームサンプルであってもよく、再編成シグネチャ(複数可)の存在又は不在は、全エクソーム配列決定によって決定してもよい。エクソーム配列決定は、ゲノム中の全てのタンパク質コード遺伝子(エクソームとして知られている)を配列決定するための技術である。それは、まず、タンパク質をコードするDNAのサブセット(エクソンとして知られている)のみを選択し、次いで、任意のハイスループットDNA配列決定技術を用いてそのDNAを配列決定することからなる。ヒトゲノムの約1%、すなわち約3,000万塩基対を構成する、180,000個のエクソンが存在する。
【0062】
DNAサンプルは、好ましくは、患者から得られた腫瘍組織及び正常組織の両方、例えば、患者からの血液サンプル、及び生検によって得られた腫瘍組織から得られる。腫瘍サンプル中の体細胞変異は、標準的に、そのゲノム配列を正常組織のものと比較することによって検出される。
【0063】
本発明はまた、再編成シグネチャ1、3、及び/又は5の1つ以上を有する患者におけるPARP阻害剤又は白金ベースの薬物を用いたがんの治療にも関する。
【0064】
例えば、PARP阻害剤又は白金ベースの薬物は、再編成シグネチャ1、3、及び/又は5の1つ以上を有する患者におけるがんの治療方法に使用するためのものであってもよい。治療の前に、この方法は、これらの再編成シグネチャの1つ以上が、前記患者から得られたDNAサンプルに存在するかどうかを決定するステップを含んでもよい。好ましくは、これらは全ゲノムサンプルであり、再編成シグネチャ(複数可)の存在又は不在は、全ゲノム配列決定によって決定してもよい。DNAサンプルは、全エクソームサンプルであってもよく、再編成シグネチャ(複数可)の存在又は不在は、全エクソーム配列決定によって決定してもよい。
【0065】
DNAサンプルは、好ましくは、患者から得られた腫瘍組織及び正常組織の両方、例えば、患者からの血液サンプル、及び生検によって得られた腫瘍組織から得られる。腫瘍サンプル中の体細胞変異は、標準的に、そのゲノム配列を正常組織のものと比較することによって検出される。
【0066】
治療方法は、再編成シグネチャ1、3、及び/又は5の1つ以上を有するがん患者にPARP阻害剤又は白金ベースの薬物を投与するステップを含む。任意の適切な投与経路を使用することができる。
【0067】
治療されるべき患者は、好ましくはヒト患者である。
【0068】
本発明はまた、被験体から得られたDNAサンプルにおける再編成シグネチャ1~6又は変異シグネチャ26及び30のいずれか1つを検出する方法に関する。この方法は、乳がん、卵巣がん、膵臓がん、又は胃がんを有する被験体を含む、任意の被験体に適用可能である。そのような方法のさらなる詳細は以下に記載される。
【実施例】
【0069】
がんに関連する再編成シグネチャの同定
各個体(556人の女性及び4人の男性)からの560個の乳がん及び非新生物組織の完全なゲノムを配列決定した(
図1A)。3,479,652個の体細胞塩基置換、371,993個の小さなインデル、及び77,695個の再編成が検出され、個々のサンプル間でそれぞれの数に実質的な変動があった(
図1B)。トランスクリプトーム配列、マイクロRNA発現、アレイに基づくコピー数、及びDNAメチル化データは、症例のサブセットから得た。
【0070】
再編成変異プロセスのシグネチャの調査を可能にするために、32個のサブクラスを組み込んだ再編成分類を採用した。
【0071】
多くのがんゲノムでは、多数の再編成が、局所的に、例えば遺伝子増幅の領域において、クラスタ化されている。したがって、再編成を、まず、クラスタとして発生したものか、又は分散されたものに分類し、さらに、欠失、逆位、及びタンデム重複に下位分類し、次に、再編成されたセグメントのサイズに従って下位分類した。両グループにおける最終的なカテゴリは、染色体間転座であった。
【0072】
塩基置換シグネチャに使用された数学的フレームワークの適用[5、10、28]は、6つの再編成シグネチャを抽出した。各乳がんにおける各シグネチャに起因する再編成の割合に基づく教師なし階層的クラスタリングは、
図2に示すように、他のゲノムの、組織学的な、又は遺伝子発現の特性と明確な関連性を示す7つの主要なサブグループをもたらした。
【0073】
再編成シグネチャ1(全再編成の9%)及び再編成シグネチャ3(18%の再編成)は、主にタンデム重複によって特徴付けられた。再編成シグネチャ1に関連するタンデム重複は、ほとんどが>100kbであり、再編成シグネチャ3に関連するタンデム重複は、<10kbであった。再編成シグネチャ3のタンデム重複の95%超が、がんの15%に集中しており(
図2、クラスタD)、多くは、数百個のこのタイプの再編成を有していた。BRCA1変異又はプロモータ過剰メチル化を伴うほとんど全てのがん(91%)が、このグループにあり、これは、基底様のトリプルネガティブ乳がん、及び高い相同組換え欠損(HRD)指数のコピー数分類について富化された[31~33]。したがって、BRCA2ではなく、BRCA1の不活性化が、再編成シグネチャ3の小さなタンデム重複突然変異誘発表現型(ミューテータ表現型)の原因であり得る。
【0074】
したがって、再編成シグネチャ3の存在又は不在(特に再編成シグネチャ1及び5の存在又は不在との比較おけるもの、ただし該比較のみに限らない)を使用して、BRCA2ではなくBRCA1の不活性化を有するがんの間を区別してもよい。
【0075】
再編成シグネチャ1のタンデム重複の35%超が、乳がんのわずか8.5%で見出され、いくつかの症例は、数百個のこれらを有していた(
図2、クラスタF)。この大きなタンデム重複突然変異誘発表現型の原因は、不明である。それを示すがんは、しばしばTP53変異の、比較的遅い診断の、トリプルネガティブ乳がんであり、塩基置換シグネチャ3及び高い相同組換え欠損(HRD)指数についての富化を示す(
図2)が、BRCA1/2変異又はBRCA1プロモータ過剰メチル化を有しない。
【0076】
再編成シグネチャ1及び3のタンデム重複は、一般的に、ゲノムにわたって均一に分布していた。しかし、タンデム重複の再発が乳がんにわたって見出され、個々の症例において複数の入れ子になったタンデム重複をしばしば示す、9個の位置が存在した。本発明者らは、これらがドライバ事象を表す可能性を排除することはできないが、これらは、これらのタンデム重複変異プロセスに特異的な変異ホットスポットであり得る。
【0077】
再編成シグネチャ5(14%の再編成を占める)は、<100kbの欠失によって特徴付けられた。それは、BRCA1変異又はプロモータ過剰メチル化(
図2、クラスタD)、BRCA2変異(
図2、クラスタG)の存在、及び再編成シグネチャ1の大きなタンデム重複(
図2、クラスタF)と強く関連していた。
【0078】
再編成シグネチャ2(22%の再編成を占める)は、非クラスタ化された欠失(>100kb)、逆位、及び染色体間転座によって特徴付けられ、ほとんどのがんに存在していたが、穏やかなコピー数プロファイルを有するER陽性がんにおいて特に富化された(
図2、クラスタE、GISTICクラスタ3)。再編成シグネチャ4(再編成の18%を占める)は、クラスタ化された染色体間転座によって特徴付けられ、一方、再編成シグネチャ6(再編成の19%)は、クラスタ化された逆位及び欠失によって特徴付けられた(
図2、クラスタA、B、及びC)。
【0079】
末端結合修復の代替方法に特徴的なオーバーラップするマイクロホモロジーの短いセグメント(1~5bp)が、大部分の再編成で見出された[10、24]。再編成シグネチャ2、4、及び6は、マイクロホモロジーの1bpでのピークを特徴とし、一方、再編成シグネチャ1、3、及び5は、相同組換えDNA修復欠損に関連し、2bpでのピークを示した(
図8)。したがって、異なる末端結合機構が、異なる再編成プロセスで作動し得る。乳がんのある割合は、最も一般的にはAluS(63%)及びAluY(15%)ファミリー反復配列である、短鎖散在核内反復配列(SINE)からの配列を含む、より長い(>10bp)マイクロホモロジーを有する再編成シグネチャ5欠失を示した(
図8)。非テンプレート化配列の長いセグメント(10bpを超える)は、クラスタ化された再編成の中で特に富化された。
【0080】
方法
サンプル選択
DNAを、560個の乳がん及び正常組織(末梢血リンパ球、隣接する正常な乳房組織又は皮膚)から抽出した。サンプルを病理学レビューに供し、>70%の腫瘍細胞から構成されると評価されたサンプルのみを、研究に含めることを認めた。
【0081】
超並列配列決定及びアラインメント
短い挿入の500bpのゲノムライブラリを構築し、フローセルを調製し、配列決定クラスタを、Illuminaライブラリプロトコル[34]に従って作製した。108塩基/100塩基(ゲノム)ペアエンド(paired-end)配列決定を、Illumina GAIIx、Hiseq 2000又はHiseq 2500ゲノム分析装置で、Illumina Genome Analyzer操作マニュアルに従って行った。平均配列カバレッジは、腫瘍サンプルについて40.4倍であり、正常サンプルについて30.2倍であった。
【0082】
短い挿入のペアエンドリードを、Burrows-Wheeler Aligner, BWA(v0.5.9)[35]を使用して、参照ヒトゲノム(GRCh37)に対してアラインメントした。
【0083】
ゲノムデータの処理
CaVEMan(Cancer Variants Through Expectation Maximization: http://cancerit.github.io/CaVEMan/)を、体細胞置換をコーリングするために使用した。腫瘍及び正常ゲノムにおけるインデルを、NCBI37ゲノムビルド上の改変されたPindelバージョン2.0(http://cancerit.github.io/cgpPindel/)を用いてコールした[36]。
【0084】
ペアエンドリードを特注アルゴリズムであるBRASS(BReakpoint AnalySiS)(https://github.com/cancerit/BRASS)を使用して、不一致的に(discordantly)マッピングすることにより、構造バリアントを発見した。次に、ブレークポイントに跨がる(及ぶ)可能性が高い、不一致的にマッピングしているリード対と、近くの適切に対になったリードの選択物とを、それぞれの関心領域ごとにグループ化した。Velvet de novoアセンブラ[37]を使用して、これらの領域のそれぞれの中でリードを局所的にアセンブルして、各領域の連続したコンセンサス配列を生成した。再編成された誘導体及び対応する再編成されていない対立遺伝子からのリードによって表される再編成は、Velvetの成分のde Bruijnグラフ((短い)リード配列のde novoアセンブリで使用される数学的方法)における5つの頂点の特定のパターンから即座に認識可能であった。参照ゲノムに対してアラインメントした後、それらがあたかも分割されたリードであったかのように、接合部配列の正確な座標及び特性(例えば、マイクロホモロジー又は非テンプレート化配列)をこれから導き出した。
【0085】
アノテーションは、ENSEMBLバージョン58に従った。
【0086】
Affymetrix SNP6.0プラットフォームを用いる一塩基多型(SNP)アレイハイブリダイゼーションを、Affymetrixプロトコルに従って行った。ASCAT(v2.1.1)を用いて腫瘍の対立遺伝子特異的コピー数分析を行い、腫瘍細胞についての統合された対立遺伝子特異的コピー数プロファイルを生成した[38]。ASCATをNGSデータにも直接適用し、同等の結果を得た。
【0087】
変異コーリングの有益な予測値の評価を行うために、乳がんの12.5%を、置換、インデル、及び/又は再編成の確認のためにサンプリングした。
【0088】
変異シグネチャ分析
変異シグネチャ分析を、3ステッププロセス後に行った: (i)体細胞置換及びそれらの直近配列コンテクストに基づく階層的de novo抽出、(ii)乳がんゲノムから抽出された変異シグネチャを用いたコンセンサスシグネチャのセットの更新、及び(iii)乳がんサンプルのそれぞれにおける更新されたコンセンサスシグネチャのそれぞれの寄与の評価。これらの3つのステップについては、次のセクションでより詳細に論じる。
【0089】
変異シグネチャの階層的de novo抽出
560個の乳がん全ゲノムの変異カタログを、Wellcome Trust Sanger Institute変異シグネチャフレームワークの階層バージョンを用いて変異シグネチャについて分析した[28]。手短に言えば、全ての変異データを、全てのサンプルについてのそれぞれの可能な5'(C、A、G、及びT)及び3'(C、A、G、及びT)コンテクストを用いた、各変異タイプ(C>A、C>G、C>T、T>A、T>C、及びT>G; 全ての置換は、変異したワトソン-クリック塩基対のピリミジンによって言及される)についての変異カウントを含む96個の特性から構成される行列Mに変換した。変換後、以前に開発されたアルゴリズムを、K個の変異タイプ及びG個のサンプルを含有する行列Mに階層的に適用した。このアルゴリズムは、各変異タイプの割合を最適に説明する変異シグネチャの最小セットを解読し、次いでサンプルにわたる各シグネチャの寄与を推定する。より具体的には、このアルゴリズムは、非負値行列因子分解(NMF)と呼ばれる周知のブラインド信号源分離技術を利用する。NMFは、非負性を維持しながらフロベニウスノルムを最小化することによって、変異シグネチャの行列P及びこれらのシグネチャの曝露の行列Eを特定する:
【数7】
【0090】
シミュレートされたデータ及び制限のリストを用いた評価を含む、変異シグネチャを解読する方法は、[29]に見出すことができる。フレームワークを階層的に適用し、少数のサンプルに存在する変異シグネチャ、及び低い変異負荷を示す変異シグネチャを見出すその能力を高めた。より具体的には、560個のサンプルを含有する元の行列Mへの適用後、本発明者らは、抽出された変異シグネチャを用いて560個の乳がんのそれぞれの変異パターンを説明する正確性を評価した。抽出された変異シグネチャによって十分に説明された全てのサンプルを除去し、フレームワークをMの残りの部分行列に適用した。抽出プロセスがいずれかの新しい変異シグネチャを明らかにしなくなるまで、この手順を繰り返した。全体として、このアプローチは、560個の乳がんにわたって作用する12個の固有の変異シグネチャを抽出した。
【0091】
コンセンサス変異シグネチャのセットの更新
12個の階層的に抽出された乳がんのシグネチャを、コンセンサス変異シグネチャのセンサスと比較した[28]。12個のシグネチャのうち11個は、以前に同定された変異パターンと非常によく似ていた。[28]で以前に行われたように、乳がんデータにおける各シグネチャが寄与する変異の数で重み付けされたこれらの11個のシグネチャのパターンを使用して、コンセンサス変異シグネチャのセットを更新した。12個の抽出されたシグネチャのうち1つは、新規であり、現時点では、乳がんに固有のものである。この新規シグネチャは、コンセンサスシグネチャ30である(http://cancer.sanger.ac.uk/cosmic/signatures)。
【0092】
560個の乳がんにおけるコンセンサス変異シグネチャの寄与の評価
乳がんに見出されたコンセンサス変異シグネチャの完全な一覧は、シグネチャ1、2、3、5、6、8、13、17、18、20、26、及び30を含む。560個の乳がんゲノムにおける全てのこれらのシグネチャの存在を、それらを各サンプルに再導入することによって評価した。より具体的には、コンセンサス変異シグネチャの更新されたセットを使用して、各サンプルについて制約付き線形関数を最小化した:
【数8】
【0093】
ここで、
は、(その6つの体細胞置換及びそれらの直近の配列決定コンテクストを伴うコンセンサス変異シグネチャに対応する)96個の成分を有するベクトルを表し、Exposure
iは、このシグネチャが寄与する変異の数を反映する非負スカラーである。Nは12に等しく、それは、単一の乳がんサンプルに見出すことができる全ての可能なシグネチャの数を反映する。多くの数(又は割合)の変異に寄与しなかった、又はサンプルの元の変異パターンと、変異シグネチャによって生成された変異パターンとの間の相関を顕著に改善しなかった変異シグネチャは、サンプルから除外した。この手順は、データの過剰適合を低減し、重要な変異シグネチャのみが各サンプルに存在することを可能にした。
【0094】
再編成シグネチャ
クラスタ化対非クラスタ化再編成
本発明者らは、区分的一定適合(PCF)法を用いてゲノム全体再編成変異誘発から、限局性破壊的事象又は限局性ドライバアンプリコンとして起こった再編成を分離しようとした。各サンプルについて、各再編成の両方のブレークポイントを個別に考慮し、全てのブレークポイントを、染色体位置によって順序付けた。1つの再編成ブレークポイントから、参照ゲノム中のその直前の再編成ブレークポイントまでの塩基対の数と定義される再編成間距離を計算した。クラスタ化再編成の推定領域を、個々のサンプルについての全ゲノム平均よりも少なくとも10倍大きい平均再編成間距離を有するものとして同定した。使用されたPCFパラメータは、γ=25及びkmin=10であった。クラスタ化領域に含まれる全てのブレークポイントのそれぞれのパートナーブレークポイントは、同じ機構的瞬間に発生した可能性が高いため、遠隔染色体部位に位置していたとしても、クラスタに関与していると見なした。
【0095】
分類 - タイプ及びサイズ
再編成の両クラス(クラスタ化及び非クラスタ化)において、再編成を、欠失、逆位、及びタンデム重複に下位分類し、次いで、再編成されたセグメントのサイズに従ってさらに下位分類した(1~10kb、10kb~100kb、100kb~1Mb、1Mb~10Mb、10Mb超)。両グループにおける最終的なカテゴリは、染色体間転座であった。
【0096】
NNMFによる再編成シグネチャ
この分類は、544個の乳がんゲノムにわたって構造バリアントの32個の異なるカテゴリの行列を生じる。データを過剰適合させることなく、データを最もよく説明する変異シグネチャの最適数を検索することによって変異シグネチャを解読するための以前に開発されたアプローチを用いて、この行列を分解した[28]。
【0097】
以下に記載する本発明の実施形態による方法は、単一の患者から得られたDNAサンプルにおける再編成シグネチャ又は塩基置換シグネチャの存在又は不在を決定する。好ましくは、これらは全ゲノムサンプルであり、変異シグネチャの存在又は不在は、全ゲノム配列決定によって決定してもよい。DNAサンプルは、全エクソームサンプルであってもよく、変異シグネチャの存在又は不在は、全エクソーム配列決定によって決定してもよい。エクソーム配列決定は、ゲノム中の全てのタンパク質コード遺伝子(エクソームとして知られている)を配列決定するための技術である。それは、まず、タンパク質をコードするDNAのサブセット(エクソンとして知られている)のみを選択し、次いで、任意のハイスループットDNA配列決定技術を用いてそのDNAを配列決定することからなる。ヒトゲノムの約1%、すなわち約3,000万塩基対を構成する、180,000個のエクソンが存在する。
【0098】
DNAサンプルは、好ましくは、患者から得られた腫瘍組織及び正常組織の両方、例えば、患者からの血液サンプル、及び生検によって得られた乳房腫瘍組織から得られる。腫瘍サンプル中の体細胞変異は、標準的に、そのゲノム配列を正常組織のものと比較することによって検出される。
【0099】
単一の患者における再編成シグネチャの検出方法
本発明の実施形態では、単一の患者から得られたDNAにおける再編成シグネチャの検出が行われる。これらの実施形態では、この検出は、新鮮凍結由来DNA、患者からの疑わしい又は公知の腫瘍を代表するホルマリン固定パラフィン包埋(FFPE)DNAの循環腫瘍DNAから得られた核酸材料の高カバレッジ又は低パス配列決定によって生成された体細胞変異のリストを調べるコンピュータ実装方法又はツールによって行われる。この方法のステップを、
図1に概略的に示す。
【0100】
これらの実施形態の体細胞変異のリストは、様々な異なるフォーマット(VCF、BEDPE、テキストなどを含む)で提供されることができるが、最低でも次の情報を含有する必要がある: ゲノムアセンブリバージョン、より低いブレークポイントの染色体、より低いブレークポイントの座標、より高いブレークポイントの染色体、より高いブレークポイントの座標、並びに再編成クラス(逆位、タンデム重複、欠失、転座)、又はそれらを正確に分類するために再編成ブレークポイントの方向付けを可能にする、より低い及びより高いブレークポイントの鎖情報のいずれか。
【0101】
幅広い表現では、DNAサンプルから体細胞変異のリストをロードした後(S101)、ツールは、まず任意の公知の生殖細胞系列及び/又はアーティファクトの体細胞変異を取り除き(S102)、次いで、サンプルの再編成カタログを生成し、次いで、以下に記載される分類に基づいて再編成を分類し(S103)、次いで、公知のコンセンサス再編成変異シグネチャのこのサンプルに対する寄与を評価し(S104)、最後に、サンプルにおいて作用する再編成プロセスのシグネチャのセット及びそれらのそれぞれの寄与を決定する(S105)。
【0102】
デフォルト(初期設定)では、コンセンサス再編成シグネチャのパターンは、表1に示されるパターンであるが、変異シグネチャのこれらのパターンはまた、ユーザによって提供されてもよく、この方法は、公知のシグネチャに限定されず、将来発見される新しい又は改変されたシグネチャに容易に適用することができる。
【0103】
初期データのフィルタリング
データを分析する前に、体細胞再編成の入力リストを広範囲にフィルタリングして、任意の残存する生殖細胞系列変異及び技術特異的な配列決定アーティファクトを除去する。
【0104】
生殖細胞系列再編成又はコピー数多型を、dbSNP[25]、1000人ゲノムプロジェクト[26]、NHLBI GOエクソーム配列決定プロジェクト[27]、及び69個の完全ゲノムパネル(http://www.completegenomics.com/public-data/69-Genomes/)からの生殖細胞系列変異の完全なリストを使用して、報告された体細胞変異のリストから取り除く。
【0105】
参照ゲノムにおけるエラー又は偏りによって引き起こされる技術特異的な配列決定アーティファクト(ライブラリマーキング又は配列決定化学に関連する)及びマッピング関連アーティファクトを、少なくとも100個の正常全ゲノムを含有するマッチングされていない正常ヒト組織のBAMファイルのパネルを用いることによって取り除く。残りの体細胞変異を使用して、検査サンプルの変異カタログを構築する。
【0106】
サンプルについての変異カタログの生成
残りの(すなわち、フィルタリング後の)体細胞再編成のリストを使用して、サンプルの再編成変異カタログを生成する。
【0107】
(1)クラスタ化対非クラスタ化
変異に適用される第1の分類は、それらがクラスタ化(密接にグループ化)されているか否かである。
【0108】
患者のがんゲノムにおいてクラスタ化又は近接している再編成の集合を、ゲノム全体に分布又は分散している他の再編成から区別するために、データを、PCFベースのアルゴリズムによって解析する。PCF(区分的一定適合)アルゴリズムは、シーケンシャルデータのセグメント化の方法である。
【0109】
PCFを適用する前に、いくつかのステップを、再編成データに対して行う。
【0110】
それらの位置を示す単一のゲノム座標を有する置換又はインデルとは異なり、再編成は、大きな構造変異事象によってまとめられている2つの遠隔ゲノム座位を同定する2つの座標又は「ブレークポイント」を有する。
【0111】
最初に、各再編成の両方のブレークポイントを、独立して扱う。次いで、各サンプル中の参照ゲノム座標に従って、ブレークポイントをソートする。1つの再編成ブレークポイントから、参照ゲノム中のその直前の再編成ブレークポイントまでの塩基対の数と定義される変異間距離(IMD)を、各ブレークポイントについて計算する。次いで、計算されたIMDを、PCFアルゴリズムに供給する。
【0112】
「非クラスタ化」再編成から「クラスタ化」再編成の領域を同定するために、再編成のセットは、個々の患者のサンプルについての再編成の全ゲノム平均密度よりも少なくとも10倍大きい再編成ブレークポイントの平均密度を有することが必要とされた。さらに、ガンマパラメータ(セグメント化の滑らかさの尺度)が規定され、γ=25であり、再編成のクラスタと分類され得る前に、最低10個のブレークポイントが各領域に存在することが必要とされた。生物学的には、クラスタ化領域に関与する任意の再編成のそれぞれのパートナーブレークポイントは、同じ機構的瞬間に発生した可能性が高いため、参照ゲノムによると遠隔ゲノム部位に位置していたとしても、クラスタに関与していると見なすことができる。
【0113】
こうして、再編成は、最初に「クラスタ化」又は「非クラスタ化」に分類される。
【0114】
(2)タイプ及びサイズ
クラスタ化カテゴリと非クラスタ化カテゴリの両方で、再編成は、次いで、提供される情報に基づいて、再編成の主なクラスに分類される:
- タンデム重複
- 欠失
- 逆位
- 転座
【0115】
次いで、タンデム重複、欠失、及び逆位を、次の5つのサイズグループにカテゴライズすることができ、ここで、再編成のサイズは、より高いブレークポイント座標からより低いブレークポイント座標を減算することによって得られる。
- 1~10kb
- 10~100kb
- 100kb~1Mb
- 1Mb~10Mb
- >10Mb
【0116】
転座は、例外であり、サイズによって分類することができない。
【0117】
全部で、クラスタ化再編成の16個のサブグループ及び非クラスタ化再編成の16個のサブグループが存在するため、合計32個のカテゴリが存在する。これらを表1に示す。
【0118】
次いで、この分類の結果を、NNMFなどの潜在変数分析に供給して、各再編成シグネチャを記載する32個の要素の非負ベクトルを得ることができる。
【0119】
検査サンプルの変異カタログにおける再編成シグネチャに起因する体細胞変異の数の評価
全ての変異シグネチャの寄与の計算は、サンプルにおける全ての作用する変異プロセスのシグネチャのコンセンサスパターンに関連する変異の数を推定することによって行われる。以下に非負値行列因子分解(NNMF)を使用してこれを推定する方法を記載するが、代替方法、例えば、EMU又は階層ディリクレ過程(HDP)を同様に使用してもよい。
【0120】
より具体的には、全てのコンセンサス再編成シグネチャは、s個のベクトルを含有するセットPとして調べられ、
【数9】
であり、ベクトルのそれぞれは、コンセンサス再編成シグネチャを反映する離散確率密度関数である。現在知られている再編成シグネチャについて、これらのベクトルを表1の各列に示す。ここで、sは、公知のコンセンサス再編成シグネチャの数(現在は6)を指し、各ベクトルの32個の非負成分は、これらのコンセンサス再編成シグネチャの再編成の異なるカテゴリに対応する(すなわち、クラスタ化/非クラスタ化、タイプ及びサイズ)。
【0121】
全てのコンセンサス再編成シグネチャの寄与は、検査サンプルの変異カタログについて独立して推定される。推定アルゴリズムは、各シグネチャと検査サンプルとの間のコサイン類似度を計算することからなる。ベクトルのセット
について、コサイン類似度
は、
【数10】
によって与えられる。
【0122】
i番目の変異シグネチャ
に関連する再編成の数E
iは、コサイン類似度(
)に比例する:
【数11】
ここで、
及び
は、それぞれ公知の再編成シグネチャ及び変異カタログである、非負成分を有する等しいサイズのベクトルであり、qは、前記複数の公知の再編成シグネチャにおけるシグネチャの数である。
【0123】
上の式において、
及び
は、それぞれコンセンサス変異シグネチャ及び検査サンプルの変異カタログを反映する32個の非負成分(クラスタ化/非クラスタ化特徴並びに再編成のタイプ及びサイズに対応する)を有するベクトルを表す。したがって、
【数12】
であり、一方、
【数13】
である。さらに、両方のベクトルは、コンセンサス変異シグネチャから(すなわち、
)、又はサンプルの元の変異カタログを生成することから(すなわち、
)のいずれかの公知の数値を有する。対照的に、E
iは、変異カタログ
においてシグネチャ
が寄与する再編成の数を反映する未知のスカラーに対応する。
【0124】
上の式は、パラメータE
iに関して普遍的に制約されている。より具体的には、サンプルにおける再編成シグネチャが寄与する体細胞再編成の数は、非負でなければならず、そのサンプルにおける体細胞変異の総数を超えてはならない。さらに、サンプルにおける全てのシグネチャが寄与する変異は、そのサンプルの体細胞変異の総数と等しくなければならない。これらの制約は、
【数14】
及び
【数15】
と数学的に表現することができる。
【0125】
事前の生物学的知識が利用可能でない場合、シグネチャの全セットQを、E
iの決定に使用し、フィルターステップを使用して、最も相関の小さいシグネチャから、考慮されるサンプルを最もよく説明するシグネチャ(高度に相関するシグネチャ)へ変異を移動させる。カタログ
を考慮し、2つのシグネチャi及びj(i≠j及びi,j=1,…,Q)間の全ての
の可能な移動を考慮すると、フィルタリングステップは、貪欲アルゴリズムを使用して、カタログ
と、再構築されたカタログ
【数16】
との間のコサイン類似度を改善するか、又は変更しない移動を反復的に選択する(
は、シグネチャiからシグネチャjへ変異を移動させることによって得られるベクトル
のバージョンである)。フィルタリングステップは、シグネチャ間の全ての移動が、コサイン類似度に負の影響を与える場合に終了する。
【0126】
こうして、フィルタリングステップは、初期には少数の再編成を、実際には存在しないシグネチャに帰することをもたらし得る、DNAサンプルにおける「ノイズ」を減少させることができる。フィルタリングにより、このような再編成を、よりよく見られるシグネチャに再割り当てすることが可能になる。
【0127】
次いで、サンプルに存在し、特定のシグネチャに関連する再編成の数から、公知の再編成シグネチャからの再編成シグネチャの1つ以上をサンプルが示すかどうかを決定することが可能である。この決定のための異なる閾値は、状況、及び結果の所望の確実性に応じて設定することができる。一般的に、閾値は、上記の方法によって決定された特定のシグネチャに関連する再編成の割合と共に、(分析が代表的であることを保証するために)サンプルにおいて検出された再編成の総数を組み合わせる。
【0128】
例えば、30~40倍の深度まで配列決定されたゲノムから得られたデータの場合、検出の要件は、少なくとも20個、好ましくは少なくとも50個、より好ましくは少なくとも100個の再編成が存在することであってよく、再編成の少なくとも10%、好ましくは少なくとも20%、より好ましくは少なくとも30%の割合がそれに関連する場合、シグネチャが存在すると見なされる。以下に示すように、比閾値は、サンプルに見出される再編成のかなりの部分を構成する他のシグネチャの数に応じて調整されてもよい(例えば、4個のシグネチャが、再編成の25%でそれぞれ存在する場合、検出の一般的要件が25%より高く設定されていても、シグネチャが全く存在しないのではなく、4つ全てが存在すると決定してもよい)。
【0129】
再編成シグネチャは、互いに対して一般的に「相加的」である(すなわち、腫瘍は、2つ以上のシグネチャに関連する根底にある変異プロセスの影響を受けてもよく、この場合、その腫瘍由来のサンプルは、一般的に、(根底にあるプロセスのそれぞれに関連する別個の再編成の合計である)より多い全体的な数の再編成を示すが、再編成の割合は、存在するシグネチャに広がる)。結果として、特定のシグネチャの存在又は不在を決定する際に、(上記の方法で計算される)サンプル中の特定のシグネチャに関連する再編成の絶対数に注意を払ってもよい。検出のためのこのような代替要件は、複数のシグネチャが存在する状況をよりよく説明することができる。このアプローチの下では、シグネチャは、少なくとも10個、好ましくは少なくとも20個の再編成がそれに関連する場合、存在すると決定されてもよい。
【0130】
単一のゲノムにおける塩基置換シグネチャの検出方法
本発明の実施形態では、単一の患者のDNAにおける変異シグネチャの検出が行われる。これらの実施形態では、この検出は、がんを有すると疑われる患者から得られたDNAサンプルの標的化、全エクソーム、又は全ゲノムの配列決定によって生成された体細胞変異のリストを調べるコンピュータ実装方法又はツールによって行われる。この方法のステップを、
図3に概略的に示す。
【0131】
これらの実施形態の体細胞変異のリストは、様々な異なるフォーマット(VCF、MAFなどを含む)で提供されることができるが、最低でも各体細胞変異について次の情報を含有する必要がある: ゲノムアセンブリバージョン、染色体名、染色体上の開始位置、染色体上の終止位置、参照塩基(複数可)、変異した塩基(複数可)。
【0132】
幅広い表現では、DNAサンプルから体細胞変異のリストをロードした後(S101)、ツールは、まず任意の公知の生殖細胞系列及び/又はアーティファクトの体細胞変異を取り除き(S102)、次いで、単一塩基変異に基づきサンプルの変異カタログを生成し(S103)、公知のコンセンサス変異シグネチャのこのサンプルに対する寄与を評価し(S104)、最後に、サンプルにおいて作用する変異プロセスのシグネチャのセット及びそれらのそれぞれの寄与を決定する(S105)。
【0133】
デフォルトでは、コンセンサス変異シグネチャのパターンは、コンセンサス変異シグネチャのセンサスウェブサイト(http://cancer.sanger.ac.uk/cosmic/signatures)から取得されるが、変異シグネチャのこれらのパターンはまた、ユーザによって提供されてもよく、この方法は、公知のシグネチャに限定されず、将来発見される新しい又は改変されたシグネチャに容易に適用することができる。
【0134】
初期データのフィルタリング
データを分析する前に、体細胞変異の入力リストを広範囲にフィルタリングして、任意の残存する生殖細胞系列変異及び技術特異的な配列決定アーティファクトを除去する。
【0135】
生殖細胞系列多型を、dbSNP(22)、1000人ゲノムプロジェクト(23)、NHLBI GOエクソーム配列決定プロジェクト(24)、及び69個の完全ゲノムパネル(http://www.completegenomics.com/public-data/69-Genomes/)からの生殖細胞系列変異の完全なリストを使用して、報告された体細胞変異のリストから取り除く。
【0136】
技術特異的な配列決定アーティファクトを、300個の正常全ゲノム及び570個の正常全エクソームを含有するマッチングされていない正常ヒト組織のBAMファイルのパネルを使用することによって取り除く。少なくとも2つの正常なBAMファイルにおける少なくとも2つの良好にマッピングされたリードに存在する任意の体細胞変異を捨てる。残りの体細胞変異を使用して、検査サンプルの変異カタログを構築する。
【0137】
この方法の具体的な実施形態では、上記のフィルタリングは、Perlで書かれたスクリプトによって行われる。
【0138】
サンプルについての変異カタログの生成
残りの(すなわち、フィルタリング後の)体細胞変異のリストを使用して、サンプルの変異カタログを生成する。この変異カタログは、96個の可能な変異タイプ(6種類の置換×4種類の5'塩基×4種類の3'塩基)を生成する、6種類の体細胞置換(C:G>A:T、C:G>G:C、C:G>T:A、T:A>A:T、T:A>C:G、及びT:A>G:C)並びに体細胞変異の直近の5'及び3'の塩基を包含する。
【0139】
したがって、各体細胞変異を、そのゲノム位置並びにその直近の5'及び3'塩基を用いて検査する。体細胞変異の数及びそれらのトリヌクレオチドコンテクストを、変異のピリミジン塩基に基づいて数える。
【0140】
例えば、ヒトゲノムビルドGRCh37の場合、134147737位の第9番染色体上のG:C>A:T変異を、CpCpT > CpTpT(変異した塩基に下線を引き、及びピリミジンコンテクストにおいて)で記録する。これらの数は、フィルタリング後に残った全ての体細胞変異にわたって集められ、それらは、検査サンプルの変異カタログを構成する。
【0141】
この方法の具体的な実施形態では、上述したように、Perlで書かれ、ENSEMBL Core APIを用いたスクリプトを使用して、変異カタログの生成を行う。
【0142】
要約すると、変異カタログの生成は、体細胞変異のフィルタリング後のリストを、非負ベクトル
に変換し、ここで、
【数17】
である。
【0143】
検査サンプルの変異カタログにおける変異シグネチャに起因する体細胞変異の数の評価
全ての変異シグネチャの寄与の計算は、サンプルにおける全ての作用する変異プロセスのシグネチャのコンセンサスパターンに関連する変異の数を推定することによって行われる。
【0144】
より具体的には、全てのコンセンサス変異シグネチャは、s個のベクトルを含有するセットPとして調べられ、
【数18】
であり、ベクトルのそれぞれは、コンセンサス変異シグネチャを反映する離散確率密度関数である(例として、シグネチャ3のベクトルは、表3の「確率」の列に記載される通りである)。ここで、sは、公知のコンセンサス変異シグネチャの数を指し、各ベクトルの96個の非負成分は、これらのコンセンサス変異シグネチャの変異タイプの数に対応する(すなわち、体細胞置換、及びそれらの直近の配列決定コンテクスト)。
【0145】
全てのコンセンサス変異シグネチャの寄与は、検査サンプルの変異カタログについて独立して推定される。推定アルゴリズムは、サブセットQに属する、ベクトルのセット
についての制約付き線形関数(制約については以下を参照)のフロベニウスノルムの最小値を見出すことからなり、ここで、
【数19】
である(Pは、全ての公知のコンセンサス変異シグネチャを包含する、これまでに述べられたセットである):
【数20】
【0146】
サブセットQは、事前の生物学的知識に基づいて決定される。この生物学的知識は、コンセンサス変異シグネチャの公知の特徴又は検査サンプルの知識に基づいている。
【0147】
原則として、コンセンサス変異シグネチャ、及びそれらが見出されるがんのタイプに関する一般的な生物学的知識は、ウェブサイト: http://cancer.sanger.ac.uk/cosmic/signaturesで提供される。例えば、任意の神経芽腫サンプルについて、Qは、コンセンサスシグネチャ1、5、及び18のみを含有する。(現在)これらは、神経芽腫において作用する変異プロセスの唯一の公知のシグネチャであるからである(http://cancer.sanger.ac.uk/cosmic/signaturesを参照)。
【0148】
式(1)において、
及び
は、それぞれコンセンサス変異シグネチャ及び検査サンプルの変異カタログを反映する、(6つの体細胞置換及びそれらの直近の配列決定コンテクストに対応する)96個の非負成分を有するベクトルを表す。したがって、
【数21】
であり、一方、
【数22】
である。さらに、両方のベクトルは、コンセンサス変異シグネチャのセンサスウェブサイトから(すなわち、
)、又はサンプルの元の変異カタログを生成することから(すなわち、
)のいずれかの公知の数値を有する。対照的に、E
iは、変異カタログ
においてシグネチャ
が寄与する変異の数を反映する未知のスカラーに対応する。
【0149】
式(1)の最小化は、いくつかの生物学的に意味のある線形制約の下で行われる。検査セットQにおけるベクトルのセットは、コンセンサス変異シグネチャの以前に同定された生物学的特性に基づいて制約される。これは、生物学的条件を最小化プロセスにコード化することによってコンピュータで行うことができる。
【0150】
例えば、コンセンサスシグネチャ6は、モノ/ポリヌクレオチドリピートで、高レベルの小さな挿入及び/又は欠失(インデル)を引き起こす。したがって、検査サンプルの変異カタログが、ほんのわずかなそのようなインデルを有する場合、この変異シグネチャは、セットQから除外される。
【0151】
同様に、他のタイプのインデル、転写鎖バイアス、ジヌクレオチド変異、ハイパーミューテータ表現型(超突然変異誘発表現型)などに関連するシグネチャが存在し、問題のサンプルがこれらの特性の1つ以上を示す場合にのみ、これらのシグネチャはセットQに含まれる。変異シグネチャに関連する特性のリストは、コンセンサス変異シグネチャのセンサスウェブサイト(http://cancer.sanger.ac.uk/cosmic/signatures)で見出すことができる。
【0152】
事前の生物学的知識が欠如している場合、コンセンサス変異シグネチャの完全なセットPが、この分析に使用されることに留意する。
【0153】
セットQへの生物学的に意味のある制約に加えて、式(1)は、パラメータE
iに関して普遍的に制約されている。より具体的には、サンプルにおける変異シグネチャが寄与する体細胞変異の数は、非負でなければならず、そのサンプルにおける体細胞変異の総数を超えてはならない。さらに、サンプルにおける全てのシグネチャが寄与する変異は、そのサンプルの体細胞変異の総数と等しくなければならない。これらの制約は、
【数23】
及び
【数24】
と数学的に表現することができる。
【0154】
数値的には、最小化式(1)は、有限の制約付き非線形多変数関数の最小値を求めることで調べることができる。この関数は、順次二次計画法アルゴリズム又は内点アルゴリズムのいずれかを使用して効果的に最小化することができる。この方法の実施形態では、制約付き最小化モジュールは、最適化ツールボックスからのfmincon関数を使用してMATLABで実施される。
【0155】
最小化手順は、体細胞変異の数を、調べられるコンセンサス変異シグネチャのそれぞれに割り当てる結果となる。体細胞変異のこれらの数は、サンプルについて配列決定されたメガベースの数でそれらを除算ことによって、配列決定された1メガベース当たりの体細胞変異の数に変換することができる。配列決定された1メガベース当たり0.01個以下の変異の寄与を伴うシグネチャは、サンプル中に存在しないと見なされ、配列決定された1メガベース当たり0.01個の変異を超えるが、配列決定された1メガベース当たり0.10個以下の変異の寄与を伴うシグネチャは、サンプル中に弱く存在すると見なされ、配列決定された1メガベース当たり0.10個の変異を超えるが、配列決定された1メガベース当たり0.35個以下の変異の寄与を伴うシグネチャは、サンプル中に存在すると見なされ、配列決定された1メガベース当たり0.35個を超える変異の寄与を伴うシグネチャは、サンプル中に強く存在すると見なされる。
【0156】
上記の実施形態のシステム及び方法は、記載された構造コンポーネント及びユーザインタラクションに加えて、コンピュータシステムで(特に、コンピュータハードウェア又はコンピュータソフトウェアで)実施されてもよい。
【0157】
用語「コンピュータシステム」は、上記の実施形態による方法を実施するための又はシステムを具体化するための、ハードウェア、ソフトウェア、及びデータ記憶デバイスを含む。例えば、コンピュータシステムは、中央処理装置(CPU)、入力手段、出力手段、及びデータ記憶装置を含んでもよい。好ましくは、コンピュータシステムは、(例えば、ビジネスプロセスの設計において)視覚的出力ディスプレイを提供するためのモニタを有する。データ記憶装置は、RAM、ディスクドライブ、又は他のコンピュータ可読媒体を含んでもよい。コンピュータシステムは、ネットワークによって接続され、そのネットワークを介して互いに通信することができる複数のコンピューティングデバイスを含んでもよい。
【0158】
上記の実施形態の方法は、コンピュータプログラムとして、又はコンピュータ上で実行されると、上記の方法を実施するように用意されたコンピュータプログラムを担持するコンピュータプログラム製品又はコンピュータ可読媒体として提供されてもよい。
【0159】
用語「コンピュータ可読媒体」は、限定されないが、コンピュータ又はコンピュータシステムによって直接読み取られ、アクセスされ得る任意の非一時的媒体を含む。媒体は、以下に限定されないが、磁気記憶媒体、例えば、フロッピーディスク、ハードディスク記憶媒体、及び磁気テープ; 光学記憶媒体、例えば、光学ディスク又はCD-ROM; 電気記憶媒体、例えば、RAM、ROM及びフラッシュメモリを含むメモリ; 並びに磁気/光学記憶媒体などの上記のハイブリッド及び組み合わせを含むことができる。
【0160】
上記の実施形態の方法は、コンピュータプログラムとして、又はコンピュータ上で実行されると、上記の方法を実施するように用意されたコンピュータプログラムを担持するコンピュータプログラム製品又はコンピュータ可読媒体として提供されてもよい。
【0161】
用語「コンピュータ可読媒体」は、限定されないが、コンピュータ又はコンピュータシステムによって直接読み取られ、アクセスされ得る任意の非一時的媒体を含む。媒体は、以下に限定されないが、磁気記憶媒体、例えば、フロッピーディスク、ハードディスク記憶媒体、及び磁気テープ; 光学記憶媒体、例えば、光学ディスク又はCD-ROM; 電気記憶媒体、例えば、RAM、ROM及びフラッシュメモリを含むメモリ; 並びに磁気/光学記憶媒体などの上記のハイブリッド及び組み合わせを含むことができる。
【0162】
参考文献
1 Ford, D. et al. Genetic heterogeneity and penetrance analysis of the BRCA1 and BRCA2 genes in breast cancer families. The Breast Cancer Linkage Consortium. American journal of human genetics 62, 676-689 (1998).
2 King, M. C., Marks, J. H., Mandell, J. B. & New York Breast Cancer Study, G. Breast and ovarian cancer risks due to inherited mutations in BRCA1 and BRCA2. Science 302, 643-646, doi:10.1126/science.1088759 (2003).
3 Risch, H. A. et al. Prevalence and penetrance of germline BRCA1 and BRCA2 mutations in a population series of 649 women with ovarian cancer. American journal of human genetics 68, 700-710, doi:10.1086/318787 (2001).
4 Greer, J. B. & Whitcomb, D. C. Role of BRCA1 and BRCA2 mutations in pancreatic cancer. Gut 56, 601-605, doi:10.1136/gut.2006.101220 (2007).
5 Alexandrov, L. B. et al. Signatures of mutational processes in human cancer. Nature 500, 415-421, doi:10.1038/nature12477 (2013). REF 24 from COMPENDIUM
6 Waddell, N. et al. Whole genomes redefine the mutational landscape of pancreatic cancer. Nature 518, 495-501, doi:10.1038/nature14169 (2015).
7 Merajver, S. D. et al. Somatic mutations in the BRCA1 gene in sporadic ovarian tumours. Nature genetics 9, 439-443, doi:10.1038/ng0495-439 (1995).
8 Miki, Y., Katagiri, T., Kasumi, F., Yoshimoto, T. & Nakamura, Y. Mutation analysis in the BRCA2 gene in primary breast cancers. Nature genetics 13, 245-247, doi:10.1038/ng0696-245 (1996).
9 Jackson, S. P. Sensing and repairing DNA double-strand breaks. Carcinogenesis 23, 687-696 (2002).
10 Nik-Zainal, S. et al. Mutational processes molding the genomes of 21 breast cancers. Cell 149, 979-993, doi:10.1016/j.cell.2012.04.024 (2012).
11 Walsh, T. et al. Spectrum of mutations in BRCA1, BRCA2, CHEK2, and TP53 in families at high risk of breast cancer. Jama 295, 1379-1388, doi:10.1001/jama.295.12.1379 (2006).
12 Stratton, M. R., Campbell, P. J. & Futreal, P. A. The cancer genome. Nature 458, 719-724, doi:10.1038/nature07943 (2009).
13 Nik-Zainal, S. et al. The life history of 21 breast cancers. Cell 149, 994-1007, doi:10.1016/j.cell.2012.04.023 (2012).
14 Hicks, J. et al. Novel patterns of genome rearrangement and their association with survival in breast cancer. Genome research 16, 1465-1479, doi:10.1101/gr.5460106 (2006).
15 Bergamaschi, A. et al. Extracellular matrix signature identifies breast cancer subgroups with different clinical outcome. The Journal of pathology 214, 357-367, doi:10.1002/path.2278 (2008).
16 Ching, H. C., Naidu, R., Seong, M. K., Har, Y. C. & Taib, N. A. Integrated analysis of copy number and loss of heterozygosity in primary breast carcinomas using high-density SNP array. International journal of oncology 39, 621-633, doi:10.3892/ijo.2011.1081 (2011).
17 Fang, M. et al. Genomic differences between estrogen receptor (ER)-positive and ER-negative human breast carcinoma identified by single nucleotide polymorphism array comparative genome hybridization analysis. Cancer 117, 2024-2034, doi:10.1002/cncr.25770 (2011).
18 Curtis, C. et al. The genomic and transcriptomic architecture of 2,000 breast tumours reveals novel subgroups. Nature 486, 346-352, doi:10.1038/nature10983 (2012).
19 Pleasance, E. D. et al. A comprehensive catalogue of somatic mutations from a human cancer genome. Nature 463, 191-196, doi:10.1038/nature08658 (2010).
20 Pleasance, E. D. et al. A small-cell lung cancer genome with complex signatures of tobacco exposure. Nature 463, 184-190, doi:10.1038/nature08629 (2010).
21 Banerji, S. et al. Sequence analysis of mutations and translocations across breast cancer subtypes. Nature 486, 405-409, doi:10.1038/nature11154 (2012).
22 Ellis, M. J. et al. Whole-genome analysis informs breast cancer response to aromatase inhibition. Nature 486, 353-360, doi:10.1038/nature11143 (2012).
23 Shah, S. P. et al. The clonal and mutational evolution spectrum of primary triple-negative breast cancers. Nature 486, 395-399, doi:10.1038/nature10933 (2012).
24 Stephens, P. J. et al. The landscape of cancer genes and mutational processes in breast cancer. Nature 486, 400-404, doi:10.1038/nature11017 (2012).
25 West, J. A. et al. The long noncoding RNAs NEAT1 and MALAT1 bind active chromatin sites. Molecular cell 55, 791-802, doi:10.1016/j.molcel.2014.07.012 (2014).
26 Huang, F. W. et al. Highly recurrent TERT promoter mutations in human melanoma. Science 339, 957-959, doi:10.1126/science.1229259 (2013).
27 Vinagre, J. et al. Frequency of TERT promoter mutations in human cancers. Nature communications 4, 2185, doi:10.1038/ncomms3185 (2013).
28 Alexandrov, L. B., Nik-Zainal, S., Wedge, D. C., Campbell, P. J. & Stratton, M. R. Deciphering signatures of mutational processes operative in human cancer. Cell reports 3, 246-259, doi:10.1016/j.celrep.2012.12.008 (2013).
29 Kalyana-Sundaram, S. et al. Gene fusions associated with recurrent amplicons represent a class of passenger aberrations in breast cancer. Neoplasia 14, 702-708 (2012).
30 Helleday, T., Eshtad, S. & Nik-Zainal, S. Mechanisms underlying mutational signatures in human cancers. Nature reviews. Genetics 15, 585-598, doi:10.1038/nrg3729 (2014).
31 Birkbak, N. J. et al. Telomeric allelic imbalance indicates defective DNA repair and sensitivity to DNA-damaging agents. Cancer discovery 2, 366-375, doi:10.1158/2159-8290.CD-11-0206 (2012).
32 Abkevich, V. et al. Patterns of genomic loss of heterozygosity predict homologous recombination repair defects in epithelial ovarian cancer. British journal of cancer 107, 1776-1782, doi:10.1038/bjc.2012.451 (2012).
33 Popova, T. et al. Ploidy and large-scale genomic instability consistently identify basal-like breast carcinomas with BRCA1/2 inactivation. Cancer research 72, 5454-5462, doi:10.1158/0008-5472.CAN-12-1470 (2012).
34 Kozarewa, I. et al. Amplification-free Illumina sequencing-library preparation facilitates improved mapping and assembly of (G+C)-biased genomes. Nature methods 6, 291-295, doi:10.1038/nmeth.1311 (2009).
35 Li, H. & Durbin, R. Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics 25, 1754-1760, doi:10.1093/bioinformatics/btp324 (2009).
36 Ye, K., Schulz, M. H., Long, Q., Apweiler, R. & Ning, Z. Pindel: a pattern growth approach to detect break points of large deletions and medium sized insertions from paired-end short reads. Bioinformatics 25, 2865-2871, doi:10.1093/bioinformatics/btp394 (2009).
37 Zerbino, D. R. & Birney, E. Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome research 18, 821-829, doi:10.1101/gr.074492.107 (2008).
38 Van Loo, P. et al. Allele-specific copy number analysis of tumors. Proceedings of the National Academy of Sciences of the United States of America 107, 16910-16915, doi:10.1073/pnas.1009843107 (2010).
【0163】
上記の参考文献の全ては、参照により本明細書に組み込まれる。
【0164】
【0165】
【表2】
本開示は以下の実施形態を包含する。
[1] がんを有する患者が、PARP阻害剤又は白金ベースの薬物に応答する可能性が高いかどうかを予測する方法であって、該方法は、前記患者から得られたDNAサンプルにおける再編成シグネチャ1、3、及び/又は5の1つ以上の存在又は不在を決定するステップを含み、再編成シグネチャ1、3、及び5は、表1に定義され、前記再編成シグネチャのそれぞれ又は組み合わせの1つ以上に関連すると決定されたその再編成カタログにおける再編成の数又は割合が、所定の閾値を超える場合に、DNAサンプルは、再編成シグネチャの存在を示すと見なされ、前記再編成シグネチャの1つがサンプルに存在する場合、患者は、PARP阻害剤又は白金ベースの薬物に応答する可能性が高い、方法。
[2] PARP阻害剤又は白金ベースの薬物を用いた治療についてがんを有する患者を選択する方法であって、該方法は、前記患者から得られたDNAサンプルにおける再編成シグネチャ1、3、及び/又は5の1つ以上の存在又は不在を同定するステップ、ここで、再編成シグネチャ1、3、及び5は、表1に定義され、前記再編成シグネチャのそれぞれ又は組み合わせの1つ以上に関連すると決定されたその再編成カタログにおける再編成の数又は割合が、所定の閾値を超える場合に、DNAサンプルは、再編成シグネチャの存在を示すと見なされ、及び前記再編成シグネチャの1つがサンプルに存在する場合、PARP阻害剤又は白金ベースの薬物を用いた治療について患者を選択するステップを含む、方法。
[3] 再編成シグネチャ1、3、及び/又は5の1つ以上を有する患者におけるがんの治療方法に使用するためのPARP阻害剤又は白金ベースの薬物であって、再編成シグネチャ1、3、及び5は、表1に定義され、前記再編成シグネチャのそれぞれ又は組み合わせの1つ以上に関連すると決定されたその再編成カタログにおける再編成の数又は割合が、所定の閾値を超える場合に、DNAサンプルは、再編成シグネチャの存在を示すと見なされる、PARP阻害剤又は白金ベースの薬物。
[4] 再編成シグネチャ1、3、及び/又は5の1つ以上を有すると決定された患者におけるがんの治療方法であって、再編成シグネチャ1、3、及び5は、表1に定義され、前記再編成シグネチャのそれぞれ又は組み合わせの1つ以上に関連すると決定されたその再編成カタログにおける再編成の数又は割合が、所定の閾値を超える場合に、DNAサンプルは、再編成シグネチャの存在を示すと見なされ、該方法は、PARP阻害剤又は白金ベースの薬物を前記患者に投与するステップを含む、方法。
[5] 患者におけるがんの治療方法に使用するためのPARP阻害剤又は白金ベースの薬物であって、該方法は、
(i)再編成シグネチャ1、3、及び/又は5の1つ以上が、前記患者から得られたDNAサンプルに存在するかどうかを決定するステップ、ここで、再編成シグネチャ1、3、及び5は、表1に定義され、前記再編成シグネチャのそれぞれ又は組み合わせの1つ以上に関連すると決定されたその再編成カタログにおける再編成の数又は割合が、所定の閾値を超える場合に、DNAサンプルは、再編成シグネチャの存在を示すと見なされ、及び
(ii)前記再編成シグネチャの1つが前記サンプルに存在する場合、PARP阻害剤又は白金ベースの薬物を患者に投与するステップ
を含む、PARP阻害剤又は白金ベースの薬物。
[6] 患者から得られたDNAサンプルにおける再編成シグネチャ1~6のいずれか1つの存在を決定する方法であって、再編成シグネチャは、表1に定義され、特定の再編成シグネチャに関連すると決定されたその再編成カタログにおける再編成の数又は割合が、所定の閾値を超える場合に、DNAサンプルは、その特定の再編成シグネチャの存在を示すと見なされる、方法。
[7] サンプルにおける再編成シグネチャの存在又は不在を決定するステップが、
前記サンプルにおける体細胞変異をカタログ化して、サンプルにおける同定された再編成変異を複数のカテゴリに分類するそのサンプルについての再編成カタログを生成するステップ; 及び
前記カタログにおける再編成変異と再編成変異シグネチャとの間のコサイン類似度を計算することによって、公知の再編成シグネチャの前記再編成カタログへの寄与を決定するステップ
を含む、実施形態1、2、4、又は6のいずれかに記載の方法。
[8] 前記決定するステップの前に、前記カタログにおける変異をフィルタリングして、残存する生殖細胞系列変異、コピー数多型、及び公知の配列決定アーティファクトのうちの1つ以上を除去するさらなるステップを含む、実施形態7に記載の方法。
[9] フィルタリングが、公知の生殖細胞系列多型のリストを使用する、実施形態8に記載の方法。
[10] フィルタリングが、DNAサンプルと同じプロセスによって配列決定されたマッチングされていない正常ヒト組織のBAMファイルを使用し、前記BAMファイルの少なくとも2つにおける少なくとも2つの良好にマッピングされたリードに存在する任意の体細胞変異を捨てる、実施形態8に記載の方法。
[11] 再編成変異の分類が、変異をクラスタ化又は非クラスタ化されていると同定することを含む、実施形態7~10のいずれかに記載の方法。
[12] 変異が、個々の患者のサンプルについての再編成の全ゲノム平均密度の少なくとも10倍大きい再編成ブレークポイントの平均密度を有する場合、クラスタ化されていると同定する、実施形態11に記載の方法。
[13] 再編成変異の分類が、変異を、タンデム重複、欠失、逆位、又は転座のうちの1つと同定することを含む、実施形態7~12のいずれかに記載の方法。
[14] 再編成変異の分類が、タンデム重複、欠失、又は逆位と同定された変異を、サイズによりグループ化することを含む、実施形態13に記載の方法。
[15] このサンプルのカタログ
と
との間のコサイン類似度(
):
に比例する、i番目の公知の変異シグネチャ
に関連する再編成カタログにおける再編成の数E
i
を決定するステップをさらに含み、ここで、
であり、
及び
、それぞれ公知の再編成シグネチャ及び再編成カタログである、非負成分を有する等しいサイズのベクトルであり、qは、前記複数の公知の再編成シグネチャにおけるシグネチャの数であり、E
i
は、
及び
という要件によってさらに制約されている、実施形態7~14のいずれかに記載の方法。
[16] 再編成の数を決定するステップが、カタログとの相関がより小さいシグネチャから、カタログとの相関がより大きいシグネチャへ1つ以上の再編成を再割り当てすることによって、各シグネチャに割り当てられると決定された再編成の数をフィルタリングするステップをさらに含む、実施形態15に記載の方法。
[17] フィルタリングのステップが、貪欲アルゴリズムを使用して、カタログ
と、再構築されたカタログ
との間のコサイン類似度を改善するか、又は変更しない、シグネチャへの再編成の代替的割り当てを反復的に見出すものであり、
は、シグネチャiからシグネチャjへ変異を移動させることによって得られるベクトル
のバージョンであり、各反復において、シグネチャ間の全ての可能な移動の影響が推定され、これらの可能な再割り当ての全てがコサイン類似度に負の影響を与える場合、フィルタリングステップは終了する、実施形態16に記載の方法。
[18] DNAサンプルにおける変異シグネチャ26又は変異シグネチャ30を検出する方法であって、変異シグネチャ26及び30は、表2に定義され、該方法は、前記サンプルにおける体細胞変異をカタログ化して、そのサンプルについての変異カタログを生成するステップ; 前記カタログにおける変異と、スカラー因子によってスケーリングされた複数の公知の変異シグネチャの組み合わせから予測される変異との間の差を表す関数を一緒になって最小化する、複数の前記公知の変異シグネチャのそれぞれについてのスカラー因子を決定することによって、変異シグネチャ26又は変異シグネチャ30を含む公知の変異シグネチャの前記変異カタログへの寄与を決定するステップ; 及び変異シグネチャ26又は変異シグネチャ30に対応するスカラー因子が、所定の閾値を超える場合に、前記サンプルを、対応する変異シグネチャ26又は変異シグネチャ30をそれぞれ含有すると同定するステップを含む、方法。
[19] 前記決定するステップの前に、前記カタログにおける変異をフィルタリングして、残存する生殖細胞系列変異、又は公知の配列決定アーティファクトのいずれか、又は両方を除去するさらなるステップを含む、実施形態18に記載の方法。
[20] フィルタリングが、公知の生殖細胞系列多型のリストを使用する、実施形態19に記載の方法。
[21] フィルタリングが、DNAサンプルと同じプロセスによって配列決定されたマッチングされていない正常ヒト組織のBAMファイルを使用し、前記BAMファイルの少なくとも2つにおける少なくとも2つの良好にマッピングされたリードに存在する任意の体細胞変異を捨てる、実施形態19又は実施形態20に記載の方法。
[22] 前記複数の公知の変異シグネチャを、全ての公知の変異シグネチャのサブセットとして選択するステップをさらに含む、実施形態18~21のいずれかに記載の方法。
[23] 変異シグネチャのサブセットが、DNAサンプル又は変異シグネチャ又は両方についての生物学的知識に基づいて選択される、実施形態22に記載の方法。
[24] 決定するステップが、フロベニウスノルム:
を最小化するスカラーE
i
を決定し、
及び
は、それぞれコンセンサス変異シグネチャ及び変異カタログである、非負成分を有する等しいサイズのベクトルであり、qは、前記複数の公知の変異シグネチャにおけるシグネチャの数であり、E
i
は、
及び
という要件によってさらに制約されている、実施形態18~23のいずれかに記載の方法。