特表2019-519872(P2019-519872A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ゲノム・リサーチ・リミテッドの特許一覧

特表2019-519872サンプルにおける変異シグネチャを検出する方法
<>
  • 特表2019519872-サンプルにおける変異シグネチャを検出する方法 図000056
  • 特表2019519872-サンプルにおける変異シグネチャを検出する方法 図000057
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】特表2019-519872(P2019-519872A)
(43)【公表日】2019年7月11日
(54)【発明の名称】サンプルにおける変異シグネチャを検出する方法
(51)【国際特許分類】
   G16B 20/20 20190101AFI20190621BHJP
   G01N 33/50 20060101ALN20190621BHJP
   C12Q 1/68 20180101ALN20190621BHJP
【FI】
   G16B20/20
   G01N33/50 P
   C12Q1/68
【審査請求】未請求
【予備審査請求】未請求
【全頁数】25
(21)【出願番号】特願2019-508295(P2019-508295)
(86)(22)【出願日】2017年4月28日
(85)【翻訳文提出日】2018年12月19日
(86)【国際出願番号】EP2017060279
(87)【国際公開番号】WO2017191068
(87)【国際公開日】20171109
(31)【優先権主張番号】1607628.3
(32)【優先日】2016年5月1日
(33)【優先権主張国】GB
(81)【指定国】 AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JP,KE,KG,KH,KN,KP,KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT,TZ
(71)【出願人】
【識別番号】518369590
【氏名又は名称】ゲノム・リサーチ・リミテッド
(74)【代理人】
【識別番号】110002572
【氏名又は名称】特許業務法人平木国際特許事務所
(72)【発明者】
【氏名】ニク−ザイナル,セリーナ
(72)【発明者】
【氏名】ストラトン,マイク
(72)【発明者】
【氏名】グロドジク,ドミニク
【テーマコード(参考)】
2G045
4B063
【Fターム(参考)】
2G045AA25
2G045DA13
4B063QA05
4B063QQ02
4B063QQ42
4B063QS36
(57)【要約】
本発明は、DNAサンプルにおける変異シグネチャを検出する方法を提供する。本発明は、サンプル中のDNAにおける再編成から生じるシグネチャを検出し、公知の再編成シグネチャの前記再編成への寄与を決定する方法に関する。特定の実施形態では、寄与は、前記カタログにおける再編成変異と再編成変異シグネチャとの間のコサイン類似度を計算することによって決定される。再編成シグネチャは、それらがクラスタ化されているか否か、それらがタンデム重複、欠失、逆位、又は転座であるかどうかに基づいて、さらに、それらのサイズに基づいて分類される。
【選択図】図1
【特許請求の範囲】
【請求項1】
以前に得られたDNAサンプルにおける再編成シグネチャを検出する方法であって、
前記サンプルにおける体細胞変異をカタログ化して、サンプルにおける同定された再編成変異を複数のカテゴリに分類する、そのサンプルについての再編成カタログを生成するステップ; 及び
前記カタログにおける再編成変異と再編成変異シグネチャとの間のコサイン類似度を計算することによって、公知の再編成シグネチャの前記再編成カタログへの寄与を決定するステップ
を含む、方法。
【請求項2】
前記決定するステップの前に、前記カタログにおける変異をフィルタリングして、残存する生殖細胞系列変異、コピー数多型、及び公知の配列決定アーティファクトのうちの1つ以上を除去するさらなるステップを含む、請求項1に記載の方法。
【請求項3】
フィルタリングが、公知の生殖細胞系列多型のリストを使用する、請求項2に記載の方法。
【請求項4】
フィルタリングが、DNAサンプルと同じプロセスによって配列決定されたマッチングされていない正常ヒト組織のBAMファイルを使用し、前記BAMファイルの少なくとも2つにおける少なくとも2つの良好にマッピングされたリードに存在する任意の体細胞変異を捨てる、請求項2に記載の方法。
【請求項5】
再編成変異の分類が、変異をクラスタ化又は非クラスタ化されていると同定することを含む、請求項1〜4のいずれか一項に記載の方法。
【請求項6】
変異が、個々の患者のサンプルについての再編成の全ゲノム平均密度の少なくとも10倍大きい再編成ブレークポイントの平均密度を有する場合、クラスタ化されていると同定する、請求項5に記載の方法。
【請求項7】
再編成変異の分類が、変異を、タンデム重複、欠失、逆位、又は転座のうちの1つと同定することを含む、請求項1〜6のいずれか一項に記載の方法。
【請求項8】
再編成変異の分類が、タンデム重複、欠失、又は逆位と同定された変異を、サイズによりグループ化することを含む、請求項7に記載の方法。
【請求項9】
このサンプルのカタログ

との間のコサイン類似度(
):
【数1】
に比例する、i番目の公知の変異シグネチャ
に関連する再編成カタログにおける再編成の数Eiを決定するステップをさらに含み、
ここで、
【数2】
であり、
及び
は、それぞれ公知の再編成シグネチャ及び再編成カタログである、非負成分を有する等しいサイズのベクトルであり、qは、前記複数の公知の再編成シグネチャにおけるシグネチャの数であり、Eiは、
【数3】
及び
【数4】
という要件によってさらに制約されている、請求項1〜8のいずれか一項に記載の方法。
【請求項10】
再編成の数を決定するステップが、カタログとの相関がより小さいシグネチャから、カタログとの相関がより大きいシグネチャへ1つ以上の再編成を再割り当てすることによって、各シグネチャに割り当てられると決定された再編成の数をフィルタリングするステップをさらに含む、請求項9に記載の方法。
【請求項11】
フィルタリングのステップが、貪欲アルゴリズムを使用して、カタログ
と、再構築されたカタログ
【数5】
との間のコサイン類似度を改善するか、又は変更しない、シグネチャへの再編成の代替的割り当てを反復的に見出すものであり、
は、シグネチャiからシグネチャjへ変異を移動させることによって得られるベクトル
のバージョンであり、各反復において、シグネチャ間の全ての可能な移動の影響が推定され、これらの可能な再割り当ての全てがコサイン類似度に負の影響を与える場合、フィルタリングステップは終了する、請求項10に記載の方法。
【請求項12】
前記再編成シグネチャの1つに関連すると決定された再編成カタログにおける再編成の数又は割合が、所定の閾値を超えるかどうかを決定し、超える場合には、前記再編成シグネチャがサンプルに存在すると決定するステップをさらに含む、請求項1〜11のいずれか一項に記載の方法。
【請求項13】
コンピュータ上で実行されると、
前記サンプルにおける体細胞変異をカタログ化して、サンプルにおける同定された再編成変異を複数のカテゴリに分類する、そのサンプルについての再編成カタログを生成するステップ;
前記カタログにおける再編成変異と再編成変異シグネチャとの間のコサイン類似度を計算することによって、公知の再編成シグネチャの前記再編成カタログへの寄与を決定するステップ
を実施するコンピュータプログラムを格納した非一時的メモリを含有するコンピュータプログラム製品。
【請求項14】
プロセッサを有するコンピュータであって、該プロセッサは、
前記サンプルにおける体細胞変異をカタログ化して、サンプルにおける同定された再編成変異を複数のカテゴリに分類するそのサンプルについての再編成カタログを生成し;
前記カタログにおける再編成変異と再編成変異シグネチャとの間のコサイン類似度を計算することによって、公知の再編成シグネチャの前記再編成カタログへの寄与を決定する
ように構成されている、コンピュータ。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、DNAサンプルにおける変異シグネチャを検出する方法に関する。本発明は、特に、DNAサンプルにおける再編成シグネチャを検出する方法に関する。
【背景技術】
【0002】
体細胞変異は、人体の全ての細胞に存在し、生涯を通じて発生する。それらは、複数の変異プロセス、例えば、DNA複製機構の固有のわずかな不正確性、外因性若しくは内因性変異原曝露、DNAの酵素的改変、並びに欠陥のあるDNA修復の結果である。異なる変異プロセスは、「変異シグネチャ」と呼ばれる変異タイプの独自の組み合わせを生成する。
【0003】
過去数年、大規模な分析により、種々のヒトがんタイプにわたる多くの変異シグネチャが明らかになっている。
【0004】
がんの変異理論は、「ドライバ」変異と呼ばれるDNA配列の変化が、細胞に増殖上の利点を与え、新生物クローンの増殖をもたらすことを提案する[1]。いくつかのドライバ変異は、生殖細胞系列において遺伝するが、大部分は、がん発達に関与しない多くの「パッセンジャ」変異と共に、がん患者の生存期間中に体細胞で発生する[1]。複数の変異プロセス、例えば、内因性及び外因性変異原曝露、異常なDNA編集、複製エラー、並びに欠陥のあるDNA維持が、これらの変異の生成の原因である[1〜3]。
【0005】
過去50年間にわたり、技術のいくつかの波が、がんゲノムにおける変異の特徴付けを進めてきた。核型分析により、再編成された染色体及びコピー数の変化が明らかになった。その後、ヘテロ接合性喪失分析、がん由来DNAのマイクロアレイへのハイブリダイゼーション、及び他のアプローチにより、コピー数変化へのより高い分解能の洞察が得られた[4〜8]。最近、DNA配列決定により、塩基置換、小さな挿入/欠失、再編成、及びコピー数変化[9〜13]を含む、変異タイプの完全なレパートリーの体系的な特徴付けが可能となり、変異したがん遺伝子、及びヒトのがんにおいて作用する変異プロセスへの本質的な洞察がもたらされている。
【0006】
体細胞変異を生成する変異プロセスは、シグネチャと呼ばれるがんゲノム上の変異の特定のパターンをインプリントする[2、15、16]。変異シグネチャを抽出するための数学的アプローチ[15]の適用により、乳がんにおける5つの塩基置換シグネチャであるシグネチャ1、2、3、8、及び13が以前に明らかになった[2、14]。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】Stratton, M. R., Campbell, P. J. & Futreal, P. A. The cancer genome. Nature 458, 719-724, doi:10.1038/nature07943 (2009).
【非特許文献2】Nik-Zainal, S. et al. Mutational processes molding the genomes of 21 breast cancers. Cell 149, 979-993, doi:10.1016/j.cell.2012.04.024 (2012).
【非特許文献3】Nik-Zainal, S. et al. The life history of 21 breast cancers. Cell 149, 994-1007, doi:10.1016/j.cell.2012.04.023 (2012).
【非特許文献4】Hicks, J. et al. Novel patterns of genome rearrangement and their association with survival in breast cancer. Genome research 16, 1465-1479, doi:10.1101/gr.5460106 (2006).
【非特許文献5】Bergamaschi, A. et al. Extracellular matrix signature identifies breast cancer subgroups with different clinical outcome. The Journal of pathology 214, 357-367, doi:10.1002/path.2278 (2008).
【非特許文献6】Ching, H. C., Naidu, R., Seong, M. K., Har, Y. C. & Taib, N. A. Integrated analysis of copy number and loss of heterozygosity in primary breast carcinomas using high-density SNP array. International journal of oncology 39, 621-633, doi:10.3892/ijo.2011.1081 (2011).
【非特許文献7】Fang, M. et al. Genomic differences between estrogen receptor (ER)-positive and ER-negative human breast carcinoma identified by single nucleotide polymorphism array comparative genome hybridization analysis. Cancer 117, 2024-2034, doi:10.1002/cncr.25770 (2011).
【非特許文献8】Curtis, C. et al. The genomic and transcriptomic architecture of 2,000 breast tumours reveals novel subgroups. Nature 486, 346-352, doi:10.1038/nature10983 (2012).
【非特許文献9】Pleasance, E. D. et al. A comprehensive catalogue of somatic mutations from a human cancer genome. Nature 463, 191-196, doi:10.1038/nature08658 (2010).
【非特許文献10】Pleasance, E. D. et al. A small-cell lung cancer genome with complex signatures of tobacco exposure. Nature 463, 184-190, doi:10.1038/nature08629 (2010).
【非特許文献11】Banerji, S. et al. Sequence analysis of mutations and translocations across breast cancer subtypes. Nature 486, 405-409, doi:10.1038/nature11154 (2012).
【非特許文献12】Ellis, M. J. et al. Whole-genome analysis informs breast cancer response to aromatase inhibition. Nature 486, 353-360, doi:10.1038/nature11143 (2012).
【非特許文献13】Shah, S. P. et al. The clonal and mutational evolution spectrum of primary triple-negative breast cancers. Nature 486, 395-399, doi:10.1038/nature10933 (2012).
【非特許文献14】Alexandrov, L. B. et al. Signatures of mutational processes in human cancer. Nature 500, 415-421, doi:10.1038/nature12477 (2013).
【非特許文献15】Alexandrov, L. B., Nik-Zainal, S., Wedge, D. C., Campbell, P. J. & Stratton, M. R. Deciphering signatures of mutational processes operative in human cancer. Cell reports 3, 246-259, doi:10.1016/j.celrep.2012.12.008 (2013).
【非特許文献16】Helleday, T., Eshtad, S. & Nik-Zainal, S. Mechanisms underlying mutational signatures in human cancers. Nature reviews. Genetics 15, 585-598, doi:10.1038/nrg3729 (2014).
【発明の概要】
【発明が解決しようとする課題】
【0008】
塩基置換シグネチャが調査され、それらの検出方法が提案されているが、再編成変異プロセスのシグネチャは、以前は公式に調査されておらず、特に、再編成変異シグネチャの特徴付け、及び単一の患者から採取されたDNAサンプルにおける1つ以上の再編成シグネチャの存在の同定のための方法は提案されていない。
【0009】
単一の患者から採取されたDNAサンプルにおける再編成シグネチャの存在を同定する方法は、その患者における可能性のあるがんのタイプの診断のための潜在的なルートを提供し得るか、又は根底にある欠陥の同定を提供し、したがって、療法の特定のタイプについて患者を選択することを可能にし得るため、かなりの恩恵をもたらす。
【課題を解決するための手段】
【0010】
発明の記載
本発明の例示的実施形態は、以前に得られたDNAサンプルにおける再編成シグネチャを検出する方法であって、前記サンプルにおける体細胞変異をカタログ化して、サンプルにおける同定された再編成変異を複数のカテゴリに分類するそのサンプルについての再編成カタログを生成するステップ; 前記カタログにおける再編成変異と再編成変異シグネチャとの間のコサイン類似度を計算することによって、公知の再編成シグネチャの前記再編成カタログへの寄与を決定するステップを含む、方法を提供する。
【0011】
本発明のさらなる例示的実施形態は、コンピュータ上で実行されると、前記サンプルにおける体細胞変異をカタログ化して、サンプルにおける同定された再編成変異を複数のカテゴリに分類するそのサンプルについての再編成カタログを生成するステップ; 前記カタログにおける再編成変異と再編成変異シグネチャとの間のコサイン類似度を計算することによって、公知の再編成シグネチャの前記再編成カタログへの寄与を決定するステップを実施するコンピュータプログラムを格納した(記憶する)非一時的メモリを含有するコンピュータプログラム製品を提供する。
【0012】
本発明のさらなる例示的実施形態は、プロセッサを有するコンピュータであって、該プロセッサは、前記サンプルにおける体細胞変異をカタログ化して、サンプルにおける同定された再編成変異を複数のカテゴリに分類するそのサンプルについての再編成カタログを生じ; 前記カタログにおける再編成変異と再編成変異シグネチャとの間のコサイン類似度を計算することによって、公知の再編成シグネチャの前記再編成カタログへの寄与を決定するように構成されている、コンピュータを提供する。
【図面の簡単な説明】
【0013】
図1図1は、概略的な形で、本発明の一実施形態による、単一の患者のDNAにおける再編成シグネチャを検出する方法を示すフロー図である。
図2図2は、データから抽出された6つの再編成シグネチャと共に、他のゲノムの、組織学的な、又は遺伝子発現の特性との明確な関連性を示す7つの主要なサブグループを示す図である。
【発明を実施するための形態】
【0014】
表1は、いくつかの再編成シグネチャの定量的定義を示す。
【0015】
詳細な説明
本発明の第1の態様は、以前に得られたDNAサンプルにおける再編成シグネチャを検出する方法であって、前記サンプルにおける体細胞変異をカタログ化して、サンプルにおける同定された再編成変異を複数のカテゴリに分類するそのサンプルについての再編成カタログを生成するステップ; 及び前記カタログにおける再編成変異と再編成変異シグネチャとの間のコサイン類似度を計算することによって、公知の再編成シグネチャの前記再編成カタログへの寄与を決定するステップを含む、方法を提供する。
【0016】
好ましくは、この方法は、前記決定するステップの前に、前記カタログにおける変異をフィルタリングして、残存する生殖細胞系列の構造的変動、又は公知の配列決定アーティファクトのいずれか、又は両方を除去するさらなるステップを含む。このようなフィルタリングは、体細胞変異以外のメカニズムから生じることが知られており、したがって、再編成シグネチャの寄与をぼやけさせたり、若しくはあいまいにしたり、又は偽陽性結果をもたらし得る再編成を、カタログから除去するのに非常に有利であり得る。
【0017】
例えば、フィルタリングは、公知の生殖細胞系列再編成又はコピー数多型のリストを使用し、再編成シグネチャの寄与を決定する前に、それらの多型から生じる体細胞変異をカタログから除去してもよい。
【0018】
さらなる例として、フィルタリングは、DNAサンプルと同じプロセスによって配列決定されたマッチングされていない(unmatched)正常ヒト組織のBAMファイルを使用してもよく、前記BAMファイルの少なくとも2つにおける少なくとも2つの良好にマッピングされたリード(ウェルマッピングリード、well-mapping read)に存在する任意の体細胞変異を捨てる。このアプローチは、サンプルを得るために使用された配列決定技術から生じるアーティファクトを除去することができる。
【0019】
再編成変異の分類は、変異をクラスタ化又は非クラスタ化されていると同定することを含んでもよい。これは、シーケンシャルデータのセグメント化の方法である、区分的一定適合(「PCF」)アルゴリズムによって決定してもよい。特定の実施形態では、セグメント内の再編成ブレークポイントの平均密度が、個々の患者のサンプルについての再編成の全ゲノム平均密度よりも、ある特定の倍率大きい場合、再編成は、クラスタ化されていると同定されてもよい。例えば、倍率は、少なくとも8倍、好ましくは少なくとも9倍であってもよく、特定の実施形態では10倍である。再編成間距離は、再編成ブレークポイントから、参照ゲノム中のその直前の再編成ブレークポイントまでの距離である。任意の所定のブレークポイントについて、この測定値は、既に知られている。
【0020】
再編成変異の分類は、再編成を、タンデム重複、欠失、逆位、又は転座のうちの1つと同定することを含んでもよい。このような再編成変異の分類は、既に知られている。
【0021】
再編成変異の分類は、タンデム重複、欠失、又は逆位と同定された変異を、サイズによりグループ化することをさらに含んでもよい。例えば、変異は、再編成中の塩基数によって複数のサイズグループにグループ化されてもよい。好ましくは、サイズグループは、対数ベースであり、例えば、1〜10kb、10〜100kb、100kb〜1Mb、1Mb〜10Mb、及び10Mbより大きい。転座は、サイズによって分類することができない。
【0022】
特定の実施形態では、各DNAサンプルにおいて、i番目の変異シグネチャ
に関連する再編成の数Eiは、このサンプルのカタログ

との間のコサイン類似度(
):
【数1】
に比例するとして決定され、ここで、
【数2】
であり、
及び
は、それぞれ公知の再編成シグネチャ及び変異カタログである、非負成分を有する等しいサイズのベクトルであり、qは、前記複数の公知の再編成シグネチャにおけるシグネチャの数である。
【0023】
この方法は、カタログとの相関がより小さいシグネチャから、カタログとの相関がより大きいシグネチャへ1つ以上の再編成を再割り当てすることによって、各シグネチャに割り当てられると決定された再編成の数をフィルタリングするステップをさらに含んでもよい。そのようなフィルタリングは、それに関連する再編成をわずかしか有しない(そのためおそらく存在しない)シグネチャから、それに関連する再編成の数がより大きいシグネチャへ再編成を再割り当てするのに役立ち得る。これは、割り当てプロセスにおける「ノイズ」を低減する効果を有することができる。
【0024】
一実施形態では、フィルタリングのステップは、貪欲アルゴリズムを使用して、カタログ
と、再構築されたカタログ
【数3】
との間のコサイン類似度を改善するか、又は変更しない、シグネチャへの再編成の代替的割り当てを反復的に見出すものであり、
は、シグネチャiからシグネチャjへ変異を移動させることによって得られるベクトル
のバージョンであり、各反復において、シグネチャ間の全ての可能な移動の影響が推定され、これらの可能な再割り当ての全てがコサイン類似度に負の影響を与える場合、フィルタリングステップは終了する。
【0025】
被験体は、がん患者又はがんの疑いのある患者であってよい。例えば、この方法は、被験体ががんを有するか否か、又は患者がどのタイプのがんを有するかを予測するための、あるいは治療の特定の形態に対して被験体を選択するための、再編成配列の決定又は同定に使用してもよい。
【0026】
この方法は、前記再編成シグネチャのそれぞれ又は組み合わせの1つ以上に関連すると決定された再編成カタログにおける再編成の数又は割合が、所定の閾値を超えるかどうかを決定し、超える場合には、前記再編成シグネチャがサンプルに存在すると決定するステップをさらに含んでもよい。
【0027】
本発明者らは、クラスタ化/非クラスタ化、タイプ及びサイズ(適切な場合)によって再編成変異を分類することにより、いくつかの腫瘍において明確な再編成シグネチャを同定できることを決定している。したがって、これらの分類は、本実施形態の方法と関連して、特定の再編成シグネチャの存在を同定する能力を提供することができ、したがって、患者からのサンプルが腫瘍の存在及び/又は腫瘍を引き起こすがんの形態を示す可能性を決定することができる。異なる形態のがんが特定の治療に対して異なった応答をすることが知られているので、サンプルにおいて存在するがんの可能性のある形態を同定することは、被験体に対する治療の選択を導くことができる。
【0028】
本発明者らはまた、再編成シグネチャと、がんに寄与する根底にあるメカニズムとの間の明確な関連を同定している。したがって、特定の再編成シグネチャ(又は再編成シグネチャの集合)の存在(又は不在)を、代替的又は追加的に使用して、サンプルが採取された腫瘍に寄与する根底にあるメカニズムを決定することができる。
【0029】
本態様の方法は、上記の好ましい及び選択的な特性のいくつか若しくは全ての任意の組み合わせを含んでもよく、又はいずれも含まなくてもよい。
【0030】
本発明のさらなる態様は、その態様の好ましい及び選択的な特性のいくつか若しくは全てを含むか、又はいずれも含まない、上記態様の方法を実施するコンピュータシステム上で実行するためのコンピュータプログラムを含む。
【0031】
本発明のさらなる態様は、コンピュータ上で実行されると、前記サンプルにおける体細胞変異をカタログ化して、サンプルにおける同定された再編成変異を複数のカテゴリに分類するそのサンプルについての再編成カタログを生成するステップ; 前記カタログにおける再編成変異と再編成変異シグネチャとの間のコサイン類似度を計算することによって、公知の再編成シグネチャの前記再編成カタログへの寄与を決定するステップを実施するコンピュータプログラムを記憶する非一時的メモリを含有するコンピュータプログラム製品を提供する。
【0032】
本発明のさらなる態様は、プロセッサを有するコンピュータであって、該プロセッサは、前記サンプルにおける体細胞変異をカタログ化して、サンプルにおける同定された再編成変異を複数のカテゴリに分類するそのサンプルについての再編成カタログを生じ; 前記カタログにおける再編成変異と再編成変異シグネチャとの間のコサイン類似度を計算することによって、公知の再編成シグネチャの前記再編成カタログへの寄与を決定するように構成されている、コンピュータを提供する。
【0033】
上記の2つの態様のコンピュータプログラム及びプロセッサはまた、第1の態様に関連して上述した選択的な又は好ましいステップのいくつか又は全てを実施してもよい。
【0034】
本発明のこれらの及び他の態様は、以下にさらに詳細に記載される。
【実施例】
【0035】
がんに関連する再編成シグネチャの同定
各個体(556人の女性及び4人の男性)からの560個の乳がん及び非新生物組織の完全なゲノムを配列決定した。3,479,652個の体細胞塩基置換、371,993個の小さなインデル(indel)、及び77,695個の再編成が検出され、個々のサンプル間でそれぞれの数に実質的な変動があった。
【0036】
再編成変異プロセスのシグネチャの調査を可能にするために、32個のサブクラスを組み込んだ再編成分類を採用した。
【0037】
多くのがんゲノムでは、多数の再編成が、局所的に、例えば遺伝子増幅の領域において、クラスタ化されている。したがって、再編成を、まず、クラスタとして発生したものか、又は分散されたものに分類し、さらに、欠失、逆位、及びタンデム重複に下位分類し、次に、再編成されたセグメントのサイズに従って下位分類した。両グループにおける最終的なカテゴリは、染色体間転座であった。
【0038】
塩基置換シグネチャに使用された数学的フレームワークの適用[2、14、15]は、6つの再編成シグネチャを抽出した。各乳がんにおける各シグネチャに起因する再編成の割合に基づく教師なし階層的クラスタリングは、図2に示すように、他のゲノムの、組織学的な、又は遺伝子発現の特性と明確な関連性を示す7つの主要なサブグループをもたらした。
【0039】
再編成シグネチャ1(全再編成の9%)及び再編成シグネチャ3(18%の再編成)は、主にタンデム重複によって特徴付けられた。編成シグネチャ1に関連するタンデム重複は、ほとんどが>100kbであり、再編成シグネチャ3に関連するタンデム重複は、<10kbであった。再編成シグネチャ3のタンデム重複の95%超が、がんの15%に集中しており、多くは、数百個のこのタイプの再編成を有していた。BRCA1変異又はプロモータ過剰メチル化を伴うほとんど全てのがん(91%)が、このグループにあり、これは、基底様のトリプルネガティブ乳がん、及び高い相同組換え欠損(HRD)指数のコピー数分類について富化された[17〜19]。したがって、BRCA2ではなく、BRCA1の不活性化が、再編成シグネチャ3の小さなタンデム重複突然変異誘発表現型(ミューテータ表現型)の原因であり得る。
【0040】
再編成シグネチャ1のタンデム重複の35%超が、乳がんのわずか8.5%で見出され、いくつかの症例は、数百個のこれらを有していた。この大きなタンデム重複突然変異誘発表現型の原因は、不明である。それを示すがんは、しばしばTP53変異の、比較的遅い診断の、トリプルネガティブ乳がんであり、塩基置換シグネチャ3及び高い相同組換え欠損(HRD)指数についての富化を示すが、BRCA1/2変異又はBRCA1プロモータ過剰メチル化を有しない。
【0041】
再編成シグネチャ5(14%の再編成を占める)は、<100kbの欠失によって特徴付けられた。それは、BRCA1変異又はプロモータ過剰メチル化(図2、クラスタD)、BRCA2変異(図2、クラスタG)の存在、及び再編成シグネチャ1の大きなタンデム重複(図2、クラスタF)と強く関連していた。
【0042】
再編成シグネチャ2(22%の再編成を占める)は、非クラスタ化された欠失(>100kb)、逆位、及び染色体間転座によって特徴付けられ、ほとんどのがんに存在していたが、穏やかなコピー数プロファイルを有するER陽性がんにおいて特に富化された(図2、クラスタE、GISTICクラスタ3)。再編成シグネチャ4(再編成の18%を占める)は、クラスタ化された染色体間転座によって特徴付けられ、一方、再編成シグネチャ6(再編成の19%)は、クラスタ化された逆位及び欠失によって特徴付けられた(図2、クラスタA、B、C)。
【0043】
以下に記載する本発明の実施形態による方法は、単一の患者から得られたDNAサンプルにおける再編成シグネチャの存在又は不在を決定する。好ましくは、これらは全ゲノムサンプルであり、変異シグネチャの存在又は不在は、全ゲノム配列決定によって決定してもよい。
【0044】
DNAサンプルは、好ましくは、患者から得られた腫瘍組織及び正常組織の両方、例えば、患者からの血液サンプル、及び生検によって得られた乳房腫瘍組織から得られる。腫瘍サンプル中の体細胞変異は、標準的に、そのゲノム配列を正常組織のものと比較することによって検出される。
【0045】
単一の患者における再編成シグネチャの検出方法
本発明の実施形態では、単一の患者から得られたDNAにおける再編成シグネチャの検出が行われる。これらの実施形態では、この検出は、新鮮凍結由来DNA、患者からの疑わしい又は公知の腫瘍を代表するホルマリン固定パラフィン包埋(FFPE)DNAの循環腫瘍DNAから得られた核酸材料の高カバレッジ又は低パス配列決定によって生成された体細胞変異のリストを調べるコンピュータ実装方法又はツールによって行われる。この方法のステップを、図1に概略的に示す。
【0046】
これらの実施形態の体細胞変異のリストは、様々な異なるフォーマット(VCF、BEDPE、テキストなどを含む)で提供されることができるが、最低でも次の情報を含有する必要がある: ゲノムアセンブリバージョン、より低いブレークポイントの染色体、より低いブレークポイントの座標、より高いブレークポイントの染色体、より高いブレークポイントの座標、並びに再編成クラス(逆位、タンデム重複、欠失、転座)、又はそれらを正確に分類するために再編成ブレークポイントの方向付けを可能にする、より低い及びより高いブレークポイントの鎖情報のいずれか。
【0047】
幅広い表現では、DNAサンプルから体細胞変異のリストをロードした後(S101)、ツールは、まず任意の公知の生殖細胞系列及び/又はアーティファクトの体細胞変異を取り除き(S102)、次いで、サンプルの再編成カタログを生成し、次いで、以下に記載される分類に基づいて再編成を分類し(S103)、次いで、公知のコンセンサス再編成変異シグネチャのこのサンプルに対する寄与を評価し(S104)、最後に、サンプルにおいて作用する再編成プロセスのシグネチャのセット及びそれらのそれぞれの寄与を決定する(S105)。
【0048】
デフォルト(初期設定)では、コンセンサス再編成シグネチャのパターンは、表1に示されるパターンであるが、変異シグネチャのこれらのパターンはまた、ユーザによって提供されてもよく、この方法は、公知のシグネチャに限定されず、将来発見される新しい又は改変されたシグネチャに容易に適用することができる。
【0049】
初期データのフィルタリング
データを分析する前に、体細胞再編成の入力リストを広範囲にフィルタリングして、任意の残存する生殖細胞系列変異及び技術特異的な配列決定アーティファクトを除去する。
【0050】
生殖細胞系列再編成又はコピー数多型を、dbSNP[21]、1000人ゲノムプロジェクト[22]、NHLBI GOエクソーム配列決定プロジェクト[23]、及び69個の完全ゲノムパネル(http://www.completegenomics.com/public-data/69-Genomes/)からの生殖細胞系列変異の完全なリストを使用して、報告された体細胞変異のリストから取り除く。
【0051】
参照ゲノムにおけるエラー又は偏りによって引き起こされる技術特異的な配列決定アーティファクト(ライブラリ作製又は配列決定化学に関連する)及びマッピング関連アーティファクトを、少なくとも100個の正常全ゲノムを含有するマッチされていない(不適合)正常ヒト組織のBAMファイルのパネルを用いることによって取り除く。残りの体細胞変異を使用して、検査サンプルの変異カタログを構築する。
【0052】
サンプルについての変異カタログの生成
残りの(すなわち、フィルタリング後の)体細胞再編成のリストを使用して、サンプルの再編成変異カタログを生成する。
【0053】
(1)クラスタ化対非クラスタ化
変異に適用される第1の分類は、それらがクラスタ化(密接にグループ化)されているか否かである。
【0054】
患者のがんゲノムにおいてクラスタ化又は近接している再編成の集合を、ゲノム全体に分布又は分散している他の再編成から区別するために、データを、PCFベースのアルゴリズムによって解析する。PCF(区分的一定適合)アルゴリズムは、シーケンシャルデータのセグメント化の方法である。
【0055】
PCFを適用する前に、いくつかのステップを、再編成データに対して行う。
【0056】
それらの位置を示す単一のゲノム座標を有する置換又はインデルとは異なり、再編成は、大きな構造変異事象によってまとめられている2つの遠隔ゲノム座位を同定する2つの座標又は「ブレークポイント」を有する。
【0057】
最初に、各再編成の両方のブレークポイントを、独立して扱う。次いで、各サンプル中の参照ゲノム座標に従って、ブレークポイントをソートする。1つの再編成ブレークポイントから、参照ゲノム中のその直前の再編成ブレークポイントまでの塩基対の数と定義される変異間距離(IMD)を、各ブレークポイントについて計算する。次いで、計算されたIMDを、PCFアルゴリズムに供給する。
【0058】
「非クラスタ化」再編成から「クラスタ化」再編成の領域を同定するために、再編成のセットは、個々の患者のサンプルについての再編成の全ゲノム平均密度よりも少なくとも10倍大きい再編成ブレークポイントの平均密度を有することが必要とされた。さらに、ガンマパラメータ(セグメント化の滑らかさの尺度)が規定され、γ=25であり、再編成のクラスタと分類され得る前に、最低10個のブレークポイントが各領域に存在することが必要とされた。生物学的には、クラスタ化領域に関与する任意の再編成のそれぞれのパートナーブレークポイントは、同じ機構的瞬間に発生した可能性が高いため、参照ゲノムによると遠隔ゲノム部位に位置していたとしても、クラスタに関与していると見なすことができる。
【0059】
こうして、再編成は、最初に「クラスタ化」又は「非クラスタ化」に分類される。
【0060】
(2)タイプ及びサイズ
クラスタ化カテゴリと非クラスタ化カテゴリの両方で、再編成は、次いで、提供される情報に基づいて、再編成の主なクラスに分類される:
- タンデム重複
- 欠失
- 逆位
- 転座
【0061】
次いで、タンデム重複、欠失、及び逆位を、次の5つのサイズグループにカテゴライズすることができ、ここで、再編成のサイズは、より高いブレークポイント座標からより低いブレークポイント座標を減算することによって得られる。
- 1〜10kb
- 10〜100kb
- 100kb〜1Mb
- 1Mb〜10Mb
- >10Mb
【0062】
転座は、例外であり、サイズによって分類することができない。
【0063】
全部で、クラスタ化再編成の16個のサブグループ及び非クラスタ化再編成の16個のサブグループが存在するため、合計32個のカテゴリが存在する。これらを表1に示す。
【0064】
次いで、この分類の結果を、NNMFなどの潜在変数分析に供給して、各再編成シグネチャを記載する32個の要素の非負ベクトルを得ることができる。
【0065】
検査サンプルの変異カタログにおける再編成シグネチャに起因する体細胞変異の数の評価
全ての変異シグネチャの寄与の計算は、サンプルにおける全ての作用する変異プロセスのシグネチャのコンセンサスパターンに関連する変異の数を推定することによって行われる。以下に非負値行列因子分解(NNMF)を使用してこれを推定する方法を記載するが、代替方法、例えば、EMU又は階層ディリクレ過程(HDP)を同様に使用してもよい。
【0066】
より具体的には、全てのコンセンサス再編成シグネチャは、s個のベクトルを含有するセットPとして調べられ、
【数4】
であり、ベクトルのそれぞれは、コンセンサス再編成シグネチャを反映する離散確率密度関数である。現在知られている再編成シグネチャについて、これらのベクトルを表1の各列に示す。ここで、sは、公知のコンセンサス再編成シグネチャの数(現在は6)を指し、各ベクトルの32個の非負成分は、これらのコンセンサス再編成シグネチャの再編成の異なるカテゴリ(すなわち、クラスタ化/非クラスタ化、タイプ及びサイズ)に対応する。
【0067】
全てのコンセンサス再編成シグネチャの寄与は、検査サンプルの変異カタログについて独立して推定される。推定アルゴリズムは、各シグネチャと検査サンプルとの間のコサイン類似度を計算することからなる。ベクトルのセット
について、コサイン類似度
は、
【数5】
によって与えられる。
【0068】
i番目の変異シグネチャ
に関連する再編成の数Eiは、コサイン類似度(
)に比例する:
【数6】
ここで、
及び
は、それぞれ公知の再編成シグネチャ及び変異カタログである、非負成分を有する等しいサイズのベクトルであり、qは、前記複数の公知の再編成シグネチャにおけるシグネチャの数である。
【0069】
上の式において、
及び
は、それぞれコンセンサス変異シグネチャ及び検査サンプルの変異カタログを反映する32個の非負成分(クラスタ化/非クラスタ化特徴並びに再編成のタイプ及びサイズに対応する)を有するベクトルを表す。したがって、
【数7】
であり、一方、
【数8】
である。さらに、両方のベクトルは、コンセンサス変異シグネチャから(すなわち、
)、又はサンプルの元の変異カタログを生成することから(すなわち、
)のいずれかの公知の数値を有する。対照的に、Eiは、変異カタログ
においてシグネチャ
が寄与する再編成の数を反映する未知のスカラーに対応する。
【0070】
上の式は、パラメータEiに関して普遍的に制約されている。より具体的には、サンプルにおける再編成シグネチャが寄与する体細胞再編成の数は、非負でなければならず、そのサンプルにおける体細胞変異の総数を超えてはならない。さらに、サンプルにおける全てのシグネチャが寄与する変異は、そのサンプルの体細胞変異の総数と等しくなければならない。これらの制約は、
【数9】
及び
【数10】
と数学的に表現することができる。
【0071】
事前の生物学的知識が利用可能でない場合、シグネチャの全セットQを、Eiの決定に使用し、フィルターステップを使用して、最も相関の小さいシグネチャから、考慮されるサンプルを最もよく説明するシグネチャ(高度に相関するシグネチャ)へ変異を移動させる。カタログ
を考慮し、2つのシグネチャiとj(i≠j及びi,j=1,…,Q)の間の全ての
の可能な移動を考慮すると、フィルタリングステップは、貪欲アルゴリズムを使用して、カタログ
と、再構築されたカタログ
【数11】
との間のコサイン類似度を改善するか、又は変更しない移動を反復的に選択する(
は、シグネチャiからシグネチャjへ変異を移動させることによって得られるベクトル
のバージョンである)。フィルタリングステップは、シグネチャ間の全ての移動が、コサイン類似度に負の影響を与える場合に終了する。
【0072】
こうして、フィルタリングステップは、初期には少数の再編成を、実際には存在しないシグネチャに帰することをもたらし得る、DNAサンプルにおける「ノイズ」を減少させることができる。フィルタリングにより、このような再編成を、よりよく見られるシグネチャに再割り当てすることが可能になる。
【0073】
次いで、サンプルに存在し、特定のシグネチャに関連する再編成の数から、公知の再編成シグネチャからの再編成シグネチャの1つ以上をサンプルが示すかどうかを決定することが可能である。この決定のための異なる閾値は、状況、及び結果の所望の確実性に応じて設定することができる。一般的に、閾値は、上記の方法によって決定された特定のシグネチャに関連する再編成の割合と共に、(分析が代表的であることを保証するために)サンプルにおいて検出された再編成の総数を組み合わせる。
【0074】
例えば、30〜40倍の深度まで配列決定されたゲノムから得られたデータの場合、検出の要件は、少なくとも20個、好ましくは少なくとも40個、より好ましくは少なくとも50個の再編成が存在することであってよく、再編成の少なくとも10%、好ましくは少なくとも20%、より好ましくは少なくとも30%の割合がそれに関連する場合、シグネチャが存在すると見なされる。以下に示すように、比閾値は、サンプルに見出される再編成のかなりの部分を構成する他のシグネチャの数に応じて調整されてもよい(例えば、4個のシグネチャが、それぞれ再編成の25%で存在する場合、検出の一般的要件が25%より高く設定されていても、シグネチャが全く存在しないのではなく、4つ全てが存在すると決定してもよい)。
【0075】
再編成シグネチャは、互いに対して一般的に「相加的」である(すなわち、腫瘍は、2つ以上のシグネチャに関連する根底にある変異プロセスの影響を受けてもよく、この場合、その腫瘍由来のサンプルは、一般的に、(根底にあるプロセスのそれぞれに関連する別個の再編成の合計である)より多い全体的な数の再編成を示すが、再編成の割合は、存在するシグネチャに広がる)。結果として、特定のシグネチャの存在又は不在を決定する際に、(上記の方法で計算される)サンプル中の特定のシグネチャに関連する再編成の絶対数に注意を払ってもよい。検出のためのこのような代替要件は、複数のシグネチャが存在する状況をよりよく説明することができる。このアプローチの下では、シグネチャは、少なくとも10個、好ましくは少なくとも20個の再編成がそれに関連する場合、存在すると決定されてもよい。
【0076】
上記の実施形態のシステム及び方法は、記載された構造コンポーネント及びユーザインタラクションに加えて、コンピュータシステムで(特に、コンピュータハードウェア又はコンピュータソフトウェアで)実施されてもよい。
【0077】
用語「コンピュータシステム」は、上記の実施形態による方法を実施するための又はシステムを具体化するための、ハードウェア、ソフトウェア、及びデータ記憶デバイスを含む。例えば、コンピュータシステムは、中央処理装置(CPU)、入力手段、出力手段、及びデータ記憶装置を含んでもよい。好ましくは、コンピュータシステムは、(例えば、ビジネスプロセスの設計において)視覚的出力ディスプレイを提供するためのモニタを有する。データ記憶装置は、RAM、ディスクドライブ、又は他のコンピュータ可読媒体を含んでもよい。コンピュータシステムは、ネットワークによって接続され、そのネットワークを介して互いに通信することができる複数のコンピューティングデバイスを含んでもよい。
【0078】
上記の実施形態の方法は、コンピュータプログラムとして、又はコンピュータ上で実行されると、上記の方法を実施するように用意されたコンピュータプログラムを担持するコンピュータプログラム製品又はコンピュータ可読媒体として提供されてもよい。
【0079】
用語「コンピュータ可読媒体」は、限定されないが、コンピュータ又はコンピュータシステムによって直接読み取られ、アクセスされ得る任意の非一時的媒体を含む。媒体は、以下に限定されないが、磁気記憶媒体、例えば、フロッピーディスク、ハードディスク記憶媒体、及び磁気テープ; 光学記憶媒体、例えば、光学ディスク又はCD-ROM; 電気記憶媒体、例えば、RAM、ROM及びフラッシュメモリを含むメモリ; 並びに磁気/光学記憶媒体などの上記のハイブリッド及び組み合わせを含むことができる。
【0080】
参考文献
1 Stratton, M. R., Campbell, P. J. & Futreal, P. A. The cancer genome. Nature 458, 719-724, doi:10.1038/nature07943 (2009).
2 Nik-Zainal, S. et al. Mutational processes molding the genomes of 21 breast cancers. Cell 149, 979-993, doi:10.1016/j.cell.2012.04.024 (2012).
3 Nik-Zainal, S. et al. The life history of 21 breast cancers. Cell 149, 994-1007, doi:10.1016/j.cell.2012.04.023 (2012).
4 Hicks, J. et al. Novel patterns of genome rearrangement and their association with survival in breast cancer. Genome research 16, 1465-1479, doi:10.1101/gr.5460106 (2006).
5 Bergamaschi, A. et al. Extracellular matrix signature identifies breast cancer subgroups with different clinical outcome. The Journal of pathology 214, 357-367, doi:10.1002/path.2278 (2008).
6 Ching, H. C., Naidu, R., Seong, M. K., Har, Y. C. & Taib, N. A. Integrated analysis of copy number and loss of heterozygosity in primary breast carcinomas using high-density SNP array. International journal of oncology 39, 621-633, doi:10.3892/ijo.2011.1081 (2011).
7 Fang, M. et al. Genomic differences between estrogen receptor (ER)-positive and ER-negative human breast carcinoma identified by single nucleotide polymorphism array comparative genome hybridization analysis. Cancer 117, 2024-2034, doi:10.1002/cncr.25770 (2011).
8 Curtis, C. et al. The genomic and transcriptomic architecture of 2,000 breast tumours reveals novel subgroups. Nature 486, 346-352, doi:10.1038/nature10983 (2012).
9 Pleasance, E. D. et al. A comprehensive catalogue of somatic mutations from a human cancer genome. Nature 463, 191-196, doi:10.1038/nature08658 (2010).
10 Pleasance, E. D. et al. A small-cell lung cancer genome with complex signatures of tobacco exposure. Nature 463, 184-190, doi:10.1038/nature08629 (2010).
11 Banerji, S. et al. Sequence analysis of mutations and translocations across breast cancer subtypes. Nature 486, 405-409, doi:10.1038/nature11154 (2012).
12 Ellis, M. J. et al. Whole-genome analysis informs breast cancer response to aromatase inhibition. Nature 486, 353-360, doi:10.1038/nature11143 (2012).
13 Shah, S. P. et al. The clonal and mutational evolution spectrum of primary triple-negative breast cancers. Nature 486, 395-399, doi:10.1038/nature10933 (2012).
14 Alexandrov, L. B. et al. Signatures of mutational processes in human cancer. Nature 500, 415-421, doi:10.1038/nature12477 (2013).
15 Alexandrov, L. B., Nik-Zainal, S., Wedge, D. C., Campbell, P. J. & Stratton, M. R. Deciphering signatures of mutational processes operative in human cancer. Cell reports 3, 246-259, doi:10.1016/j.celrep.2012.12.008 (2013).
16 Helleday, T., Eshtad, S. & Nik-Zainal, S. Mechanisms underlying mutational signatures in human cancers. Nature reviews. Genetics 15, 585-598, doi:10.1038/nrg3729 (2014).
17 Birkbak, N. J. et al. Telomeric allelic imbalance indicates defective DNA repair and sensitivity to DNA-damaging agents. Cancer discovery 2, 366-375, doi:10.1158/2159-8290.CD-11-0206 (2012).
18 Abkevich, V. et al. Patterns of genomic loss of heterozygosity predict homologous recombination repair defects in epithelial ovarian cancer. British journal of cancer 107, 1776-1782, doi:10.1038/bjc.2012.451 (2012).
19 Popova, T. et al. Ploidy and large-scale genomic instability consistently identify basal-like breast carcinomas with BRCA1/2 inactivation. Cancer research 72, 5454-5462, doi:10.1158/0008-5472.CAN-12-1470 (2012).
20 Fischer A, Illingworth CJ, Campbell PJ, Mustonen V.; EMu: probabilistic inference of mutational processes and their localization in the cancer genome Genome Biol. 2013 Apr 29;14(4):R39. doi: 10.1186/gb-2013-14-4-r39.
21 Sherry, S. T. et al. dbSNP: the NCBI database of genetic variation. Nucleic acids research 29, 308-311 (2001).
22 Abecasis, G. R. et al. An integrated map of genetic variation from 1,092 human genomes. Nature 491, 56-65, doi:10.1038/nature11632 (2012).
23 Fu, W. et al. Analysis of 6,515 exomes reveals the recent origin of most human protein-coding variants. Nature 493, 216-220, doi:10.1038/nature11690 (2013).
【0081】
上記参考文献の全ては、参照により本明細書に組み込まれる。
【0082】
【表1】
図1
図2
【国際調査報告】