【実施例】
【0035】
がんに関連する再編成シグネチャの同定
各個体(556人の女性及び4人の男性)からの560個の乳がん及び非新生物組織の完全なゲノムを配列決定した。3,479,652個の体細胞塩基置換、371,993個の小さなインデル(indel)、及び77,695個の再編成が検出され、個々のサンプル間でそれぞれの数に実質的な変動があった。
【0036】
再編成変異プロセスのシグネチャの調査を可能にするために、32個のサブクラスを組み込んだ再編成分類を採用した。
【0037】
多くのがんゲノムでは、多数の再編成が、局所的に、例えば遺伝子増幅の領域において、クラスタ化されている。したがって、再編成を、まず、クラスタとして発生したものか、又は分散されたものに分類し、さらに、欠失、逆位、及びタンデム重複に下位分類し、次に、再編成されたセグメントのサイズに従って下位分類した。両グループにおける最終的なカテゴリは、染色体間転座であった。
【0038】
塩基置換シグネチャに使用された数学的フレームワークの適用[2、14、15]は、6つの再編成シグネチャを抽出した。各乳がんにおける各シグネチャに起因する再編成の割合に基づく教師なし階層的クラスタリングは、
図2に示すように、他のゲノムの、組織学的な、又は遺伝子発現の特性と明確な関連性を示す7つの主要なサブグループをもたらした。
【0039】
再編成シグネチャ1(全再編成の9%)及び再編成シグネチャ3(18%の再編成)は、主にタンデム重複によって特徴付けられた。編成シグネチャ1に関連するタンデム重複は、ほとんどが>100kbであり、再編成シグネチャ3に関連するタンデム重複は、<10kbであった。再編成シグネチャ3のタンデム重複の95%超が、がんの15%に集中しており、多くは、数百個のこのタイプの再編成を有していた。BRCA1変異又はプロモータ過剰メチル化を伴うほとんど全てのがん(91%)が、このグループにあり、これは、基底様のトリプルネガティブ乳がん、及び高い相同組換え欠損(HRD)指数のコピー数分類について富化された[17〜19]。したがって、BRCA2ではなく、BRCA1の不活性化が、再編成シグネチャ3の小さなタンデム重複突然変異誘発表現型(ミューテータ表現型)の原因であり得る。
【0040】
再編成シグネチャ1のタンデム重複の35%超が、乳がんのわずか8.5%で見出され、いくつかの症例は、数百個のこれらを有していた。この大きなタンデム重複突然変異誘発表現型の原因は、不明である。それを示すがんは、しばしばTP53変異の、比較的遅い診断の、トリプルネガティブ乳がんであり、塩基置換シグネチャ3及び高い相同組換え欠損(HRD)指数についての富化を示すが、BRCA1/2変異又はBRCA1プロモータ過剰メチル化を有しない。
【0041】
再編成シグネチャ5(14%の再編成を占める)は、<100kbの欠失によって特徴付けられた。それは、BRCA1変異又はプロモータ過剰メチル化(
図2、クラスタD)、BRCA2変異(
図2、クラスタG)の存在、及び再編成シグネチャ1の大きなタンデム重複(
図2、クラスタF)と強く関連していた。
【0042】
再編成シグネチャ2(22%の再編成を占める)は、非クラスタ化された欠失(>100kb)、逆位、及び染色体間転座によって特徴付けられ、ほとんどのがんに存在していたが、穏やかなコピー数プロファイルを有するER陽性がんにおいて特に富化された(
図2、クラスタE、GISTICクラスタ3)。再編成シグネチャ4(再編成の18%を占める)は、クラスタ化された染色体間転座によって特徴付けられ、一方、再編成シグネチャ6(再編成の19%)は、クラスタ化された逆位及び欠失によって特徴付けられた(
図2、クラスタA、B、C)。
【0043】
以下に記載する本発明の実施形態による方法は、単一の患者から得られたDNAサンプルにおける再編成シグネチャの存在又は不在を決定する。好ましくは、これらは全ゲノムサンプルであり、変異シグネチャの存在又は不在は、全ゲノム配列決定によって決定してもよい。
【0044】
DNAサンプルは、好ましくは、患者から得られた腫瘍組織及び正常組織の両方、例えば、患者からの血液サンプル、及び生検によって得られた乳房腫瘍組織から得られる。腫瘍サンプル中の体細胞変異は、標準的に、そのゲノム配列を正常組織のものと比較することによって検出される。
【0045】
単一の患者における再編成シグネチャの検出方法
本発明の実施形態では、単一の患者から得られたDNAにおける再編成シグネチャの検出が行われる。これらの実施形態では、この検出は、新鮮凍結由来DNA、患者からの疑わしい又は公知の腫瘍を代表するホルマリン固定パラフィン包埋(FFPE)DNAの循環腫瘍DNAから得られた核酸材料の高カバレッジ又は低パス配列決定によって生成された体細胞変異のリストを調べるコンピュータ実装方法又はツールによって行われる。この方法のステップを、
図1に概略的に示す。
【0046】
これらの実施形態の体細胞変異のリストは、様々な異なるフォーマット(VCF、BEDPE、テキストなどを含む)で提供されることができるが、最低でも次の情報を含有する必要がある: ゲノムアセンブリバージョン、より低いブレークポイントの染色体、より低いブレークポイントの座標、より高いブレークポイントの染色体、より高いブレークポイントの座標、並びに再編成クラス(逆位、タンデム重複、欠失、転座)、又はそれらを正確に分類するために再編成ブレークポイントの方向付けを可能にする、より低い及びより高いブレークポイントの鎖情報のいずれか。
【0047】
幅広い表現では、DNAサンプルから体細胞変異のリストをロードした後(S101)、ツールは、まず任意の公知の生殖細胞系列及び/又はアーティファクトの体細胞変異を取り除き(S102)、次いで、サンプルの再編成カタログを生成し、次いで、以下に記載される分類に基づいて再編成を分類し(S103)、次いで、公知のコンセンサス再編成変異シグネチャのこのサンプルに対する寄与を評価し(S104)、最後に、サンプルにおいて作用する再編成プロセスのシグネチャのセット及びそれらのそれぞれの寄与を決定する(S105)。
【0048】
デフォルト(初期設定)では、コンセンサス再編成シグネチャのパターンは、表1に示されるパターンであるが、変異シグネチャのこれらのパターンはまた、ユーザによって提供されてもよく、この方法は、公知のシグネチャに限定されず、将来発見される新しい又は改変されたシグネチャに容易に適用することができる。
【0049】
初期データのフィルタリング
データを分析する前に、体細胞再編成の入力リストを広範囲にフィルタリングして、任意の残存する生殖細胞系列変異及び技術特異的な配列決定アーティファクトを除去する。
【0050】
生殖細胞系列再編成又はコピー数多型を、dbSNP[21]、1000人ゲノムプロジェクト[22]、NHLBI GOエクソーム配列決定プロジェクト[23]、及び69個の完全ゲノムパネル(http://www.completegenomics.com/public-data/69-Genomes/)からの生殖細胞系列変異の完全なリストを使用して、報告された体細胞変異のリストから取り除く。
【0051】
参照ゲノムにおけるエラー又は偏りによって引き起こされる技術特異的な配列決定アーティファクト(ライブラリ作製又は配列決定化学に関連する)及びマッピング関連アーティファクトを、少なくとも100個の正常全ゲノムを含有するマッチされていない(不適合)正常ヒト組織のBAMファイルのパネルを用いることによって取り除く。残りの体細胞変異を使用して、検査サンプルの変異カタログを構築する。
【0052】
サンプルについての変異カタログの生成
残りの(すなわち、フィルタリング後の)体細胞再編成のリストを使用して、サンプルの再編成変異カタログを生成する。
【0053】
(1)クラスタ化対非クラスタ化
変異に適用される第1の分類は、それらがクラスタ化(密接にグループ化)されているか否かである。
【0054】
患者のがんゲノムにおいてクラスタ化又は近接している再編成の集合を、ゲノム全体に分布又は分散している他の再編成から区別するために、データを、PCFベースのアルゴリズムによって解析する。PCF(区分的一定適合)アルゴリズムは、シーケンシャルデータのセグメント化の方法である。
【0055】
PCFを適用する前に、いくつかのステップを、再編成データに対して行う。
【0056】
それらの位置を示す単一のゲノム座標を有する置換又はインデルとは異なり、再編成は、大きな構造変異事象によってまとめられている2つの遠隔ゲノム座位を同定する2つの座標又は「ブレークポイント」を有する。
【0057】
最初に、各再編成の両方のブレークポイントを、独立して扱う。次いで、各サンプル中の参照ゲノム座標に従って、ブレークポイントをソートする。1つの再編成ブレークポイントから、参照ゲノム中のその直前の再編成ブレークポイントまでの塩基対の数と定義される変異間距離(IMD)を、各ブレークポイントについて計算する。次いで、計算されたIMDを、PCFアルゴリズムに供給する。
【0058】
「非クラスタ化」再編成から「クラスタ化」再編成の領域を同定するために、再編成のセットは、個々の患者のサンプルについての再編成の全ゲノム平均密度よりも少なくとも10倍大きい再編成ブレークポイントの平均密度を有することが必要とされた。さらに、ガンマパラメータ(セグメント化の滑らかさの尺度)が規定され、γ=25であり、再編成のクラスタと分類され得る前に、最低10個のブレークポイントが各領域に存在することが必要とされた。生物学的には、クラスタ化領域に関与する任意の再編成のそれぞれのパートナーブレークポイントは、同じ機構的瞬間に発生した可能性が高いため、参照ゲノムによると遠隔ゲノム部位に位置していたとしても、クラスタに関与していると見なすことができる。
【0059】
こうして、再編成は、最初に「クラスタ化」又は「非クラスタ化」に分類される。
【0060】
(2)タイプ及びサイズ
クラスタ化カテゴリと非クラスタ化カテゴリの両方で、再編成は、次いで、提供される情報に基づいて、再編成の主なクラスに分類される:
- タンデム重複
- 欠失
- 逆位
- 転座
【0061】
次いで、タンデム重複、欠失、及び逆位を、次の5つのサイズグループにカテゴライズすることができ、ここで、再編成のサイズは、より高いブレークポイント座標からより低いブレークポイント座標を減算することによって得られる。
- 1〜10kb
- 10〜100kb
- 100kb〜1Mb
- 1Mb〜10Mb
- >10Mb
【0062】
転座は、例外であり、サイズによって分類することができない。
【0063】
全部で、クラスタ化再編成の16個のサブグループ及び非クラスタ化再編成の16個のサブグループが存在するため、合計32個のカテゴリが存在する。これらを表1に示す。
【0064】
次いで、この分類の結果を、NNMFなどの潜在変数分析に供給して、各再編成シグネチャを記載する32個の要素の非負ベクトルを得ることができる。
【0065】
検査サンプルの変異カタログにおける再編成シグネチャに起因する体細胞変異の数の評価
全ての変異シグネチャの寄与の計算は、サンプルにおける全ての作用する変異プロセスのシグネチャのコンセンサスパターンに関連する変異の数を推定することによって行われる。以下に非負値行列因子分解(NNMF)を使用してこれを推定する方法を記載するが、代替方法、例えば、EMU又は階層ディリクレ過程(HDP)を同様に使用してもよい。
【0066】
より具体的には、全てのコンセンサス再編成シグネチャは、s個のベクトルを含有するセットPとして調べられ、
【数4】
であり、ベクトルのそれぞれは、コンセンサス再編成シグネチャを反映する離散確率密度関数である。現在知られている再編成シグネチャについて、これらのベクトルを表1の各列に示す。ここで、sは、公知のコンセンサス再編成シグネチャの数(現在は6)を指し、各ベクトルの32個の非負成分は、これらのコンセンサス再編成シグネチャの再編成の異なるカテゴリ(すなわち、クラスタ化/非クラスタ化、タイプ及びサイズ)に対応する。
【0067】
全てのコンセンサス再編成シグネチャの寄与は、検査サンプルの変異カタログについて独立して推定される。推定アルゴリズムは、各シグネチャと検査サンプルとの間のコサイン類似度を計算することからなる。ベクトルのセット
について、コサイン類似度
は、
【数5】
によって与えられる。
【0068】
i番目の変異シグネチャ
に関連する再編成の数E
iは、コサイン類似度(
)に比例する:
【数6】
ここで、
及び
は、それぞれ公知の再編成シグネチャ及び変異カタログである、非負成分を有する等しいサイズのベクトルであり、qは、前記複数の公知の再編成シグネチャにおけるシグネチャの数である。
【0069】
上の式において、
及び
は、それぞれコンセンサス変異シグネチャ及び検査サンプルの変異カタログを反映する32個の非負成分(クラスタ化/非クラスタ化特徴並びに再編成のタイプ及びサイズに対応する)を有するベクトルを表す。したがって、
【数7】
であり、一方、
【数8】
である。さらに、両方のベクトルは、コンセンサス変異シグネチャから(すなわち、
)、又はサンプルの元の変異カタログを生成することから(すなわち、
)のいずれかの公知の数値を有する。対照的に、E
iは、変異カタログ
においてシグネチャ
が寄与する再編成の数を反映する未知のスカラーに対応する。
【0070】
上の式は、パラメータE
iに関して普遍的に制約されている。より具体的には、サンプルにおける再編成シグネチャが寄与する体細胞再編成の数は、非負でなければならず、そのサンプルにおける体細胞変異の総数を超えてはならない。さらに、サンプルにおける全てのシグネチャが寄与する変異は、そのサンプルの体細胞変異の総数と等しくなければならない。これらの制約は、
【数9】
及び
【数10】
と数学的に表現することができる。
【0071】
事前の生物学的知識が利用可能でない場合、シグネチャの全セットQを、E
iの決定に使用し、フィルターステップを使用して、最も相関の小さいシグネチャから、考慮されるサンプルを最もよく説明するシグネチャ(高度に相関するシグネチャ)へ変異を移動させる。カタログ
を考慮し、2つのシグネチャiとj(i≠j及びi,j=1,…,Q)の間の全ての
の可能な移動を考慮すると、フィルタリングステップは、貪欲アルゴリズムを使用して、カタログ
と、再構築されたカタログ
【数11】
との間のコサイン類似度を改善するか、又は変更しない移動を反復的に選択する(
は、シグネチャiからシグネチャjへ変異を移動させることによって得られるベクトル
のバージョンである)。フィルタリングステップは、シグネチャ間の全ての移動が、コサイン類似度に負の影響を与える場合に終了する。
【0072】
こうして、フィルタリングステップは、初期には少数の再編成を、実際には存在しないシグネチャに帰することをもたらし得る、DNAサンプルにおける「ノイズ」を減少させることができる。フィルタリングにより、このような再編成を、よりよく見られるシグネチャに再割り当てすることが可能になる。
【0073】
次いで、サンプルに存在し、特定のシグネチャに関連する再編成の数から、公知の再編成シグネチャからの再編成シグネチャの1つ以上をサンプルが示すかどうかを決定することが可能である。この決定のための異なる閾値は、状況、及び結果の所望の確実性に応じて設定することができる。一般的に、閾値は、上記の方法によって決定された特定のシグネチャに関連する再編成の割合と共に、(分析が代表的であることを保証するために)サンプルにおいて検出された再編成の総数を組み合わせる。
【0074】
例えば、30〜40倍の深度まで配列決定されたゲノムから得られたデータの場合、検出の要件は、少なくとも20個、好ましくは少なくとも40個、より好ましくは少なくとも50個の再編成が存在することであってよく、再編成の少なくとも10%、好ましくは少なくとも20%、より好ましくは少なくとも30%の割合がそれに関連する場合、シグネチャが存在すると見なされる。以下に示すように、比閾値は、サンプルに見出される再編成のかなりの部分を構成する他のシグネチャの数に応じて調整されてもよい(例えば、4個のシグネチャが、それぞれ再編成の25%で存在する場合、検出の一般的要件が25%より高く設定されていても、シグネチャが全く存在しないのではなく、4つ全てが存在すると決定してもよい)。
【0075】
再編成シグネチャは、互いに対して一般的に「相加的」である(すなわち、腫瘍は、2つ以上のシグネチャに関連する根底にある変異プロセスの影響を受けてもよく、この場合、その腫瘍由来のサンプルは、一般的に、(根底にあるプロセスのそれぞれに関連する別個の再編成の合計である)より多い全体的な数の再編成を示すが、再編成の割合は、存在するシグネチャに広がる)。結果として、特定のシグネチャの存在又は不在を決定する際に、(上記の方法で計算される)サンプル中の特定のシグネチャに関連する再編成の絶対数に注意を払ってもよい。検出のためのこのような代替要件は、複数のシグネチャが存在する状況をよりよく説明することができる。このアプローチの下では、シグネチャは、少なくとも10個、好ましくは少なくとも20個の再編成がそれに関連する場合、存在すると決定されてもよい。
【0076】
上記の実施形態のシステム及び方法は、記載された構造コンポーネント及びユーザインタラクションに加えて、コンピュータシステムで(特に、コンピュータハードウェア又はコンピュータソフトウェアで)実施されてもよい。
【0077】
用語「コンピュータシステム」は、上記の実施形態による方法を実施するための又はシステムを具体化するための、ハードウェア、ソフトウェア、及びデータ記憶デバイスを含む。例えば、コンピュータシステムは、中央処理装置(CPU)、入力手段、出力手段、及びデータ記憶装置を含んでもよい。好ましくは、コンピュータシステムは、(例えば、ビジネスプロセスの設計において)視覚的出力ディスプレイを提供するためのモニタを有する。データ記憶装置は、RAM、ディスクドライブ、又は他のコンピュータ可読媒体を含んでもよい。コンピュータシステムは、ネットワークによって接続され、そのネットワークを介して互いに通信することができる複数のコンピューティングデバイスを含んでもよい。
【0078】
上記の実施形態の方法は、コンピュータプログラムとして、又はコンピュータ上で実行されると、上記の方法を実施するように用意されたコンピュータプログラムを担持するコンピュータプログラム製品又はコンピュータ可読媒体として提供されてもよい。
【0079】
用語「コンピュータ可読媒体」は、限定されないが、コンピュータ又はコンピュータシステムによって直接読み取られ、アクセスされ得る任意の非一時的媒体を含む。媒体は、以下に限定されないが、磁気記憶媒体、例えば、フロッピーディスク、ハードディスク記憶媒体、及び磁気テープ; 光学記憶媒体、例えば、光学ディスク又はCD-ROM; 電気記憶媒体、例えば、RAM、ROM及びフラッシュメモリを含むメモリ; 並びに磁気/光学記憶媒体などの上記のハイブリッド及び組み合わせを含むことができる。
【0080】
参考文献
1 Stratton, M. R., Campbell, P. J. & Futreal, P. A. The cancer genome. Nature 458, 719-724, doi:10.1038/nature07943 (2009).
2 Nik-Zainal, S. et al. Mutational processes molding the genomes of 21 breast cancers. Cell 149, 979-993, doi:10.1016/j.cell.2012.04.024 (2012).
3 Nik-Zainal, S. et al. The life history of 21 breast cancers. Cell 149, 994-1007, doi:10.1016/j.cell.2012.04.023 (2012).
4 Hicks, J. et al. Novel patterns of genome rearrangement and their association with survival in breast cancer. Genome research 16, 1465-1479, doi:10.1101/gr.5460106 (2006).
5 Bergamaschi, A. et al. Extracellular matrix signature identifies breast cancer subgroups with different clinical outcome. The Journal of pathology 214, 357-367, doi:10.1002/path.2278 (2008).
6 Ching, H. C., Naidu, R., Seong, M. K., Har, Y. C. & Taib, N. A. Integrated analysis of copy number and loss of heterozygosity in primary breast carcinomas using high-density SNP array. International journal of oncology 39, 621-633, doi:10.3892/ijo.2011.1081 (2011).
7 Fang, M. et al. Genomic differences between estrogen receptor (ER)-positive and ER-negative human breast carcinoma identified by single nucleotide polymorphism array comparative genome hybridization analysis. Cancer 117, 2024-2034, doi:10.1002/cncr.25770 (2011).
8 Curtis, C. et al. The genomic and transcriptomic architecture of 2,000 breast tumours reveals novel subgroups. Nature 486, 346-352, doi:10.1038/nature10983 (2012).
9 Pleasance, E. D. et al. A comprehensive catalogue of somatic mutations from a human cancer genome. Nature 463, 191-196, doi:10.1038/nature08658 (2010).
10 Pleasance, E. D. et al. A small-cell lung cancer genome with complex signatures of tobacco exposure. Nature 463, 184-190, doi:10.1038/nature08629 (2010).
11 Banerji, S. et al. Sequence analysis of mutations and translocations across breast cancer subtypes. Nature 486, 405-409, doi:10.1038/nature11154 (2012).
12 Ellis, M. J. et al. Whole-genome analysis informs breast cancer response to aromatase inhibition. Nature 486, 353-360, doi:10.1038/nature11143 (2012).
13 Shah, S. P. et al. The clonal and mutational evolution spectrum of primary triple-negative breast cancers. Nature 486, 395-399, doi:10.1038/nature10933 (2012).
14 Alexandrov, L. B. et al. Signatures of mutational processes in human cancer. Nature 500, 415-421, doi:10.1038/nature12477 (2013).
15 Alexandrov, L. B., Nik-Zainal, S., Wedge, D. C., Campbell, P. J. & Stratton, M. R. Deciphering signatures of mutational processes operative in human cancer. Cell reports 3, 246-259, doi:10.1016/j.celrep.2012.12.008 (2013).
16 Helleday, T., Eshtad, S. & Nik-Zainal, S. Mechanisms underlying mutational signatures in human cancers. Nature reviews. Genetics 15, 585-598, doi:10.1038/nrg3729 (2014).
17 Birkbak, N. J. et al. Telomeric allelic imbalance indicates defective DNA repair and sensitivity to DNA-damaging agents. Cancer discovery 2, 366-375, doi:10.1158/2159-8290.CD-11-0206 (2012).
18 Abkevich, V. et al. Patterns of genomic loss of heterozygosity predict homologous recombination repair defects in epithelial ovarian cancer. British journal of cancer 107, 1776-1782, doi:10.1038/bjc.2012.451 (2012).
19 Popova, T. et al. Ploidy and large-scale genomic instability consistently identify basal-like breast carcinomas with BRCA1/2 inactivation. Cancer research 72, 5454-5462, doi:10.1158/0008-5472.CAN-12-1470 (2012).
20 Fischer A, Illingworth CJ, Campbell PJ, Mustonen V.; EMu: probabilistic inference of mutational processes and their localization in the cancer genome Genome Biol. 2013 Apr 29;14(4):R39. doi: 10.1186/gb-2013-14-4-r39.
21 Sherry, S. T. et al. dbSNP: the NCBI database of genetic variation. Nucleic acids research 29, 308-311 (2001).
22 Abecasis, G. R. et al. An integrated map of genetic variation from 1,092 human genomes. Nature 491, 56-65, doi:10.1038/nature11632 (2012).
23 Fu, W. et al. Analysis of 6,515 exomes reveals the recent origin of most human protein-coding variants. Nature 493, 216-220, doi:10.1038/nature11690 (2013).
【0081】
上記参考文献の全ては、参照により本明細書に組み込まれる。
【0082】
【表1】