【実施例】
【0115】
本実施例は、CRC 腫瘍における不安定性に関するゲノム・ワイド解析が、不安定な短いマイクロサテライトを特定するためにどのように使用されたかを記載する。配列決定エラー及び不安定性のデコンボリューションを容易にするために、高頻度 SNPs に連鎖する反復を特定することに特に焦点が当てられた。120 種類の 7-12 bp マーカーが特定された。次いで、本発明者らは、このスクリーニングによって定義された 120 種類の 7-12 bp マーカーのパネルを、配列決定に基づくタイピングの為に評価した。2 つの研究の中で、特定されたモノヌクレオチド反復の最初の 120 種類を小パネルの腫瘍で解析して、これらの反復が MSI を同定するためのマーカーとして使用できることを確認した。最初の研究では、特に有益な 18 種類の反復のパネルが特定された(実施例1)。2番目の研究では、短い長さ(7-9 bp)の反復に焦点が当てられ、特に有益な 8 種類のマーカーを追加的に特定した。これらの 8 種類のマーカーを実施例1の最も有益な 9 種類のマーカーと組み合わせて、新しい 17 種類のマーカーのパネルが生成された(実施例2)。次に、より有益な反復のいくつかを用いてより大きな大腸腫瘍のパネルを解析したところ、それぞれ 18 種類及び 17 種類の反復の 2 つのパネルは、それぞれ MSI-H 腫瘍での欠失に対して非常に感受性が高く、MSI-H と MSS 腫瘍とを区別するのに使用することができる、ということが示された。
【0116】
従って本発明は、MSI-H 腫瘍と MSS 腫瘍とを区別するために使用することができる複数種類のマーカーを提供する。18 種類及び 17 種類のマーカーの特定のパネルが提供される。しかしながら、これらのパネル内の特に有益なマーカーの任意の組み合わせが使用されることもある。従って、本発明の方法及びキットは、2 種類以上のマーカー(表A及び/又は表Bに特定される)を利用することがあり、そして特に、実施例1の検証済みの 18-反復パネル及び/又は実施例2の検証済みの 17-反復パネル内に存在する、2 種類以上のマーカーを利用することがある。
【0117】
実施例1から3は、サンプル毎に各反復を個々に PCR 増幅し、その後にシークエンシングするためにプールする(pooling)必要があるアッセイを用いて、本発明の方法を実施することができる方法を記載する。
【0118】
実施例4は、単一分子‐分子反転プローブ(single molecule-molecular inversion probe(smMIP))技術を用いる多重シークエンシングに基づくアッセイを用いて、本発明の方法をどのように実施できるかに関する詳細情報を提供する。よく知られているように、多重化はそのような方法の全体的なコストと複雑さを減らす。smMIPs によって、前記 DNA サンプル中の全ての目的のマーカーを同時に標的化し、捕捉し及び PCR 増幅することが可能になる。これにより、各サンプルについてマーカー毎の増幅 DNA 配列をプールする必要がなくなり、それゆえ:実験室の作業の合理化、コストの削減、投入される DNA サンプルの量の削減、サンプルが混じりあってしまうリスクの低減、及びアッセイの所要時間の短縮が可能になる。本発明者らは、以下の実施例4に概説されるように、大きなパネルの目的のマーカーについて smMIP を設計し、試験をした。
【0119】
<実施例1−短い反復を優先するモノヌクレオチド反復のパネルの選択>
ミスマッチ修復(MMR)を欠損する腫瘍における短いモノヌクレオチド反復の安定性又は変動性を、ゲノムレベルで調べるために、MSI-H 大腸がんからの全ゲノム配列データを調べて、MSI-H 腫瘍において非常に可変的である新しいホモポリマーを特定した。
【0120】
全ゲノム解析から、合計 218,181 種類の可変的な 7-12 bp のホモポリマーが特定された。インデル(挿入又は欠失)を有する 216495 種類の A/T モノヌクレオチド反復が特定されたが、C/G モノヌクレオチド反復は 1686 種類のみであった。G/C モノヌクレオチド反復よりも多くの不安定な A/T モノヌクレオチド反復が見つかったことは、Yoon ら(2013)によって細胞株において報告されたデータと一致する。MSI 検出のための特定の反復を検証するために、全ゲノム解析において特定された最も不安定なホモポリマーのいくつかを、更なる解析のために選択した。218,181 種類の可変的な 7-12 bp のホモポリマーのリストを、各群(MSI-H サンプル、MSI-H サンプルに対応した正常サンプル、及び MSS サンプル)について、1 つのリードあたりの深さ(a read depth)が 20 x 以上である反復のためのフィルタリングをすることによって絞り込んだ。一般的な多型(dbSNPバージョン 173、hg19)を持つ反復は除外した。7-10 bp の反復を、それらが MSI 高サンプル群において 10 % 以上の変異体リードの割合(variant read fraction)であり、そして対照において変異体リードが無い場合に、選択した。11-12 bp について、反復を、それらが MSI-H サンプルにおいて 15 % 以上の代替対立遺伝子の割合(alternate allele fraction)であり、そして対照において 5 % 以下の変異体リードの割合である場合に、選択した。11-12 bp の反復における 5 % 以下の変異体リードの割合(variant read fraction)は、シークエンシング・エラー及び PCR エラーによって引き起こされると推定された。対照サンプル中のインデル頻度が低いホモポリマーは、低いバックグラウンド・エラー率で反復を扱うことがより容易であるために望ましい。バックグラウンド・エラーの変動はある程度、配列の文脈に起因し得ると推定される。
【0121】
ホモポリマーは、30 bp 以内に、高いマイナー対立遺伝子頻度を有する SNPs を包含することが選択されることを確実にするために選択された。Perl スクリプトである AnnotateCloseSNPs.pl を使用して、反復開始から 30bp 以内の SNPs に注釈を付けた。反復の 30 bp 以内に、複数の SNP が検出された場合は、SNPs の値を評価するための迅速な方法として、マイナー対立遺伝子頻度を一緒に加えた。反復は、その反復の 30 bp 内に、マイナー対立遺伝子頻度の SNPs が有る場合、唯一選択され、少なくとも 0.2 の頻度になるまで、合わせられた。全部で 529 種類の A/T ホモポリマーがこれらの基準に適合した。データセット中に G/C ホモポリマーはほとんど無かったので、反復の 30 bp 以内の SNPs を含めるという基準を省き、各群における 1 つのリードあたりの深さ(a read depth)が 20 x 以上との要件を緩和した。これにより、33 種類の G/C ホモポリマーのデータ・セットが得られた。
【0122】
UCSC Genome ブラウザ(Kent ら、2002)を用いて、上記の基準に合格したホモポリマー用のプライマーを作成する可能性を評価した。上記の選択基準を満たす 529 種類の A/T ホモポリマー及び 33 種類の G/C ホモポリマーの多くは、LINES 及び SINES 等の、低い複雑度の領域(regions of low complexity)に位置しており、そのことによって、プライマーをミスプライミングの危険性無しに生成することができる、反復の数が限定された。適切なプライマーを作製することができる 120 種類の最も可変的な反復を選択して、MSI 反復長の変動を配列決定に基づいて検出する上での、これらの特定のモノヌクレオチドの有用性を評価した。これらを以下の表Aに示す。
【0123】
【表1-1】
【表1-2】
表A:配列決定された 120 種類のモノヌクレオチド反復のリスト。このリストは、命名された反復の名称、各モノヌクレオチド反復の長さ及び位置、並びに隣接 SNPs の rs 番号を含む。
【0124】
MSI 反復長の変動を配列決定に基づいて検出する上での、特定のモノヌクレオチドの有用性を評価することを、イルミナのシークエンシングを用いて原発腫瘍及び対照組織の小パネルで解析した。選択した 120 種類の不安定なモノヌクレオチド反復(7-12 bp)を FFPE 組織から増幅し、そしてイルミナ MiSeq を使用して配列決定した。高いマイナー対立遺伝子頻度を有する SNPs の 30 bp 内の反復を選択した。2 つの理由から、捕捉に基づくアプローチの代わりに PCR を使用した。PCR を使用し、その後アンプリコンをほぼ等モル濃度にプールすることによって、分解した DNA から全ての領域をカバーすることはより簡単である。多くのモノヌクレオチド反復は相同性の高い領域にあり、これがプローブのミスプライミング及び望ましくない配列を捕捉することにつながる可能性があるため、捕捉ベースのアプローチを使用することは、所望のモノヌクレオチド反復配列を高い割合で落としてしまう危険性もある。
【0125】
プライマーは、Primer3(Rozen and Skaletsky、2000)を用いて、又は Primer3 が適切なオリゴを返さない場合はマニュアルで設計した。マニュアルで設計されたプライマーは 57 ℃- 60 ℃の Tm を有した。前記 Tm は以下のように計算された:Tm = 4×(G+C)+2×(A+T)。プライマーは、〜300-350 bp のアンプリコンを生成するように設計された。SNP Check(https://ngrl.manchester.ac.uk/SNPCheckV2/snpcheck.htm)を使用して一般的な SNPs を、BLAST(http://blast.ncbi.nlm.nih.gov/)又はBLAT(Kent、2002)を使用してオフ・ターゲット結合を、並びに OligoCalc(http://www.basic.northwestern.edu/biotools/oligocalc.html)又は Primer3 を使用して適切な融解温度及び二次構造が無いことを、チェックした。前記プライマーは、Metabion(Metabion International AG、シュタインケルヘン、ドイツ)又は Biobasic(Bio Basic Inc.、マーカム、カナダ)のいずれかによって製造し、脱塩によって精製した。全てのプライマーのリストは以下の表Bに見出すことができる。このパネル中のプライマーは、下流ライブラリーの調製を容易にし、そしてその調製の費用を減少させるために、末端が突出しているオリゴヌクレオチドでタグ付けした。
【0126】
【表2-1】
【表2-2】
【表2-3】
【表2-4】
【表2-5】
【表2-6】
【表2-7】
表B:アンプリコン/反復の名称、アンプリコンの位置(ゲノム・ビルド hg19(genome build hg19))、プライマー、及びモノヌクレオチド反復に近接した SNPs の SNP rs 番号を含むリスト。
【0127】
<モノヌクレオチド反復におけるインデルを解析するのに最良のコーラー(caller)を選択する為の、120 種類の反復についての配列データの解析>
FFPE 組織は、6 例のリンチ症候群腫瘍、これらの腫瘍のうちの 5 例について対応する正常な粘膜、及び 6 例の MSS 腫瘍からなる(表1)。対応した正常組織については、材料が少なすぎて 120 種類の反復全てのシークエンシングができず、この材料は反復を選択するためのみに使用した。他のサンプルでも、利用可能な DNA の量は限られた供給量であった。高い正確性を持つ Pfu に基づく Herculase II Fusion DNA ポリメラーゼ及び 35 回の PCR サイクルを使用して、約 300 bp のアンプリコンを生成した。アンプリコンを Qiagen QIAxcel を用いて定量し、次いでほぼ等モル濃度でプールした。Agencourt AMPure XP ビーズを PCR クリーン‐アップに使用した。PCR クリーン‐アップの後、前記アンプリコン・プールを 0.2 ng の濃度に希釈し、Illumina Nextera XTキット(Illumina、サン・ディエゴ、カリフォルニア州、米国)を使用する Library Prep を行った。
【0128】
【表3】
表1:リンチ症候群腫瘍からなる組織サンプル、前記リンチ症候群腫瘍に対応する正常組織、及び MSS 腫瘍。
【0129】
全ゲノムデータから特定された、隣接する SNPs を有する 120 種類のホモポリマーに関する初期スクリーニングによって、配列決定された 5 例の MSI 腫瘍において高レベルの不安定性が示された。その結果によれば、短い 7bp-9bp A/T 反復の 40 %、より長い 10bp-12bp A/T 反復の 80 %、及び G/C 反復の 33 % が少なくとも 1 例の腫瘍において不安定性を示すことが示された。マーカーが、欠失頻度 > 5 % 及び、7-9bp の反復については、何れの対照サンプルの欠失頻度の少なくとも 2 倍の欠失頻度、又は 10-12bp の反復については、何れの対照サンプルの欠失頻度の 1.5 倍の欠失頻度、である場合、マーカーを不安定であると定義した。
【0130】
反復の 30bp 以内に位置するヘテロ接合性の SNPs を使用して、本発明者らはまた、MSI-H サンプルにおいて、欠失と共にリードの対立遺伝子の偏りを示す反復が過剰にあることを示すこともできた。
【0131】
MSI-H サンプルの少なくとも 60 % で不安定であると分類され、少なくとも 0.9 の曲線下面積(area under the curve (AUC))も有する、全ゲノム解析由来の 10 種類のマーカーを更なる研究をするために選択した。不安定性を示した、文献から得られた 10 種類のマーカーもまた、更なる解析をするために選択し、合計で 20 種類のマーカーが得られた(表2に示す)。
【0132】
【表4】
表2:反復の最終パネルにおける各マーカーについての受信者操作特性曲線の下の面積(area under the receiver operating characteristic curve (AUC))。この表は、各反復の長さ、反復単位、及び受信者操作特性曲線の下の面積として表される MSI-H サンプルと MSS サンプルとを識別する各反復の識別力、を示す。
【0133】
不安定性をコールするための閾値を定義し、選択された反復のパネルが MSI-H 腫瘍と MSS 腫瘍とを区別するのに十分であるかどうかを決定するには、より多数の腫瘍を必要とした。合計 92 例の腫瘍サンプルを入手した。
【0134】
92 例の腫瘍からの DNA を最初に評価して、いくつの腫瘍が 20 種類のマーカーのパネルに対して長さが約 300bp のアンプリコンを生成するのに十分な DNA の量及び質を有するのかを特定した。MSI-H 腫瘍と MSS 腫瘍とを区別するのに 20 種類のマーカーで十分であるはずこと、及び多くの腫瘍ではより大きなパネルを増幅するのに十分な DNA がなかったことから、前記パネルのサイズを選択した。3 例の腫瘍については、出発材料が少なすぎて 20 種類の反復を増幅することができなかった。残りの 89 例の腫瘍 DNA サンプルのうち、約 300bp のアンプリコンを用いて 58 例のサンプルを増幅することができた。
【0135】
MSI-H サンプルと MSS サンプルとを識別する各反復の識別力は、受信者操作特性曲線の下の面積(area under the receiver operating characteristic curve (AUC))を用いて評価した。
【0136】
受信機動作特性曲線は、真陽性率及び偽陽性率を測定する方法である。この場合、前記 AUC は、所与のホモポリマーが MSI-H サンプルと MSS サンプルとをどの程度うまく区別することができるかの尺度である。全ての MSI-H サンプルが所与の反復について MSS サンプルよりも高い欠失頻度を有する場合、AUC は 1 になる。この場合、データセットから無作為に選択された任意の MSI-H サンプルが、データセットから無作為に選択された任意の MSS サンプルよりも高い欠失頻度を有するという、可能性は 100 % である。AUC 値が 0.5 であれば、無作為に選択された任意の MSI-H サンプルが、無作為に選択された任意の MSS サンプルよりも高い欠失頻度を有する可能性が 50-50 であるため、反復に識別力がないことを意味する。
【0137】
最終パネル中の全ホモポリマーの AUC 値を表2に示す。平均して、前記 AUC は、反復長 12bp まで、反復長と共に増加する。これは、12bp の長さまでは、より長い反復が、MSI-H サンプルと MSS サンプルとを識別するのにより優れていることを意味する。これは、より長いマイクロサテライトがより短い反復よりもマイクロサテライト不安定性のイベントを起こしやすいために予想されたことであった。従って、より短い反復については、突然変異によって影響を受けていない反復が MSI-H サンプルの中により多くあり、MSI-H サンプルと MSS サンプルとを識別する識別力を低下させる。13bp 及び 14bp の反復はそれぞれ 0.9 及び 0.722 の AUC を有する。これらは、全ての 12bp 及び 11bp 反復のうちの 1 つを除く全てに見られる AUC 値よりも低い AUC 値である(表2参照)。これは、これらの反復においてシークエンシング・エラー及び PCR エラーが非常に高く、MSI-H サンプルと MSS サンプルとの間を識別することにとって、不安定性の尺度として全ての欠失の頻度を使用することは、より短い 11bp 及び 12bp の反復の場合よりも、もはや良くないことを示す。他方、選択された 13bp 及び 14bp の反復は、配列状況のために MSI をより起こしにくい傾向にある可能性があり、これら 2 つよりも不安定な他の 13bp 及び 14bp 反復がゲノム中に多くあるかもしれない。
【0138】
14bp 反復である FBXO46 に関しては、低い AUC はまた、いくつかの対照において、配列長の多型が存在していることに起因している可能性もある。前記腫瘍のうちの 1 つは、この反復についての配列長の多型を有し、このことは、あるサンプルでは FBXO46 が多型性であり得る可能性があることを示す。FBX046 を好ましいパネルから削除した。
【0139】
本発明者らは、シークエンシング・エラーがホモポリマーの長さにある程度依存することを見出した。従って、不安定性をコールするための異なる閾値が、異なるホモポリマーの長さに対して必要とされるであろう。マーカーを不安定とコールするための閾値は、個々のマーカーのそれぞれの感度及び特異性を評価することによって、各反復長について決定することがある。感度と特異性は試験の正確さを測るために使われる。感度は、症状が有り、その症状に対して陽性の検査結果が有る患者の割合として測定される。特異性は、症状が無い、及びその症状に対して陰性を示す患者の割合である。従って、感度と特異性は次のようにまとめることができる:
感度=真陽性/(真陽性+偽陰性)、
特異性=真陰性/(真陰性+偽陽性)。
【0140】
この研究のために、標準的なプロメガ MSI 試験(MSI Analysis System、バージョン1.2:プロメガ、マディソン、ウィスコンシン州、米国)を用いて、腫瘍が事前に MSI-H として分類されていた場合、腫瘍を MSI-H として定義した。不安定性がプロメガ MSI 試験の 5 種類のマーカーの何れにおいても検出されなかった場合、腫瘍を MSS として分類した。配列決定をしたそれぞれの短いモノヌクレオチド反復について、感度曲線及び特異性曲線を作成した。それぞれの感度曲線及び特異性曲線は、x軸上に欠失を含むリードの頻度を有する。前記感度曲線は、x軸上に示される欠失頻度以下の欠失頻度を有する MSI-H サンプルの割合(y軸)を示し、これは各所与の欠失頻度における感度である。前記特異性曲線のx軸は MSS サンプルの割合である。前記特異性曲線は、各所与の欠失頻度における特異性であるy軸上に示される頻度以上の欠失頻度を有する MSS サンプルの割合(y軸)を示す。
【0141】
8bp 反復のうち、LR46(全ゲノム解析から抽出された)は、40 % までの欠失頻度に関して DEPDC2(文献から得られた)よりも高い感度を有する。両方の反復は 4.1 % の欠失頻度で 100 % の特異性を有する又は偽陽性を有さない。この欠失頻度で、LR46 は、28 例の MSI-H サンプルのうち 12 例で検出される 42.9 % の感度を有し、DEPDC2 は、23 例の配列決定された MSI-H サンプル中 6 例で検出される 26.1 % の感度を有する。
【0142】
9bp の反復の全ては、5.5 % 以上の欠失頻度に対して 100 % の特異性を有する。5.5 % の欠失頻度では、2 つの反復 AP003532_2 と TTK がそれぞれ 57.1 % と 43.5 % の最高の感度を有する。2 つの反復 AL954650 及び AL359238 は、この欠失頻度で 42.1 % 及び 21.7 % の感度を有する。
【0143】
10bp の反復の全ては、14.2 % 以上の欠失頻度で 100 % の特異性を有する。14.2 % の欠失頻度について、反復 LR32 は 82.1 % の感度を有し、これは、この欠失頻度で、どの 10bp の反復よりも、最も高い。他の 10bp の反復である AVIL、AL3551554、GM29 は、それぞれ 71.4 %、35.3 % 及び 25.9 % の感度を有する。
【0144】
11bp の反復について、反復 ASTE1 は、欠失頻度は 11.9 % - 19.75 % の範囲である対照サンプルにおいて、最も高い頻度の欠失を有していた。11bp の反復の全ては、19.8 % 以上の欠失頻度で 100 % の特異性を有する。
【0145】
12bp の反復の全ては、19.4 % 以上の欠失頻度で 100 % の特異性を有する。19.4 % の欠失頻度では、反復 LR44、LR36 及び IM49 はそれぞれ 92.9 %、75 % 及び 64.3 % の特異性を有する。
【0146】
13bp マーカーである EGFR は、配列データ内で高いドロップアウト率であり、58 例の腫瘍のうち 12 例でのみ配列決定された。このマーカーが配列決定された 12 例の腫瘍のうち 2 例のみが MSS 腫瘍であった。EGFRは 24 % 以上の欠失頻度で 100 % の特異性を有するが、これは 2 例の MSS サンプルからのデータにのみ基づいているので信頼できるとは考えられず、従ってこれは最終パネルに含める必要はないと判断された。
【0147】
多型である可能性があるマーカーは、高い欠失頻度が必ずしも MSI の指標ではないことを意味するので、腫瘍 PR10654/14 における多型の存在は、そのマーカーが MSI 試験に使用するのにあまり適していないことを意味した。それゆえ、それは好ましい最終パネルに含めなかった。
【0148】
それ故、18 種類のマーカーの最終的な好ましいパネルは、DEPDC2、LR46、AL359238、AL954650、AP003532_2、TTK、AL355154、AVIL、GM29、LR32、ASTE1、GM07、GM14、LR11、LR48、IM49、LR36、LR44 とされた(表A及び表B中で遺伝子座を更に規定する)。
【0149】
<MSI 状態による腫瘍を区別するための閾値の最適化>
MSI-H 腫瘍と MSS 腫瘍とを区別するための反復の性能を評価するために、18 種類のマイクロサテライト遺伝子座又は反復からなる好ましいパネルを、カット‐オフ値として異なる欠失頻度を用いて評価した。好ましいパネルは 18 種類の 8bp-12bp モノヌクレオチド反復からなる。即ち;DEPDC2、LR46、AL359238、AL954650、AP003532_2、TTK、AL355154、AVIL、GM29、LR32、ASTE1、GM07、GM14、LR11、LR48、IM49、LR36、LR44(更に表A及び表Bに定義される遺伝子座)。
【0150】
各反復サイズごとに異なる閾値を設定した。
【0151】
下記の表3に示す欠失頻度の閾値を用いて、各腫瘍について閾値を超える反復の数を棒グラフを用いてプロットした。
【0152】
これらの閾値を用いると、どの MSI-H 腫瘍も、不安定性をコールするための閾値を満たす反復を 5 種類以上有していた。MSS サンプルについては、不安定性をコールするための閾値を満たす反復は、最大 3 種類であった。18 種類の反復からなるパネルは、サンプルを MSI-H として分類するために 4 又は 5 種類の不安定な反復というカット‐オフ値を使用することで、どの MSS がん及び MSI-H がんも正確に分類できるので、これらの閾値を使用すると、従って、MSI-H 腫瘍及び MSS 腫瘍を分離することができる。
【0153】
【表5】
表3:間違って分類された反復の数を最小限に抑える各反復サイズについての閾値。この表は、各反復サイズについて、エラーの数を最小にする欠失頻度の閾値を示したものである。各閾値について、この表は、エラーの数、偽陽性エラー率、偽陰性率、及び 85 % の MSS 腫瘍及び 15 % の MSI-H 腫瘍からなる一群の腫瘍についてのエラー率を示す。FPR = 偽陽性エラー率、FNR = 偽陰性エラー率。
【0154】
マーカー・パネルの感度は、反復を追加することで簡単に調整できる。偽陽性は蓄積する可能性があるため、特異性がより重要である。従って、MSS サンプルにおいて不安定であると分類される個々の反復は、MSI-H サンプルにおいて安定であると分類される個々の反復よりも問題が多い。実際、MSI-H サンプルでの複製エラーはランダムに発生するため、MSI-H サンプルの反復のいくつかは複製エラーの影響を受けず、従って安定したままになる。これをよりよく反映するために、偽陽性と偽陰性のエラーに異なる重み付けをすることがある。エラーに関する異なる重み付けを評価して、それらが、どのくらい、配列決定された腫瘍パネルについての偽陽性エラー率及び偽陰性エラー率、並びに MSI-H 及び MSS 腫瘍サンプルにおける不安定な反復の数、に影響するかを見た。
【0155】
偽陽性エラーが偽陰性エラーよりも 1.5 倍悪くなるように、異なるエラーについての重み付けを調整し、2 つのタイプのエラーについてのこの異なるコストを反映するように、反復を不安定とコールするための欠失頻度の閾値を調整した。欠失頻度の閾値は、エラーのコストが最小になるように設定した。これにより、11bp と 12bp の反復の閾値が変更され、これらの反復についての偽陽性エラー率が低下した(表4を参照)。
【0156】
【表6】
表4:偽陽性エラーが偽陰性エラーよりも 1.5 倍悪いとした場合の、反復が間違って分類されるコストを最小にする各反復サイズについての閾値。この表は各反復サイズについて、エラーのコストを最小にする欠失頻度の閾値を示したものである。各閾値について、この表は、偽陽性エラー率、偽陰性率、及び 85 % の MSS 腫瘍及び 15 % の MSI-H 腫瘍からなる一群の腫瘍についてのエラー率を示す。FPR = 偽陽性エラー率、FNR = 偽陰性エラー率。
【0157】
次いで、新たな欠失頻度の閾値(表4参照)を用いて、各腫瘍サンプルについて何個の反復が閾値を超えたかを計算した。新しい閾値を使用すると、全ての MSI-H 腫瘍は依然として不安定として分類される反復を 5 種類以上有するが、一方、MSS 腫瘍は 2 種類を超える不安定な反復を有さない。従って、18 種類の反復からなるパネルは、サンプルを MSI-H として分類するために 3-5 種類の不安定な反復というカット‐オフ値を使用することで、どの MSS 及び MSI-H がんも正確に分類することができる。偽陰性エラーよりも 1.5 倍高いコストとして偽陽性エラーを重み付けすることにより、18 種類の反復からなるパネルは MSI-H サンプルと MSS サンプルとをよりよく区別することができる。
【0158】
偽陽性エラーが偽陰性エラーよりも 2 倍悪いように、異なるエラーについての重み付けを更に調整した。欠失頻度の閾値は、エラーのコストが最小になるように調整した。その結果、8bp と 11bp の両方の反復について、反復を不安定とコールするための欠失頻度の閾値が増加した(表5参照)。10bp-12bp の反復については、現在の欠失頻度の閾値を使用した偽陽性エラーはない(表5参照)。
【0159】
【表7】
表5:偽陽性エラーが偽陰性エラーよりも 2 倍悪いとした場合の、反復が間違って分類されるコストを最小にする各反復サイズについての閾値。この表は各反復サイズについて、エラーのコストを最小にする欠失頻度の閾値を示したものである。各閾値について、この表は、偽陽性エラー率、偽陰性率、及び 85 % の MSS 腫瘍及び 15 % の MSI-H 腫瘍からなる一群の腫瘍についてのエラー率を示す。FPR = 偽陽性エラー率、FNR = 偽陰性エラー率。
【0160】
表5にある新たな欠失頻度の閾値を用いて腫瘍パネルを解析した。これらの閾値を使用することによって、MSS 腫瘍において不安定であると分類された反復の数は 2 種類の反復にまで減少した。1 種類の反復は腫瘍 22_S11 について、1 種類の反復は腫瘍 64_S34 についてのものである。全ての MSI-H 腫瘍は、不安定として分類される 2 種類以上の反復を有する。従って、2 種類の不安定な反復というカット‐オフ値を使用してサンプルを MSI-H として分類する場合、18 種類の反復からなるパネルは、全ての MSS 腫瘍及び MSI-H 腫瘍を正確に分類することができる。
【0161】
偽陽性エラーが偽陰性エラーよりも 5 倍悪いように異なるエラーの重み付けを調整すると、結果として得られる閾値によって、どの反復サイズに対しても偽陽性エラーは生じない(表6参照)。これらの閾値では、MSI-H サンプルについての偽陰性エラー率は、12bp の反復についての 22.6 % から 8bp の反復についての 64.7 % の間である。15 % の MSI-H 腫瘍と 85 % の MSS 腫瘍の区分に一致する一群の腫瘍についてならば、各マーカー・サイズについてエラー率は 3.4 % と 9.7 % の間になる。これらのエラーは全て、偽陰性エラーである。サンプルを MSI-H として分類するために 18 種類のマーカー全てを一緒に使用するので、反復のパネル全体についての偽陰性エラー率は、個々の反復サイズについての偽陰性率よりはるかに低いであろう。
【0162】
【表8】
表6:偽陽性エラーが偽陰性エラーよりも 5 倍より大きく悪いとした場合の、反復が間違って分類されるコストを最小にする各反復サイズについての閾値。この表は各反復サイズについて、エラーのコストを最小にする欠失頻度の閾値を示したものである。各閾値について、この表は、偽陽性エラー率、偽陰性率、及び 85 % の MSS 腫瘍及び 15 % の MSI-H 腫瘍からなる一群の腫瘍についてのエラー率を示す。FPR = 偽陽性エラー率、FNR = 偽陰性エラー率。
【0163】
28 例の MSI-H 腫瘍及び 30 例の MSS 腫瘍のパネルを表6に記載した欠失頻度の閾値を用いて解析すると、全ての MSI-H 腫瘍において不安定と分類された反復が 2 種類以上ある。各反復長の閾値は偽陽性エラーが無いように設定されているので、1-2 種類の不安定な反復というカット‐オフ値を使用してサンプルを MSI-H として分類する場合、18 種類の反復からなるパネルは、全てのMSS 及び MSI-H 腫瘍を正確に分類することができる。
【0164】
要約すると、モノヌクレオチド反復の種類数を、文献から得られた反復及び全ゲノム解析を通して特定された反復からなる 18 種類の 8bp-12bp の反復からなるパネルまで絞り込んだ。前記パネルは、DEPDC2、LR46、AL359238、AL954650、AP003532_2、TTK、AL355154、AVIL、GM29、LR32、ASTE1、GM07、GM14、LR11、LR48、IM49、LR36、LR44 を含む。この反復パネル中で欠失頻度を調べれることは、58 例の腫瘍(28 例の MSI-H 腫瘍及び 30 例の MSS 腫瘍)のサンプルにおいて、100 % の感度及び特異性で MSI-H と MMS 腫瘍を区別するのに十分であった。最も実用的な閾値のセットは、MSS 腫瘍群において偽陽性マーカーを認めないものであった。なぜならば、MSS サンプルで不安定な反復がありうるように閾値を設定している場合、一部の腫瘍で不安定と分類される反復の数が累積することがあるというリスクがあるからである。これらの閾値を使用すると、MSI-H 腫瘍の各々において 2-17 種類の不安定な反復があった。MSI 検査では、わずかな(odd)不安定な反復だけが MSS 腫瘍に見られるため、腫瘍を MSI-H とコールするために 2 種類の不安定な反復というカット‐オフ値をこのシステムと共に使用すべきである(Yoon ら、2013)。
【0165】
最終 MSI 試験パネルの 18 種類のマーカーについて、dbSNP ビルド 173 の時点での多型は存在せず、そしてこれらの反復を試験するために使用した MSS 腫瘍においては、多型の可能性がある反復は見られなかった。それ故、全ての反復は単型であるはずであり、これは反復のパネルを腫瘍と正常組織との間で比較する必要無しに使用することができることを意味する。しかしながら、これらの反復のいくつかにおいて、多型が将来発見される可能性はある。これは、腫瘍を MSI-H とコールするために 2 種類の不安定な反復というカット‐オフ値が賢明であろうということの別の理由である。しかしながら、スペクトルの下端で MSI-H 、MSI-L 及び MSS の間に連続した不安定性レベルがあり得るので、全ての MSI-H 腫瘍を特定するための明確なカット‐オフ値を定義することは不可能であるかもしれないと考えられる。
【0166】
この実施例における MSI 試験の別の利点は、試験を自動化することができ、貴重なスタッフの時間を用いて腫瘍の MSI 状態を決定する必要性が減少することである。次世代シーケンシングの単一分子的な性質は、自動化が可能な、欠失頻度を測定することに向けた定量的アプローチを提供する。フラグメント解析のトレースを主観的に解析する現在の試験とは対照的に、不安定なマーカーをコールするための閾値として欠失頻度を使用するアプローチは、それ自体が自動化に適している。
【0167】
<実施例2-モノヌクレオチド反復の別のパネルの選択>
実施例1に記載の試験と並行して、表Aに示した 120 種類の 7-12bp のマーカーを、配列型の MSI マーカーとしてのそれらが使用可能であるかについて、評価し解析するために第2の試験を実施した。この第2の研究は、最初に、より短いマーカー(7-9bp)に焦点を当てた。
【0168】
55 例の CRCs からなるコホートを用いて 25 種類の短い(長さ 7-9bp)モノヌクレオチド・マーカーのバッチを試験して、それらの中で最も有益なマーカーを特定した。MSI-high(MSI-H)とマイクロサテライト安定(MSS)の症例との間を識別することに関し、最も有益なものとして、8 種類のマーカーを見出した(GM9、GM11、GM17、LR20、LR24、LR49、IM16 及び IM66‐データは示さず)。不安定性をコールするためのシステムを確立するために、これら 8 種類のマーカーを実施例1におけるパネルの 9 種類の最も有益なマーカー(すなわち、DEPDC2、AP003532_2、GM07、GM14、LR11、LR36、LR44、LR48 及び IM49、全て長さ 8-12bp)と一緒に組み合わせた。そして、141 例のスペイン人の CRCs を含む大規模コホート全体で試験した。それぞれ 96 % 及び 100 % の感度及び特異性で、17 種類のマーカーを用いて不安定性をコールするシステムを確立した(実施例1に記載の加重スコアリング・システム)。前記加重スコアリング・システムを、エジンバラから提供された 70 例の CRCs の独立したコホートを用いて検証した。その検証アッセイは、前記加重スコアリング・システムが、MSI-H 症例と MSS 症例との間を、感度と特異度がどちらも 100 % で、識別することにおいて、完璧に有効であることを、示した。
【0169】
本発明者らは、短いモノヌクレオチド反復の有用性を試験して、MSI-H 症例のクローン特性を評価し、そして試験した腫瘍が進展していった過程についての洞察を得た。試験した腫瘍についてクローン特性を確立し系統樹を構築することができた(データは示さず)。このアッセイの結果は、短いモノヌクレオチド反復を使用して、MSI-H CRCs の腫瘍内不均一性を検討することは実施可能であるということを裏付けている。
【0170】
17 種類のマーカーのパネルを以下の表7に示す。上記のように、いくつかのマーカーは実施例1のパネルとの共通性を示した。
【0171】
【表9】
表7
【0172】
相関する SNP と一緒にマーカーを増幅するための例示的なフォワード及びリバース・プライマーを以下の表8a(フォワード・プライマー(forward primers))及び8b(リバース・プライマー(reverse primers))に示す。
【0173】
【表10】
表8a
【0174】
【表11】
表8b
【0175】
前記パネルは、試験をすると、スペイン人コホートの 141 例の CRC サンプルにおいて、96 % の感度及び 100 % の特異性を示し、前記スコアリング・スキーム(アッセイを標準化するために開発した)は、独立したコホート(エジンバラの共同研究者から提供)において、100 % の感度及び特異性を示した。
【0176】
<真の MSI から増幅エラー及び配列決定エラーを区別するための SNPs の取り込み>
上記の例から分かるように、本発明者らは、PCR エラー及び配列決定エラーと MSI によって引き起こされるインデルとを区別する手段として連鎖する単一塩基反復 SNPs を使用することによって、PCR エラー及び配列決定エラーのレベルが高いことがある反復配列でインデルがコールされるという問題を、克服した。
【0177】
以下の Perl スクリプトを、データを解析し、両側フィッシャーの正確性検定(two-tailed Fisher’s exact tests)を実行するために書いた。
【0178】
<FisherTest_AllDeletions.pl>:COPReC によって生成された出力を使用して、このスクリプトは、隣接する SNP に対してヘテロ接合である反復を特定し、2 つの対立遺伝子間で欠失の割合が有意に異なるかどうかを判定するために両側フィッシャーの正確性検定を実行する。各対立遺伝子について SNP と反復の両方にまたがる 100 対以上の末端リードがあり、そして 1 つの対立遺伝子に全リード数の 10 % 以上のリードがある場合、反復をヘテロ接合性として定義する。このスクリプトは、各対立遺伝子について、欠失を含むリードの数と欠失を含まないリードの数を計算し、次にこれらの値を使用してフィッシャーの正確性検定を実行する。このフィッシャーの正確性検定の計算は、前記 Perl スクリプトの中に統合された外部モジュールを使用して実行した
(Pedersen T., https://metacpan.org/pod/Text::NSP::Measures::2D::Fisher::twotailed)。
【0179】
<FisherTest_IndividualIndels.pl>:COPReC によって生成された出力を使用して、このスクリプトは、隣接する SNP に対してヘテロ接合である反復を特定し、2 つの対立遺伝子間で個々のインデルの割合が有意に異なるかどうかを判定するために両側フィッシャーの正確性検定を実行する。各対立遺伝子について SNP と反復の両方にまたがる 100 対以上の末端リードがあり、そして 1 つの対立遺伝子に全リード数の 10 % 以上のリードがある場合、反復をヘテロ接合性として定義する。各対立遺伝子について、このスクリプトはリードを次のように分類する;検討中のインデル・サイズを含むリード、又は検討中のインデル・サイズを含まないリード。次に、このスクリプトは両方の対立遺伝子について各カテゴリーのリードの数を計算し、この数をフィッシャーの正確性検定 2 x 2 分割表の入力として使用する。この両側フィッシャーの正確性検定の計算は、前記 Perl スクリプトの中に統合された外部オープン・ソース・モジュールを使用して実行した
(Pedersen T., https://metacpan.org/pod/Text::NSP::Measures::2D::Fisher::twotailed)。
【0180】
本発明者らは、配列決定に基づくアプローチによって、前記反復に近接して位置する単一ヌクレオチド反復(SNPs)を解析することを通じて、対立遺伝子の不安定性の起源を検討することも可能になる、ということを特定した‐ここで「近接(close to)」とは、典型的には、モノヌクレオチド反復の 100 塩基対内、好ましくは 70 塩基対内、より好ましくは 50 塩基対内、最も好ましくは 30 塩基対内である。これらの SNPs を含むことは、ヘテロ接合性の個体において、SNP とホモポリマーの両方にまたがるリード上で、ホモポリマー長変異体が属する対立遺伝子がどれかを特定することが可能であることを意味する。従って、特定のインデルが、ある対立遺伝子上で、他のインデルより広く拡がっているかどうかを判定することが可能であるはずである。もし、マイクロサテライト不安定性が、マイクロサテライトの複製の際のランダム・エラーによって引き起こされ、それが MMR システムが損なわれた細胞によって修正されないならば、不安定性の事象が、短いホモポリマーの両方の対立遺伝子に影響を及ぼす可能性は低い。これは、短いホモポリマーは in vivo での複製エラーに対する感受性が低く、従って両方の染色体上の同じ位置に 2 つのエラーが起こりにくいからである。従って、SNPs 及びマイクロサテライト遺伝子座/モノヌクレオチド反復遺伝子座の両方を含むシークエンシング・アンプリコンは、不安定性とエラーとを区別できる方法を提供するので(PCR エラー又はシークエンシング・エラーは、このタイプのエラーは PCR 反応中に数回起こり、両方の対立遺伝子が影響を受けやすいので、対立遺伝子特異的ではありそうもない。)、有用である。
【0181】
上記の実施例1において、配列決定された全ての A/T 反復及びほとんどの G/C 反復は、高いマイナー対立遺伝子頻度で隣接 SNPs を有していた。高いマイナー対立遺伝子頻度のこれらの隣接 SNPs を有するホモポリマーは、これらのホモポリマーについての対立遺伝子の偏りに関する研究が可能になるように選択した。以下のデータは実施例1に関する。
【0182】
図1には、MSI-H 腫瘍における対立遺伝子の偏りに関するいくつかの例がある。7bp 及び 8bp の反復については、1bp の欠失を含むリードは大抵一方の対立遺伝子上に存在する(
図1パネルA-B参照)。U029 腫瘍サンプル中の 11bp の反復である IM65 について、1bp の欠失(フィッシャーの正確性検定:p-値<10
-100)及び 3bp の欠失(フィッシャーの正確性検定:p-値 3.1×10
-72)の両方で、2 つの対立遺伝子間に不均衡がある(
図1パネルD参照)。これは、この反復が 2 つの別々の複製ミスをしたことを示唆するが、ミスマッチ修復システムが損なわれているので、この複製ミスは修正されていない。U303 腫瘍サンプルの 12bp の反復である LR36 では、SNP 部位に A がある対立遺伝子上に 2bp の欠失を含むリードが、T がある対立遺伝子よりも有意に多い(フィッシャーの正確性検定:p-値 4.22×10
-36)。
【0183】
全てのサンプル及び全てのヘテロ接合性の反復にわたる対立遺伝子の偏りを調べるために、Perl スクリプト FisherTest_AllDeletions.pl 及び FisherTest_IndividualIndels.pl を作成した。前記 Perl スクリプトは、隣接する SNP とヘテロ接合性である反復を特定し、2 つの対立遺伝子間で変異リードの割合が有意に異なるかどうかを判定するためにフィッシャーの正確性検定を実行する。各対立遺伝子について SNP と反復の両方にまたがる 100 対以上の末端リードがあり、そして 1 つの対立遺伝子に全リード数の 10 % 以上のリードがある場合、反復をヘテロ接合性として定義した。変異頻度が間違って表わされることが、PCR の複製によって引き起こされることを防ぐために、対立遺伝子あたり最低 100 対の末端リードという基準を用いた。1 つの対立遺伝子に全リード数の 10 % 未満のリードしかない場合、反復を解析しない、という基準を使用した。なぜなら、そのような極端な対立遺伝子の不均衡はサンプルが汚染していることを示しているかもしれないからである。前記スクリプト FisherTest_AllDeletions6.pl は、各対立遺伝子について、欠失を含むリードの割合と欠失を含まないリードの割合を計算し、2 つの対立遺伝子の間の欠失分布に有意差があるかどうかを調べるために、フィッシャーの正確性検定を実行する。前記スクリプト FisherTest_IndividualIndels.pl は、個々の挿入サイズと欠失サイズの各々に対応するリードの割合を計算し、次に別々のインデル・サイズの各々に対する 2 つの対立遺伝子間に有意差があるかどうかを計算する。
【0184】
図2は、反復の 2 つの対立遺伝子の全欠失頻度における有意性を計算したフィッシャーの正確性検定の結果を示す。
図2にプロットした反復は、隣接 SNP がヘテロ接合性として分類された反復のみを含む。ある場合では、反復は、複数の隣接するヘテロ接合性 SNP を有し、そしてこれらの場合には、全てのヘテロ接合性 SNP の反復の組み合わせをプロットした。SNPs が異なると SNP と反復の両方にまたがるリードの数が異なるため、この方法を選択した。それゆえ、反復及び SNP の組み合わせが異なれば、対立遺伝子の偏りについて異なるレベルの有意性になることがある。両側フィッシャーの正確性検定の結果は、MSS サンプルと比較して MSI-H サンプルの方に対立遺伝子の偏りがより多いことを示す(
図2参照)。0.01 の p-値をボンフェローニ補正(Bonferroni correct)するために、この p-値をヘテロ接合性 SNP の反復の組合せ数で割った(0.01/519 = 1.9×10
-5)。統計的に有意な p-値を有する反復の数を含む表を表9に記載する。対照サンプルにおける 12 種類と比較して、MSI-H サンプルにおいて統計的に有意な p-値を有する反復が 52 種類あった。対照サンプル中には、p-値が 10
-20 未満である対立遺伝子の偏りを有する 3 種類のモノヌクレオチド反復がある(
図2参照)。これらは、反復 LR16 について対立遺伝子間に大きな偏りがある両方の U096 サンプルを含む。前述のように、LR16 反復は患者 U096 においてほぼ確実に多型であり、これによって、この反復の 2 つの対立遺伝子間に見られる欠失頻度の偏りのレベルが説明されるであろう。10
-20 未満の p-値を有する第 3 の反復は、MSS 腫瘍 169736 における LR23 である。これもまた多型である可能性がある。
【0185】
【表12】
表9:各腫瘍サンプルについて、0.01 の p-値をボンフェローニ補正をした p-値(0.01/519 = 1.9×10-5)を有する反復の数。
【0186】
スクリプト FisherTest_IndividualIndels.pl を使用して、隣接するヘテロ接合性 SNP がある反復も解析して、個々のインデル・サイズについて 2 つの対立遺伝子間の偏りの有意性を判定した。これは、個々のインデル・サイズの各々の頻度を調べた両側フィッシャーの正確性検定を使用して行った。各対立遺伝子について、前記リードを、検討中のインデル・サイズを含む、又は検討中のインデル・サイズを含まない、として分類した。各反復について、最も低い p-値を有するインデルを記録した(表10)。反復に隣接するヘテロ接合性 SNPs が複数存在する場合、最も低い p-値が得られた SNP を使用した。
【0187】
MSI-H サンプルは、2 つの対立遺伝子間で有意に偏っているインデル事象を伴う、最大数のヘテロ接合性の反復を有する。p-値 < 10
-10 の有意水準まで、MSI-H サンプル中にはより多数の反復がある(表10参照)。しかしながら、配列決定された反復の数はサンプル間で異なり、そしてヘテロ接合性の反復の数もサンプル間で異なる。MSI-H サンプルについて、個々のインデル・サイズについて対立遺伝子の不均衡を含むヘテロ接合性の反復の割合は、対照サンプルにおいて見られるよりも概して高い。U179_H03 腫瘍サンプルには、46 % のヘテロ接合性の反復について、p-値 < 10
-10 という有意レベルでの対立遺伝子の不均衡があり、U029 腫瘍は 45 % のヘテロ接合性の反復について、U303 腫瘍は 21 % のヘテロ接合性の反復について、U179_H12 腫瘍は 10 % のヘテロ接合性の反復について、及び U312 腫瘍は 11 % のヘテロ接合性の反復について、p-値 < 10
-10 という有意レベルでの対立遺伝子の不均衡がある。そして。個々のインデル・サイズに対して対立遺伝子の不均衡を含むヘテロ接合性の反復の割合は、U096 対照においても高い。ブロック R06038/03-1C に由来する U096 サンプルでは、10 % のヘテロ接合性の反復に対して、p-値 < 10
-10 という有意レベルでの対立遺伝子の不均衡があり、他の U096 サンプル(CAPP2 ワックス・ブロック・ラベル:U096 正常 23.12.02)では、17 % の反復に対立遺伝子の不均衡がある。
【0188】
ブロック R06038/03-1C に由来する U096 患者サンプルには、p-値 < 10
-10の有意レベルでの 1bp 欠失への対立遺伝子の偏りがある反復が 3 種類あった。これら 3 種類の反復は、LR16(p-値 < 10
-100)、LR27(p-値 2.9×10
-17)、及び LR51(p-値 2.1×10
-18)であった。LR16 は患者 U096 において多型であると疑われる。前記 U096 サンプル(U096 正常 23.12.02)は、多型であると考えられる反復 LR16 における 1bp 欠失への対立遺伝子の偏りを示す。
【0189】
【表13】
表10:両側フィッシャーの正確性検定の p-値を使用して測定した、個々のインデル・サイズへの対立遺伝子の偏りのある反復の数。
【0190】
<実施例3>:
本発明者らは、このパネルを用いて MMR が十分に機能している腫瘍と欠損している腫瘍とを識別する精度及び感度を最適化するために、実施例2の 17 種類のマーカー・パネルを用いて生成されたデータを解析する異なる方法を調べた。突然変異反復の対立遺伝子分布を組み込んだ最適化されたスコアリング手順、及び合計 209 例のサンプルとなる 2 系統の腫瘍を解析することを、この実施例に記載する。本発明者らは、構成的 DNA(constitutional DNA)が利用可能でない場合でさえ、このスコアリング手順を使用して、前記 17 種類のマーカ−・パネルによって、MMR が十分に機能している腫瘍と欠損している腫瘍とを識別できることを確認している。最初の系統では、前記方法はフラグメント解析と 100 % 一致したが、一方で、2 番目の系統では 4 例の一致しないサンプルが観察された(97 % の一致に相当する)。これらのうち 2 例はフラグメント解析と免疫組織化学との間で食い違いを示し、そして 1 例をフラグメント解析を用いた再試験をした後に再分類した。これらの結果は、このアプローチが MSI のための信頼性のある、拡張可能なルーチンな試験の選択肢を提供することを示している。
【0191】
候補 NMRs の実験的評価と 17 種類のマーカー・パネルについての概要説明:
実施例1及び2に記載したように、有益でない可能性がある反復を排除するために、アンプリコンを 120 種類の MNRs 全てについて設計し、まず最初にリンチ症候群患者に由来する 6 例の腫瘍、並びに 5 例の正常粘膜サンプル及び孤発性マイクロサテライト安定腫瘍に由来する 6 例のサンプルからなる 11 例の対照サンプル、からなる FFPE 材料で試験をした(実施例1参照)。アンプリコンをプールし、インデックスを付け、そして 1 つの標的あたりの深さが 10,000 リード(a target depth of 10,000 reads)になるまで配列決定をした。少なくとも 100 対の末端リードにより表されるアンプリコンについての結果のみを解析し、代表的な結果を
図3に示す。
【0192】
図3Aは、MMR が十分に機能しているサンプル(MSS)及び MMR を欠損しているサンプル(MSI)サンプルにおける、2 種類の MNRs についてのリードの相対頻度を示す。わずかな割合の挿入リード(横座標で +1 値)が MSI 及び MSS サンプルの両方で観察されるが、欠失の頻度(-1、-2 及び -3 値)はその 2 サンプルの間で異なる。しかしながら、グラフに示したより長い方の反復については、MSS サンプル中に 2 塩基対以上の欠失を示すリードが観察されることもあるが、一方で、MSI サンプル中では、2 塩基対の欠失に対応するもう一つ別の第 2 ピークが観察される。全ての解析において、あらゆる欠失を示すリードの頻度を合計して使用した。
【0193】
観察された対立遺伝子の変異のレベルを説明するために、単一のマーカー(LR46)での結果を
図3Bに示す。各対立遺伝子についてのリードの分布を、隣接 SNP がヘテロ接合性である MSI サンプル及び MSS サンプルについて別々にプロットする。MSS サンプルでは、G 対立遺伝子及び A 対立遺伝子の両方の分布は類似しているが、1 塩基対の欠失を表すリードが MSI サンプルの G 対立遺伝子中に主要なものとして見られる。
【0194】
この初期評価から、1 例以上の MSI サンプルで > 5 % の欠失頻度を示した場合にのみ MNRs を更に解析したところ、これらの頻度は全ての正常粘膜サンプルで観察された頻度より > 1.5 倍高くもあった。49 種類の MNRs がこれらの基準を満たした。SNPs に隣接する 2 種類の前に記載した MNRs(1 種類は DEPDC2(Alhopuro ら、2008)及びもう 1 種類は遺伝子間にある反復 AL954650(Sammalkorpi ら、2007))もこの段階での解析に加えた。これらの 51 種類の MNRs をそれぞれ最少 28 例の MSI 腫瘍及び 30 例の MSS 腫瘍でタイプ分けし、ROC 曲線を作成して、MSI サンプルと MSS サンプルとを識別する各 MNRs の識別力を評価した。これは、分類基準として MNR 欠失を表すリードの頻度を用いて曲線下面積(area under the curve (AUC))を見積もり(方法参照)、並びに各閾値より上の頻度のサンプルを MSI、及び各閾値より下の頻度のサンプルを MSS として分類することによって行った。
【0195】
この解析の代表例を、2 種類のポリ-A MNRs;
図3で使用した LR46(8bp)及び LR44(12bp)、についての ROC 曲線である
図4Bに示す。LR46 の AUC は 0.83(95 % 信頼区間 0.71-0.84)及び LR44 の AUC は 0.99(0.98-0.99)であった。
【0196】
AUC を基準として使用して、15 種類のポリ-A MNR 反復を選択し、そして AUC が最大である 2 種類のポリ-C MNR と一緒にして最終パネルを形成した。方法の節に記載しているように、このパネルに関するプライマーを、より短いアンプリコンを生成するように再設計した(プライマー配列は表8a及び8bに記載)。
【0197】
<選択した短い MNRs のパネルを用いる腫瘍の分類>
MSI 試験のための解析パラメータの確立:分類手順に必要なパラメータを確立するために、前記最終パネルに含まれる 17 種類の MNRs を 139 例のサンプルのセット(このうち 67 例はフラグメント解析により MSI として分類されている(材料の節を参照))でタイプ分けした。これらのサンプルで観察された欠失頻度及び対立遺伝子の偏りを使用して、各マーカーについての閾値を規定し、そして MSI サンプル及び MSS サンプルについて、方法の節に記載された確率を推定した。この工程を説明するために、12bp ポリ-A MNR である LR44 の結果を
図5に示す。
図5Aは、LR44 中に欠失を示すリードの相対頻度の分布を示す。予想通り、欠失頻度は MSI 腫瘍でより高い。横線は 0.24 の閾値を表す(閾値の選択については方法を参照)。欠失頻度が前記閾値より高かったのは、このマーカーについてデータが入手可能であった66 例の MSI サンプルのうちでは 58 例であったが、72 例の MSS サンプルのうちでは 4 例のみであった。
【0198】
図5Aに示した 139 例のサンプルのうち、60 例のサンプル(26 例の MSI 及び 34 例の MSS)が反復に隣接する SNP についてヘテロ接合性であり、これらのサンプルについての対立遺伝子の偏りの分布を
図5Bに示す。フィッシャーの正確性検定を用いて、欠失リードが両方の対立遺伝子間で均等に分布しているかどうかを評価した。前記図は、得られた p-値を -log
10(p) スケールで表す。左側パネルは、
図5Aの閾値を上回るヘテロ接合性サンプルを示し、右側パネルは、それを下回るものを示す。全体として、21 例の MSI サンプル及び 4 例の MSS サンプルで、値は前記閾値を超えた(すなわち、5 % レベルで有意な偏りがあった;閾値の選択については方法を参照)。これは、対立遺伝子の偏りが MSI サンプルの間でより一般的であろうという我々の予想に一致する。
【0199】
図5Aの頻度閾値を超える 4 例の MSS サンプルのうち 2 例のみがヘテロ接合性であり、どちらも有意な偏りを示さなかったことは注目に値する。対照的に、ヘテロ接合性であった 32 例の MSI サンプルのうち 27 例は、閾値を超える偏りを示した(
図5B)。この差は有意である(p = 0.03 両側検定)が、その一方、頻度閾値に達しないサンプルについての対応する試験(パネルB)では、MSS サンプルと MSI サンプルとの間のいかなる相違も示唆されない(p = 0.39)。これは、対立遺伝子の偏りが MSI と MSS のサンプルを識別するのに役立つことがあるという我々の仮定と一致する。
【0200】
対立遺伝子の偏り及び欠失頻度に対して、17 種類の MNRs の各々について、閾値とそれぞれの閾値を超えるサンプルの相対数を決定した。
【0201】
検証セットの解析:最初のセットのサンプルで決定したパラメータを使用して、70 例の CRC サンプル(このうち 36 例は事前に MSI として分類され、34 例は MSS として分類された)からなる独立したデータセットで手順を試験した。
【0202】
図6は、MNR 長の変異(パネルA)及び MNR の対立遺伝子の偏り(パネルB)が、腫瘍を分類することに寄与したことを示す。これは、両方とも群を分離するのに寄与していることを示している;但し、MNR 長の変化が主に貢献する。最終的に組み合わせた分類(パネルC)はフラグメント解析と一致しており、フラグメント解析が対照技術として使用される場合、感度及び特異性は 100 % になる(それぞれ 95 % 信頼区間 87 % -100 % 及び 90 % -100 %)を達成する。
【0203】
最後に、2 番目のデータセットのデータを使用して前記パラメータを推定し、最初のデータセットのサンプルを分類した。結果を
図7に表す。
【0204】
4 例のサンプルの結果はフラグメント解析と比較して一致しなかった(サンプル 63、72、91 及び 135)。サンプル 63 の免疫組織化学を調べたところ、報告されている MSS の状態と一致していた。しかしながら、サンプル 72 の DNA をフラグメント解析により再解析するとマイクロサテライト不安定性が検出され、更に、サンプル 91 及び 135 の免疫組織化学解析では MSH2、MLH1、MSH6 及び PMS2 の発現における変化は見られなかった。これは、免疫組織化学及びフラグメント解析がこれら 3 例のサンプルについては相反する可能性を提起する。全体として、MSH2、MLH1、MSH6 及び PMS2 についての染色によって評価した場合、フラグメント解析と免疫組織化学との間では 92 % が一致した。この解析では、フラグメント解析の結果を対照とした場合、我々の結果とフラグメント解析との間の一致率は 97 %、感度と特異度の推定値は両方とも 97 % である(95 % 信頼区間:それぞれ89 % -99 % と 90 % -99 %)。興味深いことに、パラメータを推定すること、及び分類を試験することの両方に使用した最初のデータセットを使用して再分類をしてみると、同じ 4 例のサンプルが誤って分類される結果となった。両方のセットの結果を組み合わせると、98 % の感度(95 % 信頼区間:92 % -99 %)及び 98 % の特異性(93 % -99 %)となった。
【0205】
ここに提示された方法によって、対照として対になった生殖細胞系列の DNA を必要とすることなく、限られた数の遺伝子座を用いて MSI 腫瘍と MSS 腫瘍との間の配列決定に基づく識別が可能になる。最も有望なマーカーを特定するためのゲノム配列データの解析、及び 2 ラウンドのアンプリコン評価等を含む、多工程のプロセスを用いて MNRs のパネルを選択した。これは MNRs の最適なセットが特定されたことを保証するものではないが、前記パネルの性能はフラグメント解析の性能に匹敵する。
【0206】
PCR アーティファクトの確率を減らし、そして正常の材料が利用できない場合に交絡因子となりうる MNR 長に影響を及ぼす生殖細胞系列の変異に遭遇する可能性を減らすために、本発明者らは、その試験のために比較的短い MNR を選択した。しかし、体細胞の不安定性はより低くもあり、本物の突然変異は 1 つの対立遺伝子のみに影響を与える傾向があるだろうということを意味している。従って、PCR エラーを考慮しても、突然変異のリードは 1 つの対立遺伝子に集中するはずである。本発明者らは、このことを隣接するヘテロ接合性 SNPs を使用して評価することができ、そして分類を改善するために使用することができることを示した。クローン性の進展(clonal evolution)の過程で、2 つの突然変異が起きる間には時間間隔があるだろうし、そしてこの時間間隔は、より短いマイクロサテライトについてはより大きくなると予想されるので、両方の対立遺伝子に突然変異が起こった状況だとしても、各対立遺伝子が影響を受けるサンプル中の細胞の割合は異なるであろう、ということは注目に値する。
【0207】
本発明者らの知る限りでは、これは対立遺伝子の情報を使用する MSI を評価するための最初の方法である。それは、突然変異リードの分布での偏りを評価するために対立遺伝子データを使用するだけであるが、体細胞性の変異と生殖細胞系列の変異との間を区別することにも、特に正常な材料を利用できないが、前記腫瘍に正常組織が混入していることが予想される状況において、役に立つ。生殖細胞系列の変異を示す MNRs を前記解析から除外することはできるが、各対立遺伝子を別々に扱うことも可能であろう。しかしながら、対立遺伝子解析は、特定のサンプル中で隣接 SNPs についてヘテロ接合性の MNRs についてのみ可能である。原則として、スコア計算をそのような MNRs に制限することが実行可能であろう。しかしながら、そのような手順は、使用される多くのアンプリコンからの情報を無視し、そしてより大きなマーカのパネルを必要とし、アッセイ・コストを増大させるであろう。
【0208】
本発明者らは、データを二分することを望んでいたので、変異した MNRs を表すリードの頻度に対して閾値を使用した。他の方法も可能であろう;しかしながら、大多数の MSS サンプルにおいて観察される頻度を超える閾値を使用することは、PCR のアーティファクトによる変異が排除されるようにそれらの閾値を設定することを目的とする他の著者が進めるアプローチと一致する(例えば Salipante ら、2014)。本明細書で提示した形式論は、閾値を定義せずに使用されることがあるかもしれないが、全体の欠失頻度分布を指定することを必要とするであろう。同様に、本発明者らは、対立遺伝子の偏りを二分するために、閾値(フィッシャーの正確性検定において 0.05 の p-値)を使用した。閾値を正確に選択することは任意であるが、偏りの統計的な有意性を使用することは自然に思える。
【0209】
本発明者らの試験は MSI を検出することを目的としているので、対照技術としてフラグメント解析を使用することは妥当であると思われる。しかし、通常、MSI を検出することは MMR が十分に機能していることを評価するための手段である。本発明者らの新しい方法によって得られた結果とフラグメント解析からの結果との間に矛盾があった 4 つのケースのうちの 3 つにおいて、フラグメント解析の結果と免疫組織化学の結果との間にも矛盾があったことは、注目に値する。
【0210】
欠失頻度と対立遺伝子の偏りのMNR に基づく分類
この実施例では、その目的は、サンプルを 2 つのクラス:即ち MSI 及び MSS(後者は低レベルの不安定性(MSI-L)を示すものとしてフラグメント解析によって分類されるサンプルを含む)、に分離する分類手順を開発することである。その分類子(classifier)を、MNR 長の変化、及び両方の対立遺伝子にわたる変異リードの分布の両方に関する情報を含むように設計した。対立遺伝子間の識別は隣接する SNP についてヘテロ接合性のサンプルについてのみ可能であるので、両方の対立遺伝子にまたがる変異リードの偏った分布について全てのサンプルを評価できるわけではない。しかしながら、データの欠如はどちらの分類にも有利であるはずがない。
【0211】
分類手順には単純ベイズ・アプローチを使用した(Gelman、2014)。基本的な考えは、使用した各 MNR マーカーを観察して、2 つのクラス、即ち MSI(H) 又は MSS、のうちの 1 つに属する確率を比較することである。以下の式において、MSI(H) を更に MSI と短縮する。
【0212】
あるセットの MNRs を考慮し、そして、特定のサンプルについて、観察されたリード頻度を、それらの各々についての欠失を示しながら、O で表わし、前記サンプルがマイクロサテライト不安定である確率を p(MSI|O)、及び前記サンプルがマイクロサテライト安定である確率を p(MSS|O)、とした場合、割合、
【数1】
を判別基準として使用できる。ここで、p(MSI) 及び p(MSS) は、サンプルが MMR を欠損している又は十分に機能しているということの事前確率(
a priori probability)を示す。
【0213】
観測値は、異なる MNRs でのリード数データから構成される;即ち、O=(O
1,…,O
N,) であり、ここで N はアッセイで評価した MNRs の数を示す。
【0214】
所与のミスマッチ修復状態について、異なるマーカーでの突然変異は互いに独立して生じると仮定すると、
【数2】
となる。
【0215】
各個体のマイクロサテライト i について、観測値 O
i は、2 つの値 D
i 及び B
i によって記述され、即ち、O
i= (D
i, B
i) 及び p(O
i) = p(D
i)p(B
i| D
i) であり、ここで、欠失を表わすリードの数が事前に指定した閾値を超える場合は Di = 1 であり、そうでない場合は 0 であり、有意な偏りが見られた場合は Bi = 1 であり、そうでない場合は 0 である。従って、
【数3】
である。
【0216】
偏りが計算できない場合、例えばヘテロ接合性の隣接する多型部位がない場合、我々は、(O
i | MSI) = p(D
i | MSI)、p(O
i| MSS) = p(D
i| MSS)、と設定し、前記係数
【数4】
は省略することがある。
【0217】
各マイクロサテライトの閾値を、全 MSS サンプルの 95 % が閾値より低い頻度を有するように選択した。p(D
i | MSS) と p(D
i | MSI) を推定するために、頻度が閾値を超える MSS サンプル及び MSI サンプルの正確な数を使用した。
【0218】
p(B
i | D
i, MSI) と p(B
i | D
i, MSS) を推定するために、隣接 SNP マーカーでヘテロ接合性であり、そして欠失を伴うリードの頻度が MNR 特異的な閾値を超えたサンプルを使用した。隣接 SNP における欠失の存在と遺伝子型との間の関連性が、フィッシャーの正確性検定を用いて 0.05 のレベルで有意である場合、偏りが存在すると考えた。反復に隣接する複数のヘテロ接合性 SNPs が存在する場合、最小の p-値を有する SNP を使用した。欠失頻度が前記閾値を下回ったとき、p(B
i | D
i, MSI) と p(B
i | D
i, MSS) を 1 に設定した。これは、そのような場合に MNR 突然変異の証拠が不十分であり、従って、偏りは意味が無い、と仮定することと等価である。
【0219】
その結果はスコア
【数5】
として示される。
【0220】
ここで、あるセットのサンプルを使用して、各 MNR について、分類に使用される以下のパラメータを決定した:a)欠失を示すリード頻度の閾値(閾値の選択については、前出の段落を、及び説明については上記考察を参照);b)この閾値を超える欠失頻度を有する MSI サンプルの割合;c)前記閾値を超える欠失頻度を有する MSS サンプルの割合、d)欠失及び有意な対立遺伝子不均衡を示す MSI サンプルの割合、及びe)欠失及び有意な対立遺伝子不均衡を示す MSS サンプルの割合。MSS 腫瘍及び MSI 腫瘍の頻度はそれぞれ 0.85 及び 0.15 であると仮定した(Boland 及び Goel、2010)、(即ち、p(MSS) = 0.85 及び p(MSI) = 0.15 である)。
【0221】
次に、これらのパラメータを使用して、もう一つ別の第 2 の独立したセットのサンプル中の各腫瘍についてのスコアを計算した。0 未満のスコアを有するサンプルを MSS として分類し、0 より大きいスコアを有するサンプルを MSI として分類した。
【0222】
<実施例4>:
増幅反応を多重化できるかどうかを立証するために、分子反転プローブ(MIP)を 15 種類のマーカー用に設計し(表11参照)、96 例のサンプルを解析するために使用した。ライゲーション(ligation)及び増幅(Hiatt ら、2013 によって公表されたプロトコルに従って)の後、その生成物を配列決定した。
【0223】
この表は、94 例の個別サンプルにわたる各マーカーにマッピングされるリードの数を要約する。
【0224】
【表14】
表11:15 種類のマーカー用に設計された分子反転プローブ(MIP)
【0225】
これらの結果は、増幅反応を多重化することができること、即ち、患者あたり単一の反応を行えば十分であること、を示す。
【0226】
<一般的な材料と方法>:
サンプル:
別段の記載をしない限り、腫瘍及び組織サンプルは、病理学部門及び北部遺伝学サービス、ニューカッスル病院 NHS財団信託(the Pathology department and Northern Genetics Service, Newcastle Hospitals NHS Foundation Trust)から、倫理審査(REC 参照 13/LO/1514)の後に入手した。CAPP2 研究に登録された患者からのリンチ症候群腫瘍組織及び対応する正常組織は、倫理審査(REC 参照 MREC/98/3/24)の後に入手した。全ての腫瘍についての MSI 状態は、MSI 解析システム、バージョン 1.2(プロメガ、サウサンプトン、英国)(the MSI Analysis System, Version 1.2 (Promega, Southampton, UK))を用いて、事前に判明していた。全てのサンプルは、FFPE 組織として、又は FFPE 組織から抽出された DNA として入手した。
【0227】
132 例の腫瘍及び組織サンプルを入手したが、どちらも、ホルマリン固定パラフィン包埋(formalin fixed paraffin embedded (FFPE))組織として、又は FFPE 組織から抽出された DNA として、北部遺伝学サービス、ニューカッスル病院 NHS財団信託(the Northern Genetics Service, Newcastle Hospitals NHS Foundation)から、倫理審査(REC 参照 13/LO/1514)後、に入手した。全ての腫瘍についての MSI 状態は、MSI 解析システム、バージョン 1.2(プロメガ、サウサンプトン、英国)(the MSI Analysis System, Version 1.2 (Promega, Southampton, UK))を用いて、事前に判明していた。
【0228】
もう一つ別の第 2 セットの 141 例のサンプルは、ナバーラ総合病院の遺伝学サービス(the Genetics Service of the Complejo Hospitalario de Navarra)、並びにがん遺伝学及び遺伝性がんグループ(the Oncogenetics and Hereditary Cancer Group)、IDISNA(ナバーラ生物医学研究所、スペイン(Biomedical Research Institute of Navarra, Spain))から、抽出された DNA として入手した。これらのサンプルを分類パラメータを特定するために使用した。それらについては事前に MSI 解析システム、バージョン 1.2(プロメガ、サウサンプトン、英国)を用いて MSI 試験をした。免疫組織化学的発現解析は、抗体(BD バイオメディカルテック、ニュージャージー、米国(BD biomedical Tech, New Jersey, USA))を、MLH1 については 1:10 で;MSH6 については 1:120 で;PMS2 については 1:100 で、用いて、及び抗体(オンコジーン社、ミドルセックス、英国(Oncogene Ltd Middlesex, UK))を、MSH2 については 1:100 で、用いて、対応する医学研究及び倫理委員会(CEIC ナバーラ政府)(the correspondent Medical Research and Ethics Committee (CEIC Navarra Government))によって倫理的に承認されたように、実施した。そして 124 例のサンプルについてデータが利用可能であった。
【0229】
第 3 のセットの 70 例の匿名の大腸腫瘍 DNA サンプルは、エジンバラ大学の分子病理学部門(the Department of Molecular Pathology, University of Edinburgh)から入手した。ミスマッチ修復の状態は、プロメガ社のシステムを用いて臨床サービス用途のために試験をした。
【0230】
MNRs の in silico 選択:MSI 大腸がん、対応する正常、及び MSS 安定がんからなる全ゲノム配列は、がんゲノム・アトラス・プロジェクト(The Cancer Genome Atlas(TCGA)project(Cancer Genome Atlas Network、2012))から入手した(http://cancergenome.nih.gov/ ; access identifier: phs000178.v8.p7 DAR: 17798, request date 2012-11-13; Study accession phs000544.v1.p6; parent study: phs000178.v7.p6 ; 35 samples)。BAM ファイルは、bam2fastq(バージョン 1.1.0)(bam2fastq ソフトウェア[http://gsl.hudsonalpha.org/information/software/bam2fastq])を使用して fastq ファイルに変換した。BWA(バージョン 0.6.2)(Li 及び Durbin、2009)を使用して配列アラインメント(sequence alignment)を行い、samtools(バージョン 0.1.18)を使用して BAM ファイルのインデックス付け及びソートを行い(Li ら、2009)、PICARD(バージョン 1.75、[http://picard.sourceforge.net])を使用して重複を除去した。GATK(バージョン 2.2.9)(DePristo ら、2011)を使用して、全てのサンプルの結合 BAM ファイルを作成し、インデルを中心に再アライメントした。前記 GATK(バージョン 2.2.9)UnifiedGenotyper を使用して、モノヌクレオチド反復中でインデルを特定するために、TandemRepeatAnnotator を使用して注釈を付けた生の変異コール・ファイルを作成した。長さ 7bp -12bp のモノヌクレオチド反復を選択し、そして一般的な配列変異体(dbSNP バージョン 173、hg19)(Sherry ら、2001)を含む反復を除去した。反復の 30bp 以内にある、dbSNP にリストされた SNPs に、Perl スクリプトを使用して注釈を付けた。配列データの低域通過性のために、MSI 腫瘍からの全てのリードを 1 つの群にまとめ、一方、MSS 及び MSI-L 腫瘍からのリード及び正常サンプルからのリードを対照として 2 番目の群にまとめた。
【0231】
MNR 増幅:プライマーは、Primer 3(Rozen ら、2000)を用いて、又は Primer 3 が適切なオリゴヌクレオチドを返さない場合にはマニュアルで設計した。マニュアルで設計したプライマーの Tm は 57 ℃-60 ℃であった。一般的な SNPs を SNP Check
(https://ngrl.manchester.ac.uk/SNPCheckV2/snpcheck.htm)を使用して、オフ・ターゲット結合を BLAST (http://blast.ncbi.nlm.nih.gov/)又は BLAT(Kent、2002)を使用して、適切な融解温度及び二次構造が無いことを OligoCalc(http://www.basic.northwestern.edu/biotools/oligocalc.html)又は Primer3 を使用して、全てのプライマーをチェックした。そのプライマーは、Metabion(メタビオン社、シュタインキルヘン、ドイツ(Metabion International AG、Steinkirchen、Germany))又は Biobasic(バイオ・ベーシック社、マークハム、カナダ(Bio Basic Inc.、Markham、Canada))のいずれかによって製造した。全ての MNRs 用のプライマーは、最初は〜300-350 bp のアンプリコンを作成するように設計した。最後の MNR パネルでは、5' アダプターを持つ 100-150 bp のアンプリコンを生成するように第 2 セットのプライマーを設計した(プライマー配列を表8a及び8bに示す)。高い正確性を持つ Pfu に基づく Herculase II Fusion DNA ポリメラーゼ(アジレント、サンタ・クララ、カリフォルニア州、米国(Agilent, Santa Clara, CA, USA))及び 35 回の PCR サイクルを用いてアンプリコンを生成した。
【0232】
配列決定(シークエンシング):Qiagen QIAxcel(キアゲン、マンチェスター、英国(Qiagen, Manchester UK.)を用いてアンプリコンを定量し、次いでほぼ等モル濃度でプールした。ライブラリー調製の前に、Agencourt AMPure XP ビーズ(ベックマン-コールター・ライフ・サイエンス社、インディアナポリス、米国(Beckman-Coulter Life Sciences, Indianapolis, USA))を PCR クリーン・アップに使用した。300-350 bp のアンプリコンについては、各サンプルについて増幅産物をプールした後、Nextera XT DNA Library Prep キット(イルムナ社、サン・ディエゴ、カリフォルニア州、米国(Illumina, San Diego, CA, United States of America))を使用してバーコード化及びライブラリー調製を行った。一方、100-150 bp のアンプリコンについては、16S メタゲノム・サンプル調製プロトコルに従った(http://support.illumina.com/documents/documentation/chemistry_documentation/16s/16s-metagenomic-library-prep-guide-15044223-b.pdf)。イルミナ MiSeq プラットフォーム上で、1 アンプリコンあたり少なくとも 10,000 リードの標的の深さ(target depth)になるまでシークエンシングを行った。
【0233】
変異及び MNR のコーリング:配列は、BWA(バージョン 0.6.2)及び対照として hg19 アセンブリを使用してアライメントを行った。Samtools を前記 BAM ファイルのソートとインデックス付けに使用し、GATK(3.1.1)を使用して再アライメントを行った。アラインメント・ファイルを SAM フォーマットに変換し、そして R スクリプトを用いて処理した。対の両方のリードで観察された、即ち、両方の方向で一致した、特徴のみをその後の計算で使用し、MNR が少なくとも 20 個のリード対でカバーされているアンプリコンのみを解析した。最も一般的でない対立遺伝子、即ち最小数のリードによって支持されている対立遺伝子、が SNP の位置をカバーする全てのリード対の少なくとも 20 % に存在する場合、隣接する SNPs をヘテロ接合性であると見なした。
【0234】
MNR 特異的な ROC 曲線の構築:各マーカーについて、MSI サンプル及び MSS サンプル中の MNR 欠失対立遺伝子を表すリードの割合を別々に解析した。MSI 分類に対する閾値アプローチを使用した:即ち、閾値を超える変異リードの割合を有するサンプルは MSI として分類し、閾値未満のサンプルは MSS として分類する。これにより、真陽性(すなわち、閾値を超える値を有する既知の MSI サンプル)と偽陽性(すなわち、閾値を超える値を有する既知の MSS サンプル)との相対頻度を決定することが可能となった。各 MNR について、これら 2 つの値を、0 と 1 の間にある閾値のお互いに対してプロットした。得られた曲線は受信者操作特性(ROC)曲線を表し、その曲線下面積(AUC)は MSI サンプルと MSS のサンプルとを識別する MNR の識別力の定量的尺度として用いた。
【0235】
本明細書、特に添付の特許請求の範囲で使用される用語は、一般に、「オープン(open)」用語(例えば、「含む(including)」という用語は「含むがこれに限定されない(including but not limited to)」と解釈されるべきであり、用語「有する(having)」は「少なくとも有する(having at least)」と解釈されるべきであり、用語「含む(includes)」は「含むがこれに限定されない(includes but is not limited to)」等と解釈されるべきである、等)として意図されている、と当業者には理解されるであろう。特定の数を導入した請求項の記載が意図されている場合、そのような意図は特許請求の範囲において明示的に記載されるであろうが、そのような記載が無い場合には、そのような意図は存在しないことが当業者によって更に理解される。理解を助けるためとして、例えば、以下の添付の特許請求の範囲は、請求項の記載に導入するために、導入句「少なくとも 1 つ(at least one)」及び「1 つ以上(one or more)」の使用を含むことがある。しかしながら、そのような導入句を使用することは、たとえ同じ請求項に導入句「1 つ以上(one or more)」又は「少なくとも 1 つ(at least one)」及び「a」又は「an」等の不定冠詞が含まれる場合であったとしても、不定冠詞「a」又は「an」を使用して請求項の記載に導入することによって、その様に導入された請求項の記載を含む如何なる特定の請求項が、あるその様な記載のみを含む実施形態に限定される、ことを意味すると、解釈されるべきではない(例えば、「a」及び/又は「an」は「少なくとも 1 つ(at least one)」及び「1 つ以上(one or more)」を意味すると解釈されるべきである);同じことが、請求項の記載に導入するために使用される定冠詞の使用にも当てはまる。加えて、たとえある導入した請求項の記載の特定の数が明示的に記載されているとしても、そのような記載は少なくとも記載された数を意味すると解釈されるべきであることを、当業者は認識するであろう(例えば、他の修飾語句が無く、「2 つの記載(two recitations)」は、少なくとも 2 つの記載又は 2 つ以上の記載、を意味する)。
【0236】
本発明の様々な実施形態が例示の目的で本明細書に記載されていること、及び本発明の範囲及び精神から逸脱することなく様々な修正がなされ得ることが理解されるであろう。従って、本明細書に開示されている様々な実施形態は限定することを意図するものではなく、真の範囲及び精神は添付の特許請求の範囲によって示される。
【0237】
<参考文献>
(1)Burn, J., Gerdes, A. M., Macrae, F., Mecklin, J. P., Moeslein, G., Olschwang, S., Eccles, D., Evans, D. G., Maher, E. R., Bertario, L., Bisgaard, M. L., Dunlop, M. G., Ho, J. W., Hodgson, S. V., Lindblom, A., Lubinski, J., Morrison, P. J., Murday, V., Ramesar, R., Side, L., Scott, R. J., Thomas, H. J., Vasen, H. F., Barker, G., Crawford, G., Elliott, F., Movahedi, M., Pylvanainen, K., Wijnen, J. T., Fodde, R., Lynch, H. T., Mathers, J. C. and Bishop, D. T. 2011. Long-term effect of aspirin on cancer risk in carriers of hereditary colorectal cancer: an analysis from the CAPP2 randomised controlled trial. Lancet, 378, 2081-7.
(2)Cancer Genome Atlas Network. (2012). Comprehensive molecular characterization of human colon and rectal cancer. Nature 487, 330-337.
(3)Li, H. 2014. Toward better understanding of artifacts in variant calling from highcoverage samples. Bioinformatics, 30, 2843-51.
(4)O'Rawe, J., Jiang, T., Sun, G., Wu, Y., Wang, W., Hu, J., Bodily, P., Tian, L., Hakonarson, H., Johnson, W. E., Wei, Z., Wang, K. and Lyon, G. J. 2013. Low concordance of multiple variant-calling pipelines: practical implications for exome and genome sequencing. Genome Med, 5, 28.
(5)Pabinger, S., Dander, A., Fischer, M., Snajder, R., Sperk, M., Efremova, M., Krabichler, B., Speicher, M. R., Zscocke, J. and Trajanoski, Z. 2014. A survey of tools for variant analysis of next-generation genome sequencing data. Brief Bioinform, 15, 256-78.
(6)Houniet, D. T., Rahman, T. J., AL Turki, S., Hurles, M. E., Xu, Y., Goodship, J., Keavney, B. and Santibanez Koref, M. 2015. Using population data for assessing next-generation sequencing performance. Bioinformatics, 31, 56-61.
(7)Minoche, A. E., Dohm, J. C. and Himmelbauer, H. 2011. Evaluation of genomic high-throughput sequencing data generated on Illumina HiSeq and genome analyzer systems. Genome Biol, 12, R112.
(8)Sambrook et al., Molecular Cloning: A Laboratory Manual, 2nd ed., Cold Spring Harbor Press, Plainsview, N.Y. (1989)
(9)Ausubel et al., Current Protocols in Molecular Biology (Supplement 47), John Wiley & Sons, New York (1999)
(10)Sainsbury, Dictionary of Microbiology and Molecular Biology, 2d Ed., John Wiley and Sons, NY (1994)
(11)Hale and Marham, The Harper Collins Dictionary of Biology, Harper Perennial, NY (1991)
(12)de la Chapelle, A., and Hampel, H. (2010). Clinical relevance of microsatellite instability in colorectal cancer. Journal of Clinical Oncology 28, 3380-3387.
(13)Laiho, P., Launonen, V., Lahermo, P., Esteller, M., Guo, M., Herman, J.G., Mecklin, J.P., Jarvinen, H., Sistonen, P., Kim, K.M., et al. (2002). Low-level microsatellite
(14)Boyle, T.A., Bridge, J.A., Sabatini, L.M., Nowak, J.A., Vasalos, P., Jennings, L.J., and Halling, K.C. (2014). Summary of microsatellite instability test results from laboratories participating in proficiency surveys: proficiency survey results from 2005 to 2012. Arch Pathol Lab Med 138, 363-370.
(15)Shinde, D., Lai, Y., Sun, F., and Arnheim, N. (2003). Taq DNA polymerase slippage mutation rates measured by PCR and quasi‐likelihood analysis:(CA/GT) n and (A/T) n microsatellites. Nucleic acids research 31, 974-980.
(16)Umar, A., Boland, C.R., Terdiman, J.P., Syngal, S., de la Chapelle, A., Ruschoff, J., Fishel, R., Lindor, N.M., Burgart, L.J., Hamelin, R., et al. (2004). Revised Bethesda Guidelines for hereditary nonpolyposis colorectal cancer (Lynch syndrome) and microsatellite instability. Journal of the National Cancer Institute 96, 261-268.
(17)Shia, J. (2008). Immunohistochemistry versus microsatellite instability testing for screening colorectal cancer patients at risk for hereditary nonpolyposis colorectal cancer syndrome. Part I. The utility of immunohistochemistry. The Journal of molecular diagnostics : JMD 10, 293-300.
(18)Zhang, L. (2008). Immunohistochemistry versus microsatellite instability testing for screening colorectal cancer patients at risk for hereditary nonpolyposis colorectal cancer syndrome. Part II. The utility of microsatellite instability testing. The Journal of molecular diagnostics : JMD 10, 301-307.
(19)Niu, B., Ye, K., Zhang, Q., Lu, C., Xie, M., McLellan, M.D., Wendl, M.C., and Ding, L. (2014). MSIsensor: microsatellite instability detection using paired tumor-normal sequence data. Bioinformatics 30, 1015-1016.
(20)Lu, Y., Soong, T.D., and Elemento, O. (2013). A novel approach for characterizing microsatellite instability in cancer cells. PLoS One 8, e63056.
(21)Salipante, S.J., Scroggins, S.M., Hampel, H.L., Turner, E.H., and Pritchard, C.C. (2014). Microsatellite instability detection by next generation sequencing. Clin Chem 60, 1192-1199.
(22)Ananda, G., Walsh, E., Jacob, K.D., Krasilnikova, M., Eckert, K.A., Chiaromonte, F., and Makova, K.D. (2013). Distinct mutational behaviors differentiate short tandem repeats from microsatellites in the human genome. Genome Biol Evol 5, 606-620.
(23)Snowsill, T., Huxley, N., Hoyle, M., Jones-Hughes, T., Coelho, H., Cooper, C., Frayling, I., and Hyde, C. (2014). A systematic review and economic evaluation of diagnostic strategies for Lynch syndrome. Health Technol Assess 18, 1-406.
(24)NICE. (2017). Molecular testing strategies for Lynch syndrome in people with colorectal cancer. [https://www.nice.org.uk/guidance/dg27] (accessed 10/04/2017)
(25)Yoon, K., Lee, S., Han, T. S., Moon, S. Y., Yun, S. M., Kong, S. H., Jho, S., Choe, J., Yu, J., Lee, H. J., Park, J. H., Kim, H. M., Lee, S. Y., Park, J., Kim, W. H., Bhak, J., Yang, H. K. and Kim, S. J. 2013. Comprehensive genome- and transcriptome-wide analyses of mutations associated with microsatellite instability in Korean gastric cancers. Genome Res, 23, 1109-17.
(26)Kent, W. J., Sugnet, C. W., Furey, T. S., Roskin, K. M., Pringle, T. H., Zahler, A. M. & Haussler, D. 2002. The human genome browser at UCSC. Genome Res, 12, 996-1006.
(27)Rozen, S. and Skaletsky, H. 2000. Primer3 on the WWW for general users and for biologist programmers. Methods Mol Biol, 132, 365-86.
(28)Alhopuro, P., Phichith, D., Tuupanen, S., Sammalkorpi, H., Nybondas, M., Saharinen, J., Robinson, J.P., Yang, Z., Chen, L.Q., Orntoft, T., et al. (2008). Unregulated smooth-muscle myosin in human intestinal neoplasia. Proceedings of the National Academy of Sciences of the United States of America 105, 5513-5518.
(29)Sammalkorpi, H., Alhopuro, P., Lehtonen, R., Tuimala, J., Mecklin, J.P., Jarvinen, H.J., Jiricny, J., Karhu, A., and Aaltonen, L.A. (2007). Background mutation frequency in microsatellite-unstable colorectal cancer. Cancer Res 67, 5691-5698.
(30)Gelman, A. (2014). Bayesian data analysis.(Boca Raton: CRC Press).
(31)Boland, C.R., and Goel, A. (2010). Microsatellite instability in colorectal cancer. Gastroenterology 138, 2073-2087 e2073.
(32)Hiatt et al. 2013 Genome Research 23(5):843-54. (http://genome.cshlp.org/content/23/5/843.long )
(33)Kent, W.J. (2002). BLAT--the BLAST-like alignment tool. Genome Res 12, 656-664.
(34)bam2fastq software [http://gsl.hudsonalpha.org/information/software/bam2fastq].
(35)Li, H., and Durbin, R. (2009). Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics 25, 1754-1760.
(36)Li, H., Handsaker, B., Wysoker, A., Fennell, T., Ruan, J., Homer, N., Marth, G., Abecasis, G., and Durbin, R. (2009). The Sequence Alignment/Map format and SAMtools. Bioinformatics 25, 2078-2079.
(37)PICARD [http://picard.sourceforge.net].
(38)DePristo, M.A., Banks, E., Poplin, R., Garimella, K.V., Maguire, J.R., Hartl, C., Philippakis, A.A., del Angel, G., Rivas, M.A., Hanna, M., et al. (2011). A framework for variation discovery and genotyping using next-generation DNA sequencing data. Nature genetics 43, 491-498.
(39)Sherry, S.T., Ward, M.H., Kholodov, M., Baker, J., Phan, L., Smigielski, E.M., and Sirotkin, K. (2001). dbSNP: the NCBI database of genetic variation. Nucleic acids research 29, 308-311.