【文献】
Berg, T., et al.,Characterization Of The Effects Of Mutated EZH2 On Expression and Epigenome In a Mouse Lymphoma Model,Blood,2013年11月15日,vol.122,346,http://b;oodjournal.org/content/122/21/346.short?sso-checked=true
【文献】
Hart, T., et al.,Finding the active genes in deep RNA-seq gene expression studies,BMC Genomics,2013年11月11日,vol.14,778
【文献】
Kwon, O., et al.,Aberrant up-regulation of LAMB3 and LAMC2 by promoter demethylation in gastric cancer,Biochem. Biophys. Res. Commun.,2011年,vol.406,p.539-545
【文献】
Gal-Yam, EN, et al.,Frequent switching of Polycomb repressive marks and DNA hypermethylation in the PC3 prostate cancer cell line,Proc. Natl. Acid. Sci. USA,2008年,vol.105, no.35,p.12979-12984
【文献】
Yun, J., et al.,Gene silencing of EREG mediated by DNA methylation and histone modification in human gastric cancers,Laboratory Investigation,2012年,vol.92,p.1033-1044
(58)【調査した分野】(Int.Cl.,DB名)
請求項1〜4の何れか1項の方法であって、前記核酸は、クロマチンの免疫沈降によって前記癌性生物サンプルから単離され、前記核酸は、前記少なくとも1つのプロモーターを含む方法。
請求項6の方法であって、前記修飾されたヒストン蛋白質が、H3K4me3、H3K4me1及びH3K27acからなる群より選択された少なくとも1つのヒストン修飾を含む方法。
請求項7の方法であって、前記抗体が、H3K4me3、H3K4me1及びH3K27acからなる群より選択された少なくとも1つのヒストン修飾に対して特異的である方法。
請求項1〜10の何れか1項の方法であって、前記マッピング工程が、前記リファレンス核酸と相対的に、前記マッピングされた核酸中の当該少なくとも1つのプロモーターについての全配列tagに基づいて前記RPKM値を計算することを含む方法。
請求項1〜10の何れか1項の方法であって、前記マッピング工程が、前記リファレンス核酸と相対的に、前記マッピングされた核酸中の当該少なくとも1つのプロモーターに関連する同定された転写配列に基づいて前記FPKM値を計算することを含む方法。
【発明の概要】
【0005】
1つの態様において、非癌性生物サンプルと相対的に、癌性生物サンプル中の少なくとも1つのプロモーターの活性を決定する方法であって;前記癌性生物サンプルから得られた少なくとも1つのプロモーター配列を含む単離された核酸を、前記非癌性生物サンプルから得られたリファレンス核酸と対照してマッピングし、前記少なくとも1つのプロモーターについて100
万キロベース当たりのリード(a read per kilo-base per million; RPKM)値又は100
万キロベース当たりのフラグメント(fragments per kilo-base per million; FPKM)値を得ること;及び前記RPKM又はFPKM値を使用して、前記リファレンス核酸配列中の当該少なくとも1つのプロモーターの活性と相対的に、前記核酸中の前記少なくとも1つのプロモーターの活性のディファレンシャル活性を決定することを含む方法が提供される。
【0006】
もう1つの態様に従うと、癌に対する対象の感受性を決定する方法であって、対象の癌性生物サンプルから得られた少なくとも1つのプロモーターを含む単離核酸を、非癌性生物サンプルから得られたリファレンス核酸と対照してマッピングし、前記少なくとも1つのプロモーターについてのRPKM又はFPKM値を得ること;及び前記RPKM又はFPKM値を使用して、前記リファレンス核酸中の前記少なくとも1つのプロモーターの活性と相対的に、前記核酸中の当該少なくとも1つのプロモーターのディファレンシャル活性を決定することを含み、ここにおいて、非癌性サンプル中のそれに対して相対的な前記癌性サンプル中の前記少なくとも1つのプロモーターの活性の増大が、癌に対する前記対象の当該感受性を示す方法が提供される。
【0007】
もう1つの態様において、対象において癌に関連する少なくとも1つプロモーターの存在を決定する方法であって、対象の癌性生物サンプルから得られた少なくとも1つプロモーターを含む単離された核酸を非癌性生物サンプルから得られたリファレンス核酸と対照してマッピングし、前記少なくとも1つのプロモーターについてのRPKM又はFPKM値を得ること;及び前記RPKM又はFPKM値を使用して前記リファレンス核酸中の前記少なくとも1つのプロモーターの活性と相対的に、前記核酸中の前記少なくとも1つプロモーターのディファレンシャル活性を決定することを含み、ここにおいて、非癌性生物サンプルのそれと相対的に前記対象から得た癌性生物サンプル中の前記少なくとも1つのプロモーターの活性の増大が、対象における癌に関連するプロモーターの存在を示す方法が提供される。
【0008】
もう1つの態様において、対象において癌を検出するためのバイオマーカーであって、正常な非癌性生物サンプルと相対的に癌性生物サンプル中で活性が増大した少なくとも1つのプロモーターを含み、そこにおいて前記プロモーターが全プロモーター集団と相対的にSUZ12結合部位の増加を備えるバイオマーカーが提供される。
【0009】
もう1つの態様において、非癌性生物サンプルと相対的に癌性生物サンプル中で癌に関連する少なくとも1つのプロモーターの存在を決定する方法であって、前記非癌性生物サンプルから得られたリファレンス核酸に対照して、前記癌性生物サンプルから得られた少なくとも1つのプロモーター配列を含む単離された核酸をマッピングすること;前記マッピングすることに基づいて前記少なくとも1つのプロモーターについてシーケンシングタグ計数のマトリックスを発生させること;前記シーケンシングタグ計数のマトリックスを解析すること;及び前記シーケンシングタグ計数のマトリックスを使用して前記リファレンス核酸中の前記少なくとも1つのプロモーターと相対的に、前記核酸中の前記少なくとも1つのプロモーターのディファレンシャルエンリッチメント(differential enrichment)を決定することを含み、ここにおいて、前記非癌性生物サンプルのそれと相対的な、前記対象から得られた当該癌性生物サンプル中の当該少なくとも1つのプロモーターの前記特異的エンリッチメントが、対象における癌に関連するプロモーターの存在を示す方法が提供される。
【0010】
もう1つの態様において、非癌性生物サンプルと相対的に癌性生物サンプル中の少なくとも1つのプロモーターの活性を決定する方法であって、前記非癌性生物サンプルから得られたリファレンス核酸に対照して前記癌性生物サンプルから得られた少なくとも1つのプロモーター配列を含む単離された核酸をマッピングすること;前記マッピングすることに基づいて前記少なくとも1つのプロモーターについてシーケンシングタグ計数のマトリックスを発生させること;前記シーケンシングタグ計数のマトリックスを解析すること;及び前記シーケンシングタグ計数のマトリックスの解析を使用して前記リファレンス核酸中の前記少なくとも1つのプロモーターと相対的に前記核酸中の当該少なくとも1つのプロモーターの当該ディファレンシャル活性を決定することを含む方法が提供される。
【0011】
定義
ここで使用されるとき、用語「抗原結合蛋白質」は、抗体、抗体フラグメント及び他のタンパク質構築物、例えば、抗原に対して結合可能なドメインなどをいう。
【0012】
用語「抗体」は、ここにおいて最も広い意味で使用され、イムノグロブリン様ドメインを含む分子について呼び、モノクローナル、リコンビナント、ポリクローナル、キメラ、ヒト化、二重特異性及びヘテロコンジュゲート抗体;単一可変ドメイン、ドメイン抗体、抗原結合フラグメント、免疫学的に有効なフラグメント、単一鎖Fv、ディアボディ(diabodies)、Tandabs(登録商標)、などを含む(代替「抗体」の構成の概要について、Holliger and Hudson, Nature Biotechnology, 2005, Vol 23, No. 9, 1126−1136を参照されたい)。
【0013】
語句「単一可変ドメイン」は、抗原結合蛋白質可変ドメイン(例えば、V
H、V
HH、V
L)をいい、これは別の可変領域又はドメインとは関係なく特異的に抗原又はエピトープと結合する。
【0014】
「ドメイン抗体」又は「dAb」は、抗原に対して結合可能な「単一可変ドメイン」と同じと見なされ得る。単一可変ドメインは、ヒト抗体可変ドメインであってよいが、また他の種、例えば、げっ歯類(例えば、WO00/29004に開示されるような)、テンジクザメ及びラクダ科のV
HH dAbsなどからの単一抗体可変ドメインを含む。ラクダ科のV
HHは、免疫グロブリン単一可変ドメインポリペプチドであり、それらは、ラクダ、ラマ、アルパカ、ヒトコブラクダ及びグアナコを含む種に由来し、天然に軽鎖を欠く重鎖抗体を生成する。そのようなV
HHは、当該技術において利用可能な標準的な技術に従ってヒト化されてもよく、そのようなドメインは「ドメイン抗体」と見なされる。ここで使用されるとき、V
HHはラクダ科のV
HHドメインを含む。
【0015】
ここで使用されるとき、用語「ドメイン」は、折り畳み蛋白質構造を呼び、それは蛋白質の残りの部分から独立している三次元構造を有する。一般に、ドメインは蛋白質の個々の機能特性に関与し、多くの場合において蛋白質及び/又はドメインの残りの部分の機能を失うことなく、付加、除去又は他の蛋白質へと移動され得る。
【0016】
「単一可変ドメイン」は、抗体可変ドメインの特徴を示す配列を含む折り畳みポリペプチドドメインである。そのためそれは、完全抗体可変ドメイン及び修飾された可変ドメイン、例えば、そこにおいて1つ以上のループが抗体可変ドメインの特徴を示さない配列で置換されているもの、又は抗体可変ドメイン、それは、短縮されているか、若しくはN又はC末端伸長を有しているもの、並びに可変ドメインの折り畳みフラグメント、それは、少なくとも結合活性と完全長とメインの特異性を維持しているものを含む。ドメインは、別の可変領域若しくはドメインとは独立に抗原又はエピトープに結合できる。
【0017】
抗原結合フラグメントは、非抗体蛋白質骨格、例えば、ドメインなどの上に1以上のCDRを配置することによって提供され得る。ドメインは、ドメイン抗体であってもよく、CTLA−4、リポカリン、SpA、アフィボディ(Affibody)、アビマー(avimer)、GroEl、トランスフェリン、GroES及びフィブロネクチン/アドネクチンからなる群より選択される骨格の誘導体であるドメインであってもよく、それは、抗原に対する結合を得るために蛋白質工学に供されたものであり得る。
【0018】
抗原結合フラグメント又は免疫学的に有効なフラグメントは、部分的な重鎖又は軽鎖可変配列を含んでもよい。フラグメントは、少なくとも5、6、8又は10アミン酸長である。或いは、フラグメントは、少なくとも15、少なくとも20、少なくとも50、少なくとも75又は少なくとも100アミン酸長である。
【0019】
抗原結合蛋白質に関して本明細書を通して使用されるとき、用語「特異的に結合」は、他の蛋白質に対する結合を伴わずに、若しくは顕著な結合を伴わずに抗原結合蛋白質が抗体に対して結合することを意味する。しかしながら当該用語は、抗原結合蛋白質が密接に関連した分子と交差反応性であり得るという事実を排除するものではない。
【0020】
ここで使用されるとき、用語「生体物質」又は「生体サンプル」は、何れかの物質又はサンプルをいい、それはここで定義されるような検体を含む。そのようなサンプルは、例えば、排泄物、全血、血清、血漿、涙液、唾液、鼻汁、痰、耳汁、生殖器液、乳汁、乳、初乳、胎盤液、羊水、汗、滑液、腹水、脳脊髄液、胆汁、胃液、房水、硝子体液、胃腸液、浸出液(exudate)、漏出液(transudate)、胸膜液、心嚢液、精液、上気道液、腹膜水、免疫反応の部位から採取された液体、プールされた収集部位から採取された液体、気管支洗浄液、尿、生検材料、例えば、全ての適切な臓器、例えば、肺、筋、脳、肝臓、皮膚、膵臓、胃及び類似物などからのもの、有核細胞サンプル、粘膜面に関連する液体、毛髪又は皮膚などに由来する、又は含むサンプルを含んでもよい。
【0021】
ここで使用されるとき、用語「RPKM」は、リード・パー・キロベース・パー・ミリオン・リード・マップ(Reads Per Kilobase per Million reads mapped)をいう。用語「FPKM」は、フラグメント・パー・キロベース・パー・ミリオン・フラグメント・マップ(fragments per kilo−base per million fragments mapped)をいう。RPKM及びFPKMは、何れかのゲノムの特徴、例えば、エクソン、転写物又はゲノム座標の存在度を定量化するためのユニットであり、それに対して整列している多数のシーケンシング・リードによって決定される。RPKM及びFPKM測定は、ゲノムユニットの相対的長さ並びにそれに対するリード・マッピングの総数によって存在量を標準化し、サンプル内又はサンプル間での存在レベルの明白な比較を容易にする。
【0022】
ここで使用されるとき、用語「シーケンシングタグ計数のマトリックス」は、マッピングされた「シーケンシングタグ」のマトリックス状の整数をいう。マトリックスは、行列を備えるテーブルの形式にあってもよく、そこにおいてマトリックスの列(ゲノム領域)及び行(組織サンプル)中の値は、幾つのリードがゲノム領域、例えば、プロモータ領域又はヒストン修飾領域、例えば、H3K4me3領域などに対してマッピングされたかを示し得る。同じように、マトリックスの列はまた、結合領域(ChIP−Seqを伴う)に対応していてもよい。前述の「シーケンシングタグ」は、ここで使用されるとき、サンプルから単離された短鎖DNAフラグメントをいい、それはアラインメントツール(ここで開示される方法で言及されるような)を使用してリファレンスゲノムに対してマッピングされる。
【0023】
ここで使用されるとき、実施例との関連において、用語「ベッドツール」は、ゲノム解析のための当該技術において周知である公開された1組のツールをいう。例えば、「ベッドツール」は、ブラウザー・エクステンシブル・データ(Browser Extensible Data (BED))及びジェネラル・フィーチャー・フォーマット(General Feature Format (GFF))形式でのゲノムの特徴の比較、操作及び注釈のために使用され得る。ベッドツールはまた、BAM形式にある配列アラインメントのBED及びGFF特徴両者に対する比較を確かにする。ベッドツールは、極めて効率的であり、使用者が大型データベース(例えば、次世代シーケンシングデータなど)をパブリック及びカスタムゲノム注釈トラックの両者と比較することを可能にする。ベッドツールは、極めて効率的であり、大きなデータベース(例えば、次世代シーケンシングデータなど)とパブリック及びカスタムゲノム注釈トラックの両者と比較することを使用者に可能にする。例えば、「ベッドツール(bedtools)」は、「BEDTools」とも称され、それによりBEDToolsは、互いに、並びにスタンダードUNIXコマンドと併用され、それ故に大型ゲノムデータセットの複雑な質問に速く回答できるルーチンゲノミックタスク、並びにパイプラインを容易にできる。とりわけ、そのような「ベッドツール」は、http://bioinformatics.oxfordjournals.org/content/26/6/841.fullで見つけることが可能である。
【0024】
ここでしようされるとき、用語「得られた」又は「に由来する」は、包括的に使用されることを意味する。即ち、生物サンプルから直接に単離された何れかの核酸配列または当該サンプルに由来する何れかの核酸配列を包含することが意図される。
【0025】
ここで例示的に記載される本発明は、ここにおいて明確に開示されていない何れかのエレメント又はエレメント群、制限又は制限群の不在において適切に実施され得る。従って、例えば、用語「含む(comprising)」、「含む(including)」、「含む(containing)」等は広く、制限なく読まれるべきである。加えて、ここにおいて使用される用語及び表現は、説明のための表現として使用されており、制限のために使用されるものではなく、そのような用語の使用において、示され、記載される特徴又はその一部分の何れの均等物を排除する意思はないが、しかしながら権利請求された本発明の範囲内において多様な修飾が可能であることが認められる。従って、本発明は好ましい実施形態及び任意の特徴群によって明確に開示されているものではあるが、ここにおいては、そこにおいて具現化される本発明の修飾物及び変化物が当業者によって採用されてよいこと、並びにそのような修飾物及び変化物が本発明の範囲内のものであると判断されることが理解されるべきである。
【0026】
本発明は、ここにおいて広く且つ一般的に記載されている。一般的な開示内に収まる狭い種及び部分世代集団のそれぞれもまた、本発明の一部分を形成している。これは、削除されるものがここにおいて明確に列挙されているか否かに拘わらず、当該属からの何れかの主題を取り除く条件又は否定的な制限を伴う本発明の一般的な記載も含む。
【0027】
他の実施形態は、以下の特許請求の範囲および非限定的な例の範囲にある。加えて、本発明の特徴又は態様が、マーカッシュ群の観点から記載されている場合には、当業者は、それにより本発明がまた、何れかのマーカッシュ群の個々のメンバー又は下位集団のメンバーに関して記載していることを理解できる。
【図面の簡単な説明】
【0028】
本発明は、当該詳細な説明を参照して、非限定的な例及び添付図面と併せて考えると、よりよく理解できる。そこにおいて:
【
図1-1】原発性胃腺癌のナノChIPseqクロマチンプロファイル。(a)クロマチンマークの分析。(b)GC2000721及び対応する正常な組織のクロマチンプロファイル(それぞれCおよびN)。CDX2遺伝子の遺伝子座及び近接遺伝子の代表的なUCSCゲノムブラウザーディスプレイが示されている。RefSeq転写物及びヒストン修飾が表示されている。(c)CDX2遺伝子の近景、GCにおけるH3K4me3及びH3K27ac獲得が明らかにされている。(d)クロマチンマークのピークは正常(上部)及びGC(下部)においてオーバーラップしている。GC2000721が示されている。数字は、第1のセット領域(縦)のフラクションが、第2のセット領域(横)とオーバーラップしていることを示している。白色=排他的、濃灰色=オーバーラップ。(e)GCエンハンサー及びプロモーター。プロモーター及びエンハンサー領域は、更にそれらのH3K27acシグナルとのオーバーラップによって分類された。(f、g)主成分解析は、体細胞的に変化した(f)プロモータ−(H3K4me3)及び(g)エンハンサー(H3K4me1)領域に基づいて正常(青色)及びGC(赤色)サンプルを示す。最上から3つの主成分が使用された。(h、i)体細胞的に変化した(h)プロモーター及び(i)エンハンサー(H3K4me1)領域に基づく及び正常(青色)及びGC(赤色)サンプルのクラスタリングヒートマップ。H3K27acパターンも示される。色の強さは、規格化されたRPKM値に対応する。
【
図2-1】GC中の癌関連プロモーター。(a)癌関連プロモーターは、高頻度に非RefSeq TSS(「潜在性プロモーター」)に関連する。全プロモーター(「総」)及び癌におけるプロモーター喪失(「喪失」)に関連する潜在性プロモーター比率は、参考として提供されている。癌関連プロモーターもまた、RNAseqデータから発現された非RefSeqに関連する(最右の数字)。(b)正常組織と胃腫瘍との間の>4倍の発現変化を提示する非RefSeq転写物の発現状態を示すヒートマップ(FPKM;100万のマッピングされたリード当たりのキロベースの転写物当たりのフラグメント)。転写物は、192個の癌関連プロモーターに関連する。(c)癌関連プロモーターについてのエンリッチ遺伝子カテゴリーを示すGREAT解析。オリジナルGREATアウトプットからのp<6×10
−6全エンリッチ項目がリストに記載されている。(d、e)潜在性プロモーター稼働性MET発現。RNAseq及びH3K4me3トラックが示される。(e)下流METエクソンへのプロモーターの連結を確かにする代表的な「スプリット」RNAseqタグを示す、潜在性プロモーター領域の近景。(f)MET機能的ドメイン。予測される潜在性プロモーター稼働性転写物は、Semaドメインを欠くN末端トランケート蛋白質をコードする。(g)潜在性プロモーター稼働性NKX6−3発現。RNAseq及びH3K4me3トラックが示される。RNAseqアラインメントは、
図14に提供される。(h)潜在性プロモーター稼働性HOXB9発現。RNAseqアラインメントは、
図15に提供される。(i)GC群(n=185)と対応する正常群(n=89)の間のH3K4me3マーク遺伝子の発現レベル。遺伝子の有意な比率は、GCにおいて上方に調節される(上方調節遺伝子=143;総ターゲット遺伝子=218;p=5.68x10
−6)。(j)癌関連プロモーターにより稼働される遺伝子の高及び低発現を示す、GC群と患者群との比較をしている生存率解析。「高」(n=154)及び「低」(n=29)エンリッチメントのターゲット遺伝子シグネチャーを含む、シンガポール人集団(総n=183)の内でのクラスターのカプラン・マイヤー生存率解析。シグネチャーは、この集団における予測であり(ログランクp値:0.041)、シグネチャーのより高エンリッチメントについて観察されるより悪い予後を含む(H.R.(95%C.I.):1.78(1.02−3.13);p=0.044)。
【
図3-1】癌関連調節エレメントの結合部位解析。(a)癌関連プロモーターとオーバーラップしているENCODE確定転写因子結合部位(ENCODE−defined transcription factor binding site; TFBS)の頻度(獲得及び喪失)。数値は、10kbカバレージ当たりのTFBSの数として示される。TFは、全H3K4me3確定プロモーターセットにおけるそれらの頻度に従って分類された。EZH2、SUZ12及びZNF217結合部位は、エンリッチである(p<0.05)。完全なTFリストは
図18に示される。(b)癌関連エンハンサー領域中のTFBS頻度。(c)ESC確定ユニビバレント(H3K4me3のみ、H3K27me3のみ)又はビバレント(H3K4me3及びH3K27me3)領域、並びに(全及び癌関連)GCプロモーター及び(全及び癌関連)GCエンハンサーの間でのオーバーラップ解析。癌関連GCプロモーターは、高い割合のビバレント領域、過度の割合のユニビバレント領域を示す(p<2.2x10
−16)。(d)ESC確定ビバレント領域とオーバーラップしている代表的な癌関連プロモーターとしてのONECUT2遺伝子座のゲノムブラウザー図。(e)全プロモーター及び癌関連プロモーター中のDNAメチル化変化(獲得又は喪失)を示すボックスプロット。P値(ウィルコクソン検定)は、p=7x10
−48(全プロモーター対獲得プロモーター);p=0.48(全プロモーター対喪失プロモーター);p=5.37x10
−41(獲得プロモーター対喪失プロモーター)。
【
図4-1】GCに関連するアレル特異性調節エレメント。(a−d)非アレルバイアス及び 非アレルバイアス、並びに(e−h)アレルバイアス調節エレメント。(a−b)RNAseq及びH3K4me3トラックを示すTNK2遺伝子座のゲノムブラウザー図。(b)は、H3K4me3シーケンシングタグ及びSNPの近景及び視覚化を与える。レファレンス(c)及びrs7636635(T)SNPの同程度の割合が、H3K4me3エンリッチ配列リードにおいて観察される。(c)正常組織のジェノタイピングは、正常組織及び腫瘍からのH3K4me3エンリッチシーケンシングタグにおける均等なアレルヘテロ接合性を確かにする。(d)定量的PCRパイロシーケンシングは、正常組織中のH3K4me3シグナルの不足、並びにリファレンス(c)と腫瘍からのH3K4me3エンリッチ配列リードを含むrs7636635(T)アレルとの同等の割合を確かにする。(e、f)RNAseq及びH3K4me3トラックを示すNUDT4遺伝子座のゲノムブラウザー図。(f)は、H3K4me3シーケンシングタグ及びSNPの近景及び可視化を与える。リファレンスアレル(G)を越えるrs4761701 SNP(A)の高い割合を支持するバイアスが観察される。(g)正常組織のジェノタイピングは、正常組織中の均等なアレルヘテロ接合性を確かにするが、バイアスは、腫瘍からのH3K4me3シーケンシングタグ中のrs4761701 SNP(A)に向う。(h)定量的PCRパイロシーケンシングは、正常組織における最小限のH3K4me3シグナル、並びにリファレンスアレルを越える、腫瘍からのH3K4me3シグナル中のrs4761701 SNPでバイアスされているシーケンシングタグの割合を確かにする。
【0029】
(i)サンプル全域でのアレルバイアス分布。腫瘍組織中のSNPタグの上方及び下方発現量をそれぞれ緑色及び青色で標した。(j)変化したプロモーター及びエンハンサー領域に対するdbSNP部位マッピング。SNP部位は、X軸においてはそれらの染色体の位置に従い、Y軸に沿ってそれらの対応するアレルバイアスに従って配置されている。SNPは、アレルバイアスを示しており(上方の青色の横線)、それらはまたレギュロームDB(RegulomeDB)に基づいて蛋白質結合に影響を与えることが予測され、それらは赤色で標した。(k)体細胞的に変化した調節エレメントに対してマッピングされたアレルバイアスされた部位についてのレギュロームDB予測。
【0030】
(l、m)RNAseq及びH3K4me3トラックを示すKLK1遺伝子座のゲノムブラウザー図。(m)は、H3K4me3シーケンシングタグ及びSNPの近景を与える。リファレンスアレル(A)を越える、公知のeQTL SNP rs2659104(G)の高い割合を支持するバイアスが観察される。(n)定量的PCRパイロシーケンシングは、正常組織中の最小限のH3K4me3シグナル、並びに腫瘍からのH3K4me3シグナルにおける親のアレルを越えるシーケンシングタグのrs2659104 SNPバイアスされた割合を確かにする。
【
図5-1】GCにおける体細胞調整。(a)HOXA遺伝子座のゲノムブラウザー図。(上部)RNAseqデー。HOXA11に対して遠位の(及び含む)HOXA遺伝子は、癌特異的な方法でGC 2000639に発現される。(下部)H3K4me3シグナルは、この領域における変化されたクロマチンドメインを確かにする。(b)HOXA11領域の近景。GC 2000639におけるH3K4me3の癌特異的獲得が観察される。(c)H3K27acシーケンシングタグアラインメントは、chr7:27,228,085位でのTアレルの存在を予測する一方で、リファレンス(hg19)は、この部位でAを示す。この部位は、公知のdbSNPに対応しない。(d)インプット正常DNA、インプット腫瘍DNA及びH3K27acエンリッチChIPseq DNAにおけるジェノタイブのサンガーシーケンシング及びパイロシーケンシングバリデーション。正常サンプルは、Aアレルについてホモ接合性であると同時に、癌は、この位置でのスモールTシグナルを有する(アレル頻度10%が推定される)。対照的に、H3K27中心外のDNAは、高い割合のTアレルを示す(96%)。(e)リファレンス及び体細胞的変異アレルのためのTFBINDによるTF部位予測。LYF1、STAT及びNF1部位が獲得されていることが予測されると同時に、CEBP、NFKB及びp53部位が喪失されていることが予測される。(f)野生型及び変異型アレルの調節活性を測定するルシフェラーゼレポーターアッセイ。変異型アレルを含むDNAは、転写活性の増加を与える(*p=1.1x10
−4)。実験は、KATO−III GC細胞中で行われた。
【
図6-1】Ngら(2013)Developmental Cellからの1,000細胞スケールナノChIPseqバリデーション。スモールスケールChIPseq(即ち、ナノChIPseq)とスタンダードChIPseqとの比較。
【
図7-1】ナノChIPseqピークコーリング及びピークマージング。(a)患者2000721正常(2000721N)における5ヒストン修飾についてのナノChIPseqタグ密度の代表的なUCSCブラウザー図。ピーク領域は、各ChIPseqトラックの上に表示されている。遺伝子トラックは、RefSeq転写物を示す(b)6組織サンプルのH3K4me3ピークプロファイル。マージしたピーク領域は、RefSeq転写物トラックの下に示される。
【
図8-1】増幅された領域の識別及び除去。組織2000639CにおけるKRAS遺伝子座(a)及び組織2000986CのMYC(b)周辺の増幅された遺伝子座の代表的な図。癌インプットDNA中で多量のシーケンシングタグを示す領域は、続く解析からは除外された。
【
図9】GC/正常対におけるクロマチンマークのオーバーラップ。サンプル対2000639(a)及び2000986(b)についての正常(上部)及び癌組織(下部)中のクロマチンマーク領域のオーバーラップ。数値は、第2のセット領域(横)とオーバーラップしている第1のセット領域(縦)のフラクションを示す。白色=排他的、濃灰色=オーバーラップ。
【
図10-1】ナノChIPseq RPKM前処理。(a−d)プロモーター及びエンハンサー領域についての(ComBat正規化後)対数変換されたChIPseq FPKM値のボックスプロット。(e−h)線形モデルフィッティングからの生p値分布。
【
図11-1】GC及び正常組織のPCAプロット。(a、b)及び(d、e)(a)全ての同定された(identified)H3K4me3プロモーター及び(b)関連H3K27ac活性;又は(d)全同定されたH3K4me1エンハンサー及び(e)関連H3K27ac領域を使用するGC(紫色)及び正常(青色)組織のPCAプロット。(c及びf)体細胞的な変化を示すH3K27ac領域を使用するPCAプロット。
【
図12-1】非RefSeq転写物のRT−qPCRバリデーション。RNAseq解析に由来するFPKM値と比較した、GC及び正常組織における10個の非RefSeq転写物についてのRT−qPCRバリデーション結果。
【
図13-1】MET遺伝子RNAseqアラインメント。(a)MET遺伝子の遺伝子座で発現されたRNAのエクソンーイントロン構造を支持するRNAseqタグアラインメント。METRefSeq転写物が、最上部の注釈において示されている。(b、c)RNAseqアラインメントの近景。潜在性プロモーター稼働性エクソンについてのエクソンーイントロン境界が、シーケンシングタグアラインメントの手動の調査によって確認された。(d)RNAseqタグ及びH3K4me3エンリッチメントの位置を示す、MET潜在性プロモーターの視覚化。下流METRefseqエクソンが示されている。(e)5’RACE解析。RNAseq及びH3K4me3エンリッチリードを含む、潜在性プロモーター近景。5’RACEプライマーの位置を示し、MET発現ラインHs746Tからの5’RACE産物の産物を示す。
【
図14-1】NKX6−3RNAseqアラインメント。(a)発現されたRNAのエクソンーイントロン構造を支持する、RNAseqタグアラインメント。NKX6−3RefSeq転写物(NM152568)は緑色で示し、予測される潜在性プロモーター発現性mRNAは最上部に示す。(b−f)RNAseqアラインメントの近景。エクソンーイントロン境界が、シーケンシングタグアラインメントの手動の調査によって確認された。(g)7つのGC細胞株からの2つの区別される5’RACE産物のGel写真。(h)NUGC3(大きいRACE産物)及びKATOIII(小さいRACE産物)細胞株からの5’RACEフラグメントの位置を示す、ゲノムブラウザー図。5’RACEプライマーの位置を示す。両産物は、5’非Refseqエクソンの発現を実証し、そこにおいてNUGC3はより大きな産物を有する。転写物5’末端は、赤色矢印により示される。(i)予測mRNA及びポリペプチド構造物。NKX6−3ホメオドメインの位置は、RefSeqデータベースに基づいて示される。
【
図15-1】HOXB9遺伝子座RNAseqアラインメント。(a)RNAseqアラインメントはHOXB9遺伝子座に位置する。多重スプライスRNAアイソフォームは、RNAseqアラインメントに基づいて予測された。(b−h)エクソンーイントロン境界が、RNAseqタグアラインメントによって確認された。(i)この領域におけるそのようなフォールのコーディング可能性。
【
図16】マイクロアレイバリデーションコホート。独立 マイクロアレイデータにおける上方調節されたH3K4me3マーク癌関連遺伝子(n=218)の対数表示のヒートマップ。「癌」(n=185)及び「正常」(n=89)サンプルは、シンガポールから来た。「癌」及び「正常」サンプルは、発現の明確なパターンを示し、そこにおいてH3K4me3マーク癌関連遺伝子の大多数は、癌において上方調節されている。
【
図17-1】癌関連遺伝子の臨床病理学的な特徴との関連性。H3K4me3マーク癌関連遺伝子との有意な関係性を有する因子のモザイクプロット:(a)マステージ(Mstage)、(b)ローレンの組織病理、及び(c)タンら(Tan et al. 14.)からの内因性シグネチャー。高いM期(p=0.033)、広範なローレンの組織病理(p=9.99x10
−5)、及びGDIFF内因性シグネチャー分類(p=1.46x10
−11)は、H3K4me3マーク癌関連遺伝子の高発現に有意に関連する。赤色:シグネチャーの高エンリッチメント;青色:シグネチャーの低エンリッチメント。
【
図18-1】GCプロモーター及びエンハンサーのENCODEデータとのオーバーラップ。(a)プロモーター領域におけるTFBSの頻度。(b)エンハンサー領域におけるTFBSの頻度。
【
図19】CDH10遺伝子座体細胞変異解析。(a)CDH10遺伝子座のゲノムブラウザー図。(b)拡大図。(c)バリアント及びアレルバイアスを示す、H3K4me3 ChIPseqタグアラインメント。当該変異は、hg19リファレンスと比較して、ジヌクレオチド置換であることに留意されたい。(d)正常及び癌インプットDNA及びH3K4me3 ChIP DNAのサンガー配列トレース。癌インプットは、変異アレルの小さいフラクションを含み、当該変異アレルは、H3K4me3 ChIPによりエンリッチとなる。
【
図20】HOXA5遺伝子座体細胞変異解析。(a)HOXA5遺伝子座のゲノムブラウザー図。(b)バリアント及びアレルバイアスを示す、K4me3 ChIPseqタグアラインメント。(c)正常及び癌インプットDNA及びH3K4me3 ChIP DNAのサンガー配列トレース。癌インプットは、変異アレルの小さいフラクションを含み、当該変異アレルは、H3K4me3 ChIPによりエンリッチとなる。
【
図21】FAR2遺伝子座体細胞変異解析。(a)FAR2遺伝子座のゲノムブラウザー図。(b)拡大図。(c)バリアント及びアレルバイアスを示す、H3K4me3 ChIPseqタグアラインメント。(d)正常及び癌インプットDNA及びH3K4me3 ChIP DNAのサンガー配列トレース。癌インプットは、変異アレルの小さいフラクションを含み、当該変異アレルは、H3K4me3 ChIPによりエンリッチとなる。.
【
図22-1】H3K4me3同定領域の特徴付け。a)TSS周辺にエンリッチな標準的に二峰性分布を示すH3K4me3及びH3K27ac。b)癌においてH3K27acとの強い陽性相関(r=0.91、p<0.001)を示す、H3K4me3。c)コモン(即ち、循環性)GCプロモーター、これはプライベートプロモーターよりも高い、並びに正常サンプル中のプロモーターにおける、活性(即ち、H3K27ac陽性)領域の割合。
【
図23-1】8つのGC対正常組織における体細胞的に変化したH3K4me3領域。a)GCと正常との間の516のディファレンシャル領域に同定されるDESeq2、同様な結果はedgeRでの解析においても得られた。b)516のディファレンシャル領域におけるGC及び正常組織のH3K4me3シグナルの間の区別可能な分離を示す、ヒートマップ。c)GCにおいてH3K4me3を獲得した63%の領域を示すドーナツ型グラフ。d)ディファレンシャル領域と最も近いTSSとの間の距離の分布のドーナツ型グラフ。e)正常組織と比較して、そのTSSでのRNAseqにおいて一致した獲得を含むGCでのH3K4me3のエンリッチメントを示すGC関連遺伝子CLDN7についてのベッドグラフトラック。
【
図24-1】GCにおけるディファレンシャルH3K4me3 lociでの代替的プロモーター使用。a)HNF4Aの短い公知のアイソフォームでのH3K4me3の獲得、一方で、カノニカルな長いアイソフォームは、H3K4me3について同等の強度ピークを有する。b)CEACAM6の1つの主要なアイソフォームのみでのH3K4me3の存在並びに獲得。c)GCにおいてRNAseq発現によって裏付けられている、並びにRefseqにおいて未知のMYO15Bの非立証転写物でのGCにおけるH3K4me3の獲得。
【
図25-1】RASA3における新規の5’開始部位の例。a)GCにおけるH3K4me3獲得の領域は、新規の転写開始の公知のTSSマーキング部位のおおよそ127kb下流で観察された。GCにおける新しいアイソフォームの存在を支持するRNAseqアッセンブリ。b)17のエクソンのスキッピングにおいて、短いアイソフォームを形成しているRASA3の蛋白質ドメインのインパクト。当該短いアイソフォームは、RASの活性を調節しているRasGAPドメインを失っているが、代わりに予測されるプレクストリン相同ドメインを有する。
【発明を実施するための形態】
【0031】
本発明の詳細な説明
第1の態様において、本発明は、非癌性生物サンプルと相対的に、癌性生物サンプル中の少なくとも1つのプロモーターの活性を決定する方法に言及する。当該方法は、前記癌性生物サンプルから得られた少なくとも1つのプロモーター配列を含む単離された核酸を、前記非癌性生物サンプルから得られるリファレンス核酸と対照してマッピングし、前記少なくとも1つのプロモーターについてリード・パー・キロベース・パー・ミリオン(RPKM)値又はフラグメント・パー・キロベース・パー・ミリオン(FPKM)値を得ること;及び前記RPKM又はFPKM値を使用して、前記リファレンス核酸配列中の前記少なくとも1つのプロモーターの活性と相対的に、前記核酸中の前記少なくとも1つのプロモーター配列のディファレンシャル活性を決定すること含み得る。
【0032】
ここにおいて記載される癌性及び非癌性生物サンプルは、単一細胞、多細胞、細胞のフラグメント、体液又は組織を含み得る。幾つかの実施形態において、癌性及び非癌性生物サンプルは、同一の対象、又は、その代わりとして異なる対象から得られ得る。
【0033】
核酸は、クロマチンの免疫沈降によって前記癌性生物サンプルから単離され得る。核酸は、少なくとも1つのプロモーターを含み得る。
【0034】
クロマチンの免疫沈降は、修飾されたヒストン蛋白質に対して特異的な抗原結合蛋白質によって達成され得る。修飾されたヒストン蛋白質は、H3K4me3、H3K4me1及びH3K27acからなる群より選択された少なくとも1つのヒストン修飾を含み得る。
【0035】
幾つかの実施形態において、抗原結合蛋白質は、H3K4me3、H3K4me1及びH3K27acからなる群より選択された少なくとも1つのヒストン修飾に対して特異的な抗体であり得る。
【0036】
少なくとも1つのプロモーターを含む単離された核酸は、少なくとも1つのプライマーで増幅され得る。幾つかの実施形態において、増幅された核酸は、前記増幅された核酸を含む核酸配列ライブラリの構築のために使用され得る。
【0037】
幾つかの実施形態において、マッピング工程が、リファレンス核酸と相対的に、マッピングされた核酸中の少なくとも1つのプロモーターについての全配列tagに基づいてRPKM値を計算することを含む。
【0038】
幾つかの実施形態において、マッピング工程が、リファレンス核酸と相対的に、マッピングされた核酸中の少なくとも1つのプロモーターに関連する同定された転写配列に基づいて前記FPKM値を計算することを含む。
【0039】
少なくとも1つのプロモーター配列のディファレンシャル活性を決定する工程が、癌性生物サンプルから得られた核酸中の少なくとも1つのプロモーターについての前記RPKM又はFPKM値が、
i)非癌性生物サンプルから得られたリファレンス核酸中の少なくとも1つのプロモーターのRPKM又はFPKM値と相対的に平均RPKM又はFPKM値における変化が1〜20倍の間、例えば、1倍、2倍、3倍、4倍又は5倍よりも大きい;2)及び、前記非癌性生物サンプルから得られた前記リファレンス核酸中の前記少なくとも1つのプロモーターの前記RPKM又はFPKM値と相対的に、RPKM又はFPKMの範囲が0.1よりも大きいこと;を決定することを含み得る。
【0040】
少なくとも1つのプロモーターは、全プロモーター集団と相対的にSUZ12結合部位の増加を含み得る。幾つかの実施形態において、少なくとも1つのプロモーターは、細胞種特異化、胚発生又は転写因子に関連する遺伝子に近傍に位置し得る。
【0041】
もう一つの実施形態において、少なくとも1つのプロモーターは、癌に関連する遺伝子に近傍に位置し得る。当該遺伝子は、NKX6−3、SALL4、HOXB9、MET、TNK2、KLK1、FAR2、HOXA11又はHOXA11−ASから選択され得る。当該癌は、胃癌であり得る。
【0042】
もう一つの実施形態において、少なくとも1つのプロモーターは、潜在性プロモーターを含み得る。
【0043】
また、癌に対する対象の感受性を決定する方法が提供される。当が方法は、対象の癌性生物サンプルから得られた少なくとも1つのプロモーターを含む単離核酸を非癌性生物サンプルから得られたリファレンス核酸に対照してマッピングし、前記少なくとも1つのプロモーターについてのRPKM又はFPKM値を得ること;及び 前記RPKM又はFPKM値を使用して、前記リファレンス核酸中の当該少なくとも1つのプロモーターの活性と相対的に前記核酸中の前記少なくとも1つのプロモーターのディファレンシャル活性を決定すること;を含み、ここにおいて、前記非癌性生物サンプル中のそれと相対的な、当該癌性生物サンプル中の前記少なくとも1つのプロモーターの活性の増大が、癌に対する当該対象の感受性を示す。
【0044】
また、対象において癌に関連する少なくとも1つのプロモーターの存在を決定する方法が提供される。当該方法は、前記対象の癌性生物サンプルから得られた少なくとも1つのプロモーターを含む単離された核酸を非癌性生物サンプルから得られたリファレンス核酸と対照してマッピングし、前記少なくとも1つのプロモーターについてのRPKM又はFPKM値を得ること;及び前記RPKM又はFPKM値を使用して前記リファレンス核酸中の前記少なくとも1つのプロモーターの活性と相対的に、前記核酸中の前記少なくとも1つのプロモーターのディファレンシャル活性を決定すること;を含み、ここにおいて、前記非癌性生物サンプルのそれと相対的な、前記対象から得られた当該癌性生物サンプル中の当該少なくとも1つのプロモーターの活性の増大が、対象における癌に関連するプロモーターの存在を示す。幾つかの実施形態において、癌に関連する少なくとも1つのプロモーターは、当該生物サンプルから得られた当該核酸中の前記1つのプロモーターについてのRPKM又はFPKM値が、i)非癌性生物サンプルから得られた当該リファレンス核酸中の当該少なくとも1つのプロモーターの当該RPKM又はFPKM値と相対的に、平均RPKM又はFPKM値の変化が、1〜20倍の間、例えば、1倍、2倍、3倍、4倍又は5倍よりも大きいとき;及びii)非癌性生物サンプルから得られた当該リファレンス核酸中の当該少なくとも1つのプロモーターの当該RPKM又はFPKM値と相対的にRPKM又はFPKMの範囲が0.1よりも大きいとき;に存在する。
【0045】
また、対象において癌を検出するためのバイオマ−カ−であって、前記バイオマ−カ−は、正常な非癌性生物サンプルと相対的に癌性生物サンプルにおける活性の増大を有する少なくとも1つのプロモーターを含み、前記プロモーターは、全プロモーター集団(population)と相対的にSUZ12結合部位の増大を含むバイオマ−カ−が提供される。当該少なくとも1つのプロモーターは、全プロモーター集団と相対的に低いDNAメチル化レベルを提示し得る。
【0046】
また、非癌性生物サンプルと相対的に癌性生物サンプル中の癌に関連する少なくとも1つのプロモーターの存在を決定する方法が提供され、当該方法は、前記非癌性生物サンプルから得られたリファレンス核酸に対して、前記癌性生物サンプルから得られた少なくとも1つのプロモーター配列を含む単離された核酸をマッピングすること;前記マッピングすることに基づいて前記少なくとも1つのプロモーターについてシーケンシングタグ計数のマトリックスを発生させること;前記シーケンシングタグ計数のマトリックスを解析すること;及び前記シーケンシングタグ計数のマトリックスの解析を使用して前記リファレンス核酸中の当該少なくとも1つのプロモーターと相対的に前記核酸中の当該少なくとも1つのプロモーターのディファレンシャルエンリッチメント(differential enrichment)を決定すること;を含み、ここにおいて、非癌性サンプル中のそれと相対的に、当該対象から得られた当該癌性生物サンプル中の前記少なくとも1つのプロモーターの前記ディファレンシャルエンリッチメントが、対象における癌に関連するプロモーターの存在を示す。
【0047】
また、非癌性生物サンプルと相対的に、癌性生物サンプル中の少なくとも1つのプロモーターの活性を決定する方法が提供され、当該方法は、前記非癌性生物サンプルから得られたリファレンス核酸に対して、前記癌性生物サンプルから得られた少なくとも1つのプロモーター配列を含む単離された核酸をマッピングすること;前記マッピングすることに基づいて前記少なくとも1つのプロモーターについてシーケンシングタグ計数のマトリックスを発生させること;前記シーケンシングタグ計数のマトリックスを解析すること;及び前記シーケンシングタグ計数のマトリックスの解析を使用して前記リファレンス核酸中の前記少なくとも1つのプロモーターと相対的に前記核酸中の当該少なくとも1つのプロモーターの当該ディファレンシャル活性(differential活性)を決定すること
を含む。
【0048】
一つの実施形態において、上記方法の前記発生させる工程が、前記リファレンス核酸と相対的に、当該マッピングされた核酸中の少なくとも1つのプロモーターについてのシーケンシングタグ計数に基づく当該マトリックスを計算することを含む。
【0049】
一つの実施形態において、上記方法の前記解析する工程が、DESeq2アルゴリズムを使用して当該マトリックスを解析することを含む。DESeq2アルゴリズムは、計数データのディファレンシャル解析のための分野において公知のゲノム解析手段であり、分散及び倍率変更(fold changes)について収縮評価を使用して、推量の安定性及び解釈可能性を改善する。DESeq2は、ディファレンシャル発現の単なる存在よりも寧ろ強度に目を向けた定量的解析を可能にする。とりわけ、DESeq2は、負数の(negative) 二項式一般化線形モデルの使用により、ディファレンシャル発現について検定する方法を提供し;分散及び対数の倍率変更の推量を分布前に稼働されるデータに組み込む。
【0050】
一つの実施形態において、前記少なくとも1つのプロモーターは、癌に関連する遺伝子の近傍に位置し得る。
【0051】
一つの実施形態において、前記遺伝子は、RASA3、GRIN2D、TNNI3、SHD、ATP10B、SMTN、MYO15B、C2orf61、LINC00443又はACHEであり得る。
【0052】
一つの実施形態において、前記ディファレンシャルエンリッチメントは、10%のFDR率及び1.5倍よりも大きい絶対的な変化に基づいて同定される。
【0053】
一つの実施形態において、ディファレンシャル活性は、10%のFDR率及び1.5倍よりも大きい絶対的な変化に基づいて同定される。
【0054】
実験の項
例1
方法
組織サンプル
主な患者サンプルは、ザ・サンゲヘルス・ティッシュ・レポジトリー(the Singhealth tissue repository)から入手され、企業研究倫理審査委員会からの承認をもって収集され、患者のインフォームド・コンセントに署名を受けた。
【0055】
この研究において使用された「正常」(非悪性)サンプルは、胃から採取された、腫瘍から離れた部位からの、外科的な評価上で腫瘍の視覚的な兆候又は腸上皮化生/異形成を示してないサンプルをいう。腫瘍サンプルは、低温切開片が>40%腫瘍細胞を含むことにより確認された。
【0056】
ナノChIPseq
ナノChIPseqは、組織分離工程を伴い、従来記載されている通りに行われた。新鮮凍結癌及び正常組織は、液体窒素中でカミソリ刃を使用して切開し、〜5mgの大きさの小片を得た(見掛け容量による〜5μl)。組織小片は、1%のホルムアルデヒド/TBSE緩衝液中で10分間(min)室温で固定された。固定は、125mMの最終濃度にまでグリシンを添加することにより停止した。
【0057】
組織小片をTBSE緩衝液で3回洗浄し、リソネーター・カートリッジ(Lysonator cartridges、SG Microlab Devices、シンガポール)内に移した。組織を製造者のガイドラインに従って解離させ(4KHz、3分間)、ナノChIPアッセイにおける溶解工程に直接に持ち込んだ。溶解された組織は、200μlの溶解緩衝液中で溶解され、バイオラピュター(Bioruptor、Diagenode)を使用する超音波処理(6分間)のために2本の1.5ml試験管内に分配した。各組織について、ChIPを以下の抗体:H3K4me3(07-473、Millipore);H3K4me1(ab8895、Abcam);H3K27ac(ab4729、Abcam);H3K36me3(ab9050、Abcam);H3K27me3(07-449、Millipore)を使用し、同じクロマチン調製物を使用して行った。
【0058】
ChIP及びインプットDNAの回収の後、全ゲノム増幅をWGA4キット(Sigma−Aldrich)及びBpmI−WGAプライマーを使用して行った。
【0059】
増幅されたDNAをBpmI(New EngliandBiolabs)で消化し、第2のBpmIアダプターに対してライゲートし、再度消化して、WGAプライマー領域及びセミランダムプライミング末端をトリミングした。15ngの増幅DNAをChIPseqキット(イルミナ)を使用する各イルミナ・シーケンシング・ライブラリーのために使用した。各ライブラリーをHiSeq2000の1つレーンでシーケンシングして、36塩基又は101塩基シングルリードの何れかを得た。
【0060】
ナノChIPseqリードマッピングとピークコーリング
シーケンシングタグは、ヒトリファレンスゲノム(hg19)に対して、バーロウズ・ウィラー・アライナ(Burrows−Wheeler Aligner、BWA)ソフトウェア(バージョン0.7.0)及び「aln」アルゴリズムを用いてマッピングされた。101塩基リードは、最初及び最後の10塩基によってトリミングされて、SNPコーリングパフォーマンスを増大した。独自にマッピングされたタグが、CCATバージョン3.0によるピークコーリングのために使用された。ピーク領域は、H3K4me3、H3K27acについて8、H3K4me3及びH3K36me3及びについて5、並びにH3K27me3マークのために1.5の上記のインプットカットオフでのフォールド(fold)によってフィルタリングされた。H3K4me3及びH3K4me1ヒストン修飾について、全組織サンプルからのピーク領域はプールされ、オーバーラッピングピーク領域は、マージされてプロモーター及びエンハンサー解析のためのその修飾のためにピーク領域の総セットが作出された。同じ折り畳みカットオフを有する正常インプット対癌インプットCCAT3領域セットを使用して、H3K4me3及びH3K4me1領域のための潜在的な増幅領域を除去した。ピークの高さを定量化するために、我々は、カフリンクス(Cufflinks、バージョン2.0.2)を使用してChIPseqデータを解析した。RPKM値は、プロモーター領域のためにH3K4me3及びH3K27ac、エンハンサー領域のためにH3K4me1及びH3K27acが評価された。バッチ効果は、R(バージョン2.15)における「prcomp」機能を使用するプリンシプルコンポーネント解析(PCA)を使用して評価され、カフリンクスからのRPKM値の対数変換後のComBat3を使用して調整された。3D−PCAプロットは、R(バージョン2.15)における「rgl」パッケージを使用してプロットされた。
【0061】
体細胞的に変化した調節エレメントの同定
体細胞的に変化したプロモーター及びエンハンサーセットは、2つの方法、「スレッシュホールド」法と線形モデルアプローチを用いて同定された。変化したエレメントの終セットは、両方法からの結果を組み合わせることにより生成された。
【0062】
「スレッシュホールド」法
全プロモーター(H3K4me3マーク)及びエンハンサー(H3K4me1マーク、しかしながらH3K4me3ピーク領域とのオーバーラップはなし)についてのH3K27ac ChIPseq ComBat調整FPKM値は、(i)2倍よりも大きい変化(絶対値)及び(ii)5つの腫瘍及び5つの正常サンプルの間の平均値における0.5よりも大きい差によってフィルタリングされた。これはまた、H3K4me3及びH3K4me1 ChIPseqデータについても行われた。変化したエレメントは、H3K27ac及びH3K4me3検体(プロモーター)又はH3K27ac及びH3K4me1(エンハンサー)について得られた領域の結合物から同定された。
【0063】
線形モデル法
ボックスプロットは、対数変換ChIPseqデータについてプロットされ、経験的ベイズ線形モデルアプローチに適用する前に、正規性前提を評価し、腫瘍サンプルと正常サンプルとの間で個別に変化した領域を得た(
図5)。方法が適合された後で、評価も行われて、p値分布が妥当であることが確認された(
図5)。変化したプロモーター及びエンハンサーを得るために、p=0.05のスレッシュホールドレベルの有意性が選択された。
【0064】
RNAseq
RNAseqライブラリーは、イルミナTru−SeqRNAサンプル調製v2プロトコールを使用して、製造者の使用説明書に従って調製された。即ち、ポリARNAは、1μgの総RNAから、ポリTオリゴ付着磁性ビーズを使用して回収された。回収されたポリARNAは、化学的にフラグメント化され、スーパースクリプトII及びランダムプライマーを使用してcDNAに変換された。
【0065】
セカンドストランドは、キットで提供されているザ・セカンド・ストランド・マスター・ミックスを使用して合成され、続いて、AMPure XPビーズで精製された。cDNAの末端は、3’から5’へのエクソヌクレアーゼ活性を使用して修復された。シングルアデノシンが3’末端に加えられ、アダプターがT4DNAリガーゼを使用してcDNAの末端に対して取り付けられた。
【0066】
両端にライゲートされたアダプターを有するフラグメントはPCRによってエンリッチ化された。ライブラリーは、アジレント・バイオアナライザー(Agilent Bioanalyzer、アジレント・テクノロジー、パロ・アルト、CA)により正当性が確認された。ライブラリーは、11pMに希釈されて、イルミナ・クラスター・ステーションを使用するイルミナフローセルに用いられた。シーケンシングは、Duke−NUSゲノム・バイオロジー・ファシリティでのイルミナ・High Seq2000シーケンサーにおいて、対をなす76bpリードオプションで行われた。
【0067】
RNAseq解析
リードは、TopHat・v1.25を使用してヒトリファレンスゲノムに対して位置合わせされた。マッピングされていないリードは、次に潜在的なスプライスジャンクションに対して、位置合わせされ、それらは、(i)Ensembl 60転写物アノテーション中に存在するか、或いは(ii)「発現アイランド」、即ち、当該アノテーション中に存在しなかった転写物からのリードのクラスターによって示唆されるかのいずれかであった。FPKM値による転写物存在率は、リファレンス転写物の使用なしに、カフリンクス(バージョン1.0.0)を使用して推量された。腫瘍/正常対からの新しく集合化された転写物は、RefSeq転写物データベースに対してフィルタリングして、非RefSeqアノテート領域に同定した。
【0068】
RefSeq TSSオーバーラップ解析
RefSeq転写物は、UCSCブラウザーからダウンロードされ、RefSeqアノテートTSSは、転写物開始位置を−/+500塩基にまで拡張することにより定義された。体細胞的に変化したH3K4me3ピーク領域は、RefSeq TSS領域に対して比較され、オーバーラップが決定された。RefSeq TSS(−/+500塩基)とオーバーラップを持たないH3K4me3領域は、非RefSeqプロモーター(aka潜在性プロモーター)と考えた。
【0069】
RNAseqリードの新しい集団化は、カフリンクス(バージョン1.0.0)により、リファレンス転写物セットなしで行った。非RefSeq転写物は、カフリンクスエクソンアウトプットをRefSeqエクソン(最小1塩基オーバーラップ)に対してフィルタリングすることによって定義された。この非RefSeq転写物セットは、癌関連H3K4me3領域(最小1塩基オーバーラップ)に対して交差させた。
【0070】
定量的RT−PCR
定量的PCRは、SYBRグリーンPCRキット(ライフ・テクノロジー、USA)を使用して行った。GAPDHは、コントロール遺伝子として正規化のために使用された。全PCR反応は、トリプリケートで行った。
【0071】
cDNA末端の5’ラピッドアンプリフィケーション(5’RACE)
5’RACEは、cDNA末端(バージョン2)キット(インビトロジェン)のラピッドアンプリフィケーションのための5’RACEシステムを使用して行った。1μgの総RNAは、各逆転写反応のためにモロニ−マウス白血病ウイルス(M−MLV)逆転写酵素、及びMET Refseqエクソン3(5’CTTCAGTGCAGGG3’)又はNKX6−3 Refseqエクソン1(5’GAAGGTAGGCTCCTC3’)のための遺伝子特異的なプライマーと共に使用された。
【0072】
RNase H及びRNase T1は、RNAの分解に使用され、続いて、S.N.A.Pカラムでの精製を行った。次にcDNAのホモプライマーテーリングを使用して、アンカープライマー結合部位の短縮を形成した。cDNAのファーストストランドの増幅は、SuperTaqプラスポリメラーゼ(アプライド・バイオシステムズ)を使用して、5’RACEアウターPCRのために短縮アンカープライマー、並びにMETエクソン3のための遺伝子特異的プライマー(5’GGCTCCAGGGTCTTCACCTCCA3’)及びNKX6−3エクソン1(5’CCAGGCTGAGCACCGAGAAGGC3’)を用いて行った。その後、5’RACEインナーネステッドPCRを短縮ユニバーサル増幅プライマー(AUAP)、METエクソン3(アウター5’PCRと同じ)及びNKX6−3エクソン1(5’GCTTGCGCAGCAGCAGGCGGAT3’)のための遺伝子特異的プライマーを用いて行った。
【0073】
Gel電気泳動を行い、興味のあるPCRバンドをTOPO TAクローニングキットでのpCR 4−TOPOベクター(インビトロジェン)を用いたクローニングのために切り出した。最低限5つの独立コロニーを単離し、精製されたプラスミドDNAをABI 3730自動シーケンサー(アプライド・バイオシステムズ)において双方向でシーケンシングした。
【0074】
マイクロアレイ解析
アフィメトリックス・ヒューマン・ゲノムU133プラス2.0ジーンチップアレイ上でプロファイルされた200のGC及び100の対応正常胃サンプルを解析した(GSE 15459)。データプレプロセッシングを「affyPLM」Rパッケージ(v2.15)を使用して実施した。アウトライアーは排除して、下流の解析に利用できる合計185のGC及び89の正常サンプルを得た。GCとサンプルとの間でのディファレンシャル発現解析を「limma」Rパッケージ(v2.15)を使用して行った。見せかけの発見率(false discovery rates、FDR)<0.05を有する遺伝子は、差異的に発現していると見做した。ディファレンシャル発現解析に使用された遺伝子は、RNAseq解析からの非Refseq転写物のリストにおいて行われたGREAT(v2.02)解析から現れたものであった。生存解析のために、GCサンプルは、輪郭幅を最小化するKを発見することを目的とするK−medoidsアプローチを使用してクラスター化された。臨床病理学的因子で異なるGC群の相関関係を評価するために、モザイクプロットが、カテゴリー変数についてプロットされた一方で、線形回帰アプローチが連続型変数のために使用された。相関関係の有意差(p<0.05)は、ピアソンカイ二乗検定又はt検定によって適宜決定された。カプラン−マイヤー生存解析は、成果測定基準としての全生存率と共に使用された。ログランク検定を使用して、カプラン−マイヤー解析の有意差を評価した。一変量及び多変量解析は、コックス回帰を使用して行った。
【0075】
転写因子結合部位(TFBS)解析(ENCODE)
ENCODE ChIPseq TFBSデータセット(Txn Fac ChIP V3転写因子ChIP−seqクラスターV3、161のターゲット、189の抗体が、UCSCブラウザーから得られた。癌関連プロモーター及びエンハンサー(又は全プロモーター及びエンハンサー)に対するオーバーラップは、それぞれTFについて計数された。TF部位計数は、各対応するプロモーター、エンハンサー又は総セットのベースカバレージ長さによって分けて、10kbカバレージ当たりのTF部位頻度を計算した。
【0076】
DNAメチル化プロファイリング
イルミナ・ヒューマン・メチレーション450(HM450) インフィニウムDNAメチレーションアレイを使用して、DNAメチル化レベルを胃腫瘍/正常対の間で評価した。メチル化値は、Rパッケージバージョン2.4.0においてmethylumiパッケージを使用して計算し、バックグラウンド訂正を行った。正規化は、BMIQ法(RにおけるwateRmelonパッケージ)を使用して行った。
【0077】
SNP及び繰り返しを含むプローブは取り除いた。加えて、X及びY染色体におけるプローブもまた取り除いた。使用されたコントロール群は、全21,692プロモーター領域を含んでいた。各群(コントロール、獲得及び喪失)について、我々は、プロモーター領域とオーバーラップしているHM450プローブ(それぞれ全、癌獲得及び癌喪失135606、2268、963プローブ)を同定した。検出p値>0.05を有するプローブは排除された。腫瘍及び正常対の間での(何れかの方向において)少なくとも0.2のDNAメチル化の平均変化を有するプローブを選択してプロットした。二サンプルウィルコクソン検定を行った。
【0078】
シングルヌクレオチドバリエーション(SNV)検出
シーケンシングデータはゲノム解析ツールキット(GATKバージョン2.6)中の最良のワークフローに従って前処理された。特、サムツール(samtools)を使い、PCR複製を取り除いた。残りの配列は、インデルの存在と、続くベースクオリティスリキャリブレーションのためにコアミスアラインメントを修正した。GC/正常対におけるシングルヌクレオチドバリアント(SNVs)はMuTect11を使用してコールした。我々は、MuTectによりレポートされたSNV特性を使用して、SNVをdbSNP部位又はプライベートSNVの何れかとして分類した。dbSNP部位は、以下の基準を有する基準:(i)それは公知のdbSNP部位である、(ii)部位が変異を検出するための力を受けている(a.k.aカバー部位)、及び(iii)それはMuTectにおけるバリアントフィルター手段を通過する。
【0079】
アレルバイアス及びプライベート/体細胞変異の検出
代替アレルフラクションは、各部位での代替アレルフラクションのコンピューティングによって決定された。
【0080】
GC/正常対において0.9よりも大きい平均代替アレルフラクションを示すホモ接合dbSNP部位を排除した。我々は、GC/正常対において0.3よりも大きな代替アレルフラクションディファレンスを示すヘテロ接合部位に注目した。
【0081】
癌関連クロマチンマーク変化を示す領域に対するアレルバイアス部位マッピングは、レグロームDB12を使用する機能的インパクトについて評価された。レギュロームDBヒットについて、我々はまた、インプットDNA集団におけるアレルバイアスの不足を定量的にパイロシーケンシングすることにより確認した。体細胞変異について、プライベート(非dbSNP)SNPに注目した。これらの「プライベート」SNPは、以下の基準を使用して特定された:(i)それが新規の非dbSNPバリアントである、(ii)腫瘍における代替アレルフラクションは、カバー部位で0.3よりも大きい、又はカバー部位で0.5である、(iii)部位カバレージがGCにおいて少なくとも14リードを有する、(iv)正常組織における対照部位に変異アレルがない。MuTectに加えて、プライベートSNPもまたCLCゲノムワークベンチ(CLC Bio)を使用して考慮され、特定された。癌関連クロマチンマーク変化を示す領域に対するプライベートSNPマッピングは、候補体細胞変位として看做された。
【0082】
定量的パイロシーケンシング、TF部位予測
パイロシーケンシングは、PyroMarkQ24(キアゲン)上で行われた。結果は、アレル定量化のためのパイロマークソフトウェアにより解析された。ChIP−qPCR−パイロシーケンシングのために、PCRプライマーは、ChIP DNAのリアルタイムPCR定量化と、テンプレートとしてWG増幅DNAを用いるパイロシーケンシングアレル定量化の両方のために使用された。定量化結果とアレル表示とを併合して、ChIPシグナルにおける2つのアレルのフラクションを推量した。結合部位予測は、TFBIND13(http://tfbind.hgc.jp/)を使用して行った。
【0083】
ルシフェラーゼアッセイ
ルシフェラーゼレポーターアッセイは、プロメガpGL3(ホタルルシフェラーゼ)及びRLSV40(レニラルシフェラーゼ)プラスミドを使用して行った。FOS遺伝子プロモーターをPCRによってヒトゲノムDNAからBglII−HindIIIリンカープライマーを用いて増幅し、pGL3−BASICプラスミドにライゲートした。野生型又は変異アレルの何れかを含むHOXA11関連フラグメント(〜350bp)が、ChIP−WGA DNAからBglIIリンカープライマーを用いて増幅され、FOSプロモーターの上流にクローニングされた。挿入方向及びアレル識別はサンガー配列により確認された。KATO−III GC細胞は、24ウェルプレート当たり1x10
6細胞で播種され、pGL3レポーター又は派生物(ウェル当たり100ng)及びpRLSV40 (ウェル当たり20ng)でリポフェクタミン2000(インビトロジェン)を使用してトランスフェクトされた。細胞は、トランスフェクション後の42時間で採取され、デュアル−ルシフェラーゼキット(プロメガ)によって提供されたPLB緩衝液で溶解され、ルシフェラーゼ活性が測定された。ホタルルシフェラーゼ活性の読み取りは、レニラルシフェラーゼ活性によって割り、トランスフェクション効率を標準化した。
【0084】
考察
ナノChIPseqは、1000細胞スケールまでを有効にしている(
図6)。主要なGC及び正常胃サンプルの5つの対応対がプロファイルされた(臨床詳細については
図1a)。クロマチンマークは、以下を含む;i)トリメチル化ヒストンH3リジン36(H3K36me3)、転写領域に関連する;ii)トリメチル化ヒストンH3リジン27(H3K27me3)、抑制領域;及びiii)ヒストンH3 H3K4me3、H3K4me1及びH3K27ac(ac=アセチル化)、マーキング活性プロモーター及びエンハンサー。各マークについて、イルミナシーケンシングタグによって独自にマッピングされた>45ミリオンが、CCATを使用して生成され、ピーク領域を呼ばれた(
図7)。ゲノム増幅を反映していると思われるChIPインプットタグの異常な存在度を示す腫瘍サンプルにおけるゲノム領域は、下流解析から排除した(
図8)。正常及び癌組織の両者についてのゲノム規模のクロマチンプロファイルが、限られた材料にも拘わらず(全てのマークのために〜5mg組織)、成功裏に得られた(
図1b)。例えば、腸の化生に関連するCDX2遺伝子でのプロモーター活性の癌特異的獲得(増加したH3K4me3及びH3K27ac)が観察された(
図1c)。
【0085】
活性な転写の領域(H3K36me3)が明らかになったクロマチンマークの比較は、抑制的なクロマチンの領域(H3K27me3)に限定されている(
図1b、d、GC2000721;
図9参照)。潜在的なプロモーター(H3K4me3によりマークされる)及びエンハンサー領域(H3K4me1陽性であるが、H3K4me3陰性)を明確にするために、5つの組織対からのH3K4me3及びH3K4me1ピーク領域を交差させた(
図1e)。>21Kプロモーター及び>125Kエンハンサー領域が同定された。64%のプロモーターが活性であり(H3K27ac−陽性)及び19%の推定エンハンサーがH3K27acによって少なくとも1つの組織においてマークされた(
図1e)。
【0086】
GCにおける体細胞的に変化したプロモーター及びエンハンサーの同定のために、シーケンシングタグ密度が、定量化され、GCと正常組織との間で比較された(read per kilo−base per million tags, RPKM)(
図1b、10、11)。GCと正常組織との間でのディファレンシャルなH3K4me3及びH3K27ac修飾が示された639のプロモーター、並びに975の体細胞的に変化したエンハンサーが同定された(方法を参照されたい)。これらの体細胞的に変化したエレメントを使用する主成分解析(PCA)及びクラスタリング解析により、正常組織GCと対応する正常組織との間に分離が確認された(
図1f−i、11)。
【0087】
主なGCにおける新規のプロモーターの獲得は、プロモーター喪失を上回っていた(472の獲得対167の喪失、
図2a)。予想外に、大部分の獲得プロモーター(58%)は、Refseqにおいて見出されたアノテート転写開始部位(TSS)、転写配列リファレンスデータベース(転写物配列)からの領域>500ベースペア(bp)に局在していた。獲得プロモーターにおける「潜在性プロモーター」のフラクションは、全体的なプロモーター集団又はGCにおけるプロモータ喪失の何れかよりも有意に大きかった(〜44%、p<7.1x10
−6、フィッシャーイグザクト検定)。癌関連プロモーター(潜在性プロモーターを含む)は、真実のRNA転写物に関連しているのかどうかを問うために、RNAシーケンシング(RNAseq)を次に、インデックス5GCを含む12の腫瘍/正常対において行った。大部分のプロモーター(59.5%、380のプロモーター)は、検出可能なRNA転写物に関連していた(
図2a)。正常組織に比較してGCにおいて>4倍の発現変化が示された192の転写物が同定され、これらの半分程度(48%、92のプロモーター)は、潜在性プロモーターに起因しており、それらの癌特異性性質を支持していた(
図2b)。ターゲットqPCRを使用して、10の潜在性プロモーター稼働性転写物が実験的に実証された(
図12)。
【0088】
癌関連プロモーター近くに位置する遺伝子は、胃腸腫瘍/消化器系癌に関連する遺伝子が有意にエンリッチであった(
図2c;GREAT解析により、p<1x10
−5)。潜在性プロモーターは、変化した5’構造を有する非カノニカルmRNAアイソフォームを介して、高い頻度でこれらの近くの遺伝子の発現を促進させる。例えば、GC2000721は、内在的な潜在性プロモーターを介してMET受容体の腫瘍特異的な発現を示し(
図2d−f、13)、受容体の二量化及びシグナリングを制御するN末Semaドメインを欠いているトランケーテットアイソフォームを産生した。MET発現Hs746T GC細胞の5’RACE(cDNA末端の迅速な増幅)解析が、このトランケーテットMETアイソフォームの発現を確認した(
図13)。興味深いことに、癌関連プロモーター近くに位置する遺伝子はまた、転写因子機能、胚発生及び細胞種特異化において有意な機能的なエンリッチメントを示した(p<2×10
−6、FDR q<1×10
−3;
図2c)。例えば、NKX6−3、神経系及び胃組織発達レギュレータ、は、カノニカルRefSeq NKX6.3 第1のエクソンをスキッピングする新規の5’エクソンを介して、癌特異的発現を示し(
図2g、14)、ホメオボックスドメインを修飾する新規の184アミノ酸N末端修飾をもたらす(
図14)。RACEを使用して、GCラインにおけるこれらの新規の5’エクソンの発明が確認された(
図14)。同様の5’転写物構造が、ホメオボックス転写因子HOXB9について観察された(
図2h、15)。これらの結果は、GCにおける潜在性プロモーター活性化を証明する。これらのプロモーターによって生成された非カノニカル転写物アイソフォームはまた、変化した細胞機能を有する蛋白質を産生する。
【0089】
これらの発現パターンを確認するために、H3K4me3マーク癌関連プロモーターにより稼働される遺伝子が、185のGC及び89の正常胃組織の拡張されたマイクロアレイコホートにおいて同様な腫瘍上方調節を示すことを確認した(p=5.68x10
−6;
図2i、16)。H3K4me3マーク遺伝子の高い発現を示すGCは、高いM期(p=0.033;
図17)、広範なローレンの組織病理(p=9.99x10
−5;
図17)、及びGCと比較したより悪い全生存率を示したが、ここにおいてこれらの遺伝子は、低く発現された(
図2j;logランク検定、p値=0.04)。多変量コックス回帰解析は、生存転帰は腫瘍の病期から独立していないことが明らかになった(p=0.74)。GCにおいてH3K4me3マークプロモーターにより稼働される遺伝子は従って、GCの病理学的及び臨床的な特徴に寄与している。
【0090】
161の転写因子(ENCODE コンソーシアム)のゲノム占有データに対してマッピングされたとき、癌関連プロモーターは、既定の転写因子結合部位の一般化された減少を示すが(
図3a、18a)、しかしながらSUZ12及びEZH2結合においては、有意なエンリッチメントが示された(SUZ12及びEZH2についてp=1.2×10
−24及びp=1.1×10
−4、訂正ボンフェローニ)。SUZ12及びEZH2は、ポリコンボコンプレックス2(PRC2)の成分であり、これは、胚幹細胞(ESC)における主要な発生遺伝子をターゲットにしており、また癌の進行にも関与している。対照的に、GC関連エンハンサーは、SUZ12/EZH2エンリッチメントを示さず、しかしながら、フォルクヘッド(forkhead、FOX)、GATAファミリーメンバー、及びFOS及びJUN細胞周期調節因子を含む発生レギュレーターに関与した(p<0.05)(
図3b)。
【0091】
GC関連プロモーターとESCにおけるPRC2ターゲット領域との間で幾つかの共通性が存在した。第一に、GCプロモーターとオーバーラップしているSUZ12部位は、ESC及び胚癌細胞から供給され、他のENCODE細胞種(例えば、リンパ芽球株)からではなかった。第二に、ESCにおいて、PRC2結合は、二価/転写準備状態クロマチン状態(H3K4me3及びH3K27me3陽性)に関連し、同様にGCプロモーターは、ESCにおいてH3K4me3及びH3K27me3二価性を示す領域でエンリッチであり(p<2.2x10
−16;
図3c)、例は、ホメオボックス遺伝子ONECUT2について示す(
図3d)。第三に、ESCにおいて、PRC2ターゲット領域は、DNAメチル化喪失を示す。イルミナメチレーションアレイを使用して、確認されたGC関連プロモーターはまた、全体集団と相対的に、DNAメチル化レベルの減少を示した(p=7.07x10
−48)(
図3e)。GCにおける癌関連プロモーターは従って、幹細胞におけるPRC2ターゲット領域と類似し得る。
【0092】
ナノChIPseq データにおけるシングルヌクレオチドバリアント(SNV)を同定するために、MuTectに基づいて解析的パイプラインが開発された、感受性変異/バリアント同定アルゴリズム。335,918の独自のSNVが、併合したH3K4me3、H3K4me1、H3K27ac及びインプットデータにおいて同定された。バリアントコーリングパイプラインの精度を支持して、99.8%のSNV(335,247)が公知のSNP(dbSNP137)に対応した。同定されたdbSNPのうちで、おおよそ〜251,800は、少なくとも1つのサンプルにおいてヘテロ接合であった。
【0093】
調節エレメントに対するヘテロ接合SNPのマッピングは、非アレルバイアス部位とアレルバイアス部位とに分けることが可能であることが明らかにされた。非バイアス部位では、ナノChIPseq 配列リードは、リファレンスとバリアントアレルとの均等な割合を示した。例えば、GC2000639は、TNK2遺伝子遺伝子座での癌関連プロモーターを示した(
図4a、b)。この患者からの正常DNAにおいて、この領域は、dbSNP rs7636635(
図4c)についてヘテロ接合であり、且つ同様に腫瘍においては、H3K4me3エンリッチリードは、リファレンス及びrs7636635アレルの両者を持つリードの均等な割合によって導かれた(
図4c、d)。対照的に、アレルバイアス部位は、一方のアレルの方向に歪められたナノChIPseqリードを表示した。これは、NUDT4遺伝子座での癌関連プロモーターにおいて観察された(
図4e、f)。この患者からの正常DNAの解析は、rs4761701についてのヘテロ接合性を確認したが(Fig. 4g)、しかしながら腫瘍においては、H3K4me3エンリッチリードは、リファレンスアレルよりも寧ろrs4761701アレルを持つリードによって主に導かれた(
図4g、h)。
【0094】
癌サンプルにおけるアレルバイアス部位は、ヘテロ接合性の喪失(LOH)、又はクロマチンマークのための特異的なアレルの活性なエンリッチメント(アレル特異的調節エレメント)の何れかにより引き起こされ得ることは筋が通っていた。癌に関連するアレル特異的調節エレメントを同定するために、アレルバイアスを示すヘテロ接合性部位(>30%のSNP上方発現(over−representation);
図4i)が、GCと正常組織との間のクロマチンマーク変化を示す領域とオーバーラップしていた。151の候補部位のうち(
図4j)、特に興味のある17のアレル(11%)をレギュロームDB、ヒト調節バリアントのデータベース、によって蛋白質DNA結合に影響を与えることについて予測されるものとして注目した(レギュロームDBスコア1又は2)(
図4k)。これらの17部位のうちの12は、更に定量的パイロシーケンシング(5部位は、PCR又はシーケンシングの不成功のために分析できなかった)によって確認でき、残りの12のChIPエンリッチリード内の9の部位(75%)中のアレルバイアスの存在を、しかしながら癌においではなく、正常インプットDNAにおいて、確認され、このバイアスが癌組織におけるLOHに起因するものではないことが示される。4のアレルが、以前に同定されたeQTLに対応しており(
図4k)、eQTL dbSNPrs2659104についてのアレルバイアスが示されたKLK1遺伝子を含んでいた(
図4l−n)。これらの結果は、GC遺伝子発現のコントロールパターン中のアレル特異的調節エレメントについての潜在的な役割を強調し、アレルバイアス部位に関連する幾つかの遺伝子は、GCにおいて予てより関連している見なされてきた通りである(例えば、CLDN4、MTAP、SERPINB5)。
【0095】
dbSNPに加えて、GC関連調節エレメントにオーバーラップするプライベート(非dbSNP)SNVsもまた同定された。4つのプライベートSNVが真の体細胞変位であることが確認され、それは、GCにおいて存在するが、正常組織では存在せず、CHD10、HOXA5、FAR2及びHOXA11に関連する非コーディング領域において生じた(
図5、19−21)。これらのうちで、CHD10及びFAR2変異は、インプット腫瘍DNAと相対的なH3K4me3エンリッチリードにおけるアレルバイアスと、更に腫瘍関連遺伝子発現を示した。HOXA11関連A−T変異は、多数の癌におけるHOXA11の関与の理由から注目された。5つのラインのエビデンスは、この体細胞変異が機能的であり、バイスタンダー変化ではないことを示唆する。第一に、GC2000639におけるこの変異の存在が、H3K4me3及びH3K27acプロモーターマーク獲得に関与した(
図5a−c)。第二に、この変異の存在が、GCにおける上方調節されたHOXA11遺伝子座RNA発現に関連した(
図5a)。第三に、H3K27acシーケンスリードにおいて、T変異アレルは、アレルバイアスを示し、これは、インプット腫瘍DNAと相対的に高い上方発現(96%)であり、そこにおいてその体細胞変異 アレル頻度は、〜10%又はそれ未満である(
図5c−d)。
【0096】
第四に、この変異の存在は転写因子結合を変化させることが予測される(
図5e)。第五に、ルシフェラーゼレポータアッセイにおいて、変異Tアレルを持つゲノムDNAフラグメントが、野生型Aアレルを持つゲノムDNAと比較して有意に大きな転写活性を示した(p=1.1x10
−4、
図5f)。これらの結果は、ナノChIPseqがGCにおける機能的調整力のある体細胞変異を同定できることを明示する。
調節エレメントは、ヒトゲノムの1.5〜10%を占めること、及び発生及び疾病に強く影響を与えることが推測される。しかしながら、これらのエレメントを位置付けること、それらの活性の生物学的状態を明確にすることは、依然として重要な課題として残っている。ここで、ナノChIPseqを使用し、初期のGCにおけるクロマチン変化の初回通過調査を行った。将来においては、ナノChIPseqは、他の腫瘍種類に、またより少ない細胞数にまで拡大され、診断生検及び薬物耐性クローニングの解析を容易にし得る。翻訳の観点から、我々の所見はまた潜在性プロモーター及びそれらに関連する非カノニカル転写物が癌診断のためのバイオマーカーとして利用できると考えられることを示唆する。
【0097】
例2
方法
組織サンプル
主な患者サンプルは、ザ・サンゲヘルス・ティッシュ・レポジトリー(the Singhealth tissue repository)から入手され、企業研究倫理審査委員会からの承認をもって収集され、患者のインフォームド・コンセントに署名を受けた。
【0098】
この研究において使用された「正常」(非悪性)サンプルは、胃から採取された、腫瘍から離れた部位からの、外科的な評価上で腫瘍の視覚的な兆候又は腸上皮化生/異形成を示してないサンプルをいう。腫瘍サンプルは、低温切開片が>40%腫瘍細胞を含むことにより確認された。
【0099】
ナノChIPseq
ナノChIPseqは、組織分離工程を伴い、従来記載されている通りに行われた。新鮮凍結癌及び正常組織は、液体窒素中でカミソリ刃を使用して切開し、〜5mgの大きさの小片を得た(見掛け容量による〜5μl)。組織小片は、1%のホルムアルデヒド/PBS緩衝液中で10分間(min)室温で固定された。固定は、125mMの最終濃度にまでグリシンを添加することにより停止した。
【0100】
組織小片をTBSE緩衝液で3回洗浄し、リソネーター・カートリッジ(Lysonator cartridges、SG Microlab Devices、シンガポール)内に移した。組織を製造者のガイドラインに従って解離させ(4KHz、3分間)、ナノChIPアッセイにおける溶解工程に直接に持ち込んだ。溶解された組織は、200μlの溶解緩衝液中で溶解され、バイオラピュター(Bioruptor、Diagenode)を使用する超音波処理(6分間)のために2本の1.5ml試験管内に分配した。各組織について、ChIPを以下の抗体:H3K4me3(07−473、Millipore);H3K4me1(ab8895、Abcam);H3K27ac(ab4729、Abcam);H3K36me3(ab9050、Abcam);H3K27me3(07−449、Millipore)を使用し、同じクロマチン調製物を使用して行った。
【0101】
ChIP及びインプットDNAの回収の後、全ゲノム増幅をWGA4キット(Sigma-Aldrich)及びBpmI−WGAプライマーを使用して行った。
【0102】
増幅されたDNAをBpmI(New EngliandBiolabs)で消化した。10ngの増幅DNAを各イルミナ・シーケンシング・ライブラリーのために使用した。ライブラリー調製は、E6240ニュー・イングランド・バイオラボ・キットを使用して行われ、次に、E7335ニュー・イングランド・バイオラボ・キットのを使用するシーケンシングの前にマルチプレックスされた。
【0103】
ナノChIPseqリードマッピングとピークコーリング
シーケンシングタグは、ヒトリファレンスゲノム(hg19)に対して、バーロウズ・ウィラー・アライナ(Burrows−Wheeler Aligner、BWA)ソフトウェア(バージョン0.7.0)及び「aln」アルゴリズムを用いてマッピングされた。20のMAPQフィルターが適用されて、低質のリードを除去し、全PCR複製物もまた、ピカードからのマークダップ(MarkDup、Picard)を使用して除去された。独自にマッピングされたタグが、CCATバージョン3.0によるピークコーリングのために、ヒストン修飾のための50bpの移動工程を伴って、フラグメントサイズ200bp及び500bpのスライディングウィンドウと共に使用された。ピーク領域は、見せかけの発見率(false discovery rates、FDR)5%によりフィルタリングされた。
【0104】
ChipSeqシグナル解析
転写開始部位(TSS)周辺でのH3K4me3及びH3K27acシグナル強度プロットを、し、Refseqにおける全アノテートTSS周辺の各クロマチンマークの平均カバレージを計算することによってプロットした。公知のTSS周辺の6kbウィンドウは、H3K4me3及びH3K27acの両者についての100bp及びカバレージのビンに分配し、計算して、各ビンを交差して平均にした。
【0105】
全H3K4me3領域をGCサンプル及び正常サンプルのそれぞれについてベッドツールを使用してマージし、オーバーラップしている領域をコモン領域として計数した。何れのオーバーラップのない領域をプライベート領域と称する。サンプルのうちのH3K4me3領域間でのオーバーラップについてゲノムnull予測を提供するために、コンセンサス領域をベットツールからのシャッフルベッドを使用して、全体のリファレンスゲノムに亘ってシャッフルしたが、しかしなら、ENCODE DACブラックリスト領域及びgap領域(ダンハム,Iらからの公表された領域のセットがある(Dunham, I., et al. An integrated encyclopedia of DNA elements in the human genome. Nature 489, 57−74 (2012))については除外した。当該領域は、1000回シャッフルし、経験的p値をオーバーラップ分布を使用して発生させた。
【0106】
体細胞的に変化したプロモーターの同定
癌対正常サンプルにおいてディファレンシャルエンリッチメントを有するH3K4me3領域をバイオコンダクターからのDESeq2アルゴリズムを使用して同定した。エンリッチメントは、癌性サンプル対非癌性サンプルにおけるH3k4me3の獲得である。シーケンシングタグ計数のマトリックスは、1)全GC及び正常サンプルを横切る全同定プライベートを結合させること;及び2)全サンプル横切る各領域におけるシーケンシングリードの数を決定することにより生成された。工程1)及び2)の両者は、ベットツールを使用して行われた。
【0107】
DESeq2検定は、ChIPseqを含む種々のシーケンシングアッセイおいて、負数の二項式一般化線形モデルの使用により、ディファレンシャルエンリッチメントを決定する。全サンプルからのシーケンシングタグ計数のマトリックスは、ベッドツールを使用する複製を交差して同定されたH3k4me3の結合を得ること、及び各得られたプライベート領域におけるシーケンシングリードの数を計数することにより、DESeq2検定のためのインプットとして生成され、ここにおいて、DESeq2検定は、負数の二項式一般化線形モデルに適合し、プライベート領域を明らかにし、それらは、胃癌と正常サンプルとの間で統計的に異なり、即ち、体細胞的に変化したプロモーターである。統計的に異なるとは、見せかけの発見率(False Discovery Rate)が10%、即ち、p値が0.1、並びに絶対倍率変化が1.5である統計的閾値をいう。
【0108】
ディファレンシャル領域は、腫瘍及び正常群、並びに個々のサンプル特異的ピークの両者から同定された。
【0109】
代替プロモーター同定
GENCODE転写物は、それらのftpサイトからダウンロートされ、一方で、Refseq転写物は、UCSCブラウザーからダウンロードされた。GENCODE転写物転写についてのサポートレベル情報は、UCSC ftpサイトからダウンロードした。アノテートTSSは、転写物開始位置を−/+500塩基にまで拡張することにより定義された。ディファレンシャルなエンリッチH3K4me3ピーク領域は、TSS領域に対して比較され、オーバーラップが決定された。RNAseqリードの新しい集団化は、カフリンクス−2.2.0.12によって行われ、非アノテートH3K4me3ディファレンシャル領域は、クラスコード「j」又は「u」を有する新規集団の第1のエクソンとのオーバーラップによってフィルタリングされた。
RNAseq解析
リードは、独自のマッピングを使用するTopHat2−2.0.12を使用してヒトリファレンスゲノムに対して位置合わせされた。トランスクリプトームは、カフリンクス2−2.0.12を使用して新たに集団化され、全GC転写物アッセンブリは、「カフリンクス2−2.0」を使用してマージされ、コンセンサストランスクリプトームを得た。TCGA胃腺癌についての生RNAseqデータは、TCGAレポジトリー(http://cancergenome.nih.gov/)からダウンロードされた。
【0110】
ポイズドプロモーター解析(Poised Promoter Analysis)
ディファレンシャルエンリッチ領域は、3サンプルからのCCAT3コールH3K27me3ピークとオーバーラップしており(1bpのオーバーラップ)その存在又は不在が決定される。
【0111】
考察
GCにおけるプロモーター領域の同定
ナノChIPseqを使用し、8つのGC及び対応する正常サンプルの拡大されたコホートを使用して、胃癌(GC)のプロモーターエレメントをマーク、H3K4me3及びH3K27acに関連する2つのプロモーターで特徴付けした。ピークは、CCAT3を使用してコールし、サンプル当たりの平均11kのH3K4me3及び34kのH3K27acピークを同定した。70〜80%のH3K4me3領域がGC及び正常組織の両者においてサンプル間で共通し、偶然に予期よりも大きい(p<0.001)。
【0112】
H3K4me3及びH3K27acの両者は、転写開始部位(TSS)周辺でエンリッチなスタンダード二峰性分布を示した(
図22a)。H3K27acは、H3K4me3に比較して弱いシグナルを示したが、これは、一定のそれの広範に及ぶ多量な全活性調整領域のマーキングが予期される。99%よりも大きな全H3K4me3領域は、DNAseI過感受性部位(ENCODEより)とオーバーラップした。GC(r=0.91、p<0.001)(
図22b)及び正常サンプル(r=0.91、p<0.001)の両者は、強い陽性の相関関係をH3K4me3及びH3K27ac有する。H3k27acの存在を含む全H3K4me3領域は、活性なプロモーター領域としてマークされた。コモン(即ち、反復性(recurrent))GCプロモーターにおける活性(即ち、H3K27ac陽性)領域の割合領域は、プライベートプロモーター、並びに正常サンプルにおけるプロモーターよりも高かった(
図22c)。
【0113】
GCにおける体細胞的に変化したプロモーターの同定
ゲノム規模での体細胞的に変化したプロモーターの同定のために、シーケンシングタグ計数のマトリックスを主なGCと対応する胃正常組織との間で比較し、負数の二項式分布 (DESeq2アルゴリズムによる解析されたとき)を推測した。正常組織のプールに対して全8GCサンプルを比較すると、516の確実に体細胞的に変化した領域(q<0.1、倍率変化>1.5)が得られ、それらの〜60%は、GCにおいて獲得されたか、後成的に活性化されたものであった(
図23c)。
同定領域についてサンプルを交差するH3K4me3シグナルのクラスタリングは、区別可能な分離を確認した(
図23b)。同様な結果(95%コンコーダンス)は、代替的な計数ベースディファレンシャルアルゴリズムを使用して得られ、我々の結果が強固であり方法独立性であることを確保している(
図23a)。
【0114】
249の体細胞的に変化した領域(48%)は、2倍FPKMベースシーケンシングタグ密度比較で使用された例1の639のプロモーターの同定のために追加された。主なGC新規のプロモーターの獲得は再度、プロモーター喪失を上回り、即ち、148(60%)獲得対101喪失であった。全体の620のプロモーター領域は、GCにおいて獲得され(70%)、対してGCにおいて260の喪失であった。
【0115】
転写物のより包括的なデータベースを使用して、体細胞的に変化した領域を、公知のGENCODE TSS周辺の1kbウィンドウとオーバーラップさせて、それらに注釈をつけた(アノテートした)。62%の体細胞的に変化したプロモーター領域は、公知の転写物にオーバーラップした。しかしながら、実質的に38%がアノテートTTSの500bpを越えて存在した(
図23d)。
【0116】
特定のlociでのH3K4me3エンリッチメントは、GC影響転写物セレクションにおける代替プロモーター使用のパタンの観察に役立った。553の(GCにおける63%獲得)体細胞的に変化したプロモーター領域が、公知の転写物にオーバーラップした。優先的な活性化/抑制が、1つの転写物はマルチ転写遺伝子における他のもの、例えば、HNF4Aを越えて観察された。HNF4Aは、周知の転写因子遺伝子であり、肝臓、腎臓及び腸の発生を調節する。GCにおいて、HNF4Aは、過発現することが報告されており、近年の免疫組織化学的研究は、そのマーカーとしての可能性を示しており、乳癌組織からGC組織を区別している。
【0117】
GCにおけるH3K4me3エンリッチメント(FC2.52、q<0.001)がカノニカルHNF4AアイソフォームTSSのおおよそ45kb下流のプロモーターで観察された。カノニカルプロモーターは、他方で、GC及び正常における同等のリジントリメチル化が示され、下流プロモーターのGC特異的使用、従って、HNF4Aの短い蛋白質コーディングアイソフォームであることが際立たされた(
図24a)。
【0118】
そのような代替プロモーター使用を例を伴う他の癌関連遺伝子は、とりわけEPCAM(FC1.64、q<0.001)、KRT7(FC2.00、q<0.001)、AIM1L(FC1.95、q<0.001)であった。FC及びq値統計は、DESeq2解析に由来し、そこにおいてFCは倍率変化を定義する。
【0119】
体細胞的に変化したプロモーターまた頻繁に、マルチ転写物に関連する遺伝子における1つの転写物のみとオーバーラップし、主要プロモーター及び癌特異的アイソフォームをマーキングする(
図24b)。CEACAM6は、この現象の目立つ例であり、2つの公知の蛋白質コーディング転写物のうちの一方のアイソフォームだけが、GCにおけるH3K4me3エンリッチメントを示した(FC 2.56, q<0.001)。多様なそのような例が、GCにおけるカノニカルアイソフォームを越える公知の代替転写物の使用が観察されているが、それらは、H3K4me3、例えば、CLDN4(FC2.71、q<0.001)、SHD(FC2.14、q<0.001)、CEACAM18(FC2.10、q<0.01)及びSULT2B1(FC2.33、q<0.001)によるそれらのプロモーター領域の後成的な活性化又は抑制により決定される。
【0120】
非常に転写サポートエビデンスに乏しい(tsl 2以上)GENCODE転写物とオーバーラップしている体細胞的に変化した領域の例も観察された。そのようなGENCODE転写物アノテーションは、殆どない、又はmRNAのサポートがないが、Refseqなどの更にキュレーテッドなデータベータにもしばしば含まれていない。
【0121】
そのような転写物のTSSとオーバーラップしている109エンリッチ領域が観察され、GCにおけるRNA発現によりサポートされ、それはこれらのGC特異的使用、さもなくば非サポートのアイソフォームが際立つ。1つのそのような例は、MYO15Bであり、転写された偽遺伝子であり、その非サポートのアイソフォームプロモーターでGCにおけるH3K4me3の有意な獲得(FC2.16、q<0.01)を示し、一方で、そのカノニカルアイソフォームではH3K4me3は完全に不在であった(
図24c)。
【0122】
更なる潜在性プロモーターは、GC特異的アイソフォームの新規の5’開始部位のマーキングにより同定され、これは真のRNA転写物に関連した。目立つ例は、Ras GTPase活性化蛋白質3(RASA3)であり、これはGC組織においてのみ転写される新規の非常に短いアイソフォームを形成するカノニカル転写開始部位からおおよそ127kb下流のプロモーター領域で、GCサンプル中でディファレンシャルH3K4me3エンリッチメントを示した。カノニカルアイソフォームは、GC及び正常組織の両者における等量のH3K4me3を示した。そのような新規の5’開始部位アイソフォームの他の例は、GRIN2D(FC2.52、q<0.001)、ONECUT3(FC2.52、q<0.001)及びTNNI3(FC2.52、q<0.001)であった。
【0123】
代替プロモーター使用はまた、代替GC特異的アイソフォームの蛋白質を変化させる。公知又は新規に集合化され、代替プロモーターから発生するアイソフォームのゲノム配列が使用されることにより、蛋白質ドメインの存在が予測され、ドメイン組成がカノニカルアイソフォームのそれと比較され、蛋白質変化の例が見いだされる。
【0124】
代替アイソフォームがRNAseqによりサポートされている場合、次に、蛋白質組成物変化内容について選択される。10のそのような高い確かさの遺伝子は、RASA3を含む蛋白質ドメイン多様性を示すことについて同定される(
図25b、表1)。
【表1】
【0125】
GC特異的の短いアイソフォームは、RasGAPドメインを欠いており、それは、Rasの活性を下方調節する分子スイッチとして作用する。このドメインの不在において、それは、GTP結合RASの発現の増大が引き起こされ、ひいては異常な細胞増殖が引き起こされ得る。
【0126】
また、体細胞的に変化した領域におけるH3K27me3マークの存在も観察された。多くの場合において、H3K27me3マークは、GC又は正常組織の何れかにおいて観察され、それは、一価の状態から二価の準備状態又はその逆も同様に、プロモーターの変化を潜在的にマーキングする。例えば、TNFSF9、腫瘍ネクローシスファクター結合に関与するサイトカインであり、GCに関与するエプスタイン・バー・ウイルス(EBV)において発現されることが示されており、H3K4me3の獲得及びGCにおけるH3K27me3の存在が示されており、その一方で、抑制的なトリメチル化マークが正常組織には不在である。TNFS9は、コンコーダンスな低レベルRNAseq発現(FPKM 4.9)を有し、GCにおいて準備された後成的な状態を備える。
同定された体細胞的に変化したプロモーターは、GCにおける広範な代替プロモーターの使用で際立ち、且つ裏付けられ、同時に代替プロモーターの使用が得られる蛋白質の蛋白質ドメインのインパクトとなり、それがGCに対して特異的であり得ることが明らかである。
【0127】
そのようなものとして、上記の観察及び実験データに基づいて、対応する正常サンプルとの比較において、8の主要な胃癌(GC)の拡張されたコホートを使用することにより、アルゴリズム(Deseq2)に基づいて計算されたリード計数マトリックスが、付加的な体細胞的に変化したプロモーター領域を同定することを可能にする。体細胞的に変化したプロモーター領域の同定は、癌に特異的な幅広い代替プロモーターの使用を際立たせ、且つ裏付けられ、それは1つの転写物のプロモーターの優先的な変更を経るか、又はマルチ転写遺伝子における使用における主要な転写産物のプロモーターの変更によるかの何れかによって、胃癌に関して例証された通りであり、更に、付加的な「潜在性プロモーター」は、非カノニカルアイソフォームの5’開始部位をマーキングする拡大されたコホートにおいて同定された。
【0128】
上記の非カノニカルアイソフォームは、特定の癌に特異的であり得る、得られる蛋白質のドメイン組成における変化を示したが、例えば、表1においては、GCに特異的であり得る蛋白質を説明している。これらの潜在性プロモーター及び関連する非カノニカル転写物は、ターゲットセラピー及び癌診断のためのバイオマーカーとして使用され得る。そのようなものとして、ここに開示された本発明及び方法は、対象における癌の検出及び診断を可能にするためのバイオマーカーとして特定されるものであり、且つ提供されるものである。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1]
非癌性生物サンプルと相対的に、癌性生物サンプル中の少なくとも1つのプロモーターの活性を決定する方法であって、
前記癌性生物サンプルから得られた少なくとも1つのプロモーター配列を含む単離された核酸を、前記非癌性生物サンプルから得られたリファレンス核酸と対照してマッピングし、前記少なくとも1つのプロモーターについて100万当たりのキロベース当たりのリード(RPKM)値又は100万当たりのキロベース当たりのフラグメント(FPKM)値を得ること;及び
前記RPKM又はFPKM値を使用して、前記リファレンス核酸配列中の前記少なくとも1つのプロモーターの活性と相対的に、前記核酸中の前記少なくとも1つのプロモーター配列のディファレンシャル活性を決定すること
を含む方法。
[2]
[1]の方法であって、前記癌性生物サンプル及び非癌性生物サンプルが、単一細胞、多細胞、細胞のフラグメント、体液又は組織を含む方法。
[3]
[1」〜[2]の何れか1つの方法であって、前記癌性生物サンプル及び非癌性生物サンプルが同一の対象から得られる方法。
[4]
[1]〜[3]の何れか1つの方法であって、前記癌性生物サンプル及び非癌性生物サンプルがそれぞれ異なる対象から得られる方法。
[5]
[1]〜[4]の何れか1つの方法であって、前記核酸は、クロマチンの免疫沈降によって前記癌性生物サンプルから単離され、前記核酸は、前記少なくとも1つのプロモーターを含む方法。
[6]
[5]の方法であって、クロマチンの免疫沈降が、修飾されたヒストン蛋白質に対して特異的な抗体によって達成される方法。
[7]
[6]の方法であって、前記修飾されたヒストン蛋白質が、H3K4me3、H3K4me1及びH3K27acからなる群より選択された少なくとも1つのヒストン修飾を含む方法。
[8]
[7]の方法であって、前記抗体が、H3K4me3、H3K4me1及びH3K27acからなる群より選択された少なくとも1つのヒストン修飾に対して特異的である方法。
[9]
[1]〜[8]の何れか1つの方法であって、前記少なくとも1つのプロモーターを含む単離された核酸は、少なくとも1つのプライマーで増幅される方法。
[10]
[9]の方法であって、前記増幅された核酸は、前記増幅された核酸を含む核酸配列ライブラリの構築のために使用される方法。
[11]
[1]〜[10]の何れか1つの方法であって、前記マッピング工程が、前記リファレンス核酸と相対的に、前記マッピングされた核酸中の当該少なくとも1つのプロモーターについての全配列tagに基づいて前記RPKM値を計算することを含む方法。
[12]
[1]〜[10]の何れか1つの方法であって、前記マッピング工程が、前記リファレンス核酸と相対的に、前記マッピングされた核酸中の当該少なくとも1つのプロモーターに関連する同定された転写配列に基づいて前記FPKM値を計算することを含む方法。
[13]
[1]〜[12]の何れか1つの方法であって、前記少なくとも1つのプロモーター配列のディファレンシャル活性を決定する工程が、前記癌性生物サンプルから得られた当該核酸中の少なくとも1つのプロモーターについての前記RPKM又はFPKM値が、
i)前記非癌性生物サンプルから得られた前記リファレンス核酸中の当該少なくとも1つのプロモーターの前記RPKM又はFPKM値と相対的に、平均RPKM又はFPKM値における変化が1〜20倍の間、例えば、1倍、2倍、3倍、4倍又は5倍よりも大きい;及び
ii)前記非癌性生物サンプルから得られた前記リファレンス核酸中の前記少なくとも1つのプロモーターの前記RPKM又はFPKM値と相対的に、RPKM又はFPKMの範囲が0.1よりも大きい
ことを決定することを含む方法。
[14]
[1]〜[13]の何れか1つの方法であって、前記少なくとも1つのプロモーターは、当該全プロモーター集団と相対的に、SUZ12結合部位の増加を含む方法。
[15]
[1]〜[14]の何れか1つの方法であって、前記少なくとも1つのプロモーターは、細胞種特異化、胚発生又は転写因子に関連する遺伝子に近傍に位置する方法。
[16]
[15]の方法であって、前記少なくとも1つのプロモーターは、癌に関連する遺伝子に近傍に位置する方法。
[17]
[16]の方法であって、前記遺伝子が、NKX6−3、SALL4、HOXB9、MET、TNK2、KLK1、FAR2、HOXA11又はHOXA11−ASである方法。
[18]
[1]〜[17]の何れか1つの方法であって、前記癌が胃癌である方法。
[19]
[1]〜[18]の何れか1つの方法であって、前記少なくとも1つのプロモーターが、潜在性プロモーターを含む方法。
[20]
癌に対する対象の感受性を決定する方法であって、
前記対象の癌性生物サンプルから得られた少なくとも1つのプロモーターを含む単離核酸を非癌性生物サンプルから得られたリファレンス核酸に対照してマッピングし、前記少なくとも1つのプロモーターについてのRPKM又はFPKM値を得ること;及び
前記RPKM又はFPKM値を使用して、前記リファレンス核酸中の当該少なくとも1つのプロモーターの活性と相対的に前記核酸中の前記少なくとも1つのプロモーターのディファレンシャル活性を決定すること;
を含み、
ここにおいて、前記非癌性生物サンプル中のそれと相対的な、当該癌性生物サンプル中の前記少なくとも1つのプロモーターの活性の増大が、癌に対する当該対象の感受性を示す
方法。
[21]
対象において癌に関連する少なくとも1つのプロモーターの存在を決定する方法であって、
前記対象の癌性生物サンプルから得られた少なくとも1つのプロモーターを含む単離された核酸を非癌性生物サンプルから得られたリファレンス核酸と対照してマッピングし、前記少なくとも1つのプロモーターについてのRPKM又はFPKM値を得ること;及び
前記RPKM又はFPKM値を使用して前記リファレンス核酸中の前記少なくとも1つのプロモーターの活性と相対的に、前記核酸中の前記少なくとも1つのプロモーターのディファレンシャル活性を決定すること;
を含み、
ここにおいて、前記非癌性生物サンプルのそれと相対的な、前記対象から得られた当該癌性生物サンプル中の当該少なくとも1つのプロモーターの活性の増大が、対象における癌に関連するプロモーターの存在を示す方法。
[22]
[21]の方法であって、前記癌に関連する少なくとも1つのプロモーターは、
当該生物サンプルから得られた当該核酸中の前記1つのプロモーターについてのRPKM又はFPKM値が、
i)非癌性生物サンプルから得られた当該リファレンス核酸中の当該少なくとも1つのプロモーターの当該RPKM又はFPKM値と相対的な平均RPKM又はFPKM値の変化が1〜20倍の間、例えば、1倍、2倍、3倍、4倍又は5倍よりも大きいとき;及び
ii)非癌性生物サンプルから得られた当該リファレンス核酸中の当該少なくとも1つのプロモーターの当該RPKM又はFPKM値と相対的にRPKM又はFPKMの範囲が0.1よりも大きいとき;
に存在する方法。
[23]
対象において癌を検出するためのバイオマ−カ−であって、前記バイオマ−カ−は、正常な非癌性生物サンプルと相対的に癌性生物サンプルにおける活性の増大を有する少なくとも1つのプロモーターを含み、前記プロモーターは、全プロモーター集団と相対的に、増大したSUZ12結合部位を含むバイオマ−カ−。
[24]
[23]のバイオマーカーであって、当該少なくとも1つのプロモーターが、全プロモーター集団と相対的に低いDNAメチル化レベルを提示するバイオマ−カ−。
[25]
[23]又は[24]の何れかのバイオマ−カ−であって、前記少なくとも1つのプロモーターが、細胞種特異化、胚発生又は転写因子に関連する遺伝子の近傍に位置しているバイオマ−カ−。
[26]
[25]のバイオマ−カ−であって、当該遺伝子が、NKX6−3、SALL4、HOXB9、MET、TNK2、KLK1、FAR2、HOXA11又はHOXA11−ASであるバイオマ−カ−。
[27]
[23]〜[26]の何れかのバイオマーカーであって、前記少なくとも1つのプロモーターが潜在性プロモーターを含むバイオマーカー。
[28]
非癌性生物サンプルと相対的に癌性生物サンプル中の癌に関連する少なくとも1つのプロモーターの存在を決定する方法であって、
前記非癌性生物サンプルから得られたリファレンス核酸に対して、前記癌性生物サンプルから得られた少なくとも1つのプロモーター配列を含む単離された核酸をマッピングすること;
前記マッピングすることに基づいて前記少なくとも1つのプロモーターについてシーケンシングタグ計数のマトリックスを発生させること;
前記シーケンシングタグ計数のマトリックスを解析すること;及び
前記シーケンシングタグ計数のマトリックスの解析を使用して前記リファレンス核酸中の当該少なくとも1つのプロモーターと相対的に前記核酸中の当該少なくとも1つのプロモーターのディファレンシャルエンリッチメントを決定すること;
を含み、ここにおいて、非癌性サンプル中のそれと相対的に、当該対象から得られた当該癌性生物サンプル中の前記少なくとも1つのプロモーターの前記ディファレンシャルエンリッチメントが、対象における癌に関連するプロモーターの存在を示す
方法。
[29]
非癌性生物サンプルと相対的に、癌性生物サンプル中の少なくとも1つのプロモーターの活性を決定する方法であって、
前記非癌性生物サンプルから得られたリファレンス核酸に対して、前記癌性生物サンプルから得られた少なくとも1つのプロモーター配列を含む単離された核酸をマッピングすること;
前記マッピングすることに基づいて前記少なくとも1つのプロモーターについてシーケンシングタグ計数のマトリックスを発生させること;
前記シーケンシングタグ計数のマトリックスを解析すること;及び
前記シーケンシングタグ計数のマトリックスの解析を使用して前記リファレンス核酸中の前記少なくとも1つのプロモーターと相対的に、前記核酸中の当該少なくとも1つのプロモーターの当該ディファレンシャル活性を決定すること
を含む方法
[30]
[28]又は[29]の方法であって、前記発生させる工程が、前記リファレンス核酸と相対的に、当該マッピングされた核酸中の少なくとも1つのプロモーターについてのシーケンシングタグ計数に基づく当該マトリックスを計算することを含む方法。
[31]
[28]又は[29]に記載の方法であって、前記解析する工程が、DESeq2アルゴリズムを使用して当該マトリックスを解析することを含む方法。
[32]
[28]又は[29]の方法であって、前記少なくとも1つのプロモーターは、癌に関連する遺伝子の近傍に位置している方法。
[33]
[32]の方法であって、前記遺伝子は、RASA3、GRIN2D、TNNI3、SHD、ATP10B、SMTN、MYO15B、C2orf61、LINC00443又はACHEである方法。
[34]
[28]の方法であって、前記ディファレンシャルエンリッチメントは、10%のFDR率及び1.5倍よりも大きい絶対的な変化に基づいて同定される方法。
[35]
[29]の方法であって、前記ディファレンシャル活性は、10%のFDR率及び1.5倍よりも大きい絶対的な変化に基づいて同定される方法。