(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-04-13
(54)【発明の名称】核酸のメチル化の差を利用したマーカーの選別方法、メチルまたは脱メチルマーカー及びそのマーカーを利用した診断方法
(51)【国際特許分類】
C12Q 1/68 20180101AFI20230406BHJP
C12Q 1/6806 20180101ALI20230406BHJP
C12Q 1/6869 20180101ALI20230406BHJP
C12N 15/11 20060101ALI20230406BHJP
【FI】
C12Q1/68
C12Q1/6806 Z
C12Q1/6869 Z
C12N15/11 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022549832
(86)(22)【出願日】2021-02-19
(85)【翻訳文提出日】2022-08-22
(86)【国際出願番号】 KR2021002149
(87)【国際公開番号】W WO2021167413
(87)【国際公開日】2021-08-26
(31)【優先権主張番号】10-2020-0020974
(32)【優先日】2020-02-20
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
(71)【出願人】
【識別番号】317009156
【氏名又は名称】イーワン ダイアグノミクス ゲノム センター カンパニー リミテッド
(74)【代理人】
【識別番号】110000855
【氏名又は名称】弁理士法人浅村特許事務所
(72)【発明者】
【氏名】リー、スンホン
(72)【発明者】
【氏名】ミン、ナ ヤン
(72)【発明者】
【氏名】クワン、ヒュクジュン
(72)【発明者】
【氏名】ペ、ジン - シク
(72)【発明者】
【氏名】リー、ミン ソブ
(72)【発明者】
【氏名】シン、シャン チョル
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA19
4B063QQ02
4B063QQ08
4B063QQ42
4B063QR32
4B063QR72
4B063QR77
(57)【要約】
本発明は、核酸のメチル化の差を利用したマーカーの選別方法、脱メチルマーカー及びそのマーカーを利用した診断方法に関するものであり、より詳細には、遊離核酸でのメチル化の差を利用する疾患特異脱メチル化マーカーを選別する新たな方法、この方法によって選別された脱メチル化マーカー及びマーカーの頻度を算出して癌と判定するメチル化検出による新たな癌診断方法、及び選別されたcfDNAでの癌特異脱メチル化マーカーに関するものである。
【選択図】
図1b
【特許請求の範囲】
【請求項1】
(a)個体から分離したcfDNA(cell free DNA)にメチル化感受性制限酵素(methylation sensitive restriction enzyme)を処理する段階と、
(b)各断片の配列を分析(sequencing)する段階と、
(c)断片のN-末端から予め決められた長さの配列情報を収得する段階と、
(d)各配列情報の頻度を計数する段階と、
(e)癌特異配列情報をcfDNAでの癌特異脱メチル化マーカーとして選別する段階とを含む、cfDNAでの癌特異脱メチル化マーカーを選別する方法。
【請求項2】
前記メチル化感受性制限酵素は、AatII、AclI、AgeI、Aor13H I、AscI、AsiSI、AvaI、BsaHI、BsiEI、BsiWI、BspDI、BsrFI、BssHII、BstBI、ClaI、Cpo I、EagI、FseI、HaeII、HhaI、HinP1I、HpaII、HpyCH4IV、Hpy99I、KasI、MluI、NarI、NgoMIV、NotI、PaeR7I、PluTI、PvuI、RsrII、SacII、SalI、SgrAI、及びTspMIからなる群から選択されたことを特徴とする請求項1記載の方法。
【請求項3】
配列を分析することは、次世代シークエンシング(NGS)によって遂行されることを特徴とする請求項1記載の方法。
【請求項4】
前記予め決められた長さは、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、及び150からなる群から選択されたいずれかの長さの塩基であることを特徴とする請求項1記載の方法。
【請求項5】
前記cfDNAでの癌特異脱メチル化マーカーは、N-末端配列が前記制限酵素の認識部位の粘着性末端(cohesive end)の配列であり、前記予め決められた長さと同じ長さの塩基配列からなることを特徴とする、請求項1記載の方法。
【請求項6】
前記癌は、子宮頸部癌、肺癌、膵臓癌、肝臓癌、結腸癌、骨癌、皮膚癌、頭部又は頸部癌、皮膚又は眼球内黒色症、子宮癌、卵巣癌、直腸癌、胃癌、肛門癌、乳癌、ラッパ管癌腫、子宮内膜癌腫、膣癌腫、陰門癌腫、食道癌、小腸癌、内分泌腺癌、甲状腺癌、副甲状腺癌、副腎癌、軟組織肉腫、尿道癌、陰茎癌、前立腺癌、膀胱癌、腎臓癌、及び輸尿管癌でからなる群から選択されたことを特徴とする請求項1記載の方法。
【請求項7】
(a)個体から分離したcfDNA(cell free DNA)にメチル化感受性制限酵素を処理する段階と、
(b)各断片の配列を分析する段階と、
(c)断片のN-末端から予め決められた長さの配列情報を収得する段階と、
(d)各配列情報の頻度を計数する段階と、
(e)cfDNAでの癌特異脱メチル化マーカーの頻度を算出して癌と判定する段階を含む癌の診断方法。
【請求項8】
前記個体は、癌の診断が必要な患者であることを特徴とする請求項7記載の方法。
【請求項9】
前記予め決められた長さは、前記cfDNAでの癌特異脱メチル化マーカーと同じ長さであることを特徴とする請求項7記載の方法。
【請求項10】
前記cfDNAでの癌特異脱メチル化マーカーは、5乃至50個からなるマーカーセットであることを特徴とする請求項7記載の方法。
【請求項11】
癌の診断に必要な情報を提供するために、個体から分離したcfDNAのメチル化感受性制限酵素断片のN-末端の予め決められた長さの配列情報を分析する方法。
【請求項12】
N-末端がメチル化感受性制限酵素の認識部位の粘着性末端(cohesive end)の配列であり、25塩基乃至150塩基の配列からなり、請求項1の方法によって選別されたcfDNAでの癌特異脱メチル化マーカー。
【請求項13】
前記粘着性末端の配列は、ACGTC(配列番号39)、ATCG(配列番号40)、ATCGC(配列番号41)、CCGGA(配列番号42)、CCGGC(配列番号43)、CCGGCC(配列番号44)、CCGGG(配列番号45)、CCGGT(配列番号46)、CCGGY(配列番号47)、CCGGYG(配列番号48)、CG(配列番号49)、CGAA(配列番号50)、CGAT(配列番号51)、CGC(配列番号52)、CGCC(配列番号53)、CGCGC(配列番号54)、CGCGCC(配列番号55)、CGCGT(配列番号56)、CGG(配列番号57)、CGT(配列番号58)、CGTT(配列番号59)、CGWCG(配列番号60)、CGYC(配列番号61)、GCGCC(配列番号62)、GCGCY(配列番号63)、GCGG(配列番号64)、GGCCG(配列番号65)、GGCCGC(配列番号66)、GTACG(配列番号67)、GWCCG(配列番号68)、RYCG(配列番号69)、TCGAC(配列番号70)、TCGAG(配列番号71)、及びYCGRG(配列番号72)からなる群から選択されることを特徴とする請求項12記載の癌特異脱メチル化マーカー。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2020年02月20日に出願された大韓民国特許出願第10-2020-0020974号を優先権主張し、前記明細書の全体は本出願の参考文献である。
【0002】
本発明は、核酸のメチル化の差を利用したマーカーの選別方法、脱メチルマーカー及びそのマーカーを利用した診断方法に関するものであり、より詳細には遊離核酸でのメチル化の差を利用する疾患特異脱メチル化マーカーを選別する新たな方法、この方法によって選別された脱メチル化マーカー及びマーカーの頻度を算出して癌と判定するメチル化検出による新たな癌診断方法及び選別されたcfDNAでの癌特異脱メチル化マーカーに関するものである。
【背景技術】
【0003】
癌とは、さまざまな原因によって細胞の分裂と死滅の間のバランスが破壊されることにより、継続的な分裂と増殖によって発生した非正常的な細胞の集団を意味し、腫瘍または新生物とも呼ばれている。一般的に、臓器、白血球、骨、リンパ節などを含む100種類以上の身体のさまざまな部分に発症し、周囲の組織に浸潤する現象及び他の器官に移動する転移を通じて深刻な症状に発展する。
【0004】
医学が発達した今日でも、人体癌、特に大多数を占める固形癌(solid tumor:血液癌を除いた残りの癌)の場合、5年生存率は50%未満である。全体癌患者の約3分の2は、進行した段階で発見され、これらの殆どは診断後から2年以内に死亡する。このように不十分な癌の治療効果は、治療法の問題だけではなく、実際の癌を早期に診断することができる方法と、進行された癌を正確に診断し、治療後の追跡調査することが容易でないからである。
【0005】
現在臨床で癌の診断は、問診(history taking)と身体検査、臨床病理検査を経て、一旦疑われると、放射線検査及び内視鏡検査に進行され、最終的には組織検査で確認される。しかし、現存の臨床検査法では、癌の細胞数が10億個、癌の直径が1 cm以上でなければ診断が不可能である。このような場合、既に癌細胞は転移能力を有しており、実際半分以上で癌がすでに転移している。一方、癌が直接または間接的に生産する物質を血液内で見つける腫瘍マーカー(tumor markers)が癌スクリーニング検査(cancer screening)に利用されるが、これは精度に限界があって、癌がある場合でも約半分まで正常に示され、癌がない場合もたまたま陽性と現れ混乱を引き起こす。また、癌の治療に主に使用されている抗癌剤の場合、癌の容積が少ない場合にのみその効果を示す問題点がある。
【0006】
前記の通り、癌の診断と治療が全て難しいのは、正常細胞と異なる点が多く、極めて複雑で多様なためである。癌は勝手に過剰に続け育ち、死から解放されて続く生存し、周囲の組織に侵入して遠位の臓器に拡散(転移)されてヒトを死にする。免疫機序の攻撃や抗癌治療にも生存し、常に進化して生存に最も有利な細胞群(クローン)が選択的に増殖する。癌細胞は、多数の遺伝子の変異によって引き起こされる高度の生存能力を有する生存体である。一つの細胞が癌細胞に変わり、臨床で見られる悪性の癌の塊へと発展していくためには、多数の遺伝子に変異が起こらなければならない。従って、癌を根源的に診断し治療するためには遺伝子レベルで接近する必要がある。
【0007】
そこで、最近では、DNAメチル化の測定を通じて癌を診断する方法が提示されている。DNAメチル化は、主に、特定の遺伝子のプロモーター部位のCpG島(CpG island)のシトシン(cytosine)で起こり、それにより転写因子の結合が妨げられて特定の遺伝子の発現が遮断(gene silencing)されることであり、これは生体内で遺伝子のタンパク質指定コーディング配列(coding sequence)に突然変異(mutation)がなくても、その遺伝子の機能が消失される主な機序であり、人体の癌で多数の腫瘍抑制遺伝子(tumor suppressor genes)の機能が消失する原因と解釈されている。プロモーターCpG島のメチル化が発癌を直接誘発するか、または発癌に2次的変化であるかに対する議論があるが、前立腺癌、結腸癌、子宮癌、乳癌などの様々な癌細胞でCpG島でのこのような非正常的なメチル化/脱メチル化が報告された。したがって、これは癌の早期診断、発癌性リスクの予測、癌の予後予測、治療後の追跡調査、抗癌療法に対する反応予測などの多方面で使用することができる。これらをメチル化特異PCR(以下、MSPと称す)、自動塩基分析又は亜硫酸水素塩パイロシーケンス(bisulfite pyrosequencing)などの方法で検査して、癌の診断とスクリーニングなどに利用しようとする試みが最近活発に行われているが、多くは少数の特定の遺伝子またはプロモーター部位のメチル化を検出し、これを分析する方法に止まっており、(例えば、大韓民国特許第1557183号、大韓民国特許第1191947号)、診断の効率及び精度には限界がある。
【0008】
特に、癌細胞のゲノムに全般的にメチル化の変化が起こることに於いて、最も広範な変化は繰り返し配列で起こる。ゲノムの反復配列はトランスポゾン(transposon)、レトロトランスポゾン(retrotransposon)、ライン(LINE)、サイン(SINE)などの様々な種類があり、ゲノム全体の半分以上を占めるほどに大きな比重を占めるが、研究が相対的に行われていなかった。その理由は、繰り返し配列は機能解析をするのに困難となるだけでなく、アセンブリがうまくできずに参照配列(参照標準配列)に含まれていない領域が多いため、分析から除外されやすいからである。このような理由から、繰り返し配列に対するメチレーション研究は相対的に進行が多くされておらず、繰り返し配列で多く起こる癌と関連付けられているメチル化の意味とマーカー開発は、相対的に研究が活発ではなかった。しかし、様々なゲノム分析技術を活用した研究では、がんの進行とともに、DNAの低メチル化(hypomethylation)が広く行われる様々な研究結果が蓄積されており(Epigenomics. 2009 December;1(2):239-259、Clin Chem Lab Med. 2012 Oct 1; 50(10):1733-42)、繰り返し配列での低メチル化を癌の診断マーカーとして活用することができるものとして期待している。
【0009】
本明細書全体にわたって多数の論文及び特許文献が参照され、その引用が表示されている。引用された論文及び特許文献の開示内容は、その全体として本明細書に参照として挿入され、本発明が属する技術分野の水準及び本発明の内容がより明確に説明される。
【発明の概要】
【発明が解決しようとする課題】
【0010】
そこで、本発明者らは、非侵襲的な方法で癌の正確な診断が可能な新規方法を開発するために研究していた中、cfDNAをメチル化感受性制限酵素で処理して、制限酵素ターゲット配列のうちメチル化されていない配列を切断し、解読(sequencing)した後、解読された配列から一定長さの配列情報を利用して、それぞれ分類する場合、疾患、特に癌のような疾患に対して血液内のcfDNA種類を分類することができ、これを通じて疾患に対するcfDNAマーカーとして作用することができることを確認し、cfDNAでのメチル化と関連付けられた癌特異マーカー、特に癌特異脱メチル化マーカーを選別する方法を開発したことにより本発明を完成した。
【0011】
従って、本発明の目的はcfDNAでの癌特異脱メチル化マーカーを選別する新たな方法を提供することである。
【0012】
また、本発明の他の目的は選別されたcfDNAでの癌特異脱メチール化マーカーの頻度を産出して癌と判定する脱メチール化検出による新たな癌診断方法を提供することである。
【0013】
本発明のさらに他の目的は癌診断に必要な情報を提供するために、個体の血液から分離したcfDNAのメチル化感受性制限酵素断片のN-末端の予め決められた長さの配列情報を解読して分析する方法を提供することである。
【0014】
本発明の他の目的はN-末端がメチル化感受性制限酵素の認識部位の粘着性末端(cohesive end)の配列であり、25塩基乃至150塩基の配列からなり、本発明の方法によって選別されたcfDNAでの癌特異脱メチル化マーカーを提供することである。
【課題を解決するための手段】
【0015】
前記のような目的を達成するために、本発明は血液から分離したcfDNA(cell free DNA)にメチル化感受性制限酵素(methylation sensitive restriction enzyme)を処理する段階と、各断片の配列を解読(sequencing)する段階と、断片のN-末端から予め決められた長さの配列情報を収得する段階と、各配列情報の頻度を計数する段階と、癌特異配列情報をcfDNAでの癌特異脱メチル化マーカーとして選別する段階とを含む、cfDNAでの癌特異脱メチル化マーカーを選別する方法を提供する。
【0016】
また、本発明の他の目的を達成するために、本発明は選別されたcfDNAでの癌特異脱メチル化マーカーの頻度を算出して癌と判定するメチル化検出による新たな癌診断方法を提供する。
【0017】
本発明のさらに他の目的を達成するために、本発明は癌の診断に必要な情報を提供するために、個体の血液から分離したcfDNAのメチル化感受性制限酵素断片のN-末端の予め決められた長さの配列情報を分析する方法を提供する。
【0018】
本発明の他の目的を達成するために、本発明はN-末端がメチル化感受性制限酵素の認識部位の粘着性末端(cohesive end)の配列であり、25塩基乃至150塩基の配列からなり、本発明の方法によって選別されたcfDNAでの癌特異脱メチル化マーカーを提供する。
【0019】
他の定義がない限り、本明細書に使用された全ての技術的及び科学的用語は、当業者によって通常的に理解される同じ意味を有する。次の参考文献は、本発明の明細書で使用された多くの用語らの一般的な定義を有する技術(skill)のいずれかを提供する:Singleton et al.、DICTIONARY OF MICROBIOLOGY AND MOLECULAR BIOLOTY(2th ed. 1994); THE CAMBRIDGE DICTIONARY OF SCIENCE AND TECHNOLOGY(Walkered. 、1988); 及びHale&Marham、THE HARPER COLLINS DICTIONARY OF BIOLOGY。
【0020】
以下、本発明を詳細に説明する。
【0021】
本発明は、(a)血液から分離したcfDNA(cell free DNA)にメチル化感受性制限酵素(methylation sensitive restriction enzyme)を処理する段階、(b)各断片の配列を分析(sequencing)する段階、(c)断片の N-末端から予め決められた長さの配列情報を収得する段階、(d)各配列情報の頻度を計数する段階、及び(e)癌特異配列情報をcfDNAでの癌特異脱メチル化マーカーとして選別する段階を含むcfDNAでの癌特異脱メチル化マーカーを選別する方法に関するものである。
【0022】
メチル化(methylation)
本発明での精製されたり精製されていない形態のいかなる核酸も使用することができ、ターゲット部位(例えば、CpG-含有核酸)を含有する核酸配列を含有しているか、含有することとして疑われる如何なる核酸も使用することができる。差別的にメチル化することができる核酸部位はCpG配列のC位置であり、特にCpGが密集しているCpG島にメチル化が多く行われる。特定の部位に於いて、CpG島の密度はゲノムの他の部位に比べて10倍もより高い。CpG島は平均G*C割合が約60%であるが、一方、普通のDNAのG*C割合は平均40%を示す。CpG島は典型的に約1~2kbの長さを有し、ヒトゲノムには約45,000個のCpG島が存在する。
【0023】
通常的に、試料となる核酸はDNAである。しかし、核酸の混合物も使用することができる。検出される特異的な核酸配列は、大きな分子の分画でもよく、最初から特異配列が全体核酸配列を構成する分離された分子の形態で存在してもよい。前記核酸配列は純粋な形態で存在する核酸である必要はなく、核酸は、全体のヒトDNAが含まれているように複雑な混合物内の少ない分画でもよい。試料に含まれた核酸のメチル化の程度を測定するために使用されたり、メチル化されたCpG島を検出するために使用される試料に含まれている核酸は、当該業界に公知となった通常的な方法で抽出することができる。
【0024】
塩基配列分析-シークエンシング(sequencing)
シークエンシング方法は、例えば、サンガー(Sanger)シークエンシング、高処理量シ-ケンシング、パイロシークエンシング、合成によるシークエンシング、単一分子シークエンシング、ナノポアシークエンシング、半導体シークエンシング、ライゲーションによるシークエンシング、混成化によるシークエンシング、RNA-Seq(イルミナ)、デジタル遺伝子発現 [ヘリコース(Helicos)]、次世代シークエンシング(NGS)、合成による単一分子シークエンシング(SMSS)(ヘリコース)、大規模並列シークエンシング、クロナール単一分子アレイ [ソレキサー(Solexa)]、ショットガン・シークエンシング、イオントレント(Ion Torrent)、オックスフォードナノポア、ロシュジェニア(Roche Genia)、マキシム・ギルバート(Maxim-Gilbert)シークエンシング、プライマー・ウォーキング; PacBio、SOLiD、イオントレント、又はナノポアプラットフォームを利用するシークエンシングを含む。シークエンシング反応は、多数のレーン、多数のチャンネル、多数のウェル、又は多数のサンプルセットを実質的に同時にプロセシングする他の手段でもよい各種サンプルプロセシングユニットで遂行することができる。サンプルプロセシングユニットはまた、多数の実行物を同時にプロセシングができるようにする多数のサンプルチャンバーを含むことができる。
【0025】
シークエンシング反応は、そのうちの少なくとも一つが疾患のマーカーを含有することが公知となっている複数の形態の核酸上で実行することができる。シークエンシング反応はさらに、サンプルに存在する任意の核酸断片上で遂行することができる。
【0026】
同時シークエンシング反応は、マルチプレックスシークエンシングを利用して実行することができる。一部の場合では、無細胞核酸は、少なくとも1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、100,000個のシークエンシング反応で配列分析することができる。他の場合では、無細胞核酸は、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、100,000個未満のシークエンシング反応で配列分析することができる。シークエンシング反応は順次的に又は同時に実行することができる。後続データ分析は、シークエンシング反応の全部または一部に対して実行することができる。一部の場合に、データの分析は少なくとも1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、100,000個のシークエンシング反応上で行うことができる。他の場合に、データの分析は1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、100,000個未満のシークエンシング反応上で行うことができる。例示的な判読物デプスは遺伝子座(塩基)当たり1000乃至50000個のリード(read)である。
【0027】
サンプル
サンプルは、個体から分離された任意の生物学的サンプルでもよい。サンプルは、身体サンプルでもよい。サンプルは、身体の組織、例えば、公知となったこと又は疑わしい固形腫瘍、全血、血清、血漿、糞便、白血球又はリンパ球、内皮細胞、組織生検、脳脊髄液、滑液、リンパ液、腹水、癲癇液又は細胞外流体、細胞間のスペース内の流体(歯茎の歯肉溝の流体を含む)、骨髄、胸膜滲出液、脳脊髄液、唾液、粘液、喀痰、精液、汗、尿を含むことができる。サンプルは、対象体から元々分離された形態でもよく、又は細胞のような成分を除去又は付加するために、又はさらに別の成分と比較して一成分を豊富化させるために、追加的にプロセッシングさせてものでもよい。サンプルは、対象体から分離又は収得することができ、サンプルの分析部位に輸送することができる。サンプルは、所望の温度、例えば、室温、4℃、-20℃、及び/又は-80℃下に保存及びローディングすることができる。サンプルは、サンプルの分析部位に於いての対象体から分離または収得することができる。
【0028】
個体は、ヒト、哺乳動物、動物、ペット、サービス動物、又はペットでもよい。個体は、疾患を有してもよい。個体は、疾患または検出可能な疾患症状が必須である。個体は、複数の療法、例えば、手術、処置、投薬、化学療法、抗体、ワクチン又は生物製剤のうちいずれか一つ以上のことにて治療を受けたことがあってもよい。個体は、快方に向かってもよく、または向かってなくてもよい。
【0029】
血液サンプルの無細胞核酸
血液サンプルは、ゲノム等価物を含有する様々な量の核酸を含むことができる。例えば、約33 ngのDNAサンプルは、約10,000個(104)の半数体ヒトゲノム等価物を含有することができ、cfDNAの場合には、約2千億個(2x1011)の個別ポリヌクレオチド分子を含有することができる。同様に、約100 ngのDNAサンプルは、約30,000個の半数体ヒトゲノム等価物を含有することができ、cfDNAの場合には、約 6千億個の個別分子を含有することができる。
【0030】
増幅前のサンプル内の無細胞核酸の例示的な量は、約1fg乃至約1μg、例えば、1pg 乃至200 ng、1 ng乃至100 ng、10 ng 乃至1000 ngの範囲である。例えば、その量は、約600 ng以下、約500 ng以下、約400 ng以下、約300 ng以下、約200 ng以下、約100 ng以下、約50 ng以下、又は約20 ng以下、又は約10 ng以下、又は約5 ng以下、又は約1 ng以下の無細胞核酸分子でもよい。その量は、少なくとも1 fg、少なくとも10 fg、少なくとも100 fg、少なくとも1 pg、少なくとも10 pg、少なくとも100 pg、少なくとも1 ng、少なくとも10 ng、少なくとも100 ng、少なくとも150 ng、又は少なくとも200 ngの無細胞核酸分子でもよい。その量は、1 フェムトグラム(fg)、10 fg、100 fg、1 ピコグラム(pg)、10 pg、100 pg、1 ng、10 ng、100 ng、150 ng、又は200 ng以下の無細胞核酸分子でもよい。前記方法は、1 フェムトグラム(fg)乃至200 ngを収得することを含むことができる。
【0031】
無細胞核酸は、細胞内に含有されていないことであるか、又は別に細胞と結合されない核酸、又は言い換えると、無損傷細胞を除去した後にもサンプル内に残っている核酸である。無細胞核酸はDNA、RNA、及びその混成体を含んでおり、これはゲノムDNA、ミトコンドリアDNA、siRNA、miRNA、循環RNA(cRNA)、tRNA、rRNA、小型核小体RNA(snoRNA)、Piwiー相互作用性RNA(piRNA)、長鎖ノンコーディングRNA(長鎖ncRNA)、又はこれらのうち任意のものの断片を含む。無細胞核酸は二本鎖、一本鎖、又はその混成体でもよい。無細胞核酸は、分泌または細胞死滅プロセス、例えば、細胞性壊死、及びアポトーシスを介して体液内に放出されることもある。一部無細胞核酸は癌細胞、例えば、循環腫瘍DNA(ctDNA)から体液内に放出される。他のことは健康な細胞から放出される。一部の実施態様で、無細胞核酸は、腫瘍細胞によって産生される。一部の実施形態では、無細胞核酸は腫瘍細胞と非腫瘍細胞の混合物によって産生される。
【0032】
無細胞核酸は、例えば、約100乃至500個のヌクレオチドの長さの分布を示し、110乃至約230個のヌクレオチドの分子が、これらの分子の約90%を占め、240乃至440個のヌクレオチド範囲の第2マイナーピークを伴う。
【0033】
無細胞核酸は、分画化または分割段階を通じて体液から単離することができ、ここで溶液から発見されたような無細胞核酸は、無損傷細胞及び体液の他の非可用性成分から分離される。分割は、遠心分離又はろ過のような技術を含むことができる。別の一方で、体液中の細胞は溶解することができ、無細胞と細胞性核酸は、一緒にプロセシングすことができる。一般的に、緩衝液の付加及び洗浄段階後、核酸はアルコールで沈殿することができる。追加的浄化段階は、例えば、シリカベースのカラムを使用して汚染物質や塩を除去することができる。重亜硫酸塩シークエンシング、混成化、及び/又はライゲーションのための非特異的バルクキャリア核酸、例えば、Cot-1 DNA、DNA又はタンパク質が反応を通して付加されて、この手順の特定の側面、例えば、歩留まりを最適化することができる。 これらのプロセシングの後、サンプルは、二本鎖DNA、一本鎖DNA、及び一本鎖RNAを含む様々な形態の核酸を含むことができる。一部の実施形態では、一本鎖DNA、及びRNAは二本鎖形態に転換することができるので、これらは後続プロセシング及び分析の段階に含まれる。
【0034】
本発明の一つの態様に於いて、cfDNAはヒトのゲノムDNAから由来することでもよく、ヒトと共生することまたはヒトに感染されたヒト以外の細胞、細菌、菌又はウイルスのDNAから由来することでもよい。
【0035】
本発明の一つの態様に於いて、cfDNAでの癌特異脱メチル化マーカーを選別する方法は、以下の段階を含むことができる:
(a)血液から分離したcfDNAにメチル化感受性制限酵素を処理する段階;
(b)各断片の配列を分析する段階;
(c)断片のN-末端から予め決められた長さの配列情報を収得する段階;
(d)各配列情報の頻度を計数する段階;及び
(e)癌特異配列情報をcfDNAでの癌特異脱メチル化マーカーとして選別する段階。
【0036】
(a)段階は、血液から分離したcfDNAにメチル化感受性制限酵素を処理する段階である。
【0037】
cfDNAは個体から分離する。好ましくは、cfDNAは血漿から分離されてもよい。分離方法は、制限酵素の処理及び配列分析(sequencing)に適切な純度が得られる当該業界に公知となった通常的なDNA分離方法によることにしてもよい。
【0038】
本発明の一つの態様に於いて、メチル化感受性制限酵素は、AatII、AclI、AgeI、Aor13H I、AscI、AsiSI、AvaI、BsaHI、BsiEI、BsiWI、BspDI、BsrFI、BssHII、BstBI、ClaI、Cpo I、EagI、FseI、HaeII、HhaI、HinP1I、HpaII(又はHapII)、HpyCH4IV、Hpy99I、KasI、MluI、NarI、NgoMIV、NotI、PaeR7I、PluTI、PvuI、RsrII、SacII、SalI、SgrAI又はTspMIである。好ましくは、本発明のメチル化感受性制限酵素は、i)メチル化されていないターゲット領域を選択的に切断し、ii)切断された末端が(平滑末端(blunt end)でない)粘着性末端(cohesive end)を作って相補的な粘着性末端を有するアダプター(adapter)の接合効率を高めることができ、高品質のライブラリーを作ることができる特徴を有することができる。
【0039】
本発明の一つの態様に於いて、メチル化感受性制限酵素は、CpGメチレーション(CpG methylation)に対する選択的切断が可能な酵素、すなわち、脱メチル化(demethylation)されたCpGを含む制限酵素認識部位を特異的に切断することができる酵素であることが好ましい。但し、制限酵素の認識部位がゲノム内にどれだけ存在するかによって、実際に全ゲノムに対するカバレッジ(coverage)と配列分析をしなければならない分析の費用が異なり得るので、目的に合わせて適切な制限酵素を選択することができる。
【0040】
【0041】
(b)段階は、各断片の配列を分析(sequencing)する段階である。
【0042】
本発明の一つの態様に於いて、配列を解読することは、当該業界に公知となった配列の解読方法によって実行される。配列解読はメチル化感受性制限酵素によって切断された断片又は切断されていない断片それぞれの配列を解読する。配列解読は、大量の断片、好ましくは少なくとも10000個以上、少なくとも20000個以上、少なくとも30000個以上、少なくとも40000個以上、少なくとも50000個以上、少なくとも100000個以上、少なくとも1000000個以上の断片を解読するため、これに適した解読方法が好ましい。
【0043】
配列解読は、当該業界に公知となった配列解読法が使用できるが、各断片の配列を十分な量で解読するために、大量の配列解読が可能な方法であれば制限なく使用することができる。例えば、次世代シークエンシング方法(NGS, Next generation sequencing)が使用される場合、大量の配列を18時間以内に低コストで解読できる利点があり、十分な量の配列を読み取る場合、精度が極めて高く、解読されたデータを定性的、定量的に分析することが可能である。
【0044】
配列解読のためには、好ましくは、メチル化感受性制限酵素によって切断されたDNA断片だけを解読することができるように、適切なアダプタ(adapter)を取付けることができる。試料内のDNAはメチル化状態によってメチル化感受性制限酵素によって切断されることも、又は切断されないこともある。例えば、正常人のcfDNAはメチル化されているが、癌化されづつ脱メチル化された癌DNAを検出する場合には脱メチル化されて切断された断片だけを解読することができれば、極めて低い割合で混合されたcfDNAの検出が容易になる。従って、メチル化感受性制限酵素によって切断されて生成された粘着性末端に相補的な構造を有するアダプタを使用すれば、切断された断片のみでライブラリーが作成できるため、解読段階で選別的に癌による脱メチルされた断片を解読することができるようになる。
【0045】
(c)段階は、断片の5`末端から予め決められたの長さの配列情報を収得する段階である。
【0046】
本発明の一つの態様に於いて、“予め決められたの長さ”とは、配列解読された各断片に於ける5`末端からの塩基または塩基対の長さを示し、好ましくは、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150塩基でもよい。一方、予め決められたの長さは、選別または分析対象の癌、試料の種類などに応じて、25未満の自然数、150を超える自然数の一つでもよい。より好ましくは、予め決められた長さは30、60、80又は90塩基でもよい。また、本発明の一つの態様に於いて、“予め決められた長さ”は、5乃至1000以下の任意の自然数でもある。
【0047】
(d)段階は、各配列情報の頻度を計数する段階である。
【0048】
得られた配列情報から制限酵素の切断によって生じた粘着性末端の配列(HpaIIの場合CGG)で5`末端が始まる各配列情報の頻度を計数する。つまり、一つのサンプル解読で得られた全ての配列で決められた一つの長さ(例えば、30)の配列の種類(30ntの場合、理論的に430種類の配列が可能)を計数し、各種類の配列が何回表示されるかを計数する。計数された各配列の値は、他のサンプルらの値と比較するために正規化する。この正規化は、各サンプル毎に解読された量が異なる場合、サンプル間の直接的な定量的な比較のために解読された量に比例する値で集計された各値を分けることである。この場合、解読された量に比例する値は、各サンプルの解読された全体配列数、ハウスキーピング遺伝子領域にマッピングされた配列の数など、さまざまな値が可能である。
【0049】
(e)段階は、癌特異配列情報をcfDNAでの癌特異脱メチル化マーカーで選別する段階である。
【0050】
通常のサンプル群と癌のサンプル群に於いて、各決められた長さの配列の組合わせについて計数され、正規化された値らを比較して癌サンプル群から有意に高く出てくる予め決められた長さの配列をマーカーとして選定する。最も簡単には、各決められた長さの配列の組合わせに於いて、正常サンプル群と癌サンプル群での平均値の差を利用して、又はT検定(T-test)、マン・ホイットニーの検定(Mann-Whitney test)、ウィルコクソンの検定(Wilcoxon Test)、又はコーエンのD(Cohen's D test)などのさまざまな統計技を使用して、両方のサンプル群から有意な差がある配列を選択する。本一実施例では、乳癌と肺癌に対して平均値の差で分析した。
【0051】
選別された癌特異脱メチル化マーカーは、試料を提供したパーソナライズ型マーカーでもあって、癌の種類、病気、人種又は家族に共通的に適用されるマーカーでもよい。
【0052】
本発明の一つの態様に於いて、cfDNAでの癌特異脱メチル化マーカーは、N-末端配列が前記制限酵素の認識部位のうち切断されて、残りの部分の配列であり、前記予め決められた長さと同じ長さの塩基配列からなる。例えば、HpaII制限酵素の場合、CCGG塩基を認識して、CとCの間を切断する。従って、切断された断片のN-末端はCGGで始まる。癌特異脱メチル化マーカーは、予め決められた長さの塩基配列を有するので、予め決められた長さが30であれば、CGGNNNNNNNNNNNNNNNNNNNNNNNNNNN(配列番号38)(Nは任意の塩基、30bp)の配列中から選択されることになる。この場合、Nは27であるため,427(=18,014,398,509,481,984)断片が理論的に存在することができ、癌特異脱メチル化マーカーは、これらの中から選別されることになる。予め決められた長さが60であれば、癌特異脱メチル化マーカーの長さは60塩基であり、予め決められた長さと癌特異脱メチル化マーカーの長さは同じになる。
【0053】
また、本発明は、個体から分離した血液からcfDNAを分離する段階と、分離したcfDNAにメチル化感受性制限酵素を処理する段階と、各断片の配列を解読する段階と、断片のN-末端から予め決められた長さの配列情報を収得する段階と、各配列情報の頻度を計数する段階と、cfDNAでの癌特異脱メチル化マーカーの頻度を算出して癌と判定する段階とを含む癌の診断方法に関するものである。
【0054】
本発明の一つの態様に於いて、個体は癌診断が必要な患者である。
【0055】
本発明の一つの態様に於いて、予め決められた長さは、cfDNAでの癌特異脱メチル化マーカーと同じ長さである。
【0056】
本発明の一つの態様に於いて、cfDNAでの癌特異脱メチル化マーカーは、1乃至50個、好ましくは3乃至40個、より好ましくは5乃至30個からなるマーカーセットである。
【0057】
また、本発明は、癌の診断に必要な情報を提供するために、個体の血液から分離したcfDNAのメチル化感受性制限酵素断片のN-末端の予め決められた長さの配列情報を解読して分析する方法に関するものである。
【0058】
また、本発明は、N-末端がメチル化感受性制限酵素の認識部位の粘着性末端の配列(例えば、CGGの配列)であり、連続して25塩基乃至150塩基の配列からなり(好ましくは、30塩基、35塩基、40塩基、45塩基または50塩基の塩基配列からなる)、本発明の方法によって選別されたcfDNAでの癌特異脱メチル化マーカーを提供し、本段落に於いて、粘着性末端の配列はACGTC(配列番号39)、ATCG(配列番号40)、ATCGC(配列番号41)、CCGGA(配列番号42)、CCGGC(配列番号43)、CCGGCC(配列番号44)、CCGGG(配列番号45)、CCGGT(配列番号46)、CCGGY(配列番号47)、CCGGYG(配列番号48)、CG(配列番号49)、CGAA(配列番号50)、CGAT(配列番号51)、CGC(配列番号52)、CGCC(配列番号53)、CGCGC(配列番号54)、CGCGCC(配列番号55)、CGCGT(配列番号56)、CGG(配列番号57)、CGT(配列番号58)、CGTT(配列番号59)、CGWCG(配列番号60)、CGYC(配列番号61)、GCGCC(配列番号62)、GCGCY(配列番号63)、GCGG(配列番号64)、GGCCG(配列番号65)、GGCCGC(配列番号66)、GTACG(配列番号67)、GWCCG(配列番号68)、RYCG(配列番号69)、TCGAC(配列番号70)、TCGAG(配列番号71)、及びYCGRG(配列番号72)からなる群から選択することができる。このとき、塩基の表示は標準的な表記法に準拠し、例えば、Aはアデニン、Cはシトシン、Tはチミン、Gはグアニン、YはC又はT、WはA又はT、RはA又はGを示す。
【0059】
本発明の一つの態様に於いて、癌は、これに限定されるものではないが、子宮頸部癌、肺癌、膵臓癌、非小細胞性肺癌、肝臓癌、結腸癌、骨癌、皮膚癌、頭部又は頸部癌、皮膚又は眼球内黒色症、子宮癌、卵巣癌、直腸癌、胃癌、肛門付近癌、乳癌、ラッパ管癌腫、子宮内膜癌腫、膣癌腫、陰門癌腫、食道癌、小腸癌、内分泌腺癌、甲状腺癌、副甲状腺癌、副腎臓癌、軟組織肉腫、尿道癌、陰茎癌、前立腺癌、膀胱癌、腎臓癌又は輸尿管癌でもよい。
【0060】
癌疾患診断のための分析
本診断方法は、特定対象体から病態、特に疾患の存在を診断したり、病態の特徴を究明したり、(例えば、癌の病気を決定したり、又は癌の異質性を決定する)、病態の治療に対する反応をモニタリングしたり、病態又は病態の後続過程の発生リスクを予後するために使用することができる。本記載内容は、さらに、特別な治療法の効能を決定するために有用でもある。また他の例に於いて、特定の治療法は、時間の経過に伴う癌の遺伝的プロファイルと相関関係があり得る。これらの相関関係は、治療法の選択に役立つことがある。付加的に、治療後に癌の快方に向かうことが観察される場合、本診断方法は、残余疾患又は疾患の再発をモニタリングするために使用することができる。
【0061】
遺伝的データは、さらに、特異的な形態の癌の特徴を究明するために使用することができる。がんは多くの場合、組成と病期の両方において異質的である。遺伝的プロファイルデータは、特異的下位類型の癌を診断又は治療するために重要であり、そのような特異的な下位類型の癌の特徴究明を許容することができる。これらの情報は、さらに、特異的類型の癌の予後に関する対象体又は実務者の手がかりを提供することができ、対象体又は実務者が疾患の進行に応じて治療オプションを選択するように許容することができる。一部の癌は、より攻撃的で遺伝的に不安定になるように進むことができる。他の癌は良性、非活性又は休眠状態のままにすることができる。本記載内容のシステム及び方法は疾患の進行を決定するのに有用でもある。
【0062】
マーカー及びパネル
本発明は、診断又は予測マーカーとして各マーカーを個別的に使用すること、またはいくつかのマーカーを組合わせてパネルディスプレイの形態にして使用することができ、いくつかのマーカーは、全体的なパターン又はメチル化された部位の目録を通じて、信頼性及び効率性を向上させることを確認することができる。本発明で確認されたマーカーは、個別に、又は組合わされたマーカーセットとして使用することができる。マーカーらは、一緒にメチル化されたマーカーの数及びその重要度に応じてランク付けすることができ、加重値を置くことができ、疾患に発展する可能性のレベルを選ぶことができる。これらのアルゴリズムは本発明に属する。
【0063】
基質
ターゲット核酸部位は、固体支持体(基質)に固定された既知のプロブとハイブリダイゼーションすることができる。
【0064】
ここで、“基質”とは、物質、構造、表面又は材料、非生物学的で、合成され、無生物、平面、球形又は特異的結合、平らな表面の物質を含む混合物の手段であり、ハイブリダイゼーション、又は酵素認識部位又は殆どの他の認識部位又は表面、構造又は材料で構成された多数の他の分子種を超える多くの他の認識部位を含むことができる。前記基質は、例えば、半導体、(有機)合成メタル、合成半導体、インシュレーター、及びドーパント; 金属、合金、元素、化合物、及びミネラル; 合成され、分解され、エッチングされて、リソーグラフされ、プリントされてマイクロファブリケイトされたスライド、装置、構造、及び表面; 産業的、ポリマー、プラスチック、メンブレーン、シリコン、シリケート、ガラス、金属、及びセラミック;木材、紙、カードボード、綿、ウール、布、織造、及び非織造繊維、材料、及びフェブリックでもよいが、これに限定されるものではない。
【0065】
いくつかの形態のメンブレーンは、当該分野で核酸配列に対して付着力を有すると知られている。このようなメンブレーンの特異的且つ非制限的な例として、ニトロセルロース又はポリ塩化ビニル、ジアゾチゼド(diazotized)ペーパー、及び商品名GENESCREEN、商品名ZETAPROBE、及び商品名NYTRANなどの商業的に使用されるメンブレーンと共に遺伝子発現検出用メンブレンを挙げることができる。ビーズ、ガラス、ウエハ、及び金属基質も含まれる。これらの目的物に核酸を付着させる方法は当該分野でよく知られている。これとは別の方法として、液体上でもスクリーニングを行うことができる。
【発明の効果】
【0066】
従って、本発明の方法は、cfDNAでの癌特異脱メチル化マーカーを選別することができ、選別されたマーカーは、癌の診断、治療法に対するモニタリング、癌患者の予後に必要な情報を提供することができ、抗癌治療に有用に利用することができる。
【図面の簡単な説明】
【0067】
【
図1】
図1aは、肺癌患者試料群と正常人試料群に於いてHpaIIで処理して分析した結果の一例であり、
図1bは、これを図式化したものである。
【
図2a】
図2aは、乳癌患者試料群と正常人試料群に於いてSacIIで処理して酵素切断部位にマッピングされたリード(read)の数を標準化(z-score)して、2つの試料群の間で統計的に有意な差がある領域を表現したものである。
【
図2b】
図2bは、
図2aの過程で抽出された乳癌特異的マーカーを用いて、機械学習モデルを作成して乳癌予測確率値(0.0-1.0)を計算し、正常群と乳癌群間の確率値の差を図式化したものである。
【
図2c】
図2cはモデル学習を20回繰り返して、各テストサンプルの平均確率を介してROC(受信者操作特性、Receiver Operator Characteristic)曲線を図式化してAUC(曲線下面積、Area Under Curve:0.0-1.0)の値を表現した。
【
図3】
図3aは、乳癌患者試料群と正常人試料群において、HpaIIで処理して分析した結果の一例であり、
図3bは、これを図式化したものである。
【
図4a】
図4aは、肺癌患者試料群と正常人試料群からSacIIで処理して酵素切断部位にマッピングされたリード(read)の数を標準化(z-score)し、2つの試料群の間に統計的に有意な差がある領域を表現したものである。
【
図4b】
図4bは、
図4aの過程で抽出された肺癌特異的マーカーを利用して、機械学習モデルを作成して肺癌予測確率値(0.0-1.0)を計算し、正常群と肺癌群の間の確率差を図式化したものである。
【
図4c】
図4cは、モデル学習を20回繰り返して、各テストサンプルの平均確率値を通じてROC曲線を図式化してAUC(0.0-1.0)の値を表現した。
【
図4d】
図4dは、肺がんの各病期(stage)に分類してROC曲線を図式化した。
【発明を実施するための形態】
【0068】
以下、本発明の理解を補うために好ましい実施例を提示する。但し、下記の実施例は本発明をより容易に理解するために提供されるものであり、これにより本発明の内容が限定されるものではない。
【0069】
実験方法
1. 血液からcfDNAの分離
乳癌患者(n = 102)、肺癌患者(n = 75)及び健康な人(n = 139)を対象にしてcfDNA専用採血管に採血をした。分離された血液は、それぞれ2000rpm、20分で遠心分離して血漿(plasma)を分離した。分離された血漿(上澄み液)を1.5mlチューブに移した後、16000rpmで10分間遠心分離した。この後、Chemagen cfDNA prepキットを用いて、メーカーの指示に従ってcfDNAを分離した。
【0070】
2. Library製作
分離されたcfDNAの末端を平滑末端(blunt end)にした後、Aテーリング(A tailing)を誘導し、これにp7アダプター(p7 adapter)とcfDNAのライゲーション(ligation)を誘導した。制限酵素であるHpaIIを処理して脱メチル化された(demethylated)CCGG部位を切断した。このとき、メチル化されたCpGの場合、HpaIIによって切断されなくなる。ここにHpaII粘着性末端(sticky end)を有しているp5アダプターを添加し、HpaIIによって切断されたcfDNA断片とライゲーションをし、これを分析ライブラリーにした。
【0071】
3. 配列情報の分析
各サンプルの解析ライブラリーをNGSにして、ライブラリーに含まれた各配列から配列情報を得た。各サンプルの解読された配列から制限酵素認識配列(HpaIIの場合はCGG、SacIIの場合はGC)で始まる配列を選抜し、選抜された配列を5`から一定の長さ(例:30、60、80など)の配列情報を得て、決められた長さ別に配列を分類した。各サンプルから分類された配列の頻度を計数し、サンプル間の比較のために正規化した。各配列候補について、正常サンプル群対比癌のサンプル群に於いて、有意に高く解読された配列を確認した。このとき、その配列は癌のサンプル群から特異的に脱メチル化されているものであるので、脱メチル化マーカー(HpaIIの場合に該当;メチル化部位を切断する制限酵素の場合にはメチル化マーカー)で選別することができた。決められたマーカーに対して各サンプル別に平均値(DHMスコア(DHM score))を求め、癌サンプルと正常サンプルを区別することができるDHMスコアの基準値を決める。このDHMスコアは試料の判定に用いた。
【0072】
4. 試料の検査及び癌発生の可否判別
未知の試料を上述した実験方法及び分析方法に基づいて解読と分析を行った。前記配列情報の分析(項目3.)で選抜されたマーカーに該当する値の平均であるDHMスコアを求め、所定のDHM基準値以上の場合、癌があると判定した。
【0073】
実施例1:乳癌cfDNAに対する癌特異脱メチル化マーカーの選別と、これを利用した判定の精度テスト
34個の乳癌サンプル群と53個の正常サンプルから分離したcfDNAをメチル化感受性制限酵素の一つであるHpaIIで切断し、上述した実験法に基づいて解読、分析した。解読された配列のうちCGGで始まる配列の前部分80ntの配列をマーカー候補として計数し比較した。乳癌での各マーカーに該当する値の平均が5以上でありながら、正常群の平均値よりも10倍以上の値を有する173個をマーカーとして決め、各サンプルからこれらの173個の値の平均であるDHMスコアを求めた。
【0074】
その結果、
図1aに示した通り、乳癌と正常サンプルの各マーカーに対する正規化されたスコアを記録したテーブルを作成し、スコアを簡単に表示するために高い数を赤色で、低数を青色で表現するヒートマップ(heatmap)で表現した。
図1aは、173個のマーカーのうち上位一部のことを示したものであり、選抜されたマーカーに於いて、乳癌サンプルでは3つのサンプルを除いた31個のサンプルが一定数値以上の値を有する一方、正常サンプルに於いては、すべてのサンプルが0に近い値を有することを確認することができた。
【0075】
図1bは、
図1aで表現された各サンプルの173個のマーカーの値の平均であるDHMスコアを棒グラフで表現したものである。DHMスコア 1を基準に乳癌と正常サンプルが明確に区別されることを確認することができる。
【0076】
このように、乳癌群と正常群のDHMスコアを比較した結果、DHMスコアを1として基準にした場合、34個の乳癌サンプルの中で31個を乳癌と判定し、53個の正常サンプルの中で53個全部を正常と判定することができた。精度を算出した結果、敏感度は91.2%、特異度は100%であった(
図1a及び
図1bを参照)。
【0077】
実施例2:SacIIで処理した乳癌cfDNAの癌特異脱メチル化マーカーの選別と、それを利用した判定の精度テスト
【0078】
102個の乳癌サンプル群と139個の正常サンプルから分離したcfDNAをメチル化感受性制限酵素であるSacIIで切断し、上述した実験法に基づいて解読、分析した。解読された配列のうちGCで始まる配列の前部分80ntの配列をマーカー候補とし、計数し比較した。
【0079】
各マーカーは、IQR(四分位範囲;InterQuartile Range)の平均値を通じて正規化して、これをZ-scoreを通じて標準化を遂行し、シーケンス間に表れ得る差を減少させる。以後、各マーカーに対して、乳癌群と正常群の間にt検定(t-test)を遂行して、p値(p-value)が特定の臨界値(例えば、10-5 )以下に該当するマーカーを選定し、選定されたマーカーを通じて、最終DHMスコアを計算する。最終スコア(Score)は選定されたマーカーに対して、サンプル別に、その値を単純に加えて計算することができ、ロジスティック回帰分析のような機械学習の分類モデルを作成して予測確率値で計算することができる。
【0080】
その結果、
図2aに示した通り、乳癌と正常サンプルの各マーカーに対する正規化/標準化された値を記録したテーブルを作成し、スコアを見易くするために高い数を赤色で、低い数を青色で表現するヒットマップ(heatmap)で表現した。
図2bは、選定されたマーカーを通じて機械学習予測モデルを作成し、0から1までの確率値で結果値を作成し、乳癌群と正常群での確率値の分布の差が明確に表示されることが確認できた。
【0081】
図2cでは、機械学習モデルテスト方法のうち、K分割交差検証(K-Fold Cross Validation)を使用して、各サイクル(Cycle)毎に学習とテスト群を 8:2で任意(Random)抽出をし、このような動作を20回繰り返して、1つのサンプルが20回の相異する学習データを通じて結果値が計算され、これを平均値にとって、ROC曲線を描いて性能を測定した。
【0082】
このように、乳癌群と正常群のDHMスコアを比較した結果、AUCが0.9492で、特異度が100%の基準で敏感度は70.87%を有することが分かった(
図2cを参照)。
【0083】
実施例3:肺癌cfDNAに対する癌特異脱メチル化マーカーの選別と、それを利用した判定の精度テスト
【0084】
11個のサンプルの肺癌群と53個の正常サンプル群を30ntの長さで比較した場合、正常群の平均値より肺癌群で5倍以上の値を有するマーカーは198個、10倍以上の値を有するマーカーは157個であった。各サンプルからこれら198個の値を全て足してDHMスコアを求めた。
【0085】
その結果、
図3aに示した通り、肺癌と正常サンプルの各マーカーに対する正規化されたスコアを記録したテーブルを作成し、スコアを見易くするために高い数を赤色で、低い数を青色で表現するヒットマップに表現した。
図3aは、198個のマーカーのうち、上位の一部を示したものである。選抜されたマーカーに於いて、肺癌のサンプルでは、3個のサンプルを除いた8個のサンプルが基準値以上の値を有する一方、正常サンプルでは、全てのサンプルが基準値 4よりも低い 3以下の値を有することが確認できた。
【0086】
図3bは、
図3aで表現された各サンプルの198個のマーカー値らの平均であるDHMスコアを棒グラフで表現したものである。DHMスコア 4を基準にして、肺癌と正常サンプルが明確に区別されることが確認できた。
【0087】
このように、肺癌群と正常群のDHMスコアを比較した結果,DHMスコアを4を基準にした場合、11個の肺癌サンプルのうち8個を肺癌と判定し、53個の正常サンプルのうち53個全部を正常と判定することができた。正確度を算出した結果、敏感度は72.7%、特異度は100%であった(
図3a及び
図3bを参照)。
【0088】
実施例4:SacIIで処理した肺癌cfDNAに対する癌特異脱メチル化マーカーの選別と、それを利用した判定の正確度テスト
【0089】
75個の肺癌サンプル群と129個の正常サンプルから分離したcfDNAをメチル化感受性制限酵素の一つであるSacIIで切断して上述した実験法に基づいて解読、分析した。解読された配列のうちGCで始まる配列の前部分80ntの配列をマーカー候補とし、計数し比較した。
【0090】
各マーカーは、IQRの平均値を通じて正規化し、これをZ-scoreを通じて標準化を行い、シーケンス間に現れ得る差を減少させる。以後、各マーカーに対して肺癌群と正常群の間にt検定を実行し、p値が特定の臨界値(例えば、10-5)以下に該当するマーカーを選定し、選定されたマーカーを通じて、最終的DHMスコアを計算する。最終スコアは選定されたマーカーに対して、サンプル別に、その値を単純に加えて計算することができ、ロジスティック回帰分析のような機械学習の分類モデルを作成して予測確率値で計算することができる。
【0091】
その結果、
図4aに示した通り、肺癌と正常サンプルの各マーカーに対する正規化/標準化された値を記録したテーブルを作成し、スコアを見易くするために高い数を赤色で、低い数を青色で表現するヒットマップで表現した。
図4bは、選定されたマーカーを通じて機械学習予測モデルを作成し、0から1までの確率値で結果値を作成し、肺癌群と正常群での確率値の分布の差が明確に表示されることが確認できた。
【0092】
図4cでは、機械学習モデルテスト方法のうち、K分割交差検証を使用して、各サイクル毎に学習とテスト群を8:2で任意抽出をし、このような動作を20回繰り返して、1つのサンプルが20回の相異する学習データを通じて、結果値が計算され、これを平均値にとって、ROC曲線を描いて性能を測定した。
図4dは、肺癌の各病期に応じて分類されたサンプルの正確度を示す。
【0093】
このように、肺癌群と正常群のDHMスコアを比較した結果、AUCが0.8837であり、特異度100%の基準で敏感度は41.67%を有することが分かった(
図4c参照)。
【産業上の利用可能性】
【0094】
以上説明した通り、本発明の方法は、cfDNAでの癌特異脱メチル化マーカーを選別することができ、選別されたマーカーは、癌の診断、治療法に対するモニタリング、癌患者の予後に必要な情報を提供することができるので、抗癌治療に有効に利用することができる。
【配列表】
【手続補正書】
【提出日】2022-10-21
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2020年02月20日に出願された大韓民国特許出願第10-2020-0020974号を優先権主張し、前記明細書の全体は本出願の参考文献である。
【0002】
本発明は、核酸のメチル化の差を利用したマーカーの選別方法、脱メチルマーカー及びそのマーカーを利用した診断方法に関するものであり、より詳細には遊離核酸でのメチル化の差を利用する疾患特異脱メチル化マーカーを選別する新たな方法、この方法によって選別された脱メチル化マーカー及びマーカーの頻度を算出して癌と判定するメチル化検出による新たな癌診断方法及び選別されたcfDNAでの癌特異脱メチル化マーカーに関するものである。
【背景技術】
【0003】
癌とは、さまざまな原因によって細胞の分裂と死滅の間のバランスが破壊されることにより、継続的な分裂と増殖によって発生した非正常的な細胞の集団を意味し、腫瘍または新生物とも呼ばれている。一般的に、臓器、白血球、骨、リンパ節などを含む100種類以上の身体のさまざまな部分に発症し、周囲の組織に浸潤する現象及び他の器官に移動する転移を通じて深刻な症状に発展する。
【0004】
医学が発達した今日でも、人体癌、特に大多数を占める固形癌(solid tumor:血液癌を除いた残りの癌)の場合、5年生存率は50%未満である。全体癌患者の約3分の2は、進行した段階で発見され、これらの殆どは診断後から2年以内に死亡する。このように不十分な癌の治療効果は、治療法の問題だけではなく、実際の癌を早期に診断することができる方法と、進行された癌を正確に診断し、治療後の追跡調査することが容易でないからである。
【0005】
現在臨床で癌の診断は、問診(history taking)と身体検査、臨床病理検査を経て、一旦疑われると、放射線検査及び内視鏡検査に進行され、最終的には組織検査で確認される。しかし、現存の臨床検査法では、癌の細胞数が10億個、癌の直径が1 cm以上でなければ診断が不可能である。このような場合、既に癌細胞は転移能力を有しており、実際半分以上で癌がすでに転移している。一方、癌が直接または間接的に生産する物質を血液内で見つける腫瘍マーカー(tumor markers)が癌スクリーニング検査(cancer screening)に利用されるが、これは精度に限界があって、癌がある場合でも約半分まで正常に示され、癌がない場合もたまたま陽性と現れ混乱を引き起こす。また、癌の治療に主に使用されている抗癌剤の場合、癌の容積が少ない場合にのみその効果を示す問題点がある。
【0006】
前記の通り、癌の診断と治療が全て難しいのは、正常細胞と異なる点が多く、極めて複雑で多様なためである。癌は勝手に過剰に続け育ち、死から解放されて続く生存し、周囲の組織に侵入して遠位の臓器に拡散(転移)されてヒトを死にする。免疫機序の攻撃や抗癌治療にも生存し、常に進化して生存に最も有利な細胞群(クローン)が選択的に増殖する。癌細胞は、多数の遺伝子の変異によって引き起こされる高度の生存能力を有する生存体である。一つの細胞が癌細胞に変わり、臨床で見られる悪性の癌の塊へと発展していくためには、多数の遺伝子に変異が起こらなければならない。従って、癌を根源的に診断し治療するためには遺伝子レベルで接近する必要がある。
【0007】
そこで、最近では、DNAメチル化の測定を通じて癌を診断する方法が提示されている。DNAメチル化は、主に、特定の遺伝子のプロモーター部位のCpG島(CpG island)のシトシン(cytosine)で起こり、それにより転写因子の結合が妨げられて特定の遺伝子の発現が遮断(gene silencing)されることであり、これは生体内で遺伝子のタンパク質指定コーディング配列(coding sequence)に突然変異(mutation)がなくても、その遺伝子の機能が消失される主な機序であり、人体の癌で多数の腫瘍抑制遺伝子(tumor suppressor genes)の機能が消失する原因と解釈されている。プロモーターCpG島のメチル化が発癌を直接誘発するか、または発癌に2次的変化であるかに対する議論があるが、前立腺癌、結腸癌、子宮癌、乳癌などの様々な癌細胞でCpG島でのこのような非正常的なメチル化/脱メチル化が報告された。したがって、これは癌の早期診断、発癌性リスクの予測、癌の予後予測、治療後の追跡調査、抗癌療法に対する反応予測などの多方面で使用することができる。これらをメチル化特異PCR(以下、MSPと称す)、自動塩基分析又は亜硫酸水素塩パイロシーケンス(bisulfite pyrosequencing)などの方法で検査して、癌の診断とスクリーニングなどに利用しようとする試みが最近活発に行われているが、多くは少数の特定の遺伝子またはプロモーター部位のメチル化を検出し、これを分析する方法に止まっており、(例えば、大韓民国特許第1557183号、大韓民国特許第1191947号)、診断の効率及び精度には限界がある。
【0008】
特に、癌細胞のゲノムに全般的にメチル化の変化が起こることに於いて、最も広範な変化は繰り返し配列で起こる。ゲノムの反復配列はトランスポゾン(transposon)、レトロトランスポゾン(retrotransposon)、ライン(LINE)、サイン(SINE)などの様々な種類があり、ゲノム全体の半分以上を占めるほどに大きな比重を占めるが、研究が相対的に行われていなかった。その理由は、繰り返し配列は機能解析をするのに困難となるだけでなく、アセンブリがうまくできずに参照配列(参照標準配列)に含まれていない領域が多いため、分析から除外されやすいからである。このような理由から、繰り返し配列に対するメチレーション研究は相対的に進行が多くされておらず、繰り返し配列で多く起こる癌と関連付けられているメチル化の意味とマーカー開発は、相対的に研究が活発ではなかった。しかし、様々なゲノム分析技術を活用した研究では、がんの進行とともに、DNAの低メチル化(hypomethylation)が広く行われる様々な研究結果が蓄積されており(Epigenomics. 2009 December;1(2):239-259、Clin Chem Lab Med. 2012 Oct 1; 50(10):1733-42)、繰り返し配列での低メチル化を癌の診断マーカーとして活用することができるものとして期待している。
【0009】
本明細書全体にわたって多数の論文及び特許文献が参照され、その引用が表示されている。引用された論文及び特許文献の開示内容は、その全体として本明細書に参照として挿入され、本発明が属する技術分野の水準及び本発明の内容がより明確に説明される。
【発明の概要】
【発明が解決しようとする課題】
【0010】
そこで、本発明者らは、非侵襲的な方法で癌の正確な診断が可能な新規方法を開発するために研究していた中、cfDNAをメチル化感受性制限酵素で処理して、制限酵素ターゲット配列のうちメチル化されていない配列を切断し、解読(sequencing)した後、解読された配列から一定長さの配列情報を利用して、それぞれ分類する場合、疾患、特に癌のような疾患に対して血液内のcfDNA種類を分類することができ、これを通じて疾患に対するcfDNAマーカーとして作用することができることを確認し、cfDNAでのメチル化と関連付けられた癌特異マーカー、特に癌特異脱メチル化マーカーを選別する方法を開発したことにより本発明を完成した。
【0011】
従って、本発明の目的はcfDNAでの癌特異脱メチル化マーカーを選別する新たな方法を提供することである。
【0012】
また、本発明の他の目的は選別されたcfDNAでの癌特異脱メチール化マーカーの頻度を産出して癌と判定する脱メチール化検出による新たな癌診断方法を提供することである。
【0013】
本発明のさらに他の目的は癌診断に必要な情報を提供するために、個体の血液から分離したcfDNAのメチル化感受性制限酵素断片の5`末端の予め決められた長さの配列情報を解読して分析する方法を提供することである。
【0014】
本発明の他の目的は5`末端がメチル化感受性制限酵素の認識部位の粘着性末端(cohesive end)の配列であり、25塩基乃至150塩基の配列からなり、本発明の方法によって選別されたcfDNAでの癌特異脱メチル化マーカーを提供することである。
【課題を解決するための手段】
【0015】
前記のような目的を達成するために、本発明は血液から分離したcfDNA(cell free DNA)にメチル化感受性制限酵素(methylation sensitive restriction enzyme)を処理する段階と、各断片の配列を解読(sequencing)する段階と、断片の5`末端から予め決められた長さの配列情報を収得する段階と、各配列情報の頻度を計数する段階と、癌特異配列情報をcfDNAでの癌特異脱メチル化マーカーとして選別する段階とを含む、cfDNAでの癌特異脱メチル化マーカーを選別する方法を提供する。
【0016】
また、本発明の他の目的を達成するために、本発明は選別されたcfDNAでの癌特異脱メチル化マーカーの頻度を算出して癌と判定するメチル化検出による新たな癌診断方法を提供する。
【0017】
本発明のさらに他の目的を達成するために、本発明は癌の診断に必要な情報を提供するために、個体の血液から分離したcfDNAのメチル化感受性制限酵素断片の5`末端の予め決められた長さの配列情報を分析する方法を提供する。
【0018】
本発明の他の目的を達成するために、本発明は5`末端がメチル化感受性制限酵素の認識部位の粘着性末端(cohesive end)の配列であり、25塩基乃至150塩基の配列からなり、本発明の方法によって選別されたcfDNAでの癌特異脱メチル化マーカーを提供する。
【0019】
他の定義がない限り、本明細書に使用された全ての技術的及び科学的用語は、当業者によって通常的に理解される同じ意味を有する。次の参考文献は、本発明の明細書で使用された多くの用語らの一般的な定義を有する技術(skill)のいずれかを提供する:Singleton et al.、DICTIONARY OF MICROBIOLOGY AND MOLECULAR BIOLOTY(2th ed. 1994); THE CAMBRIDGE DICTIONARY OF SCIENCE AND TECHNOLOGY(Walkered. 、1988); 及びHale&Marham、THE HARPER COLLINS DICTIONARY OF BIOLOGY。
【0020】
以下、本発明を詳細に説明する。
【0021】
本発明は、(a)血液から分離したcfDNA(cell free DNA)にメチル化感受性制限酵素(methylation sensitive restriction enzyme)を処理する段階、(b)各断片の配列を分析(sequencing)する段階、(c)断片の 5`末端から予め決められた長さの配列情報を収得する段階、(d)各配列情報の頻度を計数する段階、及び(e)癌特異配列情報をcfDNAでの癌特異脱メチル化マーカーとして選別する段階を含むcfDNAでの癌特異脱メチル化マーカーを選別する方法に関するものである。
【0022】
メチル化(methylation)
本発明での精製されたり精製されていない形態のいかなる核酸も使用することができ、ターゲット部位(例えば、CpG-含有核酸)を含有する核酸配列を含有しているか、含有することとして疑われる如何なる核酸も使用することができる。差別的にメチル化することができる核酸部位はCpG配列のC位置であり、特にCpGが密集しているCpG島にメチル化が多く行われる。特定の部位に於いて、CpG島の密度はゲノムの他の部位に比べて10倍もより高い。CpG島は平均G*C割合が約60%であるが、一方、普通のDNAのG*C割合は平均40%を示す。CpG島は典型的に約1~2kbの長さを有し、ヒトゲノムには約45,000個のCpG島が存在する。
【0023】
通常的に、試料となる核酸はDNAである。しかし、核酸の混合物も使用することができる。検出される特異的な核酸配列は、大きな分子の分画でもよく、最初から特異配列が全体核酸配列を構成する分離された分子の形態で存在してもよい。前記核酸配列は純粋な形態で存在する核酸である必要はなく、核酸は、全体のヒトDNAが含まれているように複雑な混合物内の少ない分画でもよい。試料に含まれた核酸のメチル化の程度を測定するために使用されたり、メチル化されたCpG島を検出するために使用される試料に含まれている核酸は、当該業界に公知となった通常的な方法で抽出することができる。
【0024】
塩基配列分析-シークエンシング(sequencing)
シークエンシング方法は、例えば、サンガー(Sanger)シークエンシング、高処理量シ-ケンシング、パイロシークエンシング、合成によるシークエンシング、単一分子シークエンシング、ナノポアシークエンシング、半導体シークエンシング、ライゲーションによるシークエンシング、混成化によるシークエンシング、RNA-Seq(イルミナ)、デジタル遺伝子発現 [ヘリコース(Helicos)]、次世代シークエンシング(NGS)、合成による単一分子シークエンシング(SMSS)(ヘリコース)、大規模並列シークエンシング、クロナール単一分子アレイ [ソレキサー(Solexa)]、ショットガン・シークエンシング、イオントレント(Ion Torrent)、オックスフォードナノポア、ロシュジェニア(Roche Genia)、マキシム・ギルバート(Maxim-Gilbert)シークエンシング、プライマー・ウォーキング; PacBio、SOLiD、イオントレント、又はナノポアプラットフォームを利用するシークエンシングを含む。シークエンシング反応は、多数のレーン、多数のチャンネル、多数のウェル、又は多数のサンプルセットを実質的に同時にプロセシングする他の手段でもよい各種サンプルプロセシングユニットで遂行することができる。サンプルプロセシングユニットはまた、多数の実行物を同時にプロセシングができるようにする多数のサンプルチャンバーを含むことができる。
【0025】
シークエンシング反応は、そのうちの少なくとも一つが疾患のマーカーを含有することが公知となっている複数の形態の核酸上で実行することができる。シークエンシング反応はさらに、サンプルに存在する任意の核酸断片上で遂行することができる。
【0026】
同時シークエンシング反応は、マルチプレックスシークエンシングを利用して実行することができる。一部の場合では、無細胞核酸は、少なくとも1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、100,000個のシークエンシング反応で配列分析することができる。他の場合では、無細胞核酸は、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、100,000個未満のシークエンシング反応で配列分析することができる。シークエンシング反応は順次的に又は同時に実行することができる。後続データ分析は、シークエンシング反応の全部または一部に対して実行することができる。一部の場合に、データの分析は少なくとも1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、100,000個のシークエンシング反応上で行うことができる。他の場合に、データの分析は1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、100,000個未満のシークエンシング反応上で行うことができる。例示的な判読物デプスは遺伝子座(塩基)当たり1000乃至50000個のリード(read)である。
【0027】
サンプル
サンプルは、個体から分離された任意の生物学的サンプルでもよい。サンプルは、身体サンプルでもよい。サンプルは、身体の組織、例えば、公知となったこと又は疑わしい固形腫瘍、全血、血清、血漿、糞便、白血球又はリンパ球、内皮細胞、組織生検、脳脊髄液、滑液、リンパ液、腹水、癲癇液又は細胞外流体、細胞間のスペース内の流体(歯茎の歯肉溝の流体を含む)、骨髄、胸膜滲出液、脳脊髄液、唾液、粘液、喀痰、精液、汗、尿を含むことができる。サンプルは、対象体から元々分離された形態でもよく、又は細胞のような成分を除去又は付加するために、又はさらに別の成分と比較して一成分を豊富化させるために、追加的にプロセッシングさせてものでもよい。サンプルは、対象体から分離又は収得することができ、サンプルの分析部位に輸送することができる。サンプルは、所望の温度、例えば、室温、4℃、-20℃、及び/又は-80℃下に保存及びローディングすることができる。サンプルは、サンプルの分析部位に於いての対象体から分離または収得することができる。
【0028】
個体は、ヒト、哺乳動物、動物、ペット、サービス動物、又はペットでもよい。個体は、疾患を有してもよい。個体は、疾患または検出可能な疾患症状が必須である。個体は、複数の療法、例えば、手術、処置、投薬、化学療法、抗体、ワクチン又は生物製剤のうちいずれか一つ以上のことにて治療を受けたことがあってもよい。個体は、快方に向かってもよく、または向かってなくてもよい。
【0029】
血液サンプルの無細胞核酸
血液サンプルは、ゲノム等価物を含有する様々な量の核酸を含むことができる。例えば、約33 ngのDNAサンプルは、約10,000個(104)の半数体ヒトゲノム等価物を含有することができ、cfDNAの場合には、約2千億個(2x1011)の個別ポリヌクレオチド分子を含有することができる。同様に、約100 ngのDNAサンプルは、約30,000個の半数体ヒトゲノム等価物を含有することができ、cfDNAの場合には、約 6千億個の個別分子を含有することができる。
【0030】
増幅前のサンプル内の無細胞核酸の例示的な量は、約1fg乃至約1μg、例えば、1pg 乃至200 ng、1 ng乃至100 ng、10 ng 乃至1000 ngの範囲である。例えば、その量は、約600 ng以下、約500 ng以下、約400 ng以下、約300 ng以下、約200 ng以下、約100 ng以下、約50 ng以下、又は約20 ng以下、又は約10 ng以下、又は約5 ng以下、又は約1 ng以下の無細胞核酸分子でもよい。その量は、少なくとも1 fg、少なくとも10 fg、少なくとも100 fg、少なくとも1 pg、少なくとも10 pg、少なくとも100 pg、少なくとも1 ng、少なくとも10 ng、少なくとも100 ng、少なくとも150 ng、又は少なくとも200 ngの無細胞核酸分子でもよい。その量は、1 フェムトグラム(fg)、10 fg、100 fg、1 ピコグラム(pg)、10 pg、100 pg、1 ng、10 ng、100 ng、150 ng、又は200 ng以下の無細胞核酸分子でもよい。前記方法は、1 フェムトグラム(fg)乃至200 ngを収得することを含むことができる。
【0031】
無細胞核酸は、細胞内に含有されていないことであるか、又は別に細胞と結合されない核酸、又は言い換えると、無損傷細胞を除去した後にもサンプル内に残っている核酸である。無細胞核酸はDNA、RNA、及びその混成体を含んでおり、これはゲノムDNA、ミトコンドリアDNA、siRNA、miRNA、循環RNA(cRNA)、tRNA、rRNA、小型核小体RNA(snoRNA)、Piwiー相互作用性RNA(piRNA)、長鎖ノンコーディングRNA(長鎖ncRNA)、又はこれらのうち任意のものの断片を含む。無細胞核酸は二本鎖、一本鎖、又はその混成体でもよい。無細胞核酸は、分泌または細胞死滅プロセス、例えば、細胞性壊死、及びアポトーシスを介して体液内に放出されることもある。一部無細胞核酸は癌細胞、例えば、循環腫瘍DNA(ctDNA)から体液内に放出される。他のことは健康な細胞から放出される。一部の実施態様で、無細胞核酸は、腫瘍細胞によって産生される。一部の実施形態では、無細胞核酸は腫瘍細胞と非腫瘍細胞の混合物によって産生される。
【0032】
無細胞核酸は、例えば、約100乃至500個のヌクレオチドの長さの分布を示し、110乃至約230個のヌクレオチドの分子が、これらの分子の約90%を占め、240乃至440個のヌクレオチド範囲の第2マイナーピークを伴う。
【0033】
無細胞核酸は、分画化または分割段階を通じて体液から単離することができ、ここで溶液から発見されたような無細胞核酸は、無損傷細胞及び体液の他の非可用性成分から分離される。分割は、遠心分離又はろ過のような技術を含むことができる。別の一方で、体液中の細胞は溶解することができ、無細胞と細胞性核酸は、一緒にプロセシングすることができる。一般的に、緩衝液の付加及び洗浄段階後、核酸はアルコールで沈殿することができる。追加的浄化段階は、例えば、シリカベースのカラムを使用して汚染物質や塩を除去することができる。重亜硫酸塩シークエンシング、混成化、及び/又はライゲーションのための非特異的バルクキャリア核酸、例えば、Cot-1 DNA、DNA又はタンパク質が反応を通して付加されて、この手順の特定の側面、例えば、歩留まりを最適化することができる。 これらのプロセシングの後、サンプルは、二本鎖DNA、一本鎖DNA、及び一本鎖RNAを含む様々な形態の核酸を含むことができる。一部の実施形態では、一本鎖DNA、及びRNAは二本鎖形態に転換することができるので、これらは後続プロセシング及び分析の段階に含まれる。
【0034】
本発明の一つの態様に於いて、cfDNAはヒトのゲノムDNAから由来することでもよく、ヒトと共生することまたはヒトに感染されたヒト以外の細胞、細菌、菌又はウイルスのDNAから由来することでもよい。
【0035】
本発明の一つの態様に於いて、cfDNAでの癌特異脱メチル化マーカーを選別する方法は、以下の段階を含むことができる:
(a)血液から分離したcfDNAにメチル化感受性制限酵素を処理する段階;
(b)各断片の配列を分析する段階;
(c)断片の5`末端から予め決められた長さの配列情報を収得する段階;
(d)各配列情報の頻度を計数する段階;及び
(e)癌特異配列情報をcfDNAでの癌特異脱メチル化マーカーとして選別する段階。
【0036】
(a)段階は、血液から分離したcfDNAにメチル化感受性制限酵素を処理する段階である。
【0037】
cfDNAは個体から分離する。好ましくは、cfDNAは血漿から分離されてもよい。分離方法は、制限酵素の処理及び配列分析(sequencing)に適切な純度が得られる当該業界に公知となった通常的なDNA分離方法によることにしてもよい。
【0038】
本発明の一つの態様に於いて、メチル化感受性制限酵素は、AatII、AclI、AgeI、Aor13H I、AscI、AsiSI、AvaI、BsaHI、BsiEI、BsiWI、BspDI、BsrFI、BssHII、BstBI、ClaI、Cpo I、EagI、FseI、HaeII、HhaI、HinP1I、HpaII(又はHapII)、HpyCH4IV、Hpy99I、KasI、MluI、NarI、NgoMIV、NotI、PaeR7I、PluTI、PvuI、RsrII、SacII、SalI、SgrAI又はTspMIである。好ましくは、本発明のメチル化感受性制限酵素は、i)メチル化されていないターゲット領域を選択的に切断し、ii)切断された末端が(平滑末端(blunt end)でない)粘着性末端(cohesive end)を作って相補的な粘着性末端を有するアダプター(adapter)の接合効率を高めることができ、高品質のライブラリーを作ることができる特徴を有することができる。
【0039】
本発明の一つの態様に於いて、メチル化感受性制限酵素は、CpGメチレーション(CpG methylation)に対する選択的切断が可能な酵素、すなわち、脱メチル化(demethylation)されたCpGを含む制限酵素認識部位を特異的に切断することができる酵素であることが好ましい。但し、制限酵素の認識部位がゲノム内にどれだけ存在するかによって、実際に全ゲノムに対するカバレッジ(coverage)と配列分析をしなければならない分析の費用が異なり得るので、目的に合わせて適切な制限酵素を選択することができる。
【0040】
【0041】
(b)段階は、各断片の配列を分析(sequencing)する段階である。
【0042】
本発明の一つの態様に於いて、配列を解読することは、当該業界に公知となった配列の解読方法によって実行される。配列解読はメチル化感受性制限酵素によって切断された断片又は切断されていない断片それぞれの配列を解読する。配列解読は、大量の断片、好ましくは少なくとも10000個以上、少なくとも20000個以上、少なくとも30000個以上、少なくとも40000個以上、少なくとも50000個以上、少なくとも100000個以上、少なくとも1000000個以上の断片を解読するため、これに適した解読方法が好ましい。
【0043】
配列解読は、当該業界に公知となった配列解読法が使用できるが、各断片の配列を十分な量で解読するために、大量の配列解読が可能な方法であれば制限なく使用することができる。例えば、次世代シークエンシング方法(NGS, Next generation sequencing)が使用される場合、大量の配列を18時間以内に低コストで解読できる利点があり、十分な量の配列を読み取る場合、精度が極めて高く、解読されたデータを定性的、定量的に分析することが可能である。
【0044】
配列解読のためには、好ましくは、メチル化感受性制限酵素によって切断されたDNA断片だけを解読することができるように、適切なアダプタ(adapter)を取付けることができる。試料内のDNAはメチル化状態によってメチル化感受性制限酵素によって切断されることも、又は切断されないこともある。例えば、正常人のcfDNAはメチル化されているが、癌化されづつ脱メチル化された癌DNAを検出する場合には脱メチル化されて切断された断片だけを解読することができれば、極めて低い割合で混合されたcfDNAの検出が容易になる。従って、メチル化感受性制限酵素によって切断されて生成された粘着性末端に相補的な構造を有するアダプタを使用すれば、切断された断片のみでライブラリーが作成できるため、解読段階で選別的に癌による脱メチルされた断片を解読することができるようになる。
【0045】
(c)段階は、断片の5`末端から予め決められたの長さの配列情報を収得する段階である。
【0046】
本発明の一つの態様に於いて、“予め決められたの長さ”とは、配列解読された各断片に於ける5`末端からの塩基または塩基対の長さを示し、好ましくは、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150塩基でもよい。一方、予め決められたの長さは、選別または分析対象の癌、試料の種類などに応じて、25未満の自然数、150を超える自然数の一つでもよい。より好ましくは、予め決められた長さは30、60、80又は90塩基でもよい。また、本発明の一つの態様に於いて、“予め決められた長さ”は、5乃至1000以下の任意の自然数でもある。
【0047】
(d)段階は、各配列情報の頻度を計数する段階である。
【0048】
得られた配列情報から制限酵素の切断によって生じた粘着性末端の配列(HpaIIの場合CGG)で5`末端が始まる各配列情報の頻度を計数する。つまり、一つのサンプル解読で得られた全ての配列で決められた一つの長さ(例えば、30)の配列の種類(30ntの場合、理論的に430種類の配列が可能)を計数し、各種類の配列が何回表示されるかを計数する。計数された各配列の値は、他のサンプルらの値と比較するために正規化する。この正規化は、各サンプル毎に解読された量が異なる場合、サンプル間の直接的な定量的な比較のために解読された量に比例する値で集計された各値を分けることである。この場合、解読された量に比例する値は、各サンプルの解読された全体配列数、ハウスキーピング遺伝子領域にマッピングされた配列の数など、さまざまな値が可能である。
【0049】
(e)段階は、癌特異配列情報をcfDNAでの癌特異脱メチル化マーカーで選別する段階である。
【0050】
通常のサンプル群と癌のサンプル群に於いて、各決められた長さの配列の組合わせについて計数され、正規化された値らを比較して癌サンプル群から有意に高く出てくる予め決められた長さの配列をマーカーとして選定する。最も簡単には、各決められた長さの配列の組合わせに於いて、正常サンプル群と癌サンプル群での平均値の差を利用して、又はT検定(T-test)、マン・ホイットニーの検定(Mann-Whitney test)、ウィルコクソンの検定(Wilcoxon Test)、又はコーエンのD(Cohen's D test)などのさまざまな統計技を使用して、両方のサンプル群から有意な差がある配列を選択する。本一実施例では、乳癌と肺癌に対して平均値の差で分析した。
【0051】
選別された癌特異脱メチル化マーカーは、試料を提供したパーソナライズ型マーカーでもあって、癌の種類、病気、人種又は家族に共通的に適用されるマーカーでもよい。
【0052】
本発明の一つの態様に於いて、cfDNAでの癌特異脱メチル化マーカーは、5`末端配列が前記制限酵素の認識部位のうち切断されて、残りの部分の配列であり、前記予め決められた長さと同じ長さの塩基配列からなる。例えば、HpaII制限酵素の場合、CCGG塩基を認識して、CとCの間を切断する。従って、切断された断片の5`末端はCGGで始まる。癌特異脱メチル化マーカーは、予め決められた長さの塩基配列を有するので、予め決められた長さが30であれば、CGGNNNNNNNNNNNNNNNNNNNNNNNNNNN(配列番号38)(Nは任意の塩基、30bp)の配列中から選択されることになる。この場合、Nは27であるため,427(=18,014,398,509,481,984)断片が理論的に存在することができ、癌特異脱メチル化マーカーは、これらの中から選別されることになる。予め決められた長さが60であれば、癌特異脱メチル化マーカーの長さは60塩基であり、予め決められた長さと癌特異脱メチル化マーカーの長さは同じになる。
【0053】
また、本発明は、個体から分離した血液からcfDNAを分離する段階と、分離したcfDNAにメチル化感受性制限酵素を処理する段階と、各断片の配列を解読する段階と、断片の5`末端から予め決められた長さの配列情報を収得する段階と、各配列情報の頻度を計数する段階と、cfDNAでの癌特異脱メチル化マーカーの頻度を算出して癌と判定する段階とを含む癌の診断方法に関するものである。
【0054】
本発明の一つの態様に於いて、個体は癌診断が必要な患者である。
【0055】
本発明の一つの態様に於いて、予め決められた長さは、cfDNAでの癌特異脱メチル化マーカーと同じ長さである。
【0056】
本発明の一つの態様に於いて、cfDNAでの癌特異脱メチル化マーカーは、1乃至50個、好ましくは3乃至40個、より好ましくは5乃至30個からなるマーカーセットである。
【0057】
また、本発明は、癌の診断に必要な情報を提供するために、個体の血液から分離したcfDNAのメチル化感受性制限酵素断片の5`末端の予め決められた長さの配列情報を解読して分析する方法に関するものである。
【0058】
また、本発明は、5`末端がメチル化感受性制限酵素の認識部位の粘着性末端の配列(例えば、CGGの配列)であり、連続して25塩基乃至150塩基の配列からなり(好ましくは、30塩基、35塩基、40塩基、45塩基または50塩基の塩基配列からなる)、本発明の方法によって選別されたcfDNAでの癌特異脱メチル化マーカーを提供し、本段落に於いて、粘着性末端の配列はACGTC(配列番号39)、ATCG(配列番号40)、ATCGC(配列番号41)、CCGGA(配列番号42)、CCGGC(配列番号43)、CCGGCC(配列番号44)、CCGGG(配列番号45)、CCGGT(配列番号46)、CCGGY(配列番号47)、CCGGYG(配列番号48)、CG(配列番号49)、CGAA(配列番号50)、CGAT(配列番号51)、CGC(配列番号52)、CGCC(配列番号53)、CGCGC(配列番号54)、CGCGCC(配列番号55)、CGCGT(配列番号56)、CGG(配列番号57)、CGT(配列番号58)、CGTT(配列番号59)、CGWCG(配列番号60)、CGYC(配列番号61)、GCGCC(配列番号62)、GCGCY(配列番号63)、GCGG(配列番号64)、GGCCG(配列番号65)、GGCCGC(配列番号66)、GTACG(配列番号67)、GWCCG(配列番号68)、RYCG(配列番号69)、TCGAC(配列番号70)、TCGAG(配列番号71)、及びYCGRG(配列番号72)からなる群から選択することができる。このとき、塩基の表示は標準的な表記法に準拠し、例えば、Aはアデニン、Cはシトシン、Tはチミン、Gはグアニン、YはC又はT、WはA又はT、RはA又はGを示す。
【0059】
本発明の一つの態様に於いて、癌は、これに限定されるものではないが、子宮頸部癌、肺癌、膵臓癌、非小細胞性肺癌、肝臓癌、結腸癌、骨癌、皮膚癌、頭部又は頸部癌、皮膚又は眼球内黒色症、子宮癌、卵巣癌、直腸癌、胃癌、肛門付近癌、乳癌、ラッパ管癌腫、子宮内膜癌腫、膣癌腫、陰門癌腫、食道癌、小腸癌、内分泌腺癌、甲状腺癌、副甲状腺癌、副腎臓癌、軟組織肉腫、尿道癌、陰茎癌、前立腺癌、膀胱癌、腎臓癌又は輸尿管癌でもよい。
【0060】
癌疾患診断のための分析
本診断方法は、特定対象体から病態、特に疾患の存在を診断したり、病態の特徴を究明したり、(例えば、癌の病気を決定したり、又は癌の異質性を決定する)、病態の治療に対する反応をモニタリングしたり、病態又は病態の後続過程の発生リスクを予後するために使用することができる。本記載内容は、さらに、特別な治療法の効能を決定するために有用でもある。また他の例に於いて、特定の治療法は、時間の経過に伴う癌の遺伝的プロファイルと相関関係があり得る。これらの相関関係は、治療法の選択に役立つことがある。付加的に、治療後に癌の快方に向かうことが観察される場合、本診断方法は、残余疾患又は疾患の再発をモニタリングするために使用することができる。
【0061】
遺伝的データは、さらに、特異的な形態の癌の特徴を究明するために使用することができる。がんは多くの場合、組成と病期の両方において異質的である。遺伝的プロファイルデータは、特異的下位類型の癌を診断又は治療するために重要であり、そのような特異的な下位類型の癌の特徴究明を許容することができる。これらの情報は、さらに、特異的類型の癌の予後に関する対象体又は実務者の手がかりを提供することができ、対象体又は実務者が疾患の進行に応じて治療オプションを選択するように許容することができる。一部の癌は、より攻撃的で遺伝的に不安定になるように進むことができる。他の癌は良性、非活性又は休眠状態のままにすることができる。本記載内容のシステム及び方法は疾患の進行を決定するのに有用でもある。
【0062】
マーカー及びパネル
本発明は、診断又は予測マーカーとして各マーカーを個別的に使用すること、またはいくつかのマーカーを組合わせてパネルディスプレイの形態にして使用することができ、いくつかのマーカーは、全体的なパターン又はメチル化された部位の目録を通じて、信頼性及び効率性を向上させることを確認することができる。本発明で確認されたマーカーは、個別に、又は組合わされたマーカーセットとして使用することができる。マーカーらは、一緒にメチル化されたマーカーの数及びその重要度に応じてランク付けすることができ、加重値を置くことができ、疾患に発展する可能性のレベルを選ぶことができる。これらのアルゴリズムは本発明に属する。
【0063】
基質
ターゲット核酸部位は、固体支持体(基質)に固定された既知のプロブとハイブリダイゼーションすることができる。
【0064】
ここで、“基質”とは、物質、構造、表面又は材料、非生物学的で、合成され、無生物、平面、球形又は特異的結合、平らな表面の物質を含む混合物の手段であり、ハイブリダイゼーション、又は酵素認識部位又は殆どの他の認識部位又は表面、構造又は材料で構成された多数の他の分子種を超える多くの他の認識部位を含むことができる。前記基質は、例えば、半導体、(有機)合成メタル、合成半導体、インシュレーター、及びドーパント; 金属、合金、元素、化合物、及びミネラル; 合成され、分解され、エッチングされて、リソーグラフされ、プリントされてマイクロファブリケイトされたスライド、装置、構造、及び表面; 産業的、ポリマー、プラスチック、メンブレーン、シリコン、シリケート、ガラス、金属、及びセラミック;木材、紙、カードボード、綿、ウール、布、織造、及び非織造繊維、材料、及びフェブリックでもよいが、これに限定されるものではない。
【0065】
いくつかの形態のメンブレーンは、当該分野で核酸配列に対して付着力を有すると知られている。このようなメンブレーンの特異的且つ非制限的な例として、ニトロセルロース又はポリ塩化ビニル、ジアゾチゼド(diazotized)ペーパー、及び商品名GENESCREEN、商品名ZETAPROBE、及び商品名NYTRANなどの商業的に使用されるメンブレーンと共に遺伝子発現検出用メンブレンを挙げることができる。ビーズ、ガラス、ウエハ、及び金属基質も含まれる。これらの目的物に核酸を付着させる方法は当該分野でよく知られている。これとは別の方法として、液体上でもスクリーニングを行うことができる。
【発明の効果】
【0066】
従って、本発明の方法は、cfDNAでの癌特異脱メチル化マーカーを選別することができ、選別されたマーカーは、癌の診断、治療法に対するモニタリング、癌患者の予後に必要な情報を提供することができ、抗癌治療に有用に利用することができる。
【図面の簡単な説明】
【0067】
【
図1】
図1aは、肺癌患者試料群と正常人試料群に於いてHpaIIで処理して分析した結果の一例であり、
図1bは、これを図式化したものである。
【
図2a】
図2aは、乳癌患者試料群と正常人試料群に於いてSacIIで処理して酵素切断部位にマッピングされたリード(read)の数を標準化(z-score)して、2つの試料群の間で統計的に有意な差がある領域を表現したものである。
【
図2b】
図2bは、
図2aの過程で抽出された乳癌特異的マーカーを用いて、機械学習モデルを作成して乳癌予測確率値(0.0-1.0)を計算し、正常群と乳癌群間の確率値の差を図式化したものである。
【
図2c】
図2cはモデル学習を20回繰り返して、各テストサンプルの平均確率を介してROC(受信者操作特性、Receiver Operator Characteristic)曲線を図式化してAUC(曲線下面積、Area Under Curve:0.0-1.0)の値を表現した。
【
図3】
図3aは、乳癌患者試料群と正常人試料群において、HpaIIで処理して分析した結果の一例であり、
図3bは、これを図式化したものである。
【
図4a】
図4aは、肺癌患者試料群と正常人試料群からSacIIで処理して酵素切断部位にマッピングされたリード(read)の数を標準化(z-score)し、2つの試料群の間に統計的に有意な差がある領域を表現したものである。
【
図4b】
図4bは、
図4aの過程で抽出された肺癌特異的マーカーを利用して、機械学習モデルを作成して肺癌予測確率値(0.0-1.0)を計算し、正常群と肺癌群の間の確率差を図式化したものである。
【
図4c】
図4cは、モデル学習を20回繰り返して、各テストサンプルの平均確率値を通じてROC曲線を図式化してAUC(0.0-1.0)の値を表現した。
【
図4d】
図4dは、肺がんの各病期(stage)に分類してROC曲線を図式化した。
【発明を実施するための形態】
【0068】
以下、本発明の理解を補うために好ましい実施例を提示する。但し、下記の実施例は本発明をより容易に理解するために提供されるものであり、これにより本発明の内容が限定されるものではない。
【0069】
実験方法
1. 血液からcfDNAの分離
乳癌患者(n = 102)、肺癌患者(n = 75)及び健康な人(n = 139)を対象にしてcfDNA専用採血管に採血をした。分離された血液は、それぞれ2000rpm、20分で遠心分離して血漿(plasma)を分離した。分離された血漿(上澄み液)を1.5mlチューブに移した後、16000rpmで10分間遠心分離した。この後、Chemagen cfDNA prepキットを用いて、メーカーの指示に従ってcfDNAを分離した。
【0070】
2. Library製作
分離されたcfDNAの末端を平滑末端(blunt end)にした後、Aテーリング(A tailing)を誘導し、これにp7アダプター(p7 adapter)とcfDNAのライゲーション(ligation)を誘導した。制限酵素であるHpaIIを処理して脱メチル化された(demethylated)CCGG部位を切断した。このとき、メチル化されたCpGの場合、HpaIIによって切断されなくなる。ここにHpaII粘着性末端(sticky end)を有しているp5アダプターを添加し、HpaIIによって切断されたcfDNA断片とライゲーションをし、これを分析ライブラリーにした。
【0071】
3. 配列情報の分析
各サンプルの解析ライブラリーをNGSにして、ライブラリーに含まれた各配列から配列情報を得た。各サンプルの解読された配列から制限酵素認識配列(HpaIIの場合はCGG、SacIIの場合はGC)で始まる配列を選抜し、選抜された配列を5`から一定の長さ(例:30、60、80など)の配列情報を得て、決められた長さ別に配列を分類した。各サンプルから分類された配列の頻度を計数し、サンプル間の比較のために正規化した。各配列候補について、正常サンプル群対比癌のサンプル群に於いて、有意に高く解読された配列を確認した。このとき、その配列は癌のサンプル群から特異的に脱メチル化されているものであるので、脱メチル化マーカー(HpaIIの場合に該当;メチル化部位を切断する制限酵素の場合にはメチル化マーカー)で選別することができた。決められたマーカーに対して各サンプル別に平均値(DHMスコア(DHM score))を求め、癌サンプルと正常サンプルを区別することができるDHMスコアの基準値を決める。このDHMスコアは試料の判定に用いた。
【0072】
4. 試料の検査及び癌発生の可否判別
未知の試料を上述した実験方法及び分析方法に基づいて解読と分析を行った。前記配列情報の分析(項目3.)で選抜されたマーカーに該当する値の平均であるDHMスコアを求め、所定のDHM基準値以上の場合、癌があると判定した。
【0073】
実施例1:乳癌cfDNAに対する癌特異脱メチル化マーカーの選別と、これを利用した判定の精度テスト
34個の乳癌サンプル群と53個の正常サンプルから分離したcfDNAをメチル化感受性制限酵素の一つであるHpaIIで切断し、上述した実験法に基づいて解読、分析した。解読された配列のうちCGGで始まる配列の前部分80ntの配列をマーカー候補として計数し比較した。乳癌での各マーカーに該当する値の平均が5以上でありながら、正常群の平均値よりも10倍以上の値を有する173個をマーカーとして決め、各サンプルからこれらの173個の値の平均であるDHMスコアを求めた。
【0074】
その結果、
図1aに示した通り、乳癌と正常サンプルの各マーカーに対する正規化されたスコアを記録したテーブルを作成し、スコアを簡単に表示するために高い数を赤色で、低数を青色で表現するヒートマップ(heatmap)で表現した。
図1aは、173個のマーカーのうち上位一部のことを示したものであり、選抜されたマーカーに於いて、乳癌サンプルでは3つのサンプルを除いた31個のサンプルが一定数値以上の値を有する一方、正常サンプルに於いては、すべてのサンプルが0に近い値を有することを確認することができた。
【0075】
図1bは、
図1aで表現された各サンプルの173個のマーカーの値の平均であるDHMスコアを棒グラフで表現したものである。DHMスコア 1を基準に乳癌と正常サンプルが明確に区別されることを確認することができる。
【0076】
このように、乳癌群と正常群のDHMスコアを比較した結果、DHMスコアを1として基準にした場合、34個の乳癌サンプルの中で31個を乳癌と判定し、53個の正常サンプルの中で53個全部を正常と判定することができた。精度を算出した結果、敏感度は91.2%、特異度は100%であった(
図1a及び
図1bを参照)。
【0077】
実施例2:SacIIで処理した乳癌cfDNAの癌特異脱メチル化マーカーの選別と、それを利用した判定の精度テスト
【0078】
102個の乳癌サンプル群と139個の正常サンプルから分離したcfDNAをメチル化感受性制限酵素であるSacIIで切断し、上述した実験法に基づいて解読、分析した。解読された配列のうちGCで始まる配列の前部分80ntの配列をマーカー候補とし、計数し比較した。
【0079】
各マーカーは、IQR(四分位範囲;InterQuartile Range)の平均値を通じて正規化して、これをZ-scoreを通じて標準化を遂行し、シーケンス間に表れ得る差を減少させる。以後、各マーカーに対して、乳癌群と正常群の間にt検定(t-test)を遂行して、p値(p-value)が特定の臨界値(例えば、10-5 )以下に該当するマーカーを選定し、選定されたマーカーを通じて、最終DHMスコアを計算する。最終スコア(Score)は選定されたマーカーに対して、サンプル別に、その値を単純に加えて計算することができ、ロジスティック回帰分析のような機械学習の分類モデルを作成して予測確率値で計算することができる。
【0080】
その結果、
図2aに示した通り、乳癌と正常サンプルの各マーカーに対する正規化/標準化された値を記録したテーブルを作成し、スコアを見易くするために高い数を赤色で、低い数を青色で表現するヒットマップ(heatmap)で表現した。
図2bは、選定されたマーカーを通じて機械学習予測モデルを作成し、0から1までの確率値で結果値を作成し、乳癌群と正常群での確率値の分布の差が明確に表示されることが確認できた。
【0081】
図2cでは、機械学習モデルテスト方法のうち、K分割交差検証(K-Fold Cross Validation)を使用して、各サイクル(Cycle)毎に学習とテスト群を 8:2で任意(Random)抽出をし、このような動作を20回繰り返して、1つのサンプルが20回の相異する学習データを通じて結果値が計算され、これを平均値にとって、ROC曲線を描いて性能を測定した。
【0082】
このように、乳癌群と正常群のDHMスコアを比較した結果、AUCが0.9492で、特異度が100%の基準で敏感度は70.87%を有することが分かった(
図2cを参照)。
【0083】
実施例3:肺癌cfDNAに対する癌特異脱メチル化マーカーの選別と、それを利用した判定の精度テスト
【0084】
11個のサンプルの肺癌群と53個の正常サンプル群を30ntの長さで比較した場合、正常群の平均値より肺癌群で5倍以上の値を有するマーカーは198個、10倍以上の値を有するマーカーは157個であった。各サンプルからこれら198個の値を全て足してDHMスコアを求めた。
【0085】
その結果、
図3aに示した通り、肺癌と正常サンプルの各マーカーに対する正規化されたスコアを記録したテーブルを作成し、スコアを見易くするために高い数を赤色で、低い数を青色で表現するヒットマップに表現した。
図3aは、198個のマーカーのうち、上位の一部を示したものである。選抜されたマーカーに於いて、肺癌のサンプルでは、3個のサンプルを除いた8個のサンプルが基準値以上の値を有する一方、正常サンプルでは、全てのサンプルが基準値 4よりも低い 3以下の値を有することが確認できた。
【0086】
図3bは、
図3aで表現された各サンプルの198個のマーカー値らの平均であるDHMスコアを棒グラフで表現したものである。DHMスコア 4を基準にして、肺癌と正常サンプルが明確に区別されることが確認できた。
【0087】
このように、肺癌群と正常群のDHMスコアを比較した結果,DHMスコアを4を基準にした場合、11個の肺癌サンプルのうち8個を肺癌と判定し、53個の正常サンプルのうち53個全部を正常と判定することができた。正確度を算出した結果、敏感度は72.7%、特異度は100%であった(
図3a及び
図3bを参照)。
【0088】
実施例4:SacIIで処理した肺癌cfDNAに対する癌特異脱メチル化マーカーの選別と、それを利用した判定の正確度テスト
【0089】
75個の肺癌サンプル群と129個の正常サンプルから分離したcfDNAをメチル化感受性制限酵素の一つであるSacIIで切断して上述した実験法に基づいて解読、分析した。解読された配列のうちGCで始まる配列の前部分80ntの配列をマーカー候補とし、計数し比較した。
【0090】
各マーカーは、IQRの平均値を通じて正規化し、これをZ-scoreを通じて標準化を行い、シーケンス間に現れ得る差を減少させる。以後、各マーカーに対して肺癌群と正常群の間にt検定を実行し、p値が特定の臨界値(例えば、10-5)以下に該当するマーカーを選定し、選定されたマーカーを通じて、最終的DHMスコアを計算する。最終スコアは選定されたマーカーに対して、サンプル別に、その値を単純に加えて計算することができ、ロジスティック回帰分析のような機械学習の分類モデルを作成して予測確率値で計算することができる。
【0091】
その結果、
図4aに示した通り、肺癌と正常サンプルの各マーカーに対する正規化/標準化された値を記録したテーブルを作成し、スコアを見易くするために高い数を赤色で、低い数を青色で表現するヒットマップで表現した。
図4bは、選定されたマーカーを通じて機械学習予測モデルを作成し、0から1までの確率値で結果値を作成し、肺癌群と正常群での確率値の分布の差が明確に表示されることが確認できた。
【0092】
図4cでは、機械学習モデルテスト方法のうち、K分割交差検証を使用して、各サイクル毎に学習とテスト群を8:2で任意抽出をし、このような動作を20回繰り返して、1つのサンプルが20回の相異する学習データを通じて、結果値が計算され、これを平均値にとって、ROC曲線を描いて性能を測定した。
図4dは、肺癌の各病期に応じて分類されたサンプルの正確度を示す。
【0093】
このように、肺癌群と正常群のDHMスコアを比較した結果、AUCが0.8837であり、特異度100%の基準で敏感度は41.67%を有することが分かった(
図4c参照)。
【産業上の利用可能性】
【0094】
以上説明した通り、本発明の方法は、cfDNAでの癌特異脱メチル化マーカーを選別することができ、選別されたマーカーは、癌の診断、治療法に対するモニタリング、癌患者の予後に必要な情報を提供することができるので、抗癌治療に有効に利用することができる。
【手続補正2】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
(a)個体から分離したcfDNA(cell free DNA)にメチル化感受性制限酵素(methylation sensitive restriction enzyme)を処理する段階と、
(b)各断片の配列を分析(sequencing)する段階と、
(c)断片の
5`末端から予め決められた長さの配列情報を収得する段階と、
(d)各配列情報の頻度を計数する段階と、
(e)癌特異配列情報をcfDNAでの癌特異脱メチル化マーカーとして選別する段階とを含む、cfDNAでの癌特異脱メチル化マーカーを選別する方法。
【請求項2】
前記メチル化感受性制限酵素は、AatII、AclI、AgeI、Aor13H I、AscI、AsiSI、AvaI、BsaHI、BsiEI、BsiWI、BspDI、BsrFI、BssHII、BstBI、ClaI、Cpo I、EagI、FseI、HaeII、HhaI、HinP1I、HpaII、HpyCH4IV、Hpy99I、KasI、MluI、NarI、NgoMIV、NotI、PaeR7I、PluTI、PvuI、RsrII、SacII、SalI、SgrAI、及びTspMIからなる群から選択されたことを特徴とする請求項1記載の方法。
【請求項3】
配列を分析することは、次世代シークエンシング(NGS)によって遂行されることを特徴とする請求項1記載の方法。
【請求項4】
前記予め決められた長さは、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、及び150からなる群から選択されたいずれかの長さの塩基であることを特徴とする請求項1記載の方法。
【請求項5】
前記cfDNAでの癌特異脱メチル化マーカーは、
5`末端配列が前記制限酵素の認識部位の粘着性末端(cohesive end)の配列であり、前記予め決められた長さと同じ長さの塩基配列からなることを特徴とする、請求項1記載の方法。
【請求項6】
前記癌は、子宮頸部癌、肺癌、膵臓癌、肝臓癌、結腸癌、骨癌、皮膚癌、頭部又は頸部癌、皮膚又は眼球内黒色症、子宮癌、卵巣癌、直腸癌、胃癌、肛門癌、乳癌、ラッパ管癌腫、子宮内膜癌腫、膣癌腫、陰門癌腫、食道癌、小腸癌、内分泌腺癌、甲状腺癌、副甲状腺癌、副腎癌、軟組織肉腫、尿道癌、陰茎癌、前立腺癌、膀胱癌、腎臓癌、及び輸尿管癌でからなる群から選択されたことを特徴とする請求項1記載の方法。
【請求項7】
(a)個体から分離したcfDNA(cell free DNA)にメチル化感受性制限酵素を処理する段階と、
(b)各断片の配列を分析する段階と、
(c)断片の
5`末端から予め決められた長さの配列情報を収得する段階と、
(d)各配列情報の頻度を計数する段階と、
(e)cfDNAでの癌特異脱メチル化マーカーの頻度を算出して癌と判定する段階を含む癌の診断方法。
【請求項8】
前記個体は、癌の診断が必要な患者であることを特徴とする請求項7記載の方法。
【請求項9】
前記予め決められた長さは、前記cfDNAでの癌特異脱メチル化マーカーと同じ長さであることを特徴とする請求項7記載の方法。
【請求項10】
前記cfDNAでの癌特異脱メチル化マーカーは、5乃至50個からなるマーカーセットであることを特徴とする請求項7記載の方法。
【請求項11】
癌の診断に必要な情報を提供するために、個体から分離したcfDNAのメチル化感受性制限酵素断片の
5`末端の予め決められた長さの配列情報を分析する方法。
【請求項12】
5`末端がメチル化感受性制限酵素の認識部位の粘着性末端(cohesive end)の配列であり、25塩基乃至150塩基の配列からなり、請求項1の方法によって選別されたcfDNAでの癌特異脱メチル化マーカー。
【請求項13】
前記粘着性末端の配列は、ACGTC(配列番号39)、ATCG(配列番号40)、ATCGC(配列番号41)、CCGGA(配列番号42)、CCGGC(配列番号43)、CCGGCC(配列番号44)、CCGGG(配列番号45)、CCGGT(配列番号46)、CCGGY(配列番号47)、CCGGYG(配列番号48)、CG(配列番号49)、CGAA(配列番号50)、CGAT(配列番号51)、CGC(配列番号52)、CGCC(配列番号53)、CGCGC(配列番号54)、CGCGCC(配列番号55)、CGCGT(配列番号56)、CGG(配列番号57)、CGT(配列番号58)、CGTT(配列番号59)、CGWCG(配列番号60)、CGYC(配列番号61)、GCGCC(配列番号62)、GCGCY(配列番号63)、GCGG(配列番号64)、GGCCG(配列番号65)、GGCCGC(配列番号66)、GTACG(配列番号67)、GWCCG(配列番号68)、RYCG(配列番号69)、TCGAC(配列番号70)、TCGAG(配列番号71)、及びYCGRG(配列番号72)からなる群から選択されることを特徴とする請求項12記載の癌特異脱メチル化マーカー。
【国際調査報告】