(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024149826
(43)【公開日】2024-10-18
(54)【発明の名称】膵臓病変の評価における無細胞DNAヒドロキシメチル化プロファイル
(51)【国際特許分類】
C12Q 1/6886 20180101AFI20241010BHJP
C12Q 1/6806 20180101ALI20241010BHJP
C12Q 1/686 20180101ALI20241010BHJP
C12Q 1/6869 20180101ALI20241010BHJP
G01N 33/50 20060101ALI20241010BHJP
C12Q 1/6825 20180101ALN20241010BHJP
【FI】
C12Q1/6886 Z
C12Q1/6806 Z
C12Q1/686 Z
C12Q1/6869 Z
G01N33/50 P
C12Q1/6825 Z
【審査請求】有
【請求項の数】1
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024137920
(22)【出願日】2024-08-19
(62)【分割の表示】P 2021515209の分割
【原出願日】2019-09-19
(31)【優先権主張番号】62/733,566
(32)【優先日】2018-09-19
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】520306875
【氏名又は名称】クリアノート ヘルス, インコーポレイテッド
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】サミュエル レヴィ
(72)【発明者】
【氏名】パトリック エー. アレンスドルフ
(72)【発明者】
【氏名】チン-ジェン ク
(72)【発明者】
【氏名】フランソワ コリン
(57)【要約】
【課題】膵臓癌を有する患者および膵臓癌を発症するリスクのある対象を識別するための方法、識別された膵臓病変を有する患者をモニタリングするための方法、膵臓癌を有する患者に対して使用される処置の有効性を評価するための方法、ならびに特定の患者における膵臓癌を処置するための治療を選択するための方法を提供すること。
【解決手段】本発明は、ヒドロキシメチル化バイオマーカーを利用し、これは、1またはそれを超える臨床パラメーターならびに必要に応じて1またはそれを超えるさらなる種類のバイオマーカーおよび/または患者特異的な危険因子と組み合わせて、膵臓癌と相関するヒドロキシメチル化レベルを示す。キットおよびその他の使用方法も提供される。
【選択図】なし
【特許請求の範囲】
【請求項1】
本明細書に記載の発明。
【発明の詳細な説明】
【技術分野】
【0001】
技術分野
本発明は、一般に、エピジェネティック分析に関し、より具体的には、単一の生物学的サンプルから複数の種類の情報を取得するための組み合わされたワークフロー方法に関する。本発明は、ゲノミクス、医学、診断およびエピジェネティック研究の分野において有用性を見出す。
【背景技術】
【0002】
背景
ゲノム技術およびプロテオミクス技術を使用した橋渡し研究は、膵臓癌の病因および局所的な腫瘍微小環境の生物学に対する新しい分子的洞察を提供してきたが、疾患の早期診断に影響を与える強力な診断用バイオマーカーを未だ生み出していない。これは、8.5%という非常に低い5年全生存率に反映されている;2017年10月16日にseer.cancer.gov/statfacts/html/pancreas.htmlから読み出された”Cancer Stat Facts:Pancreas Cancer“(National Cancer Institute Surveillance,Epidemiology,and End Results Program,2017)を参照。膵臓癌はしばしば遅発性で症候がほとんどなく、その時点で患者の10%~20%が外科的切除の対象となるに過ぎない。
【0003】
膵臓は、腺房細胞、導管細胞、腺房中心細胞、内分泌性膵島、および星状細胞からなる。膵臓癌の大部分は腺癌であり、膵管腺癌(PDAC)とその変異形が、すべての膵臓悪性腫瘍の90%超を占めており(Temperoら、(2017)Journal of the Comprehensive Cancer Network 15(8):1028-1060)、次に最も一般的な病理は神経内分泌腫瘍であり、膠様癌腫、充実性偽乳頭状腫瘍、腺房細胞癌腫および膵芽腫が続く(Kleefら、(2016),Nature Reviews Disease Primers:Pancreatic Cancer 2:1-22)。喫煙は膵臓癌のリスクを2~3倍高め、用量・リスク関係も示すが、症例の約15~30%に寄与しており(同上)、喫煙者は非喫煙者より8~15歳若い時点で診断される(Andersonら、(2012)Am.J.Gastroenterol 107(11):1730-39;Maisonneuveら、(2010)Dig Dis 28(405):645-56)。膵炎の家族歴は症例の約10%に寄与しており、BRCA2、BRCA1、CDKN2A、ATM、STK11、PRSS1、MLH1およびPALB2などの遺伝子における生殖細胞系列変異も可変的な浸透度を有する膵臓癌と関連している(Kleef、上記)。
【0004】
年齢は、膵嚢胞性病変(PCL)および膵臓癌の重要な危険因子である。Zerboniら、(2016)Abstracts/Pancreatology 16:S104(Abstract ID:1665)は、11%のPCLの全体的有病率を示す10件の研究のメタ分析を行い、55歳を超える平均年齢を有する対象を調べた研究では16%というより高い割合であった。造影剤を用いた磁気共鳴画像法(MRI)および胆道膵管造影法(MRCP)などの最新の画像化技術を使用した研究は、対象の26%で、PCLの統合罹患率が有意により高いことを報告した。他の公知の危険因子には、糖尿病、慢性膵炎および肥満が含まれるが、これらに限定されない。
【0005】
PDACの管理は、リスクが高い個人における早期検出、症候または画像所見を有する患者の早期診断、予後の判定および治療応答性の予測など、臨床全域にわたる課題を医師に突きつけ、これらが相まって、決定アルゴリズムを改善するのに十分な臨床性能測定指標(clinical performance metrics)を有するバイオマーカーを識別および検証するための多大な研究努力を生み出した。PDAC管理の現行ガイドラインは、炭水化物抗原19-9(CA19-9またはシアリルルイス抗原)および癌胎児性抗原(CEA)という主に2つのバイオマーカーの推奨に限定されている。CA19-9は、集団の10%はこの抗原を分泌しないという認識の下で、手術の決定、補助療法の使用、または術後の腫瘍再発の検出を導くために信頼されている。Swordsら、(2016)Onco Targets Ther 9:7459~67および米国特許第8,632,98号を参照。さらに、膵臓癌に対するバイオマーカーとしてのCA 19-09の感度および特異度が限られていることは、診断の可能性が限定的であることを示唆している。CEAレベルは膵嚢胞液中で評価され、次いで、粘液性嚢胞と非粘液性嚢胞を識別してリスクを軽減するために、画像診断および臨床パラメーターと組み合わされる(Fonsecaら、(2018)Pancreas 47(3):272-79;Eltaら、(2018)Am.J.Gastroenterology 113:464-79)。しかしながら、CEAレベルは疾患の程度とは相関しない(Schliemanら、(2003)Arch Surg.138)9):951-56)。さらに、両腫瘍マーカーは、上昇していれば、既知の疾患を有する患者を追跡する上では有用であるが、CA19-9もCEAも、膵臓癌を検出するために患者をスクリーニングする際に使用するのに必要とされる感度および特異度を有していない。
【0006】
膵臓癌ゲノムの分子分析は、50%を超える集団頻度で、点突然変異またはコピー数変化のいずれかを介して、KRASにおける活性化変異ならびにCDKN2A、TP53およびSMAD4の不活性化を明らかにする(Blankinら、(2012)Nature 491(7424):399~405;Waddellら、(2015)Nature 518(7540):495~501;Jonesら、(2008)Science
321(5897):1801~06);しかしながら、多くの変異の不均一性が存在し、この遺伝子のサブセットを患者の診断において非効率なものにしている。変異をベースとしたデータ(Waddell(2015)、上記)または遺伝子発現シグネチャ(REF)を使用する膵臓腫瘍の分子サブタイピングは、いまだ臨床応用が見られていない。
膵臓癌、特にPDACを検出、診断、予測、評価、処置およびモニタリングする改善された方法に対する当技術分野における満たされていない差し迫った必要性が依然として存在する。理想的な方法は、信頼性が高く非侵襲的であり、腫瘍、微小環境、膵臓および免疫細胞DNAの分析を最適に可能にして、PDACまたはその側面と相関する遺伝的およびエピジェネティックな情報を識別する。
【先行技術文献】
【特許文献】
【0007】
【非特許文献】
【0008】
【非特許文献1】Cancer Stat Facts:Pancreas Cancer“(National Cancer Institute Surveillance,Epidemiology,and End Results Program,2017)
【非特許文献2】Temperoら、(2017)Journal of the Comprehensive Cancer Network 15(8):1028-1060
【非特許文献3】Kleefら、(2016),Nature Reviews Disease Primers:Pancreatic Cancer 2:1-22
【非特許文献4】Andersonら、(2012)Am.J.Gastroenterol 107(11):1730-39
【非特許文献5】Maisonneuveら、(2010)Dig Dis 28(405):645-56
【非特許文献6】Zerboniら、(2016)Abstracts/Pancreatology 16:S104(Abstract ID:1665)
【非特許文献7】Swordsら、(2016)Onco Targets Ther 9:7459~67
【非特許文献8】Fonsecaら、(2018)Pancreas 47(3):272-79
【非特許文献9】Eltaら、(2018)Am.J.Gastroenterology 113:464-79
【非特許文献10】Schliemanら、(2003)Arch Surg.138)9):951-56
【非特許文献11】Blankinら、(2012)Nature 491(7424):399~405
【非特許文献12】Waddellら、(2015)Nature 518(7540):495~501
【非特許文献13】Jonesら、(2008)Science 321(5897):1801~06
【発明の概要】
【課題を解決するための手段】
【0009】
発明の要旨
腫瘍および正常細胞のDNAは血流中に放出され、そこから抽出された無細胞DNA(cfDNA)サンプルは遺伝的シグネチャおよびエピジェネティックシグネチャに関して分析することができる。エピジェネティックシグネチャには、例として、DNAメチル化、すなわちシトシンの5-メチルシトシン(5mC)への変換、およびDNAヒドロキシメチル化、TET(10-11転座)ファミリーの酵素によって哺乳類のゲノム中で媒介される5mCの5-ヒドロキシメチルシトシン(5hmC)への酸化が含まれる。このようなシグネチャは、正常な細胞に、または腫瘍、腫瘍微小環境、影響を受けた臓器もしくは免疫系に由来し得、これらはすべて、膵臓癌の場合のように健康状態に応じて変化し得る。
本発明は、1またはそれを超える臨床パラメーターならびに必要に応じて1またはそれを超える他の種類のバイオマーカーおよび/または患者特異的な危険因子と組み合わせて、膵臓癌、特にPDACまたは別の外分泌膵臓癌と何らかの相関をするヒドロキシメチル化レベルを示す一連のヒドロキシメチル化バイオマーカーの発見に基づく。いくつかの実施形態において、本発明は、以下の決定を可能にする。
【0010】
(a)画像走査を用いて観察された膵臓病変、すなわち識別された膵臓病変が癌性であるリスク;
【0011】
(b)識別された非癌性膵臓病変が癌性になるリスク。
【0012】
(c)膵臓癌を有する対象を処置するための特定の治療が効果的である可能性。
【0013】
(d)膵臓病変が識別されていない対象が、ある時点で膵臓病変を発症するリスク、および
【0014】
(e)その病変が癌性になるリスク。
【0015】
設定されたバイオマーカーの変化を経時的に観察することによって、次のような追加情報を提供することができる(または場合によっては、確認することができる)。
【0016】
(f)識別された膵臓病変に関連して対象が受けている治療の有効性。
【0017】
(g)識別された膵臓病変が癌に発展するリスクの増加または減少。
【0018】
(h)膵臓病変が観察されていない対象が膵臓病変を発症する可能性の増加または減少、および
【0019】
(i)その病変が癌性になるリスク;ならびに
【0020】
(j)識別された膵臓病変の変化、(j-1)膵臓病変のサイズの変化、(j-2)癌性膵臓病変のステージの変化、(j-3)癌性膵臓病変のグレードの変化;(j-4)癌性膵臓病変の浸潤性の程度の変化;および(j-5)局所的なまたは局所化された(regionalized)浸潤性癌性膵臓病変から転移性膵臓癌への変化;および(j-6)転移を通じて最初に識別された癌(すなわち、当初は起源が不明な癌)における原発組織としての膵臓の識別または確認。
【0021】
したがって、本明細書の方法は、さらなる病変の発生または術後療法(例えば、放射線、化学療法、その他の薬物療法など)の有効性などの術後の変化をモニタリングする状況において、膵臓病変の外科的切除後もなお有用であることが理解されるであろう。しかしながら、本明細書において最も重要なことは、識別された膵臓病変を多かれ少なかれ癌性であるまたは癌性になる可能性があると評価することである。同様に重要なのは、癌性病変の可能性を早い段階で特定できることである。本発明のこれらの特徴は、次いで、癌が進行しまたは転移する前の膵臓癌の処置および不必要な手術、すなわち良性病変の除去の減少などの分野における著しい進歩を可能にする。
【0022】
本発明の一実施形態では、患者における識別された膵臓病変が癌性であるリスクを評価するための方法であって、(a)前記患者から無細胞DNAサンプルを取得すること;(b)前記サンプル中のヒドロキシメチル化DNAを富化すること;(c)参照ヒドロキシメチル化プロファイル中の複数の選択された遺伝子座のそれぞれにマッピングされる前記富化されたサンプル中の核酸を定量化することであって、各選択された遺伝子座は、ヒドロキシメチル化バイオマーカーを含むこと;(d)各バイオマーカーに対して前記サンプルと前記参照プロファイルとの間のヒドロキシメチル化レベルの差を確認するために、各遺伝子座において、前記サンプルのヒドロキシメチル化レベルを前記参照プロファイル中のヒドロキシメチル化レベルと比較すること;および(e)個体が膵臓癌を有するリスクと相関付けられた少なくとも1つの追加のパラメーターと組み合わされた工程(d)における前記比較から、前記膵臓病変が癌性であるリスクを表すインデックス値を計算すること;を含む、方法が提供される。追加のパラメーターは、臨床パラメーター、追加の種類の生物学的マーカー(すなわち、ヒドロキシメチル化と関連がない生物学的マーカー)またはそれらの組み合わせであり得る。
【0023】
本明細書においてヒドロキシメチル化バイオマーカーとしての役割を果たす選択された遺伝子座は、膵臓癌、特にPDACなどの外分泌膵臓癌との関連性のために選択された遺伝子座を含む。「関連性」とは、ヒドロキシメチル化バイオマーカー遺伝子座が、単独でまたは1もしくはそれを超える他のヒドロキシメチル化バイオマーカー遺伝子座と組み合わせて、上記の決定(a)から(j)を含む、膵臓癌のリスク、存在、不存在、種類、サイズ、ステージ、侵襲性、グレード、場所、診断、予後、転帰および/または処置応答性の可能性と相関する様式でヒドロキシメチル化の増加または減少を示す傾向があることを意味する。参照ヒドロキシメチル化プロファイルは、複数のヒドロキシメチル化バイオマーカーのそれぞれのヒドロキシメチル化レベルを表すデータセットであり、該データセットは、少なくとも1つの共有された特徴を有する複数の個体のヒドロキシメチル化プロファイルの混成物である。
【0024】
本明細書に開示されている個々のヒドロキシメチル化バイオマーカーのいくつかは、膵臓病変の評価において著しい個々の有意性を有さないことがあり得るが、本明細書に開示されているその他のヒドロキシメチル化バイオマーカーならびに膵臓病変の評価およびモニタリングに対して影響を与える臨床パラメーターと組み合わせて使用され、必要に応じて、さらに1またはそれを超える他の種類のバイオマーカーおよび/または患者特異的危険因子と組み合わされると、本発明の方法が要求するように、例えば、膵臓癌を有する対象と膵臓癌を有さない対象との間、または膵臓癌を発症する可能性が高い対象と膵臓癌を発症する可能性が高くない対象との間などでの識別において有意となることに留意すべきである。本発明の方法は、本明細書において定義されるバイオマーカーを使用することによって、対象が膵臓癌を有するまたは膵臓癌を発症する可能性が高いリスクを評価する現在利用可能な方法に対する改善を提供する。
【0025】
実施形態の一態様では、上記の方法の正確度を向上させるために、焦点を絞った参照プロファイルを使用することができる。すなわち、異なるタイプの参照ヒドロキシメチル化プロファイルが異なる集団群から構築され得、その後、特定の患者の評価のために適切な参照プロファイルを選択することができる。膵臓の慢性的な炎症、すなわち慢性膵炎を有する患者の場合、慢性膵炎を有する個体の組から作成された、狭められたまたは焦点を合わせた参照プロファイルが選択されるであろう。別の焦点を絞った参照プロファイルは、糖尿病または肥満または喫煙者である個体の組から構築され、それぞれ糖尿病、肥満または喫煙者である患者の評価において使用され得る。これらの焦点を絞った参照プロファイルは、評価を受けている患者の属性に応じて、組み合わせて使用することもできる。
【0026】
別の態様では、無細胞DNAサンプルは、患者から得られた血液サンプルから抽出される。別の態様では、無細胞DNAサンプルは、患者から得られた膵嚢胞液の試料から抽出される。
【0027】
実施形態の追加の態様では、工程(b)は、アダプターをDNA上に連結すること、タグづけされたcfDNAの選択的捕捉を可能にするアフィニティータグでDNA中の5hmC残基を官能化すること、およびサンプルから前記タグづけされたcfDNAを除去することを含む。アフィニティータグはビオチン部分であり得、その場合、5hmC残基の官能化はビオチン化を含む。次に、ビオチン化されたcfDNAは、アビジンまたはストレプトアビジンなどのビオチン結合タンパク質で官能化された表面を有する固体支持体を使用して捕捉され得る。工程(b)は、次に、複数のアンプリコンを与えるために、捕捉されたcfDNAを支持体から放出させることなくcfDNAを増幅すること;アンプリコンをシーケンシングすること;および配列読み取りデータからの参照遺伝子座にマッピングされる核酸を定量化すること;をさらに含み得る。
【0028】
別の実施形態では、識別された膵臓病変、すなわち、画像走査において識別された病変を有する患者をモニタリングするための方法が提供される。前の実施形態と同様に、この方法は、医師が以前に識別された膵臓病変の変化を特定し、それによって、例えば、病変が癌に向かって進行しているかどうかを決定することを可能にする非侵襲的方法である。方法は、
【0029】
(a)前記患者から最初の無細胞DNAサンプルを取得すること;
【0030】
(b)前記最初のサンプル中のヒドロキシメチル化DNAを富化すること;
【0031】
(c)参照ヒドロキシメチル化プロファイル中の複数の選択された遺伝子座のそれぞれにマッピングされる前記富化された最初のサンプル中の核酸を定量化することであって、各選択された遺伝子座は、ヒドロキシメチル化バイオマーカーを含むこと;
【0032】
(d)各バイオマーカーに対して前記サンプルと前記参照プロファイルとの間のヒドロキシメチル化レベルの差を確認するために、各遺伝子座において、前記最初のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルを前記参照プロファイル中のヒドロキシメチル化レベルと比較すること;
【0033】
(e)各遺伝子座において、前記最初のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルを含む、前記患者に対する初期ヒドロキシメチル化プロファイルを作成すること;
【0034】
(f)前記患者から取得されたその後の無細胞DNAサンプルを用いて、その後の時点において、工程(a)から(c)を繰り返すこと;
【0035】
(g)各遺伝子座において、前記その後のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルを含む、前記患者に対するその後のヒドロキシメチル化プロファイルを作成すること;および
【0036】
(h)膵臓病変の変化を確認するために、各遺伝子座において、前記その後のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルを前記最初のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルと比較すること;
を含む。
【0037】
進行中の評価の文脈においては、工程(f)から(h)が、延長されたモニタリング期間全体でモニタリング期間全体で、選択された時間間隔で繰り返される。
【0038】
したがって、膵臓病変の変化は、1またはそれを超える他の危険因子または臨床パラメーターと最適に組み合わせて、複数のヒドロキシメチル化バイオマーカー遺伝子座における、経時的な患者のヒドロキシメチル化プロファイルの変化によって決定される。病変の変化は、例えば、サイズの変化、グレードの変化、形状の変化、リンパ節転移の変化、侵襲性の変化、または前述のいずれの2もしくはそれより多くであり得る。
【0039】
関連する実施形態では、本発明は、画像走査において識別された膵臓病変を有する患者を管理するための方法を提供し、この方法は、
【0040】
(a)前記患者から最初の無細胞DNAサンプルを取得すること;
【0041】
(b)前記サンプル中のヒドロキシメチル化DNAを富化すること;
【0042】
(c)参照ヒドロキシメチル化プロファイル中の複数の選択された遺伝子座のそれぞれにマッピングされる前記富化された最初のサンプル中の核酸を定量化することであって、各選択された遺伝子座は、ヒドロキシメチル化バイオマーカーを含むこと;
【0043】
(d)各バイオマーカーに対して前記サンプルと前記参照プロファイルとの間のヒドロキシメチル化レベルの差を確認するために、各遺伝子座において、前記最初のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルを前記参照プロファイル中のヒドロキシメチル化レベルと比較すること;
【0044】
(e)各遺伝子座において、前記最初のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルを含む、前記患者に対する初期ヒドロキシメチル化プロファイルを作成すること;
【0045】
(f)前記患者から取得されたその後の無細胞DNAサンプルを用いて、その後の時点において、工程(a)から(c)を繰り返すこと;
【0046】
(g)各遺伝子座において、前記その後のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルを含む、前記患者に対するその後のヒドロキシメチル化プロファイルを作成すること;
【0047】
(h)膵臓病変の変化を確認するために、各遺伝子座において、前記その後のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルを前記最初のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルと比較すること;および
【0048】
(f)工程(e)における前記比較に基づき、前記患者を処置するかどうかを決定すること;
を含む。
【0049】
方法の工程(a)から(h)は、進行しているモニタリング期間の状況内で、選択された時間間隔で繰り返され得る。
【0050】
複数のヒドロキシメチル化バイオマーカー遺伝子座における患者のヒドロキシメチル化プロファイルの変化が、医師の意見では処置の正当な理由となる膵臓病変の変化の証拠を提供する場合、処置自体は、選択された遺伝子座の1またはそれより多くにおける患者のヒドロキシメチル化プロファイルの変化に基づいて選択され得る。処置には、放射線療法、化学療法、他の薬物療法、病変の外科的切除、またはそれらの組み合わせが含まれ得る。
【0051】
別の関連する実施形態では、本発明は、識別された膵臓病変を有する患者の処置の有効性をモニタリングするための方法を対象とする。この方法は、
【0052】
(a)処置されている患者から最初の無細胞DNAサンプルを取得すること;
【0053】
(b)前記サンプル中のヒドロキシメチル化DNAを富化すること;
【0054】
(c)参照ヒドロキシメチル化プロファイル中の複数の選択された遺伝子座のそれぞれにマッピングされる前記富化された最初のサンプル中の核酸を定量化することであって、各選択された遺伝子座は、ヒドロキシメチル化バイオマーカーを含むこと;
【0055】
(d)各バイオマーカーに対して前記サンプルと前記参照プロファイルとの間のヒドロキシメチル化レベルの差を確認するために、各遺伝子座において、前記最初のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルを前記参照プロファイル中のヒドロキシメチル化レベルと比較すること;
【0056】
(e)各遺伝子座において、前記最初のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルを含む、前記患者に対する初期ヒドロキシメチル化プロファイルを作成すること;
【0057】
(f)前記患者から取得されたその後の無細胞DNAサンプルを用いて、その後の時点において、工程(a)から(c)を繰り返すこと;
【0058】
(g)各遺伝子座において、前記その後のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルを含む、前記患者に対するその後のヒドロキシメチル化プロファイルを作成すること;
【0059】
(h)膵臓病変の変化を確認するために、各遺伝子座において、前記その後のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルを前記最初のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルと比較すること;および
【0060】
(i)工程(e)における前記比較が、癌への進行と相関する前記患者のヒドロキシメチル化プロファイルの変化を証明すれば、処置プロトコルを変更すること;
を含む。
【0061】
癌に向かう進行には、病変のサイズ、グレード、形状、リンパ節転移、浸潤性、または前述のいずれかの2もしくはそれより多くの変化が含まれ得る。
【0062】
別の実施形態では、本発明は、不必要な膵臓手術のリスクを低減するための方法、すなわち、患者から外科的に切除された膵臓病変が良性であるリスクを低減するための方法を提供する。この方法は、手術前に、
【0063】
(a)前記患者から無細胞DNAサンプルを取得すること;
【0064】
(b)前記サンプル中のヒドロキシメチル化DNAを富化すること;
【0065】
(c)参照ヒドロキシメチル化プロファイル中の複数の選択された遺伝子座のそれぞれにマッピングされる前記富化されたサンプル中の核酸を定量化することであって、各選択された遺伝子座は、ヒドロキシメチル化バイオマーカーを含むこと;
【0066】
(d)各バイオマーカーに対して前記サンプルと前記参照プロファイルとの間のヒドロキシメチル化レベルの差を確認するために、各遺伝子座において、前記サンプルのヒドロキシメチル化レベルを前記参照プロファイル中のヒドロキシメチル化レベルと比較すること;および
【0067】
(e)個体が膵臓癌を有するリスクと相関付けられた少なくとも1つの追加のパラメーターと組み合わされた工程(d)における前記比較から、前記膵臓病変が癌性であるリスクを表すインデックス値を計算すること;および
【0068】
(f)前記インデックス値が癌の低いリスクに対応する値より大きい場合にのみ、前記膵臓病変の外科的切除を実施すること;
を含む。
【0069】
別の実施形態において、本発明は、患者から取得された無細胞DNAサンプルの分析において本明細書に記載されている方法のいずれかを実施するためのキットであって、無細胞DNAサンプル中の複数のヒドロキシメチル化バイオマーカー遺伝子座のそれぞれにおけるヒドロキシメチル化レベルを決定するための少なくとも1つの試薬と;前記サンプル中のアフィニティータグづけされた5hmC含有無細胞DNAを捕捉するための固体支持体と;ならびに、前記方法を実施する際の前記少なくとも1つの試薬および前記固体支持体の使用に関する指示書と;を備える、キットを提供する。
【0070】
実施形態の一態様において、キットは、モデル化および予測を実行するように設計されたソフトウェアにアクセスし、使用するための説明書をさらに含む。
【0071】
さらなる実施形態において、キットは、DNAβ-グルコシルトランスフェラーゼと;化学選択的基で修飾されたUDPグルコースと;ビオチン部分と;ビオチン結合タンパク質で官能化された表面を有する固体支持体と;分子バーコードを含むアダプターと;および前記方法を実施するための指示書と;
を備える。前の実施形態と同様に、キットは、モデル化および予測を実行するように設計されたソフトウェアにアクセスし、使用するための説明書をさらに含み得る。
【0072】
さらなる実施形態において、本発明は、膵臓癌を発症するリスクのある個体が膵臓癌を有する可能性を決定するための方法を提供する。この方法は、以下の工程
【0073】
(a)前記患者から無細胞DNAサンプルを取得すること;
【0074】
(b)前記サンプル中のヒドロキシメチル化DNAを富化すること;
【0075】
(c)参照ヒドロキシメチル化プロファイル中の複数の選択された遺伝子座のそれぞれにマッピングされる前記富化されたサンプル中の核酸を定量化することであって、各選択された遺伝子座は、ヒドロキシメチル化バイオマーカーを含むこと;
【0076】
(d)各バイオマーカーに対して前記サンプルと前記参照プロファイルとの間のヒドロキシメチル化レベルの差を確認するために、各遺伝子座において、前記サンプルのヒドロキシメチル化レベルを前記参照プロファイル中のヒドロキシメチル化レベルと比較すること;および
【0077】
(e)工程(d)における前記比較から、前記個体が膵臓癌を有する可能性を表すインデックス値を計算すること;
を含む。
【0078】
一態様において、この方法は、工程(a)の前に、識別された膵臓病変;膵臓の炎症;黄疸;年齢;体重;性別;民族性;家族歴;遺伝子変異;糖尿病;身体活動;食事;炎症誘発性サイトカインレベル;および喫煙から選択される1またはそれを超えるパラメーターから膵臓癌を発症するリスクがあるとして個体を識別することをさらに含む。
【0079】
別の実施形態では、個体が膵臓癌および少なくとも1つのさらなる種類の癌を有する可能性を決定する改善された多癌試験が提供され、改善は、以下によって個体が膵臓癌を有する可能性を決定することを含む:
【0080】
(a)前記患者から無細胞DNAサンプルを取得すること;
【0081】
(b)前記サンプル中のヒドロキシメチル化DNAを富化すること;
【0082】
(c)参照ヒドロキシメチル化プロファイル中の複数の選択された遺伝子座のそれぞれにマッピングされる前記富化されたサンプル中の核酸を定量化することであって、各選択された遺伝子座は、ヒドロキシメチル化バイオマーカーを含むこと;
【0083】
(d)各バイオマーカーに対して前記サンプルと前記参照プロファイルとの間のヒドロキシメチル化レベルの差を確認するために、各遺伝子座において、前記サンプルのヒドロキシメチル化レベルを前記参照プロファイル中のヒドロキシメチル化レベルと比較すること;および
【0084】
(e)工程(d)における前記比較から、前記個体が膵臓癌を有する可能性を表すインデックス値を計算すること。
【0085】
試験は、(a)の前に、少なくとも1つのさらなる種類の癌について、偽陽性、偽陰性、または偽陽性と偽陰性の両方を排除することをさらに含み得る。
【0086】
少なくとも1つのさらなる種類の癌は、膀胱癌;血液および骨髄の癌;脳癌;乳癌;子宮頸癌;結腸直腸癌;食道癌;肝臓癌;肺癌;卵巣癌;前立腺癌;腎癌;皮膚癌;精巣癌;甲状腺癌;ならびに子宮癌を含むがこれらに限定されない任意の種類の癌であり得る。
【0087】
この実施形態の一態様では、少なくとも1つのさらなる種類の癌は、乳癌、結腸直腸癌、肺癌および前立腺癌から選択される。
本発明の実施形態において、例えば以下の項目が提供される。
(項目1)
患者における識別された膵臓病変が癌性であるリスクを評価するための方法であって、
(a)前記患者から無細胞DNAサンプルを取得すること;
(b)前記サンプル中のヒドロキシメチル化DNAを富化すること;
(c)参照ヒドロキシメチル化プロファイル中の複数の選択された遺伝子座のそれぞれにマッピングされる前記富化されたサンプル中の核酸を定量化することであって、各選択された遺伝子座は、ヒドロキシメチル化バイオマーカーを含むこと;
(d)各バイオマーカーに対して前記サンプルと前記参照プロファイルとの間のヒドロキシメチル化レベルの差を確認するために、各遺伝子座において、前記サンプルのヒドロキシメチル化レベルを前記参照プロファイル中のヒドロキシメチル化レベルと比較すること;および
(e)個体が膵臓癌を有するリスクと相関付けられた少なくとも1つの追加のパラメーターと組み合わされた工程(d)における前記比較から、前記膵臓病変が癌性であるリスクを表すインデックス値を計算すること;
を含む、方法。
(項目2)
複数の追加のパラメーターが、病変サイズ;病変の位置;膵臓の炎症の存在または不存在;黄疸;他の症候の存在または不存在;患者の年齢;体重;性別;民族性;家族歴;遺伝子変異;糖尿病;身体活動;食事;炎症誘発性サイトカインレベル;および患者の喫煙状況から選択される、項目1に記載の方法。
(項目3)
前記参照ヒドロキシメチル化プロファイルが、膵臓病変を有したことがない個体に対する複数のヒドロキシメチル化プロファイルの混成物を表す、項目1に記載の方法。
(項目4)
前記患者が膵臓癌に対する危険因子を有し、前記参照ヒドロキシメチル化プロファイルが、前記危険因子を有する個体に対する複数のヒドロキシメチル化プロファイルの混成物を表す、項目3に記載の方法。
(項目5)
前記危険因子が膵炎であり、前記参照ヒドロキシメチル化プロファイルが、膵炎と診断されたことがある個体に対する複数のヒドロキシメチル化プロファイルの混成物を表す、項目4に記載の方法。
(項目6)
前記膵臓病変が画像化によって識別されており、前記参照ヒドロキシメチル化プロファイルが、画像走査上で識別された膵臓病変を有したことがある個体に対する複数のヒドロキシメチル化プロファイルの混成物を表す、項目4に記載の方法。
(項目7)
前記無細胞DNAサンプルが血液サンプルから抽出される、項目1に記載の方法。
(項目8)
前記無細胞DNAサンプルが膵嚢胞液から抽出される、項目1に記載の方法。
(項目9)
(e)において計算された前記インデックス値を示す報告を生成することをさらに含む、項目1に記載の方法。
(項目10)
前記報告を医師に転送することをさらに含む、項目6に記載の方法。
(項目11)
前記膵臓癌が外分泌膵臓癌である、項目1に記載の方法。
(項目12)
前記膵臓癌が膵管腺癌(PDAC)である、項目11に記載の方法。
(項目13)
少なくとも1つのヒドロキシメチル化バイオマーカーが、前記参照ヒドロキシメチル化プロファイルと比較して、前記患者中でのヒドロキシメチル化レベルの増加を示す、項目9に記載の方法。
(項目14)
少なくとも1つのヒドロキシメチル化バイオマーカーが、前記参照ヒドロキシメチル化プロファイルと比較して、前記患者中でのヒドロキシメチル化レベルの減少を示す、項目9に記載の方法。
(項目15)
前記ヒドロキシメチル化バイオマーカーが、以下の遺伝子:ADARB2-AS1、ANKRD36B、ASAH2B、ATG4B、ATP8B1、BOLA1、C11orf88、C17orf97、C1orf170、C3orf36、C8orf74、CAMSAP2、CCDC54、CCDC59、CKAP2、CLK2P、CRTC1、CSRP2、CYB5D1、DNAJC27、DYNAP、FAM166A、FAM188B、FAM196A、FAM86JP、FAT4、FBXO5、FGF2、FUT2、GAS2L2、GAS6、GGACT、GLRX5、GPX1、GPX5、HBD、HLA-A、HTR1F、IL36G、KANSL1、KCNH6、KCTD15、KLHL38、KLK2、KRT6B、LAMC1、LGALS14、LGALS8-AS1、LIFR、LINC00266-1、LINC00310、LOC100130452、LOC100130557、LOC100130894、LOC100288778、LOC100505633、LOC100505648、LOC100505738、LOC100652909、LOC389033、LOC90784、LRRC37A2、MED11、MRPL23-AS1、NAT8L、NEUROD1、NEUROG2、NME5、NOMO3、NPRL2、NXN、ODF3L1、ODF3L2、OSCP1、PARD6G、PGAM1、PLA2G2E、PLSCR4、PPAP2A、PPP1R15A、PPP1R3E、RASL10B、REXO1L1、RIMBP3、RNF126P1、RNU6-76、RPP25、RPS27、SH3PXD2B、SHISA4、SLC25A38、SLC4A1、SLCO5A1、SPDEF、SRSF6、STRA6、SYNM、TBCB、TDRD6、TEX26、TMEM253、TNFSF13B、TTC14、TUBA4A、UBB、VAMP8、VGLL2、WASH2P、WNT9B、XBP1およびZNF789の1またはそれより多くと関連する遺伝子座を含む、項目1に記載の方法。
(項目16)
前記ヒドロキシメチル化バイオマーカーが、以下の遺伝子:GATA4、GATA6、PROX1、ONECUT2、YAP1、TEAD1、ONECUT2/ONECUT1-TCGA、IGF1およびIGF2の1またはそれより多くと関連する遺伝子座を含む、項目1に記載の方法。
(項目17)
前記遺伝子変異が、BRCA2、BRCA1、CDKN2A、ATM、STK11、PRSS1、MLH1、PALB2、KRAS、CDKN2A、TP53、SMAD4およびそれらの組み合わせから選択される遺伝子中の変異を含む、項目2に記載の方法。
(項目18)
工程(b)が、アダプターをDNA上に連結すること、タグづけされたcfDNAの選択的捕捉を可能にするアフィニティータグでDNA中の5hmC残基を官能化すること、および前記サンプルから前記タグづけされたcfDNAを除去することを含む、項目1に記載の方法。
(項目19)
前記アフィニティータグがビオチン部分から構成され、そして前記5hmC残基を官能化することがビオチン化を含む、項目18に記載の方法。
(項目20)
化学選択的基を5hmC残基に共有結合させ、次いで前記化学選択的基を官能化ビオチン部分と反応させることにより、前記ビオチン化が実施される、項目19に記載の方法。
(項目21)
前記化学選択的基がクリックケミストリー反応において前記官能化ビオチンと反応するように、前記化学選択的基がUDPグルコース-6-アジドであり、前記官能化ビオチン部分がアルキン官能化ビオチンである、項目20に記載の方法。
(項目22)
前記アフィニティータグづけされたcfDNAが、ビオチン結合タンパク質で官能化された表面を有する固体支持体で捕捉され、前記固体支持体に結合されたcfDNAを与える、項目19に記載の方法。
(項目23)
工程(b)が、複数のアンプリコンを与えるために、前記捕捉されたcfDNAを支持体から放出させることなく前記cfDNAを増幅すること;前記アンプリコンをシーケンシングすること;および配列読み取りデータから参照遺伝子座にマッピングされる核酸を定量化すること;をさらに含む、項目22に記載の方法。
(項目24)
増幅がPCRを含む、項目23に記載の方法。
(項目25)
前記アダプターが、少なくとも1つの固有特性識別子(UFI)配列をさらに含む、項目18に記載の方法。
(項目26)
前記少なくとも1つのUFI配列が、ソース識別子UFI配列を含む、項目25に記載の方法。
(項目27)
前記少なくとも1つのUFI配列が、分子数の計測を可能にする分子UFIである、項目25に記載の方法。
(項目28)
前記少なくとも1つのUFI配列が、分子数の計測を可能にする分子UFIである、項目25に記載の方法。
(項目29)
患者における識別された膵臓病変をモニタリングするための方法であって、
(a)前記患者から最初の無細胞DNAサンプルを取得すること;
(b)前記最初のサンプル中のヒドロキシメチル化DNAを富化すること;
(c)参照ヒドロキシメチル化プロファイル中の複数の選択された遺伝子座のそれぞれにマッピングされる前記富化された最初のサンプル中の核酸を定量化することであって、各選択された遺伝子座は、ヒドロキシメチル化バイオマーカーを含むこと;
(d)各バイオマーカーに対して前記サンプルと前記参照プロファイルとの間のヒドロキシメチル化レベルの差を確認するために、各遺伝子座において、前記最初のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルを前記参照プロファイル中のヒドロキシメチル化レベルと比較すること;
(e)各遺伝子座において、前記最初のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルを含む、前記患者に対する初期ヒドロキシメチル化プロファイルを作成すること;
(f)前記患者から取得されたその後の無細胞DNAサンプルを用いて、その後の時点において、工程(a)から(c)を繰り返すこと;
(g)各遺伝子座において、前記その後のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルを含む、前記患者に対するその後のヒドロキシメチル化プロファイルを作成すること;および
(h)膵臓病変の変化を確認するために、各遺伝子座において、前記その後のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルを前記最初のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルと比較すること;
を含む、方法。
(項目30)
工程(f)から(h)が、延長されたモニタリング期間全体で、選択された時間間隔で繰り返される、項目29に記載の方法。
(項目31)
前記膵臓病変の前記変化がサイズの増加を含む、項目29に記載の方法。
(項目32)
前記膵臓病変の前記変化がサイズの減少を含む、項目29に記載の方法。
(項目33)
前記参照ヒドロキシメチル化プロファイルが、画像走査において識別された膵臓病変を有したことがある個体に対する複数のヒドロキシメチル化プロファイルの混成物を表す、項目29に記載の方法。
(項目34)
前記患者が膵臓癌に対する危険因子を有し、前記参照ヒドロキシメチル化プロファイルが、前記危険因子を有する個体に対する複数のヒドロキシメチル化プロファイルの混成物を表す、項目29に記載の方法。
(項目35)
前記危険因子が膵炎であり、前記参照ヒドロキシメチル化プロファイルが、膵炎と診断されたことがある個体に対する複数のヒドロキシメチル化プロファイルの混成物を表す、項目34に記載の方法。
(項目36)
前記無細胞DNAサンプルが血液サンプルから抽出される、項目29に記載の方法。
(項目37)
前記無細胞DNAサンプルが膵嚢胞液から抽出される、項目29に記載の方法。
(項目38)
前記ヒドロキシメチル化バイオマーカーが、以下の遺伝子:ADARB2-AS1、ANKRD36B、ASAH2B、ATG4B、ATP8B1、BOLA1、C11orf88、C17orf97、C1orf170、C3orf36、C8orf74、CAMSAP2、CCDC54、CCDC59、CKAP2、CLK2P、CRTC1、CSRP2、CYB5D1、DNAJC27、DYNAP、FAM166A、FAM188B、FAM196A、FAM86JP、FAT4、FBXO5、FGF2、FUT2、GAS2L2、GAS6、GGACT、GLRX5、GPX1、GPX5、HBD、HLA-A、HTR1F、IL36G、KANSL1、KCNH6、KCTD15、KLHL38、KLK2、KRT6B、LAMC1、LGALS14、LGALS8-AS1、LIFR、LINC00266-1、LINC00310、LOC100130452、LOC100130557、LOC100130894、LOC100288778、LOC100505633、LOC100505648、LOC100505738、LOC100652909、LOC389033、LOC90784、LRRC37A2、MED11、MRPL23-AS1、NAT8L、NEUROD1、NEUROG2、NME5、NOMO3、NPRL2、NXN、ODF3L1、ODF3L2、OSCP1、PARD6G、PGAM1、PLA2G2E、PLSCR4、PPAP2A、PPP1R15A、PPP1R3E、RASL10B、REXO1L1、RIMBP3、RNF126P1、RNU6-76、RPP25、RPS27、SH3PXD2B、SHISA4、SLC25A38、SLC4A1、SLCO5A1、SPDEF、SRSF6、STRA6、SYNM、TBCB、TDRD6、TEX26、TMEM253、TNFSF13B、TTC14、TUBA4A、UBB、VAMP8、VGLL2、WASH2P、WNT9B、XBP1およびZNF789の1またはそれより多くと関連する遺伝子座を含む、項目29に記載の方法。
(項目39)
前記ヒドロキシメチル化バイオマーカーが、以下の遺伝子:GATA4、GATA6、PROX1、ONECUT2、YAP1、TEAD1、ONECUT2/ONECUT1-TCGA、IGF1およびIGF2の1またはそれより多くと関連する遺伝子座をさらに含む、項目38に記載の方法。
(項目40)
工程(b)が、アダプターをDNA上に連結すること、タグづけされたcfDNAの選択的捕捉を可能にするアフィニティータグでDNA中の5hmC残基を官能化すること、および前記サンプルから前記タグづけされたcfDNAを除去することを含む、項目29に記載の方法。
(項目41)
前記アフィニティータグがビオチンから構成され、そして前記5hmC残基を官能化することがビオチン化を含む、項目40に記載の方法。
(項目42)
化学選択的基を5hmC残基に共有結合させ、次いで前記化学選択的基を官能化ビオチン部分と反応させることにより、前記ビオチン化が実施される、項目41に記載の方法。
(項目43)
前記化学選択的基がクリックケミストリー反応において前記官能化ビオチンと反応するように、前記化学選択的基がUDPグルコース-6-アジドであり、前記官能化ビオチン部分がアルキン官能化ビオチンである、項目42に記載の方法。
(項目44)
前記アフィニティータグづけされたcfDNAが、ビオチン結合タンパク質で官能化された表面を有する固体支持体で捕捉され、前記固体支持体に結合されたcfDNAを与える、項目40に記載の方法。
(項目45)
工程(b)が、複数のアンプリコンを与えるために、前記捕捉されたcfDNAを支持体から放出させることなく前記cfDNAを増幅すること;前記アンプリコンをシーケンシングすること;および配列読み取りデータから参照遺伝子座にマッピングされる核酸を定量化すること;をさらに含む、項目44に記載の方法。
(項目46)
増幅がPCRを含む、項目45に記載の方法。
(項目47)
前記アダプターが、少なくとも1つの固有特性識別子(UFI)配列をさらに含む、項目40に記載の方法。
(項目48)
前記少なくとも1つのUFI配列が、ソース識別子UFI配列を含む、項目47に記載の方法。
(項目49)
前記少なくとも1つのUFI配列が、分子数の計測を可能にする分子UFIである、項目47に記載の方法。
(項目50)
前記少なくとも1つのUFI配列が、分子数の計測を可能にする分子UFIである、項目47に記載の方法。
(項目51)
画像走査において識別された膵臓病変を有する患者を管理するための方法であって、
(a)前記患者から最初の無細胞DNAサンプルを取得すること;
(b)前記サンプル中のヒドロキシメチル化DNAを富化すること;
(c)参照ヒドロキシメチル化プロファイル中の複数の選択された遺伝子座のそれぞれにマッピングされる前記富化された最初のサンプル中の核酸を定量化することであって、各選択された遺伝子座は、ヒドロキシメチル化バイオマーカーを含むこと;
(d)各バイオマーカーに対して前記サンプルと前記参照プロファイルとの間のヒドロキシメチル化レベルの差を確認するために、各遺伝子座において、前記最初のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルを前記参照プロファイル中のヒドロキシメチル化レベルと比較すること;
(e)各遺伝子座において、前記最初のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルを含む、前記患者に対する初期ヒドロキシメチル化プロファイルを作成すること;
(f)前記患者から取得されたその後の無細胞DNAサンプルを用いて、その後の時点において、工程(a)から(c)を繰り返すこと;
(g)各遺伝子座において、前記その後のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルを含む、前記患者に対するその後のヒドロキシメチル化プロファイルを作成すること;
(h)前記膵臓病変の変化を確認するために、各遺伝子座において、前記その後のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルを前記最初のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルと比較すること;および
(i)工程(e)における前記比較に基づき、前記患者を処置するかどうかを決定すること;
を含む、方法。
(項目52)
工程(i)が、処置が必要であることを決定することを含む、項目51に記載の方法。
(項目53)
前記処置が、前記選択された遺伝子座の1またはそれより多くにおける前記患者のヒドロキシメチル化プロファイルの変化に基づいて選択される、項目52に記載の方法。
(項目54)
前記患者を処置することが、放射線療法、化学療法、病変の外科的切除またはそれらの組み合わせを含む、項目53に記載の方法。
(項目55)
工程(a)から(h)を繰り返すことが、延長されたモニタリング期間全体で、選択された時間間隔で繰り返されることを含む、項目51に記載の方法。
(項目56)
前記無細胞DNAサンプルが血液サンプルから抽出される、項目51に記載の方法。
(項目57)
前記無細胞DNAサンプルが膵嚢胞液から抽出される、項目51に記載の方法。
(項目58)
前記ヒドロキシメチル化バイオマーカーが、以下の遺伝子:ADARB2-AS1、ANKRD36B、ASAH2B、ATG4B、ATP8B1、BOLA1、C11orf88、C17orf97、C1orf170、C3orf36、C8orf74、CAMSAP2、CCDC54、CCDC59、CKAP2、CLK2P、CRTC1、CSRP2、CYB5D1、DNAJC27、DYNAP、FAM166A、FAM188B、FAM196A、FAM86JP、FAT4、FBXO5、FGF2、FUT2、GAS2L2、GAS6、GGACT、GLRX5、GPX1、GPX5、HBD、HLA-A、HTR1F、IL36G、KANSL1、KCNH6、KCTD15、KLHL38、KLK2、KRT6B、LAMC1、LGALS14、LGALS8-AS1、LIFR、LINC00266-1、LINC00310、LOC100130452、LOC100130557、LOC100130894、LOC100288778、LOC100505633、LOC100505648、LOC100505738、LOC100652909、LOC389033、LOC90784、LRRC37A2、MED11、MRPL23-AS1、NAT8L、NEUROD1、NEUROG2、NME5、NOMO3、NPRL2、NXN、ODF3L1、ODF3L2、OSCP1、PARD6G、PGAM1、PLA2G2E、PLSCR4、PPAP2A、PPP1R15A、PPP1R3E、RASL10B、REXO1L1、RIMBP3、RNF126P1、RNU6-76、RPP25、RPS27、SH3PXD2B、SHISA4、SLC25A38、SLC4A1、SLCO5A1、SPDEF、SRSF6、STRA6、SYNM、TBCB、TDRD6、TEX26、TMEM253、TNFSF13B、TTC14、TUBA4A、UBB、VAMP8、VGLL2、WASH2P、WNT9B、XBP1およびZNF789の1またはそれより多くと関連する遺伝子座を含む、項目51に記載の方法。
(項目59)
前記ヒドロキシメチル化バイオマーカーが、以下の遺伝子:GATA4、GATA6、PROX1、ONECUT2、YAP1、TEAD1、ONECUT2/ONECUT1-TCGA、IGF1およびIGF2の1またはそれより多くと関連する遺伝子座をさらに含む、項目58に記載の方法。
(項目60)
画像走査上で識別された膵臓病変を有する患者における処置の有効性をモニタリングするための方法であって、
(a)処置されている患者から最初の無細胞DNAサンプルを取得すること;
(b)前記サンプル中のヒドロキシメチル化DNAを富化すること;
(c)参照ヒドロキシメチル化プロファイル中の複数の選択された遺伝子座のそれぞれにマッピングされる前記富化された最初のサンプル中の核酸を定量化することであって、各選択された遺伝子座は、ヒドロキシメチル化バイオマーカーを含むこと;
(d)各バイオマーカーに対して前記サンプルと前記参照プロファイルとの間のヒドロキシメチル化レベルの差を確認するために、各遺伝子座において、前記最初のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルを前記参照プロファイル中のヒドロキシメチル化レベルと比較すること;
(e)各遺伝子座において、前記最初のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルを含む、前記患者に対する初期ヒドロキシメチル化プロファイルを作成すること;
(f)前記患者から取得されたその後の無細胞DNAサンプルを用いて、その後の時点において、工程(a)から(c)を繰り返すこと;
(g)各遺伝子座において、前記その後のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルを含む、前記患者に対するその後のヒドロキシメチル化プロファイルを作成すること;
(h)前記膵臓病変の変化を確認するために、各遺伝子座において、前記その後のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルを前記最初のサンプル中の前記富化された無細胞DNAのヒドロキシメチル化レベルと比較すること;および
(i)工程(e)における前記比較が、癌への進行と相関する前記患者のヒドロキシメチル化プロファイルの変化を証明すれば、処置プロトコルを変更すること;
を含む、方法。
(項目61)
前記無細胞DNAサンプルが血液サンプルから抽出される、項目60に記載の方法。
(項目62)
前記無細胞DNAサンプルが膵嚢胞液から抽出される、項目60に記載の方法。
(項目63)
前記ヒドロキシメチル化バイオマーカーが、以下の遺伝子:ADARB2-AS1、ANKRD36B、ASAH2B、ATG4B、ATP8B1、BOLA1、C11orf88、C17orf97、C1orf170、C3orf36、C8orf74、CAMSAP2、CCDC54、CCDC59、CKAP2、CLK2P、CRTC1、CSRP2、CYB5D1、DNAJC27、DYNAP、FAM166A、FAM188B、FAM196A、FAM86JP、FAT4、FBXO5、FGF2、FUT2、GAS2L2、GAS6、GGACT、GLRX5、GPX1、GPX5、HBD、HLA-A、HTR1F、IL36G、KANSL1、KCNH6、KCTD15、KLHL38、KLK2、KRT6B、LAMC1、LGALS14、LGALS8-AS1、LIFR、LINC00266-1、LINC00310、LOC100130452、LOC100130557、LOC100130894、LOC100288778、LOC100505633、LOC100505648、LOC100505738、LOC100652909、LOC389033、LOC90784、LRRC37A2、MED11、MRPL23-AS1、NAT8L、NEUROD1、NEUROG2、NME5、NOMO3、NPRL2、NXN、ODF3L1、ODF3L2、OSCP1、PARD6G、PGAM1、PLA2G2E、PLSCR4、PPAP2A、PPP1R15A、PPP1R3E、RASL10B、REXO1L1、RIMBP3、RNF126P1、RNU6-76、RPP25、RPS27、SH3PXD2B、SHISA4、SLC25A38、SLC4A1、SLCO5A1、SPDEF、SRSF6、STRA6、SYNM、TBCB、TDRD6、TEX26、TMEM253、TNFSF13B、TTC14、TUBA4A、UBB、VAMP8、VGLL2、WASH2P、WNT9B、XBP1およびZNF789の1またはそれより多くと関連する遺伝子座を含む、項目60に記載の方法。
(項目64)
前記ヒドロキシメチル化バイオマーカーが、以下の遺伝子:GATA4、GATA6、PROX1、ONECUT2、YAP1、TEAD1、ONECUT2/ONECUT1-TCGA、IGF1およびIGF2の1またはそれより多くと関連する遺伝子座をさらに含む、項目63に記載の方法。
(項目65)
前記膵臓癌が外分泌膵臓癌である、項目60に記載の方法。
(項目66)
前記膵臓癌がPDACである、項目65に記載の方法。
(項目67)
患者から外科的に切除される膵臓病変が良性であるリスクを低減するための方法であって、
(a)前記患者から無細胞DNAサンプルを取得すること;
(b)前記サンプル中のヒドロキシメチル化DNAを富化すること;
(c)参照ヒドロキシメチル化プロファイル中の複数の選択された遺伝子座のそれぞれにマッピングされる前記富化されたサンプル中の核酸を定量化することであって、各選択された遺伝子座は、ヒドロキシメチル化バイオマーカーを含むこと;
(d)各バイオマーカーに対して前記サンプルと前記参照プロファイルとの間のヒドロキシメチル化レベルの差を確認するために、各遺伝子座において、前記サンプルのヒドロキシメチル化レベルを前記参照プロファイル中のヒドロキシメチル化レベルと比較すること;および
(e)個体が膵臓癌を有するリスクと相関付けられた少なくとも1つの追加のパラメーターと組み合わされた工程(d)における前記比較から、前記膵臓病変が癌性であるリスクを表すインデックス値を計算すること;および
(f)前記インデックス値が癌の低いリスクに対応する値より大きい場合にのみ、前記膵臓病変の外科的切除を実施すること;
を含む、方法。
(項目68)
前記無細胞DNAサンプルが血液サンプルから抽出される、項目67に記載の方法。
(項目69)
前記無細胞DNAサンプルが膵嚢胞液から抽出される、項目67に記載の方法。
(項目70)
前記ヒドロキシメチル化バイオマーカーが、以下の遺伝子:ADARB2-AS1、ANKRD36B、ASAH2B、ATG4B、ATP8B1、BOLA1、C11orf88、C17orf97、C1orf170、C3orf36、C8orf74、CAMSAP2、CCDC54、CCDC59、CKAP2、CLK2P、CRTC1、CSRP2、CYB5D1、DNAJC27、DYNAP、FAM166A、FAM188B、FAM196A、FAM86JP、FAT4、FBXO5、FGF2、FUT2、GAS2L2、GAS6、GGACT、GLRX5、GPX1、GPX5、HBD、HLA-A、HTR1F、IL36G、KANSL1、KCNH6、KCTD15、KLHL38、KLK2、KRT6B、LAMC1、LGALS14、LGALS8-AS1、LIFR、LINC00266-1、LINC00310、LOC100130452、LOC100130557、LOC100130894、LOC100288778、LOC100505633、LOC100505648、LOC100505738、LOC100652909、LOC389033、LOC90784、LRRC37A2、MED11、MRPL23-AS1、NAT8L、NEUROD1、NEUROG2、NME5、NOMO3、NPRL2、NXN、ODF3L1、ODF3L2、OSCP1、PARD6G、PGAM1、PLA2G2E、PLSCR4、PPAP2A、PPP1R15A、PPP1R3E、RASL10B、REXO1L1、RIMBP3、RNF126P1、RNU6-76、RPP25、RPS27、SH3PXD2B、SHISA4、SLC25A38、SLC4A1、SLCO5A1、SPDEF、SRSF6、STRA6、SYNM、TBCB、TDRD6、TEX26、TMEM253、TNFSF13B、TTC14、TUBA4A、UBB、VAMP8、VGLL2、WASH2P、WNT9B、XBP1およびZNF789の1またはそれより多くと関連する遺伝子座を含む、項目67に記載の方法。
(項目71)
前記ヒドロキシメチル化バイオマーカーが、以下の遺伝子:GATA4、GATA6、PROX1、ONECUT2、YAP1、TEAD1、ONECUT2/ONECUT1-TCGA、IGF1およびIGF2の1またはそれより多くと関連する遺伝子座をさらに含む、項目70に記載の方法。
(項目72)
対象が膵臓癌を発症するリスクを評価するための方法であって、手術前に、
(a)前記対象から無細胞DNAサンプルを取得すること;
(b)前記サンプル中のヒドロキシメチル化DNAを富化すること;
(c)参照ヒドロキシメチル化プロファイル中の複数の選択された遺伝子座のそれぞれにマッピングされる前記富化されたサンプル中の核酸を定量化することであって、各選択された遺伝子座は、ヒドロキシメチル化バイオマーカーを含むこと;
(d)各バイオマーカーに対して前記サンプルと前記参照プロファイルとの間のヒドロキシメチル化レベルの差を確認するために、各遺伝子座において、前記サンプルのヒドロキシメチル化レベルを前記参照プロファイル中のヒドロキシメチル化レベルと比較すること;および
(e)個体が膵臓癌を発症するリスクと相関付けられた少なくとも1つの追加のパラメーターと組み合わされた工程(d)における前記比較から、膵臓癌を発症する前記対象のリスクを表すインデックス値を計算すること;
を含む、方法。
(項目73)
項目1に記載の方法を実施するためのキットであって、
無細胞DNAサンプル中の複数のヒドロキシメチル化バイオマーカー遺伝子座のそれぞれにおけるヒドロキシメチル化レベルを決定するための少なくとも1つの試薬と;
前記サンプル中のアフィニティータグづけされた5hmC含有無細胞DNAを捕捉するための固体支持体と;
前記方法を実施する際の前記少なくとも1つの試薬および前記固体支持体の使用に関する指示書と;
を備える、キット。
(項目74)
モデル化および予測を実行するように設計されたソフトウェアにアクセスし、使用するための説明書をさらに備える、項目73に記載のキット。
(項目75)
項目1に記載の方法を実施するためのキットであって、
DNAβ-グルコシルトランスフェラーゼと;
化学選択的基で修飾されたUDPグルコースと;
ビオチン部分と;
ビオチン結合タンパク質で官能化された表面を有する固体支持体と;
分子バーコードを含むアダプターと;
前記方法を実施するための指示書と;
を備えるキット。
(項目76)
モデル化および予測を実行するように設計されたソフトウェアにアクセスし、使用するための説明書をさらに備える、項目75に記載のキット。
(項目77)
膵臓癌を発症するリスクがある個体が膵臓癌を有する可能性を決定するための方法であって、
(a)前記患者から無細胞DNAサンプルを取得すること;
(b)前記サンプル中のヒドロキシメチル化DNAを富化すること;
(c)参照ヒドロキシメチル化プロファイル中の複数の選択された遺伝子座のそれぞれにマッピングされる前記富化されたサンプル中の核酸を定量化することであって、各選択された遺伝子座は、ヒドロキシメチル化バイオマーカーを含むこと;
(d)各バイオマーカーに対して前記サンプルと前記参照プロファイルとの間のヒドロキシメチル化レベルの差を確認するために、各遺伝子座において、前記サンプルのヒドロキシメチル化レベルを前記参照プロファイル中のヒドロキシメチル化レベルと比較すること;および
(e)工程(d)における前記比較から、前記個体が膵臓癌を有する可能性を表すインデックス値を計算すること;
を含む、方法。
(項目78)
工程(a)の前に、識別された膵臓病変;膵臓の炎症;黄疸;年齢;体重;性別;民族性;家族歴;遺伝子変異;糖尿病;身体活動;食事;炎症誘発性サイトカインレベル;および喫煙から選択される1またはそれを超えるパラメーターから膵臓癌を発症するリスクがあるとして前記個体を識別することをさらに含む、項目77に記載の方法:
(項目79)
前記個体が少なくとも1つのさらなる種類の癌を有する可能性を決定することをさらに含む、項目77に記載の方法。
(項目80)
前記少なくとも1つのさらなる種類の癌が、膀胱癌;血液および骨髄の癌;脳癌;乳癌;子宮頸癌;結腸直腸癌;食道癌;肝臓癌;肺癌;卵巣癌;前立腺癌;腎癌;皮膚癌;精巣癌;甲状腺癌;ならびに子宮癌から選択される、項目79に記載の方法。
(項目81)
個体が膵臓癌ならびに結腸直腸癌、食道癌、肺癌および肝臓癌から選択される少なくとも1つのさらなる種類の癌を有する可能性を決定する多癌試験において、
(a)前記個体から無細胞DNAサンプルを取得すること;
(b)前記サンプル中のヒドロキシメチル化DNAを富化すること;
(c)参照ヒドロキシメチル化プロファイル中の複数の選択された遺伝子座のそれぞれにマッピングされる前記富化されたサンプル中の核酸を定量化することであって、各選択された遺伝子座は、ヒドロキシメチル化バイオマーカーを含むこと;
(d)各バイオマーカーに対して前記サンプルと前記参照プロファイルとの間のヒドロキシメチル化レベルの差を確認するために、各遺伝子座において、前記サンプルのヒドロキシメチル化レベルを前記参照プロファイル中のヒドロキシメチル化レベルと比較すること;および
(e)工程(d)における前記比較から、前記個体が膵臓癌を有する可能性を表すインデックス値を計算すること;
によって、前記個体が膵臓癌を有する可能性を決定することを含む改善。
(項目82)
(a)の前に前記少なくとも1つのさらなる種類の癌に対する偽陽性を排除することをさらに含む、項目81に記載の改善された多癌試験。
(項目83)
(a)の前に前記少なくとも1つのさらなる種類の癌に対する偽陰性を排除することをさらに含む、項目81に記載の改善された多癌試験。
(項目84)
項目77に記載の方法を実施するためのキットであって、
無細胞DNAサンプル中の複数のヒドロキシメチル化バイオマーカー遺伝子座のそれぞれにおけるヒドロキシメチル化レベルを決定するための少なくとも1つの試薬と;
前記サンプル中のアフィニティータグづけされた5hmC含有無細胞DNAを捕捉するための固体支持体と;
前記方法を実施する際の前記少なくとも1つの試薬および前記固体支持体の使用に関する指示書と;
を備える、キット。
(項目85)
モデル化および予測を実行するように設計されたソフトウェアにアクセスし、使用するための説明書をさらに備える、項目84に記載のキット。
(項目86)
項目77に記載の方法を実施するためのキットであって、
DNAβ-グルコシルトランスフェラーゼと;
化学選択的基で修飾されたUDPグルコースと;
ビオチン部分と;
ビオチン結合タンパク質で官能化された表面を有する固体支持体と;
分子バーコードを含むアダプターと;
前記方法を実施するための指示書と;
を備えるキット。
(項目87)
モデル化および予測を実行するように設計されたソフトウェアにアクセスし、使用するための説明書をさらに備える、項目86に記載のキット。
【図面の簡単な説明】
【0088】
【
図1】
図1は、本明細書の実施例1において使用された研究コホートを概略的に示している。コホート:PDAC、n=51、非癌、n=41。複数の5hmCアッセイ処理およびシーケンシングバッチにわたって、プールされた非癌レプリケートを含めた。
【0089】
【
図2】
図2は、サンプルの入れ替わりを検出するための性別で分けられた2つの交互するフローセル構造物を含む、実施例1において使用されたサンプル処理ワークフローを概略的に示している。
【0090】
【
図3】
図3は、2つのコホート、PDACおよび非癌(本図においては、それぞれ「PDAC」および「NC」として識別される)について、別個のゲノム領域にわたる5hmC遺伝子座の平均ピークカウントを示すヒストグラムである。非コーディング構造は、より多数のピークを有することが明らかであろう。
【0091】
【
図4】
図4は、実施例1に記載されている富化分析の結果を与えるヒストグラムであり、Y軸の値は、log2(癌/非癌)の平均に等しい。ヒストグラムは、遺伝子ベースの構造(features)であるSINEおよびAlusは癌および非癌の両コホートにおいて5hmCが富化されているのに対し、遺伝子間領域であるLINEおよびL1は5hmCピークが枯渇していることを示している。
【0092】
【
図5】
図5は、プロモーター、LINE因子、エクソン、3’UTRおよび翻訳終結部位における、非癌サンプルと比較した膵臓癌サンプルでの5hmCピークの統計的に有意な変化を図示する箱ひげ図を提供し、ここでは、Y軸の値はlog2(癌/非癌)に等しい。プロモーターおよびLINE因子は、非癌サンプルと比較して癌(PDAC)サンプルにおいて、5-ヒドロキシメチルシトシンの枯渇(すなわち、ヒドロキシメチル化の減少)を示すことが明らかとなったが、エクソン、3’UTRおよび翻訳終結点においては、5hmCの富化が観察された。ここでの各箱ひげ図では、箱の中の線はデータの中央値を表し、箱の下端は下位四分位数を表し、箱の上端は上位四分位数を表す。正規分布データは、平均からの標準偏差を表すエラーバーを有する位置合わせされた(aligned)ドットプロットとして描かれる。計算されたp値が、各図の上に表示されている。
【0093】
【
図6】
図6は、膵臓ステージ全体にわたる機能的領域中での5hmCピークの統計的に有意な変化を図示する箱ひげ図を提供する。
【0094】
【
図7】
図7は、PDACコホートにおけるH3K4me3およびH3K27acヒストンマーク中の5hmCピーク枯渇(上のパネル)、ならびに後期疾患で観察された進行しているH3K4me3枯渇(下のパネル)を図示する箱ひげ図を提供する。
【0095】
【
図8-1】
図8Aおよび
図8Bは、PANC-1細胞株における5hmC占有およびH3K4Me3における可変の占有を図示する正常な膵臓のヒストンマップを示し(
図8A)、H3K4Me1における、マークの中心での枯渇および相補的な5hmCの増加を示す(
図8B)。結果は、PDACコホートにおける遺伝子転写の選好的増加を裏付けている。Y軸の値は、10bpウィンドウ中での5hmCカウントの正規化された密度に等しい。赤い点線=PDAC患者、1つの線が1人;青い点線=非癌患者、1つの線が1人;赤い実線=すべてのPDAC患者にわたる正規化された5hmCカウントの平均密度;青い実線=すべての非癌患者にわたる正規化された5hmCカウントの平均密度。
【
図8-2】
図8Aおよび
図8Bは、PANC-1細胞株における5hmC占有およびH3K4Me3における可変の占有を図示する正常な膵臓のヒストンマップを示し(
図8A)、H3K4Me1における、マークの中心での枯渇および相補的な5hmCの増加を示す(
図8B)。結果は、PDACコホートにおける遺伝子転写の選好的増加を裏付けている。Y軸の値は、10bpウィンドウ中での5hmCカウントの正規化された密度に等しい。赤い点線=PDAC患者、1つの線が1人;青い点線=非癌患者、1つの線が1人;赤い実線=すべてのPDAC患者にわたる正規化された5hmCカウントの平均密度;青い実線=すべての非癌患者にわたる正規化された5hmCカウントの平均密度。
【0096】
【
図9】
図9は、すべての異なって表現された遺伝子を示すMAプロットおよび最も重要な遺伝子上での5hmC表現を示すヒートマップである。
【0097】
【
図10】
図10は、異なって5hmC富化された遺伝子を使用した遺伝子セット富化分析(GSEA)の結果を示すヒストグラムである。青いバーは、非癌サンプルと比較したPDACサンプルにおいて、低下したヒドロキシメチル化レベルを示す全ての経路の割合を表し、オレンジ色のバーは、より高いヒドロキシメチル化レベルを示す全ての経路の割合を表す。GSEAは、非癌サンプルと比較してPDACにおいて、KEGG経路の20%超でヒドロキシメチル化レベルが上方表現(up-represented)および下方表現(down-represented)されていることを明らかにする。また、免疫経路の30%超が、非癌サンプルと比較してPDACにおいて、下方表現されていることが明らかとなった。
図10において、「ホールマーク」は、MSigDBコレクション内のホールマーク遺伝子セットを指す;「C2」は、Biocarta、KEGGおよびReactomeデータベースを包含する収集・整理された(curated)遺伝子セットを指す;「C5.BP」は、Gene Ontology(GO)Consortiumの注釈付き遺伝子セットの「生物学的過程」サブセットを指す;「C6」、癌でしばしば調節解除される細胞経路のMSigDB発癌性シグネチャ;「C7」(「immuneSigDB」とも呼ばれる)は、免疫系内の細胞の種類、状態および擾乱を表す遺伝子セットのデータベースを指す。
【0098】
【
図11】
図11は、非癌サンプルと比較して、PDACにおいて5hmCの統計的に有意な(FDR=0.05)増加または減少を伴う13,180遺伝子に対して対数[カウント/百万]を用いて実行されたPCAの結果を提供するドットプロットである。ドットプロットは、非癌サンプルからのPDACサンプルの明瞭な分割を示している。
【0099】
【
図12】
図12は、非癌サンプルと比較してPDAにおいて統計的に有意な(FDR=0.05)5hmCの増加または減少を示した13,180個の遺伝子のサブセットである320個の遺伝子に対して、log[カウント/百万]を用いて実行されたPCAドットプロットであり、PDAC表現を増加するために、データは、以下のようにフィルタリングされた。(1)(log2[5hmC-PDAC/5hmC-非癌]≧0.58;および(2)log2[平均表現]≧5。ドットプロットは、
図11の作成において使用されたものより桁違いに小さい遺伝子セットであるにもかかわらず、同じく、非癌サンプルからのPDACサンプルの良好な分割を示している。
【0100】
【
図13】
図13は、
図12のPCAのために選択された320個の遺伝子を用いて得られた階層的クラスタリングの結果を図示するヒートマップであり(遺伝子はヒートマップ中の横列に相当する)、log(CPM)5mCカウントを使用して、ラベル付けされたサンプル(ヒートマップ中の縦列)をどのように分割することができるかを示す。ヒートマップは、データのほぼ完全な分割を示しており、本事例では、データは、Songら、(2017)Cell Research 27:1231-42において、スタンフォード大学によって使用されたものであった(本明細書においては、「スタンフォードデータ」と呼ばれることがある)。
【0101】
【
図14】
図14も、
図13について上で説明したように作成されたヒートマップであるが、Liら、(2017)Cell Research 27:1243-1257のデータを使用した(本明細書では「シカゴデータ」と呼ばれることがある)。スタンフォードデータのほぼ完全な分割とは対照的に、シカゴデータはやや不完全な分割を与えた。
【0102】
【
図15】
図15および
図16は、2つの正則化モデル、ElasticNetおよびLassoを使用した予測モデル化の結果を示している。本明細書の実施例1に記載されているように、
図15は、データの75%を用いて実行されたトレーニングを表し、
図16は、データの残りの25%に対して実行された試験を表す。
【
図16】
図15および
図16は、2つの正則化モデル、ElasticNetおよびLassoを使用した予測モデル化の結果を示している。本明細書の実施例1に記載されているように、
図15は、データの75%を用いて実行されたトレーニングを表し、
図16は、データの残りの25%に対して実行された試験を表す。
【0103】
【
図17】
図17は、Elastic NetおよびLasso正則化法を使用してトレーニングデータセット中の各サンプルから導出された確率スコアを示している。1に近い確率スコアは予測された癌サンプルであり、0に近い確率スコアは非癌サンプルである。赤い線は、非癌サンプルのQ3確率スコアを示している。
【0104】
【
図18】
図18は、Liら(2017)(シカゴ)およびSongら、(2017)(スタンフォード)PDACおよび非癌データセットとともに使用された予測モデルの検証を表している。
【0105】
【
図19】
図19は、ヒストンバイオマーカーであるH3K4me3、H3K4me1およびH3K27acに関連する遺伝子座でのヒドロキシメチル化レベル(「5hmC占有度」)、およびPANC-1細胞株からの既存のヒストンマップとの類似性をグラフ形式で示している(LeRoyら、(2013)Epigenetics&Chromatin 6:20)。
【0106】
【
図20-1】
図20は、本明細書の実施例1に記載されている方法を使用して得られたヒドロキシメチル化バイオマーカーデータを提供する。
図20の表は、名前と染色体位置によって遺伝子を特定し、glmnet、glmnet2、glmnetFおよびglmnet2F正則化法を用いて得られた正規化された値;glmnetFおよびglmnet2F係数;平均および標準偏差;癌コホートの平均および標準偏差(それぞれ平均-CおよびSD-Cと表記されている);非癌コホートの平均および標準偏差(それぞれ平均-NCとSD-NC);各遺伝子のglmnetFとglmnet2Fの正規化された値の合計として計算されたボート(vote);癌と非癌の比率(C/NC)平均を含む。
【0107】
【
図21-1】
図21は、実施例2の研究グループ2を使用して識別された、遺伝子名、位置およびglmnet値による、本発明と併せて使用するのに適したヒドロキシメチル化バイオマーカーのリストを提供する。
【0108】
【
図22-1】
図22は、
図20と同様であるが、実施例3の研究グループ3を使用して、以下の表4の41個の遺伝子に対するバイオマーカーデータを提供する。
【
図22-2】
図22は、
図20と同様であるが、実施例3の研究グループ3を使用して、以下の表4の41個の遺伝子に対するバイオマーカーデータを提供する。
【発明を実施するための形態】
【0109】
1.用語および概要:
【0110】
別段の定めがないかぎり、本明細書で使用される全ての技術的および科学的用語は、本発明が属する技術分野の当業者によって通常理解される意味を有する。本発明を説明するために特に重要な特定の用語は、以下に定義する。その他の関連用語は、国際特許出願公開WO2017/176630(Quakeら、発明の名称「Noninvasive Diagnostics by Sequencing 5-Hydroxymethylated Cell-Free DNA」)に定義されている。本明細書で参照されている上記の特許公報ならびに他の全ての特許文献および刊行物は、参照により明示的に援用される。
【0111】
本明細書および添付の特許請求の範囲において、単数形「a」、「an」および「the」は、文脈が明確に反対の意味を指示しなければ、複数表記を含む。したがって、例えば、「アダプター(an adapter)」は、単一のアダプターだけでなく、同じであってもまたは異なってもよい2つまたはそれを超えるアダプターも指し、「テンプレート分子(a template molecule)」は、単一のテンプレート分子のみならず、複数のテンプレート分子を指すなど。
【0112】
数値範囲には、その範囲を規定している数値が含まれる。別段の定めがないかぎり、それぞれ、核酸は、5’から3’の方向に、左から右に記述され;アミノ酸配列は、アミノ末端からカルボキシ末端の方向に、左から右に記述される。
【0113】
本明細書に示される見出しは、本発明の種々の態様または実施形態を限定するものではない。したがって、このすぐ後に定義されている用語は、明細書を全体として参照することによって、より完全に定義される。
【0114】
用語「サンプル」は、本明細書で用いる場合、物質または複数の物質の混合物を指し、必ずではないが、典型的には液状であり、関心のある1またはそれを超える分析対象物を含む。
【0115】
用語「生物学的サンプル」は、本明細書で用いる場合、ヒト対象の体液、細胞、組織、または器官に由来するサンプルを指し、生体分子(タンパク質、ペプチド、脂質、核酸などが含まれる)の混合物を含む。必ずではないが、前記サンプルは、一般に、全血サンプル、血清サンプル、または血漿サンプルなどの血液サンプル、または膵嚢胞液のサンプルである。
【0116】
用語「核酸サンプル」は、本明細書で用いられる場合、核酸を含有する生物学的サンプルを指す。核酸サンプルは、ヌクレオソームを含む無細胞核酸サンプルであってもよく、その場合、核酸サンプルは、本明細書において、「ヌクレオソームサンプル」と呼ばれることがある。核酸サンプルは、サンプル中にヒストンおよび他のタンパク質を実質的に含まない無細胞DNAから構成されていてもよく、例えば無細胞DNA精製後の場合があてはまるであろう。核酸サンプルは、本明細書において、無細胞RNAも含んでいてもよい。
【0117】
「サンプルフラクション」は、元の生物学的サンプルのサブセットを指し、血液サンプルを複数の等しいフラクションに分けた場合のように、その生物学的サンプルの組成的に等しい部分であってもよい。あるいは、サンプルフラクションは、組成的に異なっていてもよく、例えば、生物学的サンプルのある特定の成分を除去した場合(無細胞核酸の抽出がその一例である)があてはまるであろう。
【0118】
本明細書で用いられる場合、用語「無細胞核酸」は、無細胞DNAと無細胞RNAの両方を包含し、この無細胞DNAおよび無細胞RNAは、体液を含む生物学的サンプルの無細胞フラクション中に存在していてもよい。前記体液は、全血、血清、もしくは血漿を含む血液であってもよく、または尿、嚢胞液、もしくは別の体液であってもよい。多くの例において、生物学的サンプルは血液サンプルであり、無細胞核酸サンプルは、それらのサンプルから、当業者に知られている、および/または関連する書籍および文献に説明されている、現在普通に用いられている手段で抽出され、無細胞核酸抽出を行うためのキットは市販されている(例えば、AllPrep(登録商標)DNA/RNA MiniキットおよびQIAmp DNA Blood Miniキット(両方ともQiagen社から入手できる)、またはMagMAX無細胞全核酸キット(Cell-Free Total Nucleic acid Kit)およびMagMAX DNA単離キット(DNA Isolation Kit)(Thermo Fisher Scientific社から入手できる))。例えば、Huiら、Fongら(2009)Clin.Chem.55(3):587-598も参照のこと。
【0119】
用語「ヌクレオチド」は、知られているプリンおよびピリミジン塩基だけではなく、他の修飾された複素環塩基も含有するような部分を含むことを意図している。このような修飾は、メチル化プリンまたはピリミジン、アシル化プリンまたはピリミジン、アルキル化リボース、または他のアルキル化複素環を含む。また、用語「ヌクレオチド」は、ハプテンまたは蛍光標識を含有し、通常のリボース糖およびデオキシリボース糖だけではなく、他の糖も含有するような部分を含む。修飾ヌクレオシドまたはヌクレオチドには、糖部位の修飾も含まれ、糖部位の修飾においては、例えば、1またはそれを超えるヒドロキシル基が、ハロゲン原子または脂肪族基で置換されているか、エーテル、アミンなどとして官能基化されている。本明細書において特に重要なものは、5-メチルシトシンおよびその酸化形態(例えば、5-ヒドロキシメチルシトシン、5-ホルミルシトシン、および5-カルボキシメチルシトシン)を含む、修飾シトシン残基である。
【0120】
用語「核酸」および「ポリヌクレオチド」は、本明細書において、ヌクレオチド、例えばデオキシリボヌクレオチドまたはリボヌクレオチドからなる、任意の長さ、例えば、約2塩基超、約10塩基超、約100塩基超、約500塩基超、1000塩基超、および最長で約10,000またはそれを超える塩基数のポリマーを記述するために、互換的に用いられる。核酸は、酵素的に生成されたものでもよく、化学的に合成したものでもよく、天然に生じたものでもよい。
【0121】
用語「オリゴヌクレオチド」は、本明細書で用いる場合、長さが約2~200ヌクレオチド、最長で500ヌクレオチドの、ヌクレオチドの一本鎖マルチマーを表す。
【0122】
オリゴヌクレオチドは、合成でも、酵素的に合成してもよく、いくつかの実施形態において、長さは30~150ヌクレオチドである。オリゴヌクレオチドは、リボヌクレオチドモノマーを含んでいてもよく(すなわち、オリゴリボヌクレオチドであってもよい)、および/またはデオキシリボヌクレオチドモノマーを含んでいてもよい。オリゴヌクレオチドは、例えば、長さが10~20、21~30、31~40、41~50、51~60、61~70、71~80、80~100、100~150、または150~200ヌクレオチドである。
【0123】
用語「ハイブリダイゼーション」は、当該技術分野で知られているように、塩基対形成によって核酸鎖を相補鎖と接合させるプロセスを指す。ある核酸と参照核酸配列が、中程度から高いストリンジェンシーのハイブリダイゼーションおよび洗浄条件において、互いに特異的にハイブリダイズする場合、その核酸は、前記参照核酸配列と「選択的にハイブリダイズできる」ものとみなされる。中程度から高いストリンジェンシーのハイブリダイゼーション条件は知られている(例えば、Ausubelら、Short Protocols in Molecular Biology,3rd ed.,Wiley &
Sons 1995、およびSambrookら、Molecular Cloning:A Laboratory Manual,Third Edition,2001
Cold Spring Harbor,N.Y.を参照のこと)。
【0124】
用語「二本鎖(duplex)」および「二重化した(duplexed)」は、本明細書において、塩基対を形成した、すなわち互いにハイブリダイズした2つの相補的ポリヌクレオチドを記述するために、互換的に用いられる。DNA二本鎖は、本明細書において、「二本鎖DNA」または「dsDNA」と呼ばれ、インタクトな分子または分子のセグメントでありうる。例えば、本明細書において、バーコード化およびアダプター結合と呼ばれるdsDNAは、インタクトな分子であるのに対し、近接伸長アッセイにおける各近接プローブの核酸末端配列間に形成されるdsDNAは、dsDNAセグメントである。
【0125】
用語「鎖(strand)」は、本明細書で用いる場合、共有結合、例えばホスホジエステル結合によって互いに共有結合したヌクレオチドからなる核酸の1本の鎖を指す。細胞において、DNAは、たいてい二本鎖形態で存在し、それ自体は、本明細書において「トップ」および「ボトム」鎖と呼ばれる2つの相補鎖を有する。ある特定のケースにおいて、染色体領域の相補鎖は、「プラス」および「マイナス」鎖、「ポジティブ」および「ネガティブ」鎖、「第1」および「第2」鎖、「コード」および「非コード」鎖、「ワトソン」および「クリック」鎖、または「センス」および「アンチセンス」鎖と呼ばれることがある。ある鎖をトップまたはボトム鎖のどちらと定めるかは任意であり、何らかの特定の向き、機能、または構造を意味するものではない。いくつかの例示的な哺乳類の染色体領域(例えば、BAC、アセンブリー、染色体など)の第1鎖のヌクレオチド配列が知られており、例えばNCBIのGenbankデータベース中に存在することがある。
【0126】
「アダプター」は、この用語が本明細書において使用される場合、生物学的分析における特定の目的にかなう、短い合成オリゴヌクレオチドである。アダプターは一本鎖または二本鎖でありうるが、本明細書において好ましいアダプターは二本鎖である。一実施形態において、アダプターは、ヘアピンアダプター(すなわち、分子内で塩基対を形成して二本鎖ステムとループを有する構造を形成する1つの分子であり、この分子の3’および5’末端は、それぞれ、二本鎖DNA分子の5’および3’末端に結合する)であってもよい。別の実施形態において、アダプターは、Y字アダプターであってもよい。別の実施形態において、アダプターは、それ自体が、互いに塩基対を形成している2つの異なるオリゴヌクレオチド分子から形成されていてもよい。明らかであろうが、アダプターの結合可能な末端は、制限酵素による切断で形成されるオーバーハングに適合するように設計されていてもよく、または平滑末端もしくは5’T突出末端を有していてもよい。用語「アダプター」は、二本鎖ならびに一本鎖の分子を指す。アダプターは、DNAもしくはRNA、またはこれら2つの混合物であってもよい。RNAを含むアダプターは、RNase処理またはアルカリ加水分解によって切断されうる。アダプターは、15~100塩基、例えば50~70塩基であってもよいが、この範囲外のアダプターも考えられる。
【0127】
用語「アダプター結合」は、本明細書で用いられる場合、アダプターに結合した核酸を指す。アダプターは、核酸分子の5’末端および/または3’末端に結合しうる。本明細書で用いられる場合、用語「アダプター配列付加」は、アダプターを、サンプル中のフラグメントの末端に付加する行為を指す。これは、ポリメラーゼを用いてフラグメントの末端を充填すること、末端A配列を付加すること、次いでこの末端A配列を有するフラグメントにT突出を含むアダプターを結合させることによって行われうる。アダプターは、通常、リガーゼを用いてDNA二本鎖に結合されるが、RNAでは、cDNA二本鎖の少なくとも1つの末端に、好ましくはリガーゼ不存在下で、共有結合または他の形で結合される。
【0128】
用語「非対称アダプター」は、本明細書で用いられる場合、二本鎖核酸フラグメントの両末端に結合された場合に、3’末端のタグ配列と同じではない、または相補的ではない5’タグ配列を含むトップ鎖を生じさせるであろうアダプターを指す。非対称アダプターの例は、米国特許第5,712,126号および第6,372,434号(Weissmanら)、および国際特許出願公開WO2009/032167(Bignellら)に記載されている。非対称にタグがつけられたフラグメントは、2つのプライマー、すなわち鎖の3’末端に付加された第1のタグ配列とハイブリダイズする第1のプライマー;およびもう一方の、鎖の5’末端に付加された第2のタグ配列の相補鎖とハイブリダイズする第2のプライマーによって増幅されうる。Y字アダプターおよびヘアピンアダプター(ヘアピンアダプターは、ライゲーション後に切断することによって、「Y字アダプター」を生じうる)は、非対称アダプターの例である。
【0129】
用語「Y字アダプター」は、二本鎖領域と、対向する配列が相補的ではない一本鎖領域とを含むアダプターを指す。二本鎖領域の末端は、例えばライゲーションまたはトランスポザーゼ触媒反応によって、ゲノムDNAの二本鎖フラグメントなどの標的分子に結合できる。Y字アダプターに結合した、アダプタータグがついた二本鎖DNAのそれぞれの鎖は、一方の末端にY字アダプターの一方の鎖の配列を有し、他方の末端にY字アダプターの他方の鎖の配列を有するという点で、非対称にタグがつけられている。両方の末端がY字アダプターに結合した核酸分子を増幅することによって、非対称にタグがつけられた核酸、すなわち、あるタグ配列を含む5’末端と、別のタグ配列を含む3’末端とを有する核酸が生じる。
【0130】
用語「ヘアピンアダプター」は、ヘアピン形状のアダプターを指す。一実施形態において、ライゲーション後に、ヘアピンループを切断し、各末端に非相補タグを有する鎖を生じさせることができる。いくつかのケースにおいて、ヘアピンアダプターのループは、ウラシル残基を含んでいてもよく、そのようなループは、他の方法も知られているが、ウラシルDNAグリコシラーゼおよびエンドヌクレアーゼVIIIによって切断することができる。
【0131】
本明細書において使用される用語「アダプター連結サンプル」は、アダプターに結合しているサンプルを指す。上記の定義を考慮すれば理解されるであろうが、非対称アダプターに結合したサンプルは、5’および3’末端に非相補配列を有する鎖を含む。
【0132】
用語「増幅」は、本明細書で用いられる場合、テンプレート核酸の1またはそれを超えるコピーまたは「アンプリコン」を作成することを指し、任意の核酸増幅技術を用いて実施することができる。核酸増幅技術は、例えば、PCR、NASBA、TMAおよびSDAなどの技術である。
【0133】
用語「富化する」および「富化」は、ある特定の特徴を有するテンプレート分子(例えば、5-ヒドロキシメチルシトシンを含む核酸)を、そのような特徴を持たない分析対象物(例えば、ヒドロキシメチルシトシンを含まない核酸)から部分精製することを指す。富化は、典型的には、前記の特徴を有する分析対象物の濃度を、前記特徴を持たない分析対象物に対して、少なくとも2倍、少なくとも5倍、または少なくとも10倍高める。富化後、サンプル中の分析対象物の少なくとも10%、少なくとも20%、少なくとも50%、少なくとも80%、または少なくとも90%が、富化に用いた特徴を有しうる。例えば、富化した組成物中の核酸分子の少なくとも10%、少なくとも20%、少なくとも50%、少なくとも80%、または少なくとも90%は、キャプチャータグを含むように修飾された1またはそれを超えるヒドロキシメチルシトシンを有する鎖を含んでいてもよい。
【0134】
用語「シーケンシング」は、本明細書で用いられる場合、その方法によって、ポリヌクレオチドの少なくとも10個の連続したヌクレオチドが識別される(例えば、少なくとも20、少なくとも50、少なくとも100、もしくは少なくとも200、またはそれを超える連続したヌクレオチドが識別される)ような方法を指す。
【0135】
用語「次世代シーケンシング(NGS、next-generation sequencing)」または「ハイスループットシーケンシング」は、本明細書で用いられる場合、現在Illumina社、Life Technologies社、Roche社などによって採用されている、いわゆるパラレルSBS(sequencing-by-synthesis)またはSBL(sequencing-by-ligation)プラットフォームを指す。次世代シーケンシング法としては、Oxford Nanopore Technologies社によって商業化された方法などのナノポアシーケンシング法、Life Technologies社によって商業化されたIon Torrent技術などの電子的検出方法、およびPacific Biosciences社によって商業化された方法などの単分子蛍光に基づく方法などもあげられうる。
【0136】
用語「読み取りデータ(read)」は、本明細書で用いられる場合、シーケンシングシステム(例えば、超並列シーケンシングなど)の生の出力または加工された出力を指す。いくつかの実施形態において、本明細書に記載されている方法の出力は、読み取りデータである。いくつかの実施形態において、それらの読み取りデータは、トリミング、フィルター、およびアライメントが必要であることがあり、結果として、生の読み取りデータ、トリミングされた読み取りデータ、アライメントされた読み取りデータが得られる。
【0137】
「固有特性識別子(unique feature identifier)」(UFI)配列は、核酸分子の特徴を識別するために有用な比較的短い核酸配列を指す。UFIを含有する核酸テンプレート分子およびそのアンプリコンは、本明細書において、「バーコード化」テンプレート分子またはアンプリコンと呼ばれることがある。UFI配列の種類としては、限定するものではないが、例えば以下のものがあげられる。
【0138】
「ソース識別子配列」(または「ソースUFI」もしくは「ソースバーコード」)によって、起源の生物学的サンプル(または他のソース)が識別される。すなわち、単一のサンプル中の各DNA分子は、同一のソース識別子配列でタグ付けされており、このため、シーケンシングの前に試料を混合できる。これらのUFIは、「サンプル識別子配列」、「サンプルUFI」または「サンプルバーコード」として特徴付けることもできる。
【0139】
「フラグメント識別子配列」(または「フラグメントUFI」もしくは「フラグメントバーコード」)とは、以下のようなものである。すなわち、核酸がフラグメント化された核酸サンプルにおいて、サンプル中の各フラグメントは、対応するフラグメント識別子配列によってバーコード化される。互いに重なり合わないフラグメント識別子配列を有する複数の配列読み取りデータは、核酸テンプレート分子の起源が異なることを示すのに対し、同じフラグメント識別子配列、または実質的に重なり合うフラグメント識別子配列を有する複数の読み取りデータは、同じテンプレート分子のフラグメントを示す可能性がある。ここで識別される固有の特徴は、フラグメントの起源であるテンプレート核酸分子である。
【0140】
「鎖識別子配列」(または「鎖UFI」もしくは「鎖バーコード」)によって、DNA二本鎖の2つの鎖がそれぞれ独立してタグづけされ、それによって読み取りデータの起源である鎖が判定できる(すなわち、WストランドまたはCストランドとして判定できる)。
【0141】
「5hmC識別子配列」(または「5hmCバーコード」)によって、サンプル中の5hmC含有無細胞DNAテンプレート分子を起源とするDNAフラグメント、すなわち「ヒドロキシメチル化」DNAが識別される。
【0142】
「5mC識別子配列」(または「5mCバーコード」)によって、5hmCを含まない5mC含有無細胞DNAテンプレート分子を起源とするDNAフラグメントが識別される。
【0143】
「分子UFI配列」(または「分子バーコード」)は、サンプル中のあらゆる核酸テンプレート分子に追加され、UFI配列の長さが十分である場合は、全ての核酸テンプレート分子は固有のUFI配列に結合する。分子UFI配列は、当該技術分野で知られているように、増幅エラーおよびシークエンサーエラーを補償およびオフセットするため、ユーザーが重複を追跡して下流の分析から除外することを可能にするため、分子数の計測とそれに続く分析対象物濃度の決定を可能にするために使用することができる。例えば、Casbonら(2011)Nuc.Acids Res.39(12):1-8を参照のこと。ここでの「固有特性」は、核酸テンプレート分子の同一性である。
【0144】
いくつかの実施形態において、UFIの長さは、1~約35ヌクレオチドの範囲内、例えば3~30ヌクレオチド、4~25ヌクレオチド、または6~20ヌクレオチドなどであってもよい。ある特定のケースでは、UFIはエラー検出性および/またはエラー訂正性であってもよく、これは、たとえエラーが存在したとしても(例えば、分子バーコード配列に合成ミスがある場合、分子バーコード配列の読み取りミスがある場合、または分子バーコード配列を決定するための種々の処理工程のいずれかの間に分子バーコード配列が歪められた場合)、それにもかかわらず、そのコードが正しく解釈されうることを意味する。エラー訂正性配列の使用については、文献に記載されている(例えば、米国特許出願公開第2010/0323348号(Hamatiら)および米国特許出願公開第2009/0105959号(Bravermanら)(どちらも、参照により本明細書に援用される)を参照のこと)。
【0145】
本明細書におけるUFI配列として働くオリゴヌクレオチドは、任意の有効な方法によってDNA分子中に組み込まれてもよく、「~の中に組み込まれる(incorporated into)」は、本明細書において、前記UFIがDNA分子の末端、DNA分子の末端付近、またはDNA分子内に設けられるかぎり、「~に付加される(added
to)」および「~に追加される(appended to)」と互換的に用いられる。例えば、複数のUFIが、選ばれたリガーゼを用いてDNAの末端に結合されてもよく、この場合、最後に結合されたUFIだけが分子の「末端」に存在する。さらに、以下で詳述されている近接伸長アッセイおよびヒストン修飾法において、UFIは、近接プローブの核酸テール内に、近接プローブの核酸テールの末端に、またはタンパク質標的にプローブが結合すると生成されるハイブリダイズした領域内に含まれ得る。
【0146】
より一般的には、用語「検出」は、任意の形態の測定を指すために、用語「決定すること(determining)」、「測定すること(measuring)」、「評価すること(evaluating)」、「アセスメントすること(assessing)」、「アッセイすること(assaying)」、および「分析すること(analyzing)」と互換的に用いられ、ある要素が存在するか否かを決定することも含まれる。これらの用語は、定量的および/または定性的決定の両方を含む。アセスメントすることは、相対的であっても絶対的であってもよい。よって、「~の存在をアセスメントすること」には、存在する部分の量を決定することも、その部分が存在するか存在しないかを決定することも含まれる。ヒドロキシメチル化バイオマーカー部位におけるレベルをアセスメントすることとは、そのような部位におけるヒドロキシメチル化の程度を決定することを指す。
【0147】
「正確度(accuracy)」は、測定または算出された量(試験で記録された値)と、その正確な(または真の)値との一致度を指す。臨床的な正確度は、誤って分類された結果(偽陽性(FP、false positive)または偽陰性(FN、false negative))に対する、真の結果(真陽性(TP、true positive)または真陰性(TN、true negative))の割合に関し、感受性、特異性、陽性予測値(PPV、positive predictive value)、もしくは陰性予測値(NPV、negative predictive value)と呼ばれることがあり、または、確からしさ、もしくは、他の尺度もあるが、オッズ比と呼ばれることもある。
【0148】
「性能」は、とりわけ、臨床的および分析的正確度、使用特性(例えば、安定性、使いやすさ)などのその他の分析および過程特性、医療経済的価値ならびに試験の構成成分の相対的なコストを含む、診断または予後試験の全体的な有用性および品質に関連する用語である。これらの要因のいずれもが、優れた成績、したがって試験の有用性の源となり得、適宜、AUC、結果が得られるまでの時間、有効期間などの適切な「性能測定指標」によって測定され得る。
【0149】
「臨床パラメーター」は、病変サイズ;病変の位置;膵臓の炎症の存在または不存在;他の症候の存在または不存在;患者の年齢;体重;黄疸;性別;民族性;家族歴;遺伝子変異;糖尿病(I型およびII型糖尿病を含む);身体活動;食事;炎症誘発性サイトカインレベル;および患者の喫煙状況などの、これらに限定されない、対象の健康状態または他の特性のすべての非サンプルバイオマーカーを包含する。
【0150】
「式」、「アルゴリズム」、または「モデル」は、1またはそれを超える連続的またはカテゴライズされた入力を受け取って、「インデックス」または「インデックス値」と呼ばれることがある出力値を算出する、任意の数学的な等式、アルゴリズム的な、分析的な、もしくはプログラムされたプロセス、または統計的手法である。「式」の非限定的な例としては、合計、比、および回帰演算子(例えば、係数または指数)、バイオマーカー値の変換または正規化(限定するものではないが、臨床的パラメーター、例えば性別、年齢、または民族性に基づく正規化スキーム)、ルールおよびガイドライン、統計的分類モデル、歴史的集団で学習させたニューラルネットワークなどがあげられる。様々なバイオマーカー遺伝子座におけるヒドロキシメチル化レベルと臨床パラメーターを組み合わせ、必要に応じてその他の因子(例えば、非ヒドロキシメチル化バイオマーカー)とさらに組み合わせる上で特に有用であるのは、患者サンプル中で検出されるバイオマーカー遺伝子座におけるヒドロキシメチル化レベルと患者が膵臓癌を有するまたは発症するリスクとの間の関係を決定するための線形および非線形等式ならびに統計学的分類解析である。パネルおよび組み合わせの構成において、特に重要なものは、なかでも、構造的および構文的な統計的分類アルゴリズム、ならびにパターン認識および機械学習特性を利用したリスクインデックス構成方法であり、確立された技術、例えば、相互相関、主成分分析(PCA、Principal Components Analysis)、因子回転、ロジスティック回帰(LogReg)、線形判別分析(LDA)、Eigengene線形判別分析(ELDA)、サポートベクトルマシン(Support Vector Machine)(SVM)、ランダムフォレスト(RF)、再帰的パーティショニングツリー(RPART)、ならびに、他にもあるが、その他の関連するディシジョンツリー分類技術、収縮重心法(SC、Shrunken Centroids)、StepAIC、K近傍、ブースティング、ディシジョンツリー、ニューラルネットワーク、ベイジアンネットワーク、サポートベクトルマシン(Support Vector Machine)、および隠れマルコフモデルが含まれる。多くのこのようなアルゴリズム技法が、特徴(部位)選択と正則化(例えば、他にもあるが、Ridge回帰、Lasso、およびelastic netにおいて)の両方を実行するためにさらに実装されている。当業者に周知のCoxモデル、WeibullモデルKaplan-Meierモデル、およびGreenwoodモデルを含むその他の技術が、生存およびイベントまでの時間のハザード分析に用いられてもよい。多くのこのような技術が有用であり、ヒドロキシメチル化バイオマーカー選択技術(例えば、変数増加法、変数減少法、または変数増減法)、所定のサイズの全潜在的バイオマーカーセットまたはパネルの完全調査、遺伝的アルゴリズムと組み合わされるか、あるいはこのような技術自体がバイオマーカー選択技法を含む。これらの方法は、追加のバイオマーカーとモデルの改善の間のトレードオフを定量するために、および過剰適合を最小にするために、情報規準、例えば赤池情報量規準(AIC、Akaike’s Information Criterion)またはベイズ情報量規準(BIC、Bayes Information Criterion)と組み合わせてもよい。得られる予見モデルは、Bootstrap、LOO(Leave-One-Out)、および10-Fold CV(10-Fold cross-validation)などの技術を用いて、他の研究において検証してもよく、またはもともとそれらを学習させた研究において交差検証してもよい。種々のステップにおいて、当該技術分野で知られている技術による値置換によって、FDR(false discovery rate)を推定してもよい。
【0151】
本発明の文脈における「リスク」は、膵臓癌の発症の場合のように、ある事象が特定の期間にわたって発生する確率に関連し、対象の「絶対的」リスクまたは「相対的」リスクを意味することができる。絶対的リスクは、適切な期間にわたって追跡された統計的に有効な歴史的コホートから作成されたインデックス値を参照して測定することができ、ここでの絶対リスクの例は、外科的切除後の膵臓生検の結果についての知見である。相対リスクとは、低リスクコホートの絶対的リスクと比較された対象の絶対的リスクの比率を指す。
【0152】
本発明の文脈における「リスク評価」または「リスクの評価」は、ある事象または疾患状態が発生し得る確率、見込み(odds)または可能性、事象の発生またはある状態から別の状態への転換、すなわち、明らかに良性の膵臓病変から癌性病変への転換などの割合を予測することを包含する。本発明の方法は、明らかに良性の膵臓病変の癌性病変への転換のリスクの連続的またはカテゴリカルな測定を行うために使用され得る。カテゴリカルシナリオでは、本発明は、膵臓癌を発症するリスクがより高い正常な対象コホートと他の対象コホートとを区別するために使用することができる。他の実施形態において、本発明は、膵臓癌を発症するリスクがあるものを膵臓癌を有するものから区別するために、または特定の処置によく反応する可能性のあるものをそうでないものから区別するために使用され得る。このような異なる用途は、異なるヒドロキシメチル化バイオマーカーの組み合わせと個別化されたパネル、数学的アルゴリズム、および/またはカットオフポイントを必要とし得るが、それぞれの目的とされる用途に対して、正確度および性能の同じ測定の対象となり得る。
【0153】
「ヒドロキシメチル化レベル」または「ヒドロキシメチル化状態」は、ヒドロキシメチル化バイオマーカー部位内のヒドロキシメチル化の程度である。ヒドロキシメチル化の程度は、通常、ヒドロキシメチル化密度、例えば、核酸領域内の、全シトシン(修飾と非修飾の両方)に対する5hmC残基の比として測定される。ヒドロキシメチル化密度の他の尺度、例えば、核酸領域中の全ヌクレオチドに対する5hmC残基の比率もありうる。
【0154】
「ヒドロキシメチル化プロファイル」または「ヒドロキシメチル化シグネチャー」は、複数のヒドロキシメチル化バイオマーカー部位のそれぞれにおけるヒドロキシメチル化レベルを含むデータセットを指す。ヒドロキシメチル化プロファイルは、下で説明されるような少なくとも1つの共通する特徴を有する個体集団についての混成されたヒドロキシメチル化プロファイルを含む参照ヒドロキシメチル化プロファイルであってもよい。ヒドロキシメチル化プロファイルは、複数のヒドロキシメチル化バイオマーカー部位のそれぞれにおけるヒドロキシメチル化レベルの測定から構築された、患者ヒドロキシメチル化プロファイルでもあり得る。
【0155】
したがって、「参照ヒドロキシメチル化プロファイル」は、複数のヒドロキシメチル化バイオマーカーのそれぞれのヒドロキシメチル化レベルを表すデータセットを指し、データセットは、少なくとも1つの共通の特徴を有する複数の個体、例えば、画像走査において識別された膵臓病変を有したことがある個体、画像走査において識別された膵臓病変を有したことがない個体、膵臓癌を有したことがない個体、慢性膵炎を有する個体などのヒドロキシメチル化プロファイルの混成物である。
【0156】
本明細書において「ヒドロキシメチル化バイオマーカー」は、膵臓癌、特にPDACなどの外分泌膵臓癌との関連性のために選択された遺伝子座を含む。「関連性」とは、ヒドロキシメチル化バイオマーカー遺伝子座が、単独でまたは1もしくはそれを超える他のヒドロキシメチル化バイオマーカー遺伝子座と組み合わせて、上述のセクションの工程(a)から(j)の任意の決定を含む、膵臓癌のリスク、存在、不存在、種類、サイズ、ステージ、侵襲性、グレード、場所、診断、予後、転帰および/または処置応答性の可能性と相関する様式でヒドロキシメチル化の増加または減少を示す傾向があることを意味する。
【0157】
前段落および本出願全体において「遺伝子座」という用語は、核酸分子上の部位を指し、核酸分子は一本鎖または二本鎖であり得、さらに、個々の遺伝子座(または複数の「遺伝子座」)は任意の長さであり得、したがって、単一のCpG部位および完全長遺伝子を含み、またはいくつかのこのような遺伝子座が集まって関連配列モチーフ、その他の相同性または機能的特徴などの群(隣接するか、または位相幾何学的に関係するかを問わない)になる場合を含む、位相幾何学的に関連するドメインなどのより大きな構造にわたり得る。本明細書の遺伝子座は、遺伝子本体の中、遺伝子本体の外にあるアノテーション特徴の中、例えば、プロモーター、エンハンサー、転写開始部位、転写停止部位、またはDNA結合部位、またはそれらの組み合わせの中、または非翻訳領域もしくは「UTR」(3‘UTRおよび5’UTRを含む)の中に含まれていてもよい。1またはそれを超える参照遺伝子座を含んでいてもよいDNA結合部位は、例えば、発現抑制領域、転写因子結合部位、転写抑制因子結合部位、およびCTCF結合部位(トランスポゾン反復領域)を含む。CTCF結合部位内の参照遺伝子座は、そのCTCF遺伝子が転写抑制因子CTCF(11ジンクフィンガータンパク質またはCCCTC結合因子としても知られている)をコードしており、その転写抑制因子CTCFが、さらに、転写制御およびクロマチン構造の制御を含む多くの細胞プロセス関係しているかぎり、特に重要である。例えば、Juanら(2016)Cell Reports 14(5):1246-1257;およびEscediら(2018)Epigenomes 2(1):3を参照のこと。
【0158】
本明細書に開示されている個々のヒドロキシメチル化バイオマーカーのいくつかは、膵臓病変の評価において著しい個々の有意性を有さないことがあり得るが、本明細書に開示されているその他のヒドロキシメチル化バイオマーカーならびに膵臓病変の評価およびモニタリングに対して影響を与える臨床パラメーターと組み合わせて使用され、必要に応じて、さらに1またはそれを超える他の種類のバイオマーカーおよび/または患者特異的危険因子と組み合わされると、本発明の方法が要求するように、例えば、膵臓癌を有する対象と膵臓癌を有さない対象との間、または膵臓癌を発症する可能性が高い対象と膵臓癌を発症する可能性が高くない対象との間などでの識別において有意となることに留意すべきである。本発明の方法は、本明細書において定義されるバイオマーカーを使用することによって、対象が膵臓癌を有するまたは膵臓癌を発症する可能性が高いリスクを評価する現在利用可能な方法に対する改善を提供する。他のバイオマーカー経路参加者(pathway participants)(すなわち、本明細書のヒドロキシメチル化バイオマーカーのリストに含まれるバイオマーカーとの共通経路中の他のバイオマーカー参加者も、対象の膵臓症状における関連する経路参加者である限り、これまでに開示したヒドロキシメチル化バイオマーカーの機能的同等物であり得る。さらに、列記されていないその他のヒドロキシメチル化バイオマーカーは、ここに列記されている個々のヒドロキシメチル化バイオマーカーと極めて高度に相関するであろう(本願において、任意の2つの変数は、0.5またはそれを超える決定係数(R2)を有する場合に、「極めて高度に相関」すると考えられる)。本発明は、前述のヒドロキシメチル化バイオマーカーに対するこのような機能的および統計的同等物を包含する。さらに、このような追加のヒドロキシメチル化バイオマーカーの統計的有用性は、複数のバイオマーカー間の相互相関に大幅に依存し、基礎を成す生物学の意味を詳しく説明するために、新しいバイオマーカーは、しばしば、パネル内で動作することが必要とされるであろう。
【0159】
用語「相関性」は、本明細書で変数(例えば、ある値、値のセット、疾病段階、疾病段階に関連するリスクなど)について用いられる場合、2またはそれを超える変数が互いに変動する程度の尺度である。正の相関は、変数が並行して増加または減少する程度を示す。正の相関の一例は、癌を発症するリスクが増加するにつれてヒドロキシメチル化レベルが増加する場合の、一方では、ヒドロキシメチル化バイオマーカー遺伝子座におけるヒドロキシメチル化レベルと、他方では、膵臓癌を発症するリスクとの間の関係である。逆に、癌を発症するリスクが増加するにつれて、ヒドロキシメチル化バイオマーカー遺伝子座におけるヒドロキシメチル化レベルバイオマーカーが減少する場合、負の相関が存在するであろう。
【0160】
本明細書における「膵臓癌」という用語は、外分泌膵臓癌、特にPDACを指す。
【0161】
本発明は、部分的には、特定の生物学的マーカー、特にDNAヒドロキシメチル化に関連するエピジェネティックマーカーが、膵臓癌、特にPDACなどの外分泌癌と何らかの形で相関するという発見に関する。これらの方法は、患者に対するヒドロキシメチル化プロファイルを作成するために複数のヒドロキシメチル化バイオマーカー遺伝子座のそれぞれにおいてヒドロキシメチル化レベルを測定すること、次いで、各遺伝子座において、患者のヒドロキシメチル化プロファイルを参照ヒドロキシメチル化プロファイルと比較することを含む。バイオマーカーは、膵臓癌を有する、または膵臓癌、特にPDACもしくは別の外分泌膵臓癌を発症するリスクがある対象において、異なってヒドロキシメチル化されている。
【0162】
いくつかの実施形態において、本発明は、画像走査を用いて観察された膵臓病変、すなわち識別された膵臓病変が癌性であるリスク;識別された非癌性膵臓病変が癌性になるリスク、膵臓癌を有する対象を処置するための特定の治療が効果的である可能性、膵臓病変が識別されていない対象が、ある時点で膵臓病変を発症するリスク、およびその病変が癌性になるリスクの決定を可能にする。
【0163】
本発明は、医師が、識別された膵臓病変に関連して対象が受けている治療の有効性;識別された膵臓病変が癌に発展するリスクの増加または減少;観察される膵臓病変を有さない対象が膵臓病変を発症する可能性の増加または減少、およびその病変が癌性になるリスク;および癌性膵臓病変のサイズ、ステージ、グレードまたは浸潤性の程度の変化を含む、識別された膵臓病変の変化を判定することも可能にする。
【0164】
2.ヒドロキシメチル化プロファイルの決定:
【0165】
本発明の各実施形態は、最初に、患者のヒドロキシメチル化プロファイルの作成を含む。プロファイルは、複数のヒドロキシメチル化バイオマーカー遺伝子座のそれぞれにおいてヒドロキシメチル化レベルを確認し、このようにして得られたデータをヒドロキシメチル化プロファイルとして役割を果たすデータセットへとまとめることによって作成される。ヒドロキシメチル化バイオマーカーは、参照ヒドロキシメチル化プロファイルと比較して、膵臓癌を有するまたは膵臓癌を発症するリスクがある対象において、異なってヒドロキシメチル化されている。すなわち、バイオマーカーは、DNAの他の領域よりもヒドロキシメチル化レベルが増加または減少しやすく、膵臓癌または膵臓癌を発症するリスクと相関するようにヒドロキシメチル化レベルの増加または減少を示すゲノムDNAの領域を含む。
【0166】
第1の実施形態において、本発明は、画像走査上で識別された膵臓病変が癌性であるリスクを評価するための方法を提供する。画像化は、任意の適切な方法を使用して実施し得るが、例えば多検出器列コンピュータ断層撮影(CT)またはMR胆道膵管造影(MRCP)を伴う磁気共鳴画像法(MRI)を使用する、断面画像化法が好ましい。
【0167】
この方法の第1の工程は、患者から採取した血液サンプルまたは嚢胞液サンプルから無細胞DNA(cfDNA)試料を取得することを含む。cfDNAの抽出は、例えば、前セクションで参照した市販のキットを使用して、任意の適切な技術を使用して実施することができる。次に、cfDNAの濃度が大幅に増加するように、cfDNAが富化されるが、これは、通常得られるcfDNAのレベルが非常に低いため、事実上必要である。一般的に好ましい富化技術は、Quakeらの国際特許出願公開WO2017/176630に記載されており、その全体が参照により本明細書に援用される:アフィニティータグがcfDNAのサンプル中の5hmC残基に付加され、次に、タグがつけられたDNA分子は官能化された固体支持体に結合することにより選択的に除去される。この方法の例は、Quakeらの文献に記載されているように、まず無細胞サンプル中の末端が平滑で、アダプターが結合した二本鎖DNAフラグメントを修飾して、アフィニティータグとしてビオチンを5hmC残基に共有結合で結合することを含む。これは、6位においてアジド部分で官能化されたウリジン二リン酸(UDP)グルコースで5hmC残基を選択的にグルコシル化することによって実行され得、この工程の後に、「クリックケミストリー」反応によるアルキン官能化ビオチンとの自発的な1,3-環化付加反応が起こる。ビオチン化された5hmC残基を含有するDNAフラグメントは、次いで、富化工程において、ビオチン結合タンパク質(例えば、アビジンまたはストレプトアビジン)で官能化された固体支持体で捕獲することができるアダプター連結dsDNAテンプレート分子である。
【0168】
次に、捕捉されたcfDNAを支持体から放出させずにcfDNAが増幅され、それにより、複数のアンプリコンが得られる。任意の適切な増幅技術(例えば、PCR、NASBA、TMA、SDA)を使用し得るが、PCRが好ましい
【0169】
次に、増幅、プーリング(pooling)およびシーケンシングの後に、得られた配列読み取りデータからヒドロキシメチル化レベルに関する情報を推定することができるように、参照ヒドロキシメチル化プロファイル中の複数の選択された遺伝子座のそれぞれにマッピングされる核酸が定量化される。すなわち、cfDNA中でいずれの配列がヒドロキシメチル化されているかの定量的決定およびヒドロキシメチル化のレベルを与えるために、配列読み取りデータが分析される。これは、配列読み取りデータをカウントすることによって、または、それに代えて、増幅の前に、配列の断片化切断点および/または配列が同様の分子UFIを有するかどうかに基づいて、元の出発分子の数をカウントすることによって行ってもよい。分子UFI配列(または場合によって呼ばれるような「分子バーコード」)を、フラグメントの他の特徴(例えば、切断点を規定する、フラグメントの末端配列)と共に用いた、各フラグメントの識別が知られている。中でも、Casbon(2011)Nucl.Acids Res.22 e81およびFuら(2011)Proc.Natl Acad.Sci.USA 108:9026-31を参照のこと。分子バーコードは、米国特許出願公開第2015/0044687号、第2015/0024950号、および第2014/0227705号、および米国特許第8,835,358号および第7,537,897号、ならびに他の種々の刊行物にも記載されている。
【0170】
分子UFI配列は、好ましくは、cfDNAの抽出後にcfDNAに末端結合されるアダプター中に組み込まれる。アダプターは、追加のUFI配列、例えば、サンプルUFI配列、鎖識別子UFI配列またはその両方を含むように構築され得る。
【0171】
無細胞核サンプル中のDNAのヒドロキシメチル化プロファイルを確認するための他の方法は、2018年2月14日に出願された米国特許仮出願第62/630,798号(Arensdorf、発明の名称「Methods for the Epigenetic analysis of DNA,particularly Cell-Free DNA」)、および米国特許出願公開第2017/0298422号(Songら)に記載されており、どちらも参照により本明細書に援用される。これらの参考文献は、cfDNAヒドロキシメチル化プロファイルに加えて、本組み合わせワークフロー過程がcfDNAメチル化プロファイルの検出をさらに含む本発明の実施形態と併用しても有用である。
【0172】
上記方法中の選択された遺伝子座は、ヒドロキシメチル化バイオマーカー、すなわち、膵臓癌の存在、不存在またはリスクに関連する様式で異なってヒドロキシメチル化されていると本明細書において識別された遺伝子座である。実施例1において確立されるように、本方法と併用して特に有用である特定のヒドロキシメチル化バイオマーカーには、(染色体位置と共に)表1に記載されているものが含まれるが、これらに限定されない。
【0173】
【0174】
実施例1に記載されている実験作業は、5hmCが異なって発現される数千の遺伝子を特定したが、上記のグループは、Elastic Net正則化(glmnetF)またはLasso正則化(glmnet2F)を使用して厳密にフィルタリングされた最も重要な遺伝子の組を表している。上記111個の遺伝子は、本明細書の実施例1において説明されているように、膵臓の発達(GATA4、GATA6、PROX1およびONECUT1)および/または癌の発達(YAP、TEAD1、PROX、ONECUT1、ONECUT2、IGF1およびIGF2)に関連する生物学を示すことが見出された。表2は、glmnetFを使用して識別された遺伝子を示し、表3は、glmnet2Fを使用して識別された遺伝子を示している。
【0175】
【0176】
【0177】
本発明の方法と併用して有用である他のヒドロキシメチル化バイオマーカーは、位置およびglmnet値とともに
図21に示されている611の遺伝子である(実施例2において、研究グループ2を用いて識別された)。このグループ内で特に興味深い可能性のあるヒドロキシメチル化バイオマーカーは、同じく位置およびglmnet値とともに表4に示されている41のバイオマーカーである(実施例3において、研究グループ3から得られた)。
【0178】
【0179】
表4の41のヒドロキシメチル化バイオマーカーに関する詳細な情報を提供する
図22も参照されたい。
【0180】
核酸のヒドロキシメチル化プロファイルを検出するための1つの好ましい方法は、国際特許出願公開WO2017/176630(Quakeら)に記載されており、その全体が参照により本明細書に援用される。この方法は、シーケンシングスキームの過程のうちで、無細胞DNA中の5-ヒドロキシメチルシトシンパターンの検出に関わる。アフィニティータグは、無細胞DNAのサンプル中の5hmC残基に付加され、このタグがつけられたDNA分子は、次いで富化およびシーケンシングされ、5hmCの位置が識別される。この方法の例は、Quakeらの文献に記載されているように、まず無細胞サンプル中の末端が平滑で、アダプターが結合した二本鎖DNAフラグメントを修飾して、アフィニティータグとしてビオチンを5hmC残基に共有結合で結合することを含む。これは、6位においてアジド部分で官能化されたウリジン二リン酸(UDP)グルコースで5hmC残基を選択的にグルコシル化することによって実行され得、この工程の後に、アダプター中の5hmC含有キャプチャー配列に関して、セクション5で前述したように、「クリックケミストリー」反応によるアルキン官能化ビオチンとの自発的な1,3-環化付加反応が起こる。これらのビオチン化5hmC残基を含むDNAフラグメントは、次いで「富化」工程においてストレプトアビジンビーズによって捕獲することができるアダプター連結dsDNAテンプレート分子である。
【0181】
ショットガンシーケンシングを通じたゲノム全域のカバレッジが(一般的には、コスト上の理由から)必要とされないまたは望ましくない場合、特定のヒドロキシメチル化バイオマーカーおよび関心対象の遺伝子座を定量化するために、富化後、標的化された検出アプローチおよび非シーケンシング検出アプローチのいずれもが使用され得る。たとえば、5hmCの富化後に、特定の領域のみをカバーする標的化されたPCRアンプリコンが5hmC富化されたテンプレートから作製され、より狭いゲノムカバレッジアプローチとして利用され、シーケンシングへの入力として使用されまたは直接検出され得る。
【0182】
より少数の離散した遺伝子座に関心がある場合、これらの富化後アプローチと標的増幅の組み合わせも、各サンプルに対して必要とされるシーケンシング読み取りデータの数(およびシーケンシングのコスト)を削減するための効率的な方法であり得、シーケンシング実行当たりのさらなるサンプル多重化を可能にし、各サンプルに対して必要とされるシーケンシングコストをさらに削減する)。非シーケンシングアプローチでは、(たとえば、直接的蛍光ヌクレオチド標識化およびマイクロアレイまたはその他の基質捕捉および結合を使用して)定量的PCRまたはハイブリダイゼーションアッセイ自体をヒドロキシメチル化バイオマーカーの定量的読み出し情報として使用することができ、このようなアプローチは当技術分野において周知であり、しばしば数百または数千もの短いアンプリコンに拡大される。
【0183】
本方法においては、増幅、プーリングおよびシーケンシング後に、得られた配列読み取りデータからヒドロキシメチル化プロファイルに関する情報を推定することができるように、捕獲されたアダプター連結dsDNAテンプレート分子の末端に5hmC UFI配列が付加される。すなわち、配列読み取りデータを分析して、cfDNAにおけるヒドロキシメチル化されている配列を定量的に決定してもよい。これは、配列読み取りデータをカウントすることによって、または、それに代えて、増幅の前に、配列の断片化切断点および/または配列が同様の分子UFIを有するかどうかに基づいて、元の出発分子の数をカウントすることによって行ってもよい。分子UFI配列(または場合によって呼ばれるような「分子バーコード」)を、フラグメントの他の特徴(例えば、切断点を規定する、フラグメントの末端配列)と共に用いた、中でも、Casbon(2011)Nucl.Acids Res.22 e81およびFuら(2011)Proc.Natl Acad.Sci.USA 108:9026-31を参照のこと。分子バーコードは、米国特許出願公開第2015/0044687号、第2015/0024950号、および第2014/0227705号、および米国特許第8,835,358号および第7,537,897号、ならびに他の種々の刊行物にも記載されている。
【0184】
無細胞核酸サンプル中のDNAのヒドロキシメチル化プロファイルを確認する他の方法は、Arensdorfらの国際特許出願公開WO2019/160994 A1、「Methods for the Epigenetic Analysis of DNA,particularly Cell-Free DNA」およびSongらの米国特許出願公開第2017/0298422号に記載されており、これらはいずれも参照により本明細書に援用される。これらの参考文献は、cfDNAヒドロキシメチル化プロファイルに加えて、本組み合わせワークフロー過程がcfDNAメチル化プロファイルの検出をさらに含む本発明の実施形態と併用しても有用である。
【0185】
国際特許出願公開WO2019/160994に記載されているArensdorfらの方法論は、本結合ワークフロー過程の文脈において、以下のように実行することができる。
【0186】
デュアルビオチン技術:無細胞核酸サンプルが生物学的サンプルから抽出され、cfDNAがアダプター連結された後、cfDNA中の5hmC残基は、アフィニティータグ、例えば、本明細書で前述したようなビオチン部分で選択的に標識される。ビオチン化は、前述のように、βGTによって触媒されるウリジンジホスホグルコース-6-アジドでのグルコシル化、これに続く、アルキン官能化ビオチン部分を共有結合させるためのクリックケミストリー反応による5hmC残基の選択的官能化によって実施することができる。次に、アビジンまたはストレプトアビジン表面(例えば、ストレプトアビジンビーズの形態の)を使用して、5hmC位置でビオチン化されたすべてのdsDNAテンプレート分子を取り出し、次いで、増幅中にUFI配列を付着させるために別の容器に入れる。上清中の残存するdsDNAテンプレート分子は、5mC残基を有するまたは修飾を有さないフラグメントである(後者のグループにはcfRNAから生成されたcDNAが含まれる)。次に、TETタンパク質を使用して、上清中の5mC残基を5hmCに酸化し、この場合には、5mCの酸化がヒドロキシル化を超えて進行しないようにするために、TET変異体タンパク質が使用される。この目的に適したTET変異体タンパク質は、Liuら、(2017)Nature Chem.Bio.13:181-191に記載されており、参照により本明細書に援用される。次いで、βGTによって触媒されるグルコシル化とそれに続くビオチン官能化が繰り返される。このようにマークされた-元の5mC位置のそれぞれにおいてビオチン化された-フラグメントは、ストレプトアビジンビーズで捕獲される。次に、ビーズに結合したDNAフラグメントは、増幅中に、第1の工程において使用されたものすなわち5mC UFI配列よりもUFI配列でバーコードが付けられる。未修飾のDNAフラグメント、つまり修飾されたシトシン残基を含有しないフラグメントは、この時点で、上清中に残存する。所望であれば、メチル化されていないDNA鎖にハイブリダイズさせるために、配列特異的プローブを使用することができる。その結果生じるハイブリダイズした複合体は、前述のように、増幅の間に取り出され、さらなるUFI配列でタグ付けすることができる。
【0187】
Pic-Borane法:これはデュアルビオチン技術の代替手段であり、同じくアダプター連結DNAフラグメント中の5hmC残基のビオチン化から始まり、アビジンまたはストレプトアビジン捕獲が続く。しかしながら、この技術では、上清中に残存する未修飾の5mC残基を含有するDNAは、5hmCを超えて5caCおよび/または5fC残基まで酸化される。酸化は、触媒的に活性なTETファミリー酵素を使用して酵素的に実施し得る。本明細書で使用される「TETファミリー酵素」または「TET酵素」という用語は、米国特許第9,115,386号において定義されているとおりの触媒的に活性な「TETファミリータンパク質」または「TET触媒活性フラグメント」を指し、その開示は、参照により本明細書に援用される。この文脈において好ましいTET酵素はTET2であり、Itoら、(2011)Science 333(6047):1300-1303を参照されたい。酸化は、化学的酸化剤を使用して、化学的に実施することもできる。適切な酸化剤の例としては、過ルテニウム酸カリウム(KRuO4)などの過ルテニウム酸金属塩、過ルテニウム酸テトラプロピルアンモニウム(TPAP)および過ルテニウム酸テトラブチルアンモニウム(TBAP)などの過ルテニウム酸テトラアルキルアンモニウム塩、およびポリマー支持過ルテニウム酸塩(PSP)を含む、無機または有機過ルテニウム酸塩の形態の過ルテニウム酸陰イオン;ならびにペルオキソタングスタートまたは過塩素酸銅(II)/TEMPOの組み合わせなどの無機ペルオキソ化合物および組成物が挙げられるが、これらに限定されない。この過程の次の工程において、5fC残基と5caC残基の両方がジヒドロウラシル(DHU)に変換される限り、この時点で5fC含有フラグメントを5caC含有フラグメントから分離することは必要でない。
【0188】
すなわち、5mC残基を5fCおよび5caCに酸化した後、酸化された5mC残基を還元し、脱アミノ化し、脱炭酸または脱ホルミル化するために有機ボランが添加される。得られたdsDNAテンプレート分子は、元の5mC残基の代わりにDHUを含有し、同じサンプルに由来する他のdsDNAテンプレート分子とともに、増幅し、プールし、配列決定することができる。
【0189】
有機ボランは、ボランと、窒素複素環および第三級アミンから選択される窒素含有化合物との複合体として特徴付けることができる。窒素複素環は、単環式、二環式または多環式であり得るが、典型的には、窒素ヘテロ原子と、必要に応じてN、OおよびSから選択される1またはそれを超える追加のヘテロ原子とを含有する5員または6員環の形態の単環式である。窒素複素環は、芳香族または脂環式であり得る。本明細書における好ましい窒素複素環には、2-ピロリン、2H-ピロール、1H-ピロール、ピラゾリジン、イミダゾリジン、2-ピラゾリン、2-イミダゾリン、ピラゾール、イミダゾール、1,2,4-トリアゾール、1,2,4-トリアゾール、ピリダジン、ピリミジン、ピラジン、1,2,4-トリアジンおよび1,3,5-トリアジンが含まれ、これらのいずれもが、非置換であり得または1もしくはそれを超える非水素置換基で置換され得る。典型的な非水素置換基は、アルキル基、特にメチル、エチル、n-プロピル、イソプロピル、n-ブチル、イソブチル、t-ブチルなどの低級アルキル基である。例示的な化合物には、ピリジンボラン、2-メチルピリジンボラン(2-ピコリンボランとも呼ばれる)および5-エチル-2-ピリジンが含まれる。これらの有機ボランおよび酸化された5mC残基をDHUに変換するためのそれらの反応に関するさらなる情報は、上記で引用されたArensdorf特許出願公開中に見出すことができる。
【0190】
ビオチン/ネイティブ5mC富化法:これはデュアルビオチン技術の代替手段であり、アダプター連結DNAフラグメント中の5hmC残基のビオチン化から始まり、アビジンまたはストレプトアビジン捕獲が続く。ただし、ここでは、ネイティブ5mC含有フラグメントを捕捉および捕獲するために、上清中に残存するメチル化DNAを修飾することに代えて、抗5mC抗体またはMBDタンパク質を使用する。この技術は、同じサンプルに由来する他のdsDNAテンプレート分子とともに増幅、プールおよび配列決定することができるdsDNAテンプレート分子の生成をもたらさない限り、本明細書ではあまり好ましくない。
【0191】
3.使用の方法
【0192】
前のセクションで説明したように、本発明は、一実施形態において、識別された膵臓病変を有する患者が膵臓癌を有するリスクを予測するための方法を提供する。ヒドロキシメチル化プロファイルの診断的、予後的および予測的使用、ならびに患者のモニタリング、処置選択肢の評価および処置効果の評価における使用も提供され、各使用方法において、作成されたヒドロキシメチル化プロファイルは臨床パラメーターと組み合わされ、各使用方法において1またはそれを超えるその他の危険因子と必要に応じて組み合わされる。すべての方法は、複数のヒドロキシメチル化バイオマーカー遺伝子座のそれぞれにおけるヒドロキシメチル化レベルの測定を含むヒドロキシメチル化プロファイルの作成を伴う。
【0193】
提供される診断、予後および予測の方法の中には、検出されたヒドロキシメチル化情報を分析するために統計解析および生物数学的アルゴリズムおよび予測モデルを利用する方法が存在する。いくつかの実施形態は、分類、ステージ分類、予後、処置設計、処置選択肢の評価、結果の予測(例えば、転移の発生の予測)などにおいてヒドロキシメチル化情報を分析するための方法およびシステムを含む。
【0194】
処置に対する患者の反応および患者固有のまたは個別化された処置戦略の評価を含む、処置開発および患者モニタリングにおいて、バイオマーカー遺伝子座におけるヒドロキシメチル化レベルの評価を使用する方法も提供される。いくつかの実施形態では、これらの方法は、例えば、処置の前および/または後に毎週または毎月ヒドロキシメチル化プロファイルを作成することによって、処置とともに使用される。特定のバイオマーカー遺伝子座におけるヒドロキシメチル化レベルは、疾患の進行、処置の無効性もしくは有効性、および/または疾患の再発もしくは再発の欠如と相関するので、長期間のモニタリングまたは処置期間内にヒドロキシメチル化プロファイルを定期的に作成することが有用である。いくつかの態様において、得られた情報は、異なる処置戦略が好ましいことを示し得る。したがって、処置前にバイオマーカー評価が行われ、その後、治療効果をモニターするために使用される治療方法が本明細書において提供される。
【0195】
より具体的には、処置を開始または再開した後のさまざまな時点で、1またはそれを超えるバイオマーカー遺伝子座においてヒドロキシメチル化レベルの有意な変化が見られることがあり、治療戦略が成功しているもしくは成功していないこと、疾患が再発していること、または異なる治療アプローチを使用すべきことを示す。いくつかの実施形態では、例えば、従前のアプローチに加えてもしくはそれに代えて、異なる治療的介入を追加することによって、アプローチの攻撃性もしくは頻度を増加もしくは減少させることによって、または処置レジメンを停止もしくは再開することによって、治療戦略は、ヒドロキシメチル化分析後に変更される。
【0196】
別の態様において、膵臓癌の存在または膵臓癌を初めて発症するリスクを識別するために、バイオマーカー遺伝子座のそれぞれにおけるヒドロキシメチル化レベルが使用される。
【0197】
いくつかの態様において、これらの方法は、完全寛解または安定した疾患を示すと臨床的に分類される対象など、アッセイされた患者が処置に対して応答性であるか否かを決定する。いくつかの態様において、処置応答性および非応答性の患者を区別するための方法、ならびに安定した疾患を有する患者または完全寛解にある患者、および進行性疾患を有する患者を区別するための方法が提供される。
【0198】
様々な態様において、これらの方法およびシステムは、少なくとも65、70、75、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99もしくは100%または少なくとも約65、約70、約75、約80、約81、約82、約83、約84、約85、約86、約87、約88、約89、約90、約91、約92、約93、約94、約95、約96、約97、約98、約99もしくは約100%の正しいコールレート(すなわち、正確度)、特異度または感度でそのようなコールを行う。
【0199】
前述の方法のすべてが本発明によって包含される。本明細書における好ましい方法には、以下が含まれるが、これらに限定されない。
【0200】
患者中の識別された膵臓病変が癌性であるリスクを評価するための方法;
【0201】
経時的なヒドロキシメチル化の変化の分析を含む、患者中の識別された膵臓病変をモニタリングするための方法、;
【0202】
ヒドロキシメチル化プロファイルに基づく処置選択肢の評価を含む、識別された膵臓病変を有する患者を管理するための方法;
【0203】
長期間のモニタリング期間内に選択された時間間隔で作成されたヒドロキシメチル化プロファイルの分析を含む、識別された膵臓病変を有する患者における処置の有効性をモニタリングするための方法;
【0204】
ヒドロキシメチル化プロファイルを使用して膵臓病変が癌性であるリスクを評価することにより、膵臓病変の不必要な外科的切除を低減するための方法;および
【0205】
識別された膵臓病変を有さない患者が膵臓癌を発症するリスクを識別するための方法。
【0206】
4.統計解析、数学的アルゴリズムおよび予測モデル:
【0207】
典型的には、本発明の方法は、ヒドロキシメチル化プロファイルを作成および比較するための本方法を使用して得られたデータなどの、高次元および多峰性の生物医学的データを解析するために使用される統計解析および数学的モデル化を含む。より具体的には、これらの方法は、1またはそれを超える、客観的アルゴリズム、モデルおよび地形的、パターン認識ベースのプロトコルに基づく数学的解析を含む解析方法、例えば、サポートベクトルマシン(SVM)、線形判別分析(LDA)、単純ベイズ(NB)、K近傍(KNN)プロトコル、ならびに決定木、パーセプトロンおよび正則化判別分析(RDA)などのその他の教師あり学習アルゴリズムおよびモデル、および本分野において周知の類似のモデルおよびアルゴリズムを使用する(Gallant S I,“Perceptron-based learning algorithms,”Perceptron-based learning algorithms 1990;1(2):179-91)。
【0208】
統計解析は、平均(M)、例えば、幾何平均、標準偏差(SD)、幾何倍率変化(FC)などを決定することを含む。ヒドロキシメチル化レベルの差が有意とみなされるかどうかは、周知の統計的アプローチによって、典型的には、例えば、参照ヒドロキシメチル化プロファイル中の同じヒドロキシメチル化バイオマーカー遺伝子座におけるヒドロキシメチル化レベルと比べて、ヒドロキシメチル化プロファイル中のバイオマーカーヒドロキシメチル化のレベルがそれぞれ有意に増加または減少したと考えられる場合に、差が有意とみなされる、閾値p値(例えば、p<0.05)、閾値S値(例えば、±0.4、S≦-0.4またはS>0.4)またはその他の値などの閾値を特定の統計的パラメーターに対して指定することによって決定され得る。
【0209】
一態様において、本発明の方法は、正常なサンプルと癌性サンプルを区別し、疾患または疾患の転帰の様々なサブタイプ、ステージおよびその他の側面を区別するために、数学的定式化、アルゴリズム、またはモデルを適用する。別の態様において、これらの方法は、予測、分類、予後および処置のモニタリングおよび設計のために使用される。
【0210】
ヒドロキシメチル化レベルまたはその他の値の比較のために、データは圧縮される。圧縮は、典型的には、主成分分析(PCA)または高次元データの構造を視覚化するための類似の技法によって行われる。PCAは、データの次元(たとえば、測定された発現値)を、分散の約50、60、70、75、80、85、90、95または99%など、データ中の分散の大部分を説明するまたは代表する無相関主成分(PC)へと低下させるために使用される。PCAによって、バイオマーカーレベルの視覚化および正常なサンプルまたは参照サンプルと試験サンプルの間などでのヒドロキシメチル化プロファイルの比較が可能になる。PCAマッピング、たとえば3成分PCAマッピングは、1番目、2番目および3番目のPCをそれぞれx軸、y軸およびz軸に割り当てることによってなど、視覚化のためにデータを3次元空間にマッピングするために使用される。
【0211】
いくつかの実施形態では、2またはそれを超えるバイオマーカーのヒドロキシメチル化レベルの間に線形相関が存在する。バイオマーカーのヒドロキシメチル化レベル間など、値のペア間の線形関係(相関)を評価するために、ピアソンの相関(PC)係数が使用され得る。この解析は、(個々の類似度マトリックスのx軸およびy軸上にプロットされた)バイオマーカーの個々のペアに対してPC係数を計算することにより、発現パターンの分布を線形分離するために使用され得る。(R2>0.50、または0.40)の高度に線形な相関に対する閾値など、様々な程度の線形相関に対して、閾値が設定され得る。線形分類器は、データセットに対して適用することができる。一例では、相関係数は1.0である。
【0212】
いくつかの実施形態では、ヒドロキシメチル化バイオマーカーデータセットなどのデータセットから最も冗長な特徴を除去するために、特徴選択(FS)が適用される。FSは、汎化能力を強化し、学習過程を加速し、モデルの解釈可能性を向上させる。一態様では、FSは、「貪欲前向き」選択アプローチを用いて利用され、ロバストな学習モデルのために最も関連する特徴のサブセットを選択する。(Peng H,Long F,Ding C,“Feature selection based on mutual information:criteria of max-dependency,max-relevance, and min-redundancy,”IEEE Transactions on Pattern Analysis and Machine Intelligence,2005;27(8):1226-38)。いくつかの実施形態では、SVMアルゴリズムは、n個のデータセット間のマージンを増やすことによってデータの分類のために使用される(Cristianini N,Shawe-Taylor J.An Introduction to Support Vector Machines and other kernel-based learning methods.Cambridge:Cambridge University Press,2000)。
【0213】
本明細書におけるヒドロキシメチル化バイオマーカーの解析的分類は、サンプル(例えば、患者から得られたcfDNAサンプル)が所与のクラスに属する確率(例えば、膵臓癌を発症するリスクの上昇)を決定するための閾値を設定する予測モデル化方法に従って行うことができる。確率は、好ましくは、少なくとも50%、または少なくとも60%、または少なくとも70%、または少なくとも80%またはそれより高い。分類は、取得したデータセットと参照データセット間の比較が統計的に有意な差を与えるかどうかを判定することによっても行うことができる。その場合、データセットがそこから取得されたサンプルは、参照データセットクラスに属していないものとして分類される。逆に、そのような比較が参照データセットと統計的に有意に異ならない場合、データセットがそこから取得されたサンプルは、参照データセットクラスに属するものとして分類される。
【0214】
モデルの予測能力は、特定の値または値の範囲の品質評価指標、例えば、AUROC(ROC曲線下面積)または正確度を与えるその能力に従って評価することができる曲線下面積尺度は、全データ範囲にわたって識別子の正確度を比較するのに有用である。より大きなAUCを有する識別子は、関心対象の2群間に未知のものを正しく分類する能力がより高くなる。いくつかの実施形態において、所望の品質閾値は、少なくとも約0.7、少なくとも約0.75、少なくとも約0.8、少なくとも約0.85、少なくとも約0.9、少なくとも約0.95またはそれより高い正確度でサンプルを分類する予測モデルである。代替の尺度として、所望の品質閾値は、少なくとも約0.7、少なくとも約0.75、少なくとも約0.8、少なくとも約0.85、少なくとも約0.9の、またはそれより高いAUCを有するサンプルを分類する予測モデルを参照することができる。
【0215】
当技術分野において公知であるように、予測モデルの相対的な感度および特異度は、選択性測定指標または感度測定指標のいずれかを優先するように調整することができ、2つの測定指標は逆相関の関係を有する。上記のモデルの限界は、実行されている試験の特定の要件に応じて、選択された感度または特異度レベルを与えるように調整することができる。感度および特異度の一方または両方は、少なくとも約0.7、少なくとも約0.75、少なくとも約0.8、少なくとも約0.85、少なくとも約0.9、少なくとも約0.95、少なくとも約0.98、少なくとも約0.99、またはそれより高くすることができる。
【0216】
各バイオマーカーに対するヒドロキシメチル化レベルを測定することによって、生データを最初に解析することができる。データは操作する(manipulate)ことができ、例えば、生データは標準曲線を使用して変換することができ、複数の測定の平均を求めた場合、各患者に対する平均および標準偏差を計算するために複数の測定の平均を使用することができる。次に、選択された予測モデルにデータを入力し、予測モデルがサンプルを分類する。結果として得られる情報は、通常、書面による報告の形で、患者または医療従事者に伝達することができる。
【0217】
膵臓癌の予測モデルを作成するために、既知の対照サンプルと膵臓癌に対応するサンプルとを含む堅牢なデータセットがトレーニングセットにおいて使用される。サンプルサイズは、一般的に受け入れられている基準を使用して選択することができる。上で論述したように、非常に正確な予測モデルを取得するために、様々な統計手法を使用することができる。本明細書の実施例は、代表的なそのような解析を提供する。
【0218】
一実施形態では、予測モデルの導出において、階層的クラスタリングが実行され、ここでは、ピアソン相関がクラスタリング測定指標として使用される。1つのアプローチは、データセットを「教師あり学習」の課題における「学習サンプル」と見なすことである。CARTは、医学への応用における標準であり(Singer,Recursive Partitioning in the Health Sciences(Springer,1999))、定性的特徴を定量的特徴に変換し、達成された有意水準によってソートし、次いで選択した正則化方法を適用することによって改変することができる(例えば、Elastic NetまたはLasso)。
【0219】
いくつかの実施形態において、予測モデルは、アイテムに関する観察をそのターゲット値に関する結論にマップする決定木を含む(Zhangら、“Recursive Partitioning in the Health Sciences,”in Statistics for Biology and Health(Springer,1999.)。ツリーの葉は分類を表し、枝は個々の分類に移行する(devolve)特徴の組み合わせを表す。
【0220】
予測モデルおよびアルゴリズムには、フィードフォワードニューラルネットワークを形成し、入力変数をバイナリ分類子にマップする線形分類器であるパーセプトロンがさらに含まれ得る(Gallant(1990),“Perceptron-based learning algorithms,”in IEEE Transactions on Neural Networks 1(2):179-191)。このモデルでは、学習率は学習速度を調整する定数である。学習率が低いほど分類モデルが改善されるが、変数を処理する時間が長くなる(Markeyら、(2002)Comput Biol Med 32(2):99-109)。
【0221】
以下の実施例によって、本発明のこれらおよび他の態様をさらに説明および例示する。
【実施例0222】
[実施例1]
(a)研究デザインおよび臨床コホート:
【0223】
膵管腺癌を有さないまたは有する対象からの血漿検体を、米国およびドイツの異なる地理的地域の複数の施設において収集した。この研究グループ、研究グループ1には、41人のPDAC患者と51人の非癌対象が含まれていた。これらのPDACおよび非癌患者サンプルは、研究参加基準を満たしており、基準には、18歳の最小対象年齢の他、癌コホート中の対象については、外科的切除の時点での任意のサブタイプの腺癌の確認された病理学的診断が含まれた。非癌コホートは、研究参加基準を満たしていると確認され、患者はあらゆる形態の癌に対して明確に陰性であった。いずれのコホートも、採血時に疾患用の薬物で処置されていなかった。2つのコホート間で対象の年齢または性別に統計的に有意な差は存在しなかったが、喫煙が膵臓癌の一般的な危険因子であることを考慮すると予想されるとおり、PDACコホートでは統計的に有意に高いタバコ曝露が存在した。癌コホートおよび非癌コホートの臨床的特徴を表5に示す。
【0224】
【0225】
(b)シーケンシング結果および測定指標:
【0226】
Quakeらの国際特許出願公開WO2017/176630、Songら、(2011)29:68-72およびHanら、(2016)Mol.Cell 63:711-19に記載されている無細胞「5hmC-Seal」法を使用して、5hmC富化されたライブラリーを調製し、これらの開示は参照により本明細書に援用される。簡単に説明すると、hMe-Sealは、選択的化学標識に基づく低入力の全ゲノム無細胞5hmCシーケンシング法であり、シーケンシングのために5hmC含有DNAフラグメントを捕獲するために、β-グルコシルトランスフェラーゼを使用して、アジド修飾されたグルコースを介して5hmCをビオチン部分で選択的に標識する。本事例においてhMe-Sealを実施する際には、まず、cfDNAにシーケンシングアダプターを結合した後、β-GTで5hmCを選択的に標識し、ストレプトアビジンビーズを使用してビオチン標識5hmCを含有するDNAフラグメントを選択的に捕獲することによってアフィニティー富化した。次に、精製中のサンプル損失を最小限に抑えるために、ビーズから直接(すなわち、捕捉されたDNAを溶出する代わりに)PCRを実行した。PDACコホートおよび非癌コホートにおいて、それぞれ910万および1070万のユニークなリードペアの中央値が生成された。高品質の5hmCライブラリーの判定を可能にするためのフィルタリング基準は、以前の研究(Fonsecaら、(2018)、上記)から確立され、膵臓癌群で51、非癌群で41が得られた。広範な分析によって、いずれの研究コホートにおいても明確に発生するバッチ処理の影響は明らかにならなかった。
【0227】
(c)機能的領域への5hmC密度のコホートをベースとした分布:
【0228】
読み取り密度の増加によって測定され、MACS2によってピークとして検出されたところによると、5hmC遺伝子座の大部分は、
図3に図示されているように、概ね、ゲノムの非コーディング遺伝子内領域、すなわち、イントロン、トランスポゾンリピート-SINEおよびLINE、ならびに遺伝子間に発生することが見出され、いずれの1つの疾患コホート中にも選好的な5hmC分布は存在しない。これらの領域は、低い5hmC富化(イントロン、
図4)または5hmC部位の枯渇(遺伝子間およびLINE要素、
図4)さえ示した。代わりに、5hmC富化は、ゲノムバックグラウンドと比較して測定すると、プロモーター、UTR、エクソン、転写終結部位(TTS)およびSINE要素においてより頻繁に発生した。機能的領域中での5hmCピークの富化の著しい相違が、疾患コホート特異的な様式で観察された。エクソン、3’UTRおよびTTSでは、PDACの富化の増加が測定されたのに対して、プロモーターおよびLINEでは減少が認められ、プロモーターおよびLINE自体はそれぞれ5hmC富化されまたは5hmC枯渇された(
図5)。これらの全体的な変化は、各コホートにおいて統計的に有意な様式で発生することが見出され、また、癌のステージ特異的な様式で発生することも見出され、後期ステージの患者で徐々に増加(エクソン、3’UTRおよびTTS)または減少(プロモーターおよびLINE)した(
図6)。
【0229】
PANC-1細胞株から得た既存のヒストンマップを使用して、5hmC占有度との関連で、ヒストンタンパク質に対するメチル化およびアセチル化などの化学修飾が推測された(LeRoyら、(2013)Epigenetics&Chromatin 6:20を参照)。特に、PDACでは、それぞれ転写を活性化および不活化するH3K27AcおよびK3K27Me3遺伝子座における5hmCの減少と相まって、5hmCの減少が転写活性化のマークであるH3K4Me3遺伝子座と一致して見られた(ただし、H3K4Me1では減少は見られない)(
図7)。H3K4Me3、H3K27AcおよびH3K27Me3の統計的に有意な変化はすべて、非癌コホートと比較して、後期PDAC患者において継続的な低下を示した。H3K27Acマークは、癌コホートと非癌コホートの両方で5hmC占有の密度が最も高く、Panc1細胞株ヒストンマップとの類似性が最も高かった(
図8A)。逆に、H3K27Me3は、両コホートで最も低い5hmC占有の密度を示し、PANC-1細胞株ヒストンマップとの類似性が最も低かった(
図8B)。
【0230】
(d)血漿サンプルからの疾患特異的遺伝子の識別:
【0231】
遺伝子中の5hmC密度の差次的分析により、非癌サンプルと比較して、5hmC密度がPDACにおいてそれぞれ増加および減少した6,496および6,684個の遺伝子が明らかになった(
図11)。この遺伝子セットのさらなるフィルタリングによって(PDAC対非癌での倍数変化≧|1.5|、平均log 2CPM≧4カウント、合計142遺伝子)、増加した5hmC密度を有し、その生物学が膵臓の発達に関連し(GATA4、GATA6、PROX1、ONECUT1)および/または癌に関与する(YAP1、TEAD1、PROX1、ONECUT2/ONECUT1、IGF1およびIGF2)注釈付き遺伝子が明らかとなった。富化された5hmC密度を有する142の遺伝子を含む関連経路に対するMolecular Signatures Database(MSigDB)の検査によって、肝臓癌において下方制御される経路が数的に優勢であることが明らかになった(表6に示されているように、上位10の最も顕著な経路のうち5つ)。フィルタリング(PDAC対非癌での倍数変化≧|1.5|および5hmCのlogCPM≧4)と組み合わせた示差表現解析によっても、膵臓癌cfDNA中で減少した5hmC密度を有する178個の遺伝子が明らかになった(表7)。減少した5hmc表現を有するこれらの経路を詳しく調べると、免疫系制御における基本的な経路が明らかになった(表6に示されているように、上位10の最も顕著な経路のうち3つ)。膵臓癌は、通例、5年生存率が8.2%であるなど疾患の予後が悪い後期に診断される。より早期の診断は、外科的切除または治療レジメンのより早期の適用を可能にすることによって有益であろう。上記の例は、非癌コホートと比較して、PDACコホートの血漿中の循環無細胞DNAの5-ヒドロキシメチル化シトシン状態の変化を調べることにより、膵臓腺癌を非侵襲的に検出できることを示している。本発明者らは、5hmC部位が、エクソン、3’UTRおよび転写終結部位において、疾患特異的およびステージ特異的な様式で富化されることを見出した。
【0232】
すべての遺伝子の完全なデータセットを含むように遺伝子セット富化分析を拡張することによって、免疫関連経路の30%超が初期および後期PDAC全体にわたって5-ヒドロキシメチル化を低下させたことが明らかになった(
図10)。5hmCカウントに統計的に有意な変動がある13,180個の遺伝子(
図11)、またはPDACにおける5hmC表現の両極でフィルタリングされた320個の遺伝子(
図12)のいずれかを使用した主成分分析(PCA)により、PDACサンプルが非癌サンプルから同じようにうまく分割されることが明らかとなり、生物学的に適切で、統計的にフィルタリングされた遺伝子セットを用いると、分割シグナルの喪失がないことを示している。
表6:非癌サンプルと比較してPDACサンプルにおいて増加した5hmC密度を有する142個の遺伝子によって表される上位10の経路(Collinら、(2018),“Detection of Early Stage Pancreatic Cancer Using 5-Hydroxymethylcytosine Signatures in Circulating Cell-Free DNA,”,bioRxiv,doi:https://dx.doi.org/10.1101/422675も参照、参照により本明細書に援用される):
【表6】
*遺伝子セット名:
1:SERVITJA_LIVER_HNF1A_TARGETS_DN
2:LEE_LIVER_CANCER
3:GO_SMALL_MOLECULE_METABOLIC_PROCESS
4:HSIAO_LIVER_SPECIFIC GENES
5:HOSHIDA_LIVER_CANCER_SUBCLASS_S3
6:ACEVEDO_LIVER_TUMOR_VS_NORMAL_ADJACENT7:GO_LIPID_METABOLIC_PROCESS
8:GO_ORGANIC_ACID_METABOLIC_PROCESS
9:GO_RESPONSE_TO_ENDOGENOUS_STIMULUS
10:VECCHI_GASTRIC_CANCER_EARLY_DN
表7:非癌サンプルと比較してPDACサンプルにおいて減少した5hmC密度を有する178個の遺伝子によって表される上位10の経路(上記のCollinら、(2018)も参照):
【表7】
*遺伝子セット名:
1:REACTOME_HEMOSTASIS
2:GO_REGULATION_OF_IMMUNE_SYSTEM_PROCESS3:WIERENGA_STATSA_TARGETS_DN
4:GO_IMUNE_SYSTEM_PROCESS
5:GO_REGULATION_OF_BODY_FLUID_LEVELS
6:GO_CELL_ACTIVATION
7:GO_POSITIVE_REGULATION_OF_IMMUNE_SYSTEM_PROCESS
8:GO_REGULATION_OF_CELL_ACTIVATION
9:REACTOME_PLATELET_ACTIVATION_SIGNALING_AND_AGGREGATION
10:GO_REGULATION_OF_CELL_ADHESION
【0233】
統計的にフィルタリングされた遺伝子中の5hmC密度または極めて可変的な遺伝子数の包括的なセットを使用して、正則化された回帰モデルを構築し、トレーニングデータに対してAUC=0.94~0.96で実行した。本発明者らは、2つの外部膵臓癌5hmCデータセットに対してelastic netおよびlassoモデルを用いてPDACと非癌サンプルを分類する能力を試験し、検証性能がAUC=0.74~0.97であることを見出した。この発見は、5hmCの変化によって、高い忠実度でのPDAC患者の分類が可能になることを示している。
【0234】
(e)cfDNAにおける膵臓癌の検出のための予測モデル:
【0235】
患者サンプルの分類を可能にする遺伝子ベースの特徴がPDACおよび非癌コホート中に存在するかどうかを決定するために、正則化されたロジスティック回帰分析を実行した。92の患者サンプルの完全なセットを、患者データのそれぞれ75%と25%を含むトレーニングセットと試験セットに分割し、最も変動する5hmCカウントを有する遺伝子の65%をモデル選択のために使用した。2つの正則化の方法、Elastic Net(glmnet)とLasso(glmnet2)を使用した(Yuら、(2016)BMC Bioinformatics 17:108)。
【0236】
いずれの正則化方法でも、フィットで使用される正則化のレベルを調節するハイパーパラメーターを指定する必要がある。ハイパーパラメーターは、トレーニングデータの10分割交差検証分析を30回繰り返したときのフォールド外性能に基づいて選択された。フォールド外評価は、交差検証分析の各工程における除外された(left-out)フォールド中のサンプルに基づいた。トレーニングセットは、0.84(elastic net)および0.88(lasso)の内部サンプル試験AUCで、0.96(elastic netおよびlasso)のフォールド外性能測定指標、Area Under
Curve(AUC)をもたらした(
図15)。確率スコアの分布は、トレーニングデータ内で両モデルが適切に分類されることを示しているが(
図16)、特異度が75%に設定されている場合、elastic netモデルを用いると誤分類されるサンプルがわずかに少なくなることが認められる、すなわち、第3四分位非癌スコアを下回る癌サンプルスコアがより少なく、同じ第3四分位非癌スコアを上回る非癌サンプルスコアがより少ない。次に、このトレーニングモデルを、患者サンプルの外部検証セットに対して試験した。これらには、Liら、(2017)Cell Research 27:1243-1257からの膵臓癌サンプル(膵臓サブタイプは識別されていない;膵臓癌を有する23人の対象、53人の健康な対象)およびSongら、(2017)Cell Research 27:1231-42(腺癌として識別された膵臓サブタイプ;膵臓癌を有する7人の対象、10人の健康な対象)が含まれる。この検証セットは、LiらのデータではAUC=0.78(elastic netとlasso)、Songら(2017)のデータではAUC=0.99(elastic net)と0.97(lasso)の性能を示した(
図12)。
【0237】
log2平均5hmC表現>4の遺伝子数の中央値表現で、PDACコホートにおいて1.5倍の差次的5hmC表現を満たすために、重要な遺伝子の初期セット(
図10)をフィルタリングすることによって、予測性能に対する特徴選択の効果を評価した。5hmCが増加した287個の遺伝子と5hmCカウントが減少した343個の遺伝子のこのセットを使用し、以前に定義したのと同様の設定をトレーニングおよび試験に対して用いて(トレーニングに対して75%のデータを使用、試験に対して25%のデータを使用)、同じ正則化回帰モデルを構築し、トレーニングセットAUC=0.96(elastic
net)および0.94(lasso)であることが明らかとなった。驚くべきことではないが、内部試験では、AUC=0.92(elastic net)および0.93(lasso)の高い性能が得られる。さらに興味深いのは、外部データセットに対する性能であり、Liらのデータに対してAUC=0.74(elastic net)および0.67(lasso)、Songら(2017)のデータに対してAUC=0.97(elastic net)および0.94(lasso)であった。このことは、膵臓癌および/または膵臓の発達に関連する生物学的信号が明らかに富化されている遺伝子は、他の箇所で示されているように(同上)、回帰トレーニングの間のアルゴリズムによって駆動される特徴の選択よりも成績がはるかに優れているわけではないことを示唆している。これらの重要な遺伝子(287で5hmCが増加、+343で5hmCが減少)の階層的クラスタリングは、スタンフォードデータセットでは膵臓癌サンプルの良好な分割を示したが、シカゴデータの分離はこれより顕著でなかった(
図16)。
【0238】
トレーニングセットデータの解析から決定されたハイパーパラメーター値を使用して、65%の最も可変的な5hmC遺伝子の特徴に適合させた最終モデルを、PDACおよび非癌サンプルのコホート全体に適合させ、これにより、109個の遺伝子(elastic net)および47個の遺伝子(lasso)を含むモデルを得た。これらのモデルは、LiらとSongら(2017)の両データセットに一致するtスコアを有することが明らかとなった(
図17)。
【0239】
考察:
【0240】
上で詳述した実験的研究は、より初期の段階で膵臓癌を検出するための分子診断試験の開発を促進するであろうcfDNA特異的なヒドロキシメチル化ベースのバイオマーカーの発見に焦点を合わせた。上で議論され、図に示されているデータは、その根底にある生物学が膵臓および癌の発達の両方と関連を示す他、ゲノムの注目される(marked)既知の機能的領域中で確立された傾向を示す異なってヒドロキシメチル化された遺伝子を検出する能力を強調している。さらに、生物学的に重要な遺伝子からのまたは正則化された回帰法からのいずれかの5hmC信号を使用することにより、外部データセット検証AUC=0.74~0.97(elastic netモデル)で、AUC=0.94~0.96の予測モデルを構築することができる。
【0241】
5hmCシグナルは、遺伝子中心的な配列種(プロモーター、エクソン、UTRおよびTTS)ならびにSINE(富化)およびLINE(枯渇)などの転位因子中において富化されていることが明らかとなった(
図3および4)。機能的領域におけるこれらのヒドロキシメチル化の変化は、結腸直腸癌、食道癌、肝臓癌および肺癌からのcfDNAにおいて報告されている(Liら、(2017)、前出;Tianら、(2018)Cell
Res 5:597-600;Caiら、(2018)、”5-Hydroxymethylcytosines from Circulating Cell-free DNA as Diagnostic and Prognostic Markers…”、bioRxiv(doi:https://doi.org/10.1101/424978)、およびZhangら、(2018)Genomics,Proteomics&Bioinformatics 16:187-199参照);ただし、PDAC特異的なヒドロキシメチル化の増大または減少は、機能的領域中には観察されなかった。機能的領域中での5hmCの富化および枯渇に加えて、エクソン、TTSおよび3’UTRにおける新規のPDAC特異的な5hmCの増加、ならびにプロモーターおよびLINE因子における5hmCの減少が存在した(
図5)。ES細胞では、プロモーター領域中の5-ヒドロメチル化の減少が遺伝子転写と関連していることが示されている(Szulwachら、(2011)PLoS Genetics 7(6):e1002154を参照)。疾患関連転写の増加は、遺伝子中心的な構造(gene-centric features)中で見られる5hmCの増加および後期PDACに向けてプロモーター領域中で5hmCが明らかに減少する傾向によって、上記のデータにおいて暗黙裡に裏付けられている(
図6)。
【0242】
クロマチンの動的変化は、細胞の発達および発癌の可能性を有する細胞の移行を調節することが示されている;Bernhartら、(2016)Scientific Reports 6,Article number 37393を参照されたい。H3K4me3遺伝子座における5hmCのPDAC特異的減少は、H3K4me1における5hmCの統計的には有意でない増加と同時に起こるように見受けられる(
図7)。これらのDNAヒドロキシメチル化パターンは、これらのパターンが占有するゲノム位置およびヒストンマークの両方において互いに相補し(
図8Aおよび8B)、H3K4me3/me1に関連する既知の促進的転写機能を考慮すると、クロマチン修飾を介した遺伝子転写の疾患特異的な増加も示唆する。公知の機能的配列のこれらの領域における5hmCパターンの精度の興味深い側面は、転写過程のエピジェネティックな制御におけるヒドロキシル化の広範な機能を示唆している。
【0243】
本研究では、注目した経路でのその増加した5hmCシグナルが肝臓癌に関係している遺伝子が識別された(表7)。MSigDBには、現在、膵臓癌に対する注釈が付された経路は含まれていない;Subramanianら、(2005)、PNAS 102:15545~50を参照されたい。遺伝子セット富化分析に対しては、大幅に減少した5hmCを有する遺伝子を使用するか、またはすべての報告遺伝子に対してGSEAを実行する2つのアプローチが使用された。結果は、免疫系経路の3分の1近くが膵臓癌に関係していることを示した。5hmCの程度と遺伝子転写の間の強い関連を仮定すると、この結果は、免疫系機能がPDAC患者では減少していることを示唆している。機能的領域中で著しく増加または減少した個々の遺伝子の検査によって、正常な膵臓の発達に関係する遺伝子、例えば転写因子GATA4、GATA6、PROX1、ONECUT2、ならびにその増加した発現が癌に関係するYAP1、TEAD、PROX1、ONECUT2、ONECUT1、IGF1およびIGF2などの遺伝子が明らかとなる。
【0244】
注釈付けられた関連の生物学とともに、その5hmC密度がPDACにおいて著しく変化した遺伝子を使用し、アルゴリズム遺伝子ベース選択を用いて、その性能がモデル構築と合致する正則化回帰モデルを構築することができた。これにより、その性能が高い(外部データセット検証AUC=0.74~0.97で、トレーニングAUC=0.94~0.96)使用されたモデルが、PDACに関連する潜在する生物学的信号を測定しているという確信が得られた。有意にヒドロキシメチル化された多数の遺伝子にもかかわらず、正則化回帰モデルは100個またはそれ未満の遺伝子を選択した。しかしながら、13,180の有意に表現された遺伝子が検出されたという事実は、他の生物学的信号もこのデータセット中に存在し得るという証拠を提供する。喫煙状態は、禁煙後最長20年、PDACに対する公知の危険因子であり、DNAメチル化の変化はタバコベースの毒素と関連付けられている(Lee(2013)Front Genet 4:132)。後ろ向きの症例対照デザインの研究では、喫煙者はPDACコホートと非癌コホートのそれぞれ59%と49%を占め、喫煙者が各コホート中に均等に分散していることを示している。それ故、PDACコホート中に含まれる喫煙が、見出された有意にヒドロキシメチル化された遺伝子を説明することができた可能性は低い。しかしながら、PDACと非癌患者を箱・年特性とともに非喫煙経験者と元喫煙者にさらに細分化することに焦点を当てたより大規模な研究によって、PDAC患者におけるヒドロキシメチロームに対する喫煙の影響について答えを出すことが可能にあるであろう。
【0245】
[実施例2]
41人のPDACおよび82人の非癌対象の追加の研究グループである研究グループ2を用いて、実施例1を繰り返した。研究グループ2における癌および非癌コホートの臨床的特徴を表8に示す。
【0246】
【0247】
実施例1に記載された手順に従って、
図21に記載されている611のヒドロキシメチル化バイオマーカーを生成した。
【0248】
[実施例3]
53人のPDACおよび53人の非癌対象のさらなる研究グループである研究グループ3を用いて、実施例1を繰り返した。研究グループ3の癌および非癌コホートの臨床的特徴を表9に示す。
【0249】
【0250】
実施例1に記載された手順に従って、本明細書で先述した表4および
図22中に記載された41個のヒドロキシメチル化バイオマーカーを生成した。