(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-05-08
(54)【発明の名称】肝細胞がんのDNAメチル化バイオマーカー
(51)【国際特許分類】
C12Q 1/6851 20180101AFI20240426BHJP
C12Q 1/686 20180101ALI20240426BHJP
C12Q 1/6886 20180101ALI20240426BHJP
C12Q 1/6837 20180101ALI20240426BHJP
【FI】
C12Q1/6851 Z
C12Q1/686 Z
C12Q1/6886 Z
C12Q1/6837 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023571830
(86)(22)【出願日】2022-05-23
(85)【翻訳文提出日】2023-12-04
(86)【国際出願番号】 EP2022063902
(87)【国際公開番号】W WO2022243566
(87)【国際公開日】2022-11-24
(32)【優先日】2021-05-21
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】522132281
【氏名又は名称】オフィオミクス-インベスティガカオ イー デセンボルヴィメント エン バイオテクノロジア エスエー
(74)【代理人】
【識別番号】100149032
【氏名又は名称】森本 敏明
(74)【代理人】
【識別番号】100181906
【氏名又は名称】河村 一乃
(72)【発明者】
【氏名】ペレイラ リール,ホセ
(72)【発明者】
【氏名】カルドソ ヴァズ,ジョアナ
(72)【発明者】
【氏名】ヴィエイラ ゴンサルベス,エマニュエル ホセ
(72)【発明者】
【氏名】ゴンサルベス レイス,マリア アナ
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA07
4B063QA19
4B063QQ02
4B063QQ42
4B063QR55
4B063QS24
4B063QS25
(57)【要約】
本発明は、患者から得られる探索的な組織生検又は血漿試料から抽出されたDNAにおいてがんを検出するための頑健な方法を提供し、前記方法は、複数のCpG部位を含むゲノムの複数の定義されたメチル化差異領域におけるDNAメチル化レベルを測定することを含む。
【選択図】なし
【特許請求の範囲】
【請求項1】
患者ががんを有するか否かを決定する方法、特に肺がん、結腸がん、乳がん、又は肝臓がん、より特に肝細胞がんを有するか否かを決定する方法であって、前記方法は以下の工程:
a. 測定工程において、患者のex-vivo試料、特にがんの存在が疑われる組織の探索生検、及び/又は患者から採取した血液、血漿、若しくは血清の試料において、2~38個、特に8~38個、より特に8~20個のメチル化差異領域(DMR)のメチル化レベルを決定する工程であって、
ここで、前記DMRは:
- CpG部位(cg)144855744、cg20547777、及び/又はcg16009311を含むDMR1;
- cg25366404、cg08864240、cg03422350、cg09655253、及び/又はcg10791278を含むDMR2;
- cg07003643、cg10904867、cg16996281、cg19560971、及び/又はcg09186818を含むDMR3;
- cg17571559、cg09666573、cg11702866、cg17660833、及び/又はcg05551003を含むDMR4;
- cg14021523、cg07040024、及び/又はcg27088038を含むDMR5;
- cg06753985、cg02457346、及び/又はcg27146824を含むDMR6;
- cg16987638、cg22399984、cg09113474、及び/又はcg04206219を含むDMR7;
- cg24932457、cg14430141、cg21577836、及び/又はcg09473826を含むDMR8;
- cg26550936、cg25140531、cg11882607、cg23482898、及び/又はcg08851782を含むDMR9;
- cg27528748、cg27108629、及び/又はcg02475600を含むDMR10;
- cg20511797、cg13847987、及び/又はcg13803765を含むDMR11;
- cg09754845、cg25029797、cg22646311、及び/又はcg06635328を含むDMR12;
- cg24224304、cg00512726、cg25936177、cg16179969、cg07726953、cg24569447、及び/又はcg10151685を含むDMR13;
- cg10759972、cg02860599、及び/又はcg08625822を含むDMR14;
- cg24202448、cg03920764、及び/又はcg09845293を含むDMR15;
- cg09816096、cg22151985、及び/又はcg08901057を含むDMR16;
- cg23551720、cg24095592、及び/又はcg03260240を含むDMR17;
- cg05469574、cg12432526、cg04172640、及び/又はcg06862949を含むDMR18;
- cg26134665、cg02043600、cg03793804、cg25033993、cg07537206、cg03144232、及び/又はcg05787209を含むDMR19;
- cg09343092、cg03368099、cg25390165、cg20817131、cg01323381、cg03744763、cg14013695、cg05774699、cg03207666、cg12015737、cg14058329、cg19643053、cg07049592、cg02106682、cg27151303、cg21641458、cg14882265、cg05579037、cg13694927、cg17432857、cg23454797、cg08070327、cg25506432、cg00969405、cg01748892、cg26023912、及び/又はcg16997642を含むDMR20;
- cg21591742、cg03918304、cg25371634、cg18115040、cg13217260、cg20649017、及び/又はcg17489939を含むDMR21;
- cg26465391、cg08668790、cg01268824、cg21790626、cg05661282、cg12506930、cg03142586、cg11294513、cg27049766、及び/又はcg03234186を含むDMR22;
- cg05105207、cg04024865、及び/又はcg01887388を含むDMR23;
- cg07003643、cg10904867、cg16996281、cg19560971、及び/又はcg09186818を含むDMR24;
- cg08992305、cg00393585、cg12861945、cg06481168、cg11630554、cg25904183、及び/又はcg20697094を含むDMR25;
- cg05670004、cg06999856、cg26768075、cg16692735、及び/又はcg02613809を含むDMR26;
- cg15699085、cg04071270、及びcg06883126を含むDMR27;
- cg18512232、cg27110938、cg13806267、cg25877512、cg15909725、cg05033439、cg03134809、cg18431486、及び/又はcg01998856を含むDMR28;
- cg26882224、cg04886934、及び/又はcg17057098を含むDMR29;
- cg07481320、cg14931854、及び/又はcg24520538を含むDMR30;
- cg19885761、cg17847520、cg23495748、cg07295964、cg10312572、cg22776578、cg14648916、cg05958740、cg18909295、cg18328894、及び/又はcg15630459を含むDMR31;
- cg10237990、cg16800851、cg18411550、cg08358392、cg18798995、cg08106148、cg07826275、cg24516147、及び/又はcg09710740を含むDMR32;
- cg11044099、cg12120367、cg00583001、cg26831001、cg04600055、及び/又はcg17398515を含むDMR33;
- cg00603340、cg26600753、cg17279652、及び/又はcg12717963を含むDMR34;
- cg02532030、cg22136013、cg08313040、cg02375585、cg11715943、cg17664233、cg01309395、cg18927185、cg05547391、cg12208000、及び/又はcg15737123を含むDMR35;
- cg15712310、cg01635555、cg01744822、cg06984903、及び/又はcg01394847を含むDMR36;
- cg19846168、cg00779565、cg15203905、及び/又はcg23640231を含むDMR37;
- cg24428372、cg24737408、cg23900228、cg01144768、及び/又はcg22405774を含むDMR38、
を含む、又はそれからなるリストから選択され、かつ
前記DMRのメチル化レベルは、複数のDMRのメチル化レベルを提供する前記DMR内に含まれるCpG部位の1つ、又は2つ以上の平均のメチル化レベルである、前記工程;
b. 評価工程において、前記測定工程aで決定された複数のDMRメチル化レベルの組み合わされた統計的有意性を確立する工程、
c. 割り当て工程において、前記複数のDMRメチル化レベルの組み合わされた統計的有意性に基づいて、がんを有する確率が高いこと、又はがんを有する確率が低いことを患者に割り当てる工程、
を含む、前記方法。
【請求項2】
患者ががんを有する確率が高いことを割り当てられ、ここで
- DMR2、DMR4、DMR5、DMR9、DMR10、DMR14、DMR15、DMR16、DMR18、DMR23、DMR24、DMR28、DMR29、DMR35、及び/又はDMR37に対して決定されるメチル化レベルは、そのDMRの高メチル化を示し;
及び/又は
- DMR1、DMR3、DMR6、DMR7、DMR8、DMR11、DMR12、DMR13、DMR17、DMR19、DMR20、DMR21、DMR22、DMR25、DMR26、DMR27、DMR30、DMR31、DMR32、DMR33、DMR34、DMR36、及び/又はDMR38に対して決定されるメチル化レベルは、そのDMRの低メチル化を示し;かつ
- 高メチル化は、がん細胞を含まないことが以前に決定された複数の対照試料で決定されるように前記DMRのメチル化レベルの平均を上回るメチル化レベルとして特徴づけられ、かつ低メチル化は、前記DMRのメチル化レベルの平均を下回るメチル化レベルとして特徴づけられる、
請求項1に記載の方法。
【請求項3】
前記評価工程では、リスクスコアを得るために、前記複数のDNAメチル化レベルを、試料ががん細胞由来のDNAを含有する確率によって試料を分類する予測アルゴリズムに供し、
特に、前記アルゴリズムは加算線形スコアであり、
より特に、前記複数のDNAメチル化レベルを、
- 複数の重み付けされたDMRメチル化値を得るために、前記複数のDMRメチル化レベルの各々に各DMRの相対的予測力に応じて個々の加重値を乗算すること、及び
- リスクスコアを得るために、前記複数の重み付けされたDMRメチル化値の合計を計算すること、
による加算線形スコアに供する、
請求項1又は2に記載の方法。
【請求項4】
前記割り当て工程において、前記リスクスコアが閾値と比較され、ここで
- 閾値以上のリスクスコアは、患者ががんを有する確率が高いことを示し、
- 閾値未満のリスクスコアは、患者ががんを有する確率が低いことを示し、
- 特に測定工程において、20~38個のDMRのメチル化レベルが決定され、かつ割り当て工程において、前記閾値の絶対値は0.70~1.70であり、特に1.00~1.50であり、より特に前記閾値の絶対値は約1.23である、
請求項3に記載の方法。
【請求項5】
測定工程において、DMRメチル化レベルが決定される前記複数のDMRは、DMR1を含み、
- 特にDMR1及びDMR4を含み、
- より特にDMR1、DMR4、及びDMR28を含み、
- さらにより特にDMR1、DMR4、DMR28、DMR35、及びDMR36を含み、
- なおより特にDMR1、DMR4、DMR6、DMR7、DMR31、DMR35、DMR28、及びDMR23を含み、
- なおより特にDMR1、DMR4、DMR27、DMR6、DMR2、DMR16、DMR31、DMR35、DMR28、及びDMR23を含む、
請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記予測アルゴリズムは、分類モデルを訓練することによって得られ、特にロジスティック分類モデル、又はエラスティックネット分類モデル、より特にリッジ回帰分類モデルを訓練することによって得られ、かつ
前記分類モデルは、同数の:
i. 複数のがん患者の組織試料、特にHCC患者の試料と、
ii. 複数の対照試料、特に慢性肝疾患の患者試料と健常対照試料との組み合わせと
を含む既知のがん状態の複数の患者試料から得られた複数のメチル化値を使用して訓練され、
iii.ここで、前記複数のがん患者の組織試料と前記複数の対照試料とはそれぞれ、同数の組織生検試料及び無細胞液体生検試料のそれぞれを含む、請求項4又は5に記載の方法。
【請求項7】
前記割り当て工程において、
- がんを有する確率が低いとは、がんを有する確率が約6%として定義され、及び/又は
- がんを有する確率が高いとは、がんを有する確率が特に約94%として定義される、
請求項1~6のいずれか一項に記載の方法。
【請求項8】
がんの存在が疑われる組織の探索生検、及び/又は患者から採取された血液、血漿、若しくは血清の試料から選択される患者試料を得ること、及び
- 前記試料からDNAを抽出すること、及び
- 前記抽出されたDNAを脱アミノ化剤で処理して脱アミノ化DNAを生成すること、
を含む、請求項1~7のいずれか一項に記載の方法。
【請求項9】
所定のCpG部位のメチル化値は、次世代シーケンシング、定量ポリメラーゼ連鎖反応、又はメチル化アレイから選択される方法を用いて決定され、特に前記メチル化値は、メチル化アレイを用いて得られるβメチル化値である、請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記患者試料は血漿試料である、請求項1~9のいずれか一項に記載の方法。
【請求項11】
前記患者試料はがんを有することが疑われる組織の探索生検試料である、請求項1~9のいずれか一項に記載の方法。
【請求項12】
前記がんは肝細胞がん(HCC)である、請求項1~11のいずれか一項に記載の方法。
【請求項13】
肝硬変と以前に診断された患者の治療における使用のための医薬組成物であって、前記組成物は:
- レンバチニブ、レゴラフェニブ、カボザンチニブ、ラムシルマブ、又はソラフェニブから選択され、特にソラフェニブである、抗悪性腫瘍薬;及び/又は
- チェックポイント阻害剤、特にイピリムマブ、ニボルマブ、ペムブロリズマブ、ピジリズマブ、アテゾリズマブ、アベルマブ、デュルバルマブ、及びセミピリムマブ、より特にニボルマブ、又はペムブロリズマブからなる群から選択されるチェックポイント阻害剤;
を含み、
ここで前記患者は、請求項1~12のいずれか一項に記載される方法によって、がんを有する確率が高いと割り当てられている、前記医薬組成物。
【請求項14】
患者ががんを有するか否かを決定するためのシステム、特に肺がん、結腸がん、乳がん、又は肝臓がん、より特に肝細胞がんを有するか否かを決定するためのシステムであって:
- 請求項1又は5に記載のDMRのメチル化レベルを明らかにするように設計及び構成されたプローブのセット;
- プローブのシグナルを読み取るように設計及び構成された装置;及び
- コンピュータプログラムが、コンピュータ上で実行される際にコンピュータに、請求項1~12のいずれか一項による方法の工程を実行させるコンピュータプログラムコードを含む、コンピュータ及びコンピュータプログラム、
を含む、前記システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の遺伝子座におけるDNAメチル化シグネチャーを決定することによる患者試料中の低濃度のがん由来DNAを検出するための有利な方法に関する。
【0002】
本発明は、2021年5月21日に出願された欧州特許出願(EP)第21175425号の優先権の利益を主張するものであり、これは参照により本明細書に完全に組み込まれる。
【背景技術】
【0003】
現在の肝細胞がん(hepatocellular carcinoma:HCC)診断ガイドラインでは、組織生検などの侵襲的方法の利用の後に、組織学的画像診断及び/又は造影画像診断を行うことが必要である。このように多大な時間を必要とする方法のために、HCCは進行した段階で検出されることが多く、40%の症例が多結節性又は転移性であり、72%の症例が治療の選択肢を失っている状態である(Llovetら,2021 Nat.Rev.Dis.Primers 7:6)。したがって、スクリーニングプログラム及びサーベイランスプログラムは、HCCを早期に検出及び診断し、余命を延ばすことができる治療オプションのためのより長い時間的余裕を患者に提供するために不可欠である。
【0004】
血漿及び尿などの体液から採取した液体生検(liquid biopsy:LB)には、肝細胞がんの循環分子バイオマーカーが含まれており、早期診断アッセイのための非侵襲的かつ安価な代替法としての可能性がある。このような試料中のα-フェト蛋白(alpha-fetoprotein:AFP)が高いレベルであれば、ほぼ完全な特異度で肝細胞がんを同定できるが、感度(再現率)は45%未満と低いことが多く、一方、AFPが低い閾値(20ng/ml)であれば、特異度と感度とのバランスがとれており、どちらも79%前後の範囲である。注目すべきは、慢性肝疾患、特にHCV関連肝硬変患者では、バイオマーカーとしてのAFPの適合率が著しく低下し、確実な診断には不十分であることである(Bialeckiら,2005 HPB 7:26)。LBはまた、循環腫瘍DNA(circulating tumour DNA:ctDNA)を含む全身の細胞に由来する無細胞(セルフリー)DNA(cell-free DNA:cfDNA)物質を含有する。変異及びメチル化など、ctDNAの遺伝子マーカーの測定は、診断及び治療のツールとして使用可能である。
【0005】
複数の研究で、HCCのDNAメチル化バイオマーカーが同定されているが(Liuら,2020 Ann.Oncol.31,745;Bonderら,2014 BMC Genomics 15,860;Wangら,2019 Hepatology 70,51;Changら,2018 Genome Med.10,42;Shuiら,2020 Front.Genet.11,906)、組織試料のみに限定され、単一CpG部位の小セットの同定に焦点を当て、及び/又は健常肝組織試料との比較であったため、肝硬変などの慢性肝疾患とHCCとを区別することができず、さらにプローブの不具合又は患者試料中の変異の存在に対して診断の結果を不可能にする脆弱性があった。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】Llovetら,2021 Nat.Rev.Dis.Primers 7:6
【非特許文献2】Bialeckiら,2005 HPB 7:26
【非特許文献3】Liuら,2020 Ann.Oncol.31,745
【非特許文献4】Bonderら,2014 BMC Genomics 15,860
【非特許文献5】Wangら,2019 Hepatology 70,51
【非特許文献6】Changら,2018 Genome Med.10,42
【非特許文献7】Shuiら,2020 Front.Genet.11,906
【発明の概要】
【発明が解決しようとする課題】
【0007】
上記の技術状態に基づき、本発明の目的は、患者試料中の低濃度の腫瘍由来DNAを正確に検出する手段及び方法、特に血漿などの無細胞試料中の肝細胞がん由来DNAの存在を検出する手段及び方法を提供することである。
【課題を解決するための手段】
【0008】
この目的は、本明細書の独立請求項の主題によって達成され、本明細書の従属請求項、実施例、図及び一般的な説明に記載されたさらに有利な実施形態によって達成される。
【図面の簡単な説明】
【0009】
【
図1】
図1は、集められたDNAメチル化データセットの概要を示す。a)様々な種類にわたる試料の数、つまり、HCC腫瘍、健常肝臓、及び肝硬変及びその他の肝臓病の試料。b)訓練及び試験データセットを構成する研究ごとの試料の数。c)b)と同様に検証データセットを構成する研究ごとの試料の数。
【
図2】
図2は、上位DNAメチル化HCCバイオマーカーの数の最適化を示す。貪欲な(グリーディ)逐次DMR選択は、LinearSVCモデルに逐次加えるための最適なDMRを選択する。各DMR数について、30個のバランスのとれた訓練セットを作成し、ベンチマークを行った。モデルをバランスのとれた訓練セットで訓練し、訓練データセット、試験データセット、及び検証データセットの予測に使用した。選択対象の特徴の数の範囲は1~38であり、38はLinearSVCモデルの特徴の数の中央値を示す。誤差は95信頼区間を表す。
【
図3-1】
図3はHCCバイオマーカーのDMRベンチマーク解析を示す。a)組織試料及びb)cfDNA試料に対する複数のHCCバイオマーカーセットにより得られた一つ抜き(リーブワンアウト)(leave-one-out)再現率及び適合率の比較。c)訓練及び試験試料を用いて訓練し、独立した検証セットで予測した複数のHCCバイオマーカー特徴セットの適合率及び再現率。
【
図3-2】
図3はHCCバイオマーカーのDMRベンチマーク解析を示す。a)組織試料及びb)cfDNA試料に対する複数のHCCバイオマーカーセットにより得られた一つ抜き(リーブワンアウト)(leave-one-out)再現率及び適合率の比較。c)訓練及び試験試料を用いて訓練し、独立した検証セットで予測した複数のHCCバイオマーカー特徴セットの適合率及び再現率。
【
図3-3】d)訓練及び試験試料サブセットにおけるHCC及び非HCC(健常、肝硬変、慢性肝疾患)試料の平均βメチル化値を示すヒートマップ。
【
図3-4】d)訓練及び試験試料サブセットにおけるHCC及び非HCC(健常、肝硬変、慢性肝疾患)試料の平均βメチル化値を示すヒートマップ。
【
図4-1】
図4は、HCCのDNAメチル化リスクスコアの特徴のランキングを示す。a)バランスのとれたデータセットの1,000通りの並べ替えにおけるDMR係数:
【
図4-2】b)左:上位1~38個のDMRの適合率と再現率とは、訓練及び試験データセットで訓練することにより試験し、検証データセットを用いて試験した。右:上位38個及び上位20個のDMRシグネチャーから得られたリッジ分類器DMR係数。黒い実線は線形回帰と95%信頼区間とを表す。破線は対角線を表す。
【
図4-3】c)1,000通りの並べ替え解析で得られる平均係数から推定される線形リスクスコアを用いて計算される検証試料の適合率-再現率曲線。
【
図5-1】
図5は、HCCバイオマーカー及び重みを同定及び推定することに使用されなかった訓練及び試験データセット内の試料のみを対象としたDMRシグネチャーリスクスコアa)の適合率(precision)-再現率(recall)曲線のランキングを示す。曲線に沿った最大のF1スコアは、「x」、及び所与の再現率及び適合率におけるDMRシグネチャーのリスクスコア閾値で表される。ランダムな適合率は破線の水平線で示す。b)HCCバイオマーカーの発見に使用されなかったDMRシグネチャーリスクスコアの訓練及び試験試料を代表的な上位性能のDMRに対してプロットした。縦線は、a)において最大のF1スコアで見出されたDMRシグネチャーリスクスコア閾値を示し、関連する再現率及び適合率が報告される。
【
図5-2】c)他の種類のがん患者(「がん」と表示)の試料を含む訓練及び試験データセットの全cfDNA試料の適合率-再現率曲線。d)b)と同様にDMRシグネチャーリスクスコアの閾値(垂直の破線)は、c)の適合率-再現率曲線に沿ったF1スコアの最大点から推定され、再現率及び適合率が報告される。
【
図5-3】e)検証セットの試料について推定されるDMRシグネチャーリスクスコアは、予測性の高い2つのHCCのDMR及びそのメチル化プロファイルに対してプロットされる。DMRシグネチャーリスクスコアの閾値は、訓練及び試験データセットを用いて定義した。適合率及び再現率は、検証データセットで推定されたものである。
【
図6-1】
図6は、ベンチマーク及び性能特性の指標のDMRシグネチャーリスクスコアを示す。a)DMRシグネチャーのリスクスコアのバイオマーカーのDMR値とその重みとの特定に使用されなかった訓練及び試験データセット内のすべての試料に対して計算されたDMRシグネチャーリスクスコア。DMRシグネチャーリスクスコアを、3つの上位予測HCC DNAメチル化バイオマーカーに対してプロットした。HCC分類閾値は縦の破線で表され、適合率及び再現率が報告される。
【
図6-2】b)a)と同様に、cfDNA試料のみが利用され、他のがんを有する患者からのcfDNA試料(青色でマークされ、「がん」と表示)も陽性イベントとみなされる。健常な対照由来のcfDNA試料は緑色(「健常」)でマークされ、再現率と適合率が報告される。
【
図7-1】
図7は、各DMR内の1、2、3個のCpG部位のみをランダムにアンダーサンプリングし、上位8、10、20、38個のDMRについてこれらのCpG部位のみを用いてそれらの平均メチル化度を推定することにより、DMRシグネチャーリスクスコアモデルの平均(mean)及び標準誤差(Std)のa)再現率及びb)適合率がどのように変化するかを示している。
【
図7-2】
図7は、各DMR内の1、2、3個のCpG部位のみをランダムにアンダーサンプリングし、上位8、10、20、38個のDMRについてこれらのCpG部位のみを用いてそれらの平均メチル化度を推定することにより、DMRシグネチャーリスクスコアモデルの平均(mean)及び標準誤差(Std)のa)再現率及びb)適合率がどのように変化するかを示している。
【発明を実施するための形態】
【0010】
発明の概要
本発明は、がん細胞DNAが非常に低濃度で存在する場合であっても(例えば特定の臓器にがんを有する疑いのある患者、特に肝細胞がんを有する疑いのある患者から得られた血漿試料中に存在する無細胞(セルフリー)腫瘍DNAなど)、患者試料中のがん細胞に特異的なDNAメチル化シグナルを検出する方法に関する。
【0011】
本方法は、ゲノムの複数のメチル化差異領域(differentially methylated region:DMR)におけるメチル化レベルを測定して、区別可能ながん特異的メチル化シグネチャーを共有する1つ又は複数の冗長なCpG部位のメチル化状態を反映する各DMRの値を取得することを含む。本方法はさらに、患者に、がんを有する確率が高いか、又は低いかを割り当てるために、複数のDMRメチル化値の統計的有意性を評価することを含む。
【0012】
本発明による方法は、有利なことに、複数の冗長なメチル化測定値からの予測情報を取り入れるため、例えば患者DNA中の一塩基多型の存在による単一のCpG測定値の取得の失敗、又は1つ又は複数のアッセイプローブの技術的失敗など、方法の1つ又は複数の個々の構成が失敗した事象において、患者はなお、正常に決定された他の測定値に基づいて、がんを有する確率を正確に割り当てられることが可能である。
【0013】
これらのDMRは、DMR内の単一のCpG部位のDNAメチル化がDMR内の2つ以上又はすべてのCpG部位の平均と同等のがん予測値を提供するように定められている。ex vivo(生体外)試料のDNAメチル化シグネチャーに基づいて患者にがんを有する確率を正確に割り当てる方法を形成するために、表1に規定される2~38個、特に8~38個、より特に10~20個のDMRの予測値と予測リスクスコアとを柔軟に組み合わせることによって、診断方法の感度を高める第2の冗長性の層が導入される。
【0014】
本発明の特定の実施形態は、DMRメチル化レベルをがん予測分類アルゴリズムに入力してリスクスコアを取得し、次いで患者にがんを有する確率を割り当てること、及び任意にこのリスクスコアを閾値と比較することに関する。
【0015】
本発明の特定の実施形態は、患者が肝細胞がんであるか否かを決定するために血漿試料又は肝生検試料を分析する上記本発明による方法の使用に関する。
【0016】
用語と定義
本明細書を解釈するために、以下の定義が適用され、適宜、単数形で使用される用語は複数形も含み、その逆もまた同様である。以下に定める定義が、参照により本明細書に組み込まれる文書と矛盾する場合は、ここに定める定義が優先されるものとする。
【0017】
本明細書で使用される用語「含む(comprising)」、「有する(having)」、「含有する(containing)」、「含む(including)」、及び他の同様の形態、並びにそれらの文法的に同等な用語は、意味において同等であること、及びこれらの単語のいずれか1つに続く1つ又は複数の項目が、係る1つ又は複数の項目を網羅的に列挙するものではない、又は列挙した1つ又は複数の項目のみに限定するものではないことにおいてオープンエンドとすることを意図している。例えば、成分A、B及びCを「含む(comprising)」品目は、成分A、B及びCからなる(すなわち、成分A、B及びCのみを含有する)こともできるし、又は成分A、B及びCのみならず、1つ又は複数の他の成分を含むこともできる。このように、「含む(comprising)」及びその類似の形態、並びにその文法的同等な用語は、「本質的にそれからなる(consisting essentially of)」又は「それからなる(consisting of)」の実施形態の開示を含むことが意図及び理解される。
【0018】
値の範囲が提供されている場合、文脈上明らかにそうでないと指示されない限り、その範囲の上限と下限の間の、下限の単位の10分の1までの各介在値、及びその記載の範囲内の他の記載の値若しくは介在値は、記載の範囲の具体的に除外される制限を受けて本開示内に包含されると理解される。記載の範囲に限界値の一方又は両方が含まれる場合、それらの含まれる限界値の一方又は両方を除いた範囲もまた開示に含まれる。
【0019】
本明細書において、値又はパラメーター「約(about)」という言及は、その値又はパラメーターそれ自体に向けられた変化を含む(かつ記述する)。例えば、「約(about)X」と言及する記述には、「X」という記述も含まれる。
【0020】
添付の特許請求の範囲を含め、本明細書で使用されるとおり、単数形「a」、「or(又は)」、「the」は、文脈上明らかにそうでない場合を除き、複数の参照語を含む。
【0021】
他に定義されない限り、本明細書で使用されるすべての技術用語及び科学用語は、当業者(例えば、細胞培養、分子遺伝学、核酸化学、ハイブリダイゼーション技術及び生化学)により一般的に理解されるのと同じ意味を有する。分子生物学的方法、遺伝学的方法、及び生化学的方法(一般に、Sambrookら Molecular Cloning:A Laboratory Manual,第4編(2012)Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.及びAusubelら,Short Protocols in Molecular Biology(2002)第5編,John Wiley & Sons,Inc.を参照)及び化学的方法には、標準的な技術が使用される。
【0022】
配列
本明細書に開示される配列と類似又は相同(例えば、少なくとも約70%の配列同一性)の配列もまた本発明の一部である。いくつかの実施形態において、アミノ酸レベルでの配列同一性は、約80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、又は99%超過であり得る。核酸レベルでは、配列同一性は、約70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、又は99%超過であり得る。あるいは、核酸セグメントが選択的ハイブリダイゼーション条件下(例えば、非常に高いストリンジェンシーなハイブリダイゼーション条件下)で、その鎖の相補体にハイブリダイズする場合には、実質的な同一性が存在する。核酸は、全細胞中に、細胞溶解物中に、又は部分的に精製された形態若しくは実質的に純粋な形態で存在し得る。
【0023】
本明細書において、「配列同一性」及び「配列同一性のパーセンテージ」という用語は、アライメントされる2つの配列を位置ごとに比較することによって決定される配列比較の結果を表す1つの定量的パラメーターを指す。比較用の配列のアライメントの方法は、当技術分野でよく知られている。比較用の配列アライメントは、Smith及びWatermanのローカルホモロジーアルゴリズム,Adv.Appl.Math.2:482(1981)、Needleman及びWunschのグローバルアライメントアルゴリズム、J.Mol.Biol.48:443(1970)、Pearson及びLipmanの類似性検索法、Proc.Nat.Acad.Sci.85:2444(1988)、又はこれらのアルゴリズムのコンピュータ化された実装によって実行され、CLUSTAL、GAP、BESTFIT、BLAST、FASTA及びTFASTAを含むが、これらに限定されない。BLAST分析を行うためのソフトウェアは、例えば、アメリカ国立生物工学情報センター(http://blast.ncbi.nlm.nih.gov/)を通じて公的に入手可能である。
【0024】
核酸配列の比較のそのような例の1つは、以下のデフォルトの設定を使用するBLASTNアルゴリズムが挙げられる:Expect threshold:10;Word size:28;Max matches in a query range:0;Match/Mismatch Scores:1.-2;Gap costs:Linear。特に断らない限り、本明細書で提供される配列同一性の値は、それぞれタンパク質及び核酸の比較のための上記で特定されたデフォルトパラメータを使用して、BLASTのプログラム群を用いて得られた値を指す(Altschulら,J.Mol.Biol.215:403-410(1990))。パーセンテージを指定しない同一配列への言及は、100%同一配列(すなわち同じ配列)の意味を含む。
【0025】
本明細書の分脈における「ヌクレオチド」という用語は、核酸又は核酸アナログの構築ブロックに関し、そのオリゴマーは、塩基対形成に基づいてRNAオリゴマー又はDNAオリゴマーと選択的ハイブリッドを形成することができる。この文脈における「ヌクレオチド」という用語には、古典的なリボヌクレオチド構築ブロックであるアデノシン、グアノシン、ウリジン(及びリボシルチミン)、シチジン、古典的なデオキシリボヌクレオチドであるデオキシアデノシン、デオキシグアノシン、チミジン、デオキシウリジン、デオキシシチジンが含まれる。さらに、ホスホチオエート、2’O-メチルホスホチオエート、ペプチド核酸(PNA;N-(2-アミノエチル)-グリシン単位をペプチド結合でつなぎ、グリシンのα炭素に核酸塩基を結合したもの)又はロック核酸(LNA;2’O,4’Cメチレン架橋RNA構成ブロック)などの核酸のアナログが含まれる。本明細書で「ハイブリダイズ配列」に言及する場合、そのようなハイブリダイズ配列は上記のヌクレオチドのいずれか、又はそれらの混合物から構成され得る。
【0026】
本明細書の文脈における「プローブ」という用語は、分子プローブに関し、特に、単一の標的CpGジヌクレオチドを含む特定の領域に選択的にハイブリダイズすることができる「核酸プローブ」に関する。このようなハイブリダイズ核酸配列は、標的配列と連続して逆相補的であり得、又はギャップ、ミスマッチ、又は追加の一致していないヌクレオチドを含み得る。ハイブリッドを形成することができる配列の最小の長さは、その組成に依存し(C又はGのヌクレオチドはA又はT/Uのヌクレオチドよりも結合エネルギーに寄与する)かつ骨格化学的性質に依存する。
【0027】
本明細書の文脈において、「ハイブリダイズ配列」という用語は、RNA(リボヌクレオチド)、DNA(デオキシリボヌクレオチド)、ホスホチオエートデオキシリボヌクレオチド、2’-O-メチル修飾ホスホチオエートリボヌクレオチド、LNA及び/又はPNAヌクレオチドアナログを含む、又は本質的にそれからなるポリヌクレオチド配列を包含する。特定の実施形態において、本発明によるハイブリダイズ配列は、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29又は30個のヌクレオチドを含む。特定の実施形態では、ハイブリダイズ配列は、表1に記載されたCpG部位周辺の逆相補配列と少なくとも80%同一であり、より好ましくは85%、90%、92%、94%、95%、96%、97%、98%、又は99%同一である。特定の実施形態において、ハイブリダイズ配列は、デオキシヌクレオチド、ホスホチオエートデオキシヌクレオチド、LNA及び/又はPNAヌクレオチド、又はそれらの混合物を含む。
【0028】
「CpG部位」、「CpG遺伝子座」、又は「CpG残基」という用語は、CpG部位命名法では「cg」と略されることもあり、本明細書の分脈では、上記のとおりメチル化又は非メチル化のいずれかがなされ得るCpG DNAジヌクレオチドに関する。CpGジヌクレオチドとは、シトシンヌクレオチドがグアニンヌクレオチドとホスホジエステル結合で(5’から3’方向に)結合しているゲノム位置のことである。ヒトでは、DNAメチル化はシトシン残基のピリミジン環の5’位で起こる。表1に示すCpG部位は、がん、特に肝細胞がんに罹患する患者の血漿などの液体の無細胞試料又は肝組織試料の両方において、健常対照の試料、又は非がん疾患の患者の試料と比較して、メチル化差異が正確に検出され得るCpG部位を指す。
【0029】
本明細書の文脈における「DNAメチル化レベル」、「DNAメチル化」、又は「メチル化レベル」という用語は、特定の遺伝子座、あるいはメチル化差異領域内の1つ又は複数のCpG部位のいずれかにおける、メチル化CpGジヌクレオチドモチーフの存在又は非存在に言及する(下記参照)。実施例で示したデータに関して、CpG部位のDNAメチル化は、βメチル化の値を用いて表され、この値は、メチル化マイクロアレイにおいて、ゲノム中の特定の標的CpG部位で、ビスルファイト修飾されたメチル化されていない対立遺伝子、又はメチル化された対立遺伝子のいずれかに結合するプローブによって生成された蛍光シグナル強度から得られる測定値を正規化した値である。本明細書で使用される「βメチル化」は、メチル化モチーフ及び非メチル化モチーフの存在に関連する生の測定値を、特定の標的CpGジヌクレオチド部位の低メチル化を示す0から、その部位の高メチル化を示す1までの限られた範囲内で標準化する。これは試料中に存在する標的CpGを含むDNAの総量に対して相対的に表され、測定モードに固有の固定値でオフセットされ、製造者によって推奨されるものである。
【0030】
「メチル化差異領域(メチル化が異なる領域)(differentially methylated region)」又は「DMR」という用語は、2つの群でメチル化状態に差がある(異なる)ゲノム領域を指し、本明細書では「CpGクラスター」と呼ぶこともある。本明細書では、メチル化シグネチャーが異なるがん試料及び非がん試料によって本発明によって特に注目される38個のDMRを、ヒトリファレンスゲノム38におけるそれらの位置とともに表1に示す。DMR1~38は少なくとも3つのCpG部位を含み、かつ連続する2つのCpG部位が500塩基対超過離れていない。DMRのメチル化とは、前記CpG部位の1つで測定されたメチル化レベルを指すか、又は前記CpG部位の2つ以上のメチル化レベルの平均値、又は中央値を指す。
【0031】
本明細書の分脈における「がん」とは、腫瘍細胞が制御不能に増殖する悪性腫瘍性疾患を指し、かつ原発性腫瘍と転移性疾患との両方を包含する。重要なことは、腫瘍細胞は、健常対照又は他の炎症性疾患と比較して異常なDNAメチル化により特徴づけられることが多い。がんに特異的な異なるDNAメチル化は、多量の腫瘍DNAを含有する腫瘍生検試料だけでなく、尿、血漿、血清、又は血液などの非常に低濃度の無細胞(セルフリー)DNAを含有する試料でも、十分に感度の高い診断アッセイによって検出することができる。本発明による「がん」という用語は、肺がん、肝臓がん、又は結腸がんなどの固形腫瘍、並びにリンパ腫又は白血病などの血球由来のがんを包含する。本発明によるがんという用語は、原発性がん、並びにがん疾患の再発の両方を包含する。
【0032】
本明細書の分脈における「患者」という用語は、がんを有することが疑われる対象、又は以前にがんと診断され、かつ疾患再発に対してモニタリングを受けている患者を包含する。
【0033】
本発明による「肝臓がん」という用語は、肝細胞に由来するがんを指し、例えば肝細胞に由来する肝細胞がん(hepatocellular carcinoma:HCC)及び肝内胆管がんを指す。HCC患者には、C型肝炎感染又は肝硬変など、肝臓に影響を及ぼす併存疾患も罹患する患者も包含する。
【0034】
特定の本発明の文脈における「慢性肝疾患」という用語は、A型肝炎又はC型肝炎などのウイルス感染、α-1アンチトリプシン欠損症患者、肥満に関連する炎症、及び肝硬変を含むがこれらに限定されない、肝臓の炎症によって特徴づけられる非がん性疾患を指す。実施例に従って予測性DMRを同定するためにがん試料との比較に使用される対照試料は、がん細胞を含む試料と肝機能に影響を与える非がん性炎症によって特徴づけられる試料とを区別するメチル化シグネチャーを同定するためにこのような慢性肝疾患試料を使用する。本発明による「慢性肝疾患」と診断された患者から得られた試料は、本発明による予測アルゴリズムを訓練するために使用される。
【0035】
「肝硬変」という用語は、肝細胞死、炎症、及び線維化を特徴とする慢性肝疾患を指す。「肝硬変」はHCCの前駆症状であることが多い。肝硬変は、遺伝子変異、ウイルス感染、毒素への暴露、又はアルコール摂取などが原因で発症し得る。
【0036】
発明の詳細な説明
本発明の第1の態様は、患者ががんを有するかどうかを判定する方法であり、以下の工程を含む:
患者から得られた生体外(ex-vivo)試料中の複数のメチル化差異領域(DMR)について、DNAメチル化レベルのレベルを決定する測定工程。本発明による複数のDMRは、表1に規定されるDMRのいずれか2つ、又はそれ以上を含むか、又は本質的にそれからなり、各DMRは、がん試料と非がん試料とでのメチル化の差異によって特徴づけられる3つ以上のCpG部位を含む。
【0037】
いくつかの実施形態において、本発明によって上記で規定される任意のDMRのDNAメチル化レベルは、表1によってそのDMR内に列挙されるCpG部位のうちの1つについて決定されたDNAメチル化レベルであり得る。例えば、DMR1のメチル化レベルは、cg144855744、cg20547777、又はcg16009311のうちの1つで測定されたメチル化レベルであり得る。
【0038】
他の実施形態は、DMRのメチル化レベルを提供するために、任意のDMR内に含まれる2つ以上のCpG部位のメチル化レベルの平均を使用することに関する。例えば、DMR1のメチル化レベルは、
- cg144855744、及びcg20547777、
- cg144855744、及びcg16009311、
- cg20547777、及びcg16009311、又は
- cg144855744、cg20547777、及びcg16009311
で決定されたそれぞれのDNAメチル化レベルの平均であり得る。
【0039】
DNAメチル化レベルが各DMR内で測定されるCpG部位の数は、実施例の
図7に示されるとおり、それぞれが同等のがん予測情報を提供するため、本発明では特に限定されない。
【0040】
本方法の次の工程は評価工程であり、ここでは測定工程で決定された複数のDMRメチル化レベルの組み合わせられた統計的有意性が評価される。複数のDMRメチル化レベルの統計的有意性を評価することには、例えば、がん細胞由来のDNAを含有すること、又は含有しないことが前もって決定された対照試料、又は前記対照試料のメチル化レベルを代表する閾値とメチル化値を比較すること、各DMRが前記対照又は閾値と比較して低メチル化を特徴とするか、又は高メチル化を特徴とするかを評価すること、又は各DMRについて得られた複数のDNAメチル化値を、試料の全体的なDMRメチル化シグネチャーを反映する単一の数値を提供するアルゴリズムに組み合わせることを含み得る。
【0041】
次に、割り当て工程では、評価工程で得られた複数のDMRメチル化レベルが組み合わされた統計的有意性に基づいて、がんを有する確率が高いか、又はがんを有する確率が低いかのいずれかを患者に割り当てる。
【0042】
任意のさらなる工程では、がんを有する確率が高いと割り当てられた患者を、適切な抗悪性腫瘍療法又は特定のがん特異的治療レジメン、例えば本明細書に記載されているとおりの1つ又は複数の化学療法剤又はチェックポイント阻害剤などで治療することができる。あるいは、がんを有する確率が低いと割り当てられた患者は、最初の低い確率の割り当てから2、4、6、8、10、12ヶ月以上にて、治療を必要としないか、あるいはがんの追加検査が必要となるであろう。
【0043】
メチル化レベルが取得されるDMRの数は、本発明の様々な実施形態に応じて、及びメチル化レベルが取得される方法、あるいは診断アッセイに望まれる精度又は感度に応じて変化し得る。
【0044】
いくつかの実施形態は、さらに、リスクスコアに2つのDMRのDNAメチル化レベルを組み込むことでさえ80%超過の感度を達成することが実証され、90%超過の適合率で患者試料をがんあり又はなしに分類する(表7)ように、表1に特定されるDMRの2~38個の間でDMRメチル化レベルを決定する方法に関する。
【0045】
他の実施形態は、リスクスコアにおいて8つのDMRのDNAメチル化レベルを使用することにより、90%を超える感度率で患者のHCCの存在に従って患者試料を分類するように、DMRメチル化レベルを表1に規定されるDMRの8~38について決定する方法に関する。
【0046】
特定の実施形態は、患者試料中のHCC由来DNAの有無に従って患者を分類するリスクスコアを得るための予測加算線形アルゴリズムにおいて使用される際に実施例の表2で95%を超える感度を達成することが実証される表1に列挙される約20個のDMRについてDMRメチル化レベルを決定する方法に関する。
【0047】
本発明による方法は、患者試料中のがん細胞の存在を検出するために使用することができる。いくつかの実施形態は、肺がん、結腸がん、乳がん、又は肝臓がんを示すDNAメチル化シグネチャーを同定するための本発明による診断方法の使用に関する。
【0048】
本発明の特定の実施形態は、患者が肝細胞がんを有するか、又は有しないかを決定するために、患者試料から抽出されるDNA中のDNAメチル化シグネチャーを検出するための上記で規定される方法の使用に関する。
【0049】
本発明による方法は高感度と頑健との両方であるため、この方法は多くの異なる種類のex vivo患者試料に広く適用できると期待される。
【0050】
特定の実施形態は、がんの存在が疑われる組織の探索生検から抽出されるDNAの使用に関する。
【0051】
他の実施形態は、血液などの液体組織試料、あるいはさらに血漿又は血清などの無細胞試料から抽出されるDNAの使用に関する。
【0052】
特定の実施形態は、固形臓器に由来するがん、例えばHCCが疑われる患者から得られた血漿から抽出されるDNAの使用に関する。
【0053】
本発明のいくつかの実施形態は、DMR2、DMR4、DMR5、DMR9、DMR10、DMR14、DMR15、DMR16、DMR18、DMR23、DMR24、DMR28、DMR29、DMR35、及び/又はDMR37について決定されるメチル化レベルがその領域が高メチル化されていることを示す場合、及び/又はDMR1、DMR3、DMR6、DMR7、DMR8、DMR11、DMR12、DMR13、DMR17、DMR19、DMR20、DMR21、DMR22、DMR25、DMR26、DMR27、DMR30、DMR31、DMR32、DMR33、DMR34、DMR36、及び/又はDMR38について決定されるメチル化レベルがその領域が低メチル化されていることを示す場合、患者にがんを有する確率が高いことを割り当てることに関する。
【0054】
本発明のこの実施形態による高メチル化又は低メチル化は、評価工程において、がん細胞を含まないことが前もって決定された複数の対照試料において決定されるように前記DMRのメチル化レベルの平均値、又は中央値、特に前記平均値から2標準偏差以内、より特に1標準偏差以内に関して確認することができる。
【0055】
評価工程の他の実施形態では、複数のDNAメチル化レベルは、予測分類アルゴリズムに供され、このアルゴリズムは、リスクスコアを得るために、試料ががん細胞由来のDNAを含有する確率に従って試料を分類する。
【0056】
特定の実施形態は、本発明による分類アルゴリズムとしての加算線形スコアの使用に関する。
【0057】
特定の実施形態は、
- 重み付けされた複数のDMRメチル化値を得るために、複数のDMRメチル化レベルの各々と、任意の1つのDMRについて観察される相対的予測力に応じて計算される加重値とを乗算すること、及び
- リスクスコアを得るために、この複数の重み付けされたDMRメチル化値の合計を計算すること、
による加算線形スコアに測定工程で得られた複数のDNAメチル化レベルを供することに関する。
【0058】
任意の1つのDMRの相対的予測力は、実施例で使用される複数のHCC及び非HCCの患者試料の試験コホート及び検証コホートの間で観察されるDNAメチル化の量とばらつきとの関数である。HCCの上位38、20、10、8、5、3、及び2個の予測DMRを実施例の表1~7に示す。
【0059】
測定工程のいくつかの実施形態は、上位の予測領域DMR1を含む複数のDMRにおけるメチル化レベルの決定に関する。
【0060】
測定工程の他の実施形態は、上位2つの予測領域DMR1及びDMR4を含む、又はそれらからなる複数のDMRにおけるメチル化レベルの決定に関する。
【0061】
測定工程の他の実施形態は、上位3つの予測領域DMR1、DMR4、及びDMR28を含む、又はそれらからなる複数のDMRにおけるメチル化レベルの決定に関する。
【0062】
測定工程の他の実施形態は、上位5つの予測領域DMR1、DMR4、DMR28、DMR35、及びDMR36を含む、又はそれらからなる複数のDMRにおけるメチル化レベルの決定に関する。
【0063】
測定工程の特定の実施形態は、上位8つの予測領域DMR1、DMR4、DMR6、DMR7、DMR31、DMR35、DMR28及びDMR23を含む、又はそれらからなる複数のDMRにおけるメチル化レベルを決定することに関する。
【0064】
測定工程の特定の実施形態は、上位10個の予測領域DMR1、DMR4、DMR27、DMR6、DMR2、DMR16、DMR31、DMR35、DMR28、及びDMR23を含む、又はそれらからなる複数のDMRにおけるメチル化レベルの決定に関する。
【0065】
実施例で示されるマルチコホートメタ解析は、がん由来細胞を含有した、又は含有しなかった2つの試料群における2~38個のDMRの高又は低DNAメチル化の大きさ及びばらつきから得られる情報を組み込む予測リスクスコアを実証する。組み込まれたDMR値の数に応じた閾値と比較される場合、前記予測リスクスコアは、患者試料が肝組織試料であろうと、又は血清試料であろうと、がん細胞由来、特にHCC細胞由来のDNAメチル化シグネチャーが患者試料中に存在するか否かを頑健に同定することができる。
【0066】
上記に規定された割り当て工程のいくつかの実施形態は、上記に規定されたリスクスコアと、がん試料と非がん試料とを正確に識別する閾値とを比較するプロセスに関する。いくつかの実施形態において、複数のDMRメチル化値を上記に規定されるとおりの予測アルゴリズムに入力することによって得られるリスクスコアが、閾値と等しいか、又は閾値以上であることは、患者ががんを有する確率が高いことを示す。逆に、リスクスコアが閾値未満であれば、患者ががんを有する確率が低いことを示す。
【0067】
本発明の特定の実施形態は、分類モデルを訓練することによって得られる評価工程における予測アルゴリズムの使用に関する。新しい値を分類できるアルゴリズムを開発するために、分類モデルは訓練値の入力を使用する。本発明による適切な分類モデルには、ロジスティック分類モデル、又はエラスティックネット分類モデル、特にリッジ回帰分類モデルが含まれるが、これらに限定されるものではない。実施例で調査したコホートで実証されるデータは、正則化パラメーターを1としたリッジ回帰分類モデルを用いて、加算線形スコアの一部としてDMRメチル化値に適用する適切な係数又は個々の加重値が得られることを実証する。
【0068】
がんを有する、又は有していないと以前に決定された患者から得られた複数の試料を用いて分類モデルを訓練することに関する特定の実施形態では、本発明のこの実施形態による訓練試料のコホートは、ほぼ等しい割合の以下の試料:
- がん由来のDNAを含有すると以前に決定された血漿試料などの無細胞試料、
- がん由来のDNAを含有すると以前に決定された組織生検、
- 健常対象及び/又は例えば慢性肝疾患又は敗血症などの他の疾患を有する患者の血漿試料などの無細胞試料、及び
- 健常対象及び/又は例えば慢性肝疾患又は敗血症などの他の疾患の患者の組織生検対照試料、
を含む。
【0069】
本発明による予測アルゴリズムで使用する係数及び閾値の統計的に信頼できる値を得るために、上記の4つのサブセットのそれぞれは、ほぼバランスのとれた数で存在する場合にその全体を分類モデルを訓練するために使用することができ、あるいは大きな集団をバランスのとれたデータセットの反復的なランダムなアンダーサンプリングに供することができる。
【0070】
特定の実施形態は、個々の加重値(係数)を乗じた各選択されたDMRの合計に基づいてリスクスコアを生成するモデルアルゴリズムを得るためのロジスティック回帰、特にリッジ回帰分析の使用に関する。本発明による個々の加重値は、がんを含有する試料と健常対照試料とを区別する各DMRの能力を反映する。リスクスコアは、がん由来のDNAを含む試料を正確に分離する閾値と比較することができる。個々の加重値の値は、本発明によれば特に限定されず、予測アルゴリズムに使用するために選択されるDMR測定値、予測アルゴリズムを開発するために使用される分類モデルの種類、及び所望の精度のレベルに依存する。このような加重値の例を表1~表7に示す。
【0071】
本発明による閾値は、例えば、最も高いFスコア(Sorensen-Dice係数、又はDice類似度係数)を有する値又はリスクスコアを見つけることにより、最も高い正解率(accuracy)でがん由来試料をがんに由来しない試料から判別するリスクスコア値を見つけることによって同定され得る。言い換えれば、がんの状態が既知の患者コホートについて得られたリスクスコアに適用される閾値は、最高の適合率(precision)と再現値(recall value)とを達成し、ここで完全な適合率と再現値とは値1で示される。本発明の特定の実施形態は、HCC患者の分類が少なくとも90%、特に93%超過、より特に95%超過の再現率(recall)、及び少なくとも95%の適合率を達成する閾値に関する。本発明によるDMRの特定のサブセットから得られる、又はそれに適用されるメチル化値を利用する加算予測スコアでの使用に適切なこのような閾値を表1から表7に示す。
【0072】
加算線形リスクスコア計算における20~38個のDMRについて決定されたメチル化レベルの使用に関連する、本発明による測定工程の特定の実施形態では、割り当て工程で使用される閾値の絶対値は、0.70~1.70であり、特に1.00~1.50、より特に閾値の絶対値は約1.23である。
【0073】
本発明による割り当て工程の特定の実施形態は、がんを有する低い確率に関し、この確率はがんを有する確率が約6%と定義され、及び/又はがんを有する高い確率に関し、この確率はがんを有する確率が特に約94%と定義される。
【0074】
本発明の特定の実施形態は、がんの存在が疑われる組織の探索生検、及び/又は患者から採取される血液、血漿若しくは血清の試料から選択される患者試料の使用に関し、ここでDNAはまず試料から抽出され、その後に脱アミノ化DNAを生成するために脱アミノ化剤で処理される。
【0075】
特定の実施形態は、患者試料から抽出されるDNAに存在するジヌクレオチドCpG部位のメチル化形態又は非メチル化形態のいずれかを選択的に修飾する化学試薬の使用に関する。得られた修飾CpGは直接検出することができ、又は修飾部位を識別するさらなる試薬に曝露することができる。CpG部位の選択的修飾は、例えばヒドラジンイオン又は重亜硫酸イオンで処理することで達成できる。ヒドラジン処理したDNAは、CpGメチル化を同定するために、ピペリジンによる切断に対して標的され得る。
【0076】
特定の実施形態は、メチル化アッセイにおける重亜硫酸塩処理DNAの使用に関し、特に患者試料から得られたDNAを重亜硫酸ナトリウムで処理することに関する。このプロセスは、シチジン残基をウラシルに変換し、5-メチルシトシンは修飾せずにそのまま残す。処理されたDNAはさらに、メチル化遺伝子座又は非メチル化遺伝子座のそれぞれを区別するために、特定の部位に存在するシトシン又はウラシルのいずれかにハイブリダイズするように設計された核酸プローブと接触させることができる。プローブ結合は、配列決定(シーケンシング)、定量的ポリメラーゼ連鎖反応、又は例えば実施例で分析される患者試料集団のDNAメチル化レベルを測定するために使用されるイルミナ社製などのメチル化チップアレイなどの定量的手法によって評価することができる。CpG部位のDNAメチル化レベルを得るためのDNA配列決定法の使用に関する実施形態では、メチル化シトシンはシトシンの存在によって示され、一方、メチル化されていない残基はチミン残基として読み取られる。
【0077】
CpG部位のメチル化は、次世代シーケンシング、定量的ポリメラーゼ連鎖反応、又はメチル化アレイを含むがこれらに限定されない、当技術分野で知られているCpGジヌクレオチドのメチル化状態に感度のある方法によって測定することができる。
【0078】
特定の実施形態は、メチル化アレイを用いて得られたβメチル化値の使用に関する。
【0079】
いくつかの実施形態では、測定工程は、患者試料から調製した脱アミノ化DNAを、特定のCpG部位に特異的な核酸プローブと接触させることを含む。
【0080】
特定の実施形態は、患者試料から調製した脱アミノ化DNAを、蛍光標識を有する核酸プローブと接触させることに関する。例えば、メチル化アレイの核酸プローブ又はTaqManプローブが挙げられるが、これらに限定されない。
【0081】
いくつかの実施形態では、特定のCpG部位の1つに特異的な核酸プローブが、このCpGにおけるDNAメチル化レベルを決定するためにシーケンシング反応で使用される。特定の実施形態では、2つのプローブを用いて、メチル化配列と非メチル化配列とに特異的にハイブリダイズさせ、それによってメチル化配列と非メチル化配列とを検出及び定量する。このような実施形態では、例えば非メチル化シトシンをウラシルに変換可能な酵素、又は同様にCをUに変換する重亜硫酸塩変換などによって達成される変換反応によって生じた配列に特異的なあるプローブを採用することができる。変換の影響を受けないメチル化部位に特異的にハイブリダイズするように別のプローブを採用する。この2つのプローブは、同じ反応ミックス中で異なる蛍光チャネルに対して検出可能な異なる蛍光色素によって標識することが可能である。
【0082】
ナノポア検出では、特定のプライマーを用いて、変換された配列又は変換されていない配列をそれぞれ増幅し、次いでそれを直接配列決定する。
【0083】
本発明の先の実施形態又は態様のいずれか1つによる方法の特定の実施形態は、肝細胞がん(HCC)DNAメチル化シグネチャーが患者試料中に存在するか否かを決定するために、患者試料から抽出されたDNA中の表1に規定されるDMRのうちの8~20個のDNAメチル化レベルを測定することを含む方法に関し、ここで前記DMRのうちの1つはDMR1である。
【0084】
本発明はさらに、ヒト組織試料、又は血漿及び血清を含む無細胞試料中の肝細胞がんDNAの状態の検出のためのキットの製造における使用のための、上記で規定されたDMR1~DMR38の3個以上、特に8~10個以上、より特に20個以上の各々における規定されるCpG部位の1つ又は複数にメチル化依存的様式で結合する1つ又は複数の核酸プローブの使用を包含する。
【0085】
特定の実施形態において、本キットは、肝臓がんの早期発見を可能にするために、肝硬変と診断された患者から得られる液体の血液試料の定期的なスクリーニング(特に年1回、より特に年2回の間隔)に提供される。
【0086】
特定の実施形態において、本発明による方法は、以前に肝硬変と診断された患者から得られた試料に適用される。いくつかの特定の実施形態では、試料はC型肝炎と診断された患者から得られる。
【0087】
特定の実施形態において、本発明による方法は、患者が肝臓がんの一種、特にHCCの発症に近づいているか、あるいはすでに進行している可能性を判定するために、肝硬変と以前に診断された患者から得られた試料に適用される。より特定の実施形態では、患者が肝臓がん、特にHCCに進行しているかどうかを判定するために、肝硬変と診断された患者に対して、例えば6ヵ月間隔で、定期的なスクリーニング戦略として本方法を適用する。特定の実施形態では、がんを有する確率が高いと割り当てられた患者には、MRI又は肝生検手順など、より侵襲的又は費用の高いスクリーニングプロトコルが推奨される。
【0088】
本発明のさらなる態様は、肝硬変と以前に診断された患者を含め、上記のとおりの方法によってがんを有する確率が高いと割り当てられている患者の治療における使用のための医薬組成物に関し、この組成物は抗悪性腫瘍治療剤を含む。上記の診断方法により、がんが比較的進行している肝硬変患者(しかし、これに限らない)などの患者が同定される場合、特にここでがんを有する確率が高いことを割り当てられた後に画像診断及び腫瘍病理組織学的分析が実施される場合、肝臓以外の臓器などへの転移、門脈浸潤、又はパフォーマンスステータス(Performance Status)分類1又は2が割り当てられており、化学療法剤が提供される。特定の実施形態において、化学療法剤は、レンバチニブ、レゴラフェニブ、カボザンチニブ、ラムシルマブ、又はソラフェニブから選択される。特定の実施形態では、化学療法剤はソラフェニブである。別の実施形態において、薬剤は、CTLA-4(Uniprot P16410)、PD-1(Uniprot Q15116)、PD-L1(Uniprot Q9NZQ7)、B7H3(CD276;Uniprot Q5ZPR3)、VISTA(Uniprot Q9H7M9)、TIGIT(Uniprot Q495A1)、TIM-3(HAVCR2、Uniprot Q8TDQ0)、CD158(キラー細胞免疫グロブリン様受容体ファミリー)、TGF-β(P01137)の群に含まれるチェックポイント調節分子に対して反応性の抗体の群から選択されるチェックポイント阻害剤である。特定の実施形態において、薬剤は、イピリムマブ(Bristol-Myers Squibb;CAS番号477202-00-9)、ニボルマブ(Bristol-Myers Squibb;CAS番号946414-94-4)、ペムブロリズマブ(Merck Inc.;CAS番号1374853-91-4)、ピジリズマブ(CAS番号1036730-42-3)、アテゾリズマブ(Roche AG;CAS番号1380723-44-3)、アベルマブ(Merck KGaA;CAS番号1537032-82-8)、デュルバルマブ(Astra Zenaca;CAS番号1428935-60-7)、及びセミピリマブ(Sanofi Aventis;CAS番号1801342-60-8)から構成される群から選択される。
【0089】
本発明のさらなる態様は、画像分析及び/又は病理組織学的腫瘍分析の結果と組み合わせて、バルセロナ-クリニック肝臓がん病期分類システム(Khorsandi S.E.,HBP Surgery 2012,2012:154056,その内容全体が参照により本明細書に組み込まれる)によって提供される推奨の臨床適用に従って、本明細書で概説した方法によりがんを有する確率が高いと割り当てられている肝硬変患者を治療する方法に関する。
【0090】
本発明は、肝硬変と以前に診断されている患者を治療する方法を包含し、ここでこの患者は、上記の態様及び実施形態のいずれか1つに規定される方法によってがんを有する可能性が高いと分類されている。患者がウイルス性肝硬変又はアルコール性肝硬変ではなく、がんを有する可能性が高いと分類される場合、その後患者は、当技術分野で知られている肝臓がん治療の臨床的ベストプラクティスに従って、すなわち、早期から徐々に以下の後期介入を適用する順番に従って治療される:
- 切除手術、
- 肝移植手術、
- 高周波又はマイクロ波アブレーション、
- 経動脈的化学塞栓療法、
- レンバチニブ、レゴラフェニブ、カボザンチニブ、ラムシルマブ、ニボルマブ、又はペムブロリズマブ又はソラフェニブ、特にソラフェニブから選択される化学療法剤、及び/又は
- 本明細書に開示されるチェックポイント阻害剤による免疫療法、特にイピリムマブ(Bristol-Myers Squibb;CAS番号477202-00-9)、ニボルマブ(Bristol-Myers Squibb;CAS番号946414-94-4)、ペムブロリズマブ(Merck Inc.CAS番号1374853-91-4)、ピジリズマブ(CAS番号1036730-42-3)、アテゾリズマブ(Roche AG;CAS番号1380723-44-3)、アベルマブ(Merck KGaA;CAS番号1537032-82-8)、デュルバルマブ(Astra Zenaca;CAS番号1428935-60-7)、及びセミプリマブ(Sanofi Aventis;CAS番号1801342-60-8)から構成される群から選択されるチェックポイント阻害剤による免疫療法。
【0091】
記載された方法は、本明細書で議論されるように、第1に患者ががんを有する確率が高いかどうかを決定し、次にそのように分類された患者のみを治療することによって、肝硬変からHCC若しくは胆管がんなどの肝臓がんに進行する可能性が最も高い患者のみに抗腫瘍療法を提供する能力を提供する。
【0092】
肝硬変と以前に診断された患者を治療する方法は、以下を含む:
ex-vivoの患者試料、特に肝生検及び/又は血液、血漿若しくは血清試料において、以下を含むか又はそれからなるリストから選択される2~38個、特に8~38個、より特に8~20個のメチル化差異領域(DMR)のメチル化レベルを決定することであって:
- CpG部位(cg)144855744、cg20547777、及び/又はcg16009311を含むDMR1;
- cg25366404、cg08864240、cg03422350、cg09655253、及び/又はcg10791278を含むDMR2;
- cg07003643、cg10904867、cg16996281、cg19560971、及び/又はcg09186818を含むDMR3;
- ccg17571559、cg09666573、cg11702866、cg17660833、及び/又はcg05551003を含むDMR4;
- cg14021523、cg07040024、及び/又はcg27088038を含むDMR5;
- cg06753985、cg02457346、及び/又はcg27146824を含むDMR6;
- cg16987638、cg22399984、cg09113474、及び/又はcg04206219を含むDMR7;
- cg24932457、cg14430141、cg21577836、及び/又はcg09473826を含むDMR8;
- cg26550936、cg25140531、cg11882607、cg23482898、及び/又はcg08851782を含むDMR9;
- cg27528748、cg27108629、及び/又はcg02475600を含むDMR10;
- cg20511797、cg13847987、及び/又はcg13803765を含むDMR11;
- cg09754845、cg25029797、cg22646311、及び/又はcg06635328を含むDMR12;
- cg24224304、cg00512726、cg25936177、cg16179969、cg07726953、cg24569447、及び/又はcg10151685を含むDMR13;
- cg10759972、cg02860599、及び/又はcg08625822を含むDMR14;
- cg24202448、cg03920764、及び/又はcg09845293を含むDMR15;
- cg09816096、cg22151985、及び/又はcg08901057を含むDMR16;
- cg23551720、cg24095592、及び/又はcg03260240を含むDMR17;
- cg05469574、cg12432526、cg04172640、及び/又はcg06862949を含むDMR18;
- cg26134665、cg02043600、cg03793804、cg25033993、cg07537206、cg03144232、及び/又はcg05787209を含むDMR19;
- cg09343092、cg03368099、cg25390165、cg20817131、cg01323381、cg03744763、cg14013695、cg05774699、cg03207666、cg12015737、cg14058329、cg19643053、cg07049592、cg02106682、cg27151303、cg21641458、cg14882265、cg05579037、cg13694927、cg17432857、cg23454797、cg08070327、cg25506432、cg00969405、cg01748892、cg26023912、及び/又はcg16997642を含むDMR20;
- cg21591742、cg03918304、cg25371634、cg18115040、cg13217260、cg20649017、及び/又はcg17489939を含むDMR21;
- cg26465391、cg08668790、cg01268824、cg21790626、cg05661282、cg12506930、cg03142586、cg11294513、cg27049766、及び/又はcg03234186を含むDMR22;
- cg05105207、cg04024865、及び/又はcg01887388を含むDMR23;
- cg07003643、cg10904867、cg16996281、cg19560971、及び/又はcg09186818を含むDMR24;
- cg08992305、cg00393585、cg12861945、cg06481168、cg11630554、cg25904183、及び/又はcg20697094を含むDMR25;
- cg05670004、cg06999856、cg26768075、cg16692735、及び/又はcg02613809を含むDMR26;
- cg15699085、cg04071270、及びcg06883126を含むDMR27;
- cg18512232、cg27110938、cg13806267、cg25877512、cg15909725、cg05033439、cg03134809、cg18431486、及び/又はcg01998856を含むDMR28;
- cg26882224、cg04886934、及び/又はcg17057098を含むDMR29;
- cg07481320、cg14931854、及び/又はcg24520538を含むDMR30;
- cg19885761、cg17847520、cg23495748、cg07295964、cg10312572、cg22776578、cg14648916、cg05958740、cg18909295、cg18328894、及び/又はcg15630459を含むDMR31;
- cg10237990、cg16800851、cg18411550、cg08358392、cg18798995、cg08106148、cg07826275、cg24516147、及び/又はcg09710740を含むDMR32;
- cg11044099、cg12120367、cg00583001、cg26831001、cg04600055、及び/又はcg17398515を含むDMR33;
- cg00603340、cg26600753、cg17279652、及び/又はcg12717963を含むDMR34;
- cg02532030、cg22136013、cg08313040、cg02375585、cg11715943、cg17664233、cg01309395、cg18927185、cg05547391、cg12208000、及び/又はcg15737123を含むDMR35;
- cg15712310、cg01635555、cg01744822、cg06984903、及び/又はcg01394847を含むDMR36;
- cg19846168、cg00779565、cg15203905、及び/又はcg23640231を含むDMR37;
- cg24428372、cg24737408、cg23900228、cg01144768、及び/又はcg22405774を含むDMR38、
ここで、前記DMRのメチル化レベルは、複数のDMRメチル化レベルを提供する前記DMR内に含まれるCpG部位の1つ、又は2つ以上の平均のメチル化レベルであり;かつ
ここでDMR2、DMR4、DMR5、DMR9、DMR10、DMR14、DMR15、DMR16、DMR18、DMR23、DMR24、DMR28、DMR29、DMR35、及び/又はDMR37に対して決定されるメチル化レベルは、そのDMRの高メチル化を示し、及び/又は
ここでDMR1、DMR3、DMR6、DMR7、DMR8、DMR11、DMR12、DMR13、DMR17、DMR19、DMR20、DMR21、DMR22、DMR25、DMR26、DMR27、DMR30、DMR31、DMR32、DMR33、DMR34、DMR36、及び/又はDMR38に対して決定されるメチル化レベルは、そのDMRの低メチル化を示すこと;
患者が肝細胞がん(HCC)を有することを示し、その後に以下のリストから選択される治療を患者に施すこと(投与すること):
- 外科的切除、又は肝移植手術;
- 高周波アブレーション又はマイクロ波アブレーション;
- 有効量の化学療法剤、特にレンバチニブ、レゴラフェニブ、カボザンチニブ、ラムシルマブ、ニボルマブ、又はペムブロリズマブ若しくはソラフェニブ、より特にソラフェニブから選択される有効量の化学療法剤。
【0093】
本発明はさらに、HCC検出用キットの製造における使用のための定量的PCR及び/又はシーケンシング装置に加えて、プライマー、及び適切なオリゴヌクレオチドプローブの使用を包含する。
【0094】
本方法は、特に評価及び割り当て工程がコンピュータによって実行される、コンピュータ実装方法によって実施することができる。
【0095】
さらに、本方法は、コンピュータ上で実行される際に、コンピュータに少なくとも評価工程及び/又は割り当て工程を実行させるコンピュータプログラムコードを含むコンピュータプログラムによって実施することができる。特に、測定工程の結果は、ユーザー入力によって、及び/又は測定工程中に得られたメチル化レベルに関する情報を含むコンピュータ読み取り可能なファイルを提供することによって、コンピュータ及び/又はコンピュータプログラムに提供され得る。測定工程からの結果は、さらなる処理のために、コンピュータのメモリ又は非一過性の記憶媒体に保存することができる。
【0096】
別の態様において、本発明は、対象ががんを有するリスク又は可能性を決定するためのシステムを提供する。特定の実施形態では、前記がんは、肺がん、結腸がん、乳がん、肝臓がんである。より特定の実施形態では、本システムは、肝疾患患者がHCCを発症しているか、又は再発のリスクが高いかどうかを決定する。一実施形態において、本システムは、本明細書において同定されるとおり、メチル化差異領域(DMR)におけるメチル化、すなわち高メチル化又は低メチル化のレベルを検出する(探査する、又は明らかにする)ように設計及び構成された(明らかにすることができる)、複数のプローブを含む。特定の一実施形態では、前記複数のプローブは、DMRごとに2つのプローブのセットを含み、一方はメチル化された配列に特異的にハイブリダイズすることができ、もう一方は変換によってメチル化されていない配列から生成された配列に特異的にハイブリダイズすることができる。このシステムは、各プローブの信号レベルを読み出すために設計及び構成された装置、並びにコンピュータ(電子計算装置)及びコンピュータプログラムを含み、前記コンピュータプログラムは、コンピュータ上で実行される際に、コンピュータに上記で概説した本発明の態様のいずれか1つによる方法の工程を実行させるコンピュータプログラムコードを含む。例えば、DMR内の冗長なCpGのプローブについて平均メチル化値を計算し、又は複数のDMRのメチル化レベルに加重値を適用して、それらを特許の分類アルゴリズムに組み込むことが挙げられる。
【0097】
別の実施形態において、このシステムは、本明細書において同定されるとおり、メチル化差異領域(DMR)における高メチル化又はその非存在を検出することができるメチル化アレイを含む。
【0098】
例えば異なるDMRのサブセット、各DMR内のCpG部位の異なる選択、又はがんの種類など、単一の分離可能な特徴の代替形態が、本明細書において「実施形態」として示される場合、そのような代替形態は、本明細書に開示される本発明の個別の実施形態を形成するために自由に組み合わされ得ることを理解されたい。したがって、DMRの別の実施形態のいずれかを、がんの種類の別の実施形態のいずれかと組み合わせることができ、これらの組み合わせは、本明細書に記載されている任意の診断方法と組み合わせることができる。
【0099】
本発明は、以下の実施例及び図によってさらに説明され、そこからさらなる実施形態及び利点を引き出すことができる。これらの実施例は、本発明を説明するためのものであり、その範囲を限定するものではない。
【0100】
表1はこの38個の予測可能なメチル化差異領域(DMR)を示し、平均は反復リッジ回帰分析を用いて同定された加重値(係数)であり、試験及び訓練データセット内の試料を分類するために、DMRシグネチャーリスクスコア閾値、及び性能の再現率及び適合率を38個のDMRすべてからのデータを用いて計算した。また、バイオインフォマティクスのDMR同定に使用されたクラスターアノテーション、ヒトリファレンスゲノム38(hg38)上のDMRのゲノム位置、各DMR内で評価されたマイクロアレイプローブによって測定されたCpG部位、及び訓練及び試験データセットの非HCC試料と比較したHCC試料における各DMRの相対的平均メチル化も示した。
【0101】
表2は、表1のとおりの線形回帰分類器リッジ回帰分析を使用して20個のDMRの選択について同定された平均(mean)加重値(係数)、標準偏差(StD)、並びに再現率(recall)及び適合率(precision)に対して計算されたDMRシグネチャーリスクスコアの閾値及び性能を示す。
【実施例】
【0102】
実施例1:
HCCバイオマーカーの発見のためのDNAメチル化データセット
組織及び血漿cfDNAの試料からHCCを検出するためのDNAメチル化バイオマーカーの包括的なセットを定義するために、高スループットのイルミナベースのInfinium 450K及びEPICアッセイを用いて、ゲノムワイドのDNAメチル化変化を特徴づけるHCC関連性研究を特定した。上記で定義された基準に合致する859試料の訓練及び試験セットを:HCC患者由来のHCC組織及びcfDNA試料;複数の病因による肝硬変組織、及び肝硬変患者からのcfDNA;健常肝組織;及びその他の非HCC疾患組織(例えば肝肥満及びα1アンチトリプシン欠損症など)及び非HCC患者からのcfDNA(例えば敗血症及びその他のがん種など)をカバーする6つの異なる研究から集めた。
【0103】
合計452,567個のメチル化部位(CpG部位)に対して利用可能であるDNAメチル化レベルが測定され、メチル化レベルはβメチル化値を用いて表され、0(低メチル化)~1(高メチル化)の範囲である。すべてのデータセットを、生のIDATファイルからインポートされるシグナル強度を含む単一のマトリックスにマージし、機能正規化パイプラインを用いて処理した(Fortin,J.Pら,2014,Genome Biol.15:503)。メチル化チャネルと非メチル化チャネルとの間の比率を計算し、100のオフセット(イルミナのメチル化アレイの推奨標準オフセット)で、小数点第5位に丸めたβメチル化値(β)[EQ1]としてエクスポートした:
【数1】
【0104】
下流の分析では、いくつかのフィルタリング工程を行った:(i)マイナーアレル頻度(minor allele frequency:MAF)が0.01より低いCpG部位又は一塩基延長に一塩基多型(single nucleotide polymorphism:SNP)を含むプローブを下流の解析から除外した;(ii)maxprobes Rパッケージ(v0.0.2)を用いて、イルミナのメチル化アレイの交差反応性プローブを除去した;(iii)欠損値のあるCpG部位を放棄した;(iv)hg38リファレンスビルドにマッピングされた更新されたプローブアノテーション、及び利用可能なアライメントがないプローブは考慮しなかった;及び(v)性別に対するマッピングに依存しないCpG部位のバイオマーカーに焦点を当てるため、性染色体X及びYを下流の分析から除外した。最終的にフィルタリングされたDNAメチル化マトリックスは、全試料にわたっていずれの欠損値のない合計390,445個のCpG部位をカバーした。
【0105】
さらに、692個の組織試料を含む検証データセットは、元のデータ又は出版物は利用できなかったが、処理済みのβメチル化値は入手できた7つの独立したデータセットから集めた。この検証データセットには、本試験で使用したアプローチの独立した検証として、異なる実験及び分析パイプラインによる複数の試験が含まれる。全体として、集められた1,500超過の全ゲノムDNAのメチル化アレイは、肝硬変などの疾患背景に臨床的に関連するHCCのDNAメチル化バイオマーカーを発見及び検証するための不均一かつ包括的なリソースを表す。
【0106】
高品質かつ有益なDNAメチル化領域の教師なし選択
HCC患者試料は、低メチル化プロファイルと高メチル化プロファイルとを有する複数のクラスター化したCpG部位の区別可能なパターンを示した。CpGクラスターは、Bump Hunter Rパッケージ(v1.30.0)のclusterMaker関数を用いて、連続する2つの部位が多くとも500塩基対(bp)離れているような、少なくとも3つのCpG部位にまたがるものと定義した。CpGクラスターを、上記のように定義されたフィルターされたCpG部位と重複し、少なくとも3つのCpG部位が測定されたCpGクラスターのみを考慮した。最終的なCpGクラスターのマトリックス(行列)を、各クラスター領域内でフィルタリングされたすべてのCpG部位の平均を取ることによって定義し、39,868個のCpGクラスターにまたがるDNAメチル化のマトリックスを生成した。これは、潜在的な交絡因子の作用の影響を軽減し、HCCの頑健で一般化可能なバイオマーカーを明らかにするために、個々のCpG部位ではなくゲノム領域に焦点を当てるためである。
【0107】
HCCを予測するメチル化領域の発見
組織及びcfDNAにおいてHCCを肝硬変試料のバックグラウンドから区別するために、HCCを予測するメチル化領域を見つけるために、線形サポートベクターマシン分類法(linear support vector machine classifier:LinearSVC)を、一度に1個の試料を予測試験用に残し、他の858個の試料を訓練セットとして使用するリーブワンアウト交差検証(eave-one-out cross-validation)戦略を用いて訓練した。
【0108】
バランスのとれたデータセットを用いることにより、メチル化差異領域及び予測領域を2段階のアプローチで同定した。第1に、潜在的な共創因子、すなわち性別、年齢、全体的なメチル化、及び腫瘍の純度などの影響を除去することによって、メチル化差異領域(DMR)を同定する。次に、HCC(HCC-T及びHCC-CF)試料と肝硬変(C-T及びC-CF)試料との間のメチル化差異解析を行い、それらの潜在的な影響を考慮するために、線形モデリング順序で共変量として前述の変数を組み込んだ。有意に差異的にメチル化されたCpGクラスター(尤度比検定FDR<1%)のみをモデルトレーニングに選択した。
【0109】
DMRは、比率検定及び分散分析のFDRが1%未満のCpGクラスターとして定義される。したがって、リーブワンアウト手順全体での中央値は1,355個のDMRである。HCCと肝硬変、並びにcfDNAと組織試料を同じ割合で含む合計88試料をモデルトレーニングに使用した。より少ないcfDNA試料セットに関連する情報を最大限に保持するため、cfDNA試料を分析する際に、この試料を訓練に使用せず、したがって各クラスの試料総数は21個に減少し、それ故代わりに合計84個の均等に分布した試料が使用される。
【0110】
HCCメチル化シグネチャーの評価、比較、及びアセンブリ
予測的メチル化シグネチャーのための最適なDMRの数を見つけるために、特徴セットにDMRを加えることを順次試験し、得られたLinearSVCモデルの適合性及び再現性を評価した。HCC試料で同定されたDMRは、モデルで考慮されるDMRの数を減らすために、ペナルティパラメータ(C)を1.5に設定したL1正則化を用いて線形サポートベクターマシン(LinearSVC)を訓練することにより、HCCを予測する能力を評価した。そして、訓練済みのモデルにおいて重みがゼロでないDMRを、HCC試料を分類する最も予測的なDMRと定義する。859回のリーブワンアウト法の繰り返しで1モデルあたり38個のHCC予測DMRの中央値が同定され、ここで全トレーニング済みモデルの少なくとも5%(n=43)で、150個の固有なDMRが見出された。再現率及び適合率は10個のDMRまで急激に増加し、それ以降は試験データセット及び検証データセットは、小さいながらも一貫した性能の向上を示している。最適モデルにおける各DMRの頻度はその絶対平均効果量と正の相関があるという事実と共に、リーブワンアウト交差検証手順における最も頻度の高い上位38個のDMRである(
図2)。
【0111】
得られたDNAメチル化シグネチャーを、出版物4件(Villanueva A.ら,2015.Hepatology 61:1945;Hlady R.A.ら,2019.Theranostics 9:7239;Cheng J.ら,2018.Genome Med.10:42;Aran D.ら,2015.Nat.Commun.6:8971)、及び特許7件(韓国特許(KR)第102103885号(B1);米国公開特許(US)第2019300965号(A1);US第20180216195号(A1);US第2020263256号(A1);日本公開特許(JP)第2018508228号(A1);JP第2018508228号(A2);US第20200299776号(A1))による13セットのCpG部位を含む文献から集められた他の類似アプローチと比較した。潜在的な方法論的な偏りを回避するために、以前に使用されていたサポートベクターマシンモデルとは対照的に、ロジスティック分類モデルと線形分類モデルを使用するアンサンブルモデル(ensemble model)を使用した。このアプローチでは、リーブワンアウト交差検証で試験するために抜かれた試料のHCCの状態を繰り返し予測する。すべてのモデルの性能は、複数の標準的な性能指標、すなわち、再現率、適合率、正解率、Mathewの相関係数(Mathew’s correlation coefficient:MCC)、及びバランスのとれた正解率を用いて推定された。組織試料の全体的な適合率と再現率のスコアは0.8超過であり(
図3a)、cfDNA試料のサブセットを予測する場合、すべてのモデルの性能が低下したが、適合率は影響が少なかった(
図3a及び3b)。次に、検証組織試料データセットを独立したベンチマークとして使用し、全体的な特徴セットは平均96%の適合率及び86%の再現率を提供することが観察された(
図3c)。本試験のシグネチャーは、適合率(98%)を維持したまま、最も高い再現率(95%)を得た(
図3c)。
【0112】
このアプローチは、高メチル化領域及び低メチル化領域のシグネチャーが、肝硬変試料、健常試料、及びその他のHCC試料を区別することが成功できたことを確認することができ、他のDNAメチル化シグネチャーに対して正のベンチマークを示し、特に組織試料とcfDNA試料との両方で、低い偽陰性率、すなわち高い再現率を示した。
【0113】
肝細胞がんのメチル化診断指標
次に、HCCの早期検出のための診断指標として使用するDNAメチル化シグネチャー全体からの情報を包含することができる単一指標を定義するために、合計214個(そのうちHCCにおける有意な高メチル化と低メチル化とが示されたのは118個と74個とである(
図3d、表1))のCpG部位を含む上位38個のDMRを使用した。
【0114】
上記と同様に1,000個のバランスのとれた訓練データセットをランダムに生成し、線形回帰分類器を訓練することにより、このシグネチャーにおける各DMRの重要度(importance)及びばらつきを推定した(
図4a)。次に、各モデルによって学習される符号付き平均係数で重み付けされた、各々の38個のDMRのメチル化シグネチャーの合計から構成される加算線形スコア(DMRシグネチャーリスクスコア)を作成した。言い換えれば、すべての訓練済みモデルで平均係数の絶対値が高いDMRは、スコアでより優位になる。簡単に説明すると、この線形リスクスコアは、リーブワンアウト交差検証にてバランスのとれた試料セットで訓練された線形サポートベクターマシン(LinearSVC)において、非ゼロの重みで再帰的に存在する上位38個のDMRの統合されたスコアである。各DMRの重要度(重み)を、αパラメーターを1に設定したリッジ分類器を訓練するために使用されるバランスのとれたデータセットの1,000通りの並べ替えを使用して推定し、ゼロ以外として保持しながらモデルの特徴係数(個々の加重値)の正則化を確保した。そして、各DMRの平均及び標準偏差を、1,000回の反復すべてで計算する。次いで平均係数を、線形DMRシグネチャーリスクスコアにおいて、より大きい絶対スコアを持つ特徴がより優位となる加重加算スコアで使用する。この特徴セット及び重みに基づいて、各試料のスコアを計算する。試料のリスクスコア及びHCC状態を用いて、再現率及び適合率の曲線を作成した。最適な閾値、並びに適合率及び再現率を、曲線に沿って可能な最良のF1指標に基づいて推定する。
【0115】
上位38個のDMRを重要度の高い順に並べ(絶対平均係数、表1)、上位1~38個のDMRの適合率及び再現率を、訓練及び試験データセットで訓練し、検証データセットを用いて試験することによって、試験した。ここでもまた、適合率は比較的安定した状態であったが、再現率はDMRが8~10個までは急峻に増加し、10~22個は試験データセットと検証データセットでは小さいながらも一貫した性能の向上を示し、22~38個では、評価された指標が徐々に安定することから、わずかな改善を推測することができる(
図4b)。正則化パラメーターαを1に設定したリッジ分類器をフィッティングすることにより、選択されたDMRのサブセットに従って係数を推定する。これをそれぞれの上位2、3、5、8、10、20、38個のシグネチャーについて独立して行った結果、HCC分類のための調整された係数及び閾値を得た(表1、2、
図4b)。選択されたDMRのサブセットは、再現値及び適合値によって示されるとおり、HCC患者を健常対照又は肝硬変対照から正確に分類することができた。モデルを、組織生検のHCC試料及び肝硬変試料のランダムなアンダーサンプリングと、同数のHCC及び肝硬変の液体生検(リキッドバイオプシー)試料を共に用いて訓練し、各クラスが同様に表現されることを確保した。ランダムなアンダーサンプリングは、上位20個及び上位38個の各シグネチャーについて1,000回実行される。
【0116】
DMRシグネチャーリスクスコアを、試験及び訓練及び検証のデータセットの全試料について計算し、試料をHCCへの割り当ての可能性に従ってランク付けした。他のCpG部位シグネチャーについても線形リスクスコアを推定し、独立した検証データセットでは、DMRシグネチャーに基づくスコアが性能に優れ、HCCの非常に正確な予測を提供することが観察された(
図4c)。さらに、DMRシグネチャー及びスコアの訓練から除外された訓練及び試験データセットの試料では、DMRシグネチャーリスクスコアは、HCC試料と非HCC試料とを明確に分け、再現率(感度)は86%、適合率は83%であった(
図5a、b)。
【0117】
cfDNA試料は、腫瘍生検試料と比較して腫瘍由来のDNAの割合が低いため、メチル化シグナルに関するバックグラウンドはノイズが多いが、組織生検と比較して血漿又は血液などの液体試料の取得が容易であるため早期診断アプローチに関連性がある。HCC及び肝硬変のcfDNA試料に加え、健常対照、敗血症、並びに肺、乳房、大腸など他の組織のがんを有する患者のcfDNA試料もまた評価した。ここでもHCC指標は、シグネチャー及びスコアの訓練に使用されたcfDNAのHCC試料と肝硬変試料とを明確に分離した。
【0118】
主にHCCのがん試料を用いて訓練したDMRシグネチャーのリスクスコアはまた、敗血症対照又は健常対照と比較して、他のがん患者のcfDNA試料も完全に同定することができた(再現率88%、適合率78%)(
図5c及びd)。このことは、HCCのバイオマーカーが、複数のがんにわたりメチル化差異を検出することを示唆している。包括的に、上位38個のDMRから導出されたリスクスコアは、HCC試料の分類に成功し、乳がん、肺がん、及び結腸直腸がんを含む他の悪性腫瘍由来の7個(11個中)のcfDNA試料を同定した。
【0119】
線形リスクスコアは、不均一なバックグラウンドを有する多くの異なるデータセットにおいて(
図5e)、そして最も重要なことは組織生検と液体生検との両方において(
図6)、頑健な予測力を有するHCCの診断のための価値ある指標である。各DMRで同定される複数のCpG部位の冗長性は、上位8、10、20、又は38個のDMRのメチル化レベルに寄与する1、2、又は3個のいずれかのCpG部位のランダムなアンダーサンプリングを実行することによって確認した。再現率は、DMRごとに考慮されるCpG部位の数とは無関係に、使用される上位のDMRの数と共に増加することを観察した(
図7)。
【0120】
もたらされるDMRシグネチャーリスクスコアは、類似のメチル化プロファイルを持つ複数の連続したCpG部位を包含するメチル化差異領域(DMR)からの情報を組み込み、液体生検の頑健なバイオマーカーを提供し、出版物及び特許によるHCCの複数のDNAメチル化シグネチャーと比較して良好である。
【0121】
【表1】
【表2】
【表3】
【表4】
【表5】
【表6】
【表7】
【国際調査報告】