(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024052653
(43)【公開日】2024-04-11
(54)【発明の名称】腫瘍の分類推定システム
(51)【国際特許分類】
G16H 10/40 20180101AFI20240404BHJP
【FI】
G16H10/40
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023171335
(22)【出願日】2023-10-02
(31)【優先権主張番号】P 2022158026
(32)【優先日】2022-09-30
(33)【優先権主張国・地域又は機関】JP
【新規性喪失の例外の表示】新規性喪失の例外適用申請有り
(71)【出願人】
【識別番号】000125347
【氏名又は名称】学校法人近畿大学
(74)【代理人】
【識別番号】100118924
【弁理士】
【氏名又は名称】廣幸 正樹
(72)【発明者】
【氏名】松村 謙臣
(72)【発明者】
【氏名】高松 士朗
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA03
(57)【要約】 (修正有)
【課題】ある腫瘍がICIへの感受性を有するか否かを予見でき、臓器に関わらずICIが有効か否かに関する情報を得ることができ、ICIを用いた癌治療の指針を得ることができる、より精度の高い感受性の腫瘍の分類推定システムを提供する。
【解決手段】腫瘍の分類推定システム10は、癌細胞の変異シグネチャーと、前記変異シグネチャーのパターンによって分類されたサブタイプを記憶するメモリ12と、入力を前記変異シグネチャーとし、出力を前記サブタイプとする教師データを用いて機械学習によって分類モデルを生成する分類モデル生成手段14と、被分類腫瘍細胞の変異シグネチャーを入力する入力手段16と、入力された前記被分類腫瘍細胞の変異シグネチャーから前記分類モデルが推定した前記サブタイプを出力する出力手段18と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
癌細胞の変異シグネチャーと、前記変異シグネチャーのパターンによって分類されたサブタイプを記憶するメモリと、
入力を前記変異シグネチャーとし、出力を前記サブタイプとする教師データを用いて機械学習によって分類モデルを生成する分類モデル生成手段と、
被分類腫瘍細胞の変異シグネチャーを入力する入力手段と、
入力された前記被分類腫瘍細胞の変異シグネチャーから前記分類モデルが推定した前記サブタイプを出力する出力手段を備える腫瘍の分類推定システム。
【請求項2】
前記サブタイプは、
収集された全エクソームシーケンスデータに対して特徴変異シグネチャーのスコアを求め、1つの体細胞変異検出ツールでクラスタリングして得た、
喫煙歴と関連する喫煙群(SMK)と、
紫外線と関連するUVL群(UVL)と、
APOBECと関連するAPB群(APB)と、
DNAポリメラーゼε欠損に関連するPOL群(PLO)と、
MMR変異と関連するMRD群(MRD)と、
相同組換え修復異常と関連するHRD群(HRD)と、
加齢と関連するAGE群(AGE)と、
変異数が最も少ないゲノム安定群(GNS)の8サブタイプである請求項1に記載された腫瘍の分類推定システム。
【請求項3】
前記分類モデルは、4つ以上の機械学習された個別分類器で構成され、
前記個別分類器のうち3つ以上の前記個別分類器が一致する前記サブタイプがあった場合は、前記サブタイプを推定結果とし、
前記個別分類器のうち3つ以上の前記個別分類器が一致する前記サブタイプが無かった場合は、推定失敗を推定結果とする請求項1に記載された腫瘍の分類推定システム。
【請求項4】
前記分類モデルは、
Nearest Neighborと、Support Vector Machineと、Random ForestとLogistic Regressionの4つの個別分類器である請求項3に記載された腫瘍の分類推定システム。
【請求項5】
前記出力手段が出力したサブタイプが、前記喫煙群、前記UVL群、前記APB群、前記POL群、前記MRD群の1つであった場合に、ICI療法が有利であると予見し、
前記出力手段が出力したサブタイプが前記HRD群、前記AGE群、前記ゲノム安定群であった場合に、ICI療法が有利でないと予見する第2出力手段を有する請求項3に記載された腫瘍の分類推定システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は悪性腫瘍に対する免疫チェックポイント阻害剤(ICI)の感受性を、臓器横断的に予測するための癌の分類推定システムに関する。本発明は、悪性腫瘍および正常細胞のペアのエクソームシークエンシングデータを用いて、mutational signatureによるgenomic subtype分類を行う。さらに、その腫瘍がICIへの感受性が期待できるタイプか、そうではないタイプかを予見する。
【背景技術】
【0002】
近年、腫瘍に対する免疫チェックポイント阻害剤(以後単に「ICI」とも呼ぶ。)は、悪性腫瘍に対する治療ストラテジーを大きく変えた。しかし、ICIが著明な効果を示す腫瘍がある一方で、全く効果を示さない腫瘍もあり、その感受性を前もって予測することが重要である。
【0003】
特許文献1には、胃癌を患っている患者または胃癌を患っていると疑われる患者から得られた胃癌腫瘍試料を分類するための類別であって、浸潤性サブタイプ、増殖性サブタイプおよび代謝性サブタイプを含む前記類別を提供する。予測指標および前記類別の使用方法が開示されている。
【先行技術文献】
【特許文献】
【0004】
【非特許文献】
【0005】
【非特許文献1】Cibulskis K, et al. Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples. Nat Biotechnol 31, 213-219 (2013).
【非特許文献2】Fan Y et al. MuSE: accounting for tumor heterogeneity using a sample-specific error model improvessensitivity and specificity in mutation calling from sequencing data. Genome Biol. 2016 Aug 24;17(1):178.doi: 10.1186/s13059-016-1029-6.
【非特許文献3】Koboldt DC et al. VarScan 2: somatic mutation and copy number alteration discovery in cancer by exomesequencing. Genome Res. 2012 Mar;22(3):568-76. doi: 10.1101/gr.129684.111. Epub 2012 Feb 2.
【非特許文献4】Larson DE et al. SomaticSniper: identification of somatic point mutations in whole genome sequencing data.Bioinformatics. 2012 Feb 1;28(3):311-7. doi: 10.1093/bioinformatics/btr665. Epub 2011 Dec 6.
【発明の概要】
【発明が解決しようとする課題】
【0006】
これまで、ICIは、メラノーマなど特定の癌腫において高い感受性を示すことが知られている。さらに臓器横断的なICIのバイオマーカーとして、腫瘍におけるDNAミスマッチ修復機構の障害や高い遺伝子変異量が報告されてきた。しかし、高い遺伝子変異量が本当に臓器横断的なICIのバイオマーカーとなりうるのかは不明瞭であり、より精度の高い感受性の予測方法が求められていた。
【課題を解決するための手段】
【0007】
The Cancer Genome Atlas (TCGA)の9,794腫瘍を、エクソームシークエンシングデータに基づき、遺伝子変異を生じる原因を特徴づける遺伝子変異のパターン(mutational signature)によって分類したところ、全腫瘍が8種類(SMK(喫煙)、UVL(紫外線)、APB(APOBEC酵素)、POL(POLE変異)、MRD(ミスマッチ修復異常)、HRD(相同組換え修復異常)、GNS(ゲノム安定性)、AGE(年齢))に分類され、前5つでは腫瘍免疫が活性化していることを見出した。
【0008】
そこで、前5つをimmuno-resposive genomic subtype (irGS)、後3つをnon-irGSと名づけた。そして、他の腫瘍サンプルのエクソームシークエンシングデータを読み込んで、irGSかnon-irGSかを機械学習によって分類する腫瘍の分類推定システムを開発した。我々はこのシステムをGS-PRACTICE (Genomic Subtyping and Predictive Response Analysis for Cancer Tumor ICi Efficacy)と呼んでいる。
【0009】
より具体的に本発明に係る腫瘍の分類推定システムは、
癌細胞の変異シグネチャーと、前記変異シグネチャーのパターンによって分類されたサブタイプを記憶するメモリと、
入力を前記変異シグネチャーとし、出力を前記サブタイプとする教師データを用いて機械学習によって分類モデルを生成する分類モデル生成手段と、
被分類腫瘍細胞の変異シグネチャーを入力する入力手段と、
入力された前記被分類腫瘍細胞の変異シグネチャーから前記分類モデルが推定した前記サブタイプを出力する出力手段を備えることを特徴とする。
【発明の効果】
【0010】
本発明に係る腫瘍の分類推定システムによって、ある腫瘍がICIへの感受性を有するか否かを予見できる。本発明は、ICIを投与すべき悪性腫瘍患者を選別し、その予後を改善させるために有用である。特に本発明に係る腫瘍の分類推定システムは、病理診断を行うために日常的に作成されているFFPE標本から抽出したDNAによるエクソームシークエンシングデータに適用可能であるため、日常診療の参考となりえる。
【0011】
また、臓器に関わらずICIが有効か否かに関する情報を得ることができ、ICIを用いた癌治療の指針を得ることができる。
【図面の簡単な説明】
【0012】
【
図1】本発明に係る腫瘍の分類推定システムの構成を示す図である。
【
図2】TCGAから集めたデータについてCOSMIC(v2)変異シグネチャーのスコアプロファイルを導出し、それを対数変換したプロファイルをクラスタリングし、ヒートマップにした図である。
【
図3】5つのサブタイプに割り当てられたサンプルの割合を腫瘍タイプごとにスコア化したものとICI単剤療法に対する既報の客観的奏効率が強い相関を有することを示すグラフである。
【
図4】Mutect2以外の体細胞変異検出ツール(MuSE、VarScan2、SomaticSniper)を用いて、9726個のデータに対して、階層的クラスターを導出した結果を示す図である。
【
図5】8つのサブクラス毎に、4つの体細胞変異検出ツールによる共通サンプルの数を示すベン図である。
【
図6】個別分類器(何れも学習済み)について、テストデータに対する分類性能を示すコンフュージョン・マトリクスを確認した結果を表す図である。
【
図7】分類モデルが、「未判定(UND)」と判断する程度を調査した結果を示す図である。
【
図8】分類モデルの実際のデータと、予測結果との一致率を導き出すために、
図7で調べた全サンプル(n=6243)をサンプルあたりのSNV(Single Nucleotide Variant:一塩基置換)の総数で並べ、500サンプルあたりの移動平均分析を行った結果を表す図である。
【
図9】分類推定システムのサブタイピングとirGS/non-irGSの分類を行い、評価した結果を表す図である。
【
図10】irGSの分類が全生存と関連しているかどうかを調べるた結果を表す図である。
【
図11】irGSとTMBを合わせた層解析による生存分析の結果を表す図である。
【
図12】
図11と同様の分析を異なった癌腫で行った結果を表す図である。
【
図13】irGS、TMBの状態(バイナリまたは連続)、およびがんの種類を調整したCox比例ハザードモデル解析を行った結果を示す図である。
【発明を実施するための形態】
【0013】
以下に本発明に係る腫瘍の分類推定システムについて図面および実施例を示し説明を行う。なお、以下の説明は、本発明の一実施形態および一実施例を例示するものであり、本発明が以下の説明に限定されるものではない。以下の説明は本発明の趣旨を逸脱しない範囲で改変することができる。また、異なる実施形態及び実施例にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態及び実施例についても本発明の技術的範囲に含まれる。また、本明細書中に記載された文献の全てが、本明細書中において参考文献として援用される。本明細書中、数値範囲に関して「A~B」と記載した場合、当該記載は「A以上B以下」を意図する。
【0014】
図1に本発明に係る腫瘍の分類推定システムの構成を示す。腫瘍の分類推定システム1は、制御部10と、メモリ12と、分類モデル生成手段14と、入力手段16と、出力手段18と、第2出力手段20と、分類モデル30および個別分類器32で構成される。
【0015】
制御部10は、MPU(Micro Processor Unit)およびメインメモリなどのコンピューターで構成される。メモリ12は、大容量の腫瘍データを蓄積することができる外部メモリで構成されるが、メインメモリであってもよい。メモリ12には少なくとも教師データTBが蓄積される。
【0016】
入力手段16は、制御部10に対してデータを入力できる手段であれば足りる。キーボード、マウス、パッドといった操作デバイスとディスプレイ画面は好適に利用できる。入力手段16は入力されたデータをそのまま、若しくは加工して後段の分類モデル30に渡す。
【0017】
分類モデル生成手段14は、分類モデル30に対して、特徴量FQと教師ラベルTLが組み合わされた教師データTBを使って、個別分類器32をトレーニングする。ここで特徴量FQは、腫瘍細胞の変異シグネチャーMSである。変異シグネチャーMSとは重複を排除した塩基置換のパターン6種類とその前後の塩基の取りうる場合(それぞれ4パターン)の組み合わせである計96パターンについて度数を計測したものである。
【0018】
また、変異シグネチャーMSは特徴のある変異シグネチャー(特徴変異シグネチャーPMSと呼ぶ。)がどれくらい発現しているかのスコア(度数)を求め、その特徴変異シグネチャーPMSとスコアとしてもよい。特徴変異シグネチャーPMSは例えば、COSMIC(v2)(Catalogue Of Somatic In Cancer:https://cancer.sanger.ac.uk/signatures/signatures_v2/)に示された30個の屁にシグネチャが好適に利用できる。
【0019】
教師ラベルTLは、収集した腫瘍細胞の変異シグネチャーMSを用いてクラスター分析をした結果得られた8つのグループ(これをサブタイプと呼ぶ。)に分けた物である。クラスター分析の際に、特徴変異シグネチャーPMSとそのスコアを用いてもよい。
【0020】
8つのグループは、含まれる症例や特徴が多いもので命名された。具体的には、(SMK(喫煙)、UVL(紫外線)、APB(APOBEC酵素)、POL(POLE変異)、MRD(ミスマッチ修復異常)、HRD(相同組換え修復異常)、GNS(ゲノム安定性)、AGE(年齢))の8つのサブタイプである。
【0021】
個別分類器32は、学習可能な分類器である。その実態は、学習可能なソフトウエアである。以下の実施例では、K近傍法(K-Nearest Neighbor:「KN」とも呼ぶ。)、サポートベクターマシン(Support Vector Machine:「SV」とも呼ぶ。)、ランダムフォレスト(Random Forest:「RF」とも呼ぶ。)、ロジスティック回帰(Logistic Regression:「LR」とも呼ぶ。)の4種の方法を分類器として用いた。これら4種の分類器のアルゴリズムは公知である。なお、個別分類器は4種以上であればよい。つまり4つより多くてもよい。
【0022】
個別分類器32は、メモリ12に記録された教師データTBを利用し、分類モデル生成手段14によって機械学習が行われる。学習済み個別分類器32は、被分類腫瘍細胞の変異シグネチャーQMSが入力されると、上記の8つのサブタイプの何れに分類されるかを決定する。なお、入力手段16は、被分類腫瘍細胞の変異シグネチャーQMSの特徴変異シグネチャーPMSに対するスコアを調べ、特徴変異シグネチャーPMSとそのスコアを出力し、分類モデル30に渡してもよい。
【0023】
多数決手段34は、4つ以上の個別分類器32の分類結果を多数決し、3つ以上の個別分類器32が同一結果を出した場合に、その分類結果を出力する。3つ以上の個別分類器32が同一結果を出さなかった場合は、未判定(UND)を出力する。
【0024】
分類モデル30は、学習済みの個別分類器32と多数決手段34を含む。結果、被分類腫瘍細胞の変異シグネチャーQMSが入力されると、8つのサブタイプうち何れのサブタイプに分類されるかを出力する。
【0025】
出力手段18は、分類モデル30を出力する。出力手段18は、ディスプレイ、プリンタ等の紙出力デバイス、二次記憶への出力端子といったものが好適に利用できる。また、出力手段18は多数決手段34と重複してもよい。
【0026】
第2出力手段20は、出力手段18の出力が(SMK(喫煙)、UVL(紫外線)、APB(APOBEC酵素)、POL(POLE変異)、MRD(ミスマッチ修復異常)であれば、irGSグループとし、HRD(相同組換え修復異常)、GNS(ゲノム安定性)、AGE(年齢))であれば、Non-irGSグループとし、分類に失敗した場合にはUND(未判定)とさらに分類する。
【0027】
本発明に係る腫瘍の分類推定システムでは、被分類腫瘍細胞がirGSグループに分類されれば、ICIを行うのが有利と予見できる。それ以外であれば、ICIを行うのは有利とはいえないと予見できる。
【実施例0028】
<対象データの選択方法>
本発明に係る腫瘍の分類推定システム1を構築するにあたり、考慮したデータは、The Cancer Genome Atlas(以後「TCGA」とする。)の全固形がんを最初のデータとした。TCGAは、NIH(アメリカ国立衛生研究所)が、がんゲノムプロジェクトで得た知見を基に、さまざまながん種について、ゲノムやエピゲノム、トランスクリプトーム、変異情報などのデータを集約して、公開したデータベースである。もともと、The Cancer Genome Atlas (TCGA)として広く知られていたが、現在ではGDC Data Portalの一部として公開されている。
【0029】
TCGAのうち、びまん性大細胞型B細胞リンパ腫、急性骨髄性白血病、胸腺腫以外の腫瘍の臨床情報は、cBioPortal(https://www.cbioportal.org/)と、ブロード研究所のGDACサイト(https://gdac.broadinstitute.org/)から入手した。このうち、体細胞変異検出ツールMutect2(非特許文献1)で解析した体細胞変異プロファイルがGDCポータル(https://portal.gdc.cancer.gov/)で公開されていた9794例を利用対象データとした。
【0030】
全エクソームシーケンス(WES)データからMutect2が導き出した変異アノテーションに基づき、The Cancer Genome Atlas(TCGA、n=9794)の各固形腫瘍についてCOSMIC(v2)変異シグネチャーのスコアプロファイルを導出した。COSMIC(v2)変異シグネチャーは、以下のURL(https://cancer.sanger.ac.uk/signatures/signatures_v2/)で開示されたもので、さまざまな癌に共通して観測される30個のシグネチャーが開示されている。つまり、この30個を特徴変異シグネチャーPMSとした。
【0031】
対数変換したプロファイルをクラスタリングし、ヒートマップにしたのが
図2である。クラスタリングの結果、8つの腫瘍グループが得られた。病因として提案されているシグネチャーに基づいて、これらのサブタイプのうち7つは、喫煙(SMK:丸1)、紫外線(UVL:丸2)、APOBEC(APB:丸3)、DNAポリメラーゼε欠損(POL:丸4)、ミスマッチ修復異常(MRD:丸5)、相同組換え修復異常(HRD:丸6)、加齢(AGE:丸8)と関連するグループとラベル付けした。変異シグネチャーの特異的な蓄積を示さず、変異数が最も少ない残りのグループをゲノム安定性(GNS:丸7)サブタイプとした。なお、「丸1」は数字の1を丸で囲んだ表記である。丸2~丸8も同様である。
【0032】
図2をさらに見ると、臨床情報では、年齢、性別、病期、死亡率がサブタイプ間で大きく異なっていた。喫煙歴のある患者の割合は、SMK群で最も高かった。分子生物学的な特徴としては、POLグループにはPOLE変異、MRDグループにはMMR変異、MLH1メチル化、MSI-Highを持つ症例が多く含まれていた。HRD群にはBRCA変異が見られた。原発腫瘍の起源ごとにサブタイプを詳細に層別化すると、タイプごとに明確な区分があることがわかった。
【0033】
腫瘍免疫反応に関連する遺伝子のトランスクリプトームが評価された。細胞傷害性CD8+T細胞の浸潤を表す遺伝子(CD8A、GZMB、IFNG)14とICI反応に関連する遺伝子(CXCL9、CXCL13)は、5つのサブタイプ(SMK、UVL、APB、POL、MRD)で他のタイプ(HRD、GNS、AGE)に対して発現が上昇していることがわかった。
【0034】
ICI感受性に関連するCYTスコア15とGEPスコア16も、同じ5つのサブタイプで高くなった。また、5つのサブタイプは、ICI単剤療法のFDA承認を受けた腫瘍由来である頻度が高かった。さらに、5つのサブタイプに割り当てられたサンプルの割合を腫瘍タイプごとにスコア化したところ、そのスコアは、その腫瘍タイプに対するICI単剤療法に対する既報の客観的奏効率と強い相関を示した。これを
図3に示す。
【0035】
図3において、横軸は5つのタイプ(SMK、UVL、APB、POL、MRD)に割り当てられたサンプルの割合であり、縦軸はICI単剤療法に対する客観的奏効率である。図中の腫瘍はUCEC(子宮体部子宮内膜癌)、SKCM(黒色腫)、CRC(大腸がん)、CESC(子宮頸部内膜腺癌)、LUAD(肺腺癌)、LUSC(扁平上皮癌)、BLCA(膀胱がん)、LIHC(肝細胞癌)、HNSC(頭頸部癌)、KIRC(腎臓明細胞癌)、KIRP(腎臓腎乳頭細胞癌)、STAD(胃腺癌)、ESCA(食道癌)を表す。
【0036】
以上のことから、SMK/UVL/APB/POL/MRDサブタイプは、ICI投与に反応しうる腫瘍サブタイプといえ、以下、irGS(immunoresponsive genomic subtypes)と呼ぶ。一方、他のタイプ(HRD、GNS、AGE)は、Non-irGSと呼ぶ。これらはICI投与に対する反応がirGSよりも感度が高いとはいえない。
【0037】
また、サブタイプは、収集された全エクソームシーケンスデータに対して特徴変異シグネチャーのスコアを求め、1つの体細胞変異検出ツールでクラスタリングして得た8つのクラスタであると言える。
【0038】
[学習用データ]
Mutect2以外の体細胞変異検出ツール(MuSE(非特許文献2)、VarScan2(非特許文献3)、SomaticSniper(非特許文献4))を用いて、上記の9726個のデータに対して、再び階層的クラスターを導出した。
図4にこの様子を示す。
図4(a)は、MuSEによる分析、
図4(b)はVarScan2による分析、
図4(c)はSomaticSniperによる分析である。これによれば、Mutect2に基づく解析(
図2参照。)と高い一致が観察された。
【0039】
各サブタイプに典型的なサンプルをトレーニングデータセットとして抽出するため、Mutect2による同時分類を含め、4つの体細胞変異検出ツールのうち少なくともMutect2を含む3つで分類結果が一致したサンプルを選択し、その後の解析に使用した。
図5(a)から(h)までは8つのサブクラス毎に、4つの体細胞変異検出ツールによる共通サンプルの数を示す。Mutecit2を含む3つ以上の体細胞変異検出ツールが同じ結果を出した部分は数字に下線を引いた。これら下線を引いたサンプルは合計で7181個となった。
【0040】
得られた7181のサンプルとその30個のCOSMICシグネチャースコアは、最適化されたハイパーパラメータを持つ個別分類器32(KN、SV、RF。LR)を構築するための特徴量として使用した。教師ラベルは、上記の8つのサブタイプ(SMK、UVL、APB、POL、MRD、HRD、GNS、AGE)である。
【0041】
以上にように、学習用データは、4つの体細胞変異検出ツールによって、変異シグネチャーの特徴変異シグネチャーに対するスコアを用いてサブタイプを得るクラスタリングをし、3つ以上の細胞変異検出ツールが同一のサブタイプに分類したサンプルを用いたと言える。
【0042】
[検証用データセット]
ICIへの奏効の有無の情報とホルマリン固定パラフィン包埋(FFPE)標本を用いて解析されたエクソームシークエンシングデータが公開されている973症例の腫瘍のデータを検証用データとして用いた。より具体的には、PCAWG、CPTAC、NBDC、cBioPortalのデータベースから、転移性腫瘍から採取したサンプルと、サンプル採取時にICI治療歴があるものは除外した合計973人の症例を選んだ。
【0043】
<各個別分類器の学習方法>
4種類の個別分類器32(
図1)の個々について、以下の手順で機械学習を行った。まず、学習用データとして選択された7181のTCGAサンプルをX1とX2の2つに分けた。次に、X1を用いて2回クロスバリデーションによりパラメータを算出し、X2をテストデータとしてそのパラメータを評価した。第三に,X1とX2を入れ替えて,同様の計算を行った。これらを100~1000回繰り返し、最適なパラメータを決定することで4種類の個別分類器32を学習済み個別分類器32とした。
【0044】
KN、SV、RF、LRの4つの個別分類器32(何れも学習済み)について、テストデータに対する分類性能を示すコンフュージョン・マトリクスを確認した。学習用データ(7181サンプル)の75%のケースをトレーニングに、25%のケースをテストに使用した。結果を
図6に示す。
図6(a)はKNの場合、
図6(b)はSVの場合、
図6(c)はRFの場合、
図6(d)はLRの場合を示す。縦軸が真値であり、横軸は予想結果である。いずれの個別分類器32も95%以上のサブセット分類精度(完全一致率)であった。
【0045】
上記の様に機械学習が施された4つの個別分類器32および多数決手段34によって、分類モデル30が形成された(
図1参照)。分類モデル30は、4つの個別分類器32のうち3つ以上の結果が一致しない場合、そのサンプルは「未判定(UND)」と判断される。判定不能なサンプルの割合を調査した。結果を
図7に示す。
【0046】
図7は、cBioPortal(凍結サンプル:
図7(a))、PCAWG(凍結サンプル:
図7(b))、CPTAC(凍結サンプル:
図7(c))、NBDC(凍結サンプル:
図7(d))、cBioPortal(ホルマリン固定パラフィン包埋標本(FFPE):
図7(e))、KEYNOTEs(ホルマリン固定パラフィン包埋標本:
図7(f))のデータ群からのサンプル(n数はそれぞれに記載)に対する結果を示す。これらのデータ群は公開されているデータ群である。
【0047】
また、各グラフでは「ALL match」は完全一致(4つの分類器が同一判断)であり、「3 match」は3つの分類器が同一判断であった場合を示す。判定不能は「UND」であり、各円グラフの上部の数字がUND判定となった割合を示す。
【0048】
判定不能(UND)は、調査したデータ群の約2~4%に認められ、FFPEサンプルと凍結組織由来、またはデータ群間の割合に有意差はなかった。
【0049】
分類モデル30の実際のデータと、予測結果との一致率を導き出すために、
図7で調べた全サンプル(n=6243)をサンプルあたりのSNV(Single Nucleotide Variant:一塩基置換)の総数で並べ、500サンプルあたりの移動平均分析を行った。結果を
図8に示す。横軸にSNVの数、と、サブタイプおよびirGS/Non-irGSの一致率の移動平均をそれぞれ示している。縦軸は一致率を表す。
【0050】
点線Bと点線Rはそれぞれ全検体での平均値(87.0%と96.6%)を示す。サブタイプの一致率は、1サンプルあたり50SNVのあたりで最も低く、約82%であった。irGS/non-irGS分類の一致率は、分類器ごとの不一致がある場合でも95%以上を維持した。以上にように選別された7181個の教師データを用いて、分類モデル30が構築された。
【0051】
<腫瘍の分類推定システムの効果>
ICI治療の客観的奏効に関する情報を持つ973例を、本発明に係る分類推定システム1のサブタイプ分類とirGS/non-irGS割当の評価に使用した。分類推定システム1のサブタイピングとirGS/non-irGSの分類を行い、評価した。結果を
図9に示す。
【0052】
図9を参照して、横軸は8つのサブタイプと未判定(UND)であり、縦軸はICIに対する奏効率である。合計でみるとICI奏効率は、irGSの方がnon-irGSよりも有意に高かった(34.6%vs12.0%、P=5.1x10-14)。8つのサブタイプ別に解析すると、irGSに属する5つのサブタイプは、non-irGSの3つのサブタイプよりも高い奏効率を示す傾向があった。
【0053】
次に、irGSの分類が全生存と関連しているかどうかを調べるために、上記の検証用データの一部(n=606)を用いて生存率解析を実施した。結果を
図10に示す。
図10(a)はirGSに対する結果である。実線はirGSと分類された場合であり、点線はnon-irGSと分類された場合を示す。また、
図10(b)はTMB(Tumor Mutation Burden:遺伝子変位量)に対する結果である。実線はTMB-highであり、点線はTMB-Lowの場合を示す。それぞれ横軸は予後経過時間(月)であり、縦軸は、生存率を表す。単変量解析では、irGSとTMB-high状態の両方が良好な転帰と関連していた(log-rank test p=5.8×10
-9,1.5×10
-9)。
【0054】
図11に2つの状態による層解析の結果を示す。
図11を参照して、横軸は予後経過時間(月)であり、縦軸は、生存率を表す。グラフ中TMB-highでありirGSの場合、TMB-highでありnon-irGSの場合、TMB-lowでありirGSの場合、TMB-lowでありnon-irGSの場合を示す。
図11より、TMB-lowでありnon-irGS群が最も全生存率が悪かった(log-rank検定 p=9.0×10
-11)。
【0055】
図12には、癌腫を変えた場合の結果を示す。
図12(a)はメラノーマ(Melanoma)、
図12(b)は肺(Lung)、
図12(c)は膀胱癌(Bladder)の場合を示す。それぞれ、横軸は予後経過時間(月)であり、縦軸は、生存率を表す。また、TMB-highでありirGSの場合、TMB-lowでありirGSの場合、TMB-lowでありnon-irGSの場合を示す。
図12より、
図11に示した傾向は癌腫に関わらず同様に観測された。
【0056】
さらに、irGS、TMBの状態(バイナリまたは連続)、およびがんの種類を調整したCox比例ハザードモデル解析を行った。結果を
図13に示す。
図13によれば、irGSとTMBの状態の両方が独立した有利な予後因子であることが示された。
【0057】
以上のように、TMBや腫瘍の種類を含めた多変量解析でも、やはりirGS腫瘍は有意にICIへの反応が良好であった(P=5.6×10-4)。また、生存期間に関する多変量解析でも、irGS腫瘍であることはICI投与後の生存期間延長と関連していた(P=1.8×10-3)。
本発明に係る腫瘍の分類推定システムは、腫瘍の変異シグネチャーに基づいてその腫瘍を8つのサブタイプの何れに属するかを分類することができる。また、その分類でSMK、UVL、APB、POL、MRDの5つのサブタイプのどれかに分類された場合は、ICI治療で効果を得る可能性が高いと予見できる。その他の分類であるHRD、GNS、AGEおよびUNDに分類された場合は、ICI治療が有効であるという予見はできないと言える。また、本発明はICI出現後の癌治療の方針を決定するために有用な情報を得ることができ、臓器に関わらない癌治療に役立つと考えられる。