(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-06-09
(45)【発行日】2023-06-19
(54)【発明の名称】高頻度変異型癌の判別システム、プログラム及び方法
(51)【国際特許分類】
G01N 33/48 20060101AFI20230612BHJP
G01N 33/483 20060101ALI20230612BHJP
G06T 7/00 20170101ALI20230612BHJP
【FI】
G01N33/48 M
G01N33/483 C
G01N33/48 P
G06T7/00 350B
(21)【出願番号】P 2020500447
(86)(22)【出願日】2019-02-07
(86)【国際出願番号】 JP2019004499
(87)【国際公開番号】W WO2019159821
(87)【国際公開日】2019-08-22
【審査請求日】2022-01-28
(31)【優先権主張番号】P 2018024784
(32)【優先日】2018-02-15
(33)【優先権主張国・地域又は機関】JP
【早期審査対象出願】
【前置審査】
(73)【特許権者】
【識別番号】304027279
【氏名又は名称】国立大学法人 新潟大学
(73)【特許権者】
【識別番号】000003296
【氏名又は名称】デンカ株式会社
(74)【代理人】
【識別番号】110001139
【氏名又は名称】SK弁理士法人
(74)【代理人】
【識別番号】100130328
【氏名又は名称】奥野 彰彦
(74)【代理人】
【識別番号】100130672
【氏名又は名称】伊藤 寛之
(72)【発明者】
【氏名】若井 俊文
(72)【発明者】
【氏名】奥田 修二郎
(72)【発明者】
【氏名】島田 能史
(72)【発明者】
【氏名】井筒 浩
(72)【発明者】
【氏名】兒玉 啓輔
【審査官】小澤 理
(56)【参考文献】
【文献】国際公開第2017/010397(WO,A1)
【文献】特開2015-052581(JP,A)
【文献】国際公開第2016/093090(WO,A1)
【文献】国際公開第2017/037180(WO,A1)
【文献】TRACEY, L. et al.,Somatic hypermutation signature in B-cell low-grade lymphomas,haematologica,2008年,Vol. 93, No. 8,pp. 1186-1194
【文献】SCHAUMBERG, A. J. et al.,H&E-stained Whole Slide Image Deep Learning Predicts SPOP Mutation State in Prostate Cancer,bioRxiv,2017年03月03日,064279,1-11,[online], [令和4年6月13日検索], <URL: https://doi.org/10.1101/064279>
【文献】YUZA, K. et al.,Hypermutation and microsatellite instability in gastrointestinal cancers.,Oncotarget,2017年12月01日,Vol. 8, No. 67,pp. 112103-112115
【文献】GUEDES, L.B. et al.,MSH2 Loss in Primary Prostate Cancer,Clinical Cancer Research,2017年11月15日,Vol. 23, No. 22,pp. 6863-6874
(58)【調査した分野】(Int.Cl.,DB名)
G01N 33/48
G01N 33/483
G06T 7/00
JSTPlus/JMEDPlus/JST7580(JDreamIII)
CAplus/WPIDS/MEDLINE/EMBASE/BIOSIS(STN)
(57)【特許請求の範囲】
【請求項1】
入力部、保持部、機械学習実行部及び判別部を備え、
前記入力部は、複数の第1画像データ、複数の第2画像データ及び複数の第3画像データを入力可能に構成され、
前記第1画像データは、染色された高頻度変異型癌の病理切片を表す画像データであり、
前記第2画像データは、高頻度変異型癌ではない癌の病理切片であって、前記第1画像データのもととなるがんの病理切片と同じ染色がされた病理切片を表す画像データであり、
前記第3画像データは、新たに高頻度変異型癌であるか否かの判別を行うがんの病理切片であって、前記第1画像データのもととなるがんの病理切片と同じ染色がされた病理切片を表す画像データであり、
前記保持部は、前記第1画像データ及び前記第2画像データを保持可能に構成され、
前記機械学習実行部は、前記保持部により保持された前記第1画像データ及び前記第2画像データを教師データとし、高頻度変異型癌であるか否かを判別する判別モデルを生成可能に構成され、
前記判別部は、前記判別モデルに前記第3画像データを入力し、前記第3画像データが高頻度変異型癌であるか否かを判別可能に構成される、
高頻度変異型癌の判別システム
(但し、前記病理切片の染色方法が、免疫染色であるものを除く)。
【請求項2】
前記病理切片の染色方法が、ヘマトキシリン・エオシン染色である、
請求項1に記載のシステム。
【請求項3】
前記入力部は、非癌画像データをさらに入力可能に構成され、
前記非癌画像データは、癌の病理切片ではない画像データであり、
前記保持部は、前記非癌画像データをさらに保持可能に構成され、
前記機械学習実行部は、前記保持部により保持された前記非癌画像データを教師データとし、癌の病理切片の画像データであるか否かを判別する判別モデルをさらに生成可能に構成され、
前記判別部は、前記第3画像データが癌の画像データであるか否かをさらに判別可能に構成される、
請求項1または請求項2に記載のシステム。
【請求項4】
画像処理部を備え、
前記画像処理部は、前記第1画像データ、および前記第2画像データの少なくとも1つに対し、ピクセル毎におけるRGBの各色を、前記第1画像データ、または前記第2画像データ全体の色分布に基づいてCIE表色系におけるZ値に変換するZ値変換処理を実行可能に構成される、
請求項1又は請求項2に記載のシステム。
【請求項5】
画像処理部を備え、
前記画像処理部は、前記第1画像データ、前記第2画像データおよび前記非癌画像データの少なくとも1つに対し、ピクセル毎におけるRGBの各色を、前記第1画像データ、前記第2画像データまたは前記非癌画像データ全体の色分布に基づいてCIE表色系におけるZ値に変換するZ値変換処理を実行可能に構成される、
請求項3に記載のシステム。
【請求項6】
前記画像処理部は、
前記入力部に入力される前記第1画像データ、および前記第2画像データの少なくとも1つを分割する分割処理を実行可能に構成される、
請求項4に記載のシステム。
【請求項7】
前記画像処理部は、
前記入力部に入力される前記第1画像データ、前記第2画像データ、および前記非癌画像データの少なくとも1つを分割する分割処理を実行可能に構成される、
請求項5に記載のシステム。
【請求項8】
前記画像処理部は、
分割後の画像において一部の領域が重複するように、前記分割処理を実行する、請求項6又は請求項7に記載のシステム。
【請求項9】
前記画像処理部は、
前記入力部に入力される前記第3画像データを分割する分割処理をさらに実行可能に構成される、請求項6~請求項8の何れか1つに記載のシステム。
【請求項10】
前記判別部は、
前記第3画像データについて、癌の病理切片の画像データであるか否かを判別し、
癌の病理切片であると判別された画像データについて、さらに、高頻度変異型癌であるか否かを判別する、
請求項3、請求項5、及び請求項7のうち何れか1つに記載のシステム。
【請求項11】
前記判別部は、
癌の病理切片の画像データであると判別された画像データ内における前記高頻度変異型癌であると判別された画像データの比率に基づいて、前記癌が高頻度変異癌であるか否かを判別する、
請求項10に記載のシステム。
【請求項12】
コンピュータを、
入力部、保持部、機械学習実行部及び判別部として機能させ、
前記入力部は、複数の第1画像データ及び複数の第2画像データを入力可能に構成され、
前記第1画像データは、染色された高頻度変異型癌の病理切片を表す画像データであり、
前記第2画像データは、高頻度変異型癌ではない癌の病理切片であって、前記第1画像データのもととなるがんの病理切片と同じ染色がされた病理切片を表す画像データであり、
前記保持部は、前記第1画像データ及び前記第2画像データを保持可能に構成され、
前記機械学習実行部は、前記保持部により保持された前記第1画像データ及び前記第2画像データを教師データとし、高頻度変異型癌であるか否かを判別する判別モデルを生成可能に構成される、
プログラム
(但し、前記病理切片の染色方法が、免疫染色であるものを除く)。
【請求項13】
請求項1~請求項11の何れか1つに記載のシステムを用いて実行される、
高頻度変異型癌の判別方法。
【請求項14】
請求項12記載のプログラムを用いて実行される、
高頻度変異型癌の判別方法。
【請求項15】
免疫チェックポイント阻害剤の有効性を判断する工程を含む、
請求項13又は請求項14に記載の判別方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、高頻度変異型癌の判別システム、プログラム及び方法に関する。
【背景技術】
【0002】
癌の遺伝子変異を広く調べることにより、遺伝子変異のパターンによって癌を分類することができることが判明してきた。そのような癌に特徴的な変異のパターンの一つに、高頻度変異型(Hypermutation又はHypermutated)がある。高頻度変異型の癌は、体細胞変異率が他の型に比べて高いことで区別される。胃癌、乳癌、大腸癌、膠芽腫、子宮癌などで、高頻度変異型の特徴を示す癌があることが知られている。高頻度変異型の癌は、DNA複製時のミスマッチ修復機構の欠損や不完全さを示すマイクロサテライト不安定性の性質を同時に持つ場合が多い。これは、ミスマッチ修復酵素であるMLH1、MLH3、MSH2、MSH3、MSH6、PMS2の遺伝子が変異を起こしていることや、MLH1遺伝子の発現がメチル化によって抑制されていることに起因すると考えられている。また、DNA複製酵素であるポリメラーゼε(POLE)の変異によって、特に高い頻度で体細胞変異を引き起こし、高頻度変異型となることも知られている(非特許文献1,2)。
【0003】
一方、癌免疫逃避機構が解明され、この機構を標的とする新しい癌免疫治療法が臨床に応用されるようになった。なかでも特徴的なのは、イムノチェックポイント経路ともいわれるPD-1(Programmed cell Death-1)/PD-L1(PD-1 Ligand1)経路である。免疫抑制補助シグナルPD-1/PD-L1経路をブロックすることで、T細胞の免疫抑制が解除され、T細胞が活性化し癌特異的抗原を発現している腫瘍の抑制が起こる。また、CTLA-4も活性化T細胞に発現し、抗原提示細胞のCD28リガンドが結合するとT細胞の活性化が抑制されるため、この経路をブロックすることでもT細胞の免疫抑制を解除し、腫瘍抑制を引き起こすことが可能である。このような原理を応用した抗癌剤が実用化されている(例:ニボルマブ、イピリブマブ)。
【0004】
さらに、このような免疫抑制性の機構は他にも複数存在し、将来それらの免疫抑制機構をブロックする抗腫瘍剤が開発、実用化されていくことが期待されている。高頻度変異型の癌は、免疫機構のターゲットとなる癌特異的な抗原を多く持っているため、免疫抑制のシグナル経路をブロックする療法の効果が高いことが示されており、癌が高頻度変異型であることを簡便に判別できる方法が望まれている(非特許文献3)。
【0005】
従来、高頻度変異型がんを検査するには、網羅的な遺伝子解析を行って変異数をカウントする方法が知られているが、検査に手間と時間が多く必要であるという問題点があった。また、癌に高頻度変異を引き起こす原因のひとつであるミスマッチ修復機構の欠損又は不完全さを、関連遺伝子の免疫染色又はマイクロサテライト不安定性試験で検査する方法も知られているが、この方法では全ての高頻度変異型癌を検出できないという問題がある。
【0006】
一方、特許文献1に開示されるような病理診断支援プログラムが知られている。
【先行技術文献】
【非特許文献】
【0007】
【文献】Nat Rev Cancer.2014 December;14(12):786‐800
【文献】J Pathol 2013;230:148‐153
【文献】Science 03 Apr 2015 Vol. 348,Issue 6230,pp.124-128
【特許文献】
【0008】
【発明の概要】
【発明が解決しようとする課題】
【0009】
特許文献1では、腫瘍の有無、良性・悪性を判定することが可能であるとされているが、高頻度変異癌の判別方法については何ら言及されていない。
【0010】
本発明はこのような事情に鑑みてなされたものであり、従来と比べて精度の高い高頻度変異癌の判別方法、プログラム及び方法を提供するものである。
【課題を解決するための手段】
【0011】
本発明によれば、入力部、保持部、機械学習実行部及び判別部を備え、前記入力部は、複数の第1画像データ、複数の第2画像データ及び複数の第3画像データを入力可能に構成され、第1画像データは、染色された高頻度変異型癌の病理切片を表す画像データであり、第2画像データは、高頻度変異型癌ではない癌の病理切片であって、第1画像データのもととなるがんの病理切片と同じ染色がされた病理切片を表す画像データであり、第3画像データは、新たに高頻度変異型癌であるか否かの判別を行うがんの病理切片であって、第1画像データのもととなるがんの病理切片と同じ染色がされた病理切片を表す画像データであり、前記保持部は、第1画像データ及び第2画像データを保持可能に構成され、前記機械学習実行部は、前記保持部により保持された第1画像データ及び第2画像データを教師データとし、高頻度変異型癌であるか否かを判別する判別モデルを生成可能に構成され、前記判別部は、前記判別モデルに第3画像データを入力し、第3画像データが高頻度変異型癌であるか否かを判別可能に構成される、高頻度変異型癌の判別システムが提供される。
【0012】
本発明によれば、第1画像データ及び第2画像データを教師データとし、高頻度変異型癌であるか否かを判別する判別モデルを生成する。ここで、第1画像データは、染色された高頻度変異型癌の病理切片を表す画像データである。また、第2画像データは、高頻度変異型癌ではない癌の病理切片であって、第1画像データのもととなるがんの病理切片と同じ染色がされた病理切片を表す画像データである。そして、判別モデルに第3画像データを入力し、第3画像データが高頻度変異型癌であるか否かを判別可能に構成される。ここで、第3画像データは、新たに高頻度変異型癌であるか否かの判別を行うがんの病理切片であって、第1画像データのもととなるがんの病理切片と同じ染色がされた病理切片を表す画像データである。これにより、従来においては次世代シーケンサーなどによる遺伝子解析を行わなければ困難であった高頻度変異型癌か否かの判別を、迅速かつ高精度で行うことができ、治療に有効な薬剤の選択を容易に行うことが可能となる。
【0013】
以下、本発明の種々の実施形態を例示する。以下に示す実施形態は互いに組み合わせ可能である。
好ましくは、前記病理切片の染色方法が、ヘマトキシリン・エオシン染色である。
好ましくは、前記入力部は、非癌画像データをさらに入力可能に構成され、前記非癌画像データは、癌の病理切片ではない画像データであり、前記保持部は、前記非癌画像データをさらに保持可能に構成され、前記機械学習実行部は、前記保持部により保持された非癌画像データを教師データとし、癌の病理切片の画像データであるか否かを判別する判別モデルをさらに生成可能に構成され、前記判別部は、第3画像データが癌の画像データであるか否かをさらに判別可能に構成される。
好ましくは、画像処理部を備え、前記画像処理部は、第1画像データ及び第2画像データおよび非癌画像データの少なくとも1つに対し、ピクセル毎におけるRGBの各色を、第1画像データ及び第2画像データまたは非癌画像データ全体の色分布に基づいてCIE表色系におけるZ値に変換するZ値変換処理を実行可能に構成される。
好ましくは、前記画像処理部は、前記入力部に入力される第1画像データ及び第2画像データおよび非癌画像データの少なくとも1つを分割する分割処理を実行可能に構成される。
好ましくは、前記分割処理は、第1画像及び第2画像データの少なくとも一方に対し、同一の病理切片の画像データを分割する分割処理を実行可能に構成される。
好ましくは、前記画像処理部は、分割後の画像において一部の領域が重複するように、前記分割処理を実行する。
好ましくは、前記画像処理部は、前記入力部に入力される第3画像データを分割する分割処理をさらに実行可能に構成される。
好ましくは、前記判別部は、前記第3画像データについて、癌の病理切片の画像データであるか否かを判別し、癌の病理切片であると判別された画像データについて、さらに、高頻度変異型癌であるか否かを判別する。
好ましくは、前記判別部は、癌の病理切片の画像データであると判別された画像データ内における前記高頻度変異型癌であると判別された画像データの比率に基づいて、前記癌が高頻度変異癌であるか否かを判別する。
他の観点によれば、コンピュータを、入力部、保持部、機械学習実行部及び判別部として機能させ、前記入力部は、複数の第1画像データ及び複数の第2画像データを入力可能に構成され、第1画像データは、染色された高頻度変異型癌の病理切片を表す画像データであり、第2画像データは、高頻度変異型癌ではない癌の病理切片であって、第1画像データのもととなるがんの病理切片と同じ染色がされた病理切片を表す画像データであり、前記保持部は、第1画像データ及び第2画像データを保持可能に構成され、前記機械学習実行部は、前記保持部により保持された第1画像データ及び第2画像データを教師データとし、高頻度変異型癌であるか否かを判別する判別モデルを生成可能に構成される、プログラムが提供される。
他の観点によれば、上述の何れか1つに記載のシステムを用いて実行される、高頻度変異型癌の判別方法が提供される。
他の観点によれば、上述の何れか1つに記載のプログラムを用いて実行される、高頻度変異型癌の判別方法が提供される。
好ましくは、免疫チェックポイント阻害剤の有効性を判断する工程を含む。
【図面の簡単な説明】
【0014】
【
図1】本発明の第1実施形態に係るシステム10の機能ブロック図である。
【
図2】本発明の第1実施形態に係る高頻度変異型癌であるか否かを判別する判別モデルを生成するフローを表すフローチャートである。
【
図3】判定モデルを用いて第3画像データが高頻度変異型癌であるか否かを判別する際における第3画像データの流れを表す概念図である。
【
図4】本発明の第1実施形態に係る高頻度変異型癌であるか否かを判別するフローを表すフローチャートである。
【
図5】
図4のS13における解析について説明するための概念図である。
【
図6】判定モデルにおける重みwについて説明するための概念図である。
【
図7】
図2のS5における機械学習の実行について説明するための概念図である。
【
図8】第2実施形態に係るシステム20の機能ブロック図である。
【
図9】画像処理部22における入力画像の分割処理を説明する図である。
【
図10】画像処理部22における入力画像の分割処理を説明する図である。
【
図11】本実施形態における第3画像データの判別処理の処理フローである。
【
図12】判別部25における判別処理を説明する図である。
【発明を実施するための形態】
【0015】
以下、図面を用いて本発明の実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。
【0016】
<1.第1実施形態>
1.1.高頻度変異型癌であるか否かの判別
以下、
図1~
図4を用いて、本発明の一実施形態に係るシステム10について説明する。
【0017】
(1.1.1.システム10)
図1に示すように、システム10は、入力部1、画像処理部2、保持部3、機械学習実行部4及び判別部5を備える。
【0018】
入力部1は、複数の第1画像データ、複数の第2画像データ及び複数の第3画像データを入力可能に構成される。ここで、第1画像データは、染色された高頻度変異型癌の病理切片を表す画像データである。また、第2画像データは、高頻度変異型癌ではない癌の病理切片であって、第1画像データのもととなるがんの病理切片と同じ染色がされた病理切片を表す画像データである。さらに、第3画像データは、新たに高頻度変異型癌であるか否かの判別を行うがんの病理切片であって、第1画像データのもととなるがんの病理切片と同じ染色がされた病理切片を表す画像データである。ここで、本実施形態では、これらの画像データのRGB値は、0~255の値を取り得る。
【0019】
本実施形態では、癌ゲノムDNA配列の解析よりHypermutationタイプ(高頻度変異型)及びNon-Hypermutationタイプ(高頻度変異型でない)と判断された大腸癌サンプルのそれぞれ17症例の病理組織染色標本を取得した。ここで、かかる17症例は、日本人の大腸癌患者201人で癌ゲノムシーケンスをした結果、Hypermutationと判定できた17症例である(参考:Nagahashi et al GenomeMed 2017)。そして、かかる標本をヘマトキシリン・エオシン染色した大腸癌の病理組織染色標本を、デジタルパソロジー技術を用いて第1画像データ及び第2画像データとした。ここで、本実施形態では、MIRAXフォーマットに準拠したデジタルパソロジー画像データとして第1画像データ及び第2画像データを保存した。ここで、上記条件はこれに限定されず、大腸癌以外の癌サンプルを所定の症例数取得する構成としてもよい。
【0020】
このように、本実施形態では、臨床例の多いヘマトキシリン・エオシン染色された画像データを第1画像データ及び第2画像データとして採用しているため、汎用性の高い判別システムを実現することが可能となっている。
【0021】
ただし、染色方法は、条件に応じて他の方法を採用し得る。さらに、画像データの保存フォーマットもこれに限定されない。
【0022】
画像処理部2は、入力部1に入力される複数の第1画像データ、第2画像データ及び第3画像データを分割する分割処理を実行可能に構成される。本実施形態では、画像処理部2は、第1画像データ、第2画像データ及び第3画像データを所定のタイルに分割する機能を備える。一例として、画像処理部2により、第1画像データ、第2画像データ及び第3画像データが300pixel×300pixelサイズの画像に分割される。なお、かかる分割サイズは特に限定されないが、画像データが癌組織部位であるか否かを識別できるサイズとすることが好ましい。そして、本実施形態では、分割処理により、第1画像データ及び第2画像データのそれぞれが1000個以上に分割される。さらに、本実施形態では、画像処理部2は、第1画像及び第2画像データの少なくとも一方に対し、同一の病理切片の画像データを分割する分割処理を実行可能に構成される。なお、分割サイズ及び分割数はこれに限定されず、任意の条件を採用し得る。
【0023】
このように、入力部1に入力する画像データを分割することにより、後続の機械学習に用いる教師データのデータ数を増やすことができ、機械学習の精度を向上することが可能となる。
【0024】
また、本実施形態では、画像処理部2はさらに、分割された第1画像データ及び第2画像データに対し、ピクセル毎におけるRGBの各色を、第1画像データ及び第2画像データ全体の色分布に基づいてCIE表色系におけるZ値に変換する変換処理を実行可能に構成される。具体的には、Z値は0を中心とした正規分布を取り、画像データのRGB値は、0~255の値であるので、RGB各色のZ値化した値を標準偏差(σ)の2倍の範囲に収めることが望ましい。このため、画像処理部2は、2σ以上の値は2σに、-2σ以下の値は-2σに補正する機能を備える。また、画像処理部2は、これらの値に対して、2を加算しすべての値を0以上の値に変換した後、4で割ることで0~1値に規格化する機能を備える。さらに、画像処理部2は、かかる値に255掛けることにより、通常の色表現の値に変換する機能を備える。合わせて、画像処理部2は、かかる値が整数値となるように、小数点以下を切り捨てる処理も行う。なお、規格化する手法はこれに限定されない。
【0025】
ここで、「x=int(((min(max(xz,-2),2)+2)/4)×255)」と規定すると、「xz=z値化したRGBの値」が成立する。
【0026】
このように、第1画像データ及び第2画像データのRGBの各色をZ値に変換することにより、染色処理における色味のばらつき(色の濃淡)を少なくすることができ、染色の度合いが後続の機械学習に与える影響を抑えることが可能となる。その結果、機械学習の精度を向上することが可能となる。
【0027】
保持部3は、第1画像データ及び第2画像データを保持可能に構成される、ここで、保持部3は、任意のメモリ、ラッチ、HDD又はSSD等により構成される。
【0028】
機械学習実行部4は、保持部3により保持された第1画像データ及び第2画像データを教師データとし、高頻度変異型癌であるか否かを判別する判別モデルを生成可能に構成される。判別モデルの詳細については
図3を用いて後述する。
【0029】
機械学習実行部4の機械学習アルゴリズムは特に限定されないが、例えばニューラルネットワークや深層学習(ディープラーニング)を利用することができる。また、例えばGoogle社により開発された「Inception-v3」という画像識別用のCNN(Convolutional Neural Network)を利用することができる。そして、「Keras」フレームワークを用いてかかるCNNを実行することができる。そして、機械学習自体については、過学習を防ぐため、1epoch毎にバリデーションセットの画像で学習中モデルの精度を算出し、精度指標の変動が収まったepochで学習を切り上げる、「Early Stopping」手法を用いて実施することができる。なお、本実施形態では、Z値化での学習において、14epoch分機械学習を繰り返し実行している。
【0030】
判別部5は、判別モデルに第3画像データを入力し、第3画像データが高頻度変異型癌であるか否かを判別可能に構成される。
【0031】
(1.1.2.フローチャート)
次に、
図2を用いて、本発明の一実施形態に係る高頻度変異型癌であるか否かを判別する判別モデルを生成するフローを説明する。
【0032】
まず、S1において、第1画像データ及び第2画像データを入力部1に入力する。
【0033】
次に、S2において、画像処理部2により、第1画像データ及び第2画像データを分割する分割処理が実行される。本実施形態では、第1画像データ及び第2画像データのそれぞれが1000個以上のタイルに分割される。なお、かかる分割数は適宜設定することができ、例えば1000~3000、好ましくは、1000~2000、さらに好ましくは、1000~1500個としてもよい。具体的には例えば、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2700、2800、2900、3000個であり、ここで例示した数値の何れか2つの間の範囲内であってもよい。
【0034】
あわせて、画像処理部2により、分割された第1画像データ及び第2画像データをZ値化するZ値化が実行される。
【0035】
次に、S3において、Z値化された第1画像データ及び第2画像データに対し、それぞれの画像データが高頻度変異型癌組織部位(Hypermutaionタイプ)であるか非高頻度変異型癌組織部位(Non-hypermutationタイプ)であるかを判定し、各画像データに対してラベルを付す。例えば、癌を専門とする病理医により判定してもよく、既にラベルが付された画像データをサーバから取得する構成としてもよい。また、分割前の画像データのうち、Hypermutaionタイプ又はNon-hypermutationタイプに相当する箇所にマークをつけ、分割後のタイル画像データがマークされた箇所に相当する場合、分割後のデータにラベルを付す構成とすることもできる。
【0036】
次に、S4において、入力部1に入力した17症例分の第1画像データ及び第2画像データから、機械学習実行部4による機械学習に利用する13症例分の画像データを選定する。かかる選定はランダムになされてもよく、癌を専門とする病理医により選定されてもよい。そして、ラベルが付された第1画像データ及び第2画像データが保持部3に保持される。かかる第1画像データ及び第2画像データが、機械学習における「正解セット」となる。
【0037】
次に、S5において、機械学習実行部4により、保持部3により保持された第1画像データ及び第2画像データを教師データとし、高頻度変異型癌であるか否かを判別する判別モデルを生成するために機械学習を実行する。具体的には、S4においてラベルが付された13症例分の第1画像データ及び第2画像データを用いて、かかる画像データが高頻度型変異癌であるか否かを判別するための機械学習を実行する。
【0038】
次に、S6において、判別モデルの判定精度が所定の精度以上であるかを判断する。判別モデルの判定精度が所定の精度以上でない場合(NO)、再びS4に戻り、17症例分の第1画像データ及び第2画像データから、異なる組み合わせの13症例分の画像データを選定し、S5における処理を実行する。一方、判別モデルの判定精度が所定の精度以上である場合(YES)、かかる判定モデルを採用することとし、S7に進む。
【0039】
最後に、S7において、判別部5は、S6で決定された判定モデルを出力し、保持部3又は不図示の記憶部に記憶する。
【0040】
(1.1.3.高頻度変異型癌であるか否かの判別)
次に、
図3及び
図4を用いて、判定モデルを用いて第3画像データが高頻度変異型癌であるか否かを判別する際における第3画像データの流れについて説明する。
【0041】
図3に示されるように、本実施形態では、入力部1に入力された第3画像データが画像処理部2に出力され、上述の画像処理(分割処理及びZ値化処理)が実行された第3画像データが判別部5に出力される。そして、判別部5は、
図2のS7において出力された判別モデルを用い、第3画像データが高頻度変異型癌であるか否かを判別する。
【0042】
このように、第3画像データについても分割処理を行うことにより、判別対象の画像データのサイズと、第1および第2画像データのサイズとが合うこととなり、判別部5における判別精度を向上させることができる。
【0043】
このときのフローチャートは以下の通りである。
【0044】
図4に示されるように、まず、S11において、第3画像データが入力部1に入力される。
【0045】
次に、S12において、画像処理部2により画像処理(分割処理及びZ値化処理)が実行される。
【0046】
次に、S13において、判別部5により、上述の判別モデルを用いて、第3画像データが高頻度変異型癌であるか否かを判別する。
【0047】
最後に、S14において、判別部5による判別結果を出力する。かかる判別結果の出力態様は特に限定されず、「高頻度変異型癌である」、「高頻度変異型癌でない」、「高頻度変異型癌である確率がX%である」、等とすることができる。
【0048】
(1.1.4.判別モデルによる判別)
次に、
図5及び
図6を用いて、
図4のS13における判定モデルを用いた判別について説明する。なお、本実施形態では、機械学習のアルゴリズムは特に限定されず、ニューラルネットワークや深層学習(ディープラーニング)を利用することができる。以下、説明の簡素化のため、ニューラルネットワークを用いた例について説明する。
【0049】
図5に示すように、ニューラルネットワーク(以下、図面中でNNと表記)は、複数の層(第1層L1~第3層L3)及び複数の計算ノードN(N11~N31)により構成される。ここで、Nijは、第i層のj番目の計算ノードNを表す。本実施形態では、i=3、j=5としてニューラルネットワークを構築している。なお、i,jの値はこれに限定されず、例えばi=1~100、j=1~100の間の整数又は100以上の整数とすることができる。
【0050】
また、各計算ノードNには、予め定められた重みwが設定される。
図4に示すように、例えば、第2層の計算ノードN23に着目した場合、計算ノードN23と、一つ前の層である第1層の全計算ノードN11~N15の間に、重みwが設定される。重みwは、例えば-1~1の値に設定される。
【0051】
機械学習実行部4は、ニューラルネットワークに種々のパラメータを入力する。本実施形態では、ニューラルネットワークに入力するパラメータとして、第3画像データのZ値、第3画像データのZ値の分布、第3画像データのZ値と第1画像データのZ値の差分、第3画像データのZ値と第2画像データのZ値の差分、第3画像データのZ値と第1画像データ及び第2画像データのZ値の分布の差分を用いる。ここで、第1~第3画像データのZ値は、ピクセル単位におけるZ値である。また、第1~第3画像データのZ値の分布は、画像データ(300pixel×300pixel)内におけるZ値の分布である。また、第3画像データと第1画像データ及び第2画像データのZ値の分布の差分は、第3画像データのZ値の分布と、第1画像データ及び第2画像データの対応するピクセル毎におけるZ値の分布の差分、又は画像データ内における対応するピクセル毎のZ値の差分の合計である。
【0052】
ここで、上述の通り、各パラメータは、ニューラルネットワークに入力されるにあたり、0~1の値に正規化されている。例えば、入力パラメータが0の場合、入力信号として0を入力する。また、入力パラメータが1の場合、入力信号として1を入力する。
【0053】
そして、判別部5は、各種パラメータにより規定される入力信号を第1層L1に入力する。かかる入力信号は、第1層の計算ノードN11~N15から、第2層L2の計算ノードN21~N25にそれぞれ出力される。このとき、計算ノードN11~N15から出力された値に対し、計算ノードN毎に設定された重みwを掛け合わせた値が計算ノードN21~N25に入力される。計算ノードN21~N25は、入力値を足し合わせ、かかる値に
図6に示されるバイアスbを足した値を活性化関数f()に入力する。そして、活性化関数f()の出力値(
図4の例では仮想的な計算ノードノードN'23からの出力値)が次ノードである計算ノードN31に伝搬される。このとき、計算ノードN21~N25と計算ノードN31の間との間に設定された重みwと上記出力値を掛け合わせた値が計算ノードN31に入力される。計算ノードN31は、入力値を足し合わせ、合計値を出力信号として出力する。このとき、計算ノードN31は、入力値を足し合わせ、合計値にバイアスを足した値を活性化関数f()に入力してその出力値を出力信号として出力してもよい。ここで、本実施形態では、出力信号の値は0~1の値となるように調整されている。そして、機械学習実行部4は、出力信号の値に対応する値を高頻度変異型癌であるか否かを判別する確率として出力する。
【0054】
以上説明したように、本実施形態のシステム10は、第1画像データ及び第2画像データを教師データとし、機械学習実行部4による機械学習を実行することにより、高頻度変異型癌であるか否かを判別する判別モデル(ニューラルネットワーク及び重みw)を生成する。そして、判別部5により、かかる判別モデルを用いて第3画像データが高頻度変異型癌であるか否かを判別する。
【0055】
1.2.判別モデルの生成
次に、
図7を用いて、
図2のS5~S6における判別モデルの生成について説明する。
【0056】
図7に示すように、機械学習実行部4は、
図5に示されるニューラルネットワークと同じ構成のニューラルネットワークを構成する各計算ノードNに対し、例えば-1~1までの重みwを設定する。このとき、重みwの影響を低減するため、最初に設定する重みwの絶対値は小さいことが好ましい。そして、5種類のパラメータセットをニューラルネットワークに入力する。本実施形態では、ニューラルネットワークに入力するパラメータとして、第1画像データのZ値、第2画像データのZ値、第1画像データのZ値の分布、第2画像データのZ値の分布、第1画像データと第2画像データのZ値の差分を用いる。ここで、第1画像データのZ値及び第2画像データのZ値は、ピクセル単位におけるZ値である。また、第1画像データのZ値の分布及び第2画像データのZ値の分布は、画像データ(300pixel×300pixel)内におけるZ値の分布である。また、第1画像データと第2画像データのZ値の差分は、第1画像データ及び第2画像データの対応するピクセル毎のZ値の差分又は画像データ内における対応するピクセル毎のZ値の差分の合計である。
【0057】
そして、ニューラルネットワークからの出力信号と、教師データ(専門医による判別)を比較し、出力信号と教師データの差分(以下、誤差という)が予め定められた閾値以上の場合、重みwを変更し、再び5種類のパラメータセットをニューラルネットワークに入力する。このとき、重みwの変更は、公知の誤差伝搬法等により実行される。かかる計算を繰り返し実行(機械学習)することにより、ニューラルネットワークからの出力信号と予め与えた教師データの誤差を極小化する。このとき、機械学習の学習回数は特に限定されず、例えば、1000回~20000回とすることができる。また、実際の出力信号と予め与えた教師データの誤差が極小化されていなくても、かかる誤差が予め定められた閾値以下となった場合又は開発者の任意のタイミングで機械学習を終了することにしてもよい。
【0058】
そして、機械学習実行部4による機械学習が終了すると、機械学習実行部4は、このときの各計算ノードNの重みをニューラルネットワークに設定する。つまり、本実施形態では、ニューラルネットワーク上に設けられたメモリ等の記憶部に重みwが格納される。そして、機械学習実行部4により設定された重みwが、システム10に設けられた不図示の記憶部に送信され、
図5のニューラルネットワークの各計算ノードNの重みwとされる。本実施形態では、
図5のニューラルネットワーク上に設けられたメモリ等の記憶部に重みwが格納される。ここで、
図7のニューラルネットワークの構成を、
図5のニューラルネットワークの構成と同じにすることにより、機械学習実行部4により設定された重みwをそのまま用いることが可能になる。
【0059】
<2.第2実施形態>
図8~
図12を用いて、本発明の第2実施形態について説明する。なお、実施形態1と同様の構成および機能については、その説明を繰り返さない。
【0060】
図8に示すように、第2実施形態に係るシステム20では、入力部21は、第1画像データ、第2画像データに加えて、非癌画像データをさらに入力可能に構成される。ここで非癌画像データとは、癌の病理切片以外の画像データを意味する。画像処理部22は、入力された画像データに対して分割処理を行う。分割処理の詳細は後述する。
【0061】
保持部23は、分割された第1画像データおよび第2画像データに加えて、分割された非癌画像データをさらに保持可能に構成される。機械学習実行部24は、保持部3により保持された第1画像データ、第2画像データ、および非癌画像データを教師データとし、癌の画像であるか否かを判別する判別モデル(以下、第1判別モデルという)と、癌の画像が高頻度変異型癌であるか否かを判別する判別モデル(以下、第2判別モデルという)とを生成可能に構成される。判別部25は、第1および第2判別モデルに第3画像データを入力し、第3画像データが癌の画像データであるか否かと、高頻度変異型癌の画像データであるか否かとを判別可能に構成される。
【0062】
図9は、入力部21に入力される一例としての画像データPを示す。画像データPは、組織領域Tと、ブランク領域BL(例えば、プレパレートの領域)を有する。組織領域Tは、高頻度変異型癌ではない癌の領域C1と、高頻度変異型癌の領域C2と、癌ではない組織領域NCとを含む。
【0063】
画像処理部22は、入力部21に入力される画像データPに対して分割処理を行う。
図9に示す例では、組織領域Tを縦10×横10に100分割している。すなわち、組織領域Tを包含するように100個からなるタイルD
00~D
99を設定する。
【0064】
この例においては、高頻度変異型癌の領域C2に対応するタイル(例えば、タイルD54)は第1画像データに相当し、高頻度変異型癌でない癌の領域C1に対応するタイル(例えば、タイルD34)は、第2画像データに相当する。また、癌でない組織領域NCのみに対応するタイル(例えば、タイルD15)、ブランク領域BLのみに対応するタイル(例えば、タイルD49)、および、癌でない組織領域NCとブランク領域BLとを含むタイル(例えば、タイルD04)は、いずれも非癌画像データに相当する。
【0065】
このように、本実施形態においては、非癌画像データとして、癌でない組織領域NCに対応するタイル、ブランク領域BLのみに対応するタイル、癌でない組織領域NCとブランク領域BLとを含むタイルなど、様々な画像を入力して機械学習を行う。このように非癌画像の多様性を増やすことにより、検査対象データが癌画像であるか否かの判定の精度が向上する。
【0066】
また、本実施形態では、上記分割処理(以下、第1の分割処理という)後の画像データに対して、さらなる分割処理(以下、第2の分割処理という)を行うこともできる。
図10では、第1の分割処理によって分割後のタイルDnmを、さらに5つのタイルに分割している。ここで、第2の分割処理では、分割後のタイルにおいて一部の領域が重複するように分割処理が実行される。すなわち、第2の分割処理後のタイルDnm1とタイルDnm2とは、一部の画像が重複している。また、タイルDnm2とタイルDnm3とも一部の画像が重複している。
【0067】
このように、分割後の画像において一部の領域が重複するように分割処理を実行することにより、画像数を増加することが可能となり、後続の機械学習における学習効率を向上させることができる。
【0068】
図11は、本実施形態における第3画像データの判別処理の処理フローである。
図11に示すように、本実施形態では、判別部25は第3画像データが癌画像であるか否かの判別と、高頻度変異型癌であるか否かの判別とを行う。
【0069】
具体的には、ステップS23内におけるステップS231において、判別部25は、第3画像データが癌画像であるか否かの判別を行う。癌画像でない場合(ステップS231においてNo)、ステップS233において、当該第3画像データは非癌画像であると判別する。
【0070】
一方、癌画像である場合(ステップS231においてYes)、判別部25は、ステップS232において、第3画像データが高頻度変異型癌の画像であるか否かの判別を行う。高頻度変異型癌でない場合(ステップS232においてNo)、ステップS235において、当該第3画像データは高頻度変異型癌の画像でないと判別される。一方、高頻度変異型癌である場合(ステップS232においてYes)、ステップS234において、当該第3画像データは高頻度変異型癌の画像であると判別される。
【0071】
このようにして、本実施形態では、第3画像データについて癌画像であるか否かの判別と、高頻度変異型癌であるか否かの判別とを行う。そのため、癌の画像データであるか否かを病理医等が予め診断する必要がなく、判別処理における作業効率を向上させることができる。
【0072】
ここで、判別部25は、癌の画像データであると判別された画像データ内における高頻度変異型癌であると判別された画像データの比率に基づいて、当該癌が高頻度変異癌であるか否かを判別してもよい。
【0073】
図12に示す例では、第3画像データP2において、癌の画像データであると判別された画像E1内に、高頻度変異型癌であると判別された画像E2が存在している。そのとき、判別部25は、(E2のタイルの枚数)/(E1のタイルの枚数)で定められる比率が予め定められた閾値より大きい場合に、画像E1によって示される領域が高頻度変異型癌であると判別する。
【0074】
このようにすることにより、局所的に高頻度変異型癌であると判別してしまう偽陽性をノイズとして除去することが可能となり、判別の精度を向上することが可能となる。
【0075】
以上のように、第2実施形態では、入力部21は、非癌画像データをさらに入力可能に構成され、機械学習実行部24は、非癌画像データをも教師データとし、癌の病理切片の画像データであるか否かを判別する判別モデルをさらに生成可能に構成される。そして、判別部25は、第3画像データが癌の画像データであるか否かをさらに判別可能に構成される。このような構成とすることにより、第3画像データについて、病理医になどによる癌であるか否かの診断が必要なくなり、判別処理の作業効率が向上する。
【0076】
<3.その他の実施形態>
以上、種々の実施形態について説明したが、本発明は以下の態様でも実施可能である。
【0077】
コンピュータを、
入力部、保持部、機械学習実行部及び解析部として機能させ、
前記入力部は、複数の第1画像データ及び複数の第2画像データを入力可能に構成され、
第1画像データは、染色された高頻度変異型癌の病理切片を表す画像データであり、
第2画像データは、高頻度変異型癌ではない病理切片であって、第1画像データのもととなるがんの病理切片と同じ染色がされた病理切片を表す画像データであり、
前記保持部は、第1画像データ及び第2画像データを保持可能に構成され、
前記機械学習実行部は、前記保持部により保持された第1画像データ及び第2画像データを教師データとし、高頻度変異型癌であるか否かを判別する判別モデルを生成可能に構成される、
プログラム。
【0078】
上述の何れか1つに記載のシステムを用いて実行される、高頻度変異型癌の判別方法。なお、ここにいう高頻度変異型癌とは、任意の癌種を含み、例えば脳腫瘍、頭頚部癌、乳癌、肺癌、食道癌、胃癌、十二指腸癌、虫垂癌、大腸癌、直腸癌、肝癌、膵癌、胆嚢癌、胆管癌、肛門癌、腎癌、尿管癌、膀胱癌、前立腺癌、陰茎癌、精巣癌、子宮癌、卵巣癌、外陰癌、膣癌、皮膚癌などの固形癌が挙げられるがこれらに限定されない。本発明の目的では高頻度変異型がんは、大腸癌、肺癌、胃癌、メラノーマ(悪性黒色腫)、頭頚部癌、食道癌であることが好ましい。
【0079】
上述のプログラムを用いて実行される、高頻度変異型癌の判別方法。
【0080】
免疫チェックポイント阻害剤の有効性を判断する工程を含む、上述の何れか1つに記載の判別方法。かかる判別方法は、高頻度変異型の癌を有すると判別された患者が、免疫チェックポイント阻害剤の投与の有効性が高いことを示す工程をさらに含むことができる。高頻度変異型癌は、免疫機構のターゲットとなる癌特異的な抗原を多く持っているため、免疫抑制のシグナル経路をブロックする療法の効果が高いことが示されている。かかる判別方法では、癌が高頻度変異型であることを簡便に判別できるため有利である。ここにいう「免疫チェックポイント」は、当該分野で公知であり(Naidoo et al. British Journal of Cancer (2014) 111, 2214-2219)、CTLA4、PD1、及び、そのリガンドPDL-1等が知られている。その他には、TIM-3、KIR、LAG-3、VISTA、BTLAが含まれる。免疫チェックポイントの阻害剤は、それらの正常な免疫機能を阻害する。例えば、免疫チェックポイントの分子の発現を負に制御するか、又は、その分子に結合して、正常な受容体/リガンド相互作用をブロックすることによって阻害する。免疫チェックポイントは、抗原に対する免疫系応答にブレーキをかけるように働くので、その阻害剤は、この免疫抑制効果を減少させ、免疫応答を増強する。免疫チェックポイントの阻害剤は、当技術分野で公知であり、好ましいものは、抗CTLA-4抗体(例;イピリムマブ(ipilimumab),トレメリムマブ(tremelimumab))、抗PD-1抗体(例:ニボルマブ(nivolumab)、ペンブロリズマブ(lambrolozumab)、pidilizumab、及びRG7446(Roche))、並びに、抗PDL-1抗体(例;BMS-936559(Bristol-Myers Squibb)、MPDL3280A(Genentech)、MSB0010718C(EMD-Serono)及びMEDI4736(AstraZeneca))等の抗-免疫チェックポイント抗体である。
【0081】
また、保持部3は、外部のPC又はサーバ等の情報処理装置に設けるクラウドコンピューティングの態様とすることができる。この場合、計算の度に必要なデータを外部の情報処理装置がシステム10に送信する。
【0082】
また、上述のプログラムを格納した、コンピュータ読取り可能な非一時的記録媒体として提供することもできる。さらに、上述のプログラムの機能を実装したASIC(application specific integrated circuit)、FPGA(field-programmable gate array)、DRP(Dynamic ReConfigurable Processor)として提供することもできる。
【符号の説明】
【0083】
1,21 :入力部
2,22 :画像処理部
3,23 :保持部
4,24 :機械学習実行部
5,25 :判別部
10,20 :システム