(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024077476
(43)【公開日】2024-06-07
(54)【発明の名称】細胞診画像におけるAI診断支援方法及び診断支援システム
(51)【国際特許分類】
G06T 7/00 20170101AFI20240531BHJP
C12M 1/34 20060101ALI20240531BHJP
G01N 33/48 20060101ALI20240531BHJP
G16H 50/20 20180101ALI20240531BHJP
C12Q 1/6827 20180101ALI20240531BHJP
C12Q 1/04 20060101ALI20240531BHJP
【FI】
G06T7/00 350B
C12M1/34 B
G01N33/48 M
G16H50/20
C12Q1/6827 Z
C12Q1/04
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022189600
(22)【出願日】2022-11-28
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 令和4年5月18日に第63回日本臨床細胞学会総会(春期大会)抄録集(ウェブサイト https://www.jscc2022.jp/img/common/jjscc_61suppl1.pdf)にて公開。(公開の事実(1)) [刊行物等]令和4年6月11日に第63回日本臨床細胞学会総会(春期大会)にて発表。(公開の事実(2)) [刊行物等]令和4年6月1日に、第160回東邦医学会例会プログラム(ウェブサイト https://tms.med.toho-u.ac.jp/open-doc/img/160meeting/160programofficial.pdf)にて公開。(公開の事実(3)) [刊行物等]令和4年6月15日に、第160回東邦医学会例会にて発表。(公開の事実(4)) [刊行物等]令和4年7月13日に、第106回日本病理組織技術学会抄録(ウェブサイト https://www.sasappa.co.jp/jsht/program/)にて公開。(公開の事実(5)) [刊行物等]令和4年8月7日に、第106回日本病理組織技術学会にて発表。(公開の事実(6))
(71)【出願人】
【識別番号】000173588
【氏名又は名称】公益財団法人がん研究会
(74)【代理人】
【識別番号】100179431
【弁理士】
【氏名又は名称】白形 由美子
(72)【発明者】
【氏名】高松 学
(72)【発明者】
【氏名】石井 脩平
【テーマコード(参考)】
2G045
4B029
4B063
5L096
5L099
【Fターム(参考)】
2G045BB24
2G045CB02
2G045FA16
4B029AA07
4B029BB11
4B029FA02
4B029FA03
4B063QA19
4B063QQ02
4B063QR72
4B063QS39
4B063QX01
5L096BA06
5L096BA13
5L096CA02
5L096GA55
5L096HA11
5L096KA04
5L096KA15
5L099AA26
(57)【要約】 (修正有)
【課題】立体的な細胞集塊を形成している細胞診画像を既存の装置を用いて、腫瘍細胞の有無、遺伝子変異を予測するAI診断支援方法、診断支援システム、学習済みモデル及びプログラムを提供する。
【解決手段】細胞診標本を用いた診断支援方法であって、作製された細胞診標本を間歇的に自動撮像する工程と、画像を露光時間によって撮像倍率を分類する工程と、画像パッチを作成しサイズを統一する工程と、解析に不適切な画像パッチを排除する工程と、機械学習によって学習させることによって腫瘍細胞が画像に含まれているかを判定する工程と、を備える。さらに、腫瘍細胞が含まれている画像パッチを予め遺伝子変異により機械学習させたモデルによって、遺伝子変異予測を予測させる。
【効果】細胞診によって、遺伝子変異が予測できるので、適切な治療開始までの時間を短縮させることが可能となる。
【選択図】
図2
【特許請求の範囲】
【請求項1】
細胞診標本を用いた診断支援方法であって、
作製された細胞診標本を間歇的に自動撮像する工程と、
画像を露光時間によって撮像倍率を分類する工程と、
画像パッチを作成しサイズを統一する工程と、
解析に不適切な画像パッチを排除する工程と、
機械学習により学習させた学習済みモデルを用いて腫瘍細胞が画像に含まれているかを判定する工程を備えた診断支援方法。
【請求項2】
前記機械学習が弱教師あり学習であることを特徴とする請求項1記載の診断支援方法。
【請求項3】
腫瘍細胞が含まれている画像パッチを予め遺伝子変異により機械学習させたモデルによって、遺伝子変異予測を行う工程を備えることを特徴とする請求項1、又は2記載の診断支援方法。
【請求項4】
前記遺伝子変異予測を行うための機械学習モデルが教師あり学習であることを特徴とする請求項3記載の診断支援方法。
【請求項5】
作製された細胞診標本を間歇的に自動撮像することによって得られた画像を露光時間によって撮像倍率を分類し、
画像パッチを作成し、
画像パッチのサイズを統一し、
解析に不適切な画像パッチを平均ピクセル値及びラプラシアンフィルタリングによって排除し、
機械学習によって学習させた学習済みモデルによる処理をコンピュータに実行させる腫瘍細胞が画像に含まれているかを判定する診断支援プログラム。
【請求項6】
さらに、腫瘍細胞が含まれている画像パッチを予め遺伝子変異により機械学習させたモデルによって、遺伝子変異予測を行う処理をコンピュータに実行させる請求項5記載の診断支援プログラム。
【請求項7】
細胞診画像を用いた学習済みモデルであって、
細胞診画像が入力される入力層と、
教師データを用いてパラメータが学習された中間層とを備え、
細胞診画像における腫瘍細胞の有無の判定結果を出力する出力層を備え、
細胞診画像を入力層に入力し、中間層にて演算し、細胞診画像における腫瘍細胞の有無を出力するようにコンピュータを機能させるための学習済みモデル。
【請求項8】
腫瘍細胞が含まれると判断された細胞診画像の遺伝子変異を予測する学習済みモデルであって、
腫瘍細胞を含む細胞診画像が入力される入力層と、
教師データを用いて各遺伝子変異のパラメータが学習された中間層とを備え、
遺伝子変異を予測する判定結果を出力する出力層を備え、
腫瘍細胞が含まれると判断された細胞診画像を入力層に入力し、中間層にて演算し、請求項7記載の学習済みモデルによって腫瘍を含むと判定された画像の遺伝子変異予測を出力するようにコンピュータを機能させるための学習済みモデル。
【請求項9】
顕微鏡、及びイメージセンサーと
請求項5又は6記載のプログラムを備えた診断支援システム。
【請求項10】
顕微鏡、及びイメージセンサーと
請求項7又は8記載の学習済みモデルを備えた診断支援システム。
【発明の詳細な説明】
【技術分野】
【0001】
細胞診画像を対象として腫瘍細胞の有無、さらに遺伝子変異を予測する診断支援方法、及び診断支援システムに関する。
【背景技術】
【0002】
患者から採取された細胞や組織を顕微鏡で観察して病変を診断する病理診断は、病気の診断において欠かせないものである。特に腫瘍においては、病理診断は確定診断となり、治療方針の決定や治療効果の評価、予後判定に重要な意味を持つ。
【0003】
病理診断は、手術等で摘出された臓器や組織を診断する組織診、喀痰や尿中、あるいは穿刺、擦過によって集めた細胞を診断する細胞診がある。細胞診検体は、組織検体に比べて、一般的に採取が比較的低侵襲であるため患者負担が少ない。また、迅速細胞診標本も通常標本に比して遜色ないことから、短時間の解析に向いている。また、肺がんでは細胞診と組織診の診断の一致率が高いため、腺扁平上皮がんといった稀ながん以外では、細胞診のみで診断が行われている。
【0004】
近年、病理診断にもデジタル画像技術が応用されてきている。スライドガラス上の標本を高倍率でスキャンしてデジタル画像化するWhole Slide Imaging(WSI)は、病理診断に大きな変化をもたらしている。画像がデジタル化されることにより、AI技術を適用することが可能となり、AI技術を利用した診断方法の積極的な開発が行われるようになってきている。病理診断においては、組織像の解析技術の向上により、病変部位の検出だけではなく、組織型の分類も可能になり、診断時間の短縮とともに再現性のある診断や見逃しの減少に貢献している(特許文献1、2)。
【0005】
さらに、機械学習を用いて組織画像のWSIから遺伝子変異を予測するAIモデルも報告されている(非特許文献1、2)。しかしながら、細胞診画像から、遺伝子変異を予測するAIモデルは未だ存在していない。細胞診画像においても、腫瘍細胞を検出したり遺伝子変異を推定することができれば、その後の治療方針の策定に大きく寄与することになる。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2022-527240号公報
【特許文献2】特開2016-184224号公報
【非特許文献】
【0007】
【非特許文献1】Coudray N., et al., Nat Med., 2018, Vol.24, pp.1559-1567
【非特許文献2】Jang H.J., et al., World J Gastroenterol., 2020, Vol.26, pp.6207-6223.
【非特許文献3】Saldanha, O.L., et al., Gastric Cancer. 2022 Oct 20. doi:10.1007/s10120-022-01347-0.
【発明の概要】
【発明が解決しようとする課題】
【0008】
特許文献1及び2の装置は、細胞診も組織診も対象とするとの記載はあるものの、細胞診においてAIを活用する技術は未だ実用化されていない。切片から作製された平面的な組織標本に対して、細胞診は、細胞が立体的な細胞集塊を形成しており、デジタル化が組織標本と比べて難しいことがAIの利用を阻んでいる。また、WSIのような高価な装置の利用は、技術の普及にはハードルが高くなる。したがって、既存の装置を用いて行える技術であることが望ましい。本発明は、広く普及している装置を用いて、細胞診標本において遺伝子変異まで推定することのできる診断支援技術を確立することを課題とする。
【課題を解決するための手段】
【0009】
本発明は、以下の診断支援技術に関する。
(1)細胞診標本を用いた診断支援方法であって、作製された細胞診標本を間歇的に自動撮像する工程と、画像を露光時間によって撮像倍率を分類する工程と、画像パッチを作成しサイズを統一する工程と、解析に不適切な画像パッチを排除する工程と、機械学習により学習させた学習済みモデルを用いて腫瘍細胞が画像に含まれているかを判定する工程を備えた診断支援方法。
近年病理診断にAIを適用する技術が開発されてきているが、立体的な細胞集塊を形成している細胞診標本はデジタル化しにくい。WSIなどの高価な機器を用いれば、デジタル化も可能であるが、汎用的な顕微鏡及び撮像機器を用いた技術は開発されていなかった。本方法はこれら課題を解決するものである。
【0010】
(2)前記機械学習が弱教師あり学習であることを特徴とする(1)記載の診断支援方法。
最初の工程として、弱教師あり学習によって、腫瘍細胞を含む画像か否かを判定させる。ここでは、弱教師あり学習を用いているが、どのような学習方法を用いてもよい。
【0011】
(3)腫瘍細胞が含まれている画像パッチを予め遺伝子変異により機械学習させたモデルによって、遺伝子変異予測を行う工程を備えることを特徴とする(1)、又は(2)記載の診断支援方法。
腫瘍細胞を含むと判定された画像パッチは、次に遺伝子変異を学習させたモデルによって、遺伝子変異を予測させる。細胞診によって、遺伝子変異が予測できるので、適切な治療開始までの時間を短縮させることが可能となる。
【0012】
(4)前記遺伝子変異予測を行うための機械学習モデルが教師あり学習であることを特徴とする(3)記載の診断支援方法。
ここでは、教師あり学習を用いて遺伝子変異予測を行っているが、どのような学習方法を用いてもよい。
【0013】
(5)作製された細胞診標本を間歇的に自動撮像することによって得られた画像を露光時間によって撮像倍率を分類し、画像パッチを作成し、画像パッチのサイズを統一し、解析に不適切な画像パッチを平均ピクセル値及びラプラシアンフィルタリングによって排除し、機械学習によって学習させた学習済みモデルによる処理をコンピュータに実行させる腫瘍細胞が画像に含まれているかを判定する診断支援プログラム。
上記診断支援プログラムを用いれば、各施設において細胞診画像から腫瘍細胞の有無を判定することができる。
【0014】
(6)さらに、腫瘍細胞が含まれている画像パッチを予め遺伝子変異により機械学習させたモデルによって、遺伝子変異予測を行う処理をコンピュータに実行させる(5)記載の診断支援プログラム。
上記診断支援プログラムを用いれば、各施設において細胞診画像から腫瘍細胞の有無を判定し、遺伝子変異予測を行うことが可能となり、適切な治療開始までの時間を短縮させることが可能となる。
【0015】
(7)細胞診画像を用いた学習済みモデルであって、細胞診画像が入力される入力層と、教師データを用いてパラメータが学習された中間層とを備え、細胞診画像における腫瘍細胞の有無の判定結果を出力する出力層を備え、細胞診画像を入力層に入力し、中間層にて演算し、細胞診画像における腫瘍細胞の有無を出力するようにコンピュータを機能させるための学習済みモデル。
学習済みモデルCNN1は、入力層に入力された細胞診画像が、中間層において解析に適する画像に処理された後、パラメータによって腫瘍細胞の有無を判定され、出力層に結果が提示されるように構築されている。
【0016】
(8)腫瘍細胞が含まれると判断された細胞診画像の遺伝子変異を予測する学習済みモデルであって、腫瘍細胞を含む細胞診画像が入力される入力層と、教師データを用いて各遺伝子変異のパラメータが学習された中間層とを備え、遺伝子変異を予測する判定結果を出力する出力層を備え、腫瘍細胞が含まれると判断された細胞診画像を入力層に入力し、中間層にて演算し、請求項7記載の学習済みモデルによって腫瘍を含むと判定された画像の遺伝子変異予測を出力するようにコンピュータを機能させるための学習済みモデル。
遺伝子変異予測を行う学習済みモデルCNN2は、腫瘍細胞が存在すると判定された細胞診画像が入力層に入力され、中間層においてパラメータによって遺伝子変異を予測され、出力層において結果が提示されるように構築されている。
【0017】
(9)顕微鏡、及びイメージセンサーと(5)又は(6)記載のプログラムを備えた診断支援システム。
本診断支援システムは、実施例に示すように汎用的な顕微鏡及びイメージセンサーと上述のプログラムを備えたコンピュータがあれば良い。プログラムは、ローカルのハードウエアに配置しても、サーバーやクラウド上に配置してもよい。
【0018】
(10)顕微鏡、及びイメージセンサーと(7)又は(8)記載の学習済みモデルを備えた診断支援システム。
本診断支援システムは、上述のように汎用的な顕微鏡及びイメージセンサーと学習済みモデルがあれば良い。細胞診の経験が少ない者であっても、提供された学習済みモデルによって、一定の診断を行うことが可能となる。
【図面の簡単な説明】
【0019】
【
図1】実施形態の細胞診断支援システムの例を示す。
【
図2】画像を収集し、がん画像選択、さらに遺伝子変異を予測するAIモデルによる診断支援までの流れを示す。
【
図3】遺伝子変異予測のための判定アルゴリズム(CNN2)を示す図。
【
図4】CNN2によりEGFR群、KRAS群、ALK群と判定された代表的な画像を示す。
【
図5】EGFR変異において本技術によって見出された細胞学的特徴を示す代表的な症例の画像を示す図。
【発明を実施するための形態】
【0020】
細胞診とは、組織から剥離した細胞や、擦過又は穿刺吸引等で採取した細胞について病変を示す細胞が存在するかを検査する方法である。具体的には、喀痰、尿、胸水、腹水、胃液等の体腔液、子宮頸部、子宮体部の細胞を擦過により採取する、あるいは甲状腺、乳腺の細胞を穿刺吸引によって採取し、細胞診が行われている。
【0021】
ここでは、細胞診において用いられている標準的な染色法であるパパニコロウ染色を用いて、モデルを作成しているが、ギムザ染色等、どのような染色法を用いたものであっても、以下に示す方法で画像をデジタル化し、機械学習を行わせることによって、学習モデルを作成することができる。以下の実施例では、肺がんの遺伝子変異を例に挙げて説明するが、遺伝子変異だけではなく、5年生存率、無再発生存率等の生命予後、特定の医薬への反応性等の治療効果を予測するモデルを作ることもできる。例えば、5年生存率を予測するモデルであれば、5年生存した患者群と5年以内に死亡した患者群から得られた診断時の細胞診画像を教師データとすればよく、また、治療効果を判定するモデルであれば、特定の治療に対する反応群、非反応群の患者から得られた細胞診画像を教師データとして用いればよい。また、細胞の採取方法、由来する組織によらず、どのような細胞を用いた細胞診画像であっても応用できることは言うまでもない。また、「遺伝子変異」の語は点突然変異の他に、染色体転座や欠失、重複、逆位、挿入など染色体レベルでの遺伝子変化も含むものとする。「がん」、及び「腫瘍」の語は、本明細書では互換的に用いられる。
【0022】
[試料]
がん研有明病院で組織学的に確定診断が行われた原発性肺腺がん99症例について解析を行った。遺伝子変異に関しては、オンコマインDx、コバスEGFR変異検出キット、ALK FISHのような一般的な検査方法で全例確認を行った。遺伝子変異の検出は、上記以外でも遺伝子変異が分かる方法であればよく、オンコマインDxの他、NCCオンコパネル、Foundation Oneのような遺伝子検査だけではなく、FISH、免疫組織染色等、遺伝子変異の情報が明らかになるものであれば、どのようなものを用いても良い。
【0023】
細胞診標本は、がん細胞を含む試料を塗抹(n=65)、あるいは捺印(n=48)により作製した。このうち14例は塗抹標本及び捺印標本によって標本を作製した。塗抹標本は、気管支擦過及び穿刺吸引によって得られた試料を用いている。また、外科的切除を行った試料から捺印標本を作製した。さらに、腫瘍細胞が認められなかった32の細胞診標本(24の塗抹標本及び8つの捺印標本)をがん陰性症例とした。これら症例を用いて、がん細胞を含む画像を選択する教師あり機械学習モデルを作成した。
【0024】
[細胞診断支援システム]
以下の実施例で用いた細胞診断支援システム1の例を示す。顕微鏡11にイメージセンサー12が取り付けられた画像取得システム2は、コンピュータ13と接続されている。取得された細胞診画像は、コンピュータ13のメモリに保存される。後述するように、撮像後、細胞診画像データは、焦点の合っていない画像の排除や画像サイズを変更等画像前処理を行った後、予め教師データにより作成された学習済モデル(CNN1、
図2参照)で処理され、腫瘍細胞の有無を判定された後に、遺伝子変異予測モデル(CNN2)で処理される。
【0025】
ここでは、ローカルで使用可能なシステム構築例を示しているが、クラウド、あるいはサーバーに画像データを転送し、解析処理を行っても良い。クラウド等で処理を行うようにすれば、遠隔地で取得された画像データであっても解析することが可能となる。
【0026】
[試料の準備と画像の取り込み]
全ての標本は95%エタノールで固定後、標準的な細胞診の手法でパパニコロウ染色を行った。撮像は、顕微鏡(Olympus BX50)にイメージセンサー(Sony IMX477)を取り付けて行った。画像の解像度は3840×2160ピクセルである。サンプル領域全体をカバーする細胞診画像を得るために、細胞検査士がまず10倍の対物レンズを用いてスクリーニングを行い、その後40倍の対物レンズを用いて関心領域のスクリーニングを行った。スクリーニングの間、イメージセンサーを顕微鏡に取り付け、各画像の露光時間によって1~2枚/秒で間歇的に撮像を行った。各画像はメタデータとして露光時間を含んでいる。撮像する際には、同様の画像の異なるフォーカス位置の画像もデータとして含まれている(
図2)。
【0027】
上記画像取得方法は、通常の細胞診標本を使用し、顕微鏡及びイメージセンサーは、通常病理診断に用いられている光学顕微鏡、及び汎用のイメージセンサーを用いればよい。細胞検査士が通常行っているように、マニュアルで検査を行い、標本を観察することによって、間歇的に自動で撮像が行われ、画像が取得される。取得された画像データは制御コンピュータに送られ、内蔵のストレージあるいは、外付けSSD/HDD等に保存することができる。また、取得した画像を自動的にNASやファイルサーバー、クラウドストレージ等に転送し、保存することもできる。
【0028】
[パッチ画像生成のための画像前処理]
露光時間は倍率によって異なるので、露光時間に応じて倍率別(対物レンズ10×、又は40×)に画像を分類した。10×、40×の対物レンズの平均露光時間はそれぞれ10.6ms、32.7msであったので、画像を選別する際の閾値を20msとした。露出オーバーあるいは露出アンダーの画像を排除するため、平均ピクセル値が50~230の画像を選別した。また、全ての画像についてラプラシアンフィルタリングによって、焦点の合っていない画像を排除した。2つの倍率で撮像した画像の実寸を統一するために、サイズを変更することによって、299ピクセルの正方形の画像を得た。
【0029】
40倍の対物レンズで撮像した画像は、左、中央、右と2160ピクセルスクエアで画像を切り出した。10倍の対物レンズで撮像した画像からは、540ピクセルスクエアの重複のない28の画像を切り出した。40倍の対物レンズを用いて撮像した画像では、重なり合う部分があるため、左右の画像を180℃回転させ、異なるパッチで類似の画像が生成されないようにした。また、100未満の画素値を少なくとも1つ含む画像パッチを選択し、対象が含まれない画像を除外した。最終的な解像度は0.573μm/ピクセルであった(
図2(A)右上)。
【0030】
[弱教師あり学習によるがんを含む画像の選択]
まず、がんを含む画像を選択する機械学習モデルを作成した。全ての画像パッチにがん陽性(106標本)、又はがん陰性(32標本)のラベルを付与した。がん陽性症例のうち、がん細胞の数が少なかった7つの標本は教師データから除外した。これらのラベル付けされた画像に対して、予め学習させた画像分類機械学習モデルをImageNet上のモデルMobileNet-V2,13を適用し、クロスエントロピー誤差が最小になるように畳み込みニューラルネットワーク(CNN)を再学習させた。このモデルをCNN1と呼ぶ(
図2A参照)。がん陽性症例のパッチには、多くのがん細胞の画像が含まれているため、再教育されたモデルは、がん細胞画像の特定の特徴によってパッチを確率推論することができる。擬似ラベルを付与し、真の症例との混同行列を作成し、CNN1を用いて感度、特異度、陽性的中率を算出した。パッチ内にがん細胞が含まれる可能性が高いがん陽性で、確率値が0.9より大きいパッチを収集し、さらなる解析に用いた。無作為に抽出した200枚(塗抹標本100、捺印標本100)の画像から、これらの画像を手作業で評価し、実際にがんを含む画像の割合を確認した。後述するが、モデルの精度は、0.991と非常に高い精度が得られた。
【0031】
[教師あり学習による遺伝子変異予測]
遺伝子変異の状態をALK融合遺伝子(ALK群)、EGFR変異(EGFR群)、KRAS変異(KRAS群)、及びこれらの変異が確認されなかった群(None群)の4つのグループに分類した。パネルシークエンス(Oncomine)が実施されなかった5例については遺伝子の状況が不明であるため、除外した。CNN1作成のために除外された7例を含む、残りのがん陽性例を無作為に教師データセットと検証データセットに割り当てた。108検体のうち5検体は、教師データセットとして塗抹標本、又は捺印標本が含まれていたため検証データセットから除外した。77件の教師データセットと26件の検証データセットを適用し、さらに解析を行った。
【0032】
教師データセットに含まれる全ての画像パッチを遺伝子変異の状態によって再ラベル化した。事前に学習させたモデルを再学習させ、4群を分類するための遺伝子変異予測モデルを構築し、CNN2とした(
図2B参照)。次に、遺伝子変異を予測するために、教師データセットと検証データセットをこのモデルに適用し、推定結果及び推定確率値を0.25から1.0の間の値で出力した。次に、予測確率が0.9を超えるパッチを集めて、症例に基づいた遺伝子予測アルゴリズムを構築した。予測確率が0.9以下の場合には、信頼性が低いと判断し、解析対象外としている。特徴が乏しい検体、あるいは細胞数が少なく特徴をつかみにくい検体などの場合には、予測精度が保てない可能性があることから、推定ランクを低く出力し、データの信頼度を担保している。最後に、これら選択した画像を用いて、全症例の遺伝子変異を予測する決定アルゴリズムを開発し、遺伝子変異を予測した。今回は症例数が少なかったため、各群に推定されたパッチ数の多寡による分類を行った。この方法を採用することによって、症例数が少なくても、パッチ枚数でカットオフ値を設定することができ、人間が理解しやすい形とすることができる。また、判定可能なパッチ数に応じて、症例の遺伝子変異を予測するための確率ランクを、以下のように設定した。
ランクA:可能性が非常に高い、ランクB:可能性が高い、ランクC:信頼できない。
また、十分な症例数がある場合には、線形回帰やランダムフォレスト、CNNなどの機械学習によるアルゴリズムを構築してもよい。
【0033】
[予測された遺伝子変異に対する細胞学的特徴抽出]
予測されたパッチの細胞学的特徴をモデル(CNN2)により評価した。予測確率の高い細胞学的特徴は、教師データセットと検証データセットの両方に出現することから、ある遺伝子変異に特徴的な画像と関係する本質的な所見とみなすことができる。そこで、両データセットに共通し、確率が0.9を超える画像パッチの特徴を検索した。標本から抽出されたこれらの特徴量の感度を明らかにするために、一標本について5パッチ、あるいは10パッチをランダムに抽出し、これらの画像に特徴量が含まれているかどうかを評価し、各遺伝子の状態について検討した。出現頻度が低い特徴量であっても、細胞の特徴を表すことがあるため、特徴量を含むパッチが少なくとも1つ以上存在する場合には陽性と判定した。パッチが5つ未満の試料は、解析から除外した。細胞形態は、以下の点により評価を行った:クラスター形成(単層シート状、乳頭状、不規則な輪郭を有し重複するクラスター、ムチンを含む細胞集合体、重複領域を含まない細胞クラスター)、孤立した細胞、印環細胞、裸の核、ムチンあるいは壊死を伴ったもの、これらのいずれにも属さないもの。
【0034】
[統計解析]
CNN2の予測評価を行うために、CNN2によって分類された遺伝子変異が予測する確率が0.9を超えるパッチについて、感度、特異度、正確度、精度、F値を算出した。質的因子はフィッシャー正確検定で解析し、オッズ比を算出した。量的因子は、スチューデントt検定で分析した。p値<0.05は統計的に有意であるとみなした。また、すべての解析は、Rバージョン3.6.2を用いて行った。
【0035】
以下に、解析結果を示す。
[患者特性]
年齢、性別、喫煙歴、病期と、遺伝子変異を表1にまとめた。EGFRに変異のある患者(以下、EGFR群)は、他の群と比較して早期の病期の患者が多かった。ALK群及びEGFR群の患者の多くは、喫煙歴がないのに対し、KRAS群及びNone群では、喫煙歴がある者が多かった。
【0036】
【0037】
[弱教師付き機械学習モデル(CNN1)の性能]
画像にがん細胞が含まれているか検出するCNN1モデルについてまず性能の検討を行った。CNN1モデルの精度と損失(loss)は、それぞれ0.859と0.307であった。疑似ラベルを付与したパッチと真性のラベルを付与したパッチに対する感度と特異度はそれぞれ0.942と0.962であった。モデルの精度は0.991であり、ほぼ全てのがん陽性画像を含んだがん陽性の疑似ラベルを検出することができた。無作為に選択したパッチの98%にがん細胞が含まれていることを確認した。
【0038】
[遺伝子変異予測モデル(CNN2)]
CNN2の精度は0.729、損失は0.706であった。画像を水平反転しデータ拡張を行っても、モデルの性能は向上しなかった。予測確率0.9>のパッチを教師データセットとして22301、検証データセットとして4457用意した。教師データセットにおける予測モデルを評価するためのメトリクスの大部分は0.95以上の値であった。EGFR変異とKRAS変異を予測するための検証データセットの精度は0.969と0.947であった。一方、検証データセットにおける他の遺伝子変異は予測性能が低く、特に感度とF値の値が低かった。
【0039】
また、サンプリング方法による性能を、サンプリング方法によって層別化したモデルで評価した。その結果、ALK群の1例で得られている試料を除いて、捺印標本によって得られた画像パッチの方が、塗抹標本によって得られた画像パッチよりも優れた予測性能を示した。また、少数のパッチが高い確率で予測されたため、教師データセットにおいてKRAS群の塗抹標本のほとんどのパッチが正しく予測されたが、検証データセットでは正しく予測されなかった。各群において代表的なパッチは、特徴的な細胞の形態を示した。
【0040】
【0041】
[判定アルゴリズム]
教師データセットに基づいて、遺伝子変異を予測する判定アルゴリズムを作成した(
図3)。予測確率が0.9未満であったため、3つの教師データセット、2つの検証データセットでは予測ができなかった。その結果、学習及び検証データセットでの遺伝子変異予測精度は0.838及び0.750であった(表2C欄)。誤った分類を行った症例は全てランクB、又はランクCであり、ランクAに限れば、両データセットで100%の予測精度を達成していた。一方検証データセットでは、高い予測確率のパッチが少ないことからALK群が71.4%、KRAS群が75.0%であった。
【0042】
[CNN2により推論される細胞学的特徴]
高い確率(0.9以上)で予測できた画像パッチの代表的な画像を
図4に示す。EGFR群症例から得られたパッチは、平坦又は単層構造を示した(
図4A)。KRAS群のパッチは、壊死所見、突出した核などの不規則な輪郭や裸の核を有する重複したクラスターを含んでいた(
図4C~E)。ALK群のパッチは、粘液性又は壊死性の背景を示し、単細胞、印環細胞、乳頭状のクラスターを示した(
図4F~J)。さらに、印環細胞は、ランクAとして正確に予測できるALK群の試料で頻度高く観察された。
【0043】
さらに、EGFR変異において、薄緑色の濃厚な細胞質を有する重なり合わない多面体細胞を含む緩いクラスターという今まで報告されていない新しい特徴が教師データセット、検証データセットの両方に見出された(
図4B)。EGFR変異を有する3症例の組織標本でも、この新しい特徴が同定された。
図5に示す症例50は境界が明瞭な固形腫瘍であり(A)、肺胞腔を満たす多形癌細胞を示し(D)、捺印標本では、重複のない多面体細胞クラスター(G)を示している。症例58は固形腫瘍(B)であり、周辺に拡散が認められ、高度の核異型を示し(E)、捺印標本においても核異型が認められる(H)。症例66は境界不明瞭な腫瘍であり(C)、周辺に微小乳頭状の構造を有する広がりが認められ(F)、塗抹標本でも一致する所見が認められた(I)。画像内のスケールは(A)~(C)は2mm、(D)~(F)は200μm、(G)~(I)は50μmである。本方法によって解析することにより、上述のように、今まで知られていなかった細胞形態の特徴と遺伝子変異を結びつけることが可能となる。
【0044】
各群5つのパッチを用いて解析した感度を表3にまとめた。単層シートの出現は、EGFR変異に特異的であり、感度高く見出された。非重複多面体クラスターは、EGFR変異に特異的であるが、感度はあまり高くはなかった。孤立した細胞は、ALK群及びNone群とも、半分の試料で観察された。KRAS群、及びNone群ではほとんどの患者に喫煙歴があったので、喫煙歴と関連するがんの画像間での比較を行った。その結果、いくつかの特徴は、これらの2つのグループ間で重複していたが、孤立した細胞はNone群に特異的であった。
【0045】
【0046】
さらに、データを増やすことにより、ここで示した3つの遺伝子変異ALK、EGFR、KRAS以外の遺伝子変異も検出できるモデルを作成することが可能である。本発明は、一般的に用いられている自動撮像装置を用いて細胞診画像を取得し、解析を行えるので、WSIに比べて非常に安価な装置で解析を行うことができる。
【0047】
本研究は単施設による検討であるが、今回構築した遺伝子変異予測モデルはインターネットを経由して別の施設でも利用可能であり、簡単に精度の検証を行うことができる。また、多施設でのモデル性能の向上を目的として、近年発展しているSwarm learning(SL)(非特許文献3)などの手法を用いれば、各施設で学習された結果を基に、染色条件に左右されにくい汎用性の高いモデルを構築することが可能となる。各患者の情報を秘匿としたまま、国内多施設はもとより、国際的なデータの連携が可能となるSLによって、さらに大きく医療に貢献する可能性を秘めている。
【符号の説明】
【0048】
1…細胞診断支援システム、2…画像取得システム、11…顕微鏡、12…イメージセンサー、13…コンピュータ