(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-03-24
(45)【発行日】2023-04-03
(54)【発明の名称】生体画像における連帯的細胞および領域分類のための深層学習システムならびに方法
(51)【国際特許分類】
G01N 33/48 20060101AFI20230327BHJP
C12Q 1/04 20060101ALI20230327BHJP
C12Q 1/06 20060101ALI20230327BHJP
C12M 1/34 20060101ALI20230327BHJP
G06T 7/00 20170101ALI20230327BHJP
【FI】
G01N33/48 M
C12Q1/04
C12Q1/06
C12M1/34 B
G06T7/00 350C
(21)【出願番号】P 2020531491
(86)(22)【出願日】2018-12-04
(86)【国際出願番号】 EP2018083473
(87)【国際公開番号】W WO2019110583
(87)【国際公開日】2019-06-13
【審査請求日】2021-06-10
(32)【優先日】2017-12-07
(33)【優先権主張国・地域又は機関】US
【前置審査】
(73)【特許権者】
【識別番号】507179346
【氏名又は名称】ベンタナ メディカル システムズ, インコーポレイテッド
(74)【代理人】
【識別番号】100118902
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100138759
【氏名又は名称】大房 直樹
(72)【発明者】
【氏名】チュッカ,スリニバス
(72)【発明者】
【氏名】サーカー,アニンディア
(72)【発明者】
【氏名】タジェルディン,モハメッド・アムガド
【審査官】佐田 宏史
(56)【参考文献】
【文献】特表2017-516992(JP,A)
【文献】米国特許出願公開第2011/0182490(US,A1)
【文献】特表2016-518813(JP,A)
【文献】米国特許出願公開第2017/0091937(US,A1)
【文献】国際公開第2016/133900(WO,A1)
【文献】特開2005-293264(JP,A)
【文献】山本 究一、村上 伸一,“K平均法を用いた画像の領域分割に関する一検討”,情報処理学会研究報告,日本,社団法人情報処理学会,2003年12月19日,Vol.2003, No.125,pp.173-178
【文献】嶌田 聡、外3名,“歩行指導のための足圧時系列画像からの足領域自動切出し法”,電子情報通信学会論文誌,日本,社団法人電子情報通信学会,2003年04月01日,Vol.J86-D-II, No.4,pp.501-510
【文献】高橋 正信、外2名,“ニューラルネットワークを利用した病理診断支援システム”,信号処理,日本,信号処理研究会,1999年11月30日,Vol.3, No.6,pp.407-414
【文献】Francesco Ciompi et al.,"The importance of stain normalization in colorectal tissue classification with convolutional networks",2017 IEEE 14th International Symposium on Biomedical Imaging (ISBI 2017),米国,IEEE,2017年04月18日,pp.160-163
【文献】Anoop Haridas et al.,"Interactive Segmentation Relabeling for Classification of Whole-Slide Histopathology Imagery",2015 IEEE 28th International Symposium on Computer-Based Medical Systems,米国,IEEE,2015年06月22日,pp.84-87
(58)【調査した分野】(Int.Cl.,DB名)
G01N 33/48
C12Q 1/04,1/06
C12M 1/34
G06T 1/00,7/00-7/90
G06V 10/00-10/98
(57)【特許請求の範囲】
【請求項1】
異なる細胞型および領域を検出および分類するために多層ニューラル・ネットワークを訓練するコンピュータ実装方法であって、
生体標本の試料画像の複数の画素内において組織領域を識別するステップであって、識別された各々の組織領域は、複数の組織型のうちの異なる組織型に対応する、ステップと、
前記試料画像の前記複数の画素において細胞を検出および分類し、提案細胞分類を行うステップであって、各々の提案細胞分類は、複数の細胞型のうちの異なる細胞型に対応する、ステップと、
前記複数の画素のうちの各画素について、
それぞれの画素が位置する前記識別された組織領域に基づいて、前記複数の組織型から当該画素に対する組織型を決定し、
それぞれの画素が位置する前記提案細胞分類に基づいて、前記複数の細胞型から当該画素に対する細胞型を決定し、
前記それぞれの画素に対する前記組織型および前記細胞型が生物学的に実現可能な組み合わせに対応することを決定する、
ステップと、
前記それぞれの画素に標識を割り当てるステップと、
前記試料画像と、前記複数の画素に割り当てられた前記標識とを使用して、前記多層ニューラル・ネットワークを訓練するステップと、
を含む、コンピュータ実装方法。
【請求項2】
請求項1記載のコンピュータ実装方法において、前記組織領域を識別するステップが、病理学者によって手作業で、および/または1つ以上のプロセッサ(209)によって自動的に実行される、コンピュータ実装方法。
【請求項3】
請求項1または2記載のコンピュータ実装方法において、前記細胞を検出および分類するステップが、(i)細胞核を検出するステップと、(ii)前景セグメント化マスクを計算するステップと、(iii)検出した細胞核から特徴を導き出すステップと、(iv)前記導き出した特徴に基づいて、分類器を使用して核を分類するステップとを含む、コンピュータ実装方法。
【請求項4】
請求項1から3のいずれか1項記載のコンピュータ実装方法において、前記標識が、前記それぞれの画素が位置する前記識別された組織領域と前記提案細胞分類のベクトル表現である、コンピュータ実装方法。
【請求項5】
請求項1から4のいずれか1項記載のコンピュータ実装方法において、前記組織領域が、腫瘍領域、間質領域、リンパ球豊富領域、および壊死領域のうちの1または複数を含み、前記複数の細胞型が、腫瘍細胞、間質細胞、およびリンパ球を含む、コンピュータ実装方法。
【請求項6】
請求項5記載のコンピュータ実装方法において、前記生物学的に実現可能な組み合わせが、(i)腫瘍領域における腫瘍細胞、(ii)腫瘍領域における間質細胞、(iii)腫瘍領域におけるリンパ球、(iv)間質領域における腫瘍細胞、(v)間質領域における間質細胞、(vi)間質領域におけるリンパ球、(vii)リンパ球豊富領域における腫瘍細胞、および(viii)リンパ球豊富領域におけるリンパ球、のうちの少なくとも1つを含む、コンピュータ実装方法。
【請求項7】
請求項1から6のいずれか1項記載のコンピュータ実装方法であって、更に、複数の画素を含む未標識画像を、前記訓練済み多層ニューラル・ネットワークに供給するステップと、前記未標識画像の画素毎に予測標識を受け取るステップとを含む、コンピュータ実装方法。
【請求項8】
細胞を分類するためのコンピュータ実装方法であって、
複数の細胞および1または複数の組織領域を表す複数の画素を含む画像を受け取るステップと、
前記複数の細胞の各細胞について細胞核を検出するステップと、
前記検出された細胞核に基づいて前記画像の前景セグメント化マスクを計算するステップと、
前記計算した前景セグメント化マスクによって前記画像をフィルタリングすることによって、前記複数の細胞の各細胞を識別するステップと、
細胞および組織領域を表す訓練画像によって訓練された多層ニューラル・ネットワークを用いて、前記複数の画素の各画素について予測標識を生成するステップであって、
前記多層ニューラル・ネットワークは、請求項1から7のいずれか1項記載のコンピュータ実装方法を用いて訓練されたものであり、前記予測標識は、それぞれの画素に対して複数の細胞型のうちの細胞型を示す、ステップと、
細胞標識を、識別された細胞各々に割り当てるステップであって、前記細胞標識は、前記細胞型のうちの1つの細胞型に対応し、前記細胞標識は、前記1つの細胞型を示す前記識別されたそれぞれの細胞に対応する画素に対して生成された前記予測標識に基づいて割り当てられる、ステップと、
を含む、コンピュータ実装方法。
【請求項9】
請求項8記載のコンピュータ実装方法であって、更に、異なる標識を付けられた個々の細胞を定量化し、発現スコアを計算するステップを含む、コンピュータ実装方法。
【請求項10】
請求項9記載のコンピュータ実装方法であって、更に、腫瘍領域または間質領域においてリンパ球の数および他の空間分布プロパティを定量化するステップを含む、コンピュータ実装方法。
【請求項11】
請求項10記載のコンピュータ実装方法において、識別された細胞各々に細胞標識を割り当てるステップが、(i)前記識別された細胞内において各予測標識を支持する画素の数を定量化するステップと、(ii)最も大きな量を有する予測標識を細胞標識として割り当てるステップとを含む、コンピュータ実装方法。
【請求項12】
システム(200)であって、
1つ以上のプロセッサ(209)と、
命令を格納する非一時的コンピュータ読み取り可能メモリ(201)と、
を備え、前記命令が前記1つ以上のプロセッサ(209)によって実行されると、請求項1から
7のいずれか1項記載の方法を前記1つ以上のプロセッサ(209)に実行させる、システム(200)。
【請求項13】
システム(200)であって、
未標識画像内において細胞を識別するように構成された細胞検出モジュール(204)と、
請求項1から7
のいずれか1項記載の方法を使用して、前記未標識画像内にある画素毎に予測標識を提供するように訓練された多層ニューラル・ネットワーク(220)であって、前記予測標識が異なる細胞型に対応する、多層ニューラル・ネットワーク(220)と、
前記細胞検出モジュール(204)によって識別された細胞を、請求項8から11までのいずれか1項記載の方法を使用して分類するように構成された細胞標識付けモジュール(208)と、
を備える、システム(200)。
【請求項14】
請求項13記載のシステムであって、更に、前記未標識画像内にある細胞標識を数え、前記種々の数えた細胞標識の比率に基づいて発現スコアを出力するように構成された採点モジュールを備え、特に、採点が前記未標識画像内の所定の視野内で実行される、システム。
【請求項15】
コンピューティング・システムの処理リソースによって実行可能な命令がエンコードされた非一時的コンピュータ読み取り可能記憶媒体であって、請求項1から11
のいずれか1項記載の方法を前記コンピューティング・システムに実行させる、非一時的コンピュータ読み取り可能記憶媒体。
【発明の詳細な説明】
【背景技術】
【0001】
優先権
[0001] 本願は、2017年12月7日に出願された米国特許出願第62/596036号の優先権を主張する。
【0002】
[0002] ディジタル病理学は、組織病理学または細胞病理学のホール・ガラス・スライドをスキャンして、コンピュータ画面上で解釈可能なディジタル画像を得ることを伴う。これらの画像は、その後撮像アルゴリズムによって処理されるか、または病理学者によって解釈されることになる。組織切片(垂直方向に透明である)を検査するために、選択的に細胞成分に結合する有色組織化学的染色を使用して、組織切片を用意する。色が強調された、または染色された細胞構造が、臨床医またはコンピュータ補助診断(CAD)アルゴリズムによって使用され、疾病の形態学的マーカを識別し、それに応じて治療を進める。アッセイを観察することにより、疾病の診断、処置に対する反応の評価、および疾病と闘うための新たな薬剤の開発を含む、種々のプロセスが可能になる。
【0003】
[0003] 免疫組織化学(IHC:Immunohistochemical)スライド染色は、組織切片の細胞においてタンパク質を識別するために利用することができ、したがって、生体組織における癌細胞や免疫細胞というような、異なる型の細胞の研究に広く使用されている。つまり、IHC染色は、免疫反応の研究のために、癌組織における免疫細胞(T-細胞またはB-細胞のようなもの)の発現が異なるバイオマーカの分布および局在化(localization)を理解するために研究において使用することもできる。例えば、腫瘍は免疫細胞の浸潤(infiltrate)を含有することが多く、これが腫瘍の発達(development)を防止する場合や、または腫瘍の増生(outgrowth)に有利に働く場合もある。
【0004】
[0004] インサイチュー・ハイブリダイゼーション(ISH)は、顕微鏡の下で見ると、形態学的に悪性であるように見える、細胞における特異的な癌原因遺伝子の増幅のような遺伝子的異常または状態の存在を捜すために使用することができる。インサイチュー・ハイブリダイゼーション(ISH)は、細胞または組織試料内において標的にした核酸標的遺伝子を検出または位置確認(localize)するために、標的遺伝子配列または転写に対してアンチセンスである標識付きDNAまたはRNAプローブ分子を採用する。ISHは、ガラス・スライド上に不動化された細胞または組織試料を、この細胞または組織試料における所与の標的遺伝子に特異的に交雑させる(hybridizing)ことができる標識付き核酸プローブに露出させることによって行われる。複数の異なる核酸タグが既に標識付けされている複数の核酸プローブに細胞または組織試料を露出させることによって、様々な標的遺伝子を同時に分析することができる。異なる発光波長を有する標識を利用することによって、1つの標的細胞または組織試料に対して1回のステップで同時多色分析を行うことができる。
【発明の概要】
【0005】
[0005] 生体標本のディジタル化組織スライドの画像採点および自動画像分析の問題に対する従前の手法は、一般に、細胞の検出、細胞のセグメント化、画像(またはその領域)内にある細胞毎の特徴抽出、これらに続く細胞分類、ならびに領域セグメント化および分類を伴う。本開示は、訓練済み多層ニューラル・ネットワークを使用して、直接取得画像から連帯的に(jointly)そして同時に、細胞および領域を分類する代替手法を提供する。したがって、多層ニューラル・ネットワークの訓練に続いて、本開示は深層学習手法を利用して、細胞を自動的に検出し、セグメント化し、分類する。ある実施形態では、半自動画像分析方法を使用して生成される細胞レベル・データおよび領域レベル・データの双方を、多層ニューラル・ネットワークを訓練するためのグラウンド・トゥルース(ground truth)として利用する。
【0006】
[0006] ある実施形態では、既存の特徴に基づくセグメント化技法を使用して、細胞輪郭の信頼性のある推定値を生成し、多層ニューラル・ネットワークを訓練するためのグラウンド・トゥルースとして使用することができる。尚、この作業を手作業で行うとすると、試料画像(またはその領域)における全ての細胞に対するグラウンド・トゥルース生成プロセスが実現不可能になると考えられる。何故なら、試料画像は通例非常に大きく、数千もの細胞を有するからである。ある実施形態では、細胞に基づく分類において有用な特徴ベクトルの先験的知識を、追加の入力チャネルとして使用して、分類精度を高めるときに多層ニューラル・ネットワークを更に補助する。ある実施形態では、ユーザを使用してあらゆる(each and every)細胞のグラウンド・トゥルースを生成する代わりに、初期細胞標識を導き出すための既存の特徴に基づく解決策を最初に利用し、病理学者または他の医療専門家が初期結果集合全体をブラウズし、分類し間違えた細胞を訂正する。このような半自動の解決策は、大量の細胞および領域グラウンド・トゥルース・データを生成するのに役立ち、他の方法ではこの生成を可能にするのは容易でない。
【0007】
[0007] 前述の観点から、本開示の1つの態様は、試料画像(例えば、1つ以上の染色を有する生体試料組織の試料画像)内において、異なる細胞型(例えば、腫瘍細胞、間質細胞、リンパ球等)および組織領域(例えば、腫瘍領域、リンパ球豊富領域、間質領域、壊死領域等)を検出および分類するように多層ニューラル・ネットワークを訓練する方法である。この方法は、試料画像データを受け取るステップと、半自動プロセスを使用して組織領域および細胞分類グラウンド・トゥルース・データの双方を生成するステップと、生成したグラウンド・トゥルース・データを使用して多層ニューラル・ネットワークを訓練するステップとを含み、グラウンド・トゥルース・データの生成は、特定の型の細胞が特定の型の組織または領域内に存在し得るか否かに関する先験的知識を考慮に入れる。
【0008】
[0008] ある実施形態では、生成された組織領域グラウンド・トゥルース・データは、病理学者によって手作業で識別される。ある実施形態では、細胞の分類は、自動画像分析アルゴリズムを使用して、見込み細胞分類を行うために行われる(例えば、シード中心を検出し、次いで入力画像内にある特徴を分析することによって、検出した細胞を分類する)。ある実施形態では、画像アルゴリズムによって判定された見込み細胞分類が病理学者によって再検討され、病理学者からの入力を使用して(例えば、画像および注釈の再検討および編集プラットフォームを使用することによって)、最終細胞分類データがグラウンド・トゥルース・データとして多層ニューラル・ネットワークに供給されるように、あらゆる偽分類を訂正する。ある実施形態では、試料画像内の各画素に、組織型および/または細胞型を示す1つの標識を付けるように、組織領域分類データおよび最終細胞分類データを組み合わせる(即ち、標識はベクトルである)。ある実施形態では、組織標識および細胞標識の組み合わせは、生物学的に実現不可能な組織および細胞の組み合わせを除外する。即ち、自然では発生しないまたは発生する確率が非常に低い特定領域における細胞の組み合わせを除外する。ある実施形態では、試料画像は単純画像である(即ち、本明細書において注記するように、一次染料で染色されたもの、または1つのバイオマーカの存在を求めて染色されたもの)。ある実施形態では、試料画像はヘマトキシリンおよびエオシンで染色される(H&E画像)。ある実施形態では、試料画像は、単純免疫組織化学染色画像または多重画像であり、多重画像は、グラウンド・トゥルース・データを生成する前に、最初に分離される(本明細書において注記するように、分離モジュールによってというようにして)。ある実施形態では、試料画像は乳癌組織試料から得られる。
【0009】
[0009] 本開示の他の態様は、試料画像内にある異なる細胞型および領域を検出および分類するように多層ニューラル・ネットワークを訓練する方法である。この方法は、分類器を訓練するグラウンド・トゥルースを生成するために、生体標本の試料画像内における異なる組織領域を識別するステップと、試料画像内にある画像特徴に基づいて細胞を検出および分類し、見込み細胞分類を行うステップと、病理学者からの入力を使用して、誤って分類された見込み細胞分類を訂正して、最終細胞分類を得るステップと、識別した組織領域および最終細胞分類の組み合わせに基づいて、試料画像内にある各画素に対して標識を割り当てるステップであって、標識が、生物学的に実現可能な細胞および領域の組み合わせのみに割り当てられる、ステップと、試料画像と、試料画像内にある各画素に割り当てられた標識とを使用して多層ニューラル・ネットワークを訓練する(即ち、画素レベルで確定したグラウンド・トゥルース・データによって、多層ニューラル・ネットワークを訓練する)ステップとを含む。
【0010】
[00010] ある実施形態では、試料画像内における異なる領域の識別は、病理学者によって手作業で行われる(例えば、病理学者が異なる組織型に対応する画像の部分に注釈を付けてもよい)。ある実施形態では、試料画像内における異なる組織領域の識別は、自動化または半自動化される。
【0011】
[0010] ある実施形態では、試料画像内にある特徴に基づいて細胞を検出および分類するステップは、(i)細胞核を検出するステップと、(ii)前景セグメント化マスクを計算するステップと、(iii)検出した細胞核から特徴を導き出すステップと、(iv)導き出した特徴に基づいて、分類器(例えば、サポート・ベクトル・マシーン等)を使用して核を分類するステップとを含む。ある実施形態では、セグメント化マスクを生成せず、画素毎の標識ではなく、画像パッチ全体に標識を割り当てるDetectNETを代わりに利用する。このような場合、画像パッチは、各細胞を中心として配置されるパッチに対応する(https://devblogs.nvidia.com/parallelforall/detectnet-deep-neural-network-object- detection-digits/ からのDetectNet: Deep Neural Network for Object Detection in DIGITSを参照のこと)。
【0012】
[0011] ある実施形態では、細胞の検出および分類は、画像分析アルゴリズムを利用して自動化される。自動細胞検出および細胞分類は、ある実施形態では、見込み細胞分類にも対応し、この見込み細胞分類は病理学者によって再検討されてもよい。ある実施形態では、病理学者が見込み細胞分類を再検討し、見込み分類が正確か否か判定を行う。ある実施形態では、病理学者があらゆる不正確(inaccuracies)を訂正することによって、見直し細胞分類を行う。見直し細胞分類は、正しく識別された見込み細胞分類と共に提示され、訓練のために、最終細胞分類集合を多層ニューラル・ネットワークに供給する。
【0013】
[0012] ある実施形態では、各画素に対して割り当てられる標識は、分類された細胞型の識別と、試料画像内において画素が位置する組織領域または組織型とを含むベクトルである。ある実施形態では、組織領域は、腫瘍領域、間質領域、リンパ球豊富領域、および壊死領域を含む。ある実施形態では、細胞型は腫瘍細胞、間質細胞、およびリンパ球を含む。ある実施形態では、生物学的に実現可能な組み合わせとは、細胞が特定の型の組織内で通常に発見されるものである。単なる例として、生物学的に実現可能な組み合わせは、(i)腫瘍領域における腫瘍細胞、(ii)腫瘍領域における間質細胞、(iii)腫瘍領域におけるリンパ球、(iv)間質領域における腫瘍細胞、(v)間質領域における間質細胞、(vi)間質領域におけるリンパ球、(vii)リンパ球豊富領域における腫瘍細胞、および(viii)リンパ球豊富領域におけるリンパ球を含む。ある実施形態では、この方法は、更に、未標識画像を、訓練済み多層ニューラル・ネットワークに供給するステップと、未標識画像内にある各画素に対して予測標識を受け取るステップとを含む。
【0014】
[0013] ある実施形態では、割り当てられる標識および試料画像は、本明細書において説明するように、LeNet、AlexNet、ZF Net、GoogLeNet、VGGNet ResNet、VGGNetVGG16、VGG19、およびDenseNetのような多層ニューラル・ネットワークに供給される。これらのニューラル・ネットワークは、通例、自然画像の大きくて公に入手可能な画像データ・アーカイブ(例えば、ImageNet)上で訓練される。通例、腫瘍試料のような生体標本のための訓練画像が少ないことを考慮に入れて、転移学習方法を選択する。ある実施形態では、「転移学習」方法が使用されてもよく、その場合、新たな1組の訓練画像上で訓練プロセスを初期化するために、以上で述べたような、予め訓練されているネットワークがその学習重みと共に使用され、手近にある特定のアプリケーションに合わせて重みを変更するように訓練される。ある実施形態では、既存の公開または私有データ集合上で、予め訓練されているネットワークを訓練する。データ集合は、対象の用途に直接関係あってもなくてもよく、更に性質上生物学的であってもなくてもよい。ある実施形態では、最適でない極小値に陥るのを回避するために、最終層の重みをランダムに初期化し、一方他の実施形態では、最終層の重みを不変のままインポートする。
【0015】
[0014] 本開示の他の態様は、システムであり、多層ニューラル・ネットワークと、グラウンド・トゥルース訓練モジュールとを備える。グラウンド・トゥルース訓練モジュールは、(i)生体標本の試料画像内において異なる領域(例えば、組織領域)を識別し、(ii)試料画像内にある画像特徴に基づいて細胞を検出および分類し、提案細胞分類を行い、(iii)病理学者からの入力を使用して、提案細胞分類の中で誤分類されたものを訂正して、最終細胞分類を行い、(iv)識別した領域および最終細胞分類の組み合わせに基づいて、試料画像内にある各画素に対して標識を割り当て、生物学的に実現可能な細胞および領域の組み合わせだけに標識を割り当て、(v)試料画像と、試料画像内の各画素に割り当てられた標識とを使用して、多層ニューラル・ネットワークを訓練するように構成される。ある実施形態では、試料画像は単純画像(例えば、一次染料または1つのバイオマーカで染色されたもの)である。他の実施形態では、試料画像は多重画像である。
【0016】
[0015] ある実施形態では、グラウンド・トゥルース訓練モジュールは半教師付である。ある実施形態では、異なる組織領域の識別は、異なる領域を有する試料画像に注釈を付けることを含む。ある実施形態では、注釈付けは病理学者によって行われる。ある実施形態では、細胞の検出および分類は、細胞の特徴(例えば、形態学的特徴、核の特徴等)を識別する画像分析アルゴリズムを利用する。ある実施形態では、試料画像内にある特徴に基づいて細胞を検出および分類するステップは、(i)細胞核を検出するステップと、(ii)前景セグメント化マスクを計算するステップと、(iii)検出した細胞核から特徴を導き出すステップと、(iv)導き出した特徴に基づいて、分類器(例えば、サポート・ベクトル・マシーン等)を使用して核を分類するステップとを含む。ある実施形態では、グラウンド・トゥルース訓練モジュールは、(i)腫瘍領域における腫瘍細胞、(ii)腫瘍領域における間質細胞、(iii)腫瘍領域におけるリンパ球、(iv)間質領域における腫瘍細胞、(v)間質領域における間質細胞、(vi)間質領域におけるリンパ球、(vii)リンパ球豊富領域における腫瘍細胞、および(viii)リンパ球豊富領域におけるリンパ球を含む、生物学的に実現可能な細胞分類および組織領域識別の組み合わせを認識するように構成される。ある実施形態では、多層ニューラル・ネットワークは、LeNet、AlexNex、ZF Net、GoogLeNet、VGGNet、ResNet、VGG16、およびDenseNetのような、既存の畳み込み(または完全畳み込み)ニューラル・ネットワーク・アーキテクチャから成る一群から選択され、改造される。
【0017】
[0016] 本開示の他の態様は、命令がエンコードされた非一時的コンピュータ読み取り可能記憶媒体である。コンピューティング・システムの処理リソースによって命令が実行されると、コンピューティング・システムに、生体標本の試料画像内において異なる組織領域を識別させ、試料画像内にある特徴に基づいて細胞を検出および分類させて、提案細胞分類を行わせ、識別した組織領域と最終細胞分類との組み合わせに基づいて、試料画像内における各画素に対して標識を割り当てさせ、標識が、生物学的に実現可能な細胞および領域の組み合わせのみに割り当てられ、最終細胞分類が、正しく分類された提案細胞分類と、見直された提案細胞分類とを含み、見直された提案細胞分類が、病理学者からの入力として受け取られ、試料画像と、試料画像内にある各画素に割り当てられた標識とを使用して、多層ニューラル・ネットワークを訓練させる。ある実施形態では、異なる組織領域の識別は、病理学者から組織領域注釈を受け取ることを含む。
【0018】
[0017] 本開示の他の態様は、生体試料の未標識画像内において細胞を分類する方法であって、未標識画像のために前景セグメント化マスクを計算するステップと、計算した前景セグメント化マスクによって未標識画像をフィルタリングすることによって、未標識画像において個々の細胞を識別するステップと、異なる細胞型および組織領域を連帯的に検出し分類するように訓練された多層ニューラル・ネットワークを未標識画像に適用するステップであって、訓練済み多層ニューラル・ネットワークの適用によって、未標識画像内にある各画像に対して予測標識を提示し、予測標識が、多層ニューラル・ネットワークによって識別された異なる細胞型に対応する、ステップと、識別された個々の細胞各々に細胞標識を割り当てるステップとを含む。ある実施形態では、(i)識別された個々の細胞内において各予測標識を支持する画素の数を定量化し、(ii)最も大きな量を有する予測標識を細胞標識として割り当てることによって(多数決)、細胞標識を割り当てる。請求項12の方法は、更に、標識付けされた個々の細胞毎に、記述的指標を含むオーバーレイを生成するステップを含む。ある実施形態では、この方法は、更に、異なる標識を付けられた個々の細胞を定量化し、発現スコアを計算するステップを含む。ある実施形態では、定量化は所定の視野において行われる。ある実施形態では、所定の視野は、病理学者によって、未標識画像内における形態に基づいて識別される。ある実施形態では、腫瘍領域または間質領域におけるリンパ球の数を定量化する。
【0019】
[0018] 本開示の他の態様は、システムであって、未標識画像内にある細胞を識別するように構成された細胞検出モジュールと、未標識画像内にある画素毎に予測標識を提示するように訓練された多層ニューラル・ネットワークであって、予測標識が異なる細胞型に対応する、多層ニューラル・ネットワークと、細胞検出モジュールによって識別された細胞に細胞標識を付与するように構成された細胞標識付けモジュールとを備える。ある実施形態では、(i)識別された細胞内において各予測標識を支持する画素の数を定量化し、(ii)最も大きな量を有する予測標識を細胞標識として割り当てることによって(多数決)、細胞に標識付けする。ある実施形態では、細胞検出モジュールは、未標識画像内においてシードを識別する。ある実施形態では、このシステムは、更に、未標識画像内にある細胞標識を数え、種々の数えた細胞標識の比率に基づいて発現スコアを出力するように構成された採点モジュールを備える。ある実施形態では、採点が未標識画像内の所定の視野内で実行される。ある実施形態では、このシステムは、更に、未標識画像上に異なる細胞型を表す指標を重ね合わせるように構成されたオーバーレイ・マスキング・モジュールを備える。
【0020】
[0019] 本開示の他の態様は、命令がエンコードされた非一時的コンピュータ読み取り可能記憶媒体であり、コンピューティング・システムの処理リソースによって命令が実行されると、コンピューティング・システムに、未標識画像内において細胞を検出させ、異なる細胞型および組織領域を連帯的に検出および分類するように訓練された多層ニューラル・ネットワークを未標識画像に適用させ、訓練済み多層ニューラル・ネットワークの適用により、未標識画像内にある各画素に対して予測標識を提示させ、予測標識が、多層ニューラル・ネットワークによって識別された異なる細胞型に対応し、識別した個々の細胞各々に細胞標識を割り当てさせる。ある実施形態では、(i)識別された個々の細胞内において各予測標識を支持する画素の数を定量化し、(ii)最も大きな量を有する予測標識を細胞標識として割り当てることによって(多数決)、細胞標識を割り当てる。ある実施形態では、未標識画像内における細胞の検出は、(i)未標識画像のために前景セグメント化マスクを計算し、(ii)計算した前景セグメント化マスクによって未標識画像をフィルタリングすることによって、未標識画像において個々の細胞を識別する処理を含む。ある実施形態では、このシステムは、更に、割り当てた細胞標識に基づいて、未標識画像を採点する命令を含む。ある実施形態では、このシステムは、更に、異なる細胞層を表す指標を含むオーバーレイを生成し、このオーバーレイを未標識画像に適用する命令も含む。
【0021】
[0020] 免疫療法の役割が高まりつつあることを考えると、H&E画像において腫瘍浸潤リンパ球(TiL)を検出および定量化することが増々必要となる。ここで解決すべき主な問題は、統一深層学習フレームワークにおける、H&E乳癌画像のための領域セグメント化および分類と併せた連帯的細胞検出および分類である。本明細書における解決策は、2つの特定の分類問題(細胞に基づく分類および領域に基づく分類)のため、そして特定のドメイン(H&E乳癌画像)のためにのみ提案したが、提案した解決策は、他のドメインの多種多様な分類問題にも適用可能である。連帯的細胞および領域分類作業(work)の目標は、定量的メトリック(例えば、百分率)および空間メトリックによって、腫瘍微小環境を特徴付けて定量化し、腫瘍間および腫瘍内ならびに細胞空間関係を識別し、間質および腫瘍内TiLを含む腫瘍浸潤リンパ球を特徴付けることである。
【0022】
[0021] 同じ深層学習フレームワークにおいて異なる分類問題を組み合わせる利点は、種々の分類問題の結果を組み合わせる処理を学習フレームワークによって自動的に行い、そして調和させる(reconcile)ことができ、2組の結果(例えば、細胞レベルおよび領域レベルの結果)を組み合わせるために、後処理(アンサンブル学習に基づく、またはパラメータ-調整に基づく方法)に全く依存しないことである。例えば、1つのドメインにおいてk1通りの分類カテゴリ(集合A)有する画像について考え、次いで同じ画像であるが異なるドメインにおいてk2通りの分類カテゴリ(集合B)を有する問題について考えると、この問題を(k1×k2)マルチクラス問題と見なすことができ、(集合A、集合B)における要素において、実現不可能な特定の生物学的組み合わせがある場合、ネットワークによって割り当てることができる(k1×k2)通りのクラスから成る許容可能な集合からこれらを破棄することができる。つまり、一貫性のある結果を生成するために、この問題の先験的生物学的知識を利用する。更に、本出願人は、独立してそして個々に細胞および領域分類問題を別個に解決する場合と比較すると、領域および細胞双方の全体的な分類精度の方が高くできることを意見として述べる。何故なら、双方を同時に学習する繰り返しプロセスは、相互に矛盾がない組み合わせ分類標識を採用する(prefer)からである。
【図面の簡単な説明】
【0023】
[0022] 本開示の特徴を総合的に理解するために、図面を参照する。図面において、同様の参照番号は、全体を通じて、同じ要素を識別するために使用されている。
【
図1】
図1は、画像取得デバイスおよびコンピュータ・システムを含む代表的なディジタル病理学システムを示す。
【
図2】
図2は、ディジタル病理学システムにおいて、またはディジタル病理学ワークフロー内において利用することができる種々のモジュールを説明する。
【
図3A】
図3Aは、多層ニューラル・ネットワークの訓練、および分類結果を供給するときの、訓練した多層ニューラル・ネットワークの使用を示す。
【
図3B】
図3Bは、試料画像を使用して多層ニューラル・ネットワークを訓練するステップを概説する。
【
図3C】
図3Cは、未標識画像において細胞を分類するために、訓練した多層ニューラル・ネットワークを使用するステップを示す。
【
図4】
図4は、試料画像(A)、組織領域オーバーレイ(B)、および細胞分類オーバーレイ(C)を示し、腫瘍はシアン色で表現され、間質は黄色で表現され、リンパ球は赤色で表現され、アーチファクト/除外領域は濃い青色で表現されている。画像内の画素毎に、領域標識および細胞標識双方が割り当てられる。更に、領域標識および細胞標識は、画素レベルで、それが属する特定の分類を示すためにカラー・コードが割り当てられる。
【
図5】
図5は、試料画像(A)、組織領域オーバーレイ(B)、および細胞分類オーバーレイ(C)を示し、腫瘍はシアン色で表現され、間質は黄色で表現され、リンパ球は赤色で表現され、アーチファクト/除外領域は濃い青色で表現されている。
【
図6】
図6は、特定の組織型において発見することができる細胞の種々の生物学的に実現可能な組み合わせを示す。
【
図7】
図7は、試料画像のグラウンド・トゥルース、および複合分類器(combined classifier)からの分類結果を示し、腫瘍はシアン色で表現され、間質は黄色で表現され、リンパ球は赤色で表現され、アーチファクト/除外領域は濃い青色で表現されている。上側の画像は原画像であり、この原画像の上に細胞グラウンド・トゥルースが重ね合わされている。
【
図8A】
図8は、試料画像グラウンド・トゥルースおよび分類結果を示す。(A)原画像、(B)病理学者によって生成された細胞レベルの分類グラウンド・トゥルース、(C)アルゴリズムによる細胞レベルの分類結果、(D)アルゴリズムによる領域レベルの分類結果であり、腫瘍はシアン色で表現され、間質は黄色で表現され、リンパ球は赤色で表現され、アーチファクト/除外領域は濃い青色で表現されている。
【
図8B】
図8は、試料画像グラウンド・トゥルースおよび分類結果を示す。(A)原画像、(B)病理学者によって生成された細胞レベルの分類グラウンド・トゥルース、(C)アルゴリズムによる細胞レベルの分類結果、(D)アルゴリズムによる領域レベルの分類結果であり、腫瘍はシアン色で表現され、間質は黄色で表現され、リンパ球は赤色で表現され、アーチファクト/除外領域は濃い青色で表現されている。
【
図8C】
図8は、試料画像グラウンド・トゥルースおよび分類結果を示す。(A)原画像、(B)病理学者によって生成された細胞レベルの分類グラウンド・トゥルース、(C)アルゴリズムによる細胞レベルの分類結果、(D)アルゴリズムによる領域レベルの分類結果であり、腫瘍はシアン色で表現され、間質は黄色で表現され、リンパ球は赤色で表現され、アーチファクト/除外領域は濃い青色で表現されている。
【
図8D】
図8は、試料画像グラウンド・トゥルースおよび分類結果を示す。(A)原画像、(B)病理学者によって生成された細胞レベルの分類グラウンド・トゥルース、(C)アルゴリズムによる細胞レベルの分類結果、(D)アルゴリズムによる領域レベルの分類結果であり、腫瘍はシアン色で表現され、間質は黄色で表現され、リンパ球は赤色で表現され、アーチファクト/除外領域は濃い青色で表現されている。
【発明を実施するための形態】
【0024】
[0033] ここで特許請求する方法において、明らかに逆のことが示されていない限り、1つよりも多いステップまたはアクトを含むものはいずれも、その方法のステップまたはアクトの順序は、その方法のステップまたはアクトが請求項に記載された順序には必ずしも限定されないことも理解されてしかるべきである。
【0025】
[0034] 本明細書において使用する場合、「1つの」(a)、「1つの」(an)および「その1つ」(the)という単数形には、文脈が明らかにそうでないことを示さない限り、複数の指示対象が含まれる。同様に、「または」(or)という語には、文脈が明らかにそうでないことを示さない限り「および」(and)を含むことを意図している。 「含む」(include)という用語は、「AまたはBを含む」がA、B、またはAおよびBを含むことを意味するように、包含的に定義される。
【0026】
[0035] 本明細書および請求項において使用する場合、「または」(or)は、先に定めたような「および/または」(and/or)と同じ意味を有すると理解されてしかるべきである。例えば、リストにおける項目を分けるとき、「または」または「および/または」は包含的に解釈されるものとする、即ち、少なくとも1つを含むだけでなく、複数の要素または要素のリストの内1つよりも多くを含み、更に任意に追加のリストに入っていない項目も含むものとする。「1つだけ」(only one of)または「正確に1つ」(exactly one of)、あるいは請求項において使用されるときの「から成る」(consisting of)というような、明らかに逆を示す用語だけが、複数の要素または要素のリストからの正確に1つの要素を含むことを意味する。一般に、「または」(or)という用語は、本明細書において使用する場合、「いずれか」(either)、「の内の1つ」(one of)、「の内の1つだけ」(only one of)、または「正確に1つ」(exactly one of)というような除外の用語が先立つときにのみ、排他的代替(exclusive alternatives)(即ち、「一方または他方であるが、双方ではない」)を示すように解釈されるものとする。「本質的に~から成る」(consisting essentially of)が請求項において使用される場合、特許法の分野において使用されるその通常の意味を有するものとする。
【0027】
[0036] 「備えている」(comprising)および「含んでいる」(including)、「有している」(having)等の用語は、相互交換可能に使用され、同じ意味を有するものとする。同様に、「備える」(comprises)、「含む」(includes)、「有する」(has)等も相互交換可能に使用され、同じ意味を有するものとする。具体的には、これらの用語の各々は、「備えている」(comprising)の一般的な米国特許法の定義と一貫して定められ、したがって「少なくとも以下のこと」を意味する開いた用語であると解釈され、更に追加の特徴、制限、態様等を除外しないように解釈されるものとする。したがって、例えば、「コンポーネントa、b、およびcを有するデバイス」とは、そのデバイスが少なくともコンポーネントa、b、およびcを含むことを意味する。同様に、「ステップa、b、およびcを伴う方法」という語句は、この方法が少なくともステップa、b、およびcを含むことを意味する。更に、ステップおよびプロセスが本明細書において特定の順序で概要が述べられることもあるが、ステップおよびプロセスの順序付けは異なっても良いことは当業者には認められよう。
【0028】
[0037] 本明細書および請求項において使用する場合、「少なくとも1つの」(at least one)という語句は、複数の要素からなるリストにおける要素の任意の1つまたは複数から選択される少なくとも1つの要素を意味するが、要素のリストの中に具体的にあげられた全ての要素の内の少なく1つを必ずしも含むとは限らず、要素のリストの中の要素の任意の組み合わせを除外するのではないことを意味すると理解されるものとする。この定義は、具体的に特定されたそれらの要素に関連していても関連していなくても、「少なくとも1つの」という語句が指す要素のリストの中で具体的に特定される要素以外に、 随意に要素が存在してもよいことも可能にする。したがって、非限定的な例として、「AおよびBのうちの少なくとも1つ」(または、同じ意味合いで、「AまたはBのうちの少なくとも1つ」、または同等に「Aおよび/またはBのうちの少なくとも1つ」)は、一実施形態では、Bは存在せず1つよりも多いAを随意に含む(およびB以外の要素を随意に含む)少なくとも1つを指すことができ、別の実施形態では、Aは存在せず1つよりも多いBを随意に含む(およびA以外の要素を随意に含む)少なくとも1つを指すことができ、さらに別の実施形態では、1つよりも多いAを随意に含む少なくとも1つ、および1つよりも多いBを随意に含む(および他の要素を随意に含む)少なくとも1つ等を指すことができる。
【0029】
[0038] 本明細書において使用する場合、「生体試料」(biological sample)、「試料」(sample)、または「組織試料」(tissue sample)という用語は、ウィルスを含む任意の有機体から得られる生体分子(たんぱく質、ペプチド、核酸、脂質、炭水化物、またはそれらの組み合わせというようなもの)を含む任意の試料を指す。有機体の他の例には、哺乳類(人間;猫、犬、馬、牛、豚などの家畜動物;およびマウス、ラット、霊長類等の実験動物というようなもの)、昆虫、環形動物、クモ形類動物、有袋類、爬虫類、両生類、バクテリア、真菌があげられる。生体試料には、 組織試料(組織切片および組織の針生検というようなもの)、細胞試料(パップ・スメアまたは血液塗抹標本、または顕微解剖によって得られた細胞の試料等の細胞学的塗抹標本というようなもの)、または細胞分画、断片、もしくは細胞小器官(細胞を溶解させ、遠心分離機または別の方法によってそれらの成分を分離することによって得られるようなもの)があげられる。 生体試料の他の例には、血液、血清、尿、精液、排泄物、脳脊髄液、間質液、粘液、涙、汗、膿、 生検組織(例えば、外科生検または針生検によって得られる)、乳頭吸引液、耳垢、乳汁、膣液、唾液、 スワブ(口腔スワブのようなもの)、または第1の生体試料から得られる生体分子を含む任意の物質があげられる。特定の実施形態では、本明細書において使用する用語「生体試料」は、被験者から得られる腫瘍またはその一部から調製される試料(均質化または液化された試料のようなもの)を指す。
【0030】
[0039] 本明細書において使用する場合、「バイオマーカ」(biomarker)または「マーカ」(marker)とは、何らかの生物学的状態または条件の測定可能な指標である。具体的には、バイオマーカは、 特異的に染色することができ、細胞の生物学的特徴、例えば、細胞の型または細胞の生理学的状態を示す、タンパク質またはペプチド、例えば、表面タンパク質であってもよい。免疫細胞マーカとは、ほ乳類の免疫応答に関係する特徴(feature)を選択的に示すバイオマーカである。バイオマーカは、ある疾病または状態のための処置に対してどのように身体が反応するか、あるいは被験者がある疾病または状態に仕向けられた(predispose)場合に、どのように身体が反応するか判定するために使用することもできる。癌のコンテキストでは、バイオマーカは身体における癌の存在を示す生体物質を指す。バイオマーカは、腫瘍または癌の存在に対する身体の特異的反応によって分泌される分子であってもよい。遺伝学的バイオマーカ、後成学的バイオマーカ、プロテオーム(proteomic)バイオマーカ、糖鎖生物学的バイオマーカ、および撮像バイオマーカを、癌の診断、予後、および疫学に使用することができる。このようなバイオマーカは、非侵襲的に収集された血液または血清のような生体液において分析試験する(assay)ことができる。様々な遺伝子およびタンパク質系バイオマーカが既に患者看護において使用されており、AFP(肝臓癌)、BCR-ABL(慢性骨髄性白血病)、BRCA1/ BRCA2(乳/卵巣癌)、BRAFV600E(黒色腫/大腸癌)、CA-125(卵巣癌)、CA19.9(膵臓癌)、CEA(大腸癌)、EGFR(非小細胞性肺癌)、HER-2(乳癌)、KIT(消化管間質腫瘍)、PSA(前立腺特異抗原)、S100(黒色腫)、およびその他数多くが含まれるが、これらに限定されるのではない。バイオマーカは、診断(早期癌を確認するため)および/または予後(癌がどのくらい攻撃的か予想するため、および/または被験者が特定の処置に対してどのように反応するか予測するため、および/または癌が再発する可能性がどれくらい高いか予測するため)としても有用であるのはもっともである。
【0031】
[0040] 本明細書において使用する場合、「視野(FOV)」(field of view (FOV))という用語は、所定の大きさおよび/または形状を有する画像部分を指す。ある実施形態では、FOVは、更なる手動または自動検査および分析に使用されるディジタル画像における領域である。ディジタル画像のいくつかの特徴を分析することによって、例えば、ディジタル画像の画素の強度値を評価することによって、自動的にまたは手作業でFOVを選択することができる。PCT/EP2015/062015は、画像内にある何らかの所定の基準または特性に基づいてというようにして、特定のFOVを生成する方法について記載する(例えば、1つよりも多い染料によって染色された生体試料について、2つの染色だけを含む画像のエリアを識別する)。
【0032】
[0041] 本明細書において使用する場合、「画像データ」(image data)という用語は、光学スキャナ、センサ・アレイ、または前処理された画像データによってというようにして、生体組織試料から取得された生画像データを包含する。具体的には、画像データは画素行列を含んでもよい。
【0033】
[0042] 本明細書において使用する場合、「免疫組織化学」(immunohistochemistry)は、抗原と、抗体のような、特異的な結合剤との相互作用を検出することによって、試料における抗原の存在または分布を判定する方法を指す。抗体-抗原結合を許容する条件の下で、試料を抗体と接触させる。抗体-抗原結合は、抗体にコンジュゲートされた検出可能な標識によって(直接検出)、または一次抗体に特異的に結合する二次抗体にコンジュゲートされた検出可能な標識によって(間接検出)検出することができる。
【0034】
[0043] 本明細書において使用する場合、「マスク」(mask)という用語は、ディジタル画像の派生物を指し、マスクにおける各画素が二進値、例えば、「1」または「0」(「真」または「偽」)として表される。ディジタル画像を前記マスクと重ね合わせることにより、二進値の特定の1つのマスク画素にマッピングされるディジタル画像の全ての画素は、ディジタル画像に適用される今後の処理ステップにおいて、隠される、除去されるまたそうでなければ無視される、あるいは除外されることになる。例えば、マスクは、原画像において閾値よりも高い強度値を有する全ての画素に真を割り当て、それ以外の画素に偽を割り当てることによって、元のディジタル画像から生成することができ、これによって、「偽」にマスキングされた画素と重ね合わされた全ての画素を除外するマスクを作成する。
【0035】
[0044] 本明細書において使用する場合、「マルチチャネル画像」(multi-channel image)または「多重画像」(multiplex image)という用語は、核および組織構造というような異なる生体構造が、特異的な蛍光染料、量子ドット、色原体等によって同時に染色された生体組織試料から得られたディジタル画像を包含する。特異的な蛍光染料、量子ドット、色原体等の各々は、異なるスペクトル帯において蛍光するまたそうでなければ検出可能であり、こうしてマルチチャネル画像のチャネルの1つを構成する。
【0036】
全体像
[0045] 本開示は、試料画像内にある細胞および領域を連帯的にそして同時に分類するために多層ニューラル・ネットワークを訓練するための自動システムおよび方法に関する。また、本開示は、未標識画像(unlabeled image)内にある細胞を分類するために、訓練済み多層ニューラル・ネットワークを使用するための自動システムおよび方法に関する。
【0037】
[0046] 本開示の少なくともいくつかの実施形態は、生体試料からキャプチャされたディジタル画像を分析するためのコンピュータ・システムおよび方法に関する。生体試料には、1つ以上の一次染色(例えば、ヘマトキシリンおよびエオシン(H&E))および1つ以上の検出プローブ(例えば、試料内の標的の標識付けを容易にする特異的結合エンティティを含有するプローブ)によって染色された組織試料を含む。本明細書における例は、特異的な組織、および/または所定のマーカ(したがって、疾病)の検出のための特異的な染料または検出プローブの適用に言及するが、異なるマーカおよび異なる疾病を検出するために、異なる組織および異なる染料/検出プローブを適用してもよいことは当業者には認められよう。
【0038】
[0047] 標本(specimen)を撮像し分析するためのディジタル病理学システム200を
図1および
図2に示す。ディジタル病理学システム200は、撮像装置12(例えば、標本を支持する顕微鏡スライドをスキャンする手段を有する装置)と、コンピュータ14とを備えるのでもよく、これによって撮像装置12およびコンピュータを互いに通信可能に結合することができる(例えば、直接、またはネットワーク20を通じて間接的に)。コンピュータ・システム14は、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット等、ディジタル電子回路、ファームウェア、ハードウェア、メモリ201、コンピュータ記憶媒体(240)、コンピュータ・プログラムまたは1組の命令(例えば、プログラムはメモリまたは記憶媒体内に格納される)、1つ以上のプロセッサ(209)(プログラミングされたプロセッサを含む)、および任意の他のハードウェア、ソフトウェア、またはファームウェア・モジュール、あるいはこれらの組み合わせ(本明細書において更に説明するようなもの)を含むことができる。例えば、
図1に示すコンピューティング・システム14は、ディスプレイ・デバイス16とエンクロージャ18とを有するコンピュータを含んでもよい。コンピュータ・システムは、ディジタル画像を二進形態で(メモリ内、サーバ上、または他のネットワーク接続デバイスにというように、ローカルに)格納することができる。また、ディジタル画像を画素の行列に分割することもできる。画素は、ビット深度によって定められる、1つ以上のビットのディジタル値を含むことができる。他のコンピュータ・デバイスまたはシステムを利用してもよいこと、そして本明細書において説明するコンピュータ・システムは、追加のコンポーネント、例えば、標本アナライザ、顕微鏡、その他の撮像システム、自動スライド調製機材等に通信可能に結合できることは、当業者には認められよう。利用してもよいこれら追加のコンポーネントおよび種々のコンピュータ、ネットワーク等の一部については、本明細書において更に説明する。
【0039】
[0048] 一般に、撮像装置12(または予めスキャンされメモリに格納されている画像を含む他の画像源)は、限定ではなく、1つ以上の画像キャプチャ・デバイスを含むことができる。画像キャプチャ・デバイスは、限定ではなく、カメラ(例えば、アナログ・カメラ、ディジタル・カメラ等)、光学素子(例えば、1つ以上のレンズ、センサ合焦レンズ群、顕微鏡対物レンズ等)、撮像センサ(例えば、電荷結合デバイス(CCD)、相補型金属酸化物半導体(CMOS)撮像センサ等)、写真フィルム等を含むことができる。ディジタルの実施形態では、画像キャプチャ・デバイスは、協働して現場での合焦を可能にする複数のレンズを含むことができる。撮像センサ、例えば、CCDセンサは標本のディジタル画像をキャプチャすることができる。ある実施形態では、撮像装置12は、明視野撮像システム、マルチスペクトル撮像(MSI:multispectral imaging)システム、または蛍光顕微鏡システムである。ディジタル化組織データは、例えば、VENTANA MEDICAL SYSTEMS,Inc.(アリゾナ州Tucson)によるVENTANA iSCAN HTスキャナというような画像スキャン・システム、あるいは他の適した撮像機材によって生成されてもよい。更に他の撮像デバイスおよびシステムについても、本明細書において更に説明する。撮像装置12によって取得されたディジタル・カラー画像は、従来より、基本色画素によって構成されることは、当業者には認められよう。各有色画素は、3つのディジタル成分によってコード化され、各成分は同数のビットを含み、各成分は、通常では赤、緑、または青である原色に対応し、「RGB」成分という用語で呼ばれることもある。
【0040】
[0049]
図2は、ここで開示するディジタル病理学システム内部で利用される種々のモジュールの全体像を示す。ある実施形態では、ディジタル病理学システムは、1つ以上のプロセッサ209と、少なくとも1つのメモリ201とを有するコンピュータ・デバイス、またはコンピュータ実装方法を採用する。少なくとも1つのメモリ201は、多層ニューラル・ネットワーク220において、およびグラウンド・トゥルース訓練モジュール210または検査モジュール230の内少なくとも1つにおいて命令(または格納されているデータ)を1つ以上のプロセッサに実行させるために、1つ以上のプロセッサによる実行のための非一時的コンピュータ読み取り可能命令を格納する。
【0041】
[0050] ある実施形態では、グラウンド・トゥルース訓練モジュール210は、1つ以上の試料画像を撮像モジュール202から受け取るように構成され、撮像モジュールは通信可能に撮像装置12または記憶モジュール240に結合される。画像データを受け取った後、グラウンド・トゥルース・データを生成し、訓練のために多層ニューラル・ネットワーク220に供給することができるように、グラウンド・トゥルース訓練モジュール210は1つ以上のモジュール(またはサブモジュール)、即ち、モジュール203から207を実行することができる。ある実施形態では、グラウンド・トゥルース訓練モジュール210は、試料画像内にある領域または組織領域を分類できるように、最初に、領域識別モジュール203を実行することができる。ある実施形態では、領域識別モジュール203は、病理学者または他の研修を受けた医療専門家(trained medical professional)から入力を受け取る。受け取られる情報は画像の注釈を含む。その後、グラウンド・トゥルース訓練モジュール210は、細胞検出モジュール204を実行して、試料画像内で細胞を識別し、細胞検出に続いて、細胞分類モジュール205を使用して、これらの細胞を分類することができる。細胞分類モジュール205からの細胞分類結果を調節できるように、病理学者または他の研修を受けた医療専門家からの入力を使用することによってというようにして、分類調節モジュール206を実行してもよい。最後に、データ組み合わせモジュール207を使用して、領域識別モジュール203からの領域識別データ、ならびに細胞分類モジュール205および/または識別調節モジュールからの細胞分類を組み合わせて、試料画像内にある画素毎に1つの標識を付与することができる。次いで、多層ニューラル・ネットワークを訓練できるように、画素標識データ(即ち、生成されたグラウンド・トゥルース情報)を、試料画像と共に、多層ニューラル・ネットワーク220に供給することができる。ある実施形態では、グラウンド・トゥルース訓練モジュール210は、半教師付である。ある実施形態では、画像モジュール202から入力として受け取られる試料画像は単純画像である。他の実施形態では、撮像モジュールから入力として受け取られる試料画像は多重画像である。
【0042】
[0051] ある実施形態では、検査モジュール230は、撮像モジュール202から1つ以上の未標識画像を受け取るように構成される。未標識画像を受け取った後、検査モジュール230は1つ以上のモジュール(またはサブモジュール)、即ち、モジュール204および208を実行することができる。ある実施形態では、検査モジュールは、未標識画像内にある細胞を識別できるように、最初に細胞検出モジュール204において命令を実行するように構成される。細胞の識別に続いて、未標識画像内にある全ての画素に予測細胞標識を割り当てることができるように、訓練積み多層ニューラル・ネットワーク220に未標識画像を供給する。次いで、検査モジュール210によって細胞標識付けモジュール208を利用して、識別された各細胞に標識を割り当てる。ある実施形態では、追加モジュール(図示せず)、例えば、細胞標識に基づいて発現スコアを供給する採点モジュール、識別指標(identifying indicia)をオーバーレイとして未標識画像上に提示するオーバーレイ生成モジュールを、検査モジュールによって実行してもよい。
【0043】
[0052] また、グラウンド・トゥルース訓練モジュール210または検査モジュール230のいずれかと共に使用するために、追加モジュールをワークフローに組み入れてもよいことは当業者には認められよう。本明細書において更に詳しく説明するが、ある実施形態では、画像処理または前処理モジュールを実行して、特定のフィルタを取得画像に適用し、あるいは組織試料内にある特定の組織学的および/または形態学的構造もしくは特徴を識別することもできる。同様に、対象領域選択モジュールを利用して、分析のために、試料画像または検査の特定部分を選択してもよい。加えて、更なる処理の前に、分離モジュールを実行して、多重画像を分離してもよい。
【0044】
画像取得モジュール
[0053] ある実施形態では、初期ステップとして、そして
図2を参照すると、ディジタル病理学システム200は画像取得モジュール202を実行して、(例えば、撮像装置12を使用して)1つ以上の染色を有する生体試料の画像または画像データをキャプチャする(即ち、画像は単純画像でも多重画像でもよい)。ある実施形態では、受け取られる画像または取得される画像はRGB画像またはマルチスペクトル画像である。ある実施形態では、キャプチャされた画像はメモリ201に格納される(または記憶モジュール240内)。ニューラル・ネットワークを訓練するためにグラウンド・トゥルース・データを導き出すことができるのは、取得画像からである。即ち、グラウンド・トゥルース・データを生成するために、試料画像または試料画像データを取得するまたは引き出すことができる(ステップ300から302まで)。同様に、未標識画像または未標識画像データも取得するまたは引き出すことができ、未標識画像または未標識画像データ内にある細胞を、訓練済み多層ニューラル・ネットワークを使用して分類することができる(ステップ303から305まで)。試料画像または未標識画像はいずれも、ホール・スライド画像またはその任意の一部(例えば、所定の視野)である。
【0045】
[0054] ある実施形態では、キャプチャした生画像の代わりに、このキャプチャした生画像からの任意の1組の随意選択の前処理画像を、独立した入力画像として、またはキャプチャした生画像と組み合わせて使用することができる。したがって、本明細書において説明するように、訓練済みネットワークを未標識画像に適用するとき、同様の前処理ステップを使用することができる。
【0046】
[0055] 画像または画像データ(本明細書では相互交換可能に使用する)は、リアル・タイムでというように、撮像装置12を使用して取得することができる。ある実施形態では、本明細書において注記したように、標本支持顕微鏡スライドの画像データをキャプチャすることができる顕微鏡または他の機器から、画像を取得する。ある実施形態では、画像タイルをスキャンすることができるものというような、2Dスキャナを使用して、またはVENTANA DP200スキャナのように、1ラインずつ画像をスキャンすることができるライン・スキャナを使用して、画像を取得する。あるいは、画像は、既に取得され(例えば、スキャンされ)メモリ201に格納されている画像(または、更に言うならば、ネットワーク20を通じてサーバから引き出された画像)であってもよい。
【0047】
[0056] ある実施形態では、本システムは、グラウンド・トゥルース・データを導き出すために、少なくとも1つの画像を入力として受け取る。一般に、入力として受け取られた画像は、各々、染色に対応する信号(色原体、蛍光体、量子ドット等を含む)を含む。ある実施形態では、この少なくとも1つの画像は少なくとも1つの一次染料(ヘマトキシリンまたはエオシン)によって染色されている。他の実施形態では、少なくとも1つの画像は、IHCアッセイまたはISHアッセイの少なくとも1つにおいて、特異的バイオマーカの同定のために染色されている(本明細書では「バイオマーカ」画像と呼ぶ)。ある実施形態では、複数の単純画像が入力され、これらの画像は、一連の組織切片から、即ち、同じ異種移植組織ブロックから導き出された連続切片から導き出されてもよい。ある実施形態では、入力画像は多重画像であってもよく、即ち、当業者には知られている方法にしたがって、多重アッセイにおいて複数の異なるマーカを求めて染色された画像であってもよい。
【0048】
[0057] 典型的な生体試料は、染料を試料に適用する染色/アッセイ・プラットフォームにおいて処理される。ある実施形態では、標本処理装置は、Ventana Medical Systems,Inc.が販売するBENCHMARK XT機器、SYMPHONYC機器、BENCHMARK ULTRA機器のような、自動装置である。Ventana Medical Systems,Inc.は、自動解析を行うためのシステムおよび方法を開示する多数の米国特許の譲受人であり、これらの特許には、米国特許第5,650,327号、第5,654,200号、第6,296,809号、第6,352,861号、第6,827,901号、および第6,943,029号、および米国公開出願第2003/0211630号および第2004/0052685号が含まれる。あるいは、標本を手作業で処理することもできる。
【0049】
[0058] 市販されているH&Eステイナ(stainer)の例には、Roche社からのVENTANA SYMPHONY(個別スライド・ステイナ)およびVENTANA HE 600(個別スライド・ステイナ)シリーズのH&Eステイナ、Agilent TechnologiesからのDako CoverStainer(バッチ・ステイナ)、Leica Biosystems Nussloch GmbHからのLeica ST4020 Small Linear Stainer(バッチ・ステイナ)、Leica ST5020 Multistainer(バッチ・ステイナ)、およびLeica ST5010 Autostainer XLシリーズ(バッチ・ステイナ)H&Eステイナがある。染色/アッセイ・プラットフォームとして使用するのに適した他の市販製品の一例に、Ventana Medical Systems,Inc(アリゾナ州、Tuscon)のDiscovery(商標)製品がある。
【0050】
[0059] また、カメラ・プラットフォームは明視野顕微鏡を含んでもよい。その一例に、Ventana Medical Systems,IncのVENTANA iSCAN HT製品、または1つ以上の対物レンズおよびディジタル・イメージャ、ならびに1組のスペクトル・フィルタを有する任意の顕微鏡がある。異なる波長において画像をキャプチャするための他の技法も使用することができる。染色された生体標本を撮像するのに適した更に他のカメラ・プラットフォームも当技術分野では知られており、Zeiss、Canon、Applied Spectral Imaging等のような会社から市販されている。このようなプラットフォームは、本開示のシステム、方法、および装置における使用のために容易に改造可能である。
【0051】
[0060] 当業者には認められるであろうが、異なる型の核および/または細胞膜バイオマーカを求めて、生体試料を染色することもできる。組織構造を染色する方法、および種々の目的に適した染料の選択における指針については、例えば、"Sambrook et al., Molecular Cloning: A Laboratory Manual(分子複製:実験室便覧), Cold Spring Harbor Laboratory Press (1989)" および "Ausubel et al., Current Protocols in Molecular Biology(分子生物学における現在の慣習), Greene Publishing Associates and Wiley-Intersciences (1987)"において論じられている。
【0052】
[0061] 非限定的な一例として、そして乳癌を検出するというコンテキストにおいて、ある実施形態では、エストロゲン受容体マーカ、プロゲステロン受容体マーカ、Ki-67マーカ、またはHER2マーカを含む1つまたは複数のバイオマーカの存在を求めて、IHCアッセイにおいて組織試料を染色する。したがって、ある実施形態では、入力として使用されるバイオマーカ画像は、IHC画像である。IHC画像は、エストロゲン受容体(ER)マーカ、プロゲステロン受容体(PR)マーカ、Ki-67マーカ、またはHER2マーカの内少なくとも1つの存在に対応する信号(例えば、 色原体または蛍光体であってもよい染料に対応する信号)を含む。ある実施形態では、試料におけるER、HER2、Ki-67、およびPRタンパク質の存在を検出または測定するために、試料を分析することができ、例えば、定性的測定または定量的測定である。他の非限定的な例として、そして非小細胞肺癌を検出するというコンテキストにおいて、ある実施形態では、PD-L1バイオマーカを含む1つまたは複数のバイオマーカの存在を求めて、IHCアッセイにおいて組織試料を染色する。したがって、ある実施形態では、入力として使用されるバイオマーカ画像は、PD-L1マーカ、CD3マーカ、およびCD8マーカの存在に対応する信号を含むIHC画像である。
【0053】
[0062] 取得された画像が、グラウンド・トゥルース生成のための試料画像として使用されるか、または分類のための未標識画像として使用されるかには関係なく、画像はマスキングする必要がある情報を含む場合がある。ある実施形態では、随意に、本明細書において説明するような組織マスキング・モジュールによって、入力画像にマスキングする。ある実施形態では、組織領域だけが画像内に残るように(present)、入力画像をマスキングする。ある実施形態では、非組織領域を組織領域から隠蔽するために、組織領域マスクを生成する。ある実施形態では、組織領域を識別し、背景領域(例えば、ホール・スライド画像において、撮像ソースからの白色光だけが存在するところというような、試料がないガラスに対応する領域)を自動的にまたは半自動的に(即ち、最小限のユーザ入力を用いて)除外することによって、組織領域マスクを作成してもよい。尚、組織領域から非組織領域をマスキングすることに加えて、組織マスキング・モジュールは、必要に応じて、特定の組織型に属するまたは腫瘍が疑われる領域に属すると識別された組織の一部というような、他の対象エリアをマスキングしてもよいことは、当業者には認められよう。ある実施形態では、セグメント化技法を使用して、入力画像において非組織領域から組織領域をマスキングすることによって、組織領域隠蔽画像を生成する。適したセグメント化技法は、先行技術から公知であるようなものである(Digital Image Processing(ディジタル画像処理), Third Edition, Rafael C. Gonzalez, Richard E, Woods, chapter 10, page 689、および Handbook of Medical Imaging(医療用撮像便覧), Processing and Analysis, Isaac N. Bankman, Academic Press, 2000, chapter 2を参照のこと)。組織領域マスクの生成に関する追加情報および例は、"An Image Processing Method and System for Analyzing a Multi-Channel Image Obtained from a Biological Tissue Sample Being Stained by Multiple Stains"(複数の染料によって染色された生体組織試料から得られた多チャンネル画像を分析するための画像処理方法およびシステム)と題するPCT/EP/2015/062015に開示されている。
【0054】
多層ニューラル・ネットワークの訓練
[0063]
図3Aを参照すると、多層ニューラル・ネットワークの訓練は、(i)試料画像データを受け取るステップ(ステップ300)(例えば、画像取得モジュール202を使用する)、(ii)試料画像データからグラウンド・トゥルース・データを生成するステップ(ステップ301)(例えば、グラウンド・トゥルース訓練モジュール210を使用する)、および(iii)試料画像データおよび生成したグラウンド・トゥルース・データを使用して多層ニューラル・ネットワーク(220)を訓練するステップ(ステップ302)を含む。
【0055】
[0064] 試料画像が与えられると、この試料画像において異なる組織型および/または細胞型を識別することができる。例えば、腫瘍領域、リンパ球豊富領域、間質領域、および壊死領域を含む異なる型の領域に、試料画像をセグメント化してもよい。加えて、試料画像内にある細胞を検出し、腫瘍、リンパ球、間質細胞等として分類してもよい。これを考慮して、グラウンド・トゥルース・データの生成(ステップ301)は、
図3Bに概要を示すように、数個のステップを含む。これらのステップは、(a)試料画像データにおいて組織領域を識別するステップ(ステップ311)、(b)試料画像データにおいて細胞を検出および分類するステップ(ステップ312)、(c)医療専門家から受け取った入力を使用して細胞分類を調節または訂正するステップ(ステップ313)(例えば、病理学者、または生体試料において異なる細胞型を識別および分類するように訓練された他の医療専門家)、(d)各画素が1つの標識(例えば、ベクトル)を含むように、組織領域識別および訂正/調節された細胞分類を画素レベルで組み合わせるステップ(ステップ314および315)を含む。グラウンド・トゥルース・データの生成(ステップ311から315まで)に続いて、ニューラル・ネットワークを訓練できるように、グラウンド・トゥルース・データを多層ニューラル・ネットワーク(220)に供給する(ステップ316)。病理学者または医療専門家の入力が与えられる場合、グラウンド・トゥルース・データの生成は半教師付きとなる。これらのステップの各々について、ここで更に詳しく説明する。
【0056】
領域識別
[0065] 次いで、領域識別モジュール203を使用することによってというようにして、試料画像内の種々の領域に対してグラウンド・トゥルース・データを生成する。例えば、種々の組織領域、例えば、正常組織、腫瘍組織、壊死組織、リンパ管リンパ球豊富領域、間質組織等に関するグラウンド・トゥルース・データを、H&E試料画像から生成することができる。勿論、識別される領域は、腫瘍周囲領域、免疫辺縁領域(immune margin region)、血管侵入、神経浸潤 、コメド状領域、形質細胞または好中球豊富領域、活性化間質、出血、正常腺房または管等であってもよく、識別される領域の型は、生体試料の型に依存することは、当業者には認められよう。ある実施形態では、識別された部分が、特異的バイオマーカ、例えば、特異的IHCマーカの過剰発現腫瘍領域を表すこともある。
【0057】
[0066] ある実施形態では、試料画像内における種々の組織領域を、病理学者または医療専門家によって手作業で識別してもよい。例えば、生体試料を確認している病理学者が、試料画像に注釈を付けることによって、異なる領域または組織領域を指定してもよい。組織領域のグラウンド・トゥルース・データが手作業で生成されると仮定すると、グラウンド・トゥルース・データの生成(ステップ301)は半自動で行われると言うことができる。
【0058】
[0067] ある実施形態では、画像注釈は、ビューア・アプリケーション(例えば、VIRTUOSO/VERSO(商標)等のソフトウェア)に設けられている注釈ツールを使用して描いてもよく(draw)、更に注釈は任意の倍率または解像度で描くこともできる。ある実施形態では、病理学者が特定の領域(例えば、腫瘍)の境界に手作業で注釈を付ける。この注釈は、別個の色、テクスチャ、組織学的構造、および細胞空間配置によって視覚的に識別可能である。ある実施形態では、注釈の境界を実線の(例えば、閉じた)多角形に変換する。各境界は個々の構造(例えば、個々の腫瘍巣)に対応する。
【0059】
[0068] あるいは、または加えて、画像分析処理を使用して、セグメント化、二値化、エッジ検出等のような自動画像分析処理、および検出された領域に基づいて自動的に生成されるFOVを使用して、自動的に腫瘍領域または他の領域を検出することもできる。ある実施形態では、画像セグメント化および組織型識別は、2015年1月23日に出願され、"Adaptive Classification for Whole Slide Tissue Segmentation"(ホール・スライド組織セグメント化のための適応分類)と題するPCT/EP2015/051302(WO2015/113895として公開された)に記載された方法したがって実行される。概略的に、WO2015/113895は、領域の分類に関係する処理によって、画像において腫瘍領域を他の領域からセグメント化することについて記載する。これらの処理は、組織画像において格子点を識別し、格子点を複数の組織型の1つのとして分類し、既に知られている組織型の特性のデータベースに基づいて、分類した格子点を生成し、分類した格子点に高信頼度スコアおよび低信頼度スコアの内少なくとも1つを割り当て、高信頼度スコアが割り当てられた格子点に基づいて、既に知られている組織型の特性のデータベースを修正し、修正したデータベースを生成し、修正したデータベースに基づいて低信頼度スコアが割り当てられた格子点を再分類して、組織をセグメント化する(例えば、画像において組織領域を識別する)処理を含む。
【0060】
[0069] 組織領域が手作業のプロセスで識別されるか、または自動プロセスで識別されるかには関係なく、特定の組織領域の組織領域マスクを、
図4のパネル(B)および
図5のパネル(B)に示すように生成することができる。組織領域マスクを生成する方法は、米国特許出願公開第2017/0154420号に記載されている。
【0061】
細胞検出および分類
[0070] 画像取得および/または分離に続いて、入力画像または分離画像チャネル画像を細胞検出モジュール204に供給して細胞を検出し、続いて細胞分類モジュール205に供給して細胞および/または核を分類する(ステップ300)。本明細書において説明する手順およびアルゴリズムは、入力画像内の特徴に基づいて種々の型の細胞または細胞核を識別および分類するように構成することができ、腫瘍細胞、非腫瘍細胞、間質細胞、およびリンパ球を識別および分類することを含む。尚、識別された細胞型は、例えば、免疫細胞のコンテキストでは、試料画像の型および染色に依存する場合もあり、CD3およびCD8を含む異なる型の免疫細胞が検出および分類される可能性もあることは、当業者には認められよう。同様に、細胞分類は、マーカ陽性腫瘍細胞またはマーカ陰性腫瘍細胞としてもよい。他の例として、CD3またはCD8リンパ球のような免疫マーカで染色されたIHC画像において、膜マーカ染色(DAB)を有する細胞(cells with membrane marker staining)は陽性であり、対比染色されたリンパ球はマーカ陰性(marker negative)である。尚、異なる組織は、異なる細胞型、例えば、甲状腺乳頭がんの乳頭突起、腺癌の腺、および化生性がんの多核巨大細胞を含むことは、当業者には認められよう。
【0062】
[0071] 尚、細胞の核、細胞質、および膜は異なる特性を有すること、そして染色が異なる組織試料は異なる生体特徴を明示できることは、当業者には認められよう。実際、特定の細胞表面受容体は、膜に局在化された染色パターンまたは細胞質に局在化された染色パターンを有することができることは、当業者には認められよう。つまり、「膜」染色パターンは、「細胞質」染色パターンとは分析的に異なる。同様に、「細胞質」染色パターンおよび「核」染色パターンも分析的に異なる。これら異なる染色パターンの各々を、細胞および/または核を識別するための特徴として使用することができる。例えば、間質細胞はFAPによって強く染色することができ、一方腫瘍上皮細胞はEpCAMによって強く染色することができ、更にサイトケラチンはpanCKによって染色することができる。つまり、異なる染料を使用することによって、画像分析の間に、分類の解明を得るために異なる細胞型を差別化および区別することができる。
【0063】
[0072] 1つ以上の染色を有する生体試料の画像において核、細胞膜、および細胞質を識別、分類、および/または採点する方法が、米国特許第7,760,927号(「’927特許」)に記載されている。例えば、’927特許は、バイオマーカによって染色された生体試料の入力画像において複数の画素を同時に識別するための自動方法について記載し、この方法は、細胞質および細胞膜画素の同時識別のために入力画像の前景において複数の画素の第1色平面(color plane)を検討するステップであって、入力画像の背景部分を除去し、入力画像の対比染色された成分を除去するために入力画像が処理されている、ステップと、ディジタル画像の背景において細胞質画素および細胞膜画素間で閾値レベルを決定するステップと、選択した画素が細胞質画素である場合、決定した閾値レベルを使用して、選択した画素と前景からのその8つの近隣とによって同時に、ディジタル画像において細胞膜画素または移行画素(transitional pixel)を判定するステップとを含む。
【0064】
[0073] ある実施形態では、最初に候補核を識別し、次いで腫瘍核と非腫瘍核との間で自動的に区別することによって、腫瘍核を自動的に識別する。画像において候補核を識別する方法は、当技術分野では数多く知られている。例えば、自動候補核検出は、分離後にヘマトキシリン画像チャネルまたはバイオマーカ画像チャネル上でというように、放射相称に基づく方法(radial-symmetry-base method)を適用することによって、行うことができる(Parvin, Bahram, et al. "Iterative voting for inference of structural saliency and characterization of subcellular events"(細胞内現象の構造的顕著性および特徴付けの推論のための繰り返し投票), Image Processing, IEEE Transactions on 16.3 (2007): 615-623を参照のこと。
【0065】
[0074] 更に具体的には、ある実施形態では、入力として受け取られた画像は、核中心(シード)を検出する、および/または核をセグメント化するように処理される。例えば、Parvinの技法(先に注記した)を使用して、放射相称投票に基づいて核中心を検出するために、命令を供給してもよい。ある実施形態では、核の中心を検出するために放射相称を使用して核を検出し、次いで細胞中心の周りにおける染色の強度に基づいて核を分類する。ある実施形態では、放射相称に基づく核検出処理は、譲受人が本願と同じである係属中の特許出願WO2014/140085A1に記載されるように使用される。例えば、画像において画像の強度(magnitude)を計算してもよく、選択した領域内における強度の総和を加算することによって、各画素における1つ以上の投票を蓄積する。領域における局所中心(local center)を発見するために、平均値シフト・クラスタリングを使用してもよく、局所中心は実際の核の位置を表す。放射相称投票に基づく核検出は、カラー画像強度データ上で実行され、核は楕円形状をしたブロブであり、サイズおよび離心率が様々に変化するという先験的領域知識を明確に利用する。これを遂行するために、入力画像における色強度と共に、放射相称投票において画像勾配情報も使用し、適応セグメント化プロセスと組み合わせて、細胞核を正確に検出し位置を突き止める。「勾配」(gradient)とは、本明細書において使用する場合、例えば、特定の画素の周囲にある1組の画素の強度値勾配を考慮に入れることによって、前記特定の画素について計算された画素の強度勾配である。各勾配は、座標系に対して特定の「方位」(orientation)を有することができ、座標軸のx軸およびy軸はディジタル画像の2本の直交するエッジによって定められる。実例をあげると、核シード(nuclei seed)検出は、シードを、細胞核の内側にあり、細胞核の位置を確認するための開始点として機能すると仮定される点として定める必要がある。第1ステップは、放射相称に基づく非常にロバストな手法を使用して、各細胞核に関連付けられたシード・ポイント(seed point)を検出し、楕円形状のブロブ、即ち、細胞核に類似する構造を検出することである。放射相称手法は、カーネルに基づく投票手順を使用して、勾配画像上で動作する。投票カーネルによって投票を蓄積する各画素を処理することによって、投票応答行列を作成する。カーネルは、その特定の画素において計算された勾配方向、最少および最大核サイズの予測範囲、ならびに投票カーネル角度(通例では[Π/4,Π/8]の範囲)に基づく。結果的に得られる投票空間において、予め定められている閾値よりも高い投票値を有する極大位置を、シード・ポイントとして保存する。無関係なシードは、後に、後続のセグメント化または分類プロセスの間に破棄してもよい。他の方法も米国特許出願公開第2017/0140246号において論じられている。
【0066】
[0075] 当業者に知られている他の技法を使用して、核を識別することもできる。例えば、H&EまたはIHC画像の1つの特定の画像チャネルから画像強度を計算してもよく、指定された強度の周囲にある各画素に、その画素の周囲の領域内における強度の総和に基づく投票数を割り当てるのでもよい。あるいは、核の実際の位置を表す投票画像内において局所中心を求めるために、平均値シフト・クラスタリング処理を実行してもよい。他の実施形態では、形態学的処理および局所二値化によって、既に分かっている核の中心に基づいて、核全体をセグメント化するために、核セグメント化を使用してもよい。更に他の実施形態では、核を検出するためにモデルに基づくセグメント化を利用してもよい(即ち、訓練データ集合から核の形状モデルを学習させ、これを事前知識として使用して、検査画像における核をセグメント化する)。
【0067】
[0076] ある実施形態では、次に、核毎に個々に計算した閾値を使用して、核をセグメント化する。例えば、識別した核を中心とする領域におけるセグメント化のために、Otsuの方法を使用してもよい。何故なら、核領域内における画素強度は様々に変化すると考えられるからである。当業者には認められるであろうが、Otsuの方法は、クラス内分散を最小化することによって最適な閾値を決定するために使用され、当業者には知られている。更に具体的には、Otsuの方法は、クラスタリングに基づく画像二値化、または中間色画像の二進画像への減退(reduction)を自動的に実行するために使用される。このアルゴリズムは、画像がバイモダル・ヒストグラムに従う2つのクラスの画素(前景画素および背景画素)を含むことを仮定する。次いで、2つのクラスの複合拡散(combined spread)(クラス内分散)が最小または同等(対毎の二乗距離の和は一定になるので)になり、それらのクラス間分散が最大になるように、2つのクラスを分離する最適閾値を計算する。
【0068】
[0077] ある実施形態では、本システムおよび方法は、更に、非腫瘍細胞の核を識別するために、画像において識別された核のスペクトル特徴および/または形状特徴を自動的に分析するステップを含む。例えば、第1ステップにおいて、第1ディジタル画像においてブロブを識別するのでもよい。「ブロブ」(blob)とは、本明細書において使用する場合、例えば、ディジタル画像において何らかのプロパティ、例えば、強度またはグレー値が一定であるかまたは予め定められた値の範囲以内で変化する領域とすることができる。ブロブにおける全ての画素は、ある意味では、互いに同様であると見なすことができる。例えば、ディジタル画像上の位置の関数の導関数に基づく微分方法、および極値に基づく方法を使用して、ブロブを識別することもできる。核ブロブとは、ブロブがおそらく第1染料によって染色された核によって生成されたことを画素および/または輪郭形状が示すブロブである。例えば、ブロブの放射相称を評価すると、このブロブを核ブロブとして識別すべきか、または任意の他の構造、例えば、染色アーチファクトとして識別すべきか判定することができる。例えば、ブロブが長い形状を有し放射相称でない場合、前記ブロブを核ブロブと識別することはできず、むしろ染色アーチファクトと識別すればよい。実施形態によっては、「核ブロブ」であると識別されるブロブは、候補核として識別された1組の画素を表すことができ、前記核ブロブが核を表すか否か判定するために、更に分析することができる。ある実施形態では、任意の種類の核ブロブを直接「識別された核」として使用する。ある実施形態では、バイオマーカ-陽性腫瘍細胞に属さない核を識別するため、そして前記識別された非腫瘍核を、既に識別されている核のリストから除去する、または識別された核のリストに前記核を最初から追加しないために、識別された核または核ブロブに対してフィルタリング処理を適用する。例えば、識別された核ブロブの追加のスペクトルおよび/または形状特徴を分析して、核または核ブロブが腫瘍細胞の核であるか否か判定することができる。例えば、リンパ球の核は、他の組織細胞、例えば、肺細胞の核よりも大きい。腫瘍細胞が肺組織から得られた場合、最小サイズの核ブロブ全て、または直径が平均サイズよりも著しく大きい核ブロブ全て、または通常の肺細胞核の直径の核ブロブ全てを識別することによって、リンパ球の核を識別する。識別された核ブロブがリンパ球の核に関係する場合、既に識別されている核の集合から除去すればよい(即ち、除外する)。非腫瘍細胞の核を除外することによって、本方法の精度を高めることができる。バイオマーカによっては、非腫瘍細胞もバイオマーカをある程度発現させることもあり、したがって、腫瘍細胞から由来しない第1ディジタル画像において強度信号を生成することができる。既に識別されている核の全体から腫瘍細胞に属さない核を識別して除外することによって、バイオマーカ-陽性腫瘍細胞を識別する精度を高めることができる。これらおよびその他の方法は、米国特許出願公開2017/0103521に記載されており、ある実施形態では、一旦シードが検出されたなら、局所適応二値化方法(locally adaptive thresholding method)を使用してもよく、検出された中心の周囲にブロブを作成する。ある実施形態では、検出された核中心の周囲で核ブロブを識別するために、マーカに基づく分水嶺アルゴリズム(watershed algorithm)を使用することができるというように、他の方法も組み込むことができる。これらおよびその他の方法は、WO2016/120442として公開された同時係属中の出願PCT/EP2016/051906に記載されている。
【0069】
[0078] 核の検出に続いて、入力画像から特徴(またはメトリック)を導き出す。核特徴からのメトリックの導出は、当技術分野ではよく知られており、任意の既知の核特徴を、本開示のコンテキストにおいて使用してもよい。計算することができるメトリックの非限定的な例には、以下が含まれる。
【0070】
(A)形態学的特徴から導き出されるメトリック
[0079] 「形態学的特徴」(morphology feature)とは、本明細書において使用する場合、例えば、核の形状または寸法を示す特徴である。いずれの特定の理論にも束縛されることを望むのではないが、形態学的特徴は細胞またはその核の大きさおよび形状についていくつかの極めて重要な情報を提供すると考えられる。例えば、形態学的特徴は、核ブロブまたはシード内に含まれる画素あるいはその周囲にある画素に対して種々の画像分析アルゴリズムを適用することによって計算することができる。ある実施形態では、形態学的特徴は、面積、短軸および長軸の長さ、外周、半径、中実であること(solidity)等を含む。細胞レベルでは、このような特徴は、核を健康な細胞または罹患された細胞に属するものとして分類するために使用される。組織レベルでは、組織全体におけるこれらの特徴の統計が、組織が罹患されているか否かの分類において利用される。
【0071】
(B)外観的特徴から導き出されるメトリック
[0080] 「外観的特徴」(appearance feature)とは、本明細書において使用する場合、例えば、核を識別するために使用される核ブロブまたはシード内に含まれる画素あるいはそれを取り囲む画素の画素強度値を比較することによって、特定の核について計算された特徴であり、これによって、異なる画像チャネル(例えば、背景チャネル、バイオマーカの染色のためのチャネル等)から、比較画素強度(compared pixel intensities)が導き出される。ある実施形態では、外観的特徴から導き出されるメトリックは、異なる画像チャネルから計算される画素強度(pixel intensities)および勾配強度(gradient magnitudes)のパーセンタイル値(例えば、10、50,および95パーセンタイル値)から計算される。例えば、最初に、対象の核を表す核ブロブ内にある複数ICの画像チャネル(例えば、3つのチャネル:HTX、DAB、輝度)の各々の画素値のX-パーセンタイル値(X=10、50、95)の数Pを特定する。外観的特徴メトリックを計算することは、有利であると言える。何故なら、導かれるメトリックは、核領域のプロパティを記述することができ、更に、核を取り囲む膜領域を記述することができるからである。
【0072】
(C)背景特徴から導き出されるメトリック
[0081] 「背景特徴」(background feature)とは、例えば、細胞質における外観および/または染料の存在を示す特徴、ならびに核を含む細胞の細胞膜の特徴であり、背景特徴はこれらを求めて画像から抽出されたものである。背景特徴および対応するメトリックは、例えば、核ブロブまたは核を表すシードを識別し、識別された1組の細胞に直接隣接する画素エリア(例えば、核ブロブ境界周囲の厚さ20画素、即ち、約9ミクロンの帯状体)を分析し、したがって、この核がある細胞の外観ならびに細胞質および膜における染料の存在を、細胞に直接隣接するエリアと共にキャプチャすることによって、ディジタル画像内に表現される核および対応する細胞について計算することができる。これらのメトリックは、核の外観的特徴に似ているが、各核の境界周囲の約20画素(約9ミクロン)の厚さの帯状体において計算され、したがって、識別された核を有する細胞の外観、ならびに細胞質および膜における染料の存在が、この細胞に直接隣接するエリアと共に、キャプチャされる。いずれの特定の理論にも束縛されることを望むのではないが、この帯状体のサイズを選択したのは、核を取り囲む十分な量の背景組織エリアをキャプチャし、核の差別について有用な情報を提供するために使用することができると考えられるからである。これらの特徴は、J. Kong, et al., "A comprehensive framework for classification of nuclei in digital microscopy imaging: An application to diffuse gliomas"(ディジタル顕微鏡撮像における核の分類のための総合的フレームワーク:びまん性神経膠腫に対する応用)in ISBI, 2011, pp.2128-2131によって開示されたものと同様である。尚、これらの特徴は、周囲の組織が間質かまたは上皮か判定するために使用することができると考えられる(H&E染色組織試料におけるように)。いずれの特定の理論にも束縛されることを望むのではないが、これらの背景特徴は、膜染色パターンもキャプチャし、膜染色パターンは、組織試料がしかるべき膜染色剤によって染色されるときに有用であると考えられる。
【0073】
[0082] (D)色から導かれるメトリック
[0083] ある実施形態では、色から導き出されるメトリックには、色比率、R/(R+G+B)、または色の主成分が含まれる。他の実施形態では、色から導き出されるメトリックには、色の各々の局所的統計(平均/中央/分散/標準偏差)、および/または局所画像ウィンドウにおける色強度相関(color intensity correlation)が含まれる。
【0074】
[0084] (E)強度特徴から導き出されるメトリック
[0085] 病理組織学的スライド画像内に表示される灰色の細胞の黒から白までの明暗度の間で、一定の特異的プロパティ値を有する隣接細胞の一群を設定する。色特徴の相関は、サイズ・クラスのインスタンスを定め、したがって、このようにして、これらの着色された細胞の明暗度によって、病的細胞を、その周囲にある黒い細胞のクラスタから判定する。
【0075】
[0086] (F)テクスチャ特徴から導き出されるメトリック
[0087] テクスチャ特徴の例、およびそれらの導出方法は、PCT公開WO/2016/075095およびWO/2016/075096に記載されている。
【0076】
[0088] (G)空間特徴から導き出されるメトリック
[0089] ある実施形態では、空間特徴は、局所細胞密度、2つの隣接する検出細胞間の平均距離、および/または細胞からセグメント化領域までの距離を含む。
【0077】
[0090] (H)核特徴から導き出されるメトリック
[0091] また、当業者には、核特徴からもメトリックを導き出せることが認められよう。このような核特徴の計算については、Xing et al. "Robust Nucleus/Cell Detection and Segmentation in Digital Pathology and Microscopy Images: A Comprehensive Review"(ディジタル病理学および顕微鏡画像におけるロバストな核/細胞検出およびセグメンテーション:包括的な再検証), IEEE Rev Biomed Eng 9, 234-263, January 2016に記載されている。
【0078】
[0100] 勿論、当業者には知られているような他の特徴も考慮し、特徴の計算のための基準として使用してもよい。
[0101] 他の例として、PCT公開第WO/2016/075096号に記載されているように、細胞をリンパ球として分類することもできる。具体的には、PCT公開第WO/2016/075096号は、PD-L1バイオマーカの存在を求めてIHCアッセイにおいて染色された組織試料の画像内において細胞を分類するコンピュータ実装方法について記載する。この方法は、組織試料の画像内にある核の特徴から核特徴メトリックを計算するステップと、組織試料の画像を用いて、対象の核に基づいてコンテキスト情報メトリックを計算するステップと、核特徴メトリックとコンテキスト情報メトリックとの組み合わせを使用して(分類器の入力として)組織試料の画像内において細胞を分類するステップとを含み、細胞は、陽性免疫細胞、陽性腫瘍細胞、陰性免疫細胞、および陰性腫瘍細胞、または他の細胞の内少なくとも1つとして分類される。ある実施形態では、この方法は、更に、細胞内において個々の核を識別するために前景セグメント化マスクを作成するステップも含む。更に、この特許公開は、PD-L1染色組織のコンテキストにおいて、PD-L1バイオマーカを発現しないリンパ球(「陰性リンパ球」)がある領域は小さい青色のブロブによって特徴付けられ、PD-L1バイオマーカを発現するリンパ球(「陽性リンパ球」)がある領域は小さい青色のブロブおよび茶色のブロブによって特徴付けられ、PD-L1バイオマーカを主に発現する細胞がある腫瘍領域(「陽性腫瘍細胞」)は大きな青色のブロブおよび茶色のリングによって特徴付けられ、PD-L1バイオマーカを発現しない細胞(「陰性腫瘍細胞」)がある腫瘍領域は大きな青色のブロブのみによって特徴付けられることも記載している。
【0079】
[0102] ある実施形態では、画像分析モジュール207を1回よりも多く実行する。例えば、画像分析モジュール207は、1回目では、第1画像において特徴を抽出し細胞および/または核を分類するために実行され、次いで、2回目では、一連の追加画像において特徴を抽出し、細胞および/または核を分類するために実行され、追加画像は、他の単純画像または分離画像チャネル画像、あるいはこれらの任意の組み合わせであってもよい。
【0080】
[0103] 特徴が導き出された後、核または細胞を分類するために、この特徴を単独でまたは訓練データと併せて使用することができる(例えば、訓練中に、当業者には知られている手順にしたがって、専門家の観察者によって与えられるグラウンド・トゥルース識別と共に、細胞例を提示する)。ある実施形態では、本システムは、少なくとも部分的に、バイオマーカ毎の1組の訓練スライドまたは基準スライドに基づいて訓練された分類器を含むことができる。尚、バイオマーカ毎に分類器を訓練するためには、異なる複数組のスライドを使用できることは、当業者には認められよう。したがって、1つのバイオマーカには訓練後に1つの分類器が得られる。また、異なるバイオマーカから得られた画像データ間には変動性があるので、目に見えない検査データに対する性能向上を確保するために、異なるバイオマーカ毎に、バイオマーカ型の検査データを識別する異なる分類器を訓練できることは当業者には認められよう。スライド解釈のためには、例えば、組織型、染色方法(staining protocol)、およびその他の対象の特徴における訓練データの変動性をどのように扱うのが最良かに、少なくとも部分的に基づいて、訓練済み分類器を選択することができる。
【0081】
[0104] ある実施形態では、分類モジュールはサポート・ベクトル・マシン(「SVM」)である。一般に、SVMは分類技法であり、統計学習理論に基づき、非線形ケースのためのカーネルによって、非線形入力データ集合を高次元線形特徴空間に変換する。いずれの特定の理論にも束縛されることを望むのではないが、サポート・ベクトル・マシンは、2つの異なるクラスを表す1組の訓練データEを、カーネル関数Kによって、高次元空間に投影すると考えられている。この変換されたデータ空間では、クラス分離を最大化するようにクラスを分離するために平坦な線を生成することができるように(識別超平面)非線形データを変換する。次いで、Kによって検査データを高次元空間に投影し、超平面に関してこれらがどこに入ったかに基づいて、検査データを分類する。カーネル関数Kは、データを高次元空間に投影する方法を定める。
【0082】
[0105] 他の実施形態では、アダブースト・アルゴリズムを使用して分類を実行する。アダブーストとは、多数の弱分類器を組み合わせて強分類器を生成する適応アルゴリズムである。訓練段階中に病理医によって識別された画像画素(例えば、特定の染色を有する、または特定の組織型に属する)を使用して、弱分類器と見なされる、個々のテクスチャ特徴j∈{1,...,K}に対してΦjの各々について確率密度関数を生成する。次いで、ベイズの定理を使用して弱学習機(weak learner)を構成するΦj毎に、尤度シーン(likelihood scene)Lj=(Cj,Ij∈{1....K})を生成する。これらをアダブースト・アルゴリズムによって組み合わせて、強分類器
【0083】
【0084】
にする。
ここで、画素cj∈Cj毎に、Πj(cj)は画素cjがクラスωTに属する複合尤度であり、αjiは、特徴Φiについて訓練する間に決定される重みであり、Tは繰り返しの回数である。
【0085】
[0106] ある実施形態では、他の候補核からの腫瘍核間で区別するために分類器を使用する。他の候補核を更に分類してもよい(例えば、リンパ球核および間質核を識別することによって)。ある実施形態では、本明細書において更に説明するように、腫瘍核を識別するために、学習監視分類器(learnt supervised classifier)を適用する。例えば、腫瘍核を識別するために、核の特徴について学習監視分類器を訓練し、次いで未標識画像において核候補を腫瘍核または非腫瘍核のいずれかとして分類するために適用する。随意に、リンパ球核および間質核のような異なるクラスの非腫瘍核間で区別するために、学習監視分類器を更に訓練することもできる。ある実施形態では、腫瘍核を識別するために使用される学習監視分類器は、ランダム・フォーレスト分類器である。例えば、(i)腫瘍核および非腫瘍核の訓練集合を作成し、(ii)核毎に特徴を抽出し、(iii)抽出した特徴に基づいて腫瘍核と非腫瘍核との間で区別するようにランダム・フォーレスト分類器を訓練することによって、ランダム・フォーレスト分類器を訓練することができる。次いで、未標識画像における核を腫瘍核および非腫瘍核に分類するために、訓練済みランダム・フォーレスト分類器を適用することができる。随意に、リンパ球核および間質核のような非腫瘍核の異なるクラス間で区別するように、ランダム・フォーレスト分類器を更に訓練することもできる。
【0086】
自動細胞分類の訂正
[0107] 以上で説明したような自動画像分析を使用する細胞検出および分類に続いて、病理学者または他の医療専門家によって自動分類を調節する、またそうでなければ訂正することができる(ステップ314)。このように、細胞分類は半自動または半教師付である。例えば、自動画像分析アルゴリズムによって行われる細胞分類は、ビューアにおいて試料画像上に被せるオーバーレイとして表示することができ、次いで、医療専門家は細胞が正しく分類されたことを確認するために、疑わしい細胞分類を再検討することができる。他方で、細胞が正しく分類されていなかった場合、医療専門家は細胞分類を調節する機会を有することができる、即ち、自動細胞分類を手作業で無効にすることができる。例えば、医療専門家は、分類し損ねた細胞を手作業で選択し、これらに正しい分類を標識付けし直してもよい。尚、自動分類結果を再検討することによって、改良した(better)グラウンド・トゥルース訓練データを多層ニューラル・ネットワークに供給できることは、当業者には認められよう。ステップ314の出力は、自動画像分析からの、正しく識別された分類と、1組の調節された細胞分類との組み合わせであり、「最終的な」細胞分類を提示する。
【0087】
領域レベルおよび細胞レベル分類データの組み合わせ
[0108] 医療専門家によって細胞分類結果が再検討された後、組織領域識別および細胞分類を画素レベルで組み合わせる(ステップ314)。
【0088】
[0109] 本プロセスのこのステップは、生体系の先験的知識を考慮に入れる。特定の型の細胞は特定の型の組織では発見され得ないことは、当業者には認められよう。例えば、リンパ球豊富領域において間質細胞が発見されるのは実現可能ではない。これらの生物学的に実現不可能な組み合わせを破棄することによって、グラウンド・トゥルース・データは背景知識が豊富になり、多層ニューラル・ネットワークの訓練改良を促進する。
【0089】
[0110] 例えば、
図6は、分類することができる、異なる領域および異なる細胞を示す。20の異なる組み合わせが可能であるが、それよりも小さい組み合わせの部分集合だけが生物学的に実現可能である。この例では、組織領域における細胞型の生物学的に実現可能な組み合わせは、(i)腫瘍領域における腫瘍細胞、(ii)腫瘍領域における間質細胞、(iii)腫瘍領域におけるリンパ球、(iv)間質領域における腫瘍細胞、(v)間質領域における間質細胞、(vi)間質領域におけるリンパ球、(vii)リンパ球豊富領域における腫瘍細胞、および(viii)リンパ球豊富領域におけるリンパ球を含む。勿論、生物学的に実現可能な組み合わせの範囲は、試料の型および試料の供給源(source)に基づいて異なるのはもっともであり、当業者は特定の組み合わせを破棄する命令を出すことができよう。
【0090】
[0111] ある実施形態では、本システムは領域を識別することができるが、その識別された領域内にある画素に、細胞型が関連付けられない場合がある。この状況では、画素には領域標識と「背景細胞」という標識(例えば、腫瘍領域、背景細胞)を標識付ければよく、「背景細胞」という標識は、その領域が関連する細胞型を全く含まない領域を示す「プレースホルダ」として役割を果たす。したがって、「背景細胞」という標識は細胞型でないこと(no cell type)を示す。ある実施形態では、検出されたものが、対象の細胞でなく、無視できるアーチファクトでもない場合、検出された細胞を「背景細胞」と見なしてもよい。
【0091】
[0112] 次いで、試料画像内にある各画素に、その画素が属する細胞型および領域型を含む、標識を割り当てる(ステップ315)。例えば、画素標識は(腫瘍細胞、間質領域)であってもよい。このように、各画素には生物学的に実現可能な標識が標識付けられる。
【0092】
多層ニューラル・ネットワーク
[0113] 次いで、試料画像、およびこの試料画像内において各画素に割り当てられた標識を使用して、多層ニューラル・ネットワークを訓練する(
図3Aのステップ302、
図3Bのステップ316)。この目的のためには、いずれの多層ニューラル・ネットワークでも実装してよい。適した多層ニューラル・ネットワークには、Yann LeCunによって提案されたLeNet、Alex Krizhevsky et alによって提案されたAlexNet、Matthew Zeiler et al.によって提案されたZF Net、Szegedt et al.によって提案されたGoogLeNet、Karen Simonyan et al.によって提案されたVGGNet、およびKaiming He et al.によって提案されたResNetが含まれる。ある実施形態では、多層ニューラル・ネットワークはVGG16(Simonyan, 2014)である。他の実施形態では、多層ニューラル・ネットワークはDenseNetである(Huang et al., "Densely Connected Convolutional Networks"(密接続畳み込みネットワーク)arXiv: 1608.06993を参照のこと)。ある実施形態では、Long et al., "Fully Convolutional Networks for Semantic Segmentation"(セマンティック・セグメント化のための完全畳み込みネットワーク) Computer Vision and Pattern Recognition (CVPR), 2015 IEEE Conference, June 20015 (INSPEC Accession Number: 15524435)によって記載されるような、完全畳み込みニューラル・ネットワークが利用される。
【0093】
[0114] ニューラル・ネットワークは、通例、自然画像の大きくて公に入手可能な画像データ・アーカイブ(ImageNetのようなもの(Russakovsky et al, 2015, ImageNet Large Scale Visual Recognition Challenge(ImageNet、大規模視覚認識の課題). IJCV, 2015))上で訓練される。腫瘍試料のような生体標本のための訓練画像が通例少ないことを考慮して、転送学習方法(transfer learning method)を採用する。ある実施形態では、前述したもののような、予め訓練されているネットワークが、新たな1組の訓練画像に対して訓練プロセスを初期化する(initialize)ために、それらの学習重み(learnt weight)と共に使用され、手近にある特定のアプリケーションに合わせて重みを変更するように訓練される(Pan, S. J., & Yang, Q. (2010) A Survey on Transfer Learning(転送学習についての調査). IEEE Transactions on Knowledge and Data Engineering, 22(10), 1345-1359. doi: 10.1109/tkde.2009.191を参照のこと)。ある実施形態では、既存の公開または私有データ集合上で、予め訓練されているネットワークを訓練する。データ集合は、対象の用途に直接関係あってもなくてもよく、更に性質上生物学的であってもなくてもよい。ある実施形態では、最適でない極小値に陥るのを回避するために、最終層の重みをランダムに初期化し、一方他の実施形態では、最終層の重みを不変のままインポートする。
【0094】
[0115] 多層ニューラル・ネットワークの訓練(ステップ302)に続いて、グラウンド・トゥルースが利用できない生体試料の1つ以上の未標識画像を、訓練済み分類器に供給することができ、本明細書において注記したように、未標識画像内にある領域および細胞を分類する(ステップ303および304)。
【0095】
訓練済み多層ニューラル・ネットワークを使用する領域および細胞の分類
[0116] また、本開示は、訓練済み多層ネットワークを使用して、領域および細胞を分類するシステムならびに方法も提供する(
図3A参照)。ある実施形態では、未標識画像データを、訓練済み多層ニューラル・ネットワークに供給する(ステップ303)。ここで、訓練済み多層ニューラル・ネットワークは、未標識画像において検出された細胞を分類する(ステップ304)。一旦未標識画像内の細胞を分類したなら、分類結果を更なる分析に使用することができる(例えば、オーバーレイ・マスクの作成、採点等)。これらのステップの各々について本明細書において更に詳しく説明する。
【0096】
[0117]
図3Cを参照すると、ある実施形態では、本システムは、最初に、分類される未標識画像を受け取る(ステップ320)。分類される未標識画像は、本明細書において説明した画像取得モジュール202を使用して取得されてもよく、またはメモリ201から(または記憶モジュール240から)引き出されてもよい。未標識画像は、本明細書において特定したモジュールの内任意のもの、例えば、組織領域マスキング・モジュールまたは視野判定モジュールを使用して、前処理することもできる。
【0097】
[0118] 次に、細胞検出モジュール204を使用して、未標識画像内において細胞核を検出する(ステップ321)。本明細書において説明した、グラウンド・トゥルース・データ生成のために細胞を検出するために使用される方法のいずれかにしたがって(例えば、放射相称に基づく細胞検出方法を使用する)、細胞核を検出することができる。他の実施形態では、米国特許出願公開第2017/0098310号に記載されている方法を使用して、細胞核を判定してもよい。具体的には、米国特許出願公開第2017/0098310号は、生体組織試料のディジタル画像において細胞核境界を自動的に認識する方法について記載しており、ディジタル画像において1つ以上の初期エッジをプロセッサによって識別し、識別された初期エッジ内にある画素を初期投票画素として使用するステップと、プロセッサによって、テンソル投票フィールド(tensor voting field)を使用して初期投票画素の各々の近隣内にある画素に対してテンソル投票処理を実行するステップと、プロセッサによって、前記近隣画素に対してテンソル値を決定するために、近隣画素の各々に対する複数の投票を蓄積するステップであって、投票量が、前記近隣画素が初期投票画素と同じ核のエッジ画素である可能性が高いか否か示し、テンソル値が、前記近隣画素が近隣に存在する全ての初期投票画素によって行われた(cast)全ての投票を和である、ステップと、プロセッサによって、分解したテンソル値の固有値および固有ベクトルを決定するために、決定されたテンソル値の各々を分解するステップと、プロセッサによって、精細エッジ画素(refined edge pixel)を識別するために、決定した固有値および固有ベクトルを評価するステップであって、精細エッジ画素が細胞核境界を表す、ステップと、プロセッサによって、識別した精細エッジ画素の内、細胞核境界を表すものを選択的に含む顕著エッジ強度画像(saliency edge strength image)を生成するステップとを含む。
【0098】
[0119] 他の実施形態では、Veta et al. "Automatic Nuclei Segmentation in H&E Stained Breast Cancer Histopathology Images"(H&E染色乳癌組織病理学画像における自動核セグメント化)PLoS One. 2013; 8(7) : e70221によって記載される方法にしたがって、画像セグメント化を実行する。この方法によれば、画像セグメント化を4つの主なステップ、1)前処理、2)マーカ制御分水界セグメント化(marker-controlled watershed segmentation)、3)後処理、および4)複数のスケールからの結果の合併、に分割することができる。前処理の目的は、核の境界を保存しつつ、無関係な内容を除去することである。前処理は、RGB画像からのヘマトキシリン染色の分離のための色分離(color unmixing)から開始する。次いで、無関係な構造を除去するために、一連の形態学的処理によって、ヘマトキシリン画像の中間調バージョンを処理する。この手順の中核部分は、マーカ制御分水界セグメント化である。2種類の核マーカを使用する。マーカの抽出は、前処理された画像の高放射相称領域極小値(high radial symmetry regional minima)の構造を強調する画像変換を使用して行われる。後処理ステップにおいて、核を表しそうもない領域を除去し、残りの領域の輪郭を楕円としてパラメータ化する。前処理ステップにおいて構造化要素のサイズを変化させることによって、異なるスケールで核を捜すマルチスケール分析を可能にするように、セグメント化手順を調整することができる。次いで、並行領域(concurrent region)を分解し(resolve)最終的なセグメント化を行うことによって、複数のスケールおよび2つのマーカ型からのセグメント化の結果を合併する。
【0099】
[0120] 他の実施形態では、前景セグメント化マスクを計算し(ステップ322)、生成した前景セグメント化マスクを使用して、未標識画像をフィルタリングして個々の細胞を識別する(ステップ323)。ある実施形態では、前景セグメント化マスクを生成するには、米国特許出願公開第2017/0337596号に記載されている方法を使用する。具体的には、US2017/0337596号は、(1)(a)核を有しそうもない画像領域を破棄し、(b)局所領域内にある核を識別するように、画像を強調するためにフィルタを適用し、(2)更に選択的にアーチファクトを除去し、小さいブロブを除去し、不連続を除去し、孔を埋め、より大きなブロブを分割するために、随意のフィルタを適用することによる、 前景セグメント化の計算について記載する。ある実施形態では、適用するフィルタは、大域二値化フィルタ(global thresholding filter)、局所適応二値化フィルタ、形態学処理フィルタ、および分水界変換フィルタから成る一群から選択される。ある実施形態では、大域二値化フィルタを最初に適用し、その後局所適応二値化フィルタの適用が続く。ある実施形態では、選択的にアーチファクトを除去し、小さいブロブを除去し、不連続を除去し、孔を埋め、より大きなブロブを分割する随意のフィルタが、局所適応二値化フィルタの適用後に適用される。ある実施形態では、個々の核の識別は、更に、フィルタ処理した入力画像に対して、接続成分標識付けプロセス(connected-components labeling process)を実行することを含む。
【0100】
[0121] 次に、訓練済み多層ニューラル・ネットワーク220に未標識画像を供給する(ステップ324)。尚、多層ニューラル・ネットワーク220は、未標識画像内に存在する(または存在することが疑われる)細胞の型を分類するように訓練されていることは、当業者には認められよう。例えば、乳癌試料においてリンパ球および腫瘍細胞を認識および分類するようにネットワークが訓練された場合、未標識画像も乳癌試料のものでなければならない。ある実施形態では、多層ニューラル・ネットワークが、複数型の癌から得られた試料画像(単純または多重)によって訓練され、その特定の型の癌からの試料画像を分類してもよい。訓練済み多層ニューラル・ネットワークに未標識画像を供給した後、ネットワークは画素レベルで予測的分類を示す。即ち、未標識画像内にある各画素に、特定の予測可能な細胞型の標識、例えば、腫瘍細胞、間質細胞等が割り当てられる。
【0101】
[0122] 次に、画素レベルの予測分類を使用して、識別された各細胞に標識を割り当てる(ステップ325)。ある実施形態では、識別された個々の細胞各々への細胞標識の割り当ては、(i)識別された個々の細胞内において各予測分類標識を支持する画素の数を定量化するステップと、(ii)細胞標識として、最も大きな量を有する予測標識を割り当てるステップとを含む。ある実施形態では、生成した前景マスクを未標識画像上に重ね合わせてもよく、任意の領域(即ち、識別された細胞)内にある異なる予測画素標識の各々を定量化してもよく、次いで、最も大きな量を有する予測標識を細胞標識として選択する。例えば、識別された特定の細胞が合計100個の画素を含み、これらの全画素の内55個が腫瘍細胞画素であると予測され、これらの全画素の内40個が間質細胞であると予測され、これらの全画素の内5個がリンパ球であると予測された場合、この細胞には腫瘍細胞の標識が割り当てられる。何故なら、画素の過半数が腫瘍細胞画素であると予測されたからである。あるいは、前景セグメント化が行われない場合、標識割り当ての間、確定した核中心を利用してもよい(即ち、中心周囲の小さな半径の円、例えば、約5画素の半径を有する円で画素を集合化する)。この場合、過半数画素の標識が細胞の標識として使用される。
【0102】
[0123] 細胞標識の割り当てに続いて、画像を更に評価することができる(ステップ326)。例えば、ある実施形態では、採点モジュールを採用して1つ以上の発現スコアを生成してもよい。採点方法は、2013年12月19日に出願され "Image analysis for breast cancer prognosis"(乳癌予後のための画像分析)と題し、本願と同じ譲受人に譲渡された係属中の特許出願WO/2014/102130A1、および2104年3月12日に出願され"Tissue object-based machine learning system for automated scoring of digital whole slides"(ディジタル・ホール・スライドの自動採点のための組織オブジェクトに基づく機械学習システム)と題し、本願と同じ譲受人に譲渡された係属中の特許出願WO/2014/140085A1において、更に詳しく記載されている。例えば、検出された陽性および陰性腫瘍細胞/核に基づいて、マーカ陽性率のような種々のスライド・レベルのスコアを、1つ以上の方法を使用して、計算することができる。
【0103】
[0124] ある実施形態では、特定の対象領域または視野に対して採点を判定してもよい。対象領域またはFOVは、病理学者または医療専門家によって手作業で選択してもよく、あるいは未標識画像内の形態に基づいて自動的に選択してもよい(例えば、米国特許出願公開第2017/0154420号を参照のこと)。
【0104】
[0125] 他の実施形態では、分類結果を未標識画像上に重ね合わせてもよい。例えば、未標識画像内にある各細胞に、色または他の指標(
図4のパネル(C)および
図5のパネル(C)参照)で標識付けしてもよい。
図4および
図5は、領域に手作業で注釈付けしたグラウンド・トゥルース画像の例を示す。同様に、従前からの方法(例えば、本明細書において説明したような放射相称)を使用して核の中心を検出し、検出した各中心の周囲において、関連する細胞マスクとして、前景セグメント化を行った。従前からの分類器(本明細書において説明した)を使用して、標識を細胞に割り当てた。次に、これらの割り当てられた標識を、病理学者によって、画像注釈付けプラットフォームを使用して、手作業で訂正した(誤った分類があった場合)。
【0105】
例
[0126] 本明細書において概説した種々のステップを例示するために、非限定的な例を示す。
【0106】
背景
[0127] HER2-標的治療およびアンスラサイクリン系化学療法に対する反応を予測するバイオマーカが、個別患者看護のために必要である。腫瘍浸潤リンパ球(TIL: tumor infiltrating lymphocytes)の組織学に基づく評価は、乳癌において予後を予測し、潜在的に治療を予測する(therapy-predictive)と思われる。しかしながら、TIL、腫瘍細胞、他の微小環境メディエータ、これらの空間的関係、量、およびその他の画像に基づく特徴の相互作用(interplay)は、未だこれらの医学的必要性のコンテキストでは網羅的および系統的に判定されていない。患者コホート(patient cohort)におけるこれらの態様を定量化し調査するために、乳癌のH&E組織ホール・スライド画像の領域レベルおよび細胞レベル双方のセグメント化ならびに分類のために、深層学習に基づく画像分析アルゴリズムを開発した。
【0107】
方法論:全体像
[0128] 深層学習(DL)とは、顕著な特徴を自動的に発見し異なる対象構造間で区別する(discriminate)ように、多層(深層)畳み込みニューラル・ネットワークを訓練する機械学習手法である。H&E画像の自動解釈について、腫瘍細胞、間質細胞、およびリンパ球細胞、ならびに腫瘍領域および間質領域を識別し、他の領域(例えば、壊死、アーチファクト)を拒絶することを定めた。1つの深層ネットワークを、画素レベルにおける複合領域および細胞分類のために訓練した。領域レベルのグラウンド・トゥルースに手作業で注釈付けした。しかしながら、手作業で各細胞に注釈付けするのは厄介であり、誤りが起こり易い。この問題を軽減するために、半自動方法を使用し、画像分析アルゴリズムによって出力された偽分類を、病理学者が手作業で訂正する。
【0108】
方法論:深層学習訓練および有効性判断
[0129] ネットワークを訓練するために、領域および細胞注釈付け(~20,000領域、500,000細胞、2×108画素@0.5μmのために、倍率を20倍とした20枚のホール・スライド画像を使用した。
【0109】
[0130] 有効性を判断するために、8枚のホール・スライドにおいて、ホール・スライド当たり、~1mm×1mmの4つの小領域(~10,000領域、200,000細胞、108画素)を使用した。図 および図 を参照のこと(細胞に対するカラー・コード化:腫瘍(緑)、間質(黄色)、リンパ球(赤)、領域に対するカラー・コード化:腫瘍(シアン)、間質(黄色)、リンパ(赤)、アーチファクト(濃い青))。
結果
[0131] 2つの実験において、開発したアルゴリズムを病理学者のグラウンド・トゥルースと比較した。
【0110】
[0132] 最初の実験において、6通りのH&E乳癌症例において、20倍の倍率で14箇所の小領域(smaller regions)に注釈付けした。2人の病理学者が手作業で~9000細胞にグラウンド・トゥルースとして注釈を付けた。アルゴリズム比較のため、2人の病理学者からのグラウンド・トゥルース注釈の内、一致したものだけを残し、それ以外は無視した。
【0111】
【0112】
[0133] 2番目の実験において、グラウンド・トゥルース10,000領域および200,000細胞に半自動手法(本開示)を使用した。ひとりの病理学者が、曖昧な細胞標識を全く破棄せずに、特徴に基づく方法によって出力された細胞標識を目視で再検討し訂正した。
【0113】
【0114】
[0134] 領域レベルのグラウンド・トゥルースの有効性判断のためには、間質エリアおよびリンパ球エリアのような重複する異質領域は、病理学者が地域的に明確に輪郭を明示する場合の課題となる。したがって、これらの領域を組み合わせる計算精度を評価した。
【0115】
【0116】
[0135] 以上の結果を考慮して、本出願人は、深層畳み込みニューラル・ネットワークを含む新規でロバストな方法は、H&E乳癌画像における領域および細胞の複合分類ために実現可能であることを実証した。
【0117】
[0136] 結果を
図7および
図8に示す。
図7を参照すると、細胞を検出し、セグメント化し、病理学者によって手作業で注釈が付けられた領域において、本明細書において説明した半自動手法を使用して、細胞分類標識を生成する。図示する細胞標識は、細胞レベルであり、即ち、1つの輪郭を反映する1つの接続ブロブに対応する全ての画素に対して、共通して割り当てられた細胞標識を示す。領域レベル標識は、画素レベルである。即ち、1つの領域カテゴリに属する全ての画素が1つの特定の色で示されている。標識はカラー・コード化されている。腫瘍細胞、リンパ球、間質細胞は、それぞれ、緑、赤、黄色で示されている。下側の画像は、訓練した多層ニューラル・ネットワークを使用して試料画像を分類した結果である。領域標識画像は右下に示されており、細胞レベル標識画像は左下に示されている。領域標識画像は画素レベルで示されており、細胞標識画像は細胞レベルで細胞分類標識を示す。本明細書において説明したように、多層ニューラル・ネットワークは、分類された画像を出力し、画素毎に複合(領域、細胞)標識を割り当てる。追跡ステップにおいて、画素毎に、複合標識を2つの異なる標識、細胞標識および領域標識に分離する。次のステップにおいて、核/細胞中心位置を追加入力として、細胞毎の関連する前景ブロブ・セグメント化マスクと共に取り込み、画素レベルの細胞標識から集計された細胞毎に(細胞レベルで)分類標識を導き出す。
【0118】
本開示の実施形態を実施するための他のコンポーネント
[0137] 本開示のシステムおよび方法と共に使用することができる他のコンポーネント(例えば、システムまたはモジュール)について、以下に説明する。
【0119】
分離モジュール
[0138] ある実施形態では、入力として受け取られた画像は多重画像であってもよい。即ち、受け取られた画像が、1つよりも多い染料によって染色された生体試料のものでもよい。これらの実施形態では、そして更に処理する前に、多重画像(multiple image)を最初にその構成チャネルに分離する。各分離チャネルは個々の染料またはシグナルに対応する。ある実施形態では、分離画像(「チャネル画像」または「画像チャネル画像」と呼ばれることも多い)が、本明細書において説明する各モジュールに対する入力として使用されてもよい。例えば、インターマーカ異質性は、第1H&E画像、複数の分化マーカのクラスタ(CD3、CD8等)を求めて染色された第2多重画像、および個々のバイオマーカ(例えば、ER、PR、Ki67等)を求めて各々染色された複数の単純画像によって判定されてもよい。この例では、多重画像は最初にその構成チャネル画像に分離され、これらのチャネル画像がH&E画像および複数の単純画像と共に使用され、インターマーカ異質性を判定することができる。
【0120】
[0139] ある実施形態では、1つ以上の染料およびヘマトキシリンを含む試料において、1つ以上の染料およびヘマトキシリンのチャネル毎に個々の画像を生成することができる。いずれの特定の理論にも束縛されることを望むのではないが、これらのチャネルは組織画像において異なる組織構造を強調するので、つまり、これらを構造的画像チャネルと呼んでもよいと考えられる。ある実施形態では、分離によって少なくともヘマトキシリン画像チャネル画像が得られる。ある実施形態では、取得画像を、ヘマトキシリンの局所量を表し画像内部における核領域を強調する別個のチャネルに分離する。尚、これらのチャネルから抽出される特徴は、組織のいずれの画像内においても、存在する異なる生体構造を記述するのに有用であることは、当業者には認められよう。
【0121】
[0140] 撮像システム202によって供給されるマルチスペクトル画像は、個々のバイオマーカおよびノイズ成分と関連付けられた基礎スペクトル信号(underlying spectral signal)の加重混合である。任意の特定の画素において、混合重みは、組織内の特定の位置における基礎共存バイオマーカ(co-localized biomarker)のバイオマーカ発現、およびその位置における背景ノイズに比例する。つまり、混合重みは画素毎に異なる。本明細書におけるスペクトル分離方法(spectral unmixing method)は、各画素におけるマルチチャネル画素値ベクトルを、構成要素であるバイオマーカ端成分(members or components)の集合体に分解し、バイオマーカの各々について個々の構成染料の割合を推定する。
【0122】
[0141] 分離とは、測定された混合画素のスペクトルを、構成スペクトルまたは端成分の集合体、および画素内に存在する各端成分の割合を示す、1組の対応する端数または存在度に分解する手順である。具体的には、分離プロセスは、染料特異チャネルを抽出して、標準的な型の組織および染色の組み合わせについてよく知られている基準スペクトルを使用して、個々の染色の局所濃度を判定することができる。分離は、対照画像(control image)から検索した基準スペクトル、または観察対象画像から推定した基準スペクトルを使用してもよい。各入力画素の成分信号を分離することによって、H&E画像におけるヘマトキシリン・チャネルおよびエオシン・チャネル、またはIHC画像におけるジアミノベンジジン(DAB)チャネルおよび対比染色(例えば、ヘマトキシリン)チャネルというような、染料特異チャネルの検索および分析が可能になる。「分離」(unmixing)および「カラー・デコンボリューション」(color deconvolution)(または「デコンボリューション」)等の用語(例えば、「デコンボリュートする」、「分離された」)は、当技術分野では相互交換可能に使用される。
【0123】
[0142] ある実施形態では、線形分離(liner unmixing)を使用して、分離モジュール205によって多重画像を分離する。線形分離については、例えば、Zimmermann "Spectral Imaging and Linear Unmixing in Light Microscopy" (光顕微鏡におけるスペクトル撮像および線形分離)Adv Biochem Engin/Biotechnol (2005) 95:245-265'、および C. L. Lawson and R. J. Hanson,"Solving least squares Problems"(最少二乗問題の解決), PrenticeHall, 1974, Chapter 23, p. 161に記載されている。線形染色分離では、任意の画素において測定されたスペクトル(S(λ))は、染色スペクトル成分の線形混合と見なされ、その画素において発現されている個々の染色各々の色基準(R(λ))の割合または重み(A)の合計に等しい。
【0124】
【0125】
これは、以下のように、行列形態にすると一層一般的に表すことができる。
【0126】
【0127】
[0143] 取得されたMチャネルの画像と、N種類の個々の染色とがある場合、M×N行列Rの列は、本明細書において導き出されるような最適色空間(optimal color system)であり、N×1ベクトルAは、個々の染色から同定すべき試料の割合(the unknown of the proportions of individual stains)であり、M×1ベクトルSは画素において測定されたマルチチャネル・スペクトル・ベクトルである。これらの式において、多重画像の取得中に各画素(S)における信号を測定し、本明細書において説明するように、基準スペクトル、即ち、最適色空間を導き出す。種々の染色(Ai)の寄与は、測定されたスペクトルにおける各点に対するそれらの寄与を計算することによって決定することができる。ある実施形態では、逆最少二乗当てはめ手法を使用して解を得る。この手法は、以下の1組の式を解くことによって、測定されたスペクトルと計算されたスペクトルとの間の二乗差を最小化する。
【0128】
【0129】
[0144] この式において、jは検出チャネルの数を表し、iは染色の数に等しい。線形方程式を解くとき、重み(A)を合計すると1になることを強制するために、分離の制約を許容することを伴う場合が多い。
【0130】
[0145] 他の実施形態では、2014年5月28日に出願され、"Image Adaptive Physiologically Plausible Color Separation"(画像適応型の生理学的に妥当な色分離)と題するWO2014/195193に記載されている方法を使用して、分離を遂行する。概略的に、WO2014/195193は、繰り返し最適化される基準ベクトルを使用して、入力画像の成分信号を分離することによる分離方法について記載する。ある実施形態では、アッセイからの画像データを、アッセイの特性に特異的な予測結果または理想的な結果と相関付けて、品質メトリックを判定する。画質が低い場合、または理想的な結果に対して相関が低い場合、行列Rにおける1つ以上の基準列ベクトルを調節し、調節した基準ベクトルを繰り返し使用して、相関が、生理的および解剖学的要件に一致する高品質の画像を示すまで、分離を繰り返す。解剖学的情報、生理学的情報、およびアッセイ情報を使用して、品質メトリックを判定するために測定画像データに適用される規則を定めることができる。この情報は、どのように組織が染色されたか、組織の中のどの構造が染色されることを意図したか、または意図しなかったか、そして構造、染色、および処理されるアッセイに特異的なマーカの間の関係を含む。繰り返しプロセスの結果、染色特異ベクトルが得られ、これらのベクトルは、対象構造を精度高く識別する画像、および生物学的に関連する情報を生成することができ、ノイズや望ましくないスペクトルを全く含まず、したがって分析に適している。基準ベクトルは、検索空間内部で調節される。検索空間は、基準ベクトルが染色を表すために取ることができる値の範囲を定める。既知の問題または共通して起こる問題を含む種々の代表的訓練アッセイをスキャンし、訓練アッセイのために高品質の複数組の基準ベクトルを決定することによって、検索空間を決定することができる。
【0131】
[0146] 他の実施形態では、2015年2月23日に出願され、"Group Sparsity Model for Image Unmixing,"(画像分離用グループ・スパシティ・モデル)と題するWO2015/124772に記載された方法を使用して、分離を遂行する。概略的に、WO2015/124772は、グループ・スパシティ・フレームワークを使用する分離について記載し、複数のコロケーション・マーカ(colocation marker)からの複数の染色寄与の端数が「同じグループ」内でモデル化され、複数の非コロケーション・マーカ (non-colocation marker) からの染色寄与の端数が異なるグループにおいてモデル化され、複数のコロケーション・マーカの共存情報を、モデル化されたグループ・スパシティ・フレームワークに提供し、グループ・ラッソを使用して、モデル化されたフレームワークを解いて、各グループ内において最少二乗解を求める。最少二乗解は、コロケーション・マーカの分離に対応し、グループ間において、非コロケーション・マーカの分離に対応する疎解を求める。更に、WO2015/124772は、生体組織試料から得られた画像データを入力することによる分離方法について記載し、電子メモリから基準データを読み出し、基準データが複数の染料の各々の染色(stain color)を記述し、電子メモリからコロケーション・データを読み出し、コロケーション・データが染料のグループを記述し、各グループが、生体組織試料において収集することができる染料を含み、各グループがグループ・ラッソ基準のためのグループを形成し、これらのグループの内少なくとも1つが2以上のサイズを有し、基準データを基準行列として使用して分離画像を得るために、グループ・ラッソ基準の解を計算する。ある実施形態では、画像を分離する方法は、グループ・スパシティ・モデルを生成するステップを含んでもよく、共存マーカからの染色寄与の端数が1つのグループ内において割り当てられ、非共存マーカからの染色寄与の端数が別個のグループ内において割り当てられ、分離アルゴリズムを使用してグループ・スパシティ・モデルを解いて、各グループ内において最少二乗解を求める。
【0132】
他のシステム・コンポーネント
[0147] 本開示のシステム200は、組織標本上で1つ以上の調製プロセスを実行することができる標本処理装置に関連付けることもできる。調製プロセスは、限定ではなく、標本を脱パラフィンし、標本をコンディショニングし(例えば、細胞コンディショニング)、標本を染色し、抗原賦活化を実行し、免疫組織化学染色(標識付けを含む)または他の反応を実行し、および/またはイン・サイチュー・ハイブリダイゼーション(例えば、SISH、FISH等)染色(標識付けを含む)もしくは他の反応を実行し、更には、顕微鏡検査、微細分析、質量分光分析法、または他の分析方法のために標本を調製する他のプロセスを実行することを含むことができる。
【0133】
[0148] 処理装置は、定着剤を標本に適用することができる。定着剤は、架橋剤(アルデヒド、例えば、ホルムアルデヒド、パラホルムアルデヒド、およびグルタルアルデヒド、ならびに非アルデヒド架橋剤のようなもの)、酸化剤(例えば、四酸化オスミウムおよびクロム酸のような、金属イオンおよび複合体)、タンパク質変性剤(例えば、酢酸、メタノールおよびエタノール)、未確認メカニズムの定着剤(fixatives of unknown mechanism)(例えば、塩化第二水銀、アセトンおよびピクリン酸)、組合せ試薬(例えば、カルノア固定液、メタカーン、ブアン液、B5定着剤、ロスマンの液体およびジャンドルの液体)、マイクロ波、および種々雑多な定着剤(例えば、体積固定および蒸気固定を除く)を含むことができる。
【0134】
[0149] 標本がパラフィン埋め込み試料である場合、適切な脱パラフィン液(1つまたは複数)を使用してこの試料を脱パラフィンすることができる。パラフィンを除去した後、任意の数の物質を連続的に標本に適用することができる。物質は、前処置(例えば、タンパク質架橋を逆にする、核酸を露出させる等)、変性、ハイブリダイゼーション、洗浄(例えば、ストリンジェンシ洗浄)、検出(例えば、視覚、またはマーカ分子をプローブにリンクする)、増幅(例えば、タンパク質、遺伝子等を増幅する)、対比染色、封入処理等のためとすることができる。
【0135】
[0150] 標本処理装置は、広範囲の物質を標本に適用することができる。これらの物質は、限定ではなく、染料、プローブ、試薬、リンス、および/またはコンディショナを含む。これらの物質は、流体(例えば、気体、液体、または気体/液体混合物)等とすることができる。流体は、溶媒(例えば、極性溶媒、非極性溶媒等)、溶液(例えば、水溶液または他のタイプの溶液)等とすることができる。試薬は、限定ではなく、 染料、湿潤剤、抗体(例えば、モノクロナール抗体、ポリクロナール抗体等)、抗原回復流体(例えば、水性または非水性系抗原光源緩衝液(retrieval solutions)、抗原回復緩衝剤(buffer)等)等を含むことができる。プローブは、検出可能な標識またはレポーター分子に付着した(attached)単離核酸または単離合成オリゴヌクレオチドとすることができる。標識は、放射性同位体、酵素基質、補因子、リガンド、化学発光または蛍光剤、ハプテン、および酵素を含むことができる。
【0136】
[0151] 標本を処理した後、ユーザは、標本支持スライドを撮像装置に移送することができる。ある実施形態では、撮像装置は明視野撮像スライド・スキャナである。明視野撮像装置の1つに、Ventana Medical Systems,Inc.が販売するiScan Coreo明視野スキャナがある。自動化された実施形態では、撮像装置は、IMAGING SYSTEM AND TECHNIQUES(撮像システムおよび技法)と題する国際特許出願第PCT/US2010/002772号(特許公表第WO/2011/049608号)に開示されるような、または2011年9月9日出願され、IMAGING SYSTEMS, CASSETTES, AND METHODS OF USING THE SAME(撮像システム、カセット、およびこれらの使用方法)と題する米国特許出願第61/533,114号に開示されるようなディジタル病理デバイスである。
【0137】
[0152] 撮像システムまたは装置は、蛍光顕微鏡システムまたはマルチスペクトル撮像(MSI)システムであってもよい。本明細書において使用する撮像システムはMSIである。一般に、 MSIは、病理標本の分析のためにコンピュータ化顕微鏡ベース撮像システムを装備し、画素レベルにおける画像のスペクトル分布の利用法を提供する。種々のマルチスペクトル撮像システムが存在するが、これらのシステムの全てに共通する動作的態様はマルチスペクトル画像を形成する能力である。マルチスペクトル画像とは、電磁スペクトルにわたる特定の波長または特定のスペクトル帯域幅において画像データをキャプチャした画像である。これらの波長は、光学フィルタによって選別することができ、または、例えば、赤外線(IR)のような可視光範囲を超える波長における電磁放射光線を含む所定のスペクトル成分を選択することができる他の機器の使用によって選別することができる。
【0138】
[0153] MSIシステムは、光学撮像システムを含むことができ、その一部が、所定数Nの離散光帯域を定めるように調整可能な(tunable)スペクトル選択システムを内蔵する。この光学システムは、光検出器上に広帯域光源によって透過照明される組織試料を撮像するように構成する(adapt)ことができる。光学撮像システムは、一実施形態では、例えば、顕微鏡のような拡大システムを含むことができ、この光学システムの1つの光出力と空間的にほぼ一直線状である1本の光軸を有する。このシステムは、スペクトル選択システムが、異なる離散スペクトル帯域において画像が取得されることを確保するように調節または調整される(例えば、コンピュータ・プロセッサによって)に連れて、組織の画像のシーケンスを形成する。加えて、本装置はディスプレイも含むことができ、このディスプレイにおいて、取得された画像のシーケンスから、少なくとも1つの視覚的に知覚可能な組織の画像が現れる。スペクトル選択システムは、回折格子、薄膜干渉フィルタのような光学フィルタの集合体、あるいはユーザ入力または予めプログラミングされているプロセッサのコマンドのいずれかに応答して、光源から試料を透過して検出器に向かう光のスペクトルから特定の通過帯域を選択するように構成された任意の他のシステムのような、光分散素子を含むことができる。
【0139】
[0154] 代替実施態様では、スペクトル選択システムは、N個の離散スペクトル帯域に対応する様々な光出力を定める。この型式のシステムは、光学システムからの透過光出力を取り込み、識別されたスペクトル帯域内の試料を検出システム上に、この識別されたスペクトル帯域に対応する光路に沿って撮像するような方法で、この光出力の少なくとも一部を、N本の空間的に異なる光路に沿って空間的に方向転換させる。
【0140】
[0155] 本明細書において説明した主題および動作の実施形態は、ディジタル電子回路において、あるいは本明細書に開示する構造およびその構造的同等物を含めて、コンピュータ・ソフトウェア、ファームウェア、またはハードウェアにおいて、あるいは1つ以上のこれらの組み合わせにおいて、実現することができる。本明細書において説明した主題の実施形態は、1つ以上のコピュータ・プログラム、即ち、データ処理装置によって実行するため、またはデータ処理装置の動作を制御するためにコンピュータ記憶媒体上にエンコードされる、1つ以上のコンピュータ・プログラム命令のモジュールとして実現することができる。本明細書において説明したモジュールの内任意のものは、プロセッサ(1つまたは複数)によって実行されるロジックを含むこともできる。「ロジック」とは、本明細書において使用される場合、プロセッサの動作に作用ために適用することができる命令信号および/またはデータの形態を有する任意の情報を指す。ソフトウェアは、ロジックの一例である。
【0141】
[0156] コンピュータ記憶媒体は、コンピュータ読み取り可能記憶デバイス、コンピュータ読み取り可能記憶基板、ランダムまたは連続アクセス・メモリ・アレイもしくはデバイス、あるいはその1つ以上の組み合わせであることが可能であり、更にはこれらに含まれることも可能である。更に、コンピュータ記憶媒体は伝播信号ではないが、コンピュータ記憶媒体は、人工的に生成された伝播信号にエンコードされたコンピュータ・プログラム命令の供給源または宛先であることが可能である。また、コンピュータ記憶媒体は、1つ以上の別個の物理コンポーネントまたは媒体(例えば、複数のCD、ディスク、または他の記憶デバイス)であることも可能であり、あるいはこれらに含まれることも可能である。本明細書において説明した動作は、1つ以上のコンピュータ読み取り可能記憶デバイス上に格納されているデータ、または他のソースから受け取られたデータに対して、データ処理装置によって実行される動作として実現することができる。
【0142】
[0157] 「プログラミングされたプロセッサ」という用語は、データを処理するためのあらゆる種類の装置、デバイス、および機械を含み、例えば、プログラム可能なマイクロプロセッサ、コンピュータ、1つまたは複数のシステム・オン・チップ、あるいは以上のものの組み合わせを包含する。前述の装置には、特殊用途のロジック回路、例えば、FPGA(フィールド・プログラマブル・ゲート・アレイ)またはASIC(特定用途集積回路)を含むことができる。また、前述の装置には、ハードウェアに加えて、対象のコンピュータ・プログラムのための実行環境を形成するコード、例えば、プロセッサ・ファームウェア、プロトコル・スタック、データベース管理システム、オペレーティング・システム、クロスプラットフォーム・ランタイム環境、仮想機械、あるいはこれらの1つ以上の組み合わせを構成するコード含むことができる。前述の装置および実行環境は、ウェブ・サービス、分散型コンピューティング、およびグリッド・コンピューティング・インフラストラクチャのような、種々の異なるコンピューティングモデル・インフラストラクチャを実現することができる。
【0143】
[0158] コンピュータ・プログラム(別名プログラム、ソフトウェア、ソフトウェア・アプリケーション、スクリプト、またはコード)は、コンパイラ型またはインタープリタ型言語、宣言型または手続き型言語を含む、任意の形式のプログラミング言語で書くことができ、更にこれは、単体プログラムとして、あるいはモジュール、コンポーネント、サブルーチン、オブジェクト、またはコンピューティング環境における使用に適した他のユニットとしてを含む、任意の形態でデプロイすることができる。コンピュータ・プログラムは、ファイル・システムにおけるファイルに対応することができるが、そうする必要はない。プログラムは、他のプログラムまたはデータ(例えば、マークアップ言語文書中に格納される1つ以上のスクリプト)を保持するファイルの一部に格納されてもよく、対象のプログラムに専用に割り当てられる1つのファイルに格納されてもよく、あるいは複数の調整されたファイル(例えば、1つ以上のモジュール、サブプログラム、またはコードの一部を格納するファイル)に格納されてもよい。コンピュータ・プログラムは、1つのコンピュータ上で、あるいは1つのサイトに位置するか、または複数のサイトにまたがって分散され、そして通信ネットワークによって相互接続される、複数のコンピュータ上で実行されるようにデプロイすることもできる。
【0144】
[0159] 入力データに対して動作し、出力を生成することによって、アクションを実行する1つ以上のコンピュータ・プログラムを実行する1つ以上のプログララマブル・プロセッサによって、本明細書に記載したプロセスおよびロジック・フローを実行することができる。また、プロセスおよびロジック・フローは、特殊用途のロジック回路、例えば、FPGA(フィールド・プログラマブル・ゲート・アレイ)またはASIC(特定用途集積回路)によって実行することもでき、更に、装置もこうしたロジック回路として実装することができる。
【0145】
[0160] コンピュータ・プログラムの実行に適したプロセッサは、例えば、汎用および特殊用途マイクロプロセッサの双方、ならびに任意の種類のディジタル・コンピュータの任意の1つ以上のプロセッサも含まれる。一般に、プロセッサは、命令およびデータを読み取り専用メモリまたはランダム・アクセス・メモリあるいは両方から受け取る。コンピュータの必須要素は、命令にしたがって動作を実行するためのプロセッサ、ならびに命令およびデータを記憶するための1つ以上のメモリ・デバイスである。一般に、コンピュータはデータを記憶するための1つ以上の大容量記憶デバイス、例えば、磁気、光磁気ディスク、または光ディスクも含み、あるいはこのようなデバイスからデータを受け取るようにまたはこのようなデバイスにデータを転送するように、あるいは双方を行うように動作可能に結合される。しかしながら、コンピュータはこのようなデバイスを有する必要はない。更に、いくつか例をあげると、コンピュータは、他のデバイス、例えば、移動体電話、パーソナル・ディジタル・アシスタント(PDA)、移動体オーディオまたはビデオプレーヤ、ゲーム・コンソール、全地球測位システム(GPS)受信機、あるいは携帯用記憶デバイス(例えば、ユニバーサル・シリアル・バス(USB)フラッシュ・ドライブ)に埋め込むことができる。コンピュータ・プログラム命令およびデータを記憶するのに適したデバイスには、すべての形式の不揮発性メモリ、媒体、およびメモリ・デバイスが含まれ、一例として、半導体記憶デバイス、例えば、EPROM、EEPROM、およびフラッシュ・メモリ・デバイス、磁気ディスク、例えば、内部ハード・ディスクまたはリムーバブル・ディスク、光磁気ディスク、ならびにCD-ROMおよびDVD-ROMディスクが含まれる。プロセッサおよびメモリは、特殊用途ロジック回路によって補充すること、またはこのロジック回路に組み込むこともできる。
【0146】
[0161] ユーザとの対話処理に備えるため、本明細書において説明した主題の実施形態は、ユーザに情報を表示するためのディスプレイ・デバイス、例えば、LCD(液晶ディスプレイ)、LED(発光ダイオード)ディスプレイ、またはOLED(有機発光ダイオード)ディスプレイ、ならびにユーザがコンピュータに入力を供給することができるキーボードおよびポインティング・デバイス、例えば、マウスまたはトラックボールを有するコンピュータ上に実装することができる。ある実施態様では、タッチスクリーンを使用して情報を表示し、そしてユーザからの入力を受け取ることができる。また、他の種類のデバイスを使用して、ユーザとの対話処理に備えることもできる。例えば、ユーザに提供されるフィードバックは、任意の形式の感覚フィードバック、例えば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバックとすることができ、そしてユーザからの入力を、音響入力、音声入力、または触覚入力を含む任意の形式で受け取ることができる。加えて、コンピュータは、ユーザが使用するデバイスに文書を送り、そしてこのデバイスから文書を受け取ることによって、例えば、ウェブ・ブラウザから受けた要求に応じて、ユーザのクライアント・デバイス上のウェブ・ブラウザにウェブ・ページを送ることによって、ユーザと対話処理することができる。
【0147】
[0162] 本明細書において説明した主題の実施形態は、例えば、データ・サーバのようなバック・エンド・コンポーネントを含むコンピューティング・システム、あるいはミドルウェア・コンポーネント、例えば、アプリケーション・サーバを含むコンピューティング・システム、あるいはフロント・エンド・コンポーネント、例えば、ユーザが本明細書において説明した主題の実施態様と相互作用することができるグラフィカル・ユーザ・インターフェースまたはウェブ・ブラウザを有するクライアント・コンピュータを含むコンピューティング・システム、あるいは1つ以上のこのようなバックエンド、ミドルウェアまたはフロント・エンド・コンポーネントの任意の組み合わせ含むコンピューティング・システムにおいて、実現することができる。任意の形式または媒体のディジタル・データ通信、例えば、通信ネットワークによって、本システムのコンポーネントを相互接続することができる。通信ネットワークの例には、ローカル・エリア・ネットワーク(「LAN」)およびワイド・エリア・ネットワーク(「WAN」)、相互ネットワーク(例えば、インターネット)、ならびにピア・ツー・ピア・ネットワーク(例えば、アドホック・ピア・ツー・ピア・ネットワーク)が含まれる。例えば、
図1のネットワーク20には、1つ以上のローカル・エリア・ネットワークを含むことができる。
【0148】
[0163] コンピューティング・システムには、任意の数のクライアントおよびサーバ含むことができる。クライアントおよびサーバは、通常互いに離れており、そして通信ネットワークを通じて相互作用するのが通例である。クライアントおよびサーバの関係は、それぞれのコンピュータ上で実行され、そして互いにクライアント-サーバ関係を有するコンピュータ・プログラムによって生じる。ある実施形態では、サーバは、データ(例えば、HTMLページ)をクライアント・デバイスに(例えば、クライアント・デバイスと対話処理するユーザにデータを表示し、そしてこのユーザからユーザ入力を受け取る目的で)送信する。クライアント・デバイスにおいて生成されるデータ(例えば、ユーザ対話処理の結果)を、サーバにおいてクライアント・デバイスから受信することができる。
【0149】
[0164] 本明細書において開示した実施形態によれば、多層ニューラル・ネットワークは、LeNet、AlexNet、ZF Net、DetectNet、GoogLeNet、VGGNet、ResNet、VGG16、およびDenseNetから改造される。
【0150】
[0165] 本明細書において開示した実施形態によれば、この方法は、更に、標識付けした個々の細胞毎に、記述的指標を含むオーバーレイを生成するステップを含む。
[0166] 以上、多数の例示的な実施形態を参照しながら本開示について説明したが、本開示の原理の主旨および範囲に該当する数多くの他の変更や実施形態も、当業者によって考案できることは理解されてしかるべきである。更に特定すれば、以上の開示、図面、および添付した請求項の範囲内で、本開示の主旨から逸脱することなく、主題の組み合わせ構成のコンポーネント部分および/または配置において、合理的な変形および変更が可能である。コンポーネント部分および/または配置における変形ならびに変更に加えて、当業者には代替使用も明白であろう。