IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル インコーポレイテッドの特許一覧

特許7422825顕微鏡スライド画像のための焦点重み付き機械学習分類器誤り予測
<>
  • 特許-顕微鏡スライド画像のための焦点重み付き機械学習分類器誤り予測 図1
  • 特許-顕微鏡スライド画像のための焦点重み付き機械学習分類器誤り予測 図2
  • 特許-顕微鏡スライド画像のための焦点重み付き機械学習分類器誤り予測 図3
  • 特許-顕微鏡スライド画像のための焦点重み付き機械学習分類器誤り予測 図4
  • 特許-顕微鏡スライド画像のための焦点重み付き機械学習分類器誤り予測 図5
  • 特許-顕微鏡スライド画像のための焦点重み付き機械学習分類器誤り予測 図6
  • 特許-顕微鏡スライド画像のための焦点重み付き機械学習分類器誤り予測 図7
  • 特許-顕微鏡スライド画像のための焦点重み付き機械学習分類器誤り予測 図8
  • 特許-顕微鏡スライド画像のための焦点重み付き機械学習分類器誤り予測 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-18
(45)【発行日】2024-01-26
(54)【発明の名称】顕微鏡スライド画像のための焦点重み付き機械学習分類器誤り予測
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240119BHJP
   G01N 33/48 20060101ALI20240119BHJP
   G01N 33/483 20060101ALI20240119BHJP
【FI】
G06T7/00 630
G06T7/00 350B
G01N33/48 M
G01N33/483 C
【請求項の数】 20
【外国語出願】
(21)【出願番号】P 2022130055
(22)【出願日】2022-08-17
(62)【分割の表示】P 2021099377の分割
【原出願日】2018-12-17
(65)【公開番号】P2022164718
(43)【公開日】2022-10-27
【審査請求日】2022-08-24
(31)【優先権主張番号】15/972,929
(32)【優先日】2018-05-07
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】マーティン・スタンプ
(72)【発明者】
【氏名】ティモ・コールバーガー
【審査官】笠田 和宏
(56)【参考文献】
【文献】国際公開第2016/030897(WO,A1)
【文献】米国特許出願公開第2016/0350914(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G01N 33/48
G01N 33/483
(57)【特許請求の範囲】
【請求項1】
組織標本またはその一部のデジタル顕微鏡スライドのための分類ラベルを生成するように構成された病気分類器を特徴付けるための方法であって、
(a)焦点が合っていて、かつ画像パッチごとに正解ラベルと関連付けられる、ピクセル画像データのパッチから各々構成された、スライド画像のセットを取得するステップと、
(b)焦点ずれ度合いのセットを定義し、各度合いについて、
(1)前記スライド画像のセット中の画像の前記パッチの各々に、対応する量の合成焦点ずれを適用し、
(2)前記画像中の各パッチについて病気分類誤りを計算し、
(3)前記画像中の前記パッチのすべてにわたって平均誤りを計算するステップと、
(c)ステップ(b)において定義された前記焦点ずれ度合いの場合の前記病気分類器についての予想される誤りとして、ステップ(b)において定義された前記度合いのすべてについて、ステップ(b3)において計算された前記平均誤りを記憶するステップと、
(d)前記セット中の前記スライド画像の各々に対して、ステップ(b1)、(b2)、(b3)、および(c)を繰り返すステップと
を含む、方法。
【請求項2】
前記セット中の前記スライド画像に対して、異なる倍率でステップ(b)、(c)、および(d)を繰り返すステップをさらに含む、請求項1に記載の方法。
【請求項3】
前記異なる倍率が、前記セット中の前記スライド画像をアップサンプリングもしくはダウンサンプリングすることから取得される、請求項2に記載の方法。
【請求項4】
前記異なる倍率が、異なる倍率で身体組織スライドを走査することによって取得される、請求項2に記載の方法。
【請求項5】
ステップ(a)、(b)、(c)、および(d)を、異なる製造業者の複数の異なるスライドスキャナの各々に対して少なくとも1回繰り返すステップをさらに含む、請求項1に記載の方法。
【請求項6】
前記組織標本が、前立腺組織標本を含む、請求項1に記載の方法。
【請求項7】
前記組織標本が、リンパ節標本を含む、請求項1に記載の方法。
【請求項8】
ステップ(b1)で適用される前記合成焦点ずれは、計算によるボケフィルタを使用して適用される、請求項1に記載の方法。
【請求項9】
前記予想される誤りが、前記病気分類器について、1.0マイナス受信者操作特性曲線の下の面積(AUC)によって表される、請求項1に記載の方法。
【請求項10】
前記予想された誤りが、重み付きコーエンのカッパである、請求項1に記載の方法。
【請求項11】
前記予想された誤りを、接続された病理ワークステーションに報告するステップをさらに含む、請求項1に記載の方法。
【請求項12】
ステップ(c)で記憶された前記平均誤りが、焦点ずれの度合い、および関連した予想される病気分類器誤りのテーブルフォーマットで記憶される、請求項1に記載の方法。
【請求項13】
前記病気分類器が、前立腺腺癌グリソン等級付けを行うために使用可能である、請求項1に記載の方法。
【請求項14】
適用される前記合成焦点ずれが、合成ノイズを含む、請求項1に記載の方法。
【請求項15】
前記合成ノイズが、乗法性ポワソンノイズを含む、請求項14に記載の方法。
【請求項16】
適用される前記対応する量の合成焦点ずれが、ある範囲からランダムに選ばれる、請求項15に記載の方法。
【請求項17】
適用される前記合成焦点ずれが、合成ぼかしを含む、請求項1に記載の方法。
【請求項18】
適用される前記対応する量の合成焦点ずれが、ぼかしパラメータにより示される、請求項17に記載の方法。
【請求項19】
前記ぼかしパラメータが、整数値である、請求項18に記載の方法。
【請求項20】
前記整数値が、0から最大値までの範囲にあり、前記最大値が、4、10、または29である、請求項19に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、顕微鏡スライド画像のための機械学習分類器によって生成される分類誤りの予測を生成するための方法に関する。予測される誤りは、画像の一部が焦点ずれ(「OOF」)である度合いによって重み付けされる。
【背景技術】
【0002】
組織病理学の医療分野では、(スライドガラス上に用意された)ヒト組織標本の顕微鏡画像が、癌診断を下すために使用される。代表的な組織病理学では、組織標本は、専門家が顕微鏡を使用することによって視覚的に診断される。対照的に、デジタルパソロジー(digital pathology)のより新しいサブフィールドでは、標本の高解像度デジタル画像が、最初に全スライド(whole-slide)スキャナによって取得され、その後のステップにおいてコンピュータ画面で診断が行われる。代替的に、組織画像中の癌性細胞の識別は、拡大された組織画像中の癌細胞を見つけるように訓練された、一般的に深層畳み込みニューラルネットワークとして具現化される、機械学習アルゴリズムによって支援されることがある。そのようなアルゴリズムは、癌細胞を含んでいると予測されるエリアを示すために、スライドのエリアを対比色、たとえば赤色で示す、いわゆる「ヒートマップ」画像を生成することができる。
【0003】
全スライドスキャナからの組織画像は、一般にギガピクセルサイズ(たとえば、40Xの倍率で100,000x100,000ピクセル)である。しかしながら、主要な技術的問題の1つは、デジタル化された画像の領域が、しばしばぼやけ、焦点ずれであることがあり、それぞれの画像領域を、人間の病理医ならびに機械学習アルゴリズムによる双方の正確な診断に使用できないものにする。正確な焦点を実現することは、全スライドスキャナには、(1)画像をデジタル化するために使用される対物レンズの倍率が高いために、被写界深度が極めて浅い、(2)組織がしばしばでこぼこしており、同じ焦点面にないという理由で、特に困難である。
【0004】
被写界深度は、倍率に反比例し、よって被写界深度は、高倍率では極めて浅いものにすぎない。被写界深度は、「焦点範囲(focus range)」とも示され、特に高倍率では、しばしば、取り込まれる組織の厚さに近いか、それよりもさらに小さい。その上、組織標本は、通常完全に平面的ではなく、でこぼこしており、その厚さもまた一様でないことが多い。そのために、スライドスキャナは通常、より小さいストライプまたはタイルで画像を取り込む間、ローカルオートフォーカス方法を採用し、次いでこれらをデジタル処理で縫い合わせて、全スライド画像を形成する。異なるスキャナ製造業者によって採用されるオートフォーカス解決策のいずれも完全ではなく、むしろ、いくつかの画像領域では組織の大部分を焦点範囲内に維持できず、したがって様々な度合いの焦点ずれのぼやけ(blur)を生じさせる可能性がある。
【0005】
したがってオートフォーカスアルゴリズムの主な課題は、(a)なめらかな外観を持つ組織に起因して、焦点が合っている画像領域がぼやけていることと、(b)焦点ずれの様々な度合いに起因して組織パターンがぼやけていることとを区別することである。第2の課題は、ほこりまたは破片など、「カバースリップ」(組織標本を覆っているプラスチック製またはガラス製のスライド)の上部の異物(foreign particle)に焦点が合い、通常、組織が焦点範囲のはるかに外側となるのを回避することである。
【0006】
組織画像の焦点ずれの度合いを定量化する問題に関係する文献、および関連するトピックは、以下を含む。G. Campanellaら、Towards machine learned quality control: A benchmark for sharpness quantification in digital pathology. Computerized Medical Imaging and Graphics (2017) https://doi.org/10.1016/ j.compmedimag.2017.09.001と、K. Kayserら、How to measure image quality in tissue-based diagnosis (diagnostic surgical pathology), 9th European Congress on Telepathology and 3rd International Congress on Virtual Microscopy, Toledo Spain Diagnostic Pathology 2008 3 (suppl. 1)と、J. Liaoら、Rapid focus map surveying for whole-slide imaging with continues [sic] sample motion, arXiv:1707.03039 [cs.CV] June 2017と、S. Shakeriら、Optical quality assessment of whole-slide imaging systems for digital pathology, Optics Express Vol. 23, Issue 2, pp. 1319-1336 (2015)と、X. Lopexら、An Automated Blur Detection Method for Histological Whole-slide Imaging, PLOS one (December 13, 2013) https://doi.org/10.1371/ journal.pone.0082710と、Samuel Yangら、"Assessing microscope image focus quality with deep learning", BMC Bioinformatics (2018) 19:77と、M. Gurcanら、Histopathological Image Analysis: A Review, IEEE Rev Biomed Eng. 2009; 2: 147-171。
【先行技術文献】
【特許文献】
【0007】
【文献】第PCT/US17/019051号
【文献】米国特許出願第14/839,452号
【文献】米国特許出願第15/395,530号
【非特許文献】
【0008】
【文献】G. Campanellaら、Towards machine learned quality control: A benchmark for sharpness quantification in digital pathology. Computerized Medical Imaging and Graphics (2017) https://doi.org/10.1016/ j.compmedimag.2017.09.001
【文献】K. Kayserら、How to measure image quality in tissue-based diagnosis (diagnostic surgical pathology), 9th European Congress on Telepathology and 3rd International Congress on Virtual Microscopy, Toledo Spain Diagnostic Pathology 2008 3 (suppl. 1)
【文献】J. Liaoら、Rapid focus map surveying for whole-slide imaging with continues [sic] sample motion, arXiv:1707.03039 [cs.CV] June 2017
【文献】S. Shakeriら、Optical quality assessment of whole-slide imaging systems for digital pathology, Optics Express Vol. 23, Issue 2, pp. 1319-1336 (2015)
【文献】X. Lopexら、An Automated Blur Detection Method for Histological Whole-slide Imaging, PLOS one (December 13, 2013) https://doi.org/10.1371/ journal.pone.0082710
【文献】Samuel Yangら、"Assessing microscope image focus quality with deep learning", BMC Bioinformatics (2018) 19:77
【文献】M. Gurcanら、Histopathological Image Analysis: A Review, IEEE Rev Biomed Eng. 2009; 2: 147-171
【文献】C. Szegedyら、Going Deeper with Convolutions, arXiv:1409.4842 [cs.CV] (2014年9月)
【文献】C. Szegedyら、Rethinking the Inception Architecture for Computer Vision, arXiv:1512.00567 [cs.CV] (2015年12月)
【文献】C. Szegedyら、Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning, arXiv:1602.0761 [cs.CV] (2016年2月)
【文献】Samuel Yangら、「Assessing microscope image focus quality with deep learning」, BMC Bioinformatics (2018) 19:77
【文献】http://arxiv.org/abs/1703.02442、Liuら、Detecting Cancer Metastases on Gigapixel Pathology Images, arXiv [cs.CV] (2017)
【文献】Tim McGraw、Fast Bokeh Effects Using Low-Rank Linear Filters, The Visual Computer vol. 31 no. 5 (May 2014)
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明者らは、スライドが焦点ずれである度合いが、機械学習診断または癌細胞識別の精度に影響を及ぼし得ること、および焦点重み付けされた機械学習病気分類器における誤りを定量化する必要があること、すなわち誤りは詳細には、顕微鏡スライド画像の一部が焦点ずれである度合いに起因することを理解した。本開示は、この必要に応える。
【課題を解決するための手段】
【0010】
一態様では、標本の拡大されたデジタル顕微鏡スライド画像についての分類誤りの予測を生成するための方法を開示する。標本は、組織標本(たとえば、前立腺またはリンパ節標本)の形態をとることができるが、他のタイプの標本を使用することができる。この方法は、
(a) 標本を含んでいる顕微鏡スライドをスライドスキャナで走査し、ピクセル画像データの複数のパッチから構成されるデジタル顕微鏡スライド画像を生成するステップと、
(b) デジタル顕微鏡スライド画像についてパッチあたりの焦点ずれ度合いを計算するステップと、
(c) 複数の焦点ずれ度合いについて機械学習分類器の予想される分類器誤り統計量を表すデータを検索するステップと、
(d) ステップ(b)で計算されたパッチあたりの計算された焦点ずれ度合い、およびステップ(c)で検索されたデータに基づいて、デジタル顕微鏡スライド画像のパッチの各々への予想される分類器誤り統計量のマッピングを計算し、それによってパッチの各々について分類器誤り予測を生成するステップと、
(e) パッチのすべてにわたってステップ(d)で生成された分類器誤り予測を統合するステップと
を含む。
【0011】
一構成では、パッチあたりの計算された焦点ずれ度合いは、焦点ずれ(OOF)分類器によって行われる。OOF分類器は、合成的にぼかされた焦点ずれ画像から訓練される。焦点ずれ画像は、(a)データ圧縮およびノイズアーティファクト、(b)並進ジッタ(translational jitter)、ならびに(c)明度摂動(brightness perturbation)のうちの1つまたは複数をシミュレートすることと、(d)計算によるボケフィルタ(computational Bokeh filter)を適用することとによって生成される。一構成では、OOF画像は、(a)、(b)、(c)、および(d)をシミュレートすることによって生成される。
【0012】
別の態様では、
a)顕微鏡スライドのデジタルスライド画像を生成するように適合されたスライドスキャナと、
b)メモリであって、
1)スライドスキャナによって生成されたデジタル顕微鏡スライド画像についてパッチあたりの焦点ずれ度合いを計算するように訓練された畳み込みニューラルネットワーク(OOF分類器)のパラメータ、
2)複数の焦点ずれ度合いについて機械学習分類器の予想される分類器誤り統計量を表すデータ
を記憶する、メモリと、
c)(1)深層畳み込みニューラルネットワークを使用したデジタル顕微鏡スライド画像についてのパッチあたりの焦点ずれ度合い、(2)パッチあたりの計算された焦点ずれ度合いに基づき、デジタル顕微鏡スライド画像のパッチの各々への予想される分類器誤り統計量をマッピングし、それによってパッチの各々について分類器誤り予測を生成すること、および(3)パッチのすべてにわたる分類器誤り予測の統合を、計算するように構成されたコンピュータと
を組み合わせて含む、病理システムを開示する。
【0013】
OOF分類器は、浅層ニューラルネットワーク、たとえば、3つの畳み込み層を有するニューラルネットワーク、または深層ニューラルネットワーク、たとえば10もしくは18の畳み込み層を有するニューラルネットワークの形態をとることができる。上述のように、OOF分類器は、OOF画像から訓練され、OOF画像は、(a)データ圧縮およびノイズアーティファクト、(b)並進ジッタ、(c)明度摂動のうちの1つまたは複数をシミュレートすること、ならびに(d)計算によるボケフィルタを適用することによって生成することができる。一構成では、OOF画像は、(a)、(b)、(c)、および(d)をシミュレートすることによって生成される。
【0014】
一構成では、顕微鏡スライドは、前立腺組織標本を含んでいる。機械学習分類器は、前立腺組織画像の一部にグリソンスコア(Gleason score)を割り当てるように訓練される。別の構成では、組織標本は、乳癌患者から取得したリンパ節標本を含んでいる。この状況では、機械学習分類器は、リンパ節組織画像の一部に、癌/非癌ラベルを割り当てるように訓練される。
【0015】
一構成では、メモリおよびコンピュータは、スライドスキャナにはローカルである。代替的に、メモリおよびコンピュータは、スライドスキャナにはリモートであり、たとえば、スライドスキャナに接続されたローカルエリアネットワーク上のコンピューティング資源に、またはクラウドのサービス提供者コンピューティング資源にある。
【0016】
別の態様では、標本の拡大されたデジタル顕微鏡スライド画像についての分類誤りの予測を生成するための方法を説明する。デジタル顕微鏡スライド画像は、ピクセル画像データの複数のパッチから構成される。この方法は、
(a) デジタル顕微鏡スライド画像についてパッチあたりの焦点ずれ度合いを計算するステップと、
(b) 複数の焦点ずれ度合いについて機械学習分類器の予想される分類器誤り統計量を表すデータを検索するステップと、
(c) ステップ(a)で計算されたパッチあたりの計算された焦点ずれ度合いに基づいて、デジタル顕微鏡スライド画像のパッチの各々への予想される分類器誤り統計量のマッピングを計算し、それによってパッチの各々についての分類器誤り予測を生成するステップと、
(d) パッチのすべてにわたってステップ(c)で生成された分類器誤り予測を統合するステップと
を含む。
【0017】
パッチあたりの焦点ずれ度合いの計算は、畳み込みニューラルネットワーク、たとえば、焦点ずれの度合いによって組織画像のパッチを分類するように訓練された、浅層または深層CNNによって行うことができる。このCNN(本明細書ではOOF分類器)は、上記で説明し、発明を実施するための形態においてさらに詳細に説明するように、合成的にぼかされた画像から訓練される。
【0018】
さらに別の態様では、組織標本またはそれの一部のデジタル顕微鏡スライドのための分類ラベルを生成するように構成された分類器を特徴付けるための方法を開示する。この方法は、
a)焦点が合っている、画像パッチごとに正解ラベル(ground truth label)と関連付けられるピクセル画像データのパッチから各々構成された、スライド画像のセット(図2の「マスター画像」)を取得する(たとえば、APIコールにより受信する)ステップと、
b)焦点ずれ度合いのセットを定義し、各度合いについて、
1)スライドのセット中の画像のパッチの各々に、対応する量の合成焦点ずれを適用し、
2)画像中の各パッチについて分類誤りを計算し、
3)画像中のパッチのすべてにわたって誤り計量(error metric)を計算するステップと、
c)ステップb)において定義された度合いのすべてについて、ステップb)3)において計算された誤り計量を、ステップb)において定義された焦点ずれ度合いについて分類器の予想される誤りとして記憶するステップと、
d)セット中のスライド画像の各々に対して、ステップb1)、b2)、b3)、およびc)を繰り返すステップと
を含む。
ステップb)2)において計算される誤り計量は、平均誤りの形態をとることができる。それはまた、受信者操作特性(ROC)曲線下面積(AUC)計量として計算することができる。この後者の手法は、最初にすべてのパッチにわたってまずROC曲線を計算する必要があり、続いてそれの下の面積(「曲線下面積」)を計算する。したがってそれは、個々のパッチごとに計算されず、統合される計量である。
【0019】
このように、一変形形態では、上記の方法ステップb)において、焦点ずれ度合いのセットを定義し、各度合いについて、方法は、以下のステップ1)~4)を行うことから成る。
1)スライドのセット中の画像のパッチの各々に、対応する量の合成焦点ずれを適用するステップと、
2)分類予測および確率を計算するステップと、
3)すべてのパッチにわたって正解ラベルに対する受信者操作特性(ROC)曲線を計算するステップと、
4)ROC曲線の下の面積(=AUC)を計算するステップ。
【0020】
一実施形態では、方法は、セット中のスライド画像に対して異なる倍率でステップb)、c)、およびd)を繰り返すステップをさらに含んでもよい。これは、異なる倍率のスライド画像についての分類器誤り統計量の生成をもたらす。一実施形態では、方法は、異なる製造業者の複数の異なるスライドスキャナの各々に対して少なくとも1回、ステップa)、b)、c)、およびd)を繰り返すステップをさらに含むことができる。異なる製造業者の異なるスライドスキャナは、異なる質の画像を生成する可能性があり、したがって分類器誤り統計量は、機械によって異なる可能性がある。この実施形態では、本開示の方法が、異なる製造業者からの複数の異なる機械に広く使用され得るように、分類器誤り統計量は、異なるスライドスキャナのセットの各々について取得される。
【0021】
一実施形態では、マスター画像に適用される合成焦点ずれ度合いは、計算によるボケフィルタを使用して取得される。マスター画像を人工的にぼかすための他の方法を使用することができる。我々の実験は、計算によるまたはデジタルのボケフィルタリングが好ましい方法であることを示している。たとえば、合成焦点ずれ度合いは、以下で説明する、OOF分類器の開発で使用されるOOF方法をシミュレートすること(JPG圧縮アーティファクト、明度摂動、および並進ジッタをシミュレートすること)によって生成することができる。
【0022】
別の態様では、焦点ずれ(OOF)分類器および訓練の方法を説明する。OOF分類器は、畳み込みニューラルネットワーク(CNN)の形態であり、深層または浅層CNNとして構成されてもよい。この方法は、訓練画像のセットを合成的にぼかすステップを含む。合成的にぼかされた画像は、(a)データ圧縮(たとえば、JPG圧縮)およびノイズアーティファクト、(b)並進ジッタ、(c)明度摂動、ならびに(d)計算によるボケフィルタリングのうちの1つまたは複数をシミュレートすることと、合成的にぼかされた画像を焦点ずれの度合いによって分類するように、合成的にぼかされた画像でOOF分類器を訓練することとによって作成される。一実施形態では、合成的にぼかされた画像は、(a)、(b)、(c)、および(d)のすべてを使用して作成される。
【図面の簡単な説明】
【0023】
図1】デジタル顕微鏡画像について焦点重み付き病気分類器誤りを予測するプロセスを示すフローチャートである。
図2図1の方法で使用するための予想される病気分類器誤り統計量を生成し、計算するためのプロセスを示すフローチャートである。このフローチャートは、特定の製造業者の特定の全スライドスキャナから取得される、焦点が合っている、正解注釈付きの画像(本明細書では「マスター画像」)のセットに実行される。画像は、ピクセル画像データの複数のパッチで構成される。このプロセスは、予想される病気分類器誤り統計量が、異なる型およびモデルのスライドスキャナ間で異なる場合があるので、異なる製造業者または異なる型およびモデルの異なる全スライドスキャナについて、予想される病気分類器誤り統計量を生成するために、数回繰り返される場合がある。
図3】マスター画像の2つについて、焦点ずれの異なる度合いの、パッチあたりの計算された平均病気分類器誤りの図である。
図4】参照画像のすべてにわたって平均された異なる焦点ずれ度合いについての予想される病気分類器誤り統計量を表すデータの図である。図4に示すデータは、メモリに記憶され、図1および図6の手順により新しいスライドについて焦点重み付き病気分類器誤りを計算するために使用される。
図5】すべてのマスター画像の焦点ずれの度合いについての病気分類器誤りの図である。
図6図2に従って生成された、図4の記憶された誤り統計量を使用して、図1により新しいスライドについて焦点重み付き病気分類器誤りを予測するための手順のより詳細な図である。
図7図6に従って計算された、画像パッチあたりの予想される病気分類器誤りの図である。
図8】全スライドスキャナおよびネットワーク化された病理ワークステーションを特徴とするコンピューティング環境への、図1の方法の一適用例の図である。
図9】全スライドスキャナおよびネットワーク化された病理ワークステーションを特徴としているコンピューティング環境への、図1の方法の第2の適用例の図であり、焦点重み付き病気分類器誤りの生成は、リモートネットワークのコンピューティングシステムで行われ、結果は病理ワークステーションに送信される。
【発明を実施するための形態】
【0024】
デジタルパソロジーは、新しい機械学習技法を使用する強力な画像解析ツールの可能性によって大いに動機付けられ、米国において一次診断のための最初の全スライド画像(WSI)スキャナが最近規制当局に承認されたこと、ならびにクラウドストレージおよびギガピクセル画像ファイルを処理する大規模なITインフラストラクチャをより広く利用できることによって可能になった、臨床ワークフローへと進歩している。しかしながら、デジタル化のプロセスは、色またはコントラスト問題および焦点ずれエリアを含む、画像化プロセスにアーティファクトのもとを加える。これらのアーティファクト、および詳細には焦点ずれエリアは、病理医によって正確な診断を下すためのデジタルスライド画像の適合性、または自動化された画像分析の精度に悪影響を及ぼし得る。人間の病理医は、通常、そのような画像を低品質としてフラグを付け、再走査を命じることになり、潜在的にこの症例に長時間の遅れを引き起こす。さらに悪いことには、自動化された画像分析では、そのような画像アーティファクトが、そのまま検出誤りおよび分類誤りになり得る。たとえば、いくつかの研究は、焦点ずれの胚中心がアルゴリズムによって腫瘍転移と間違えられるなど、系統的偽陽性が、焦点の質の悪さに由来し得ることを発見した。
【0025】
これらの問題を軽減するための1つのオプションは、スキャナによって生成されるすべてのデジタルスライドを技術者に事前に選別(prescreen)してもらうことである。このタイプの手動の品質管理(quality control)は、しかしながら、時間およびコストの観点から非実用的であり、小さいアーティファクトの徹底的な選別には実行不可能でさえある。他のオプションは、自動化された品質管理および焦点の質の評価を行うことであり、これには上記の限界のいずれもない。あらゆるWSIスキャナは、病変部位の自動再走査または品質報告に使用できる組み込みの焦点評価を有するが、既存の方法には以下のいくつかの欠点がある。(1)この組み込みの焦点評価にもかかわらず、WSIによって走査される多くのスライドは、依然として焦点ずれの領域を有する、(2)スキャナ間の焦点評価方法は異なり、デバイス間の比較を妨げている、(3)焦点計量は、通常、焦点の質の空間分布など、十分に詳細にユーザにエクスポートすることができない、(4)評価は、焦点の質の臨床的関連性(clinical relevance)を考慮しない。たとえば、乳癌転移の検出など、細胞特性に基づいた診断は、通常、前立腺腺癌グリソン等級付け(Gleason grading)など、主としてより大きい組織形態に基づいた診断よりもさらに高い焦点の質を必要とする。
【0026】
本明細書は、これらの欠点のすべてに対処する焦点の質の評価を提起し、それは、手動で評価した焦点の質と高度に一致する一般的に適用可能な計量を実現し、走査デバイスにかかわらず、いずれのWSIにも適用することができ、WSI全体にわたる焦点の質の空間的情報をもたらす。さらに、腫瘍検出の2つの診断モデルの焦点感度を調べ、スライド画像に関連性重み付き質的スコアを与えるために、目下の特定の臨床診断タスクについての焦点の質への影響を考慮する質的計量を提起する。
【0027】
方法をハイレベルで図1に示す。この方法は、デジタル顕微鏡画像中の病気または腫瘍細胞を識別するように訓練された深層畳み込みニューラルネットワーク(本明細書では「分類器」または「病気分類器」)を活用する。この深層畳み込みニューラルネットワーク、または機械学習モデルは、図1に示していないが、2017年2月23日に出願され、WO 2018/156133として公開され、その内容が参照により本明細書に組み込まれる、「Method and System for Assisting Pathologist Identification of Tumor Cells in Magnified Tissue Images」という名称のPCT出願、第PCT/US17/019051号に記載されるように構成することができる。深層畳み込みニューラルネットワークパターン認識器は、パターン認識およびマシンビジョンの技術分野で広く知られており、したがってそれの詳細な説明は、簡潔のために省略する。好適なアーキテクチャである、Google Inception-v3深層畳み込みニューラルネットワークアーキテクチャについては、科学文献において説明されている。その内容が参照により本明細書に組み込まれる以下の参考文献、すなわちC. Szegedyら、Going Deeper with Convolutions, arXiv:1409.4842 [cs.CV] (2014年9月)、C. Szegedyら、Rethinking the Inception Architecture for Computer Vision, arXiv:1512.00567 [cs.CV] (2015年12月)を参照されたい。また、2015年8月28日に出願された、C. Szegedyら、「Processing Images Using Deep Neural Networks」という米国特許出願第14/839,452号も参照されたい。Inception-v4として知られる第4世代が、代替アーキテクチャと見なされる。C. Szegedyら、Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning, arXiv:1602.0761 [cs.CV] (2016年2月)を参照されたい。また、2016年12月30日に出願された、C. Vanhoucke、「Image Classification Neural Networks」という米国特許出願第15/395,530号を参照されたい。これらの論文および特許出願での畳み込みニューラルネットワークの説明は、参照により本明細書に組み込まれる。
【0028】
本質的に、図1の方法では、ステップ100において、前の段落で説明した病気分類器ニューラルネットワークのための予想される病気分類器誤り統計量が、焦点ずれの異なる度合いについて取得される。焦点が合っている、正解注釈付きの画像の形態のマスター画像、および焦点ずれの異なる度合いに人工的にぼかされたマスター画像の大きいセットからこれらの統計量を取得する方法を図2に示し、以下で詳細に説明する。代替方法は、焦点が合っているパッチを決定し、それらの画像パッチに図2の「較正アルゴリズム」の残りを実行するために、OOF分類器(以下で説明する)を実行することによって、部分的に焦点ずれの走査をマスター画像として使用することである。いずれかの方法によって、これらの統計量が取得されると、それらは、102に示すように記憶され、ステップ104に示すように後で使用される。ある意味では、ステップ100は、準較正ステップと見なすことができる。本質的に、(二値病気分類器ではAUCにより、多値分類器ではコーエンのカッパ(Cohen's Kappa)により)パッチベースの誤りの測定を行い、病気モデルを同じ組織および染料タイプ、ならびに同様の焦点の質の他のデジタル化された病理画像に適用するとき、それらが同様であると仮定する。したがって、ステップ100において、OOFの度合いレベルに、パッチレベルの誤り計量(それぞれAUC、コーエンのカッパ)を較正すると言うことができる。
【0029】
ステップ104において、記憶された誤り統計量を使用して(ステップ102)、これまでに見たことがない、すなわち「新しい」組織画像について、焦点重み付き病気分類器誤りを予測する。ステップ104は、使用時間に、すなわち、新しい組織画像が全スライドスキャナによって取り込まれるとき、行われ、ユーザは、画像またはそれの一部に、診断またはラベルを割り当てる前に、病気分類器誤りを理解することを望む。ステップ104は、新しい画像中のパッチが焦点ずれの度合いを識別するよう訓練された第2の畳み込みニューラルネットワーク(「OOF分類器」)を利用する。この畳み込みニューラルネットワークは、深層(たとえば、18の畳み込み層)または浅層(たとえば、3つの畳み込み層)のいずれかであることがあり、研究では、3つの畳み込み層を有する浅層ニューラルネットワークがよく動作することが示された。OOF分類器のためのアーキテクチャもまた、前に説明したようであってもよい。可能な一構成では、それは、Samuel Yangら、「Assessing microscope image focus quality with deep learning」, BMC Bioinformatics (2018) 19:77に記載されるように構成され、訓練されてもよい。ステップ104は、図6により詳細に示す。我々の手法(Yangらと同様)と、背景技術において前述したCampanellaらの手法との1つの重要な相違点は、後者は、(合成ぼかしによってほぼ完全に除去される元の画像センサーピクセルノイズをシミュレートするために)合成ぼかしの後に合成ノイズを適用しないことである。実験において、合成訓練データから適切なOOF分類器を訓練するには、合成ノイズが重要であることがわかった。それがなければ、分類器は、ノイズがかなり認識できる、特に強い実際のOOFを検出できないことがわかった。
【0030】
研究では、前の段落で述べたOOF分類器の訓練に、追加のデータ拡張(data augmentation)ステップが行われるのが好ましいと示された。これらのステップは、(a)データ圧縮およびノイズアーティファクト、(b)並進ジッタ、および(c)明度摂動をシミュレートするステップを含む。計算によるボケフィルタリング(以下で説明する)に加えて、またはこれの代替として、訓練においてこれらのすべてを組み合わせることが可能であり、有利である。これらを次にさらに詳細に説明する。
【0031】
(a)データ圧縮およびノイズアーティファクト
すべてのモデルのハイパーパラメータは、OOF分類器の開発中に検証テストセットに関する予測されるOOFヒートマップの定性評価によって手動で調整された。それらの実験では、ボケスタイルまたはガウスぼかしの合成例で訓練されたCNNは、実際のOOF画像について劣悪な予測精度をもたらし、ほとんどすべてのOOFテストパッチを焦点が合っていると誤って予測する。これは、人工的な平滑化が実際のアーティファクトを除去することによって引き起こされたと仮定した。たとえば、走査レーンおよびJPEGブロックの縁部の格子状のアーティファクトが、人工的にぼかされた画像では平滑化され得るが、実際のOOF画像では存在する。したがって、他のアーティファクトタイプのいくつかのカテゴリーが、それらの重要性を調べるために合成ぼかしの後に再び追加された。
【0032】
合成的にぼかされた、実際の焦点があった画像を実際のOOFと高倍率で目視比較すると、OOF以外の他のアーティファクト、すなわち、画像センサーから生じる可能性が最も高いピクセルノイズ、およびスキャナポストデジタル化(scanners post digitization)によって適用される非可逆JPEG圧縮から起こりやすいJPEG圧縮アーティファクトが明らかになった。後者は、圧縮レベルが40~90%の範囲の訓練およびテスト画像すべてに当てはまった。大抵のスキャナモデルは、ポストデジタル化を採用する。しかしながら、合成的にぼかされた画像では、これらの他のアーティファクトの両方が、たとえそれらが実際の焦点が合った入力画像に存在していても、合成ぼかしの量に応じて、かすかであるか、ほとんどない。これは、ピクセルノイズとJPEGアーティファクトの両方が、一般に高い空間周波数で構成されるためであり、空間周波数は、ぼかしによって減少する。
【0033】
その結果として、シミュレートされたJPEG圧縮アーティファクトが、合成的にぼかされた画像に追加され、JPEGエンコーディングおよびデコーディング、ならびに、画像を取得したスキャナによって使用される一般的な圧縮設定である40~90%で選ばれた画像品質パラメータにより実装された。
【0034】
ピクセルノイズのシミュレートに関しては、画像センサーがデジタル化においてポアソン分布のノイズ(Poisson-distributed noise)を生み出すことがよく知られている。したがって、ピクセル単位のポワソンノイズが、各カラーチャネル値xc ∈ [0, 1]、c ∈ {R, G, B}を、Pがポアソン分布を指し、sが信号対ノイズ比を反転制御する(inversely control)とすると、xc = P xc * sにより、ノイズのあるバージョンxc'に、マッピングすることによってシミュレートされた。後者が、異なるスキャナおよび対物レンズ倍率(objective magnification)間で大きく変化することが観測されたとき、訓練中のノイズ部分は、各訓練パッチに対する区間[0.01, 64.0]からsをランダムにサンプリングすることによって変更され、これは、固定の信号対ノイズ比の使用に比べてよりよい実験結果をさらに示した。両方のデータ拡張、JPEGアーティファクト、およびポワソンノイズが、合焦点誤検出(false in-focus positive)を有意に減少させるが、全体的な精度はさらに改善される可能性があり、したがって、シミュレーション(b)および(c)を検討した。
【0035】
(b)並進ジッタ
各139×139訓練パッチに、+/-8ピクセル(縦横両方に)の範囲で並進摂動(translational perturbation)を追加することによって、さらなる認識できる予測利得が観測された。これは、最初に155×155画像パッチを取得することによって、続いて、それの中のランダムに並進配置された(translationally placed)139×139領域を切り取ることによって実施された。
【0036】
(c)明度摂動
訓練パッチの明度を摂動させる際に、別の、より包括的なデータ拡張を実施することによって、OOF分類器の全体的な精度の大幅な上昇が最終的に得られた。このステップでは、訓練パッチのすべてのピクセルに対するランダムな負/正の強度オフセット(すなわち、3つのRGBカラーチャネルすべてに対する固定の正/負のデルタ値)が追加される。より詳細には、[0, 1]の値域のRGB値が、各訓練例に対して区間[-0.8, +0.8]からランダムに選ばれた強度シフトを使用してオフセットされた(その後[0, 1]へのクリッピングが続いた)。同様の手法が、http://arxiv.org/abs/1703.02442で入手可能な、LiuらのDetecting Cancer Metastases on Gigapixel Pathology Images, arXiv [cs.CV] (2017)において提案され、OOF画像は明度が大きく変化することがあり、したがって分類器は明度変化に対して比較的不変であるべきであるという仮説を支持した。
【0037】
さらに、訓練パッチのコントラスト、色相、および彩度のランダムな摂動が加えられたが、コントラスト摂動のみが、小さい性能利得を与えた。
【0038】
図2は、図1のステップ100をより詳細に示すフローチャートである。図2に示す手順は、分類器について予測される分類誤り統計量を計算するためのものである。200に示すように、所与の組織タイプの、たとえば、乳癌患者からのリンパ節または前立腺組織の、複数の(たとえば、100程度、場合によっては1000または数万などさらに多く、オプションでは異なる倍率レベルの)完全に焦点が合っている、正解注釈付きのデジタル顕微鏡スライド画像を取得する。これらの画像200は、本明細書では「マスター画像」と呼ばれる。これらの画像は、異なる製造業者のスキャナから取得され得る。各画像パッチには、正解ラベルが存在し、すなわち、(i)リンパ節胸部転移(lymph node breast metastasis)には癌/非癌、または(ii)前立腺組織にはグリソンスコアが存在する。これらのギガピクセル画像は、複数の長方形のピクセルパッチまたはタイルから成り、パッチは、ブロック208内の210に示されている。パッチの注釈付けは、訓練された病理医または病理医のチームによって手動で行うことができる。パッチのサイズは、組織タイプおよび使用される特定の病気分類器に応じて変わることがある。正解(パッチ注釈)を割り当てるために病理医のチームが使用される状況では、正解は、同じパッチの複数の注釈から決定される。全員の合意がない場合、以下の方法を使用することができる。(a)多数決、(b)反対票がしきい値より高い、またはゼロより大きい各パッチを病理医/注釈者に判定させる、(c)(a)を適用し、多数決がないパッチに(たとえば、グリソンのようなマルチクラスラベルに)(b)を行う。
【0039】
ステップ202において、ピクセルノイズレベルを固定して画像200に合成(人工)焦点ずれのぼやけを、ともに様々な度合いで追加する。ぼかしは、パラメータYによって示される、ぼかしの異なる度合いまたは量で追加され、ただしYは、0(ぼかしなし)からNの整数値をとることができ、ただしNは、4、10、または29などの他の数字とすることができる。対照的に、合成ノイズ(正確には乗法性ポワソンノイズ)の度合いは、Yによって決まらず、(ぼかされてない)元の画像のノイズレベルを測定することから事前に決定された範囲からランダムに選ばれる。ループ204で示すように、合成OOFぼかしを作成するプロセスを繰り返し、Yのすべての値にステップ206およびステップ212を行う。OOFぼかしは、好ましくは、計算によるボケフィルタを使用して行われ、その詳細は、Tim McGraw、Fast Bokeh Effects Using Low-Rank Linear Filters, The Visual Computer vol. 31 no. 5 (May 2014)の論文に説明されており、その内容が本明細書に参照により組み込まれる。McGraw論文の3頁に記載されている範囲総和テーブル(Summed Area Tables)手法は、本出願に好適な手法である。ガウスぼかしの例を使用して訓練されたモデルは、弱いOOF領域を過大評価し、強いOOF領域を過小評価することがわかった。したがって、次に、基となる光学素子の物理的により正確な表現である、ボケ-ぼかし(フィルタリング)で試した。ボケぼかしは、循環階段関数の核(circular step-function kernel)で画像を畳み込む(convolve)ことによって実施された。
【0040】
次いで、焦点ずれの各度合い(Y=0...N)について、ステップ206およびステップ212が行われる。ステップ206において、病気分類器を使用して推論を行い、OOFのその度合いの画像のうちの1つにおいてパッチの各々にラベル(たとえば、癌/非癌、またはグリソンスコア)を割り当てる。ステップ206の結果は、スライド200全体の各パッチの予測される病気確率を示す「ヒートマップ」として表すことができる。このヒートマップが、一定の縮尺で示されていないパッチ210で208に示されている。たとえば、組織の塊(tissue blob)の中の小さい円は、癌細胞を含んでいる確率が高いことを示すために赤色とすることができる。
【0041】
ステップ212において、まず、ステップ206で生成された予測、および各パッチの正解注釈を使用して、各パッチの病気分類器誤りを計算する。次いで、これらの結果を統合して、この特定の焦点ずれ度合いYについてすべてのパッチ予測にわたる平均誤り=1-AUCを計算する。次いでこの結果を、この合成ぼかしレベルおよびこの特定の病気分類器の予想される誤りとして記憶する。1 - AUC誤り計量は、2クラスの病気分類器に適用されることに留意する。マルチクラスの分類器には他の計量が適用される。そのような計量について、以下でさらに詳細に説明する。
【0042】
ステップ214で示すように、正解200付きの焦点が合っている画像の各々に対してループ204を繰り返す。
【0043】
OOFの各度合いに対してステップ206、およびステップ212を繰り返すことによって、ついには図3として示すテーブルとなる。各OOF度合い(0、1、2、...)には、マスター画像200(症例1、症例2、...として識別される)の各々についてステップ212で計算された平均誤りがある。
【0044】
次いでステップ216において、すべての症例/マスター画像にわたって各OOF度合いの誤りを平均する。ループ218で示すように、異なるスキャン倍率に対してこのプロセスを繰り返し、それによって異なる倍率の画像のすべてについての予想される病気誤り統計量を取得する。異なる倍率は、画像200をアップサンプリングもしくはダウンサンプリングすることから取得されるか、画像200の代わりに身体組織スライドを取得し、それらを異なる倍率で走査することによって取得されることがある。結果は、次いで、図4に示すテーブル220に記憶される。図4は、異なる倍率レベルの異なる焦点ずれ度合いについての予想される病気分類器誤り統計量を示す。
【0045】
図2の手順は、焦点が合っている画像のリンパ節マスターセットおよびリンパ節転移分類器に対して1回、焦点が合っている画像の前立腺組織マスターセットおよび前立腺グリソンスコアリング分類器に対して1回など、異なるタイプのマスター画像200および病気分類器に対して何回も行うことができることは諒解されよう。さらに、図2の手順は、全スライドスキャナの異なる型およびモデルについての病気分類器誤り統計量を生成するために繰り返して行うことができる。たとえば、図2の手順は、浜松全スライドスキャナについての病気分類器誤り統計量を生成するために1回、次いで、Aperioラインスキャン全スライドスキャナ、または現在商業的に使用されている他の型およびモデルについて2回目を行うことができる。これは、スキャナが画像および焦点の質に関して異なる動作をするので、病気分類器誤り統計量が、スキャナによって異なる場合があるためである。
【0046】
図5は、所与の倍率の特定の病気分類器(この例では、ピクセルのパッチに関するリンパ節転移分類器)についての病気分類器性能(AUC計量)のプロットに関して、図2の結果の一例を示す。X軸は、焦点ずれの度合いを示し(0が完全に焦点が合っている)、画像500、502、504、および506の例は、焦点ずれの各度合いにある。図5では、「3」までのOOF度合いのみが示されているが、AUC性能は、さらなるOOF度合い(図5に示さず)について描かれることがある。予想されるように、病気分類器がOOF度合い0(完全に焦点が合っている)では最高の分類精度を有し、OOF度合い1および2では分類精度は著しく低下し、OOF度合い3では少し低下することが、図5からわかる。また、病気誤り統計量は、病気分類器が20Xおよび10Xの倍率と比較して40Xでより高い性能を有することを示すが、これはすべてのタイプの病気分類器について必ずしもそうとは限らず、たとえば、より低い倍率で最も容易に認められる、より大規模構造および組織形態が、病気分類を生成する際に重要であるとき、分類器性能は、より高い倍率よりも、より低い倍率(10X)で実際には高いことが、図4から諒解される。
【0047】
病気分類器誤り統計量が、図2の手順により取得され、記憶されると、画像の全部または一部についての病気分類器誤り予測を生成するために、新しい(これまでに見たことがない)デジタル拡大組織画像で使用時に、それらを使用することができる。この手順は、図1の104に示し、図6により詳細に示す。「新しい」組織画像は、600に示す。ステップ602において、前に説明したOOF分類器(深層または浅層CNN)を使用して画像600に推論を行う。この分類器は、図2で使用された、この例ではY=0...29、ただし0は完全に焦点が合い、29は完全に焦点ずれである、焦点ずれ度合いスケールを使用して、画像600中のパッチの各々が焦点ずれである度合いの予測を生成するために、上記で説明したように、合成的にぼかされた訓練画像から訓練される。推論ステップ206の結果は、604に示すような画像600のヒートマップとして表すことができ、ヒートマップ604の右側のスケールに従って、画像中のより焦点ずれのパッチが明るい色にされ、より焦点が合っているエリアはより暗い色を施される。
【0048】
次いで、ステップ606において、各パッチについて、図2から計算された誤り統計量(図4参照)を使用して、予想される分類器誤りに焦点度合いをマップする。このマッピングは、図7に示す第2のヒートマップとして概念化することができ、ヒートマップ604(図6)からのOOF度合いは、図6の606に示すように分類器誤りに変換またはマップされる。最も焦点ずれである図6のヒートマップ604のパッチが、最も高い予想分類器誤りを有することに留意する(分類器誤りのより高い度合いは、図7でも明るい色であるが、分類器誤りが最も少ないエリアは、図7ではより暗く示される)。結果的に、このマッピングは、記憶された誤り統計量を使用し、すべてのパッチにこのアルゴリズムを繰り返して、パッチのOOF度合いに基づいて、パッチに分類器誤りを割り当てているにすぎない。
【0049】
次いで、ステップ608において、全スライド画像に対して(図7に示す)パッチ誤りの予測を統合する。一実施形態では、この統合は、全スライドについての分類器誤りスコアの計算の形態をとることができる。この統合を計算することができるいくつかの考えられる方法がある。1つの方法は、以下の通りである。
a. 各パッチの予測される分類器誤り予測に、病気/組織タイプ固有のしきい値、たとえば1.3%を適用し、本質的に、しきい値を上回るまたは下回る予測誤りを有するパッチのバイナリマスクを作成する。
b. aのバイナリマスクに連結成分分析(Connected Component Analysis)を適用する。
c. 病気/組織タイプ固有の最小面積A、たとえば200平方ミクロンよりも小さい面積を持つすべての「連結成分」領域を削除する。
d. 最終的な計量、この例では、スライドのうちのどのくらいが、しきい値を下回る病気分類器誤りを有するかを示す面積計量を得るために、残りの領域の面積を合計し、cにより小さすぎる面積を除外する。この計量は、絶対面積計量として、またはパーセント計量、たとえば病気分類器計量がしきい値を下回る画像中の組織面積のパーセントとして、提示されることがある。
【0050】
全スライドに対するパッチ誤りの予測を統合する別の単純な方法は、連結成分分析なしで、誤りしきい値を上回る/下回るピクセルを単にカウントし、結果を画像の組織部分のパーセントとして報告することである。
【0051】
ステップ608において、次いで全スライドについての焦点重み付き病気分類器誤り予測を報告する。たとえば、図6の画像600を検討している病理医によって使用されるコンピュータワークステーション上では、誤り予測は、画像と一緒に、ワークステーションのディスプレイ上にポップアップウィンドウで報告されることがある。代替的に、病気分類器誤り予測は、組織画像と関連する所見または診断を入力するために病理医によって使用される画面に報告されることがある。
【0052】
上記の例は、リンパ節組織画像において乳癌転移の可能性を予測するリンパ節転移検出器のコンテキストであり、たとえば分類器は、通常40Xまたは20Xの倍率で動作し、画像中のパッチの各々について癌/非癌のクラスラベルを生成し、誤り計量として、1.0-AUCを使用し、ここでAUCは、分類器の性能についての受信者操作特性プロットである。そのような誤り計量を、図3および図4に示す。前立腺癌分類器の場合、この分類器は、前立腺組織画像中のピクセルの各パッチについてグリソンスコアを予測し、一般に10Xの倍率で動作する。各パッチに分類器によって割り当てられるクラスラベルは、集合{none, 1, 2, 3, 4, 5および6}、ただし1...6は、当技術分野で知られているグリソンスコアである。分類器などの誤り計量は、重み付きコーエンのカッパ(κ)、知られている統計メトリック(statistical metric)、または1対他クラスAUCにわたる平均など、異なるフォーマットを採用する場合がある。病気分類器の予想される誤りは、バイナリ分類器では1.0マイナス受信者操作特性曲線の下の面積(AUC)、または分類器がマルチクラス分類器の場合、1.0-コーエンのカッパとして表すことができる。
【0053】
図6に示す計算は、全スライドスキャナのコンピューティング資源でローカルに実施することができ、スキャナが、スライドを走査することも、次いで病気分類器誤り統計量を生成することも行い、それら両方を接続された病理ワークステーションに報告する。この実施形態では、スキャナは、処理ユニット、および深層CNN焦点分類器、ならびに図4の統計量を記憶するデータストア、ならびに図6で説明する手順を実施するためのソフトウェアを含む。
【0054】
いくつかの他の代替構成が可能であり、そのうちの1つを図8に示す。この実装形態では、全スライドスキャナ802は、ローカルエリアネットワーク806に接続され、これに病理ワークステーション804もまた接続される。このネットワーク806は、たとえば、スキャナと病理ワークステーションの両方を備えた病院または診療所内のネットワークの形態をとることができる。ネットワークはまた、コンピューティング資源808を有し、コンピューティング資源808は、深層CNN焦点分類器および図4の病気分類器誤り統計量のためのパラメータ、ならびに図6の手順を実施するためのコードを記憶するデータストアまたはメモリに接続された、汎用コンピュータの形態をとることもできる。使用中、スキャナ802がスライド(図示せず)を走査し、図6の画像600を生成するとき、画像は、コンピューティング資源808に渡され、次いでコンピューティング資源808は図6の手順を実施し、病気分類器誤り計量をワークステーション804に転送する。病気分類器誤り予測の報告(図6のステップ610)は、ステップ608で計算されたパッチ誤りの統合された予測とともに図7に示すようなヒートマップの形態をとることができる。
【0055】
図9は、本開示の方法を実施するシステムの別の例である。この例では、全スライドスキャナ802およびワークステーション804は、クラウド820(インターネット)に接続されたネットワーク806上にある。クラウド820内のサービスプロバイダが、接続されたデータストア810を用いてコンピューティング資源808を操作する。サービスプロバイダは、スキャナ802から画像(600、図6)を受信し、OOF分類器および病気分類器誤り統計量をデータストア810に記憶することによって、画像についての病気分類器誤り予測を生成し、それらをもとの病理ワークステーション804に報告する。サービスプロバイダへの画像600(図6)の送信は、適切な病気分類器誤り統計量が検索され、必要に応じて特定の画像に使用され得るように、倍率レベルおよび全スライドスキャナの型/モデルを示す画像のメタデータが添付される。サービスプロバイダは、複数の分散された病理検査室、病院、診療所、大学などのためにこのサービスを行い、それらのうちの1つが、やはりクラウドに接続された別個の全スライドスキャナおよび病理ワークステーション904によって示される。
【0056】
さらなる考慮事項
図2のループ204で使用されるスケールのOOF度合いの数は、変わることがあり、浮動小数点スケールを使用することも可能である。
【0057】
図6、ステップ608の新しい画像についてのパッチ誤りの予測の統合は、a)絶対組織面積および分類器に応じたしきい値を上回る誤りが予測される総組織面積のパーセンテージ、またはb)個々に病気固有のサイズよりも大きく、予測誤りが病気固有の予測しきい値よりも大きい(もしくは小さい)特異な組織領域の総面積、またはc)平均予想誤り(すなわち、組織パッチすべてにわたる平均、もしくは最小/最大誤り統計量)、またはさらに他のフォーマットなど、他の形態をとることができる。
【0058】
統合された誤り計量の主な用途は、スライドレベルのグリソンスコアなど、スライドレベルの予測と並行してそれらを報告することである。たとえば、自動化されたシステムが、臨床医/病理医にグリソンスコア4+3、ただし焦点による予測誤りが3%であると報告することができる。予測誤りは次いで、(a)病理医によるさらなる顕微鏡ベースの手動の検査をトリガすることができ、または(b)、すなわち、誤りが特に激しい場合、スライドの再走査をトリガすることができる。さらに、シナリオ(a)では、病理医は、さらに手動の顕微鏡検査を行うとき、高い誤り予測のある領域を優先するために、ヒートマップを使用することができる。
【0059】
上記のことから、以下の(a)~(c)を組み合わせて備える病理システムを説明したことが諒解されよう。a)顕微鏡スライドのデジタルスライド画像を生成するように構成されたスライドスキャナ(図8、802)、b)メモリ(図8、810)であって、
1)スライドスキャナによって生成されたデジタル顕微鏡スライド画像についてパッチあたりの焦点ずれ度合いを計算するように訓練された畳み込みニューラルネットワーク(OOF分類器)のパラメータであって、このOOF分類器は、好ましくは、前に詳細に説明した技法を使用して合成的にぼかされた画像で訓練される、パラメータ、
2)複数の焦点ずれ度合いについての機械学習病気分類器の予想される分類器誤り統計量を表すデータを記憶するメモリ、c)コンピュータ(図8、808)であって、(1)深層畳み込みニューラルネットワークを使用したデジタル顕微鏡スライド画像についてのパッチあたりの焦点ずれ度合い(図6、602)、(2)パッチあたりの計算された焦点ずれ度合いに基づき、それによってパッチの各々について分類器誤り予測を生成する、デジタル顕微鏡スライド画像のパッチの各々への予想される分類器誤り統計量のマッピング(図6、606)、(3)パッチのすべてにわたる分類器誤り予測の統合(図6、608)を計算するように構成されたコンピュータ。
【0060】
組織標本の拡大された、デジタル顕微鏡スライド画像(図6、600)について分類誤りの予測を生成するための方法であって、デジタル顕微鏡スライド画像がピクセル画像データの複数のパッチから構成される、方法を説明したことが諒解されよう。この方法は、以下のステップを含むステップを含む。
(a) デジタル顕微鏡スライド画像についてパッチあたりの焦点ずれ度合いを計算するステップ(図6、602)。このステップは、上記で説明したように訓練されたOOF分類器によって行われる。
(b) 複数の焦点ずれ度合いについての機械学習病気分類器の予想される分類器誤り統計量を表すデータを検索するステップ(図2、220)。
(c) ステップ(a)で計算されたパッチあたりの計算された焦点ずれ度合いに基づいて、デジタル顕微鏡スライド画像のパッチの各々への予想される分類器誤り統計量のマッピングを計算し、それによってパッチの各々についての分類器誤り予測を生成するステップ(図6、606)。
(d) パッチのすべてにわたってステップ(c)で生成された分類器誤り予測を統合するステップ(図6、608)。
【0061】
また、組織標本またはそれの一部のデジタル顕微鏡スライドのための分類ラベルを生成するように構成された分類器を特徴付けるための方法を説明したことが諒解されよう。一般的に図2および上記のその説明を参照されたい。この方法は、焦点が合っている、画像パッチごとに正解ラベルと関連付けられる、ピクセル画像データのパッチから各々構成された、スライド画像(図2、200)のセットを(たとえば、そのような画像を記憶しているデータストアへのアプリケーションプログラミングインターフェース(API)コールにより、または組織スライドのセットを全スライドスキャナで物理的に走査することから)取得するステップと、
b)焦点ずれ度合い(たとえば、0(焦点が合っている)からNのスケール上の焦点ずれの度合いY、ただしNは1,2,3…Nの範囲内のある整数である)のセットを定義し、各度合いについて、
1)スライドのセット中の画像のパッチの各々に、対応する量の合成焦点ずれを適用し、(図2、202)
2)画像中の各パッチについて分類誤りを計算し、(図2、206)
3)画像中のパッチのすべてにわたって平均誤りを計算するステップと、(図2、212)
c)ステップb)において定義された焦点ずれ度合いの場合の分類器についての予想される誤りとして、ステップb)において定義された度合いのすべてについて、ステップb)3)において計算された平均誤りを記憶するステップと、(図2、すべての合成焦点ずれ度合いに対するループ204)
d)セット中のスライド画像の各々に対して、ステップb1)、b2)、b3)、およびc)を繰り返すステップと(図2、ループ214)を含む。
【0062】
上記の方法では、ステップa)、b)、c)、およびd)が、異なる製造業者の複数の異なるスライドスキャナの各々に対して、少なくとも1回繰り返されることがある。
【0063】
ステップb)2)において計算される誤り計量は、平均誤りの形態をとることができる。それはまた、受信者操作特性(ROC)曲線下面積(AUC)計量として計算することができる。この後者の手法は、最初にすべてのパッチにわたってまずROC曲線を計算し、続いてそれの下の面積(「曲線下面積」)を計算する必要がある。したがってそれは、個々のパッチごとに計算されず、統合される計量である。
【0064】
このように、一変形形態では、上記の方法ステップb)において、焦点ずれ度合いのセットを定義し、各度合いについて、方法は、以下のステップ1)~4)を行うことから成る。
1)スライドのセット中の画像のパッチの各々に、対応する量の合成焦点ずれを適用するステップと、
2)病気分類予測および確率を計算するステップと、
3)すべてのパッチにわたって正解ラベルに対する受信者操作特性(ROC)曲線を計算するステップと、
4)ROC曲線の下の面積(AUC)を計算するステップ。この変形形態では、方法は、c)ステップb)で定義された焦点ずれ度合いについて病気分類器の予想される誤りとしてステップb)で定義された度合いのすべてについて、ステップb)4)で計算されたAUCを記憶するステップと、d)セット中のスライド画像の各々に対してステップb1)、b2)、b3)、およびc)を繰り返すステップとを続ける。
【0065】
一実施形態では、組織標本は、前立腺組織標本の形態である。あるいは、組織標本は、リンパ節標本であることがある。ステップb)1)で適用される合成焦点ずれは、好ましい実施形態では、計算によるボケフィルタを使用して適用される。一実施形態の予想される誤りは、病気分類器について、1.0マイナス受信者操作特性曲線の下の面積(AUC)によって表すことができる。図3および図4に示すように、ステップc)で記憶される平均誤りは、焦点ずれの度合い、および関連した予想される病気分類器誤りのテーブルフォーマットで記憶される。
【0066】
さらに別の態様では、OOF分類器およびOOF分類器を訓練する方法を説明した。OOF分類器は、画像を合成的にぼかすことから訓練される畳み込みニューラルネットワークの形態である。合成的にぼかされた画像は、(a)データ圧縮およびノイズアーティファクト、(b)並進ジッタ、および(c)明度摂動のうちの1つまたは複数をシミュレートすることによって作成される。計算によるボケフィルタリングに加えて、またはこれの代替として、訓練においてこれらのすべてを組み合わせることが可能であり、有利である。
【0067】
病理顕微鏡画像(組織標本)のコンテキストで上記の説明を行ったが、方法は、一般的に他のタイプの顕微鏡画像および顕微鏡画像内の物体を識別または分類するために構築された分類器に適用可能である。
【符号の説明】
【0068】
200 画像
500 画像
502 画像
504 画像
506 画像
600 画像
604 ヒートマップ
802 全スライドスキャナ
804 病理ワークステーション
806 ネットワーク
808 コンピューティング資源
810 データストア
820 クラウド
904 病理ワークステーション
図1
図2
図3
図4
図5
図6
図7
図8
図9