(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-11-28
(54)【発明の名称】組織学的画像分析
(51)【国際特許分類】
G16H 30/20 20180101AFI20221118BHJP
A61P 35/00 20060101ALI20221118BHJP
A61P 35/02 20060101ALI20221118BHJP
A61P 1/04 20060101ALI20221118BHJP
G16H 50/00 20180101ALI20221118BHJP
G16H 10/40 20180101ALI20221118BHJP
G01N 33/48 20060101ALI20221118BHJP
【FI】
G16H30/20
A61P35/00
A61P35/02
A61P1/04
G16H50/00
G16H10/40
G01N33/48 M
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022518390
(86)(22)【出願日】2020-09-18
(85)【翻訳文提出日】2022-05-12
(86)【国際出願番号】 EP2020076090
(87)【国際公開番号】W WO2021053135
(87)【国際公開日】2021-03-25
(32)【優先日】2019-09-20
(33)【優先権主張国・地域又は機関】GB
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】522110706
【氏名又は名称】オスロ・ウニヴェルシテーツシケフス
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】セップ・デ・レット
(72)【発明者】
【氏名】オーレ-ヨハン・スクレデ
(72)【発明者】
【氏名】ホヴァルド・エミル・グレーゲル・ダニエルセン
(72)【発明者】
【氏名】タリエイ・スヴェインシェルド・ヴィエム
(72)【発明者】
【氏名】アンドレアス・クレッペ
(72)【発明者】
【氏名】クヌート・リーストル
【テーマコード(参考)】
2G045
5L099
【Fターム(参考)】
2G045AA26
2G045CB02
2G045FA16
2G045GB10
5L099AA04
5L099AA26
(57)【要約】
1つ以上のソース組織学的画像に対する全体分類器を決定するためのコンピュータ実装システム。システムは、1つ以上のソース組織学的画像(202、302)から複数の第1のタイル(206、306)を生成するように構成された第1のタイル生成器(204)と、1つ以上のソース組織学的画像(202、302)から複数の第2のタイル(207、307)を生成するように構成された第2のタイル生成器(205)と、を備える。第1のタイル(206、306)の第1の面積は、第2のタイルの(207、307)の第2の面積よりも大きく、第2のタイル(207、307)の第2の解像度は、第1のタイル(206、306)の第1の解像度よりも高い。また、システムは、第1の分類器(218、318)を決定するために、複数の第1のタイル(206、306)を処理するように構成された機械学習ネットワーク(211、311)、第2の分類器(219、319)を決定するために、複数の第2のタイル(207、307)を処理するように構成された機械学習ネットワーク(215、311)、および第1の分類器(218、318)と第2の分類器(219、319)とを結合して、全体分類器(232、332)を決定するように構成された分類器結合器も含む。
【特許請求の範囲】
【請求項1】
1つ以上のソース組織病理学的画像(302)の全体分類器(332)を決定するためのコンピュータ実装システム(300)であって、
前記または各ソース組織病理学的画像(302)が、1つ以上の対象から取得された1つ以上の組織病理学的サンプルから取得されており、前記または各対象が、がんを有する、がんを有すると診断されている、がんを有する疑いがある、がんに対して治療されている、以前にがんに対して治療されたことがある、かつ/または以前にがんを有したことがあり、
前記システムが、
前記1つ以上のソース組織病理学的画像(302)から複数の第1のタイル(306)を生成するように構成された第1のタイル生成器であって、前記複数の第1のタイル(306)の各々が、第1の面積と、第1の解像度と、を有する、前記1つ以上のソース組織病理学的画像の領域を表現する、複数の画素を含む、第1のタイル生成器と、
前記1つ以上のソース組織病理学的画像(302)から複数の第2のタイル(307)を生成するように構成された第2のタイル生成器であって、前記複数の第2のタイル(307)の各々が、第2の面積と、第2の解像度と、を有する、前記1つ以上のソース組織病理学的画像の領域を表現する、複数の画素を含み、
前記第1のタイル(306)の前記第1の面積が、前記第2のタイル(307)の前記第2の面積よりも大きく、
前記第2のタイル(307)の前記第2の解像度が、前記第1のタイル(306)の前記第1の解像度よりも高い、第2のタイル生成器と、
前記1つ以上のソース組織病理学的画像(302)に対する第1の分類器(318)を決定するために、前記複数の第1のタイル(306)を処理するように構成された、機械学習ネットワーク(211、311)であって、前記機械学習ネットワーク(311)が、
前記複数の第1のタイル(306)の各々に対するタイル特徴(310)を決定するために、前記複数の第1のタイル(306)を処理するように構成された第1のニューラルネットワーク(308)と、
前記タイル特徴のサブセットを結合して、前記サブセットの各々に対するバッグ特徴(314)を生成するように構成されたプーリング関数(312)と、
前記1つ以上のソース組織病理学的画像(302)に対する第1の分類器(318)を決定するために、前記バッグ特徴(314)を処理するように構成された、第2のニューラルネットワーク(316)であって、分類ネットワークである、第2のニューラルネットワーク(316)と、を備える、機械学習ネットワーク(211、311)と、
前記1つ以上のソース組織病理学的画像(302)に対する第2の分類器(319)を決定するために、前記複数の第2のタイル(307)を処理するように構成された、機械学習ネットワーク(215、311)であって、前記機械学習ネットワーク(215、311)が、
前記複数の第2のタイル(307)の各々に対するタイル特徴(310)を決定するために、前記複数の第2のタイル(307)を処理するように構成された第1のニューラルネットワーク(308)と、
前記タイル特徴のサブセットを結合して前記サブセットの各々に対するバッグ特徴(314)を生成するように構成されたプーリング関数(312)と、
前記1つ以上のソース組織病理学的画像(302)に対する第2の分類器(319)を決定するために、前記バッグ特徴(314)を処理するように構成された、第2のニューラルネットワーク(316)であって、分類ネットワークである、第2のニューラルネットワーク(316)と、を備える、機械学習ネットワーク(215、311)と、
前記第1の分類器(318)と前記第2の分類器(319)とを結合して、前記1つ以上のソース組織病理学的画像(302)に対する全体分類器(332)を決定するように構成された分類器結合器と、を備える、コンピュータ実装システム(300)。
【請求項2】
前記分類器結合器(230、330)が、
閾値処理された第1の分類器を決定するために、前記第1の分類器(218、318)に閾値化関数を適用することと、
閾値処理された第2の分類器を決定するために、前記第2の分類器(219、319)に閾値化関数を適用することと、
前記閾値処理された第1の分類器と前記閾値処理された第2の分類器とを結合して、全体分類器(232、332)を決定することと、を行うように構成されている、請求項1に記載のシステム。
【請求項3】
前記機械学習ネットワーク(211、311)が、前記1つ以上のソース組織病理学的画像(202、302)に対する複数の第1の分類器(218、318)を決定するために、前記複数の第1のタイル(206、306)を処理するように構成されており、
前記機械学習ネットワーク(215、311)が、前記1つ以上のソース組織病理学的画像(202、302)に対する複数の第2の分類器(219、319)を決定するために、前記複数の第2のタイル(207、307)を処理するように構成されており、
前記分類器結合器(230、330)が、
結合された第1の分類器(340)を決定するために、前記複数の第1の分類器(218、318)に統計関数を適用することと、
結合された第1の分類器(341)を決定するために、前記複数の第2の分類器(219、319)に統計関数を適用することと、
前記結合された第1の分類器(340)と前記結合された第2の分類器(341)とを結合して、前記全体分類器(232、332)を決定することと、を行うように構成されている、請求項1に記載のシステム。
【請求項4】
前記分類器結合器(330)が、前記第1の分類器(218、318)と前記第2の分類器(219、319)との論理的結合を実施して、前記1つ以上のソース組織病理学的画像(202、302)に対する前記全体分類器(232、332)を決定するように構成されている、請求項1に記載のシステム。
【請求項5】
前記第2のニューラルネットワーク(116、316)によって決定される前記分類器(118、318)を、トゥルースデータ(120、320)によって表現されるグラウンドトゥルースと比較することと、
前記比較の結果に基づいて、前記第1のニューラルネットワーク(108、308)、前記プーリング関数(112、312)、および前記第2のニューラルネットワーク(116、316)に対するトレーニング可能なパラメータを設定することと、を行うように構成された損失関数(126)をさらに備える、請求項1に記載のシステム。
【請求項6】
ソース組織病理学的画像(102、302)を提供するために、全スライド画像組織病理学的画像(124、324)に画像セグメンテーション方法を適用するように構成されている、セグメンテーションブロック(122)をさらに備える、請求項1から5のいずれか一項に記載のシステム。
【請求項7】
前記第1のタイル生成器(204)および前記第2のタイル生成器(205)が、互いに独立してそれらのそれぞれのタイルを生成するように構成されている、請求項1に記載のシステム。
【請求項8】
前記機械学習ネットワーク(211、311)が、トレーニング組織病理学的画像および関連付けられたグラウンドトゥルースを使用してトレーニングされており、
前記または各トレーニング組織病理学的画像(302)が、1つ以上の対象から取得された1つ以上の組織病理学的サンプルから取得されており、前記または各対象が、がんを有する、がんを有すると診断されている、がんを有する疑いがある、がんに対して治療されている、以前にがんに対して治療されたことがある、かつ/または以前にがんを有したことがある、請求項1に記載のシステム。
【請求項9】
1つ以上のソース組織病理学的画像(302)に対する全体分類器(332)を決定するコンピュータ実装方法であって、
前記または各ソース組織病理学的画像(302)が、1つ以上の対象から取得された1つ以上の組織病理学的サンプルから取得されており、前記または各対象が、がんを有する、がんを有すると診断されている、がんを有する疑いがある、がんに対して治療されている、以前にがんに対して治療されたことがある、かつ/または以前にがんを有したことがあり、
前記方法が、
前記1つ以上のソース組織病理学的画像(302)から複数の第1のタイル(306)を生成することであって、前記複数の第1のタイル(306)の各々が、第1の面積と、第1の解像度と、を有する、前記1つ以上のソース組織病理学的画像の領域を表現する、複数の画素を含む、生成することと、
前記1つ以上のソース組織病理学的画像(302)から複数の第2のタイル(307)を生成することであって、前記複数の第2のタイル(307)の各々が、第2の面積と、第2の解像度と、を有する、前記1つ以上のソース組織病理学的画像の領域を表現する、複数の画素を含み、生成することと、
前記第1のタイル(306)の前記第1の面積が、前記第2のタイル(307)の前記第2の面積よりも大きく、
前記第2のタイル(307)の前記第2の解像度が、前記第1のタイル(306)の前記第1の解像度よりも高い、生成することと、
前記1つ以上のソース組織病理学的画像(302)に対する第1の分類器(318)を決定するために、前記複数の第1のタイル(306)に機械学習ネットワーク(211、311)を適用することであって、前記機械学習ネットワーク(211、311)を適用することが、
前記複数の第1のタイル(306)の各々に対するタイル特徴(310)を決定するために、前記複数の第1のタイル(306)に第1のニューラルネットワーク(308)を適用することと、
前記タイル特徴のサブセットを結合して、前記サブセットの各々に対するバッグ特徴(314)を生成することと、
前記1つ以上のソース組織病理学的画像(302)に対する第1の分類器(318)を決定するために、前記バッグ特徴(314)に、分類ネットワークである、第2のニューラルネットワーク(316)を適用することと、を含む、適用することと、
前記1つ以上のソース組織病理学的画像(302)に対する第2の分類器(319)を決定するために、前記複数の第2のタイル(307)に機械学習ネットワーク(215、311)を適用することであって、前記機械学習ネットワーク(311)を適用することが、
前記複数の第2のタイル(307)の各々に対するタイル特徴(310)を決定するために、前記複数の第2のタイル(307)に第1のニューラルネットワーク(308)を適用することと、
前記タイル特徴のサブセットを結合して、前記サブセットの各々に対するバッグ特徴(314)を生成することと、
前記1つ以上のソース組織病理学的画像(302)に対する第2の分類器(319)を決定するために、前記バッグ特徴(314)に、分類ネットワークである、第2のニューラルネットワーク(316)を適用することと、を含む、適用することと、
前記第1の分類器(318)と前記第2の分類器(319)とを結合して、前記1つ以上のソース組織病理学的画像(302)に対する前記全体分類器(332)を決定することと、を含む、コンピュータ実装方法。
【請求項10】
1つ以上の組織病理学的画像を処理する、請求項9に記載のコンピュータ実装方法であって、
前記方法が、がんを有する、がんを有すると診断されている、がんを有する疑いがある、がんに対して治療されている、以前にがんに対して治療されたことがある、かつ/または以前にがんを有したことがある対象のための診断および/または予後の決定を行う方法であり、
前記方法が、前記対象から取得された1つ以上の組織病理学的サンプル(典型的にはエクスビボ組織病理学的サンプル)から取得された、1つ以上のソース組織病理学的画像(102、202、302)を受け取ることを含み、前記方法が、
前記1つ以上のソース組織病理学的画像(202、302)に対する前記全体分類器(232、332)を、請求項9に記載の方法で決定することと、
診断および/または予後査定を、前記分類器(118)および/または前記全体分類器(232、332)に帰属させることと、を含む、方法。
【請求項11】
前記対象が、ヒトである、請求項10に記載の方法。
【請求項12】
前記対象から取得された前記または各組織病理学的サンプルが、がんを有する、がんを有する疑いがある、がんに対して治療されている、以前にがんに対して治療されたことがある、かつ/または以前にがんを有したことがある、前記対象の体の一部から取得される、請求項10または11に記載の方法。
【請求項13】
前記がんが、がん腫、肉腫、骨髄腫、白血病、リンパ腫、および混合型のがんからなる群から選択される、請求項1~8のいずれか一項に記載のシステム、または請求項9~12のいずれか一項に記載の方法。
【請求項14】
前記がんが、大腸がんまたは肺がんである、請求項13に記載のシステムまたは方法。
【請求項15】
複数の分類器および/または全体分類器を決定するために、前記対象から取得された複数の組織病理学的サンプルから取得された、複数のソース組織病理学的画像(102、202、302)を評価することと、
任意選択的に、前記診断および/または予後査定を、前記複数の分類器および/または全体分類器に帰属させることと、を含む、請求項10~14のいずれか一項に記載の方法。
【請求項16】
前記方法が、前記がんの1つ以上のさらなる診断および/または予後マーカーを評価することを含み、
診断および/または予後査定を、前記分類器および/または前記全体分類器に帰属させるステップが、前記または各さらなる診断および/または予後マーカーの、前記または各評価の結果の評価を含む、請求項10~15のいずれか一項に記載の方法。
【請求項17】
前記方法が、前記診断および/または予後査定に基づいて、前記対象の治療法の決定を行うことをさらに含み、
任意選択的に、前記治療法の決定が、診断または予後診断されたがん状態、例えば、がん腫、肉腫、骨髄腫、白血病、リンパ腫、および混合型のがんからなる群から選択されるがんに関しており、かつ任意選択的に、前記がんが、大腸がんまたは肺がんである、請求項10~16のいずれか一項に記載の方法。
【請求項18】
治療を必要としている対象において治療する方法であって、診断および/または予後査定が、請求項10~17のいずれか一項に記載の方法によって前記対象に帰属しており、前記方法が、外科手術および/または非外科療法によって前記対象を治療することを含み、
前記診断または予後診断された病的状態の前記治療が、例えば、がん腫、肉腫、骨髄腫、白血病、リンパ腫、および混合型のがんからなる群から選択されるがんの治療であり、かつ任意選択的に、前記がんが、大腸がんまたは肺がんである、方法。
【請求項19】
前記対象が、ヒトである、請求項18に記載の方法。
【請求項20】
前記対象が、
(a)がんを有する、がんを有すると診断されている、がんを有する疑いがある、がんに対して治療されている、以前にがんに対して治療されたことがある、かつ/または以前にがんを有したことがある、かつ/または
(b)がん状態の診断および/または予後査定が、請求項10~17のいずれか一項に記載の方法によって前記対象に帰属している、請求項18または19に記載の方法。
【請求項21】
前記病的状態が、がん腫、肉腫、骨髄腫、白血病、リンパ腫、および混合型のがんからなる群から選択されるがんであり、かつ任意選択的に、前記がんが、大腸がんまたは肺がんである、請求項20に記載の方法。
【請求項22】
前記方法が、請求項10~17のいずれか一項に記載の方法によって前記対象に帰属している、前記診断および/または予後査定を考慮して、前記外科手術および/または非外科療法の、1つ以上のパラメータを適応させることを含み、かつ任意選択的に、
前記外科手術および/または非外科療法の、前記1つ以上のパラメータが、前記外科手術および/または非外科療法の性質、前記外科手術および/または非外科療法のタイミング、前記外科手術および/または非外科療法の期間、前記療法の投薬量、前記非外科療法の投与経路、および前記外科手術および/または非外科療法の標的となる体内の部位、からなる群から選択される、請求項18~21のいずれか一項に記載の方法。
【請求項23】
前記対象の前記診断および/または予後査定が、外科手術および/または非外科療法による、以前のまたは進行中の治療の、前記対象に対する効果の評価を含み、
例えば、かかる治療の進行および/または効果を監視するために、かつさらに任意選択的に、
前記方法が、以前のまたは進行中の治療および/もしくは異なる治療モダリティの実装の中止、継続、反復または修正などのさらなる治療法の決定を行うステップと、任意選択的に、
前記対象に関する前記さらなる治療法の決定を実装するステップと、を含み、
前記診断および/または予後査定、前記治療および/または前記治療法の決定が、がん状態、例えば、がん腫、肉腫、骨髄腫、白血病、リンパ腫、および混合型のがんからなる群から選択されるがんに関しており、かつ任意選択的に、前記がんが、大腸がんである、請求項17~22のいずれか一項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、組織学的画像の分析に関する。これは特に、機械学習アルゴリズムを使用してかかる分析を実施すること、および機械学習アルゴリズムをトレーニングしてこの分析を実施することに関する。
【背景技術】
【0002】
バイオマーカーは、抗がん療法を特定の腫瘍遺伝子型、タンパク質、およびRNA発現プロファイルに一致させるためにますます使用されており、通常は進行性疾患の患者に見られる(La Thangue & Kerr,Nat Rev Clin Oncol,2011;8:587-96、Van Allen et al.,Nat Med,2014;20:682-8、Moscow et al.,Nat Rev Clin Oncol 2018;15:183-92)。
【0003】
この一例に、上皮成長因子受容体阻害剤による治療のためのKRAS野生型大腸がん(CRC)の選択がある(Karapetis et al.,N Engl J Med,2008;359:1757-65)。ただし、CRCの補助療法の設定では、主な質問は2値、治療を提供するかどうか、であり、その後の薬剤の選択、用量、およびスケジュールは、主にコンパニオン診断の存在によってではなく、ステージによって決定される。予後モデルをさらに洗練することが可能である場合、これは、手術のみと比べて、補助化学療法の絶対的利益が最小であり、スペクトルの反対側では、長期の併用化学療法から恩恵を享受する可能性があるサブグループを定義することによって、よりターゲットを絞ったアプローチを可能にするであろう(Kerr & Shi,Nat Rev Clin Oncol,2013;10:429-30、Hutchins et al.,J Clin Oncol,2011;29:1261-70、Salazar et al.,J Clin Oncol,2011;29:17-24、Gray et al.,J Clin Oncol,2011;29:4611-9)。
【0004】
フルロピリミジンを使用した初期のステージのCRC患者を対象とした20年以上の補助試験を、オキサリプラチンなどの細胞毒性薬と組み合わせて行うことにより、ステージII期またはIIIA期CRCの患者の全生存期間(OS)が約3~5%向上し、その大部分(約80%)は手術のみで治癒している。補助化学療法にもかかわらず約20%が再発し、化学療法に関連する死亡率は0.5~1%になる可能性が高く、患者の20%が重大な副作用に苦しむことになる。リスク/ベネフィット比はかなりわずかではあるが、再発およびがん特異的死亡のリスクの高いサブグループを定義できれば、はるかに低くなる可能性がある(Group QC,Lancet,2000;355:1588-96、Quasar Collaborative G,Gray R,Barnwell J,et al.,Lancet,2007;370:2020-9、Andre et al.,J Clin Oncol,2009;27:3109-16、Andre et al.,J Clin Oncol,2015;33:4176-87)。
【0005】
臨床的に検証された予後バイオマーカーは、補助治療の決定を容易にするが、日常的な臨床応用のために十分確実に検証されたものはほとんどない。ミスマッチ修復(MMR)欠損腫瘍の患者は予後が良好である傾向があるため、MMR状態のルーチン評価のためのケースを作成することができる(Sinicrope,Nat Rev Clin Oncol,2010;7:174-7、Mouradov et al.,Am J Gastroenterol,2013;108:1785-93)。本発明者らは、間質画分と組み合わせた腫瘍細胞DNA含有量(倍数性)の測定により、ステージII期の患者を非常に良好、中程度、および不良の予後グループに階層化することができることを最近報告した(Danielsen et al.,Ann Oncol,2018;29:616-23)。興味深いことに、ドライバー変異とRNAシグネチャーの分析は、それらが個々に弱い予後マーカーであり、臨床的意思決定を導くことができないことを示した(上記Grey et al,2011、上記Mouradov et al.,2013)。
【0006】
したがって、生物学的材料中のバイオマーカーを評価するための改良された手段を提供し、予後および診断アプローチなどのために、生物学的材料を分類するための有用かつ効率的な手段を提供する能力をさらに開発する必要がある。
【0007】
深層学習は、いくつかの腫瘍タイプの検出と描写に好適であることがすでに示されており(Ehteshami Bejnordi et al.JAMA,2017;318:2199-210)、様々ながん分類が報告されている(Coudray et al,Nat Med,2018;24:1559-67)。しかしながら、本発明者らは、組織学的画像に基づいて患者の転帰を直接予測するための検証済みのシステムをまだ見ていない。
【0008】
本研究の目的は、深層学習およびデジタル分析の使用を促進して、組織学的画像分析のための完全に自動化されたシステムを開発することである。これは、従来の全スライド画像(WSI)を使用した、原発性CRC患者の予後の予測で試験および検証されている。
【0009】
本明細書で使用する場合、「組織学的画像」は、生物学的材料の微視的構造を示す画像を指す。「関心対象の組織学的特徴」とは、この微視的構造の特徴を意味する。特徴は、例えば、予後、診断、もしくは治療の目的、または科学研究の目的に対する関心対象であり得る。
【0010】
組織学的検体は典型的に、構造を確認して診断を決定するため、または予後の判断を試みるために使用される。
【0011】
組織学的画像が病理に関連する場合、「組織病理学的画像」という用語が使用され得る。
【0012】
微視的スケールでは、細胞の興味深い特徴のうちの多くは、透明で無色であるため、本来は見ることができない。これらの特徴を明らかにするために、検体は通常、顕微鏡下で画像化される前に1つ以上のマーカーで染色される。マーカーは、細胞構造の特定の成分に特異的に結合するように設計された1つ以上の染色剤(染料または色素)を含み、これにより、関心対象の組織学的特徴を明らかにする。
【0013】
一般に使用される染色システムの1つは、H&E(ヘマトキシリンおよびエオシン)と呼ばれる。H&Eには、ヘマトキシリンとエオシンの2つの染料が含まれている。エオシンは酸性染料であり、負に帯電している。エオシンは、塩基性(または好酸性)構造を、赤色またはピンク色に染める。ヘマトキシリンは、塩基性染料とみなすことができる。ヘマトキシリンは、酸性(または好塩基性)構造を、紫がかった青色に染色するために使用される。
【0014】
核内のDNA(ヘテロクロマチンおよび核小体)、ならびにリボソーム内および粗面小胞体内のRNAはどちらも酸性であるため、ヘマトキシリンがそれらに結合して紫色に染色される。いくつかの細胞外物質(すなわち、軟骨中の炭水化物)もまた好塩基性である。細胞質内のほとんどのタンパク質は塩基性であるため、エオシンはこれらのタンパク質に結合してピンク色に染色される。これには、筋細胞、細胞内膜、および細胞外繊維の細胞質フィラメントが含まれる。
【0015】
当業者であれば認識しているであろう、使用され得るいくつかの代替的な染色法の例については、本出願においてさらに考察される。
【0016】
かかる組織学的画像を使用して、特に、疾患であり得る組織、例えば、がん性であり得る組織を評価することができる。したがって、画像は、組織病理学的画像であり得る。組織学的(例えば組織病理学的)画像を分類して、例えば、組織学的画像が取得された対象の診断、予後および/または層別化の目的で、期待される結果を決定して、対象の治療決定を行うため、または対象が受けている治療の効果および/もしくは対象が受けた治療の効果を評価することができることは有用である。
【0017】
従来、関心対象の組織学的特徴は、組織病理学者(これらの画像の解釈に熟練した専門の医療専門家)によって組織学的画像で識別される。
【0018】
しかしながら、実験が行われ、組織病理学者による分類に一貫性がなく、異なる組織病理学者の識別を比較するとき、およびさらに同じ画像を異なる機会に同じ組織病理学者に提示するときの双方において、予後的価値に限界がある場合が多い。かかる不一致、ならびに観察者間および観察者内の変動は深刻な影響を及ぼすおそれがある。
【0019】
したがって、改良型の自動化された組織病理学的画像分析方法および装置が必要である。
【発明の概要】
【課題を解決するための手段】
【0020】
本発明は、特許請求の範囲によって定義される。
【0021】
1つ以上のソース組織学的画像に対する全体分類器を決定するためのコンピュータ実装システムが開示されており、上記システムは、
1つ以上のソース組織学的画像から複数の第1のタイルを生成するように構成された第1のタイル生成器であって、複数の第1のタイルの各々が、第1の面積と、第1の解像度と、を有する、1つ以上のソース組織学的画像の領域を表現する、複数の画素を含む、第1のタイル生成器と、
1つ以上のソース組織学的画像から複数の第2のタイルを生成するように構成された第2のタイル生成器であって、複数の第2のタイルの各々が、第2の面積と、第2の解像度と、を有する、1つ以上のソース組織学的画像の領域を表現する、複数の画素を含み、
第1のタイルの第1の面積が、第2のタイルの第2の面積よりも大きく、
第2のタイルの第2の解像度が、第1のタイルの第1の解像度よりも高い、第2のタイル生成器と、
1つ以上のソース組織学的画像に対する第1の分類器を決定するために、複数の第1のタイルを処理するように構成された、機械学習ネットワークと、
1つ以上のソース組織学的画像に対する第2の分類器を決定するために、複数の第2のタイルを処理するように構成された、機械学習ネットワークと、
第1の分類器と第2の分類器とを結合して、1つ以上のソース組織学的画像に対する全体分類器を決定するように構成された分類器結合器と、を備える。
【0022】
分類器結合器は、
閾値処理された第1の分類器を決定するために、第1の分類器に閾値化関数を適用することと、
閾値処理された第2の分類器を決定するために、第2の分類器に閾値化関数を適用することと、
閾値処理された第1の分類器と閾値処理された第2の分類器とを結合して、全体分類器を決定することと、を行うように構成されてもよい。
【0023】
機械学習ネットワークは、1つ以上のソース組織学的画像に対する複数の第1の分類器を決定するために、複数の第1のタイルを処理するように構成されてもよい。機械学習ネットワークは、1つ以上のソース組織学的画像に対する複数の第2の分類器を決定するために、複数の第2のタイルを処理するように構成されてもよい。
【0024】
分類器結合器は、
結合された第1の分類器を決定するために、複数の第1の分類器に統計関数を適用することと、
結合された第1の分類器を決定するために、複数の第2の分類器に統計関数を適用することと、
結合された第1の分類器と結合された第2の分類器とを結合して、全体分類器を決定することと、を行うように構成されてもよい。
【0025】
分類器結合器は、第1の分類器と第2の分類器との論理的結合を実施して、1つ以上のソース組織学的画像に対する全体分類器を決定するように構成されてもよい。
【0026】
また、組織学的画像を処理するコンピュータ実装方法も開示されており、方法は、
1つ以上のソース組織学的画像を受け取ることと、
1つ以上のソース組織学的画像から複数の第1のタイルを生成することであって、複数の第1のタイルの各々が、第1の面積と、第1の解像度と、を有する、1つ以上のソース組織学的画像の領域を表現する、複数の画素を含む、生成することと、
ソース組織学的画像から複数の第2のタイルを生成することであって、複数の第2のタイルの各々が、第2の面積と、第2の解像度と、を有する、1つ以上のソース組織学的画像の領域を表現する、複数の画素を含み、
第1のタイルの第1の面積が、第2のタイルの第2の面積よりも大きく、
第2のタイルの第2の解像度が、第1のタイルの第1の解像度よりも高い、生成することと、
1つ以上のソース組織学的画像に対する第1の分類器を決定するために、複数の第1のタイルに機械学習ネットワークを適用することと、
1つ以上のソース組織学的画像に対する第2の分類器を決定するために、複数の第2のタイルに機械学習ネットワークを適用することと、
第1の分類器と第2の分類器とを結合して、1つ以上のソース組織学的画像に対する全体分類器を決定することと、を含む。
【0027】
また、1つ以上のソース組織学的画像の全体分類器を決定するためのコンピュータ実装システムも開示されており、上記システムは、
1つ以上のソース組織学的画像から複数のタイルを生成するように構成されたタイル生成器であって、複数のタイルの各々が、1つ以上のソース組織学的画像の領域を表現する、複数の画素を含む、タイル生成器と、
複数のタイルの各々に対するタイル特徴を決定するために、複数のタイルを処理するように構成された第1のニューラルネットワークと、
タイル特徴のサブセットを結合して、サブセットの各々に対するバッグ特徴を生成するように構成されたプーリング関数と、
1つ以上のソース組織学的画像に対する分類器を決定するために、バッグ特徴を処理するように構成された、第2のニューラルネットワークと、を備える。第2のニューラルネットワークは、分類ネットワークであってもよい。
【0028】
システムは、
第2のニューラルネットワークによって決定された分類器を、トゥルースデータによって表現されるグラウンドトゥルースと比較することと、
比較の結果に基づいて、第1のニューラルネットワーク、プーリング関数、および第2のニューラルネットワークに対するトレーニング可能なパラメータを設定することと、を行うように構成された、損失関数をさらに備える。
【0029】
システムは、
ソース組織学的画像を提供するために、全スライド画像組織学的画像に画像セグメンテーション方法を適用するように構成された、セグメンテーションブロックをさらに備える。
【0030】
また、組織学的画像を処理するコンピュータ実装方法も開示されており、上記方法は、
1つ以上のソース組織学的画像を受け取ることと、
1つ以上のソース組織学的画像から複数のタイルを生成することであって、複数のタイルの各々が、ソース組織学的画像の領域を表現する、複数の画素を含む、生成することと、
複数のタイルの各々に対するタイル特徴を決定するために、複数のタイルを第1のニューラルネットワークに適用することと、
タイル特徴のサブセットを結合して、サブセットの各々に対するバッグ特徴を生成することと、
1つ以上のソース組織学的画像に対する分類器を決定するために、バッグ特徴を第2のニューラルネットワークに適用することと、を含む。第2のニューラルネットワークは、分類ネットワークであってもよい。
【0031】
また、1つ以上のソース組織学的画像の全体分類器を決定するためのコンピュータ実装システムも開示されており、上記システムは、
1つ以上のソース組織学的画像から複数の第1のタイルを生成するように構成された第1のタイル生成器であって、複数の第1のタイルの各々が、第1の面積と、第1の解像度と、を有する、1つ以上のソース組織学的画像の領域を表現する、複数の画素を含む、第1のタイル生成器と、
1つ以上のソース組織学的画像から複数の第2のタイルを生成するように構成された第2のタイル生成器であって、複数の第2のタイルの各々が、第2の面積と、第2の解像度と、を有する、1つ以上のソース組織学的画像の領域を表現する、複数の画素を含み、
第1のタイルの第1の面積が、第2のタイルの第2の面積よりも大きく、
第2のタイルの第2の解像度が、第1のタイルの第1の解像度よりも高い、第2のタイル生成器と、
1つ以上のソース組織学的画像に対する第1の分類器を決定するために、複数の第1のタイルを処理するように構成された、機械学習ネットワークであって、
複数の第1のタイルの各々に対するタイル特徴を決定するために、複数の第1のタイルを処理するように構成された第1のニューラルネットワークと、
タイル特徴のサブセットを結合して、サブセットの各々に対するバッグ特徴を生成するように構成されたプーリング関数と、
1つ以上のソース組織学的画像に対する第1の分類器を決定するために、バッグ特徴を処理するように構成された、分類ネットワークである、第2のニューラルネットワークと、を含む、機械学習ネットワークと、
1つ以上のソース組織学的画像に対する第2の分類器を決定するために、複数の第2のタイルを処理するように構成された、機械学習ネットワークであって、
複数の第2のタイルの各々に対するタイル特徴を決定するために、複数の第2のタイルを処理するように構成された第1のニューラルネットワークと、
タイル特徴のサブセットを結合して、サブセットの各々に対するバッグ特徴を生成するように構成されたプーリング関数と、
1つ以上のソース組織学的画像に対する第2の分類器を決定するために、バッグ特徴を処理するように構成された、分類ネットワークである、第2のニューラルネットワークと、を含む、機械学習ネットワークと、
第1の分類器と第2の分類器とを結合して、1つ以上のソース組織学的画像に対する全体分類器を決定するように構成された分類器結合器と、を備える。
【0032】
また、1つ以上のソース組織学的画像に対する全体分類器を決定するためのコンピュータ実装方法も開示されており、上記方法は、
1つ以上のソース組織学的画像から複数の第1のタイルを生成することであって、複数の第1のタイルの各々が、第1の面積と、第1の解像度と、を有する、1つ以上のソース組織学的画像の領域を表現する、複数の画素を含む、生成することと、
1つ以上のソース組織学的画像から複数の第2のタイルを生成することであって、複数の第2のタイルの各々が、第2の面積と、第2の解像度と、を有する、1つ以上のソース組織学的画像の領域を表現する、複数の画素を含み、
第1のタイルの第1の面積が、第2のタイルの第2の面積よりも大きく、
第2のタイルの第2の解像度が、第1のタイルの第1の解像度よりも高い、生成することと、
1つ以上のソース組織学的画像に対する第1の分類器を決定するために、複数の第1のタイルに機械学習ネットワークを適用することであって、上記機械学習ネットワークを適用することが、
複数の第1のタイルの各々に対するタイル特徴を決定するために、複数の第1のタイルに第1のニューラルネットワークを適用することと、
タイル特徴のサブセットを結合して、サブセットの各々に対するバッグ特徴を生成することと、
1つ以上のソース組織学的画像に対する第1の分類器を決定するために、バッグ特徴に第2のニューラルネットワーク(第2のニューラルネットワークは分類ネットワークであってもよい)を適用することと、を含む、適用することと、
1つ以上のソース組織学的画像に対する第2の分類器を決定するために、複数の第2のタイルに機械学習ネットワークを適用することであって、機械学習ネットワークを適用することが、
複数の第2のタイルの各々に対するタイル特徴を決定するために、複数の第2のタイルに第1のニューラルネットワークを適用することと、
タイル特徴のサブセットを結合して、サブセットの各々に対するバッグ特徴を生成することと、
1つ以上のソース組織学的画像に対する第2の分類器を決定するために、バッグ特徴に第2のニューラルネットワーク(第2のニューラルネットワークは分類ネットワークであってもよい)を適用することと、を含む、適用することと、
第1の分類器と第2の分類器とを結合して、1つ以上のソース組織学的画像に対する全体分類器を決定することと、を含む。
【0033】
本明細書に開示される任意の第1のタイル生成器および第2のタイル生成器は、互いに独立してそれらのそれぞれのタイルを生成するように構成されていてもよい。
【0034】
本明細書に開示される任意のシステムは、
複数のソース組織学的画像を提供するために、全スライド画像組織学的画像に画像セグメンテーション方法を適用するように構成された、セグメンテーションブロックをさらに備え得る。
【0035】
本明細書に開示される任意の第1のニューラルネットワークは、トレーニング組織学的画像および関連するグラウンドトゥルースを使用してトレーニングされてもよい。本明細書に開示される任意の第2のニューラルネットワークは、トレーニング組織学的画像および関連するグラウンドトゥルースを使用してトレーニングされてもよい。
【0036】
本明細書に開示される任意の機械学習ネットワークは、トレーニング組織学的画像および関連するグラウンドトゥルースを使用してトレーニングされてもよい。
【0037】
本明細書に開示される任意の方法は、対象の診断および/または予後決定を生成する方法であってもよく、
方法は、対象から取得された1つ以上の組織学的サンプルから取得された、1つ以上のソース組織学的画像を受け取ることを含み、かつ上記方法は、
本明細書に開示される任意の適切な方法に従って、1つ以上のソース組織学的画像(102)に対する分類器を決定すること、および/または本明細書に開示される任意の開示された適切な方法に従って、1つ以上のソース組織学的画像に対する全体分類器を決定すること、および
診断および/または予後査定を、分類器および/または全体分類器に帰属させること、を含む。
【0038】
対象は、ヒトであってもよい。
【0039】
対象は、病的状態を有する可能性があり、病的状態を有すると診断されている可能性があり、病的状態を有する疑いがある可能性があり、病的状態に対して治療されている可能性があり、以前に病的状態に対して治療されたことがある可能性があり、かつ/または以前に病的状態を有したことがある可能性がある。
【0040】
対象から取得された上記または各組織学的サンプルは、病的状態を有する、病的状態を有する疑いがある、病的状態に対して治療されている、以前に病的状態に対して治療されたことがある、かつ/または以前に病的状態を有したことがある、対象の体の一部から取得されてもよい。
【0041】
病的状態は、がん、例えば、がん腫、肉腫、骨髄腫、白血病、リンパ腫、および混合型のがんからなる群から選択されるがんであり得る。
【0042】
がんは、大腸がんであり得る。
【0043】
方法は、複数の分類器および/または全体分類器を決定するために、対象から取得された複数の組織学的サンプルから取得された、複数のソース組織学的画像を評価することと、
任意選択的に、診断および/または予後査定を、複数の分類器および/または全体分類器に帰属させることと、を含み、
任意選択的に、対象が、がん、例えば、がん腫、肉腫、骨髄腫、白血病、リンパ腫、および混合型のがんからなる群から選択されるがんなどの、病的状態を有する、病的状態を有すると診断されている、病的状態を有する疑いがある、病的状態に対して治療されている、以前に病的状態に対して治療されたことがある、かつ/または以前に病的状態を有したことがあり、かつ任意選択的に、がんは、大腸がんであり得る。
【0044】
方法は、病的状態に対する1つ以上のさらなる診断および/または予後マーカーを評価することを含み得、
診断および/または予後査定を、分類器および/または全体分類器に帰属させるステップが、上記または各さらなる診断および/または予後マーカーの、上記または各評価の結果の評価を含み得る。
【0045】
方法は、診断および/または予後査定に基づいて、対象の治療法の決定を行うことをさらに含んでもよく、
任意選択的に、治療法の決定が、診断または予後診断された、がん、例えば、がん腫、肉腫、骨髄腫、白血病、リンパ腫、および混合型のがんからなる群から選択されるがんなどの病的状態に関しており、かつ任意選択的に、がんは、大腸がんである。
【0046】
また、治療を必要としている対象において治療する方法も開示されており、診断および/または予後査定が、本明細書に開示される任意の適切な方法によって対象に帰属しており、上記方法は、外科手術および/または非外科療法によって対象を治療することを含み、
任意選択的に、診断または予後診断された病的状態の治療は、例えば、がん腫、肉腫、骨髄腫、白血病、リンパ腫、および混合型のがんからなる群から選択されるがんに対する治療であり、かつ任意選択的に、がんは、大腸がんである。
【0047】
対象は、ヒトであってもよい。いくつかの例では、対象は、
(a)病的状態を有する、病的状態を有すると診断されている、病的状態を有する疑いがある、病的状態に対して治療されている、以前に病的状態に対して治療されたことがある、かつ/または以前に病的状態を有したことがあり、かつ/または
(b)病的状態の診断および/または予後査定は、本明細書に開示される任意の適切な方法によって対象に帰属している。
【0048】
病的状態は、がん、例えば、がん腫、肉腫、骨髄腫、白血病、リンパ腫、および混合型のがんからなる群から選択されるがんであり得、任意選択的に、がんは、大腸がんである。
【0049】
方法は、本明細書に開示される任意の適切な方法によって対象に帰属している、診断および/または予後査定を考慮して、外科手術および/または非外科療法の、1つ以上のパラメータを適応させることを含み得、かつ任意選択的に、
外科手術および/または非外科療法の、1つ以上のパラメータは、外科手術および/または非外科療法の性質、外科手術および/または非外科療法のタイミング、外科手術および/または非外科療法の期間、療法の投薬量、非外科療法の投与経路、および外科手術および/または非外科療法の標的となる体内の部位、からなる群から選択される。
【0050】
対象の診断および/または予後査定は、外科手術および/または非外科療法による、以前のまたは進行中の治療の、対象に対する効果の評価を含んでもよく、
例えば、かかる治療の進行および/または効果を監視するために、かつさらに任意選択的に、
方法が、以前のまたは進行中の治療および/もしくは異なる治療モダリティの実装の中止、継続、反復または修正などのさらなる治療法の決定を行うステップと、任意選択的に、
対象に関するさらなる治療法の決定を実装するステップと、を含み、任意選択的に、
診断および/または予後査定、治療および/または治療法の決定が、がん、例えば、がん腫、肉腫、骨髄腫、白血病、リンパ腫、および混合型のがんからなる群から選択されるがんなどの、病的状態に関しており、かつ任意選択的に、がんは、大腸がんである。
【0051】
コンピュータプログラムが提供され得、コンピュータプログラムは、コンピュータ上で実行されると、コンピュータに、本明細書に開示されるシステム、ブロックもしくはモジュールを含む任意の装置を構成させるか、または本明細書に開示される任意の方法を実行させる。コンピュータプログラムはソフトウェア実装であってもよく、コンピュータは、デジタル信号プロセッサ、マイクロコントローラ、ならびに非限定的な例として、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM)、消去可能なプログラム可能な読み取り専用メモリ(EEPROM)による実装を含む、任意の適切なハードウェアとみなされ得る。ソフトウェアは、アセンブリプログラムであってもよい。
【0052】
コンピュータプログラムは、ディスクもしくはメモリデバイスなどの物理的なコンピュータ可読媒体であるコンピュータ可読媒体上に提供され得るか、または一過性の信号として具現化され得る。このような一過性の信号は、インターネットのダウンロードを含むネットワークのダウンロードであり得る。
【0053】
次に、本発明を、以下の添付の図面を参照して例として説明する。
【図面の簡単な説明】
【0054】
【
図1】ソース組織病理学的画像などのソース組織学的画像の分類器を決定するための、コンピュータ実装システムを示す。
【
図2】ソース組織病理学的画像などのソース組織学的画像に対する全体分類器を決定するための、コンピュータ実装システムを示す。
【
図3】ソース組織病理学的画像などのソース組織学的画像に対する全体分類器を決定するためのシステムの、特定の実装形態を示す。
【
図4】セグメンテーションネットワークアーキテクチャの例の図を示す。
【
図5】調整セットでのセグメンテーション方法の実施を示す。
【
図6】
図3の機械学習ネットワークアーキテクチャのこの実装形態の図を示す。
【
図7A】トレーニングコホートで予後が不明確であった患者に関する機械学習ネットワーク3の21の候補10xモデルのc-indexを示す。
【
図7B】トレーニングコホートで予後が不明確であった患者に関する機械学習ネットワーク3の21の候補10xモデルのc-indexを示す。
【
図7C】トレーニングコホートで予後が不明確であった患者に関する機械学習ネットワーク3の21の候補10xモデルのc-indexを示す。
【
図8A】トレーニングコホートで予後が不明確であった患者に関する機械学習ネットワーク3の21の候補40xモデルのc-indexを示す。
【
図8B】トレーニングコホートで予後が不明確であった患者に関する機械学習ネットワーク3の21の候補40xモデルのc-indexを示す。
【
図8C】トレーニングコホートで予後が不明確であった患者に関する機械学習ネットワーク3の21の候補40xモデルのc-indexを示す。
【
図9A】トレーニングコホートで予後が不明確であった患者に関するInception v3ネットワークの21の候補10xモデルのc-indexを示す。
【
図9B】トレーニングコホートで予後が不明確であった患者に関するInception v3ネットワークの21の候補10xモデルのc-indexを示す。
【
図9C】トレーニングコホートで予後が不明確であった患者に関するInception v3ネットワークの21の候補10xモデルのc-indexを示す。
【
図10A】トレーニングコホートで予後が不明確であった患者に関するInception v3ネットワークの21の候補40xモデルのc-indexを示す。
【
図10B】トレーニングコホートで予後が不明確であった患者に関するInception v3ネットワークの21の候補40xモデルのc-indexを示す。
【
図10C】トレーニングコホートで予後が不明確であった患者に関するInception v3ネットワークの21の候補40xモデルのc-indexを示す。
【
図11A】トレーニングコホートで予後が不明確であった患者について、0.01、0.02など~最大0.99を含む閾値で閾値処理された、アンサンブルモデルの予後不良の予測確率のc-indexを示す。
【
図11B】トレーニングコホートで予後が不明確であった患者について、0.01、0.02など~最大0.99を含む閾値で閾値処理された、アンサンブルモデルの予後不良の予測確率のc-indexを示す。
【
図12】Ahusコホートからの患者、スライドおよびスライド画像の、包含および除外を特定する図を示す。
【
図13】Akerコホートからの患者、スライドおよびスライド画像の、包含および除外を特定する図を示す。
【
図14】Gloucesterコホートからの患者、スライド、およびスライド画像の包含および除外を特定する図を示す。
【
図15】VICTORコホートからの患者、スライド、およびスライド画像の包含および除外を特定する図を示す。
【
図16A】検証コホートにおけるDoMore-v1-CRCマーカーの一次分析およびステージ固有の分析を示し、ここで、(A)Aperio AT2画像を使用して評価されたすべての患者の結果を示す、(B)NanoZoomer XR画像を使用して評価されたすべての患者の結果を示す、(C)Aperio AT2画像を使用して評価されたステージII期の結果を示す、(D)Aperio AT2画像を使用して評価されたステージIII期の結果を示す、(E)Aperio AT2画像を使用して評価されたpN2の結果を示す、かつ(F)Aperio AT2画像を使用して評価されたPT4の結果を示す。
【
図16B】検証コホートにおけるDoMore-v1-CRCマーカーの一次分析およびステージ固有の分析を示し、ここで、(A)Aperio AT2画像を使用して評価されたすべての患者の結果を示す、(B)NanoZoomer XR画像を使用して評価されたすべての患者の結果を示す、(C)Aperio AT2画像を使用して評価されたステージII期の結果を示す、(D)Aperio AT2画像を使用して評価されたステージIII期の結果を示す、(E)Aperio AT2画像を使用して評価されたpN2の結果を示す、かつ(F)Aperio AT2画像を使用して評価されたPT4の結果を示す。
【
図16C】検証コホートにおけるDoMore-v1-CRCマーカーの一次分析およびステージ固有の分析を示し、ここで、(A)Aperio AT2画像を使用して評価されたすべての患者の結果を示す、(B)NanoZoomer XR画像を使用して評価されたすべての患者の結果を示す、(C)Aperio AT2画像を使用して評価されたステージII期の結果を示す、(D)Aperio AT2画像を使用して評価されたステージIII期の結果を示す、(E)Aperio AT2画像を使用して評価されたpN2の結果を示す、かつ(F)Aperio AT2画像を使用して評価されたPT4の結果を示す。
【
図17A】試験コホートにおいてAperio AT2スライド画像で評価されたDoMore-v1-CRCマーカーの結果を示す。通常のDoMore-v1-CRCマーカーは、A、C、およびDで評価し、ここで、A)DoMore-v1-CRCによって評価されたすべての患者に関連する、C)DoMore-v1-CRCによって評価されたステージII期に関連する、かつD)DoMore-v1-CRCによって評価されたステージIII期に関連する。Bで評価したバイナリDoMore-v1-CRCマーカーは、DoMore v1ネットワークの2つのアンサンブルモデル(1つは10x、1つは40x)の予測確率を平均し、平均を0.58で閾値処理することによって作成し、閾値は、2つのアンサンブルモデルから2つのアンサンブルマーカーを作成するために適用されたものと同じ方法を使用して計算した(例1の分類セクションを参照)。
【
図17B】試験コホートにおいてAperio AT2スライド画像で評価されたDoMore-v1-CRCマーカーの結果を示す。通常のDoMore-v1-CRCマーカーは、A、C、およびDで評価し、ここで、A)DoMore-v1-CRCによって評価されたすべての患者に関連する、C)DoMore-v1-CRCによって評価されたステージII期に関連する、かつD)DoMore-v1-CRCによって評価されたステージIII期に関連する。Bで評価したバイナリDoMore-v1-CRCマーカーは、DoMore v1ネットワークの2つのアンサンブルモデル(1つは10x、1つは40x)の予測確率を平均し、平均を0.58で閾値処理することによって作成し、閾値は、2つのアンサンブルモデルから2つのアンサンブルマーカーを作成するために適用されたものと同じ方法を使用して計算した(例1の分類セクションを参照)。
【
図18】QUASAR 2コホートからの患者、スライド、およびスライド画像の包含および除外を特定する図を示す。
【
図19】予後良好、不確実な予後、および予後不良として予測された患者グループのハザード比を使用したカプランマイヤー曲線を示す。A)Aperio AT2を用いたスキャンの結果、B)NanoZoomer XRを用いたスキャンの結果。注:ラベルに(%)が含まれているにもかかわらず、がん特異的生存率はパーセントではない。
【発明を実施するための形態】
【0055】
1.本開示のコンピュータシステム
1.1 第1のコンピュータシステム例
図1は、ソース組織病理学的画像などの1つ以上のソース組織学的画像102の分類器118を決定するための、コンピュータ実装システム100を示す。
【0056】
以下で考察するように、システム100は、2つのニューラルネットワーク108、116を含む機械学習アルゴリズムを適用するネットワークアーキテクチャ111を含む。システム100がトレーニングされているとき、受け取られたソース組織学的画像102は、トレーニング組織病理学的画像などのトレーニング組織学的画像を含み、システム100はまた、トレーニング組織学的画像と関連付けられた既知の結果(「グラウンドトゥルース」)を表す、受け取られたトゥルースデータ120を処理する。トレーニングの目的で、システム100を適用する目的は、様々なトレーニング可能なパラメータ(2つのニューラルネットワーク108、116と関連付けられたものを含む)を適切に構成することであり、パラメータは、ソース組織病理学的画像などその後に受け取られたソース組織学的画像102を正確に分類するために使用される。
【0057】
以下でも考察するように、システム100を使用して、結果(「グラウンドトゥルース」)が既知でないソース組織病理学的画像などの1つ以上のソース組織学的画像102を処理することができる。この場合、システムは、システム100の出力が受け取られたソース組織学的画像102に対する分類器118となるように、(トレーニング組織病理学的画像などの)トレーニング組織学的画像を使用して構成された、ニューラルネットワーク108、116を適用することができる。
【0058】
本明細書の1.1節および1.2節(および他の節)の具体的な記載では、各タイルが単一のソース組織学的画像の画素のサブセットになるような、単一のソース組織学的画像を複数のタイルに分割するアプリケーションについて説明する。他の例では、タイルがソース組織学的画像全体またはソース組織学的画像の画素のサブセットであり得るように、複数のソース組織学的画像を処理することができる。任意選択的に、各ソース組織学的画像が複数のタイルに分割され、各タイルが各単一のソース組織学的画像の画素のサブセットとなるように、複数のソース組織学的画像が処理される。
【0059】
例えば、限定されないが、複数のソース組織学的画像は、同じ組織学的検体からの、および/または同じ生物学的ソースから取得された異なる組織学的検体からのものであり得る。例えば、複数のソース組織学的画像は、同じ有機体から取得された異なる組織学的検体からのものであってもよく、その場合、それらの異なる組織学的検体は、例えば、同じ組織から、もしくは同じ有機体内の異なる組織から、同じ器官から、もしくは同じ有機体内の異なる器官から、または同じ構造から、もしくは同じ有機体内の異なる構造からのものであってもよい。
【0060】
複数のソース組織学的画像を処理することにより、システムは単一の生物学的ソースの異なる場所に存在する特徴を考慮することができる。そのような場所は、任意選択的に、単一の生物学的ソースに存在する異なる平面(例えば、平行または実質的に平行な平面、または交差する平面)を表すことができる。したがって、そのようなアプローチは、単一の生物学的ソース内の異なる場所に関する情報を生成するために使用することができる。そのような例の1つは、複数の平行または実質的に平行な平面からの画像を使用して、その生物学的ソースに関連する3次元情報を生成することである。そのような情報は、「3次元ソース組織学的画像」とみなすことができ、本発明の実施において、ソース組織学的画像の1つの任意選択的な形態として考慮することもできる。
【0061】
任意選択的に、3次元ソース組織学的画像は、例えば、本出願の2.4節で考察するように、生物学的ソースから取得される生物学的材料の、複数の物理的に分離した(典型的には、連続する平行または本質的に平行な)切片から構築され得る。3次元ソース組織学的画像を取得する別の手段として、例えば、本出願の2.4節で考察するように、選択的集束技法を使用して、「厚い」組織学的セクションから複数の組織学的画像を取得することがある。
【0062】
別のそのような例として、例えば腫瘍の不均質性を決定するために、単一の生物学的ソース内の複数の個別の場所に関する情報を生成することがある。かかる処理についてのさらなる詳細を以下に示す。
【0063】
1.1.1 機械学習アルゴリズムのトレーニング
本節は、
図1のシステム100の機械学習アルゴリズムのトレーニングに関する。
【0064】
システム100は、1つ以上のソース組織病理学的画像などの、1つ以上のソース組織学的画像102を受け取るタイル生成器104を含む。システムがトレーニングされているとき、ソース組織学的画像102は、トレーニング組織学的画像と呼ぶことができる。システムが1つ以上のソース組織病理学的画像102を使用してトレーニングされているとき、各画像は、トレーニング組織病理学的画像と呼ぶことができる。ソース組織学的画像の様々な例が本明細書で説明され、システム100は、任意のタイプの組織病理学的画像を含むがこれに限定されない、任意のタイプの組織学的画像を処理できることが理解されよう。いくつかの例では、上記または各1つ以上のソース組織学的画像102は、タイル生成器104に提供される前にセグメント化されていてもよい。例えば、
図3を参照して以下で詳細に説明するように、任意選択的なセグメンテーションブロック122は、ソース組織学的画像102を提供するために、WSI組織病理学的画像などのWSI組織学的画像124を処理し得る。(WSIは全スライド画像(whole slide image)の略である。)いくつかの例では、セグメンテーションブロック122自体がニューラルネットワークであってもよい。
【0065】
タイル生成器104は、1つ以上のソース組織病理学的画像などの1つ以上のソース組織学的画像102から、複数のタイル106を生成する。複数のタイル106の各々は、ソース組織学的画像102の領域を表す複数の画素を含む。いくつかの例では、複数のタイルは長方形であり得、1つ以上のソース組織学的画像102の隣接する領域に対応することができる。いくつかの例では、上記または各ソース組織学的画像102の画素は、単一のタイルのみに含まれる。必要に応じて、タイルは、互いに離間するか、互いに近接するか、または互いに重なり合うことができる。一部のアプリケーションでは、上記または各ソース組織学的画像102の一部がどの画素にも含まれない場合があり、これは例えば、ソース組織学的画像102の周辺に完全なタイルを形成するために配置された画素が不十分な場合などである。
【0066】
タイル生成器104(またはシステム100の別の構成要素)は次に、複数のタイル106のサブセットを、複数インスタンス学習において既知の「バッグ」に割り当てる。タイルはバッグにランダムに割り当てられ得る。一例では、タイルは、置き換えなしでランダムに均一に描画することができる。バッグが画像内のすべてのタイルに適合し得る場合、すべてのタイルが順番にサンプリングされる。そうでない場合は、いくつかの基準(トレーニング中に変更され得る)に基づいて、いくつかのタイルに他のタイルよりも大きな重みを与えるサンプリングスキームが適用され得る。
【0067】
各バッグは、複数のタイル106のサブセットを表す。画像内のすべてのタイルの集合体は、Iで表わされる。同じ画像のタイルの集合体は、バッグと呼ばれ、バッグの集合体は、バッチ(またはミニバッチ)と呼ばれる。個々のタイルにはグラウンドトゥルース(ラベル)が割り当てられておらず、代わりに、タイルのバッグが元の画像のグラウンドトゥルースを継承する。本発明者らは、タイルの集合体としてのバッグをB⊆Iで表す。
【0068】
第1のニューラルネットワーク108、プーリング関数112、および第2のニューラルネットワーク116をまとめて、複数インスタンス学習を使用して機械学習アルゴリズムを適用するためのネットワークアーキテクチャ111とみなすことができる。トレーニングの1つの更新ステップを以下に要約し、続く説明で詳細に考察する。
1.バッグのバッチを、ネットワークアーキテクチャ111に入力する。
2.第1のニューラルネットワーク(表現ネットワーク)が、各タイル106をタイルの表現(タイル特徴110)にマッピングする。
3.プーリング関数112によってタイル特徴100を集約する。
4.第2のニューラルネットワーク(分類ネットワーク)が、プーリングされたタイル特徴(バッグ特徴114)を入力として受け取り、予測(分類器18)を生成する。
5.この予測(分類器118)を、損失関数を使用して基準分類(トゥルースデータ120)と比較する。
6.ネットワークのパラメータに関する損失関数の微分係数を使用して、ネットワークアーキテクチャ111のそれぞれのパラメータを更新する。第1のニューラルネットワーク108(表現ネットワーク)、プーリング関数112、および第2のニューラルネットワーク116(分類ネットワーク)はすべて、損失関数の微分係数に基づいて更新されるトレーニング可能なパラメータを有することができる。ネットワーク111全体をエンドツーエンドでトレーニングすることができる。
【0069】
説明の残りの部分では、バッチ次元を無視する(暗黙的にバッチサイズを1と想定する)。1より大きいバッチサイズに拡張すると、ニューラルネットワークを用いた通常の深層学習設定で期待されるように機能する。
【0070】
第1のニューラルネットワーク108は、複数のタイル106のタイル特徴110を決定するために、これらのタイル106の少なくともいくつかを処理する。タイル特徴110は、関連する入力タイル106の表現である。第1のニューラルネットワーク108は、表現ネットワークとも称され得、複数のタイル106の各々に適用される比較的軽量のニューラルネットワークを含むことができる。1つのアプリケーションでは、第1のニューラルネットワーク108は、本明細書で(例えば、本出願の1.3.4節で)さらに説明するように、既知のMobileNetV2ネットワークを使用して実装される。タイル106から特徴を抽出することができる任意のニューラルネットワークは、第1のニューラルネットワーク108として使用できることが理解されよう。例えば、ネットワークの選択が全体的な分類性能に寄与する可能性はあるが、任意の畳み込みネットワークを使用することができる。第1のニューラルネットワーク108として使用できるネットワークの周知の例として、VGGファミリ、インセプションファミリ、およびResNetが挙げられる。
【0071】
第1のニューラルネットワーク108を、例えば第1のニューラルネットワーク108の重み値(または他のトレーニング可能なパラメータ)を調整することによってトレーニングするためのメカニズムを、以下に説明する。この例では、第1のニューラルネットワーク108の出力は、ソース組織学的画像102と関連付けられたグラウンドトゥルース(すなわち、既知の真の結果)を表すトゥルースデータ120と直接比較されない。
【0072】
第1のニューラルネットワーク(表現ネットワークとも称され得る)は、関数
【数1】
であり、形状m×n×cのタイルxをサイズsのタイルf
r(x;θ
r)の何らかの機能表現にマッピングする。この関数は、例えば、通常の畳み込みニューラルネットワークとすることができる。表現ネットワークと関連付けられたトレーニング可能なパラメータは、θ
rで表される。
【0073】
この例では、第1のニューラルネットワーク108がバッグB内のすべてのタイルに適用され、表現R={fr(x;θr):x∈B}のバッグを作成する。同じ更新内では、バッグ内のすべてのタイル、およびバッチ内のすべてのバッグは、θrの同じ値を持つまったく同じ第1のニューラルネットワーク108を使用することに留意のこと。バッチ内のすべての表現は、次のステップの前に、計算および格納することができる。
【0074】
複数のタイル106の各々のタイル特徴110は、第1のニューラルネットワーク108によって出力され、プーリング関数112に提供される。プーリング関数112は、タイルのバッグの、タイルと関連付けられたタイル特徴110を組み合わせて、バッグの各々にバッグ特徴114を提供することができる。
【0075】
プーリング関数112は、タイル特徴のセットR110を1つのバッグBの単一の表現に減らすことができ、典型的には関数
【数2】
であり、ここで、bはバッグ内のタイルの数である。この関数は、バッグ内のすべてのタイルの最終的な表現に依存し得るため、これらすべての表現が計算される前には計算されない場合がある。この関数は、トレーニング可能なパラメータを有することもでき、その集合体は、θ
pで表される。
【0076】
これらのバッグ特徴114は、下流のマルチインスタンス学習(MIL、multiple-instance learning)アルゴリズムによる処理に好適である。1つのアプリケーションでは、プーリング関数112は、既知のNoisy-ANDプーリング関数を適用して、バッグ特徴114を生成することができる。他の例では、プーリング関数112は、合計、平均、中央値などの任意の縮小関数を、(入力タイル表現とみなすことができる)タイル特徴110に適用することができる。他の、使用可能なより洗練された例として、Noisy-OR、ISR、一般化平均、LSEが挙げられる。
【0077】
第2のニューラルネットワーク116は、1つ以上のソース組織病理学的画像などの1つ以上のソース組織学的画像102に対する分類器118を決定するために、バッグ特徴114のそれぞれを処理する。第2のニューラルネットワーク116は、分類ネットワークと呼ぶことができる。いくつかの例では、第2のニューラルネットワーク116は、完全に接続されたニューラルネットワークとして提供することができる。
【0078】
第2のニューラルネットワーク116(分類ネットワーク)の特徴は、
【数3】
で表すことができ、式中、kはクラスの数である。この関数は、関数自体のトレーニング可能なパラメータのセットθcでパラメータ化することができ、出力範囲は典型的に[0,1]であり、すべてのフィッティング入力
【数4】
に対するk個のクラスすべての合計
【数5】
となる。これにより、この関数の出力は、入力を条件として、可能な出力クラスに対する予測確率として解釈することができる。バッグ内のすべてのタイルは、バッグごとに1つの単一の予測に寄与するため、ネットワーク111はタイルごとの予測を提供しないが、
図1に示す分類器118としてバッグごとの予測を提供することに留意されたい。
【0079】
トレーニングフェーズの間、システム100は、トゥルースデータ120も受け取る。トゥルースデータ120は、ソース組織病理学的画像などの、上記または各ソース組織学的画像102と関連付けられたグラウンドトゥルース(すなわち、既知の真の結果)を表す。例えば、限定されないが、トレーニングフェーズが同じ組織学的検体からの、かつ/または同じ生物学的ソースから取得された異なる組織学的検体からの複数のソース組織学的画像の使用を伴う場合、トゥルースデータ120は、上記または各組織学的検体が取得されたものと同じ生物学的ソースと関連付けられた同じグラウンドトゥルース(すなわち、同じ既知の真の結果)を表し得る。
【0080】
フルネットワーク111の関数は、
【数6】
として表すことができ、これによりタイルBの各バッグの予測f(B;θr,θp,θc)を表す分類器118が生成される。損失関数L126は、分類器118をトゥルースと比較する。以下の説明では、損失関数は、勾配ベースの最適化方法を使用して最適化するのに十分に微分可能であると想定している。これは
図1では処理ブロック113によって図示されており、損失関数126の出力を処理し、第1のニューラルネットワーク108、プーリング関数112、および第2のニューラルネットワーク116の各々のトレーニング可能なパラメータθ
r、θ
p、θ
cを更新する。トレーニング可能なパラメータのうちの1つ以上は、重み付け値と称され得る。
【0081】
理想的にはバッグ内のタイルが画像全体に広がることが望まれるが、これは一部のアプリケーションのハードウェアの制約によって制限される可能性があり、多くの場合、サブサンプリングが必要となる。原則として、多くの異なる方法で画像からタイルをサンプリングできるが、事前の知識がないと仮定すると、置換なしの均一でランダムなサンプリングで十分である。タイルのランダムなサブサンプリングでは、画像が毎回同じ構成のタイルで表現される可能性はほとんどない。これは、トレーニングに規則性効果(regularizing effect)をもたらし、一般化に役立つ可能性がある。
【0082】
上に示したように、バッグには元の画像のラベルが付与されており、バッグ内のタイルが画像全体に広がらない場合、この割り当ては完全に正当化されない可能性がある。ただし、画像ラベルをタイルのバッグに割り当てることによって発生する誤差は、画像ラベルを単一のタイルに割り当てることよりも小さいことが見出されている。この仮定は、1つのタイルを含むバッグから画像内のすべてのタイルを含むバッグまで、バッグ内のタイルによって表現される領域が増えると、近似誤差が減少することを暗示している。
【0083】
ネットワーク111のトレーニング中に画像を表現するためにできるだけ多くのタイルを使用することが望ましい場合があり、大きな画像の場合、バッグあたりのタイルの数は、方法が実行されるハードウェアのメモリによって制限される可能性がある。第1のニューラルネットワーク108(表現ネットワーク)は、このフレームワークのメモリの最大の消費者となり得る。順伝播では、バッグ内のすべてのタイルが第1のニューラルネットワークによって処理され得るが、順方向伝播でさらに使用されるのは、タイルの表現(すなわち、タイル特徴110)のみである。タイル特徴110の格納および処理に必要とされるメモリは、関連するタイル画像106を格納および処理するよりもかなり少ない可能性がある。
【0084】
勾配ベースの最適化方法は、ネットワーク111「内」の各タイルの中間表現を使用して、ネットワークのパラメータを更新することができる。これは、損失関数126の出力に基づいて関連する勾配が計算されるまで、これらの中間表現(タイル特徴110を含む)が格納されることを意味する。逆伝播で使用されるタイルの数を減らすことにより、メモリフットプリントを大幅に減らすことができる。したがって1つのアプリケーションでは、ネットワーク111は、第2のニューラルネットワーク116の順伝播ではバッグB全体を使用できるが、逆伝播ではバッグのサブセットG⊆Bのみを使用できる。このようなアプリケーションでは、この勾配寄与の切り捨てを採用するのは、第2のニューラルネットワークのみであり得ることに留意されたい。バッグからのすべてのタイル特徴110は、プーリング関数112、ひいては第2のニューラルネットワーク116によって使用されることができ、プーリング関数112および第1のニューラルネットワーク108と関連付けられたパラメータ(θp,θc)の更新は、第1のニューラルネットワークにおける切り捨ての影響を受けない。
【0085】
ネットワーク111内のすべてのトレーニング可能なパラメータは、このフィードバックメカニズムを使用して繰り返し更新することができる。
【0086】
以下で詳細に記載するように、本システムは、機械学習アルゴリズム108の一部として使用される最終的な重み付け値または他のトレーニング可能なパラメータを選択するために、トレーニングループを回る複数の反復を適用することができる。したがって、ネットワーク111をトレーニングに適用する目的は、上述のように、ネットワーク111を適切に構成して、後で受け取るソース組織病理学的画像などの、結果(「グラウンドトゥルース」)が既知でないソース組織学的画像102を正確に分類できるようにすることである。
【0087】
いくつかの例では、トレーニングフェーズは、1つ以上のトレーニングコホートからのデータの処理を伴う場合がある。より大きなトレーニングコホートを使用すると、結果が既知でないソース組織学的画像102に対する分類器118を後で決定するための、より優れたシステム100をもたらすことができることが理解されよう。例えば、トレーニングコホートは、少なくとも100、200、300、400、500、600、700、800、900、1000、1500、200、2500、3000、4000、5000、6000、7000、8000、9000、10000またはそれ以上の異なる生物学的ソースから選択され得る、いくつかの異なる生物学的ソースの各々からの1つ以上のソース組織学的画像を含み得、この場合、トレーニングコホートの各生物学的ソースについてグラウンドトゥルースは既知である。
【0088】
トレーニングコホートの処理に続いて、システムは、トレーニングコホートからのデータを使用して調整プロセスを適用すること、および/または検証コホートからのデータを使用して検証プロセスを適用することができる。調整コホートおよび/または検証コホートは、例えば、いくつかの異なる生物学的ソースの各々からの1つ以上のソース組織学的画像を含み得、異なる生物学的ソースの数は、例えば、トレーニングコホートにおける異なる生物学的ソースの数とほぼ同じ数(例えば、±50%、40%、30%、20%、10%、5%以下)、少なくとも同じ数、またはそれより多い数(例えば、少なくとも50%、60%、70%、80%、90%、100%以上)であり得る。例示的な詳細を以下に述べるが、これらは限定的ではなく、当業者は、周知の一般的な知識を利用して、このプロセスで使用するための好適なトレーニングコホート、調整コホート、および/または検証コホートを選択することができる。
【0089】
1.1.2 トレーニングされた機械学習アルゴリズムの使用
本節では、
図1のネットワーク111を、結果(「グラウンドトゥルース」)が既知でない1つ以上の未分類のソース組織病理学的画像などの、1つ以上の未分類のソース組織学的画像102に適用することに関する。これは、推論とも称される。例えば、ネットワーク111は、上でさらに考察されたように、3次元ソース組織学的画像に存在する複数のソース組織学的画像に適用され得る。
【0090】
すなわち、システム100は、上記または各受け取ったソース組織学的画像102に対する分類器118を決定するために、(トレーニング組織病理学的画像などの)トレーニング組織学的画像を使用して構成されたネットワーク111を適用することができる。トレーニングフェーズと同様に機能する処理ブロックについては、ここで同様の詳細は記載しない。
【0091】
この例、および本明細書に記載する他の例では、分類されていない画像を処理するために使用されるシステム100は、トレーニング組織学的画像および関連するグラウンドトゥルースを使用してトレーニングされている。より具体的には、第1のニューラルネットワーク、プーリング関数、および第2のニューラルネットワークのうちの1つ以上が、トレーニング組織学的画像および関連するグラウンドトゥルースを使用してトレーニングされている。当技術分野で知られているように、トレーニングは、非限定的な例として、ループを回る最大反復回数が実施されるまで、または損失関数が許容可能な低値に達するまで実施され得る。その時点で、トレーニングは完了したとみなすことができる。(これは、必要に応じて、トレーニングを後日再開できないということではない。)例えば、最適化は、固定されたエポックのセット(データセットの完全なトラバース)に対して実施できる。したがって、トレーニングセットに100枚の画像があり、アルゴリズムがバッチサイズ5の10エポックでトレーニングする場合、終了前に200の最適化ステップが実施されることになる。より一般的には、数値最適化では、損失関数値に基づいて最適化を終了できる。例として、(1)値が、ある閾値を下回っている場合、(2)最後のk個のステップの値の絶対変化が、ある閾値を下回っている場合、(3)現在の値に対する最後のk個のステップの値の変化が、ある閾値を下回っている場合、があり得る。
【0092】
上記と同じ方法で、タイル生成器104は、1つ以上のソース組織学的画像102を受け取り、上記または各ソース組織学的画像102から複数のタイル106を生成する。
【0093】
第1のニューラルネットワーク108は、複数のタイル106のタイル特徴110を決定するために、複数のタイル106を処理する。第1のニューラルネットワーク108は、トレーニングフェーズ中に決定された重み付け値を適用するニューラルネットワークを利用することができる。第1のニューラルネットワーク108は、画像内のすべてのタイルに適用されることができる。これは、一度に1つのタイルで行うことができ、各タイル特徴110は、すべてのタイルが第1のニューラルネットワーク108によって処理されるまで格納することができる。各タイル表現110はごく少量のメモリしか必要とし得ないため、推論における画像あたりのタイルの数は、すべての実用的な目的のために、メモリ要件に関してほぼ無制限である。
【0094】
プーリング関数112は、タイル特徴110を集約して、バッグ特徴114を提供する。任意選択的に、特に未分類のソース組織学的画像102を処理する場合、プーリング関数112は、バッグ特徴114のバッグを生成し得、これらのバッグ間にすべてのタイル特徴110が含まれる。すなわち、タイル特徴110のいずれも、バッグ特徴114から除外され得ない。
【0095】
第2のニューラルネットワーク116は、上記または各ソース組織学的画像102に対する分類器118を決定するために、バッグ特徴114を処理する。
【0096】
バッグサイズは、(未分類の画像データに適用したときは)トレーニングと推論で異なる可能性があるが、トレーニングに成功したネットワークでも妥当な結果を生み出すことがわかっている。ネットワーク111が推論のために画像内のすべてのタイルを使用するアプリケーションの場合、画像は通常、トレーニングよりも推論においてより適切に表現される。ネットワーク111が画像全体にわたって一般化できる特徴を学習することを可能にできるので、トレーニングのためには比較的大きなバッグサイズを有することが有利であり得る。いくつかの例では、画像全体からの5%、8%、10%、15%、または20%を超えるタイルを含むバッグは、大きなバッグとみなすことができる。一部のアプリケーションでは、推論中にも比較的大きなタイルのバッグを使用する場合がある。例えば、アルゴリズムは推論中にタイルをサブサンプリングして大きなバッグを生成し、それによって分類を高速化する場合がある。
【0097】
関連するトゥルースデータ120がないために未分類であるソース組織学的画像102を処理する場合は、損失関数126は適用されないことが理解されよう。
【0098】
任意選択的に、
図3を参照して詳細に記載するように、
図1のシステム100の1つ以上の部分は、全体分類器を決定するために組み合わされ得る、画像または画像の集合体に対する複数の分類器118を決定するために、複数回適用され得る。
【0099】
有利には、
図1のシステムは、組織学的画像を正確かつ効率的に分類することができ、特に大腸がんなどの予後を分類するために使用することができる。
【0100】
1.2 第2のコンピュータシステム例
図2は、1つ以上のソース組織病理学的画像などの1つ以上のソース組織学的画像202に対する全体分類器232を決定するためのコンピュータ実装システム200を示す。これは、任意選択的に、上でさらに考察したように、3次元ソース組織学的画像に存在する複数のソース組織学的画像などのソース組織学的画像202の集合体のための全体分類器232の決定を含み得る。
【0101】
以下で考察するように、システム200を使用して、結果が既知でない1つ以上のソース組織病理学的画像などの1つ以上のソース組織学的画像202を処理することができる。システムは、トレーニングフェーズで、(トレーニング組織病理学的画像などの)トレーニング組織学的画像を使用して適切に構成された、機械学習ネットワーク211、215を適用することができる。機械学習ネットワーク211、215は、当技術分野で知られている任意の方法でトレーニングすることができる。いくつかの例では、機械学習ネットワーク211、215の各々は、
図1を参照して記載したネットワーク111を含むことができ、
図1を参照して記載したものと同様にトレーニングすることができる。すなわち、機械学習ネットワーク211、215の各々は、第1のニューラルネットワーク、プーリング関数、および第2のニューラルネットワークを含み得る。以下の
図3は、
図1および
図2のシステムをこのように組み合わせた例である。
【0102】
一実施形態では、システム200は、第1のタイル生成器204および第2のタイル生成器205を含み、これらは両方とも、同じ1つ以上のソース組織学的画像202を受け取る。
図1と同様に、
図2のシステム200は、任意のタイプの組織病理学的画像などの、任意のタイプの組織学的画像を処理することができる。また、1つ以上のソース組織学的画像202は、1つ以上のWSI組織学的画像224を処理する任意選択的なセグメンテーションブロック222によって提供され得る。
【0103】
この実施形態では、第1のタイル生成器204は、上記または各ソース組織学的画像202から複数の第1のタイル206を生成し、第2のタイル生成器205は、上記または各ソース組織学的画像202から複数の第2のタイル207を生成する。
【0104】
代替的な実施形態では、システム200は第1のタイル生成器204および第2のタイル生成器205を含み、これらの生成器は、同じ組織学的ソースサンプルからの異なる倍率の組織学的画像を得ることによって生成された、異なるソース組織学的画像202(それぞれ、第1のソース組織学的画像および第2のソース組織学的画像)を受け取る。第1のソース組織学的画像202および第2のソース組織学的画像202は、画像生成時に同じ組織学的サンプルの画像化に適用された、少なくとも倍率に関しては(典型的には倍率に関してのみ)、異なる場合がある。
【0105】
この代替的な実施形態では、第1のタイル生成器204は、第1のソース組織学的画像202から複数の第1のタイル206を生成し、第2のタイル生成器205は、第2のソース組織学的画像202から複数の第2のタイル207を生成する。
【0106】
いずれかの実施形態では、複数の第1のタイル206の各々は、第1の面積および第1の解像度を有するソース組織学的画像206の領域を表す複数の画素を含み、複数の第2のタイル207の各々は、第2の面積および第2の解像度を有するソース組織学的画像の領域を表す複数の画素を含む。第1のタイル206の第1の面積は、第2のタイル207の第2の面積よりも大きい。このようにして、第1のタイル206は、第2のタイル207よりも、ソース組織学的画像202のより広い領域を表し、したがってソース組織学的画像202に示される組織学的検体のより広い領域も表す。
【0107】
第1のタイル206の第1の解像度は、第2のタイル207の第2の解像度よりも低い。このようにして、第2のタイル207は、第1のタイル206よりも高精細でより詳細なソース組織像202を示す。したがって、第2のタイル207は、ソース組織学的画像202に示されている組織学的検体をより詳細に示している。
【0108】
このようにして、第1のタイル206は、例えば、検体内の組織の一般的な構造および/または配向、検体内の個々の細胞のサイズおよび/もしくは形状、ならびに/または個々の細胞および/もしくは細胞群の、他の個々の細胞および/もしくは細胞群との相対的な位置といった、検体の構造情報を含むように、組織学的検体の十分に広い面積を表現することができる。より一般的に言えば、第1のタイル206は、器官、組織または他の固体構造などの固体多細胞構造の構築を含むように寸法決定されることができる。したがって、この実施形態は、そのような超細胞構造が存在する固形生物学的サンプル(例えば、限定されないが、固形腫瘍サンプル)の評価に特に好適である。このような構造情報はしたがって、検体の分類(診断または予後など)に関連する組織構造および/または分化パターンなどの情報を含むことができる。
【0109】
第2のタイル207が表現する面積は第1のタイル206が表現する面積よりも小さいため、必ずしもこの構造情報の一部またはすべてが第2のタイル207で可視であるとは限らない。また、第2のタイル207は、個々の細胞レベルでの情報を含むことができるように、かつ特に、存在、サイズ、位置、形状、密度、および/または細胞内構造の他の特性のうちの1つ以上などの細胞内構造を示すことができるように、組織学的検体の十分な詳細を含むことができる。このような細胞内構造には、限定されないが、細胞内の核が含まれ、例えば、第2のタイル207で観察可能な細胞内の核のサイズおよび/または密度は、例えば、がん、特に固形がんなどの病状の診断および/または予後において特に関心対象である可能性がある。第2のタイル207内の関心対象の追加および/または代替的な細胞内構造には、1つ以上の細胞小器官、ならびに/または個々のタンパク質、DNA分子、RNA分子、脂質および/もしくは膜組織などの1つ以上の他の細胞成分が含まれ得る。
【0110】
例示的なオルガネラおよび他の高分子には、限定されないが、小胞体(粗面および/または滑面)、ゴルジ装置、ミトコンドリア、空胞、葉緑体、先体、オートファゴソーム、中心小体、繊毛、クニドシスト、眼点装置、グリコソーム、グリオキシソーム、ハイドロジェノソーム、リソソーム、メラノソーム、マイトソーム、筋原線維、核小体、オセロイド、パレンテソーム、ペルオキシソーム、プロテアソーム、リボソーム(80S)、ストレス顆粒、TIGERドメインおよび/またはベシクルが含まれる。これらの細胞内構造の一部またはすべては典型的に、必要な解像度を有しないため、第1のタイル206では表示されない可能性がある。
【0111】
一実施形態では、第1のタイル206は、組織学的画像の典型的な低拡大の光学顕微鏡分析によって取得されたものと同等の情報を含む。本例では、低拡大の光学顕微鏡分析で使用される倍率のレベルは10倍の倍率であるが、他の低拡大の倍率レベルも使用することができる。例えば、低拡大の光学顕微鏡分析で使用される倍率のレベルは、少なくとも4xおよび40x未満の倍率であり得るか、または、約4x、5x、6x、7x、8x、9x、10x、11x、12x、13x、14x、15x、16x、17x、18x、19x、20x、25x、30x、または35xの倍率であり得る。この文脈において、「約」という用語は、上記で考察したタイプの検体の構造情報の一部またはすべてを提供するのに好適な倍率レベルであるという条件で、述べた倍率レベルの±1倍、2倍、3倍、4倍または5倍の値を指す。原則として、低拡大倍率は、第2のタイル207に使用される倍率と比較して、相対的な意味で単に「低拡大」である必要がある。
【0112】
追加的または代替的に、この実施形態では、第2のタイル207は、組織学的画像の典型的な高拡大の光学顕微鏡分析によって取得されたものと同等の情報を含む。本例では、高拡大の光学顕微鏡分析で使用される倍率のレベルは40xの倍率であるが、他の高拡大の倍率レベルも使用することができる。例えば、高拡大の光学顕微鏡分析で使用される倍率のレベルは、約20x、30x、40x、50x、60x、70x、80x、90x、または100xの倍率など、約20x~約100xの倍率であり得る。この文脈において、「約」という用語は、個々の細胞レベルで情報を提供するのに十分な倍率である、かつ特に上記で考察されたタイプの細胞内構造の一部またはすべてを示すことができる、という条件で、述べた倍率レベルの±1倍、2倍、3倍、4倍または5倍である値を指す。原則として、高拡大倍率は、第1のタイル206に使用される倍率と比較して、相対的な意味で単に「高拡大」である必要がある。
【0113】
組織学的画像で観察可能な情報は、画像の生成に使用される倍率のレベルおよび/または生成される画像の解像度のみでなく、使用される染色法および/または画像化技術にも依存することが理解されよう。例えば、使用される染色法は、本出願の2.4.1節でさらに考察するように、画像にラベル付けされて可視である物理的構造体に影響を与えるであろう。
【0114】
重要なことに、第1のタイル206および第2のタイル207の両方は、システム200の下流の処理ブロックによって、それほど多くの処理能力を必要とせず、またはそれほど遅くなく適切に処理できるように、十分に少量のコンピュータデータによって表現することができる。タイルが異なって生成され、第2のタイル207の解像度がより高い、かつ第1のタイル206の面積がより大きいという両方の場合、下流の処理ブロックは、適切に実施するためには許容不能に高い処理リソースを必要とする可能性がある。
【0115】
いくつかのアプリケーションでは、第1のタイル生成器204および第2のタイル生成器205は、互いに独立してそれぞれのタイルを生成することができる。例えば、第1のタイル206は、必ずしもソース組織学的画像202の同じ点に中心を置く必要はない。実際に、第1のタイル生成器204および第2のタイル生成器205は、他のタイル生成器がそのタイル生成器のタイルを生成することについての情報を有する必要はない。いくつかの例では、第1のタイル206および第2のタイル207の両方が、各々、ソース組織学的画像202の異なるエリアにランダムに向けられている。したがって、第1のスライド206の各々が中心に置かれるソース組織学的画像202の領域をランダムに選択することができ、第2のタイル207の各々が中心に置かれるソース組織学的画像202の領域もまたランダムに選択することができ、これによって第1のタイル206および第2のタイル207のランダムな選択は互いに独立する。
【0116】
2つの機械学習ネットワーク211、215のその後の応用は、正確な分類器218、219を生成するために、タイルの2つのセットがどのように生成されるか、またはそれらが互いにどのように関連するかについての調整を必要としない。したがって、有利には、
図2のシステム200は、2つのタイル生成器204、205および2つの機械学習ネットワーク211、215を調整する処理の必要性を回避することができる。システム200は、ソース組織学的画像202のための上記または各第1分類器218を決定するために複数の第1タイル206を処理する、機械学習ネットワーク211を含む。システム200はまた、上記または各ソース組織学的画像202のための第2の分類器219を決定するために複数の第2のタイル207を処理する、機械学習ネットワーク215を含む。このようにして、第2の分類器219は、第2のタイル207に示される情報に基づくことができ、第1の分類器218は、第1のタイル206に示される情報に基づくことができる。これらの機械学習ネットワーク211、215は、各々、単一のニューラルネットワーク、または
図1に示されているような複数のニューラルネットワークを含むことができる。
【0117】
システムはまた、第1の分類器218および第2の分類器219を組み合わせて、上記または各ソース組織学的画像202のための全体分類器232を決定する分類器合成器230を含む。任意選択的に、これには、上でさらに考察したように、3次元ソース組織学的画像に存在する、複数のソース組織学的画像などのソース組織学的画像202の集合体のための全体分類器232を決定することが含まれ得る。
【0118】
組み合わせは、数学的組み合わせ、論理的組み合わせ、または数学的および論理的組み合わせの組み合わせを含む、いくつかの方法で実施することができる。例えば、第1の分類器218および第2の分類器219は数値を有することができ、全体分類器232は、第1の分類器218および第2の分類器219の平均であってもよい。代替的に、第1の分類器218および第2の分類器219は論理値を有することができ、全体分類器232は、第1の分類器218および第2の分類器219の論理的組み合わせであってもよい。そのような論理関数はAND関数であってもよく、AND関数は、第1の分類器218および第2の分類器219が同じ論理値を有する場合にのみ、全体分類器232をそれらの分類器と同じ論理値として設定する。分類器合成器230の特定の実装についてのさらなる詳細は、
図3を参照して記載する。
【0119】
有利には、
図2のシステム200は、1つ以上のソース組織学的画像202を改良された方法で分類することができるが、これは、タイルのセットのうちの1つ(大きな面積の第1のタイル206または高精細の第2のタイル207のいずれか)でのみ、十分に表現される異なる特性に基づくことができるからである。また、関連する情報および特徴は、大きな面積と高精細の両方を有するタイルを必要とせずに、上記または各ソース組織学的画像202から抽出することができるので、分類は、必要な処理リソースの量に関して効率的であるとみなすことができる。
【0120】
1.3 第3のコンピュータシステム例
図3は、上でさらに考察したように、1つ以上のソース組織病理学的画像などの1つ以上のソース組織学的画像302、例えば3次元のソース組織学的画像に存在する複数のソース組織学的画像のための、全体分類器332を決定するためのシステム300の特定の実装を示す。以下で考察するように、
図2のシステムと同様に、
図3のシステム300は、(第2のタイル307と比較して)比較的大きい面積を有する第1のタイル306を生成し、(第1のタイル306と比較して)比較的高精細である第2のタイル307を生成し、かつまた分類器合成器330も有する。また、システム300は、機械学習ネットワーク311を含み、機械学習ネットワーク311は、
図1の対応する構成要素に類似している表現ネットワーク308(第1のニューラルネットワークとも称され得る)と、分類ネットワーク316(第2のニューラルネットワークとも称され得る)と、を含む。
【0121】
以下の考察は、WSI組織病理学的画像324によって表される大腸がん組織切片からのがん特異的生存を予測するための、深層学習モデルを外部評価するための、
図3のシステム300の使用に関する。
【0122】
1.3.1 トレーニングコホート
本研究では、4つのトレーニングコホートを利用した。これらは、以下の小節でさらに記載するAhusコホート、Akerコホート、Gloucesterコホート、およびVICTORコホートであった。トレーニングコホートの患者を、手術時の年齢と追跡データに応じて、明確な予後または不明確な予後としてラベル付けした。明確な予後の患者は、予後良好として定義された患者と予後不良として定義された患者からなる。患者が手術時に85歳未満であり、手術後6年を超えるフォローアップがあり、がん特異的死亡の記録および再発の記録がない場合、その患者は予後良好として定義した。再発データの利用可能性はコホート間で異なり、特にGloucesterコホートでは制限されていた。Ahusコホートの場合、予後良好な患者は転移の記録を有しないことが必要であり(局所再発の記録は利用不可能であった)、一方、Aker、Gloucester、およびVICTOR患者の場合、局所再発または転移再発の記録は必要ではなかった。患者が手術時に85歳未満であり、手術後100日(を含む)~2.5年(を含めない)の間にがん特異的死亡となった場合、その患者は予後不良として定義した。予後良好または予後不良の基準を満たさない患者は、不明確な予後であるとして定義した。
【0123】
1.3.1.1 Ahusコホート
図12は、Ahusコホートからの患者、スライドおよびスライド画像の包含と除外、ならびに含まれる患者の予後を特定する図を示している。CSSは、がん特異的生存(cancer-specific survival)、CSDは、がん特異的死亡(cancer-specific death)。
【0124】
1988年~2000年にAkershus University Hospital、Norway1で治療された大腸腺がん患者219人の一連の連続から、172人の患者がステージI期、II期、またはIII期の疾患を有し、ホルマリン固定パラフィン包埋(FFPE)組織ブロックを採取できた。各FFPE腫瘍組織ブロックの3μm切片をヘマトキシリンおよびエオシン(H&E)で染色し、Cancer Genetics and Informatics(ICGI),Oslo University Hospital、Norwayの検査技師が組織スライドとして調製した。病理学者が、各組織切片に腫瘍があるかどうかを確認し、腫瘍スライドのない12人の患者は除外した(
図12に示す)。腫瘍組織スライドを、Aperio AT2(Leica Biosystems、Germany)とNanoZoomer XR(Hamamatsu Photonics、Japan)の2つのスキャナを使用してスキャンした。スキャンは、https://openslide.org/で入手可能なOpenSlide 3.4.1のPythonインターフェース(バージョン1.1.1)を使用して読み取った。自動セグメンテーション方法(以下で考察)を適用して、320枚のスライド画像の腫瘍を特定し、各スライド画像を、40xおよび10xと称される2つの解像度を使用して、タイルと呼ばれる複数の重複しない領域に分割した(下記のタイリングセクションを参照)。腫瘍セグメンテーション内にタイルを含む160人の患者は、Ahusコホートとして定義され、
図12に、これらの患者の予後を示している(上記の明確な予後と非明確な予後2の定義を参照)。
【0125】
1.3.1.2 Akerコホート
図13は、Akerコホートからの患者、スライドおよびスライド画像の包含と除外、ならびに含まれる患者の予後を特定する図を示している。CSSは、がん特異的生存(cancer-specific survival)、CSDは、がん特異的死亡(cancer-specific death)。
【0126】
1993年~2003年にAker University Hospital、Norwayで原発性大腸がんの治療を受けDanielsenおよび同僚によって分析された、578人のステージI期、II期、またはIII期の患者の各々からの1枚のスライドを、Ahusコホートと同じ様式で処理した。3枚のスライドでカバーガラスが損傷したため、NanoZoomer XRスキャナではスキャンできず、自動セグメンテーション方法では、3枚のAperio AT2スライド画像および2枚のNanoZoomer XRスライド画像で腫瘍が特定されず、他の患者がAkerコホートを構成した(
図13)。
【0127】
1.3.1.3 Gloucesterコホート
図14は、患者の包含と除外、Gloucesterコホートからのスライドおよびスライド画像、ならびに含まれる患者の予後を特定する図を示している。CSSは、がん特異的生存、CSDは、がん特異的死亡。
【0128】
Gloucester Colorectal Cancer Studyは、1988年~1996年に1,036人の患者を集め、そのうち19人は同時性多発がんのため除外した(
図14)。残りの患者1,017人をAhusコホートと同じ様式で処理し、結果としてAperio AT2セグメンテーションを用いた患者969人、NanoZoomer XRセグメンテーションを用いた患者967人になった(
図14)。これらの患者はGloucesterコホートを構成したが、そのうち1人は、腫瘍セグメンテーション内にタイルがないためAperio AT2 10xタイルセットから除外した(
図14)。
【0129】
1.3.1.3 VICTORコホート
図15は、患者の包含と除外、VICTORコホートからのスライドおよびスライド画像、ならびに含まれる患者の予後を特定する図を示している。CSSは、がん特異的生存、CSDは、がん特異的死亡。
【0130】
VICTOR試験では、心臓血管系の有害事象を調べるために、一次治療後にロフェコキシブまたはプラセボを投与されたステージII期およびIII期の大腸がん患者をランダム化した。2002年~2004年に集めた患者795人について、FFPE組織ブロックからH&E染色された3μm切片を回収し、そのうちのいくつかをICGIで切片化し、いくつかを他の場所で切片化した。切片は、Ahusコホートの場合と同じ様式で処理した。VICTORコホートは、Aperio AT2の40xタイルを用いた患者767人、Aperio AT2の10xタイルを用いた患者764人、NanoZoomer XRの40xタイルを用いた患者761人、NanoZoomer XRの10xタイルを用いた患者756人で構成されていた(
図15)。
【0131】
1.3.2 セグメンテーション
図3に概略的に示されるように、ソース組織学的画像302は、画像セグメンテーション方法を適用することによって、WSI組織学的画像などのWSI組織学的画像324から生成される。
【0132】
この例のセグメンテーション方法には、入力画像から確率マップを作成するプロセスと、入力画像および対応する確率マップに基づいて前景領域と背景領域に分割された画像を作成する異なるプロセスとが含まれる。
【0133】
図4は、セグメンテーションネットワークアーキテクチャの例の図を示している。各層は、名前、出力高さ、出力幅、および出力チャネル数で表す。進行は、上部の入力画像から下部の予測出力まで下向きになっている。確率マップは、DeepLabネットワーク(Chen et al.,IEEE Trans Pattern Anal Mach Intell,2018,40:834-848)に基づく
図4のセグメンテーションネットワークによって生成できる。最終的なセグメンテーションは、密な条件付き確率場を使用して実現可能である(Krahenbuhl,&Koltun,Adv Neural Inf Process Syst,2011;24:109-117)。
【0134】
この方法を、最初にAkerコホート(670枚の画像)およびVICTORコホート(407枚の画像)からの対応する注釈付きの1077枚の画像でトレーニングした。画像をNanoZoomer(Hamamatsu Photonics、Japan)スキャナでスキャンされたスライドから取得し、注釈は病理学者が手描きした。次に、このトレーニングされた方法を、Akerコホート、Ahusコホート、およびGloucesterコホートからの画像に適用した。結果として得られたセグメンテーションを、不十分なセグメンテーションを修正した病理学者が検証した。対応する(修正された可能性のある)マスクを持つこの画像のセットは、画像セグメンテーション方法の開発データセットを構成している。
【0135】
患者1717人の開発データセットから、25%(患者429人)がランダムに均一に抽出されて調整セットを形成し、残りの患者1288人がトレーニングセットを構成した。トレーニングセットには、がん特有の事象のある患者358人がおり、そうでない患者930人の画像があった。調整セットには、がん特有の事象のある患者128人の画像があり、そうでない患者301人がいた。セグメンテーション開発セットの患者からのスライドを、Aperio AT2スキャナおよびNanoZoomer XRスキャナの両方でスキャンした。それにより、セグメンテーションタスクの開発セットは3430スキャン(NanoZoomer XRスキャナからの4スキャンが欠落)で構成され、トレーニングセットは2573スキャン、調整セットは857スキャンで構成される。
【0136】
各スキャンを、2.5倍の解像度に対応するサイズにデジタルにサイズ変更し(以下のタイリングの節を参照)、PNG画像として格納した。次に、各画像を、1600×1600画素のフレーム内に収まるようにCatmull-Rumキュービックフィルタを用いてサイズ変更した。これは、最大寸法(高さまたは幅)が1600画素になるまでアスペクト比を維持しながら、画像のサイズを変更することによって行った。次に、サイズ変更された画像を各辺の最短寸法に沿って1600画素になるまでパディングすることによって、新たな画像を形成した。サイズ変更された画像の中心をパディングされた画像の中心と位置合わせし、パディングされた画像をさらに使用する。
【0137】
セグメンテーションネットワークを、100,000回の更新ステップ(トレーニングの反復)でトレーニングし、各更新ステップは、4つのGPUに分散された16の画像(この集合体は、ミニバッチと呼ばれる)を使用する。開発データセット内のすべての画像を、2回使用される前に1回使用するが、これは、トレーニング中に各画像を約622回処理することを意味する(データセットの1つの進行はエポックと呼ばれる)。各エポックで、同じ画像を1回使用するが、毎回わずかな違いがある。まず、641×641画素の切片を、画像内のランダムな位置でトリミングする。次に、次の順序で一連の方向歪みを適用する
1.50%の確率で、画像を水平方向に反転する(水平軸に沿ってミラーリングする)。
2.50%の確率で、画像を垂直方向に反転する(垂直軸に沿ってミラーリングする)。
3.50%の確率で、0、90、180、270のいずれかの角度で画像を1回、回転させる。
【0138】
最後に、画像の中心をその平均と標準偏差にする(https://www.tensorflow.org/versions/r1.10/api_docs/python/tf/image/per_image_standardizationを参照のこと)。結果の画像を、RGB画像としてセグメンテーションネットワークに送る。
【0139】
トレーニング可能なパラメータを、Xavier重み初期化スキームを使用して初期化し、標準の確率的勾配降下最適化法(Glorot & Bengio,Understanding the difficulty of training deep feedforward neural networks.in Proc 13th Int Conf Artif Intell Stat,Vol.9 249-256(2010))を用いて更新する。最適化のステップ長は0.05に初期化され、96488回の反復(約600トレーニングエポック)で0.1分の1に減少する。
【0140】
トレーニングされたネットワークを画像に適用すると、その画像と同じ空間形状の確率マップが生成される。この確率マップは、強度値が0、1、・・・、255の1チャンネルのグレースケール画像である。この方法では、がん性組織を描写している可能性が高いと判断した領域に高い値を割り当てる。
【0141】
画像ごとに、元の画像を回転および反転させた後に、トレーニングされたネットワークをすべての異なるバージョンに適用することによって、画像の追加バージョンを作成する。8つのバージョンがあり、それらを以下の操作によって元の画像から取得する。
1.何もしない(これは元の画像である)
2.画像を水平軸を中心に反転させる
3.画像を垂直軸を中心に反転させる
4.画像を時計回りに90度回転させる
5.画像を時計回りに180度回転させる
6.画像を時計回りに270度回転させる
7.画像を時計回りに90度回転させ、結果をその水平軸を中心に反転させる
8.画像を時計回りに270度回転させ、結果をその水平軸を中心に反転させる
【0142】
結果として得られた確率マップを元の方向に復元し、すべての異なるバージョンの平均画像を計算し、処理においてさらに使用する。
【0143】
推論では、トレーニングされたネットワークを一度に1つの画像に適用し(すなわち、バッチサイズが1を用いる)、トレーニングフェーズとは逆に、トリミングも方向の歪みも適用しない。ただし、トレーニングで行ったように、すべての画像の中心をその平均と標準偏差にすることが重要である。ネットワークは、TensorFlow 1.10(https://www.tensorflow.org)を使用してPython 3.5(https://www.python.org)で実装および実行した。
【0144】
確率マップのセグメンテーションは、Pythonライブラリのpydensecrf v1.0rc3(https://github.com/lucasb-eyer/pydensecrf)を使用して実施した。モデルは、単項ポテンシャル(確率マップ)、ガウスのペアワイズポテンシャル(addPairwiseGaussian(sxy=1,compat=1))、およびバイラテラルペアワイズポテンシャル(addPairwiseBilateral(sxy=30,srgb=3,compat=100))を使用した。結果として得られたfloat値(0、1)である画像は、バイナリマスクを作成するために0.5で閾値処理し、ここで、値が0.5未満の画素は背景としてラベル付けし、残りは前景としてラベル付けした。
【0145】
結果のセグメンテーションを、5×5の平均フィルタで平滑化してから、20,000画素未満の8つの近隣に接続された前景領域を削除する。前景領域内に完全に含まれる背景領域は、前景としてマークする。
【0146】
この方法を、4,000回の反復ごとに調整セットに適用し、予測されたセグメンテーションを参照セグメンテーションに対して査定した。次に、ブックメーカーインフォームドネス(bookmakers informedness)スコアの平均が最も高いモデルを、残りの実験で使用するモデルとして選択した。
【0147】
図5は、調整セットでのセグメンテーション方法の実施を示している。上に示したように、この方法は、4,000回の反復ごとにトレーニングの進行全体に等間隔で配置された複数のトレーニング反復で評価する。
図5は、反復88,000回のモデル(
図5の参照符号534)が最高スコア0.902を達成したことを示している。
【0148】
図3に戻ると、セグメンテーション方法の出力はソース組織病理学的画像302である。
【0149】
1.3.3 タイリング
セグメンテーション方法によって腫瘍として識別された領域は、ソース組織病理学的画像302であり、この例では、一般に利用可能なハードウェアのGPUメモリが限られているため、畳み込みニューラルネットワーク(CNN)への入力としての使用には直接には好適でない。したがって、このプロセスでは、ソース組織学的画像302内から、タイルと呼ばれる固定サイズの複数の重複しない領域(すなわち、各スライド画像で腫瘍としてセグメント化された領域)を生成した。ソース組織学的画像302内の任意の関心対象領域からタイルを生成するために、(例えば、他の任意のタイプのがんおよび/または他の任意の病的状態の組織学的サンプルから採取されたかもしくは採取されていない、ソース組織学的画像において)同等のアプローチを採用できることが理解されよう。
【0150】
図3には、複数の第1のタイル306および複数の第2のタイル307が示されている。
図2と同様に、第1のタイル306は、比較的大きな面積と比較的低い解像度を有し、第2のタイル307は、比較的小さな面積と比較的高い解像度を有する。
【0151】
画素で表現される物理的領域は、画像の取得に使用されるスキャナなどに依存する可能性があるため、同じ物理的領域を表現するタイルは、Aperio AT2およびNanoZoomer XRスライド画像からのタイルにわずかに異なる画素数を含めることによって作成した。40xと呼ばれる最大解像度では、Aperio AT2スライド画像の画素の物理サイズは、垂直方向および水平方向の両方で0.253μm/画素であり、NanoZoomer XRスライド画像の画素の物理サイズは、垂直方向および水平方向の両方で0.227μm/画素であった。40xタイル(より高い解像度の第2のタイル307)を作成するために、Aperio AT2スライド画像の腫瘍セグメンテーション内から486×486画素のタイルを抽出し、NanoZoomer XRスライド画像には542×542画素を使用した。同様に、Aperio AT2スライド画像には1942×1942画素のタイルサイズを使用し、NanoZoomer XRスライド画像には2166×2166画素を使用して、10xタイル(より低い解像度の第1のタイル306)を作成した。次に、これらの生のタイルの各々を512×512画素にリサンプリングし、各画素の物理的領域を両方のスキャナで類似させ、40xタイルの場合は0.240×0.240μm、10xタイルの場合は0.960×0.960μmとした。
【0152】
この例では、(ソース組織学的画像302で表現される)腫瘍セグメンテーションの外側の領域を含む、WSI組織学的画像324の左上隅から候補タイルのグリッドを定義することによってタイリングを実施した。エッジに沿った四隅およびその中点がセグメンテーションの境界内にある候補タイルを、第1のタイル306または第2のタイル307として含んだ。タイルをOpenSlideでレベル0から抽出し、numpy配列に変換し、補間をアップサンプリングの場合はcv2.INTER_CUBIC、ダウンサンプリングの場合はcv2.INTER_AREAに設定したresize()関数を使用してOpenCVでサイズ変更し(https://docs.opencv.org/3.4.0/da/d54/group__imgproc__transform.html)、ロスレス形式で(PNGファイルとして)保存した。
【0153】
1.3.4 患者の生存予測方法-機械学習ネットワーク311の使用
機械学習ネットワーク311を、トレーニングコホートで予後が明確であるすべての患者を使用してトレーニングした。以下で詳細に記載するように、機械学習ネットワーク311を、40xタイル(
図3の第2のタイル307のモデル1~5)で5回トレーニングし、10xタイル(第1のタイル306のモデル6~10)でさらに5回トレーニングし、いずれの場合も、512×512画素のリサンプリングされたタイルを使用した。これらの教師あり分類方法で適用したグラウンドトゥルース(すなわち、トゥルースデータ320で表される真の結果)は、患者の明確な予後であり、予後良好または予後不良のいずれかであった(上記のトレーニングコホートの節で定義)。
【0154】
機械学習ネットワーク311は、表現ネットワーク308(
図1の第1のニューラルネットワークに対応)、プーリング関数312(
図1のプーリング関数に対応)、および分類ネットワーク316(
図1の第2のニューラルネットワークに対応)を含む複数インスタンス分類方法である。
【0155】
図6は、
図3の機械学習ネットワークアーキテクチャのこの実装を示している。左側は、タイル614の入力バッグから、バッグ予測(機械学習ネットワークによって出力される分類器618)までの進行の概要を示している。右側は、表現ネットワーク608(
図1の第1のニューラルネットワークに対応)のアーキテクチャを示しており、各層は、名前、出力高さ、出力幅、および出力チャネル数で表す。
【0156】
図3に戻ると、機械学習ネットワーク311は、単一のタイルを分類するのではなく、バッグと呼ばれるタイルの集合体を分類し、バッグ内のすべてのタイルは、同じスキャン画像(WSI組織学的画像324/ソース組織学的画像302)に由来している。バッグ内の各タイルを、表現ネットワーク308に適用して、タイルのタイル特徴310を生成する(1回の更新ステップ内で、すべてのタイルが、同じパラメータ値で同じ表現ネットワークを使用できることに留意されたい)。すべてのタイル機能を集約することができ、プーリング関数312によって各クラスの単一の値を生成することができる。次いで最終の分類ネットワーク316を適用し、予測を生成する。これらの予測を、損失関数を使用して、バッグの由来であるソース組織学的画像302に対応するグラウンドトゥルース(トゥルースデータ320によって表される)と比較する。
【0157】
この例では、勾配ベースの最適化ルーチンを使用して損失関数を最適化し、各トレーニングの反復で、機械学習ネットワーク311のトレーニング可能なパラメータをこの最適化方法に従って更新する。この例では、バッグ内のタイルのランダムに選択されたサブセットのみを、機械学習ネットワーク311の更新に使用している。この非対称の順伝播および逆伝播により、機械学習ネットワーク311のメモリフットプリントが削減され、トレーニング中にタイルのバッグを大きくすることができる。
【0158】
上に示したように、この実装における表現ネットワーク308は、MobileNetV2ネットワークに基づいており、その詳細は
図6に示されている(Sandler,M.,Howard,A.,Zhu,M.,Zhmoginov,A.& Chen,L.MobileNetV2:Inverted Residuals and Linear Bottlenecks。IEEE Conf Comput Vis Pattern Recognitの4510-4520(2018))。表現ネットワークの最初の畳み込み層は、ストライドが2の3×3畳み込みカーネルを使用する。活性化関数はReLU活性化関数である(Glorot,X.,Bordes,A.& Bengio,Y.Deep Sparse Rectifier Neural Networks。Proc 14th Int Conf Artif Intell StatのVol.15 315-323(2011))。各々の逆ボトルネックモジュール内で、最初の畳み込み層は、ストライドが1の1×1畳み込みカーネルおよびReLU6活性化関数を使用する(Krizhevsky,A.Convolutional Deep Belief Networks on CIFAR-10。https://www.cs.toronto.edu/~kriz/conv-cifar10-aug2010.pdfから入手可能(2010))。深さ方向に分離可能な畳み込み層は、3×3の畳み込みカーネルを使用する。空間サイズの高さと幅が半分になると、ストライドは2になり、それ以外の場合は1になる。活性化関数はReLU6関数である。最後の畳み込み層は、ストライドが1の1×1畳み込みカーネルと恒等活性化関数を使用する。逆ボトルネックモジュールへの入力チャネル数が、同じモジュール内の出力チャネル数と等しい場合、モジュール内の最初の畳み込み層への入力は、モジュール内の最後の畳み込み層の結果に追加する。逆ボトルネックモジュールの後の畳み込み層は、ストライド1およびReLU活性化関数を使用した1×1畳み込みを使用する。上述したすべての畳み込みおよび分離可能な畳み込み層は、活性化関数を適用する前に、畳み込みの結果に対してバッチ正規化を採用する(Ioffe,S.& Szegedy,C.Batch normalization:accelerating deep network training by reducing internal covariate shift。Proc 32nd Int Conf Mach LearnのVol.37 448-456(2015))。すべてのカーネルの重みはXavier初期化で初期化し、バイアスパラメータは使用しない。最後の畳み込み層は、ストライド1の1×1畳み込みカーネルを使用する。この層ではバッチ正規化は使用せず、活性化は恒等関数である。ネットワークの残りの部分は、Krausと同僚の設計に従って、Noisy-ANDプーリング関数とそれに続くソフトマックス分類で構成されている(Kraus,O.Z.,Ba,J.L.& Frey,B.J.Classifying and segmenting microscopy images with deep multiple instance learning。Bioinformatics 32,i52-i59(2016))。プーリング関数の出力と関連付けられた1つの交差エントロピー損失関数、および分類出力と関連付けられた1つの交差エントロピー損失関数がある。
【0159】
機械学習ネットワーク311ネットワークを、32バッグのバッチサイズでトレーニングし、各々が4つのバッグを有する8つのGPUに分散する。各バッグは、サイズが512×512×3画素で、値が0、1、・・・、255の64個のタイルで構成されている。勾配計算に寄与するタイル数は8であった。ネットワークパラメータを更新するために、Adam最適化手法で初期ステップサイズ0.001を使用した(Kingma,D.P.& Ba,J.Adam:A Method for Stochastic Optimization。https://arxiv.org/abs/1412.6980から入手可能(2015))。10xタイル(第1のタイル306)でトレーニングする場合、トレーニング率は最初に0.001に設定し、その後、反復6,000回で0.1倍、反復12,000回で再び減少し、反復15,000回でトレーニングが終了した。反復回数の2倍を使用して、40xタイル(第2のタイル307)でトレーニングを行い、すなわち、トレーニング率は0.001から始まり、反復12,000回で0.1倍に減少し、反復24,000回で再び減少し、反復30,000回の後にトレーニングが終了した。
【0160】
各ステップで、機械学習ネットワーク311に入る前に、各タイルを歪め、正規化する。まず、タイルをランダムに448×448のサイズにトリミングしてから、その向きを歪める。タイルを、左から右に(中央の垂直軸を中心に)ランダムに反転し、次に上から下に(中央の水平軸を中心に)ランダムに反転し、最後に0°、90°、180°、または270°のいずれかでランダムに回転させる。次に、その値を32ビット浮動小数点数にキャストすることで(0,1)にスケーリングしてから、タイル全体を255.0で除算する。次に、タイルをRGB色空間からHSV色空間に変換してから、各チャネルを1/1.1~1.1に均一に分散された値でスケーリングする。次に、タイルを再びRGBに変換する。最後に、タイルを平均と単位ノルムがゼロになるように正規化する(詳細については、https://www.tensorflow.org/versions/r1.10/api_docs/python/tf/imageのrgb_to_hsv、hsv_to_rgb、per_image_standardizationを参照のこと)。
【0161】
推論では、トリミングを適用しないため、512×512×3画素のサイズのタイル全体を機械学習ネットワーク311によって評価する。また、配向および色の歪みは、適用されない。トレーニングの場合と同様、機械学習ネットワーク311に入る前に、各タイルを、平均と単位ノルムがゼロになるように正規化する。ネットワークは、TensorFlow 1.10(https://www.tensorflow.org)を使用してPython 3.5(https://www.python.org)で実装および実行した。トレーニングセットのクラスの不均衡を説明するために、コホートとスキャナとの組み合わせ内の少数派のクラスをオーバーサンプリングし、すべてのコホートとスキャナとの組み合わせで予後良好と予後不良のラベルが付けられた画像を同数にした。各コホートとスキャナとの組み合わせ内で、画像を置き換えなしでランダムに均一にサンプリングした。
【0162】
1.3.5 比較のために使用される別のネットワーク-Inception v3ネットワーク
別のネットワークである、Inception v3ネットワーク(Szegedy,C.,Vanhoucke,V.,Ioffe,S.,Shlens,J.& Wojna,Z.Rethinking the Inception Architecture for Computer Vision。Proc 2016 IEEE Conf Comput Vis Pattern Recognitの2818-2826(2016))を使用して、
図3の機械学習ネットワーク311の結果と比較するための分類結果を取得した。
【0163】
Inception v3ネットワークを、Tensorflow Dockerイメージ(tensorflow/tensorflow:1.9.0-gpu-py3)を使用してKeras(2.1.6)でトレーニングした。入力画像のサイズは512×512で、出力は2つのクラスで、第1のクラスは予後良好である確率、第2のクラスは予後不良である確率とした。バイナリ交差エントロピー損失関数を使用し、0.0001に設定された初期トレーニング率を除いて、デフォルトの引数を使用して keras.optimizers.Adamで最適化した。予後良好のタイルおよび予後不良のタイルとの間のクラス不均衡を説明するために、トレーニングの前にマイノリティクラスのタイルをコホートごとにオーバーサンプリングし、ファイルパスをリストとして保存した。その結果、各コホートには、予後良好なタイルと予後不良なタイルが同じ数含まれていたが、一部のタイルが2回含まれる可能性があった。トレーニングの前にタイルのリストを読み込み、ランダムにシャッフルした後、修正バージョンのkeras.preprocessing.image.ImageDataGeneratorを使用して16個のワーカースレッドを使用して画像のバッチを読み込んだ。ImageDataGeneratorを修正して、以下の方法で色の歪曲を実施した。
1.タイルをHSV色空間に変換し、
2.±0.05の間にランダムに均一にサンプリングした値を追加することによって色相を増強し、
3.飽和度を、1/1.1~1.1のランダムに均一にサンプリングした値でスケーリングし、
4.飽和度を、ランダムに均一にサンプリングした値で±0.1の間でシフトし、
5.その値を、1/1.1~1.1のランダムに均一にサンプリングした値でスケーリングし、
6.その値を、ランダムに均一にサンプリングされた値で±0.1の間でシフトし、
7.タイルを再びRGB色空間に変換する。
【0164】
次に、平均色値を差し引き、トレーニングに使用したすべてのタイル、すなわちトレーニングコホートで予後が明確であった患者のすべてのタイルの標準偏差で除算することにより、タイルを標準化した。GPUメモリの制約により、トレーニングの反復ごとに16タイルのバッチサイズを使用した。10xタイルでトレーニングした場合、学習率を最初は0.0001に設定し、その後、反復25,000回から開始して25,000回の反復ごとに連続して半分になり、反復150,000回の後にトレーニングが終了した。反復回数の2倍を使用して、40xタイル(第2のタイル)でトレーニングを行い、すなわち、学習率は0.0001から始まり、反復50,000回から開始して50,000回の反復ごとに連続して半分になり、反復300,000回の後にトレーニングが終了した。ネットワーク出力は、タイルの予後不良の予測確率であった。患者の予後不良の予測確率は、その患者のすべてのタイルの予測確率を平均することによって計算した。
【0165】
1.3.6 個々のモデル
2つのネットワーク((i)
図3の機械学習ネットワーク311、および(ii)Inception v3ネットワーク)の各々を、2つの解像度の各々について5回トレーニングすることにより、20回のトレーニングを実行した。これらの20回のトレーニング実行の各々について、トレーニングコホートの予後が明確でないすべての患者に関する21のモデルを評価した。各トレーニング実行で評価した21のモデルを、反復の3分の1からトレーニングが終了するまで均一に分散した(両端を含む)。機械学習ネットワーク311の各10xモデルを、反復5,000回、5,500回など~最大反復15,000回まで評価した。機械学習ネットワーク311の各40xモデルを、反復10,000回、11,000回など~最大反復30,000回まで評価した。Inception v3ネットワークの各10xモデルを、反復50,000回、55,000回など~最大反復150,000回まで評価した。Inception v3ネットワークの各40xモデルを、反復100,000回、110,000回など~最大反復300,000回まで評価した。
【0166】
40xモデルの評価時間を短縮するために、2,000を超える40xタイルを含むスライドごとに、2,000の40xタイルのランダムサンプルを選択した。すべてのモデルで同じタイルが評価された。機械学習ネットワーク311の40xモデルの評価時間をさらに短縮するために、タイルが50を超える患者については一度に50タイルを使用して評価したため、これらの評価では、最後の50の倍数の後に並べられたタイルは無視され、すなわち各患者に対して最大49個のタイルが無視された。これらの高速化は、モデルの選択中にのみ適用したものであり、本書に記載する外部評価を含む、選択したモデルのすべてのアプリケーションについてすべてのタイルが評価されることに留意されたい。
【0167】
トレーニングの実行ごとに、Harrellの一致指数(c-index)(Harrell,F.E.,Jr,Califf,R.M.,Pryor,D.B.,Lee,K.L.& Rosati,R.A.Evaluating the yield of medical tests。J Am Med Assocの247,2543-2546(1982))を最大化するモデルを選択した。c-indexでは、がん特異的死亡または打ち切りまでの観察時間を、トレーニングコホートの予後が不明確な患者のモデルの予後不良の予測確率と比較した。したがって、最大のc-indexを持つモデルは、トレーニングコホートで予後が不明確であると評価されたときに、予測確率で最も予後情報を提供するように見えた。
【0168】
図7~10は、すべての候補モデルのc-indexを示し、21回のトレーニング実行の各々に対して選択されたモデルを示している。
【0169】
図7は、トレーニングコホートで予後が不明確であった患者に関する機械学習ネットワーク311の21の候補10xモデルのc-indexを示している。サブプロットa~eは、トレーニング実行1~5を示している。736a~eとして参照されている点は、選択されたモデルを示している。738a~eを含む点とその後の点は(当然ながら736a~eを除いて)、選択されなかったモデルを示している。比較のために、各トレーニング実行の最初の3分の1からの9つのモデル(738a~eを参照するモデル以前のモデル)のc-indexを示している。
【0170】
図8は、トレーニングコホートで予後が不明確であった患者に関する機械学習ネットワーク311の21の候補40xモデルのc-indexを示している。サブプロットa~eは、トレーニング実行1~5を示している。836a~eとして参照されている点は、選択されたモデルを示している。838a~eを含む点とその後の点は(当然ながら836a~eを除いて)、選択されなかったモデルを示している。比較のために、各トレーニング実行の最初の3分の1からの9つのモデル(838a~eを参照するモデル以前のモデル)のc-indexを示している。
【0171】
図9は、トレーニングコホートで予後が不明確であった患者に関するInception v3ネットワークの21の候補10xモデルのc-indexを示している。サブプロットa~eは、トレーニング実行1~5を示している。936a~eとして参照されている点は、選択されたモデルを示している。938a~eを含む点とその後の点は(当然ながら936a~eを除いて)、選択されなかったモデルを示している。比較のために、各トレーニング実行の最初の3分の1からの9つのモデル(938a~eを参照するモデル以前のモデル)のc-indexを示している。
【0172】
図10は、トレーニングコホートで予後が不明確であった患者に関するInception v3ネットワークの21の候補40xモデルのc-indexを示している。サブプロットa~eは、トレーニング実行1~5を示している。1036a~eとして参照されている点は、選択されたモデルを示している。1038a~eを含む点とその後の点は(当然ながら1036a~eを除いて)、選択されなかったモデルを示している。比較のために、各トレーニング実行の最初の3分の1からの9つのモデル(1038a~eを参照するモデル以前のモデル)のc-indexを示している。
【0173】
1.3.6 アンサンブルモデル
選択した5つのモデルの患者の予後不良の予測確率を平均することにより、ネットワークごとおよび解像度ごとにアンサンブルモデルを作成し、機械学習ネットワーク311の10xおよび40xのアンサンブルモデル、ならびにInceptionv3ネットワークでも同様の10xおよび40xのアンサンブルモデルの、4つのアンサンブルモデルを作成した。
【0174】
図3を参照すると、機械学習ネットワーク311の5つのインスタンスが、モデル6~10として示されている。これらのインスタンスの各々は、第1のニューラルネットワーク308および第2のニューラルネットワーク316を含む。また、ソース組織学的画像302の第1の分類器318の5つのインスタンスを決定するために、これらのインスタンスの各々を、複数の第1のタイル306に適用する。
図3では、第1の分類器318の5つのインスタンスの値は、それぞれ0.3142、0.1930、0.2533、および0.2451である。分類器結合器330は、第1の分類器318のこれらの5つのインスタンスの統計的表現、この例では平均値を計算して、平均化された第1の分類器340を決定する。
図3の例では、平均化された第1の分類器340の値は0.2468であり、10xアンサンブル予測と呼ぶ。
【0175】
同様に、機械学習ネットワーク311の5つのインスタンスが、モデル1~5として示されている。これらのインスタンスの各々は、第1のニューラルネットワーク308および第2のニューラルネットワーク316を含む。また、ソース組織学的画像302のための第2の分類器319の5つのインスタンスを決定するために、これらのインスタンスの各々を、複数の第2のタイル307に適用する。
図3では、第2の分類器319の5つのインスタンスの値は、それぞれ02972、0.3325、0.3025,0.5958、および0.3112である。システム300は、第2の分類器319のこれらの5つのインスタンスの統計的表現、この例では平均値を計算して、平均化された第2の分類器341を決定する。
図3の例では、平均化された第2の分類器341の値は0.3678であり、40xアンサンブル予測と呼ぶ。
【0176】
このようにして、分類器結合器330は、結合された分類器(平均化された分類器340、341など)を決定するために、統計関数(平均化関数など)を複数の分類器に適用することができる。
【0177】
この例では、分類器結合器330は、閾値処理された第1の分類器を決定するために、平均化された第1の分類器340に第1の閾値化関数342を適用する。この例では、第1の閾値化関数342は、閾値処理された第1の分類器がバイナリ値を有するように、平均化された第1の分類器340に単一の閾値を適用する。単一の閾値を設定することができる方法の例を、以下に記載する。
図3では、閾値処理された第1の分類器は、「良好と予測される」または「不良と予測される」の値を有することができる。したがって、この処理は、アンサンブルモデルの予後不良の予測確率を二分するものとみなすことができる。他の例では、第1の閾値化関数342は、閾値処理された第1の分類器が3つ以上の離散値のうちの1つをとることができるように、平均化された第1の分類器340に複数の閾値を適用することができる。
【0178】
同様に、分類器結合器330は、閾値処理された第2の分類器を決定するために、平均化された第2の分類器341に第2の閾値化関数343を適用する。この例では、上記のように、第2の閾値化関数343は、閾値処理された第2の分類器がバイナリ値を有するように、平均化された第2の分類器341に単一の閾値を適用する。単一の閾値を設定することができる方法の例を、以下に記載する。この場合も、閾値処理された第2の分類器は、「良好と予測される」または「不良と予測される」の値を有することができる。他の例では、第2の閾値化関数343は、閾値処理された第2の分類器が3つ以上の離散値のうちの1つをとることができるように、平均化された第2の分類器341に複数の閾値を適用することができる。
【0179】
このようにして、分類器結合器330は、閾値処理された分類器を決定するために、分類器(任意選択的に平均化された分類器)に閾値化関数(1つ以上の閾値を含む)を適用することができる。
【0180】
この例では、決定された閾値処理された分類器は、評価された組織学的画像が得られたサンプルの元となった患者の予後指標であった。同等のアプローチを採用して、任意の他の結果に関して分類器(任意選択的に平均化された分類器)を決定するアンサンブルモデルを作成することができ、この結果は、トレーニングフェーズ中に使用されるソース組織学的画像と関連付けられているグラウンドトゥルースに依存することが理解されよう。
【0181】
一実装形態では、各アンサンブルモデルの予後不良の予測確率を二分するための好適な閾値を決定するために、二分されたアンサンブルモデル予測のc-indexは、トレーニングコホートで予後が不明確であった患者について、0.01、0.02など~最大0.99を含む閾値に対して予測される。最大c-indexを取得する閾値は、アンサンブルモデルごとに選択することができる。
【0182】
図11は、トレーニングコホートで予後が不明確であった患者について、0.01、0.02など~最大0.99を含む閾値で閾値処理された、アンサンブルモデルの予後不良の予測確率のc-indexを示している。
・プロットaは、
図3の機械学習ネットワーク311の10xアンサンブルモデルを示している。アンサンブルモデルの予後不良の予測確率が0.51より大きい場合、予測結果は予後不良である。それ以外の場合、予測確率は0.51以下であり、予測結果は予後良好である。この閾値(二分マーカーと称され得る)は、機械学習ネットワーク311の10xアンサンブルマーカーと呼ぶことができる。
・プロットbは、
図3の機械学習ネットワーク311の40xアンサンブルモデルを示している。プロットbで識別される閾値は、機械学習ネットワーク311の40xアンサンブルマーカーと称され得、この例では、0.56の閾値として定義されている。
・プロットcは、Inception v3ネットワークの10xのアンサンブルモデルを示している。Inception v3ネットワークの10xアンサンブルマーカーは、0.54の閾値として定義されている。
・プロットdは、Inception v3ネットワークの40xのアンサンブルモデルを示している。Inception v3ネットワークの40xアンサンブルマーカーもまた、0.54の閾値として定義されている。
【0183】
図3に戻ると、次に、分類器結合器330は、閾値処理された第1の分類器と閾値処理された第2の分類器とを結合して、組織学的ソース像202のための全体分類器332を決定する。この例では、分類器結合器330は、閾値処理された第1の分類器と閾値処理された第2の分類器との論理的結合を実施する。閾値処理された第1の分類器および閾値処理された第2の分類器の両方が同じ結果を表す場合、分類器結合器は、全体分類器332に、閾値処理された第1の分類器および閾値処理された第2の分類器と同じ値を設定する。閾値処理された第1の分類器と閾値処理された第2の分類器とが異なる結果を表す場合、分類器結合器は、全体分類器332に、閾値処理された第1の分類器および閾値処理された第2の分類器の両方と異なる値を設定する。
図3に示すように、
・閾値処理された第1の分類器および閾値処理された第2の分類器が、良好と予測される、を表す場合、分類器結合器330は、全体分類器332に「予後良好で一致」を設定する。
・閾値処理された第1の分類器および閾値処理された第2の分類器が、不良と予測される、を表す場合、分類器結合器330は、全体分類器332に「予後不良で一致」を設定する。
・閾値処理された第1分類器および閾値化された第2の分類器のうちの一方が、良好と予測される、を表し、他方が、不良と予測される、を表す場合、分類器結合器330は、全体分類器332に「不一致」を設定する。
【0184】
このようにして、10xアンサンブルマーカーと40xアンサンブルマーカーとが同じ結果を予測する場合には、患者を、予後良好と予測された(両方のアンサンブルマーカーが予後良好を予測する場合)、または予後不良と予測された(両方のアンサンブルマーカーが予後不良を予測する場合)として定義し、かつ10xアンサンブルマーカーと40xアンサンブルマーカーとが異なる結果を予測する場合には、患者を、予後不確実と予測されたとして定義することにより、機械学習ネットワーク311(およびまたInception v3ネットワーク)のための10xアンサンブルモデルおよび40xアンサンブルモデルを作成できる。任意選択的に、例えば10xタイルがなかったことに起因して、患者に対するアンサンブルマーカーのうちの1つを分析できなかった場合、10xアンサンブルマーカーと40xアンサンブルマーカーとの結合もまた定義されなかった。したがって、そのような患者は、結合モデルの分析から除外した。
【0185】
これにより、10xアンサンブルマーカーと40xアンサンブルマーカーとの結合が2つでき、1つは機械学習ネットワーク311用、1つはInception v3ネットワーク用である。グループ化されたこれらの3の変数は、DoMore v1マーカーおよびInception v3マーカーと称され得る。
【0186】
本明細書に開示されるコンピュータシステムは、コンピュータ可読記憶媒体、メモリ、プロセッサ、および1つ以上のインターフェースを含み得、これらはすべて、1つ以上の通信バスを介して一緒にリンクされる。例示的なコンピュータシステムは、例えば、デスクトップコンピュータ、パーソナルコンピュータ、ラップトップ、タブレット、スマートフォン、スマートウォッチ、仮想現実ヘッドセット、サーバ、メインフレームコンピュータなどの従来のコンピュータシステムの形態をとることができる。いくつかの実施形態では、例示的なコンピュータシステムは、全スライド画像化が可能な仮想スライド顕微鏡などの顕微鏡装置に埋め込まれ得る。
【0187】
コンピュータ可読記憶媒体および/またはメモリは、1つ以上のコンピュータプログラム(またはソフトウェアまたはコード)および/またはデータを格納することができる。コンピュータ可読記憶媒体に格納されたコンピュータプログラムは、コンピュータシステムが機能するためにプロセッサが実行するためのオペレーティングシステムを含み得る。コンピュータ可読記憶媒体および/またはメモリに格納されたコンピュータプログラムは、本発明の実施形態によるコンピュータプログラム、またはプロセッサによって実行されたときに、プロセッサに本発明の実施形態による方法を実行させるコンピュータプログラムを含み得る。
【0188】
プロセッサは、コンピュータ可読記憶媒体および/またはメモリに格納されたコンピュータプログラムに属するものなど、1つ以上のコンピュータ可読プログラム命令を実行するのに好適な任意のデータ処理ユニットであり得る。1つ以上のコンピュータ可読プログラム命令の実行の一部として、プロセッサは、コンピュータ可読記憶媒体および/またはメモリにデータを格納し、かつ/またはコンピュータ可読記憶媒体および/またはメモリからデータを読み取ることができる。プロセッサは、並列にまたは互いに協調して動作する単一のデータ処理ユニットまたは複数のデータ処理ユニットを備え得る。特に好ましい実施形態では、プロセッサは、1つ以上のグラフィックス処理ユニット(GPU)を備え得る。GPUは、本明細書に開示されているような機械学習アルゴリズムのトレーニングおよび使用に関与する種類の計算に適している。プロセッサは、1つ以上のコンピュータ可読プログラム命令の実行の一部として、コンピュータ可読記憶媒体および/またはメモリにデータを格納し、かつ/またはコンピュータ可読記憶媒体および/またはメモリからデータを読み取ることができる。
【0189】
1つ以上のインターフェースは、コンピュータシステムがネットワークを介して他のコンピュータシステムと通信することを可能にする、ネットワークインターフェースを含み得る。ネットワークは、あるコンピュータシステムから別のコンピュータシステムにデータを送信または通信するのに好適な任意の種類のネットワークであってもよい。例えば、ネットワークは、ローカルエリアネットワーク、ワイドエリアネットワーク、メトロポリタンエリアネットワーク、インターネット、無線通信ネットワークなどのうちの1つ以上を含むことができる。コンピュータシステムは、任意の好適な通信メカニズム/通信プロトコルを介して、ネットワークを通して他のコンピュータシステムと通信することができる。プロセッサは、1つ以上の通信バスを介してネットワークインターフェースと通信して、ネットワークインターフェースに、ネットワークを通して別のコンピュータシステムにデータおよび/またはコマンドを送信させることができる。同様に、この1つ以上の通信バスにより、プロセッサは、ネットワークを通して他のコンピュータシステムからネットワークインターフェースを介してコンピュータシステムによって受け取られた、データおよび/またはコマンドを操作することができる。
【0190】
インターフェースは、代替的または追加的に、ユーザ入力インターフェースおよび/またはユーザ出力インターフェースを含み得る。ユーザ入力インターフェースは、システムのユーザまたはオペレータからの入力を受け取るように配置することができる。ユーザは、マウス(または他のポインティングデバイス、トラックボールもしくはキーボード)などの1つ以上のユーザ入力デバイス(図示せず)を介してこの入力を提供することができる。ユーザ出力インターフェースは、ディスプレイ(またはモニタまたはスクリーン)(図示せず)上でシステムのユーザまたはオペレータにグラフィック/視覚出力を提供するように配置することができる。プロセッサは、ディスプレイに所望のグラフィック出力を表示させる画像/ビデオ信号を形成するようにユーザ出力インターフェースに指示することができる。ディスプレイはタッチセンシティブであり、ユーザがディスプレイに触れるかもしくは押すことによって入力を提供できるようにすることができる。
【0191】
本発明の実施形態によれば、インターフェースは、代替的または追加的に、デジタル顕微鏡または他の顕微鏡システムへのインターフェースを含み得る。例えば、インターフェースは、全スライド画像(WSI)が可能な仮想顕微鏡装置へのインターフェースを含み得る。WSIでは、スライドスキャナによるスライドガラスの高解像度スキャンによって仮想スライドが生成される。スキャンは通常、区分的に行われ、結果の画像はつなぎ合わされて、スキャナが可能な最大倍率で1つの非常に大きな画像を形成する。これらの画像のサイズは、100,000×200,000画素のオーダーであり得、言い換えれば、数十億画素が含まれている可能性がある。いくつかの実施形態によれば、コンピュータシステムは、インターフェースを介して顕微鏡装置を制御して、検体を含むスライドをスキャンすることができる。したがって、コンピュータシステムは、インターフェースを介して受け取った顕微鏡装置から、組織学的検体の顕微鏡画像を取得することができる。
【0192】
上述のコンピュータシステムのアーキテクチャは単なる例示であり、代替的な構成要素を使用するか、またはより多くの(またはより少ない)構成要素を使用する異なるアーキテクチャを有するシステムを代わりに使用することができることが理解されよう。
【0193】
2.組織学的画像、およびそのソース
本明細書で使用する場合、「組織学的画像」という用語は、生物学的材料の微視的構造を示す、組織学的検体の画像を指す。「ソース組織学的画像」は、定義された生物学的材料のソースから取得された組織学的検体の組織学的画像である。生物学的材料の定義されたソースは、例えば、生物学的材料のエクスビボのサンプルであってもよい。組織学的画像は、本出願でさらに記載するように、例えば、トレーニングの目的のために、または推論の目的のために、本発明に従って使用されてもよい。
【0194】
組織学的画像は、例えば、組織学的検体の光学顕微鏡検査によって、例えば本出願の1.2節でより詳細に考察する、低拡大または高拡大の倍率と同等の倍率のレベルで得ることができる。しかしながら、当業者は、他の形態の顕微鏡検査を含む、組織学的検体を画像化する他の手段が、組織学的画像を生成するために使用されてもよいことを理解するであろう。
【0195】
また、組織学的画像は、例えば、参照により内容が本明細書に組み込まれる、Farahani et al.,Pathology and Laboratory Medicine International,2015,7:23-33で考察されているように、当技術分野において慣用の技術などによって、全スライド画像(WSI)を生成することによって、便利に生成され得る。WSIは、一般に「仮想顕微鏡」とも称され、典型的に、コンピュータで生成された方法で従来の光学顕微鏡をエミュレートすることを目的としている。実際には、WSIには典型的に2つのプロセスが含まれる。第1のプロセスは、典型的に、専用のハードウェア(スキャナ)を使用して、組織学的検体の画像(通常はスライドガラスで提供される)をデジタル化し、大きな描画的デジタル画像(いわゆる「デジタルスライド」)を生成する。第2のプロセスでは、典型的に、専用のソフトウェア(例えば、いわゆる仮想スライドビューア)を採用して、結果として得られる巨大なデジタルファイルを表示および/または分析する。Farahani et al.2015(上記)で考察されているように、過去10年間に、様々な市販のWSI機器が開発されてきた。一般的なWSIシステムおよびそれぞれのベンダーのリストとして、3DHistech(Pannoramic SCAN II,250 Flash)、DigiPath(PathScope)、Hamamatsu(NanoZoomer RS、HTおよびXR)、Huron(TISSUEscope 4000、4000XT、HS)、以前はAperioという名前で知られかつ運営されていたLeica(ScanScope AT、AT2、CS、FL、SCN400)、Mikroscan(D2)、Olympus(V S120-SL)、Omnyx(VL4、VL120)、PerkinElmer(Lamina)、Philips(Ultra-Fast Scanner)、Sakura Finetek(VisionTek)、Unic(Precice 500、Precice 600x)、以前はBioimageneとして知られかつ運営されていたVentana(iScan Coreo、iScan HT)、ならびにZeiss(Axio Scan.Z1)が挙げられるが、これらに限定されない。これらのデバイスは、多様なユーザベースのニーズを満たすことを目的としている。選択したWSIシステム間の相違点のリストが、Farahani et al.2015(上記)の表2に記載されている。好ましいデバイスとして、NanoZoomer XRスキャナおよび/またはApiero AT2スキャナを含む、本実施例で使用するデバイスが含まれる。
【0196】
したがって、好ましい実施形態では、上記または各ソース組織学的画像は、WSIであってもよい。
【0197】
好ましい実施形態では、本発明の方法、特にトレーニング方法には、画像スキャン装置の少なくとも2つの異なる断片を使用してマーカーで染色された組織学的検体の、WSIなどの複数のソース組織学的画像を取得することが含まれる。単一の画像スキャン装置の使用を回避することにより、トレーニングされた機械学習アルゴリズムは、その単一の画像スキャン装置からの画像のみを使用するようにはトレーニングされず、したがってトレーニングされた機械学習アルゴリズムは、様々な画像スキャン機器からの画像をよりよく処理できるはずである。トレーニングでより多くのスキャナを導入することにより、後続の推論の一般化を有利に改善することができる。
【0198】
画像スキャナ装置の異なる断片が使用される場合、本発明の方法には、画像を位置合わせするステップがさらに含まれてもよい。これは、例えば、一般にSIFT変換と称されるスケール不変特徴変換によって実行され得る。
【0199】
各顕微鏡画像は、好ましくは、1つ、2つ、もしくは3つのカラーチャネルからなる、グレースケールまたはカラー画像である。最も好ましくは、各顕微鏡画像は3つのカラーチャネルからなるカラー画像である。したがって、画素ごとに3つのサンプルが提供される。サンプルは、3次元カラー空間の座標である。好適な3Dカラー空間には、RGB、HSV、YCbCr、およびYUVが含まれるが、これらに限定されない。
【0200】
組織学的画像内の「関心対象の組織学的特徴」は、WSIなどの組織学的画像に存在する微視的構造の特徴を指す。限定されないが、この特徴は、例えば、診断もしくは治療の目的のために、または科学的研究に対して、関心対象であり得る。
【0201】
組織学的検体は、一般に、構造をレビューして診断を決定するため、または組織学的検体が採取された対象に関する予後を決定するために使用される。
【0202】
組織学的検体は、任意の生物学的ソースから取得され得る。それらは、例えば、任意の生物から、任意の組織、器官または生物内の他の構造から、および健康なかつ/または病理学的サンプルからのものであり得る。特に関心対象の情報源については、以下でさらに考察する。
【0203】
本出願の1節でより詳細に考察したように、かつ本特許請求の範囲によってさらに定義するように、本出願は、ソース組織病理学的画像であり得るソース組織学的画像(102、202、302)に対する、分類器(118、318)、または全体分類器(232、332)を決定するための、コンピュータ実装システム(100、200、300)について記載する。
【0204】
トレーニングフェーズで使用されるソース組織学的画像(例えば、WSI)は、グラウンドトゥルースが既知であるソースから取得された、組織学的検体の画像である。次に、ソース組織学的画像の各々は、各組織学的検体が取得された各ソースのグラウンドトゥルースを表現する、関連するトゥルースデータと対になる。本明細書に記載の実施例では、本明細書でさらに記載するように、組織学的検体はがん患者から取得され、グラウンドトゥルースは各患者の予後グループへのカテゴリ化に関連していた。
【0205】
すでにトレーニングされたコンピュータ実装システム(100、200、300)を使用する場合、トレーニングフェーズを通じて、ソース組織学的画像(例えば、WSI)は、グラウンドトゥルースが既知でないソースから取得された組織学的検体の画像である可能性がある。既知でないグラウンドトゥルースとは、例えば、組織学的検体の取得元のソース(対象など)に関連する、診断または予後情報であり得るが、これらに限定されない。次に、コンピュータ実装システム(100、200、300)を使用して、既知でないグラウンドトゥルースに関連するソース組織学的画像(102、202、302)に対する分類器(118、318)または全体分類器(232、332)を、例えば、ソース組織学的画像の取得元のソースの診断または予後評価を行うことによって、決定することができる。
【0206】
2.1 生物
ソース組織学的画像(102、202、302)が取得される組織学的検体の生物学的ソースは、例えば、任意の生物、好ましくは細胞生物、より好ましくは多細胞生物に由来し得る。生物学的ソースは、例えば動物であり得、例えば、ヒト、または霊長類、非ヒト霊長類、実験動物、農用動物、家畜、もしくは家庭用ペットなどの非ヒト動物のいずれかであり得る。
【0207】
生物学的ソースがヒト対象であることが最も好ましい場合がある。
【0208】
例示的な非ヒト動物として、任意選択的に、家禽(鶏、七面鳥、ガチョウ、ウズラまたはアヒルなど)、家畜(牛、羊、山羊または豚、アルパカ、バンテン、バイソン、ラクダ、猫、鹿、犬、ロバ、ガヤル、モルモット、馬、ラマ、ラバ、ウサギ、トナカイ、水牛、ヤク)、および動物園の動物、飼育下の動物、狩猟動物を含む他の動物、魚(淡水および塩水魚、養殖魚、観賞用動物を含む)、他の海洋および水生動物(カキ、ムール貝、アサリ、エビ、エビ、ロブスター、イセエビ、カニ、コウイカ、タコ、イカなどの甲殻類を含むがこれらに限定されない)、家庭用動物(猫および犬など)、げっ歯類(ネズミ、ラット、モルモット、ハムスターなど)、馬も含まれ、同様に、哺乳類、海洋動物、両生類、鳥、爬虫類、昆虫、他の無脊椎動物など、他の家畜、野生動物、農用動物が挙げられる。
【0209】
代替的な実施形態では、生物学的ソースに使用される生物は、植物、真菌、またはモネラ界(例えば、バクテリアもしくは古細菌)などの非動物ソースから取得された生物学的材料を含み得る。
【0210】
2.2 組織、臓器および他の構造
生物学的ソースは、本出願の上記2.1節で考察したように、ヒト対象または他の任意の多細胞生物からなどの、選択された生物に由来する任意の組織タイプ、器官または他の関心対象の構造に由来し得る。
【0211】
例えば、生物学的ソースは、ヒトまたは非ヒト動物内に存在する組織に由来し得、例えば、選択された生物の上皮、結合組織、筋肉、および/または神経系のうちの1つ以上を含む。生物学的ソースは、ヒト対象内に存在する組織に由来し得ることが特に好ましい場合がある。
【0212】
したがって、生物学的ソースは、ヒト対象からなど、選択された生物の上皮内に存在する組織に由来するか、またはそれを含み得る。
【0213】
上皮は、体の外面を覆い、内部の閉じた空洞と外部環境(消化管、呼吸器、および泌尿生殖器)とを連通する体管を覆う、連続した細胞のシート(1層以上の厚さ)であり、腺およびそれらの導管の分泌部分を構成し、かつ特定の感覚器官(例えば耳および鼻)の感覚受容領域に見られる。上皮被蓋および裏打ち面(例えば、皮膚)は、吸収(例えば、腸)、分泌(例えば、腺)に関与し、感覚(例えば、神経上皮)または収縮性(例えば、筋上皮細胞)であり得る。上皮は典型的に、体の表面を覆う、細胞の連続したシートである。上皮には、主に被蓋上皮および腺上皮の2つのタイプがある。
【0214】
被蓋上皮には、扁平上皮(例えば、血管の内皮内層および体腔の中皮内層)、立方上皮(例えば、唾液腺または腎臓などの小さな管および/または尿細管を裏打ちする組織)、円柱上皮(胃、子宮頸部および/または腸を裏打ちする細胞など)、偽層状上皮、層状上皮(角化(すなわち皮膚)または非角化(すなわち食道)形態の層状上皮など)、が含まれ得る。
【0215】
腺上皮は、分泌上皮細胞の組織化された集合体である腺に存在する。ほとんどの腺は、上皮細胞の増殖によって発達中に形成されるため、それらは下部にある結合組織に突出する。一部の腺は、導管を介して表面との連続性を保持しており、外分泌腺として知られている。他の腺は、それらの導管が発達中に退化すると、表面とのこの直接的な連続性を失う。これらの腺は内分泌腺として知られている。
【0216】
したがって、本発明で使用するためのソース組織学的画像の生物学的ソースは、前述のタイプの上皮、または他の任意のタイプの関心対象の上皮からなるか、本質的にそれからなるか、またはそれらのうちのいずれか1つ以上を含むことができる。
【0217】
追加的および/または代替的に、ソース組織学的画像の生物学的ソースは、ヒト対象からなど、選択された生物の結合組織内に存在する組織に由来するか、またはそれらを含み得る。結合組織は、細胞と細胞外マトリックスで構成されている。細胞外マトリックスは、タンパク質および多糖マトリックスの繊維で構成されており、細胞外マトリックスの細胞によって分泌および組織化される。細胞外マトリックスの組成の変化は、結合組織の特性を決定する。例えば、マトリックスが石灰化すると、骨または歯を形成し得る。細胞外マトリックスの特殊な形態はまた、腱、軟骨、および目の角膜をも構成する。一般的な結合組織は、繊維の配置に応じて、疎性かもしくは密性のいずれかである。細胞は、線維芽細胞によって分泌された糖タンパク質、繊維状タンパク質、およびグリコソアミノグリカンからなるマトリックス内にあり、マトリックスの主成分は実際には、水である。
【0218】
結合組織は、例えば、固有結合組織の形態(例えば、疎性の不規則な結合組織および/もしくは密性の不規則な結合組織)、または特殊結合組織の形態であり得る。特殊結合組織の例としては、腱および靭帯に見られる密性の規則的な結合組織、軟骨、脂肪組織、造血組織(骨髄、リンパ組織など)、血液、ならびに骨が挙げられる。
【0219】
したがって、本発明で使用するためのソース組織学的画像の生物学的ソースは、前述のタイプの結合組織、または他の任意のタイプの関心対象の結合組織からなるか、本質的にそれらからなるか、またはそれらのうちのいずれか1つ以上を含むことができる。
【0220】
追加的および/または代替的に、ソース組織学的画像の生物学的ソースは、ヒト対象からなど、選択された生物の筋肉内に存在する組織に由来するか、またはそれを含み得る。筋肉組織は、横紋筋または平滑筋のいずれかであり得る。筋肉組織は、骨格筋もしくは心筋(どちらも横紋タイプである)、または平滑筋(ほとんどの血管の壁および腸などの管状器官に見られる筋肉組織など)の形態であり得る。
【0221】
したがって、本発明で使用するためのソース組織学的画像の生物学的ソースは、前述のタイプの筋肉組織、または他の任意のタイプの関心対象の筋肉組織からなるか、本質的にそれらからなるか、またはそれらのうちのいずれか1つ以上を含むことができる。
【0222】
追加的および/または代替的に、ソース組織学的画像の生物学的ソースは、ヒト対象からなど、選択された生物の神経系内に存在する組織に由来するか、またはそれを含み得る。神経系には、脳と脊髄で構成される中枢神経系(CNS)、ならびに末梢神経系(PNS)が含まれ、PNSは、脳からの脳神経、脊髄からの脊髄神経、および神経細胞体を含む神経節として知られる小結節を含む、CNS外のすべての神経組織で構成されている。
【0223】
したがって、本発明で使用するためのソース組織学的画像の生物学的ソースは、前述のタイプの神経系、または神経系内の他の任意のタイプの関心対象の組織からなるか、本質的になるか、またはそれらのうちのいずれか1つ以上を含むことができる。
【0224】
任意選択的に、本発明で使用するためのソース組織学的画像の生物学的ソースは、ヒト対象からなどの選択された生物の、以下の器官のうちのいずれか1つ以上から取得される生物学的材料からなるか、本質的にそれらからなるか、またはそれらを含むことができる。
-骨格、関節、靭帯、筋肉系、および/または腱などの筋肉系。
-口(例えば、歯および/または舌)、唾液腺(例えば、耳下腺、下顎下腺および/または舌下腺)、咽頭、食道、胃、小腸(例えば、十二指腸、空腸および/または回腸)、大腸、肝臓、食道、腸間膜、膵臓、肛門管および/または肛門などの消化器系。
-鼻腔、咽頭、喉頭、気管、気管支、肺および/または横隔膜などの呼吸器系。
-腎臓、尿管、膀胱、および/または尿道などの泌尿器系。
-女性生殖器または男性生殖器などの生殖器官。女性の生殖器系には、内部生殖器(卵巣、卵管、子宮、および膣など)、外部生殖器(外陰部、陰核など)、および胎盤が含まれる。男性の生殖器系には、内部生殖器(精巣、精巣上体、精管、精嚢、前立腺、尿道球腺など)、ならびに外部生殖器(陰茎および陰嚢など)が含まれる。
-下垂体、松果体、甲状腺、副甲状腺、副腎、および膵臓などの内分泌系。
-心臓、卵円孔開存、動脈、静脈、および毛細血管などの循環器系。
-リンパ管、リンパ節、骨髄、胸腺、脾臓、扁桃腺を含む腸管関連リンパ組織などのリンパ系。
-脳(大脳(例えば大脳半球)および間脳を含む)、脳幹(中脳、橋および延髄を含む)、小脳、脊髄、および脈絡叢を含む脳室系。神経(例えば頭蓋神経、脊髄神経、神経節および腸管神経系)などの末梢神経系。
-眼およびその構成要素(例えば、蝸牛、虹彩、繊毛体、水晶体および/または網膜)、耳またはその構成要素(例えば、耳たぶなどの外耳、鼓膜、耳小骨などの中耳、蝸牛、耳の前庭、および/または半規管などの内耳)、嗅覚上皮、および舌(味蕾を含む)。
-乳腺、皮膚、および/または皮下組織などの外皮系。
【0225】
2.3 健康なサンプルまたは病的なサンプル
組織学的検体は、健康なサンプルまたは病的なサンプルから取得することができる。
【0226】
本発明で使用するためのソース組織学的画像の生物学的ソースは、健康なサンプルまたは病的なサンプルから取得された生物学的材料からなるか、本質的にそれらからなるか、またはそれらを含み得る。
【0227】
生物学的材料が病的なサンプルから取得される場合、そこから得られる組織学的検体は「組織病理学的」サンプルと称され得、定義されたソースの組織病理学的サンプルから取得される画像は「ソース組織病理学的画像」と称され得る。本明細書で使用する場合、「病的な」という用語は、任意の病状、障害、または疾患を含む、不健康な状態を指す。
【0228】
そのような組織病理学的サンプルは、病理学的状態を構成する生物学的材料を含み得る、または含むことが疑われ得る。例えば、組織病理学的サンプルの生物学的ソースは、病的状態を有する、病的状態を有すると診断されている、病的状態を有する疑いがある、病的状態に対して治療されている、以前に病的状態に対して治療されたことがある、かつ/または以前に病的状態を有したことがある、ヒト対象などの対象であり得る。
【0229】
例えば、病的状態が、がんであり、生物学的ソースが、がんを有する、がんを有すると診断されている、がんを有する疑いがある、がんに対して治療されている、以前にがんに対して治療されたことがある、かつ/または以前にがんを有したことがある、ヒト対象などの対象である場合、組織病理学的サンプルは、がん性細胞を含む生物学的材料を含むか、または含むと疑われる可能性がある。
【0230】
組織病理学的サンプルから取得されたソース組織病理学的画像は、生物学的材料を含む画像を含むことが確認され得、この生物学的材料とは、(a)病的状態を有する生物学的材料を含む、本質的にそれからなる、またはそれからなる、および/または(b)病的状態によって改変された生物学的材料を含む、本質的にそれからなる、またはそれからなる。
【0231】
この確認ステップは、様々な方法で実施されてもよい。当業者は、生物学的材料から得られた組織学的サンプルおよび/またはそこから取得された組織学的画像において、生物学的材料内の病的状態の存在を確認するための多くの異なるアプローチを知っている。例えば、限定されないが、確認ステップは、人間による評価によって(例えば、熟練した病理学者によって)実施され得る。本明細書に例示されるように、限定されないが、がんを有するヒト対象から取得されたソース組織病理学的画像の文脈において、病理学者を使用して各組織切片に腫瘍があったかどうかを確認したが、組織サンプル中の腫瘍材料の存在について、同等のコンピュータ実装評価も使用できることが理解されよう。
【0232】
したがって、組織学的検体は、病状を有する、または有すると疑われる対象から取得された生物学的材料を含むことが好ましい場合がある。
【0233】
病状とは、例えば、疾患であり得る。より具体的には、疾患は、感染症、欠乏症、遺伝性疾患(遺伝性疾患および非遺伝性遺伝性疾患の両方を含む)、および生理学的疾患からなる群から選択される疾患であり得る。
【0234】
疾患は、伝染性疾患であり得る。代替的に、疾患は、非感染性疾患であり得る。
【0235】
本出願の上記2.2節で記載したように、疾患は、1つ以上の組織および/もしくは臓器、または他の身体部分に任意に存在する可能性がある。
【0236】
限定されないが、例示的な疾患には、遺伝的起源の疾患、化学的および/または物理的損傷から生じる疾患、免疫起源の疾患(免疫不全、および感染がない場合の免疫応答を含む)、生物起源の疾患(例えば、ウイルス性疾患、リケッチア性疾患、細菌性疾患、および真菌および他の寄生虫によって引き起こされる疾患)、細胞の異常成長と関連付けられた、特にがんに見られる疾患(過形成、良性腫瘍および悪性腫瘍を含むがこれらに限定されない)、代謝内分泌の疾患起源、栄養の疾患(例えば、栄養過剰の疾患および/または栄養不足の疾患を含む、神経精神医学的起源の疾患(例えば、アルツハイマー病、ハンチントン舞踏病、およびパーキンソン病などの神経障害を含む)、ならびに老化の疾患が挙げられる。
【0237】
疾患は、任意選択的に、急性、慢性、悪性、または良性であり得る。急性疾患のプロセスは通常、突然始まり、すぐに終わる。慢性疾患は、しばしば非常にゆっくりと始まり、その後長期間持続する。良性および悪性という用語は、腫瘍を説明するために最も頻繁に使用され、より一般的な意味で使用され得る。良性疾患は一般的に合併症がなく、かつ予後(転帰)良好が通常である。悪性腫瘍は、放置すると致命的な病気を引き起こすプロセスを意味する。がんはすべての悪性腫瘍の総称である。
【0238】
2.3.1 がん
本発明に特に関心のある一実施形態では、本発明で使用するためのソース組織学的画像の生物学的ソースは、がんを有する、がんを有すると診断されている、がんを有する疑いがある、がんに対して治療されている、以前にがんに対して治療されたことがある、かつ/または以前にがんを有したことがある、ヒト対象などの対象から取得された、生物学的材料からなるか、本質的にそれからなるか、またはそれを含みうる。
【0239】
生物学的材料は、対象の体内の原発性、続発性、または他の任意の腫瘍の部位から取得され得るか、またはそのような既知の腫瘍の部位に局所的、領域的、または遠位である部位から取得され得る。
【0240】
組織病理学的サンプルは、1つ以上のがん性細胞を含む生物学的材料を含むか、または含むと疑われる可能性がある。
【0241】
組織病理学的サンプルから取得されたソース組織病理学的画像は、本発明で使用する前に、1つ以上のがん性細胞を含む生物学的材料の画像を含むことを確認することができる。
【0242】
本発明では、あらゆるタイプのがんを評価することができる。
【0243】
多くの場合、腫瘍にはグレードおよびステージが割り当てられる。固形腫瘍のステージとは、そのサイズもしくは程度、および他の臓器もしくは組織に転移しているかどうかを指す。腫瘍のグレード(がんのグレード)は、腫瘍がどれだけ早く成長して拡がる可能性があるかを示す。
【0244】
例えば、がんには、ステージ0期、ステージI期、ステージII期、ステージIII期、もしくはステージIV期、またはそれらのいずれか1つ以上の細分化があり得る。これらの異なるステージの特性およびその細分化は、当技術分野でよく知られている。ただし、一般的には、ステージ0期は、がんが(その場で)発生した場所であり、転移していないことを示す。ステージI期は、がんが小さく、他のどこにも転移していないことを示す。ステージII期は、がんが増殖したが、転移していないことを示す。ステージIII期は、がんがより大きく、周囲の組織および/またはリンパ節(リンパ系の一部)に転移している可能性があることを示す。ステージIV期は、がんが発生した場所から少なくとも1つの他の体の臓器に転移していることを示し、「続発性」または「転移性」がんとしても知られている。
【0245】
一実施形態では、がんは、TNMステージ分類システムによって分類されるがんのステージであり得る。これは、AJCCおよびUnion for International Cancer Control(UICC)によって開発され、維持されているシステムである。これは、世界中の医療専門家によって最も一般的に使用されている病期分類システムである。TNM分類システムは、特定の標準化された基準に基づいて、医師が様々なタイプのがんをステージ分類するためのツールとして開発された。TNM病期分類システムは、腫瘍の範囲(T)、リンパ節への転移の程度(N)、および転移の存在(M)に基づいている。
-Tカテゴリは、元の(原発性)腫瘍を説明する。TXは、原発腫瘍の評価が不能であることを指す。T0は、原発腫瘍の証拠がないことを指す。Tisは、上皮内がん(隣接組織に転移していない初期のがん)を指す。T1、T2、T3、およびT4は、原発腫瘍のサイズおよび/または範囲に関する。
-Nカテゴリは、がんが近くのリンパ節に到達したかどうかを説明する。NXは、所属リンパ節の評価が不能であることを示す。N0は、所属リンパ節への転移がないことを示す(リンパ節にがんが見出せない)。N1、N2、およびN3は、所属リンパ節の関与(拡がりの数および/または程度)を示す。
-Mカテゴリは、遠隔転移(体の他の部分へのがんの拡がり)があるかどうかを示す。M0は遠隔転移がない(がんが体の他の部分に転移していない)ことを示す。M1は遠隔転移がある(がんが体の遠隔部分に拡がっている)ことを示す。
【0246】
がんのタイプごとに固有の分類体系があるため、文字と数字がすべてのタイプのがんに対して常に同じことを意味するわけではない。T、N、およびMが決定されると、それらが組み合わされ、0期、I期、II期、III期、IV期の全体的なステージを割り当てることができる。これらのステージは、IIIA期およびIIIB期などの文字を使用して細分化されることもある。さらなるガイダンスは、www.https://cancerstaging.orgに存在し得る。
【0247】
一部のがんのタイプでは、解剖学的ステージ/予後グループを割り当てる際に、非解剖学的要因を考慮に入れることができる。これらは、AJCC Cancer Staging Manualの各章で明確に定義されている(例えば、前立腺のグリーソンスコア(Gleason Score in Prostate))。これらの要因は、純粋に解剖学的なままであり、ステージグループを割り当てるために使用されるT、N、およびMとは別に収集される。非解剖学的要因がグループ化に使用される場合は、非解剖学的要因が利用できないケース(X)、または非解剖学的要因を無視してグループを割り当てることが望ましいケースに提供される、グループ化の定義がある。
【0248】
ステージI期のがんは最も進行が遅く、予後はより良好であることが多い。より高いステージのがんは、より進行が早いことが多いが、多くの場合はそれでもうまく治療することができる。
【0249】
追加的および/または代替的な選択肢では、がんは、特定のグレードのものである可能性がある。悪性度の判定は典型的に、細胞の分化(正常細胞との類似度)に基づいている。がんの特定のグレードは、例えば、グレードI、グレードII、グレードIIIまたはグレードIVのがん、または2つもしくは3つのカテゴリの組み合わせであり得る。これらの異なるグレードの特徴は、当技術分野でよく知られている。ただし、一般的には、グレードIのがんは、細胞が正常な細胞に似ており、急速に成長していないがんの一種であり、グレードIIのがんは、がん細胞が正常細胞のようには見えず、正常細胞よりも速く成長しているがんの一種であり、グレードIIIおよびIVは、がん細胞が異常に見え、より攻撃的に増殖または拡がる可能性のあるがんの一種である。増殖特性は、例えば、細胞の分裂の頻度に基づいていくつかのがんで評価され得る。
【0250】
がんは、例えば、がん腫、肉腫、骨髄腫、白血病、リンパ腫、および混合型のがんからなる群から選択されるタイプのがんであり得る。
【0251】
がん腫とは、上皮由来の悪性新生物、または体の内層または外層のがんを指す。上皮組織の悪性腫瘍であるがん腫は、すべてのがん症例の80~90パーセントを占めている。上皮組織は全身に見られる。それは、上でさらに考察したように、皮膚、ならびに臓器および胃腸管などの内部通路の被蓋および裏打ちに存在する。
【0252】
がん腫は2つの主要なサブタイプ、すなわち、腺器官で発生する腺がんと扁平上皮で発生する扁平上皮がんとに分けられ得る。
【0253】
腺がんは一般に粘膜に発生し、最初は肥厚したプラーク状の白い粘膜として見られる。腺がんは、それらが発生する軟組織を通して容易に拡がることが多い。扁平上皮がんは、体の多くの部位に発生する。
【0254】
ほとんどのがん腫は、乳汁を産生する乳房、または粘液を分泌する肺、または結腸、または前立腺、または膀胱など、分泌可能な臓器または腺に影響を及ぼす。
【0255】
一実施形態では、がんは、乳がん、基底細胞がん、腺がん、胃腸がん、唇がん、口がん、食道がん、小腸がんおよび胃がん、結腸がん、肝臓がん、膀胱がん、膵臓がん、卵巣がん、頸部がん、肺がん、ならびに扁平上皮細胞および基底細胞がん、前立腺がん、腎細胞がん、および全身の上皮細胞に影響を与える他の既知のがんなどの皮膚がん、から選択される上皮細胞から生じるがんであり得る。
【0256】
肉腫とは、骨、腱、軟骨、筋肉、および脂肪などの支持組織および結合組織に発生するがんを指す。一般に若年成人に発生する最も一般的な肉腫は、骨の痛みを伴う腫瘤として発症することが多い。肉腫は通常、それらが成長する組織に似ている。
【0257】
肉腫の例には、骨肉腫または骨形成肉腫(骨)、軟骨肉腫(軟骨)、平滑筋肉腫(滑らかな筋肉)、横紋筋肉腫(骨格筋)、中皮肉腫または中皮腫(体腔の膜性内層)、線維肉腫(線維肉腫)血管内皮腫(血管)、脂肪肉腫(脂肪組織)、神経膠腫または星状細胞腫(脳に見られる神経原性結合組織)、粘液肉腫(原始胚性結合組織)、間葉性または混合中胚葉性腫瘍(混合結合組織タイプ)が挙げられる。
【0258】
骨髄腫は、骨髄の形質細胞に発生するがんである。形質細胞は、血液中に見られるタンパク質のいくつかを生成する。
【0259】
がんは、固形がんまたは液体がんである可能性がある。
【0260】
例えば、白血病(「液体がん」または「血液がん」)は、骨髄(血球産生部位)のがんである。この疾患は、未熟な白血球の過剰産生と関連付けられることが多い。これらの未熟な白血球は、それらが機能するべきであるように良好には機能しないため、患者は、感染しやすいことが多い。白血病は、赤血球にも影響を及ぼし、貧血による血液凝固不良および倦怠感を引き起こす場合がある。白血病の例には以下が挙げられる。
-骨髄性または顆粒球性白血病(骨髄性および顆粒球性白血球系列の悪性腫瘍)
-リンパ性、リンパ球性、またはリンパ芽球性白血病(リンパ球およびリンパ球の血球系列の悪性腫瘍)
-真性多血症または赤血球血症(様々な血球製品の悪性腫瘍であるが、赤血球が優勢である)
【0261】
リンパ腫は、リンパ系の腺または結節、血管、結節、および臓器(特に脾臓、扁桃腺、胸腺)のネットワークで発生し、体液を浄化して感染と戦う白血球またはリンパ球を生成する。しばしば「液体がん」と呼ばれる白血病とは異なり、リンパ腫は「固形がん」である。リンパ腫は、胃、乳房、脳などの特定の臓器にも発生する可能性がある。これらのリンパ腫は、リンパ節外リンパ腫と称される。リンパ腫は、ホジキンリンパ腫および非ホジキンリンパ腫の2つのカテゴリに分類される。ホジキンリンパ腫におけるリードシュテルンベルク細胞の存在は、ホジキンリンパ腫と非ホジキンリンパ腫を診断的に区別する。
【0262】
混合型のがんには、型成分が1つのがんのカテゴリ内にあるか、または異なるカテゴリのがんに属するがんが含まれ得る。いくつかの例には、腺扁平上皮がん、混合中胚葉腫瘍、がん肉腫、および奇形腫が挙げられる。
【0263】
場合により、がんは、原発性がんまたは転移性がんであり得る。原発性がんは、原発腫瘍のがん細胞を指し、これは、対象内の最初の部位に現れる腫瘍であり、原発腫瘍から離れた部位で対象の体内に現れる転移性腫瘍と区別することができる。転移性がんは転移から生じ、転移とは、起源の器官から患者の追加の遠位部位へがんが拡がっている状態を指す。
【0264】
1つの好ましい実施形態では、本発明で使用される組織学的検体は、以下のリストのうちのいずれか1つ以上を選択したタイプのがんを有するか、もしくは有すると疑われる対象から取得される生物学的材料を含む。
・急性リンパ芽球性白血病(ALL)、
・急性骨髄性白血病(AML)、
・青年期のがん(例えば、12~18歳の青年期)、
・副腎皮質がん、例えば、以下も含む。
○小児副腎皮質がん
・エイズ関連がん、例えば、以下も含む。
○カポジ肉腫(軟部肉腫)
○エイズ関連リンパ腫(リンパ腫)
○原発性CNSリンパ腫(リンパ腫)
・肛門がん
・虫垂がん
・小児星状細胞腫(脳腫瘍)
・異型奇形/ラブドイド腫瘍、小児期、中枢神経系(脳腫瘍)
・皮膚の基底細胞がん
・胆管がん
・膀胱がん、例えば、以下も含む。
○小児膀胱がん
・骨肉腫(ユーイング肉腫、骨肉腫、悪性線維性組織球腫など)
・脳腫瘍
・乳がん、例えば、以下も含む。
○小児乳がん
・小児気管支腫瘍
・バーキットリンパ腫
・カルチノイド腫瘍(胃腸)、例えば、以下も含む。
○小児カルチノイド腫瘍
・原発不明のがん腫、例えば、以下も含む。
○原発不明の小児がん
・小児心臓(心臓)腫瘍
・中枢神経系、例えば、以下も含む。
○小児異型奇形/ラブドイド腫瘍、(脳腫瘍)
○小児胚性腫瘍、(脳腫瘍)
○小児胚細胞腫瘍、(脳腫瘍)
○原発性CNSリンパ腫
・子宮頸がん、例えば、以下も含む。
○小児子宮頸がん
・小児がん(例えば、18歳未満、好ましくは16、14歳、または1~12歳の範囲などの12歳未満)、
・小児期の異常ながん、
・胆管がん
・小児脊索腫、
・慢性リンパ性白血病(CLL)
・慢性骨髄性白血病(CML)
・慢性骨髄増殖性腫瘍
・大腸がん、例えば、以下も含む。
○小児結腸直腸がん
・小児頭蓋咽頭腫(脳腫瘍)
・皮膚T細胞リンパ腫
・非浸潤性乳管がん(DCIS)
・胚性腫瘍、中枢神経系、小児期(脳腫瘍)
・子宮内膜がん(子宮がん)
・小児上衣腫(脳腫瘍)
・食道がん、例えば、以下も含む。
○小児食道がん
・嗅神経芽細胞腫(頭頸部がん)
・ユーイング肉腫(骨肉腫)
・小児頭蓋外胚細胞腫瘍、
・性腺外胚細胞腫瘍
・眼のがん、例えば、以下も含む。
○小児眼内黒色腫
○眼内黒色腫
○網膜芽細胞腫
・卵管がん
・骨、悪性、骨肉腫の線維性組織球腫
・胆嚢がん
・胃(胃)がん、例えば、以下も含む。
○小児胃(胃)がん
・消化管カルチノイド腫瘍
・消化管間質腫瘍(GIST)(軟部肉腫)、例えば、以下も含む。
○小児消化管間質腫瘍
・胚細胞腫瘍、例えば、以下も含む。
○小児中枢神経系胚細胞腫瘍(脳腫瘍)
○小児頭蓋外胚細胞腫瘍
○性腺外胚細胞腫瘍
○卵巣胚細胞腫瘍
○精巣腫瘍
・妊娠性絨毛性疾患
・有毛細胞白血病
・頭頸部がん
・小児心臓腫瘍
・肝細胞(肝)がん
・組織球症、ランゲルハンス細胞
・ホジキンリンパ腫
・下咽頭がん(頭頸部がん)
・眼内黒色腫、例えば、以下も含む。
○小児眼内黒色腫
・膵島細胞腫瘍、膵臓神経内分泌腫瘍
・カポジ肉腫(軟部肉腫)
・腎臓(腎細胞)がん
・ランゲルハンス細胞組織球症
・喉頭がん(頭頸部がん)
・白血病
・唇・口腔がん(頭頸部がん)
・肝臓がん
・肺がん(非小細胞および小細胞)、例えば、以下も含む。
○小児肺がん
・リンパ腫
・男性の乳がん
・骨肉腫および骨肉腫の悪性線維性組織球腫
・黒色腫、例えば、以下も含む。
○小児黒色腫
・眼内(眼)黒色腫、例えば、以下も含む。
○小児眼内黒色腫
・メルケル細胞がん(皮膚がん)
・悪性中皮腫、例えば、以下も含む。
○小児中皮腫
・転移性がん
・原発巣が潜伏している転移性扁平上皮がん(頭頸部がん)
・NUT遺伝子変化を伴う正中路がん
・口腔がん(頭頸部がん)
・多発性内分泌腺腫症症候群
・多発性骨髄腫/多発性骨髄腫/プラズマ細胞新生物
・菌状息肉腫(リンパ腫)
・骨髄異形成症候群、骨髄異形成/骨髄増殖性腫瘍
・慢性骨髄性白血病(CML)
・急性骨髄性白血病(AML)
・慢性骨髄増殖性腫瘍
・鼻腔がんと副鼻腔がん(頭頸部がん)
・鼻咽頭がん(頭頸部がん)
・神経芽細胞腫
・非ホジキンリンパ腫
・非小細胞肺がん
・口腔がん、唇および口腔がん、ならびに中咽頭がん(頭頸部がん)
・骨肉腫および骨の悪性線維性組織球腫
・卵巣がん、例えば、以下も含む。
○小児卵巣がん
・膵臓がん、例えば、以下も含む。
○小児膵臓がん
・膵臓神経内分泌腫瘍(膵島細胞腫瘍)
・乳頭腫症(小児喉頭)
・傍神経節腫、例えば、以下も含む。
○小児傍神経節腫
・副鼻腔がんおよび鼻腔がん(頭頸部がん)
・副甲状腺がん
・陰茎がん
・咽頭がん(頭頸部がん)
・褐色細胞腫、例えば、以下も含む。
○小児褐色細胞腫
・下垂体腫瘍
・形質細胞新生物/多発性骨髄腫
・胸膜肺芽腫
・妊娠および乳がん(すなわち、妊婦の乳がん)
・原発性中枢神経系(CNS)リンパ腫
・原発性腹膜がん
・前立腺がん
・直腸がん
・再発がん
・腎細胞(腎臓)がん
・網膜芽細胞腫
・小児横紋筋肉腫(軟部肉腫)
・唾液腺がん(頭頸部がん)
・肉腫、例えば、以下も含む。
○小児横紋筋肉腫(軟部肉腫)
○小児血管腫瘍(軟部肉腫)
○ユーイング肉腫(骨肉腫)
○カポジ肉腫(軟部肉腫)
○骨肉腫(骨肉腫)
○軟部肉腫
○子宮肉腫
・セザリー症候群(リンパ腫)
・皮膚がん、例えば、以下も含む。
○小児皮膚がん
・小細胞肺がん
・小腸がん
・軟部肉腫
・皮膚の扁平上皮がん
・原発巣が潜伏している転移性扁平上皮がん(頭頸部がん)
・胃(胃)がん、例えば、以下も含む。
○小児胃(胃)がん
・皮膚T細胞リンパ腫
・精巣がん、例えば、以下も含む。
○小児精巣がん
・喉のがん(頭頸部がん)、例えば、以下も含む。
○上咽頭がん
○中咽頭がん
○下咽頭がん
・胸腺腫および胸腺がん
・甲状腺がん
・腎盂と尿管の移行上皮がん(腎臓(腎細胞)がん)
・原発不明のがん腫、例えば、以下も含む。
○原発不明の小児がん
・小児期の異常ながん
・尿管・腎盂、移行上皮がん(腎臓(腎細胞)がん)
・尿道がん
・子宮内膜がん
・子宮肉腫
・膣がん、例えば、以下も含む。
○小児膣がん
・血管腫瘍(軟部肉腫)
・外陰がん
・ウィルムス腫瘍および他の小児腎腫瘍
・若年成人のがん(例えば、18~30歳などの16~30歳の若年成人、任意選択的に28、26、24、22、20歳未満)
【0265】
より具体的には、好ましい実施形態では、本発明で使用するためのソース組織学的画像の生物学的ソースは、以下のリストのうちのいずれか1つ以上を選択したタイプのがんを有する、そのがんを有すると診断されている、そのがんを有する疑いがある、そのがんに対して治療されている、以前にそのがんに対して治療されたことがある、かつ/または以前にそのがんを有したことがある(ヒト対象などの)対象から取得された、生物学的材料からなるか、本質的にそれからなるか、またはそれを含みうる。
皮膚がん:皮膚がんには、基底細胞、扁平上皮細胞、および黒色腫の3つの主要なタイプがある。これらのがんは、同じ名前の表皮層に由来する。黒色腫は、表皮の最も深いレベルにあるメラノサイトまたは色素細胞に由来する。基底細胞がんおよび扁平上皮がんは通常、顔、耳、および四肢などの、太陽にさらされる体の部分に発生する。
肺がん:肺がんは、疾患が進行するまで症状が現れないことが多いため、早期ステージ期に発見することは非常に困難である。症状には、持続性の咳、血が混じった痰、胸痛、肺炎および気管支炎の繰り返される発作などがある。
女性または男性の乳がん:米国では、女性の約8人に1人が最終的に彼女の生涯で乳がんを発症すると推定されている。ほとんどの乳がんは腺管がんである。この疾患を発症する可能性が最も高い女性は、50歳を超えた人、すでに片方の乳房にがんを有したことがある人、母親または姉妹が乳がんを有していた人、子供を持ったことのない人、および30歳以降に最初の子供を持った人、である。他の危険因子には、肥満、高脂肪食、早発初経(月経が始まる年齢)、および遅発閉経(月経が終わる年齢)が含まれる。
前立腺がん:前立腺のがんは主に年配の男性に見られる。男性が年をとるにつれて、前立腺が肥大し、尿道または膀胱を塞ぐ可能性がある。これは、排尿を困難にする可能性があるか、または性機能を妨害する可能性がある。この状態は、良性前立腺肥大症(BPH)と呼ばれる。BPHはがん性ではないが、それを直すために手術が必要になる場合がある。BPHの症状、または前立腺の他の問題の症状は、前立腺がんの症状と類似している可能性がある。
結腸がんおよび/または直腸がん:大腸がん(CRC)は、通常、消化管の結腸または直腸の内側を覆う上皮細胞に起因する疾患である。大腸に影響を与えるがんのうち、約70%が結腸で発生し、約30%が直腸で発生する。これらのがんは、全体で3番目に多いがんである。症状には、便潜血検査で検査することができる便中の血液、または重度の便秘もしくは下痢などの排便習慣の変化が含まれる。
子宮(子宮体部)がん:子宮は女性の骨盤の嚢であり、赤ちゃんを受精卵から発育させ出産まで保護することができる。子宮のがんは、最も一般的な婦人科悪性腫瘍である。このがんは、40歳未満の女性では稀にしか発生しない。60歳以降に最も頻繁に発生する。主な症状には通常、異常な子宮出血がある。子宮内膜生検またはD&Cを実施して診断を確認することが多い。
【0266】
上で考察した原発部位にちなんで名付けられたがんのタイプに加えて、脳腫瘍、精巣がん、膀胱がんなど、他にも多くの例がある。
【0267】
2.3.2 治療
上で考察されたように、ソース組織病理学的画像が生成される組織病理学的サンプルの生物学的ソースは、病的状態(がんなど)に対して治療されている、かつ/または以前に病的状態(がんなど)を有したことがある対象(ヒト対象など)であり得る。
【0268】
追加的および/または代替的に、対象は、例えば、関心対象の病的状態(がんを含むがこれに限定されない)を有し、例えば、病的状態についてのさらなる情報を取得して、その病的状態に対する将来の治療の必要性、性質、および/または潜在的利益についての決定を支援することが望ましい対象である。
【0269】
対象は、例えば、関心対象の病的状態(がんを含むがこれに限定されない)と診断され、その病的状態に対して1つ以上の治療をすでに受けている対象であり得、対象がまだ病的状態を有しているかどうかを知ること、および/または病的状態が以前に治療された対象の身体の部位もしくは対象の身体の他の部位の生物学的物質に関するさらなる情報を入手して、その病的状態に対する将来の治療の必要性、性質および/または潜在的な利益についての決定を下すのを助けることが望ましい対象であり得る。
【0270】
病的状態(がんを含む)に対するそのような形態の治療が含まれ、当業者は、外科的および/または非外科的治療アプローチ(例えば、1つ以上の組成物の投与であって、上記または各組成物が、病的状態に関して治療的および/または予防的効果を提供する1つ以上の活性剤を含むもの)、ならびに治療の形態を病的状態のタイプにどのように一致させるかについてよく知っている。
【0271】
より具体的には、限定されないが、がん治療には、外科手術、放射線療法、化学療法、ビスホスホネート、遺伝子療法、免疫療法、標的療法、ホルモン療法、幹細胞および/もしくは骨髄移植、ならびに/または精密医療が含まれる。さらなるがん治療として、高周波焼灼、レーザー治療、高密度焦点式超音波(HIFU)、光線力学療法、凍結療法、紫外線治療および/または電気化学療法が含まれるが、これらに限定されない。一実施形態では、がん治療(例えば、その病的状態に対する将来の治療の必要性、性質、および/または潜在的利益について決定を下すという文脈において)は、補助療法の一形態であり得る。補助療法は、一次(初期)治療に加えて行われる治療の一形態である。がんの補助療法には、一次(例えば、外科的)治療に続く治療の形態が含まれ、一次治療後に対象に残っているがん細胞を治療すること、および/またはがんの再発リスクを低減することを目的とするがん治療の、任意の形態(例えば、化学療法または放射線療法、または他の形態のがん治療)であることができる。
【0272】
2.3.3 対象の特性
上で考察したように、本発明に従って使用される組織学的検体に存在する生物学的材料のソースとして作用する対象(ヒト対象など)は、健康な対象、またはより典型的には病的な対象であり得る。
【0273】
対象は、任意選択的に、男性のヒトなどの、雄であり得る。
【0274】
対象は、任意選択的に、女性のヒトなどの、雌であり得る。
【0275】
対象は、例えば、ヒトの成人、ヒトの青年、ヒトの少年、ヒトの子供、ヒトの幼児、ヒトの新生児、ヒトの胎児またはヒトの胚などの、成人、青年、少年、子供、乳児、新生児、胎児、または胚であり得る。
【0276】
対象は、例えば、生後1、2、3、4、5、6、7、8、9、10、11または12ヶ月未満のヒトの乳児であり得る。
【0277】
対象は、例えば、少なくとも1歳以上、例えば、少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、または20歳以上、および任意選択的に100、90、85、80、75、65、60、55、50、45、または40歳未満の、ヒト(例えば、男性のヒトおよび/または女性のヒト)であり得る。
【0278】
対象は、例えば、少なくとも20歳以上、例えば、少なくとも25、30、35、40、45、50、55、60、65、70、75、または80歳以上、および任意選択的に100、90、または85歳未満の、ヒト(例えば、男性のヒトおよび/または女性のヒト)であり得る。
【0279】
病的な対象は、病的状態を有する、病的状態を有すると診断されている、病的状態を有する疑いがある、病的状態に対して治療されている、以前に病的状態に対して治療されたことがある、かつ/または以前に病的状態を有したことがある対象(ヒト対象など)であり得る。
【0280】
病的な対象からの生物学的材料を含む組織学的検体の場合、組織学的検体は、その対象に存在する病的状態を含む生物学的材料を包含するか、もしくは包含することが疑われる可能性がある。そのような病状には、限定されないが、本出願の上記2.3節で考察した病状が含まれ、好ましい実施形態では、病的状態は、がんの形態、例えば、本出願の上記2.3.1節で考察したタイプのがんであり得る。
【0281】
対象は、例えば、以前に関心対象の病的状態(がんを含むがこれに限定されない)と診断されてはいないが、例えば、その病的状態を発症または進行するリスクがあるかどうか、および/またはそのリスクがあるかどうかを知ることが望ましい対象であり得る。
【0282】
対象は、例えば、関心対象の病的状態(がんを含むがこれに限定されない)を有しており、例えば、病的状態についてのさらなる情報を取得して、例えば、その病的状態の予後を決定すること、ならびに/またはその病的状態に対する将来の治療の必要性、性質および/もしくは潜在的利益についての決定を支援することが望ましい対象であり得る。
【0283】
対象は、例えば、関心対象の病的状態(がんを含むがこれに限定されない)と診断され、(例えば、本出願の上記2.3.2節で考察したように)その病的状態に対して1つ以上の治療をすでに受けている対象であり得、対象がまだ病的状態を有しているかどうかを知ること、および/または病的状態が以前に治療された対象の身体の部位もしくは対象の身体の他の部位の生物学的物質に関するさらなる情報を入手して、その病的状態に対する将来の治療の必要性、性質および/または潜在的な利益についての決定を下すのを助けることが望ましい対象であり得る。
【0284】
例えば、病的状態が、がんである場合、検体は、以下から採取され得る。
・以前にがんと診断されたことはないが、例えば、がんを有しているかどうかを知ることが望ましい対象。
・がんと診断され、例えば、がんについてのさらなる情報を入手して、例えば、がんの予後を決定すること、ならびに/またはそのがんに対する将来の治療の必要性、性質および/もしくは潜在的利益についての決定を支援することが望ましい対象、および/または
・がんと診断され、そのがんの治療をすでに1回以上受けている対象であり、対象がまだがんを有しているかどうかを知ること、および/またはがんが以前に治療された対象の体内の部位もしくは対象の体内の他の部位の生物学的材料についてのさらなる情報を入手することにより、例えば、がんの予後を決定すること、ならびに/またはそのがんに対する将来の治療の必要性、性質および/もしくは潜在的利益についての決定を支援することが望ましい対象。
【0285】
本発明に従って使用される組織学的検体に存在する生物学的材料のソースとして作用する対象(ヒト対象など)は、病的状態(がんを含むがこれに限定されない)を発症するリスク(例えば、平均よりも高いリスク)を有する、かつ/またはリスクを有すると判断された対象であり得る。
【0286】
がんとの関連で知られている危険因子には、年齢、アルコール摂取量、がんの原因物質への曝露、慢性炎症、食事、ホルモン、免疫抑制、感染性病原体、肥満、放射線、日光、およびたばこが含まれるが、これらに限定されない。本発明に従って使用される組織学的検体に存在する生物学的材料のソースとして作用する対象(ヒト対象など)は、前述の危険因子のうちの1つ以上に基づいて、がんを発症するリスクを有する、かつ/またはリスクを有すると判断された対象であり得る。
【0287】
加齢は、がん全体、および多くの個々のがんのタイプにとって最も重要な危険因子のうちの1つである。NCIのSurveillance,Epidemiology,and End Resultsプログラムからの最新の統計データによると、がん診断の年齢の中央値は66歳である。これは、がんの症例の半数がこの年齢より下の人々で発生し、半数がこの年齢より上の人々で発生することを意味する。新しいがん症例の4分の1は、65~74歳の人々で診断されている。同様のパターンが、多くの一般的ながんのタイプで見られる。例えば、診断時の年齢の中央値は、乳がんで61歳、大腸がんで68歳、肺がんで70歳、および前立腺がんで66歳である。したがって、本開示の一実施形態では、病的状態はがんであり、対象は、少なくとも50、55、60、65、70、75または80歳以上の年齢のヒト(例えば、男性のヒトおよび/または女性のヒト)であり、任意選択的に、100、90または85歳未満、例えば50~85歳、60~85歳、65~85歳、もしくは65~75歳である。
【0288】
ただし、がんはどの年齢でも発生する可能性がある。例えば、骨肉腫は20歳未満の人々の間で最も頻繁に診断され、症例の4分の1超がこの年齢層で発生している。また、白血病の10%は、20歳未満の子供および青年で診断されるが、がん全体では、その年齢層で診断されるのは1%のみである。神経芽細胞腫などの一部のタイプのがんは、成人よりも小児または青年に多く見られる。
【0289】
喫煙は、がんおよびがんによる死亡の主な原因である。たばこ製品を使用している人、または周期的に環境たばこ煙のそばにいる人(間接喫煙とも呼ばれる)は、たばこ製品および間接喫煙にDNAに損傷を与える化学物質が多く含まれているため、がんのリスクが高くなる。喫煙は、肺、喉頭(喉頭)、口、食道、喉、膀胱、腎臓、肝臓、胃、膵臓、結腸および直腸、子宮頸部のがん、ならびに急性骨髄性白血病を含む多くのタイプのがんを引き起こす。無煙たばこ(嗅ぎたばこまたは噛みたばこ)を使用する人々は、口、食道、および膵臓のがんのリスクが高くなっている。したがって、本開示の一実施形態では、病的状態はがんであり、対象は、喫煙歴(間接喫煙などのたばこ曝露を含む)を有するヒト(例えば、男性のヒトおよび/または女性のヒト)である。
【0290】
飲酒は、例えば口、喉、食道、喉頭(喉頭)、肝臓、および/または乳房のがんなどのがんのリスクを高める可能性がある。対象が飲むアルコールが多いほど、リスクは高くなる。飲酒をし、かつまた喫煙もする人にとって、がんのリスクははるかに高くなる。したがって、本開示の一実施形態では、病的状態はがんであり、対象は、アルコール摂取(典型的に、平均アルコール摂取よりも多い)および/または喫煙の履歴があるヒト(例えば、男性のヒトおよび/または女性のヒト)である。
【0291】
ホルモンレベルはがんのリスクに影響を与える可能性がある。例えば、女性ホルモン群であるエストロゲンは、ヒトの発がん性物質として知られている。これらのホルモンは、女性と男性の両方で本質的な生理学的役割を果たしているが、特定のがんのリスクの増加とも関連している。例えば、更年期ホルモン療法(エストロゲンおよび女性ホルモンのプロゲステロンの合成バージョンであるプロゲスチン)を併用すると、女性の乳がんのリスクが高まる可能性がある。エストロゲン単独での閉経期ホルモン療法は、子宮内膜がんのリスクを高め、子宮摘出術を受けた女性にのみ使用される。研究によると、女性の乳がんのリスクは、彼女の卵巣で作られるエストロゲンとプロゲステロン(内因性エストロゲンとプロゲステロンとして知られている)に関連していることが示されている。長期間および/またはこれらのホルモンの高レベルに曝露されることは、乳がんのリスクの増加に関連している。曝露の増加は、月経の開始が早く、閉経するのが遅く、最初の妊娠時に年をとっており、かつ出産したことがないことによって引き起こされる可能性がある。逆に、出産したことは乳がんの保護因子であり得る。
【0292】
ジエチルスチルベストロール(DES)は、流産、早産、および関連する妊娠の問題を防ぐために、1940年~1971年に米国の一部の妊婦に投与されたエストロゲンの一種である。妊娠中にDESを服用した女性は、乳がんのリスクが高くなる。彼女らの娘は、膣または子宮頸部のがんのリスクが高くなる。妊娠中にDESを服用した女性の息子および孫への影響の可能性が研究されている。
【0293】
したがって、本開示の一実施形態では、病的状態はがんであり、対象は、関連するホルモン危険因子を有するヒト(例えば、男性のヒトおよび/または女性のヒト)である。
【0294】
免疫抑制を受けている対象もまた、がんのリスクが高い可能性がある。例えば、臓器移植レシピエントは典型的に、免疫抑制薬を投与される。免疫抑制薬は、免疫系が、がん細胞を検出して破壊するか、またはがんを引き起こす感染症と戦う能力を低下させる。また、HIVおよび他の免疫抑制病原体に感染しても、免疫系が弱まり、特定のがんのリスクが高まる可能性がある。
【0295】
移植レシピエントの間で最も一般的な4つのがんであり、一般的な集団よりもこれらの個人でより一般的に発生するのは、非ホジキンリンパ腫(NHL)、および肺、腎臓、肝臓のがんである。NHLは、エプスタインバーウイルス(EBV)感染によって引き起こされる可能性があり、肝臓がんは、B型肝炎(HBV)ウイルスおよびC型肝炎(HCV)ウイルスによる慢性感染によって引き起こされる可能性がある。肺がんと腎臓がんは、一般的に感染症と関連しているとは考えられていない。
【0296】
HIV/AIDSを持つ人は、感染性病原体によって引き起こされるがんのリスクも高くなっており、感染性病原体には、EBV、ヒトヘルペスウイルス8もしくはカポジ肉腫関連ウイルス、肝臓がんを引き起こすHBVおよびHCV、ならびに子宮頸がん、肛門がん、中咽頭がん、および他のがんを引き起こすヒトパピローマウイルスが含まれる。HIV感染は、感染性病原体によって引き起こされるとは考えられていない、肺がんなどのがんのリスクの増加とも関連している。
【0297】
したがって、本開示の一実施形態では、病的状態はがんであり、対象は、免疫抑制されたヒト(例えば、男性のヒトおよび/または女性のヒト)である。
【0298】
ウイルス、細菌、および寄生虫を含む特定の感染性病原体への曝露は、がんを引き起こすかまたはがんが形成されるリスクを高める可能性がある。一部のウイルスは、通常は細胞が成長および増殖をし続けることを抑えるシグナル伝達を妨害する可能性がある。また、一部の感染症は免疫系を弱め、体が、がんを引き起こす他の感染症と戦うことを不可能にする。また、一部のウイルス、細菌、および寄生虫も慢性炎症を引き起こし、がんにつながる可能性がある。がんのリスクの増加に関連するウイルスのほとんどは、血液および/または他の体液を介して人から人へと伝染する可能性がある。がんを引き起こす、またはがんのリスクを高める可能性のある例示的な感染因子には、エプスタインバーウイルス(EBV)、B型肝炎ウイルスおよびC型肝炎ウイルス(HBVおよびHCV)、ヒト免疫不全ウイルス(HIV)、ヒト乳頭腫ウイルス(HPV)、ヒトT細胞白血病/リンパ腫ウイルス1型(HTLV-1)、カポジ肉腫関連ヘルペスウイルス(KSHV)、メルケル細胞ポリオマウイルス(MCPyV)、ヘリコバクターピロリ(H.pylori)、タイ肝吸虫(Opisthorchis viverrini)およびビルハルツ住血吸虫(Schistosoma hematobium)が含まれる。
【0299】
したがって、本開示の一実施形態では、病的状態は、がんであり、対象は、ヒト(例えば、男性のヒトおよび/または女性のヒト)であり、この対象は、がんを引き起こす可能性がある、またはがんが形成されるリスクを高める感染性病原体による感染症を(実際に診断されたかどうかにかかわらず)有する、感染症を有する疑いがある、感染症に対して治療されている、以前に感染症に対して治療されたことがある、かつ/または以前に感染症を有したことがある、対象である。
【0300】
肥満の人は、乳がん(閉経した女性)、結腸がん、直腸がん、子宮内膜(子宮の内膜)がん、食道がん、腎臓がん、膵臓がん、および胆嚢がんを含む、いくつかのタイプのがんのリスクが高くなる可能性がある。したがって、本開示の一実施形態では、病的状態は、がんであり、対象は肥満のヒト(例えば、男性のヒトおよび/または女性のヒト)である。
【0301】
本開示のさらなる実施形態では、病的状態はがんであり、対象は、がんの遺伝的危険因子を有する、かつ任意選択的にがんの遺伝的危険因子を有すると決定されたヒト(例えば、男性のヒトおよび/または女性のヒト)である。遺伝的危険因子は、例えば、遺伝性の遺伝的形質、または後天的な遺伝的形質による可能性がある。多くのタイプの遺伝的危険因子が当技術分野でよく知られており、例えば、リンチ症候群、BRCA遺伝子、網膜芽細胞腫遺伝子などが含まれるが、これらに限定されない。
【0302】
2.4 組織学的検体の調製
当業者は、生物学的ソースから取得された生物学的材料から組織学的検体を調製するための、当技術分野で周知の多くの技術をよく知っている。組織学的検体を調製するための任意の好適な手段を、本発明の文脈で使用することができる。
【0303】
例えば、限定されないが、(例えば、光学顕微鏡および/またはWSI画像化などで)検査すべき検体の場合、パラフィン法、凍結切片、および半薄切片の3つの手法が一般的に使用される。
【0304】
パラフィン法が最も一般的に使用されている。この手法では、組織が固定され、ワックスに埋め込まれる。これにより、組織が硬くなり、切片をそこから切り取るのがはるかに簡単になる。次に、組織の構成要素を区別するのに役立つように、切片を染色する。
【0305】
固定には、生物学的サンプルの化学的固定が含まれる。添加された化学物質は、一部のタンパク質に結合して架橋し、脱水によって他のタンパク質を変性させる。これにより組織が硬化し、組織を分解する可能性のある酵素が不活性化される。固定はバクテリアなども殺し、これにより組織の染色を促進することもできる。一般的な固定液は、中性pHのホルムアルデヒドの4%水溶液である。別の一般的な選択肢は、ホルマリン固定パラフィン包埋(FFPE)組織検体であり、これは、何十年にもわたって研究および治療用途の定番となっている。
【0306】
固定後、サンプルは、典型的に、脱水および清澄、包埋、切片化、染色、およびマウントのステップにかけられる。
【0307】
脱水および清澄:切片を切断するには、固定された生体サンプルをパラフィンワックスに埋め込むことが望ましい場合があるが、ワックスは、水またはアルコールには可溶性ではない。ただし、キシレンなどの溶剤には溶ける。したがって、組織内の水を溶媒に置き換えることができる。これを行うため、例えば、サンプル内の水を徐々にアルコールに置き換えることによって、最初に組織を脱水する。これは、例えば、エチルアルコールの濃度を(0%~100%に)上げて、組織を通過させることによって達成できる。最後に、水が100%のアルコールに置き換えられると、アルコールは、アルコールと混和性のある溶媒(例えば、エキシレン)に置き換えられる。この最後のステップは「清澄」と呼ばれる。
【0308】
脱水および清澄のステップに続いて、サンプルは典型的に、埋め込みステップで扱われる。例えば、組織を温かいパラフィンワックスに入れ、溶けたワックスで、以前は水が入っていた空間を埋めることができる。冷却後、組織は硬化し、(切片化された)スライスの切断に使用することができる。
【0309】
切片化のステップでは、組織をトリミングし、切断装置(例えば、マイクロトームまたはウルトラミクロトーム)にマウントする。薄い切片を切断し、染色して顕微鏡のスライドにマウントすることができる。この文脈において、「薄い」切片には、およそ1つの細胞の深さ以下の切片を含めることができる。典型的には、動物またはヒトの生物学的ソースから採取されたサンプル中の細胞は、例えば、直径が10~15μmであり得、薄片は、同等以下の5~10μmなどの厚さであり得る。
【0310】
1つの選択肢では、一緒に1つの3次元のソース組織学的画像を形成することができるソース組織学的画像の集合体を取得する目的で、生物学的材料の複数の物理的に分離した(典型的に、連続する平行または本質的に平行な)薄片を切断することが望ましい場合がある。
【0311】
別の任意肢では、染色して顕微鏡スライドにマウントすることができ、複数の画像(例えば、連続する平行または本質的に平行な画像)を複数の厚い切片内の平面での選択的集束技術によって得ることができる、厚い切片を切断することが望ましい場合がある。選択的集束技術は当技術分野で知られており、例えば、SPIE-The International Society for Optical Engineering 9023論文集の、Mir et al,2014:“An extensive empirical evaluation of focus measures for digital photography”(https://cs.uwaterloo.ca/~vanbeek/Publications/spie2014.pdfでオンライン入手可能)、およびThe IEEE in 2018に掲載の目的で投稿された、Hosseini et al.,“Focus Quality Assessment of High-Throughput Whole Slide Imaging in Digital Pathology”(https://arxiv.org/pdf/1811.06038.pdfでオンラインで入手可能)であり、両方の内容は参照により本明細書に組み込まれる。
【0312】
この文脈において、「厚い」切片は、1つの細胞の深さよりも大きい、例えば、最大2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100以上の細胞の深さの厚さを有する切片を含むことができる。上記のように、典型的に、動物またはヒトの生物学的ソースから採取されたサンプル中の細胞は、例えば、直径10~15μmである。したがって、その文脈における厚い切片とは、10μm、15μm、20μm、25μm、30μm、40μm、50μm、60μm、70μm、80μm、90μm、100μm、150μm、200μm、250μm、300μm、400μm、500μm以上の厚さを有し得る。例えば、複数の連続する平行または本質的に平行な画像が、厚い切片内の複数の平面における選択的集束技術によって取得される場合、これは、ソース組織学的画像の集合体を提供することができるさらなる方法であり、一緒に3次元のソース組織学的画像を形成することができる。
【0313】
染色および取り付け:残念ながら、ほとんどの染色液は水性であるため、切片を染色するには、ワックスを溶解して水に置き換える必要があり得る(再水和)。これは本質的に、脱水と清澄のステップの逆である。切片をワックス溶剤(例えば、エキシレン)に通し、次にアルコール(100%~0%)および最後に水の強度を下げる。染色されたら、切片をもう一度脱水し、溶媒(例えば、エキシレン)に入れる。次に、切片は、溶媒に溶解したマウント剤の中で顕微鏡スライドにマウントすることができる。サンプルを保護するために、カバースリップを上部に配置することができる。カバースリップの端の周りで溶媒(例えば、エキシレン)の蒸発が許容され得、これにより、封入剤が乾燥し、カバースリップがスライドにしっかりと接着する。
【0314】
組織学的検体を調製するための代替的な手段には、凍結切片および半薄切片の調製が含まれるが、これらに限定されない。
【0315】
凍結切片の作製では、組織を急速に凍結し(例えば、液体窒素などで)、冷めたいうちに切断し(例えば、冷蔵キャビネット(クリオスタット)で冷たいナイフで)、次に、観察に備えて染色する。この手順はより高速であり、パラフィン技術によって失われる可能性のある組織の詳細を保存することができる。凍結切片は、典型的に5~10μmの厚さであるが、所望の目的に応じて、上で考察された厚さのいずれかを含む好適な厚さを選択することができる。
【0316】
半薄切片は、厚い切片の詳細を確認するのが難しい状況で役立ち得る。これを回避するために、切片をエポキシまたはアクリル樹脂に埋め込むことができ、これにより、より薄い切片(例えば、2μm未満)を切断できる。
【0317】
2.4.1 組織学的検体の染色
組織学的画像または組織病理学的画像は、すでに上で考察したように、組織学的または組織病理学的検体を好適に染色することによって調製することができる。微視的スケールでは、細胞の興味深い特徴のうちの多くは、透明で無色であるため、本来は見ることができない。これらの特徴を明らかにするために、検体は通常、顕微鏡下で画像化される前にマーカーで染色される。マーカーは、細胞構造の特定の成分に特異的に結合するように設計された1つ以上の染色剤(染料または色素)を含み、これにより関心対象の組織学的特徴を明らかにする。当業者は、当技術分野で周知の多数の染色技法をよく知っている。組織学的検体を染色するための任意の好適な手段を、本発明の文脈で使用することができる。限定されないが、本発明での使用に好適であり得るそのような染色技法については、以下でさらに考察する。
【0318】
使用される技法は、ほとんど同じ方法でほとんどの細胞を染色する非特異的であるか、または細胞もしくは組織内の、特定の化学群もしくは分子を選択的に染色する特異的であり得る。染色は通常、細胞構成要素の一部を最初の色で染色する染料と、細胞の残りの部分を1つ以上の異なる色で染色する1つ以上の対比染色とを一緒に使用して機能する。
【0319】
例えば、染色技法は、好塩基性および好酸性染色を使用することができる。
【0320】
酸性染料(例えば、エゲオシン)は、細胞内のカチオン性または塩基性成分と反応する。ほとんどのタンパク質、および細胞質内の他の多くの構成要素は塩基性であり、酸性染料に結合する。これには、例えば、筋細胞、細胞内膜、および細胞外繊維の細胞質フィラメントが含まれる。
【0321】
塩基性色素(例えば、エガエモトキシリン)は、細胞内の陰イオン性または酸性成分と反応する。核酸は酸性であるため、塩基性染料に結合する。例えば、核内のDNA(ヘテロクロマチンおよび核小体)、ならびにリボソーム内および粗面小胞体内のRNAはどちらも酸性であるため、ヘマトキシリンがそれらに結合して紫色に染色される。一部の細胞外物質(例えば、軟骨の糖質)も塩基性色素に結合する。
【0322】
本発明の目的のために、1つの好ましい実施形態において使用される染色に、H&E(ヘモトキシリンおよびエオシン)と呼ばれる染色システムがある。H&Eには、ヘモトキシリンとエオシンの2つの染料が含まれている。エオシンは、酸性染料であり、負に帯電しており、塩基性(すなわち好酸性)構造を、赤またはピンクに染める。これは、「好酸球性」と呼ばれることもある。ヘマトキシリンは、塩基性染料とみなすことができ、酸性(すなわち好塩基性)構造を、紫がかった青色に染色するために使用される。したがって、組織学的サンプルがH&Eシステムで染色されると、核、およびRNAを含む細胞質の一部が典型的に1つの色(紫)で染色され、残りの細胞質は典型的に異なる色(ピンク)で染色される。
【0323】
しかしながら、本発明は、特定の染色技法の使用に関して限定されないことが理解されよう。例えば、他の多くの酸性および塩基性染料が当技術分野で周知である。次の表に例を示す。
H&E以外の典型的な組織学的染色法には、以下が含まれ得る。
【表1】
【表2】
【0324】
塩基性色素の場合、細胞の陰イオン基(これらは核酸のリン酸基、グリコソアミノグリカンの硫酸基、およびタンパク質のカルボキシル基を含む)の反応は、使用するpH依存し得る。
【0325】
酸性染料の場合、問題の染料は、特定の好酸性成分に対してさらに選択的であり得ることが多い。例えば、マロリー染色技術と呼ばれる周知の技法は、3つの酸性染料、すなわちアニリンブルー、酸性フシン、およびオレンジGを使用し、それぞれコラーゲン、細胞質、赤血球を選択的に染色する。
【0326】
本明細書で企図される、本発明で使用するためのさらなる染色技法には、以下が含まれる。
シッフ試薬がアルデヒド基と反応する漂白された塩基性フクシンである、過ヨウ素酸-シッフ反応(PAS)。この反応により、切片が濃い赤色になる。それがPAS染色の基礎である。PASは、炭水化物および炭水化物が豊富な高分子を、濃い赤色(マゼンタ)に染色する。したがって、PASは、細胞内の炭水化物の細胞内貯蔵形態であるグリコーゲン、細胞および組織の粘液、基底膜および腎尿細管と小腸および大腸の刷子縁結合組織および軟骨の細網線維(すなわちコラーゲン)、を染色する。
【0327】
結合組織を染色するためによく使用される、マッソントリクローム。「トリクローム」という用語は、この技法が3色を生成することを意味する。核および他の好塩基性構造は青く染色され、細胞質、筋肉、赤血球およびケラチンは明るい赤色に染色される。コラーゲンは、使用する手法のバリエーションに応じて、緑色または青色に染色される場合がある。
【0328】
アルシアンブルーは、特定のタイプのムチンブルーを染色するムチン染色剤である。軟骨も青色に染色される。H&Eなどの他の染色システムおよびワンギーソン(van Gieson)染色で使用できる。
【0329】
ワンギーソン技法は、コラーゲンを赤色、核を青色、ならびに赤血球および細胞質を黄色に染色する。また、エラスチンを青色/黒に染めるエラスチン染色と組み合わせることができる。それは、血管および皮膚によく使われる。
【0330】
レチクリン染色技法は、レチクリン繊維を青色/黒に染色する。他の染色技法、例えばH&Eで使用することができる
【0331】
アザン染色により、核は明るい赤色に染色され、コラーゲン、基底膜およびムチンは青色に染色され、筋肉および赤血球はオレンジ色から赤色に染色される。この技法は、結合組織および上皮の染色に特に適切であり得る。
【0332】
ギムザ染色技法は通常、血液および骨髄の塗抹検体を染色するために使用される。核は紺色から紫色に染色され、細胞質は淡い青色、赤血球は淡いピンク色に染色される。
【0333】
トルイジンブルーは、酸性成分を様々な色合いの青に染める基本的な染色である。通常、薄いアクリルまたはエポキシの切片に使用される。
【0334】
銀および金の方法が、ニューロンの細胞プロセスなどの微細構造を実証するために使用できる。この技法は、黒、茶色、または金色の染色を生成する。
【0335】
クロムミョウバン/ヘモトキシリンはあまり一般的に使用されていない手法で、核を青色、および細胞質を赤色に染色する。これは、グルカゴン分泌細胞がピンク色に染色され、インスリン分泌細胞が青色に染色されている膵臓のサンプルで特に役立つ場合がある。
【0336】
イサミンブルー/エオシンはH&Eのような染色技法であるが、青色はより濃い青色である。
【0337】
ニッスルおよびメチレンブルーは、例えばニューロンの粗い小胞体を染色するための基本的な色素として使用され得る染色技法である。
【0338】
スーダンブラックおよびオスミウムは、茶色がかった黒のミエリンなどの脂質含有構造を染色する染料である。
【0339】
免疫組織化学的(IHC)技法もまた使用され得る(単独で、または前述の技術のいずれか1つ以上と組み合わせて)。免疫組織化学的技法は当技術分野で周知である。典型的に、タンパク質(または他の特定の標的)を特異的にラベル付けする一次抗体が使用され、次にラベル付けされた(例えば蛍光ラベル付けされた)二次抗体を使用して、一次抗体に結合し、最初の(一次)抗体が結合した場所を示すことができる。ラベルは、任意の好適な手段によって検出することができる。例えば、蛍光ラベル付けされた抗体を使用する方法の場合、蛍光を備えた光学顕微鏡(または同等の画像装置)を使用して、染色を視覚化することができる。蛍光抗体は、ある波長の光で励起され、次に異なる波長の光を放出する。フィルタを正しく組み合わせて使用することにより、放出された蛍光によって生成された染色パターンを観察することができる。
【0340】
IHC技法は、がんを含む、または含む疑いのあるサンプルの画像化の文脈においてますます有用になる可能性がある。そのような技法では、一次抗体は、例えば、腫瘍マーカーを標的とすることができる。腫瘍マーカーは、そのレベルが腫瘍細胞の信号、記号、または表現とみなされる分子であり、がん性の状態で増加する可能性がある。腫瘍マーカーには、タンパク質、遺伝子発現のパターン、およびDNAの変化が含まれるが、これらに限定されない。IHCによって視覚化される腫瘍マーカーには、とりわけ、酵素、がん遺伝子、腫瘍特異的抗原、腫瘍抑制遺伝子、および腫瘍増殖マーカーが含まれ得る。
【0341】
3.グラウンドトゥルース
本出願の1節でより詳細に考察したように、かつ本特許請求の範囲によってさらに定義するように、本出願は、ソース組織病理学的画像であり得るソース組織学的画像(102,202,302)に対する、分類器(118、318)、または全体分類器(232,332)を決定するための、コンピュータ実装システム(100、200、300)について記載する。
【0342】
また、本出願の2節でより詳細に考察したように、システム(100、200、300)が、システム(100、200、300)内の機械学習アルゴリズムをトレーニングするために使用され得るトレーニングフェーズにおいて、トレーニングに使用されるソース組織学的画像は、グラウンドトゥルースが既知であるソースから取得された組織学的検体の画像である。次に、ソース組織学的画像の各々は、各組織学的検体が取得された各ソースのグラウンドトゥルースを表現する、関連するトゥルースデータでラベル付けされる。
【0343】
この文脈において「グラウンドトゥルース」とは、上記または各ソース組織学的画像と関連付けられている関心対象の任意の情報であり得る。画像の各々と関連付けることができる任意の有用な測定値を、「グラウンドトゥルース」として適用することができる。グラウンドトゥルースの選択は、その後にトレーニングされる機械学習アルゴリズムの機能と有用性を決定するための重要な機能であることが理解されよう。
【0344】
例えば、各画像にグラウンドトゥルースが関連付けられたの組織病理学的検体のソース組織病理学的画像を使用してトレーニングされたアルゴリズムは、特定の病的状態の既知の診断(例えば、存在または不在)であり、その後トレーニングされたアルゴリズムは、既知でない診断の対象(「試験対象」)から採取された組織学的検体の顕微鏡画像における、その病的状態(および/またはその病的状態を発症するリスク)の診断に使用するのに好適であり、したがってこの結果、対象の病的状態の診断に使用するのにも好適である。
【0345】
別の例では、各画像にグラウンドトゥルースが関連付けられた組織病理学的検体のソース組織病理学的画像を使用してトレーニングされたアルゴリズムは、特定の病的状態の既知の予後であり得、その後トレーニングされたアルゴリズムは、既知でない予後の対象(「試験対象」)から採取された組織学的検体の顕微鏡画像における、その病的状態の予後に使用するのに好適であり、したがってこの結果、対象の予後に使用するのにも好適である。
【0346】
本明細書に記載の実施例では、組織学的検体は、がん患者、および各患者の予後グループへの分類に関連するグラウンドトゥルースから取得した。
【0347】
本明細書に記載の一実施形態では、組織学的検体は、1つ以上のタイプのがんを有する患者、および各患者内に存在するがんのステージおよび/またはグレードへの分類に関連するグラウンドトゥルース、特に、ステージおよび/またはグレードが定義された予後と相関しているグラウンドトゥルースから取得され得る。
【0348】
例えば、その後にトレーニングされたアルゴリズムは、がんの未決定のステージおよび/もしくはグレード、ならびに/または既知でない予後のうちの1つ以上の対象(「試験対象」)から採取された組織学的検体の顕微鏡画像内に存在するがんの、ステージおよび/またはグレードを自動的に識別するための使用に好適であるる可能性があり、したがってこの結果、任意選択的に、試験対象内のがんの予後に使用するのにも好適である。
【0349】
追加的または代替的な選択肢では、その後にトレーニングされたアルゴリズムは、対象のがん特異的予後(例えば、生存率)を自動的かつ直接予測するのに使用するのに好適であり、任意選択的に、予後良好である可能性があり、したがってさらなる治療の恩恵を受ける可能性が低い場合がある低リスクの対象を特定することによって、および/またはより集中的な治療計画など、さらなる治療から恩恵を受ける可能性がはるかに高いリスクの高い被験者を特定することによって、1つ以上のさらなる治療決定(さらなる治療に従事する決定および/または治療のタイプの選択など)を行うために使用される。
【0350】
任意選択的に、1つ以上の組織学的検体は、がんの外科的治療(例えば腫瘍切除)を受けた1つ以上の対象の試験対象からのものであり得、そのトレーニングされたアルゴリズムを使用して、対象のがん特異的予後(例えば、生存)を自動的かつ直接予測し得、かつ任意選択的に、1つ以上のさらなる補助治療決定を行うことができる。
【0351】
本明細書に記載のがんのいずれも適切に評価することができるが、特に関心対象のがんは、本明細書に例示されるような大腸がんである。
【0352】
より一般的には、例として、トレーニングフェーズは、健康な対象、および/または病的な対象(これは、限定されないが、本出願の上記2.3節で考察した病状を含み得、かつ特に関心対象の実施形態において、本出願の上記2.3.1節で考察したようながんの形態であり得る)から取得された生物学的材料を含む組織学的検体のソース組織学的画像の使用を含み得、ソース組織学的画像の各々と関連付けられたグラウンドトゥルースは既知であり、かつトレーニングフェーズ中に、システム(100、200、300)内の機械学習アルゴリズムのトレーニングに使用されるシステム(100、200、300)に提供することができる。
【0353】
ソース組織学的画像の各々と関連するグラウンドトゥルースは、完全にユーザの裁量であり、本発明によって制限されない。
【0354】
ただし、例えば、病理学的対象から派生したソース組織病理学的画像を含むトレーニングフェーズの文脈においては、グラウンドトゥルースは任意選択的に次の1つ以上から選択されてもよい。
(a)対象における病的状態の存在または不在、
(b)対象の病的状態のタイプ、グレードおよび/またはステージ(例えば、がんの、異なるステージおよび/またはグレードを区別する)、
(c)定義された事象に続く、一定期間にわたる対象の病的状態の進行(またはその欠如)、
(d)定義された事象に続く、対象の生存期間(典型的に、特定の病的状態に関連しない死亡は除く)、および/または
(e)その病的状態に対する以前の治療(例えば、外科手術または非外科療法)後の対象の病的状態の再発(または再発の不在)、
ここで、「定義された事象」とは、例えば、ソース組織学的画像が作成された対象から生物学的材料を採取する時間、または病的状態に対する以前の治療(例えば、本出願の上記2.3.2節で考察したような治療などの外科手術または非外科的療法)の時間であり得る。
【0355】
任意選択的に、病的状態は、例えば、本出願の2.2節に記載されている組織、器官、または他の身体部分における、本出願の2.2節に記載されているような状態であり得る。特に関心対象の実施形態では、病的状態は、本出願の上記2.3.1節に記載されているようながん、例えば、固形がん(例えば、がん腫)であり得、その代表的な例は、以下の実施例に示されるようなCRCである。任意選択的に、病的状態が、がんである場合、「定義された事象」は、本出願の2.3.2節で定義された以前の何らかの治療、例えば、外科手術(例えば、腫瘍の外科的切除など)の時間であり得る。
【0356】
定義された事象に続く期間は、関心対象の任意の期間にすることができる。一実施形態では、期間は、約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23または24時間などの、0~24時間であり得る。別の実施形態では、期間は、約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27または28日などの、0~28日であり得る。別の実施形態では、期間は、約1、2、3、4、5、6、7、8、9、10、11または12ヶ月などの、0~12ヶ月であり得る。別の実施形態では、期間は、1年以上、および/または0~10年、0~9年、0~8年、0~7年、0~6年、0~5年、0~4年、0~3年、または0~2年、例えば、約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19または20年などの、0~20年であり得る。
【0357】
したがって、一実施形態では、病理学的対象に由来するソース組織病理学的画像を含むトレーニング段階の文脈において、グラウンドトゥルースは、ソース組織学的画像が作成された対象から生物学的材料を採取するした時間から選択された定義された事象に続く期間にわたる、対象内の病的状態(がんなど)の進行(またはその欠如)、または病的状態に対する、上記に示したような期間である以前の何らかの治療の時間である。
【0358】
別の実施形態では、病理学的対象(がんを有する対象など)から派生したソース組織病理学的画像に関与するトレーニングフェーズの文脈において、グラウンドトゥルースは、定義された事象後の対象の生存期間であり、定義された事象は、ソース組織学的画像が作成された対象から生物学的材料を採取する時間、または病的状態(がんなど)に対する、上記に示したような期間である以前の何らかの治療の時間である。
【0359】
アルゴリズムが、各画像と関連付けられたグラウンドトゥルースが特定の病的状態(がんなど)の既知の予後である組織病理学的検体のソース組織病理学的画像を使用してトレーニングされている場合、グラウンドトゥルースの予後は、例えば、以下を考慮し得る。
(i)定義された期間内の病的状態特異的(例えば、がん特異的)死亡、および/または
(ii)定義された期間内の対象における病的状態(例えば、がん)の再発。
【0360】
(i)および(ii)に対する定義された期間は、同じであっても異なっていてもよい。
【0361】
グラウンドトゥルースと関連付けられたトゥルースデータが、グラウンドトゥルースの「カテゴリ」を表現するのに好適である場合がある。例えば:
-第1の事前定義された閾値(例えば、第1の事前定義された期間より長い病的状態特異的生存、および/または第2の事前定義された期間の病的状態の非再発)を通過する任意のグラウンドトゥルース予後情報は、そのサンプルのトゥルースデータとして「予後良好」と関連付けられているとみなされ得る。
-第2の事前定義された閾値(例えば、第3の事前定義された期間より短い病的状態特異的生存、および/または第4の事前定義された期間内の病的状態の再発)を通過しない任意のグラウンドトゥルース予後情報は、そのサンプルのトゥルースデータとして「予後不良」と関連付けられているとみなされ得る。
-かつさらに、第1および第2の事前定義された閾値は同じかもしくは異なってもよくる、それらが異なる場合、第3のカテゴリのトゥルースデータが可能であり、その場合、グラウンドトゥルース予後情報は、第2の事前定義された閾値は通過するが、第1の事前定義された閾値を通過できず、これは、そのサンプルのトゥルースデータとして「不明確な予後」と関連付けられているとみなされ得る。
【0362】
本明細書に記載のトレーニングの実施例では、組織学的検体は、がん患者、および各患者の既知の結果を予後グループに分類することに関連するグラウンドトゥルースから取得した。明確な予後グループの患者は、予後良好、予後不良、または不明確な予後である患者を含んでいた。患者が手術時に85歳未満であり、手術後6年を超えるフォローアップがあり、がん特異的死亡の記録および再発の記録がない場合、その患者は、予後良好を有するとして定義した。患者が手術時に85歳未満であり、手術後100日(を含む)~2.5年(を含めない)の間にがん特異的死亡に見舞われた場合、その患者は、予後不良を有するとして定義した。これらの基準のいずれも満たさない患者は、不明確な予後グループとして分類した。
【0363】
4.本発明のシステムの応用
上記でも考察したように、本発明のコンピュータ実装システム(100、200、300)を使用して、1つ以上のソース組織学的画像(102、202、302)、例えば、結果(「グラウンドトゥルース」)が既知でない1つ以上のソース組織病理学的画像を処理することができる。
【0364】
この場合、システムは、トレーニング組織学的画像(トレーニング組織病理学的画像など)を使用して構成された機械学習アルゴリズムを適用して、システムの出力が、分類器(118、318)、および/または受け取ったソース組織学的画像102に対する全体分類器(232、332)になるようにすることができる。
【0365】
本出願の3節でさらに考察されたように、分類器および/または全体分類器の性質は、トレーニング中に使用されるグラウンドトゥルースの性質に依存することが理解されよう。
【0366】
例えば、分類器および/または全体分類器は、組織学的画像が取得される対象についての診断または予後決定を与えることができる。
【0367】
したがって、本発明はまた、上記でさらに記載した本発明の方法によって1つ以上の組織学的画像を処理するコンピュータ実装方法を提供し、上記方法は、対象の診断および/または予後決定を生成する方法であり、上記方法は、対象から取得された1つ以上の組織学的サンプルから取得された1つ以上のソース組織学的画像(202、302)を受け取ることを含み、上記方法は、
上記でさらに記載した本発明によって、1つ以上のソース組織学的画像(102、302)に対する全体分類器(118、318)を決定することと、上記でさらに記載した本発明によって、1つ以上のソース組織学的画像(202、302)に対する全体分類器(232、332)を決定することと、
任意選択的に、診断および/または予後査定を、分類器および/または全体分類器に帰属させること、を含む。
【0368】
対象は、本出願の2.1節に記載されている生物学的ソースなどの任意の生物学的ソースであり得、かつ1つの好ましい実施形態では、ヒトである。
【0369】
1つ以上の組織学的サンプルは、病的状態、例えば、本出願の2.3節に記載の病的状態を有する、病的状態を有する疑いがある、病的状態に対して治療されている、かつ/または以前に病的状態を有したことがある対象から取得され得る。特に関心対象の一実施形態では、病的状態は、本出願の2.3.1節でさらに記載したがんなどのがんである。
【0370】
上記1つ以上の組織学的サンプルは、本出願の2.2節で記載されたような任意の組織タイプ、器官または対象の他の関心対象の構造からの、任意の組織タイプ、器官または対象の他の関心対象の構造から取得することができる。
【0371】
任意選択的に、対象から取得された上記複数または各1つの組織学的サンプルは、病的状態、例えば、本出願のセクション2.3に記載されている病的状態、より具体的には、本出願の2.3.1節でさらに記載したがんなどのがんを有する、有する疑いがある、それに対して治療されている、それに対して治療されたことがある、かつ/または以前にそれを有したことがある対象の体の一部であり、またはそれから取得されたものである。
【0372】
1つの好ましい任意肢では、この方法は、対象から取得された複数の組織学的サンプルから取得された、複数のソース組織学的画像(202、302)を評価することを含む。任意選択的に、対象は、がんなどの病的状態を有する、有する疑いがある、それに対して治療されている、それに対して治療されたことがある、かつ/または以前にそれを有したことがあり、さらに任意選択的に、複数の組織学的サンプルは、対象の体の複数の場所から取得されたサンプルであり、上記複数の場所は、病的状態を含む生物学的材料を有する、有する疑いがある、かつ/または以前に有したことがあり、および/またはがんなどの病的状態に対して治療されている、かつ/または以前にそれに対して治療されたことがある場所であり、例えば、病的状態はがんであり、複数の組織学的サンプルは、対象の同じ腫瘍から採取された複数のサンプルを含むか、またはそれらからなり得、この場合、方法は、任意選択的に腫瘍の不均質性の評価を可能にする。
【0373】
一実施形態では、方法は、決定された分類器(118、318)および/または全体分類器(232、332)を、関心対象の病的状態に対する1つ以上のさらなる診断および/または予後マーカーと組み合わせることを含む。
【0374】
例えば、病的状態はがんであり得、方法は、決定された分類器(118、318)および/または全体分類器(232、332)を、がんの1つ以上のさらなる診断および/または予後マーカーと組み合わせることを含み得る。例えば、がんがCRCである場合、本出願の実施例で考察される1つ以上の追加のマーカーを使用することができる。
【0375】
かかる1つ以上のさらなる診断および/または予後マーカーが評価される場合では、診断および/または予後査定、を分類器(118、318)および/または全体分類器(232、332)に帰属させるステップが、上記または各さらなる診断および/または予後マーカーの、上記または各評価の結果の評価を含み得る。
【0376】
これらの方法を使用して、例えば、進行中および/もしくは以前の治療(手術および/または治療など)の進行または効果を監視する方法において、ならびに/または評価された対象を治療する方法において、診断を行うこと、予後を作成すること、患者グループを層別化すること、層別化された患者グループの診断および/または予後査定に基づいて対象の治療決定を行うことを支援することができる。
【0377】
5.治療方法
本発明はさらに、治療を必要としている対象において治療する方法を提供しており、診断および/または予後査定が、本発明による方法によって対象に帰属しており、上記方法は、外科手術および/または療法によって対象を治療することを含む。
【0378】
別の言い方をすれば、本発明は、治療を必要としている対象において治療する方法で使用するための外科的処置および/または治療的治療(1つ以上の治療薬を含む薬学的に許容される組成物など)を提供し、診断的および/または予後的査定は、本発明による方法によって対象に帰属している。
【0379】
かかる治療の方法は、例えば、治療的および/または予防的方法を含むことができる。かかるタイプの治療は、例えば、本出願の上記2.3.2節で考察した1つ以上の形態の治療を含むことができる。
【0380】
好ましくは、対象に帰属する診断的および/または予後的査定は、病的状態、例えば、本出願の2.3節に記載した病的状態に関するものである。特に関心対象の深い一実施形態では、病的状態は、本出願の2.3.1節でさらに記載したがんなどのがんである。
【0381】
対象は、本出願の2.1節に記載されている生物などの任意の生物であり得、かつ1つの好ましい実施形態では、ヒトである。
【0382】
対象は、病的状態、例えば、本出願の2.3節に記載の病的状態を有する、病的状態を有する疑いがある、病的状態に対して治療されている、かつ/または以前に病的状態を有したことがある対象であり得る。特に関心対象の一実施形態では、病的状態は、本出願の2.3.1節でさらに記載したがんなどのがんである。
【0383】
したがって、治療の方法は、本出願の2.3節に記載の病的状態を治療する方法であり得る。特に関心対象の一実施形態では、病的状態は、本出願の2.3.1節でさらに記載したがんなどのがんである。
【0384】
特に関心対象の実施形態では、病的状態はがんであり、治療される対象は、本発明による方法によって対象に帰属する診断および/または予後査定の前に、以前に(例えば、外科手術および/または非外科的療法により)がんの治療を受けた対象である。このようにして、例えば、対象は層別化することができ、その対象に治療法を採用する前に、さらなる治療(例えば、補助療法、ならびに/またはさらなる外科的および/もしくは非外科的療法)の得られ得る利益を決定することができる。
【0385】
治療の方法は、任意選択的に、対象に帰属している診断および/または予後査定を考慮して、外科手術および/または非外科療法の1つ以上のパラメータを適応させることを含むことができる。任意選択的に、外科手術および/または非外科療法の、1つ以上のパラメータは、外科手術および/または非外科療法の性質、外科手術および/または非外科療法のタイミング、外科手術および/または非外科療法の期間、非外科療法の投薬量、非外科療法の投与経路、および外科手術および/または非外科療法の標的となる体内の部位、からなる群から選択される。
【0386】
1つの選択肢において、対象の診断および/または予後査定は、例えば、進行および/または治療の効果を監視するために、そのような治療および/または手術による以前のもしくは進行中の治療の、対象に対する効果を評価することを含み、かつさらに任意選択的に、この方法は、以前のまたは進行中の治療および/もしくは異なる治療モダリティの実装の中止、継続、反復または修正などのさらなる治療法の決定を行うステップと、さらに任意選択的に、患者に関する治療法の決定を実装するステップと、を含む。
*********************************************
【0387】
本発明は、以下の実施例によってさらに説明され、本発明の範囲を限定するものとして解釈されるべきではない。
【0388】
実施例1
方法
トレーニングコホートおよび調整コホート
この研究では、(i)Bondi et al.,J Clin Pathol,2005;58:509-14に記載されているように、1988~2000年にAkershus University Hospital、Norwayで治療された、160人のステージI期,II期およびIII期の結腸がん患者、(ii)Danielsen et al.,Ann Oncol 2018;29:616-23に記載されているように、1993~2003年にAker University Hospital、Norwayで治療された、576人のステージI期,II期およびIII期のCRC患者、(iii)Petersen et al.,Gut,2002;51:65-9およびMitchard et al.,Histopathology,2010;57:671-9に記載されているように、1988~1996年にGloucester Colorectal Cancer Study、UKで治療された、970人のステージI期,II期およびIII期のCRC患者、ならびに(iv)Kerr et al.,N Engl J Med,2007;357:360-9およびMidgley et al.,J Clin Oncol,2010;28:4575-80に記載されているように、2002~2004年にVICTOR trial、UKで治療された、767人のステージI期、II期およびIII期のCRC患者、からなる4つのトレーニングコホートを利用した。これらのコホートについては、本出願の1節でさらに記載した。
【0389】
患者を、手術時の年齢と追跡データに応じて、明確な予後グループまたは不明確な予後グループに分類した。明確な予後グループの患者は、予後良好または予後不良の患者を含んでいた。患者が手術時に85歳未満であり、手術後6年を超えるフォローアップがあり、がん特異的死亡の記録および再発の記録がない場合、その患者は予後良好を有するとして定義した。患者が手術時に85歳未満であり、手術後100日(を含む)~2.5年(を含めない)の間にがん特異的死亡となった場合、その患者は予後不良を有するとして定義した。これらの基準のいずれも満たさない患者は、不明確な予後グループとして分類した。
【0390】
トレーニングコホートは、上記4つのコホートで予後が明確な患者828人からの1652枚のWSIを構成し、調整コホートは、予後が明確でない患者1645人からの3280枚のWSIを構成していた。WSIは、Cancer Genetics and Informatics(ICGI)、Norwayの検査技師が調製した。トレーニング患者および調整患者の人口統計は、以下の表1に要約されている。
【0391】
試験コホート
試験コホートは、Cheltenham、UKでGloucester Colorectal Cancer Studyの患者920人から調製された1824枚のWSIを構成していた。WSIは、トレーニングおよび調整コホートで使用したものとは異なるホルマリン固定、パラフィン包埋(FFPE)腫瘍組織ブロックから取得した。試験患者の人口統計は、以下の表1に要約されている。
【0392】
検証コホート
検証コホートは、QUASAR 2試験に集められた患者1,122人から、ICGIで調製した2234枚のWSIで構成されていた(Kerr et al,Lancet Oncol,2016;17:1543-57)。
【0393】
非盲検の、ランダム化された、管理されたQUASAR 2試験(ISRCTN登録番号ISRCTN45133151)では、2005年4月~2010年10月に組織学的に証明されたステージIII期または高リスクのステージII期の大腸がん患者1952人の患者が、7か国(Australia、Austria、Czech Republic、New Zealand、Serbia、SloveniaおよびUK)の170の病院から登録され、そのうち1,941人が評価可能なデータを有していた(上記Kerr et al,2016)。
【0394】
この試験は、ベバシズマブが原発腫瘍の治癒の可能性のある手術後の無病生存率が改善されたかどうかを調査するために設計した。すべての患者はカペシタビンの形で補助化学療法を受けたが、新補助治療を受けた患者はいなかった。治療グループ間に有意差は観察されず、研究者らは、カペシタビンへのベバシズマブの追加は、この補助療法の設定では使用すべきではないと結論付けた(上記Kerr et al,2016)。
【0395】
一次切除からの血液サンプルと腫瘍サンプルを推奨するが必須としないことにより、FFPE組織ブロックを、ステージII期またはIII期の大腸がんのQUASAR 2試験患者1,251人から収集した。これらの患者は、臨床的および病理学的特性の観点から、試験集団全体を代表していた(上記Kerr et al,2016)。試験に参加した病院の病理学者が病理学的査定を実施した。すべての患者は、治療および組織サンプルの使用について書面によるインフォームドコンセントを提供した。West Midlands Research Ethics Committee(no.04/MRE/11/18)およびNorwayのRegional Committees for Medical and Health Research Ethics(REK)(no.2015/1607)がこの研究を承認した。
【0396】
ICGIの検査技師が、1,140人の患者からの組織ブロックを受け取り、切片化し、かつ3μmのH&E染色組織スライドとして調製した(
図18)。臨床結果を知らされていない地元の病理学者は、各組織切片に腫瘍が存在することを確認した。腫瘍のある1,132枚の切片のデジタル画像は、トレーニングコホートと同じ2つのスキャナ、すなわちAperio AT2およびとNanoZoomer XRを使用して取得した。以前に開発されたセグメンテーションモデルは、腫瘍のある領域を自動的に特定するために盲目的に適用され、これによりAperio AT2セグメンテーションの患者は1,113人、NanoZoomer XRセグメンテーションの患者は1,121人となった(
図18)。スライド画像は、トレーニングコホートのように並べて表示されているが、3つのAperio AT2セグメンテーションおよび2つのNanoZoomer XRセグメンテーションの自動腫瘍セグメンテーション内に10xタイルを収めることはできなかった(
図18)。QUASAR 2コホートは、Aperio AT2スライド画像からの40xタイル(1,113人の患者に利用可能)として定義され、Aperio AT2スライド画像からの10x(1,110人の患者に利用可能)、NanoZoomer XRスライド画像からの40xタイル(1,121人の患者)および10xタイルがNanoZoomer XRスライド画像を形成する(1,119人の患者が利用可能)。
【0397】
QUASAR 2コホートは、QUASAR2試験に適格な患者を表す。適格な患者は、以下の選択基準のすべてを満す必要があった(元は上記Kerr et al,2016に記載されている)。
-18歳以上。
-結腸直腸腺がん。
-組織学的に証明されたR0 M0ステージIII期またはハイリスクステージII期大腸がんであり、ハイリスクとは、ステージT4期、リンパ管侵襲、血管侵襲、腹膜病変、低分化、および原発腫瘍の術前閉塞または穿孔のうちの1つ以上の予後不良の特徴が存在するとして定義した。
-ランダム化の4~10週間前の一次切除。
-World Health Organisation(WHO)のPerformance Statusの0または1。
-併存疾患を考慮した場合の、少なくとも5年の平均余命。ただし、がんのリスクを除く。
【0398】
さらに、適格な患者は、以下の除外基準のいずれも満たすことができなかった(元は上記Kerr et al,2016に記載されている)。
-子宮頸部の上皮内がん、基底細胞がんまたは扁平上皮がんの治療以外のがんの病歴、または前のがん後の無病期間が10年を超えた場合。
-過去2年間の、治療が必要な炎症性腸疾患および/または活動性消化性潰瘍。
-上部消化管の身体的完全性の欠如、吸収不良症候群、または経口薬を服用できないこと。
-中等度または重度の腎機能障害(クレアチニンクリアランス<30mL/分)。
-次の血液異常のいずれか:
○好中球絶対数<1.5×109/L。
○血小板数<100×109/L。
○総ビリルビン濃度>正常上限(ULN)の1.5倍。
○アラニンアミノトランスフェラーゼ、アスパラギン酸アミノトランスフェラーゼ、またはアルカリホスファターゼ濃度>正常上限(ULN)の2.5倍。
-タンパク尿>24時間あたり500mg。
-以前の化学療法、免疫療法または横隔膜下放射線療法(直腸への新補助療法を含む)、または今後12か月以内にこれらの部位への放射線療法を必要とすると予想される患者。
-ランダム化から4週間以内の治験薬または薬剤/手技の使用。
-全用量の抗凝固剤、高用量のアスピリン(>325mg/日)、抗血小板薬、または既知の出血素因(低用量のアスピリンが許可されている)の慢性的な使用。
-ソリブジンまたはその化学的に関連する類似体との併用治療。
-制御不能な発作、中枢神経系障害、もしくはインフォームドコンセントを妨げる精神医学的病歴、または経口薬物摂取のコンプライアンスの妨害の病歴。
-臨床的に重大な心血管疾患、すなわち、活動性、または、例えば、脳血管障害、心筋梗塞、不安定狭心症、New York Heart Association(NYHA)グレードII以上のうっ血性心不全、投薬を必要とする重篤な心不整脈、もしくは制御不能な高血圧から12ヶ月未満。
-既知の凝固障害。
-チャイニーズハムスター卵巣細胞タンパク質または他の組換えヒトまたはヒト化抗体、あるいはベバシズマブ製剤の任意の賦形剤に対する既知のアレルギー。
-妊娠中または授乳中の女性、または避妊を使用していない閉経前の女性。
【0399】
検証患者の人口統計は、以下の表1に要約されている。
【表3】
【0400】
サンプルの調製
3μmのFFPE組織ブロック切片をヘマトキシリンおよびエオシン(H&E)で染色し、病理学者(M.P.)が腫瘍を含むことを確認した。
【0401】
WSIは、Aperio AT2(Leica Biosystems、Germany)とNanoZoomer XR(Hamamatsu Photonics、Japan)の2つのスキャナで、利用可能な最高の解像度(40xと称される)で取得した。
【0402】
腫瘍含有量の高い領域は、自動セグメンテーション法によって識別した(本出願の1節に記載している)。典型的に、40xの解像度のWSIには、100,000x100,000画素のオーダーが含まれ、これは、深層学習手法による分類で現在実現可能な画像よりも数桁大きいものである。高解像度で含まれる予後情報を保持するために、WSIを、10xおよび40xの解像度のタイルと呼ばれる複数の重複しない画像領域に分割し、40x各画素約0.24×0.24μm2の物理サイズを表現する。
【0403】
分類
トレーニングコホートでは、5つの畳み込みニューラルネットワークを634,564個の10xタイルでトレーニングし、5個の畳み込みニューラルネットワークを11,591,555個の40xタイルでトレーニングした。すべてのネットワークは、超大型の異種画像を分類するための専用ネットワークであるDoMorev1ネットワークであり、MobileNetV2(上記Sandler et al、2018)表現ネットワーク、Noisy-ANDプーリング関数(上記Krauss et al、2016)、および完全に接続された分類ネットワークで構成した(
図3)。
【0404】
従来の分類ネットワークは画像上でトレーニングされており、各画像にはラベルが関連付けられている。1つのアプローチは、各タイルにそのWSIのラベルを継承させることであるが、空間的な異質性のため、タイルには必ずしもWSIを反映する予測情報が含まれているとは限らない。複数のインスタンス学習からのアイデアを使用して、当発明者らは、代わりにWSIからのタイルの集合体をトレーニングし、各集合体にはWSIのラベル付けしている。新たな勾配近似法を使用することにより、トレーニング中に、各WSIを表現するタイルの数を増加させて、ネットワークをエンドツーエンドでトレーニングすることができる。
【0405】
ネットワークを収束を超えてトレーニングし、トレーニングの進行において21の等距離の位置で評価し、結果としてトレーニングの実行ごとに21のモデルが生成された。調整コホートのモデルの性能を使用して、各トレーニング実行から1つのモデルを選択し、解像度ごとに5つのモデルを作成した。
【0406】
WSIを評価するために、選択した5つのモデルの各々は、予後不良の確率の予測を提供し、かつ平均予測確率は、アンサンブルモデルの予測確率として定義した。2つのアンサンブルモデル(1つは10x、1つは40x)の予測確率の好適な閾値を、調整コホートを評価することによって決定し、これにより2つのアンサンブルマーカーが予後の良好または不良のいずれかを予測した。
【0407】
この2つのアンサンブルマーカーと他のいくつかの候補マーカーの性能を試験コホートで評価し、検証コホートの一次分析のために2つのアンサンブルマーカーの組み合わせを選択した。DoMore-v1-CRCマーカーと呼ばれるこの組み合わせは、両方のアンサンブルマーカーが良好な予後を予測した場合には予後良好を予測し、アンサンブルマーカーが異なる予測をした場合は不確実な予後を予測し、かつ両方のアンサンブルマーカーが不良な予後を予測した場合は予後不良を予測し、タイルがないためにアンサンブルマーカーを評価できなかった場合は、予測を定義しなかった。
【0408】
一次分析
本発明者らは、検証コホートの両方のスキャナについて、DoMore-v1-CRCマーカー(
図2および
図3で全体分類器(232、332)として具体化されている)の一次分析を事前定義した。モデルの性能を測定するために選択したメトリックは、予後が不確実であると予測された患者および予後が良好であると予測された患者と比較して予後が不良であると予測された患者の95%信頼区間(CI)のハザード比(HR)であり、2つのHRを、DoMore-v1-CRCマーカーを唯一の変数として、Cox比例ハザードモデル(DoMore-v1-CRCマーカーはカテゴリ変数として含まれており、すなわち、モデルは不確実な予後と予後不良の2つの指標変数で構成されていた)、およびエンドポイントとしてのがん特異的生存率(CSS)(関連事象にはEfronの方法を使用した)を分析することによって計算した。
【0409】
DoMore-v1-CRCマーカーがCSSを予測するかどうかを評価するために選択した試験は、有意水準0.05を使用した両側Mantel-Coxログランク検定であった。CSSまでの時間は、ランダム化の日からがん特異的死亡または追跡不能となる日まで計算した。一次分析は、補助化学療法(特にカペシタビン)を受け、QUASAR 2試験の適格基準を満たした患者の標的集団におけるCSSを予測するDoMore-v1-CRCマーカーの能力の偏りのない評価である(上述のとおり)。
【0410】
統計分析
一次分析および二次分析を、検証コホートでの評価に先立って計画し、プロトコルに記述した。マーカーは、分析時に利用可能であれば多変数モデルに含まれており、CSSの単変量分析で有意である。報告したすべてのCIの信頼水準は95%である。両側P<0.05は統計的に有意であるとみなした。生存分析は、Stata/SE15.1(StataCorp、TX)で実施した。
【0411】
結果
DoMore-v1-CRCは、Aperio AT2スキャナ(不確実な予後予測の患者のHRは1.89、CIは1.14~3.15、予後不良予測の患者のHRは3.84、CIは2.72~5.43、p<0.0001(
図16A))およびNanoZoomer XRスキャナ(不確実な予後予測の患者のHRは2.42、CIは1.45~4.03、予後不良予測の患者のHRは3.39、CIは2.36~4.87、p<0.0001(
図16B))の両方のスキャナについての検証コホートの一次分析におけるCSSの統計的に有意なマーカーであった。以下に、Aperio AT2スキャナの結果を示す。NanoZoomer XRスキャナに基づく対応する分析、ならびに2つのスキャナの10x解像度および40x解像度レベルに基づく結果も有意であった(データは図示せず)。
【0412】
DoMore-v1-CRCは、多変量解析で共変量pNステージ、pTステージ、リンパ管侵襲、および静脈血管侵襲を調整した後、CSSを有意に予測した(予後不良予測対予後良好予測のHRは3.04、CIは2.07~4.47(表2))。DoMore-v1-CRCは、年齢、pNステージ、pTステージ、組織学的グレード、場所、側面性、BRAF変異、およびマイクロサテライト不安定性などの多くの確立された予後因子と相関したが、性別、脈管侵襲、静脈血管、侵襲またはKRAS変異とは関連していなかった(表3)。
【表4】
【表5】
【0413】
ステージII期(予後不良予測のHRは2.71、CIは1.25~5.86(
図16C))およびステージIII期(予後不良予測のHRは4.09、CIは2.77~6.03(
図16D))におけるCSSのDoMore-v1-CRCは、有意な予測であった。
【0414】
また、ステージIIIA期、IIIB期、およびIIIC期(データは図示せず)、ならびにpNステージ(
図16Eおよび追加データは図示せず)もしくはpTステージ(pT1~3対pT4(
図16Fおよび追加データは図示せず))において、がんによる死亡のリスクが高い患者を有意に特定した。バイナリのDoMore-v1-CRCマーカーは、通常のDoMore-v1-CRCマーカーの予後不良予測とほぼ同じHRを提供した(データは図示せず)。
【0415】
最先端の畳み込みニューラルネットワークであるInception v3は、DoMore-v1-CRC(本出願の1節の考察を参照)と同じ研究セットアップでトレーニング、調整、評価され、CSSの統計的に有意なマーカーを提供し、DoMore-v1-CRCよりもわずかにパフォーマンスが劣った(データは図示せず)。
【0416】
別の病院で調製された新しい腫瘍ブロックの切片を使用した試験コホートでは、DoMore-v1-CRCにより、がんによる死亡のリスクが高い患者を有意に特定した(予後不良予測対予後良好予測のHRは4.83、CIは3.27~7.12(
図17A))。
【0417】
実験室での調製に対する堅牢性は、ステージII期およびIII期でDoMore-v1-CRCを分析した場合にも明らかであった(
図17C~D)。DoMore-v1-CRCの二分法は、CSSの有意な予測因子も提供した(
図17B)。
【0418】
QUASAR 2検証コホートのすべての患者がカペシタビンによる補助化学療法を受けたことを覚えておくことが重要であり(ベバシズマブの追加は無病生存期間または全生存期間に影響しなかった)、これは、試験コホートで化学療法を受けた患者はごく少数であるため、生存曲線が一般的に優れているという観察結果を説明している。
【0419】
考察
機械学習の最近の開発(LeCun et al.,Nature,2015;521:436-44)を基に、標準の実験室H&E染色された組織切片を使用して、CRCのがん患者などの患者の転帰を予測するための完全自動化システムを開発した。本方法では、最初に画像内の病理学的(例えば、がん性の)組織の輪郭を描き、次に患者を予後のカテゴリに階層化し、検証では、これらは疾患特異的死亡率のHRで3~4倍異なっていた。
【0420】
深層学習は、いくつかの腫瘍タイプの検出と描写に好適であることがすでに示されており(Ehteshami Bejnordi et al.JAMA,2017;318:2199-210)、様々ながん分類が報告されている(Coudray et al,Nat Med,2018;24:1559-67)。しかしながら、本発明者らは、組織学的画像に基づいて患者の転帰を直接予測するための検証済みのシステムをまだ見ていない。
【0421】
自動化された予後手順は、人間の介入を減らし、予後の客観性と再現性を高める可能性がある。さらに、ウェットラボ手順のロボット化の増加に伴い、分析スループットが向上することで、腫瘍からの複数のサンプルに基づいた決定が可能になる。これにより、腫瘍の不均質性の問題が軽減される可能性があり、これは、予後の精度を向上させるための鍵となり得る。
【0422】
MMRステータス(Sinicrope,Nat Rev Clin Oncol,2010;7:174-7、Mouradov et al.,Am J Gastroenterol,2013;108:1785-93)、間質推定(Danielsen et al.,Ann Oncol,2018;29:616-23)、リンパ管侵襲(Akagi et al.,Anticancer Res,2013;33:2965-70)、RNAプロファイル(Salazar et al.,J Clin Oncol,2011;29:17-24、Gray et al.,J Clin Oncol,2011;29:4611-9)、変異負荷(Mouradov et al.,Am J Gastroenterol,2013;108:1785-93)などの既存の予後マーカーの大部分は、生物学的に妥当かもしれないが、DoMore-v1-CRCほど機能せず、これは、HRに関してこれらのマーカーより性能が優れており、より臨床的に有用な層別化およびリスクグループ間の患者の分布を提供する。
【0423】
DoMore-v1-CRCは技術的に簡単に適用でき、あらゆる場所の標準的な病理検査室で送達可能である。ネットワークのトレーニングにはリソースが必要であるが、新たな患者のスライド画像へのDoMore-v1-CRCマーカーの適用は、はるかに小さな計算タスクであり、消費者向けハードウェアを使用して10分以内に臨床現場で実施できることに留意されたい。マーカーの臨床的有用性は、様々な治療選択肢(化学療法の投薬量/スケジュール)の長所と短所について、患者との話し合いを導くことができることである。補助療法で使用される薬剤の数は、現在フルオロピリミジン±オキサリプラチンに制限されているが、最近のデータでは、3ヶ月の治療で、ステージIII期の患者の大多数で6ヶ月とほぼ同じ生存結果が得られ、リスクの高い患者(pT4およびpN2)は長期治療の恩恵を受ける可能性がある(Grothey et al.,N Engl J Med,2018;378:1177-88、Iveson et al.,Lancet Oncol,2018;19:562-7)。
【0424】
補助療法後のCRCによる再発および死亡のHRの比例的な減少は、ほとんどの適切に設計された臨床試験全体で、20%と著しく一貫している。ただし、これは、低リスクと高リスクのサブグループとでまったく異なる絶対生存率の改善につながる。これらのリスク層別グループに対する前向き補助試験はないが、これは臨床医が既存の試験データを解釈し、再発のリスクが低いかまたは高いことが証明された個人に、これらを適用することを妨げるものではない。
【0425】
図16Cを例にとると、これらのデータを解釈して、予後不良のグループ(およそ20%)のステージII期の個人が単剤のフルオロピリミジン、例えば、カペシタビンの恩恵を受けるのに対して、予後良好のグループは手術のみによって治癒する可能性が高いことを示唆することができる。ステージIII期、pN2およびpT4の患者は、より多様な生存曲線を示し(
図16D~F)、良好なかつおそらく不確実な併用化学療法に十分に適合しない患者の場合、生存群は単剤カペシタビンで非常に合理的な生存を示すが、予後不良群は3ヶ月もしくは6ヶ月の併用化学療法からより多くの利益を得る可能性がある(絶対生存利益は約8~10%)。明らかに、これらの生存曲線は指標であり、臨床医と患者が補助化学療法の選択について、共同でより多くの情報に基づいた決定を行うために使用される。
【0426】
要約すると、従来のH&E染色されたFFPE腫瘍組織切片のデジタルスキャンに関連する深層学習技術を使用して、臨床的に有用な予後マーカーを開発することが可能であった。このアッセイは、大規模な独立した患者集団で広く評価されており、既存の分子および形態学的予後マーカーと相関しかつその性能を上回り、腫瘍およびリンパ節のステージ全体で一貫した結果をもたらし、臨床医が補助治療の選択に関する意思決定をサポートするために使用できる。
【0427】
また、本明細書に記載の深層学習アプローチを使用して、スキャンした組織病理学的画像から完全に自動的かつ直接に、がん特異的生存を予測できることも示した(ヘマトキシリンおよびエオシン染色、ホルマリン固定、パラフィン包埋腫瘍組織切片を使用して例示)。分類器の独立した検証は、例示されたシステムがステージII期およびIII期の大腸がん患者を別個の予後グループに層別化し、確立された予後マーカーを補足し、ハザード比に関してほとんどの既存のマーカーの性能を上回ることを示した。このシステムを使用して、手術のみで治癒した可能性のある非常に低リスクの患者と、より集中的な体制の恩恵を受ける可能性がはるかに高いリスクの高い患者とを特定することによって、がん性組織(例えば、大腸がん)の切除後の補助療法の選択を改善することができる。
【0428】
したがって、本出願は、従来の組織病理学的画像から患者の転帰を予測するための完全に自動化された深層学習システムを提供し、それらの個人を層別化し、強化された治療決定を行うことができるアプローチを記載する。
【0429】
実施例2
本実施例は、本発明の方法を肺がんの評価へ適用する予備的な結果を示す、追加の裏付けとなるデータを提供する。
【0430】
1.3節および実施例1に記載のものと同様の実験を、Oslo University Hospitalで収集された肺がん患者の肺組織のスライド画像全体を使用して行った。大腸がん例として、患者ごとに1つの組織ブロックを使用し、そこから1枚の切片を2つのスキャナ(Aperio AT2およびNanoZoomer XR)でスキャンして、患者ごとに2枚のスライド画像全体を作成した。
【0431】
本方法および実験は、次の例外を除いて、1.3節および実施例1で記載したとおりである。
-すべての患者が同じコホートから来ている
-試験コホートは、明確な良好結果または明確な不良結果のいずれかを持つ患者のみで構成される
-タイリングの領域を画定するために手動腫瘍セグメンテーションを使用した
【表6】
【0432】
試験コホートでの結果の生存分析を
図19に示す。これは、実験に含まれる2つのスキャナの各々についての1つのカプランマイヤープロットである。これは、大腸がんの実験について
図16に示した分析と同じ形式である。このプロットは、がん特異的生存、すなわち、3つの予測された結果グループについて、肺がんによる死亡のない生存率を示している。推定生存確率はy軸から読み取ることができるが、x軸は手術後の時間を表す。プロットからわかるように、予測された予後良好のグループと予後不良のグループとを比較すると、がん特異的生存率の差は大きい。不確実なグループは、予後良好グループと予後不良グループとの間にがん特異的生存率を有する。
【0433】
試験患者の数は、実施例1の実験よりも少ないことに留意されたい(表4を参照)。また、実施例1とは異なり、試験患者はトレーニング患者と同じコホートからのものであるため、これらの結果に起因する可能性のある重みは、試験患者を選択し、異なるコホートからのトレーニング患者をトレーニングすることによって、将来の評価でさらに確認される可能性があることにも留意されたい。一方、実施例1と比較すると、トレーニングに使用される患者はより少なく、すべて同じコホートに由来したが、より大きく、より多様なトレーニングコホートを使用することにより、結果をさらに改善することができる。
【0434】
したがって、肺がんサンプルに対する本方法の性能を批判的に評価するために、独立したコホートで検証するためのさらなるステップを行うことが最適であるが、本実施例で提供される予備的な結果を使用して、本方法が、肺がんを含むCRC以外の形態のがんを有する患者の転帰を予測し得ることを明確に示している。
*********************************************
【0435】
開示された実施形態に対する他の変形形態が、図面、開示、および添付の特許請求の範囲の研究から、特許請求される発明を実施する当業者によって理解および実施され得る。特許請求の範囲において、「含む(comprising)」という語は、他の要素またはステップを除外せず、かつ不定冠詞「a」または「an」は、複数を除外しない。特定の測定値が相互に異なる従属請求項に記載されているという単なる事実は、これらの測定値の組み合わせを有利に使用することができないことを示すものではない。特許請求の範囲内のいかなる参照符号も、範囲を制限するものとして解釈されるべきではない。
【符号の説明】
【0436】
100 コンピュータ実装システム
102 ソース組織学的画像
104 タイル生成器
106 タイル
108 第1のニューラルネットワーク
110 タイル特徴
111 ネットワークアーキテクチャ
112 プーリング関数
113 処理ブロック
114 バッグ特徴
116 第2のニューラルネットワーク
118 分類器
120 トゥルースデータ
126 損失関数
200 コンピュータ実装システム
202 ソース組織学的画像
204 第1のタイル生成器
205 第2のタイル生成器
206 第1のタイル
207 第2のタイル
211 機械学習ネットワーク
215 機械学習ネットワーク
218 第1の分類器
219 第2の分類器
222 セグメンテーションブロック
232 全体分類器
300 システム
302 ソース組織学的画像
306 第1のタイル
307 第2のタイル
308 表現ネットワーク(第1のニューラルネットワーク)
310 タイル特徴
311 機械学習ネットワーク
312 プーリング関数
316 分類ネットワーク(第2のニューラルネットワーク)
318 第1の分類器
319 第2の分類器
320 トゥルースデータ
324 WSI組織病理学的画像
330 分類器合成器
332 全体分類器
340 平均化された第1の分類器
341 平均化された第2の分類器
342 第1の閾値化関数
343 第2の閾値化関数
608 表現ネットワーク
614 タイル
618 分類器
【国際調査報告】