(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-02
(54)【発明の名称】二重デジタル病理画像における表現型を予測するための機械学習技術
(51)【国際特許分類】
G06V 10/82 20220101AFI20240925BHJP
G06T 7/00 20170101ALI20240925BHJP
G06V 20/69 20220101ALI20240925BHJP
G01N 33/48 20060101ALI20240925BHJP
G01N 33/53 20060101ALI20240925BHJP
【FI】
G06V10/82
G06T7/00 350C
G06T7/00 630
G06V20/69
G01N33/48 M
G01N33/53 Y
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024515932
(86)(22)【出願日】2022-09-13
(85)【翻訳文提出日】2024-03-12
(86)【国際出願番号】 US2022043285
(87)【国際公開番号】W WO2023043709
(87)【国際公開日】2023-03-23
(32)【優先日】2021-09-17
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】507179346
【氏名又は名称】ベンタナ メディカル システムズ, インコーポレイテッド
(74)【代理人】
【識別番号】100118902
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100173565
【氏名又は名称】末松 亮太
(72)【発明者】
【氏名】マーティン,ジム・エフ
(72)【発明者】
【氏名】ニエ,ヤオ
(72)【発明者】
【氏名】ベヌゴパル,ラガバン
(72)【発明者】
【氏名】ワーン,シンウェイ
【テーマコード(参考)】
2G045
5L096
【Fターム(参考)】
2G045AA24
2G045AA25
2G045AA26
2G045CB01
2G045CB02
2G045DA36
2G045FA16
2G045FB03
2G045FB07
2G045JA01
2G045JA03
5L096AA02
5L096BA13
5L096CA02
5L096DA01
5L096EA14
5L096FA66
5L096GA10
5L096GA30
5L096GA51
5L096HA11
5L096KA04
(57)【要約】
組織切片の二重免疫組織化学(IHC)染色は、2つのバイオマーカーとそれらの共発現を単一細胞レベルで同時検出することを可能にし、共局在を識別するための2つのIHC染色およびさらなる位置合わせを必要としない。二重IHCは、病理学者を含む人間にとって確実にスコアリングすることが困難であることが多い。ここに記載の方法およびシステムは、機械学習モデルおよび確率マップを使用して、個々の表現型ER/PRを検出し記録する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
第1のタイプのバイオマーカーおよび第2のタイプのバイオマーカーについて染色された生物学的試料の少なくとも一部を表示するデジタル病理画像にアクセスすることと、
前記デジタル病理画像を混合解除して、
前記第1のタイプのバイオマーカーが識別される前記生物学的試料の前記少なくとも一部を表示する第1の合成単一画像、および
前記第2のタイプのバイオマーカーが識別される前記生物学的試料の前記少なくとも一部を表示する第2の合成単一画像
を生成することと、
前記第1の合成単一画像に第1の機械学習モデルを適用して、
前記第1の合成単一画像から第1の複数の細胞を検出し、
前記第1の複数の細胞の各細胞について、分類の第1のセットのうちの分類を決定することであって、前記第1のセットのうちの前記分類が、前記細胞が前記第1のタイプのバイオマーカーを有するバイオマーカーを含むかどうかを示す、第1のセットのうちの分類を決定することと、
前記第2の合成単一画像に第2の機械学習モデルを適用して、
前記第2の合成単一画像から第2の複数の細胞を検出し、
前記第2の複数の細胞の各細胞について、分類の第2のセットのうちの分類を決定することであって、前記第2のセットのうちの前記分類が、前記細胞が前記第2のタイプのバイオマーカーを有するバイオマーカーを含むかどうかを示し、前記分類の第1のセットが前記分類の第2のセットとは異なる、第2のセットのうちの分類を決定することと、
前記第1の複数の細胞の分類と前記第2の複数の細胞の分類とをマージして、マージされた分類を生成することと、
マージされた分類を有する前記デジタル病理画像を出力することと
を含む、方法。
【請求項2】
前記第1の複数の細胞についての分類を決定することが、
確率マップの第1のセットを生成することであって、前記確率マップの第1のセットの各確率マップが複数の画素を含み、前記分類の第1のセットのうちの分類に関連付けられ、前記確率マップが、前記複数の画素の各画素について、前記画素が前記分類に対応するかどうかを示す確率値を識別する、確率マップの第1のセットを生成することと、
前記第1の複数の細胞の各細胞について、
前記確率マップの第1のセットのうち、前記細胞を表す1つまたは複数の画素についての最も高い確率値を含む確率マップを識別することと、
識別された前記確率マップと関連付けられた分類を前記細胞に割り当てることと
を含む、請求項1に記載の方法。
【請求項3】
前記第2の複数の細胞についての分類を決定することが、
確率マップの第2のセットを生成することであって、前記確率マップの第2のセットの各確率マップが複数の画素を含み、前記分類の第2のセットのうちの分類に関連付けられ、前記確率マップが、前記複数の画素の各画素について、前記画素が前記分類に対応するかどうかを示す確率値を識別する、確率マップの第2のセットを生成することと、
前記第2の複数の細胞の各細胞について、
前記確率マップの第2のセットのうち、前記細胞を表す1つまたは複数の画素についての最も高い確率値を含む確率マップを識別することと、
識別された前記確率マップと関連付けられた分類を前記細胞に割り当てることと
を含む、請求項1または2に記載の方法。
【請求項4】
前記第1の機械学習モデルおよび/または前記第2の機械学習モデルがU-Netモデルを含む、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記第1のタイプのバイオマーカーがエストロゲン受容体タンパク質であり、前記第2のタイプのバイオマーカーがプロゲステロン受容体タンパク質である、請求項1から4のいずれか一項に記載の方法。
【請求項6】
マージされた分類を有する前記デジタル病理画像を出力することが、前記マージされた分類を前記デジタル病理画像上にオーバーレイすることを含む、請求項1から5のいずれか一項に記載の方法。
【請求項7】
マージされた分類を有する前記デジタル病理画像が、第3の機械学習モデルを訓練するための訓練画像として使用される、請求項1から6のいずれか一項に記載の方法。
【請求項8】
前記第1の複数の細胞についての分類を決定することが、
確率マップの第1のセットを生成することであって、前記確率マップの第1のセットの各確率マップが複数の画素を含み、前記分類の第1のセットのうちの分類に関連付けられ、前記確率マップが、前記複数の画素の各画素について、前記画素が前記分類に対応するかどうかを示す確率値を識別する、確率マップの第1のセットを生成することを含み、
前記第2の複数の細胞についての分類を決定することが、
確率マップの第2のセットを生成することであって、前記確率マップの第2のセットの各確率マップが複数の画素を含み、前記分類の第2のセットのうちの分類に関連付けられ、前記確率マップが、前記複数の画素の各画素について、前記画素が前記分類に対応するかどうかを示す確率値を識別する、確率マップの第2のセットを生成することを含み、
前記確率マップの第1のセットおよび前記確率マップの第2のセットがマージされてアンカーポイントのセットを生成し、前記アンカーポイントのセットの各アンカーポイントが、前記分類の第1のセットのうちの第1の分類および前記分類の第2のセットのうちの第2の分類を割り当てられる、請求項1から7のいずれか一項に記載の方法。
【請求項9】
コンピュータ製品であって、実行されるとコンピュータシステムを制御して請求項1から8のいずれか一項に記載の方法を実行する複数の命令を記憶している非一時的コンピュータ可読媒体を備える、コンピュータ製品。
【請求項10】
請求項9に記載のコンピュータ製品と、
前記コンピュータ可読媒体に記憶された命令を実行するための1つまたは複数のプロセッサと
を備える、システム。
【請求項11】
請求項1から8のいずれか一項に記載の方法を実行するための手段を備える、システム。
【請求項12】
請求項1から8のいずれか一項に記載の方法を実行するように構成された1つまたは複数のプロセッサを備える、システム。
【請求項13】
請求項1から8のいずれか一項に記載の方法のステップをそれぞれ実行するモジュールを備える、システム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年9月17日に出願された米国仮特許出願第63/261,308号の利益および優先権を主張し、あらゆる目的のためにその全体が参照により本明細書に組み込まれる。
【0002】
分野
本開示は、デジタル病理学に関し、詳細には、機械学習技術を使用して、二重デジタル病理画像に表示された細胞における2つ以上の表現型を予測するための技術に関する。
【背景技術】
【0003】
背景
デジタル病理学は、病理スライド(例えば、組織病理または細胞病理のガラススライド)をデジタル画像にスキャンすることを含む。デジタル画像内の組織および/または細胞は、その後、疾患の診断、治療に対する反応の評価、および疾患と戦うための薬理学的薬剤の開発を含む様々な理由のために、デジタル病理画像解析によって検査され、および/または病理学者によって解釈されることがある。デジタル画像(実質的に透明である)内の組織および/または細胞を検査するために、病理スライドは、組織および/または細胞成分に選択的に結合する様々な染色アッセイ(例えば、免疫染色)を使用して調製されることがある。
【0004】
免疫組織化学(IHC)染色は、スライドに固定された検体中の特定のタンパク質の存在を検出するために使用される。エストロゲン受容体(ER)およびプロゲステロン受容体(PR)タンパク質は、乳がんの臨床管理および治療決定を推進する重要なバイオマーカーである。単一(single)IHC染色または単一(singleplex)IHC染色は、単一のバイオマーカーについて単一のスライドを染色することを含む。単一IHC染色は、バイオマーカーの共局在を探すために複数のスライドの使用を必要とする。共局在を探すために、各スライドの画像を互いに位置合わせまたはマッピングしなければならず、次いでオーバーレイして両方のバイオマーカーを示す単一の画像を作成することがある。
【0005】
組織切片の二重免疫組織化学(IHC)染色は、単一のスライド上での2つのバイオマーカーの同時検出を可能にする。したがって、二重(duplex)IHC染色は、それぞれが単一IHC染色が施された2枚のスライドを用意して、共局在を識別するためのさらなる位置合わせをする代わりに、単一細胞レベルでのバイオマーカーの共発現の分析を可能にする。しかしながら、二重IHCスライドは、特定の問題に直面している。例えば、二重IHCスライドは、人間(例えば、病理学者)にとって確実にスコアリングすることが困難であることが多い。病理学者は、バイオマーカーが重複し、クラスタ化しているため、二重IHCスライド(例えば、ER/PR)上で直接スコアリングすることができないことが多い。さらに、各スライドには数千個の細胞が含まれ得るため、スコアリングプロセスには時間がかかる可能性がある。したがって、発現レベルおよび共局在レベルを正確に識別および計数する作業は、実際にはほぼ不可能である。
【発明の概要】
【0006】
概要
様々な実施形態において、二重デジタル病理画像に表示された細胞における2つ以上の表現型を予測するコンピュータ実装方法が提供される。コンピュータ実装方法は、第1のタイプのバイオマーカーおよび第2のタイプのバイオマーカーについて染色された生物学的試料の少なくとも一部を表示するデジタル病理画像にアクセスすることを含む。コンピュータ実装方法は、デジタル病理画像を混合解除して、(i)第1のタイプのバイオマーカーが識別された生物学的試料の少なくとも一部を表示する第1の合成単一画像と、(ii)第2のタイプのバイオマーカーが識別された生物学的試料の少なくとも一部を表示する第2の合成単一画像と、を生成することを含む。コンピュータ実装方法は、第1の機械学習モデルを第1の合成単一画像に適用して、(i)第1の合成単一画像から第1の複数の細胞を検出し、第1の複数の細胞の各細胞について、分類の第1のセットのうちの分類を決定することをさらに含む。第1のセットのうちの分類は、細胞第1のタイプのバイオマーカーを有するバイオマーカーを含むかどうかを示す。
【0007】
コンピュータ実装方法は、第2の機械学習モデルを第2の合成単一画像に適用して、(i)第2の合成単一画像から第2の複数の細胞を検出し、(ii)第2の複数の細胞の各細胞について、分類の第2のセットのうちの分類を決定することをさらに含む。第2のセットのうちの分類は、細胞が第2のタイプのバイオマーカーを有するバイオマーカーを含むかどうかを示す。場合によっては、分類の第1のセットは分類の第2のセットとは異なる。コンピュータ実装方法は、第1の複数の細胞の分類と第2の複数の細胞の分類とをマージして、マージされた分類を生成することをさらに含む。コンピュータ実装方法は、マージされた分類を有するデジタル病理画像を出力することをさらに含む。
【0008】
いくつかの実施形態では、第1の複数の細胞についての分類を決定することは、確率マップの第1のセットを生成することを含む。確率マップの第1のセットの各確率マップは、複数の画素を含み、分類の第1のセットのうちの分類と関連付けられる。確率マップの第1のセットの各確率マップはまた、複数の画素の各画素について、その画素がその分類に対応するかどうかを示す確率値を識別する。第1の複数の細胞についての分類を決定することは、第1の複数の細胞の各細胞について、(i)確率マップの第1のセットのうち、細胞を表す1つまたは複数の画素についての最も高い確率値を含む確率マップを識別することと、(ii)識別された確率マップと関連付けられた分類を細胞に割り当てることと、を含む。
【0009】
いくつかの実施形態では、第2の複数の細胞の分類を決定することは、確率マップの第2のセットを生成することを含む。確率マップの第2のセットの各確率マップは、複数の画素を含み、分類の第2のセットのうちの分類と関連付けられる。確率マップの第2のセットの各確率マップはまた、複数の画素の各画素について、その画素がその分類に対応するかどうかを示す確率値を識別する。第2の複数の細胞についての分類を決定することは、第2の複数の細胞の各細胞について、(i)確率マップの第2のセットのうち、細胞を表す1つまたは複数の画素についての最も高い確率値を含む確率マップを識別することと、(ii)識別された確率マップと関連付けられた分類を細胞に割り当てることと、を含む。
【0010】
いくつかの実施形態では、第1の機械学習モデルおよび/または第2の機械学習モデルは、U-Netモデルを含む。
【0011】
いくつかの実施形態では、第1のタイプのバイオマーカーはエストロゲン受容体タンパク質であり、第2のタイプのバイオマーカーはプロゲステロン受容体タンパク質である。
【0012】
いくつかの実施形態では、マージされた分類を有するデジタル病理画像を出力することは、マージされた分類をデジタル病理画像上にオーバーレイすることを含む。
【0013】
いくつかの実施形態では、マージされた分類を有するデジタル病理画像は、第3の機械学習モデルを訓練するための訓練画像として使用される。
【0014】
いくつかの実施形態では、第1の複数の細胞についての分類を決定することは、確率マップの第1のセットを生成することを含む。確率マップの第1のセットの各確率マップは、複数の画素を含み、分類の第1のセットのうちの分類と関連付けられ、確率マップは、複数の画素の各画素について、画素がその分類に対応するかどうかを示す確率値を識別する。
【0015】
いくつかの実施形態では、第2の複数の細胞の分類を決定することは、確率マップの第2のセットを生成することを含む。確率マップの第2のセットの各確率マップは、複数の画素を含み、分類の第2のセットのうちの分類と関連付けられ、確率マップは、複数の画素の各画素について、画素がその分類に対応するかどうかを示す確率値を識別する。
【0016】
いくつかの実施形態では、確率マップの第1のセットおよび確率マップの第2のセットは、アンカーポイントのセットを生成するためにマージされる。アンカーポイントのセットの各アンカーポインは、分類の第1のセットのうちの第1の分類および分類の第2のセットのうちの第2の分類を割り当てられる。
【0017】
いくつかの実施形態では、1つまたは複数のデータプロセッサと、非一時的コンピュータ可読記憶媒体であって、1つまたは複数のデータプロセッサ上で実行されると、1つまたは複数のデータプロセッサに、本明細書に開示された1つまたは複数の方法の一部もしくはすべてを実行させる命令を含む、非一時的コンピュータ可読記憶媒体とを含むシステムが提供される。
【0018】
いくつかの実施形態では、非一時的機械可読記憶媒体に有形に具現化され、1つまたは複数のデータプロセッサに、本明細書に開示された1つまたは複数の方法の一部もしくはすべてを実行させるように構成された命令を含むコンピュータプログラム製品が提供される。
【0019】
本開示のいくつかの実施形態は、1つまたは複数のデータプロセッサを含むシステムを含む。いくつかの実施形態では、システムは、非一時的コンピュータ可読記憶媒体であって、1つまたは複数のデータプロセッサ上で実行されると、1つまたは複数のデータプロセッサに、1つまたは複数の方法の一部もしくはすべておよび/または本明細書に開示された1つまたは複数のプロセスの一部もしくはすべてを実行させる命令を含む、非一時的コンピュータ可読記憶媒体を含む。本開示のいくつかの実施形態は、1つまたは複数のデータプロセッサに、本明細書に開示された1つまたは複数の方法の一部もしくはすべておよび/または1つまたは複数のプロセスの一部もしくはすべてを実行させるように構成された命令を含む、非一時的機械可読記憶媒体において有形に具現化されたコンピュータプログラム製品を含む。
【0020】
採用された用語および表現は、説明の用語として使用されたものであり、限定を意味するものではなく、このような用語および表現の使用において、示され説明された特徴またはその一部の均等物を排除する意図はないが、特許請求される発明の範囲内で様々な修正が可能であることが認識される。したがって、特許請求の範囲に記載された本発明は、実施形態および任意の特徴によって具体的に開示されているが、本明細書に開示された概念の修正および変形は当業者によって使用されてもよく、このような修正および変形は、添付の特許請求の範囲によって定義される本発明の範囲内にあるものと見なされることを理解されたい。
【0021】
様々な実施形態の態様および特徴は、添付の図面を参照して例を説明することによってより明らかになるであろう。
【図面の簡単な説明】
【0022】
【
図1】いくつかの実施形態による、機械学習技術を使用して合成単一画像において検出された表現型をマージする画像処理システム100を示す概略図である。
【
図2】いくつかの実施形態による、デジタル病理画像を生成するための例示的なネットワークを示す図である。
【
図3】いくつかの実施形態による、機械学習モデルを使用してデジタル病理画像を処理するためのコンピューティング環境を示すブロック図である。
【
図4】いくつかの実施形態による、二重ER/PRおよび隣接する単一IHC ER/PRの一例を示す図である。
【
図5】いくつかの実施形態による、二重ER/PR画像から選択され、単一IHC ER画像および単一IHC PR画像上に位置合わせされた視野(FOV)を示す図である。
【
図6A】いくつかの実施形態による、合成単一画像を生成するための例示的な技術を示す図である。
【
図6B】いくつかの実施形態による、合成単一画像を生成するための例示的な技術を示す図である。
【
図6C】いくつかの実施形態による、合成単一画像を生成するための例示的な技術を示す図である。
【
図7】いくつかの実施形態による、事前訓練されたU-Netモデルによって得られたdabsyl ERおよびtamra PRの例示的な初期シード位置を示す図である。
【
図8】いくつかの実施形態による、二重スライド画像内の表現型を検出するために使用される機械学習モデルの例示的なアーキテクチャである。
【
図9A】いくつかの実施形態による残差ブロックを示す図である。
【
図9B】いくつかの実施形態によるピラミッド層を示す図である。
【
図10】いくつかの実施形態による、二重画像内の表現型を検出するように機械学習モデルを訓練するためのプロセスを示す図である。
【
図11】いくつかの実施形態による、例示的なシード位置および2つのモデルによって生成された異なるクラスラベルを示す図である。
【
図12】いくつかの実施形態による、ERモデルによって生成された5つの確率マップを示す図である。
【
図13】いくつかの実施形態による、ERチャネルおよびPRチャネル内の2つのU-Netモデルによって生成された確率マップ間の5つのマージされた確率マップの計算を示す図である。
【
図14】いくつかの実施形態による、ERチャネルとPRチャネルとの間のマージされた確率マップを探索することによって取得されたアンカーポイントの例を示す図である。
【
図15】いくつかの実施形態による、画素レベルでの例示的なアンカーポイントならびに周囲のER+点およびPR+点を示す図である。
【
図16】いくつかの実施形態による、確率マップから決定された例示的なラベルグラフを示す図である。
【
図17】いくつかの実施形態による、ER+/ER-/その他にアンカーポイントを割り当てる例を示す図である。
【
図18】いくつかの実施形態による、合成ER画像においてER+/ER-/その他にアンカーポイントを割り当てるためのプロセスを示す図である。
【
図19】いくつかの実施形態による、PR+/PR-/その他にアンカーポイントを割り当てる例を示す図である。
【
図20】いくつかの実施形態による、合成PR画像においてPR+/PR-/その他にアンカーポイントを割り当てるためのプロセスを示す図である。
【
図21】いくつかの実施形態による、二重画像にオーバーレイされたマージされた表現型の例を示す図である。
【
図22】いくつかの実施形態による、訓練された機械学習モデルを使用して二重画像における表現型を検出するためのプロセスを示す図である。
【
図23】いくつかの実施形態による、二重ER/PRアルゴリズム用のマージされた表現型を使用する訓練パイプラインを示す図である。
【
図24A】いくつかの実施形態による、3人の病理学者のコンセンサススコアならびにU-Netおよびマージ表現型アルゴリズムを示す図である。
【
図24B】いくつかの実施形態による、3人の病理学者のコンセンサススコアならびにU-Netおよびマージ表現型アルゴリズムを示す図である。
【
図25】いくつかの実施形態による、結果二重ER/PRの表現型検出の例を示す図である。
【
図26A】いくつかの実施形態による、異なるタイプの表現型を有する二重ER/PRの例を示す図である。
【
図26B】いくつかの実施形態による、異なるタイプの表現型を有する二重ER/PRの例を示す図である。
【発明を実施するための形態】
【0023】
詳細な説明
既存の技術は、一般に、細胞検出アルゴリズムを使用してデジタル病理画像から細胞を検出し、次いで、検出された細胞に機械学習モデルを適用して、特定のタイプのバイオマーカーが、検出された細胞の1つまたは複数に存在するかどうかを予測することを含む。これらの機械学習モデルの性能は、通常、訓練データセットの精度に依存する。訓練データセットを生成することは、訓練データセットの1つまたは複数の訓練画像に表示された細胞にラベリングすることを含むことができ、ラベルは1人または複数の病理学者によって付けられ得る。2つ以上のタイプのバイオマーカーを識別するために染色された二重画像では、ラベリングプロセスが困難になる可能性がある。これは、2つ以上の染色が、二重画像の異なる領域に認識できないクラスタを形成する可能性があり、および/または二重画像内の同じ画像領域に存在する可能性があるためである。このような染色特性は、細胞領域をどのように適切にラベリングすべきかに関して混乱をもたらす可能性がある。このような困難さは、訓練画像が不正確なまたは一貫性のない訓練ラベルと関連付けられることにつながる可能性があり、これはさらに、他の二重画像に表示された細胞における2つ以上のバイオマーカーの存在を予測するために、このような訓練画像で訓練される機械学習モデルの性能低下につながる。
【0024】
したがって、本明細書に記載される特定の実施形態は、二重画像に表示される細胞において2つ以上のタイプのバイオマーカーに関連する細胞の表現型を正確に予測することによって、これらの問題および他の問題に対処することができる。画像処理システムは、二重スライド画像にアクセスすることができる。二重画像は、胸部組織の切片などの生物学的試料の少なくとも一部を表示する。2つ以上のタイプのバイオマーカーを識別するために、生物学的試料の少なくとも一部を染色することができる。例えば、第1のタイプのバイオマーカーはエストロゲン受容体(ER)とすることができ、第2のタイプのバイオマーカーはプロゲステロン受容体(PR)とすることができる。
【0025】
画像処理システムは、二重画像を処理して合成単一画像のセットを生成することができる。合成単一画像のセットの各合成単一画像を生成して、単一のバイオマーカー(例えば、ER)について染色された細胞を表示することができる。いくつかの例では、合成単一画像は、(i)対応するバイオマーカーについて染色された細胞を表示する前処理画像を生成し、(ii)前処理画像を対比染色画像と組み合わせることによって生成される。対比染色画像を使用することにより、バイオマーカーを、前処理画像に表示される他の細胞構造から視覚的に区別することができる。
【0026】
合成単一画像のセットの各合成単一画像について、画像処理システムは、機械学習モデルを合成単一画像に適用して、合成単一画像に表示された検出された細胞それぞれの表現型を予測することができ、この表現型が、対応するタイプのバイオマーカーに関連する。いくつかの例では、機械学習モデルは、第1のタイプのバイオマーカーについて染色された細胞を表示する第1の合成単一画像を処理するように訓練され、異なる機械学習モデルは、第2のタイプのバイオマーカーについて染色された第2の合成単一画像を処理するように訓練される。例えば、画像処理システムは、第1の訓練されたU-NetモデルをERバイオマーカーについて染色された合成単一画像に適用して、(i)合成単一画像内の細胞を検出し、(ii)検出された細胞のそれぞれについて、ERバイオマーカーに対する細胞の表現型(例えば、ER陽性、ER陰性、アーチファクト)を予測することができる。この例を続けると、画像処理システムは、第2の訓練されたU-Netモデルを、PRバイオマーカーについて染色された別の合成単一画像に適用して、(i)他の合成単一画像内の細胞を検出し、(ii)検出された細胞のそれぞれについて、PRバイオマーカーに対する細胞の表現型(例えば、PR陽性、PR陰性、アーチファクト)を予測することができる。
【0027】
場合によっては、機械学習モデルは、合成単一画像内の各細胞について、分類のセットから分類を決定するように訓練される。セットの各分類は、対応するタイプのバイオマーカーに対する細胞の特定の表現型に対応することができる。例えば、機械学習モデルは、検出された細胞が、(i)ERバイオマーカー(ER+)を含むか、(ii)ERバイオマーカー(ER-)を含まないか、(iii)間質細胞に対応するか、(iv)免疫細胞に対応するか、または(v)アーチファクトもしくは他のタイプの生物学的構造に対応するかを出力することができる。分類を生成するために、画像処理システムは、機械学習モデルを使用して合成単一画像を処理して確率マップのセットを生成することができる。確率マップのセットの各確率マップは、合成単一画像の複数の画素を表すことができ、分類のセットのうちの特定の分類に対応することができる。確率マップは、複数の画素の各画素について、その画素がその分類に対応するかどうかを示す確率値を含む。この例を続けると、合成単一画像の確率マップのセットは、ER+用の第1の確率マップ、ER-用の第2の確率マップ、間質細胞用の第3の確率マップ、免疫細胞用の第4の確率マップ、およびアーチファクト用の第5の確率マップを含むことができる。
【0028】
合成単一画像を表す確率マップのセットは、他の合成単一画像を表す確率マップの別のセットとマージされて、確率マップのマージされたセットを生成することができる。確率マップのマージされたセットを使用して、二重画像内の位置(「アンカーポイント」)のセットを決定することができ、各アンカーポイントについて1つまたは複数のバイオマーカーの存在を識別することができる。上記の例を続けると、確率マップの第1のセットは、ERバイオマーカーについて染色された合成単一画像を表すことができ、確率マップの第1のセットは、(i)ER+分類用の第1の確率マップと、(ii)ER-分類用の第2の確率マップと、(iii)間質細胞分類用の第3の確率マップと、(iv)免疫細胞分類用の第4の確率マップと、(v)アーチファクト分類用の第5の確率マップと、を含む。さらに、確率マップの第2のセットは、PRバイオマーカーについて染色された合成の単一画像を表すことができ、確率マップの第2のセットは、(i)PR+分類用の第1の確率マップと、(ii)PR-分類用の第2の確率マップと、(iii)間質細胞分類用の第3の確率マップと、(iv)免疫細胞分類用の第4の確率マップと、(v)アーチファクト分類用の第5の確率マップと、を含む。
【0029】
画像処理システムは、各画素について、確率マップの第1のセットのER+確率マップの確率値を、確率マップの第2のセットのPR+確率マップの別の確率値と比較することによって、マージされたセットの第1の確率マップを生成することができる。次いで、比較に基づいて、より高い確率値およびその対応する分類(例えば、ER+)を、マージされたセットの第1の確率マップ(例えば、ER+/PR+)のそれぞれの画素に割り当てることができる。比較するステップと割り当てるステップを他の画素を介して繰り返して、マージされたセットの第1の確率マップを生成することができる。上記のステップを繰り返して、マージされたセットの他の確率マップ(例えば、ER-/PR-、ER+/PR-、ER-/PR+、その他)を生成することもできる。
【0030】
画像処理システムは、確率マップのマージされたセットを使用して、二重画像のアンカーポイントのセットを識別することができる。アンカーポイントのセットの各アンカーポイントは、個々のバイオマーカーまたは複数のバイオマーカーを有すると予測され得る二重画像内の領域(例えば、細胞中心)に対応することができる。アンカーポイントを決定するために、画像処理システムは、画素のセットを含む二重画像の領域を選択することができる。画像処理システムは、マージされたセットの各確率マップから、その領域の確率値のセットを取得することができ、各確率値は、その領域の対応する画素が確率マップに関連付けられた分類に対応するかどうかを識別するかどうかを示す。確率マップのマージされたセット全体にわたる画素のセットから、画像処理システムは、最も高い確率値を有する画素を選択し、選択された画素をアンカーポイントとして割り当てることができる。
【0031】
アンカーポイントのセットの各アンカーポイントは、アンカーポイントによって表される画像領域が個々のマーカーまたは複数のバイオマーカーの存在を示すかどうかを予測する1つまたは複数の対応する分類でラベル付けされ得る。例えば、アンカーポイントは、アンカーポイントが、ERバイオマーカーを含むと予測されたER+確率マップの領域から所定の距離(例えば、10画素)以内にあることに基づいて、ER+分類でラベル付けされ得る。この例を続けると、アンカーポイントが、PRバイオマーカーを含むと予測されたPR+確率マップの領域から所定の距離(例えば、10画素)以内にあることに基づいて、同じアンカーポイントをPR+分類でラベリングすることもできる。結果として、アンカーポイントに対応する二重画像の領域を、細胞が2つのタイプのバイオマーカー(例えば、ER+/PR+)の存在を示す表現型を有するとしてラベリングすることができる。確率マップの確率値を二重画像のアンカーポイントに組み込むことで、二重画像に、複数のバイオマーカーについて細胞の表現型を識別する1つまたは複数の領域を含めることが可能になる。マージされた表現型を有するアンカーポイントを、二重画像上にオーバーレイさせることができ、それにより、二重画像の所与の画像領域について、複数のバイオマーカーに対応する表現型を正確に表示する。
【0032】
本明細書に記載の特定の実施形態は、二重画像におけるバイオマーカーの共局在または共発現を識別する機械学習モデルの性能を向上させる。画像処理システムは、二重画像から合成単一画像を生成し、合成単一画像に別々の機械学習モデルを適用し、機械学習モデルによって生成された確率マップをマージして、二重画像に表示された各細胞についての複数の分類を出力することによって性能を向上させることができる。本画像処理システムは、複数のタイプのバイオマーカーが同じ二重画像内で混合されクラスタ化されている場合でも正確に実行することができる。したがって、本明細書の実施形態は、人工知能システムおよびデジタル病理画像処理技術の機能の向上を反映する。
【0033】
特定の実施形態が説明されているが、これらの実施形態は例としてのみ提示されており、保護の範囲を限定することを意図するものではない。本明細書に記載された装置、方法、およびシステムは、様々な他の形態で具現化されてもよい。さらに、保護の範囲から逸脱することなく、本明細書に記載の例示的な方法およびシステムの形態の様々な省略、置換、および変更が行われてもよい。
【0034】
I.定義
本明細書で使用される場合、ある行為が何かに「基づく」場合、これは、その行為が何かの少なくとも一部に少なくとも部分的に基づくことを意味する。
【0035】
本明細書で使用される場合、「実質的に(substantially)」、「およそ(approximately)」、および「約(about)」という用語は、当業者によって理解されるように、大部分が指定されるものであるが、必ずしも完全には指定されないもの(および完全に指定されるものを含む)として定義される。任意の開示された実施形態では、「実質的に」、「およそ」、または「約」という用語は、指定されたものの「[パーセンテージ]以内」で置き換えられてもよく、パーセンテージは0.1、1、5、および10%を含む。
【0036】
本明細書で使用される場合、「試料」、「生物学的試料」、「組織」または「組織試料」という用語は、ウイルスを含む任意の生物から得られる生体分子(例えば、タンパク質、ペプチド、核酸、脂質、炭水化物、またはそれらの組み合わせ)を含む任意の試料を指す。生物の他の例には、哺乳動物(例えばヒト、ネコ、イヌ、ウマ、ウシおよびブタのような獣医学動物;ならびにマウス、ラットおよび霊長類のような実験動物)、昆虫、環形動物、クモ類、有袋動物、爬虫類、両生類、細菌および真菌が含まれる。生物学的試料には、組織試料(組織切片および組織の針生検など)、細胞試料(Pap塗抹標本もしくは血液塗抹標本などの細胞学的塗抹標本、または顕微解剖によって得られた細胞の試料など)、あるいは細胞画分、断片もしくは細胞小器官(細胞を溶解し、遠心分離などによってそれらの成分を分離することによって得られたものなど)が含まれる。生物学的試料の他の例としては、血液、血清、尿、精液、糞便、脳脊髄液、間質液、粘液、涙、汗、膿、生検組織(例えば、外科的生検または針生検によって得られる)、乳頭吸引物、耳垢、乳、膣液、唾液、スワブ(口腔スワブなど)、または最初の生物学的試料に由来する生体分子を含有する任意の材料が挙げられる。いくつかの実施形態では、本明細書で使用される「生物学的試料」という用語は、被験者から得られた腫瘍またはその一部から調製された試料(均質化試料または液化試料など)を指す。
【0037】
本明細書で使用される場合、「生物学的材料」、「生物学的構造」、または「細胞構造」という用語は、生体構造(例えば、細胞核、細胞膜、細胞質、染色体、DNA、細胞、細胞塊など)の全体または一部を含む天然の材料または構造を指す。
【0038】
本明細書で使用される場合、「バイオマーカー」という用語は、正常もしくは異常なプロセス、または症状もしくは疾患の徴候である、血液、他の体液、または組織に見出される生物学的分子(例えば、タンパク質分子)を指す。バイオマーカーは、特定のタイプのバイオマーカーと関連付けられ得る。例えば、バイオマーカーはエストロゲン受容体(ER)またはプロゲステロン受容体(PR)とすることができる。
【0039】
本明細書で使用される場合、「デジタル病理画像」とは、染色された試料のデジタル画像を指す。
【0040】
本明細書で使用される場合、「表現型」とは、デジタル病理画像において対応するバイオマーカーに関連付けられた特徴を発現する細胞型を指す。例えば、二重画像のある領域におけるエストロゲン受容体の表現型はエストロゲン受容体(ER+)の存在を識別することができ、同じ領域に対するプロゲステロン受容体の表現型はプロゲステロン受容体(PR-)の非存在を識別することができる。表現型をマージして、複数のバイオマーカー(例えば、ER+/PR+)の特徴を定義するために使用することができる。
【0041】
本明細書で使用される場合、「合成単一画像」とは、二重画像から生成されるデジタル病理画像を指し、合成単一画像は、(a)二重画像から導出された単染色画像と、(ii)対比染色画像とを組み合わせることによって生成される。合成単一画像は、特定の表現型を識別することができる。
【0042】
本明細書で使用される場合、「二重画像」とは、2つ以上のバイオマーカー(例えば、ER、PR)を識別するために染色されたデジタル病理画像を指す。
【0043】
本明細書で使用される場合、「アンカーポイント」とは、個々のバイオマーカーまたは複数のバイオマーカーを有すると予測され得るデジタル病理画像(例えば、二重画像)の領域(例えば、細胞中心)を指す。
【0044】
II.概要
深層学習に基づくシステムおよび方法を使用して、二重画像から合成単一画像を生成し、合成単一画像のそれぞれから検出された細胞の表現型を識別し、識別された表現型をマージして、2つ以上のバイオマーカーを含む画像領域を決定することができる。
図1は、いくつかの実施形態による、機械学習技術を使用して合成単一画像において検出された表現型をマージする画像処理システム100を示す概略図を示す。画像処理システムは、2つ以上のタイプのバイオマーカーを示すように染色された病理スライド102の画像を受信するように構成され得る(ブロック104)。いくつかの実施形態では、画像処理システムは、エストロゲン受容体(ER)およびプロゲステロン受容体(PR)タンパク質の存在を示すように染色された二重スライドの画像を使用して動作するように構成される。画像内の各細胞は、ERマーカーおよびPRマーカーのそれぞれについて陽性または陰性であるとして分類され得る。したがって、各細胞の表現型は、ER+PR+、ER+PR-、ER-PR+、ER-PR-または他の(例えば、間質、免疫、壊死、アーチファクトなど)として識別され得る。
【0045】
場合によっては、画像処理システムは、二重スライド画像を複数の画像タイルに分ける(ブロック106)。複数のバイオマーカーに対する細胞の表現型の識別は、複数の画像タイルのそれぞれについて行われ得る。場合によっては、画像タイルのセットが複数の画像タイルから選択され、画像タイルのセットは、バイオマーカーのタイプに対する細胞の表現型を検出するために1つまたは複数の機械学習モデルを訓練するための訓練画像として使用される。
【0046】
画像処理システムは、合成単一画像のセットを生成するために、二重画像を混合解除することができる(ブロック108および110)。合成単一画像のセットの各合成単一画像を生成して、単一のバイオマーカー(例えば、ER)について染色された細胞を表示することができる。いくつかの例では、合成単一画像は、(i)対応するバイオマーカーについて染色された細胞を表示する前処理画像を生成し、(ii)前処理画像を対比染色画像と組み合わせることによって生成される。
【0047】
いくつかの実施形態では、画像処理システムは、画像タイルのセットを使用して機械学習モデル(例えば、U-Netモデル)を訓練し、合成単一画像内の検出された細胞それぞれの表現型を予測する。例えば、ERバイオマーカーの細胞の表現型を予測するために画像タイルのセットを使用して第1の機械学習モデルを訓練することができ(ブロック112)、PRバイオマーカーの細胞の表現型を予測するために画像タイルのセットを使用して第2の機械学習モデルを訓練することができる(ブロック114)。
【0048】
次いで、訓練された機械学習モデルを使用して、対応する合成単一画像内の細胞の表現型を検出することができる(ブロック116および118)。例えば、画像処理システムは、2つのU-Netモデルを使用して複数の確率マップ(例えば、10個の確率マップ)を生成することができ、複数の確率マップを使用してERおよびPRの細胞の表現型を検出することができる。例えば、10個の確率マップのうちの5個は、ERバイオマーカーについて染色された合成単一画像を表すことができ、確率マップは、(i)ER+分類用の第1の確率マップと、(ii)ER-分類用の第2の確率マップと、(iii)間質細胞分類用の第3の確率マップと、(iv)免疫細胞分類用の第4の確率マップと、(v)アーチファクト分類用の第5の確率マップと、を含む。残りの5つの確率マップは、PRバイオマーカーについて染色された合成単一画像を表すことができる。
【0049】
次いで、画像処理システムは、2つの機械学習モデルによって予測された細胞の表現型をマージすることができる(ブロック120)。場合によっては、論理「積(AND)」を使用して、各細胞がどの表現型に属するかを直接計算する。確率的優先順位を使用して、バイオマーカーのすべての異なる共発現をマージし、複数のタイプのバイオマーカーの識別に関連する細胞の表現型を識別することができる。いくつかの実施形態では、画像処理システムは、アンカーポイントを各核(ER+/PR+/ER-/PR-/その他を含む)の細胞中心であると決定する。アンカーポイントは、2つの深層学習ネットワークによって訓練された2つの機械学習モデル(例えば、ERモデルおよびPRモデル)によって生成された10個の確率マップを比較することによって取得され得る。次いで、システムは、各アンカーポイントを、第1の機械学習モデル(「ERモデル」)によって生成されたER+/ER-/その他の分類と照合することができる。システムはまた、各アンカーポイントを、第2の機械学習モデル(「PRモデル」)によって生成されたPR+/PR-/その他と照合することができる。場合によっては、データ構造を使用して表現型/バイオマーカーER/PRのすべての位置を記録し、アンカーポイント/核の細胞中心を記録するマップと関連付けることができる。論理演算子(例えば、「AND」)および確率的優先順位を使用して、すべての異なる共発現をマージすることができる。結果として、複数のバイオマーカーを表すマージされた表現型を、二重スライド画像について識別することができる(ブロック122)。場合によっては、画像処理システムは、画像124に示すように、マージされた表現型を二重画像にオーバーレイする。2つの機械学習モデルおよび記載されたマッピング方法を使用することで、代替方法と比較した場合、計算および検出時間が大幅に短縮される。
【0050】
III.デジタル病理画像の生成
デジタル病理学は、被験者を正確に診断し、治療上の意思決定を導くために、デジタル化された画像の解釈を伴う。デジタル病理学ソリューションでは、画像分析ワークフローを確立して、関心のある生物学的対象を、例えば陽性、陰性腫瘍細胞などに自動的に検出または分類することができる。例示的なデジタル病理学ソリューションのワークフローは、組織スライドを取得することと、デジタル画像を取得するためにデジタル画像スキャナ(例えば、全スライド画像(WSI)スキャナ)で組織スライドの予め選択された領域または全体をスキャンすることと、1つまたは複数の画像解析アルゴリズムを使用してデジタル画像に対して画像解析を実行することと、画像解析(例えば、陽性、陰性、中程度、弱いなどの定量的または半定量的スコアリング)に基づいて各関心対象を潜在的に検出し、定量化する(例えば、各関心対象の対象固有領域または累積領域をカウントまたは識別する)ことと、を含む。
【0051】
図2は、デジタル病理画像を生成するための例示的なネットワーク200を示す。固定/包埋システム205は、固定剤(例えば、ホルムアルデヒド溶液などの液体固定剤)および/または包埋物質(例えば、パラフィンワックスなどの組織学的ワックスおよび/またはスチレンもしくはポリエチレンなどの1つまたは複数の樹脂)を用いて組織試料(例えば、少なくとも1つの腫瘍の少なくとも一部を含む試料)を固定および/または包埋する。各試料は、試料を固定剤に所定の期間(例えば、少なくとも3時間)曝露し、次いで試料を脱水することによって(例えば、エタノール溶液および/または透明化中間体剤への曝露を介して)固定されてもよい。包埋物質は、試料が液体状態にある場合(例えば、加熱時)に浸潤することができる。
【0052】
試料の固定および/または包埋は、試料を保存し、試料の分解を遅らせるために使用される。組織学において、固定とは、一般に、化学組成を保持し、自然な試料構造を保存し、細胞構造を分解から維持するために化学物質を使用する不可逆的なプロセスを指す。固定はまた、切片化のために細胞または組織を硬化させてもよい。固定剤により、架橋タンパク質を使用して試料および細胞の保存が強化されることがある。固定剤は、いくつかのタンパク質に結合して架橋し、脱水によって他のタンパク質を変性させることがあり、これは組織を硬化させ、普通ならば試料を分解させる可能性がある酵素を不活性化し得る。固定剤はまた、細菌を死滅させることがある。
【0053】
固定剤は、例えば、調製された試料の灌流および浸漬によって投与されてもよい。メタノール、ブイン固定剤および/またはホルムアルデヒド固定剤、例えば中性緩衝ホルマリン(NBF)またはパラフィン-ホルマリン(パラホルムアルデヒド-PFA)を含む様々な固定剤が使用されてもよい。試料が液体試料(例えば、血液試料)である場合、試料をスライド上に塗抹して、固定前に乾燥させてもよい。固定プロセスは、組織学的試験の目的のために試料および細胞の構造を保存するのに役立ち得るが、固定により、組織抗原が隠蔽され、それによって抗原検出が低下する可能性がある。したがって、ホルマリンは抗原を架橋し、エピトープをマスクする可能性があるため、固定は一般に免疫組織化学の制限因子と考えられる。いくつかの例では、固定された試料を無水シトラコン酸(可逆的タンパク質架橋剤)で処理することおよび加熱することを含む、架橋の効果を逆転させるための追加のプロセスが行われる。
【0054】
包埋は、パラフィンワックスなどの適切な組織学的ワックスを試料(例えば、固定された組織試料)に浸潤させることを含み得る。組織学的ワックスは、水またはアルコールに不溶性であり得るが、キシレンなどのパラフィン溶媒には可溶性である場合がある。したがって、組織内の水をキシレンで置換する必要があり得る。そうするために、まず試料中の水をアルコールで徐々に置換することによって試料が脱水され得て、これは組織を、濃度が増加するエチルアルコール(例えば、0~約100%)を通すことによって達成され得る。水をアルコールで置換した後、アルコールをアルコールと混和性のあるキシレンで置換してもよい。組織学的ワックスはキシレンに可溶性であり得るため、溶融したワックスは、キシレンで充填され、以前に水で充填されていた空間を充填し得る。ワックスで充填された試料を冷却して硬化させたブロックを形成してよく、これをミクロトーム、ビブラトーム、またはコンプレストームにクランプして切片を切断することができる。場合によっては、上記の例示的な手順から逸脱すると、パラフィンワックスの浸潤が生じ、抗体、化学物質、または他の固定剤の浸透が阻害されることがある。
【0055】
次いで、固定および/または包埋された組織試料(例えば、腫瘍の試料)を切片化するために、組織スライサー210が使用されてもよい。切片化とは、組織ブロックを検査のために顕微鏡スライド上に取り付ける目的で、組織ブロックから試料の薄いスライス片(例えば、2~5μmの厚さ)を切断するプロセスである。切片化は、ミクロトーム、ビブラトームまたはコンプレストームを用いて行われてもよい。場合によっては、組織をドライアイスまたはイソペンタン中で急速に凍結させることができ、次いで冷蔵キャビネット(例えば、クライオスタット)内でコールドナイフで切断することができる。液体窒素などの他のタイプの冷却剤を使用して組織を凍結させることができる。明視野および蛍光顕微鏡で使用するための切片は、一般に、2~10μm程度の厚さである。場合によっては、切片をエポキシ樹脂またはアクリル樹脂に埋め込むことができ、これにより、より薄い切片(例えば、<2μm)を切断することが可能になる場合がある。次いで、これらの切片が1つまたは複数のガラススライドに取り付けられてもよい。試料切片を保護するために、カバースリップが上部に配置されてもよい。
【0056】
組織切片およびその中の細胞は実質的に透明であるため、スライドの調製は、典型的には、関連する構造をより視認可能にするために組織切片を染色すること(例えば、自動染色)をさらに含む。場合によっては、染色は手動で行われる。場合によっては、染色は、染色システム215を使用して半自動的または自動的に行われる。染色プロセスは、組織の異なる特性を発現するために、組織試料または固定液体試料の切片を1つまたは複数の異なる染色(例えば、連続的にまたは同時に)に曝露することを含む。
【0057】
例えば、染色は、特定のタイプの細胞をマークするために、および/または特定のタイプの核酸および/またはタンパク質にフラグを立てて顕微鏡検査を支援するために使用されてもよい。染色プロセスは、一般に、特定の化合物、構造、分子、または特徴(例えば、細胞内特徴)の存在を確認または定量化するために、色素または染色剤を試料に添加することを含む。例えば、染色は、組織切片から特定のバイオマーカーを識別または強調するのに役立ち得る。他の例では、染色を使用して、生物学的組織(例えば、筋線維または結合組織)、細胞集団(例えば、異なる血球)、または個々の細胞内の細胞小器官を識別または強調することができる。
【0058】
組織染色の1つの例示的なタイプは、組織構造を染色するために1つまたは複数の化学染料(例えば、酸性染料、塩基性染料、色原体)を使用する組織化学染色である。組織化学染色は、組織形態および/または細胞の微小解剖学的構造の(例えば、細胞核を細胞質と区別するため、脂質滴を示すなどのため)一般的な態様を示すために使用されることがある。組織化学染色の一例はH&Eである。組織化学染色の他の例としては、三色染色(例えば、マッソンの三色)、過ヨウ素酸シッフ(PAS)、銀染色および鉄染色が挙げられる。組織化学染色試薬(例えば、染料)の分子量は、典型的には約500キロダルトン(kD)以下であるが、いくつかの組織化学染色試薬(例えば、アルシアンブルー、リンモリブデン酸(PMA))は、最大2または3000kDの分子量を有することがある。高分子量組織化学染色試薬の一例はα-アミラーゼ(約55kD)であり、これはグリコーゲンを示すために使用されることがある。
【0059】
組織染色のもう一つのタイプはIHCで、「免疫染色」とも呼ばれ、これは、目的の標的抗原(バイオマーカーとも呼ばれる)に特異的に結合する一次抗体を使用する。IHCは直接的または間接的であり得る。直接IHCでは、一次抗体はラベル(例えば、発色団または蛍光団)に直接コンジュゲートされる。間接IHCでは、一次抗体が最初に標的抗原に結合し、次いでラベル(例えば、発色団または蛍光団)とコンジュゲートされた二次抗体が一次抗体に結合する。IHC試薬の分子量は、抗体が約150kD以上の分子量を有するため、組織化学染色試薬の分子量よりもはるかに高い。
【0060】
染色を行うために、様々なタイプの染色プロトコルが使用されることがある。例えば、例示的なIHC染色プロトコルは、インキュベーション中にスライドからの試薬の漏出を防ぐために試料(例えば、組織切片)の周りに疎水性バリアラインを使用すること、非特異的染色の内因性源(例えば、酵素、遊離アルデヒド基、免疫グロブリン、特異的染色を模倣し得る他の無関係な分子)を遮断するために組織切片を試薬で処理すること、組織への抗体および他の染色試薬の浸透を促進するために透過化緩衝液と共に試料をインキュベートすること、特定の温度(例えば、室温、6~8℃)で一定期間(例えば、1~24時間)一次抗体と共に組織切片をインキュベートすること、洗浄緩衝液を使用して試料をすすぐこと、次いで別の特定の温度(例えば、室温)で別の期間二次抗体と共に試料(組織切片)をインキュベートすること、水緩衝液を使用して試料を再びすすぎ、すすいだ試料を色原体(例えば、DAB:3,3’-ジアミノベンジジン)と共にインキュベートすること、および反応を停止させるために色原体を洗い流すことを含む。場合によっては、その後、対比染色が試料の「風景」全体を識別するために使用され、組織標的の検出に使用される主要な色の基準として機能する。対比染色剤には、例えば、ヘマトキシリン(青から紫色の染色剤)、メチレンブルー(青色の染色剤)、トルイジンブルー(核を深青色に、多糖類をピンクから赤にする染色剤)、核ファストレッド(ケルンエヒトロート色素とも呼ばれ、赤色の染色剤)、メチルグリーン(緑色の染色剤)、非核発色性染色剤、例えばエオシン(ピンク色の染色剤)などが含まれ得る。当業者は、他の免疫組織化学染色技術を実施して染色を行うことができることを認識するであろう。
【0061】
別の例では、組織切片染色のためにH&E染色プロトコルを実施することができる。H&E染色プロトコルは、金属塩または媒染剤と混合したヘマトキシリン染色剤を試料に適用することを含む。次いで、試料を弱酸溶液ですすいで過剰な染色(分化)を除去し、続いて弱アルカリ水中で青みを付けることができる。ヘマトキシリンの適用後、試料をエオシンで対比染色することができる。他のH&E染色技術を実施することができることが理解されよう。
【0062】
いくつかの実施形態では、目的の特徴がどれであるかに応じて、様々なタイプの染色剤を使用して染色を行うことができる。例えば、DABは、IHC染色用の様々な組織切片に使用することができ、DABは、染色画像において関心のある特徴を表示する茶色をもたらす。別の例では、DAB色がメラニン色素によってマスクされることがあるため、アルカリホスファターゼ(AP)がIHC染色用の皮膚組織切片に使用され得る。一次染色技術に関して、適用可能な染色剤は、例えば、好塩基性および好酸性染色、ヘマチンおよびヘマトキシリン、硝酸銀、三色染色剤などを含み得る。酸性染料は、組織または細胞中のカチオン性成分または塩基性成分、例えばタンパク質および細胞質中の他の成分と反応し得る。塩基性色素は、組織または細胞中のアニオン性成分または酸性成分、例えば核酸と反応し得る。上記のように、染色系の一例はH&Eである。エオシンは、負に帯電したピンク色の酸性染料であってもよく、ヘマトキシリンは、ヘマテインおよびアルミニウムイオンを含む紫色または青色の塩基性染料であってもよい。染色の他の例には、過ヨウ素酸-シッフ反応(PAS)染色、マッソンの三色、アルシアンブルー、ファンギーソン、レチキュリン染色などが含まれ得る。いくつかの実施形態では、異なるタイプの染色剤を組み合わせて使用してもよい。
【0063】
次いで、切片が対応するスライドに取り付けられてもよく、次いで、撮像システム220は、生のデジタル病理画像225a~nを生成するためにスキャンまたは撮像することができる。染色された試料を拡大するために、顕微鏡(例えば、電子顕微鏡または光学顕微鏡)を使用することができる。例えば、光学顕微鏡は、約数百ナノメートルなど、1μm未満の分解能を有し得る。ナノメートルまたはサブナノメートルの範囲でより細かい詳細を観察するために、電子顕微鏡が使用されてもよい。撮像装置(顕微鏡と組み合わされた、または顕微鏡から分離された)は、拡大された生物学的試料を撮像して、いくつかの(例えば10~16個などの)チャンネルを有するマルチチャンネル画像(例えば、マルチチャネル蛍光)などの画像データを取得する。撮像装置には、カメラ(例えば、アナログカメラ、デジタルカメラなど)、光学素子(例えば、1つまたは複数のレンズ、センサフォーカスレンズ群、顕微鏡対物レンズなど)、撮像センサ(例えば、電荷結合素子(CCD)、相補型金属酸化膜半導体(CMOS)画像センサなど)、写真フィルムなどが含まれ得るが、これらに限定されない。デジタル実施形態では、撮像装置は、オンザフライ焦点合わせを証明するために協働する複数のレンズを含むことができる。イメージセンサ、例えばCCDセンサは、生物学的試料のデジタル画像を撮像することができる。いくつかの実施形態では、撮像装置は、明視野撮像システム、マルチスペクトル撮像(MSI)システムまたは蛍光顕微鏡システムである。撮像装置は、画像を取り込むために、不可視電磁放射線(例えばUV光)または他の撮像技術を利用してもよい。例えば、撮像装置は、顕微鏡と、顕微鏡によって拡大された画像を取り込むように構成されたカメラとを備えてもよい。分析システムによって受信された画像データは、撮像装置によって取り込まれた生画像データと同一であってもよく、および/または生画像データから導出されてもよい。
【0064】
次いで、染色された切片の画像を、サーバーなどの記憶装置225に記憶されてもよい。画像は、ローカル、リモート、および/またはクラウドサーバに記憶されてもよい。各画像は、被写体の識別子および日付(例えば、試料が収集された日付および/または画像が取り込まれた日付)と関連付けて記憶されてもよい。画像はさらに、別のシステム(例えば、本明細書でさらに詳細に説明するように、病理学者に関連付けられたシステム、自動または半自動の画像分析システム、または機械学習訓練および展開システム)に送信されてもよい。
【0065】
ネットワーク200に関して説明したプロセスに対する修正が企図されることが理解されよう。例えば、試料が液体試料である場合、包埋および/または切片化はプロセスから省略されてもよい。
【0066】
IV.デジタル病理画像変換用の例示的なシステム
図3は、いくつかの実施形態による、機械学習モデルを使用してデジタル病理画像を処理するためのコンピューティング環境300を示すブロック図である。本明細書でさらに説明するように、デジタル病理画像を処理することは、デジタル病理画像を使用して機械学習アルゴリズムを訓練すること、および/またはデジタル病理画像の一部もしくはすべてを、機械学習アルゴリズムの訓練された(または部分的に訓練された)バージョン(すなわち、機械学習モデル)を使用して1つまたは複数の結果に変換することを含むことができる。
【0067】
図3に示すように、コンピューティング環境300は、いくつかの段階、すなわち画像記憶段階305、前処理段階310、ラベリング段階315、データ増強段階317、訓練段階320、および結果生成段階325を含む。
【0068】
A.画像記憶段階
画像記憶段階305は、生物学的試料スライド(例えば、組織スライド)から予め選択された領域、または生物学的試料スライドの全体のデジタル画像335のセットを提供するために(例えば、前処理段階310によって)アクセスされる1つまたは複数の画像データストア330(例えば、
図2に関連して説明した記憶装置230)を含む。各画像データストア330に記憶され、画像ストア段階310でアクセスされる各デジタル画像335は、
図2に表示されるネットワーク200に関して説明したプロセスの一部もしくはすべてに従って生成されたデジタル病理画像を含み得る。いくつかの実施形態では、各デジタル画像335は、1つまたは複数のスキャンされたスライドからの画像データを含む。デジタル画像335のそれぞれは、単一の検体からの画像データ、および/または画像に対応する基礎となる画像データが収集された単一の日からの画像データに対応してもよい。
【0069】
画像データは、画像、ならびに色チャネルまたは色波長チャネルに関する任意の情報、ならびに画像が生成された撮像プラットフォームに関する詳細を含んでもよい。例えば、組織切片は、明視野撮像用の発色性染色剤または蛍光撮像用の蛍光体に関連付けられた1つまたは複数の異なるバイオマーカーを含む染色アッセイの適用によって染色される必要がある場合がある。染色アッセイは、明視野撮像用の発色性染色剤、蛍光撮像用の有機蛍光体、量子ドット、または有機蛍光体と量子ドットの併用、あるいは染色剤、バイオマーカー、および観察または撮像デバイスの任意の他の組合せを使用することができる。バイオマーカーの例としては、エストロゲン受容体(ER)、ヒト上皮成長因子受容体2(HER 2)、ヒトKi-67タンパク質、プロゲステロン受容体(PR)、プログラム細胞死タンパク質1(PD1)などのバイオマーカーが挙げられ、組織切片は、ER、HER2、Ki-67、PR、PD1などのそれぞれの結合剤(例えば、抗体)で検出可能にラベル付けされる。いくつかの実施形態では、分類、スコアリング、コックスモデリングおよびリスク層別化などのデジタル画像およびデータ分析操作は、使用されているバイオマーカーのタイプならびに視野(FOV)選択および注釈に依存する。さらに、典型的な組織切片は、組織切片に染色アッセイを適用する自動染色/アッセイプラットフォームで処理され、染色された試料が得られる。染色/アッセイプラットフォームとしての使用に適した様々な市販製品が市場に存在し、一例は、譲受人であるVentana Medical Systems,Inc.のVENTANA(登録商標)SYMPHONY(登録商標)製品である。染色された組織切片は、例えば、顕微鏡、または顕微鏡および/または撮像部品を有するホールスライドスキャナ上の撮像システムに供給されてもよく、一例は、譲受人のVentana Medical Systems,Inc.のVENTANA(登録商標)iScan Coreo(登録商標)/VENTANA(登録商標)DP200製品である。多重組織スライドは、同等の多重スライドスキャナシステムでスキャンされ得る。撮像システムによって提供される追加の情報は、染色に使用される化学物質の濃度、染色において組織に適用される化学物質の反応時間、および/または、組織の年齢、固定方法、期間、切片の包埋方法、切断方法などの組織の分析前条件を含む、染色プラットフォームに関する任意の情報を含み得る。
【0070】
B.画像前処理段階
前処理段階310において、デジタル画像335のセットのうちの1つ、複数、またはすべてのそれぞれが、1つまたは複数の技術を使用して前処理され、対応する前処理画像340が生成される。前処理は、画像をトリミングすることを含んでもよい。場合によっては、前処理は、すべての特徴を同じスケール(例えば、同じサイズスケールまたは同じカラースケールまたは彩度スケール)にするための標準化または再スケーリング(例えば、正規化)をさらに含んでもよい。特定の事例では、画像は、最小サイズ(幅または高さ)が所定の画素(例えば、2500画素)で、または最大サイズ(幅または高さ)が所定の画素(例えば、3000画素)でサイズ変更され、任意で元のアスペクト比に維持される。前処理は、ノイズを除去することをさらに含んでもよい。例えば、画像は、望ましくないノイズを除去するために、ガウス関数またはガウスぼかしを適用することなどによって平滑化されてもよい。
【0071】
前処理画像340は、1つまたは複数の訓練画像、検証画像、テスト画像、およびラベルなし画像を含み得る。訓練グループ、検証グループ、およびラベルなしグループに対応する前処理画像340は、同時にアクセスされる必要はないことを理解されたい。例えば、訓練および検証前処理画像340の初期セットは、機械学習アルゴリズム355を訓練するために最初にアクセスおよび使用されてもよく、続いて、ラベルなし入力画像が(例えば、1回またはその後複数回)アクセスまたは受信され、訓練された機械学習モデル360によって使用され、所望の出力(例えば、細胞分類)を提供し得る。
【0072】
C.ラベリング段階
場合によっては、機械学習アルゴリズム355は、教師あり訓練を使用して訓練され、前処理画像340の一部またはすべては、ラベリング段階315において、前処理画像340内の様々な生物学的物質および構造の「正しい」解釈(すなわち、「グランドトゥルース」)を識別するラベル345で、手動、半自動、または自動で部分的もしくは完全にラベル付けされる。例えば、ラベル345は、関心対象の特徴(例えば)、細胞の分類、所与の細胞が特定のタイプの細胞であるかどうかに関するバイナリ表示、前処理画像340(または前処理画像340を有する特定の領域)が特定のタイプの表示(例えば、壊死またはアーチファクト)を含むかどうかに関するバイナリ表示、(例えば、特定のタイプの細胞を識別する)スライドレベルまたは領域固有の表示のカテゴリ特徴、(例えば、領域内の特定のタイプの細胞の量、表示されたアーチファクトの量、または壊死領域の量を識別する)数、1つまたは複数のバイオマーカーの有無などを識別し得る。場合によっては、ラベル345は位置を含む。例えば、ラベル345は、特定のタイプの細胞の核の点位置、または特定のタイプの細胞の点位置(例えば、生のドットラベル)を識別し得る。別の例として、ラベル345は、表示された腫瘍、血管、壊死領域などの辺縁または境界を含んでもよい。別の例として、ラベル345は、1つまたは複数の染色を使用して観察されたバイオマーカーパターンに基づいて識別された1つまたは複数のバイオマーカーを含んでもよい。例えば、バイオマーカー、例えばプログラム細胞死タンパク質1(「PD1」)について染色された組織スライドは、組織におけるPD1の発現レベルおよびパターンを考慮して、陽性細胞または陰性細胞のいずれかとして細胞をラベル付けするために観察および/または処理されることがある。対象の特徴に応じて、所与のラベル化された前処理画像340は、単一のラベル345または複数のラベル345に関連付けられ得る。後者の場合、各ラベル345は、そのラベルが前処理画像345内のどの位置または部分に対応するかに関する(例えば)指示に関連付けられ得る。
【0073】
ラベリング段階315で割り当てられたラベル345は、人間のユーザ(例えば、病理学者または画像サイエンティスト)および/またはラベル345を定義するように構成されたアルゴリズム(例えば、注釈ツール)からの入力に基づいて識別されてもよい。場合によっては、ラベリング段階315は、ユーザによって操作されるコンピューティングデバイスに、1つまたは複数の前処理画像340の一部もしくはすべてを送信および/または提示することを含むことができる。場合によっては、ラベリング段階315は、ユーザによって操作されるコンピューティングデバイスにおいて、ラベリングコントローラ350によって提示されるインターフェースを利用する(例えば、APIを使用する)ことを含み、インターフェースは、関心のある特徴についてラベル345を識別する入力を受け入れるための入力コンポーネントを含む。例えば、ラベリング用の画像または画像の領域(例えば、FOV)の選択を可能にするユーザインターフェースが、ラベリングコントローラ350によって提供されてもよい。端末を操作するユーザは、ユーザインターフェースを使用して画像またはFOVを選択してもよい。既知のまたは不規則な形状を指定すること、または解剖学的関心領域(例えば、腫瘍領域)を定義することなど、いくつかの画像またはFOV選択機構が提供され得る。一例では、画像またはFOVは、H&E染色の組合せで染色されたIHCスライド上で選択された全腫瘍領域である。画像またはFOVの選択は、ユーザによって、または例えばH&E組織スライド上の腫瘍領域セグメント化など、自動画像解析アルゴリズムによって実行されてもよい。例えば、ユーザは、画像またはFOVを、スライド全体または腫瘍全体として選択してもよく、あるいはスライド全体または腫瘍領域全体が、セグメンテーションアルゴリズムを使用して画像またはFOVとして自動的に指定されてもよい。その後、端末を操作するユーザは、細胞上の点位置、細胞によって発現されるバイオマーカーに対する陽性マーカー、細胞によって発現されないバイオマーカーに対する陰性バイオマーカー、細胞の周囲の境界など、選択された画像またはFOVに適用される1つまたは複数のラベル345を選択し得る。
【0074】
場合によっては、インターフェースは、どの特定のラベル345が要求されているのかおよび/またはどの程度要求されているかを識別し得、これは、(例えば)テキスト命令および/または視覚化を介してユーザに伝達され得る。例えば、特定の色、サイズ、および/または記号は、ラベル345が他の表示に対して画像内の特定の表示(例えば、特定の細胞または領域または染色パターン)に対して要求されていることを表してもよい。複数の表示に対応するラベル345が要求される場合、インターフェースは、表示のそれぞれを同時に識別してもよく、または(識別された1つの表示にラベルを提供すると、ラベル付けのための次の表示の識別がトリガされるように)各表示を順次に識別してもよい。場合によっては、各画像は、ユーザが特定の数の(例えば、特定のタイプの)ラベル345を識別するまで提示される。例えば、ユーザが3つの異なるバイオマーカーの有無を識別するまで、所与の全スライド画像または全スライド画像の所与のパッチが提示されてもよく、その時点で、インターフェースは、異なる全スライド画像または異なるパッチの画像を提示し得る(例えば、しきい値数の画像またはパッチがラベル付けされるまで)。したがって、場合によっては、インターフェースは、関心対象の特徴の不完全なサブセットのラベル345を要求および/または受け入れるように構成され、ユーザは、潜在的に多くの表示のうちのどれがラベル付けされるかを決定し得る。
【0075】
場合によっては、ラベリング段階315は、画像または画像内の関心領域の様々な特徴を半自動的または自動的にラベル付けするために、アノテーションアルゴリズムを実装するラベリングコントローラ350を含む。ラベリングコントローラ350は、ユーザからの入力またはアノテーションアルゴリズムに従って、第1のスライド上の画像またはFOVに注釈を付け、注釈をスライドの残りの部分にわたってマッピングする。定義されたFOVに応じて、注釈付けおよび位置合わせ用のいくつかの方法が可能である。例えば、複数の連続スライドの中からH&Eスライド上に注釈が付けられた腫瘍領域全体は、自動的に、またはユーザによってVIRTUOSO/VERSO(商標)などのインターフェース上で選択されてもよい。他の組織スライドは同じ組織ブロックからの連続切片に対応するため、ラベリングコントローラ350はマーカー間位置合わせ操作を実行して、H&Eスライドからの腫瘍注釈全体をマッピングし、一連の残りのIHCスライドのそれぞれに転送する。マーカー間の位置合わせ用の例示的な方法は、2014年3月12日に出願された同一出願人による国際公開第 2014140070号パンフレット「Whole slide image registration and cross-image annotation devices,systems and methods」にさらに詳細に記載されており、これは、あらゆる目的のためにその全体が参照により本明細書に組み込まれる。いくつかの実施形態では、画像位置合わせおよび全腫瘍注釈の生成用の任意の他の方法が使用されてもよい。例えば、病理学者などの資格のある読影者は、任意の他のIHCスライド上の全腫瘍領域に注釈を付け、ラベリングコントローラ350を実行して、他のデジタル化スライド上の全腫瘍注釈をマッピングしてもよい。例えば、病理学者(または自動検出アルゴリズム)は、H&Eスライド上の全腫瘍領域に注釈を付けて、すべての隣接する連続切片化されたIHCスライドの分析をトリガして、すべてのスライド上の注釈付き領域に対する全スライド腫瘍スコアを決定してもよい。
【0076】
場合によっては、ラベリング段階315は、画像(または画像のFOV)に関連付けられた注釈のセット内の注釈位置および注釈ラベルの競合を識別するためにアノテーションアルゴリズムを実装する注釈処理システム351をさらに含む。注釈処理システム351は、訓練画像の領域内の異なる位置に配置された注釈のセットについてのコンセンサス位置を決定することができる。場合によっては、注釈処理システム351は、同じアノテータからの2つ以上の注釈が領域内に存在すると判定することによって、訓練画像内の領域について注釈位置の競合が存在すると判定する。注釈処理システム351は、同じアノテータからの他の注釈を破棄する一方で、領域内の他の注釈に最も近い距離を有する注釈を保持することによって、このような位置の競合を解決することができる。決定されたコンセンサス位置で、異なる標的タイプの生物学的構造を識別する注釈のセットについてコンセンサスラベルを決定することができる。異なる位置にわたるコンセンサスラベルを使用して、画像のグランドトゥルースラベルを生成することができる。グランドトゥルースラベルは、デジタル病理画像内の異なるタイプの生物学的構造を予測するように構成された機械学習モデルを訓練、検証、および/またはテストするために使用することができる。
【0077】
D.増強段階
増強段階317において、前処理画像340からラベル付けされたまたはラベル付けされていない画像(元の画像)の訓練セットは、1つまたは複数の増強アルゴリズムを実行する増強制御354を使用して生成された合成画像352で増強される。増強技術は、既存の訓練データのわずかに変更された合成コピー、または既存の訓練データから新たに作成された合成データを追加することによって、訓練データの量および/またはタイプを人為的に増加させるために使用される。本明細書で説明するように、スキャナ間および検査室間の違いは、デジタル画像内の強度および色のばらつきを引き起こす可能性がある。さらに、スキャニングが不十分だと、勾配の変化およびぼやけ効果が生じる可能性があり、アッセイ染色では、バックグラウンド洗浄などの染色アーチファクトが生じる可能性があり、組織/患者の試料が異なると、細胞サイズにばらつきが生じる可能性がある。これらのばらつきおよび変動は、深層学習および人工知能ネットワークの品質および信頼性に悪影響を及ぼす可能性がある。増強段階317で実施される増強技術は、これらのばらつきおよび変動の正則化器として機能し、機械学習モデルを訓練するときに過適合を低減するのに役立つ。本明細書に記載の増強技術は、任意の数およびタイプのばらつきおよび変動用の正則化器として使用することができ、本明細書に記載の様々な特定の例に限定されないことを理解されたい。
【0078】
E.訓練段階
訓練段階320において、ラベル345および対応する前処理画像340は、本明細書に記載の様々なワークフローに従って機械学習アルゴリズム355を訓練するために訓練コントローラ365によって使用することができる。例えば、アルゴリズム355を訓練するために、前処理画像340は、訓練用の画像のサブセット340a(例えば、90%)と、検証用の画像のサブセット340b(例えば、10%)とに分割されてもよい。分割は、ランダムに(例えば、90/10%または70/30%)実行されてもよく、またはサンプリングバイアスおよび過適合を最小限に抑えるために、K分割交差検証、一個抜き交差検証、一群抜き交差検証、入れ子交差検証などのより複雑な検証技術に従って実行されてもよい。分割はまた、前処理画像340内に増強画像または合成画像352を含めることに基づいて実行されてもよい。例えば、訓練用の画像340aのサブセット内に含まれる合成画像352の数または比率を制限することが有益な場合がある。場合によっては、元の画像335と合成画像352との比は、1:1、1:2、2:1、1:3、3:1、1:4、または4:1に維持される。
【0079】
場合によっては、機械学習アルゴリズム355は、CNN、残差ニューラルネットワーク(「Resnet」)によって置換された符号化層を有する修正CNN、またはResnetによって置換された符号化層および復号層を有する修正CNNを含む。他の例では、機械学習アルゴリズム355は、2次元CNN(「2DCNN」)、Mask R-CNN、U-Net、特徴ピラミッドネットワーク(FPN)、動的時間伸縮(「DTW」)技術、隠れマルコフモデル(「HMM」)、純粋な注意ベースのモデルなどの、前処理画像340、または例えば視覚変換器、CNN-HMMもしくはMCNN(マルチスケール畳み込みニューラルネットワーク)などのこのような技術のうちの1つもしくは複数の組み合わせをローカライズし、分類し、および/または分析するように構成された任意の適切な機械学習アルゴリズムであり得る。コンピューティング環境300は、同じタイプの機械学習アルゴリズム、または異なる細胞を検出および分類するように訓練された異なるタイプの機械学習アルゴリズムを採用してもよい。例えば、コンピューティング環境300は、PD1を検出し分類するための第1の機械学習アルゴリズム(例えば、U-Net)を含むことができる。コンピューティング環境500はまた、分化クラスタ68(「CD68」)を検出および分類するための第2の機械学習アルゴリズム(例えば、2DCNN)を含むことができる。コンピューティング環境300はまた、PD1とCD68を組み合わせて検出および分類するための第3の機械学習アルゴリズム(例えば、U-Net)を含むことができる。コンピューティング環境300はまた、患者などの被験者の治療または予後用の疾患の診断用の第4の機械学習アルゴリズム(例えば、HMM)を含むことができる。本開示による他の例では、さらに他のタイプの機械学習アルゴリズムが実装されてもよい。
【0080】
機械学習アルゴリズム355の訓練プロセスは、パラメータデータストア363から機械学習アルゴリズム355のハイパーパラメータを選択することと、画像のサブセット340a(例えば、ラベル345および対応する前処理画像340)を機械学習アルゴリズム355に入力することと、機械学習アルゴリズム355のパラメータのセット(例えば、1つまたは複数の係数および/または重み)を学習するための反復動作を実行することとを含む。ハイパーパラメータは、機械学習アルゴリズム355の挙動を制御するために調整または最適化することができる設定である。ほとんどのアルゴリズムは、メモリまたは実行コストなどのアルゴリズムの異なる態様を制御するハイパーパラメータを明示的に定義する。しかしながら、アルゴリズムを特定のシナリオに適合させるために、追加のハイパーパラメータが定義されてもよい。例えば、ハイパーパラメータは、アルゴリズムの隠れユニットの数、アルゴリズムの学習率(例えば、1e-4)、畳み込みカーネル幅、またはアルゴリズムのカーネルの数を含んでもよい。場合によっては、モデルパラメータの数は、畳み込み層および逆畳み込み層ごとに減少し、および/またはカーネルの数は、畳み込み層および逆畳み込み層ごとに、典型的なCNNと比較して半分減少する。
【0081】
画像のサブセット340aは、所定のサイズのバッチとして機械学習アルゴリズム355に入力されてもよい。バッチサイズは、パラメータ更新を実行することができる前に、機械学習アルゴリズム355に示される画像の数を制限する。あるいは、画像のサブセット340aは、時系列としてまたは順次に機械学習アルゴリズム355に入力されてもよい。いずれの場合も、増強画像または合成画像352が前処理画像340a内に含まれる場合、元の画像335の数対各バッチ内に含まれる合成画像352の数、または元の画像335および表現型の画像352がアルゴリズムに供給される方法(例えば、1つおきのバッチまたは画像は、画像の元のバッチまたは元の画像である)を、ハイパーパラメータとして定義することができる。
【0082】
各パラメータは、パラメータについての値が訓練中に調整されるように調整可能な変数である。例えば、コスト関数または目的関数は、表示された表現の正確な分類を最適化し、所与のタイプの特徴の特徴付け(例えば、形状、サイズ、均一性などの特徴付け)を最適化し、所与のタイプの特徴の検出を最適化し、および/または所与のタイプの特徴の正確な位置特定を最適化するように構成され得る。各反復は、機械学習アルゴリズム355のコスト関数を最小化または最大化する機械学習アルゴリズム355のパラメータのセットを学習することを含むことができ、それにより、パラメータのセットを使用するコスト関数の値が、前の反復において別のパラメータのセットを使用したコスト関数の値よりも小さくまたは大きくなるようにすることができる。コスト関数は、機械学習アルゴリズム355を使用して予測された出力と訓練データに含まれるラベル345との間の差を測定するように構築され得る。例えば、教師あり学習に基づくモデルの場合、訓練の目標は、訓練入力空間Xを目標値空間Y、hにマッピングする関数「h()」(仮説関数と呼ばれることもある)を学習することである。X→Y、ここでh(x)はyの対応する値に対する良好な予測因子である。この仮説関数を学習するために、様々な異なる技術が使用されてもよい。いくつかの技術では、仮説関数を導出する一部として、ある入力についてのグランドトゥルース値とその入力についての予測値との間の差を測定するコスト関数または損失関数が定義されることがある。訓練の一部として、バックプロパゲーション、ランダムフィードバック、ダイレクトフィードバックアライメント(DFA)、インダイレクトフィードバックアライメント(IFA)、ヘブスの学習などの技術が、このコストまたは損失関数を最小限に抑えるために使用される。
【0083】
訓練の反復は、停止条件が満たされるまで継続する。訓練完了条件は、(例えば)所定回数の訓練反復が完了したとき、テストもしくは検証に基づいて生成された統計値が所定のしきい値(例えば、分類精度しきい値)を超えたとき、信頼度測定基準(例えば、特定の値を上回る信頼度メトリックの平均もしくは中央値または信頼度メトリックのパーセンテージ)に基づいて生成された統計値が所定の信頼度しきい値を超えたとき、および/または訓練レビューに関与していたユーザ装置が訓練コントローラ365によって実行された訓練アプリケーションを閉じるときに満たされるように構成されてもよい。モデルパラメータのセットが訓練を介して識別されると、機械学習アルゴリズム355が訓練され、訓練コントローラ365は、画像のサブセット340b(テストまたは検証データセット)を使用してテストまたは検証の追加のプロセスを実行する。検証プロセスは、ハイパーパラメータを調整し、最終的に最適なハイパーパラメータのセットを見つけるために、K分割交差検証、一個抜き交差検証、一群抜き交差検証、入れ子交差検証などの検証技術を使用して、画像のサブセット340bから機械学習アルゴリズム355に画像を入力する反復動作を含んでもよい。最適なハイパーパラメータのセットが取得されると、画像のサブセット340bからの画像の予約されたテストセットが機械学習アルゴリズム355に入力されて出力が取得され、出力は、Bland-Altman法およびSpearmanのランク相関係数などの相関技術を使用して、誤差、正確さ、精度、再現率、受信者動作特性曲線(ROC)などの性能メトリックを計算することによって、グラウンドトゥルースに対して評価される。場合によっては、ユーザ装置からの対応する要求またはトリガ条件の受信に応答して、新しい訓練反復が開始されてもよい(例えば、初期モデルの開発、モデルの更新/適応、連続学習、ドリフトは訓練された機械学習モデル360内で決定される、など)。
【0084】
理解されるように、他の訓練/検証メカニズムが企図され、コンピューティング環境300内に実装されてもよい。例えば、画像のサブセット340aからの画像に対して、機械学習アルゴリズム355が訓練されてもよく、ハイパーパラメータが調整されてもよく、画像のサブセット340bからの画像は、機械学習アルゴリズム355の性能をテストおよび評価するためにのみ使用されてもよい。さらに、本明細書に記載の訓練メカニズムは、新しい機械学習アルゴリズム355の訓練に焦点を合わせている。これらの訓練メカニズムはまた、本明細書で詳細に説明するように、他のデータセットから訓練された既存の機械学習モデル360の初期モデルの開発、モデルの更新/適応、および連続学習に利用することができる。例えば、場合によっては、機械学習モデル360は、他の対象もしくは生物学的構造の画像を使用して、または他の対象もしくは研究(例えば、人体試験またはマウス実験)からの切片から事前調整されていてもよい。それらの場合、機械学習モデル360は、前処理画像340を使用した初期モデルの開発、モデルの更新/適応、および連続学習に使用することができる。
【0085】
F.結果生成段階
次いで、(結果生成段階325において)訓練された機械学習モデル360を使用して、新しい前処理画像340を処理して、細胞中心および/または位置確率を予測する、細胞タイプを分類する、細胞マスク(例えば、画像の画素ごとのセグメンテーションマスク)を生成する、患者などの被験者の疾患の診断もしくは予後を予測する、あるいはそれらの組合せを行うなどの、予測または推測を生成することができる。場合によっては、マスクは、1つまたは複数のバイオマーカーに関連付けられた表示された細胞の位置を識別する。例えば、単一のバイオマーカーについて染色された組織が与えられると、訓練された機械学習モデル360は、(i)細胞の中心および/または位置を推測し、(ii)バイオマーカーに関連付けられた染色パターンの特徴に基づいて細胞を分類し、(iii)陽性細胞に対する細胞検出マスクおよび陰性細胞に対する細胞検出マスクを出力するように構成され得る。別の例として、2つのバイオマーカーについて染色された組織が与えられると、訓練された機械学習モデル360は、(i)細胞の中心および/または位置を推測し、(ii)2つのバイオマーカーに関連付けられた染色パターンの特徴に基づいて細胞を分類し、(iii)第1のバイオマーカーに対して陽性の細胞に対する細胞検出マスク、第1のバイオマーカーに対して陰性の細胞に対する細胞検出マスク、第2のバイオマーカーに対して陽性の細胞に対する細胞検出マスク、および第2のバイオマーカーに対して陰性の細胞に対する細胞検出マスクを出力するように構成され得る。別の例として、単一のバイオマーカーについて染色された組織が与えられると、訓練された機械学習モデル360は、(i)細胞の中心および/または位置を推測し、(ii)細胞の特徴およびバイオマーカーに関連付けられた染色パターンに基づいて細胞を分類し、(iii)陽性細胞に対する細胞検出マスクおよび陰性細胞コードに対する細胞検出マスク、ならびに組織細胞として分類されたマスク細胞を出力するように構成され得る。
【0086】
場合によっては、分析コントローラ380は、基礎となる画像の処理を要求したエンティティに利用される分析結果385を生成する。分析結果385は、新しい前処理画像340にオーバーレイされた訓練された機械学習モデル360から出力されたマスクを含み得る。追加的または代替的に、分析結果385は、全スライド腫瘍スコアなどの、訓練された機械学習モデルの出力から計算または決定された情報を含み得る。例示的な実施形態では、組織スライドの自動分析は、譲受人VENTANAのFDA認可済みの510(k)アルゴリズムを使用する。代替的または追加的に、他の自動化された任意のアルゴリズムを使用して、画像の選択された領域(例えば、マスクされた画像)を分析して、スコアを生成してもよい。いくつかの実施形態では、分析コントローラ380は、コンピューティングデバイスから受信した、病理学者、医師、調査者(例えば、臨床試験に関連付けられた)、患者、医療専門家などの指示にさらに応答してもよい。場合によっては、コンピューティングデバイスからの通信は、特定の被験者のセットのそれぞれの識別子を含み、そのセットで表される各被検者についての分析の反復を実行する要求に対応する。コンピューティングデバイスは、機械学習モデルおよび/または分析コントローラ380の出力に基づいて分析をさらに実行することができ、ならびに/あるいは推奨される診断/治療を被験者に提供することができる。
【0087】
コンピューティング環境300は例示的なものであり、異なる段階を有するおよび/または異なる構成要素を使用するコンピューティング環境300が考えられることが理解されよう。例えば、場合によっては、ネットワークは、前処理段階310を省略してもよく、それにより、アルゴリズムを訓練するために使用される画像および/またはモデルによって処理された画像が(例えば、画像データストアからの)生画像となる。別の例として、前処理段階310および訓練段階320のそれぞれは、本明細書に記載の1つまたは複数の動作を実行するためのコントローラを含むことができることが理解されよう。同様に、ラベリング段階315はラベリングコントローラ350に関連して表示されており、結果生成段階325は分析コントローラ380に関連して表示されているが、各段階に関連付けられたコントローラは、ラベルの生成および/または分析結果の生成以外の本明細書に記載の他の動作をさらにまたは代替的に促進し得る。さらに別の例として、
図3に示すコンピューティング環境300の表示は、(例えば、様々なインターフェースがどのように機能するかなどを定義した機械学習アルゴリズム355のアーキテクチャを選択した)プログラマに関連付けられたデバイス、(例えば、ラベリング段階315において)初期ラベルまたはラベルレビューを提供するユーザに関連付けられたデバイス、および所与の画像のモデル処理を要求するユーザ(初期ラベルまたはラベルレビューを提供したユーザと同じユーザまたは異なるユーザであってもよい)に関連付けられたデバイスの表示された表現を欠いている。これらのデバイスの表示がないにもかかわらず、コンピューティング環境300は、デバイスのうちの1つ、複数、またはすべての使用を含んでもよく、実際には、初期ラベルまたはラベルレビューを提供する対応する複数のユーザに関連付けられた複数のデバイス、および/または様々な画像のモデル処理を要求する対応する複数のユーザに関連付けられた複数のデバイスの使用を含んでもよい。
【0088】
V.二重画像から合成単一画像を生成する
図4は、いくつかの実施形態による、二重ER/PRおよび隣接する単一IHC ER/PR画像400の一例を示す。二重画像および単一画像400は、
図2のネットワーク200によって実行されるプロセスを使用して取得することができる。
図4では、二重ER/PR画像402はエストロゲン受容体とプロゲステロン受容体の両方について染色され、単一ER画像404はエストロゲン受容体のみについて染色され得て、単一PR画像406はプロゲステロン受容体のみについて染色され得る。組織切片の二重IHC染色は、2つ以上のバイオマーカーの同時検出を可能にする。二重IHC染色は、両方のバイオマーカーの共発現を単一細胞レベルでさらに可能にする。二重IHC染色は、バイオマーカーの共局在を識別するための2つのIHC染色およびさらなる位置合わせを必要としない。これらの利点にもかかわらず、二重IHC画像におけるバイオマーカーは、バイオマーカーがしばしば互いに重なり合い、クラスタ化されるため、病理学者が識別するのが困難であることが多い。実際には、二重IHC画像の手動スコアリングプロセスは困難であり得る。
図4の例示的な画像400において、Tamra(紫色)を使用してPRを染色し、Quinone Methide Dabsyl(黄色)を使用してERを染色し、ヘマトキシリン(青色)を対比染色剤として使用した。
【0089】
図5は、いくつかの実施形態による、二重ER/PR画像上で選択され、単一IHC ER画像および単一IHC PR画像上で位置合わせされた視野(FOV)500を示す。
図5では、FOVが二重ER/PR画像502上で選択され、次いでFOVが位置合わせされ、単一IHC ER画像504および単一IHC PR画像506上にオーバーレイされる。いくつかの実施形態では、FOVは、一人または複数の病理学者によって選択され、二重ER/PR画像502上に直接提示される。自動位置合わせアルゴリズムを利用して、単一IHC ER画像504および単一IHC PR画像506上に二重ER/PR画像502を位置合わせすることができる。
【0090】
二重画像を混合解除して合成単一画像を生成することができ、各合成単一画像は、単一バイオマーカー(例えば、ER)について染色された細胞を表示することができる。場合によっては、各二重画像を処理して3つのモノクロ画像を生成し、2つのモノクロ画像が2つの染色剤(例えば、ER、PR)のそれぞれに対応し、第3のモノクロ画像が対比染色剤(例えば、ヘマトキシリン)に対応する。各単一染色画像を対比染色(「CS」)画像と組み合わせて、合成単一画像を生成することができる。合成単一画像のそれぞれは、1つまたは複数の機械学習モデルを使用して処理され、各細胞の表現型を予測することができ、その表現型が、対応するタイプのバイオマーカーと関連付けられ得る。他のタイプの画像前処理は、合成単一画像を生成および修正するために適用され得て、他のタイプの画像前処理は、
図3の前処理段階310で説明されている。場合によっては、合成単一画像は、病理学者によって確実に注釈付けまたはレビューされ、訓練画像のセットを生成することができる。
【0091】
追加的または代替的に、合成単一画像は、ディスプレイ装置に表示される色の範囲を減らすために色補正方法を使用して処理され得る。
図6A~
図6Cは、いくつかの実施形態による、合成単一画像を生成するための例示的な技術を示す。
図6Aでは、ディスプレイ装置604aは、その色範囲が限られているため、スライド走査装置602aによって取り込まれたすべての可能な色を表示することができない可能性があるため、スライド走査装置(例えば、DP200スキャナ)によってスキャンされた生画像は、通常、スコアリングのために病理学者に直接表示されない。したがって、生画像に対して色補正演算606aを実行することができる。色補正606aは、描かれた色空間がディスプレイ装置604aの色範囲内に入るように使用され得る。次いで、補正後の画像をディスプレイ装置604aに表示させることができる。色補正された画像は、顕微鏡下で見ることができる色と同様の色を含むことができる。場合によっては、色補正演算606aを実行するために色逆畳み込み技術が使用される。
【0092】
図6Bは、いくつかの実施形態による、二重ER/PR画像から合成Dabsyl ER画像および合成PR画像を生成するためのプロセス600Bを示す概略図である。
図6Bでは、二重ER/PR画像602bを混合解除して生の合成単一画像604bを生成することができ、生の合成単一画像604bは合成ER画像および合成PR画像を含む。生の合成単一画像604bのそれぞれは、色補正演算を使用して処理され、色正規化された合成単一画像606bを生成することができる。場合によっては、合成ER/PR画像606bは、スコアリングのために病理学者に提供され、スコアは、位置合わせされた単一ER/PR画像608bと比較され、システム/色非混合または染色エラーの存在を判定し得る。合成画像と単染色画像との間の正確な比較を可能にする(例えば、位置合わせ中の組織間隙を回避する)ために、特定のスライド切断シーケンスを使用することができる。例えば、位置合わせプロセス中に組織間隙を減少させるために、「H&E、単一ER、二重ER/PR、単一PR」の切断シーケンスを使用することができる。
【0093】
図6Cは、いくつかの実施形態による、二重画像から生成された色補正された合成単一画像600Cの例示的なセットを示す。画像の第1行は、ER/PR602cで染色された例示的な二重画像を処理して、PRバイオマーカー604cの存在を表示する色補正された合成画像を生成することを含む。
図6Cに示すように、色補正された合成画像は、隣接する組織部分606cを表示する単一PR画像のものと同様のバイオマーカーパターンを表示する。同様に、画像の第2行は、ER/PR608cで染色された別の例示的な二重画像を処理して、ERバイオマーカー610cの存在を表示する別の色補正された合成画像を生成することを含む。
図6Cに示すように、色補正された合成画像は、隣接する組織部分612cを表示する単一ER画像のものと同様のバイオマーカーパターンを表示する。
【0094】
VI.二重画像内の表現型を検出するための機械学習モデルの訓練
機械学習モデルを訓練するために、画像処理システムは、訓練画像のセットを含む訓練データを生成することができる。訓練画像は、ER+、PR+、ER-、PR+、およびその他(例えば、間質細胞、免疫細胞、アーチファクト)を含むグラウンドトゥルースラベルでラベル付けされ得る。場合によっては、画像処理システムは、(i)病理学者が二重画像内の1つまたは複数の視野(FOV)を選択することと、(ii)二重画像から選択されたFOVに基づいて、FOVを隣接する単一画像に位置合わせすることと、(iii)二重ER/PRと単一ERおよび単一PRの両方からFOVを抽出することと、(iv)二重画像から合成Tamra PR/合成Dabsyl ER画像を生成し、それによって各FOVについて4つの画像を生成することと、(v)病理学者が合成単一画像を含むすべてのFOVをスコアリングすることと、(vi)スコアを使用してER固有の機械学習モデルおよびPR固有の機械学習モデルを訓練することと、を含む訓練プロセスを実施する。
【0095】
A.訓練データ
図7は、いくつかの実施形態による、合成単一画像内の細胞の表現型を検出するように機械学習モデルを訓練するための訓練画像700の例示的なセットを示す。訓練画像は、生物学的試料の少なくとも一部(例えば、組織切片)を表示し、2つ以上のバイオマーカー(例えば、ER、PR)で染色された二重画像702から生成され得る。二重画像702は、合成単一画像704に混合解除され得る。合成単一画像704のそれぞれは、単一の対応するバイオマーカーで染色された生物学的試料の少なくとも一部を表すことができる。場合によっては、合成単一画像704は、染色エラーを除去するためにグランドトゥルース単一画像706と比較される。グランドトゥルース単一画像706は、二重画像702の組織部分の隣接する組織部分を表す単一画像に対応することができる。合成単一画像704をグランドトゥルース単一画像706と比較するために、グランドトゥルース単一画像706および合成単一画像704を単一の座標系に位置合わせするために位置合わせ操作を実行することができる。
【0096】
染色エラーが除去されると、合成単一画像704に1つまたは複数の訓練ラベルを追加することによって、訓練画像708を生成することができる。したがって、訓練画像708は、複数の訓練ラベルを含む合成単一画像に対応することができる。複数の訓練ラベルの各訓練ラベルは、(i)訓練ラベルによって識別される細胞の位置と、(ii)対応するバイオマーカーについての細胞の表現型とを含むことができる。例えば、訓練ラベルの赤色は「腫瘍陽性」癌細胞を示し、訓練ラベルの緑色は「腫瘍陰性」非癌細胞を示し、訓練ラベルの青色は間質細胞を示し、訓練ラベルの黄色は免疫細胞を示し、訓練ラベルの黒色はアーチファクトを示す。上記のステップを繰り返して、それぞれの機械学習モデルを訓練するための訓練画像のセットを生成することができる。
【0097】
B.モデル選択
図8は、いくつかの実施形態による、二重スライド画像内の表現型を検出するために使用される機械学習モデルの例示的なアーキテクチャを示す。
図8に示すように、U-Net800は、縮小経路805および拡張経路810を含んでもよく、これによりu字形アーキテクチャが得られる。縮小経路805は、畳み込み(例えば、3×3の畳み込み(パッドなしの畳み込み))の繰り返し適用を含むCNNネットワークであり、各畳み込みの後に正規化線形ユニット(ReLU)およびダウンサンプリングための最大プーリング演算(例えば、ストライド2の最大2×2プーリング)が続く。各ダウンサンプリングステップまたはプーリング動作において、特徴チャネルの数が2倍されてもよい。縮小の間、画像データの空間情報は減少するが、特徴情報は増加する。拡張経路810は、縮小経路805からの特徴と空間情報とを組み合わせるCNNネットワークである(縮小経路805からの特徴マップのアップサンプリング)。特徴マップのアップサンプリングの後には、2次元腫瘍マスクを生成するために、チャネル数を半分にする一連のアップ畳み込み(アップサンプリング演算子)、縮小経路805からの対応して切り取られた特徴マップとの連結、それぞれの後に正規化線形ユニット(ReLU)が続く畳み込み(例えば、2つの3×3畳み込み)の繰り返し適用、および最終的な畳み込み(例えば、1×1畳み込み)が続く。局所化するために、縮小経路805からの高解像度特徴は、拡張経路810からのアップサンプリングされた出力と組み合わされる。U-Net800は、全結合層なしで各畳み込みの有効部分を使用し、すなわち、セグメンテーションマップは、入力画像内で完全なコンテキストが利用可能な画素のみを含み、縮小ブロック中に学習されたコンテキスト特徴と拡張ブロックで学習された位置特定特徴とをリンクするスキップ接続を使用する。
【0098】
従来のU-Netアーキテクチャでは、畳み込みブロックは、畳み込みを実行するための畳み込み層(例えば、典型的には2つまたは3つの層)から構成される。しかしながら、様々な実施形態によれば、畳み込みブロックおよび畳み込み層は、1つまたは複数の拡張レベルにおいてピラミッド層820において実行される分離可能な畳み込みを有する残差ブロック815で置き換えられる(単一の畳み込み層は、2つ以上のピラミッド層820で置き換えられてもよい)。(例えば、積み重ねられたフィルタ処理された画像)。
図9Aは、
図8に示す残差ブロック815の層構造を示す。図示のように、残差ブロック900は、複数のピラミッド層905を含み得る。残差ブロック900を含むネットワーク(例えば、ResNet)では、各ピラミッド層905は、次の層(A,B,C..)に供給され、約2~3層離れた層(D,E...)に直接供給される。ネットワーク内の残差ブロック900の使用は、ピラミッド層の数を増加させることから生じる劣化の問題を克服するのに役立つ(層の数が増加し続ける場合、精度は最初は増加するが、ある時点で飽和し始め、最終的に劣化する)。残差ブロック900は、スキップ接続または残差接続を使用してこれらの追加のピラミッド層のいくつかをスキップし、最終的に初期ピラミッド層に大きな勾配を伝播する。スキップは、初期訓練段階でより少ないピラミッド層を使用して、ネットワークを効果的に単純化する。これにより、伝播する層が少なくなるため、勾配の消失の影響を低減することによって学習が高速化される(すなわち、多速度残差学習)。そして、ネットワークは、特徴空間を学習するにつれて、スキップされた層を徐々に復元する。
【0099】
図9Bは、様々な実施形態による、
図9Aの単一のピラミッド層910を示す。
図9Bに示すように、ピラミッド層910は、複数の異なるスケール(「拡張ブロック」)(この例では4つのレベル)で、拡張(アトラウス)分離可能型畳み込みを使用してもよい。ピラミッド層910は、物体(例えば、腫瘍)の検出精度を高めるために、複数の異なるスケールで同じ画像を含む。拡張(アトラウス)畳み込みは、カーネルサイズに対して受容野のサイズを増加させる受容野が「広がった」フィルタを指す。いくつかの実施形態では、1つまたは複数の拡張レベルは、4つの拡張レベルである。他の実施形態では、より多いまたはより少ない拡張レベル、例えば6つの拡張レベルが使用されてもよい。畳み込み層出力915は、拡張ブロック920(ここでは拡張子1、2、4、および8とラベル付けされている)の出力である。
図9Bの図示の例は、4つの拡張ブロックを想定し、各拡張ブロックが(同じ色の)2つのチャネルを出力するため、出力されるチャネルの総数は8である。各拡張ブロックによって出力されるチャネルの数は、問題の残差ブロックに応じて変化し得る。
図9Bの例は、
図8の左上または右上の残差ブロック815を示す。いくつかの実施形態では、残差ブロック905のピラミッド層910内の各拡張ブロック915によって出力される各チャネルの数は、残差ブロック905上のk個のフィルタを4で割った数に等しい。
【0100】
経験的証拠は、残差ブロックが精度の向上およびより容易な最適化を可能にすることを示している。分離可能な畳み込み、深さ方向の畳み込み、それに続く点方向の畳み込みも、収束速度の大きな増加およびモデルサイズの大幅な縮小を示している。拡張畳み込みにより、分解能を失うことなく受容野が拡大し、したがってマルチスケールコンテキスト情報をダウンサンプリングで集約することが可能になる。畳み込みブロックの再設計は、画像内の非常に局所的で希少な情報を抽出することを可能にする。
【0101】
C.二重画像内の表現型を検出するために機械学習モデルを訓練するための方法
図10は、一部の実施形態による、二重画像内の表現型を検出するように機械学習モデルを訓練するためのプロセス1000を示す。例示を目的として、プロセス1000は、
図1の画像処理システム100および/または
図3に示す構成要素を参照して説明されるが、他の実施態様も可能である。例えば、非一時的コンピュータ可読媒体に記憶されている
図3のコンピューティング環境300用のプログラムコードは、1つまたは複数の処理デバイスによって実行され、サーバシステムに本明細書に記載の1つまたは複数の動作を実行させる。
【0102】
ステップ1002において、訓練サブシステムは、生物学的試料(例えば、組織切片)の少なくとも一部を表示するデジタル病理画像にアクセスする。デジタル病理画像は、第1のタイプのバイオマーカーおよび第2のタイプのバイオマーカーについて染色された二重画像とすることができる。場合によっては、デジタル病理画像は、より大きなデジタル画像の一部(例えば、画像タイル)に対応する。
【0103】
ステップ1004において、訓練サブシステムは、デジタル病理画像を混合解除して、(i)第1のタイプのバイオマーカーが識別される生物学的試料の少なくとも一部を表示する第1の合成単一画像と、(ii)第2のタイプのバイオマーカーが識別される生物学的試料の少なくとも一部を表示する第2の合成単一画像とを生成する。場合によっては、合成単一画像は、(i)対応するバイオマーカーについて染色された細胞を表示する前処理画像を生成し、(ii)前処理画像を対比染色画像と組み合わせることによって生成される。対比染色画像を使用することにより、バイオマーカーを、前処理画像に示される他の細胞構造から視覚的に区別することができる。
【0104】
さらに、第1のタイプのバイオマーカーはERバイオマーカーに対応することができ、第2のタイプのバイオマーカーはPRバイオマーカーに対応する。追加的または代替的に、第1および第2の合成単一画像は、色補正演算を使用してさらに処理され、訓練ラベルの追加を容易にすることができる。場合によっては、第1および第2の合成単一画像は、染色エラーなどのあらゆる可能性のあるエラーに対処するために、生物学的試料の別の部分(例えば、隣接する組織切片)を表示するそれぞれの単一画像と比較される。
【0105】
ステップ1006において、訓練サブシステムは、第1の合成単一画像に第1の訓練ラベルのセットを追加して、第1の訓練画像を生成する。各訓練ラベルは、訓練ラベルによって識別される細胞の位置および対応するバイオマーカーに対する細胞の表現型を識別することができる。例えば、訓練ラベルの第1のセットは、(i)ER+分類と、(ii)ER-分類と、(iii)間質細胞分類と、(iv)免疫細胞分類と、(v)アーチファクト分類とを含むことができる。場合によっては、訓練ラベルは、1人または複数の病理学者によって第1の合成単一画像に追加される。
【0106】
ステップ1008において、訓練サブシステムは、第1訓練画像を使用して第1機械学習モデルを訓練する。上記の例を続けると、第1の機械学習モデルは、ERバイオマーカーについて染色された画像内の細胞の表現型を予測するように訓練され得て、これは、第1の機械学習モデルの出力と第1の合成単一画像に対応するグラウンドトゥルースとの間で計算された損失に基づいて第1の機械学習モデルのパラメータを調整することを含む。第1の機械学習モデルは、第1の訓練画像の確率マップのセットを生成するように訓練され得る。確率マップのセットの各確率マップは、合成単一画像の複数の画素を表すことができ、分類のセットのうちの特定の分類に対応することができる。例えば、第1の機械学習モデルは、第1の訓練画像用の確率マップの第1のセットを生成するように訓練され得て、確率マップの第1のセットは、(i)ER+分類用の第1の確率マップと、(ii)ER-分類用の第2の確率マップと、(iii)間質細胞分類用の第3の確率マップと、(iv)免疫細胞分類用の第4の確率マップと、(v)アーチファクト分類用の第5の確率マップと、を含む。場合によっては、第1の機械学習モデルはU-Netモデルである。
【0107】
ステップ1010において、訓練サブシステムは、第2の合成単一画像に第2の訓練ラベルのセットを追加して、第2の訓練画像を生成する。各訓練ラベルは、訓練ラベルによって識別される細胞の位置および対応するバイオマーカーに対する細胞の表現型を識別することができる。例えば、訓練ラベルの第1のセットは、(i)PR+分類と、(ii)PR-分類と、(iii)間質細胞分類と、(iv)免疫細胞分類と、(v)アーチファクト分類とを含むことができる。場合によっては、訓練ラベルは、1人または複数の病理学者によって第2の合成単一画像に追加される。
【0108】
ステップ1012において、訓練サブシステムは、第2訓練画像を使用して第2機械学習モデルを訓練する。上記の例を続けると、第2の機械学習モデルは、PRバイオマーカーについて染色された画像内の細胞の表現型を予測するように訓練され得て、これは、第2の機械学習モデルの出力と第2の合成単一画像に対応するグラウンドトゥルースとの間で計算された損失に基づいて第2の機械学習モデルのパラメータを調整することを含む。第2の機械学習モデルは、第2の訓練画像の確率マップのセットを生成するように訓練され得る。例えば、第1の機械学習モデルは、第1の訓練画像用の確率マップの第1のセットを生成するように訓練され得て、確率マップの第1のセットは、(i)PR+分類用の第1の確率マップと、(ii)PR-分類用の第2の確率マップと、(iii)間質細胞分類用の第3の確率マップと、(iv)免疫細胞分類用の第4の確率マップと、(v)アーチファクト分類用の第5の確率マップと、を含む。場合によっては、第2の機械学習モデルはU-Netモデルである。したがって、第1の機械学習モデルおよび第2の機械学習モデルは、別々の訓練画像を使用して訓練され得て、その結果、訓練された機械学習モデルは、それぞれの合成単一画像に示された細胞の表現型を正確に予測することができる。
【0109】
ステップ1014において、訓練サブシステムは、第1および第2機械学習モデルを提供する。例えば、第1および第2の機械学習モデルは、通信ネットワークを介して別のコンピューティングシステム(例えば、
図1の画像処理システム100)によってアクセスされて、他の二重画像内の細胞の表現型を予測することができる。場合によっては、第1および第2の機械学習モデルのそれぞれについて決定された損失が所定のしきい値を下回ると、第1および第2の機械学習モデルは他のシステムによってアクセスされる。プロセス1000はその後終了する。
【0110】
VII.複数のバイオマーカーについての細胞の表現型のマージ
訓練された2つの機械学習モデルを使用して、初期シード位置を生成し、シード位置の表現型を予測することができる。特に、第1の機械学習モデル(例えば、ERモデル)を使用して、合成単一ER画像内の細胞の表現型を生成することができ、第2の機械学習モデル(例えば、PRモデル)を使用して、合成単一PR画像内の細胞の表現型を生成することができる。
【0111】
図11は、いくつかの実施形態による、例示的なシード位置および2つのモデルによって生成された異なるクラスラベルを示す。
図11において、画像1102は、ERモデルによって生成された赤色の「ひし形」を識別しており、ERモデルは1762個の細胞(ER+、ER-、免疫、マトリックスおよびバックグラウンドを含む)を検出した。第1の画像1102は、PRモデルによって生成された緑色の「X」も識別しており、PRモデルは1034個の細胞を検出した。画像の拡大部分1104は、表現型を識別するのが困難な二重画像の細胞が存在することをさらに示す。この困難さは、同じ画像に複数の緑および赤のマークがクラスタ化されていることに起因する可能性がある。二重画像の異なる領域1106は、複数のバイオマーカーの表現型を識別することが困難であり得る細胞の例を示す。例えば、ある細胞はERモデルによってER陽性細胞であると予測され得るが、PRモデルは、同じ細胞を免疫細胞および間質細胞などの他の細胞に対応するものと予測する可能性がある。
【0112】
A.訓練された機械学習モデルを使用して合成単一画像からの確率マップの生成
上述した課題に対処するために、画像処理システムは、第1および第2の機械学習モデルによって生成された表現型をマージすることができる。表現型のマージは、確率マップを用いて行うことができる。特に、機械学習モデルによって生成された確率マップを所与の画像領域について比較することができ、確率マップに基づいて所与の領域について出力を決定することができる。確率マップを使用することで、クラスを割り当てるためにヒューリスティックパラメータを調整するなどの既存の技術に比べて利点が得られる。
【0113】
図12は、いくつかの実施形態による、ERモデルによって生成された5つの確率マップ1200を示す。確率マップ1200の各確率マップは、合成ER画像の複数の画素を表すことができ、分類のセットのうちの特定の分類に対応することができる。確率マップは、複数の画素の各画素について、その画素がその分類に対応するかどうかを示す確率値を含む。
図12に示すように、合成ER画像を表す確率マップ1200は、(i)ER+分類用の第1の確率マップ1204と、(ii)ER-分類用の第2の確率マップ1206と、(iii)免疫細胞分類用の第3の確率マップ1208と、(iv)間質細胞分類用の第4の確率マップ1210と、(v)アーチファクト/ノイズ分類用の第5の確率マップ1212と、を含むことができる。確率マップに加えて、ERモデルはまた、バックグラウンド/物体マップ1214を生成することもできる。ERチャネル内の各画素について、画像処理システムは、5つの確率マップ間の確率値を比較して、画素をER陽性、ER陰性、免疫細胞、間質細胞、または他の細胞として割り当てるべきかどうかを決定することができる。PRモデルはまた、合成PR画像を処理することによって5つの確率マップを生成することができる。PRモデルによって生成された確率マップを使用して、画素がPR陽性、PR陰性、免疫細胞、間質細胞またはその他の細胞になることを決定することができる。
【0114】
B.アンカーポイントのセットを定義するためのマージされた確率マップの生成
ERモデルおよびPRモデルのそれぞれによって生成された確率マップをマージして、確率マップのマージされたセットを生成することができる。確率マップのマージされたセットに基づいて、アンカーポイントのセットを決定することができる。アンカーポイントのセットは、1つまたは複数のバイオマーカーの存在を識別することができる二重画像内の位置に対応することができる。
図13は、いくつかの実施形態による、ERチャネルおよびPRチャネルにおける2つのU-Netモデルによって生成された確率マップ間の5つのマージされた確率マップ1300の計算を示す。
図13では、ERモデルが合成ER画像に対して使用され得て、ER腫瘍陽性、ER腫瘍陰性、免疫細胞、間質細胞および他の細胞のオブジェクトマップおよび5つの確率マップ1302を生成することができる。PRモデルを合成PR画像に使用して、PR腫瘍陽性、PR腫瘍陰性、免疫細胞、間質細胞および他の細胞のオブジェクトマップおよび5つの確率マップ1302を生成することができる。画像処理システムは、確率マップ1302と1304の両方を比較して、ERおよびPRの腫瘍陽性確率マップにおける各画素の最大確率を決定することができる。画像処理システムはまた、ERおよびPRの腫瘍陰性確率マップにおける各画素の最大確率を決定することができる。画像処理システムは、ERチャネルとPRチャネルとの間の免疫確率マップ、間質確率マップおよび他の細胞確率マップに対して上記プロセスを実行し続けることができる。
【0115】
ERおよびPRのチャネル画像から5つのマージされた確率マップ1306を計算した後、画像処理システムは、特定の距離または領域内のマージされた確率マップ1306内の各画素の最大確率を比較することができ、最大確率を有する画素を、各細胞の潜在的中心または各細胞のアンカーポイントとして予測することができる。
【0116】
図14は、いくつかの実施形態による、ERチャネルとPRチャネルとの間のマージされた確率マップを探索することによって得られたアンカーポイント1400の例を示す。
図14では、合成PR画像1402および合成ER画像1404のそれぞれにアンカーポイント1400がオーバーレイされている。画像1402および1404の青色の正方形はアンカーポイントを識別し、赤色のひし形は、Tamra PR画像1402およびDabsyl ER画像1404で最初に検出された細胞に対応し、アンカーポイントは各細胞の中心であり、すべての赤色のドットはER/PRチャネル内の5つのタイプのラベルを組み合わせている。いくつかの実施形態では、アンカーポイントは、細胞の別の部分(例えば、核)に対応する。
【0117】
C.アンカーポイントと対応する表現型との関連付け
図15は、いくつかの実施形態による、画素レベルでの例示的なアンカーポイントならびに周囲のER+点およびPR+点を示す。
図15には、画素レベルにおける例示的なアンカーポイント1502と、それを取り囲むER+点1504およびPR+点1506とが示されている。いくつかの実施形態では、アンカーポイントとER+、PR+点1504および1506との間の距離を計算するために、k最近傍アルゴリズムまたは距離アルゴリズムが適用される。例えば、ER+およびPR+の両方の位置がアンカーポイントから所定の距離内にある場合、アンカーポイントにER+およびPR+の両方のラベルを割り当てることができる。
【0118】
追加的または代替的に、ラベリング技術を使用することができる。
図16は、いくつかの実施形態による、確率マップから決定された例示的なラベルグラフ1600を示す。
図16は、5つのラベルグラフとアンカーポイントに適用される論理積演算をさらに示す。ERチャネル内の5つの確率マップ内の各点(ER+「1」、ER-「2」、間質-「3」、免疫「4」および他の「5」)について、画像処理システムは、周囲のラベルグラフ1602を計算することができる。場合によっては、ラベルグラフは、対応するタイプのバイオマーカーについての表現型(例えば、ER+)を示すとして分類された点を囲む10×10画素の領域に対応することができる。ラベルグラフ1604では、アンカーポイントを「赤色」の円としてマークすることもでき、論理「&」演算および5つのラベルグラフを使用して、アンカーポイントがER+/ER-/免疫/間質/その他の分類のいずれに属するかを判定する。例えば、アンカーポイント1606は、ER+分類として分類された点に対応する10×10画素領域内にあるため、ER+分類に割り当てられ得る。別のER-ラベルグラフはER+ラベルグラフと重複するが、画像処理システムはER+ラベルグラフにより高い重みを割り当てることができ、アンカーポイントには他の分類よりもER+分類を割り当てることができる。
【0119】
i.アンカーポイントとER分類との関連付け
図17は、いくつかの実施形態による、ER+/ER-/その他にアンカーポイントを割り当てる例を示す図である。
図17において、画像処理システムは、合成単一画像1704(例えば、ERチャネル画像)に対して画素-距離マップ1702を生成する。画素-距離マップ1702は、対応するタイプのバイオマーカーについての表現型を有するものとして分類された点のセットを含み、点のセットの各点は、所定の画素領域(例えば、10×10画素)によって定義される。画像処理システムは、画素-距離マップ1702を合成単一画像1704に対応するアンカーポイントのセットにオーバーレイすることができ、それによってアンカーポイントのセットの分類を含むマッピングされた画像1706を生成する。マッピングされた画像1706の拡大部分1708が示されており、1つまたは複数のアンカーポイント(「赤色」ドットとして定義される)が対応する画素領域(「白色」正方形として定義される)に関連付けられている。マッピングされた画像1706を、合成PR画像に対して生成された別のマッピングされた画像(図示せず)と組み合わせて、ERバイオマーカーおよびPRバイオマーカーの共局在を含む出力画像1710を生成することができる。上記の技術は、より速く、より効率的に、より正確に実行することができるため、上記の技術は、他の既存のアルゴリズムよりも有利である可能性がある。
【0120】
図18は、いくつかの実施形態による、合成ER画像内のER+/ER-/その他にアンカーポイントを割り当てるためのプロセス1800を示す。
図18では、プロセス1800は、「&」演算子を使用してERチャネル内でアンカーポイントに分類ラベル(例えば、ER+/ER-/その他)を割り当てるプロセスを含み、(i)アンカーポイントと重複する「ER+」ラベルマップの部分は、アンカーポイントのER+分類を生成し(ブロック1802)、(ii)アンカーポイントと重複する「ER-」ラベルマップの部分は、アンカーポイントのER-分類を生成し(ブロック1804)、(iii)アンカーポイントと重複する「免疫/間質/アーチファクト」ラベルマップの部分は、アンカーポイントの「その他」の分類を生成する(ブロック1806)。場合によっては、画像処理システムが合成単一画像の画素の分類の最大確率を計算する際、弱く染色されたER陽性細胞が考慮されずに、見逃されることがある。上記の問題に対処するために、画像処理システムは、このステップにおいて、弱く染色されたER陽性細胞を追加することができる(ブロック1808)。
【0121】
ii.アンカーポイントとPR分類との関連付け
同様に、画像処理システムは、
図19および
図20に示す合成PR画像において同等の処理を繰り返すことができる。
図19は、いくつかの実施形態による、PR+/PR-/その他にアンカーポイントを割り当てる例を示す図である。
図19において、画像処理システムは、合成単一画像1904(例えば、PRチャネル画像)に対して画素-距離マップ1902を生成する。画素-距離マップ1902は、PRバイオマーカーの表現型を有するものとして分類された点のセットを含み、このセットの各点は、所定の画素領域(例えば、10×10画素)によって定義される。画像処理システムは、画素-距離マップ1902を合成単一画像1904に対応するアンカーポイントのセットにオーバーレイすることができ、それによってアンカーポイントのセットの分類を含むマッピングされた画像1906を生成する。マッピングされた画像1906を、合成ER画像に対して生成されたマッピングされた画像1806と組み合わせて、ERバイオマーカーおよびPRバイオマーカーの共局在を含む出力画像1910を生成することができる。
【0122】
図20は、いくつかの実施形態による、合成PR画像においてPR+/PR-/その他にアンカーポイントを割り当てるためのプロセス2000を示す。
図20では、プロセス2000は、「&」演算子を使用してPRチャネル内でアンカーポイントに分類ラベル(例えば、PR+/PR-/その他)を割り当てるプロセスを含み、(i)アンカーポイントと重複する「PR+」ラベルマップの部分は、アンカーポイントのPR+分類を生成し(ブロック2002)、(ii)アンカーポイントと重複する「PR-」ラベルマップの部分は、アンカーポイントのPR-分類を生成し(ブロック2004)、(iii)アンカーポイントと重複する「免疫/間質/アーチファクト」ラベルマップの部分は、アンカーポイントの「その他」の分類を生成する(ブロック2006)。場合によっては、画像処理システムが合成単面画像の画素の分類の最大確率を計算する際、弱く染色されたPR陽性細胞が考慮されずに、見逃されることがある。上記の問題に対処するために、画像処理システムは、このステップにおいて、弱く染色されたPR陽性細胞を追加することができる(ブロック2008)。
【0123】
D.表現型の二重画像へのマージ
いくつかの実施形態では、システムは、すべての異なるタイプのアンカーポイントについてER+/PR+/ER-/PR-/その他を組み合わせてマージするように構成される。合成ER画像および合成PR画像の異なる優先確率に従って分類を決定することができる。例えば、合成ER画像および合成PR画像におけるER+/PR+/ER-/PR-に等しい重みを割り当てることができ、画像処理システムは、2つの合成ER画像および合成PR画像において検出された上記の表現型を組み合わせることができる。合成ER画像および合成PR画像において検出された他の細胞に対しては、より小さい重みを割り当てることができる。例えば、ある画素がERチャネルにおいてER+として検出され、PR+がPRチャネルにおいて検出された場合、画像処理システムは等しい重みを識別し、その画素をER+PR+共発現表現型として割り当てることができる。別の例では、画素がERチャネルでER+として検出され、間質細胞がPRチャネルで検出された場合、画像処理システムは2つの異なる重みを識別し、その画素をER+分類のみとして割り当てることができる。
図21は、いくつかの実施形態において、二重画像にオーバーレイされたマージされた表現型を示す例示的な画像のセットを示す。
【0124】
E.二重画像内の表現型を検出するために機械学習技術を使用する方法
図22は、いくつかの実施形態による、訓練された機械学習モデルを使用して二重画像内の表現型を検出するためのプロセス2200を示す。例示を目的として、プロセス2200は、
図1の画像処理システム100および/または
図3に示す構成要素を参照して説明されるが、他の実施態様も可能である。例えば、非一時的コンピュータ可読媒体に記憶されている
図3のコンピューティング環境300用のプログラムコードは、1つまたは複数の処理デバイスによって実行され、サーバシステムに本明細書に記載の1つまたは複数の動作を実行させる。
【0125】
ステップ2202において、画像処理システムは、生物学的試料(例えば、組織切片)の少なくとも一部を表示するデジタル病理画像にアクセスする。デジタル病理画像は、第1のタイプのバイオマーカーおよび第2のタイプのバイオマーカーについて染色された二重画像とすることができる。場合によっては、デジタル病理画像は、より大きなデジタル画像の一部(例えば、画像タイル)に対応する。
【0126】
ステップ2204において、画像処理システムは、デジタル病理画像を混合解除して、(i)第1のタイプのバイオマーカーが識別される生物学的試料の少なくとも一部を表示する第1の合成単一画像と、(ii)第2のタイプのバイオマーカーが識別される生物学的試料の少なくとも一部を表示する第2の合成単一画像とを生成する。場合によっては、第1のタイプのバイオマーカーはERバイオマーカーに対応し、第2のタイプのバイオマーカーはPRバイオマーカーに対応する。場合によっては、合成単一画像は、(i)対応するバイオマーカーについて染色された細胞を表示する前処理画像を生成し、(ii)前処理画像を対比染色画像と組み合わせることによって生成される。対比染色画像を使用することにより、バイオマーカーを、前処理画像に示される他の細胞構造から視覚的に区別することができる。
【0127】
ステップ2206において、画像処理システムは、第1の機械学習モデルを第1の合成単一画像に適用して、(i)第1の合成単一画像から第1の複数の細胞を検出し、(ii)第1の複数の細胞の各細胞について、分類の第1のセットのうちの分類を決定する。第1の機械学習モデルは、第1の訓練されたU-Netモデルとすることができる。第1のセットのうちの分類は、細胞が第1のタイプのバイオマーカーを有するバイオマーカーを含むかどうかを示す。第1の機械学習モデルは、
図10のプロセス1000を使用して訓練されたERモデルとすることができる。分類の第1のセットは、ERバイオマーカーについての細胞の表現型を識別することができ、分類の第1のセットは、(i)ER陽性分類(ER+)と、(ii)ER陰性分類バイオマーカー(ER-)と、(iii)間質細胞分類と、(iv)免疫細胞分類と、(v)アーチファクトまたは他の生物学的構造分類とを含む。場合によっては、画像処理システムは、第1の機械学習モデルを適用して、第1の合成単一画像を表す確率マップの第1のセットを生成する。確率マップの第1のセットの各確率マップは、第1の合成単一画像の複数の画素を表すことができ、分類の第1のセットのうちの特定の分類に対応することができる。確率マップは、複数の画素の各画素について、その画素がその分類に対応するかどうかを示す確率値を含む。
【0128】
ステップ2208において、画像処理システムは、第2の合成単一画像に第2の機械学習モデルを適用して、(i)第2の合成単一画像から第2の複数の細胞を検出し、(ii)第2の複数の細胞の各細胞について、分類の第2のセットのうちの分類を決定する。第2の機械学習モデルは、分類の第1のセットを生成するために使用される第1の訓練されたU-Netモデルとは別個に訓練された第2の訓練されたU-Netモデルとすることができる。第2のセットのうちの分類は、細胞が第2のタイプのバイオマーカーを有するバイオマーカーを含むかどうかを示す。第2の機械学習モデルは、
図10のプロセス1000を使用して訓練されたPRモデルとすることができる。分類の第2のセットは、PRバイオマーカーについての細胞の表現型を識別することができ、分類の第2のセットは、(i)PR陽性分類(PR+)と、(ii)PR陰性分類バイオマーカー(PR-)と、(iii)間質細胞分類と、(iv)免疫細胞分類と、(v)アーチファクトまたは他の生物学的構造分類とを含む。場合によっては、画像処理システムは、第2の機械学習モデルを適用して、第2の合成単一画像を表す確率マップの第2のセットを生成する。確率マップの第2のセットの各確率マップは、第2の合成単一画像の複数の画素を表すことができ、分類の第2のセットのうちの特定の分類に対応することができる。確率マップは、複数の画素の各画素について、その画素がその分類に対応するかどうかを示す確率値を含む。分類の第1のセットは、分類の第2のセットとは異なる分類を含むことができる。
【0129】
ステップ2210において、画像処理システムは、第1の複数の細胞の分類と第2の複数の細胞の分類とをマージして、マージされた分類を生成する。分類の第1のセットと分類の第2のセットのマージは、複数のバイオマーカー表現型(例えば、ER/PR)に関連付けられた細胞を表示するデジタル病理画像の画像領域の識別を容易にする。場合によっては、画像処理システムは、確率マップの第1のセットと第2のセットをマージしてアンカーポイントのセットを定義することによって、分類の第1のセットと分類の第2のセットをマージする。アンカーポイントのセットは、デジタル病理画像内の位置に対応し、各アンカーポイントについて1つまたは複数のバイオマーカーの存在を識別することができる。分類をマージするために、画像処理システムは、アンカーポイントのセットの各アンカーポイントに対して、分類の第1のセットのうちの対応する分類および分類の第2のセットのうちの対応する分類を割り当てる。第1および第2のセットの対応する分類は、アンカーポイントが、対応する分類のそれぞれの位置から所定の距離(例えば、10画素)内にあるかどうかの判定に基づいて識別され得る。
【0130】
ステップ2212において、画像処理システムは、マージされた分類を有するデジタル病理画像を出力する。マージされた分類は、検出された細胞の表現型を識別することができ、その表現型は、デジタル病理画像について染色された複数のバイオマーカーの存在を示すことができる。場合によっては、画像処理システムは、マージされた分類をデジタル病理画像上にオーバーレイすることによってデジタル病理画像を出力する。
【0131】
VII.マージされた表現型を使用した強化された機械学習モデルの訓練
場合によっては、マージされた表現型を使用して、別の機械学習モデルを訓練して、二重画像内の細胞の表現型を予測することができ(「強化された機械学習モデル」と呼ばれる)、強化された機械学習モデルは、二重画像の混合解除を必要としない。
図23は、いくつかの実施形態による、二重ER/PRアルゴリズムのためのマージされた表現型を使用する訓練パイプライン2300を示す。
【0132】
図23において、画像処理システムは、2つ以上のタイプのバイオマーカーを示すように染色された病理スライドの画像を受信するように構成され得る(ブロック2302)。いくつかの実施形態では、画像処理システムは、エストロゲン受容体(ER)およびプロゲステロン受容体(PR)タンパク質の存在を示すように染色された二重スライドの画像を使用して動作するように構成される。画像内の各細胞は、ERマーカーおよびPRマーカーのそれぞれについて陽性または陰性であるとして分類され得る。したがって、各細胞の表現型は、ER+PR+、ER+PR-、ER-PR+、ER-PR-または他の(例えば、間質、免疫、壊死、アーチファクトなど)として識別され得る。
【0133】
場合によっては、画像処理システムは、二重スライド画像を複数の画像タイルに分ける(ブロック2304)。複数のバイオマーカーに対する細胞の表現型の識別は、複数の画像タイルのそれぞれについて行われ得る。場合によっては、画像タイルのセットが複数の画像タイルから選択され、画像タイルのセットは、バイオマーカーのタイプに対する細胞の表現型を検出するために1つまたは複数の機械学習モデルを訓練するための訓練画像として使用される。
【0134】
画像処理システムは、二重画像のマージされた表現型を識別して、訓練二重画像を生成することができる(ブロック2306)。訓練二重画像は、訓練ラベルのセットを含むことができ、各訓練ラベルは、複数のバイオマーカー(例えば、ER+/PR+)について対応する細胞の表現型を識別する。訓練画像のマージされた表現型は、
図22に記載されたプロセス2200のステップを使用して生成され得る。場合によっては、画像処理システムは、機械学習モデルを訓練するための訓練画像のセットを生成するために、画像タイルのセットの各画像タイルについてマージされた表現型を識別する。場合によっては、訓練画像のセットのマージされた表現型は、病理学者によって手動で生成されたグランドトゥルース訓練ラベルと比較される(ブロック2308)。
【0135】
いくつかの実施形態では、画像処理システムは、マージされた表現型(すなわち、訓練画像)を有する画像タイルのセットを使用して、強化された機械学習モデル(例えば、U-Netモデル)を訓練し、強化された機械学習モデルが、複数のバイオマーカーについて検出された各細胞の表現型を予測することができるようにする。例えば、強化された機械学習モデルは、訓練画像のセットを使用して訓練され、ER/PRバイオマーカーの両方について細胞の表現型を予測することができる(ブロック2310)。
【0136】
次いで、訓練された強化された機械学習モデルを使用して、対応する他の二重画像内の細胞の表現型を検出することができる(ブロック2312)。結果として、画像処理システムは、単一の強化された機械学習モデルを使用して、複数のバイオマーカーの表現型を予測することができる(ブロック2314)。場合によっては、画像処理システムは、マージされた表現型を二重画像にオーバーレイする。マージされた表現型を使用して強化された機械学習モデルを訓練することにより、色の混合解除操作などの画像前処理ステップを実行することなく、二重画像内の複数のバイオマーカーを検出する精度を高めることができる。
【0137】
VIII.実験結果
本機械学習技術の性能は、病理学者によって実行される手動注釈と同等またはそれ以上であり、それにより、二重画像内の複数のバイオマーカーの存在を識別する際の画像処理システムの精度の向上を実証する。
【0138】
A.コンセンサススコアの比較
図24A~
図24Bは、いくつかの実施形態による、3人の病理学者のコンセンサススコアならびにU-Netおよびマージ表現型アルゴリズムを示す。
図24Aは、ERバイオマーカーについての3人の病理学者のコンセンサススコア(例えば、平均スコア)を本開示の態様に記載される機械学習技術によって予測されたマージされた表現型に対応するスコアと比較して示す。さらに、
図24Bは、PRバイオマーカーについての3人の病理学者のコンセンサススコアを、本機械学習技術によって予測されたマージされた表現型に対応するスコアと比較して示す。
図24A~
図24Bに示すように、機械学習技術によって生成されたマージされた表現型(緑色ドット)は、3人の病理学者のスコアの範囲内(赤色バー)にあり、コンセンサススコア(黄色ドット)に非常に近かった。したがって、
図24A~
図24Bのグラフは、本機械学習技術が病理学者によって手動で行われた注釈付けと同等に機能できることを実証している。
【0139】
表1は、「表現型のマージ+U-Net」アルゴリズムと、コンセンサスが一致した病理学者のスコア(3人の病理学者のスコアの中央値)との相関関係をさらに記載している。
【表1】
【0140】
U-Net表1は、U-Netアルゴリズムおよび表現型のマージが、ERバイオマーカーおよびPRバイオマーカーの検出において病理学者と同等に機能することを示す。
【0141】
B.強化された機械学習モデルの精度評価
別の評価では、病理学者は、ERおよびPRのバイオマーカーの多様性と強度に幅のある6枚のスライドから50個のFOVを選択した。設計されたマージされた表現型は、ER+PR+、ER+PR-、ER-PR+、ER-PR-およびその他の細胞の共発現を検出するために、二重画像において単一のU-Netモデルを訓練する。強化されたU-Netモデルは、
図23のプロセス2300に記載されたステップを使用して訓練され得る。さらに、強化されたU-Netモデルを訓練するために以下の構成が使用された。(i)オプティマイザはAdam Optimizerを含み、(ii)学習率を1e-4に設定し、(iii)エポックを100/200に設定し、(iv)訓練/検証を80/20に設定し、(v)パッチサイズを256×256に設定し、(vi)損失関数として交差エントロピー関数を設定した。表2は、U-Netモデルを訓練するために使用される訓練データセットを提供する。訓練されたU-Netモデルの精度結果を表3に列挙する。
【表2】
【表3】
【0142】
C.定性的結果
定量的結果に加えて、機械学習モデルの性能を評価するために定性的データも生成された。
図25は、いくつかの実施形態による、結果二重ER/PRの表現型検出の例を示す。
図25は、ER/PR二重画像2502上にオーバーレイされたマージされた表現型、合成ER画像2504上にオーバーレイされたマージされた表現型、および合成PR画像2506上にオーバーレイされたマージされた表現型を含む、結果二重ER/PRの表現型検出の例を示す。
【0143】
図26A~
図26Bは、異なるタイプのマージされた表現型を有する二重ER/PRのさらなる例を表示する。
図26Aは、二重ER/PR2602におけるER+/PR+共発現の一例、および二重ER/PR2604におけるPR+優勢の一例を示す。
図26Bは、二重ER/PR2606におけるER+優勢の一例、および二重ER/PR2608における腫瘍陰性優勢の一例を示す。
【0144】
X.さらなる考察
本開示のいくつかの実施形態は、1つまたは複数のデータプロセッサを含むシステムを含む。いくつかの実施形態では、システムは、非一時的コンピュータ可読記憶媒体であって、1つまたは複数のデータプロセッサ上で実行されると、1つまたは複数のデータプロセッサに、1つまたは複数の方法の一部もしくはすべておよび/または本明細書に開示された1つまたは複数のプロセスの一部もしくはすべてを実行させる命令を含む、非一時的コンピュータ可読記憶媒体を含む。本開示のいくつかの実施形態は、1つまたは複数のデータプロセッサに、本明細書に開示された1つまたは複数の方法の一部もしくはすべてならびに/あるいは1つまたは複数のプロセスの一部もしくはすべてを実行させるように構成された命令を含む、非一時的機械可読記憶媒体において有形に具現化されたコンピュータプログラム製品を含む。
【0145】
採用された用語および表現は、説明の用語として使用されたものであり、限定を意味するものではなく、このような用語および表現の使用には、示され、説明された特徴またはその一部の等価物を排除する意図はないが、特許請求された発明の範囲内で様々な変更が可能であることが認識される。したがって、特許請求の範囲に記載された本発明は実施形態および任意の特徴によって具体的に開示されているが、本明細書に開示された概念の修正および変形は当業者によって使用されてもよく、このような修正および変形は、添付の特許請求の範囲によって定義される本発明の範囲内にあるものと見なされることを理解されたい。
【0146】
以下の説明は、好ましい例示的な実施形態のみを提供し、本開示の範囲、適用性または構成を限定することを意図しない。むしろ、好ましい例示的な実施形態の以下の説明は、様々な実施形態を実施するための可能な説明を当業者に提供する。添付の特許請求の範囲に記載の趣旨および範囲から逸脱することなく、要素の機能および配置に様々な変更が加えられ得ることが理解される。
【0147】
実施形態の完全な理解を提供するために、以下の説明において具体的な詳細が与えられる。しかしながら、これらの具体的な詳細なしで実施形態が実施されてもよいことが理解されよう。例えば、回路、システム、ネットワーク、プロセス、および他の構成要素は、実施形態を不必要な詳細で不明瞭にしないために、ブロック図の形態の構成要素として示されることがある。他の事例では、実施形態を不明瞭にすることを避けるために、周知の回路、プロセス、アルゴリズム、構造、および技術は不必要な詳細なしに示されることがある。
【手続補正書】
【提出日】2024-03-12
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
第1のタイプのバイオマーカーおよび第2のタイプのバイオマーカーについて染色された生物学的試料の少なくとも一部を表示するデジタル病理画像にアクセスすることと、
前記デジタル病理画像を混合解除して、
前記第1のタイプのバイオマーカーが識別される前記生物学的試料の前記少なくとも一部を表示する第1の合成単一画像、および
前記第2のタイプのバイオマーカーが識別される前記生物学的試料の前記少なくとも一部を表示する第2の合成単一画像、
を生成することと、
前記第1の合成単一画像に第1の機械学習モデルを適用することであって、その結果、
前記第1の合成単一画像から第1の複数の細胞を検出して、
前記第1の複数の細胞の各細胞について、分類の第1のセットのうちの分類を決定し、前記第1のセットのうちの前記分類が、前記細胞が前記第1のタイプのバイオマーカーを有するバイオマーカーを含むかどうかを示す、
ことと、
前記第2の合成単一画像に第2の機械学習モデルを適用することであって、その結果、
前記第2の合成単一画像から第2の複数の細胞を検出して、
前記第2の複数の細胞の各細胞について、分類の第2のセットのうちの分類を決定し、前記第2のセットのうちの前記分類が、前記細胞が前記第2のタイプのバイオマーカーを有するバイオマーカーを含むかどうかを示し、前記分類の第1のセットが前記分類の第2のセットとは異なる、
ことと、
前記第1の複数の細胞の分類と前記第2の複数の細胞の分類とをマージして、マージされた分類を生成することと、
マージされた分類を有する前記デジタル病理画像を出力することと、
を含む、方法。
【請求項2】
前記第1の複数の細胞について前記分類を決定することが、
確率マップの第1のセットを生成することであって、前記確率マップの第1のセットの各確率マップが複数の画素を含み、前記分類の第1のセットのうちの分類に関連付けられ、前記確率マップが、前記複数の画素の各画素について、前記画素が前記分類に対応するかどうかを示す確率値を識別することと、
前記第1の複数の細胞の各細胞について、
前記確率マップの第1のセットのうち、前記細胞を表す1つまたは複数の画素についての最も高い確率値を含む確率マップを識別し、
識別された前記確率マップと関連付けられた分類を前記細胞に割り当てることと、
を含む、請求項1に記載の方法。
【請求項3】
前記第2の複数の細胞について前記分類を決定することが、
確率マップの第2のセットを生成することであって、前記確率マップの第2のセットの各確率マップが複数の画素を含み、前記分類の第2のセットのうちの分類に関連付けられ、前記確率マップが、前記複数の画素の各画素について、前記画素が前記分類に対応するかどうかを示す確率値を識別することと、
前記第2の複数の細胞の各細胞について、
前記確率マップの第2のセットのうち、前記細胞を表す1つまたは複数の画素についての最も高い確率値を含む確率マップを識別し、
識別された前記確率マップと関連付けられた分類を前記細胞に割り当てることと、
を含む、請求項1に記載の方法。
【請求項4】
前記第1の機械学習モデルおよび/または前記第2の機械学習モデルがU-Netモデルを含む、請求項1に記載の方法。
【請求項5】
前記第1のタイプのバイオマーカーがエストロゲン受容体タンパク質であり、前記第2のタイプのバイオマーカーがプロゲステロン受容体タンパク質である、請求項1に記載の方法。
【請求項6】
マージされた分類を有する前記デジタル病理画像を出力することが、前記マージされた分類を前記デジタル病理画像上にオーバーレイすることを含む、請求項1に記載の方法。
【請求項7】
マージされた分類を有する前記デジタル病理画像が、第3の機械学習モデルを訓練するための訓練画像として使用される、請求項1に記載の方法。
【請求項8】
前記第1の複数の細胞について前記分類を決定することが、
確率マップの第1のセットを生成することであって、前記確率マップの第1のセットの各確率マップが複数の画素を含み、前記分類の第1のセットのうちの分類に関連付けられ、前記確率マップが、前記複数の画素の各画素について、前記画素が前記分類に対応するかどうかを示す確率値を識別することを含み、
前記第2の複数の細胞についての分類を決定することが、
確率マップの第2のセットを生成することであって、前記確率マップの第2のセットの各確率マップが複数の画素を含み、前記分類の第2のセットのうちの分類に関連付けられ、前記確率マップが、前記複数の画素の各画素について、前記画素が前記分類に対応するかどうかを示す確率値を識別することを含み、
前記確率マップの第1のセットおよび前記確率マップの第2のセットがマージされてアンカーポイントのセットを生成し、前記アンカーポイントのセットの各アンカーポイントが、前記分類の第1のセットのうちの第1の分類および前記分類の第2のセットのうちの第2の分類を割り当てられる、請求項1に記載の方法。
【請求項9】
実行されるときにコンピュータシステムを制御して請求項1から8のいずれか一項に記載の方法を実行する複数の命令を記憶している非一時的コンピュータ可読媒体。
【請求項10】
請求項9に記載の非一時的コンピュータ可読媒体と、
前記コンピュータ可読媒体に記憶された命令を実行するための1つまたは複数のプロセッサと、
を備える、システム。
【請求項11】
請求項1から8のいずれか一項に記載の方法を実行するための手段を備える、システム。
【請求項12】
請求項1から8のいずれか一項に記載の方法を実行するように構成された1つまたは複数のプロセッサを備える、システム。
【請求項13】
請求項1から8のいずれか一項に記載の方法のステップをそれぞれ実行するモジュールを備える、システム。
【国際調査報告】