IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ テンプス ラブス,インコーポレイティドの特許一覧

特表2022-527264病理組織スライド画像からのバイオマーカーの判定方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-06-01
(54)【発明の名称】病理組織スライド画像からのバイオマーカーの判定方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220525BHJP
   G01N 33/48 20060101ALI20220525BHJP
   C12Q 1/6886 20180101ALN20220525BHJP
【FI】
G06T7/00 630
G01N33/48 M
G01N33/48 P
C12Q1/6886
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021557083
(86)(22)【出願日】2020-03-25
(85)【翻訳文提出日】2021-11-10
(86)【国際出願番号】 US2020024748
(87)【国際公開番号】W WO2020198380
(87)【国際公開日】2020-10-01
(31)【優先権主張番号】62/824,039
(32)【優先日】2019-03-26
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/983,524
(32)【優先日】2020-02-28
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/889,521
(32)【優先日】2019-08-20
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】16/732,242
(32)【優先日】2019-12-31
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】16/412,362
(32)【優先日】2019-05-14
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】521286248
【氏名又は名称】テンプス ラブス,インコーポレイティド
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100117019
【弁理士】
【氏名又は名称】渡辺 陽一
(74)【代理人】
【識別番号】100141977
【弁理士】
【氏名又は名称】中島 勝
(74)【代理人】
【識別番号】100138210
【弁理士】
【氏名又は名称】池田 達則
(74)【代理人】
【識別番号】100166165
【弁理士】
【氏名又は名称】津田 英直
(72)【発明者】
【氏名】スティーブン イップ
(72)【発明者】
【氏名】アービン ホー
(72)【発明者】
【氏名】リンタオ シャー
(72)【発明者】
【氏名】ボレスロウ オシンスキー
(72)【発明者】
【氏名】アリー アジーム カーン
(72)【発明者】
【氏名】アンドリュー ジェイ.クルーガー
(72)【発明者】
【氏名】マイケル カールソン
(72)【発明者】
【氏名】エイベル グリーンウォルド
(72)【発明者】
【氏名】ケイレブ ウィリス
【テーマコード(参考)】
2G045
4B063
5L096
【Fターム(参考)】
2G045AA24
2G045AA25
2G045BA13
2G045BB25
2G045CA17
2G045CB01
2G045DA36
2G045FA19
2G045FB11
2G045GB02
2G045GB03
2G045GB04
2G045JA01
2G045JA07
4B063QA19
4B063QA20
4B063QQ02
4B063QQ08
4B063QS36
4B063QX10
5L096AA02
5L096AA06
5L096BA06
5L096CA02
5L096DA01
5L096FA01
5L096HA11
5L096KA04
(57)【要約】
病理組織スライド画像からバイオマーカーのステータスおよびバイオマーカーのメトリックを予測するための、一般化可能で解釈可能な深層学習モデルが提供される。
【選択図】図3
【特許請求の範囲】
【請求項1】
標的組織のヘマトキシリンおよびエオシン(H&E)染色スライドのデジタル画像内のバイオマーカーを識別するコンピュータ実装方法であって、前記方法が、
1つ以上のプロセッサを有する画像ベースのバイオマーカー予測システムに前記デジタル画像を受信することと、
前記1つ以上のプロセッサを使用して、前記デジタル画像を複数のタイル画像に分離することにより、前記デジタル画像に対して画像タイリングプロセスを実行することであって、前記複数のタイル画像の各々が、前記デジタル画像の異なる部分を含む、実行することと、
前記1つ以上のプロセッサを使用して、前記複数のタイル画像を、各々が各タイル画像に対して異なる組織分類を分類するように訓練された1つ以上の訓練済み深層学習マルチスケール分類器モデルを含むマルチスケール深層学習フレームワークに適用し、前記マルチスケール深層学習フレームワークを使用して、前記複数のタイル画像の各々の組織分類を決定することと、
前記1つ以上のプロセッサを使用し、訓練済み細胞セグメンテーションモデルを使用して前記デジタル画像内の細胞を識別することと、
各タイル画像に対して決定された前記組織分類から、かつ前記デジタル画像内の識別された前記細胞から、前記デジタル画像に関連付けられた1つ以上のバイオマーカーの予測される存在を識別することと、を含む、方法。
【請求項2】
前記デジタル画像に対して前記画像タイリングプロセスを実行することが、前記デジタル画像にタイリングマスクを適用して、前記デジタル画像を前記複数のタイル画像に分離することを含む、請求項1に記載の方法。
【請求項3】
前記タイリングマスクが、同じサイズのタイルを含む、請求項2に記載の方法。
【請求項4】
前記タイリングマスクが、異なるサイズのタイルを含む、請求項2に記載の方法。
【請求項5】
前記タイリングマスクが、長方形の形状を有するタイルを含む、請求項2に記載の方法。
【請求項6】
前記タイリングマスクが、ピクセルまたはピクセルのグループのトポロジーおよび/または形態によって特徴付けられるタイルを含む、請求項2に記載の方法。
【請求項7】
前記デジタル画像を受信することが、前記1つ以上のプロセッサを使用して、
第1の画像解像度で前記デジタル画像を取得することと、
前記デジタル画像を第2の画像解像度にダウンサンプリングすることと、
前記デジタル画像のピクセルに対して輝度の正規化を実行することと、
前記デジタル画像から非組織オブジェクトを削除することと、を含む、請求項1に記載の方法。
【請求項8】
前記1つ以上の訓練済み深層学習マルチスケール分類器モデルを、
前記マルチスケール深層学習フレームワークで、訓練画像データセットから複数のH&Eスライド訓練画像を受信することであって、各H&Eスライド訓練画像が、訓練対象のバイオマーカーに対応するラベルを有する、受信することと、
前記H&Eスライド訓練画像の各々に対してタイルベースの組織分類分析を実行することと、
前記H&Eスライド訓練画像の各々に対してピクセルベースの細胞セグメンテーション分析を実行することと、
所望により、前記H&Eスライド訓練画像の各々に対してタイルベースのバイオマーカー分類分析を実行することと、
それに応じて、前記1つ以上の訓練済み深層学習マルチスケール分類器モデルを生成することと、によって訓練することをさらに含む、請求項1に記載の方法。
【請求項9】
各H&Eスライド訓練画像は、それぞれがタイルレベルのラベルを有する複数のタイル画像を含む、請求項8に記載の方法。
【請求項10】
各H&Eスライド訓練画像について、前記H&Eスライド訓練画像の複数のタイル画像の各々にタイルレベルのラベルを付すことをさらに含む、請求項8に記載の方法。
【請求項11】
各H&Eスライド訓練画像について、前記H&Eスライド訓練画像内の各タイル画像のクラスステータスを推論するタイル選択プロセスを実行することと、
推論されたクラスステータスに基づいて、前記H&Eスライド訓練画像の各々に対して前記タイルベースの組織分類分析を実行する前に、目的のクラスに対応しないタイル画像を破棄し、それにより、前記タイルベースの組織分類分析が、前記H&Eスライド訓練画像の選択されたタイル画像に対してのみ実行されることと、をさらに含む、請求項8に記載の方法。
【請求項12】
前記1つ以上の訓練済み深層学習マルチスケール分類器モデルを、
複数の訓練組織サンプルの分子訓練データセットを受信することであって、前記分子訓練データセットが、各訓練組織サンプルに関連付けられた、実質的に類似したサンプルのシーケンシングからのRNAトランスクリプトームカウントを含む、受信することと、
前記分子訓練データセットに対してクラスタリングプロセスを実行して、それぞれが異なるバイオマーカーに対応する1つ以上の分子データサブセットを識別することと、
前記1つ以上の分子データサブセットの各々について、1つ以上のプロセッサを有する画像ベースのバイオマーカー予測システムに対する前記それぞれのバイオマーカーに対応する訓練組織サンプルのH&E染色訓練スライドの複数のデジタル画像を識別することと、
前記H&Eスライド訓練画像の各々に対してタイルベースの組織分類分析を実行することと、
前記H&Eスライド訓練画像の各々に対してピクセルベースの細胞セグメンテーション分析を実行することと、
所望により、前記H&Eスライド訓練画像の各々に対してタイルベースのバイオマーカー分類分析を実行することと、
それに応じて、前記1つ以上の訓練済み深層学習マルチスケール分類器モデルを生成することと、によって訓練することをさらに含む、請求項1に記載の方法。
【請求項13】
前記1つ以上の訓練済み深層学習マルチスケール分類器モデルのうちの1つが、それぞれ、タイル解像度の完全畳み込みネットワーク(FCN)分類モデルとして構成されている、請求項1に記載の方法。
【請求項14】
前記訓練済み深層学習マルチスケール分類器モデルが、それぞれ、腫瘍、間質、正常、リンパ球、脂肪、筋肉、血管、免疫クラスター、壊死、過形成/異形成、および赤血球からなる群から選択される分類に対応するものとして組織を分類するように訓練されている、請求項1に記載の方法。
【請求項15】
前記訓練済み細胞セグメンテーションモデルを使用して前記デジタル画像タイル内の細胞を識別することが、
前記1つ以上のプロセッサを使用して、前記複数のタイル画像の各々を前記細胞セグメンテーションモデルに適用し、各タイルについて、前記タイル画像内の1つ以上のピクセルに細胞分類を割り当てることを含む、請求項1に記載の方法。
【請求項16】
前記タイル画像内の1つ以上のピクセルに前記細胞分類を割り当てることが、
前記1つ以上のプロセッサを使用して、前記1つ以上のピクセルを細胞内部、細胞境界、または細胞外部として識別し、前記1つ以上のピクセルを前記細胞内部、前記細胞境界、または前記細胞外部として分類することを含む、請求項15に記載の方法。
【請求項17】
前記訓練済み細胞セグメンテーションモデルが、細胞内部、細胞境界、および細胞外部を分類するように訓練されたピクセル解像度の三次元UNet分類モデルである、請求項1に記載の方法。
【請求項18】
前記訓練済み細胞セグメンテーションモデルを使用して前記デジタル画像タイル内の細胞を識別することが、
前記1つ以上のプロセッサを使用して、前記複数のタイル画像の各々を前記細胞セグメンテーションモデルに適用することと、
前記1つ以上のプロセッサを使用して、各細胞の細胞境界を決定し、各細胞の重心を決定し、重心の座標を前記デジタル画像のユニバーサル座標空間にシフトすることによって、前記タイル画像の各々のセグメント化された細胞の位置合わせを実行することと、を含む、請求項1に記載の方法。
【請求項19】
前記訓練済み細胞セグメンテーションモデルが、細胞境界、細胞内部、および細胞外部を識別する注釈付きのH&Eスライド訓練画像のセットを使用して訓練されている、請求項1に記載の方法。
【請求項20】
前記デジタル画像が、ラベル付けされていないデジタル画像またはスライドレベルのラベル付けされた画像である、請求項1に記載の方法。
【請求項21】
前記デジタル画像が、タイルレベルのラベル付けされた画像である、請求項1に記載の方法。
【請求項22】
前記1つ以上のバイオマーカーが、腫瘍浸潤リンパ球(TIL)、核対細胞質(NC)比、倍数性、印環形態、およびプログラム死リガンド1(PD-L1)からなる群から選択される、請求項1に記載の方法。
【請求項23】
前記1つ以上のバイオマーカーが、TILであり、前記方法が、
前記1つ以上のプロセッサを使用して、前記細胞セグメンテーションモデルを使用して識別された前記細胞境界を、訓練済みリンパ球セグメンテーションモデルを使用して識別された前記リンパ球と統合し、前記1つ以上のプロセッサを使用して、各細胞のネスト化された分類を生成することによって、前記1つ以上のプロセッサを使用し、前記リンパ球セグメンテーションモデルを使用して、前記デジタル画像内のリンパ球細胞を識別することをさらに含む、請求項1に記載の方法。
【請求項24】
前記1つ以上のバイオマーカーが、TILであり、前記方法が、
前記1つ以上のプロセッサを使用して、複数のタイル画像の各々を訓練済みリンパ球セグメンテーションモデルに適用し、タイル画像ごとに、リンパ球分類を前記タイル画像内の1つ以上のピクセルに割り当てることによって、訓練済みリンパ球セグメンテーションモデルを使用して、前記デジタル画像内のリンパ球細胞を識別することをさらに含む、請求項1に記載の方法。
【請求項25】
前記1つ以上のバイオマーカーが、TILであり、前記方法が、前記1つ以上のプロセッサを使用し、訓練済みリンパ球セグメンテーションモデルを使用して前記デジタル画像内のリンパ球細胞を識別することをさらに含み、前記リンパ球セグメンテーションモデルが、細胞境界内のリンパ球細胞分類と細胞境界内の非リンパ球細胞分類とを識別するように訓練されたピクセル解像度の二次元UNet分類モデルである、請求項1に記載の方法。
【請求項26】
前記1つ以上のプロセッサが、1つ以上のグラフィックス処理ユニット(GPU)、テンソル処理ユニット(TPU)、および/または中央処理ユニット(CPU)である、請求項1に記載の方法。
【請求項27】
前記画像ベースのバイオマーカー予測システムが、通信ネットワークを介して病理スライドスキャナシステムに通信可能に結合され、それにより、前記画像ベースのバイオマーカー予測システムが、前記通信ネットワークを介して前記病理スライドスキャナシステムから前記デジタル画像を受信する、請求項1に記載の方法。
【請求項28】
前記画像ベースのバイオマーカー予測システムが、病理スライドスキャナシステム内に含まれている、請求項1に記載の方法。
【請求項29】
前記画像ベースのバイオマーカー予測システムの前記1つ以上のプロセッサのうちの少なくとも1つが、病理スライドスキャナシステム内に含まれている、請求項1に記載の方法。
【請求項30】
標的組織のヘマトキシリンおよびエオシン(H&E)染色スライドのデジタル画像内のバイオマーカーを識別するコンピュータ実装方法であって、前記方法が、
複数の訓練組織サンプルの分子訓練データセットを受信することであって、前記分子訓練データセットが、各訓練組織サンプルに関連付けられた、実質的に類似したサンプルのシーケンシングからのRNAトランスクリプトームカウントを含む、受信することと、
前記分子訓練データセットに対してクラスタリングプロセスを実行して、それぞれが異なるバイオマーカーに対応する1つ以上の分子データサブセットを識別することと、
前記1つ以上の分子データサブセットの各々について、1つ以上のプロセッサを有する画像ベースのバイオマーカー予測システムに対する前記それぞれのバイオマーカーに対応する訓練組織サンプルのH&E染色訓練スライドの複数のデジタル画像を受信することと、
前記1つ以上のプロセッサを使用して、前記1つ以上の分子データサブセットの各々について、前記H&E染色訓練スライドの前記複数のデジタル画像に基づいて、訓練済みの画像ベースのバイオマーカー分類器モデルを生成することと、
前記1つ以上のプロセッサを使用して、後続の組織サンプルのH&E染色スライドの後続のデジタル画像を受信することと、
前記1つ以上のプロセッサを使用して、前記後続のデジタル画像を前記訓練済みの画像ベースのバイオマーカー分類モデルに適用し、前記後続の組織サンプルの1つ以上のバイオマーカーの予測される存在を識別することと、を含む、方法。
【請求項31】
前記1つ以上の分子データサブセットの各々について前記訓練済みの画像ベースのバイオマーカー分類器モデルを生成することが、シングルスケール深層学習フレームワークを使用して、前記H&E染色訓練スライドの前記複数のデジタル画像に対してマルチインスタンス学習プロセスを実行することを含む、請求項30に記載の方法。
【請求項32】
前記シングルスケール深層学習フレームワークが、ResNet構成またはInception-v3構成を有する畳み込みニューラルネットワークである、請求項31に記載の方法。
【請求項33】
訓練組織サンプルのH&E染色訓練スライドの前記複数のデジタル画像の各々が、スライドレベルのラベルを有する、請求項30に記載の方法。
【請求項34】
訓練組織サンプルのH&E染色訓練スライドの前記複数のデジタル画像の各々が、ラベル付けされていない、請求項30に記載の方法。
【請求項35】
H&E染色訓練スライドの前記複数のデジタル画像の各々について、複数のタイル画像を生成し、各タイル画像のクラスステータスを推論するタイル選択プロセスに前記複数のタイル画像を適用することと、
推論されたクラスステータスに基づいて、目的のクラスに対応していないタイル画像を破棄することと、
破棄されていないタイル画像に基づいて、各訓練済みの画像ベースのバイオマーカー分類モデルを生成することと、をさらに含む、請求項30に記載の方法。
【請求項36】
前記1つ以上のバイオマーカーが、コンセンサス分子サブタイプ(CMS)および相同組換え欠損症(「HRD」)からなる群から選択される、請求項30に記載の方法。
【請求項37】
前記1つ以上のプロセッサが、1つ以上のグラフィックス処理ユニット(GPU)、テンソル処理ユニット(TPU)、および/または中央処理ユニット(CPU)である、請求項30に記載の方法。
【請求項38】
前記画像ベースのバイオマーカー予測システムが、通信ネットワークを介して病理スライドスキャナシステムに通信可能に結合され、それにより、前記画像ベースのバイオマーカー予測システムが、前記通信ネットワークを介して前記病理スライドスキャナシステムから前記後続のデジタル画像を受信する、請求項30に記載の方法。
【請求項39】
前記画像ベースのバイオマーカー予測システムが、病理スライドスキャナシステム内に含まれている、請求項30に記載の方法。
【請求項40】
前記画像ベースのバイオマーカー予測システムの前記1つ以上のプロセッサのうちの少なくとも1つが、病理スライドスキャナシステム内に含まれている、請求項30に記載の方法。
【請求項41】
標的組織のヘマトキシリンおよびエオシン(H&E)染色スライドのデジタル画像内のバイオマーカーを識別するコンピュータ実装方法であって、前記方法が、
1つ以上のプロセッサを有する画像ベースのバイオマーカー予測システムに前記デジタル画像を受信することと、
前記1つ以上のプロセッサを使用して、前記デジタル画像を複数のタイル画像に分離することであって、前記複数のタイル画像の各々が、前記デジタル画像の異なる部分を含む、分離することと、
前記1つ以上のプロセッサを使用して、前記複数のタイル画像を、各々が異なるバイオマーカーを分類するように訓練された1つ以上の訓練済みバイオマーカー分類モデルを含む深層学習フレームワークに適用することと、
前記1つ以上のプロセッサを使用して、前記1つ以上の訓練済みバイオマーカー分類モデルを使用して前記複数のタイル画像の各々のバイオマーカー分類を予測することと、
前記タイル画像の各々の前記予測されたバイオマーカー分類から、前記標的組織における1つ以上のバイオマーカーの予測される存在を判定することと、
前記デジタル画像と、前記1つ以上のバイオマーカーの前記予測される存在を可視化するデジタルオーバーレイと、を含むレポートを生成することと、を含む、方法。
【請求項42】
前記深層学習フレームワークが、マルチスケール深層学習フレームワークを含む、請求項41に記載の方法。
【請求項43】
前記デジタル画像を複数のタイル画像に分離することが、
前記1つ以上のプロセッサを使用して、前記デジタル画像にタイリングマスクを適用して前記デジタル画像を前記複数のタイル画像に分離することにより、画像タイリングプロセスを実行することを含む、請求項42に記載の方法。
【請求項44】
前記タイリングマスクが、同じサイズのタイルを含む、請求項43に記載の方法。
【請求項45】
前記タイリングマスクが、長方形の形状を有するタイルを含む、請求項44に記載の方法。
【請求項46】
前記複数のタイル画像を前記深層学習フレームワークに適用すること、および前記複数のタイル画像の各々の前記バイオマーカー分類を予測することの各々が、
前記タイル画像の各々を各々が各タイル画像に対して異なる組織分類を分類するように訓練された1つ以上の訓練済み深層学習マルチスケール分類器モデルに適用し、前記マルチスケール深層学習フレームワークを使用して、前記複数のタイル画像の各々の組織分類を決定することと、
前記1つ以上のプロセッサを使用し、訓練済み細胞セグメンテーションモデルを使用して前記デジタル画像内の細胞を識別することと、
各タイル画像に対して決定された前記組織分類から、かつ前記デジタル画像内の識別された前記細胞から、各タイル画像の前記バイオマーカー分類を予測することと、を含む、請求項42に記載の方法。
【請求項47】
前記1つ以上の訓練済み深層学習マルチスケール分類器モデルを、
前記マルチスケール深層学習フレームワークで、訓練画像データセットから複数のH&Eスライド訓練画像を受信することであって、各H&Eスライド訓練画像が、訓練対象のバイオマーカーに対応するラベルを有する、受信することと、
前記H&Eスライド訓練画像の各々に対してタイルベースの組織分類分析を実行することと、
前記H&Eスライド訓練画像の各々に対してピクセルベースの細胞セグメンテーション分析を実行することと、
所望により、前記H&Eスライド訓練画像の各々に対してタイルベースのバイオマーカー分類分析を実行することと、
それに応じて、前記1つ以上の訓練済み深層学習マルチスケール分類器モデルを生成することと、によって訓練することをさらに含む、請求項46に記載の方法。
【請求項48】
各H&Eスライド訓練画像は、それぞれがタイルレベルのラベルを有する複数のタイル画像を含む、請求項47に記載の方法。
【請求項49】
各H&Eスライド訓練画像について、前記H&Eスライド訓練画像の複数のタイル画像の各々にタイルレベルのラベルを付すことをさらに含む、請求項47に記載の方法。
【請求項50】
各H&Eスライド訓練画像について、前記H&Eスライド訓練画像内の各タイル画像のクラスステータスを推論するタイル選択プロセスを実行することと、
推論されたクラスステータスに基づいて、前記H&Eスライド訓練画像の各々に対して前記タイルベースの組織分類分析を実行する前に、目的のクラスに対応しないタイル画像を破棄し、それにより、前記タイルベースの組織分類分析が、前記H&Eスライド訓練画像の選択されたタイル画像に対してのみ実行されることと、をさらに含む、請求項47に記載の方法。
【請求項51】
前記1つ以上の訓練済み深層学習マルチスケール分類器モデルのうちの1つが、それぞれ、タイル解像度の完全畳み込みネットワーク(FCN)分類モデルとして構成されている、請求項46に記載の方法。
【請求項52】
前記訓練済み細胞セグメンテーションモデルを使用して前記デジタル画像タイル内の細胞を識別することが、
前記1つ以上のプロセッサを使用して、前記複数のタイル画像の各々を前記細胞セグメンテーションモデルに適用し、各タイルについて、前記タイル画像内の1つ以上のピクセルに細胞分類を割り当てることを含む、請求項46に記載の方法。
【請求項53】
前記タイル画像内の1つ以上のピクセルに前記細胞分類を割り当てることが、
前記1つ以上のプロセッサを使用して、前記1つ以上のピクセルを細胞内部、細胞境界、または細胞外部として識別し、前記1つ以上のピクセルを前記細胞内部、前記細胞境界、または前記細胞外部として分類することを含む、請求項52に記載の方法。
【請求項54】
前記訓練済み細胞セグメンテーションモデルが、細胞内部、細胞境界、および細胞外部を分類するように訓練されたピクセル解像度の三次元UNet分類モデルである、請求項46に記載の方法。
【請求項55】
前記1つ以上のバイオマーカーが、腫瘍浸潤リンパ球(TIL)、核対細胞質(NC)比、倍数性、印環形態、およびプログラム死リガンド1(PD-L1)からなる群から選択される、請求項41に記載の方法。
【請求項56】
前記深層学習フレームワークが、シングルスケール深層学習フレームワークを含む、請求項41に記載の方法。
【請求項57】
前記デジタル画像を複数のタイル画像に分離することが、
前記1つ以上のプロセッサを使用して、前記デジタル画像を前記複数のタイル画像に分離する訓練済みマルチインスタンス学習コントローラに前記デジタル画像を適用することにより、画像タイリングプロセスを実行することを含む、請求項56に記載の方法。
【請求項58】
前記H&Eスライド訓練画像内の各タイル画像のクラスステータスを推論するタイル選択プロセスに各タイル画像を提供することと、
推論されたクラスステータスに基づいて、前記残りの複数のタイル画像を前記深層学習フレームワークに適用する前に、タイル選択基準に基づいてタイル画像を選択的に破棄することと、をさらに含む、請求項57に記載の方法。
【請求項59】
前記H&Eスライド訓練画像内の各タイル画像のクラスステータスを推論するタイル選択プロセスに各タイル画像を提供することと、
推論されたクラスステータスに基づいて、前記残りの複数のタイル画像を前記深層学習フレームワークに適用する前に、タイル画像をランダムに破棄することと、をさらに含む、請求項57に記載の方法。
【請求項60】
複数の訓練組織サンプルの分子訓練データセットを受信することであって、前記分子訓練データセットが、各訓練組織サンプルに関連付けられた、実質的に類似したサンプルのシーケンシングからのRNAトランスクリプトームカウントを含む、受信することと、
前記分子訓練データセットに対してクラスタリングプロセスを実行して、それぞれが異なるバイオマーカーに対応する1つ以上の分子データサブセットを識別することと、
前記1つ以上の分子データサブセットの各々について、1つ以上のプロセッサを有する画像ベースのバイオマーカー予測システムに対する前記それぞれのバイオマーカーに対応する訓練組織サンプルのH&E染色訓練スライドの複数のデジタル画像を受信することと、
前記1つ以上のプロセッサを使用して、前記1つ以上の分子データサブセットの各々について、前記H&E染色訓練スライドの前記複数のデジタル画像に基づいて、前記訓練済みバイオマーカー分類モデルのうちの1つを生成することと、をさらに含む、請求項56に記載の方法。
【請求項61】
前記1つ以上の分子データサブセットの各々について、前記訓練済みバイオマーカー分類モデルのうちの1つを生成することが、前記H&E染色訓練スライドの前記複数のデジタル画像に対してマルチインスタンス学習プロセスを実行することを含む、請求項60に記載の方法。
【請求項62】
訓練組織サンプルのH&E染色訓練スライドの前記複数のデジタル画像の各々が、スライドレベルのラベルを有する、請求項60に記載の方法。
【請求項63】
訓練組織サンプルのH&E染色訓練スライドの前記複数のデジタル画像の各々が、ラベル付けされていない、請求項60に記載の方法。
【請求項64】
前記シングルスケール深層学習フレームワークが、ResNet構成またはInception-v3構成を有する畳み込みニューラルネットワークである、請求項56に記載の方法。
【請求項65】
前記1つ以上のバイオマーカーが、コンセンサス分子サブタイプ(CMS)および相同組換え欠損症(「HRD」)からなる群から選択される、請求項56に記載の方法。
【請求項66】
前記1つ以上のプロセッサが、1つ以上のグラフィックス処理ユニット(GPU)、テンソル処理ユニット(TPU)、および/または中央処理ユニット(CPU)である、請求項41に記載の方法。
【請求項67】
前記画像ベースのバイオマーカー予測システムが、通信ネットワークを介して病理スライドスキャナシステムに通信可能に結合され、それにより、前記画像ベースのバイオマーカー予測システムが、前記通信ネットワークを介して前記病理スライドスキャナシステムから前記デジタル画像を受信する、請求項41に記載の方法。
【請求項68】
前記画像ベースのバイオマーカー予測システムが、病理スライドスキャナシステム内に含まれている、請求項41に記載の方法。
【請求項69】
前記病理スライドスキャナシステムが、画像ベースの、敵対的に訓練された、かつ/またはマイクロサテライト不安定性(MSI)の予測モデルを含む、請求項68に記載の方法。
【請求項70】
前記デジタル画像および前記デジタルオーバーレイを含む前記レポートを生成することが、前記デジタル画像の腫瘍含有量または前記デジタル画像の腫瘍パーセンテージを識別するオーバーレイ要素を含むように前記デジタルオーバーレイを生成することを含む、請求項41に記載の方法。
【請求項71】
標的組織のヘマトキシリンおよびエオシン(H&E)染色スライドのデジタル画像内のバイオマーカーを識別するように構成されたコンピューティングデバイスであって、前記コンピューティングデバイスが、
1つ以上のメモリと、
1つ以上のプロセッサであって、
前記デジタル画像を受信することと、
前記デジタル画像を複数のタイル画像に分離することにより、前記デジタル画像に対して画像タイリングプロセスを実行することであって、前記複数のタイル画像の各々が、前記デジタル画像の異なる部分を含む、実行することと、
前記複数のタイル画像を、各々が各タイル画像に対して異なる組織分類を分類するように訓練された1つ以上の訓練済み深層学習マルチスケール分類器モデルを含むマルチスケール深層学習フレームワークに適用し、前記マルチスケール深層学習フレームワークを使用して、前記複数のタイル画像の各々の組織分類を決定することと、
訓練済み細胞セグメンテーションモデルを使用して前記デジタル画像内の細胞を識別することと、
各タイル画像に対して決定された前記組織分類から、かつ前記デジタル画像内の識別された前記細胞から、前記デジタル画像に関連付けられた1つ以上のバイオマーカーの予測される存在を識別することと、を行うように構成された1つ以上のプロセッサと、を含む、コンピューティングデバイス。
【請求項72】
前記1つ以上のプロセッサが、
前記デジタル画像にタイリングマスクを適用して、前記デジタル画像を前記複数のタイル画像に分離することにより、前記デジタル画像に対して前記画像タイリングプロセスを実行するように構成されている、請求項71に記載のコンピューティングデバイス。
【請求項73】
前記1つ以上のプロセッサが、
訓練画像データセットから複数のH&Eスライド訓練画像を受信することであって、各H&Eスライド訓練画像が、訓練対象のバイオマーカーに対応するラベルを有する、受信することと、
前記H&Eスライド訓練画像の各々に対してタイルベースの組織分類分析を実行することと、
前記H&Eスライド訓練画像の各々に対してピクセルベースの細胞セグメンテーション分析を実行することと、
所望により、前記H&Eスライド訓練画像の各々に対してタイルベースのバイオマーカー分類分析を実行することと、
それに応じて、前記1つ以上の訓練済み深層学習マルチスケール分類器モデルを生成することと、を行うようにさらに構成されている、請求項71に記載のコンピューティングデバイス。
【請求項74】
各H&Eスライド訓練画像は、それぞれがタイルレベルのラベルを有する複数のタイル画像を含む、請求項73に記載のコンピューティングデバイス。
【請求項75】
前記1つ以上のプロセッサが、
各H&Eスライド訓練画像について、前記H&Eスライド訓練画像内の各タイル画像のクラスステータスを推論するタイル選択プロセスを実行することと、
推論されたクラスステータスに基づいて、前記H&Eスライド訓練画像の各々に対して前記タイルベースの組織分類分析を実行する前に、目的のクラスに対応しないタイル画像を破棄し、それにより、前記タイルベースの組織分類分析が、前記H&Eスライド訓練画像の選択されたタイル画像に対してのみ実行されることと、を行うようにさらに構成されている、請求項73に記載のコンピューティングデバイス。
【請求項76】
前記1つ以上のプロセッサが、
複数の訓練組織サンプルの分子訓練データセットを受信することであって、前記分子訓練データセットが、各訓練組織サンプルに関連付けられた、実質的に類似したサンプルのシーケンシングからのRNAトランスクリプトームカウントを含む、受信することと、
前記分子訓練データセットに対してクラスタリングプロセスを実行して、それぞれが異なるバイオマーカーに対応する1つ以上の分子データサブセットを識別することと、
前記1つ以上の分子データサブセットの各々について、1つ以上のプロセッサを有する画像ベースのバイオマーカー予測システムに対する前記それぞれのバイオマーカーに対応する訓練組織サンプルのH&E染色訓練スライドの複数のデジタル画像を識別することと、
前記H&Eスライド訓練画像の各々に対してタイルベースの組織分類分析を実行することと、
前記H&Eスライド訓練画像の各々に対してピクセルベースの細胞セグメンテーション分析を実行することと、
所望により、前記H&Eスライド訓練画像の各々に対してタイルベースのバイオマーカー分類分析を実行することと、
それに応じて、前記1つ以上の訓練済み深層学習マルチスケール分類器モデルを生成することと、によって、前記1つ以上の訓練済み深層学習マルチスケール分類器モデルを訓練するようにさらに構成されている、請求項71に記載のコンピューティングデバイス。
【請求項77】
前記1つ以上のバイオマーカーが、腫瘍浸潤リンパ球(TIL)、核対細胞質(NC)比、倍数性、印環形態、およびプログラム死リガンド1(PD-L1)からなる群から選択される、請求項71に記載のコンピューティングデバイス。
【請求項78】
前記1つ以上のバイオマーカーが、TILであり、前記1つ以上のプロセッサが、
前記細胞セグメンテーションモデルを使用して識別された前記細胞境界を、訓練済みリンパ球セグメンテーションモデルを使用して識別された前記リンパ球と統合し、各細胞のネスト化された分類を生成することによって、前記リンパ球セグメンテーションモデルを使用して、前記デジタル画像内のリンパ球細胞を識別するようにさらに構成されている、請求項71に記載のコンピューティングデバイス。
【請求項79】
前記1つ以上のバイオマーカーが、TILであり、前記1つ以上のプロセッサが、
複数のタイル画像の各々を訓練済みリンパ球セグメンテーションモデルに適用し、タイル画像ごとに、リンパ球分類を前記タイル画像内の1つ以上のピクセルに割り当てることによって、訓練済みリンパ球セグメンテーションモデルを使用して、前記デジタル画像内のリンパ球細胞を識別するようにさらに構成されている、請求項71に記載のコンピューティングデバイス。
【請求項80】
前記1つ以上のバイオマーカーが、TILであり、前記1つ以上のプロセッサが、
前記1つ以上のプロセッサを使用し、訓練済みリンパ球セグメンテーションモデルを使用して前記デジタル画像内のリンパ球細胞を識別するようにさらに構成され、前記リンパ球セグメンテーションモデルが、細胞境界内のリンパ球細胞分類と細胞境界内の非リンパ球細胞分類とを識別するように訓練されたピクセル解像度の二次元UNet分類モデルである、請求項71に記載のコンピューティングデバイス。
【請求項81】
前記1つ以上のプロセッサが、1つ以上のグラフィックス処理ユニット(GPU)、テンソル処理ユニット(TPU)、および/または中央処理ユニット(CPU)である、請求項71に記載のコンピューティングデバイス。
【請求項82】
前記コンピューティングデバイスが、通信ネットワークを介して病理スライドスキャナシステムに通信可能に結合され、それにより、前記コンピューティングデバイスが、前記通信ネットワークを介して前記病理スライドスキャナシステムから前記デジタル画像を受信する、請求項71に記載のコンピューティングデバイス。
【請求項83】
前記コンピューティングデバイスが、病理スライドスキャナシステム内に含まれている、請求項71に記載のコンピューティングデバイス。
【請求項84】
前記コンピューティングデバイスの前記1つ以上のプロセッサのうちの少なくとも1つが、病理スライドスキャナシステム内に含まれている、請求項71に記載のコンピューティングデバイス。
【請求項85】
標的組織のヘマトキシリンおよびエオシン(H&E)染色スライドのデジタル画像内のバイオマーカーを識別するように構成されたコンピューティングデバイスであって、前記コンピューティングデバイスが、
1つ以上のメモリと、
1つ以上のプロセッサであって、
複数の訓練組織サンプルの分子訓練データセットを受信することであって、前記分子訓練データセットが、各訓練組織サンプルに関連付けられた、実質的に類似したサンプルのシーケンシングからのRNAトランスクリプトームカウントを含む、受信することと、
前記分子訓練データセットに対してクラスタリングプロセスを実行して、それぞれが異なるバイオマーカーに対応する1つ以上の分子データサブセットを識別することと、
前記1つ以上の分子データサブセットの各々について、1つ以上のプロセッサを有する画像ベースのバイオマーカー予測システムに対する前記それぞれのバイオマーカーに対応する訓練組織サンプルのH&E染色訓練スライドの複数のデジタル画像を受信することと、
前記1つ以上の分子データサブセットの各々について、前記H&E染色訓練スライドの前記複数のデジタル画像に基づいて、訓練済みの画像ベースのバイオマーカー分類器モデルを生成することと、
後続の組織サンプルのH&E染色スライドの後続のデジタル画像を受信することと、
前記後続のデジタル画像を前記訓練済みの画像ベースのバイオマーカー分類モデルに適用し、前記後続の組織サンプルの1つ以上のバイオマーカーの予測される存在を識別することと、を行うように構成された1つ以上のプロセッサと、を含む、コンピューティングデバイス。
【請求項86】
前記1つ以上のプロセッサが、シングルスケール深層学習フレームワークを使用して、前記H&E染色訓練スライドの前記複数のデジタル画像に対してマルチインスタンス学習プロセスを実行することにより、前記1つ以上の分子データサブセットの各々について前記訓練済みの画像ベースのバイオマーカー分類器モデルを生成するように構成されている、請求項85に記載のコンピューティングデバイス。
【請求項87】
前記シングルスケール深層学習フレームワークが、ResNet構成またはInception-v3構成を有する畳み込みニューラルネットワークである、請求項86に記載のコンピューティングデバイス。
【請求項88】
訓練組織サンプルのH&E染色訓練スライドの前記複数のデジタル画像の各々が、スライドレベルのラベルを有する、請求項85に記載のコンピューティングデバイス。
【請求項89】
訓練組織サンプルのH&E染色訓練スライドの前記複数のデジタル画像の各々が、ラベル付けされていない、請求項85に記載のコンピューティングデバイス。
【請求項90】
前記1つ以上のプロセッサが、
H&E染色訓練スライドの前記複数のデジタル画像の各々について、複数のタイル画像を生成し、各タイル画像のクラスステータスを推論するタイル選択プロセスに前記複数のタイル画像を適用することと、
推論されたクラスステータスに基づいて、目的のクラスに対応していないタイル画像を破棄することと、
破棄されていないタイル画像に基づいて、各訓練済みの画像ベースのバイオマーカー分類モデルを生成することと、を行うように構成されている、請求項85に記載のコンピューティングデバイス。
【請求項91】
前記1つ以上のバイオマーカーが、コンセンサス分子サブタイプ(CMS)および相同組換え欠損症(「HRD」)からなる群から選択される、請求項85に記載のコンピューティングデバイス。
【請求項92】
前記1つ以上のプロセッサが、1つ以上のグラフィックス処理ユニット(GPU)、テンソル処理ユニット(TPU)、および/または中央処理ユニット(CPU)である、請求項85に記載のコンピューティングデバイス。
【請求項93】
前記コンピューティングデバイスが、通信ネットワークを介して病理スライドスキャナシステムに通信可能に結合され、それにより、前記コンピューティングデバイスが、前記通信ネットワークを介して前記病理スライドスキャナシステムから前記デジタル画像を受信する、請求項85に記載のコンピューティングデバイス。
【請求項94】
前記コンピューティングデバイスが、病理スライドスキャナシステム内に含まれている、請求項85に記載のコンピューティングデバイス。
【請求項95】
前記コンピューティングデバイスの前記1つ以上のプロセッサのうちの少なくとも1つが、病理スライドスキャナシステム内に含まれている、請求項85に記載のコンピューティングデバイス。
【請求項96】
標的組織のヘマトキシリンおよびエオシン(H&E)染色スライドのデジタル画像内のバイオマーカーを識別するように構成されたコンピューティングデバイスであって、前記コンピューティングデバイスが、
1つ以上のメモリと、
1つ以上のプロセッサであって、
1つ以上のプロセッサを有する画像ベースのバイオマーカー予測システムに前記デジタル画像を受信することと、
前記デジタル画像を複数のタイル画像に分離することであって、前記複数のタイル画像の各々が、前記デジタル画像の異なる部分を含む、分離することと、
前記複数のタイル画像を、各々が異なるバイオマーカーを分類するように訓練された1つ以上の訓練済みバイオマーカー分類モデルを含む深層学習フレームワークに適用することと、
前記1つ以上の訓練済みバイオマーカー分類モデルを使用して前記複数のタイル画像の各々のバイオマーカー分類を予測することと、
前記タイル画像の各々の前記予測されたバイオマーカー分類から、前記標的組織における1つ以上のバイオマーカーの予測される存在を判定することと、
前記デジタル画像と、前記1つ以上のバイオマーカーの前記予測される存在を可視化するデジタルオーバーレイと、を含むレポートを生成することと、を行うように構成された1つ以上のプロセッサと、を含む、コンピューティングデバイス。
【請求項97】
前記深層学習フレームワークが、マルチスケール深層学習フレームワークを含む、請求項96に記載のコンピューティングデバイス。
【請求項98】
前記1つ以上のプロセッサが、
前記1つ以上のプロセッサを使用して、前記デジタル画像にタイリングマスクを適用して前記デジタル画像を前記複数のタイル画像に分離することにより、画像タイリングプロセスを実行することによって、前記デジタル画像を複数のタイル画像に分離するように構成されている、請求項97に記載のコンピューティングデバイス。
【請求項99】
前記タイリングマスクが、同じサイズのタイルを含む、請求項97に記載のコンピューティングデバイス。
【請求項100】
前記タイリングマスクが、長方形の形状を有するタイルを含む、請求項97に記載のコンピューティングデバイス。
【請求項101】
前記1つ以上のプロセッサが、
前記タイル画像の各々を各々が各タイル画像に対して異なる組織分類を分類するように訓練された1つ以上の訓練済み深層学習マルチスケール分類器モデルに適用し、前記マルチスケール深層学習フレームワークを使用して、前記複数のタイル画像の各々の組織分類を決定することと、
前記1つ以上のプロセッサを使用し、訓練済み細胞セグメンテーションモデルを使用して前記デジタル画像内の細胞を識別することと、
各タイル画像に対して決定された前記組織分類から、かつ前記デジタル画像内の識別された前記細胞から、各タイル画像の前記バイオマーカー分類を予測することと、を行うように構成されている、請求項97に記載のコンピューティングデバイス。
【請求項102】
前記1つ以上のプロセッサが、
前記マルチスケール深層学習フレームワークで、訓練画像データセットから複数のH&Eスライド訓練画像を受信することであって、各H&Eスライド訓練画像が、訓練対象のバイオマーカーに対応するラベルを有する、受信することと、
前記H&Eスライド訓練画像の各々に対してタイルベースの組織分類分析を実行することと、
前記H&Eスライド訓練画像の各々に対してピクセルベースの細胞セグメンテーション分析を実行することと、
所望により、前記H&Eスライド訓練画像の各々に対してタイルベースのバイオマーカー分類分析を実行することと、
それに応じて、前記1つ以上の訓練済み深層学習マルチスケール分類器モデルを生成することと、によって、前記1つ以上の訓練済み深層学習マルチスケール分類器モデルを訓練するようにさらに構成されている、請求項97に記載のコンピューティングデバイス。
【請求項103】
前記1つ以上のプロセッサが、
各H&Eスライド訓練画像について、前記H&Eスライド訓練画像内の各タイル画像のクラスステータスを推論するタイル選択プロセスを実行することと、
推論されたクラスステータスに基づいて、前記H&Eスライド訓練画像の各々に対して前記タイルベースの組織分類分析を実行する前に、目的のクラスに対応しないタイル画像を破棄し、それにより、前記タイルベースの組織分類分析が、前記H&Eスライド訓練画像の選択されたタイル画像に対してのみ実行されることと、を行うようにさらに構成されている、請求項97に記載のコンピューティングデバイス。
【請求項104】
前記1つ以上の訓練済み深層学習マルチスケール分類器モデルのうちの1つが、それぞれ、タイル解像度の完全畳み込みネットワーク(FCN)分類モデルとして構成されている、請求項97に記載のコンピューティングデバイス。
【請求項105】
前記1つ以上のバイオマーカーが、腫瘍浸潤リンパ球(TIL)、核対細胞質(NC)比、倍数性、印環形態、およびプログラム死リガンド1(PD-L1)からなる群から選択される、請求項96に記載のコンピューティングデバイス。
【請求項106】
前記深層学習フレームワークが、シングルスケール深層学習フレームワークを含む、請求項96に記載のコンピューティングデバイス。
【請求項107】
前記1つ以上のプロセッサが、
前記1つ以上のプロセッサを使用して、前記デジタル画像を前記複数のタイル画像に分離する訓練済みマルチインスタンス学習コントローラに前記デジタル画像を適用することにより、画像タイリングプロセスを実行することを含む、請求項106に記載の方法。
【請求項108】
前記1つ以上のプロセッサが、
前記H&Eスライド訓練画像内の各タイル画像のクラスステータスを推論するタイル選択プロセスに各タイル画像を提供することと、
推論されたクラスステータスに基づいて、前記残りの複数のタイル画像を前記深層学習フレームワークに適用する前に、タイル選択基準に基づいてタイル画像を選択的に破棄することと、を行うようにさらに構成されている、請求項106に記載のコンピューティングデバイス。
【請求項109】
前記1つ以上のプロセッサが、
前記H&Eスライド訓練画像内の各タイル画像のクラスステータスを推論するタイル選択プロセスに各タイル画像を提供することと、
推論されたクラスステータスに基づいて、前記残りの複数のタイル画像を前記深層学習フレームワークに適用する前に、タイル画像をランダムに破棄することと、を行うようにさらに構成されている、請求項106に記載のコンピューティングデバイス。
【請求項110】
前記1つ以上のプロセッサが、
複数の訓練組織サンプルの分子訓練データセットを受信することであって、前記分子訓練データセットが、各訓練組織サンプルに関連付けられた、実質的に類似したサンプルのシーケンシングからのRNAトランスクリプトームカウントを含む、受信することと、
前記分子訓練データセットに対してクラスタリングプロセスを実行して、それぞれが異なるバイオマーカーに対応する1つ以上の分子データサブセットを識別することと、
前記1つ以上の分子データサブセットの各々について、1つ以上のプロセッサを有する画像ベースのバイオマーカー予測システムに対する前記それぞれのバイオマーカーに対応する訓練組織サンプルのH&E染色訓練スライドの複数のデジタル画像を受信することと、
前記1つ以上の分子データサブセットの各々について、前記H&E染色訓練スライドの前記複数のデジタル画像に基づいて、前記訓練済みバイオマーカー分類モデルのうちの1つを生成することと、を行うようにさらに構成されている、請求項106に記載のコンピューティングデバイス。
【請求項111】
前記1つ以上のプロセッサが、前記H&E染色訓練スライドの前記複数のデジタル画像に対してマルチインスタンス学習プロセスを実行することにより、前記1つ以上の分子データサブセットの各々について前記訓練済みバイオマーカー分類モデルのうちの1つを生成するように構成されている、請求項106に記載のコンピューティングデバイス。
【請求項112】
前記シングルスケール深層学習フレームワークが、ResNet構成またはInception-v3構成を有する畳み込みニューラルネットワークである、請求項106に記載のコンピューティングデバイス。
【請求項113】
前記1つ以上のバイオマーカーが、コンセンサス分子サブタイプ(CMS)および相同組換え欠損症(「HRD」)からなる群から選択される、請求項96に記載のコンピューティングデバイス。
【請求項114】
前記1つ以上のプロセッサが、1つ以上のグラフィックス処理ユニット(GPU)、テンソル処理ユニット(TPU)、および/または中央処理ユニット(CPU)である、請求項96に記載のコンピューティングデバイス。
【請求項115】
前記コンピューティングデバイスが、通信ネットワークを介して病理スライドスキャナシステムに通信可能に結合され、それにより、前記コンピューティングデバイスが、前記通信ネットワークを介して前記病理スライドスキャナシステムから前記デジタル画像を受信する、請求項96に記載のコンピューティングデバイス。
【請求項116】
前記コンピューティングデバイスが、病理スライドスキャナシステム内に含まれている、請求項96に記載のコンピューティングデバイス。
【請求項117】
前記コンピューティングデバイスの前記1つ以上のプロセッサのうちの少なくとも1つが、病理スライドスキャナシステム内に含まれている、請求項96に記載のコンピューティングデバイス。
【請求項118】
前記1つ以上のプロセッサが、前記デジタル画像の腫瘍含有量または前記デジタル画像の腫瘍パーセンテージを識別するオーバーレイ要素を含むように前記デジタルオーバーレイを生成することによって、前記デジタル画像および前記デジタルオーバーレイを含む前記レポートを生成するように構成されている、請求項96に記載のコンピューティングデバイス。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2018年12月31日に出願された米国特許仮出願第62/787,047号の優先権を主張する2019年12月31日に出願された米国特許出願第16/732,242号の一部継続出願であり、かつ、2018年5月14日に出願された米国特許仮出願第62/671,300号の優先権を主張する2019年5月14日に出願された米国特許出願第16/412,362号の一部継続出願であり、2019年3月26日に出願された米国特許仮出願第62/824,039号、2019年8月20日に出願された米国特許仮出願第62/889,521号、および2020年2月28日に出願された米国特許仮出願第62/983,524号の優先権を主張しており、その各々の開示全体は、参照により本明細書に明示的に組み込まれる。
【0002】
本開示は、癌に関連するバイオマーカーを検出、定量化、および/または特徴付けることに関し、より具体的には、1つ以上の病理組織スライド画像の分析からかかるバイオマーカーを検出、定量化、および/または特徴付けるためにデジタル画像を検査することに関する。
【背景技術】
【0003】
本明細書に提供される背景技術の記載は、本開示の文脈を一般的に提示する目的のためのものである。この背景技術のセクションに記載されている範囲での現在名前が挙げられている発明者らの研究、および別の方法で出願時に従来技術と見なされていない可能性がある記載の態様は、明示的にも黙示的にも本開示に対する従来技術とは認められない。
【0004】
患者の癌の診断、予後および治療評価において医療専門家を導くために、患者から腫瘍サンプルを抽出して検査することが一般的である。目視検査により、癌細胞の近くの健康な細胞との関係で腫瘍内の癌細胞の成長パターン、および腫瘍内の免疫細胞の存在を明らかにすることができる。従来、病理医、病理学チームのメンバー、他の訓練を受けた医療専門家、またはその他の人間の分析者により、ガラス顕微鏡スライドにマウントされた腫瘍組織の薄いスライスを視覚的に分析して、腫瘍サンプルに存在する多くの組織型のうちの1つに対応する組織の各領域が識別されている。この情報は、病理医が患者の癌腫瘍の特徴を判断するのに役立ち、治療の決定に役立つ可能性がある。病理医は、視覚的な近似に基づいて、スライドに1つ以上の数値スコアを割り当てることが多い。
【0005】
これらの視覚的な近似を行うために、医療専門家は、例えば、腫瘍の悪性度、腫瘍の純度、腫瘍の浸潤性の程度、腫瘍への免疫浸潤の程度、癌の病期、および腫瘍の解剖学的起源部位を含む、腫瘍の多くの特徴を識別することを試みており、これらは、転移性腫瘍の診断および治療に重要であり得る。癌に関するこれらの詳細は、医師が患者内の癌の進行を監視し、患者の体から癌細胞を排除するのにどの抗癌治療が成功する可能性が高いかを予測するのに役立ち得る。
【0006】
腫瘍の別の特徴として、腫瘍内または腫瘍の近くに特定のバイオマーカーまたは免疫細胞を含む他の細胞型が存在することがある。例えば、高レベルで存在する腫瘍浸潤リンパ球(TIL)は、広範囲の腫瘍にわたる抗腫瘍免疫応答のバイオマーカーとして認識されている。TILは、腫瘍組織または間質に浸潤する単核免疫細胞であり、乳癌を含む複数の腫瘍型で報告されている。TILの集団は、様々なタイプの細胞(すなわち、T細胞、B細胞、ナチュラルキラー(NK)細胞など)で構成されている。癌患者に自然に発生するTILの集団は、腫瘍の破壊にはほとんど効果がないが、TILの存在は、多くのタイプの癌、例えば上皮性卵巣癌、結腸癌、食道癌、黒色腫、子宮内膜癌、および乳癌の予後の改善に関連している(例えば、Melichar et al.,Anticancer Res.2014;34(3):1115-25、Naito et al.,Cancer Res.1998;58(16):3491-4を参照)。
【0007】
腫瘍のさらに別の特徴は、バイオマーカーとしての特定の分子の存在であり、これには、プログラム死リガンド1(PD-L1)として知られる分子が含まれる。PD-L1は、非小細胞肺癌(NSCLC)の診断および評価に関連している。NSCLCは、世界中で150万人以上が罹患しており、最も一般的なタイプの肺癌である。NSCLCは、標準治療である化学放射線療法への反応が悪く、再発の発生率が高いため、5年生存率が低い。免疫学の進歩により、NSCLCでは、T細胞の表面に発現するプログラム死-1(PD-1)に結合するPD-L1の発現が頻繁に上昇することがわかっている。PD-1とPD-L1との結合により、T細胞の抗腫瘍反応が非活性化され、NSCLCの免疫系による標的化を回避できるようになる。腫瘍の進行と免疫応答との相互作用の発見により、ニボルマブおよびペムブロリズマブなどのPD-1/PD-L1チェックポイント遮断免疫療法が開発され、規制当局の承認が得られている。抗PD-1および抗PD-L1抗体は、PD-1とPD-L1との間の相互作用を妨害することにより、抗腫瘍免疫応答を回復させる。特に、これらのチェックポイント阻害剤で治療されたPD-L1陽性NSCLC患者では、持続的な腫瘍の退縮および生存率の改善が達成されている。
【0008】
腫瘍学における免疫療法の役割が拡大するにつれて、腫瘍のPD-L1ステータスを正確に評価することは、PD-1/PD-L1チェックポイント遮断免疫療法が有効であり得る患者を特定するのに役立ち得る。現在、PD-L1ステータスを評価するために、生検または手術標本から取得した腫瘍組織の免疫組織化学(IHC)染色が採用されている。しかしながら、このようなIHC染色は、組織サンプルが不十分であるか、環境によってはリソースが不足しているために制限されることが多い。
【0009】
ヘマトキシリンおよびエオシン(H&E)染色は、悪性腫瘍の診断用に組織の形態学的特徴を分析するために病理医によって使用されてきた長年の方法である。例えば、H&Eスライドにより、細胞核および細胞質などの組織構造の視覚的特徴を示して、癌腫瘍の識別に役立てることができる。
【0010】
技術の進歩により、組織病理学的なH&EおよびIHCスライドを高解像度の全スライド画像(WSI)にデジタル化できるようになり、幅広い臨床アプリケーション向けのコンピュータビジョンツールを開発する機会が提供されている。顕微鏡のスライドを高解像度のデジタル画像にすることで、コンピュータを使ったスライドの分析が可能になり、組織のタイプまたは病理学的な分類が可能になっている。概して言えば、例えば、医療診断アプリケーションおよび治療結果の予測におけるツールとして、深層学習アプリケーションが有望であることが示されている。深層学習は、機械学習のサブセットであり、モデルは複数の個別のニューラルノード層で構築できる。畳み込みニューラルネットワーク(「CNN」)は、畳み込み技術を採用したニューラルネットワークである。例えば、CNNにより、深層学習プロセスを提供することができ、これにより、各入力画像に1つのクラスラベルを割り当てることによってデジタル画像が分析される。しかしながら、WSIには、隣接する組織クラス間の境界を含む、2つ以上の型の組織が含まれている。隣接する組織クラス間の境界および腫瘍細胞間の免疫細胞の存在を分析するために、部分的に異なる領域を異なる組織クラスとして分類する必要がある。従来のCNNが複数の組織クラスを1つのスライド画像に割り当てるために、CNNは、組織クラスラベルの割り当てが必要な画像の各セクションを個別に処理する必要がある。ただし、隣接する画像のセクションが重なるため、各セクションを個別に処理すると、冗長な計算が多くなり、時間がかかる。
【0011】
完全畳み込みネットワーク(FCN)は、別のタイプの深層学習プロセスである。FCNは画像を分析し、画像内の各ピクセルに分類ラベルを割り当てることができる。その結果、CNNと比較して、FCNは、2つ以上の分類を有するオブジェクトを表す画像の分析に役立つ。FCNにより、元の画像内の分類された各オブジェクトの場所を示すオーバーレイマップが生成される。ただし、FCN深層学習アルゴリズムが効果を発揮するためには、各ピクセルが組織クラスとしてラベル付けされた画像のデータセットを訓練する必要があり、注釈の時間および処理時間がかかりすぎて実用的ではない。デジタルWSI画像では、画像の各縁に10,000~100,000ピクセルを超えるピクセルが含まれる場合がある。完全な画像には少なくとも10,0002~100,0002個のピクセルが含まれている可能性があり、これにより、組織の分類を試みるために非常に長いアルゴリズムの実行時間が必要になる。ピクセル数が多いため、従来のFCNを使用してスライドのデジタル画像をセグメント化することは不可能である。
【0012】
かかるバイオマーカーを集団グループ全体で効率的な方法で識別し、特徴付けを行い、より最適化された薬物治療の推奨事項およびプロトコルを作成し、疾患進行の予測を改善するために、TIL、PD-L1、およびH&E画像を用いたその他のバイオマーカーを簡単に診断できる新しい技術が必要とされている。
【発明の概要】
【0013】
本出願は、病理組織スライド画像から直接学習し、医用画像内のバイオマーカーの存在を予測するように構成および訓練された深層学習フレームワークで形成された、撮像ベースのバイオマーカー予測システムを提示する。例では、深層学習フレームワークは、病理組織画像を分析し、複数の異なるバイオマーカーを識別するように構成および訓練されている。様々な例では、これらの深層学習フレームワークは、訓練済みの異なるバイオマーカー分類器を含むように構成されており、当該バイオマーカー分類器は、ラベルなし病理組織画像を受信し、それらの画像に異なるバイオマーカー予測を提供するようにそれぞれ構成されている。次に、これらのバイオマーカー予測を使用して、利用可能な免疫療法の大規模なセットを、医療専門家が患者を治療するために使用され得る標的免疫療法の縮小された小さなサブセットに縮小することができる。したがって、様々な例において、腫瘍の存在、腫瘍の状態(state)/状態(condition)、または組織サンプルの腫瘍に関する情報を示すバイオマーカーを識別する深層学習フレームワークを提供し、そこから標的免疫療法のセットを決定することができる。
【0014】
例では、システムには、深層学習フレームワークが含まれており、深層学習フレームワークは、医療検査室または医用画像機械などのネットワークアクセス可能な画像ソースから受信した病理組織画像のバイオマーカーステータスを分析および予測し、予測されたバイオマーカーステータスのレポートを生成して保存および表示できるように訓練されている。これらの予測されたバイオマーカーステータスレポートを提供して、病理学検査室およびプライマリケア医師システムなどのネットワークアクセス可能なシステムに保存および表示し、患者の癌治療プロトコル(すなわち、免疫療法治療または化学療法治療)の決定に使用することができる。一部の例では、予測されたバイオマーカーステータスレポートは、その後のゲノムシーケンシングを推進するためのネットワークアクセス可能な次世代シーケンシングシステムに入力され得るか、または治療リストをバイオマーカーによって決定された対応治療にフィルタリングするためのコンピュータ化された癌治療決定システムに入力され得る。
【0015】
本明細書の技術により、多種多様な癌のうちのいずれかに関連するバイオマーカーを識別することができる。例示的な癌には、副腎皮質癌、リンパ腫、肛門癌、肛門直腸癌、基底細胞癌、皮膚癌(非黒色腫)、胆管癌、肝外胆管癌、肝内胆管癌、膀胱癌、尿膀胱癌、骨肉腫、脳腫瘍、脳幹神経膠腫、乳癌(トリプルネガティブ乳癌を含む)、子宮頸癌、結腸癌、結腸直腸癌、リンパ腫、子宮内膜癌、食道癌、胃(gastric)(胃(stomach))癌、頭頸部癌、肝細胞(肝臓)癌、腎臓癌、腎癌、肺癌、メラノーマ、舌癌、口腔癌、卵巣癌、膵臓癌、前立腺癌、子宮癌、精巣癌、膣癌が含まれるが、これらに限定されない。
【0016】
一部の例では、撮像ベースのバイオマーカー予測システムは、深層学習フレームワークで形成されており、深層学習フレームワークは、受信した病理組織画像のタイルを分類するように訓練された分類器を使用して、(ラベル付きまたはラベルなし)病理組織画像の分類を実行するように設計されたマルチスケール構成を有する。一部の例では、マルチスケール構成には、タイルレベルの組織分類器、つまり、タイルベースの深層学習訓練を使用して訓練された分類器が含まれている。一部の例では、マルチスケール構成には、ピクセルレベルの細胞分類器および細胞セグメンテーションモデルが含まれている。一部の例では、タイルレベルの組織分類器およびピクセルレベルの細胞分類器からの分類を分析して、病理組織画像内のバイオマーカーのステータスが予測される。さらに一部の例では、マルチスケール構成にはタイルレベルのバイオマーカー分類器が含まれている。
【0017】
一部の例では、撮像ベースのバイオマーカー予測システムは、深層学習フレームワークで形成されており、深層学習フレームワークは、マルチインスタンス学習(MIL)技術を使用して訓練された分類器を使用して、(ラベル付きまたはラベルなし)病理組織画像の分類を実行するように設計されたシングルスケール構成を有する。一部の例では、シングルスケール構成には、RNAシーケンシングデータなどの遺伝子シーケンシングデータを使用して訓練されたスライドレベルの分類器が含まれている。つまり、RNA配列データを使用して、スライドレベルの分類器が訓練され、病理組織画像のバイオマーカーのステータスを予測できる画像ベースの分類器が開発される。
【0018】
一例によれば、標的組織のヘマトキシリンおよびエオシン(H&E)染色スライドのデジタル画像内のバイオマーカーを識別するコンピュータ実装方法であって、方法は、1つ以上のプロセッサを有する画像ベースのバイオマーカー予測システムにデジタル画像を受信することと、1つ以上のプロセッサを使用して、デジタル画像を複数のタイル画像に分離することにより、デジタル画像に対して画像タイリングプロセスを実行することであって、複数のタイル画像の各々が、デジタル画像の異なる部分を含む、実行することと、1つ以上のプロセッサを使用して、複数のタイル画像を、各々が各タイル画像に対して異なる組織分類を分類するように訓練された1つ以上の訓練済み深層学習マルチスケール分類器モデルを含むマルチスケール深層学習フレームワークに適用し、マルチスケール深層学習フレームワークを使用して、複数のタイル画像の各々の組織分類を決定することと、1つ以上のプロセッサを使用し、訓練済み細胞セグメンテーションモデルを使用してデジタル画像内の細胞を識別することと、各タイル画像に対して決定された組織分類から、かつデジタル画像内の識別された細胞から、デジタル画像に関連付けられた1つ以上のバイオマーカーの予測される存在を識別することと、を含む。
【0019】
別の例によれば、標的組織のヘマトキシリンおよびエオシン(H&E)染色スライドのデジタル画像内のバイオマーカーを識別するコンピュータ実装方法であって、方法は、複数の訓練組織サンプルの分子訓練データセットを受信することであって、分子訓練データセットが、各訓練組織サンプルに関連付けられた、実質的に類似したサンプルのシーケンシングからのRNAトランスクリプトームカウントを含む、受信することと、分子訓練データセットに対してクラスタリングプロセスを実行して、それぞれが異なるバイオマーカーに対応する1つ以上の分子データサブセットを識別することと、1つ以上の分子データサブセットの各々について、1つ以上のプロセッサを有する画像ベースのバイオマーカー予測システムに対するそれぞれのバイオマーカーに対応する訓練組織サンプルのH&E染色訓練スライドの複数のデジタル画像を受信することと、1つ以上のプロセッサを使用して、1つ以上の分子データサブセットの各々について、H&E染色訓練スライドの複数のデジタル画像に基づいて、訓練済みの画像ベースのバイオマーカー分類器モデルを生成することと、1つ以上のプロセッサを使用して、後続の組織サンプルのH&E染色スライドの後続のデジタル画像を受信することと、1つ以上のプロセッサを使用して、後続のデジタル画像を訓練済みの画像ベースのバイオマーカー分類器モデルに適用し、後続の組織サンプルの1つ以上のバイオマーカーの予測される存在を識別することと、を含む。
【0020】
別の例によれば、標的組織のヘマトキシリンおよびエオシン(H&E)染色スライドのデジタル画像内のバイオマーカーを識別するコンピュータ実装方法であって、方法は、1つ以上のプロセッサを有する画像ベースのバイオマーカー予測システムにデジタル画像を受信することと、1つ以上のプロセッサを使用して、デジタル画像を複数のタイル画像に分離することであって、複数のタイル画像の各々が、デジタル画像の異なる部分を含む、分離することと、1つ以上のプロセッサを使用して、複数のタイル画像を、各々が異なる組織分類を分類するように訓練された1つ以上の訓練済みバイオマーカー分類モデルを含む深層学習フレームワークに適用することと、1つ以上のプロセッサを使用して、1つ以上の訓練済みバイオマーカー分類モデルを使用して複数のタイル画像の各々のバイオマーカー分類を予測することと、タイル画像の各々の予測されたバイオマーカー分類から、標的組織における1つ以上のバイオマーカーの予測される存在を判定することと、デジタル画像と、1つ以上のバイオマーカーの予測される存在を可視化するデジタルオーバーレイと、を含むレポートを生成することと、を含む。
【0021】
一部の例では、深層学習フレームワークは、マルチスケール深層学習フレームワークを含む。
【0022】
一部の例では、デジタル画像を複数のタイル画像に分離することは、1つ以上のプロセッサを使用して、デジタル画像にタイリングマスクを適用してデジタル画像を複数のタイル画像に分離することにより、画像タイリングプロセスを実行することを含む。
【0023】
一部の例では、タイリングマスクは、同じサイズのタイルおよび/または長方形の形状を有するタイルを含む。
【0024】
一部の例では、複数のタイル画像を深層学習フレームワークに適用すること、および複数のタイル画像の各々のバイオマーカー分類を予測することの各々は、タイル画像の各々を、各々が各タイル画像に対して異なる組織分類を分類するように訓練された1つ以上の訓練済み深層学習マルチスケール分類器モデルに適用し、マルチスケール深層学習フレームワークを使用して、複数のタイル画像の各々の組織分類を決定することと、1つ以上のプロセッサを使用し、訓練済み細胞セグメンテーションモデルを使用してデジタル画像内の細胞を識別することと、各タイル画像に対して決定された組織分類から、かつデジタル画像内の識別された細胞から、各タイル画像のバイオマーカー分類を予測することと、を含む。
【0025】
一部の例では、本方法は、1つ以上の訓練済み深層学習マルチスケール分類器モデルを、マルチスケール深層学習フレームワークで、訓練画像データセットから複数のH&Eスライド訓練画像を受信することであって、各H&Eスライド訓練画像が、訓練対象のバイオマーカーに対応するラベルを有する、受信することと、H&Eスライド訓練画像の各々に対してタイルベースの組織分類分析を実行することと、H&Eスライド訓練画像の各々に対してピクセルベースの細胞セグメンテーション分析を実行することと、所望により、H&Eスライド訓練画像の各々に対してタイルベースのバイオマーカー分類分析を実行することと、それに応じて、1つ以上の訓練済み深層学習マルチスケール分類器モデルを生成することと、によって訓練することをさらに含む。
【0026】
一部の例では、各H&Eスライド訓練画像は、それぞれがタイルレベルのラベルを有する複数のタイル画像を含む。
【0027】
一部の例では、本方法は、各H&Eスライド訓練画像について、H&Eスライド訓練画像の複数のタイル画像の各々にタイルレベルのラベルを付すことを含む。
【0028】
一部の例では、本方法は、各H&Eスライド訓練画像について、H&Eスライド訓練画像内の各タイル画像のクラスステータスを推論するタイル選択プロセスを実行することと、推論されたクラスステータスに基づいて、H&Eスライド訓練画像の各々に対してタイルベースの組織分類分析を実行する前に、目的のクラスに対応しないタイル画像を破棄し、それにより、タイルベースの組織分類分析が、H&Eスライド訓練画像の選択されたタイル画像に対してのみ実行されることと、をさらに含む。
【0029】
一部の例では、1つ以上の訓練済み深層学習マルチスケール分類器モデルのうちの1つが、それぞれ、タイル解像度の完全畳み込みネットワーク(FCN)分類モデルとして構成されている。
【0030】
一部の例では、訓練済み細胞セグメンテーションモデルを使用してデジタル画像タイル内の細胞を識別することは、1つ以上のプロセッサを使用して、複数のタイル画像の各々を細胞セグメンテーションモデルに適用し、各タイルについて、タイル画像内の1つ以上のピクセルに細胞分類を割り当てることを含む。
【0031】
一部の例では、タイル画像内の1つ以上のピクセルに細胞分類を割り当てることは、1つ以上のプロセッサを使用して、1つ以上のピクセルを細胞内部、細胞境界、または細胞外部として識別し、1つ以上のピクセルを細胞内部、細胞境界、または細胞外部として分類することを含む。
【0032】
一部の例では、訓練済み細胞セグメンテーションモデルは、細胞内部、細胞境界、および細胞外部を分類するように訓練されたピクセル解像度の三次元UNet分類モデルである。
【0033】
一部の例では、1つ以上のバイオマーカーは、腫瘍浸潤リンパ球(TIL)、核細胞質比(NC)、倍数性、印環形態、およびプログラム死リガンド1(PD-L1)からなる群から選択される。
【0034】
一部の例では、深層学習フレームワークは、シングルスケール深層学習フレームワークを含む。
【0035】
一部の例では、デジタル画像を複数のタイル画像に分離することは、1つ以上のプロセッサを使用して、デジタル画像を複数のタイル画像に分離する訓練済みマルチインスタンス学習コントローラにデジタル画像を適用することにより、画像タイリングプロセスを実行することを含む。
【0036】
一部の例では、本方法は、H&Eスライド訓練画像内の各タイル画像のクラスステータスを推論するタイル選択プロセスに各タイル画像を提供することと、推論されたクラスステータスに基づいて、残りの複数のタイル画像を深層学習フレームワークに適用する前に、タイル選択基準に基づいてタイル画像を選択的に破棄することと、をさらに含む。
【0037】
一部の例では、本方法は、H&Eスライド訓練画像内の各タイル画像のクラスステータスを推論するタイル選択プロセスに各タイル画像を提供することと、推論されたクラスステータスに基づいて、残りの複数のタイル画像を深層学習フレームワークに適用する前に、タイル画像をランダムに破棄することと、をさらに含む。
【0038】
一部の例では、本方法は、複数の訓練組織サンプルの分子訓練データセットを受信することであって、分子訓練データセットが、各訓練組織サンプルに関連付けられた、実質的に類似したサンプルのシーケンシングからのRNAトランスクリプトームカウントを含む、受信することと、分子訓練データセットに対してクラスタリングプロセスを実行して、それぞれが異なるバイオマーカーに対応する1つ以上の分子データサブセットを識別することと、1つ以上の分子データサブセットの各々について、1つ以上のプロセッサを有する画像ベースのバイオマーカー予測システムに対するそれぞれのバイオマーカーに対応する訓練組織サンプルのH&E染色訓練スライドの複数のデジタル画像を受信することと、1つ以上のプロセッサを使用して、1つ以上の分子データサブセットの各々について、H&E染色訓練スライドの複数のデジタル画像に基づいて、訓練済みバイオマーカー分類モデルのうちの1つを生成することと、をさらに含む。
【0039】
一部の例では、1つ以上の分子データサブセットの各々について、訓練済みバイオマーカー分類モデルのうちの1つを生成することは、H&E染色訓練スライドの複数のデジタル画像に対してマルチインスタンス学習プロセスを実行することを含む。
【0040】
一部の例では、訓練組織サンプルのH&E染色訓練スライドの複数のデジタル画像の各々は、スライドレベルのラベルを有する。
【0041】
一部の例では、訓練組織サンプルのH&E染色訓練スライドの複数のデジタル画像の各々は、ラベル付けされていない。
【0042】
一部の例では、シングルスケール深層学習フレームワークは、ResNet構成またはInception-v3構成を有する畳み込みニューラルネットワークである。
【0043】
一部の例では、1つ以上のバイオマーカーは、コンセンサス分子サブタイプ(CMS)および相同組換え欠損症(「HRD」)からなる群から選択される。
【0044】
一部の例では、1つ以上のプロセッサは、1つ以上のグラフィックス処理ユニット(GPU)、テンソル処理ユニット(TPU)、および/または中央処理ユニット(CPU)である。
【0045】
一部の例では、コンピューティングデバイス(例えば、画像ベースのバイオマーカー予測システム)は、通信ネットワークを介して病理スライドスキャナシステムに通信可能に結合され、それにより、画像ベースのバイオマーカー予測システムが、通信ネットワークを介して病理スライドスキャナシステムからデジタル画像を受信する。
【0046】
一部の例では、コンピューティングデバイスは、病理スライドスキャナシステム内に含まれている。
【0047】
一部の例では、病理スライドスキャナシステムが、画像ベースの、敵対的に訓練された、かつ/またはマイクロサテライト不安定性(MSI)の予測モデルを含む。
【0048】
一部の例では、デジタル画像およびデジタルオーバーレイを含むレポートを生成することは、デジタル画像の腫瘍含有量またはデジタル画像の腫瘍パーセンテージを識別するオーバーレイ要素を含むようにデジタルオーバーレイを生成することを含む。
【0049】
別の例によれば、標的組織のヘマトキシリンおよびエオシン(H&E)染色スライドのデジタル画像内のバイオマーカーを識別するように構成されたコンピューティングデバイスであって、コンピューティングデバイスは、1つ以上のメモリと、1つ以上のプロセッサであって、デジタル画像を受信することと、デジタル画像を複数のタイル画像に分離することにより、デジタル画像に対して画像タイリングプロセスを実行することであって、複数のタイル画像の各々が、デジタル画像の異なる部分を含む、実行することと、複数のタイル画像を、各々が各タイル画像に対して異なる組織分類を分類するように訓練された1つ以上の訓練済み深層学習マルチスケール分類器モデルを含むマルチスケール深層学習フレームワークに適用し、マルチスケール深層学習フレームワークを使用して、複数のタイル画像の各々の組織分類を決定することと、訓練済み細胞セグメンテーションモデルを使用してデジタル画像内の細胞を識別することと、各タイル画像に対して決定された組織分類から、かつデジタル画像内の識別された細胞から、デジタル画像に関連付けられた1つ以上のバイオマーカーの予測される存在を識別することと、を行うように構成された1つ以上のプロセッサと、を含む。
【0050】
別の例によれば、標的組織のヘマトキシリンおよびエオシン(H&E)染色スライドのデジタル画像内のバイオマーカーを識別するように構成されたコンピューティングデバイスであって、コンピューティングデバイスは、1つ以上のメモリと、1つ以上のプロセッサであって、複数の訓練組織サンプルの分子訓練データセットを受信することであって、分子訓練データセットが、各訓練組織サンプルに関連付けられた、実質的に類似したサンプルのシーケンシングからのRNAトランスクリプトームカウントを含む、受信することと、分子訓練データセットに対してクラスタリングプロセスを実行して、それぞれが異なるバイオマーカーに対応する1つ以上の分子データサブセットを識別することと、1つ以上の分子データサブセットの各々について、1つ以上のプロセッサを有する画像ベースのバイオマーカー予測システムに対するそれぞれのバイオマーカーに対応する訓練組織サンプルのH&E染色訓練スライドの複数のデジタル画像を受信することと、1つ以上の分子データサブセットの各々について、H&E染色訓練スライドの複数のデジタル画像に基づいて、訓練済みの画像ベースのバイオマーカー分類器モデルを生成することと、後続の組織サンプルのH&E染色スライドの後続のデジタル画像を受信することと、後続のデジタル画像を訓練済みの画像ベースのバイオマーカー分類器モデルに適用し、後続の組織サンプルの1つ以上のバイオマーカーの予測される存在を識別することと、を行うように構成された1つ以上のプロセッサと、を含む。
【0051】
別の例によれば、標的組織のヘマトキシリンおよびエオシン(H&E)染色スライドのデジタル画像内のバイオマーカーを識別するように構成されたコンピューティングデバイスであって、コンピューティングデバイスは、1つ以上のメモリと、1つ以上のプロセッサであって、1つ以上のプロセッサを有する画像ベースのバイオマーカー予測システムにデジタル画像を受信することと、デジタル画像を複数のタイル画像に分離することであって、複数のタイル画像の各々が、デジタル画像の異なる部分を含む、分離することと、複数のタイル画像を、各々が異なる組織分類を分類するように訓練された1つ以上の訓練済みバイオマーカー分類モデルを含む深層学習フレームワークに適用することと、1つ以上の訓練済みバイオマーカー分類モデルを使用して複数のタイル画像の各々のバイオマーカー分類を予測することと、タイル画像の各々の予測されたバイオマーカー分類から、標的組織における1つ以上のバイオマーカーの予測される存在を判定することと、デジタル画像と、1つ以上のバイオマーカーの予測される存在を可視化するデジタルオーバーレイと、を含むレポートを生成することと、を行うように構成された1つ以上のプロセッサと、を含む。
【図面の簡単な説明】
【0052】
本特許または本出願ファイルには、カラーで制作された図面が少なくとも1つ含まれる。カラー図面を含む本特許または特許出願公開のコピーは、要請および必要な料金の支払いに応じて、米国特許商標庁により提供される。
【0053】
以下に記載される図面は、本明細書で開示されるシステムおよび方法の様々な態様を示す。各図は、本システムおよび方法の態様の一例を示していることを理解されたい。
図1】一例による、撮像ベースのバイオマーカー予測システムを有する予測システムの概略図のブロック図である。
図2】従来の病理医の癌診断ワークフローのプロセスのブロック図である。
図3】一例による、図1のシステムに実装され得る深層学習フレームワークの概略図のブロック図である。
図4】一例による、機械学習データフローの概略図のブロック図である。
図5】一例による、図1および図3のシステムで実装され得る、複数の異なるマーカー分類モデルを形成した深層学習フレームワークの概略図のブロック図である。
図6】マルチスケール構成の例による、撮像ベースのバイオマーカー予測のプロセスのブロック図である。
図7図6のプロセスの例示的な実施形態による、予測されたバイオマーカーのステータスを決定するための例示的なプロセスのブロック図である。
図8】シングルスケール構成の例による、撮像ベースのバイオマーカー予測のプロセスのブロック図である。
図9】一例による、図1および図3のシステムによって実行され得る、バイオマーカー予測レポートおよびオーバーレイマップを生成するためのプロセスのブロック図である。
図10A図9のプロセスによって生成されたオーバーレイマップの例を示しており、一例による、組織オーバーレイマップ(図10A)および細胞オーバーレイマップ(図10B)を示す。
図10B図9のプロセスによって生成されたオーバーレイマップの例を示しており、一例による、組織オーバーレイマップ(図10A)および細胞オーバーレイマップ(図10B)を示す。
図11】一例による、分類のための病理組織スライドのデジタル画像を準備するためのプロセスのブロック図である。
図12A】一例による、分類モデルに使用され得るニューラルネットワークアーキテクチャの例を示す。
図12B】一例による、分類モデルに使用され得るニューラルネットワークアーキテクチャの例を示す。
図12C】一例による、分類モデルに使用され得るニューラルネットワークアーキテクチャの例を示す。
図13】一例による、分類のためのタイル画像を示す病理組織画像を示す。
図14】別の例による、別々のパイプラインを使用する撮像ベースのバイオマーカー予測システムの概略図のブロック図である。
図15A】一例による、図14のシステムによって実装され得る、例示的なバイオマーカー予測プロセスの概略図のブロック図である。
図15B】一例による、図14のシステムによって実装され得る例示的な訓練プロセスの概略のブロック図である。
図16】一例による入力病理組織画像を示す。図16A~16Cは、代表的なPD-L1陽性バイオマーカー分類の例を示している。図16Aは、入力H&E画像を表示しており、図16Bは、H&E画像にオーバーレイされた確率マップを表示しており、図16Cは、参照用にPD-L1 IHC染色を示している。図16D~16Fは、代表的なPD-L1陰性バイオマーカー分類の例を示している。図16Dは、入力H&E画像を表示しており、図16Eは、H&E画像上にオーバーレイされた確率マップを表示しており、図16Fは、参照用にPD-L1 IHC染色を示している。カラーバーは、腫瘍PD-L1+クラスの予測確率を示している。
図17】一例による、図14、15A、および15Bのプロセスによって実行され得る、PD-L1分類のための例示的な多視野ストラテジのブロック図である。
図18】一例による、深層学習フレームワークのラベルフリー注釈訓練を実行でき、マルチインスタンス学習コントローラを有する、概略的な機械学習アーキテクチャのブロック図である。
図19】一例による、図18のマルチインスタンス学習コントローラによって実装され得るフレームワーク動作のブロック図である。
図20】一例による、図18のマルチインスタンス学習コントローラによって実装され得るフレームワーク動作のブロック図である。
図21】一例による、図18のマルチインスタンス学習コントローラによって実装され得るフレームワーク動作のブロック図である。
図22】一例による、図18のマルチインスタンス学習コントローラによって実装され得るフレームワーク動作のブロック図である。
図23】一例による、CMSのバイオマーカー分類を示す結果のオーバーラップマップの例である。
図24】別の例による、図18のマルチインスタンス学習コントローラによって実装され得る別のフレームワーク動作のブロック図である。
図25】別の例による、CMSのバイオマーカー分類を示すオーバーラップマップの結果の例である。
図26】別の例による、図18のマルチインスタンス学習コントローラによって実装され得る別のフレームワーク動作のブロック図である。
図27】別の例による、分類モデルに使用され得るニューラルネットワークアーキテクチャの例を示す。
図28】一例による、対応する可能性のある療法のリスト(例えば、免疫療法)を決定するためのプロセスのブロック図である。
図29】一例による、対応する可能性のある治療法のリストを生成するためのデータフローのブロック図である。
図30】一例による、病理スキャナシステムとともに撮像ベースのバイオマーカー予測を実行するためのシステムのブロック図である。
図31図1、3、および30などのシステムで生成され得る、一例として生成されたグラフィックユーザインターフェースディスプレイの様々なスクリーンショットを示す。
図32図1、3、および30などのシステムで生成され得る、一例として生成されたグラフィックユーザインターフェースディスプレイの様々なスクリーンショットを示す。
図33図1、3、および30などのシステムで生成され得る、一例として生成されたグラフィックユーザインターフェースディスプレイの様々なスクリーンショットを示す。
図34図1、3、および30などのシステムで生成され得る、一例として生成されたグラフィックユーザインターフェースディスプレイの様々なスクリーンショットを示す。
図35図1、3、および30などのシステムで生成され得る、一例として生成されたグラフィックユーザインターフェースディスプレイの様々なスクリーンショットを示す。
図36図1、3、および30などのシステムで生成され得る、一例として生成されたグラフィックユーザインターフェースディスプレイの様々なスクリーンショットを示す。
図37図1、3、および30などのシステムで生成され得る、一例として生成されたグラフィックユーザインターフェースディスプレイの様々なスクリーンショットを示す。
図38】一例による、本明細書の様々なシステムを実装する際に使用するための例示的なコンピューティングデバイスのブロック図である。
【発明を実施するための形態】
【0054】
撮像ベースのバイオマーカー予測システムは、病理組織スライドから直接学習し、医用画像内のバイオマーカーの存在を予測するように構成および訓練された深層学習フレームワークで構成されている。深層学習フレームワークは、医用画像を分析し、腫瘍の存在、腫瘍の状態(state)/状態(condition)、または組織サンプルの腫瘍に関する情報を示すバイオマーカーを識別するように構成および訓練することができる。
【0055】
実装形態では、クラウドベースの深層学習フレームワークが医用画像分析に使用される。深層学習アルゴリズムは、高度な撮像機能を自動的に学習して、診断、予後、治療適応、および治療効果予測を強化する。例では、深層学習フレームワークは、クラウドストレージに直接接続し、クラウドプラットフォーム上のリソースを活用して、効率的な深層学習アルゴリズムの訓練、比較、および展開を行うことができる。
【0056】
一部の例では、深層学習フレームワークには、タイリングストラテジを使用して様々な疾患の構造的および局所的な組織構造を正確にキャプチャ(例えば、癌腫瘍を予測)する、マルチスケール構成が含まれている。これらのマルチスケール構成は、受信した病理組織画像のタイルを分類するように訓練された分類器を使用して、(ラベル付きまたはラベルなしの)病理組織画像の分類を実行する。一部の例では、マルチスケール構成には、タイルレベルの組織分類器、つまり、タイルベースの深層学習訓練を使用して訓練された分類器が含まれている。一部の例では、マルチスケール構成には、ピクセルレベルの細胞分類器および細胞セグメンテーションモデルが含まれている。一部の例では、タイルレベルの組織分類器およびピクセルレベルの細胞分類器からの分類を分析して、病理組織画像内のバイオマーカーのステータスが予測される。さらに一部の例では、マルチスケール構成にはタイルレベルのバイオマーカー分類器が含まれている。追跡されると、マルチスケール分類器は、新しいラベル付きまたはラベルなしの病理組織画像を受信し、関連する病理組織スライド内の特定のバイオマーカーの存在を予測できる。
【0057】
一部の例では、本明細書の深層学習フレームワークは、病理組織画像におけるバイオマーカーの存在を予測するために、マルチインスタンス学習(MIL)ストラテジを使用して訓練されたシングルスケール構成を含む。シングルスケール構成を使用して訓練された分類器は、1つ以上のマルチインスタンス学習(MIL)技術を使用して訓練された分類器を使用して、(ラベル付きまたはラベルなし)病理組織画像の分類を実行するように訓練できる。一部の例では、シングルスケール構成には、スライドレベルの分類器が含まれ、当該スライドレベルの分類器は、RNAシーケンシングデータなどの遺伝子シーケンシングデータを使用して訓練され、タイルレベルのラベルではなくスライドレベルのラベルを有する病理組織画像を分析するように訓練されている。つまり、RNA配列データを使用して、スライドレベルの分類器が訓練され、病理組織画像のバイオマーカーのステータスを予測できる画像ベースの分類器が開発される。
【0058】
本明細書のマルチスケールおよびシングルスケール構成のいずれも、様々なアルゴリズムの最適化を組み込んで、かかる疾患分析のための計算を加速することができる。
【0059】
マルチスケール分類器構成の実装形態では、深層学習フレームワークは、自動的な細胞セグメンテーションを実行し、細胞/バイオマーカーの型を決定し、病理組織画像から組織型分類を決定し、それによって画像ベースのバイオマーカー開発を提供する分類器を含むように訓練することができる。シングルスケール分類器であっても、組織型分類およびバイオマーカー分類を含むように訓練することができる。
【0060】
マルチスケール分類器構成の場合、例えば、デジタルのヘマトキシリン&エオシン(H&E)スライドの様々な細胞型(例えば、腫瘍、間質、リンパ球)に関する集約的および空間的な撮像機能は、深層学習フレームワークによって決定され、臨床および治療の結果を予測するために使用され得る。初歩的な手動の細胞型分類の代わりに、本明細書の例では、深層学習フレームワークでマルチスケール構成を使用して、H&Eスライド病理組織画像の各サブ領域を、特定の細胞セグメンテーション、細胞型、および組織型に分類する。そこから、様々なタイプの撮像メトリックを識別するように構成された別の深層学習フレームワークによって、バイオマーカーの検出が実行される。撮像メトリックの例には、腫瘍の最小形状および最大形状を含む腫瘍形状、腫瘍面積、腫瘍周囲長、腫瘍%、細胞形状が含まれ、細胞形状には、細胞面積、細胞周囲長、細胞凸状面積比、細胞真円度、細胞凸状周囲面積、細胞長、リンパ球%、細胞特性、細胞テクスチャが含まれ、細胞テクスチャには、飽和度、強度、および色相が含まれる。
【0061】
組織クラスの例には、腫瘍、間質、正常、リンパ球、脂肪、筋肉、血管、免疫クラスター、壊死、過形成/異形成、赤血球、およびIHC染色標的分子に対して陽性(特に特定の閾値よりも多い量のIHC染色の標的分子を含む)または陰性(該分子を含まないか、もしくは特定の閾値よりも低い量の該分子を含む)である組織クラスもしくは細胞型が挙げられるが、これらに限定されない。
【0062】
一部の例では、バイオマーカーの検出は、撮像メトリックと構造化された臨床およびシーケンシングデータとを組み合わせて、強化されたバイオマーカーを開発することによって強化することができる。
【0063】
バイオマーカーは、以下のモデルのいずれかによって識別することができる。本明細書で参照される任意のモデルは、人工知能エンジンとして実装され得、勾配ブースティングモデル、ランダムフォレストモデル、ニューラルネットワーク(NN)、回帰モデル、ナイーブベイズモデル、または機械学習アルゴリズム(MLA)を含んでもよい。MLAまたはNNは、訓練データセットにより訓練することができる。例示的な予測プロファイルでは、訓練データセットは、撮像、病状、臨床、および/または分子レポート、ならびに患者の詳細(例えば、EHRまたは遺伝子シーケンシングレポートからキュレートされたもの)を含み得る。MLAには、線形回帰、ロジスティック回帰、決定木、分類および回帰木、ナイーブベイズ、最近傍クラスタリングを使用した教師有りアルゴリズム(データセット内の特徴量/分類に注釈が付されたアルゴリズムなど)と、アプリオリ、平均クラスタリング、主成分分析、ランダムフォレスト、適応ブースティングを使用した教師なしアルゴリズム(データセット内の特徴量/分類に注釈が付されていないアルゴリズムなど)と、生成的アプローチ(ガウス分布の混合、多項分布の混合、隠れマルコフモデルなど)、低密度分離、グラフベースのアプローチ(最小カット、調和関数、多様体の正則化など)、ヒューリスティックアプローチ、またはサポートベクターマシンを使用した半教師ありアルゴリズム(データセット内の特徴量/分類の不完全な数に注釈が付されているアルゴリズムなど)と、が含まれる。NNには、条件付き確率場、畳み込みニューラルネットワーク、アテンションベースのニューラルネットワーク、深層学習、長短期記憶ネットワーク、またはその他のニューラルモデルが含まれ、訓練データセットには、複数の腫瘍サンプル、各サンプルのRNA発現データ、および各サンプルの撮像データをカバーする病理レポートが含まれる。MLAおよびニューラルネットワークは、機械学習への異なるアプローチを特定するが、これらの用語は本明細書では同じ意味で使用され得る。したがって、別段明示しない限り、MLAの言及には、対応するNNが含まれ得、NNの言及には、対応するMLAが含まれ得る。訓練には、最適化されたデータセットを提供すること、患者の記録で見られるこれらの特性をラベル付けすること、および新しい入力に基づいて予測または分類するようにMLAを訓練することが含まれ得る。人工的なNNは、効率的な計算モデルであり、人工知能の難しい問題の解決に強みを発揮している。人工的なNNは、ユニバーサルな近似器である(適切なパラメータが与えられると、多種多様な関数を表すことができる)ことが示されている。一部のMLAは、重要な特徴量を識別し、それらに対する係数または重みを識別することができる。係数に特徴量の出現頻度を乗算してスコアを生成することができ、1つ以上の特徴量のスコアが閾値を超えると、MLAによって特定の分類を予測することができる。係数スキーマをルールベースのスキーマと組み合わせて、複数の特徴量に基づく予測など、より複雑な予測を生成することができる。例えば、10の主要な特徴量が様々な分類で識別されてもよい。主要な特徴量の係数のリストが存在してもよく、分類のためのルールセットが存在してもよい。ルールセットは、特徴量の発生数、特徴量のスケーリングされた重み、または当業者に知られているロジックで符号化された特徴量の他の定性的および定量的評価に基づいていてもよい。他のMLAでは、特徴量は二分木構造で編成されてもよい。例えば、ほとんどの分類を区別し得る主要な特徴量は、木の終端ノードに到達することに基づいて分類が付与されるまで、二分木のルートおよび木の中の後続の各ブランチとして存在していてもよい。例えば、二分木には、第1の特徴量をテストするルートノードがあってもよい。この特徴量の発生または非発生が存在する必要があり(二分決定)、ロジックは、分類されているアイテムに対して真となるブランチをトラバースすることができる。追加のルールは、閾値、範囲、またはその他の定性的および定量的テストに基づき得る。教師あり方法は、訓練データセットに多くの既知の値または注釈がある場合に役立つが、EMR/EHRドキュメントの性質上、提供される注釈は多くない場合がある。ラベルのない大量のデータを探索する場合、データセット内のインスタンスをビニング/バケット化するのに、教師なし方法が役立つ。本明細書では、上記のモデルの単一のインスタンス、または2つ以上のかかるインスタンスを組み合わせて、モデル、人工知能、ニューラルネットワーク、または機械学習アルゴリズムの目的のためのモデルを構成することができる。
【0064】
一部の例では、本技術により、機械学習支援型の病理組織画像レビューが提供され、これには、腫瘍領域、および/または領域の特性もしくは領域内の細胞型(例えば、リンパ球、PD-L1陽性細胞、高度の腫瘍発芽を有する腫瘍など)を自動的に識別および外形付けすることと、その腫瘍領域内の細胞をカウントすることと、病理スライドレビューの効率および客観性を向上させるための決定スコアを生成することと、が含まれる。
【0065】
本明細書で使用される場合、「バイオマーカー」という用語は、癌または他の疾患のスクリーニング、診断、予後、治療、選択、疾患モニタリング、進行、および疾患再発に関連する画像由来の情報、特に、組織学的に染色されたサンプルで識別可能な形態学的特徴の形での情報を指す。本明細書のバイオマーカーは、一部の例では、ラベル付けベースの画像から決定された形態学的特徴のものであり得る。本明細書のバイオマーカーは、標識されたRNAデータから決定された形態学的特徴のものであり得る。
【0066】
本明細書のバイオマーカーは、対象における癌の存在または癌に対する感受性と相関する画像由来の情報、癌が1つのサブタイプおよび別のサブタイプである可能性、組織、細胞、もしくはタンパク質のタイプやクラスなどの生物学的特性の存在もしくは割合、患者が特定の治療法もしくは治療法のクラスに反応するか、または反応しない確率、治療または治療のクラスに期待される陽性反応の程度(例えば、生存期間および/または無増悪生存期間)、患者が治療に反応しているかどうか、あるいは、癌が退縮するか、進行するか、もしくは発生部位を超えて進行する(すなわち、転移する)可能性であり得る。
【0067】
本明細書の様々な技術を使用して病理組織画像から予測されたバイオマーカーの例として、以下が挙げられる。
【0068】
本明細書で使用される腫瘍浸潤リンパ球(TIL)は、腫瘍組織または間質に浸潤する単核免疫細胞を指す。TILには、例えば、T細胞、B細胞、およびNK細胞が含まれ、それらの集団は、機能、活性、および/またはバイオマーカー発現に基づいて細分類することができる。例えば、TILの集団には、例えば、CD3および/またはCD8を発現する細胞傷害性T細胞、およびFOXP3発現によって特徴付けられることが多い制御性T細胞(サプレッサーT細胞としても知られる)が含まれ得る。TILの密度、場所、組織、および構成に関する情報により、予後および潜在的な治療の選択肢に関する貴重な洞察が提供される。本開示により、様々な態様において、サンプル中のTIL密度を予測する方法、サンプル中のTILの亜集団を区別(例えば、CD3/CD8を発現する細胞傷害性T細胞をFOXP3 Tregと区別)する方法、間質と腫瘍内TILとを区別する方法などが提供される。
【0069】
プログラム死リガンド1(PD-L1)は、40kDaの1型膜貫通タンパク質であり、免疫系の抑制、特に自己免疫疾患、癌、その他の病態の患者に影響を及ぼす。癌免疫療法に関連して、PD-L1は腫瘍細胞、腫瘍関連マクロファージ(TAM)、およびTリンパ球の表面に発現し、その後PD-1陽性T細胞を阻害し得る。
【0070】
倍数性とは、細胞または生物のゲノム内の相同染色体のセットの数を指す。例として、1セットの染色体を意味する1倍体と2セットの染色体を意味する2倍体が挙げられる。生物のゲノムに対になる染色体の複数のセットが存在することは「倍数体」として説明される。3セットの染色体3nは3倍体であり、4セットの染色体4nは4倍体である。極端に数の多いセットは、番号で指定できる(例えば、15セットの場合は15倍体)。
【0071】
核対細胞質(NC)比は、細胞の核のサイズとその細胞の細胞質のサイズの比の測定値である。NC比は、体積比または断面積として表すことができる。NC比は、細胞の成熟度を示すことができ、細胞核のサイズは細胞の成熟度とともに減少する。対照的に、細胞のNC比が高いことは、細胞の悪性腫瘍を示している可能性がある。
【0072】
印環形態は、印環細胞、すなわち、大きな液胞を有する細胞の形態であり、主に癌腫の場合にその悪性型が現れる。印環細胞は、胃癌との関連が最も高いが、前立腺、膀胱、胆嚢、乳房、結腸、卵巣間質、精巣など、様々な組織から発生する可能性がある。例えば、印環細胞癌(SRCC)は、非常に悪性の腺癌の稀少な形態である。これは、印環細胞の組織学的外観を特徴とする上皮性悪性腫瘍である。
【0073】
これらのバイオマーカー、TIL、NC比、倍数性、印環形態、およびPD-L1は、本明細書の技術による、ラベル付けベースの画像から決定された形態学的特徴のバイオマーカーの例である。
【0074】
コンセンサス分子サブタイプ(「CMS」)は、包括的な遺伝子発現プロファイル分析に基づいて開発された結腸直腸癌(CRC)の分類サブタイプのセットである。原発性結腸直腸癌におけるCMS分類には、CMS1-免疫浸潤(多くの場合、BRAFmut、MSI-High、TMB-High)、CMS2-正規(多くの場合、ERBB/MYC/WNT駆動)、CMS3-代謝(多くの場合、KRASmut)、およびCMS4-間葉系(多くの場合、TGF-B駆動)が含まれる。より広義には、本明細書のCMSは、結腸直腸癌のこれらのサブタイプおよび他のサブタイプを含む。さらに広義には、本明細書のCMSは、本明細書に記載されている他の癌のタイプの包括的な遺伝子発現プロファイル分析に由来するサブタイプを指す。
【0075】
相同組換え欠損症(「HRD」)ステータスは、ヘテロ接合性のゲノム喪失(LOH)と称される染色体領域の複製の喪失をもたらす、通常の相同組換えDNA損傷修復プロセスの欠損を示す分類である。
【0076】
CMSおよびHRDなどのバイオマーカーは、本明細書の技術による、標識されたRNAデータから決定された形態学的特徴のバイオマーカーの例である。
【0077】
例として、本明細書のバイオマーカーには、HRDステータス、DNA倍数性スコア、核型、CMSスコア、染色体不安定性(CIN)状態、印環形態スコア、NC比、細胞経路の活性化ステータス、細胞状態、腫瘍特性、およびスプライス変異体が含まれる。
【0078】
本明細書で使用される場合、「病理組織画像」は、微視的に、組織病理学的に発達した組織のデジタル(デジタル化されたものを含む)画像を指す。例としては、組織学的に染色された標本組織の画像があり、ここで、組織学的な染色は、微視的調査を支援するためにサンプル組織の準備で行われるプロセスである。一部の例では、病理組織画像は、ヘマトキシリンおよびエオシン染色(H&E)染色病理組織スライド、免疫組織化学(IHC)染色スライド、ロマノフスキー染色-ギムザ染色スライド、グラム染色スライド、トリクローム染色スライド、カーマイン染色スライド、および硝酸銀染色スライドのデジタル画像である。他の例として、血液塗抹スライドおよび腫瘍塗抹スライドが挙げられる。他の例では、病理組織画像は、当技術分野で知られている他の染色スライドのものである。本明細書で使用される場合、デジタル画像、デジタル化された画像、スライド画像、および医用画像への言及は、「病理組織画像」を指す。
【0079】
これらの病理組織画像は、組織病理学的に発達した組織の分光検査を使用して得られた赤外線デジタル画像など、可視波長領域および可視領域以外でもキャプチャすることができる。一部の例では、病理組織画像には、標本の様々なレベルまたはスライドの様々な焦点でキャプチャされた、三次元標本または病理組織スライドの水平断面を表すzスタック画像が含まれる。一部の例では、2つ以上の画像は、標本からの組織の隣接するセクションまたはほぼ隣接するセクションからの画像であり得、2つ以上の画像のうちの1つは、2つ以上の画像のうちの別の組織特徴部に対応する組織特徴部を有し得る。第1の画像における対応する組織特徴部の位置と第2の画像における対応する組織特徴部の位置との間には、垂直および/または水平のシフトが存在し得る。したがって、病理組織画像は、複数の異なる画像から生成された画像、画像のセット、または動画も指す。以下の例示的な実施形態は、明示的に除外されない限り、異なるスタイルの染色で、交換したり、またはモデルの訓練を受けたりできることを理解されたい。
【0080】
本明細書の様々な例は、特定のクラスの病理組織画像、H&Eスライド画像を参照して説明されている。デジタルH&Eスライド画像は、H&Eスライドのデジタル写真をキャプチャすることによって生成することができる。代替的に、または加えて、かかる画像は、染色されていない組織に由来する画像から、深層学習などの機械学習システムを介して生成され得る。例えば、デジタルH&Eスライド画像は、標識されていない組織切片の広視野自家蛍光画像から生成されてもよい。例えば、Rivenson et al.の「Virtual histological staining of unlabelled tissue-autofluorescence images via deep learning」,Nature Biomedical Engineering,3(6):466,2019を参照されたい。
【0081】
図1は、組織サンプルの病理組織スライドのデジタル画像を分析し、その組織におけるバイオマーカーの存在の可能性を決定することができる予測システム100を示しており、ここで、バイオマーカーの存在は、予測される腫瘍の存在、予測される腫瘍の状態(state)/状態(condition)、またはバイオマーカーに関連する治療の使用による臨床反応の可能性など、組織サンプルの腫瘍に関するその他の情報を示している。
【0082】
システム100は、撮像ベースのバイオマーカー予測システム102を含み、当該撮像ベースのバイオマーカー予測システム102により、特に、画像処理操作、深層学習フレームワーク、およびレポート生成操作を実装して、組織サンプルの病理組織画像を分析し、組織サンプル中のバイオマーカーの存在が予測される。様々な例において、システム100は、これらのバイオマーカーの存在、これらのバイオマーカーに関連する組織の位置、および/またはこれらのバイオマーカーの細胞の位置を予測するように構成される。
【0083】
撮像ベースのバイオマーカー予測システム102は、コンピュータ、タブレット、もしくは他のモバイルコンピューティングデバイスなどの1つ以上のコンピューティングデバイス、またはクラウドサーバなどのサーバ上に実装することができる。撮像ベースのバイオマーカー予測システム102は、本明細書で説明するように、画像のキャプチャ、生成、または保存および画像分析を処理または容易にするための複数のプロセッサ、コントローラ、または他の電子部品、ならびに画像の分析のための深層学習ツールを含み得る。撮像ベースのバイオマーカー予測システム102を実装するための例示的なコンピューティングデバイス3800が図38に示されている。
【0084】
図1に示すように、撮像ベースのバイオマーカー予測システム102は、ネットワーク104を介して1つ以上の医療データソースに接続されている。ネットワーク104は、インターネットなどのパブリックネットワーク、研究機関もしくは企業のプライベートネットワークなどのプライベートネットワーク、またはそれらの任意の組み合わせであり得る。ネットワークには、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、セルラー、衛星、または無線か有線かを問わず、その他のネットワークインフラストラクチャが含まれる。ネットワーク104は、クラウドベースのプラットフォームの一部であり得る。ネットワーク104は、インターネットプロトコル(IP)、伝送制御プロトコル(TCP)、ユーザデータグラムプロトコル(UDP)、または他のタイプのプロトコルなどのパケットベースおよび/もしくはデータグラムベースのプロトコルを含む通信プロトコルを利用できる。さらに、ネットワーク104は、スイッチ、ルーター、ゲートウェイ、アクセスポイント(示されているような無線アクセスポイントなど)、ファイアウォール、基地局、リピーター、バックボーンデバイスなど、ネットワーク通信を容易にし、かつ/またはネットワークのハードウェア基盤を形成する複数のデバイスを含むことができる。
【0085】
撮像ベースのバイオマーカー予測システム102は、ネットワーク104を介して通信可能に結合されて、医用画像、例えば、デジタルH&E染色スライド画像、IHC染色スライド画像、または多種多様な異なるソ-スからの他の染色プロトコルのデジタル画像などの病理組織スライドを受信する。これらのソースには、医師の臨床記録システム106および病理組織撮像システム108が含まれ得る。システム100を使用して、任意の数の医用画像データソースにアクセスすることができる。病理組織画像は、任意の専用デジタル医用画像スキャナ、例えば、20倍および40倍の解像度の倍率スキャナを含む任意の適切な光学病理組織スライドスキャナによってキャプチャされた画像であってもよい。さらに、バイオマーカー予測システム102は、病理組織画像リポジトリ110から画像を受信することができる。さらに他の例では、画像は、パートナーゲノムシーケンシングシステム112、例えば、TCGAおよびNCIゲノムデータコモンズ(Genomic Data Commons)から受信されてもよい。さらに、バイオマーカー予測システム102は、オルガノイドモデリングラボ116から病理組織画像を受信することができる。これらの画像ソースは、本明細書に記載の技術およびプロセスにしたがって、画像データ、ゲノムデータ、患者データ、治療データ、履歴データなどを通信することができる。画像ソースの各々は、複数の画像ソースを表すことができる。さらに、これらの画像ソースの各々は、異なるデータソースと見なすことができ、それらのデータソースは、他のプロバイダー、病院などとは異なる画像データを生成および提供することができる可能性がある。異なるソース間の撮像データは、潜在的に1つ以上の点で異なる可能性があり、その結果、様々な染料、生体サンプルの固定、埋め込み、染色プロトコル、ならびに異なる病理学的画像機器および設定など、様々なデータソース固有のバイアスが発生する。
【0086】
図1の例では、撮像ベースのバイオマーカー予測システム102は、画像前処理サブシステム114を含み、当該画像前処理サブシステム114は、機械学習フレームワークの訓練での処理を高速化し、訓練済みの深層学習フレームワークを使用してバイオマーカー予測を実行するために、初期画像処理を実行して、画像データを強化する。図示の例では、画像前処理サブシステム114は、受信した画像データに対して、色の正規化114a、強度の正規化114b、および撮像ソースの正規化114cのうちの1つ以上を含む正規化プロセスを実行し、受信した画像データの差異を補償および補正する。一部の例では、撮像ベースのバイオマーカー予測システム102は、医用画像を受信するが、他の例では、サブシステム114は、受信した病理組織スライドまたは他の受信した画像のいずれかから医用画像を生成することができ、例えば、シフトした病理組織画像を整列させて垂直/水平のシフトを補償することによって、複合病理組織画像を生成する。この画像の前処理により、深層学習フレームワークは、大規模なデータセット(例えば、1000個超、10000個超、100000個超、1000000個超の医用画像)にわたる画像をより効率的に分析できるため、訓練および分析処理が高速化される。
【0087】
画像前処理サブシステム114は、予備的な組織検出114dを行うことによって、受信した画像からアーティファクトおよび他のノイズを除去するさらなる画像処理を実行し、例えば、その後の分析、分類、およびセグメンテーションのために、組織病理学的に染色された組織に対応する画像の領域を識別することができる。
【0088】
本明細書でさらに説明するように、画像データがタイルベースで分析されるマルチスケール構成では、一部の例では、画像の前処理には、第1の画像解像度で初期の病理組織画像を受信することと、その画像を第2の画像解像度にダウンサンプリングすることと、次いで、色および/または強度の正規化など、ダウンサンプリングされた病理組織画像に対して正規化を実行し、画像から非組織オブジェクトを除去することと、が含まれる。
【0089】
対照的に、シングルスケール構成では、受信した病理組織画像のダウンサンプリングは使用されない。シングルスケール構成は、タイルベースではなく、スライドレベルベースで画像データを分析する。
【0090】
マルチスケールおよびシングルスケール構成の各々のさらに一部のハイブリッドバージョンでは、受信した病理組織画像にタイリングプロセスが適用されて、タイルベース分析用のタイルが生成される。
【0091】
撮像ベースのバイオマーカー予測システム102は、外部(すなわち、サードパーティ)ネットワークアクセス可能システム106、108、110、112、および116とインターフェースを有するスタンドアロンシステムであり得る。一部の例では、撮像ベースのバイオマーカー予測システム102は、分散型クラウドベースのプラットフォームの一部として含めて、これらのシステムの1つ以上と統合することができる。例えば、システム102は、デジタルH&E染色撮像システムなどの病理組織撮像システムと統合され、例えば、撮像ステーションでの迅速なバイオマーカー分析および報告を可能にし得る。実際、本明細書の技術で説明されている機能のいずれも、クラウドベースのデバイスを含む、1つ以上のネットワークアクセス可能なデバイスに分散され得る。
【0092】
一部の例では、撮像ベースのバイオマーカー予測システム102は、包括的なバイオマーカー予測、患者診断、および患者治療システムの一部である。例えば、撮像ベースのバイオマーカー予測システム102は、予測されたバイオマーカー情報、腫瘍予測、および腫瘍のステータス情報を外部システムに伝達するために結合され得、当該外部システムには、コンピュータベースの病理学検査室/腫瘍学システム118が含まれ、当該システムは、画像オーバーレイマッピングを含む生成されたバイオマーカーレポートを受信し、それを使用して患者の癌状態をさらに診断し、患者の治療に使用するための対応治療を特定し得る。撮像ベースのバイオマーカー予測システム102は、将来の患者分析(本明細書に記載の深層学習分析を含む)で使用するために、患者に関する過去に生成されたレポートおよび/または他の患者に関する生成されたレポートのデータベースを使用して患者レポートをデータベース化するため、生成されたレポートを、患者のプライマリケア提供者のコンピュータシステム120および医師の臨床記録システム122にさらに送信することができる。
【0093】
受信した病理組織画像データおよび他のデータを分析するために、撮像ベースのバイオマーカー予測システム102は、様々な機械学習技術を実装して、受信した画像データのセットまたは画像データおよび他の患者情報のセットから画像ベースのバイオマーカー分析のための訓練された分類器モデルを生成する深層学習フレームワーク150を含む。訓練済み分類器モデルを用いて、深層学習フレームワーク150をさらに使用して、患者から収集した後続の画像における画像ベースのバイオマーカーの存在が分析され、診断される。このようにして、過去に治療および分析された患者の画像およびその他のデータが、訓練済みモデルを通じて利用され、将来の患者のための分析および診断機能が提供される。
【0094】
例示的なシステム100では、深層学習フレームワーク150は、病理組織画像ベースの分類器訓練モジュール160を含み、当該モジュールは、外部システム106、108、110、112、および116、ならびに他の任意のシステムから受信および保存されたデータにアクセスすることができ、ここで、該データは、受信したデータストリームから分析され、様々なデータタイプにデータベース化することができる。この様々なデータタイプは、画像データ162aに分割され得、これは、他のデータタイプである分子データ162b、人口統計データ162c、および腫瘍応答データ162dに関連付けられ得る。関連付けは、画像データ162aを1つ以上の異なるデータタイプでラベル付けすることによって形成することができる。他のデータタイプとの関連付けにしたがって画像データ162aにラベルを付けることにより、撮像ベースのバイオマーカー予測システムは、画像データ162aから1つ以上の異なるデータタイプを予測するように画像分類器モジュールを訓練することができる。
【0095】
図示のデータでは、深層学習フレームワーク150は、画像データ162aを含む。例えば、マルチスケールPD-L1バイオマーカー分類器を訓練または使用するために、この画像データ162aは、サブシステム114から受信された前処理済み画像データ、H&Eスライドからの画像、または、PD-L1、PTEN、EGFR、ベータカテニン/カテニンベータ1、NTRK、HRD、PIK3CA、およびHER2、AR、ER、PRなどのホルモン受容体を標的とするIHCスライドを含むIHCスライドからの画像(人間の注釈ありまたはなし)を含み得る。マルチスケール分類器であれ、シングルスケール分類器であれ、他のバイオマーカー分類器を訓練または使用するために、画像データ162Aは、他の染色スライドからの画像を含んでもよい。さらに、シングルスケール分類器を訓練する例において、画像データ162Aは、本明細書でのマルチインスタンス学習(MIL)技術を可能にする特定のバイオマーカークラスターのRNA配列データに関連する画像データである。
【0096】
分子データ162bは、DNA配列、RNA配列、メタボロミクスデータ、プロテオミクス/サイトカインデータ、エピゲノムデータ、オルガノイドデータ、生核型データ、転写データ、トランスクリプトミクス、メタボロミクス、マイクロバイオミクス、およびイムノミクスを含み得、SNP、MNP、InDel、MSI、TMB、CNV融合、ヘテロ接合性の喪失、機能の喪失または獲得の識別を含み得る。エピゲノムデータには、DNAメチル化、ヒストン修飾、または遺伝子のヌクレオチド配列を変更せずに遺伝子を不活性化するか、遺伝子機能の変更を引き起こすその他の要因が含まれる。マイクロバイオミクスには、特定の病気の治療および診断に影響を与え得るウイルス感染に関するデータ、ならびに患者が摂取する薬の有効性に影響を与え得る患者の胃腸管に存在する細菌に関するデータが含まれる。プロテオミクスデータには、タンパク質の組成、構造および活性、タンパク質が発現する時期および場所、タンパク質の生産、分解、および定常状態の存在量の速度、タンパク質がどのように修飾されるか(例えば、リン酸化などの翻訳後修飾)、細胞内コンパートメント間のタンパク質の移動、代謝経路におけるタンパク質の関与、タンパク質が互いにどのように相互作用するか、あるいは、リン酸化、ユビキチン化、メチル化、アセチル化、グリコシル化、酸化、またはニトロシル化など、RNAからの翻訳後のタンパク質への修飾が含まれる。
【0097】
深層学習フレームワーク150は、人口統計データ162cおよび腫瘍応答データ162d(例えば、免疫療法、PARP阻害剤もしくはプラチナなどのDNA損傷療法、またはHDAC阻害剤などの特定の療法に供された後の腫瘍の成長の減少に関するデータを含む)をさらに含み得る。人口統計データ162cは、年齢、性別、人種、出身国などを含み得る。腫瘍応答データ162dは、エピゲノムデータを含み得、その例として、クロマチン形態の変化およびヒストン修飾が挙げられる。
【0098】
腫瘍応答データ162dは、細胞経路を含み得、その例として、IFNガンマ、EGFR、MAPキナーゼ、mTOR、CYP、CIMP、およびAKT経路、ならびにHER2および他のホルモン受容体の下流の経路が挙げられる。腫瘍応答データ162dには、細胞状態指標が含まれ得、その例として、コラーゲンの組成、外観、もしくは屈折率(例えば、細胞外対線維芽細胞、結節性筋膜炎)、間質の密度もしくは他の間質の特徴(例えば、間質の厚さ、湿潤対対乾燥)、および/または血管新生もしくは血管系の一般的な外観(コラーゲン/間質における血管系の分布を含み、上皮間葉転換またはEMTとも称される)が挙げられる。腫瘍応答データ162dには、腫瘍の特性が含まれ得、その例として、腫瘍の複雑さ、腫瘍の大きさ(腫瘍のバルキー状態または軽い状態を含む)を示す腫瘍の出芽または他の形態学的特徴/特性の存在、腫瘍の攻撃性(例えば、特に結腸直腸癌における高悪性度のバサロイド腫瘍、または特にバレット食道における高悪性度の異形成として知られている)、および/あるいは腫瘍の免疫状態(例えば、炎症性/「熱い」腫瘍と非炎症性/「冷たい」腫瘍と免疫除外腫瘍との対比)が挙げられる。
【0099】
病理組織画像ベースの分類器訓練モジュール160は、例えば、深層学習技術を含む、画像分析に適合された機械学習技術で構成され得、深層学習技術は、例として、CNNモデル、より具体的には、タイル解像度のCNNを含み、これは、一部の例では、FCNモデルとして実装され、より具体的には、タイル解像度のFCNモデルとして実装されている。データタイプ162a~162dのいずれも、病理組織画像内に含まれており、病理組織画像とともに伝達されるデータなどの、撮像ベースのバイオマーカー予測システム102に伝達されるデータから直接取得することができる。データタイプ162a~162dは、本明細書で論じられる1つ以上のバイオマーカーを識別するための分類器を開発するために、病理組織画像ベースの分類器訓練モジュール160によって使用されてもよい。
【0100】
一例では、病理組織画像をセグメント化することができ、画像の各セグメントは、そのセグメントに分類され得る1つ以上のデータタイプにしたがってラベル付けされ得る。別の例では、病理組織画像は、画像または画像の少なくとも1つのセグメントに分類され得る1つ以上のデータタイプにしたがって、全体としてラベル付けされ得る。データタイプは、1つ以上のバイオマーカーを示すことができ、病理組織画像またはセグメントをデータタイプでラベル付けすることにより、バイオマーカーが識別され得る。
【0101】
例示的なシステム100では、深層学習フレームワーク150は、深層学習技術で構成され得る訓練済み画像分類器モジュール170をさらに含み、これには、モジュール160を実装するものが含まれる。一部の例では、訓練済み画像分類器モジュール170は、分析およびバイオマーカー分類のために画像データ162にアクセスする。一部の例では、モジュール170は、分析および腫瘍予測、対応治療予測などのために、分子データ162、人口統計データ162c、および/または腫瘍応答データ162dにさらにアクセスする。
【0102】
訓練済み画像分類器モジュール170は、訓練済み組織分類器172を含み、当該訓練済み組織分類器172は、受信された画像データの領域/区域における組織型を識別および分類するために、1つ以上の訓練画像セットを使用してモジュール160によって訓練されている。一部の例では、これらの訓練済み組織分類器は、組織分類を介してバイオマーカーを識別するように訓練され、これらの分類器には、シングルスケール構成分類器172aおよびマルチスケール分類器172bが含まれる。
【0103】
モジュール170は、他の訓練済み分類器をさらに含み得、これには、細胞分類を介してバイオマーカーを識別する訓練済み細胞分類器174が含まれる。モジュール170は、細胞境界、細胞内部、および細胞外部を含む、病理組織画像内の細胞を識別する細胞セグメンタ176をさらに含み得る。
【0104】
本明細書の例では、組織分類器172は、本明細書のバイオマーカーにしたがって、腫瘍浸潤(腫瘍組織内のリンパ球の腫瘍組織内のすべての細胞に対する比など)、PD-L1(陽性または陰性のステータスなど)、倍数性(スコアなど)、CMS(サブタイプの識別など)、NC比(核サイズの識別など)、印環形態(シグネット細胞の分類や液胞サイズなど)、HRD(スコア、または陽性もしくは陰性の分類などによる)などを識別するように特別に訓練されたバイオマーカー分類器を含み得る。
【0105】
本明細書で詳述するように、訓練済み画像分類器モジュール170および関連する分類器は、例えば、深層学習技術を含む、画像分析に適合された機械学習技術で構成され得、深層学習技術は、例として、CNNモデル、より具体的には、タイル解像度のCNNを含み、これは、一部の例では、FCNモデルとして実装され、より具体的には、タイル解像度のFCNモデルなどとして実装されている、
【0106】
システム102は、訓練済み組織(バイオマーカー)分類器172、訓練済み細胞(バイオマーカー)分類器174、および細胞セグメンタ172から分類データを受信し、画像データの腫瘍メトリックを決定し、デジタル画像および統計データレポートを生成するように構成された腫瘍レポートジェネレータ180をさらに含む。ここで、かかる出力データは、病理学検査室118、プライマリケア医師システム120、ゲノムシーケンシングシステム112、腫瘍ボード、腫瘍ボード電子ソフトウェアシステム、またはさらなるプロセスでの表示もしくは消費のための他の外部コンピュータシステムに提供され得る。
【0107】
病理組織画像を使用する従来の癌診断ワークフロー200が図2に示されている。患者から組織サンプルを収集するために、生検が実行される。医療検査室では、例えばH&EまたはIHC染色などの既知の染色技術と、デジタル医療イメージャ(例えば、スライドスキャナ)とを使用して、組織サンプルのデジタル病理組織画像が生成される(202)。これらの病理組織画像は、それらを視覚的に分析する病理医に提供され、受け取った画像内の腫瘍が識別される(204)。病理医は、任意選択で、患者のゲノムシーケンシングデータ(例えば、ゲノムシーケンシングラボからのDNA SeqデータまたはRNA Seqデータ)を受け取り、そのデータを分析することができる(206)。次に、病理医は、病理組織スライドの視覚的分析および任意のゲノムシーケンシングデータから、腫瘍/癌細胞の癌のタイプの他の特性を診断し(208)、病理レポートを作成する(210)。
【0108】
図3は、撮像ベースのバイオマーカー予測システム102、より具体的には、深層学習フレームワーク300の形態の深層学習フレームワーク150の例示的な実装形態を示している。フレームワーク300は、医師の臨床記録システム106、病理組織撮像システム108、ゲノムシーケンシングシステム112、医用画像リポジトリ110、および/または図1のオルガノイドモデリングラボ116などの外部システムから、ネットワーク104を介して、病理組織画像データおよび他のデータ(分子データ、腫瘍応答データ、人口統計データなど)を受信するために通信可能に結合され得る。オルガノイドモデリングラボ116は、例えば、薬物に対するオルガノイドの(例えば、薬物への曝露後の細胞死または細胞生存率を測定することによって決定される)感受性、単細胞分析データ、または特定の細胞集団の存在を示す(タンパク質、脂質、その他の分子を含む)細胞産物の検出など、様々なタイプのデータを収集することができ、これには、エフェクターデータ、刺激データ、調節データ、炎症性データ、化学誘引性データ、ならびにオルガノイド画像データが含まれ、これらのいずれも分子データ162b内に保存され得る。
【0109】
フレームワーク300には、前処理コントローラ302、深層学習フレームワーク細胞セグメンテーションモジュール304、深層学習フレームワークマルチスケール分類器モジュール306、深層学習フレームワークシングルスケール分類器モジュール307、および深層学習後処理コントローラ308が含まれる。
【0110】
マルチスケールおよびシングルスケール深層学習のための医用画像を準備するために、一例では、前処理コントローラ302は、正規化プロセス310を含み、正規化プロセス310には、色の正規化、強度の正規化、および撮像ソースの正規化が含まれ得る。正規化プロセス310は任意選択であり、深層学習訓練、画像分析、および/またはバイオマーカー予測を促進するために除外することができる。
【0111】
画像弁別器314は、正規化プロセス310により正規化された病理組織画像を受信し、画像メタデータを含む画像を調べて、画像のタイプを判定する。画像弁別器314は、画像データを分析して、画像が訓練画像であるかどうか、例えば、訓練データセットからの画像であるかどうかを判定することができる。画像弁別器314は、画像データを分析して、画像上のラベル付けのタイプ、例えば、画像がタイルレベルのラベル付けを有するか、スライドレベルのラベル付けを有するか、またはラベル付けを有しないかを判定することができる。画像弁別器314は、画像データを分析して、デジタル画像、H&E、IHCなどを生成するために使用されるスライド染色を判定することができる。
【0112】
この画像データを調べることに応答して、画像弁別器314は、どの画像が、深層学習フレームワークのシングルスケール分類器モジュール307に供給するためにスライドレベルのラベルパイプライン313に提供されるか、ならびにどの画像が、深層学習フレームワークのマルチスケール分類器306に供給するためにタイルレベルのラベルパイプライン315に提供されるかを判定する。
【0113】
図示の例では、パイプライン315にタイルレベルのラベル付けを有する画像には、組織検出プロセスおよび画像タイリングプロセスが含まれる。これらのプロセスは、受信したすべての画像データに対して実行されてもよく、訓練画像データに対してのみ実行されてもよく、分析のために受信した画像データに対してのみ実行されてもよく、またはそれらの何らかの組み合わせに対して実行されてもよい。一部の例では、例えば、組織検出プロセスは、深層学習訓練、画像分析、および/またはバイオマーカー予測を促進するために除外することができる。実際、コントローラ302のプロセスのいずれも、専用のバイオマーカー予測システムで実行されてもよく、または外部接続されたシステムによるパフォーマンスのために分散されてもよい。例えば、病理組織撮像システムは、画像データをバイオマーカー予測システムに送信する前に正規化プロセスを実行するように構成されてもよい。一部の例では、バイオマーカー予測システムは、実行可能な正規化ソフトウェアパッケージを、接続された外部システムに通信することができ、外部システムは、正規化または他の前処理を実行するように、それらのシステムを構成する。
【0114】
画像弁別器314がラベルなし画像をパイプライン315に送信する例において、パイプライン315は、本明細書でさらに説明するマルチインスタンス学習(MIL)コントローラを含み、MILコントローラは、これらの病理組織画像の全部または一部をタイルラベル付き画像に変換するように構成されている。MILコントローラは、図18~26に記載されているようなプロセスを本明細書で実行するように構成することができる。
【0115】
訓練済み組織分類器の組織検出を促進するために、パイプライン315の組織検出プロセスは、初期の組織識別を実行して、バイオマーカー分析のために対象の組織領域を見つけてセグメント化することができる。このような対象の組織識別には、例えば、組織境界を識別し、画像を組織および非組織領域にセグメント化することが含まれ得、その結果、組織領域を識別するメタデータは、処理を促進し、非組織領域または検査対象の組織に対応しない領域でのバイオマーカー分析の試行を防ぐために、画像データとともに保存される。
【0116】
様々なマルチスケール構成での深層学習分類を容易にするために、深層学習フレームワークマルチスケール分類器モジュール306は、タイリング分析を使用して組織を分類するように構成される。例えば、パイプライン315において、組織検出プロセスは、病理組織画像(例えば、組織検出メタデータで強化された画像データ)を画像タイリングプロセスに送信し、画像タイリングプロセスは、受信した画像にタイリングマスクを選択および適用して、フレームワークモジュール306による分析のために画像を小さなサブ画像にして分析する。パイプライン315は、複数の異なるタイリングマスクを保存し、タイリングマスクを選択することができる。一部の例では、画像タイリングプロセスは、異なるバイオマーカー用に最適化された1つ以上のタイリングマスクを選択する。すなわち、一部の例では、画像タイリングは、バイオマーカーに固有である。これにより、例えば、特定のバイオマーカーに関連する精度を向上させ、かつ/または処理時間を短縮したりするために特別に選択された、様々なピクセルサイズおよび様々なピクセル形状のタイルを使用することができる。例えば、画像内のTILの存在を識別するために最適化されたタイルサイズは、PD-L1または別のバイオマーカーを識別するために最適化されたタイルサイズとは異なってもよい。したがって、一部の例では、プリプロセッサコントローラ302は、あるタイプのバイオマーカーに固有の画像処理およびタイリングを実行するように構成され、システム300がそのバイオマーカーの画像データを分析した後、コントローラ302は、すべてのバイオマーカーが検査されるまで、次のバイオマーカー用に分析するために、元の画像データを再処理することができる。
【0117】
概して言えば、パイプライン315の画像タイリングプロセスによって適用されるタイリングマスクを選択して、深層学習フレームワークモジュール306の動作の効率を高めることができる。タイリングマスクは、受信した画像データのサイズに基づいて、深層学習フレームワーク306の構成に基づいて、フレームワークモジュール304の構成に基づいて、またはそれらの一部の組み合わせに基づいて選択することができる。
【0118】
タイリングマスクは、タイリングブロックのサイズが異なっていてもよい。一部のタイリングマスクは、均一な(つまり、それぞれが同じサイズである)タイリングブロックを有する。一部のタイリングマスクは、異なるサイズのタイリングブロックを有する。画像タイリングプロセスによって適用されるタイリングマスクは、例えば、深層学習フレームワーク306内の分類層の数に基づいて選択することができる。一部の例では、タイリングマスクは、例えば、複数の並列プロセッサが利用可能である場合、またはグラフィカル処理ユニットもしくはテンソル処理ユニットが使用される場合、バイオマーカー予測システムのプロセッサ構成に基づいて選択され得る。
【0119】
図示の例では、深層学習マルチスケール分類器モジュール304は、細胞セグメンテーションモデル316を介して細胞セグメンテーションを実行するように構成される。ここで、細胞セグメンテーションは、正規化プロセス310からの病理組織画像のピクセルレベルのプロセスであり得る。他の例では、このピクセルレベルのプロセスは、パイプライン315から受信された画像タイルに対して実行されてもよい。一部の例では、本明細書で識別されるバイオマーカーの一部が、組織レベル分析とは対照的に、細胞レベル分析から決定されるため、フレームワーク304の細胞セグメンテーションプロセスにより、バイオマーカー分類が得られる。これらには、例えば、印環、大きな核、および高いNC比が含まれる。モジュール304は、CNN構成を使用して、特に、それぞれの別個のセグメンテーションを実装するためのFCN構成を使用して構成することができる。
【0120】
深層学習フレームワークマルチスケール分類器モジュール306は、組織セグメンテーションモデル318、組織分類モデル320、およびバイオマーカー分類モデル320を含む。モジュール304と同様に、モジュール306は、CNN構成を使用して、特に、それぞれの別個のセグメンテーションを実装するためのFCN構成を使用して構成することができる。
【0121】
一例では、モジュール304の細胞セグメンテーションモデル316は、損失関数をクロスエントロピー関数、焦点損失関数、または平均二乗誤差関数に置き換えて3クラスのセグメンテーションモデルを形成するUNet分類器を修正することによって開発された、3クラスセマンティックセグメンテーションFCNモデルとして構成され得る。FCNモデルの3クラスの性質は、細胞セグメンテーションモデル316が、画像データの各ピクセルを識別し、細胞サブユニットクラス、すなわち(i)細胞内部、(ii)細胞境界、または(iii)細胞外部に割り当てる第1のピクセルレベルのFCNモデルとして構成され得ることを意味する。これは、例として提供されている。モジュールモデル316のセグメンテーションサイズは、セグメント化される細胞の型に基づいて決定され得る。例えば、両方のTILバイオマーカーについて、モデル316は、3クラスFCNモデルを使用してリンパ球の識別およびセグメンテーションを実行するように構成できる。例えば、細胞セグメンテーションモデル316は、リンパ球細胞の(i)内部、(ii)境界、または(iii)外部に対応するものとして画像内のピクセルを分類するように構成され得る。細胞セグメンテーションモデル316は、任意の数の細胞を識別およびセグメント化するように構成することができ、その例として、腫瘍陽性、腫瘍陰性、リンパ球陽性、リンパ球陰性、リンパ球を含む免疫細胞、細胞傷害性T細胞、B細胞、NK細胞、マクロファージなどが挙げられる。
【0122】
一部の例では、モジュール304は、パイプライン315からタイル化されたサブ画像を受信し、細胞セグメンテーションモデル316は、すべてのリンパ球の位置のリストを決定し、それらの位置は、モデル316から決定された他の3つのクラスモデルのすべての細胞のリストと比較されて、細胞ではない誤検出されたリンパ球が排除される。次に、システム300は、このモジュール304から確認されたリンパ球の位置の新しいリストを取得し、組織の組織セグメンタモジュール318のリスト、例えば、組織分類モデル320から決定された腫瘍および非腫瘍組織の位置と比較し、リンパ球が腫瘍または非腫瘍領域にあるかどうかを判定する。
【0123】
3クラスモデルを使用すると、個々の細胞のカウントが容易になり、特に2つ以上の細胞が互いに重なり合っている場合に、より正確な分類が可能になる。腫瘍浸潤リンパ球は、腫瘍細胞と重なり合っている。ピクセルに細胞の外縁が含まれるかどうかのみをラベル付けする従来の2クラスの細胞の輪郭モデルでは、2つ以上の重なり合う細胞の各塊が、1つの細胞としてカウントされる。
【0124】
3クラスモデルを使用することに加えて、細胞セグメンテーションモデル316は、各タイルの4つの側面すべての周囲に、平均的な細胞よりもわずかに広いバッファを追加することで、2つのタイルにまたがる細胞が2回カウントされる可能性を回避するように構成することができる。意図は、各タイルの中央のバッファされていない領域に表示される細胞のみをカウントすることである。この場合、タイルは、隣接するタイルの中央のバッファされていない領域が隣接し、重なり合わないように配置される。隣接するタイルは、それらのそれぞれのバッファ領域で重なり合う。
【0125】
一例では、モデル316の細胞セグメンテーションアルゴリズムは、2つのUNetモデルから形成され得る。あるUNetモデルは、人間の分析者が各細胞の外縁を強調し、各細胞を組織クラスに応じて分類した、組織クラスが混在した画像を用いて訓練することができる。一例では、訓練データは、すべてのピクセルが細胞の内部、細胞の外縁、またはすべての細胞の外部である背景のいずれかとしてラベル付けされている、デジタルスライド画像を含む。別の例では、訓練データには、細胞の外縁を示すかどうかを示すために、すべてのピクセルに「はい」または「いいえ」のラベルが付けられたデジタルスライド画像が含まれる。このUNetモデルは、多くのタイプの細胞の外縁を認識することができ、組織分類モジュール320によって割り当てられた組織クラス領域内の細胞形状またはその位置にしたがって、各細胞を分類することができる。
【0126】
別のUNetモデルは、単一の組織クラスの多くの細胞の画像、または1つの組織クラスの細胞のみがバイナリマスクで輪郭を描かれる多様な細胞セットの画像で訓練され得る。一例では、訓練セットは、第1の値を対象の細胞型を示すすべてのピクセルに関連付けし、第2の値を他のすべてのピクセルに関連付けることによって、ラベル付けされる。視覚的には、このようにラベル付けされた画像は白黒画像として表示され、対象の組織クラスを示すすべてのピクセルは白になり、他のすべてのピクセルは黒になり、その逆も同様である。例えば、画像は、ラベルが付けられたリンパ球のみを有し得る。このUNetモデルは、その特定の細胞型の外縁を認識し、スライドのデジタル画像内のそのタイプの細胞にラベルを割り当てることができる。
【0127】
細胞セグメンテーションモデル316は、細胞検出に使用できる訓練済み細胞セグメンテーションモデルであるが、一部の例では、モデル316は、バイオマーカーに対応するものとしてピクセルを分類するピクセルレベル分類器として構成されたバイオマーカー検出モデルとして構成されている。
【0128】
深層学習フレームワークのマルチスケール分類器モジュール306に目を向けると、組織セグメンテーションモデル318は、セグメンテーションモデル316と同様の方法で構成され得、すなわち、損失関数をクロスエントロピー関数、焦点損失関数、または平均二乗誤差関数に置き換えて3クラスのセグメンテーションモデルを形成するUNet分類器を修正することによって開発された、3クラスセマンティックセグメンテーションFCNモデルとして構成され得る。モデル318は、タイル内の様々な組織型の内部、外部、および境界を識別し得る。
【0129】
組織分類モデル320は、複数の異なる組織分類のうちの1つに対応するものとしてタイルを分類するように構成された、タイルベースの分類器である。組織クラスの例には、腫瘍、間質、正常、リンパ球、脂肪、筋肉、血管、免疫クラスター、壊死、過形成/異形成、赤血球、およびIHC染色標的分子に対して陽性(特に特定の閾値よりも多い量のIHC染色の標的分子を含む)または陰性(該分子を含まないか、もしくは特定の閾値よりも低い量の該分子を含む)である組織クラスもしくは細胞型が挙げられるが、これらに限定されない。例には、腫瘍陽性、腫瘍陰性、リンパ球陽性、およびリンパ球陰性がまた挙げられる。
【0130】
細胞セグメンテーションモデル316によって生成された病理組織画像における細胞セグメンテーションおよび組織分類モデル302からの組織分類により、バイオマーカー分類モデル322は、両方からデータを受信し、病理組織画像における予測バイオマーカーの存在を判定し、特に、マルチスケール構成では、病理組織画像の各タイル画像における予測バイオマーカーの存在を判定する。バイオマーカー分類モデル322は、示されているように、深層学習フレームワークモデル306に実装されているか、または深層学習後処理コントローラ308などのモデル306とは別に実装されている訓練済み分類器であり得る。
【0131】
TILバイオマーカーを検出するバイオマーカー分類モデルの一部の例では、組織分類モデル320は、タイル画像内のTILのパーセンテージを識別するように訓練されており、細胞セグメンタ316は細胞境界を決定し、バイオマーカー分類モデル322は、細胞内部内のTILのパーセンテージに基づいてタイル画像を分類し、(i)腫瘍-IHC/リンパ球陽性または(ii)非腫瘍-IHC/リンパ球陽性の分類をもたらす。
【0132】
倍数性を検出するバイオマーカー分類モデルの一部の例では、バイオマーカー分類モデル322は、例えば、Coudray N,Ocampo PS,Sakellaropoulos T,Narula N,Snuderl M,Fenyo D,et al.の「Classification and mutation prediction from non-small cell lung cancer histopathology images using deep learning」Nat Med.2018;24:1559-67で提供される技術を使用して、病理組織画像および関連する倍数性スコアに基づく倍数性モデルで訓練することができる。
【0133】
一例では、訓練データは、細胞遺伝学者によって決定された実際の核型などのデータであり得るが、一部の例では、バイオマーカー分類モデル322は、かかるデータを推論するように構成され得る。倍数性データは、染色体番号、開始位置、停止位置、領域の長さの列でフォーマットできる。倍数性スコアは、DNAシーケンシングデータから決定することができ、遺伝子、染色体、または染色体のアームに固有であり得る。倍数性スコアはグローバルであり、サンプルのゲノム全体を表す場合があり得(グローバルCNV/コピー数多型は腫瘍核のヘマトキシリン染色に変化を引き起こし得る)、ゲノム内の各領域の倍数性スコアを平均することによって計算されたスコアであり得、ローカルの地域の倍数性スコアは、そのスコアに関連付けられている各領域の長さに応じて重み付けされ得る。バイオマーカー分類モデル322の訓練済み倍数性モデルは、遺伝子、染色体のアーム、または染色体全体に固有であり得る。これは、各セクションが病理組織画像に見られる細胞形態に異なる影響を与える可能性があるためである。スライド上の腫瘍純度または細胞数が低くても、倍数性が通常よりも高ければ、遺伝子検査に十分な材料が残っている可能性があるため、予測される倍数性バイオマーカーデータは、受け入れ/拒否分析に影響を与える可能性がある。バイオマーカーメトリックプロセッサ326は、レポート生成の前にかかる決定を行うように構成され得る。
【0134】
印環形態を検出するバイオマーカー分類モデルの一部の例では、バイオマーカー分類モデル322は、低凝集性(PC)、印環細胞(SRC)、およびローレンのサブ分類、ならびにMariette,C.,Carneiro,F.,Grabsch,H.I.et al.の「Consensus on the pathological definition and classification of poorly cohesive gastric carcinoma」Gastric Cancer 22,1-9(2019)およびその他の印環形態分類などの分類技術に基づく印環形態モデルで訓練され得る。
【0135】
NC比を検出するバイオマーカー分類モデルの一部の例では、細胞セグメンテーションモデル316は、本明細書に記載の3クラスUNetで構成され得るが、このモデルは、3つのクラス、すなわち核、細胞質、および細胞境界/非細胞の背景を識別するように訓練される。一例では、訓練データは、各ピクセルがこれらの3つのクラスのうちの1つで手動で注釈が付けられた画像であってもよく、かつ/または図4の更新された訓練画像の例で説明されるように、訓練済みモデルによってこのように注釈が付けられた画像であってもよい。
【0136】
したがって、細胞セグメンテーションモデル316は、入力画像を分析し、3つのクラスのうちの1つを各ピクセルに割り当て、細胞を隣接する核ピクセルと次に最も近い境界ピクセルとの間のすべての細胞質ピクセルのグループとして定義するように訓練され得る。次に、バイオマーカー分類モデル322は、各細胞について、細胞全体(核および細胞質)の面積(ピクセル数)で割った細胞の核の面積(ピクセル数)として核:細胞質比を計算するように構成することができる。
【0137】
腫瘍組織および組織の腫瘍のステータスを識別するために、深層学習フレームワーク306は、一例において、FCN分類器を使用して構成することができる。一例では、深層学習フレームワーク304は、ピクセル解像度FCN分類器として構成され得るが、深層学習フレームワーク306は、タイル解像度FCN分類モデル、またはタイル解像度CNNモデル、すなわち、画像データの受信されたタイル全体に対して分類を実行するモデルとして構成することができる。
【0138】
モジュール306の分類モデル320は、例えば、バイオマーカーのステータス、腫瘍のステータス、組織型、および/もしくは腫瘍の状態(state)/状態(condition)、または他の情報など、複数の組織クラスのうちの1つに対応するものとしてタイル内の組織を分類するように構成することができる。図示の例では、モジュール306は、組織分類320および組織セグメンテーションモデル322を有するように構成される。TILバイオマーカーの例示的な実装形態において、組織分類モデル320は、腫瘍-IHC陽性、腫瘍-IHC陰性、壊死、間質、上皮、または血液などの組織分類を使用して、組織を分類することができる。組織セグメンテーションモデル328は、組織分類モデル320によって識別された異なる組織型の境界を識別し、後処理コントローラ308によって、オーバーレイマッピングレポートジェネレータにおいて、異なる組織型の境界および色分けを視覚的に表示するのに使用するためのメタデータを生成する。
【0139】
例示的な実装形態では、深層学習フレームワーク300は、分類モデル320および322のプロセスからタイル(すなわち、サブ画像)を受信することによって、タイルベースでの分類を実行する。一部の例では、タイリングは、タイリングマスクを使用してフレームワーク306によって実行され得、モジュール306自体は、組織分類を実行することに加えて、ピクセルレベルのセグメンテーションのために生成されたサブ画像をモジュール304に送信し得る。モジュール306は、各タイルを次々に順次検査することができ、または、モジュール306は、画像のより高速な処理のために、FCNモデルによって生成された行列の性質によって、各タイルを並行して検査することができる。
【0140】
一部の例では、組織セグメンテーションモデル318は、モジュール304からピクセル解像度の細胞セグメンテーションデータおよび/またはピクセル解像度のバイオマーカーセグメンテーションデータを受信し、タイルベースおよびベースで統計分析を実行する。一部の例では、当該統計分析により、(i)組織によって覆われた画像データの区域、例えば、組織によって覆われた染色済みの病理組織スライドの区域、および(ii)画像データ内の細胞の数、例えば、染色済みの病理組織スライド内の細胞の数が決定される。例えば、組織セグメンテーションモデル318は、画像を形成するすべてのタイルが分類されるまで、画像の各タイルの細胞および組織の分類を蓄積することができる。
【0141】
深層学習フレームワークがタイルベースでバイオマーカーを分類するためのマルチスケール分類器モジュールである場合、深層学習フレームワーク300は、タイルレベルのラベル付けを必要とせずに、スライドレベルの訓練画像から訓練された分類を使用してバイオマーカーを分類するようにさらに構成される。例えば、以下でさらに議論されるように、画像弁別器によって受信されたスライドレベル訓練画像は、MILコントローラを有するスライドレベルラベルパイパー313に提供され得、当該MILコントローラは、本明細書の図18~26に記載されるようなプロセスを実行して、推論された分類を有する複数のタイル画像を生成し、任意選択でそれらのタイルに対してタイル選択を実行して、組織分類モデル317およびバイオマーカー分類モデル319を訓練するように構成されている。シングルスケール分類器の例として、出力がCMSクラスであるCMSバイオマーカー分類モデル、および出力がHRD+またはHRD-であるHRDバイオマーカー分類モデルが挙げられる。これらの分類は、バイオマーカー予測を決定するために病理組織画像全体に対して実行されてもよく、そのデジタル画像の各タイル画像に対して実行され、バイオマーカーメトリックプロセッサ326によって分析されて、タイル画像からバイオマーカー予測を決定してもよい。
【0142】
HRDを検出するバイオマーカー分類モデルの一部の例では、バイオマーカー分類モデル319は、HRDを予測するように構成することができる。分類器318内のHRDモデルの訓練は、病理組織画像および一致したHRDスコアに基づき得る。例えば、訓練データは、H&E画像およびRNA配列データによって生成され得、RNA配列データには、一部の例では、RNA発現プロファイルデータが含まれ、当該RNA発現プロファイルデータは、図4の更新された訓練データ403と同様に、HRDモデルに供給され、さらなる訓練のためにフィードバックされる。訓練データは、腫瘍オルガノイドに由来し得、オルガノイドのH&E画像と、HRDを示すPARP阻害剤に対するオルガノイドの感受性の測定値、またはオルガノイドのRNA発現プロファイルに基づいてRNAチームが実行したHRDモデルの結果が対になっている。バイオマーカー分類モデル319の例示的なHRD予測モデルは、Peng,Guang et al.の「Genome-wide transcriptome profiling of homologous recombination DNA repair」,Nature communications vol.5(2014):3361 およびvan Laar,R.K.,Ma,X.-J.,de Jong,D.,Wehkamp,D.,Floore,A.N.,Warmoes,M.O.,Simon,I.,Wang,W.,Erlander,M.,van’t Veer,L.J.and Glas,A.M.(2009)の「Implementation of a novel microarray-based diagnostic test for cancer of unknown primary」Int.J.Cancer,125:1390-1397に記載されている。
【0143】
一例では、深層学習フレームワークにより、RNA発現を使用してH&EスライドからHRDを識別し、バイオマーカー発現細胞を含むスライドのパーセンテージを示すスライドレベルラベルを識別することができる。一例では、RNAラベルの活性化マップアプローチを、バイナリラベル(すなわち、組織のどこかでの陽性または陰性HRD発現)として、または連続パーセンテージ(すなわち、画像内の細胞の62%がHRDを発現していることが判明した場合)として、スライド全体に適用することができる。バイナリRNAラベルは、標本の次世代シーケンシングによって生成され得、細胞パーセンテージラベルは、単一細胞のRNAシーケンシングを適用することによって生成され得る。一例では、単一細胞のシーケンシングにより、NGSからのRNA発現に存在する細胞型および量を識別することができる。
【0144】
全スライド画像の各タイルのバイオマーカー分類ラベルを予測するためのタイルベースの深層学習ネットワークの訓練は、本明細書に記載の方法のいずれかを使用して実行することができる。訓練が完了すると、そのモデルを、各タイルへの活性化マッピングの方法に適用できる。活性化マッピングは、Grad-CAM(勾配クラス活性化マッピング)またはガイド付きバックプロパゲーションを使用して実行できる。双方とも、タイルのどの領域が分類に最も貢献しているかを識別することができる。一例では、HRD陽性クラスに最も寄与するタイルの部分は、タイルの右上隅にクラスター化された細胞であり得る。次に、識別された活性領域内の細胞は、HRD陽性細胞と標識され得る。
【0145】
モデルが臨床的に確実に機能することを証明することには、モデルの結果をグラウンドトゥルースのソースと比較することが含まれ得る。グラウンドトゥルースの1つの可能な生成方法には、組織マイクロアレイを介してセグメント化し、各領域を個別にシーケンスして各領域のRNAラベルを取得することにより、それぞれが100個未満の細胞を含む組織の小さな領域を分離することが含まれる。グラウンドトゥルースの生成方法には、バイオマーカー分類モデルを使用してこれらの領域を分類し、活性化マップがHRD発現の高い領域の細胞を強調表示し、HRD発現の低い領域の大部分の細胞を無視する精度を特定することがさらに含まれ得る。
【0146】
タイルベースの深層学習ネットワークを訓練して各タイルのバイオマーカー分類ラベルを予測する場合、強力な教師ありアプローチを利用してバイオマーカーラベルが生成され、個々の細胞のHRDステータス(陽性または陰性)が識別される。単一細胞のRNAシーケンシングは、単独で使用することができ、または、レーザ誘導顕微解剖と組み合わせて使用して、一度に1つの細胞を抽出し、各細胞の標識を作成することもできる。一例では、細胞セグメンテーションモデルを組み込んで、最初に細胞の輪郭を取得し、次に人工知能エンジンを組み込んで、バイオマーカーのステータスにしたがって細胞の各々の外形内のピクセル値を分類することができる。別の例では、画像のマスクが生成され得、HRD陽性細胞に第1の値が割り当てられ、HRD陰性細胞に第2の値が割り当てられる次に、マスク付きのスライドを使用してシングルスケール深層学習フレームワークを訓練し、HRDを発現する細胞を識別することができる。
【0147】
CMSを検出するバイオマーカー分類モデルの一部の例では、バイオマーカー分類モデル319は、CMSを予測するように構成することができる。かかるバイオマーカー分類は、セグメント化された細胞を癌特異的分類に対応するものとして分類するように構成することができる。例えば、原発性結腸直腸癌における4つの訓練済みCMS分類には、1-免疫浸潤(多くの場合、BRAFmut、MSI-High、TMB-High)、2-正規(多くの場合、ERBB/MYC/WNT駆動)、3-代謝(多くの場合、KRASmut)、および4-間葉系(多くの場合、TGF-B駆動)が含まれる。他の例では、より訓練されたCMS分類を使用することができるが、概して、2つ以上のCMSサブタイプが、本明細書の例で分類される。さらに、他の癌のタイプは、独自の訓練済みCMSカテゴリを有し得、分類器318は、各癌のタイプをサブタイプ化するためのモデルを有するように構成され得る。4、5、6、7またはそれ以上の数のCMS分類のCMS分類を開発するための技術例は、Eide,P.W.,Bruun,J.,Lothe,R.A.et al.の「CMScaller:an R package for consensus molecular subtyping of colorectal cancer pre-clinical models」Sci Rep 7,16618(2017)およびhttps://github.com/peterawe/CMScallerに記載されている。
【0148】
分類器318内のCMSモデルの訓練は、CMSカテゴリ割り当てに一致する病理組織画像に基づき得る。CMSカテゴリの割り当ては、RNA発現プロファイルに基づき得、一例では、CMSコーラー(CMS Caller)と称される最も近いテンプレート予測を使用するRプログラムによって生成される(Eide,P.W.,Bruun,J.,Lothe,R.A.et al.の「CMScaller:an R package for consensus molecular subtyping of colorectal cancer pre-clinical models」Sci Rep 7,16618(2017)およびhttps://github.com/peterawe/CMScallerを参照)。ランダムフォレストモデルを使用した代替の分類が、Guinney,J.,Dienstmann,R.,Wang,X.et al.の「The consensus molecular subtypes of colorectal cancer」Nat Med 21,1350-1356(2015)に記載されている。例えば、CMSコーラーにより、各RNA配列データサンプルを調べて、各遺伝子が平均を上回っているか下回っているかを判定して、各遺伝子の二項分類が行われる。これにより、例えば異なるRNA配列データセット間のバッチ効果が回避される。訓練データには、DNAデータ、IHCデータ、ムチンマーカー、臨床レポートからの治療反応/生存データも含まれ得る。これらは、CMSカテゴリの割り当てに関連付けられてもよく、関連付けられていなくてもよい。例えば、CMS4 IHCはTGFbetaに対して陽性に染色され、CMS1 IHCはCD3/CD8に対して陽性であり得、CMS2および3はムチン遺伝子の変化があり、CMS2はセツキシマブに反応し、CMS1はアバスチンに対して良く反応する。CMS1の生存予後は最良で、CMS4の予後は最悪である。(CMSスライドのスライド12を参照)。CMSカテゴリ1および4は、H&Eから検出できる。訓練を行うことにより、例えば、図4のアーキテクチャを使用してモデルを訓練し、CMS2と3との違いを識別および分類できる。
【0149】
一例では、バイオマーカー分類モデル319は、特有の分子的、機能的および表現型の特異性を備えた5つのCRC固有サブタイプ(CRIS)、すなわち(i)CRIS-A:粘液性、解糖系、濃縮マイクロサテライト不安定性またはKRAS変異と、(ii)CRIS-B:TGF-β経路活性、上皮間葉転換、予後不良と、(iii)CRIS-C:EGFRシグナル伝達の上昇、EGFR阻害剤に対する感受性と、(iv)CRIS-D:WNT活性化、IGF2遺伝子の過剰発現および増幅と、(v)CRIS-E:パネート細胞のような表現型、TP53変異と、を識別するように構成することができる。CRISサブタイプは、原発性および転移性CRCの独立したセットを正常に分類するが、既存の転写クラスとの重複は限られており、予測および予後のパフォーマンスは前例のないものであった。例えば、Isella,C.,Brundu,F.,Bellomo,S.et al.の「Selective analysis of cancer-cell intrinsic transcriptional traits defines novel clinically relevant subtypes of colorectal cancer」Nat Commun 8,15107(2017)を参照されたい。
【0150】
バイオマーカー検出の場合、バイオマーカー分類モデル319は、すべてのタイルにわたる単なる平均CMS分類を試みる代わりに、各タイルについて予測するCMSモデル、その分類のための異なる組織型(例えば、間質)を識別するCMS分類で訓練され得る。一例では、各タイルが処理され、CMSモデルは、各タイルに関連付けられたピクセルデータを使用して圧縮表現を生成し、各タイルは、各タイルのピクセルデータのパターンおよびタイル間の類似性に基づいて、クラス(クラスター1、クラスター2など)に割り当てられる。各クラスターに属する画像内のタイルのパーセンテージのリストは、画像のクラスタープロファイルであり、レポートジェネレータによって提供され得る。一例では、各プロファイルは、訓練のために、対応するCMS指定またはRNA発現プロファイル(これは、CMSカテゴリを定義するために使用された元の方法である)とともにモデルに供給される。別の例では、すべての訓練スライド画像の各タイルに、そのタイルの元となったスライド全体に割り当てられた全体的なCMSカテゴリにしたがって、注釈が付けられ、タイルがクラスター化および分析されて、CMSカテゴリに最も密接に関連付けられたクラスターが判定される。
【0151】
一部の例では、バイオマーカー分類モデル319(およびバイオマーカー分類モデル322)は、各タイルで同じ分類を実行し、そのタイル分類に均等に重み付けする代わりに、各タイルを離散的な数のクラスターにクラスター化することができる。これを達成する1つの方法は、バイオマーカー分類モデルにアテンション層を含めることである。一例では、すべての訓練スライドのすべてのタイルをクラスターに分類でき、その後、クラスター内のタイルの数が統計的にバイオマーカーに関連していない場合、そのクラスターは、バイオマーカーに関連付けられているクラスターほど高く重み付けされない。他の例では、多数決技術を使用して、バイオマーカー分類モデル319(またはモデル322)を訓練することができる。
【0152】
別個のモデルとして示されているが、バイオマーカー分類モデル322および319はそれぞれ、本明細書の様々なバイオマーカーを分類する場合のように、対応する組織分類モデル、細胞セグメンテーションモデル、および組織セグメンテーションモデルの全部または一部を含むように構成され得る。さらに、バイオマーカー分類モデル322は、マルチスケール分類器モジュール306内に含まれることが示され、バイオマーカー分類モデル319は、シングルスケール分類器モジュール307内に含まれることが示されているが、一部の例では、これらのバイオマーカー分類モデルの全部または一部は、本明細書の様々なバイオマーカーを分類する場合のように、後処理コントローラ308において実装され得る。さらに、タイルレベルまたはスライドレベルの分類モデルとして説明されているが、一部の例では、バイオマーカー分類モデル322および319は、一部の例では、ピクセルレベルの分類器として構成され得る。
【0153】
モジュール304、306、および307によって行われた決定から、後処理コントローラ308は、画像データが閾値を超えるか、かつ/または基準を満たす組織の量を含むかどうか、例えば、遺伝子分析に十分な組織、深層学習フレームワークの学習フェーズで画像データを訓練画像として使用するのに十分な組織、または画像データを既存の訓練済み分類器モデルと組み合わせるのに十分な組織の量を含むかどうかを判定することができる。
【0154】
したがって、図3および本明細書の他の場所を参照して説明されたものをはじめ、本明細書の様々な例において、患者レポートが生成され得る。このレポートは、デジタルコピー(例えば、JSONオブジェクト、PDFファイル、またはwebサイトもしくはポータル上の画像)、ハードコピー(例えば、紙または別の有形媒体上の印刷物)、オーディオ(例えば、録音またはストリーミング)、あるいは別の形式で、患者、医師、医療関係者、または研究者に提示できる。
【0155】
レポートには、遺伝子発現の呼び出し(例えば、特定の遺伝子の過剰発現または過少発現)、検出された遺伝的変異、患者のサンプルの他の特性、および/または臨床記録に関連する情報が含まれ得る。ポートには、検出された遺伝的変異、サンプルの他の特性および/または臨床記録に基づいて、患者が適格である臨床試験、患者に対応し得る治療法、および/または患者が特定の治療を受けた場合に予測される副作用がさらに含まれ得る。
【0156】
レポートに含まれる結果および/または(例えば、バイオインフォマティクスパイプラインからの)追加の結果を使用して、臨床データのデータベースを分析し、特に、治療が標本と同じか、または同様の結果をもたらす他の患者の癌の進行を遅らせることを示す傾向があるかどうかを判定することができる。結果は、腫瘍オルガノイド実験の設計にも使用できる。例えば、オルガノイドは、標本と同じ特性を有するように遺伝子操作され得、治療に供された後に観察されて、治療がオルガノイドの成長速度を低下させることができ、したがって標本に関連する患者の成長速度を低下させる可能性があるかどうかを判定することができる。
【0157】
一例では、後処理コントローラ308は、例えば、バイオマーカーメトリック処理モジュール326を使用して、複数の異なるバイオマーカー予測メトリックおよび複数の腫瘍予測メトリックを決定するようにさらに構成される。予測メトリックの例として、腫瘍純度、特定の組織クラスとして分類されたタイルの数、細胞の数、腫瘍浸潤リンパ球の数、細胞型または組織クラスのクラスター化、細胞型または組織クラスの密度、腫瘍細胞の特徴(真円度、長さ、核密度)、腫瘍組織周辺の間質の厚さ、画像ピクセルデータ統計、予測される患者の生存、PD-L1ステータス、MSI、TMB、腫瘍の起源、および免疫療法/治療反応が挙げられる。
【0158】
例えば、バイオマーカーメトリック処理モジュール326は、各組織クラスについて、1つ以上の単一の組織クラスに分類されるタイルの数、各組織クラスに分類されたタイルのパーセンテージ、任意の2つのクラスについて、第1の組織クラスに分類されたタイルの数と第2の組織クラスに分類されたタイルの数との比率、および/または単一の組織クラスに分類されたタイルの総面積を決定することができる。モジュール326は、他の組織クラスに対して腫瘍としてとして分類されたタイルの数に基づいて、または他の組織クラスタイルに位置する細胞の数に対する腫瘍タイルに位置する細胞の数に基づいて、腫瘍純度を決定することができる。モジュール326は、病理組織画像全体について、ユーザによって事前に定義された区域内で、組織クラスのいずれかとして分類されたタイル内で、単一のグリッドタイル内で、または対象の区域もしくは領域全体にわたって、所定であるか、システム300の動作中にユーザによって選択されるか、または例えば、画像分析に基づいて最も可能性の高い関心領域を決定することでシステム300によって自動的に選択されるかどうかに関わらず、細胞数を決定することができる。モジュール326は、分類された細胞の間隔および密度、組織クラスに分類されたタイルの間隔および距離、または任意の視覚的に検出可能な特徴に基づいて、組織クラスの細胞型のクラスタリングを決定することができる。一部の例では、モジュール326は、2つの隣接する細胞が、例えば、2つの免疫細胞、2つの腫瘍細胞、または各々のうちの1つのいずれかである確率を決定する。モジュール326は、識別された腫瘍細胞の平均真円度、周囲長、および/または核密度を決定することによって、腫瘍細胞の特徴を決定する。識別された間質の厚さは、治療に対する患者の反応の予測因子として使用することができる。モジュール326によって決定される画像ピクセルデータ統計には、赤、緑、青(RGB)値、光学密度、色相、彩度、グレースケール、および染色デコンボリューションを含む任意のピクセルデータの単一画像または画像の集合体のいずれかの各タイルの平均、標準偏差、および合計が含まれ得る。さらに、モジュール326は、線の位置、交互の輝度のパターン、形状の輪郭、セグメント化された組織クラスおよび/または画像内のセグメント化された細胞の染色パターンを計算することができる。これらの例のいずれかにおいて、モジュール326は、決定/予測されたステータスを作成するように構成され得、次いで、オーバーレイ表示生成モジュール324は、決定された情報を表示するためのレポートを生成する。例えば、オーバーレイマップ生成モジュール324は、ネットワークアクセス可能なユーザインターフェースを生成することができ、これにより、ユーザは、表示される異なるタイプのデータを選択することが可能になる。モジュール324は、元の染色画像データのレンディションにオーバーレイされた選択された異なるタイプのデータを示すオーバーレイマップを生成する。
【0159】
図4は、図3のシステム300で、またはより一般的には、本明細書で説明されるシステムおよびプロセスのいずれかで実装され得る機械学習データ入力/フロー概略400を示している。
【0160】
システム300の深層学習フレームワークが訓練される訓練モードでは、様々な訓練データを取得することができる。図示の例では、高解像度および低解像度の病理組織画像の形式の訓練画像データ401が前処理コントローラ302に提供される。示されるように、訓練画像は、様々な組織型、例えば、腫瘍、間質、正常、免疫クラスター、壊死、過形成/異形成、および赤血球からの注釈付き組織画像データを含み得る。示されるように、訓練画像には、コンピュータで生成された合成画像データ、ならびにセグメント化された細胞の画像データ(細胞画像データ)およびスライドレベルのラベルまたはタイルレベルのラベル(総称して、バイオマーカーでラベル付けされた画像データ)で標識されたバイオマーカー(例えば、本明細書で論じられるバイオマーカー)の画像データが含まれ得る。これらの訓練画像にはデジタル注釈を付けることができるが、一部の例では、組織の注釈は手動で行われる。一部の画像では、訓練画像データには、例えば画像データ内のメタデータとして、分子データおよび/または人口統計データが含まれる。図示の例では、かかるデータは、(マルチスケール深層学習フレームワーク306’およびシングルスケール深層学習フレームワーク307’の例示的な実装形態からなる)深層学習フレームワーク402に別々に供給される。深層学習フレームワークの追加の訓練のために、経路活性化スコアなどの他の訓練データもコントローラ302に提供され得る。
【0161】
一部の例では、深層学習フレームワーク402は、更新された訓練画像403を生成し、更新された訓練画像403は、深層学習フレームワーク402によって注釈が付されてセグメント化され、フレームワーク402の更新された訓練で使用するためにフレームワーク402(または前処理コントローラ302)にフィードバックされる。
【0162】
診断モードでは、患者画像データ405は、コントローラ302に提供されて、本明細書の例にしたがって使用される。
【0163】
患者画像データおよび訓練画像を含む本明細書の画像データのいずれも、H&Eスライド画像および/またはIHCスライド画像などの病理組織画像データであり得る。例えば、IHC訓練画像の場合、当該画像は、細胞毒性T細胞と制御性T細胞、または他の細胞型を区別するセグメント化された画像であってもよい。
【0164】
一部の例では、コントローラ302は、画像タイル407を生成し、1つ以上のタイリングマスク409、およびタイルメタデータ411にアクセスする。これらは、コントローラ302が、予測されたバイオマーカーおよび/または腫瘍のステータスおよびメトリックを決定するための深層学習フレームワーク402への入力として供給され、次いで、バイオマーカーおよび腫瘍レポート406を生成するためのオーバーレイレポートジェネレータ404に提供される。任意選択で、レポート406は、病理組織画像のオーバーレイを含み得、さらに、一例では、パーセンテージTILなどのバイオマーカースコアリングデータを含み得る。
【0165】
一部の例では、臨床データ413は、画像データの分析に使用するために深層学習フレームワーク402に提供される。臨床データ413には、健康記録、生検組織型、生検の解剖学的位置が含まれ得る。一部の例では、治療後に患者から収集された腫瘍応答データ415は、バイオマーカーのステータス、腫瘍のステータス、および/またはそれらのメトリックの変化を決定するために、深層学習フレームワーク402に追加的に提供される。
【0166】
図5は、複数の異なるバイオマーカー分類モデルから形成された例示的な深層学習フレームワーク500を示している。図5の要素は以下のように提供される。「細胞」は、本明細書の例による、細胞セグメンテーションモデル、例えば、訓練済みピクセルレベルのセグメンテーションモデルを指す。「マルチ」は、本明細書の例による、マルチスケール(タイルベース)組織分類モデルを指す。「ポスト」は、「細胞」または「マルチ」ステージからの1つ以上のデータに応答して、本明細書の例にしたがって、画像またはタイル画像のバイオマーカーステータスを予測するように構成されたバイオマーカー分類モデルの最終ステージで実行できる算術計算を指す。一例では、「ポスト」には、多数決が含まれ得、例えば、各バイオマーカーラベルに関連付けられた画像内のタイルの数を合計し、画像内のバイオマーカーステータスを最大の合計を有するバイオマーカーラベルに割り当てることを識別することが含まれ得る。2層の「ポスト」構成とは、2段階の後処理構成を指し、算術計算を重ねることができる。一例では、ポストの第1の層には、組織とラベル付けされたタイル内の細胞とを合計すること、および同じタイル内のリンパ球細胞を合計することが含まれ得る。第2の層は、リンパ球細胞数を細胞数で除算して比率を生成することができ、これを使用して、閾値と比較した場合に比率が閾値を超えるかどうかに基づいて、画像内のバイオマーカーのステータスを割り当てることができる。最終的な「ポスト」構成には、本明細書で説明されるレポート生成プロセスなどの他の後処理機能が含まれ得る。「シングル」とは、本明細書の例による、シングルスケールの分類モデルを指す。「MIL」は、本明細書の例による、MILコントローラを指す。図示の例では、深層学習フレームワーク500には、TILバイオマーカー分類モデル502、PD-L1分類モデル504、「シングル」分類アーキテクチャに基づく第1のCMS分類モデル506、および「マルチ」分類アーキテクチャに基づく第2のCMS分類モデル508、ならびにHRD分類モデル510が含まれる。分子データ、人口統計データ、腫瘍応答データ、および患者画像514などの患者データ512は、深層学習フレームワーク500によってアクセス可能なデータセットに保存される。
【0167】
訓練データは、細胞セグメンテーション訓練データ516、シングルスケール分類バイオマーカー訓練データ518、マルチスケール分類バイオマーカー訓練データ520、MIL訓練データ522、および後処理訓練データ524の形式でも示されている。
【0168】
図6は、特にマルチスケール構成を有する深層学習フレームワークにおいて、撮像ベースのバイオマーカー予測システム102、深層学習フレームワーク300、または深層学習フレームワーク402によって実行され得るプロセス600を示している。
【0169】
訓練プロセスの一部として、ブロック602では、タイルラベル付き病理組織画像が深層学習フレームワーク300で受信される。本明細書では、病理組織画像は任意のタイプであり得るが、この例では、デジタルH&Eスライド画像として示されている。これらの画像は(例えば、教師あり学習の構成の場合)、過去に決定され、ラベル付けされた(したがって既知の)癌のタイプの訓練画像であり得る。一部の例では、画像は、複数の異なる癌のタイプの訓練画像であり得る。一部の例では、画像は(例えば、教師なし学習の構成の場合)、未知であるか、またはラベルのない癌のタイプの画像の一部またはすべてを含む訓練画像であり得る。一部の例では、訓練画像には、組織クラスに注釈が付けられた(タイル解像度FCN組織分類器を訓練するための)デジタルH&Eスライド画像および各細胞に注釈が付けられた他のデジタルH&Eスライド画像が含まれる。TILバイオマーカー分類の訓練の例では、(例えば、ピクセル解像度FCNセグメンテーション分類器の注釈付き画像を訓練してUNetモデル分類器を訓練するために)各リンパ球にH&Eスライド画像で注釈を付けることができる。一部の例では、訓練画像は、ピクセル解像度のFCNセグメンテーション分類器を訓練するためのデジタルIHC染色画像、特にIHC染色がリンパ球マーカーを標的とする画像であり得る。一部の例では、訓練画像には、分子データ、臨床データ、または他の注釈(経路活性化スコアなど)と組み合わせた画像が含まれる。
【0170】
図示の例では、ブロック604において、前処理が、本明細書で説明される正規化プロセスなどの訓練画像に対して実行される。本明細書に記載されている他の前処理プロセスもまた、ブロック604で実行され得る。
【0171】
ブロック606では、タイルラベル付きH&Eスライド訓練画像は、深層学習フレームワークに提供され、CNN、より具体的には、FCNモデルとして実装された一部の例では、タイル解像度CNNなどの機械学習の構成内で、組織分類訓練用の訓練画像のタイル画像、細胞セグメンテーション訓練用の訓練画像のピクセル、および一部の例ではバイオマーカー分類訓練用のタイル画像を分析するために分析される。結果として、ブロック608では、訓練済み深層学習フレームワークマルチスケールバイオマーカー分類モデルが生成され、これには、細胞セグメンテーションモデルおよび組織分類モデルが含まれ得る。複数のバイオマーカー分類モデルを訓練する際に、ブロック608では、バイオマーカーTIL、PD-L1、倍数性、NC比、および印環形態の各々について別個のモデルを生成することができる。
【0172】
予測プロセスとして、ブロック610で、H&Eスライド画像などの新しいラベルなし病理組織画像が受信され、マルチスケールバイオマーカー分類モデルに提供され、ブロック612で、1つ以上のバイオマーカー分類モデルによって決定されるように、受信した病理組織画像のバイオマーカーのステータスが予測される。
【0173】
例えば、ブロック610では、新しい(ラベルなしまたはラベル付き)病理組織画像は、物理的臨床記録システムまたはプライマリケアシステムから受信され、その訓練済み細胞セグメンテーション、組織分類モデル、およびバイオマーカー分類モデルを適用する訓練済み深層学習フレームワークに適用され得、ブロック612で、バイオマーカー予測スコアが決定される。その予測スコアは、病理組織画像全体または画像全体の様々な領域に対して決定され得る。例えば、各画像について、ブロック612では、画像上にあるバイオマーカーの絶対数、バイオマーカーの各々に関連付けられた腫瘍領域内の細胞数のパーセンテージ、および/またはバイオマーカーの分類もしくはその他の情報の指定を生成することができる。一部の例では、深層学習フレームワークは、画像内で識別されたすべての組織クラスの予測されたバイオマーカーを識別してもよい。そのため、バイオマーカー予測確率スコアは、画像全体で異なっていてもよい。例えば、TILの存在を予測する際に、プロセス612は、病理組織画像内の異なる位置でのTILの存在を予測してもよい。結果として、TILの予測は画像全体で異なる。これは例として提供されたものであり、ブロック612では、本明細書で論じられる任意の数のメトリックを決定することができる。
【0174】
図9のプロセス900に示すように、ブロック902では、予測が行われた後、予測されたバイオマーカー分類は、レポートジェネレータで受信され得る。ブロック904では、病理組織画像、したがって患者の臨床レポートを生成することができ、これには、予測されたバイオマーカーのステータスが含まれる。ブロック906では、予測されたバイオマーカーステータスを示すオーバーレイマップを生成することができ、これは、臨床医に表示するため、または予測されたバイオマーカーに対応する好ましい免疫療法を決定するために病理医に提供される。
【0175】
図7では、予測されるバイオマーカーのステータスを決定するための、特にTILのステータスを予測するための例示的なプロセス700が提供されている。プロセス700は、それでも、本明細書に記載の例にしたがって、任意の数のバイオマーカーのステータスおよび他のメトリックを予測するために使用することができる。
【0176】
前処理コントローラは、本明細書に記載されているように、病理組織画像を受信し、初期画像処理を実行する(702)。一例では、深層学習前処理コントローラは、任意のピラミッド型のTIFF形式で画像ファイル全体を受信し、画像内の生存組織の縁と輪郭とを識別する(例えば、セグメンテーションを実行する)。ブロック702の出力は、例えば、各ピクセルが0または1の値を有する、入力画像のバイナリマスクであり得る。ここで、0は背景を示し、1は前景/組織を示している。マスクの寸法は、128倍にダウンサンプリングしたときの入力スライドの寸法であり得る。このバイナリマスクは、一時的にバッファリングされ、タイリングプロセス704に提供され得る。
【0177】
プロセス704において、前処理コントローラは、タイリング手順を使用して組織マスクプロセスを適用して、画像を個別に検査されるサブ画像(すなわち、タイル)に分割する。深層学習フレームワークは、2つの異なる学習モデル(一方は組織分類用、もう一方は細胞/リンパ球セグメンテーション用)を実行するように構成されているため、各モデルの異なるタイリング手順を手順704で実行できる。プロセス704は、2つの出力を生成することができ、各出力には、例えば、タイルの左上隅から定義された座標のリストが含まれる。出力リストは一時的にバッファリングされ、組織分類および細胞セグメンテーションプロセスに渡され得る。
【0178】
図7の例では、プロセス706で組織分類が実行され、プロセス704から病理組織画像を受信し、訓練済み組織分類モデルを使用して、受信した各タイルで組織分類を実行する。訓練済み組織分類モデルは、各タイルを異なる組織クラス(例えば、腫瘍、間質、正常上皮など)に分類するように構成されている。計算の冗長性を低減するために、プロセス706によって、複数のタイリングの層を使用することができる。訓練済み組織分類モデルにより、タイルごとに、モデルに保存されている各クラスのクラス確率が計算される。次に、プロセス706では、最も可能性の高いクラスを決定し、そのクラスがタイルに割り当てられる。プロセス706は、結果として、複数のリストのうちの単数のリストを出力することができる。ネスト化された各内部リストは、ネスト化された分類として機能し、当該ネスト化された分類は、単一のタイルを記述しており、タイルの位置、タイルがモデルに含まれる各クラスである確率、および最も可能性の高いクラスのIDの各々を含む。この情報は、タイルごとにリスト化されている。複数のリストのうちの単一のリストは、深層学習フレームワークのパイプラインの出力jsonファイルに保存できる。
【0179】
プロセス708および710において、細胞セグメンテーションおよびリンパ球セグメンテーションがそれぞれ実行される。プロセス708および710では、プロセス704および706から病理組織画像およびタイルリストが受信される。プロセス708では、訓練済み細胞セグメンテーションモデルが適用される。プロセス710では、訓練済みリンパ球セグメンテーションモデルが適用される。つまり、図の例では、細胞セグメンテーションタイルリストのタイルごとに、2つのピクセル解像度モデルが並行して実行される。一例では、2つのモデルは両方ともUNetアーキテクチャを使用しているが、異なる訓練データで訓練されている。細胞セグメンテーションモデルは、細胞を識別し、受信したタイルのすべての細胞の周囲に境界線を描画する。リンパ球セグメンテーションモデルは、リンパ球を識別し、タイル内のすべてのリンパ球の周囲に境界線を描画する。ヘマトキシリンはDNAに結合するため、デジタルH&Eスライド画像を使用して「細胞セグメンテーション」を実行することは、核セグメンテーションと称される場合もある。すなわち、細胞セグメンテーションモデルプロセス708では、すべての細胞に対して核セグメンテーションが実行され、リンパ球セグメンテーションモデルプロセス710では、リンパ球に対して核セグメンテーションが実行される。
【0180】
この例では、両方に同じUNetアーキテクチャが使用されているため、プロセス708と710とは、それぞれ2つの同じフォーマットのマスクアレイ出力を生成する。各出力は、受信したタイルと同じ形状およびサイズのマスクアレイである。各アレイ要素は0、1、または2のいずれかである。ここで、0は、背景として予測されるピクセル/位置(つまり、オブジェクトの外側)を示し、1は、オブジェクトの境界として予測されるピクセル/位置を示し、2は、オブジェクト内部として予測されるピクセル/位置を示している。細胞セグメンテーションモデルの出力の場合、オブジェクトは細胞を指す。リンパ球セグメンテーションモデルの場合、オブジェクトはリンパ球を指す。これらのマスクアレイ出力は、一時的にバッファリングされ、それぞれプロセス712および714に提供され得る。
【0181】
プロセス712および714では、それぞれ、細胞セグメンテーション(UNet)モデルの出力マスクアレイおよびリンパ球セグメンテーション(UNet)モデルの出力マスクアレイが受信される。プロセス712および714は、受信したタイルごとに実行され、マスクアレイ内の情報を、元の全スライド画像の座標空間にある座標で表現するために使用される。
【0182】
一例では、プロセス712では、保存された画像処理ライブラリにアクセスし、そのライブラリを使用して、細胞内部クラスの周りの外形、すなわち、各マスクに2の値を有する位置に対応する外形を見つけることができる。このようにして、プロセス712では、細胞位置合わせプロセスを実行することができる。細胞境界クラス(各マスクに1の値を有する場所で示される)におり、隣接する細胞内部間の分離が保証される。これにより、各マスクのすべての外形のリストが生成される。次に、各外形を塗りつぶされた多角形として扱うことにより、プロセス712では、外形の重心(質量の中心)の座標を決定し、そこからプロセス712により、重心リストが生成される。次に、画像内の単一のタイルに固有の座標空間ではなく、受信した画像全体によって定義された座標空間にある出力を生成するために、外形リストおよび重心リストの各座標がシフトされる。このシフトがなければ、各座標はそれを含む画像タイルの座標空間になる。各シフトの値は、受信した画像の親タイルの左上隅の座標と同じである。この例では、プロセス714は、プロセス712と同じプロセスを、リンパ球クラスに対して実行する。
【0183】
プロセス712および714では、各々、それぞれのUNetセグメンテーションモデルに対応する外形リスト出力および重心リスト出力が生成される。外形とは、接続されたときに、検出されたオブジェクトの輪郭を描く座標のセットである。各外形は、数字の対として順番に印刷された構成座標で構成されるテキスト行として表すことができる。プロセス712および714からの各外形リストは、かかる多くの行から構成されるテキストファイルとして保存することができる。重心リストは、数値の対のリストである。これらの出力の各々は、一時的にバッファリングされ、プロセス716に提供され得る。
【0184】
プロセス716では、プロセス706から組織分類出力(複数のリストのうちの単一のリスト)、プロセス712から細胞重心および外形リスト、ならびにプロセス714からリンパ球重心および外形リストを受信し、細胞セグメンテーション統合を実行する。
【0185】
例えば、プロセス716では、プロセス712および714の対の出力を統合し、細胞に関する最も重要な情報を含む単一の簡潔なリストを生成することができる。一例では、プロセス716の2つの主要な構成要素が存在する。
【0186】
プロセス716の第1の構成要素では、細胞セグメンテーションモデルおよびリンパ球セグメンテーションモデルで見出された情報が組み合わされる。情報が結合される前は、これは、細胞の外形のリストおよびリンパ球の外形のリストとして存在するが、リンパ球の外形は2つの独立したモデル(712および714)の出力であるため、必ずしも細胞の外形のサブセットではない。したがって、(1)リンパ球は細胞の一種であるため、オブジェクトが細胞でない場合、生物学的にリンパ球になることはできないこと、(2)同じ分母を有するデータセットのパーセンテージを報告することが望まれることから、リンパ球は、細胞のサブセットにすることが望ましい。したがって、各細胞の位置をすべてのリンパ球の位置と比較することによって、細胞セグメンテーション統合プロセス716を実行することができる(一例では、これは単一のタイル内のオブジェクトに対してのみ実行できるため、比較の数が過剰になることはない)。一例では、細胞がリンパ球に「十分に近い」場合にのみ、その細胞はリンパ球と見なされる。「十分に近い」ことの定義は、一連の訓練用の病理組織画像全体で、リンパ球セグメンテーションモデルによって検出されたオブジェクトの半径の中央値を経験的に決定することによって確立することができる。この更新された訓練画像のセット(例えば、図4の403)は、この訓練用の病理組織画像のセットがモデル自体によって生成された注釈付き画像であり、その結果、新規または更新された訓練セットを形成する桁違いに多くの画像、例えば数百万の自動的に注釈が付けられた画像が生成されるため、モデルの訓練に使用される画像の訓練セットとは異なることに注意されたい。実際、モデルの訓練セットは、受け入れ/拒否条件を満たす新規の受信された医用画像で成長し続ける可能性がある。これは、組織分類モデル、ならびに細胞セグメンテーションおよびリンパ球セグメンテーションモデルの場合に当てはまる可能性がある。モデルから新しい訓練セットを生成し、後続の画像を評価することで、モデルは、(1)訓練タイルに輪郭が描かれたものだけではなく、何百万もの細胞の中央値を使用すること、(2)人間が描いた注釈のサイズではなく、検出されたオブジェクトの実際のサイズを比較することができる。リンパ球の核は、通常、球形であるため、一例では、これらのオブジェクトは(球の二次元スライスであるため)すべて円としてモデル化されている。これらの円の半径を計算し、中央値を使用して、リンパ球検出の典型的なサイズを決定した。その結果、最終的な細胞リストは、細胞セグメンテーションモデルによって検出されたオブジェクトとまったく同じになるが、リンパ球セグメンテーションモデルの目的は、そのリスト内の各細胞にブール型の真/偽ラベルを提供することである。
【0187】
プロセス716の第2の構成要素では、各細胞は、位置に基づいて(プロセス706からの)組織分類タイルの1つにビニングされる。ここで説明する例では、モデルのアーキテクチャが異なるため、細胞セグメンテーションタイルのサイズが組織分類タイルと異なり得ることに注意されたい。それにもかかわらず、プロセス716は、各細胞重心の座標、各組織分類タイルの左上隅の座標、および各組織分類タイルのサイズを有し、かつ重心の位置に基づいて各細胞の親タイルを決定するように構成されている。
【0188】
プロセス716は、複数のリストのうちの単数のリストである出力を生成する。ネスト化された各内部リストは、単一細胞を説明するネスト化された分類として機能しており、これには、細胞の重心の座標、親タイルのタイル番号、親タイルの組織クラス、および細胞がリンパ球として分類されるかどうかが含まれる。この情報は細胞ごとに一覧表示され、出力リストは深層学習フレームワークパイプラインの出力jsonファイルに保存される。
【0189】
バイオマーカーメトリック処理モジュール326などの後処理コントローラによって実装され得るプロセス718では、特にこの例では、説明されているように、予測されたTILステータスおよび他のTILメトリックの複数の異なるバイオマーカーメトリックのいずれかが決定される。
【0190】
例えば、プロセス718は、プロセス704で使用される組織マスクに基づいて、組織面積計算を実行して、組織によって覆われる面積を決定するように構成することができる。一部の例では、組織マスクは、組織が存在する場合は1の値を取り、その他の場所では0の値を取るブール配列であるため、プロセス718では、1の数をカウントして組織面積の測定値を与えることができる。この値は、128倍のダウンサンプリングにおける正方形のピクセル数である。これに16384を乗算すると(つまり、128*128の組織マスクの場合)、ネイティブ解像度での正方形のピクセル数(「x」と称される)が得られる。画像のネイティブ解像度は、ミクロンあたりのピクセル数を示しており、この数の2乗を取ると、1平方ミクロンあたりの正方形ピクセル数(「y」と称される)が得られる。ネイティブ解像度での正方形ピクセル数を、この解像度スケーリング係数(または、上記で定義した変数を使用してx/y)で除算すると、組織で覆われている正方形ミクロンの数が得られるため、組織面積が計算される。すなわち、プロセス718は、組織面積を平方ミクロンで示す[0,∞]の浮動小数点数を生成することができる。この値は、以下で説明する受け入れ/拒否モデルプロセスで使用できる。
【0191】
他のバイオマーカー統計の一例として、プロセス718は、プロセス716からの細胞セグメンテーション統合出力を使用して全核計算を実行するようにさらに構成することができる。例えば、スライド上の核の総数は、細胞セグメンテーション統合出力のエントリ数として決定される。また、プロセス718では、このプロセス716からの出力に基づいて腫瘍核%の計算を実行することができる。画像上の腫瘍核の総数は、(i)親タイルの組織クラスは腫瘍であり、(ii)細胞はリンパ球として分類されない、という要件を満たす細胞セグメンテーション統合出力のエントリ数である。
【0192】
バイオマーカー統計を決定することに加えて、プロセス718は、求めた組織面積、総核数、および腫瘍核数に基づいて、受け入れ/拒否プロセスを実行するようにさらに構成することができる。一例では、プロセス718は、ロジスティック回帰モデルで構成され得、これらの3つの変数は、入力として使用され、モデルの出力は、スライドが分子シーケンシングのために受け入れられるべきか、拒否すべきかについての二値的な推奨となる。ロジスティック回帰モデルは、これらの派生変数を使用して、画像の訓練セットで訓練できる。例えば、訓練画像は、過去にシーケンシングのために送信され、受け入れられた病理組織画像、および定期的な病理学レビュー中に拒否された病理組織画像で形成されてもよい。あるいは、設定済みの閾値が存在してもよく、例えば、スライド上の核の20%が腫瘍であるか、または最小数の腫瘍細胞が必要とされていてもよい。一部の例では、モデルは腫瘍細胞のDNA倍数性(核型分析またはDNA配列情報からのデータ)を考慮することができ、腫瘍核の数に、各腫瘍核で検出された染色体の平均コピー数を、通常予想されるコピー数2で除算することによって、利用可能な遺伝物質の調整された推定値を計算することができる。一部の例では、ロジスティック回帰モデルは、手動レビューを推奨する受け入れと拒否との間に不確実性ゾーンを追加することにより、(2つではなく)3つの可能な出力を有するように構成できる。例えば、ロジスティック回帰モデルの最後から2番目の出力は実数であり、モデルの最後のステップでは、この数値を0に閾値設定して、二項分類が生成される。代わりに、一部の例では、不確実性ゾーンは、0を含む数値の範囲として定義される。ここで、この範囲より高い値は「拒否」に対応し、範囲内の値は手動レビューに対応し、この範囲より低い値は「受け入れ」に対応する。プロセス718は、相互検証実験を実行することによって、この不確実性ゾーンのサイズを計算するように構成することができる。例えば、プロセス718は、何度も繰り返される訓練プロセスを実行することができるが、各繰り返しにおいて、訓練セット内の画像の異なるランダムサブセットが使用される。これにより、類似しているが同一ではない多くの最終モデルが生成され、プロセス718では、この変動を使用して、最終ロジスティック回帰モデルの不確実性範囲を決定できる。したがって、プロセス718では、一部の例ではバイナリの受け入れ/拒否の出力を生成し、一部の例では受け入れ/拒否/手動レビューの出力を生成することができる。
【0193】
プロセス718からの推奨を使用して、決定がなされる。例えば、深層学習出力後処理コントローラは、「受け入れ」と示された画像のレポートを生成することができ、それらの画像を分子シーケンシングのためにゲノムシーケンシングシステム(112)に自動的に送信するが、「拒否」が推奨される画像は拒否され、分子シーケンシングには送信されない。「手動レビュー」の選択肢が構成され、推奨されている場合、画像を病理医または病理医のチーム(118)に送信して、スライドをレビューし、分子シーケンシングのために送信するか拒否するかを判定することができる。
【0194】
図8は、特にシングルスケール構成を有する深層学習フレームワークにおいて、撮像ベースのバイオマーカー予測システム102、深層学習フレームワーク300、または深層学習フレームワーク402によって実行され得る例示的なプロセス800を示している。
【0195】
プロセス802において、分子訓練データは、撮像ベースのバイオマーカー予測システムで受信される。この分子訓練データは、複数の患者のためのものであり、遺伝子発現データセットから、例えば本明細書に記載のソースなどから取得することができる。一部の例では、分子訓練データはRNA配列データを含む。ブロック804で、分子訓練データは、バイオマーカーによってラベル付けされる。バイオマーカークラスタリングの1つの形式には、腫瘍サブタイプなど、標本に関連付けられた既存のラベルを取得し、そのラベルを分子訓練データに関連付けることによって実行できるラベル付けが含まれる。代替的に、または加えて、自動クラスタリングアルゴリズムの使用などのクラスタリングによってラベル付けを実行することができる。CMSサブタイプバイオマーカーの場合の1つの例示的なアルゴリズムは、CMSサブタイプにしたがって分子訓練データおよびクラスター訓練データ内のCMSサブタイプを識別するためのアルゴリズムである。この自動クラスタリングは、例えば、深層学習フレームワークの単一クラス分類器モジュール内で、または深層学習フレームワーク300内のものなどのスライドレベルのラベルパイプライン内で実行され得る。一部の例では、ブロック802で受信される分子訓練データは、例えば、RNAウェットラボを使用して生成され、バイオインフォマティクスパイプラインを使用して処理されるRNA配列データである。
【0196】
様々な実施形態において、例えば、各トランスクリプトームデータセットは、RNA全エクソーム次世代シーケンシング(NGS)を介して患者または腫瘍オルガノイドサンプルを処理してRNAシーケンシングデータを生成することによって生成され得、また、RNA配列データは、バイオインフォマティクスパイプラインによって処理されて、各サンプルのRNA-seq発現プロファイルを生成し得る。患者のサンプルは、癌細胞を含む組織サンプルまたは血液サンプルであり得る。
【0197】
RNAは、市販の試薬、例えば、プロテイナーゼK、TURBO DNase-I、および/またはRNAクリーンXPビーズを使用して、血液サンプルまたは組織切片から単離することができる。単離されたRNAは、RNA分子の濃度および/または量を決定するための品質管理プロトコルに供され得、これには、蛍光色素および蛍光マイクロプレートリーダー、標準的な分光蛍光光度計、またはフィルタ蛍光光度計を使用することが含まれる。
【0198】
cDNAライブラリは、単離されたRNAから調製され、精製され、そして市販の試薬、例えば、ロシュKAPAハイパービーズを使用して、cDNA分子サイズ選択のために選択され得る。cDNAライブラリの調製には、逆転写が含まれ得る。別の例では、ニューイングランドバイオラボ(NEB、New England Biolab)キットを使用することができる。cDNAライブラリの調製には、cDNA分子へのアダプタのライゲーションを含まれ得る。例えば、Roche SeqCapデュアルエンドアダプタを含むUDIアダプタ、またはUMIアダプタ(例えば、完全長または部分的(stubby)Y型アダプタ)をcDNA分子にライゲーションすることができる。この例では、アダプタは、それらが由来するサンプルにしたがってcDNA分子を識別するためのバーコードとして、かつ/または下流のバイオインフォマティクス処理および/または次世代シーケンシング反応を容易にするためのバーコードとして機能し得る核酸分子である。アダプタ内のヌクレオチドの配列は、異なるサンプルについて得られたシーケンシングデータを区別するために、サンプルに固有であってもよい。アダプタは、cDNA分子のシーケンサフローセル上のアンカーオリゴヌクレオチド分子への結合を促進する可能性があり、シーケンシング反応の開始点を提供することにより、シーケンシングプロセスのシードとして機能し得る。
【0199】
cDNAライブラリは、試薬、例えば、Axygen MAG PCRクリーンアップビーズを使用して増幅および精製することができる。増幅には、定量的または逆転写定量的PCR(qPCRまたはRT-qPCR)とは異なるポリメラーゼ連鎖反応(PCR)技術が含まれ得る。次に、cDNA分子の濃度および/または量を、蛍光色素および蛍光マイクロプレートリーダー、標準的な分光蛍光光度計、またはフィルタ蛍光光度計を使用して定量化することができる。
【0200】
真空中で乾燥させる前に、cDNAライブラリをプールし、試薬で処理して、例えば、Human COT-1および/またはIDT xGen Universal Blockersなどのオフターゲットキャプチャを減らすことができる。次に、プールをハイブリダイゼーションミックス、例えばIDT xGen Lockdownに再懸濁することができ、プローブは、各プールに追加でき、例えば、IDT xGen Exome Research Panel v1.0プローブ、IDT xGen Exome Research Panel v2.0プローブ、他のIDTプローブパネル、Rocheプローブパネル、またはその他のプローブに追加できる。プールにより、インキュベーター、PCRマシン、ウォーターバス、またはその他の温度調節デバイスでインキュベートして、プローブをハイブリダイズさせることができる。次に、プールをストレプトアビジンでコーティングされたビーズまたはハイブリダイズしたcDNAプローブ分子、特にヒトゲノムのエキソンを表すcDNA分子をキャプチャするための別の手段と混合することができる。別の実施形態では、ポリAキャプチャを使用することができる。プールは、市販の試薬、例えば、KAPA HiFi Library AmplificationキットとAxygen MAG PCRクリーンアップビーズとをそれぞれ使用して、再度、増幅および精製することができる。
【0201】
cDNAライブラリは、例えば、蛍光色素(例えば、PicoGreenプール定量化)および蛍光マイクロプレートリーダー、標準分光蛍光光度計、またはフィルタ蛍光光度計を使用することによって、cDNA分子の濃度または量を決定するために分析され得る。cDNAライブラリを分析して、cDNA分子のフラグメントサイズを決定することもできる。これは、ゲル電気泳動技術を介して行うことができ、LabChip GX Touchなどのデバイスを使用することが含まれ得る。プールは、キット(例えば、PhiXスパイクを備えたイルミナペアエンドクラスターキット)を使用してクラスター増幅することができる。一例では、cDNAライブラリの調製および/または全エクソームのキャプチャステップは、液体処理ロボット(例えば、SciClone NGSx)を使用して、自動化されたシステムで実行され得る。
【0202】
ライブラリ増幅は、デバイス、例えば、イルミナC-Bot2で実行することができ、増幅されたターゲットキャプチャcDNAライブラリを含む結果のフローセルは、次世代シーケンサ、例えばイルミナHiSeq4000またはイルミナNovaSeq6000で、ユーザが選択した固有のオンターゲット深度、例えば300倍、400倍、500倍、10,000倍までシーケンスすることができる。次世代シーケンサは、各患者サンプルもしくは各フローセルに対して、FASTQ、BCL、またはその他のファイルを生成することができる。
【0203】
2つ以上の患者サンプルが同じシーケンサフローセルで同時に処理される場合、複数の患者サンプルからのリードは、最初は同じBCLファイルに含まれ、次に、患者ごとに個別のFASTQファイルに分割される。各患者サンプルに使用されたアダプタの配列が異なる場合、各リードを正しい患者サンプルに関連付け、正しいFASTQファイルに配置することを容易にするバーコードの役割を果たすことができる。
【0204】
各FASTQファイルは、ペアエンドまたはシングルリードのリードが含まれ得、ショートリードまたはロングリードであり得る。ここで、各リードは、患者サンプルから単離されたmRNA分子内の1つの検出されたヌクレオチド配列を示しており、これは、シーケンサを使用して、ライブラリの準備中に単離されたmRNA分子から生成されたcDNA分子に含まれるヌクレオチドの配列を検出することによって推論される。FASTQファイルの各リードは、品質評価にも関連付けられている。品質評価は、シーケンシング手順中にエラーが関連するリードに影響を与えた可能性を反映し得る。
【0205】
各FASTQファイルは、バイオインフォマティクスパイプラインによって処理することができる。様々な実施形態において、バイオインフォマティクスパイプラインは、FASTQデータをフィルタリングすることができる。FASTQデータのフィルタリングには、シーケンサエラーの修正と、低品質の配列または塩基、アダプタ配列、汚染、キメラリード、過剰表現された配列、ライブラリの準備、増幅、またはキャプチャによって引き起こされるバイアス、およびその他のエラーの削除(トリミング)と、が含まれ得る。エラーが生じ得るリード全体、個々のヌクレオチド、または複数のヌクレオチドは、FASTQファイルのリードに関連する品質評価、シーケンサの既知のエラー率、および/またはリード内の各ヌクレオチドと、リファレンスゲノム内の同じ位置にアラインメントされた他のリード内の1つ以上のヌクレオチドとの比較に基づいて、破棄されてもよい。フィルタリングは、様々なソフトウェアツールによって部分的または全体的に実行できる。FASTQファイルは、例えば、AfterQC、Kraken、RNA-SeQC、FastQC(イルミナ社のBaseSpace Labsもしくはhttps://www.illumina.com/products/by-type/informatics-products/basespace-sequence-hub/apps/fastqc.htmlを参照されたい)、または他の同様のソフトウェアプログラムなどのシーケンシングデータQCソフトウェアによって、品質管理およびリードの迅速な評価のために分析され得る。ペアエンドリードの場合、リードをマージできる。
【0206】
各FASTQファイルについて、ファイル内の各リードは、リード内のヌクレオチドの配列に最もよく一致する配列を有するリファレンスゲノム内の位置に整列させることができる。Bowtie、Burrows Wheeler Aligner(BWA)、Smith-Watermanアルゴリズムを使用するプログラムなど、リードを整列させるように設計された多くのソフトウェアプログラムが存在する。各リードのヌクレオチド配列をリファレンスゲノム(例えば、GRCh38、hg38、GRCh37、ゲノムリファレンスコンソーシアムによって開発された他のリファレンスゲノムなど)のヌクレオチド配列の一部と比較して、リードの配列に対応する可能性が最も高いリファレンスゲノム配列の部分を決定することにより、リファレンスゲノムを使用してアラインメントを指示することができる。アラインメントはRNAスプライス部位を考慮してもよい。アラインメントにより、リファレンスゲノム内の各リードの開始位置および終了位置、ならびにリファレンスゲノム内の各ヌクレオチドのカバレッジ(リード数)を保存するSAMファイルを生成することができる。SAMファイルをBAMファイルに変換したり、BAMファイルを並べ替えたり、重複したリードに削除のマークを付けたりすることができる。
【0207】
一例では、kallistoソフトウェアをアラインメントおよびRNAリードの定量化に使用できる(Nicolas L Bray,Harold Pimentel,Pall Melsted and Lior Pachter,「Near-optimal probabilistic RNA-seq quantification」Nature Biotechnology 34,525-527(2016),doi:10.1038/nbt.3519を参照されたい)。別の実施形態では、RNAリードの定量化は、別のソフトウェア、例えば、SailfishまたはSalmonを使用して実施することができる(Rob Patro,Stephen M.Mount,and Carl Kingsford(2014)「Sailfish enables alignment-free isoform quantification from RNA-seq reads using lightweight algorithms」Nature Biotechnology(doi:10.1038/nbt.2862)またはPatro,R.,Duggal,G.,Love,M.I.,Irizarry,R.A.,&Kingsford,C.(2017)「Salmon provides fast and bias-aware quantification of transcript expression」Nature Methodsを参照されたい)。これらのRNA-seq定量法は、アラインメントを必要としない場合がある。RNA-seqデータの正規化、定量分析、および差次的発現分析に使用できるソフトウェアパッケージが多数存在する。
【0208】
各遺伝子について、特定の遺伝子の生のRNAリードカウントを計算できる。生のリードカウントは、各サンプルの表形式のファイルに保存でき、列は遺伝子を表し、各エントリはその遺伝子の生のRNAリードカウントを表している。一例では、kallistoアラインメントソフトウェアは、各リードについて、リードが遺伝子にアラインメントする確率の合計として、生のRNAリードカウントを計算する。したがって、この例では、生のカウントは整数ではない。
【0209】
次に、例えば完全分位正規化を使用して、生のRNAリードカウントを正規化し、GC含量と遺伝子長を補正することができ、サイズファクター法を用いて、シーケンシング深度を調整することができる。一例では、RNAリードカウントの正規化は、「Methods of Normalizing and Correcting RNA Expression Data」と題され、2019年9月24日に出願された米国特許出願第16/581,706号またはPCT19/52801に開示されている方法にしたがって実施され、これらは、参照によりその全体が本明細書に組み込まれている。正規化の理論的な根拠は、シーケンサ内の各cDNA分子のコピー数が、患者サンプル内のmRNA分子の分布を反映していない可能性があることである。例えば、ライブラリの準備、増幅、およびキャプチャのステップ中に、ランダムヘキサマー、増幅(PCR濃縮)、rRNAの枯渇、および各核酸分子の配列のGC含量、リード長、遺伝子長、ならびにその他の特性が原因である可能性のある、シーケンシング中に生成されるプローブ結合およびエラーによって引き起こされる逆転写のプライミングの様々な側面で発生するアーティファクトのために、mRNA分子の特定の部分が過大または過小に表示される場合がある。各遺伝子の各生RNAリードカウントは、NGSシーケンシングプロトコルのバイアスまたはアーティファクトによって引き起こされる過剰または過少表示を排除または低減するように調整できる。正規化されたRNAリードカウントは、各サンプルの表形式のファイルに保存でき、列は遺伝子を表し、各エントリはその遺伝子の正規化されたRNAリードカウントを表している。
【0210】
トランスクリプトーム値のセットは、上記のように、正規化されたRNAリードカウントまたは生のRNAリードカウントのいずれかを参照し得る。
【0211】
図8に戻ると、ブロック804において、分子訓練データ(例えば、かかるRNA配列データ)は、バイオマーカーによってラベル付けされ、分子訓練データ内のCMSサブタイプを識別するアルゴリズムおよびCMSサブタイプにしたがってクラスター訓練データを識別するアルゴリズムなどの自動クラスタリングアルゴリズムを使用して、クラスター化される。この自動クラスタリングは、例えば、深層学習フレームワークの単一クラス分類器モジュール内で、または深層学習フレームワーク300内のものなどのスライドレベルのラベルパイプライン内で実行され得る。
【0212】
ブロック806では、各バイオマーカークラスター(それぞれが異なるCMSサブタイプまたはHRDなどの異なるバイオマーカーに対応する)について、関連する患者からの病理組織画像が取得される。これらの病理組織画像は、例えば、スライドレベルのラベルを有するH&Eスライド画像であり得る。ブロック808では、各バイオマーカークラスターについて、これらのラベル付けされた病理組織画像は、異なるCMSサブタイプを予測するための複数のCMS分類モデルなどのバイオマーカー分類モデルを訓練するための深層学習フレームワークに提供される。結果として、ブロック810では、訓練済みバイオマーカー分類器(分類モデル)のセットが生成される。このように、ブロック802~810は訓練プロセスを表している。
【0213】
予測プロセスは、ブロック812で開始され、そこで、H&Eスライド画像などの新しい(ラベルなしまたはラベル付き)病理組織画像が受信され、ブロック810によって生成されたシングルスケールバイオマーカー分類器に提供され、ブロック814では、1つ以上のCMSサブタイプまたはHRDなどの1つ以上のバイオマーカー分類モデルによって決定されるように、受信した病理組織画像上のバイオマーカー分類が予測される。
【0214】
ブロック610と同様に、ブロック814では、新しい病理組織画像は、物理的臨床記録システムまたはプライマリケアシステムから受信され、その組織分類モデルおよび/またはバイオマーカー分類モデルがバイオマーカー予測を決定する訓練済み深層学習フレームワークに適用され得る。その予測スコアは、例えば、病理組織画像全体について決定され得る。
【0215】
さらに、図9のプロセス900に示すように、プロセス600と同様に、予測した後、ブロック814からの予測されたバイオマーカー分類は、ブロック902で受信され得る。ブロック904では、病理組織画像、したがって患者の臨床レポートを生成することができ、これには、予測されたバイオマーカーのステータスが含まれる。ブロック906では、予測されたバイオマーカーステータスを示すオーバーレイマップを生成することができ、これは、臨床医に表示するため、または予測されたバイオマーカーに対応する好ましい免疫療法を決定するために病理医に提供される。
【0216】
図10Aおよび10Bは、例えば、システム300のオーバーレイマップジェネレータ324によって作成されたデジタルオーバーレイマップの例を示している。これらのオーバーレイマップは、臨床医に表示される静的デジタルレポートとして、またはグラフィカルユーザインターフェイス(GUI)を介したユーザインタラクションを可能にする動的レポートとして生成され得る。図10Aは、オーバーレイマップジェネレータ324によって生成された組織クラスオーバーレイマップを示している。図10Bは、オーバーレイマップジェネレータ324によって生成された細胞外縁オーバーレイマップを示している。
【0217】
一例では、オーバーレイマップジェネレータ324は、オーバーレイに示される画像位置と病理組織画像とがディスプレイ上の同じ位置にあるように整列された、病理組織画像を覆う透明または不透明な層としてデジタルオーバーレイを表示することができる。オーバーレイマップの透明度は、様々であり得る。透明度は、オーバーレイマップジェネレータ324の動的報告モードにおいて、ユーザによって調整可能であり得る。オーバーレイマップジェネレータ326により、各組織クラスラベルに関連付けられるラベル付きタイルのパーセンテージ、各組織クラスに分類されたタイル数の比率、単一の組織クラスに分類されたすべてのグリッドタイルの総面積、および各組織クラスに分類されたタイルの面積の比率が報告され得る。オーバーレイマップは、様々な組織分類を示し、様々なバイオマーカーステータスレベルに対応する様々なピクセル強度レベルを有するヒートマップとして表示することができる。例えば、TILの例では、予測TILステータスが高い(%が高い)組織領域の強度が高いピクセルと、予測TILステータスが低い(%が低い)組織領域の強度が低いピクセルとが示されている。
【0218】
一例では、深層学習出力後処理コントローラ308はまた、ユーザ、スライド全体、単一のグリッドタイル、各組織クラスに分類されたすべてのグリッドタイル、または免疫細胞として分類された細胞のいずれかによって定義された領域にある細胞の総数または細胞のパーセンテージを報告することができる。コントローラ308はまた、腫瘍または任意の他の組織クラスとして分類された領域内に位置するリンパ球細胞として分類された細胞の数を報告し得る。
【0219】
一例では、コントローラ308によって生成されたデジタルオーバーレイおよびレポートを使用して、医療専門家が腫瘍純度をより正確に推定し、腫瘍を囲む非腫瘍組織領域に突出する腫瘍細胞を有する浸潤性腫瘍を含む、対象の領域の位置特定または診断を支援することができる。それらはまた、治療を処方する際に医療専門家を支援することができる。例えば、腫瘍として分類された区域のリンパ球の数により、免疫療法が患者の癌の治療に成功するかどうかを予測することができる。
【0220】
一例では、コントローラ308によって生成されたデジタルオーバーレイおよびレポートを使用して、スライドサンプルが組織の遺伝子配列分析を成功させるのに十分な高品質の組織を有するかどうか、例えば、プロセス700で論じられるように、受け入れ/拒否/手動判定を実装するかどうかを判定することができる。スライド上の組織の遺伝子配列分析は、スライドに一定量の組織が含まれる場合、および/またはユーザ定義の組織量および腫瘍純度の閾値を超える腫瘍純度値がある場合に成功する可能性がある。コントローラ308は、プロセス700を使用して、スライド上に存在する組織の量およびスライド上の組織の腫瘍純度に応じて、配列分析のために受け入れられたか、または拒否されたものとしてスライドにラベルを付けることができる。コントローラ308はまた、プロセス700にしたがって、同様に、ジェネレータ324からのデジタルオーバーレイおよびレポートとインタラクションを有するユーザから得られたユーザ定義の組織量閾値およびユーザ定義の不確実性範囲を使用して、スライドを不確実であるとしてラベル付けすることができる。
【0221】
一例では、例えばバイオマーカーメトリック処理モジュール326を使用して、プロセス700を実装するコントローラ308は、病理組織画像の組織で覆われた総面積を測定するか、スライド上の細胞数を数えることにより、スライド上の組織の量を計算する。スライド上の細胞の数は、スライド上に見える細胞核の数によって決定され得る。一例では、コントローラ308は、腫瘍とラベル付けされたグリッド区域内の細胞核の数をスライド上の細胞核の総数で除算することによって、癌細胞である組織の割合を計算する。コントローラ308は、腫瘍区域に位置するがリンパ球として特徴付けられる細胞に属する、細胞核または細胞の外縁を除外することができる。癌細胞である組織の割合は、サンプルの腫瘍純度として知られている。次に、コントローラ308は、腫瘍純度をユーザが選択した最小腫瘍純度閾値と比較し、デジタル画像内の細胞数をユーザが選択した(オーバーレイマップジェネレータ324と対話するユーザによって入力された)最小細胞閾値と比較し、両方の閾値を超えた場合、遺伝子配列分析を含む分子検査のために画像に描かれている組織スライドを承認する。一例では、ユーザが選択した最小腫瘍純度閾値は、0.20、つまり20%である。ただし、1%、5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、またはそれ以上を含む、任意の数の腫瘍純度閾値を選択できる。
【0222】
別の例では、コントローラ308によりスライド上で検出された組織で覆われた総面積に第1の乗数値を乗算し、スライド上でカウントされた細胞数に第2の乗数値を乗算し、これらの乗算の積を合計する複合組織量スコアが画像に与えられる。
【0223】
一例では、コントローラ308は、腫瘍とラベル付けされたグリッド区域が空間的に統合されているか、または非腫瘍グリッド区域間で分散されているかどうかを計算することができる。コントローラ308が腫瘍区域が空間的に統合されていると判定した場合、オーバーレイマップジェネレータ324は、推奨切断境界のデジタルオーバーレイを生成することができ、この推奨切断境界により、腫瘍として分類された画像領域と非腫瘍として分類された画像領域、または非腫瘍として分類された区域内で、腫瘍として分類された区域の近位にある画像領域が分離される。この推奨切断境界は、特に遺伝子配列分析を含む分子検査のために、技術者がスライドを解剖してスライドから最大量の腫瘍または非腫瘍組織を分離するのを支援するためのガイドになり得る。
【0224】
一例では、コントローラ308は、クラスタリングアルゴリズムを含み得、クラスタリングアルゴリズムにより、タイプ分類された細胞、組織クラス分類されたタイル、またはスライド上の視覚的に検出可能な特徴の間隔および密度に関する情報が計算および報告される。間隔情報には、リンパ球、免疫細胞、腫瘍細胞、またはその他の細胞の分布パターンとヒートマップとが含まれる。これらのパターンには、クラスター化、分散、高密度、および存在しないものが含まれる場合がある。この情報は、免疫細胞および腫瘍細胞が一緒にクラスター化するかどうか、ならびにクラスター区域の何パーセンテージが重複するかを判定するのに役立ち、これにより、免疫浸潤および免疫療法に対する患者の反応を予測することが容易になり得る。
【0225】
コントローラ308はまた、平均腫瘍細胞真円度、平均腫瘍細胞周囲長、および平均腫瘍核密度を計算および報告することができる。
【0226】
間隔情報には、腫瘍細胞および免疫細胞の混合レベルも含まれる。クラスタリングアルゴリズムは、所与のスライド上またはスライドの領域内の2つの隣接する細胞が、2つの腫瘍細胞、2つの免疫細胞、または1つの腫瘍細胞および1つの免疫細胞のいずれかになる確率を計算することができる。
【0227】
クラスタリングアルゴリズムはまた、腫瘍として分類された区域の周囲に位置する一部の間質パターンの厚さを測定することができる。この腫瘍領域を囲む間質の厚さは、治療に対する患者の反応の予測因子であり得る。
【0228】
一例では、コントローラ308はまた、単一のスライド画像または多くのスライド画像から集約された各グリッドタイル内の赤、緑、青(RGB)値、輝度、色相、彩度、グレースケール、および染色デコンボリューションの情報について、平均、標準偏差、合計などを含む統計を計算および報告することができる。デコンボリューションには、ヘマトキシリン、エオシン、またはIHC染色を含む、いくつかの個々の染色または染色の組み合わせによって作成された視覚信号の除去が含まれる。
【0229】
コントローラ308はまた、物理学および画像分析の分野からの既知の数式を組み込んで、各グリッドタイルの視覚的に検出可能な基本的な特徴量を計算することができる。線、交互の明るさのパターン、および輪郭を描くことができる形状を含む視覚的に検出可能な基本的な特徴を組み合わせて、細胞サイズ、細胞の真円度、細胞の形状、およびテクスチャ特徴と呼ばれる染色パターンを含む、視覚的に検出可能な複雑な特徴を作成することができる。
【0230】
他の例では、オーバーレイマップジェネレータ324によって生成されるデジタルオーバーレイ、レポート、統計、および推定値は、患者の生存、特定の癌治療に対する患者の反応、腫瘍または免疫クラスターのPD-L1ステータス、マイクロサテライト不安定性(MSI)、腫瘍変異負荷(TMB)、および腫瘍の起源が不明であるか腫瘍が転移性である場合の腫瘍の起源を予測するのに有用であり得る。バイオマーカーメトリック処理モジュール326はまた、予測される患者の生存、特定の癌治療に対する患者の反応、腫瘍または免疫クラスターのPD-L1ステータス、マイクロサテライト不安定性(MSI)、および腫瘍突然変異負荷(TMB)の定量的測定値を計算し得る。
【0231】
一例では、コントローラ308は、腫瘍または別の組織クラスとして指定された区域において、スライド全体上の各タイプの免疫細胞の相対密度を計算することができる。免疫組織クラスには、リンパ球、細胞傷害性T細胞、B細胞、NK細胞、マクロファージなどが含まれる。
【0232】
一例では、病理組織スライドをスキャンするか、別様でデジタルでキャプチャする行為は、深層学習フレームワーク300にその病理組織スライドのデジタル画像を分析させるように自動的にトリガーする。
【0233】
一例では、オーバーレイマップジェネレータ324は、ユーザが、組織クラスオーバーレイマップまたは細胞外縁オーバーレイマップ上の2つの組織クラス間の細胞外縁または境界を編集することを可能にし、変更されたマップを新しいオーバーレイとして保存する。
【0234】
図11は、システム300を使用して実装され得る、組織分類、バイオマーカー検出、およびマッピング分析のための病理組織スライドのデジタル画像を準備するためのプロセス1100を示している。プロセス1100は、分析およびバイオマーカー予測のために、受信された各画像に対して実行され得る。一部の例では、プロセス1100は、最初に受信された訓練画像に対して、全体的または部分的に実行され得る。図9に記載されたプロセスの各々は、前処理コントローラ302によって実行され得、ここで、当該プロセスのうちの任意の1つ以上は、正規化モジュール310および/または組織検出器314によって実行され得る。
【0235】
分類器モデルを訓練する場合などの一例では、前処理コントローラ302によって1102で受信された各デジタル画像ファイルは、同じ画像コンテンツの複数のバージョンを含み、各バージョンは異なる解像度を有する。ファイルは、これらのコピーをスタック層に記憶し、最大バイト数を含む最高解像度の画像が最下層になるように解像度別に配置する。これは、ピラミッド構造として知られている。一例では、最高解像度の画像は、デジタル画像ファイルを作成したスキャナまたはカメラによって達成可能な最高解像度である。
【0236】
一例では、各デジタル画像ファイルにはまた、各層の解像度を示すメタデータが含まれる。前処理コントローラ302は、プロセス1104で、このメタデータ内の各層の解像度を検出し、それをユーザが選択した解像度基準と比較して、分析に最適な解像度を有する層を選択することができる。一例では、最適な解像度は、1ミクロン当たり1ピクセルである(4でダウンサンプリングされる)。
【0237】
一例では、前処理コントローラ302は、ミクロン当たり4ピクセルの最下層解像度を有するタグ付き画像ファイルフォーマット(TIFF)ファイルを受信する。このミクロン当たり4ピクセルの解像度は、「40倍」の倍率の顕微鏡対物レンズによって達成される解像度に対応する。一例では、スライド上に組織が存在する可能性のある区域は、最大100,000×100,000ピクセルのサイズである。
【0238】
一例では、TIFFファイルには約10の層があり、各層の解像度は、その下の層の解像度の半分である。高解像度層の解像度が1ミクロン当たり4ピクセルである場合、その上の層の解像度は、1ミクロン当たり2ピクセルになる。上層の1ピクセルで表される区域は、下層の4ピクセルで表される区域のサイズであり、つまり、1つの上層ピクセルによって表される区域の各辺の長さは、1つの下層ピクセルによって表される区域の各辺の長さの2倍になる。
【0239】
各層は、プロセス1106で実行されるように、その下の層の2倍のダウンサンプリングであり得る。ダウンサンプリングは、元の画像よりも低い解像度値で元の画像の新しいバージョンを作成することができる方法である。最近隣、双一次、エルミート、ベル、ミッチェル、バイキュービック、およびランツォス(Lanczos)再サンプリングを含む、ダウンサンプリングのための当技術分野で知られている多くの方法がある。
【0240】
一例では、2倍のダウンサンプリングとは、高解像度層の正方形にある4つのピクセルのうち、3つの赤、緑、青(RGB)の値が、4番目のピクセルのRGB値に置き換えられ、平均化された4つのピクセルと同じスペースを占める新しい大きなピクセルを上の層に作成することを意味する。
【0241】
一例では、デジタル画像ファイルは、最適な解像度の層または画像を含まない。この場合、前処理コントローラ302は、プロセス1106において、最適解像度よりも高い解像度を有するファイルから画像を受信し、最適解像度を達成する比率で画像をダウンサンプリングすることができる。
【0242】
一例では、最適な解像度は1ミクロン当たり2ピクセル、つまり「20倍」の倍率であるが、TIFFファイルの最下層は、1ミクロン当たり4ピクセルであり、各層は、その下の層と比較して4倍にダウンサンプリングされる。この場合、TIFFファイルには40倍の倍率の1つの層と、10倍の倍率の次の層があるが、20倍の倍率の層はない。この例では、前処理コントローラ302は、メタデータをリード、各層の解像度を最適な解像度と比較し、最適な解像度の層を見つけられない。代わりに、前処理コントローラ302は、40倍の倍率の層を検索し、次に、その層の画像を2倍のダウンサンプリング比でダウンサンプリングして、20倍の倍率の最適な解像度を有する画像を作成する。
【0243】
また、プロセス1106において、前処理コントローラ302は、最適な解像度で画像を取得した後、腫瘍サンプル組織を描写する画像のすべての部分を特定し、破片、ペンマーク、および他の非組織オブジェクトをデジタル的に除去する。
【0244】
一例では、同じくプロセス1106において、前処理コントローラ302は、画像の組織領域と非組織領域とを区別し、ガウスぼかし除去を使用して、非組織オブジェクトを有するピクセルを編集する。一例では、腫瘍サンプル組織の一部ではないスライド上の任意の対照組織を、組織検出器によって検出して対照組織としてラベル付けするか、または下流のタイルグリッド投影から除外すべき対照組織として人間の分析者によって手動でラベル付けすることができる。
【0245】
非組織オブジェクトには、画像内のアーティファクト、マーキング、および破片が含まれる。破片には、ケラチン、視覚的に分析することができないひどく圧縮または粉砕された組織、およびサンプルで収集されなかったオブジェクトが含まれる。
【0246】
一例では、同じくプロセス1106において、スライド画像にマーカーインクまたはその他の書き込みが含まれており、コントローラ302がそれを検出してデジタル的に削除している。マーカーインクまたは他の書き込みは、組織上で透明である可能性があり、つまり、スライド上の組織がインクを通して見える可能性がある。各マーキングのインクは1色であるため、インクは、インクなしで染色された組織を含むピクセルと比較して、インクの下に染色された組織を含むピクセルのRGB値に一貫したシフトを引き起こす。
【0247】
一例では、プロセス1106においても、コントローラ302は、スライド画像の残りの部分のRGB値とは異なるRGB値を有する部分を検出することによってインクを含むスライド画像の部分を特定し、2つの部分からのRGB値の差は一貫している。次に、組織検出器は、インク部分のピクセルのRGB値と非インク部分のピクセルとの差をインク部分のピクセルのRGB値から差し引いて、インクをデジタル的に削除することができる。
【0248】
一例では、同じくプロセス1106において、コントローラ302は、局所的な変動が少ない画像内のピクセルを排除する。これらのピクセルは、組織スライスの焦点が合っていない、スライドの2つのガラス層の間に気泡が閉じ込められている、またはスライド上のペンマークによって引き起こされるアーティファクト、マーキング、またはぼやけた区域を表す。
【0249】
一例では、プロセス1106においても、コントローラ302は、画像をグレースケール画像に変換することによってこれらのピクセルを除去し、グレースケール画像をガウスぼかしフィルタに通して、各ピクセルの元のグレースケール値をぼやけたグレースケール値に数学的に調整して、ぼやけた画像が作成される。他のフィルタを使用して、画像をぼかすことができる。次に、各ピクセルについて、コントローラ302は、元のグレースケール値からぼやけたグレースケール値を差し引いて、差分グレースケール値を作成する。一例では、ピクセルの差分グレースケール値がユーザ定義の閾値よりも小さい場合、ブラーフィルタが元のグレースケール値を大幅に変更せず、元の画像のピクセルがぼやけた領域にあったことを示す可能性がある。差分グレースケール値を閾値と比較して、非組織領域として指定することができるぼやけた領域がどこにあるかを示すバイナリマスクを作成することができる。マスクは画像のコピーであり得、ピクセル内の色、RGB値、またはその他の値が調整されて、特定のタイプのオブジェクトの有無を示し、そのタイプのすべてのオブジェクトの場所を示す。例えば、バイナリマスクは、ピクセルがユーザ定義のブラー閾値未満の差分グレースケール値を有する場合に、各ピクセルのバイナリ値を0に設定し、ピクセルがユーザ定義のブラー閾値以上の差分グレースケール値を有する場合に、各ピクセルのバイナリ値を1に設定することによって生成され得る。ピクセルバイナリ値が0のバイナリマスクの領域は、非組織として指定される可能性のある元の画像のぼやけた区域を示す。
【0250】
コントローラ302はまた、プロセス1108で、画像内の極端な明るさまたは暗さをミュートまたは除去することができる。一例では、コントローラ302は、入力画像をグレースケール画像に変換し、各ピクセルは、ピクセルの明るさに応じて数値を受け取る。一例では、グレースケール値の範囲は0~255であり、ここで、0は黒を表し、255は白を表す。輝度閾値を超えるグレースケール値を持つピクセルでは、組織検出器は、それらのピクセルのグレースケール値を輝度閾値に置き換える。グレースケール値が暗さの閾値を下回るピクセルの場合、組織検出器は、それらのピクセルのグレースケール値を暗さの閾値に置き換える。一例では、輝度閾値は、約210である。一例では、暗さの閾値は、約45である。組織検出器は、新しいグレースケール値を持つ画像をデータファイルに記憶する。
【0251】
一例では、コントローラ302は、プロセス1110で、最初の分析の後に残っているアーティファクト、破片、またはマーキングについて変更された画像を分析する。組織検出器は画像をスキャンし、特定の色、サイズ、または滑らかさを持つ残りのピクセルグループを非組織として分類する。
【0252】
一例では、スライドはH&E染色を有しており、病理組織画像の大部分の組織はピンク色の染色を有する。この例では、コントローラ302は、オブジェクトを表すピクセルのRGB値によって決定されるように、ピンク色相または赤色相のないすべてのオブジェクトを非組織として分類する。組織検出器314は、ピクセル内の任意の色または任意の色の欠如を解釈して、そのピクセル内の組織の有無を示すことができる。
【0253】
一例では、コントローラ302は、各オブジェクトのサイズおよび滑らかさを測定するために、画像内の各オブジェクトの外形を検出する。非常に暗いピクセルは破片である可能性があり、非常に明るいピクセルは背景である可能性があり、どちらも非組織オブジェクトである。したがって、コントローラ302は、画像をグレースケールに変換することと、各ピクセルのグレースケール値を、ユーザが決定した、明るすぎないか、または暗すぎない範囲の値の範囲と比較することと、グレースケール値が範囲内にあるかどうかを判定して、各ピクセルに2つの数値のうちのいずれかが割り当てられたバイナリ画像を生成することと、によって、各オブジェクトの外形を検出することができる。
【0254】
例えば、画像を閾値化するために、コントローラ302は、各ピクセルのグレースケール値をユーザ定義の範囲の値と比較し、ユーザ定義の範囲外の各グレースケール値を値0に置き換え、かつユーザ定義の範囲内の各グレースケール値を値1に置き換えることができる。次に、コントローラ302は、値1を有する隣接するピクセルの各グループの外縁として、すべてのオブジェクトのすべての外形を描画する。閉じた外形はオブジェクトの存在を示しており、コントローラ302は、各オブジェクトの外形内の区域を測定して、オブジェクトのサイズを測定する。
【0255】
一例では、スライド上の組織オブジェクトがスライドの外縁と接触する可能性は低く、コントローラ302は、スライドの縁と接触するすべてのオブジェクトを非組織として分類する。
【0256】
一例では、各オブジェクトのサイズを測定した後、コントローラ302は、すべてのオブジェクトのサイズをランク付けし、最大値を最大のオブジェクトのサイズとして指定する。コントローラ302は、各オブジェクトのサイズを最大のオブジェクトのサイズで除算し、結果として得られるサイズ商をユーザ定義のサイズ閾値と比較する。オブジェクトのサイズ商がユーザ定義のサイズ閾値よりも小さい場合、コントローラ302は、そのオブジェクトを非組織として指定する。一例では、ユーザ定義のサイズ閾値は、0.1である。
【0257】
各オブジェクトのサイズを測定する前に、プロセス1106では、コントローラ302は、最初に入力画像をダウンサンプリングして、組織オブジェクトの一部が非組織として指定される可能性を低減することができる。例えば、単一の組織オブジェクトは、より小さなサイズを有する1つ以上の追加の組織オブジェクト部分で囲まれた第1の組織オブジェクト部分として現れることがある。閾値化後、追加の組織オブジェクト部分は、ユーザ定義のサイズ閾値よりも小さいサイズ商を有する可能性があり、誤って非組織として指定される可能性がある。閾値化の前にダウンサンプリングすると、元の画像の値が0のピクセルで囲まれた値が1の隣接するピクセルの小さなグループが、値が1の近位の大きなピクセルのグループに含まれる。元の画像の値が1のピクセルで囲まれた値が0の隣接するピクセルの小さなグループが、値が0の近位の大きなピクセルのグループに含まれる場合も、逆のことが当てはまり得る。
【0258】
一例では、コントローラ302は、40倍の倍率を有する画像を16倍の比率でダウンサンプリングするので、結果として得られるダウンサンプリングされた画像の倍率は40/16倍であり、ダウンサンプリングされた画像の各ピクセルは、元の画像の16ピクセルを表すことになる。
【0259】
一例では、プロセス1110では、コントローラ302は、スライド上の各オブジェクトの境界を、ゼロに等しくないバイナリ値またはRGB値を有し、オブジェクトの境界を示すゼロに等しいRGB値を有するピクセルに囲まれたピクセルのクラスターとして検出する。境界を形成するピクセルが比較的直線上にある場合、コントローラ302は、オブジェクトを非組織として分類する。例えば、コントローラ302は、閉じた多角形を用いて、ある形状の輪郭を描く。ポリゴンの頂点の数がユーザ定義の最小頂点閾値より少ない場合、ポリゴンは、滑らかすぎる単純な無機形状であると見なされ、非組織としてマークされる。次に、コントローラ302は、プロセス1112で、正規化された画像にタイリングプロセスを適用する。
【0260】
図12A~12Cは、モジュール306の分類モデルに使用され得る例示的なアーキテクチャ1200を示している。例えば、同じアーキテクチャ1200は、組織セグメンテーションモデル322および組織分類モデル320の各々に使用され得、両方とも、本明細書のFCN構成または任意のニューラルネットワークを使用して実装される。組織分類器モジュール306は、受信した各タイルで表される画像に組織クラスラベルを割り当てる組織分類アルゴリズム(図12A~12Cを参照)を含む(例示的なタイル1302は、図13に示される病理組織画像1300の第1の部分1304でラベル付けされる)。一例では、オーバーレイマップジェネレータ324は、各組織クラスが固有の色で表されるグリッドベースのデジタルオーバーレイマップを表示することによって、各小さな正方形のタイルに関連付けられた、割り当て済みの組織クラスラベルを報告することができる(図12Aを参照)。
【0261】
タイルサイズが小さいと、組織分類器モジュール306が入力画像を分析するのに必要な時間が増加する可能性がある。あるいは、タイルサイズが大きいと、タイルに2つ以上の組織クラスが含まれる可能性が高くなり、単一の組織クラスラベルをタイルに割り当てることが困難になる場合がある。この場合、アーキテクチャ1200は、他の組織クラスラベルと比較して、組織クラスラベルのうちの1つが小さな正方形のタイルで画像を記述する確率が高いことを計算する代わりに、2つ以上の組織クラスラベルが単一の小さな正方形のタイルに正確に割り当てられる確率が等しいことを計算することができる。
【0262】
一例では、各小さな正方形のタイルの各辺は、約32ミクロンの長さであり、約5~10個の細胞が各小さな正方形のタイルに収まる。この小さなタイルサイズにより、組織分類器モジュール306は、2つの異なる組織クラスを表す2つの隣接する小さな正方形のタイル領域間の境界を決定するときに、より空間的に正確な境界を作成することができる。一例では、小さな正方形のタイルの各辺は、1ミクロンまで短くすることができる。
【0263】
一例では、各タイルのサイズは、特定の数のピクセルを含むようにユーザによって設定することができる。この例では、入力画像の解像度によって、ミクロン単位で測定されたタイルの各辺の長さが決まることになる。異なる解像度では、タイル辺のミクロンの長さが異なり、各タイルの細胞の数が異なる場合がある。
【0264】
アーキテクチャ1200は、各小さな正方形のタイル内またはその近くに位置するデジタル画像の部分の様々なピクセルデータパターンを認識し、それらの検出されたピクセルデータパターンに基づいて各小さな正方形のタイルに組織クラスラベルを割り当てる。一例では、小さな正方形のタイルを中心とする中程度の正方形のタイルは、その小さな正方形のタイルのラベル割り当てに寄与するのに十分に小さな正方形のタイルに近いスライド画像の区域を含む。
【0265】
一例では、中程度の正方形のタイルの各辺は、約466ミクロンの長さであり、各中程度の正方形のタイルには、約225(15×15)の小さな正方形のタイルが含まれる。一例では、この中程度のタイルサイズは、構造組織の特徴が単一の中程度のタイル内に収まり得る可能性を高め、中央の小さな正方形のタイルにラベルを付けるときにアルゴリズムにコンテキストを提供する。構造組織の特徴には、腺、管、血管、免疫クラスターなどが含まれる場合がある。
【0266】
一例では、この中程度のタイルサイズは、畳み込み中に発生する収縮を打ち消すことができるように選択されている。
【0267】
アーキテクチャ1200による畳み込み中に、入力画像行列は、結果行列を作成するためにフィルタ行列によって乗算される。収縮とは、結果行列が入力画像行列よりも小さい場合を指す。畳み込み層のフィルタ行列の次元は、収縮によって失われる行および列の数に影響する。特定のCNNを介して画像を処理することによって縮小によって失われる行列エントリの総数は、CNNの畳み込み層の数および各畳み込み層のフィルタ行列の次元に応じて計算され得る(図12A~12Cを参照)。
【0268】
図12Bに示される例では、組み合わせた畳み込み層は、行列の上部、下部、および2つの側縁から合計217の行列の行または列を失うので、中程度の正方形タイルは、小さな正方形のタイルに小さな正方形のタイルの両側に217のピクセルを加えたものに等しくなるように設定される。
【0269】
一例では、2つの隣接する小さな正方形のタイルが一辺を共有し、各々が中程度の正方形のタイルの中心にある。2つの中程度の正方形のタイルが重なっている。各中程度の正方形のタイルにある466*466の小さなピクセルのうち、2つの中程度の正方形のタイルは、32*466のピクセルを除くすべてを共有する。一例では、アルゴリズムの各畳み込み層(図12Aおよび図12Bを参照)は、アルゴリズムが2つの値のベクトル(2つの小さな正方形のタイルの各々に1つ)を生成するように、両方の中程度の正方形の区域を同時に分析する。
【0270】
値のベクトルには、各組織クラスラベルの確率値が含まれ、それは、小さな正方形のタイルがその組織クラスを表す可能性を示している。値のベクトルは、行列状に並べられ、三次元の確率データ配列を形成し得る。他のベクトルに対する三次元確率データ配列内の各ベクトルの場所は、アルゴリズム分析に含まれる他の小さな正方形のタイルに対する、関連する小さな正方形のタイルの場所に対応する。
【0271】
この例では、各中程度の正方形のタイルの466×466(217、156)ピクセルの434×434(188、356)は、両方の中程度の正方形のタイルに共通である。両方の中程度の正方形のタイルを同時に分析することにより、アルゴリズムは効率を高める。
【0272】
一例では、アーキテクチャ1200は、複数の重なり合う中程度の正方形のタイルによって形成された大きなタイルを分析することによって、効率をさらに高めることができ、その各々に、組織クラスのラベルを受け取る1つの中央の小さな正方形のタイルを囲む多くの小さな正方形のタイルが含まれる。この例では、アルゴリズムは、小さな正方形のタイルごとに確率の1つのベクトルを含む三次元確率データ配列の形式で1つのデータ構造を生成し、三次元配列内のベクトルの場所は、大きなタイル内の小さなタイルの場所に対応する。
【0273】
アーキテクチャ1200は、例えば、組織分類器モジュール306内で、この三次元確率データ配列を保存し、オーバーレイマップジェネレータ324は、各小さな正方形タイルの組織クラスラベル確率を組織クラスオーバーレイマップに変換する。一例では、オーバーレイマップジェネレータ324は、各ベクトルに記憶された確率を比較して、各小さな正方形のタイルに関連付けられた最大の確率値を決定することができる。その最大値に関連付けられた組織クラスラベルをその小さな正方形のタイルに割り当てることができ、割り当てられたラベルのみが、組織クラスオーバーレイマップに表示されることになる。
【0274】
一例では、大きな正方形のタイルのためにアーキテクチャ1200の各層によって生成された行列は、グラフィックスプロセッシングユニット(GPU)メモリに記憶される。GPUメモリの容量および三次元確率データ配列の各エントリに必要なGPUメモリの量によって、大きな正方形のタイルの可能な最大サイズが決まり得る。一例では、GPUメモリ容量は、250MBであり、行列の各エントリには、4バイトのGPUメモリが必要である。これにより、4,530ピクセル×4,530ピクセルの大きなタイルサイズが可能になり、次のように計算される。4バイト/エントリ*各大きなタイルに4530*4530*3エントリ=大きな正方形のタイルごとに246(約250)MBのGPUメモリが必要である。別の例では、行列の各エントリに、8バイトのGPUメモリが必要である。この例では、16GBのGPUは32個の大きなタイルを同時に処理することができ、各大きなタイルのサイズは、4,530ピクセル×4,530ピクセルの寸法を有し、次のように計算される。32個の大きなタイル*8バイト/エントリ*各大きなタイルに4530*4530*3エントリ=14.7(約16)GBのGPUメモリが必要である。
【0275】
一例では、三次元確率データ配列の各エントリは、単精度浮動小数点形式(float32)のデータエントリである。
【0276】
一例では、大きな正方形のタイルを形成する、非重複の小さな正方形のタイルが、16,384(1282)個存在する。各小さな正方形のタイルは、各約466ピクセルの長さの辺を持つ中程度の正方形のタイルの中心である。小さな正方形のタイルは、各約4,096ピクセルの長さの辺を持つ大きな正方形のタイルの中央領域を形成する。中程度の正方形のタイルはすべて重なり合い、中央領域の4辺すべての周りに、幅が約217ピクセルの境界を作成する。境界を含め、各大きな正方形のタイルには、各約4,530ピクセルの長さの辺がある。
【0277】
この例では、この大きな正方形のタイルサイズにより、同時計算が可能になり、冗長な計算のパーセンテージが99%削減される。これは次のように計算できる。まず、大きな正方形のタイルの内側にあるピクセル(大きな正方形のタイルの端から少なくとも434ピクセルの任意のピクセル)が選択され、このモデルピクセルを中心として、中程度の正方形のタイル(縁あたり466ピクセル)のサイズの領域が作成され、次に、この構築された領域の中心にある小さな正方形のタイルの場合、モデルピクセルは、その小さな正方形のタイルの対応する中程度の正方形のタイル内に含まれる。大きな正方形のタイルの中に(466/32)^2=約217のような小さな正方形のタイルがある。大きな正方形のタイルの内側にないピクセルの場合、この条件を満たす小さな正方形のタイルの数は少なくなる。選択した小さな正方形のタイルと大きな正方形のタイルの縁との間の距離が減少すると、数は直線的に減少し、次に、選択した小さな正方形のタイルとコーナーとの間の距離が減少すると、少数のピクセル(約0.005%)は、単一の小さな正方形のタイルの分類にのみ貢献する。単一の大きな正方形のタイルで分類を実行するということは、各ピクセルの計算が小さな正方形のタイルごとに1回ではなく、1回だけ実行されることを意味する。したがって、冗長性は、ほぼ217分の1に削減される。一例では、スライドにいくつかの大きな正方形のタイルが含まれる可能性があり、各々が隣接するタイルとわずかに重なっている可能性があるため、冗長性は、完全に排除されるわけではない。
【0278】
冗長な計算パーセンテージの上限を設定することができる(この上限からのわずかな偏差は、組織を覆うために必要な大きな正方形のタイルの数と、これらのタイルの相対的な配置によって異なる)。冗長性のパーセンテージは1-1/rであり、式中、rは冗長性の比率であり、rは、(T/N+1)(sqrt(N)*E+434)^2/(sqrt(T)*E+434)^2として計算され得、Tは、スライド上の小さな正方形のタイルの総数であり、Nは、大きな正方形のタイル当たりの小さな正方形のタイルの数であり、Eは、小さな正方形のタイルの縁サイズである。
【0279】
図12Aは、アーキテクチャ1200の層構造の一例の層を示している。図12Bは、アーキテクチャ1200の異なる層および結果として生じるサブ層の出力サイズの例を示し、タイル解像度のFCN構成を示している。示されているように、組織分類器モジュール306に含まれるタイル解像度FCN構成は、スキップ接続で1×1畳み込みの追加の層を有し、スキップ接続で8倍ダウンサンプリングし、信頼マップ層を使用し、平均プーリング層を連結層に置き換え、全結合FCN層を1×1畳み込みおよびソフトマックス層に置き換える。追加層は、分類タスクを分類セグメンテーションタスクに変換する。これは、画像全体を1つの組織クラスラベルとして受信して分類する代わりに、追加層により、タイル解像度FCNをユーザ定義グリッド内の各小さなタイルを組織クラスとして分類することが可能になることを意味する。
【0280】
これらの追加および置換層は、従来のピクセル解像度FCNの後の層で実施されるアップサンプリングを必要とせずに、CNNをタイル解像度FCNに変換する。アップサンプリングは、元の画像よりも高い解像度値で元の画像の新しいバージョンを作成することができる方法である。ただし、アップサンプリングは時間と計算量の多いプロセスであり、本アーキテクチャではこれを回避することができる。
【0281】
最近隣、双一次、エルミート、ベル、ミッチェル、バイキュービック、およびランツォス再サンプリングを含む、アップサンプリングのための当技術分野で既知の多くの方法がある。一例では、2倍のアップサンプリングは、赤、緑、青(RGB)の値を持つピクセルが4つのピクセルに分割され、元のピクセルのRGB値と一致するように、3つの新しいピクセルのRGB値が選択され得ることを意味する。別の例では、3つの新しいピクセルのRGB値は、元のピクセルおよび隣接するピクセルに隣接するピクセルからのRGB値の平均として選択され得る。
【0282】
新しいピクセルのRGB値は、デジタルスライド画像によってキャプチャされた元のスライドの目に見える組織を正確に反映しない可能性があるため、アップサンプリングは、オーバーレイマップジェネレータ224によって生成される最終的な画像オーバーレイマップにエラーを導入する可能性がある。
【0283】
一例では、個々のピクセルにラベルを付ける代わりに、タイル解像度FCNは、小さな正方形のタイルでできた大きな正方形のタイルを分析するようにプログラムされており、1つの組織クラス分類ラベルが各小さなタイルに描かれている組織クラスと一致する確率を各々が表す値の3D配列を生成する。当技術分野で知られている畳み込み層は、少なくとも1つの入力画像行列の少なくとも1つのフィルタ行列による乗算を実行する。後の最初の畳み込みでは、入力画像行列は、大きな正方形のタイル入力画像のすべてのピクセルの値を有し、そのピクセルの視覚データを表す(例えば、RGBの各チャネルの0~255の値)。
【0284】
フィルタ行列は、ユーザが選択した次元を有し得、ユーザが選択した、またはCNNモデルの訓練中にバックプロパゲーションによって決定された重み値を含み得る。一例では、最初の畳み込み層では、フィルタ行列の寸法は、7×7であり、64個のフィルタがある。フィルタ行列は、ある組織クラスを別の組織クラスから区別することができる、視覚パターンを表す場合がある。
【0285】
RGB値が入力画像行列に入力される一例では、入力画像行列およびフィルタ行列は、三次元になる(図12Cを参照)。各フィルタ行列に各入力画像行列を乗算して、結果行列を生成する。1つの畳み込み層のフィルタによって生成されたすべての結果行列を積み重ねて、行、列、および深さなどの次元を持つ三次元の結果行列を作成することができる。3D結果行列の最後の次元である深さは、フィルタ行列の数に等しい深さを有する。1つの畳み込み層からの結果行列は、次の畳み込み層の入力画像行列になる。
【0286】
図12Aに戻ると、「/n」(nは数値)を含む畳み込み層のタイトルは、その層によって生成された結果行列のダウンサンプリング(プーリングとして既知)があることを示している。nは、ダウンサンプリングが発生する要因を示す。2倍のダウンサンプリングは、元の結果行列の半分の行および半分の列を持つダウンサンプリングされた結果行列が、結果行列の4つの値の2乗をそれらの値のうちの1つ、またはそれらの値から計算された統計に置き換えることによって作成されることを意味する。例えば、値の最小値、最大値、または平均値が、元の値に置き換わる場合がある。
【0287】
アーキテクチャ1200はまた、スキップ接続を追加する(図12Aに、青色の畳み込み層を連結層に直接接続する矢印の付いた黒い線として示されている)。左側のスキップ接続には、8倍のダウンサンプリングが含まれ、右側のスキップ接続には、入力画像行列に各々1×1の次元を持つフィルタ行列を乗算する2つの畳み込み層が含まれる。これらの層のフィルタ行列は1×1の次元であるため、紫色の畳み込み層によって作成された結果行列の対応する確率ベクトルには、個々の小さな正方形のタイルのみが寄与する。これらの結果行列は、小さな視野を表す。
【0288】
他のすべての畳み込み層では、フィルタ行列の次元が大きいため、中程度の正方形のタイルの中央にある小さな正方形のタイルを含む各中程度の正方形のタイルのピクセルが、その小さな正方形のタイルに対応する結果行列の確率ベクトルに寄与することができる。これらの結果行列により、小さな正方形のタイルを囲むコンテキストピクセルデータパターンが、各組織クラスのラベルが小さな正方形のタイルに適用される確率に影響を与えることができる。これらの結果行列は、大きな視野を表す。
【0289】
スキップ接続の1×1畳み込み層により、アルゴリズムは、中央の小さな正方形のタイルのピクセルデータパターンを、周囲の中程度の正方形のタイルの残りのピクセルデータパターンよりも重要であるか、または重要でないと見なすことができる。これは、訓練済みモデルが、連結層の間の中程度のタイルの畳み込み層(図10Aの中央の列に示される)からの最終結果行列によって乗算される重みと比較して、訓練済みモデルがスキップ接続層(図12Aの右側に示される)からの最終結果行列によって乗算される重みによって反映される。
【0290】
図12Aの左側に示されるダウンサンプリングスキップ接続は、深さ64の結果行列を作成する。512個のフィルタ行列を持つ3×3畳み込み層は、深さ512の結果行列を作成する。64個のフィルタ行列を持つ1×1畳み込み層は、深さ64の結果行列を作成する。これらの3つの結果行列はすべて、同じ数の行および同じ数の列を有する。連結層は、これら3つの結果行列を連結して、3つの連結行列と同じ行数、同じ列数、および深さ64+512+64(640)の最終結果行列を形成する。この最終結果行列は、ビュー行列の大小の焦点を組み合わせたものである。
【0291】
最終結果行列は、すべてのエントリに係数を乗算し、各深さに沿って積を合計することにより、二次元に平坦化することができる。各要素は、ユーザが選択することも、モデル訓練中にバックプロパゲーションによって選択することもできる。平坦化しても、最終結果行列の行および列の数は変更されないが、深さは1に変更される。
【0292】
1×1畳み込み層は、最終結果行列を受け取り、それを1つ以上のフィルタ行列でフィルタ処理する。1×1畳み込み層には、訓練されたアルゴリズムの各組織クラスラベルに関連付けられた1つのフィルタ行列を含めることができる。この畳み込み層は、組織クラスラベルの数に等しい深さを有する3D結果行列を生成する。各深さは、1つのフィルタ行列に対応し、結果行列の深さに沿って、小さな正方形のタイルごとに確率ベクトルが存在する場合がある。この3D結果行列は、三次元確率データ配列であり、1×1畳み込み層は、この3D確率データ配列を記憶する。
【0293】
ソフトマックス層は、各確率ベクトルのすべての値を比較し、最大値に関連付けられた組織クラスを選択して、その組織クラスをその確率ベクトルに関連付けられた小さな正方形のタイルに割り当てることにより、3D確率データ配列から二次元確率行列を作成することができる。
【0294】
次に、記憶された三次元確率データ配列または2D確率行列を、図10Aの最終信頼マップ層で組織クラスオーバーレイマップに変換して、組織クラスラベルを各タイルに効率的に割り当てることができる。
【0295】
一例では、収縮を打ち消すために、入力画像行列は、行列の4つの外縁すべてに行および列を追加し、追加された行および列の各値エントリはゼロである。これらの行および列は、パディングと呼ばれる。この場合、訓練データ入力行列は、ゼロに等しい値エントリを持つ同じ数の追加された行および列を有することになる。訓練データ入力行列のパディング行または列の数の違いは、組織クラスロケーター216が入力画像に正確にラベルを付けることを引き起こさないフィルタ行列の値をもたらすであろう。
【0296】
図12Aに示されるFCNでは、灰色および青色の層があるため、スキップ接続の前に、入力画像行列の各辺の217個の合計外側の行または列が収縮のために失われる。小さな正方形のタイルにあるピクセルのみが、緑色の層以降で作成された結果行列に対応するベクトルを有する。
【0297】
一例では、各中程度の正方形のタイルは、各中程度の正方形のタイルに対応する入力画像行列の周りにゼロの値エントリを有する行および列を追加することによってパディングされない。これは、ゼロが、組織クラスロケーター216が分析する必要がある隣接する中程度の正方形のタイルからの画像データ値を置き換えることが理由である。この場合、訓練データ入力行列もパディングされない。
【0298】
図12Cは、2つの例示的な三次元フィルタ行列によって畳み込まれている例示的な三次元入力画像行列の各深さを可視化したものである。
【0299】
入力画像行列に各中程度の正方形のタイルのRGBチャネルが含まれる例では、入力画像行列およびフィルタ行列は、三次元になる。三次元の1つでは、入力画像行列および各フィルタ行列は、赤チャネル用、緑チャネル用、および青チャネル用の3つの深度を有する。
【0300】
入力画像行列の赤色チャネル(第1の深さ)1202は、第1のフィルタ行列の対応する第1の深さで乗算される。緑色チャネル(第2の深さ)1204は、同様の方法で乗算され、青色チャネル(第3の深さ)1206も同様の方法で乗算される。次に、赤、緑、および青の積行列が合計されて、三次元結果行列の第1の深さが作成される。これは、各フィルタ行列に対して繰り返され、各フィルタに対応する三次元結果行列の追加の深さを作成する。
【0301】
組織分類器モジュール306に含まれるCNNまたはFCNを訓練するために、多種多様な訓練セットを使用することができる。
【0302】
一例では、訓練セットは、中程度の正方形のタイルのJPEG画像を含み得、各々が、1ミクロン当たり約1ピクセルの解像度で病理組織スライドの少なくとも50のデジタル画像から取得された、その中央の小さな正方形のタイルに割り当てられた組織クラスラベルを有する。一例では、人間の分析者は、関連するすべての組織クラスの輪郭を描いて、ラベル付け(様々な組織クラスに注釈を付け)するか、または各病理組織スライドの各小さな正方形のタイルを非組織または特定のタイプの細胞としてラベル付けしている。組織のクラスには、腫瘍、間質、正常、免疫クラスター、壊死、過形成/異形成、および赤血球が含まれ得る。一例では、各中央の小さな正方形のタイルの各辺は、約32ピクセルの長さである。
【0303】
一例では、訓練セット画像は、入力訓練画像マトリックスに変換され、組織分類器モジュール306によって処理されて、組織クラスラベルが訓練画像の各タイル画像に割り当てられる。組織分類器モジュール306が、人間の分析者によって追加された対応する注釈と一致するように訓練画像の検証セットに正確にラベルを付けない場合、深層学習ネットワークの各層の重みは、組織分類器モジュール306が訓練画像の検証セットの大部分に正確にラベルを付けるまでのバックプロパゲーションによる確率的勾配降下によって、自動的に調整され得る。
【0304】
一例では、訓練データセットには、複数のクラスがあり、ここで、各クラスは組織クラスを表す。その訓練セットは、デジタルスライド画像のコンテンツを認識して、様々なクラスに分類することができる、特定のハイパーパラメータ(エポック数、学習率など)を使用して固有のモデルを生成する。組織クラスには、腫瘍、間質、免疫クラスター、正常上皮、壊死、過形成/異形成、および赤血球が含まれる場合がある。一例では、各組織クラスに十分な訓練セットがある場合、モデルは、無制限の数の組織クラスを分類することができる。
【0305】
一例では、訓練セット画像は、注釈用のグレースケールマスクに変換され、ここで、マスク画像の異なる値(0~255)は異なるクラスを表す。
【0306】
各病理組織画像は、腫瘍の外観を含む視覚的特徴に大きな変化を示す可能性があるため、訓練セットには、分析する可能性のある多種多様なスライドのモデルをより適切に訓練するために、極めて異なるデジタルスライド画像が含まれる場合がある。訓練データ内の画像は、モデルの訓練に使用される前に、データ拡張(回転、スケーリング、カラージッターなどを含む)に供されてもよい。
【0307】
訓練セットはまた、癌のタイプに特有のものであり得る。この場合、特定の訓練セットでデジタル画像を生成したすべての病理組織スライドには、同じタイプの癌からの腫瘍サンプルが含まれる。癌のタイプには、乳房、結腸直腸、肺、膵臓、肝臓、胃、皮膚などが含まれ得る。各訓練セットは、癌のタイプに特有の固有のモデルを作成し得る。各癌のタイプはまた、当技術分野で知られている癌のサブタイプに分割することができる。
【0308】
一例では、訓練セットは、病理組織スライド対から導出され得る。病理組織スライド対は、各々が組織の1つのスライスを有する2つの病理組織スライドを含み、組織の2つのスライスは、腫瘍サンプルにおいて互いに実質的に近位に/ほぼ隣接して配置されていた。したがって、組織の2つのスライスは、実質的に類似する。スライド対のうちの1つは、H&E染色のみで染色され、スライド対の他の別のスライドは、特定の分子ターゲットのIHC染色で染色される。スライド対でIHC染色が現れる区域に対応するH&E染色スライド上の区域は、特定の分子ターゲットを含むものとして人間の分析者によって注釈が付けられ、組織クラスロケーターは、訓練セットとして注釈付きのH&Eスライドを受信する。実質的に同様のスライドには、例えば、スライド対に、H&E染色のスライドと、隣接するスライドのうちの1つから切り取った分子配列データで形成されたスライドとが含まれる場合、もしくは、一方がIHC染色で、もう一方が分子配列データで形成されている場合、または両方が類似の分子配列データで形成されている場合など、他の組み合わせが含まれる。
【0309】
例えば、一部の実施形態では、2つ以上のサンプルが対象から得られる(例えば、互いに隣接する2つ以上の組織スライスを採取することができる)。一部の場合では、組織スライスは、それぞれのスライスから調製された病理スライドの一部が撮像されるように取得され、一方、病理スライドの一部は、シーケンシング情報を取得するために使用される。
【0310】
本開示の実施形態による最適化モデルを訓練するために、適切な訓練データセットを使用することができる。一部の実施形態では、訓練データセットのキュレーションには、複数の患者から一連の病理レポートおよび関連するシーケンシング情報を収集することが含まれ得る。例えば、医師は、患者から少量の腫瘍組織/標本を抽出し、この標本を検査室に送ることによって、患者の腫瘍生検を行うことができる。検査室では、標本およびスライス層の凍結、パラフィンおよびスライス層への標本の設定、スライドへの標本の塗抹、または当業者に既知の他の方法などのスライド作製技術を使用して、標本からスライドを作製することができる。以下の開示の目的のために、スライドおよびスライスは交換可能に使用され得る。スライドは、標本からの組織のスライスを保存し、スライスが抽出された標本と標本からのスライスの配列番号とを識別するラベルを受け取る。慣習的に、病理スライドは、標本を染色して細胞の特徴(細胞核、リンパ球、間質、上皮、または全体または一部の他の細胞など)を明らかにすることによって作製され得る。染色用に選択された病理スライドは、慣習的に、標本ブロックの末端スライドである。標本のスライスは、染色および診断の目的で作製できる一連の初期スライドを用いて進行する。一連の次の連続スライスをシーケンシングに使用し、最後の末端スライドを処理して追加の染色を行うことができる。末端の染色スライドがシーケンスされたスライドから離れすぎている場合、シーケンスされたスライドに近い別のスライドを染色して、シーケンスされたスライドを染色スライドによって分割してもよい。スライスごとにわずかな偏差が存在するが、組織はパラフィンスライドの場合は4um、凍結スライドの場合は35umに近い厚さでスライスされるため、偏差は最小限になると予想される。検査室では、概して、通常40um未満(約10スライド/スライス)の距離では、組織スライスに実質的な偏差が生じていないことを確認している。
【0311】
標本のスライスがスライスごとに大きく異なる(頻度は低い)場合、外れ値は破棄され、それ以上処理しなくてもよい。病理スライド510は、患者からの腫瘍サンプルから採取された様々な染色スライドであり得る。一部のスライドおよびシーケンシングデータは、データの堅牢性を確保するために同じ標本から取得されてもよく、他のスライドおよびシーケンシングデータはそれぞれの固有の標本から取得されてもよい。データセット内の腫瘍サンプルの数が多いほど、より高い精度が細胞型RNAプロファイルの予測から期待できる。一部の実施形態において、染色された腫瘍スライドは、細胞の特徴(細胞の量や、そのタイプまたは同様のタイプの正常な細胞との違いなど)の識別のために病理医によってレビューされ得る。
【0312】
この場合、訓練済み組織分類モデル320は、H&E染色組織のデジタル画像を受信して、IHC染色または所与の分子標的を含み得るタイルを予測し、オーバーレイマップジェネレータ326は、どのタイルがIHCターゲットまたは所与の分子を含む可能性が高いかを示すオーバーレイマップを生成する。一例では、オーバーレイの解像度は、個々の細胞のレベルにある。
【0313】
1つ以上の訓練セットによって訓練されたモデルによって生成されたオーバーレイは、デジタルスライド画像に注釈を付けて訓練セットのうちの1つに追加するために、人間の分析者によってレビューされ得る。
【0314】
アルゴリズムが検出するピクセルデータパターンは、視覚的に検出可能な特徴を表す場合がある。それらの視覚的に検出可能な特徴のいくつかの例には、色、テクスチャ、細胞サイズ、形状、および空間構成が含まれ得る。
【0315】
例えば、スライドの色は、コンテキスト情報を提供する。スライド上の紫色の区域は、細胞密度が高く、浸潤性腫瘍である可能性が高い。腫瘍はまた、線維形成反応において周囲の間質をより線維化させ、通常はピンク色の間質を青灰色に見せる。色の濃さはまた、特定のタイプの個々の細胞を識別するのに役立つ(例えば、リンパ球は、均一に非常に濃い青である)。
【0316】
テクスチャとは、細胞内の染色の分布を指す。ほとんどの腫瘍細胞は、粗く不均一な外観をしており、核内に明るいポケットおよび暗い核小体がある。多くの腫瘍細胞があるズームアウトされた視野は、この大まかな外観になる。多くの非腫瘍組織クラスには、各々特徴的な機能がある。さらに、ある領域に存在する組織クラスのパターンは、その領域に存在する組織または細胞構造のタイプを示すことができる。
【0317】
さらに、細胞サイズはしばしば組織クラスを示す。細胞がスライド上の他の場所の正常細胞より数倍大きい場合、それが腫瘍細胞である可能性が高くなる。
【0318】
個々の細胞の形状、特にそれらがどの程度円形であるかは、それらがどのタイプの細胞であるかを示すことができる。線維芽細胞(間質細胞)は、通常細長くて細いのに対し、リンパ球は、非常に丸い。腫瘍細胞は、より不規則な形をしている場合がある。
【0319】
細胞のグループの編成はまた、組織クラスを示すことができる。多くの場合、正常細胞は、構造化された認識可能なパターンで組織化されるが、腫瘍細胞は、より高密度で無秩序なクラスターで成長する。癌の各タイプおよびサブタイプは、組織の特徴に対する細胞の場所、互いに対する腫瘍細胞の間隔、幾何学的要素の形成などを含む、特定の成長パターンを有する腫瘍を生成する可能性がある。
【0320】
本明細書の技術は、他のアーキテクチャに拡張することができる。図14は、例えば、組織分類および細胞分類のために別々のパイプラインを同様に使用する撮像ベースのバイオマーカー予測システム1400を示している。システム1400は、本明細書の実施例に記載されるようなPD-L1を含む様々なバイオマーカーの判定のために使用され得る。さらに、本明細書の他のアーキテクチャと同様に、システム1400は、3D画像分析に基づいて、バイオマーカーのステータスおよび腫瘍のステータスならびに腫瘍の統計を予測するように構成され得る。
【0321】
システム1400は、病理組織スライドの1つ以上のデジタル画像を受信して、高密度のグリッドベースのデジタルオーバーレイマップを作成し、このデジタルオーバーレイマップにより、画像の各グリッドタイル内で視認できる組織の大部分のクラスが識別される。システム1400はまた、個々のピクセルの解像度レベルで、病理組織画像内の各細胞を識別するデジタルオーバーレイ図面を生成することができる。
【0322】
システム1400は、組織検出器1402を含み、組織検出器1402は、組織を有するデジタル画像の区域を検出し、組織を有すると検出された区域の位置(例えば、0,0ピクセルの位置など、画像内の参照位置を使用したピクセルの場所)を含むデータを保存する。組織検出器1402は、組織区域位置データ1403を、組織クラスタイルグリッドプロジェクタ1404および細胞タイルグリッドプロジェクタ1406に転送する。組織クラスタイルグリッドプロジェクタ1404は、組織区域位置データ1403を受信し、一部の組織クラスラベルの各々について、タイル上で組織分類を実行する。組織クラスロケーター1408は、結果として生じるタイル分類を受け取り、組織クラスラベルが各タイル内の画像を正確に説明する可能性を表すパーセンテージを計算して、各組織クラスがデジタル画像のどこに位置するかを判定する。タイルごとに、すべての組織クラスラベルに対して計算されたすべてのパーセンテージの合計が1になり、100%を反映する。一例では、組織クラスロケーター1408は、1つの組織クラスラベルを各タイルに割り当てて、各組織クラスがデジタル画像のどこに位置するかを判定する。組織クラスロケーターは、計算されたパーセンテージ、および各タイルに関連付けられた割り当てられた組織クラスラベルを記憶する。
【0323】
一例では、システム1400は、マルチタイルアルゴリズムを含み、マルチタイルアルゴリズムは、画像内の多くのタイルを、個別に、かつ各タイルを囲む画像の部分と組み合わせて同時に分析する。マルチタイルアルゴリズムは、個々のタイルのコンテンツおよびタイルを囲む画像の部分のコンテキストの両方をキャプチャする、マルチスケールでマルチ解像度の分析を実現することができる。2つの隣接するタイルを囲む画像の部分が重なるため、各タイルを周囲と個別に分析するのではなく、多くのタイルとその周囲を同時に分析すると、計算の冗長性が低下し、処理効率が向上する。
【0324】
一例では、システム1400は、分析結果を三次元確率データ配列に記憶することができ、これは、分析されたタイルごとに1つの一次元データベクトルを含む。一例では、各データベクトルには、合計が100%になるパーセンテージのリストが含まれ、各々は、各グリッドタイルが分析された組織クラスのうちの1つを含む確率を示す。他のベクトルに対するデータ配列の直交二次元平面内の各データベクトルの位置は、他のタイルに対するデジタル画像内のそのデータベクトルに関連付けられたタイルの位置に対応する。
【0325】
細胞型タイルグリッドプロジェクタ1406は、組織区域位置データ1403を受信し、タイル内の細胞を識別および分類し、細胞型タイルグリッドを組織を含む画像の区域に投影する。細胞型ロケーター1410は、各グリッド内のデジタル画像の各生物学的細胞を検出し、各細胞の外縁に輪郭を作り、各細胞を細胞型によって分類することができる。細胞型ロケーター1410は、各細胞の場所および細胞の外縁を含む各ピクセルを含むデータ、ならびに各細胞に割り当てられた細胞型ラベルを記憶する。
【0326】
オーバーレイマップジェネレータおよびメトリック計算機1412は、組織クラスロケーター1408から記憶された三次元確率データ配列を取得し、それを各タイルに割り当てられた組織クラスラベルを表示するオーバーレイマップに変換することができる。各タイルに割り当てられた組織クラスは、各組織クラスに固有の透明色として表示される場合がある。一例では、組織クラスオーバーレイマップは、ユーザが選択した組織クラスの各グリッドタイルの確率を表示する。オーバーレイマップジェネレータおよびメトリック計算機1412はまた、記憶された細胞の位置および型のデータを細胞型ロケーター1410から検索し、画像全体または特定の組織クラスに割り当てられたタイル内の細胞の数に関連するメトリックを計算する。
【0327】
図15Aは、撮像ベースのバイオマーカー予測システム1400によって実装される例示的なプロセス1500の概要を示しており、この例示的なPD-L1において、バイオマーカーを予測するためのモデル推論パイプラインを示している。プロセス1500では、システム1400の完全畳み込みモデルアーキテクチャを利用して、多くのタイルが並行して処理される。一例では、GeForce GTX 1080 Ti GPUと第6世代Intel(登録商標)Core(商標)i7プロセッサを使用した場合、プロセス1500は、単一の4096×4096ピクセル画像を分類するのに2.8秒を要した。プロセス1500は、スライドがアーティファクトを含み得る実際の設定において完全に自動化された方法で機能するように、組織検出およびアーティファクト除去アルゴリズムをさらに含んでいた。
【0328】
第1のプロセス1502において、初期組織セグメンテーションは、組織検出器1402によって実行され、例えば、組織マスキングアルゴリズムを適用して、対象の組織の周囲に境界ボックス(図示せず)を生成するために、組織(赤色の輪郭)の外形が自動的に描画される。境界ボックスの左上隅に合わせて、組織領域は、非重複の大きな4096×4096の入力ウィンドウ(青色の破線)に分割される。通常、組織を覆うには10~30の入力ウィンドウが必要である。境界領域を超えて拡張する大きなウィンドウ区域は、0(灰色の領域)が埋め込まれる。
【0329】
プロセス1504では、訓練済み分類モデル予測が実行される。図示の例では、大きな入力ウィンドウには128×128=16,384個の小さな32×32のタイルが含まれていた(グリッドは図よりもはるかに微細である)。大きな入力ウィンドウは、各32×32の小さなタイルの中心にある重複する466×466のタイルの縁を考慮して、すべての側面(長さ217)に0が埋め込まれた。各大きなウィンドウは、(プロジェクタ1404の組織分類プロセスおよびプロジェクタ1406の細胞分類プロセスを含む)深層学習フレームワークの1つ以上の訓練済みモデル1506を通過した。訓練されたモデル1506が完全に畳み込みである場合、一例では、大きな入力ウィンドウ内の各タイルが並列に処理され、(3つのクラスが存在する)128×128×3の確率キューブが生成される。この確率キューブの各1×1×3ベクトルは、元の画像の各466×466のタイルの中央にある32×32ピクセルの領域に対応する。結果として生じる確率キューブは、画像全体の確率マップに組み立てられる。
【0330】
プロセス1508は、プロセス1502の組織マスキングステップに関連する画像を表示している。プロセス1504によって生成された組み立てられた確率マップは、この組織マスクを通過して、背景が除去される。この例では、背景区域とマーカー区域との両方が、プロセス1508のマスキングアルゴリズムによって除去されている。
【0331】
プロセス1510は、バイオマーカー分類の各々の異なる領域をそれぞれ識別するなど、1つ以上の分類された領域を識別する分類マップを示す画像を表示している。一例では、最大確率クラス(argmax)がプロセス1508を通じて各タイルに割り当てられ、プロセス1510で3つのバイオマーカークラス(PD-L1+、PD-L1-、その他)の分類マップが生成される。分類マップは、これらのバイオマーカー分類の各々と、元の病理組織画像に対応するそれらの識別された場所を示している。
【0332】
プロセス1512は、分類マップからのバイオマーカー分類に関する統計分析を実行し、バイオマーカーの結果として得られる予測スコアを表示している。この例では、予測されたPD-L1陽性タイルの数を、予測された腫瘍タイルの総数で除算して、例示的なモデルスコアが達成される。
【0333】
組織クラスロケーター1408は、例えば、アーキテクチャ1200のようなアーキテクチャを有し得る。アーキテクチャは、FCNタイル解像度分類器のアーキテクチャと近似している。アーキテクチャ1550は、3つの主要な構成要素、すなわち1)広い視野画像(FOV)を処理する完全畳み込み残差ニューラルネットワーク(例えば、ResNet-18上に構築されている)バックボーンと、2)小さなFOVを処理する2つのブランチと、3)マルチFOV分類のための小さなFOV機能および大きなFOV機能の連結とから形成され得る。ResNet-18バックボーンには、点線で示されている複数のショートカット接続が含まれており、特徴マップも2倍でダウンサンプリングされている。小さなFOVブランチは、第2の畳み込みブロックの後に出現する。小さなFOVブランチの特徴マップは、ResNet-18特徴マップの次元と一致するように8倍でダウンサンプリングされる。これらの特徴マップは、ソフトマックス出力を通過する前に連結され、PD-L1バイオマーカー予測(信頼)マップを生成する。
【0334】
一例では、モデルのバックボーンには、一部の変更を加えた18層バージョンのResNet(ResNet-18)が含まれている。ResNet-18バックボーンは、グローバル平均プーリング層を削除し、ダウンサンプリングされた層のゼロパディングを排除することにより、完全畳み込みネットワーク(FCN)に変換された。これにより、1D確率ベクトルではなく2D確率マップの出力が可能となった(図15Bを参照)。図示の例では、タイルサイズ(466×466ピクセル)は標準のResNetのタイルサイズの2倍を超えており、周囲の形態的特徴を学習できる大きなFOVをモデルに提供している。この例の組織クラスロケーター1408は、ResNetアーキテクチャに複数の視野(マルチFOV)機能を追加するが、組織クラスロケーター1408は、ここに開示されたマルチFOVアプローチを組み込むように適合された別個のネットワークアーキテクチャから構成され得ることが理解されるべきである。
【0335】
アーキテクチャ1505のFCN構成は、(16を超える畳み込み層を有するニューラルネットワークを含む)「非常に深い」ニューラルネットワークが従来抱えていた精度低下の課題を克服するなど、多くの利点を提供する(例えば、He et al.の「Deep Residual Learning for Image Recognition」(2015)(arXiv ID:1512.03385v1、およびSimonyan et al.の「Very Deep Convolution Networks for Large-Scale Image Recognition」(2014),arXiv ID:1409.1556v6を参照されたい)。アーキテクチャ1550は、中間層をスキップする「ショートカット接続」でインターリーブされた畳み込み層のスタックを含む。これらのショートカット接続は、過去の層を参照ポイントとして使用することで、層間のアイデンティティマッピングを学習するのではなく、より深い層をガイドして層出力間の残差を学習する。この革新により、訓練中の収束速度および安定性が向上し、浅いネットワークよりも深いネットワークのパフォーマンスが向上する。
【0336】
組織クラスロケーター1408は、第2の畳み込み特徴マップの中心にある小さなFOV(32×32ピクセル)に制限された受容野を有する2つの追加のブランチを含み得る(図15Bを参照)。一方のブランチは小さなFOVのコピーを畳み込みフィルタに渡し、もう一方のブランチはダウンサンプリングを使用した標準のショートカット接続である。これらの追加のブランチによって生成された特徴は、モデルの出力が確率に変換される直前に、ソフトマックス層でメインバックボーンからの特徴に連結される。このようにして、組織クラスロケーター1408は、病理医がスライドを診断するときに様々なズームレベルに依存するように、複数のFOVからの情報を組み合わせる。さらに、このアーキテクチャにより、各タイルの中央領域がタイルの縁よりも分類に寄与することが保証され、病理組織画像全体にわたってより正確な分類マップが得られる。
【0337】
図15Bは、撮像ベースのバイオマーカー予測システム1400およびオーバーレイマップ出力の生成のための例示的な訓練プロセス1570を示しており、IHCおよびH&E病理組織画像の分析からPD-L1バイオマーカーの位置が予測される。モデル訓練プロセス1570で、IHCおよびH&Eデジタル画像の一致する区域に医療専門家による注釈が付けられた。ただし、一部の例では、隣接する組織スライスの染色に自動的に注釈が付けられる場合がある。PD-L1+とPD-L1-とを示す画像に注釈が付けられ、システムの訓練に使用された。H&E画像の注釈付き領域は、32ピクセルのストライドで重なり合うタイル(466×466ピクセル)にタイル表示され、訓練データが生成された。次に、組織クラスロケーター1408は、クロスエントロピー損失関数を使用して訓練された。モデル回路図の黄色い四角は、小さなFOV用にトリミングされた中央領域を示している。結果として得られるPD-L1分類モデルは、訓練済み深層学習フレームワーク1574に保存される。
【0338】
図15Bはまた、各画像が大きな非重複の4096×4096の入力ウィンドウ(青色の破線)に分割された例示的な予測プロセス1572を示している。それぞれの大きなウィンドウは、訓練済みモデルを通過した。深層学習フレームワーク1574は完全に畳み込みであるため、大きな入力ウィンドウ内の各タイルは並列に処理され、128×128×3(最後の次元は3つのクラスを表す)の確率キューブが生成された。結果として得られた確率キューブは、所定の位置にスロットされ、組み立てられて、画像全体の確率マップが生成された。確率が最大のクラスが各タイルに割り当てられ、PD-L1予測レポートが生成される。
【0339】
図16A~16Fは、撮像ベースのバイオマーカー予測システム1400によって受信された入力病理組織画像、IHC PD-L1バイオマーカーの位置を予測するためにシステム1400によって生成された対応するオーバーレイマップ、およびオーバーレイマップの精度を決定するための参照として使用される対応するIHC染色組織画像を示している。IHC染色組織画像は、テストコホートから取得されたが、モデル訓練中にシステム1200に適用されなかった。図16A~16Cは、代表的なPD-L1陽性バイオマーカー分類の例を示している。図16Aは、入力H&E画像を表示しており、図16Bは、H&E画像にオーバーレイされた確率マップを表示しており、図16Cは、参照用にPD-L1 IHC染色を示している。図16D~16Fは、代表的なPD-L1陰性バイオマーカー分類の例を示している。図16Dは、入力H&E画像を表示しており、図16Eは、H&E画像上にオーバーレイされた確率マップを表示しており、図16Fは、参照用にPD-L1 IHC染色を示している。カラーバーは、腫瘍PD-L1+クラスの予測確率を示している。
【0340】
本明細書の深層学習フレームワークによって提供される利点の中で、シフトの不変性を崩すことで、精度を向上させることができる。シフトの不変性、つまり均一性は、畳み込みなどの線形フィルタの特性であり、フィルタの応答は位置に明示的に依存しない。つまり、信号をシフトすると、出力画像は同じであるが、シフトが適用される。大部分の画像分類タスクではシフト不変性が望ましいが(Le Cun(1989))、本明細書の例では、タイルの縁に近いオブジェクトが分類に等しく寄与することは望ましくないのが一般的である。
【0341】
図17は、図14、15A、および15Bを参照して説明したようなマルチFOVストラテジの例示的な利点を示している。上部の大きなFOV(赤色のボックス)には、PD-L1+腫瘍細胞(紫色、左上)と間質(ピンク色)との両方が含まれている。間質のみが小さなFOV(緑色のボックス)に含まれる。組織クラスロケーター1408の畳み込み層を通過すると、腫瘍区域は、間質区域(白色の正方形)によって生成されるパターンとは異なる独特のパターン(色付きの正方形)を生成する。大小のFOVブランチからのパターンが連結された後、モデルは「その他」を予測する可能性がある。下側の部分では、視野がシフトし、PD-L1+腫瘍区域が小さなFOV内に収まっている。この腫瘍区域は、大きなFOVブランチと小さなFOVブランチ(色付きの正方形)との両方で同じ畳み込みフィルタパターンを生成する。学習された特徴量を連結すると、組織クラスロケーター1408は、PD-L1+腫瘍を予測する可能性が高くなる。したがって、組織クラスロケーター1408の訓練に使用される小さなFOVがなければ、システム1400は、両方の画像についてPD-L1+腫瘍を予測した可能性がある。代わりに、図15のアーキテクチャのマルチFOVストラテジにより、ネットワークは、周辺区域の豊富なコンテキスト情報を利用しながら、画像の中央にあるものを優先的に分類することができる。
【0342】
さらに他のアーキテクチャを、特にマルチインスタンス学習技術を使用して、バイオマーカーのステータス、腫瘍のステータス、および/またはそれらのメトリックを予測するために、本明細書の分類器の例のいずれかに使用することができる。
【0343】
本明細書で論じられる例では、例えば、図12Aに記載されたFCNアーキテクチャに基づく分類モデルアーキテクチャは、注釈の行列を含み得る病理組織スライドのデジタル画像で訓練された。このようなデジタル画像からの訓練は、タイルごとに実行される。例えば、注釈(つまり、ラベル)のあるタイルのみが訓練タイルとして深層学習フレームワークに提供される。注釈のないデジタル画像のタイルは、破棄されてもよい。さらに、行列の各列および行は、デジタル画像のNxMピクセルを有する別個のグリッドに対応する。列および行を有する行列から複数のタイルを有するデジタル画像に注釈を適切に割り当てるために、一部の例では、行列から列(i)と行(j)を取得し、ピクセルN(i)とM(j)で始まり、次の[N-1]から[M-1]ピクセルまで延在するグリッドの中央領域に注釈を割り当てることが有利な場合がある。ここで、中央領域がその範囲にまたがるタイルには、i、jのマトリックスの注釈が割り当てられている。したがって、行列は、より大きなデジタル画像内のタイルごとに注釈を正確に表すことができる。
【0344】
FCNアーキテクチャは、ラベルが注釈マスクポイントにマッピングされている中央領域から取得されている間、入力として大きなタイルを使用することができる。FCNアーキテクチャは、大きなタイルの中央領域と中央領域を囲むピクセルとの両方から学習することができ、中央領域は、予測にさらに貢献する。さらに、スライドメタデータは、スライドレベルのラベル付けを識別したスライドに関連付けられたベクトルなどの特徴ベクトルに保存することができる。これには、モデルのパフォーマンスを向上させる可能性のある患者の特徴が含まれる。デジタル画像のグリッドからの複数のタイルと対応する注釈行列がFCNアーキテクチャに順次提供され、行列に含まれる注釈にしたがってN×Mサイズのタイルを分類し、特徴ベクトルに含まれる注釈にしたがってスライド自体を分類するFCNアーキテクチャが訓練される。FCNアーキテクチャの出力には、タイルごとに分類が予測された行列が含まれてもよく、スライドごとに分類が予測されたベクトルに集約できる。行列は、各タイルの最高分類を、デジタル画像内の対応するグリッド位置に重畳され得る色に関連付けることによって、デジタルオーバーレイに変換することができる。一部の例では、行列は、複数のデジタルオーバーレイに変換され得、各オーバーレイは、各分類に対応しており、関連する色の強度は、それぞれの分類に関連する信頼度のパーセンテージに基づいてオーバーレイに割り当てられる。例えば、腫瘍として30%の可能性、間質として50%の可能性、および通常として20%の可能性を有するタイルには、タイル内の組織の可能性が最も高い間質の単一のオーバーレイを割り当てることができ、または、第1の色の強度が30%の第1のオーバーレイと第2の色の強度が50%の第2のオーバーレイとを割り当てて、タイルが構成する可能性のある組織の型を識別することができる。
【0345】
ただし、Resnet-34またはInception-v3と同様のアーキテクチャなど、タイルごとの注釈をサポートしない可能性のあるアーキテクチャのみに基づく分類モデルであっても、注釈のベクトルのみを含む病理スライドのデジタル画像のみを使用して訓練することができる。ここで、ベクトルの各エントリは、スライドに適用される患者の特徴またはメタデータの注釈である。一部の例では、タイルごとの注釈をサポートするアーキテクチャであっても、特定の特徴のタイルごとの注釈にアクセスできない場合がある。
【0346】
タイル注釈のないニューラルネットワーク画像の訓練で病理組織画像を使用するため、または、ニューラルネットワークを訓練して分子訓練データで訓練されたバイオマーカーを識別するために、一部の例では、本技術には、ラベルフリー訓練用に構成された深層学習訓練アーキテクチャが含まれる。例では、組織分類モデルを訓練するときに、タイルレベルの注釈を必要としないアーキテクチャがある。さらに、ラベルフリー訓練アーキテクチャは、ニューラルネットワークの構成(すなわち、ResNet-34、FCN、Inception-v3、UNetなど)に依存しないラベルフリー訓練を可能にするという点で、ニューラルネットワークに依存しない。アーキテクチャは、可能な訓練画像のセットを分析し、訓練から除外するタイルを予測することができる。したがって、一部の例では、画像が訓練から破棄されてもよく、一方で、他の例では、タイルが破棄されてもよいが、画像の残りの部分は訓練に使用されてもよい。これらの技術により、訓練データが大幅に少なくなり、訓練に必要な時間が大幅に短縮され、一部の場合では、本明細書での分類モデルの訓練の更新に必要な時間が大幅に短縮される。さらに、この技術では病理医によるラベル付けが不要であるため、分類モデルの訓練にかかる時間が大幅に短縮され、専門家間での注釈エラーおよび注釈のばらつきが回避される。
【0347】
代わりに、一部の例では、画像レベルのラベル付けのみを含み、組織、細胞、腫瘍などのローカルラベル付けを含まない弱教師学習で、訓練を実行することができる。アーキテクチャは、カスタマイズされたコスト関数を備えたアルゴリズムを有するラベルなし訓練フロントエンドで構成することができ、当該コスト関数により、特定のラベルの入力として使用するタイルが選択される。このプロセスは、反復的であってもよく、最初に、各病理組織画像をタイルの集合として扱い、画像の単一のラベルが集合内のすべてのタイルに適用される。タイルは、ResNet34、Inception-v3、またはFCNなどのネットワークを介するなど、推論パイプラインに適用できる。また、ニューラルネットワーク出力の確率などの事前定義されたタイル選択基準を使用して、次のラウンドのために同じニューラルネットワークへの入力として提供される出力画像タイルを選択することができる。このプロセスは何度も繰り返すことができ、ニューラルネットワークへの入力として十分な集合およびタイルが与えられると、より多くの反復が実行されるにつれて、異なるクラスのタイルをより高い精度で区別することが学習される。
【0348】
図18は、本明細書の例に記載されたプロセスを実行するために、深層学習フレームワークのラベルフリー注釈訓練を実行するための例示的な構成における、例示的な機械学習アーキテクチャ1800を示している。深層学習フレームワーク1802は、マルチスケールおよびシングルスケール分類モジュールを有する本明細書に記載の他の深層学習フレームワークと同様であり得、前処理および後処理コントローラ1804を含んでおり、実行プロセスは、図1および3の同様の例に記載されている。深層学習フレームワーク1802は、細胞セグメンテーションモジュール1806および組織分類器モジュール1808を含み、これらの各々は、タイルベースのニューラルネットワーク分類器として構成されている。深層学習フレームワーク1802はさらに、複数の異なるバイオマーカー分類モデル1810、1812、1814、および1816を含み、これらの各々は、異なるニューラルネットワークアーキテクチャを有するように構成することができ、一部はマルチスケール構成を有してもよく、一部はシングルスケール構成を有してもよい。これらの異なるニューラルネットワークアーキテクチャは、注釈付き画像または注釈なし画像を使用して訓練用に構成することができる。これらのアーキテクチャの一部は、タイル注釈付きの訓練画像を使用して訓練用に構成することができるが、これらのアーキテクチャの他のアーキテクチャは、タイル注釈なしの訓練画像を使用して訓練用に構成することができる。例えば、一部のアーキテクチャは、画像のスライドレベルの注釈(つまり、画像全体の注釈であり、特定のタイルの特性、細胞セグメンテーション、または組織のセグメンテーションを識別する注釈ではない)のみを受け入れるように構成されてもよい。モジュール1810~1816のニューラルネットワークアーキテクチャタイプの例として、ResNet-34、FCN、Inception-v3、およびUNetが挙げられる。
【0349】
注釈付き画像1818は、上記の技術を使用して、様々な分類モジュールの訓練のために深層学習フレームワーク1802に提供され得る。一部の例では、病理組織画像全体が、訓練のためにフレームワーク1802に提供される。一部の例では、注釈付き画像1818は、深層学習フレームワーク1802に直接渡される。一部の例では、注釈付き画像1818は、低減されるべき粒度で注釈が付けられ得る。したがって、一部の例では、マルチインスタンス学習(MIL)コントローラ1821は、注釈付き画像1818を、それぞれがデジタル画像の異なる部分に対応する複数のタイル画像にさらに分離するように構成することができ、MILコントローラ1821は、それらのタイル画像を深層学習フレームワーク1802に適用する。しかしながら、アーキテクチャ1800では、注釈なし画像1820は、最初にそれらの画像1820をフロントエンドタイル選択コントローラ1822を有するMILコントローラ1821に提供することによって、分類モジュールの訓練に使用することができる。一部の例では、MILコントローラ1821は、注釈なし画像1820を、それぞれがデジタル画像の異なる部分に対応する複数のタイル画像に分離するように構成することができ、MILコントローラ1821は、それらのタイル画像を深層学習フレームワーク1802に適用する。一例では、アーキテクチャ1800は、弱教師学習を展開して、畳み込みニューラルネットワークアーキテクチャ(FCN、ResNet34、Inception-v3など)を訓練し、スライドレベルのラベルのみを使用して局所組織領域を分類する。弱教師学習では位置特定された注釈が不要なため、ラベル付けをより高速に実行でき、結果的にラベル付けされたスライドのセットを増やすことができる。したがって、このアーキテクチャ1800は、FCN分類を補完または改善するモデルを訓練するために、あるいはFCNベースのモデル自体をさらに訓練するために使用することができる。
【0350】
この図示の例では、フロントエンドタイルセクションコントローラ1822は、タイルセクションプロセスを分類モデルと組み合わせることを可能にするフィードバック構成で構成されており、タイルセクションプロセスがFCNアーキテクチャなどのニューラルネットワークアーキテクチャによって通知されることを可能にする。一部の例では、コントローラ1822によって実行されるタイル選択プロセスは、訓練済みMILプロセスである。例えば、バイオマーカー分類モデル1810~1816のうちの1つは、訓練中に出力を生成することができ、その出力は、タイル選択コントローラ1822を導くための初期入力として使用される。MILプロセスは、通常、最初のタイル選択が困難な反復プロセスであり、例えば、FCNアーキテクチャ予測からのガイダンスでコントローラ1822のMILプロセスに通知することによって、コントローラ1822のMILプロセスは、より良い例から開始され、安定した有用なFCN分類器へとより速く収束する。さらに別の例では、FCN(または他のニューラルネットワーク)アーキテクチャからの結果とコントローラ1822のMILプロセスとを組み合わせることには、行列出力が最良に投票することによって得られるように、連結層におけるベクトル出力の結果のみを組み合わせることが含まれ得る。コントローラ1822のFCNアーキテクチャおよびMILプロセスは、同じ予測タスクを構成する(すなわち、同じバイオマーカーを探す)ことができる。ただし、一部の場合では、2つの分類プロセスの予測出力が異なる場合があり、かかる場合には、最良のものに投票することによって結果を組み合わせることが実行され得る。さらに別の例では、MILフレームワークとFCNアーキテクチャからの出力を組み合わせて、より良いスライドレベル予測を取得できる。この場合、MILは学習基準としてスライドレベル損失関数を使用し、FCNアーキテクチャからの出力を使用して、MIL損失計算のガイド付きトゥル-スを導出する。
【0351】
タイルセクションコントローラ1822は、複数の異なる方法で実装することができる。
【0352】
コントローラ1822のタイル選択プロセスの一例が、単一クラスの基本的なフレームワークを参照して説明されている。単一クラスの例では、病理組織画像のタイルは、ターゲットクラスに属するか(クラス1)、または属さないか(クラス0)に分類される。クラス0は、背景とみなすことができ、ターゲットクラスにないものとみなすことができる。インスタンスベースのMILプロセスでは、訓練で使用される例として使用するタイルを選択する必要がある。単一クラスの問題の場合、コントローラ1822は、次のような分類を返す訓練済みモデルで構成できる。すなわち、スライドにターゲットクラスに属するタイルがない場合、すべてのタイルがゼロの低い推論スコアを返す必要があり、訓練中、そのスライドはクラス0としてラベル付けされる分類、ならびに、スライドにターゲットクラスに属するタイルがある場合、そのスライドにはクラス1のラベルが付けられ、ターゲットクラスに属するタイルは1の高い推論スコアを返す必要があり、他のすべてのタイルは0の低い推論スコアを返す必要がある、分類である。分類器モデル(例えば、モデル1810~1816)を訓練するには、スライドレベルのクラスを表すタイルを識別する必要がある。クラス0のスライドにはクラス1のタイルがないことがわかっているので、訓練の例として任意のタイルを使用できる。ただし、最良の選択は、モデルのパフォーマンスが最も低いタイルを使用することである。すべてのタイルの推論スコアは0である必要があるため、スコアが最も高いタイルを使用してモデルを訓練する必要がある。スコアが最も高いこれらのタイルは「上位k個」のタイルと称される。ここで、kは、そのスライドからの訓練に使用されているタイルの数を示す整数(例えば、5、10、15)である。
【0353】
クラス1のスライドの場合、コントローラ1822は、クラス1のものである可能性が最も高いタイルを識別し得る。この決定は、クラス1のスライドにクラス0とクラス1との両方のタイルが含まれていることがあるため、複雑になる可能性がある。ただし、クラス0のスライドのクラス0のタイルで訓練された分類器モデルでは、これは、クラス0のタイルに類似したクラス1のスライド内のタイルの推論スコアが低くなることを意味する。同様に、これは、クラス0のタイルに類似していないタイルのスコアが高くなる必要があることを意味する。したがって、実際にクラス1である可能性が最も高いタイルは、推論スコアが最も高いタイルである。したがって、モデルを訓練するための例として、上位k個のタイルを再度選択する必要がある。
【0354】
これは、図19のタイル選択フレームワーク1900に見られるように、クラス0とクラス1との両方のスライドについて、上位k個のスコアが付けられたタイルを訓練例として使用する必要があることを意味する。数字の行は、様々なタイルの推論スコアを表している。最初に、タイル以外の注釈付き病理組織画像が1902で提供され、モデル推論が画像内のタイルの各々に対してプロセス1904で実行される。
【0355】
フレームワーク1900は、モデル推論1904を実行することによって、すべてのスライドのすべてのタイルのクラス予測スコアを計算するために使用され得、各スライドから最高のスコアを有するタイル(1906とラベル付けされた上位k個のタイル)が、モデルを訓練するために選択される。タイル1906には、1902で受信されたスライドレベルのラベルと同じラベルが与えられる(例えば、クラス0のスライドのタイルには、クラス0のラベルが与えられる)。すべてのスライドからタイルを選択した後、モデルはプロセス1908で単一のエポック(または反復)で訓練される。
【0356】
(タイルがモデルの重みを更新するために1回使用された)訓練エポックの終了時に、フレームワーク1900を再度使用して、すべてのスライドのすべてのタイルの新しい予測スコアが計算される。新しい予測スコアを使用して、訓練に使用する新しいタイルが識別される。プロセス1910によって決定されるように、モデルが停止の基準(例えば、検証に使用される保留されたスライドのセットでのパフォーマンスの収束)に達するまで、このタイルのスコアリングと訓練用の上位k個のタイルの選択のプロセスが繰り返される。
【0357】
図18の1800のような弱教師学習の構成を使用することには、複数の利点がある。病理医が画像全体の組織クラスの例を手動でマークするような強力な教師あり注釈および局所的な注釈は、コストがかかり、非効率的である。アーキテクチャ1800は、スライドが桁違いに多いデータセットで単一のラベルを使用してモデルを訓練できる。さらに、注釈を付けることができない分類ターゲットを有し得る。例えば、現在、遺伝子型バイオマーカーによって発見されている遺伝子変異は、組織の特徴と相関している可能性があるが、これらの組織の特徴が何であるかこれまで不明であった。しかし、本技術では、遺伝子型バイオマーカーをスライドレベルのラベルとして使用でき、アーキテクチャ1800の訓練フレームワークを使用して、存在する遺伝子型を予測するために使用され得る組織形態を識別することができる。遺伝子型を予測するための従来のRNA/DNA分析には数週間を要する場合があるが、本技術を使用して遺伝子型を予測するための画像分類は、数時間で、より多くの訓練セットで実行できる。
【0358】
過剰適合の状況を回避するために、一部の例では、タイル選択コントローラ1822は、ランダム化されたタイル選択を実行するように構成することができる。例えば、小さなデータセット(<300スライド画像)を使用した訓練の場合、図19のフレームワーク1900のようなフレームワークは、クラス1のスライドの一部のタイルに過剰適合する場合がある。クラス1のタイルが訓練に使用される場合、そのスコアは次のエポックで高くなるため、この状況が発生する可能性がある。したがって、クラス1のタイルは、次のエポックで再度訓練用に選択される可能性が高く、推論スコアがさらに増加し、再度選択される可能性が高くなることになる。
【0359】
図20は、過剰適合を回避するために使用され得るフレームワーク2000を示している。フレームワーク2000は、フレームワーク1900に類似しており、同様の参照番号を有するが、ランダムタイルセレクタ2012を使用して、高スコアタイルの中からランダムに選択し、次にランダムに選択されたタイルが訓練プロセス2008に送られる。モデル2004は、推論スコアの決定に引き続き使用され、タイルはスコアに基づいて選択される。ただし、タイルの推論スコアが高い場合は、上位k個のタイルのいずれでもない場合でも、クラス1のタイルである可能性が高いと見なされる可能性がある。例えば、フレームワーク2000は、0.9(または任意の値)の低い閾値スコアを設定し、その後、0.9以上のスコアを有する任意のタイルを訓練例として使用することができる。つまり、タイル2006のいずれも、スコアが決定された閾値(例えば、閾値0.9)を超えているため、訓練に使用できる。次に、ランダムな高スコアタイルセレクタ2012は、これらのタイルのどれがモデル訓練プロセス2008に提供されるかをランダムに決定する。他の例では、ランダムな高スコアタイルセレクタ2012に送信されたタイルは、上位k個のタイルである。さらに、一部の例では、セレクター2012によって適用されるタイル選択確率は、すべてのタイルスコアにわたって完全にランダムである可能性があり、他の例では、選択確率は部分的にランダムである可能性があり、特定のスコアまたは特定のスコア範囲内のタイルは、他のスコアまたは他のスコア範囲内のタイルとは異なるランダム選択確率を有する。
【0360】
図21は、過剰適合の状況に対処するための別のフレームワーク2100を示している。一部の例では、より小さなデータセット(<300スライド画像)で訓練する場合、図19のフレームワークは、クラス0のスライドのすべてのタイルをクラス0として、クラス1のスライドのすべてのタイルをクラス1として予測することにより、スライド画像を過剰適合させ得る(ただし、クラス1のスライドのすべてのタイルが実際にクラス1であるとは限らない)。これは、クラス1のスライドのタイルを誤って分類する可能性があることを意味する。しかしながら、フレームワーク2100では、フレームワーク2000と同様に、高スコアタイル2101でランダムタイル選択が実行されるが、さらに、低スコアタイル2103でランダムタイル選択が実行される。図示の例では、ランダムな低スコアタイルセレクタ2102は、クラス0のモデル訓練プロセス2104を供給する。ランダムな高スコアタイルセレクタ2106は、クラス1のモデル訓練プロセス2108に提供される。
【0361】
図19~26の例は、単一クラスの訓練の文脈で説明されている。本技術のラベルフリー訓練は、マルチクラス訓練にも使用できる。マルチクラスの問題の場合、クラス0のラベルを有するスライドがないようにスライドレベルのラベルのセットを設定することができる。例えば、コンセンサス分子サブタイプ(CMS)を予測するためにモデルを訓練する場合、結腸直腸癌(CRC)では、CMSクラスを使用して標的治療をガイドするが、遺伝子型バイオマーカー、つまりRNAデータの変異のみが使用される。しかし、本技術は、撮像を通じて遺伝子型を予測するものであり、これにより、RNA分析を行うために数週間待つ必要がなく、標的治療を数時間で開始して患者をテストすることができる。例が参照CMSに記載されているが、本明細書の他の画像ベースのバイオマーカーの分類器モジュールは、PD-L1、TMBなどを含むアーキテクチャ1800で訓練することができる。
【0362】
マルチクラス訓練の問題の1つは、すべての画像にすべてのクラスが含まれるわけではないことである。例えば、CMSの場合、訓練画像に使用できるラベルは、CMS1、CMS2、CMS3、またはCMS4である。ただし、各画像のすべてのタイルに、これら4つのクラスのいずれかを示すバイオマーカーが含まれているとは限らない。このため、クラス0のタイルを識別するために使用され得るクラス0のスライドが存在しない状況が発生する可能性があり、訓練済みモデルが予測値のない組織型を誤って分類し、モデルの精度が低下する可能性がある。さらに、スライドには、スライドレベルのラベル以外のクラスを表す特徴が含まれている可能性がある。例えば、CMSでは、CRCに2つ以上のサブタイプが存在する可能性がある。これは、特定の画像は、そのサンプルの主要なサブタイプであるためにCMS1のラベルが付けられているが、全スライド画像には、CMS2組織が含まれている可能性があることを意味する。
【0363】
マルチクラス訓練を達成するために、一部の例では、図18のタイル選択コントローラ1822は、異なるクラスサブタイプ、例えば4つのCMSサブタイプと相関する組織特徴部を識別するための一連のプロセスを実行するように構成される。第1に、タイル選択コントローラ1822は、陽性のクラス内の例のみを識別することによって訓練され得る。第2に、タイル選択コントローラ1822は、低い陽性のクラス内スコアによって陽性のクラス内タイルおよび陰性のクラス外タイルを識別することで、モデル訓練を適用することができる。第3に、タイル選択コントローラ1822は、高い陰性のスコアによって陽性のクラス内タイルおよび陰性のクラス外タイルを識別することで、モデル訓練を適用することができる。次に、各プロセスの例を、図22~26に示すように、CMSバイオマーカー分類器の訓練を参照して説明する。
【0364】
図22は、その組織特徴部が分類に関連するかどうかにかかわらず、各組織特徴部が最も相関するCMSクラスを識別するために使用され得るフレームワーク2200を示している。図22は、陽性のクラス内の例のみを識別し、簡単にするために2つのクラスのみを示す第1のプロセスの一例を示している。病理組織画像の各タイルについて、可能なスコアのリストが示され、各行は左側に示されているクラス(0、1、および2)に対応している。示されているように、クラス1のスライド画像(図22の左側)の場合、クラス1のスコアの高いタイル(影付き)が訓練に使用され、クラス2のスライド画像(図22の右側)の場合、クラス2のスコアが高いタイル(影付き)が訓練に使用される。
【0365】
この例では、すべてのタイルが1または2に分類され、クラス0に分類される確率は0.00になる。図23は、4つのクラスを有するCMSバイオマーカーの分類を示す結果のオーバーレイマップを示している。タイルは、4つのCMSクラスの推論スコアに基づいて色分けされ、CMS1(マイクロサテライト不安定性免疫)は赤色で示され、CMS2(上皮遺伝子発現プロファイル、WNTおよびMYCシグナル伝達活性化)は緑色で示され、CMS3(明らかな代謝調節不全を伴う上皮プロファイル)は濃青色で示され、CMS4(間葉系、顕著なトランスフォーミング成長因子-β活性化)は水色で示されている。図示の例では、タイルの透明度が調整されて推論スコアが示され、スコアが高いほど不透明になり、スコアが低いほど透明になる。
【0366】
図24は、第2のプロセスで適用されるフレームワーク2200を示している。すなわち、モデル訓練は、低い陽性のクラス内スコアによって陽性のクラス内タイルおよび陰性のクラス外タイルを識別することによって継続される。図22の第1のプロセスは、すべてのタイルを非ゼロのクラスの1つとして分類し、図24の第2のプロセスは、背景クラス0の可能性が高いタイルを識別する。図示の例では、プロセスは、スライドレベルクラスの閾値を下回るスコアを有するタイルを識別することによって、これを行う。クラス1のスライド画像のタイルのスコアが0.1未満の場合、クラス0の例として使用できるスライド画像として、低スコアがマークされる。クラス2のスライド画像に対しても同様のプロセスが実行される。図25は、CMSの分類を示す結果として得られるオーバーレイマップを示している。タイルがクラス0であると予測される場合、タイルは透明になる。図23と比較して、図25では、この第2のプロセスは、一部の組織型をクラス0として識別する。これは、画像が、CMSクラスのいずれとも相関しない背景組織であることを意味する。同時に、第2のプロセスでは、4つのクラスの各々に関連付けられている様々な組織型または組織の特徴を識別できる。タイルは、図23のように4つのCMSクラスの推論スコアに基づいて色付けされるが、色が表示されないタイルの場合、クラス予測値のないクラス0のタイルであると予測される。
【0367】
図26は、第3のプロセス、すなわち、高い陰性のスコアによって陽性のクラス内タイルおよび陰性のクラス外タイルを識別することによってモデル訓練を継続することで適用されるフレームワーク2200を示している。上記のように、CMSバイオマーカーの場合、訓練画像のCMSクラスは相互に排他的ではない。CMS1のスライド画像にCMS2の組織型または組織特徴部を含めることができる。したがって、一部の例では、タイル選択コントローラ1822が、スライドレベルクラスのスコアが低いためにタイルをクラス0としてラベル付けし続ける場合、一部のタイルは誤ってラベル付けされる可能性がある。上記の第2のプロセスから、CMSクラスのいずれとも相関が低いか、または全く相関のないクラス0組織がすでに識別されている。クラス0のスコアが高いタイルが存在する。したがって、図26に示される第3のプロセスでは、クラス0のタイルは、高いクラス0のスコアを有することに基づいて識別され得る。
【0368】
図18に戻ると、アーキテクチャ1800を使用して、バイオマーカー分類モデル1810~1816のいずれかを訓練して、異なるバイオマーカーを分類することができる。CMSは、例として図22~26を参照して説明されている。さらに、アーキテクチャ1800は、畳み込みニューラルネットワーク構成に対して不可知論的であってもよく、すなわち、各モジュール1810~1816は、同じまたは異なる構成を有してもよい。図10A~10CのFCNアーキテクチャに加えて、モジュール1810~1816は、図27に示されるようなResNetアーキテクチャで構成され得る。ResNetアーキテクチャは、スキップ接続を提供し、スキップ接続は、訓練中の勾配消失問題、ならびに大規模なアーキテクチャの劣化問題を回避するのに役立つ。様々なサイズの事前訓練済みResNetモデルを使用して、ResNet-18およびResNet-34を含むがこれらに限定されない新しいモデルの訓練を初期化できる。ResNetに加えて、アーキテクチャ1800を使用して、AlexNetまたはVGGなどの全結合分類層に入力される特徴マップを作成する畳み込み層を備えたニューラルネットワーク、Inception v3などの複数の畳み込みカーネルを同時に適用する階層化モジュールを備えたネットワーク、MobileNet、SqueezeNet、MNASNetなど、処理速度を上げるために必要なパラメータが少なくて済むように設計されたネットワーク、または、手動で設計するか、NASNetなどのニューラルアーキテクチャ検索ネットワークを使用して、関連する病理学的特徴をより適切に抽出するように設計されたカスタマイズされたアーキテクチャを訓練できる。
【0369】
ニューラルネットワーク構成に依存しないタイル選択コントローラを備えたタイルベースの訓練アーキテクチャ1800を使用することで、単一のアーキテクチャ(FCNなど)だけでは精度が低いか、よりタイムリーなプロセスが必要なバイオマーカーを識別できる深層学習フレームワークを作成できる。
【0370】
さらに、タイルベースの訓練アーキテクチャ1800はフィードバック構成を有するため、一部の例では、深層学習フレームワーク1802は、例えば、FCNアーキテクチャを使用して、訓練画像内の領域を分類し、それらの分類された画像を、弱教師あり訓練画像としてタイル選択コントローラ1822にフィードバックすることができる。例えば、FCNアーキテクチャを使用して、最初に特定の組織領域(例えば、腫瘍、間質)を識別し、次にMILなどの弱教師あり訓練パイプラインへの入力として使用できる。弱教師ありパイプラインによって訓練されたモデルは、FCNアーキテクチャと組み合わせて使用して、FCNアーキテクチャの結果を検証または改善したり、新しい特徴を検出してFCNアーキテクチャを補完したりできる。
【0371】
さらに、例えば、遺伝子型、遺伝子発現、または患者のメタデータと相関する、これまでに発見されていない組織の特徴などの、注釈が不可能なバイオマーカーが存在する。このような場合、遺伝子型、遺伝子発現、または患者のメタデータを使用し、新しい分類を検出するために弱教師ありフレームワークを使用して、二次モデルまたはFCNアーキテクチャ自体を訓練するために使用されるスライドレベルのラベルを作成できる。
【0372】
さらに、アーキテクチャ1800は、組織および組織アーティファクトの検出を提供することができる。組織を含むスライド画像内の領域は、FCNアーキテクチャモデルへの入力として使用するために最初に検出することができる。色またはテクスチャの閾値処理などの撮像技術を使用して、組織領域を識別でき、また、本明細書の深層学習畳み込みニューラルネットワークモデル(例えば、FCNアーキテクチャ)を使用して、組織検出の一般化可能性と精度をさらに向上させることができる。色またはテクスチャの閾値処理を使用して、組織画像内の偽のアーティファクトを識別することもでき、また、弱教師あり深層学習技術を使用して、一般化可能性および精度を向上させることができる。
【0373】
さらに、アーキテクチャ1800は、マーカー検出を提供することができる。病理組織画像には、病理医がスライド上にマーカーで描いた表記または注釈が含まれている場合がある。例えば、これは、組織DNA/RNA分析を実行する必要があるマクロ解剖領域を示している。組織検出モデルと同様のマーカー検出モデルを使用して、病理医が分析のために選択した領域を識別できる。これにより、弱教師あり訓練のデータ処理がさらに補完され、スライドレベルのラベルをもたらすDNA/RNA分析が実行された領域が分離される。
【0374】
図28において、プロセス2800は、図1の撮像ベースのバイオマーカー予測システム102、特に図3の深層学習フレームワーク300のバイオマーカー予測を使用して、患者のために提案された免疫療法治療を決定するために提供される。最初に、染色されたH&E画像などの病理組織画像がシステム102で受信される(2802)。プロセス2804では、各病理組織画像は、本明細書で説明される1つ以上のFCN分類構成を実装するものなど、訓練済み深層学習フレームワークに適用される。プロセス2806では、訓練済み深層学習フレームワークは、画像を訓練済み組織分類器モデルおよび訓練済みバイオマーカーセグメンテーションモデルに適用して、画像の組織領域のバイオマーカーのステータスを決定する。一部の例では、訓練済み細胞セグメンテーション分類器モデルが、プロセス2806によってさらに使用される。プロセス2806では、画像のバイオマーカーステータスおよびバイオマーカーメトリックが生成される。図29に示すように、プロセス2806からの出力は、プロセス2808に提供され、腫瘍治療決定システム2900(ゲノムシーケンシングシステム、腫瘍学システム、化学療法決定システム、免疫療法決定システム、または他の治療決定システムの一部であり得る)に実装され得、腫瘍治療決定システム2900は、受信データに基づいて腫瘍タイプを決定し、これには、バイオマーカーのメトリック、ゲノムシーケンシングデータなどに基づくことが含まれる。システム2900は、プロセス2810で、利用可能な免疫療法2902に対して、バイオマーカーのステータスおよび/またはバイオマーカーのメトリックならびに他の受信した分子データを分析し、システム2900は、利用可能な免疫療法2902のリストからフィルタリングされた、可能な腫瘍型特異的免疫療法2904の一致したリストを、対応治療レポートの形で推奨する。
【0375】
様々な例において、本明細書における撮像ベースのバイオマーカー予測システムは、ハイスループットデジタルスキャナなどの専用スライドイメージャ内に部分的または全体的に展開され得る。図30は、例示的なシステム3000を示しており、システム3000は、オランダのアムステルダムのコーニンクレッカ・フィリップス社から入手可能なPhilips IntelliSite Pathology Solutionなどの専用の超高速病理(スライド)スキャナシステム3002を有している。一部の例では、病理スキャナシステム3002は、複数の訓練済みバイオマーカー分類モデルを含み得る。例示的なモデルには、例えば、米国特許出願第16/412,362号に開示されたモデルが含まれ得る。スキャナシステム3002は、撮像ベースのバイオマーカー予測システム3004に結合され、本明細書の例で説明および図示されたプロセスを実装する。例えば、図示の例では、システム3004は、本明細書の例によれば、タイルベースのマルチスケールおよび/またはシングルスケール分類モジュールに基づく深層学習フレームワーク3006を含み、1つ以上の訓練済みバイオマーカー分類器3008、訓練済み細胞分類器3010、および訓練済み組織分類器3012を有する。深層学習フレームワーク3006は、病理組織画像に対してバイオマーカーおよび腫瘍分類を実行し、分類データを、生成された画像データベース3014内の元の画像とのオーバーレイデータとして保存する。例えば、画像はTIFFファイルとして保存できる。ただし、データベース3014は、本明細書の分類プロセスによって生成されたJSONファイルおよび他のデータを含み得る。一部の例では、深層学習フレームワークは、任意のブロック3015に示すように、全体的または部分的にスキャナ3002内に統合され得る。
【0376】
生成された画像は非常に大きくなる可能性があるが、これを管理するために、画像管理システムおよびビューアジェネレータ3016が提供される。図示の例では、システム3016は、プライベートネットワークまたはパブリックネットワークによって接続された、撮像ベースのバイオマーカー予測システム3004の外部にあるものとして示されている。しかし、他の例では、システム3016の全部または一部は、3019に示すように、システム3004に展開することができる。一部の例では、システム3016はクラウドベースであり、データベース3014から(またはその代わりに)生成された画像を保存する。一部の例では、システム3016は、ウェブアクセス可能なクラウドベースのビューアを生成し、これにより、病理医が、グラフィックユーザインターフェースを介して、様々な分類オーバーレイを備えた病理組織画像にアクセス、表示、および操作することが可能となる。その例を図31~37に示している。
【0377】
一部の例では、画像管理システム3016は、スキャナ3002からのスキャンされたスライド画像3018の受信を管理し、これらのスライド画像は、イメージャ3020から生成される。
【0378】
図示の例では、画像管理システム3016は、実行可能なビューアアプリ3024を生成し、そのアプリ3024をスキャナ3002のアプリ展開エンジン3022に展開する。アプリ展開エンジン3022は、ユーザがビューアプリ3024と対話できるようにするGUI生成、ユーザが画像管理システム3016または他のネットワークアクセス可能なソースからビューアアプリ3024をダウンロードすることを可能にするアプリマーケットプレイスなどの機能を提供できる。
【0379】
図31~37は、一例では、埋め込みビューア3024によって生成された様々なデジタルスクリーンショットを示しており、これらのスクリーンショットはGUI形式で表示され、ユーザは表示された画像を操作してズームインおよびズームアウトしたり、組織、細胞、バイオマーカー、および/または腫瘍の様々な分類を表示したりできる。
【0380】
図31を参照すると、病理組織画像3104全体を示すパネル3102と、ウィンドウ3106として表示されるその画像3104の拡大部分(1.3倍拡大率)とを有するGUI生成ディスプレイ3100が示されている。パネル3102は、ウィンドウ3106および腫瘍含有量レポートに対応する拡大率をさらに含む。図32は、ディスプレイ3100を示しているが、ユーザがウィンドウ3106をズームインした後、3.0倍の拡大率になっている。図33も同様であるが、拡大率は5.7倍である。図34は、ディスプレイ3100に表示される分類オーバーレイマップを生成するためにユーザが選択し得る一連の分類をリストするドロップダウンメニュー3108を示している。図35は、腫瘍分類された組織を示すオーバーレイマップを有する結果のディスプレイ3100を示しており、この例では、組織がタイルに分割されたことが示され、分類を有するタイルが示されている。図35の例では、図示の分類は腫瘍分類である。図36は、別の例示的な分類オーバーレイマッピングを示しており、これは、細胞分類、上皮、免疫、間質、腫瘍、またはその他のうちの1つである。図37は、分類を示すことが実際に病理組織画像で異なる細胞を区別するのに十分な倍率で表示され得ることを示す拡大された細胞分類オーバーレイマッピングを示す。
【0381】
図38は、図1の撮像ベースのバイオマーカー予測システム100を実装するための例示的なコンピューティングデバイス3800を示している。図示のように、システム100は、コンピューティングデバイス3800、特に中央処理ユニット(CPU)を表し得る1つ以上の処理ユニット3810上、および/またはCPUおよび/またはGPUのクラスターを含む1つ以上のグラフィック処理ユニット(GPU)3811上、および/または(3811ともラベル付けされた)1つ以上のテンソル処理ユニット(TPU)上に実装することができ、これらはいずれもクラウドベースであり得る。システム100について説明された特徴および機能は、コンピューティングデバイス3800の1つ以上の非一時的なコンピュータ可読媒体3812に保存され、それから実装され得る。コンピュータ可読媒体3812は、例えば、オペレーティングシステム3814、および深層学習フレームワーク300の要素に対応する要素を有する深層学習フレームワーク3816を含み得、これには、前処理コントローラ302、分類器モジュール304および306、ならびに後処理コントローラ308が含まれる。より一般的には、コンピュータ可読媒体3812は、本明細書の技術を実装するために使用される訓練済み深層学習モデル、実行可能コードなどを保存することができる。コンピュータ可読媒体3812および処理ユニット3810およびTPU/GPU3811は、画像データ、組織分類データ、細胞セグメンテーションデータ、リンパ球セグメンテーションデータ、TILメトリック、および他のデータを、本明細書の1つ以上のデータベース3813に保存することができる。コンピューティングデバイス3800は、携帯型パーソナルコンピュータ、スマートフォン、電子文書、タブレット、および/もしくはデスクトップパーソナルコンピュータ、または他のコンピューティングデバイスへ通信するために、かつ/あるいはそれらから通信するためにネットワーク3850に通信可能に結合されたネットワークインターフェース3824を含む。コンピューティングデバイスは、デジタルディスプレイ3828、ユーザ入力デバイス3830などのデバイスに接続されたI/Oインターフェース3826をさらに含む。一部の例では、本明細書に記載されるように、コンピューティングデバイス3800は、ネットワーク3850上でアクセスおよび/または共有することができる電子文書3815としてバイオマーカー予測を生成する。図示の例では、システム100は、単一のサーバ3800に実装されている。しかしながら、システム100の機能は、通信リンクを介して互いに接続された分散デバイス3800、3802、3804などにわたって実装され得る。他の例では、システム100の機能は、示される携帯型パーソナルコンピュータ、スマートフォン、電子文書、タブレット、およびデスクトップパーソナルコンピュータデバイスを含む、任意の数のデバイスに分散され得る。他の例では、システム100の機能は、例えば、機械学習プロセスを実行するようにカスタマイズされた1つ以上の接続されたクラウドTPUなどのクラウドベースであり得る。ネットワーク3850は、インターネットなどのパブリックネットワーク、研究機関もしくは企業のプライベートネットワークなどのプライベートネットワーク、またはそれらの任意の組み合わせであり得る。ネットワークには、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、セルラー、衛星、または無線か有線かを問わず、その他のネットワークインフラストラクチャが含まれる。ネットワークは、インターネットプロトコル(IP)、伝送制御プロトコル(TCP)、ユーザデータグラムプロトコル(UDP)、または他のタイプのプロトコルなどのパケットベースおよび/もしくはデータグラムベースのプロトコルを含む通信プロトコルを利用できる。さらに、ネットワークは、スイッチ、ルーター、ゲートウェイ、アクセスポイント(示されているような無線アクセスポイントなど)、ファイアウォール、基地局、リピーター、バックボーンデバイスなど、ネットワーク通信を容易にし、かつ/またはネットワークのハードウェア基盤を形成する複数のデバイスを含むことができる。
【0382】
コンピュータ可読媒体は、本明細書の技術にコンピュータをプログラミングするために(例えば、プロセッサおよびGPUを含む)、コンピュータ上に保存された実行可能なコンピュータ可読コードを含み得る。かかるコンピュータ可読記憶媒体の例として、ハードディスク、CD-ROM、デジタル多用途ディスク(DVD)、光記憶装置、磁気記憶装置、ROM(リード専用メモリ)、PROM(プログラム可能なリード専用メモリ)、EPROM(消去可能なプログラム可能なリード専用メモリ)、EEPROM(電気的に消去可能なプログラム可能なリード専用メモリ)、およびフラッシュメモリが挙げられる。より一般的には、コンピューティングデバイス1300の処理ユニットは、CPUタイプの処理ユニット、GPUタイプの処理ユニット、TPUタイプの処理ユニット、フィールドプログラマブルゲートアレイ(FPGA)、別のクラスのデジタルシグナルプロセッサ(DSP)、またはCPUで駆動することができる他のハードウェアロジックコンポーネントを表すことができる。
【0383】
本明細書の例示的な深層学習フレームワークは、例示的な機械学習アーキテクチャ(FCN構成)で構成されたものとして説明してきたが、任意の数の適切な畳み込みニューラルネットワークアーキテクチャを使用できることに留意されたい。概して言えば、本明細書の深層学習フレームワークは、受信した画像の各々に適用される任意の適切な統計モデル(例えば、ニューラルネットワークまたは機械学習プロセスを通じて実装される他のモデル)を実装することができる。本明細書で論じられるように、その統計モデルは、多種多様な方法で実装され得る。一部の例では、機械学習を使用して訓練画像を評価し、事前定義された画像の特徴をTILステータスの特定のカテゴリに相関させる分類器が開発される。一部の例では、画像の特徴は、ニューラルネットワーク、サポートベクターマシン(SVM)、または他の機械学習プロセスなどの学習アルゴリズムを使用して、訓練分類器として識別できる。統計モデル内の分類器が一連の訓練画像で適切に訓練されると、統計モデルをリアルタイムで使用して、バイオマーカーのステータスを予測するための統計モデルへの入力として提供される後続の画像を分析できる。一部の例では、統計モデルがニューラルネットワークを使用して実装される場合、ニューラルネットワークは多種多様な方法で構成され得る。一部の例では、ニューラルネットワークは、深いニューラルネットワークおよび/または畳み込みニューラルネットワークであり得る。一部の例では、ニューラルネットワークは分散型でスケーラブルなニューラルネットワークであり得る。ニューラルネットワークは、ロジスティック回帰トップ層などの特定のトップ層を提供するなど、多種多様な方法でカスタマイズできる。畳み込みニューラルネットワークは、パラメータが関連付けられたノードのセットを含むニューラルネットワークと見なすことができる。深い畳み込みニューラルネットワークは、複数の層が積層された構造を有すると見なすことができる。ニューラルネットワークまたは他の機械学習プロセスには、様々なサイズ、層の数、接続性のレベルが含まれ得る。一部の層は、積層された畳み込み層(所望により、コントラストの正規化と最大プーリングが続く)と、それに続く1つ以上の全結合層に対応できる。大規模なデータセットによって訓練されたニューラルネットワークの場合、過剰適合の潜在的な問題に対処するためにドロップアウトを使用することで、層の数と層のサイズを増やすことができる。一部の場合では、ニューラルネットワークは、ネットワークの最上部で全結合上位層の使用を控えるように設計できる。ネットワークに中間層の次元削減を強制することにより、学習されたパラメータの数を劇的に削減しながら、非常に深いニューラルネットワークモデルを設計できる。
【0384】
本明細書に記載の方法を実行するためのシステムは、コンピューティングデバイスを含み得、より具体的には、1つ以上の処理ユニット、例えば、中央処理ユニット(CPU)、および/またはCPUおよび/またはGPUのクラスターを含む1つ以上のグラフィック処理ユニット(GPU)に実装することができる。説明される特徴および機能は、コンピューティングデバイスの1つ以上の非一時的なコンピュータ可読媒体に保存され、それから実装され得る。コンピュータ可読媒体は、例えば、本明細書に記載の方法を実装するオペレーティングシステムおよびソフトウェアモジュール、または「エンジン」を含み得る。より一般的には、コンピュータ可読媒体は、本明細書の技術を実装するためのエンジンのバッチ正規化プロセス命令を記憶することができる。コンピューティングデバイスは、アマゾンウェブサービスクラウドコンピューティングソリューションなどの分散コンピューティングシステムであり得る。
【0385】
コンピューティングデバイスは、携帯型パーソナルコンピュータ、スマートフォン、電子文書、タブレット、および/もしくはデスクトップパーソナルコンピュータ、または他のコンピューティングデバイスへ通信するために、かつ/あるいはそれらから通信するためにネットワークに通信可能に結合されたネットワークインターフェースを含む。コンピューティングデバイスは、デジタルディスプレイ、ユーザ入力デバイスなどのデバイスに接続されたI/Oインターフェースをさらに含む。
【0386】
エンジンの機能は、通信リンクを介して相互に接続された分散コンピューティングデバイスなどに実装され得る。他の例では、システムの機能は、示されるポータブルパーソナルコンピュータ、スマートフォン、電子文書、タブレット、およびデスクトップパーソナルコンピュータデバイスを含む、任意の数のデバイスに分散され得る。コンピューティングデバイスは、ネットワークおよび別のネットワークに通信可能に結合され得る。ネットワークは、インターネットなどのパブリックネットワーク、研究機関または企業のネットワークなどのプライベートネットワーク、またはそれらの任意の組み合わせであり得る。ネットワークには、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、セルラー、衛星、または無線か有線かを問わず、その他のネットワークインフラストラクチャが含まれる。ネットワークは、インターネットプロトコル(IP)、伝送制御プロトコル(TCP)、ユーザデータグラムプロトコル(UDP)、または他のタイプのプロトコルなどのパケットベースおよび/もしくはデータグラムベースのプロトコルを含む通信プロトコルを利用できる。さらに、ネットワークは、スイッチ、ルーター、ゲートウェイ、アクセスポイント(示されているような無線アクセスポイントなど)、ファイアウォール、基地局、リピーター、バックボーンデバイスなど、ネットワーク通信を容易にし、かつ/またはネットワークのハードウェア基盤を形成する複数のデバイスを含むことができる。
【0387】
コンピュータ可読媒体は、本明細書の技術にコンピュータをプログラミングするために(例えば、プロセッサおよびGPUを含む)、コンピュータ上に保存された実行可能なコンピュータ可読コードを含み得る。かかるコンピュータ可読記憶媒体の例として、ハードディスク、CD-ROM、デジタル多用途ディスク(DVD)、光記憶装置、磁気記憶装置、ROM(リード専用メモリ)、PROM(プログラム可能なリード専用メモリ)、EPROM(消去可能なプログラム可能なリード専用メモリ)、EEPROM(電気的に消去可能なプログラム可能なリード専用メモリ)、およびフラッシュメモリが挙げられる。より一般的には、コンピューティングデバイスの処理ユニットは、CPUタイプの処理ユニット、GPUタイプの処理ユニット、フィールドプログラマブルゲートアレイ(FPGA)、別のクラスのデジタルシグナルプロセッサ(DSP)、またはCPUで駆動することができる他のハードウェアロジックコンポーネントを表すことができる。
【0388】
本明細書を通して、複数の事例は、単一の事例として記載された構成要素、動作、または構造を実装することができる。1つ以上の方法の個々の動作が別個の動作として例示および記載されたが、個々の動作のうちの1つ以上が同時に実行されてもよく、例示された順序で動作が実行される必要はない。例示的な構成内で別個の構成要素として提示された構造および機能は、組み合わされた構造または構成要素として実装されてもよい。同様に、単一構成要素として提示された構造および機能は、別個の構成要素または複数の構成要素として実装されてもよい。
【0389】
さらに、特定の実施形態は、ロジックまたは多数のルーチン、サブルーチン、アプリケーション、もしくは命令を含むものとして本明細書に記載される。これらはソフトウェア(例えば、機械可読媒体上または伝送信号中にて具現化されるコード)またはハードウェアのいずれかを構成することができる。ハードウェアでは、ルーチンなどは、特定の動作を実行することができる有形の単位であり、特定の方法で構成もしくは配置されることができる。例示的な実施形態では、1つ以上のコンピュータシステム(例えば、スタンドアローン、クライアント、もしくはサーバコンピュータシステム)、またはコンピュータシステムの1つ以上のハードウェアモジュール(例えば、プロセッサまたはプロセッサ群)は、ソフトウェア(例えば、アプリケーションまたはアプリケーションの一部)によって、本明細書に記載の特定の動作を実行するように動作するハードウェアモジュールとして構成されることができる。
【0390】
様々な実施形態において、ハードウェアモジュールは、機械的にまたは電子的に実装されることができる。例えば、ハードウェアモジュールは、特定の動作を実行するために、恒久的に構成された専用の回路またはロジック(例えば、マイクロコントローラ、フィールドプログラマブルゲートアレイ(FPGA)または特定用途向け集積回路(ASIC)などの特殊用途向けのプロセッサ)を含むことができる。ハードウェアモジュールはまた、特定の動作を実行するため、ソフトウェアによって一時的に構成されるプログラマブルなロジックまたは回路(例えば、汎用プロセッサまたは他のプログラマブルプロセッサ内に包含されるもの)も含むことができる。ハードウェアモジュールを機械的に実装するのか、専用かつ恒久的に構成された回路で実装するのか、または一時的に構成された回路で(例えばソフトウェアにより構成される)実装するのかどうかについては、コストおよび時間を考慮して決定されることができることが理解されよう。
【0391】
したがって、「ハードウェアモジュール」という用語は、有形エンティティを包含すると理解されるべきであり、ある特定の方法で動作するように、または本明細書に記載のある特定の動作を実行するように物理的に構築されているか、恒久的に構成されている(例えば、ハードウェアに組み込まれている)か、または一時的に構成されている(例えば、プログラムされている)エンティティということである。ハードウェアモジュールが一時的に構成されている(例えば、プログラムされている)実施形態を考慮すると、ハードウェアモジュールのそれぞれは、どの時点のインスタンスにおいても構成またはインスタンス化されている必要はない。例えば、ハードウェアモジュールが、ソフトウェアを使用して構成された汎用プロセッサを含む場合には、当該汎用プロセッサは、異なる時点においてそれぞれ異なるハードウェアモジュールとして構成されることができる。したがって、ソフトウェアは、例えば、ある時点では特定のハードウェアモジュールを構成し、別の時点では別のハードウェアモジュールを構成するように、プロセッサを構成してもよい。
【0392】
ハードウェアモジュールは、他のハードウェアモジュールに情報を提供し、他のハードウェアモジュールから情報を受信することができる。したがって、記載されたハードウェアモジュールは、通信可能に結合されているとみなすことができる。複数のそのようなハードウェアモジュールが同時に存在する場合、通信は、ハードウェアモジュールを接続する信号伝送を介して(例えば、適切な回路およびバスを介して)達成されることができる。複数のハードウェアモジュールが異なる時間に構成またはインスタンス化される実施形態では、そのようなハードウェアモジュール間の通信は、例えば、複数のハードウェアモジュールがアクセスするメモリ構造内の情報の記憶および検索を介して達成されることができる。例えば、あるハードウェアモジュールは、動作を実行し、その動作の出力を当該ハードウェアモジュールが通信可能に結合しているメモリデバイスに記憶することができる。次いで、さらなるハードウェアモジュールが後にメモリデバイスにアクセスして、記憶された出力を検索して処理することができる。ハードウェアモジュールはまた、入力または出力デバイスとの通信を開始して、リソース(例えば、情報の収集)に対して動作することができる。
【0393】
本明細書に記載の例示的方法の様々な動作は、少なくとも部分的には、関連する動作を実行するように一時的に(例えば、ソフトウェアにより)構成されたか、または恒久的に構成された1つ以上のプロセッサによって実行されることができる。一時的に構成されたか、または恒久的に構成されたかにかかわらず、そのようなプロセッサは、1つ以上の動作または機能を実行するように動作するプロセッサ実装モジュールを構成することができる。本明細書において言及されるモジュールは、いくつかの例示的な実施形態においては、プロセッサ実装モジュールを含むことができる。
【0394】
同様に、本明細書に記載の方法またはルーチンは、少なくとも部分的にはプロセッサ実装型とすることができる。例えば、ある方法の動作のうちの少なくとも一部は、1つ以上のプロセッサまたはプロセッサ実装ハードウェアモジュールによって実行されることができる。動作の一定の性能は、単一のマシン内に存在するのみならず、いくつかのマシンにわたって配備された1つ以上のプロセッサの間でも分散されることができる。一部の実施形態では、1つ以上のプロセッサは、(例えば、家庭環境内の、職場環境内の、またはサーバファームとして)単一の場所に存在することができるが、他の実施形態では、プロセッサは、多数の場所にわたって分散されてもよい。
【0395】
動作の一定の性能は、単一のマシン内に存在するのみならず、いくつかのマシンにわたって配備された1つ以上のプロセッサの間でも分散されることができる。いくつかの例示的な実施形態では、1つ以上のプロセッサまたはプロセッサ実装モジュールは、(例えば、家庭環境内の、職場環境内の、またはサーバファームとして)単一の場所に存在することができる。他の例示的な実施形態では、1つ以上のプロセッサまたはプロセッサ実装モジュールは、多数の場所にわたって分散されてもよい。
【0396】
特に指示しない限り、「processing」(処理する)、「computing」(処理/演算する)、「calculating」(演算する)、「determining」(判定する)、「presenting」(提示する)、「displaying」(表示する)など言葉を使用している本明細書における説明は、1つ以上のメモリ(例えば、揮発性メモリ、不揮発性メモリ、もしくはこれらの組み合わせ)、レジスタ、または情報を受信、記憶、送信、もしくは表示する他の機械部品内の物理的(例えば、電子的、磁気的、もしくは光学的)な量として表現されるデータを操作もしくは変換する機械(例えば、コンピュータ)の動作または処理を意味することができる。
【0397】
本明細書に使用される際、「一実施形態」または「実施形態」に対する任意の言及は、実施形態と併せて説明された特定の要素、特徴、構造または特性が、少なくとも1つの実施形態に含められることを意味する。本明細書の様々な場所の「一実施形態では」という語句の出現は、必ずしもすべてが同一の実施形態を参照しているとは限らない。
【0398】
一部の実施形態は、「結合された」および「接続された」という表現をそれらの派生語とともに使用して説明されることができる。例えば、一部の実施形態は、2つ以上の要素が物理的または電気的に直接接触していることを示すために「結合された」という用語を使用して説明されることができる。しかしながら、「結合された」という用語は、2つ以上の要素が互いに直接接触していないが、それでも互いに協働または相互作用することも意味することができる。実施形態は、この文脈に限定されるものではない。
【0399】
本明細書に使用される際、「備える(comprises、comprising)」、「含む(includes、including)」、「有する(has、having)」という用語、またはそれらの任意の他の変形は、非排他的な包含を網羅することを意図する。例えば、要素のリストを含むプロセス、方法、物品、または装置は、必ずしもそれらの要素のみに限定されるものではなく、明示的に列挙されていないか、またはかかるプロセス、方法、物品もしくは装置に固有の他の要素を含むことができる。さらに、正反対に明示的に述べられない限り、「または」は、排他的なまたはではなく、包括的なまたはであることを意味する。例えば、条件AまたはBは、Aが真(または存在)且つBが偽(または存在しない)、Aが偽(または存在しない)且つBが真(または存在する)、ならびにAおよびBの双方が真である(または存在する)のうちのいずれか1つによって満たされる。
【0400】
加えて、「a」または「an」の使用は、本明細書の実施形態の要素および構成要素を説明するために用いられる。これは、単に便宜上、且つ説明の一般的な意味を与えるために行われる。この説明は、1つまたは少なくとも1つを含むように読み取られるべきであり、また単数は、そうでないことが意味されていることが明白でない限り、複数を含む。
【0401】
この詳細な説明は、単に一例として解釈されるべきであり、すべての可能な実施形態を説明することは、不可能ではない場合でも非現実的であるので、すべての可能な実施形態を説明するものではない。現在の技術または本出願の出願日の後に開発される技術のいずれかを使用して、多くの代替の実施形態を実装し得る。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10A
図10B
図11
図12A
図12B
図12C
図13
図14
図15A
図15B
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26
図27
図28
図29
図30
図31
図32
図33
図34
図35
図36
図37
図38
【国際調査報告】