IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベンタナ メディカル システムズ, インコーポレイテッドの特許一覧

特表2024-538739画像内のアーチファクト画素を検出するための機械学習技術
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-23
(54)【発明の名称】画像内のアーチファクト画素を検出するための機械学習技術
(51)【国際特許分類】
   G06T 7/00 20170101AFI20241016BHJP
   G06T 7/60 20170101ALI20241016BHJP
【FI】
G06T7/00 350B
G06T7/60 110
G06T7/00 612
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024521189
(86)(22)【出願日】2022-10-07
(85)【翻訳文提出日】2024-04-08
(86)【国際出願番号】 US2022046096
(87)【国際公開番号】W WO2023064186
(87)【国際公開日】2023-04-20
(31)【優先権主張番号】63/256,328
(32)【優先日】2021-10-15
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.VISUAL BASIC
2.JAVA
3.PYTHON
4.JAVASCRIPT
(71)【出願人】
【識別番号】507179346
【氏名又は名称】ベンタナ メディカル システムズ, インコーポレイテッド
(74)【代理人】
【識別番号】100118902
【弁理士】
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【弁理士】
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【弁理士】
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100173565
【弁理士】
【氏名又は名称】末松 亮太
(72)【発明者】
【氏名】バ,キンレ
(72)【発明者】
【氏名】マーティン,ジム・エフ
(72)【発明者】
【氏名】ズイダーベルド,カレル・ジェイ
(72)【発明者】
【氏名】ホルヒナー,ウーベ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA13
5L096BA06
5L096BA13
5L096CA01
5L096GA34
5L096GA51
5L096KA04
5L096KA15
(57)【要約】
機械学習モデルを使用して目標画像解像度における予測されるアーチファクトを検出するための方法およびシステムが提供される。目標画像解像度の画像内のアーチファクト画素を検出するように訓練された機械学習モデルがアクセスされる。初期画像解像度で生物学的試料の少なくとも一部分を表示する画像を、目標画像解像度に変換することができる。機械学習モデルは変換後画像に適用されて、変換後画像から1つ以上のアーチファクト画素を特定する。目標画像解像度において予測されるアーチファクトを検出するように機械学習モデルを訓練するための方法およびシステムも提供される。
【選択図】図2
【特許請求の範囲】
【請求項1】
生物学的試料の少なくとも一部分を表示する画像にアクセスすることと、
前記画像に画像前処理アルゴリズムを適用して、前処理後画像を生成することであって、前記前処理後画像は、複数のラベリングされた画素を含み、前記複数のラベリングされた画素の各々のラベリングされた画素には、前記画素が前記生物学的試料の前記少なくとも一部分の対応する点または領域を正確に表示しているかを予測するラベルが関連付けられている、前記画像に画像前処理アルゴリズムを適用して前処理後画像を生成することと、
前記前処理後画像に機械学習モデルを適用して、前記複数のラベリングされた画素から1つ以上のラベリングされた画素を特定することであって、前記1つ以上のラベリングされた画素は、前記画像前処理アルゴリズムによるラベリングが誤っていると予測される、前記前処理後画像に機械学習モデルを適用して、前記複数のラベリングされた画素から1つ以上のラベリングされた画素を特定することと、
前記1つ以上のラベリングされた画素の各々について、ラベルを修正することと、
前記ラベルが修正された前記1つ以上のラベリングされた画素を少なくとも含む訓練用画像を生成することと、
前記訓練用画像を出力することと
を含む、方法。
【請求項2】
前記ラベルは、アーチファクトのタイプをさらに特定し、前記画素は、前記アーチファクトのタイプに対応するアーチファクトの少なくとも一部分を表示するとさらに予測される、請求項1に記載の方法。
【請求項3】
前記複数のラベリングされた画素のうちの各々のラベリングされた画素にぼけしきい値を適用することと、
前記ぼけしきい値の適用に基づいて、前記複数のラベリングされた画素のうちのさらなるラベリングされた画素のラベリングが誤っていると判断することと、
前記さらなるラベリングされた画素に対応するラベルを修正することと
をさらに含む、請求項1または2に記載の方法。
【請求項4】
前記ぼけしきい値は、深度次元を横切って前記生物学的試料の少なくとも一部分を表示するz軸画像の組についての下流アルゴリズムの性能に基づいて決定される、請求項3に記載の方法。
【請求項5】
前記画像前処理アルゴリズムは、画像セグメンテーション、モルフォロジー処理、画像しきい値処理、画像フィルタ処理、画像コントラスト強調、ぼけ検出、またはこれらの組み合わせを含む、請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記ラベルは、前記画素が特定のアーチファクトタイプに関連するアーチファクトの少なくとも一部分を表示しているかをさらに予測する、請求項1~5のいずれか一項に記載の方法。
【請求項7】
前記特定のアーチファクトタイプは、ぼけ領域、組織ひだ、および異物を含む、請求項6に記載の方法。
【請求項8】
生物学的試料の少なくとも一部分を表示する訓練用画像にアクセスすることであって、前記訓練用画像は、複数のラベリングされた画素を含み、前記複数のラベリングされた画素のうちの各々のラベリングされた画素には、前記画素が前記生物学的試料の前記少なくとも一部分の対応する点または領域を正確に表示しているかを予測するラベルが関連付けられている、訓練用画像にアクセスすることと、
畳み込み層の組を含む機械学習モデルにアクセスすることであって、前記機械学習モデルは、前記畳み込み層の組のうちの各々の畳み込み層を入力画像を表す特徴マップに適用するように構成されている、機械学習モデルにアクセスすることと、
前記機械学習モデルを訓練して、目標画像解像度の画像内の1つ以上のアーチファクト画素を検出することであって、前記1つ以上のアーチファクト画素のうちのアーチファクト画素は、前記生物学的試料の前記少なくとも一部分の点または領域を正確には表示していないと予測され、前記訓練することは、
前記訓練用画像の前記複数のラベリングされた画素のうちの各々のラベリングされた画素について、
前記畳み込み層の組のうちの第1の畳み込み層を、第1の画像解像度の前記訓練用画像を表す第1の特徴マップに適用することによって、前記第1の画像解像度の前記ラベリングされた画素の第1の損失を決定することと、
前記畳み込み層の組のうちの第2の畳み込み層を、第2の画像解像度の前記訓練用画像を表す第2の特徴マップに適用することによって、前記第2の画像解像度の前記ラベリングされた画素の第2の損失を決定することであって、前記第2の解像度は前記第1の画像解像度に対してより高い画像解像度を有する、前記第2の画像解像度の前記ラベリングされた画素の第2の損失を決定することと、
前記第1の損失および前記第2の損失に基づいて前記ラベリングされた画素についての総損失を決定することと、
前記総損失に基づいて、前記機械学習モデルが前記目標画像解像度において前記1つ以上のアーチファクト画素を検出するように訓練されたと決定することと
を含む、前記機械学習モデルを訓練して、目標画像解像度の画像内の1つ以上のアーチファクト画素を検出することと、
前記訓練された機械学習モデルを出力することと
を含む、方法。
【請求項9】
前記訓練用画像をグレースケール訓練用画像に変換することをさらに含み、前記機械学習モデルは、前記グレースケール訓練用画像を使用して訓練される、請求項8に記載の方法。
【請求項10】
前記訓練用画像の前記複数のラベリングされた画素を第1の色空間から第2の色空間に変換して修正後訓練用画像を生成することをさらに含み、前記機械学習モデルは、前記修正後訓練用画像を使用して訓練される、請求項8に記載の方法。
【請求項11】
前記総損失は、前記第1の損失と前記第2の損失との合計に基づいて決定される、請求項8に記載の方法。
【請求項12】
前記総損失は、前記第1の損失と前記第2の損失との平均に基づいて決定される、請求項8に記載の方法。
【請求項13】
前記目標画像解像度は、前記第1の画像解像度である、請求項8に記載の方法。
【請求項14】
生物学的試料の少なくとも一部分を表示する画像にアクセスすることであって、前記画像は第1の画像解像度である、生物学的試料の少なくとも一部分を表示する画像にアクセスすることと、
第2の画像解像度の画像内のアーチファクト画素を検出するように訓練された機械学習モデルにアクセスすることであって、前記第1の画像解像度は、前記第2の画像解像度に対してより高い画像解像度を有する、機械学習モデルにアクセスすることと、
前記画像を変換して前記第2の画像解像度で前記生物学的試料の前記少なくとも一部分を表示する変換後画像を生成することと、
前記変換後画像に前記機械学習モデルを適用して、前記変換後画像から1つ以上のアーチファクト画素を特定することであって、前記1つ以上のアーチファクト画素のうちのアーチファクト画素は、前記生物学的試料の前記少なくとも一部分の点または領域を正確には表示していないと予測される、前記変換後画像に前記機械学習モデルを適用して、前記変換後画像から1つ以上のアーチファクト画素を特定することと、
前記1つ以上のアーチファクト画素を含む出力を生成することと
を含む、方法。
【請求項15】
前記出力は、前記1つ以上のアーチファクト画素を含む画像マスクであり、前記方法は、
前記画像に前記画像マスクを重ねて、前記画像内の画素の組を前記1つ以上のアーチファクト画素から区別することと、
前記画素の組に細胞分類モデルを適用することと
をさらに含む、請求項14に記載の方法。
【請求項16】
前記出力は、前記1つ以上のアーチファクト画素の量を特定する、請求項14または15に記載の方法。
【請求項17】
前記出力を使用してスキャン装置の1つ以上のスキャンパラメータを調整することをさらに含む、請求項14~16のいずれか一項に記載の方法。
【請求項18】
1つ以上のデータプロセッサと、
命令を含んでいる非一時的コンピュータ可読記憶媒体であって、前記命令が、前記1つ以上のデータプロセッサ上で実行されたときに、前記1つ以上のデータプロセッサに本明細書に開示の1つ以上の方法の一部または全てを実行させる、非一時的コンピュータ可読記憶媒体と
を備える、システム。
【請求項19】
非一時的機械可読記憶媒体内に有形に具現化されたコンピュータプログラム製品であって、1つ以上のデータプロセッサに本明細書に開示の1つ以上の方法の一部または全てを実行させるように構成された命令を含んでいる、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年10月15日に出願された「Machine-Learning Techniques For Detecting Artifact Pixels In Images」という名称の米国仮特許出願第63/256,328号の優先権を主張し、その内容は、あらゆる目的に関して、その全体が参照により本明細書に組み込まれる。
【背景技術】
【0002】
発明の背景
免疫組織化学(IHC)アッセイが、がん診断および腫瘍学研究の両方において重要な役割を果たすバイオマーカー位置の可視化および定量化を可能にする。「代表的(gold-standard)」なDAB(3,3’-ジアミノベンジジン)に基づくIHCアッセイに加えて、近年では、明視野多重IHCアッセイおよびマルチ蛍光IHCアッセイの両方において、進歩が見られている。これらの多重IHCアッセイを、とりわけ、同じスライド画像中の複数のバイオマーカーを同定するために使用することができる。そのようなアッセイは、単一のスライドにおけるバイオマーカーの同定において効率を改善するだけでなく、そのようなバイオマーカーに関連する追加の特性(例えば、共局在バイオマーカー)の同定も容易にする。
【0003】
スライド画像の品質管理を、デジタル病理分析における性能の向上および誤差の低減のために実行することができる。特には、品質管理は、デジタル病理分析によってスライド画像から診断バイオマーカーまたは予後バイオマーカーを正確に検出することを可能にする。品質管理は、とりわけ、スライド画像のうちの1つ以上の画像アーチファクトを描くと予測される画素を検出し、除外することを含んでよい。アーチファクトは、組織ひだ、異物、ぼけた画像部分、および生物学的試料の対応する領域の正確な表示を妨げる任意の他の歪みを含むことができる。例えば、生物学的試料に存在する組織ひだが、画像の1つ以上の部分をぼけさせる可能性がある。これらのアーチファクトは、後続のデジタル病理分析においてエラーまたは不正確な結果の原因となる可能性がある。例えば、スライド画像において検出されるアーチファクトによって、デジタル病理分析において、検出される細胞の数のカウントに誤りが生じたり、一群の腫瘍細胞が誤って正常であると識別されたりする可能性がある。実際に、アーチファクトは、スライド画像に関連する被験者の不正確な診断の原因となり得る。
【発明の概要】
【0004】
概要
いくつかの実施形態において、画像内の予測されるアーチファクトを検出するために機械学習モデルを訓練するための訓練データを生成する方法が提供される。この方法は、生物学的試料の少なくとも一部分を表示する画像にアクセスすることを含むことができる。さらに、本方法は、画像に画像前処理アルゴリズムを適用して、前処理後画像を生成することを含むことができる。いくつかの場合に、前処理後画像は、複数のラベリングされた画素を含む。複数のラベリングされた画素の各々のラベリングされた画素に、画素が生物学的試料の少なくとも一部分の対応する点または領域を正確に表示しているかを予測するラベルを関連付けることができる。
【0005】
さらに、本方法は、前処理後画像に機械学習モデルを適用して、複数のラベリングされた画素から1つ以上のラベリングされた画素を特定することを含むことができる。いくつかの場合、1つ以上のラベリングされた画素は、画像前処理アルゴリズムによるラベリングが誤っていると予測される。さらに、本方法は、1つ以上のラベリングされた画素の各々について、ラベルを修正することを含むことができる。さらに、本方法は、ラベルが修正された1つ以上のラベリングされた画素を少なくとも含む訓練用画像を生成することをさらに含むことができる。さらに、本方法は、訓練用画像を出力することを含むことができる。
【0006】
いくつかの実施形態において、目標画像解像度の画像内の予測されるアーチファクトを検出するために機械学習モデルを訓練する方法が提供される。本方法は、生物学的試料の少なくとも一部分を表示する訓練用画像にアクセスすることを含むことができる。いくつかの場合、訓練用画像は、複数のラベリングされた画素を含み、複数のラベリングされた画素のうちの各々のラベリングされた画素には、画素が生物学的試料の少なくとも一部分の対応する点または領域を正確に表示しているかを予測するラベルが関連付けられている。
【0007】
さらに、本方法は、畳み込み層の組を含む機械学習モデルにアクセスすることを含むことができる。いくつかの場合、機械学習モデルは、畳み込み層の組のうちの各々の畳み込み層を入力画像を表す特徴マップに適用するように構成される。さらに、本方法は、目標画像解像度の画像内の1つ以上のアーチファクト画素を検出するように機械学習モデルを訓練することを含むことができる。場合によっては、1つ以上のアーチファクト画素のうちのアーチファクト画素は、生物学的試料の少なくとも一部分の点または領域を正確には表示していないと予測される。
【0008】
いくつかの場合、訓練することは、訓練用画像の複数のラベリングされた画素のうちの各々のラベリングされた画素について、(i)畳み込み層の組のうちの第1の畳み込み層を、第1の画像解像度の訓練用画像を表す第1の特徴マップに適用することによって、第1の画像解像度のラベリングされた画素の第1の損失を決定することと、(ii)畳み込み層の組のうちの第2の畳み込み層を、第2の画像解像度の訓練用画像を表す第2の特徴マップに適用することによって、第2の画像解像度のラベリングされた画素の第2の損失を決定することであって、第2の解像度は第1の画像解像度に対してより高い画像解像度を有する、第2の画像解像度のラベリングされた画素の第2の損失を決定することと、(iii)第1の損失および第2の損失に基づいてラベリングされた画素についての総損失を決定することと、(iv)総損失に基づいて、機械学習モデルが目標画像解像度において1つ以上のアーチファクト画素を検出するように訓練されたと決定することとを含む。さらに、本方法は、訓練された機械学習モデルを出力することを含むことができる。
【0009】
いくつかの実施形態において、目標画像解像度において予測されるアーチファクトを検出するために機械学習モデルを使用する方法が提供される。本方法は、生物学的試料の少なくとも一部分を表示する画像にアクセスすることを含むことができ、画像は第1の画像解像度である。さらに、本方法は、第2の画像解像度の画像内のアーチファクト画素を検出するように訓練された機械学習モデルにアクセスすることを含むことができる。いくつかの場合、第1の画像解像度は、第2の画像解像度に対してより高い画像解像度を有する。
【0010】
さらに、本方法は、画像を変換して、第2の画像解像度で生物学的試料の少なくとも一部分を表示する変換後画像を生成することを含むことができる。さらに、本方法は、変換後画像に機械学習モデルを適用して、変換後画像から1つ以上のアーチファクト画素を特定することを含むことができる。いくつかの場合、1つ以上のアーチファクト画素のうちのアーチファクト画素は、生物学的試料の少なくとも一部分の点または領域を正確には表示していないと予測される。さらに、本方法は、1つ以上のアーチファクト画素を含む出力を生成することを含むことができる。
【0011】
本開示のいくつかの実施形態は、1つ以上のデータプロセッサを含むシステムを含む。いくつかの実施形態において、本システムは、命令を含む非一時的コンピュータ可読記憶媒体であって、これらの命令が、1つ以上のデータプロセッサ上で実行されるときに、1つ以上のデータプロセッサに、本明細書に開示された1つ以上の方法の一部または全部ならびに/あるいは1つ以上のプロセスの一部または全部を実行させる、非一時的コンピュータ可読記憶媒体を含む。本開示のいくつかの実施形態は、非一時的機械可読記憶媒体に有形に具現化されたコンピュータプログラム製品であって、1つ以上のデータプロセッサに、本明細書に開示された1つ以上の方法の一部または全部ならびに/あるいは1つ以上のプロセスの一部または全部を実行させるように構成された命令を含んでいる、コンピュータプログラム製品を含む。
【0012】
使用された用語および表現は、限定ではなく説明の用語として使用され、そのような用語および表現の使用において、示されて説明された特徴のいかなる均等物またはその一部も除外する意図はないが、特許請求の範囲に記載された発明の範囲内で様々な変更が可能であると理解される。したがって、特許請求の範囲に記載された本発明は、実施形態および任意の特徴によって具体的に開示されているが、本明細書に開示された概念の変更および変形を当業者であれば行ってよく、そのような変更および変形は、添付の特許請求の範囲によって定義される本発明の範囲内にあると見なされることを理解されたい。
【0013】
本特許または本出願のファイルは、カラーで作成された少なくとも1つの図面を含む。カラーの図面を伴う本特許または本特許出願の刊行物の写しは、請求および必要な手数料の納付により、官庁によって提供される。
【0014】
本開示の特徴、実施形態、および利点は、以下の詳細な説明を添付の図面を参照して検討することで、よりよく理解される。
【図面の簡単な説明】
【0015】
図1】アーチファクト画素を含む例示的な画像の組を示している。
図2】いくつかの実施形態による訓練データを生成するための例示的なプロセスを説明するフローチャートを示している。
図3】いくつかの実施形態による訓練データを生成するための機械学習モデルを使用するための例示的なプロセスを説明するフローチャートを示している。
図4】いくつかの実施形態によるラベルが生成された例示的な画像の組を示している。
図5】様々なレベルのぼけをそれぞれ示す画像部分を含む例示的な画像を示している。
図6】対応する生物学的試料中の1つ以上の組織ひだを含む例示的な画像の組を示している。
図7】いくつかの実施形態による組織ひだ領域に関する訓練データを生成するための例示的な概略図を示している。
図8】いくつかの実施形態による例示的な3クラスの組織ひだマスクの組を含んでいる。
図9】組織ひだ領域を含む例示的な画像(例えば、FOV)を示しており、組織ひだ領域は、ぼけていない領域およびぼけた領域の両方を表示している。
図10】様々なアーチファクト領域を表示する例示的な画像の組を示している。
図11】いくつかの実施形態による複合アーチファクト分類技術を使用して生成された例示的なアーチファクトマスクを示している。
図12】いくつかの実施形態による複合アーチファクト分類技術を使用するさらなるアーチファクトマスクを示している。
図13】いくつかの実施形態による画素に2つ以上の分類ラベルが関連付けられたスライド画像を示している。
図14】いくつかの実施形態によるぼけた領域および組織ひだ領域の両方に関連付けられた画素の分類ラベルを特定するためのプロセスを示している。
図15】いくつかの実施形態によるグラウンドトゥルースマスクで予測された分類の間の比較を示している。
図16】いくつかの実施形態による異なるタイプのIHCアッセイによるスライド画像における予測領域を示している。
図17】各画像が特定のタイプのIHCアッセイに対応する染色プロトコルを使用して染色されている例示的な画像の組を示している。
図18】いくつかの実施形態による画像内のアーチファクトを検出するために機械学習モデルを訓練するために使用される例示的なアーキテクチャを説明する概略図を示している。
図19】いくつかの実施形態によるアーチファクト画素を正確に検出するために機械学習モデルを訓練するための例示的なプロセスを説明するフローチャートを示している。
図20】いくつかの実施形態によるスライド画像内のアーチファクト領域を検出するための機械学習モデルを訓練するためのプロセスを説明するフローチャートを示している。
図21】いくつかの実施形態によるアーチファクト画素を正確に検出するために訓練された機械学習モデルを使用するための例示的なプロセスを説明するフローチャートを示している。
図22】アーチファクト画素を検出するように訓練された機械学習モデルの精度および再現率スコアを特定する例示的なグラフの組を示している。
図23】訓練用画像と同じタイプのアッセイおよび同じタイプの組織から見えない画像の組について生成された例示的な画像マスクの組を示している。
図24】見えないアッセイパターンまたは組織のタイプを表示する画像から生成された例示的な画像マスクの組を示している。
図25】本明細書に開示されるいくつかの実施形態を実装するためのコンピュータシステムの例を示している。
【発明を実施するための形態】
【0016】
詳細な説明
I.概要
以下の例は、特定の実施形態を紹介するために提供される。以下の説明においては、説明の目的で、本開示の例の完全な理解を提供するために、具体的な詳細が記載される。しかしながら、様々な例を、これらの具体的な詳細によらずに実施してもよいことは明らかであろう。例えば、装置、システム、構造、アセンブリ、方法、および他の構成要素は、例を不必要な詳細において不明瞭にしてしまわないように、ブロック図の形式の構成要素として示されるかもしれない。他の場合に、例を不明瞭にしてしまわないように、周知の装置、プロセス、システム、構造、および技術は、必要な詳細を伴わずに示されるかもしれない。図面および説明は、限定を意図するものではない。本開示で使用されている用語および表現は、限定ではなく説明の用語として使用されており、そのような用語および表現の使用に、示されて説明される特徴またはその一部の均等物を除外する意図はない。「例」という用語は、本明細書において、「例、事例、または例示としての役割を果たす」を意味するために使用される。本明細書において「例」として説明されるあらゆる実施形態または設計は、必ずしも他の実施形態または設計よりも好ましい、または有利であると解釈されるべきではない。
【0017】
アーチファクトを検出するためのいくつかの技術が、スライド画像の品質管理のために使用されてきた。例示的な技術は、所与の画像を観察し、1つ以上のアーチファクトを表示すると予測される画像内の画素の組を手動で識別することを含むことができる。しかしながら、アーチファクトの手動での識別は、時間がかかる可能性がある。手動のプロセスは、各々の画像を点検して、画像がアーチファクトを含むかを正確に判定するために、専門家に大きく依存する。さらに、特定のタイプのアーチファクトの分類は、主観的であり、専門家ごとに異なる可能性がある。例えば、第1の専門家が、スライド画像の画素の組を、ぼけた組織領域を表しているとラベリングする可能性がある一方で、第2の専門家が、同じスライド画像の同じ画素の組を、ぼけていない組織領域としてラベリングする可能性がある。アーチファクトの識別において生じ得るこのような不一致が、後のデジタル病理分析の精度を低下させる可能性がある。
【0018】
手動での識別の代案として、機械学習モデルが、どの画素がアーチファクトを表示しているかを予測することができる。これらの機械学習モデルは、特定のタイプのアーチファクトを検出することに成功しているが、それらの精度は、いくつかの要因のために制約されている。例えば、要因は、下記のように、既存の訓練技術に起因する可能性がある。(1)正確な訓練データを効率的に生成することができず、(2)様々な染色パターンを有する画像においてアーチファクトを正確に検出するように機械学習モデルを効率的に訓練することができず、(3)処理時間の増加およびコンピューティングリソースの消費を最小限に抑えながら、後続のデジタル病理分析(例えば、細胞分類モデル、画像分割技術)にアーチファクト検出機械学習モデルを組み込むことができない。実際に、既存の機械学習モデルは、典型的には、訓練および試験のためにかなりのコンピューティングリソースおよび処理時間を必要とする。さらに、アーチファクトを検出するために既存の機械学習モデルを使用すると、処理時間が大幅に増加し、その後のデジタル病理分析(例えば、細胞分類)のために大量のコンピューティングリソースを消費する可能性がある。以下で詳細に説明されるように、本出願の実施形態は、アーチファクト検出の性能を最適化し、効率を高めるために、3つの要因の各々に対処することができる。
【0019】
A.訓練データの生成
機械学習モデルによる正確なアーチファクト検出を損なう可能性がある第1の要因は、正確な訓練データを効率的に生成することができない既存の訓練技術を含む。既存の技術は、生物学的試料の対応する部分を正確には表示していない可能性がある画像内の画素の組に手動で注釈を付けることを含むことができる。しかしながら、スライド画像内のアーチファクトに手動で注釈を付けることは、時間がかかる可能性がある。この問題は、機械学習モデルが許容可能な性能レベルを達成するために大量の訓練データを必要とする場合に、さらに悪化する可能性がある。
【0020】
上記に加えて、手動での注釈付けは、一貫性のない訓練データをもたらす可能性がある。一般に、数名の専門家が、訓練データを生成するための画像の手動での注釈付けに関与する。上述したように、とりわけ画像が様々なレベルのぼけを有する画素を含む場合に、画像内の所与の画素の組がどのようにぼけていると考えられるかについて、各々の専門家の視点が相違する可能性がある。画像の特定の画素の組について、第1の専門家からの注釈(例えば、ぼけていない画素)が、第2の専門家からの注釈(例えば、ぼけた画素)とは反対であり得る。このような視点の相違が、訓練データ内に不一致を生じさせる可能性がある。不一致により、機械学習モデルが、最適な精度レベルに満たない性能に訓練される結果となり得る。したがって、一貫した正確な訓練データを生成すると同時に、生成のための時間を短縮する必要がある。
【0021】
上記の課題に対処するために、いくつかの実施形態は、画像の各画素について、画素が(例えば、染色された)生物学的試料の対応する点または領域を正確に表示しているかを識別するラベルを生成するための技術を使用する。その後に、ラベルを、機械学習モデルを訓練するための訓練データとして使用することができる。いくつかの場合、ラベルは、画素が画像のぼけた画像部分の少なくとも一部を表示しているかを識別する。「ぼけ」ラベルが関連付けられる画素を、画素のぼけの量を推定し、推定量をぼけしきい値と比較することによって決定することができる。本明細書において使用されるとき、「ぼけしきい値」という用語は、許容しきい値を超える分類モデルの性能低下をもたらすと予測されるぼけレベルに対応する。推定量がぼけしきい値を超える場合、ラベルは、対応する画素が生物学的試料の対応する点または領域を正確には表示していないことを示すことができる。いくつかの場合、ぼけしきい値は、特定のぼけレベルの他の画像のデジタル病理分析を実行し、デジタル病理分析の出力が許容しきい値(例えば、誤って分類された画素の量)を下回る結果を生じると判定し、この特定のぼけレベルをぼけしきい値として設定することによって決定される。
【0022】
この技術は、初期のラベルの組を生成するための画像前処理アルゴリズム、および初期のラベルの組を修正するための機械学習モデルの使用を含むことができる。例えば、画像ぼけ検出を画像に適用して、前処理後画像を生成することができる。前処理後画像は、画像の各画素の初期ラベルを識別することができる。機械学習モデルを前処理後画像に適用して、誤ってラベリングされた画素の組の各々のラベルを修正することができる。修正されたラベルを有する画素の組を有する画像を、画像内のアーチファクトを検出するためのモデルを訓練するための訓練用画像として使用することができる。
【0023】
B.アーチファクト画素を正確に検出するための機械学習モデルの訓練
機械学習モデルの正確なアーチファクト検出を損なう可能性がある第2の要因は、様々な染色パターンを有する画像内のアーチファクトを検出するために機械学習モデルを効率的に訓練することができない既存の訓練技術に対応する。特には、特定のタイプのIHCアッセイ(例えば、Ki67 IHCアッセイ)に対応する複数の染色を組織試料に適用して、被験者の特定の診断または予後を決定することができる。そのような組織試料を表示する画像は、別個の染色パターンを示し得る。
【0024】
IHCアッセイ技術の最近の発展により、複数のバイオマーカーを単一の画像において検出することが容易になっている。例えば、蛍光に基づくIHCアッセイが、マルチスペクトル撮像を使用して、いくつかの異なる蛍光スペクトルを分離することができ、これにより、同じ組織切片上の複数の抗原の正確な同定が可能になることがある。しかしながら、これらの多重IHCアッセイにおいては、単一のIHCアッセイ(例えば、単一のタイプの抗原を標的とするIHCアッセイ)と比べて、より複雑な染色パターンが生じ得る。しかしながら、とりわけ様々なタイプのIHCアッセイが考慮される場合に、複雑な染色パターンを有する画像にわたってアーチファクトを検出するために単一の機械学習モデルを訓練することは、困難であり得る。既存の技術は、第1のタイプのアッセイに対応する訓練用画像の第1の組で機械学習モデルを訓練し、次いで第2のタイプのアッセイに対応する訓練用画像の第2の組で機械学習モデルを訓練することを含むことができる。いくつかの場合、機械学習モデルは、研究中のいくつかのIHCアッセイから収集された訓練用画像の組で訓練される。これらの技術は、時間のかかるラベリングプロセスおよび訓練プロセスにつながる可能性がある。したがって、様々な染色パターンを有する画像内のアーチファクトを検出するために機械学習モデルを効率的に訓練する必要がある。
【0025】
上記の課題に対処するために、いくつかの実施形態は、様々な染色パターンを有する画像内のアーチファクトを検出するために機械学習モデルを訓練するための技術を含む。本技術は、生物学的試料の少なくとも一部分を表示する訓練用画像にアクセスすることを含むことができる。訓練用画像は、複数のラベリングされた画素を含み、各々の画素にラベルが関連付けられている。ラベルは、画素が生物学的試料の少なくとも一部分の対応する点または領域を正確に表示しているかを予測する。例えば、生物学的試料の焦点が合っていない領域を表示する画素を、対応する領域を正確に示していないとラベリングすることができる。
【0026】
いくつかの場合、訓練用画像は、グレースケール画像に変換される。グレースケール画像は、アーチファクト画素を検出するように機械学習を訓練するために使用される。本明細書において使用されるとき、「アーチファクト画素」は、生物学的試料の少なくとも一部分の対応する点または領域を正確には表示していないと予測される画素を指す。いくつかの場合、アーチファクト画素は、アーチファクトの少なくとも一部分を表示すると予測される。例えば、アーチファクト画素を、所与の画像のぼけた部分の一部分を表示し、あるいは画像に示される異物(例えば、毛髪、塵埃粒子、指紋)の一部分を表示すると予測することができる。これに加え、あるいは代えて、訓練用画像は、その画素を第1の色空間(例えば、RGB)から第2の色空間(例えば、L*a*b)へと変換することによって前処理後画像に変換される。第2の色空間の第1の色チャネル(例えば、Lチャネル)を抽出し、アーチファクト画素を検出するように機械学習モデルを訓練するために用いることができる。
【0027】
いくつかの場合、機械学習モデルを訓練するために、画像特徴の組を訓練用画像に追加することができる。例えば、画像特徴の組は、画像勾配値の行列を含むことができる。画像勾配値の行列は、訓練用画像の各画素について、画素の画像勾配値を識別することができる。画像勾配値は、対応する画素が画像オブジェクトのエッジに対応するかを示す。いくつかの場合、画像勾配値の行列は、ラプラシアン・オブ・ガウシアン(LoG)フィルタを訓練用画像に適用することによって決定される。
【0028】
機械学習モデルは、畳み込み層の組を含むことができる。各々の畳み込み層を、1つ以上のフィルタ(あるいは、「カーネル」と呼ばれる)を含むように構成することができる。各画素について、畳み込み層の組の出力と画素のラベルを表す値との間の比較に基づく損失を逆伝播させて、畳み込み層の組のそれぞれのフィルタのパラメータを修正することができる。
【0029】
いくつかの場合、機械学習モデルは、縮小パスおよび拡張パスを含む機械学習モデルを含み、あるいはそのような機械学習モデルに対応する。例えば、機械学習モデルは、U-Net機械学習モデルを含むことができ、あるいはU-Net機械学習モデルであってよい。縮小パスは、処理ブロックの第1の組を含むことができ、各々の処理ブロックは、対応する画像解像度における訓練用画像の処理に対応する。例えば、処理ブロックは、2つの3×3畳み込み(パディングなしの畳み込み)を入力(例えば、訓練用画像)に適用することを含むことができ、各々の畳み込みの後に正規化線形ユニット(ReLU)が続く。したがって、処理ブロックの出力は、対応する画像解像度の訓練用画像の特徴マップを含むことができる。さらに、処理ブロックは、処理ブロックの特徴マップをより低い画像解像度で上記のステップを繰り返すことができる後続の処理ブロックにダウンサンプリングするためのストライド2を有する2×2の最大値プーリング演算を含む。各々のダウンサンプリングステップにおいて、特徴チャネルの数を2倍にすることができる。
【0030】
縮小パスに続いて、拡張パスは、処理ブロックの第2の組を含み、各々の処理ブロックは、対応する画像解像度での縮小経路から出力された特徴マップの処理に対応する。例えば、処理ブロックの第2の組の処理ブロックは、先行の処理ブロックから特徴マップを受信し、特徴チャネルの数を半分にする2×2の畳み込み(「逆畳み込み」)を適用し、特徴マップを縮小パスの対応する処理ブロックからの切り取られた特徴マップと連結する。次いで、処理ブロックは、連結された特徴マップに2つの3×3の畳み込みを適用することができ、各々の畳み込みにはReLUが続く。処理ブロックの出力は、対応する画像解像度の特徴マップを含み、これを、より高い画像解像度の後続の処理ブロックの入力として使用することができる。処理ブロックを、最終出力が生成されるまで適用することができる。最終出力は、画像マスクを含むことができる。画像マスクは、アーチファクト画素の組を識別することができ、各々のアーチファクト画素は、生物学的試料の少なくとも一部分の点または領域を正確には表示していないと予測される。
【0031】
いくつかの場合、処理ブロックの第2の組の各々の処理ブロックにおける損失が計算され、これを使用して、U-Net機械学習モデルの総損失を決定することができる。例えば、総損失は、処理ブロックの第2の組の各々から生成された損失の合計に対応することができる。次いで、U-Net機械学習モデルの総損失を使用して、U-Net機械学習モデルのパラメータ(例えば、畳み込み層の1つ以上のフィルタのパラメータ)を学習することができる。いくつかの場合、処理ブロックの第2の組の各々の処理ブロックの損失を、処理ブロックによって出力された特徴マップに1x1の畳み込み層を適用して、修正された特徴マップを生成し、修正された特徴マップから損失を決定することによって、決定することができる。
【0032】
これに加え、あるいは代えて、機械学習モデルの組を、この組の各々の機械学習モデルを特定の画像解像度で訓練することによって、訓練することができる。機械学習モデルの組を、スライド画像内のアーチファクト画素を検出するための目標画像解像度を決定するために使用することができる。いくつかの場合、より低い画像解像度の訓練された機械学習モデルからの出力が、より高い画像解像度の訓練用画像のラベルの組と比較され、最小化された損失が決定される。最小化された損失が、出力が精度許容レベル内でアーチファクト画素を検出できることを示すことができる場合、機械学習モデルを、より低い画像解像度で画像内のアーチファクト画素を検出するために展開することができる。例えば、機械学習モデルを、5倍で精度の許容レベル内でアーチファクト画素を検出するように訓練できる場合、5倍よりも高い画像解像度(例えば、10倍、20倍、40倍)の機械学習モデルを展開する必要がない。このようにして、アーチファクト検出のための推論時間を、元の画像解像度の20倍で画像を処理する別の機械学習モデルと比較して16分の1に短縮することができる。
【0033】
C.画像内のアーチファクト画素を検出するための機械学習モデルの実装
機械学習モデルの正確なアーチファクト検出を損ないかねない第3の要因は、処理時間の増加およびコンピューティングリソースの消費を最小限に保ちながら、後続のデジタル病理分析にアーチファクトを検出するための機械学習モデルを組み込むことができない既存の訓練技術に対応する。特に、所与の全体スライド画像において関心対象のオブジェクト(例えば、組織、腫瘍、リンパ球)を検出するための既存のデジタル病理分析は、全体スライド画像をより小さい画像タイルの組に分割することを含むことができる。画像タイルの組の各々の画像タイルについて、分析を、画像タイルに現れる各々の画像オブジェクトの分類を決定するために、画像タイルに対して実行することができる。したがって、そのようなデジタル病理分析にアーチファクト検出を組み込むことは、画像の画像タイルの組の各々の画像タイルについて、(i)機械学習モデルを適用して、画像タイル内のアーチファクト画素を検出することと、(ii)検出されたアーチファクト画素を画像タイルから除外することと、(iii)デジタル病理分析(例えば、画像分割アルゴリズム)を実行して、アーチファクト画素を除外する画像タイルに表示された画像オブジェクトを分類することとを含んでよい。各々の画像タイルに複数のアルゴリズムを適用することにより、アーチファクト画素検出を伴う画像のデジタル病理学は、処理時間の増加を被り、追加のコンピュータリソースを消費する可能性がある。これにより、デジタル病理分析が全体として非効率的になる可能性がある。
【0034】
さらに、デジタル病理分析は、正確な結果を達成するために、高い画像解像度でスキャンされた画像を必要とする可能性がある。例えば、画像内の腫瘍バイオマーカーを検出するために、デジタル病理分析で使用される機械学習モデルは、元の画像解像度の20倍または40倍での画像のスキャンを必要とする場合がある。したがって、腫瘍バイオマーカーの検出は、すでにリソース集約的かつ時間を消費する可能性がある。アーチファクト画素を検出するための機械学習モデルが同じ画像解像度を必要とする場合、腫瘍バイオマーカーを検出するための処理時間が、さらに増加する可能性がある。したがって、処理時間の増加およびコンピューティングリソースの消費を許容可能なレベルに抑えるように、デジタル病理分析にアーチファクト検出の機械学習モデルを組み込む必要がある。
【0035】
上記の課題に対処するために、いくつかの実施形態は、画像内のアーチファクト画素を検出するために異なる画像解像度を使用するための技術を含む。いくつかの場合、アーチファクト画素は、アーチファクトの一部分を表示すると予測される。アーチファクト画素を、スライドのスキャンの最中および/またはスライドのデジタル画像の生成後に検出することができる。いくつかの実施形態において、機械学習モデルを訓練して、画像の画素の組を含む画像マスクを生成する。画像マスクの画素の組は、アーチファクト画素を示し、アーチファクト画素は、生物学的試料の少なくとも一部分の点または領域を正確には表示していないと予測される。機械学習モデルをさらに訓練して、特定の画像解像度で画像を処理して、画像マスクを生成する。したがって、いくつかの場合、より高い画像解像度を有する画像は、より低い画像解像度に変換され、変換後画像に機械学習モデルが適用され、画像マスクが生成される。これに加え、あるいは代えて、機械学習モデルを、さらに訓練して、アーチファクト画素の量(例えば、画像内の画素の総数に対するアーチファクト画素の割合)を識別することができる。例えば、推定される量は、予測されたアーチファクト画素のカウント、複数または全てのアーチファクト画素に対応する累積面積、予測されたアーチファクト画素に対応するスライド面積または組織面積の割合、などを含んでよい。
【0036】
いくつかの場合、画像は、画像タイルの組に分割される。機械学習モデルを、画像タイルの組の各々の画像タイルに適用して、画像マスクを生成することができる。画像マスクは、画像タイルのサブセットを識別し、画像タイルのサブセットの各々の画像タイルは、1つ以上のアーチファクト画素を表示することができる。次いで、画像マスクを画像に適用して、ユーザが画像タイルのサブセットのうちの1つ以上の画像タイルを非選択にすることを可能にすることができ、非選択の画像タイルは、さらなるデジタル病理分析から除外される。これに加え、あるいは代えて、画像マスクを画像に適用して、画像の画像タイルのサブセットをユーザ入力によらずに選択し、その後にさらなるデジタル病理分析から除外することができる。
【0037】
訓練された機械学習モデルを特定の時点の画像に適用して、画像マスクを生成することができる。例えば、機械学習モデルを既存のスキャン画像に適用して画像マスクを生成することができる。別の例においては、機械学習モデルを、画像がスキャン装置によって取り込まれている間に適用することができる。これに加え、あるいは代えて、プレビュー画像(例えば、サムネイル画像)をスキャン装置によって最初に取り込むことができる。プレビュー画像に、ぼけ検出アルゴリズムなどの画像前処理アルゴリズムを適用することができる。組織領域がプレビュー画像内で検出された場合、生物学的試料を表示する初期画像をスキャンすることができる。初期画像は、目標画像解像度で生物学的試料を表示することができる。
【0038】
機械学習モデルを初期画像に適用して、予測されるアーチファクト画素を識別する画像マスクを生成し、画像内に存在するアーチファクト画素の量を識別することができる。アーチファクト画素の量が画像領域しきい値を超える場合、後続のデジタル病理分析が実行されるときに画像が正確な結果を生じる可能性が低いことを示す警告を生成することができる。いくつかの例において、アーチファクト領域しきい値は、画像内の画像部分の相対サイズを表す値(例えば、40%、50%、60%、70%、80%、90%)に対応する。アーチファクト画素の量がアーチファクト領域しきい値を超える場合、1つ以上のアーチファクトが画像内の大きな部分を占め、したがって後続のデジタル病理分析(例えば、細胞分類)の性能低下を引き起こす可能性が高いと予測することができる。そのようなとき、画像を拒絶(例えば、自動的に、あるいは画像を拒絶する指示に対応するユーザ入力の受信に応答して)することができ、かつ/または生物学的試料を再スキャンして別の画像を取り込むことができる。いくつかの場合、画像を予測されたアーチファクト画素と共にユーザインターフェース上に示すために、画像マスクは画像上に重ねられる。これに加え、あるいは代えて、機械学習モデルの適用および警告の生成を、画像を形成する画像タイルの組の各々の画像タイルに対して実行することができる。このようにして、(例えば)生物学的試料を再スキャンする決定を、画像全体がスキャンされる前に行うことができ、したがって追加の処理時間が節約され、コンピューティングリソースの使用が削減される。
【0039】
II.アーチファクト画素を検出するために機械学習モデルを訓練するための訓練データの生成
スライド画像から診断または予後バイオマーカーを正確に検出するためにデジタル病理学を改善するために、品質管理を実行して、スライド画像からアーチファクトを検出および除外することができる。アーチファクトは、組織ひだ、異物、ぼけた画像部分、および任意の他の画像の歪みを含むことができる。図1が、アーチファクト画素を含む例示的な画像の組100を示している。図1に示されるように、例示的な画像102は、許容可能な焦点品質で生物学的試料を示しており、細胞表現型の分類結果が、ドットとして重ねて示されている。赤色ドットは、陽性染色細胞に対応する。黒色ドットは、陰性染色細胞に対応する。対照的に、例示的な画像104は、画像102と同じ画像を示しているが、左側にアーチファクト画素の組を有する。例示的な画像104において赤色ドットの数が少ないことは、細胞表現型の分類モデルが、生物学的試料中に存在する陽性染色細胞を全ては識別することができなかったことを示している。アーチファクト画素ゆえに、細胞表現型の分類モデルは、その対応するデジタル病理分析を行うことが不可能であった。図1に示される例示的な画像は、ぼけた画像部分を表示する画素を明確に示しているが、他の画像は、様々なぼけのレベルのぼけた画像部分を表示する画素を含むかもしれない。
【0040】
スライド画像(例えば、図1の画像104)からの訓練データの生成の効率を高めるために、いくつかの実施形態は、全体スライド画像品質管理のためのラベル収集の加速を含む。いくつかの場合、提案される枠組みは、他のタイプのデジタル病理分析のためのラベル収集に適用可能である。
【0041】
アーチファクト識別に関して、2つの選択肢が存在する。(1)分類ラベルが各々の画像画素に割り当てられる画像分割手法を使用した画素ごとの分類、および(2)分類ラベルが各々の画像タイルに割り当てられる画像分類手法によるタイルごとの分類。本明細書において使用されるとき、画像タイルは、画素の組を含む画像の一部分(例えば、矩形部分、三角形部分)を指す。画像タイルは、細胞および/またはバイオマーカーなどの生物学的試料の対応する点または領域を表示してよい。いくつかの場合、所与のスライド画像は、複数の画像タイルを含み、画像タイルの数は、数十または数百あるいは数千からの範囲であってよい。画像タイルは、画像全体または画像内の関心対象の領域が画像タイルによって覆われるように分布することができる。
【0042】
訓練データを生成するために、画素ごとの分類を使用して、各々の画像画素が品質管理に合格するか、あるいは不合格であるか(例えば、画素がぼけているか)が識別される。これにより、タイルごとの分類と比較して、下流の分析に関して柔軟性が向上する。この柔軟性は、画像分割アルゴリズムが提供する画素レベルの精度に起因し得る。これに加え、あるいは代えて、タイルごとの分類を使用して、画素ごとの分類を生成することができる。
【0043】
A.訓練データの生成のための枠組み
図2が、いくつかの実施形態による訓練データを生成するための例示的なプロセス200を説明するフローチャートを示している。訓練データを生成するための画像にアクセスすることができる。いくつかの場合、画像は、生物学的試料の少なくとも一部分を表示している。画像は、特定の器官の組織切片を表示するスライド画像であり得る。いくつかの例において、生物学的試料は、1つ以上のタイプのアッセイ(例えば、IHC、H&E)を使用して染色されている。
【0044】
ステップ202において、特定の品質管理問題が決定される。特定の品質管理問題は、アーチファクト画素の検出を含むことができる。これに加え、あるいは代えて、品質管理問題は、異物、組織ひだ、あるいは生物学的試料の一部分の不正確な表示をもたらす任意の他の画像オブジェクトまたは歪みなどの他のタイプのアーチファクトの検出を含むことができる。ステップ204として、同じ画像態様を有する同様の目的のための既存の深層学習モデルまたは既存のラベリング済みデータセットが存在するかが判定される。そのようなリソースが利用可能である場合、プロセス200はステップ206に進み、(1)同様の目的のために設計された既存のモデルを用いて目標データセットの推論を実行し、(2)既存のラベリング済みデータセットで関連モデルを訓練し、次いでそのようなモデルを目標データセットに適用することによって、初期ラベルが生成される。そのようなリソース(すなわち、モデルまたはラベリング済みデータセット)が異なる画像態様または画像分布からのものである場合、教師なしドメイン適応を活用して、既存のモデルをラベリングされていない目標データセットに適応させることができる。
【0045】
前述のリソースのいずれも利用可能でなく、有効でもない場合、プロセス200はステップ208に進み、品質管理問題を画像処理問題に落とし込むことができるかが判定される。そうである場合(ステップ208からの「はい」の経路)、ラベルを予測するための画像前処理アルゴリズムを適用することができる(ステップ210)。結果として、初期ラベルのセットを生成することができる。各々のラベルは、画像の対応する画素が生物学的試料の一部分の対応する点または領域を正確に表示しているかを予測することができる。いくつかの場合に、画像前処理アルゴリズムは、画像セグメンテーション、モルフォロジー処理、画像しきい値処理、画像フィルタ処理、画像コントラスト強調、ぼけ検出、他の画像前処理アルゴリズム、またはこれらの組み合わせを含む。これに加え、あるいは代えて、画像前処理アルゴリズムは、1つ以上の他の機械学習モデルを使用して、初期ラベルの組を生成できるように画像を前処理することを含むことができる。
【0046】
例えば、画像前処理アルゴリズムは、アーチファクト画素を予測するためのぼけ検出を含むことができ、ぼけ検出は、画像勾配計算と、その後の低勾配画素を識別するためのしきい値処理とによる画像フィルタ処理を含む。低い画像勾配を有する画素の組を、強度変動が比較的小さい隣接する画像画素のグループと定義することができる。特に、低い画像勾配を有する画素は、比較的高い画像勾配を有する画素と比べ、画素強度が均一であると考えられる。別の例において、画像前処理アルゴリズムは、組織ひだ(すなわち、組織の一部分が別の一部分に折り重なり、より暗い組織領域を生み出している)を予測するための組織ひだ検出を含むことができる。組織ひだ検出は、他の組織領域よりも大幅に暗い低い画像強度を有する画素の組を識別することを含むことができる。画素の組を、最初に画像フィルタ(この場合には、ガウシアンフィルタのような平滑化カーネルを使用する)を適用し、続いて強度しきい値処理を適用することによって識別することができる。
【0047】
画像前処理アルゴリズムが利用できず、あるいは無効である場合(ステップ208からの「いいえ」の経路)、1つ以上の弱教師あり画像処理モデルを使用して、初期ラベルを生成することができる(ステップ212)。例えば、学習に基づく対話的なセグメント化モデルをグラフィックユーザインターフェースと共に使用することができ、これにより、ユーザは、オブジェクトセグメント化マップを生成するためのマウスクリックなどの弱い注釈を提供することができる。
【0048】
既存のリソースの存在下で初期ラベルが生成されると、初期ラベルを修正してエラーを訂正することができる(ステップ214)。図示されていないが、初期ラベルの訂正を、ステップ212の後に実行することもできる。いくつかの場合、機械学習モデルが初期ラベルに適用され、初期ラベルのサブセットが誤ってラベリングされていると判定される。例えば、初期ラベルが、対応する画素が生物学的試料の対応する点または領域を正確に表示していると示すことができるが、対応する画素は1つ以上のアーチファクトを含んでいる。機械学習モデルを適用することにより、このエラーに、初期ラベルを修正することによって対処することができる。
【0049】
ラベルの組(修正されたラベルを含む)が得られると、ラベルの組を含む訓練用画像を生成することができる。ステップ216において、ラベルの組を有する訓練用画像を使用して、追加の訓練データを生成するために追加のラベルを反復的に生成することができる(ステップ216)。追加の訓練データは、追加の訓練用画像を含むことができ、各々の訓練用画像は、対応するラベルの組を含む。例えば、優先的に類似または同じ画像ドメインからの利用可能な事前訓練済みのモデルが存在する場合、転送学習またはフューショット学習を訓練用画像に適用して、初期モデルを生成することができる。次いで、初期モデルを使用して、他のラベリングされていない画像について予測を行い、他のラベリングされていない画像についてラベルを生成することにより、追加の訓練データを生成することができる。別の例においては、アクティブ学習を訓練用画像に適用して、複数の画像から画像の組を選択することができ、画像のサブセットを、対応するラベルの組を生成するために使用することができる。さらに別の例においては、半教師あり、または完全な教師ありドメイン適応を、訓練用画像に基づいて実行して、追加の訓練データを生成することができる。その後に、プロセス2は終了する。
【0050】
上記の枠組みを使用して、生物学的試料の正確な表示に影響を及ぼす様々なタイプのアーチファクトをラベルと見なすことができる。いくつかの場合、追加のタイプのアーチファクトが、訓練データに関連付けられた既存のラベルタイプに追加される。例えば、新たなタイプのアーチファクトを、全てのアーチファクトが「アーチファクト組織」と同じ分類ラベルを有するように、既存のラベルとマージさせることができる。いくつかの実施形態においては、新たなタイプのアーチファクトに、ラベルタイプの数を増やすことができるように、既存のラベルのいずれとも別の新たなラベルが関連付けられる。例えば、「組織ひだ」のための新たな分類ラベルを生成することができる。
【0051】
いくつかの場合、訓練データを生成するために複数のラベルが同じ画素に割り当てられる。この場合、複数のラベルの各々のラベルは、対応する画素が特定のアーチファクトタイプ(例えば、ぼけ、異物、組織ひだ)に関連するアーチファクトの少なくとも一部を表示するかを予測することができる。例えば、組織ひだが、ぼけアーチファクトと織り混ざり、あるいは他の形で相関する可能性がある。「組織ひだ」としてラベリングされた画素が、画像のぼけ部分を表示することもできる。したがって、上記の画素に以下の2つのラベルを関連付けることができる。(i)「組織ひだ」、および(ii)「ぼけアーチファクト」。マルチラベル分類技術などの機械学習技術を使用して、各々の画像画素を1つ以上のタイプのアーチファクトに関連すると予測することができる。
【0052】
B.訓練用画像のラベルを生成するためのプロセス
図3が、いくつかの実施形態による訓練データを生成するための機械学習モデルを使用するための例示的なプロセス300を説明するフローチャートを示している。訓練データを生成するための例示的なプロセス3は、対応する画素が生物学的試料の一部分の点または領域を正確に表示するかを予測するラベルを生成することを含むことができる。例示的なプロセスを、図2に提示した例示的なプロセスに組み込むことができる。
【0053】
ステップ302において、生物学的試料の少なくとも一部分を表示する画像にアクセスすることができる。画像は、特定の器官の組織切片を表示するスライド画像であり得る。いくつかの例において、生物学的試料は、特定のタイプのアッセイ(例えば、IHC、H&E)に対応する染色プロトコルを使用して染色されている。例えば、画像は、Ki67 IHCアッセイに対応する染色プロトコルを使用して染色された生物学的試料を表示することができる。
【0054】
ステップ304において、画像に画像前処理を適用して、前処理後画像を生成することができる。前処理後画像は、複数のラベリングされた画素を含むことができる。複数のラベリングされた画素の各々のラベリングされた画素に、画素が生物学的試料の少なくとも一部分の対応する点または領域を正確に表示しているかを予測するラベルを関連付けることができる。したがって、ラベルは、対応する画素がアーチファクト、非アーチファクト組織、または他のタイプの領域に由来するかを示すことができる。
【0055】
いくつかの場合に、画像前処理アルゴリズムは、画像セグメンテーション、モルフォロジー処理、画像しきい値処理、画像フィルタ処理、画像コントラスト強調、ぼけ検出、他の画像前処理アルゴリズム、またはこれらの組み合わせを含む。画像前処理は、画像にわたる画素の画像勾配を分析することを含むことができる。例えば、画像前処理を使用して、平滑な(すなわち、局所的な画像強度の変化がなく、あるいはきわめて小さい)画素の組を識別することができる。平滑な画素を、画像勾配を計算し、セグメント化しきい値を適用することによって識別することができる。セグメント化しきい値は、所与の画素が画像に示されるエッジの少なくとも一部分を表示するかを予測する値を表すことができる。セグメント化しきい値は、所定の値であり得る。いくつかの場合、セグメント化しきい値は、Otsuの方法または平衡ヒストグラムしきい値処理方法を実行することによって決定される。セグメント化しきい値よりも低い画像勾配を有する平滑な画素を、画像強度が均一なぼけた組織または非組織領域のいずれかであると識別することができる。これに加え、あるいは代えて、画像前処理アルゴリズムは、1つ以上の他の機械学習モデルを使用して、複数のラベリングされたラベルを生成できるように画像を前処理することを含むことができる。
【0056】
ステップ306において、前処理後画像に機械学習モデルを適用して、複数のラベリングされた画素から1つ以上のラベリングされた画素を特定することができる。1つ以上のラベリングされた画素の各々のラベルが、画像前処理アルゴリズムによるラベリングが誤っていると予測される可能性がある。エラーは、画像前処理アルゴリズムが全ての画素について正しいラベルを識別するには充分には有効ではないことに起因し得る。例えば、画像前処理アルゴリズムの一部として適用されるセグメント化しきい値が、いくつかの画像においてアーチファクトを正確に識別することができるが、同じセグメント化しきい値が、残りの画像に関して低すぎる可能性がある。別の例においては、画像のいくつかの部分のアーチファクトを正しく識別することができるセグメント化しきい値が、同じ画像の残りの部分に関して低すぎる場合がある。両方の例において、アーチファクト画素の一部が、組織領域として不適切にラベリングされる可能性がある。
【0057】
ステップ308において、1つ以上のラベリングされた画素の各々について、ラベルを修正することができる。いくつかの場合、修正は、グラフィカルユーザインターフェースを介してユーザによって実行される。これに加え、あるいは代えて、ラベルを、1つ以上の実行可能命令(例えば、if-else条件文)を使用して自動的に修正することができる。
【0058】
ステップ310において、訓練用画像を生成することができる。訓練用画像は、修正されたラベルを有するラベリングされた画素など、ラベリングされた画素を含むことができる。いくつかの場合、追加の画像特徴(例えば、画像勾配値)を、各々のラベリングされた画素に関連付けて、アーチファクト画素を識別するための機械学習モデルの訓練をさらに容易にする。
【0059】
ステップ312において、訓練用画像が出力される。訓練用画像を、追加の訓練データを生成するために使用することができる。追加の訓練データは、追加の訓練用画像を含むことができ、各々の訓練用画像は、対応するラベルの組を含む。様々なタイプの機械学習技術を使用して、追加の訓練データを生成することができる。例えば、機械学習技術は、限定はされないが、アクティブ学習、転移学習、フューショット学習、またはドメイン適応を介して訓練された機械学習モデルを使用することを含むことができる。その後に、プロセス300は終了する。
【0060】
C.ラベルを有する例示的な訓練用画像
図4が、いくつかの実施形態によるラベルが生成された例示的な画像の組400を示している。ラベルの各々は、対応する画素が生物学的試料の少なくとも一部分を正確に表示しているかを示す。画像402は、組織切片を表示する全体スライド画像に対応するサムネイル画像を示す。画像404は、サムネイル画像または別の解像度の全体スライド画像に対応する画像にラプラシアンフィルタ処理と、その後のガウシアン平滑化を適用することによって生成された画像の勾配ベースのマップを示す。画像404に示されるように、セグメント化しきい値よりも低い画像勾配を有する画素を、画像強度が均一なぼけた組織または非組織領域のいずれかであると識別することができる。
【0061】
画像406は、均一フィルタを適用し、次いでサムネイル画像(または、別の解像度の対応する画像)をしきい値処理することによって生成された組織マスクを示す。例えば、組織検出器を、均一フィルタによって画像を平滑化し、R、G、およびBチャネルの強度についてセグメント化しきい値を適用することによって、画像に適用することができる。前述のように、セグメント化しきい値は、所与の画素が所与の画像に示されるエッジの少なくとも一部分を表示するかを予測する値を表すことができる。セグメント化しきい値は、所定の値であり得る。いくつかの場合、セグメント化しきい値は、Otsuの方法または平衡ヒストグラムしきい値処理方法を実行することによって決定される。3つ全てのチャネルにわたってエッジ検出しきい値よりも高い強度値を有する画素を、組織画素として識別することができる。組織マスクを使用して、非組織、ぼけた組織、およびぼけていない組織を含む3つの分類を有する全体スライドぼけマスク(例えば、画像408)を生成することができる。
【0062】
画像408は、画像406および404をマージすることによって生成された前処理後画像(例えば、ぼけマップ)を示す。例えば、画像408に示される前処理後画像は、サムネイル画像内の予測されたアーチファクト画素を示し、暗い赤色が予測されたアーチファクト画素を識別する。
【0063】
画像410は、画像タイルの組を識別することができる前処理後画像を示す。いくつかの場合、いくつかのアーチファクト画素を有する画像タイルが自動的に選択される。前処理後画像410は、画像408に対応することができ、様々な量のぼけを有するラベルを含む場合がある。画像タイル412および414は、前処理後画像410から選択された画像タイルを表す。特には、画像タイル412は、ER-Dabsyl IHCアッセイ(ER:エストロゲン受容体)を使用して染色された生物学的試料の領域を表示する。画像タイル414は、領域内の初期ラベルを識別する。初期ラベルは、ぼけた組織、非組織、およびぼけていない組織などの複数の分類を含むことができる。
【0064】
画像416は、画像タイルを示す対話型グラフィカルユーザインターフェースのスクリーンショットを示しており、これを用いて、ユーザは初期ラベルを修正するために対話(例えば、マウスクリック)を行うことができる。いくつかの場合、初期ラベルの修正は、前処理後画像410または410から選択された画像タイルに機械学習モデルを適用することによって実行される。機械学習モデルは、限られた数の注釈を使用して、ぼけマスク全体を高い精度で修正することができる。機械学習モデルは、別個のプロセス(図示せず)であってよく、あるいはグラフィカルユーザインターフェースに統合可能である。機械学習モデルの適用を、CPUを用い、あるいはGPUを用いた高度に並列化された計算を活用することによって、実行することができ、このようにして効率的なラベル訂正が保証される。
【0065】
D.ラベルの正確な決定のためのぼけレベルの決定
アーチファクト画素を検出するための特定のしきい値を主観的に決定すると、必然的に、ぼけおよびぼけレベルの専門家の知覚の間の不一致につながりかねない。そのような不一致は、デジタル病理アルゴリズムの性能の著しい低下をもたらし得る。図5が、様々なレベルのぼけをそれぞれ示す画像部分を含む例示的な画像を示している。特には、病理学者は、画像500を、画像の70%超について分析可能であるとしている。しかしながら、実際には、画像500の大部分がぼけており、分類モデルにとって問題となり得ることが示され得る。例えば、画像タイル502は、特定の専門家がぼけていないと考える可能性があるが、分類モデルがバイオマーカーを正確に検出するのに充分に焦点が合っていない。
【0066】
画像内のアーチファクト画素の識別の一貫性を向上させるために、分類モデル(例えば、細胞分類)の性能変化を、様々なぼけレベルにおいて定量的に評価することができる。許容しきい値を超える分類モデルの性能低下をもたらすと予測されるぼけレベルに対応するぼけしきい値を選択することができる。ぼけしきい値を、よりぼけていると考えられる画像内の任意のタイル(例えば、画像タイル504)を示すために使用することができる。いくつかの場合、画像タイル内の任意の画素は、これらの画素が組織領域に対応する画像部分(例えば、組織マスク406内の組織領域内)に局在しており、それぞれの画像勾配がぼけしきい値より低い場合、ぼけた組織としてラベリングされる。
【0067】
いくつかの場合、ぼけしきい値を、試料画像の組を生成することによって決定することができる。試料画像の組の各々の試料画像を、様々なぼけレベルで試料の1つ以上の領域を表示するために特定のシグマ値でガウシアンフィルタ処理を適用することによって生成することができる。
【0068】
これに加え、あるいは代えて、デジタル病理スキャナのボリュームスキャン機能を使用して、ぼけしきい値を設定することができる。例えば、デジタル病理スキャナおよび/または顕微鏡のzスタックを使用して、スライドのz軸をスキャンし、公称焦点面からの距離が増加するスキャンの組を取得することができる。スキャンの組は、ぼけのレベルの増加に対応することができる。ぼけしきい値を決定するボリュームスキャン機能を使用するための例示的なプロセスは、以下のとおりであり得る。第1に、固定されたアッセイおよび固定された下流のデジタル病理分析(例えば、細胞分類モデル)に関して、ラベルを有する訓練用画像をスキャン装置の「ボリュームスキャン」モードで再スキャンすることにより、ボリュームスキャン画像を生成することができる。いくつかの場合、ボリュームスキャンのスキャン設定は、一定の間隔(例えば、1ミクロン)の非公称焦点スキャン面を使用して訓練用画像をスキャンすることを含む。ボリュームスキャン画像に基づいて、デジタル病理分析の精度が不充分になる画素の組を検出することができる。いくつかの場合、識別された画素の組における画像勾配の範囲を計算することができる。画像勾配の範囲内の最大画像勾配を、ぼけしきい値として設定することができる。ぼけしきい値を超える画像勾配を有する画素を、後続のデジタル病理分析の許容レベルを超える精度低下の原因となる画素として予測することができる。
【0069】
E.訓練データを生成するための組織ひだアーチファクトの識別
組織ひだは、典型的には、組織の処理(例えば、組織スライドの調製)の最中に生じ、そこでは、組織切片の1つ以上の部分がスライドガラス上にしっかりと付着せず、組織切片の別の部分の上へと裏返る。図6が、対応する生物学的試料中の1つ以上の組織ひだを含む例示的な画像の組600を示している。図6に示されるように、組織ひだは多様な外観を有し得る。例えば、第1の画像602は、周囲の非組織ひだ領域と比べて強度がはるかに暗い組織ひだを示す。第2の画像604は、強度がより明るい一方で、下方にある組織層内の細胞を依然としてかなり見て取ることができる組織ひだを示す。第3の画像606は、ぼけた領域を伴う組織ひだ領域を示す。ぼけた領域は、スキャナの被写界深度を超える組織ひだの厚さによって引き起こされる可能性がある。
【0070】
組織ひだ領域を含むグラウンドトゥルース画像を生成するために、異なるプロセスを使用してよい。図7が、いくつかの実施形態による組織ひだ領域に関する訓練データを生成するための例示的な概略図700を示している。次いで、訓練データを使用して、バイナリ組織ひだマスクを生成することができる。図7において、既存の機械学習モデル、既存のグラウンドトゥルース、および初期グラウンドトゥルースを生成するための効果的な画像処理手法は、存在していなかった。したがって、再び図2を参照すると、ステップ204およびステップ208の回答は、どちらも「いいえ」として識別された。結果として、ステップ212を実行して、組織ひだ領域のための訓練データを生成し、そこでは、対話型GUIを利用して、グラウンドトゥルース画像を生成した。組織ひだ領域のための訓練データの生成は、2つの分類が組織ひだおよび非組織ひだであるバイナリ組織ひだマスクを生成するための対話型セグメント化GUIを使用することを含むことができる。
【0071】
いくつかの場合、組織ひだマスク702は、以下の3つの手法のうちの1つに基づいて生成される。(1)ぼけグラウンドトゥルース(ぼけグラウンドトゥルースから選択されたFOV 704の場合)(ブロック706)、(2)画像処理アルゴリズムによって識別された領域(例えば、追加のMosaic WSIから組織ひだを有するFOVを識別する(ブロック708))、(3)対話型GUIによって選択された領域(ブロック710)。いくつかの場合、3つの手法の各々が順に実行されて、組織ひだマスクを生成する。例えば、ぼけグラウンドトゥルースに基づいて生成された組織ひだマスクが正確であるかを判定することができる(例えば、目視検査に基づいて)。正確でない場合、画像処理アルゴリズムによって生成された領域を使用することができる。画像処理アルゴリズムによって生成された領域が正確な組織ひだマスクをもたらさない場合、対話型GUIによって手動で選択された領域を、組織ひだマスクの生成に使用することができる。(ブロック710)。
【0072】
いくつかの場合、対話型GUIは、組織ひだ領域の選択を容易にするための1つ以上の機械学習モデルを含む。例えば、対話型GUIは、以下を含むことができる。(i)画像領域を選択するための手動記載を可能にし、反復的手動訂正のために選択された領域を視覚化する第1のGUI構成要素、および(ii)ターゲット領域の自動識別を案内するために書き込みおよびマウスクリックなどのユーザ入力を可能にする第2のGUI構成要素。対話型GUIに関して、ユーザ入力に応答してセグメント化されたマスクを生成するように、画像処理方法を設計し、あるいは機械学習モデルを訓練することができる。例えば、機械学習モデルを、ターゲット画像領域内のシミュレートされたユーザクリック、ならびにモデル入力としての元の画像で訓練し、セグメント化マスクを出力することができる。実際には、深層学習対話型GUIは、通常は数個の画素またはターゲット画像領域の一部でしかないユーザ入力でターゲット領域を識別する方法を学習することができる。さらに、ユーザは、マスクが高精度であり、機械学習モデルを訓練するためのグラウンドトゥルースとして使用できるまで、セグメント化マスクを修正するために反復的に既存の入力を修正し、あるいは新たな入力を追加することができる。
【0073】
バイナリ組織ひだマスクを、対応する組織マスクと組み合わせることにより、3クラスの組織ひだマスクを生成することができる。図8が、いくつかの実施形態による例示的な3クラスの組織ひだマスク800の組を含んでいる。第1の3クラス組織ひだマスク804は、第1のスライド画像802に対応し、第2の3クラス組織ひだマスク808は、第2のスライド画像806に対応する。3クラス組織ひだマスク804および808の各々は、各々の画素について、非組織領域に関する第1の分類、非組織ひだ組織領域に関する第2の分類、および組織ひだ領域に関する第3の分類を含むことができる。
【0074】
F.様々なタイプのアーチファクトの分類ラベルへの統合
2つ以上のタイプのアーチファクトを検出するように機械学習モデルを訓練するために、訓練用画像において検出されたアーチファクト領域を、ぼけグラウンド訓練ラベルと組織ひだグラウンドラベルとの間で区別することができる。例えば、4つのタイプの分類を、セグメント化マスクに統合することができ、4つのタイプの分類は、以下を含むことができる。(1)非組織領域、(2)ぼけている非組織ひだ領域、(3)ぼけていない組織ひだ領域、および(4)分析可能な組織領域。
【0075】
しかしながら、4分類のラベル構成は、ぼけた組織領域と組織ひだ領域とが相互に排他的であると仮定しているが、必ずしもそうであるとは限らない。例えば、図6の画像602および606に示されるように、組織ひだ領域は、ぼけた領域を伴うことが多い。例えば、図9が、組織ひだ領域を含む例示的な画像900(例えば、FOV)を示しており、組織ひだ領域は、ぼけていない領域およびぼけた領域の両方を表示している。このように、図9において、組織ひだ領域のぼけた画素を「ぼけ」クラスまたは「組織ひだ」クラスのいずれかとして割り当てると、対応する機械学習モデルの訓練の際に混乱が生じる。
【0076】
別の例において、図10が、様々なアーチファクト領域を表示する例示的な画像の組1000を示している。例えば、FOV 1002は、組織ひだ領域と織り交ざったぼけた領域を表示している。組織ひだバイナリマスク1004は、組織ひだを非組織ひだ領域から区別することができる。組織ひだバイナリマスク1004とは対照的に、画像を4つの分類にセグメント化するぼけグラウンドトゥルースマスク1006は、分類された領域の紛らわしいパターンを表示する。例えば、織り交ざったぼけた領域の存在は、組織ひだ領域を複数の小さな組織ひだ部分領域に分割する可能性があり、これは、意味が不明確になる可能性があり、機械学習モデルが組織ひだクラスに関して意味のある特徴を学習する困難性を著しく増加させる。
【0077】
組織ひだ領域の不正確な分類に対処するために、2つのタイプの分類戦略を実施することができる。第1の戦略は、組織ひだ領域およびぼけた組織領域を単一のクラス(例えば、非分析領域クラス)に組み合わせることを含むことができる。ぼけた組織領域および組織ひだ領域が、「非分析組織」クラスとして分類される。実際には、各々の画素を以下の3つのクラス、すなわち非組織、分析可能組織、および非分析組織のうちの1つに分類する3クラスのセグメント化を出力することができる。例えば、図11が、いくつかの実施形態による複合アーチファクト分類技術を使用して生成された例示的なアーチファクトマスク1100を示している。図12が、いくつかの実施形態による複合アーチファクト分類技術を使用するさらなるアーチファクトマスク1200を示している。図12において、3クラスのグラウンドトゥルースマスク1204および1208が、TAMRA-ER 1202およびQM-Dabsyl-ER/TAMRA-PR 1206で染色されたFOV(生のRGB)に示された生物学的試料の領域をセグメント化している。FOV 1202の場合、非分析領域はほとんどぼけていなかった。FOV 1206の場合、非分析領域は、ぼけていない組織ひだ領域およびぼけた領域を含む。したがって、図11および図12は、画像領域を以下の3つのクラスのうちの1つに分類する。(i)非組織、(ii)分析可能な組織、および(iii)非分析組織。
【0078】
第2の分類戦略は、画素を2つ以上の分類ラベルと関連付けることを含むことができる。マルチラベルセグメント化は、以下の4つのクラス、すなわち非組織、分析可能な組織、非分析組織、および組織ひだのうちの1つ以上として各画素を分類することを容易にすることができる。複数の分類を生成するために、各々の画素位置において各々の分類にバイナリ値(その分類に関して陽性または陰性のいずれであるか)を割り当てることができる。例えば、図13が、いくつかの実施形態による画素に2つ以上の分類ラベルが関連付けられたスライド画像1300を示している。図13において、スライド画像1300は、単一のラベルに関連付けられた画素1302および1306を示している。さらに、スライド画像1300は、2つのラベル(例えば、ぼけた組織ラベル、組織ひだラベル)に関連付けられた画素1304を示している。図13に示されるように、スライド画像1300に示されている生物学的試料の領域を、複数の異なるラベルに関連付けることができる。したがって、図13に示される4×1の配列は、各画素のラベルを識別し、0は、対応する領域について陰性の存在(例えば、この画素はこのクラスに属さない)を示し、1は、対応する領域について陽性の存在(例えば、この画素はこのクラスに属する)を示す。
【0079】
図14が、いくつかの実施形態によるぼけた領域および組織ひだ領域の両方に関連付けられた画素の分類ラベルを特定するためのプロセス1400を示している。ステップ1402において、複数の分類(例えば、非分析および組織ひだ)に関連付けられた画素を識別することができる。ステップ1404において、画素を、分類の組の各分類に関するバイナリ値と関連付けることができる。分類の組は、以下を含むことができる。(a)非組織、(b)分析可能な組織、(c)ぼけた組織、および(d)組織ひだ。バイナリ値は、対応する分類(例えば、組織ひだ)に関連付けられたオブジェクトの存在を示すことができる。例えば、画素1304は、ぼけた組織および組織ひだの両方に関して「1」のバイナリ値を含み、非組織および分析可能な組織に関して「0」のバイナリ値を含む。「1」のバイナリ値は、画素1304がぼけた組織および組織ひだの両方を表示していることを示すことができる。いくつかの場合、「ぼけた組織」クラスを、非分析クラス(ぼけまたは組織のひだのいずれか)に置き換えることができる。いくつかの場合、複数の分類のうちの1つが画素を表すために選択される。任意のステップ1406において、分類の組を、画素位置におけるそれぞれの予測確率値に基づいてランク付けすることができる。特には、画素が分類の組の各分類に属する可能性がどの程度高いかの確率を(例えば、機械学習モデルを使用して)生成することができる。例えば、3クラスセグメント化モデルは、各画素について、[0.1,0.2,0.7]など、この画素が各クラスに属する確率である3つの数を生成する。この例では、分類の組を確率に従ってランク付けすることができ、クラス3が最も高い値でランク付けされると考えられる。実際には、最も高い確率は、画素が属する可能性が最も高いクラスに対応する。任意のステップ1408において、最も高い確率値を有する分類を、画素の最終的な予測ラベルとして選択することができる。
【0080】
機械学習モデルを訓練するためのラベリングされた画像を生成するために、グラウンドトゥルースマスクのための追加の処理を実施する必要はない。むしろ、3分類のぼけマスク(例えば、非組織、分析可能な組織、ぼけた組織)に対応する第1の組と、組織領域内の組織ひだ領域に対応する第2の組(例えば、バイナリ組織ひだマスク)とを含む2組のグラウンドトゥルースマスクを使用することができる。いくつかの場合、各画素のラベリングを、モデル訓練の際に4×1の配列を使用して実施することができる。
【0081】
上述の機械学習技術は、スライド画像内の領域の正確な分類を容易にすることができる。例えば、図15が、いくつかの実施形態によるグラウンドトゥルースマスクで予測された分類の間の比較1500を示している。例えば、画像の第1の組1502は、エストロゲン受容体(ER)を含む単一IHCを使用して染色された画像について、予測されたマスクと対応するグラウンドトゥルースマスクとの間の比較を示している。画像の第2の組1504は、サイトケラチン7(CK7)を含む単一IHCを使用して染色された画像について、予測されたマスクと対応するグラウンドトゥルースマスクとの間の比較を示している。画像の第3の組1506は、エストロゲン受容体およびプロゲステロン受容体(ER/PR)を含む二重IHCを使用して染色された画像について、予測されたマスクと対応するグラウンドトゥルースマスクとの間の比較を示している。比較に基づき、予測されたセグメント化されたマスクは、対応するグラウンドトゥルースマスクに定性的に類似していることが分かる。
【0082】
さらに、図16が、いくつかの実施形態による異なるタイプのIHCアッセイによるスライド画像1600における予測領域を示している。例えば、第1の画像1602は、LIV/HER2を含む二重IHCアッセイを使用して染色された画像タイルおよび3つの分類(例えば、ぼけていない組織、ぼけた組織、非組織)を含む対応する予測されたセグメント化マスクを示している。第2の画像1604は、ER/Ki67/PRを含む三重IHCアッセイを使用した第2の画像タイルおよび3つの分類を含む対応する予測されたセグメント化マスクを示している。第3の画像1606は、CD8/BCL2/CD3を含む三重IHCアッセイを使用した第3の画像タイルおよび3つの分類を含む対応する予測されたセグメント化マスクを示している。予測されたセグメント化マスクの定性的評価は、ぼけていない組織、ぼけた組織、および非組織の正確な分類を示している。
【0083】
III.アーチファクト画素を正確に検出するための機械学習モデルの訓練
上述したように、画像は様々なタイプのIHCアッセイを使用して染色され得るがゆえ、アーチファクト画素を正確に検出するように機械学習モデルを訓練することは、複雑になり得る。例えば、蛍光に基づくIHCアッセイが、マルチスペクトル撮像を使用して、いくつかの異なる蛍光スペクトルを分離することができ、これにより、同じ組織切片上の複数の抗原の正確な同定が可能になることがある。しかしながら、これらの多重IHCアッセイにおいては、単一のIHCアッセイ(例えば、単一のタイプの抗原を標的とするIHCアッセイ)と比べて、より複雑な染色パターンが生じ得る。
【0084】
図17が、各画像が特定のタイプのIHCアッセイに対応する染色プロトコルを使用して染色されている例示的な画像の組1700を示している。画像1702が、ヘマトキシリンのみで染色された生物学的試料を示している。画像1704が、単一IHCアッセイを使用して染色された生物学的試料を示している。特には、画像1704は、Dabsylが色原体として使用され、黄色の染色を生じたDabsyl染色エストロゲン受容体を有する生物学的試料の核染色パターンを示している。画像1702および1704内のアーチファクト(例えば、アーチファクト画素)の識別は、比較的簡単であり得る。
【0085】
アーチファクト検出プロセスは、多重IHCアッセイに対応する染色プロトコルを使用して染色された画像において、かなり困難になる。例えば、画像1706が、二重IHCアッセイを使用して染色された生物学的試料を示している。特には、画像1706は、エストロゲン受容体(すなわち、ER)を識別するためのTamraおよびプロゲステロン受容体(すなわち、PR)を識別するためのDabsylで染色された生物学的試料の核染色パターンを示している。画像1706において、Tamraは紫色の染色を表すことができ、Dabsylは黄色の染色を表すことができる。しかしながら、画像1706は、染色プロトコル、色原体の干渉、およびバイオマーカーの相対的発現レベルを含む様々な要因によって生じる可能性がある様々な色調を示す両方の染色のブレンドをさらに示している。別の例において、画像1708が、別のタイプの二重IHCアッセイを使用して染色された生物学的試料を示している。特には、画像1708は、Tamra-PDL1(プログラム死リガンド1)およびDaybsyl-CK7(サイトケラチン7)を使用して染色された生物学的試料を示し、PDL1で染色された組織領域は、主に膜の染色を示し、CK7で染色された組織領域は、主に細胞質の染色を示す。しかしながら、画像1708は、両方の染色が重複する組織領域も示す。したがって、これらのタイプの画像からアーチファクトを検出することは、困難であり得る。
【0086】
したがって、機械学習モデルを、様々な染色パターンを有する画像内のアーチファクト画素を検出するように訓練することができる。本技術は、生物学的試料の少なくとも一部分を表示する訓練用画像にアクセスすることを含むことができる。訓練用画像は、複数のラベリングされた画素を含むことができ、各々の画素にラベルが関連付けられている。ラベルは、画素がアーチファクト画素であるかを予測する。訓練用画像を、機械学習モデルを訓練するために使用することができる。機械学習モデルは、畳み込み層の組を含むことができ、第1の畳み込み層について計算された第1の損失および第2の畳み込み層について計算された第2の損失を、目標画像解像度でアーチファクト画素を検出するように機械学習モデルを訓練するために使用することができる。
【0087】
A.アーチファクト画素の検出のために機械学習モデルを訓練するためのアーキテクチャ
様々な画像解像度にわたってアーチファクト画素を効果的に検出する機械学習モデルの能力を高めるために、画像解像度の組の各々において訓練される機械学習モデルの訓練段階において教師を加えることができる。図18が、いくつかの実施形態による画像内のアーチファクトを検出するために機械学習モデルを訓練するために使用される例示的なアーキテクチャ1800を説明する概略図を示している。図18に、画像セグメント化のためのエンコーダ-デコーダモデルアーキテクチャが示されており、デコーダパス内の複数の画像解像度の各々からの特徴を、画素ごとの分類に利用することができる。
【0088】
いくつかの場合、場合によっては、エンコーダ-デコーダモデルアーキテクチャはU-Netを含む。機械学習モデルは、画像内のアーチファクト画素を検出するように訓練されたU-Net機械学習モデルを含む。U-Net機械学習モデルは、縮小パスおよび拡張パスを含むことができる。縮小パスは、処理ブロックの第1の組を含むことができ、各々の処理ブロックは、対応する画像解像度における訓練用画像の処理に対応する。例えば、処理ブロックは、2つの3×3畳み込み(パディングなしの畳み込み)を入力(例えば、訓練用画像)に適用することを含むことができ、各々の畳み込みの後に正規化線形ユニット(ReLU)が続く。したがって、処理ブロックの出力は、対応する画像解像度の訓練用画像の特徴マップを含むことができる。さらに、処理ブロックは、処理ブロックの特徴マップをより低い画像解像度で上記のステップを繰り返すことができる後続の処理ブロックにダウンサンプリングするためのストライド2を有する2×2の最大値プーリング演算を含む。各々のダウンサンプリングステップにおいて、特徴チャネルの数を2倍にすることができる。
【0089】
縮小パスに続いて、拡張パスは、処理ブロックの第2の組を含み、各々の処理ブロックは、対応する画像解像度での縮小経路から出力された特徴マップの処理に対応する。例えば、処理ブロックの第2の組の処理ブロックは、先行の処理ブロックから特徴マップを受信し、特徴チャネルの数を半分にする2×2の畳み込み(「逆畳み込み」)を適用し、特徴マップを縮小パスの対応する処理ブロックからの切り取られた特徴マップと連結する。次いで、処理ブロックは、連結された特徴マップに2つの3×3の畳み込みを適用することができ、各々の畳み込みには(任意の)バッチ正規化層およびReLUが続く。処理ブロックの出力は、対応する画像解像度の特徴マップを含み、これを、より高い画像解像度の後続の処理ブロックの入力として使用することができる。処理ブロックを、最終出力が生成されるまで適用することができる。最終出力は、画像マスクを含むことができる。画像マスクは、アーチファクト画素の組を識別することができ、各々のアーチファクト画素は、生物学的試料の少なくとも一部分の点または領域を正確には表示していないと予測される。
【0090】
いくつかの場合、処理ブロックの第2の組の各々の処理ブロックまたはいくつかの処理ブロックにおける損失が計算され、これを使用して、U-Net機械学習モデルの総損失を決定することができる。総損失は、選択された処理ブロックから計算された損失に基づく計算であってよい。例えば、総損失を、処理ブロックの第2の組の各々から生成された損失の合計または加重和に基づいて決定することができる。第2の例においては、総損失を、各々の処理ブロックについて計算された損失間の平均または加重平均に基づいて決定することができる。次いで、U-Net機械学習モデルの総損失を使用して、U-Net機械学習モデルのパラメータ(例えば、畳み込み層の1つ以上のフィルタのパラメータ)を学習することができる。U-Net機械学習モデルの総損失を使用することにより、様々な画像解像度にわたるアーチファクト画素の検出が可能になる。
【0091】
いくつかの場合、処理ブロックの第2の組の各々の処理ブロックの損失を、処理ブロックによって出力された特徴マップに1x1の畳み込み層を適用して、1つ以上の修正された特徴マップを生成し、1つ以上の修正された特徴マップから損失を決定することによって、決定することができる。特に、修正された特徴マップの数がクラスラベルの数に対応する(例えば、3つのラベルタイプのための3つの修正された特徴マップ)ように、1×1の畳み込みを適用することができる。いくつかの場合、修正された特徴マップは、機械学習モデルの出力(例えば、画像マスク)と同じ解像度にアップサンプリングされる。これに加え、あるいは代えて、画像マスク(訓練用画像と同じサイズを有する)を、修正された特徴マップと同じ解像度にダウンサンプリングすることができる。
【0092】
B.画像内の大規模なアーチファクトを検出するためのグローバル情報の統合
いくつかの場合、第2の機械学習モデルは、画像内のより大きなアーチファクトに対応すると予測される画像内のアーチファクト画素を検出するように訓練される。追加の機械学習モデルの使用は、コンピューティングリソース(例えば、ハードウェアメモリ)の限界による入力タイルサイズの制限を回避することができる。この目的のために、各々の画像タイルの隣接する画像領域からの情報を組み込むために、追加の機械学習モデルのパラメータを、画像の特定の画像タイルの特徴だけでなく、同じ画像の隣接するタイルの特徴にも基づいて学習することができる。したがって、追加の機械学習モデルを、目標の画像タイルとその隣接の画像タイルとの間の依存関係に対応する情報を使用して訓練することができる。いくつかの場合、追加の機械学習モデルは、回帰型ニューラルネットワーク(例えば、ゲート付き回帰型ニューラルネットワーク)および長・短期記憶を含む。
【0093】
第2の機械学習モデルを、以下のように訓練することができる。(i)畳み込み層の組を有する機械学習モデル(例えば、畳み込みニューラルネットワーク)を置き換え、(ii)機械学習モデルの実行の前または後に使用され、かつ/または(iii)機械学習モデルに統合される。
【0094】
回帰型ニューラルネットワークは、ニューラルネットワークの反復モジュール(「セル」)のチェーンを含む。具体的には、回帰型ニューラルネットワークの動作は、対象の画像タイル(t)の位置によってインデックス付けされた単一のセルを繰り返すことを含む。その回帰挙動を提供するために、回帰型ニューラルネットワークは、ネットワークの次の反復への入力として提供される隠れ状態sを維持する。隠れ状態は、隣接する画像タイルからの情報を表すベクトルまたは行列であってよい。本明細書で言及されるように、変数sおよびhが、回帰型ニューラルネットワークの隠れ状態を表すために入れ替え可能に使用される。回帰型ニューラルネットワークは、対象の画像タイルの特徴表現xと、隣接する画像タイルの入力特徴の組を使用して決定された隠れ状態値st-1とを受け取る。いくつかの場合、対象の画像タイルの特徴表現xは、畳み込み層の組を有する機械学習モデルを使用して生成される。以下の式は、隠れ状態sがどのように決定されるかを提供する。
=φ(Ux+Wst-1
ここで、UおよびWは、それぞれxおよびst-1に適用される重み値であり、φは、tanhまたはReLUなどの非線形関数である。
【0095】
示されるように、UxおよびWst-1の適用に基づいて生成されたs値を、後続の画像タイルに対応する特徴を処理する回帰型ニューラルネットワークの次の反復のための隠れ状態値として使用することができる。
【0096】
回帰型ニューラルネットワークの出力は、以下のように表される。
=softmax(Vs
ここで、Vは、隠れ状態値sに適用される重み値である。
【0097】
したがって、隠れ状態sを、ネットワークのメモリと呼ぶことができる。換言すると、隠れ状態sは、1つ以上の以前の画像タイルから使用または他の形で導出される入力および/または出力に関連する情報に依存する。ステップoにおける出力は、対象の画像タイル位置tにおけるメモリに少なくとも部分的に基づいて計算されるアーチファクト画素を識別するために使用される値の組である。
【0098】
C.アーチファクト画素を正確に検出するように機械学習モデルを訓練するためのプロセス
図19が、いくつかの実施形態によるアーチファクト画素を正確に検出するように機械学習モデルを訓練するための例示的なプロセス1900を説明するフローチャートを示している。ステップ1902において、生物学的試料の少なくとも一部分を表示する訓練用画像にアクセスすることができる。訓練用画像は、複数のラベリングされた画素を含み、複数のラベリングされた画素の各々のラベリングされた画素にはラベルが関連付けられている。ラベルは、対応する画素が生物学的試料の少なくとも一部分の対応する点または領域を正確に表示しているかを予測する。例えば、生物学的試料の焦点が合っていない領域を表示する画素を、対応する領域(例えば、組織切片の一部分)を正確に表示していないとラベリングすることができる。
【0099】
いくつかの場合、訓練用画像は、グレースケール画像に変換される。グレースケール画像は、アーチファクト画素を検出するように機械学習を訓練するために使用される。これに加え、あるいは代えて、訓練用画像は、その画素を第1の色空間(例えば、RGB)から第2の色空間(例えば、L*a*b)へと変換することによって前処理後画像に変換される。第2の色空間の第1の色チャネル(例えば、Lチャネル)を抽出し、アーチファクト画素を検出するように機械学習モデルを訓練するために用いることができる。異なる色空間に変換することにより、アーチファクト検出モデリングから情報価値のない色情報を排除することができ、アーチファクトにほとんど関係がない複雑な色の変化および不均一な染色パターンとは無関係の識別的な画像特徴を学習するように機械学習モデルが実行される。
【0100】
ステップ1904において、畳み込み層の組を含む機械学習モデルにアクセスすることができる。例えば、機械学習モデルは、U-Netアーキテクチャである。いくつかの場合、機械学習モデルは、畳み込み層の組のうちの各々の畳み込み層を入力画像を表す特徴マップに適用するように構成される。
【0101】
ステップ1906において、機械学習モデルは、目標画像解像度の画像内の1つ以上のアーチファクト画素を検出するように訓練される。1つ以上のアーチファクト画素のうちのアーチファクト画素は、生物学的試料の少なくとも一部分の点または領域を正確には表示していないと予測される。例えば、アーチファクトラベルは、生物学的試料の対応する領域を正確に表示していない画素をもたらし得るアーチファクト(例えば、ぼけ、組織ひだ、異物)の存在を予測することができる。
【0102】
いくつかの場合、機械学習モデルを訓練するために、画像特徴の組が訓練用画像と共に使用される。例えば、画像特徴の組は、画像勾配値の行列を含むことができる。画像勾配値の行列は、訓練用画像の各画素について、画素の画像勾配値を識別することができる。画像勾配値は、対応する画素が画像オブジェクトのエッジに対応するかを示す。いくつかの場合、画像勾配値の行列は、ラプラシアン・オブ・ガウシアン(LoG)フィルタを訓練用画像に適用することによって決定される。
【0103】
機械学習モデルの訓練は、各画素について計算された損失値に基づいて機械学習モデルのパラメータを学習することを含むことができる。訓練用画像の複数のラベリングされた画素のうちの各々のラベリングされた画素について、訓練は、畳み込み層の組のうちの第1の畳み込み層を、第1の画像解像度の訓練用画像を表す第1の特徴マップに適用することによって、第1の画像解像度のラベリングされた画素の第1の損失を決定することを含むことができる。次いで、第2の画像解像度のラベリングされた画素の第2の損失を、畳み込み層の組のうちの第2の畳み込み層を、第2の画像解像度の訓練用画像を表す第2の特徴マップに適用することによって、決定することができる。いくつかの場合、第2の画像解像度は、第1の画像解像度に対してより高い画像解像度を有する。
【0104】
訓練は、第1の損失および第2の損失に基づいてラベリングされた画素についての総損失を決定することをさらに含むことができる。総損失を、機械学習モデルが目標画像解像度において1つ以上のアーチファクト画素を検出するように訓練されたと決定するために使用することができる。
【0105】
ステップ1908において、訓練された機械学習モデルが出力される。訓練された機械学習モデルを、異なる染色パターンを有する他の画像のアーチファクトを検出するために、別のシステムによって使用することができる。その後に、プロセス1900は終了する。
【0106】
D.2つ以上のタイプのアーチファクトを予測するための機械学習モデルの訓練
いくつかの場合、機械学習モデルは、3クラスの組織ひだマスク(例えば、図8の3クラス組織ひだマスク804)を使用して訓練され、所与のスライド画像(例えば、FOV)の少なくとも一部分について2つ以上のタイプのアーチファクトを識別する。例えば、機械学習モデルを、ぼけた領域に対応する画素の第1の組と、組織ひだに対応する画素の第2の組とを検出するように訓練することができる。多分類モデルを訓練するために、各々の訓練用画像の画素を、「組織領域」、ぼけた領域に対応する「非分析領域」、および組織領域内の組織ひだ領域に対応する「非分析組織」のうちの1つ以上としてラベリングすることができる。
【0107】
多分類モデルを、最初に、アーチファクト領域を検出およびセグメント化するように最初に訓練することができる。図20が、いくつかの実施形態によるスライド画像内のアーチファクト領域を検出するための機械学習モデルを訓練するためのプロセス2000を示すフローチャートを示している。図20において、第1の訓練段階を、スライド画像に表示されたアーチファクト領域を検出すべく機械学習モデルを訓練するために実施することができ、第2の訓練段階を、機械学習モデルの性能の評価を実行するために実施することができる。第1の訓練段階に関して、グラウンドトゥルースマスクを生成するためにスライドの組を選択することができる(ステップ2002)。ステップ2004において、訓練用画像の第1の組を生成することができる。訓練用画像の第1の組は、2つ以上のタイプのアーチファクトを識別するセグメント化マスクを含むことができる。訓練用画像の第1の組を生成するためのプロセスは、図700のプロセス700を含むことができる。ステップ2006において、訓練用画像の第1の組を、モデル訓練データセット、検証データセット、および試験データセットに分割することができる。ステップ2008において、機械学習モデルを、訓練用画像の第1の組を使用して訓練することができる。訓練用画像の第1の組を使用して機械学習モデルを訓練するステップは、図19のプロセス1900でさらに説明されている。ステップ2010において、機械学習モデルのセグメント化性能を、精度および再現率などの性能スコアに基づいて試験することができる。
【0108】
第2の訓練段階に関して、スライドの追加の組を選択することができる(ステップ2012)。いくつかの場合、スライドの追加の組は、見えない組織タイプ、バイオマーカー、および色原体からのスライドを含む。目的は、見えない画像、色原体(組み合わせ)、バイオマーカー、および組織タイプに対する一般化可能性を評価するためにモデル性能を圧力試験するための別個のスライドの組を有することであるため、スライドの追加の組は、第1の訓練段階で使用されたものとは異なり得る。いくつかの場合、FOVがスライドの追加の組から選択される。次いで、訓練用画像の第2の組を、スライドの追加の組に基づいて生成することができる。ステップ2014において、訓練用画像の第2の組の各々の訓練用画像の画素に、ラベルを割り当てることができる。ラベルを、注釈者からの2つのタイプの読み出しを受け取ることによって割り当てることができる。第1のタイプの読み出しは、FOV内に組織ひだが存在するか否かを含むことができ、第2のタイプの読み出しは、選択された各FOV内の組織領域内の非分析組織の割合を含むことができる。ステップ2016において、機械学習モデルを、モデル一般化可能性の独立したテストのために、訓練用画像の第2の組を使用して訓練および試験することができる。いくつかの場合、注釈による割合は、モデル一般化可能性の代用としてモデル予測と比較される。結果として、機械学習モデルを、他のスライド画像内のアーチファクト領域を検出するように訓練および試験することができる。
【0109】
IV.画像内のアーチファクト画素を検出するための機械学習モデルの実装
全体スライド画像のサイズが大きいため、自動化されたデジタル病理分析を、精度を犠牲にすることなく、可能な限り効率的に実行する必要がある。典型的には、デジタル病理分析(例えば、細胞分類モデル)は、全体スライド画像から画像タイルの組を生成することを含むことができ、画像タイルは、特定のサイズおよび寸法(例えば、20×20の画素)を有する画像の一部分を表すことができる。次いで、(例えば)細胞分類を各々の画像タイルについて実行して、対応する予測結果を生成することができ、その後に、予測結果を全体スライド画像解像度へと再び組み立てることができる。
【0110】
したがって、デジタル病理分析に品質管理を適用すると、処理時間が2倍になる可能性がある。しかしながら、通常は20倍または40倍の解像度である主たるデジタル病理分析と同じ解像度でスライド品質管理を行う必要はない。これは、多くのタイプのアーチファクトは、より低い画像解像度でも識別できるからである。さらに、大きな組織ひだなどの大きなアーチファクトは、高解像度では画像タイルに収まることができない。したがって、いくつかの場合、高い画像解像度で品質管理を実行すると、一貫性のない結果が生じる。
【0111】
アーチファクト検出をデジタル病理分析に実装する際の効率を高めるために、いくつかの実施形態は、画像内のアーチファクト画素を検出するために異なる画像解像度を使用することを含む。訓練用画像の組を取得することができる。各々の訓練用画像について、それぞれの画素に対応するラベルを、高い画像解像度(例えば、40倍、20倍、10倍)で収集することができる。アーチファクト検出機械学習モデル(例えば、図18のU-Net機械学習モデル)が、訓練用画像の組を使用して訓練される。機械学習モデルは、より低い画像解像度の画像を使用してさらに訓練および試験されて、目標画像解像度を決定する。目標画像解像度において、機械学習モデルは、効率を高めながらアーチファクト画素の検出精度を維持することができる。例えば、機械学習モデルを、5倍で精度の許容レベル内でアーチファクト画素を検出するように訓練することができる場合、目標解像度を5倍と決定することができ、より高い画像解像度(例えば、10倍、20倍)でアーチファクト画素を検出するために機械学習モデルを適用する必要はない。このようにして、(例えば)20倍の画像解像度でアーチファクト画素を検出する別の機械学習モデルと比較して、推論時間を16分の1に短縮することができる。
【0112】
A.アーチファクト検出をデジタル病理分析に統合するためのプロセス
図21が、いくつかの実施形態によるアーチファクト画素を正確に検出するために訓練された機械学習モデルを使用するための例示的なプロセス2100を説明するフローチャートを示している。ステップ2102において、生物学的試料の少なくとも一部分を表示する画像にアクセスする。例えば、画像は、特定の器官の組織切片を表示するスライド画像であり得る。生物学的試料は、特定のタイプのIHCアッセイの染色プロトコルを使用して染色された組織切片を含み得る。いくつかの場合、画像は第1の画像解像度(例えば、40倍)である。
【0113】
ステップ2104において、第2の画像解像度の画像内のアーチファクト画素を検出するように訓練された機械学習モデルがアクセスされる。機械学習モデルは、畳み込み層の組を有する機械学習モデルであり得る(例えば、U-Net)。いくつかの場合、画像の第1の画像解像度(例えば、40倍)は、第2の画像解像度(例えば、5倍)に対してより高い画像解像度を有する。
【0114】
ステップ2106において、画像を変換して、第2の画像解像度で生物学的試料の少なくとも一部分を表示する変換後画像を生成する。例えば、ミップマッピング、最近傍補間、およびフーリエ変換を含む1つ以上の画像解像度変更アルゴリズムを使用して、画像解像度を変更し、変換後画像を生成することができる。
【0115】
ステップ2106において、機械学習モデルは、変換後画像に適用されて、変換後画像から1つ以上のアーチファクト画素を識別する。1つ以上のアーチファクト画素のうちのアーチファクト画素は、生物学的試料の少なくとも一部分の点または領域を正確には表示していないと予測される。例えば、アーチファクト画素を、所与の画像のぼけた部分の一部分を表示し、あるいは画像に示される異物の一部分を表示すると予測することができる。
【0116】
ステップ2108において、1つ以上のアーチファクト画素を含む出力が生成される。いくつかの場合、出力は、画素レベルの精度でアーチファクト画素を識別するアーチファクトマスクを含む。アーチファクトマスクを使用して、様々なクラス(例えば、ぼけていない組織、ぼけた組織、非組織)に対応する画像の部分を識別することができる。これに加え、あるいは代えて、出力は、アーチファクト画素の量(例えば、画像内の画素の総数に対するアーチファクト画素の割合)を示すことができる。例えば、推定される量は、予測されたアーチファクト画素のカウント、複数または全てのアーチファクト画素に対応する累積面積、予測されたアーチファクト画素に対応するスライド面積または組織面積の割合、などを含んでよい。その後にプロセス2100は終了する。
【0117】
いくつかの場合、画像内の予測されたアーチファクト(例えば、1つ以上のアーチファクト画素によって表示されるアーチファクト)は、以下の分類のうちの1つに分類される。(a)アーチファクトがスライドのスキャンの際にのみ生じる第1のアーチファクト分類、および(b)アーチファクトがあらゆる時点(例えば、実験、染色)において生じる第2のアーチファクト分類。予測されたアーチファクトが第1のアーチファクト分類に対応する場合、デジタル病理分析を、さらなる品質管理操作を伴わずに進めることができる。予測されたアーチファクトが第2のアーチファクト分類に対応する場合、画像を拒否すべきか、および/または生物学的試料を再スキャンして、生物学的試料を表示する別の画像を生成すべきかを促す警告が、ユーザへと生成される。いくつかの場合、グラフィカルユーザインターフェースが、ユーザによる画像の拒否を可能にするように構成される。これに加え、あるいは代えて、予測されたアーチファクトのタイプごとに品質管理アルゴリズムを設計することができる。予測されたタイプのアーチファクトのための品質管理アルゴリズムは、画像の拒絶および/または生物学的試料の再スキャンをトリガする結果を出力することができる。
【0118】
B.品質管理を行うための構成
いくつかのアーチファクト(例えば、ぼけた画像部分)がスライド画像に存在する可能性は、珍しくない。ユーザ体験の観点から、スキャン中に生じた大量のアーチファクトを有するスキャンされたスライドは望ましくない。さらに、組織学用スライドのサイズが大きいことを考慮すると、明らかな品質の問題があるスライドを全てデジタル化すると、ストレージ空間が増え、スキャン時間が増加する可能性がある。この問題は、大規模なプロジェクトにおいて、スキャン速度が最適でない場合に、より顕著になる可能性がある。したがって、スキャン段階でのアーチファクト検出を、スライドのデジタル化後のアーチファクト検出の実行に対する代案として検討することができる。
【0119】
1.スライド画像の前処理
いくつかの場合、機械学習モデルがアーチファクト画素を検出するために画像に適用される前に、画像前処理が画像に適用される。例えば、プレビュー画像(例えば、サムネイル画像)を、スキャン装置によって生物学的試料を表示するスライドをスキャンすることによって最初に取り込むことができる。プレビュー画像に、ぼけ検出アルゴリズムなどの画像前処理アルゴリズムを適用することができる。組織領域がプレビュー画像内で検出された場合、生物学的試料を表示する初期画像をスキャンすることができる。初期画像は、目標画像解像度で生物学的試料を表示することができる。
【0120】
例示的な例として、生物学的試料のスライドをサムネイル解像度(例えば、1.25倍)または別の低い解像度でスキャンして、プレビュー画像を生成することができる。プレビュー画像の低い解像度は、スキャン時間を所定の時間しきい値内にすることを可能にする。所定の時間しきい値を、10秒、15秒、20秒、または任意のより大きい値などの様々な時間値から選択することができる。画像前処理をプレビュー画像に適用して、生物学的試料の1つ以上の組織領域を表示すると予測される画像部分を識別することができる。組織領域が識別されない場合、品質管理プロセスは終了する。1つ以上の組織領域が識別された場合、機械学習モデルを、比較的高い解像度(例えば、4倍)で取り込まれた画像に適用することができる。
【0121】
2.画像スキャン中のアーチファクト検出
デジタル病理学のためのスキャンシステムは、典型的には、ラインスキャナおよびタイルベースのエリアスキャナを含む。ラインスキャナシステムにおいては、ラインセンサが一度に1つのライン/ストライプの画像取得を実行することができ、ラインは、1ピクセルの幅であってよく、システム内のセンサの設計によって指定される長さを有する。スライド全体についてスキャンが完了した後に、ラインスキャンから取得された画像データを、スライドの画像タイルに対応する画素の位置に従って、画像タイルに再編成することができる。次いで、これらの画像タイルを、スライド全体の画像へと縫い合わせることができる。タイルベースのスキャナシステムにおいては、エリアセンサが、一度に1つのタイルの画像取得を実行し、タイルは長方形の視野に対応する。
【0122】
両方のタイプのスキャナシステムにおいて、スキャン中に画像タイルを生成することができ、そのときに、機械学習モデルを適用してアーチファクト画素を検出することができる。ラインスキャナに関して、ラインセンサから取得される画像データは、画像タイルではない。したがって、スキャンデータを、数回のラインスイープごとに生成することができる。次いで、スキャンデータを画像タイルに再編成することができ、そのときに、機械学習モデルを画像タイルに適用して、アーチファクト画素を検出する。いくつかの場合、処理をハードウェア構成要素(例えば、FPGA)および/またはソフトウェア構成要素を使用して実行することができる。
【0123】
スキャン中のアーチファクト検出により、スキャナまたはスキャナ関連ソフトウェアが、ユーザが特定のスキャンの保存または削除の決定を行うことができるように、スキャン中にスライド品質の問題(例えば、アーチファクトのタイプ、アーチファクトの位置、アーチファクトのサイズ)をユーザに警告することが可能になる。これに加え、あるいは代えて、スキャン中のアーチファクト検出を、スキャナによって、予測されたアーチファクトの検出に応答して設定をインテリジェントかつ自動的に調整するために使用することができる。例えば、オートフォーカスパラメータを、生物学的試料の組織領域を表示する画像の一部分にアーチファクト画素が存在するとの判定、またはアーチファクト画素の量がアーチファクト面積しきい値を超えるとの判定に応答して、スキャナによって調整することができる。
【0124】
(a)低い画像解像度での初期スキャンによるアーチファクト検出
検出可能な組織領域を有するスライドに関して、機械学習モデルを画像に適用して、アーチファクト画素を識別する画像マスクを生成し、画像内に存在するアーチファクト画素の量を識別することができる。いくつかの場合、アーチファクト検出を、低い画像解像度で実行することができる。低解像度アーチファクト検出を、大きな組織ひだ、組織ひだによって引き起こされる大きなぼけた領域、などを含む画像の大きな部分を占めるアーチファクトを表示すると予測されるアーチファクト画素を検出するために使用することができる。
【0125】
例えば、機械学習モデルを、目標画像解像度でアーチファクト画素を検出するように訓練することができる。スキャン中に、生物学的試料を表示するスライドの第1のスキャン画像を、目標画像解像度で実行することができる。機械学習モデルを第1のスキャン画像に適用して、1つ以上のアーチファクト画素を識別することができる。アーチファクト画素の量を決定することができる。アーチファクト画素の量を表す値を、アーチファクト領域しきい値と比較することができる。いくつかの例において、アーチファクト領域しきい値は、画像内の画像部分の相対サイズを表す値(例えば、40%、50%、60%、70%、80%、90%)に対応する。アーチファクト領域しきい値は、ユーザによって選択され得る。アーチファクト画素の量がアーチファクト領域しきい値を超える場合、1つ以上のアーチファクトが画像内の大きな部分を占め、したがって後続のデジタル病理分析(例えば、細胞分類)の性能低下を引き起こす可能性が高いと予測することができる。アーチファクト画素の量を表す値がアーチファクト領域しきい値を超えると判定された場合、品質管理の失敗の可能性があると判定することができる。いくつかの場合、品質管理失敗の判定に応答して警告が生成される。
【0126】
これに加え、あるいは代えて、1つ以上のアーチファクト画素を含む画像マスク(「アーチファクトマスク」と呼ばれることもある)も生成することができる。アーチファクトマスクを、画像に重ねられ、したがってアーチファクトを含むと予測される画像の部分を識別するように、グラフィカルユーザインターフェースによって使用することができる。これにより、ユーザは、スライドを再スキャンするか、あるいは画像を拒否するかを決定することができる(例えば、ユーザは、実験をやり直して、より良好な画像品質を有する別の画像を生成してよい)。
【0127】
アーチファクト画素の量を表す値がアーチファクト領域しきい値を下回ると判定された場合、デジタル病理分析のために生物学的試料をより高い画像解像度でスキャンすることができる。いくつかの場合、より高い画像解像度でのスキャンは、異なる対物レンズを使用すること、またはスキャナのチューブレンズを変更すること、などの倍率の切り替えを含む。両方の動作は、光学素子を移動させることを含んでよい。
【0128】
解像度の切り替えは、スライドを通る2つのパスをスキャンすることを含むことができ、これは、追加のスキャン時間を必要とする。最初に低解像度でスキャンを行うことにより、最初のスキャンの速度を目標画像解像度でスライドをスキャンするために必要な時間よりも速くすることができるため、追加のスキャン時間を最小限に抑えることができる。例えば、5倍の解像度でのスキャンは、20倍の解像度でのスキャンと比較して、生じる画素の数を1/16にすることができる。このような差は、時間のうちの5倍でのスキャンに必要な部分がわずかでしかないことを意味できる。別の例においては、ラインスキャナで、ストライプ/ラインの長さが低解像度において所与のスライドの幅(または、高さ)をカバーするのに充分な大きさである場合、スライドを通る単一の掃引でスキャンを完了させることができ、したがって総スキャン時間の増加を最小限に抑えることができる。
【0129】
(b)スキャン画像をより低い画像解像度に変換することによるアーチファクト検出
いくつかの場合において、機械学習モデルは、生物学的試料を高い画像解像度でスキャンし、次いでスライド画像をより低い画像解像度に変換した後に、スライド画像に適用される。アーチファクト検出を、スライド画像について、スライド画像がさらに処理される(例えば、さらなるデジタル病理分析のために別のデータベースに格納される)前に実行することができる。そのような設計は、他の時間のかかるプロセス(例えば、データ転送、長期データ記憶)が行われる前に低品質のスキャンの早期排除を容易にすることができる。計算ハードウェアおよびソフトウェアアルゴリズムの最近の進歩により、(例えば)20倍の解像度の全体スライド画像を処理するための時間が数十秒以内に完了し得るので、このような実装が実現可能である。
【0130】
例えば、生物学的試料を表示するスライドをより高い画像解像度でスキャンして、初期画像を生成することができる。アーチファクトを検出するための機械学習モデルを、変換後画像に適用して、1つ以上のアーチファクト画素を識別することができる。変換後画像を、初期画像をより低い画像解像度の画像に変換することによって生成することができる。アーチファクト画素の量を決定することができる。アーチファクト画素の量を表す値を、アーチファクト領域しきい値と比較することができる。値がアーチファクト領域しきい値を超えると判定された場合、品質管理の失敗の可能性があると判定することができる。いくつかの場合、品質管理失敗の判定に応答して警告が生成される。これに加え、あるいは代えて、1つ以上のアーチファクト画素を含むアーチファクトマスクを生成し、ユーザがスライドを再スキャンすること、または画像を拒絶すること(例えば、ユーザは、実験をやり直して、より良好な画像品質を有する別の画像を生成してよい)を可能にすることもできる。
【0131】
値がアーチファクト領域しきい値を下回ると判定された場合、高い画像解像度でスキャンされた初期画像を受け入れ、DICOMフォーマットおよび/または別のファイルフォーマットで直接保存することができる。いくつかの場合、アーチファクト画素に対応する情報(例えば、初期画像内のアーチファクト画素の位置、初期画像と同じ解像度またはより低い画像解像度のアーチファクトマスク、など)が、初期画像と共に、かつ/または初期画像とは別個の別のファイルフォーマットで保存される。さらに、後続のデジタル病理分析を、初期画像について実行することができる。
【0132】
(c)画像タイルごとのアーチファクト検出
いくつかの場合、機械学習モデルを、スライド画像に画像タイルごとに適用することができる。スライド画像を、画像タイルの組に分けることができる。機械学習モデルを、画像タイルの組の各々の画像タイルに適用して、画像マスクを生成することができる。画像マスクは、画像タイルのサブセットを識別し、画像タイルのサブセットの各々の画像タイルは、1つ以上のアーチファクト画素を表示することができる。次いで、画像マスクを画像に適用して、ユーザが画像タイルのサブセットのうちの1つ以上の画像タイルを非選択にすることを可能にすることができ、非選択の画像タイルは、さらなるデジタル病理分析から除外される。これに加え、あるいは代えて、画像マスクを画像に適用して、画像の画像タイルのサブセットをユーザ入力によらずに選択し、その後にさらなるデジタル病理分析から除外することができる。
【0133】
例示的な例として、生物学的試料のスライドの一部分をスキャンして、画像の対応する部分(例えば、画像タイル)を得ることができる。画像タイルを、目標画像解像度でスキャンすることができる。画像タイルが得られた後に、機械学習モデルを画像タイルに適用して、1つ以上のアーチファクト画素を識別する(例えば、バッチサイズ=1)。いくつかの場合には、機械学習モデルを複数の画像タイルに適用して、各々の画像タイルのアーチファクト画素を識別する(例えば、バッチサイズ≧1)複数の画像タイルの処理を、GPUまたはCPUによるマルチ処理に基づいて実行することができる。
【0134】
識別されたアーチファクト画素を有する各々の画像タイルについて、追加の処理を実行することができる。アーチファクト画素を有する画像タイルの追加の処理は、以下を含むことができる。(i)画像タイルにおいて識別されたアーチファクト画素の量(例えば、画素の総数に対するアーチファクト画素の割合)を決定すること、および(ii)組織領域を表示する画素の量(例えば、画素の総数に対する組織領域を表示する画素の割合)を決定すること。追加の処理を、画像の追加の画像タイルがスキャンおよび機械学習モデルによって処理されている間に、実行することができる。いくつかの場合、画像タイルは、より低い画像解像度で生物学的試料を表示するように最初にダウンサンプリングされ、機械学習モードを適用してアーチファクト画素を識別する。
【0135】
画像タイルから決定されたアーチファクト画素の量がアーチファクト領域しきい値を超える場合、画像タイルが生物学的試料の対応する点または領域を正確に表示しないと予測されることをユーザに警告するために、警告を生成することができる。いくつかの場合、上記の決定に応答してアーチファクトマスクが生成される。
【0136】
アーチファクト領域しきい値未満の組織領域を表示するアーチファクト画素の量の場合、スライド全体を、後のデジタル病理分析のために目標解像度でスキャンすることができる。これに加え、あるいは代えて、画像タイルの生成に用いられるスキャンシステム(例えば、タイルベースのスキャナ、ラインベースのスキャナ)を、アーチファクト画素の検出に基づいてその設定を修正するように構成することができる。いくつかの場合、設定の変更は、ぼけた画像部分に対応するアーチファクトに関して、以下を含む。(i)複数のz平面においてスキャンされた/組み立てられた画像タイルの焦点品質を比較し、(ii)アーチファクト画素が識別されたz平面における画像タイルを除外し、かつ/またはアーチファクトを低減するようにz平面を調整する。このような構成は、スキャナ内の既存のオートフォーカスシステムと統合可能、またはスキャナ内の既存のオートフォーカスシステムを置き換えることが可能である。
【0137】
3.追加のアーチファクト検出
いくつかの場合、スキャン中の画像のアーチファクト検出に加えて、スキャン後のアーチファクト検出を実行することができる。スキャン後アーチファクト検出は、画像内のアーチファクトの検出の精度をさらに向上させることができる。例えば、スキャン中のアーチファクト検出のためのアルゴリズムは、下流のデジタル病理分析に固有に設計されても、他の一般的なアルゴリズムに適用されるように設計されてもよい。カスタマイズされたアーチファクト検出アルゴリズムをスキャナに統合することが実際的でない場合、下流のデジタル病理分析のための全体スライド画像の品質管理を維持するために、スキャン後のアーチファクト検出を使用することができる。
【0138】
別の例においては、低い画像解像度でのアーチファクト検出に関して、その後のより高い画像解像度でのスキャンにおいて、新たなアーチファクトまたは別のアーチファクトが生じ得る。特には、異なる対物レンズまたはチューブレンズを使用することができ、スキャンが別々のスキャン動作からもたらされる可能性があるため、これらの2つのスキャンの間で、焦点が合っていない画像部分が異なる可能性がある。したがって、スキャン後のアーチファクト検出が行われない場合、下流のデジタル病理分析の精度を低下させかねない新たなアーチファクトが存在する可能性がある。
【0139】
いくつかの場合、スキャン後のアーチファクト検出は、特定のタイプの機械学習モデルに関してより効果的である。例えば、スキャン後のアーチファクト検出は、特定の機械学習モデル(例えば、回帰型ニューラルネットワーク)が隣接する画像タイルからの特徴を統合する場合に、より効果的であり得る。スキャン中に生成された画像データを、隣接する画像タイルを評価するためにスキャン中に編成することができるが、そのような手法は、スキャン速度を遅くし、さらには/あるいはスキャナに統合または関連付けされたハードウェアの計算負荷を大幅に増加させる可能性がある。
【0140】
V.実験結果
スライド画像内のアーチファクトを検出するための機械学習モデルの性能レベルを識別するために、評価を実行した。
【0141】
A.データセット
50枚の全体スライド画像の各々から、画素を識別するためのラベルの組を収集した。対応する画素のラベルは、3つのタイプのクラス、すなわち非組織、ぼけた組織、およびぼけていない組織のうちの1つに関する。全体スライド画像は、2つのコホート(乳がんおよび肺がん)から得られた生物学的試料の少なくとも一部分を表示する。各々の生物学的試料を、以下のうちの1つで染色した。(1)ヘマトキシリン、(2)ER、PR、PDL1、またはCK7に関する単一染色、および(3)ER/PRまたはPDL1/CK7に関する二重染色。アッセイの色原体は、Dabsyl(黄色)、Tamra(紫色)、SRB(赤色)、またはDAB(単一IHCのみ)であった。独立した試験のための全体スライド画像は、様々な組織タイプ(乳房、肺、肝臓、腎臓、および結腸)からのものであり、単一、二重、および三重アッセイ(追加の色原体:Teal、追加のバイオマーカー:LIV1、HER2、CD8、およびBCL1)からのものであった。
【0142】
50枚の全体スライド画像から、978個の画像タイルを選択し、各々の画像タイルは、512×512画素のサイズを有し、5倍の画像解像度でスキャンされている。選択された画像タイルから、462個の画像タイルを訓練に使用し、246個の画像タイルを検証に使用し、270個の画像タイルを試験に使用した。独立した試験のために、追加の100枚の全体スライド画像を選択した。
【0143】
B.モデルの選択および構成
2つの修正されたU-Net機械学習モデルを評価のために選択した。第1の機械学習モデルについて、中間畳み込み層のチャネル数が2分の1に削減され、モデル1(776万パラメータ)が得られた。第2の機械学習モデルについて、中間畳み込み層のチャネル数が4分の1に削減され、モデル2(194万パラメータ)が得られた。
【0144】
C.画像の前処理および訓練
選択された画像タイルの各々をグレースケールに変換し、ランダムリスケーリング、フリッピング、コントラストジッタリング、および強度ジッタリングで増強した。グレースケールの増強された画像タイルの各々を、その対応する画像勾配マップと連結した(カーネルサイズが3のラプラシアンフィルタ処理と、その後のカーネルサイズが25でシグマが3のガウスフィルタ処理)。対応する勾配特徴を有するグレースケールの増強された画像タイルを使用して、2つのU-Netモデルの各々を訓練した。2つのU-Netモデルの訓練を、セクションIIIに記載の多重解像度訓練技術を使用して実行した。特に、拡張パスにおける最後の2つの処理ブロックの各々から計算された損失を、画素レベルの分類に利用した。
【0145】
D.結果
図22が、アーチファクト画素を検出するように訓練された機械学習モデルの精度および再現率スコアを特定する例示的なグラフの組2200を示している。グラフ2202が、モデル1およびモデル2に対応する精度スコアを示しており、グラフ2204が、モデル1およびモデル2に対応する正確性スコアを示している。各々のグラフ2202および2204の精度および再現率スコアは、対応するラベルを有する提供された試験画像に基づいて計算されている。モデル1およびモデル2の性能が、アーチファクトの検出において同様であることに留意されたい。これは、パラメータが比較的少ない機械学習モデル(例えば、194万個のパラメータ)が、アーチファクトの検出において充分に効果的であり得ることを意味し得る。
【0146】
図23が、訓練用画像と同じタイプのアッセイおよび同じタイプの組織から見えない画像の組について生成された例示的な画像マスクの組2300を示している。各々の画像は、特定のタイプのIHCアッセイに対応する染色プロトコルを使用して染色された組織切片を示している。図23には、モデル2から生成された予測された画像マスク2302が、グラウンドトゥルース画像マスク2304と共に提示されている。予測された画像マスク2302とグラウンドトゥルース画像マスク2304との間の比較は、モデル2がアーチファクト画素を正確に識別できることを示している。
【0147】
さらに、訓練された機械学習モデルを独立した試験画像(すなわち、セクションV.Aで特定された100枚の全体スライド画像の組)に適用して、アーチファクト画素を識別した。例えば、図24が、見えないアッセイパターンまたは組織のタイプを表示する画像から生成された例示的な画像マスクの組2400を示している。図24を、見えないアッセイおよび見えない組織タイプに対する焦点ずれアーチファクト検出の機械学習モデル一般化可能性の定性的評価に使用することができる。
【0148】
図24に示されるように、例示的な画像マスクは、見えないアッセイ2402および見えない組織タイプ2404からの正確なアーチファクト検出を示している。画像マスクは、訓練された機械学習モデルが、様々なタイプの生物学的試料および/または異なるタイプのアッセイに対応する染色プロトコルを使用して染色された生物学的試料を表示する画像について、正確なアーチファクト検出を実行できることをさらに示している。
【0149】
VI.コンピューティング環境
図25が、本明細書に開示されるいくつかの実施形態を実装するためのコンピュータシステム2500の例を示している。コンピュータシステム2500は、構成要素のいくつか(例えば、メモリおよびプロセッサ)がエンドユーザデバイスの一部であり、他のいくつかの同様の構成要素(例えば、メモリおよびプロセッサ)がコンピュータサーバの一部である分散アーキテクチャを含んでよい。いくつかの場合、コンピュータシステム2500は、生物学的試料の核酸分子のサイズ分布に基づいて対象の遺伝子特徴を決定するためのコンピュータシステムであり、少なくともプロセッサ2502、メモリ2504、記憶装置2506、入出力(I/O)周辺機器2508、通信周辺機器2510、およびインターフェースバス2512を含む。インターフェースバス2512は、コンピュータシステム2500の様々な構成要素の間でデータ、制御、およびコマンドを通信、送信、および転送するように構成される。プロセッサ2502は、CPU、GPU、TPU、シストリックアレイ、またはSIMDプロセッサなどの1つ以上の処理ユニットを含み得る。メモリ2504および記憶装置2506は、RAM、ROM、電気的消去可能プログラマブル読み出し専用メモリ(EEPROM)、ハードドライブ、CD-ROM、光記憶デバイス、磁気記憶デバイス、例えばフラッシュ(登録商標)メモリなどの電子不揮発性コンピュータ記憶装置、および他の有形記憶媒体などのコンピュータ可読記憶媒体を含む。そのようなコンピュータ可読記憶媒体のいずれも、本開示の態様を具現化する命令またはプログラムコードを記憶するように構成され得る。さらに、メモリ2504および記憶装置2506は、コンピュータ可読信号媒体を含む。
【0150】
コンピュータ可読信号媒体は、コンピュータ可読プログラムコードが具現化された伝搬データ信号を含む。そのような伝搬信号は、電磁的、光学的、またはそれらの任意の組み合わせを含むがこれらに限定されない様々な形態のいずれかをとる。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体ではなく、コンピュータシステム2500に関連して使用するためのプログラムを通信し、伝播させ、あるいは伝送することができる任意のコンピュータ可読媒体を含む。
【0151】
さらに、メモリ2504は、オペレーティングシステム、プログラム、およびアプリケーションを含む。プロセッサ2502は、記憶された命令を実行するように構成され、例えば、論理処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、および他のプロセッサを含む。例えば、コンピューティングシステム2500は、本明細書に記載の動作のうちの1つ以上を実行するようにプロセッサ2502を構成する命令(例えば、プログラムコード)を実行することができる。プログラムコードは、例えば、配列データの分析を実施するコード、および/または本明細書に記載の1つ以上の動作を実行する任意の他の適切なアプリケーションを含む。命令は、例えば、C、C++、C#、Visual Basic、Java、Python、Perl、JavaScript、およびActionScriptを含む任意の適切なコンピュータプログラミング言語で書かれたコードからコンパイラまたはインタプリタによって生成されるプロセッサ固有の命令を含むことができる。
【0152】
プログラムコードを、メモリ2504または任意の適切なコンピュータ可読媒体に記憶することができ、プロセッサ2502または任意の他の適切なプロセッサによって実行することができる。いくつかの実施形態において、HLA対立遺伝子におけるヘテロ接合性の喪失を予測するためのコンピュータシステムにおける全てのモジュールが、メモリ2504に記憶される。追加または代替の実施形態においては、上記のコンピュータシステムからのこれらのモジュールの1つ以上が、異なるコンピューティングシステムの異なるメモリデバイスに記憶される。
【0153】
メモリ2504および/またはプロセッサ2502は、仮想化されてよく、例えばクラウドネットワークまたはデータセンタの別のコンピューティングシステム内にホストされてよい。I/O周辺機器2508は、キーボード、スクリーン(例えば、タッチスクリーン)、マイクロフォン、スピーカ、他の入力/出力デバイスなどのユーザインターフェース、ならびにグラフィカル処理ユニット、シリアルポート、パラレルポート、ユニバーサルシリアルバス、および他の入力/出力周辺機器などのコンピューティング構成要素を含む。I/O周辺機器2508は、インターフェースバス2512に結合したポートのいずれかを介してプロセッサ2502に接続される。通信周辺機器2510は、通信ネットワークを介したコンピュータシステム2500と他のコンピューティングデバイスとの間の通信を容易にするように構成され、例えば、ネットワークインターフェースコントローラ、モデム、無線および有線インターフェースカード、アンテナ、および他の通信周辺機器を含む。例えば、コンピューティングシステム2500は、通信周辺機器2510のネットワークインターフェース装置を使用してデータネットワークを介して1つ以上の他のコンピューティングデバイス(例えば、生物学的試料の核酸分子のサイズ分布に基づいて対象の遺伝子特徴を決定するコンピューティングデバイス、対象の生物学的試料の配列データを生成する別のコンピューティングデバイス)と通信することができる。
【0154】
本主題をその特定の実施形態に関して詳細に説明してきたが、上記の理解を達成すると、そのような実施形態に対する当業者による変更、変形、および均等物の生成が容易になる可能性があることが理解されよう。したがって、本開示は、限定ではなく例示を目的として提示されており、当業者には容易に明らかになるような本主題へのそのような変更、変形、および/または追加の包含を排除するものではないことを理解されたい。実際に、本明細書に記載の方法およびシステムは、様々な他の形態で具現化されてもよい。さらにまた、本開示の趣旨を逸脱することなく、本明細書に記載の方法およびシステムの形態における様々な省略、置き換え、変更が行われてもよい。添付の特許請求の範囲およびその均等物は、本開示の範囲および趣旨に含まれるような形態または変更を包含することを意図している。
【0155】
特に明記しない限り、本明細書を通して、「処理」、「コンピューティング」、「計算」、「決定」、および「識別」などの用語を利用する議論は、コンピューティングプラットフォームのメモリ、レジスタ、または他の情報記憶デバイス、伝送デバイス、または表示デバイス内の物理的な電子量または磁気量として表されるデータを操作または変換する、1つまたは複数のコンピュータまたは同様の電子コンピューティングデバイスまたはデバイスなどのコンピューティングデバイスの動作またはプロセスを指すことが理解される。
【0156】
本明細書で説明する1つまたは複数のシステムは、任意の特定のハードウェアアーキテクチャまたは構成に限定されない。コンピューティングデバイスは、1つまたは複数の入力を条件とする結果を提供する構成要素の任意の適切な配置を含むことができる。適切なコンピューティングデバイスは、汎用コンピューティングデバイスから本主題の1つまたは複数の実施形態を実装する専用コンピューティング装置までコンピューティングシステムをプログラムまたは構成する記憶されたソフトウェアにアクセスする多目的マイクロプロセッサベースのコンピューティングシステムを含む。任意の適切なプログラミング、スクリプト、または他のタイプの言語または言語の組み合わせが使用されて、コンピューティングデバイスのプログラミングまたは構成に使用されるソフトウェアに本明細書に含まれる教示を実装し得る。
【0157】
本明細書に開示される方法の特定の実施形態は、そのようなコンピューティングデバイスの動作において実行され得る。上記の例に示されたブロックの順序は変更されることができ、例えば、ブロックは、並べ替えられ、結合され、および/またはサブブロックに分割されることができる。特定のブロックまたはプロセスは、並行して実行され得る。
【0158】
本明細書で使用される条件付き言語、例えば、とりわけ、「できる(can)」、「できた(could)」、「ことがあった(might)」、「ことがある(may)」、「例えば(e.g.)」などは、特に明記しない限り、または使用される文脈内で他の意味で理解されない限り、一般に、特定の例は特定の特徴、要素、および/またはステップを含むが、他の例は含まないことを伝えることを意図している。したがって、そのような条件付き言語は、一般に、特徴、要素および/またはステップが1つまたは複数の例に何らかの形で必要とされること、または1つまたは複数の例が、著者の入力またはプロンプトの有無にかかわらず、これらの特徴、要素および/またはステップが任意の特定の例に含まれるか、または実行されるかを判定するための論理を必然的に含むことを意味することを意図するものではない。
【0159】
「備える(comprising)」、「含む(including)」、「有する(having)」などの用語は同義語であり、包括的に、オープンエンド方式で使用され、追加の要素、特徴、動作、動作などを排除しない。また、「または(or)」という用語は、包括的な意味で(排他的な意味ではなく)使用され、例えば、要素のリストを接続するために使用される場合、「または」という用語は、リスト内の要素の1つ、いくつか、または全てを意味する。本明細書における「適合される(adapted to)」または「構成される(configured to)」の使用は、追加のタスクまたはステップを実行するように適合または構成されたデバイスを除外しないオープンで包括的な言語を意味する。さらに、「に基づいて(based on)」の使用は、1つまたは複数の列挙された条件または値に「基づいて」プロセス、ステップ、計算、または他の動作が、実際には列挙されたものを超える追加の条件または値に基づいてもよいという点で、オープンで包括的であることを意味する。同様に、「少なくとも部分的に基づいて(based at least in part on)」の使用は、1つまたは複数の列挙された条件または値に「少なくとも部分的に基づいて」プロセス、ステップ、計算、または他の動作が、実際には列挙されたものを超える追加の条件または値に基づいてもよいという点で、オープンで包括的であることを意味する。本明細書に含まれる見出し、リスト、および番号付けは、説明を容易にするためのものにすぎず、限定することを意味するものではない。
【0160】
上述した様々な特徴およびプロセスは、互いに独立して使用されてもよく、または様々な方法で組み合わされてもよい。全ての可能な組み合わせおよび部分的な組み合わせは、本開示の範囲内に入ることが意図されている。さらに、いくつかの実装形態では、特定の方法またはプロセスブロックが省略されてもよい。本明細書に記載の方法およびプロセスはまた、いかなる特定のシーケンスにも限定されず、それに関連するブロックまたは状態は、適切な他のシーケンスで実行されてもよい。例えば、記載されたブロックまたは状態は、具体的に開示された順序以外の順序で実行されてもよく、または複数のブロックまたは状態が単一のブロックまたは状態に組み合わされてもよい。例示的なブロックまたは状態は、直列、並列、または他の何らかの方法で実行されてもよい。ブロックまたは状態は、開示された例に追加されてもよく、または開示された例から削除されてもよい。同様に、本明細書に記載された例示的なシステムおよび構成要素は、記載されたものとは異なるように構成されてもよい。例えば、開示された例と比較して、要素が追加、除去、または再配置されてもよい。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
【手続補正書】
【提出日】2024-04-08
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
生物学的試料の少なくとも一部分を表す画像にアクセスするステップと、
前記画像に画像前処理アルゴリズムを適用して、前処理後画像を生成するステップであって、前記前処理後画像が複数のラベリングされた画素を含み、前記複数のラベリングされた画素の各々のラベリングされた画素には、前記画素が前記生物学的試料の前記少なくとも一部分の対応する点または領域を正確に表しているかについて予測するラベルが関連付けられている、ステップと、
前記前処理後画像に機械学習モデルを適用して、前記複数のラベリングされた画素から1つ以上のラベリングされた画素を特定するステップであって、前記1つ以上のラベリングされた画素が、前記画像前処理アルゴリズムによるラベリングが誤っていることが予測される、ステップと、
前記1つ以上のラベリングされた画素の各々におけるラベルを修正するステップと、
前記ラベルが修正された前記1つ以上のラベリングされた画素を少なくとも含む訓練用画像を生成するステップと、
前記訓練用画像を出力するステップと、
を含む、方法。
【請求項2】
前記ラベルが、アーチファクトのタイプをさらに特定し、前記画素が、さらに、前記アーチファクトのタイプに対応するアーチファクトの少なくとも一部分を表すように予測される、請求項1に記載の方法。
【請求項3】
前記複数のラベリングされた画素のうちの各々のラベリングされた画素に対し、ぼけしきい値を適用するステップと、
前記ぼけしきい値の適用に基づいて、前記複数のラベリングされた画素のうちのさらなるラベリングされた画素のラベリングが誤っていると判断するステップと、
前記さらなるラベリングされた画素に対応するラベルを修正するステップと、
をさらに含む、請求項1に記載の方法。
【請求項4】
前記ぼけしきい値は、深度次元にわたり前記生物学的試料の少なくとも一部分を表すz軸画像の組についての下流アルゴリズムの性能に基づいて決定される、請求項3に記載の方法。
【請求項5】
前記画像前処理アルゴリズムが、画像セグメンテーション、モルフォロジー処理、画像しきい値処理、画像フィルタ処理、画像コントラスト強調、ぼけ検出、またはこれらの組み合わせを含む、請求項1に記載の方法。
【請求項6】
前記ラベルが、前記画素が特定のアーチファクトタイプに関連するアーチファクトの少なくとも一部分を表しているかについてさらに予測する、請求項1に記載の方法。
【請求項7】
前記特定のアーチファクトタイプが、ぼけ領域、組織ひだ、および異物を含む、請求項6に記載の方法。
【請求項8】
生物学的試料の少なくとも一部分を表す訓練用画像にアクセスするステップであって、前記訓練用画像が複数のラベリングされた画素を含み、前記複数のラベリングされた画素のうちの各々のラベリングされた画素には、前記画素が前記生物学的試料の前記少なくとも一部分の対応する点または領域を正確に表しているかについて予測するラベルが関連付けられている、ステップと、
畳み込み層の組を含む機械学習モデルにアクセスするステップであって、前記機械学習モデルが、前記畳み込み層の組のうちの各々の畳み込み層を、入力画像を表す特徴マップに適用するように構成されている、ステップと、
目標画像解像度の画像内の1つ以上のアーチファクト画素を検出するために、前記機械学習モデルを訓練するステップであって、前記1つ以上のアーチファクト画素のうちのアーチファクト画素が、前記生物学的試料の前記少なくとも一部分の点または領域を正確には表していないことが予測され、前記訓練するステップが、
前記訓練用画像の前記複数のラベリングされた画素のうちの各々のラベリングされた画素について、
前記畳み込み層の組のうちの第1の畳み込み層を、第1の画像解像度の前記訓練用画像を表す第1の特徴マップに適用することによって、前記第1の画像解像度の前記ラベリングされた画素の第1の損失を決定するステップと、
前記畳み込み層の組のうちの第2の畳み込み層を、第2の画像解像度の前記訓練用画像を表す第2の特徴マップに適用することによって、前記第2の画像解像度の前記ラベリングされた画素の第2の損失を決定するステップであって、前記第2の解像度が、前記第1の画像解像度に対してより高い画像解像度を有する、ステップと、
前記第1の損失および前記第2の損失に基づいて、前記ラベリングされた画素についての総損失を決定するステップと、
前記総損失に基づいて、前記機械学習モデルが前記目標画像解像度において前記1つ以上のアーチファクト画素を検出するように訓練されたことを決定するステップと、
を含む、ステップと、
前記訓練された機械学習モデルを出力するステップと、
を含む、方法。
【請求項9】
前記訓練用画像をグレースケール訓練用画像に変換するステップをさらに含み、前記機械学習モデルが、前記グレースケール訓練用画像を使用して訓練される、請求項8に記載の方法。
【請求項10】
前記訓練用画像の前記複数のラベリングされた画素を、第1の色空間から第2の色空間に変換して、修正後訓練用画像を生成するステップをさらに含み、前記機械学習モデルは、前記修正後訓練用画像を使用して訓練される、請求項8に記載の方法。
【請求項11】
前記総損失が、前記第1の損失と前記第2の損失との合計に基づいて決定される、請求項8に記載の方法。
【請求項12】
前記総損失が、前記第1の損失と前記第2の損失との平均に基づいて決定される、請求項8に記載の方法。
【請求項13】
前記目標画像解像度が前記第1の画像解像度である、請求項8に記載の方法。
【請求項14】
生物学的試料の少なくとも一部分を表す画像にアクセスするステップであって、前記画像が第1の画像解像度である、ステップと、
第2の画像解像度の画像内のアーチファクト画素を検出するように訓練された機械学習モデルにアクセスするステップであって、前記第1の画像解像度が、前記第2の画像解像度に対してより高い画像解像度を有する、ステップと、
前記画像を変換して、前記第2の画像解像度で前記生物学的試料の前記少なくとも一部分を表す変換後画像を生成するステップと、
前記変換後画像に前記機械学習モデルを適用して、前記変換後画像から1つ以上のアーチファクト画素を特定するステップであって、前記1つ以上のアーチファクト画素のうちのアーチファクト画素は、前記生物学的試料の前記少なくとも一部分の点または領域を正確には表していないことが予測される、ステップと、
前記1つ以上のアーチファクト画素を含む出力を生成するステップと、
を含む、方法。
【請求項15】
前記出力が、前記1つ以上のアーチファクト画素を含む画像マスクであり、当該方法が、
前記画像に前記画像マスクを重ねて、前記画像内の画素の組を前記1つ以上のアーチファクト画素から区別するステップと、
前記画素の組に細胞分類モデルを適用するステップと、
をさらに含む、請求項14に記載の方法。
【請求項16】
前記出力が、前記1つ以上のアーチファクト画素の量を特定する、請求項14に記載の方法。
【請求項17】
前記出力を使用して、スキャン装置の1つ以上のスキャンパラメータを調整するステップをさらに含む、請求項14に記載の方法。
【請求項18】
1つ以上のデータプロセッサと、
命令を含んでいる非一時的コンピュータ可読記憶媒体であって、前記命令が、前記1つ以上のデータプロセッサ上で実行されたときに、前記1つ以上のデータプロセッサに対し、請求項1~17の何れか一項に記載の方法を実行させる、非一時的コンピュータ可読記憶媒体と、
を備える、システム。
【請求項19】
非一時的機械可読記憶媒体内に具現化されたコンピュータプログラムであって、1つ以上のデータプロセッサに対し、請求項1~17の何れか一項に記載の方法を実行させるように構成された命令を含んでいる、コンピュータプログラム。
【国際調査報告】