IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ブルーロック セラピューティクス エルピーの特許一覧

特許7496364人工知能を使用した大きな画像データセット中の目的の細胞の検出
<>
  • 特許-人工知能を使用した大きな画像データセット中の目的の細胞の検出 図1
  • 特許-人工知能を使用した大きな画像データセット中の目的の細胞の検出 図2
  • 特許-人工知能を使用した大きな画像データセット中の目的の細胞の検出 図3
  • 特許-人工知能を使用した大きな画像データセット中の目的の細胞の検出 図4
  • 特許-人工知能を使用した大きな画像データセット中の目的の細胞の検出 図5
  • 特許-人工知能を使用した大きな画像データセット中の目的の細胞の検出 図6
  • 特許-人工知能を使用した大きな画像データセット中の目的の細胞の検出 図7
  • 特許-人工知能を使用した大きな画像データセット中の目的の細胞の検出 図8
  • 特許-人工知能を使用した大きな画像データセット中の目的の細胞の検出 図9
  • 特許-人工知能を使用した大きな画像データセット中の目的の細胞の検出 図10
  • 特許-人工知能を使用した大きな画像データセット中の目的の細胞の検出 図11
  • 特許-人工知能を使用した大きな画像データセット中の目的の細胞の検出 図12
  • 特許-人工知能を使用した大きな画像データセット中の目的の細胞の検出 図13
  • 特許-人工知能を使用した大きな画像データセット中の目的の細胞の検出 図14A
  • 特許-人工知能を使用した大きな画像データセット中の目的の細胞の検出 図14B
  • 特許-人工知能を使用した大きな画像データセット中の目的の細胞の検出 図15
  • 特許-人工知能を使用した大きな画像データセット中の目的の細胞の検出 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-29
(45)【発行日】2024-06-06
(54)【発明の名称】人工知能を使用した大きな画像データセット中の目的の細胞の検出
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240530BHJP
   G01N 33/48 20060101ALI20240530BHJP
   C12N 5/10 20060101ALI20240530BHJP
   C12N 5/0735 20100101ALI20240530BHJP
【FI】
G06T7/00 350C
G01N33/48 M
C12N5/10
C12N5/0735
G06T7/00 612
【請求項の数】 42
(21)【出願番号】P 2021548192
(86)(22)【出願日】2020-02-20
(65)【公表番号】
(43)【公表日】2022-04-06
(86)【国際出願番号】 US2020019109
(87)【国際公開番号】W WO2020172460
(87)【国際公開日】2020-08-27
【審査請求日】2023-01-12
(31)【優先権主張番号】62/808,054
(32)【優先日】2019-02-20
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】521361176
【氏名又は名称】ブルーロック セラピューティクス エルピー
(74)【代理人】
【識別番号】100095832
【弁理士】
【氏名又は名称】細田 芳徳
(74)【代理人】
【識別番号】100187850
【弁理士】
【氏名又は名称】細田 芳弘
(72)【発明者】
【氏名】ウィルキンソン,ダン チャールズ ジュニア
(72)【発明者】
【氏名】バーネット,ベンジャミン アダム
【審査官】淀川 滉也
(56)【参考文献】
【文献】特開2018-119969(JP,A)
【文献】国際公開第2018/207334(WO,A1)
【文献】Michael Ferlaino, Craig A. Glastonbury, Carolina Motta-Mejia, Manu Vatish, Ingrid Granne, Stephen Kennedy, Cecilia M. Lindgren, Christoffer Nellaker,Towards Deep Cellular Phenotyping in Placental Histology,arXiv:1802.03270v2,2018年05月25日,https://arxiv.org/abs/1804.03270
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G01N 33/48
C12N 5/10
C12N 5/0735
(57)【特許請求の範囲】
【請求項1】
画像データセットにおいて1つ以上の目的の細胞を検出するための最終モデルを選択する方法であって、
管理された画像データセットを、訓練セット、検証セットおよび試験セットに分割する工程、ここで管理された画像データセットにおけるそれぞれの画像は、目的の細胞について陽性または陰性と標識されている;
それぞれのモデル 対 標識により生成された予測の精度を表す誤り関数を評価および最小化することにより、訓練セットおよび検証セットを使用して、ディープ畳み込みニューラルネットワークのアンサンブルのそれぞれのモデルを訓練する工程;
試験セットを使用して、アンサンブルのそれぞれのモデルを試験する工程;
アンサンブルの予測を合わせて、合わされた予測を作成する工程;
合わされた予測と標識を比較する工程;
合わされた予測が所定のレベルの検出を満足するかどうかを決定する工程;
合わされた予測が所定のレベルの検出を満足する場合、アンサンブルを最終アンサンブルとして出力する工程;ならびに
合わされた予測が所定のレベルの検出を満足しない場合、合わされた予測が所定のレベルの検出を満足するまで、少なくとも1つのアンサンブルのモデルの少なくとも1つのハイパーパラメータを改変する工程
を含
管理された画像データセットを、少なくとも:
目的の細胞を何ら示さない画像の組を使用して、画像オートエンコーダを訓練して、画像の組を再構築するようにする工程;および
管理された画像データセットに対して訓練された画像オートエンコーダを実行して、管理された画像データセットから訓練された画像オートエンコーダにより生成された再構築された画像の組を差し引いて、管理された画像データセットからバックグラウンドノイズを除去する工程
により前もって処理する、方法。
【請求項2】
それぞれのモデルについて予測精度が測定され、最終モデルが、最も高い予測精度を有する最終アンサンブルからのモデルを含む、請求項1記載の方法。
【請求項3】
それぞれのモデルについて予測精度を測定し、最終モデルが、最も高い予測精度を有する最終アンサンブルからの複数のモデルを含む、請求項1記載の方法。
【請求項4】
それぞれのモデルについて受信者動作特性(ROC)曲線下面積を測定して、最終モデルが、最も高いROC曲線下面積を有する最終アンサンブルからのモデルを含む、請求項1~3いずれか記載の方法。
【請求項5】
それぞれのモデルについて受信者動作特性(ROC)曲線下面積を測定して、最終モデルが、最も高いROC曲線下面積を有する最終アンサンブルからの複数のモデルを含む、請求項1~3いずれか記載の方法。
【請求項6】
目的の細胞がまれな細胞である、請求項1~5いずれか記載の方法。
【請求項7】
目的の細胞が、1,000,000の総細胞数中約1より少なく現れる、請求項6記載の方法。
【請求項8】
目的の細胞が、10,000,000の総細胞数中約1より少なく現れる、請求項6記載の方法。
【請求項9】
目的の細胞が複数の表現型特性を含む、請求項1~8いずれか記載の方法。
【請求項10】
目的の細胞が、OCT4+細胞またはOCT4-細胞を含む、請求項1~9いずれか記載の方法。
【請求項11】
目的の細胞が、多能性幹細胞(PSC)を含む、請求項1~10いずれか記載の方法。
【請求項12】
PSCが、誘導多能性幹細胞または胚性幹細胞である、請求項11記載の方法。
【請求項13】
PSCがOCT4+である、請求項11記載の方法。
【請求項14】
アンサンブルの予測を合わせて合わされた予測を作成する工程が、投票技術を使用することを含む、請求項1~13いずれか記載の方法。
【請求項15】
投票技術がハード投票を含む、請求項14記載の方法。
【請求項16】
投票技術が、モデルの大部分よりも多くによりなされた決定を選択することを含む、請求項14記載の方法。
【請求項17】
投票技術が、モデルの約75%よりも多くによりなされた決定を選択することを含む、請求項16記載の方法。
【請求項18】
アンサンブルの予測を合わせて合わされた予測を作成する工程が、スタッキング技術を使用することを含む、請求項1~17いずれか記載の方法。
【請求項19】
スタッキング技術が、ガウス過程分類子を含む、請求項18記載の方法。
【請求項20】
スタッキング技術が、ランダムフォレスト分類子を含む、請求項18記載の方法。
【請求項21】
アンサンブルの予測を合わせて合わされた予測を作成する工程が、少なくとも1つの投票技術および/または少なくとも1つのスタッキング技術を使用することを含む、請求項1~20いずれか記載の方法。
【請求項22】
モデル選択の際に最も高い精度を有する投票技術またはスタッキング技術と共に最終モデルを展開して、目的の細胞を検出することをさらに含む、請求項1~21いずれか記載の方法。
【請求項23】
アンサンブルのそれぞれのディープ畳み込みニューラルネットワークが複数の層を含み、それぞれの層が複数の2D畳み込みフィルターを含み、それぞれの2D畳み込みフィルターが3x3マトリックスを含む、請求項1~22いずれか記載の方法。
【請求項24】
アンサンブルのそれぞれのモデルが、少なくとも1つの畳み込みフィルターを含み、訓練が、それぞれの画像にわたり畳み込みフィルターを移動させることを含む、請求項1~23いずれか記載の方法。
【請求項25】
アンサンブルのそれぞれのモデルが、重みを有する少なくとも1つの畳み込みフィルターを含み、訓練がフィルター上の重みを改変することを含む、請求項1~24いずれか記載の方法
【請求項26】
アンサンブルのそれぞれのモデルが、パターンを有する少なくとも1つの畳み込みフィルターを含み、訓練が、フィルター上のパターンを改変することを含む、請求項1~25いずれか記載の方法。
【請求項27】
目的の細胞が、1つ以上の多能性関連マーカーを発現する、請求項1~26いずれか記載の方法。
【請求項28】
多能性関連マーカーが、OCT4、Tra-1-60/81、SOX2、FGF4およびSSEA-3/4の1つ以上を含む、請求項27記載の方法。
【請求項29】
画像データセットにおいて1つ以上の目的の細胞を検出するための方法であって、
それぞれが独立チャンネルを含む複数の染色された組織学的画像を受信する工程;
複数の染色された組織学的画像のそれぞれにおける独立チャンネルのピクセル値を二値化する工程;
連結され、特定のサイズの全体の連結されたピクセル領域を含む独立チャンネル中のピクセル領域を見出すことにより、二値化された画像において目的の領域を決定する工程、ここでそれぞれの目的の領域は、境界座標により画定される;
境界座標に基づいてそれぞれの目的の領域を切り取り、それぞれが切り取られた目的の領域を含むサブ画像の組を生成する工程;
それぞれのサブ画像を、目的の細胞について陽性または陰性と標識する工程;
それぞれのサブ画像中の目的の細胞を検出するために、最終分類モデルを選択する工程;および
最終分類モデルを展開して、分類されない画像データセットにおいて目的の細胞を検出する工程
を含
目的の細胞を何ら示さない画像の組を使用して、画像オートエンコーダを訓練して、画像の組を再構築するようにする工程;および
複数の染色された組織学的画像に対して訓練された画像オートエンコーダを実行して、二値化の前に複数の染色された組織学的画像から訓練された画像オートエンコーダにより生成された再構築された画像の組を差し引いて、複数の染色された組織学的画像からバックグラウンドノイズを除去する工程
をさらに含む、方法。
【請求項30】
最終分類モデルを選択する工程が、
標識されたサブ画像の組を、訓練セット、検証セットおよび試験セットに分割すること;
それぞれのモデル 対 標識により生成される予測の精度を表す誤り関数を評価および最小化することにより、訓練セットおよび検証セットを使用して、ディープ畳み込みニューラルネットワークのアンサンブルのそれぞれのモデルを訓練すること;
試験セットを使用してアンサンブルのそれぞれのモデルを試験すること;
アンサンブルの予測を合わせて、合わされた予測を作成すること;
合わされた予測と標識を比較すること;
合わされた予測が所定のレベルの検出を満足するかどうかを決定すること;
合わされた予測が所定のレベルの検出を満足する場合、アンサンブルを最終アンサンブルとして出力すること;ならびに
合わされた予測が所定のレベルの検出を満足しない場合、合わされた予測が所定のレベルの検出を満足するまで、少なくとも1つのアンサンブルのモデルの少なくとも1つのハイパーパラメータを改変すること
を含む、請求項29記載の方法。
【請求項31】
最終モデルが、最終アンサンブルからの1つのモデルを含む、請求項30記載の方法。
【請求項32】
最終モデルが、最終アンサンブルからの複数のモデルを含む、請求項30記載の方法。
【請求項33】
独立チャンネルのピクセル値を二値化する工程が、
第1の蛍光チャンネルを、複数の染色された組織学的画像のそれぞれに適用して、第1の蛍光チャンネル画像の組を生成すること;
第2の蛍光チャンネルを、複数の染色された組織学的画像のそれぞれに適用して、第2の蛍光チャンネル画像の組を生成すること;
第1の蛍光チャンネル画像の組におけるそれぞれの画像と、第2の蛍光チャンネル画像の組における対応する画像を重ねて、重ねられた画像の組を生成すること;ならびに
重ねられた画像の組のそれぞれの画像において第1の蛍光チャンネルおよび第2の蛍光チャンネルの1つ以上のピクセル値を二値化すること
を含む、請求項29記載の方法。
【請求項34】
境界座標が、目的の領域の極値の座標を含む、請求項29記載の方法。
【請求項35】
目的の細胞がまれな細胞である、請求項29~34いずれか記載の方法。
【請求項36】
目的の細胞が、1,000,000の総細胞数中約1より少なく現れる、請求項35記載の方法。
【請求項37】
目的の細胞が、10,000,000の総細胞数中約1より少なく現れる、請求項35記載の方法。
【請求項38】
目的の細胞が、複数の表現型特性を含む、請求項29~37いずれか記載の方法。
【請求項39】
目的の細胞が、OCT4+細胞またはOCT4-細胞を含む、請求項29~38いずれか記載の方法。
【請求項40】
目的の細胞が多能性幹細胞(PSC)を含む、請求項29~39いずれか記載の方法。
【請求項41】
PSCが誘導多能性幹細胞または胚性幹細胞である、請求項40記載の方法。
【請求項42】
PSCがOCT4+である、請求項40記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
優先権の主張
本願は、その全体において参照により本明細書に援用される2019年2月20日に出願された米国仮特許出願第62/808,054号の優先権を主張する。
【背景技術】
【0002】
背景
画像中でのまれな細胞表現型などの特定の細胞の正確な同定は、関連のある疾患の早期検出を可能にするために非常に重要であるので、適切な治療が開始され得、結果が向上し得る。しかしながら、標準的な分析方法は通常偽陽性に悩まされるので、大きな画像データセット中でまれな細胞表現型を検出することは難しい。また、これらのデータセットは通常、数千の画像を含み、訓練を受けた専門家が妥当な時間内にこれらの画像を手動で分析することを妨げる。さらに、偽陽性を排除する際に有効である標準的な方法は、結果を偏らせ得、偽陰性をもたらし得る高度で微細な調整を必要とする。
【図面の簡単な説明】
【0003】
図面の簡単な説明
図1図1は、本発明の態様による、複数の染色された組織学的画像中の目的の細胞を同定するための系のブロック図である。
図2図2は、本発明の態様による、複数の染色された組織学的画像中の目的の細胞を同定するための方法のフロー図である。
図3図3は、本発明の態様による、染色された組織学的画像である。
図4図4は、本発明の態様による、二値化後の染色された組織学的画像である。
図5図5は、本発明の態様による、決定された目的の領域(area)を示す二値化後の染色された組織学的画像である。
図6図6は、本発明の態様による、二値化された画像から決定された目的の領域を含むサブ画像の組である。
図7図7は、本発明の態様による、複数の染色された組織学的画像中の目的の細胞を同定するための画像分類モデルを訓練するための方法のフロー図である。
図8図8は、本発明の態様による、OCT4+細胞の計算されたパーセンテージ 対 既知のPSCスパイクイン(spike-in)パーセンテージの図である。
図9図9は、本発明の態様による、いくつかの染色された組織学的画像を示す。
図10図10は、本発明の態様による、機械学習モジュールが、入力の染色された組織学的画像からバックグラウンドノイズを検出および除去するためのオートエンコーダをどのように使用し得るかを示すフロー図である。
図11図11は、本発明の態様による、ニューラルネットワークを使用して目的の細胞を検出するためのプロセスを示すフロー図である。
図12図12A~12Bは、本発明の態様による、前処理の異なる段階からの画像の例である。
図13図13は、本発明の態様による、目的の細胞を検出するために機械学習モデルのアンサンブル(ensemble)がどのように使用され得るかを示す図である。
図14A図14Aは、本発明の態様による、エポック(epoch)の関数としての検証および訓練の損失のプロットである。
図14B図14Bは、本発明の態様による、複数のモデルを並行して構築および評価する伝達経路(pipeline)のフロー図である。
図15図15は、本発明の態様による、アンサンブルにおけるモデルの1つのためのROC曲線のプロットである。
図16図16A~16Cは、本発明の態様による、種々の希釈での予想される検出に対して比較される3つの方法によるOCT4+細胞の検出を示すグラフである。
【0004】
適切であるとみなされる場合、参照番号は、対応するかまたは類似の要素を示すために図面中で反復されることがある。さらに、図面中に示されるブロックのいくつかは、単一の機能に合わされることがある。
【発明を実施するための形態】
【0005】
詳細な説明
以下の詳細な説明において、本発明の態様の完全な理解を提供するために多くの具体的な詳細が記載される。しかしながら、本発明の態様は、これらの具体的な詳細なしで実施され得ることが当業者に理解される。他の例において、周知の方法、手順、構成要素および回路は、本発明をあいまいにしないように、詳細には記載されていない。
【0006】
従来、細胞検出は、しきい値処理(thresholding)、エッジ検出およびウォーターシェッド(watershed)アプローチなどの標準的なセグメンテーションアルゴリズムにより実施され得る。典型的に、かかるアルゴリズムは連続して使用されるが、これらのアルゴリズムは多くの偽陽性を含む傾向がある。また、関心事である平面不完全性および細胞の同じサイズ範囲にある自家蛍光デブリの小さな斑点はしばしば、陽性ヒットとして分類される。
【0007】
本明細書に記載される技術は、入力画像が1つ以上の目的の細胞を含むかどうかを迅速に同定するために、正確な、自動化された画像しきい値処理、セグメンテーションおよび分類を使用して、大きな画像データセット中の目的の細胞を検出する。これらの技術は、最初に富化されたピクセル密度を有する全てのピクセル領域(region)を検出し、さらにこれらの領域を分析することにより、多くの従来方法では行われない、検出に対するフェイルセーフアプローチを提供し、目的の真陽性細胞が見逃されないことを確実にする。
【0008】
本発明の一態様は、複数の染色された組織学的画像において目的の細胞を同定する。サーバーは、1つ以上の独立チャンネルを含む画像を受信する。サーバーは、それぞれの画像において独立チャンネルのピクセル値を二値化する。サーバーは、連結され、特定のサイズの連結されたピクセル領域な全体を作成する独立チャンネルにおいてピクセル領域を見出すことにより、二値化された画像において1つ以上の目的の領域を決定し、それぞれの目的の領域は、境界座標(bounding coordinate)により画定される。サーバーは、境界座標に基づいて、画像中のそれぞれの目的の領域を切り取り、それぞれが切り取られた目的の領域を含むサブ画像の組を作成する。サーバーは、分類されたサブ画像を使用して画像分類モデルを訓練し、訓練された画像分類モデルを作成する。サーバーは、入力としてサブ画像の組を使用して訓練された画像分類モデルを実行して、サブ画像を、サブ画像が目的の細胞を含むかどうかを予測するかまたは示す2つ以上のカテゴリーの少なくとも1つに分類する。サーバーは、1つ以上のデータストア中に、訓練された画像分類モデルにより、サブ画像の組の分類に関連するデータを記憶する。
【0009】
いくつかの態様において、それぞれの画像中の独立チャンネルの1つ以上のピクセル値を二値化することは、独立チャンネルの第1の蛍光チャンネルをそれぞれの画像に適用して、第1の蛍光チャンネル画像の組を生成すること;独立チャンネルの第2の蛍光チャンネルをそれぞれの画像に適用して、第2の蛍光チャンネル画像の組を生成すること;第1の蛍光チャンネル画像の組におけるそれぞれの画像と、第2の蛍光チャンネル画像の組における対応する画像を重ねて(merge)、重ねられた画像の組を生成すること;ならびに重ねられた画像の組のそれぞれの画像中の第1の蛍光チャンネルおよび第2の蛍光チャンネルのピクセル値を二値化することを含む。いくつかの態様において、サーバーは、独立チャンネルの第3の蛍光チャンネルをそれぞれの画像に適用して、第3の蛍光チャンネル画像の組を生成し;第3の蛍光チャンネル画像の組におけるそれぞれの画像と、重ねられた画像の組における対応する画像を重ねて;重ねられた画像の組のそれぞれの画像における第1の蛍光チャンネル、第2の蛍光チャンネルおよび/または第3の蛍光チャンネルのピクセル値を二値化する。いくつかの態様において、サーバーは、独立チャンネルの明視野チャンネルをそれぞれの画像に適用して、明視野チャンネル画像の組を生成し;明視野チャンネル画像の組におけるそれぞれの画像と、重ねられた画像の組における対応する画像を重ね;重ねられた画像の組のそれぞれの画像における第1の蛍光チャンネル、第2の蛍光チャンネル、第3の蛍光チャンネルおよび/または明視野チャンネルのピクセル値を二値化する。
【0010】
いくつかの態様において、目的の細胞は、複数の表現型特性を有する細胞を含む。いくつかの態様において、目的の細胞は、OCT4+細胞、OCT4-細胞または両方を含む。いくつかの態様において、目的の細胞は、多能性幹細胞(PSC)を含む。いくつかの態様において、PSCは誘導多能性幹細胞(iPSC)または胚性幹細胞(ESC)である。いくつかの態様において、PSCはOCT4+細胞を含む。
【0011】
いくつかの態様において、境界座標は、目的の領域の極値の座標(extreme coordinate)を含む。いくつかの態様において、極値の座標は、目的の領域の1つ以上の北の座標、目的の領域の1つ以上の南の座標、目的の領域の1つ以上の東の座標および目的の領域の1つ以上の西の座標を含む。いくつかの態様において、目的の領域は、二値化の後のものと等しい値を有する相互連結されたピクセルの領域を含む。
【0012】
いくつかの態様において、1つ以上のデータストアにおける訓練された画像分類モデルによるサブ画像の組の分類に関連するデータを記憶することは、第1のデータストアにおいて目的の細胞を含むと分類されたサブ画像の1つ以上を記憶すること、および第2のデータストアにおいて目的の細胞事象を含まないと分類されたサブ画像の1つ以上を記憶することを含む。いくつかの態様において、第1のデータストアおよび第2のデータストアの1つ以上は、ローカルデータストアである。いくつかの態様において、第1のデータストアおよび第2のデータストアの1つ以上は、通信ネットワークを介してサーバー計算(computing)デバイスに連結された遠隔データストアである。いくつかの態様において、サブ画像の組の分類に関連するデータは、サブ画像の組におけるそれぞれのサブ画像についての分類値を示すテキストデータを含む。
【0013】
いくつかの態様において、訓練された画像分類モデルは、複数の層を有する畳み込み(convolutional)ニューラルネットワークを含み、それぞれの層は、複数の2D畳み込みフィルターを含み、それぞれの2D畳み込みフィルターは、3x3マトリックスのピクセル値を含む。いくつかの態様において、訓練された画像分類モデルは、複数の畳み込みニューラルネットワークまたはそのアンサンブルを含む。この場合、それぞれの畳み込みニューラルネットワークは独立して、それぞれのサブ画像を、目的の細胞を含むかまたは目的の細胞を含まないかのいずれかとして分類するための入力としてサブ画像の組を使用し、サーバーは、それぞれの畳み込みニューラルネットワークからのサブ画像の組の分類に関連するデータを重ねて、それぞれのサブ画像を、目的の細胞を含むかまたは目的の細胞を含まないかのいずれかに分類する。複数のニューラルネットワークまたはそのアンサンブルを訓練することは、分類もしくは展開段階において1つの訓練された画像分類モデルを使用することを生じ得るか、または分類もしくは展開段階においてアンサンブル様式で2つ以上のニューラルネットワークを使用することを生じ得る。サーバーによるデータの重ね合わせは、サブ画像の分類に関して最終的な決定をするための別の分類方法を使用することをもたらし得る。この他の分類方法は、投票(voting)もしくはスタッキング(stacking)技術または投票および/またはスタッキング技術の組合せを含み得る。他の分類方法は、どのもの(1つまたは複数)が最良に作動する(すなわち正しい画像分類を選択する)か、および次いで、展開の際に分類方法が同様に使用され得ることを決定するためにも評価され得る。
【0014】
いくつかの態様において、画像の少なくとも一部は、1つ以上の目的の細胞を示す。いくつかの態様において、サーバーは、1つ以上の独立チャンネルを含む第2の複数の染色された組織学的画像を受信し、ここで第2の複数の染色された組織学的画像は、目的の細胞を何ら示さず;第2の複数の染色された組織学的画像のそれぞれにおける1つ以上の独立チャンネルのピクセル値を二値化し;第2の複数の染色された組織学的画像のバックグラウンドシグナルを同定するために入力として第2の複数の染色された組織学的画像を使用して、画像オートエンコーダを訓練し;複数の染色された組織学的画像上で訓練された画像オートエンコーダを実行して、二値化の前に複数の染色された組織学的画像からバックグラウンドノイズを除去する。
【0015】
いくつかの態様において、サブ画像の組におけるそれぞれのサブ画像は、専門家により2つ以上のカテゴリーの少なくとも1つに分類される。いくつかの態様において、専門家は、2つ以上のカテゴリーの少なくとも1つを使用してそれぞれのサブ画像を標識する。いくつかの態様において、画像分類モデルを訓練した後、専門家は、画像分類モデルの分類結果を分析して、画像分類モデルのさらなる訓練が必要であるかどうかを決定する。いくつかの態様において、画像分類モデルのさらなる訓練が必要である場合、サーバー計算デバイスは、1つ以上の誤って分類されたサブ画像を訓練プールの一部として使用して画像分類モデルを訓練する。
【0016】
ここで、本発明の態様による、複数の染色された組織学的画像において目的の細胞を同定するための系100のブロック図である図1を参照する。系100は、クライアント計算デバイス102、通信ネットワーク104、画像前処理モジュール106a、機械学習モジュール106bおよび画像分類モジュール106cを含むサーバー計算デバイス106を含む。機械学習モジュール106bは、染色された組織学的画像から作成された1つ以上のサブ画像における目的の領域を、サブ画像が目的の細胞を含むかどうかを示す2つ以上のカテゴリーの少なくとも1つに分類するように訓練される分類モデル108(「訓練された画像分類モデル」とも称される)を含む。系100はさらに、画像リポジトリ110aおよび分類データストア110bを有するデータベース110を含む。
【0017】
クライアント計算デバイス102は、本明細書に記載されるように複数の染色された組織学的画像における目的の細胞を同定するプロセスに関連する入力を提供し、出力を受信するサーバー計算デバイス106と通信するために、通信ネットワーク104と接続する。いくつかの態様において、クライアント計算デバイス102は、ディスプレイデバイス(示さず)と連結される。例えば、クライアント計算デバイス102は、本明細書に記載される方法および系から生じる出力(例えば系100により生成されたサブ画像および/または画像分類データ)を表示するディスプレイデバイスを介して、グラフィカルユーザインターフェース(GUI)を提供し得る。例示的なクライアント計算デバイス102としては、限定されないが、デスクトップコンピューター、ラップトップコンピューター、タブレット、モバイルデバイス、スマートフォンおよびインターネット機器が挙げられる。系100の構成要素に接続し得る他の種類の計算デバイスが、本明細書に記載される技術の範囲から逸脱することなく使用され得ることが理解されるべきである。図1は単一のクライアント計算デバイス102を示すが、系100は、任意の数のクライアント計算デバイスを含み得ることが理解されるべきである。
【0018】
通信ネットワーク104は、クライアント計算デバイス102がサーバー計算デバイス106と通信することを可能にする。ネットワーク104は典型的に、インターネットおよび/またはセルラーネットワークなどの広域ネットワークである。いくつかの態様において、ネットワーク104は、いくつかの別のネットワークおよび/またはサブネットワーク(例えばセルラー~インターネット(cellular to Internet))で構成される。いくつかの態様において、通信ネットワーク104は、サーバー計算デバイス106がデータベース110と通信することを可能にする。
【0019】
サーバー計算デバイス106は、プロセッサを実行し、サーバー計算デバイス106のメモリモジュールと相互作用して、系100の他の構成要素からのデータを受信し、系100の他の構成要素にデータを伝達し、本明細書に記載されるように複数の染色された組織学的画像中の目的の細胞を同定するための機能を実施する、特殊化されたハードウェアおよび/またはソフトウェアモジュールを含むデバイスである。サーバー計算デバイス106は、サーバー計算デバイス106のプロセッサを実行するいくつかの計算モジュール106a、106b、106cを含む。いくつかの態様において、モジュール106a、106b、106cは、サーバー計算デバイス106中の1つ以上の専用プロセッサに対してプログラムされたコンピューターソフトウェア命令の特殊化された組であり、特殊化されたコンピューターソフトウェア命令を実行するための具体的に指定されたメモリ位置および/またはレジスタを含み得る。
【0020】
モジュール106a、106b、106cは同じサーバー計算デバイス106内で実行されるように図1に示されるが、いくつかの態様において、モジュール106a、106b、106cの機能性は、複数のサーバー計算デバイスの間で分配され得る。図1に示されるように、サーバー計算デバイス106は、記載される機能を実施する目的でデータを交換するために、モジュール106a、106b、106cが互いに対して通信することを可能にする。種々のアーキテクチャ、リソースおよび配置(例えばクラスター計算、バーチャル計算、クラウド計算)において配列される任意の数の計算デバイスが、本明細書に記載される技術の範囲を逸脱することなく使用され得ることが理解されるべきである。モジュール106a、106b、106cの例示的な機能性を以下に詳細に記載する。
【0021】
いくつかの態様において、機械学習モジュール106b中の分類モデル108は、畳み込みニューラルネットワーク(CNN)を含む。CNNは、入力層および出力層、ならびにその間に隠れ層を有する。それぞれの層は、複数の2D畳み込みフィルターを含み、それぞれの2D畳み込みフィルターは、3x3マトリックスのピクセル値を含む。いくつかの態様において、分類モデル108は、複数のCNNまたはそのアンサンブルを含み、ここでそれぞれのCNNは独立して、サブ画像が目的の細胞を含むかどうかを示す2つ以上のカテゴリーの1つにサブ画像を分類するために、サブ画像を入力として使用し得る。次いで、機械学習モジュール106bは、それぞれの畳み込みニューラルネットワークからの分類データを、サブ画像の全体的な分類に重ね得る。このアンサンブルアーキテクチャは、以下でさらに議論される。機械学習モジュール106bは、KerasニューラルネットワークAPI(https://keras.ioで入手可能)と共にTensorFlow機械学習ソフトウェアライブラリー(https://www.tensorflow.orgで入手可能)を使用して実行され得る。他の機械学習ライブラリーおよびフレームワーク、例えばTheano(https://github.com/Theano/Theanoから入手可能)が、本明細書に記載される技術の範囲内で使用され得ることが理解されるべきである。
【0022】
データベース110は、サーバー計算デバイス106に連結される計算デバイス(またはいくつかの態様において、計算デバイスの組)であり、本明細書に記載されるように複数の染色された組織学的画像中の目的の細胞を同定するプロセスに関連する画像データおよび分類データの特定のセグメントを受信、生成および記憶するように構成される。いくつかの態様において、データベース110の全てまたは一部は、サーバー計算デバイス106に組み込まれ得るかまたは別の計算デバイス(1つまたは複数)上に配置され得る。データベース110は、以下により詳細に記載されるように、系100の他の構成要素により使用されるデータの一部を記憶するように構成される、1つ以上のデータストア(例えば画像リポジトリ110a、分類データストア110b)を含み得る。いくつかの態様において、データベース110は、関連のあるデータベース構成要素(例えばSQL、Oracle(登録商標)等)および/またはファイルリポジトリを含み得る。
【0023】
画像リポジトリ110aおよび分類データストア110bのそれぞれは、本明細書に記載されるように複数の染色された組織学的画像中の目的の細胞を同定するために計100の他の構成要素により使用される特殊化されたデータを含む、データベース110の専用のセクションである。画像リポジトリ110aおよび分類データストア110bに対するさらなる詳細を以下に提供する。いくつかの態様において、画像リポジトリ110aおよび分類データストア110bは、別のデータベース(示さず)内に配置され得ることが理解されるべきである。
【0024】
図2は、本発明の態様による、図1の系100を使用して、複数の染色された組織学的画像中の目的の細胞を同定するために計算される方法200のフロー図である。操作202において、画像前処理モジュール106aは、1つ以上の独立チャンネルを含む複数の染色された組織学的画像を受信する。例えば、画像前処理モジュール106aは、例えば画像リポジトリ110aからのまたは画像前処理モジュール106aの外部にある別のデータ供給源(例えばサーバー計算デバイス106のメモリ内に配置されるデータストア)からの画像を受信し得る。いくつかの態様において、染色された組織学的画像は免疫蛍光画像であり、その少なくともいくつかは、1つ以上の目的の細胞を含む。図3は、本発明の態様による、画像前処理モジュール106aにより入力として受信される染色された組織学的画像である。図3に示されるように、画像は、第1の独立チャンネルを示す暗い灰色(例えば304)であるいくつかの細胞および第2の独立チャンネルを示す明るい灰色(例えば302)であるいくつかの細胞を含む、複数の細胞を含む。
【0025】
典型的に、画像の組は、特定の種類の細胞に指向された実験室実験からおよび/または実際の患者の病理学的試験もしくは検査から捕捉された数百(または数千)の画像を含む。例えば、染色された組織学的画像は、第1の表現型を有する目的の細胞が種々の希釈で、第2の表現型の細胞を含む細胞培養に添加されるスパイクイン実験から回収され得る。スパイクイン実験の一例において、OCT4+多能性幹細胞(PSC)(第1の表現型)を、いくつかの異なる希釈で胚性幹細胞(ESC)由来ニューロン(第2の表現型)の培養物に添加した。スパイクイン実験は定量的であり得、種々の検出方法を既知のスパイクインパーセンテージと比較することを可能にする。表現型同一性は、目的の細胞に特異的なマーカー(1つまたは複数)についての免疫染色により評価され得、これらのマーカーから回収される蛍光シグナルは、目的のチャンネル(1つまたは複数)にコード(encode)され得る。1つのチャンネルまたはいくつかのチャンネルが、生の染色された組織学的画像に適用され得ることが理解されるべきである。例えば、チャンネルは、複数の独立蛍光チャンネル(例えばRGB)および/または明視野もしくは白色光チャンネルを含み得、それぞれは入力画像に適用される。いくつかの態様において、2、3、4、5、6、7または8個の独立チャンネルがある。いくつかの態様において、画像前処理モジュール106aは、適用される第1の独立チャンネルを有する画像と、適用される第2の独立したチャンネルを有する対応する画像を重ね得、重ねられた画像の組を生成し得、次いでこれを、以下に記載されるように処理(例えば二値化、目的の領域の決定、切り取り)する。
【0026】
本明細書に記載されるように、目的の細胞は一般的に、特定の特徴または特性を示す細胞であり、系100は、入力画像の1つ以上内からこれらの目的の細胞を同定しようと努める。いくつかの態様において、目的の細胞は、複数の表現型特徴を有する細胞(例えばOCT4+細胞またはOCT4-細胞)を含む。いくつかの態様において、目的の細胞は、PSC(例えば誘導多能性幹細胞(iPSC)または胚性幹細胞(ESC))を含む。いくつかの態様において、目的の細胞は、1つ以上の多能性関連マーカー、例えばOCT4、Tra-1-60/81、SOX2、FGF4および/またはSSEA-3/4を発現する。いくつかの態様において、目的の細胞は、細胞集団中の不純物である。不純物は一般的に、予想される細胞型および/または遺伝子型以外の細胞型および/または遺伝子型を意味する。不純物は、生成物または最終生成物中で検出され得る処理関連残存夾雑物のいずれか、例えば残存未分化細胞、形質転換された細胞または標的ではない(off-target)細胞型であり得る。細胞性不純物は、これらの不純物を検出するために高度に感受性のアッセイが使用されるという安全性の問題を提示し得る。いくつかの態様において、不純物はまれに出現することが予想される。
【0027】
例えば、いくつかの態様において、1つ以上の入力画像は、心筋細胞の集団の少なくとも一部を示し、目的の細胞は、非心筋細胞、例えばペースメーカー細胞、線維芽細胞および/または心外膜細胞であり、ここで非心筋細胞は、心筋細胞により発現されない1つ以上のマーカーを発現する。いくつかの態様において、入力画像は、ドーパミン作動性ニューロンおよび/または前駆細胞の集団の少なくとも一部を示し、目的の細胞は、非ドーパミン作動性ニューロンおよび/または前駆細胞、例えば動眼神経ニューロンおよび/またはセロトニン作動性ニューロン、ドーパミン作動性ニューロンおよび/または前駆細胞により発現されない1つ以上のマーカーを発現する非ドーパミン作動性ニューロンおよび/または前駆細胞である。いくつかの態様において、入力画像は、所望の表現型を有するマクロファージの集団の少なくとも一部を示し、目的の細胞は、所望の表現型を欠くマクロファージであり、ここで所望の表現型は、所望の表現型を有するマクロファージにより発現され、所望の表現型を欠くマクロファージにより発現されない1つ以上のマーカーに対応する。いくつかの態様において、入力画像は、所望の遺伝子型(例えば所望の遺伝子コピー数または所望の遺伝子配列)を有する細胞の集団の少なくとも一部を示し、目的の細胞は、所望の遺伝子型を欠く(例えば所望の遺伝子コピー数の変形または所望の遺伝子配列中の変異)細胞であり、所望の遺伝子型は、所望の遺伝子型を有する細胞により発現され、所望の遺伝子型を欠く細胞により発現されない1つ以上のマーカーに対応する。上述の細胞型は例示的であり、本明細書に記載される技術は、入力画像内からの広範囲の異なる目的の細胞の検出に適用され得ることが理解されるべきである。
【0028】
再度図2を参照すると、操作204において、画像前処理モジュール106aは、染色された組織学的画像のそれぞれにおける1つ以上の独立チャンネルのピクセル値-限定されないが例えば低いシグナル-対-ノイズ比を有するそれぞれの画像における領域に関連するピクセル値を二値化する。いくつかの態様において、画像前処理モジュール106aは、二値化処理(閾値処理とも称される)を実施するためにOpenCV画像操作ライブラリー(https://opencv.orgで入手可能)を使用し得る。一般的に、二値化処理の際に、画像前処理モジュール106aは、所定の閾値以下の値を有する特定のピクセルのピクセル値を0に変え、所定の閾値を超える値を有する特定のピクセルのピクセル値を1に変える。一態様において、画像前処理モジュール106aは、それぞれの画像中の独立チャンネル(1つまたは複数)について、低強度ピクセル(すなわち閾値未満のピクセル値を有するピクセル)を0にマップし(map)、次いで強度値ヒストグラムの広がりを最大化する。次いで、画像前処理モジュール106aは、それぞれの画像中の独立チャンネル(1つまたは複数)を衰退させて(erode)、小さい領域の相互連結ピクセル領域を除去する。本明細書に記載されるように、相互連結ピクセル領域は、(例えば縁および/または角を接することにより)互いに対して近位に複数のピクセルを含み、その少なくともいくつかは、画像内で単一の領域として現れるように、同じまたは実質的に同様のピクセル値を共有する。画像前処理モジュール106aは、目的の細胞よりも小さいことが知られる領域を有する相互連結ピクセル領域を除去するように構成され得る。図4は、二値化後の、染色された組織学的画像(すなわち図3の画像)の例である。図4に示されるように、上述の二値化処理は、より顕著に見える-潜在的に目的の細胞を示す画像の特定の領域(例えば図3の領域302に対応する領域402)を生じる。
【0029】
一旦画像前処理モジュール106aがピクセル値を二値化すると、操作206において、モジュール106aは、連結され、特定のサイズの連結したピクセル領域の全体を含む独立チャンネル内のピクセル領域を見出すことにより、二値化された画像において1つ以上の目的の領域を決定する。画像前処理モジュール106aは、限定されないが低いシグナル-対-ノイズ比を有する別の領域を含む、それぞれの画像中のピクセル領域を考慮することが理解されるべきである。上で注意されるように、画像前処理モジュール106aは、ピクセル領域およびピクセル領域の全体的なサイズにおけるピクセルの結合性(例えば相互連結した領域中のピクセルの全てが1のピクセル値を有する)のために、目的の細胞を含み得る二値化された画像において特定のピクセル領域を同定するように構成され得る。例えば、OCT4+細胞は特定のサイズを有することが知られ得、画像前処理モジュール106aは、サイズ閾値を満たすかまたは超える二値化された画像において目的の領域のみを選択し得る。図5は、操作206において画像前処理モジュール106aにより同定された例示的な目的の領域502を示す、二値化後の染色された組織学的画像(例えば図4の画像)の例である。一般的に、それぞれの目的の領域は、1つ以上の境界座標、すなわち目的の領域の境界を記載する画像中の座標により画定される。一態様において、境界座標は、目的の領域の極値の座標、例えば北の座標、南の座標、東の座標および/または西の座標を含む。画像前処理モジュール106aは、決定された目的の領域に関連する統計学(すなわち境界座標およびサイズ)を捕捉し得る。いくつかの態様において、画像前処理モジュール106aは、捕捉された統計学をデータベース110中に記憶する。
【0030】
操作208において、画像前処理モジュール106aは次いで、境界座標に基づいてそれぞれの画像中の目的の領域を切り取り、それぞれが切り取られた目的の領域を含むサブ画像の組を作成する。いくつかの態様において、画像前処理モジュール106aは、切り取り処理を行うために、OpenCV画像操作ライブラリー(https://opencv.orgで入手可能)を使用し得る。図6は、二値化された画像(例えば図5の画像)からの切り取られた目的の領域を含む複数のサブ画像602a~602lの例である。図6に示されるように、それぞれのサブ画像602a~602lは、(明るい灰色で示される)相互連結したピクセルの領域を含む。サブ画像は全体的なそれぞれの黒色のボックスを含まないが、むしろそれぞれの矢印で記される小さい部分のみを含むことが注意されるべきである。いくつかの態様において、画像処理モジュール106aは、サブ画像602a~602lのいくつかまたは全てに0を水増しする(pad)ので、それぞれの得られた水増しされた画像は同じ寸法を含む。例えば、画像処理モジュール106aは、水増しされた画像が256x256ピクセルになるように大きさを変更し得る。
【0031】
サブ画像602a~602lにおけるピクセル領域は、偽陽性に加えて真陽性を含み得る、潜在的な目的の細胞であることも理解されるべきである。しかしながら、この方法は、独立チャンネルシグナルが有意である画像の任意および全ての領域が切り取られ、保存されることを確実にする。そのため、本明細書に記載される技術は、独立チャンネル領域の多くが、目的の細胞を含まない独立チャンネル領域において観察されるものよりもかなり低い低レベルのシグナルを有するために、独立チャンネル領域の有意さを大きく過大評価するので、フェイルセーフである。
【0032】
画像前処理モジュール106aにより生成されたサブ画像は次いで、(訓練された画像)分類モデル108による分類のために、機械学習モジュール106bに伝達される。操作210において、機械学習モジュール106bは、サブ画像の組を使用して分類モデル108を実行し、それぞれのサブ画像を、サブ画像が目的の細胞を含むかどうかを示す2つ以上のカテゴリーの少なくとも1つに分類する。上述のように、いくつかの態様において、分類モデル108は、目的の細胞の2つ以上のカテゴリーの間の違いを認識するように訓練される、多レベル畳み込みニューラルネットワーク(CNN)を含む。CNNのそれぞれの層は、いくつかの2D畳み込みフィルター(例えば256フィルター)を含む。フィルターのそれぞれは、入力サブ画像からのピクセル値のマトリックス(例えば3x3)である。また、それぞれの層は、修正線形ユニット(ReLU)活性化関数であり得る活性化関数および2D最大プール(pooling)(例えばプールサイズ2x2)を含む。分類モデル108は、入力サブ画像が目的の細胞を含むかまたは含まないかに関する分類予測を生成するように、それぞれの入力サブ画像を処理する。いくつかの態様において、分類モデル108は、入力サブ画像が2つ以上のカテゴリーに分類され得ることにおいて(例えば複数の表現型特徴を有する細胞の場合)、多面分類予測を生じるように構成される。いくつかの態様において、分類予測は、サブ画像の分類(すなわち目的の細胞を含む、目的の細胞を含まない等)を示す数値またはベクトルを含む。図6に戻って参照して、それぞれのサブ画像は、プラス(+)(例えば分類モデル108が、サブ画像を、目的の細胞を含むと分類したことを示す)またはX(例えば分類モデル108が、サブ画像を、目的の細胞を含まないと分類したことを示す)に関連する。本明細書に記載されるものを除いて他の型の分類出力が本技術の範囲内で使用され得ることが理解されるべきである。機械学習モジュール106bは、サブ画像上の分類モデル108の実行に関連する分類データを画像分類モジュール106cに伝達する。
【0033】
操作212において、画像分類モジュール106cは、分類モデル108によるサブ画像の組の分類に関連するデータを1つ以上のデータストアに記憶する。いくつかの態様において、モジュール106cは、対応する分類に基づいて分類データを記憶する。例えば、モジュール106cは、第1のデータストア(例えば画像リポジトリ110aにおいて画定されるファイルフォルダーまたはディレクトリ)中に目的の細胞を含むと分類されるサブ画像の1つ以上を記憶し得、モジュール106cは、第2のデータストア(例えば画像リポジトリ110aにおける異なるファイルフォルダーまたはディレクトリ)中に目的の細胞を含むと分類されるサブ画像の1つ以上を記憶し得る。上で注意されるように、分類データは、サーバー計算デバイス106上または遠隔データストア(例えばクラウドデータベース)中に局所的に記憶され得る。いくつかの態様において、(例えばメモリ制限のために)サブ画像を直接的に記憶することの代わりに、モジュール106cは、それぞれのサブ画像に割り当てられる分類値を示す分類結果(例えばテキストデータ)の概要を記憶し得る。
【0034】
分類モデルの訓練
以下のセクションには、系100が、大きな画像データセット中の目的の細胞を検出するために分類モデル108をどのように訓練するかが記載される。図7は、本発明の態様による、図1の系100を使用して、複数の染色された組織学的画像中の目的の細胞を同定するために画像分類モデルを訓練するための計算された方法700のフロー図である。操作702、704、706および708は、上述の操作202、204、206および208と同様であるので、詳細の多くは、ここでは繰り返さない。
【0035】
操作702において、画像前処理モジュール106aは、1つ以上の独立チャンネルを含む複数の染色された組織学的画像を受信する。染色された組織学的画像は、いくつかの態様において、1つ以上の目的の細胞を含むことが知られるおよび/または0個の目的の細胞を含むことが知られる訓練画像の組を含み得る。操作710において、画像前処理モジュール106aは、(図2の操作204に関して上述されるように)それぞれの画像中の低いシグナル-対-ノイズ比の別の領域を含むそれぞれの染色された組織学的画像中の独立チャンネルのピクセル値を二値化する。
【0036】
操作706において、(図2の操作206に関して上述されるように)画像前処理モジュール106aは、連結され、特定のサイズの連結されたピクセル領域の全体を含む1つ以上の独立チャンネル中のピクセル領域を見出すことにより、二値化された画像において1つ以上の目的の領域を決定し、ここでそれぞれの目的の領域は、1つ以上の境界座標により画定される。操作708において、(図2の操作208に関して上述されるように)画像前処理モジュール106aは、境界座標に基づいて画像中のそれぞれの目的の領域を切り取り、それぞれが切り取られた目的の領域を含むサブ画像の組を作成する。
【0037】
次いで操作710において、サブ画像の組におけるそれぞれのサブ画像は、サブ画像が目的の細胞を含むかどうかを示す2つ以上のカテゴリーの少なくとも1つに分類される。一例において、サブ画像は、(例えば訓練された専門家により)分析されて、サブ画像が目的の細胞を含むかまたは含まないかを決定し得る。次いでサブ画像は、分析に基づいて、画像リポジトリ110a中の別々の訓練フォルダに分離され得る。例えば、目的の細胞を含むと思われるサブ画像は陽性訓練フォルダに記憶され得、一方で目的の細胞を含まないと思われるサブ画像は陰性訓練フォルダに記憶され得る。いくつかの態様において、分類できないサブ画像は、別のフォルダに記憶され得る。また、陽性訓練フォルダおよび陰性訓練フォルダに記憶されるサブ画像のそれぞれの一部(例えば25%)はさらに、陽性検証フォルダおよび陰性検証フォルダのそれぞれに分離され得る。機械学習モジュール106bは、分類モデル108を訓練するためにこれらの検証画像を直接的には使用しないが、代わりに分類モデル108が過剰に適合(overfit)しないことを確実にするために、訓練の間にこれらの検証画像を使用する。
【0038】
操作712において、機械学習モジュール106bは、分類されたサブ画像を使用して画像分類モデルを訓練して、1つ以上の分類されないサブ画像が目的の細胞を含むかどうかの予測を生じる訓練された画像分類モデル108を作成する。いくつかの態様において、訓練されない画像分類モデルは、(先の段落に記載されるように)当該技術分野の専門家により標識されている提供された画像である。標識された画像は、訓練に入手可能な画像の数が非常に多くあり得るので、入手可能な画像の総数のサブセットのみを含み得ることが理解されるべきである。予備的な画像分類モデルは、これらの標識された画像に対して訓練され、次いで訓練に入手可能であった画像の残りを分類するために使用される。この操作の間に、当該技術分野の専門家は、分類結果を調べ得、訓練された分類モデルを展開まで動かすか、または分類結果が最適に及ばないものであった場合は、誤って分類された画像のいくつかを訓練プールに追加することにより訓練データセットをさらに管理する(curate)かのいずれかをし得る。
【0039】
訓練されない画像分類モデル108(すなわち以前に記載される多レベルCNN)は、2つのカテゴリーの間の違いを認識するために、訓練についての入力として(例えば陽性および陰性訓練フォルダからの)分類されたサブ画像を使用する。訓練の間に、機械学習モジュール106bは、検証画像を使用して、分類モデル108 対 既知の分類(陽性または陰性)により作成された予測の精度を表す誤り関数を評価および最小化する。一旦誤り関数がプラトーに達すると、機械学習モジュール106bは、モデル訓練段階を終え、分類モデル108は、展開のための準備ができ、入力として分類されないサブ画像を受信し、それぞれのサブ画像が目的の細胞を含むかどうかを予測する。
【0040】
例示的な訓練プロセスにおいて、系100は、OCT4+スパイクイン実験からのデータのサブセットを使用して、分類モデル108を訓練した。1105(1105)のOCT4+画像および1432のOCT4-画像を使用して分類モデル108を訓練し、上述のような検証目的でそれぞれの画像セットの25%を使用した。訓練の後、全てのOCT4+細胞を見出すことを目標とした全スパイクイン実験データセットに対して、分類モデル108を試験した。図8は、OCT4+細胞の計算されたパーセンテージ 対 既知のPSCスパイクインパーセンテージを示す図である。図8に示される結果は、既知のスパイクインパーセンテージと非常に良好に一致する。例えば、最初の3列は、0%のスパイクインされたES細胞を有し、0%が検出された(または計算された)。次の2列は、1%のスパイクインされたES細胞を有し、該モデルにより1%および0.8%それぞれが計算された。次の2列は、0.1%のスパイクインされたES細胞を有し、該モデルにより0.07%および0.08%それぞれが計算された。次の2列は、0.01%のスパイクインされたES細胞を有し、該モデルにより、両方の列について0.01%が計算された。最後に、最後の3列は、0.001%のスパイクインされたES細胞を有し、該モデルにより、0.001%、0.003%および0.004%それぞれが計算された。また、分類モデル108は、529のOCT4+細胞を正確に同定し得、該モデルは訓練および検証されなかったので、該モデルは過剰適合ではなかったことが示された。
【0041】
オートエンコーダ補助バックグラウンド検出および除去
入力画像データにノイズがある(noisy)いくつかの態様において、画像前処理モジュール106cにより実施される画像二値化および自動切り取り操作(例えば図2の操作204および208)は、過剰なノイズのために、過剰な偽陽性を生じ得るかまたは真陽性の切り取りを失敗し得る。過剰な偽陽性を有することにより、系の作業は必要とされるよりも困難になる。図9は、ノイズの効果を示す、いくつかの例示的な染色された組織学的画像902、904、906、908を示す。画像902は、1つ以上の真陽性の目的の細胞を含み、低いバックグラウンドノイズを有し、一方画像904は、陽性の目的の細胞を含まず、また低いバックグラウンドノイズを有する。対照的に、画像906は、1つ以上の真陽性の目的の細胞を含むが高いバックグラウンドノイズを有し、画像908は目的の細胞を含まず、また高いバックグラウンドノイズを有する。
【0042】
ノイズがあるデータセットについて、系100は、入力画像の二値化および切り取りの前にバックグラウンドサブトラクション操作を実行し得る。いくつかの態様において、機械学習モジュール106bは、畳み込みオートエンコーダを使用する。具体的に、隠れ層においてボトルネックを含むオートエンコーダは、オートエンコーダが訓練されるデータ空間の圧縮された表示を学習することを必ず強制される。目的の細胞を含まない画像に対してオートエンコーダが訓練される場合、オートエンコーダは、これらの細胞を含む領域を効果的に再構築し得ない。そのため、元の入力画像からオートエンコーダ再構築画像を差し引くことにより、機械学習モジュール106bは、目的の細胞を強調しながらバックグラウンド画像ノイズ(およびオートエンコーダ訓練データ中に存在しない他の画像異常)を除去し得る。いくつかの態様において、限定されないが、畳み込みオートエンコーダ、変分(variational)オートエンコーダ、敵対的(adversarial)オートエンコーダおよびスパース(sparse)オートエンコーダなどの異なる型のオートエンコーダアーキテクチャが使用され得る。
【0043】
図10は、本発明の態様による、入力である染色された組織学的画像からバックグラウンドノイズを検出および除去するために、機械学習モジュール106bがオートエンコーダ1002をどのように使用し得るかを示すフロー図である。オートエンコーダは、目的の細胞を何ら含まない画像を再構築することにより訓練される。オートエンコーダは効果的に、バックグラウンドノイズをどのように再構築するかを学習する。より具体的に、訓練段階1004の間、オートエンコーダ1002は、目的の細胞を何ら含まない複数の染色された組織学的画像を受信する。オートエンコーダ1002は、これらの入力画像を処理して、入力画像(すなわち目的の細胞を何ら有さないバックグラウンドシグナル)を再構築し得る。一旦オートエンコーダ1002が訓練されると、機械学習モジュール106bは、目的の細胞を含むノイズがある入力画像をオートエンコーダ1002に提供し得、これはこれらの画像のバックグラウンドを再構築し得るが、訓練画像セット中に存在しない任意の異常を不十分に再構築する(すなわち目的の細胞および他のプロセス関連異常)。次いで、画像前処理モジュール106aは、元のノイズがある入力画像からオートエンコーダ1002により作成された再構築された画像を差し引いて、多くのバックグラウンドノイズが除去されるが、さらに分析される目的の細胞を保持する画像を作成し得る。これらのバックグラウンドが差し引かれた画像は次いで、上述のような二値化および自動切り取りのために使用され得る。
【0044】
本明細書に記載される対象検出技術は、目的の細胞の検出に限定されず、広範囲の画像データセットおよび目的の対象に適用され得ることが理解されるべきであり、ここで対象は、画像バックグラウンドとの色および/または明るさの対比により特徴付けられる。これらの状況下で、本明細書に記載される技術は、大きな画像データセット中の目的の対象を捕捉および分類するための効果的かつ正確な機構を有利に提供し得る。一例は、空などの画像背景に対する対象の検出および同定である。本明細書に記載される方法および系は、画像中の対象を検出するためおよびまた対照についての種類または分類を同定するため(例えば対照は鳥かまたは飛行機か?)の両方に使用され得る。当業者は、他の適用が本技術の範囲内に存在し得ることを理解し得る。
【0045】
アンサンブル学習アプローチ
本発明の別の局面において、機械学習モジュール106bは、使用される分類モデルを選択するためのアンサンブル学習技術を使用する。この技術を使用する全体のプロセスは、図2および7に概略が示されるプロセスとのいくつかの重複を有する。図11に図示されるプロセスフローは、以下を含む:
・画像をしきい値処理、切り取りおよび標準化することによりデータを前処理する(操作1105)。
・切り取られた画像をOCT4+またはOCT4-と標識する(操作1115)。
・OCT4+細胞とOCT4-細胞の間を識別するために機械学習分類子(classifier)を訓練する(操作1125)。これは、モデルを作成することおよび訓練セットを管理することを含む。アンサンブルアプローチにおいて、複数のモデルのそれぞれが訓練され、試験される。
・偽陽性についての結果、ならびにプレートおよび画像の重複ならびにしきい値処理の不一致などの処理の誤りを手動で抜き取り検査を行う(操作1135)。
・何らかの問題が見られる場合、それらを固定して前処理操作に戻す。
・分類結果を従来方法と比較する。
・訓練されたモデルの1つ以上を含むように最終モデルを決定する。
・最終モデルを展開して、目的の細胞を検出する。
【0046】
種々の幹細胞(例えばPSC)希釈物を産生するための1つの組織学的染色プロセスは、以下のように実施する。幹細胞生成物を融解して、E8 (Essential 8TM)基本培地を使用して250,000細胞/cm2で24ウェルプレートの18ウェルで培養する。1%スパイクされたPSCバンクを用いて開始し、5段階の1:10連続希釈(0.00001%~1%)を、500,000細胞/mlに希釈された細胞生成物中で調製し、これをE8基本培地中でも調製する。細胞生成物を残りのウェルに分配する。細胞を、37℃で4時間、5% CO2雰囲気中でインキュベートして、細胞を接着させる。この時間の後、細胞をD-PBS (Dulbecco'sリン酸緩衝化食塩水)ですすぎ、4% PFA(パラホルムアルデヒド)で30分間固定する。次いで細胞をD-PBSで3回洗浄し、4℃で一晩PBS中に残す。次いで1% BSA(ウシ血清アルブミン)を有するPBS中0.3% Triton X-100(ポリエチレングリコールtert-オクチルフェニルエーテル)を使用して、細胞を30分間浸透化する(浸透性にする)。OCT4一次抗体を、250μl/ウェルで、1% BSA中1:1000希釈で適用し、室温で3~4時間、プレート振盪器上で緩やかに振盪しながらインキュベートする。次いで細胞を、マルチチャンネルピペットを用いて1ml/ウェルでPBSにより3回洗浄する。次いで細胞を、1:2000の希釈で蛍光色素と共に1時間インキュベートする。この色素は緑色であり得る(例えばAlexa Fluor(登録商標)488二次抗体、488nmより高いスペクトルの緑色部分で吸光/発光する)。他の態様において、色素は、下記の青色チャンネルとのスペクトル重複を最小化するように赤色であり得る。これらの態様において、Alexa Fluor(登録商標)647二次抗体(647nmより高いスペクトルの遠赤外末端で吸光/発光する蛍光色素)を使用し得る。最後の10分間、細胞を、1:10,000希釈の青色色素とインキュベートする。青色色素は、約350~461nmのスペクトルの青色末端で吸光/発光する蛍光色素であるヘキスト33342色素または同様の吸光/発光挙動を有するDAPI(4',6-ジアミジノ-2-フェニルインドール)であり得る。次いで細胞をPBSで3回洗浄する。細胞がすぐに画像化されない場合、細胞をパラフィルムおよびアルミホイルに包んで4℃で保存する。
【0047】
幹細胞の画像化は、PerkinElmer Operetta CLSTM High Content分析系を使用して実施し得る。画像取得は、緑色(または場合により赤色)および青色チャンネルを使用して、Operettaで設定し得る。緑色(赤色)チャンネルはOCT4に対して選択的であるが、青色チャンネルは全ての核に対して選択的である。両方のチャンネルについての暴露は、染色の質に基づいて調整され得る。典型的な暴露時間は、緑色/赤色チャンネルについて50%パワーで50msおよびヘキストチャンネルについて50%パワーで5msである。全てのウェルを、最も焦点が合っていると実験的に決定された単一Z平面を使用して20X拡大で画像化する。単一プレートの取得には約4時間かけ得る。PerkinElmer's Harmony High-Content画像化および分析ソフトウェアを使用して画像を分析し得る。出力は、パーセントOCT4+細胞として測定し得る。
【0048】
画像前処理モジュール106aを使用して前処理を実施し得る。同じ視野に属するが異なるチャンネル(例えば汎核チャンネル(例えばDAPI)および目的のチャンネル(例えばOCT4))からの画像を、単一画像ファイル中で重ね得、8ビット(.png)ファイル形式に変換し得る。重ねた画像の1つのコピーを、汎核チャンネルを衰退させることおよびそれを割り当てられないチャンネル(典型的に赤色チャンネル)にマッピングすることによりさらに改変し得る。衰退された画像が割り当てられないチャンネルに割り当てられる場合、画像は、核が赤色のコアを包み込む青色のリングに類似するはずであるので、核のより容易な視覚化を可能にするが、この改変は、モデル訓練または評価には使用されない。結果を図12Aに示す。重ねた画像の別のコピーは、OCT4+チャンネルのしきい値処理および二値化により改変する。画像の閾値処理/二値化されたバージョンを、自動化された画像切り取りに使用する。陽性であるOCT4+チャンネル中のそれぞれのピクセル領域(すなわち255に等しい)を考慮する。領域が特定の面積範囲に達する場合、領域は自動的に切り取られ、(256x256ピクセルまで)大きさを変更される。しきい値処理および切り取りのこのプロセスは、全てのOCT4+細胞+多くの偽陽性を有効に捕捉する。図12Bは、真陽性(右上の角に「+」で示される)-上の2列-および偽陽性-底の列の両方を示す。本発明の目的の1つは、OCT4+細胞とOCT4-細胞の間を識別し得ることである。
【0049】
該プロセスの次の部分は、分類モデルを開発することである。本発明のこの局面において、図13に概略的に示されるように、機械学習モデルのアンサンブルを使用したアプローチが使用される。画像の組であり得るデータセット1302は、この例において畳み込みニューラルネットワークとして示される機械学習モデル、1351~1359のアンサンブルに入力される。4つのモデルを示し、ここで4番目のモデル、モデルnまでの点線は、4つより多くのモデルがあり得ることを示す。一態様において、25のモデルが訓練される(すなわちn=25)が、訓練され得るモデルの具体的な最大または最小の数はない。それぞれのモデルはそれ自身の強さおよび弱さを有し、アンサンブルはいずれか1つのモデルの特色を平均する傾向があるので、モデルのアンサンブルを使用する。それぞれのモデルは、それぞれの画像に関して、例えば画像がOCT4+細胞を含むかまたは含まないかを決定する。それぞれのモデルの投票(すなわち決定)は、ブロック1370で合わされ得、全体としてのアンサンブルは画像の最終的な評価をなし得る。
【0050】
機械学習モデルの開発において、モデルの訓練、検証および試験のためにデータセットをサブセットに分離することが最良の実務である。訓練セットを使用して、セット中の試料の間を識別するための式をどのように最良に定義するかについて機械に教える。訓練がどのくらい良好に進行するかへの指標を提供するセミブラインド(semi-blind)セットとして、訓練の間に検証セットを使用する。訓練プロセスは、式がどのくらい良好に検証セット試料を識別するかを試験するために、訓練セットに対して、学習された式を適用する。検証セットの識別が標準より下(subpar)である場合、セットの精度閾値が達成されるまで、その性能を向上することを試みるために式を微調整する。過剰適合を防ぐために、一旦検証の損失が2のエポックまたは段階を超える特定の量による向上を止めると、訓練は止まる。図14Aは、訓練および検証の損失の変化が1のエポックからもう1つまでと最小である場合、すなわち2つの曲線が比較的平坦である場合に停止する、モデル訓練の各エポックにわたる訓練および検証の損失を図示する。一旦モデルが完了すると、モデルは、ここまでの訓練プロセスから完全にブラインドにされている試験セットに適用される。この工程から回収される性能測定基準を使用して、モデルがどのくらい良好に作動するかを決定する。
【0051】
このプロセスを実行する伝達経路は、図14Bに示されるように複数のモデルを並行して構築および評価することを可能にする。データセット1402は、以前に記載されるように操作1405において前処理されて、前処理されたデータセット1406を生成する。かかるデータセットは、操作1410において陽性または陰性画像のいずれかを含むと標識されるので、精度は後に測定され得る。操作1415において、標識されるデータセットは、試験セット1422(画像セットの約20%)および検証/訓練セット(画像セットの約80%)に分離される。次いで検証/訓練セットは、検証セット1424(かかる者のセットの約20%)および訓練セット1426(かかる者のセットの約80%)に分離される。
【0052】
本発明の場合において、以下の訓練、検証および試験のデータセットを作成した。第1に、2864の画像に、検討者が、細胞を、OCT4について陽性または陰性に染色されると考えたかどうかを示す陽性または陰性のタグで注釈をつけた。ニューラルネットワークを訓練するために使用される訓練セットは、分類するために使用されるデータセットとは別であることに注意。表1は、注釈により訓練セットの内訳(breakdown)を示す。
【表1】
【0053】
表2は、実験による訓練セットの内訳を示す。
【表2】
【0054】
次いで、注釈をつけられたファイルを、表3に示されるように、訓練、検証および試験データセットに分割した。試験セットは画像の20%;検証セットは残りの画像の20%および訓練セットは残りを含んだ。
【表3】
【0055】
図14Bに示される伝達経路は、アンサンブルを作成するために使用されるいくつかのモデルを一度に訓練する。図13のモデル1351~1359と同様に、図14Bにおいて訓練される4つのモデル1451~1459を示し、ここで4番目のモデルまでの点線は、4つより多くのモデルがあり得ることを示す。好ましくは、アンサンブル中のそれぞれのモデルは、ディープ畳み込みニューラルネットワーク(CNN、時々「DNN」と称される)である。畳み込みニューラルネットワークは、画像を互いから区別するために、二次元画像において、エッジなどの特徴を検出することが得意である。上述のように、CNNは、入力層および出力層ならびにその間に隠れ層を有する。2つ以上の隠れ畳み込み層を有するCNNは、しばしば「ディープ」と称される。畳み込み層のそれぞれは、いくつかの畳み込みフィルターを含む。畳み込みフィルターは、エッジ検出などの単一の畳み込み操作のための重みの組をいう。それぞれの畳み込み層は活性化関数を含む。畳み込み層に加えて、CNNは、いくつかの高密度(「十分に連結された」とも称される)層を含む。
【0056】
CNNを構築することは、モデルパラメータ(典型的に「ハイパーパラメータ」と称される)についての値を割り当てることまたは特定することを含む。これらのハイパーパラメータは、畳み込み層の数および高密度層の数を含み得る。これらの層のそれぞれについて、ハイパーパラメータは、それぞれの層についての活性化関数および脱落パーセンテージを含み得る。それぞれの畳み込み層について、最大プールパラメータが特定され得る。別のハイパーパラメータは、最適化機能(またはオプティマイザ)であり、その一般的な例は、確率的勾配降下法(SGD)アルゴリズムである。他のハイパーパラメータとしては、訓練損失パラメータ、訓練損失測定規準、バッチサイズ、(畳み込み)フィルターサイズおよび標的サイズが挙げられる。他のハイパーパラメータは、サブパラメータ:早期停止パラメータ(ペイシェンス(patience)、モニター設定および最小デルタなど)、プラトーにおける低減された学習速度(モニター設定、要因、ペイシェンス、エプシロン、クールダウンおよび最小学習速度など)およびモデル適合パラメータ(エポックの数、エポック当たりの段階および検証段階など)を有する。
【0057】
再度図14Bを参照すると、それぞれのモデルは、データセットにおけるデータの画分(fraction)上の操作1441~1449において訓練される(この例において訓練について約64%および検証について16%)。訓練は、畳み込みフィルターをデータにわたり動かすことを含み得、ここでフィルターは、陽性画像と陰性画像を識別するためのパターンを獲得する(take on)ことを学習する。訓練は、フィルター上の重みおよびフィルター上のパターン(例えばエッジフィルターまたは円形ルッキング(circular looking)フィルター)を改変することを含み得る。
【0058】
過剰適合に情報を与え、それを回避するための訓練の間に、検証データは試験される。訓練の後、それぞれのモデルは、試験データ(この例においてデータの約20%-訓練または検証に使用されなかったデータ)を使用して、操作1461~1469において試験される。該モデルの結果、すなわち画像が陽性であるかまたは陰性であるかが操作1470に送られて合わされ、投票もしくはスタッキングまたは組み合わせによりデータの最終的な評価(「決定」)が生じる。操作1475は、決定が「十分に良好である」か、すなわちアンサンブルが目的の細胞(ここではOCT4+細胞)を同定するための十分に低い検出限界(LOD)を生じたかを尋ねる。LODが十分に低い場合、操作1480は、データを再度サンプリングして、モデルを再評価して、モデルの確固たることを評価し、アンサンブルが過剰適合していないことを確実にするための別の方法であるブートストラップ(bootstrapping)を実施する。ブートストラップの後にアンサンブルが操作1495においてその特性を維持する、すなわちアンサンブルが過剰適合しない場合、最終アンサンブル1499が最後を飾る(crowned)。操作1475においてアンサンブルがその規定されるLODを満たさないかまたは操作1495においてブートストラップで生き残らない場合、操作1430においてアンサンブルの個々のモデルのハイパーパラメータに対して改変がなされ、訓練および評価プロセスが反復される。このプロセスは、最終アンサンブル1499が決定されるまで繰り返され得る。
【0059】
一例において、20の異なる畳み込みニューラルネットワークのアンサンブルを、図14Bの伝達経路を使用して訓練し、表4に示されるようにそれぞれのモデルに対して性能測定規準を回収した。
【表4-1】
【表4-2】
最初の列、感度は、真陽性を検出する割合を測定する。特異性は、真陰性の割合を検出する割合を測定し、精度は正しい検出の全体的な割合を測定する。ROC_AUCは、その識別閾値が変化する場合に二値分類子系の診断能力を示すプロットであるROC(受信者動作特性(receiver operator characteristic))曲線下面積を測定する。ROC曲線は、0~1の間の種々の閾値設定で、偽陽性の割合(1-特異性)に対して真陽性の割合(感度)をプロットする。表4に、感度の順序、次いでROC_AUCの順序でモデルを列挙する。図15は、最良の精度を有するモデル、モデル4についてのROC曲線を示す。このモデルはまた、最良のROC_AUCを偶然に有する。
【0060】
最終アンサンブルはいくつかの方法で使用され得る。一態様において、最終アンサンブルからの最良のモデルは、展開段階の間に画像データセットからOCT4+細胞を検出するために使用され得る。別の態様において、多くのモデルの性能が同様である場合、いくつかのモデルは異なるデータセットを用いてより良く働き得るので、展開段階の間に十分な最終アンサンブルが使用され得る。他の態様において、最終アンサンブルからのモデルの全て未満であるが1つより多いモデルが展開段階の間に使用され得る。選択されるものは、最高の精度、最高のROC_AUCまたはこれらの測定および表4における他のもののいくつかの組合せにより決定される場合に最良に作動し得る。
【0061】
図14Bの投票またはスタッキング操作1470に関して上で議論されるように、モデルの全ての結果が合わされる。それぞれの画像が試験されるそれぞれのモデルからの分類のベクトルを含む、集められたデータが構築される。表5は、実際の回答(訓練の間に人が注釈をつけた「真」の部類)と比較されたそれぞれの画像についてのそれぞれのモデルの決定を記録するより大きな表の最初の部分であり、ここで1は陽性を示し、0は陰性を示す。
【表5】
表5に示される全ての4つの画像は、真の部類の列の1により示されるように実際に陽性画像である。モデル1、2および3は4つの画像のうちの3つを正確に検出した(しかしながらそれらは必ずしも同じ画像を正確に検出しなかった)。モデル4およびnは画像の2つを正確に検出した。
【0062】
操作1470に示されるように、最終的な分類をどのように達成するかについて、2つの異なるアプローチ-投票およびスタッキングが採られた。本発明者らは、3つの異なる投票方法および9つの異なるスタッキング方法を評価した。3つの投票方法は以下のものであった:
・ハード投票(Hard Vote):モデルの大部分が一致する部類に画像が割り当てられる(the image is assigned the class the majority of models agree upon);
・GT_75:75%より多くのモデルが「陽性」と投票する場合に画像は「陽性」と分類され、そうでない場合は画像は「陰性」に割り当てられる;および
・最大投票:25のモデルを使用した場合、25のモデルの全てにわたる最高レベルの一致は22であったので、22のモデルが、画像が「陽性」であったことに一致した場合に、画像は「陽性」と分類され、そうでなければ画像は「陰性」に割り当てられる。
75%とは異なる大部分(例えば60%、80%、95%等)を使用することなどの他の同様の方法が使用され得る。
【0063】
表6Aは、これらの3つの方法の精度を示し、ここで「最大投票」は、他の2つよりも決定的にかなり不十分である。
【表6A】
【0064】
スタッキングは、投票方法の代わりに、別の機械学習分類子を使用して最終部類を割り当てる場合のものである。9つのスタッキング(分類)方法は以下のものであった:
・最近傍法
・線形サポートベクターマシン(SVM)
・放射基底関数(RBF) SVM
・ガウス過程
・決定木
・ランダムフォレスト
・多層パーセプトロン(MLP)
・適応的ブースティング(AdaBoost)
・単純ベイズ
表6Bは、降下順でのこれらの9つの方法の精度を示す。これらの方法の全ての精度は同等であることに注意。
【表6B】
【0065】
表6Cは、降下順でのこれらの方法の全ての12の精度を示し、投票方法には下線を引く。これらのうち、ガウス過程が最良の分類方法である。これは、画像が陽性であるかまたは陰性であるかを決定するために表5の結果と共に使用されるプロセスである。
【表6C】
【0066】
本発明の方法の結果を、精選されたおよびより精選されていないシナリオにおいて幹細胞を検出するためにPerkinElmer Operettaを使用して達成されたものと比較する。第1の実験において、播種密度(seeding density)は1%から0.00001%に変化した(10,000,000中1)。表7は、24ウェルを有するプレートについての播種密度を示す。5つのプレートを調製した。
【表7】
予想されるOCT4+計数は、播種密度*DAPI計数として計算した。
【0067】
図16A~16Cは、予想される計数と比較した3つの方法によるOCT4+細胞の検出を示す。3つの方法は、1)機械学習アンサンブル+分類子としてGT_75投票を使用、2)機械学習アンサンブル+分類子としてガウス過程スタッキングを使用、および3)機械学習アルゴリズムまたは人工知能を使用しないOperettaである。図16Aは、5つのプレートそれぞれ中のウェルの全てについて検出された総OCT4+細胞を示す。予想される計数は、それぞれのプレートについて2400~ちょうど2800を超える範囲であり、予想される総計数は13,200を超えた。それぞれのプレートおよび合計について、3つの方法のそれぞれはOCT4+細胞の数を過剰評価したが、3つ全ては予想される量と同等であった。全体的に、Operettaは、検出されたOCT4+細胞の数に関して予想されるものに最も近く作動した。より具体的に、Operettaは1.154x予想されるOCT4+細胞の数を検出し、ML+ガウスは1.210xを検出し、ML+GT_75は1.211xを検出した。
【0068】
図16Bおよび16Cは、より精選されたシナリオにおけるOCT4+細胞の検出、1,000,000中1(2ウェル-行1、列5および6)および10,000,000中1(18ウェル-行2~4)のそれぞれを示す。図16Bにおいて、それぞれのプレートについて0.5のみの計数が予想され、予想される総計数はちょうど2.5であった。プレート3および4において、機械学習アンサンブル技術のいずれもOCT4+細胞を検出せず、一方でOperettaは5を検出した。プレート5において、両方のML技術は7細胞を検出し、一方でOperettaは17を検出した。プレート1および2において、3つ全ての方法は同様に作動し、同じ数の細胞または互いの1つ以内を検出した。しかしながら全体的に、ML技術は、有意に少ない細胞を検出し、Operettaよりも予想される数にかなり近かった。より具体的に、Operettaは11.5x予想されるOCT4+細胞の数を検出し、ML+ガウスは4.9xを検出し、ML+GT_75は4.9xを検出した。この驚くべき結果は、偽陽性の同定における有意な低減を示す。
【0069】
図16Cは同様の結果を示す。予想される総計数はちょうど約2細胞であったので、それぞれのプレートについて約0.4のみの計数が予想された。プレート1、3および4において、Operettaは、ML技術で検出したものよりも多くの細胞を検出した。プレート2および5において、3つ全ての技術は、ほぼ同じ数の細胞を検出した。しかしながら全体的に、ML技術は再度、有意により少ない細胞を検出し、Operettaよりも予想される数にかなり近かった。より具体的に、Operettaは62.2x予想されるOCT4+細胞の数を検出し、ML+ガウスは24.9xを検出し、ML+GT_75は16.6xを検出した。このグラフはまた、偽陽性の同定において驚くべき有意な低減を示す。
【0070】
したがって、人工知能を使用して画像中の目的の対象物を検出するための方法および系が記載されている。より具体的に、これらの方法および系は、大きな画像データセットにおいて目的の細胞を検出するために人工知能を使用する。これらの技術は、同定される偽陽性の数を大きく低減しながら、非常に低いレベルの目的の細胞を信頼性高く検出する。自動化された方法はまた、画像分析に含まれる手動の労力を大きく低減する。さらに、細胞療法生成物に適用される場合、これらの技術は、希少な細胞が不純物とみなされるために、かかる生成物の安全性プロフィールを向上する。
【0071】
上述の技術は、デジタルおよび/またはアナログの電子回路、またはコンピューターハードウェア、ファームウェア、ソフトウェアあるいはそれらの組合せにおいて実行され得る。該実行は、データ処理装置、例えばプログラム可能プロセッサ、コンピューターおよび/または複数のコンピューターのオペレーションによる実行のために、または該オペレーションを制御するために、コンピュータープログラム産物、すなわち機械読み取り可能記憶デバイスにおいて具体的に実現されるコンピュータープログラムと同様であり得る。コンピュータープログラムは、ソースコード、コンパイルされたコード、解釈された(interpreted)コードおよび/またはマシンコードなどのコンピューターまたはプログラミング言語の任意の形式で記載され得、コンピュータープログラムは、独立型プログラムとしてまたはサブルーチン、要素もしくは計算環境における使用に適した他のユニットを含む任意の形式で展開され得る。コンピュータープログラムは、1つのコンピューターまたは複数のコンピューター上、1つ以上の部位で実行されるように展開され得る。コンピュータープログラムは、クラウドコンピューター環境(例えばAmazon(登録商標)AWS、Microsoft(登録商標)Azure、IBM(登録商標))中で展開され得る。
【0072】
方法オペレーションは、入力データを実行することおよび/または出力データを作成することにより技術の機能を実施するためにコンピュータープログラムを実行する1つ以上のプロセッサにより実施され得る。方法オペレーションはまた、特別な目的のロジック回路、例えばFPGA(フィールドプログラマブルゲートアレイ)、FPAA(フィールドプログラマブルアナログアレイ)、CPLD(複合プログラマブルロジックデバイス)、PSoC(プログラマブルシステムオンチップ(Programmable System-on-Chip))、ASIP(用途特定命令セットプロセッサ(application-specific instruction-set processor))またはASIC(用途特定集積回路)等により実施され得、装置はそれらとして実行され得る。サブルーチンは、記憶されたコンピュータープログラムおよび/またはプロセッサ、および/または1つ以上の機能を実行する特別な回路構成の一部をいい得る。
【0073】
コンピュータープログラムの実行に適したプロセッサとしては、例示により、本明細書に記載される方法を実施するために実行可能な命令により具体的にプログラムされた特別な目的のマイクロプロセッサ、および任意の種類のデジタルまたはアナログコンピューターのいずれか1つ以上のプロセッサが挙げられる。一般的に、プロセッサは、読み取り専用メモリもしくはランダムアクセスメモリまたは両方から命令およびデータを受信する。コンピューターの本質的な要素は、命令を実行するためのプロセッサおよび命令および/またはデータを記憶するための1つ以上のメモリデバイスである。キャッシュなどのメモリデバイスは、データを一時的に記憶するために使用され得る。メモリデバイスは、長期データ記憶のためにも使用され得る。一般的に、コンピューターはまた、データを記憶するための1つ以上の大規模記憶デバイス、例えば磁気、磁気光学ディスクもしくは光学ディスクを含むか、またはそれらからデータを受信もしくはそれらへデータを伝達もしくはその両方のために操作的に連結される。コンピューターはまた、命令および/またはデータをネットワークから受信および/または命令および/またはデータをネットワークに伝達するために、通信ネットワークに操作的に連結され得る。コンピュータープログラム命令およびデータを具体化することに適したコンピューター読み取り可能記憶媒体としては、例示により、半導体メモリデバイス、例えばDRAM、SRAM、EPROM、EEPROMおよびフラッシュメモリデバイス;磁気ディスク、例えば内部ハードディスクまたは取り外し可能ディスク;磁気光学ディスク;ならびに光学ディスク、例えばCD、DVD、HD-DVDおよびBlu-rayディスクを含む揮発性および非揮発性メモリの全ての形式が挙げられる。プロセッサおよびメモリは、特別な目的のロジック回路により補助され得るかおよび/またはその中で一体化され得る。
【0074】
ユーザーとの相互作用を提供するために、上述の技術は、情報を、ユーザーおよびキーボードおよび位置表示装置、例えばユーザーが入力をコンピューターに提供し得る(例えばユーザーインターフェイスエレメントと相互作用する)マウス、トラックボール、タッチパッドまたはモーションセンサーに表示するために、ディスプレイデバイス、例えばCRT(ブラウン管)、プラズマまたはLCD(液晶ディスプレイ)モニター、モバイルデバイスディスプレイまたはスクリーン、ホログラフィーデバイスおよび/またはプロジェクターと連絡した計算デバイス上で実行され得る。他の種類のデバイスを使用して、ユーザーとの相互作用を同様に提供し得;例えばユーザーに提供されるフィードバックは、知覚フィードバック、例えば視覚的フィードバック、聴覚的フィードバックまたは触覚的フィードバックの任意の形態であり得;ユーザーからの入力は、聴覚的、言語および/または触覚的入力などの任意の形態で受信され得る。
【0075】
上述の技術は、バックエンド構成要素を含む分配された計算系において実行され得る。バックエンド構成要素は、例えばデータサーバー、ミドルウェア構成要素および/またはアプリケーションサーバーであり得る。上述の技術は、フロントエンド構成要素を含む分配された計算系において実行され得る。フロントエンド構成要素は、例えばグラフィカルユーザーインターフェイス、それを通してユーザーが例示的な実行と相互作用し得るWebブラウザ、および/または伝達デバイスのための他のグラフィカルユーザーインターフェイスを有するクライアントコンピューターであり得る。上述の技術は、かかるバックエンド、ミドルウェアまたはフロントエンドの構成要素の任意の組合せを含む分配された計算系において実行され得る。
【0076】
計算系の構成要素は、デジタルもしくはアナログデータ通信(例えば通信ネットワーク)の任意の形態または媒体を含み得る伝達媒体により相互連結され得る。伝達媒体としては、任意の構成の1つ以上のパケット系ネットワークおよび/または1つ以上の回路系ネットワークが挙げられ得る。パケット系ネットワークとしては、例えばインターネット、キャリアインターネットプロトコル(IP)ネットワーク(例えばローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、キャンパスエリアネットワーク(CAN)、メトロポリタンエリアネットワーク(MAN)、ホームエリアネットワーク(HAN))、構内IPネットワーク、IP構内交換機(IPBX)、無線ネットワーク(例えば無線アクセスネットワーク(RAN)、Bluetooth、近距離無線通信(NFC)ネットワーク、Wi-Fi、WiMAX、汎用パケット無線サービス(GPRS)ネットワーク、HiperLAN(高性能無線LAN))、および/または他のパケット系ネットワークが挙げられ得る。回路系ネットワークとしては、例えば公衆交換電話網(PSTN)、レガシー構内交換機(PBX)、無線ネットワーク(例えばRAN、符号分割多元接続(CDMA)ネットワーク、時間分割多元接続(TDMA)ネットワーク、移動通信用グローバルシステム(global system for mobile communications)(GSM)ネットワーク)および/または他の回路系ネットワークが挙げられ得る。
【0077】
伝達媒体を通じた情報移動は、1つ以上の通信プロトコルに基づき得る。通信プロトコルとしては、例えばイーサネットプロトコル、インターネットプロトコル(IP)、ボイスオーバーIP (VOIP)、ピア・ツー・ピア(P2P)プロトコル、ハイパーテキストトランスファープロトコル(HTTP)、セッションイニシエーションプロトコル(SIP)、H.323、メディアゲートウェイコントロールプロトコル(MGCP)、シグナル伝達システム(Signaling System)#7(SS7)、移動通信用グローバルシステム(GSM)プロトコル、プッシュ・ツー・トーク(PTT)プロトコル、PTTオーバーセルラー(over Cellular)(POC)プロトコル、ユニバーサル移動体通信システム(UMTS)、3GPPロングタームエボリューション(LTE)および/または他の通信プロトコルが挙げられ得る。
【0078】
計算系のデバイスとしては、例えばコンピューター、ブラウザデバイスを有するコンピューター、電話機、IPフォン、モバイルデバイス(例えば携帯電話、携帯情報端末(PDA)デバイス、スマートフォン、タブレット、ラップトップコンピューター、電子メールデバイス)、および/または他の通信デバイスが挙げられ得る。ブラウザデバイスとしては、例えばワールドワイドウェブブラウザ(例えばGoogle, Inc.のChromeTM、Microsoft Corporationから入手可能なMicrosoft(登録商標) Internet Explorer(登録商標)および/またはMozilla Corporationから入手可能なMozilla(登録商標) Firefox)を有するコンピューター(例えばデスクトップコンピューターおよび/またはラップトップコンピューター)が挙げられる。モバイル計算デバイスとしては、例えばResearch in Motion のBlackberry(登録商標)、Apple CorporationのiPhone(登録商標)および/またはAndroidTM系デバイスが挙げられる。IPフォンとしては、例えばCisco Systems, Inc.から入手可能なCisco(登録商標) Unified IP Phone 7985Gおよび/またはCisco(登録商標) Unified Wireless Phone 7920が挙げられる。
【0079】
含む(comprise)、含む(include)および/またはそれぞれの複数形は、開放型であり、列挙された要素を含み、列挙されないさらなる要素を含み得る。および/またはは、開放型であり、列挙される要素の1つ以上および列挙される要素の組合せを含む。
【0080】
主題は、その精神または本質的な特徴を逸脱することなく、他の特定の形式で体現され得ることを当業者は理解する。そのため、前述の態様は、全ての点において、本明細書に記載される主題の限定ではなく、例示であるとみなされる。
本発明の態様として以下のものが挙げられる。
項1
画像データセットにおいて1つ以上の目的の細胞を検出するための最終モデルを選択するための方法であって、
管理された画像データセットを、訓練セット、検証セットおよび試験セットに分割する工程、ここで管理された画像データセットにおけるそれぞれの画像は、目的の細胞について陽性または陰性と標識されている;
それぞれのモデル 対 標識により生成された予測の精度を表す誤り関数を評価および最小化することにより、訓練セットおよび検証セットを使用して、ディープ畳み込みニューラルネットワークのアンサンブルのそれぞれのモデルを訓練する工程;
試験セットを使用して、アンサンブルのそれぞれのモデルを試験する工程;
アンサンブルの予測を合わせて、合わされた予測を作成する工程;
合わされた予測と標識を比較する工程;
合わされた予測が所定のレベルの検出を満足するかどうかを決定する工程;
合わされた予測が所定のレベルの検出を満足する場合、アンサンブルを最終アンサンブルとして出力する工程;ならびに
合わされた予測が所定のレベルの検出を満足しない場合、合わされた予測が所定のレベルの検出を満足するまで、少なくとも1つのアンサンブルのモデルの少なくとも1つのハイパーパラメータを改変する工程
を含む、方法。
項2
それぞれのモデルについて予測精度が測定され、最終モデルが、最も高い予測精度を有する最終アンサンブルからのモデルを含む、項1記載の方法。
項3
それぞれのモデルについて予測精度を測定し、最終モデルが、最も高い予測精度を有する最終アンサンブルからの複数のモデルを含む、項1記載の方法。
項4
それぞれのモデルについて受信者動作特性(ROC)曲線下面積を測定して、最終モデルが、最も高いROC曲線下面積を有する最終アンサンブルからのモデルを含む、項1~3いずれか記載の方法。
項5
それぞれのモデルについて受信者動作特性(ROC)曲線下面積を測定して、最終モデルが、最も高いROC曲線下面積を有する最終アンサンブルからの複数のモデルを含む、項1~3いずれか記載の方法。
項6
目的の細胞がまれな細胞である、前記項いずれか記載の方法。
項7
目的の細胞が、1,000,000の総細胞数中約1より少なく現れる、項6記載の方法。
項8
目的の細胞が、10,000,000の総細胞数中約1より少なく現れる、項6記載の方法。
項9
目的の細胞が複数の表現型特性を含む、前記項いずれか記載の方法。
項10
目的の細胞が、OCT4+細胞またはOCT4-細胞を含む、前記項いずれか記載の方法。
項11
目的の細胞が、多能性幹細胞(PSC)を含む、前記項いずれか記載の方法。
項12
PSCが、誘導多能性幹細胞または胚性幹細胞である、項11記載の方法。
項13
PSCがOCT4+である、項11記載の方法。
項14
アンサンブルの予測を合わせて合わされた予測を作成する工程が、投票技術を使用することを含む、前記項いずれか記載の方法。
項15
投票技術がハード投票を含む、項14記載の方法。
項16
投票技術が、モデルの大部分よりも多くによりなされた決定を選択することを含む、項14記載の方法。
項17
投票技術が、モデルの約75%よりも多くによりなされた決定を選択することを含む、項16記載の方法。
項18
アンサンブルの予測を合わせて合わされた予測を作成する工程が、スタッキング技術を使用することを含む、前記項いずれか記載の方法。
項19
スタッキング技術が、ガウス過程分類子を含む、項18記載の方法。
項20
スタッキング技術が、ランダムフォレスト分類子を含む、項18記載の方法。
項21
アンサンブルの予測を合わせて合わされた予測を作成する工程が、少なくとも1つの投票技術および/または少なくとも1つのスタッキング技術を使用することを含む、前記項いずれか記載の方法。
項22
モデル選択の際に最も高い精度を有する投票技術またはスタッキング技術と共に最終モデルを展開して、目的の細胞を検出することをさらに含む、前記項いずれか記載の方法。
項23
アンサンブルのそれぞれのディープ畳み込みニューラルネットワークが複数の層を含み、それぞれの層が複数の2D畳み込みフィルターを含み、それぞれの2D畳み込みフィルターが3x3マトリックスを含む、前記項いずれか記載の方法。
項24
アンサンブルのそれぞれのモデルが、少なくとも1つの畳み込みフィルターを含み、訓練が、それぞれの画像にわたり畳み込みフィルターを移動させることを含む、前記項いずれか記載の方法。
項25
アンサンブルのそれぞれのモデルが、重みを有する少なくとも1つの畳み込みフィルターを含み、訓練がフィルター上の重みを改変することを含む、前記項いずれか記載の方法
項26
アンサンブルのそれぞれのモデルが、パターンを有する少なくとも1つの畳み込みフィルターを含み、訓練が、フィルター上のパターンを改変することを含む、前記項いずれか記載の方法。
項27
目的の細胞が、1つ以上の多能性関連マーカーを発現する、前記項いずれか記載の方法。
項28
多能性関連マーカーが、OCT4、Tra-1-60/81、SOX2、FGF4およびSSEA-3/4の1つ以上を含む、項27記載の方法。
項29
画像データセットにおいて1つ以上の目的の細胞を検出するための方法であって、
それぞれが独立チャンネルを含む複数の染色された組織学的画像を受信する工程;
複数の染色された組織学的画像のそれぞれにおける独立チャンネルのピクセル値を二値化する工程;
連結され、特定のサイズの全体の連結されたピクセル領域を含む独立チャンネル中のピクセル領域を見出すことにより、二値化された画像において目的の領域を決定する工程、ここでそれぞれの目的の領域は、境界座標により画定される;
境界座標に基づいてそれぞれの目的の領域を切り取り、それぞれが切り取られた目的の領域を含むサブ画像の組を生成する工程;
それぞれのサブ画像を、目的の細胞について陽性または陰性と標識する工程;
それぞれのサブ画像中の目的の細胞を検出するために、最終分類モデルを選択する工程;および
最終分類モデルを展開して、分類されない画像データセットにおいて目的の細胞を検出する工程
を含む、方法。
項30
最終分類モデルを選択する工程が、
標識されたサブ画像の組を、訓練セット、検証セットおよび試験セットに分割すること;
それぞれのモデル 対 標識により生成される予測の精度を表す誤り関数を評価および最小化することにより、訓練セットおよび検証セットを使用して、ディープ畳み込みニューラルネットワークのアンサンブルのそれぞれのモデルを訓練すること;
試験セットを使用してアンサンブルのそれぞれのモデルを試験すること;
アンサンブルの予測を合わせて、合わされた予測を作成すること;
合わされた予測と標識を比較すること;
合わされた予測が所定のレベルの検出を満足するかどうかを決定すること;
合わされた予測が所定のレベルの検出を満足する場合、アンサンブルを最終アンサンブルとして出力すること;ならびに
合わされた予測が所定のレベルの検出を満足しない場合、合わされた予測が所定のレベルの検出を満足するまで、少なくとも1つのアンサンブルのモデルの少なくとも1つのハイパーパラメータを改変すること
を含む、項29記載の方法。
項31
最終モデルが、最終アンサンブルからの1つのモデルを含む、項30記載の方法。
項32
最終モデルが、最終アンサンブルからの複数のモデルを含む、項30記載の方法。
項33
独立チャンネルのピクセル値を二値化する工程が、
第1の蛍光チャンネルを、複数の染色された組織学的画像のそれぞれに適用して、第1の蛍光チャンネル画像の組を生成すること;
第2の蛍光チャンネルを、複数の染色された組織学的画像のそれぞれに適用して、第2の蛍光チャンネル画像の組を生成すること;
第1の蛍光チャンネル画像の組におけるそれぞれの画像と、第2の蛍光チャンネル画像の組における対応する画像を重ねて、重ねられた画像の組を生成すること;ならびに
重ねられた画像の組のそれぞれの画像において第1の蛍光チャンネルおよび第2の蛍光チャンネルの1つ以上のピクセル値を二値化すること
を含む、項29記載の方法。
項34
境界座標が、目的の領域の極値の座標を含む、項29記載の方法。
項35
目的の細胞がまれな細胞である、項29~34いずれか記載の方法。
項36
目的の細胞が、1,000,000の総細胞数中約1より少なく現れる、項35記載の方法。
項37
目的の細胞が、10,000,000の総細胞数中約1より少なく現れる、項35記載の方法。
項38
目的の細胞が、複数の表現型特性を含む、項29~37いずれか記載の方法。
項39
目的の細胞が、OCT4+細胞またはOCT4-細胞を含む、項29~38いずれか記載の方法。
項40
目的の細胞が多能性幹細胞(PSC)を含む、項29~39いずれか記載の方法。
項41
PSCが誘導多能性幹細胞または胚性幹細胞である、項40記載の方法。
項42
PSCがOCT4+である、項40記載の方法。
項43
目的の細胞を何ら示さない画像の組を使用して、画像オートエンコーダを訓練して、画像の組のバックグラウンドシグナルを同定する工程;および
画像の組上で訓練された画像オートエンコーダを実行して、二値化の前に複数の染色された組織学的画像からバックグラウンドノイズを除去する工程
をさらに含む、項29~42いずれか記載の方法。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14A
図14B
図15
図16