IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ザ・リージエンツ・オブ・ザ・ユニバーシテイ・オブ・コロラド、ア・ボデイー・コーポレイトの特許一覧 ▶ ウルサ アナリティクス,インクの特許一覧

特許7563680機械学習を適用して高スループットシステムにおけるマイクロコピー画像を分析するためのシステムおよび方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-30
(45)【発行日】2024-10-08
(54)【発明の名称】機械学習を適用して高スループットシステムにおけるマイクロコピー画像を分析するためのシステムおよび方法
(51)【国際特許分類】
   G01N 15/1429 20240101AFI20241001BHJP
   C12Q 1/02 20060101ALI20241001BHJP
   C12Q 1/68 20180101ALI20241001BHJP
   G01N 15/01 20240101ALI20241001BHJP
   G01N 15/0205 20240101ALI20241001BHJP
   G01N 15/0227 20240101ALI20241001BHJP
   G01N 33/68 20060101ALI20241001BHJP
   G01N 33/483 20060101ALI20241001BHJP
   G16B 40/00 20190101ALI20241001BHJP
   G01N 15/1433 20240101ALI20241001BHJP
【FI】
G01N15/1429 200
C12Q1/02
C12Q1/68
G01N15/01
G01N15/0205
G01N15/0227 100
G01N33/68
G01N33/483 C
G16B40/00
G01N15/0227 110
G01N15/1433
【請求項の数】 21
(21)【出願番号】P 2021503576
(86)(22)【出願日】2019-07-30
(65)【公表番号】
(43)【公表日】2021-11-25
(86)【国際出願番号】 US2019044056
(87)【国際公開番号】W WO2020028313
(87)【国際公開日】2020-02-06
【審査請求日】2022-07-25
(31)【優先権主張番号】62/712,970
(32)【優先日】2018-07-31
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】508128082
【氏名又は名称】ザ・リージエンツ・オブ・ザ・ユニバーシテイ・オブ・コロラド、ア・ボデイー・コーポレイト
(73)【特許権者】
【識別番号】521025991
【氏名又は名称】ウルサ アナリティクス,インク
(74)【代理人】
【識別番号】110000659
【氏名又は名称】弁理士法人広江アソシエイツ特許事務所
(72)【発明者】
【氏名】ランドルフ,セオドア,ダブリュ.
(72)【発明者】
【氏名】ダニエルス,オースティン,ルイス
(72)【発明者】
【氏名】カルデロン,クリストファ,ピー.
【審査官】遠藤 直恵
(56)【参考文献】
【文献】米国特許第06221671(US,B1)
【文献】米国特許第09934364(US,B1)
【文献】米国特許出願公開第2018/0211380(US,A1)
【文献】C. P. Calderon et al. ,Deep Convolutional Neural Network Analysis of Flow Imaging Microscopy Data to Classify Subvisible Particles in Protein Formulations,Journal of Pharmaceutical Sciences,2017年12月18日,107,999-1008,https://www.sciencedirect.com/science/article/abs/pii/S002235491730878X
【文献】J. C. Caicedo et al.,Data-analysis strategies for image-based cell profiling,nature methods,Vol. 14 No. 9,2017年08月31日,849-863,https://www.nature.com/articles/nmeth.4397
(58)【調査した分野】(Int.Cl.,DB名)
G01N 15/00-15/1492、33/48-33/98
C12Q 1/00-3/00
G16B 5/00-99/00
A16K 9/00-9/72、47/00-47/69
(57)【特許請求の範囲】
【請求項1】
機械学習を適用して、高スループットシステム内の液体懸濁液中の粒子を検出および分析する方法であって、
-訓練データセットを使用して、複数の層を有するニューラルネットワークを訓練することであって、前記訓練データセットが、
-液体懸濁液中の粒子を含む基準試料を高スループットフローイメージング機器に通過させ、前記基準試料からの複数の画像から関心特徴を抽出することによって生成される少なくとも1つの基準データセットを含む、ことと、
-前記少なくとも1つの基準試料からの前記複数の画像から前記抽出された関心特徴を埋め込んで、前記抽出された関心特徴を、基準分布に関連付けられた前記埋め込まれたより低い次元の特徴セットを分離するために損失関数を使用して定義されたより低い次元の特徴セットに変換することによって、前記基準分布を生成することと、
-前記基準試料からのより低い次元の特徴集団分布出力の個々の抽出された特徴埋め込みの確率密度を推定することと、
-試験試料を前記高スループットフローイメージング機器に通過させ、前記高スループットフローイメージング機器を通過する個々の構成要素の複数の画像を捕捉し、前記試験試料からの複数の画像から関心特徴を抽出することによって試験データセットを取得することと、前記試験試料からの前記複数の画像から埋め込み抽出された関心特徴の試験分布を生成することと、
-障害検出アルゴリズムを適用して、埋め込みの試験分布の統計的類似性を、前記埋め込みの基準分布と定量的に比較することによって、試験試料からの前記埋め込みの試験分布が関心特徴の集団密度と一致するかどうかを評価するか、または、前記埋め込みの試験分布が事前に既知の埋め込みの集団密度分布に対応しないかどうかを評価することと、を含む、方法。
【請求項2】
前記粒子の液体懸濁液中の前記粒子が、凝集タンパク質分子、薬学的フィルフィニッシュ操作によって生成される凝集タンパク質分子、生薬製剤、飲料水中の粒子、微結晶粒子、および、飲料水中の微結晶粒子からなる群から選択される粒子を含む、請求項1に記載の方法。
【請求項3】
前記高スループットフローイメージング機器を通過する前記個々の構成要素の前記複数の画像が、前記高スループットフローイメージング機器を通過する前記個々の構成要素の104~107の画像を含む、請求項1に記載の方法。
【請求項4】
前記液体懸濁液が、凍結融解に供される生薬試料、振盪に供される生薬試料、撹拌に供される生薬試料、高温に供される生薬試料、低温に供される生薬試料、化学ストレスに供される生薬試料、放射線に供される生薬試料、ポンピングに供される生薬試料、振動に供される生薬試料、機械的衝撃に供される生薬試料、汚染に供される生薬試料、およびこれらの組み合わせからなる群から選択される、1つ以上の汚染物質またはプロセス乱れに供される生薬製剤を含む、請求項1および2に記載の方法。
【請求項5】
他のモダリティによって決定された特徴を組み込む融合モジュールを適用して、より多くの追加の関心特徴または追加の抽出された特徴埋め込みを生成することをさらに含む、請求項1に記載の方法。
【請求項6】
機械学習を適用して、高スループットシステム内の細胞表現型の特性を検出および分析する方法であって、
-訓練データセットを使用して、複数の層を有するニューラルネットワークを訓練することであって、前記訓練データセットが、
-液体懸濁液中の細胞を含む基準試料を高スループットフローイメージング機器に通過させ、前記基準試料からの複数の画像から関心特徴を抽出することによって生成される少なくとも1つの基準データセットであって、液体懸濁液中の前記細胞が、異なる表現型の細胞、またはプロセスの乱れに供された細胞、または異なる遺伝子型の細胞を含むか、もしくはそれらで汚染されており、前記高スループットフローイメージング機器に通過させ、前記高スループットフローイメージング機器を通過する個々の構成要素の複数の画像を捕捉し、1つ以上の追加試料からの前記複数の画像から関心特徴を抽出する、基準データセットを含む、ことと、
-前記少なくとも1つの基準試料からの前記複数の画像から前記抽出された関心特徴を埋め込んで、前記抽出された関心特徴を、基準分布に関連付けられた前記埋め込まれたより低い次元の特徴セットを分離することを意図する損失関数を使用して定義されたより低い次元の特徴セットに変換することによって、前記基準分布を生成することと、
-前記基準試料からのより低い次元の特徴集団分布出力の個々の抽出された特徴埋め込みの確率密度を推定することと、
-試験試料を前記高スループットフローイメージング機器に通過させ、前記フローイメージング機器を通過する前記個々の構成要素の複数の画像を捕捉し、前記試験試料からの複数の画像から関心特徴を抽出することによって試験データセットを取得することと、前記試験試料からの前記複数の画像から、埋め込まれた前記抽出された関心特徴の試験分布を生成することと、
-障害検出アルゴリズムを適用して、埋め込みの試験分布の統計的類似性を、前記埋め込みの基準分布と定量的に比較することによって、試験試料からの埋め込みの試験分布が関心特徴の集団密度と一致するかどうかを評価するか、または、前記埋め込みの試験分布が事前に既知の埋め込みの集団密度分布に対応しないかどうかを評価することと、を含む、方法。
【請求項7】
前記基準試料が、一貫したまたは均質な表現型を有する液体培養物中の細胞を含む、請求項6に記載の方法。
【請求項8】
前記基準試料が、異種タンパク質またはヌクレオチド配列を発現する液体培養物中の細胞を含む、請求項6に記載の方法。
【請求項9】
前記細胞が、差次増殖条件に供される細胞、差次栄養条件に供される細胞、異種発現プラスミドベクターの一部または全てを失った細胞、異種ヌクレオチドの転写を抑制した細胞、異種ペプチドの転写を抑制した細胞、内因性ヌクレオチドの転写を抑制した細胞、内因性ペプチドの翻訳を抑制した細胞、新たに合成されたDNAを有する細胞、新たに合成されたRNAを有する細胞、差次表面タンパク質を発現する細胞、異なる細胞型の細胞を汚染する細胞、および差次バイオマーカーを発現する細胞からなる群から選択される細胞を含む、請求項6に記載の方法。
【請求項10】
他のモダリティによって決定された特徴を組み込む融合モジュールを適用して、追加の関心特徴または追加の抽出された特徴埋め込みを生成することをさらに含む、請求項6に記載の方法。
【請求項11】
機械学習を適用して、個々の病原体標識なしの高スループットシステム内の生体試料中の細胞および微生物病原体を検出および分析する方法であって、
-訓練データセットを使用して、複数の層を有するニューラルネットワークを訓練することであって、前記訓練データセットが、
-生体試料中の細胞を含む基準試料を高スループットフローイメージング機器に通過させ、前記基準試料からの複数の画像から関心特徴を抽出することによって生成される少なくとも1つの基準データセットであって、予測される細胞型は、1つ以上の前記特徴および/または分類システムの細胞型ラベルを使用することによって分類される基準のデータセットを含む、ことと、
-前記基準試料からの前記複数の画像から前記抽出された関心特徴を埋め込んで、前記抽出された関心特徴を、基準分布に関連付けられた前記埋め込まれたより低い次元の特徴セットを分離するために損失関数を使用して定義されたより低い次元の特徴セットに変換することによって、前記基準分布を生成することと、
-前記基準試料からのより低い次元の特徴集団分布出力の個々の抽出された特徴埋め込みの確率密度を推定することと、を含む、方法。
【請求項12】
前記生体試料が、痰、経口液体、羊水、血液、血液画分、骨髄、生検試料、尿、精液、便、膣液、腹水、胸水、組織摘出物、粘膜、リンパ液、臓器培養物、細胞培養物、あるいはそれらの画分もしくは誘導体、またはそれらから単離されたものからなる群から選択される生体試料を含む、請求項11に記載の方法。
【請求項13】
他のモダリティによって決定された特徴を組み込む融合モジュールを適用して、より多くの追加の関心特徴または追加の抽出された特徴埋め込みを生成することをさらに含む、請求項11に記載の方法。
【請求項14】
前記抽出された関心特徴が、既知の疾患状態と相関する、請求項11に記載の方法。
【請求項15】
前記疾患状態が、敗血症を含む、請求項14に記載の方法。
【請求項16】
前記疾患状態が、前記抽出された関心特徴の種類または量に関連付けられる、請求項14に記載の方法。
【請求項17】
前記疾患状態が、前記生体試料中で見出される細胞の種類および量、または前記生体試料中で見出される細胞の種類および/または量に関連付けられる、請求項14に記載の方法。
【請求項18】
前記生体試料が、血液試料を含む、請求項11に記載の方法。
【請求項19】
前記血液試料が、25~100マイクロリットルの体積を有する血液試料を含む、請求項18に記載の方法。
【請求項20】
前記血液試料にサイズ除外適用を適用して、閾値サイズを超える前記血液試料中の細胞を除外するステップをさらに含む、請求項18に記載の方法。
【請求項21】
閾値サイズを超える前記血液試料中の前記細胞が、赤血球、白血球、血小板、および他の小血液粒子を含む、請求項18に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本国際PCT出願は、2018年7月31日に出願された米国特許仮出願第62/712,970号の利益および優先権を主張する。上記で参照された出願の明細書全体および図面は、参照によりその全体が本明細書に組み込まれる。
【0002】
連邦政府資金による研究の記載
本発明は、国立衛生研究所によって授与された助成金番号EB006006およびGM130513の下で政府の支援を受けて行われた。米国政府は、本発明に特定の権利を有している。
【0003】
本発明の態様は、例えば、注射用タンパク質治療薬等の品質管理の一部として、生薬調製物内の、体液中外来感染性微生物、水中微粒子汚染物質、または凝集タンパク質等の有害な微粒子物質を検出、診断、および監視するためのイメージングデータの分析およびイメージング試料の評価のシステムおよび方法に関する。
【背景技術】
【0004】
顕微鏡画像の高スループット分析は、医療および生薬分野における多数の潜在的な用途を有している。一例として、哺乳動物血液試料内の細胞の分析がある。この用途において、従来の顕微鏡検査および他の細胞同定技術は低スループットであるため、細菌およびウイルスなどの病原性細胞、または疾患に潜在的に関連する希少な哺乳類細胞のタイムリーな診断が妨げられている。自動顕微鏡スライドリーダーを用いた場合でも、試料調製時間、時間のかかる染色技術を適用する必要があること、顕微鏡スライドごとに分析可能な試料量が少ないこと、および血液試料中に見出される膨大な数の正常細胞内の希少な哺乳動物細胞または微小レベルの外来感染性微生物を検出および同定するという課題によって、スループットは制限される。少数の外来感染性微生物の集団を検出および識別するために、血液試料は通常、培養して、外来感染性微生物の数をより容易に検出可能なレベルに増加させる必要がある。このプロセスは、数日間の血液培養を必要とし、スループットをさらに制限する可能性がある。このように、血液試料内の病原体の同定には、多くの場合、日数がかかり、複雑な手順を伴う。この状況により、抗生物質の適切な選択などの有効な治療を不当に遅延させる可能性がある。場合によっては、これらの遅延は、患者にとって致命的であるか、または不必要な痛みを引き起こすことが証明されている。感染症患者の治療における一般的な慣行に、広域抗生物質を使用することがある。しかしながら、多くの抗生物質に対する細菌耐性の問題により、広域抗生物質は、多くの感染症を効果的に治療できない場合がある。さらに、未熟な新生児などの同じ患者集団について、不適切に適用された抗生物質または不必要な抗生物質からの副作用は、これらの患者を重度の合併症のリスクにさらす可能性がある。感染病の多くの症例は、迅速かつ正確な診断が利用可能であれば、より効果的かつ迅速に予防または治療することができる。したがって、生体試料に基づいて感染性病原体を同定するための迅速かつ正確な方法が必要である。
【0005】
血液中の希少な哺乳類細胞を検出するために、蛍光活性化細胞選別(FACS)および他のフローサイトメトリ技術と併せて、細胞特異的染色および標識を利用する追加の低スループット分析を実施する場合がある。FACS技術は低スループットであるため、血液試料内の希少細胞の検出の有効限界を高め、関連する疾患状態を診断および治療する能力を制限する。したがって、血液試料内の希少細胞を同定するための迅速かつ正確な方法が必要である。
【0006】
高スループット画像分析の別の有望な用途では、タンパク質治療薬の品質および安定性を監視することを目的としている。タンパク質治療薬は、人気が高く、広く成長している薬物クラスであるが、製造における薬物容器、貯蔵環境、輸送機構、および/または処理条件により、薬物製品中に様々な意図しない有害なタンパク質凝集体が形成される可能性がある。一部のタンパク質凝集体は、高価な生薬製品の有効性の低下を引き起こす可能性があり、一部の凝集体は、望ましくない免疫応答、アナフィラキシー、注入反応、補体活性化、さらには死亡などの有害な薬物反応を引き起こす可能性がある。ガラス容器表面からスローオフするガラスラメラ、およびシリンジ内の潤滑層から浸出するシリコーン油滴などの他の種類の微粒子汚染物質も、悪影響を引き起こす可能性があり、薬物製品および薬物物質材料内で注意深く監視する必要がある。このように、薬物製品および薬物物質中のタンパク質凝集体を迅速に監視、検出、および分類することが重要である。現在の規制方法および基準では、これらの問題となるタンパク質凝集体および汚染粒子を識別、検出、および特徴付けるのに十分な設備が整っていない。
【0007】
高スループット画像分析のさらに別の有望な用途では、その目的は、哺乳類細胞、細菌細胞、昆虫細胞、酵母または真菌細胞などの培養物中で成長する細胞の表現型特性を監視することである。溶解酸素レベル、撹拌レベル、栄養素レベル、および淘汰圧等の細胞培養条件の結果、培養中の細胞は、望ましくないと考えられる表現型応答を示す場合がある。例えば、成長速度が遅くなり、細胞生存率が低下し、所望の生物学的産物(例えば、タンパク質治療薬)の産生が減少し、生物学的産物の産生を指向するプラスミドが失われ、治療的産物が、改変されたグリコシル化パターン等の望ましくない翻訳後修飾を示す場合がある。望ましくない表現型特性につながる任意の細胞培養プロセスの乱れを迅速に検出および/または識別して、是正措置を取ることができるようにすることが望ましい。例えば、グリコシル化タンパク質産物を産生している細胞を迅速に分析して、不正確なグリコシル化パターンを有する産物を検出し、正しいグリコシル化状態を維持するように栄養素および溶解酸素レベルを迅速に調整することが望ましい。
【0008】
これらの懸念に対処するための試みがなされてきたが、一部の技術的な理由により不十分であった。例えば、Smithら(第10,255,693号)は、単一のスライド上の低数の反復倍率を使用して、収集された従来の顕微鏡スライド上に見出される粒子を検出および分類するための方法を説明している。Smithは、一部のニューラルネットワークベースのアプリケーションを実装しているが、このシステムは、単一のスライドを特徴付ける少数の画像を分析するために設計され、関心のあるオブジェクトの種類の事前知識を必要としている。Smithはまた、各画像の詳細なラベルアノテーションを必要としないフロー顕微鏡設定の代わりに、詳細なラベルアノテーションを必要とし、それにより、そのスループット、有効性、および商業的適用性が制限されている。別の例では、Krauseら(第10,303,979号)は、スライドの内容を識別するとともに、画像を個々の細胞および細胞型にセグメント化するために顕微鏡画像を分析するための畳み込みニューラルネットワークに基づく分析を説明している。繰り返しになるが、この出願では、フロー顕微鏡のリアルタイムのイメージングおよび分析を可能とせず、また、既知の粒子における信頼度を統計的に検証し、試験データにおける障害または新規の観測(訓練データにないクラス)を識別することも可能とするものではない。別の例において、Grierら(第10,222,315号)は、タンパク質凝集体を特徴付けるためのホログラフィック顕微鏡技術の用途を説明している。しかしながら、この出願は、生体試料に適用される様々なレーザの正確な較正、およびそれらの回折パターンの同時測定を必要とする。その結果、このシステムは様々な用途への適応性が低く、商業的効果を低下させないように正確に維持する必要がある。
【0009】
上記の例から分かるように、生体試料内の外来細胞および希少な哺乳類細胞を監視および同定するための、ならびに薬物製剤内の微粒子汚染物質を監視および特徴付けるための高スループットのリアルタイムシステムが必要とされている。また、タンパク質凝集を検出し、予期しないプロセスの乱れによって誘導される事前に既知の問題または新規のタンパク質凝集体を同定するための、シンプルで経済的かつ技術的に実行可能なシステムが必要とされている。
【発明の概要】
【0010】
本発明技術の一態様は、様々な関連する医療および医薬品用途において、高スループットフローイメージング技術および畳み込みニューラルネットワークなどの機械学習を組み合わせ得るシステムおよび方法を含む。ある特定の実施形態では、本明細書に記載のアプローチは、細胞、病原体、タンパク質凝集体、およびFIMまたは他の同等の機器によって分解可能な他の標的粒子を分析するために、畳み込みニューラルネットワーク(ConvNet)分析などのフローイメージングマイクロスコピー(FIM)器具および機械学習を使用することができる。
【0011】
本発明の一態様では、本発明者は、FIMとConvNetとを組み合わせて、特に、薬物製品中のタンパク質凝集体、遺伝子操作された細菌培養物、および血液中の病原体等の粒子を分析した。FIMは、試料中の約200nmを超える粒子の画像を捕捉するためにマイクロ流体工学および光顕微鏡技術を利用する光顕微鏡ベースの技術である。ConvNetは、コンピュータビジョンタスク、例えばオブジェクトの識別、分類、および統計的表現を実行する際に有用な入力画像の関連特性を学習することができるニューラルネットワークのファミリーである。機器から得られた画像には、試料中の粒子に関する大量の形態情報が含まれているが、生の画像からこの情報を手動で抽出し、その情報を使用して試料中の粒子を分析することは困難である。本発明では、各画像が詳細なクラスラベルを提供されていない高スループットFIM画像を使用してConvNetを訓練することができ、結果として生じるネットワークを適用して、画像内に含まれる形態情報を抽出し、利用することができることを発見している。
【0012】
本発明技術の別の態様では、本発明者は、他の用途の中で治療に関連する粒子または細胞特性を同定するためにConvNetを利用する。本発明者らは、これらのネットワークをフローイメージング機器から得られた画像上で訓練すれば、これらのネットワークは、人間が抽出することが困難なイメージング粒子の複雑な特徴を学習することができることを発見している。これら2つの技術の組み合わせは、液体試料中の小さな(約200nm~100ミクロンサイズの)粒子をイメージングおよび特徴付けるための効果的なツールをもたらす。さらに、細胞および大きなタンパク質凝集体等の様々な粒子は、FIM機器を使用してイメージングされ得るため、本アプローチは、様々な医学的および薬学的に関連する用途において有用であり得る。
【0013】
概して図16に示されるように、本発明の技術のさらなる態様は、高スループットシステムにおける液体懸濁液中の粒子を検出および分析するために機械学習を適用するシステムおよび方法を含む。好ましい一実施形態では、多層ConvNetなどのニューラルネットワークは、初期訓練データセットを生成するように訓練され得る。この実施形態では、少なくとも1つの基準データセットは、好ましくは液体懸濁液中の粒子を含み得る基準試料を高スループットフローイメージング顕微鏡(FIM)機器に通過させることによって生成されてもよい。FIMを通過する粒子のデジタル画像は、後で処理するために捕捉されてもよい。これらの画像は、関心特徴が抽出される1つ以上のプロセッサ、または他の類似のデータ処理デバイスもしくはシステムに送信されてもよい。この抽出は、好ましい実施形態では、機械学習システム、より好ましくは本明細書に概説されるCovnNet特徴抽出モジュールによって達成されてもよい。好ましい実施形態では、FIM機器を通過する個々の構成要素の少なくとも10~10個の画像が、さらなる抽出および分析のために捕捉されてもよい。
【0014】
1つの任意の実施形態では、1つ以上の追加の基準データセットは、上記に一般的に説明されるプロセスによって生成されてもよい。この任意の実施形態では、汚染物質またはプロセスの乱れから生じる粒子の液体懸濁液を含む1つ以上の追加試料は、高スループットFIM機器を通過してもよい。各試料の個々の構成要素のデジタル画像を捕捉し、さらに処理して、関心特徴を抽出してもよい。一実施形態において、関心特徴の抽出は、以下に詳述されるように、関心対象選択モジュールによって達成されてもよい。
【0015】
本発明技術の別の態様は、基準試料から以前に抽出された関心特徴を埋め込むことによって基準分布を生成するための方法およびシステムを含む。以下に詳細に説明するように、この埋め込みプロセスは、抽出された関心特徴を、より低い次元の特徴で表示および/または分析され得るより低い次元の特徴セット(特徴の集合)に変換してもよい。別の任意選択の実施形態では、上記で識別された1つ以上の追加試料を利用して、再び、抽出された関心特徴をより低い次元の特徴セットに変換するために、追加試料の捕捉された画像から抽出された関心特徴を埋め込む新規プロセスを通じて、追加の基準分布を生成してもよい。この好ましい実施形態では、基準の基準分布を定義するために使用される埋め込みマップ(複数可)、および任意選択的で追加試料は、本明細書に一般的に記載されるように、各基準分布に関連付けられた埋め込み低次元特徴セットを分離し得る損失関数を使用することによって定義されてもよい。さらに、基準試料、および任意選択で追加試料の個々の抽出された特徴埋め込みの確率密度が推定されてもよい。好ましい一実施形態において、埋め込み空間上の追加試料のうちの1つ以上の確率密度がさらに推定されてもよい。
【0016】
本発明の技術の別の態様では、試験試料を使用して、試験データセット(試験データの集合)を取得することができる。この実施形態では、少なくとも1つの試験データセットは、好ましくは液体懸濁液中の粒子を含み得る試験試料を高スループットフローイメージング顕微鏡(FIM)機器に通過させることによって生成されてもよい。試験試料からの粒子のデジタル画像は、それらの粒子がFIMまたは他の同様のデバイスを通過する際に捕捉されてもよい。これらの画像は、1つ以上の関心特徴が抽出される1つ以上のプロセッサ、または他の類似のデータ処理デバイスもしくはシステムに送信されてもよい。この抽出は、好ましい実施形態では、機械学習システム、より好ましくはCovnNet特徴抽出モジュールによって達成されてもよい。
【0017】
本発明の別の態様は、障害検出モジュールの適用を含み得、障害検出アルゴリズムを適用して、事前に収集された埋め込みの分布と埋め込みの試験分布の統計的類似性を定量的に比較することによって、試験試料からの埋め込みの試験分布が関心特徴の集団密度と一致するかどうかを評価し得る。任意の実施形態において、本発明のシステムは、埋め込みの試験分布が、事前に既知の埋め込みの集団密度分布に対応していないかどうかを評価するステップをさらに含んでもよい。追加の任意の実施形態は、他のモダリティによって決定された特徴を組み込む融合モジュールを適用して、追加の関心特徴または追加の抽出された特徴埋め込みを生成するステップを含んでもよい。
【0018】
本発明技術の別の態様は、様々な試料の種類および粒子の検出および分析を含む。1つの好ましい実施形態では、上記の基準試料、追加試料、または試験試料などの試料は、生薬製剤を含み得る。好ましい実施形態では、かかる生薬製剤は、タンパク質、シリコーン油微滴、ガラス微粒子または他の粒子等の液体懸濁液中の粒子を含んでもよい。好ましい実施形態では、液体懸濁液中の粒子は、凝集タンパク質分子、およびより好ましくは、薬学的フィルフィニッシュ操作によって生成される凝集タンパク質分子を含んでもよい。
【0019】
本発明のさらに広範な実施形態では、液体試料または生薬製剤は、凍結融解に供される生薬または液体試料、振盪に供される生薬または液体試料、撹拌に供される生薬または液体試料、高温に供される生薬または液体試料、低温に供される生薬または液体試料、化学ストレスに供される生薬または液体試料、放射線に供される生薬または液体試料、ポンピング(往復運動、膨張)に供される生薬または液体試料、振動に供される生薬または液体試料、液体機械的衝撃に供される生薬または液体試料、汚染に供される生薬または液体試料、およびこれらの組み合わせからなる群から選択される、1つ以上の汚染物質またはプロセス乱れに供される生薬製剤を含み得る。
【0020】
当然、かかる例の粒子は、代表的なもののみであり、本明細書に記載されるように、本発明とともに使用され得る粒子の数および種類を制限するものではない。例えば、一部の好ましい実施形態では、粒子の液体懸濁液は、飲料水中の粒子、または例えば農業などの工業目的に使用される水中の微結晶粒子、または他の方法で汚染された水を含んでもよい。
【0021】
本発明技術の別の態様は、高スループットシステムにおける細胞表現型の特性を検出および分析するために機械学習を適用する方法を含み得る。この実施形態では、少なくとも1つの基準データセットは、好ましくは液体懸濁液中の細胞を含み得る基準試料を高スループットFIM機器に通過させることによって生成されてもよい。さらなる好ましい実施形態では、基準試料は、一貫性もしくは均質な表現型を有する液体培養物中の細胞、または異種タンパク質もしくはヌクレオチド配列を発現する液体培養物中の細胞を含んでよく、より好ましくは、既知または定量化されたレベルで含んでよい。代替の実施形態では、追加の基準細胞は、差次増殖条件に供される細胞、差次栄養条件に供される細胞、異種発現プラスミドベクターの一部または全てを失った細胞、異種ヌクレオチドの転写を抑制した細胞、異種ペプチドの転写を抑制した細胞、内因性ヌクレオチドの転写を抑制した細胞、内因性ペプチドの翻訳を抑制した細胞、新たに合成されたDNAを有する細胞、新たに合成されたRNAを有する細胞、差次表面タンパク質を発現する細胞、異なる細胞型の細胞を汚染する細胞、および差次バイオマーカーを発現する細胞を含んでもよい。
【0022】
この好ましい実施形態では、FIMを通過する細胞のデジタル画像は、後で処理するために捕捉されてもよい。これらの画像は、関心特徴が抽出され得る1つ以上のプロセッサ、または他の類似のデータ処理デバイスもしくはシステムに送信されてもよい。この抽出は、好ましい実施形態では、機械学習システム、より好ましくはCovnNet特徴抽出モジュールによって達成されてもよい。好ましい実施形態では、FIMまたは同様の機器を通過する個々の構成要素の少なくとも10~10個の画像を抽出および分析のために捕捉されてもよい。
【0023】
1つの任意の実施形態では、1つ以上の追加の基準データセットは、上記に一般的に説明されるプロセスによって生成されてもよい。この任意の実施形態では、様々な表現型の細胞、またはプロセスの乱れを受ける細胞、または様々な遺伝子型を有する細胞を含むか、またはそれらに汚染されている細胞の液体懸濁液を含む1つ以上の追加試料は、高スループットFIMまたは他の同様の機器を通過してもよい。各試料の個々の構成要素のデジタル画像を捕捉し、さらに処理して、関心特徴を抽出してもよい。一実施形態において、関心特徴の抽出は、以下に詳述されるように、関心対象選択モジュールによって達成されてもよい。
【0024】
本明細書に記載される本発明の方法およびシステムの別の態様は、基準試料から以前に抽出された関心特徴を埋め込むことによって基準分布を生成するステップをさらに含み得る。以下に詳細に説明するように、この埋め込みプロセスは、抽出された関心特徴をより低い次元の特徴セットに変換してもよい。別の任意選択の実施形態では、上記で識別された1つ以上の追加試料を利用して、再び、抽出された関心特徴をより低い次元の特徴セットに変換するために、追加試料の捕捉された画像から抽出された関心特徴を埋め込むプロセスを通じて、追加の基準分布を生成してもよい。
【0025】
この好ましい実施形態では、基準の埋め込みの基準分布、および任意選択で追加試料の追加の埋め込みは、各基準分布に関連付けられた埋め込み低次元特徴セットを分離する損失関数を使用することによって定義されてもよい。さらに、基準試料、および任意選択で追加試料の個々の抽出された特徴埋め込みの確率密度が推定され得、好ましい実施形態では、埋め込み空間上の追加試料のうちの1つ以上の確率密度をさらに推定してもよい。
【0026】
本発明の技術の別の態様では、試験試料を使用して、試験データセットを取得することができる。この実施形態では、少なくとも1つの試験データセットは、試験試料、例えば、液体懸濁液中で試験される生体試料または他の細胞を含む試料を、高スループットFIMまたは他の同様の機器に通過させることによって生成されてもよい。試験試料からの細胞のデジタル画像は、それらが高スループットFIMを通過する際に捕捉されてもよい。これらの画像は、関心特徴が抽出される1つ以上のプロセッサ、または他の類似のデータ処理デバイスもしくはシステムに送信されてもよい。この抽出は、好ましい実施形態では、機械学習システム、より好ましくはCovnNet特徴抽出モジュールによって達成されてもよい。
【0027】
本発明の別の態様は、障害検出アルゴリズムを適用して、事前に収集された埋め込みの分布と埋め込みの試験分布の統計的類似性を定量的に比較することによって、生体試料などの試験試料からの埋め込みの試験分布が関心特徴の集団密度と一致するかどうかを評価することを含み得る。任意の実施形態において、本発明のシステムは、埋め込みの試験分布が、事前に既知の埋め込みの集団密度分布に対応していないかどうかを評価するステップをさらに含んでもよい。追加の任意の実施形態は、他のモダリティによって決定された特徴を組み込む融合モジュールを適用して、追加の関心特徴または追加の抽出された特徴埋め込みを生成するステップを含んでもよい。
【0028】
本発明技術の別の態様は、個々の病原体を標識することなく、高スループットシステム内の生体試料中の細胞および微生物病原体を検出および分析するために機械学習を適用する方法を含み得る。この実施形態では、少なくとも1つの基準データセットは、好ましくは血液試料、またはより好ましくは25~100マイクロリットルの体積を有する血液試料などの生体試料中の細胞を含み得る基準試料を高スループットFIM、または他の同様の機器に通過させることによって生成されてもよい。例示的な生体試料としては、痰、経口液体、羊水、血液、血液画分、骨髄、生検試料、尿、精液、便、膣液、腹水、胸水、組織摘出物、粘膜、リンパ液、臓器培養物、細胞培養物、あるいはそれらの画分もしくは誘導体、またはそれらから単離されたものが含まれてもよい。
【0029】
FIMを通過する生体試料の個々の構成要素のデジタル画像は、後で処理するために捕捉されてもよい。これらの画像は、関心特徴が抽出される1つ以上のプロセッサ、または他の類似のデータ処理デバイスもしくはシステムに送信されてもよい。1つの好ましい実施形態では、抽出された関心特徴は、敗血症などの既知の疾患状態と相関する。代替の実施形態において、疾患状態は、抽出された関心特徴の種類もしくは量、または生体試料中に見出される細胞の種類および量に関連付けられてもよい。この抽出は、好ましい実施形態では、機械学習システム、より好ましくはCovnNet特徴抽出モジュールによって達成されてもよい。別の好ましい実施形態では、FIM機器を通過する個々の構成要素の少なくとも10~10個の画像が、さらなる抽出および分析のために捕捉されてもよい。
【0030】
1つの任意の実施形態では、1つ以上の追加の基準データセットは、上記に一般的に説明されるプロセスによって生成されてもよい。この任意の実施形態では、感染症、もしくは汚染、または疾患状態から生じる細胞の液体懸濁液を含む1つ以上の追加試料は、例えば、高スループットFIM機器を通過してもよい。各試料の個々の構成要素のデジタル画像を捕捉し、さらに処理して、関心特徴を抽出してもよい。一実施形態において、関心特徴の抽出は、以下に詳述されるように、関心対象選択モジュールによって達成されてもよい。
【0031】
本明細書に記載される本発明の方法およびシステムの別の態様は、基準試料、この場合は基準生体試料から以前に抽出された関心特徴を埋め込むことによって基準分布を生成するステップをさらに含み得る。以下に詳細に説明するように、この埋め込みプロセスは、抽出された関心特徴をより低い次元の特徴セットに変換してもよい。別の任意選択の実施形態では、上記で識別された1つ以上の追加試料を利用して、再び、抽出された関心特徴をより低い次元の特徴セットに変換するために、追加試料の捕捉された画像から抽出された関心特徴を埋め込むプロセスを通じて、追加の基準分布を生成してもよい。この好ましい実施形態では、基準の埋め込みの基準分布、および任意選択で追加試料の追加の埋め込みは、各基準分布に関連付けられた埋め込み低次元特徴セットを分離する損失関数を使用することによって定義されてもよい。さらに、基準試料、および任意選択で追加試料の個々の抽出された特徴埋め込みの確率密度が推定され得、好ましい実施形態では、埋め込み空間上の追加試料のうちの1つ以上の確率密度をさらに推定してもよい。追加の任意の実施形態は、他のモダリティによって決定された特徴を組み込む融合モジュールを適用して、追加の関心特徴または追加の抽出された特徴埋め込みを生成するステップを含んでもよい。
【0032】
本発明の他の特徴、目的、および利点は、詳細な説明、図面、実施例、および特許請求の範囲から明らかになるであろう。
【0033】
本要約は、本開示の完全な範疇および範囲を表すものではないことを意図するものでもなく、解釈すべきでもない。さらに、本明細書において「本開示」またはその態様への言及は、本開示の特定の実施形態を意味すると理解されるべきであり、必ずしも全ての実施形態を特定の説明に限定するものと解釈されるべきではない。本開示は、本概要、ならびに添付の図面および実施形態の説明において様々な詳細レベルで記載され、本開示の範囲に対する制限は、要素、構成要素等を本概要に含めること、または含めないことのいずれかによって意図されるものではない。本開示の追加の態様は、実施形態の説明からより容易に明らかになり、特に図面と組み合わせると、明らかになる。本出願は、様々なジャーナル記事、および他の刊行物をさらに参照し、それらの全ては、参照により本明細書に組み込まれる。本発明の1つ以上の実施形態の詳細は、本明細書に記載される。
【0034】
本開示の上記および他の態様、特徴、および利点は、添付の図面と併せて以下の詳細な説明からより良く理解されるであろう。これらの全ては、例示のみによって与えられ、以下の開示された実施形態を限定するものではない。
【図面の簡単な説明】
【0035】
図1】その一実施形態において、フロー顕微鏡からのイメージングデータを分析し、捕捉された画像を評価して標的生体分子を検出、診断、および監視する方法の一般的な概略図を示す。
図2】小さな血液粒子と異なる種の細菌を区別するように設計されたConvNetの混同行列を示す。この行列の行は、特定の細胞型を含む画像に対応し、列はConvNetの出力に対応する。行列の各成分は、細胞型の単一のランダム画像(行列の行)がアルゴリズム(行列の列)によって特定の細胞型として識別される確率として解釈され得る。この行列は、小さな血液細胞と細菌の両方のおよそ99%が訓練されたConvNetによって正しく識別されていることを示す。
図3】例示的な新生児の敗血症例における一部の生物を識別しようとするときに可能な精度を定量化するために、「分類モジュール」(図1.ワークフローを参照)においてConvNetによって使用される混同行列を示す。
図4】模擬尿液中のE.coliの混合物の試料FIM写真を示す。
図5】HGH(上)およびHPVキャプシドタンパク質(下)を産生するE.coli株の試料FIM写真を示す。
図6】様々な組換えタンパク質を発現するE.coli株について訓練されたConvNetのための混同行列を示す。
図7】障害検出のためにConvNetを訓練および試験するために使用される4つの機構を介して生成されたタンパク質凝集体の試料FIM画像を示す。
図8】グレースケールFIM画像上でConvNetを使用した障害検出を示す。訓練後、訓練されたネットワークを、上部パネルに示される攪拌ストレスの乱れを介して生成された粒子の画分と、フィルフィニッシュプロセスによって生成された残りの粒子とを含む合成データセットに適用した。下のパネルは、ネットワークによって返される通常のプロセス条件からの逸脱を示している。ネットワークは、プロセスによって作製された粒子のみを含むデータセット(バッチ1~100)を通常として正しく識別し、攪拌粒子の画分が増加しているデータセットを通常のプロセスからますます逸脱していると正しく識別する。
図9】既知のストレス条件から形成されるモノクローナルおよびポリクローナルタンパク質凝集体のカラーFIM画像から得られる非線形ConvNet埋め込みの実証である。この図は、障害を検出する能力の定量的実証を提供し、図12に示される基準ケースからの逸脱を検出する能力の定量的実証を提供する。
図10】新たなプロセスポンプによって誘導される大型の事前に不明なプロセスの乱れを検出する能力の実証である。この図は、障害を検出する能力の定量的実証を提供し、図12に示される基準ケースからの逸脱を検出する能力の定量的実証を提供する。
図11A】タンパク質治療溶液を含むバイアルのエタノール洗浄によって誘発される微妙な予期せぬプロセスの乱れを検出する能力の実証である。この図は、障害を検出する能力の定量的実証を提供し、図12に示される基準ケースからの逸脱を検出する能力の定量的実証を提供する。
図11B】タンパク質治療溶液を含むバイアルのエタノール洗浄によって誘発される微妙な予期せぬプロセスの乱れを検出する能力の実証である。この図は、障害を検出する能力の定量的実証を提供し、図12に示される基準ケースからの逸脱を検出する能力の定量的実証を提供する。
図12】障害およびプロセスの乱れを検出する定量的能力の実証である。示された表は、基準ケースおよび様々なストレスについての仮説検定結果(誤報率5%を目標に実施)を要約している。報告された不合格率は、目標誤報率α、または5%を使用して、サイズN(本明細書に要約される2つの値)の10,000回の抽選を超える平均不合格率である。
図13-1】その一実施形態における例示的な敗血症検出アルゴリズムの概略フローチャートを示す。
図13-2】その一実施形態における例示的な敗血症検出アルゴリズムの概略フローチャートを示す。
図14A】(A1-2)血液、(B)A.baumannii、(C)E.coli、(D)E.faecalis、(E)K.pneumoniae、(F)P.aeruginosa、および(G)S.aureusのFlowCam Nano機器で撮影した試料画像である。
図14B】(A1-2)血液、(B)A.baumannii、(C)E.coli、(D)E.faecalis、(E)K.pneumoniae、(F)P.aeruginosa、および(G)S.aureusのFlowCam Nano機器で撮影した試料画像である。
図14C】(A1-2)血液、(B)A.baumannii、(C)E.coli、(D)E.faecalis、(E)K.pneumoniae、(F)P.aeruginosa、および(G)S.aureusのFlowCam Nano機器で撮影した試料画像である。
図14D】(A1-2)血液、(B)A.baumannii、(C)E.coli、(D)E.faecalis、(E)K.pneumoniae、(F)P.aeruginosa、および(G)S.aureusのFlowCam Nano機器で撮影した試料画像である。
図14E】(A1-2)血液、(B)A.baumannii、(C)E.coli、(D)E.faecalis、(E)K.pneumoniae、(F)P.aeruginosa、および(G)S.aureusのFlowCam Nano機器で撮影した試料画像である。
図14F】(A1-2)血液、(B)A.baumannii、(C)E.coli、(D)E.faecalis、(E)K.pneumoniae、(F)P.aeruginosa、および(G)S.aureusのFlowCam Nano機器で撮影した試料画像である。
図14G】(A1-2)血液、(B)A.baumannii、(C)E.coli、(D)E.faecalis、(E)K.pneumoniae、(F)P.aeruginosa、および(G)S.aureusのFlowCam Nano機器で撮影した試料画像である。
図15】5μmのサイズ閾値を適用した後に、FlowCam Nano機器で撮影した血液の試料画像である。(A)5μmより大きい粒子の画像、(B)5μmより小さい粒子の画像である。
図16】機械学習を適用して、その一実施形態における高スループットシステムにおける試料中の1つ以上の関心特徴を検出および分析する方法の一般的なフローチャートを示す。
【発明を実施するための形態】
【0036】
本明細書の実施形態およびその様々な特徴および詳細は、添付の図面において図示され、以下の説明において詳細な非限定的な実施形態を参照してより完全に説明される。本明細書の実施形態を不必要に曖昧にすることを回避するために、周知の構成要素および処理技術の説明は省略される。また、一部の実施形態は、新しい実施形態を形成するために1つ以上の他の実施形態と組み合わせることができるため、本明細書に記載される様々な実施形態は必ずしも相互排他的ではない。本明細書で使用される実施例は、本明細書の実施形態を実施することができる方法の理解を容易にし、さらに、当業者が本明細書の実施形態を実施することを可能にすることのみを意図する。したがって、実施例は、本明細書の実施形態の範囲を限定すると解釈されるべきではない。
【0037】
本開示は、高スループットサイトメトリまたは他の同様の分離または分析方法によって処理された生物学的または生薬試料中の細胞および病原体などの生体分子などの標的粒子の迅速な分析のための自動生体試料試験システムを提供する。好ましい実施形態では、これらのシステムは、試料中の細胞および生体分子などの標的粒子の存在を迅速かつ効率的に識別し得、ヒトの介入を必要とせずに大量の生体試料を分析するためにさらに使用され得る。
【0038】
本開示の発明は、実験用高スループットフローイメージング顕微鏡、フローサイトメトリ、機械学習、および計算統計における最先端の技術を拡張および修正するものである。本発明は、実験画像を所定のクラスに分類する能力および/または観測結果を、既知または未知の「障害」としてラベル付けする能力を可能にする。「障害」とは、観測結果が測定された応答の基準集団から来た可能性が統計的に低いことを意味する。概して図1に示されるように、本発明は、高スループットフローイメージング顕微鏡を捕捉し、かかる画像に機械学習アプリケーションを適用し、それによって対象の粒子、細胞、生体分子、または他の標的の分類を達成するためのマルチ構成要素システムを含んでもよい。図中のモジュールの各々は、様々な方法および構成要素によって達成され得る。図1の概略図における各構成要素の例示的な好ましい実施形態は、実施例セクションに記載される。
【0039】
好ましい一実施形態において、本発明者は、当業者によって既知の用語を使用して、各モジュールの入力および出力の種類を拡張している。注目すべきことは、図1に示される好ましい実施形態では、様々なモジュールにおける機能評価を指定するために必要とされる全てのパラメータは、適切な「コスト関数」を最小限に抑えることによって、ラベル付けされた、生の画像データまたは処理された画像データの大集合を使用して既に推定されていると仮定され得ることである(ここで、「処理された」は、上流のモジュールが正しい入力を生成したことを意味する)。ここで、コスト関数は、例えば病原体分析で必要とされるような分類(例えば、「クロスエントロピー損失」関数)を目的とすることができ、また、コスト関数は、障害検出のアプリケーション(例えば、トリプレット損失、関数、または最小二乗型損失を使用)のための「画像埋め込み」を介した低次元表現を開発することを目的とすることができる。
【0040】
図1に示すように、(1)複数の顕微鏡画像を撮影し、さらなる分析のために本発明のシステムに入力することができる。好ましい一実施形態では、高スループットフローサイトメトリまたは他の同様のプロセスに供される生体試料または生薬試料など、試料の個々の構成要素の複数の画像が捕捉されてもよい。この高スループットイメージングは、例えば、注射用タンパク質治療薬等の品質管理の一部として、有害な外来感染性生体分子、例えば、哺乳動物中の細菌、または生薬品を検出、診断、および監視するためにさらに分析されてもよい。好ましい実施形態では、顕微鏡画像は、明視野もしくは蛍光顕微鏡、またはフローイメージング顕微鏡(FIM)等の他の類似のイメージングデバイスからのものであってもよい。以下に考察されるように、好ましい実施形態では、複数の顕微鏡画像を使用して訓練データセットを生成することができる。かかる高スループット訓練セットに必要とされる画像の数は、他の考慮事項の中でもアプリケーションおよび関心特徴に依存し得るが、一実施形態において、かかる高スループット訓練セットは、少なくとも10~10画像、またはより好ましくは10~10またはそれ以上の画像の範囲であってもよい。
【0041】
図1に示されるように、1つの好ましい実施形態では、(2)「ConvNet特徴抽出モジュール」は、高スループット顕微鏡デバイスから測定された、生の画像または前処理された画像(前処理ステップは、所与のサイズ閾値以上または以下の画像中のオブジェクトの推定サイズに基づいて画像をカリングし得る)の集合を入力として取ってもよく、一般的に「関心特徴」と称される「特徴」を抽出してもよい。これらの特徴は、典型的には、畳み込みニューラルネットワーク(CNN)を介して抽出され得るが、主成分分析(PCA)などの他の特徴抽出器によって抽出され得る。このモジュールの出力は、結果として生じる特徴、および任意選択で、さらなる下流処理のための元の画像測定値であり得る。
【0042】
再び、概して図1を参照すると、1つの好ましい実施形態では、(3)「融合モジュール」は、他のソースからのデータおよび/またはメタ情報を活用するために任意選択で使用され得る。ConvNetからの特徴は、様々な方法(例えば、2つの入力人工ニューラルネットワーク、特徴選択のためのランダムフォレストアルゴリズムまたはグラデーションブースティングアルゴリズム)を通じて、出力または画像埋め込みの新しい関心特徴のセットを生成する他の測定または記述的特徴と組み合わせることができる。活用する追加情報がない場合、またはこの段階で特徴を変更しないことが所望される場合、このモジュールは、このモジュールへの入力の全てまたはサブセットと同一の出力を生成する「アイデンティティ」関数として機能することができる。
【0043】
図1にも示されるように、(4)「関心対象選択モジュール」は、どの測定特徴および/または画像がさらに下流で処理され得、どの測定特徴および/または画像が無視されるかを決定し得る。例えば、病原体分析の実施形態では、血小板は、下流分析およびタンパク質障害検出において無視されてもよい。この実施形態では、FIM機器を通過するシリコーンオイルまたは気泡も無視されてもよい。このモジュールは、別の人工ニューラルネットワーク(ANN)を使用して、(特定の用途に応じて)新しい機能または埋め込みのセットを生成することができ、または入力に作用し、「ゲート関数」として機能する標準的な高次元分類子であってもよい。代替の実施形態では、このステップはまた、特徴の全てまたはサブセットを変更されていない次のステップに渡す「アイデンティティ」関数であってもよい。次のステップで取られる分岐は、アプリケーションに依存し得る。例えば、病原体識別の実施形態で使用され得る1つの分岐は、別の分類子を使用して特徴/画像に渡されたものに基づいて所定のラベルおよびクラスの確率を割り当てる(6)「分類モジュール」を含んでもよい。後続のクラスおよびクラス確率出力は、最終出力であり得るか、または特徴/生の入力特徴は、別の事前訓練されたANNを介して埋め込まれ、他の分岐に、この場合は(5)「障害検出モジュール」に渡すことができる。「障害検出モジュール」は、生の画像の低次元埋め込み表現を取って、統計的仮説検定を実行し、埋め込みの集合が予め計算された関心基準分布から引き出されたことが統計的に確率的に可能であるかどうかを確認してもよい。このステップは、ラベル付き正解データの大集合を特徴付ける適切な適合度検定統計の事前計算された経験的に決定された確率分布(分布関数推定がパラメトリックまたは非パラメトリックであり得る)を組み込んでもよい。次いで、前述の分布は、「試験データセット」内の各画像のp値を計算するために使用されてもよく、ユーザは、ラベル付けされていないデータの埋め込みの集合によって生成された試験統計が、ラベル付けされた基準分布の埋め込みと統計的に類似しているかどうかを検出することができる。
【0044】
図1にさらに示されるように、破線矢印は、「分類モジュール」の出力が、この段階で使用される分類アルゴリズムが、候補クラスラベルの固定された既知のリスト上で訓練されることを前提としているため、候補予測クラスラベルの診断を検証するために使用され得ることを示すために使用され、この候補予測クラスラベルは、関心物体と同様のサイズの事前予測されない汚染物質が試料中にあり得る用途において有用であり得る。
【0045】
別段の記載がない限り、本明細書に開示される方法操作およびデバイス特徴は、微生物学、幾何光学、ソフトウェア設計およびプログラミング、ならびに統計に使用される技術および装置を含み、これらは当業者の技術の範囲内のものである。
【0046】
本明細書で別途定義されない限り、本明細書で使用される全ての技術用語および科学用語は、当業者に概して理解される意味と同じ意味を有している。本明細書に記載されるものと類似または同等の任意の方法および材料は、本明細書に開示される実施形態の実施または試験において使用されるが、一部の方法および材料は、詳細に記載され、現在の本発明技術の好ましい実施形態を表している。
【0047】
命令を実行する本明細書に例示される任意のモジュール、ユニット、コンポーネント、サーバ、コンピュータ、端末、エンジン、またはデバイスは、例えば、磁気ディスク、光ディスク、またはテープなどの記憶媒体、コンピュータ記憶媒体、もしくはデータ記憶デバイス(取り外し可能および/または取り外し不可能)などのコンピュータ可読媒体を含むか、またはそれ以外の方法でコンピュータ可読媒体にアクセスすることができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を記憶するための任意の方法または技術で実装される揮発性および不揮発性、取り外し可能、および取り外し不可能な媒体を含んでもよい。コンピュータ記憶媒体の例としては、RAM、ROM、EEPROM、フラッシュメモリもしくは他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)もしくは他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、または所望の情報を記憶するために使用され得、特に、クラウドベースのアプリケーションを含むアプリケーション、モジュール、もしくはその両方によってアクセスされ得る任意の他の媒体が含まれてもよい。任意のかかるコンピュータ記憶媒体は、デバイスの一部であってもよく、またはデバイスにアクセス可能もしくは接続可能であってもよい。さらに、文脈が明確に別様を示さない限り、本明細書に示される任意のプロセッサまたはコントローラは、単一のプロセッサとして、または複数のプロセッサとして実装されてもよい。複数のプロセッサは、配列または分散され得、本明細書で言及される任意の処理機能は、単一のプロセッサが例示され得るにもかかわらず、1つ以上のプロセッサによって実行されてもよい。本明細書に記載される任意の方法、アプリケーションまたはモジュールは、コンピュータ可読/実行可能命令を使用して実装され得、コンピュータ可読媒体によって記憶され得るか、またはそうでなければ保持され得、1つ以上のプロセッサによって、またはクラウドベースのアプリケーションを通じて実行されてもよい。
【0048】
数値範囲には、範囲を定義する数値が含まれる。本明細書全体を通して与えられる全ての最大数値制限は、かかるより低い数値制限が本明細書に明示的に記載されているかのように、全てのより低い数値制限を含むことを意図する。本明細書全体を通して与えられる全ての最小数値制限は、かかるより高い数値制限が本明細書に明示的に記載されているかのように、より高い数値制限全てを含む。本明細書全体を通して与えられる全ての数値範囲は、かかるより狭い数値範囲が全て本明細書に明示的に記載されているかのように、かかるより広い数値範囲内に入る全てのより狭い数値範囲を含む。
【0049】
本明細書に提供される見出しは、本開示を限定することを意図しない。
【0050】
本明細書で使用される場合、単数形用語「an」、「the」は、文脈が明示的に別様に示さない限り、複数の参照を含む。本明細書で使用される場合、「または」という用語は、別段の指示がない限り、非排他的な「または」を指す。
【0051】
直後に定義される用語は、本明細書全体を参照することによってより完全に説明される。本開示は、それらが当業者によって使用される文脈に応じて変化し得るため、記載される特定の方法、プロトコル、および試薬に限定されないことを理解されたい。
【0052】
「複数」という用語は、2つ以上の要素を指す。例えば、この用語は、生体試料中の2つ以上の種類の寄生虫または病原体、生体試料の画像中の2つ以上の試料特徴(例えば、細胞)、深層学習モデル中の2つ以上の層などに関して本明細書で使用される。
【0053】
本明細書における「閾値」という用語は、例えば、試料特徴を特定の種類の寄生虫もしくは病原体として分類するためのカットオフ、または、異常細胞等に関連する状態を診断するための異常細胞と正常細胞の比率(または異常細胞の密度)として使用される任意の数値を指す。閾値は、測定された値または計算された値と比較されて、かかる値を引き起こすソースが、特定の方法で分類されるべきであることを示唆しているかどうかを判定し得る。閾値は、経験的または分析的に識別され得る。閾値の選択は、ユーザが希望する分類を行う際の信頼度に依存する。特定の目的のために(例えば、感度と選択度のバランスを取るために)それらが選択されることがある。
【0054】
「生体試料」、「生薬試料」、または「試料」という用語は、本明細書に概して記載されるように、本発明で分析される試料を指す。加えて、本明細書で一般的に使用されるように、「生体試料」または「試料」は、高スループットプロセス、例えば、高スループットフローイメージング顕微鏡の対象となり得る任意の試料を含み得る。好ましい一実施形態では、「生体試料」または「試料」は、高スループットフロー画像顕微鏡などの高スループットプロセスの対象となり得るタンパク質ベースの治療薬などの医薬調製物を含み得る。本明細書で使用される場合、「基準試料」は、例えば、訓練データセットを生成することによって、コンピュータ学習システムを訓練するために使用され得る試料である。本明細書で使用される場合、「試験試料」は、例えば、1つ以上の関心特徴の試験データセットを生成するために使用され得る試料であり、これは、本明細書に概して記載されるように、訓練データセットと定性的および/または定量的に比較され得る。
【0055】
好ましい実施形態では、「生体試料」または「試料」は、典型的には、生体流体、組織、器官などに由来する試料を指し、多くの場合、感染症などの疾患または障害のような状態を有することが疑われる生物から採取される。かかる試料としては、痰/経口液体、羊水、血液、血液画分、骨髄、細かい針生検試料(例えば、外科的生検、細かい針生検など)、尿、精液、便、膣液、腹水、胸水、組織摘出物、臓器培養、細胞培養、および任意の他の組織もしくは細胞調製物、あるいはそれらの画分もしくは誘導体、またはそれらから単離されたものが挙げられるが、これらに限定されない。
【0056】
生体試料は、多細胞生物から採取され得、または1つ以上の単一細胞生物のものであり得る。場合によっては、生体試料は、哺乳動物などの多細胞生物から採取され、生物のゲノムを含む細胞と、寄生虫または病原体などの別の生物からの細胞との両方を含む。試料は、生物学的供給源から得られるように、または試料の特性を改変するための前処理の後に直接使用され得る。例えば、かかる前処理は、血液から血漿を調製すること、粘性流体を希釈すること、細胞または組織を培養することなどを含み得る。前処理の方法は、濾過、沈殿、希釈、蒸留、混合、遠心分離、凍結、凍結乾燥、濃度、増幅、核酸断片化、干渉成分の不活性化、試薬の添加、溶解なども含み得るが、これらに限定されない。かかる「治療された」または「処理された」試料は、本明細書に記載の方法に関して、依然として生体試料であると見なされる。
【0057】
生体試料は、任意の対象または生物学的供給源から得ることができる。試料は、しばしばヒト対象(例えば、患者)から採取されるが、試料は、哺乳類(例えば、イヌ、ネコ、ウマ、ヤギ、ヒツジ、ウシ、ブタなど)、非哺乳類高次生物(例えば、爬虫類、両生類)、脊椎動物、および無脊椎動物を含むが、これらに限定されない、任意の生物から採取され得、また、真核生物(植物および藻類を含む)または原核生物、古生物、微生物(例えば、細菌、古細菌、真菌、プロティスト、ウイルス)、および水生プランクトンなどの任意の単細胞生物であってもよく、またはこれらを含んでもよい。
【0058】
本明細書に記載される様々な実施形態において、生体試料は、個体または「宿主」から採取される。かかる試料は、宿主の細胞(すなわち、個体のゲノムを有する細胞)または宿主組織のいずれかを、場合によっては、以下に記載される任意の非宿主細胞、非宿主多細胞生物等とともに含み得る。様々な実施形態において、生体試料は、イメージングおよび自動画像分析を容易にするフォーマットで提供される。一例として、生体試料は、画像分析の前に染色され得る。
【0059】
本明細書で使用される場合、宿主は、生体試料を提供する生物である。例としては、ヒト、爬虫類、両生類、および上述の生体試料の他の供給源を含む哺乳動物を含むより高い動物が挙げられる。
【0060】
本明細書で使用される場合、「特徴」、「関心特徴」または「試料特徴」は、高スループットシステムを通過する物体または粒子の定量可能かつ/または観測可能な特徴を表す試料の特徴である。ある特定の実施形態では、「関心特徴」は臨床的に関連する状態と潜在的に相関し得る。ある特定の実施形態では、関心特徴は、生体試料などの試料の画像に現れ、機械学習モデルによって認識、セグメント化、および/または分類され得る特徴である。関心特徴の例としては、生体試料の画像の構成要素が挙げられる。前述の画像により、宿主の細胞(正常および異常宿主細胞の両方、例えば、腫瘍細胞および正常体細胞を含む)、赤血球(核酸化および無核化)、白血球、体細胞非血液細胞などの物体、タンパク質凝集体などの生体分子、1つ以上の異種ヌクレオチドを発現する細胞、ならびに概して、例えば、高スループットフローイメージングシステムを通過し得る液体溶液中に懸濁された任意の観測可能な粒子を特徴付けることができる。上記に提示される関心特徴のこれらの例のそれぞれは、本明細書に記載される機械学習システムのための別個の分類として使用され得る。かかるシステムは、これらのうちのいずれかを単独で、または他の実施例と組み合わせて分類することができる。白血球の種類としては、好中球、リンパ球、好塩基球、単球、および好酸球が挙げられる。宿主に存在する寄生虫または病原性生物には、宿主のライフサイクルを完了するために宿主に完全に依存する偏性寄生虫と、宿主の外で活動することができる通性寄生虫の両方が含まれてもよい。場合によっては、本明細書に記載される分類子は、エンドパラサイトである寄生虫のみを分類する。すなわち、皮膚上ではなく宿主の内側に生息する寄生虫または皮膚の成長を分類する。本明細書に記載される方法および装置によって分類され得るエンドパラサイトの種類には、細胞間寄生虫(血漿を含む宿主の体内の居住空間)が含まれる。細胞間寄生虫の一例は、マラリア様症状を引き起こし得る原虫寄生虫であるバベシアである。細胞内寄生虫の例としては、原虫(真核生物)、細菌(原核生物)、およびウイルスが挙げられる。原虫は、ワームであり得る。偏性原虫の例としては、アピコンプレキサン(悪性プラスモジウム(マラリア寄生虫)および生体プラスモジウムを含むプラスモジウム属)、トキソプラズマ・ゴンダイおよびクリプトスポリジウム・パルブム)(トキソプラズマ寄生虫)、トリパノソーマ(リーシュマニア属およびトリパノソーマ・クルージ)(シャガス寄生虫)、シタウクゾーン、収縮腫が挙げられる。細菌の例としては、(i)通性の例として、Bartonella henselae Francisella tularensis、Listeria monocytogenes、Salmonella typhi、Brucella、 Legionella、Mycobacterium、 Nocardia、Rhodococcus equi、Yersinia、Neisseria meningitidis、Filariasis、Mycoplasmaが挙げられ、(ii)偏性の例として、クラミジア、および密接に関連する種、Rickettsia、Coxiella、Mycobacterium leprae、Anaplasma phagocytophilumなどのMycobacteriumの特定の種が挙げられる。真菌の例としては、(i)通性の例として、ヒストプラズマ・カプスラツム、クリプトコッカス・ネオフォルマンス、酵母/サッカロマイセスが挙げられ、(ii)偏性の例として、ジロベキス・ニューモシスティスが挙げられる。ウイルスは典型的には偏性であり、一部は、本開示のイメージングシステムの解像度によって識別されるのに十分な大きさである。ヘルミント:扁桃虫(プラチヘルミント)には、トレマトーデス(ふくらはぎ)およびセストデス(テープワーム)、棘頭虫(アカントセファリン)が含まれる。これらの虫の成体形態は、胃腸管、丸虫(線虫)に存在する。これらの虫の成体形態は、胃腸管、血液、リンパ系、または皮下組織に存在し得る。
【0061】
本明細書に記載される画像分析システムを使用して、検出可能な形態学的相違に基づいて、追加の分類が可能である。例えば、ヒトに感染している原虫は、それらの動き方に基づいて、サルコジーナ(アメーバ、例えばエンタモエバ)、マスティゴフォア(鞭毛体、例えばジアルディア、リーシュマニア)、シリオフォア(毛様体、例えばバランチジウム)、スポロゾア(成体段階が運動性でない生物、例えばプラスモジウム、クリプトスポリジウム)の4つのグループに分類され得る。
【0062】
本明細書で使用される場合、機械学習システムまたはモデルは、画像から抽出されたセルラーアーチファクトなどの関心特徴を取り、例えば、特定の細胞型、寄生虫、細菌、タンパク質凝集体などとして分類する訓練された計算モデルである。機械学習モデルによって分類できないセルラーアーチファクトは、周辺オブジェクトまたは識別できないオブジェクトと見なされる。機械学習モデルの例としては、回帰型ニューラルネットワークおよび畳み込みニューラルネットワークを含むニューラルネットワーク、ランダムフォレストを含むランダムフォレストモデル、制限付きボルツマンマシン、回帰型テンソルネットワーク、および勾配ブースト木が挙げられる。「分類子」(または分類モデル)という用語は、深層学習モデル(例えば、多くの層を有する神経ネットワーク)ならびにランダムフォレストモデルを含む全ての形態の分類モデルを説明するために使用されることがある。
【0063】
本明細書で使用される場合、関数近似方法を含み得る深層学習モデルを含み得、これは、機械学習システムは、分類であるか、または次元削減であるか、所与のタスクを達成するように構成されたカスタム辞書を開発することを目的とする。それは、ニューラルネットワーク(例えば、畳み込みニューラルネットワーク)などによって様々な形態で実装され得、概して、必ずしもそうではないが、複数の層を含む。かかる各層は、複数の処理ノードを含み、各層は、モデル入力層に近い層のノードがモデル出力に近い層のノードよりも先に処理を行い、順に処理を行う。様々な実施形態では、1つの層が次の層などにフィードする。出力層には、様々な分類を表すノードが含まれる場合がある一部の実施形態では、深層学習モデルは、セルラーアーチファクトなどのセグメント化されたデータまたは他の関心特徴が画像から抽出されてもよいが、非常に少ない前処理でデータを取り、セルラーアーチファクトの分類を出力するモデルである。
【0064】
様々な実施形態において、深層学習モデルは、有意な深度を有し得、タンパク質凝集体、液体懸濁液中の粒子、または病原体もしくは遺伝子発現等のセルラーアーチファクト等の、関心特徴の大規模または不均一な配列を分類することができる。一部の文脈において、「深い」という用語は、モデルが、先行する層から値を受信し(または直接入力として)、後続の層(または最終出力)に値を出力する複数の処理ノード層を有することを意味する。内部ノードは、しばしば、それらの入力および出力値がモデルの外では見えないという意味で「隠れ」ノードである。様々な実施形態において、隠れノードの動作は、動作中に監視または記録されなくてもよい。深層学習モデルのノードおよび接続は、例えば、「基準」または「追加試料」で訓練され、その数、構成、画像入力とのインターフェースなどを再設計することなく再訓練され得、さらに、細胞、標的生体分子、1つ以上の遺伝子を発現する細胞、または液体懸濁液中の粒子などの多種多様な関心特徴を分類することができる。
【0065】
様々な態様では、試験試料から関心特徴を分析し、それによって試験データセットを生成し、それを基準試料から生成された訓練データセット、ならびに任意選択で1つ以上の追加試料と比較することによって、関心特徴を識別し、任意選択で特徴付けるためのシステムおよび方法を本明細書で提供する。この実施形態における関心特徴は、細胞形態などの細胞の特徴、ならびに細胞内および/または細胞に関連する1つ以上のバイオマーカーの存在、不在、または相対量、フィニッシュおよびフィル医薬系で生成されるタンパク質凝集体、ならびに液体懸濁液中の様々な粒子の特性を含み得る。
【0066】
例えば、1つの特定の実施形態では、試験試料中のConvNetを介して画像から抽出された「関心特徴」によって定量化された関心細胞のシグネチャを分析し、基準試料からの関心細胞のシグネチャと比較することによって、関心細胞を標的細胞として同定し、任意に特徴付けるためのシステムおよび方法を本明細書で提供する。細胞のシグネチャ、または「関心特徴」はまた、細胞形態などの細胞の物理的特徴、ならびに細胞内および/または細胞と関連する遺伝子発現の存在、不在、または相対量も含み得る。
【0067】
関心細胞の「関心特徴」は、潜在的な標的細胞が単離された患者における疾患または状態を診断または別様に特徴付けるのに有用であり得る。本明細書で使用される場合、「単離された細胞」は、任意の分離方法を使用して生体試料中の他の材料から分離された細胞を指す。単離された細胞は、生体試料からの濃縮画分中に存在し得るため、その使用は、精製された細胞に限定されることを意味しない。一部の実施形態では、単離された細胞の形態を分析する。感染症を示す標的細胞については、細胞シグネチャの分析は、感染症の診断、感染症の程度の決定、感染症の種類の決定、および宿主内または感染症の所与の治療内の感染症の進行の監視を含む一部の方法に有用である。これらの方法の一部は、標的細胞のシグネチャの変化を監視することを含み得、これには、増大および/もしくは減少、ならびに/または形態の任意の変化が含まれる。
【0068】
一部の実施形態では、関心細胞の「関心特徴」は、対象の生体試料の画分で分析され、生体試料は、標的細胞について濃縮するように処理されている。場合によっては、濃縮画分は標的細胞を欠いており、濃縮画分中の標的細胞のシグネチャの不在は、これが不在であることを示している。標的細胞としては、血液細胞、例えば、ナチュラルキラー細胞、Tリンパ球、Bリンパ球、および他のリンパ球細胞が挙げられる。
【0069】
一部の実施形態では、「集団分布」は、本明細書に一般的に記載される基準または他の試料に関連付けられた関心特徴の集合体を指す。この「集団分布」は、集団を特徴付ける不明な累積分布関数に対応する。一部の実施形態では、この量は、確率密度関数を介して推定される。
【0070】
本明細書で使用される場合、「標的細胞集団」は、凝集体形態で識別される標的細胞を指す。これらの集団は、特徴的な形状を表示し、多次元空間内に集約位置を有する点群と考えることができる。多次元空間において、軸は、フローサイトメトリにおける信号測定の源である流量測定チャネルによって定義される。例えば、フローサイトメトリで測定された信号としては、光学信号および測定値が挙げられるが、これらに限定されない。光学信号の例示的なチャネルとしては、前方散乱チャネル、側方散乱チャネル、およびレーザ蛍光チャネルのうちの1つ以上が挙げられるが、これらに限定されない。
【0071】
全てのフローサイトメトリ機器チャネルまたはチャネルのサブセットは、多次元空間内の軸に使用され得る。細胞の集団は、その個々の細胞メンバーのチャネル値が変化するとき、特に、集団内の多数の細胞がチャネル値を変化させたときに、多次元チャネル空間において変化したと見なされ得る。例えば、細胞集団を表す点群は、異なる時間に同じ個体から試料が採取されるとき、2次元(2D)ドットプロットまたは強度プロット上の位置が異なることがわかる。同様に、細胞集団を表す点群は、多次元空間における形状をシフト、変換、回転、またはそれ以外の場合、変更することができる。従来のゲーティングがゲート領域内の総細胞数を提供するのに対し、多次元空間におけるある特定の細胞集団点群の位置および他の空間パラメータは、総細胞数を提供することに加えて、追加の情報を提供し、この追加の情報は、正常な対象(例えば、感染症なしの対象)と感染症患者(例えば、寄生虫または病原体感染症を有する対象)とを区別するためにも使用され得る。
【0072】
関心細胞のシグネチャを分析することによって、関心細胞を標的細胞として同定し、任意選択で特徴付けるためのシステムおよび方法を本明細書で提供する。場合によっては、関心細胞は、寄生虫または病原性細胞である。フローサイトメトリは、細胞の存在、不在、もしくは相対量などの細胞のシグネチャを測定するために、または関心標的細胞の物理的特性もしくは機能的特性を分化させることによって使用され得る。本明細書に記載されるシステムおよび方法を使用して同定される関心細胞には、疾患、障害、または非疾患状態に関与する細胞型が含まれる。細胞の例示的な種類としては、寄生虫または病原性細胞、細菌、ウイルス、真菌、ヘルミント、および原虫などの感染細胞が挙げられるが、これらに限定されない。場合によっては、関心細胞は、細胞形態、細胞体積、細胞サイズおよび形状、総DNAなどの細胞構成要素の量、新たに合成されたDNA、特定の遺伝子のメッセンジャーRNAの量としての遺伝子発現、特定の表面受容体の量、細胞内タンパク質の量、シグナル伝達事象、または細胞内の結合事象のうちの少なくとも1つによって同定される。一部の場合において、関心細胞は、タンパク質、脂質、炭水化物、および小代謝産物等のバイオマーカーの存在または非存在によって同定される。
【0073】
場合によっては、細胞は、採血、骨髄採取、または組織抽出によって対象から取得される。多くの場合、細胞は、対象の末梢血から取得される。場合によっては、密度遠心分離を使用して血液試料を遠心分離して、単核細胞、赤血球、および顆粒球を得る。場合によっては、末梢血試料は、抗凝固剤で治療される。場合によっては、末梢血試料は、抗凝固剤含有容器内に収集されるか、またはその中に移される。抗凝固剤の非限定的な例としては、ヘパリン、ヘパリンナトリウム、シュウ酸カリウム、EDTA、およびクエン酸ナトリウムが挙げられる。末梢血試料を赤血球溶解剤で処理される場合がある。
【0074】
あるいは、または組み合わせて、細胞は、様々な他の技術によって取得され、かつ、骨髄、腹水、洗浄などの供給源を含む。場合によっては、外科的処置を使用して、対象から組織を採取する。組織は、固定または固定解除されてもよく、新鮮なものであっても凍結されていてもよく、全体的であっても分解されてもよい。例えば、組織の分解は、機械的または酵素的に行われる。場合によっては、細胞が培養される。培養細胞は、発達した細胞株または患者由来の細胞株であり得る。細胞培養の手順は当業者に一般的に知られている。
【0075】
本明細書に記載のシステムおよび方法は、1つ以上の基準試料/データセットと比較した対象からの1つ以上の試験試料の分析を伴い得る。試料は、様々な別個の細胞集団の分析を可能にする任意の好適な種類であり得る。試料は、単一の細胞集団の分析を可能にする任意の好適な種類であり得る。試料は、対象から1回または複数回得ることができる。複数の試料は、個体内の様々な場所(例えば、血液試料、骨髄試料、および/または組織試料)から、個体の様々な時間(例えば、疾患を診断するために、または病理学的状態の再発を監視するために採取された一連の試料)で、またはそれらの任意の組み合わせから得ることができる。試料の種類、場所、およびサンプリングの時間に基づいたこれらおよび他の可能なサンプリングの組み合わせは、感染症の前後の細胞の存在の検出および疾患の監視を可能にする。
【0076】
試料が一連の、例えば、治療後に得られた一連の血液試料として得られる場合、試料は、固定間隔で、1つ以上の最新の試料の状態によって決定される間隔で、個体の他の特性によって、またはそれらの一部の組み合わせによって得ることができる。例えば、試料は、約1、2、3、または4日の間隔で、約1、2、3、4、5、6、7、8、9、10、または11時間の間隔で、約1、2、3、4、5、または5ヶ月超の間隔で、あるいはそれらの一部の組み合わせで得られ得る。
【0077】
本明細書に記載される方法およびシステムを使用して分析のために細胞を調製するために、細胞は、単一細胞懸濁液中で調製され得る。接着細胞に関して、機械的または酵素的消化および適切な緩衝液の両方を使用して、それらが接着される表面から細胞を除去することができる。次いで、細胞および緩衝液を試料収集チューブにプールすることができる。懸濁液中で成長した細胞については、細胞および培地を試料収集チューブにプールすることができる。接着細胞および懸濁細胞は、好適な緩衝液中での遠心分離によって洗浄され得る。細胞ペレットを適切な体積の好適な緩衝液中に再懸濁し、細胞ストレーナを通過させて、好適な緩衝液中の単一細胞の懸濁を確実にすることができる。次いで、調製した試料に対してフローサイトメトリシステムを使用して方法を実行する前に、試料をボルテックスすることができる。
【0078】
細胞試料が収集されると、それらは、後の使用のために処理および保管され得るか、即座に処理および使用され得るか、または単に即座に使用され得る。場合によっては、処理には、治療、単離、精製、濾過、または濃縮の様々な方法が含まれる。場合によっては、血、骨髄、末梢血、組織、または細胞培養物の新鮮または凍結保存された試料をフローサイトメトリに使用する。
【0079】
試料が後での使用のために保管されるとき、それらは、細胞調製チューブ内で試料を収集し、収集後にチューブを遠心分離することによって安定化され得る。
【0080】
場合によっては、フローサイトメトリによって測定される細胞の数は、約1,000個の細胞、約5,000個の細胞、約10,000個の細胞、約40,000個の細胞、約100,000個の細胞、約500,000個の細胞、約1,000,000個の細胞、または1,000,000個以上の細胞である。場合によっては、フローサイトメトリによって測定される細胞数は、最大約1,000、最大約5,000個、最大約10,000個、最大約40,000個、最大約100,000個、最大約500,000個、最大約1,000,000個、最大約1,000,000個、最大約10,000,000個、最大約100,000,000個、最大約1,000,000,000個、最大約10,000,000,000個、最大約100,000,000,000個、最大約1,000,000,000,000個、または1,000,000,000,000個を超える細胞である。
【0081】
概して、フローサイトメトリは、1つ以上のレーザビームの経路を通る個々の細胞の通過を伴う。フローサイトメトリは、細胞サイズ、細胞体積、細胞形態、細胞粒状度、総DNAなどの細胞構成要素の量、新たに合成されたDNA、特定の遺伝子のメッセンジャーRNAの量としての遺伝子発現、特定の表面受容体の量、細胞内タンパク質の量、または細胞内のシグナル伝達もしくは結合事象のうちの少なくとも1つを測定してもよい。場合によっては、粒状度または細胞サイズに基づくフローサイトメトリによる細胞分析を、複数の要素の活性化レベルと、単一の細胞についてフローサイトメトリによって測定可能な他の細胞品質との間の相関を提供するような、他のフローサイトメトリ可読出力の決定と組み合わせてもよい。
【0082】
場合によっては、フローサイトメトリデータは、単一のパラメータヒストグラムとして提示される。代替的または追加的に、フローサイトメトリデータは、サイトグラムと称されるパラメータの2次元(2D)プロットとして提示される。多くの場合、2つの測定パラメータ、例えばx軸上の1つおよびy軸上の1つが示される。場合によっては、描写されるパラメータは、側方散乱信号(SSC)、前方散乱信号(FSC)、および蛍光のうちの少なくとも1つを含む。場合によっては、サイトグラム内のデータは、ドットプロット、擬似色ドットプロット、等高線プロット、または密度プロットのうちの少なくとも1つとして表示される。例えば、関心細胞に関するデータは、等高線プロットまたは密度プロット内の関心細胞の位置によって決定される。等高線プロットまたは密度プロットは、特定のバイオマーカーの発現、または細胞形態もしくは粒状度などの特性を共有する一部の細胞を表すことができる。
【0083】
フローサイトメトリデータは、従来、ゲーティングによって分析されている。多くの場合、細胞のサブ集団は、プロット内でゲート化または境界化される。ゲーティングは、手動または自動で行うことができる。非限定的な例として、手動ゲートは、ポリゴン、正方形、またはサイトグラムを象限または他の断面測定値に分割する形態をとることができる。場合によっては、オペレータは、細胞の新しいサブ集団を生成するために、境界を作成または手動で調整することができる。あるいは、または組み合わせて、ゲーティングは自動的に実行される。ゲーティングは、一部では、手動で、または一部では自動的に行うことができる。
【0084】
場合によっては、ゲーティングは、コンピューティングプラットフォームを使用して実行される。コンピューティングプラットフォームは、関心細胞のゲーティングを可能にするユーザ入力および出力特徴を備え得る。コンピューティングプラットフォームは、典型的には、プロセッサ、オペレーティングシステム、システムメモリ、メモリ記憶デバイス、入出力コントローラ、入出力デバイス、および表示デバイスなどの既知の構成要素を含む。場合によっては、コンピューティングプラットフォームは、様々なコンピュータ実装動作を実行するための命令またはコンピュータコードをその上に有する非一時的なコンピュータ可読媒体を含む。
【0085】
ゲーティングは、場合によっては、散乱シグナル、例えば、前方散乱(FSC)を使用して、関心細胞から細胞下デブリを区別することを伴う。場合によっては、単一の細胞が、複数の細胞または細胞の塊からゲートされる場合もある。場合によっては、試料中の細胞は、細胞の生存率に基づく分析から個別にゲーティングすることができる。例えば、ゲーティングは、生細胞を選択し、細胞染色によって集団中の死んだ細胞または死にかけている細胞を除外するために使用される。例示的な染色は、4’,6-ジアミジン-2-フェニルインドール(DAPI)またはHoescht染色(例えば、Hoescht33342または33258)である。場合によっては、ゲーティングを少なくとも1つの物理的特徴またはマーカーに適用して、病原体または寄生虫細胞に感染するなどの関心細胞を識別する。
【0086】
場合によっては、フローサイトメトリ試料のセットにおける変化を比較することは、同じプロット上に1つのパラメータのヒストグラムを重ねることによって行われる。例えば、アレイフローサイトメトリ実験は、実験試料が比較される基準試料を含む。次いで、この基準試料をアレイの第1の位置に配置することができ、後続の実験試料は、配列内の対照に従う。基準試料は、状態に関連付けられた正常細胞および/または細胞(例えば、感染細胞)を含むことができる。
【0087】
場合によっては、データを分析する前に、関心細胞集団およびこれらの集団を特徴付ける方法が決定される。例えば、細胞集団は、関心標的に対して均質であると考えられる別個のセットを作製するような方法で、均質または系統ゲートされる。試料レベル比較の例は、対象の感染細胞におけるバイオマーカープロファイルの同定、およびこれらのプロファイルと非感染細胞におけるバイオマーカープロファイルとの相関であろう。場合によっては、異種集団の個々の細胞がマッピングされる場合もある。
【0088】
あるいは、フローサイトメトリと組み合わせて、関心細胞は、質量サイトメトリ、サイトスピン、または免疫蛍光を含むが、これらに限定されない他の分光光度測定手段によって同定され得る。免疫蛍光は、細胞と関連する抗原を認識する抗体を使用することによって、細胞表現型を同定するために使用され得る。抗体-抗原相互作用を可視化することは、一部の方法で達成され得る。抗体は、色素産生反応を触媒することができるペルオキシダーゼなどの酵素にコンジュゲートすることができる。あるいは、抗体は、フルオレセインまたはローダミンなどのフルオロフォアにタグ付けすることができる。
【0089】
本明細書に記載の方法は、細胞の細胞バイオマーカープロファイルと、個体由来の試料における疾患の素因、診断、予後、および/または治療経過の決定との間の相関が確認され得る任意の状態に好適である。細胞上の細胞表面バイオマーカーの同定は、対象における1つ以上の細胞を分類するために使用され得る。場合によっては、分類は、臨床転帰と相関する細胞として細胞を分類することを含む。臨床転帰は、状態の予後および/もしくは診断、ならびに/または状態のステージングもしくはグレーディングであり得る。場合によっては、細胞の分類は、治療に対する患者応答と相関する。場合によっては、細胞の分類は、最小限の残存疾患または新興耐性と相関する。あるいは、細胞の分類は、潜在的な薬物治療への応答を相関させることを含む。
【0090】
多くの場合、本明細書に記載される方法およびシステムは、感染症の診断のために使用される。場合によっては、感染症状態に対応する関心細胞の第1のバイオマーカープロファイルを、非感染症状態に対応する第2のバイオマーカープロファイルと比較する場合もある。
【0091】
フローサイトメータ機器は、概して、流体系、光学系、および電子系の3つの主要なシステムを含む。流体系は、細胞が照射されるレーザビームを通って、流体のストリームの中で細胞を輸送し得る。光学系は、レーザ光を通過し、レーザから光を散乱する際にストリーム内の細胞を照射するレーザで構成され得る。細胞上にフルオロフォアが存在する場合、その特徴的な周波数で蛍光し、次いでレンズシステムを介して蛍光が検出される。前方散乱方向および側方散乱方向における光の強度を使用して、細胞のサイズおよび粒状度(すなわち、内部の複雑さ)を決定することができる。光学フィルタおよびビームスプリッタは、様々な散乱光信号を適切な検出器に誘導し得、検出器は、それらが受信する光信号の強度に比例する電子信号を生成する。データは、それによって各細胞上に収集され得、コンピュータメモリ内に記憶され得、次いで、それらの細胞の特性は、それらの蛍光および光散乱特性に基づいて分析され得る。電子システムは、検出された光信号を、コンピュータによって処理され得る電子パルスに変換してもよい。細胞試料全体内の様々なサブセットの量およびシグナル強度に関する情報を識別し、測定することができる。
【0092】
現在、フローサイトメトリは、最大17個か、または17個以上の蛍光マーカーで標識された試料に対して、6個の側方散乱特性および前方散乱特性に加えて、同時に実施することができる。したがって、データは、最大17チャネル、または少なくとも17チャネル、18チャネル、19チャネル、20チャネル、21チャネル、22チャネル、または23チャネルを含み得る。したがって、1回の試料の実行で、分析のための大規模なデータセットを得ることができる。
【0093】
フローサイトメトリデータは、単一パラメータヒストグラムの形態で、または一般的にサイトグラムと称されるパラメータの2次元プロットとして提示され得、これは、2つの測定パラメータを、1つはx軸上に、1つはy軸上に表示し、細胞数は、密度(ドット)プロットまたは等高線マップとして表示される。一部の実施形態では、パラメータは、側方散乱(SSC)強度、前方散乱(FSC)強度、または蛍光である。SSCおよびFSC強度信号は、面積、高さ、または幅信号(SSC-A、SSC-H、SSC-WおよびFSC-A、FSC-H、FSC-W)として分類され得、フローサイトメータ電子機器によって測定される光強度パルスの面積、高さ、および幅を表す。前方および側方散乱信号の面積、高さ、および幅により、測定レーザを通過する際の細胞のサイズおよび粒状度、または内部構造に関する情報を提供することができる。さらなる実施形態では、前方散乱強度および側方散乱強度、ならびに特定のチャネルにおける蛍光強度の種々の特性からなるパラメータを、ヒストグラムまたはサイトグラムの軸として使用する。一部の用途では、バイオマーカーも次元を表す。サイトグラムは、ドットプロット、擬似色ドットプロット、等高線プロット、または密度プロットなどの様々な形式でデータを表示する。
【0094】
データは、バイオマーカーおよび光強度散乱パラメータの検出によって、特定の集団における細胞をカウントするために使用され得る。バイオマーカーは、そのバイオマーカーに関する蛍光発光の強度が特定の閾値レベルに達したときに検出される。
【0095】
上述のように、フローサイトメトリデータは、ゲーティングと称される手順を使用して分析され得る。ゲートは、オペレータがサイトグラム上で描画して、関心細胞集団に選択的に焦点を当てる領域である。ゲーティングは通常、光散乱強度特性を使用して開始される。これにより、前方散乱によって示される、相対的なサイズによって、関心細胞からサブ細胞デブリを分化させることが可能になる。この第1のステップは、形態と称されることがある。次のステップは、正確な同定に役立つことのない細胞のダブルレットおよび塊を分離し、シングルレットのみを残すために実行され得る。ゲーティングにおける第3のステップは、生細胞を選択し、集団中の死んだ細胞または死にかけている細胞を除外し得る。これは、通常、前方散乱をx軸として、かつDAPI(4’,6-ジアミジン-2-フェニルインドール)染色強度をy軸として有するサイトグラムを使用して行われる。DAPIは、死んだ細胞または死にかけている細胞でのみアクセス可能な細胞の核を染色するため、有意なDAPI染色を示す細胞は、選択解除され得る。その後のゲーティングは、様々なマーカーの組み合わせで繰り返し適用されるヒストグラムまたはサイトグラムの使用を伴い、最終的には、その細胞集団を同定する全ての対象となるマーカーを有する細胞集団のみを選択することができる。
【0096】
ゲート領域は、ポリゴン、正方形、サイトグラムを象限または断面に分割する形態、および多くの他の形態をとることができる。各場合において、オペレータは、各マーカーの正集団および負集団を分離する閾値がどこにあるかについて決定し得る。サンプリングされたコホートにおける個体差、収集後の試料の調製における相違、および他の供給源から生じる多くの変形がある。その結果、フローサイトメトリデータゲーティングからの結果には、当業者間でさえ著しい変動があることは周知である。
【0097】
関心特徴は、概してフローイメージングマイクロスコピー(FIM)と称される様々な方法のうちのいずれか1つ以上によって検出することができる。本明細書で一般的に使用される場合、FIMという用語は、高スループットフローシステム内の物体の検出を可能にする方法および機器を指す。ある特定の実施形態では、フローサイトメトリ法および器具は、概してFIMの広範なカテゴリに該当し得る。
【0098】
FIMは、単一のサブ可視粒子の複雑な画像を特徴付けることができる。FIMの実施形態では、小液体試料は、マイクロ流体フローセルを通してポンプされ、デジタル顕微鏡を使用して、単一の実験において、かかる生体分子、および/または凝集された生体分子の個々の粒子の10^6以上の画像を記録する。この画像データには豊富な情報が符号化される。これまでのFIM分析方法は、単一の粒子画像を特徴付けるために、少数の「形態学的特徴」(アスペクト比、コンパクトさ、強度など)に依存していた。しかし、この短い特徴リスト(多くの場合、高度に相関する量を含む)は、完全な(RGBまたはグレースケールの)FIM画像に含まれる多くの情報を無視している。本明細書に記載されるように、教師ありまたは半教師あり学習とともに、深い畳み込みニューラルネットワーク(CNNまたは「ConvNet」)は、画像に符号化された大量の複雑なデジタル情報を利用し、「形態学的特徴」の選択、ラベル付け、または仕様を必要とせずに、所与の分類または障害検出タスクに対して関連する関心特徴を自動的に抽出することができる。FIMを利用する好ましい実施形態では、連続した試料ストリームが、十分に特徴付けられ拡張された被写界深度を有するカスタム倍率システムの視野の中心にあるフローセルを通過するにつれて、明視野、または他の顕微鏡画像が連続したフレームで捕捉される。FIMは、試料中に存在するサブ可視粒子を列挙するだけでなく、捕捉された全ての粒子の画像の目視検査も可能にする。標準的なベンチトップマイクロフローイメージング(MFI)構成は、シンプルな流体システムを使用しており、試料流体は、蠕動ポンプを使用して、ピペット先端またはより大きな容器からフローセルを通して直接引き出される。システム倍率とフローセル深度の組み合わせにより、濃度測定の精度が決定される。濃度およびパラメータ測定は絶対的であるが、粒子規格を使用して再検証することができる。典型的な試料体積は、0.25ミリリットル未満~数十ミリリットルの範囲である。動作中に表示されるフレーム画像は、試料中の粒子集団の性質について即座に視覚的フィードバックを提供する。試料中に存在する粒子または細胞のデジタル画像は、サイズおよびカウントの定量化を可能にする画像形態分析ソフトウェアを使用して分析され得る。このシステムソフトウェアは、感度閾値を使用して粒子画像を抽出し、各粒子を定義するピクセルグループを識別することができる。それぞれが多くの粒子画像を含む連続フレームが、リアルタイムで分析される。近透過粒子を検出するための最大機器感度は、閾値を自動的に最適化し、低ノイズ電子機器を使用し、ノイズ低減アルゴリズムを実装し、空間照明およびパルス間照明の全ての可能な不均一性を補償することによって達成される。閾値精度を向上させるために、10ビットグレースケール分解能を使用することができる。画像は、カウント、サイズ、濃度、ならびに形状および画像コントラストパラメータの範囲を含むデータベースをコンパイルするために分析され得る。このデータベースは、ヒストグラムおよび散布図を使用してパラメータ分布を生成するために、コンピュータのアプリケーションソフトウェアによって問い合わせされ得る。ソフトウェアは、ユーザが選択した代表的な粒子に基づいてトライアルフィルタを計算し、ユーザと対話して、このフィルタを最適化して総集団から同様の粒子を抽出することによって、画像フィルタをサポートする。この特徴は、粒子サブ集団を単離し、独立して分析することを可能にする。粒子画像は、検証、さらなる調査、および分析のために利用可能である。成功したアッセイが開発され検証されると、結果として生じるプロトコル(実行パラメータ、ソフトウェアフィルタ、およびレポート形式を含む)は、将来の使用のために保存され得る。
【0099】
FIMなどの直接イメージング粒子測定技術は、間接遮蔽または散乱ベースの測定にくらべていくつかの利点を有する。例えば、これらは、ポリスチレン参照ビーズを使用して較正された場合、粒子サイズと散乱または不明瞭な光学信号の大きさとの相関に依存しない。粒子画像内のコントラストが、システム閾値によってピクセルが解決されるのに十分である場合、粒子が検出され、測定される。ユーザによる較正は必要ではない。システムによって捕捉される粒子画像はまた、標的粒子集団に関する定性的および定量的情報を提供する。米国国立標準技術研究所のトレーサブルポリスチレンビーズに基づく認証試験は、この技術がサイズ、濃度精度、および再現性の高い基準を満たすことができることを示している。
【0100】
本開示のシステムおよび方法での使用に好適な市販のFIM機器の非限定的な例としては、Malvern Instruments(ウスターシャー州、英国)によるSysmex Flow Particle Image Analyzer(FPIA)3000、Occhio (アングル、ベルギー)による様々なOcchio Flowcellシステム、JM Canty(バッファロー、ニューヨーク州、米国)によるMicroFlow Particle Sizing System、ProteinSimple(サンタクララ、カリフォルニア州、米国、)による一部のMFIシステム、ならびに流体イメージングによる様々なフローサイトメータおよび顕微鏡(FlowCAM)システム(ヤーマス、メイン州、米国)が挙げられる。
【0101】
本明細書に記載されるシステム、方法、媒体、およびネットワークにおいて、深層学習(機械学習)アルゴリズム/モデルを使用して、FIM機器からの生の画像データを含むフローサイトメトリ機器からの多次元フローサイトメトリデータを分析することができる。一部の実施形態では、多次元フローサイトメトリデータは、少なくとも2次元、3次元、4次元、5次元、6次元、または7次元である。多次元フローサイトメトリデータは、前方散乱(FSC)信号、側方散乱(SSC)信号、または蛍光信号のうちの1つ以上を含んでよい。信号の特性(例えば、振幅、周波数、振幅変動、周波数変動、時間依存性、空間依存性など)も、次元として扱われ得る。一部の実施形態では、蛍光シグナルは、赤色蛍光シグナル、緑色蛍光シグナル、またはその両方を含む。他の色を有する任意の蛍光シグナルが、実施形態に含まれてもよい。
【0102】
一部の実施形態では、本明細書に記載のシステム、方法、媒体、およびネットワークは、多次元フローサイトメトリデータ内のゲート領域を識別することを含む。人間のオペレータが手動ゲーティングを行うことをガイドするための標準的な操作手順を定義することは困難である。手動ゲーティングの主観的性質は、多くの場合、異なるオペレータによって導入された偏りを引き起こす。これは、個々のオペレータが異なる時間に異なる性能を持っていることに起因する。自動ゲーティングは、一人のオペレータの個体差および性能の経時変化によるゲーティング結果の変動を最小限に抑えることができる。フローサイトメトリデータ分析のためのコンピュータ化されたアルゴリズムは、人間の専門家によって生成された結果よりも一貫したゲーティング結果を可能にする。一部の実施形態では、教師ありアルゴリズムを使用して、手動ゲーティング決定を模倣する。構成されると、教師ありゲーティングアルゴリズムは、人間のオペレータによって実行されるゲーティングよりも実質的に少ない変動を有する結果を生成する。異なるアルゴリズム間のゲーティング結果の変動は、しばしば10%を超えるため、一部の実施形態は、より良いゲーティング結果を生成するために異なるアルゴリズムのアンサンブルを考慮する。
【0103】
ある特定の実施形態では、機械学習システムは、計算システムの一種である人工ニューラルネットワーク(ANN)を含み得、これは、入力データセットとターゲットデータセットとの間の関係を学習することができる。ANNの名称は、その「学習」および「一般化」能力を捕捉することを意図した、人間の神経系の一部の簡素化された数学的表現を開発したいという願望に由来している。ANNは、人工知能の分野で重要な基盤となっている。ANNは、変数間の関係が不明または非常に複雑である高度な非線形系をモデル化することができるため、研究に広く適用される。ANNは、典型的には、経験的に観測されたデータセットについて訓練される。データセットは、従来、訓練セット、試験セット、および検証セットに分割され得る。
【0104】
教師あり学習アプリケーションにおいて、ラベル付けされたデータは、客観的関数(例えば、クロスエントロピー損失、「トリプレット」損失、「シアメス(Siamese)」損失、または物理情報を符号化するカスタム損失関数)を形成するために使用される。ネットワークパラメータは、指定された損失関数を最適化するために更新される。具体的には、フィードフォワードバック伝播分類子と称されるニューラルネットワークの種類は、入力データセット上で訓練され、訓練試料上のコスト関数を最小限に抑える特徴表現を生成することができる。確率的勾配降下のバリアントは、訓練データ入力にわたって指定されたコスト関数を最小限に抑えるために、バックプロパゲーションアルゴリズムと組み合わせてパラメータ空間を検索するためにしばしば使用される。多数の訓練反復の後、ANNパラメータの更新を停止することができる。停止基準には、典型的には、検証データセット上のネットワークの評価を活用する(他の停止基準を適用することができる)。
【0105】
ニューラルネットワークを訓練する目的は、典型的には、ANNに、新しい試料、例えば、訓練または検証中に使用されない試料の正確な予測をさせることである。予測の精度は、しばしば目的関数に対して測定され、例えば、分類精度は、新しい試料の真実ラベルを提供することによって有効にされ得る。しかしながら、本発明者の方法の一実施形態では、埋め込み/次元削減のためのニューラルネットワークの使用であり、すなわち、ソースFIM画像に設定された多数のピクセルを取り、ANNからの2~6次元特徴出力埋め込み値で情報コンテンツを要約する。埋め込み点群の統計的分布は、非パラメトリック法によって決定され、新しい試料「試験ポイント」のセットの近接性は、適切かつ妥当な仮説検定、例えば、コルモゴロフ-スミルノフ検定、HongおよびLiのローゼンブラット変換ベースの検定、またはコピュラ変換ベースの適合度アプローチによって統計的に検定される。
【0106】
ANNは、画像分析、生化学分析、薬物設計、および診断を含む医学における一部の問題に適用されている。ANNは最近、医療診断の問題に利用され始めている。ANNは、患者データと疾患との間の関係を識別し、ANNへの客観的データ入力にのみ基づいて診断を生成する能力を有する。入力データは、典型的には、症状、生化学分析、および年齢、性別、病歴などの他の特徴で構成されている。出力は診断で構成されている。
【0107】
本明細書に開示されるのは、診断、予後、および障害検出を提供する分析のためのANNなどの機械学習システムに未処理のFIM画像データを提示する新規な方法である。
【0108】
本発明の技術の実施形態では、多くの種類の機械学習モデルが用いられ得る。概して、かかるモデルは、試料の画像から抽出されたセルラーアーチファクトなどの1つ以上の関心特徴を入力として、高スループットシステムを通過し、ほとんどまたは追加の前処理なしで、それらは、さらなる介入なしに、個々の関心特徴を特定の細胞型、寄生虫、病原体、健康状態などとして分類する。代替の実施形態では、かかるモデルは、生薬試料の画像から抽出される生体分子などの1つ以上の関心特徴を入力とし、ほとんどまたは追加の前処理なしで、それらは、タンパク質凝集などの特定の生体分子の種類または特徴として個々のアーチファクトを分類する。典型的には、機械学習モデルがそれらを分類するために、入力をそれらの形態学的特徴または他の特徴に従って分類する必要はない。
【0109】
概して図1に示される機械学習モデルの2つの主要な実施形態は、「深い」畳み込みニューラルネットワーク(ConvNet)モデルおよびランダム化された主成分分析(PCA)ランダムフォレストモデルを含み得る。しかしながら、他の形態の機械学習モデルが本開示の文脈において用いられ得る。ランダムフォレストモデルは、訓練データセットから比較的容易に生成され、比較的少ない訓練セットメンバーを採用し得る。畳み込みニューラルネットワークは、訓練セットから生成するためにより時間がかかり、計算コストがかかる場合があるが、セルラーアーチファクトまたはタンパク質凝集体などの関心特徴を正確に分類するのに優れている傾向がある。
【0110】
典型的には、処理システムのパラメータが変更されるたびに、深層学習モデルが再訓練される。変更されたパラメータの例としては、試料(例えば、血液)の取得および処理、FIM器具、画像取得構成要素等が挙げられる。分類技術の機械学習に基づく性質に起因して、概して、例えば、数十個の他の寄生虫、病原体、または生薬用FIM画像の基準試料とも称される訓練試料をアップロードし、新しい細胞型および/または状態を同定する準備がすぐに整ったモデルを有することが可能である。
【0111】
本明細書に開示されるある特定の機械学習システムの特性は、様々な生物学的状態に関連する状態および/または細胞型等の、幅広い関心特徴を分類する能力である。一例として、分類され得る細胞または他の試料特徴の種類の中には、宿主の細胞および宿主の寄生虫または感染病原体がある。加えて、宿主の細胞は、赤血球および白血球等の様々な種類に分割され得る。さらに、特定の種類の宿主細胞は、正常細胞と、感染症に関連する特性を示す細胞などの異常細胞との間で分割され得る。分類され得る宿主血液細胞の例としては、無核化された赤血球、核化された赤血球、リンパ球、好中球、好酸球、マクロファージ、好塩基球などを含む様々な種類の白血球が挙げられる。画像中に存在し、正常に分類され得る寄生虫または感染病原体の例としては、細菌、真菌、ヘルミント、原虫、およびウイルスが挙げられる。様々な実施形態において、本システムは、宿主内の正常細胞、および宿主に存在し得る微生物、ならびに/または宿主に感染し得るウイルスもしくは細菌を含む宿主の1つ以上の寄生虫または感染病原体の両方を同定することができる。一例として、本明細書で特定される本発明のシステムは、赤血球、白血球、および悪性プラスモジウムなどの1つ以上の寄生虫のそれぞれを分類することができる。
【0112】
これらの方法およびシステムでは、機械学習システムは、寄生虫および/または宿主細胞であり得る少なくとも1つの原核生物および少なくとも1つの真核生物細胞型を正確に分類することができる。一部の実施形態では、機械学習システムは、異なる運動モードを採用する少なくとも2つの異なる原虫、例えば、毛様体、鞭毛体、およびアモエボイド運動を正確に分類することができる。機械学習システムは、少なくとも正常および異常な宿主細胞を正確に分類することができる。異常宿主細胞の例としては、感染細胞、異形成細胞、および形質転換細胞が挙げられる。一部の実施形態では、機械学習システムは、細胞の少なくとも2つ以上のサブタイプを正確に分類することができる。一例として、機械学習分類モデルは、白血球を、好酸球、好中球、好塩基球、単球、およびリンパ球のうちの2つ以上に正確に分類することができる。一部のモデルは、5つ全てのサブタイプを正確に識別または分類することができる。別の実施例では、本発明の機械学習システムは、リンパ球をT細胞、B細胞、およびナチュラルキラー細胞に正確に分類することができる。一部の実施形態では、機械学習システムは、宿主細胞または寄生虫のライフサイクルにおける少なくとも2つ以上の成熟度レベルまたは段階を正確に分類することができる。一例として、本発明の機械学習システムは、成熟好中球およびバンド好中球を正確に分類することができる。これらの実施形態のそれぞれにおいて、単一の分類子は、任意の試料中のこれらの細胞型を正確に判別することができる。分類子は、単一の試料から単一の画像内のこれらの細胞型を判別することができる。複数の試料と複数の画像にわたってこれらの細胞型を判別することもできる。
【0113】
これらのシステムおよび方法において、機械学習システムは、(i)宿主内の正常細胞と、(ii)宿主の1つ以上の寄生虫または宿主に感染する病原体との両方を正確に分類することができる。一例として、かかるモデルは、赤血球、白血球(場合によっては様々な種類のもの)、ならびに真菌、原虫、ヘルミント、および細菌などの1つ以上の寄生虫/病理学的実体のそれぞれを正確に分類することができる。これらの方法およびシステムでは、モデルは、正常宿主細胞および異常宿主細胞、ならびに1つ以上の寄生虫の両方を正確に分類することができる。一例として、モデルと称されることもあるこのシステムは、正常な赤血球および正常な白血球、ならびに感染した宿主細胞、ならびに原虫および/または細菌細胞を正確に分類することができる。一実施例では、モデルは、原虫細胞および細菌細胞の両方を正確に分類することができる。例えば、原虫細胞は、バベシア属、シタウキソウ属、およびプラスモジウム属のうちの1つ以上の例を含むことができる。さらなる例として、細菌細胞は、アナプラズマ細菌およびマイコプラズマ細菌のうちの1つ以上を含むことができる。ある特定の実施形態では、このモデルは、赤血球、白血球、および血小板、ならびに1つ以上の寄生虫を正確に分類することができる。ある特定の実施形態では、本システムは、赤血球、白血球、および少なくとも1つの未分化血液細胞(例えば、芽細胞または骨髄芽細胞)、ならびに1つ以上の寄生虫を正確に分類することができる。ある特定の実施形態では、本システムは、赤血球、白血球、および少なくとも非血液細胞(例えば、精子細胞)、ならびに1つ以上の寄生虫/病原体を正確に分類することができる。ある特定の実施形態では、本システムは、赤血球、および2つ以上の種類の白血球(例えば、好中球、好酸球、リンパ球、単球、および好塩基球から選択される2つ以上)、ならびに1つ以上の寄生虫を正確に分類することができる。
【0114】
一例では、本発明のシステムは、赤血球、少なくとも1つの種類の白血球、少なくとも1つの種類の非血液細胞、少なくとも1つの種類の未分化または幹細胞、少なくとも1つの種類の細菌、および少なくとも1つの種類または原虫のそれぞれを正確に分類することができる。別の実施例では、本発明のシステムは、少なくとも以下を分類することができる:赤血球-正常宿主細胞(無核種血液細胞)、白血球-正常宿主細胞(一般)、好中球-正常宿主細胞(特定型WBC)、リンパ球-正常宿主細胞(特定型WBC)、好酸球-正常宿主細胞(特定型WBC)、単球-正常宿主細胞(特定型WBC)、好塩基球-正常宿主細胞(特定型WBC)、血小板-正常宿主細胞(無核種血液細胞)、芽球-原始未分化血液細胞-正常宿主細胞、骨髄芽球細胞-骨髄に見られる単能性幹細胞-正常宿主細胞、急性骨髄性白血病細胞-異常宿主細胞、急性リンパ球性白血病細胞-異常宿主細胞、精子-正常宿主細胞(非血液)、アナプラズマ属の寄生虫-宿主RBCに感染するリケッチア菌-グラム陰性、バベシア属の寄生虫-宿主RBCに感染する原虫、シタウキソウ属の寄生虫-猫に感染する原虫、マイコプラズマヘモフェリス-宿主RBCの細胞膜に感染する細菌-グラム陽性、悪性プラスモジウム-マラリア寄生虫の一種であり、ヒトに感染し、マラリアを生成する原虫、生体プラスモジウム-マラリア寄生虫の一種であり、ヒトに感染し、マラリアを生成する原虫、卵形プラスモジウム-マラリア寄生虫の一種(悪性および生体よりも希少)であり、ヒトに感染し、マラリアを生成する原虫、マラリアプラスモジウム-マラリア寄生虫の一種であり、人間に感染し、マラリアを引き起こすが、悪性および生体ほど重症ではない、原虫。
【0115】
場合によっては、システムは、成熟度の異なるレベルの細胞またはそれらのライフサイクルの様々な段階の細胞を分類するように訓練されてもよい。例えば、好中球などの特定の白血球は、バンド細胞として知られている未熟な形態を有し、これは、細胞の中央領域に接続された複数の未成熟核によって同定されてもよい。未成熟核を有する末梢葉と中央領域との間の距離および接続構造は、細胞の成熟度レベルを示し得る。バンド好中球の増加は、典型的には、骨髄がより多くの白血球を放出し、かつ/または白血球の産生を増加させるようにシグナル伝達されていることを意味する。ほとんどの場合、これは体内の感染または炎症によるものである。
【0116】
本発明の技術のある特定の態様は、宿主生物の生体試料などの試料中の関心試料特徴を識別するためのシステムおよび方法を提供する。一部の実施形態では、関心試料特徴は、疾患に関連付けられる。システムは、一部の実施形態では、生体試料のデジタル画像を捕捉するためのFIM機器と、FIM機器の一部であり得るカメラなどの画像捕捉デバイスに通信可能に接続された1つ以上のプロセッサとを含む。一部の実施形態では、システムの1つ以上のプロセッサは、関心試料特徴を識別するための方法を実行するように構成される。一部の実施形態では、システムの1つ以上のプロセッサは、FIM機器によって捕捉された生体試料の1つ以上の画像を受信するように構成されている。1つ以上のプロセッサは、任意選択で、生体試料の1つ以上の画像をセグメント化して、この実施形態では、高スループットFIM機器を通過する試料の個々の構成要素の複数の画像を取得するように構成される。
【0117】
一部の実施形態では、生体試料の1つ以上の画像をカラー画像からグレースケール画像に変換することを含み得るセグメンテーション動作を適用してもよい。1つ以上の画像上のものをカラー画像からグレースケール画像に変換するために、様々な方法が使用され得る。一部の実施形態では、グレースケール画像は、大津の閾値化方法を使用してさらにバイナリ画像に変換される。
【0118】
一部の実施形態では、バイナリ画像は、本明細書の他の箇所でさらに説明されるユークリッド距離変換方法を使用して変換されてもよい。一部の実施形態では、セグメンテーションは、ユークリッド距離変換から取得されたピクセル値のローカル最小値を識別することをさらに含む。ピクセル値のローカル最小値は、潜在的なセルラーアーチファクトの中心位置を示す。一部の実施形態では、セグメンテーション動作は、生体試料の1つ以上の画像にソーベルフィルタを適用することも含む。一部の実施形態では、グレースケール画像が使用される。ソーベルフィルタを介して取得されたデータは、潜在的なセルラーアーチファクトのエッジを強調する。
【0119】
一部の実施形態では、セグメンテーションは、極大値およびソーベルフィルタを適用して得られたデータを使用して生体試料の1つ以上の画像をスプライシングし、それによってセルラーアーチファクトの複数の画像を取得することをさらに伴う。一部の用途では、各スプライシングされた画像は、セルラーアーチファクトを含む。一部の実施形態では、スプライシング操作は、生体試料のカラー画像に対して実行され、それによって、セルラーアーチファクトの複数の画像をカラーで取得する。他の実施形態では、グレースケール画像は、スプライシングされ、さらなる分類分析のために使用される。
【0120】
一部の実施形態では、セルラーアーチファクトの複数の画像の各々は、関心特徴を分類するために機械学習分類システムを提供する。一部の実施形態では、機械学習システムは、ニューラルネットワークモデルを含む。一部の実施形態では、ニューラルネットワークモデルは、畳み込みニューラルネットワークモデルを含む。一部の実施形態では、機械学習分類モデルは、主成分分析およびランダムフォレスト分類子を含む。
【0121】
機械学習システムが主成分分析およびランダムフォレスト分類子を含む一部の実施形態では、セルラーアーチファクトなどの関心特徴の複数の画像の各々が標準化され、例えば、50X50行列に変換される。行列の各セルは、セルに対応する複数の画像ピクセルに基づいている。この変換は、分析されるデータの総量を減らすのに役立つ。所望の計算速度および精度に応じて、様々な行列サイズを使用することができる。
【0122】
システムは、セグメンテーションモジュールに加えて、2つ以上のモジュールを含んでもよい。例えば、個々の関心特徴の画像は、それぞれが独自の分類特性を有する2つ以上の機械学習モジュールにセグメンテーションモジュールによって提供され得る。ある特定の実施形態では、機械学習モジュールは直列またはパイプラインで配置される。かかる実施形態では、第1の機械学習モジュールは、個々の関心特徴を受信し、それらを大まかに分類する。第2の機械学習モジュールは、大まかに分類された関心特徴の一部または全てを受信し、それらをより細かく分類する。
【0123】
上述したように、セルラーアーチファクトの複数の画像の縮小されたデータは、例えばPCAを使用して次元削減を受けることができる。一部の実施形態では、主成分分析は、ランダム化された主成分分析を含む。一部の実施形態では、約20の主成分が得られる。一部の実施形態では、約10の主成分がPCAから得られる。一部の実施形態では、得られた主成分は、セルラーアーチファクトを分類するためのランダムフォレスト分類子を提供する。
【0124】
ある特定の実施形態では、ニューラルネットワーク、例えば畳み込みニューラルネットワークを有するシステムは、セグメンテーションを通じて抽出されたセルラーアーチファクトのピクセルデータを入力とする。セルラーアーチファクトを構成するピクセルは、所定のサイズのスライスに分割され、各スライスは、ニューラルネットワークの入力層で様々なノードに供給される。入力ノードは、それらのそれぞれのピクセルスライス上で動作し、結果として生じる計算された出力をニューラルネットワークの次の層上のノードにフィードし、この層はニューラルネットワークの隠れ層と見なされる。次いで、ネットワークのこの第2の層のノードで計算された値は、ニューラルネットワークの第3の層にフィードされ、そこで第3の層のノードは、第2の層から受信した入力に作用し、第4の層にフィードされる新しい値を生成する。このプロセスは、値が入力セルラーアーチファクトピクセルのための別個の分類を表すノードを含む出力層に達するまで、層ごとに継続する。一例として、出力層の1つのノードは、正常細胞を表してもよく、出力層の別のノードは、感染細胞を表してもよく、さらに出力層の別のノードは、例えば、切除された赤血球を表してもよく、さらにさらなる出力ノードは、マラリア寄生虫を表してもよい。分類の実行後、出力ノードの各々は、出力が真であるか否かを判定するためにプローブされ得る。単一の真の値は、入力されたセルラーアーチファクトを分類する。
【0125】
典型的には、畳み込みニューラルネットワークの様々な層は、分類プロセスに関連付けられた様々なレベルの抽象化に対応する。例えば、一部の内層は、セルラーアーチファクト、例えば、円形、非円形楕円形、鋭角等の関心特徴の粗い外形に基づいて分類に対応し得る一方で、他の内層は、セルラーアーチファクトの内部のテクスチャ、セルラーアーチファクトの周囲の平滑度等の様々な態様または別個の関心特徴に対応し得る。概して、どの層が分類プロセスのどの特定の態様を実施し得るかを管理する複数のルールが実装されてもよい。ニューラルネットワークの訓練は、モデルが生体試料の画像からセルラーアーチファクトのような関心特徴をより正確に分類するように、ノードと、ノード間接続とを単純に定義し得る。
【0126】
深い畳み込みニューラルネットワークには、複数のフィードフォワード層が含まれてもよい。当業者に既知のように、これらの層は入力画像から関連する特徴を抽出することを目指し、抽出される特徴は訓練に使用される客観的機能に依存する。畳み込み層のパラメータは、小さな受信フィールドを有するが、畳み込みステップで入力画像領域全体に適用される、学習可能フィルタ(またはカーネル)のセットを含む。ある特定の実施形態では、フォワードパスの間、各フィルタは入力画像の幅および高さにわたって畳み込まれ、フィルタのエントリと入力との間のドット積の種類を計算し、そのフィルタに関連付けられたアクティブ化マップを生成する。その結果、ネットワークは、入力の特定の空間位置で特定の種類の機能に遭遇したときにアクティブになるフィルタを学習する。得られたアクティベーションマップは、標準的なフィードフォワード方式で、およびフィードフォワード出力と併せて「スキップ接続」を使用して両方で処理される。
【0127】
畳み込みネットワークは、アクティベーションマップの次元性を削減するローカルまたはグローバルプーリングレイヤを含み得る。それらはまた、畳み込み、完全に接続された層、スキップ接続、およびカスタマイズされた層、例えば、スクイーズ励起、残留ブロック、または空間トランスフォーマーサブネットワークの様々な組み合わせを含む。ニューラルネットワークは、入力画像データの特徴表現を生成するために、フィードフォワードスタック層の様々な組み合わせを含み得る。推定される特徴の特定の性質は、目的関数、入力データ、および選択されるニューラルネットワークアーキテクチャに依存する。
【0128】
ある特定の実施形態では、深層学習画像分類モデルは、テンソルフローを採用し得る。カリフォルニア州マウンテンビューのGoogleから利用可能なルーチン、またはカリフォルニア州メンロパークのFacebookから利用可能なPyTorchルーチンを採用することができる。一部の実施形態は、VGGスタイルのネットワークアーキテクチャ、Googleの簡略化されたInception netアーキテクチャ、またはマルチスケール拡張残留ネットワーク(DRN)を採用し得る。スクイーズ励起または空間トランスフォーマーサブネットワークのようなモジュールは、標準的な損失またはカスタム損失関数を使用して前述のネットワークに挿入され得る。
【0129】
医療状態または生体分子の状態などの様々な種類の状態は、本開示のシステムおよび方法を使用して識別され得る。例えば、病原体または病態(例えば、疾患または障害)に関連する予期しない(異常な)細胞の単純な存在は、病態であり得る。他の実施形態では、生薬試料中のタンパク質凝集体などの生体分子状態が同定されてもよく、および/または特徴付けられてもよい。これらの方法において、機械学習モデルからの直接出力は、状態を提供し、すなわち、モデルは、寄生虫または感染病原体のセルラーアーチファクトなどの関心特徴を識別し得る。他の状態は、モデルの出力から間接的に得られ得る。例えば、一部の状態は、予期しない/異常な細胞数または細胞/生物の種類の比率と関連する場合がある。かかる場合、セルラーアーチファクトなどの複数の関心特徴の分類などの本発明の直接出力を比較、蓄積等して、相対的または絶対的な数のセルラーアーチファクトクラスを提供する。これらの方法では、本発明は、特定の生物、もしくは細胞型、または生体分子の陽性識別、および宿主細胞もしくは非宿主細胞にかかわらず、特定の種類または複数の種類に分類される細胞または生物の定量分析の2つの主要な種類の診断のうちの少なくとも1つを提供し得る。
【0130】
例えば、1つのクラスの宿主細胞定量化は、白血球をカウントする。細胞数情報は、絶対的または差次的(例えば、2つの異なる細胞型の比)であり得る。一例として、基準範囲よりも低い絶対赤血球数は貧血と見なされる。ある特定の免疫関連状態は、(例えば、全ての種類の)白血球の絶対数を考慮する。一例では、約30,000/mlを超える絶対数は、白血病または他の悪性状態を示し、一方、約10,000~約30,000のカウントは、重篤な感染症、炎症、および/または敗血症を示す。約30,000/mlを超える白血球数は、例えば、生検を示唆し得る。範囲の他端では、約4000/ml未満の白血球数は、白血球減少を示唆する。好中球(白血球の種類)は、別個にカウントされてもよく、約500/ml未満の絶対カウントは、好中球減少症を示唆する。かかる状態が診断されると、患者は、感染症と戦う能力が著しく低下しており、好中球増強治療を処方される場合がある。一実施形態では、白血球カウンタは、本明細書に記載される画像分析を使用し、毛細血管または静脈全血中の白血球数の半定量的決定を提供する。判定は、低(4,500WBC/μL未満)、正常(4,500WBC/μL~10,000WBC/μL)および高(10,000WBC/μL超)である。
【0131】
一部の場合では、特定の状態を示すために、白血球の差または比が使用される。例えば、5つの白血球型の比率または差次カウントは、様々な種類の状態に対する応答を表す。例えば、好中球は主に細菌感染に対処し、リンパ球は主にウイルス感染に対処する。他の種類の白血球には、単球、好酸球、および好塩基球が含まれる。一部の実施形態では、WBC集団の4~5%を超える好酸球数は、刺激に対するアレルギー/喘息反応についてフラグが立てられる。
【0132】
様々な種類の白血球(例えば、好中球、リンパ球、単球、好酸球、および好塩基球)の差次計数に関連する状態の他の例としては、以下の状態が挙げられる:
好中球が異常に高い状態は、好中球症として知られている。好中球増殖症の原因の例としては、急性細菌感染症、ならびにウイルスおよび真菌によって引き起こされる一部の感染症、炎症(例えば、炎症性腸疾患、関節リウマチ)、外傷、大手術、心臓発作、火傷によって引き起こされる発症性死亡(壊死)、生理学的(ストレス、厳しい運動)、喫煙、妊娠、最後の妊娠または分娩中、および慢性白血病(例えば、骨髄性白血病)が挙げられるが、これらに限定されない。
【0133】
好中球が異常に低い状態は、好中球減少症として知られている。好中球減少症の原因の例としては、骨髄異形成症候群、重度の圧倒的感染症(例えば、敗血症-好中球が使用される)、薬物(例えば、ペニシリン、イブプロフェン、フェニトイン等)への反応、自己免疫障害、化学療法、骨髄に広がる癌、および再形成性貧血が挙げられるが、これらに限定されない。
【0134】
リンパ球が異常に高い状態は、リンパ球症として知られている。リンパ球症の原因の例としては、急性ウイルス感染症(例えば、肝炎、水痘、サイトメガロウイルス(CMV)、エプスタインバーウイルス(EBV)、ヘルペス、風疹)、特定の細菌感染症(例えば、百日咳(百日咳)、結核(TB))、リンパ球性白血病、およびリンパ腫が挙げられるが、これらに限定されない。
【0135】
リンパ球が異常に低い状態は、リンパ球減少症(lymphopenia)またはリンパ球減少症(lymphocytopenia)として知られている。リンパ球減少症の原因の例としては、自己免疫障害(例えば、狼瘡、関節リウマチ、感染症(例えば、HIV、結核、肝炎、インフルエンザ)、骨髄損傷(例えば、化学療法、放射線療法)、および免疫不全が挙げられるが、これらに限定されない。
【0136】
単球が異常に高い状態は、単球症として知られている。単球症の原因の例としては、慢性感染症(例えば、結核、真菌感染症)、心臓内感染症(細菌性心内膜炎)、コラーゲン血管疾患(例えば、狼瘡、強皮症、関節リウマチ、血管炎)、炎症性腸疾患、単球性白血病、慢性骨髄単球性白血病、および若年性骨髄単球性白血病が挙げられるが、これらに限定されない。
【0137】
単球が異常に低い状態は、単球減少症として知られている。単球の単離低レベル測定は、医学的に有意ではない場合がある。しかしながら、単球の低レベルの反復測定は、骨髄損傷または毛様細胞白血病を示し得る。
【0138】
好酸球が異常に高い状態は好酸球症として知られている。好酸球増加症の原因の例としては、喘息、花粉症などのアレルギー、薬物反応、皮膚の炎症(例えば、湿疹、皮膚炎)、寄生虫感染症、炎症性障害(例えば、セリアック疾患、炎症性腸疾患)、特定の悪性腫瘍/癌、および好酸球性骨髄腫瘍が挙げられるが、これらに限定されない。
【0139】
好酸球が異常に低い状態は、好酸球減少症として知られている。好酸球のレベルは典型的には低いが、その原因は、特定の状態下で細胞数と依然として関連し得る。
【0140】
好塩基球が異常に高い状態は、好塩基球症として知られている。好塩基球症の原因の例としては、稀なアレルギー反応(例えば、じんましん、食物アレルギー)、炎症(関節リウマチ、潰瘍性大腸炎)、および一部の白血病(例えば、慢性骨髄性白血病)が挙げられるが、これらに限定されない。
【0141】
好塩基球が異常に低い状態は、好塩基球減少症として知られている。好塩基球のレベルは典型的には低いが、その原因は、特定の状態下で細胞数と依然として関連し得る。
【0142】
上記の状態の各々は、概して、本明細書で一般的に使用される医学的状態と称され得る。病態を診断するために、画像分析結果(細胞型または生物の陽性識別および/または生物の細胞数に関する定量的情報)は、発熱を示す患者などの病態の他の症状と併せて使用され得る。別の実施例として、白血病の診断は、細菌などの高カウントの非宿主細胞によって補助され得る。一般的に、感染症が重症化するにつれて、カウントが増加する。
【0143】
本明細書に開示される実施形態は、機械学習技術および/またはステージベースのスキャンを使用した物理試料の自動イメージング、分析および分類を通じて、地形コンピュータビジョンのためのシステムとして実装されてもよい。本明細書に記載のコンピューティングシステムのいずれかは、試料の現場でエンドユーザによって制御されるか、または機械学習モデルを制御するリモートエンティティによって制御されるかにかかわらず、1つ以上の汎用プロセッサまたはプログラム可能ロジックデバイス(例えば、フィールドプログラマブルゲートアレイ(FPGA))および/または特定の機能またはそれらの組み合わせを実行するように設計された特定用途向け集積回路(ASIC)などの特別に設計されたプロセッサ上で実行するソフトウェアコンポーネントとして実装され得る。一部の実施形態では、画像取得システムおよび/または機械学習モデル(計算要素)の動作中に実行されるコードは、コンピュータデバイス(パーソナルコンピュータ、サーバ、ネットワーク機器など)を作製するための一部の命令を含む、不揮発性記憶媒体(光ディスク、フラッシュ記憶デバイス、モバイルハードディスク、クラウドベースのシステムなど)に記憶され得るソフトウェア要素の形態によって具現化され得る。本明細書に記載される画像取得アルゴリズム、機械学習モデルおよび/または他の計算構造は、単一のデバイス上に実装され得るか、または複数のデバイスにわたって分散され得る。計算要素の機能は、互いにマージされ得るか、またはさらに複数のサブモジュールに分割され得る。
【0144】
ハードウェアデバイスは、例えば、スマートモバイルデバイス(時計、電話、タブレットなど)、パーソナルコンピュータ、強力なサーバまたはスーパーコンピュータなどを含む任意の種類のコンピュータを含む、プログラムされ得る任意の種類のデバイスであり得る。デバイスは、ASICまたは任意の組み合わせプロセッサなどの1つ以上のプロセッサ、例えば、1つの汎用プロセッサおよび2つのFPGAを含む。デバイスは、ASICおよびFPGAなどのハードウェアおよびソフトウェア、または少なくとも1つのマイクロプロセッサおよびソフトウェアモジュールがそこに位置する少なくとも1つのメモリの組み合わせとして実装され得る。様々な実施形態において、システムは、少なくとも1つのハードウェアコンポーネントおよび/または少なくとも1つのソフトウェアコンポーネントを含む。本明細書に記載される実施形態は、純粋なハードウェアにおいて、または部分的にハードウェアにおいて、および部分的にソフトウェアにおいて実装され得る。場合によっては、開示された実施形態は、例えば、科学計算を加速することができるGPUを備えた複数のCPUを使用して、様々なハードウェアデバイス上に実装され得る。
【0145】
各計算要素は、コンピュータデータおよび命令の組織化された集合体として実装され得る。ある特定の実施形態では、画像取得アルゴリズムおよび機械学習モデルは、各々、ユーザおよびシステムソフトウェアとのインターフェースを有するアプリケーションソフトウェアの形態として見ることができる。システムソフトウェアは、典型的には、コンピュータハードウェアとのインターフェースを有し、典型的には、1つ以上のプロセッサ(例えば、言及されるCPUまたはASIC)および関連するメモリとして実装される。ある特定の実施形態では、システムソフトウェアは、オペレーティングシステムソフトウェアおよび/またはファームウェア、ならびにシステムにインストールされた任意のミドルウェアおよびドライバを含む。システムソフトウェアは、コンピュータの基本的な非タスク固有の機能を提供する。対照的に、モジュールおよび他のアプリケーションソフトウェアは、特定のタスクを達成するために使用される。モジュールの各ネイティブ命令は、メモリデバイス内に記憶され、数値によって表される。
【0146】
1つのレベルでは、計算要素は、プログラマ/開発者によって準備されたコマンドのセットとして実装される。しかしながら、コンピュータハードウェアによって実行され得るモジュールソフトウェアは、特定の機械言語命令セットから選択される「機械コード」、またはハードウェアプロセッサに設計された「ネイティブ命令」を使用してメモリにコミットされる実行可能コードである。機械言語命令セットまたはネイティブ命令セットは、ハードウェアプロセッサ(複数可)に既知であり、本質的に内蔵される。これは、システムおよびアプリケーションソフトウェアがハードウェアプロセッサと通信するための「言語」である。各ネイティブ命令は、処理アーキテクチャによって認識され、算術、アドレス指定、または制御関数のための特定のレジスタ、特定のメモリ位置またはオフセット、およびオペランドを解釈するために使用される特定のアドレス指定モードを指定することができる別個のコードである。より複雑な操作は、これらの単純なネイティブ命令を組み合わせることによって構築され、これらは順次、または制御フロー命令によって指示されるように実行される。
【0147】
実行可能なソフトウェア命令とハードウェアプロセッサとの間の相互関係は、構造的であり得る。換言すると、命令自体は、一連の記号または数値を含み得る。これらは、本質的にいかなる情報も伝えるものではない。これはプロセッサであり、設計上、シンボル/数値を解釈するように事前構成され、命令に意味を付与する。
【0148】
ある特定の実施形態では、本明細書で一般的に使用されるモジュールまたはシステムは、単一の位置にある単一のマシン上で、単一の位置にある複数のマシン上で、または複数の位置にある複数のマシン上で実行するように構成され得る。複数の機械が使用される場合、個々の機械は、それらの特定のタスクに合わせて調整され得る。例えば、大きなコードブロックおよび/または著しい処理能力を必要とする動作は、モバイルまたはフィールド動作に適していない大型マシンおよび/または固定マシン上に実装され得る。かかる動作は、試料が処理されるサイトから離れたハードウェア上に、例えば、ネットワークによって試料画像を捕捉するフィールドデバイスに接続されたサーバまたはサーバファーム上に、またはクラウドベースのネットワークを介して、実装され得る。より少ない計算集約的な動作は、画像捕捉のためにフィールドで使用されるポータブルまたはモバイルデバイス上で実装されてもよい。
【0149】
様々な分業が可能であり、例えば、現場で使用されるモバイルデバイスは、白血球、赤血球、および病原体を粗判別するための処理ロジックを含み得、任意選択で、これらの各々についてカウントを提供する。場合によっては、処理ロジックは、画像捕捉ロジック、セグメンテーションロジック、およびコース分類ロジックを含み、後者は任意選択でランダムフォレストモデルとして実装される。これらのロジックコンポーネントは、重要な計算リソースを必要としない比較的小さなコードブロックとして実装され得る。
【0150】
リモート(例えば、リモートサーバまたはスーパーコンピュータ上で)で実行するロジックは、様々な種類の白血球を判別する。一例として、かかるロジックは好酸球、単球、リンパ球、好塩基球、および好中球を分類することができる。かかるロジックは、深層学習畳み込みニューラルネットワークとして実装され得、比較的大きなコードブロックおよび著しい処理能力を必要とする。白血球または寄生虫または病原体が正しく識別されると、システムは、5つの白血球型の様々な組み合わせの差分量に基づいて状態を診断するための差分モデルをさらに実行してもよい。
【0151】
現在概して説明されている本発明は、本発明の実施形態のある特定の態様の例示の目的のためだけに含まれる、以下の実施例を参照することによってより容易に理解されるであろう。当業者は、上記の教示および以下の実施例から、他の技術および方法が特許請求の範囲を満たすことができ、特許請求される発明の範囲から逸脱することなく使用され得ることを認識するであろうことから、実施例は、本発明を限定することを意図しない。
【実施例
【0152】
以下の実施例に記載される実験を以下の方法を使用して実施した。
【0153】
実施例1:血液の微生物感染の検出と識別。
近年市販されたフローイメージング顕微鏡機器によって提供される高倍率により、フロー顕微鏡は、200nmの小さな粒子の画像を記録することができる。本発明者らは、この能力が、ConvNetと組み合わされるとき、細菌ならびに他の種類の細胞および粒子、例えば、生体分子をイメージング、検出および分類するために使用され得ることを発見した。したがって、一実施形態において、FIMとConvNetとの組み合わせは、血液の微生物感染の検出に適用され得る。血液感染症を検出するための現在のアプローチは、主に、微生物の成長を促進するために血液試料が培地で成長する技術である血液培養に依存する。生物が培地で成長する場合、試料は、典型的には、標準的な微生物学的アプローチを使用して、微生物の種類を同定するために試験される。このアプローチは、診断を得るために著しい時間を要する。試料は、生物が検出可能なレベルまで培養されるために24~48時間、および病原体を同定するために追加の時間を必要とすることが多い。さらに、このアプローチは、病原体を確実に検出するために多くの場合、大量の血液量(数mL)を必要とする。これらの欠点は、潜在的な血液感染症を迅速に識別および治療する必要があり、感染症を診断するためにそれらから採取される血液が1mL未満しか得られない新生児にとって特に重要である。FIMとConvNetを組み合わせて、患者からの血液量を最小限に抑えながら、約1時間の分析で微生物感染を検出することができる。
【0154】
血流感染症を検出するための提案された戦略は、フローイメージングを利用して、生体試料、好ましくは血液試料中の細胞などの個々の構成要素をイメージングし、本明細書に記載される機械学習システムを適用して、その血液試料内の病原性細胞を検出することである。図1は、概して、約1時間の分析時間を有する50μLの血液試料中の病原性細胞を同定するために、これらの2つの技術を使用する例示的な好ましい実施形態を示す。図13は、血流感染症を検出するための好ましい実施形態を示す。この実施形態において、血液試料を等張培地で希釈し、2μm未満の粒子をイメージングすることができるフローイメージングマイクロスコピー(FIM)機器で分析する。次いで、病原性種を潜在的に含む画像を、粒径フィルタと畳み込みニューラルネットワーク(ConvNet)の組み合わせを適用して、それぞれ大血球(例えば、赤血球および白血球)および小血球(例えば、プレート)の画像を識別し、分析の後続段階からそれらを除去することによって(1)、FIMデータから単離することができる。病原体を潜在的に含む画像が単離されると、本発明者は、追加のConvNetを使用して、病原体のアイデンティティを予測することができる。最後に、本発明者は、障害検出モジュール(5)アプローチで具現化された障害検出を介して訓練された最終ConvNetをさらに使用して、アルゴリズムが前のステップで正しい病原体を識別したという信頼度を推定し得る。
【0155】
図13に示される様々なステップを実証するために、一実施形態において、本発明者は、新生児の敗血症例において頻繁に遭遇するマウス血液試料および一部の細菌種試料の訓練データセットを収集した。血液試料について、およそ200μLの血液を、0.5mM/mLのEDTAを有する1mLのダルベッコ改変イーグル培地(DMEM)を含む2mLのマイクロ遠心チューブに入れた。0.5mLのこの溶液をDMEMで5mLに希釈し、低濃度の血液を得て、FIM中に高品質の画像を得た。FIMは、2μm未満の物体の画像を得るために油浸漬を使用するフローイメージング機器であるFlowCam Nanoシステムを使用して行った。希釈した血液試料の0.25mLを、0.01mL/分の流量で一度に分析した。測定を開始する前に、新鮮な浸漬油をシステム光学系に添加し、測定間のバックグラウンドアーチファクトの影響を最小限に抑えるために、機器のバックグラウンド強度を約150に調整した。
【0156】
Enterococcus faecalis、Staphylococcus aureus、Pseudomonas aeruginosa、Klebsiella pneumoniae、Escherichia coli、およびAcinetobacter baumanniiの6種の細菌をイメージングし、FIMを用いた訓練データセットを作成した。全ての生物は、臨床的に単離された株であった。各生物を、カチオン調整されたミュラーヒントンブロス(CAMHB)中で一晩インキュベートし、次いで、イメージングの前に、新鮮なCAMHB中で3時間亜培養した。イメージング時に、これらの試料をDMEMで1:10に希釈し、その後、FIMを使用して分析した。生物学的安全要件のため、測定前にFlowCam Nanoシステムを生物学的安全キャビネットに移動させた。そうでなければ、血液試料をイメージングするために使用される同じプロトコルを使用して、各生物をイメージングした。
【0157】
図14A~Gは、本実施形態に適切な光学系を有するFIM機器を使用して収集された血液および様々な生物の例示的な画像を示す。これらのFIM画像コラージュによって示されるように、血液試料中で遭遇し得る多くの様々な細胞型は、互いに視覚的に区別することができる。例えば、図14Aのより大きな血液細胞は、図14B~Gの非常に小さい微生物から容易に区別することができる。個々の微生物は、それらの形態によって一般的に区別することもでき、図14Cの単一の棒状E.coli細胞は、図14Gの球状黄色ブドウ球菌細胞の鎖から区別することができる。ConvNetは、異なる細胞間のこれらの視覚的差異を使用して、どの生物が自動化された方法でFIM画像に存在するかを識別することができる。さらに、これらのネットワークは、図14(c)のE.coliと図14(e)のK.pneumoniaeを分化するなど、さらに視覚的に類似した生物を区別することを学習することもできる。
【0158】
分析の第1の2つの段階では、血液細胞を含むFIM画像を識別し、分析の後続の段階から除外する。第1の段階は、FIM中に収集された画像の大部分を占める赤血球の画像を除去するように設計されている。赤血球(RBC)は、典型的な病原性細胞(約7μm対約2μm)より著しく大きいため、単純なサイズ閾値を使用して、大きなRBCを同定することができる。このアプローチでは、各細胞のサイズは、既存の市販ソフトウェアを使用して推定され得、RBC以上のサイズの細胞が同定され、除去される。このアプローチは、病原性細胞への影響を最小限に抑えながら、試料中の全てのRBCならびに白血球(WBC)を除去する。実証するために、大きなRBCおよびWBCを、5μmのサイズ閾値を使用して血液試料から除去した。図15Aは、この閾値によって濾過された血液細胞の典型的な画像を示し、図15Bは、サイズフィルタの後に残る血液細胞を示す。
【0159】
分析の第2の段階では、ConvNetを使用して、血小板および他の小血液粒子の画像を除去し、病原体が含まれている可能性が高い画像を単離する。ConvNetは、前のサイズ閾値の後に残留する血液細胞の画像と、様々な病原体種の画像とを区別するために使用され得る。図2は、このように訓練されたConvNetが、ネットワークを訓練するために使用されない血液および細菌の画像上での性能を示す。ConvNetは、高い信頼度で、所与のFIM画像が血小板および他の小さな血液粒子、またはネットワークが訓練を受けた病原性細胞の1つを含むかどうかを正しく識別することができる。サイズ閾値とこのConvNetの組み合わせを使用して、初期試料からの血液細胞の大部分を正しく識別し、分析から除外することができる。これらの処理ステップ後の残りの画像の全ては、病原性細胞を含む可能性が高い。
【0160】
血液細胞の画像の大部分を除去した後、本発明者は、第2のConvNetを使用して、残りの画像を分析して、候補病原体を同定することができる。図3は、新生児の敗血症例で遭遇した一部の例示的な生物を同定するように訓練されたConvNetの精度を示す。ネットワークが2つの生物(E.coliおよびK.pneumoniae)を区別することは、やや困難であるが、平均して、ネットワークは1つのFIM画像で73%の確率で生物を正しく識別し、6つの生物のうち4つの画像が75%を超える確率でネットワークによって正しく識別される。図3に示される精度が血液試料から単離された病原体の単一画像上にあることに留意することが重要である。細菌の濃度が低い多くの小さな血液試料では、単一の画像で診断を行う必要があり得るが、より大きな試料またはより高い濃度の試料では、病原体の複数の画像を回収することができる。このアプローチの精度は、病原体のより多くの画像が回収されるにつれて急速に改善される。
【0161】
分析の最終段階では、本発明者は、障害検出アプローチを使用して、前の工程で得られた診断の信頼度を計算することができる。このステップでは、現在の試料からの残りの画像を、ConvNetベースの障害検出アプローチを使用して識別された生物の画像と比較し、敗血症の診断と原因物質のアイデンティティの両方でアルゴリズムがどの程度信頼できるかを確認する。この最終ステップにより、アルゴリズムは、識別された病原体を含む試料と、識別された病原体について混同されたアーチファクトを含む試料とを区別することができる。加えて、このステップは、別様で分析の前の段階で互いに混同され得る形態学的に類似した生物(例えば、E.coli対他の棒状細菌)を区別するのに役立つ。
【0162】
分析が完了した後、このアプローチは敗血症の診断、原因物質の予測されたアイデンティティ、および診断における信頼度を返し得る。加えて、このアプローチは、潜在的に病原性であると識別された血液試料中の任意の物体の画像をもたらす。これらの画像は、診断を受け入れ、治療を開始する前に、分析で収集された生データを確認する方法を臨床医に提供する。
【0163】
このアプローチの主な利点は、少量の血液試料においても病原性細胞に高感度であることである。FIMは、血液試料中の全ての細胞の直接分析を可能にする。よって、このアプローチは、試料が少数の病原性細胞のみを含む場合に、血流感染症または敗血症を有する患者からの血液試料を識別することができる。この感度により、本発明の技術は、新生児患者から入手可能なものなどの小さな血液試料でさえも正確に分析することができる。重要なことに、この感度により、血流感染症を診断するための多くの他の技術で必要とされる24~48培養ステップが排除され、代わりに血液試料から直接病原性細胞を探すことが可能となる。フローサイトメトリまたはポリメラーゼ連鎖反応(PCR)に基づく技術などの他の技術も、この培養ステップを排除することができる。一方、これらのアプローチの多くは、細胞培養に依存することなく病原性細胞を検出するために必要な感度を達成するため、生物特異的標識またはプライマーに依存している。本発明者の提案するアプローチは、所与の試料中に存在し得る任意の微量の病原性細胞を検出するための標識を必要としない。
【0164】
このアルゴリズムの感度は、分析を実行するのに必要な時間と血液量を緩和する。提案された分析の各ステップを迅速に実施することができ、試料調製は実施するのにわずかな時間のみを要し、ネットワークが訓練された数秒後にはConvNet分析を完了することができ、FIMは50μLの血液試料について1時間で完了することができる。この新規アプローチは、血液培養に必要な24~72時間、ならびに多くのPCRに基づくアプローチに必要な4~8時間よりも約1時間早く敗血症を診断することができる。さらに、このアプローチは、病原性種を検出するために患者からの大量の血液試料を必要とせず、一滴の血液からでも正確な敗血症診断を与えるように設計される。最小限の体積と分析時間の要件により、このアプローチは新生児の敗血症の診断に理想的である。より大きな血液試料もこのアプローチを使用して分析され得、この場合、余分な体積による分析時間を増加させるが、病原体の微量濃度のより信頼度の高い検出をもたらす。
【0165】
実施例2:尿および他の体液の微生物感染の識別。
血液感染症と同様に、図1に示される同じ一般的アルゴリズムは、他の種類の試料、例えば、マウス試料、膣スワブからの感染症を診断するために使用され得る。これらの用途において、ConvNetは、病原体と、単なる血液細胞の代わりに典型的にその流体中に存在する粒子とを区別するように訓練され得る。これらの試料の多くは最小限の背景粒子を含むため、血液よりもこれらの流体の感染症を診断するのが著しく容易である。一実施形態では、本発明者らは、本明細書に記載される新規のフローイメージング顕微鏡およびConvNetアプローチが、尿中の異物の迅速な識別を可能にすることを示している。これは、模擬尿溶液中のE.coliの懸濁液を使用して以前に確認された特徴である。図4は、この分析から得られた試料FIM画像を示す。
【0166】
実施例3:細胞における遺伝子発現の変化の識別。
ある特定の実施形態では、本発明はまた、フローイメージング顕微鏡および機械学習アルゴリズムを組み合わせて、製薬産業で生体分子を産生するために使用される哺乳動物細胞、細菌細胞、真菌細胞、および昆虫細胞を監視する。かかる製造プロセスでは、タンパク質などの関心生体分子を発現するように操作された細胞を、培養容器中で数時間~数週間の期間増殖させる。これらの細胞は、操作の間、対象となるタンパク質を産生するために必要な遺伝子を保持し、発現することが重要である。細胞内の遺伝子の発現は、それらの化学組成を変化させ、化学組成の変化は、次いで細胞の屈折率および光散乱特性に影響を与えるため、フロー顕微鏡画像には、ConvNetアルゴリズムが検出するように訓練することができる遺伝子発現レベルの微妙な変化のフィンガープリントシグネチャが反映される。したがって、フロー顕微鏡画像のConvNet分析は、細胞構造の変化に対して十分に感度があり、細胞の大集団内のこれらの組換え遺伝子の発現レベルの監視を可能にし得る。この実施形態において、ConvNetは、標的タンパク質をコードする遺伝子の有無の両方を有する、チャイニーズハムスター卵巣細胞などの哺乳類細胞、E.coliなどの細菌細胞、酵母細胞、または昆虫細胞などの製造プロセスで使用される細胞株の画像を生成するために、基準試料上で訓練され得る。次いで、製造プロセス中に生成された試料を、フロー顕微鏡を使用してイメージングして、タンパク質を発現する細胞の数、ならびに生存率などの細胞集団の他の特徴を識別することができる。
【0167】
FIM画像のConvNet分析が、細胞間のわずかな遺伝子変化にも高感度であることを実証するために、本発明者らは、FIMを使用して、E.coliの2つの株(一方は、ヒト成長ホルモン(hGH)を発現し、他方は、ヒトパピローマウイルス(HPV)のキャプシドタンパク質を発現する)をイメージングした。これらの株をFlowCam VSを使用してイメージングし、2つの株を区別するために単純な4層ConvNetを訓練するために使用した。図5は、これらの生物の例のFIM画像を示す。図6は、混同行列としてのConvNet分類子の性能を示す。
【0168】
実施例4:治療用タンパク質製剤製造における乱れの検出。
1つの好ましい実施形態では、タンパク質凝集体および治療用タンパク質製剤の製造中に産生される他の粒子を監視するためのConvNetが検出され、分類され得る。タンパク質製剤中のタンパク質凝集体および他の粒子は、臨床における重篤かつ潜在的に致命的な有害作用との関連性に起因するため、製造中の重大な安全上の懸念である。これらの溶液から粒子を完全に除去することは困難であるため、これらの療法を製造する企業は、各バイアルに存在する粒子の濃度および構造が製品の仕様と一致することを確実にするために、製品中のこれらの粒子を監視することが不可欠である。粒子の数およびサイズ分布を監視するために様々な技術が使用されるが、現在使用されているアプローチは、粒子形態の迅速な監視、または粒子が形成される機構に従ってこれらの形態の分類、または患者に対するそれらの相対的な安全リスクを可能にするものではない。かかるツールが利用可能であれば、産物の有効性を損なう可能性のある粒子構造の変化を検出することが可能であろう。さらに、粒子形態のかかる変化は、上流プロセスの乱れに起因するため、サブ可視粒子形態を監視するための技術を使用して、これらの乱れを迅速に検出して、産物の品質を維持することができる。
【0169】
本発明者らは、この実施形態を実証するために、ConvNetを訓練して、凍結融解ストレスおよび振盪ストレスという2つのモデルプロセスの乱れによって作製された粒子に対するモデルフィルフィニッシュ動作によって生成されたポリクローナル抗体の凝集体を同定した。図7は、グレースケールMFI 5200 FIM機器から得られた各機構を介して生成された粒子のFIM画像を示す。本出願におけるネットワークは、3つの畳み込み層からなる。このネットワークは、トリプレット損失アプローチを使用して、訓練セット内の各機構を介して生成された粒子を区別するために試料について訓練された。本発明者らは、訓練されたネットワークを、通常のプロセス条件下で生成された粒子をシミュレートするために、我々のモデルフィルフィニッシュプロセスによって生成された粒子を含む合成FIMデータセットに適用した。次いで、ネットワークを、上記のプロセスによって通常生成された粒子と攪拌ストレスによって生成された粒子(訓練中にネットワークが示されなかった粒子の種類)との混合物を含む合成FIMデータセットに、異なる比率で適用して、プロセスの乱れをシミュレートした。図8は、標準動作条件と上流プロセスの乱れを模倣した合成FIMデータセットに対するネットワークの応答を示す。
【0170】
システムが様々なストレスと組み合わせて複数の抗体種類を区別することができることを実証するために、本発明者は、モノクローナル抗体(具体的にはIgG1)および多数のストレスを受けるポリクローナル抗体によって生成される凝集体、すなわち、ウイルス排除ステップで経験されるであろうバルク溶液ストレス、ならびに振盪ストレスおよび凍結融解ストレスを模倣することを意味する「pH」ストレスを検出することを求めた。これらのタンパク質のカラーFIM画像を、FlowCam VSデバイスで測定した。
【0171】
図9図12に関連付けられた結果では、「ConvNet特徴抽出モジュール」(2)のConvNetは、スクイーズ励起モジュールが追加された標準的なVGGスタイルネットワークを使用する。出力埋め込みにおける生物物理情報を符号化することを目的とした新規のカスタムコスト関数を使用して、ネットワークのパラメータを取得した(このコスト関数は、バルク対インターフェースストレスおよびモノクローナル対ポリクローナル抗体を分離することを目的とする)。本実施形態において、生物物理的にインスピレーションを受けた埋め込みを定義するために使用されるコスト関数は、以下の形態を取る。




【数1】





(式I)式中、Cは、訓練セット内のラベル付きクラスのネット数を表し、Nは、訓練試料の総数を表し、xは、画像jのCNN埋め込み表現を表し、

【数2】


はクラスラベル「i」に属する試料xの指標関数を表し、cは、クラス「i」試料の所望のクラスタ中心を指定する入力パラメータ(埋め込みと同じ次元を有する)を表し、||x||はベクトルxの標準的なユークリッドノルムを表す。生物物理情報は、cパラメータを適切に指定することによって符号化される。この「ConvNet特徴抽出モジュール」(明示的に標識されたデータを使用して)から生じる埋め込みおよび抗体の種類を図9に示す。図9に示す埋め込みは、本発明の方法の新規の障害検出実施形態を例示するための基礎となるが、他のConvNetアーキテクチャおよびコスト関数を利用することもできる。この実施形態について、「融合モジュール」(3)および「関心対象選択モジュール」(4)は、単に識別機能を表し得る。
【0172】
以下の実施形態では、「障害検出モジュール」についてより詳細に説明する。具体的には、図10において、本発明者らは、製造設備の変更によって誘発される事前の予期しないプロセスの乱れを検出するシステムの能力をグラフィカルに実証する(具体的には、暗い三角形を上向きにすることによって示される埋め込みは、新しいポンプ種類でポリクローナル抗体を処理することによって形成される新しいデータについて、図9に示されるデータ上で訓練された「ConvNet特徴抽出モジュール」(2)を評価することによって得られる埋め込みを表す)。本発明者らは、ポリクローナル凍結融解物を基準状態として、制御チャートにおいてこの種の新しい粒子をグラフィカルに検出する能力を実証するために、ポリクローナル凍結融解を行った(図12において、本発明者らは、この基準状態との粒子の類似性を定量化する形式的な仮説検定方法を実証している)。
【0173】
図11Aでは、本発明者らは、蒸留水でバイアルを洗浄することによって得られる訓練セット内のシステムから生成されるポリクローナル埋め込みに焦点を当てる(訓練におけるモノクローナルのクラスは、明確にするために省略されている)。図11Bにおいて、本発明者らは、同じストレスおよびポリクローナル抗体を示すが、ここでは、微量のエタノールで洗浄したバイアルを使用して得られたタンパク質で形成した。このクラスは、埋め込みフレームワークに明示的に含まれていない新しい衝撃を表す。具体的には、図11Bは、バイアル上の微量エタノールコーティングが埋め込み形状にどのように影響するかをグラフィカルに示す。エタノールの効果が容器の表面上に濃縮され、2つの表面ストレス(空気水界面によって凝集体が形成されると考えられる振盪ストレス、ならびに使用される凍結融解衝撃における熱伝達の性質に起因して、凝集体が主に固体ガラスバイアル上に生じる氷水界面で形成されると考えられる凍結融解ストレス)の埋め込みに影響を及ぼすことは注目に値する。タンパク質バイアルの種類の変化がタンパク質治療薬において有害な薬物応答を引き起こすことが知られていることを考慮して、様々な表面化学を有する容器内に形成される凝集塊の違いを検出する能力は、特に重要である。この予期しないプロセスストレスの第2のセットに適用される埋め込み(すなわち、埋め込み訓練に含まれないもの)は、制御チャートにおけるこの種類の新しい粒子をグラフィカルに検出する能力を実証する(図12、この基準状態との粒子の類似性を定量化する正式な仮説検定方法を実証する)。
【0174】
再び、図12を参照して、本発明者らは、障害検出方法が埋め込みの基準分布から逸脱したことを検出する能力を定量化した。この実施形態において、本発明者らは、上述の条件からの小さな集合FIM画像を与えられた場合、ポリクローナルIVIG凍結融解ストレスを基準ケースとして使用したか、または「ヌル(null)」を使用した。当社の「障害検出モジュール」のこの実施形態では、本発明者は、訓練基準状態下で埋め込み点の二次元密度を推定するためにガウス非パラメトリックカーネルを利用した(ただし、任意の他のパラメトリックまたは非パラメトリックアプローチは、この密度を経験的に推定するために使用され得る)。埋め込み分布の基準ケースとの類似性を定量化することが所望される新たな観測のために、本発明者は、推定される非パラメータ密度を使用して、多変量埋め込みのローゼンブラット変換を評価している。基準状態またはヌル状態下で、変換された変数は、均一であり、同一に分布する多変量ランダム変数であるべきである。本発明者らはさらに、コルモゴロフ-スミルノフ(KS)適合度検定(HongおよびLiの2005年の「オムニバス」またはRemillardの2012年の方法などの他の仮説検定と組み合わせた他のコピュラ変換は、代替実施形態では適合度検定に使用され得る)をヌル下で使用して均一形状を試験し、対象となる各試料サイズについて適合度検定の統計分布を経験的に決定した。図12は、サイズ20および50のランダムな試料を採取し、様々なヌルおよびヌルの代替条件下でKS試験を実施することによって得られるこの手順のサイズおよびパワーを報告している(この表は、Nが20または50であり、各条件下で5%の目標タイプIエラー率である、サイズNの1万個のモンテカルロ試料を分析した後に得られる平均不合格率を報告している)。本発明者らは、5%のαまたはタイプIのエラー率の結果を報告しているが、方法はp値を出力するので、本発明のアプローチでは、任意のタイプIのエラー率も許容できることに注意されたい。さらに、「基準状態」とラベル付けされた場合、本発明者は、ポリクローナルIVIG凍結融解ストレスプロトコルを使用して凝集体(ヌルまたは基準状態試料)を生成したが、ここで分析されるFIM画像は訓練データセットに含まれなかった(画像は訓練セットから保持されたバイアルから得られた)ことに明示的に留意されたい。このデータセットは、埋め込みを実施するConvNetの訓練において活用されていない新しい画像を使用して、ターゲットタイプIエラー(誤報)を達成することが可能であることを意図したものである。「振盪衝撃」と「ウイルス排除衝撃」とラベル付けされた症例は、図9のストレス条件を明示的にモデル化したものであり、残りの症例(図10および図11に埋め込みを含む)は埋め込みモデルに明示的に説明されていないが、いずれも50個の画像試料のみを使用して容易に検出することができる。
【0175】
上述の様々な特徴およびプロセスは、互いに独立して使用され得るか、または様々な方法で組み合わされ得る。全ての可能な組み合わせおよびサブ組み合わせは、本開示内であることが意図される。加えて、ある特定の方法またはプロセスブロックは、一部の実施形態では省略され得る。本明細書に記載の方法およびプロセスはまた、任意の特定の配列に限定されず、それに関連するブロックまたは状態は、適切な他のシーケンスで実行され得る。例えば、説明されたブロックまたは状態は、具体的に開示されたもの以外の順序で実行されてもよく、または複数のブロックまたは状態は、単一のブロックまたは状態で組み合わされてもよい。例示的なブロックまたは状態は、シリアルで、並列で、または何らかの他の方法で実行され得る。ブロックまたは状態は、開示された例示的な実施形態に追加または削除され得る。本明細書に説明される例示的なシステムおよび構成要素は、説明されるものとは異なるように構成され得る。例えば、要素は、開示される例示的な実施形態と比較して、追加される、削除される、または再配置され得る。
【0176】
本明細書で使用される条件付き言語、例えば、とりわけ「can」、「could」、「might」、「may」、「e.g.」などは、特に別段の記載がない限り、または使用される文脈内で理解されない限り、概して、特定の実施形態が、特定の特徴、要素、および/またはステップを含む一方で、他の実施形態が、特定の特徴、要素、および/またはステップを含まないことを伝えることを意図している。したがって、かかる条件付き言語は、概して、特徴、要素、および/もしくはステップが、1つ以上の実施形態にいかなる方法でも必要であること、あるいは1つ以上の実施形態が、これらの特徴、要素、および/もしくはステップが、任意の特定の実施形態に含まれるか、または実行されるかどうかを決定するための論理を必ずしも含むことを暗示することを意図していない。「comprising(含む)」、「including(含む)」、「having(有する)」などの用語は同義であり、オープンエンド様式で包括的に使用され、追加の要素、特徴、行為、動作などを除外しない。また、「または」という用語は、その包括的な意味で(かつその排他的な意味ではない)使用されるため、例えば、要素のリストを接続するために使用されるとき、「または」という用語は、リスト内の要素の1つ、一部、または全てを意味する。
【0177】
特定の例示的実施形態が記載されているが、これらの実施形態は単に例として提示され、本明細書に開示される発明の範囲を限定することが意図されない。したがって、前述の説明では、任意の特定の特徴、特性、ステップ、モジュール、またはブロックが必要または不可欠であることを暗示することは意図されない。実際、本明細書に記載される新規の方法およびシステムは、様々な他の形態で具現化され得、さらに、本明細書に記載される方法およびシステムの形態の様々な省略、置換および変更は、本明細書に開示される発明の趣旨から逸脱することなく行われ得る。添付の特許請求の範囲およびその同等物は、本明細書に開示される特定の発明の範囲および精神内であるであろうかかる形態または修正を網羅することが意図される。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11A
図11B
図12
図13-1】
図13-2】
図14A-1】
図14A-2】
図14B
図14C
図14D
図14E
図14F
図14G
図15A
図15B
図16