(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-01
(54)【発明の名称】細胞型同定のための試料中の生体細胞の検知
(51)【国際特許分類】
G16B 40/20 20190101AFI20240125BHJP
【FI】
G16B40/20
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023542874
(86)(22)【出願日】2022-01-13
(85)【翻訳文提出日】2023-09-04
(86)【国際出願番号】 US2022012303
(87)【国際公開番号】W WO2022155328
(87)【国際公開日】2022-07-21
(32)【優先日】2021-01-15
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-03-17
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】504456798
【氏名又は名称】サノフイ
【氏名又は名称原語表記】SANOFI
(74)【代理人】
【識別番号】100127926
【氏名又は名称】結田 純次
(74)【代理人】
【識別番号】100140132
【氏名又は名称】竹林 則幸
(74)【代理人】
【識別番号】100216105
【氏名又は名称】守安 智
(72)【発明者】
【氏名】エマニュエーレ・デ・リナルディス
(72)【発明者】
【氏名】ヴァージニア・サヴォヴァ
(72)【発明者】
【氏名】マシュー・チェンバレン
(57)【要約】
細胞サンプラは、センサを使用して、試料レシーバ内の生体細胞の物理現象を検知し;生体細胞の検知から生成されたセンサデータを処理装置に送信するように構成されている。処理は、細胞サンプラからセンサデータを受信し;センサデータを使用して、生体細胞の個々の細胞を同定し;個々の細胞それぞれについて:センサデータを使用して、個々の細胞の細胞型を生成し;センサデータを使用して、個々の細胞の特徴ベクトルを生成し;センサデータを使用して、少なくとも一部の細胞型を珍しい細胞型として分類し;珍しい細胞型それぞれについて:珍しい細胞型の個々の細胞の特徴ベクトルにアクセスし;珍しい細胞型の個々の細胞の特徴ベクトルにノイズを適用することによって珍しい細胞型のブートストラップベクトルを生成し;ブートストラップベクトルおよび特徴ベクトルを統合することによって細胞コーパスを生成するように構成されている。
【選択図】
図1
【特許請求の範囲】
【請求項1】
生体細胞の試料からのデータを検知するシステムであって:
試料レシーバおよび1つまたはそれ以上のセンサを含む細胞サンプラを含み;該細胞サンプラは:
センサを使用して、試料レシーバ内の生体細胞の物理現象を検知し;
生体細胞の検知から生成されたセンサデータを処理装置に送信するように構成され、
該システムはさらに、
コンピュータメモリおよび1つまたはそれ以上のプロセッサを含む処理装置を含み、該処理装置は:
細胞サンプラからセンサデータを受信し;
センサデータを使用して、生体細胞の個々の細胞を同定し;
個々の細胞それぞれについて:
センサデータを使用して、個々の細胞の細胞型を生成し;
センサデータを使用して、個々の細胞の特徴ベクトルを生成し;
センサデータを使用して、細胞型の少なくとも一部を珍しい細胞型として分類し;
珍しい細胞型それぞれについて:
珍しい細胞型の個々の細胞の特徴ベクトルにアクセスし;
珍しい細胞型の個々の細胞の特徴ベクトルにノイズを適用することによって珍しい細胞型のブートストラップベクトルを生成し;
一般的な細胞型の個々の細胞のブートストラップベクトルおよび特徴ベクトルを統合することによって細胞コーパスを生成するように構成されている、前記システム。
【請求項2】
処理装置は、i)生体細胞の検知の結果としてデータリポジトリに細胞コーパスのうちの少なくとも1つを記憶すること;ii)データネットワークを介して細胞コーパスのうちの少なくとも1つのレポートを送信すること;およびiii)細胞コーパスのうちの少なくとも1つを生成することに応答して、自動化プロセスを開始するために特定のユーザ入力なしに自動化プロセスを開始することからなる群のうちの少なくとも1つを実行するようにさらに構成されている、請求項1に記載のシステム。
【請求項3】
センサデータを使用して個々の細胞の細胞型を生成するために、処理装置は、入力としてセンサデータを受信し、出力として細胞型の標示を生成するように構成された1つまたはそれ以上の機械学習分類器にセンサデータを提出するようにさらに構成されている、請求項1に記載のシステム。
【請求項4】
1つまたはそれ以上の機械学習分類器は、分類に投票するように構成された機械学習分類器のアンサンブルを有する決定木の複数のノードの各々で階層決定木に配置された複数の分類器を含む、請求項3に記載のシステム。
【請求項5】
決定木のルートノードは、免疫細胞の子および非免疫細胞の子を有する、請求項4に記載のシステム。
【請求項6】
機械学習分類器は、訓練データの初期コーパスで訓練され、
処理装置は:
細胞コーパスのうちの少なくとも1つを初期コーパスに組み込むことによって、訓練データの更新コーパスを生成し、
更新されたコーパスを使用して更新された機械学習分類器を訓練するようにさらに構成されている、請求項3に記載のシステム。
【請求項7】
処理装置は:
高エントロピー細胞が高エントロピーレベルのクラスタに見出されたことに起因して、個々の細胞のうちの1つを高エントロピー細胞として同定し;
高エントロピー細胞から生成された細胞型を切り離し;
高エントロピー細胞を新規な細胞型として分類するようにさらに構成されている、請求項6に記載のシステム。
【請求項8】
処理装置は:
高エントロピー細胞が高エントロピーレベルのクラスタに見出されたことに起因して、個々の細胞のうちの1つを高エントロピー細胞として同定し;
高エントロピー細胞から生成された細胞型を切り離し;
i)生体細胞の検知の結果としてデータリポジトリに高エントロピー細胞に関する情報を記憶すること;ii)データネットワークを介して高エントロピー細胞に関するレポートを送信すること;およびiii)高エントロピー細胞の同定に応答して、自動化プロセスを開始するために、特定のユーザ入力なしに自動化プロセスを開始することからなる群のうちの少なくとも1つを実行するようにさらに構成されている、請求項1に記載のシステム。
【請求項9】
個々の細胞のうちの1つを高エントロピー細胞として同定することは、高エントロピー細胞のシャノンエントロピー値を計算することを含む、請求項8に記載のシステム。
【請求項10】
ノイズは、以前に解析された細胞の統計的測定値に基づいて生成される、請求項1または2に記載のシステム。
【請求項11】
処理装置は、センサデータの統計的測定値に基づいてノイズを生成するようにさらに構成されている、請求項1または2に記載のシステム。
【請求項12】
生体細胞の試料からのデータを検知する方法であって:
センサデータを使用して、生体細胞の個々の細胞を同定することと;
個々の細胞それぞれについて:
センサデータを使用して、個々の細胞の細胞型を生成することと;
センサデータを使用して、個々の細胞の特徴ベクトルを生成することと;
センサデータを使用して、細胞型の少なくとも一部を珍しい細胞型として分類することと;
珍しい細胞型それぞれについて:
珍しい細胞型の個々の細胞の特徴ベクトルにアクセスすることと;
珍しい細胞型の個々の細胞の特徴ベクトルにノイズを適用することによって珍しい細胞型のブートストラップベクトルを生成することと;
一般的な細胞型の個々の細胞のブートストラップベクトルおよび特徴ベクトルを統合することによって細胞コーパスを生成することと
を含む、前記方法。
【請求項13】
方法は、i)生体細胞の検知の結果としてデータリポジトリに細胞コーパスのうちの少なくとも1つを記憶すること;ii)データネットワークを介して細胞コーパスのうちの少なくとも1つのレポートを送信すること;およびiii)細胞コーパスのうちの少なくとも1つを生成することに応答して、自動化プロセスを開始するために、特定のユーザ入力なしに自動化プロセスを開始することからなる群のうちの少なくとも1つをさらに含む、請求項12に記載の方法。
【請求項14】
センサデータを使用して個々の細胞の細胞型を生成することは、入力としてセンサデータを受信し、出力として細胞型の標示を生成するように構成された1つまたはそれ以上の機械学習分類器にセンサデータを提出することを含む、請求項12に記載の方法。
【請求項15】
1つまたはそれ以上の機械学習分類器は、分類に投票するように構成された機械学習分類器のアンサンブルを有する決定木の複数のノードの各々で階層決定木に配置された複数の分類器を含む、請求項14に記載の方法。
【請求項16】
決定木のルートノードは、免疫細胞の子および非免疫細胞の子を有する、請求項15に記載の方法。
【請求項17】
機械学習分類器は、訓練データの初期コーパスで訓練され、
方法は:
細胞コーパスのうちの少なくとも1つを初期コーパスに組み込むことによって、訓練データの更新コーパスを生成することと;
更新されたコーパスを使用して更新された機械学習分類器を訓練することと
をさらに含む、請求項14に記載の方法。
【請求項18】
方法は:
高エントロピー細胞が高エントロピーレベルのクラスタに見出されたことに起因して、個々の細胞のうちの1つを高エントロピー細胞として同定することと;
高エントロピー細胞から生成された細胞型を切り離すことと;
高エントロピー細胞を新規な細胞型として分類することと
をさらに含む、請求項17に記載の方法。
【請求項19】
方法は:
高エントロピー細胞が高エントロピーレベルのクラスタに見出されたことに起因して、個々の細胞のうちの1つを高エントロピー細胞として識別することと;
高エントロピー細胞から生成された細胞型を切り離すことと;
i)生体細胞の検知の結果としてデータリポジトリに高エントロピー細胞に関する情報を記憶すること;ii)データネットワークを介して高エントロピー細胞に関するレポートを送信すること;およびiii)高エントロピー細胞の同定に応答して、自動化プロセスを開始するために、特定のユーザ入力なしに自動化プロセスを開始することからなる群のうちの少なくとも1つを実行することと
をさらに含む、請求項12に記載の方法。
【請求項20】
個々の細胞のうちの1つを高エントロピー細胞として同定することは、高エントロピー細胞のシャノンエントロピー値を計算することを含む、請求項19に記載の方法。
【請求項21】
ノイズは、以前に解析された細胞の統計的測定値に基づいて生成される、請求項12または13に記載の方法。
【請求項22】
方法はさらに、センサデータの統計的測定値に基づいてノイズを生成することをさらに含む、請求項12または13に記載の方法。
【請求項23】
命令を有形に記憶しているコンピュータ可読媒体であって、該命令は、1つまたはそれ以上のプロセッサによって実行されたときに、
センサデータを使用して、生体細胞のコレクションの個々の細胞を同定することと;
個々の細胞それぞれについて:
センサデータを使用して、個々の細胞の細胞型を生成することと;
センサデータを使用して、個々の細胞の特徴ベクトルを生成することと;
センサデータを使用して、細胞型の少なくとも一部を珍しい細胞型として分類することと;
珍しい細胞型それぞれについて:
珍しい細胞型の個々の細胞の特徴ベクトルにアクセスすることと;
珍しい細胞型の個々の細胞の特徴ベクトルにノイズを適用することによって珍しい細胞型のブートストラップベクトルを生成することと;
一般的な細胞型の個々の細胞のブートストラップベクトルおよび特徴ベクトルを統合することによって細胞コーパスを生成することと
を含む作動方法をプロセッサに実行させる、前記コンピュータ可読媒体。
【請求項24】
作動方法は、i)生体細胞の検知の結果としてデータリポジトリに細胞コーパスのうちの少なくとも1つを記憶すること;ii)データネットワークを介して細胞コーパスのうちの少なくとも1つのレポートを送信すること;およびiii)細胞コーパスのうちの少なくとも1つを生成することに応答して、自動化プロセスを開始するために、特定のユーザ入力なしに自動化プロセスを開始することからなる群のうちの少なくとも1つをさらに含む、請求項23に記載のコンピュータ可読媒体。
【請求項25】
センサデータを使用して個々の細胞の細胞型を生成することは、入力としてセンサデータを受信し、出力として細胞型の標示を生成するように構成された1つまたはそれ以上の機械学習分類器にセンサデータを提出することを含む、請求項23に記載のコンピュータ可読媒体。
【請求項26】
1つまたはそれ以上の機械学習分類器は、分類に投票するように構成された機械学習分類器のアンサンブルを有する決定木の複数のノードの各々で階層決定木に配置された複数の分類器を含む、請求項25に記載のコンピュータ可読媒体。
【請求項27】
決定木のルートノードは、免疫細胞の子および非免疫細胞の子を有する、請求項26に記載のコンピュータ可読媒体。
【請求項28】
機械学習分類器は、訓練データの初期コーパスで訓練され、
方法は:
細胞コーパスのうちの少なくとも1つを初期コーパスに組み込むことによって、訓練データの更新コーパスを生成することと;
更新されたコーパスを使用して更新された機械学習分類器を訓練することと
をさらに含む、請求項25に記載のコンピュータ可読媒体。
【請求項29】
作動方法は:
高エントロピー細胞が高エントロピーレベルのクラスタに見出されたことに起因して、個々の細胞のうちの1つを高エントロピー細胞として識別することと;
高エントロピー細胞から生成された細胞型を切り離すことと;
高エントロピー細胞を新規な細胞型として分類することと
をさらに含む、請求項28に記載のコンピュータ可読媒体。
【請求項30】
作動方法は:
高エントロピー細胞が高エントロピーレベルのクラスタに見出されたことに起因して、個々の細胞のうちの1つを高エントロピー細胞として識別することと;
高エントロピー細胞から生成された細胞型を切り離すことと;
i)生体細胞の検知の結果としてデータリポジトリに高エントロピー細胞に関する情報を記憶すること;ii)データネットワークを介して高エントロピー細胞に関するレポートを送信すること;およびiii)高エントロピー細胞の同定に応答して、自動化プロセスを開始するために、特定のユーザ入力なしに自動化プロセスを開始することからなる群のうちの少なくとも1つを実行することと
をさらに含む、請求項23に記載のコンピュータ可読媒体。
【請求項31】
個々の細胞のうちの1つを高エントロピー細胞として同定することは、高エントロピー細胞のシャノンエントロピー値を計算することを含む、請求項30に記載のコンピュータ可読媒体。
【請求項32】
ノイズは、以前に解析された細胞の統計的測定値に基づいて生成される、請求項23または24に記載のコンピュータ可読媒体。
【請求項33】
センサデータの統計的測定値に基づいてノイズを生成することを含む、請求項23または24に記載のコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書では、センサデータを使用して生体細胞を同定し分類する技術について説明する。
【背景技術】
【0002】
細胞生物学における単一細胞解析とは、ゲノミクス、トランスクリプトミクス、プロテオミクス、メタボロミクス、および細胞間相互作用の単一細胞レベルでの研究である。真核細胞集団および原核細胞集団の両方に見られる不均一性により、単一細胞を解析することで、大量の細胞集団を研究するときには見られないメカニズムを発見することが可能になる。蛍光活性化セルソーティング(FACS)のような技術は、複雑な試料から選択された単一細胞を正確に単離することを可能にする一方、ハイスループットな単一細胞分割技術により、数百または数千の未分類の単一細胞を同時に分子解析することを可能にする。
【発明の概要】
【課題を解決するための手段】
【0003】
これまで未知であった細胞を含む単一細胞を同定する技術について説明する。センサデータは生体細胞の試料から収集され、機械学習分類器を使用して試料中で検知された各細胞を分類する。これらの分類器を訓練するために、細胞の同定に基づいて訓練セットが生成される。試料中の一部の細胞は比較的数が多いため、訓練コーパスとして直接使用することができる。しかし、稀な細胞は、信頼できる機械学習分類器を訓練するのに十分なデータポイントを提供せず、また十分な識別力のあるデータポイントを提供しないことがある。このような稀な細胞に対しては、既知の細胞における既知のばらつきと一致する統計的プロファイルを持つ数学的ノイズと組み合わせた希少な例に基づき、コーパスをブートストラップすることができる。このようにして、高品質のデータセットが生成され、これらの高品質のデータセットから高品質の分類器を訓練することができる。高品質の分類器を使用することによって、細胞サンプラおよびそれに関連する計算装置は、生体細胞をよりよく検知し、同定することができる。
【0004】
一例では、システムは、生体細胞の試料からデータを検知するために使用することができる。このシステムは、試料レシーバと1つまたは複数のセンサとを含む細胞サンプラを備え、細胞サンプラは、センサを使用して、試料レシーバ内の生体細胞の物理現象を検知し;生体細胞の検知から生成されたセンサデータを処理装置に送信するように構成されている。本システムは、コンピュータメモリおよび1つまたはそれ以上のプロセッサを含む処理装置を備え、処理装置は、細胞サンプラからセンサデータを受信し;センサデータを使用して、生体細胞の個々の細胞を同定し;個々の細胞それぞれについて:センサデータを使用して、個々の細胞の細胞型を生成し;センサデータを使用して、個々の細胞の特徴ベクトルを生成し;センサデータを使用して、細胞型の少なくとも一部を珍しい細胞型として分類し;珍しい細胞型それぞれについて:珍しい細胞型の個々の細胞の特徴ベクトルにアクセスし;珍しい細胞型の個々の細胞の特徴ベクトルにノイズを適用することによって珍しい細胞型のブートストラップベクトルを生成し;一般的な細胞型の個々の細胞のブートストラップベクトルおよび特徴ベクトルを統合することによって細胞コーパスを生成するように構成されている。他の例としては、方法、コンピュータ可読媒体、デバイスおよびソフトウェアが挙げられる。
【0005】
例は、以下の構成の一部、すべてを含むか、または一切含まなくてもよい。処理装置は、i)生体細胞の検知の結果としてデータリポジトリに細胞コーパスのうちの少なくとも1つを記憶すること;ii)データネットワークを介して細胞コーパスのうちの少なくとも1つのレポートを送信すること;およびiii)細胞コーパスのうちの少なくとも1つを生成することに応答して、自動化プロセスを開始するために、特定のユーザ入力なしに自動化プロセスを開始することからなる群のうちの少なくとも1つを実行するようにさらに構成されている。センサデータを使用して個々の細胞の細胞型を生成するために、処理装置は、入力としてセンサデータを受信し、出力として細胞型の標示を生成するように構成された1つまたはそれ以上の機械学習分類器にセンサデータを提出するようにさらに構成されている。1つまたはそれ以上の機械学習分類器は、分類に投票するように構成された機械学習分類器のアンサンブルを有する決定木の複数のノードの各々で階層決定木に配置された複数の分類器を含む。決定木のルートノードは、免疫細胞の子および非免疫細胞の子を有する。機械学習分類器は、訓練データの初期コーパスで訓練され;処理装置は:初期コーパスに細胞コーパスのうちの少なくとも1つを組み込むことにより、訓練データの更新コーパスを生成し;更新コーパスを使用して更新された機械学習分類器を訓練するようにさらに構成されている。処理装置は:高エントロピー細胞が高エントロピーレベルのクラスタに見出されたことに起因して、個々の細胞のうちの1つを高エントロピー細胞として同定し;高エントロピー細胞から生成された細胞型を切り離し;高エントロピー細胞を新規細胞型として分類するようにさらに構成されている。処理装置は:高エントロピー細胞が高エントロピーレベルのクラスタに見出されたことに起因して、個々の細胞のうちの1つを高エントロピー細胞として同定し;高エントロピー細胞から生成された細胞型を切り離し;i)生体細胞の検知の結果としてデータリポジトリに高エントロピー細胞に関する情報を記憶すること;ii)データネットワークを介して高エントロピー細胞に関するレポートを送信すること;およびiii)高エントロピー細胞の同定に応答して、自動化プロセスを開始するために、特定のユーザ入力なしに自動化プロセスを開始することからなる群のうちの少なくとも1つを実行するようにさらに構成されている。個々の細胞のうちの1つを高エントロピー細胞として同定することは、高エントロピー細胞のシャノンエントロピー値を計算することを含む。ノイズは、以前に解析された細胞の統計的測定値に基づいて生成される。処理装置は、センサデータの統計的測定値に基づいてノイズを生成するようにさらに構成されている。
【0006】
実施態様は、以下の構成のいずれか、すべてを含むか、または一切含まなくてもよい。単一細胞解析の技術は高度なものである。機械学習分類器は、非常に稀な細胞に関するデータで訓練でき、この技術なしでは訓練データは得られないだろう。これによって、これらの稀な細胞に遭遇したときにこれを分類できるセンサおよびその関連コントローラを作成することができる。さらに、これまで未知であった細胞型を同定し、解析することができる。この解析を分類器に組み込むことで、珍しい細胞に2度目に遭遇したときの分類器の性能を向上させることができる
【0007】
その他の構成、態様および潜在的な利点は、添付の説明および図面から明らかになるであろう。
【図面の簡単な説明】
【0008】
【
図1】生体細胞の試料からデータを検知する例示的システムを示す図である。
【
図2】生体細胞の試料からデータを検知する際に使用できるデータの例を示す図である。
【
図3】生体細胞の試料からデータを検知する例示的プロセスのスイムレーン図である。
【
図4】コンピューティングデバイスおよびモバイルコンピューティングデバイスの一例の概略図である。
【
図5】生体細胞の試料からデータを検知する例示的プロセスを示す図である。
【発明を実施するための形態】
【0009】
種々の図面中の同じ参照符号は、同じ要素を示す。
【0010】
一般的な細胞型による訓練データから始まり、稀な細胞のデータをブートストラップすることによって訓練データを更新し、次に訓練データから機械学習分類器を訓練する細胞の同定は、検知および分類技術の使用によって改善される。次いで、これらの分類器は、検知された細胞を分類するために使用できる階層決定木に配置することができる。
【0011】
図1は、生体細胞の試料からデータを検知する例示的システム100を示す。このシステム100では、細胞サンプラ102が処理装置104と連動して、新しい細胞を分類し、これまで未知であった新しい細胞型を同定するために使用できる機械学習分類器118を生成する。
【0012】
細胞サンプラ102は、細胞106の試料を試料レシーバで受け取り、細胞106の物理現象を1つまたはそれ以上のセンサで検知することができるデバイスのうちの任意の1つまたは組み合わせである。例示的な細胞サンプラ102としては、ウェルベースまたは液滴ベースの細胞シーケンサが挙げられるが、これらに限定されない。いくつかの例示的な細胞サンプラ102としては、マイクロ流体構造を使用して単一細胞の分割およびバーコード化を行うデバイスが挙げられる。いくつかの例では、細胞サンプラ102は多次元かつトランスクリプトームな検知を実行する。
【0013】
細胞サンプラ102は、処理装置104とデータ通信しており、この処理装置104は、データを受信し、データ計算を実行し、レポートを生成し、ネットワーク経由でデータを送信するなどの命令を実行できるコンピュータメモリおよび1つまたはそれ以上のプロセッサを備える。理解されるように、処理装置104は、コンピュータ、モニタ、データネットワーキング機器などの1つまたはそれ以上のデバイスを備えていてもよい。装置104の一部または全部は、例えば、専用デバイスコントローラの形態で細胞サンプラ102と物理的に一体化されている。装置104の一部または全部は、地理的に離れているが、インターネットを含む1つまたはそれ以上のネットワークを介してデータ通信を行っていてもよい。
【0014】
システム100は、機械学習分類器118を訓練することができる訓練データを作成するように動作できる。細胞サンプラ102は細胞106の試料を受け取り、細胞106の物理現象を検知する。この検知からセンサデータ108が生成され、現象を反映したデータが記録される。個々の細胞106が同定される、すなわち、多くの異なる単一細胞106が同定され、一般的なものか珍しいものかに分類される110。一般的な細胞型の細胞106については、一般的な細胞特徴112が同定され、その対応する型と関連付けられる。珍しい型の細胞106については、センサデータ108に直接検知され記録された特徴から余分な特徴114がブートストラップされる。
【0015】
一般的な細胞特徴112およびブートストラップされた特徴114は、1つまたはそれ以上の機械学習データセット116に組み込まれる。ブートストラップされた特徴114を使用することにより、装置104は、1つのみ、または数個の細胞しか利用できない細胞型であるにもかかわらず分類器の訓練に適したデータセットを構築することができる。このような技術は、他の方法で可能な場合よりも少ない物理現象を検知することで、有利に機械学習分類器を訓練することができる。これは、他の方法で可能な場合よりも多くの珍しい細胞型を分類できるという有利な特徴を持ち得る。
【0016】
1つまたはそれ以上の機械学習分類器118を使用すると、さらなるセンサデータ120を解析のために分類器118に提出することができる。別の方法では機械学習による訓練が不可能であるほど稀な珍しい細胞も含む既に観察された細胞型については、センサデータ120は細胞分類に分類することができる122。さらに、記録および/または研究のために新しい細胞型を同定することができる124。このことは、単一細胞の同定、分類、およびシーケンシングの技術を有利に進めることができる。
【0017】
図2は、生体細胞の試料からデータを検知する際に使用できるデータの例を示す。例えば、
図2に示すデータは、システム100または他のシステムで使用される。ここに示されたデータは、例えば、1つまたはそれ以上のデータ記憶部に記録され、プロセッサによる短期メモリ記憶部で使用され、データネットワークを介して送信される。
【0018】
センサデータ108/120は、センサおよび/またはそれらのセンサを動作させるコントローラによって生成されたデータを含む。様々なタイプのセンサは、いくつかの環境条件下で、環境の特徴に基づいて電気信号を差動的に生成する様々なタイプのハードウェアを備える。別の言い方をすれば、センサデータ108/120はセル106の物理的状態を反映する。
【0019】
単一細胞の記録200は、細胞の試料中の特定の細胞に関する情報を記録している。記録200は、例えば、細胞型の指定、特徴ベクトル202、作成日、単一細胞がメンバーである試料識別子などを記憶するフィールド、および/またはデータの類似フィールドへの参照を含む構造化フォーマットであってもよい。
【0020】
特徴ベクトル202は、単一細胞について決定された特徴のコレクション(例えば、配列、リスト、ベクトル)を記憶することができ、単一細胞記録200の一部として記憶することができる。一実施態様では、特徴ベクトル202の各インデックスは、単一細胞の単一遺伝子発現を反映する値を記録するが、データ記憶の他のスキームを使用してもよい。
【0021】
ノイズ204は、1つまたはそれ以上の統計的規則に適合するように調整されたランダム値または擬似ランダム値のコレクション(例えば、配列、リスト、ベクトル)を記憶することができる。例えば、設定された平均値、標準偏差、および範囲値は、既知の一般的な細胞のばらつきの記録に基づいてコンパイルされる。ノイズ204も同じ平均値、標準偏差、および範囲値を示すことができる。場合によっては、ノイズ204はシステム100内の以前に解析された細胞の統計的測定値に基づいて生成される。例えば、処理装置104は、センサデータの統計的測定値に基づいてノイズ204を生成するように構成されている。
【0022】
ブートストラップベクトル206は、ノイズ204を特徴ベクトル202に適用することによって生成される特徴のコレクション(例えば、配列、リスト、ベクトル)を記憶することができる。このような場合、ブートストラップベクトル206は、例えば、珍しい型の細胞の特徴ベクトル202に類似しており、その合理的なばらつきの範囲内にある値を記憶することができる。このことは、例えば、特定のタスクのために特徴ベクトル202を生成するために大量に珍しい細胞が見つからない状況で有利であり得る。このようなタスクの1つは機械学習分類器の訓練だが、他も可能である。
【0023】
細胞コーパス208は多くの細胞を代表するデータを含む。例えば、細胞コーパス208はブートストラップベクトル206だけでなく特徴ベクトル202を含むことができる。細胞コーパス208はいくつかの有用なタスクに利用できる。このようなタスクの1つは機械学習分類器の訓練だが、他も可能である。
【0024】
細胞分類器210は、入力として特徴ベクトル202を受信し、出力として分類値を返すように構成された関数を含む。例えば、未分類の最近検知された細胞の特徴ベクトル202は、初回の分類のために細胞分類器210に提出することができる。
【0025】
細胞分類器210は、分類に投票するように構成された機械学習分類器210のアンサンブルを有する決定木の複数のノード212の各々で階層決定木に配置される。このため、細胞分類器210は、単一の分類、信頼値を使用した一連の分類、および決定木の様々なレベルに対応する様々な特異度レベルでの分類を提供することができる。
【0026】
エントロピー値214およびエントロピー値216は、個々の細胞または細胞のクラスタについてエントロピー値を記録することができる。高エントロピークラスタまたは高エントロピークラスタ内の細胞については、高い値214を記録することができる。低エントロピークラスタまたは低エントロピークラスタ内の細胞については、低い値216を記録することができる。
【0027】
図3は、生体細胞の試料からデータを検知する例示的プロセスのスイムレーン図を示す。プロセス300は、例えばシステム100によって実行することができ、そのため、システム100の要素が本例に使用されるが、プロセス300および他のプロセスを実行するために他のシステムが使用される。
【0028】
本例では、処理装置104は、コンピュータデバイス302、データリポジトリ304、およびネットワーク接続されたクライアント306を含む。デバイス302~306はそれぞれ地理的に離れており、インターネットを含む1つまたはそれ以上のデータネットワークで接続されている。しかし、処理装置104の他の要素を他の例で使用することもできる。
【0029】
細胞サンプラ102は、試料レシーバ内の生体細胞の物理現象をセンサで検知する308ように構成されている。例えば、ハンドラ(例えば、人間の技術者または自動化されたマテリアルハンドリングロボット)は、生体細胞の試料を細胞サンプラ102の試料レシーバに入れることができ、細胞を解析するためのコマンド(例えば、ボタンを押す、またはデータメッセージを送信する)を発行することができる。
【0030】
細胞サンプラ102は、生体細胞の検知から生成されたセンサデータを処理装置に送信する310ように構成され、処理装置104は、細胞サンプラ102からセンサデータを受信する312ように構成されている。例えば、細胞サンプラ102は、検知によるデータメッセージをクライアントデバイス302に直接送信することができ、メッセージをデータリポジトリ304に記憶し、データへのポインタを含むメッセージをコンピュータデバイス302に送信することができ、または他の方法でデータを通信することができる。
【0031】
処理装置104は、センサデータを使用して、生体細胞の個々の細胞を同定する314ように構成されている。例えば、コンピュータデバイス302は、受信したデータをパースし、各単一細胞のために対応する一意の識別子(例えば、バーコード)を作成することができる。
【0032】
個々の細胞それぞれについて、処理装置104はセンサデータを使用して、個々の細胞の細胞型を生成する316ように構成されている。例えば、コンピュータデバイス302は1つまたはそれ以上の技術を使用して各単一細胞を分類することができる。コンピュータデバイス302は、入力としてセンサデータを受信し、出力として細胞型の標示を生成するように構成された1つまたはそれ以上の機械学習分類器にセンサデータを提出することができる。これにより、一意の識別子それぞれ、ひいては単一細胞について、細胞型の標示を生成することができる。
【0033】
場合によっては、1つまたはそれ以上の機械学習分類器は複数の分類器を含む。これらの分類器は、(例えば、投票または信頼水準をプールすることによって)協働して分類を作成することができる。これらの分類器は、階層決定木に配置することができる。この木は、各ノードに分類に投票するように構成された機械学習分類器のアンサンブルを有することができる。この投票は、分類を作成するために使用される。
【0034】
この木は汎用目的のものであることができ、したがって完全に未知の型の細胞が受信される、または他の場合に使用される。場合によっては、特定の用途のために木を構造化することもできる。そのような用途の1つは、免疫細胞の区別および分類である。このような場合、決定木のルートノードが免疫細胞の子および非免疫細胞の子を有するように木は組織化される。このように、各細胞はまず免疫細胞(例えば、さらなる分析のために保持される)または非免疫細胞(例えば、さらなる分析から除外される)に分類される。免疫細胞、非免疫細胞、または免疫細胞および非免疫細胞の両方のさらなる分類を行うことができる。
【0035】
個々の細胞それぞれについて、処理装置102はセンサデータを使用して、個々の細胞の特徴ベクトルを生成する318ように構成されている。このベクトルは細胞の様々な特徴を記録することができる。理解されるように、各細胞は同じフォーマットの対応するベクトルを有してもよく、例えば、ベクトルの第1の要素はすべてのベクトルで同じデータに使用され、ベクトルの第2の要素はすべてのベクトルで別の同じデータに使用される。
【0036】
本明細書で記載された用途に加えて、特徴ベクトルは他の演算の入力として使用することもできる。例えば、特徴ベクトルは、デコンボリューションおよび符号解析ならびに他の目的に使用することができる。
【0037】
個々の細胞それぞれについて、処理装置102は、センサデータを使用して、細胞型の少なくとも一部を珍しい細胞型として分類する320ように構成されている。例えば、試料中の細胞の数が閾値未満である細胞型は珍しいものとして分類される。この閾値は、静的な値(例えば、2、10、100)であっても、または他の値の派生値(例えば、平均値から2標準偏差未満、N個の最も数の少ない細胞型)であってもよい。この他の値は、試料に関連する値(すなわち、試料中の珍しい細胞を見つけるため)であっても、または他のデータセットの値(すなわち、利用可能なすべての既知の細胞を考慮したときに珍しい細胞を見つけるため)であってもよい。
【0038】
珍しい細胞型それぞれについて、処理装置104は珍しい細胞型の個々の細胞の特徴ベクトルにアクセスする322ように構成されている。例えば、コンピュータデバイス302はすべての特徴ベクトルにアクセスし、一般的な細胞の特徴ベクトルをフィルタして除外することができる。別の例では、コンピュータデバイス302は、珍しい細胞の特徴ベクトルのみを返すクエリを構築して提出することができる。
【0039】
珍しい細胞型それぞれについて、処理装置102は、珍しい細胞型の個々の細胞の特徴ベクトルにノイズを適用することによって、珍しい細胞型のブーストラップベクトルを生成する324ように構成されている。例えば、ここでの各特徴ベクトルは、データが0...Mの範囲であり得るI個の要素を有してもよい。ノイズは、ランダムで、一般的な細胞型に見られるばらつきに適合する0...Mの値を含むことができる。コンピュータデバイス302は、ラップアラウンド加算を使用して各特徴ベクトル要素をノイズの次の未使用の数値と結合することができるため、値は0...Mのままであるが、ノイズによって変更される。ラップアラウンド加算に加えて、他の形式の組み合わせが使用される。これは、例えば、データが提示され、記憶される方法に依存し得る。
【0040】
処理装置102は、一般的な細胞型の個々の細胞のブートストラップベクトルおよび特徴ベクトルを統合することによって細胞コーパスを生成する326ように構成されている。例えば、コンピュータデバイス302は、生成されたすべての特徴ベクトル、または一般的細胞の特徴ベクトルのみで開始し、そのコレクションにすべてのブートストラップベクトル324を加算することができる。場合によっては、コンピュータデバイス302は、コーパスが特定の用途のために確立された最低基準を満たすことを保証するために、コーパスに対して1つまたはそれ以上の後処理テストを実行するように構成されている。例えば、機械学習分類のためのデータエントリの最小数が設定される。
【0041】
処理装置102は、生体細胞の検知の結果としてデータリポジトリに細胞コーパスのうちの少なくとも1つを記憶する328ようにさらに構成されている。例えば、データリポジトリは細胞コーパスを長期的かつ安定した記憶部に記憶することができる。次いで、データリポジトリ304は、データリポジトリ304がそのようなクエリを受信したときに、細胞コーパスに対するクエリに応答することができる。
【0042】
処理装置102は、データネットワークを介して細胞コーパスのうちの少なくとも1つのレポートを送信する330ようにさらに構成されている。例えば、ネットワーク接続されたクライアントは、臨床医に、患者の診断ケアに使用するための患者の細胞に関するレポートを送信することができる。
【0043】
処理装置102は、細胞コーパスの少なくとも1つを生成することに応答して、自動化プロセスを開始するために、特定のユーザ入力なしに自動化プロセスを開始する332ようにさらに構成されている。例えば、ネットワーク接続されたクライアント306は、コーパスに対して1回またはそれ以上の品質検査を実行し、コーパスがこれらの検査に合格した場合、1つまたはそれ以上のプロセスを開始することができる。
【0044】
このようなプロセスの一例は、機械学習分類器の訓練である。場合によっては、コンピュータデバイス302によって使用される分類器は、このようにして作成することができる。すなわち、機械学習分類器は、訓練データの初期コーパスで訓練され、これは後に更新された。このような場合、処理装置102は、細胞コーパスのうちの少なくとも1つを初期コーパスに組み込むことによって、訓練データの更新コーパスを生成するように構成されている。このような場合の処理装置104は、更新されたコーパスを使用して更新された機械学習分類器を訓練するように構成されている。このように、この更新されたコーパスは、より多くの細胞型を含み、より柔軟な分類を可能にする。
【0045】
このような処理の一例は高エントロピー細胞の分類である。例えば、処理装置は、高エントロピー細胞が、シャノンエントロピーを含むがこれに限定されない高エントロピーレベルのクラスタに見出されたことに起因して、個々の細胞のうちの1つを高エントロピー細胞として同定することができる。例えば、O個またはほぼO個の異なる型が識別されたO個の細胞からなるクラスタは、そのクラスタが実際には、特定の分類器が存在しない、これまで未知であった単一の型のO個の細胞から構成されているという標示として使用される。
【0046】
このような場合、処理装置104は高エントロピー細胞から、生成された細胞型を切り離し、代わりに高エントロピー細胞を新規な細胞型として分類することができる。応答時に、処理装置は、いくつかの有用な行為、例えば、i)生体細胞の検知の結果としてデータリポジトリに高エントロピー細胞に関する情報を記憶すること;ii)データネットワークを介して高エントロピー細胞に関するレポートを送信すること;および/またはiii)高エントロピー細胞の同定に応答して、自動化プロセスを開始するために、特定のユーザ入力なしに自動化プロセスを開始することからなる群のうちの少なくとも1つを実行することができる。
【0047】
図4は、本明細書に記載される技術を実施するために使用されるコンピューティングデバイス400の一例およびモバイルコンピューティングデバイスの一例を示す。コンピューティングデバイス400は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図されている。モバイルコンピューティングデバイスは、パーソナルデジタルアシスタント、携帯電話、スマートフォン、および他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表すことが意図されている。本明細書に示された構成要素、それらの接続および関係、ならびにそれらの機能は、例示的なものに過ぎないことが意図されており、本文書で記載および/または特許請求される発明の実施態様を制限することを意図していない。
【0048】
コンピューティングデバイス400は、プロセッサ402、メモリ404、ストレージデバイス406、メモリ404および複数の高速拡張ポート410に接続する高速インタフェース408、ならびに低速拡張ポート414およびストレージデバイス406に接続する低速インタフェース412を備える。プロセッサ402、メモリ404、ストレージデバイス406、高速インタフェース408、高速拡張ポート410、および低速インタフェース412の各々は、様々なバスを使用して相互接続されており、共通のマザーボードに、または適宜他の方法で設置される。プロセッサ402は、高速インタフェース408に結合されたディスプレイ416などの外部入出力デバイス上にGUI用のグラフィカル情報を表示するために、メモリ404またはストレージデバイス406に記憶された命令を含む、コンピューティングデバイス400内で実行するための命令を処理することができる。他の実施態様では、複数のプロセッサおよび/または複数のバスは、複数のメモリおよび複数のメモリの種類とともに、適宜使用することができる。また、複数のコンピューティングデバイスが接続され、各デバイスは必要な動作の一部を提供する(例えば、サーババンク、ブレードサーバのグループ、マルチプロセッサシステム)。
【0049】
メモリ404は、コンピューティングデバイス400内の情報を記憶する。いくつかの実施態様では、メモリ404は、1つまたはそれ以上の揮発性メモリユニットである。いくつかの実施態様では、メモリ404は、1つまたはそれ以上の不揮発性メモリユニットである。メモリ404はまた、磁気ディスクまたは光ディスクなどの別の形態のコンピュータ可読媒体であることもできる。
【0050】
ストレージデバイス406は、コンピューティングデバイス400に大容量ストレージを提供することができる。いくつかの実施態様では、ストレージデバイス406は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリもしくは他の類似のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくは他の構成のデバイスを含むデバイスのアレイなどの、コンピュータ可読媒体であってもよく、またはそれを含むことができる。コンピュータプログラム製品は、情報担体に有形に具体化することができる。コンピュータプログラム製品は、実行されたときに、上述したような1つまたはそれ以上の方法を実行する命令を含むこともできる。コンピュータプログラム製品は、メモリ404、ストレージデバイス406、またはプロセッサ402上のメモリなどの、コンピュータ可読媒体または機械可読媒体に有形に具体化することもできる。
【0051】
高速インタフェース408は、コンピューティングデバイス400の帯域幅集中型の処理を管理するが、低速インタフェース412は、低帯域幅集中型の処理を管理する。このような機能の割り当ては例示的なものに過ぎない。いくつかの実施態様では、高速インタフェース408は、メモリ404、ディスプレイ416(例えば、グラフィックプロセッサまたはアクセラレータを介して)、および様々な拡張カード(図示せず)を受けることができる高速拡張ポート410に結合される。本実施態様では、低速インタフェース412は、ストレージデバイス406および低速拡張ポート414に結合されている。様々な通信ポート(例えば、USB、ブルートゥース、イーサネット、無線イーサネット)を含むことができる低速拡張ポート414は、キーボード、ポインティングデバイス、スキャナなどの1つもしくはそれ以上の入出力デバイス、または例えば、ネットワークアダプタを介して、スイッチもしくルータなどのネットワーキングデバイスに結合することができる。
【0052】
コンピューティングデバイス400は、図示されているように複数の異なる形態で実装される。例えば、コンピューティングデバイス400は、標準サーバ420として、またはそのようなサーバ群に複数実装することもできる。さらに、コンピューティングデバイス400は、ラップトップコンピュータ422などのパーソナルコンピュータに実装することもできる。コンピューティングデバイス400は、ラックサーバシステム424の一部として実装することもできる。あるいは、コンピューティングデバイス400のコンポーネントを、モバイルコンピューティングデバイス450などのモバイルデバイス(図示せず)内の他のコンポーネントと組み合わせることもできる。このようなデバイスの各々は、コンピューティングデバイス400およびモバイルコンピューティングデバイス450のうちの1つまたはそれ以上を含むことができ、システム全体は、互いに通信する複数のコンピューティングデバイスで構成することができる。
【0053】
モバイルコンピューティングデバイス450は、他のコンポーネントの中でもとりわけ、プロセッサ452、メモリ464、ディスプレイ454などの入出力デバイス、通信インタフェース466、およびトランシーバ468を備える。モバイルコンピューティングデバイス450は、追加のストレージを提供するために、マイクロドライブなどのストレージデバイスまたは他のデバイスを備えることもできる。プロセッサ452、メモリ464、ディスプレイ454、通信インタフェース466、およびトランシーバ468の各々は、様々なバスを使用して相互接続され、コンポーネントのいくつかは、共通のマザーボードに、または適宜他の方法で設置される。
【0054】
プロセッサ452は、メモリ464に記憶された命令を含む、モバイルコンピューティングデバイス450内の命令を実行することができる。プロセッサ452は、別個の複数のアナログプロセッサおよびデジタルプロセッサを含むチップのチップセットとして実装される。プロセッサ452は、例えば、ユーザインタフェースの制御、モバイルコンピューティングデバイス450によって実行されるアプリケーション、およびモバイルコンピューティングデバイス450による無線通信など、モバイルコンピューティングデバイス450の他のコンポーネントの調整のために提供される。
【0055】
プロセッサ452は、ディスプレイ454に結合された制御インタフェース458およびディスプレイインタフェース456を介してユーザと通信することができる。ディスプレイ454は、例えば、TFT(薄膜トランジスタ液晶ディスプレイ)ディスプレイまたはOLED(有機発光ダイオード)ディスプレイ、または他の適切なディスプレイ技術とすることができる。ディスプレイインタフェース456は、ディスプレイ454を駆動してグラフィカルな情報および他の情報をユーザに提示するための適切な回路を備えることができる。制御インタフェース458は、ユーザからコマンドを受信し、プロセッサ452に送信するためにコマンドを変換することができる。さらに、外部インタフェース462は、モバイルコンピューティングデバイス450の他のデバイスとの近距離通信を有効にするように、プロセッサ452との通信を提供することができる。外部インタフェース462は、例えば、ある実施態様では有線通信を提供することができ、または他の実施態様では無線通信を提供することができ、複数のインタフェースを使用することもできる。
【0056】
メモリ464は、モバイルコンピューティングデバイス450内の情報を記憶する。メモリ464は、1つもしくはそれ以上のコンピュータ可読媒体、1つもしくはそれ以上の揮発性メモリユニット、または1つもしくはそれ以上の不揮発性メモリユニットのうちの1つまたはそれ以上として実装される。拡張メモリ474も提供され、拡張インタフェース472を介してモバイルコンピューティングデバイス450に接続され、この拡張インタフェース472としては、例えば、SIMM(Single In Line Memory Module)カードインタフェースが挙げられる。拡張メモリ474は、モバイルコンピューティングデバイス450に追加の記憶領域を提供することができ、またはモバイルコンピューティングデバイス450用のアプリケーションまたは他の情報を記憶することもできる。具体的には、拡張メモリ474は、上述したプロセスを実行または補足する命令を含むことができ、安全な情報も含むことができる。したがって、例えば、拡張メモリ474は、モバイルコンピューティングデバイス450のセキュリティモジュールとして提供され、モバイルコンピューティングデバイス450の安全な使用を可能にする命令を使用してプログラムされる。加えて、SIMMカードに同定情報をハッキングできないように配置するなどの追加情報とともに、SIMMカードを介して安全なアプリケーションを提供することができる。
【0057】
メモリとしては、例えば、後述するように、フラッシュメモリおよび/またはNVRAMメモリ(不揮発性ランダムアクセスメモリ)を挙げることができる。いくつかの実施態様では、コンピュータプログラム製品は、情報担体に有形に具体化される。コンピュータプログラム製品は、実行されたときに、上述したような1つまたはそれ以上の方法を実行する命令を含む。コンピュータプログラム製品は、メモリ464、拡張メモリ474、またはプロセッサ452上のメモリなどのコンピュータ可読媒体または機械可読媒体とすることができる。いくつかの実施態様では、コンピュータプログラム製品は、例えば、トランシーバ468または外部インタフェース462を介して、伝搬信号で受信される。
【0058】
モバイルコンピューティングデバイス450は、必要であればデジタル信号処理回路を含むことができる通信インタフェース466を介して無線通信することができる。とりわけ、通信インタフェース466は、GSM音声通話(汎ヨーロッパデジタル移動通信システム)、SMS(ショートメッセージサービス)、EMS(拡張メッセージサービス)、またはMMSメッセージング(マルチメディアメッセージングサービス)、CDMA(符号分割多重アクセス)、TDMA(時分割多元接続)、PDC(パーソナルデジタルセルラー)、WCDMA(広帯域符号分割多元接続)、CDMA2000、またはGPRS(汎用パケット無線サービス)などの様々なモードまたはプロトコルでの通信を提供することができる。このような通信は、例えば、無線周波数を使用するトランシーバ468を介して行われる。さらに、ブルートゥース、WiFi、または他のそのようなトランシーバ(図示せず)を使用するなどして、短距離通信が行われる。加えて、GPS(全地球測位システム)レシーバモジュール470は、追加のナビゲーションおよび位置関連の無線データをモバイルコンピューティングデバイス450に提供することができ、これは、モバイルコンピューティングデバイス450上で実行されるアプリケーションによって適切に使用される。
【0059】
モバイルコンピューティングデバイス450は、音声コーデック460を使用して音声通信することもでき、音声コーデック460は、ユーザから音声情報を受信し、この音声情報を使用可能なデジタル情報に変換することができる。音声コーデック460は、同様に、例えば、モバイルコンピューティングデバイス450のハンドセット内のスピーカを介するなどして、ユーザに対して可聴音を生成することができる。このような音には、音声通話からの音を含むことができ、録音された音(例えば、音声メッセージ、音楽ファイルなど)を含むことができ、モバイルコンピューティングデバイス450上で動作するアプリケーションによって生成された音を含むこともできる。
【0060】
モバイルコンピューティングデバイス450は、図示されているように複数の異なる形態で実現される。例えば、モバイルコンピューティングデバイス450は、携帯電話480として実現することができる。モバイルコンピューティングデバイス450は、スマートフォン482、パーソエルデジタルアシスタント、または他の同様のモバイルデバイスの一部として実現することもできる。
【0061】
本明細書に記載のシステムおよび技術の様々な実施態様は、デジタル電子回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現される。これらの様々な実施態様は、特殊目的または汎用目的であることができ、記憶システム、少なくとも1つの入力デバイスおよび少なくとも1つの出力デバイスからデータおよび命令を受信し、記憶システム、少なくとも1つの入力デバイスおよび少なくとも1つの出力デバイスへのデータおよび命令を送信するように結合された少なくとも1つのプログラマブルプロセッサを備えたプログラマブルシステム上で実行可能および/または解釈可能な1つまたはそれ以上のコンピュータプログラムにおける実装を含むことができる。
【0062】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られる)は、プログラマブルプロセッサ用の機械命令を含み、高レベルの手続き型および/もしくはオブジェクト指向プログラミング言語、ならびに/またはアセンブリ/機械言語で実装することができる。本明細書で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含め、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、装置および/またはデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。
【0063】
ユーザとの対話を提供するために、本明細書に記載のシステムおよび技術は、ユーザに情報を表示するためのディスプレイデバイス(例えば、CRT(ブラウン管)またはLCD(液晶ディスプレイ)モニタ)と、ユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを有するコンピュータに実装することができる。他の種類のデバイスを使用して同様にユーザとの対話を提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)とすることができ、ユーザからの入力は、音響入力、音声入力、または触覚入力を含むいかなる形式でも受信することができる。
【0064】
本明細書に記載のシステムおよび技術は、バックエンドコンポーネント(例えば、データサーバとして)を含む、もしくはミドルウェアコンポーネント(例えば、アプリケーションサーバ)を含む、もしくはフロントエンドコンポーネント(例えば、ユーザが本明細書に記載のシステムおよび技術の一実施態様と対話することができるグラフィカルユーザインタフェースもしくはウェブブラウザを有するクライアントコンピュータ)を含むコンピューティングシステム、またはそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、もしくはフロントエンドコンポーネントの任意の組み合わせに実装することができる。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体(例えば、通信ネットワーク)によって相互接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、およびインターネットが挙げられる。
【0065】
コンピューティングシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは、一般的に互いに離れており、典型的には通信ネットワークを介して対話する。クライアントとサーバとの関係は、それぞれのコンピュータ上で実行されるコンピュータプログラムによって生じ、互いに対してクライアント-サーバ関係を有する。
【0066】
一例では、この技術は、プレートベースまたは液滴ベースの技術のいずれかを使用して生成された腎臓、滑膜、および肺から細胞を得た3種の混合組織実験によるデータにて、免疫細胞と非免疫細胞を分離することに成功した。この技術はさらに、血液由来の例示的なデータセットにおいて、非免疫ラベルを正確に拒絶した。免疫細胞および非免疫細胞は、PTPRCおよびCD53のような安定した免疫細胞マーカおよび非免疫細胞マーカの遺伝子発現において有意な変化(p値<0.05、Wilcoxonの順位和検定)を示し、血液と同様に末梢組織における免疫細胞および非免疫細胞の分類が広く正確であることを示した。
【0067】
別の例では、CITE-seq(Cellular Indexing of Transcriptomes and Epitopes by Sequencing)を使用して細胞型特異的タンパク質発現を観察したヒト血液由来のデータが作成された。これらのデータにおいて、この技術は予想されるタンパク質発現と一致する以下の細胞型を同定した:CD19+B細胞、CD19+CD25+メモリーB細胞、CD19+CD25-CCR7+ナイーブB細胞、CD14++CD16-古典的単球、CD14+CD16++非古典的単球、CD3-T細胞、CD45RA+CD4+ナイーブT細胞、CD45RO+CD4+メモリーT細胞、CD4+TIGIT+FOXP3+制御性T細胞、CD45RO+CD8+エフェクターメモリーT細胞、CD56+CD3-NK細胞、CLEC10A+樹状細胞(DC)、MZB1+形質細胞およびCD56+CD3-NK細胞。とりわけ、この技術ではこれらの血液由来のデータからマクロファージを検出せず、これは単球からの分化は血液ではなく組織内で生じるという考えと一致している。
【0068】
別の例では、医薬品開発加速パートナーシップ(AMP)による最近の研究では、関節滑膜組織からヒト細胞(n=26のヒト試料からn=8,920の細胞)を単離し、scRNA-seqに加えてフローサイトメトリーを行った15,20。この研究で観察されたタンパク質は、以下の確立された4つの異なる細胞型の系統特異的マーカとである:CD45+CD3+T細胞、CD45+CD3-CD19+B細胞、CD45+CD14+単球、およびCD45-CD31-PDPN+線維芽細胞15;これにより、本発明者らは、先に確立されたフローサイトメトリーラベルを本アプローチによって作成されたフローサイトメトリーラベルと比較することができる15。各細胞の転写測定のみを使用した本技術は、フローサイトメトリーラベルの98.2%を同定した(95%C.I.[98.0%;98.5%]、p値<0.001、両側二項検定、n=8,334の細胞)。さらに、この技術は細胞あたりわずか200の一意の遺伝子が検出された場合でも正確な分類を行い(平均回収率95.2%、95%C.I.[76.2%;99.9%]、p値<0.001、両側二項検定、n=21の細胞)、この技術が低シーケンス深度での細胞の分類においてロバストであることを実証した。次に、本発明者らは、フローサイトメトリーパネルを越えて、この技術のアノテーションの最も深いレベルにまでわたる細胞型の分類に注目し、新たな細胞型のアノテーションを得た。これらのアノテーションの検証を手助けするために、ここで確認される画像は、制御性T細胞におけるFOXP3およびB細胞におけるCD19のように、確立された生物学的性質と一致しており、本技術がこれらの細胞型の正確な分類を行えたことを示唆していることに注目する。しかしながら、CD19転写物は、CD45+CD3-CD19+B細胞のわずか46.9%(n=734/1,564)で検出され、これは、scRNA-seqデータにおいて細胞表現型を同定するために細胞型分類器(すなわち、本技術)を使用することの重要性を示していることにも本発明者らは注目している。
【0069】
この技術が単一細胞データで正確な分類を行ったという事実は驚きである。単一細胞データは、細胞アンサンブルを使用して行われたシーケンシング実験とは技術的に異なると考えられている。例えば、単一細胞データから得られる遺伝子転写物の基本的な分布はポアソン(または負の二項)に近く、脱落(検出されなかった転写物、または細胞に一時的に存在しない転写物)もこのデータの特徴である。ニューラルネットワークの使用は、分類器の非線形性と、細胞型を区別する遺伝子発現プロファイルの微妙な変化に基づいて分類を行うニューラルネットワークの機能とにより、この制限を克服するのに役立ったという仮説が立てられる。この技術により、ウェルベースまたは液滴ベースの技術のいずれかでシーケンシングされた異なる試料、組織、種および疾患由来のデータを確実に分類することが可能になった。既知のマクロファージの生物学的性質と一致する細胞表現型の変化が観察されたことから、そのため、この技術を使用して、データセットの生物学的背景に起因する細胞の表現型の変化を研究することが可能である。組織/疾患/種を超えたこのような一貫した同定は、コンテキスト依存性であるため他の方法(例えば、フローサイトメトリー(FACS)解析におけるようないくつかの表面タンパク質測定など)を使用した場合には不可能である。したがって、これは、これを行うことが知られている唯一の測定に基づいた、(この文書の他の箇所で説明されているように)不偏の分類である。
【0070】
別の例では、新規の細胞型集団は単一細胞データに基づいて分類される。上述したようにブートストラップされたデータと比較するために新しいデータが導入され、このことにより、この技術は訓練データセットから学習し、制御性T細胞、γδ型T細胞、および形質細胞様樹状細胞の分類を改良することができた。とりわけ、pDCが追加のデータセットで分類され、この技術が異なる単一細胞データセットの細胞集団を学習することを実証している。
【0071】
別の例では、本技術を使用して、フローソートされたデータセットが一般に不足しているモデル生物の分類を行った。本技術では、種間で同じ遺伝子記号を使用することによって、追加の種特有の訓練をすることなくカニクイザルおよびミニブタのPBMCを分類した。
【0072】
一例では、この技術は、4つの異なるデータセットを使用して疾患生物学の研究に用いられた。この解析により、細胞型に共通のマーカおよび異なるマーカが明らかになり、疾患組織中に多く存在する細胞型を同定した。本技術は2つのデータセット中に多く存在する集団を同定した。
【0073】
一例では、この技術は大規模データセットに使用された。この技術は大規模な(すなわち30万超の細胞)scRNA-seqデータを分類した。
【0074】
そのような一例を
図5に示す。この技術は、(a)単一細胞の同一性を、既知の免疫表現型の詳細な階層に正確かつ一貫してマッピングし、(b)新規細胞集団を特定し、(c)単一細胞データから疾患生物学を明らかにする。
図5参照のこと。全体として、このアプローチはscRNA-seqデータを、疾患、技術、種および組織間の免疫細胞の研究に使用可能な客観的な読み出しに変換する。
【0075】
単一細胞データの細胞表現型をアノテーションするために、本明細書に記載の技術は、機械学習を使用して、免疫表現型および/または非免疫表現型、例えば線維芽細胞、内皮細胞、上皮細胞などの詳細な階層に従って、標識されていないscRNA-seqデータの各細胞を分類することができる。この技術の他の応用は他の表現型に使用することができると理解されるであろう。このアプローチは、フローソートされた細胞から得られた純粋な細胞型のバルク遺伝子発現プロファイルの参照データセットで訓練されたニューラルネットワーク分類器に基づいている。この訓練には、差次的遺伝子発現解析、および/または以前に確立された遺伝子シグネチャの他のソースを使用して、細胞型の転写遺伝子シグネチャを特定することを含む。これらのソースの一部は、各細胞集団に対して試料をわずか1つまたは2つしか含まず、この数は、典型的には数百または数千の試料を必要とする機械学習法にとっては少なすぎるかもしれない。有用な訓練データを生成するために、本明細書に記載の技術は、ニューラルネットワーク分類器などの機械学習分類器を訓練するために、稀な試料からデータセットをブートストラップする。
【0076】
一例示的実施体系では、この技術は、157の細胞型にアノテーションされた713のマイクロアレイ試料を持つ、純粋な細胞型の参照データセットを使用した。このデータセットでは、リボソームタンパク質およびミトコンドリア遺伝子は除かれ、骨髄由来の試料が除かれ(113の細胞型に対応するn=544の試料が残った)、以前に細胞型特異的発現を示すと広く特定された遺伝子のサブセット(n=10,808)が使用された。このサブセットの中で、本技術は相対カウントの正規化を使用して、データセット中の異なる細胞型としてアノテーションされた試料間で有意に(p値<0.05)差次的発現した遺伝子を特定した。この結果、メモリーB細胞とナイーブB細胞、形質細胞とB細胞、CD4メモリーT細胞とナイーブCD4 T細胞、制御性T細胞とCD4メモリーT細胞、メモリーCD8 T細胞とナイーブCD8 T細胞、およびエフェクターメモリーCD8 T細胞とセントラルメモリーCD8 T細胞間の比較では、差次的発現した遺伝子は得られなかった。これらの場合、この技術は、以前に同定された遺伝子シグネチャを使用した。
【0077】
細胞型の予測モデルを作成するために、まず、
図5に示す階層の各レベルに試料をプールすることによって、データセット内の試料から訓練データセットを確立し、これを各グループ内で置換を伴うランダムな再サンプリングによってブートストラップし(例えば、免疫細胞についてはn=1,000のブートストラップ、リンパ球についてはn=1,000のブートストラップなど)、再サンプリングした特徴の平均および標準偏差によって平均および標準偏差が設定されたランダムな正規分布からサンプリングした。この技術では、自動的に最適化されたハイパーパラメータでニューラルネットワーク(n=100)を訓練した。
【0078】
次に、この技術により、k近傍法(KNN)グラフを構築した。各ニューラルネットワークで分類した後、各細胞のラベルは、それ自身と最近傍の最も高頻度のラベルに割り当てられた。各細胞の一意の識別子(バーコードなど)は、ニューラルネットワークのアンサンブル(n=100)の平均から得られた最大確率に対応する細胞型ラベルに割り当てられた。その後、確率は分類器のアンサンブルで平均され、細胞型ラベルはアンサンブルの最大確率に対応する。本技術は予測値の誤差(標準偏差)のレポートを生成し、個々の細胞バーコードは、KNNネットワーク内の4つの最近傍の正規化シャノンエントロピーが大きい(平均より2標準偏差大きい)場合、「未分類」とラベル付けされる。このプロセスは階層のどのレベルでも(例えば、未分類T細胞のサブタイプ)行うことができる。
【0079】
KNNネットワークにおいてLouvain法のクラスタに有意に(p<0.01、超幾何検定)多数存在する「未分類」とラベル付けされた細胞バーコードは、zスコア変換によって決定された上位2つの発現遺伝子に対応するラベルで修正される。ラベルは、最後にはっきりと分類されたノード(例えば、T細胞など)を引き継ぐことができる。
【0080】
単一細胞の分類のために、本技術の解析はフィルタなしのカウントから開始した。まず、検出された遺伝子が200個未満の細胞バーコードをすべて除いた。次に、ミトコンドリア遺伝子発現のパーセンテージが高い(平均+2標準偏差より大きい)すべての細胞バーコードを除いた。次に、どの細胞バーコードでも検出されなかったすべての遺伝子、ならびにすべてのミトコンドリア遺伝子およびリボソーム遺伝子をすべて除いた。ライブラリサイズは平均ライブラリサイズに正規化した。
【0081】
細胞型を分類するために、本技術は参照データセット中の遺伝子シグネチャとscRNA-seqマトリックス中の遺伝子の交点に対応する発現マトリックスのサブセットを確立した。この工程の後、各細胞バーコードは平均ライブラリサイズに正規化され、次に各遺伝子は任意の細胞バーコードの最大遺伝子発現値で割ることでスケーリングされた。標準偏差がゼロの遺伝子は除いた。次にKソフト(K-soft)インピュテーションを行い、再度スケーリングを行った。
【0082】
この技術は、単一細胞データ中の細胞型集団を系統的に同定することによって、汎用のコンテキスト特異的な特徴ベクトルを特定した。確立された細胞遺伝子発現ベクトルを必要とする、GSVA/GSEAなどの遺伝子発現に基づくエンリッチメントスコア/シグネチャ、およびCIBERSORTのような細胞型デコンボリューションアルゴリズムのようないくつかの技術へのこれらの特徴ベクトルの利用を本発明者らは期待している。
【0083】
各細胞の各遺伝子の値をインピュテーションするために、各細胞で検出された遺伝子の総数を細胞×細胞の行列W
jjの対角線に設定した。次に、隣接行列A
jjおよびA
jjのk乗から、KNNネットワークにおいて直接かつ高いk次の接続を有する細胞を確立すると、ネットワークベースのインピュテーション演算子D
jjとなり、これは、各細胞で検出された遺伝子の総数で重み付けされ、各行の合計が2になるように正規化された:
【数1】
【0084】
インピュテーションされた発現行列E’
ijは,観測された発現行列Eijで演算することによって直接計算される。
E’
ij=EijDjj
【国際調査報告】