(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-11-07
(54)【発明の名称】シングルセルゲノミクスデータセットからの細胞のサブサンプリング方法及びシステム
(51)【国際特許分類】
G16B 40/30 20190101AFI20231030BHJP
C12Q 1/6869 20180101ALI20231030BHJP
G16B 50/50 20190101ALI20231030BHJP
【FI】
G16B40/30
C12Q1/6869 Z
G16B50/50
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2023513536
(86)(22)【出願日】2021-09-15
(85)【翻訳文提出日】2023-03-15
(86)【国際出願番号】 EP2021075306
(87)【国際公開番号】W WO2022058339
(87)【国際公開日】2022-03-24
(32)【優先日】2020-09-15
(33)【優先権主張国・地域又は機関】SE
(81)【指定国・地域】
(71)【出願人】
【識別番号】523065007
【氏名又は名称】ナイゲン アナリティクス アーベー
(74)【代理人】
【識別番号】110002516
【氏名又は名称】弁理士法人白坂
(72)【発明者】
【氏名】ダポーラ,パラシャー
(72)【発明者】
【氏名】カールソン,ゴラン
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA17
4B063QA20
4B063QQ02
4B063QQ42
4B063QQ52
4B063QS40
(57)【要約】
本開示は、シングルセルゲノミクスデータセットにおける複数の細胞から細胞のサブサンプルを抽出するコンピュータ実装方法に関し、当該方法は、少なくとも2次元で表されるシングルセルゲノミクスデータセットを得るステップであって、各細胞についての情報は、第1の次元で表され、遺伝的特徴についての情報は、第2の次元で表されるステップと、シングルセルゲノミクスデータセットから細胞-細胞近傍グラフを生成するステップであって、細胞-細胞近傍グラフは、細胞の遺伝的特徴の類似性についての情報を提供し、各細胞は、細胞-細胞近傍グラフ中の頂点として表されるステップと、細胞-細胞近傍グラフ中の細胞をシード細胞及び非シード細胞に分割するステップと、細胞-細胞近傍グラフ中、シードセルに少なくとも1つの第1の賞金を割り当て、非シード細胞に少なくとも1つの第2の賞金を割り当てるステップと、賞金収集シュタイナ木アルゴリズムを使用して、細胞-細胞近傍グラフを横断し、細胞のサブサンプルを得るステップと、を備える。本開示はさらに、シングルセルゲノミクスデータセットにおける複数の細胞から細胞のサブサンプルを抽出するためのコンピュータシステムに関する。
【特許請求の範囲】
【請求項1】
シングルセルゲノミクスデータセットにおける複数の細胞から細胞のサブサンプルを抽出するコンピュータ実装方法であって、
-少なくとも2次元で表されたシングルセルゲノミクスデータセットを得るステップであって、各細胞についての情報が、第1の次元で表され、遺伝的特徴についての情報が、第2の次元で表されるステップと、
-前記シングルセルゲノミクスデータセットから細胞-細胞近傍グラフを生成するステップであって、前記細胞-細胞近傍グラフは、前記細胞の前記遺伝的特徴の類似性についての情報を提供し、前記細胞は、前記細胞-細胞近傍グラフ中、頂点として表されるステップと、
-前記細胞-細胞近傍グラフ中の細胞をシード細胞及び非シード細胞に分割するステップと、
-前記細胞-細胞近傍グラフ中、前記シード細胞に少なくとも1つの第1の賞金を割り当て、前記非シード細胞に少なくとも1つの第2の賞金を割り当てるステップと、
-賞金収集シュタイナ木アルゴリズムを使用して、前記細胞-細胞近傍グラフを横断し、細胞のサブサンプルを得るステップと、を備える方法。
【請求項2】
前記シングルセルゲノミクスデータセットから前記細胞-細胞近傍グラフを生成するステップは、k最近傍アルゴリズムを実施することを含み、前記k最近傍法アルゴリズムは、各細胞のk最近傍を特定することであって、kは、正の整数であることと、細胞-細胞近傍グラフを作成することであって、前記細胞は、頂点として表され、前記頂点は、前記頂点のうちの少なくとも1つが他の頂点のk最近傍である場合、エッジを介して接続されることと、を含む請求項1に記載の方法。
【請求項3】
前記細胞-細胞近傍グラフ中の細胞をシード細胞及び非シード細胞に分割するステップは、
-前記細胞-細胞近傍グラフ中の前記細胞をクラスタリングして、略均一サイズの細胞クラスタを得るステップと、
-前記各細胞クラスタから少なくとも1つの細胞を選び、前記選択した細胞をシード細胞と分類することにより、前記細胞をシード細胞及び非シード細胞に分割するステップと、を含む請求項1又は2のいずれか一項に記載の方法。
【請求項4】
前記細胞-細胞近傍グラフ中の前記細胞をクラスタリングするステップは、各クラスタ内の細胞の数を、最小数及び最大数の細胞に限定することを含む請求項3に記載の方法。
【請求項5】
前記細胞-細胞近傍グラフ中の前記細胞をシード細胞及び非シード細胞に分割するステップは、前記グラフ中の所与のノード周辺の接続密度を表す第1のメトリックを計算することを含む請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記細胞-細胞近傍グラフ中の前記細胞をシード細胞及び非シード細胞に分割するステップは、多くのノード間又は僅かなノード間で接続が共有される程度を示す近傍連結性を表す第2のメトリックを計算することを含む請求項1~5のいずれか一項に記載の方法。
【請求項7】
前記細胞-細胞近傍グラフ中の細胞をシード細胞及び非シード細胞に分割するステップは、各細胞クラスタから少なくとも1つの細胞を、ランダムに、又は前記細胞が前記細胞クラスタ内でどの程度中央にあるかに基づき、選択することを含む請求項3~6のいずれか一項に記載の方法。
【請求項8】
前記細胞-細胞近傍グラフ中の前記細胞をクラスタリングするステップは、前記細胞-細胞近傍グラフをデンドログラム構造に変換し、各細胞は、リーフノードとして表され、前記リーフは、前記デンドログラム構造内のブランチポイントノードを通じて互いに接続され、前記細胞-細胞近傍グラフ内の前記細胞をクラスタリングするステップは、前記デンドログラム構造の前記細胞及びルートノードとの間にいくつのブランチポイントノードが存在するかに基づき各細胞をランキングし、前記ランキングに基づき、クラスタリングするステップを含む請求項1~7のいずれか一項に記載の方法。
【請求項9】
前記細胞-細胞近傍グラフ中の前記細胞をクラスタリングするステップは、前記細胞-細胞近傍グラフをデンドログラム構造に変換し、各細胞は、リーフノードとして表され、前記リーフは、前記デンドログラム構造内のブランチポイントノードを通じて互いに接続され、前記細胞-細胞近傍グラフ中の前記細胞をクラスタリングするステップは、前記リーフノード及びブランチポイントノードを細胞群に区画するステップを含み、前記群は、上限及び下限を有する請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記上限は、300以下であり、好ましくは200以下であり、さらにより好ましくは100以下である請求項9に記載の方法。
【請求項11】
前記細胞-細胞近傍グラフ中の前記細胞をクラスタリングするステップは、第1の区画決めを実施し、前記第1の区画決めにおける各区画について、前記第1の区画決めにおける各区画による細胞の相互接続の強度の測定に基づき、サブ区画の数を判定するステップを含む請求項1~10のいずれか一項に記載の方法。
【請求項12】
前記第1の区画決めにおける各区画内でサブ区画決めを実施するステップをさらに備える請求項11に記載の方法。
【請求項13】
前記サブ区画決めを実施するステップは、前記第1の区画決めにおける各区画内の前記細胞を、前記細胞間の階層関係を示すデンドログラム構造に変換するステップを含む請求項12に記載の方法。
【請求項14】
単一の第1の賞金は、単一の第2の賞金より高く、好ましくは、前記第2の賞金は0であるか、もしくは前記少なくとも1つの第1の賞金及び前記少なくとも1つの第2の賞金が、前記個々のシード細胞及び非シード細胞に対して個々に構成可能な賞金である請求項1~13のいずれか一項に記載の方法。
【請求項15】
前記頂点間のエッジにペナルティを割り当てるステップをさらに備え、前記ペナルティは、前記頂点の細胞間の非類似性の程度を表す請求項1~14のいずれか一項に記載の方法。
【請求項16】
賞金収集シュタイナ木アルゴリズムを使用して、前記細胞-細胞近傍グラフを横断するステップは、可能な限り多くのシード細胞を含み、可能な限り少ない非シード細胞を含むようにするステップを含む請求項1~15のいずれか一項に記載の方法。
【請求項17】
前記少なくとも2次元で表される前記シングルセルゲノミクスデータセットを得るために、シングルセルゲノミクスシークエンシングを実施するステップを備える請求項1~16のいずれか一項に記載の方法。
【請求項18】
シングルセル分離を実施するステップを備える請求項1~17のいずれか一項に記載の方法。
【請求項19】
少なくとも2次元で表される前記シングルセルゲノミクスデータセットをコンピュータシステムのデジタル媒体にロードするステップを備える請求項1~18のいずれか一項に記載の方法。
【請求項20】
コンピュータプログラムであって、演算装置又は演算システムによる実行時、前記演算装置又は前記演算システムに請求項1~19のいずれか一項に記載のシングルセルゲノミクスデータセットにおける複数の細胞から細胞のサブサンプルを抽出する方法を実施させるための指示を有するコンピュータプログラム。
【請求項21】
コンピュータシステムであって、
メモリと、
処理部とを備え、前記処理部は、
-少なくとも2次元で表されたシングルセルゲノミクスデータセットを前記メモリ内にロードするステップであって、各細胞についての情報は、第1の次元で表され、遺伝的特徴についての情報は、第2の次元で表されるステップと、
-前記シングルセルゲノミクスデータセットから細胞-細胞近傍グラフを生成するステップであって、前記細胞-細胞近傍グラフは、前記細胞の遺伝的特徴の類似性についての情報を提供し、前記細胞は、前記細胞-細胞近傍グラフ中の頂点として表されるステップと、
-前記細胞-細胞近傍グラフ中の前記細胞をシード細胞及び非シード細胞に分割するステップと、
-前記細胞-細胞近傍グラフ中、前記シード細胞に少なくとも1つの第1の賞金を割り当て、前記非シード細胞に少なくとも1つの第2の賞金を割り当てるステップと、
-賞金収集シュタイナ木アルゴリズムを使用して、前記細胞-細胞近傍グラフを横断し、細胞のサブサンプルを得るステップと、
を実施するように構成されるコンピュータシステム。
【請求項22】
ディスプレイをさらに備え、前記処理部は、前記ディスプレイ上に、前記細胞のサブサンプルのグラフィック表現を表示するように構成される請求項21に記載のコンピュータシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、シングルセルゲノミクスデータセットにおける複数の細胞から細胞のサブサンプルを抽出するコンピュータ実装方法及びシステムに関する。本開示の方法は、高度なメモリ効率で大規模なシングルセルゲノミクスデータセットから細胞をサブサンプリングする段階的プロセスの概要を示す。
【背景技術】
【0002】
シングルセルDNAゲノムシークエンシングには、単一の細胞を分離することと、全体のゲノム又は関心対象領域を増幅することと、シークエンシングライブラリを構築することと、その後、次世代DNAシークエンシングを適用することとが含まれる。哺乳系類において、シングルセルDNAシークエンシングは、正常生理学及び疾病の研究に幅広く適用されてきた。
【0003】
シングルセルゲノミクスアッセイは、ゲノム中の塩基変異の存在を判定し、各転写遺伝子に対するRNA分子の数を推定し、クロマチン中のDNAのオープン領域を特定し、クロマチン上のエピジェネティックマークを特定すること等を対象にし得る。これを達成するには多数の方法及びプロトコルが存在するが、それらはすべて、各配列がその本来の細胞に起因し得るように、多数の塩基配列の配列化フラグメントを恒常的に生成する。
【0004】
カウントマトリクスを得るために、シングルセルシークエンシングからこのような配列を処理及び分析すべく、多数のコンピュータ実装方法が開発されてきた。カウントマトリクスは、典型的に、各行が各細胞についての情報を含み、各列が各遺伝的特徴に関する情報を含むか、又はその逆である2次元の表である。このような2次元の表の一例が
図1に示されている。定量化された特徴は、例えば、特定された各アクセス可能領域における切断部位数(シングルセルATACシークエンシングの場合)、各遺伝子についての相補的DNA(cDNA)フラグメント数(シングルセルRNAシークエンシングの場合)等であり得る。
【0005】
シングルセルデータセットには典型的なことであるが、これらは、細胞クラスタが同一の細胞種別であり、互いに類似しているという意味において、非常に冗長性が高い。細胞種別特定及び複合型分析等、一般的な分析の目的に対して、このシングルセルデータセットの冗長性は、不要なデータ処理時間を引き起こし、多くの場合、大規模演算インフラを必要とする。この課題は、大きなシングルセルデータセットにおいて、又はユーザが多数のシングルセルデータセットを一塊として分析しようとする場合に、さらに顕著となる。
【0006】
シングルセルゲノミクスは、これまで分析不能であった大きさのデータ生成に向かって移行しているため、シングルセルデータセットを削減することが必要となる。これを果たすために頻繁に適用される率直なソリューションとして、大きな本来のシングルセルデータセットから細胞をランダムにサンプリングすることがある。しかしながら、このソリューションは、典型的に、シングルセルデータセットのマニホールドを最適なやり方で表すことができないため、結果として、最適以下のサンプリング結果を生じる。データサンプリングのための他の既存の方法では、データは最適なやり方で選択されないか、及び/又は、処理においてコンピュータのメモリを効率的なやり方で使用していない。
【0007】
したがって、演算高率が高く、情報ロスが最低限である大規模シングルセルゲノミクスデータセットの規模を削減するための改良された効率的なソリューションのニーズがある。
【発明の概要】
【発明が解決しようとする課題】
【0008】
本開示の1つの目的は、細胞のサブサンプルを選択することにより、シングルセルゲノミクスデータセットをより小さなデータセットにダウンサンプリングすることのできる技術実装を提供することである。好ましくは、このソリューションは、ラップトップコンピュータ等、容易に入手可能な演算装置に完全に組み込み可能である。本開示の1つの目的は、本来のシングルセルゲノミクスデータセットの本来のマニホールドを保存するデータサブサンプリングを実施することである。
【課題を解決するための手段】
【0009】
当該方法は、アッセイされた各単一細胞の定量化された特徴を含む2次元マトリクスとして表されるシングルセルゲノミクスデータセットに適用され得る。
図1の例に見て取れるとおり、細胞(C1~Cn)の情報、例えば、バーコード等の識別が第1の次元で与えられる一方、各細胞の遺伝的特徴(F1~Fn)についての情報が第2の次元で表される。当業者に認識されるとおり、遺伝的特徴はそれ自体、各遺伝的特徴が自身の次元として見なされるという意味において、多次元と見なされ得る。しかしながら、本開示の文脈において「第1の」及び「第2の」次元と使用することで、シングルセルゲノミクスデータセットを表すマトリクスの第1及び第2の次元をいう。
【0010】
本開示の第1の態様は、シングルセルゲノミクスデータセット中の複数の細胞から細胞のサブサンプルを抽出するコンピュータ実装方法に関連する。当該方法は、
-少なくとも2次元で表されたシングルセルゲノミクスデータセットを得るステップであって、各細胞についての情報が、第1の次元で表され、遺伝的特徴についての情報が、第2の次元で表されるステップと、
-シングルセルゲノミクスデータセットから細胞-細胞近傍グラフを生成するステップであって、細胞-細胞近傍グラフは、細胞の前記遺伝的特徴の類似性についての情報を提供し、細胞は、細胞-細胞近傍グラフ中、頂点として表されるステップと、
-細胞-細胞近傍グラフ中の細胞をシード細胞及び非シード細胞に分割するステップと、
-細胞-細胞近傍グラフ中、シード細胞に少なくとも1つの第1の賞金を割り当て、非シード細胞に少なくとも1つの第2の賞金を割り当てるステップと、
-賞金収集シュタイナ木アルゴリズムを使用して、細胞-細胞近傍グラフを横断し、細胞のサブサンプルを得るステップと、を備える。
【0011】
このシングルセルゲノミクスデータセットは、シングルセルゲノミクスシークエンシングプロセスによって得られてもよい。
【0012】
上述のステップを実装することにはいくつかの効果がある。これにより、演算リソース及びメモリリソースの限定されたユーザにシングルセルゲノミクスデータセットをすべて処理させた後、意味のある細胞のサブサンプルで作業をさせるか、又はその結果をさらなる用途に進めさせ得る。これにより、本来の多様性及びデータマニホールドを保存しつつ、大きなデータセットに対するメモリのニーズを劇的に低減することができる。得られた細胞のサブサンプルは、本来のシングルセルゲノミクスデータセットに存在するフルスペクトルの情報を獲得し得る。このソリューションは、既存のワークフローにおいて使用及び統合可能であるか、又はスダンドアローンモジュールとして使用可能である。「マニホールド」とは、シングルセルゲノミクスの分野の当業者に一般に理解される用語であり、高次元表面と見なすことができる。多数の天然プロセスにより、マニホールドとしても既知の高次元表面上にあるサンプルを生成する。シングルセルゲノミクスデータセットは、数百~数十万の特徴を有するが、細胞状態の根底にある生物学的プロセスは、より単純であり、より少ない次元で表され得る。この理由により、細胞がより少ない次元を使用して表すことのできる未知のマニホールド上にあるものとして概念化できるため、マニホールド学習は、シングルセルゲノミクスにおいて人気である。シングルセルデータのグラフ表現は、マニホールドを表し、このグラフ上でのサンプリングは、データマニホールド上でのサンプリングに似ている。
【0013】
これらの次元のうち第2の次元における遺伝的特徴についての情報は、注釈付き遺伝子、及び/又は、ゲノムアセンブリの座標形態における遺伝子位置、及び/又は、特定されたアクセス可能領域内の切断部位数、及び/又は、各遺伝子に対するcDNAフラグメント数等、定量化された遺伝的特徴を含み得る。シングルセルゲノミクスデータセットは、シングルセルRNAシークエンシングデータセット、又はシングルセルATACシークエンシングデータセットであり得るが、これに限定されるものでない。
【0014】
本方法のステップについて、以下の詳細な説明においてさらに説明及び例示する。シングルセルゲノミクスデータセットから細胞-細胞近傍グラフを生成するステップは、k最近傍アルゴリズムを使用して実装され得る。細胞-細胞近傍グラフ中の細胞をシード細胞及び非シード細胞に分割するステップは、クラスタリング及び選択によってなされ得るが、これらの方法に限定されるものでない。細胞-細胞近傍グラフ中の細胞をシード細胞及び非シード細胞に分割するステップの目的は、細胞-細胞近傍グラフ中のシード細胞及び非シード細胞に賞金を割り当てるステップと、賞金収集シュタイナ木アルゴリズム(PCST)を使用して、細胞-細胞近傍グラフを横断して、細胞のサブサンプルを得るステップとのためのデータを準備することである。
【0015】
他の態様において、本開示は、コンピュータシステムであって、
メモリと、
処理部とを備え、処理部は、
-少なくとも2次元で表されたシングルセルゲノミクスデータセットをメモリ内にロードするステップであって、各細胞についての情報は、第1の次元で表され、遺伝的特徴についての情報は、第2の次元で表されるステップと、
-シングルセルゲノミクスデータセットから細胞-細胞近傍グラフを生成するステップであって、細胞-細胞近傍グラフは、細胞の遺伝的特徴の類似性についての情報を提供し、細胞は、細胞-細胞近傍グラフ中、頂点として表されるステップと、
-細胞-細胞近傍グラフ中の細胞をシード細胞及び非シード細胞に分割するステップと、
-細胞-細胞近傍グラフ中、シード細胞に少なくとも1つの第1の賞金を割り当て、非シード細胞に少なくとも1つの第2の賞金を割り当てるステップと、
-賞金収集シュタイナ木アルゴリズムを使用して、細胞-細胞近傍グラフを横断し、細胞のサブサンプルを得るステップと、
を実施するように構成されるコンピュータシステムにさらに関する。
【0016】
本発明はさらに、コンピュータプログラムであって、演算装置又は演算システムによる実行時、演算装置又は演算システムにシングルセルゲノミクスデータセットにおける複数の細胞から細胞のサブサンプルを抽出する本開示の方法の何れかの実施形態を実施させるための指示を有するコンピュータプログラムに関する。この文脈におけるコンピュータプログラムは、広義に解釈されなければならず、例えば、PC、チップ上の単一基板コンピュータ又はシステム、又は携帯電話又はタブレット上で作動されるコンピュータプログラム、又はソフトウェアプラットフォームの一部として作動するように適合されたコンピュータプログラムを含まなければならない。
【図面の簡単な説明】
【0017】
本発明は、以下、添付の図面を参照して説明するが、これらは例示であり、シングルセルゲノミクスデータセットにおける複数の細胞から細胞のサブサンプルを抽出する本開示の方法及びシステムを限定するものでない。
【
図1】
図1は、マトリクス内において2次元で表されたシングルセルゲノミクスデータセットの例を示している。
【
図2】
図2は、シングルセルゲノミクスデータセットにおける複数の細胞から細胞のサブサンプルを抽出する本開示の方法の一実施形態に係るフローチャートを示している。
【
図3】
図3は、シングルセルゲノミクスデータセットにおける複数の細胞から細胞のサブサンプルを抽出する本開示のシステムの一実施形態に係る模式図を示している。
【
図4】
図4は、シングルセルゲノミクスにおける複数の細胞から細胞のサブサンプルを抽出する本開示の方法に係る、細胞-細胞近傍グラフの一例を示している。
【
図5】
図5は、細胞-細胞近傍グラフの一例を示しており、図中、細胞は、シード細胞及び非シード細胞に分割されている。
【
図6】
図6は、細胞-細胞近傍グラフの一例を示しており、図中、細胞のサブサンプルは、シングルセルゲノミクスデータセットにおける複数の細胞から抽出されている。
【
図7A】
図7Aは、細胞のクラスタを含むデンドログラムを可視化したものを示している。
【
図7B】
図7Bは、細胞のクラスタを含むデンドログラムを可視化したものを示している。
【
図9A】
図9A乃至
図9Cは、クラスタリングのさらなる一例と、賞金収集シュタイナ木アルゴリズム(PCST)を使用して細胞-細胞近傍グラフを横断した後の結果として得られる細胞のサブサンプルとを示している。
【
図9B】
図9A乃至
図9Cは、クラスタリングのさらなる一例と、賞金収集シュタイナ木アルゴリズム(PCST)を使用して細胞-細胞近傍グラフを横断した後の結果として得られる細胞のサブサンプルとを示している。
【
図9C】
図9A乃至
図9Cは、クラスタリングのさらなる一例と、賞金収集シュタイナ木アルゴリズム(PCST)を使用して細胞-細胞近傍グラフを横断した後の結果として得られる細胞のサブサンプルとを示している。
【
図10A】
図10A及び10Bは、データサイズ数のためのサブサンプリング方法のためのメモリ(RAM)の使用と、サブサンプリング方法を実行するための時間消費との例を示している。
【
図10B】
図10A及び10Bは、データサイズ数のためのサブサンプリング方法のためのメモリ(RAM)の使用と、サブサンプリング方法を実行するための時間消費との例を示している。
【
図11】
図11は、多数のサブサンプリングの例を可視化したものを示している。
【
図12】
図12は、本方法とランダムなサンプリングとの間における、サブサンプリングされた細胞の接続程度の比較を示している。
【
図13】
図13は、サブサンプリング後のクラスタのサイズを示している。
【
図14】
図14は、サブサンプリングされた細胞が本来の近傍(非ゼロ度が示されている)における他のサブサンプリングされた細胞となす接続程度に関して、本実装、ランダムサンプリング、及びその他のサンプリングツールの間の比較を示している。
【
図15】
図15は、サブサンプリングされた細胞が本来の近傍(非ゼロ度が示されている)における他のサブサンプリングされた細胞となす接続程度に関して、本実装、ランダムサンプリング、及び他のサンプリングツールの間の比較を示している。
【発明を実施するための形態】
【0018】
最近の単一細胞分離技術の進歩により、これらの遺伝物質を増幅する方法とともに、単一の細胞のクロマチン、RNA、及びDNA等、遺伝子を探ることを可能にしている。当分野は、シングルセルゲノミクスとして既知である。個々の細胞の平均発現プロファイルである遺伝子発現レベルが使用されるバルクシークエンシングとは対照的に、シングルセルシークエンシングでは、測定された各分子について、本来の細胞についての情報を保存する。細胞集団における不均一性により、単一の細胞を分析することで、細胞のバルク集団の研究時には見られなかったメカニズムを発見することができるようになる。シングルセルシークエンシングは、分子レベルで個々の細胞を特徴づけることができる。
【0019】
シングルセルゲノミクスデータは、遺伝子発現(scRNAシークエンシング、SMARTシークエンシング、sciRNAシークエンシング、Dropシークエンシング、InDrop)、クロマチンアクセス可能性(scATACシークエンシング、sciATACシークエンシング)、表面(CITEシークエンシング、DABシークエンシング)、又は/及び、細胞内プロテオーム(PEA)、DNAのメチル化領域(scBSシークエンシング、sci-MET)、DNA境界ヒストン(CutNTag、CutNRun)の改質、又はこれらのモダリティの任意の組み合わせをプロファイル及び定量化することを目的とするが、これに限定されるものでない広範に亘る技術からなり得る。これらの研究室プロトコルのほとんどは、関心対象の生物組織から個々の細胞を獲得することを含む。取得された細胞又はそれらの抽出された核が独自のバーコードでタグ付けされて、各分子(DNA/cDNAフラグメント)の起源を本来の細胞まで遡ることができるようにする。今日の多くの市販の道具は、細胞/核の獲得のためにマイクロ流体セットアップにおける油中水滴を使用する。バーコードの付された分子は、貯められ、典型的には合成プラットフォームによるイルミナシークエンシングのうちの1つに基づく次世代シークエンシング方法を使用してシークエンシングされる。フラグメントがシークエンシングされると、又はシークエンシングの中途において、DNAヌクレオチドの特定済み配列をデジタル媒体に保存する。このデジタル媒体は、最終的に、シークエンシングされたフラグメントの情報を記憶する。
【0020】
シングルセルゲノミクスデータセットが数百万の細胞と、膨大な数の特徴とを含み得るため、シングルセルゲノミクスデータセットのサイズは、本質的に大きい。例えば、シングルセルATACシークエンシングデータセットは、500,000個まで、又は1,000,000個の特徴を有し得る。シングルセルシークエンシング技術の効率及びコスト効果の向上により、新たなデータセットが、急速なペースで生成されている。これらが多くの洞察をもたらすため、これらのデータセットは、単に研究分野で生成されているのみならず、現在、医療診断及び薬学分野へますます組み込まれている。しかしながら、これらのデータセットに対する既存の分析プラットフォームは、データ生成のペースに遅れをとっている。
【0021】
シングルセルDNAシークエンシング、シングルセルRNAシークエンシング、シングルセルATACシークエンシングのような大規模シングルセルゲノミクスデータセットは、大きな演算インフラを必要とする。このようなインフラを必要とすることと、IT管理の付随コストとにより、これらのデータセットから実行可能な意味を得るためには、相当な量のコストが加算される。
【0022】
本開示の文脈において、「細胞」という用語は、物理的な細胞をいうものでなく、細胞のデジタル表現をいう。例えば、細胞は、シークエンシングされたバーコードに関連付けられ得る。細胞の特徴とは、その細胞の特定の機能、特性、又は性質をいうものであり得る。シングルセルゲノミクスシークエンシングにおいて、データ分析ステップには、有効な細胞バーコードの識別と、細胞が由来する生物のゲノムに対するシークエンシングされた読取のアラインメントとが含まれ得る。アラインメントされシークエンシングされた読取は、その後、分析方法によって処理されるが、その選択は、使用されるシングルセルゲノミクス方法の種別によって決まる。例えば、シングルセルRNAシークエンシングの場合、アラインメント直後のステップは、遺伝子定量化を実施することである。使用されるシングルセルゲノミクス方法に関わらず、これらの分析の初期段階の目的は、細胞及び得られた細胞の特徴がマトリクスの2つの軸を形成するマトリクス、又はマトリクス様データ構造を生成することである。細胞特徴マトリクスは、シングルセルRNAシークエンシングデータの場合、細胞-遺伝子又は細胞-転写マトリクスであり得る。シングルセルATACシークエンシングデータの場合、細胞-特徴マトリクスは、細胞-ピークマトリクスの形態を採り得る。
【0023】
本開示は、演算及びメモリの効率が高い方法で、シングルセルゲノミクスデータセット中の複数の細胞から細胞のサブサンプルを抽出する方法であって、細胞のサブサンプルが、冗長性を排除又は削減し、シングルセルゲノミクスデータセットを表す細胞のサブサンプルを提供する方法に関する。
【0024】
当該方法は、シングルセルゲノミクスデータセットをメモリに合う区画においてコンピュータメモリにロードする第1のステップを備え得る。これには、CSV(カンマ区切りファイル)及びMTX(マトリクスマーケット交換フォーマット)等のテキストフォーマットからのデータを、区画中のメモリ内に効率的にデータをロード可能なフォーマットに変換することが含まれ得る。ディスクベースデータ持続フォーマットをこの目的のために使用してもよい。これらのフォーマットの目的は、マトリクス又はマトリクス様データセットの任意の部分をメモリにロードさせることである。このようなディスクベースフォーマットは、例えば、HDF5、Zarr、Apache Arrow等、種々のソフトウェアライブラリを通じて実装される。
【0025】
上述のとおり、得られたシングルセルゲノミクスデータセットは、少なくとも2つの次元で表されてもよく、各細胞についての情報は、第1の次元で表され、遺伝的特徴についての情報は、第2の次元で表される。第2の次元における遺伝的特徴についての情報は、注釈付き遺伝子、及び/又は、ゲノムアセンブリの座標形態における遺伝子位置、及び/又は、特定されたアクセス可能領域内の切断部位数、及び/又は、各遺伝子に対するcDNAフラグメント数等、定量化された遺伝的特徴を含み得る。
【0026】
当該方法はさらに、シングルセルゲノミクスデータセットから細胞-細胞近傍グラフを生成するステップであって、細胞-細胞近傍グラフは、細胞の遺伝的特徴の類似性についての情報を提供し、細胞は、細胞-細胞近傍グラフにおける頂点として表されるステップをさらに備え得る。このステップには、k最近傍アルゴリズムを実施するステップであって、各細胞のk最近傍は特定され、細胞は、頂点として表され、頂点は、頂点のうちの少なくとも1つが他の頂点のk最近傍である場合、エッジを介して接続されるステップを実施することが含まれ得る。細胞の遺伝的特徴の類似性は、種々のやり方で定量化され得る。一例によると、2つの細胞間の類似性は、グラフにおける細胞間の距離に反比例する。細胞のうちの任意の細胞対間の距離は、任意の好適な距離計量によって計算することができる。例えば、ユークリッド計量の場合、各々1~N個の特徴を有する細胞C1と他の細胞C2との間の距離
【0027】
【0028】
このようなコサイン距離のような角度計量も、スケール不変性を有するために頻繁に使用され、値の範囲が細胞によって非常に異なる(多くの場合、シークエンシング深さにより、又は細胞が2つ以上の別の実験から貯蔵されたため)時に有用となり得る。
【0029】
当該方法はさらに、細胞-細胞近傍グラフ中の細胞をシード細胞及び非シード細胞に分割するステップを備える。このステップは、例えば、任意の好適なクラスタリング方法によって実施可能である。
【0030】
本発明者らは、細胞がシード細胞及び非シード細胞に一旦分割されると、賞金収集シュタイナ木(PCST)アルゴリズムを使用して、細胞-細胞近傍グラフを横断し、細胞のサブサンプルを得ることは、細胞の有用なサブサンプルを得る特に効率的なやり方であることを見出した。PCSTアルゴリズムの適用を成功させるため、シード細胞及び非シード細胞に異なる賞金が割り当てられる。賞金の割り当てには異なるアプローチが存在する。典型的には、シードセルには高い値、又はいくつかの個別の高い値が割り当てられ、非シードセルには、低い値、又はいくつかの個別の低い値が割り当てられる。これらの値は、0~1の間であってもよく、高い値は、例えば、0.5を上回る数であってもよく、低い値は、例えば、0.5を下回る数であってもよい。
【0031】
図2は、シングルセルゲノミクス中の複数の細胞から細胞のサブサンプルを抽出する本開示の方法(1)の一例を開示している。当該例によると、方法(100)は、
-少なくとも2次元で表されたシングルセルゲノミクスデータセットを得るステップであって、各細胞についての情報が、第1の次元で表され、遺伝的特徴についての情報が、第2の次元で表されるステップ(101)と、
-シングルセルゲノミクスデータセットから細胞-細胞近傍グラフを生成するステップであって、細胞-細胞近傍グラフは、細胞の遺伝的特徴の類似性についての情報を提供し、細胞は、細胞-細胞近傍グラフ中、頂点として表されるステップ(102)と、
-細胞-細胞近傍グラフ中の細胞をシード細胞及び非シード細胞に分割するステップ(103)と、
-細胞-細胞近傍グラフ中、シード細胞に少なくとも1つの第1の賞金を割り当て、非シード細胞に少なくとも1つの第2の賞金を割り当てるステップと、
-賞金収集シュタイナ木アルゴリズム(PCST)を使用して、細胞-細胞近傍グラフを横断し、細胞のサブサンプルを得るステップ(104)と、を備える。
【0032】
シングルセルゲノミクスデータセット中の複数の細胞から細胞のサブサンプルを抽出する本開示の方法のステップについて、以下にさらに詳細に説明する。当業者に理解されるとおり、本発明を実施するためにすべてのステップが必ずしも必要でないこともある。これらのステップのうちの一部は、任意である。
データ処理
シークエンシングされたフラグメントの分析プロセスは、データを、配列をヒトに解読させるようにするFASTQデータフォーマットに変換することで開始する。シークエンシングされたフラグメントは、低品質のヌクレオチドを取り除くか、又は低品質のフラグメントをすべて一緒に取り除くように、シークエンシング品質制御に供され得る。この品質制御は、設定によっては任意と見なされる。これらの品質制御済みのシークエンシングされたフラグメント(細胞バーコード又はシークエンシングの様な各フラグメントに対して存在する補助情報)は、その後、ゲノミックアラインメントツールを使用して、ゲノム/トランスクリプトーム、又はゲノムの一部を任意に選択したものに対してアラインメントされ得る。この特定のステップは、例えば、疑似アラインメント戦略を使用して、フラグメントの由来するゲノムの部分を特定するという代替のやり方でも実施され得る。各フラグメントの(精密な座標という点、又はゲノム実体という点のいずれかにおける)ゲノム位置が一旦判定されると、アクセスされているモダリティに応じては、単一核ATACシークエンシング及びシングルセルCUT&TAGの場合のピーク呼び出し等、中間ステップが存在し得る。各フラグメントに対するバーコード情報、又はそれらに由来するゲノム情報(例えば、ピーク)は、細胞-特徴マトリクスを作成するために照合され得る。この細胞-特徴マトリクスは、実行可能な分析ができる共有可能な形態でシングルセルゲノミクスデータを表す。この細胞-特徴の実際の記憶形態は、HDF5、CSV、LOOM、ZARR、又は他の任意のカラム型データ記憶フォーマットのいずれかとすることができる。
アッセイの特定
シングルセルゲノミクスデータセットがメモリ内に一旦記憶されると、このステップが実施され得る。当該方法では、第1のステップにおいて、データセット中に存在する異なる数のアッセイを特定し得る。シングルセルゲノミクス方法の進歩により、いまや同一の細胞から異なるゲノミクス特徴をシークエンシングすることができる。このために使用可能な1つの技術に、シークエンシングによるトランスクリプトーム及びエピトープの細胞インデクス付け(CITEシークエンシング)があり、これにより、遺伝子発現(転写産物量及び多様性)と、同一の相棒からの細胞表面マーカとの双方の定量化ができるようにする。したがって、シングルセルゲノミクスデータセット中の複数の細胞から細胞のサブサンプルを抽出する本開示の方法の一実施形態はさらに、シングルセルゲノミクスデータセットにおけるアッセイと配列の遺伝的特徴とを特定するステップを備える。
細部のフィルタリングと除外
シングルセルゲノミクスデータセット中の複数の細胞から細胞のサブサンプルを抽出する本開示の方法の一実施形態において、細胞は、さらなるステップにおいてフィルタリングされて除外される。このステップは、所定の下限未満、及び/又は、所定の上限超の数の特徴を有する細胞をフィルタリングして除外するか、又はその他の性質に基づいて細胞をフィルタリングして除外することを含み得る。
【0033】
所定の下限未満、及び/又は、所定の上限超の数の特徴を有する細胞がフィルタリングして除外される当該例において、又は細胞が有する特徴が多過ぎる、又は少な過ぎるものとして細胞を分類するのに、閾値が特定される場合、当該方法は、同一の平均及びサンプル分散に基づく正規分布を作成してもよく、分布から引かれた特定パーセンテージ未満の細胞を除外する。特徴フィルタリングを実施する他の好適な方法が想定されてもよい。
正規化
本開示の方法はさらに、細胞-細胞近傍グラフを生成する前に、遺伝的特徴についての情報を正規化するステップを備えてもよい。この情報を正規化するステップを使用して、比較可能な定量化された遺伝的特徴を提供し得る。このステップは、適用される正規化を規定することを備えてもよい。このプロセスをスピードアップするために、シングルセルゲノミクスデータセットがメモリにロードされるとき、正規化が適用され得る。シングルセルRNAシークエンシング(scRNAシークエンシング)の場合、ライブラリサイズ正規化方法が使用され得る。この正規化ステップでは、各細胞からの合計値でその細胞の特徴値を割り、結果として得られた値を一定のスカラーで掛ける。この正規化ステップでは、下流分析の個々の細胞のシークエンシング深さの効果が確実に最小限となるようにする。シークエンシングを使用したトランスポサーゼアクセス可能クロマチンのためのシングルセルアッセイ(scATACシークエンシング)の場合、当該方法では、TI-IDF正規化(単語出現頻度、文書頻度逆数)を適用してもよい。TF値は、各細胞をその値の和で割ることにより計算され、IDF値は、細胞総数を各遺伝子が存在する細胞の数からなるベクトルで割ることによって計算される。TF-IDFのスカラー積が正規化された値を与える。細胞表面マーカについては、当該方法では、CLR(有心対数比)正規化を実施し得る。
特徴選択
本開示の方法はさらに、細胞-細胞近傍グラフの生成前に遺伝的特徴についての情報からより小さな特徴のサブセットを選択することにより、特徴選択を実施するステップを備え得る。このステップは、小さな遺伝的特徴のサブセットのみが細胞の多様性を獲得することができ、多くの特徴が互いに冗長であるという想定に依存し得る。特徴選択の結果として、より小さな遺伝的特徴のサブセットをさらなる分析に使用する。
【0034】
特徴選択方法を選ぶのは、使用されているシングルセルゲノミクスデータセットの種類に依存し得る。scRNAシークエンシングデータセットについて、特徴選択は、遺伝子の分散に基づいて実施され得る。遺伝子の分散及び平均発現が頻繁に照合されるため、平均-分散傾向は、まず、遺伝子をそれらの平均発現値に基づく所望のビン数に分割することによって除外され得る。各ビン中の最小分散の遺伝子が選択され、平均と分散との間で段階的回帰が実施されて、各ビンから選択された遺伝子を通じて曲線にフィッティングする。結果として得られた曲線を使用して、各遺伝子から残りの分散を回帰した後、補正分散値を得る。補正分散の最も高い遺伝子が選択される。
【0035】
scATACシークエンシングデータセットについては、これらの値は、TF-IDFを使用して正規化されてもよく、最も頻繁に生じるピーク、すなわち、細胞の間の高い平均正規化値が選択される。ユーザは、上位「n」個のHGV又は最も頻繁に生じるピークを選択するように決定可能であり、ここで「n」とは、特徴の任意の数である。
次元削減
当該方法はさらに、細胞-細胞近傍グラフを生成する前にシングルセルゲノミクスデータセットの次元削減を行うステップを備え得る。次元削減は、インクリメンタル主成分分析(PCA)を使用して実施され得る。
【0036】
一実施形態において、正規化されたデータは次元削減に供される。次元削減技術により、信号対ノイズ比の増幅を手伝う特徴空間の削減を行わせる。次元削減はまた、データ冗長性の低減を目的としても機能する。PCAは、例えば、シングルセルRNAデータに適用され得る。scATACシークエンシングの場合、本開示の方法は、インクリメント更新可能なバージョンの潜在的意味インデックス付け技術を適用し得る。さらなるステップのために削減して保持する次元の数を選ぶことは、ユーザによって構成可能である。シングルセルRNAシークエンシングの場合、データをPCAに供するのに先立って、データは、ゼロ平均と各遺伝子に対する単位標準偏差とを有するように、特徴に応じてスケールされ得る。データは、このステップの前に対数変換されてもよく、又はされなくてもよい。
細胞-細胞近傍グラフの生成
細胞-細胞近傍グラフは、種々のやり方で生成することができる。好適な実施形態において、シングルセルゲノミクスデータセットから細胞-細胞近傍グラフを生成するステップは、k最近傍(KNN)アルゴリズムを実施することを含む。このようなアルゴリズムにおいて、グラフが作成され、細胞は頂点として表される。頂点のうちの少なくとも1つが他の頂点のk最近傍である場合、頂点はエッジを介して接続される。「近隣の」細胞がどの程度互いに近いかを判定するために、定量化された遺伝的特徴を互いに比較することが有用であり、好ましくは、定量化された遺伝的特徴が正規化される。
【0037】
一例によると、kの数の各細胞の最近傍が特定されており、kは、ユーザによって与えられた任意の正の整数である。各細胞のKNNにより、細胞のグラフデータ構造を作成させる。グラフ中、各頂点は細胞であり、これらの頂点はエッジを介して接続される。これらのうちの少なくとも1つが他の頂点の最近傍である場合、2つの頂点は接続される。グラフ中のエッジ重量は、細胞間の距離に反比例する。細胞間の距離を計算するために、ユークリッド距離又は他の好適なメトリックを使用してもよい。各細胞対を比較することで各細胞に対するKNNを特定するのは、多数の細胞にスケーラブルでない。したがって、一実施形態において、細胞のインデックスが作成された後、最近傍は、これらの細胞に亘って尋ねられる。KNN近傍間の距離は、ガウス核を使用して連続形態に変換される。これらの値は、KNNグラフに対するエッジ重量として取り扱われる。データのグラフ構造を計算するのに他の代替も可能であり、例えば、互いのKNNである各細胞対において共通の近傍を計算することにより、共有される最近傍グラフを作成することができる。本開示の方法は、細胞-細胞グラフを作成するために採られるアプローチにとらわれない。一実施形態において、HNSWlibと称されるKNNのおおよそのバージョンを使用して、シングルセルゲノミクスから細胞-細胞近傍グラフを生成する。
【0038】
図4は、細胞-細胞近傍グラフ(300)の一例を示している。この例において、グラフの各頂点(301)は、細胞(301)である。頂点(301)は、エッジ(302)によって接続される。エッジ(302)は、接続された細胞(302)がk最近傍であることを示している。
細胞-細胞近傍グラフ中の細胞のシード細胞及び非シード細胞への分割
細胞-細胞近傍グラフ中の細胞をシード細胞及び非シード細胞に分割するステップは、いくつかのやり方で実装可能である。
【0039】
好適な実施形態において、このステップは、
-細胞-細胞近傍グラフ中の細胞をクラスタリングして、略均一なサイズの細胞のクラスタを得るステップと、
-各細胞のクラスタから少なくとも1つの細胞を選び、選んだ細胞をシード細胞に分類することにより、細胞をシード細胞及び非シード細胞に分割するステップと、
を備える。
【0040】
細胞-細胞近傍グラフ中の細胞をクラスタリングするステップは、例えば、Louvainアルゴリズム、Leidenアルゴリズム、又はParisアルゴリズムに基づいてもよい。このステップでは、細胞-細胞近傍グラフをデンドログラム構造に変換し得る。細胞-細胞近傍グラフ中の細胞をクラスタリングするステップは、各クラスタ内の細胞の数を細胞の最小数及び最大数に限定することを含み得る。より具体的には、細胞-細胞近傍グラフ中の細胞をクラスタリングするステップは、細胞-細胞近傍グラフをデンドログラム構造に変換するステップを含んでもよく、各細胞は、リーフノードとして表され、リーフは、デンドログラム構造中のブランチポイントノードを通じて互いに接続され、細胞-細胞近傍グラフ中の細胞をクラスタリングするステップは、リーフノード及びブランチポイントノードを細胞群に区画するステップを含み、これらの群は上限及び下限を有する。上限は、比較的小さな数字に設定されることが好ましく、各群が細胞総数のほんの一部のみを有するようにすることで、細胞の各群/区画が高度の均一となる「マイクロクラスタリング」に繋がるようにする。上限は、300以下の数字であってもよく、好ましくは200以下であってもよく、さらに好ましくは100以下である。下限は、例えば、10であってもよい。一例において、下限は10であり、上限は200である。
【0041】
クラスタリングプロセスの一例について、以下に説明する。細胞の細胞-細胞近傍グラフをクラスタリングに供し、均一サイズの細胞のクラスタを得てもよい。コミュニティクラスタリング方法によるグラフデータ構造に対する複数のクラスタリングストラテジが存在する。好ましくは、グラフ中に存在する細胞の数に対して線形にスケールを行う作動時間を有するクラスタリング方法が選択される。このアルゴリズムでは、グラフデータ構造をデンドログラム構造に変換し得る。一実施形態において、各クラスタ内の細胞数を所定の上限及び下限に限定することができる。アルゴリズムは、貪欲なボトムアップアプローチであり得るため、このアルゴリズムは、リーフノードからの統合を開始し得る。デンドログラムにおいて、各細胞は、リーフノードを表し、これらのリーフは、ブランチポイントノードを通じて互いに接続される。各ブランチポイントノードは、ブランチポイント又はリーフノード又はこれら2つの組み合わせの双方になり得る2つのノードに分かれる。ブランチポイントノードは、最終的に上流のルートノードに合流する。まず、これらとルートノードとの間にいくつのブランチポイントノードがあるかに基づき、すべての細胞がランク付けされる。これらのランクは、細胞がクラスタ集約の候補として取り上げられる順を決定する。この背景にある理由として、デンドログラムがその箇所でいかに深いかに基づき、その細胞のクラスタリングが優先されるためである。ブランチポイントが多いほど、細胞は、その間においてより僅かな差異を有することを示す。このアルゴリズムは、最もランクの高いノードから開始した後、その細胞の親ブランチポイントノードへと移行し、そのブランチポイントノードの他の子ノードが自動的にそのクラスタに包含される。その後、アルゴリズムは、上流のブランチポイントを包含することで、クラスタサイズを増し、クラスタが凍結してアルゴリズムがいずれのクラスタにも含まれていなかったランクリスト内の次のリーフノード(細胞)に移行する点で、所定の閾値を超えさせるまで、上流のブランチポイントに移行し続ける。上流の横断を辞める他の条件として、ブランチポイントの兄弟姉妹が既にクラスタに含まれたときである。したがって、シングルセルゲノミクスデータセット中の複数の細胞から細胞のサブサンプルを抽出する本開示の方法の一実施形態において、各細胞は、リーフノードとして表され、リーフは、デンドログラム構造中のブランチポイントノードを通じて互いに接続され、細胞-細胞近傍グラフ中の細胞をクラスタリングするステップは、デンドログラム構造の細胞及びルートノード間にいくつのブランチポイントノードが存在するかに基づき、各細胞をランキングし、このランキングに基づき、クラスタリングを行うステップを備える。すべてのリーフノードがクラスタに一旦含まれると、次のステップは、クラスタ同士を統合することで、各クラスタが、少なくともユーザによって構成された数の細胞を確実に有するようにする。クラスタは、作成された順に考慮され、それらのサイズはカットオフ未満であり、それらは、兄弟姉妹ブランチポイント内のクラスタ(すなわち、それらが最も最近の共通祖先を有するクラスタ)と統合される。統合は、最小クラスタサイズが得られるまで繰り返される。兄弟姉妹ブランチポイントが1つを上回る数のクラスタを有する場合、所与のクラスタへの最短距離のクラスタが、その距離が所定の閾値以下であるという条件の下、統合に考慮される。このデンドログラム作成とボトムアップバランスクラスタリングを含むクラスタリング戦略により、類似性が極めて高く、且つグラフ中でも密接に接続される細胞のクラスタを提供する。
【0042】
代替として、細胞-細胞近傍グラフ中の細胞をクラスタリングするステップでは、ダイナミックサンプリングアプローチを使用し得る。このアプローチは、デンドログラムからも出発し得る。上述のアプローチと同様に、各群中の細胞を、シード細胞がランダムに選択可能な細胞のプールに絞り込むという目的を有する。一実施形態において、細胞-細胞近傍グラフ中の細胞をクラスタリングするステップは、第1の区画決めを実施し、第1の区画決めにおける各区画に対して、第1の区画決めにおける各区画との細胞の相互接続の強度を測定したものに基づき、サブ区画の数を判定するステップを含む。好適な数のサブ区画が判定されると、第1の区画決めにおける区画内でのサブ区画決めを実施する実際のステップを実施することができる。さらなるステップにおいて、第1の区画決めにおける各区画内の細胞は、その後、細胞間の階層関係を示すデンドログラム構造に変換され得る。
細胞-細胞近傍グラフ中の細胞のシード細胞及び非シード細胞への分割のさらなる例
一例によると、シード細胞は、個々の細胞(近傍グラフ中のノードと称される)に対する2つのメトリック、すなわち、n近傍程度(NND)及び近傍連結性(NC)を計算することによって特定される。ノードの程度は、この特定のノードが接続される他のノードの総数として計算される。1近傍程度は、所与のノードに接続されたすべてのノードの程度の和である。したがって、NNDは、nステップ距離亘って近傍の近傍を反復することにより演算され、グラフ中の所与のノードの周辺の接続密度を獲得する。第2のメトリックは、所与の数の接続が多くのノード又は僅かなノードで共有される場合に獲得する近傍連結性である。各細胞のNCを計算するため、ノードとそのすべての近傍との間で共有される最近傍距離(ジャッカード距離)の和が計算される。したがって、ノードが互いに強く接続された他のノードと接続される場合、このノードが近傍連結性について高い値を得る。
【0043】
次のステップについて、アルゴリズムでは細胞の区画付けを使用する。ここで、中央値NND及びNCは、細胞の各クラスタに対して計算され、この中央値を使用して各クラスタに対するランプリング率を調製する。中央値NNDが高いほど、サンプリング率は低くなり、NCが高いほど、サンプリング率が低くなるか、その逆である。サンプリング率に基づき、各クラスタからサンプリングされる細胞数が判定される。そして各クラスタがサブクラスタリングされ、サブクラスタリングされる数は、サンプリングされる細胞の数と同数であり、1つの細胞が核サブクラスタからサンプリングされる。
【0044】
これらのサンプリングされた細胞を「シード」細胞と称する。
【0045】
図7は、細胞のクラスタ(401)を含むデンドログラムを可視化したものである。
図7Aは、ストレートカットアルゴリズムを適用することによって得られたクラスタを示している。この例においては、クラスタ(401)がサイズのバリエーションを有すること(すなわち、クラスタ内の細胞数)を見て取ることができる。各円(401)は、細胞のクラスタを表す。円のサイズは、クラスタ中の細胞数を示している。デンドログラムは、ルートノード(403)を有する。デンドログラムは、多数のブランチポイント(404)を有する。ブランチポイント及びブランチポイントの構造及びクラスタは、クラスタ(401)がいかに類似しているかについての情報を提供するということができる。クラスタが類似しているほど、これらの共有されたブランチポイントがより近くなる。
【0046】
図7Bは、バランスカットアルゴリズムを適用することによって得られたクラスタを示している。このアルゴリズムでは、ストレートカットアルゴリズムにより類似したサイズのクラスタを生じる。図面はまた、大きなクラスタ(402)がバランスカットアルゴリズム中でいかにより小さなクラスタ(401)にブレイクダウンされ得るかも示している。
【0047】
図8は、クラスタリングのさらなる例を示しており、
図8Aは、細胞がいかにクラスタに分割されているかの一例を示している(1~15のナンバリング)。細胞は、それらのクラスタ同一性に基づいてナンバリングされる。アルゴリズムを適用することにより、このParisアルゴリズムの場合、細胞のデンドログラムが作成されるが、これを
図8Bに示している。クラスタを形成する細胞は、単一のノードに統合される(
図8B中、数字を付した円)。この円のサイズは、クラスタ中の細胞の数を示す。デンドログラムの頂上部のラベルの付されていないノードは、デンドログラムのルートである。
【0048】
クラスタが作成されると、本開示の方法は、さらなるステップにおいて、細胞の各クラスタから少なくとも1つの細胞を選び、選んだ細胞をシード細胞と分類し得る。選ばれなかった細胞は、非シード細胞と分類される。
【0049】
好ましくは、最低1つの細胞が各クラスタから選ばれなければならない。細胞は、ランダムに選ぶことができるか、又は、例えば、それらがクラスタ中でどの程度中心にあるか等、何らかの測定に基づいて選ぶことができる。シード細胞は、細胞の不均一性を獲得する。グラフトポロジを獲得することは、希少集団中で差異化軌跡及び不均一性が確実に獲得されるためには重要となり得る。
賞金設定
シングルセルゲノミクスデータセット中の複数の細胞から細胞のサブサンプルを抽出する本開示の方法は、好ましくは、PCSTアルゴリズムを使用して細胞-細胞近傍グラフを横断して細胞のサブサンプルを得ることを含む。PCSTアルゴリズムが実施される前に、細胞-細胞近傍グラフ中のシード細胞及び非シード細胞には賞金が割り当てられなければならない。賞金を設定する1つのやり方として、すべてのシード細胞に単一の第1の賞金を割り当て、すべての非シード細胞に単一の第2の賞金を割り当てる。単一の第1の賞金は、典型的には、単一の第2の賞金より高い。単一の第1の賞金は、任意の高い賞金であってもよい。この値は、グラフ中の細胞数によって導かれ得る。要求される値は、グラフ中に存在する細胞数とともに増加する。極端に高い値を有すると、典型的には、アルゴリズムに悪影響を及ぼすことはない。賞金を設定する唯一の目的は、細胞が後のステップにおいて横断されるものと確実に見なされるようにすることである。非シード細胞には、0の値が与えられてもよく、これは、横断されるアルゴリズムがそれらの細胞を含むことに対してインセンティブを受けることはない旨を意味している。
【0050】
代替の実施形態において、賞金は代わりに、個々のシード細胞及び非シード細胞に対して個別に構成可能である。例えば、シード細胞に対する賞金は、それらの入次数、すなわち、グラフ中で所与の細胞が接続される他の細胞の数に比例するように設定可能である。さらに、細胞の近傍程度の概念(すなわち、グラフ中の所与の細胞に隣接した細胞の累積程度)に基づき、グラフ中の疎な領域の非シード細胞に0を上回る値を割り当てることで、マニホールドのカバレッジをより円滑にし得る。
【0051】
グラフのエッジ上にペナルティを設定しないか、又は非常に低いペナルティを設定するように選択し、これにより他のシード細胞からさらに離れて位置するシード細胞であっても、グラフ横断中に容易に確実に獲得可能となるようにし得る。我々のプロトタイプにおいて、我々は、エッジに対するペナルティとして、KNNグラフ中の1-エッジ重量を使用する。このエッジ重量は0及び1の値以内に境界を有するため、ペナルティもこれらの境界以内となる。代替として、グラフ中の異なる部分で横断が促されたり、又は促されないように、近傍密度に基づき、エッジペナルティを設定するように選択し得る。
【0052】
図5は、細胞-細胞近傍グラフ(300)の一例を示している。この例において、細胞は、シード細胞(303)及び非シード細胞(304)に分割されている。好ましくは、各シード細胞(303)(図中のより大きなドット)には、第1のスコアセットから選択された第1の賞金が割り当てられる。好ましくは、各非シード細胞(304)(図中のより小さなドット)には、第2のスコアセットから選択された第2の賞金が割り当てられる。細胞(303、304)間のエッジ(302)には、第3のスコアセットから選択されたペナルティが割り当てられる。この例において、エッジの幅は、これらのペナルティを可視化している。一例として、エッジ302aは、エッジ302bより太く、これは、エッジ302aがエッジ302bよりもペナルティが高いことを示している。
賞金設定のさらなる例
賞金割り当てには異なるアプローチが存在する。一例によると、シード細胞にはすべて、一定の賞金値が割り当てられる。例えば、10といった初期値が使用され得る。そして各エッジに対するエッジペナルティEpは、以下のように計算され得
【0053】
【数2】
式中、Ecm及びEbwは、ユーザの与えたパラメータで、各々、エッジコスト乗数及びエッジ帯域幅であり、Ewは、グラフ中のエッジ重量である。Ecmに対する値が高いほど、グラフ中の遠隔の細胞に到達するのがより困難になるが、同時に、ダウンサンプリングされたセット中の非シード細胞の包含が抑えられる。Ebwが高いほど、エッジペナルティ間の差異が増長される。一例において、Ecm=1であり、Ebw=10である。
【0054】
一旦、シードセルに対する賞金とすべてのエッジに対するペナルティとが設定されると、PCSTアルゴリズムが実施されてもよく、これについてはさらに説明及び例示する。
賞金収集シュタイナ木アルゴリズムを使用した細胞-細胞近傍グラフの横断
一旦賞金が設定されると、その後、当該方法では、賞金収集シュタイナ木(PCST)の実装を使用する。設定された賞金とともに細胞-細胞近傍グラフが、このPCSTアルゴリズムに提供される。一実施形態において、アルゴリズムは、可能な限り多くのシード細胞を含み、可能な限り少ない非シード細胞を含むように構成される。一実施形態において、PCSTは、可能な限り最小限の非シードノードを含み、すべてのシードノードを含むことを目的として、細胞-細胞近傍グラフの横断を開始する。細胞-細胞グラフは、この時点で既に切断されているとすることができる。データセット中に非常に離散的な集合が存在するときが、最も起こり得るシナリオである。このような場合、PCSTアルゴリズムは、グラフの切断構成要素の各々について、別々に実行され得る。したがって、本開示の方法の一実施形態において、細胞-細胞近傍グラフは、切断サブグラフを含み、PCSTアルゴリズムは、すべてのサブグラフに対して実施される。PCSTグラフ横断の結果として、細胞のサブサンプルが得られる。これらは、細胞-細胞近傍グラフからの細胞のサブサンプル(又は、グラフが切断されていた場合のサブグラフ)が確実に接続されるように、非シードノードを含んでもよい。以上に述べたとおり、細胞は、頂点として表され、エッジによって接続されてもよく、各エッジは、細胞間の類似性の高さを表す。一実施形態において、頂点間のエッジにペナルティが割り当てられ、ペナルティは、頂点の細胞間の非類似程度を表す。ペナルティは、細胞-細胞近傍グラフの横断時に考慮に入れることができる。本方法の一実施形態においては、サブサンプリングされた細胞を使用して新たな細胞-細胞グラフを作成し、クラスタリングとシード特定ステップを適用し、その後新たなPCST検索を行うことにより、反復的なサブサンプリングが実施される。ユーザは、必要なダウンサンプリングサイズを得るのに求められる頻度のサブサンプリングの反復を実施するように決定し得る。
【0055】
図6は、シングルセルゲノミクスデータセット中の複数の細胞から細胞のサブセットを抽出する本開示の方法に係る細胞-細胞近傍グラフ(300)の一例を示しており、細胞(303、304)のサブサンプルがシングルセルゲノミクスデータセット中の複数の細胞(すなわち、グラフ(300)中のすべての細胞)から抽出されている。この可視化されたものにおいて、塗りつぶされたドット(303、304)は、細胞のサブサンプルに含まれるシード及び非シード細胞を表す。白抜きのドット(305)は、細胞のサブサンプルに含まれなかったドットを表す。図中に見られるエッジ(302)は、グラフ中のすべての細胞が確実に接続されるように、PCSTによって横断されたエッジである。
【0056】
図9は、クラスタリングのさらなる例と、PCSTアルゴリズムを使用して、細胞-細胞近傍グラフを横断した後、結果として得られる細胞のサブサンプルを示している。
図9Aは、バランスカットアプローチを使用したクラスタリングの結果を示している。そしてクラスタ及びそれらのサイズは、
図9B中、融合されたデンドログラム上に可視化されている。
図9Cは、賞金の設定された状態で細胞の細胞-細胞近傍グラフ上でPCSTを作動させた結果としてのサブサンプリングされた細胞を示している。すべてのクラスタがサブサンプル中に表されており、より小さな数の細胞のクラスタさえも表されている。
コンピュータシステム
本開示はさらに、シングルセルゲノミクスデータセット中の複数の細胞から細胞のサブサンプルを抽出するためのコンピュータシステムに関連する。当該システムは、任意の好適なシングルプロセッサ又はマルチプロセッサの中央処理装置を備え得る、処理部を備える。処理部は、x86、ARMv6-v8、x86-64、PowerPCを含むがこれに限定されない、CISC及びRISCに基づく指示セットアーキテクチャ等、任意の好適な指示セットアーキテクチャを使用して動作し得る。システムはさらに、任意の好適なメモリ構造を有してもよい、メモリを備える。典型的に、メモリ構造は、スタティックランダムアクセスメモリ(SRAM)及び/又はダイナミックランダムアクセスメモリ(DRAM)の形態の1つ又はいくつかのランダムアクセスメモリ(RAM)を備えるであろう。処理部は、シングルセルゲノミクスデータセット中の複数の細胞から細胞のサブサンプルを抽出する本開示の方法の任意の変形を実施するように構成される。本開示のコンピュータシステム(200)の一実施形態の模式図を
図3に示す。コンピュータシステム(200)は、処理部(201)と、メモリ(202)とを備える。シングルセルゲノミクスデータセット(204)は、メモリ(202)にロードされる。シングルセルゲノミクスデータセット中の複数の細胞から細胞のサブサンプルを抽出する方法を実施した後、シングルセルゲノミクスデータセットの細胞からの細胞(203)のサブサンプルは、任意の好適なフォーマットでコンピュータシステムによって送達される。好適な実施形態において、処理部は、
-少なくとも2次元で表されたシングルセルゲノミクスデータセットをメモリ内にロードするステップであって、各細胞についての情報は、第1の次元で表され、遺伝的特徴についての情報は、第2の次元で表されるステップと、
-シングルセルゲノミクスデータセットから細胞-細胞近傍グラフを生成するステップであって、細胞-細胞近傍グラフは、細胞の遺伝的特徴の類似性についての情報を提供し、細胞は、細胞-細胞近傍グラフ中の頂点として表されるステップと、
-細胞-細胞近傍グラフ中の細胞をシード細胞及び非シード細胞に分割するステップと、
-細胞-細胞近傍グラフ中、シード細胞に少なくとも1つの第1の賞金を割り当て、非シード細胞に少なくとも1つの第2の賞金を割り当てるステップと、
-賞金収集シュタイナ木アルゴリズムを使用して、細胞-細胞近傍グラフを横断し、細胞のサブサンプルを得るステップと、
を実施するように構成される。
当該方法実施のさらなる例及び結果
実装の一例によると、当該方法では、グラフ中のランドマーク点(シード細胞)を特定した後、PCSTアルゴリズムを使用してこれらのシード細胞を接続する経路を見つけようとする(
図4~
図6)。近線形時間複雑さを備えたPCSTの実装を使用して、数百万の細胞に迅速且つスケーラブルなダウンサンプリングを達成する。実装では、RAMの20GB未満を使用して、400万個までの細胞についてのデータセットにダウンサンプリングを実施することができることを見出した(
図10A)。さらに、ダウンサンプリングでは、100万個の細胞のデータセットには3分未満を要し、400万個の細胞のデータセットの場合、15分を要した(
図10B)。4つのアトラススケールデータセットのUMAP利用は、細胞のうちの1%までのダウンサンプリングを行っても、UMAPスペースに亘るすべてのクラスタに属する細胞がサンプリングされたことを示している(
図11)。
【0057】
さらに、ダウンサンプリングの定量的分析については、サブサンプリングされた細胞が本来の近傍グラフ中の他のサブサンプリングされた細胞となす接続程度を分析した。ゼロ度の値が高頻度であれば、多くの細胞が他のサブサンプリングされた細胞とは切断されており、サブサンプリングが満足でない旨のマーカであることを示し、仲介細胞状態がサブサンプリングされたセット中から欠けていることを示している。本方法(Scarfと称する)と4つのアトラススケールデータセットからランダムにサブサンプリングした細胞との間の切断細胞の数を比較すると、Scarfサブサンプリングされた細胞の100%は、すべてのデータセットについて非ゼロ度の値を示したが、ランダムサンプリングでは、細部のうちの18.9%~26.9%において、非ゼロ度の値を結果として生じた(
図12)。
【0058】
ダウンサンプリングの主要な目的の2つとして、データセット中の冗長性を削減することと、希少な細胞種別/状態を保存することとである。これら2つの目的は、ダウンサンプリング後、各クラスタからの細胞の割合変化を計算することによってアクセス可能である。当該例において、実装では、より少ない数のクラスタからの細胞の割合を同時に増加させつつ、より大きなクラスタからの細胞の割合を低減することができた(
図13)。各データセット中で最も小さなクラスタからの細胞の割合は、8.13~16.82倍の間で増加しつつ、最も大きなクラスタからの細胞の割合が3.35~5.26倍の間で低減した。比較として、ランダムクラスタリングでは、1.5倍を上回るより小さなクラスタの割合が増加を示すことはなかったか、又は1.01倍を上回るより大きなクラスタの割合の低下を示すことはなかった。結果として、ランダムクラスタリングは、希少なクラスタをサンプリングする可能性が低い。例えば、アトラススケールデータセット中で最も小さなクラスタには、ランダムサンプリングのうちの20%(1M個の細胞のデータセット)、40%(2M個の細胞のデータセット)、及び20%(4M個の細胞のデータセット)(n=10)でサンプリングされた細胞はなかった。対照的に、本来のクラスタサイズに関わらず、すべてのクラスタをScarfを使用してサンプリングした。
【0059】
さらに、ランダムサンプリングに対抗する実装と他のサンプリングツールGeoSketchとの間のさらなる比較が
図14及び
図15に提示されている。別の細胞種別(10Xゲノミクス提供)の10K PBMC細胞か、又は差別化連続体内における3.5K膵臓細胞のいずれかからなる2つの対照的な小規模データセットを使用した。これらの各データセットへのダウンサンプリングのレベルを次第に上昇させたものを可視化すると、本方法では、UMAP全体を通じて細胞を獲得できたことを示した。本方法、GeoSketch、又はランダムサンプリングのいずれかでダウンサンプリングを100回反復すると、Scarfで選択したダウンサンプリング済み細胞のうちの100%が、PBMC及び膵臓細胞データセットの双方において非ゼロ度であったが、GeoSketchについて同様に測定すると、各々、66.9%及び75.9%であり、ランダムサンプリングについては、各々、49.5%及び70.3%であった(
図14及び
図15)。
本発明のさらなる詳細
付記1.シングルセルゲノミクスデータセットにおける複数の細胞から細胞のサブサンプルを抽出するコンピュータ実装方法であって、
-少なくとも2次元で表されたシングルセルゲノミクスデータセットを得るステップであって、各細胞についての情報が、第1の次元で表され、遺伝的特徴についての情報が、第2の次元で表されるステップと、
-シングルセルゲノミクスデータセットから細胞-細胞近傍グラフを生成するステップであって、細胞-細胞近傍グラフは、細胞の遺伝的特徴の類似性についての情報を提供し、細胞は、細胞-細胞近傍グラフ中、頂点として表されるステップと、
-細胞-細胞近傍グラフ中の細胞をシード細胞及び非シード細胞に分割するステップと、
-細胞-細胞近傍グラフ中、シード細胞に少なくとも1つの第1の賞金を割り当て、非シード細胞に少なくとも1つの第2の賞金を割り当てるステップと、
-賞金収集シュタイナ木アルゴリズムを使用して、細胞-細胞近傍グラフを横断し、細胞のサブサンプルを得るステップと、を備える方法。
【0060】
付記2.細胞-細胞近傍グラフを生成することに先立って、シングルセルゲノミクスデータセットの次元削減を行うステップをさらに備える付記1に記載の方法。
【0061】
付記3.シングルセルゲノミクスデータセットの次元削減を行うステップは、インクリメンタル主成分分析を含む付記2に記載の方法。
【0062】
付記4.第1の次元における各細胞についての情報は、各細胞に対する細胞バーコード等の細胞識別子を含む付記1~3のいずれか1つに記載の方法。
【0063】
付記5.第2の次元における遺伝的特徴についての情報は、注釈付き遺伝子、及び/又は、ゲノムアセンブリの座標形態における遺伝子位置、及び/又は、特定されたアクセス可能領域内の切断部位数、及び/又は、各遺伝子に対するcDNAフラグメント数、及び/又は、DNA/RNAオリゴヌクレオチド、ゲノム遺伝子座上のメチル化又は他の任意のエピジェネティックマークの程度等、定量化された遺伝的特徴を含む付記1~4のいずれか1つに記載の方法。
【0064】
付記6.シングルセルゲノミクスデータセットは、シングルセルRNAシークエンシングデータセット、シングルセルATACシークエンシングデータセット、CITEシークエンシングデータセット、又は類似のものである付記1~5のいずれか1つに記載の方法。
【0065】
付記7.シングルセルゲノミクスデータセットは、2次元マトリクスとして表される付記1~6のいずれか1つに記載の方法。
【0066】
付記8.シングルセルゲノミクスデータセットから細胞-細胞近傍グラフを生成するステップは、k最近傍アルゴリズムを実施することを含む付記1~7のいずれか1つに記載の方法。
【0067】
付記9.k最近傍法アルゴリズムは、各細胞のk最近傍を特定することであって、kは、正の整数であることと、細胞-細胞近傍グラフを作成することであって、細胞は、頂点として表され、頂点は、頂点のうちの少なくとも1つが他の頂点のk最近傍である場合、エッジを介して接続されることと、を含む付記8に記載の方法。
【0068】
付記10.細胞-細胞近傍グラフ中の細胞をシード細胞及び非シード細胞に分割するステップは、
-細胞-細胞近傍グラフ中の細胞をクラスタリングして、略均一サイズの細胞クラスタを得るステップと、
-各細胞クラスタから少なくとも1つの細胞を選び、選択した細胞をシード細胞と分類することにより、細胞をシード細胞及び非シード細胞に分割するステップと、を含む付記1~9のいずれか1つに記載の方法。
【0069】
付記11.細胞-細胞近傍グラフ中の細胞をクラスタリングするステップは、Louvainアルゴリズム、Leidenアルゴリズム、又はParisアルゴリズムを含む付記10に記載の方法。
【0070】
付記12.細胞-細胞近傍グラフ中の細胞をクラスタリングするステップは、細胞-細胞近傍グラフをデンドログラム構造に変換する付記10に記載の方法。
【0071】
付記13.細胞-細胞近傍グラフ中の細胞をクラスタリングするステップは、各クラスタ内の細胞の数を、最小数及び最大数の細胞に限定することを含む付記10に記載の方法。
【0072】
付記14.各細胞は、リーフノードとして表され、リーフは、デンドログラム構造内のブランチポイントノードを通じて互いに接続され、細胞-細胞近傍グラフ内の細胞をクラスタリングするステップは、デンドログラム構造の細胞及びルートノードとの間にいくつのブランチポイントノードが存在するかに基づき各細胞をランキングし、ランキングに基づき、クラスタリングするステップを含む付記12に記載の方法。
【0073】
付記15.単一の第1の賞金は、単一の第2の賞金より高く、好ましくは、第2の賞金は0である付記1~14のいずれか1つに記載の方法。
【0074】
付記16.少なくとも1つの第1の賞金及び少なくとも1つの第2の賞金は、個々のシード細胞及び非シード細胞に対して個々に構成可能な賞金である付記1~14のいずれか1つに記載の方法。
【0075】
付記17.頂点として表される細胞は、エッジによって接続され、各エッジは、細胞間の類似性の高さを表す付記1~16のいずれか1つに記載の方法。
【0076】
付記18.頂点間のエッジにペナルティを割り当てるステップをさらに備え、ペナルティは、頂点の細胞間の非類似性の程度を表す付記1~17のいずれか1つに記載の方法。
【0077】
付記19.賞金収集シュタイナ木アルゴリズムを使用して、細胞-細胞近傍グラフを横断するステップは、可能な限り多くのシード細胞を含み、可能な限り少ない非シード細胞を含むようにするステップを含む付記1~18のいずれか1つに記載の方法。
【0078】
付記20.細胞のサブサンプルは、接続される付記19に記載の方法。
【0079】
付記21.細胞-細胞近傍グラフは、非接続サブグラフを含み、賞金収集シュタイナ木アルゴリズムは、すべてのサブグラフに対して実施される付記1~20のいずれか1つに記載の方法。
【0080】
付記22.他のステップを実施する前に、メモリにフィットする区画において、シングルセルゲノミクスデータセットをコンピュータメモリにロードするステップをさらに備える付記1~21のいずれか1つに記載の方法。
【0081】
付記23.シングルセルゲノミクスデータセット及び配列遺伝的特徴においてアッセイを特定するステップをさらに備える付記1~22のいずれか1つに記載の方法。
【0082】
付記24.細胞-細胞近傍グラフを生成する前に、所定の下限未満、及び/又は、所定の上限超の数の特徴を有する細胞をフィルタリングして除外する等、細胞をフィルタリングして除外するステップをさらに備える付記1~23のいずれか1つに記載の方法。
【0083】
付記25.細胞-細胞近傍グラフを生成する前に、遺伝的特徴についての情報を正規化するステップをさらに備える付記1~24のいずれか1つに記載の方法。
【0084】
付記26.細胞-細胞近傍グラフを生成する前に、遺伝的特徴についての情報からより小さな特徴のサブセットを選択することにより、特徴選択を実施するステップをさらに備える付記1~25のいずれか1つに記載の方法。
【0085】
付記27.コンピュータプログラムであって、演算装置又は演算システムによる実行時、演算装置又は演算システムに付記1~26のいずれか1つに記載のシングルセルゲノミクスデータセットにおける複数の細胞から細胞のサブサンプルを抽出する方法を実施させるための指示を有するコンピュータプログラム。
【0086】
付記28.コンピュータシステムであって、
メモリと、
処理部とを備え、処理部は、
-少なくとも2次元で表されたシングルセルゲノミクスデータセットをメモリ内にロードするステップであって、各細胞についての情報は、第1の次元で表され、遺伝的特徴についての情報は、第2の次元で表されるステップと、
-シングルセルゲノミクスデータセットから細胞-細胞近傍グラフを生成するステップであって、細胞-細胞近傍グラフは、細胞の遺伝的特徴の類似性についての情報を提供し、細胞は、細胞-細胞近傍グラフ中、頂点として表されるステップと、
-細胞-細胞近傍グラフ中の細胞をシード細胞及び非シード細胞に分割するステップと、
-細胞-細胞近傍グラフ中、シード細胞に少なくとも1つの第1の賞金を割り当て、非シード細胞に少なくとも1つの第2の賞金を割り当てるステップと、
-賞金収集シュタイナ木アルゴリズムを使用して、細胞-細胞近傍グラフを横断し、細胞のサブサンプルを得るステップと、
を実施するように構成されるコンピュータシステム。
【0087】
付記29.シングルセルゲノミクスデータセットにおける複数の細胞から細胞のサブサンプルを抽出するコンピュータ実装方法であって、
-少なくとも2次元で表されたシングルセルゲノミクスデータセットを得るステップであって、各細胞についての情報が、第1の次元で表され、細胞の遺伝的特徴についての情報が、第2の次元で表されるステップと、
-細胞の遺伝的特徴の類似性を判定し、シングルセルゲノミクスデータセットから細胞-細胞近傍グラフを生成するステップであって、細胞は、細胞-細胞近傍グラフ中、頂点として表され、頂点間の距離は、当該類似性に対応するステップと、
-細胞-細胞近傍グラフ中の一部の細胞をシード細胞として規定し、残りの細胞を非シード細胞として規定するステップと、
-細胞-細胞近傍グラフ中、シード細胞に少なくとも1つの第1の賞金を割り当て、非シード細胞に少なくとも1つの第2の賞金を割り当てるステップであって、第1の賞金は、第2の賞金より高いステップと、
-賞金収集シュタイナ木アルゴリズムを使用して、細胞-細胞近傍グラフを露出することにより、細胞のサブサンプルを抽出するステップと、を備える方法。
参照文献
出版「Scarf:大規模シングルセルゲノミクスデータのメモリ効率分析のためのツールキット」、2021年5月3日、Parashar Dhapola、Johan Rodhe、Rasmus Olofzon、Thomas Bonald、Eva Erlandsson、Shamit Soneji、Goeran Karlsson、doi:https://doi.org/10.1101/2021.05.02.441899、https://www.biorxiv.org/content/10.1101/2021.05.02.441899v1.fullはその全体を参照として本明細書中に援用する。
【手続補正書】
【提出日】2022-10-03
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
シングルセルゲノミクスデータセットにおける複数の細胞から細胞のサブサンプルを抽出する
ことにより、本来のマニホールドを有するシングルセルゲノミクスデータベースをダウンサンプリングするコンピュータ実装方法であって、
-少なくとも2次元で表されたシングルセルゲノミクスデータセットを得るステップであって、各細胞についての情報が、第1の次元で表され、遺伝的特徴についての情報が、第2の次元で表されるステップと、
-前記シングルセルゲノミクスデータセットから細胞-細胞近傍グラフを生成するステップであって、前記細胞-細胞近傍グラフは、前記細胞の前記遺伝的特徴の類似性についての情報を提供し、前記細胞は、前記細胞-細胞近傍グラフ中、頂点として表され
、前記シングルセルゲノミクスデータセットから前記細胞-細胞近傍グラフを生成するステップは、k最近傍アルゴリズムを実施することであって、前記k最近傍アルゴリズムは、各細胞のk最近傍を特定することであって、kは、正の整数であることと、細胞-細胞金方グラフを生成することであって、前記細胞は頂点として表され、前記頂点のうちの少なくとも1つが他の頂点のk最近傍である場合、前記頂点はエッジを介して接続されることとを含むステップと、
-前記細胞-細胞近傍グラフ中の細胞をシード細胞及び非シード細胞に分割するステップ
であって、前記シード細胞は、前記細胞の不均一性を獲得するように選択されるステップと、
-前記細胞-細胞近傍グラフ中、前記シード細胞に少なくとも1つの第1の賞金を割り当て、前記非シード細胞に少なくとも1つの第2の賞金を割り当てるステップと、
-賞金収集シュタイナ木アルゴリズムを使用して、前記細胞-細胞近傍グラフを横断
するステップであって、前記アルゴリズムは、可能な限り多くのシード細胞を含み、可能な限り少ない非シード細胞を含むように構成され、前記本来のマニホールドを保存する細胞のサブサンプルを得るステップを備える方法。
【請求項2】
前記細胞-細胞近傍グラフ中の前記細胞をクラスタリングするステップは、各クラスタ内の細胞の数を、最小数及び最大数の細胞に限定することを含む請求項
1に記載の方法。
【請求項3】
前記細胞-細胞近傍グラフ中の前記細胞をシード細胞及び非シード細胞に分割するステップは、前記グラフ中の所与のノード周辺の接続密度を表す第1のメトリックを計算することを含む請求項1
又は2のいずれか一項に記載の方法。
【請求項4】
前記細胞-細胞近傍グラフ中の前記細胞をシード細胞及び非シード細胞に分割するステップは、多くのノード間又は僅かなノード間で接続が共有される程度を示す近傍連結性を表す第2のメトリックを計算することを含む請求項1~
3のいずれか一項に記載の方法。
【請求項5】
前記細胞-細胞近傍グラフ中の細胞をシード細胞及び非シード細胞に分割するステップは、各細胞クラスタから少なくとも1つの細胞を、ランダムに、又は前記細胞が前記細胞クラスタ内でどの程度中央にあるかに基づき、選択することを含む請求項
1~4のいずれか一項に記載の方法。
【請求項6】
前記細胞-細胞近傍グラフ中の前記細胞をクラスタリングするステップは、前記細胞-細胞近傍グラフをデンドログラム構造に変換し、各細胞は、リーフノードとして表され、前記リーフは、前記デンドログラム構造内のブランチポイントノードを通じて互いに接続され、前記細胞-細胞近傍グラフ内の前記細胞をクラスタリングするステップは、前記デンドログラム構造の前記細胞及びルートノードとの間にいくつのブランチポイントノードが存在するかに基づき各細胞をランキングし、前記ランキングに基づき、クラスタリングするステップを含む請求項1~
5のいずれか一項に記載の方法。
【請求項7】
前記細胞-細胞近傍グラフ中の前記細胞をクラスタリングするステップは、前記細胞-細胞近傍グラフをデンドログラム構造に変換し、各細胞は、リーフノードとして表され、前記リーフは、前記デンドログラム構造内のブランチポイントノードを通じて互いに接続され、前記細胞-細胞近傍グラフ中の前記細胞をクラスタリングするステップは、前記リーフノード及びブランチポイントノードを細胞群に区画するステップを含み、前記群は、上限及び下限を有する請求項1~
6のいずれか一項に記載の方法。
【請求項8】
前記上限は、300以下であり、好ましくは200以下であり、さらにより好ましくは100以下である請求項
7に記載の方法。
【請求項9】
前記細胞-細胞近傍グラフ中の前記細胞をクラスタリングするステップは、第1の区画決めを実施し、前記第1の区画決めにおける各区画について、前記第1の区画決めにおける各区画による細胞の相互接続の強度の測定に基づき、サブ区画の数を判定するステップを含む請求項1~
8のいずれか一項に記載の方法。
【請求項10】
前記第1の区画決めにおける各区画内でサブ区画決めを実施するステップをさらに備える請求項
9に記載の方法。
【請求項11】
前記サブ区画決めを実施するステップは、前記第1の区画決めにおける各区画内の前記細胞を、前記細胞間の階層関係を示すデンドログラム構造に変換するステップを含む請求項
10に記載の方法。
【請求項12】
単一の第1の賞金は、単一の第2の賞金より高く、好ましくは、前記第2の賞金は0であるか、もしくは前記少なくとも1つの第1の賞金及び前記少なくとも1つの第2の賞金が、前記個々のシード細胞及び非シード細胞に対して個々に構成可能な賞金である請求項1~
11のいずれか一項に記載の方法。
【請求項13】
前記頂点間のエッジにペナルティを割り当てるステップをさらに備え、前記ペナルティは、前記頂点の細胞間の非類似性の程度を表す請求項1~
12のいずれか一項に記載の方法。
【請求項14】
前記少なくとも2次元で表される前記シングルセルゲノミクスデータセットを得るために、シングルセルゲノミクスシークエンシングを実施するステップを備える請求項1~
13のいずれか一項に記載の方法。
【請求項15】
シングルセル分離を実施するステップを備える請求項1~
14のいずれか一項に記載の方法。
【請求項16】
少なくとも2次元で表される前記シングルセルゲノミクスデータセットをコンピュータシステムのデジタル媒体にロードするステップを備える請求項1~
15のいずれか一項に記載の方法。
【請求項17】
コンピュータプログラムであって、演算装置又は演算システムによる実行時、前記演算装置又は前記演算システムに請求項1~
16のいずれか一項に記載のシングルセルゲノミクスデータセットにおける複数の細胞から細胞のサブサンプルを抽出する方法を実施させるための指示を有するコンピュータプログラム。
【請求項18】
コンピュータシステムであって、
メモリと、
処理部とを備え、前記処理部は、
少なくとも2次元で表されたシングルセルゲノミクスデータセットを前記メモリにロードするステップであって、各細胞についての情報
が第1の次元で表され、遺伝子特徴についての情報
が第2の次元で表されるステップと、
-前記シングルセルゲノミクスデータセットから細胞-細胞近傍グラフを生成するステップであって、前記細胞-細胞近傍グラフは、前記細胞の
前記遺伝的特徴の類似性についての情報を提供し、前記細胞は、前記細胞-細胞近傍グラフ中
、頂点として表され、前記シングルセルゲノミクスデータセットから前記細胞-細胞近傍グラフを生成するステップは、k最近傍アルゴリズムを実施することであって、前記k最近傍アルゴリズムは、各細胞のk最近傍を特定することであって、kは、正の整数であることと、細胞-細胞金方グラフを生成することであって、前記細胞は頂点として表され、前記頂点のうちの少なくとも1つが他の頂点のk最近傍である場合、前記頂点はエッジを介して接続されることとを含むステップと、
-前記細胞-細胞近傍グラフ中の細胞をシード細胞及び非シード細胞に分割するステップ
であって、前記シード細胞は、前記細胞の不均一性を獲得するように選択されるステップと、
-前記細胞-細胞近傍グラフ中、前記シード細胞に少なくとも1つの第1の賞金を割り当て、前記非シード細胞に少なくとも1つの第2の賞金を割り当てるステップと、
-賞金収集シュタイナ木アルゴリズムを使用して、前記細胞-細胞近傍グラフを横断
するステップであって、前記アルゴリズムは、可能な限り多くのシード細胞を含み、可能な限り少ない非シード細胞を含むように構成され、細胞のサブサンプルを得るステップと、
を実施するように構成されるコンピュータシステム。
【請求項19】
ディスプレイをさらに備え、前記処理部は、前記ディスプレイ上に、前記細胞のサブサンプルのグラフィック表現を表示するように構成される請求項
18に記載のコンピュータシステム。
【国際調査報告】