(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023075114
(43)【公開日】2023-05-30
(54)【発明の名称】発現プロファイル分類の方法
(51)【国際特許分類】
G16B 10/00 20190101AFI20230523BHJP
【FI】
G16B10/00
【審査請求】有
【請求項の数】1
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023023174
(22)【出願日】2023-02-17
(62)【分割の表示】P 2019523873の分割
【原出願日】2017-11-07
(31)【優先権主張番号】62/419,291
(32)【優先日】2016-11-08
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/446,227
(32)【優先日】2017-01-13
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.アンドロイド
(71)【出願人】
【識別番号】595117091
【氏名又は名称】ベクトン・ディキンソン・アンド・カンパニー
【氏名又は名称原語表記】BECTON, DICKINSON AND COMPANY
【住所又は居所原語表記】1 BECTON DRIVE, FRANKLIN LAKES, NEW JERSEY 07417-1880, UNITED STATES OF AMERICA
(74)【代理人】
【識別番号】100094569
【弁理士】
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【弁理士】
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100119013
【弁理士】
【氏名又は名称】山崎 一夫
(74)【代理人】
【識別番号】100123777
【弁理士】
【氏名又は名称】市川 さつき
(74)【代理人】
【識別番号】100111796
【弁理士】
【氏名又は名称】服部 博信
(72)【発明者】
【氏名】ファン ジュエ
(72)【発明者】
【氏名】ジャン ジェシー
(72)【発明者】
【氏名】フー ジン
(57)【要約】 (修正有)
【課題】細胞タイプを区別するマーカーを識別し、分析される細胞のタイプを特定するために生成される大量のデータを更に分析する方法及びシステムを提供する。
【解決手段】細胞タイプを区別する標的を識別する方法であって、細胞の発現プロファイルを階層的にクラスタリングして、異なる個々の細胞の発現プロファイルを表す各リーフを有する系統樹を生成することを含む。系統樹は、無効な分割(及びその子)をなくすことによって刈り取ることができ、系統樹内の残りのリーフは、互いの距離に基づいて、系統樹内の位置から独立して統合して、発現プロファイルのクラスタを生成する。方法はさらに、クラスタ内で別様に発現される標的に基づいて細胞タイプを区別する標的を識別する。
【選択図】
図6
【特許請求の範囲】
【請求項1】
細胞タイプを区別する標的を識別する方法であって、
(a)標的カウントデータ構造を受信することであって、前記標的カウントデータ構造は、複数の細胞の発現プロファイルを含み、前記複数の細胞の前記発現プロファイルは、前記複数の細胞の各細胞の複数の標的の各標的を幾つか含む、受信することと、
(b)前記標的カウントデータ構造及び前記複数の細胞の前記発現プロファイル間の距離に基づいて、前記複数の細胞の発現プロファイルを階層的にクラスタリングして、前記複数の細胞の前記発現プロファイルを表す系統樹を生成することであって、前記系統樹は複数のノードを含み、前記複数のノードは、ルートノード、複数のリーフノード、及び複数の非ルート非リーフノードを含み、前記複数のリーフノードの各リーフノードは、前記複数の細胞の異なる細胞の発現プロファイルを表し、前記ルートノードは、前記複数の細胞の発現プロファイルを表す、階層的にクラスタリングして、系統樹を生成することと、
(c)前記系統樹の前記複数のノードの各ノードを通して前記系統樹の前記ルートノードから前記系統樹の前記複数のリーフノードまでトラバースする間、
(1)前記ノードを前記ノードの子ノードに分割することが有効であるか、それとも無効であるかを判断することと、
(2)前記ノードを前記ノードの子ノードに分割することが無効である場合、前記ノードを統合クラスタセットに追加することと、
(d)前記統合クラスタセット内の第1のノードのそれぞれについて、繰り返し、
前記統合クラスタセット内の前記第1のノードと、前記第1のノードに最も近い前記統合クラスタセット内の第2のノードとの間の距離が、統合距離閾値内である場合、前記第1のノードを前記第2のノードと統合して、前記第1のノード及び前記第2のノードによって表される発現プロファイルを含む統合ノードを生成することと、
(e)前記統合クラスタセット内のノードのそれぞれについて、前記ノードによって表される細胞の前記複数の標的の発現プロファイルに基づいて、細胞タイプを区別する標的を識別することと、
を含む、方法。
【請求項2】
前記標的カウントデータ構造は、標的カウントマトリックスを含む、請求項1に記載の方法。
【請求項3】
前記標的カウントマトリックスの各行又は各列は、前記複数の細胞の異なる個々の細胞の複数の標的の各標的を幾つか含む、請求項2に記載の方法。
【請求項4】
前記複数のリーフノード及び前記複数の非ルート非リーフノードのそれぞれには、親ノードが関連付けられ、
前記ルートノード及び前記複数の非ルート非リーフノードのそれぞれには、左子ノード及び右子ノードが関連付けられ、前記ルートノード及び前記複数の非ルート非リーフノードのそれぞれは、前記ノードの前記左子ノード及び前記右子ノードによって表される発現プロファイルを表す、請求項1に記載の方法。
【請求項5】
(a)において、前記標的カウントデータ構造を受信する前、
(f)複数のバーコードを使用して前記複数の細胞内の前記複数の標的をバーコーディングして、複数のバーコード付き標的を作成することであって、前記複数のバーコードのそれぞれは、細胞標識及び分子標識を含み、異なる細胞の標的から作成されるバーコード付き標的は、異なる細胞標識を有し、前記複数の細胞の1つの細胞の標的から作成されるバーコード付き標的は、異なる分子標識を有する、バーコーディングして複数のバーコード付き標的を作成することと、
(g)前記複数のバーコード付き標的の配列データを取得することと、
(h)前記複数の細胞のそれぞれについて、
(1)前記細胞の前記配列データ内の前記複数の標的の各標的に関連付けられた別個の配列を有する分子標識の数をカウントすることと、
(2)(h)(1)においてカウントされた前記配列データ内の前記標的に関連付けられた別個の配列を有する分子標識の数に基づいて、前記細胞の前記複数の標的の各標的の数を推定することと
を含む、請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記標的カウントデータ構造を受信することは、
(h)(2)において推定された前記細胞の前記複数の標的の各標的の数から、標的カウントデータ構造を生成することであって、前記複数の細胞のうちの前記細胞の前記発現プロファイルは、(h)(2)において推定された前記細胞の前記複数の標的の各標的の数を含む、生成することを含む、請求項5に記載の方法。
【請求項7】
(b)において、前記標的カウントデータ構造及び前記複数の細胞の前記発現プロファイル間の距離に基づいて、前記複数の細胞の前記発現プロファイルを階層的にクラスタリングして、前記複数の細胞の前記発現プロファイルを表す前記系統樹を生成する前、
(i)前記標的カウントデータ構造の要素の距離データ構造を特定することであって、前記距離データ構造は、前記複数の細胞の前記発現プロファイル間の距離を含む、特定すること
を含む、請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記距離データ構造は距離マトリックスを含む、請求項7に記載の方法。
【請求項9】
前記距離マトリックスの各対角線要素は0の値を有する、請求項8に記載の方法。
【請求項10】
(b)において、前記標的カウントデータ構造及び前記複数の細胞の前記発現プロファイル間の距離に基づいて、前記複数の細胞の前記発現プロファイルを階層的にクラスタリングして、前記複数の細胞の前記発現プロファイルを表す前記系統樹を生成することは、前記標的カウントデータ構造及び前記距離データ構造に基づいて、前記複数の細胞の前記発現プロファイルを階層的にクラスタリングすることを含む、請求項7~9のいずれか一項に記載の方法。
【請求項11】
前記複数の細胞の前記発現プロファイル間の前記距離は、前記複数の細胞の前記発現プロファイル間のペア毎の相関距離を含む、請求項7~10のいずれか一項に記載の方法。
【請求項12】
(i)において前記標的カウントデータ構造の要素の距離データ構造を特定する前、前記標的カウントデータ構造を対数変換して、対数変換済み標的カウントデータ構造にすることを含み、
前記標的カウントデータ構造の要素の前記距離データ構造を特定することは、前記対数変換済み標的カウントデータ構造の前記距離データ構造を特定することを含み、
(b)において、前記標的カウントデータ構造及び前記複数の細胞の前記発現プロファイル間の距離に基づいて、前記複数の細胞の前記発現プロファイルを階層的にクラスタリングすることは、前記対数変換済み標的カウントデータ構造及び前記距離データ構造に基づいて前記複数の細胞の前記発現プロファイルを階層的にクラスタリングして、前記系統樹を生成することを含む、請求項7~11のいずれか一項に記載の方法。
【請求項13】
前記標的カウントデータ構造を前記対数変換済み標的カウントデータ構造に対数変換することは、前記標的カウントデータ構造の各要素の値を増分によって増大させることを含む、請求項12に記載の方法。
【請求項14】
前記増分は1である、請求項13に記載の方法。
【請求項15】
(b)において、前記標的カウントデータ構造及び前記複数の細胞の前記発現プロファイル間の距離に基づいて、前記複数の細胞の前記発現プロファイルを階層的にクラスタリングすることは、
前記複数の細胞の各発現プロファイルを異なるリーフノードに割り当てることと、
前記第2のノードが前記第1のノードへの前記複数のノードの最近傍ノードである場合、前記複数のノードの前記第1のノード及び前記第2のノードを繰り返し結合して、前記第1のノード及び前記第2のノードの親ノードを生成することと、
を含む、請求項1~14のいずれか一項に記載の方法。
【請求項16】
前記第1のノードと前記第2のノードとの間の前記距離は、前記第1のノードによって表される発現プロファイルを有する任意の細胞と、前記第2のノードによって表される発現プロファイルを有する任意の細胞との間の最大距離である、請求項15に記載の方法。
【請求項17】
前記第1のノードのノード内相関及び前記第2のノードのノード内相関の少なくとも一方は、前記第1のノードと前記第2のノードとのノード間相関よりも高い、請求項15又は16に記載の方法。
【請求項18】
前記第1のノードのノード内相関及び前記第2のノードのノード内相関の指示は、前記第1のノードと前記第2のノードとのノード間相関よりも高い、請求項15又は16に記載の方法。
【請求項19】
前記第1のノードのノード内相関及び前記第2のノードのノード内相関の指示は、
前記第1のノード及び前記第2のノードのノード内最大相関、
前記第1のノード及び前記第2のノードのノード内平均相関、
前記第1のノード及び前記第2のノードのノード内メジアン相関、
前記第1のノード及び前記第2のノードのノード内最小相関、
それらの任意の組合せ
の少なくとも1つに基づく、請求項18に記載の方法。
【請求項20】
前記第1のノードの前記ノード内相関は、
前記第1のノードのノード内最大相関、
前記第1のノードのノード内平均相関、
前記第1のノードのノード内メジアン相関、
前記第1のノードのノード内最小相関、
それらの任意の組合せ
の少なくとも1つに基づく、請求項17~19のいずれか一項に記載の方法。
【請求項21】
前記第2のノードの前記ノード内相関は、
前記第2のノードのノード内最大相関、
前記第2のノードのノード内平均相関、
前記第2のノードのノード内メジアン相関、
前記第2のノードのノード内最小相関、
それらの任意の組合せ
の少なくとも1つに基づく、請求項17~20のいずれか一項に記載の方法。
【請求項22】
前記第1のノードと前記第2のノードとの前記ノード間相関は、
前記第1のノードと前記第2のノードとのノード間最大相関、
前記第1のノードと前記第2のノードとのノード間平均相関、
前記第1のノードと前記第2のノードとのノード間メジアン相関、
前記第1のノードと前記第2のノードとのノード間最小相関、
それらの任意の組合せ
の少なくとも1つに基づく、請求項17~21のいずれか一項に記載の方法。
【請求項23】
前記系統樹の前記複数のノードをトラバースする際、各ノードにおいて、
前記分割が有効である場合、前記ノードから前記左子ノード及び前記ノードの前記右子ノードに引き続きトラバースすることと、
前記分割が無効である場合、前記ノードから前記左子ノード及び前記ノードの前記右子ノードへのトラバースを停止することと、
を含む、請求項4~16のいずれか一項に記載の方法。
【請求項24】
前記ノードの前記子ノードを有する前記ノードの前記分割が有効であるか、それとも無効であるかを判断することは、
前記左子ノードと前記右子ノードとの間の距離が分割閾値を超える場合、前記分割を有効と判断することと、
その他の場合、無効と判断することと、
を含む、請求項4~23のいずれか一項に記載の方法。
【請求項25】
前記左子ノードと前記右子ノードとの間の距離は、前記左子ノード及び前記右子ノードによって表される発現プロファイル間の前記複数の標的の各標的で実行される統計検定に基づいて特定される、請求項24に記載の方法。
【請求項26】
前記統計検定はウェルチt検定を含む、請求項25に記載の方法。
【請求項27】
前記左子ノードと前記右子ノードとの間の距離は、前記左子ノードによって表される各発現プロファイルと前記右子ノードによって表される各発現プロファイルとの間の前記複数の標的の各標的に対して実行される前記統計検定の最大p値に基づいて特定される、請求項25又は26に記載の方法。
【請求項28】
前記系統樹の前記複数のノードをトラバースする際、各ノードにおいて、(3)前記ノードが1つの細胞の発現プロファイルを表す場合、前記ノードを前記統合クラスタセットに追加することを含む、請求項1~27のいずれか一項に記載の方法。
【請求項29】
前記系統樹の前記複数のノードをトラバースする際、各ノードにおいて、前記ノード標識を前記ノードに割り当てることを含む、請求項4~28のいずれか一項に記載の方法。
【請求項30】
前記ノードが1つの細胞の発現プロファイルを表す場合、前記ノードの前記ノード標識は、1つの細胞名称を含み、
その他の場合、前記ノードが前記親ノードの前記左子ノードであるとき、前記ノードの前記ノード標識は、前記親ノードの前記ノード標識及び左名称を含み、
その他のとき、前記ノードの前記ノード標識は、前記親ノードの前記ノード標識及び右名称を含む、請求項29に記載の方法。
【請求項31】
前記統合クラスタセット内の各ノードについて、前記ノードによって表される前記細胞の前記複数の標的の前記発現プロファイルに基づいて前記細胞タイプを区別する前記標的を識別することは、
前記細胞タイプを区別する前記標的に関連付けられた別個の配列を有する分子標識数を単位として、前記ノードによって表される発現プロファイルと、前記統合クラスタセット内の別のノードによって表される発現プロファイルとの差が有意な閾値よりも大きいと判断すること
を含む、請求項1~30のいずれか一項に記載の方法。
【請求項32】
(d)において前記第1のノードを前記第2のノードと統合して、前記統合ノードを生成する前、
第3のノードと第4のノードとの間の距離がノード距離閾値内にある場合、1つの細胞の発現プロファイルを表す前記統合クラスタセット内の前記第3のノードのそれぞれを前記統合クラスタセット内の前記第4のノードと統合すること
を含む、請求項1~31のいずれか一項に記載の方法。
【請求項33】
前記細胞の発現プロファイルを表す前記統合クラスタセット内の前記ノードに基づいて前記複数の細胞を分類することを含む、請求項1~32のいずれか一項に記載の方法。
【請求項34】
識別された細胞タイプを区別する前記標的に基づいて全体トランスクリプトームアッセイを指定することを含む、請求項1~33のいずれか一項に記載の方法。
【請求項35】
識別された細胞タイプを区別する前記標的に基づいて、標的とされるトランスクリプトームアッセイを指定することを含む、請求項1~33のいずれか一項に記載の方法。
【請求項36】
細胞タイプを区別する標的を識別する方法であって、
(a)複数の細胞の発現プロファイルを受信することであって、前記発現プロファイルは、前記複数の細胞の各細胞の複数の標的の各標的を幾つか含む、受信することと、
(b)前記複数の細胞の前記発現プロファイル間の距離に基づいて、前記複数の細胞の前記発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成することであって、各クラスタは、(1)親クラスタ及び(2)2つ以上の子クラスタのうちの一方又は両方との1つ又は複数の関連性を有し、前記親クラスタは、前記クラスタによって表される前記複数の細胞の1つ又は複数の細胞の発現プロファイルを表し、前記クラスタは、前記2つ以上の子クラスタによって表される発現プロファイルを表す、クラスタリングして生成することと、
(c)前記2つ以上の子クラスタを有する各クラスタについて、前記クラスタと前記2つ以上の子クラスタとの関連性が無効である場合、前記クラスタを統合クラスタセットに追加することと、
(d)前記統合クラスタセット内の第1のクラスタのそれぞれについて、前記統合クラスタセット内の前記第1のクラスタと、前記第1のクラスタに最も近い前記統合クラスタセット内の第2のクラスタとの間の距離が、統合距離閾値内である場合、繰り返し、前記第1のクラスタ及び前記第2のクラスタを統合して、統合クラスタを生成することであって、前記統合クラスタは、前記第1のクラスタ及び前記第2のクラスタの発現プロファイルを含む、繰り返し統合することと、
(e)前記統合クラスタセット内の各クラスタについて、前記クラスタによって表される細胞の前記複数の標的の発現プロファイルに基づいて細胞タイプを区別する標的を識別することと、
を含む、方法。
【請求項37】
前記複数の細胞の発現プロファイルを受信することは、標的カウントデータ構造を受信することを含む、請求項36に記載の方法。
【請求項38】
前記標的カウントデータ構造は、標的カウントマトリックスを含む、請求項37に記載の方法。
【請求項39】
前記標的カウントマトリックスの各行又は各列は、前記複数の細胞の異なる個々の細胞の発現プロファイルを含む、請求項38に記載の方法。
【請求項40】
前記複数の細胞の前記発現プロファイル間の前記距離に基づいて、前記複数の細胞の前記発現プロファイルを発現プロファイルの前記複数のクラスタにクラスタリングすることは、
前記複数の細胞の前記発現プロファイル間の前記距離に基づいて、前記複数の細胞の前記発現プロファイルを階層的にクラスタリングして、前記複数の細胞の前記発現プロファイルを表す系統樹を生成することであって、前記系統樹は複数のクラスタを含み、前記複数のクラスタはルートクラスタ、複数のリーフクラスタ、及び複数の非ルート非リーフクラスタを含む、階層的にクラスタリングして、系統樹を生成すること
を含む、請求項36~39のいずれか一項に記載の方法。
【請求項41】
前記複数のリーフクラスタ及び前記複数の非ルート非リーフクラスタのそれぞれは、親クラスタとの関連性を有し、
前記ルートクラスタ及び前記複数の非ルート非リーフクラスタのそれぞれは、左子クラスタ及び右子クラスタとの関連性を有し、前記クラスタの前記左子クラスタ及び前記右子クラスタによって表される発現プロファイルを表し、
前記ルートクラスタは、前記複数の細胞の前記発現プロファイルを表す、請求項40に記載の方法。
【請求項42】
2つ以上の子クラスタを有する各クラスタについて、前記2つ以上の子クラスタとの前記クラスタ間の関連性が無効である場合、前記クラスタを統合クラスタセットに追加することは、
前記系統樹の前記ルートクラスタから前記系統樹の各クラスタを通して前記系統樹の前記複数のリーフクラスタにトラバースする間、
(1)前記クラスタと前記クラスタの前記子クラスタとの関連性が有効であるか、それとも無効であるかを判断することと、
(2)前記関連性が無効である場合、前記クラスタを統合クラスタセットに追加することと、
を含む、請求項40又は41に記載の方法。
【請求項43】
(a)において、前記複数の細胞の前記発現プロファイルを受信する前、
(f)複数のバーコードを使用して前記複数の細胞内の前記複数の標的をバーコーディングして、複数のバーコード付き標的を作成することであって、前記複数のバーコードのそれぞれは、細胞標識及び分子標識を含み、異なる細胞の標的から作成されるバーコード付き標的は、異なる細胞標識を有し、前記複数の細胞の1つの細胞の標的から作成されるバーコード付き標的は、異なる分子標識を有する、バーコーディングして複数のバーコード付き標的を作成することと、
(g)前記複数のバーコード付き標的の配列データを取得することと、
(h)前記複数の細胞のそれぞれについて、
(1)前記細胞の前記配列データ内の前記複数の標的の各標的に関連付けられた別個の配列を有する分子標識の数をカウントすることと、
(2)(h)(1)においてカウントされた前記配列データ内の前記標的に関連付けられた別個の配列を有する分子標識の数に基づいて、前記細胞の前記複数の標的の各標的の数を推定することと、
を含む、を含む、請求項36~42に記載の方法。
【請求項44】
前記複数の細胞のうちの前記細胞の前記発現プロファイルは、(h)(2)において推定された前記細胞の前記複数の標的の各標的の数を含む、請求項43に記載の方法。
【請求項45】
(b)において、前記複数の細胞の前記発現プロファイル間の距離に基づいて、前記複数の細胞の前記発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成する前、
(i)前記複数の細胞の前記発現プロファイルの距離データ構造を特定すること
を含む、請求項36~44のいずれか一項に記載の方法。
【請求項46】
前記距離データ構造は、前記複数の細胞の前記発現プロファイルの距離マトリックスを含む、請求項45に記載の方法。
【請求項47】
前記距離マトリックスの各対角線要素は0の値を有する、請求項46に記載の方法。
【請求項48】
(b)において、前記複数の細胞の前記発現プロファイル間の前記距離に基づいて、前記複数の細胞の前記発現プロファイルをクラスタリングして、発現プロファイルの前記複数のクラスタを生成することは、前記距離マトリックスに基づいて、前記複数の細胞の前記発現プロファイルをクラスタリングして、発現プロファイルの前記複数のクラスタを生成することを含む、請求項46又は47に記載の方法。
【請求項49】
前記複数の細胞の前記発現プロファイル間の前記距離は、前記複数の細胞の前記発現プロファイル間のペア毎の相関距離である、請求項45~48のいずれか一項に記載の方法。
【請求項50】
(i)において前記距離データ構造を特定する前、前記標的カウントデータ構造を対数変換済み標的カウントデータ構造に対数変換することを含み、
前記標的カウントデータ構造の要素の前記距離データ構造を特定することは、前記対数変換済み標的カウントデータ構造の前記距離データ構造を特定することを含み、
(b)において、前記複数の細胞の前記発現プロファイル間の前記距離に基づいて、前記複数の細胞の前記発現プロファイルをクラスタリングして、発現プロファイルの前記複数のクラスタを生成することは、前記対数変換済み標的カウントデータ構造及び前記距離データ構造に基づいて、前記複数の細胞の前記発現プロファイルをクラスタリングして、前記複数のクラスタを生成することを含む、請求項45~49のいずれか一項に記載の方法。
【請求項51】
前記標的カウントデータ構造を前記対数変換済み標的カウントデータ構造に対数変換することは、前記標的カウントデータ構造の各要素の値を増分によって増大させることを含む、請求項50に記載の方法。
【請求項52】
前記増分は1である、請求項51に記載の方法。
【請求項53】
(b)において、前記複数の細胞の前記発現プロファイル間の距離に基づいて前記複数の細胞の前記発現プロファイルをクラスタリングすることは、
前記複数の細胞の各発現プロファイルを異なるリーフクラスタに割り当てることと、
第2のクラスタが第1のクラスタへの前記複数のクラスタの最近傍クラスタである場合、前記複数のクラスタの前記第1のクラスタ及び前記第2のクラスタを繰り返し結合して、前記第1のクラスタ及び前記第2のクラスタの親クラスタを生成することと、
を含む、請求項36~52のいずれか一項に記載の方法。
【請求項54】
前記第1のクラスタと前記第2のクラスタとの間の前記距離は、前記第1のクラスタによって表される任意の発現プロファイルと、前記第2のクラスタによって表される任意の発現プロファイルとの間の最大距離である、請求項53に記載の方法。
【請求項55】
前記第1のクラスタのクラスタ内相関及び前記第2のクラスタのクラスタ内相関の少なくとも一方は、前記第1のクラスタと前記第2のクラスタとのクラスタ間相関よりも高い、請求項53又は54に記載の方法。
【請求項56】
前記第1のクラスタのクラスタ内相関及び前記第2のクラスタのクラスタ内相関の指示は、前記第1のクラスタと前記第2のクラスタとのクラスタ間相関よりも高い、請求項15又は16に記載の方法。
【請求項57】
前記第1のクラスタのクラスタ内相関及び前記第2のクラスタのクラスタ内相関の指示は、
前記第1のクラスタ及び前記第2のクラスタのクラスタ内最大相関、
前記第1のクラスタ及び前記第2のクラスタのクラスタ内平均相関、
前記第1のクラスタ及び前記第2のクラスタのクラスタ内メジアン相関、
前記第1のクラスタ及び前記第2のクラスタのクラスタ内最小相関、
それらの任意の組合せ
の少なくとも1つに基づく、請求項17又は18に記載の方法。
【請求項58】
前記第1のクラスタの前記クラスタ内相関は、
前記第1のクラスタのクラスタ内最大相関、
前記第1のクラスタのクラスタ内平均相関、
前記第1のクラスタのクラスタ内メジアン相関、
前記第1のクラスタのクラスタ内最小相関、
それらの任意の組合せ
の少なくとも1つに基づく、請求項17~19のいずれか一項に記載の方法。
【請求項59】
前記第2のクラスタの前記クラスタ内相関は、
前記第2のクラスタのクラスタ内最大相関、
前記第2のクラスタのクラスタ内平均相関、
前記第2のクラスタのクラスタ内メジアン相関、
前記第2のクラスタのクラスタ内最小相関、
それらの任意の組合せ
の少なくとも1つに基づく、請求項17~20のいずれか一項に記載の方法。
【請求項60】
前記第1のクラスタと前記第2のクラスタとの前記クラスタ間相関は、
前記第1のクラスタと前記第2のクラスタとのクラスタ間最大相関、
前記第1のクラスタと前記第2のクラスタとのクラスタ間平均相関、
前記第1のクラスタと前記第2のクラスタとのクラスタ間メジアン相関、
前記第1のクラスタと前記第2のクラスタとのクラスタ間最小相関、
それらの任意の組合せ
の少なくとも1つに基づく、請求項17~21のいずれか一項に記載の方法。
【請求項61】
前記系統樹の前記複数のクラスタをトラバースする際、各クラスタにおいて、
前記関連性が有効である場合、前記クラスタから前記クラスタの前記左子クラスタ及び前記クラスタの前記右子クラスタに引き続きトラバースすることと、
前記関連性が無効である場合、前記クラスタから前記クラスタの前記左子クラスタ及び前記クラスタの前記右子クラスタへのトラバースを停止することと、
を含む、請求項42~54のいずれか一項に記載の方法。
【請求項62】
前記クラスタの前記子クラスタとの前記クラスタの前記関連性が有効であるか、それとも無効であるかを判断することは、
前記左子クラスタと前記右子クラスタとの間の距離が関連性閾値を超える場合、前記関連性を有効と判断することと、
その他の場合、無効と判断することと、
を含む、請求項42~61のいずれか一項に記載の方法。
【請求項63】
前記左子クラスタと前記右子クラスタとの間の距離は、前記左子クラスタ及び前記右子クラスタによって表される発現プロファイル間の前記複数の標的の各標的で実行される統計検定に基づいて特定される、請求項62に記載の方法。
【請求項64】
前記統計検定はウェルチt検定を含む、請求項63に記載の方法。
【請求項65】
前記左子クラスタと前記右子クラスタとの間の距離は、前記左子クラスタによって表される発現プロファイルと前記右子クラスタによって表される各発現プロファイルとの間の前記複数の標的の各標的に対して実行される前記統計検定の最大p値に基づいて特定される、請求項63又は64に記載の方法。
【請求項66】
前記系統樹の前記複数のクラスタをトラバースする際、各クラスタにおいて、(3)前記クラスタが1つの細胞の発現プロファイルを表す場合、前記クラスタを前記統合クラスタセットに追加することを含む、請求項42~65のいずれか一項に記載の方法。
【請求項67】
前記系統樹の前記複数のクラスタをトラバースする際、各クラスタにおいて、前記クラスタ標識を前記クラスタに割り当てることを含む、請求項42~66のいずれか一項に記載の方法。
【請求項68】
前記クラスタが1つの細胞の発現プロファイルを表す場合、前記クラスタの前記クラスタ標識は、1つの細胞名称を含み、
その他の場合、前記クラスタが前記親クラスタの前記左子クラスタであるとき、前記クラスタの前記クラスタ標識は、前記親クラスタの前記クラスタ標識及び左名称を含み、
その他のとき、前記クラスタの前記クラスタ標識は、前記親クラスタの前記クラスタ標識及び右名称を含む、請求項67に記載の方法。
【請求項69】
前記統合クラスタセット内の各クラスタについて、前記クラスタによって表される前記細胞の前記複数の標的の前記発現プロファイルに基づいて前記細胞タイプを区別する前記標的を識別することは、
前記細胞タイプを区別する前記標的に関連付けられた別個の配列を有する分子標識数を単位として、前記クラスタによって表される発現プロファイルと、前記統合クラスタセット内の別のクラスタによって表される発現プロファイルとの差が有意な閾値よりも大きいと判断すること
を含む、請求項36~68のいずれか一項に記載の方法。
【請求項70】
(d)において前記第1のクラスタを前記第2のクラスタと統合して、前記統合クラスタを生成する前、
第3のクラスタと第4のクラスタとの間の距離がクラスタ距離閾値内にある場合、1つの細胞の発現プロファイルを表す前記統合クラスタセット内の前記第3のクラスタのそれぞれを前記統合クラスタセット内の前記第4のクラスタと統合すること
を含む、請求項36~69のいずれか一項に記載の方法。
【請求項71】
前記細胞の発現プロファイルを表す前記統合クラスタセット内の前記クラスタに基づいて前記複数の細胞を分類することを含む、請求項36~70のいずれか一項に記載の方法。
【請求項72】
識別された細胞タイプを区別する前記標的に基づいて全体トランスクリプトームアッセイを指定することを含む、請求項36~71のいずれか一項に記載の方法。
【請求項73】
識別された細胞タイプを区別する前記標的に基づいて、標的とされるトランスクリプトームアッセイを指定することを含む、請求項36~71のいずれか一項に記載の方法。
【請求項74】
標的の数を特定するコンピュータシステムであって、
ハードウェアプロセッサと、
命令が記憶された非一時的メモリであって、前記命令は、前記ハードウェアプロセッサによって実行されると、前記プロセッサに、請求項1~73のいずれか一項に記載の方法を実行させる、非一時的メモリと、
を備える、コンピュータシステム。
【請求項75】
請求項1~73のいずれか一項に記載の方法を実行する方法を実行するコードを含むコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願
本願は、2016年11月8日に出願された米国仮特許出願第62/419291号明細書及び2017年1月13日に出願された米国仮特許出願第62/446227号明細書の優先権を主張するものである。これらの関連出願のそれぞれの内容は全体的に、参照により明示的に本明細書に援用される。
【0002】
著作権及び商標の表示
本特許文献の開示の一部は、著作権保護の対象である試料を含む。著作権所有者は、特許商標庁の特許ファイル及び記録に見られるように、特許文献又は特許開示のいかなる者によるファクシミリ複製にも異を唱えないが、その他では何であれ、全著作権を留保する。
【背景技術】
【0003】
分野
本開示は、一般的には発現プロファイルを分類する分野に関し、より詳細には、細胞タイプを区別する標的を識別することに関する。
【0004】
関連技術の説明
バーコーディング(例えば、確率的バーコーディング)等の方法及び技法は、細胞分析に有用である。例えば、バーコーディングを使用して、単一の細胞の遺伝子発現プロファイルを解読し、例えば、逆転写、ポリメラーゼ連鎖反応(PCR)増幅、及び次世代シーケンシング(NGS)を使用して状態を特定することができる。しかしながら、細胞タイプを区別するマーカーを識別し、分析される細胞のタイプを特定するためには、これらの方法及び技法によって生成される大量のデータを更に分析する必要がある。
【発明の概要】
【課題を解決するための手段】
【0005】
本明細書に開示されるのは、細胞タイプを区別する標的を識別する方法である。幾つかの実施形態では、本方法は、(a)標的カウントデータ構造を受信することであって、標的カウントデータ構造は、複数の細胞の発現プロファイルを含み、複数の細胞の発現プロファイルは、複数の細胞の各細胞の複数の標的の各標的を幾つか含む、受信することと、(b)標的カウントデータ構造及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングして、複数の細胞の発現プロファイルを表す系統樹を生成することであって、系統樹は複数のノードを含み、複数のノードは、ルートノード、複数のリーフノード、及び複数の非ルート非リーフノードを含み、複数のリーフノードの各リーフノードは、複数の細胞の異なる細胞の発現プロファイルを表し、ルートノードは、複数の細胞の発現プロファイルを表す、階層的にクラスタリングして、系統樹を生成することと、(c)系統樹の複数のノードの各ノードを通して系統樹のルートノードから系統樹の複数のリーフノードまでトラバースする間、(1)ノードをノードの子ノードに分割することが有効であるか、それとも無効であるか(例えば、子ノード間の差が有意であるか否か)を判断することと、(2)ノードをノードの子ノードに分割することが無効である場合、ノードを統合クラスタセットに追加することと、(d)統合クラスタセット内の第1のノードのそれぞれについて、繰り返し、統合クラスタセット内の第1のノードと、第1のノードに最も近い統合クラスタセット内の第2のノードとの間の距離が、統合距離閾値内である場合、第1のノードを第2のノードと統合して、第1のノード及び第2のノードによって表される発現プロファイルを含む統合ノードを生成することと、(e)統合クラスタセット内のノードのそれぞれについて、ノードによって表される細胞の複数の標的の発現プロファイルに基づいて、細胞タイプを区別する標的を識別することとを含む。
【0006】
幾つかの実施形態では、標的カウントデータ構造は、標的カウントマトリックスを含む。標的カウントマトリックスの各行又は各列は、複数の細胞の異なる個々の細胞の複数の標的の各標的を幾つか含むことができる。
【0007】
幾つかの実施形態では、複数のリーフノード及び複数の非ルート非リーフノードのそれぞれには、親ノードを関連付けることができ、ルートノード及び複数の非ルート非リーフノードのそれぞれには、左子ノード及び右子ノードを関連付けることができ、ルートノード及び複数の非ルート非リーフノードのそれぞれは、ノードの左子ノード及び右子ノードによって表される発現プロファイルを表す。
【0008】
幾つかの実施形態では、本方法は、(a)において、標的カウントデータ構造を受信する前、(f)複数のバーコードを使用して複数の細胞内の複数の標的をバーコーディングして、複数のバーコード付き標的を作成することであって、複数のバーコードのそれぞれは、細胞標識及び分子標識を含み、異なる細胞の標的から作成されるバーコード付き標的は、異なる細胞標識を有し、複数の細胞の1つの細胞の標的から作成されるバーコード付き標的は、異なる分子標識を有する、バーコーディングして複数のバーコード付き標的を作成することと、(g)複数のバーコード付き標的の配列データを取得することと、(h)複数の細胞のそれぞれについて、(1)細胞の配列データ内の複数の標的の各標的に関連付けられた別個の配列を有する分子標識の数をカウントすることと、(2)(h)(1)においてカウントされた配列データ内の標的に関連付けられた別個の配列を有する分子標識の数に基づいて、細胞の複数の標的の各標的の数を推定することとを含む。例えば、本方法は、(a)において標的カウントデータ構造を受信する前、ステップ(f)複数の確率的バーコードを使用して複数の細胞内の複数の標的を確率的にバーコーディングして、複数の確率的バーコード付き標的を作成するステップであって、複数の確率的バーコードのそれぞれは、細胞標識及び分子標識を含み、異なる細胞の標的から作成される確率的バーコード付き標的は、異なる細胞標識を有し、複数の細胞の1つの細胞の標的から作成される確率的バーコード付き標的は、異なる分子標識を有する、ステップ(f)及び/又はステップ(g)複数の確率的バーコード付き標的の配列データを取得するステップを含むことができる。標的カウントデータ構造を受信することは、(h)(2)において推定された細胞の複数の標的の各標的の数から、標的カウントデータ構造を生成することであって、複数の細胞のうちの細胞の発現プロファイルは、(h)(2)において推定された細胞の複数の標的の各標的の数を含む、生成することを含むことができる。
【0009】
幾つかの実施形態では、本方法は、(b)において、標的カウントデータ構造及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングして、複数の細胞の発現プロファイルを表す系統樹を生成する前、(i)標的カウントデータ構造の要素の距離データ構造を特定することであって、距離データ構造は、複数の細胞の発現プロファイル間の距離を含む、特定することを含む。距離データ構造は距離マトリックスを含むことができる。距離マトリックスの各対角線要素は0の値を有することができる。(b)において、標的カウントデータ構造及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングして、複数の細胞の発現プロファイルを表す系統樹を生成することは、標的カウントデータ構造及び距離データ構造に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングすることを含むことができる。複数の細胞の発現プロファイル間の距離は、複数の細胞の発現プロファイル間のペア毎の相関距離を含むことができる。
【0010】
幾つかの実施形態では、(i)において標的カウントデータ構造の要素の距離データ構造を特定する前、標的カウントデータ構造を対数変換して、対数変換済み標的カウントデータ構造にすること、標的カウントデータ構造の要素の距離データ構造を特定することは、対数変換済み標的カウントデータ構造の距離データ構造を特定することを含み、(b)において、標的カウントデータ構造及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングすることは、対数変換済み標的カウントデータ構造及び距離データ構造に基づいて複数の細胞の発現プロファイルを階層的にクラスタリングして、系統樹を生成することを含む。標的カウントデータ構造を対数変換済み標的カウントデータ構造に対数変換することは、標的カウントデータ構造の各要素の値を増分(1等)によって増大させることを含むことができる。
【0011】
幾つかの実施形態では、(b)において、標的カウントデータ構造及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングすることは、複数の細胞の各発現プロファイルを異なるリーフノードに割り当てることと、第2のノードが第1のノードへの複数のノードの最近傍ノードである場合、複数のノードの第1のノード及び第2のノードを繰り返し結合して、第1のノード及び第2のノードの親ノードを生成することとを含む。第1のノードと第2のノードとの間の距離は、第1のノードによって表される発現プロファイルを有する任意の細胞と、第2のノードによって表される発現プロファイルを有する任意の細胞との間の最大距離である。
【0012】
幾つかの実施形態では、本方法は、系統樹の複数のノードをトラバースする際、各ノードにおいて、分割が有効である場合、ノードからノードの左子ノード及びノードの右子ノードに引き続きトラバースすることと、分割が無効である場合、ノードからノードの左子ノード及び右子ノードへのトラバースを停止することとを含む。第1のノードのノード内相関及び第2のノードのノード内相関の少なくとも一方は、第1のノードと第2のノードとのノード間相関よりも高い値であることができる。第1のノードのノード内相関及び第2のノードのノード内相関の尺度又は指示は、第1のノードと第2のノードとのノード間相関よりも高い値であることができる。第1のノードのノード内相関及び第2のノードのノード内相関の尺度は、第1のノード及び第2のノードのノード内最大相関、第1のノード及び第2のノードのノード内平均相関、第1のノード及び第2のノードのノード内メジアン相関、第1のノード及び第2のノードのノード内最小相関、並びにそれらの任意の組合せの少なくとも1つに基づくことができる。第1のノードのノード内相関は、第1のノードのノード内最大相関、第1のノードのノード内平均相関、第1のノードのノード内メジアン相関、第1のノードのノード内最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。第2のノードのノード内相関は、第2のノードのノード内最大相関、第2のノードのノード内平均相関、第2のノードのノード内メジアン相関、第2のノードのノード内最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。第1のノードと第2のノードとのノード間相関は、第1のノードと第2のノードとのノード間最大相関、第1のノードと第2のノードとのノード間平均相関、第1のノードと第2のノードとのノード間メジアン相関、第1のノードと第2のノードとのノード間最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。
【0013】
幾つかの実施形態では、ノードの子ノードを有するノードの分割が有効であるか、それとも無効であるかを判断することは、左子ノードと右子ノードとの間の距離が分割閾値を超える場合、分割を有効と判断することと、その他の場合、無効と判断することとを含む。左子ノードと右子ノードとの間の距離は、左子ノード及び右子ノードによって表される発現プロファイル間の複数の標的の各標的で実行される統計検定に基づいて特定することができる。統計検定はウェルチt検定を含むことができる。左子ノードと右子ノードとの間の距離は、左子ノードによって表される各発現プロファイルと右子ノードによって表される各発現プロファイルとの間の複数の標的の各標的に対して実行される統計検定の最大p値に基づいて特定することができる。
【0014】
幾つかの実施形態では、ノードの子ノードを有するノードの分割が有効であるか、それとも無効であるかを判断することは、第1のノードのノード内相関及び第2のノードのノード内相関の少なくとも一方が、第1のノードと第2のノードとのノード間相関よりも高い値である場合、分割を有効と判断することと、その他の場合、無効と判断することとを含む。幾つかの実施形態では、ノードの子ノードを有するノードの分割が有効であるか、それとも無効であるかを判断することは、第1のノードのノード内相関及び第2のノードのノード内相関の尺度又は指示が、第1のノードと第2のノードとのノード間相関よりも高い値である場合、分割を有効と判断することと、その他の場合、無効と判断することとを含む。第1のノードのノード内相関及び第2のノードのノード内相関の尺度は、第1のノード及び第2のノードのノード内最大相関、第1のノード及び第2のノードのノード内平均相関、第1のノード及び第2のノードのノード内メジアン相関、第1のノード及び第2のノードのノード内最小相関、並びにそれらの任意の組合せの少なくとも1つに基づくことができる。第1のノードのノード内相関は、第1のノードのノード内最大相関、第1のノードのノード内平均相関、第1のノードのノード内メジアン相関、第1のノードのノード内最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。第2のノードのノード内相関は、第2のノードのノード内最大相関、第2のノードのノード内平均相関、第2のノードのノード内メジアン相関、第2のノードのノード内最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。第1のノードと第2のノードとのノード間相関は、第1のノードと第2のノードとのノード間最大相関、第1のノードと第2のノードとのノード間平均相関、第1のノードと第2のノードとのノード間メジアン相関、第1のノードと第2のノードとのノード間最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。
【0015】
幾つかの実施形態では、本方法は、系統樹の複数のノードをトラバースする際、各ノードにおいて、(3)ノードが1つの細胞の発現プロファイルを表す場合、ノードを統合クラスタセットに追加することを含む。幾つかの実施形態では、本方法は、系統樹の複数のノードをトラバースする際、各ノードにおいて、ノード標識をノードに割り当てることを含むことができる。ノードが1つの細胞の発現プロファイルを表す場合、ノードのノード標識は、1つの細胞名称を含み、その他の場合、ノードが親ノードの左子ノードであるとき、ノードのノード標識は、親ノードのノード標識及び左名称を含み、その他のとき、ノードのノード標識は、親ノードのノード標識及び右名称を含む。
【0016】
幾つかの実施形態では、統合クラスタセット内の各ノードについて、ノードによって表される細胞の複数の標的の発現プロファイルに基づいて細胞タイプを区別する標的を識別することは、細胞タイプを区別する標的に関連付けられた別個の配列を有する分子標識数を単位として、ノードによって表される発現プロファイルと、統合クラスタセット内の別のノードによって表される発現プロファイルとの差が有意な閾値よりも大きいと判断することを含む。
【0017】
幾つかの実施形態では、本方法は、(d)において第1のノードを第2のノードと統合して、統合ノードを生成する前、第3のノードと第4のノードとの間の距離がノード距離閾値内にある場合、1つの細胞の発現プロファイルを表す統合クラスタセット内の第3のノードのそれぞれを統合クラスタセット内の第4のノードと統合することを含む。幾つかの実施形態では、本方法は、細胞の発現プロファイルを表す統合クラスタセット内のノードに基づいて複数の細胞を分類することを含む。本方法は、識別された細胞タイプを区別する標的に基づいて全体トランスクリプトームアッセイを指定することを含むことができる。幾つかの実施形態では、本方法は、識別された細胞タイプを区別する標的に基づいて、標的とされるトランスクリプトームアッセイを指定することを含むことができる。
【0018】
本明細書に開示されるのは、細胞タイプを区別する標的を識別する方法である。幾つかの実施形態では、本方法は、(a)複数の細胞の発現プロファイルを受信することであって、発現プロファイルは、複数の細胞の各細胞の複数の標的の各標的を幾つか含む、受信することと、(b)標的カウントマトリックス及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングして、複数の細胞の発現プロファイルを表す系統樹を生成することであって、系統樹は複数のノードを含み、複数のノードは、ルートノード、複数のリーフノード、及び複数の非ルート非リーフノードを含み、複数のリーフノードの各リーフノードは、複数の細胞の異なる細胞の発現プロファイルを表し、ルートノードは、複数の細胞の発現プロファイルを表す、階層的にクラスタリングして、系統樹を生成することと、(c)系統樹の複数のノードの各ノードを通して系統樹のルートノードから系統樹の複数のリーフノードまでトラバースする間、(1)ノードの2つの下位分岐(例えば、ノードの子ノードによって表される)が有意に異なるか否かを判断することと、(2)ノードの2つの下位分岐が有意に異なる場合、ノードを2つのクラスタセットに分割する(例えば、ノードの2つの下位分岐にトラバースすることにより)こととを含む。幾つかの実施形態では、本方法は、(3)ノードの子ノードへのノードの分割が無効である場合、ノードを統合クラスタセットに追加することを含む。幾つかの実施形態では、本方法は、(d)統合クラスタセット内の第1のノードのそれぞれについて、繰り返し、統合クラスタセット内の第1のノードと、第1のノードに最も近い統合クラスタセット内の第2のノードとの間の距離が、統合距離閾値内である場合、第1のノードを第2のノードと統合して、統合クラスタセット内に統合ノードを生成することと、(e)統合クラスタセット内のノードのそれぞれについて、ノードによって表される細胞の複数の標的の発現プロファイルに基づいて、細胞タイプを区別する標的を識別することとを含む。
【0019】
本明細書に記載されるのは、細胞タイプを区別する標的を識別する方法である。幾つかの実施形態では、本方法は、(a)複数の細胞の発現プロファイルを受信することであって、発現プロファイルは、複数の細胞の各細胞の複数の標的の各標的を幾つか含む、受信することと、(b)複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成することであって、各クラスタは、(1)親クラスタ及び(2)2つ以上の子クラスタのうちの一方又は両方との1つ又は複数の関連性を有し、親クラスタは、クラスタによって表される複数の細胞の1つ又は複数の細胞の発現プロファイルを表し、クラスタは、2つ以上の子クラスタによって表される発現プロファイルを表す、クラスタリングして生成することと、(c)2つ以上の子クラスタを有する各クラスタについて、クラスタと2つ以上の子クラスタとの関連性が無効である(2つ以上の子クラスタ間の差が有意ではない)場合、クラスタを統合クラスタセットに追加することと、(d)統合クラスタセット内の第1のクラスタのそれぞれについて、統合クラスタセット内の第1のクラスタと、第1のクラスタに最も近い統合クラスタセット内の第2のクラスタとの間の距離が、統合距離閾値内である場合、繰り返し、第1のクラスタ及び第2のクラスタを統合して、統合クラスタを生成することであって、統合クラスタは、第1のクラスタ及び第2のクラスタの発現プロファイルを含む、繰り返し統合することと、(e)統合クラスタセット内の各クラスタについて、クラスタによって表される細胞の複数の標的の発現プロファイルに基づいて細胞タイプを区別する標的を識別することとを含む。
【0020】
幾つかの実施形態では、複数の細胞の発現プロファイルを受信することは、標的カウントデータ構造を受信することを含む。標的カウントデータ構造は、標的カウントマトリックスを含むことができる。標的カウントマトリックスの各行又は各列は、複数の細胞の異なる個々の細胞の発現プロファイルを含むことができる。複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを発現プロファイルの複数のクラスタにクラスタリングすることは、複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングして、複数の細胞の発現プロファイルを表す系統樹を生成することを含むことができる。系統樹は複数のクラスタを含むことができる。複数のクラスタはルートクラスタ、複数のリーフクラスタ、及び複数の非ルート非リーフクラスタを含むことができる。リーフクラスタは、細胞の発現プロファイルを表すことができる。非ルート非リーフクラスタは、非ルート非リーフクラスタの子クラスタによって表される細胞の発現プロファイルを表すことができる。ルートクラスタは、子クラスタの発現プロファイルを表すことができる。複数のリーフクラスタ及び複数の非ルート非リーフクラスタのそれぞれは、親クラスタとの関連性を有することができる。ルートクラスタ及び複数の非ルート非リーフクラスタのそれぞれは、左子クラスタ及び右子クラスタとの関連性を有することができ、クラスタの左子クラスタ及び右子クラスタによって表される発現プロファイルを表す。ルートクラスタは、複数の細胞の発現プロファイルを表すことができる。
【0021】
幾つかの実施形態では、2つ以上の子クラスタを有する各クラスタについて、2つ以上の子クラスタとのクラスタ間の関連性が無効である場合、クラスタを統合クラスタセットに追加することは、系統樹のルートクラスタから系統樹の各クラスタを通して系統樹の複数のリーフクラスタにトラバースする間、(1)クラスタとクラスタの子クラスタとの関連性が有効であるか、それとも無効であるかを判断することと、(2)関連性が無効である場合、クラスタを統合クラスタセットに追加することとを含む。
【0022】
幾つかの実施形態では、本方法は、(a)において、複数の細胞の発現プロファイルを受信する前、(f)複数のバーコードを使用して複数の細胞内の複数の標的をバーコーディングして、複数のバーコード付き標的を作成することであって、複数のバーコードのそれぞれは、細胞標識及び分子標識を含み、異なる細胞の標的から作成されるバーコード付き標的は、異なる細胞標識を有し、複数の細胞の1つの細胞の標的から作成されるバーコード付き標的は、異なる分子標識を有する、バーコーディングして複数のバーコード付き標的を作成することと、(g)複数のバーコード付き標的の配列データを取得することと、(h)複数の細胞のそれぞれについて、(1)細胞の配列データ内の複数の標的の各標的に関連付けられた別個の配列を有する分子標識の数をカウントすることと、(2)(h)(1)においてカウントされた配列データ内の標的に関連付けられた別個の配列を有する分子標識の数に基づいて、細胞の複数の標的の各標的の数を推定することとを含む。例えば、本方法は、(a)において複数の細胞の発現プロファイルを受信する前、ステップ(f)複数の確率的バーコードを使用して複数の細胞内の複数の標的を確率的にバーコーディングして、複数の確率的バーコード付き標的を作成するステップであって、複数の確率的バーコードのそれぞれは、細胞標識及び分子標識を含み、異なる細胞の標的から作成される確率的バーコード付き標的は、異なる細胞標識を有し、複数の細胞の1つの細胞の標的から作成される確率的バーコード付き標的は、異なる分子標識を有する、ステップ(f)及び/又はステップ(g)複数の確率的バーコード付き標的の配列データを取得するステップを含むことができる。
【0023】
幾つかの実施形態では、複数の細胞のうちの細胞の発現プロファイルは、(h)(2)において推定された細胞の複数の標的の各標的の数を含む。幾つかの実施形態では、本方法は、(b)において、複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成する前、(i)複数の細胞の発現プロファイルの距離データ構造を特定することを含む。距離データ構造は、複数の細胞の発現プロファイルの距離マトリックスを含むことができる。距離マトリックスの各対角線要素は0の値を有する。(b)において、複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成することは、距離マトリックスに基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成することを含むことができる。複数の細胞の発現プロファイル間の距離は、複数の細胞の発現プロファイル間のペア毎の相関距離であることができる。
【0024】
幾つかの実施形態では、本方法は、(i)において距離データ構造を特定する前、標的カウントデータ構造を対数変換済み標的カウントデータ構造に対数変換することを含み、標的カウントデータ構造の要素の距離データ構造を特定することは、対数変換済み標的カウントデータ構造の距離データ構造を特定することを含み、(b)において、複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成することは、対数変換済み標的カウントデータ構造及び距離データ構造に基づいて、複数の細胞の発現プロファイルをクラスタリングして、複数のクラスタを生成することを含む。標的カウントデータ構造を対数変換済み標的カウントデータ構造に対数変換することは、標的カウントデータ構造の各要素の値を増分によって増大させることを含むことができる。増分は1であることができる。
【0025】
幾つかの実施形態では、(b)において、複数の細胞の発現プロファイル間の距離に基づいて複数の細胞の発現プロファイルをクラスタリングすることは、複数の細胞の各発現プロファイルを複数のクラスタ内の異なるリーフクラスタに割り当てることと、第2のクラスタが第1のクラスタへの複数のクラスタの最近傍クラスタである場合、複数のクラスタの第1のクラスタ及び第2のクラスタを繰り返し結合して、第1のクラスタ及び第2のクラスタの親クラスタを生成することとを含む。第1のクラスタと第2のクラスタとの間の距離は、第1のクラスタによって表される任意の発現プロファイルと、第2のクラスタによって表される任意の発現プロファイルとの間の最大距離であることができる。
【0026】
幾つかの実施形態では、第1のクラスタのクラスタ内相関及び第2のクラスタのクラスタ内相関は、第1のクラスタと第2のクラスタとのクラスタ間相関よりも高い。第1のクラスタのクラスタ内相関及び第2のクラスタのクラスタ内相関の尺度又は指示は、第1のクラスタと第2のクラスタとのクラスタ間相関よりも高い。第1のクラスタのクラスタ内相関及び第2のクラスタのクラスタ内相関の尺度は、第1のクラスタ及び第2のクラスタのクラスタ内最大相関、第1のクラスタ及び第2のクラスタのクラスタ内平均相関、第1のクラスタ及び第2のクラスタのクラスタ内メジアン相関、第1のクラスタ及び第2のクラスタのクラスタ内最小相関、並びにそれらの任意の組合せの少なくとも1つに基づくことができる。第1のクラスタのクラスタ内相関は、第1のクラスタのクラスタ内最大相関、第1のクラスタのクラスタ内平均相関、第1のクラスタのクラスタ内メジアン相関、第1のクラスタのクラスタ内最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。第2のクラスタのクラスタ内相関は、第2のクラスタのクラスタ内最大相関、第2のクラスタのクラスタ内平均相関、第2のクラスタのクラスタ内メジアン相関、第2のクラスタのクラスタ内最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。第1のクラスタと第2のクラスタとのクラスタ間相関は、第1のクラスタと第2のクラスタとのクラスタ間最大相関、第1のクラスタと第2のクラスタとのクラスタ間平均相関、第1のクラスタと第2のクラスタとのクラスタ間メジアン相関、第1のクラスタと第2のクラスタとのクラスタ間最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。
【0027】
幾つかの実施形態では、本方法は、系統樹の複数のクラスタをトラバースする際、各クラスタにおいて、関連性が有効である場合、クラスタからクラスタの左子クラスタ及びクラスタの右子クラスタに引き続きトラバースすることと、関連性が無効である場合、クラスタからクラスタの左子クラスタ及びクラスタの右子クラスタへのトラバースを停止することとを含む。クラスタの子クラスタとのクラスタの関連性が有効であるか、それとも無効であるかを判断することは、左子クラスタと右子クラスタとの間の距離が関連性閾値を超える場合、関連性を有効と判断することと、その他の場合、無効と判断することとを含むことができる。
【0028】
幾つかの実施形態では、左子クラスタと右子クラスタとの間の距離は、左子クラスタ及び右子クラスタによって表される発現プロファイル間の複数の標的の各標的で実行される統計検定に基づいて特定することができる。統計検定はウェルチt検定を含むことができる。左子クラスタと右子クラスタとの間の距離は、左子クラスタによって表される発現プロファイルと右子クラスタによって表される発現プロファイルとの間の複数の標的の各標的に対して実行される統計検定の最大p値に基づいて特定することができる。
【0029】
幾つかの実施形態では、クラスタの子クラスタとのクラスタの関連性が有効であるか、それとも無効であるかを判断することは、第1のクラスタのクラスタ内相関及び第2のクラスタのクラスタ内相関の少なくとも一方が、第1のクラスタと第2のクラスタとのクラスタ間相関よりも高い場合、有効であると判断し、その他の場合、無効であると判断することを含むことができる。幾つかの実施形態では、クラスタの子クラスタとのクラスタの関連性が有効であるか、それとも無効であるかを判断することは、第1のクラスタのクラスタ内相関及び第2のクラスタのクラスタ内相関の尺度又は指示が、第1のクラスタと第2のクラスタとのクラスタ間相関よりも高い場合、有効であると判断することを含むことができる。第1のクラスタのクラスタ内相関及び第2のクラスタのクラスタ内相関の尺度は、第1のクラスタ及び第2のクラスタのクラスタ内最大相関、第1のクラスタ及び第2のクラスタのクラスタ内平均相関、第1のクラスタ及び第2のクラスタのクラスタ内メジアン相関、第1のクラスタ及び第2のクラスタのクラスタ内最小相関、並びにそれらの任意の組合せの少なくとも1つに基づくことができる。第1のクラスタのクラスタ内相関は、第1のクラスタのクラスタ内最大相関、第1のクラスタのクラスタ内平均相関、第1のクラスタのクラスタ内メジアン相関、第1のクラスタのクラスタ内最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。第2のクラスタのクラスタ内相関は、第2のクラスタのクラスタ内最大相関、第2のクラスタのクラスタ内平均相関、第2のクラスタのクラスタ内メジアン相関、第2のクラスタのクラスタ内最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。第1のクラスタと第2のクラスタとのクラスタ間相関は、第1のクラスタと第2のクラスタとのクラスタ間最大相関、第1のクラスタと第2のクラスタとのクラスタ間平均相関、第1のクラスタと第2のクラスタとのクラスタ間メジアン相関、第1のクラスタと第2のクラスタとのクラスタ間最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。
【0030】
幾つかの実施形態では、本方法は、系統樹の複数のクラスタをトラバースする際、各クラスタにおいて、(3)クラスタが1つの細胞の発現プロファイルを表す場合、クラスタを統合クラスタセットに追加することを含む。方法は、系統樹の複数のクラスタをトラバースする際、各クラスタにおいて、クラスタ標識をクラスタに割り当てることを含むことができる。幾つかの実施形態では、クラスタが1つの細胞の発現プロファイルを表す場合、クラスタのクラスタ標識は、1つの細胞名称を含み、その他の場合、クラスタが親クラスタの左子クラスタであるとき、クラスタのクラスタ標識は、親クラスタのクラスタ標識及び左名称を含み、その他のとき、クラスタのクラスタ標識は、親クラスタのクラスタ標識及び右名称を含む。
【0031】
幾つかの実施形態では、統合クラスタセット内の各クラスタについて、クラスタによって表される細胞の複数の標的の発現プロファイルに基づいて細胞タイプを区別する標的を識別することは、細胞タイプを区別する標的に関連付けられた別個の配列を有する分子標識数を単位として、クラスタによって表される発現プロファイルと、統合クラスタセット内の別のクラスタによって表される発現プロファイルとの差が有意な閾値よりも大きいと判断することを含む。
【0032】
幾つかの実施形態では、本方法は、(d)において第1のクラスタを第2のクラスタと統合して、統合クラスタを生成する前、第3のクラスタと第4のクラスタとの間の距離がクラスタ距離閾値内にある場合、1つの細胞の発現プロファイルを表す統合クラスタセット内の第3のクラスタのそれぞれを統合クラスタセット内の第4のクラスタと統合することを含む。本方法は、細胞の発現プロファイルを表す統合クラスタセット内のクラスタに基づいて複数の細胞を分類することを含むことができる。本方法は、識別された細胞タイプを区別する標的に基づいて全体トランスクリプトームアッセイを指定すること又は識別された細胞タイプを区別する標的に基づいて、標的とされるトランスクリプトームアッセイを指定することを含むことができる。
【0033】
本明細書に開示されるのは、細胞タイプを区別する標的を識別するシステムである。幾つかの実施形態では、本システムは、ハードウェアプロセッサと、命令が記憶された非一時的メモリとを備え、命令は、ハードウェアプロセッサによって実行されると、プロセッサに、本明細書に開示される任意の方法を実行させる。本明細書に開示されるのは、細胞タイプを区別する標的を識別するコンピュータ可読媒体である。幾つかの実施形態では、本コンピュータ可読媒体は、本明細書に開示される任意の方法を実行するコードを含む。
【0034】
本明細書に開示されるのは、細胞タイプを区別する標的を識別するシステムの実施形態である。幾つかの実施形態では、本システムは、実行可能命令を記憶するように構成される非一時的メモリと、非一時的メモリと通信するハードウェアプロセッサとを備え、ハードウェアプロセッサは、実行可能命令により、(a)標的カウントデータ構造を受信することであって、標的カウントデータ構造は、複数の細胞の発現プロファイルを含み、複数の細胞の発現プロファイルは、複数の細胞の各細胞の複数の標的の各標的を幾つか含む、受信することと、(b)標的カウントデータ構造及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングして、複数の細胞の発現プロファイルを表す系統樹を生成することであって、系統樹は複数のノードを含み、複数のノードは、ルートノード、複数のリーフノード、及び複数の非ルート非リーフノードを含み、複数のリーフノードの各リーフノードは、複数の細胞の異なる細胞の発現プロファイルを表し、ルートノードは、複数の細胞の発現プロファイルを表す、階層的にクラスタリングして、系統樹を生成することと、(c)系統樹の複数のノードの各ノードを通して系統樹のルートノードから系統樹の複数のリーフノードまでトラバースする間、(1)ノードをノードの子ノードに分割することが有効であるか、それとも無効であるかを判断することと、(2)ノードをノードの子ノードに分割することが無効である場合、ノードを統合クラスタセットに追加することと、(d)統合クラスタセット内の第1のノードのそれぞれについて、繰り返し、統合クラスタセット内の第1のノードと、第1のノードに最も近い統合クラスタセット内の第2のノードとの間の距離が、統合距離閾値内である場合、第1のノードを第2のノードと統合して、第1のノード及び第2のノードによって表される発現プロファイルを含む統合ノードを生成することと、(e)統合クラスタセット内のノードのそれぞれについて、ノードによって表される細胞の複数の標的の発現プロファイルに基づいて、細胞タイプを区別する標的を識別することとを行うようにプログラムされる。
【0035】
幾つかの実施形態では、標的カウントデータ構造は、標的カウントマトリックスを含む。標的カウントマトリックスの各行又は各列は、複数の細胞の異なる個々の細胞の複数の標的の各標的を幾つか含むことができる。複数のリーフノード及び複数の非ルート非リーフノードのそれぞれには、親ノードを関連付けることができ、ルートノード及び複数の非ルート非リーフノードのそれぞれには、左子ノード及び右子ノードを関連付けることができ、ルートノード及び複数の非ルート非リーフノードのそれぞれは、ノードの左子ノード及び右子ノードによって表される発現プロファイルを表す。
【0036】
幾つかの実施形態では、ハードウェアプロセッサは、を行うようにプログラムすることができる。(a)において、標的カウントデータ構造を受信する前、(f)複数のバーコードを使用して複数の細胞内の複数の標的をバーコーディングして、複数のバーコード付き標的を作成することであって、複数のバーコードのそれぞれは、細胞標識及び分子標識を含み、異なる細胞の標的から作成されるバーコード付き標的は、異なる細胞標識を有し、複数の細胞の1つの細胞の標的から作成されるバーコード付き標的は、異なる分子標識を有する、バーコーディングして複数のバーコード付き標的を作成することと、(g)複数のバーコード付き標的の配列データを取得することと、(h)複数の細胞のそれぞれについて、(1)細胞の配列データ内の複数の標的の各標的に関連付けられた別個の配列を有する分子標識の数をカウントすることと、(2)(h)(1)においてカウントされた配列データ内の標的に関連付けられた別個の配列を有する分子標識の数に基づいて、細胞の複数の標的の各標的の数を推定することとを含む。標的カウントデータ構造を受信するために、ハードウェアプロセッサは、(h)(2)において推定された細胞の複数の標的の各標的の数から、標的カウントデータ構造を生成するようにプログラムすることができ、複数の細胞のうちの細胞の発現プロファイルは、(h)(2)において推定された細胞の複数の標的の各標的の数を含む。
【0037】
幾つかの実施形態では、ハードウェアプロセッサは、(b)において、標的カウントデータ構造及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングして、複数の細胞の発現プロファイルを表す系統樹を生成する前、(i)標的カウントデータ構造の要素の距離データ構造を特定するようにプログラムすることができ、距離データ構造は、複数の細胞の発現プロファイル間の距離を含む。距離データ構造は距離マトリックスを含む。距離マトリックスの各対角線要素は0の値を有する。
【0038】
幾つかの実施形態では、(b)において、標的カウントデータ構造及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングして、複数の細胞の発現プロファイルを表す系統樹を生成するために、ハードウェアプロセッサは、標的カウントデータ構造及び距離データ構造に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングするようにプログラムすることができる。複数の細胞の発現プロファイル間の距離は、複数の細胞の発現プロファイル間のペア毎の相関距離を含むことができる。
【0039】
幾つかの実施形態では、ハードウェアプロセッサは、(i)において標的カウントデータ構造の要素の距離データ構造を特定する前、標的カウントデータ構造を対数変換して、対数変換済み標的カウントデータ構造にするようにプログラムすることができる。標的カウントデータ構造の要素の距離データ構造を特定するために、ハードウェアプロセッサは、対数変換済み標的カウントデータ構造の距離データ構造を特定するようにプログラムすることができる。(b)において、標的カウントデータ構造及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングするために、ハードウェアプロセッサは、対数変換済み標的カウントデータ構造及び距離データ構造に基づいて複数の細胞の発現プロファイルを階層的にクラスタリングして、系統樹を生成するようにプログラムすることができる。標的カウントデータ構造を対数変換済み標的カウントデータ構造に対数変換するために、ハードウェアプロセッサは、標的カウントデータ構造の各要素の値を増分によって増大させるようにプログラムすることができる。増分は1であることができる。
【0040】
(b)において、標的カウントデータ構造及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングするために、ハードウェアプロセッサは、複数の細胞の各発現プロファイルを異なるリーフノードに割り当てることと、第2のノードが第1のノードへの複数のノードの最近傍ノードである場合、複数のノードの第1のノード及び第2のノードを繰り返し結合して、第1のノード及び第2のノードの親ノードを生成することとを行うようにプログラムすることができる。第1のノードと第2のノードとの間の距離は、第1のノードによって表される発現プロファイルを有する任意の細胞と、第2のノードによって表される発現プロファイルを有する任意の細胞との間の最大距離であることができる。
【0041】
幾つかの実施形態では、第1のノードのノード内相関及び第2のノードのノード内相関の少なくとも一方は、第1のノードと第2のノードとのノード間相関よりも高い値であることができる。第1のノードのノード内相関及び第2のノードのノード内相関の尺度又は指示は、第1のノードと第2のノードとのノード間相関よりも高い値であることができる。第1のノードのノード内相関及び第2のノードのノード内相関の尺度は、第1のノード及び第2のノードのノード内最大相関、第1のノード及び第2のノードのノード内平均相関、第1のノード及び第2のノードのノード内メジアン相関、第1のノード及び第2のノードのノード内最小相関、並びにそれらの任意の組合せの少なくとも1つに基づくことができる。第1のノードのノード内相関は、第1のノードのノード内最大相関、第1のノードのノード内平均相関、第1のノードのノード内メジアン相関、第1のノードのノード内最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。第2のノードのノード内相関は、第2のノードのノード内最大相関、第2のノードのノード内平均相関、第2のノードのノード内メジアン相関、第2のノードのノード内最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。第1のノードと第2のノードとのノード間相関は、第1のノードと第2のノードとのノード間最大相関、第1のノードと第2のノードとのノード間平均相関、第1のノードと第2のノードとのノード間メジアン相関、第1のノードと第2のノードとのノード間最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。
【0042】
幾つかの実施形態では、ハードウェアプロセッサは、系統樹の複数のノードをトラバースする際、各ノードにおいて、分割が有効である場合、ノードからノードの左子ノード及びノードの右子ノードに引き続きトラバースすることと、分割が無効である場合、ノードからノードの左子ノード及び右子ノードへのトラバースを停止することとを行うようにプログラムすることができる。ノードの子ノードを有するノードの分割が有効であるか、それとも無効であるかを判断するために、ハードウェアプロセッサは、左子ノードと右子ノードとの間の距離が分割閾値を超える場合、分割を有効と判断することと、その他の場合、無効と判断することとを行うようにプログラムすることができる。左子ノードと右子ノードとの間の距離は、左子ノード及び右子ノードによって表される発現プロファイル間の複数の標的の各標的で実行される統計検定に基づいて特定することができる。統計検定はウェルチt検定を含むことができる。左子ノードと右子ノードとの間の距離は、左子ノードによって表される各発現プロファイルと右子ノードによって表される各発現プロファイルとの間の複数の標的の各標的に対して実行される統計検定の最大p値に基づいて特定することができる。
【0043】
幾つかの実施形態では、ハードウェアプロセッサは、系統樹の複数のノードをトラバースする際、各ノードにおいて、(3)ノードが1つの細胞の発現プロファイルを表す場合、ノードを統合クラスタセットに追加するようにプログラムすることができる。幾つかの実施形態では、系統樹の複数のノードをトラバースする際、各ノードにおいて、ハードウェアプロセッサは、ノード標識をノードに割り当てるようにプログラムすることができる。ノードが1つの細胞の発現プロファイルを表す場合、ノードのノード標識は、1つの細胞名称を含み、その他の場合、ノードが親ノードの左子ノードであるとき、ノードのノード標識は、親ノードのノード標識及び左名称を含み、その他のとき、ノードのノード標識は、親ノードのノード標識及び右名称を含む。
【0044】
幾つかの実施形態では、統合クラスタセット内の各ノードについて、ノードによって表される細胞の複数の標的の発現プロファイルに基づいて細胞タイプを区別する標的を識別すること、ハードウェアプロセッサは、細胞タイプを区別する標的に関連付けられた別個の配列を有する分子標識数を単位として、ノードによって表される発現プロファイルと、統合クラスタセット内の別のノードによって表される発現プロファイルとの差が有意な閾値よりも大きいと判断するようにプログラムすることができる。
【0045】
幾つかの実施形態では、ハードウェアプロセッサは、(d)において第1のノードを第2のノードと統合して、統合ノードを生成する前、第3のノードと第4のノードとの間の距離がノード距離閾値内にある場合、1つの細胞の発現プロファイルを表す統合クラスタセット内の第3のノードのそれぞれを統合クラスタセット内の第4のノードと統合するようにプログラムすることができる。ハードウェアプロセッサは、細胞の発現プロファイルを表す統合クラスタセット内のノードに基づいて複数の細胞を分類するようにプログラムすることができる。ハードウェアプロセッサは、識別された細胞タイプを区別する標的に基づいて全体トランスクリプトームアッセイを指定するようにプログラムすることができる。ハードウェアプロセッサは、識別された細胞タイプを区別する標的に基づいて、標的とされるトランスクリプトームアッセイを指定するようにプログラムすることができる。
【0046】
本明細書に開示されるのは、細胞タイプを区別する標的を識別するシステムの実施形態である。幾つかの実施形態では、本システムは、実行可能命令を記憶するように構成される非一時的メモリと、非一時的メモリと通信するハードウェアプロセッサとを備え、ハードウェアプロセッサは、実行可能命令により、(a)複数の細胞の発現プロファイルを受信することであって、発現プロファイルは、複数の細胞の各細胞の複数の標的の各標的を幾つか含む、受信することと、(b)複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成することであって、各クラスタは、(1)親クラスタ及び(2)2つ以上の子クラスタのうちの一方又は両方との1つ又は複数の関連性を有し、親クラスタは、クラスタによって表される複数の細胞の1つ又は複数の細胞の発現プロファイルを表し、クラスタは、2つ以上の子クラスタによって表される発現プロファイルを表す、クラスタリングして生成することと、(c)2つ以上の子クラスタを有する各クラスタについて、クラスタと2つ以上の子クラスタとの関連性が無効である場合、クラスタを統合クラスタセットに追加することと、(d)統合クラスタセット内の第1のクラスタのそれぞれについて、統合クラスタセット内の第1のクラスタと、第1のクラスタに最も近い統合クラスタセット内の第2のクラスタとの間の距離が、統合距離閾値内である場合、繰り返し、第1のクラスタ及び第2のクラスタを統合して、統合クラスタを生成することであって、統合クラスタは、第1のクラスタ及び第2のクラスタの発現プロファイルを含む、繰り返し統合することと、(e)統合クラスタセット内の各クラスタについて、クラスタによって表される細胞の複数の標的の発現プロファイルに基づいて細胞タイプを区別する標的を識別することとを行うようにプログラムされる。
【0047】
幾つかの実施形態では、ハードウェアプロセッサは、複数の細胞の発現プロファイルを受信するようにプログラムすることができ、標的カウントデータ構造を受信することを含む。標的カウントデータ構造は、標的カウントマトリックスを含むことができる。標的カウントマトリックスの各行又は各列は、複数の細胞の異なる個々の細胞の発現プロファイルを含むことができる。
【0048】
幾つかの実施形態では、複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを発現プロファイルの複数のクラスタにクラスタリングするために、ハードウェアプロセッサは、複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングして、複数の細胞の発現プロファイルを表す系統樹を生成するようにプログラムすることができ、系統樹は複数のクラスタを含み、複数のクラスタはルートクラスタ、複数のリーフクラスタ、及び複数の非ルート非リーフクラスタを含む。複数のリーフクラスタ及び複数の非ルート非リーフクラスタのそれぞれは、親クラスタとの関連性を有することができる。ルートクラスタ及び複数の非ルート非リーフクラスタのそれぞれは、左子クラスタ及び右子クラスタとの関連性を有することができ、クラスタの左子クラスタ及び右子クラスタによって表される発現プロファイルを表す。ルートクラスタは、複数の細胞の発現プロファイルを表すことができる。2つ以上の子クラスタを有する各クラスタについて、2つ以上の子クラスタとのクラスタ間の関連性が無効である場合、クラスタを統合クラスタセットに追加すること、ハードウェアプロセッサは、系統樹のルートクラスタから系統樹の各クラスタを通して系統樹の複数のリーフクラスタにトラバースする間、(1)クラスタとクラスタの子クラスタとの関連性が有効であるか、それとも無効であるかを判断することと、(2)関連性が無効である場合、クラスタを統合クラスタセットに追加することとを行うようにプログラムすることができる。
【0049】
幾つかの実施形態では、ハードウェアプロセッサは、(a)において、複数の細胞の発現プロファイルを受信する前、(f)複数のバーコードを使用して複数の細胞内の複数の標的をバーコーディングして、複数のバーコード付き標的を作成することであって、複数のバーコードのそれぞれは、細胞標識及び分子標識を含み、異なる細胞の標的から作成されるバーコード付き標的は、異なる細胞標識を有し、複数の細胞の1つの細胞の標的から作成されるバーコード付き標的は、異なる分子標識を有する、バーコーディングして複数のバーコード付き標的を作成することと、(g)複数のバーコード付き標的の配列データを取得することと、(h)複数の細胞のそれぞれについて、(1)細胞の配列データ内の複数の標的の各標的に関連付けられた別個の配列を有する分子標識の数をカウントすることと、(2)(h)(1)においてカウントされた配列データ内の標的に関連付けられた別個の配列を有する分子標識の数に基づいて、細胞の複数の標的の各標的の数を推定することとを行うようにプログラムすることができる。複数の細胞のうちの細胞の発現プロファイルは、(h)(2)において推定された細胞の複数の標的の各標的の数を含むことができる。
【0050】
幾つかの実施形態では、ハードウェアプロセッサは、(b)において、複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成する前、(i)複数の細胞の発現プロファイルの距離データ構造を特定するようにプログラムすることができる。距離データ構造は、複数の細胞の発現プロファイルの距離マトリックスを含むことができる。距離マトリックスの各対角線要素は0の値を有することができる。(b)において、複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成するために、ハードウェアプロセッサは、距離マトリックスに基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成するようにプログラムすることができる。複数の細胞の発現プロファイル間の距離は、複数の細胞の発現プロファイル間のペア毎の相関距離であることができる。
【0051】
幾つかの実施形態では、ハードウェアプロセッサは、(i)において距離データ構造を特定する前、標的カウントデータ構造を対数変換済み標的カウントデータ構造に対数変換するようにプログラムすることができる。標的カウントデータ構造の要素の距離データ構造を特定するために、ハードウェアプロセッサは、対数変換済み標的カウントデータ構造の距離データ構造を特定するようにプログラムすることができる。(b)において、複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成するために、ハードウェアプロセッサは、対数変換済み標的カウントデータ構造及び距離データ構造に基づいて、複数の細胞の発現プロファイルをクラスタリングして、複数のクラスタを生成するようにプログラムすることができる。標的カウントデータ構造を対数変換済み標的カウントデータ構造に対数変換するために、ハードウェアプロセッサは、標的カウントデータ構造の各要素の値を増分によって増大させるようにプログラムすることができる。増分は1であることができる。
【0052】
幾つかの実施形態では、(b)において、複数の細胞の発現プロファイル間の距離に基づいて複数の細胞の発現プロファイルをクラスタリングするために、ハードウェアプロセッサは、複数の細胞の各発現プロファイルを異なるリーフクラスタに割り当てることと、第2のクラスタが第1のクラスタへの複数のクラスタの最近傍クラスタである場合、複数のクラスタの第1のクラスタ及び第2のクラスタを繰り返し結合して、第1のクラスタ及び第2のクラスタの親クラスタを生成することとを行うようにプログラムすることができる。第1のクラスタと第2のクラスタとの間の距離は、第1のクラスタによって表される任意の発現プロファイルと、第2のクラスタによって表される任意の発現プロファイルとの間の最大距離であることができる。
【0053】
幾つかの実施形態では、第1のクラスタのクラスタ内相関及び第2のクラスタのクラスタ内相関は、第1のクラスタと第2のクラスタとのクラスタ間相関よりも高い。第1のクラスタのクラスタ内相関及び第2のクラスタのクラスタ内相関の尺度又は指示は、第1のクラスタと第2のクラスタとのクラスタ間相関よりも高い値であることができる。第1のクラスタのクラスタ内相関及び第2のクラスタのクラスタ内相関の尺度は、第1のクラスタ及び第2のクラスタのクラスタ内最大相関、第1のクラスタ及び第2のクラスタのクラスタ内平均相関、第1のクラスタ及び第2のクラスタのクラスタ内メジアン相関、第1のクラスタ及び第2のクラスタのクラスタ内最小相関、並びにそれらの任意の組合せの少なくとも1つに基づくことができる。第1のクラスタのクラスタ内相関は、第1のクラスタのクラスタ内最大相関、第1のクラスタのクラスタ内平均相関、第1のクラスタのクラスタ内メジアン相関、第1のクラスタのクラスタ内最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。第2のクラスタのクラスタ内相関は、第2のクラスタのクラスタ内最大相関、第2のクラスタのクラスタ内平均相関、第2のクラスタのクラスタ内メジアン相関、第2のクラスタのクラスタ内最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。第1のクラスタと第2のクラスタとのクラスタ間相関は、第1のクラスタと第2のクラスタとのクラスタ間最大相関、第1のクラスタと第2のクラスタとのクラスタ間平均相関、第1のクラスタと第2のクラスタとのクラスタ間メジアン相関、第1のクラスタと第2のクラスタとのクラスタ間最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。
【0054】
幾つかの実施形態では、ハードウェアプロセッサは、系統樹の複数のクラスタをトラバースする際、各クラスタにおいて、関連性が有効である場合、クラスタからクラスタの左子クラスタ及びクラスタの右子クラスタに引き続きトラバースすることと、関連性が無効である場合、クラスタからクラスタの左子クラスタ及びクラスタの右子クラスタへのトラバースを停止することとを行うようにプログラムすることができる。クラスタの子クラスタとのクラスタの関連性が有効であるか、それとも無効であるかを判断するために、ハードウェアプロセッサは、左子クラスタと右子クラスタとの間の距離が関連性閾値を超える場合、関連性を有効と判断することと、その他の場合、無効と判断することとを行うようにプログラムすることができる。左子クラスタと右子クラスタとの間の距離は、左子クラスタ及び右子クラスタによって表される発現プロファイル間の複数の標的の各標的で実行される統計検定に基づいて特定することができる。統計検定はウェルチt検定を含むことができる。左子クラスタと右子クラスタとの間の距離は、左子クラスタによって表される発現プロファイルと右子クラスタによって表される発現プロファイルとの間の複数の標的の各標的に対して実行される統計検定の最大p値に基づいて特定することができる。
【0055】
幾つかの実施形態では、ハードウェアプロセッサは、系統樹の複数のクラスタをトラバースする際、各クラスタにおいて、(3)クラスタが1つの細胞の発現プロファイルを表す場合、クラスタを統合クラスタセットに追加するようにプログラムすることができる。ハードウェアプロセッサは、系統樹の複数のクラスタをトラバースする際、各クラスタにおいて、クラスタ標識をクラスタに割り当てるようにプログラムすることができる。クラスタが1つの細胞の発現プロファイルを表す場合、クラスタのクラスタ標識は、1つの細胞名称を含み、その他の場合、クラスタが親クラスタの左子クラスタであるとき、クラスタのクラスタ標識は、親クラスタのクラスタ標識及び左名称を含み、その他のとき、クラスタのクラスタ標識は、親クラスタのクラスタ標識及び右名称を含む。
【0056】
幾つかの実施形態では、統合クラスタセット内の各クラスタについて、クラスタによって表される細胞の複数の標的の発現プロファイルに基づいて細胞タイプを区別する標的を識別すること、ハードウェアプロセッサは、細胞タイプを区別する標的に関連付けられた別個の配列を有する分子標識数を単位として、クラスタによって表される発現プロファイルと、統合クラスタセット内の別のクラスタによって表される発現プロファイルとの差が有意な閾値よりも大きいと判断するようにプログラムすることができる。ハードウェアプロセッサは、(d)において第1のクラスタを第2のクラスタと統合して、統合クラスタを生成する前、第3のクラスタと第4のクラスタとの間の距離がクラスタ距離閾値内にある場合、1つの細胞の発現プロファイルを表す統合クラスタセット内の第3のクラスタのそれぞれを統合クラスタセット内の第4のクラスタと統合するようにプログラムすることができる。
【0057】
幾つかの実施形態では、ハードウェアプロセッサは、細胞の発現プロファイルを表す統合クラスタセット内のクラスタに基づいて複数の細胞を分類するようにプログラムすることができる。ハードウェアプロセッサは、識別された細胞タイプを区別する標的に基づいて全体トランスクリプトームアッセイを指定するようにプログラムすることができる。ハードウェアプロセッサは、識別された細胞タイプを区別する標的に基づいて、標的とされるトランスクリプトームアッセイを指定するようにプログラムすることができる。
【図面の簡単な説明】
【0058】
【
図1】非限定的で例示的なバーコード(例えば、確率的バーコード)を示す。
【
図2】バーコーディング及びデジタルカウント(例えば、確率的バーコーディング及びデジタルカウント)の非限定的で例示的な作業フローを示す。
【
図3】複数の標的からバーコード付き標的(例えば、確率的バーコード付き標的)の索引付きライブラリを生成する非限定的で例示的なプロセスを示す概略図である。
【
図4】系統樹を使用して細胞の発現プロファイルをクラスタリングすることによって細胞タイプを区別する標的を識別する非限定的で例示的な方法を示すフローチャートである。
【
図6】細胞の発現プロファイルをクラスタリングすることによって細胞タイプを区別する標的を識別する非限定的で例示的な方法を示すフローチャートである。
【
図7】本開示の方法を実施するように構成される例示的な計算システムのブロック図である。
【
図8】パネル(a)~(d)は、単一の細胞の発現プロファイルを分割し統合した後、二次元空間における発現プロファイルの非限定的で例示的なプロットを示す。
【
図9A-9H】パネル(a)~(x)は、分割をいかに決定することができるかを示す二次元空間における発現プロファイルの非限定的で例示的なプロットである。
【
図10】分割の5番目のサイクル後の二次元空間での発現プロファイルの非限定的で例示的なプロットを示す。
【
図11】パネル(a)~(l)は、
図10に示される分割の5番目のサイクル中、系統樹における特定の分割が何故保持されたかを示す二次元空間での発現プロファイルの非限定的で例示的なプロットである。
【
図12A-12C】パネル(a)~(i)は、統合をいかに決定することができるかを示す二次元空間での発現プロファイルの非限定的で例示的なプロットである。
【
図13】統合の第2サイクル中の二次元空間での発現プロファイルの非限定的で例示的なプロットを示す。
【
図14】パネル(a)~(d)は、
図13に示される統合の第2サイクルがいかに決定されたかを示す二次元空間での発現プロファイルの非限定的で例示的なプロットである。
【
図15A-15B】パネル(a)~(f)は、1つの非限定的で例示的なタイプの差次的発現分析を示すプロットである。
【
図16A-16D】パネル(a)~(o)は、別の非限定的で例示的なタイプの差次的発現分析を示すプロットである。
【
図17】パネル(a)~(g)は、クラスタ間の距離を視覚化する非限定的で例示的なプロットである。
【
図18A-18F】パネル(a)~(e)は、非限定的で例示的な系統樹を示す。
【
図19A-19J】パネル(a)~(s)は、パラメータ掃引を示す非限定的で例示的なプロットである。
【
図20】パラメータ掃引をいかに使用して、閾値を識別することができるかを示す非限定的で例示的なプロットである。
【
図21A-21E】パネル(a)~(j)は、第1の分割の結果を示す非限定的で例示的なプロットである。
【
図22】二次元空間での発現プロファイルの分割結果を示す非限定的で例示的なプロットである。
【
図23A-23F】パネル(a)~(d)は、2つのクラスタに分類される発現プロファイルを示す非限定的で例示的な系統樹を示す。
【
図24】パラメータ掃引を示す別の非限定的で例示的なプロットである。
【発明を実施するための形態】
【0059】
以下の詳細な説明では、本明細書の一部をなす添付図面を参照する。図面中、同様のシンボルは通常、状況により別段のことが示される場合を除き、同様の構成要素を識別する。詳細な説明、図面、及び特許請求の範囲に記載される説明のために実施形態は、限定を意味しない。本明細書に提示される趣旨の意図又は範囲から逸脱せずに、他の実施形態が利用可能であり、他の変更が可能である。本開示の態様が、本明細書に概説され、図に示されるように、多種多様な異なる構成で配置、置換、結合、分離、及び設計することが可能であり、これらが全て本明細書において明示的に意図され、本開示の一部をなすことが容易に理解される。
【0060】
本明細書において引用される全ての特許、公開特許出願、他の公開物、及びGenBankからの配列、並びに他のデータベースは全体的に、関連技術に関して参照により本明細書に援用される。
【0061】
少数の拡散又は標的、例えば、メッセンジャーリボ核酸(mRNA)分子の定量化は、例えば、様々な開発段階又は様々な環境状況下で発現される遺伝子を特定するのに臨床的に重要である。しかしながら、特に分子数が非常に小さい場合、核酸分子(例えば、mRNA分子)の絶対数を特定するのは非常に難しい問題であり得る。試料中の分子の絶対数を特定する一方法は、デジタルポリメラーゼ連鎖反応(PCR)である。一意の分子標識(ML、分子インデックス(MI)とも呼ばれる)を有するバーコード(例えば、確率的バーコード)を使用して、分子数をカウントすることができる。各細胞標識に一意の分子標識を有するバーコードを使用して、各細胞内の分子数をカウントすることができる。バーコーディング(例えば、確率的バーコーディング)する非限定的で例示的なアッセイには、Precise(商標)アッセイ(Cellular Research,Inc.(カリフォルニア州パロアルト))、Resolve(商標)アッセイ(Cellular Research,Inc.(カリフォルニア州パロアルト))、又はRhapsody(商標)アッセイ(Cellular Research,Inc.(カリフォルニア州パロアルト))がある。
【0062】
Rhapsody(商標)アッセイは、RTステップ中、ポリ(T)オリゴヌクレオチド上に多数の、例えば、6561~65536個の一意の分子標識を有するバーコード(例えば、確率的バーコード)の非枯渇性プールを利用して、試料中の全てのポリ(A)-mRNAにハイブリダイズすることができる。分子標識に加えて、バーコードの細胞標識を使用して、マイクロウェルプレートの各ウェル内の1つの各細胞を同定することができる。バーコード(例えば、確率的バーコード)は、ユニバーサルPCRプライミング部位を含むことができる。RT中、標的遺伝子分子はランダムにバーコードと反応する。各標的分子はバーコードにハイブリダイズすることができ、その結果、バーコード付き相補的リボヌクレオチド酸(cDNA)分子(例えば、確率的バーコード付きcDNA分子)を生成する。標識後、マイクロウェルプレートのマイクロウェルからのバーコード付きcDNA分子は、PCR増幅及びシーケンシングに向けて1本の管にプールすることができる。生のシーケンシングデータを分析して、一意の分子標識を有するバーコード(例えば、確率的バーコード)の数を生成することができる。
【0063】
本明細書に開示されるのは、細胞タイプを区別する標的を識別する方法である。幾つかの実施形態では、方法は、(a)標的カウントデータ構造を受信することであって、標的カウントデータ構造は、複数の細胞の発現プロファイルを含み、複数の細胞の発現プロファイルは、複数の細胞の各細胞の複数の標的の各標的を幾つか含む、受信することと、(b)標的カウントデータ構造及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングして、複数の細胞の発現プロファイルを表す系統樹を生成することであって、系統樹は複数のノードを含み、複数のノードは、ルートノード、複数のリーフノード、及び複数の非ルート非リーフノードを含み、複数のリーフノードの各リーフノードは、複数の細胞の異なる細胞の発現プロファイルを表し、ルートノードは、複数の細胞の発現プロファイルを表す、階層的にクラスタリングして、系統樹を生成することと、(c)系統樹の複数のノードの各ノードを通して系統樹のルートノードから系統樹の複数のリーフノードまでトラバースする間、(1)ノードをノードの子ノードに分割することが有効であるか、それとも無効であるか(例えば、子ノード間の差が有意であるか否か)を判断することと、(2)ノードをノードの子ノードに分割することが無効である場合、ノードを統合クラスタセットに追加することと、(d)統合クラスタセット内の第1のノードのそれぞれについて、繰り返し、統合クラスタセット内の第1のノードと、第1のノードに最も近い統合クラスタセット内の第2のノードとの間の距離が、統合距離閾値内である場合、第1のノードを第2のノードと統合して、第1のノード及び第2のノードによって表される発現プロファイルを含む統合ノードを生成することと、(e)統合クラスタセット内のノードのそれぞれについて、ノードによって表される細胞の複数の標的の発現プロファイルに基づいて、細胞タイプを区別する標的を識別することとを含む。
【0064】
本明細書に開示される、細胞タイプを区別する標的を識別するシステムである。幾つかの実施形態では、システムは、ハードウェアプロセッサと、命令が記憶された非一時的メモリとを備え、命令は、ハードウェアプロセッサによって実行されると、プロセッサに、本明細書に開示される任意の方法を実行させる。本明細書に開示されるのは、細胞タイプを区別する標的を識別するコンピュータ可読媒体である。幾つかの実施形態では、本コンピュータ可読媒体は、本明細書に開示される任意の方法を実行するコードを含む。
【0065】
定義
別段のことが定義される場合を除き、本明細書で使用される技術用語及び科学用語は、本開示が属する分野の当業者によって一般に理解されるものと同じ意味を有する。例えば、Singletonら著、Dictionary of Microbiology and Molecular Biology 2nd ed.,J.Wiley&Sons(New York,NY 1994);Sambrookら著、Molecular Cloning,A Laboratory Manual,Cold Springs Harbor Press(Cold Springs Harbor,NY 1989)参照。本開示では、以下の用語は以下のように定義される。
【0066】
本明細書で使用される場合、用語「アダプター」は、関連付けられた核酸の増幅又はシーケンシングを促進する配列を意味することができる。関連付けられた核酸は、標的核酸を含むことができる。関連付けられた核酸は、空間標識、標的標識、試料標識、索引付け標識、バーコード、確率的バーコード、又は分子標識の1つ又は複数を含むことができる。アダプターは線形であることができる。アダプターは、プレアデニル化アダプターであることができる。アダプターは、二本鎖又は一本鎖であることができる。1つ又は複数のアダプターは、核酸の5’又は3’末端に配置することができる。アダプターが5’又は3’末端に既知の配列を含む場合、既知の配列は同じ又は異なる配列であることができる。ポリヌクレオチドの5’又は3’末端に配置されたアダプターは、表面上で固定化された1つ又は複数のオリゴヌクレオチドにハイブリダイズすることが可能である。アダプターは、幾つかの実施形態では、ユニバーサル配列を含むことができる。ユニバーサル配列は、2つ以上の核酸分子に共通するヌクレオチド配列の領域であることができる。2つの以上の核酸分子は、異なる配列の領域を有することができる。したがって、例えば、5’アダプターは同一及び/又はユニバーサル核酸配列を含むことができ、3’アダプターは同一及び/又はユニバーサル核酸配列を含むことができる。複数の核酸分子の異なるメンバに存在し得るユニバーサル配列は、ユニバーサル配列に相補的なシングルユニバーサルプライマーを使用して複数の異なる配列の複製又は増幅を可能にすることができる。同様に、核酸分子の集まりの異なるメンバに存在し得る少なくとも1つ、2つ(例えば、ペア)、又はそれを超える数のユニバーサル配列は、ユニバーサル配列に相補的な少なくとも1つ、2つ(例えば、ペア)、又はそれを超える数のシングルユニバーサルプライマーを使用して複数の異なる配列の複製又は増幅を可能にすることができる。したがって、ユニバーサルプライマーは、そのようなユニバーサル配列にハイブリダイズすることができる配列を含む。標的核酸配列担持分子は、ユニバーサルアダプター(例えば、非標的核酸配列)を異なる標的核酸配列の一端部又は両端部に付着させるように修飾し得る。標的核酸に付着した1つ又は複数のユニバーサルプライマーは、ユニバーサルプライマーがハイブリダイズする部位を提供することができる。標的核酸に付着した1つ又は複数のユニバーサルプライマーは、互いと同じ又は異なることができる。
【0067】
本明細書で使用される場合、「関連付けられた」又は「と関連付けられた」という用語は、2つ以上の種が、ある時点で同じ場所にあるものとして識別可能なことを意味することができる。関連性は、2つ以上の種が同様の容器内にある又はあったことを意味することができる。関連性はインフォマティクス関連性であることができ、その場合、例えば、2つ以上の種に関するデジタル情報が記憶され、種の1つ又は複数がある時点で同じ場所に配置されたとの判断に使用することができる。関連性は物理的な関連性であることができる。幾つかの実施形態では、2つ以上の関連付けられた種は、互いに又は共通の固体若しくは半固体表面に「テザリングされ」、「付着し」、又は「固定化され」る。関連性は、標識をビーズ等の固体又は半固体支持体に付着させる共有結合又は非共有結合手段と呼び得る。関連性は、標的と標識との間の共有結合であり得る。
【0068】
本明細書で使用される場合、「相補的」という用語は、2つのヌクレオチドを精密にペアリングする能力を指すことができる。例えば、核酸の所与の位置におけるヌクレオチドが、別の核酸のヌクレオチドと水素結合可能な場合、それらの2つの核酸は、その位置において互いに相補的であると見なされる。ヌクレオチドの幾つかのみが結合する2つの単鎖核酸分子間の相補性は、「部分的」であり得、又は完全相補性が単鎖分子間に存在する場合、完全であり得る。第1のヌクレオチド配列は、第1のヌクレオチド配列が第2のヌクレオチド配列と相補的である場合、第2の配列の「相補」であると言うことができる。第1のヌクレオチド配列は、第1のヌクレオチド配列が、第2の配列の逆(すなわち、ヌクレオチドの順序が逆)である配列と相補的である場合、第2の配列の「逆相補」であると言うことができる。本明細書で使用される場合、「相補」、「相補的」、及び「逆相補」という用語は同義で使用することができる。本開示から、分子を別の分子にハイブリダイズすることができる場合、その分子は、ハイブリダイズしている分子の相補であり得ることが理解される。
【0069】
本明細書で使用される場合、「デジタルカウント」という用語は、試料中の標的分子の数を推定する方法を指すことができる。デジタルカウントは、試料中の標的に関連付けられた一意の標識の数を特定するステップを含むことができる。この確率的方法論は、分子をカウントする問題を、同一分子を見つけて同定することから、1組の予め定義される標識の検出に関する一連のイエス/ノーデジタル質問に変換する。
【0070】
本明細書で使用される場合、「標識」又は「複数の標識」という用語は、試料内の標的に関連付けられた核酸コードを指すことができる。標識は、例えば、核酸標識であることができる。標識は、全体的又は部分的に増幅可能な標識であることができる。標識は、全体的又は部分的にシーケンシング可能な標識であることができる。標識は、別個として識別可能なネイティブ核酸の部分であることができる。標識は既知の配列であることができる。標識は、核酸配列の接合部、例えば、ネイティブ配列と非ネイティブ配列との接合部を含むことができる。本明細書で使用される場合、「標識」という用語は、「インデックス」、「タグ」、又は「標識タグ」という用語と同義で使用することができる。標識は情報を伝達することができる。例えば、様々な実施形態では、標識を使用して、試料の識別情報、試料のソース、細胞の識別情報、及び/又は標的を特定することができる。
【0071】
本明細書で使用される場合、「非枯渇性リザーバ」という用語は、多くの異なる標識で構成された確率的バーコードのプールを指すことができる。非枯渇性リザーバは、非枯渇性リザーバに標的のプールが関連付けられる場合、各標的が一意の確率的バーコードに関連付けられる可能性が高いような多数の異なる確率的バーコードを含むことができる。標識された各標的分子の一意性は、ランダム選択の統計によって決まることができ、標識の多様性と比較した、集まり中の同一標的分子のコピー数に依存する。その結果生成される、標識された標的分子の集合のサイズは、バーコーディングプロセスの確率性によって決まることができ、そして、検出された確率的バーコードの数の分析により、元の集まり又は試料中に存在する標的分子数を計算することができる。存在する標的分子の数と一意の確率的バーコードの数との比率が低い場合、標識された標的分子は高度に一意である(すなわち、2つ以上の標的分子が所与の標識で標識される確率は非常に低い)。
【0072】
本明細書で使用される場合、「核酸」という用語は、ポリヌクレオチド配列又はその断片を指す。核酸はヌクレオチドを含むことができる。核酸は、細胞に対して外因性又は内因性であることができる。核酸は、無細胞環境に存在することができる。核酸は遺伝子又はその断片であることができる。核酸はDNAであることができる。核酸はRNAであることができる。核酸は、1つ又は複数の類似体(例えば、改変骨格、糖、又はヌクレオ塩基)を含むことができる。類似体の幾つかの非限定的な例には、5-ブロモウラシル、ペプチド核酸、ゼノ核酸、モルフォリノ、ロックド核酸、グリコール核酸、トレオース核酸、ジデオキシヌクレオチド、コルジセピン、7-デアザ-GTP、フルオロフォア(例えば、糖にリンクされたローダミン又はフルオロセイン)、チオール含有ヌクレオチド、ビオチンリンクヌクレオチド、蛍光塩基類似体、CpG島、メチル-7-グアノシン、メチル化ヌクレオチド、イノシン、チオウリジン、プソイドウリジン、ジヒドロウリジン、キューオシン、及びワイオシンがある。「核酸」、「ポリヌクレオチド」、「標的ポリヌクレオチド」、及び「標的核酸」は、同義で使用することができる。
【0073】
核酸は、核酸に新しい又は強化された特徴(例えば、改善された安定性)を提供する1つ又は複数の修飾(例えば、塩基修飾、骨格修飾)を含むことができる。核酸は、核酸親和性タグを含むことができる。ヌクレオチドは塩基-糖の組合せであることができる。ヌクレオチドの塩基部分は、複素環塩基であることができる。そのような複素環塩基の2つの最も一般的なクラスは、プリン及びピリミジンである。ヌクレオチドは、ヌクレオチドの糖部分に共有結合したリン酸基を更に含むヌクレオチドであることができる。ペントフラノシル糖を含むヌクレオチドの場合、リン酸基は、糖の2’、3’、又は5’ヒドロキシル部分にリンクすることができる。核酸を形成するに当たり、リン酸基は隣接するヌクレオチドを互いに共有結合して、線状ポリマー化合物を形成することができる。そして、この線状ポリマー化合物の各末端を更に接合して、環形化合物を形成することができるが、線状化合物が一般に適する。加えて、線状化合物は、内部ヌクレオチド塩基相補性を有し得、したがって、完全又は部分的な2本鎖化合物を生成するように折り畳むことができる。核酸内で、リン酸基は一般に、核酸のヌクレオシド骨格を形成するものとして見なすことができる。リンク又は骨格は3’~5’ホスホジエステル結合であることができる。
【0074】
核酸は、修飾骨格及び/又は修飾ヌクレオシド結合を含むことができる。修飾骨格は、リン原子を骨格内に保持するもの及び骨格にリン原子を有さないものを含むことができる。リン原子を内部に含む、適した修飾核酸骨格としては、例えば、ホスホロチオエート、キラルホスホロチオエート、ホスホロジチオエート、ホスホトリエステル、アミノアルキルホスホトリエステル、メチル及び3’-アルキレンホスホネート、5’-アルキレンホスホネート、及びキラルホスホネートを含めた他のアルキルホスホネート、ホスフィネート、3’-アミノホスホラミダイト及びアミノアルキルホスホラミダイトを含めたホスホラミダイト、チオノホスホラミダイト、チオノアルキルホスホネート、チオノアルキルホスホトリエステル、正常3’-5’結合を有するセレノホスフェート及びボラノホスフェート、2’-5’結合類似体、並びに1つ又は複数のヌクレオチド間結合が3’-3’、5’-5’又は2’-2’結合である、反転極性を有する骨格を挙げることができる。
【0075】
核酸は、短鎖アルキル若しくはシクロアルキルヌクレオシド、混合型のヘテロ原子及びアルキル若しくはシクロアルキルヌクレオシド間連結、又は1つ若しくは複数の短鎖ヘテロ原子若しくは複素環ヌクレオシド間連結により形成されるポリヌクレオチド骨格を含むことができる。これらは、モルフォリノ連結部を有するもの(ヌクレオシドの糖部分から部分的には形成される);シロキサン骨格;スルフィド、スルホキシド、及びスルホン骨格;ホルムアセチル及びチオホルムアセチル骨格;メチレンホルムアセチル及びチオホルムアセチル骨格;リボアセチル骨格;アルケン含有骨格;スルファメート骨格;メチレンイミノ及びメチレンヒドラジノ骨格;スルホネート及びスルホンアミド骨格;アミド骨格;並びに混合型のN、O、S及びCH2成分の部分を有する他のものを含むことができる。
【0076】
核酸は核酸ミメティックを含むことができる。「ミメティック」という用語は、フラノース環のみ又はフラノース環及びヌクレオチド間連結の両方が非フラノース基で置換されたポリヌクレオチドを含むものとすることができ、フラノース環のみの置換は、糖代替物(sugar surrogate)と呼ぶことができる。複素環塩基部分又は修飾複素環塩基部分は、適切な標的核酸とのハイブリダイゼーションのために維持することができる。1つのそのような核酸はペプチド核酸(PNA)であることができる。PNAでは、ポリヌクレオチドの糖骨格は、アミド含有骨格、特にアミノエチルグリシン骨格で置換することができる。ヌクレオチドは保持することができ、骨格のアミド部分のアザ窒素原子に直接的又は間接的に結合する。PNA化合物中の骨格は、PNAにアミド含有骨格を与える2つ以上の連結されたアミノエチルグリシンユニットを含むことができる。複素環塩基部分は、骨格のアミド部分のアザ窒素原子に直接的又は間接的に結合することができる。
【0077】
核酸はモルフォリノ骨格構造を含むことができる。例えば、核酸は、リボース環の代わりにモルフォリノ六員環を含むことができる。これらの実施形態の幾つかでは、ホスホロジアミデート又は他の非ホスホジエステルヌクレオシド連結がホスホジエステル結合を置換することができる。
【0078】
核酸は、モルフォリノ環に付着した複素環塩基を有する、連結されたモルフォリノユニット(すなわち、モルフォリノ核酸)を含むことができる。連結基は、モルフォリノ核酸においてモルフォリノ単量体ユニットを連結することができる。非イオンモルフォリノベースのオリゴマー化合物は、細胞タンパク質との望ましくない相互作用がより少ないことができる。モルフォリノベースのポリヌクレオチドは、核酸の非イオン模倣体であることができる。モルフォリノクラス内の多種多様な化合物は、異なる連結基を使用して接合することができる。ポリヌクレオチドの更なるクラスは、シクロヘキセニル核酸(CeNA)と呼ぶことができる。核酸分子に通常存在するフラノース環は、シクロヘキセニル環で置換することができる。CeNA DMT保護されたホスホラミダイトモノマーを準備し、ホスホラミダイト化学構造を使用するオリゴマー化合物合成に使用することができる。核酸鎖へのCeNAモノマーの組み込みは、DNA/RNAハイブリッドの安定性を高めることができる。CeNA少アデニルは、ネイティブ錯体と同様の安定性を有する、核酸相補体との錯体を形成することができる。更なる修飾は、2’-ヒドロキシル基が糖環の4’炭素原子に連結し、それにより、2’-C、4’-C-オキシメチレン連結部を形成し、それにより、二環式糖部分を形成するロックド核酸(LNA)を含むことができる。連結部は、2’酸素原子及び4’炭素原子を架橋するメチレン(-CH2-)基であることができ、ここで、nは1又は2である。LNA及びLNA類似体は、相補的核酸との非常に高い二本鎖熱安定性(Tm=+3~+10°C)、3’-エキソヌクレアーゼ分解に対する安定性、及び優れた溶解特性を示すことができる。
【0079】
核酸は、ヌクレオ塩基(多くの場合、単に「塩基」と呼ばれる)修飾又は置換を含むこともできる。本明細書で使用される場合、「非修飾」又は「天然」ヌクレオ塩基は、プリン塩基(例えば、アデニン(A)及びグアニン(G))、並びにピリミジン塩基(例えば、チミン(T)、シトシン(C)、及びウラシル(U))を含むことができる。修飾ヌクレオ塩基は、5-メチルシトシン(5-me-C)、5-ヒドロキシメチルシトシン、キサンチン、ヒポキサンチン、2-アミノ-アデニン、アデニン及びグアニンの6-メチル及び他のアルキル誘導体、アデニン及びグアニンの2-プロピル及び他のアルキル誘導体、2-チオウラシル、2-チオチミン及び2-チオシトシン、5-ハロウラシル及びシトシン、5-プロピニル(-C≡C-CH3)ウラシル及びシトシン並びにピリミジン塩基の他のアルキニル誘導体、6-アゾウラシル、シトシン及びチミン、5-ウラシル(プソイドウラシル)、4-チオウラシル、8-ハロ、8-アミノ、8-チオ-ル、8-チオアルキル、8-ヒドロキシル及び他の8-置換アデニン及びグアニン、5-ハロ、特に5-ブロモ、5-トリフルオロメチル及び他の5-置換ウラシル及びシトシン、7-メチルグアニン及び7-メチルアデニン、2-F-アデニン、2-アミノ-アデニン、8-アザグアニン及び8-アザアデニン、7-デアザグアニン及び7-デアザアデニン並びに3-デアザグアニン及び3-デアザアデニン等の他の合成及び天然ヌクレオ塩基を含むことができる。修飾ヌクレオ塩基は、フェノキサジンシチジン(1H-ピリミド(5,4-b)(1,4)ベンゾオキサジン-2(3H)-オン)、フェノチアジンシチジン(1H-ピリミド(5,4-b)(1,4)ベンゾチアジン-2(3H)-オン)等の三環式ピリミジン、置換フェノキサジンシチジン(例えば、9-(2-アミノエトキシ)-H-ピリミド(5,4-(b)(1,4)ベンゾオキサジン-2(3H)-オン)、フェノチアジンシチジン(1H-ピリミド(5,4-b)(1,4)ベンゾチアジン-2(3H)-オン)等のGクランプ、置換フェノキサジンシチジン(例えば、9-(2-アミノエトキシ)-H-ピリミド5,4-(b)(1,4)ベンゾオキサジン-2(3H)-オン)、カルバゾールシチジン(2H-ピリミド(4,5-b)インドール-2-オン)、ピリドインドールシチジン(H-ピリド(3’,2’:4,5)ピロロ[2,3-d]ピリミジン-2-オン)等のGクランプを含むことができる。
【0080】
本明細書で使用される場合、「試料」という用語は、標的を含む組成物を指すことができる。開示される方法、デバイス、及びシステムによる分析に適した試料には、細胞、組織、臓器、又は有機体がある。
【0081】
本明細書で使用される場合、「サンプリングデバイス」又は「デバイス」という用語は、試料の一部を採取し得、及び/又はその一部を基板に配置し得るデバイスを指すことができる。試料デバイスは、例えば、蛍光活性化セルソーティング(FACS)機、セルソーター機、生検ニードル、生検デバイス、組織切片デバイス、マイクロ流体デバイス、ブレードグリッド、及び/又はミクロトームを指すことができる。
【0082】
本明細書で使用される場合、「固体支持体」という用語は、複数の確率的バーコードを付着させることができる離散した固体又は半固体表面を指すことができる。固体支持体は、任意のタイプの固体、多孔性、又は中空の球体、ボール、ベアリング、シリンダ、又は核酸を固定化(例えば、共有結合又は非共有結合で)し得る、プラスチック、セラミック、金属、若しくはポリマー材料(例えば、ヒドロゲル)で構成される他の同様の構成を包含し得る。固体支持体は、球形(例えば、小球体)を有してもよく、又は立方体、立方骨、ピラミッド形、円柱形、円錐形、楕円形、若しくは円盤形等の非球形若しくは不規則な形状を有してもよい離散粒子を含み得る。アレイにおいて離間された複数の固体支持体は、基板を含まないことがある。固体支持体は、「ビーズ」という用語と同義で使用し得る。
【0083】
固体支持体は「基板」と呼ぶことができる。基板は一種の固体支持体であることができる。基板は、本開示の方法を実行し得る連続した固体又は半固体表面を指すことができる。基板は、例えば、アレイ、カートリッジ、チップ、デバイス、及びスライドを指すことができる。
【0084】
本明細書で使用される場合、「空間標識」という用語は、空間における位置に関連付けることができる標識を指すことができる。
【0085】
本明細書で使用される場合、「確率的バーコード」という用語は、標識を含むポリヌクレオチド配列を指すことができる。確率的バーコードは、確率的バーコーディングに使用することができるポリヌクレオチド配列であることができる。確率的バーコードは、試料内の標的を定量化するのに使用することができる。確率的バーコードは、標識が標的に関連付けられた後に生じ得るエラーの制御に使用することができる。例えば、確率的バーコードは、増幅又はシーケンシングのエラーの評価に使用することができる。標的に関連付けられた確率的バーコードは、確率的バーコード-標的又は確率的バーコード-タグ-標的と呼ぶことができる。
【0086】
本明細書で使用される場合、「遺伝子固有確率的バーコード」という用語は、標識及び遺伝子固有である標的結合領域を含むポリヌクレオチド配列を指すことができる。確率的バーコードは、確率的バーコーディングに使用することができるポリヌクレオチド配列であることができる。確率的バーコードは、試料内の標的を定量化するのに使用することができる。確率的バーコードは、標識が標的に関連付けられた後に生じ得るエラーの制御に使用することができる。例えば、確率的バーコードは、増幅又はシーケンシングのエラーの評価に使用することができる。標的に関連付けられた確率的バーコードは、確率的バーコード-標的又は確率的バーコード-タグ-標的と呼ぶことができる。
【0087】
本明細書で使用される場合、「確率的バーコーディング」という用語は、核酸のランダム標識(例えば、バーコーディング)を指すことができる。確率的バーコーディングは、再帰ポアソン法を利用して、標識を標的に関連付け、標的に関連付けられた標識を定量化することができる。本明細書で使用される場合、「確率的バーコーディング」は、「遺伝子固有確率バーコーディング」と同義で使用することができる。
【0088】
本明細書で使用される場合、「標的」という用語は、確率的バーコードを関連付けることができる組成物を指すことができる。開示される方法、デバイス、及びシステムによる分析に適した例示的な標的には、DNA、RNA、mRNA、マイクロRNA、tRNA等がある。標的は一本鎖又は二本鎖であることができる。幾つかの実施形態では、標的はタンパク質であることができる。幾つかの実施形態では、標的は脂質である。
【0089】
本明細書で使用される場合、「逆転写酵素」という用語は、逆転写活性を有する(すなわち、RNA鋳型からのDNAの合成を触媒する)酵素群を指すことができる。一般に、そのような酵素には、限定ではなく、レトロウィルス逆転写酵素、レトロトランスポゾン逆転写酵素、レトロプラスミド逆転写酵素、レトロン逆転写酵素、最近逆転写酵素、グループIIイントロン由来逆転写酵素、及びそれらの変異体、バリアント、又は誘導体がある。非レトロウィルス逆転写酵素には、非LTRレトロトランスポゾン逆転写酵素、レトロプラスミド逆転写酵素、レトロン逆転写こう素(reverse transciptases)、及びグループIIイントロン逆転写酵素がある。グループIIイントロン逆転写酵素の例には、Lactococcus lactis Ll.LtrBイントロン逆転写酵素、Thermosynechococcus elongatus TeI4cイントロン逆転写酵素、又はGeobacillus stearothermophilus GsI-IICイントロン逆転写酵素がある。他のクラスの逆転写酵素としては、多くのクラスの非レトロウィルス逆転写酵素(すなわち、特にレトロン、グループIIイントロン、及び多様性を生じさせるレトロエレメント(diversity-generating retroelements))を挙げることができる。
【0090】
本明細書に開示されるのは、細胞タイプを区別する標的を識別するシステム及び方法である。幾つかの実施形態では、方法は、(a)発現プロファイルを含む標的カウントデータ構造(例えば、標的カウントマトリックス)を受信することと、(b)複数の細胞の発現プロファイルを階層的にクラスタリングして、発現プロファイルを表す系統樹を生成することと、(c)系統樹のルートノードから系統樹の各ノードを通して系統樹のリーフノードにトラバースする間、(1)ノードをノードの子ノードに分割することが有効であるか、それとも無効であるか(例えば、子ノード間の差が有意はない)を判断することと、(2)ノードをノードの子ノードに分割することが無効である場合、ノードを統合クラスタセットに追加することと、(d)統合クラスタセット内の第1のノードのそれぞれについて、繰り返し、統合クラスタセット内の第1のノードと、第1のノードに最も近い統合クラスタセット内の第2のノードとの間の距離が、統合距離閾値内である場合、第1のノードを第2のノードと統合して、第1のノード及び第2のノードによって表される発現プロファイルを含む統合ノードを生成することと、(e)統合クラスタセット内のノードのそれぞれについて、ノードによって表される細胞の複数の標的の発現プロファイルに基づいて、細胞タイプを区別する標的を識別することとを含む。
【0091】
バーコード
確率的バーコーディング等のバーコーディングは、例えば、米国特許出願第20150299784号明細書、国際公開第2015031691号パンフレット、並びにFuら,Proc Natl Acad Sci U.S.A.2011 May 31;108(22):9026-31及びFanら,Science(2015)347(6222):1258367に記載されてきており、これらの公開物の内容は全体的に、参照により本明細書に援用される。幾つかの実施形態では、本明細書に開示されるバーコードは、標的を確率的に標識する(例えば、バーコード付け、タグ付け)するのに使用し得るポリヌクレオチド配列であることができる確率的バーコードであることができる。バーコードは、確率的バーコードの異なるバーコード配列の数と標識すべき標的のいずれかの発生数との比率が、1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、11:1、12:1、13:1、14:1、15:1、16:1、17:1、18:1、19:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1、若しくはこれらの値の任意の2つの間の数若しくは範囲、又は約これらの値若しくは範囲であることができる場合、確率的バーコードと呼ぶことができる。標的は、例えば、同一又は略同一の配列を有するmRNA分子を含むmRNA種であることができる。バーコードは、確率的バーコードの異なるバーコード配列の数と標識すべき標的のいずれかの発生数との比率が、少なくとも又は多くとも1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、11:1、12:1、13:1、14:1、15:1、16:1、17:1、18:1、19:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、又は100:1である場合、確率的バーコードと呼ぶことができる。確率的バーコードのバーコード配列は、分子標識と呼ぶことができる。
【0092】
バーコード、例えば確率的バーコードは、1つ又は複数の標識を含むことができる。例示的な標識は、ユニバーサル標識、細胞標識、バーコード配列(例えば、分子標識)、試料標識、プレート標識、空間標識、及び/又はプレ空間(pre-spatial)標識を含むことができる。
図1は、空間標識を有する例示的なバーコード104を示す。バーコード104は、バーコードを固体支持体105に連結し得る5’アミンを含むことができる。バーコードは、ユニバーサル標識、次元標識、空間標識、細胞標識、及び/又は分子標識を含むことができる。バーコードにおける異なる標識(限定ではなく、ユニバーサル標識、次元標識、空間標識、細胞標識、及び分子標識を含む)の順序は様々であることができる。例えば、
図1に示されるように、ユニバーサル標識は、5’-モスト(most)標識であり得、分子標識は3’-モスト標識であり得る。空間標識、次元標識、及び細胞標識は任意の順序であり得る。幾つかの実施形態では、ユニバーサル標識、空間標識、次元標識、細胞標識、及び分子標識は、任意の順序である。バーコードは、標的結合領域を含むことができる。標的結合領域は、試料中の標的(例えば、標的核酸、RNA、mRNA、DNA)と相互作用することができる。例えば、標的結合領域は、mRNAのポリ(A)テールと相互作用することができるオリゴ(dT)配列を含むことができる。幾つかの場合、バーコードの標識(例えば、ユニバーサル標識、次元標識、空間標識、細胞標識、及びバーコード配列)は、1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、又は20個、又はそれよりも多いヌクレオチドで離間し得る。
【0093】
標識、例えば細胞標識は、誤り修正機能を提供するように設計することができる、定義された長さ、例えば、それぞれ7ヌクレオチド(幾つかのハミング誤り修正コードに使用されるビット数と同等)の一意の組の核酸サブ配列を含むことができる。1組の誤り修正サブ配列は、7つのヌクレオチド配列を含み、1組中の配列の任意のペア毎の組合せが、定義された「遺伝距離」(又はミスマッチ塩基の数)を示すように設計することができ、例えば、1組の誤り修正サブ配列は、3つのヌクレオチドの遺伝距離を示すように設計することができる。この場合、標識された標的核酸分子の1組の配列データでの誤り修正配列のレビュー(より十分に後述)により、増幅エラー又はシーケンシングエラーを検出又は修正することができる。幾つかの実施形態では、誤り修正コードの作成に使用される核酸サブ配列の長さは様々であることができ、例えば、1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、15個、20個、30個、31個、40個、50個、又はこれらの値の任意の2つの間の数若しくは範囲のヌクレオチド個数分の長さであることができ、又は約これらの値若しくは範囲であることができる。幾つかの実施形態では、他の長さの核酸サブ配列を誤り修正コードの作成に使用することができる。
【0094】
バーコードは、標的結合領域を含むことができる。標的結合領域は、試料中の標的と相互作用することができる。標的は、リボ核酸(RNA)、メッセンジャーRNA(mRNA)、マイクロRNA、低分子干渉RNA(siRNA)、RNA分解産物、ポリ(A)テールをそれぞれ含むRNA、又はそれらの任意の組合せであることができ、又はこれ(ら)を含むことができる。幾つかの実施形態では、複数の標的は、デオキシリボ核酸(DNA)を含むことができる。
【0095】
幾つかの実施形態では、標的結合領域は、mRNAのポリ(A)テールと相互作用することができるオリゴ(dT)配列を含むことができる。バーコードの標識(例えば、ユニバーサル標識、次元標識、空間標識、細胞標識、及びバーコード配列(例えば、分子標識))の1つ又は複数は、バーコードの別の残りの標識の1つ又は2つからスペーサによって分離することができる。スペーサは、例えば、1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、又はそれを超える数のヌクレオチドであることができる。幾つかの実施形態では、バーコードの標識はいずれも、スペーサによって分離されない。
【0096】
ユニバーサル標識
バーコードは、1つ又は複数のユニバーサル標識を含むことができる。幾つかの実施形態では、1つ又は複数のユニバーサル標識は、所与の固体支持体に付着する1組のバーコード内の全てのバーコードで同じであることができる。幾つかの実施形態では、1つ又は複数のユニバーサル標識は、複数のビーズに付着した全てのバーコードで同じであることができる。幾つかの実施形態では、ユニバーサル標識は、シーケンシングプライマーにハイブリダイズ可能な核酸配列を含むことができる。シーケンシングプライマーは、ユニバーサル標識を含むバーコードのシーケンシングに使用することができる。シーケンシングプライマー(例えば、ユニバーサルシーケンシングプライマー)は、高スループットシーケンシングプラットフォームに関連付けられたシーケンシングプライマーを含むことができる。幾つかの実施形態では、ユニバーサル標識は、PCRプライマーにハイブリダイズ可能な核酸配列を含むことができる。幾つかの実施形態では、ユニバーサル標識は、シーケンシングプライマー及びPCRプライマーにハイブリダイズ可能な核酸配列を含むことができる。シーケンシングプライマー又はPCRプライマーにハイブリダイズ可能なユニバーサル標識の核酸配列は、プライマー結合部位と呼ぶことができる。ユニバーサル標識は、バーコードの転写の開始に使用することができる配列を含むことができる。ユニバーサル標識は、バーコード又はバーコード内の領域の拡張に使用することができる配列を含むことができる。ユニバーサル標識は、1個、2個、3個、4個、5個、10個、15個、20個、25個、30個、35個、40個、45個、50個、若しくはこれらの値の任意の2つの間の数若しくは範囲のヌクレオチドの長さ又は約これ(ら)の長さであることができる。例えば、ユニバーサル標識は、少なくとも約10個のヌクレオチドを含むことができる。ユニバーサル標識は、少なくとも又は多くとも1個、2個、3個、4個、5個、10個、15個、20個、25個、30個、35個、40個、45個、50個、100個、200個、又は300個のヌクレオチドの長さを含むことができる。幾つかの実施形態では、開裂可能リンカー又は修飾されたヌクレオチドは、バーコードが支持体から開裂できるようにするために、ユニバーサル標識配列の部分であることができる。
【0097】
次元標識
バーコードは、1つ又は複数の次元標識を含むことができる。幾つかの実施形態では、次元標識は、標識(例えば、確率的標識)が発生した次元についての情報を提供する核酸配列を含むことができる。例えば、次元標識は、標的が確率的にバーコーディングされた時間についての情報を提供することができる。次元標識に、試料におけるバーコーディング(例えば、確率的バーコーディング)の時間を関連付けることができる。次元標識は、標識の時間に活性化することができる。異なる次元標識を異なる時間に活性化することができる。次元標識は、標的、標的群、及び/又は試料が確率的にバーコーディングされた順序についての情報を提供する。例えば、細胞の集団は、細胞サイクルのG0フェーズにおいて確率的にバーコーディングすることができる。細胞は、細胞サイクルのG1フェーズにおいて再びバーコード(例えば、確率的バーコード)でパルスすることができる。細胞は、細胞サイクルのSフェーズで再びバーコードでパルスすることができ、以下同様である。各パルス(例えば、細胞サイクルの各フェーズ)におけるバーコードは、異なる次元標識を含むことができる。このようにして、次元標識は、どの標的が細胞サイクルのどのフェーズで標識されたかについての情報を提供する。次元標識は、多くの異なる生物時間を照合することができる。例示的な生物時間には、限定ではなく、細胞サイクル、転写(例えば、転写開始)、及び転写物分解がある。別の例では、試料(例えば、細胞、細胞の集団)は、薬剤及び/又は治療を用いた処置前及び/又は後に確率的に標識することができる。別個の標的のコピー数の変化は、薬剤及び/又は治療への試料の応答を示すことができる。
【0098】
次元標識は活性化可能であることができる。活性化可能な次元標識は、特定の時点で活性化することができる。活性化可能な標識は、例えば、恒常的に活性化(例えば、オフにされない)することができる。活性化可能な次元標識は、例えば、可逆的に活性化する(例えば、活性化可能な次元標識は、オンオフ切り替えすることができる)ことができる。次元標識は、例えば、少なくとも1回、2回、3回、4回、5回、6回、7回、8回、9回、10回、又はそれを超える回数、可逆的に活性化可能であることができる。次元標識は、例えば、少なくとも1回、2回、3回、4回、5回、6回、7回、8回、9回、10回、又はそれを超える回数、可逆的に活性化可能であることができる。幾つかの実施形態では、次元標識は、蛍光、光、化学イベント(例えば、開裂、別の分子のライゲーション、修飾の追加(例えば、ペグ化、SUMO化、アセチル化、メチル化、脱アセチル化、脱メチル化)、光化学イベント(例えば、フォトケージ化)、及び非天然ヌクレオチドの導入を用いて活性化することができる。
【0099】
次元標識は、幾つかの実施形態では、所与の固体支持体(例えば、ビーズ)に付着した全てのバーコード(例えば、確率的バーコード)で同一であることができるが、異なる固体支持体(例えばビーズ)で異なることもできる。幾つかの実施形態では、同じ固体支持体のバーコードの少なくとも60%、70%、80%、85%、90%、95%、97%、99%、又は100%は、同じ次元標識を含むことができる。幾つかの実施形態では、同じ固体支持体のバーコードの少なくとも60%は、同じ次元標識を含むことができる。幾つかの実施形態では、同じ固体支持体のバーコードの少なくとも95%は、同じ次元標識を含むことができる。
【0100】
複数の固体支持体(例えば、ビーズ)において表される106個以上の多くの一意の次元標識配列があることができる。次元標識は、1個、2個、3個、4個、5個、10個、15個、20個、25個、30個、35個、40個、45個、50個、若しくはこれらの値の任意の2つの間の数若しくは範囲のヌクレオチド個数分の長さであることができ、又は約これらの値若しくは範囲であることができる。次元標識は、少なくとも又は多くとも1個、2個、3個、4個、5個、10個、15個、20個、25個、30個、35個、40個、45個、50個、100個、200個、又は300個のヌクレオチドの長さであることができる。次元標識は、約5個~約200個のヌクレオチドを含むことができる。次元標識は、約10個~約150個のヌクレオチドを含むことができる。次元標識は、約20個~約125個のヌクレオチドの長さを含むことができる。
【0101】
空間標識
バーコードは、1つ又は複数の空間標識を含むことができる。幾つかの実施形態では、空間標識は、バーコードに関連付けられた標的分子の空間配向についての情報を提供する核酸配列を含むことができる。空間標識に、試料中の座標を関連付けることができる。座標は固定座標であることができる。例えば、座標は基板を参照して固定することができる。空間標識は、二次元又は三次元格子を参照することができる。座標は、陸標を参照して固定することができる。陸標は空間で識別可能であることができる。陸標は、撮像することができる構造物であることができる。陸標は、生体構造物、例えば、解剖学的陸標であることができる。陸標は、細胞陸標、例えば細胞小器官であることができる。陸標は、カラーコード、バーコード、磁性、蛍光性、放射性、又は一意のサイズ若しくは形状等の識別可能な識別子を有する構造物等の非天然陸標であることができる。空間標識には、物理的パーテーション(例えば、ウェル、容器、又は液滴)を関連付けることができる。幾つかの実施形態では、複数の空間標識を一緒に使用して、空間中の1つ又は複数の位置を符号化する。
【0102】
空間標識は、所与の固体支持体(例えば、ビーズ)に付着した全てのバーコードで同一であることができるが、異なる固体支持体(例えばビーズ)で異なることもできる。幾つかの実施形態では、同じ空間標識を含む同じ固体支持体のバーコードの割合は、60%、70%、80%、85%、90%、95%、97%、99%、100%、若しくはこれらの値の任意の2つの間の数字若しくは範囲又は約これらの値若しくは範囲であることができる。幾つかの実施形態では、同じ空間標識を含む同じ固体支持体のバーコードの割合は、少なくとも又は多くとも60%、70%、80%、85%、90%、95%、97%、99%、又は100%であることができる。幾つかの実施形態では、同じ固体支持体のバーコードの少なくとも60%は、同じ空間標識を含むことができる。幾つかの実施形態では、同じ固体支持体のバーコードの少なくとも95%は、同じ空間標識を含むことができる。
【0103】
複数の固体支持体(例えば、ビーズ)において表される106個以上の多くの一意の空間標識配列があることができる。空間標識は、1個、2個、3個、4個、5個、10個、15個、20個、25個、30個、35個、40個、45個、50個、若しくはこれらの値の任意の2つの間の数若しくは範囲のヌクレオチド個数分の長さであることができ、又は約これらの値若しくは範囲であることができる。空間標識は、少なくとも又は多くとも1個、2個、3個、4個、5個、10個、15個、20個、25個、30個、35個、40個、45個、50個、100個、200個、又は300個のヌクレオチドの長さであることができる。空間標識は、約5個~約200個のヌクレオチドを含むことができる。空間標識は、約10個~約150個のヌクレオチドを含むことができる。空間標識は、約20個~約125個のヌクレオチドの長さを含むことができる。
【0104】
細胞標識
バーコードは、1つ又は複数の細胞標識を含むことができる。幾つかの実施形態では、細胞標識は、どの標的核酸がどの細胞から来たのかを判断するための情報を提供する核酸配列を含むことができる。幾つかの実施形態では、細胞標識は、所与の固体支持体(例えば、ビーズ)に付着した全てのバーコードで同一であることができるが、異なる固体支持体(例えばビーズ)で異なることもできる。幾つかの実施形態では、同じ細胞標識を含む同じ固体支持体のバーコードの割合は、60%、70%、80%、85%、90%、95%、97%、99%、100%、若しくはこれらの値の任意の2つの間の数字若しくは範囲又は約これらの値若しくは範囲であることができる。幾つかの実施形態では、同じ細胞標識を含む同じ固体支持体のバーコードの割合は、少なくとも又は多くとも60%、70%、80%、85%、90%、95%、97%、99%、又は100%であることができる。例えば、同じ固体支持体のバーコードの少なくとも60%は、同じ細胞標識を含むことができる。別の例として、同じ固体支持体のバーコードの少なくとも95%は、同じ細胞標識を含むことができる。
【0105】
複数の固体支持体(例えば、ビーズ)において表される106個以上の多くの一意の細胞標識配列があることができる。細胞標識は、1個、2個、3個、4個、5個、10個、15個、20個、25個、30個、35個、40個、45個、50個、若しくはこれらの値の任意の2つの間の数若しくは範囲のヌクレオチド個数分の長さであることができ、又は約これらの値若しくは範囲であることができる。細胞標識は、少なくとも又は多くとも1個、2個、3個、4個、5個、10個、15個、20個、25個、30個、35個、40個、45個、50個、100個、200個、又は300個のヌクレオチドの長さであることができる。例えば、細胞標識は、約5個~約200個のヌクレオチドを含むことができる。別の例として、細胞標識は、約10個~約150個のヌクレオチドを含むことができる。細胞標識は、約20個~約125個のヌクレオチドの長さを含むことができる。
【0106】
バーコード配列
バーコードは、1つ又は複数のバーコード配列を含むことができる。幾つかの実施形態では、バーコード配列は、バーコードにハイブリダイズした標的核酸種の特定のタイプについての識別情報を提供する核酸配列を含むことができる。バーコード配列は、バーコード(例えば、標的結合領域)にハイブリダイズした標的核酸種の特定の発生のカウンタ(例えば、大まかな近似を提供する)を提供する核酸配列を含むことができる。
【0107】
幾つかの実施形態では、多様な組のバーコード配列が所与の固体支持体(例えば、ビーズ)に付着する。幾つかの実施形態では、102個、103個、104個、105個、106個、107個、108個、109個若しくはこれらの値の任意の2つの間の若しくは範囲の一意の分子標識配列があり、又は約これらの値若しくは範囲の一意の分子標識配列であることができる。例えば、複数のバーコードは、別個の配列を有する約6561個のバーコード配列を含むことができる。別の例として、複数のバーコードは、別個の配列を有する約65536個のバーコード配列を含むことができる。幾つかの実施形態では、少なくとも又は多くとも102個、103個、104個、105個、106個、107個、108個、又は109個の一意のバーコード配列があることができる。一意の分子標識配列は、所与の固体支持体(例えば、ビーズ)に付着することができる。
【0108】
バーコードは、1個、2個、3個、4個、5個、10個、15個、20個、25個、30個、35個、40個、45個、50個、若しくはこれらの値の任意の2つの間の数若しくは範囲のヌクレオチド個数分の長さであることができ、又は約これらの値若しくは範囲であることができる。バーコードは、少なくとも又は多くとも1個、2個、3個、4個、5個、10個、15個、20個、25個、30個、35個、40個、45個、50個、100個、200個、又は300個のヌクレオチドの長さであることができる。
【0109】
分子標識
確率的バーコードは、1つ又は複数の分子標識を含むことができる。分子標識はバーコード配列を含むことができる。幾つかの実施形態では、分子標識は、確率的バーコードにハイブリダイズした標的核酸種の特定のタイプについての識別情報を提供する核酸配列を含むことができる。分子標識は、確率的バーコード(例えば、標的結合領域)にハイブリダイズした標的核酸種の特定の発生のカウンタを提供する核酸配列を含むことができる。
【0110】
幾つかの実施形態では、多様な組の分子標識が所与の固体支持体(例えば、ビーズ)に付着する。幾つかの実施形態では、102個、103個、104個、105個、106個、107個、108個、109個若しくは数若しくは範囲の一意の分子標識配列があり、又は約これらの値若しくは範囲の一意の分子標識配列であることができる。例えば、複数の確率的バーコードは、別個の配列を有する約6561個の分子標識を含むことができる。別の例として、複数の確率的バーコードは、別個の配列を有する約65536個の分子標識を含むことができる。幾つかの実施形態では、少なくとも又は多くとも102個、103個、104個、105個、106個、107個、108個、又は109個の一意の分子標識配列があることができる。一意の分子標識配列は、所与の固体支持体(例えば、ビーズ)に付着することができる。
【0111】
複数の確率的バーコードを使用する確率的バーコーディングの場合、異なる分子標識配列の数と任意の標的の発生数との比率は、1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、11:1、12:1、13:1、14:1、15:1、16:1、17:1、18:1、19:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1若しくはこれらの値の任意の2つの間の若しくは範囲の比率であることができ、又は約これらの値若しくは範囲の一意の比率であることができる。標的は、同一又は略同一の配列を有するmRNA分祀を含むmRNA種であることができる。幾つかの実施形態では、異なる分子標識配列の数と任意の標的の発生数との比率は、少なくとも又は多くとも1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、11:1、12:1、13:1、14:1、15:1、16:1、17:1、18:1、19:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、又は100:1であることができる。
【0112】
分子標識は、1個、2個、3個、4個、5個、10個、15個、20個、25個、30個、35個、40個、45個、50個、若しくはこれらの値の任意の2つの間の数若しくは範囲のヌクレオチド個数分の長さであることができ、又は約これらの値若しくは範囲であることができる。分子標識は、少なくとも又は多くとも1個、2個、3個、4個、5個、10個、15個、20個、25個、30個、35個、40個、45個、50個、100個、200個、又は300個のヌクレオチドの長さであることができる。
【0113】
標的結合領域
バーコードは、捕捉プローブ等の1つ又は複数の標的結合領域を含むことができる。幾つかの実施形態では、標的結合領域は、関心のある標的とハイブリダイズすることができる。幾つかの実施形態では、標的結合領域は、標的(例えば、標的核酸、標的分子、例えば、分析する細胞核酸)、例えば、特定の遺伝子配列と特異的にハイブリダイズする核酸配列を含むことができる。幾つかの実施形態では、標的結合領域は、特定の標的核酸の特定のロケーションに付着(例えば、ハイブリダイズ)することができる核酸配列を含むことができる。幾つかの実施形態では、標的結合領域は、制限酵素部位オーバーハング(例えば、EcoRI粘着末端オーバーハング)への特異的ハイブリダイズが可能な核酸配列を含むことができる。次に、バーコードは、制限部位オーバーハングに相補的な配列を含む任意の核酸分子にライゲートすることができる。
【0114】
幾つかの実施形態では、標的結合領域は、非特異標的核酸配列を含むことができる。非特異標的核酸配列とは、標的核酸の特定の配列から独立して、複数の標的核酸に結合することができる配列を指すことができる。例えば、標的結合領域は、ランダム多量体配列又はmRNA分子上のポリ(A)テールにハイブリダイズするオリゴ(dT)配列を含むことができる。ランダム多量体配列は、例えば、ランダム二量体、三量体、四量体、五量体、六量体、七量体、八量体、九量体、十量体、又は任意の長さのそれよりも高い多量体配列であることができる。幾つかの実施形態では、標的結合領域は、所与のビーズに付着した全てのバーコードで同じである。幾つかの実施形態では、所与のビーズに付着した複数のバーコードの標的結合領域は、2つ以上の異なる標的結合配列を含むことができる。標的結合領域は、5個、10個、15個、20個、25個、30個、35個、40個、45個、50個若しくはこれらの値の任意の2つの間の数若しくは範囲のヌクレオチド個数分の長さであることができ、又は約これらの値若しくは範囲であることができる。標的結合領域は、多くとも約5個、約10個、約15個、約20個、約25個、約30個、約35個、約40個、約45個、又は約50個のヌクレオチド個数分の長さであることができる。
【0115】
幾つかの実施形態では、標的結合領域は、ポリアデニル化された末端を含むmRNAとハイブリダイズすることができるオリゴ(dT)を含むことができる。標的結合領域は、遺伝子特異的であることができる。例えば、標的結合領域は、標的の特定の領域にハイブリダイズするように構成することができる。標的結合領域は、1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、24個、25個、26個、27個、28個、29個、30個若しくはこれらの値の任意の2つの間の数若しくは範囲のヌクレオチド個数分の長さであることができ、又は約これらの値若しくは範囲であることができる。標的結合領域は、少なくとも又は多くとも1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、24個、25個、26個、27個、28個、29個、又は30個のヌクレオチドの長さであることができる。標的結合領域は、約5個~約30個のヌクレオチドの長さであることができる。バーコードが遺伝子特異的な標的結合領域を含む場合、本明細書では、バーコードは遺伝子特異的バーコードと呼ぶことができる。
【0116】
配向特性
バーコードは、バーコードの配向(例えば、位置合わせ)に使用することができる1つ又は複数の配向特性を含むことができる。バーコードは、等電点電気泳動部分を含むことができる。異なるバーコードは、異なる等電点電気泳動点を含むことができる。これらのバーコードが試料に導入されると、試料は等電点電気泳動を受けて、バーコードを既知のように配向させることができる。このようにして、配向特性を使用して、試料中にバーコードの既知のマップを作成することができる。例示的な配向特性としては、電気泳動移動度(例えば、バーコードのサイズに基づく)、等電点、スピン、伝導性、及び/又は自己集合を挙げることができる。例えば、自己集合の配向特性を有するバーコードは、特定の配向(例えば、核酸ナノ構造)に自己集合することができる。
【0117】
親和特性
バーコードは、1つ又は複数の親和特性を含むことができる。例えば、空間標識は親和特性を含むことができる。親和特性は、別のエンティティ(例えば、細胞レセプタ)へのバーコードの結合を促進することができる化学及び/又は生物学的部分を含むことができる。例えば、親和特性は、抗体、例えば、試料上の特定の部分(例えば、レセプタ)に特異的な抗体を含むことができる。幾つかの実施形態では、抗体は、バーコードを特定の細胞タイプ又は分子にガイドすることができる。特定の細胞タイプ又は分子における及び/又はその近傍における標的は、確率的に標識することができる。親和特性は、幾つかの実施形態では、抗体はバーコードを特定のロケーションにガイドすることができるため、空間標識のヌクレオチド配列に加えて、空間情報を提供することができる。抗体は、治療用抗体、例えば、モノクローナル抗体又はポリクローナル抗体であることができる。抗体は、ヒト化又はキメラ化することができる。抗体は、裸の抗体(naked antibody)又は融合抗体(fusion antibody)であることができる。
【0118】
抗体は、全長(すなわち、天然発生若しくは正常免疫グロブリン遺伝子断片組み換えプロセスによって形成される)免疫グロブリン分子(例えば、IgG抗体)又は抗体断片のような免疫グロブリン分子の免疫活性(すなわち、特異的結合)部分であることができる。
【0119】
抗体断片は、例えば、F(ab’)2、Fab’、Fab、Fv、sFv等の抗体の一部であることができる。幾つかの実施形態では、抗体断片は、全長抗体によって認識される同じ抗原と結合することができる。抗体断片は、重鎖、軽鎖、並びに軽及び重可変領域がペプチドリンカー(「scFvタンパク質」)によって接続された組み換え単鎖ポリペプチド分子の可変領域からなる「Fv」断片等の抗体の可変領域からなる、単離された断片を含むことができる。例示的な抗体としては、限定ではなく、がん細胞の抗体、ウィルスの抗体、細胞表面レセプター(CD8、CD34、CD45)に結合する抗体、及び治療用抗体を挙げることができる。
【0120】
ユニバーサルアダプタープライマー
バーコードは、1つ又は複数のユニバーサルアダプタープライマーを含むことができる。例えば、遺伝子特異確率的バーコード等の遺伝子特異的バーコードは、ユニバーサルアダプタープライマーを含むことができる。ユニバーサルアダプタープライマーとは、全てのバーコードにわたりユニバーサルなヌクレオチド配列を指すことができる。ユニバーサルアダプタープライマーは、遺伝子特異的バーコードの構築に使用することができる。ユニバーサルアダプタープライマーは、1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、24個、25個、26個、27個、28個、29個、30個若しくはこれらの値の任意の2つの間の数若しくは範囲のヌクレオチド個数分の長さであることができ、又は約これらの値若しくは範囲であることができる。ユニバーサルアダプタープライマーは、少なくとも又は多くとも1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、24個、25個、26個、27個、28個、29個、又は30個のヌクレオチドの長さであることができる。ユニバーサルアダプタープライマーは、5個~30個のヌクレオチドの長さであることができる。
【0121】
リンカー
バーコードが2つ以上のタイプの標識(例えば、2つ以上の細胞標識又は1つの分子標識等の2つ以上のバーコード配列)を含む場合、標識間にリンカー標識配列が混じり得る。リンカー標識配列は、少なくとも約5個、約10個、約15個、約20個、約25個、約30個、約35個、約40個、約45個、約50個、又はそれよりも多くの個数のヌクレオチドの長さであることができる。リンカー標識配列は、多くとも約5個、約10個、約15個、約20個、約25個、約30個、約35個、約40個、約45個、約50個、又はそれよりも多くの個数のヌクレオチドの長さであることができる。幾つかの場合、リンカー標識配列は、12個のヌクレオチドの長さである。リンカー標識配列は、バーコードの合成を促進するのに使用することができる。リンカー標識は、誤り修正(例えば、ハミング)コードを含むことができる。
【0122】
固体支持体
本明細書に開示される確率的バーコード等のバーコードには、幾つかの実施形態では、固体支持体を関連付けることができる。固体支持体は、例えば、合成粒子であることができる。幾つかの実施形態では、固体支持体上の複数のバーコード(例えば、第1の複数のバーコード)の確率的バーコード(例えば、第1のバーコード配列)の分子標識等のバーコード配列の幾つか又は全ては、少なくとも1つのヌクレオチド、異なる。同じ固体支持体上のバーコードの細胞標識は、同じであることができる。異なる固体支持体上のバーコードの細胞標識は、少なくとも1つのヌクレオチド、異なることができる。例えば、第1の固体支持体上の第1の複数のバーコードの第1の細胞標識は、同じ配列を有することができ、第2の固体支持体上の第2の複数のバーコードの第2の細胞標識は、同じ配列を有することができる。第1の固体支持体上の第1の複数のバーコードの第1の細胞標識及び第2の固体支持体上の第2の複数のバーコードの第2の細胞標識は、少なくとも1つのヌクレオチド、異なることができる。細胞標識は、例えば、約5個~約20個のヌクレオチド長であることができる。バーコード配列は、例えば、約5個~約20個のヌクレオチド長であることができる。合成粒子は、例えば、ビーズであることができる。
【0123】
ビーズは、例えば、シリカゲルビーズ、孔が制御されるガラスビーズ、磁性ビーズ、Dynabead、Sephadex/Sepharoseビーズ、セルロースビーズ、ポリスチレンビーズ、又はそれらの任意の組合せであることができる。ビーズは、ポリジメチルシロキサン(PDMS)、ポリスチレン、ガラス、ポリプロピレン、アガロース、ゼラチン、ヒドロゲル、常磁性材料、セラミック、プラスチック、ガラス、メチルスチレン、アクリルポリマー、ラテックス、セファロース、セルロース、ナイロン、シリコーン、又はそれらの任意の組合せ等の材料を含むことができる。
【0124】
幾つかの実施形態では、ビーズは、ポリマービーズ、例えば、バーコード又は確率的バーコードで官能化された変形可能なビーズ又はゲルビーズ(10X Genomics(カリフォルニア州サンフランシスコ)からのゲルビーズ等であることができる。幾つかの実施態様では、ゲルビーズはポリマー系ゲルを含むことができる。ゲルビーズは、例えば、1つ又は複数のポリマー前駆体を液滴中に封入することにより生成することができる。ポリマー前駆体を促進剤(例えば、テトラメチルエチレンジアミン(TEMED))に露出させると、ゲルビーズを生成し得る。
【0125】
幾つかの実施形態では、粒子は分解可能であることができる。例えば、ポリマービーズは、例えば、所望の条件下で溶解、溶融、又は分解することができる。所望の条件は、環境条件を含むことができる。所望の条件は、ポリマービーズを制御された様式で溶解、溶融、又は分解させ得る。ゲルビーズは、化学的刺激、物理的刺激、生物学的刺激、熱的刺激、磁気的刺激、電気的刺激、光刺激、又はそれらの任意の組合せに起因して、溶解、溶融、又は分解し得る。
【0126】
例えばオリゴヌクレオチドバーコード等の分析物及び/又は試薬は、ゲルビーズの内面(例えば、オリゴヌクレオチドバーコード及び/又はオリゴヌクレオチドバーコードの生成に使用される材料の拡散を介したアクセス可能な内部)及び/又はゲルビーズの外面又は本明細書に記載される任意の他のマイクロカプセルに結合/固定化し得る。結合/固定化は、任意の形態の化学結合(例えば、共有結合、イオン結合)又は物理現象(例えば、ファンデルワールス力、双極子-双極子相互作用等)を介し得る。幾つかの実施形態では、ゲルビーズ又は本明細書に記載される任意の他のマイクロカプセルへの試薬の結合/固定化は、例えば、不安定部分等を介して(例えば、本明細書に記載される化学的架橋剤を含めた化学的架橋剤を介して)可逆的であり得る。刺激を適用すると、不安定部分は開裂し得、固定化された試薬を自由にする。幾つかの実施形態では、不安定部分はジスルフィド結合である。例えば、オリゴヌクレオチドバーコードがジスルフィド結合を介してゲルビーズに固定化される場合、還元剤へのジスルフィド結合の露出により、ジスルフィド結合を開裂し、オリゴヌクレオチドバーコードをビーズから解放することができる。不安定部分は、ゲルビーズ又はマイクロカプセルの部分として、試薬又は分析物をゲルビーズ又はマイクロカプセルに連結する化学的リンカーの部分として、及び/又は試薬又は分析物の部分として包含し得る。幾つかの実施形態では、複数のバーコードの少なくとも1つのバーコードは、粒子に固定化、粒子上に部分的に固定化、粒子内に封入、粒子内に部分的に封入、又はそれらの任意の組合せであることができる。
【0127】
幾つかの実施形態では、ゲルビーズは、限定ではなく、ポリマー、熱過敏性ポリマー、感光性ポリマー、磁性ポリマー、pH感受性ポリマー、塩感応性ポリマー、化学感応性ポリマー、高分子電解質、多糖類、ペプチド、タンパク質、及び/又はプラスチックを含む広範囲の異なるポリマーを含むことができる。ポリマーは、限定ではなく、ポリ(N-イソプロピルアクリルアミド)(PNIPAAm)、ポリ(スチレンスルホナート)(PSS)、ポリ(アリルアミン)(PAAm)、ポリ(アクリル酸)(PAA)、ポリ(エチレンイミン)(PEI)、ポリ(ジアリルジメチル・アンモニウム・クロリド)(PDADMAC)、ポリ(ピロール)(PPy)、ポリ(ビニルピロリドン)(PVPON)、ポリ(ビニルピリジン)(PVP)、ポリ(メタクリル酸)(PMAA)、ポリ(メチルメタクリル酸)(PMMA)、ポリスチレン(PS)、ポリ(テトラヒドロフラン)(PTHF)、ポリ(フタルアデヒド(phthaladehyde)(PTHF)、ポリ(ヘキシルビオロゲン)(PHV)、ポリ(L-リジン)(PLL)、ポリ(L-アルギニン)(PARG)、ポリ(乳酸-コ-グリコール酸)(PLGA)等の材料を含み得る。
【0128】
多くの化学的刺激を使用して、ビーズの崩壊、溶解、又は分解をトリガーすることができる。これらの化学変化の例としては、限定ではなく、ビーズ壁へのpH媒介変更、架橋結合の化学的開裂を介したビーズ壁の崩壊、ビーズ壁の脱重合のトリガー、及びビーズ壁スイッチング反応を挙げ得る。ビーズの崩壊のトリガーにバルク変更を使用することもできる。
【0129】
様々な刺激を通してのマイクロカプセルへのバルク又は物理的な変更は、試薬をリリースするようにカプセルを設計することにおいて多くの利点も提供する。バルク又は物理的な変更は、巨視的なスケールで行われ、ビーズの破裂は、刺激によって誘導される機械-物理力の結果である。これらのプロセスは、限定ではなく、圧力誘導破裂、ビーズ壁溶融、又はビーズ壁の多孔性の変化を含み得る。
【0130】
ビーズの崩壊、溶解、又は分解のトリガーに生物学的刺激を使用することもできる。一般に、生物学的刺激は化学的トリガーに類似するが、多くの例は、生体分子又は酵素、ペプチド、糖類、脂肪酸、核酸等の生体系で一般に見られる分子を使用する。例えば、ビーズは、特定のプロテアーゼによる開裂を受けやすいペプチド架橋を有するポリマーを含み得る。より具体的には、一例は、GFLGKペプチド架橋を含むマイクロカプセルを含み得る。プロテアーゼCathepsin B等の生物学的トリガーを添加すると、シェル壁のペプチド架橋は開裂し、ビーズの内容物がリリースされる。他の場合、プロテアーゼは熱活性化し得る。別の例では、ビーズは、セルロースを含むシェル壁を備える。加水分解酵素であるキトサンの添加は、セルロース結合の開裂、シェル壁の脱重合、及びその内容物のリリースの生物学的トリガーとして機能する。
【0131】
熱刺激の印加により、ビーズの内容物のリリースをトリガーするように誘導することもできる。温度変化は、ビーズに様々な変化を生じさせることができる。熱変化は、ビーズ壁が崩壊するようにビーズを溶融させ得る。他の場合、熱は、ビーズが崩壊又は爆発するようにビーズの内部構成要素の内圧を増大させ得る。更に他の場合、熱は、ビーズを収縮脱水状態に変換し得る。熱はまた、ビーズの壁内の熱過敏性ポリマーに対して作用して、ビーズを崩壊させることもできる。
【0132】
マイクロカプセルのビーズ壁に磁性ナノ粒子を包含することにより、ビーズの崩壊をトリガーし、アレイ内でビーズをガイドすることができる。本開示のデバイスは、いずれの目的での磁性ビーズも含み得る。一例では、ビーズを包含した高分子電解質へのFe3O4ナノ粒子の組み込みは、発振磁場刺激の存在下で崩壊をトリガーする。
【0133】
ビーズは、電気刺激の結果として崩壊、溶解、又は分解することもできる。前のセクションに記載された磁性粒子と同様に、電気の影響を受けやすいビーズは、ビーズの崩壊のトリガー及び電場での整列、導電性、又は酸化還元反応等の他の機能の両方を可能にすることができる。一例では、電気の影響を受けやすい材料を含むビーズは、内部試薬のリリースを制御することができるように電場において整列する。他の例では、電場は、多孔性を増大させ得るビーズ壁自体内に酸化還元反応を誘導し得る。
【0134】
光刺激もビーズの崩壊に使用することができる。多くの光トリガーが可能であり、特定の範囲の波長の光子を吸収可能なナノ粒子及び発色団等の様々な分子を使用するシステムを含み得る。例えば、金属酸化物被膜は、カプセルトリガーとして使用することができる。SiO2で被膜された高分子電解質カプセルのUV照射は、ビーズ壁を崩壊させ得る。更に別の例では、アゾベンゼン基等の光スイッチング可能材料をビーズ壁に組み込み得る。UV又は可視光を印加すると、これらの等の化学物質は、光子の吸収により、可逆的なシス体からトランス体への異性化を受ける。この態様では、光子スイッチの組み込みにより、光トリガーが印加されると崩壊し得るか、又はより多孔性になり得るビーズ壁が生成される。
【0135】
例えば、
図2に示されるバーコーディング(例えば、確率的バーコーディング)の非限定的な例では、ブロック208において、マイクロウェルアレイの複数のマイクロウェルに単一の細胞等の細胞を導入した後、ブロック212において、マイクロウェルアレイの複数のマイクロウェルにビーズを導入することができる。各マイクロウェルは1つのビーズを含むことができる。ビーズは、複数のバーコードを含むことができる。バーコードは、ビーズに付着した5’アミン領域を含むことができる。ビーコードは、ユニバーサル標識、バーコード配列(例えば、分子標識)、標的結合領域、又はそれらの任意の組合せを含むことができる。
【0136】
本明細書に開示されるバーコードには、固体支持体(例えば、ビーズ)を関連付ける(例えば、付着させる)ことができる。固体支持体に関連付けられたバーコードはそれぞれ、一意の配列を有する少なくとも100個又は1000個のバーコード配列を含む群から選択されたバーコードを含むことができる。幾つかの実施形態では、固体支持体に関連付けられた異なるバーコードは、異なる配列のバーコード配列を含むことができる。幾つかの実施形態では、固体支持体に関連付けられたバーコードのうちのある割合のバーコードは、同じ細胞標識を含む。例えば、割合は、60%、70%、80%、85%、90%、95%、97%、99%、100%若しくはこれらの値の任意の2つの間の数若しくは範囲、又は約これらの値若しくは範囲であることができる。別の例として、割合は、少なくとも又は多くとも60%、70%、80%、85%、90%、95%、97%、99%、又は100%であることができる。幾つかの実施形態では、固体支持体に関連付けられたバーコードは、同じ細胞標識を有することができる。異なる固体支持体に関連付けられたバーコードは、一意の配列を有する少なくとも100個又は1000個の細胞標識を含む群から選択される異なる細胞標識を有することができる。
【0137】
本明細書に開示されるバーコードには、固体支持体(例えば、ビーズ)を関連付ける(例えば、付着させる)ことができる。幾つかの実施形態では、試料中の複数の標的を確率的にバーコーディングすることは、複数のバーコードが関連付けられた複数の合成粒子を含む固体支持体を用いて実行することができる。幾つかの実施形態では、固体支持体は、複数のバーコードが関連付けられた複数の合成粒子を含むことができる。異なる固体支持体上の複数のバーコードの空間標識は、少なくとも1つのヌクレオチド、異なることができる。固体支持体は、例えば、二次元又は三次元で複数のバーコードを含むことができる。合成粒子はビーズであることができる。ビーズは、シリカゲルビーズ、孔が制御されるガラスビーズ、磁性ビーズ、Dynabead、Sephadex/Sepharoseビーズ、セルロースビーズ、ポリスチレンビーズ、又はそれらの任意の組合せであることができる。固体支持体は、ポリマー、マトリックス、ヒドロゲル、ニードルアレイデバイス、抗体、又はそれらの任意の組合せを含むことができる。幾つかの実施形態では、固体支持体は自由に浮動することができる。幾つかの実施形態では、固体支持体は、半固体又は固体アレイに組み込むことができる。バーコードに固体支持体を関連付けなくてもよいことがある。バーコードは個々のヌクレオチドであることができる。バーコードには基板を関連付けることができる。
【0138】
本明細書で使用される場合、「テザリングされる」、「付着する」、又は「固定化される」という用語は、同義で使用され、バーコードを固体支持体に付着させる共有結合又は非共有結合手段を指すことができる。任意の様々な異なる固体支持体が、予め合成されたバーコードを付着させる又はバーコードのin situ固体フェーズ合成のための固体支持体として使用することができる。
【0139】
幾つかの実施形態では、固体支持体はビーズである。ビーズは、1つ又は複数のタイプの固体、多孔性、又は中空の球体、ボール、ベアリング、シリンダ、又は核酸を固定化(例えば、共有結合又は非共有結合で)することができる他の同様の構成であることができる。ビーズは、例えば、プラスチック、セラミック、金属、ポリマー材料、又はそれらの任意の組合せで構成することができる。ビーズは、球体(例えば、小球体)である離散粒子であることができ、若しくは含むことができ、又は立方体、立方骨、ピラミッド形、円柱形、円錐形、楕円形、若しくは円盤形等の非球形若しくは不規則な形状を有することができる。幾つかの実施形態では、ビーズは非球形であることができる。
【0140】
ビーズは、限定ではなく、常磁性体(例えば、マグネシウム、モリブデン、リチウム、及びタンタル)、超常磁性体(例えば、フェライト(Fe3O4;磁鉄鉱)ナノ粒子)、強磁性体(例えば、鉄、ニッケル、コバルト、それらの何らかの合金、及び何らかの希土類金属化合物)、セラミック、プラスチック、ガラス、ポリスチレン、シリカ、メチルスチレン、アクリルポリマー、チタン、ラテックス、セファロース、アガロース、ヒドロゲル、ポリマー、セルロース、ナイロン、又はそれらの任意の組合せを含め、様々な材料を含むことができる。
【0141】
幾つかの実施形態では、ビーズ(例えば、標識が付着するビーズ)はヒドロゲルビーズである。幾つかの実施形態では、ビーズはヒドロゲルを含む。
【0142】
本明細書に開示される幾つかの実施形態は、1つ又は複数の粒子(例えば、ビーズ)を含む。各粒子は、複数のオリゴヌクレオチド(例えば、バーコード)を含むことができる。複数のオリゴヌクレオチドのそれぞれは、バーコード配列(例えば、分子標識)、細胞標識、及び標的結合領域(例えば、オリゴ(dT)配列、遺伝子特異的配列、ランダム多量体、又はそれらの組合せ)を含むことができる。複数のオリゴヌクレオチドのそれぞれの細胞標識配列は、同じであることができる。異なる粒子上のオリゴヌクレオチドの細胞標識配列は、異なる粒子上のオリゴヌクレオチドを識別することができるように異なることができる。異なる細胞標識配列の数は、異なる実施態様では異なることができる。幾つかの実施形態では、細胞標識配列の数は、10、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、20000、30000、40000、50000、60000、70000、80000、90000、100000、106、107、108、109の個数、若しくはこれらの値の任意の2つの間の数若しくは範囲、又は約これらの値若しくは範囲、又は109を超える個数であることができる。幾つかの実施形態では、細胞標識配列の数は、少なくとも又は多くとも10、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、20000、30000、40000、50000、60000、70000、80000、90000、100000、106、107、108、又は109の個数であることができる。幾つかの実施形態では、複数の粒子のうちの1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、20個、30個、40個、50個、60個、70個、80個、90個、100個、200個、300個、400個、500個、600個、700個、800個、900個、1000個、又はそれを超える個数は、同じ細胞配列を有するオリゴヌクレオチドを含む。幾つかの実施形態では、同じ細胞配列を有するオリゴヌクレオチドを含む複数の粒子は、多くとも0.1%、0.2%、0.3%、0.4%、0.5%、0.6%、0.7%、0.8%、0.9%、1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、又はそれを超える割合であることができる。幾つかの実施形態では、複数の粒子のいずれも同じ細胞標識配列を有さない。
【0143】
各粒子上の複数のオリゴヌクレオチドは、異なるバーコード配列(例えば、分子標識)を含むことができる。幾つかの実施形態では、バーコード配列の数は、10、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、20000、30000、40000、50000、60000、70000、80000、90000、100000、106、107、108、109の個数、若しくはこれらの値の任意の2つの間の数若しくは範囲、又は約これらの値若しくは範囲であることができる。幾つかの実施形態では、バーコード配列の数は、少なくとも又は多くとも10、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、20000、30000、40000、50000、60000、70000、80000、90000、100000、106、107、108、又は109の個数であることができる。例えば、複数のオリゴヌクレオチドの少なくとも100個は、異なるバーコード配列を含む。別の例として、1つの粒子において、複数のオリゴヌクレオチドのうちの少なくとも100個、500個、1000個、5000個、10000個、15000個、20000個、50000個、若しくはこれらの値の任意の2つの間の数若しくは範囲又は50000個を超える個数は、異なるバーコード配列を含む。幾つかの実施形態は、バーコードを含む複数の粒子を提供する。幾つかの実施形態では、標識する標的の発生(又はコピー又は数)と異なるバーコード配列との比率は、少なくとも1:1、1:2、1:3、1:4、1:5、1:6、1:7、1:8、1:9、1:10、1:11、1:12、1:13、1:14、1:15、1:16、1:17、1:18、1:19、1:20、1:30、1:40、1:50、1:60、1:70、1:80、1:90、又はそれを超える比率であることができる。幾つかの実施形態では、複数のオリゴヌクレオチドのそれぞれは、試料標識、ユニバーサル標識、又は両方を更に含む。粒子は、例えば、ナノ粒子又はマイクロ粒子であることができる。
【0144】
ビーズのサイズは様々であることができる。例えば、ビーズの直径は0.1μmから50μmの範囲であることができる。幾つかの実施形態では、ビーズの直径は0.1μm、0.5μm、1μm、2μm、3μm、4μm、5μm、6μm、7μm、8μm、9μm、10μm、20μm、30μm、40μm、50μm若しくはこれらの値の任意の2つの間の数若しくは範囲、又は約これらの値若しくは範囲であることができる。
【0145】
ビーズの直径は、基板のウェルの直径に関連することができる。幾つかの実施形態では、ビーズの直径は、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%若しくはこれらの値の任意の2つの間の数若しくは範囲、約これらの値若しくは範囲で、ウェルの直径よりも長い又は短い値であることができる。ビーズの直径は、細胞(例えば、基板のウェルによって取り込まれる1つの細胞)の直径に関連することができる。幾つかの実施形態では、ビーズの直径は、少なくとも又は多くとも10%、20%、30%、40%、50%、60%、70%、80%、90%、又は100%ウェルの直径よりも長い又は短い値であることができる。ビーズの直径は、細胞(例えば、基板のウェルによって取り込まれる1つの細胞)の直径に関連することができる。幾つかの実施形態では、ビーズの直径は、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%、150%、200%、250%、300%、若しくはこれらの値の任意の2つの間の数若しくは範囲、約これらの値若しくは範囲で、ウェルの直径よりも長い又は短い値であることができる。幾つかの実施形態では、ビーズの直径は、少なくとも又は多くとも10%、20%、30%、40%、50%、60%、70%、80%、90%、100%、150%、200%、250%、又は300%、ウェルの直径よりも長い又は短い値であることができる。
【0146】
ビーズは基板に付着させ、且つ/又は基板に埋め込むことができる。ビーズは、ゲル、ヒドロゲル、ポリマー、及び/又はマトリックスに付着させ、且つ/又は埋め込むことができる。基板(例えば、ゲル、マトリックス、スキャフォールド、又はポリマー)内のビーズの空間位置は、ロケーションアドレスとして機能することができるビーズ上のバーコードに存在する空間標識を使用して識別することができる。
【0147】
ビーズの例としては、限定ではなく、ストレプトアビジンビーズ、アガロースビーズ、磁性ビーズ、Dynabeads(登録商標)、MACS(登録商標)ミクロビーズ、抗体共役ビーズ、(例えば、抗免疫グロブリンミクロビーズ)、タンパク質A共役ビーズ、タンパク質G共役ビーズ、タンパク質A/G共役ビーズ、タンパク質L共役ビーズ、オリゴ(dT)共役ビーズ、シリカビーズ、シリカ様ビーズ、抗ビオチンミクロビーズ、抗蛍光色素ミクロビーズ、及びBcMag(商標)カルボキシル末端磁性ビーズを挙げることができる。
【0148】
ビーズには、量子ドット又は蛍光染料を関連付けて(例えば、含浸させて)、1つの蛍光光学チャネル又は複数の光学チャネルで蛍光させることができる。ビーズには、酸化鉄又は酸化クロムを関連付けて、常磁性又は強磁性にすることができる。ビーズは識別可能であることができる。例えば、ビーズはカメラを使用して撮像することができる。ビーズは、ビーズに関連付けられた検出可能なコードを有することができる。例えば、ビーズはバーコードを含むことができる。ビーズは、例えば、有機溶液又は無機溶液中での膨張に起因してサイズを変更することができる。ビーズは疎水性であることができる。ビーズは親水性であることができる。ビーズは生体適合性を有することができる。
【0149】
固体支持体(例えば、ビーズ)は、視覚化することができる。固体支持体は、視覚化タグ(例えば、蛍光染料)を含むことができる。固体支持体(例えば、ビーズ)には識別子(例えば、数字)をエッチングすることができる。識別子は、ビーズの撮像を通して視覚化することができる。
【0150】
固体支持体は、不溶解性、半溶解性、又は不溶解性物質を含むことができる。固体支持体は、リンカー、スキャフォールド、構築ブロック、又は付着した他の反応性部分を含む場合、「機能化」と呼ぶことができ、一方、付着したそのような反応性部分がない場合、「非機能化」と呼ぶことができる。固体支持体は、マイクロタイタウェル形式;カラム中等のフロースルー形式;又はディスプレイスティック等の溶液中で自由に利用することができる。
【0151】
固体支持体は、膜、紙、プラスチック、被膜面、平面、ガラス、スライド、チップ、又はそれらの任意の組合せを含むことができる。固体支持体は、樹脂、ゲル、小球体、又は他の幾何学的構成の形態をとることができる。固体支持体は、シリカチップ、マイクロ粒子、ナノ粒子、プレート、アレイ、毛管、ガラス繊維フィルタ、ガラス面、金属面(鋼、金、銀、アルミニウム、ケイ素、及び銅)等の平面支持体、ガラス支持体、プラスチック支持体、ケイ素支持体、チップ、フィルタ、膜、マイクロウェルプレート、スライド、マルチウェルプレート又は膜(例えば、ポリエチレン、ポリプロピレン、ポリアミド、フッ化ポリビニリデンで形成される)を含むプラスチック材料、及び/又はウェーハ、コーム、ピン、又はニードル(例えば、組合せ合成又は分析に適するピンのアレイ)、又はピンのアレイ若しくはウェーハ(例えば、シリコンウェーハ)、フィルタ底部がある又はないピンを有するウェーハ等の平面のナノリットルウェル内のビーズを含むことができる。
【0152】
固体支持体は、ポリマーマトリックス(例えば、ゲル、ヒドロゲル)を含むことができる。ポリマーマトリックスは、細胞内空間(例えば、細胞小器官の周囲)に浸透可能であり得る。ポリマーマトリックスは、循環器系全体を通してポンピング可能であり得る。
【0153】
固体支持体は、生体分子であることができる。例えば、固体支持体は、核酸、タンパク質、抗体、ヒストン、細胞コンパートメント、脂質、炭水化物等であることができる。生体分子である固体支持体は、増幅、翻訳、転写、分解、及び/又は修飾(例えば、ペグ化、SUMO化、アセチル化、メチル化)することができる。生体分子である固体支持体は、生体分子に付着した空間標識に加えて、空間情報及び時間情報を提供することができる。例えば、生体分子は、修飾されない場合、第1の確認(confirmation)を含むことができるが、修飾された場合、第2の確認に変化することができる。異なる構造は、本開示のバーコード(例えば、確率的バーコード)を標的に露出させることができる。例えば、生体分子は、生体分子の折り畳みに起因してアクセス不可能であるバーコードを含むことができる。生体分子が修飾される(例えば、アセチル化)と、生体分子は、バーコードを露出するように構造を変更することができる。修飾のタイミングは、本開示のバーコーディング方法に別の時間次元を提供することができる。
【0154】
幾つかの実施形態では、本開示のバーコード試薬を含む生体分子は、細胞の細胞質内に配置することができる。活性化されると、生体分子は、細胞核に移ることができ、そこでバーコーディングを行うことができる。このようにして、生体分子の修飾は、バーコードによって識別される標的の追加の空間-時間情報を符号化することができる。
【0155】
基板及びマイクロウェルアレイ
本明細書で使用される場合、基板は一種の固体支持体を指すことができる。基板は、本開示のバーコード及び確率的バーコードを含むことができ固体支持体を指すことができる。基板は、例えば、複数のマイクロウェルを含むことができる。例えば、基板は、2つ以上のマイクロウェルを含むウェルアレイであることができる。幾つかの実施形態では、マイクロウェルは、画定された容量の小型反応チャンバを含むことができる。幾つかの実施形態では、マイクロウェルは1つ又は複数の細胞を取り込むことができる。幾つかの実施形態では、マイクロウェルは、1つのみの細胞を取り込むことができる。幾つかの実施形態では、マイクロウェルは、1つ以上の固体支持体を取り込むことができる。幾つかの実施形態では、マイクロウェルは、1つのみの固体支持体を取り込むことができる。幾つかの実施形態では、マイクロウェルは、1つの細胞及び1つの固体支持体(例えば、ビーズ)を取り込む。マイクロウェルは、本開示の組合せバーコード試薬を含むことができる。
【0156】
バーコーディングの方法
本開示は、物理的試料(例えば、組織、臓器、腫瘍、細胞)における別個のロケーションにおける別個の標的の数を推定する方法を提供する。方法は、バーコード(例えば、確率的バーコード)を試料の近傍に配置すること、試料を溶解させること、別個の標的にバーコードを関連付けること、標的を増幅すること、及び/又は標的をデジタル的にカウントすることを含むことができる。方法は、バーコード上の空間標識から得られた情報を分析し、且つ/又は視覚化することを更に含むことができる。幾つかの実施形態では、方法は、試料中の複数の標的を視覚化することを含む。複数の標的を試料のマップにマッピングすることは、試料の二次元マップ又は三次元マップを生成することを含むことができる。二次元マップ及び三次元マップは、試料中の複数の標的をバーコーディング(例えば、確率的にバーコーディング)する前又は後、生成することができる。試料中の複数の標的を視覚化することは、複数の標的を試料のマップにマッピングすることを含むことができる。複数の標的を試料のマップにマッピングすることは、試料の二次元マップ又は三次元マップを生成することを含むことができる。二次元マップ及び三次元マップは、試料中の複数の標的をバーコーディングする前又は後、生成することができる。幾つかの実施形態では、二次元マップ及び三次元マップは、試料の溶解前又は後、生成することができる。二次元マップ又は三次元マップの生成前又は後に試料を溶解させることは、試料を加熱すること、洗剤で試料に触れること、試料のpHを変更すること、又はそれらの任意の組合せを含むことができる。
【0157】
幾つかの実施形態では、複数の標的をバーコーディングすることは、複数のバーコードを複数の標的にハイブリダイズして、バーコード付き標的(例えば、確率的バーコード付き標的)を作成することを含む。複数の標的をバーコーディングすることは、バーコード付き標的の索引付きライブラリを生成することを含むことができる。バーコード付き標的の索引付きライブラリの生成は、複数のバーコード(例えば、確率的バーコード)を含む固体支持体を用いて実行することができる。
【0158】
試料とバーコードとの接触
本開示は、試料(例えば、細胞)を本開示の基板に接触させる方法を提供する。例えば、細胞、臓器、又は組織の薄切片を含む試料をバーコード(例えば、確率的バーコード)に接触させることができる。細胞には、例えば、細胞が沈殿し、単層を作る重力フローによって接触することができる。試料は、組織の薄切片であることができる。薄切片は、基板に配置することができる。試料は一次元であることができる(例えば、平面を形成する)。試料(例えば、細胞)は、例えば、基板上で細胞を成長させる/培養することによって基板にわたり広げることができる。
【0159】
バーコードが標的の近傍にあるとき、標的はバーコードにハイブリダイズすることができる。バーコードには、別個の各標的に本開示の別個のバーコードを関連付けることができるような非枯渇可能な比率で接触することができる。標的とバーコードとの効率的な関連付けを保証するために、標的はバーコードに架橋することができる。
【0160】
細胞溶解
細胞及びバーコードの分配に続き、細胞を溶解して、標的分子を遊離させることができる。細胞溶解は、任意の多種多様な手段により、例えば、化学的又は生物学的手段により、浸透圧ショックにより、又は熱溶解、機械的溶解、若しくは光学溶解により達成することができる。細胞は、洗剤(例えば、SDS、リチウムドデシル硫酸、トリトンX-100、Tween-20、若しくはNP-40)、有機溶媒(例えば、メタノール若しくはアセトン)、消化酵素(例えば、プロテイナーゼK、ペプシン、若しくはトリプシン)、又はそれらの任意の組合せを含む細胞溶解バッファーの添加によって溶解することができる。標的とバーコードとの関連付けを増すために、標的分子の拡散速度は、例えば、溶解物の温度を下げ、且つ/又は溶解物の粘度を上げることによって変更することができる。
【0161】
幾つかの実施形態では、試料は濾紙を使用して溶解することができる。濾紙は、濾紙の上部を溶解バッファーに浸すことができる。濾紙は、試料の溶解及び基板への試料標的のハイブリダイズを促進することができる圧力で試料に適用することができる。
【0162】
幾つかの実施形態では、溶解は、機械的溶解、熱溶解、光学溶解、及び/又は化学溶解によって実行することができる。化学溶解は、プロテイナーゼK、ペプシン、及びトリプシン等の消化酵素の使用を含むことができる。溶解は、溶解バッファーを基板に添加することによって実行することができる。溶解バッファーはトリス塩酸を含むことができる。溶解バッファーは、少なくとも約0.01M、0.05M,0.1M、0.5M、1M、又はこれを超えるトリス塩酸を含むことができる。溶解バッファーは、多くとも約0.01M、0.05M、0.1M、0.5M、1M、又はこれを超えるトリス塩酸を含むことができる。溶解バッファーは、約0.1Mのトリス塩酸を含むことができる。溶解バッファーのpHは、少なくとも約1、2、3、4、5、6、7、8、9、10、又はそれを超える値であることができる。溶解バッファーのpHは、多くとも約約1、2、3、4、5、6、7、8、9、10、又はそれを超える値であることができる。幾つかの実施形態では、溶解バッファーのpHは約7.5である。溶解バッファーは塩(例えば、LiCl)を含むことができる。溶解バッファー中の塩の濃度は、少なくとも約0.1M、0.5M、1M、又はそれを超える濃度であることができる。溶解バッファー中の塩の濃度は、多くとも約0.1M、0.5M、1M、又はそれを超える濃度であることができる。幾つかの実施形態では、溶解バッファー中の塩の濃度は、約0.5Mである。溶解バッファーは、洗剤(例えば、SDS、リチウムドデシル硫酸、トリトンX-100、Tween-20、NP-40)を含むことができる。溶解バッファー中の洗剤の濃度は、少なくとも約0.0001%、0.0005%、0.001%、0.005%、0.01%、0.05%、0.1%、0.5%、1%、2%、3%、4%、5%、6%、7%、又はそれを超える濃度であることができる。溶解バッファー中の洗剤の濃度は、多くとも約0.0001%、0.0005%、0.001%、0.005%、0.01%、0.05%、0.1%、0.5%、1%、2%、3%、4%、5%、6%、7%、又はそれを超える濃度であることができる。幾つかの実施形態では、溶解バッファー中の洗剤の濃度は、約1%のリチウムドデシル硫酸であることができる。溶解の方法に使用される時間は、使用される洗剤の量に依存することができる。幾つかの実施形態では、使用される洗剤が多いほど、溶解に必要な時間は短い。溶解バッファーは、キレート剤(例えば、EDTA、EGTA)を含むことができる。溶解バッファー中のキレート剤の濃度は、少なくとも約1mM、5mM、10mM、15mM、20mM、25mM、30mM、又はそれを超える濃度であることができる。溶解バッファー中のキレート剤の濃度は、多くとも約1mM、5mM、10mM、15mM、20mM、25mM、30mM、又はそれを超える濃度であることができる。幾つかの実施形態では、溶解バッファー中のキレート剤の濃度は、約10mMである。溶解バッファーは、還元剤(例えば、βメルカプトエタノール、DTT)を含むことができる。溶解バッファー中の還元剤の濃度は、少なくとも約1mM、5mM、10mM、15mM、20mM、又はそれを超える濃度であることができる。溶解バッファー中の還元剤の濃度は、多くとも約1mM、5mM、10mM、15mM、20mM、又はそれを超える濃度であることができる。幾つかの実施形態では、溶解バッファー中の還元剤の濃度は、約5mMである。幾つかの実施形態では、溶解バッファーは、トリス塩酸約0.1M、約pH7.5、LiCl約0.5M、リチウムドデシル硫酸約1%、EDTA約10mM及びMDTT約5mを含むことができる。
【0163】
溶解は、約4°C、10°C、15°C、20°C、25°C、30°Cの温度で実行することができる。溶解は、約1分、5分、10分、15分、20分、又はそれを超える時間にわたり実行することができる。溶解した細胞は、少なくとも約100000個、200000個、300000個、400000個、500000個、600000個、700000個、又はそれを超える標的核酸分子を含むことができる。溶解した細胞は、多くとも約100000個、200000個、300000個、400000個、500000個、600000個、700000個、又はそれを超える標的核酸分子を含むことができる。
【0164】
標的核酸分子へのバーコードの付着
細胞の溶解及びそこからの核酸分子の遊離に続き、核酸分子に、共存下の固体支持体のバーコードをランダムに関連付けることができる。関連付けは、バーコードの標的認識領を標的核酸分子の相補部分にハイブリダイズする(例えば、バーコードのオリゴ(dT)は標的のポリ(A)テールと相互作用することができる)ことを含むことができる。ハイブリダイゼーションに使用されるアッセイ条件(例えば、バッファーpH、イオン強度、温度等)は、特定の安定したハイブリッドの形成を促進するように選ぶことができる。幾つかの実施形態では、溶解した細胞から遊離した核酸分子には、基板上の複数のプローブを関連付ける(例えば、基板のプローブとハイブリダイズする)ことができる。プローブがオリゴ(dT)を含む場合、mRNA分子をプローブにハイブリダイズさせ、逆転写することができる。オリゴヌクレオチドのオリゴ(dT)部分は、cDNA分子の第1鎖合成のプライマーとして機能することができる。例えば、
図2に示されるバーコーディングの非限定的な例では、ブロック216において、mRNA分子をビーズ上のバーコードにハイブリダイズすることができる。例えば、単鎖ヌクレオチド断片をバーコードの標的結合領域にハイブリダイズすることができる。
【0165】
付着は、バーコードの標的認識領域と標的核酸分子の一部とのライゲーションを更に含むことができる。例えば、標的結合領域は、制限部位オーバーハング(例えば、EcoRI粘着末端オーバーハング)への特異的なハイブリダイズを可能にすることができる核酸配列を含むことができる。アッセイ手順は、制限酵素(例えば、EcoRI)で標的核酸を処理して、制限部位オーバーハングを作成することを更に含むことができる。次に、制限部位オーバーハングと相補的な配列を含む任意の核酸分子にバーコードをライゲートすることができる。リガーゼ(例えば、T4 DNAリガーゼ)を使用して、2つの断片を接合することができる。
【0166】
例えば、
図2に示されるバーコーディングの非限定的な例では、ブロック220において、複数の細胞(又は複数の試料)(例えば、標的バーコード分子)からの標識された標的は続けて、例えば、管にプールすることができる。標識された標的は、例えば、標的バーコード分子が付着したバーコード及び/又はビーズを回収することによってプールすることができる。
【0167】
付着した標的バーコード分子の固体支持体ベースの集まりの回収は、磁性ビーズ及び外部印加磁場の使用によって実施することができる。標的バーコード分子がプールされると、全ての更なる処理は1つの反応容器内で進めることができる。更なる処理は、例えば、逆転写反応、増幅反応、開裂反応、分離反応、及び/又は核酸伸長反応を含むことができる。更なる処理反応は、マイクロウェル内で、すなわち、複数の細胞からの標識された標的核酸分子を最初にプールせずに、実行することができる。
【0168】
逆転写
本開示は、逆転写を使用して標的バーコード共役を作成する方法を提供する(例えば、
図2のブロック224において)。標的バーコード共役は、バーコードと、標的核酸の全て又は一部の相補配列(すなわち、確率的バーコード付きcDNA分子等のバーコード付きcDNA分子)とを含むことができる。関連付けられたRNA分子の逆転写は、逆転写酵素と共に逆転写プライマーの添加により行うことができる。逆転写プライマーは、オリゴ(dT)プライマー、ランダム六塩基プライマー、又は標的特異オリゴヌクレオチドプライマーであることができる。オリゴ(dT)プライマーは、ヌクレオチド12~18個分又は約12~18個分の長さであることができ、哺乳類mRNAの3’末端における内因性ポリ(A)テールに結合することができる。ランダム六塩基プライマーは、多種多様な相補部位においてmRNAに結合することができる。標的特異オリゴヌクレオチドプライマーは通常、関心のあるmRNAを選択的にプライミングする。
【0169】
幾つかの実施形態では、標識されたRNA分子の逆転写は、逆転写プライマーの添加によって行うことができる。幾つかの実施形態では、逆転写プライマーは、オリゴ(dT)プライマー、ランダム六塩基プライマー、又は標的特異オリゴヌクレオチドプライマーである。一般に、オリゴ(dT)プライマーはヌクレオチド12個~18個の長さであり、哺乳類mRNAの3’末端における内因性ポリ(A)テールに結合する。ランダム六塩基プライマーは、多種多様な相補部位においてmRNAに結合することができる。標的特異オリゴヌクレオチドプライマーは通常、関心のあるmRNAを選択的にプライミングする。
【0170】
逆転写を繰り返し行って、複数の標識されたcDNA分子を生成することができる。本明細書に開示される方法は、少なくとも約1回、2回、3回、4回、5回、6回、7回、8回、9回、10回、11回、12回、13回、14回、15回、16回、17回、18回、19回、又は20回、逆転写反応を行うことを含むことができる。方法は、少なくとも約25回、30回、35回、40回、45回、50回、55回、60回、65回、70回、75回、80回、85回、90回、95回、又は100回、逆転写反応を行うことを含むことができる。
【0171】
増幅
1つ又は複数の核酸増幅反応(例えば、
図2のブロック228における)を実行して、標識された標的核酸分子の複数のコピーを作成することができる。増幅は多重化して実行することができ、複数の標的核酸配列は同時に増幅される。増幅反応を使用して、シーケンシングアダプターを核酸分子に追加することができる。増幅反応は、試料標識が存在する場合、試料標識の少なくとも一部を増幅することを含むことができる。増幅反応は、細胞標識及び/又はバーコード配列(例えば、分子標識)の少なくとも一部を増幅することを含むことができる。増幅反応は、試料タグ、細胞標識、空間標識、バーコード(例えば、分子標識)、標的核酸、又はそれらの組合せの少なくとも一部を増幅することを含むことができる。増幅反応は、複数の核酸の0.5%、1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、97%、100%、又はそれらの値の任意の2つの間の範囲若しくは数字、増幅することを含むことができる。方法は、1つ又は複数のcDNA合成反応を行い、試料標識、細胞標識、空間標識、及び/又はバーコード配列(例えば、分子標識)を含む標的バーコード分子の1つ又は複数のcDNAコピーを生成することを更に含むことができる。
【0172】
幾つかの実施形態では、増幅は、ポリメラーゼ連鎖反応(PCR)を使用して実行することができる。本明細書で使用される場合、PCRは、DNAの相補鎖の同時プライマー伸長によって特定のDNA配列をin vitroで増幅する反応を指すことができる。本明細書で使用される場合、PCRは、限定ではなく、RT-PCR、リアルタイムPCR、ネストPCR、定量的PCR、多重PCR、デジタルPCR、及びアセンブリPCRを含め、反応の誘導体を包含することができる。
【0173】
標識された核酸の増幅は、非PCRベースの方法を含むこともできる。非PCRベースの方法の例には、限定ではなく、多置換増幅(MDA)、転写介在増幅(TMA)、核酸配列ベースの増幅(NASBA)、鎖置換増幅(SDA)、リアルタイムSDA、ローリングサークル増幅又はサークル-サークル増幅がある。他の非PCRベースの増幅方法には、DNA又はRNA標的を増幅する多サイクルのDNA依存のRNAポリメラーゼ誘導RNA転写増幅又はRNA依存性DNA合成及び転写、リガーゼ連鎖反応(LCR)、Qβレプリカーゼ(Qβ)法、回文プローブ(palindromic probe)の使用、鎖置換増幅、制限エンドヌクレアーゼを使用したオリゴヌクレオチド誘導増幅、プライマーが核酸配列にハイブリダイズし、その結果生成された二本鎖が、伸長反応及び増幅の前に開裂する増幅法、5’エキソヌクレアーゼ活性を欠く核酸ポリメラーゼを使用した鎖置換増幅、ローリングサークル増幅、並びに分岐伸長増幅(RAM)がある。幾つかの実施形態では、増幅は環状転写物を生成しない。
【0174】
幾つかの実施形態では、本明細書に開示される方法は、標識された核酸(例えば、標識されたRNA、標識されたDNA、標識されたcDNA)に対してポリメラーゼ連鎖反応を行い、標識された増幅産物(例えば、確率的に標識された増幅産物)を生成することを更に含む。標識された増幅産物は、二本鎖分子であることができる。二本鎖分子は、二本鎖RNA分子、二本鎖DNA分子、又はDNA分子にハイブリダイズしたRNA分子を含むことができる。二本鎖分子の一方又は両方の鎖は、試料標識、空間標識、細胞標識、及び/又はバーコード配列(例えば、分子標識)を含むことができる。標識された増幅産物は、単鎖分子であることができる。単鎖分子は、DNA、RNA、又はそれらの組合せを含むことができる。本開示の核酸は、合成核酸及び改変核酸を含むことができる。
【0175】
増幅は、1つ又は複数の非天然ヌクレオチドの使用を含むことができる。非天然ヌクレオチドは、感光性又はトリガー可能(triggerable)ヌクレオチドを含むことができる。非天然ヌクレオチドの例としては、限定ではなく、ペプチド核酸(PNA)、モルフォリノ及びロックド核酸(LNA)、並びにグリコール核酸(GNA)及びトレオース核酸(TNA)を挙げることができる。非天然ヌクレオチドは、増幅反応の1つ又は複数のサイクルに追加することができる。非天然ヌクレオチドの追加を使用して、増幅反応における特定のサイクル又は時点として産物を識別することができる。
【0176】
1つ又は複数の増幅反応を行うことは、1つ又は複数のプライマーの使用を含むことができる。1つ又は複数のプライマーは、例えば、1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、又はそれを超える個数のヌクレオチドを含むことができる。1つ又は複数のプライマーは、少なくとも1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、又はそれを超える個数のヌクレオチドを含むことができる。1つ又は複数のプライマーは、12個~15個未満のヌクレオチドを含むことができる。1つ又は複数のプライマーは、複数の標識された標的(例えば、確率的に標識された標的)の少なくとも一部にアニールすることができる。1つ又は複数のプライマーは、複数の標識された標的の3’末端及び5’末端にアニールすることができる。1つ又は複数のプライマーは、複数の標識された標的の内部領域にアニールすることができる。内部領域は、複数の標識された標的の3’末端からの少なくとも約50個、100個、150個、200個、220個、230個、240個、250個、260個、270個、280個、290個、300個、310個、320個、330個、340個、350個、360個、370個、380個、390個、400個、410個、420個、430個、440個、450個、460個、470個、480個、490個、500個、510個、520個、530個、540個、550個、560個、570個、580個、590個、600個、650個、700個、750個、800個、850個、900個、又は1000個のヌクレオチドであることができる。1つ又は複数のプライマーは、プライマーの固定パネルを含むことができる。1つ又は複数のプライマーは、少なくとも1つ又は複数のカスタムプライマーを含むことができる。1つ又は複数のプライマーは、少なくとも1つ又は複数のコントロールプライマーを含むことができる。1つ又は複数のプライマーは、少なくとも1つ又は複数の遺伝子特異的プライマーを含むことができる。
【0177】
1つ又は複数のプライマーは、ユニバーサルプライマーを含むことができる。ユニバーサルプライマーは、ユニバーサルプライマー結合部位にアニールすることができる。1つ又は複数のカスタムプライマーは、最初の試料標識、次の試料標識、空間標識、細胞標識、バーコード配列(例えば、分子標識)、標的、又は任意のそれらの組合せにアニールすることができる。1つ又は複数のプライマーは、ユニバーサルプライマー及びカスタムプライマーを含むことができる。カスタムプライマーは、1つ又は複数の標的を増幅するように設計することができる。標的は、1つ又は複数の試料中の合計核酸のサブセットを含むことができる。標的は、1つ又は複数の試料中の標識された合計標的のサブセットを含むことができる。1つ又は複数のプライマーは、少なくとも96個以上のカスタムプライマーを含むことができる。1つ又は複数のプライマーは、少なくとも960個以上のカスタムプライマーを含むことができる。1つ又は複数のプライマーは、少なくとも9600個以上のカスタムプライマーを含むことができる。1つ又は複数のカスタムプライマーは、2つ以上の異なる標識核酸にアニールすることができる。2つ以上の異なる標識核酸は、1つ又は複数の遺伝子に対応することができる。
【0178】
本開示の方法では、任意の増幅方式を使用することができる。例えば、一方式では、1回目のPCRは、遺伝子特異的プライマー及びユニバーサルIlluminaシーケンシングプライマー1配列に対するプライマーを使用して、ビーズに付着した分子を増幅することができる。2回目のPCRは、Illuminaシーケンシングプライマー2配列に隣接したネスト遺伝子特異的プライマー及びユニバーサルIlluminaシーケンシングプライマー1配列に対するプライマーを使用して、1回目のPCRの産物を増幅することができる。3回目のPCRは、P5及びP7並びに試料インデックスを追加して、PCR産物をIlluminaシーケンシングライブラリにする。150bp×2シーケンシングを使用したシーケンシングは、リード1で細胞標識及びバーコード配列(例えば、分子標識)を明らかにし、リード2で遺伝子を明らかにし、インデックス1リードで試料インデックスを明らかにすることができる。
【0179】
幾つかの実施形態では、核酸は、化学開裂を使用して基板から取り外すことができる。例えば、核酸に存在する化学基又は修飾塩基を使用して、固体支持体からの核酸の取り外しを促進することができる。例えば、酵素を使用して、核酸を基板から取り外すことができる。例えば、核酸は、制限エンドヌクレアーゼによる消化を通して基板から取り外すことができる。例えば、ウラシル-d-グリコシラーゼ(UDG)を用いた、dUTP又はddUTPを含む核酸の処理を使用して、基板から核酸を取り外すことができる。例えば、核酸は、脱プリン/脱ピリミジン塩基(AP)エンドヌクレアーゼ等の塩基除去修復酵素等のヌクレオチド除去を実行する酵素を使用して、基板から取り外すことができる。幾つかの実施形態では、核酸は、光開裂可能基及び光を使用して基板から取り外すことができる。幾つかの実施形態では、開裂可能リンカーを使用して、核酸を基板から取り外すことができる。例えば、開裂可能リンカーは、ビオチン/アビジン、ビオチン/ストレプトアビジン、ビオチン/ニュートラアビジン、Ig-タンパク質A、感光性リンカー、酸若しくは塩基不安定性リンカー基、又はアプタマーの少なくとも1つを含むことができる。
【0180】
プローブが遺伝子特異的である場合、分子はプローブにハイブリダイズし、逆転写及び/又は増幅することができる。幾つかの実施形態では、核酸が合成(例えば、逆転写)された後、核酸を増幅することができる。増幅は、多重化して実行することができ、複数の標的核酸配列は同時に増幅される。増幅は、シーケンシングアダプターを核酸に追加することができる。
【0181】
幾つかの実施形態では、増幅は、例えば、ブリッジ増幅を用いて基板で実行することができる。cDNAは、基板上のオリゴ(dT)プローブを使用してブリッジ増幅するためのコンパチブル末端を生成するために、ホモポリマーテール化することができる。ブリッジ増幅では、鋳型核酸の3’末端と相補的なプライマーは、固体粒子に共有結合で付着した各ペアのうちの第1のプライマーであることができる。鋳型核酸を含む試料が粒子に接触し、1回の熱サイクルが実行されると、鋳型分子を第1のプライマーにアニールすることができ、第1のプライマーは、ヌクレオチドの追加により順方向に伸長して、鋳型分子と、鋳型と相補的な新たに形成されたDNA鎖とからなる二本鎖分子を形成する。次のサイクルの加熱ステップにおいて、二本鎖分子を変性させ、鋳型分子を粒子から解放し、第1のプライマーを通して相補DNA鎖を粒子に付着させたままにすることができる。アニーリングするアニーリング段階及び続く伸長ステップにおいて、相補鎖を第2のプライマーにハイブリダイズすることができ、これは、第1のプライマーから取り外されたロケーションにおける相補鎖のセグメントに相補的である。このハイブリダイゼーションは、相補鎖に、第1のプライマーと第2のプライマーとの間に、第1のプライマーには共有結合により固定され、第2のプライマーにはハイブリダイゼーションにより固定されたブリッジを形成させることができる。伸長段階では、第2のプライマーは、同じ反応混合物へのヌクレオチドの追加により逆方向に伸長し、それにより、ブリッジを二本鎖ブリッジに変換することができる。次に、次のサイクルが開始され、二本鎖ブリッジを変性させて、2つの単鎖核酸分子を生成することができる、各単鎖核酸分子は、第1及び第2のプライマーを介してそれぞれ粒子表面に付着した一端部と、それぞれ付着していない他端部とを有する。この2回目のサイクルのアニール及び伸長ステップにおいて、各鎖は、同じ粒子上の、前は使用されなかった更なる相補プライマーとハイブリダイズして、新しい単鎖ブリッジを形成することができる。ここでハイブリダイズされた、前は使用されなかった2つのプライマーは伸長して、2つの新しいブリッジを二本鎖ブリッジに変換する。
【0182】
増幅反応は、複数の核酸の少なくとも1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、97%、又は100%を増幅することを含むことができる。
【0183】
標識された核酸の増幅は、PCRベースの方法又は非PCRベースの方法を含むことができる。標識された核酸の増幅は、標識された核酸の指数的増幅を含むことができる。標識された核酸の増幅は、標識された核酸の線形的増幅を含むことができる。増幅は、ポリメラーゼ連鎖反応(PCR)により実行することができる。PCRは、DNAの相補鎖の同時プライマー伸長による特定のDNA配列のin vitro増幅の反応を指すことができる。PCRは、限定ではなく、RT-PCR、リアルタイムPCR、ネストPCR、定量的PCR、多重PCR、デジタルPCR、抑制PCR、半PCR抑制、及びアセンブリPCRを含め、反応の誘導体を包含することができる。
【0184】
幾つかの実施形態では、標識された核酸の増幅は、非PCRベースの方法を含む。非PCRベースの方法の例には、限定ではなく、多置換増幅(MDA)、転写介在増幅(TMA)、核酸配列ベースの増幅(NASBA)、鎖置換増幅(SDA)、リアルタイムSDA、ローリングサークル増幅又はサークル-サークル増幅がある。他の非PCRベースの増幅方法には、DNA又はRNA標的を増幅する多サイクルのDNA依存のRNAポリメラーゼ誘導RNA転写増幅又はRNA依存性DNA合成及び転写、リガーゼ連鎖反応(LCR)、Qβレプリカーゼ(Qβ)法、回文プローブの使用、鎖置換増幅、制限エンドヌクレアーゼを使用したオリゴヌクレオチド誘導増幅、プライマーが核酸配列にハイブリダイズし、その結果生成された二本鎖が、伸長反応及び増幅の前に開裂する増幅法、5’エキソヌクレアーゼ活性を欠く核酸ポリメラーゼを使用した鎖置換増幅、ローリングサークル増幅、及び/又は分岐伸長増幅(RAM)がある。
【0185】
幾つかの実施形態では、本明細書に開示される方法は、増幅された増幅産物(例えば、標的)に対してネストポリメラーゼ連鎖反応を行うことを更に含む。増幅産物は二本鎖分子であることができる。二本鎖分子は、二本鎖RNA分子、二本鎖DNA分子、又はDNA分子にハイブリダイズしたRNA分子を含むことができる。二本鎖分子の一方又は両方の鎖は、試料タグ又は分子識別子標識を含むことができる。代替的には、増幅産物は単鎖分子であることができる。単鎖分子は、DNA、RNA、又はそれらの組合せを含むことができる。本開示の核酸は、合成核酸及び改変核酸を含むことができる。
【0186】
幾つかの実施形態では、方法は、標識された核酸を繰り返し増幅して、複数の増幅産物を生成することを含む。本明細書に開示される方法は、少なくとも約1回、2回、3回、4回、5回、6回、7回、8回、9回、10回、11回、12回、13回、14回、15回、16回、17回、18回、19回、又は20回の増幅反応を行うことを含むことができる。代替的には、方法は、少なくとも約25回、30回、35回、40回、45回、50回、55回、60回、65回、70回、75回、80回、85回、90回、95回、又は100回の増幅反応を行うことを含む。
【0187】
増幅は、複数の核酸を含む1つ又は複数の試料に1つ又は複数のコントロール核酸を追加することを更に含むことができる。増幅は、1つ又は複数のコントロール核酸を複数の核酸に追加することを更に含むことができる。コントロール核酸はコントロール標識を含むことができる。
【0188】
増幅は、1つ又は複数の非天然ヌクレオチドの使用を含むことができる。非天然ヌクレオチドは、感光性又はトリガー可能ヌクレオチドを含むことができる。非天然ヌクレオチドの例には、限定ではなく、ペプチド核酸(PNA)、モルフォリノ及びロックド核酸(LNA)、並びにグリコール核酸(GNA)及びトレオース核酸(TNA)がある。非天然ヌクレオチドは、増幅反応の1つ又は複数のサイクルに追加することができる。非天然ヌクレオチドの追加を使用して、増幅反応における特定のサイクル又は時点として産物を識別することができる。
【0189】
1つ又は複数の増幅反応を行うことは、1つ又は複数のプライマーの使用を含むことができる。1つ又は複数のプライマーは、1つ又は複数のオリゴヌクレオチドを含むことができる。1つ又は複数のオリゴヌクレオチドは、少なくとも約7個~9個のヌクレオチドを含むことができる。1つ又は複数のオリゴヌクレオチドは、12個~15個未満のヌクレオチドを含むことができる。1つ又は複数のプライマーは、複数の標識された核酸の少なくとも一部にアニールすることができる。1つ又は複数のプライマーは、複数の標識された核酸の3’末端及び/又は5’末端にアニールすることができる。1つ又は複数のプライマーは、複数の標識された核酸の内部領域にアニールすることができる。内部領域は、複数の標識された核酸の3’末端からの少なくとも約50個、100個、150個、200個、220個、230個、240個、250個、260個、270個、280個、290個、300個、310個、320個、330個、340個、350個、360個、370個、380個、390個、400個、410個、420個、430個、440個、450個、460個、470個、480個、490個、500個、510個、520個、530個、540個、550個、560個、570個、580個、590個、600個、650個、700個、750個、800個、850個、900個、又は1000個のヌクレオチドであることができる。1つ又は複数のプライマーは、プライマーの固定パネルを含むことができる。1つ又は複数のプライマーは、少なくとも1つ又は複数のカスタムプライマーを含むことができる。1つ又は複数のプライマーは、少なくとも1つ又は複数のコントロールプライマーを含むことができる。1つ又は複数のプライマーは、少なくとも1つ又は複数のハウスキーピング遺伝子プライマーを含むことができる。1つ又は複数のプライマーは、ユニバーサルプライマーを含むことができる。ユニバーサルプライマーは、ユニバーサルプライマー結合部位にアニールすることができる。1つ又は複数のカスタムプライマーは、最初の試料タグ、次の試料タグ、分子識別子標識、核酸、又はその産物にアニールすることができる。1つ又は複数のプライマーは、ユニバーサルプライマー及びカスタムプライマーを含むことができる。カスタムプライマーは、1つ又は複数の標的核酸を増幅するように設計することができる。標的核酸は、1つ又は複数の試料中の合計核酸のサブセットを含むことができる。幾つかの実施形態では、プライマーは、本開示のアレイに付着したプローブである。
【0190】
幾つかの実施形態では、試料中の複数の標的をバーコーディング(例えば、確率的バーコーディング)することは、バーコード付き断片の索引付きライブラリを生成することを更に含む。異なるバーコードのバーコード配列(例えば、異なる確率的バーコードの分子標識)は、互いと異なることができる。バーコード付き標的(例えば、確率的バーコード付き標的)の索引付きライブラリを生成することは、試料中の複数の標的から複数の索引付きポリヌクレオチドを生成することを含む。例えば、第1の索引付き標的及び第2の索引付き標的を含むバーコード付き標的の索引付きライブラリの場合、第1の索引付きポリヌクレオチドの標識領域は、第2の索引付きポリヌクレオチドの標識領域から、少なくとも又は多くとも1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、20個、30個、40個、50個、又はこれらの値の任意の2つの間の数若しくは範囲の個数のヌクレオチド分、異なることができる。幾つかの実施形態では、バーコード付き標的の索引付きライブラリを生成することは、ポリ(T)領域及び標識領域を含む複数のオリゴヌクレオチドで複数の標的、例えば、mRNA分子に接触することと、逆転写酵素を使用して第1の鎖合成を行い、cDNA領域及び標識領域をそれぞれ含む単鎖標識cDNA分子を生成することとを含み、複数の標的は、異なる配列の少なくとも2つのmRNA分子を含み、複数のオリゴヌクレオチドは、異なる配列の少なくとも2つのオリゴヌクレオチドを含む。バーコード付き標的の索引付きライブラリの生成は、単鎖標識cDNA分子を増幅して、二本鎖標識cDNA分子を生成することと、ネストPCRを二本鎖標識cDNA分子に対して行い、標識された増幅産物を生成することとを更に含むことができる。幾つかの実施形態では、方法は、アダプター標識増幅産物を生成することを含むことができる。
【0191】
確率的バーコーディングは、核酸バーコード又はタグを使用して、個々の核酸(例えば、DNA又はRNA)分子を標識することができる。幾つかの実施形態では、cDNA分子がmRNAから生成されると、DNAバーコード又はタグをcDNA分子に追加することを含む。ネストPCRを実行して、PCR増幅バイアスを最小に抑えることができる。アダプターは、例えば、次世代シーケンシング(NGS)を使用するシーケンシングの場合、追加することができる。例えば、
図2のブロック232において、シーケンシング結果を使用して、細胞標識、バーコード配列(例えば、分子標識)、及び標的の1つ又は複数のコピーのヌクレオチド断片の配列を特定することができる。
【0192】
図3は、バーコード付き標的(例えば、確率的バーコード付き標的)、例えば、mRNAの索引付きライブラリを生成する非限定的で例示的なプロセスを示す概略図である。ステップ1に示されるように、逆転写プロセスは、一意のバーコード配列(例えば、分子標識)、細胞標識、及びユニバーサルPCR部位を各mRNAにコードすることができる。例えば、RNA分子302を逆転写して、1組のバーコード(例えば、確率的バーコード)310)をRNA分子302のポリ(A)テール領域308にハイブリダイズすることにより、cDNA領域306を含む標識されたcDNA分子304を生成することができる。各バーコード310は、標的結合領域、例えばポリ(dT)領域312、バーコード配列又は分子標識314、及びユニバーサルPCR領域316を含むことができる。
【0193】
幾つかの実施形態では、細胞標識は3個~20個のヌクレオチドを含むことができる。幾つかの実施形態では、バーコード配列(例えば、分子標識)は、3個~20個のヌクレオチドを含むことができる。幾つかの実施形態では、複数の確率的バーコードのそれぞれは、ユニバーサル標識及び細胞標識の1つ又は複数を更に含み、ユニバーサル標識は、固体支持体上の複数の確率的バーコードで同じであり、細胞標識は、固体支持体上の複数の確率的バーコードで同じである。幾つかの実施形態では、ユニバーサル標識は、3個~20個のヌクレオチドを含むことができる。幾つかの実施形態では、細胞標識は、3個~20個のヌクレオチドを含むことができる。
【0194】
幾つかの実施形態では、標識領域314は、バーコード配列又は分子標識318及び細胞標識320を含むことができる。幾つかの実施形態では、標識領域314は、ユニバーサル標識、次元標識、及び細胞標識の1つ又は複数を含むことができる。バーコード配列又は分子標識318は、1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、20個、30個、40個、50個、60個、70個、80個、90個、100個、若しくはこれらの値の任意の2つの間の数若しくは範囲の個数のヌクレオチドの長さであることができ、約これらの個数、少なくともこれらの個数、又は多くともこれらの個数の長さであることができる。細胞標識320は、1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、20個、30個、40個、50個、60個、70個、80個、90個、100個、若しくはこれらの値の任意の2つの間の数若しくは範囲の個数のヌクレオチドの長さであることができ、約これらの個数、少なくともこれらの個数、又は多くともこれらの個数の長さであることができる。ユニバーサル標識は、1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、20個、30個、40個、50個、60個、70個、80個、90個、100個、若しくはこれらの値の任意の2つの間の数若しくは範囲の個数のヌクレオチドの長さであることができ、約これらの個数、少なくともこれらの個数、又は多くともこれらの個数の長さであることができる。ユニバーサル標識は、固体支持体上の複数の確率的バーコードで同じであることができ、細胞標識は、固体支持体上の複数の確率的バーコードで同じである。次元標識は、1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、20個、30個、40個、50個、60個、70個、80個、90個、100個、若しくはこれらの値の任意の2つの間の数若しくは範囲の個数のヌクレオチドの長さであることができ、約これらの個数、少なくともこれらの個数、又は多くともこれらの個数の長さであることができる。
【0195】
幾つかの実施形態では、標識領域314は、1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、20個、30個、40個、50個、60個、70個、80個、90個、100個、200個、300個、400個、500個、600個、700個、800個、900個、1000個、若しくはこれらの値の任意の2つの間の数若しくは範囲の個数のヌクレオチドの長さであることができ、約これらの個数、少なくともこれらの個数、又は多くともこれらの個数のバーコード配列又は分子標識318及び細胞標識320等の異なる標識を含むことができる。各標識は、1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、20個、30個、40個、50個、60個、70個、80個、90個、100個、若しくはこれらの値の任意の2つの間の数若しくは範囲の個数のヌクレオチドの長さであることができ、約これらの個数、少なくともこれらの個数、又は多くともこれらの個数の長さであることができる。1組のバーコード又は確率的バーコード310は、10個、20個、40個、50個、70個、80個、90個、102個、103個、104個、105個、106個、107個、108個、109個、1010個、1011個、1012個、1013個、1014個、1015個、1020個、若しくはこれらの値の任意の2つの間の数若しくは範囲の個数のヌクレオチドの長さであることができ、約これらの個数、少なくともこれらの個数、又は多くともこれらの個数のバーコード又は確率的バーコード310を含むことができる。そして、1組のバーコード又は確率的バーコード310は、例えば、それぞれ、一意の標識領域314を含むことができる。標識されたcDNA分子304は精製されて、余分なバーコード又は確率的バーコード310を取り外すことができる。精製はAmpureビーズ精製を含むことができる。
【0196】
ステップ2に示されるように、ステップ1における逆転写プロセスからの産物は、1つの管にプールし、第1世代PCRプライマープール及び第1世代ユニバーサルPCRプライマーを用いてPCR増幅することができる。プールは、一意の標識領域314により可能である。特に、標識されたcDNAな分子304を増幅して、ネストPCR標識増幅産物322を生成することができる。増幅は、多重PCR増幅を含むことができる。増幅は、単一反応容量中の96個の多重プライマーを用いる多重PCR増幅を含むことができる。幾つかの実施形態では、多重PCR増幅は、単一反応容量中の10個、20個、40個、50個、70個、80個、90個、102個、103個、104個、105個、106個、107個、108個、109個、1010個、1011個、1012個、1013個、1014個、1015個、1020個、若しくはこれらの値の任意の2つの間の数若しくは範囲の個数、約これらの個数、少なくともこれらの個数、又は多くともこれらの個数の多重プライマーを利用することができる。増幅は、特定の遺伝子を標的としたカスタムプライマー326A~Cの第1世代PCRプライマープール324及びユニバーサルプライマー328を含むことができる。カスタムプライマー326は、標識されたcDNA分子304のcDNA部分306’内の領域にハイブリダイズすることができる。ユニバーサルプライマー328は、標識されたcDNA分子304のユニバーサルPCR領域316にハイブリダイズすることができる。
【0197】
図3のステップ3に示されるように、ステップ2におけるPCR増幅からの産物は、ネストPCRプライマープール及び第2世代ユニバーサルPCRプライマーを用いて増幅することができる。ネストPCRは、PCR増幅バイアスを最小に抑えることができる。例えば、ネストPCR標識増幅産物322は、ネストPCRによって更に増幅することができる。ネストPCRは、単一反応容量中に、ネストPCRプライマー332a~cのネストPCRプライマープール330と、第2世代ユニバーサルPCRプライマー328’とを有する多重PCRを含むことができる。ネストPCRプライマープール328は、1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、20個、30個、40個、50個、60個、70個、80個、90個、100個、200個、300個、400個、500個、600個、700個、800個、900個、1000個、若しくはこれらの値の任意の2つの間の数若しくは範囲の個数、約これらの個数、少なくともこれらの個数、又は多くともこれらの個数の異なるネストPCRプライマー330を含むことができる。ネストPCRプライマー332は、アダプター334を含むことができ、標識された増幅産物322のcDNA部分306’’内の領域にハイブリダイズすることができる。ユニバーサルプライマー328’は、アダプター336を含むことができ、標識された増幅産物322のユニバーサルPCR領域316にハイブリダイズすることができる。したがって、ステップ3は、アダプター標識された増幅産物338を生成する。幾つかの実施形態では、ネストPCRプライマー332及び第2世代ユニバーサルPCRプライマー328’は、アダプター334及び336を含まなくてよい。アダプター334及び336は代わりに、ネストPCRの産物にライゲートして、アダプター標識された増幅産物338を生成することができる。
【0198】
ステップ4に示されるように、ステップ3からのPCR産物は、ライブラリ増幅プライマーを使用して、シーケンシングに向けてPCR増幅することができる。特に、アダプター334及び336を使用して、1つ又は複数の追加のアッセイをアダプター標識された増幅産物338に対して行うことができる。アダプター334及び336は、プライマー340及び342にハイブリダイズすることができる。1つ又は複数のプライマー340及び342は、PCR増幅プライマーであることができる。1つ又は複数のプライマー340及び342は、シーケンシングプライマーであることができる。1つ又は複数のアダプター334及び336は、アダプター標識された増幅産物338の更なる増幅に使用することができる。1つ又は複数のアダプター334及び336は、アダプター標識された増幅産物338のシーケンシングに使用することができる。プライマー342は、同じ組のバーコード又は確率的バーコード310を使用して生成された増幅産物が、次世代シーケンシング(NGS)を使用した1つのシーケンシング反応でシーケンシングすることができるようなプレートインデックス344を含むことができる。
【0199】
系統樹を使用した発現プロファイルのクラスタリング
本明細書に開示されるのは、細胞タイプを区別する標的を識別する方法である。幾つかの実施形態では、方法は、(a)標的カウントデータ構造を受信することであって、標的カウントデータ構造は、複数の細胞の発現プロファイルを含み、複数の細胞の発現プロファイルは、複数の細胞の各細胞の複数の標的の各標的を幾つか含む、受信することと、(b)標的カウントデータ構造及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングして、複数の細胞の発現プロファイルを表す系統樹を生成することであって、系統樹は複数のノードを含み、複数のノードは、ルートノード、複数のリーフノード、及び複数の非ルート非リーフノードを含み、複数のリーフノードの各リーフノードは、複数の細胞の異なる細胞の発現プロファイルを表し、ルートノードは、複数の細胞の発現プロファイルを表す、階層的にクラスタリングして、系統樹を生成することと、(c)系統樹の複数のノードの各ノードを通して系統樹のルートノードから系統樹の複数のリーフノードまでトラバースする間、(1)ノードをノードの子ノードに分割することが有効であるか、それとも無効であるか(例えば、子ノード間の差が有意であるか否か)を判断することと、(2)ノードをノードの子ノードに分割することが無効である場合、ノードを統合クラスタセットに追加することと、(d)統合クラスタセット内の第1のノードのそれぞれについて、繰り返し、統合クラスタセット内の第1のノードと、第1のノードに最も近い統合クラスタセット内の第2のノードとの間の距離が、統合距離閾値内である場合、第1のノードを第2のノードと統合して、第1のノード及び第2のノードによって表される発現プロファイルを含む統合ノードを生成することと、(e)統合クラスタセット内のノードのそれぞれについて、ノードによって表される細胞の複数の標的の発現プロファイルに基づいて、細胞タイプを区別する標的を識別することとを含む。
【0200】
図4は、細胞タイプを区別する標的を識別する非限定的で例示的な方法400を示すフローチャートである。方法400は、分子カウントデータ構造(例えば、分子カウントマトリックス)を1組のクラスタ標識及び1組の重要遺伝子にマッピングする。幾つかの実施形態では、入力は、分子カウントのN×Mマトリックス又はij番目のエントリが、細胞iからのリードを使用して観測された遺伝子jの分子数を記述するアレイであることができる。アルゴリズムは2つの出力を生成することができる。第1の出力は、各細胞(同じ標識の細胞は「同様」であると推測することができる)に一つずつ、N個1組の標識であることができる。第2の出力は、クラスタを互いから区別するのに使用することができる1組の遺伝子であることができる。
【0201】
方法400は、系統樹の分割、検定、及び統合手法を使用して2つの出力を生成する。データを前処理し、距離データ構造(例えば、距離マトリックス)Dを生成した後、アルゴリズムは、Dを階層的にクラスタリングして系統樹を生成することができる。アルゴリズムは2つのフェーズを含むことができる。分割及び検定フェーズ中、方法400は、系統樹の最上部(例えば、
図5におけるツリー又は系統樹500のルートノード504)から開始する。系統樹500は、ルートノード504、複数のリーフノード520a~520h、並びに複数の非ルート非リーフノード508a、508b、512a、512b、516a、及び516bを含む。系統樹の各ノード(リーフノード520a~520h等のリーフノードを除き)において、ツリーは2つのサブツリーに分割される(例えば、ルートノード504は2つのサブツリー508a、508bに分割される)。分割は、クラスタ(例えば、2つ以上の細胞の発現プロファイルを含む)が2つの候補サブクラスタ(例えば、少なくとも1つの細胞の発現プロファイルをそれぞれ含む)に分割されることに対応する。分割の品質はスコア付けすることができる。サブクラスタが十分に異なると思われる場合、アルゴリズムは、各サブツリーでの実行に続く。十分に異なると思われない場合、アルゴリズムは、系統樹のこの部分で終了する。このフェーズは、データセットに1組の標識を生成する。統合フェーズ中、方法400は、分割及び検定フェーズ中に生成された標識を使用して、これらのクラスタのいずれかを結合して、1つのクラスタを形成すべきか否かを判断する。幾つかの実施形態では、分割及び検定フェーズは、それぞれ少数の試料の小さなクラスタを生成する傾向を有する。統合フェーズは、小さなクラスタを大きなクラスタと統合することにより、小さなクラスタを「クリーンアップ」することができる。
【0202】
ブロック404において、方法400は、分子カウントデータ構造(例えば、分子カウントマトリックス)を受信することを含むことができる。マトリックスは、整数の非負エントリのみを含むことができ、大きく疎である傾向を有する。幾つかの実施形態では、入力は、分子カウントのN×Mマトリックス又はij番目のエントリが、細胞iからのリードを使用して観測された遺伝子jの分子数を記述するアレイであることができる。
【0203】
ブロック408において、方法400は、分子カウントデータ構造を前処理して、距離データ構造(例えば、距離マトリックス)を生成することを含むことができる。幾つかの実施形態では、入力データ構造は対数変換される。自然対数がとられる前、値1が各エントリに追加される。相関距離を使用して、細胞の各ペア間のペア毎の相違性dを記述することができる。細胞c
i及びc
jの場合、これらの2つの細胞間の相関距離は、式[1]を使用して特定することができる。
【数1】
式中、
【数2】
はc
iの全要素の平均を示す。前処理ステップの出力は、対角線に沿って0を有する距離の二乗対称マトリックスDであることができる。
【0204】
ブロック412において、方法400は、細胞の発現プロファイルを階層的にクラスタリングして、系統樹を生成することを含むことができる。細胞の発現プロファイルを階層的にクラスタリングして、系統樹を生成することは、系統樹の2つの最近傍クラスタを繰り返し統合することを含むことができる。全クラスタは、上述したペア毎の間の距離を有する個々の点として開始することができる。クラスタ間の距離Dを計算することは、完全連鎖を使用して行われた。クラスタA及びBの場合、2つのクラスタ間の距離は、式[2]を使用して特定することができる。
D(A,B)=maxa∈A,b∈Bd(a,b) 式[2]
このブロックにおいて、完全な系統樹を得ることができる。幾つかの実施形態では、クラスタAのクラスタ内相関及びクラスタBのクラスタ内相関は、クラスタAとクラスタBとのクラスタ間相関よりも高い。クラスタAのクラスタ内相関及びクラスタBのクラスタ内相関の尺度又は指示は、クラスタAとクラスタBとのクラスタ間相関よりも高い。クラスタAのクラスタ内相関及びクラスタBのクラスタ内相関の尺度は、クラスタA及びクラスタBのクラスタ内最大相関、クラスタA及びクラスタBのクラスタ内平均相関、クラスタA及びクラスタBのクラスタ内メジアン相関、クラスタA及びクラスタBのクラスタ内最小相関、並びにそれらの任意の組合せの少なくとも1つに基づくことができる。クラスタAのクラスタ内相関は、クラスタAのクラスタ内最大相関、クラスタAのクラスタ内平均相関、クラスタAのクラスタ内メジアン相関、クラスタAのクラスタ内最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。クラスタBのクラスタ内相関は、クラスタBのクラスタ内最大相関、クラスタBのクラスタ内平均相関、クラスタBのクラスタ内メジアン相関、クラスタBのクラスタ内最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。クラスタAとクラスタBとのクラスタ間相関は、クラスタAとクラスタBとのクラスタ間最大相関、クラスタAとクラスタBとのクラスタ間平均相関、クラスタAとクラスタBとのクラスタ間メジアン相関、クラスタAとクラスタBとのクラスタ間最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。例えば、2つのサブクラスタのクラスタ内メジアン相関は、クラスタ間メジアン相関よりも高い値であることができる。
【0205】
ブロック416において、方法400は、系統樹を分割し検定して、1組の標識を生成することを含むことができる。分割及び検定は、系統樹の最上部において開始することができる。系統樹サブツリーT0を所与として、ツリーは厳密に2つのサブツリーTL及びTRに分割することができる。統計検定を実行して、左サブツリーTL内の細胞が、右サブツリーTR内の細胞と十分に異なるか否かを判断することができる。幾つかの実施形態では、統計検定は、2つの集団の各遺伝子に対してウェルチt検定を実行することを含む。両集団中で分散が0であると推定される場合、無限大のt統計量が生じることができ、これらの場合は無視することができる。全検定の中での最小p値が、特定の閾値(誤検出率について控えめに補正された)よりも低い場合、分割は有効であると見なすことができ、アルゴリズムは2つのサブツリーに対して再び実行される。最小p値が閾値を下回らない場合、方法400はサブツリーT0について終了する。TLが厳密に1個の試料を含む(すなわち、TLがシングルトンである)場合、TLは無視することができ、アルゴリズムはTRを用いて手順を繰り返す。TRが厳密に1個の試料を含む場合、TRは無視することができ、アルゴリズムはTLを用いて手順を繰り返す。TL及びTRが両方ともそれぞれ厳密に1個の試料を含む場合、アルゴリズムはサブツリーT0について終了する。
【0206】
ブロック416において、方法400は、以下のようにクラスタ標識を特定することを含むことができる。最初に、全サブツリーを「r」とラベル付けることができる。分割が生じ、p値問題に起因して拒絶されない都度、TL内の細胞の全標識に「L」が添付され、TR内の細胞の全標識に「R」を添付することができる。これは、シングルトンをスキップする場合、標識がそれでもなお影響を受けることを意味する。シングルトンは自動的に、他のいかなるデータポイントとも共有されない一意の標識を取得する。
【0207】
ブロック416において、方法400は、各最終クラスタの一貫性を判断することを含むことができる。最終クラスタ内の全試料が互いから離れている(すなわち、クラスタ内のペア毎の間の距離が下部、例えば全距離の50パーセンタイルにない)場合、クラスタは解散することができる。次に、各試料はシングルトンとして記すことができる。
【0208】
ブロック420において、方法400は、ブロック416において生成された1組の標識を統合して、別の組の標識を生成することを含むことができる。幾つかの実施形態では、統合は2段階プロセスであることができる。第1の段階において、各シングルトンは、前処理ブロック408からの距離データ構造(例えば、距離マトリックス)を使用して特定された最近傍と同じクラスタに配置することができる。最近傍へのシングルトンの距離が距離の上部10%内にある(すなわち、全ての他の細胞から遠い)場合、そのシングルトンは、外れ値と記すことができ、それ自体のクラスタ内に留まる。この第1のステップは、全クラスタが少なくとも2つの非外れ値メンバを含むことを保証する。第2のステップにおいて、外れ値を除去した後、クラスタ間のペア毎の間の距離が、幾つかの統計検定を使用して計算され、ペア毎クラスタ距離マトリックスDcが生成される。2つのクラスタ間の距離は、全遺伝子にわたるウェルチt検定を介して得られた最小p値の負の対数として推定される。全体で最小の距離から始まり、2つの対応するクラスタは統合される。存在する全クラスタへの新しいクラスタの距離が計算され、プロセスは、ペア毎の間の距離が全て特定の距離を上回るまで繰り返される。パッケージは、Dcに対してLouvainアルゴリズムを実行することにより統合するコミュニティ検出ベースの手法も与える。
【0209】
ブロック424において、方法400は、ブロック420において特定された1組の標識から特徴を選択して、細胞タイプを区別する特徴を識別することを含むことができる。幾つかの実施形態では、方法400は、統合ブロック420から生成された標識を使用して2つのタイプの特徴選択を実行することができる。第1のタイプの特徴選択では、分割及び検定ブロック中、分割が保持される都度、K個の最小p値を有するK個の遺伝子が保存される。系統樹の最上部に近い分割からの遺伝子ほど多く保持することができる。最終的に、全分割の和集合からの一意の遺伝子のリストが出力される。第2のタイプの特徴選択では、クラスタごとに、関心のあるクラスタ内でより高い平均を有する遺伝子のみを使用して、幾つかのone-vs-rest検定が行われる。各クラスタの重要遺伝子のテーブルを、各遺伝子についての幾らかの追加情報(例えば、p値、フォールド変更、クラスタ内の平均発現レベル)と共に出力することができる。
【0210】
方法400は、探査分析を実行することを含むことができる。幾つかの実施形態では、方法400は、分割及び統合段階における特定のステップを視覚化する幾つかの関数を利用することができ使用することができる。例えば、これらの関数は、分割(又は統合)に関わる細胞、各サブツリー(又は結合クラスタ)で終わる細胞、及びこの分割(又は統合)を決定付けた遺伝子を示す。別の例として、方法400は、全クラスタの中でのペア毎の比較(例えば、どの遺伝子がクラスタの各ペアを区別するかを特定する)及び系統樹を描く関数を実行することができる。方法400は、クラスタ内のペア毎の間の距離の分布に基づくことができる。幾つかの実施形態では、方法400は、パラメータ掃引を実行することを含むことができ、も提供される。
【0211】
発現プロファイルのクラスタリング
本明細書に開示されるのは、細胞タイプを区別する標的を識別する方法である。幾つかの実施形態では、方法は、(a)複数の細胞の発現プロファイルを受信することであって、発現プロファイルは、複数の細胞の各細胞の複数の標的の各標的を幾つか含む、受信することと、(b)複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成することであって、各クラスタは、(1)親クラスタ及び(2)2つ以上の子クラスタのうちの一方又は両方との1つ又は複数の関連性を有し、親クラスタは、クラスタによって表される複数の細胞の1つ又は複数の細胞の発現プロファイルを表し、クラスタは、2つ以上の子クラスタによって表される発現プロファイルを表す、クラスタリングして生成することと、(c)2つ以上の子クラスタを有する各クラスタについて、クラスタと2つ以上の子クラスタとの関連性が無効である(2つ以上の子クラスタ間の差が有意ではない)場合、クラスタを統合クラスタセットに追加することと、(d)統合クラスタセット内の第1のクラスタのそれぞれについて、統合クラスタセット内の第1のクラスタと、第1のクラスタに最も近い統合クラスタセット内の第2のクラスタとの間の距離が、統合距離閾値内である場合、繰り返し、第1のクラスタ及び第2のクラスタを統合して、統合クラスタを生成することであって、統合クラスタは、第1のクラスタ及び第2のクラスタの発現プロファイルを含む、繰り返し統合することと、(e)統合クラスタセット内の各クラスタについて、クラスタによって表される細胞の複数の標的の発現プロファイルに基づいて細胞タイプを区別する標的を識別することとを含む。
【0212】
図6は、細胞の発現プロファイルをクラスタリングすることにより、細胞タイプを区別する標的を識別する非限定的で例示的な方法を示すフローチャートである。ブロック604において、方法600は、複数の細胞の発現プロファイルを受信する。各発現プロファイルは、複数の細胞の異なる細胞の複数の標的の幾つかの各標的を含むことができる。幾つかの実施形態では、複数の細胞の発現プロファイルを受信することは、標的カウントデータ構造(例えば、標的カウントマトリックス)を受信することを含む。標的カウントマトリックスの各行は、複数の細胞のうちの細胞の発現プロファイルを含むことができる。
【0213】
受信される発現プロファイルの数は、異なる実施態様で異なることができる。幾つかの実施形態では、受信される発現プロファイルの数は、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、若しくはこれらの値の任意の2つの間の数若しくは範囲、又は約これらの値若しくは範囲であることができる。幾つかの実施形態では、受信される発現プロファイルの数は、少なくとも又は多くとも10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、又は10000であることができる。
【0214】
幾つかの実施形態では、方法600は、ブロック604において、複数の細胞の発現プロファイルを受信する前、複数の確率的バーコードを使用して複数の細胞内の複数の標的を確率的にバーコーディングして、複数の確率的バーコード付き標的を作成することであって、複数の確率的バーコードのそれぞれは、細胞標識及び分子標識を含み、異なる細胞の標的から作成される確率的バーコード付き標的は、異なる細胞標識を有し、複数の細胞の1つの細胞の標的から作成される確率的バーコード付き標的は、異なる分子標識を有する、バーコーディングして複数のバーコード付き標的を作成することと、複数の確率的バーコード付き標的の配列データを取得することと、複数の細胞のそれぞれについて、(1)細胞の配列データ内の複数の標的の各標的に関連付けられた別個の配列を有する分子標識の数をカウントすることと、(2)(1)においてカウントされた配列データ内の標的に関連付けられた別個の配列を有する分子標識の数に基づいて、細胞の複数の標的の各標的の数を推定することとを含む。幾つかの実施形態では、複数の細胞のうちの細胞の発現プロファイルは、(2)において推定された細胞の複数の標的の各標的の数を含む。
【0215】
ブロック608において、方法600は、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成することを含むことができる。方法600は、複数の細胞の発現プロファイル間の距離に基づいて、発現プロファイルのクラスタを生成することができる。各クラスタによって表される発現プロファイルの数は、異なる実施態様で異なることができる。幾つかの実施形態では、各クラスタによって表される発現プロファイルの数は、1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、若しくはこれらの値の任意の2つの間の数若しくは範囲、又は約これらの値若しくは範囲であることができる。幾つかの実施形態では、各クラスタによって表される発現プロファイルの数は、少なくとも又は多くとも1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、又は10000であることができる。幾つかの実施形態では、各クラスタによって表される発現プロファイルは、ブロック604において受信される発現プロファイルの数の1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%若しくはこれらの値の任意の2つの間の数若しくは範囲、又は約これらの値若しくは範囲であることができる。幾つかの実施形態では、各クラスタによって表される発現プロファイルは、少なくとも又は多くとも、ブロック604において受信される発現プロファイルの数の1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、20%、30%、40%、50%、60%、70%、80%、90%、又は100%であることができる。
【0216】
各クラスタは、(1)親クラスタ及び(2)2つ以上の子クラスタ(3個、4個、5個、6個、7個、8個、9個、10個、又はそれを超える数の子クラスタ等)の一方又は両方との関連性を有することができる。親クラスタは、クラスタによって表される複数の細胞の1つ又は複数の細胞の発現プロファイルを表す。クラスタは、その2つ以上の子クラスタによって表される発現プロファイルを表す。
【0217】
幾つかの実施形態では、発現プロファイルは、
図4のブロック412等、
図4を参照して説明したようにクラスタリングすることができる。例えば、方法600は、複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングして、複数の細胞の発現プロファイルを表す系統樹を生成することを含むことができる。系統樹は複数のクラスタを含むことができる。複数のクラスタは、ルートクラスタ、複数のリーフクラスタ、及び複数の非ルート非リーフクラスタを含むことができる。リーフクラスタの数は、例えば、発現プロファイルの数nと同じであることができる。非ルート非リーフクラスタの数は、例えば、n-2であることができる。
【0218】
複数のリーフクラスタ及び複数の非ルート非リーフクラスタのそれぞれは、親クラスタとの関連性を有することができる。ルートクラスタ及び複数の非ルート非リーフクラスタのそれぞれは、左子クラスタ及び右子クラスタとの関連性を有することができ、クラスタの左子クラスタ及び右子クラスタによって表される発現プロファイルを表す。ルートクラスタは、複数の細胞の発現プロファイルを表すことができる。幾つかの実施態様では、リーフクラスタは、細胞の発現プロファイルを表すことができる。非ルート非リーフクラスタは、非ルート非リーフクラスタの子クラスタによって表される細胞の発現プロファイルを表すことができる。
【0219】
幾つかの実施形態では、ブロック608において、複数の細胞の発現プロファイルの距離に基づいて複数の細胞の発現プロファイルをクラスタリングすることは、複数の細胞の各発現プロファイルを複数のクラスタ内の異なるリーフクラスタに割り当てることと、第2のクラスタが第1のクラスタへの複数のクラスタの最も近いクラスタである場合、複数のクラスタの第1のクラスタと第2のクラスタとを繰り返し結合して、第1のクラスタ及び第2のクラスタの親クラスタを生成することとを含む。第1のクラスタと第2のクラスタとの間の距離は、第1のクラスタによって表される発現プロファイルを有する任意の細胞と、第2のクラスタによって表される発現プロファイルを有する任意の細胞との間の最大距離であることができる。
【0220】
幾つかの実施形態では、第1のクラスタのクラスタ内相関及び第2のクラスタのクラスタ内相関は、第1のクラスタと第2のクラスタとのクラスタ間相関よりも高い。第1のクラスタのクラスタ内相関及び第2のクラスタのクラスタ内相関の尺度又は指示は、第1のクラスタと第2のクラスタとのクラスタ間相関よりも高い。第1のクラスタのクラスタ内相関及び第2のクラスタのクラスタ内相関の尺度は、第1のクラスタ及び第2のクラスタのクラスタ内最大相関、第1のクラスタ及び第2のクラスタのクラスタ内平均相関、第1のクラスタ及び第2のクラスタのクラスタ内メジアン相関、第1のクラスタ及び第2のクラスタのクラスタ内最小相関、並びにそれらの任意の組合せの少なくとも1つに基づくことができる。第1のクラスタのクラスタ内相関は、第1のクラスタのクラスタ内最大相関、第1のクラスタのクラスタ内平均相関、第1のクラスタのクラスタ内メジアン相関、第1のクラスタのクラスタ内最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。第2のクラスタのクラスタ内相関は、第2のクラスタのクラスタ内最大相関、第2のクラスタのクラスタ内平均相関、第2のクラスタのクラスタ内メジアン相関、第2のクラスタのクラスタ内最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。第1のクラスタと第2のクラスタとのクラスタ間相関は、第1のクラスタと第2のクラスタとのクラスタ間最大相関、第1のクラスタと第2のクラスタとのクラスタ間平均相関、第1のクラスタと第2のクラスタとのクラスタ間メジアン相関、第1のクラスタと第2のクラスタとのクラスタ間最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。
【0221】
幾つかの実施形態では、方法600は、ブロック608において複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成する前、複数の細胞の発現プロファイルの距離データ構造(例えば、距離マトリックス)を特定することを含むことができる。マトリックスはn×nの寸法を有することができ、ここで、nは、ブロック604において受信した発現プロファイルの数を示す。距離マトリックスの各対角要素は、0の値を有する。ブロック608において複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成することは、距離データ構造に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成することを含むことができる。複数の細胞の発現プロファイル間の距離は、複数の細胞の発現プロファイル間のペア毎の相関距離であることができる。
【0222】
幾つかの実施形態では、方法600は、(i)において距離データ構造を特定する前、標的カウントデータ構造を対数変換済み標的カウントデータ構造(例えば、対数変換標的カウントマトリックス)に対数変換することを含むことができる。標的カウントデータ構造の要素の距離データ構造を特定することは、対数変換済み標的カウントデータ構造の距離データ構造を特定することを含む。ブロック608において複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成することは、対数変換済み標的カウントデータ構造及び距離データ構造に基づいて、複数の細胞の発現プロファイルをクラスタリングして、複数のクラスタを生成することを含むことができる。標的カウントデータ構造を対数変換済み標的カウントデータに対数変換することは、標的カウントデータ構造の各要素の値を増分により増大させることを含むことができる。増分は、例えば、1、2、3、4、5、6、7、8、9、10、又はそれを超える値であることができる。
【0223】
ブロック612において、方法600は、クラスタとその子クラスタとの関連性が無効である(例えば、子クラスタ間の相違が有意ではない)場合、2つ以上の子クラスタを有する発現プロファイルのクラスタの各クラスタを統合クラスタセットに追加することを含むことができる。幾つかの実施形態では、ブロック608において発現プロファイルがクラスタリングされて、系統樹を生成する場合、方法600は、系統樹を分割し検定することにより、2つ以上の子クラスタを有する各クラスタを統合クラスタセットに追加して、
図4のブロック416等、
図4を参照して説明した1組の標識を生成することができる。
【0224】
幾つかの実施形態では、2つ以上の子クラスタを有する各クラスタについて、クラスタと2つ以上の子クラスタとの関連性が無効である場合、方法600は、系統樹のルートクラスタから系統樹の複数のリーフクラスタに系統樹の各クラスタを通してトラバースする間、(1)クラスタとクラスタの子クラスタとの関連性が有効であるか、それとも無効であるかを判断し、(2)関連性が無効である場合、クラスタを統合クラスタセットに追加することにより、クラスタを統合クラスタセットに追加することができる。
【0225】
ブロック616において、方法600は、統合クラスタセット内の各クラスタと統合クラスタセット内の最も近いクラスタとの間の距離が統合距離閾値内である場合、それらの2つのクラスタを統合することを含むことができる。統合クラスタは、第1のクラスタ及び第2のクラスタの発現プロファイルを含む。方法600は、
図4のブロック420等、
図4を参照して説明したように、統合クラスタセット内の各クラスタを最も近いクラスタと統合することができる。
【0226】
幾つかの実施形態では、方法600は、系統樹の複数のクラスタをトラバースする際、各クラスタにおいて、関連性が有効である場合、クラスタからクラスタの左子クラスタ及びクラスタの右子クラスタに引き続きトラバースすることと、関連性が無効である場合、クラスタからクラスタの左子クラスタ及びクラスタの右子クラスタへのトラバースを停止することとを含むことができる。クラスタの子クラスタとのクラスタの関連性が有効であるか、それとも無効であるかを判断することは、ハードウェアプロセッサは、左子クラスタと右子クラスタとの間の距離が関連性閾値を超える場合、関連性を有効と判断することと、その他の場合、無効と判断することとを含むことができる。
【0227】
幾つかの実施形態では、第1のノードのノード内相関及び第2のノードのノード内相関の少なくとも一方は、第1のノードと第2のノードとのノード間相関よりも高い値であることができる。第1のノードのノード内相関及び第2のノードのノード内相関の尺度又は指示は、第1のノードと第2のノードとのノード間相関よりも高い値であることができる。第1のノードのノード内相関及び第2のノードのノード内相関の尺度は、第1のノード及び第2のノードのノード内最大相関、第1のノード及び第2のノードのノード内平均相関、第1のノード及び第2のノードのノード内メジアン相関、第1のノード及び第2のノードのノード内最小相関、並びにそれらの任意の組合せの少なくとも1つに基づくことができる。第1のノードのノード内相関は、第1のノードのノード内最大相関、第1のノードのノード内平均相関、第1のノードのノード内メジアン相関、第1のノードのノード内最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。第2のノードのノード内相関は、第2のノードのノード内最大相関、第2のノードのノード内平均相関、第2のノードのノード内メジアン相関、第2のノードのノード内最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。第1のノードと第2のノードとのノード間相関は、第1のノードと第2のノードとのノード間最大相関、第1のノードと第2のノードとのノード間平均相関、第1のノードと第2のノードとのノード間メジアン相関、第1のノードと第2のノードとのノード間最小相関、及びそれらの任意の組合せの少なくとも1つに基づくことができる。
【0228】
幾つかの実施形態では、左子クラスタと右子クラスタとの間の距離は、左子クラスタ及び右子クラスタによって表される発現プロファイル間の複数の標的の各標的で実行される統計検定に基づいて特定することができる。統計検定は、例えば、ウェルチt検定であることができる。左子クラスタと右子クラスタとの間の距離は、左子クラスタによって表される発現プロファイルと右子クラスタによって表される各発現プロファイルとの間の複数の標的の各標的に対して実行される統計検定の最大p値に基づいて特定することができる。
【0229】
幾つかの実施形態では、方法600は、ブロック616において第1のクラスタを第2のクラスタと統合して、統合クラスタを生成する前、第3のクラスタと第4のクラスタとの間の距離がクラスタ距離閾値内にある場合、1つの細胞の発現プロファイルを表す統合クラスタセット内の第3のクラスタのそれぞれを統合クラスタセット内の第4のクラスタと統合することを含む。方法は、細胞の発現プロファイルを表す統合クラスタセット内のクラスタに基づいて複数の細胞を分類することを含むことができる。方法は、識別された細胞タイプを区別する標的に基づいて全体トランスクリプトームアッセイを指定するか、又は識別された細胞タイプを区別する標的に基づいて、標的とされるトランスクリプトームアッセイを指定することを含むことができる。
【0230】
幾つかの実施形態では、方法600は、系統樹の複数のクラスタをトラバースする際、各クラスタにおいて、(3)クラスタが単一の細胞の発現プロファイルを表す場合、クラスタを統合クラスタセットに追加することを含む。方法は、系統樹の複数のクラスタをトラバースする際、各クラスタにおいて、クラスタ標識をクラスタに割り当てることを含むことができる。幾つかの実施形態では、クラスタが単一の細胞の発現プロファイルを表す場合、クラスタのクラスタ標識は、単一の細胞の名称を含み、その他の場合、クラスタが親クラスタの左子クラスタであるとき、クラスタのクラスタ標識は、親クラスタのクラスタ標識及び左名称を含み、その他のとき、クラスタのクラスタ標識は、親クラスタのクラスタ標識及び右名称を含む。
【0231】
ブロック620において、方法600は、統合クラスタセット内の各クラスタによって表される細胞の複数の標的の発現プロファイルに基づいて、細胞タイプを区別する標的を識別することを含むことができる。方法600は、
図4のブロック424等、
図4を参照して説明したように、細胞タイプを区別する標的を識別することができる。幾つかの実施形態では、統合クラスタセット内の各クラスタについて、クラスタによって表される細胞の複数の標的の発現プロファイルに基づいて細胞タイプを区別する標的を識別することは、細胞タイプを区別する標的に関連付けられた別個の配列を有する分子標識数を単位として、クラスタによって表される発現プロファイルと、統合クラスタセット内の別のクラスタによって表される発現プロファイルとの差が有意な閾値よりも大きいと判断することを含む。
【0232】
シーケンシング
幾つかの実施形態では、異なるバーコード付き標的(例えば、確率的バーコード付き標的)の数を推定することは、標識された標的、空間標識、分子標識、試料標識、細胞標識、又はこれらの任意の産物(例えば、標識された増幅産物又は標識されたcDNA分子)の配列を特定することを含むことができる。増幅された標的はシーケンシングを受けることができる。バーコード付き標的(例えば、確率的バーコード付き標的)又はその任意の産物の配列を特定することは、シーケンシング反応を行い、試料標識、空間標識、細胞標識、分子標識、標識された標的(例えば、確率的に標識された標的)の少なくとも一部、その相補物、その逆相補物、又はそれらの任意の組合せの少なくとも一部の配列を特定することを含むことができる。
【0233】
バーコード付き標的又は確率的バーコード付き標的(例えば、増幅された核酸、標識された核酸、標識された核酸のcDNAコピー等)の配列を特定することは、限定ではなく、ハイブリダイゼーションによるシーケンシング(SBH)、ライゲーションによるシーケンシング(SBL)、定量的増分蛍光ヌクレオチド付加シーケンシング(QIFNAS)、段階的なライゲーション及び切断、蛍光共鳴エネルギー転移(FRET)、分子ビーコン、TaqManレポータープローブ消化、ピロシーケンシング、蛍光in situシーケンシング(FISSEQ)、FISSEQビーズ、ゆらぎシーケンシング(wobble sequencing)、多重シーケンシング、重合コロニー(polymerized colony)(POLONY)シーケンシング;ナノグリッドローリングサークル配列決定法(ROLONY)、アレル特異的オリゴライゲーションアッセイ(例えば、オリゴライゲーションアッセイ(OLA)、ライゲートされた線形プローブ及びローリングサークル増幅(RCA)の読み取りを使用した単一鋳型分子OLA、ライゲートされたパッドロックプローブ、又はライゲートされた環状パッドロックプローブ及びローリングサークル増幅(RCA)の読み取りを使用した単一鋳型分子OLA)等を含めた多種多様なシーケンシング方法を使用して実行することができる。
【0234】
幾つかの実施形態では、バーコード付き標的(例えば、確率的バーコード付き標的)又はその任意の産物の配列を特定することは、ペアードエンドシーケンシング、ナノポアシーケンシング、高スループットシーケンシング、ショットガンシーケンシング、ダイターミネータシーケンシング、マルチプライマーDNAシーケンシング、プライマーウォーキング、サンガージデオキシ(Sanger dideoxy)シーケンシング、マキシム-ギルバート(Maxim-Gilbert)シーケンシング、ピロシーケンシング、tSMS(true single molecule sequencing)、又はそれらの任意の組合せを含む。代替的には、バーコード付き標的又はその任意の産物の配列は、電子顕微鏡法又は化学感応電界効果トランジスタ(chemFET)アレイにより特定することができる。
【0235】
Roche 454、Illumina Solexa、ABI-SOLiD、ION Torrent、Complete Genomics、Pacific Bioscience、Helicos、又はPolonatorプラットフォーム等のプラットフォームを使用するサイクルアレイシーケンシング等の高スループットシーケンシング法を利用することができる。幾つかの実施形態では、シーケンシングは、MiSeqシーケンシングを含むことができる。幾つかの実施形態では、シーケンシングは、HiSeqシーケンシングを含むことができる。
【0236】
標識された標的(例えば、確率的に標識された標的)は、有機体のゲノムの遺伝子の約0.01%から有機体のゲノムの遺伝子の約100%を表す核酸を含むことができる。例えば、有機体のゲノムの遺伝子の約0.01%から有機体のゲノムの遺伝子の約100%は、試料から相補配列を含む遺伝子を捕捉することにより、複数の多量体を含む標的相補領域を使用してシーケンシングすることができる。幾つかの実施形態では、バーコード付き標的は、有機体のトランスクリプトームの転写産物の約0.01%から有機体のトランスクリプトームの転写産物の約100%を表す核酸を含む。例えば、有機体のトランスクリプトームの転写産物の約0.501%から有機体のトランスクリプトームの転写産物の約100%は、試料からmRNAを捕捉することにより、ポリ(T)テールを含む標的相補領域を使用してシーケンシングすることができる。
【0237】
複数のバーコード(例えば、確率的バーコード)の空間標識及び分子標識の配列を特定することは、複数のバーコードの0.00001%、0.0001%、0.001%、0.01%、0.1%、1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、20%、30%、40%、50%、60%、70%、80%、90%、99%、100%、又はこれらの値の任意の2つの間の数若しくは範囲をシーケンシングすることを含むことができる。複数のバーコードの標識、例えば、試料標識、空間標識、及び分子標識の配列を特定することは、複数のバーコードのうちの1個、10個、20個、30個、40個、50個、60個、70個、80個、90個、100個、103個、104個、105個、106個、107個、108個、109個、1010個、1011個、1012個、1013個、1014個、1015個、1016個、1017個、1018個、1019個、1020個、又はこれらの値の任意の2つの間の数若しくは範囲をシーケンシングすることを含むことができる。複数のバーコードのうちの幾つか又は全てをシーケンシングすることは、10個、20個、30個、40個、50個、60個、70個、80個、90個、100個、200個、300個、400個、500個、600個、700個、800個、900個、1000個、2000個、3000個、4000個、5000個、6000個、7000個、8000個、9000個、10000個分、若しくはこれらの値の任意の2つの間の数若しくは範囲、約これらの個数、多くとも若しくは少なくともこれらの個数のヌクレオチド又は塩基のリード長を有する配列を生成することを含むことができる。
【0238】
シーケンシングは、少なくとも又は少なくとも約10個、20個、30個、40個、50個、60個、70個、80個、90個、100個、又はそれを超える数のバーコード付き標的のヌクレオチド又は塩基対をシーケンシングすることを含むことができる。例えば、シーケンシングは、複数のバーコード付き標的に対してポリメラーゼ連鎖反応(PCR)増幅を実行することにより、50個、75個、100個、又はそれを超える個数のヌクレオチドのリード長を有する配列を有するシーケンシングデータを生成することを含むことができる。シーケンシングは、少なくとも又は少なくとも約200個、300個、400個、500個、600個、700個、800個、900個、1,000個、又はそれを超える数のバーコード付き標的のヌクレオチド又は塩基対をシーケンシングすることを含むことができる。シーケンシングは、少なくとも又は少なくとも約1500個、2000個、3000個、4000個、5000個、6000個、7000個、8000個、9000個、10000個、又はそれを超える数のバーコード付き標的のヌクレオチド又は塩基対をシーケンシングすることを含むことができる。
【0239】
シーケンシングは、1実行当たり少なくとも約200回、300回、400回、500回、600回、700回、800回、900回、1,000回、又はそれを超える回数のシーケンシングリードを含むことができる。幾つかの実施形態では、1実行当たり少なくとも又は少なくとも約1500回、2000回、3000回、4000回、5000回、6000回、7000回、8000回、9000回、10000回、又はそれを超える回数のシーケンシングリードを含む。シーケンシングは、1実行当たり約1,600,000,000回以下のシーケンシングリードを含むことができる。シーケンシングは、1実行当たり約200,000,000回以下のリードを含むことができる。
【0240】
試料
幾つかの実施形態では、複数の標的は、1つ又は複数の試料に含まれることができる。試料は、1つ若しくは複数の細胞又は1つ若しくは複数の細胞からの核酸を含むことができる。試料は、単一の細胞又は単一の細胞からの核酸であることができる。1つ又は複数の細胞は、1つ又は複数の細胞タイプのものであることができる。1つ又は複数の細胞タイプの少なくとも1つは、脳細胞、心臓細胞、がん細胞、循環腫瘍細胞、臓器細胞、上皮細胞、転移細胞、良性細胞、初代細胞、循環細胞、又はそれらの任意の組合せであることができる。
【0241】
本開示の方法で使用される試料は、1つ又は複数の細胞を含むことができる。試料とは、1つ又は複数の細胞を指すことができる。幾つかの実施形態では、複数の細胞は1つ又は複数の細胞タイプを含むことができる。1つ又は複数の細胞タイプのうちの少なくとも1つは、脳細胞、心臓細胞、がん細胞、循環腫瘍細胞、臓器細胞、上皮細胞、転移細胞、良性細胞、初代細胞、循環細胞、又はそれらの任意の組合せであることができる。幾つかの実施形態では、細胞は、がん組織、例えば、乳がん、肺がん、結腸がん、前立腺がん、卵巣がん、膵臓がん、脳腫瘍、メラノーマ又は非メラノーマ皮膚がん等から切除されたがん細胞である。幾つかの実施形態では、細胞は、がん由来であるが、体液(例えば、循環腫瘍細胞)から集められる。がんの非限定的な例としては、腺腫、腺がん、扁平上皮がん、基底細胞がん、小細胞がん、大細胞未分化がん、軟骨肉腫、及び線維肉腫を挙げることができる。試料は、組織、細胞単層、固定細胞、組織切片、又はそれらの任意の組合せを含むことができる。試料は、生体試料、臨床試料、環境試料、生体体液、組織、又は被験者からの細胞を含むことができる。試料は、人間、哺乳類、イヌ、ラット、マウス、魚、蠅、ワーム、植物、菌類、バクテリア、ウィルス、脊椎動物、又は無脊椎動物から取得することができる。
【0242】
幾つかの実施形態では、細胞は、ウィルスに感染し、ウィルスオリゴヌクレオチドを含む細胞である。幾つかの実施形態では、ウィルス感染は、単鎖(+鎖又は「センス」)DNAウィルス(例えば、パルボウィルス)又は二本鎖RNAウィルス(例えば、レオウィルス)等のウィルスによって生じ得る。幾つかの実施形態では、細胞はバクテリアである。これらは、グラム陽性又はグラム陰性バクテリアを含むことができる。幾つかの実施形態では、細胞は菌類である。幾つかの実施形態では、細胞は原生動物又は他の寄生生物である。
【0243】
本明細書で使用される場合、「細胞」という用語は1つ又は複数の細胞を指すことができる。幾つかの実施形態では、細胞は、正常細胞、例えば、発達の異なる段階にあるヒト細胞又は異なる臓器若しくは組織タイプからのヒト細胞である。幾つかの実施形態では、細胞は非ヒト細胞、例えば、他のタイプの哺乳類細胞(例えば、マウス、ラット、ブタ、イヌ、ウシ、又はウマ)である。幾つかの実施形態では、細胞は、他のタイプの動物又は植物の細胞である。他の実施形態では、細胞は任意の原核生物又は真核生物の細胞であることができる。
【0244】
幾つかの実施形態では、細胞は、細胞をビーズに関連付ける前、ソートされる。例えば、細胞は、蛍光活性化細胞ソート、磁気活性化細胞ソート、又はより一般にはフローサイトメトリによってソートすることができる。細胞は、サイズにより濾過することができる。幾つかの実施形態では、被保持物は、ビーズに関連付けるべき細胞を含む。幾つかの実施形態では、フロースルーが、ビーズに関連付けるべき細胞を含む。
【0245】
試料は、複数の細胞を指すことができる。試料は、細胞の単層を指すことができる。試料は、薄切片(例えば、組織の薄切片)を指すことができる。試料は、アレイ上の一方向に配置ができる細胞の固体又は半固体の集まりを指すことができる。
【0246】
実行環境
本開示は、本開示の方法(例えば、方法400又は方法600)を実施するようにプログラムされたコンピュータシステムを提供する。
図7は、本明細書に開示される任意の方法を実施するようにプログラム又は他の方法で構成されたコンピュータシステム700を示す。コンピュータシステム700は、ユーザの電子デバイス又は電子デバイスからリモートに配置されたコンピュータシステムであることができる。電子デバイスは、モバイル電子デバイスであることができる。
【0247】
コンピュータシステム700は、中央演算処理装置(CPU、本明細書では「プロセッサ」及び「コンピュータプロセッサ」とも)705を含み、これは、シングルコア若しくはマルチコアプロセッサ、又は並列処理用の複数のプロセッサであることができる。コンピュータシステム700は、メモリ又はメモリロケーション710(例えば、ランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリ)、電子記憶ユニット715(例えば、ハードディスク)、1つ又は複数の他のシステムと通信するための通信インターフェース720(例えば、ネットワークアダプタ)、及びキャッシュ、他のメモリ、データ記憶装置、及び/又は電子ディスプレイアダプタ等の周辺機器725も含む。メモリ710、記憶ユニット715、インターフェース720、及び周辺機器725は、マザーボード等の通信バス(実線)を通してCPU705と通信する。記憶ユニット715は、データを記憶するデータ記憶ユニット(又はデータリポジトリ)であることができる。コンピュータシステム700は、通信インターフェース720を用いてコンピュータネットワーク(「ネットワーク」)730に動作可能に結合することができる。ネットワーク730は、インターネット、インターネット及び/又はエクストラネット、又はイントラネット及び/又はインターネットと通信するエクストラネットであることができる。幾つかの場合、ネットワーク730は、電気通信ネットワーク及び/又はデータネットワークである。ネットワーク730は、クラウド計算等の分散計算を可能にすることができる1つ又は複数のコンピュータサーバを含むことができる。ネットワーク730は、幾つかの場合、コンピュータシステム700を用いて、ピアツーピアネットワークを実施することができ、これにより、コンピュータシステム700に結合されたデバイスがクライアント又はサーバとして挙動できるようにし得る。
【0248】
CPU705は、機械可読命令シーケンスを実行することができ、命令シーケンスはプログラム又はソフトウェアで実施することができる。命令は、メモリ710等のメモリロケーションに記憶し得る。命令はCPU705に向けることができ、続けて、本開示の方法を実施するようにCPU705をプログラム又は他の方法で構成することができる。CPU705によって実行される動作の例としては、フェッチ、デコード、実行、及びライトバックを挙げることができる。CPU705は、集積回路等の回路の部分であることができる。システム700の1つ又は複数の他の構成要素が、回路に含まれることができる。幾つかの場合、回路は特定用途向け集積回路(ASIC)である。
【0249】
記憶ユニット715は、ドライバ、ライブラリ、及び保存されたプログラム等のファイルを記憶することができる。記憶ユニット715は、ユーザデータ、例えば、ユーザプリファレンス及びユーザプログラムを記憶することができる。コンピュータシステム700は、幾つかの場合、イントラネット又はインターネットを通してコンピュータシステム700と通信するリモートサーバに配置される等のコンピュータシステム700の外部にある1つ又は複数の追加のデータ記憶ユニットを含むことができる。
【0250】
コンピュータシステム700は、ネットワーク730を通して1つ又は複数のリモートコンピュータシステムと通信することができる。例えば、コンピュータシステム700は、ユーザ(例えば、微生物学者)のリモートコンピュータシステムと通信することができる。リモートコンピュータシステムの例には、パーソナルコンピュータ(例えば、ポータブルPC)、スレート又はタブレットPC(例えば、Apple(登録商標)iPad、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(例えば、Apple(登録商標)iPhone、アンドロイド対応デバイス、Blackberry(登録商標))、又は個人情報端末がある。ユーザは、ネットワーク730を介してコンピュータシステム700にアクセスすることができる。
【0251】
コンピュータシステム700は、例えば、ストリングによって表される微生物の複数の分類群のストリング共起(string co-occurrence)又は相互作用を示す出力を提供するユーザインターフェース(UI)740を備える電子ディスプレイ735を含むか、又はそれと通信することができる。UIの例には、限定ではなく、グラフィカルユーザインターフェース(GUI)及びウェブベースのユーザインターフェースがある。
【0252】
本明細書に記載される方法は、例えば、メモリ710又は電子記憶ユニット715等のコンピュータシステム700の電子記憶ロケーションに記憶される機械(例えば、コンピュータプロセッサ)実行可能コードによって実施することができる。機械実行可能又は機械可読コードは、ソフトウェアの形態で提供することができる。使用中、コードはプロセッサ705によって実行することができる。幾つかの場合、コードは、記憶ユニット715から検索され、プロセッサ705による容易なアクセスのためにメモリ710に記憶することができる。幾つかの状況では、電子記憶ユニット715をなくすことができ、機械実行可能命令はメモリ710に記憶される。
【0253】
コードは、コードを実行するように構成されたプロセッサを有した機械と併用されるように事前にコンパイルされ構成してもよく、又は実行時中にコンパイルされてもよい。コードは、コードを事前にコンパイルされるか、又はコンパイルされたままで実行できるようにするように選択することができるプログラミング言語で供給することができる。
【0254】
コンピュータシステム700等の本明細書に提供されるシステム及び方法の態様は、プログラミングで実施することができる。本技術の様々な態様は、通常、一種の機械可読媒体で運ばれるか、又は一種の機械可読媒体内で実施される機械(又はプロセッサ)実行可能コード及び/又は関連付けられたデータの形態の「製品」又は「製造品」として考えられ得る。機械実行可能コードは、メモリ(例えば、読み取り専用メモリ、ランダムアクセスメモリ、フラッシュメモリ)等の電子記憶ユニット又はハードディスクに記憶することができる。「記憶」型媒体は、コンピュータ、プロセッサ等のありとあらゆる有形メモリ又は様々な半導体メモリ、テープドライブ、ディスクドライブ等のそれに関連付けられたモジュールを含むことができ、これらは非一時的記憶をソフトウェアプログラミングに随時提供し得る。ソフトウェアの全て又は部分には、時折、インターネット又は様々な他の電気通信ネットワークを通して通信し得る。そのような通信は、例えば、あるコンピュータ又はプロセッサから別のコンピュータ又はプロセッサに、例えば、管理サーバ又はホストコンピュータからアプリケーションサーバのコンピュータプラットフォームにソフトウェアをロードできるようにし得る。したがって、ソフトウェア要素を担持し得る別のタイプの媒体としては、ローカルデバイス間の物理的インターフェースにわたり、有線及び光学陸線網を通して、並びに様々なエアリンクを介して使用される等の光波、電波、及び電磁波が挙げられる。有線又は無線リンク、光学リンク等のそのような波を搬送する物理的要素も、ソフトウェアを担持する媒体として見なし得る。本明細書で使用される場合、非一時的有形「記憶」媒体に限定されない限り、コンピュータ又は機械「可読媒体」等の用語は、実行のために命令をプロセッサに提供することに参加する任意の媒体を指す。
【0255】
したがって、コンピュータ実行可能コード等の機械可読媒体は、有形記憶媒体、搬送波媒体、又は物理的伝送媒体を含むが、これらに限定されない多くの形態をとり得る。不揮発性記憶媒体は、例えば、図面に示されるデータベース等の実施に使用し得る等の任意のコンピュータ内の任意の記憶デバイス等の光ディスク又は磁気ディスクを含む。揮発性記憶媒体は、そのようなコンピュータプラットフォームのメインメモリ等のダイナミックメモリを含む。有形伝送媒体は、コンピュータシステム内のバスを構成するワイヤを含め、同軸ケーブル、銅線、及び光ファイバを含む。搬送波伝送媒体は、無線周波数(RF)及び赤外線(IR)データ通信中に生成される等の電気信号、電磁信号、音響信号、又は光波の形態をとり得る。したがって、一般的な形態のコンピュータ可読媒体は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、DVD、若しくはDVD-ROM、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理的記憶媒体、RAM、ROM、PROM、EPROM、フラッシュEPROM、任意の他のメモリチップ若しくはカートリッジ、データ若しくは命令を運ぶ搬送波、そのような搬送波を運ぶケーブル若しくはリンク、又はコンピュータがプログラミングコード及び/又はデータを読み取り得る任意の他の媒体を含む。これらの形態のコンピュータ可読媒体の多くは、1つ又は複数の命令の1つ又は複数のシーケンスを実行のためにプロセッサに搬送することに関わり得る。
【0256】
幾つかの実施形態では、コンピュータシステム700の分析機能の幾つか又は全ては、1つのソフトウェアパッケージにパッケージングすることができる。幾つかの実施形態では、完全な組のデータ分析機能は、ソフトウェアパッケージ一式を含むことができる。幾つかの実施形態では、データ分析ソフトウェアは、アッセイ機器システムから独立してユーザに提供されるスタンドアロンパッケージであることができる。幾つかの実施形態では、ソフトウェアは、ウェブベースであることができ、ユーザがデータを共有できるようにすることができる。幾つかの実施形態では、市販のソフトウェアを使用して、データ分析の全て又は一部を実行することができ、例えば、Seven Bridges(https://www.sbgenomics.com/)ソフトウェアを使用して、細胞の集まり全体の各細胞で行われる1つ又は複数の遺伝子のコピー数のテーブルを編纂することができる。
【0257】
本開示の方法及びシステムは、1つ又は複数のアルゴリズム又は方法によって実施することができる。方法は、中央演算処理装置705によって実行されるソフトウェアによって実施することができる。ソフトウェアによって実施されるアルゴリズム又は方法の例示的な用途には、配列データ処理(例えば、統合、フィルタリング、トリミング、クラスタリング)のバイオインフォマティクス方法、アラインメント及びコール、並びにストリングデータ及び光学密度データ(例えば、最確数及び培養可能存在度特定(cultivable abundance determination))の処理がある。
【0258】
例示的な実施形態では、コンピュータシステム700は、単一細胞確率的バーコーディングアッセイを実行することにより生成された配列データセットに対してデータ分析を実行することができる。データ分析機能の例には、限定ではなく、(i)試料標識、細胞標識、空間標識、及び分子標識、並びにアッセイの実行において作成された確率的バーコードライブラリをシーケンシングすることによって提供される標的配列データをデコード/逆多重化するアルゴリズム、(ii)データに基づいて、1細胞当たりの1遺伝子当たりのリード数及び1細胞当たりの1遺伝子当たりの一意の転写分子の数を特定し、サマリテーブルを作成するアルゴリズム、(iii)例えば、遺伝子発現データにより細胞をクラスタリングし、又は1細胞当たりの1遺伝子当たりの転写分子の数を特定すること等の信頼区間を予測する、配列データの統計分析、(iv)例えば、主成分分析、階層クラスタリング、k-平均クラスタリング、自己組織化マップ、神経系統等を使用して希な細胞の部分集団を同定するアルゴリズム、(v)遺伝子配列データを既知の参照配列のアラインメントし、突然変異、多型マーカー、及びスプライスバリアントを検出する配列アラインメント機能、並びに(vi)増幅エラー又はシーケンシングエラーを補償する分子標識の自動クラスタリングがある。幾つかの実施形態では、コンピュータシステム700は、有用なグラフィカルフォーマット、例えば、細胞の集まりのうちの各細胞で生じる1つ又は複数の遺伝子のコピー数を示すヒートマップでシーケンシング結果を出力することができる。幾つかの実施形態では、コンピュータシステム700は、例えば、細胞の集まりのうちの各細胞で生じる1つ又は複数の遺伝子のコピー数を細胞のタイプ、希な細胞のタイプ、又は特定の疾患若しくは状態を有する被験者から導出された細胞に相関付けることにより、シーケンシング結果から生物学的意味を抽出するアルゴリズムを実行することができる。幾つかの実施形態では、コンピュータシステム700は、異なる生体試料にわたる細胞の集団を比較するアルゴリズムを実行することができる。
【実施例0259】
上述した自体の幾つかの態様について、本開示の範囲の限定を決して意図しない以下の実施例において更に詳細に考察する。
【0260】
実施例1
再帰的な系統樹の分割及び検定、それに続く統合によるクラスタリング
この実施例では、再帰的な分割(例えば、再帰的系統樹分割)及び検定、それに続く統合によるクラスタリング法を説明する。
【0261】
備考
この実施例に示される方法では、系統樹分割ステップ中、アルゴリズムが、十分に低いp値(又は十分に高い-log10(p値))を達成した少なくとも1つの遺伝子を発見することができる場合、分割は生物学的に適切であると見なされる(例えば、デフォルトにより)。言い換えれば、幾つかの実施形態では、調整すべきハイパーパラメータは、スコア閾値パラメータだけである。スコア閾値が高い(例えば、100)ほど、低いp値(10e-100)に対応し、これは、分割が有効であると見なされるためには、より有意な遺伝子を見つけなければならないことを意味する。スコア閾値が高いほど、少数のクラスタが生成される。
【0262】
分割ステップ後、多すぎるクラスタが生成される場合、ユーザは、スコア閾値の増大を試みることができる。分割ステップ少なすぎるクラスタが生成される場合、ユーザはスコア閾値の低減を試みることができる。同じ距離マトリックスで複数のスコア閾値を検定することができる。距離マトリックスを予め計算することにより、多くの計算時間を節減することができる。
【0263】
異なるスコア閾値を通しての掃引が、無意味な結果を生成し続ける場合、問題は、最初に生成された系統樹(すなわち、距離マトリックス)にあり得る。以下の細胞[3]に示されるように、アルゴリズムの最初のステップでは、分子カウントのマトリックスから距離マトリックスに移る(前処理ステップ)必要がある。異なる種類の前処理を試みることが望ましいことがある。ユーザは恐らく、別の距離尺度を試み、対数を採用しないように試み、又はユーザの用途に対してより正確な距離尺度を生成し得る細胞及び/又は遺伝子を予めフィルタリングすることができる。
【0264】
分割ステップが、不適切と見なされる多くの小さなクラスタを生成する場合、解散パーセンタイルパラメータを低減し得る。このパラメータは、全体ペア毎距離の下部解散パーセンタイル内にあるペア毎距離の数に基づいて、最終的なクラスタを保持するか否かを決定する。例えば、解散パーセンタイル20を用いてアルゴリズムを実行すると、少なくとも1つのペア毎距離が、全体距離の下部20%内にある場合、1つのクラスタのみを保持する。
【0265】
クラスタが何故、2つのクラスタに分けられるかを特定するために、それらの2つのクラスタを識別し、ペア毎t検定分析を行う。これは、クラスタのあらゆるペアについて実施例2において細胞[13]において行うことができる。この機能は、2つのクラスタを区別するマーカーを示す。また、分割に繋がる分割アルゴリズムにおける厳密なステップを理解するために、いかに分割が決定されるかの探索特徴もチェックする。
【0266】
不正確なクラスタが一緒に統合されているか否かを判断するためには、統合ステップにおいてスコア閾値パラメータを下げる。ここで、スコア閾値が大きいほど、2つの異なるクラスタが一緒に統合される確率は高くなる。また、統合に繋がる統合アルゴリズムにおける厳密なステップを理解するために、いかに統合が決定されるかの探索特徴をチェックする。
【0267】
より多くの外れ値を識別するためには、統合ステップにおいてoutlier_threshold_percentile_parameterの低減を試みる。
【0268】
依存性
モジュールは以下の依存性を有した-numpy(1.10.4)-scipy(0.17.0)-matplotlib(1.5.1)-sklearn(0.17.1)-networkx(1.11)-community-rpy2(2.8.2)。
【0269】
networkx、community、及びrpy2は、デフォルトにより必要とされない。networkx及びcommunityは、コミュニティ検出に使用される。networkxは、最大加重マッチング(標識の2つの組がいかに近いかの尺度として)にも使用される。rpy2は、2つの集団が実際に1つの集団であるべきか否かについての統計検定であるsigclustの実行に使用される。sigclustを実行するために、ユーザは、sigclustパッケージと共にRをインストールする必要もあり得る。
【0270】
[1]:#関連するモジュール及びライブラリをロード
%load_ext autoreload
%autoreload2
%matplotlib inline
from dendrosplit import split,merge import pickle
import numpy as np
import matplotlib.pyplot as plt np.set_printoptions(precision=2,suppress=True)
【0271】
パイプラインの実行
パイプラインへの入力は、「X」と呼ばれる分子カウント(自然数)のN×Mマトリックスである。「genes」は、遺伝子名の長さMリストである。「x1」及び「x2」は、何であれユーザが選んだ方法を使用したデータの2D埋め込みを表す。「x1」及び「x2」は、中間ステップと共にパイプラインの結果を視覚化するために単独で使用される。アルゴリズムでは、合算して0になる「X」の全列が除去される必要があり、この細胞のコードがそれに対処する。
【0272】
[2]:#データをロード
dataset=’Resolve4’
pickledir=’/Users/user1/Desktop/datasets/’
X,genes=pickle.load(file(pickledir+dataset+’.pickle’))
x1,x2=pickle.load(file(pickledir+dataset+’tsne.pickle’))
#合計で0になるXの列を削除
X,genes=split.filter_genes(X,genes)
全細胞にわたり0を超えるカウントを有する19307個の遺伝子を保持
【0273】
まず、カウントマトリックスから距離マトリックスを生成することができる。以下の細胞は、対数変換済み試料(log(X+1))間のペア毎相関距離を計算することによりこれを達成する。アルゴリズムの分割部分は、入力としてカウントマトリックスのみを必要としたが、ユーザは、距離マトリックスにおいて以下に示されるように供給することができる。アルゴリズムのこの部分は、アルゴリズムによって生成された全ての中間情報を追跡したデータ構造である「history」と共に、試料の長さNの組の標識(ストリング)を返した。「history」は、アルゴリズムがそのような標識をいかに生成したか(及びどの特徴が、そのような標識の生成に最も重要であったか)を見極めるのに使用される後の機能に有用であった。標識は、距離マトリックスを使用して生成された系統樹に従ってクラスタが位置する場所を示すストリングであった。例えば、「rLLR」は、このポイントが、ルートの左サブツリーの左サブツリーの右サブツリーに属することを意味する。
【0274】
[3]:#第1の組の標識を取得。アルゴリズム外の距離マトリックスの計算が強く勧められる
D=split.log_correlation(X)
ys,shistory=split.dendrosplit((D,X),preprocessing=’precomputed’, score_threshold=10,verbose=True,disband_percentile=50)
潜在的な分割結果:883及び3
dendrosplit/feature selection.py:106:RuntimeWarning:log10において直面したゼロで除算
gene_scores=np.nan_to_num(-np.log10(p[keep_inds]))
分割スコア1.8E+308
潜在的な分割結果:1及び882
潜在的な分割結果:484及び398
/Users/user1/anaconda2/lib/python2.7/site-packages/scipy/stats/
_distn_infrastructure.py:1748:Runtime
cond1=(scale>0)&(x>self.a)&(x<self.b)
/Users/user1/anaconda2/lib/python2.7/site-packages/scipy/stats/_distn_infrastructure.py:1748: Runtime
cond1=(scale>0)&(x>self.a)&(x<self.b)
/Users/user1/anaconda2/lib/python2.7/site-packages/scipy/stats/_distn_infrastructure.py:1749: Runtime
cond2=cond0&(x<=self.a)
分割スコア182.26
潜在的な分割結果:481及び3分割スコア1.8E+308
潜在的な分割結果:1及び480
潜在的な分割結果:1及び479
潜在的な分割結果:195及び284
分割スコア125.49
潜在的な分割結果:177及び18
分割スコア15.35
潜在的な分割結果:1及び176
潜在的な分割結果:1及び175
潜在的な分割結果:1及び174
潜在的な分割結果:12及び162
分割スコア18.88
潜在的な分割結果:1及び11
潜在的な分割結果:1及び10
潜在的な分割結果:2及び8
分割スコア6.11
潜在的な分割結果:1及び161
潜在的な分割結果:1及び160
潜在的な分割結果:28及び132
分割スコア12.32
潜在的な分割結果:25及び3
分割スコア13.94
潜在的な分割結果:1及び24
潜在的な分割結果:11及び13
分割スコア4.77
潜在的な分割結果:1及び2
潜在的な分割結果:1及び1
解散(クラスタ内のポイントは互いから離れすぎている)潜在的な分割結果:122及び10
分割スコア18.52
潜在的な分割結果:13及び109
分割スコア24.92
潜在的な分割結果:6及び7
分割スコア3.77
潜在的な分割結果:105及び4
分割スコア31.72
潜在的な分割結果:15及び90
分割スコア11.31
潜在的な分割結果:3及び12
分割スコア6.55
潜在的な分割結果:17及び73
分割スコア8.91
潜在的な分割結果:2及び2
分割スコア1.58
解散(クラスタ内のポイントは互いから離れすぎている)潜在的な分割結果:2及び8
分割スコア5.79
潜在的な分割結果:1及び17
潜在的な分割結果:1及び16
潜在的な分割結果:1及び15
潜在的な分割結果:4及び11
分割スコア4.57
潜在的な分割結果:1及び283
潜在的な分割結果:1及び282
潜在的な分割結果:1及び281
潜在的な分割結果:271及び10
分割スコア38.04
潜在的な分割結果:2及び269
分割スコア233.23
潜在的な分割結果:1及び1
解散(クラスタ内のポイントは互いから離れすぎている)潜在的な分割結果:1及び268
潜在的な分割結果:265及び3
分割スコア80.24
潜在的な分割結果:4及び261
分割スコア100.26
潜在的な分割結果:1及び3
潜在的な分割結果:1及び2
潜在的な分割結果:1及び1
解散(クラスタ内のポイントは互いから離れすぎている)潜在的な分割結果:192及び69
分割スコア9.66
潜在的な分割結果:1及び2
潜在的な分割結果:1及び1
解散(クラスタ内のポイントは互いから離れすぎている)潜在的な分割結果:2及び8
分割スコア5.12
潜在的な分割結果:1及び2
潜在的な分割結果:1及び1
解散(クラスタ内のポイントは互いから離れすぎている)潜在的な分割結果:1及び397
潜在的な分割結果:1及び396
潜在的な分割結果:1及び395
潜在的な分割結果:392及び3
分割スコア228.58
潜在的な分割結果:1及び391
潜在的な分割結果:1及び390
潜在的な分割結果:1及び389
潜在的な分割結果:1及び388
潜在的な分割結果:1及び387
潜在的な分割結果:1及び386
潜在的な分割結果:32及び354
分割スコア33.24
潜在的な分割結果:1及び31
潜在的な分割結果:1及び30
潜在的な分割結果:21及び9
分割スコア7.20
潜在的な分割結果:1及び353
潜在的な分割結果:1及び352
潜在的な分割結果:1及び351
潜在的な分割結果:19及び332
分割スコア32.86
潜在的な分割結果:1及び18
潜在的な分割結果:3及び15
分割スコア8.90
潜在的な分割結果:6及び326
分割スコア83.57
潜在的な分割結果:1及び5
潜在的な分割結果:1及び4
潜在的な分割結果:2及び2
分割スコア1.32
解散(クラスタ内のポイントは互いから離れすぎている)潜在的な分割結果:3及び323
分割スコア148.25
潜在的な分割結果:1及び2
潜在的な分割結果:1及び1
解散(クラスタ内のポイントは互いから離れすぎている)潜在的な分割結果:314及び9
分割スコア71.43
潜在的な分割結果:221及び93
分割スコア48.70
潜在的な分割結果:1及び220
潜在的な分割結果:1及び219
潜在的な分割結果:1及び218
潜在的な分割結果:1及び217
潜在的な分割結果:215及び2
分割スコア133.42
潜在的な分割結果:166及び49
分割スコア7.64
潜在的な分割結果:1及び1
潜在的な分割結果:40及び53
分割スコア9.31
潜在的な分割結果:4及び5
分割スコア3.20
解散(クラスタ内のポイントは互いから離れすぎている)潜在的な分割結果:1及び2
潜在的な分割結果:1及び1
解散(クラスタ内のポイントは互いから離れすぎている)潜在的な分割結果:1及び2
潜在的な分割結果:1及び1
解散(クラスタ内のポイントは互いから離れすぎている)
スコア関数が呼び出された回数:40
合計計算時間は9.532秒であった。
【0275】
統合ステップは、上記分割手順によって生成された全クラスタのペア毎の比較を行うことを含んだ。相違が十分ではないクラスタは、2つの最も類似するクラスタから開始して一緒に統合された。分割ステップのように、統合ステップは、標識(長さN)及び中間ステップの履歴の両方を返した。標識は整数であった。外れ値は「-1」と記された。コミュニティ検出に基づく統合ステップへの代替の手法について、以下を参照されたい。
【0276】
[4]:#クラスタ標識を統合
ym,mhistory=merge.dendromerge((D,X),ys,score_threshold=10,preprocessing=’precomputed’,verbose=True,outlier_threshold_percentile=90)
【0277】
試料886個のうち0個がシングルトンである。
外れ値閾値は0.51である。
821の最近傍:クラスタ76中の72(D=0.375)
661の最近傍:クラスタ76中の29(D=0.379)
729の最近傍:クラスタ76中の281(D=0.381)
559の最近傍:クラスタ76中の79(D=0.381)
690の最近傍:クラスタ76中の171(D=0.381)
564の最近傍:クラスタ76中の79(D=0.381)
776の最近傍:クラスタ38中の474(D=0.387)
860の最近傍:クラスタ38中の340(D=0.390)
816の最近傍:クラスタ78中の379(D=0.390)
787の最近傍:クラスタ38中の63(D=0.391)
737の最近傍:クラスタ76中の72(D=0.392)
874の最近傍:クラスタ76中の220(D=0.392)
743の最近傍:クラスタ76中の72(D=0.394)
877の最近傍:クラスタ76中の174(D=0.394)
753の最近傍:クラスタ76中の190(D=0.397)
774の最近傍:クラスタ38中の158(D=0.398)
565の最近傍:クラスタ76中の190(D=0.399)
785の最近傍:クラスタ76中の79(D=0.401)
706の最近傍:クラスタ18中の101(D=0.403)
829の最近傍:クラスタ38中の213(D=0.404)
701の最近傍:クラスタ76中の179(D=0.404)
770の最近傍:クラスタ38中の453(D=0.404)
630の最近傍:クラスタ76中の79(D=0.406)
866の最近傍:クラスタ38中の87(D=0.407)
795の最近傍:クラスタ76中の159(D=0.407)
865の最近傍:クラスタ76中の179(D=0.407)
869の最近傍:クラスタ18中の101(D=0.409)
830の最近傍:クラスタ38中の165(D=0.412)
851の最近傍:クラスタ76中の29(D=0.412)
782の最近傍:クラスタ76中の50(D=0.412)
627の最近傍:クラスタ76中の72(D=0.412)
848の最近傍:クラスタ76中の83(D=0.413)
883の最近傍:クラスタ12中の687(D=0.413)
793の最近傍:クラスタ76中の107(D=0.414)
631の最近傍:クラスタ18中の101(D=0.416)
720の最近傍:クラスタ18中の101(D=0.418)
885の最近傍:クラスタ18中の101(D=0.418)
813の最近傍:クラスタ18中の101(D=0.419)
788の最近傍:クラスタ38中の278(D=0.420)
748の最近傍:クラスタ18中の101(D=0.422)
762の最近傍:クラスタ38中の158(D=0.423)
804の最近傍:クラスタ18中の177(D=0.425)
854の最近傍:クラスタ18中の101(D=0.426)
605の最近傍:クラスタ76中の159(D=0.437)
849の最近傍:クラスタ18中の101(D=0.437)
835の最近傍:クラスタ18中の101(D=0.438)
790の最近傍:クラスタ76中の32(D=0.442)
744の最近傍:クラスタ38中の188(D=0.448)
822の最近傍:クラスタ38中の282(D=0.449)
723の最近傍:クラスタ76中の170(D=0.456)
884の最近傍:クラスタ18中の101(D=0.459)
563の最近傍:クラスタ76中の34(D=0.463)
867の最近傍:クラスタ18中の160(D=0.463)
771の最近傍:クラスタ76中の34(D=0.473)
826の最近傍:クラスタ38中の165(D=0.475)
777の最近傍:クラスタ76中の174(D=0.478)
759の最近傍:クラスタ18中の101(D=0.483)
855の最近傍:クラスタ18中の101(D=0.485)
702の最近傍:クラスタ18中の160(D=0.492)
750の最近傍:クラスタ76中の230(D=0.495)
704の最近傍:クラスタ78中の216(D=0.497)
711の最近傍:クラスタ76中の55(D=0.502)
708の最近傍:クラスタ78中の537(D=0.510)
791の最近傍:クラスタ76中の115(D=0.534)
722の最近傍:クラスタ76中の15(D=0.547)
700の最近傍:クラスタ76中の107(D=0.549)
846の最近傍:クラスタ76中の72(D=0.552)
876の最近傍:クラスタ76中の85(D=0.560)
868の最近傍:クラスタ78中の740(D=0.562)
569の最近傍:クラスタ76中の68(D=0.572)
817の最近傍:クラスタ76中の56(D=0.582)
798の最近傍:クラスタ38中の310(D=0.585)
717の最近傍:クラスタ78中の216(D=0.597)
879の最近傍:クラスタ76中の209(D=0.612)
727の最近傍:クラスタ76中の96(D=0.616)
828の最近傍:クラスタ38中の142(D=0.618)
840の最近傍:クラスタ78中の632(D=0.640)
747の最近傍:クラスタ76中の202(D=0.698)
842の最近傍:クラスタ38中の797(D=0.703)
442の最近傍:クラスタ78中の336(D=0.735)
【0278】
外れ値の総数:18
割り当てられたシングルトン(0.052s)
生成されたDc(13.181s)
統合前:14クラスタ
距離3.60を有する標識0(N=10)と6(N=15)とを統合
統合前:13クラスタ
距離4.31を有する標識2(N=15)と4(N=10)とを統合 統合前:12クラスタ
距離4.37を有する標識1(N=13)と11(N=25)とを統合 統合前:11クラスタ
距離5.23を有する標識0(N=25)と10(N=38)とを統合 統合前:10クラスタ
距離6.04を有する標識3(N=30)と7(N=95)とを統合 統合前:9クラスタ
距離6.81を有する標識2(N=10)と5(N=2)とを統合 統合前:8クラスタ
距離7.19を有する標識4(N=25)と5(N=63)とを統合 統合前:7クラスタ
距離7.23を有する標識2(N=18)と5(N=12)とを統合 統合前:6クラスタ
距離9.76を有する標識3(N=125)と5(N=30)とを統合 クラスタの統合に25.977sかかった。
【0279】
コミュニティ検出に基づく統合は、networkx及びコミュニティpythonモジュールを使用した。ここで返されたhistoryデータ構造は、入力標識及びシングルトン処理後の標識のみを含む。
【0280】
[5]:ym_community=merge.dendromerge((D,X),ys,preprocessing=’precomputed’,verbose=True,outlier_threshold_percentile=90,perform_community_detection=True)
【0281】
886の試料のうち80はシングルトンであり、外れ値閾値は0.51である。
821の最近傍:クラスタ76中の72(D=0.375)
661の最近傍:クラスタ76中の29(D=0.379)
729の最近傍:クラスタ76中の281(D=0.381)
559の最近傍:クラスタ76中の79(D=0.381)
690の最近傍:クラスタ76中の171(D=0.381)
564の最近傍:クラスタ76中の79(D=0.381)
776の最近傍:クラスタ38中の474(D=0.387)
860の最近傍:クラスタ38中の340(D=0.390)
816の最近傍:クラスタ78中の379(D=0.390)
787の最近傍:クラスタ38中の63(D=0.391)
737の最近傍:クラスタ76中の72(D=0.392)
874の最近傍:クラスタ76中の220(D=0.392)
743の最近傍:クラスタ76中の72(D=0.394)
877の最近傍:クラスタ76中の174(D=0.394)
753の最近傍:クラスタ76中の190(D=0.397)
774の最近傍:クラスタ38中の158(D=0.398)
565の最近傍:クラスタ76中の190(D=0.399)
785の最近傍:クラスタ76中の79(D=0.401)
706の最近傍:クラスタ18中の101(D=0.403)
829の最近傍:クラスタ38中の213(D=0.404)
701の最近傍:クラスタ76中の179(D=0.404)
770の最近傍:クラスタ38中の453(D=0.404)
630の最近傍:クラスタ76中の79(D=0.406)
866の最近傍:クラスタ38中の87(D=0.407)
795の最近傍:クラスタ76中の159(D=0.407)
865の最近傍:クラスタ76中の179(D=0.407)
869の最近傍:クラスタ18中の101(D=0.409)
830の最近傍:クラスタ38中の165(D=0.412)
851の最近傍:クラスタ76中の29(D=0.412)
782の最近傍:クラスタ76中の50(D=0.412)
627の最近傍:クラスタ76中の72(D=0.412)
848の最近傍:クラスタ76中の83(D=0.413)
883の最近傍:クラスタ12中の687(D=0.413)
793の最近傍:クラスタ76中の107(D=0.414)
631の最近傍:クラスタ18中の101(D=0.416)
720の最近傍:クラスタ18中の101(D=0.418)
885の最近傍:クラスタ18中の101(D=0.418)
813の最近傍:クラスタ18中の101(D=0.419)
788の最近傍:クラスタ38中の278(D=0.420)
748の最近傍:クラスタ18中の101(D=0.422)
762の最近傍:クラスタ38中の158(D=0.423)
804の最近傍:クラスタ18中の177(D=0.425)
854の最近傍:クラスタ18中の101(D=0.426)
605の最近傍:クラスタ76中の159(D=0.437)
849の最近傍:クラスタ18中の101(D=0.437)
835の最近傍:クラスタ18中の101(D=0.438)
790の最近傍:クラスタ76中の32(D=0.442)
744の最近傍:クラスタ38中の188(D=0.448)
822の最近傍:クラスタ38中の282(D=0.449)
723の最近傍:クラスタ76中の170(D=0.456)
884の最近傍:クラスタ18中の101(D=0.459)
563の最近傍:クラスタ76中の34(D=0.463)
867の最近傍:クラスタ18中の160(D=0.463)
771の最近傍:クラスタ76中の34(D=0.473)
826の最近傍:クラスタ38中の165(D=0.475)
777の最近傍:クラスタ76中の174(D=0.478)
759の最近傍:クラスタ18中の101(D=0.483)
855の最近傍:クラスタ18中の101(D=0.485)
702の最近傍:クラスタ18中の160(D=0.492)
750の最近傍:クラスタ76中の230(D=0.495)
704の最近傍:クラスタ78中の216(D=0.497)
711の最近傍:クラスタ76中の55(D=0.502)
708の最近傍:クラスタ78中の537(D=0.510)
791の最近傍:クラスタ76中の115(D=0.534)
722の最近傍:クラスタ76中の15(D=0.547)
700の最近傍:クラスタ76中の107(D=0.549)
846の最近傍:クラスタ76中の72(D=0.552)
876の最近傍:クラスタ76中の85(D=0.560)
868の最近傍:クラスタ78中の740(D=0.562)
569の最近傍:クラスタ76中の68(D=0.572)
817の最近傍:クラスタ76中の56(D=0.582)
798の最近傍:クラスタ38中の310(D=0.585)
717の最近傍:クラスタ78中の216(D=0.597)
879の最近傍:クラスタ76中の209(D=0.612)
727の最近傍:クラスタ76中の96(D=0.616)
828の最近傍:クラスタ38中の142(D=0.618)
840の最近傍:クラスタ78中の632(D=0.640)
747の最近傍:クラスタ76中の202(D=0.698)
842の最近傍:クラスタ38中の797(D=0.703)
442の最近傍:クラスタ78中の336(D=0.735)
【0282】
外れ値の総数:18
割り当てられたシングルトン(0.054s)
生成されたDc(12.773s)
14のノード及び24のエッジを有するグラフが構築された(12.774s)
クラスタの統合に12.775sかかった。
【0283】
全体で、これらのデータは、再帰的な分割及び検定、それに続く統合によるクラスタリングを示している。
【0284】
実施例2
系統樹の再帰的な分割及び検定、それに続く統合によるクラスタリングの結果の視覚化
この実施例では、実施例1に示された系統樹の再帰的な分割及び検定、それに続く統合によるクラスタリングの結果の視覚化について説明する。
【0285】
分割及び統合ステップ後に生成されたクラスタ標識を調べた。
【0286】
[6]:plt.scatter(x1,x2,edgecolors=’none’)
_=plt.axis(’off’)
plt.title(’Pre-clustering’)
#事前統合標識(標識シングルトン)を使用したクラスタリング結果
plt.figure()
split.plot_labels_legend(x1,x2,split.str_labels_to_ints(ys))
plt.title(’After splitting step’)
#統合後標識を使用したクラスタリング結果
plt.figure()
split.plot_labels_legend(x1,x2,ym)
plt.title(’After merging step’)
#統合後標識を使用したクラスタリング結果
plt.figure()
split.plot_labels_legend(x1,x2,ym_community)
plt.title(’After merging step using community detection’)
Out[6]:<matplotlib.text.Text at 0x112674510>
【0287】
図8のパネル(a)~(d)は、単細胞の発現プロファイルを分割し統合した後の二次元空間における発現プロファイルの非限定的で例示的なプロットを示す。
【0288】
分割がいかに決定されたかの探索
「print_history」関数を使用して、方法の分割ステップがいかに、「print_history」関数を使用してデータセットを取り扱うかを探ることができる。行iはi番目の有効分割を記述する。分割は、生成された両クラスタが「min_clust_size」を上回り、分割から生成された最低p値が閾値を下回る場合、有効と見なされる。
【0289】
[7]:split.print_history(genes,shistory)
事前分割:886 L:883 R:3 スコア:1.8E+308 トップ遺伝子:RPL31 トップ遺伝子スコア:1.8E+308
事前分割:882 L:484 R:398 スコア:182.26 トップ遺伝子:FTL トップ遺伝子スコア:182.26
事前分割:484 L:481 R:3 スコア:1.8E+308 トップ遺伝子:RPL23 トップ遺伝子スコア:1.8E+308
事前分割:479 L:195 R:284 スコア:125.49 トップ遺伝子:IGHM トップ遺伝子スコア:125.49
事前分割:195 L:177 R:18 スコア:15.35 トップ遺伝子:RRP7A トップ遺伝子スコア:15.35
事前分割:174 L:12 R:162 スコア:18.88 トップ遺伝子:ANXA11 トップ遺伝子スコア:18.88
事前分割:160 L:28 R:132 スコア:12.32 トップ遺伝子:TTF1 トップ遺伝子スコア:12.32
事前分割:28 L:25 R:3 スコア:13.94 トップ遺伝子:SRPK1 トップ遺伝子スコア:13.94
事前分割:132 L:122 R:10 スコア:18.52 トップ遺伝子:TOP2A トップ遺伝子スコア:18.52
事前分割:122 L:13 R:109 スコア:24.92 トップ遺伝子:CACYBP トップ遺伝子スコア:24.92
事前分割:109 L:105 R:4 スコア:31.72 トップ遺伝子:RPSA トップ遺伝子スコア:31.72
事前分割:105 L:15 R:90 スコア:11.31 トップ遺伝子:PSMD14 トップ遺伝子スコア:11.31
事前分割:281 L:271 R:10 スコア:38.04 トップ遺伝子:RNASEH2B トップ遺伝子スコア:38.04
事前分割:271 L:2 R:269 スコア:233.23 トップ遺伝子:GAS8 トップ遺伝子スコア:233.23
事前分割:268 L:265 R:3 スコア:80.24 トップ遺伝子:CNPY3 トップ遺伝子スコア:80.24
事前分割:265 L:4 R:261 スコア:100.26 トップ遺伝子:MZB1 トップ遺伝子スコア:100.26
事前分割:395 L:392 R:3 スコア:228.58 トップ遺伝子:CREB3L1 トップ遺伝子スコア:228.58
事前分割:386 L:32 R:354 スコア:33.24 トップ遺伝子:VMP1 トップ遺伝子スコア:33.24
事前分割:351 L:19 R:332 スコア:32.86 トップ遺伝子:EIF2B1 トップ遺伝子スコア:32.86
事前分割:332 L:6 R:326 スコア:83.57 トップ遺伝子:NUDT5 トップ遺伝子スコア:83.57
事前分割:326 L:3 R:323 スコア:148.25 トップ遺伝子:TMSB4X トップ遺伝子スコア:148.25
事前分割:323 L:314 R:9 スコア:71.43 トップ遺伝子:C12orf57 トップ遺伝子スコア:71.43
事前分割:314 L:221 R:93 スコア:48.70 トップ遺伝子:RPL27A トップ遺伝子スコア:48.70
事前分割:217 L:215 R:2 スコア:133.42 トップ遺伝子:JUN トップ遺伝子スコア:133.42
【0290】
各分割に関わったポイントが視覚化された。各行は2つの図を有する。行iは、保存されたi番目の分割を記述する。
図9のパネル(a)~(x)は、分割がいかに決定されたかを示す二次元空間における発現プロファイルの非限定的で例示的なプロットである。各パネルにおいて、左の図は、分割がいかに実行されたかを示す。青い点は、分割に全く関与しなかった。赤及び緑の点は、同じクラスタで使用され、次に分離された。左の図のタイトルは、分割回数及び最大t統計(絶対値をとった後)を達成した3つの遺伝子を示す。各遺伝子に関連付けられた数字は、対応するp値の-log10である。各遺伝子の隣の括弧内の「0」又は「1」は、その遺伝子のより高い平均発現を有したクラスタを示す。右の図は、最大t統計を達成した遺伝子の対数発現を示す。
【0291】
[8]:split.visualize_history(np.log(1+X),x1,x2,genes,shistory)
/Users/user1/anaconda2/lib/python2.7/site-packages/matplotlib/pyplot.py:516: RuntimeWarning: More max open warning, RuntimeWarning)
【0292】
「analyze_split」関数を使用して、特定の分割が何故保持されたかを決めた遺伝子を更に詳しく調べることができる。「show_background」キーワードを使用して、分割に関与しなかった細胞も表示する。「clust」を使用して、特定のクラスタでより高度に発現する遺伝子のみを見る。「num_genes」を使用して、遺伝子のカスタム数を表示することができる。
【0293】
[9]:#分割5を見る
split_num=5
cluster_of_interest=None
show_background=False
split.analyze_split(X,x1,x2,genes,shistory,split_num,num_genes=12,
show_background=show_background,clust=cluster_of_interest)
【0294】
図10は、分割の5番目のサイクル後の二次元空間における発現プロファイルの非限定的で例示的なプロットを示す。
図11のパネル(a)~(l)は、
図10に示される5番目のサイクルで系統樹中の特定の分割が何故保持されたかを示す、二次元空間における発現プロファイルの非限定的で例示的なプロットである。
【0295】
統合がいかに決定されたかの探索
分割がいかに決定されたかを探るための関数を使用して、統合がいかに実行されたかを探ることができる。
【0296】
[10]:split.print_history(genes,mhistory)
split.visualize_history(np.log(1+X),x1,x2,genes,mhistory)
886の試料のうち80はシングルトンである
シングルトン442,569,700,708,717,722,727,747,791,798,817,828,840,842,846,868,876,879 m
シングルトン15はクラスタ12(N=24)と統合されて、クラスタ1(N=25)を形成した
シングルトン3,4,6,7,9,10,11,13,14,19,20,21,22,24,25,26はクラスタ18(N=90)と統合された
シングルトン5,29,30,31,32,33,34,35,36,37,39,40,41はクラスタ38(N=261)と統合されて、シングルトン28,53,55,56,58,59,60,61,63,64,65,67,68,69,70,71,72,73,74,75,79,80,81を形成した
シングルトン54,66はクラスタ78(N=93)と統合されて、クラスタ13(N=95)を形成した
統合後:25 L:10 R:15 スコア:3.60 トップ遺伝子:ENOSF1 トップ遺伝子スコア:3.60
統合後:25 L:15 R:10 スコア:4.31 トップ遺伝子:MAGED1 トップ遺伝子スコア:4.31
統合後:38 L:13 R:25 スコア:4.37 トップ遺伝子:PRPF40A トップ遺伝子スコア:4.37
統合後:63 L:25 R:38 スコア:5.23 トップ遺伝子:ALDOC トップ遺伝子スコア:5.23
統合後:125 L:30 R:95 スコア:6.04 トップ遺伝子:PARP1 トップ遺伝子スコア:6.04
統合後:12 L:10 R:2 スコア:6.81 トップ遺伝子:IGLC3 トップ遺伝子スコア:6.81
統合後:88 L:25 R:63 スコア:7.19 トップ遺伝子:HMGB2 トップ遺伝子スコア:7.19
統合後:30 L:18 R:12 スコア:7.23 トップ遺伝子:VIM トップ遺伝子スコア:7.23
統合後:155 L:125 R:30 スコア:9.76 トップ遺伝子:HMGN5 トップ遺伝子スコア:9.76
【0297】
図12のパネル(a)~(i)は、統合がいかに決定されたかを示す二次元空間における発現プロファイルの非限定的で例示的なプロットである。
【0298】
[11]:#統合2を見る
merge_num=2
cluster_of_interest=None
show_background=False
split.analyze_split(X,x1,x2,genes,mhistory,merge_num,num_genes=4,
show_background=show_background,clust=cluster_of_interest)
【0299】
図13は、統合の2番目のサイクル後の二次元空間における発現プロファイルの非限定的で例示的なプロットを示す。
図14のパネル(a)~(d)は、
図13に示される統合の2番目のサイクルがいかに決定されたかを示す、二次元空間における発現プロファイルの非限定的で例示的なプロットを示す。
【0300】
差次的発現
モジュールは、2種類の単純な差次的発現分析を可能にする。第1の種類は、各クラスタのone-v-rest比較を行い、各遺伝子のt検定に従って各クラスタの最も重要な遺伝子を視覚化する。第2の種類は、クラスタの2つのあらゆるペアに対してペア毎比較を行う。
【0301】
[12]:split.save_more_highly_expressed_genes_in_one_clust(X,genes,ym,x1,x2,num_genes=3,show_plots=True)
【0302】
図15のパネル(a)~(f)は、差次的発現分析の1つの非限定的で例示的なタイプを示すプロットである。
【0303】
[13]:split.pairwise_cluster_comparison(X,genes,ym,x1=x1,x2=x2,num_genes=3, show_plots=True,verbose=F
dendrosplit/utils.py:39:FutureWarning:要素毎の比較失敗;代わりにスカラーを返すが,しかし、plt.plot(x1[y==i],x2[y==i],’.’,c=RGBs[j],label=str(i)+’(’+str(np.sum(y==i))+’)’)において
dendrosplit/feature selection.py:221:RuntimeWarning:二重スカラーフォールドで直面したゼロで除算=g mean j/g mean i
【0304】
図16のパネル(a)~(o)は、別の非限定的で例示的なタイプの差次的発現分析を示すプロットである。
【0305】
距離分布
モジュールは、ユーザが各クラスタ内の距離の分布の視覚化をできるようにもする。所与のクラスタについて、この関数は、ペア毎距離の組全体の各パーセンタイルビンのペア毎距離(クラスタ内の点間の)の割合をプロットする。例えば、1における0.3は、ペア毎距離の30%が、全体距離の5パーセンタイルと10パーセンタイルとの間にあることを示す。この関数を使用し、凝集したクラスタがいかに元の距離マトリックスに従うかの感覚を得る。直観的に、良好なクラスタは、全ての互いに近い点を有するはずである。例えば、下部の10個のビン(すなわち、下部50パーセンタイル)内に距離を有さないクラスタは、不良と見なされる。予期されるように、これは、外れ値を含む以下のクラスタ「-1」の場合であることに留意する。
【0306】
[14]:merge.visualize_within_cluster_distance_distributions(D,ym,show_D_dist=True)
【0307】
図17のパネル(a)~(g)は、クラスタ間の距離を視覚化する非限定的で例示的なプロットである。
【0308】
系統樹
モジュールは、ユーザが系統樹を生成し、系統樹に従って細胞の順序を得られるようにすることもできる。系統樹は、iPython notebookで見ることが難しいことがある。幾つかの実施形態では、系統樹は、以下に示されるように保存することができる。ユーザは、クラスタ標識(「標識」キーワード)において供給することができる。所望の場合、この関数は、クラスタ内の全試料の名称を同じ色にすることができる。
【0309】
[15]:cell_order=split.plot_dendro(D,return_cell_order=True,labels=ym,save_name=’/Users/user1/Desktop/dendrogram’)
dendrosplit/split.py:233:FutureWarning:
「None」との比較は、標識が「!」である場合、要素毎のオブジェクト比較に繋がる
=None:
【0310】
【0311】
全体で、これらのデータは、様々なステップ及び再帰的な分割及び統合、それに続く統合の結果を視覚化する本開示の様々なツールを示す。
【0312】
実施例3
系統樹の再帰的な分割及び検定、それに続く統合によるクラスタリングのパラメータ掃引
この実施例は、再帰的な分割及び検定、それに続く統合に向けてパラメータを最適化するパラメータ掃引について説明する。
【0313】
方法の分割ステップ中、2つのハイパーパラメータを調整することができる:スコア閾値及び解散パーセンタイル。異なるハイパーパラメータを用いてどのような異なるクラスタを生成することができるかについて探ることができる。より小さなスコア閾値(閾値が小さいほど、多くのクラスタが生成される)を用いて生成されたクラスタが、より大きなスコア閾値を用いて生成されたクラスタを分割することを利用することにより、幾つかの(分割後の事前統合)クラスタリング結果を迅速に得ることができる。まず、非常に低い閾値を用いて分割ステップを実行する。次に、history()関数からgetクラスタを使用する。
【0314】
様々なスコア閾値を通して掃引する一例を以下に示す。解散パーセンタイル値を用いて同じことを行うことができる。
【0315】
[16]:ys,shistory=split.dendrosplit((D,X),preprocessing=’precomputed’,
score_threshold=2,verbose=False,disband_percentile=50)
ys_sweep=[]
thresholds=range(5,100,5)
for threshold in thresholds:
ys_sweep.append(split.get_clusters_from_history(D,shistory,threshold,50))
plt.figure()
split.plot_labels_legend(x1,x2,split.str_labels_to_ints(ys_sweep[-1]))
plt.title(’Clustering result using a threshold of%.3f’%(threshold))
【0316】
図19のパネル(a)~(s)は、パラメータ掃引を示す非限定的で例示的なプロットである。
【0317】
パラメータを掃引することにより、閾値の関数としてクラスタの数がいかに変わるかを調べることができる。これは、特定の用途に最適な閾値を選択する方法についての洞察をユーザに与え得る。
【0318】
[17]:def count_nonsingleton_clusters(y):
return sum([1 for i in np.unique(y) if np.sum(y==i)!=1])
plt.plot(thresholds,[count_nonsingleton_clusters(i) for i in ys_sweep])
plt.grid()
plt.xlabel(’thresholds (-log10(p-value))’)
plt.ylabel(’number of nonsingletone clusters’)
Out[17]:<matplotlib.text.Text at 0x117fb3290>
【0319】
図20は、パラメータ掃引をいかに使用して、閾値を識別することができるかを示す非限定的で例示的なプロットである。わずか5という閾値を用いる場合、発現プロファイルの多数のクラスタが識別されるため、より大きな閾値(例えば、
図19のパネル(h)に示されている40)を用いて、発現プロファイルのより少数のクラスタが識別された。
【0320】
全体で、これらのデータは、再帰的な分割及び検定、それに続く統合に向けて、パラメータ掃引によりハイパーパラメータを最適化することを示す。
【0321】
実施例4
系統樹の再帰的な分割及び検定、それに続く統合によるクラスタリング
この実施例は、再帰的な分割(例えば、再帰的な系統樹の分割)及び検定、それに続く統合によるクラスタリング法を説明する。この実施例において、系統樹の各クラスタ又はノードにおいて(リーフノードを除く)、2つのサブクラスタのクラスタ内メジアン相関は、クラスタ間メジアン相関よりも高かった。
【0322】
357個の細胞の発現プロファイルの分割及び検定フェーズ中、系統樹の最上部から始まって、ツリーは2つの候補サブツリーに分割された。分割は、2つのサブクラスタのクラスタ内メジアン相関がクラスタ間メジアン相関よりも高い値であるべきという制約下でクラスタが2つの候補サブツリーに分割されることに対応する。分割の品質がスコア付けられた。サブクラスタが十分に異なると見なされた場合、フェーズは各サブツリーに続く。十分に異なると見なされない場合、方法は、系統樹のこの部分では終了する。このフェーズは、データセットの1組の標識を生成した。
【0323】
図21のパネル(a)~(j)は、最初の分割の結果を示す非限定的で例示的なプロットである。最初の分割中、20個の遺伝子(表1に示される)は、357個の細胞で異なる発現されたと判断された。
【0324】
【0325】
図22は、10の閾値を用いて357個の細胞が2つのクラスタに分類されたことを示す、357個の細胞の発現プロファイルの分割結果を示す非限定的で例示的なt分布型確率的近傍埋め込み(t-SNE)プロットである。
図23は、表2に示される特徴に基づいて2つのクラスタに分類された発現プロファイルを示す非限定的で例示的な系統樹を示す(表1中のクラスタ0は表2中のクラスタ1に対応し、表2中のクラスタ1は表2中のクラスタ2に対応する)。
図24は、パラメータ掃引を示す非限定的で例示的なプロットである。発現プロファイルの2つのクラスタは、わずか10という閾値を用いて識別されたため、発現プロファイルの同じ2つのクラスタは、より大きな閾値(
図24を
図20と比較)を用いて識別された。
【0326】
【0327】
全体で、これらのデータは、再帰的な分割及び検定、それに続く統合によるクラスタリングを示す。この実施例では、系統樹の各クラスタ又はノードにおいて(リーフノードを除く)、2つのサブクラスタのクラスタ内メジアン相関は、クラスタ間メジアン相関よりも高かった。
【0328】
上述した実施形態の少なくとも幾つかでは、実施形態で使用された1つ又は複数の要素は、別の実施形態での置換が技術的に実現可能ではない場合を除き、別の実施形態において交換可能に使用することができる。特許請求の範囲に記載される趣旨の範囲から逸脱せずに、様々な他の省略、追加、及び改変を上述した方法及び構造に行い得ることが当業者には理解される。そのような可変及び変更は全て、添付の特許請求の範囲により規定される趣旨の範囲内にあることが意図される。
【0329】
本明細書での略あらゆる複数の及び/又は単数の用語の使用に関して、当業者は、状況及び/又は用途に適切なように、複数から単数に及び/又は単数から複数に変換することができる。様々な単数/複数の置換は、明確性を目的として、本明細書に明示的に記載され得る。本明細書及び添付の特許請求の範囲で使用される場合、単数形「a」、「an」、及び「the」は、状況により明確に別段のことが示される場合を除き、複数形を含む。本明細書での「又は」への任意の言及は、別段のことが記載される場合を除き、「及び/又は」を包含することが意図される。
【0330】
一般に、本明細書、特に添付の特許請求の範囲(例えば、添付の特許請求の範囲の本文)において使用される用語が一般に、「オープン」ターム(例えば、「含み(including)」という用語が、「限定ではなく、~を含み」として解釈されるべきであり、「有し」という用語が「少なくとも~を有し」として解釈されるべきであり、「含む(include)」という用語が、「限定ではなく、~を含む」として解釈されるべきである等)として意図されることが当業者により理解される。導入される請求項の記載において特定の数が意図される場合、そのような記載は請求項において明確に記載され、そのような記載がない場合、そのような意図は存在しないことが当業者により更に理解される。例えば、理解の助けとして、以下の添付の特許請求の範囲は、「少なくとも1つの」及び「1つ又は複数の」という導入句を使用して、請求項の記載を導入することがある。しかしながら、このような句の使用は、たとえ同一のクレームに「1つ又は複数の」又は「少なくとも1つの」という導入句及び「a」又は「an」等の不定冠詞を含む場合であっても、不定冠詞「a」又は「an」による請求項の記載の導入が、そのような導入された請求項の記載を含むいかなる特定の請求項も、そのような記載を1つのみ含む実施形態に限定することを暗示すると解釈されるべきではなく(例えば、「a」及び/又は「an」は、「少なくとも1つの」又は「1つ又は複数の」を意味すると解釈されるべきである)、定冠詞を使用して請求項の記載を導入する場合にも同じことが当てはまる。加えて、導入される請求項の記載において特定の数が明確に記載される場合も、そのような記載は、少なくとも記載された数を意味すると解釈されるべきであることを当業者は理解する(例えば、他に修飾語のない、単なる「2つの記載事項」という記載は、少なくとも2つの記載事項、又は2つ以上の記載事項を意味する)。さらに、「A、B、及びC等の少なくとも1つ」に類する表現が用いられる場合、一般に、そのような表現は、当業者がその表現を理解する意味が意図されている(例えば、「A、B、及びCの少なくとも1つを有するシステム」には、限定ではなく、Aのみ、Bのみ、Cのみ、A及びBの両方、A及びCの両方、B及びCの両方、及び/又はA、B、及びCの全て等を有するシステムが含まれる)。「A、B、及びC等の少なくとも1つ」に類する表現が用いられる場合、一般に、そのような表現は、当業者がその表現を理解する意味が意図されている(例えば、「A、B、及びCの少なくとも1つを有するシステム」には、限定ではなく、Aのみ、Bのみ、Cのみ、A及びBの両方、A及びCの両方、B及びCの両方、及び/又はA、B、及びCの全て等を有するシステムが含まれる)。さらに、2つ以上の代替可能な用語を表す実質的に任意の離接語及び/又は離接句は、説明、請求の範囲、又は図面のいずれにおいても、用語のうち1つ、用語のいずれか、又は両方の用語を含む可能性が意図されると理解されるべきであることが、当業者には理解される。例えば、「A又はB」という句は、「A」若しくは「B」又は「A及びB」の可能性を含むことが理解される。
【0331】
加えて、本開示の特徴又は態様がマーカッシュグループによって記載されると、それにより本開示がマーカッシュグループのあらゆる個々の要素又は要素のサブグループの観点からも記載されるということを当業者は認識する。
【0332】
当業者に理解されるように、記述を提供する等のあらゆるかつ全ての目的のため、本明細書に開示される全ての範囲は、あらゆるかつ全ての可能な部分範囲及びその部分範囲の組合せをも含む。挙げられたあらゆる範囲は、少なくとも半分、3分の1、4分の1、5分の1、10分の1等へと細分化される同一の範囲を十分に記載し、且つ可能にしていることが容易に認識される。非限定的な例として、明細書で記載される各範囲は、下部3分の1、中部3分の1、上部3分の1等に容易に分けられる。また、当業者には理解されるように、例えば、「まで(up to)」「少なくとも(at least)」「より大きい(greater than)」「未満(less than)」等の全ての文言は、記載される数を含み、上述のような部分範囲に続いて細分化し得る範囲を指す。最後に、当業者に理解されるように、範囲は個々の要素を含む。したがって、例えば、1~3個の細胞を有する群は、1個、2個、又は3個の細胞を有する群を指す。同様に1~5個の細胞を有する群は、1個、2個、3個、4個、又は5個の細胞を有する群等を指す。
【0333】
様々な態様及び実施形態が本明細書に開示されたが、他の態様及び実施形態が当業者に明らかになろう。本明細書に開示される様々な態様及び実施形態は、例示を目的とし、限定を意図せず、真の範囲及び趣旨は以下の特許請求の範囲によって示される。
様々な態様及び実施形態が本明細書に開示されたが、他の態様及び実施形態が当業者に明らかになろう。本明細書に開示される様々な態様及び実施形態は、例示を目的とし、限定を意図せず、真の範囲及び趣旨は以下の特許請求の範囲によって示される。
本発明の好ましい態様は、下記の通りである。
〔1〕細胞タイプを区別する標的を識別する方法であって、
(a)標的カウントデータ構造を受信することであって、前記標的カウントデータ構造は、複数の細胞の発現プロファイルを含み、前記複数の細胞の前記発現プロファイルは、前記複数の細胞の各細胞の複数の標的の各標的を幾つか含む、受信することと、
(b)前記標的カウントデータ構造及び前記複数の細胞の前記発現プロファイル間の距離に基づいて、前記複数の細胞の発現プロファイルを階層的にクラスタリングして、前記複数の細胞の前記発現プロファイルを表す系統樹を生成することであって、前記系統樹は複数のノードを含み、前記複数のノードは、ルートノード、複数のリーフノード、及び複数の非ルート非リーフノードを含み、前記複数のリーフノードの各リーフノードは、前記複数の細胞の異なる細胞の発現プロファイルを表し、前記ルートノードは、前記複数の細胞の発現プロファイルを表す、階層的にクラスタリングして、系統樹を生成することと、
(c)前記系統樹の前記複数のノードの各ノードを通して前記系統樹の前記ルートノードから前記系統樹の前記複数のリーフノードまでトラバースする間、
(1)前記ノードを前記ノードの子ノードに分割することが有効であるか、それとも無効であるかを判断することと、
(2)前記ノードを前記ノードの子ノードに分割することが無効である場合、前記ノードを統合クラスタセットに追加することと、
(d)前記統合クラスタセット内の第1のノードのそれぞれについて、繰り返し、
前記統合クラスタセット内の前記第1のノードと、前記第1のノードに最も近い前記統合クラスタセット内の第2のノードとの間の距離が、統合距離閾値内である場合、前記第1のノードを前記第2のノードと統合して、前記第1のノード及び前記第2のノードによって表される発現プロファイルを含む統合ノードを生成することと、
(e)前記統合クラスタセット内のノードのそれぞれについて、前記ノードによって表される細胞の前記複数の標的の発現プロファイルに基づいて、細胞タイプを区別する標的を識別することと、
を含む、方法。
〔2〕前記標的カウントデータ構造は、標的カウントマトリックスを含む、前記〔1〕に記載の方法。
〔3〕前記標的カウントマトリックスの各行又は各列は、前記複数の細胞の異なる個々の細胞の複数の標的の各標的を幾つか含む、前記〔2〕に記載の方法。
〔4〕前記複数のリーフノード及び前記複数の非ルート非リーフノードのそれぞれには、親ノードが関連付けられ、
前記ルートノード及び前記複数の非ルート非リーフノードのそれぞれには、左子ノード及び右子ノードが関連付けられ、前記ルートノード及び前記複数の非ルート非リーフノードのそれぞれは、前記ノードの前記左子ノード及び前記右子ノードによって表される発現プロファイルを表す、前記〔1〕に記載の方法。
〔5〕(a)において、前記標的カウントデータ構造を受信する前、
(f)複数のバーコードを使用して前記複数の細胞内の前記複数の標的をバーコーディングして、複数のバーコード付き標的を作成することであって、前記複数のバーコードのそれぞれは、細胞標識及び分子標識を含み、異なる細胞の標的から作成されるバーコード付き標的は、異なる細胞標識を有し、前記複数の細胞の1つの細胞の標的から作成されるバーコード付き標的は、異なる分子標識を有する、バーコーディングして複数のバーコード付き標的を作成することと、
(g)前記複数のバーコード付き標的の配列データを取得することと、
(h)前記複数の細胞のそれぞれについて、
(1)前記細胞の前記配列データ内の前記複数の標的の各標的に関連付けられた別個の配列を有する分子標識の数をカウントすることと、
(2)(h)(1)においてカウントされた前記配列データ内の前記標的に関連付けられた別個の配列を有する分子標識の数に基づいて、前記細胞の前記複数の標的の各標的の数を推定することと
を含む、前記〔1〕~〔4〕のいずれか一項に記載の方法。
〔6〕前記標的カウントデータ構造を受信することは、
(h)(2)において推定された前記細胞の前記複数の標的の各標的の数から、標的カウントデータ構造を生成することであって、前記複数の細胞のうちの前記細胞の前記発現プロファイルは、(h)(2)において推定された前記細胞の前記複数の標的の各標的の数を含む、生成することを含む、前記〔5〕に記載の方法。
〔7〕(b)において、前記標的カウントデータ構造及び前記複数の細胞の前記発現プロファイル間の距離に基づいて、前記複数の細胞の前記発現プロファイルを階層的にクラスタリングして、前記複数の細胞の前記発現プロファイルを表す前記系統樹を生成する前、
(i)前記標的カウントデータ構造の要素の距離データ構造を特定することであって、前記距離データ構造は、前記複数の細胞の前記発現プロファイル間の距離を含む、特定すること
を含む、前記〔1〕~〔6〕のいずれか一項に記載の方法。
〔8〕前記距離データ構造は距離マトリックスを含む、前記〔7〕に記載の方法。
〔9〕前記距離マトリックスの各対角線要素は0の値を有する、前記〔8〕に記載の方法。
〔10〕(b)において、前記標的カウントデータ構造及び前記複数の細胞の前記発現プロファイル間の距離に基づいて、前記複数の細胞の前記発現プロファイルを階層的にクラスタリングして、前記複数の細胞の前記発現プロファイルを表す前記系統樹を生成することは、前記標的カウントデータ構造及び前記距離データ構造に基づいて、前記複数の細胞の前記発現プロファイルを階層的にクラスタリングすることを含む、前記〔7〕~〔9〕のいずれか一項に記載の方法。
〔11〕前記複数の細胞の前記発現プロファイル間の前記距離は、前記複数の細胞の前記発現プロファイル間のペア毎の相関距離を含む、前記〔7〕~〔10〕のいずれか一項に記載の方法。
〔12〕(i)において前記標的カウントデータ構造の要素の距離データ構造を特定する前、前記標的カウントデータ構造を対数変換して、対数変換済み標的カウントデータ構造にすることを含み、
前記標的カウントデータ構造の要素の前記距離データ構造を特定することは、前記対数変換済み標的カウントデータ構造の前記距離データ構造を特定することを含み、
(b)において、前記標的カウントデータ構造及び前記複数の細胞の前記発現プロファイル間の距離に基づいて、前記複数の細胞の前記発現プロファイルを階層的にクラスタリングすることは、前記対数変換済み標的カウントデータ構造及び前記距離データ構造に基づいて前記複数の細胞の前記発現プロファイルを階層的にクラスタリングして、前記系統樹を生成することを含む、前記〔7〕~〔11〕のいずれか一項に記載の方法。
〔13〕前記標的カウントデータ構造を前記対数変換済み標的カウントデータ構造に対数変換することは、前記標的カウントデータ構造の各要素の値を増分によって増大させることを含む、前記〔12〕に記載の方法。
〔14〕前記増分は1である、前記〔13〕に記載の方法。
〔15〕(b)において、前記標的カウントデータ構造及び前記複数の細胞の前記発現プロファイル間の距離に基づいて、前記複数の細胞の前記発現プロファイルを階層的にクラスタリングすることは、
前記複数の細胞の各発現プロファイルを異なるリーフノードに割り当てることと、
前記第2のノードが前記第1のノードへの前記複数のノードの最近傍ノードである場合、前記複数のノードの前記第1のノード及び前記第2のノードを繰り返し結合して、前記第1のノード及び前記第2のノードの親ノードを生成することと、
を含む、前記〔1〕~〔14〕のいずれか一項に記載の方法。
〔16〕前記第1のノードと前記第2のノードとの間の前記距離は、前記第1のノードによって表される発現プロファイルを有する任意の細胞と、前記第2のノードによって表される発現プロファイルを有する任意の細胞との間の最大距離である、前記〔15〕に記載の方法。
〔17〕前記第1のノードのノード内相関及び前記第2のノードのノード内相関の少なくとも一方は、前記第1のノードと前記第2のノードとのノード間相関よりも高い、前記〔15〕又は〔16〕に記載の方法。
〔18〕前記第1のノードのノード内相関及び前記第2のノードのノード内相関の指示は、前記第1のノードと前記第2のノードとのノード間相関よりも高い、前記〔15〕又は〔16〕に記載の方法。
〔19〕前記第1のノードのノード内相関及び前記第2のノードのノード内相関の指示は、
前記第1のノード及び前記第2のノードのノード内最大相関、
前記第1のノード及び前記第2のノードのノード内平均相関、
前記第1のノード及び前記第2のノードのノード内メジアン相関、
前記第1のノード及び前記第2のノードのノード内最小相関、
それらの任意の組合せ
の少なくとも1つに基づく、前記〔18〕に記載の方法。
〔20〕前記第1のノードの前記ノード内相関は、
前記第1のノードのノード内最大相関、
前記第1のノードのノード内平均相関、
前記第1のノードのノード内メジアン相関、
前記第1のノードのノード内最小相関、
それらの任意の組合せ
の少なくとも1つに基づく、前記〔17〕~〔19〕のいずれか一項に記載の方法。
〔21〕前記第2のノードの前記ノード内相関は、
前記第2のノードのノード内最大相関、
前記第2のノードのノード内平均相関、
前記第2のノードのノード内メジアン相関、
前記第2のノードのノード内最小相関、
それらの任意の組合せ
の少なくとも1つに基づく、前記〔17〕~〔20〕のいずれか一項に記載の方法。
〔22〕前記第1のノードと前記第2のノードとの前記ノード間相関は、
前記第1のノードと前記第2のノードとのノード間最大相関、
前記第1のノードと前記第2のノードとのノード間平均相関、
前記第1のノードと前記第2のノードとのノード間メジアン相関、
前記第1のノードと前記第2のノードとのノード間最小相関、
それらの任意の組合せ
の少なくとも1つに基づく、前記〔17〕~〔21〕のいずれか一項に記載の方法。
〔23〕前記系統樹の前記複数のノードをトラバースする際、各ノードにおいて、
前記分割が有効である場合、前記ノードから前記左子ノード及び前記ノードの前記右子ノードに引き続きトラバースすることと、
前記分割が無効である場合、前記ノードから前記左子ノード及び前記ノードの前記右子ノードへのトラバースを停止することと、
を含む、前記〔4〕~〔16〕のいずれか一項に記載の方法。
〔24〕前記ノードの前記子ノードを有する前記ノードの前記分割が有効であるか、それとも無効であるかを判断することは、
前記左子ノードと前記右子ノードとの間の距離が分割閾値を超える場合、前記分割を有効と判断することと、
その他の場合、無効と判断することと、
を含む、前記〔4〕~〔23〕のいずれか一項に記載の方法。
〔25〕前記左子ノードと前記右子ノードとの間の距離は、前記左子ノード及び前記右子ノードによって表される発現プロファイル間の前記複数の標的の各標的で実行される統計検定に基づいて特定される、前記〔24〕に記載の方法。
〔26〕前記統計検定はウェルチt検定を含む、前記〔25〕に記載の方法。
〔27〕前記左子ノードと前記右子ノードとの間の距離は、前記左子ノードによって表される各発現プロファイルと前記右子ノードによって表される各発現プロファイルとの間の前記複数の標的の各標的に対して実行される前記統計検定の最大p値に基づいて特定される、前記〔25〕又は〔26〕に記載の方法。
〔28〕前記系統樹の前記複数のノードをトラバースする際、各ノードにおいて、(3)前記ノードが1つの細胞の発現プロファイルを表す場合、前記ノードを前記統合クラスタセットに追加することを含む、前記〔1〕~〔27〕のいずれか一項に記載の方法。
〔29〕前記系統樹の前記複数のノードをトラバースする際、各ノードにおいて、前記ノード標識を前記ノードに割り当てることを含む、前記〔4〕~〔28〕のいずれか一項に記載の方法。
〔30〕前記ノードが1つの細胞の発現プロファイルを表す場合、前記ノードの前記ノード標識は、1つの細胞名称を含み、
その他の場合、前記ノードが前記親ノードの前記左子ノードであるとき、前記ノードの前記ノード標識は、前記親ノードの前記ノード標識及び左名称を含み、
その他のとき、前記ノードの前記ノード標識は、前記親ノードの前記ノード標識及び右名称を含む、前記〔29〕に記載の方法。
〔31〕前記統合クラスタセット内の各ノードについて、前記ノードによって表される前記細胞の前記複数の標的の前記発現プロファイルに基づいて前記細胞タイプを区別する前記標的を識別することは、
前記細胞タイプを区別する前記標的に関連付けられた別個の配列を有する分子標識数を単位として、前記ノードによって表される発現プロファイルと、前記統合クラスタセット内の別のノードによって表される発現プロファイルとの差が有意な閾値よりも大きいと判断すること
を含む、前記〔1〕~〔30〕のいずれか一項に記載の方法。
〔32〕(d)において前記第1のノードを前記第2のノードと統合して、前記統合ノードを生成する前、
第3のノードと第4のノードとの間の距離がノード距離閾値内にある場合、1つの細胞の発現プロファイルを表す前記統合クラスタセット内の前記第3のノードのそれぞれを前記統合クラスタセット内の前記第4のノードと統合すること
を含む、前記〔1〕~〔31〕のいずれか一項に記載の方法。
〔33〕前記細胞の発現プロファイルを表す前記統合クラスタセット内の前記ノードに基づいて前記複数の細胞を分類することを含む、前記〔1〕~〔32〕のいずれか一項に記載の方法。
〔34〕識別された細胞タイプを区別する前記標的に基づいて全体トランスクリプトームアッセイを指定することを含む、前記〔1〕~〔33〕のいずれか一項に記載の方法。
〔35〕識別された細胞タイプを区別する前記標的に基づいて、標的とされるトランスクリプトームアッセイを指定することを含む、前記〔1〕~〔33〕のいずれか一項に記載の方法。
〔36〕細胞タイプを区別する標的を識別する方法であって、
(a)複数の細胞の発現プロファイルを受信することであって、前記発現プロファイルは、前記複数の細胞の各細胞の複数の標的の各標的を幾つか含む、受信することと、
(b)前記複数の細胞の前記発現プロファイル間の距離に基づいて、前記複数の細胞の前記発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成することであって、各クラスタは、(1)親クラスタ及び(2)2つ以上の子クラスタのうちの一方又は両方との1つ又は複数の関連性を有し、前記親クラスタは、前記クラスタによって表される前記複数の細胞の1つ又は複数の細胞の発現プロファイルを表し、前記クラスタは、前記2つ以上の子クラスタによって表される発現プロファイルを表す、クラスタリングして生成することと、
(c)前記2つ以上の子クラスタを有する各クラスタについて、前記クラスタと前記2つ以上の子クラスタとの関連性が無効である場合、前記クラスタを統合クラスタセットに追加することと、
(d)前記統合クラスタセット内の第1のクラスタのそれぞれについて、前記統合クラスタセット内の前記第1のクラスタと、前記第1のクラスタに最も近い前記統合クラスタセット内の第2のクラスタとの間の距離が、統合距離閾値内である場合、繰り返し、前記第1のクラスタ及び前記第2のクラスタを統合して、統合クラスタを生成することであって、前記統合クラスタは、前記第1のクラスタ及び前記第2のクラスタの発現プロファイルを含む、繰り返し統合することと、
(e)前記統合クラスタセット内の各クラスタについて、前記クラスタによって表される細胞の前記複数の標的の発現プロファイルに基づいて細胞タイプを区別する標的を識別することと、
を含む、方法。
〔37〕前記複数の細胞の発現プロファイルを受信することは、標的カウントデータ構造を受信することを含む、前記〔36〕に記載の方法。
〔38〕前記標的カウントデータ構造は、標的カウントマトリックスを含む、前記〔37〕に記載の方法。
〔39〕前記標的カウントマトリックスの各行又は各列は、前記複数の細胞の異なる個々の細胞の発現プロファイルを含む、前記〔38〕に記載の方法。
〔40〕前記複数の細胞の前記発現プロファイル間の前記距離に基づいて、前記複数の細胞の前記発現プロファイルを発現プロファイルの前記複数のクラスタにクラスタリングすることは、
前記複数の細胞の前記発現プロファイル間の前記距離に基づいて、前記複数の細胞の前記発現プロファイルを階層的にクラスタリングして、前記複数の細胞の前記発現プロファイルを表す系統樹を生成することであって、前記系統樹は複数のクラスタを含み、前記複数のクラスタはルートクラスタ、複数のリーフクラスタ、及び複数の非ルート非リーフクラスタを含む、階層的にクラスタリングして、系統樹を生成すること
を含む、前記〔36〕~〔39〕のいずれか一項に記載の方法。
〔41〕前記複数のリーフクラスタ及び前記複数の非ルート非リーフクラスタのそれぞれは、親クラスタとの関連性を有し、
前記ルートクラスタ及び前記複数の非ルート非リーフクラスタのそれぞれは、左子クラスタ及び右子クラスタとの関連性を有し、前記クラスタの前記左子クラスタ及び前記右子クラスタによって表される発現プロファイルを表し、
前記ルートクラスタは、前記複数の細胞の前記発現プロファイルを表す、前記〔40〕に記載の方法。
〔42〕2つ以上の子クラスタを有する各クラスタについて、前記2つ以上の子クラスタとの前記クラスタ間の関連性が無効である場合、前記クラスタを統合クラスタセットに追加することは、
前記系統樹の前記ルートクラスタから前記系統樹の各クラスタを通して前記系統樹の前記複数のリーフクラスタにトラバースする間、
(1)前記クラスタと前記クラスタの前記子クラスタとの関連性が有効であるか、それとも無効であるかを判断することと、
(2)前記関連性が無効である場合、前記クラスタを統合クラスタセットに追加することと、
を含む、前記〔40〕又は〔41〕に記載の方法。
〔43〕(a)において、前記複数の細胞の前記発現プロファイルを受信する前、
(f)複数のバーコードを使用して前記複数の細胞内の前記複数の標的をバーコーディングして、複数のバーコード付き標的を作成することであって、前記複数のバーコードのそれぞれは、細胞標識及び分子標識を含み、異なる細胞の標的から作成されるバーコード付き標的は、異なる細胞標識を有し、前記複数の細胞の1つの細胞の標的から作成されるバーコード付き標的は、異なる分子標識を有する、バーコーディングして複数のバーコード付き標的を作成することと、
(g)前記複数のバーコード付き標的の配列データを取得することと、
(h)前記複数の細胞のそれぞれについて、
(1)前記細胞の前記配列データ内の前記複数の標的の各標的に関連付けられた別個の配列を有する分子標識の数をカウントすることと、
(2)(h)(1)においてカウントされた前記配列データ内の前記標的に関連付けられた別個の配列を有する分子標識の数に基づいて、前記細胞の前記複数の標的の各標的の数を推定することと、
を含む、を含む、前記〔36〕~〔42〕に記載の方法。
〔44〕前記複数の細胞のうちの前記細胞の前記発現プロファイルは、(h)(2)において推定された前記細胞の前記複数の標的の各標的の数を含む、前記〔43〕に記載の方法。
〔45〕(b)において、前記複数の細胞の前記発現プロファイル間の距離に基づいて、前記複数の細胞の前記発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成する前、
(i)前記複数の細胞の前記発現プロファイルの距離データ構造を特定すること
を含む、前記〔36〕~〔44〕のいずれか一項に記載の方法。
〔46〕前記距離データ構造は、前記複数の細胞の前記発現プロファイルの距離マトリックスを含む、前記〔45〕に記載の方法。
〔47〕前記距離マトリックスの各対角線要素は0の値を有する、前記〔46〕に記載の方法。
〔48〕(b)において、前記複数の細胞の前記発現プロファイル間の前記距離に基づいて、前記複数の細胞の前記発現プロファイルをクラスタリングして、発現プロファイルの前記複数のクラスタを生成することは、前記距離マトリックスに基づいて、前記複数の細胞の前記発現プロファイルをクラスタリングして、発現プロファイルの前記複数のクラスタを生成することを含む、前記〔46〕又は〔47〕に記載の方法。
〔49〕前記複数の細胞の前記発現プロファイル間の前記距離は、前記複数の細胞の前記発現プロファイル間のペア毎の相関距離である、前記〔45〕~〔48〕のいずれか一項に記載の方法。
〔50〕(i)において前記距離データ構造を特定する前、前記標的カウントデータ構造を対数変換済み標的カウントデータ構造に対数変換することを含み、
前記標的カウントデータ構造の要素の前記距離データ構造を特定することは、前記対数変換済み標的カウントデータ構造の前記距離データ構造を特定することを含み、
(b)において、前記複数の細胞の前記発現プロファイル間の前記距離に基づいて、前記複数の細胞の前記発現プロファイルをクラスタリングして、発現プロファイルの前記複数のクラスタを生成することは、前記対数変換済み標的カウントデータ構造及び前記距離データ構造に基づいて、前記複数の細胞の前記発現プロファイルをクラスタリングして、前記複数のクラスタを生成することを含む、前記〔45〕~〔49〕のいずれか一項に記載の方法。
〔51〕前記標的カウントデータ構造を前記対数変換済み標的カウントデータ構造に対数変換することは、前記標的カウントデータ構造の各要素の値を増分によって増大させることを含む、前記〔50〕に記載の方法。
〔52〕前記増分は1である、前記〔51〕に記載の方法。
〔53〕(b)において、前記複数の細胞の前記発現プロファイル間の距離に基づいて前記複数の細胞の前記発現プロファイルをクラスタリングすることは、
前記複数の細胞の各発現プロファイルを異なるリーフクラスタに割り当てることと、
第2のクラスタが第1のクラスタへの前記複数のクラスタの最近傍クラスタである場合、前記複数のクラスタの前記第1のクラスタ及び前記第2のクラスタを繰り返し結合して、前記第1のクラスタ及び前記第2のクラスタの親クラスタを生成することと、
を含む、前記〔36〕~〔52〕のいずれか一項に記載の方法。
〔54〕前記第1のクラスタと前記第2のクラスタとの間の前記距離は、前記第1のクラスタによって表される任意の発現プロファイルと、前記第2のクラスタによって表される任意の発現プロファイルとの間の最大距離である、前記〔53〕に記載の方法。
〔55〕前記第1のクラスタのクラスタ内相関及び前記第2のクラスタのクラスタ内相関の少なくとも一方は、前記第1のクラスタと前記第2のクラスタとのクラスタ間相関よりも高い、前記〔53〕又は〔54〕に記載の方法。
〔56〕前記第1のクラスタのクラスタ内相関及び前記第2のクラスタのクラスタ内相関の指示は、前記第1のクラスタと前記第2のクラスタとのクラスタ間相関よりも高い、前記〔15〕又は〔16〕に記載の方法。
〔57〕前記第1のクラスタのクラスタ内相関及び前記第2のクラスタのクラスタ内相関の指示は、
前記第1のクラスタ及び前記第2のクラスタのクラスタ内最大相関、
前記第1のクラスタ及び前記第2のクラスタのクラスタ内平均相関、
前記第1のクラスタ及び前記第2のクラスタのクラスタ内メジアン相関、
前記第1のクラスタ及び前記第2のクラスタのクラスタ内最小相関、
それらの任意の組合せ
の少なくとも1つに基づく、前記〔17〕又は〔18〕に記載の方法。
〔58〕前記第1のクラスタの前記クラスタ内相関は、
前記第1のクラスタのクラスタ内最大相関、
前記第1のクラスタのクラスタ内平均相関、
前記第1のクラスタのクラスタ内メジアン相関、
前記第1のクラスタのクラスタ内最小相関、
それらの任意の組合せ
の少なくとも1つに基づく、前記〔17〕~〔19〕のいずれか一項に記載の方法。
〔59〕前記第2のクラスタの前記クラスタ内相関は、
前記第2のクラスタのクラスタ内最大相関、
前記第2のクラスタのクラスタ内平均相関、
前記第2のクラスタのクラスタ内メジアン相関、
前記第2のクラスタのクラスタ内最小相関、
それらの任意の組合せ
の少なくとも1つに基づく、前記〔17〕~〔20〕のいずれか一項に記載の方法。
〔60〕前記第1のクラスタと前記第2のクラスタとの前記クラスタ間相関は、
前記第1のクラスタと前記第2のクラスタとのクラスタ間最大相関、
前記第1のクラスタと前記第2のクラスタとのクラスタ間平均相関、
前記第1のクラスタと前記第2のクラスタとのクラスタ間メジアン相関、
前記第1のクラスタと前記第2のクラスタとのクラスタ間最小相関、
それらの任意の組合せ
の少なくとも1つに基づく、前記〔17〕~〔21〕のいずれか一項に記載の方法。
〔61〕前記系統樹の前記複数のクラスタをトラバースする際、各クラスタにおいて、
前記関連性が有効である場合、前記クラスタから前記クラスタの前記左子クラスタ及び前記クラスタの前記右子クラスタに引き続きトラバースすることと、
前記関連性が無効である場合、前記クラスタから前記クラスタの前記左子クラスタ及び前記クラスタの前記右子クラスタへのトラバースを停止することと、
を含む、前記〔42〕~〔54〕のいずれか一項に記載の方法。
〔62〕前記クラスタの前記子クラスタとの前記クラスタの前記関連性が有効であるか、それとも無効であるかを判断することは、
前記左子クラスタと前記右子クラスタとの間の距離が関連性閾値を超える場合、前記関連性を有効と判断することと、
その他の場合、無効と判断することと、
を含む、前記〔42〕~〔61〕のいずれか一項に記載の方法。
〔63〕前記左子クラスタと前記右子クラスタとの間の距離は、前記左子クラスタ及び前記右子クラスタによって表される発現プロファイル間の前記複数の標的の各標的で実行される統計検定に基づいて特定される、前記〔62〕に記載の方法。
〔64〕前記統計検定はウェルチt検定を含む、前記〔63〕に記載の方法。
〔65〕前記左子クラスタと前記右子クラスタとの間の距離は、前記左子クラスタによって表される発現プロファイルと前記右子クラスタによって表される各発現プロファイルとの間の前記複数の標的の各標的に対して実行される前記統計検定の最大p値に基づいて特定される、前記〔63〕又は〔64〕に記載の方法。
〔66〕前記系統樹の前記複数のクラスタをトラバースする際、各クラスタにおいて、(3)前記クラスタが1つの細胞の発現プロファイルを表す場合、前記クラスタを前記統合クラスタセットに追加することを含む、前記〔42〕~〔65〕のいずれか一項に記載の方法。
〔67〕前記系統樹の前記複数のクラスタをトラバースする際、各クラスタにおいて、前記クラスタ標識を前記クラスタに割り当てることを含む、前記〔42〕~〔66〕のいずれか一項に記載の方法。
〔68〕前記クラスタが1つの細胞の発現プロファイルを表す場合、前記クラスタの前記クラスタ標識は、1つの細胞名称を含み、
その他の場合、前記クラスタが前記親クラスタの前記左子クラスタであるとき、前記クラスタの前記クラスタ標識は、前記親クラスタの前記クラスタ標識及び左名称を含み、
その他のとき、前記クラスタの前記クラスタ標識は、前記親クラスタの前記クラスタ標識及び右名称を含む、前記〔67〕に記載の方法。
〔69〕前記統合クラスタセット内の各クラスタについて、前記クラスタによって表される前記細胞の前記複数の標的の前記発現プロファイルに基づいて前記細胞タイプを区別する前記標的を識別することは、
前記細胞タイプを区別する前記標的に関連付けられた別個の配列を有する分子標識数を単位として、前記クラスタによって表される発現プロファイルと、前記統合クラスタセット内の別のクラスタによって表される発現プロファイルとの差が有意な閾値よりも大きいと判断すること
を含む、前記〔36〕~〔68〕のいずれか一項に記載の方法。
〔70〕(d)において前記第1のクラスタを前記第2のクラスタと統合して、前記統合クラスタを生成する前、
第3のクラスタと第4のクラスタとの間の距離がクラスタ距離閾値内にある場合、1つの細胞の発現プロファイルを表す前記統合クラスタセット内の前記第3のクラスタのそれぞれを前記統合クラスタセット内の前記第4のクラスタと統合すること
を含む、前記〔36〕~〔69〕のいずれか一項に記載の方法。
〔71〕前記細胞の発現プロファイルを表す前記統合クラスタセット内の前記クラスタに基づいて前記複数の細胞を分類することを含む、前記〔36〕~〔70〕のいずれか一項に記載の方法。
〔72〕識別された細胞タイプを区別する前記標的に基づいて全体トランスクリプトームアッセイを指定することを含む、前記〔36〕~〔71〕のいずれか一項に記載の方法。
〔73〕識別された細胞タイプを区別する前記標的に基づいて、標的とされるトランスクリプトームアッセイを指定することを含む、前記〔36〕~〔71〕のいずれか一項に記載の方法。
〔74〕標的の数を特定するコンピュータシステムであって、
ハードウェアプロセッサと、
命令が記憶された非一時的メモリであって、前記命令は、前記ハードウェアプロセッサによって実行されると、前記プロセッサに、前記〔1〕~〔73〕のいずれか一項に記載の方法を実行させる、非一時的メモリと、
を備える、コンピュータシステム。
〔75〕前記〔1〕~〔73〕のいずれか一項に記載の方法を実行する方法を実行するコードを含むコンピュータ可読媒体。