IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アルゲン バイオテクノロジーズ,インク.の特許一覧

特表2022-538082標的遺伝子を特定するための方法およびシステム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-08-31
(54)【発明の名称】標的遺伝子を特定するための方法およびシステム
(51)【国際特許分類】
   G16B 30/00 20190101AFI20220824BHJP
   C12Q 1/02 20060101ALI20220824BHJP
   C12Q 1/6869 20180101ALI20220824BHJP
   C12N 15/09 20060101ALI20220824BHJP
   C12N 5/071 20100101ALN20220824BHJP
   C12N 5/09 20100101ALN20220824BHJP
   C12N 5/10 20060101ALN20220824BHJP
【FI】
G16B30/00
C12Q1/02
C12Q1/6869 Z
C12N15/09 100
C12N15/09 110
C12N5/071
C12N5/09
C12N5/10
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021576276
(86)(22)【出願日】2020-06-18
(85)【翻訳文提出日】2022-02-21
(86)【国際出願番号】 US2020038435
(87)【国際公開番号】W WO2020257455
(87)【国際公開日】2020-12-24
(31)【優先権主張番号】62/865,033
(32)【優先日】2019-06-21
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ANDROID
(71)【出願人】
【識別番号】521555812
【氏名又は名称】アルゲン バイオテクノロジーズ,インク.
(74)【代理人】
【識別番号】100082072
【弁理士】
【氏名又は名称】清原 義博
(72)【発明者】
【氏名】ナイト,スペンサー チャールズ
(72)【発明者】
【氏名】フアン,チュン-ハオ
【テーマコード(参考)】
4B063
4B065
【Fターム(参考)】
4B063QA08
4B063QA13
4B063QA17
4B063QA19
4B063QQ08
4B063QQ28
4B063QQ42
4B063QQ52
4B063QQ62
4B063QR08
4B063QR32
4B063QR35
4B063QR42
4B063QR77
4B063QS03
4B063QS25
4B063QS34
4B063QS36
4B063QS38
4B063QX02
4B065AA91X
4B065CA46
(57)【要約】
【解決手段】本開示は、治療標的化するゲノム領域を特定するための方法およびシステムを提供する。ある表現型の状態から別の表現型の状態への細胞のリプログラミングを促進し得る、治療標的化する1つ以上のゲノム領域を特定するための方法は、ある細胞型の複数の疾患細胞と複数の正常細胞のシングルセルRNA-seqデータを提供する工程と、複数の疾患細胞と複数の正常細胞のシングルセルRNA-seqデータを、細胞型の複数の表現型の状態に対応する潜在空間にマッピングする工程と、治療標的化する1つ以上のゲノム領域を、潜在空間のトポロジーに少なくとも部分的に基づいて特定する工程と、治療標的化する1つ以上のゲノム領域を電子的に出力する工程と、を含み得る。
【選択図】図1
【特許請求の範囲】
【請求項1】
ある表現型の状態から別の表現型の状態への細胞のリプログラミングを促進する1つ以上のゲノム領域を特定するための方法であって、前記方法は、
ある細胞型の複数の疾患細胞と複数の正常細胞のシングルセルリボ核酸(RNA)シーケンスデータを提供する工程と、
前記複数の疾患細胞と前記複数の正常細胞の前記シングルセルRNAシーケンスデータを、前記細胞型の複数の表現型の状態に対応する潜在空間にマッピングする工程と、
前記複数の表現型の状態のうちの第1の表現型の状態と第2の表現型の状態の間の前記細胞型のリプログラミングを促進する前記1つ以上のゲノム領域を、前記潜在空間のトポロジーに少なくとも部分的に基づいて特定する工程であって、前記1つ以上のゲノム領域は、編集されて、前記第1の表現型の状態と前記第2の表現型の状態の間の前記細胞型の前記リプログラミングを促進するように構成される、工程と、
前記1つ以上のゲノム領域を電子的に出力する工程と、
を含む、方法。
【請求項2】
前記マッピングする工程は、次元削減アルゴリズムを使用する工程を含む、請求項1に記載の方法。
【請求項3】
前記次元削減アルゴリズムは、均一多様体近似および射影(UMAP)アルゴリズムを含む、請求項2に記載の方法。
【請求項4】
前記UMAPアルゴリズムは、教師ありUMAPアルゴリズムである、請求項3に記載の方法。
【請求項5】
前記教師ありUMAPアルゴリズムは、前記細胞型の純粋な細胞のシングルセルRNAシーケンスデータで学習されている、請求項4に記載の方法。
【請求項6】
前記UMAPアルゴリズムは、約0.025~0.25の最小距離を使用して学習されている、請求項4に記載の方法。
【請求項7】
前記特定する工程は、
前記第1の表現型の状態と前記第2の表現型の状態との間の最尤推論される進行軌跡を構築するために、前記潜在空間に非線型の細胞軌跡の再構築を行うことと、
前記第1の表現型の状態と前記第2の表現型の状態の間の前記細胞型のリプログラミングを促進する前記1つ以上のゲノム領域を特定するために、前記最尤推論される進行軌跡に基づいて確率推論を使用することと、
を含む、請求項1に記載の方法。
【請求項8】
前記非線型の細胞軌跡の再構築を行うことは、前記潜在空間にグラフ逆埋め込みアルゴリズムを適用することを含む、請求項7に記載の方法。
【請求項9】
前記第1の表現型の状態は癌であり、前記第2の表現型の状態は野生型の状態である、請求項1に記載の方法。
【請求項10】
前記マッピングする工程の前に、前記複数の疾患細胞と前記複数の正常細胞の前記シングルセルRNAシーケンスデータから低頻度のゲノム領域を取り除く工程をさらに含む、請求項1に記載の方法。
【請求項11】
前記1つ以上のゲノム領域のそれぞれのゲノム領域において、前記第1の表現型の状態と前記第2の表現型の状態の間の前記細胞型の細胞の前記リプログラミングを促進するように、ゲノム編集手段を使用して前記それぞれのゲノム領域を編集する工程をさらに含む、請求項1に記載の方法。
【請求項12】
前記ゲノム編集手段は、CRISPR系、CRISPRi系、CRISPRa系、RNAi系およびshRNA系からなる群から選択される、請求項11に記載の方法。
【請求項13】
前記ゲノム編集手段を使用して前記それぞれのゲノム領域を編集する工程の結果として生じる前記細胞の前記潜在空間のずれ量を、異常検出アルゴリズムを使用して測定する工程をさらに含む、請求項11に記載の方法。
【請求項14】
前記異常検出アルゴリズムは、複数の細胞型の潜在空間のプロファイルで学習されている、請求項13に記載の方法。
【請求項15】
前記複数の細胞型は、膵管細胞、膵腺房細胞、膵臓腺癌および/または膵臓腺癌を含む、請求項14に記載の方法。
【請求項16】
前記異常検出アルゴリズムは、密度に基づく手法、部分空間に基づく外れ値検出、相関に基づく外れ値検出、テンソルに基づく外れ値検出、サポートベクターマシン(SVM)、単一クラスベクターマシン、サポートベクターデータ記述、ニューラルネットワーク、ベイジアンネットワーク、隠れマルコフモデル(HMM)、クラスター解析に基づく外れ値検出、相関ルールおよび頻出アイテムセットのずれ、ファジー理論に基づく外れ値検出ならびにアンサンブル手法のうちの1つ以上を含む、請求項13に記載の方法。
【請求項17】
前記異常検出アルゴリズムは、サポートベクターマシン(SVM)、密度に基づく手法、k近傍アルゴリズム、局所外れ値因子アルゴリズムまたは隔離フォレストアルゴリズムである、請求項16に記載の方法。
【請求項18】
前記ゲノム編集手段を使用して前記それぞれのゲノム領域を編集する工程の結果として生じる前記細胞の前記潜在空間のずれのユークリッド距離を測定する工程をさらに含む、請求項11に記載の方法。
【請求項19】
前記第1の表現型の状態と前記第2の表現型の状態の間の前記細胞型のそれぞれの細胞の前記リプログラミングを促進するために、前記ゲノム編集手段を使用して前記1つ以上のゲノム領域の各々を編集する工程と、
前記ゲノム編集手段を使用して前記それぞれのゲノム領域を編集する工程の結果として生じる前記細胞の各々の前記潜在空間のずれ量を測定する工程と、
測定された前記ずれ量を使用して、治療標的化するための前記1つ以上の遺伝子を順位付ける工程と、
をさらに含む、請求項11に記載の方法。
【請求項20】
前記ゲノム編集手段を使用して前記それぞれのゲノム領域を編集する工程の結果として生じる前記細胞の前記潜在空間のずれ量を、密度推定関数を使用して測定する工程をさらに含む、請求項11に記載の方法。
【請求項21】
前記細胞型は、膵細胞である、請求項1に記載の方法。
【請求項22】
前記疾患細胞は、癌細胞である、請求項1に記載の方法。
【請求項23】
前記複数の疾患細胞および前記複数の正常細胞は、初代細胞系、ヒトオルガノイドおよび動物モデルからなる群から選択される、請求項1に記載の方法。
【請求項24】
ある細胞型の複数の疾患細胞と複数の正常細胞の前記シングルセルRNAシーケンスデータを生成する工程をさらに含む、請求項1に記載の方法。
【請求項25】
前記第2の表現型の状態は、中間の状態である、請求項1に記載の方法。
【請求項26】
前記中間の状態は、前癌状態または低悪性度状態である、請求項25に記載の方法。
【請求項27】
前記第1の表現型の状態に関連する疾患を治療するために、1つ以上の治療標的を前記1つ以上のゲノム領域に基づいて特定する工程をさらに含む、請求項1に記載の方法。
【請求項28】
前記複数の表現型の状態のうちの第1の表現型の状態と中間の表現型の状態の間の前記細胞型のリプログラミングを促進する1つ以上の第1のゲノム領域を、前記潜在空間のトポロジーに少なくとも部分的に基づいて特定する工程であって、前記1つ以上の第1のゲノム領域は、編集されて、前記第1の表現型の状態と前記中間の表現型の状態の間の前記細胞型のリプログラミングを促進するように構成される、工程と、
前記複数の表現型の状態のうちの前記中間の表現型の状態と前記第2の表現型の状態の間の前記細胞型のリプログラミングを促進する1つ以上の第2のゲノム領域を、前記潜在空間のトポロジーに少なくとも部分的に基づいて特定する工程であって、前記1つ以上の第2のゲノム領域は、編集されて、前記中間の表現型の状態と前記第2の表現型の状態の間の前記細胞型のリプログラミングを促進するように構成される、工程と、
をさらに含む、請求項1に記載の方法。
【請求項29】
ある表現型の状態から別の表現型の状態への細胞のリプログラミングを促進する1つ以上のゲノム領域を特定するための方法であって、前記方法は、
ある細胞型の複数の疾患細胞と複数の正常細胞のシングルセルリボ核酸(RNA)シーケンスデータを提供する工程と、
教師あり次元削減アルゴリズムを使用して、前記複数の疾患細胞と前記複数の正常細胞の前記シングルセルRNAシーケンスデータを、前記細胞型の複数の表現型の状態に対応する潜在空間にマッピングする工程と、
前記複数の表現型の状態のうちの第1の表現型の状態と第2の表現型の状態の間の前記細胞型のリプログラミングを促進する前記1つ以上のゲノム領域を、前記潜在空間のトポロジーに少なくとも基づいて特定する工程であって、前記1つ以上のゲノム領域は、編集されて、前記第1の表現型の状態と前記第2の表現型の状態の間の前記細胞型の前記リプログラミングを促進するように構成される、工程と、
前記1つ以上のゲノム領域を電子的に出力する工程と、
前記1つ以上のゲノム領域のそれぞれのゲノム領域において、前記第1の表現型の状態と前記第2の表現型の状態の間の前記細胞型の細胞の前記リプログラミングを促進するように、ゲノム編集手段を使用して前記それぞれのゲノム領域を編集する工程と、
前記ゲノム編集手段を使用して前記それぞれのゲノム領域を編集する工程の結果として生じる前記細胞の前記潜在空間のずれ量を、異常検出アルゴリズムを使用して測定する工程と、
を含む、方法。
【請求項30】
前記教師あり次元削減アルゴリズムは、変分オートエンコーダである、請求項29に記載の方法。
【請求項31】
ある表現型の状態から別の表現型の状態への細胞のリプログラミングを促進する1つ以上のゲノム領域を特定するためのシステムであって、前記システムは、
ある細胞型の複数の疾患細胞と複数の正常細胞のシングルセルリボ核酸(RNA)シーケンスデータを含むデータベースと、
1つ以上のコンピュータプロセッサであって、前記1つ以上のコンピュータプロセッサは、
前記複数の疾患細胞と前記複数の正常細胞の前記シングルセルRNAシーケンスデータを、前記細胞型の複数の表現型の状態に対応する潜在空間にマッピングすることと、
前記複数の表現型の状態のうちの第1の表現型の状態と第2の表現型の状態の間の前記細胞型のリプログラミングを促進する前記1つ以上のゲノム領域を、前記潜在空間のトポロジーに少なくとも部分的に基づいて特定することであって、前記1つ以上のゲノム領域は、編集されて、前記第1の表現型の状態と前記第2の表現型の状態の間の前記細胞型の前記リプログラミングを促進するように構成される、特定することと、
前記1つ以上のゲノム領域を電子的に出力することと、
を行うように個別にまたは集合的にプログラムされる、1つ以上のコンピュータプロセッサと、
を含む、システム。
【請求項32】
前記マッピングすることは、次元削減アルゴリズムを使用することを含む、請求項31に記載のシステム。
【請求項33】
前記次元削減アルゴリズムは、均一多様体近似および射影(UMAP)アルゴリズムを含む、請求項32に記載のシステム。
【請求項34】
1つ以上のコンピュータプロセッサによって実行されると、ある表現型の状態から別の表現型の状態への細胞のリプログラミングを促進する1つ以上のゲノム領域を特定するための方法を実施する機械実行可能なコードを含む非一時的なコンピュータ可読媒体であって、前記方法は、
ある細胞型の複数の疾患細胞と複数の正常細胞のシングルセルリボ核酸(RNA)シーケンスデータを提供する工程と、
前記複数の疾患細胞と前記複数の正常細胞の前記シングルセルRNAシーケンスデータを、前記細胞型の複数の表現型の状態に対応する潜在空間にマッピングする工程と、
前記複数の表現型の状態のうちの第1の表現型の状態と第2の表現型の状態の間の前記細胞型のリプログラミングを促進する前記1つ以上のゲノム領域を、前記潜在空間のトポロジーに少なくとも部分的に基づいて特定する工程であって、前記1つ以上のゲノム領域は、編集されて、前記第1の表現型の状態と前記第2の表現型の状態の間の前記細胞型の前記リプログラミングを促進するように構成される、工程と、
前記1つ以上のゲノム領域を電子的に出力する工程と、
を含む、非一時的なコンピュータ可読媒体。
【請求項35】
前記マッピングする工程は、次元削減アルゴリズムを使用することを含む、請求項34に記載のシステム。
【請求項36】
前記次元削減アルゴリズムは、均一多様体近似および射影(UMAP)アルゴリズムを含む、請求項35に記載のシステム。
【請求項37】
ある表現型の状態から別の表現型の状態への細胞のリプログラミングを促進する1つ以上のゲノム領域を特定するためのシステムであって、前記システムは、
ある細胞型の複数の疾患細胞と複数の正常細胞のシングルセルリボ核酸(RNA)シーケンスデータを含むデータベースと、
1つ以上のコンピュータプロセッサであって、前記1つ以上のコンピュータプロセッサは、
教師あり次元削減アルゴリズムを使用して、前記複数の疾患細胞と前記複数の正常細胞の前記シングルセルRNAシーケンスデータを、前記細胞型の複数の表現型の状態に対応する潜在空間にマッピングすることと、
前記複数の表現型の状態のうちの第1の表現型の状態と第2の表現型の状態の間の前記細胞型のリプログラミングを促進する前記1つ以上のゲノム領域を、前記潜在空間のトポロジーに少なくとも基づいて特定することであって、前記1つ以上のゲノム領域は、編集されて、前記第1の表現型の状態と前記第2の表現型の状態の間の前記細胞型の前記リプログラミングを促進するように構成される、特定することと、
前記1つ以上のゲノム領域を電子的に出力することと、
前記1つ以上のゲノム領域のそれぞれのゲノム領域において、前記第1の表現型の状態と前記第2の表現型の状態の間の前記細胞型の細胞の前記リプログラミングを促進するように、ゲノム編集手段を使用して前記それぞれのゲノム領域を編集することと、
前記ゲノム編集手段を使用して前記それぞれのゲノム領域を編集することの結果として生じる前記細胞の前記潜在空間のずれ量を、異常検出アルゴリズムを使用して測定することと、
を行うように個別にまたは集合的にプログラムされる、1つ以上のコンピュータプロセッサと、
を含む、システム。
【請求項38】
1つ以上のコンピュータプロセッサによって実行されると、ある表現型の状態から別の表現型の状態への細胞のリプログラミングを促進する1つ以上のゲノム領域を特定するための方法を実施する機械実行可能なコードを含む非一時的なコンピュータ可読媒体であって、前記方法は、
ある細胞型の複数の疾患細胞と複数の正常細胞のシングルセルリボ核酸(RNA)シーケンスデータを提供する工程と、
教師あり次元削減アルゴリズムを使用して、前記複数の疾患細胞と前記複数の正常細胞の前記シングルセルRNAシーケンスデータを、前記細胞型の複数の表現型の状態に対応する潜在空間にマッピングする工程と、
前記複数の表現型の状態のうちの第1の表現型の状態と第2の表現型の状態の間の前記細胞型のリプログラミングを促進する前記1つ以上のゲノム領域を、前記潜在空間のトポロジーに少なくとも基づいて特定する工程であって、前記1つ以上のゲノム領域は、編集されて、前記第1の表現型の状態と前記第2の表現型の状態の間の前記細胞型の前記リプログラミングを促進するように構成される、工程と、
前記1つ以上のゲノム領域を電子的に出力する工程と、
前記1つ以上のゲノム領域のそれぞれのゲノム領域において、前記第1の表現型の状態と前記第2の表現型の状態の間の前記細胞型の細胞の前記リプログラミングを促進するように、ゲノム編集手段を使用して前記それぞれのゲノム領域を編集する工程と、
前記ゲノム編集手段を使用して前記それぞれのゲノム領域を編集する工程の結果として生じる前記細胞の前記潜在空間のずれ量を、異常検出アルゴリズムを使用して測定する工程と、
を含む、非一時的なコンピュータ可読媒体。
【請求項39】
治療標的化するための1つ以上のゲノム領域を特定するための方法であって、前記方法は、
ある細胞型の複数の疾患細胞と複数の正常細胞のシングルセルリボ核酸(RNA)シーケンスデータを提供する工程と、
前記複数の疾患細胞と前記複数の正常細胞の前記シングルセルRNAシーケンスデータを、潜在空間にマッピングする工程と、
治療標的化するための前記1つ以上のゲノム領域を、前記潜在空間のトポロジーに少なくとも部分的に基づいて特定する工程と、
治療標的を特定するために前記1つ以上のゲノム領域を電子的に出力する工程と、
を含む、方法。
【請求項40】
前記マッピングする工程は、次元削減アルゴリズムを使用することを含む、請求項39に記載の方法。
【請求項41】
前記次元削減アルゴリズムは、均一多様体近似および射影(UMAP)アルゴリズムを含む、請求項40に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2019年6月21日に出願された米国特許出願第62/865,033号の利益を主張するものであり、当該出願の全体は、参照により本明細書に組み込まれる。
【背景技術】
【0002】
治療用途において、細胞をある分化した状態から別の分化した状態に変換する機能が大いに期待され得る。しかし、細胞のリプログラミングへの期待があるにもかかわらず、多くの治療関連用途において、ある細胞の状態と別の細胞の状態の間の遷移を媒介し得る遺伝的駆動因子の特定に、依然として困難がある。リプログラミングの表現型は複雑なものであり得、階層的な非線形様式で互いに相互作用する多くの遺伝子が関与し得る。あるプロセスにおいて、これらの遺伝子のうちの何れが因果対相関であるかを解するのは困難な作業であり得、関心対象の各遺伝子において、広範かつ時間のかかる実験アッセイや動物モデルが必要となり得る。
【発明の概要】
【0003】
ある表現型の状態から別の表現型の状態への細胞のリプログラミングを促進し得る、治療標的化するゲノム領域を特定する、改善された方法に対する必要が、本明細書で認められる。本明細書で提示される方法およびシステムは、ある表現型の状態から別の表現型の状態への細胞のリプログラミングを促進し得る、治療標的化するこのようなゲノム領域を特定する効率、精度および/またはスループットを大幅に上昇し得る。
【0004】
本開示は概して、ある分化した状態から別の分化した状態への細胞の転写リプログラミングを定量するための方法およびシステムに関する。特に、当該技術は、表現型が異なる細胞の状態間のリプログラミングを媒介する可能性があり得るか、および/または、効果的な治療標的として選択される可能性があり得る、関連する標的遺伝子を特定するための、高含量、高効率かつハイスループットのCRISPR(規則的な間隔をもってクラスター化された短鎖反復回文配列(clustered regularly interspaced short palindromic repeats))スクリーニング法に関する。これらのスクリーニングは、異常検出モデルを活用して、CRISPRによって標的となった各遺伝子の測定可能な表現型としてリプログラミングを定量し得る。本開示の方法およびシステムは、関心対象の疾患兆候に関連するバイオマーカーと治療標的とを選択する基準としてリプログラミングの定量を確立し得る。
【0005】
一態様では、本開示は、分化した、あるいは表現型が異なる細胞集団間の転写遷移(「リプログラミング」)を定量するための方法を提供する。当該方法は、(a)異なる細胞集団のシングルセルRNA-seqをプロファイルすることと、(b)トポロジー表現の潜在空間に、シングルセルRNA-seqのプロファイルを教師あり次元削減することと、(c)システム生物学的手法によって、細胞集団間の遷移を媒介する内在性の遺伝的駆動因子(「遺伝子」)を特定することと、(d)プール型CRISPR編集実験によって、潜在的な遺伝的駆動因子を照合することと、(e)照合された各遺伝的駆動因子について、ある異なる表現型の状態から他の異なる表現型の状態へと転写リプログラミングする程度を定量する異常検出方法を適用することと、を含み得る。
【0006】
別の態様では、本開示は、様々な疾患の兆候に対するバイオマーカーと潜在的な治療標的遺伝子とを特定するための方法を提供する。当該方法は、(a)適切な疾患と標的細胞集団とを特定することと、(b)上述の疾患と標的細胞集団の間の遷移を媒介する潜在的な遺伝的駆動因子を特定することと、(c)上述の遺伝的駆動因子の各々のリプログラミングを定量することと、を含み得る。他の実施形態では、複数のバイオマーカーまたは標的遺伝子は、複数の遺伝子の組み合わせ阻害または活性化によって特定できる。
【0007】
いくつかの実施形態では、細胞集団は、健康体、あるいは関心対象の兆候に対応する疾患患者の関連する組織に由来するものである。他の実施形態では、細胞集団は、初代細胞系、ヒトオルガノイド、動物モデル、または他の適切なモデル系に由来するものである。場合によっては、疾患細胞集団は、関心対象の遺伝子の特定の変異などの、特定の遺伝子型シグネチャを特徴とする。
【0008】
いくつかの実施形態では、標的細胞集団は、健康組織、野生型初代細胞系、オルガノイド、動物モデル、または他の適切なモデル系に由来した完全に分化した状態に対応する。他の実施形態では、標的細胞集団は、疾患の進行に関連する幹細胞、前癌細胞、老化細胞、また前駆細胞などの中間の状態に対応する。
【0009】
いくつかの実施形態では、CRISPR系は、CRISPR(例えば活性Cas9)、CRISPRi(例えばCRISPR干渉、KRABを含む転写抑制ペプチドと融合した、触媒的に不活性なCas9)、CRISPRa(例えばCRISPR活性、VPR(HIVウイルスタンパク質R)を含む転写活性化因子ペプチドと融合した、触媒的に不活性なCas9)、RNAi、およびshRNAからなる群から選択される。
【0010】
本明細書に記載の別の態様は、ある表現型の状態から別の表現型の状態への細胞のリプログラミングを促進する1つ以上のゲノム領域を特定するための方法であって、前記方法は、ある細胞型の複数の疾患細胞と複数の正常細胞のシングルセルリボ核酸(RNA)シーケンスデータを提供する工程と、前記複数の疾患細胞と前記複数の正常細胞の前記シングルセルRNAシーケンスデータを、前記細胞型の複数の表現型の状態に対応する潜在空間にマッピングする工程と、前記複数の表現型の状態のうちの第1の表現型の状態と第2の表現型の状態の間の細胞型のリプログラミングを促進する前記1つ以上のゲノム領域を、前記潜在空間のトポロジーに少なくとも部分的に基づいて特定する工程であって、前記1つ以上のゲノム領域は、編集されて、前記第1の表現型の状態と前記第2の表現型の状態の間の前記細胞型の前記リプログラミングを促進するように構成される、工程と、前記1つ以上のゲノム領域を電子的に出力する工程と、を含む、方法である。
【0011】
一実施形態では、前記マッピングする工程は、次元削減アルゴリズムを使用することを含む。一実施形態では、前記次元削減アルゴリズムは、均一多様体近似および射影(UMAP)アルゴリズムを含む。一実施形態では、前記UMAPアルゴリズムは、教師ありUMAPアルゴリズムである。一実施形態では、前記教師ありUMAPアルゴリズムは、前記細胞型の純粋な細胞のシングルセルRNAシーケンスデータで学習されている。一実施形態では、前記UMAPアルゴリズムは、約0.025~0.25の最小距離を使用して学習されている。
【0012】
一実施形態では、前記特定する工程は、前記第1の表現型の状態と前記第2の表現型の状態の間の最尤推論される進行軌跡を構築するために、前記潜在空間に非線型の細胞軌跡の再構築を行うことと、前記第1の表現型の状態と前記第2の表現型の状態の間の前記細胞型のリプログラミングを促進する前記1つ以上のゲノム領域を特定するために、前記最尤推論される進行軌跡に基づいて確率推論を使用することと、を含む。
【0013】
一実施形態では、前記非線型の細胞軌跡の再構築を行うことは、前記潜在空間にグラフ逆埋め込みアルゴリズムを適用することを含む。一実施形態では、前記第1の表現型の状態は癌であり、前記第2の表現型の状態は野生型の状態である。
【0014】
一実施形態では、当該方法は、前記マッピングする工程の前に、前記複数の疾患細胞と前記複数の正常細胞の前記シングルセルRNAシーケンスデータから低頻度のゲノム領域を取り除く工程をさらに含む。一実施形態では、当該方法は、前記1つ以上のゲノム領域のそれぞれのゲノム領域において、前記第1の表現型の状態と前記第2の表現型の状態の間の前記細胞型の細胞の前記リプログラミングを促進するように、ゲノム編集手段を使用して前記それぞれのゲノム領域を編集する工程をさらに含む。一実施形態では、前記ゲノム編集手段は、CRISPR系、CRISPRi系、CRISPRa系、RNAi系およびshRNA系からなる群から選択される。
【0015】
一実施形態では、当該方法は、前記ゲノム編集手段を使用して前記それぞれのゲノム領域を編集する工程の結果として生じる前記細胞の前記潜在空間のずれ量を、異常検出アルゴリズムを使用して測定する工程をさらに含む。
【0016】
一実施形態では、前記異常検出アルゴリズムは、複数の細胞型の潜在空間のプロファイルで学習されている。一実施形態では、前記複数の細胞型は、膵管細胞、膵腺房細胞、膵臓腺癌および/または膵臓腺癌を含む。一実施形態では、前記異常検出アルゴリズムは、密度に基づく手法、部分空間に基づく外れ値検出、相関に基づく外れ値検出、テンソルに基づく外れ値検出、サポートベクターマシン(SVM)、単一クラスベクターマシン、サポートベクターデータ記述、ニューラルネットワーク、ベイジアンネットワーク、隠れマルコフモデル(HMM)、クラスター解析に基づく外れ値検出、相関ルールおよび頻出アイテムセットのずれ、ファジー理論に基づく外れ値検出ならびにアンサンブル手法のうちの1つ以上を含む。一実施形態では、前記異常検出アルゴリズムは、サポートベクターマシン(SVM)、密度に基づく手法、k近傍アルゴリズム、局所外れ値因子アルゴリズムまたは隔離フォレストアルゴリズムである。一実施形態では、前記異常検出アルゴリズムは、サポートベクターマシンである。一実施形態では、前記異常検出アルゴリズムは、隔離フォレストアルゴリズムである。
【0017】
一実施形態では、当該方法は、前記ゲノム編集手段を使用して前記それぞれのゲノム領域を編集する工程の結果として生じる前記細胞の前記潜在空間のずれの距離(例えば、チェビシェフ距離、相関距離、コサイン距離、ユークリッド距離、符号付きユークリッド距離、ハミング距離、ジャッカード距離、カルバック・ライブラ距離、マハラノビス距離、マンハッタン距離、ミンコフスキー距離、またはスピアマン距離)を測定する工程をさらに含む。一実施形態では、当該方法は、前記第1の表現型の状態と前記第2の表現型の状態の間の前記細胞型のそれぞれの細胞の前記リプログラミングを促進するために、前記ゲノム編集手段を使用して前記1つ以上のゲノム領域の各々を編集する工程と、前記ゲノム編集手段を使用して前記それぞれのゲノム領域を編集する工程の結果として生じる前記細胞の各々の前記潜在空間のずれ量を測定する工程と、測定された前記ずれ量を使用して、治療標的化するための前記1つ以上の遺伝子を順位付ける工程と、をさらに含む。
【0018】
一実施形態では、当該方法は、前記ゲノム編集手段を使用して前記それぞれのゲノム領域を編集する工程の結果として生じる前記細胞の前記潜在空間のずれ量を、密度推定関数(例えば、確率密度推定、リスケーリング後のヒストグラム、パラメトリック密度推定関数、ノンパラメトリック密度推定関数(例えばカーネル密度関数)またはデータクラスタリング手法(例えばベクトル量子化))を使用して測定する工程をさらに含む。一実施形態では、前記細胞型は、膵細胞である。一実施形態では、前記疾患細胞は、癌細胞である。一実施形態では、前記複数の疾患細胞および前記複数の正常細胞は、初代細胞系、ヒトオルガノイドおよび動物モデルからなる群から選択される。
【0019】
一実施形態では、当該方法は、ある細胞型の複数の疾患細胞と複数の正常細胞の前記シングルセルRNAシーケンスデータを生成する工程をさらに含む。一実施形態では、前記第2の表現型の状態は、中間の状態である。一実施形態では、前記中間の状態は、前癌状態または低悪性度状態である。
【0020】
一実施形態では、当該方法は、前記第1の表現型の状態に関連する疾患を治療するために、1つ以上の治療標的を前記1つ以上のゲノム領域に基づいて特定する工程をさらに含む。
【0021】
一実施形態では、当該方法は、前記複数の表現型の状態のうちの前記第1の表現型の状態と中間の表現型の状態の間の前記細胞型のリプログラミングを促進する1つ以上の第1のゲノム領域を、前記潜在空間のトポロジーに少なくとも部分的に基づいて特定する工程であって、前記1つ以上の第1のゲノム領域は、編集されて、前記第1の表現型の状態と前記中間の表現型の状態の間の前記細胞型のリプログラミングを促進するように構成される、工程と、前記複数の表現型の状態のうちの前記中間の表現型の状態と前記第2の表現型の状態の間の表現型のリプログラミングを促進する1つ以上の第2のゲノム領域を、前記潜在空間のトポロジーの少なくとも一部に基づいて特定する工程であって、前記1つ以上の第2のゲノム領域は、編集されて、前記中間の表現型の状態と前記第2の表現型の状態の間の前記細胞型のリプログラミングを促進するように構成される、工程と、をさらに含む。
【0022】
本明細書に記載の別の態様は、ある表現型の状態から別の表現型の状態への細胞のリプログラミングを促進する1つ以上のゲノム領域を特定するための方法であって、前記方法は、前記方法は、ある細胞型の複数の疾患細胞と複数の正常細胞のシングルセルリボ核酸(RNA)シーケンスデータを提供する工程と、教師あり次元削減アルゴリズムを使用して、前記複数の疾患細胞と前記複数の正常細胞の前記シングルセルRNAシーケンスデータを、前記細胞型の複数の表現型の状態に対応する潜在空間にマッピングする工程と、前記複数の表現型の状態のうちの第1の表現型の状態と第2の表現型の状態の間の細胞型のリプログラミングを促進する前記1つ以上のゲノム領域を、前記潜在空間のトポロジーに少なくとも基づいて特定する工程であって、前記1つ以上のゲノム領域は、編集されて、前記第1の表現型の状態と前記第2の表現型の状態の間の前記細胞型の前記リプログラミングを促進するように構成される、工程と、前記1つ以上のゲノム領域を電子的に出力する工程と、前記1つ以上のゲノム領域のそれぞれのゲノム領域において、前記第1の表現型の状態と前記第2の表現型の状態の間の前記細胞型の細胞の前記リプログラミングを促進するように、ゲノム編集手段を使用して前記それぞれのゲノム領域を編集する工程と、前記ゲノム編集手段を使用して前記それぞれのゲノム領域を編集する工程の結果として生じる前記細胞の前記潜在空間のずれ量を、異常検出アルゴリズムを使用して測定する工程と、を含む、方法である。一実施形態では、前記教師あり次元削減アルゴリズムは、変分オートエンコーダである。
【0023】
本明細書に記載の別の態様は、ある表現型の状態から別の表現型の状態への細胞のリプログラミングを促進する1つ以上のゲノム領域を特定するためのシステムであって、前記システムは、ある細胞型の複数の疾患細胞と複数の正常細胞のシングルセルリボ核酸(RNA)シーケンスデータを含むデータベースと、1つ以上のコンピュータプロセッサであって、前記1つ以上のコンピュータプロセッサは、前記複数の疾患細胞と前記複数の正常細胞の前記シングルセルRNAシーケンスデータを、前記細胞型の複数の表現型の状態に対応する潜在空間にマッピングすることと、前記複数の表現型の状態のうちの第1の表現型の状態と第2の表現型の状態の間の細胞型のリプログラミングを促進する前記1つ以上のゲノム領域を、前記潜在空間のトポロジーに少なくとも部分的に基づいて特定することであって、前記1つ以上のゲノム領域は、編集されて、前記第1の表現型の状態と前記第2の表現型の状態の間の前記細胞型の前記リプログラミングを促進するように構成される、特定することと、前記1つ以上のゲノム領域を電子的に出力することと、を行うように個別にまたは集合的にプログラムされる、1つ以上のコンピュータプロセッサと、を含む、システムである。
【0024】
一実施形態では、前記マッピングすることは、次元削減アルゴリズムを使用することを含む。一実施形態では、前記次元削減アルゴリズムは、均一多様体近似および射影(UMAP)アルゴリズムを含む。
【0025】
本明細書に記載の別の態様は、1つ以上のコンピュータプロセッサによって実行されると、ある表現型の状態から別の表現型の状態への細胞のリプログラミングを促進する1つ以上のゲノム領域を特定するための方法を実施する機械実行可能なコードを含む非一時的なコンピュータ可読媒体であって、前記方法は、ある細胞型の複数の疾患細胞と複数の正常細胞のシングルセルリボ核酸(RNA)シーケンスデータを提供する工程と、前記複数の疾患細胞と前記複数の正常細胞の前記シングルセルRNAシーケンスデータを、前記細胞型の複数の表現型の状態に対応する潜在空間にマッピングする工程と、前記潜在空間のトポロジーに少なくとも部分的に基づいて、複数の表現型の状態のうちの第1の表現型の状態と第2の表現型の状態の間の細胞型のリプログラミングを促進する前記1つ以上のゲノム領域を特定する工程であって、前記1つ以上のゲノム領域は、編集されて、前記第1の表現型の状態と前記第2の表現型の状態の間の前記細胞型の前記リプログラミングを促進するように構成される、工程と、前記1つ以上のゲノム領域を電子的に出力する工程と、を含む、非一時的なコンピュータ可読媒体である。
【0026】
一実施形態では、前記マッピングする工程は、次元削減アルゴリズムを使用することを含む。一実施形態では、前記次元削減アルゴリズムは、均一多様体近似および射影(UMAP)アルゴリズムを含む。
【0027】
本明細書に記載の別の態様は、ある表現型の状態から別の表現型の状態への細胞のリプログラミングを促進する1つ以上のゲノム領域を特定するためのシステムであって、前記システムは、ある細胞型の複数の疾患細胞と複数の正常細胞のシングルセルリボ核酸(RNA)シーケンスデータを含むデータベースと、1つ以上のコンピュータプロセッサであって、前記コンピュータプロセッサは、教師あり次元削減アルゴリズムを使用して、前記複数の疾患細胞と前記複数の正常細胞の前記シングルセルRNAシーケンスデータを、前記細胞型の複数の表現型の状態に対応する潜在空間にマッピングすることと、前記複数の表現型の状態のうちの第1の表現型の状態と第2の表現型の状態の間の細胞型のリプログラミングを促進する前記1つ以上のゲノム領域を、前記潜在空間のトポロジーに少なくとも基づいて特定することであって、前記1つ以上のゲノム領域は、編集されて、前記第1の表現型の状態と前記第2の表現型の状態の間の前記細胞型の前記リプログラミングを促進するように構成される、特定することと、前記1つ以上のゲノム領域を電子的に出力することと、前記1つ以上のゲノム領域のそれぞれのゲノム領域において、前記第1の表現型の状態と前記第2の表現型の状態の間の前記細胞型の細胞の前記リプログラミングを促進するように、ゲノム編集手段を使用して前記それぞれのゲノム領域を編集することと、前記ゲノム編集手段を使用して前記それぞれのゲノム領域を編集する工程の結果として生じる前記細胞の前記潜在空間のずれ量を、異常検出アルゴリズムを使用して測定することと、を行うように個別にまたは集合的にプログラムされる、1つ以上のコンピュータプロセッサと、を含む、システムである。
【0028】
本明細書に記載の別の態様は、1つ以上のコンピュータプロセッサによって実行されると、ある表現型の状態から別の表現型の状態への細胞のリプログラミングを促進する1つ以上のゲノム領域を特定するための方法を実施する機械実行可能なコードを含む非一時的なコンピュータ可読媒体であって、前記方法は、ある細胞型の複数の疾患細胞と複数の正常細胞のシングルセルリボ核酸(RNA)シーケンスデータを提供する工程と、教師あり次元削減アルゴリズムを使用して、前記複数の疾患細胞と前記複数の正常細胞の前記シングルセルRNAシーケンスデータを、前記細胞型の複数の表現型の状態に対応する潜在空間にマッピングする工程と、前記複数の表現型の状態のうちの第1の表現型の状態と第2の表現型の状態の間の細胞型のリプログラミングを促進する前記1つ以上のゲノム領域を、前記潜在空間のトポロジーに少なくとも基づいて特定する工程であって、前記1つ以上のゲノム領域は、編集されて、前記第1の表現型の状態と前記第2の表現型の状態の間の前記細胞型の前記リプログラミングを促進するように構成される、工程と、前記1つ以上のゲノム領域を電子的に出力する工程と、前記1つ以上のゲノム領域のそれぞれのゲノム領域において、前記第1の表現型の状態と前記第2の表現型の状態の間の前記細胞型の細胞の前記リプログラミングを促進するように、ゲノム編集手段を使用して前記それぞれのゲノム領域を編集する工程と、前記ゲノム編集手段を使用して前記それぞれのゲノム領域を編集する工程の結果として生じる前記細胞の前記潜在空間のずれ量を、異常検出アルゴリズムを使用して測定する工程と、を含む、非一時的なコンピュータ可読媒体である。
【0029】
本明細書に記載の別の態様は、治療標的化するための1つ以上のゲノム領域を特定するための方法であって、前記方法は、ある細胞型の複数の疾患細胞と複数の正常細胞のシングルセルリボ核酸(RNA)シーケンスデータを提供する工程と、前記複数の疾患細胞と前記複数の正常細胞の前記シングルセルRNAシーケンスデータを、潜在空間にマッピングする工程と、治療標的化するための前記1つ以上のゲノム領域を、前記潜在空間のトポロジーに少なくとも部分的に基づいて特定する工程と、治療標的を特定するための前記1つ以上のゲノム領域を電子的に出力する工程と、を含む、方法である。
【0030】
一実施形態では、前記マッピングする工程は、次元削減アルゴリズムを使用することを含む。一実施形態では、前記次元削減アルゴリズムは、均一多様体近似および射影(UMAP)アルゴリズムを含む。
【0031】
本開示の別の態様は、1つ以上のコンピュータプロセッサによって実行されると、本明細書の上記または他所の方法を実施する機械実行可能なコードを含む非一時的なコンピュータ可読媒体を提供する。
【0032】
本開示の別の態様は、1つ以上のコンピュータプロセッサと、それに接続されたコンピュータメモリと、を含む、システムを提供する。コンピュータメモリは、1つ以上のコンピュータプロセッサによって実行されると、本明細書の上記または他所の方法を実施する機械実行可能なコードを含む。
【0033】
本開示のさらなる態様および利点は、本開示の例証的な実施形態のみが示され記載されている、以下の詳細な説明から当業者に容易に明白となるであろう。認識されるように、本開示は、他の実施形態や異なる実施形態が可能であり、そのいくつかの詳細は、すべて本開示から逸脱することなく、種々の明白な点について修正を加えることが可能である。したがって、図面および説明は、本質的に例証的とみなされ、制限的とはみなされない。
【0034】
参照による組み込み
本明細書で言及されるすべての刊行物、特許および特許出願は、個々の刊行物、特許または特許出願がそれぞれ参照により本明細書に具体的かつ個別に組み込まれる場合と同じ程度に、参照により本明細書に組み込まれる。参照により組み込まれる刊行物および特許または特許出願が、本明細書に含まれる開示に矛盾する程度まで、本明細書は、あらゆるこのような矛盾した題材に取って代わるように、および/または、優先されるように意図される。
【図面の簡単な説明】
【0035】
本発明の新規な特徴を、とりわけ添付の請求の範囲に記述する。本発明の特徴および利点は、本発明の原理が利用される例証的な実施形態を記述している以下の詳細な説明、および、添付の図面(本明細書では「図(「Figure」および「FIG.」)」とも称する)を参照することによってより良い理解が得られるであろう。
図1図1は、開示の実施形態に従って、リプログラミング標的遺伝子を特定する方法を例証するフローチャートの一例を示す。
図2図2は、本明細書で提示される方法を実施するようにプログラムされるか、あるいはその他の方法で構成されるコンピュータシステムを示す。
図3A図3Aは、開示の実施形態に従って、新規な治療標的遺伝子のリプログラミングを定量する工程と、特定する工程との一例を示す。CRISPR(規則的な間隔をもってクラスター化された短鎖反復回文配列)による遺伝子の照合と、潜在空間のインテリジェント構築と、異常検出とを活用することによって、疾患細胞集団を所望の標的表現型の状態へとプログラミングする機能に従って、標的遺伝子を定量する。標的の状態は、健康組織または初代細胞系に由来するものか、あるいは老化細胞、幹細胞、前癌細胞、または疾患の進行に関連する前駆細胞が含まれるがこれらに限定されない中間の状態を表わすものであり得る。
図3B図3Bは、開示の実施形態に従って、異なる細胞集団が占める位相空間を正確に表す緻密な多様体の境界を定めるための方法として異常検出の一例を示す。
図3C図3Cは、開示の実施形態に従って、異常検出を活用して癌の上位の代謝リプログラミング標的を特定する一例を示す。複数の異常検出器を活用することによって、癌細胞を野生型の初代発現プロファイルに最大限にリプログラミングする遺伝子は、学習されているモデルの決定関数(例えば、チェビシェフ距離、相関距離、コサイン距離、ユークリッド距離、符号付きユークリッド距離、ハミング距離、ジャッカード距離、カルバック・ライブラ距離、マハラノビス距離、マンハッタン距離、ミンコフスキー距離、またはスピアマン距離などの分離した多様体への距離)に基づいて特定できる。ここで、関心対象の標的由来の健康細胞で発生し得る潜在的な毒性の合併症(「毒性」クラスタラベル)をモデル化するために、アポトーシス細胞も含まれた。
図4A図4Aは、開示の実施形態に従って、細胞型混合データセットに適用される、主成分分析(PCA)、t分布型確率的近傍埋め込み(t-SNE)、ならびに、均一多様体近似および射影(UMAP)を含むいくつかの次元削減アルゴリズムの比較を示す。
図4B図4Bは、開示の実施形態に従って、膵管細胞系、腺房細胞系および腺癌細胞系で学習されているt-SNEおよびUMAPによって構築される潜在空間の安定性の比較を示す。
図4C図4Cは、開示の実施形態に従って、膵臓癌のリプログラミングの定量に対するUMAPの「最小距離」パラメータの効果の一例を示す。
図4D図4Dは、開示の実施形態に従って、膵臓癌のリプログラミングの定量に対するUMAPの潜在空間の次元の効果の一例を示す。
図5A図5Aは、開示の実施形態に従って、膵腺房細胞(右側にある濃い網掛け)から膵管細胞(中間にある中程度の網掛け)へ、そして次に高悪性度の癌細胞(KrasG12D、p53-/-、Myc)(左側にある薄い網掛け)への遷移を特徴とする候補選択パイプラインによって生成される、擬時間順序付けの2次元投影の一例を示す。
図5B図5Bは、開示の実施形態に従って、高次元シングルセルRNA-seqデータから構築した擬時間のprincipal treeに基づく因果推論から候補を生成するためのパイプラインの一例を示す。
図6A図6Aは、開示の実施形態に従って、ランダムなガウスノイズで2つの半月形の散布図で学習されている2つの異常検出アルゴリズムの図を示す。
図6B図6Bは、開示の実施形態に従って、70の単一ガイドRNA(sgRNA)にわたるz変換後の異常検出決定関数のヒートマップの一例を示す。学習させた5つの異常検出器モデルを通した平均ランクに従って、標的を順位付ける。70のsgRNAのうちの3つは、結果として、初代細胞の状態への大幅なリプログラミングと整合した、調整p値となった((32)、(52)および(38))。
図6C図6Cは、開示の実施形態に従って、リプログラミングの定量に対する異なる異常検出アルゴリズムの効果の一例を示す。両アルゴリズムにおいて、3つの標的((32)、(52)および(38))は、結果として、大幅なリプログラミングと整合した、調整p値となった。各アルゴリズムの上位10の標的のうちの8(80%)を共有した。
図7A図7Aは、膵臓癌の進行と、癌の発症の異なる段階にわたってリプログラミング分析するために使用される、対応する細胞の図を示す。野生型の細胞として、初代膵管細胞および不死化腺房細胞を使用した。低悪性度の癌細胞として、二重変異を保有する膵癌細胞(KrasG12D、p53-/-)を使用した。高悪性度の癌細胞として、三重変異を保有する膵癌細胞(KrasG12D、p53-/-、Myc)を使用した。
図7B図7Bは、三重変異の膵癌細胞(KrasG12D、p53-/-、Myc)を、野生型の導管細胞または腺房細胞へとリプログラミングした分析図(図7B)を示す。
図7C図7Cは、70の単一ガイドRNAにわたるz変換後の異常検出の決定関数のヒートマップ図(図7C)を示す。ここでは、標的を、学習させた5つの異常検出器モデルにわたる平均順位に従って順序付けしている。
図7D図7Dは、三重変異の膵癌細胞(KrasG12D、p53-/-、Myc)を、二重変異の膵癌細胞(KrasG12D、p53-/-)へとリプログラミングする分析図(図7D)を示す。
図7E図7Eは、70の単一ガイドRNAにおけるz変換後の異常検出決定関数のヒートマップ図(図7E)を示す。ここでは、標的を、学習させた5つの異常検出器モデルにわたる平均順位に従って順序付けしている。
図7F図7Fは、三重変異の膵癌細胞(KrasG12D、p53-/-、Myc)を、野生型の導管細胞または腺房細胞へとリプログラミングし、二重変異の膵癌細胞(KrasG12D、p53-/-)を中間の細胞型とする分析図(図7F)を示す。
図7G図7Gは、70の単一ガイドRNAにおけるz変換後の異常検出決定関数のヒートマップ図(図7G)を示す。ここでは、標的を、学習されている5つの異常検出器モデルにわたる平均順位に従って順序付けしている。
【発明を実施するための形態】
【0036】
本発明の様々な実施形態が本明細書で示され記載されているが、このような実施形態は一例として提示されているに過ぎないことは、当業者に明白であろう。当業者であれば、本発明から逸脱することなく、多数の変形、変更および置換に思い至るであろう。本明細書に記載の本発明の実施形態の様々な代替物が利用され得ることが理解されるべきである。
【0037】
用語「シーケンシング」は、本明細書で使用される場合、通常、核酸分子などの生体分子の配列を生成または特定する過程を指す。このような配列は、核酸の配列であってもよく、これには、核酸塩基の配列が含まれ得る。シーケンシング方法は、大規模並列アレイシーケンシング(例えばIllumina社のシーケンシング)であってもよく、フローセルまたはビーズなどの支持体上に固定した、鋳型核酸分子を使用して行われ得る。シーケンシング方法には、ハイスループットシーケンシング、次世代シーケンシング、合成によるシーケンシング、フローシーケンシング、大規模並列シーケンシング、ショットガンシーケンシング、一分子シーケンシング、ナノポアシーケンシング、パイロシーケンシング、半導体シーケンシング、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、RNA-Seq(Illumina社)、Digital Gene Expression(Helicos社)、Single Molecule Sequencing by Synthesis(SMSS)(Helicos社)、Clonal Single Molecule Array(Solexa社)、およびマキサム・ギルバートシーケンシングが含まれるがこれらに限定されない。
【0038】
用語「被験体」は、本明細書で使用される場合、通常、処理または分析を経る生体試料を有する個体を指す。被験体は、動物または植物であり得る。被験体は、ヒト、類人猿、サル、チンパンジー、イヌ、ネコ、ウマ、ブタ、げっ歯類(例えばマウスまたはラット)、爬虫類、両生類あるいは鳥類などの哺乳動物であり得る。被験体は、癌(例えば乳癌、大腸癌、脳腫瘍、白血病、肺癌、皮膚癌、肝臓癌、膵臓癌、リンパ腫、食道癌または子宮頚癌)または感染症などの疾患を有し得るか、あるいは有すると疑われ得る。
【0039】
用語「試料」は、本明細書で使用される場合、通常は生体試料を指す。生体試料の例としては、組織、細胞、核酸分子、アミノ酸、ポリペプチド、タンパク質、炭水化物、脂肪、代謝産物、ホルモンおよびウイルスが含まれる。一例では、生体試料は、デオキシリボ核酸(DNA)および/またはリボ核酸(RNA)などの1つ以上の核酸分子を含む核酸試料である。核酸分子は、無細胞DNAまたは無細胞RNAなどの無細胞または無細胞核酸分子であり得る。核酸分子は、ヒト、哺乳動物、非ヒト哺乳動物、類人猿、サル、チンパンジー、爬虫類、両生類または鳥類の源を含む様々な源に由来するものであり得る。さらに、試料は、血液、血清、血漿、硝子体、痰、尿、涙、汗、唾液、精液、粘膜排出物、粘液、髄液、羊水、リンパ液などが含まれるがこれらに限定されない、無細胞配列を含有する様々な動物体液から抽出され得る。無細胞ポリヌクレオチドは、起源が(妊娠被験体から採取した体液を介した)胎児であり得、あるいは被験体自体の組織に由来するものであり得る。
【0040】
用語「核酸」または「ポリヌクレオチド」は、本明細書で使用される場合、通常、1つ以上の核酸サブユニットまたはヌクレオチドを含む分子を指す。核酸は、アデノシン(A)、シトシン(C)、グアニン(G)、チミン(T)およびウラシル(U)から選択される1つ以上のヌクレオチド、あるいはその変異体を含み得る。ヌクレオチドは通常、1つのヌクレオシド、および、少なくとも1、2、3、4、5、6、7、8、9、10またはそれ以上のリン酸(PO)基を含む。ヌクレオチドは、1つの核酸塩基、五炭糖(リボースまたはデオキシリボースのいずれか)および1つ以上のリン酸基を含み得る。
【0041】
リボヌクレオチドは、糖がリボースであるヌクレオチドである。デオキシリボヌクレオチドは、糖がデオキシリボースであるヌクレオチドである。ヌクレオチドは、ヌクレオシド一リン酸またはヌクレオシドポリリン酸であり得る。ヌクレオチドは、発光タグまたはマーカー(例えばフルオロフォア)などの検出可能なタグを含む、デオキシアデノシン三リン酸(dATP)、デオキシシチジン三リン酸(デオキシシチジン三リン酸)、デオキシグアノシン三リン酸(dGTP)、ウリジン三リン酸(dUTP)およびデオキシチミジン三リン酸(dTTP)から選択され得る、例えばデオキシリボヌクレオシド三リン酸(dNTP)などのデオキシリボヌクレオシドポリリン酸塩であり得る。ヌクレオチドは、伸長する核酸鎖に組み込まれ得る任意のサブユニットを含み得る。このようなサブユニットは、1つ以上の相補的なA、C、G、TまたはUに特異的であるか、あるいはプリン(すなわち、AまたはG、あるいはその変異体)またはピリミジン(すなわち、C、TまたはU、あるいはその変異体)に相補的であるA、C、G、TまたはU、あるいは任意の他のサブユニットであり得る。いくつかの例では、核酸は、デオキシリボ核酸(DNA)、リボ核酸(RNA)、あるいはその誘導体または変異体である。核酸は、一本鎖または二本鎖であり得る。場合によっては、核酸分子は、環状である。
【0042】
用語「核酸分子」、「核酸シーケンス」、「核酸断片」、「オリゴヌクレオチド」および「ポリヌクレオチド」は、本明細書で使用される場合、通常、デオキシリボヌクレオチドまたはリボヌクレオチド(RNA)、あるいはその類似体などの、様々な長さを有し得るポリヌクレオチドを指す。核酸分子は、少なくとも約10塩基、20塩基、30塩基、40塩基、50塩基、100塩基、200塩基、300塩基、400塩基、500塩基、1キロ塩基(kb)、2kb、3kb、4kb、5kb、10kb、50kbまたはそれ以上の長さを有し得る。オリゴヌクレオチドは、通常、アデニン(A)、シトシン(C)、グアニン(G)およびチミン(T)(ポリヌクレオチドがRNAである場合はチミン(T)の代わりにウラシル(U))の4つのヌクレオチド塩基の特異的なシーケンスからなる。よって、用語「オリゴヌクレオチドシーケンス」は、ポリヌクレオチド分子のアルファベット表示であるか、あるいは当該用語は、ポリヌクレオチド分子自体に適用され得る。このアルファベット表示は、中央処理装置を有するコンピュータのデータベースに入力され、ゲノム機能学および相同性検索などの生命科学情報用途に使用され得る。オリゴヌクレオチドは、1つ以上の非標準ヌクレオチド、ヌクレオチド類似体および/または修飾ヌクレオチドを含み得る。
【0043】
用語「ヌクレオチド類似体」は、本明細書で使用される場合、ジアミノプリンおよび5-フルオロウラシル、5-ブロモウラシル、5-クロロウラシル、5-ヨードウラシル、ヒポキサンチン、キサンチン、4-アセチルシトシン、5-(カルボキシヒドロキシメチル)ウラシル、5-カルボキシメチルアミノメチル-2-チオウリジン、5-カルボキシメチルアミノメチルウラシル、ジヒドロウラシル、β-D-ガラクトシルケウオシン、イノシン、N6-イソペンテニルアデニン、1-メチルグアニン、1-メチルイノシン、2,2-ジメチルグアニン、2-メチルアデニン、2-メチルグアニン、3-メチルシトシン、5-メチルシトシン、N6-アデニン、7-メチルグアニン、5-メチルアミノメチルウラシル、5-メトキシアミノメチル-2-チオウラシル、β-D-マンノシルキューオシン、5’-メトキシカルボキシメチルウラシル、5-メトキシウラシル、2-メチルチオ-D46-イソペンテニルアデニン、ウラシル-5-オキシ酢酸(v)、ワイブトキソシン、シュードウラシル、クエオシン、2-チオシトシン、5-メチル-2-チオウラシル、2-チオウラシル、4-チオウラシル、5-メチルウラシル、ウラシル-5-オキシ酢酸メチルエステル、ウラシル-5-オキシ酢酸(v)、5-メチル-2-チオウラシル、3-(3-アミノ-3-N-2-カルボキシプロピル)ウラシル、(acp3)w、2,6-ジアミノプリン、ホスホロスレノエート核酸などが含まれるがこれらに限定されない。場合によっては、ヌクレオチドは、三リン酸部分の修飾を含む、リン酸塩部分の修飾を含み得る。修飾のさらなる非限定的な例としては、より長いリン酸鎖(例えば、4、5、6、7、8、9、10または10以上のリン酸部分を有するリン酸鎖)のリン酸鎖、チオール部分(例えばα-チオ三リン酸およびβ-チオ三リン酸)による修飾、またはセレン部分(例えばホスホロセレノエート核酸)による修飾が含まれる。核酸分子はまた、塩基部分(例えば相補的なヌクレオチドと水素結合を通常形成することができる1つ以上の原子、および/または、相補的なヌクレオチドと水素結合を通常形成することができない1つ以上の原子)、糖部分またはリン酸骨格で修飾され得る。核酸分子はまた、N-ヒドロキシスクシンイミドエステル(NHS)などのアミン反応性部分の共有結合を可能にするアミノアリル-dUTP(aa-dUTP)およびアミノヘキシルアクリルアミド-dCTP(aha-dCTP)などのアミン修飾基を含み得る。本開示のオリゴヌクレオチドの標準DNA塩基対またはRNA塩基対に代替することで、より高い密度(立方ミリメートル(mm)当たりのビット数)、より高い安全性(例えば天然毒素の偶発的または意図的な合成に対する耐性)、光プログラムポリメラーゼにおけるより容易な区別、あるいはより低い二次構造を実現し得る。ヌクレオチド類似体は、ヌクレオチドの検出のために検出可能な部分に反応または結合できるものであり得る。
【0044】
用語「遊離ヌクレオチド類似体」は、本明細書で使用される場合、通常、別のヌクレオチドまたはヌクレオチド類似体に結合していないヌクレオチド類似体を指す。遊離ヌクレオチド類似体は、プライマー伸長反応による成長する核酸鎖に組み込まれ得る。
【0045】
用語「プライマー」は、本明細書で使用される場合、通常、鋳型核酸に相補的なポリヌクレオチドを指す。プライマーと鋳型核酸の間の相補性または相同性または配列同一性は限定され得る。プライマーの長さは、8ヌクレオチド塩基と50ヌクレオチド塩基の間であり得る。プライマーの長さは、6ヌクレオチド塩基、7ヌクレオチド塩基、8ヌクレオチド塩基、9ヌクレオチド塩基、10ヌクレオチド塩基、11ヌクレオチド塩基、12ヌクレオチド塩基、13ヌクレオチド塩基、14ヌクレオチド塩基、15ヌクレオチド塩基、16ヌクレオチド塩基、17ヌクレオチド塩基、18ヌクレオチド塩基、19ヌクレオチド塩基、20ヌクレオチド塩基、21ヌクレオチド塩基、22ヌクレオチド塩基、23ヌクレオチド塩基、24ヌクレオチド塩基、25ヌクレオチド塩基、26ヌクレオチド塩基、27ヌクレオチド塩基、28ヌクレオチド塩基、29ヌクレオチド塩基、30ヌクレオチド塩基、31ヌクレオチド塩基、32ヌクレオチド塩基、33ヌクレオチド塩基、34ヌクレオチド塩基、35ヌクレオチド塩基、37ヌクレオチド塩基、40ヌクレオチド塩基、42ヌクレオチド塩基、45ヌクレオチド塩基、47ヌクレオチド塩基または50ヌクレオチド塩基以上であり得る。
【0046】
プライマーは、鋳型核酸と配列同一性または相同性または相補性を示し得る。プライマーと鋳型核酸の間の相同性または配列同一性または相補性は、プライマーの長さに基づき得る。例えば、プライマーの長さが、約20の核酸である場合、鋳型核酸と相補的な10以上の連続した核酸塩基を含有し得る。
【0047】
用語「プライマー伸長反応」は、本明細書で使用される場合、通常、プライマーが鋳型核酸鎖に結合し、その後、プライマーが伸長されることを指す。また、二本鎖核酸が変性し、プライマー鎖が変性鋳型核酸鎖のうちの一方または両方のいずれかに結合し、その後、プライマーが伸長されることも含まれ得る。プライマー伸長反応は、酵素(重合酵素)を使用することによって鋳型指向様式でプライマーにヌクレオチドまたはヌクレオチド類似体を組み込むために使用され得る。
【0048】
用語「ポリメラーゼ」は、本明細書で使用される場合、通常、重合反応を触媒することができる任意の酵素を指す。ポリメラーゼの例としては、限定ではないが、核酸ポリメラーゼが含まれる。ポリメラーゼは、天然に存在し得るか、あるいは合成され得る。場合によっては、ポリメラーゼは、比較的高いプロセッシビティを有する。ポリメラーゼの例としては、Φ29ポリメラーゼ、あるいはその誘導体がある。ポリメラーゼは、重合酵素であり得る。場合によっては、転写酵素またはリガーゼが使用される(すなわち、結合の形成を触媒する酵素)。ポリメラーゼの例としては、DNAポリメラーゼ、RNAポリメラーゼ、熱安定性ポリメラーゼ、野生型ポリメラーゼ、修飾ポリメラーゼ、大腸菌DNAポリメラーゼI、T7 DNAポリメラーゼ、バクテリオファージT4 DNAポリメラーゼΦ29(phi29)DNAポリメラーゼ、Taqポリメラーゼ、Tthポリメラーゼ、Tliポリメラーゼ、Pfuポリメラーゼ、Pwoポリメラーゼ、VENTポリメラーゼ、DEEPVENTポリメラーゼ、EX-Taqポリメラーゼ、LA-Taqポリメラーゼ、Ssoポリメラーゼ、Pocポリメラーゼ、Pabポリメラーゼ、Mthポリメラーゼ、ES4ポリメラーゼ、Truポリメラーゼ、Tacポリメラーゼ、Tneポリメラーゼ、Tmaポリメラーゼ、Teaポリメラーゼ、Tihポリメラーゼ、Tfiポリメラーゼ、Platinum Taqポリメラーゼ、Tbrポリメラーゼ、Tflポリメラーゼ、Pfutuboポリメラーゼ、Pyrobestポリメラーゼ、Pwoポリメラーゼ、KODポリメラーゼ、Bstポリメラーゼ、Sacポリメラーゼ、3’~5’エキソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ、修飾産物および誘導体が含まれる。場合によっては、ポリメラーゼは、単一のサブユニットポリメラーゼである。ポリメラーゼは、高いプロセッシビティ、すなわち、核酸鋳型を放出することなく、連続して核酸鋳型にヌクレオチドを取り込む、ポリメラーゼの性能を有し得る。場合によっては、ポリメラーゼは、などの、例えば、667Y変異を有するTaqポリメラーゼなどのジデオキシヌクレオチド三リン酸を受け取るように修飾されたポリメラーゼである(例えば、Tabor et al, PNAS, 1995, 92, 6339-6343を参照されたい。当該文献は、すべての目的のために、その全体が参照により本明細書に組み込まれる)。場合によっては、ポリメラーゼは、核酸シーケンシングに有用となり得る修飾ヌクレオチド結合を有するポリメラーゼであり、非限定的な例としては、ThermoSequenasポリメラーゼ(GE Life Sciences社)、AmpliTaq FS(ThermoFisher社)ポリメラーゼおよびシーケンシングPolポリメラーゼ(Jena Bioscience社)が含まれる。場合によっては、ポリメラーゼは、ジデオキシヌクレオチドに対して識別するように遺伝子操作されており、これには、例えばSequenase DNAポリメラーゼ(ThermoFisher社)などが挙げられる。
【0049】
用語「支持体」は、本明細書で使用される場合、通常、例えばスライド、ビーズ、樹脂、チップ、アレイ、マトリクス、膜、ナノポアまたはゲルなどの固体支持体を指す。固体支持体は、例えば、平坦な基板(例えばガラス、プラスチック、シリコンなど)上のビーズ、または基板のウェル内のビーズであり得る。基板は、ビーズを所望の位置(例えば、検出器と動作可能に連通する場所)に保持するために、例えばテクスチャ、パターン、微細構造コーティング、界面活性剤、あるいはそれらの任意の組み合わせなどの表面特性を有し得る。ビーズに基づく支持体の検出器は、ビーズのサイズに関わらず、実質的に同じ読み取り率を維持するように構成され得る。支持体は、フローセルまたは開放型基板であり得る。さらに、支持体は、生物由来の支持体、非生物由来の支持体、有機支持体、無機支持体、あるいはそれらの任意の組み合わせを含み得る。支持体は、検出器と光連通し得るか、検出器と物理的に接触し得るか、検出器から一定距離だけ離され得るか、あるいはそれらの任意の組み合わせであり得る。支持体は、独立して処理できる複数の位置を有し得る。独立して処理できる複数の位置のうちの独立して処理できるある位置で、核酸分子が支持体に固定され得る。支持体への複数の核酸分子のそれぞれの固定は、アダプターの使用によって補助され得る。支持体は随意に、検出器に光学的に結合され得る。支持体への固定は、アダプターによって補助され得る。
【0050】
用語「標識」は、本明細書で使用される場合、通常、例えばヌクレオチド類似体などの種に結合することができる部分を指す。場合によっては、標識は、検出できるシグナルを発生(あるいは既に発生したシグナルを抑制)する、検出可能な標識であり得る。場合によっては、このようなシグナルは、1つ以上のヌクレオチドまたはヌクレオチド類似体の取り込みを示し得る。場合によっては、標識は、ヌクレオチドまたはヌクレオチド類似体に結合され得、当該ヌクレオチドまたはヌクレオチド類似体は、プライマー伸長反応に使用され得る。場合によっては、標識は、プライマー伸長反応の後にヌクレオチド類似体に結合され得る。標識は、場合によっては、ヌクレオチドまたはヌクレオチド類似体と特異的に反応し得る。結合は、(例えばイオン性相互作用、ファンデルワールス力などによる)共有結合または非共有結合であり得る。場合によっては、結合は、光開裂性(例えば紫外線下で開裂性)、化学開裂性(例えばジチオトレイトール(DTT)、トリス(2-カルボキシエチル)ホスフィン(TCEP)などの還元剤による)、または酵素開裂性(例えばエステラーゼ、リパーゼ、ペプチダーゼあるいはプロテアーゼによる)のものなど、開裂性であり得るリンカーによるものであり得る。
【0051】
場合によっては、標識は、光学活性なものであり得る。いくつかの実施形態では、光学活性な標識は、光学活性な色素(例えば蛍光色素)である。色素の非限定的な例としては、SYBR green、SYBR blue、DAPI、ヨウ化プロピジウム、Hoeste、SYBR gold、臭化エチジウム、アクリジン、プロフラビン、アクリジンオレンジ、アクリフラビン、フルオロクマニン(fluorcoumanin)、エリプチシン、ダウノマイシン、クロロキン、ジスタマイシンD、クロモマイシン、ホミジウム、ミトラマイシン、ルテニウム・ポリピリジル、アントラマイシン、フェナントリジンおよびアクリジン、臭化エチジウム、ヨウ化プロピジウム、ヨウ化ヘキシジウム、ジヒドロエチジウム、エチジウムホモダイマ-1および-2、エチジウムモノアジド、ならびに、ACMA、 Hoechst 33258、Hoechst 33342、Hoechst 34580、DAPI、アクリジンオレンジ、7-AAD、アクチノマイシンD、LDS751、ヒドロキシスチルバミジン、SYTOX Blue、SYTOX Green、SYTOX Orange、POPO-1、POPO-3、YOYO-1、YOYO-3、TOTO-1、TOTO-3、JOJO-1、LOLO-1、BOBO-1、BOBO-3、PO-PRO-1、PO-PRO-3、BO-PRO-1、BO-PRO-3、 TO-PRO-1、TO-PRO-3、TO-PRO-5、JO-PRO-1、LO-PRO-1、YO-PRO-1、YO-PRO-3、PicoGreen、OliGreen、RiboGreen、SYBR gold、SYBR Green I、SYBR Green II、SYBR DX、SYTO-40、-41、-42、-43、 -44、-45(青)、SYTO-13、-16、-24、-21、-23、-12、-11、-20、-22、-15、-14、-25(緑)、SYTO-81、-80、-82、-83、-84、-85(オレンジ)、SYTO-64、-17、-59、-61、-62、-60、-63(赤)、フルオレセイン、フルオレセインイソチオシアネート(FITC)、テトラメチルローダミンイソチオシアネート(TRITC)、 ローダミン、テトラメチルローダミン、Rフィコエリトリン、Cy-2、Cy-3、Cy-3.5、Cy-5、Cy5.5、Cy-7、Texas Red、Phar-Red、アロフィコシアニン(APC)、Sybr Green I、Sybr Green II、Sybr Gold、CellTracker Green、7-AAD、エチジウムホモダイマーI、エチジウムホモダイマーII、エチジウムホモダイマーIII、臭化エチジウム、ウンベリフェロン、エオシン、緑色蛍光タンパク質、エリトロシン、クマリン、メチルクマリン、ピレン、マラカイトグリーン、スチルベン、ルシファーイエロー、カスケードブルー、ジクロロトリアジニルアミン・フルオレセイン、ダンシルクロリド、ユウロピウムおよびテルビウムを含むものなどの蛍光性ランタニド錯体、カルボキシ・テトラクロロ・フルオレセイン、5-および/または6-カルボキシフルオレセイン(FAM)、VIC、5-(あるいは6-)ヨードアセトアミドフルオレセイン、 5-{[2(および3)-5-(アセチルメルカプト)-スクシニル]アミノ}フルオレセイン(SAMSA-フルオレセイン)、リサミンローダミンBスルホニルクロリド、5および/または6カルボキシローダミン(ROX)、7-アミノ-メチル-クマリン、7-アミノ-4-メチルクマリン-3-酢酸(AMCA)、BODIPYフルオロフォア、8-メトキシピレン-1,3,6-トリスルホン酸三ナトリウム塩、3,6-二スルホン酸塩-4-アミノ-ナフタルイミド、フィコビリンタンパク質、AlexaFluor 350、405、430、488、532、546、555、568、594、610、633、635、647、660、680、700、750および790色素、DyLight 350、405、488、550、594、633、650、680、755および800色素、あるいは他のフルオロフォアが含まれる。
【0052】
いくつかの例では、標識は、核酸インターカレータ色素であり得る。例としては、臭化エチジウム、YOYO-1、SYBR GreenおよびEvaGreenが含まれるがこれらに限定されない。エネルギードナーとエネルギーアクセプターの間の近接場相互作用、インターカレータとエネルギードナーの間の近接場相互作用、またはインターカレータとエネルギーアクセプターの間の近接場相互作用は、結果として、固有のシグナルまたはシグナル振幅の変化の発生をもたらし得る。例えば、このような相互作用は、結果として、クエンチング(すなわち、ドナーからアクセプターへのエネルギー移動であり、結果として、非放射性のエネルギー減衰をもたらす)またはForster共鳴エネルギー移動(FRET)(すなわち、ドナーからアクセプターへのエネルギー移動であり、結果として、放射性のエネルギー減衰をもたらす)をもたらし得る。標識の他の例としては、電気化学標識、静電気標識、比色標識および質量タグが含まれる。
【0053】
用語「クエンチャー」は、本明細書で使用される場合、通常、発生したシグナルを抑制することができる分子を指す。標識は、クエンチャー分子であり得る。例えば、鋳型核酸分子は、検出可能なシグナルを発生するように設計され得る。クエンチャーを含むヌクレオチドまたはヌクレオチド類似体の取り込みにより、シグナルを抑制または消失させ得、当該抑制または消失は、その後、検出される。場合によっては、本明細書の他所で説明されているように、クエンチャーで標識することは、ヌクレオチドまたはヌクレオチド類似体の取り込みの後に生じ得る。クエンチャーの例としては、BH1-0、BHQ-1、BHQ-3、BHQ-10などのBlack Hole Quencher色素(Biosearch Technologies社)、QSY7、QSY9、QSY21、QSY35などのQSY色素蛍光クエンチャー(Molecular Probes/Invitrogen社)ならびにDabcylおよびDabsylなど他のクエンチャー、Cy5QおよびCy7QおよびDark Cyanine色素(GE Healthcare社)が含まれる。上記クエンチャーと共に、シグナルが抑制または消失され得るドナー分子の例としては、Cy3B、Cy3またはCy5などのフルオロフォア、DYQ-660およびDYQ-661などのDy-Quenchers(Dyomics社)、ならびに、ATTO 540Q、580Q、612Q、647N、Atto-633-ヨードアセトアミド、テトラメチルローダミンヨードアセトアミドまたはAtto-488ヨードアセトアミドなどのN-(7-ジメチルアミノ-4-メチルクマリン-3-イル)マレイミド(DACM)およびATTO蛍光クエンチャー(ATTO-TEC GmbH社)が含まれる。場合によっては、標識は、例えば、モノブロモビマンなどのBimane誘導体などの、自己消光することがない類のものであり得る。
【0054】
用語「検出器」は、本明細書で使用される場合、通常、シグナルを検出することができる機器を指し、このシグナルには、取り込まれたヌクレオチドまたはヌクレオチド類似体の有無を示すシグナルが含まれる。場合によっては、検出器には、シグナルを検出し得る光学部品および/または電子部品が含まれ得る。用語「検出器」は、検出方法で使用され得る。検出方法の非限定的な例としては、光検出、分光検出、静電気検出、電気化学検出などが含まれる。光検出方法には、蛍光分光法および紫外可視吸光法が含まれるがこれらに限定されない。分光検出方法には、質量分析法、核磁気共鳴(NMR)分光法および赤外分光法が含まれるがこれらに限定されない。静電気検出方法には、例えばゲル電気泳動などのゲルに基づく手法が含まれるがこれに限定されない。電気化学検出方法には、増幅産物を高速液体クロマトグラフィーで分離した後の増幅産物の電気化学検出が含まれるがこれに限定されない。
【0055】
用語「配列」または「配列リード」は、本明細書で使用される場合、通常、シーケンスプロセス中に行われる一連のヌクレオチドの割り当て(例えばベースコーリングによる)を指す。このような配列は、予備的なベースコールを行うことによって作製される、推定される配列リードであり得、その後、さらなるベースコーリング分析が行われるか、または修正が行われて、最終的な配列リードが生成され得る。配列には、単一または個々の細胞に対応する情報を含み得、シングルセルシーケンシング法(例えばシングルセルRNAシーケンシング、すなわちscRNA-seq)によって得られ得る。シングルセルシーケンシングは、細胞の差異や、微小環境の状況における個々の細胞の機能に関する情報について、より高い分解能を提供するために行われ得る。例えば、シングルセルDNAシーケンシングは、希少な細胞集団に存在する変異(例えば癌細胞に見つかったもの)に関する情報を提供し得、シングルセルRNAシーケンシングは、別の細胞型の存在および挙動に対応した個々の細胞の発現に関する情報を提供し得る。
【0056】
用語「単一ガイドRNA」または「sgRNA」は、本明細書で使用される場合、通常、トランス活性化型crRNA(tracrRNA)配列のスキャフォールドと融合した、カスタム設計された短鎖CRISPR RNA(crRNA)配列の両方を含有する単一RNA分子を指す。SgRNAは、合成的に生成されるか、あるいはDNA鋳型からインビトロまたはインビボで作製され得る。
【0057】
治療用途において、細胞をある分化した状態から別の分化した状態に変換する機能が大いに期待され得る。しかし、細胞のリプログラミングへの期待があるにもかかわらず、多くの治療関連用途において、ある細胞の状態と別の細胞の状態の間の遷移を媒介し得る遺伝的駆動因子の特定に、依然として困難がある。リプログラミングの表現型は複雑なものであり得、階層的な非線形様式で互いに相互作用する多くの遺伝子が関与し得る。あるプロセスにおいて、これらの遺伝子のうちの何れが因果対相関であるかを解するのは困難な作業であり得、関心対象の各遺伝子において、広範かつ時間のかかる実験アッセイや動物モデルが必要となり得る。
【0058】
ある表現型の状態から別の表現型の状態への細胞のリプログラミングを促進し得る、治療標的化するゲノム領域を特定する、改善された方法に対する必要が、本明細書で認められる。本明細書で提示される方法およびシステムは、ある表現型の状態から別の表現型の状態への細胞のリプログラミングを促進し得る、治療標的化するこのようなゲノム領域を特定する効率、精度および/またはスループットを大幅に上昇し得る。
【0059】
本開示は概して、ある分化した状態から別の分化した状態への細胞の転写リプログラミングを定量するための方法およびシステムに関する。特に、当該技術は、表現型が異なる細胞の状態間のリプログラミングを媒介する可能性があり得るか、および/または、効果的な治療標的として選択される可能性があり得る、関連する標的遺伝子を特定するための、高含量、高効率かつハイスループットのCRISPR(規則的な間隔をもってクラスター化された短鎖反復回文配列(clustered regularly interspaced short palindromic repeats))スクリーニング法に関する。これらのスクリーニングは、異常検出モデルを活用して、CRISPRによって標的となった各遺伝子の測定可能な表現型としてリプログラミングを定量し得る。本開示の方法およびシステムは、関心対象の疾患兆候に関連するバイオマーカーと治療標的とを選択する基準としてリプログラミングの定量を確立し得る。
【0060】
一態様では、本開示は、分化した、あるいは表現型が異なる細胞集団間の転写遷移(「リプログラミング」)を定量するための方法を提供する。当該方法は、(a)異なる細胞集団のシングルセルRNA-seqをプロファイルすることと、(b)トポロジー表現の潜在空間に、シングルセルRNA-seqのプロファイルを教師あり次元削減することと、(c)システム生物学的手法によって、細胞集団間の遷移を媒介する内在性の遺伝的駆動因子(「遺伝子」)を特定することと、(d)プール型CRISPR編集実験によって、潜在的な遺伝的駆動因子を照合することと、(e)照合された各遺伝的駆動因子について、ある異なる表現型の状態から他の異なる表現型の状態へと転写リプログラミングする程度を定量する異常検出方法を適用することと、を含み得る。
【0061】
別の態様では、本開示は、様々な疾患の兆候に対するバイオマーカーと潜在的な治療標的遺伝子とを特定するための方法を提供する。当該方法は、(a)適切な疾患と標的細胞集団とを特定することと、(b)上述の疾患と標的細胞集団の間の遷移を媒介する潜在的な遺伝的駆動因子を特定することと、(c)上述の遺伝的駆動因子の各々のリプログラミングを定量することと、を含み得る。他の実施形態では、複数のバイオマーカーまたは標的遺伝子は、複数の遺伝子の組み合わせ阻害または活性化によって特定できる。
【0062】
いくつかの実施形態では、細胞集団は、健康体、あるいは関心対象の兆候に対応する疾患患者の関連する組織に由来するものである。他の実施形態では、細胞集団は、初代細胞系、ヒトオルガノイド、動物モデル、または他の適切なモデル系に由来するものである。場合によっては、疾患細胞集団は、関心対象の遺伝子の特定の変異などの、特定の遺伝子型シグネチャを特徴とする。
【0063】
いくつかの実施形態では、標的細胞集団は、健康組織、野生型初代細胞系、オルガノイド、動物モデル、または他の適切なモデル系に由来した完全に分化した状態に対応する。他の実施形態では、標的細胞集団は、疾患の進行に関連する幹細胞、前癌細胞、老化細胞、また前駆細胞などの中間の状態に対応する。
【0064】
いくつかの実施形態では、CRISPR系は、CRISPR(例えば活性Cas9)、CRISPRi(例えばCRISPR干渉、KRABを含む転写抑制ペプチドと融合した、触媒的に不活性なCas9)、CRISPRa(例えばCRISPR活性、VPR(HIVウイルスタンパク質R)を含む転写活性化因子ペプチドと融合した、触媒的に不活性なCas9)、RNAi、およびshRNAからなる群から選択される。
【0065】
図1は、開示の実施形態に従って、リプログラミング標的遺伝子などの治療標的を特定する方法(100)を例証するフローチャートの一例を示す。当該方法は、ある細胞型の複数の疾患細胞と複数の正常細胞のシングルセルリボ核酸(RNA)シーケンスデータを提供する工程を含み得る(動作(102)にあるように)。いくつかの実施形態では、当該方法は、複数の疾患細胞と複数の正常細胞のscRNA-seqデータを生成する工程を含み得る。次に、当該方法は、(例えば、均一多様体近似および射影(UMAP)アルゴリズムなどの次元削減アルゴリズムを使用して)複数の疾患細胞と複数の正常細胞のシングルセルRNAシーケンスデータを、細胞型の複数の表現型の状態に対応する潜在空間にマッピングする工程を含み得る(動作(104)にあるように)。代わりに、マッピングする工程は、変分オートエンコーダなどの教師あり次元削減アルゴリズムを使用して行われ得る。次に、当該方法は、複数の表現型の状態のうちの第1の表現型の状態と第2の表現型の状態の間の細胞型のリプログラミングを促進する1つ以上のゲノム領域を、潜在空間のトポロジーに少なくとも部分的に基づいて特定する工程(例えば、1つ以上のゲノム領域は、編集されて、第1の表現型の状態と第2の表現型の状態の間の細胞型のリプログラミングを促進するように構成される)を含み得る(動作(106)にあるように)。例えば、第1の表現型の状態は、疾患状態(例えば癌)であり得、第2の表現型の状態は、非疾患状態(例えば野生型または前駆状態)、初期の疾患状態(例えば前癌状態、初期段階の癌状態または前駆疾患状態)または中間の疾患状態(例えば低重症度または低悪性度の疾患状態)であり得る。別の一例として、当該方法は、第1の表現型の状態と中間の表現型の状態の間の細胞型のリプログラミングを促進する第1のゲノム領域を、潜在空間のトポロジーに少なくとも部分的に基づいて特定する工程であって、第1のゲノム領域は、編集されて、第1の表現型の状態と中間の表現型の状態の間の細胞型のリプログラミングを促進するように構成される、工程と、中間の表現型の状態と第2の表現型の状態の間の表現型のリプログラミングを促進する第2のゲノム領域を、潜在空間のトポロジーの少なくとも一部に基づいて特定する工程であって、第2のゲノム領域は、編集されて、中間の表現型の状態と第2の表現型の状態の間の細胞型のリプログラミングを促進するように構成される、工程と、をさらに含み得る。次に、当該方法は、1つ以上のゲノム領域を電子的に出力する工程を含み得る(動作(108)にあるように)。いくつかの実施形態では、当該方法は、必要とする被験体(例えば、疾患状態を有し、その疾患状態を治療標的化することが有効な治療となる場合)を治療するために、治療標的として、ゲノム領域のうちの少なくとも1つを特定する工程、および/または、ゲノム領域のうちの少なくとも1つを治療標的化する工程を含み得る。例えば、治療標的化は、低分子阻害剤、抗体療法、RNAi、アンチセンスオリゴヌクレオチド、あるいはそれらの組み合わせを使用して行い得る。
【0066】
いくつかの実施形態では、UMAPアルゴリズムは、教師ありUMAPアルゴリズム、あるいは教師なし、教師ありUMAPアルゴリズムである。例えば、教師ありUMAPアルゴリズムは、ある細胞型の純粋な細胞のシングルセルRNAシーケンス(scRNA-seq)データを含むデータセットで学習され得る。UMAPアルゴリズムは、約0.025、約0.05、約0.075、約0.1、約0.125、約0.15、約0.175、約0.2、約0.225、約0.25、約0.275、約0.3、約0.325、約0.35、約0.375、約0.4、約0.425、約0.45、約0.475、約0.5、約0.525、約0.55、約0.575、約0.6、約0.625、約0.65、約0.675、約0.7、約0.725、約0.75、約0.775、約0.8、約0.825、約0.85、約0.875、約0.9、約0.925、約0.95、約0.975または約1.0の最小距離を使用して学習され得る。いくつかの実施形態では、当該方法は、マッピングする工程の前に、複数の疾患細胞と複数の正常細胞のシングルセルRNAシーケンス(scRNA-seq)データから低頻度のゲノム領域が取り除かれ得る。
【0067】
第1の表現型の状態と第2の表現型の状態の間の細胞型のリプログラミングを促進する1つ以上のゲノム領域を特定する工程は、潜在空間のトポロジーの多くの好適な解析のうちのいずれかに基づいて行われ得る。一例として、第1の表現型の状態と第2の表現型の状態の間の最尤推論される進行軌跡を構築するために、(例えば、潜在空間にグラフ逆埋め込みアルゴリズムを適用することによって)潜在空間に、非線型の細胞軌跡の再構築が行われ得る。その後、第1の表現型の状態と第2の表現型の状態の間の細胞型のリプログラミングを促進する1つ以上のゲノム領域を特定するために、最尤推論される進行軌跡に基づいて確率推論が使用され得る。いくつかの実施形態では、特定されたゲノム領域に基づいて、第1の表現型の状態に関連する疾患を治療するための1つ以上の治療標的が特定され得る。
【0068】
ゲノム領域が特定された後に、第1の表現型の状態と第2の表現型の状態の間の細胞型の細胞のリプログラミングを促進するために、ゲノム編集手段(例えばCRISPR系、CRISPRi系、CRISPRa系、RNAi系またはshRNA系)が使用されて、それぞれのゲノム領域が編集され得る。編集の後に、ゲノム編集手段が使用されて、それぞれのゲノム領域が編集される結果として生じる細胞の潜在空間のずれ量を測定するために、異常検出アルゴリズムが使用され得る(例えば密度推定関数を使用する)。例えば、距離尺度(例えば、チェビシェフ距離、相関距離、コサイン距離、ユークリッド距離、符号付きユークリッド距離、ハミング距離、ジャッカード距離、カルバック・ライブラ距離、マハラノビス距離、マンハッタン距離、ミンコフスキー距離、スピアマン距離、あるいはリーマン多様体上の距離)を使用して、潜在空間のずれ量が測定され得る。例えば、密度推定関数は、確率密度推定、リスケーリング後のヒストグラム、パラメトリック密度推定関数、ノンパラメトリック密度推定関数(例えばカーネル密度関数)またはデータクラスタリング手法(例えばベクトル量子化)を含み得る。異常検出アルゴリズムは、教師なし機械学習アルゴリズム、半教師あり機械学習アルゴリズムまたは教師あり機械学習アルゴリズムを含み得、異常検出アルゴリズムは、疾患細胞型(例えば、膵癌細胞などの癌細胞)または非疾患細胞型(例えば、膵管細胞または膵腺房細胞などの膵細胞)などの複数の細胞型の潜在空間のプロファイルで学習され得る。例えば、異常検出アルゴリズムは、密度に基づく手法(k近傍法、局所外れ値因子、隔離フォレスト)、部分空間に基づく外れ値検出、相関に基づく外れ値検出、テンソルに基づく外れ値検出、サポートベクターマシン(SVM)、単一クラスベクターマシン、サポートベクターデータ記述、ニューラルネットワーク(例えばレプリケータニューラルネットワーク、オートエンコーダ、長・短期記憶(LSTM)ニューラルネットワーク)、ベイジアンネットワーク、隠れマルコフモデル(HMM)、クラスター解析に基づく外れ値検出、相関ルールおよび頻出アイテムセットのずれ、ファジー理論に基づく外れ値検出ならびにアンサンブル手法(例えば、機能バギング、スコア正規化、および異なる多様性の供給源を使用する)のうちの1つ以上を含み得る。疾患細胞および正常細胞は、例えば、初代細胞系、ヒトオルガノイドおよび動物モデルを含み得る。例えば、複数の細胞型は、膵管細胞、膵腺房細胞、膵臓腺癌および/または膵臓腺癌を含み得る。ゲノム編集手段が使用されて、それぞれのゲノム領域が編集される結果として生じる細胞の潜在空間のずれ量が測定された後に、測定された量に基づいて、治療標的化するための1つ以上の遺伝子が順位付けされ得る。
【0069】
別の態様では、本開示は、ある表現型の状態から別の表現型の状態への細胞のリプログラミングを促進する1つ以上のゲノム領域を特定するためのシステムを提供する。当該システムは、(例えば、ある細胞型の複数の疾患細胞と複数の正常細胞の)シングルセルRNAシーケンスデータを含むデータベースを含み得る。データベースは、ローカル(例えばローカルサーバ、コンピュータまたはコンピュータ媒体)または遠隔(例えばクラウドベースサーバ)に保存され得る。システムは、本開示の方法を実施するように個別にまたは集合的にプログラムされた1つ以上のコンピュータプロセッサをさらに含み得る。例えば、コンピュータプロセッサは、(例えば、UMAPアルゴリズムまたは教師あり次元削減アルゴリズムを使用して)複数の疾患細胞と複数の正常細胞のシングルセルRNAシーケンス(scRNA-seq)データを含むデータベースを、細胞型の複数の表現型の状態に対応する潜在空間にマッピングすることと、複数の表現型の状態のうちの第1の表現型の状態と第2の表現型の状態の間の細胞型のリプログラミングを促進する1つ以上のゲノム領域を、潜在空間のトポロジーに少なくとも部分的に基づいて特定すること(1つ以上のゲノム領域は、編集されて、第1の表現型の状態と第2の表現型の状態の間の細胞型のリプログラミングを促進するように構成される)と、および/または、1つ以上のゲノム領域を電子的に出力することと、の1つ以上を行うように個別にまたは集合的にプログラムされ得る。
【0070】
コンピュータシステム
本開示は、本開示の方法を実施するようにプログラムされるコンピュータシステムを提供する。図2は、コンピュータシステム(201)であって、例えば、scRNA-seqデータを生成または解析すること、(例えば、UMAPなどの次元削減アルゴリズムを使用して)scRNA-seqデータを、複数の表現型の状態に対応する潜在空間にマッピングすること、(例えば、確率推論を使用して)第1の表現型の状態と第2の表現型の状態の間の細胞型のリプログラミングを促進する1つ以上のゲノム領域を特定すること、scRNA-seqデータで教師ありアルゴリズム(例えば、教師ありUMAP)を学習させること、潜在空間に非線型の細胞軌跡の再構築を行うこと、scRNA-seqデータから低頻度のゲノム領域を取り除くこと、第1の細胞型の状態と第2の細胞型の状態の細胞のリプログラミングを促進するために、ゲノム編集手段を使用してゲノム領域を編集すること、ゲノム編集手段を使用してゲノム領域を編集することの結果として生じる細胞の潜在空間のずれ量を、異常検出アルゴリズムを使用して測定することと、複数の細胞型の潜在空間のプロファイルで学習させることと、ゲノム編集手段を使用してゲノム領域を編集する工程の結果として生じる細胞の潜在空間のずれの距離を測定することと、細胞の潜在空間の測定された量に基づいて、治療標的化するための遺伝子を順位付けることと、密度推定関数を使用して、ゲノム編集手段を使用してゲノム領域を編集することの結果として生じる細胞の潜在空間のずれ量を測定することと、表現型の状態に関連する疾患を治療するために、治療標的を特定することと、を行うようにプログラムされるか、あるいはその他の方法で構成されるコンピュータシステム(201)を示す。
【0071】
コンピュータシステム(201)は、本開示の方法およびシステムの様々な態様を調節し得、これには、例えば、scRNA-seqデータを生成または解析すること、(例えば、UMAPなどの次元削減アルゴリズムを使用して)scRNA-seqデータを、複数の表現型の状態に対応する潜在空間にマッピングすること、(例えば、確率推論を使用して)第1の表現型の状態と第2の表現型の状態の間の細胞型のリプログラミングを促進する1つ以上のゲノム領域を特定すること、scRNA-seqデータで教師ありアルゴリズム(例えば、教師ありUMAP)を学習させること、潜在空間に非線型の細胞軌跡の再構築を行うこと、scRNA-seqデータから低頻度のゲノム領域を取り除くこと、第1の細胞型の状態と第2の細胞型の状態の細胞のリプログラミングを促進するために、ゲノム編集手段を使用してゲノム領域を編集すること、ゲノム編集手段を使用してゲノム領域を編集することの結果として生じる細胞の潜在空間のずれ量を、異常検出アルゴリズムを使用して測定することと、複数の細胞型の潜在空間のプロファイルで学習させることと、ゲノム編集手段を使用してゲノム領域を編集する工程の結果として生じる細胞の潜在空間のずれの距離を測定することと、細胞の潜在空間の測定された量に基づいて、治療標的化するための遺伝子を順位付けることと、密度推定関数を使用して、ゲノム編集手段を使用してゲノム領域を編集することの結果として生じる細胞の潜在空間のずれ量を測定することと、表現型の状態に関連する疾患を治療するために、治療標的を特定することとが挙げられる。
【0072】
コンピュータシステム(201)は、ユーザのまたはコンピュータシステムの電子機器であり得るか、あるいは電子機器に対して遠隔に位置したコンピュータシステムであり得る。電子機器は、携帯電子機器であり得る。コンピュータシステム(201)は、中央処理装置(CPU、本明細書では「プロセッサ」および「コンピュータプロセッサ」とも称される)(205)を含み、これは、シングルコアまたはマルチコアのプロセッサ、あるいは並行処理のための複数のプロセッサであり得る。コンピュータシステム(201)はまた、メモリまたはメモリ位置(210)(例えばランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリ)、電子記憶装置(215)(例えばハードディスク)、1つ以上の他のシステムと通信するための通信インターフェース(220)(例えばネットワークアダプタ)、ならびに、キャッシュ、他のメモリ、データ記憶装置および/または電子ディスプレイアダプターなどの周辺機器(225)を含む。メモリ(210)、記憶装置(215)、インターフェース(220)および周辺機器(225)は、マザーボードなどの通信バス(実線)を介してCPU(205)と通信する。記憶装置(215)は、データを保存するためのデータ記憶装置(またはデータレポジトリ)であり得る。コンピュータシステム(201)は、通信インターフェース(220)の助けによってコンピューターネットワーク(「ネットワーク」)(230)に動作可能に接続され得る。ネットワーク(230)は、インターネット、インターネットおよび/またはエクストラネット、インターネットと通信状態にあるイントラネットおよび/またはエクストラネットであり得る。ネットワーク(230)は、場合によっては、電気通信および/またはデータネットワークである。ネットワーク(230)は、1つ以上のコンピュータサーバーを含み得、これは、クラウドコンピューティングなどの分散コンピューティングを可能にし得る。ネットワーク(230)は、場合によってはコンピュータシステム(201)の助けによって、ピアツーピア・ネットワークを実施し得、これは、コンピュータシステム(201)に接続された機器が、クライアントまたはサーバとして動くことを可能にし得る。
【0073】
CPU(205)は、プログラムまたはソフトウェアで具現され得る一連の機械可読命令を実行し得る。この命令は、メモリ(210)などのメモリ位置に保存され得る。この命令は、CPU(205)に向けられ得、これは後に、本開示の方法を実施するようにCPU(205)をプログラムし得るか、あるいは構成し得る。CPU(205)によって行われる動作の例としては、フェッチ、デコード、実行、およびライトバックが含まれ得る。
【0074】
CPU(205)は、集積回路など回路の一部であり得る。システム(201)の1つ以上の他の部品を回路に含め得る。場合によっては、回路は、特定用途向け集積回路(ASIC)である。
【0075】
記憶装置(215)は、ドライバ、ライブラリー、および保存したプログラムなどのファイルを記憶し得る。記憶装置(215)は、ユーザデータ、例えばユーザの嗜好およびユーザプログラムを記憶し得る。コンピュータシステム(201)は、場合によっては、イントラネットまたはインターネットを介してコンピュータシステム(201)と通信状態にあるリモートサーバ上に位置するなどした、コンピュータシステム(201)の外側にある1つ以上の別のデータ記憶装置を含み得る。
【0076】
コンピュータシステム(201)は、ネットワーク(230)を介して1つ以上のリモートコンピュータシステムと通信し得る。例えば、コンピュータ(201)は、ユーザのリモートコンピュータシステムと通信し得る。リモートコンピュータシステムの例としては、パーソナルコンピューター(例えば、ポータブルPC)、スレートPCまたはタブレットPC(例えば、Apple(登録商標)iPad、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(例えば、Apple(登録商標)iPhone、Android対応機器、Blackberry(登録商標))、または携帯情報端末が含まれる。ユーザは、ネットワーク(230)を介してコンピュータシステム(201)にアクセスし得る。
【0077】
本明細書に記載されているような方法は、例えば、メモリ(210)または電子記憶装置(215)上などの、コンピュータシステム(201)の電子記憶位置に記憶された機械(例えば、コンピュータプロセッサ)実行可能なコードによって実施され得る。機械実行可能または機械可読なコードは、ソフトウェアの形態で実現され得る。使用中に、コードは、プロセッサ(205)によって実行され得る。場合によっては、コードは、記憶装置(215)から検索されて、かつ、プロセッサ(205)によってすぐアクセスできるようにメモリ(210)に記憶され得る。状況によっては、電子記憶装置(215)は、除外され得、機械実行可能命令は、メモリ(210)に保存されるものとする。
【0078】
コードは、コードを実行するのに適したプロセッサを有する機械で使用されるように予めコンパイルされ構成され得るか、あるいは実行時にコンパイルされ得る。コードは、予めコンパイルされる様式または実行時にコンパイルされる(as-compiled)様式でコードを実行可能なように選択され得るプログラミング言語で供給され得る。
【0079】
コンピュータシステム(201)などの本明細書で提供されるシステムと方法の態様は、プログラミングで具現化され得る。当該技術の様々な態様は、通常、一種の機械可読媒体上で運ばれるまたは具現化される、機械(またはプロセッサ)実行可能なコードおよび/または関連するデータの形態で、「製品」または「製造物品」とみなされ得る。機械実行可能なコードは、メモリ(例えば、読み取り専用メモリ、ランダムアクセスメモリ、フラッシュメモリ)またはハードディスクなどの電子記憶装置に記憶され得る。「記憶」型の媒体は、様々な半導体メモリ、テープドライブ、ディスクドライブなどの、コンピュータやプロセッサなどの有形メモリ、あるいはその関連するモジュールのいずれかまたはすべてを含み得、これらは、ソフトウェアのプログラミングのためにいかなる時でも非一時的な記憶を提供し得る。ソフトウェアのすべてまたは一部は、時には、インターネットまたは様々な他の電気通信ネットワークを介して通信され得る。このような通信は、例えば、1つのコンピュータまたはプロセッサから別のものへの、例えば、管理サーバまたはホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへのソフトウェアのローディングを可能にし得る。ゆえに、ソフトウェア要素を持ち得る別の種類の媒体は、有線および光地上通信線ネットワークを介した、および様々なエアリンク(air-links)を通じた、ローカル機器間の物理インターフェースにわたって使用されるものなどの、光波、電波、および電磁波を含む。有線または無線リンク、光リンクなどの、このような波を運ぶ物理要素はまた、ソフトウェアを持つ媒体とみなされ得る。本明細書で使用される場合、非一時的で有形の「記憶」媒体に制限されない限り、コンピュータまたは機械「可読媒体」などの用語は、実行のためにプロセッサに命令を提供することに関与する媒体を指す。
【0080】
したがって、コンピュータ実行可能なコードなどの機械可読媒体は、有形記憶媒体、搬送波媒体または物理送信媒体を含むがこれらに限定されない、多くの形態を取り得る。不揮発性記憶媒体は、例えば、図面に示されているデータベースなどを実施するために使用され得るものなど、コンピュータなどにおける記憶機器のいずれかといった、光ディスクまたは磁気ディスクを含む。揮発性記憶媒体は、そのようなコンピュータプラットフォームのメインメモリなどのダイナミックメモリを含む。有形送信媒体は、同軸ケーブル、コンピュータシステム内のバスを含むワイヤーを含む、銅線および光ファイバーを含む。搬送波送信媒体は、無線周波(RF)および赤外線(IR)データ通信中に生成されたものなどの、電気信号または電磁気信号、あるいは音波または光波の形態を取り得る。したがって、コンピュータ可読媒体の共通の形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、他の磁気媒体、CD-ROM、DVDもしくはDVD-ROM、他の光学媒体、パンチカード、紙テープ、穴のパターンを有する他の物理的な記憶媒体、RAM、ROM、PROMおよびEPROM、FLASH-EPROM、他のメモリチップもしくはカートリッジ、データもしくは命令を伝達する搬送波、このような搬送波を伝達するケーブルもしくはリンク、またはコンピュータがプログラミングのコードおよび/またはデータを読み取り得る他の媒体を含む。コンピュータ可読媒体のこれらの形態の多くは、実行のためにプロセッサに1つ以上の命令の1つ以上のシーケンスを運ぶことに関与し得る。
【0081】
コンピュータシステム(201)は、電子ディスプレイ(235)を含むか、あるいはこれと通信状態にあり得、例えば、scRNA-seqデータ、マッピング、あるいは他のアルゴリズムのユーザ選択と、データベースとを提供するためのユーザインターフェース(UI)(240)を含む。UIの例は、グラフィカルユーザインターフェース(GUI)およびウェブベースのユーザインターフェースを含むがこれらに限定されない。
【0082】
本開示の方法およびシステムは、1つ以上のアルゴリズムによって実施され得る。アルゴリズムは、中央処理装置(205)によって実行される際に、ソフトウェアによって実施され得る。アルゴリズムは、例えば、scRNA-seqデータを生成または解析すること、(例えば、UMAPなどの次元削減アルゴリズムを使用して)scRNA-seqデータを、複数の表現型の状態に対応する潜在空間にマッピングすること、(例えば、確率推論を使用して)第1の表現型の状態と第2の表現型の状態の間の細胞型のリプログラミングを促進するゲノム領域を特定すること、scRNA-seqデータで教師ありアルゴリズム(例えば、教師ありUMAP)を学習させること、潜在空間に非線型の細胞軌跡の再構築を行うこと、scRNA-seqデータから低頻度のゲノム領域を取り除くこと、第1の細胞型の状態と第2の細胞型の状態の細胞のリプログラミングを促進するために、ゲノム編集手段を使用してゲノム領域を編集すること、ゲノム編集手段を使用してゲノム領域を編集することの結果として生じる細胞の潜在空間のずれ量を、異常検出アルゴリズムを使用して測定することと、複数の細胞型の潜在空間のプロファイルで学習させることと、ゲノム編集手段を使用してゲノム領域を編集する工程の結果として生じる細胞の潜在空間のずれの距離を測定することと、細胞の潜在空間の測定されたずれ量に基づいて、治療標的化するための遺伝子を順位付けることと、密度推定関数を使用して、ゲノム編集手段を使用してゲノム領域を編集することの結果として生じる細胞の潜在空間のずれ量を測定することと、表現型の状態に関連する疾患を治療するために、治療標的を特定することと、を行い得る。
【実施例
【0083】
実施例1-scRNA-seqデータの生成および前処理
シングルセルRNAシーケンシング(scRNA-seq)データは、以下のように生成する。マウスから複数の型の膵正常細胞および膵腫瘍細胞を単離して培養するが、これには、高悪性度の癌細胞(KrasG12D、p53-/-、Myc)、低悪性度の癌細胞(KrasG12D、p53-/-)、ならびに、不死化正常β細胞、導管細胞および腺房細胞が含まれる。転写抑制ペプチドであるKRABと融合した、触媒的に不活性なCas9(dCas9)を安定して発現するように、これらの細胞株をさらに遺伝子改変し、それによって、CRISPR干渉(CRISPRi)が、関心対象の遺伝子を不活性化することができる。scRNA-seqに関して、細胞の各型は、単離した単一細胞であり、その後、製造業者の説明書に従って、対応するRNAおよびcDNAライブラリーを調製する(10X Genomics)。cDNAライブラリーは、Miseq(Illumina社)によってシーケンシングを行って細胞数情報を取得し、その後、NextSeqまたはHiseq4000(Illumina社)によってシーケンシングを行ってscRNA-seqデータを取得する。
【0084】
scRNA-seqカウントデータの前処理は、以下のように行う。10Xシーケンシングによって生成した、未処理の、HGNCによりアライメントさせたUMIカウントマトリクスを、下流の分析パイプラインで分析する前に、前処理してスケーリングする。低存在量の遺伝子(例えば平均カウント<0.1)、リード数が細胞の<10%である遺伝子、ならびに、ゼロでないリード数が全遺伝子の<10%である細胞は、カウントマトリクスから取り除く(例えば、RにおいてSingleCellExperiment、scranおよびscaterライブラリーを使用する)。個々の細胞間のシーケンシング深度の相違を調整するために、次の分析に持ち越す前に、場合によっては、カウントマトリクスを正規化してスケーリングする。正規化方法の例としては、細胞レベルカウントを全細胞にわたる深度の中央値までグローバルスケーリングすること(スカラー調整)、線形システムを解いて個々の細胞の固有のスケーリング係数を得ること(例えば、RにおいてscranライブラリーのComputeSumFactorsを使用する)が含まれる。場合によっては、相互最近傍アルゴリズム(MNN、例えば、RにおいてscranライブラリーのmnnCorrect機能を使用する)によって試料間のバッチ効果を修正する。
【0085】
実施例2-潜在空間の構築
潜在空間の構築は、以下のように行う。教師あり機械学習アルゴリズムを使用して、高次元シングルセルカウントマトリクスを20-100-次元潜在空間にマッピングする。膵臓癌の場合は、純粋な細胞型の集合で削減アルゴリズムを学習させるが、当該細胞型の集合には、膵腺房細胞、膵管細胞および膵臓腺癌細胞が含まれる。関心対象の標的候補から生じ得る潜在的な毒性の合併症をモデル化するために、必須遺伝子(例えばPCNAまたはRPA3)で標的化した細胞も潜在空間の学習中に含める。純粋な細胞型の各々に対応するように教師あり学習の標識を選択する。
【0086】
潜在空間の構築のために、いくつかのアルゴリズムが考えられるが、これには、均一多様体近似および射影(UMAP)ならびに変分オートエンコーダ(VAE)が含まれるがこれらに限定されない。場合によっては、潜在空間の最適な次元数を決定するために、Elbow法(例えば、その全体が参照により本明細書に組み込まれるRichards et al., J Shoulder Elbow Surg 8(4): 351-354 (1999)に記載されているように)を使用した。UMAPに関して、モデル学習に以下のパラメータを使用したが、当該パラメータは、最小距離が0.025~0.25、近傍数が全細胞数の75%、そして、距離メトリックとしてはユークリッド距離である。
【0087】
UMAP多様体学習(Python)を使用して、標識した集団データの次元削減した射影にMonocle3パッケージ(登録商標)を利用して、正常エンドポイントと疾患エンドポイントの間の遷移の状態を定める細胞集団の初期の擬時間順序付けによって、非線形の細胞軌跡の再構築を実施した。DDRTreeおよびGenie3パッケージでグラフ逆埋め込みアルゴリズムを実施することによって結果として生じる順序付けを通して、最尤推論の進行軌跡を定める、次元削減したprincipal treeを構築した。
【0088】
その後、Genie3およびScribeパッケージ(登録商標)を用いたMoranの空間的自己相関検定を利用して、因果遺伝子調節ネットワーク干渉によって駆動因子遺伝子の確率推論を実施し、Louvainコミュニティ検出アルゴリズムによって、推論の軌跡の相互に影響を与える駆動因子候補の相互作用について探索的メトリクスを実施し、そして、ケンドール相関(Kendall Tau Correlation)およびグレンジャー因果検定(Granger Causality Test)のRを実施することによって、因果関係推論のロバスト性を高める統計検定を実施した。
【0089】
プール型CRISPRiライブラリーによって照合した標的遺伝子は、癌細胞を野生型様の発現状態に戻るようにリプログラミングする機能に関して定量した。遺伝子は、異常検出、密度推定、潜在空間の純粋な細胞集団に対するペアワイズユークリッド距離を含むがこれらに限定されないいくつかのアルゴリズムのうちの1つによってスコアリングした。
【0090】
異常検出は、以下のように行った。別個の単一クラス異常検出器を、異なる細胞型の潜在発現プロファイルで学習させたが、これには、膵管細胞、膵腺房細胞、膵臓腺癌、および、健康組織の毒性モデルとして(CRISPR/RNAiによって)標的化した必須遺伝子(例えばPCNAまたはRPA3)を有する膵臓腺癌が含まれるがこれらに限定されない。異常検出のためにいくつかのアルゴリズムを利用したが、これには、サポートベクターマシン(SVM)、隔離フォレストおよびサポートベクターデータ記述(SVDD)が含まれるがこれらに限定されない。その後、学習させた異常検出器モデルの各々は、CRISPRiライブラリーで標的化した単一細胞の潜在発現プロファイルに適用した決定関数の出力(例えば、チェビシェフ距離、相関距離、コサイン距離、ユークリッド距離、符号付きユークリッド距離、ハミング距離、ジャッカード距離、カルバック・ライブラ距離、マハラノビス距離、マンハッタン距離、ミンコフスキー距離、またはスピアマン距離などの分離した多様体への距離)に基づいて候補遺伝子をスコアリングするために使用した。
【0091】
密度推定は、以下のように行った。別個の密度推定器を、異なる細胞型の潜在発現プロファイルで学習させたが、膵管細胞、膵腺房細胞、膵臓腺癌、および、健康組織の毒性モデルとして(CRISPR/RNAiによって)標的化した必須遺伝子(例えばPCNAまたはRPA3)を有する膵臓腺癌が含まれるがこれらに限定されない。細胞型の各々の密度関数を推定するために、いくつかのアルゴリズムを使用したが、これには、Ball Tree またはKD Treeを用いた推定器、および、ニューラルネットワークに基づく手法(例えば、その全体が参照により本明細書に組み込まれるHuang et al., “Neural autoregressive flows,” arXiv:1804.00779に記載されているニューラル自己回帰フロー(neural autoregressive flow))が含まれるがこれらに限定されない。treeに基づく推定器に関して、密度関数を学習させるために、1)ガウス、2)トップハット、3)均一、および4)Epanechnikovが含まれるがこれらに限定されないいくつかのカーネルのうちの1つを使用した。その後、純粋な細胞型の各々のために学習させた密度推定器を使用して、CRISPRiライブラリーで標的化した単一細胞の潜在発現プロファイルをスコアリングした。
【0092】
モデルの学習および評価のために5分割交差検証を行った。リプログラミングの定量に関して、各標的遺伝子のブートストラップ信頼区間を構築するために、標的遺伝子の各々の細胞集団は、置換を伴って繰り返しサンプリングした(25~100X)。
【0093】
最適な標的候補を決定するために、異常検出器または密度推定器の決定関数の出力(例えば、チェビシェフ距離、相関距離、コサイン距離、ユークリッド距離、符号付きユークリッド距離、ハミング距離、ジャッカード距離、カルバック・ライブラ距離、マハラノビス距離、マンハッタン距離、ミンコフスキー距離、またはスピアマン距離などの分離した多様体への距離)をいくつかの方法で要約したが、これには、関心対象の特定の標的遺伝子を不活性化した全細胞にわたる平均決定関数、非標的ガイドRNAまたは関心対象の他の対照集団に対する特定の標的遺伝子の決定関数の効果量、ならびに、非標的ガイドRNAまたは関心対象の他の対照集団に対する特定の標的遺伝子の決定関数のコルモゴロフ-スミルノフ検定のボンフェローニ補正後のp値が含まれるがこれらに限定されない。場合によっては、すべての標的遺伝子にわたって、要約メトリックをz変換した。さらに、異常検出器(例えば、負のガイドを有する初代細胞および癌)の各々の要約メトリックを集計した(例えば平均、ストゥーファー法またはフィッシャー法)。陰性対照集団に対する決定関数のコルモゴロフ-スミルノフ検定のp値の閾値をさらに満たす、スコア上位の標的は、上位のリプログラミング遺伝子とみなし、さらなる生体検証のために持ち越す。
【0094】
実施例3-細胞の状態間の遷移を定量し、治療標的遺伝子を特定するための計算パイプライン
図3A図3Cは、遺伝子の照合の後に分化した細胞の状態間または表現型の異なる細胞の状態間の転写遷移を媒介する潜在的な標的遺伝子を特定するための計算フレームワークを例証する。関心対象の疾患および標的集団に対応する単一細胞のトランスクリプトームを単離し、シーケンシングした。(図3Aおよび図4A図4D、実施例4に示されているように)異なる細胞集団で教師あり次元削減法(例えばUMAPまたはVAE)によって代表的な潜在空間を生成し、そして、擬時間順序付けと、疾患状態から関心対象の標的状態への単一細胞の軌跡解析とによって関心対象の標的遺伝子を特定した。その後、候補を標的化するプール型CRISPR干渉(CRISPRi)ライブラリーを保有しているレンチウイルスによる形質導入によって、遺伝子候補(~100)を照合した。関心対象の標的状態へのリプログラミングが最も広範な遺伝子は、さらなる生体検証のために持ち越す。
【0095】
図3Aは、開示の実施形態に従って、新規な治療標的遺伝子のリプログラミングを定量することと、特定することとの一例を示す。CRISPRによる遺伝子の照合と、潜在空間のインテリジェント構築と、異常検出とを活用することによって、疾患細胞集団を所望の標的表現型の状態へとプログラミングする機能に従って、標的遺伝子を定量する。標的の状態は、健康組織または初代細胞系に由来するものか、あるいは老化細胞、幹細胞、前癌細胞、または疾患の進行に関連する前駆細胞が含まれるがこれらに限定されない中間の状態を表わすものであり得る。
【0096】
図3B図3Cに示されているように、異常検出(例えば密度に基づく手法(k近傍法、局所外れ値因子、隔離フォレストによる)、部分空間に基づく外れ値検出、相関に基づく外れ値検出、テンソルに基づく外れ値検出、サポートベクターマシン(SVM)、単一クラスベクターマシン、サポートベクターデータ記述、ニューラルネットワーク(レプリケータニューラルネットワーク、オートエンコーダ、長・短期記憶(LSTM)ニューラルネットワーク)、ベイジアンネットワーク、隠れマルコフモデル(HMM)、クラスター解析に基づく外れ値検出、相関ルールおよび頻出アイテムセットのずれ、ファジー理論に基づく外れ値検出ならびにアンサンブル手法(例えば、機能バギング、スコア正規化、および異なる多様性の供給源を使用する)を使用して、標的状態への転写リプログラミングの程度を定量した。
【0097】
図3Bは、開示の実施形態に従って、異なる細胞集団が占める位相空間を正確に表す緻密な多様体の境界を定めるための方法として異常検出の一例を示す。
【0098】
図3Cは、膵臓癌の状況におけるこの一例を表している。簡単に説明すると、別個の異常検出モデルを学習させて、以下の分化した細胞集団を記述する代表的な多様体を生成したが、これには、膵管細胞(リプログラミングの陽性対照)、膵腺房細胞(リプログラミングの陽性対照)、非標的ガイドRNAを発現するKras変異型膵癌細胞(リプログラミングの陰性対照)、ならびに、標的化する必須遺伝子を発現するKras変異型膵癌細胞(毒性の標的の陽性対照)が挙げられる。
【0099】
図3Cに示されているように、その後、学習させた異常検出モデルを適用して、CRISPRiライブラリーで標的化したKras変異型膵癌細胞のシングルセルRNA-seqプロファイルをスコアリングした。関心対象の各標的遺伝子に関して、異常検出器モデルの決定関数を使用して、転写遷移の程度を定量した。実際には、最良の標的は、陰性対照と比べてより大きい決定関数と効果量を示し、リプログラミングの陽性対照と比べてより小さい決定関数と効果量を示す。
【0100】
さらに、図3Cで示されているように、複数の異常検出器を活用することによって、学習させたモデルの決定関数に基づいて、癌細胞を野生型の初代発現プロファイルへと最大限にリプログラミングする遺伝子を特定できる。ここで、関心対象の標的由来の健康細胞で発生し得る潜在的な毒性の合併症(「毒性」クラスタラベル)をモデル化するために、アポトーシス細胞も含んだ。
【0101】
実施例4-シングルセルRNA-seqデータの微細で局所的な構造を維持しながら分離性を実現するための、教師ありアルゴリズムとしてのUMAP
図4A図4Dは、シングルセルRNA-seqデータの遷移を定量するためのUMAPの可能性を表している。図4Aは、細胞型混合データセットに適用される、主成分分析(PCA)、t分布型確率的近傍埋め込み(t-SNE)、ならびに、均一多様体近似および射影(UMAP)を含むいくつかの次元削減アルゴリズムの比較を示す。図4Aに示されているように、細胞型混合データセットに教師あり次元削減を適用することができ、モデルの学習において、細胞型が教師あり標識の機能を果たす。主成分分析(PCA)やt分布型確率的近傍埋め込み(t-SNE)とは異なり、UMAPは、シングルセルデータの微細で局所的な構造を維持しながら優れた分離性を実現した。
【0102】
図4Bは、膵管細胞系、腺房細胞系および腺癌細胞系で学習させたt-SNEおよびUMAPによって構築される潜在空間の安定性の比較を示す。これは、UMAPが、教師あり潜在空間の構築においてより優れた安定性を達成することを概念的に例証する。不変な無作為の状態で、膵管細胞系、腺房細胞系および腺癌細胞系からなる20%の混合試料から生成される潜在空間は、UMAPアルゴリズムの全データセットの潜在空間とより厳密にアライメントする。
【0103】
図4Cは、膵臓癌のリプログラミングの定量に対するUMAPの「最小距離」パラメータの効果の一例を示し、図4Dは、膵臓癌のリプログラミングの定量に対するUMAPの潜在空間の次元性の効果の一例を示す。図4C図4Dは、膵臓癌の細胞のリプログラミングの定量に対するUMAPハイパーパラメータの効果を表している。条件の範囲にわたって決定スコアの相関性が強いことは、リプログラミングの定量が、合理的なUMAPハイパーパラメータの範囲にわたってロバストであることを表している。
【0104】
実施例5-高次元シングルセルRNA-seqデータから構築した擬時間のprincipal treeに基づく因果推論からの処置標的候補の特定
図5Aは、膵腺房細胞(右側にある濃い網掛け)から膵管細胞(中間にある中程度の網掛け)へ、そして次に高悪性度の癌細胞(KrasG12D、p53-/-、Myc)(左側にある薄い網掛け)への遷移を特徴とする候補選択パイプラインによって形成される、完全な擬時間順序付けの2次元射影を表している。これは、実証目的のための、これらの細胞集団間の最大の分離性を維持する結果の2次元射影である。黒色の曲線は、DDRTreeアルゴリズムを使用して学習させた軌跡のprincipal tree(principal trajectory tree)の2次元射影を表わしている。
【0105】
図5Bは、高次元シングルセルRNA-seqデータから構築した擬時間のprincipal treeに基づく因果推論から候補を生成するためのパイプラインの一例を示す。初期の標的候補選択パイプラインは、グラフ逆埋め込みを使用してシングルセルデータから明確な主要グラフ(principal graph)を学習することによって、細胞を順序付け、それによって、これらの3つの細胞型の複雑な生体プロセスをロバストに正確に解く。各細胞を高次元空間のポイントとみなすことができ、各次元は、ゲノムの異なる遺伝子の発現を記述する。遺伝子発現の変化のプログラムを特定することは、その空間にわたって細胞が通る軌跡を学習させることに等しく、これは、その後、候補選択のために遷移を通して重要な遺伝子発現の変化を研究するために使用することができる。
【0106】
パイプラインの前処理段階では、UMAP多様体学習法を使用してscRNA-seqデータの次元およびノイズを削減し、そして、低い発現レベルに基づき、外れ値(>90%であることが多い)を除去した。次に、Monocle3およびLouvainアルゴリズムのコミュニティ検出機能を使用して、結果として生じたデータの低次元表現において強連結成分を標識したが、これが、Monocle3およびDDRTreeアルゴリズムを使用して擬時間順序付けするための基礎の機能を果たす。この手法では、関心対象の遷移の健康状態と疾患状態を表す細胞集団として標識した、「ルート」エンドポイントの標識のみを使用して、半教師あり方法で試料を配向した。その後、DDRTreeは、擬時間段階にわたって各細胞集団の推定される基礎となる点分布の中央を通って、エンドポイントを連結したスパニンググラフを学習する。Moranの空間的自己相関検定を使用して、遷移を駆動する遺伝子を強調表示したが、ここで、エンドポイントのみではなく、学習したprincipal treeによって推論されるように、補間の遷移段階全体にわたる全体的な試料点の発現のマーキングにおける影響に基づき遺伝子にスコアを割り当てることによって、「重要」な因果遺伝子の選択を促す。この検定では、関心対象の遷移を駆動する遺伝子の順位を生成し、そして、外れ値をフィルタリングして強力な候補を検証するためには、ケンドール相関およびグレンジャー因果検定を行った。
【0107】
実施例6-潜在UMAP空間のリプログラミングの定量は、異なる異常検出アルゴリズムにわたってロバストである
図6A図6Cは、異常検出アルゴリズムの選択に関わらず、上位のリプログラミング遺伝子をどのように特定することができるかを例証している。図6Aは、ランダムなガウスノイズで2つの半月形の散布図で学習された2つの異常検出アルゴリズムの図を示している。これによって、ガウスノイズを用いて半月形の散布データで学習させた2つの異なる異常検出モデル(単一クラスサポートベクターマシンおよび隔離フォレスト)の学習させた決定多様体の境界の可視化を実現する。図6Bは、膵臓癌に関連する、いくつかの異常検出モデルにわたる~70の標的sgRNAのz変換後の決定関数のヒートマップを示している。ここで、野生型の細胞は、リプログラミングの陽性対照に対応し、一方で、負のガイド列は、リプログラミングの陰性対照に対応する。このヒートマップは、複数の細胞集団にわたる異常検出器を使用して、分化した、あるいは異なる細胞の状態から、毒性が最も低い別の分化した、あるいは異なる細胞の状態へとリプログラミングする可能性が最も高い標的遺伝子をどのように特定するかを表している。学習させた5つの異常検出器モデルを通した平均ランクに従って、標的を順位付ける。70のsgRNAのうちの3つは、結果として、初代細胞の状態への大幅なリプログラミングとアライメントさせた、調整p値となる((32)、(52)および(38))。
【0108】
図6Cは、いくつかの異なる異常検出アルゴリズム(密度に基づく手法(k近傍法、局所外れ値因子、隔離フォレスト)、部分空間に基づく外れ値検出、相関に基づく外れ値検出、テンソルに基づく外れ値検出、サポートベクターマシン(SVM)、単一クラスベクターマシン、サポートベクターデータ記述、ニューラルネットワーク(例えば、レプリケータニューラルネットワーク、オートエンコーダ、長・短期記憶(LSTM)ニューラルネットワーク)、ベイジアンネットワーク、隠れマルコフモデル(HMM)、クラスター解析に基づく外れ値検出、相関ルールおよび頻出アイテムセットのずれ、ファジー理論に基づく外れ値検出ならびにアンサンブル手法 (例えば、機能バギング、スコア正規化、および異なる多様性の供給源を使用する)のうちの1つを使用して、UMAP潜在空間で上位のリプログラミング標的を特定することができることを表している。両方のアルゴリズムに関して、同3つの標的((32)、(52)および(58))は、コルモゴロフ-スミルノフ検定の調整p値で測定すると、陰性対照とは別に、大幅なリプログラミングを表した。これらの3つの標的に関して、決定関数はさらに、細胞集団検出器のすべてにわたって90パーセンタイル(zスコア=1.645)を満たすか、これを超えるものであった。上位10の標的のうちの8つ(80%)は、両モデルにわたって共有した。
【0109】
実施例7-リプログラミングを定量することや標的遺伝子を特定することは、疾患の進行中の異なる細胞型にわたってロバストである
本開示の方法およびシステムを使用する際に、複数の細胞集団にわたって異常検出器を使用し、高悪性度から低悪性度の癌細胞へとリプログラミングする可能性が最も高い標的遺伝子を同定した。特に、野生型の導管細胞または腺房細胞へと、三重変異の膵癌細胞をリプログラミングする方法を展開した。
【0110】
図7A図7Gは、高悪性度の癌細胞を、癌の進行における異なる段階の細胞へとリプログラミングするための、上位の標的遺伝子をどのように特定するかを例証している。図7Aは、膵臓癌の進行と、癌の発症の異なる段階にわたってリプログラミング分析するために使用される、対応する細胞の図を示す。野生型の細胞として、初代膵管細胞および不死化腺房細胞を使用した。低悪性度の癌細胞として、二重変異を保有する膵癌細胞(KrasG12D、p53-/-)を使用した。高悪性度の癌細胞として、三重変異を保有する膵癌細胞(KrasG12D、p53-/-、Myc)を使用した。
【0111】
図7B図7Cは、三重変異の膵癌細胞(KrasG12D、p53-/-、Myc)を、野生型の導管細胞または腺房細胞へとリプログラミングした分析図(図7B)と、70の単一ガイドRNAにわたるz変換後の異常検出の決定関数のヒートマップ図(図7C)とを示す。ここでは、標的を、学習させた5つの異常検出器モデルにわたる平均順位に従って順序付けしている。
【0112】
図7Cは、膵臓癌に関連する、いくつかの異常検出モデルにわたる約70の標的sgRNAのz変換後の決定関数のヒートマップを示している。ここで、野生型の細胞(導管細胞または腺房細胞)は、リプログラミングするための陽性対照に対応し、一方で、負のガイド列は、リプログラミングするための陰性対照(負のsgRNAを保有している三重変異の膵癌細胞)に対応する。このヒートマップは、複数の細胞集団にわたる異常検出器を使用して、高悪性度の癌細胞から野生型の細胞へとリプログラミングする可能性が最も高い標的遺伝子をどのように特定するかを表している。
【0113】
図7D図7Eは、三重変異の膵癌細胞(KrasG12D、p53-/-、Myc)を、二重変異の膵癌細胞(KrasG12D、p53-/-)へとリプログラミングする分析図(図7D)と、標的を、学習させた5つの異常検出器モデルにわたる平均順位に従って順序付けした、70の単一ガイドRNAにおけるz変換後の異常検出決定関数のヒートマップ図(図7E)とを示す。
【0114】
図7Eは、膵臓癌に関連する、いくつかの異常検出モデルにわたる約70の標的sgRNAのz変換後の決定関数のヒートマップを示している。ここで、低悪性度の癌細胞(導管細胞または腺房細胞)は、リプログラミングするための陽性対照に対応し、一方で、負のガイド列は、リプログラミングするための陰性対照(負のsgRNAを保有している三重変異の膵癌細胞)に対応する。このヒートマップは、複数の細胞集団にわたる異常検出器を使用して、高悪性度の癌細胞から低悪性度の癌細胞へとリプログラミングする可能性が最も高い標的遺伝子をどのように特定するかを表している。
【0115】
図7F図7Gは、三重変異の膵癌細胞(KrasG12D、p53-/-、Myc)を、野生型の導管細胞または腺房細胞へとリプログラミングし、二重変異の膵癌細胞を中間の細胞型とする分析図(図7F)と、標的を、学習された5つの異常検出器モデルにわたる平均順位に従って順序付けした、70の単一ガイドRNAにおけるz変換後の異常検出決定関数のヒートマップ図(図7G)とを示す。すなわち、リプログラミングは、第1のリプログラミング(三重変異の膵癌細胞を二重変異の膵癌細胞へとする)と、第2のリプログラミング(二重変異の膵癌細胞を野生型の導管細胞または腺房細胞へとする)と、を含む。
【0116】
図7Gは、膵臓癌に関連する、いくつかの異常検出モデルにわたる約70の標的sgRNAのz変換後の決定関数のヒートマップを示している。ここで、野生型の細胞(導管細胞または腺房細胞)は、リプログラミングするための陽性対照に対応し、一方で、負のガイド列は、リプログラミングするための陰性対照(負のsgRNAを保有している三重変異の膵癌細胞)に対応する。加えて、精度およびロバスト性を向上するために、低悪性度の癌細胞(二重変異の膵癌細胞)も、リプログラミング分析に考慮した。このヒートマップは、複数の細胞集団にわたる異常検出器を使用して、リプログラミング分析において中間の細胞型を考慮することによって、高悪性度の癌細胞から野生型の細胞へとリプログラミングする可能性が最も高くかつ信頼性が強い標的遺伝子をどのように特定するかを表している。特に、リプログラミング分析において中間の細胞型を追加することによって、より鮮明かつよりロバストなヒートマップデータを得る。これによって、リプログラミングを目的とするための所望の標的細胞の状態を決定するより良好なガイダンスを提供する(そのために正確さを改善する)。
【0117】
本発明の好ましい実施形態が本明細書で示され記載されているが、このような実施形態は一例として提示されているに過ぎないことは、当業者に明白であろう。本発明は、明細書内で提供されている特定の例によって限定されるようには意図されていない。本発明は、前述の明細書に関して記載されているが、本明細書の実施形態の説明および例示は、限定的な意味で解釈されることを意味していない。当業者であれば、本発明から逸脱することなく、ここで、多数の変形、変更および置換に思い至るであろう。さらに、本発明のすべての態様は、様々な条件および変数に依存する、本明細書で説明された特定の描写、構成、または相対的な比率に限定されないことが理解されよう。本明細書に記載の本発明の実施形態の様々に対する様々な代替物が、本発明の実施に際して利用され得ることが理解されるべきである。それゆえ、本発明は、任意のそのような代替物、修正物、変形物、または同等物にも及ぶものと企図される。以下の請求項は本発明の範囲を定義するものであり、この請求項とその均等物の範囲内の方法および構造体がそれによって包含されるものであるということが意図されている。
図1
図2
図3A
図3B
図3C
図4A
図4B
図4C
図4D
図5A
図5B
図6A
図6B
図6C
図7A
図7B
図7C
図7D
図7E
図7F
図7G
【国際調査報告】