IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アルゲン バイオテクノロジーズ,インク.の特許一覧

特表2023-536699薬物の有効性を判定するための方法およびシステム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-08-29
(54)【発明の名称】薬物の有効性を判定するための方法およびシステム
(51)【国際特許分類】
   C12Q 1/68 20180101AFI20230822BHJP
   C12M 1/00 20060101ALI20230822BHJP
   C12M 1/34 20060101ALI20230822BHJP
   G01N 33/15 20060101ALI20230822BHJP
   G01N 33/50 20060101ALI20230822BHJP
   G16B 30/00 20190101ALI20230822BHJP
   C12Q 1/6886 20180101ALI20230822BHJP
【FI】
C12Q1/68
C12M1/00 A
C12M1/34 A
G01N33/15 Z
G01N33/50 Z
G16B30/00
C12Q1/6886 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023504198
(86)(22)【出願日】2021-07-21
(85)【翻訳文提出日】2023-03-20
(86)【国際出願番号】 US2021042537
(87)【国際公開番号】W WO2022020444
(87)【国際公開日】2022-01-27
(31)【優先権主張番号】63/054,890
(32)【優先日】2020-07-22
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ANDROID
(71)【出願人】
【識別番号】521555812
【氏名又は名称】アルゲン バイオテクノロジーズ,インク.
(74)【代理人】
【識別番号】110003797
【氏名又は名称】弁理士法人清原国際特許事務所
(72)【発明者】
【氏名】フアン,チュン-ハオ
(72)【発明者】
【氏名】ナイト,スペンサー チャールズ
(72)【発明者】
【氏名】リー,コー-チュエン
【テーマコード(参考)】
2G045
4B029
4B063
【Fターム(参考)】
2G045AA40
2G045FB02
2G045JA03
4B029AA07
4B029AA23
4B029BB11
4B029BB20
4B063QA05
4B063QQ08
4B063QQ13
4B063QQ42
4B063QQ61
4B063QR32
4B063QR41
4B063QR78
4B063QR80
4B063QS38
(57)【要約】
【解決手段】薬物の有効性(例えば、オンターゲットとオフターゲットの効果)を判定する方法およびシステムは、細胞型の表現型状態を表わす、細胞型の罹患細胞と正常細胞の核酸配列データの潜在空間表現を生成する工程と、潜在空間のトポロジーに少なくとも部分的に基づいて、標的ゲノム領域を同定する工程と、第1の潜在空間表現を産出するために、改変されている細胞型の第1の細胞の配列データを潜在空間にマッピングする工程と、第2の潜在空間表現を産出するために、薬物に曝露されており、曝露される前に第1の表現型状態を呈した細胞型の第2の細胞の配列データを潜在空間にマッピングする工程と、第1の潜在空間表現および第2の潜在空間表現に少なくとも部分的に基づいて、薬物の有効性を判定する工程を含むことがある。
【選択図】図7
【特許請求の範囲】
【請求項1】
薬物の有効性を判定する方法であって、
(a)ある細胞型の複数の罹患細胞と複数の正常細胞に関する核酸配列データの潜在空間表現を生成する工程であって、前記潜在空間は前記細胞型の複数の表現型状態を表わす、工程と、
(b)前記潜在空間のトポロジーに少なくとも部分的に基づいて、前記細胞型の標的ゲノム領域を同定する工程と、
(c)第1の潜在空間表現を産出するために前記細胞型の第1の細胞の配列データを前記潜在空間にマッピングする工程であって、前記第1の細胞の前記標的ゲノム領域は改変されており、前記第1の細胞は前記改変の前に第1の表現型状態を呈した、工程と、
(d)第2の潜在空間表現を産出するために前記細胞型の第2の細胞の配列データを前記潜在空間にマッピングする工程であって、前記第2の細胞は前記薬物に曝露され、前記第2の細胞は、前記薬物に曝露される前に前記第1の表現型状態を呈した、工程と、
(e)前記第1の潜在空間表現および前記第2の潜在空間表現に少なくとも部分的に基づいて、前記薬物の有効性を判定する工程と
を含む方法。
【請求項2】
前記(a)は、前記潜在空間表現を生成するために教師付き次元削減アルゴリズムを使用することを含む、請求項1に記載の方法。
【請求項3】
前記教師付き次元削減アルゴリズムは、均一な多様体の近似と投影(UMAP)アルゴリズムである、請求項2に記載の方法。
【請求項4】
前記教師付き次元削減アルゴリズムは、t分布型確率的近傍埋込み(t-SNE)アルゴリズムである、請求項2に記載の方法。
【請求項5】
前記教師付き次元削減アルゴリズムは、可変オートエンコーダである、請求項2に記載の方法。
【請求項6】
前記第1の表現型状態は癌である、請求項1に記載の方法。
【請求項7】
前記第1の表現型状態は中間状態である、請求項1に記載の方法。
【請求項8】
前記中間状態は、線維芽細胞状態または前駆細胞状態である、請求項7に記載の方法。
【請求項9】
前記(e)は、(i)前記第1の細胞の前記潜在空間表現における前記改変からの推移、および(ii)前記第2の細胞の前記潜在空間表現における前記薬物への曝露からの推移を測定すること、ならびに(i)と(ii)を数学的に関連付けることを含む、請求項1に記載の方法。
【請求項10】
前記測定することは、教師付き学習アルゴリズムを使用することを含む、請求項9に記載の方法。
【請求項11】
前記教師付き学習アルゴリズムは、サポートベクターマシン、ランダムフォレスト、ロジスティク回帰、ベイズ分類器、または畳み込みニューラルネットワークである、請求項10に記載の方法。
【請求項12】
前記細胞型の複数の追加細胞の核酸配列データを前記潜在空間にマッピングする工程であって、前記複数の追加細胞の各細胞は、複数の薬物のそれぞれの薬物に曝露されている、工程と、
前記第1の細胞の前記潜在空間表現、および前記複数の追加細胞の潜在空間表現に少なくとも部分的に基づいて、各薬物の有効性を判定する工程と、
各薬物の前記有効性に少なくとも部分的に基づいて前記複数の薬物の順位を電子的に出力する工程と
をさらに含む、請求項1に記載の方法。
【請求項13】
前記薬物は、化合物、阻害剤、および抗体からなる群から選択される、請求項1に記載の方法。
【請求項14】
前記細胞型の前記第1の細胞の配列データおよび前記細胞型の前記第2の細胞の配列データのうち少なくとも1つが、単細胞配列決定によって生成される、請求項1に記載の方法。
【請求項15】
前記細胞型の前記第1の細胞の配列データおよび前記細胞型の前記第2の細胞の配列データのうち少なくとも1つが、連続的な単細胞配列決定によって生成される、請求項14に記載の方法。
【請求項16】
前記(c)における改変は、遺伝子編集ユニットの使用を含む、請求項1に記載の方法。
【請求項17】
遺伝子編集は、CRISPRシステム、CRISPRiシステム、CRISPRaシステム、RNAiシステム、およびshRNAシステムからなる群から選択された遺伝子編集ユニットを用いて実施される、請求項16に記載の方法。
【請求項18】
前記(c)における改変は、前記標的ゲノム領域の少なくとも一部を標的とするシングルガイドRNA(sgRNA)の使用を含む、請求項1に記載の方法。
【請求項19】
前記(e)は、前記第1の潜在空間表現を前記第2の潜在空間表現と比較することを含む、請求項1に記載の方法。
【請求項20】
前記(e)は、オンターゲット潜在空間表現に対する前記第1の潜在空間表現の最大類似度、またはオフターゲット潜在空間表現に対する前記第1の潜在空間表現の最小類似度の判定に少なくとも部分的に基づいて、前記薬物の有効性を判定することを含む、請求項19に記載の方法。
【請求項21】
薬物の有効性を判定する方法であって、
(a)ある細胞型の複数の罹患細胞と複数の正常細胞に関する核酸配列データの潜在空間表現を生成する工程であって、前記潜在空間は前記細胞型の複数の表現型状態を表す、工程と、
(b)前記潜在空間のトポロジーに少なくとも部分的に基づいて、前記細胞型を前記複数の表現型状態の第1の表現型状態から第2表現型状態へとリプログラミングするのを促進するゲノム領域を同定する工程と、
(c)第1の潜在空間表現を産出するために前記細胞型の第1の細胞の配列データを前記潜在空間にマッピングする工程であって、前記第1の細胞は前記第1の表現型状態から前記第2表現型状態へとリプログラミングされている、工程と
(d)第2の潜在空間表現を産出するために前記細胞型の第2の細胞の配列データを前記潜在空間にマッピングする工程であって、前記第2の細胞は前記薬物に曝露され、前記第2の細胞は、前記薬物に曝露される前に前記第1の表現型状態を呈した、工程と、
(e)前記第1の潜在空間表現および前記第2の潜在空間表現に少なくとも部分的に基づいて、前記薬物の有効性を判定する工程と
を含む方法。
【請求項22】
前記(a)は、前記潜在空間表現を生成するために教師付き次元削減アルゴリズムを使用することを含む、請求項21に記載の方法。
【請求項23】
前記教師付き次元削減アルゴリズムは、均一な多様体の近似と投影(UMAP)アルゴリズムである、請求項22に記載の方法。
【請求項24】
前記教師付き次元削減アルゴリズムは、t分布型確率的近傍埋め込み(t-SNE)アルゴリズムである、請求項22に記載の方法。
【請求項25】
前記教師付き次元削減アルゴリズムは、可変オートエンコーダである、請求項22に記載の方法。
【請求項26】
前記(b)は、前記第1の表現型状態と前記第2表現型状態との間の推論された最尤進行軌跡を構築するために、前記潜在空間上で非線形細胞軌跡の再構成を実施することを含む、請求項21に記載の方法。
【請求項27】
前記非線形細胞軌道の再構成を実施することは、前記潜在空間に逆グラフ埋め込みアルゴリズムを適用することを含む、請求項26に記載の方法。
【請求項28】
前記第1の表現型状態は癌であり、前記第2の表現型状態は野生型状態である、請求項21の方法。
【請求項29】
前記第2の表現型状態は中間状態である、請求項21に記載の方法。
【請求項30】
前記中間状態は、線維芽細胞状態または前駆細胞状態である、請求項29に記載の方法。
【請求項31】
前記第1の細胞は、遺伝子編集を使用して前記第1の表現型状態から前記第2の表現型状態へとリプログラミングされている、請求項21に記載の方法。
【請求項32】
前記遺伝子編集は、CRISPRシステム、CRISPRiシステム、CRISPRaシステム、RNAiシステム、およびshRNAシステムからなる群から選択された遺伝子編集ユニットを用いて実施される、請求項31に記載の方法。
【請求項33】
前記(e)は、(i)前記第1の細胞の前記潜在空間表現における前記編集からの推移、および(ii)前記第2の細胞の前記潜在空間表現における前記薬物に対する曝露からの推移を測定すること、ならびに(i)と(ii)を数学的に関連付けることと、を含む、請求項21に記載の方法。
【請求項34】
前記測定することは、教師付き学習アルゴリズムを使用することを含む、請求項33に記載の方法。
【請求項35】
前記教師付き学習アルゴリズムは、サポートベクターマシン、ランダムフォレスト、ロジスティク回帰、ベイズ分類器、または畳み込みニューラルネットワークである、請求項34に記載の方法。
【請求項36】
前記細胞型の複数の追加細胞の核酸配列データを前記潜在空間にマッピングする工程であって、前記複数の追加細胞の各細胞は、複数の薬物のそれぞれの薬物に曝露されている、工程と、
前記第1の細胞の前記潜在空間表現および前記複数の追加細胞の潜在空間表現に少なくとも部分的に基づいて、各薬物の有効性を判定する工程と、
各薬物の前記有効性に少なくとも部分的に基づいて前記複数の薬物の順位を電子的に出力する工程とをさらに含む、請求項21に記載の方法。
【請求項37】
前記薬物は、化合物、阻害剤、および抗体からなる群から選択される、請求項21に記載の方法。
【請求項38】
前記細胞型の前記第1の細胞の配列データおよび前記細胞型の前記第2の細胞の配列データのうち少なくとも1つが、単細胞配列決定によって生成される、請求項21に記載の方法。
【請求項39】
前記細胞型の前記第1の細胞の配列データおよび前記細胞型の前記第2の細胞の配列データの少なくとも1つが、連続的な単細胞配列決定によって生成される、請求項38に記載の方法。
【請求項40】
薬物の有効性を判定するシステムであって、
ある細胞型の複数の罹患細胞および複数の正常細胞に関する核酸配列データを含むデータベースと、
1つ以上のコンピュータプロセッサであって、
(i)前記核酸配列データの潜在空間表現を生成することであって、前記潜在空間は前記細胞型の複数の表現型状態を表す、生成すること、
(ii)前記潜在空間のトポロジーに少なくとも部分的に基づいて、前記細胞型を前記複数の表現型状態の第1の表現型状態から第2の表現型状態へとリプログラミングするのを促進するゲノム領域を同定すること、
(iii)第1の潜在空間表現を産出するために前記細胞型の第1の細胞の配列データを前記潜在空間にマッピングすることであって、前記第1の細胞は前記第1の表現型状態から前記第2表現型状態へとリプログラミングされている、マッピングすること、
(iv)第2の潜在空間表現を産出するために前記細胞型の第2の細胞の配列データを前記潜在空間にマッピングすることであって、前記第2の細胞は前記薬物に曝露され、前記第2の細胞は、前記薬物に曝露される前に前記第1の表現型状態を呈した、マッピングすること、および
(v)前記第1の潜在空間表現および前記第2の潜在空間表現に少なくとも部分的に基づいて、前記薬物の有効性を判定すること
を行うように個別または集合的にプログラムされるコンピュータプロセッサと
を備える、システム。
【請求項41】
1つ以上のコンピュータプロセッサによる実行時に、薬物の有効性を判定するための方法を実施する機械実行可能コードを備える非一時的コンピュータ可読媒体であって、前記方法は、
(a)ある細胞型の複数の罹患細胞と複数の正常細胞に関する核酸配列データの潜在空間表現を生成する工程であって、前記潜在空間は前記細胞型の複数の表現型状態を表す、工程と、
(b)前記潜在空間のトポロジーに少なくとも部分的に基づいて、前記細胞型を前記複数の表現型状態の第1の表現型状態から第2の表現型状態へとリプログラミングするのを促進するゲノム領域を同定する工程と、
(c)第1の潜在空間表現を産出するために前記細胞型の第1の細胞の配列データを前記潜在空間にマッピングする工程であって、前記第1の細胞は前記第1の表現型状態から前記第2の表現型状態へとリプログラミングされている、工程と、
(d)第2の潜在空間表現を産出するために前記細胞型の第2の細胞の配列データを前記潜在空間にマッピングする工程であって、前記第2の細胞は前記薬物に曝露され、前記第2の細胞は、前記薬物に曝露される前に前記第1の表現型状態を示した、工程と、
(e)前記第1の潜在空間表現および前記第2の潜在空間表現に少なくとも部分的に基づいて、前記薬物の有効性を判定する工程と
を含む、非一時的コンピュータ可読媒体。
【請求項42】
薬物の有効性を判定するシステムであって、
細胞型の複数の罹患細胞および複数の正常細胞に関する核酸配列データを含むデータベースと、
1つ以上のコンピュータプロセッサであって、
(i)前記核酸配列データの潜在空間表現を生成することであって、前記潜在空間は前記細胞型の複数の表現型状態を表す、生成すること、
(ii)前記潜在空間のトポロジーに少なくとも部分的に基づいて、前記細胞型の標的ゲノム領域を同定すること、
(iii)第1の潜在空間表現を産出するために前記細胞型の第1の細胞の配列データを前記潜在空間にマッピングすることであって、前記第1の細胞の前記標的ゲノム領域は改変され、前記第1の細胞は、前記改変前に第1の表現型の状態を呈した、マッピングすること、
(iv)第2の潜在空間表現を産出するために前記細胞型の第2の細胞の配列データを前記潜在空間にマッピングすることであって、前記第2の細胞は前記薬物に曝露され、前記第2の細胞は、前記薬物に曝露される前に前記第1の表現型状態を呈した、マッピングすること、および
(v)前記第1の潜在空間表現および前記第2の潜在空間表現に少なくとも部分的に基づいて、前記薬物の有効性を判定すること
を行うように個別にまたは集合的にプログラムされたコンピュータプロセッサと、
を備える、システム。
【請求項43】
1つ以上のコンピュータプロセッサによる実行時に、薬物の有効性を判定するための方法を実施する機械実行可能コードを備える非一時的コンピュータ可読媒体であって、前記方法は、
(a)ある細胞型の複数の罹患細胞と複数の正常細胞に関する核酸配列データの潜在空間表現を生成する工程であって、前記潜在空間は前記細胞型の複数の表現型状態を表す、工程と、
(b)前記潜在空間のトポロジーに少なくとも部分的に基づいて、前記細胞型の標的ゲノム領域を同定する工程と、
(c)第1の潜在空間表現を産出するために前記細胞型の第1の細胞の配列データを前記潜在空間にマッピングする工程であって、前記第1の細胞の前記標的ゲノム領域は改変され、前記第1の細胞は、前記改変前に第1の表現型状態を呈した、工程と、
(d)第2の潜在空間表現を産出するために前記細胞型の第2の細胞の配列データを前記潜在空間にマッピングする工程であって、前記第2の細胞は前記薬物に曝露され、前記第2の細胞は、前記薬物に曝露される前に前記第1の表現型状態を呈した、工程と、
(e)前記第1の潜在空間表現および前記第2の潜在空間表現に少なくとも部分的に基づいて、前記薬物の有効性を判定する工程と
を含む、非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
相互参照
本出願は、2020年7月22日に出願された、米国仮特許出願第63/054,890号の利益を主張するものであり、これはその全体が参照により本明細書に組み込まれる。
【背景技術】
【0002】
薬物のオンターゲットとオフターゲットを評価する能力は、治療応用に大きな期待を与え得る。しかし、これは困難な課題であり、対象の標的遺伝子ごとに大規模で時間を要する実験アッセイおよび動物モデルが必要とされる可能性がある。さらに、処置阻害剤などの薬物を使用する治療用標的化は、疾患または疾病を有する対象における有効性を評価され得る。
【発明の概要】
【0003】
本明細書では、その有効性に影響を与え得る、薬物のオンターゲットおよびオフターゲットを評価するための改良された方法の必要性が認識されている。そのような薬物は、治療用標的化に適している特定のゲノム領域に関連する場合がある。本明細書で提供される方法およびシステムは、薬物のオンターゲットおよびオフターゲットを判定する効率、精度、および/またはスループットを大幅に向上させ得る。そのような方法およびシステムは、治療用標的化のための特定のゲノム領域の同定を活用し得る。
【0004】
本開示は、薬物のオンターゲットおよびオフターゲットを評価する方法およびシステムを提供する。そのような薬物は、標的ゲノム領域と関連することがある。例えば、現在の技術は、薬物候補のハイスループットスクリーニングに関しており、有効な治療標的として選択され得る関連する標的遺伝子を同定するために、高コンテンツ、高効率、およびハイスループットCRISPR(クラスター化された規則的に間隔をあけた短パリンドローム反復配列(clustered regularly interspaced short palindromic repeats))スクリーニング技術を利用し得る。これらのスクリーニングでは、CRISPRを介して標的となる遺伝子ごとに、薬物の単細胞トランスクリプトームフィンガープリントを比較するのに適したアルゴリズムを活用してもよい。本開示の方法およびシステムは、対象の疾患適応症に関連するバイオマーカーおよび治療標的を選択するための基礎として、細胞の標的ゲノム領域を選択的に改変する能力の定量化に少なくとも部分的に基づいて、薬物のオンターゲットおよびオフターゲットを迅速かつ正確に評価し得る。そのような方法およびシステムは、これらのフィンガープリントを、必須遺伝子(例えば、RPA1)を標的とするCRISPRによって生成された毒性フィンガープリントと比較することによって、高い治療指数を有する薬物を選択する工程を含んでもよい。
【0005】
細胞の標的ゲノム領域を選択的に改変し、(例えば、細胞をある分化した状態から別の状態に変換させることによって)細胞の状態を変化させる能力は、治療応用に大きな期待を与え得る。しかし、細胞状態の選択的な改変(例えば、細胞のリプログラミングを介して)の期待にもかかわらず、ある細胞状態から別の細胞状態への移行を媒介し得る遺伝的要因を同定することは、多くの治療関連応用にとって依然として困難である。例えば、リプログラミングの表現型は複雑であり得、階層的、非線形的に相互作用している多くの遺伝子を含んでいる可能性がある。これらの遺伝子のうち、どの遺伝子が所与のプロセスにおいて因果関係があるのか、または相関関係があるのかを見極めることは困難な作業であり、対象の遺伝子ごとに大規模で時間を必要とする実験アッセイおよび動物モデルが必要とされる可能性がある。さらに、処置阻害剤などの薬剤を使用する治療用標的化は、疾患または障害を有する対象において有効性が評価され得る。
【0006】
さらに、本明細書では、薬物の有効性を判定するための改善された方法の必要性が認識されている。そのような薬物は、治療標的化に適した特定のゲノム領域(例えば、ある表現型状態から別の表現型状態への細胞のリプログラミングを促進し得るゲノム領域)と関連する場合がある。本明細書で提供される方法およびシステムは、薬物の有効性を判定することの効率、精度、および/またはスループットを大幅に向上させ得る。そのような方法およびシステムは、治療用標的化のための特定のゲノム領域の同定を活用し得る。
【0007】
本開示は、薬物の有効性を判定する方法およびシステムをさらに提供する。そのような薬物は、細胞の状態を変えるために(例えば、ある分化した状態から別の状態への細胞の転写リプログラミングを介して)選択的に改変され得る細胞の標的ゲノム領域と関連付けられる場合がある。例えば、現在の技術は、薬物候補のハイスループットスクリーニングに関しており、表現型の異なる細胞状態間のリプログラミングを潜在的に媒介し得る、および/または有効な治療標的として選択され得る関連する標的遺伝子を同定するために、高コンテンツ、高効率、およびハイスループットCRISPR(クラスター化された規則的に間隔をあけた短パリンドローム反復配列(clustered regularly interspaced short palindromic repeats))スクリーニング技術を活用し得る。これらのスクリーニングは、異常検出モデルを活用して、CRISPRを介して標的とされる各遺伝子について、リプログラミングを測定可能な表現型として定量化し得る。本開示の方法およびシステムは、対象の疾患兆候に関連するバイオマーカーおよび治療標的を選択するための基礎として、(例えば、細胞のリプログラミングを介して)細胞の標的ゲノム領域を選択的に改変する能力の定量化に少なくとも部分的に基づいて、薬物の有効性を有効に判定し得る。
【0008】
一態様では、本開示は、薬物の有効性を判定する方法を提供し、該方法は、(a)ある細胞型の複数の罹患細胞と複数の正常細胞に関する核酸配列データの潜在空間表現を生成する工程であって、前記潜在空間は前記細胞型の複数の表現型状態を表す、工程と、(b)前記潜在空間のトポロジーに少なくとも部分的に基づいて、前記細胞型を前記複数の表現型状態の第1の表現型状態から第2の表現型状態へとリプログラミングするのを促進するゲノム領域を同定する工程と、(c)第1の潜在空間表現を産出するために前記細胞型の第1の細胞の配列データを前記潜在空間にマッピングする工程であって、前記第1の細胞は前記第1の表現型状態から前記第2の表現型状態へとリプログラミングされている、工程と、(d)第2の潜在空間表現を産出するために前記細胞型の第2の細胞の配列データを前記潜在空間にマッピングする工程であって、前記第2の細胞は前記薬物に曝露され、前記第2の細胞は、前記薬物に曝露される前に前記第1の表現型状態を呈した、工程と、(e)前記第1の潜在空間表現および前記第2の潜在空間表現に少なくとも部分的に基づいて、前記薬物の前記有効性を判定する工程とを含む。
【0009】
いくつかの実施形態では、(a)は、前記潜在空間表現を生成するために教師付き次元削減アルゴリズムを使用することを含む。いくつかの実施形態では、前記教師付き次元削減アルゴリズムは、均一な多様体の近似と投影(UMAP)アルゴリズムである。いくつかの実施形態では、前記教師付き次元削減アルゴリズムは、t分布型確率的近傍埋込み(t-SNE)アルゴリズムである。いくつかの実施形態では、前記教師付き次元削減アルゴリズムは、可変オートエンコーダである。いくつかの実施形態では、(b)は、前記第1の表現型状態と前記第2の表現型との間の推論された最尤進行軌跡を構築するために、前記潜在空間上で非線形細胞軌跡の再構成を実施することを含む。いくつかの実施形態では、前記非線形細胞軌跡の再構成を実施することは、前記潜在空間に逆グラフ埋込みアルゴリズムを適用することを含む。
【0010】
いくつかの実施形態では、前記第1の表現型状態は癌であり、前記第2の表現型状態は野生型状態である。いくつかの実施形態では、前記第2の表現型状態は中間状態である。いくつかの実施形態では、前記中間状態は線維芽細胞状態または前駆細胞状態である。いくつかの実施形態では、前記第1の細胞は、遺伝子編集を使用して前記第1の表現型状態から前記第2の表現型状態へとリプログラミングされている。いくつかの実施形態では、前記遺伝子編集は、CRISPR(例えば、活性Cas9)システム、CRISPRi(例えば、CRISPR干渉、KRABを含む転写抑制ペプチドに融合した触媒活性を伴わないCas9)システム、CRISPRa(例えば、CRISPR活性化、VPR(HIVウイルス性タンパク質R)を含む転写活性化ペプチドに融合した触媒活性を伴わないCas9)システム、RNAiシステム、およびshRNAシステムからなる群から選択された遺伝子編集ユニットを用いて実施される。
【0011】
いくつかの実施形態では、(e)は、(i)前記第1の細胞の前記潜在空間表現における前記編集からの推移、および(ii)前記第2の細胞の前記潜在空間表現における前記薬物に対する曝露からの推移を測定すること、ならびに(i)と(ii)を数学的に関連付けることを含む。いくつかの実施形態では、前記測定することは教師付き学習アルゴリズムの使用を含む。いくつかの実施形態では、教師付き学習アルゴリズムは、サポートベクターマシン、ランダムフォレスト、ロジスティク回帰、ベイズ分類器、または畳み込みニューラルネットワークである。
【0012】
いくつかの実施形態では、方法は、前記細胞型の複数の追加細胞の核酸配列データを前記潜在空間にマッピングする工程であって、前記複数の追加細胞の各細胞は、複数の薬物のそれぞれの薬物に曝露される、工程と、前記第1の細胞の前記潜在空間表現、および前記複数の追加細胞の潜在空間表現に少なくとも部分的に基づいて、各薬物の有効性を判定する工程と、各薬物の前記有効性に少なくとも部分的に基づいて前記複数の薬物の順位を電子的に出力する工程とをさらに含む。いくつかの実施形態では、薬物は、化合物(例えば、小分子)、阻害剤(例えば、小分子阻害剤)および抗体からなる群から選択される。
【0013】
いくつかの実施形態では、前記細胞型の前記第1の細胞の前記配列データ、および前記細胞型の前記第2の細胞の配列データのうち少なくとも1つが、単細胞配列決定によって生成される。いくつかの実施形態では、前記細胞型の前記第1の細胞の前記配列データ、および前記細胞型の前記第2の細胞の配列データの少なくとも1つが、連続的な単細胞配列決定によって生成される。
【0014】
他の態様では、本開示は、薬物の有効性を判定する方法を提供し、該方法は、(a)ある細胞型の複数の罹患細胞と複数の正常細胞に関する核酸配列データの潜在空間表現を生成する工程であって、前記潜在空間は前記細胞型の複数の表現型状態を表す、工程と、(b)前記潜在空間のトポロジーに少なくとも部分的に基づいて、前記細胞型の標的ゲノム領域を同定する工程と、(c)第1の潜在空間の表現を産出するために前記細胞型の第1の細胞の配列データを前記潜在空間にマッピングする工程であって、前記第1の細胞の前記標的ゲノム領域は改変されており、および、前記第1の細胞は、前記改変前に第1の表現型の状態を呈した、工程と、(d)第2の潜在空間表現を産出するために前記細胞型の第2の細胞の配列データを前記潜在空間にマッピングする工程であって、前記第2の細胞は前記薬物に曝露され、前記第2の細胞は、前記薬物に曝露される前に前記第1の表現型状態を呈した、工程と、(e)前記第1の潜在空間表現および前記第2の潜在空間表現に少なくとも部分的に基づいて、前記薬物の前記有効性を判定する工程とを含む。
【0015】
いくつかの実施形態では、(a)は、前記潜在空間表現を生成するために教師付き次元削減アルゴリズムを使用することを含む。いくつかの実施形態では、前記教師付き次元削減アルゴリズムは、均一な多様体の近似と投影(UMAP)アルゴリズムである。いくつかの実施形態では、前記教師付き次元削減アルゴリズムは、t分布型確率的近傍埋込み(t-SNE)アルゴリズムである。いくつかの実施形態では、前記教師付き次元削減アルゴリズムは、可変オートエンコーダである。
【0016】
いくつかの実施形態では、前記第1の表現型状態は癌である。いくつかの実施形態では、前記第1の表現型状態は中間状態である。いくつかの実施形態では、前記中間状態は線維芽細胞状態または前駆細胞状態である。
【0017】
いくつかの実施形態では、(e)は、(i)前記第1の細胞の前記潜在空間表現における前記改変からの推移、および(ii)前記第2の細胞の前記潜在空間表現における前記薬物に対する曝露からの推移を測定すること、ならびに(i)と(ii)を数学的に関連付けること、を含む。いくつかの実施形態では、前記測定することは教師付き学習アルゴリズムの使用を含む。いくつかの実施形態では、教師付き学習アルゴリズムは、サポートベクターマシン、ランダムフォレスト、ロジスティク回帰、ベイズ分類器、または畳み込みニューラルネットワークである。
【0018】
いくつかの実施形態では、方法は、前記細胞型の複数の追加細胞の核酸配列データを前記潜在空間にマッピングする工程であって、前記複数の追加細胞の各細胞は、複数の薬物のそれぞれの薬物に曝露されている、工程と、前記第1の細胞の前記潜在空間表現、および前記複数の追加細胞の潜在空間表現に少なくとも部分的に基づいて、各薬物の有効性を判定する工程と、各薬物の前記有効性に少なくとも部分的に基づいて前記複数の薬物の順位を電子的に出力する工程とをさらに含む。いくつかの実施形態では、薬物は、化合物(例えば、小分子)、阻害剤(例えば、小分子阻害剤)および抗体からなる群から選択される。
【0019】
いくつかの実施形態では、前記細胞型の前記第1の細胞の前記配列データ、および前記細胞型の前記第2の細胞の配列データのうち少なくとも1つが、単細胞配列決定によって生成される。いくつかの実施形態では、前記細胞型の前記第1の細胞の前記配列データ、および前記細胞型の前記第2の細胞の配列データの少なくとも1つが、連続的な単細胞配列決定によって生成される。
【0020】
いくつかの実施形態では、(c)における改変は、遺伝子編集ユニットの使用を含む。いくつかの実施形態では、遺伝子編集は、CRISPRシステム、CRISPRiシステム、CRISPRaシステム、RNAiシステム、およびshRNAシステムからなる群から選択された遺伝子編集ユニットを用いて実施される。いくつかの実施形態では、(c)における改変は、標的ゲノム領域の少なくとも一部を標的とするシングルガイドRNA(sgRNA)の使用を含む。いくつかの実施形態では、(e)は、第1の潜在空間表現を第2の潜在空間表現と比較することを含む。いくつかの実施形態では、(e)は、オンターゲット潜在空間表現に対する第1の潜在空間表現の最大類似度、またはオフターゲット潜在空間表現に対する第1の潜在空間表現の最小類似度の判定に少なくとも部分的に基づいて、薬物の有効性を判定することを含む。
【0021】
他の態様では、本開示は、薬物の有効性を判定するシステムを提供し、該システムは、細胞型の複数の罹患細胞および複数の正常細胞に関する核酸配列データを含むデータベースと、1つ以上のコンピュータプロセッサであって、(i)前記核酸配列データの潜在空間表現を生成することであって、前記潜在空間は前記細胞型の複数の表現型状態を表す、生成すること、(ii)前記潜在空間のトポロジーに少なくとも部分的に基づいて、前記細胞型を前記複数の表現型状態の第1の表現型状態から第2の表現型状態へとリプログラミングするのを促進するゲノム領域を同定すること、(iii)第1の潜在空間表現を産出するために前記細胞型の第1の細胞の配列データを前記潜在空間にマッピングすることであって、前記第1の細胞は前記第1の表現型状態から前記第2の表現型状態へとリプログラミングされている、マッピングすること、(iv)第2の潜在空間表現を産出するために前記細胞型の第2の細胞の配列データを前記潜在空間にマッピングすることであって、前記第2の細胞は前記薬物に曝露され、前記第2の細胞は、前記薬物に曝露される前に前記第1の表現型状態を呈した、マッピングすること、(v)前記第1の潜在空間表現および前記第2の潜在空間表現に少なくとも部分的に基づいて、前記薬物の前記有効性を判定することを行うように個別または集合的にプログラムされるコンピュータプロセッサとを備える。
【0022】
他の態様では、本開示は、1つ以上のコンピュータプロセッサによる実行時に、薬物の有効性を判定するための方法を実施する機械実行可能なコードを備える非一時的なコンピュータ可読媒体を提供し、前記方法は、(a)ある細胞型の複数の罹患細胞と複数の正常細胞に関する核酸配列データの潜在空間表現を生成する工程であって、前記潜在空間は前記細胞型の複数の表現型状態を表す、工程と、(b)前記潜在空間のトポロジーに少なくとも部分的に基づいて、前記細胞型を前記複数の表現型状態の第1の表現型状態から第2の表現型状態へとリプログラミングするのを促進するゲノム領域を同定する工程と、(c)第1の潜在空間表現を産出するために前記細胞型の第1の細胞の配列データを前記潜在空間にマッピングする工程であって、前記第1の細胞は前記第1の表現型状態から前記第2の表現型状態へとリプログラミングされている、工程と、(d)第2の潜在空間表現を産出するために前記細胞型の第2の細胞の配列データを前記潜在空間にマッピングする工程であって、前記第2の細胞は前記薬物に曝露され、前記第2の細胞は、前記薬物に曝露される前に前記第1の表現型状態を呈した、工程と、(e)前記第1の潜在空間表現および前記第2の潜在空間表現に少なくとも部分的に基づいて、前記薬物の前記有効性を判定する工程とを含む。
【0023】
他の態様では、本開示は、薬物の有効性を判定するシステムを提供し、該システムは、細胞型の複数の罹患細胞および複数の正常細胞に関する核酸配列データを含むデータベースと、1つ以上のコンピュータプロセッサであって、(i)前記核酸配列データの潜在空間表現を生成することであって、前記潜在空間は前記細胞型の複数の表現型状態を表す、生成すること、(ii)前記潜在空間のトポロジーに少なくとも部分的に基づいて、前記細胞型の標的ゲノム領域を同定すること、(iii)第1の潜在空間の表現を産出するために前記細胞型の第1の細胞の配列データを前記潜在空間にマッピングすることであって、前記第1の細胞の前記標的ゲノム領域は改変されており、および、前記第1の細胞は、前記改変前に第1の表現型の状態を呈した、マッピングすること、(iv)第2の潜在空間表現を産出するために前記細胞型の第2の細胞の配列データを前記潜在空間にマッピングすることであって、前記第2の細胞は前記薬物に曝露され、前記第2の細胞は、前記薬物に曝露される前に前記第1の表現型状態を呈した、マッピングすること、(v)前記第1の潜在空間表現および前記第2の潜在空間表現に少なくとも部分的に基づいて、前記薬物の前記有効性判定することを行うように個別または集合的にプログラムされるコンピュータプロセッサとを備える。
【0024】
他の態様では、本開示は、1つ以上のコンピュータプロセッサによる実行時に、薬物の有効性を判定するための方法を実施する機械実行可能コードを備える一時的コンピュータ可読媒体を提供し、前記方法は、(a)ある細胞型の複数の罹患細胞と複数の正常細胞に関する核酸配列データの潜在空間表現を生成する工程であって、前記潜在空間は前記細胞型の複数の表現型状態を表す、工程と、(b)前記潜在空間のトポロジーに少なくとも部分的に基づいて、前記細胞型の標的ゲノム領域を同定する工程と、(c)第1の潜在空間の表現を産出するために前記細胞型の第1の細胞の配列データを前記潜在空間にマッピングする工程であって、前記第1の細胞の前記標的ゲノム領域は改変されており、および、前記第1の細胞は、前記改変前に第1の表現型の状態を呈した、工程と、(d)第2の潜在空間表現を産出するために前記細胞型の第2の細胞の配列データを前記潜在空間にマッピングする工程であって、前記第2の細胞は前記薬物に曝露され、前記第2の細胞は、前記薬物に曝露される前に前記第1の表現型状態を呈した、工程と、(e)前記第1の潜在空間表現および前記第2の潜在空間表現に少なくとも部分的に基づいて、前記薬物の前記有効性を判定する工程とを含む。
【0025】
本開示の別の態様は、1つ以上のコンピュータプロセッサによる実行時に、上記または本明細書のいずれかに記載の方法のいずれかを実施する、機械実行可能なコードを備える非一時的なコンピュータ可読媒体を提供する。
【0026】
本開示の別の態様は、1つ以上のコンピュータプロセッサ、およびそれに接続されたコンピュータメモリを含む、システムを提供する。このコンピュータメモリは、1つ以上のコンピュータプロセッサによる実行時に、上記または本明細書中の他に記載されるいずれかを実施する機械実行可能コードを備える。
【0027】
本開示のさらなる態様および利点は、以下の詳細な記載から当業者に容易に明白となり、ここでは、本開示の例示的な実施形態のみが示され、記載されている。理解されるように、本開示は、他の実施形態および異なる実施形態においても可能であり、その様々な詳細は、そのすべてが本開示から逸脱することなく様々な明白な点で修正することができる。したがって、図面および説明は本来、例示的なものとしてみなされ、限定的なものであるとはみなされない。
【0028】
参照による組み込み
本明細書で言及されるすべての公開物、特許、および特許出願は、あたかも個々の公開物、特許、または特許出願がそれぞれ参照により本明細書に具体的かつ個別に組み込まれるのと同じ程度にまで、参照により本明細書に組み込まれている。参照により組み込まれる刊行物および特許または特許出願が、本明細書に含まれる開示に矛盾する程度まで、本明細書は、そのような矛盾のある題材に取って代わる、および/または、上記題材よりも優先するように意図される。
【図面の簡単な説明】
【0029】
本発明の新規な特徴は、とりわけ添付の請求項で説明される。本発明の特徴と利点は、本発明の原理が用いられる例示的実施形態を説明する以下の詳細な説明と、以下の添付図面(本明細書では「図(“Figure”および“FIG.”)」とも称される)とを参照することにより、より良く理解されるであろう。
図1A】薬物の有効性を判定する方法を例示するフローチャートの例を示す。
図1B】薬物の有効性を判定する方法を例示するフローチャートの例を示す。
図2】本明細書に提供される方法を実施するようにプログラムまたは構成されるコンピュータシステムを示す。
図3A】薬物のオンターゲットとオフターゲットの効果、および新規な阻害剤の同定を評価する例を示す。CRISPRi遺伝子照合、連続的単細胞配列決定、インテリジェント潜在空間構築、教師付き学習を活用することによって、薬物フィンガープリント(小分子、抗体による標的の阻害)によるオンターゲットとオフターゲットの効果は、標的フィンガープリントによって指示された望ましい状態に一致する能力(CRISPRi、CRISPR、RNAiによる標的照合)に応じて評価される。
図3B】元の状態と所望の状態との比較によって新しい細胞を分類するための2値細胞型上のモデルを訓練するための方法としての教師付き学習の図を示す。
図4A】サンプル間にわたってリードと遺伝子数を正規化するための連続的単細胞配列決定アプローチの例を示し、正規化アプローチの概要図を含む。
図4B】サンプル間にわたってリードと遺伝子数を正規化するための連続的単細胞配列決定アプローチの例を示し、連続的単細胞配列決定アプローチの前後のサンプルからの細胞当たりのリード数と遺伝子数を含む。DMSOは、MIAPaCa-2細胞がDMSOで6時間処置されたことを示し、Piperは、MIAPaCa-2細胞がピペルロングミンで6時間処置されたことを示す。
図5A】単細胞のRNA配列決定プロファイル(6時間処置)の定量化に基づく機械学習主導の上位薬物候補を選択する例を示す。図5Aは、ヒト癌膵臓癌細胞MIAPaCa-2と健常膵管細胞hTERT-HPNEの2次元UMAP投影を、細胞型(図5A)または薬物処置(オーラノフィン、D9、またはピペルロングミン)および持続時間(図5B)のいずれかによって示す。
図5B】単細胞のRNA配列決定プロファイル(6時間処置)の定量化に基づく機械学習主導の上位薬物候補を選択する例を示す。図5Bは、ヒト癌膵臓癌細胞MIAPaCa-2と健常膵管細胞hTERT-HPNEの2次元UMAP投影を、細胞型(図5A)または薬物処置(オーラノフィン、D9、またはピペルロングミン)および持続時間(図5B)のいずれかによって示す。
図5C】単細胞のRNA配列決定プロファイル(6時間処置)の定量化に基づく機械学習主導の上位薬物候補を選択する例を示す。図5Cは、ビヒクル対照(DMSO)または薬物候補で処置される細胞の機械学習分類を示す。簡潔に言えば、教師付き機械学習アルゴリズムは、純粋な細胞型(健常細胞および癌細胞)の2次元UMAPトランスクリプトームプロファイルで訓練され、AUCが0.98を超える細胞型間の2値識別を可能にした。処置された細胞は、処置後のそれらの結果として生じる2次元トランスクリプトームに基づいて「癌」または「健常」に分類された。
図5D】単細胞のRNA配列決定プロファイル(6時間処置)の定量化に基づく機械学習主導の上位薬物候補を選択する例を示す。図5Dは、ビヒクル対照(DMSO)に対する薬物候補の二項試験結果の概要を示す。
図6A】単細胞のRNA配列決定プロファイル(24時間処置)の定量化に基づく機械学習主導の上位薬物候補を選択する例を示す。図6Aは、ヒト癌膵臓癌細胞MIAPaCa-2と健常膵管細胞hTERT-HPNEの2次元UMAP投影を、細胞型(図6A)または薬物処置(オーラノフィン、D9、またはピペルロングミン)および持続時間(図6B)のいずれかによって示す。
図6B】単細胞のRNA配列決定プロファイル(24時間処置)の定量化に基づく機械学習主導の上位薬物候補を選択する例を示す。図6Bは、ヒト癌膵臓癌細胞MIAPaCa-2と健常膵管細胞hTERT-HPNEの2次元UMAP投影を、細胞型(図6A)または薬物処置(オーラノフィン、D9、またはピペルロングミン)および持続時間(図6B)のいずれかによって示す。
図6C】単細胞のRNA配列決定プロファイル(24時間処置)の定量化に基づく機械学習主導の上位薬物候補を選択する例を示す。図6Cは、ビヒクル対照(DMSO)または薬物候補で処置される細胞の機械学習分類を示す。簡潔に言えば、教師付き機械学習アルゴリズムは、純粋な細胞型(健常細胞および癌細胞)の2次元UMAPトランスクリプトームプロファイルで訓練され、AUCが0.98を超える細胞型間の2値識別を可能にした。処置された細胞は、処置後のそれらの結果として生じる2次元トランスクリプトームに基づいて「癌」または「健常」に分類された。
図6D】単細胞のRNA配列決定プロファイル(24時間処置)の定量化に基づく機械学習主導の上位薬物候補を選択する例を示す。図6Dは、ビヒクル対照(DMSO)に対する薬物候補の二項試験結果の概要を示す。
図7】CRISPRによって照合されたオンターゲットとオフターゲットを有する細胞との分類を比較することによって、新しい薬物で処置された細胞を分類するために、2値細胞上でモデルを訓練する方法としての教師付き学習の例示を示す。
図8A】薬物のオンターゲットおよびオフターゲット効果を評価する例を示す。(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)ヒト膵臓癌細胞株MIAPaCa-2の2次元UMAP投影は、sgRNA(図8Aの陰性対照sgRNAを含む)によって示された。
図8B】薬物のオンターゲットおよびオフターゲット効果を評価する例を示す。(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)ヒト膵臓癌細胞株MIAPaCa-2の2次元UMAP投影は、sgRNA(図8BのKRAS sgRNAを含む)によって示された。
図8C】薬物のオンターゲットおよびオフターゲット効果を評価する例を示す。(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)ヒト膵臓癌細胞株MIAPaCa-2の2次元UMAP投影は、sgRNA(図8CのTXNRD1 sgRNAを含む)によって示された。
図8D】薬物のオンターゲットおよびオフターゲット効果を評価する例を示す。(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)ヒト膵臓癌細胞株MIAPaCa-2の2次元UMAP投影は、sgRNA(図8DのRPA1 sgRNAを含む)によって示された。
図8E】薬物のオンターゲットおよびオフターゲット効果を評価する例を示す。(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)ヒト膵臓癌細胞株MIAPaCa-2の2次元UMAP投影は、薬物処置(図8Eのオーラノフィンを含む)によって示された。
図8F】薬物のオンターゲットおよびオフターゲット効果を評価する例を示す。(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)ヒト膵臓癌細胞株MIAPaCa-2の2次元UMAP投影は、薬物処置(図8FのD9を含む)によって示された。
図8G】薬物のオンターゲットおよびオフターゲット効果を評価する例を示す。(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)ヒト膵臓癌細胞株MIAPaCa-2の2次元UMAP投影は、薬物処置(図8Gのピペロングミンを含む)によって示された。
図8H】薬物のオンターゲットおよびオフターゲット効果を評価する例を示す。(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)ヒト膵臓癌細胞株MIAPaCa-2の2次元UMAP投影は、統合された。図8Hの破線の円で示されるように、薬理学的阻害(オーラノフィン、D9、またはピペロングミンによって阻害されたTXNRD1)によるオンターゲットおよびオフターゲットの効果は、(TXNRD1またはKRASを標的とするsgRNA)遺伝的阻害によって指示されたオンターゲットのフィンガープリントに一致する能力に応じて評価された。必須遺伝子RPA1を標的とするsgRNAは毒性対照フィンガープリントとして使用された。
図9A】薬物のオンターゲットおよびオフターゲット効果を評価する例を示す。(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)ヒト膵臓癌細胞株MIAPaCa-2の2次元、t分布型確率的近傍埋込み(t-SNE)投影は、sgRNA(図9Aの陰性対照sgRNAを含む)によって示された。
図9B】薬物のオンターゲットおよびオフターゲット効果を評価する例を示す。(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)ヒト膵臓癌細胞株MIAPaCa-2の2次元、t分布型確率的近傍埋込み(t-SNE)投影は、sgRNA(図9BのKRAS sgRNAを含む)によって示された。
図9C】薬物のオンターゲットおよびオフターゲット効果を評価する例を示す。(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)ヒト膵臓癌細胞株MIAPaCa-2の2次元、t分布型確率的近傍埋込み(t-SNE)投影は、sgRNA(図9CのTXNRD1 sgRNAを含む)によって示された。
図9D】薬物のオンターゲットおよびオフターゲット効果を評価する例を示す。(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)ヒト膵臓癌細胞株MIAPaCa-2の2次元、t分布型確率的近傍埋込み(t-SNE)投影は、sgRNA(図9DのRPA1 sgRNAを含む)によって示された。
図9E】薬物のオンターゲットおよびオフターゲット効果を評価する例を示す。(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)ヒト膵臓癌細胞株MIAPaCa-2の2次元、t分布型確率的近傍埋込み(t-SNE)投影は、薬物処置(図9Eのオーラノフィンを含む)によって示された。
図9F】薬物のオンターゲットおよびオフターゲット効果を評価する例を示す。(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)ヒト膵臓癌細胞株MIAPaCa-2の2次元、t分布型確率的近傍埋込み(t-SNE)投影は、薬物処置(図9FのD9を含む)によって示された。
図9G】薬物のオンターゲットおよびオフターゲット効果を評価する例を示す。(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)ヒト膵臓癌細胞株MIAPaCa-2の2次元、t分布型確率的近傍埋込み(t-SNE)投影は、薬物処置(図9Gのピペロングミンを含む)によって示された。
図9H】薬物のオンターゲットおよびオフターゲット効果を評価する例を示す。(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)ヒト膵臓癌細胞株MIAPaCa-2の2次元、t分布型確率的近傍埋込み(t-SNE)投影は、統合された。図9Hの破線の円で示されるように、薬理学的阻害(オーラノフィン、D9、またはピペロングミンによって阻害されたTXNRD1)によるオンターゲットおよびオフターゲットの効果は、(TXNRD1またはKRASを標的とするsgRNA)遺伝的阻害によって指示されたオンターゲットのフィンガープリントに一致する能力に応じて評価された。必須遺伝子RPA1を標的とするsgRNAは毒性対照フィンガープリントとして使用された。
図10A】TXNRD1標的遺伝子を例として使用して、薬物のオンターゲットおよびオフターゲットの効果を評価する本方法の再現性を示す。ヒト膵臓癌細胞株MIAPaCa-2(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)の2次元UMAP投影は、sgRNA(図10Aの陰性対照sgRNAを含む)によって示された。
図10B】TXNRD1標的遺伝子を例として使用して、薬物のオンターゲットおよびオフターゲット効果を評価する本方法の再現性を示す。ヒト膵臓癌細胞株MIAPaCa-2(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)の2次元UMAP投影は、sgRNA(図10BのTXNRD1#1 sgRNAを含む)によって示された。
図10C】TXNRD1標的遺伝子を例として使用して、薬物のオンターゲットおよびオフターゲット効果を評価する本方法の再現性を示す。ヒト膵臓癌細胞株MIAPaCa-2(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)の2次元UMAP投影は、sgRNA(図10CのTXNRD1#2 sgRNAを含む)によって示された。
図10D】TXNRD1標的遺伝子を例として使用して、薬物のオンターゲットおよびオフターゲット効果を評価する本方法の再現性を示す。ヒト膵臓癌細胞株MIAPaCa-2(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)の2次元UMAP投影は、薬物処置(図10Dのオーラノフィンを含む)によって示された。
図10E】TXNRD1標的遺伝子を例として使用して、薬物のオンターゲットおよびオフターゲット効果を評価する本方法の再現性を示す。ヒト膵臓癌細胞株MIAPaCa-2(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)の2次元UMAP投影は統合された。図10Eの破線の円で示されるように、薬理学的阻害(オーラノフィンによって阻害されたTXNRD1)によるオンターゲットおよびオフターゲット効果は、2つの独立した遺伝的阻害(2つの独立したTXNRD1を標的とするsgRNA)によって指示されたオンターゲットフィンガープリントに一致する能力に応じて評価された。
図10F】TXNRD1標的遺伝子を例として使用して、薬物のオンターゲットおよびオフターゲット効果を評価する本方法の再現性を示す。TXNRD1を標的とする2つの独立したsgRNAを導入したヒト膵臓癌細胞株MIAPaCa-2におけるTXNRD1遺伝子発現の定量PCR(qPCR)分析は、図10Fに示される。データは、平均値±標準偏差として表示されている。群間の統計的有意性は、両側スチューデントt検定(two-tailed Student’s t-test)により算出された。有意値はP<0.05()である。
図11A】KRAS標的遺伝子を例として使用して、薬物のオンターゲットおよびオフターゲット効果を評価する本方法の再現性を示す。ヒト膵臓癌細胞株MIAPaCa-2(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)の2次元UMAP投影は、sgRNA(図11Aの陰性対照sgRNAを含む)によって示された。
図11B】KRAS標的遺伝子を例として使用して、薬物のオンターゲットおよびオフターゲット効果を評価する本方法の再現性を示す。ヒト膵臓癌細胞株MIAPaCa-2(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)の2次元UMAP投影は、sgRNA(図11BのKRAS1#1 sgRNAを含む)によって示された。
図11C】KRAS標的遺伝子を例として使用して、薬物のオンターゲットおよびオフターゲット効果を評価する本方法の再現性を示す。ヒト膵臓癌細胞株MIAPaCa-2(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)の2次元UMAP投影は、sgRNA(図11CのKRAS#2 sgRNAを含む)によって示された。
図11D】KRAS標的遺伝子を例として使用して、薬物のオンターゲットおよびオフターゲット効果を評価する本方法の再現性を示す。ヒト膵臓癌細胞株MIAPaCa-2(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)の2次元UMAP投影は、薬物処置(図11Dのオーラノフィンを含む)によって示された。
図11E】KRAS標的遺伝子を例として使用して、薬物のオンターゲットおよびオフターゲットの効果を評価する本方法の再現性を示す。ヒト膵臓癌細胞株MIAPaCa-2(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)の2次元UMAP投影は、統合された。図11Eの破線の円で示されるように、薬理学的阻害(オーラノフィン)によるオンターゲットおよびオフターゲットの効果は、2つの独立した遺伝的阻害(KRASを標的とする2つの独立したsgRNA)によって指示されたオンターゲットフィンガープリントに一致する能力に応じて評価された。
図11F】KRAS標的遺伝子を例として使用して、薬物のオンターゲットおよびオフターゲット効果を評価する本方法の再現性を示す。KRASを標的とする2つの独立したsgRNAを導入したヒト膵臓癌細胞株MIAPaCa-2におけるKRAS遺伝子発現の定量PCR(qPCR)分析は、図11Fに示される。データは、平均値±標準偏差として表示されている。群間の統計的有意性は、両側スチューデントt検定(two-tailed Student’s t-test)により算出された。有意値はP<0.05()およびP<0.01(**)である。
【発明を実施するための形態】
【0030】
本発明の実施形態が本明細書中で示され、記載されているが、このような実施形態はほんの一例として提供されるものであることは、当業者に明らかであろう。ここで、本発明から逸脱することなく、多数の変更、変化、および置換がなされることが、当業者によって理解され得る。本明細書に記載される本発明の実施形態の様々な代案が利用され得ることを理解されたい。
【0031】
用語「配列決定」は、本明細書で使用されるように、一般的に、核酸分子などの生体分子の配列を生成または同定するためのプロセスを意味する。そのような配列は、核酸塩基の配列を含み得る核酸配列であってもよい。配列決定法は、フローセルまたはビーズなどの支持体に固定化されたテンプレート核酸分子を使用して実行され得る超並列アレイ配列決定(例えば、イルミナシーケンシング(Illumina sequencing))であってもよい。配列決定法は、ハイスループット配列決定、次世代配列決定、合成による配列決定、フロー配列決定、超並列配列決定、ショットガン配列決定、単一分子配列決定、ナノポア配列決定、パイロシーケンシング、半導体配列決定、ライゲーション配列決定、ハイブリダイゼーションによる配列決定、RNA-Seq(Illumina)、デジタル遺伝子発現(Helicos)、合成による単一分子配列決定(Single Molecule Sequencing by Synthesis)(SMSS)(Helicos),クローン単一分子アレイ(Clonal Single Molecule Array)(Solexa)、マキサム-ギルバートシーケンシング法(Maxim-Gilbert sequencing)を含む場合があるが、これらに限定されない。
【0032】
本明細書で使用されるように、用語「対象」は、一般的に、処理または分析を受ける生体サンプルを有する個体を意味する。対象は動物または植物であってもよい。対象は、ヒト、類人猿、サル、チンパンジー、イヌ、ネコ、ウマ、ブタ、げっ歯類(例えば、マウスまたはラット)などの哺乳類、爬虫類、両生類、または鳥類であってもよい。対象は、癌(例えば、乳癌、大腸癌、脳癌、白血病、肺癌、皮膚癌、肝臓癌、膵臓癌、リンパ腫、食道癌、または子宮頚癌)または感染症などの疾患を有するか、または有することが疑われてもよい。
【0033】
本明細書で使用されるように、「サンプル」という用語は一般的に、生体サンプルを指す。生体サンプルの例は、組織、細胞、核酸分子、アミノ酸、ポリペプチド、タンパク質、炭水化物、脂肪、代謝産物、ホルモンおよびウイルスを含む。例において、生体サンプルは、デオキシリボ核酸(DNA)および/またはリボ核酸(RNA)などの1つ以上核酸分子を含む核酸サンプルである。核酸分子は、無細胞DNAまたは無細胞RNAなどの無細胞あるいは無細胞の核酸分子であってもよい。核酸分子は、ヒト、哺乳動物、非ヒト哺乳動物、類人猿、サル、チンパンジー、爬虫類、両生類、または鳥類を含む様々な源に由来してもよい。さらに、サンプルは、血液、血清、血漿、硝子体、喀痰、尿、涙、汗、唾液、精液、粘膜排泄物、粘液、髄液、羊水、リンパ液などを含むが、これらに限定されない無細胞配列を含む種々の動物液から抽出することができる。無細胞ポリヌクレオチドは、(妊娠中の対象から採取した液体を介して)胎児由来であってもよく、または対象自体の組織に由来してもよい。
【0034】
本明細書で使用されるように、用語「核酸」、または「ポリヌクレオチド」は、一般的に、1つ以上核酸サブユニット、またはヌクレオチドを含む分子を指す。核酸は、アデノシン(A)、シトシン(C)、グアニン(G)、チミン(T)、およびウラシル(U)から選択された1つ以上のヌクレオチド、またはそれらの変異体を含むことがある。ヌクレオチドは、一般的に、ヌクレオシドと少なくとも1、2、3、4、5、6、7、8、9、10、またはそれ以上のホスフェート(PO)基を含む。ヌクレオチドは、核酸塩基、五炭糖(リボースまたはデオキシリボースのいずれか)、および1つ以上のホスフェート基を含む場合がある。
【0035】
リボヌクレオチドは、糖がリボースであるヌクレオチドである。デオキシリボヌクレオチドは、糖がデオキシリボースであるヌクレオチドである。ヌクレオチドは、ヌクレオシド一リン酸、またはヌクレオシドポリリン酸であってもよい。ヌクレオチドは、例えば、デオキシリボヌクレオシド三リン酸(dNTP)などのデオキシリボヌクレオシドポリリン酸であり得、該デオキシリボヌクレオシド三リン酸は、デオキシアデノシン三リン酸(dATP)、デオキシシチジン三リン酸(dCTP)、デオキシグアノシン三リン酸(dGTP)、ウリジン三リン酸(dUTP)およびデオキシチミジン三リン酸(dTTP)のdNTPから選択されていてもよく、それらは発光タグまたはマーカー(例えば、蛍光体)などの検出可能タグを含む。ヌクレオチドは、伸長している核酸鎖へと組み込まれ得る任意のサブユニットを含んでもよい。そのようなサブユニットは、A、C、G、T、もしくはUであってもよく、または1つ以上の相補的なA、C、G、T、もしくはUに特異的な、プリンに相補的な(すなわち、AもしくはG、またはそれらの変異体)、あるいはピリミジンに相補的な(すなわちC、T、もしくはU、またはそれらの変異体)、任意の他のサブユニットであってもよい。いくつかの事例では、核酸は、デオキシリボ核酸(DNA)、リボ核酸(RNA)またはそれらの誘導体もしくは変異体である。核酸は、一本鎖または二本鎖であり得る。場合によっては、核酸分子は環状である。
【0036】
本明細書で使用されるように、用語「核酸分子」、「核酸配列」、「核酸断片」、「オリゴヌクレオチド」、「ポリヌクレオチド」は、一般的に、デオキシリボヌクレオチドまたはリボヌクレオチド(RNA)のいずれか、またはそのアナログなどの様々な長さを有し得るポリヌクレオチドを指す。核酸分子は、少なくとも約10塩基、20塩基、30塩基、40塩基、50塩基、100塩基、200塩基、300塩基、400塩基、500塩基、1キロベース(kb)、2kb、3kb、4kb、5kb、10kb、50kb、またはそれ以上の長さを有してもよい。オリゴヌクレオチドは、アデニン(A)、シトシン(C)、グアニン(G)、およびチミン(T)(ポリヌクレオチドがRNAの場合、チミン(T)の代わりにウラシル(U))の4つのヌクレオチド塩基の特定の配列で構成されてもよい。したがって、用語「オリゴヌクレオチ配列」は、ポリヌクレオチド分子のアルファベット表示であり、代替的に、この用語は、ポリヌクレオチド分子そのものに適用される場合もある。このアルファベット表示は、中央処理装置を有するコンピュータにおけるデータベースに入力され得、ゲノム機能解析およびホモロジー検索などのバイオインフォマティクス・アプリケーションに使用され得る。オリゴヌクレオチドは、1つ以上の非標準ヌクレオチド、ヌクレオチドアナログ、および/または修飾ヌクレオチドを含んでもよい。
【0037】
本明細書で使用されるように、用語「ヌクレオチドアナログ」は、ジアミノプリン、5-フルオロウラシル、5-ブロモウラシル、5-クロロウラシル、5-ヨウドロウラシル、ヒポキサンチン、キサンチン、4-アセチルシトシン、5-(カルボキシヒドロキシルメチル)ウラシル、5-カルボキシメチルアミノメチル-2-チオウリジン、5-カルボキシメチルアミノメチルウラシル、ジヒドロウラシル、β-D-ガラクトシルクオシン、イノシン、N6-イソペンテニルアデニン、1-メチルグアニン、1-メチルイノシン、2,2-ジメチルグアニン、2-メチルアデニン、2-メチルグアニン、3-メチルシトシン、5-メチルシトシン、N6-アデニン、7-メチルグアニン、5-メチルアミノメチルウラシル、5-メトキシアニメチル-2-チオウラシル、β-D-マンノシルケオシン、5’-メトキシカルボキシメチルウラシル、5-メトキシウラシル、2-メチルチオ-D46-イソペンテニルアデニン、ウラシル-5-オキシ酢酸(v)、ワイブトキソシン、シュードウラシル、クオシン、2-チオシトシン、5-メチル-2-チウラシル、2-チウラシル、4-チウラシル、5-メチルウラシル、ウラシル-5-オキシ酢酸メチルエステル、ウラシル-5-オキシ酢酸(v)、5-メチル-2-チオウラシル、3-(3-アミノ-3-N-2-カルボキシプロピル)ウラシル、(acp3)w、2,6-ジアミノプリン、ホスホロセレノエート核酸等を含み得るが、これらに限定されない。場合によっては、ヌクレオチドは、三リン酸部分への修飾を含む、そのリン酸部分への修飾を含むことがある。修飾のさらなる非限定的な例は、より長いリン酸鎖(例えば、4、5、6、7、8、9、10、または10以上のリン酸部分を有するリン酸鎖)、チオール部分を有する修飾(例えば、α-チオ三リン酸およびβ-チオ三リン酸)またはセレン部分を有する修飾(例えば、リン酸化セレン酸核酸)を含む。核酸分子は、塩基部分(例えば、相補的なヌクレオチドと水素結合を形成し得る1つ以上の原子および/または相補的なヌクレオチドと水素結合を形成し得ない1つ以上の原子)、糖部分またはリン酸バックボーンでさらに修飾され得る。核酸分子は、N-ヒドロキシスクシンイミドエステル(NHS)などのアミン反応性部分の共有結合を可能にするように、アミノアリル-dUTP(aa-dUTP)およびアミノヘキシルアクリルアミド-dCTP(aha-dCTP)などのアミン修飾基を含有する場合もある。本開示のオリゴヌクレオチドにおける標準DNA塩基対またはRNA塩基対の代替物は、1立方ミリメートル(mm)当たりのビット数でより高い密度、より高い安全性(例えば、天然毒素の偶然または意図的合成に対する耐性)、光プログラムポリメラーゼにおける容易な識別、またはより低い二次構造を提供し得る。ヌクレオチドアナログは、ヌクレオチド検出のための検出可能な部分と反応または結合することが可能である。
【0038】
本明細書で使用されるように、用語「遊離ヌクレオチドアナログ」、一般的に、追加的なヌクレオチドまたはヌクレオチドアナログに結合されていないヌクレオチドアナログを指す。遊離ヌクレオチドアナログは、プライマー伸長法反応によって成長中の核酸鎖に取り込まれることがある。
【0039】
本明細書で使用されるように、用語「プライマー(複数可)」用語は、一般的に、鋳型核酸に相補的なポリヌクレオチドを指す。プライマーと鋳型核酸との間の相補性または相同性または配列同一性は、限定的であってもよい。プライマーの長さは、8ヌクレオチド塩基から50ヌクレオチド塩基の間であってもよい。プライマーの長さは、6塩基以上、7塩基以上、8塩基以上、9塩基以上、10塩基以上、11塩基以上、12塩基以上、13塩基以上、14塩基以上、15塩基以上、16塩基以上、17塩基以上、18塩基以上、19塩基以上、20塩基以上、21塩基以上、22塩基以上、23塩基以上、24塩基以上、25塩基以上、26塩基以上、27塩基以上、28塩基以上、29塩基以上、30塩基以上、31塩基以上、32塩基以上、33塩基以上、34塩基以上、35塩基以上、37塩基以上、40塩基以上、42塩基以上、45塩基以上、47塩基以上、または50塩基以上であってもよい。
【0040】
プライマーは、鋳型核酸と配列同一性または相同性または相補性を示すことがある。プライマーと鋳型核酸との間の相同性または配列同一性または相補性は、プライマーの長さに基づいてもよい。例えば、プライマーの長さが約20核酸の場合、鋳型核酸に相補的な10以上の連続した核酸塩基を含有することがある。
【0041】
本明細書で使用されるように、用語「プライマー伸長反応」は、一般的に、プライマーが鋳型核酸の鎖に結合し、その後プライマー(複数可)が伸長することを指す。さらに、二重鎖の核酸を変性させ、変性した鋳型核酸鎖の一方または両方にプライマー鎖を結合させ、その後プライマー(複数可)を伸長させることも含んでもよい。プライマー伸長反応は、酵素(重合酵素)を使用することによって、ヌクレオチドまたはヌクレオチドアナログを鋳型指向の方法でプライマーに組み込むために使用されてもよい。
【0042】
本明細書で使用されるように、用語「ポリメラーゼ」は、一般的に、重合反応を触媒することができる任意の酵素を指す。ポリメラーゼの例は、限定されることなく、核酸ポリメラーゼを含む。ポリメラーゼは、自然に発生するか、または合成され得る。場合によっては、ポリメラーゼは比較的高い処理能力を有する。例示的なポリメラーゼは、Φ29ポリメラーゼまたはその誘導体である。ポリメラーゼは重合酵素であってもよい。場合によっては、転写酵素またはリガーゼ(すなわち、結合の形成を触媒する酵素)が使用される。ポリメラーゼの例は、DNAポリメラーゼ、RNAポリメラーゼ、熱安定性ポリメラーゼ、野生型ポリメラーゼ、修飾されたポリメラーゼ、大腸菌DNAポリメラーゼI型、T7 DNAポリメラーゼ、バクテリオファージT4 DNAポリメラーゼΦ29(phi29)DNAポリメラーゼ、Taqポリメラーゼ、Tthポリメラーゼ、Tliポリメラーゼ、Pfuポリメラーゼ、Pwoポリメラーゼ、VENTポリメラーゼ、DEEPVENTポリメラーゼ、EX-Taqポリメラーゼ、LA-Taqポリメラーゼ、Ssoポリメラーゼ、Pocポリメラーゼ、Pabポリメラーゼ、Mthポリメラーゼ、ES4ポリメラーゼ、Truポリメラーゼ、Tacポリメラーゼ、Tneポリメラーゼ、Tmaポリメラーゼ、Teaポリメラーゼ、Tihポリメラーゼ、Tfiポリメラーゼ、Platinum Taqポリメラーゼ、Tbrポリメラーゼ、Tflポリメラーゼ、PfuTuboポリメラーゼ、Pyrobestポリメラーゼ、Pwoポリメラーゼ、KODポリメラーゼ、Bstポリメラーゼ、Sacポリメラーゼ、クレノウ断片、3’~5’のエキソヌクレアーゼ活性を有するポリメラーゼ、および変異体、修飾された産物および誘導体を含む。場合によっては、ポリメラーゼは、単一サブユニットポリメラーゼである。ポリメラーゼは、高処理能力、すなわち、核酸鋳型を解放することなく、核酸鋳型にヌクレオチドを連続的に組み込む能力を有し得る。場合によっては、ポリメラーゼは、例えば、667Y変異を有するTaqポリメラーゼ(例えば、Tabor et al,PNAS,1995,92,6339-6343,これはすべての目的のために参照によりその全体が本明細書に組み込まれる)のように、ジデオキシヌクレオチド三リン酸を受け入れるように修飾されたポリメラーゼである。場合によっては、ポリメラーゼは、核酸配列決定に有用になり得る修飾ヌクレオチド結合を有するポリメラーゼであり、非制限的な例として、ThermoSequenasポリメラーゼ(GE Life Sciences)、AmpliTaq FS(ThermoFisher)ポリメラーゼおよびSequencing Polポリメラーゼ(Jena Bioscience)が挙げられる。場合によっては、ポリメラーゼは、例えば、Sequenase DNA polymerase(ThermoFisher)のように、ジデオキシヌクレオチドに対する差別化を有するように遺伝子工学的に操作される。
【0043】
本明細書で使用する「支持体」という用語は、一般的に、スライド、ビーズ、樹脂、チップ、アレイ、マトリックス、膜、ナノポア、またはゲルなどの固体支持体を指す。固体支持体は、例えば、(ガラス、プラスチック、シリコンなどの)平坦な基板上のビーズ、または基板のウェル内のビーズであってもよい。基板は、ビーズを所望の位置(検出器と作動的に連通する位置など)に保持するために、テクスチャー、パターン、マイクロ構造コーティング、界面活性剤、またはそれらの任意の組み合わせなどの表面特性を有し得る。ビーズベースの支持体の検出器は、ビーズのサイズに依存することなく、実質的に同じ読み取り速度を維持するように構成される場合がある。支持体は、フローセルでもあってもよく、オープン基板であってもよい。さらに、支持体は、生体支持体、非生体支持体、有機質支持体、無機質支持体、またはそれらの任意の組み合わせを含むことがある。支持体は、検出器と光通信していてもよく、検出器と物理的に接触していてもよく、検出器から距離によって離れていてもよく、それらの任意の組み合わせであってもよい。その支持体は、複数の独立にアドレス指定可能な位置を有してもよい。核酸分子は、複数の独立してアドレス指定可能な位置の所定の独立してアドレス指定可能な位置で支持体に固定されてもよい。複数の核酸分子の各々の支持体への固定化は、アダプタの使用によって支援されてもよい。支持体は、検出器に光学的に結合されていてもよい。支持体への固定化は、アダプタの使用によって支援されてもよい。
【0044】
本明細書で使用されるように、用語「標識」は、一般的に、例えば、ヌクレオチドアナログなどの、種と結合することが可能な部分を指す。場合によっては、標識は、検出可能なシグナルを発する(または既に発せられたシグナルを減少させる)検出可能な標識であってもよい。場合によっては、そのようなシグナルは、1つ以上のヌクレオチドまたはヌクレオチドアナログの取り込みを示すことがある。場合によっては、標識はヌクレオチドまたはヌクレオチドアナログに結合していてもよく、該ヌクレオチドまたはヌクレオチドアナログはプライマー伸長反応に使用されてもよい。場合によっては、標識はプライマー伸長反応後に、ヌクレオチドアナログに結合され得る。標識は、場合によっては、ヌクレオチドまたはヌクレオチドアナログと特異的に反応することがある。結合は、共有結合または非共有結合(例えば、イオン相互作用、ファンデルワールス力などを介して)であってもよい。場合によっては、結合はリンカーを介して行われ得、該リンカーは、光切断可能(例えば、紫外線下で切断可能)、(例えば、ジチオスレイトール(DTT)、トリス(2-カルボキシエチル)ホスフィン(TCEP)などの還元剤を介して)化学切断可能、または(例えば、エステラーゼ、リパーゼ、ペプチダーゼ、またはプロテアーゼを介して)酵素的に切断可能であってもよい。
【0045】
場合によっては、標識は光学活性であってもよい。いくつかの実施形態では、光学活性標識は光学活性色素(例えば、蛍光染料)である。色素の非限定的な例は、SYBR green、SYBR blue、DAPI、ヨウ化プロピジウム、Hoeste、SYBR gold、臭化エチジウム、アクリジン、プロフラビン、アクリジンオレンジ、アクリフラビン、フルオロクマニン(fluorcoumanin)、エリプチシン、ダウノマイシン、クロロキン、ジスタマイシンD、クロモマイシン、ホミジウム、ミトラマイシン、ルテニウムポリピリジル、アントラマイシン、フェナントリジンとアクリジン、臭化エチジウム、ヨウ化プロピジウム、ヨウ化ヘキシジウム(hexidium iodide)、ジヒドロエチジウム、エチジウムホモダイマ-1と-2、エチジウムモノアジド、およびACMA、Hoechst 33258、Hoechst 33342、Hoechst 34580、DAPI、アクリジンオレンジ、7-AAD、アクチノマイシンD、LDS751、ヒドロキシスチルバミジン、SYTOX Blue、SYTOX Green、SYTOX Orange、POPO-1、POPO-3、YOYO-1、YOYO-3、TOTO-1、TOTO-3、JOJO-1、LOLO-1、BOBO-1、BOBO-3、PO-PRO-1、PO-PRO-3、BO-PRO-1、BO-PRO-3、TO-PRO-1、TO-PRO-3、TO-PRO-5、JO-PRO-1、LO-PRO-1、YO-PRO-1、YO-PRO-3、PicoGreen、OliGreen、RiboGreen、SYBR gold、SYBR greenI、SYBR greenII、SYBR DX、SYTO-40、-41、-42、-43、-44、-45(青)、SYTO-13、-16、-24、-21、-23、-12、-11、-20、-22、-15、-14、-25(グリーン)、SYTO-81、-80、-82、-83、-84、-85(オレンジ)、SYTO-64、-17、-59、-61、-62、-60、-63(赤)、フルオレセイン、フルオレセインイソチオシアネート(FITC)、テトラメチルローダミンイソチオシアネート(TRITC)、ローダミン、テトラメチルローダミン、Rフィコエリトリン、Cy-2、Cy-3、Cy-3.5、Cy-5、Cy5.5、Cy-7、Texas Red、Phar-Red、アロフィコシアニン(APC)、Sybr GreenI、Sybr Green II、Sybr Gold、CellTracker Green、7-AAD、エチジウムホモダイマーI、エチジウムホモダイマーII、エチジウムホモダイマーIII、臭化エチジウム、ウンベリフェロン、エオシン、緑色蛍光タンパク質、エリトロシン、クマリン、メチルクマリン、ピレン、マラカイトグリーン、スチルベン、ルシファーイエロー、カスケードブルー(cascade blue)、ジクロロトリアジニルアミン・フルオレセイン、ダンシルクロリド、ユウロピウムとテルビウムを含むものなどの蛍光性ランタニド錯体、カルボキシ・テトラクロロ・フルオレセイン、5および/または6-カルボキシフルオレセイン(FAM)、VIC、5-(または6-)ヨードアセトアミドフルオレセイン、5-{[2(と3)-5-(アセチルメルカプト)-スクシニル]アミノ}フルオレセイン(SAMSAフルオレセイン)、リサミンローダミンBスルホニルクロリド、5および/または6カルボキシローダミン(ROX)、7-アミノ-メチル-クマリン、7-アミノ-4-メチルクマリン-3-酢酸(AMCA)、BODIPYフルオロフォア、8-メトキシピレン-1,3,6-トリスルホン酸三ナトリウム塩、3,6-ジスルホネート-4-アミノ-ナフタルイミド、フィコビリンタンパク質、AlexaFluor 350、405、430、488、532、546、555、568、594、610、633、635、647、660、680、700、750、および790色素、DyLight 350、405、488、550、594、633、650、680、755、および800色素、または他のフルオロフォアを含む。
【0046】
いくつかの例では、標識は核酸インターカレーター色素であってもよい。例は、臭化エチジウム、YOYO-1、SYBR greenおよびEvaGreenを含むが、それらに限定されない。エネルギー供与体とエネルギー受容体の間、インターカレーターとエネルギー供与体の間、またはインターカレーターとエネルギー受容体の間の近接場での相互作用によって、特有のシグナルの発生、またはシグナル振幅の変化が引き起される場合がある。例えば、そのような相互作用は、クエンチング(すなわち、非放射性エネルギー減衰を引き起こす供与体から受容体へのエネルギー移動)またはフォースター共鳴エネルギー移動(FRET)(すなわち、放射性エネルギー減衰を引き起こす供与体から受容体へのエネルギー移動)を引き起こす場合がある。標識の他の例は、電気化学標識、静電気標識、比色標識および質量タグを含む。
【0047】
本明細書で使用されるように、用語「クエンチャー」は、一般的に、発せられたシグナルを減少させ得る分子を指す。標識はクエンチャー分子であってもよい。例えば、鋳型核酸分子は、検出可能なシグナルを発するように設計され得る。クエンチャーを含むヌクレオチドまたはヌクレオチドアナログを組み込むと、シグナルが減少または消失される場合があり、その後その減少または消失が検出される。場合によっては、本明細書の他の箇所に記載されているように、クエンチャーを用いて標識することは、ヌクレオチドまたはヌクレオチドアナログの組み込みの後に行われ得る。クエンチャーの例は、BH1-0、BHQ-1、BHQ-3、BHQ-10などのBlack Hole Quencher色素(Biosearch Technologies)、QSY7、QSY9、QSY21、QSY35などのQSY色素蛍光クエンチャー(Molecular Probes/Invitrogenから)、およびDabcylとDabsylなどの他のクエンチャー、Cy5QおよびCy7QおよびDark Cyanine染料(GE Healthcare)を含む。上記のクエンチャーとの併用によりシグナルが減少または消失し得る供与体分子の例は、Cy3B、Cy3、またはCy5などのフルオロフォア、DYQ-660およびDYQ-661などのDy-クエンチャー(Dyomics)、フルオレセイン-5-マレイミド、7-ジエチルアミノ-3-(4’-マレイミジルフェニル)-4-メチルクマリン(CRM)、N-(7-ジメチルアミノ-4-メチルクマリン-3-イル)マレイミド(DACM)およびATTO 540Q、580Q、612Q、647N、Atto-633-ヨードアセトアミド、テトラメチルローダミンヨードアセトアミド、またはAtto-488ヨードアセトアミドなどのATTO蛍光クエンチャー(ATTO-TEC GmbH)を含む。場合によっては、標識は、例えば、モノブロモビマンなどのビマン誘導体のように、自己消火しないタイプであってもよい。
【0048】
本明細書で使用されるように、用語「検出器」は、一般的に、取り込まれたヌクレオチドまたはヌクレオチドアナログの有無を示すシグナルを含む、シグナルを検出することができる装置を指す。場合によっては、検出器は、シグナルを検出し得る光学的および/または電子的構成要素を含むことがある。用語「検出器」は、検出方法において使用されてもよい。検出方法の非限定的な例は、光学的検出、分光学的検出、静電的検出、電気化学的検出などを含む。光学的検出方法は、蛍光分析およびUV力光吸光を含むが、それらに限定されない。分光学的検出方法は、質量分析法、核磁気共鳴(NMR)分光法および赤外分光学法を含むが、それらに限定されない。静電的検出方法は、例えば、ゲル電気泳動などのゲルベース技術を含むが、それらに限定されない。電気化学的検出方法は、増幅産物を高速液体クロマトグラフィーで分離した後に増幅産物を電気化学的に検出する方法を含むが、それに限定されない。
【0049】
本明細書で使用されるように、「配列」または「配列リード」という用語は、一般的に、配列決定プロセス中に行われる一連のヌクレオチド割り当て(例えば、塩基コールによる)を指す。そのような配列は、予備的塩基コールを行うことによって作られた推定配列リードであってもよく、その後、さらなる塩基コール解析または補正を行い、最終的な配列リードを産生することができる。配列は、単一または個々の細胞に対応する情報を含み得、単細胞配列決定技術(例えば、単細胞RNA配列決定、またはscRNA-seq)によって取得され得る。単細胞配列決定は、細胞の違い、およびその微小環境の内容中の個々の細胞の機能に関する情報のより高い解像度を提供するために実施されることがある。例えば、単細胞DNA配列決定は、希少な細胞集団(例えば、癌細胞で発見される)の中に存在する突然変異に関する情報を提供し得、および単細胞RNA配列決定は、異なる細胞型の存在および挙動に対応する個々の細胞発現に関する情報を提供し得る。
【0050】
本明細書で使用されるように、「シングルガイドRNA」または「sgRNA」という用語は、一般的に、スキャフォールドのトランス活性化型crRNA(tracrRNA)配列に縮合されたカスタム設計された短いCRISPR RNA(crRNA)配列の両方を含有している単一のRNA分子を指す。sgRNAは、DNA鋳型からin vitroまたはin vivoで合成的に生成または作成され得る。
【0051】
本明細書で使用されるように、用語「薬物」は、一般的に、消費されると対象に生物学的効果を引き起こす生体または化学物質を指す。薬物は、対象に投与されたときに対象に生物学的効果を引き起こす化学物質を含むことがある。薬物は、疾患などの所定の標的兆候を処置するために使用されてもよい。例えば、薬物は、疾患を処置するか、治癒するか、または予防するために、あるいは健康を増進するために使用される医薬品(例えば、薬または薬剤)であってもよい。疾患は、癌、ざ瘡、注意欠陥多動性障害、AIDS/HIV、アレルギー、アルツハイマー病、狭心症、不安、関節炎、喘息、双極性障害、気管支炎、高コレステロール血症、風邪またはインフルエンザ、便秘、慢性閉塞性肺疾患、Covid-19、うつ病、糖尿病、湿疹、勃起不全、線維筋痛症、胃腸、胸焼け、痛風、心臓病、ヘルペス、高血圧症、甲状腺機能低下症、過敏性腸炎、失禁、片頭痛、変形性関節症、肺炎、乾癬、関節リウマチ、統合失調症、発作、脳卒中、豚インフルエンザ、または尿路感染症であってもよい。薬物は、摂取、吸入、注射、くん煙、局所適用、皮膚上のパッチによる吸収、坐薬、または舌下の溶解を介して投与されてもよい。薬物は、医薬品、化合物(例えば、小分子)、阻害剤(例えば小分子の阻害剤)、抗体、siRNA、アンチセンスオリゴヌクレオチド、mRNA治療、またはそれらの組み合わせを含んでもよい。
【0052】
本明細書で使用されるように用語「有効性」は、一般的に、(例えば、対象の集団全体にわたって)薬物の期待されるまたは平均的な効率を指す。効率は、対象に投与される薬物の用量から達成可能な最大応答であってもよい。いくつかの例では、有効性は、標的遺伝子に結合する薬物について、結合した標的遺伝子の機能がどの程度影響を受けるかとして判定される場合がある。例えば、薬物が特定の標的遺伝子に結合して特定の標的遺伝子を阻害する場合、薬物は標的遺伝子阻害効果を有し、これは標的遺伝子の遺伝子発現レベルの相対的低下によって測定され得る。別の例として、薬物は、測定されたトランスクリプトーム(transcriptome)がオンターゲット参照トランスクリプトームと最大類似度、および/またはオフターゲット参照トランスクリプトームと最小類似度を有することに基づいて、特定の標的に対して高い有効性を有すると判定される場合がある。別の例として、薬物は、測定されたトランスクリプトーム(transcriptome)がオンターゲット参照トランスクリプトームと低類似性、および/またはオフターゲット参照トランスクリプトームと高類似性を有することに基づいて、特定の標的に対して低い有効性を有すると判定される場合がある。
【0053】
細胞の標的ゲノム領域を選択的に改変し、(例えば、細胞をある分化した状態から別の状態に変換させることによって)細胞の状態を変化させる能力は、治療応用に大きな期待を与え得る。しかし、(例えば、細胞のリプログラミングを介して)細胞状態の選択的な改変の期待にもかかわらず、ある細胞状態から別の細胞状態への移行を媒介する遺伝的要因を特定することは、多くの治療関連応用にとって依然として困難である。例えば、リプログラミングの表現型は複雑であり得、階層的、非線形的に相互作用する多くの遺伝子を含んでいる可能性がある。これらの遺伝子のうち、どの遺伝子が所与のプロセスにおいて因果関係があるのか、または相関関係があるのかを見極めることは困難な作業であり、対象の遺伝子ごとに大規模で時間を必要とする実験アッセイおよび動物モデルが必要とされる可能性がある。さらに、処置阻害剤などの薬剤を使用する治療用標的化は、疾患または障害を有する対象において有効性が評価され得る。
【0054】
、本明細書では、薬物の有効性を判定するための改善された方法の必要性が認識されている。そのような薬物は、治療標的化に適した特定のゲノム領域(例えば、ある表現型状態から別の表現型状態への細胞のリプログラミングを促進し得るゲノム領域)と関連する場合がある。本明細書で提供される方法およびシステムは、薬物の有効性を判定することの効率、精度、および/またはスループットを大幅に向上させ得る。そのような方法およびシステムは、治療用標的化のための特定のゲノム領域の同定を活用し得る。
【0055】
本開示は、一般的に、薬物の有効性を判定する方法およびシステムに関する。そのような薬物は、細胞の状態を変化させるために(例えば、ある分化した状態から別の状態への細胞の転写リプログラミングを介して)選択的に改変され得る細胞の標的ゲノム領域と関連付けられる場合がある。例えば、現在の技術は、薬物候補のハイスループットスクリーニングに関しており、表現型の異なる細胞状態間のリプログラミングを潜在的に媒介し得る、および/または有効な治療標的として選択され得る関連する標的遺伝子を同定するために、高コンテンツ、高効率、およびハイスループットCRISPR(クラスター化された規則的に間隔をあけた短パリンドローム反復配列)スクリーニング技術を活用し得る。これらのスクリーニングは、異常検出モデルを活用して、CRISPRを介して標的とされる各遺伝子について、リプログラミングを測定可能な表現型として定量化し得る。本開示の方法およびシステムは、対象の疾患兆候に関連するバイオマーカーおよび治療標的を選択するための基礎として、(例えば、細胞のリプログラミングを介して)細胞の標的ゲノム領域を選択的に改変する能力の定量化に少なくとも部分的に基づいて、薬物の有効性を有効に判定し得る。
【0056】
一態様では、本開示は、薬物の有効性を判定する方法を提供し、該方法は、(a)ある細胞型の複数の罹患細胞と複数の正常細胞に関する核酸配列データの潜在空間表現を生成する工程であって、前記潜在空間は前記細胞型の複数の表現型状態を表す、工程と、(b)前記潜在空間のトポロジーに少なくとも部分的に基づいて、前記細胞型を前記複数の表現型状態の第1の表現型状態から第2の表現型状態へとリプログラミングするのを促進するゲノム領域を同定する工程と、(c)第1の潜在空間表現を産出するために前記細胞型の第1の細胞の配列データを前記潜在空間にマッピングする工程であって、前記第1の細胞は前記第1の表現型状態から前記第2の表現型状態へとリプログラミングされている、工程と、(d)第2の潜在空間表現を産出するために前記細胞型の第2の細胞の配列データを前記潜在空間にマッピングする工程であって、前記第2の細胞は前記薬物に曝露され、前記第2の細胞は、前記薬物に曝露される前に前記第1の表現型状態を呈した、工程と、(e)前記第1の潜在空間表現および前記第2の潜在空間表現に少なくとも部分的に基づいて、前記薬物の前記有効性を判定する工程と、を含む。
【0057】
いくつかの実施形態では、(a)は、前記潜在空間表現を生成するために教師付き次元削減アルゴリズムを使用することを含む。いくつかの実施形態では、前記教師付き次元削減アルゴリズムは、均一な多様体の近似と投影(UMAP)アルゴリズムである。いくつかの実施形態では、前記教師付き次元削減アルゴリズムは、t分布型確率的近傍埋込み(t-SNE)アルゴリズムである。いくつかの実施形態では、前記教師付き次元削減アルゴリズムは、可変オートエンコーダである。いくつかの実施形態では、(b)は、前記第1の表現型状態と前記第2の表現型との間の推論された最尤進行軌跡を構築するために、前記潜在空間上で非線形細胞軌跡の再構成を実施することを含む。いくつかの実施形態では、前記非線形細胞軌跡の再構成を実施することは、前記潜在空間に逆グラフ埋込みアルゴリズムを適用することを含む。
【0058】
いくつかの実施形態では、前記第1の表現型状態は癌であり、前記第2の表現型状態は野生型状態である。いくつかの実施形態では、前記第2の表現型状態は中間状態である。いくつかの実施形態では、前記中間状態は線維芽細胞状態または前駆細胞状態である。いくつかの実施形態では、前記第1の細胞は、遺伝子編集を使用して前記第1の表現型状態から前記第2の表現型状態へとリプログラミングされている。いくつかの実施形態では、前記遺伝子編集は、CRISPR(例えば、活性Cas9)システム、CRISPRi(例えば、CRISPR干渉、KRABを含む転写抑制ペプチドに融合した触媒活性を伴わないCas9)システム、CRISPRa(例えば、CRISPR活性化、VPR(HIVウイルス性タンパク質R)を含む転写活性化ペプチドに融合した触媒活性を伴わないCas9)システム、RNAiシステム、およびshRNAシステムからなる群から選択された遺伝子編集ユニットを用いて実施される。
【0059】
いくつかの実施形態では、(e)は、(i)前記第1の細胞の前記潜在空間表現における前記編集からの推移、および(ii)前記第2の細胞の前記潜在空間表現における前記薬物に対する曝露からの推移を測定すること、ならびに(i)と(ii)を数学的に関連付けること、を含む。いくつかの実施形態では、前記測定することは教師付き学習アルゴリズムの使用を含む。いくつかの実施形態では、教師付き学習アルゴリズムは、サポートベクターマシン、ランダムフォレスト、ロジスティク回帰、ベイズ分類器、または畳み込みニューラルネットワークである。
【0060】
いくつかの実施形態では、本方法は、前記細胞型の複数の追加細胞の核酸配列データを前記潜在空間にマッピングする工程であって、前記複数の追加細胞の各細胞は、複数の薬物のそれぞれの薬物に曝露されている、工程と、前記第1の細胞の前記潜在空間表現、および前記複数の追加細胞の潜在空間表現に少なくとも部分的に基づいて、各薬物の有効性を判定する工程と、各薬物の前記有効性に少なくとも部分的に基づいて前記複数の薬物の順位を電子的に出力する工程とをさらに含む。いくつかの実施形態では、薬物は、化合物(例えば、小分子)、阻害剤(例えば、小分子阻害剤)および抗体からなる群から選択される。
【0061】
いくつかの実施形態では、前記細胞型の前記第1の細胞の前記配列データ、および前記細胞型の前記第2の細胞の配列データのうち少なくとも1つが、単細胞配列決定によって生成される。いくつかの実施形態では、前記細胞型の前記第1の細胞の前記配列データ、および前記細胞型の前記第2の細胞の配列データの少なくとも1つが、連続的な単細胞配列決定によって生成される。
【0062】
他の態様では、本開示は、薬物の有効性を判定する方法を提供し、該方法は、(a)ある細胞型の複数の罹患細胞と複数の正常細胞に関する核酸配列データの潜在空間表現を生成する工程であって、前記潜在空間は前記細胞型の複数の表現型状態を表す、工程と、(b)前記潜在空間のトポロジーに少なくとも部分的に基づいて、前記細胞型の標的ゲノム領域を同定する工程と、(c)第1の潜在空間の表現を産出するために前記細胞型の第1の細胞の配列データを前記潜在空間にマッピングする工程であって、前記第1の細胞の前記標的ゲノム領域は改変されており、および、前記第1の細胞は、前記改変前に第1の表現型の状態を呈した、工程と、(d)第2の潜在空間表現を産出するために前記細胞型の第2の細胞の配列データを前記潜在空間にマッピングする工程であって、前記第2の細胞は前記薬物に曝露され、前記第2の細胞は、前記薬物に曝露される前に前記第1の表現型状態を呈した、工程と、(e)前記第1の潜在空間表現および前記第2の潜在空間表現に少なくとも部分的に基づいて、前記薬物の前記有効性を判定する工程とを含む。
【0063】
いくつかの実施形態では、(a)は、前記潜在空間表現を生成するために教師付き次元削減アルゴリズムを使用することを含む。いくつかの実施形態では、前記教師付き次元削減アルゴリズムは、均一な多様体の近似と投影(UMAP)アルゴリズムである。いくつかの実施形態では、前記教師付き次元削減アルゴリズムは、t分布型確率的近傍埋込み(t-SNE)アルゴリズムである。いくつかの実施形態では、前記教師付き次元削減アルゴリズムは、可変オートエンコーダである。
【0064】
いくつかの実施形態では、前記第1の表現型状態は癌である。いくつかの実施形態では、前記第1の表現型状態は中間状態である。いくつかの実施形態では、前記中間状態は線維芽細胞状態または前駆細胞状態である。
【0065】
いくつかの実施形態では、(e)は、(i)前記第1の細胞の前記潜在空間表現における前記改変からの推移、および(ii)前記第2の細胞の前記潜在空間表現における前記薬物に対する曝露からの推移を測定すること、ならびに(i)と(ii)を数学的に関連付けることを含む。いくつかの実施形態では、前記測定することは教師付き学習アルゴリズムの使用を含む。いくつかの実施形態では、教師付き学習アルゴリズムは、サポートベクターマシン、ランダムフォレスト、ロジスティク回帰、ベイズ分類器、または畳み込みニューラルネットワークである。
【0066】
いくつかの実施形態では、方法は、前記細胞型の複数の追加細胞に関する核酸配列データを前記潜在空間にマッピングする工程であって、前記複数の追加細胞の各細胞は、複数の薬物のそれぞれの薬物に曝露されている、工程と、前記第1の細胞の前記潜在空間表現、および前記複数の追加細胞の潜在空間表現に少なくとも部分的に基づいて、各薬物の有効性を判定する工程と、各薬物の前記有効性に少なくとも部分的に基づいて前記複数の薬物の順位を電子的に出力する工程とをさらに含む。いくつかの実施形態では、薬物は、化合物(例えば、小分子)、阻害剤(例えば、小分子阻害剤)および抗体からなる群から選択される。
【0067】
いくつかの実施形態では、前記細胞型の前記第1の細胞の前記配列データ、および前記細胞型の前記第2の細胞の配列データのうち少なくとも1つが、単細胞配列決定によって生成される。いくつかの実施形態では、前記細胞型の前記第1の細胞の前記配列データ、および前記細胞型の前記第2の細胞の配列データの少なくとも1つが、連続的な単細胞配列決定によって生成される。
【0068】
図1Aは、薬物の有効性を判定する方法(100)を例示するフローチャートの一例を示す。本方法は、(操作(102)のように)細胞型の複数の罹患細胞および複数の正常細胞に関する核酸配列データの潜在空間表現を生成する工程を含む場合がある。例えば、いくつかの実施形態では、潜在空間は、細胞型の複数の表現型状態を表す。次に、本方法は、(操作(104)のように)標的ゲノム領域(例えば、複数の表現型状態の第1の表現型状態から第2の表現型状態への細胞型のリプログラミングを促進するゲノム領域)を同定する工程を含む場合がある。例えば、いくつかの実施形態では、標的ゲノム領域は、潜在空間のトポロジーに少なくとも部分的に基づいて同定される。次いで、本方法は、(操作(106)のように)第1の潜在空間表現を産出するために、細胞型の第1の細胞の配列データを潜在空間にマッピングする工程を含む場合がある。例えば、いくつかの実施形態では、第1の細胞は、第1の表現型状態から第2の表現型状態へとリプログラミングされている。次いで、本方法は、(操作(108)のように)第2の潜在空間表現を産出するために、細胞型の第2の細胞の配列データを潜在空間にマッピングする工程を含む場合がある。例えば、いくつかの実施形態では、第2の細胞は薬物に曝露されている。いくつかの実施形態では、第2の細胞は、薬物に曝露される前に、第1の表現型状態を示していた。次いで、本方法は、(操作(110)のように)薬物の有効性を判定する工程を含む場合がある。例えば、いくつかの実施形態では、薬物の有効性は、第1の潜在空間表現および第2の潜在空間表現に少なくとも部分的に基づいて判定される。
【0069】
図1Bは、薬物の有効性を判定する方法(150)を例示するフローチャートの他の例を示す。本方法は、(操作(152)のように)細胞型の複数の罹患細胞および複数の正常細胞に関する核酸配列データの潜在空間表現を生成する工程を含む場合がある。例えば、いくつかの実施形態では、潜在空間は、細胞型の複数の表現型状態を表す。次に、本方法は、(操作(154)のように)細胞型の標的ゲノム領域を同定する工程を含む場合がある。次に、本方法は、(操作(156)のように)第1の潜在空間表現を産出するために、細胞型の第1の細胞の配列データを潜在空間にマッピングする工程を含む場合がある。例えば、いくつかの実施形態では、第1の細胞の標的ゲノム領域は改変されている。例えば、いくつかの実施形態では、第1の細胞は改変の前に第1の表現型状態を呈した。次いで、本方法は、(操作(158)のように)第2の潜在空間表現を産出するために、細胞型の第2の細胞の配列データを潜在空間にマッピングする工程を含む場合がある。例えば、いくつかの実施形態では、第2の細胞は薬物に曝露されている。いくつかの実施形態では、第2の細胞は、薬物に曝露される前に、第1の表現型状態を示していた。次いで、本方法は、(操作(160)のように)薬物の有効性を判定する工程を含む場合がある。例えば、いくつかの実施形態では、薬物の有効性は、第1の潜在空間表現および第2の潜在空間表現に少なくとも部分的に基づいて判定される。
【0070】
いくつかの実施形態では、UMAPアルゴリズムは、教師付きUMAPアルゴリズムまたは教師なしUMAPアルゴリズムである。例えば、教師付きUMAPアルゴリズムは、所定の細胞型の純粋な細胞の単細胞RNA配列(scRNA-seq)データを含むデータセットで学習され得る。UMAPアルゴリズムは、約0.025、約0.05、約0.075、約0.1、約0.125、約0.15、約0.175、約0.2、約0.225、約0.25、約0.275、約0.3、約0.325、約0.35、約0.375、約0.4、約0.425、約0.45、約0.475、約0.5、約0.525、約0.55、約0.575、約0.6、約0.625、約0.65、約0.675、約0.7、約0.725、約0.75、約0.775、約0.8、約0.825、約0.85、約0.875、約0.9、約0.925、約0.95、約0.975、または約1.0の最小距離を使用して学習され得る。いくつかの実施形態では、マッピングの前に、低頻度のゲノム領域は、複数の罹患細胞および複数の正常細胞の単細胞RNA配列(scRNA-seq)データから除去され得る。
【0071】
第1の表現型状態と第2の表現型状態との間の細胞型のリプログラミングを促進する1つ以上のゲノム領域の同定は、潜在空間のトポロジーのいくつかの適切な分析のいずれかに基づいて実施され得る。例として、第1の表現型状態と第2の表現型状態の間の推定最尤進行軌跡を構築するために、非線形細胞軌跡の再構成は、潜在空間(例えば、潜在空間に対して逆グラフ埋込みアルゴリズムを適用することによって)上で行なわれる場合がある。その後、推定最尤進行軌跡に基づいて、確率的推論は、第1の表現型状態と第2の表現型状態との間の細胞型のリプログラミングを促進する1つ以上ゲノム領域を同定するために使用されてもよい。いくつかの実施形態では、1つ以上の治療用標的は、第1の表現型状態に関連する疾患を処置するために、同定されたゲノム領域に基づいて、同定され得る。
【0072】
ゲノム領域が同定された後、ゲノム編集ユニット(例えば、CRISPR(例えば、活性Cas9)システム、CRISPRi(例えば、CRISPR干渉、KRABを含む転写抑制ペプチドに融合した触媒活性を伴わないCas9)システム、CRISPRa(例えば、CRISPR活性化、VPR(HIVウイルスタンパク質R)を含む転写活性化ペプチドに融合した触媒活性を伴わないCas9)システム、RNAiシステム、またはshRNAシステム)は、第1の表現型状態と第2の表現型状態との間の細胞型の細胞のリプログラミングを促進するためにそれぞれのゲノム領域を編集するように使用されてもよい。編集後、異常検出アルゴリズムは、ゲノム編集ユニットを使用してそれぞれのゲノム領域を編集した結果、細胞の潜在空間における推移の量を(例えば、密度推定関数を使用して)測定するために使用されてもよい。例えば、潜在空間における推移の量は、距離尺度(例えば、シュビシェフ距離、相関距離、コサイン距離、ユークリッド距離、符号付きユークリッド距離、ハミング距離、ジャカード距離、カルバック-ライブラー距離、マハラノビス距離、マンハッタン距離、ミンコスキー距離、スペアマン距離、またはリーマン多様体上の距離)を使用して測定され得る。例えば、密度推定関数は、確率密度推定、再スケーリングヒストグラム、パラメトリック密度推定関数、ノンパラメトリック密度推定関数(例えば、カーネル密度関数)、またはデータクラスタリング技術(例えば、ベクトル量子化)を含む場合がある。
【0073】
異常検出アルゴリズムは、教師なし機械学習アルゴリズム、半教師付き機械学習アルゴリズム、または教師付き機械学習アルゴリズムを含んでもよく、これらは、罹患細胞型(例えば、膵臓癌細胞などの癌細胞)または非罹患細胞型(例えば、膵管細胞またはアシナー細胞などの膵細胞)などの複数の細胞型の潜在空間プロファイルで学習され得る。例えば、異常検出アルゴリズムは、密度ベースの技術(k近傍法(k-nearest neighbor)、局所外れ値因子法(local outlier factor)、アイソレーションフォーレスト(isolation forest))、部分空間ベースの外れ値検出、相関ベースの外れ値検出、テンソルベースの外れ値検出、サポートベクターマシン(SVM)、単一クラスベクターマシン、サポートベクターデータ記述、ニューラルネットワーク(例えば、レプリケーター・ニューラル・ネットワーク(replicator neural network)、オートエンコーダ、長短期記憶(LSTM)ニューラルネットワーク)、ベイズネットワーク、隠れマルコフモデル(HMM)、クラスター分析ベースの外れ値検出、連想規則と頻出項目からの逸脱、ファジー論理ベースの外れ値検出、および(例えば、特徴バギング、スコア正規化、および異なる多様性の供給源を使用する)アンサンブル技術の1つ以上を含んでもよい。罹患細胞または正常細胞は、例えば、初代細胞株、ヒト・オルガノイドおよび動物モデルを含んでもよい。例えば、複数の細胞型は、膵管細胞、膵尖形細胞、膵臓腺癌、および/または膵臓腺癌を含み得る。ゲノム編集ユニットを使用してそれぞれのゲノム領域を編集した結果、細胞の潜在空間における推移の量を測定した後、測定された量に基づいて、1つ以上の遺伝子は治療標的としてランク付けされ得る。
【0074】
他の態様では、本開示は、1つ以上のコンピュータプロセッサによる実行時に、薬物の有効性を判定するための方法を実施する機械実行可能コードを備える一時的コンピュータ可読媒体を提供し、前記方法は、(a)ある細胞型の複数の罹患細胞と複数の正常細胞に関する核酸配列データの潜在空間表現を生成する工程であって、前記潜在空間は前記細胞型の複数の表現型状態を表す、工程と、(b)前記潜在空間のトポロジーに少なくとも部分的に基づいて、前記細胞型を前記複数の表現型状態の第1の表現型状態から第2の表現型状態へとリプログラミングするのを促進するゲノム領域を同定する工程と、(c)第1の潜在空間表現を産出するために前記細胞型の第1の細胞の配列データを前記潜在空間にマッピングする工程であって、前記第1の細胞は前記第1の表現型状態から前記第2の表現型状態へとリプログラミングされている、工程と、(d)第2の潜在空間表現を産出するために前記細胞型の第2の細胞の配列データを前記潜在空間にマッピングする工程であって、前記第2の細胞は前記薬物に曝露され、前記第2の細胞は、前記薬物に曝露される前に前記第1の表現型状態を呈した、工程と、(e)前記第1の潜在空間表現および前記第2の潜在空間表現に少なくとも部分的に基づいて、前記薬物の前記有効性を判定する工程とを含む。
【0075】
他の態様では、本開示は、薬物の有効性を判定するシステムを提供し、該システムは、細胞型の複数の罹患細胞および複数の正常細胞に関する核酸配列データを含むデータベースと、1つ以上のコンピュータプロセッサであって、(i)前記核酸配列データの潜在空間表現を生成することであって、前記潜在空間は前記細胞型の複数の表現型状態を表す、生成すること、(ii)前記潜在空間のトポロジーに少なくとも部分的に基づいて、前記細胞型の標的ゲノム領域を同定すること、(iii)第1の潜在空間の表現を産出するために前記細胞型の第1の細胞の配列データを前記潜在空間にマッピングすることであって、前記第1の細胞の前記標的ゲノム領域は改変されており、および、前記第1の細胞は、前記改変前に第1の表現型の状態を呈した、マッピングすること、(iv)第2の潜在空間表現を産出するために前記細胞型の第2の細胞の配列データを前記潜在空間にマッピングすることであって、前記第2の細胞は前記薬物に曝露され、前記第2の細胞は、前記薬物に曝露される前に前記第1の表現型状態を呈した、マッピングすること、(v)前記第1の潜在空間表現および前記第2の潜在空間表現に少なくとも部分的に基づいて、前記薬物の前記有効性を判定することを行うように個別または集合的にプログラムされるコンピュータプロセッサとを備える。
【0076】
他の態様では、本開示は、1つ以上のコンピュータプロセッサによる実行時に、薬物の有効性を判定するための方法を実施する機械実行可能コードを備える一時的コンピュータ可読媒体を提供し、前記方法は、(a)ある細胞型の複数の罹患細胞と複数の正常細胞に関する核酸配列データの潜在空間表現を生成する工程であって、前記潜在空間は前記細胞型の複数の表現型状態を表す、工程と、(b)前記潜在空間のトポロジーに少なくとも部分的に基づいて、前記細胞型の標的ゲノム領域を同定する工程と、(c)第1の潜在空間の表現を産出するために前記細胞型の第1の細胞の配列データを前記潜在空間にマッピングする工程であって、前記第1の細胞の前記標的ゲノム領域は改変されており、および、前記第1の細胞は、前記改変前に第1の表現型の状態を呈した、工程と、(d)第2の潜在空間表現を産出するために前記細胞型の第2の細胞の配列データを前記潜在空間にマッピングする工程であって、前記第2の細胞は前記薬物に曝露され、前記第2の細胞は、前記薬物に曝露される前に前記第1の表現型状態を呈した、工程と、(e)前記第1の潜在空間表現および前記第2の潜在空間表現に少なくとも部分的に基づいて、前記薬物の前記有効性を判定する工程とを含む。
【0077】
他の態様では、本開示は、ある表現型状態から別の表現型状態への細胞のリプログラミングを促進する1つ以上のゲノム領域を同定するためのシステムを提供する。本システムは、(例えば、細胞型の複数の罹患細胞および複数の正常細胞の)単細胞RNA配列データを含むデータベースを含んでもよい。データベースは、ローカル(例えば、ローカルサーバ、コンピュータ、またはコンピュータ媒体)に保存されてもよく、リモート(例えば、クラウドベースサーバ)に保存されてもよい。システムは、本開示の方法を実施するように個別にまたは集合的にプログラムされた1つ以上のコンピュータプロセッサをさらに含んでもよい。例えば、コンピュータプロセッサは、複数の罹患細胞および複数の正常細胞の単細胞RNA配列(scRNA-seq)データを、細胞型の複数の表現型状態に対応する潜在空間に(例えば、UMAPアルゴリズムまたは教師付き次元削減アルゴリズムを使用して)マッピングすること、潜在空間のトポロジーに少なくとも部分的に基づいて、複数の表現型状態の第1の表現型状態と第2の現型状態との間の細胞型のリプログラミングを促進する1つ以上のゲノム領域を同定すること(例えば、1つ以上のゲノム領域は、第1の表現型状態と第2の表現型状態との間の細胞型のリプログラミングを促進するように編集されるように構成されている)、および/または1つ以上のゲノム領域を電子的に出力することの1つ以上を実行するように個別にまたは集合的にプログラムされ得る。
【0078】
他の態様では、本開示は、薬物の有効性を判定するシステムを提供し、該システムは、細胞型の複数の罹患細胞および複数の正常細胞に関する核酸配列データを含むデータベースと、1つ以上のコンピュータプロセッサであって、(i)前記核酸配列データの潜在空間表現を生成することであって、前記潜在空間は前記細胞型の複数の表現型状態を表す、生成すること、(ii)前記潜在空間のトポロジーに少なくとも部分的に基づいて、前記細胞型のリプログラミングを前記複数の表現型状態の第1の表現型状態から第2の表現型状態へ促進するゲノム領域を同定すること、(iii)第1の潜在空間表現を産出するために前記細胞型の第1の細胞の配列データを前記潜在空間にマッピングすることであって、前記第1の細胞は前記第1の表現型状態から前記第2の表現型状態へとリプログラミングされている、マッピングすること、(iv)第2の潜在空間表現を産出するために前記細胞型の第2の細胞の配列データを前記潜在空間にマッピングすることであって、前記第2の細胞は前記薬物に曝露され、前記第2の細胞は、前記薬物に曝露される前に前記第1の表現型状態を呈した、マッピングすること、および(v)前記第1の潜在空間表現および前記第2の潜在空間表現に少なくとも部分的に基づいて、前記薬物の前記有効性判定することを行うように個別または集合的にプログラムされるコンピュータプロセッサとを備える。
【0079】
コンピュータシステム
本開示は、本開示の方法を実施するようにプログラムされるコンピュータシステムを提供する。図2は、例えば、核酸配列データ(例えば、scRNA-seqデータ)を生成するまたは分析すること、核酸データの潜在空間表現を生成すること、配列データを潜在空間にマッピングすること、標的ゲノム領域(例えば、第1の表現型状態と第2の表現型状態との間の細胞型のリプログラミングを促進するゲノム領域)を(例えば、確率的推論を使用して)同定すること、核酸配列データ上で教師付きアルゴリズムを訓練すること、薬物の有効性を判定することのために、プログラムされるか、または他の方法で構成されるコンピュータシステム(201)を示す。
【0080】
コンピュータシステム(201)は、例えば、核酸配列データ(例えば、scRNA-seqデータ)を生成するまたは分析すること、核酸データの潜在空間表現を生成すること、配列データを潜在空間にマッピングすること、標的ゲノム領域(例えば、第1の表現型状態と第2の表現型状態との間の細胞型のリプログラミングを促進するゲノム領域)を(例えば、確率的推論を使用して)同定すること、核酸配列データ上に教師付きアルゴリズムを訓練すること、薬物の有効性を判定することなどの本開示の方法およびシステムの様々な態様を調節することができる。
【0081】
コンピュータシステム(201)は、ユーザまたはコンピュータシステムの電子デバイスであってもよく、電子デバイスに対して遠隔に位置付けられる。電子デバイスはモバイル電子デバイスであってもよい。コンピュータシステム(201)は、中央処理装置(CPU、本明細書では「プロセッサ」および「コンピュータプロセッサ」とも呼ばれる)(205)を含み、この中央処理装置は、シングルコアまたはマルチコアのプロセッサ、あるいは並行処理のための複数のプロセッサであり得る。コンピュータシステム(201)は、メモリまたは記憶場所(210)(例えば、ランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリ)、電子記憶装置(215)(例えば、ハードディスク)、1つ以上の他のシステムと通信するための通信インタフェース(220)(例えば、ネットワークアダプタ)、および周辺機器(225)、例えば、キャッシュ、他のメモリ、データ記憶装置、ならびに/あるいは電子ディスプレイアダプターも含む。メモリ(210)、記憶装置(215)、インタフェース(220)、および周辺機器(225)は、マザーボードなどの通信バス(実線)を介してCPU(205)と通信する。記憶装置(215)は、データを保存するためのデータ記憶装置(または、データレポジトリ)であり得る。コンピュータシステム(201)は、通信インタフェース(220)の助けによってコンピュータネットワーク(「ネットワーク」)(230)に動作可能に接続され得る。ネットワーク(230)は、インターネットおよび/またはエクストラネット、インターネットと通信状態にあるイントラネットおよび/またはエクストラネットであり得る。場合によってはネットワーク(230)は、電気通信および/またはデータのネットワークである。ネットワーク(230)は1つ以上のコンピュータサーバーを含み得、このコンピュータサーバーは、クラウドコンピューティングなどの分散コンピューティングを可能にし得る。ネットワーク(230)は、場合によっては、コンピュータシステム(201)の助けにより、ピアツーピア・ネットワークを実施することができ、これにより、コンピュータシステム(201)に連結されたデバイスが、クライアントまたはサーバーとして動くことを可能にし得る。
【0082】
CPU(205)は、プログラムまたはソフトウェアで統合可能な一連の機械可読命令を実行することができる。この命令は、メモリ(210)などの記憶場所に保存され得る。この命令は、CPU(205)に向けられてもよく、これは後に、本開示の方法を実施するようにCPU(205)をプログラムするか、またはそれ以外の方法で構成され得る。CPU(205)により実行される動作の例としては、フェッチ、デコード、実行、およびライトバックが挙げられる。
【0083】
CPU(205)は、集積回路など回路の一部であり得る。システム(201)の1つ以上の他のコンポーネントが、回路に含まれてもよい。場合によっては、回路は特定用途向け集積回路(ASIC)である。
【0084】
記憶装置(215)は、ドライバー、ライブラリー、およびセーブされたプログラムなどのファイルを保存することができる。記憶装置(215)は、ユーザデータ、例えば、ユーザの嗜好およびユーザのプログラムを保存することができる。コンピュータシステム(201)は、場合によっては、イントラネットまたはインターネットを介してコンピュータシステム(201)と通信状態にあるリモートサーバー上に位置付けられるなどした、コンピュータシステム(201)の外部にある1つ以上の追加のデータ記憶装置を含み得る。
【0085】
コンピュータシステム(201)は、ネットワーク(230)を介して1つ以上のリモートコンピュータシステムと通信することができる。例えば、コンピュータシステム(201)はユーザのリモートコンピュータシステムと通信できる。リモートコンピュータシステムの例としては、パーソナルコンピュータ(例えば、持ち運び可能なPC)、スレートまたはタブレットPC(例えば、Apple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(例えば、Apple(登録商標)iPhone(登録商標)、Android-enabledデバイス、Blackberry(登録商標))、または携帯情報端末が挙げられる。ユーザは、ネットワーク(230)を介してコンピュータシステム(201)にアクセスすることができる。
【0086】
本明細書に記載されるような方法は、例えば、メモリ(210)または電子記憶装置(215)上などの、コンピュータシステム(201)の電子記憶場所に保存された機械(例えば、コンピュータプロセッサ)実行可能コードによって実行可能である。機械実行可能コードまたは機械可読コードは、ソフトウェアの形態で提供され得る。使用中、コードはプロセッサ(205)により実行され得る。場合によっては、コードは、記憶装置(215)から検索され、かつプロセッサ(205)による即時のアクセスのためにメモリ(210)に保存することができる。いくつかの状況において、電子記憶装置(215)は除外されてもよく、機械実行可能命令がメモリ(210)に保存される。
【0087】
コードは、コードを実行するのに適したプロセッサを有する機械とともに使用されるようにあらかじめコンパイルされかつ構成され得るか、あるいは、実行時間中にコンパイルされ得る。コードは、あらかじめコンパイルされた、またはアズコンパイルされた(as-compiled)様式でコードを実行可能にするために選択され得る、プログラミング言語で供給され得る。
【0088】
コンピュータシステム(201)などの本明細書で提供されるシステムと方法の態様は、プログラミングの際に統合することができる。この技術の様々な態様は、典型的に一種の機械可読媒体上で運ばれるまたはそれに埋め込まれる機械(またはプロセッサ)実行可能コードおよび/または関連データの形で、「製品」または「製造用品」として考慮され得る。機械実行可能コードは、メモリ(例えば、読み取り専用メモリ、ランダムアクセスメモリ、フラッシュメモリ)またはハードディスクなどの電子記憶装置に記憶することができる。「記憶」型の媒体は、様々な半導体メモリ、テープドライブ、ディスクドライブなどの、コンピュータやプロセッサの有形メモリ、あるいはその関連するモジュールのいずれかまたは全てを含むことができ、これらは、ソフトウェアのプログラミングのためにいかなる時も非一時的な記録媒体を提供し得る。ソフトウェアの全てまたは一部は、時々、インターネットまたは様々な他の電気通信ネットワークを介して通信される。そのような通信は、例えば、あるコンピュータまたはプロセッサから別のコンピュータまたはプロセッサへの、例えば、管理サーバーまたはホストコンピュータからアプリケーションサーバーのコンピュータプラットフォームへの、ソフトウェアのローディングを可能にし得る。ゆえに、ソフトウェア要素を持ち得る別のタイプの媒体は、有線および光地上通信線ネットワークを介した、および様々なエアリンク(air-links)上での、ローカルデバイス間の物理インタフェースにわたって使用されるものなどの、光波、電波、および電磁波を含む。有線または無線リンク、光リンクなどの、そのような波を運ぶ物理要素はまた、ソフトウェアを持つ媒体と考えられ得る。本明細書で使用される場合、非一時的で有形の「記憶」媒体に制限されない限り、コンピュータまたは機械「可読媒体」などの用語は、実行のためにプロセッサに命令を提供することに関与する媒体を指す。
【0089】
従って、コンピュータ実行可能コードなどの機械可読媒体は、限定されないが、有形記憶媒体、キャリア波媒体、または物理送信媒体を含む、多くの形態をとってもよい。不揮発性記憶媒体は、例えば、光ディスクまたは磁気ディスク、例えば、図面に示されるデータベースなどを実施するために使用され得るものなどのコンピュータなどにおける記憶装置のいずれかを含む。揮発性記憶媒体は、ダイナミックメモリ、例えば、そのようなコンピュータプラットフォームのメインメモリを含む。有形送信媒体は、同軸ケーブル、コンピュータシステム内のバスを含むワイヤーを含む、銅線および光ファイバーを含んでいる。搬送波送信媒体は、無線周波(RF)および赤外線(IR)データ通信中に生成されたものなどの、電気信号または電磁気信号、あるいは音波または光波の形態をとり得る。それゆえ、コンピュータ可読媒体の共通の形態としては、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、他の磁気媒体、CD-ROM、DVDもしくはDVD-ROM、他の光学媒体、パンチカード、紙テープ、穴のパターンを有する他の物理的な記憶媒体、RAM、ROM、PROMおよびEPROM、FLASH(登録商標)-EPROM、他のメモリチップもしくはカートリッジ、データもしくは命令を運ぶ搬送波、そのような搬送波を伝達するケーブルもしくはリンク、またはコンピュータがプログラミングのコードおよび/またはデータを読み取り得る他の媒体を含む。コンピュータ可読媒体のこれらの形態の多くは、実行のためにプロセッサに1つ以上の命令の1つ以上のシーケンスを運ぶことに関与し得る。
【0090】
コンピュータシステム(201)は、例えば、核酸配列データのユーザによる選択、マッピングまたは他のアルゴリズム、およびデータベースを提供するためのユーザインタフェース(UI)(240)を含む電子ディスプレイ(235)を含み得るか、またはそれと通信可能であり得る。
【0091】
本開示の方法とシステムは、1つ以上のアルゴリズムによって実施することができる。アルゴリズムは、中央処理装置(205)による実行の後にソフトウェアによって実施することができる。アルゴリズムは、例えば、核酸配列データ(例えば、scRNA-seqデータ)を生成するまたは分析すること、核酸データの潜在空間表現を生成すること、配列データを潜在空間にマッピングすること、標的ゲノム領域(例えば、第1の表現型状態と第2の表現型状態との間の細胞型のリプログラミングを促進するゲノム領域)を(例えば、確率的推論を使用して)同定すること、核酸配列データ上に教師付きアルゴリズムを訓練すること、薬物の有効性を判定することが可能である。
【実施例
【0092】
実施例1―scRNA-seqデータの生成および前処理
単細胞RNA配列決定(scRNA-seq)データを以下のように生成した。ヒトKRAS変異体(KRASG12C)癌膵臓癌細胞株MIAPaCa-2および正常膵管細胞株hTERT-HPNE(Human Pancreatic Nestin Expressing cell)の細胞を、FBS、および追加成分を補充したDMEM培地で業者の説明に従って培養した。薬理学的阻害のために、これらの細胞株をオーラノフィン、D9、ピペロンギュミンを含む様々な小分子阻害剤のいずれかで処置した。遺伝的阻害のために、これらの細胞株を、転写抑制ペプチドKruppel関連ボックス(Kruppel associated box)(KRAB)と融合した触媒活性を伴わないCas9(dCas9)を安定的に発現するようにさらに遺伝子改変させ、KRAS、TXNRD1またはRPA1を個別に標的とするsgRNAを共発現させることにより、関心対象の遺伝子を発現抑制するためのCRISPR干渉(CRISPRi)を可能にした。scRNA-seqについては、各細胞型を単細胞で単離した後、製造元(10X Genomics,Pleasanton,CA)の指示に従い、対応するRNAおよびcDNAライブラリーを調製した。cDNAライブラリーをMiSeqシーケンス機器(Illumina,San Diego,CA)で配列決定して細胞数情報を取得し、次いで、NextSeq機器(Illumina)またはHiseq4000機器(Illumina)で配列決定してscRNA-seqデータを取得した。
【0093】
単細胞RNA配列決定(scRNA-seq)データは、以下のように前処理を行った。10倍深度配列決定によって生成されたHUGO遺伝子命名委員会(HGNC)準拠の固有の分子インデックス(unique molecular index)(UMI)カウントマトリックスは、下流分析パイプラインで分析する前に前処理とスケーリングを行った。低存在遺伝子(例えば、平均カウントが0.1未満)および細胞の10%未満にリードがある遺伝子、ならびに全ての遺伝子の10%未満に非ゼロのリードがある細胞を、カウントマトリックスから削除した。個々の細胞間の配列決定深さの不一致を調整するために、カウントマトリックスを、場合によっては、その後の分析に持ち越す前に正規化およびスケーリングした。正規化の方法は、細胞レベルのカウントを全細胞にわたって中央値の深さまたは平均値の深さに全体的にスケーリングすること(スカラー調整)、線形方程式を解いて個々の細胞について固有のスケーリングファクターを得るなどのデコンボリューションアプローチ、細胞のプール全体の合計値を用いたスケーリング正規化、およびスパイクインRNAセットを用いたスケーリング正規化を含むが、それらに限定されない。場合によっては、相互最近傍アルゴリズム(MNN)、主成分分析(PCA)、マルチバッチ正規化、マルチバッチPCAなどを介してサンプル間のバッチ効果を補正した。
【0094】
実施例2―潜在空間の構築
潜在空間の構築を以下のように実施した。高次元の単細胞カウントマトリクスを、教師付き機械学習アルゴリズムを使用して、2次元の潜在空間にマッピングした。膵臓癌の場合には、膵臓の腺房細胞、管状細胞、および腺癌細胞を含む純粋な細胞型の採集で縮小アルゴリズムを学習させた。必須遺伝子(例えば、RPA1またはPCNA)を標的とした細胞も、関心対象の標的候補から発生し得る潜在的な毒性合併症をモデル化するために、潜在空間訓練に含ませた。教師付き学習のための標識は、純粋な細胞型のそれぞれに対応するように選択された。
【0095】
潜在空間構築のために、限定されないが、均一多様体近似と投影(UMAP)、可変オートエンコーダ(VAE)を含むいくつかのアルゴリズムを評価した。場合によっては、Elbow法(例えば、Richards et al.,J Shoulder Elbow Surg 8(4):351-354(1999)によって記載されるように、これは参照によりその全体が本明細書に組み込まれる)を使用して、潜在空間の最適な次元数を判定した。UMAPでは、最小距離0.025~0.25、セル総数の75%に相当する近傍数、および距離メトリックとしてユークリッド距離というパラメータをモデル学習に使用した。
【0096】
実施例3―薬物処置定量化および選択
薬物処置効果を、薬物処置後の細胞の病的状態から標的状態への相対的な変換に基づき定量化した。簡単に説明すると、教師付き分類アルゴリズムを、罹患細胞(例えば、癌)と標的(例えば、初代)細胞を含む、上記の純粋な細胞型の2次元潜在性発現プロファイルで訓練させた。アルゴリズムを、細胞型を2値的に識別するように訓練させた。アルゴリズムの例は、限定されないが、ランダムフォレスト、ロジスティック回帰、ベイズ分類器、畳み込みニューラルネットワーク、およびサポートベクターマシンを含んでいた。アルゴリズムの目的関数を、ブートストラップ平均した曲線下面積(area-under-the-curve)(AUC)が0.98を超える細胞型間の識別ができるように最適化した。
【0097】
その後、罹患細胞(例えば、癌細胞)を、候補薬物化合物で設定持続時間(例えば、6時間または24時間)処置し、および薬物処置された細胞を、上述の訓練された分類器を介して「異常」または「標的」細胞として割り当てた。この分類出力に基づき、「標的」状態への「変換」に成功した薬物処置された細胞の割合を、DMSOなどのビヒクル対照処置に対して評価した。割合の95%信頼区間は、置換を伴う反復サンプリングを介して構築された。その後、薬物を、(ビヒクル対照に対しての)効果量または平均ブートストラップ割合に基づいてランク付けした。ボンフェローニ調整によるp値<0.05を満たす上位の薬物候補を、さらなる生物学的研究と開発のための候補化合物として選定した。
【0098】
実施例4―遺伝的阻害と薬理的阻害による効果を比較し、オンターゲット阻害剤を同定するためのパイプライン
図3A図3Bは、CRISPRi(またはCRISPR、RNAi)による遺伝子照合の効果を最もよく模倣する阻害剤を同定するための実験的および計算的枠組みを提供する。図3Aは、薬物のオンターゲットとオフターゲットの効果を評価する例、および新規な阻害剤を同定する例を示す。CRISPRi遺伝子照合、連続的単細胞配列決定、インテリジェント潜在空間構築、および教師付き学習を活用することによって、薬物フィンガープリント(小分子、抗体による標的の阻害)からのオンターゲットとオフターゲットの効果は、標的フィンガープリントによって指示された望ましい状態(CRISPRi、CRISPR、RNAiによる標的照合)に一致する能力に応じて評価する。例えば、単細胞配列決定を連続して実施することによって、分析の頑健性が有利に向上し、望ましくない効果(例えば、バッチ効果および/またはバックグラウンドノイズ)が減少する。
【0099】
図3Bは、元の状態と所望の状態との比較によって新しい細胞を分類するための、2値細胞型上でのモデルを訓練するための方法としての教師付き学習の説明図を示す。
【0100】
同じ標的に対して阻害剤またはCRISPRiで処置した単細胞のトランスクリプトームを別々に単離した。その後、配列リードの正規化を実施するために、連続的単細胞配列決定アプローチ(図4A図4B、実施例5)を、サンプルに適用した。代表的な潜在空間は、異なる細胞集団の教師付き次元削減(例えば、UMAPまたはVAEを使用)を介して生成された。その後、教師付き学習(図3A図3B)を適用して、2値細胞型に関するモデルを訓練し、元の状態および所望の状態と分類を比較することによって新しい細胞を分類することによって、薬物効果を評価した。
【0101】
実施例5―リード数および遺伝子数を正規化するための連続的単細胞配列決定アプローチ
単細胞単離中に、捕捉された単細胞の数が、カウントに基づく予想数と異なる場合がある。このため、多くのサンプルにわたって配列決定を行った場合、ライブラリーのリード深さに差が生じ、下流の差分発現分析でアーチファクトが発生することがある。この問題を対処するために、リード正規化のための連続的単細胞配列決定アプローチを開発した (図4A)。2つのサンプル(MIAPaCa-2細胞をDMSOまたはピペロンギュミンで処置した)の単細胞の数を、まず、小規模な配列決定機器(MiSeqシステム)を使用して、判定した(図4B)。細胞数を定量化した後、算出した細胞数に応じて、より高い配列決定出力の配列決定機器(NextSeq、Hiseq、またはNovaSeqシステム)からの配列リードを割り当てた。正規化する前に、2つの単細胞サンプル(DMSOおよびPiper)では、リード深さが異なる結果となった。対照的に、サンプル細胞番号に基づいて配列決定リードを割り当てたところ、サンプル間でリード深さが同程度になった(図4B)。
【0102】
図4A図4Bは、サンプル間にわたってリード数と遺伝子数を正規化するための連続的単細胞配列決定アプローチの例を示し、正規化アプローチの概要図を含み(図4A)、連続的単細胞配列決定アプローチの前後のサンプルからの細胞当たりのリード数と遺伝子数(図4B)を含み、DMSOは、MIAPaCa-2細胞をDMSOで6時間処置したことを示す。Piperは、MIAPaCa-2細胞をピペロンギュミンで6時間処置したことを示す。
【0103】
実施例6―単細胞RNA配列決定プロファイルの定量化に基づく上位薬物候補の機械学習主導型選択
上位薬物候補を、健常細胞の罹患状態への転換を最小限に抑え、罹患細胞を健常状態に「変換」させる性質に基づいて選定する(図5A図5Dおよび図6A図6D)。簡単に説明すると、摂動していない膵臓の健常なhTERT-HPNE細胞と癌のMIAPaCa-2細胞のトランスクリプトームを、UMAPを介して2次元潜在性発現プロファイルに投影し、機械学習モデルを、AUC>0.98で2値的に細胞型間を識別するように(図5Aおよび図6A)訓練した。その後、MIAPaCa-2細胞を薬物候補で6時間(図5A図5D)または24時間(図6A図6D)のいずれかで処置し、その後、処置された細胞の2次元投影トランスクリプトームを、上述の学習済みアルゴリズムを介して分類した。その後、「変換された」ヒト膵臓癌細胞の割合を、二項比検定によって、ビヒクル対照(例えば、DMSO)に対して評価した(図5C図5Dおよび図6C図6D)。ビヒクル対照に比べて、ヒト膵臓癌細胞の変換が最大で、かつ健常細胞の変換が最小である薬物を選択し、さらなる生物学的検証および開発を行った。
【0104】
図5A図5Dは、単細胞のRNA配列決定プロファイル(6時間処置)の定量化に基づく機械学習主導の上位薬物候補を選択する例を示す。図5A図5Bは、ヒト癌膵臓癌細胞MIAPaCa-2と健常膵管細胞hTERT-HPNEの2次元UMAP投影を、細胞型(図5A)または薬物処置(オーラノフィン、D9、またはピペルロングミン)および持続時間(図5B)のいずれかによって示す。図5Cは、ビヒクル対照(DMSO)または薬物候補のいずれかで処置される細胞の機械学習分類を示す。簡潔に言えば、教師付き機械学習アルゴリズムは、純粋な細胞型(健常細胞および癌細胞)の2次元UMAPトランスクリプトームプロファイルで訓練され、AUCが0.98を超える細胞型間の2値識別を可能にした。処置された細胞は、処置後のそれらの結果として生じる2次元トランスクリプトームに基づいて「癌」または「健常」に割り当てられた。図5Dは、ビヒクル対照(DMSO)に対する薬物候補の二項試験結果の概要を示す。
【0105】
図6A図6Dは、単細胞のRNA配列決定プロファイル(24時間処置)の定量化に基づく機械学習主導の上位薬物候補を選択する例を示す。図6A図6Bは、ヒト癌膵臓癌細胞MIAPaCa-2と健常膵管細胞hTERT-HPNEの2次元UMAP投影を、細胞型(図6A)または薬物処置(オーラノフィン、D9、またはピペルロングミン)および持続時間(図6B)のいずれかによって示す。図6Cは、ビヒクル対照(DMSO)または薬物候補のいずれかで処置される細胞の機械学習分類を示す。簡潔に言えば、教師付き機械学習アルゴリズムは、純粋な細胞型(健常細胞および癌細胞)の2次元UMAPトランスクリプトームプロファイルで訓練され、AUCが0.98を超える細胞型間の2値識別を可能にした。処置された細胞は、処置後のそれらの結果として生じる2次元トランスクリプトームに基づいて「癌」または「健常」に割り当てられた。図6Dは、ビヒクル対照(DMSO)に対する薬物候補の二項試験結果の概要を示す。
【0106】
実施例7―オンターゲット薬物効果の評価
上位薬物候補を、標的遺伝子の遺伝子阻害によって指示される所望のフィンガープリント(オンターゲットフィンガープリントの最大類似度とオフターゲットフィンガープリントの最小類似度)に一致する能力に基づいて、選択した(図7)。簡単に説明すると、sgRNA(TXNRD1、KRAS、RPA1、陰性対照)または薬物処置(TXNRD1阻害剤オーラノフィン、D9、またはピペルロングミン)で処置したヒト膵臓癌細胞 MIAPaCa-2(KRASおよびTXNRD1シグナル伝達に依存していることが示され得る)の単細胞トランスクリプトームは、UMAP(図8A図8H)またはt-SNE(図9A図9H)を介して2次元潜在発現プロファイルに投影された。sgTXNRD1細胞(およびsgKRAS細胞)の類似度が最大で、かつ陰性対照に対するsgRPA1細胞の類似度が最小の薬物が、さらなる生物学的検証および開発のために選択された。
【0107】
上記の方法とシステムの再現性および頑健性を実証するために、本発明者らは、所望の標的であるTXNRD1(図10A図10F)またはKRAS(図11A図11F)に対する2つの独立したsgRNAをそれぞれ使用して、薬物のオンターゲットとオフターゲットの効果を評価した。TXNRD1に対する2つの独立したsgRNAは、TXNRD1標的抑制の効力が等しいだけでなく(図10F)、薬物のオンターゲットおよびオフターゲットの効果を評価するための類似性が高い単細胞トランスクリプトームフィンガープリントもまた示した(図10A図10E)。同様に、KRASに対する2つの独立したsgRNAは、KRAS標的抑制の効力が等しいだけでなく(図11F)、評価された薬物のオンターゲットおよびオフターゲットの効果に対する類似性が高い単細胞トランスクリプトームフィンガープリントもまた示した(図11A図11E)。
【0108】
図7は、CRISPRによって照合されたオンターゲットとオフターゲットを有する細胞との分類を比較することによって、新しい薬物で処置された細胞を分類するために、2値細胞型上でモデルを訓練する方法としての教師付き学習の例示を示す。
【0109】
図8A図8Hは、薬物のオンターゲットおよびオフターゲット効果を評価する例を示す。(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)ヒト膵臓癌細胞株MIAPaCa-2の2次元UMAP投影は、sgRNA(図8Aの陰性対照sgRNA、図8BのKRAS sgRNA、図8CのTXNRD1 sgRNA、および図8DのRPA1 sgRNAを含む)または薬物処置(図8Eのオーラノフィン、図8FのD9、および図8Gのピペロングミンを含む)によって示され、または統合(図8H)された。図8Hの破線の円で示されるように、薬理学的阻害(オーラノフィン、D9、またはピペロングミンによって阻害されたTXNRD1)によるオンターゲットおよびオフターゲット効果は、遺伝的阻害によって指示されたオンターゲットのフィンガープリントに一致する能力(TXNRD1またはKRASを標的とするsgRNA)に応じて評価された。必須遺伝子RPA1を標的とするsgRNAは毒性対照フィンガープリントとして使用された。
【0110】
図9A図9Hは、薬物のオンターゲットおよびオフターゲット効果を評価する例を示す。(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)ヒト膵臓癌細胞株MIAPaCa-2の2次元、t分布型確率的近傍埋込み(t-SNE)投影は、sgRNA(図9Aの陰性対照sgRNA、図9BのKRAS sgRNA、図9CのTXNRD1 sgRNA、および図9DのRPA1 sgRNAを含む)または薬物処置(図9Eのオーラノフィン、図9FのD9、および図9Gのピペロングミンを含む)によって示され、または統合(図9H)された。図9Hの破線の円で示されるように、薬理学的阻害(オーラノフィン、D9、またはピペロングミンによって阻害されたTXNRD1)によるオンターゲットおよびオフターゲット効果は、遺伝的阻害によって指示されたオンターゲットのフィンガープリントに一致する能力に応じて評価された(TXNRD1またはKRASを標的とするsgRNA)。必須遺伝子RPA1を標的とするsgRNAは毒性対照フィンガープリントとして使用された。
【0111】
図10A図10Fは、TXNRD1標的遺伝子を例として使用して、薬物のオンターゲットおよびオフターゲットの効果を評価する本方法の再現性を示す。ヒト膵臓癌細胞株MIAPaCa-2(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)の2次元UMAP投影を、sgRNA(図10Aの陰性対照sgRNA、図10BのTXNRD1#1 sgRNA、および図10CのTXNRD1#2 sgRNAを含む)または薬物処置(図10Dのオーラノフィンを含む)によって示され、または統合された(図10E)。図10Eの破線の円で示されるように、薬理学的阻害(オーラノフィンによって阻害されたTXNRD1)からのオンターゲットおよびオフターゲット効果は、2つの独立した遺伝的阻害によって指示されたオンターゲットフィンガープリントに一致する能力に応じて評価された(TXNRD1を標的とする2つの独立したsgRNA)。TXNRD1を標的とする2つの独立したsgRNAを導入したヒト膵臓癌細胞株MIAPaCa-2におけるTXNRD1遺伝子発現の定量的PCR(qPCR)分析は、図10Fに示される。データは、平均値±標準偏差として表示されている。群間の統計的有意性は、両側スチューデントt検定(two-tailed Student’s t-test)により算出された。有意値はP<0.05()である。
【0112】
図11A図11Fは、KRAS標的遺伝子を例として使用して、薬物のオンターゲットおよびオフターゲットの効果を評価する本方法の再現性を示す。ヒト膵臓癌細胞株MIAPaCa-2(KRASおよびTXNRD1シグナル伝達に依存することが示され得る)の2次元UMAP投影を、sgRNA(図11Aの陰性対照sgRNA、図11BのKRAS1#1 sgRNA、および図11CのKRAS#2 sgRNAを含む)または薬物処置(図11Dのオーラノフィンを含む)によって示され、または統合された(図11E)。図11Eの破線の円で示されるように、薬理学的阻害(オーラノフィン)からのオンターゲットおよびオフターゲットの効果は、2つの独立した遺伝的阻害によって指示されたオンターゲットフィンガープリントに一致する能力に応じて評価された(2つの独立したKRASを標的とするsgRNA)。KRASを標的とする2つの独立したsgRNAを導入したヒト膵臓癌細胞株MIAPaCa-2におけるKRAS遺伝子発現の定量的PCR(qPCR)分析は、図11Fに示される。データは、平均値±標準偏差として表示されている。群間の統計的有意性は、両側スチューデントt検定(two-tailed Student’s t-test)により算出された。有意値はP<0.05()およびP<0.01(**)である.
【0113】
本発明の好ましい実施形態が本明細書中で示され、記載されてきたが、このような実施形態はほんの一例として提供されているに過ぎないことが当業者に明らかである。本発明が明細書内で提供される特定の例によって制限されることは意図していない。本発明は前述の明細書を参照して記載されているが、本明細書中の実施形態の記載および例示は、限定的な意味で解釈されることを意味していない。当業者であれば、多くの変更、変化、および置換が、本発明から逸脱することなく想起する。さらに、本発明のすべての態様は、様々な条件および変数に依存する、本明細書で説明された特定の描写、構成、または相対的な比率に限定されないことが理解されるべきである。本明細書に記載される本発明の実施形態の様々な代替案が、本発明の実施に際して利用され得ることを理解されるべきである。それゆえに、本発明は、任意のそのような代替物、修正物、変形物、または同等物にも及ぶことが企図される。以下の特許請求の範囲は本発明の範囲を規定するものであり、この特許請求の範囲とその均等物の中にある方法、および構造体は、それによって網羅されるものであるということが意図されている。
図1A
図1B
図2
図3A
図3B
図4A
図4B
図5A
図5B
図5C
図5D
図6A
図6B
図6C
図6D
図7
図8A
図8B
図8C
図8D
図8E
図8F
図8G
図8H
図9A
図9B
図9C
図9D
図9E
図9F
図9G
図9H
図10A
図10B
図10C
図10D
図10E
図10F
図11A
図11B
図11C
図11D
図11E
図11F
【国際調査報告】