(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-06-22
(54)【発明の名称】機械学習モデルを使用した疾患の転帰の予測
(51)【国際特許分類】
C12Q 1/02 20060101AFI20230615BHJP
G01N 33/50 20060101ALI20230615BHJP
G01N 33/68 20060101ALI20230615BHJP
G01N 33/53 20060101ALI20230615BHJP
G01N 33/15 20060101ALI20230615BHJP
G01N 33/48 20060101ALI20230615BHJP
G16H 50/70 20180101ALI20230615BHJP
C12N 5/071 20100101ALN20230615BHJP
C12N 5/10 20060101ALN20230615BHJP
C12N 15/09 20060101ALN20230615BHJP
C12Q 1/68 20180101ALN20230615BHJP
【FI】
C12Q1/02
G01N33/50 P
G01N33/68
G01N33/53 Y
G01N33/50 Z
G01N33/15 Z
G01N33/48 Z
G16H50/70
C12N5/071
C12N5/10
C12N15/09 100
C12Q1/68 100Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022571752
(86)(22)【出願日】2021-05-21
(85)【翻訳文提出日】2022-12-08
(86)【国際出願番号】 US2021033702
(87)【国際公開番号】W WO2021237117
(87)【国際公開日】2021-11-25
(32)【優先日】2020-05-22
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】522454068
【氏名又は名称】インシトロ インコーポレイテッド
(74)【代理人】
【識別番号】100102978
【氏名又は名称】清水 初志
(74)【代理人】
【識別番号】100102118
【氏名又は名称】春名 雅夫
(74)【代理人】
【識別番号】100160923
【氏名又は名称】山口 裕孝
(74)【代理人】
【識別番号】100119507
【氏名又は名称】刑部 俊
(74)【代理人】
【識別番号】100142929
【氏名又は名称】井上 隆一
(74)【代理人】
【識別番号】100148699
【氏名又は名称】佐藤 利光
(74)【代理人】
【識別番号】100188433
【氏名又は名称】梅村 幸輔
(74)【代理人】
【識別番号】100128048
【氏名又は名称】新見 浩一
(74)【代理人】
【識別番号】100129506
【氏名又は名称】小林 智彦
(74)【代理人】
【識別番号】100205707
【氏名又は名称】小寺 秀紀
(74)【代理人】
【識別番号】100114340
【氏名又は名称】大関 雅人
(74)【代理人】
【識別番号】100214396
【氏名又は名称】塩田 真紀
(74)【代理人】
【識別番号】100121072
【氏名又は名称】川本 和弥
(72)【発明者】
【氏名】コラー ダフネ
(72)【発明者】
【氏名】ケイカス アジャメテ
(72)【発明者】
【氏名】シャロン エイロン
(72)【発明者】
【氏名】コッタ-ラムジーノ セシリア ジョバンナ シルビア
(72)【発明者】
【氏名】パルメド ピーター フランクリン ジュニア
(72)【発明者】
【氏名】スルタン モハマド ムニーブ
(72)【発明者】
【氏名】スタニツァス パナヨティス ディミトリオス
(72)【発明者】
【氏名】カサーレ フランチェスコ パオロ
(72)【発明者】
【氏名】リーセルマン アダム ジョセフ
(72)【発明者】
【氏名】カテガヤ ローン
(72)【発明者】
【氏名】サリック マックス アール.
【テーマコード(参考)】
2G045
4B063
4B065
5L099
【Fターム(参考)】
2G045AA25
2G045DA13
2G045DA36
2G045JA01
4B063QA05
4B063QQ08
4B063QQ42
4B063QQ52
4B063QR47
4B063QR48
4B063QR90
4B063QS38
4B065AA93X
4B065AB01
4B065AC20
4B065BA01
4B065BB08
4B065BB19
4B065BB20
4B065CA44
5L099AA04
(57)【要約】
本開示の実施形態は、介入を検証するためのML対応細胞疾患モデルを実装すること、介入に対するレスポンダーである可能性が高い患者集団を特定すること、及び治療的構造活性相関スクリーニングを開発することを含む。細胞疾患モデルを生成するために、ヒトの遺伝的コホート、文献、及び汎用の細胞または組織レベルのゲノムデータからデータを組み合わせて、特定の疾患を生じさせる一連の要因(例えば、遺伝的、環境的、細胞的要因)を解明する。一連の因子を使用してin vitro細胞を操作し、細胞疾患モデルの実装に有用な機械学習モデルをトレーニングするためのトレーニングデータを生成する。
【選択図】
図1B
【特許請求の範囲】
【請求項1】
臨床転帰を予測するML対応細胞疾患モデルで使用するための機械学習モデルを開発するための方法であって、
疾患の遺伝的構造とアラインした細胞を取得するかまたは取得したことと、
前記細胞内の疾患細胞状態を促進するように前記細胞を改変することと、
前記細胞から表現型アッセイデータを捕捉することと、
前記細胞疾患モデルに有用な前記機械学習モデルをトレーニングするために、機械学習(ML)実装方法により、前記細胞の前記表現型アッセイデータを分析することであって、前記機械学習モデルが、前記捕捉された表現型アッセイデータと臨床表現型との間の関係を少なくとも部分的に含む、前記分析することと
を含む、前記開発するための方法。
【請求項2】
前記機械学習モデルのトレーニングが、in vitroモデルにおける健康及び疾患の代理ラベルとして機能する1つ以上の曝露反応表現型(ERP)の表現型アッセイデータを、前記ML実装方法によって分析することを含む、請求項1に記載の方法。
【請求項3】
前記ERPの以前に生成された表現型アッセイデータを、疾患を有するまたは有さないことが知られている細胞から捕捉した対応する表現型アッセイデータと比較することによって、前記ERPが検証される、請求項2に記載の方法。
【請求項4】
ERPの表現型アッセイデータが、摂動因子(perturbagen)に曝露された複数の細胞から捕捉される、請求項2または3に記載の方法。
【請求項5】
前記複数の細胞が、異なる濃度の摂動因子に曝露される、請求項4に記載の方法。
【請求項6】
前記複数の細胞が、複数の遺伝的バックグラウンドを含む、請求項4または5に記載の方法。
【請求項7】
前記1つ以上のERPが、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、または少なくとも20個のERPを含む、請求項2~6のいずれか一項に記載の方法。
【請求項8】
前記1つ以上のERPが、少なくとも5つのERPを含む、請求項7に記載の方法。
【請求項9】
疾患の遺伝的構造が、
疾患に関連する遺伝子座を同定することと、
疾患に関連する同定された遺伝子座から疾患の原因要素を同定することであって、前記原因要素が、疾患の発症または進行のドライバーを表す、前記原因要素を同定することと
によって決定される、請求項1~8のいずれか一項に記載の方法。
【請求項10】
疾患に関連する遺伝子座を同定することが、全ゲノム配列決定、全エクソーム配列決定、全トランスクリプトーム配列決定、または標的パネル配列決定のうちの1つを実施することを含む、請求項9に記載の方法。
【請求項11】
前記疾患の原因要素を同定することが、
遺伝的関連性を取得するかまたは取得したことと;前記疾患に関連する前記同定した遺伝子座と遺伝的関連性を共局在化することと
を含む、請求項9に記載の方法。
【請求項12】
疾患の遺伝的構造が、
1つ以上のサンプルの遺伝子データと前記1つ以上のサンプルの臨床表現型のラベルとの間でGWAS関連試験を実施すること
によって決定される、請求項1~8のいずれか一項に記載の方法。
【請求項13】
前記1つ以上のサンプルの前記臨床表現型のラベルが、健康なサンプルと疾患のサンプルに由来する表現型アッセイデータを区別するようにトレーニングされた予測モデルを実行することによって決定される、請求項12に記載の方法。
【請求項14】
前記臨床表現型が、疾患表現型、疾患の有無、疾患重症度、疾患病理、疾患リスク、疾患の進行、治療的処置に応答した臨床表現型の可能性、または臨床的方法によって観察可能な疾患に関連する臨床表現型のうちの1つである、先行請求項のいずれか一項に記載の方法。
【請求項15】
前記臨床表現型が、非アルコール性脂肪性肝炎、パーキンソン病、筋萎縮性側索硬化症(ALS)、または結節性硬化症(TSC)のうちの1つに対応する、請求項14に記載の方法。
【請求項16】
前記細胞が、分化した細胞である、先行請求項のいずれか一項に記載の方法。
【請求項17】
前記細胞が、人工多能性幹細胞から分化した細胞である、先行請求項のいずれか一項に記載の方法。
【請求項18】
前記細胞が、疾患の遺伝的構造とアラインされる遺伝的マーカーを保有する、先行請求項のいずれか一項に記載の方法。
【請求項19】
前記細胞内の前記遺伝的マーカーが、cDNA構築物、CRISPR、TALENS、ジンクフィンガーヌクレアーゼ、または他の遺伝子編集技術を使用して操作される、請求項18に記載の方法。
【請求項20】
前記細胞を改変することが、細胞を疾患関連細胞型に分化させること、前記細胞の遺伝子発現を調節すること、及び前記細胞を前記疾患細胞状態にすることを促進する薬剤または環境条件を提供することのうちの1つ以上を含む、先行請求項のいずれか一項に記載の方法。
【請求項21】
前記疾患関連細胞型が、前記疾患関連細胞型において活性である疾患の1つ以上の同定された原因要素に基づいて選択される、請求項20に記載の方法。
【請求項22】
前記薬剤が、1つ以上の遺伝子バリアントを導入するための化学剤、分子介入、または遺伝子編集剤のうちの1つである、請求項20に記載の方法。
【請求項23】
前記薬剤が、CTGF/CCN2、FGF1、IFGγ、IGF1、IL1β、AdipoRon、PDGF-D、TGFβ、TNFα、HLD、LDL、VLDL、フルクトース、リポ酸、クエン酸ナトリウム、ACC1i(フィルソコスタット)、ASK1i(セロンセルチブ)、FXRa(オベチコール酸)、PPARアゴニスト(エラフィブラノール)、CuCl
2、FeSO
47H
2O、ZnSO
47H
2O、LPS、TGFβアンタゴニスト、及びウルソデオキシコール酸のいずれかのうちの任意の1つである、請求項20~22のいずれか一項に記載の方法。
【請求項24】
前記環境条件が、O
2圧、CO
2圧、静水圧、浸透圧、pHバランス、紫外線曝露、温度曝露または他の物理化学的操作である、請求項20に記載の方法。
【請求項25】
前記細胞の前記表現型アッセイデータが、細胞配列決定データ、タンパク質発現データ、遺伝子発現データ、画像データ、細胞代謝データ、細胞形態データ、または細胞相互作用データのうちの1つ以上を含む、先行請求項のいずれか一項に記載の方法。
【請求項26】
前記画像データが、高解像度顕微鏡検査データまたは免疫組織化学データのうちの1つを含む、請求項25に記載の方法。
【請求項27】
前記細胞が、細胞集団に含まれ、前記細胞を改変することにより、前記細胞が、前記細胞集団内の他の細胞に対して多様化する、先行請求項のいずれか一項に記載の方法。
【請求項28】
前記細胞が、細胞集団に含まれ、前記細胞を改変することにより、疾患進行の少なくとも2つの異なる段階にある少なくとも2つの細胞部分集団が生じる、先行請求項のいずれか一項に記載の方法。
【請求項29】
前記細胞が、細胞集団に含まれ、前記細胞を改変することにより、成熟の少なくとも2つの異なる段階にある少なくとも2つの細胞部分集団が生じる、先行請求項のいずれか一項に記載の方法。
【請求項30】
前記細胞が、in vivo、in vitro 2D培養、in vitro 3D培養、またはin vitroオルガノイドもしくはオルガンオンチップシステムのうちの1つから取得される、先行請求項のいずれか一項に記載の方法。
【請求項31】
前記機械学習モデルをトレーニングするために前記細胞の前記表現型アッセイデータを分析することが、
前記表現型アッセイデータを数値ベクトルとしてエンコードすることと、
前記数値ベクトルを前記機械学習モデルに入力することと
を含む、先行請求項のいずれか一項に記載の方法。
【請求項32】
前記機械学習モデルをトレーニングするために前記細胞の前記表現型アッセイデータを分析することが、
前記細胞の前記表現型アッセイデータ、前記細胞の遺伝学、及び前記細胞に適用された改変を、前記機械学習モデルへの入力として提供すること
を含む、先行請求項のいずれか一項に記載の方法。
【請求項33】
介入を検証するための方法であって、
請求項1に記載の方法を使用して開発された前記機械学習モデルから生成された少なくとも1つの予測を使用して、ML対応細胞疾患モデルを適用すること
を含む、前記検証するための方法。
【請求項34】
ML対応細胞疾患モデルを適用することが、
1つ以上の細胞アバターに対応する処理細胞から捕捉された表現型アッセイデータを取得するかまたは取得したことであって、前記処理細胞が、前記介入により処理される、前記取得するかまたは取得したことと、
前記機械学習モデルを使用して、処理細胞から捕捉された前記取得した表現型アッセイデータに基づいて、臨床表現型の予測を決定することと
を含む、請求項33に記載の方法。
【請求項35】
前記細胞から捕捉された表現型アッセイデータを取得するかまたは取得したことであって、処理細胞が、前記介入による処理後の細胞に由来する、前記取得するかまたは取得したことと、
前記細胞から捕捉された前記取得した表現型アッセイデータに基づいて、第2の臨床表現型の予測を決定することと
をさらに含み、
前記介入を検証することが、前記第2の臨床表現型の予測に基づいて検証することをさらに含む、
請求項34に記載の方法。
【請求項36】
前記臨床表現型の予測を決定することが、前記処理細胞から捕捉された前記取得した表現型アッセイデータに前記機械学習モデルを適用することを含み、前記第2の臨床表現型の予測を決定することが、前記細胞から捕捉された前記取得した表現型アッセイデータに前記機械学習モデルを適用することを含む、請求項34または35に記載の方法。
【請求項37】
前記処理細胞から捕捉された前記表現型アッセイデータに前記機械学習モデルを適用することが、前記処理細胞の遺伝学及び前記処理細胞に適用される改変に前記機械学習モデルを適用することをさらに含み、前記処理細胞に適用される改変が、前記介入を含む、請求項36に記載の方法。
【請求項38】
前記細胞から捕捉された前記表現型アッセイデータに前記機械学習モデルを適用することが、前記細胞の遺伝学及び前記細胞に適用される改変に前記機械学習モデルを適用することをさらに含み、前記細胞に適用される改変が、前記介入を含まない、請求項36に記載の方法。
【請求項39】
前記介入を検証することが、前記処理細胞に対応する臨床表現型の予測を、前記細胞に対応する第2の臨床表現型と比較することを含む、請求項35~38のいずれか一項に記載の方法。
【請求項40】
前記介入を検証することが、前記介入が有効かどうか、または無毒かどうかを判定することを含む、請求項34~39のいずれか一項に記載の方法。
【請求項41】
介入に対するレスポンダーとしての患者集団を特定するための方法であって、
前記患者集団を表す複数の細胞アバターを選択すること、
細胞アバターが前記介入に対するレスポンダーであるかまたはノンレスポンダーであるかを判定するために、前記複数の細胞アバターの1つに対する前記介入にML対応細胞疾患モデルを適用することであって、前記ML対応細胞疾患モデルの適用が、前記介入を選択するために、請求項1に記載の方法を使用して開発された前記機械学習モデルから生成される少なくとも1つの予測を使用することを含む、前記適用すること
を含む、前記特定するための方法。
【請求項42】
前記患者集団の患者から対象の特徴を取得するかまたは取得したことと、
前記複数の細胞アバター中の他の細胞アバターのそれぞれが前記介入に対するレスポンダーであるかまたはノンレスポンダーであるかを判定するために、前記他の細胞アバターのそれぞれに前記ML対応細胞疾患モデルを適用することと、
前記患者集団の患者の対象の特徴と、前記患者集団を表す前記複数の細胞アバターのレスポンダーまたはノンレスポンダーの判定との間の関係を生成することと
をさらに含む、請求項41に記載の方法。
【請求項43】
前記対象の特徴が、対象の病歴、対象の遺伝子産物、対象の変異遺伝子産物、及び対象の遺伝子の発現または示差的発現のうちの1つ以上を含む、請求項42に記載の方法。
【請求項44】
前記ML対応細胞疾患モデルを適用することが、
前記細胞アバターに対応する細胞から捕捉された表現型アッセイデータを取得するかまたは取得したことであって、前記細胞が、疾患の遺伝的構造とアラインされる、前記取得するかまたは取得したことと、
前記機械学習モデルを使用して、前記細胞から捕捉された前記取得した表現型アッセイデータに基づいて、臨床表現型の予測を決定することと、
前記処理細胞から捕捉された表現型アッセイデータを取得するかまたは取得したことであって、前記処理細胞が、前記介入による処理後の細胞に由来する、前記取得するかまたは取得したことと、
前記処理細胞から捕捉された前記取得した表現型アッセイデータに基づいて、第2の臨床表現型の予測を決定することと、
前記細胞アバターがレスポンダーであるかまたはノンレスポンダーであるかを判定するために、前記臨床表現型及び前記第2の臨床表現型の予測を比較することと
を含む、請求項41に記載の方法。
【請求項45】
前記臨床表現型の予測を決定することが、前記細胞から捕捉された前記取得した表現型アッセイデータに前記機械学習モデルを適用することを含み、前記第2の臨床表現型の予測を決定することが、前記処理細胞から捕捉された前記取得した表現型アッセイデータに前記機械学習モデルを適用することを含む、請求項44に記載の方法。
【請求項46】
前記介入が、2つ以上の治療薬を含む併用療法を含む、請求項33~45のいずれか一項に記載の方法。
【請求項47】
構造活性相関(SAR)スクリーニングを開発するための方法であって、
1つ以上の治療薬のそれぞれについて、疾患に対する前記治療薬の予測される影響を取得するかまたは取得したことであって、前記予測される影響が、請求項1に記載の方法を使用して開発された前記機械学習モデルから生成された少なくとも1つの予測を使用して、ML対応細胞疾患モデルを適用することによって決定される、前記取得するかまたは取得したことと、
前記治療薬の前記予測される影響を使用して、治療薬の特徴と治療薬の対応する予測される影響との間のマッピングを生成することと
を含む、前記開発するための方法。
【請求項48】
前記機械学習モデルから生成される予測が、標的に対する治療効果に従ってクラスタ化された治療薬を含む、請求項47に記載の方法。
【請求項49】
疾患に対する前記治療薬の前記予測される影響が、
疾患の遺伝的構造とアラインされる細胞から捕捉された表現型アッセイデータを取得するかまたは取得したことと、
前記機械学習モデルを使用して、前記細胞から捕捉された前記取得した表現型アッセイデータに基づいて、臨床表現型の予測を決定することと、
前記処理細胞から捕捉された表現型アッセイデータを取得するかまたは取得したことであって、前記処理細胞が、前記介入による処理後の細胞に由来する、前記取得するかまたは取得したことと、
前記処理細胞から捕捉された前記取得した表現型アッセイデータに基づいて、第2の臨床表現型の予測を決定することと、
前記治療薬の前記予測される影響を決定するために、前記臨床表現型及び前記第2の臨床表現型の予測を比較することと
によって決定される、請求項47または48に記載の方法。
【請求項50】
前記治療薬の予測される影響が、治療有効性、または治療毒性が無いことのうちの1つである、請求項47~49のいずれか一項に記載の方法。
【請求項51】
疾患を調節するための生物学的標的を同定するための方法であって、
ML対応細胞疾患モデルを適用することであって、前記ML対応細胞疾患モデルの適用が、請求項1に記載の方法を使用して開発された前記機械学習モデルから生成される少なくとも1つの予測を使用することを含み、前記予測が、摂動で処理された複数の細胞にわたる表現型アッセイデータから生成される、前記適用することと、
前記機械学習モデルから生成される前記予測に基づいて、疾患を示す細胞表現型に関連する遺伝子改変を同定することと、
遺伝子改変を生物学的標的として選択することと
を含む、前記同定するための方法。
【請求項52】
前記表現型アッセイデータが、疾患状態を誘発する摂動で処理された細胞に由来する、請求項51に記載の方法。
【請求項53】
前記予測に基づいて前記遺伝子改変を同定することが、細胞における前記遺伝子改変の存在が、前記摂動によって誘発される前記疾患状態と相関することを決定することを含む、請求項52に記載の方法。
【請求項54】
前記機械学習モデルから生成される予測が、機械学習された埋め込みを含む、請求項33~53のいずれか一項に記載の方法。
【請求項55】
前記ML実装方法が、弱い教師アプローチと部分的な教師アプローチの組み合わせである、先行請求項のいずれか一項に記載の方法。
【請求項56】
前記ML実装方法が、線形回帰、ロジスティック回帰、デシジョンツリー、サポートベクターマシン分類、ナイーブベイズ分類、K最近傍分類、ランダムフォレスト、深層学習、勾配ブースティング、敵対的生成ネットワーク学習、強化学習、ベイジアン最適化、行列因数分解、ならびに次元縮退手法、例えば、多様体学習、主成分分析、因子分析、オートエンコーダー正則化、及び独立成分分析、またはそれらの組み合わせのうちのいずれか1つ以上である、先行請求項のいずれか一項に記載の方法。
【請求項57】
ML対応細胞疾患モデルで使用するための機械学習モデルを開発するための非一時的コンピュータ可読媒体であって、プロセッサによって実行される場合に、
細胞に由来する表現型アッセイデータを取得するかまたは取得したことであって、前記細胞が、疾患の遺伝的構造とアラインされ、かつ細胞内の疾患細胞状態を促進するように改変される、前記取得するかまたは取得したことと、
前記ML対応細胞疾患モデルに有用な前記機械学習モデルをトレーニングするために、機械学習(ML)実装方法により、前記細胞の前記表現型アッセイデータを分析することであって、前記機械学習モデルが、前記捕捉された表現型アッセイデータと臨床表現型との間の関係を少なくとも部分的に含む、前記分析すること
を含むステップを前記プロセッサに実行させる命令を含む、前記非一時的コンピュータ可読媒体。
【請求項58】
前記機械学習モデルをトレーニングするための命令が、プロセッサによって実行される場合に、前記ML実装方法により、in vitroモデルにおいて健康及び疾患の代理ラベルとして機能する1つ以上の曝露反応表現型(ERP)の表現型アッセイデータを分析することを含むステップを前記プロセッサに実行させる命令をさらに含む、請求項57に記載の非一時的コンピュータ可読媒体。
【請求項59】
前記ERPの以前に生成された表現型アッセイデータを、疾患を有するまたは有さないことが知られている細胞から捕捉された対応する表現型アッセイデータと比較することによって、前記ERPが検証される、請求項58に記載の非一時的コンピュータ可読媒体。
【請求項60】
ERPの表現型アッセイデータが、摂動因子に曝露された複数の細胞から捕捉される、請求項58または59に記載の非一時的コンピュータ可読媒体。
【請求項61】
前記複数の細胞が、異なる濃度の摂動因子に曝露される、請求項60に記載の非一時的コンピュータ可読媒体。
【請求項62】
前記複数の細胞が、複数の遺伝的バックグラウンドを含む、請求項60または61に記載の非一時的コンピュータ可読媒体。
【請求項63】
前記1つ以上のERPが、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、または少なくとも20個のERPを含む、請求項58~62のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項64】
前記1つ以上のERPが、少なくとも5つのERPを含む、請求項63に記載の非一時的コンピュータ可読媒体。
【請求項65】
疾患の遺伝的構造が、
疾患に関連する遺伝子座を同定することと、
疾患に関連する同定された遺伝子座から疾患の原因要素を同定することであって、前記原因要素が、疾患の発症または進行のドライバーを表す、前記原因要素を同定することと
によって決定される、請求項57~64のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項66】
疾患に関連する遺伝子座を同定することが、全ゲノム配列決定、全エクソーム配列決定、全トランスクリプトーム配列決定、または標的パネル配列決定のうちの1つを実施したことを含む、請求項65に記載の非一時的コンピュータ可読媒体。
【請求項67】
前記疾患の原因要素を同定することが、
ゲノムアノテーションを取得するかまたは取得したことと;疾患に関連する同定された遺伝子座と前記ゲノムアノテーションを共局在化することと
を含む、請求項65に記載の非一時的コンピュータ可読媒体。
【請求項68】
疾患の遺伝的構造が、
1つ以上のサンプルの遺伝子データと前記1つ以上のサンプルの臨床表現型のラベルとの間でGWAS関連試験を実施すること
によって決定される、請求項57~64のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項69】
前記1つ以上のサンプルの臨床表現型のラベルが、健康なサンプルと疾患のサンプルに由来する表現型アッセイデータを区別するようにトレーニングされた予測モデルを実行することによって決定される、請求項68に記載の非一時的コンピュータ可読媒体。
【請求項70】
前記臨床表現型が、疾患表現型、疾患の有無、疾患重症度、疾患病理、疾患リスク、疾患の進行、治療的処置に応答した臨床表現型の可能性、または臨床的方法によって観察可能な疾患に関連する臨床表現型のうちの1つである、請求項57~69のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項71】
前記臨床表現型が、非アルコール性脂肪性肝炎、パーキンソン病、筋萎縮性側索硬化症(ALS)、または結節性硬化症(TSC)のうちの1つに対応する、請求項70に記載の非一時的コンピュータ可読媒体。
【請求項72】
前記細胞が、分化した細胞である、請求項57~70のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項73】
前記細胞が、人工多能性幹細胞から分化した細胞である、請求項57~72のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項74】
前記細胞が、疾患の遺伝的構造とアラインされる遺伝的変化を保有している、請求項57~73のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項75】
前記細胞内の前記遺伝的変化が、cDNA構築物、CRISPR、TALENS、ジンクフィンガーヌクレアーゼ、または他の遺伝子編集技術を使用して操作される、請求項74に記載の非一時的コンピュータ可読媒体。
【請求項76】
前記細胞の改変が、細胞を疾患関連細胞型に分化させること、前記細胞の遺伝子発現を調節すること、及び前記細胞を前記疾患細胞状態へと刺激する薬剤または環境条件を提供することのうちの1つ以上を含む、請求項57~75のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項77】
前記疾患関連細胞型が、前記疾患関連細胞型において活性である疾患の1つ以上の同定された原因要素に基づいて選択される、請求項76に記載の非一時的コンピュータ可読媒体。
【請求項78】
前記薬剤が、1つ以上の遺伝子バリアントを導入するための化学剤、分子介入、または遺伝子編集剤のうちの1つである、請求項76に記載の非一時的コンピュータ可読媒体。
【請求項79】
前記薬剤が、CTGF/CCN2、FGF1、IFGγ、IGF1、IL1β、AdipoRon、PDGF-D、TGFβ、TNFα、HLD、LDL、VLDL、フルクトース、リポ酸、クエン酸ナトリウム、ACC1i(フィルソコスタット)、ASK1i(セロンセルチブ)、FXRa(オベチコール酸)、PPARアゴニスト(エラフィブラノール)、CuCl
2、FeSO
47H
2O、ZnSO
47H
2O、LPS、TGFβアンタゴニスト、及びウルソデオキシコール酸のいずれかのうちの任意の1つである、請求項76~81のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項80】
前記環境条件が、O
2圧、CO
2圧、静水圧、浸透圧、pHバランス、紫外線曝露、温度曝露または他の物理化学的操作である、請求項76に記載の非一時的コンピュータ可読媒体。
【請求項81】
前記細胞の前記表現型アッセイデータが、細胞配列決定データ、タンパク質発現データ、遺伝子発現データ、画像データ、細胞代謝データ、細胞形態データ、または細胞相互作用データのうちの1つ以上を含む、請求項57~80のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項82】
前記画像データが、高解像度顕微鏡検査データまたは免疫組織化学データのうちの1つを含む、請求項57~81のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項83】
前記細胞が、細胞集団に含まれ、前記細胞を改変することにより、前記細胞が、前記細胞集団内の他の細胞に対して多様化する、請求項57~82のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項84】
前記細胞が、細胞集団に含まれ、前記細胞を改変することにより、疾患進行の少なくとも2つの異なる段階にある少なくとも2つの細胞部分集団が生じる、請求項57~83のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項85】
前記細胞が、細胞集団に含まれ、前記細胞を改変することにより、成熟の少なくとも2つの異なる段階にある少なくとも2つの細胞部分集団が生じる、請求項57~84のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項86】
前記細胞が、in vivo、in vitro 2D培養、in vitro 3D培養、またはin vitroオルガノイドもしくはオルガンオンチップシステムのうちの1つから取得される、請求項57~85のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項87】
前記機械学習モデルをトレーニングするために前記細胞の前記表現型アッセイデータを分析するステップをプロセッサに実行させる命令が、プロセッサによって実行される場合に、
前記表現型アッセイデータを数値ベクトルとしてエンコードすることと、
前記数値ベクトルを前記機械学習モデルに入力することと
を含むステップを前記プロセッサに実行させる命令をさらに含む、請求項57~86のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項88】
前記機械学習モデルをトレーニングするために前記細胞の前記表現型アッセイデータを分析するステップをプロセッサに実行させる命令が、プロセッサによって実行される場合に、
前記細胞の前記表現型アッセイデータ、前記細胞の遺伝学、及び前記細胞に適用された改変を、前記機械学習モデルへの入力として提供すること
を含むステップを前記プロセッサに実行させる命令をさらに含む、請求項57~87のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項89】
介入を検証するための非一時的コンピュータ可読媒体であって、プロセッサによって実行される場合に、
請求項57に記載の非一時的コンピュータ可読媒体を使用して開発された前記機械学習モデルから生成された少なくとも1つの予測を使用して、ML対応細胞疾患モデルを適用すること
を含むステップを前記プロセッサに実行させる命令を含む、前記非一時的コンピュータ可読媒体。
【請求項90】
前記ML対応細胞疾患モデルを適用することが、
1つ以上の細胞アバターに対応する処理細胞から捕捉された表現型アッセイデータを取得するかまたは取得したことであって、前記処理細胞が、前記介入により処理される、前記取得するかまたは取得したことと、
前記機械学習モデルを使用して、処理細胞から捕捉された前記取得した表現型アッセイデータに基づいて、臨床表現型の予測を決定することと
を含む、請求項89に記載の非一時的コンピュータ可読媒体。
【請求項91】
プロセッサによって実行される場合に、
細胞から捕捉された表現型アッセイデータを取得するかまたは取得したことであって、処理細胞が、前記介入による処理後の細胞に由来する、前記取得するかまたは取得したことと、
前記細胞から捕捉された前記取得した表現型アッセイデータに基づいて、第2の臨床表現型の予測を決定することと
を含むステップを前記プロセッサに実行させる命令をさらに含み、
前記介入を検証することが、前記第2の臨床表現型の予測に基づいて検証することをさらに含む、
請求項90に記載の非一時的コンピュータ可読媒体。
【請求項92】
前記臨床表現型の予測を決定することが、前記処理細胞から捕捉された前記取得した表現型アッセイデータに前記機械学習モデルを適用することを含み、前記第2の臨床表現型の予測を決定することが、前記細胞から捕捉された前記取得した表現型アッセイデータに前記機械学習モデルを適用することを含む、請求項90または91に記載の非一時的コンピュータ可読媒体。
【請求項93】
前記処理細胞から捕捉された前記表現型アッセイデータに前記機械学習モデルを適用することが、前記処理細胞の遺伝学及び前記処理細胞に適用される改変に前記機械学習モデルを適用することをさらに含み、前記処理細胞に適用される改変が、前記介入を含む、請求項92に記載の非一時的コンピュータ可読媒体。
【請求項94】
前記細胞から捕捉された前記表現型アッセイデータに前記機械学習モデルを適用することが、前記細胞の遺伝学及び前記細胞に適用される改変に前記機械学習モデルを適用することをさらに含み、前記細胞に適用される改変が、前記介入を含まない、請求項92に記載の非一時的コンピュータ可読媒体。
【請求項95】
前記介入を検証することが、前記細胞に対応する臨床表現型の予測を、前記処理細胞に対応する第2の臨床表現型と比較することを含む、請求項91~94のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項96】
前記介入を検証することが、前記介入が有効かどうか、または無毒かどうかを判定することを含む、請求項90~95のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項97】
患者集団を介入に対するレスポンダーとして識別するための非一時的コンピュータ可読媒体であって、プロセッサによって実行される場合に、
前記患者集団を表す複数の細胞アバターを選択すること、
細胞アバターが前記介入に対するレスポンダーであるかまたはノンレスポンダーであるかを判定するために、前記複数の細胞アバターの1つに対する前記介入にML対応細胞疾患モデルを適用することであって、前記ML対応細胞疾患モデルの適用が、前記介入を選択するために、請求項57に記載の非一時的コンピュータ可読媒体を使用して開発された前記機械学習モデルから生成される少なくとも1つの予測を使用することを含む、前記適用すること
を含むステップを前記プロセッサに実行させる命令を含む、前記非一時的コンピュータ可読媒体。
【請求項98】
プロセッサによって実行される場合に、
前記患者集団の患者から対象の特徴を取得するかまたは取得したことと、
前記複数の細胞アバター中の他の細胞アバターのそれぞれが前記介入に対するレスポンダーであるかまたはノンレスポンダーであるかを判定するために、前記他の細胞アバターのそれぞれに前記ML対応細胞疾患モデルを適用することと、
前記患者集団の患者の対象の特徴と、前記患者集団を表す前記複数の細胞アバターのレスポンダーまたはノンレスポンダーの判定との間の関係を生成することと
を含むステップを前記プロセッサに実行させる命令をさらに含む、請求項97に記載の非一時的コンピュータ可読媒体。
【請求項99】
前記対象の特徴が、対象の病歴、対象の遺伝子産物、対象の変異遺伝子産物、及び対象の遺伝子の発現または示差的発現のうちの1つ以上を含む、請求項98に記載の非一時的コンピュータ可読媒体。
【請求項100】
前記ML対応細胞疾患モデルを適用するステップをプロセッサに実行させる命令が、プロセッサによって実行される場合に、
前記細胞アバターに対応する細胞から捕捉された表現型アッセイデータを取得するかまたは取得したことであって、前記細胞が、疾患の遺伝的構造とアラインされる、前記取得するかまたは取得したことと、
前記機械学習モデルを使用して、前記細胞から捕捉された前記取得した表現型アッセイデータに基づいて、臨床表現型の予測を決定することと、
前記処理細胞から捕捉された表現型アッセイデータを取得するかまたは取得したことであって、前記処理細胞が、前記介入による処理後の細胞に由来する、前記取得するかまたは取得したことと、
前記処理細胞から捕捉された前記取得した表現型アッセイデータに基づいて、第2の臨床表現型の予測を決定することと、
前記細胞アバターがレスポンダーであるかまたはノンレスポンダーであるかを判定するために、前記臨床表現型及び前記第2の臨床表現型の予測を比較することと
を含むステップを前記プロセッサに実行させる命令をさらに含む、請求項97に記載の非一時的コンピュータ可読媒体。
【請求項101】
前記臨床表現型の予測を決定することが、前記細胞から捕捉された前記取得した表現型アッセイデータに前記機械学習モデルを適用することを含み、前記第2の臨床表現型の予測を決定することが、前記処理細胞から捕捉された前記取得した表現型アッセイデータに前記機械学習モデルを適用することを含む、請求項100に記載の非一時的コンピュータ可読媒体。
【請求項102】
前記介入が、2つ以上の治療薬を含む併用療法を含む、請求項89~101のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項103】
構造活性相関(SAR)スクリーニングを開発するための非一時的コンピュータ可読媒体であって、プロセッサによって実行される場合に、
1つ以上の治療薬のそれぞれについて、疾患に対する前記治療薬の予測される影響を取得するかまたは取得したことであって、前記予測される影響が、請求項57に記載の非一時的コンピュータ可読媒体を使用して開発された前記機械学習モデルから生成された少なくとも1つの予測を使用して、ML対応細胞疾患モデルを適用することによって決定される、前記取得するかまたは取得したことと、
前記治療薬の前記予測される影響を使用して、治療薬の特徴と治療薬の対応する予測される影響との間のマッピングを生成することと
を含むステップを前記プロセッサに実行させる命令を含む、前記非一時的コンピュータ可読媒体。
【請求項104】
前記機械学習モデルから生成される予測が、標的に対する治療効果に従ってクラスタ化された治療薬を含む、請求項103に記載の非一時的コンピュータ可読媒体。
【請求項105】
前記疾患に対する前記治療薬の前記予測される影響が、
疾患の遺伝的構造とアラインされる細胞から捕捉された表現型アッセイデータを取得するかまたは取得したことと、
前記機械学習モデルを使用して、前記細胞から捕捉された前記取得した表現型アッセイデータに基づいて、臨床表現型の予測を決定することと、
前記処理細胞から捕捉された表現型アッセイデータを取得するかまたは取得したことであって、前記処理細胞が、前記介入による処理後の細胞に由来する、前記取得するかまたは取得したことと、
前記処理細胞から捕捉された前記取得した表現型アッセイデータに基づいて、第2の臨床表現型の予測を決定することと、
前記治療薬の前記予測される影響を決定するために、前記臨床表現型及び前記第2の臨床表現型の予測を比較することと
によって決定される、請求項103または104に記載の非一時的コンピュータ可読媒体。
【請求項106】
前記治療薬の前記予測される影響が、治療有効性、または治療毒性が無いことのうちの1つである、請求項103~105のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項107】
疾患を調節するための生物学的標的を同定するための非一時的コンピュータ可読媒体であって、プロセッサによって実行される場合に、
ML対応細胞疾患モデルを適用することであって、前記ML対応細胞疾患モデルの適用が、請求項57に記載の非一時的コンピュータ可読媒体を使用して開発された前記機械学習モデルから生成される少なくとも1つの予測を使用することを含み、前記予測が、摂動で処理された複数の細胞にわたる表現型アッセイデータから生成される、前記適用することと、
前記機械学習モデルから生成される予測に基づいて、疾患を示す細胞表現型に関連する遺伝子改変を同定することと、
遺伝子改変を生物学的標的として選択することと
を含むステップを前記プロセッサに実行させる命令を含む、前記非一時的コンピュータ可読媒体。
【請求項108】
前記表現型アッセイデータが、疾患状態を誘発する摂動で処理された細胞に由来する、請求項107に記載の非一時的コンピュータ可読媒体。
【請求項109】
前記予測に基づいて前記遺伝子改変を同定することが、細胞における前記遺伝子改変の存在が、前記摂動によって誘発される前記疾患状態と相関することを決定することを含む、請求項108に記載の非一時的コンピュータ可読媒体。
【請求項110】
前記機械学習モデルから生成される予測が、機械学習された埋め込みを含む、請求項89~109のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項111】
前記ML実装方法が、弱い教師アプローチと部分的な教師アプローチの組み合わせである、請求項57~110のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項112】
前記ML実装方法が、線形回帰、ロジスティック回帰、デシジョンツリー、サポートベクターマシン分類、ナイーブベイズ分類、K最近傍分類、ランダムフォレスト、深層学習、勾配ブースティング、敵対的生成ネットワーク学習、強化学習、ベイジアン最適化、行列因数分解、ならびに次元縮退手法、例えば、多様体学習、主成分分析、因子分析、オートエンコーダー正則化、及び独立成分分析、またはそれらの組み合わせのうちのいずれか1つ以上である、請求項57~111のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項113】
ML対応細胞疾患モデルで使用するための機械学習モデル開発用コンピュータシステムであって、以下を含む、前記コンピュータシステム:
細胞に由来する表現型アッセイデータを保存するための記憶メモリであって、前記細胞が、疾患の遺伝的構造とアラインされ、かつ細胞内の疾患細胞状態を促進するように改変される、前記記憶メモリと、
前記ML対応細胞疾患モデルに有用な前記機械学習モデルをトレーニングするために、ML実装方法により、前記細胞の前記表現型アッセイデータを分析するための、記憶メモリと通信可能に結合したプロセッサであって、前記機械学習モデルが、前記捕捉された表現型アッセイデータと臨床表現型との間の関係を少なくとも部分的に含む、前記プロセッサ。
【請求項114】
前記機械学習モデルのトレーニングが、in vitroモデルにおける健康及び疾患の代理ラベルとして機能する1つ以上の曝露反応表現型(ERP)の表現型アッセイデータを、前記ML実装方法によって分析することを含む、請求項113に記載のコンピュータシステム。
【請求項115】
前記ERPの以前に生成された表現型アッセイデータを、疾患を有するまたは有さないことが知られている細胞から捕捉した対応する表現型アッセイデータと比較することによって、前記ERPが検証される、請求項114に記載のコンピュータシステム。
【請求項116】
ERPの表現型アッセイデータが、摂動因子に曝露された複数の細胞から捕捉される、請求項114または115に記載のコンピュータシステム。
【請求項117】
前記複数の細胞が、異なる濃度の摂動因子に曝露される、請求項116に記載のコンピュータシステム。
【請求項118】
前記複数の細胞が、複数の遺伝的バックグラウンドを含む、請求項116または117に記載のコンピュータシステム。
【請求項119】
前記1つ以上のERPが、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、または少なくとも20個のERPを含む、請求項114~118のいずれか一項に記載のコンピュータシステム。
【請求項120】
前記1つ以上のERPが、少なくとも5つのERPを含む、請求項119に記載のコンピュータシステム。
【請求項121】
疾患の遺伝的構造が、
疾患に関連する遺伝子座を同定することと、
疾患に関連する同定された遺伝子座から疾患の原因要素を同定することであって、前記原因要素が、疾患の発症または進行のドライバーを表す、前記原因要素を同定することと
によって決定される、請求項113~120のいずれか一項に記載のコンピュータシステム。
【請求項122】
疾患に関連する遺伝子座を同定することが、全ゲノム配列決定、全エクソーム配列決定、全トランスクリプトーム配列決定、または標的パネル配列決定のうちの1つを実施したことを含む、請求項121に記載のコンピュータシステム。
【請求項123】
前記疾患の原因要素を同定することが、ゲノムアノテーションを取得するかまたは取得したことと、疾患に関連する同定された遺伝子座と前記ゲノムアノテーションを共局在化することとを含む、請求項121に記載のコンピュータシステム。
【請求項124】
疾患の遺伝的構造が、
1つ以上のサンプルの遺伝子データと前記1つ以上のサンプルの臨床表現型のラベルとの間でGWAS関連試験を実施すること
によって決定される、請求項113~120のいずれか一項に記載のコンピュータシステム。
【請求項125】
前記1つ以上のサンプルの前記臨床表現型のラベルが、健康なサンプルと疾患のサンプルに由来する表現型アッセイデータを区別するようにトレーニングされた予測モデルを実行することによって決定される、請求項124に記載のコンピュータシステム。
【請求項126】
前記臨床表現型が、疾患表現型、疾患の有無、疾患重症度、疾患病理、疾患リスク、疾患の進行、治療的処置に応答した臨床表現型の可能性、または臨床的方法によって観察可能な疾患に関連する臨床表現型のうちの1つである、請求項113~125のいずれか一項に記載のコンピュータシステム。
【請求項127】
前記臨床表現型が、非アルコール性脂肪性肝炎、パーキンソン病、筋萎縮性側索硬化症(ALS)、または結節性硬化症(TSC)のうちの1つに対応する、請求項126に記載のコンピュータシステム。
【請求項128】
前記細胞が、分化した細胞である、請求項113~126のいずれか一項に記載のコンピュータシステム。
【請求項129】
前記細胞が、人工多能性幹細胞から分化した細胞である、請求項113~128のいずれか一項に記載のコンピュータシステム。
【請求項130】
前記細胞が、疾患の遺伝的構造とアラインされる遺伝的変化を保有している、請求項113~129のいずれか一項に記載のコンピュータシステム。
【請求項131】
前記細胞内の前記遺伝的変化が、cDNA構築物、CRISPR、TALENS、ジンクフィンガーヌクレアーゼ、または他の遺伝子編集技術を使用して操作される、請求項130に記載のコンピュータシステム。
【請求項132】
前記細胞の改変が、前記細胞を疾患関連細胞型に分化させること、前記細胞の遺伝子発現を調節すること、及び前記細胞を前記疾患細胞状態へと刺激する薬剤または環境条件を提供することのうちの1つ以上を含む、請求項113~131のいずれか一項に記載のコンピュータシステム。
【請求項133】
前記疾患関連細胞型が、前記疾患関連細胞型において活性である疾患の1つ以上の同定された原因要素に基づいて選択される、請求項132に記載のコンピュータシステム。
【請求項134】
前記薬剤が、1つ以上の遺伝子バリアントを導入するための化学剤、分子介入、または遺伝子編集剤のうちの1つである、請求項132に記載のコンピュータシステム。
【請求項135】
前記薬剤が、CTGF/CCN2、FGF1、IFGγ、IGF1、IL1β、AdipoRon、PDGF-D、TGFβ、TNFα、HLD、LDL、VLDL、フルクトース、リポ酸、クエン酸ナトリウム、ACC1i(フィルソコスタット)、ASK1i(セロンセルチブ)、FXRa(オベチコール酸)、PPARアゴニスト(エラフィブラノール)、CuCl
2、FeSO
47H
2O、ZnSO
47H
2O、LPS、TGFβアンタゴニスト、及びウルソデオキシコール酸のいずれかのうちの任意の1つである、請求項132~134のいずれか一項に記載のコンピュータシステム。
【請求項136】
前記環境条件が、O
2圧、CO
2圧、静水圧、浸透圧、pHバランス、紫外線曝露、温度曝露または他の物理化学的操作である、請求項132に記載のコンピュータシステム。
【請求項137】
前記細胞の前記表現型アッセイデータが、細胞配列決定データ、タンパク質発現データ、遺伝子発現データ、画像データ、細胞代謝データ、細胞形態データ、または細胞相互作用データのうちの1つ以上を含む、請求項113~136のいずれか一項に記載のコンピュータシステム。
【請求項138】
前記画像データが、高解像度顕微鏡検査データまたは免疫組織化学データのうちの1つを含む、請求項113~137のいずれか一項に記載のコンピュータシステム。
【請求項139】
前記細胞が、細胞集団に含まれ、前記細胞を改変することにより、前記細胞が、前記細胞集団内の他の細胞に対して多様化する、請求項113~138のいずれか一項に記載のコンピュータシステム。
【請求項140】
前記細胞が、細胞集団に含まれ、前記細胞集団が、疾患進行の少なくとも2つの異なる段階にある細胞部分集団を含む、請求項113~138のいずれか一項に記載のコンピュータシステム。
【請求項141】
前記細胞が、細胞集団に含まれ、前記細胞集団が、成熟の少なくとも2つの異なる段階にある細胞部分集団を含む、請求項113~138のいずれか一項に記載のコンピュータシステム。
【請求項142】
前記細胞が、in vivo、in vitro 2D培養、in vitro 3D培養、またはin vitroオルガノイドもしくはオルガンオンチップシステムのうちの1つから取得される、請求項113~141のいずれか一項に記載のコンピュータシステム。
【請求項143】
前記機械学習モデルをトレーニングするために前記細胞の前記表現型アッセイデータを分析することが、
前記表現型アッセイデータを数値ベクトルとしてエンコードすることと、
前記数値ベクトルを前記機械学習モデルに入力することと
を含む、請求項113~142のいずれか一項に記載のコンピュータシステム。
【請求項144】
前記機械学習モデルをトレーニングするために前記細胞の前記表現型アッセイデータを分析することが、
前記細胞の前記表現型アッセイデータ、前記細胞の遺伝学、及び前記細胞に適用された改変を、前記機械学習モデルへの入力として提供すること
を含む、請求項113~143のいずれか一項に記載のコンピュータシステム。
【請求項145】
介入を検証するためのコンピュータシステムであって、以下を含む、前記コンピュータシステム:
1つ以上の細胞アバターに対応する細胞から捕捉された表現型アッセイデータを保存するための記憶メモリであって、前記細胞が、疾患の遺伝的構造とアラインされる、前記記憶メモリと、
請求項113に記載のコンピュータシステムを使用して開発された前記機械学習モデルから生成された少なくとも1つの予測を使用してML対応細胞疾患モデルを適用するための、記憶メモリに通信可能に結合したプロセッサ。
【請求項146】
前記ML対応細胞疾患モデルを適用することが、
前記1つ以上の細胞アバターに対応する処理細胞から捕捉された表現型アッセイデータを取得するかまたは取得したことであって、前記処理細胞が、前記介入により処理される、前記取得するかまたは取得したことと、
前記機械学習モデルを使用して、処理細胞から捕捉された前記取得した表現型アッセイデータに基づいて、臨床表現型の予測を決定することと
を含む、請求項145に記載のコンピュータシステム。
【請求項147】
前記プロセッサが、
細胞から捕捉された表現型アッセイデータを取得するかまたは取得したことであって、処理細胞が、前記介入による処理後の細胞に由来する、前記取得するかまたは取得したことと、
前記細胞から捕捉された前記取得した表現型アッセイデータに基づいて、第2の臨床表現型の予測を決定することと
を含むステップをさらに実行するために、前記記憶装置に通信可能に結合し、
前記介入を検証することが、前記第2の臨床表現型の予測に基づいて検証することをさらに含む、
請求項146に記載のコンピュータシステム。
【請求項148】
前記臨床表現型の予測を決定することが、前記処理細胞から捕捉された前記取得した表現型アッセイデータに前記機械学習モデルを適用することを含み、前記第2の臨床表現型の予測を決定することが、前記細胞から捕捉された前記取得した表現型アッセイデータに前記機械学習モデルを適用することを含む、請求項146または147に記載のコンピュータシステム。
【請求項149】
前記処理細胞から捕捉された前記表現型アッセイデータに前記機械学習モデルを適用することが、前記処理細胞の遺伝学及び前記処理細胞に適用される改変に前記機械学習モデルを適用することをさらに含み、前記処理細胞に適用される改変が、前記介入を含む、請求項148に記載のコンピュータシステム。
【請求項150】
前記細胞から捕捉された前記表現型アッセイデータに前記機械学習モデルを適用することが、前記細胞の遺伝学及び前記細胞に適用される改変に前記機械学習モデルを適用することをさらに含み、前記細胞に適用される改変が、前記介入を含まない、請求項148に記載のコンピュータシステム。
【請求項151】
前記介入を検証することが、前記細胞に対応する臨床表現型の予測を、前記処理細胞に対応する第2の臨床表現型と比較することを含む、請求項145~150のいずれか一項に記載のコンピュータシステム。
【請求項152】
前記介入を検証することが、前記介入が有効かどうか、または無毒かどうかを判定することを含む、請求項145~151のいずれか一項に記載のコンピュータシステム。
【請求項153】
治療を受ける候補患者集団を特定するためのコンピュータシステムであって、以下を含む、前記コンピュータシステム:
記憶メモリ、ならびに
記憶メモリに通信可能に結合したプロセッサであって、
前記患者集団を表す複数の細胞アバターを選択すること、
細胞アバターが前記介入に対するレスポンダーであるかまたはノンレスポンダーであるかを判定するために、前記複数の細胞アバターの1つに対する前記介入にML対応細胞疾患モデルを適用することであって、前記ML対応細胞疾患モデルの適用が、前記介入を選択するために、請求項113に記載のコンピュータシステムを使用して開発された前記機械学習モデルから生成される少なくとも1つの予測を使用することを含む、前記適用すること
を含むステップを実行するための、前記プロセッサ。
【請求項154】
前記プロセッサが、
前記患者集団の患者から対象の特徴を取得するかまたは取得したことと、
前記複数の細胞アバター中の他の細胞アバターのそれぞれが前記介入に対するレスポンダーであるかまたはノンレスポンダーであるかを判定するために、前記他の細胞アバターのそれぞれに前記ML対応細胞疾患モデルを適用することと、
前記患者集団の患者の対象の特徴と、前記患者集団を表す前記複数の細胞アバターのレスポンダーまたはノンレスポンダーの判定との間の関係を生成することと
を含むステップをさらに実行する、請求項153に記載のコンピュータシステム。
【請求項155】
前記対象の特徴が、対象の病歴、対象の遺伝子産物、対象の変異遺伝子産物、及び対象の遺伝子の発現または示差的発現のうちの1つ以上を含む、請求項154に記載のコンピュータシステム。
【請求項156】
前記ML対応細胞疾患モデルを適用することが、
前記細胞アバターに対応する細胞から捕捉された表現型アッセイデータを取得するかまたは取得したことであって、前記細胞が、疾患の遺伝的構造とアラインされる、前記取得するかまたは取得したことと、
前記機械学習モデルを使用して、前記細胞から捕捉された前記取得した表現型アッセイデータに基づいて、臨床表現型の予測を決定することと、
前記処理細胞から捕捉された表現型アッセイデータを取得するかまたは取得したことであって、前記処理細胞が、前記介入による処理後の細胞に由来する、前記取得するかまたは取得したことと、
前記処理細胞から捕捉された前記取得した表現型アッセイデータに基づいて、第2の臨床表現型の予測を決定することと、
前記細胞アバターがレスポンダーであるかまたはノンレスポンダーであるかを判定するために、前記臨床表現型及び前記第2の臨床表現型の予測を比較することと
を含む、請求項153または154に記載のコンピュータシステム。
【請求項157】
前記臨床表現型の予測を決定することが、前記細胞から捕捉された前記取得した表現型アッセイデータに前記機械学習モデルを適用することを含み、前記第2の臨床表現型の予測を決定することが、前記処理細胞から捕捉された前記取得した表現型アッセイデータに前記機械学習モデルを適用することを含む、請求項156に記載のコンピュータシステム。
【請求項158】
前記介入が、2つ以上の治療薬を含む併用療法を含む、請求項145~157のいずれか一項に記載のコンピュータシステム。
【請求項159】
構造活性相関(SAR)スクリーニング開発用コンピュータシステムであって、以下を含む、前記コンピュータシステム:
記憶メモリに通信可能に結合したプロセッサであって、
1つ以上の治療薬のそれぞれについて、疾患に対する前記治療薬の予測される影響を取得するかまたは取得したことであって、前記予測される影響が、請求項113に記載のコンピュータシステムを使用して開発された前記機械学習モデルから生成された少なくとも1つの予測を使用して、ML対応細胞疾患モデルを適用することによって決定される、前記取得するかまたは取得したことと、
前記治療薬の前記予測される影響を使用して、治療薬の特徴と治療薬の対応する予測される影響との間のマッピングを生成することと
を含むステップを実行するための、前記プロセッサ。
【請求項160】
前記機械学習モデルから生成される予測が、標的に対する治療効果に従ってクラスタ化された治療薬を含む、請求項159に記載のコンピュータシステム。
【請求項161】
疾患に対する前記治療薬の前記予測される影響が、
疾患の遺伝的構造とアラインされる細胞から捕捉された表現型アッセイデータを取得するかまたは取得したことと、
前記機械学習モデルを使用して、前記細胞から捕捉された前記取得した表現型アッセイデータに基づいて、臨床表現型の予測を決定することと、
前記処理細胞から捕捉された表現型アッセイデータを取得するかまたは取得したことであって、前記処理細胞が、前記介入による処理後の細胞に由来する、前記取得するかまたは取得したことと、
前記処理細胞から捕捉された前記取得した表現型アッセイデータに基づいて、第2の臨床表現型の予測を決定することと、
前記治療薬の前記予測される影響を決定するために、前記臨床表現型及び前記第2の臨床表現型の予測を比較することと
によって決定される、請求項159または160に記載のコンピュータシステム。
【請求項162】
前記治療薬の前記予測される影響が、治療有効性、または治療毒性が無いことのうちの1つである、請求項159~161のいずれか一項に記載のコンピュータシステム。
【請求項163】
疾患を調節するための生物学的標的を同定するためのコンピュータシステムであって、以下を含む、前記コンピュータシステム:
記憶メモリに通信可能に結合したプロセッサであって、
ML対応細胞疾患モデルを適用することであって、前記ML対応細胞疾患モデルの適用が、請求項113に記載のコンピュータシステムを使用して開発された前記機械学習モデルから生成される少なくとも1つの予測を使用することを含み、前記予測が、摂動で処理された複数の細胞にわたる表現型アッセイデータから生成される、前記適用することと、
前記機械学習モデルから生成される予測に基づいて、疾患を示す細胞表現型に関連する遺伝子改変を同定することと、
遺伝子改変を生物学的標的として選択することと
を含むステップを実行するための、前記プロセッサ。
【請求項164】
前記表現型アッセイデータが、疾患状態を誘発する摂動で処理された細胞に由来する、請求項163に記載のコンピュータシステム。
【請求項165】
前記予測に基づいて前記遺伝子改変を同定することが、細胞における前記遺伝子改変の存在が、前記摂動によって誘発される前記疾患状態と相関することを決定することを含む、請求項164に記載のコンピュータシステム。
【請求項166】
前記機械学習モデルから生成される予測が、機械学習された埋め込みを含む、請求項145~165のいずれか一項に記載のコンピュータシステム。
【請求項167】
前記ML実装方法が、弱い教師アプローチと部分的な教師アプローチの組み合わせである、請求項113~166のいずれか一項に記載のコンピュータシステム。
【請求項168】
前記ML実装方法が、線形回帰、ロジスティック回帰、デシジョンツリー、サポートベクターマシン分類、ナイーブベイズ分類、K最近傍分類、ランダムフォレスト、深層学習、勾配ブースティング、敵対的生成ネットワーク学習、強化学習、ベイジアン最適化、行列因数分解、ならびに次元縮退手法、例えば、多様体学習、主成分分析、因子分析、オートエンコーダー正則化、及び独立成分分析、またはそれらの組み合わせのうちのいずれか1つ以上である、請求項113~167のいずれか一項に記載のコンピュータシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2020年5月22日に出願された米国仮特許出願第63/029,038号の利益及び優先権を主張し、その開示全体が、あらゆる目的のためにその全体が参照により本明細書に援用される。
【背景技術】
【0002】
発明の背景
現在、従来の患者治療薬の有効性、及び効果的な新規治療薬を発見するためのコストが、最適な患者転帰への障壁となっている。特定の疾患の遺伝的基盤を理解することは重要であるが、特定の対象において疾患が発症する可能性があるかどうか、またはそれがいつなのか、及びその疾患の遺伝的リスクを有する対象において疾患の発症を引き起こす可能性が高い追加要因を予測するには多くの場合、不十分である。その結果、治療的介入の標的を特定し、疾患を治療するためのレジメンを開発することは、通常、時間のかかる偶然的なものである。さらに、有望な介入は、多くの場合、臨床試験中にヒト対象において一貫した安全特性または有効特性を示さない。多くの治療レジメンは、予測が困難であり、後知恵でのみ決定されるか、完全に理解されていない理由により、異なる対象に対して様々なレベルの安全性または有効性を示す。様々な患者集団に有効な新規治療薬を特定して開発するために必要なリソースは、依然として困難で高価であるため、多くの患者は満たされていない重大なニーズを抱えている。
【発明の概要】
【0003】
概要
本明細書において、スクリーニングを実行するための機械学習(ML)対応の細胞疾患モデルの実装を開示し、その例には、疾患に対して使用するための介入(例えば、薬物、遺伝子、または併用介入)の検証、介入に応答する可能性が高い患者集団の特定、介入のライブラリ(例えば、薬物、遺伝子、または併用介入)を検索して、細胞疾患モデルを用いて開発された構造活性分子スクリーニングを使用した、有効である可能性が高い候補の同定、及び摂動された場合に疾患を調節することができる生物学的標的(例えば、遺伝子)の同定が含まれる。別の言い方をすれば、細胞疾患モデルは、ディッシュ中での臨床試験の実施に有用である。
【0004】
ML対応の細胞疾患モデルは、1人以上の患者(または1人以上の患者に由来するサンプル)を実際に試験することを必要とせずに、プロキシを介して1人以上の患者(患者コホートなど)のスクリーニングを実行することができる。例えば、細胞疾患モデルを使用して、まだ遭遇していない1人以上の患者のプロキシとして機能する細胞アバターに対する療法をスクリーニングすることができる。したがって、細胞疾患モデルは、そのような患者に遭遇することなく、個々の患者及び/または様々な疾患にわたる大規模な患者コホートを評価するための有用なツールである。
【0005】
細胞疾患モデルには、細胞間で異なる表現型のトレースを明らかにするようにトレーニングされた機械学習モデルが含まれる。例えば、機械学習モデルをトレーニングして、健康な細胞と不健康な細胞の細胞表現型を区別することができる(例えば、疾患の細胞の表現型または毒性介入にさらされた細胞の表現型)。疾患細胞をin vitroで開発して、疾患の発症または進行を促進する因子(例えば、遺伝、環境、細胞因子)をモデル化する。したがって、これらの細胞は、in vivo疾患のin vitroモデルを表現する。注目すべきことに、疾患のin vitroモデルを表現するこれらの細胞は、in vivo疾患をエミュレートすることができるが、ただし正確にエミュレートする必要はなく;むしろ、in vitroモデルは、機械学習モデルによって分析された場合に、in vitroモデルが疾患進行の様々な段階を含むin vivo疾患の表現型を予測できるように設計され得る。したがって、いくつかの実施形態では、in vitroモデルの態様は、in vivo疾患の態様と同じである。いくつかの実施形態では、in vitro細胞表現型は、機構的にin vivo細胞表現型と類似している場合もあれば、in vivo細胞表現型と無関係である場合さえある。
【0006】
様々な健康な細胞や疾患を起こしやすい細胞から捕捉した実験的に生成された表現型細胞データを含むトレーニングデータセットの機械学習分析を使用して、細胞疾患モデルを開発し、これにより、疾患、その開始及び進行に関連する表現型の特徴を特定することができる。細胞疾患モデルは、疾患の治療に使用するための遺伝子介入、薬物介入、またはそれらの組み合わせなどの多様な介入を識別することができる。細胞疾患モデルを使用して、これらの介入をスクリーニング(例えば、in vitroスクリーニング)し、その効果を、機械学習モデルを使用して解釈して、疾患活動性を調節するための標的または薬物に関するさらなる洞察を提供する。
【0007】
より具体的には、本明細書に記載の実施形態は、表現型アッセイデータ(例えば、1つ以上の細胞から得られた生体分子データ)を使用して、ヒトの臨床転帰(例えば、臨床表現型)を予測するための機械学習モデルを採用する。機械学習モデルは、膨大な範囲と規模で実験的に生成された大量のトレーニングデータ(例えば、生体分子データ)を使用してトレーニングする。そのような実験的に得られた大規模なデータセットは、1つ以上の遺伝的バックグラウンドから様々な健康状態及び疾患状態を表現するように収集または改変された、細胞バリアントの表現型アッセイから作成される。
【0008】
様々な実施形態において、疾患のin vitroモデルとして機能するように改変された疾患細胞から、トレーニングデータを収集する。疾患を起こしやすい細胞は、疾患の発症または進行に影響を与えると判断されている一連の未解明の要因(例えば、遺伝的、環境的、細胞的要因)の理解に基づいて生成される。例えば、これらの疾患細胞を、疾患の遺伝的構造と一致する遺伝的またはエピジェネティックな変化を有するように遺伝子改変し、疾患の進行をモデル化するためにさらに改変し、摂動させてもよい。したがって、これらの細胞集団から収集した表現型アッセイデータは、疾患の幅広い態様について情報価値がある。細胞の遺伝学、細胞に適用される改変及び摂動、ならびに収集した表現型アッセイデータは、その後に機械学習モデルのトレーニングに使用されるトレーニングデータを表す。
【0009】
展開すると、細胞疾患モデルは、ディッシュ内での臨床試験の実行など、様々な目的に広く適用することができる。細胞疾患モデルの実装例として、疾患に対して使用するための介入の検証、介入に応答する可能性が高い患者集団の特定、治療薬のライブラリを検索して有効である可能性が高い候補を特定すること、細胞疾患モデルを使用して開発された構造活性分子スクリーニングを使用して治療薬を最適化または特定すること、及び摂動が疾患を調節し得る生物学的標的(例えば、遺伝子)の特定が挙げられる。全体として、細胞疾患モデルの適用により、治療薬のスクリーニングと新薬の開発をより迅速かつ低コストで行うことができる。
【0010】
本明細書に開示する実施形態は、臨床転帰を予測するML対応細胞疾患モデルで使用するための機械学習モデルを開発するための方法を含み、この方法は以下を含む:疾患の遺伝的構造とアラインした細胞を取得するかまたは取得したことと;細胞内の疾患細胞状態を促進するように細胞を改変することと;細胞から表現型アッセイデータを捕捉することと;細胞疾患モデルに有用な機械学習モデルをトレーニングするために、機械学習(ML)実装方法により、細胞の表現型アッセイデータを分析することであって、機械学習モデルは、捕捉された表現型アッセイデータと臨床表現型との間の関係を少なくとも部分的に含む、前記分析すること。
【0011】
様々な実施形態において、機械学習モデルのトレーニングは、in vitroモデルにおける健康及び疾患の代理ラベルとして機能する1つ以上の曝露反応表現型(ERP)の表現型アッセイデータを、ML実装方法によって分析することを含む。様々な実施形態において、ERPの以前に生成された表現型アッセイデータを、疾患を有するまたは有さないことが知られている細胞から捕捉した対応する表現型アッセイデータと比較することによって、ERPを検証する。様々な実施形態において、ERPの表現型アッセイデータを、摂動因子(perturbagen)に曝露された複数の細胞から捕捉する。様々な実施形態において、複数の細胞を、異なる濃度の摂動因子に曝露する。様々な実施形態において、複数の細胞は、複数の遺伝的バックグラウンドを含む。様々な実施形態では、1つ以上のERPは、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、または少なくとも20個のERPを含む。様々な実施形態において、1つ以上のERPは、少なくとも5つのERPを含む。
【0012】
様々な実施形態において、疾患の遺伝的構造は:疾患に関連する遺伝子座を同定することと;疾患に関連する同定された遺伝子座から、疾患の原因要素を同定することであって、原因要素が、疾患の発症または進行のドライバーを表す、前記原因要素を同定することとによって決定される。様々な実施形態において、疾患に関連する遺伝子座を同定することは、全ゲノム配列決定、全エクソーム配列決定、全トランスクリプトーム配列決定、または標的パネル配列決定のうちの1つを実施することを含む。様々な実施形態において、疾患の原因要素を同定することは:遺伝的関連性を取得することと;疾患に関連する同定された遺伝子座と遺伝的関連性を共局在化することとを含む。様々な実施形態において、疾患の遺伝的構造は:1つ以上のサンプルの遺伝子データとその1つ以上のサンプルの臨床表現型のラベルとの間でGWAS関連試験を実施することによって決定される。様々な実施形態において、1つ以上のサンプルの臨床表現型のラベルは、健康なサンプルと疾患のサンプルに由来する表現型アッセイデータを区別するようにトレーニングされた予測モデルを実行することによって決定される。
【0013】
様々な実施形態において、臨床表現型は、疾患表現型、疾患の有無、疾患重症度、疾患病理、疾患リスク、疾患の進行、治療的処置に応答した臨床表現型の可能性、または臨床的方法によって観察可能な疾患に関連する臨床表現型のうちの1つである。様々な実施形態において、臨床表現型は、非アルコール性脂肪性肝炎、パーキンソン病、筋萎縮性側索硬化症(ALS)、または結節性硬化症(TSC)のうちの1つに対応する。
【0014】
様々な実施形態において、細胞は分化した細胞である。様々な実施形態において、細胞は、人工多能性幹細胞から分化した細胞である。様々な実施形態において、細胞は、疾患の遺伝的構造とアラインされる遺伝的マーカーを保有する。様々な実施形態において、cDNA構築物、CRISPR、TALENS、ジンクフィンガーヌクレアーゼ、または他の遺伝子編集技術を使用して、細胞内の遺伝的マーカーが操作される。様々な実施形態において、細胞を改変することは、細胞を疾患関連細胞型に分化させること、細胞の遺伝子発現を調節すること、及び細胞を疾患細胞状態にすることを促進する薬剤または環境条件を提供することのうちの1つ以上を含む。様々な実施形態において、疾患関連細胞型は、疾患関連細胞型において活性である疾患の1つ以上の同定された原因要素に基づいて選択される。
【0015】
様々な実施形態において、薬剤は、CTGF/CCN2、FGF1、IFGγ、IGF1、IL1β、AdipoRon、PDGF-D、TGFβ、TNFα、HLD、LDL、VLDL、フルクトース、リポ酸、クエン酸ナトリウム、ACC1i(フィルソコスタット)、ASK1i(セロンセルチブ)、FXRa(オベチコール酸)、PPARアゴニスト(エラフィブラノール)、CuCl2、FeSO47H2O、ZnSO47H2O、LPS、TGFβアンタゴニスト、及びウルソデオキシコール酸のいずれかのうちの任意の1つである。様々な実施形態において、薬剤は、1つ以上の遺伝子バリアントを導入するための化学剤、分子介入、または遺伝子編集剤のうちの1つである。様々な実施形態において、環境条件は、O2圧、CO2圧、静水圧、浸透圧、pHバランス、紫外線曝露、温度曝露または他の物理化学的操作である。
【0016】
様々な実施形態において、細胞の表現型アッセイデータは、細胞配列決定データ、タンパク質発現データ、遺伝子発現データ、画像データ、細胞代謝データ、細胞形態データ、または細胞相互作用データのうちの1つ以上を含む。様々な実施形態において、画像データは、高解像度顕微鏡検査データ、in situハイブリダイゼーションに使用される核酸ベースの染色(例えば、染色体彩色)、または免疫組織化学データのうちの1つを含む。様々な実施形態において、細胞は細胞集団に含まれ、細胞を改変することにより、その細胞は細胞集団内の他の細胞に対して多様化する。様々な実施形態において、細胞は細胞集団に含まれ、細胞を改変することにより、疾患進行の少なくとも2つの異なる段階にある少なくとも2つの細胞部分集団が生じる。様々な実施形態において、細胞は細胞集団に含まれ、細胞を改変することにより、成熟の少なくとも2つの異なる段階にある少なくとも2つの細胞部分集団が生じる。様々な実施形態において、in vivo、in vitro 2D培養、in vitro 3D培養、またはin vitroオルガノイドまたはオルガンオンチップシステムのうちの1つから細胞を取得する。
【0017】
様々な実施形態において、機械学習モデルをトレーニングするために細胞の表現型アッセイデータを分析することは:表現型アッセイデータを数値ベクトルとしてエンコードすることと;数値ベクトルを機械学習モデルに入力することとを含む。様々な実施形態において、機械学習モデルをトレーニングするために細胞の表現型アッセイデータを分析することは:細胞の表現型アッセイデータ、細胞の遺伝学、及び細胞に適用された改変を機械学習モデルへの入力として提供することを含む。
【0018】
本明細書に開示する追加の実施形態は、介入を検証するための方法を含み、この方法は:上記の機械学習モデルを開発するための方法の実施形態を使用して開発された機械学習モデルから生成された少なくとも1つの予測を使用して、ML対応の細胞疾患モデルを適用することを含む。様々な実施形態において、ML対応の細胞疾患モデルを適用することは:1つ以上の細胞アバターに対応する処理細胞から捕捉された表現型アッセイデータを取得し(処理細胞は、介入により処理される);機械学習モデルを使用して、処理細胞から捕捉された表現型アッセイデータに基づいて臨床表現型の予測を決定することを含む。
【0019】
様々な実施形態において、方法は、細胞から捕捉された表現型アッセイデータを取得することと(その場合、処理細胞は、介入による処理後の細胞に由来する);細胞から捕捉された取得した表現型アッセイデータに基づいて第2の臨床表現型の予測を決定することとをさらに含む(その場合、介入を検証することは、第2の臨床表現型の予測に基づいて検証することを含む)。
【0020】
様々な実施形態において、臨床表現型の予測を決定することは、機械学習モデルを、処理細胞から捕捉された取得した表現型アッセイデータに適用することを含み、第2の臨床表現型の予測を決定することは、細胞から捕捉された取得した表現型アッセイデータに機械学習モデルを適用することを含む。様々な実施形態において、処理細胞から捕捉された表現型アッセイデータに機械学習モデルを適用することは、処理細胞の遺伝学及び処理細胞に適用される改変に機械学習モデルを適用することをさらに含み、その場合、処理細胞に適用される改変には介入が含まれる。様々な実施形態において、細胞から捕捉された表現型アッセイデータに機械学習モデルを適用することは、細胞の遺伝学及び細胞に適用される改変に機械学習モデルを適用することをさらに含み、その場合、細胞に適用される改変には介入が含まれない。様々な実施形態において、介入を検証することは、処理細胞に対応する臨床表現型の予測を、細胞に対応する第2の臨床表現型と比較することを含む。様々な実施形態において、介入を検証することは、介入が有効かどうか、または無毒かどうかを判定することを含む。
【0021】
本明細書に開示する追加の実施形態は、介入に対するレスポンダーとして患者集団を識別するための方法を含み、方法は:患者集団を表す複数の細胞アバターを選択すること;細胞アバターが介入に対するレスポンダーであるかまたはノンレスポンダーであるかを判定するために、複数の細胞アバターの1つに対する介入にML対応細胞疾患モデルを適用することであって、ML対応細胞疾患モデルの適用は、介入を選択するために、上述の機械学習モデルを開発する方法の実施形態を使用して開発された機械学習モデルから生成される少なくとも1つの予測を使用することを含む、前記適用することを含む。
【0022】
様々な実施形態において、方法はさらに:患者集団の患者から対象の特徴を取得することと;複数の細胞アバター中の他の細胞アバターのそれぞれが介入に対するレスポンダーであるかまたはノンレスポンダーであるかを判定するために、前記他の細胞アバターのそれぞれにML対応の細胞疾患モデルを適用することと;患者集団の患者の対象の特徴と、患者集団を表す複数の細胞アバターのレスポンダーまたはノンレスポンダーの判定との間の関係を生成することとを含む。様々な実施形態において、対象の特徴は、対象の病歴、対象の遺伝子産物、対象の変異遺伝子産物、及び対象の遺伝子の発現または示差的発現のうちの1つ以上を含む。様々な実施形態において、ML対応細胞疾患モデルを適用することは:細胞アバターに対応する細胞から捕捉された表現型アッセイデータを取得することと(細胞は、疾患の遺伝的構造とアラインされる);機械学習モデルを使用して、細胞から捕捉された表現型アッセイデータに基づいて臨床表現型の予測を決定することと;処置細胞から捕捉された表現型アッセイデータを取得することと(処置細胞は、介入による処置後の細胞に由来する);処理細胞から捕捉された取得した表現型アッセイデータに基づいて、第2の臨床表現型の予測を決定することと;細胞アバターがレスポンダーであるかまたはノンレスポンダーであるかを判定するために、臨床表現型及び第2の臨床表現型の予測を比較することとを含む。
【0023】
様々な実施形態において、臨床表現型の予測を決定することは、細胞から捕捉された取得した表現型アッセイデータに機械学習モデルを適用することを含み、第2の臨床表現型の予測を決定することは、処理細胞から捕捉された取得した表現型アッセイデータに機械学習モデルを適用することを含む。様々な実施形態において、介入は、2つ以上の治療薬を含む併用療法を含む。
【0024】
本明細書に開示する追加の実施形態は、構造活性相関(SAR)スクリーニングを開発するための方法を含み、この方法は:1つ以上の治療薬のそれぞれについて、疾患に対する治療薬の予測される影響を取得することと(予測される影響は、上記の機械学習モデルを開発するための方法の実施形態を使用して開発された機械学習モデルから生成される少なくとも1つの予測を使用したML対応細胞疾患モデルを適用することによって決定される);治療薬の予測される影響を使用して、治療薬の特徴と治療薬の対応する予測される影響との間のマッピングを生成することとを含む。様々な実施形態において、機械学習モデルから生成される予測は、標的に対する治療効果に従ってクラスタ化された治療薬を含む。
【0025】
様々な実施形態において、疾患に対する治療薬の予測される影響は:疾患の遺伝的構造とアラインした細胞から捕捉された表現型アッセイデータを取得することと;機械学習モデルを使用して、細胞から捕捉された取得した表現型アッセイデータに基づいて臨床表現型の予測を決定することと;処理細胞から捕捉された表現型アッセイデータを取得することと(処理細胞は、介入による処理後の細胞に由来する);処理細胞から捕捉された取得した表現型アッセイデータに基づいて、第2の臨床表現型の予測を決定することと;治療薬の予測される影響を決定するために、臨床表現型及び第2の臨床表現型の予測を比較することとによって決定される。様々な実施形態において、治療薬の予測される影響は、治療有効性、または治療毒性が無いことのうちの1つである。さらに、本明細書において:ML対応細胞疾患モデルを適用することであって、ML対応細胞疾患モデルの適用は、本明細書に開示する方法の実施形態を使用して開発された機械学習モデルから生成される少なくとも1つの予測を使用することを含み、予測は、摂動で処理された複数の細胞にわたる表現型アッセイデータから生成される、前記適用することと;機械学習モデルから生成された予測に基づいて、疾患を示す細胞表現型に関連する遺伝子改変を同定することと;遺伝子改変を生物学的標的として選択することとを含む方法を開示する。様々な実施形態において、表現型アッセイデータは、疾患状態を誘発する摂動で処理された細胞に由来する。様々な実施形態において、予測に基づいて遺伝子改変を同定することは、細胞における遺伝子改変の存在が、摂動によって誘発される疾患状態と相関することを決定することを含む。様々な実施形態において、機械学習モデルから生成される予測は、機械学習された埋め込みを含む。
【0026】
様々な実施形態において、ML実装方法は、弱い教師アプローチと部分的な教師アプローチの組み合わせである。様々な実施形態において、ML実装方法は、線形回帰、ロジスティック回帰、デシジョンツリー、サポートベクターマシン分類、ナイーブベイズ分類、K最近傍分類、ランダムフォレスト、深層学習、勾配ブースティング、敵対的生成ネットワーク学習、強化学習、ベイジアン最適化、行列因数分解、ならびに次元縮退手法、例えば、多様体学習、主成分分析、因子分析、オートエンコーダー正則化、及び独立成分分析、またはそれらの組み合わせのうちのいずれか1つ以上である。
【0027】
さらに、本明細書において、ML対応細胞疾患モデルで使用するための機械学習モデルである非一時的コンピュータ可読媒体を開示し、この非一時的コンピュータ可読媒体は、プロセッサによって実行されると、プロセッサに:細胞に由来する表現型アッセイデータを取得することと(細胞は、疾患の遺伝的構造とアラインされ、かつ細胞内の疾患細胞状態を促進するように改変されている);ML対応細胞疾患モデルに有用な機械学習モデルをトレーニングするために、機械学習(ML)実装方法により、細胞の表現型アッセイデータを分析すること(機械学習モデルは、捕捉された表現型アッセイデータと臨床表現型との間の関係を少なくとも部分的に含む)を含むステップを実行させる命令を含む。
【0028】
様々な実施形態において、機械学習モデルのトレーニングは、in vitroモデルにおける健康及び疾患の代理ラベルとして機能する1つ以上の曝露反応表現型(ERP)の表現型アッセイデータを、ML実装方法によって分析することを含む。様々な実施形態において、ERPの以前に生成された表現型アッセイデータを、疾患を有するまたは有さないことが知られている細胞から捕捉した対応する表現型アッセイデータと比較することによって、ERPを検証する。様々な実施形態において、ERPの表現型アッセイデータを、摂動因子に曝露された複数の細胞から捕捉する。様々な実施形態において、複数の細胞を、異なる濃度の摂動因子に曝露する。様々な実施形態において、複数の細胞は、複数の遺伝的バックグラウンドを含む。様々な実施形態では、1つ以上のERPは、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、または少なくとも20個のERPを含む。様々な実施形態において、1つ以上のERPは、少なくとも5つのERPを含む。
【0029】
様々な実施形態において、疾患の遺伝的構造は:疾患に関連する遺伝子座を同定することと;疾患に関連する同定された遺伝子座から、疾患の原因要素を同定することであって、原因要素が、疾患の発症または進行のドライバーを表す、前記原因要素を同定することとによって決定される。様々な実施形態において、疾患に関連する遺伝子座を同定することは、全ゲノム配列決定、全エクソーム配列決定、全トランスクリプトーム配列決定、または標的パネル配列決定のうちの1つを実施したことを含む。様々な実施形態において、疾患の原因要素を同定することは:ゲノムアノテーションを取得することと;疾患に関連する同定された遺伝子座とゲノムアノテーションを共局在化することとを含む。様々な実施形態において、疾患の遺伝的構造は:1つ以上のサンプルの遺伝子データとその1つ以上のサンプルの臨床表現型のラベルとの間でGWAS関連試験を実施することによって決定される。様々な実施形態において、1つ以上のサンプルの臨床表現型のラベルは、健康なサンプルと疾患のサンプルに由来する表現型アッセイデータを区別するようにトレーニングされた予測モデルを実行することによって決定される。
【0030】
様々な実施形態において、臨床表現型は、疾患表現型、疾患の有無、疾患重症度、疾患病理、疾患リスク、疾患の進行、治療的処置に応答した臨床表現型の可能性、または臨床的方法によって観察可能な疾患に関連する臨床表現型のうちの1つである。様々な実施形態において、臨床表現型は、非アルコール性脂肪性肝炎、パーキンソン病、筋萎縮性側索硬化症(ALS)、または結節性硬化症(TSC)のうちの1つに対応する。
【0031】
様々な実施形態において、細胞は分化した細胞である。様々な実施形態において、細胞は、人工多能性幹細胞から分化した細胞である。様々な実施形態において、細胞は、疾患の遺伝的構造とアラインした遺伝子変化を保有する。様々な実施形態において、cDNA構築物、CRISPR、TALENS、ジンクフィンガーヌクレアーゼ、または他の遺伝子編集技術を使用して、細胞内の遺伝子変化を操作する。様々な実施形態において、細胞の改変は、細胞を疾患関連細胞型に分化させること、細胞の遺伝子発現を調節すること、及び細胞を疾患細胞状態へと刺激する薬剤または環境条件を提供することのうちの1つ以上を含む。様々な実施形態において、疾患関連細胞型は、疾患関連細胞型において活性である疾患の1つ以上の同定された原因要素に基づいて選択される。
【0032】
様々な実施形態において、薬剤は、CTGF/CCN2、FGF1、IFGγ、IGF1、IL1β、AdipoRon、PDGF-D、TGFβ、TNFα、HLD、LDL、VLDL、フルクトース、リポ酸、クエン酸ナトリウム、ACC1i(フィルソコスタット)、ASK1i(セロンセルチブ)、FXRa(オベチコール酸)、PPARアゴニスト(エラフィブラノール)、CuCl2、FeSO47H2O、ZnSO47H2O、LPS、TGFβアンタゴニスト、及びウルソデオキシコール酸のいずれかのうちの任意の1つである。様々な実施形態において、薬剤は、1つ以上の遺伝子バリアントを導入するための化学剤、分子介入、または遺伝子編集剤のうちの1つである。様々な実施形態において、環境条件は、O2圧、CO2圧、静水圧、浸透圧、pHバランス、紫外線曝露、温度曝露または他の物理化学的操作である。様々な実施形態において、細胞の表現型アッセイデータは、細胞配列決定データ、タンパク質発現データ、遺伝子発現データ、画像データ、細胞代謝データ、細胞形態データ、または細胞相互作用データのうちの1つ以上を含む。様々な実施形態において、画像データは、高解像度顕微鏡検査データまたは免疫組織化学データのうちの1つを含む。
【0033】
様々な実施形態において、細胞は細胞集団に含まれ、細胞を改変することにより、その細胞は細胞集団内の他の細胞に対して多様化する。様々な実施形態において、細胞は細胞集団に含まれ、細胞を改変することにより、疾患進行の少なくとも2つの異なる段階にある少なくとも2つの細胞部分集団が生じる。様々な実施形態において、細胞は細胞集団に含まれ、細胞を改変することにより、成熟の少なくとも2つの異なる段階にある少なくとも2つの細胞部分集団が生じる。様々な実施形態において、in vivo、in vitro 2D培養、in vitro 3D培養、またはin vitroオルガノイドまたはオルガンオンチップシステムのうちの1つから細胞を取得する。
【0034】
様々な実施形態において、機械学習モデルをトレーニングするために細胞の表現型アッセイデータを分析するステップをプロセッサに実行させる命令は、プロセッサによって実行されると:表現型アッセイデータを数値ベクトルとしてエンコードすることと;数値ベクトルを機械学習モデルに入力することとを含むステップをプロセッサに実行させる命令をさらに含む。様々な実施形態において、機械学習モデルをトレーニングするために細胞の表現型アッセイデータを分析するステップをプロセッサに実行させる命令は、プロセッサによって実行されると:細胞の表現型アッセイデータ、細胞の遺伝学、及び細胞に適用された改変を機械学習モデルへの入力として提供することを含むステップをプロセッサに実行させる命令をさらに含む。
【0035】
本明細書に開示する追加の実施形態は、介入を検証するための非一時的コンピュータ可読媒体を含み、非一時的コンピュータ可読媒体は、プロセッサによって実行されると、プロセッサに:上述の機械学習モデルを開発するための方法の実施形態を使用して開発された機械学習モデルから生成される少なくとも1つの予測を使用したML対応細胞疾患モデルを適用するステップを実行させる命令を含む。
【0036】
様々な実施形態において、ML対応の細胞疾患モデルを適用することは:1つ以上の細胞アバターに対応する処理細胞から捕捉された表現型アッセイデータを取得し(処理細胞は、介入により処理される);機械学習モデルを使用して、処理細胞から捕捉された表現型アッセイデータに基づいて臨床表現型の予測を決定することを含む。様々な実施形態において、非一時的なコンピュータ可読媒体は、プロセッサによって実行されると、プロセッサに:細胞から捕捉された表現型アッセイデータを取得することと(その場合、処理細胞は、介入による処理後の細胞に由来する);細胞から捕捉された取得した表現型アッセイデータに基づいて第2の臨床表現型の予測を決定することとをさらに含む(その場合、介入を検証することは、第2の臨床表現型の予測に基づいて検証することを含む)ステップを実行させる命令をさらに含む。
【0037】
様々な実施形態において、臨床表現型の予測を決定することは、機械学習モデルを、処理細胞から捕捉された取得した表現型アッセイデータに適用することを含み、第2の臨床表現型の予測を決定することは、細胞から捕捉された取得した表現型アッセイデータに機械学習モデルを適用することを含む。様々な実施形態において、処理細胞から捕捉された表現型アッセイデータに機械学習モデルを適用することは、処理細胞の遺伝学及び処理細胞に適用される改変に機械学習モデルを適用することをさらに含み、その場合、処理細胞に適用される改変には介入が含まれる。様々な実施形態において、細胞から捕捉された表現型アッセイデータに機械学習モデルを適用することは、細胞の遺伝学及び細胞に適用される改変に機械学習モデルを適用することをさらに含み、その場合、細胞に適用される改変には介入が含まれない。様々な実施形態において、介入を検証することは、細胞に対応する臨床表現型の予測を、処理細胞に対応する第2の臨床表現型と比較することを含む。様々な実施形態において、介入を検証することは、介入が有効かどうか、または無毒かどうかを判定することを含む。
【0038】
本明細書に開示する追加の実施形態は、介入に対するレスポンダーとして患者集団を識別するための非一時的なコンピュータ可読媒体を含み、非一時的なコンピュータ可読媒体は、プロセッサによって実行されると、プロセッサに:患者集団を表す複数の細胞アバターを選択すること;細胞アバターが介入に対するレスポンダーであるかまたはノンレスポンダーであるかを判定するために、複数の細胞アバターの1つに対する介入にML対応細胞疾患モデルを適用することであって、ML対応細胞疾患モデルの適用は、介入を選択するために、上述の機械学習モデルを開発する方法の実施形態を使用して開発された機械学習モデルから生成される少なくとも1つの予測を使用することを含む、前記適用することを含むステップを実行させる命令を含む。
【0039】
様々な実施形態において、非一時的なコンピュータ可読媒体はさらに、プロセッサによって実行されると、プロセッサに:患者集団の患者から対象の特徴を取得することと;複数の細胞アバター中の他の細胞アバターのそれぞれが介入に対するレスポンダーであるかまたはノンレスポンダーであるかを判定するために、他の細胞アバターのそれぞれにML対応の細胞疾患モデルを適用することと;患者集団の患者の対象の特徴と、患者集団を表す複数の細胞アバターのレスポンダーまたはノンレスポンダーの判定との間の関係を生成することとを含むステップを実行させる命令を含む。
【0040】
様々な実施形態において、対象の特徴は、対象の病歴、対象の遺伝子産物、対象の変異遺伝子産物、及び対象の遺伝子の発現または示差的発現のうちの1つ以上を含む。様々な実施形態において、ML対応細胞疾患モデルを適用するステップをプロセッサに実行させる命令は、プロセッサによって実行されると、プロセッサに:細胞アバターに対応する細胞から捕捉された表現型アッセイデータを取得することと(細胞は、疾患の遺伝的構造とアラインされる);機械学習モデルを使用して、細胞から捕捉された表現型アッセイデータに基づいて臨床表現型の予測を決定することと;処置細胞から捕捉された表現型アッセイデータを取得することと(処置細胞は、介入による処置後の細胞に由来する);処理細胞から捕捉された取得した表現型アッセイデータに基づいて、第2の臨床表現型の予測を決定することと;細胞アバターがレスポンダーであるかまたはノンレスポンダーであるかを判定するために、臨床表現型及び第2の臨床表現型の予測を比較することとを含むステップを実行させる命令をさらに含む。
【0041】
様々な実施形態において、臨床表現型の予測を決定することは、細胞から捕捉された取得した表現型アッセイデータに機械学習モデルを適用することを含み、第2の臨床表現型の予測を決定することは、処理細胞から捕捉された取得した表現型アッセイデータに機械学習モデルを適用することを含む。様々な実施形態において、介入は、2つ以上の治療薬を含む併用療法を含む。
【0042】
さらに本明細書において、構造活性相関(SAR)スクリーニングを開発するための非一時的コンピュータ可読媒体を開示し、非一時的コンピュータ可読媒体は、プロセッサによって実行されると、プロセッサに:1つ以上の治療薬のそれぞれについて、疾患に対する治療薬の予測される影響を取得することと(予測される影響は、上記の機械学習モデルを開発するための方法の実施形態を使用して開発された機械学習モデルから生成される少なくとも1つの予測を使用したML対応細胞疾患モデルを適用することによって決定される);治療薬の予測される影響を使用して、治療薬の特徴と治療薬の対応する予測される影響との間のマッピングを生成することとを含むステップを実行させる命令を含む。様々な実施形態において、機械学習モデルから生成される予測は、標的に対する治療効果に従ってクラスタ化された治療薬を含む。
【0043】
様々な実施形態において、疾患に対する治療薬の予測される影響は:疾患の遺伝的構造とアラインした細胞から捕捉された表現型アッセイデータを取得することと;機械学習モデルを使用して、細胞から捕捉された取得した表現型アッセイデータに基づいて臨床表現型の予測を決定することと;処理細胞から捕捉された表現型アッセイデータを取得することと(処理細胞は、介入による処理後の細胞に由来する);処理細胞から捕捉された取得した表現型アッセイデータに基づいて、第2の臨床表現型の予測を決定することと;治療薬の予測される影響を決定するために、臨床表現型及び第2の臨床表現型の予測を比較することとによって決定される。様々な実施形態において、治療薬の予測される影響は、治療有効性、または治療毒性が無いことのうちの1つである。さらに、本明細書において:疾患を調節するための生物学的標的を同定するための非一時的コンピュータ可読媒体を開示し、非一時的コンピュータ可読媒体は、プロセッサによって実行されると、プロセッサに:ML対応細胞疾患モデルを適用し(ML対応細胞疾患モデルの適用は、本明細書に開示する非一時的コンピュータ可読媒体の実施形態を使用して開発された機械学習モデルから生成される少なくとも1つの予測を使用することを含み、予測は、摂動で処理された複数の細胞にわたる表現型アッセイデータから生成される);機械学習モデルから生成された予測に基づいて、疾患を示す細胞表現型に関連する遺伝子改変を同定し;遺伝子改変を生物学的標的として選択するステップを実行させる命令を含む。様々な実施形態において、表現型アッセイデータは、疾患状態を誘発する摂動で処理された細胞に由来する。様々な実施形態において、予測に基づいて遺伝子改変を同定することは、細胞における遺伝子改変の存在が、摂動によって誘発される疾患状態と相関することを決定することを含む。様々な実施形態において、機械学習モデルから生成される予測は、機械学習された埋め込みを含む。
【0044】
様々な実施形態において、ML実装方法は、弱い教師アプローチと部分的な教師アプローチの組み合わせである。様々な実施形態において、ML実装方法は、線形回帰、ロジスティック回帰、デシジョンツリー、サポートベクターマシン分類、ナイーブベイズ分類、K最近傍分類、ランダムフォレスト、深層学習、勾配ブースティング、敵対的生成ネットワーク学習、強化学習、ベイジアン最適化、行列因数分解、ならびに次元縮退手法、例えば、多様体学習、主成分分析、因子分析、オートエンコーダー正則化、及び独立成分分析、またはそれらの組み合わせのうちのいずれか1つ以上である。
【0045】
さらに、本明細書において、ML対応細胞疾患モデルで使用するための機械学習モデルを開発するためのコンピュータシステムを開示し、コンピュータシステムは:細胞に由来する表現型アッセイデータを格納するための記憶メモリ(細胞は、疾患の遺伝子構造とアラインされ、細胞内の疾患細胞状態を促進するように改変されている);及び記憶メモリに通信可能に結合し、ML実装方法により、ML対応細胞疾患モデルに有用な機械学習モデルをトレーニングするために細胞の表現型アッセイデータを分析するための、プロセッサ(機械学習モデルは、捕捉された表現型アッセイデータと臨床表現型との間の関係を少なくとも部分的に含む)を含む。
【0046】
様々な実施形態において、機械学習モデルのトレーニングは、in vitroモデルにおける健康及び疾患の代理ラベルとして機能する1つ以上の曝露反応表現型(ERP)の表現型アッセイデータを、ML実装方法によって分析することを含む。様々な実施形態において、ERPの以前に生成された表現型アッセイデータを、疾患を有するまたは有さないことが知られている細胞から捕捉した対応する表現型アッセイデータと比較することによって、ERPを検証する。様々な実施形態において、ERPの表現型アッセイデータを、摂動因子に曝露された複数の細胞から捕捉する。様々な実施形態において、複数の細胞を、異なる濃度の摂動因子に曝露する。様々な実施形態において、複数の細胞は、複数の遺伝的バックグラウンドを含む。様々な実施形態では、1つ以上のERPは、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、または少なくとも20個のERPを含む。様々な実施形態において、1つ以上のERPは、少なくとも5つのERPを含む。
【0047】
様々な実施形態において、疾患の遺伝的構造は:疾患に関連する遺伝子座を同定することと;疾患に関連する同定された遺伝子座から、疾患の原因要素を同定することであって、原因要素が、疾患の発症または進行のドライバーを表す、前記原因要素を同定することとによって決定される。様々な実施形態において、疾患に関連する遺伝子座を同定することは、全ゲノム配列決定、全エクソーム配列決定、全トランスクリプトーム配列決定、または標的パネル配列決定のうちの1つを実施したことを含む。様々な実施形態において、疾患の原因要素を同定することは、ゲノムアノテーションを取得することと、疾患に関連する同定された遺伝子座とゲノムアノテーションを共局在化することとを含む。様々な実施形態において、疾患の遺伝的構造は:1つ以上のサンプルの遺伝子データとその1つ以上のサンプルの臨床表現型のラベルとの間でGWAS関連試験を実施することによって決定される。様々な実施形態において、1つ以上のサンプルの臨床表現型のラベルは、健康なサンプルと疾患のサンプルに由来する表現型アッセイデータを区別するようにトレーニングされた予測モデルを実行することによって決定される。
【0048】
様々な実施形態において、臨床表現型は、疾患表現型、疾患の有無、疾患重症度、疾患病理、疾患リスク、疾患の進行、治療的処置に応答した臨床表現型の可能性、または臨床的方法によって観察可能な疾患に関連する臨床表現型のうちの1つである。様々な実施形態において、臨床表現型は、非アルコール性脂肪性肝炎、パーキンソン病、筋萎縮性側索硬化症(ALS)、または結節性硬化症(TSC)のうちの1つに対応する。
【0049】
様々な実施形態において、細胞は分化した細胞である。様々な実施形態において、細胞は、人工多能性幹細胞から分化した細胞である。様々な実施形態において、細胞は、疾患の遺伝的構造とアラインした遺伝子変化を保有する。様々な実施形態において、cDNA構築物、CRISPR、TALENS、ジンクフィンガーヌクレアーゼ、または他の遺伝子編集技術を使用して、細胞内の遺伝子変化を操作する。様々な実施形態において、細胞の改変は、細胞を疾患関連細胞型に分化させること、細胞の遺伝子発現を調節すること、及び細胞を疾患細胞状態へと刺激する薬剤または環境条件を提供することのうちの1つ以上を含む。様々な実施形態において、疾患関連細胞型は、疾患関連細胞型において活性である疾患の1つ以上の同定された原因要素に基づいて選択される。
【0050】
様々な実施形態において、薬剤は、CTGF/CCN2、FGF1、IFGγ、IGF1、IL1β、AdipoRon、PDGF-D、TGFβ、TNFα、HLD、LDL、VLDL、フルクトース、リポ酸、クエン酸ナトリウム、ACC1i(フィルソコスタット)、ASK1i(セロンセルチブ)、FXRa(オベチコール酸)、PPARアゴニスト(エラフィブラノール)、CuCl2、FeSO47H2O、ZnSO47H2O、LPS、TGFβアンタゴニスト、及びウルソデオキシコール酸のいずれかのうちの任意の1つである。様々な実施形態において、薬剤は、1つ以上の遺伝子バリアントを導入するための化学剤、分子介入、または遺伝子編集剤のうちの1つである。様々な実施形態において、環境条件は、O2圧、CO2圧、静水圧、浸透圧、pHバランス、紫外線曝露、温度曝露または他の物理化学的操作である。
【0051】
様々な実施形態において、細胞の表現型アッセイデータは、細胞配列決定データ、タンパク質発現データ、遺伝子発現データ、画像データ、細胞代謝データ、細胞形態データ、または細胞相互作用データのうちの1つ以上を含む。様々な実施形態において、画像データは、高解像度顕微鏡検査データまたは免疫組織化学データのうちの1つを含む。
【0052】
様々な実施形態において、細胞は細胞集団に含まれ、細胞を改変することにより、その細胞は細胞集団内の他の細胞に対して多様化する。様々な実施形態において、細胞は細胞集団に含まれ、細胞集団は、疾患進行の少なくとも2つの異なる段階にある細胞部分集団を含む。様々な実施形態において、細胞は細胞集団に含まれ、細胞集団は、成熟の少なくとも2つの異なる段階にある細胞部分集団を含む。様々な実施形態において、細胞を、in vivo、in vitro 2D培養、in vitro 3D培養、またはin vitroオルガノイドもしくはオルガンオンチップシステムのうちの1つから取得する。
【0053】
様々な実施形態において、機械学習モデルをトレーニングするために、細胞の表現型アッセイデータを分析することは:表現型アッセイデータを数値ベクトルとしてエンコードすることと;数値ベクトルを機械学習モデルに入力することとを含む。様々な実施形態において、機械学習モデルをトレーニングするために、細胞の表現型アッセイデータを分析することは:細胞の表現型アッセイデータ、細胞の遺伝学、及び細胞に適用された改変を機械学習モデルへの入力として提供することを含む。
【0054】
さらに、本明細書において、介入を検証するためのコンピュータシステムを開示し、コンピュータシステムは:1つ以上の細胞アバターに対応する細胞から捕捉された表現型アッセイデータを保存するための記憶メモリ(細胞は、疾患の遺伝的構造とアラインされる);及び記憶メモリに通信可能に結合し、上記の機械学習モデルを開発するための方法の実施形態を使用して開発された機械学習モデルから生成される少なくとも1つの予測を使用したML対応細胞疾患モデルを適用するための、プロセッサを含む。
【0055】
様々な実施形態において、ML対応の細胞疾患モデルを適用することは:1つ以上の細胞アバターに対応する処理細胞から捕捉された表現型アッセイデータを取得することと(処理細胞は、介入により処理される);機械学習モデルを使用して、処理細胞から捕捉された表現型アッセイデータに基づいて臨床表現型の予測を決定することとを含む。様々な実施形態において、プロセッサは:細胞から捕捉された表現型アッセイデータを取得するステップと(その場合、処理細胞は、介入による処理後の細胞に由来する);細胞から捕捉された取得した表現型アッセイデータに基づいて第2の臨床表現型の予測を決定するステップと(その場合、介入を検証することは、第2の臨床表現型の予測に基づいて検証することを含む)をさらに実行するために、記憶装置に通信可能に結合する。
【0056】
様々な実施形態において、臨床表現型の予測を決定することは、処理細胞から捕捉された取得した表現型アッセイデータに機械学習モデルを適用することを含み、第2の臨床表現型の予測を決定することは、細胞から捕捉された取得した表現型アッセイデータに機械学習モデルを適用することを含む。様々な実施形態において、処理細胞から捕捉された表現型アッセイデータに機械学習モデルを適用することは、処理細胞の遺伝学及び処理細胞に適用される改変に機械学習モデルを適用することをさらに含み、その場合、処理細胞に適用される改変には介入が含まれる。様々な実施形態において、細胞から捕捉された表現型アッセイデータに機械学習モデルを適用することは、細胞の遺伝学及び細胞に適用される改変に機械学習モデルを適用することをさらに含み、その場合、細胞に適用される改変には介入が含まれない。様々な実施形態において、介入を検証することは、細胞に対応する臨床表現型の予測を、処理細胞に対応する第2の臨床表現型と比較することを含む。様々な実施形態において、介入を検証することは、介入が効果的であるか、あるいは無毒であるかを判定することを含む。
【0057】
さらに、本明細書において、治療を受ける候補患者集団を特定するためのコンピュータシステムを開示し、コンピュータシステムは、記憶メモリ;及び、記憶メモリに通信可能に結合し、以下のステップを実行するための、プロセッサを含む:患者集団を表す複数の細胞アバターを選択するステップ;細胞アバターが介入に対するレスポンダーであるかまたはノンレスポンダーであるかを判定するために、複数の細胞アバターの1つに対する介入にML対応細胞疾患モデルを適用するステップであって、ML対応細胞疾患モデルの適用は、介入を選択するために、上述の機械学習モデルを開発する方法の実施形態を使用して開発された機械学習モデルから生成される少なくとも1つの予測を使用することを含む、前記適用するステップ。
【0058】
様々な実施形態において、プロセッサはさらに:患者集団の患者から対象の特徴を取得するかまたは取得したステップと;複数の細胞アバター中の他の細胞アバターのそれぞれが介入に対するレスポンダーであるかまたはノンレスポンダーであるかを判定するために、前記他の細胞アバターのそれぞれにML対応の細胞疾患モデルを適用するステップと;患者集団の患者の対象の特徴と、患者集団を表す複数の細胞アバターのレスポンダーまたはノンレスポンダーの判定との間の関係を生成するステップとを実行する。
【0059】
様々な実施形態において、対象の特徴は、対象の病歴、対象の遺伝子産物、対象の変異遺伝子産物、及び対象の遺伝子の発現または示差的発現のうちの1つ以上を含む。様々な実施形態において、ML対応細胞疾患モデルを適用することは:細胞アバターに対応する細胞から捕捉された表現型アッセイデータを取得するかまたは取得したことと(細胞は、疾患の遺伝的構造とアラインされる);機械学習モデルを使用して、細胞から捕捉された表現型アッセイデータに基づいて臨床表現型の予測を決定することと;処置細胞から捕捉された表現型アッセイデータを取得するかまたは取得したことと(処置細胞は、介入による処置後の細胞に由来する);処理細胞から捕捉された取得した表現型アッセイデータに基づいて、第2の臨床表現型の予測を決定することと;細胞アバターがレスポンダーであるかまたはノンレスポンダーであるかを判定するために、臨床表現型及び第2の臨床表現型の予測を比較することとを含む。
【0060】
様々な実施形態において、臨床表現型の予測を決定することは、細胞から捕捉された取得した表現型アッセイデータに機械学習モデルを適用することを含み、第2の臨床表現型の予測を決定することは、処理細胞から捕捉された取得した表現型アッセイデータに機械学習モデルを適用することを含む。様々な実施形態において、介入は、2つ以上の治療薬を含む併用療法を含む。
【0061】
さらに本明細書において、構造活性相関(SAR)スクリーニングを開発するためのコンピュータシステムを開示し、コンピュータシステムは、記憶メモリに通信可能に結合し、以下のステップを実行するための、プロセッサを含む:1つ以上の治療薬のそれぞれについて、疾患に対する治療薬の予測される影響を取得するステップと(予測される影響は、上記の機械学習モデルを開発するための方法の実施形態を使用して開発された機械学習モデルから生成される少なくとも1つの予測を使用したML対応細胞疾患モデルを適用することによって決定される);治療薬の予測される影響を使用して、治療薬の特徴と治療薬の対応する予測される影響との間のマッピングを生成するステップ。様々な実施形態において、機械学習モデルから生成される予測は、標的に対する治療効果に従ってクラスタ化された治療薬を含む。
【0062】
様々な実施形態において、疾患に対する治療薬の予測される影響は:疾患の遺伝的構造とアラインした細胞から捕捉された表現型アッセイデータを取得するかまたは取得したことと;機械学習モデルを使用して、細胞から捕捉された取得した表現型アッセイデータに基づいて臨床表現型の予測を決定することと;処理細胞から捕捉された表現型アッセイデータを取得するかまたは取得したことと(処理細胞は、介入による処理後の細胞に由来する);処理細胞から捕捉された取得した表現型アッセイデータに基づいて、第2の臨床表現型の予測を決定することと;治療薬の予測される影響を決定するために、臨床表現型及び第2の臨床表現型の予測を比較することとによって決定される。様々な実施形態において、治療薬の予測される影響は、治療有効性、または治療毒性が無いことのうちの1つである。
【0063】
さらに、本明細書において:疾患を調節するための生物学的標的を同定するためのコンピュータシステムを開示し、方法は:ML対応細胞疾患モデルを適用し(ML対応細胞疾患モデルの適用は、本明細書に開示するコンピュータシステムの実施形態を使用して開発された機械学習モデルから生成される少なくとも1つの予測を使用することを含み、予測は、摂動で処理された複数の細胞にわたる表現型アッセイデータから生成される);機械学習モデルから生成された予測に基づいて、疾患を示す細胞表現型に関連する遺伝子改変を同定し;遺伝子改変を生物学的標的として選択することを含む。様々な実施形態において、表現型アッセイデータは、疾患状態を誘発する摂動で処理された細胞に由来する。様々な実施形態において、予測に基づいて遺伝子改変を同定することは、細胞における遺伝子改変の存在が、摂動によって誘発される疾患状態と相関することを決定することを含む。様々な実施形態において、機械学習モデルから生成される予測は、機械学習された埋め込みを含む。
【0064】
様々な実施形態において、ML実装方法は、弱い教師アプローチと部分的な教師アプローチの組み合わせである。様々な実施形態において、ML実装方法は、線形回帰、ロジスティック回帰、デシジョンツリー、サポートベクターマシン分類、ナイーブベイズ分類、K最近傍分類、ランダムフォレスト、深層学習、勾配ブースティング、敵対的生成ネットワーク学習、強化学習、ベイジアン最適化、行列因数分解、ならびに次元縮退手法、例えば、多様体学習、主成分分析、因子分析、オートエンコーダー正則化、及び独立成分分析、またはそれらの組み合わせのうちのいずれか1つ以上である。
【図面の簡単な説明】
【0065】
本発明のこれら及び他の特徴、態様、及び利点は、以下の説明、及び添付の図面に関してよりよく理解されるであろう。実行可能な限り、同様または類似の参照番号が図中で使用される場合があり、それらは同様または類似の機能を示し得ることに留意されたい。例えば、「サードパーティエンティティ702A」などの参照番号の後の文字は、テキストがその特定の参照番号を有する要素を具体的に参照していることを示す。「サードパーティエンティティ702」など、文字の後に続くテキスト内の参照番号は、その参照番号を有する図の要素のいずれかまたはすべてを指す(例えば、テキスト内の「サードパーティエンティティ702」は、図中の参照番号「サードパーティエンティティ702A」及び/または「サードパーティエンティティ702B」を指す)。
【0066】
【
図1A】一実施形態による、表現型アッセイデータに基づいて、臨床表現型などの予測を出力する機械学習モデルのトレーニングを示す。
【
図1B】一実施形態による、細胞疾患モデルの展開を示す。
【
図2A】一実施形態による、臨床表現型システムのブロック図を示す。
【
図2B】一実施形態による、疾患因子分析システムによって実行されるステップを示す。
【
図2C】一実施形態による、トレーニングデータを生成するための細胞改変システム及び表現型アッセイシステムのそれぞれによって実行されるステップを示す。
【
図3A】一実施形態による、機械学習モデルをトレーニングして細胞疾患モデルを生成するためのトレーニングデータの例を示す。
【
図3B】一実施形態による、機械学習モデルをトレーニングするための流れ図を示す。
【
図3C】一実施形態による、埋め込みの形で具現化された例示的な予測を示す。
【
図3D】一実施形態による、埋め込みの形で具現化された例示的な予測を示す。
【
図4】いくつかの実施形態による、細胞疾患モデルの展開の流れ図を示す。
【
図5A】いくつかの実施形態による、細胞疾患モデルの図式的実施を示す。
【
図5B】いくつかの実施形態による、細胞疾患モデルの図式的実施を示す。
【
図5C】いくつかの実施形態による、細胞疾患モデルの図式的実施を示す。
【
図5D】いくつかの実施形態による、細胞疾患モデルの図式的実施を示す。
【
図5E】いくつかの実施形態による、細胞疾患モデルの図式的実施を示す。
【
図6】
図2A、2B、3A、3B、4、及び5A~5Eに示すシステム及び方法を実装するための、例示的な演算装置を示す。
【
図7A】一実施形態による、細胞疾患モデルを開発し、展開するためのシステム環境全体を示す。
【
図7B】
図7Aのシステム環境を実装するための分散型コンピューティングシステム環境、ならびに上述の方法、例えば、
図2A、2B、3A、3B、4、及び5A~5Eに記載された方法の例示的な描写である。
【
図8A】健康な肝臓と非アルコール性脂肪性肝炎に罹患した肝臓の免疫組織化学画像を区別する機械学習モデルの生成を示す。
【
図8B】健康な肝臓と非アルコール性脂肪性肝炎に罹患した肝臓の免疫組織化学画像を区別する機械学習モデルの生成を示す。
【
図8C】健康な肝臓と非アルコール性脂肪性肝炎に罹患した肝臓の免疫組織化学画像を区別する機械学習モデルの生成を示す。
【
図8D】4つのNASH表現型にわたるタイル重要度の重みの散布図を示す。
【
図8E】4つの異なるNASH表現型にわたる2つの生検に由来する2つの組織学的スライドの個々のタイルに割り当てられたタイル重みの重要度を示す。
【
図9A】健康な肝臓と非アルコール性脂肪性肝炎肝臓の蛍光画像を区別する表現型多様体の例示的生成を示す。
【
図9B】健康な肝臓と非アルコール性脂肪性肝炎肝臓の蛍光画像を区別する表現型多様体の例示的生成を示す。
【
図9C】健康な肝臓と非アルコール性脂肪性肝炎肝臓の蛍光画像を区別する表現型多様体の例示的生成を示す。
【
図9D】健康な肝臓と非アルコール性脂肪性肝炎肝臓の蛍光画像を区別する表現型多様体の例示的生成を示す。
【
図9E】治療標的の識別を可能にする機械学習モデルの「アテンション」をタイルの特徴が獲得した、タイルを示す。
【
図9F】治療標的の識別を可能にする機械学習モデルの「アテンション」をタイルの特徴が獲得した、タイルを示す。
【
図10A】異なる化合物で処理したニューロンの細胞表現型を区別する埋め込みの生成及び実装を示す。
【
図10B】異なる化合物で処理したニューロンの細胞表現型を区別する埋め込みの生成及び実装を示す。
【
図10C】異なる化合物で処理したニューロンの細胞表現型を区別する埋め込みの生成及び実装を示す。
【
図10D】異なる化合物で処理したニューロンの細胞表現型を区別する埋め込みの生成及び実装を示す。
【
図11A】ノックアウトされた異なる遺伝子で改変されたニューロンの細胞表現型を区別する埋め込みの生成を示す。
【
図11B】ノックアウトされた異なる遺伝子で改変されたニューロンの細胞表現型を区別する埋め込みの生成を示す。
【
図11C】ノックアウトされた異なる遺伝子で改変されたニューロンの細胞表現型を区別する埋め込みの生成を示す。
【
図11D】ノックアウトされた異なる遺伝子で改変されたニューロンの細胞表現型を区別する埋め込みの生成を示す。
【
図11E】ノックアウトされた異なる遺伝子で改変されたニューロンの細胞表現型を区別する埋め込みの生成を示す。
【
図12】異なるニューロン細胞表現型の識別を可能にする機械学習モデルのアテンションを獲得したタイルを示す。
【
図13】機械学習モデルを構築するためのトレーニングデータを生成するためのステップの概要を示す。
【
図14A】GWAS分析と、細胞疾患の表現型尺度を区別するモデルとの間の関連性試験を使用して遺伝的構造を決定するためのプロセスの例を示す。
【
図14B】生物学的プロセス(例えば、HSC活性化)を選択し、iStelの細胞系を構築する例を示す。
【
図14C】複数の時点(例えば、分化後12日または19日)にわたるscRNA配列決定データを使用したiStel系統の品質管理チェックを示す。
【
図14D】アンカー表現型を確立するためのエクスポソームの設定例を示す。
【
図14E】エクスポソーム分析の結果及び5つの候補曝露の識別を示す。
【
図14F】エクスポソーム分析の結果及び5つの候補曝露の識別を示す。
【
図15A】広範囲の曝露(TGFβを含む)及びCRISPR編集遺伝子にわたってPerturb-seqを実行するための方法を示す。
【
図15B】Perturb-seqの転写状態に従って処理細胞と非処理細胞とを首尾よく区別する2つの例示的な機械学習モデル(例えば、ランダムフォレスト及びACTIONet)の性能を示す。
【
図15C】形態学的差異に従って0.1ng/mLのTGFβ処理細胞と非処理細胞とを区別するトレーニングされた機械学習モデルの改善された性能を示す。
【
図15D】形態学的差異に従って5ng/mLのTGFβ処理細胞と非処理細胞とを区別するトレーニングされた機械学習モデルの改善された性能を示す。
【
図15E】第1の細胞株(iStel)におけるPeturb-seqデータに基づくドラッガブル標的の同定を示す。
【
図15F】GWASヒットと機械学習予測スコアとの比較を示す。
【
図16A】例示的な埋め込み及び治療薬の選択におけるそれらの使用を示す。
【
図16B】例示的な埋め込み及び治療薬の選択におけるそれらの使用を示す。
【
図16C】野生型細胞とノックアウト細胞との間の表現型の区別を示す例示的な埋め込みを示す。
【
図16D】治療(例えば、ラパマイシン及びエベロリムス)の既知の効果を検証するための埋め込みの使用を示す。
【
図16E】ラパマイシン及びエベロリムスの治療を検証するためのin vitro試験を示す。
【
図16F】1つ以上の分子を含むスクリーニングプロセスの例を示す。
【
図16G】細胞の表現型の形態学的差異に従って作成された用量反応曲線を示す。
【
図16H】クラスタ化された薬物が同様の構造及び/または作用機序を共有する例示的な多様体を示す。
【
図17A】パーキンソン病に関する例示的な細胞アバターを示す。
【
図17B】有望なレスポンダーを識別するための例示的なプロセスを示す。
【
図18A】類似の薬物がより密接にクラスタ化された例示的な埋め込みを示す。
【
図18B】類似の薬物をそれらの作用機序に従ってクラスタ化する例示的な多様体を示す。
【発明を実施するための形態】
【0067】
発明の詳細な説明
定義
請求項及び明細書で使用される用語は、特に明記しない限り、以下に記載するように定義する。
【0068】
用語「対象」または「患者」は、同じ意味で用いられ、in vivo、ex vivo、またはin vitroのいずれかの、細胞、組織、生体、ヒトまたは非ヒト、哺乳類または非哺乳類、雄または雌を包含する。
【0069】
用語「マーカー(marker)」、「マーカー(markers)」、「バイオマーカー(biomarker)」、及び「バイオマーカー(biomarkers)」は、同じ意味で用いられ、限定されないが、脂質、リポタンパク質、タンパク質、サイトカイン、ケモカイン、成長因子、ペプチド、核酸、遺伝子、及びオリゴヌクレオチドを、それらの関連する複合体、代謝物、突然変異、バリアント、多型、修飾、断片、サブユニット、分解産物、要素、及び他の分析物またはサンプル由来の測定値と共に包含する。マーカーはまた、そのような変異または構造バリアントが、モデル(例えば、機械学習モデルまたは細胞疾患モデル)の開発に有用であるか、または関連するマーカー(例えば、タンパク質または核酸の非変異バージョン、代替転写産物など)を使用して開発された予測モデルに有用である環境において、変異タンパク質、変異核酸、コピー数変動、反転、及び/または転写バリアントを含む構造バリアントを含み得る。
【0070】
用語「サンプル」または「被験サンプル」は、静脈穿刺、排泄、射精、マッサージ、生検、針穿刺吸引、洗浄サンプル、擦過、外科的切開、または、当技術分野において公知の他の介入もしくは他の手段を含む手段により対象から採取された、単一細胞もしくは複数細胞、または細胞の断片、または、血液サンプルなどの体液のアリコートを含み得る。
【0071】
語句「表現型アッセイデータ」には、細胞表現型に関する情報を提供する任意のデータ、例えば、細胞配列決定データ(例えば、RNA配列決定データ、メチル化状態などのエピジェネティクスに関連する配列決定データ)、タンパク質発現データ、遺伝子発現データ、画像データ(例えば、高解像度顕微鏡データまたは免疫組織化学データ)、細胞代謝データ、細胞形態データ、及び細胞相互作用データが含まれる。様々な実施形態において、表現型アッセイデータは、心臓細胞の電気生理学的機能データ及び脳細胞の脳波(EEG)または皮質電図(ECoG)などの機能データを含む。
【0072】
用語「表現型アッセイデータを取得する」は、細胞、細胞集団、細胞培養、またはオルガノイドのいずれかを取得すること、及び細胞、細胞集団、細胞培養、またはオルガノイドのいずれかから表現型アッセイデータを捕捉することを包含する。この語句はまた、例えば、細胞、細胞集団、細胞培養、またはオルガノイドから表現型アッセイデータを捕捉したサードパーティから、表現型アッセイデータのセットを受け取ることも包含する。
【0073】
語句「対象データ」は、対象から得られた1つ以上の細胞から測定された表現型アッセイデータを含む。対象データは、状況によっては、対象の臨床データ(例えば、病歴、年齢、ライフスタイル要因など)をさらに含み得る。対象データはまた、状況によっては、対象のゲノム配列データ及び遺伝子配列データを含み得る。
【0074】
語句「臨床表現型」とは、疾患表現型、疾患の有無、疾患重症度、疾患病理、疾患リスク、疾患の進行、または治療的処置に応答した臨床表現型の可能性のうちのいずれかを指す。様々な実施形態において、臨床表現型は、磁気共鳴画像法(例えば、神経変性疾患の脳MRIまたは肝疾患の組織病理学的組織切片)などの臨床方法によって観察することができる疾患関連の臨床表現型を含む。様々な実施形態において、臨床表現型には、直接観察することができない疾患の特徴である中間形質が含まれる。中間形質の測定値または代理データポイントの例として、HbA1Cレベルの血液検査及び/または神経疾患の脳容積が挙げられる。臨床表現型は、いくつかの実施形態では、バイナリ値(例えば、疾患の有無を示す0及び1)として表すことができる。いくつかの実施形態では、臨床表現型は、連続値(例えば、疾患に関連するリスクを表す連続値)として表すことができる。
【0075】
語句「遺伝性疾患構造」または「疾患の遺伝的構造」とは、疾患の遺伝的ドライバーなど、疾患の根底にある遺伝学を指す。様々な実施形態において、疾患の遺伝性疾患構造は、文献に由来する、及び汎用細胞または組織レベルのゲノムデータに由来するヒト遺伝コホートデータを組み合わせることによって解明することができる。遺伝性疾患構造の例として、疾患に関連するか関与する遺伝子座、及び疾患の進行または発症を促進する原因となる特定の遺伝子、バリアント、または他の原因要素が挙げられる。
【0076】
語句「細胞は、疾患の遺伝的構造とアラインされた遺伝的変化を保有する」とは、疾患の遺伝的構造の根底にある遺伝学に対応する、細胞内の1つ以上の遺伝的変化を指す。したがって、様々な実施形態において、細胞は、疾患の細胞表現型を示す疾患細胞である。例えば、疾患の遺伝的構造とアラインされた遺伝的変化は、疾患の遺伝的ドライバー、疾患に関連または関与する遺伝子座、及び/または疾患の進行または発症を促進する原因となる原因要素であり得る。
【0077】
語句「細胞アバター」とは、ヒト個体の代理として機能し得る細胞を指す。細胞アバターは、その根底にある遺伝学によって定義される。様々な実施形態において、細胞アバターは、そのような細胞に提供される摂動によってさらに定義される。様々な実施形態において、機械学習モデルは、1つ以上の「細胞アバター」の特徴付けが与えられると、臨床表現型を予測するようにトレーニングされる。いくつかの実施形態では、細胞アバターは、患者または患者集団を表す(例えば、細胞アバターの細胞は、患者と同様の遺伝的バックグラウンドを有する)。したがって、細胞アバターは、細胞疾患モデルを使用してスクリーニングを実行する場合に、患者の代理として使用することができる。
【0078】
語句「曝露反応表現型」または「ERP」とは、健康または疾患の代理ラベルとして機能する関心対象の臨床エンドポイントのin vitroモデルを指す。様々な実施形態において、ERPは、疾患を示す表現型の特徴を細胞が示すように誘導する摂動因子の使用に基づいて、疾患のin vitroモデリングを可能にする。様々な実施形態において、ERPは、摂動因子に曝露され、それによって細胞を疾患状態に誘導した細胞(例えば、様々な遺伝的バックグラウンドの細胞または細胞アバター)から収集した表現型アッセイデータを指す。したがって、ERPの表現型アッセイデータを使用して、機械学習モデルをトレーニングし、疾患の表現型のトレースを認識することができる。
【0079】
語句「疾患の表現型のトレース」または「疾患の表現型のトレース」とは、機械学習モデルが、疾患細胞と疾患の少ない(例えば、健康な)細胞とを区別するために使用するアッセイデータに存在する表現型の特徴を指す。様々な実施形態において、疾患のこれらの表現型のトレースは、実際の疾患シグネチャ(例えば、疾患の発症または進行のリスク、または実際の疾患を示すシグネチャ)である。いくつかの実施形態では、疾患の表現型トレースは、実際の疾患シグネチャである必要はなく、代わりに、機械学習モデルが、疾患細胞と疾患の少ない細胞(例えば、健康な細胞)とを区別することを可能にする表現型アッセイデータに存在する任意の特徴であり得る。
【0080】
「機械学習実装方法」または「ML実装方法」という語句は、例えば、線形回帰、ロジスティック回帰、デシジョンツリー、サポートベクターマシン分類、ナイーブベイズ分類、K最近傍分類、ランダムフォレスト、深層学習、勾配ブースティング、敵対的生成ネットワーク学習、強化学習、ベイジアン最適化、行列因数分解、ならびに次元縮退手法、例えば、多様体学習、主成分分析、因子分析、オートエンコーダー正則化、及び独立成分分析、またはそれらの組み合わせのうちのいずれかなどの機械学習アルゴリズムの実装を指す。
【0081】
語句「細胞疾患モデル」とは、一般に、ディッシュ中で臨床試験を実施するために実施することができるモデルを指す。一般に、細胞疾患モデルは、機械学習対応細胞疾患モデルである。例えば、スクリーニングを実行するために展開される場合、細胞疾患モデルは、トレーニングされた機械学習モデルによって出力される予測を生成する(例えば、予測を使用して介入の選択を導く)。様々な実施形態において、細胞疾患モデルは、in vitro細胞アッセイ構成要素及びin silico構成要素の両方を含むハイブリッドモデルである。例えば、in vitro細胞アッセイ構成要素は、in vitro細胞に対する介入を試験し、表現型出力を測定することを含み得、in silico構成要素は、in vitro細胞の表現型出力の解釈を含み得る。
【0082】
語句「治療薬」とは、疾患の進行または発症を修正することができる任意の治療を指す。治療薬は、小分子薬、生物製剤、免疫療法、遺伝子療法、またはそれらの組み合わせであり得る。
【0083】
語句「医薬組成物」とは、疾患を治療するために、哺乳動物、例えば ヒトに投与するための、特定量の治療薬、例えば、治療有効量の治療用化合物を薬学的に許容される担体中に含む混合物を指す。
【0084】
語句「薬学的に許容される担体」とは、過度の毒性、刺激、アレルギー反応、または他の問題もしくは合併症のない、適正なリスクベネフィット率に見合う、ヒト及び動物の組織と接触させて使用するのに適した、緩衝液、担体、及び賦形剤を意味する。
【0085】
本明細書及び添付の特許請求の範囲において使用される場合、単数形「a」、「an」、及び「the」は、文脈が別途明確に指示しない限り、複数の指示対象を含むことに留意しなければならない。
【0086】
細胞疾患モデルの開発及び使用の概要
特定の疾患の細胞疾患モデルを開発するために、ヒトの遺伝的コホート、文献、及び汎用の細胞または組織レベルのゲノムデータからのデータを組み合わせて、疾患を生じさせる一連の要因(例えば、遺伝的、環境的、細胞的要因)を解明する。細胞が疾患のin vitroモデルを表現するように、一連の要因の理解を使用して細胞を改変し、摂動させる。さらに、in vitro細胞は、細胞アバターを表し、言い換えると、ヒト個体の代理として機能し(例えば、細胞がヒト個体と同じ根底となる遺伝学を有し)、その結果、細胞アバターについて得られたin vitro結果は、細胞アバターによって表現されるヒト個体、及び同様のバックグラウンド特性を有する他のヒト個体についての有望な結果を表し得る。
【0087】
細胞の表現型を表す高レベルの表現型アッセイデータ(例えば、高次元画像)を様々な細胞から捕捉し、これを使用して機械学習モデルをトレーニングし、様々な細胞の表現型(例えば、疾患の表現型または毒性の表現型と、それに対する疾患の少ない表現型)を区別する。機械学習モデルは、細胞表現型データに基づいて特定の細胞アバターの臨床表現型を予測するようにトレーニングされる。機械学習モデルのこれらの予測は、スクリーニングの実行に使用される細胞疾患モデルの基礎として機能する。
【0088】
様々な実施形態において、細胞疾患モデルは、1)機械学習モデル、及び2)in vitroで改変された細胞に対する介入のスクリーニングを含むin vitro構成要素の2つの主要な構成要素を含む。機械学習モデルの予測は、介入(例えば、疾患の治療に効果的である可能性が高い介入)の選択をガイドするために使用することができ、in vitro構成要素は、予測を検証するために使用される(及び機械学習モデルを検証するために使用され得る)。例を挙げると、予測は、介入が疾患に有効である可能性が高いことを示唆することができ、in vitro構成要素は、介入を提供することにより、疾患表現型を発現する疾患細胞が、より健康的な表現型を発現する、より健康的な状態に戻ることを確認する。
【0089】
ここで、細胞疾患モデルのトレーニング段階及び配備段階をそれぞれ説明している
図1A及び1Bを参照する。
図1Aは、一実施形態による、表現型アッセイデータに基づいて、臨床表現型などの予測を出力する機械学習モデルのトレーニングを示す。一般に、機械学習モデル140は、教師信号105及び/または教師信号105から導出されるデータを使用して構成される。
図1Aに示すように、教師信号105は、臨床データ110(例えば、個体が特定の臨床表現型を有するかどうかを識別するデータ)を含み得る。臨床データ110は、関心対象の疾患に関連する個体のコホートから得ることができる。臨床データ110は、機械学習モデル140をトレーニングするための参照グランドトゥルースデータとして機能し得る。
【0090】
教師信号105は、疾患の発症または進行を引き起こす根底となる遺伝学の識別を含む遺伝性疾患構造115をさらに含み得る。遺伝性疾患構造115の決定は、
図2Bを参照して以下でさらに詳細に述べる。遺伝性疾患構造115は、細胞の改変を誘導してトレーニングデータを導き出すために使用され、これは、機械学習モデル140をトレーニングするために使用される表現型アッセイデータ135として
図1Aに示されている。
【0091】
特に、遺伝性疾患構造115は、in vitro細胞改変120プロセスを誘導する。例えば、細胞125を生成し、遺伝性疾患構造115とアラインさせる(例えば、疾患の発症または進行を促進する特定の原因要素を有するように細胞を改変する)。摂動因子128(その一例は疾患の発症に寄与する環境因子を含む)を提供して、細胞125を摂動細胞130に改変する。例えば、摂動因子128は、細胞125を分化させるか、または疾患状態に進行させ得る。さらに、摂動因子128を提供することにより、異なる遺伝的バックグラウンドの細胞に対する異なる影響を理解することが可能になる。
【0092】
様々な実施形態において、
図1Aは、単一細胞125に適用されるin vitro改変120プロセスを示しているが、in vitro改変120プロセスは、複数の細胞に適用することができる。各細胞は、細胞の遺伝学(例えば、疾患の遺伝的バックグラウンドを含む遺伝学)、及び特定の実施形態では、細胞に適用される摂動因子によって定義される「細胞アバター」を表現する。したがって、in vitro改変120プロセスは、それぞれ対象の代替または代用として機能し得る広範囲の細胞アバター用の細胞を生成する。さらに、in vitro改変120プロセスは、様々な病期、様々な成熟段階、及び/または様々な疾患状態にわたって細胞をさらに生成することができる。in vitro改変120プロセスは、前例のない規模と幅で様々な細胞アバターの疾患の広範な態様を捕捉するトレーニングデータ(例えば、表現型アッセイデータ135)の生成を可能にする。
【0093】
一般に、画像データなどの高次元データを含む表現型アッセイデータ135は、摂動細胞130から捕捉される。様々な実施形態において、表現型アッセイデータ135は、摂動細胞130の細胞表現型を表す高次元データである。一実施形態では、摂動細胞130は健康な細胞であり、捕捉された表現型アッセイデータ135は健康な細胞の細胞表現型を表す。一実施形態では、摂動細胞130は疾患細胞であり、捕捉された表現型アッセイデータ135は疾患細胞の細胞表現型を表す。表現型アッセイデータ135を、機械学習技術を使用して分析し、機械学習モデル140をトレーニングする。したがって、機械学習モデル140は、疾患細胞と健康な細胞の細胞表現型を区別することによって、疾患の表現型のトレースを明らかにすることができる。注目すべきことに、機械学習モデル140はまた、その他の点で健康な細胞における疾患の表現型のトレースを検出することができ、これは疾患発症のリスクを示す。
【0094】
機械学習モデル140は、出力として、表現型アッセイデータに対応する臨床表現型を表す予測145を生成する。好ましい実施形態では、機械学習モデル140はディープニューラルネットワークであり、これは、予測に加えて高次元データセットの組織化された低次元表現を表す埋め込みを生成する。これらの埋め込みにより、予測を行うためのより豊富な方法が可能になり、その例は、疾患に関連する標的またはバイオマーカーである。さらに、埋め込みは、疾患に関連する標的またはバイオマーカーを調節することができる治療薬を特定するのに有用である。さらに、そのような埋め込みにより、機械学習モデル140で表される細胞表現型間のより豊富な関連付けが可能になり、より細かいレベルの解像度で潜在的な臨床コホートの識別が可能になる。
【0095】
図1Bは、一実施形態による、細胞疾患モデルの展開を示す。一般に、細胞疾患モデルは、スクリーニング170を実行するために展開され、その例には、疾患に対して使用するための介入(例えば、薬物、遺伝子、または併用介入)の検証、介入に応答する可能性が高い患者集団の特定、介入のライブラリ(例えば、薬物、遺伝子、または併用介入)を検索して、細胞疾患モデルを用いて開発された構造活性分子スクリーニングを使用した、有効である可能性が高い候補の最適化または同定、及び摂動された場合に疾患を調節することができる生物学的標的(例えば、遺伝子)の同定が含まれる。様々な実施形態において、細胞疾患モデルは、1つ以上の細胞アバターのスクリーニングを実行する。特定の細胞アバターのスクリーニングの結果は、直接的にまたは同様のバックグラウンド特性を介した関連付けを通じて、それらの細胞アバターによって表現される患者(複数可)または患者集団にとって適切である。
【0096】
細胞疾患モデルの展開中に、予測145(
図1Aに示す機械学習モデル140の予測として以前に説明された)が、1つ以上の細胞アバターに対して生成され、したがって、スクリーニングを実行するために、予測145は、in vitroスクリーニング150を誘導する。例えば、in vitroスクリーニング150プロセスは、特定の細胞型及び/または特定の遺伝的バックグラウンドの細胞(複数可)155を、以前に同定された細胞アバターの中から選択または再生することを含み、細胞アバターに対応する摂動因子158を提供することをさらに含み得る。好ましい実施形態では、機械学習モデル140の予測は埋め込みであり、これは、細胞アバター間の関連性、及びそれらの予測される臨床表現型との関係性の、より豊富な一連の関連付けを提供する。
【0097】
図1Bに示すように、細胞(複数可)155を摂動因子158に曝露し、それによってそれらを摂動細胞(複数可)160にする。様々な実施形態において、摂動因子158は、小分子薬物、生物学的介入、遺伝的介入、またはそれらの組み合わせなどの介入を含み得る。したがって、in vitroスクリーニング150プロセスは、介入の効果のin vitro検証を可能にする。摂動細胞の細胞表現型を表す高次元データ(例えば、画像データ)などの表現型アッセイデータ165を細胞から捕捉し、分析して、介入の影響を決定する。一実施形態では、表現型アッセイデータ165を、機械学習モデル140などの機械学習モデルを使用して分析する。ここで、機械学習モデルは、介入の影響を反映する臨床表現型である表現型アッセイデータ165に従って臨床表現型を予測する。一実施形態では、表現型アッセイデータ165を分析するために機械学習モデルを適用する必要はない。例えば、表現型アッセイデータ165は、機械学習モデルの実装を必要とせずに、臨床表現型について情報価値を有し得る。
【0098】
様々な実施形態において、1)予測145、2)表現型アッセイデータ165、及び3)細胞155(例えば、遺伝学及び細胞表現型)は、「細胞疾患モデル」を構成する。次いで、治療検証のためのスクリーニングの範囲決定及び実行の両方、構造活性相関スクリーニングの構築、ならびに患者セグメンテーションの実行に、細胞疾患モデルを使用することができる。治療検証、SAR、患者セグメンテーション、及び生物学的標的の同定のためのスクリーニングを実行するためのさらなる詳細を、
図5A~5Eを参照して以下に記載する。
【0099】
臨床表現型システム
図2Aは、一実施形態による、臨床表現型システム204のブロック図を示す。一般に、臨床表現型システム204は、表現型アッセイデータに基づいて臨床表現型を予測する機械学習モデルをトレーニングし、さらに細胞疾患モデルを展開してスクリーニング(例えば、治療検証スクリーニング、患者セグメンテーションスクリーニング)を実行する。臨床表現型システム204は、
図1A及び1Bを参照して上記のプロセスを実行する。
【0100】
図2Aに示すように、臨床表現型システム204は、疾患のin vitroモデルの生成に有用な遺伝性疾患構造及び他の関連情報を決定するための疾患因子分析システム205、疾患のモデルとして機能するin vitro細胞を生成及び維持するための細胞改変システム206、ならびにin vitro細胞から表現型アッセイデータ(例えば、細胞疾患モデルをトレーニングするためのトレーニングデータ)を捕捉するための表現型アッセイシステム207を含む。臨床表現型システム204は、機械学習モデルをトレーニングし、細胞疾患モデルを展開する細胞疾患モデルシステム208をさらに含む。いくつかの実施形態では、臨床表現型システム204は、機械学習モデルをトレーニングするために使用することができる前例のない規模及び幅でトレーニングデータを生成する。そのようなトレーニングデータには、疾患の細胞表現型または疾患を予測する細胞表現型を再現するように改変された細胞から得られる表現型アッセイデータが含まれる。
【0101】
図2Aは、臨床表現型システム204を、疾患因子分析システム205、細胞改変システム206、表現型アッセイシステム207、及び細胞疾患モデルシステム208を含むサブシステムのそれぞれを含むものとして示しているが、サブシステムは、別の実施形態において、異なるように配置され得る。例えば、疾患因子分析システム205、細胞改変システム206、及び/または表現型アッセイシステム207によって実行される方法及び手順は、1つ以上のサードパーティエンティティによって実行され得る。そのような実施形態では、サードパーティエンティティは、個体の遺伝子分析を実施し、疾患のin vitroモデルを表す細胞を改変し、維持し、表現型アッセイを実施して、in vitro細胞から表現型アッセイデータを捕捉する。サードパーティエンティティは、捕捉された表現型アッセイデータを臨床表現型システム204に提供し、臨床表現型システム204は、細胞疾患モデルを生成するために使用される機械学習モデルをトレーニングする。
【0102】
疾患因子分析
図2Bを参照すると、これは、一実施形態による、
図2Aの疾患因子分析システム205によって実行されるステップを示している。一般に、疾患因子分析システム205は、所与の疾患を引き起こす遺伝因子、細胞因子、及び環境因子などの一連の因子を解明するための分析を実行する。様々な実施形態において、疾患は肝疾患である。様々な実施形態において、肝疾患は非アルコール性脂肪肝疾患(NAFLD)である。様々な実施形態において、肝疾患は非アルコール性脂肪性肝炎(NASH)である。様々な実施形態において、疾患は神経疾患である。様々な実施形態において、神経疾患はパーキンソン病(PD)である。様々な実施形態において、神経疾患は、筋萎縮性側索硬化症(ALS)である。様々な実施形態において、神経疾患は、結節性硬化症(TSC)である。
【0103】
遺伝性疾患構造115とも呼ばれる遺伝的因子の例として、疾患に関連する遺伝子座及び疾患の原因要素など、疾患において役割を果たす根底となる遺伝学が挙げられる。細胞因子の例として、疾患の発現に直接関与する細胞型、疾患の発症/進行を支援する細胞型、または機械学習モデルによる分析時に予測可能な細胞型が挙げられる(例えば、必ずしも疾患の細胞型ではない)。環境因子の例として、疾患の発症または進行に寄与することが知られている、または疑われる環境要素または環境模倣物が挙げられる。
【0104】
様々な実施形態において、疾患因子分析システム205は、個体、例えば、特定の疾患を有する個体210から得られた組織サンプルの遺伝子分析結果を受信するか、または遺伝子分析を実行する。遺伝子分析は、疾患に関連する遺伝子座を含む遺伝性疾患構造115(例えば、ステップ215)、ならびに疾患の発症及び/または進行を促進する原因となる原因要素の絞り込まれたリスト(例えば、ステップ220)を取得する。遺伝性疾患構造115を特定すると、疾患因子分析システム205は、疾患に関与する細胞型を特定し(例えば、ステップ230)、疾患の発症及び/または進行を促進する環境因子をさらに特定する(例えば、ステップ240)。
【0105】
全体として、遺伝性疾患構造115は、遺伝性疾患構造とアラインする細胞を生成するための情報を提供し、したがって、以下でさらに詳細に説明するように、疾患のin vitro予測モデルの開発をサポートする。例えば、細胞を、疾患及び/または原因要素に関連する特定された遺伝子座を発現するように改変することができる。さらに、細胞は、疾患に関与する特定された細胞型のものであり得る(ステップ230で特定されるように)。さらに、細胞を、摂動させ、及び/または環境因子(ステップ240で特定されるような)に曝露し、さらに細胞を疾患状態に導き、その後分析してトレーニングデータを生成することができる。
【0106】
様々な実施形態において、
図2Bに示すように、疾患因子分析システム205は、ヒトコホートの個体などの個体210の臨床表現型212を決定する。様々な実施形態において、個体210は、疾患に関連する(例えば、以前に疾患と診断された)ことが知られており、したがって、疾患に関連する臨床表現型を示す。以下でさらに詳細に説明するように、疾患の臨床表現型212を構築することにより、機械学習モデルをトレーニングするために使用されるトレーニングデータの参照グラウンドトゥルースとして臨床表現型212を使用することが可能になる。
【0107】
一例として、臨床表現型212は、疾患の有無、疾患状態、または疾患進行などの確認された表現型を含み得る。これらは、臨床的に定義された表現型であり得る(例えば、医師によって、または臨床コミュニティによって定義される)。いくつかの実施形態では、臨床表現型212は、測定値または代理データポイントである。例えば、臨床表現型は、直接観察し得ない疾患の特徴である中間形質であり得る。測定値または代理データポイントの例として、HbA1Cレベルの血液検査及び/または神経疾患の脳容積が挙げられる。様々な実施形態において、臨床表現型212は、新たに定義された機械学習表現型を含み得る。例えば、測定された表現型に、教師あり、半教師あり、または教師なしの機械学習を実装して、MLによって生成される新規表現型を識別し、分類することができる。一例として、新規ML生成表現型を決定するために、高次元画像データ(例えば、組織病理学画像または放射線画像)に対して画像解析を実行することが挙げられる。別の例として、試験サンプル(例えば、血液、血清、または尿試験サンプル)中の関連するバイオマーカーから疾患状態を推定することが挙げられる。
【0108】
図2Bに示すように、疾患因子分析システム205は、遺伝子分析を実行して、疾患に関連する遺伝子座を同定する215。遺伝子座は、疾患に関連している可能性のある変異(例えば、多型、一塩基多型(SNP)、一塩基バリアント(SNV))、挿入、欠失、ノックイン、ノックアウト、及び特定のゲノム単位(例えば、エンハンサー、プロモーター、サイレンサー)の存在または非存在を含み得る。特定の例として、疾患に関連する遺伝子座は、疾患に関与する浸透性の高いバリアントを含み得る。遺伝子座を同定するために、疾患因子分析システム205は、個体210から得られたサンプルに由来する遺伝子データを分析してもよい。遺伝子データは、個体210由来の細胞または細胞集団に由来する配列決定データであり得る。そのような細胞は、例えば、異なるタイプの体細胞または多能性細胞など、互いに異なる可能性があり、したがって、細胞ゲノムの異なる遺伝子座に異なる遺伝子データを含み得る。
【0109】
様々な実施形態において、疾患に関連する遺伝子座を同定するために、疾患因子分析システム205は、全ゲノム配列決定、全エクソーム配列決定、または標的パネル配列決定のうちの1つ以上を実施することを含む、核酸配列決定技術を実行する。配列決定に続いて、疾患因子分析システム205は、配列リードを参照配列にアラインさせて、配列における遺伝子変化の存在を決定することができる。様々な実施形態において、疾患因子分析システム205は、DNAマイクロアレイまたは遺伝子型決定アレイなどの核酸アレイを使用して得られたデータに対して分析を実行して、個体210の遺伝的変化を特定する。
【0110】
ステップ215は、疾患と相関する遺伝子シグナルを特定するために、異なるサンプルにわたって遺伝学を分析することを含み得る。例えば、疾患因子分析システム205は、以下のうちの1つ以上を実行することができる:
i)様々なコーディングまたは非コーディング変化の予測される関連性を計算する(例えば、タンパク質切断バリアント、ミスセンスバリアント、スプライスバリアント、転写結合部位に影響を与える可能性が高いバリアントなど)
ii)単一または多重バリアントの遺伝的関連分析を実行し;
iii)例えば、負荷試験を使用して、希少バリアント分析を実行する
iv)関連する特性の多重特性分析を実行して、統計的検出力を高める
v)GWASのメタ分析を実行する
【0111】
疾患因子分析システム205は、追加のデータソースを使用して、疾患に関連する特定された遺伝子座を、疾患の発症または進行の原因となる原因要素の群に絞り込む。原因要素は、疾患に関連する特定された遺伝子座のサブセットである。様々な実施形態において、疾患因子分析システム205は、複数の特定された遺伝子座を単一の原因要素にマッピングする(例えば、一見離れた遺伝子座が、遮断する近隣配列を介して互いに関連付けられ得る)。
【0112】
いくつかの実施形態では、原因要素はまた、個々には疾患に弱く関連し得る要素を指すが、一緒にすると、弱い原因要素のセットは、疾患の発症または進行に強く関連し得る。例えば、一連の弱い原因要素を説明するゲノム全体の多遺伝子リスクスコア(PRS)を計算することができる。様々な実施形態において、ゲノム全体のPRSを、ゲノムにわたる多数の遺伝子座における変動に基づいて計算する。例えば、PRSは、リスク対立遺伝子の加重合計スコアであり得る。この場合、重みは、ゲノムワイド関連研究の効果サイズに基づいて対立遺伝子に割り当てられる。この場合、弱い原因要素は多数の遺伝子座のサブセットであり得るが、ゲノム全体のPRSを計算する場合、弱い原因要素の全体的な効果が考慮され、いくつかのシナリオでは、弱い原因要素のセットから、高いPRSが得られる。したがって、疾患因子分析システム205は、これらの弱い原因要素を、疾患の発症または進行を促進する原因要素として同定することができる。
【0113】
様々な実施形態において、
図2Bに示すように、疾患因子分析システム205は、ゲノムアノテーション225などの追加のデータソースを使用して、原因要素の群を特定する。様々な実施形態において、ゲノムアノテーション225は、発現定量的形質遺伝子座(eQTL)のリアルタイムエンジン、遺伝子関連データベース(GAD)、DisGeNETなどを含む、既知のデータベースからキュレーションすることができる。様々な実施形態において、ゲノムアノテーション225は、例えば、ATACseqまたはChip-seqなどの配列決定データであり得る。様々な実施形態において、ゲノムアノテーション225は、3Dゲノムデータ(例えば、クロマチンコンタクトマップ)または連鎖不平衡(LD)ブロックであり得る。一例として、疾患因子分析システム205は、ゲノムアノテーション225を、疾患に関連する同定された遺伝子座と共局在化することによって(例えば、同定された遺伝子座とeQTLまたはATACseqピークとの共局在化)、原因要素を同定する。共局在領域は、疾患の原因となる可能性が高い遺伝子座での活性を示している。
【0114】
いくつかの実施形態では、ゲノムアノテーション225とは、特定された遺伝子座が疾患の関連組織で発現するかどうか、特定された遺伝子座が疾患において示差的に発現するかどうか、特定された遺伝子座が他の疾患に関与するかどうか、特定された遺伝子座が他の疾患に関与するかどうか、及び特定された遺伝子座が動物モデルにおいて対応する表現型を有するかどうかを識別する情報を指す。
【0115】
例として、疾患因子分析システム205は、以下の情報のうちの1つ以上を分析して、特定された遺伝子座を原因要素の群に絞り込み得る:
a)上記のステップ215で説明した、異なるバリアントの予測関連性
b)eQTL、ATACseq、Chip-seq、トランスクリプトームワイド関連研究(TWAS)、3Dゲノムデータ(クロマチンコンタクトマップなど)、連鎖平衡ブロックとの共局在化などのシグナルにより、機能的バリアントをノミネートし、それらを原因要素にリンクさせる。
c)ヒト遺伝子型におけるコード変化の枯渇(ExAC、gnomAD)
d)遺伝子が関連する組織で発現しているかどうか
e)疾患状態で遺伝子発現が変化したかどうか
f)遺伝子が(関連する)疾患に関与しているかどうか
g)遺伝子が動物モデルにおいて表現型を有するかどうか
【0116】
ステップ228で、疾患因子分析システム205は、原因要素が関与する経路を特定する。様々な実施形態において、特定の分子経路及び細胞型において活性である原因要素は、KEGG経路データベース、Reactome Pathway Database、BioCyc Pathway、MetaCyc、及びPathBankなどのデータベースを使用して同定することができる。原因要素に関与する経路を特定するために疾患因子分析システム205によって実施される例示的な方法は、分子経路、生物学的プロセス、または病因遺伝子などの原因要素が濃縮された他の遺伝子セットを特定するための様々なツール(例えば、MAGMA)を使用することを含む。
【0117】
ステップ230で、疾患因子分析システム205は、ステップ220で特定された原因要素に基づいて、疾患に関与する細胞型を特定する。様々な実施形態において、疾患因子分析システムは、ステップ228で特定された分子経路及びプロセスに基づいて、疾患に関与する細胞型を特定する。様々な実施形態において、疾患因子分析システム205は、ステップ220で特定された原因要素に基づいて、疾患に直接関与する細胞型を特定する。
【0118】
原因要素に関連する細胞型を特定するために疾患因子分析システム205によって実施される方法の例には、以下が含まれる:
a)公開されているデータベースからアクセスできる特定の分子経路に関与する細胞型を特定する
b)単一細胞データ(RNAseq、ATACseq)を使用して、活性な原因要素を有する細胞型を決定する
c)原因要素が所与の細胞型で疾患状態と相関する方法で示差的に発現するかどうかを試験する(例えば、健康と疾患の間で異なる発現レベル)。
【0119】
ステップ240で、疾患因子分析システム205は、疾患プロセスを駆動または刺激する環境因子を特定する。一実施形態では、疾患因子分析システム205は、特定された細胞型(ステップ230で特定された)に基づいて環境因子を特定する。いくつかの実施形態では、疾患因子分析システム205は、特定された経路(ステップ228で特定された)に基づいて環境因子を特定する。
【0120】
様々な実施形態において、疾患プロセスを刺激する環境因子には、O2圧、CO2圧、静水圧、浸透圧、pHバランス、紫外線曝露、温度曝露または他の物理化学的操作が含まれる。様々な実施形態において、疾患プロセスを刺激する環境因子は、サイトカイン、炭水化物、タンパク質、核酸、代謝物、またはイオンなどの生物学的分子へと変化する。例えば、これらの生物学的分子は、疾患状態で示差的に発現する可能性があり、したがって、疾患の発症または進行を引き起こす可能性がある。
【0121】
環境因子を特定するために疾患因子分析システム205によって実施される例示的な方法として、以下が挙げられる:
a)疾患を引き起こす因子に関する文献の分析(NASHの遊離脂肪酸、パーキンソン病のロテノンなど)
b)特定された細胞型(例えば、サイトカイン、アミロイドβ、または代謝産物)を含む、健康なサンプルと疾患サンプルで示差的に提示される分子の特定。分子を、健康/疾患細胞の配列決定(例えば、単一細胞配列決定データ)または定量的アッセイ(例えば、ELISA)によって同定し、示差的に発現する転写産物及び/または示差的に発現する分子を決定することができる。
c)ステップ228で特定された原因要素を含む経路など、疾患に関与する経路で産生または利用される分子を特定する。
【0122】
遺伝性疾患構造を決定するためのさらなる方法
様々な実施形態において、疾患因子分析システム205は、以前に決定された遺伝性疾患構造(例えば、遺伝性疾患構造115)の理解をリファインすることによって、遺伝性疾患構造を決定してもよい。一例として、遺伝性疾患構造115のさらなるリファインは、疾患に関連する追加の遺伝子座を特定すること、及び/または疾患の追加の原因要素を特定すること、及びこれらの追加の遺伝子座及び原因要素を、リファインされた遺伝性疾患構造の一部としてさらに含めることを含む。別の例として、遺伝性疾患構造115のさらなるリファインは、疾患に関連する遺伝子座のサブセットの除去もしくは置換、または疾患の原因要素のサブセットの除去もしくは置換を含む。リファインされた遺伝性疾患構造は、改善されたin vitro疾患モデルの生成に有用であり、これにより、改善された機械学習モデルのトレーニングと、より優れた細胞疾患モデルの開発が可能になる。
【0123】
様々な実施形態において、疾患因子分析システム205は、サードパーティから得られたデータセットなどのデータセットを分析することによって、遺伝性疾患構造の理解をリファインする。データセットは、様々な実施形態において、疾患に関連する患者に関する対象データ(例えば、遺伝子データ、臨床データ、バイオマーカーデータ、及び/または表現型アッセイデータ)を含み得る。したがって、疾患に関連する追加の患者の対象データを含む追加のデータセットを分析することによって、疾患因子分析システム205は、遺伝性疾患構造115の理解を補足する追加の遺伝的要素を特定し得る。
【0124】
様々な実施形態において、データセット内の患者は、臨床的に疾患と診断されている可能性がある。様々な実施形態において、データセット内の患者は、臨床的に疾患のサブタイプまたは表現型と診断されている可能性がある。例えば、非アルコール性脂肪肝疾患(NAFLD)の疾患について、疾患の表現型の例は、線維症の存在である。様々な実施形態において、データセット内の患者は、臨床的に疾患と診断されていない(例えば、診断されていない)が、何らかの形態の疾患を有することを示唆する遺伝学、症状、またはバイオマーカーを有する。これらの患者は、過小診断または誤診されている可能性があるが、それ以外の場合は、疾患の徴候または疾患を発症する重大なリスクを示している。様々な実施形態において、データセットは、これらの前述の患者(例えば、臨床的に診断された患者及び/または診断されていない患者)の任意の組み合わせに関する対象データを含む。
【0125】
様々な実施形態において、疾患因子分析システム205は、患者データに基づいてデータセット内の患者を区別するデータセットから1つ以上の合成コホートを生成する。合成コホートには、疾患の存在がある患者、疾患に関連する表現型を示している患者、または疾患を発症するリスクが高い患者が含まれ得る。ここでも、非アルコール性脂肪性肝疾患(NAFLD)の例に戻ると、疾患因子分析システム205は、NAFLDを有する患者を含むか、または線維症、例えば、NAFLDの表現型を示す患者を含む合成コホートを生成することができる。特定の帰属表現型を示す個体を含む合成コホートの生成に関するさらなる説明は、Hormozdiari,F.et al. Imputing Phenotypes for Genome-wide Association Studies,The American Journal of Human Genetics,2016,99(1),89-103に記載されており、その全体が参照により本明細書に援用される。
【0126】
いくつかの実施形態では、合成コホートの目標は、その後の遺伝子解析が、遺伝性疾患構造115において以前に同定されなかった疾患の遺伝子座または原因要素を同定できるように、以前に解析されていない可能性がある患者を含めることである。例えば、合成コホートの患者は、
図2Bを参照して上述した個体210とは異なる場合があり、これらの患者を最初に分析して、最初の遺伝性疾患構造115を決定した。例えば、個体210が臨床的に疾患と診断された場合、合成コホートは、リスクが高く、まだ臨床的に疾患と診断されていない患者を含むことができる。別の例として、合成コホートには、以前に分析された個体210では十分に観察されなかった疾患の表現型またはサブタイプを発現する患者が含まれ得る。したがって、合成コホートの患者の根底にある遺伝学を理解することは、これまで観察されていなかった疾患の表現型またはサブタイプに関連する遺伝学であり得る。これらの遺伝学を使用して、遺伝性疾患構造115をさらにリファインし、以前は捕捉されなかった疾患の様々な表現型及び/またはサブタイプに関連する遺伝的要素をより完全に捕捉することができる。
【0127】
1つ以上の合成コホートを生成するために、疾患因子分析システム205は、
図2Bを参照して上記で開発した遺伝性疾患構造115の最初の理解を使用してもよい。例えば、疾患因子分析システム205は、データセットをフィルタリングして候補患者を選択することができ、候補患者は、遺伝性疾患構造115と部分的にアラインする対象データを有する。疾患因子分析システム205は、遺伝性疾患構造115の遺伝子座または原因要素を有する患者を選択する。したがって、疾患を有する(おそらく臨床的に疾患についてすでに診断されている)候補患者に加えて、疾患因子分析システム205は、疾患について過小診断または誤診されており、彼らの対象データ(例えば、根底となる遺伝学)が遺伝性疾患構造115と部分的にアラインしているため、疾患のリスクが潜在的に高いと診断されている候補患者も選択する。
【0128】
様々な実施形態において、疾患因子分析システム205は、患者の対象データに基づいて候補患者にラベルを帰属させることによって、候補患者のサブセットを含む患者の合成コホートを生成する。これにより、候補患者が互いに区別され、特定のラベルを有する患者の合成コホートの生成が可能になる。一例として、候補患者の第1のセットは、疾患を有するとラベル付けすることができ、一方、候補患者の第2のセットは、疾患を発症するリスクが高いとラベル付けすることができる。NAFLDに関して、候補患者の第1のセットは、NAFLDを有するとラベル付けされ、一方、候補患者の第2のセットは、NAFLDで多くの場合に認められる線維症表現型を発現する高リスクNAFLDとしてラベル付けされ得る。
【0129】
様々な実施形態において、異なる候補患者にラベルを帰属させることは、対象データに基づいて候補患者を区別することを含み得、その例には、ラベルの1つに関連するバイオマーカーの発現に基づいて患者を区別することが含まれる。様々な実施形態において、候補患者にラベルを帰属させることは、以前にトレーニングされた1つ以上のトレーニングされた予測モデルを適用して、バイオマーカーデータに基づいて2つの標識を区別することを含む。例えば、予測モデルは、入力として患者のバイオマーカーデータを分析し、次いで標識に関する予測を出力する分類器であり得る。予測モデルは、ラベルの予測を決定するために、バイオマーカーのパネルなどの1つ以上のバイオマーカーを分析し得る。
【0130】
合成コホートが与えられると、疾患因子分析システム205は、遺伝子分析を実施して、合成コホートの患者に関連する根底となる遺伝学を決定する。様々な実施形態において、疾患因子分析システム205は、
図2Bを参照して、ステップ215(例えば、遺伝子座を特定する)及びステップ220(疾患の原因要素を特定する)に関して上述したプロセスと同様の遺伝子分析を行う。例示的な実施形態では、疾患因子分析システム205は、合成コホート内の患者に対してゲノムワイド関連研究(GWAS)分析を実施して、疾患に関連する遺伝子座を特定し、トランスクリプトームワイド関連研究(TWAS)及び発現量的形質遺伝子座(eQTL)シグネチャを共局在化することによってポストGWAS分析を実施して、原因要素を特定する。様々な実施形態において、疾患の原因要素を特定するステップは、さらに遺伝性疾患構造115の既存の理解に依存し得る。例えば、ポストGWAS分析には、遺伝子座のバリアントを形質に細かくマッピングすることが含まれる。ポストGWAS分析は、遺伝性疾患構造115の理解を含む、一連の異なるデータセット(例えば、
図2Bに記載のゲノムアノテーション225)を使用することができる。
【0131】
全体として、合成コホートのこの遺伝学分析を通じて特定された遺伝子座と原因要素は、以前に生成された遺伝性疾患構造115を補足するために使用することができる。これにより、機械学習モデルをトレーニングするための追加のトレーニングデータの生成が可能になり、さらに、スクリーニングを実行するためのよりロバストな疾患の細胞モデルの生成が可能になる。
【0132】
様々な実施形態において、遺伝性疾患構造を決定するための方法は、GWAS関連試験を実施することを含み得る。例えば、関連試験では、疾患のサンプルに存在することに基づいて、疾患に関連する遺伝子座と原因要素を明らかにすることができる。様々な実施形態において、遺伝的構造の方法は、サンプルの遺伝学を決定し、サンプルのラベル(例えば、罹患または非罹患ラベル)をさらに決定することを含む。様々な実施形態において、ラベルは、疾患のサンプルと健康なサンプルを区別するようにトレーニングされた予測モデルを実行することによって決定される。したがって、予測モデルは、疾患のラベルまたは健康なラベルを各サンプルに割り当てることができる。様々な実施形態において、予測モデルは、表現型アッセイデータ(例えば、サンプルから捕捉した画像)を分析し、表現型アッセイデータに従って疾患のサンプルと健康なサンプルとを区別するようにトレーニングされる。例えば、表現型アッセイデータは、サンプルの免疫組織化学画像であり得、したがって、予測モデルは、画像分析を実行し、サンプルを疾患または健康としてラベル付けすることができる。
【0133】
関連性試験では、遺伝的変化の存在(例えば、バリアント、一塩基バリアント(SNV)、挿入、欠失、ノックイン、ノックアウト、及び/または特定のゲノムユニットの存在または非存在)、または陽性疾患ラベル(例えば、疾患の指標)との関連性が高い原因要素を明らかにすることができる。したがって、陽性疾患ラベルと高度に関連するこれらの遺伝的変化を伴う遺伝子座は、様々な実施形態において、遺伝性疾患構造に含めるための原因要素として同定することができる。
【0134】
表現型アッセイデータ
図2Cに示すように、機械学習モデルをトレーニングするために後で使用されるトレーニングデータを生成するために、細胞改変システム206及び表現型アッセイシステム207によって実行されるステップを示す。一般に、細胞改変システム206は、疾患の遺伝的構造とアラインする細胞コホートを生成するステップ250、及び細胞コホートを所望の細胞表現型に改変するステップ255を実行する。細胞コホートは、1つの細胞または複数の細胞(例えば、細胞の集団)からなり得る。表現型アッセイシステム207は、1つ以上の表現型アッセイを実行して、トレーニングデータを生成する。
図2Cは、これらのステップ(例えば、ステップ250及び255)をフロープロセスとして示しているが、いくつかの実施形態では、細胞コホートを、ステップ250で実行する特定の改変の前に改変してもよい(例えば、ステップ255)。表現型アッセイシステム207は、細胞上で1つ以上の表現型アッセイを実行して、細胞に由来する表現型アッセイデータを生成する。
【0135】
全体として、細胞改変システム206及び表現型アッセイシステム207は、細胞株の維持、細胞スクリーニング、細胞投薬(例えば、細胞改変または分化)、及び表現型アッセイ(その例には、細胞染色及びイメージングが含まれる)の実行のためのエンドツーエンドの自動化ワークフローを可能にする自動化インフラストラクチャを通じて実装され得る。自動化されたインフラストラクチャは、細胞疾患モデルシステム208が機械学習モデルをトレーニングするために使用できるトレーニングデータの大規模な生成を可能にする。より具体的には、自動インフラストラクチャを配備する実施形態では、ステップ250は、ハイスループットの細胞生成及び管理を含む。ハイスループット細胞生成及び管理のための細胞改変システム206の機能には、大容量プレート保存、複数の液体処理オプション、夜間操作、大容量CO2インキュベーション、培地冷却器及び保存が含まれる。したがって、サポートされているワークフローには、細胞継代、細胞モニタリング、培地交換、及び細胞保存が含まれる。様々な実施形態において、細胞改変システム206は、多数のプレート(例えば、200枚を超えるプレート)を取り扱うことができ、例えば、20以上の試薬充填ステーションをさらに含む。
【0136】
様々な実施形態において、ステップ250で、細胞改変システム206は、細胞(複数可)(例えば、単一細胞、細胞集団、細胞の複数集団)を生成し、維持する。細胞は、細胞の型(単一の細胞型、細胞型の混合物)、細胞系統(例えば、成熟の異なる段階または疾患の進行の異なる段階にある細胞)、細胞培養(例えば、in vivo、in vitro 2D培養、in vitro 3D培養、またはin vitroオルガノイドまたはオルガンオンチップシステム)に関して、様々に異なり得る。様々な実施形態において、細胞改変システム206は、特定の疾患が活動性である細胞型の細胞を生成及び維持する。様々な実施形態において、細胞改変システム206は、特定の疾患が活動性である細胞型に対する代理細胞として機能する細胞を生成及び維持する。ここで、代理細胞は、疾患が活動性である特定の細胞型と比較して、管理が容易であり得る(例えば、培養が容易であり、操作が容易である)。細胞システム206が生成し、維持する特定の細胞型は、
図2Bを参照して上述したように、ステップ230で特定された細胞型であり得る。
【0137】
様々な実施形態において、細胞改変システム206は、人工多能性幹細胞(iPSC)を生成及び/または維持する。iPSCは、リプログラミング因子Oct4、Sox2、Klf4、及びMycを使用した体細胞のリプログラミングなど、様々な方法で生成することができる。体細胞の再プログラミングは、ウイルスまたはエピソームの再プログラミング技術によって生じ得る。iPSCを生成する方法の例は、PCT/US2018/067679、PCT/EP2009/003735、米国出願第13/059,951号、米国出願第13/369,997号、米国出願第14/043,096号、及び米国出願第13/441,328号にさらに記載されており、これらの各々は、その全体が参照により本明細書に援用される。
【0138】
様々な実施形態において、細胞改変システム206は、体細胞を生成及び/または維持する。様々な実施形態において、細胞改変システム206は、分化した細胞を生成及び/または維持する。様々な実施形態において、細胞改変システム206は、初代細胞から分化した細胞(例えば、分化転換された)を生成及び/または維持する。様々な実施形態において、細胞改変システム206は、幹細胞から分化した細胞を生成及び/または維持する。様々な実施形態において、細胞は、細胞改変システム206が以前に生成したiPSCなどのiPSCから分化する。
【0139】
様々な実施形態において、細胞改変システム206は、多様なスペクトルの遺伝的変動に及ぶ可能性が高い遺伝学を有するiPSCを生成及び/または維持する。様々な実施形態において、遺伝的変動の多様なスペクトルは、
図2Bに関して上述した原因要素に関連している。一実施形態では、異なる原因要素を発現するiPSCの異なる集団を選択することができる。したがって、原因要素の様々な発現の影響は、iPSC集団全体で再現することができる。一実施形態では、異なる多遺伝子リスクスコア(PRS)を有するiPSCの異なる集団を生成することができる。
【0140】
様々な実施形態において、ステップ250は、細胞改変システム206が細胞をさらに編集して、細胞が疾患の遺伝子構造と確実にアラインするようにするサブステップを含む。一実施形態では、細胞改変システム206は、細胞に遺伝的変化を導入することによって細胞を編集する。いくつかの実施形態では、そのような遺伝的変化は、
図2Bに関して上述した遺伝性疾患構造115など、患者から決定される遺伝性疾患構造を模倣するために導入される。特定の実施形態では、細胞が発現する1つ以上の遺伝的変化は、疾患の遺伝的構造を複製する。例えば、1つ以上の遺伝的変化は、一過性または構成的な方法で、疾患の遺伝的構造の原因要素の影響を複製する。
【0141】
1つ以上の遺伝的変化の例には、変異(例えば、多型、一塩基多型(SNP)、一塩基バリアント(SNV))、挿入、欠失、ノックイン、及びノックアウトが含まれる。遺伝的変化の追加の例には、発現の変化を引き起こす遺伝的変化(例えば、遺伝子サイレンシング/活性化)またはエピジェネティックな状態の変化を引き起こす遺伝的変化(例えば、ヒストン結合、DNAメチル化)が含まれる。
【0142】
様々な実施形態において、細胞が発現する1つ以上の遺伝的変化を改変することができる。遺伝的変化を改変して、異なる細胞間で遺伝的多様性を高め、及び/または浸透性の高いバリアントを導入することができる。様々な実施形態において、細胞が発現する1つ以上の遺伝的変化は、特定のcDNAの過剰発現の結果である。例えば、遺伝子のcDNA構築物は、トランスフェクション法(例えば、リポフェクタミン)によって細胞に提供され、1つ以上の遺伝的変化を導入することができる。様々な実施形態において、細胞が発現する1つ以上の遺伝的変化を、クラスタ化して規則的な配置の短い回文配列リピート(CRISPR)を使用して改変する。例えば、細胞において1つ以上の遺伝的変化を生成するためのCRISPR系は、CRISPR複合体(CRISPR酵素を含む)、標的配列とハイブリダイズしてCRISPR複合体の配列特異的結合を標的配列に誘導するための1つ以上のガイド配列を含み得る。CRISPR系を使用する遺伝子編集は、米国特許第8,697,359号、第8,697,359号;第8,771,945号、第8,795,965号、第8,865,406号、第8,871,445号、第8,889,356号、第8,895,308号、第8,906,616号、第8,932,814号、第8,945,839号、第8,993,233号、第8,999,641号、第PCT/US2013/074611号、及び第PCT/US2013/074819号にさらに記載されており、これらのそれぞれはその全体が参照により本明細書に援用される。様々な実施形態において、細胞が発現する1つ以上の遺伝的変化を、転写活性化因子様エフェクターヌクレアーゼ(TALEN)を使用して改変する。TALENを使用した遺伝子編集は、米国特許第9,353,378号;第8,440,431号;第8,440,432号;第8,450,471号;第8,586,363号;第8,697,853号及び第9,758,775号にさらに記載されており、これらのそれぞれはその全体が参照により本明細書に援用される。様々な実施形態において、細胞が発現する1つ以上の遺伝的変化を、ジンクフィンガーヌクレアーゼを使用して改変する。ジンクフィンガーヌクレアーゼを使用する遺伝子編集は、米国特許第7,888,121号、第8,409,861号、第7,951,925号、第8,110,379号、及び第7,919,313号にさらに記載されており、これらのそれぞれはその全体が参照により本明細書に援用される。
【0143】
これらの遺伝的変化を導入するために細胞改変システム206が実行できる例示的な方法には、以下が含まれるが、これらに限定されない:
i)CRISPRヌクレアーゼ(CRISPRn)またはCRISPR阻害(CRISPRi)を使用して、機能喪失遺伝子バリアントを作成する。
ii)CRISPR活性化(CRISPRa)を使用して機能獲得遺伝子バリアントを作成する
iii)CRISPRプライム編集、相同性修復(HDR)を使用した特定の対立遺伝子変化を作成し、
iv)Cas3または他のツールを使用してコピー数バリエーション(CNV)を生成する
v)dCas9バリアント、またはPrime-editorなどのタンパク質の構成的または誘導性発現を生成する
vi)NGN2などの分化因子の構成的または誘導性発現を生成する
【0144】
ステップ255は、細胞コホートを改変することを含む。様々な実施形態において、ステップ255は、エクスポソームを実行することを含む。例えば、細胞コホートを、1つ以上の摂動因子に曝露する。様々な実施形態において、摂動因子は、細胞において、より低い疾患状態を誘導することができ、それにより、細胞は、疾患の表現型のより少ないトレースを示し得る。様々な実施形態において、摂動因子は、細胞において疾患状態を誘導することができ、それにより、細胞は、疾患の表現型のトレースを示し得る。様々な実施形態において、摂動因子は、役割を果たすか、または疾患を引き起こす可能性があり、したがって、摂動因子によって誘発される疾患の表現型のトレースは、特定の臨床的エンドポイントのアンカー表現型として有益であり得る。例えば、線維症進行の臨床的エンドポイントに関して、TGFβ摂動因子は線維症の疾患状態を誘発する。したがって、アンカー表現型は、TGFβへの細胞の曝露に起因する疾患の表現型のトレースによって表される。
【0145】
様々な実施形態において、摂動因子を、(i)代謝または食事のリスク/保護因子を模倣する能力、(ii)候補生物学的経路に関与する能力、または(iii)細胞の微小環境に影響を与え得る細胞型のエフェクター機能(複数可)を捕捉する能力に従って選択する。様々な実施形態において、エクスポソームのための摂動因子を選択することは、遺伝学において濃縮された経路を介して遺伝子分析から出現する候補遺伝子を評価し、同定することを含む。したがって、選択された摂動因子は、候補遺伝子(または候補遺伝子の産物)と相互作用するものであり得る。様々な実施形態において、エクスポソームのための摂動因子を選択することは、ヒトデータ由来のサンプルを分析して、疾患サンプルと健康サンプルに示差的に存在する(例えば、濃縮されたかまたは減少していた)曝露(例えば、サイトカイン、炭水化物、タンパク質、核酸、代謝産物、またはイオン)を特定することを含む。ここでは、疾患サンプルと健康サンプルに示差的に存在する曝露を摂動因子として選択することができる。様々な実施形態において、エクスポソームのための摂動因子を選択することは、以前の文献研究(例えば、疫学研究)から知られている要因を特定し、分析することを含む。
【0146】
様々な実施形態において、追加の摂動因子は、最初に選択された摂動因子に基づいてエクスポソームのために選択され得る。例えば、最初に選択された摂動因子が、疾患の推定ドライバーとして同定された候補生物学的経路または候補遺伝子を調節する場合、最初に選択された摂動因子に類似または関連する他の摂動因子も選択することができる。例えば、最初に選択された摂動因子としてアディポカインが同定されると、最初の曝露セットの一部として他のアディポカインが選択され得る。別の例として、追加の摂動因子は、最初に選択された摂動因子によって標的とされる生物学的経路に関与するシグナル伝達受容体または二次メッセンジャーを標的とする摂動因子であり得る。
【0147】
様々な実施形態において、ステップ255は、異なる細胞コホート250を異なる摂動因子に曝露することを含む。様々な実施形態において、ステップ255は、細胞コホートを少なくとも2つの摂動因子に曝露することを含む。様々な実施形態において、ステップ255は、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、または少なくとも20個の摂動因子に対して、細胞コホートを曝露することを含む。全体として、細胞コホートでエクスポソームを実行すると、その後、様々な細胞コホートにわたって広範囲の表現型アッセイデータ(例えば、ステップ260で捕捉)を捕捉することができる。そのような表現型アッセイデータは、機械学習モデルのトレーニングに使用される曝露反応表現型(ERP)を構成することができる。
【0148】
様々な実施形態において、ステップ255を実行するために、細胞改変システム206は、サンプルの非接触分注を保証する広範囲の液体タイプ及び細胞タイプのナノリットル分注などの機能を含み得る。このように、様々な異なる細胞の改変を、ハイスループットな方法で並行して行うことができる。細胞を改変するための機能の例には、バルク試薬ディスペンサー、プレートのシーリング/デシーリング、完全なプロセス封じ込め(例えば、HEPAフィルター/陰圧エンクロージャー)が含まれる。様々な実施形態において、細胞改変システム206は、ハイスループットウイルス調製及びハイスループット分子生物学を含む。
【0149】
ステップ255で、細胞改変システム206は、疾患の遺伝的構造とアラインされる細胞を改変する。様々な実施形態において、細胞を改変する際に、細胞改変システム206は、細胞を分化させること、細胞の遺伝子発現を調節すること、及び/または細胞を疾患細胞状態に駆り立てる環境条件を提供することのうちの任意の1つ以上を実行する。様々な実施形態において、ステップ255で細胞を改変することは、細胞が疾患の広範囲の細胞表現型を発現するように細胞コホートを多様化することを含む。疾患細胞状態の例として、疾患に関与する細胞型、1つ以上の遺伝子産物(例えば、mRNA、タンパク質、またはバイオマーカー)の示差的発現、変異遺伝子産物(例えば、バリアントmRNA、バリアントタンパク質、またはバリアントバイオマーカー)の発現、遺伝子の示差的発現、及びシグナル伝達経路の変化が挙げられる。
【0150】
様々な実施形態において、細胞改変システム206は、以下のステップのうちの1つ以上を実行する:(1)分離、共培養、またはオルガノイドなどの多細胞系のいずれかにおいて、iPSCを1つ以上の関連する細胞系統に分化させ、(2)摂動により、遺伝子のサブセットの発現を調節し(例えば、CRISPRi/aを使用した活性化または抑制)、そして(3)疾患プロセスを駆動できる単一ステップまたは複数ステップのプロトコルにより、環境模倣を導入する。好ましい実施形態では、細胞改変システム206は、ハイスループット細胞株管理能力(例えば、大容量インキュベーター、プレート、試薬充填ステーション、プレート保管、液体処理オプション)を実装し、それによって、多数の細胞コホートを並行して迅速に多様化することができる自動細胞分化ワークフローを可能にする。しかしながら、いくつかの実施形態では、細胞改変システム206は、以下のステップを説明するために低スループットの方法を実施することもできる。
【0151】
一実施形態では、細胞改変システム206は、細胞を、関連する細胞型(例えば、疾患に関連する細胞型)に分化させる。特定の関連する細胞型は、
図2Bを参照して上述したように、ステップ230で同定された原因要素を発現する細胞型であり得る。例えば、細胞は、iPSCであり得、したがって、細胞改変システム206は、iPSCを特定の運命(例えば、ニューロン(例えば、抑制性介在ニューロン、ドーパミン作動性ニューロン、皮質ニューロン)、星状細胞、肝細胞、星状細胞、マクロファージ、ミクログリア、クッパー細胞、及び造血幹細胞)を含む、疾患に関連する体細胞)にプログラムする。iPSCを培養し、及び/または栄養素、サイトカイン、及び/または環境条件にさらして、iPSCを特定の体細胞に分化させるように誘導することができる。例えば、iPSCを星状細胞に分化させるために、iPSCを、BMP4、FGF1、FGF3、レチノール、及びパルミチン酸の組み合わせで処理することができる。iPSCを異なる体細胞に分化させるための例示的な方法は、PCT/US2010/025776、米国出願第13/619,893号、米国出願第15/725,931号、及び米国特許第9,932,561号に記載されており、これらのそれぞれはその全体が参照により本明細書に援用される。
【0152】
一実施形態では、細胞改変システム206は、異なる細胞が成熟または発生の異なる段階を表すように、複数の細胞を改変する。細胞改変システム206は、異なるiPSC、分化細胞、またはその両方を改変し得る。例えば、第1の細胞は、第2の細胞の以前のバージョンを表し得る。一例として、第1の細胞は、新たに分化した体細胞(例えば、若い体細胞)であってもよく、一方、第2の細胞は、2回以上継代された体細胞(例えば、古い体細胞)であってもよい。したがって、時間の経過に伴う体細胞の挙動は、これら2つの細胞にわたって表すことができる。
【0153】
様々な実施形態において、細胞改変システム206は、異なる細胞が疾患の進行の異なる段階を表すように、複数の細胞を改変する。細胞改変システム206は、異なるiPSC、分化細胞、またはその両方を改変し得る。一実施形態では、細胞改変システム206は、第1の細胞が、第2の細胞と比較して疾患の進行が早い疾患細胞を表現するように、複数の細胞を改変してもよい。一実施形態では、細胞改変システム206は、細胞が加速または減速した疾患進行を受けるように複数の細胞を改変し、それによって関連するin vivo疾患発現状態をエミュレートし得る。したがって、時間の経過に伴う疾患の進行は、これら2つの細胞にわたって表され得る。
【0154】
いくつかの実施形態では、細胞改変システム206は、細胞を摂動することによって細胞を改変し、これは、疾患に関連する細胞の細胞状態を促進する。疾患の細胞状態の例として:細胞が示差的な遺伝子発現を示す状態、細胞が調節不全の挙動を示す状態(例えば、異常な細胞周期調節、細胞分裂、酵素機能)、細胞が疾患タンパク質を発現する状態(例えば、プロテオパシー)、及び低酸素症、高酸素症、低炭酸ガス血症、または高炭酸ガス症誘発状態が挙げられる。
【0155】
摂動の一例として、細胞改変システム206は、薬剤を細胞に投与することができる。薬剤の例として、化学剤、分子介入、環境模倣物または遺伝子編集剤が挙げられる。遺伝子編集剤の例として、特定の遺伝子をそれぞれ下方制御または過剰発現させる働きをするCRISPRi及びCRISPRaが挙げられる。CRISPRi及びCRISPRaならびにCRISPRi/aを使用する転写調節方法に関するさらなる詳細は、米国出願第15/326,428号及びPCT/CN2018/117643に記載されており、両方ともその全体が参照により本明細書に援用される。化学剤または分子介入の例として、遺伝的要素(例えば、siRNA、shRNA、またはmRNAなどのRNA、二本鎖または一本鎖アンチセンスオリゴヌクレオチド)、ならびに臨床候補、ペプチド、抗体、リポタンパク質、サイトカイン、食事摂動因子、金属イオン塩、コレステロール結晶、遊離脂肪酸、またはAβ凝集体が挙げられる。化学剤または分子介入の例として、CTGF/CCN2、FGF1、IFGγ、IGF1、IL1β、AdipoRon、PDGF-D、TGFβ、TNFα、HLD、LDL、VLDL、フルクトース、リポ酸、クエン酸ナトリウム、ACC1i(フィルソコスタット)、ASK1i(セロンセルチブ)、FXRa(オベチコール酸)、PPARアゴニスト(エラフィブラノール)、CuCl2、FeSO47H2O、ZnSO47H2O、LPS、TGFβアンタゴニスト、及びウルソデオキシコール酸のいずれかのうちの任意の1つである。
【0156】
様々な実施形態において、環境模倣物は、摂動因子として、または遺伝子発現を調節する摂動因子に加えて提供され得る。環境模倣物の例として、O
2圧、CO
2圧、静水圧、浸透圧、pHバランス、紫外線曝露、温度曝露または他の物理化学的操作が挙げられる。様々な実施形態において、環境模倣物は、
図2Bに関して上述したように、ステップ240で決定された環境因子である。
【0157】
様々な実施形態において、細胞の摂動を、アレイ形式で実行する。例えば、細胞を個別に(例えば、別々のウェルに)播種し、個別に摂動させる。いくつかの実施形態では、細胞の摂動を、プールされた形式で実行する。例えば、細胞を一緒にプールし、摂動させる。一実施形態では、プールした細胞を、同じ摂動にさらす。一実施形態では、プール内の細胞を、個々の摂動に個別にさらす。
【0158】
様々な実施形態において、細胞改変システム206は、in vivoでの疾患状態を予測する細胞培養条件を選択することによって細胞を撹乱する。一実施形態では、細胞培養条件は、in vivoで疾患状態をエミュレートするように選択される。いくつかの実施形態では、細胞培養条件は、in vivoで疾患状態を予測する(例えば、in vivoで正確に同じ条件である必要はない)。細胞培養条件の選択は、疾患の進行をモデル化するための細胞を生成する際に有用であり得る。例えば、疾患がin vivoで進行するにつれて、対象の免疫応答系及び他の生物学的機能(オートファジーなど)が影響を受ける可能性がある(例えば、活性レベル及び分子出力の増加または減少)。in vivo条件を予測するか、またはエミュレートする細胞条件を選択することができる。例えば、培養条件及び製剤は、(1)in vivoで疾患周辺の対応する生理学的状態に依存せずにin vitroで疾患の進行を遅らせるか、もしくは加速するように、または(2)in vitroで既知の生理学的状態を模倣するために、特に、これらの状態が疾患の進行にどのように影響を与えるのかを理解するために、選択され得る。
【0159】
ステップ255の後、細胞改変システム206は、様々な細胞コホートが、疾患に関連する幅広い細胞表現型のin vitroモデルとして機能するように、様々な細胞コホート(例えば、遺伝子を示差的に発現する細胞、1つ以上の細胞型である細胞、及び環境模倣物に曝露された細胞)を生成する。
【0160】
ステップ260で、表現型アッセイシステム207は、様々な細胞集団に対して1つ以上の表現型アッセイを実行して、前例のない幅及びスケールで表現型アッセイデータを取得する(広範囲の細胞集団を考えると)。一般に、細胞は、細胞に対して1つ以上の表現型アッセイを実行することによって捕捉される細胞表現型を示し、1つ以上の表現型アッセイによって捕捉されたデータを、以降、表現型アッセイデータと呼ぶ。様々な実施形態において、表現型アッセイデータは、機械学習を実施する方法がなければ、細胞の表現型挙動に関連する可能性のある臨床表現型を予測することが困難であり得る高次元データを表す。様々な実施形態において、表現型アッセイシステム207は、異なる細胞集団にわたって表現型アッセイを実施する。
【0161】
様々な実施形態において、表現型アッセイシステム207は、異なる時点で単一細胞集団にわたって表現型アッセイを実施する(例えば、単一細胞集団が進行/発達するにつれて表現型アッセイデータを捕捉するために)。異なる時点での細胞からの表現型アッセイデータの取得は、細胞のin vitro発生または疾患の進行が類似のin vivoプロセスとどのように比較されるかを理解するのに役立ち得る。例えば、in vitroでの疾患の進行は、in vivoでの疾患の進行よりもはるかに速く生じ得る。いくつかのシナリオでは、様々な時点での表現型アッセイデータを捕捉すること(これは、in vitroでの疾患進行の細胞発生の様々な段階でのスナップショットを取得することを表す)により、in vitroでの細胞発生または疾患進行のどの段階が、特定のin vivo状態に対応するかをよりよく理解することができる。同様に、特定の段階でのin vitro細胞表現型アッセイデータは、in vivoで実施された同様の調査研究よりも細かいレベルの解像度で疾患の進行に関連する生物学的標的を特定するのに役立つ。いくつかのシナリオでは、異なる時点でのin vitro細胞から捕捉された表現型アッセイデータを、in vivo状態とアラインする必要はなく;むしろ、異なる時点で捕捉された表現型アッセイデータを基に、様々なin vivo状態を予測する必要があるに過ぎない。したがって、in vitro細胞から捕捉された表現型アッセイデータにより、in vivoの疾患状態を予測することができ、in vitroで正確な状態を再現することを必要とせずに、in vivoでの疾患の進行を理解することができる。
【0162】
一例として、高次元表現型アッセイデータは、画像データ、例えば、細胞または細胞集団から取り込まれた高解像度顕微鏡検査データまたは免疫組織化学画像データを含み得る。表現型アッセイデータの追加の例として、細胞配列決定データ、タンパク質発現データ、遺伝子発現データ、細胞代謝データ、細胞形態データ、または細胞相互作用データが含まれる。表現型アッセイデータのさらなる例として、心臓細胞の電気生理学的機能データ及び脳細胞の脳波(EEG)または皮質電図(ECoG)などの機能データが挙げられる。
図2Cに示すように、表現型アッセイの例には、ハイコンテントイメージング(例えば、細胞顕微鏡法)及び単一細胞RNA配列決定が含まれる。追加の表現型アッセイとして、ATACseq、タンパク質発現レベルを測定するためのアッセイ、RNA-FISH、及び他の疾患特異的アッセイが挙げられる。さらなる表現型アッセイは、以下にさらに詳細に記載されている。
【0163】
様々な実施形態において、表現型アッセイシステム207は、自動インフラストラクチャにおける別のステップとして、ハイスループット方式で表現型アッセイを実行する。例えば、表現型アッセイシステム207は、ハイスループット化合物プレート調製を行うことができる(いくつかの場合では、動的プレートバッチスケジューリング及び/またはオーバーナイト操作で)。表現型アッセイシステム207は、大容量のプレート(例えば、300枚以上のプレート)を扱うことができ、大容量のCO2インキュベーター、オン/オフプレート冷却、及び表現型アッセイを実行するためのハードウェア(例えば、免疫組織化学染色、顕微鏡、フローサイトメーター)をさらに含む。様々な実施形態において、表現型アッセイシステム207は、プール化光学スクリーニング、画像ベースのサイトメトリー、ハイコンテント画像アッセイ(例えば、細胞ペイント)、及び生細胞イメージングなどの様々なワークフローを可能にする。
【0164】
全体として、
図2Cに示すステップは、疾患の広範な細胞アバターからの表現型アッセイデータの捕捉をもたらす。各細胞アバターは細胞を表し、細胞の根底となる遺伝学及び細胞に提供される摂動によって定義される。表現型アッセイデータを使用して機械学習モデルをトレーニングし、細胞アバターの臨床表現型予測を行うことができる。
【0165】
細胞疾患モデルを生成するための機械学習モデルの実装方法
一般に、細胞疾患モデルシステム208は、1つ以上の細胞から捕捉された表現型アッセイデータに基づいて臨床表現型を予測する機械学習モデルをトレーニングする。機械学習モデルは、細胞疾患モデルの基礎として機能する予測を出力する。細胞疾患モデルシステム208は、細胞疾患モデルを展開してスクリーニングを実行する。
【0166】
本明細書において、機械学習モデル及び細胞疾患モデルを実装して、疾患に対して使用するための介入(例えば、薬物、遺伝子、または併用介入)を検証する方法を開示する。さらに、本明細書において、機械学習モデル及び細胞疾患モデルを実装して、介入に反応する可能性が高い患者集団を特定する方法を開示する。さらに、本明細書において、治療的介入として使用するための大規模な治療ライブラリで治療薬(例えば、薬物または遺伝子治療)を探索するための機械学習モデル及び細胞疾患モデルを実装する方法を開示する。選択された治療薬は、有効性を示す可能性が高く、毒性効果をもたらす可能性が低い。さらに、本明細書では、機械学習モデル及び細胞疾患モデルを実装して構造活性相関(SAR)スクリーニングを開発する方法を開示する。さらに、本明細書において、機械学習モデル及び細胞疾患モデルを実装して、その摂動が疾患を調節する可能性がある生物学的標的(例えば、遺伝子)を特定する方法を開示する。
【0167】
トレーニングデータの生成
本明細書において、機械学習モデルをトレーニングするために使用されるトレーニングデータを生成する方法について説明する。上記のように、トレーニングデータの生成に使用される疾患のin vitroモデルとして機能する広範囲の改変細胞を考慮して、トレーニングデータを、前例のない幅と規模で生成する。トレーニングが完了すると、機械学習モデルは、予測力が向上した表現型アッセイデータに基づいて臨床表現型を予測することができる。
【0168】
様々な実施形態において、トレーニングデータは、細胞(複数可)(例えば、単一細胞、細胞集団、複数の細胞集団)、細胞型(単一細胞型、細胞型の混合物)、細胞系統(例えば、異なる成熟段階または異なる疾患進行段階の細胞)、細胞培養(例えば、in vivo、in vitro 2D培養、in vitro 3D培養、またはin vitroオルガノイドもしくはオルガンオンチップシステム)、遺伝的マーカー(例えば、遺伝子型の範囲)、及び外部摂動(例えば、環境条件または薬剤)のいずれかの組み合わせに由来し得る。全体として、トレーニングデータは、様々な条件及び状況における様々な細胞の動作を反映する包括的なデータセットであり得る。
【0169】
様々な実施形態において、トレーニングデータは、細胞に由来する。様々な実施形態において、トレーニングデータは、細胞集団に由来する。様々な実施形態において、トレーニングデータは、複数の細胞集団に由来する。様々な実施形態において、細胞集団は、in vivo、in vitro 2D培養、in vitro 3D培養、またはin vitroオルガノイドもしくはオルガンオンチップシステムのうちの1つであり得る。いくつかの実施形態では、細胞集団は、単一の細胞型の細胞集団であり得る。いくつかの実施形態では、細胞集団は、細胞型の混合物を含み得る。例えば、細胞集団を、組織生検から取得してもよく、細胞集団は、複数の細胞型を含み得る。様々な実施形態において、細胞は体細胞である。様々な実施形態において、細胞は、分化した細胞である。様々な実施形態において、細胞は、初代細胞から分化している(例えば、分化転換)。様々な実施形態において、細胞は、幹細胞から分化している。様々な実施形態において、細胞は、人工多能性幹細胞(iPSC)から分化した細胞である。様々な実施形態において、細胞は、疾患と関連している。特定の実施形態では、細胞は神経細胞である。特定の実施形態では、細胞はミクログリアである。特定の実施形態では、細胞は星状細胞である。特定の実施形態では、細胞はオリゴデンドロサイトである。特定の実施形態では、細胞は肝細胞である。特定の実施形態では、細胞は肝星細胞(HSC)である。
【0170】
細胞をアッセイして、表現型アッセイデータを生成する。この表現型アッセイデータは、機械学習モデルをトレーニングして、少なくとも表現型アッセイデータと予測された臨床表現型との間の関係性を生成するために使用されるトレーニングデータを表す。様々な実施形態において、表現型アッセイデータは、機械学習モデルをトレーニングするために展開される前に、機械学習を使用して分類され得る。例えば、表現型アッセイデータを、疾患状態または非疾患状態に関連するものとして分類してもよい。
【0171】
好ましい実施形態では、表現型アッセイデータは、画像などの高次元データを含む。そのような実施形態では、表現型アッセイを実行することは、関連する健康または疾患の指標を画像に取り込むことができるように、画像化のために細胞を調製することを含む。様々な実施形態において、細胞の調製は、細胞を染色することを含み得る。
【0172】
一例として、蛍光イメージングの場合、蛍光タグ付き抗体(例えば、蛍光タグ付きの一次抗体及び二次抗体)を使用して細胞を染色することができる。特定の実施形態では、異なる細胞成分がその後に取り込まれた画像で容易に識別できるように細胞を染色することができる。例えば、細胞成分特異的染色を使用することができる(例えば、核染色にはDAPIまたはヘキスト、アクチン細胞骨格にはファロイジン、ゴルジ/原形質膜には小麦胚芽凝集素(WGA)、ミトコンドリアにはMitoFISH、脂肪滴にはBODIPY)。様々な実施形態において、蛍光色素は、蛍光の存在が特定の表現型の存在を示すようにプログラム可能であり得る。例えば、表現型の存在が蛍光レポーターの発現に対応するように、in vitro細胞を蛍光レポーター(例えば、緑色蛍光タンパク質レポーター)で処理してもよい。ここで、蛍光レポーターをコードするプラスミドを細胞に送達して、細胞を安定的にトランスフェクトし、遺伝子発現の尺度として機能させてもよい。したがって、蛍光レポータータンパク質の観察は、疾患の特定の表現型に対応する遺伝子の発現を示す。例えば、遺伝子に対応するタンパク質産物の過剰発現または発現不足は、疾患の存在を示し得る。様々な実施形態において、複数の細胞染色を、チャネル全体の干渉を制限して一緒に使用することができ、それにより、1つの画像でいくつかの異なる細胞成分を視覚化することが可能になる。例えば、細胞の調製には細胞ペインティングの使用が含まれる場合があり、これは、8つの細胞成分を識別するために5つのチャネルで画像化することができる6つの蛍光色素を多重化する形態学的プロファイリングアッセイである。細胞ペインティングの様々なバージョンを開発し、イメージングする細胞の種類に応じて使用することができる。例えば、脳細胞の場合、CellPaintのカスタムバージョン(以降では、NeuroPaintと呼ぶ)を使用して、脳細胞の様々な細胞成分を画像化することができる。画像は、共焦点イメージングや二光子顕微鏡法などの適切な蛍光イメージングを使用して捕捉することができる。
【0173】
別の例として、免疫組織化学イメージングでは、ヘマトキシリン/エオシン染色を使用して細胞を染色することができる。画像は、明視野顕微鏡法及び位相差顕微鏡法を含む任意の適切な顕微鏡法を使用して捕捉することができる。
【0174】
曝露反応表現型
本明細書で説明するように、トレーニングデータは、1つ以上の曝露反応表現型(ERP)にわたるデータを含み得る。ERPは、関心のある臨床的エンドポイント(例えば、線維症の進行、脂肪症、肝細胞のバルーニング、または小葉の炎症)のin vitroモデルにおける健康及び疾患の代理ラベルとして機能する。一般に、ERPにより、疾患のin vitroモデリングが可能となることから、ERPは有用である。様々な実施形態において、ERPは、摂動因子(例えば、環境因子、薬剤、例えば、化学剤、分子介入、または遺伝子編集剤のいずれか)を用いて疾患のin vitroモデリングを可能にし、これにより、細胞は、疾患を示す表現型の特徴を示す。これにより、in vitro疾患プロセスの制御が可能になる。例えば、高濃度の摂動因子を提供すると、より重篤な疾患状態を誘発し得る一方で、低濃度の摂動因子は、重症度の低い疾患状態を誘発し得る。さらに、ERPは、様々な遺伝的バックグラウンドを有する細胞のモデルを表す(例えば、細胞のアバター)。言い換えると、ERPは、様々な遺伝的バックグラウンドを有するヒト個体の疾患のin vitroモデルを表すことができる。細胞の特定の疾患状態は、細胞から捕捉された表現型アッセイデータを介して調べることができる。したがって、表現型アッセイデータから疾患表現型への学習可能な関係が存在する可能性がある。
【0175】
一般に、様々な疾患の対象となる様々な臨床エンドポイントに対して、様々なERPを構築する。様々な実施形態において、ERPを検証することは、ERPの表現型アッセイデータ(例えば、画像からの細胞表現型、RNA-seqなどのヒト遺伝子発現データ)を、疾患を有するか、または有さないことが知られている細胞から捕捉した対応する表現型アッセイデータと比較することを含む。例えば、検証済みのERPには、疾患を有することが知られている細胞から捕捉された表現型アッセイデータとより密接にアラインし、疾患を有していないことが知られている細胞から捕捉された表現型アッセイデータとはあまりアラインしない表現型アッセイデータが含まれる。したがって、各ERPは、一度検証されると、様々な疾患について関心のある様々な臨床エンドポイントのin vitroモデルを正確に提供する。検証済みのERPは、疾患の複雑さによって異なり得る。例えば、第1の疾患の場合、特定の遺伝子変化がその疾患の主な原因となり得る。したがって、特定の遺伝子変化を含めることにより、第1の疾患の検証済みERPは、疾患を正確にモデル化することができる。別の例として、第2の疾患は、摂動因子の合流により誘発され得る(例えば、遺伝的変化、環境因子などの組み合わせ)。したがって、第2の疾患のERPの検証は、第2の疾患のERPが第2の疾患のin vitroモデルを正確に提供することを検証するために、より複雑になり得る。様々な実施形態において、ERP(例えば、第2の疾患のためのERP)の複雑な検証は、疾患状態に対する異なる摂動因子(例えば、遺伝的変化、環境因子など)の相対的な寄与を分析し、理解することを含み得る。したがって、疾患状態に対する様々な摂動の相対的な寄与を考えると、摂動を調整して(例えば、追加、除去、濃度の増加、または濃度の減少)、ERPのin vitroモデリングの精度をさらに向上させることができる。様々な実施形態において、ERP(例えば、第2の疾患のERP)の複雑な検証は、摂動因子が本当に疾患関連状態を誘発しているというさらなるエビデンスを収集することを含み得る。例えば、これには、疾患状態の臨床転写シグネチャ(例えば、疾患を有するか、または疾患状態にあることが知られている細胞からの転写シグネチャ)を分析して、臨床転写シグネチャにおいてERPのシグネチャが富んでいることを確認することが含まれる。
【0176】
検証済みのERPがあれば、これを活用して、この疾患に関与している可能性のある他の細胞プロセスを特定することができる。例えば、機械学習モデルは、モデルが疾患の表現型のトレースを区別できるように、ERPでトレーニングされる。したがって、特定の細胞プロセスを調節することにより、疾患の表現型のトレースを示すように細胞が誘導される場合(摂動因子を使用しなくても)、その細胞プロセスもまた、疾患に関与している可能性が高い。したがって、細胞プロセスは、調節の標的となり得、疾患の進行を遅らせたり、停止させたり、逆転させたりすることができる。例えば、遺伝的バリアントの存在により、疾患の表現型のトレースを示すように細胞が誘導される場合(ERPでトレーニングされた機械学習モデルによって認識されるように)、その遺伝的バリアントは、疾患を治療するための可能な生物学的標的として同定され得る。
【0177】
様々な実施形態において、ERPは、特定の摂動を使用して摂動された様々な細胞から捕捉された表現型アッセイデータを含む。様々な実施形態において、特定の摂動とは、対象の臨床エンドポイントに関連する疾患状態に細胞を誘導する摂動を指す。この疾患の状態では、細胞は疾患の細胞表現型を示すことができる。
【0178】
様々な実施形態において、摂動因子は、疾患において役割を果たし、したがって、摂動因子によって誘発される疾患の表現型のトレースは、特定の臨床的エンドポイントのアンカー表現型として有益であり得る。例えば、線維症進行の臨床的エンドポイントに関して、TGFβ摂動因子は、線維症の疾患状態の誘発において役割を果たし得る。したがって、アンカー表現型は、TGFβへの細胞の曝露に起因する疾患の表現型のトレースによって表される。様々な実施形態において、アンカー表現型は、他の摂動因子に対応する追加のERPを開発するための陽性対照として機能する。
【0179】
様々な実施形態において、細胞は、異なる遺伝的バックグラウンドの細胞である。例えば、細胞は、異なる細胞アバターに対応し、したがって、細胞の異なる遺伝的バックグラウンドは、異なる細胞表現型に寄与し得る。様々な実施形態において、ERPは、様々な濃度の摂動を用いて摂動された異なる細胞に由来する表現型アッセイデータを含む。摂動の濃度は、例えば、0.1ng/mL、0.2ng/mL、0.3ng/mL、0.4ng/mL、0.5ng/mL、0.6ng/mL、0.7ng/mL、0.8ng/mL、0.9ng/mL、1ng/mL、2ng/mL、3ng/mL、4ng/mL、5ng/mL、6ng/mL、7ng/mL、8ng/mL、9ng/mL、10ng/mL、15ng/mL、20ng/mL、25ng/mL、30ng/mL、35ng/mL、40ng/mL、45ng/mL、50ng/mL、60ng/mL、70ng/mL、75ng/mL、80ng/mL、90ng/mL、100ng/mL、150ng/mL、200ng/mL、250ng/mL、300ng/mL、350ng/mL、400ng/mL、450ng/mL、500ng/mL、600ng/mL、700ng/mL、800ng/mL、900ng/mL、1μg/mL、2μg/mL、3μg/mL、4μg/mL、5μg/mL、6μg/mL、7μg/mL、8μg/mL、9μg/mL、10μg/mL、15μg/mL、20μg/mL、30μg/mL、40μg/mL、50μg/mL、60μg/mL、70μg/mL、80μg/mL、90μg/mL、100μg/mL、150μg/mL、200μg/mL、250μg/mL、300μg/mL、350μg/mL、400μg/mL、450μg/mL、500μg/mL、550μg/mL、600μg/mL、700μg/mL、800μg/mL、900μg/mL、または1mg/mLのいずれかであり得る。特定の実施形態では、摂動の濃度は0.1ng/mLである。特定の実施形態では、摂動の濃度は5ng/mLである。特定の実施形態では、摂動の濃度は10ng/mLである。
【0180】
特定の実施形態では、ERPは、摂動の異なる濃度を使用して処理された異なる遺伝的バックグラウンドの細胞に由来する膨大な量の表現型アッセイデータを含む。全体として、ERPのトレーニングデータを使用してトレーニングされた機械学習モデルは、少なくとも1)異なる遺伝的バックグラウンドと2)摂動の異なる濃度の異なる組み合わせから生じる細胞の表現型の違いを区別することができる。言い換えれば、機械学習モデルは、細胞の様々な遺伝学と摂動の様々な濃度の組み合わせから生じる表現型アッセイのパターンを学習する。様々な実施形態において、機械学習モデルは、複数のERPにわたるトレーニングデータを使用してトレーニングされる。したがって、このような機械学習モデルは、少なくとも1)異なる遺伝的バックグラウンド、及び2)異なる摂動の異なる濃度から生じる細胞の表現型の違いを区別することができる。
【0181】
具体的な例として、NASH線維症進行の臨床エンドポイントを考えると、肝星細胞(HSC)活性化を引き起こす摂動であるTGFβにさらされた細胞から表現型アッセイデータを生成することによって、ERPを生成することができる。異なる濃度のTGFβは、異なる細胞表現型を示すように細胞を誘導することができる。したがって、TGFβのERPには、細胞から捕捉された表現型アッセイデータが含まれる(例えば、画像によって捕捉された異なる細胞形態、またはscRNA-seqによって捕捉された異なる細胞転写特性)。したがって、TGFβのERPでトレーニングされた機械学習モデルは、表現型アッセイデータで明らかな細胞表現型を区別する予測または埋め込みを生成することができる。そのような機械学習モデルは、疾患状態の細胞(例えば、TGFβ処理によるHSC活性化によって証明される線維化進行の疾患状態)とより健康な状態の細胞(例えば、TGFβ処理していない細胞に対応する健康状態)を区別することができる。この場合、機械学習モデルの予測または埋め込みを使用して、表現型アッセイデータのパターンを視覚的に識別することができる。例えば、埋め込みは、疾患状態(埋め込みの特定の位置に位置する)から疾患の少ない状態(埋め込みの異なる位置に位置する)に細胞を戻す治療薬を特定するのに有用であり得る。
【0182】
細胞疾患モデルの生成のための機械学習モデルのトレーニング
一般に、
図1Aを参照して上述した機械学習モデル140などの機械学習モデルは、細胞疾患モデルを展開する際に使用される予測を生成するようにトレーニングされる。様々な実施形態において、機械学習モデルは、回帰モデル(例えば、線形回帰、ロジスティック回帰、または多項式回帰)、決定木、ランダムフォレスト、サポートベクターマシン、単純ベイズモデル、k平均法クラスタ、またはニューラルネットワーク(例えば、フィードフォワードネットワーク、畳み込みニューラルネットワーク(CNN)、ディープニューラルネットワーク(DNN)、オートエンコーダーニューラルネットワーク、敵対的生成ネットワーク、または再帰型ネットワーク(例えば、長・短期記憶ネットワーク(LSTM)、双方向リカレントネットワーク、深層双方向リカレントネットワーク)のうちのいずれか1つである。
【0183】
機械学習モデルは、線形回帰アルゴリズム、ロジスティック回帰アルゴリズム、決定木アルゴリズム、サポートベクターマシン分類、ナイーブベイズ分類、K最近傍分類、ランダムフォレストアルゴリズム、深層学習アルゴリズム、勾配ブースティングアルゴリズム、ならびに次元縮退手法、例えば、多様体学習、主成分分析、因子分析、オートエンコーダー正則化、及び独立成分分析、またはそれらの組み合わせのうちののいずれかなど、機械学習で実装された方法を使用してトレーニングすることができる。様々な実施形態において、機械学習モデルは、教師あり学習アルゴリズム、教師なし学習アルゴリズム、半教師あり学習アルゴリズム(例えば、部分教師あり)、弱い教師あり、転送、マルチタスク学習、またはそれらの任意の組み合わせを使用してトレーニングされる。
【0184】
様々な実施形態において、機械学習モデルは、ハイパーパラメータまたはモデルパラメータなどの1つ以上のパラメータを有する。ハイパーパラメータは通常、トレーニングの前に確立される。ハイパーパラメータの例として、学習率、決定木の深さまたは葉、ディープニューラルネットワークの隠れ層の数、k平均法クラスタのクラスタ数、回帰モデルのペナルティ、及びコスト関数に関連付けられた正則化パラメータが挙げられる。モデルパラメータは通常、トレーニング中に調整される。モデルパラメータの例として、ニューラルネットワークの層のノードに関連付けられた重み、サポートベクターマシンのサポートベクター、回帰モデルの係数が含まれる。機械学習モデルのモデルパラメータは、トレーニングデータを使用してトレーニング(例えば、調整)され、機械学習モデルの予測力が向上する。
【0185】
様々な実施形態において、機械学習モデルは、臨床エンドポイントのために開発された1つ以上の曝露反応表現型(ERP)にわたるトレーニングデータを使用してトレーニングされる。本明細書でさらに詳細に説明するように、ERPは、個々の摂動(例えば、曝露)に特異的であり、したがって、対象の臨床エンドポイントのin vitroモデルにおける健康及び疾患の代理ラベルとして機能する。様々な実施形態において、ERPは、アンカー表現型を発現する細胞に由来する表現型アッセイデータを含み得、これは、細胞を特定の摂動にさらすことによって誘発された疾患の検証された表現型のトレースを含む細胞表現型である。例えば、線維症進行の臨床エンドポイントに関して、TGFβ摂動因子は、線維症の疾患状態を誘発する。したがって、アンカー表現型は、TGFβへの細胞の曝露に起因する疾患の表現型のトレースによって表される。
【0186】
様々な実施形態において、機械学習モデルは、少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、または少なくとも20個のERPにわたるトレーニングデータを使用してトレーニングされる。特定の実施形態では、機械学習モデルは、5つのERP(したがって、5つの異なる曝露)にわたるトレーニングデータを使用してトレーニングされる。特定の実施形態では、機械学習モデルは、10個のERP(したがって、10個の異なる曝露)にわたるトレーニングデータを使用してトレーニングされる。特定の実施形態では、機械学習モデルは、20個のERP(したがって、20個の異なる曝露)にわたるトレーニングデータを使用してトレーニングされる。特定の実施形態では、機械学習モデルは、50個のERP(したがって、50個の異なる曝露)にわたるトレーニングデータを使用してトレーニングされる。特定の実施形態では、機械学習モデルは、100個のERP(したがって、100個の異なる曝露)にわたるトレーニングデータを使用してトレーニングされる。
【0187】
様々な実施形態において、表現型アッセイデータは、機械学習モデルへの入力として提供される。例えば、機械学習モデルがニューラルネットワークである実施形態では、表現型アッセイデータをニューラルネットワークへの入力として提供することができ、次いでニューラルネットワークは、臨床表現型を区別するために、最も関連する表現型アッセイデータの特徴を特定する。様々な実施形態において、表現型アッセイデータのタイプは、機械学習モデルの特徴として機能する。したがって、機械学習モデルの特徴には、細胞配列決定データ、タンパク質発現データ、遺伝子発現データ、画像データ(例えば、高解像度顕微鏡データまたは免疫組織化学データ)、細胞代謝データ、細胞形態データ、または細胞相互作用データが含まれ得る。様々な実施形態において、機械学習モデルは追加の特徴を含み得る。例えば、追加の特徴は、細胞に提供される1つ以上の摂動因子(例えば、薬剤または環境条件)を含み得る。さらに追加の特徴には、1人以上の対象(例えば、細胞を採取した対象)、または細胞を採取した対象と類似の遺伝的バックグラウンドまたは臨床歴を有する対象に由来する臨床データ(例えば、病歴、年齢、ライフスタイル要因など)を含めることができる。
【0188】
様々な実施形態において、表現型アッセイデータは、機械学習モデルへの入力として提供される前に加工される。一実施形態では、表現型アッセイは画像であり、機械学習モデルのために調製することができる。例えば、機械学習モデルに入力する前に、画像をタイルに分割し、及び/または画像内の要素をラベル付けすることができる(例えば、ラベル付けされた細胞型、ラベル付けされた細胞の境界など)。いくつかの実施形態では、表現型アッセイデータを、機械学習モデルへの入力として提供される数値表現(例えば、数値ベクトル)にエンコードすることができる。様々な実施形態において、数値ベクトルは、特徴の値を含み、これにより、数値ベクトル内の特徴の値に従って機械学習モデルをトレーニングすることができる。様々な実施形態において、表現型アッセイデータを数値表現にコード化することは、表現型アッセイデータを数値ベクトルに編成、正規化、変換(例えば、対数関数の適用)、または組み合わせることのうちのいずれか1つを含む。
【0189】
様々な実施形態において、機械学習モデルをトレーニングするために使用されるトレーニングデータは、表現型アッセイデータが由来する細胞の遺伝学を含む(例えば、ステップ250で細胞を疾患115の遺伝的構造とアラインするための遺伝子編集)。様々な実施形態において、トレーニングデータは、表現型アッセイデータが由来する細胞に対して実行された摂動及び/または改変の特定を含む(例えば、ステップ255で細胞コホートを改変するために実行された改変)。特定の実施形態では、機械学習モデルをトレーニングするために使用されるトレーニングデータは、細胞の遺伝学、細胞に対して行われた摂動及び/または改変、ならびに細胞から収集した表現型アッセイデータのそれぞれを含む。
【0190】
これらの実施形態における入力ベクトルの例は、以下の通りである:
【0191】
一実施形態では、機械学習モデルのモデルパラメータは、教師あり学習を使用してトレーニングされる。一例として、機械学習モデルのモデルパラメータを調整して、機械学習モデルの予測とトレーニングデータの参照グラウンドトゥルースとの間の差を表す誤差を最小化することができる。
【0192】
様々な実施形態において、トレーニングデータの参照グラウンドトゥルースは、ヒトの転帰データセットから得られる既知の結果によって表され得る。ヒトの転帰データセットには、参照グラウンドトゥルースとして機能する各患者のラベルが含まれ得る。例えば、ヒトの転帰データセットで特定された各患者について、その患者が健康であるか疾患を有するかを特定することができる。様々な実施形態において、患者には、健康と疾患とを区別するバイナリ値を割り当てることができる(例えば、0=健康、1=疾患)。いくつかの実施形態では、ヒト転帰データセットは、患者の疾患状態を連続値(例えば、0~1)として特定し得る。連続値は、疾患の重症度または疾患の発症可能性などの疾患のレベルを表現し得る。様々な実施形態において、トレーニングデータの参照グラウンドトゥルースは、
図2Bを参照して上述した個体210などの疾患の患者から導き出すことができる。例えば、個体210を、健康であるか、または疾患を有すると臨床的に診断することができ、参照グラウンドトゥルースは、個体210の健康/疾患状態を反映する。
【0193】
様々な実施形態において、参照グラウンドトゥルースは、遺伝的リスクに基づいて疾患を発症するリスクのレベルを表す連続値であり得る。例えば、遺伝的リスクは、疾患に関連する高リスクバリアントの有無に依存する疾患の多遺伝子リスクスコアであり得る。様々な実施形態において、高リスクバリアントは、浸透度の高いバリアントである。
【0194】
一実施形態では、機械学習モデルは、生成されたデータを参照グラウンドトゥルースデータなどの検証済みトレーニングデータとアラインすることによってトレーニングされる。例えば、このアプローチは、各細胞アバターが、1つ以上の臨床表現型(例えば、参照グラウンドトゥルース)が利用可能なヒトを表す場合に使用することができる。この場合、機械学習モデルは、標準的なML実装方法を使用してトレーニングすることができる。様々な実施形態において、各トレーニング例は、(xi、yi)ペアのセットであり、xiは、少なくとも細胞アバターに対応する情報(例えば、細胞アバターの遺伝学、適用された摂動、捕捉された細胞アバターの細胞に由来する表現型アッセイデータ)が組み込まれたベクトルであり、yは、参照グラウンドトゥルース(例えば、臨床表現型)を特徴付けるベクトルである。
【0195】
一実施形態では、機械学習モデルは、遺伝的に定義されるリスクを参照グラウンドトゥルースとして使用してトレーニングされる。この場合、遺伝子配列から遺伝的に定義されるリスク(risk(g))は、根底となる遺伝学から測定される疾患負荷と相関し得る。疾患負荷は、疾患リスク、疾患の重症度、速度または疾患の進行、発症年齢などのいずれか1つを表し得る。リスクの定量化は、影響が小さい複数の対立遺伝子(例えば、多遺伝子リスクスコア)、影響が大きい少数の対立遺伝子(例えば、1つ以上のメンデル病のバリアント)、またはそれらの任意の組み合わせに基づき得る。この場合、機械学習モデルは、標準的なML実装方法を使用してトレーニングすることができる。様々な実施形態において、各トレーニング例は、(xi、yi)ペアのセットであり、xiは、少なくとも細胞アバターに対応する情報(例えば、細胞アバターの遺伝学、適用された摂動、捕捉された細胞アバターの細胞に由来する表現型アッセイデータ)が組み込まれたベクトルであり、yは、参照グラウンドトゥルースを特徴付けるベクトルであり、これは、各細胞アバターaについてのリスク(例えば、risk(g{ai}))である。いくつかの実施形態では、risk(g{ai})は、単一のリスク因子を定義するスカラー値である。他の実施形態では、risk(g{ai})は、複数の関連する表現型のリスクを定義するベクトルである。
【0196】
一実施形態では、機械学習モデルは、「細胞転帰マーカー」とも呼ばれる臨床表現型の原因となる細胞表現型を使用してトレーニングされる。細胞転帰マーカーの例として、神経変性疾患に関連する神経細胞死、線維性疾患に関連するコラーゲン蓄積、及び心疾患に関連する不整脈が挙げられる。機械学習モデルは、標準的なML実装方法を使用してトレーニングすることができる。様々な実施形態において、各トレーニング例は、(xi、yi)ペアのセットであり、xiは、少なくとも細胞アバターに対応する情報(例えば、細胞アバターの遺伝学、適用された摂動、捕捉された細胞アバターの細胞に由来する表現型アッセイデータ)が組み込まれたベクトルであり、yは、参照グラウンドトゥルースを特徴付けるベクトルであり、これは、各細胞アバターaについての細胞転帰マーカー(例えば、marker{ai})である。この場合、xi内の情報にmarker{ai}を含めることは、機械学習モデルがこれらの値の間に直接的な相関関係を認識するようにトレーニングされるため、できない。例えば、神経細胞死に関して、xiの表現型アッセイデータに、神経細胞死を表す表現型アッセイデータを含めることはできない。様々な実施形態において、表現型アッセイデータは、最終的な細胞死に先行する時点でニューロンから捕捉することができる。いくつかの実施形態では、表現型アッセイデータは、marker{ai}よりもかなり詳細であり、これにより追加の疾患関連構造の同定が可能になる。
【0197】
一実施形態では、機械学習モデルは、疾患進行の段階によって表される臨床表現型を予測するようにトレーニングされ得る。疾患の進行のin vivo段階を予測することができる機械学習モデルは、いつ介入を提供するか、いつそのような介入が予防的で、いつそのような介入が治癒的であるかを決定するなどの目的に有用であり得る。例えば、in vitroで検出可能な疾患の進行状態は、(1)前兆状態の知識に基づいて予測可能であり得るか、または(2)完全な疾患発症前の介入の可能性(すなわち、予防的介入)を提供し得る。さらに、(1)の前兆状態に関連するか、または(2)のin vitroで検出可能な細胞表現型に関連するユニークなバイオマーカーを理解することで、他の臨床転帰について、疾患に影響を与えたり予測を行ったりするためのより広い範囲の可能性に対するより強力な洞察が可能になり得る。
【0198】
いくつかの実施形態では、細胞のin vitro発生の各段階に、in vivoでの疾患進行の異なる段階に対する対応値が割り当てられる。機械学習モデルは、表現型アッセイデータを分析し、in vitro細胞における疾患進行の対応値をin vivoで測定された疾患進行にマッピングする。測定されたin vivo疾患進行データは、(1)フロントエンドモデル入力、例えば、機械学習モデルへの入力データとして使用される臨床対象データ、または(2)スクリーニングデータへのモデル適用、例えば、臨床転帰のスクリーニングと予測のために疾患の細胞モデルに提供される候補対象データのいずれかに由来し得る。したがって、in vitro表現型アッセイデータとin vivo疾患進行段階との間のこれらのマッピングは、細胞疾患モデルを適用することによって実行されるその後のスクリーニングに情報を提供することができる。
【0199】
好ましい実施形態では、機械学習は、疾患の有無などの臨床転帰に基づいて、高次元画像(例えば、蛍光画像または免疫組織化学画像)などの表現型アッセイデータを分類できる深層学習ニューラルネットワークである。深層学習ニューラルネットワークをトレーニングするために、各高次元画像に臨床表現型(例えば、健康または疾患)のラベルを付け、深層学習ニューラルネットワークをトレーニングしてその臨床表現型予測を向上させる。様々な実施形態において、損失関数を使用し、損失は、深層学習ニューラルネットワークの予測と各画像の臨床表現型ラベルとの間の差であるペナルティを表す。したがって、損失を逆伝播させることができ、損失を最小限に抑えるためにニューラルネットワークの重みとバイアスを調整する。様々な実施形態において、深層学習ニューラルネットワークは、TensorFlow、Keras、Pytorch、Torch、Theano及びCaffeなどの主要な深層学習プラットフォームのいずれかを組み込むことができる。したがって、トレーニング済みの機械学習モデルは、表現型アッセイデータ(例えば、画像)の高次元データを低次元出力(例えば、予測された臨床表現型)にアラインする関係性を含む。
【0200】
全体として、機械学習モデルは、画像で観察可能な細胞表現型に基づいて、臨床表現型(例えば、健康対疾患)を区別することができる。一例として、画像は、例えば、異なる細胞成分が区別可能な蛍光画像であってもよい。一実施形態では、ニューラルネットワークは、疾患に関与する疾患関連細胞成分など、疾患のシグネチャを特定することができる。一実施形態では、ニューラルネットワークは、疾患関連細胞表現型の発現に関連する、導入された根底にある遺伝子変化を明らかにすることができる。例えば、ニューラルネットワークは、画像化された細胞が特定の遺伝的変化で改変された画像全体にわたって、疾患に関連する細胞表現型が明白であることを明らかにすることができる。したがって、遺伝的変化自体は、その後、疾患の治療のために(例えば、遺伝子介入を使用して)標的とすることができる疾患発現のシグネチャであり得る。
【0201】
図3Aは、一実施形態による、機械学習モデルをトレーニングして細胞疾患モデルを生成するためのトレーニングデータの例を示す。この特定の実施形態では、トレーニングデータは、細胞の遺伝学、細胞に適用された摂動因子、及び細胞から捕捉された表現型アッセイデータのそれぞれによって特徴付けられる細胞アバターのトレーニングデータを表す。
図3Aに示すように、各行は、細胞(例えば、細胞1、細胞2、細胞3、細胞4など)に対応するトレーニング例を含む。各細胞は、疾患の遺伝的構造、例えば、原因要素1、原因要素2、原因要素3、及び原因要素4とアラインする対応する遺伝学を有する。さらに、異なる細胞に適用される摂動因子の例として、低酸素状態、遊離脂肪酸、脂質、及び治療薬が挙げられる。
図3Aのトレーニングデータに含まれる表現型アッセイデータの例として、画像1、画像2、画像3、及び画像4によって示される顕微鏡検査データが挙げられる。さらに、各細胞のトレーニングデータは、細胞が疾患の対象に由来するか(例えば、「1」のバイナリ値として示される)、または健康な対象に由来するか(例えば、「0」のバイナリ値として示される)を示す参照グラウンドトゥルース(例えば、臨床表現型)を含む。グラウンドトゥルースは、トレーニング例の細胞に関連付けられた、以前に決定された臨床表現型であり得る。臨床表現型の例は、細胞が代表する個体210の臨床表現型212(
図2B参照)であり得る。細胞のトレーニングデータ(例えば、
図3Aの行のトレーニングデータ)または細胞のトレーニングデータのエンコードされた数値表現を、機械学習モデルへの入力として提供し、機械学習モデルのパラメータを調整することができる。したがって、複数の反復にわたって(例えば、
図3Aの行の複数のトレーニングデータにわたって)、機械学習モデルは、疾患の有無の予測など、予測する臨床表現型をより正確に出力するようにトレーニングされる。
【0202】
様々な実施形態において、機械学習モデルの予測の品質を使用して、実験パラメータをさらに特定することができ、それにより、それらの実験パラメータに焦点を当てたより多くのトレーニングデータを生成して、機械学習モデルをさらにトレーニングすることができる。実験パラメータの例として、細胞の種類、環境条件、細胞培養条件(例えば、2D培養対3D培養、酸素及び/または二酸化炭素の濃度)、細胞分化プロトコル(例えば、成熟までの日数、播種濃度、培地交換までの日数)が挙げられる。したがって、これらの特定された実験パラメータに焦点を当てた追加のトレーニングデータを生成して、機械学習モデルをさらにトレーニングし、機械学習モデルの予測力を高めることができる。
【0203】
様々な実施形態において、異なる機械学習モデルを生成することができ、各細胞疾患モデルは特定のクラスのモデルである。機械学習モデルの特定のクラスは、特定の細胞型、疾患状態を促進するために使用する環境模倣物、実施する特定のタイプの測定(例えば、どのチャネルを顕微鏡によって測定するか)、表現型アッセイデータを捕捉する特定の時点、機械学習モデルのタイプ、及び機械学習モデルを特徴付ける主要なハイパーパラメータ(例えば、ニューラルネットワークのレイヤー数、ドロップアウト率、特定のユニットのタイプなど)を指し得る。例えば、機械学習モデルの第1のクラスを使用して、肝細胞に対応する細胞アバターのデータを分析することができ、一方、機械学習モデルの第2のクラスを使用して、ニューロンに対応する細胞アバターのデータを分析することができる。様々なクラスの機械学習モデルを実装することにより、各クラスのモデルは、そのクラスに関連するデータを分析する場合に、より正確にスクリーニングを実行することができる。
【0204】
いくつかの実施形態では、異なる機械学習モデルが、重複する構成要素を有し得る。これは、機械学習モデルを実装して安全性または毒性を評価する場合に有用であり、これにより、様々なクラスにわたる広範なデータが活用される。いくつかの実施形態では、単一の疾患徴候の予測を行う目的に、異なる機械学習モデル(例えば、異なる細胞型、条件、表現型アッセイを含むモデル)を組み合わせることができる。
【0205】
機械学習モデルをトレーニングするためのフロープロセス
図3Bは、一実施形態による、機械学習モデルをトレーニングするための流れ図を示す。ステップ310は、疾患に関連する細胞を取得することを含む。様々な実施形態において、細胞は、iPSCに由来し得、上記のように、疾患の遺伝的構造とアラインする。ステップ320は、細胞が疾患細胞表現型を発現するように細胞を改変することを含む。様々な実施形態において、細胞集団を改変することは、細胞を薬剤または環境条件に曝露することを含む。ステップ330は、細胞から表現型アッセイデータを捕捉することを含む。ステップ340は、表現型アッセイデータを分析して、後で細胞疾患モデルに使用することができる予測(例えば、機械学習モデルの予測)を生成することを含む。
【0206】
機械学習モデルの例示的な予測
一般に、機械学習モデルの予測には、少なくとも細胞表現型アッセイデータに基づく臨床表現型の予測が含まれる。
図1Bで上述したように、予測は、細胞疾患モデルの一部として機能し、したがって、細胞疾患モデルが展開されて治療検証スクリーニングなどのスクリーニングを実行する場合に使用される。
【0207】
様々な実施形態において、機械学習モデルの予測は、疾患の特定の徴候に対する遺伝的関連性、疾患の臨床表現型に関与する生物学的標的、または疾患に対して治療的に有効であり得る介入など、これまで認識されていなかった疾患の特徴を示唆し得る。そのような介入は、その後、細胞疾患モデルを実装することによって検証することができる。例えば、これまで認識されていなかった疾患の特徴を特定するために、機械学習モデルを分析して、異なる臨床表現型(例えば、健康な表現型と疾患の表現型)を区別する上でどの疾患の特徴が重要であったかを判断することができる。言い換えれば、機械学習モデルが「アテンション」を向けた特徴は、いくつかの状況では、疾患の重要な特徴であり得る。疾患のこれらの特徴は、可能な介入を特定するうえで有用である。例えば、スクリーニングのために選択された介入は、機械学習モデルによって特定された疾患の重要な特徴と同じ経路にある遺伝子またはタンパク質を調節する介入であり得る。
【0208】
特定の実施形態では、機械学習モデルの予測は、表現型多様体への埋め込みとして表される。この場合、埋め込みには、表現型アッセイデータの高次元空間から削減された低次元空間で編成された臨床表現型予測の配置が含まれる。臨床表現型予測の編成は、いくつかのシナリオでは、表現型アッセイの群で検出された患者コホートまたはバイオマーカーを予測する。例えば、互いに類似している臨床表現型予測(例えば、根底となる表現型アッセイデータが互いに類似している)は、互いに近接して配置される。対照的に、異なる臨床表現型予測は、互いにより遠位に配置される。したがって、近位に位置する臨床表現型予測に対応する表現型アッセイデータの調査は、それらの同様の臨床表現型予測をもたらした一般的な表現型の特徴を明らかにすることができる。
【0209】
様々な実施形態において、埋め込みは、疾患の治療に有用であり得る治療薬を特定するうえで有用である。例えば、治療薬を使用して細胞を処理すると、多様体埋め込み内の細胞の位置が健康なクラスタにより近くなり得る。言い換えれば、未処理細胞は、疾患状態を示す表現型多様体内の第1の位置に位置し得る。治療薬を使用した治療後、細胞の表現型は、疾患の少ない状態を示す多様体内の異なる位置に向かって押し出される。したがって、治療薬は、細胞の細胞表現型をより少ない疾患状態に変化させることによって細胞表現型に影響を与えると予測される場合に選択され得る。
【0210】
図3C及び
図3Dは、一実施形態による、表現型多様体370上の埋め込みの形で具現化された例示的な予測を示す。表現型多様体では、予測はそれらの類似性に従って編成される(例えば、同様のデータのクラスタは、表現型多様体においてより近くに編成される)。例えば、
図3Cは、それらの対応する表現型アッセイデータにおいて認められた類似性に従った予測の異なるクラスタを示す。クラスタ375は、健康な表現型を発現する細胞に対応する予測のクラスタであり得、クラスタ380A、380B、及び380Cは、表現型の差異を引き起こした改変または摂動にさらされた健康な細胞に対応する予測を指す。したがって、機械学習モデルは、クラスタ380A、380B、及び380C間のこれらの表現型の差異を明らかにし、それらを表現型多様体に別々に編成することができる。さらに、クラスタ385A、385B、及び385Cは、疾患表現型のトレースを示す疾患細胞を表し得る。
【0211】
図3Cに示すように、クラスタ380A、380B、及び380Cは、クラスタ375の健康な細胞とクラスタ380A、380B、及び380Cの細胞との間で共有される表現型の類似性により、健康な細胞を表すクラスタ375の近位に位置する。疾患のクラスタ385A、385B、及び385Cは、健康なクラスタ375の細胞と疾患のクラスタ385A、385B、及び385Cの疾患の細胞との間のより多くの表現型の差異のために、表現型多様体上で健康なクラスタ375から遠位に位置する。
【0212】
予測を構成することで、特定の標的(例えば、遺伝的標的、生物学的標的)またはバイオマーカーを特定することができる。これらは、効果的に標的にされた場合、細胞のある状態から別の状態への遷移を示す表現型の変化を引き起こし得る。
図3Dに示すように、予測の編成により、一度調節されると、疾患の細胞を健康な細胞に戻すことができる標的の特定が可能になる。より具体的には、疾患の表現型のトレースを発現する疾患のクラスタ385A、385B、及び385Cの疾患細胞は、健康なクラスタ375の細胞で観察される健康なまたはより健康な表現型の性質を発現する状態に戻ることができる。様々な実施形態において、特定された標的の調節は、疾患クラスタ385A、385B、及び385Cを健康なクラスタ375に戻すのではなく、疾患の進行を遅らせるかまたは停止させる。
【0213】
様々な実施形態において、機械学習モデルが健康な細胞を疾患の細胞から区別するために使用した表現型の特徴に基づいて、表現型多様体から標的を特定することができる。例えば、健康な細胞と疾患の細胞を区別するために重要な特徴には、機械学習モデルによって大きな重みが割り当てられている可能性がある。いくつかの実施形態では、表現型多様体内のクラスタのそれぞれに対応する表現型アッセイデータを、健康な細胞と疾患の細胞とを区別する表現型の特徴について分析することができる。特定の例を提供するために、NASHに関して、機械学習モデルは、細胞核に対する脂肪滴の位置を重要な表現型の特徴として特定する。細胞核の近位に位置する脂肪滴の濃度が高い細胞は、疾患細胞として分類され、一方、細胞核の近位に位置する脂肪滴の濃度が低いか、またはまったくない細胞は、非疾患細胞として分類される。したがって、細胞核近くの脂肪滴は、NASHの疾患の細胞を健康な状態に戻したり、疾患の進行を中断させたりするための標的となり得る。
【0214】
様々な実施形態において、予測を通じて特定された標的またはバイオマーカーは、その後、細胞のin vitroスクリーニングを実施する際に標的とすることができる。より一般的に言えば、予測を使用してin vitroスクリーニングプロセスを導くことができる。
【0215】
機械学習モデルの評価
様々な実施形態において、トレーニングされた機械学習モデルを、臨床表現型を予測する能力について評価することができる。機械学習モデルを評価することで、機械学習モデルが十分な予測力を示し、スクリーニングを実行するために細胞疾患モデルが展開された場合にスクリーニングの結果が正確になることが保証される。
【0216】
様々な実施形態において、機械学習モデルを評価することは、機械学習モデルが試験コホートの臨床表現型を正確に予測する能力を検証することを含む。試験コホートは、機械学習モデルに以前に供したことがないコホートであり得る。例えば、試験コホートは、以前に保留された部分であってもよい。さらに、試験コホートは、機械学習モデルの予測を試験コホートの既知の臨床表現型に対して評価できるように、既知の臨床表現型を含み得る。
【0217】
様々な実施形態において、試験コホートは、臨床表現型が知られている個体に由来するか、またはそこから得られた細胞を含み得る。例えば、そのような細胞は、遺伝的に多様な個体から得られた細胞に由来するiPSCであり得る。様々な実施形態において、試験コホートは、介入により治療された個体に由来するか、または得られた細胞(例えば、臨床試験由来の)を含み得る。この場合、介入に応じた個体の臨床表現型は既知である。
【0218】
様々な実施形態において、機械学習モデルによって出力された臨床表現型の予測を試験コホートの既知の臨床表現型と比較することによって、機械学習モデルを評価する。様々な実施形態において、予測された臨床表現型と既知の臨床表現型とのすべての比較にわたって検証メトリックを計算するスコアリング関数を使用して、機械学習モデルの予測力を決定することができる。このような検証メトリックは、機械学習モデルの品質の尺度を表し得る。
【0219】
一実施形態では、複数回の相互検証を通じて機械学習モデルを評価することができる。例えば、試験コホートのサンプルをパーティションに分割し、個々のパーティションの臨床表現型を予測する能力について機械学習モデルを評価する。次いで、各パーティションの結果を結合(例えば、平均化)して、機械学習モデルの予測力の尺度を得ることができる。交差検証を使用すると、機械学習モデルの予測力のより厳密な統計的検証が可能になる。
【0220】
様々な実施形態において、細胞疾患モデルの実験的及び/または計算的態様を、試験コホートの臨床表現型を予測する細胞疾患モデルの能力に従って最適化することができる。これは、より予測的な機械学習モデルを開発するために使用することができる主要な実験的及び/または計算上の態様を特定する共同最適化プロセスを表している。より具体的には、主要な実験的態様と計算的態様を特定することにより、主要な実験的態様と主要な計算的態様を使用した追加の機械学習モデルのトレーニングに従って、追加のトレーニングデータ(例えば、表現型アッセイデータ)の生成が可能になる。したがって、これらの追加の機械学習モデルは、臨床表現型を予測するためのさらに向上した予測力を示す。
【0221】
実験的態様とは、機械学習モデルをトレーニングするためのトレーニングデータを生成するために使用された細胞疾患モデルの実験パラメータを指す。実験的態様の例として、機械学習モデルのトレーニングに使用されるトレーニングデータの生成に使用される細胞型、細胞に提供される環境模倣物、表現型アッセイ設定(例えば、特定の蛍光チャネルまたは顕微鏡設定、例えば、明るさ/コントラスト)、表現型アッセイデータを捕捉した時点、実験が行われた期間の細胞継代数、使用されたin vitro細胞条件などが挙げられる。計算的態様とは、機械学習モデルをトレーニングするためのin silico特性、例えば、モデルをトレーニングする前に設定される機械学習モデルのパラメータまたはハイパーパラメータ(例えば、ニューラルネットワークのレイヤー数、ドロップアウト率、特定のユニットの種類など)を指す。
【0222】
様々な実施形態において、細胞疾患モデルの実験的及び計算的態様を最適化することは、試験コホートの臨床表現型を予測することができる良好に機能する機械学習モデルをもたらす実験的及び計算的態様を選択することを含む。パフォーマンスの良い機械学習モデルは、機械学習モデルの品質を表すスコアリング関数及び/または検証メトリックに基づいて識別できる。例えば、選択した実験的及び計算的態様に従ってトレーニングされた機械学習モデルは、試験コホートに適用された場合に、他の実験的及び計算的態様に従ってトレーニングされた別の機械学習モデルの予測力よりも優れた予測力を示す。
【0223】
様々な実施形態において、細胞疾患モデルの実験的及び計算的態様の最適化は、さらに向上した細胞疾患モデルを開発するための反復プロセスであり得る。例えば、最初のステップとして、細胞疾患モデルを評価して、主要な実験的及び計算的態様の幅広いセットを決定することができる。次に、主要な計算態様に従って、及び主要な実験的態様に従って開発されたトレーニングデータを使用して、追加の細胞疾患モデルをトレーニングすることができる。これらの追加の細胞疾患モデルは、再度評価を受け、主要な実験的及び計算的態様のより狭いセットを選択することができる。したがって、主要な実験的及び計算的態様のより狭いセットに従って、さらに追加の細胞疾患モデルをトレーニングすることができる。
【0224】
細胞疾患モデルを展開するための実施形態
細胞モデルを展開するためのフロープロセス
図4は、いくつかの実施形態による、細胞疾患モデルの展開の流れ図を示す。ステップ410は、疾患の遺伝的構造とアラインした細胞を取得することを含む。疾患の遺伝的構造とアラインした細胞を取得することは、
図2Cを参照して上述したステップ250に対応し得る。細胞は、疾患の遺伝的構造にアラインするように遺伝子改変されたiPSCであり得る。様々な実施形態において、細胞は、ヒト個体を代表する細胞アバターに対応する。
【0225】
ステップ415で、表現型アッセイデータを細胞から捕捉する。様々な実施形態において、ステップ415は、異なる時点で細胞に対して複数回実行することができる。例えば、第1の時点で細胞から表現型アッセイデータの第1のセットを捕捉することができ、続いて第2の時点で細胞から表現型アッセイデータの第2のセットを捕捉することができる。いくつかの実施形態では、介入は、第1の時点と第2の時点の間で細胞に提供される。したがって、第1及び第2の時点で捕捉された表現型アッセイデータ間の差異は、介入の影響を表し得る。介入が治療薬である場合、2つの時点の表現型アッセイデータの差異は、細胞の表現型に対する治療薬の影響を表す。介入が疾患を引き起こす環境摂動である場合、2つの時点の表現型アッセイデータの差異は、細胞の表現型に対する摂動の影響を表す。
【0226】
ステップ420で、表現型アッセイデータを分析して、臨床表現型の予測を決定する。様々な実施形態において、表現型アッセイデータは、臨床表現型の直接的な情報を提供する。様々な実施形態において、機械学習モデル、例えば、
図1Aで上述した機械学習モデル140を表現型アッセイデータに適用して、臨床表現型を予測する。
【0227】
ステップ430は、細胞疾患モデルを使用してアクションを実行することを含む。第1の例として、ステップ440Aに示すように、アクションは、細胞疾患モデルを使用して介入を検証することを含み得る。第2の例として、ステップ440Bに示すように、アクションは、細胞疾患モデルを使用して治療を受ける候補患者集団を特定することを含み得る。この場合、患者集団は、治療に対するレスポンダーとして分類することができる。第3の例として、ステップ440Cに示すように、アクションは、細胞疾患モデルを使用して開発された構造活性分子スクリーニングを使用して候補治療薬を最適化または特定することを含み得る。第4の例として、ステップ440Dに示すように、アクションは、複数の治療薬をスクリーニングして、有効である可能性が高い治療候補を特定することを含み得る。第5の例として、ステップ440Eに示すように、アクションは、摂動して疾患を調節することができる生物学的標的(例えば、遺伝子)を特定することを含み得る。
【0228】
図4のフロー図は、ステップ410、415、420、及び430のそれぞれを示し、様々な実施形態において、ステップ410、415、及び420は、ステップ430内に含まれるステップである。言い換えれば、細胞疾患モデルの展開は、細胞を取得するステップ(例えば、ステップ410)、細胞から表現型アッセイデータを取得するステップ(例えば、ステップ415)、及び予測を決定するステップ(例えば、ステップ420)をさらに含み得る。
【0229】
介入の検証
図5Aは、一実施形態による、細胞疾患モデル500を使用して介入を検証するためのプロセスフロー図を示す。具体的には、
図5Aは、細胞疾患モデルを展開するために、
図1Bを参照して上述したプロセスをさらに詳細に示す。
【0230】
予測145(様々な実施形態において、埋め込みを利用する)は、スクリーニングのための介入タイプの選択を導く。一実施形態において、予測145は、疾患表現型を発現する細胞を疾患の少ない(例えば、健康な)表現型を発現する細胞に戻すと予測される介入の選択を導く。例えば、NASHに関して、予測は、NASH関連の表現型が脂質小球のサイズと位置に関係しているという識別を導く。したがって、成功した介入は、その表現型を元に戻し、脂肪滴をより拡散した状態に戻す介入である。これを使用して、表現型的に関連があると特定されたものと同じ経路にある遺伝子またはタンパク質(例えば、脂肪滴形成に関与するもの)など、スクリーニングのための介入の選択に優先順位を付けることができる。例を挙げると、予測は、機械学習モデルによって生成された多様体内の埋め込み位置であってもよく、多様体内の異なる埋め込み位置は、様々な状態(例えば、疾患の状態、疾患の少ない状態、健康な状態など)に対応する。したがって、細胞が現在疾患状態にあると予測されている場合、埋め込み位置を使用して、多様体内の疾患状態の位置から多様体内の疾患状態の少ない位置または健康な状態の位置に細胞を押し出すと予測される治療薬を特定することができる。一実施形態では、予測145は、健康な細胞における表現型への悪影響が最小限であるか、または全くないと予測される介入の選択を導く。そのような実施形態では、予測145は、非毒性の介入の選択を導く。
【0231】
様々な実施形態において、予測145は、スクリーニングのために1つまたはある範囲の細胞アバターを選択するために使用される。例えば、予測145を出力した機械学習モデル140が細胞アバターを表す細胞から得られたデータでトレーニングされたことを考慮すると、予測145は、ある範囲の細胞アバターに特異的であり得る。細胞アバターの範囲は、疾患のスペクトルを表していてもよい(例えば、健康な細胞から漸増的に疾患細胞までのスペクトル)。以前に改変された細胞アバターのそれぞれの細胞(例えば、細胞515Aとして示される)は、in vitroで生成される。様々な実施形態において、細胞515Aは疾患細胞であり、したがって、介入の検証は、介入が疾患細胞の疾患表現型をより健康な表現型に戻すことができるかどうかを決定することを含む。様々な実施形態において、細胞515Aは、健康な細胞である。この場合、介入の検証には、介入が特定の細胞表現型(例えば、不健康な細胞表現型)を生じさせるかどうかの評価を通じて、介入の毒性を決定することが含まれる。細胞515Aは、同じ遺伝学を共有しており、また、細胞アバターを定義する摂動因子にさらされる。
図5Aは、単一の細胞アバターに対応する1つの細胞515Aを示しているが、後続の説明は、複数の細胞515Aにも適用され、それによって、疾患のスペクトルを表すことができる一連の細胞アバターを具現化する。
【0232】
図5Aに示すように、細胞515Aに対して表現型アッセイを実施して、表現型アッセイデータ520Aを取得する。この場合、表現型アッセイデータ520Aは、ある状態(例えば、疾患または健康な状態)における細胞の細胞表現型を記述する。細胞515Aを介入508に曝露して、細胞515Aを治療された細胞515Bに転換する。介入508は、小分子薬、生物製剤、遺伝子治療(例えば、CRISPR)、またはそれらの任意の組み合わせなどの1つ以上の治療薬であり得る。介入508は、細胞515Aの表現型の変化を引き起こし得る。例えば、
図5Aに示すように、治療された細胞515Bは、細胞515Aによって示された細胞形状と比較して、異なる細胞形状を示し得る。いくつかのシナリオでは、介入により、細胞515Aが、治療された細胞515Bによって示される健康な表現型に戻るか、または介入により、細胞515Aの疾患のさらなる進行が停止または遅延される可能性がある。いくつかのシナリオでは、介入508は、治療された細胞515Bに有害な表現型の結果を引き起こす可能性があり、これは介入508の毒性の尺度となり得る。
【0233】
治療された細胞515Bに対して表現型アッセイを実施し、表現型アッセイデータ520Bを取得する。この場合、表現型アッセイデータ520Bは、いくつかのシナリオでは、細胞515Aの表現型とは異なる、治療された細胞515Bの表現型を捕捉する。表現型アッセイデータ520Aと治療された細胞に由来する表現型アッセイデータ520Bとの間の差異は、介入508によって引き起こされる細胞表現型の測定可能な変化を表している。
【0234】
様々な実施形態において、異なる濃度の介入を細胞515Aの異なる集団に提供し、治療された細胞515Bの対応する集団に対して表現型アッセイを実施する。したがって、治療された細胞515Bの異なる集団から捕捉された表現型アッセイデータは、介入508の用量依存的治療に応答した細胞の表現型を表す。
【0235】
表現型アッセイ520A及び表現型アッセイ520Bを評価して、臨床表現型530A及び530Bをそれぞれ決定する。例えば、臨床表現型は、表現型データが、対応する細胞が疾患または健康であることを示すかどうかを指し得る。様々な実施形態において、細胞に由来する表現型アッセイデータ520A及び治療された細胞に由来する表現型アッセイデータ520Bは、それぞれの臨床表現型530A及び530Bを直接的に示す。例えば、NASHに関して、脂肪球出力の存在を含む、細胞の表現型アッセイデータ520A及び治療された細胞の表現型アッセイデータ520は、NASH疾患の存在の臨床表現型を直接示し得る。様々な実施形態において、細胞に由来する表現型アッセイデータ520A及び治療された細胞に由来する表現型アッセイデータ520Bのそれぞれに、機械学習モデルを適用し、対応する臨床表現型530A及び530Bを決定する。
図5Aに示すように、機械学習モデルは、
図1Aを参照して上述した機械学習モデル140である。機械学習モデル140は、細胞(例えば、細胞515A)と他の細胞(例えば、治療された細胞515B)との間の表現型のトレースを容易に区別することができ、したがって、機械学習モデル140を適用することにより、臨床表現型を予測することができる。
【0236】
様々な実施形態において、機械学習モデルは、入力としての表現型アッセイデータに加えて、細胞の遺伝学及び細胞に提供された任意の改変/摂動を受け取る。例えば、
図5Aに関して、臨床表現型530Aを決定するために、機械学習モデルは、1)表現型アッセイデータ520A、2)細胞の遺伝学、及び3)細胞に適用された摂動を分析する。臨床表現型530Bを決定するために、機械学習モデルは、1)表現型アッセイデータ520B、2)治療された細胞の遺伝学、及び3)治療された細胞に適用された摂動を分析する。
【0237】
臨床表現型530A及び530Bを比較して、介入の有効性を表す介入による影響560を決定する。介入による影響560は、予測された介入の臨床的影響であり得る。様々な実施形態において、臨床表現型530Aと530Bの比較は、臨床表現型530Aと530Bの間の差異を決定して、介入の影響を測定することを含む。例えば、NASHに関して戻ると、細胞の表現型アッセイデータ520Aと治療された細胞の表現型アッセイデータ520における脂肪球出力の差異は、介入による影響560の尺度である。言い換えれば、疾患細胞と比較した、治療された細胞における脂肪球出力の減少量は、介入の有効性の尺度である。いくつかの実施形態では、健康な細胞と疾患細胞の両方を介入508にさらして、健康な細胞に対する有害な表現型の転帰を含む、介入の示差的な効果を評価する。健康な細胞が、
図5Aに示し、上記で説明したステップを経た後、追加的に得られた臨床表現型を、臨床表現型530A及び臨床表現型530Bと共に評価して、介入による影響560の決定を支援することができる。
【0238】
様々な実施形態において、介入を、介入による影響560に基づいて検証する。一実施形態では、介入による影響560が、閾値、例えば、予測される疾患の存在割合における閾値の差を上回る場合、その治療薬は、疾患に対する介入として有効であると見なされる。様々な実施形態において、閾値は、10%、20%、30%、40%、50%、60%、70%、75%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、または100%である。様々な実施形態において、閾値は、50%~100%、50%~90%、50%~80%、50%~70%、50%~60%、60%~100%、60%~90%、60%~80%、60%~70%、70%~100%、70%~90%、70%~80%、80%~100%、80%~90%、または90%~100%である。
【0239】
様々な実施形態において、介入による影響560(例えば、予測される介入の臨床的影響560)は、異なる濃度の介入508に対して生成され得る。そのような実施形態では、治療薬の濃度が増加または減少するにつれて、予測される臨床表現型に対する治療薬の影響の変化を反映する用量反応曲線を作成することができる。そのような用量反応曲線は、疾患の治療に使用する治療薬の最適濃度を特定するのに有用である。
【0240】
様々な実施形態では、介入による影響560をさらに使用して、機械学習モデル140を検証することができる。例えば、介入による影響560は、介入が非常に効果的であり、それによって予測145とアラインすることを示し得る。そのようなシナリオでは、機械学習モデル140の予測145を、より高い信頼度で受け入れることができる。別の例として、in vitroスクリーニングの結果が、介入が効果的でないことを示している場合(例えば、介入による影響560が、介入が効果的でないことを示している)、これは機械学習モデル140の予測145に欠陥があり、介入の予測が不十分であることを示している場合がある。したがって、機械学習モデル140の背後にある重み及びバイアスをさらに調整し、及び/またはさらに再トレーニングを行ってもよい。さらに別の例として、介入による影響560を使用して、既知の効果を与えることが既に理解されている介入に基づいて機械学習モデル140を検証する。例えば、介入は、疾患の細胞表現型を元に戻すことが知られている成功した薬物であり得るが、機械学習モデル140の予測145は、成功した薬物を介入として識別することができない。したがって、機械学習モデル140の重み及びバイアスを、損失関数または当技術分野で公知の他のモデル調整方法を使用して、それに応じて調整及び/または再トレーニングすることができる。
【0241】
図5A及び5Bを参照した上記の説明は、一般に、治療薬を含み得る介入508を検証することに言及している。様々な実施形態において、介入508は、複数の治療薬(例えば、遺伝子治療、例えば、薬物療法と併用したCRISPR Cas9遺伝子編集ツールを含む)を含み、それにより、細胞疾患モデルの展開を使用して、複数の治療薬(例えば、併用療法)を検証する。例えば、細胞疾患モデルの展開は、相乗的な治療薬の組み合わせを明らかにすることができる(より大規模の治療薬による影響560によって示されるように)。したがって、細胞疾患モデルは、効果的な併用療法を特定するための有用なプラットフォームツールとして機能する。
【0242】
患者セグメンテーション及びスクリーニング
図5Bは、一実施形態による、患者集団をレスポンダーまたはノンレスポンダーとしてセグメント化するための細胞疾患モデルの展開を示す。様々な実施形態において、患者セグメンテーションは、臨床環境で容易に測定することができる対象の特徴に基づいて、対象をレスポンダーまたはノンレスポンダーとして分類することを可能にする。介入へのレスポンダーとは、介入に肯定的に反応する対象を指す(例えば、介入が効力を示し、及び/または毒性が限定的~無毒性である)。介入に対するノンレスポンダーとは、介入に対して肯定的な応答を示さない対象を指す(例えば、介入が、効力及び/または毒性を、限定的に示す~まったく示さない)。患者セグメンテーションは、一連の対象505(例えば、1人の患者または患者集団)に対して行うことができる。様々な実施形態において、対象505は、まだ臨床的に疾患を有すると診断されていない。これらの実施形態では、細胞疾患モデルの展開は、対象505における疾患の存在または非存在の可能性の高さを予測することができる。様々な実施形態において、対象505は、臨床的に疾患を有すると診断される。これらの実施形態では、細胞疾患モデルの展開は、対象505における疾患の進行の可能性の高さを予測することができる。
【0243】
様々な実施形態において、対象505について対象の特徴510データを収集する。一般に、対象の特徴510は、臨床環境で容易に測定または取得できる患者の特徴を表す。対象の特徴510には、例えば、対象の病歴(例えば、病歴、年齢、ライフスタイル要因)、ならびに対象の遺伝子産物(例えば、mRNA、タンパク質、またはバイオマーカー)、変異遺伝子産物(例えば、バリアントmRNA、バリアントタンパク質、またはバリアントバイオマーカー)、または1つ以上の遺伝子の発現または示差的発現が含まれる。特定の実施形態では、対象の特徴510は、患者集団をスクリーニングするために後で使用することができる、対象505が発現するバイオマーカーを含む。様々な実施形態において、対象の特徴510は、対象505から試験サンプルを取得し、試験サンプルに対してアッセイを実行することによって決定することができる。アッセイの例には、核酸配列決定(例えば、DNAまたはRNA-seq)及びタンパク質検出アッセイ(例えば、ELISA)を含む、細胞配列決定データのアッセイ(表現型アッセイに関して後述する)が含まれる。
【0244】
細胞アバター540のセットを選択する(細胞アバター540は対象505を表す)。例えば、選択された細胞アバター540のそれぞれは、対象505のうちの少なくとも1人の遺伝的バックグラウンドを表す遺伝的バックグラウンドを有する細胞に対応する。様々な実施形態において、細胞アバター540は、以前に改変され摂動された細胞(例えば、
図1Aのin vitro細胞改変120プロセスで説明された細胞125)に対応する。したがって、これらの細胞アバター540は、対象505に由来したり、新たに生成したりする必要はない。むしろ、そのような実施形態では、細胞アバター540は、類似のバックグラウンド、例えば、類似の遺伝的バックグラウンドを有することに基づいて、対象505を表すものとして選択される。他の実施形態では、細胞アバター540は、対象に対して新たに生成される。そうするために、
図1Aに示すように、対象505の遺伝的バックグラウンドとアラインする遺伝的バックグラウンドを有する細胞を使用して、または対象505に由来する細胞を使用して、in vitro細胞改変120プロセスを実行する。
【0245】
細胞疾患モデル500を、各細胞アバター540に適用し、その細胞アバター540に対する介入508の可能性の高い効果を決定する。言い換えれば、
図5Bに示すように、複数の細胞アバター540にわたる細胞疾患モデル500の複数の適用により、各細胞アバター540が介入508に対してレスポンダーであるかまたはノンレスポンダーであるかが明らかになる。様々な実施形態において、レスポンダーまたはノンレスポンダーをスクリーニングするための細胞疾患モデル500の適用は、
図5Aに関して上述したように、介入を検証するための細胞疾患モデル500の適用と同じプロセスである。
【0246】
様々な実施形態では、各細胞アバター540は、機械学習モデル140の予測145に対応する。すなわち、予測145を出力した機械学習モデル140を、細胞アバター540に対応する細胞から捕捉された表現型アッセイデータでトレーニングした。予測145は介入の選択を導く。一実施形態では、予測145は、疾患表現型を発現する細胞を疾患の少ない(例えば、健康な)表現型を発現する細胞に戻すと予測される介入の選択を導く。一実施形態では、予測145は、健康な細胞における表現型への悪影響が最小限であるか、または全くないと予測される介入の選択を導く。
【0247】
細胞(例えば、細胞515Aとして示される)は、細胞アバター540のためにin vitroで生成される。様々な実施形態において、細胞515Aは、疾患細胞である。他の実施形態では、細胞515Aは、健康な細胞である。細胞515Aは、同じ遺伝学を共有しており、また、細胞アバター540を定義する摂動因子にさらされる。細胞515Aに対して表現型アッセイを実施し、表現型アッセイデータ520Aを取得する。この場合、表現型アッセイデータ520Aは、疾患状態における細胞の細胞表現型を記述する。細胞515Aを介入508に曝露して、細胞515Aを治療された細胞515Bに転換する。治療された細胞515Bに対して表現型アッセイを実施し、表現型アッセイデータ520Bを取得する。この場合、表現型アッセイデータ520Bは、いくつかのシナリオでは、細胞515Aの表現型とは異なる、治療された細胞515Bの表現型を捕捉する。細胞に由来する表現型アッセイデータ520Aと治療された細胞に由来する表現型アッセイデータ520Bとの間の差異は、介入508によって引き起こされる細胞表現型の測定可能な変化を表している。
【0248】
細胞に由来する表現型アッセイデータ520A及び治療された細胞に由来する表現型アッセイデータ520Bを評価して、臨床表現型530A及び530Bをそれぞれ決定する。様々な実施形態において、表現型アッセイデータ520A及び表現型アッセイデータ520Bは、それぞれの臨床表現型530A及び530Bを直接的に示す。例えば、NASHに関して、表現型アッセイデータ520A及び表現型アッセイデータ520Bは、脂肪球出力の存在を特定することができ、したがって、NASH疾患の存在の臨床表現型を直接示し得る。
【0249】
様々な実施形態において、表現型アッセイデータ520A及び表現型アッセイデータ520Bのそれぞれに、機械学習モデルを適用し、対応する臨床表現型530A及び530Bを決定する。一実施形態では、細胞の表現型アッセイデータと治療された細胞の表現型アッセイデータとを区別するようにトレーニングされた分類器を適用して、対応する臨床表現型を決定する。一実施形態では、機械学習モデルは、
図1Aを参照して上述した機械学習モデル140である。機械学習モデル140は、細胞(例えば、細胞515A)と他の細胞(例えば、治療された細胞515B)との間の表現型のトレースを容易に区別することができ、したがって、機械学習モデル140を適用することにより、臨床表現型を予測することができる。
【0250】
臨床表現型530A及び530Bを比較して、細胞アバター540が介入508に対してレスポンダーであるかまたはノンレスポンダーであるかを決定する。様々な実施形態において、臨床表現型530Aと530Bの比較は、臨床表現型530Aと530Bの間の差異を決定することを含む。例えば、NASHに関して戻ると、表現型アッセイデータ520Aと表現型アッセイデータ520Bにおける脂肪球出力の差異は、細胞アバター540が介入508に対してどの程度応答するかの尺度である。言い換えれば、疾患細胞と比較した、治療された細胞における脂肪球出力の減少量は、介入508に対する応答性の尺度である。
【0251】
様々な実施形態において、細胞アバター540は、臨床表現型530Aと530Bの比較に基づいて、レスポンダーまたはノンレスポンダーとして分類される。一実施形態では、臨床表現型530Aと530Bとの間の差異が、閾値、例えば、予測される疾患の存在割合における閾値の差異を上回る場合、細胞アバター540はレスポンダーとして分類される。様々な実施形態において、閾値は、10%、20%、30%、40%、50%、60%、70%、75%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、または100%である。様々な実施形態において、閾値は、50%~100%、50%~90%、50%~80%、50%~70%、50%~60%、60%~100%、60%~90%、60%~80%、60%~70%、70%~100%、70%~90%、70%~80%、80%~100%、80%~90%、または90%~100%である。
【0252】
図5Cは、一実施形態による、対象の特徴と対象のレスポンダーまたはノンレスポンダーとしての分類との間の予測関係性を開発するためのプロセスフロー図を示す。介入508と、各細胞アバター540について決定されたレスポンダー/ノンレスポンダー570の分類(
図5Bを参照して説明される)が与えられると、マッピング572を生成することができる。この場合、マッピング572は、対象505の対象の特徴510(
図5B)と、細胞アバター540(対象505を表す)にわたるレスポンダーまたはノンレスポンダーの分類との間の関係を記述する。マッピング572により、新しい対象ごとに細胞(例えば、iPSC)を生成する必要なく、迅速に測定可能な対象の特徴に基づいて、治療に対するレスポンダーまたはノンレスポンダーの予測が可能になる。
【0253】
様々な実施形態において、マッピング572は、回帰モデル(例えば、線形回帰、ロジスティック回帰、または多項式回帰)、決定木、ランダムフォレスト、サポートベクターマシン、単純ベイズモデル、k平均法クラスタ、またはニューラルネットワーク(例えば、フィードフォワードネットワーク、畳み込みニューラルネットワーク(CNN)、ディープニューラルネットワーク(DNN)、オートエンコーダーニューラルネットワーク、敵対的生成ネットワーク、または再帰型ネットワーク(例えば、長・短期記憶ネットワーク(LSTM)、双方向リカレントネットワーク、または深層双方向リカレントネットワーク)のうちのいずれか1つである。線形回帰、ロジスティック回帰、デシジョンツリー、サポートベクターマシン分類、ナイーブベイズ分類、K最近傍分類、ランダムフォレスト、深層学習、勾配ブースティング、敵対的生成ネットワーク学習、強化学習、ベイジアン最適化、行列因数分解、ならびに次元縮退手法、例えば、主成分分析、因子分析、非線形次元削減、オートエンコーダー正則化、及び独立成分分析、またはそれらの組み合わせを含む、機械学習モデルをトレーニングするために、任意の数の機械学習アルゴリズムを実装することができる。
【0254】
構造活性相関スクリーニング
図5Dは、一実施形態による、構造活性相関(SAR)スクリーニングを開発するためのプロセスフロー図を示す。様々な実施形態において、SARスクリーニングは、異なる介入508にわたって、
図5Aに関して上述した細胞疾患モデル500を適用するプロセスを反復することによって開発されるSARマッピング574である。より具体的には、細胞疾患モデル500を複数の介入508にわたって適用することにより、介入ごとに介入による影響560が予測される。
【0255】
介入508と介入による影響560のペアリングが与えられると、SARマッピング574を生成することができる。一般に、SARマッピング574は、介入の特徴を、予測される介入の利益にマッピングすることができる。そのようなSARマッピング574は、その後、異なる介入(例えば、新規化合物)が疾患の治療に使用された場合に臨床的有用性をもたらす可能性が高いかどうかを特定するためのSARスクリーニングとして機能し得る。
【0256】
様々な実施形態において、SARマッピングは、疾患を治療するために使用される場合の治療薬の臨床的有用性を予測する機械学習モデルである。様々な実施形態において、SARマッピングは、回帰モデル(例えば、線形回帰、ロジスティック回帰、または多項式回帰)、決定木、ランダムフォレスト、サポートベクターマシン、単純ベイズモデル、k平均法クラスタ、またはニューラルネットワーク(例えば、フィードフォワードネットワーク、畳み込みニューラルネットワーク(CNN)、ディープニューラルネットワーク(DNN)、オートエンコーダーニューラルネットワーク、敵対的生成ネットワーク、または再帰型ネットワーク(例えば、長・短期記憶ネットワーク(LSTM)、双方向リカレントネットワーク、または深層双方向リカレントネットワーク)のうちのいずれか1つである。線形回帰、ロジスティック回帰、デシジョンツリー、サポートベクターマシン分類、ナイーブベイズ分類、K最近傍分類、ランダムフォレスト、深層学習、勾配ブースティング、敵対的生成ネットワーク学習、強化学習、ベイジアン最適化、行列因数分解、ならびに次元縮退手法、例えば、多様体学習、主成分分析、因子分析、非線型次元削減、オートエンコーダー正則化、及び独立成分分析、またはそれらの組み合わせを含む、SAR機械学習モデルをトレーニングするために、任意の数の機械学習アルゴリズムを実装することができる。
【0257】
SARマッピング574が機械学習モデルであるそのような実施形態では、SARマッピング574をトレーニングするためのトレーニングデータは、複数の介入508と、
図5Aを参照して上述したように、細胞疾患モデルを実施することによって生成された、対応する介入による影響560とを含む。様々な実施形態において、化学基、物理化学的特徴、分子量、分子構造、ファーマコフォア特徴、結合基の存在/位置、静電基の存在/位置、疎水性/親水性基の存在/位置、原子の配置、治療薬の結合のタイプ及び方向などを含む、介入508の特徴を抽出することができる。介入508の特徴は、SAR機械学習モデルへの入力として提供され、それにより、モデルは、介入の特徴に従って可能性の高い治療薬の臨床的有用性を予測することができる。
【0258】
全体として、SARマッピング574は、疾患に対する臨床的有用性の可能性について介入をスクリーニングするために使用することができる有用なin silicoツールである。様々な実施形態では、そのようなSARマッピング574を使用して、疾患に対して臨床的有用性を示す可能性が高い新薬を発見することができる。
【0259】
さらなる実施形態では、SARマッピング574は、大規模な治療薬ライブラリを調査するのに有用である。治療薬ライブラリの例には、DrugBank、Zinc、ChemSpider、ChEMBL、KEGG、PubChemなどの公的に利用可能なデータベースが含まれる。SARマッピング574を実装して、大規模な治療ライブラリ内の治療薬をin silicoで迅速にスクリーニングし、疾患の治療に使用した場合に臨床的有用性を示す可能性が高い1つ以上の候補治療薬を特定することができる。
【0260】
さらに別の実施形態では、SARマッピング574は、化学治療と遺伝子治療の組み合わせなど、複数の治療薬を含む介入の臨床的影響を予測するようにトレーニングされた機械学習モデルであり得る。これらの実施形態では、
図5Cに示すように、介入508は、療法の組み合わせを含み得、対応する介入による影響560は、療法の組み合わせの影響を意味する。したがって、SARマッピング574を、複数の治療薬から抽出された特徴を使用して臨床的有用性を予測するようにトレーニングすることができる。したがって、SARマッピング574は、疾患の治療に使用する場合に臨床的有用性をもたらす可能性が高い治療薬の組み合わせを特定するためのin silicoスクリーニングとして機能する。
【0261】
新規生物学的標的及び候補となる介入の特定
図5Eは、一実施形態による、疾患を治療するための新規生物学的標的及び候補介入を特定するためのプロセスフロー図を示す。様々な実施形態において、生物学的標的は、脂質、リポタンパク質、タンパク質、変異タンパク質、サイトカイン、ケモカイン、成長因子、ペプチド、核酸、遺伝子、及びオリゴヌクレオチドのいずれかを、それらの関連する複合体、代謝産物、変異核酸(例えば、変異、バリアント)、コピー数の変動、反転、及び/または転写バリアント多型を含む構造バリアント、修飾、断片、サブユニット、分解産物、要素、及び他の分析物またはサンプル由来の測定値と共に含み得る。特定の実施形態では、生物学的標的は遺伝子である。特定の実施形態では、生物学的標的は、遺伝子から転写された核酸(例えば、メッセンジャーRNA)、または遺伝子のmRNAから翻訳されたタンパク質などの遺伝子産物である。
【0262】
図5Eに示すように、機械学習モデルの予測145を使用して、生物学的標的を特定することができる。この場合、生物学的標的578は、疾患に影響を与えると予測される遺伝子改変として発見され得る。例えば、予測145は、摂動で処理された複数の細胞にわたる表現型アッセイデータから開発された埋め込みであり得る。したがって、表現型アッセイデータは、疾患のin vitroモデルを表す曝露反応表現型であり得る。この場合、遺伝子改変の存在は、疾患をより示唆する細胞表現型と関連付けることができる。例えば、遺伝子改変の存在は、摂動によって誘発される疾患状態と相関しており、それによって、遺伝子改変が疾患において役割を果たしている可能性が高いことを示している。したがって、そのような遺伝子改変は、生物学的標的578を表し得る。生物学的標的578の調節は、疾患の進行を遅らせるかまたは逆転させることができる。
【0263】
様々な実施形態において、候補介入580は、生物学的標的578を調節することが知られている介入である。いくつかの実施形態では、候補介入580は、以前に検証された介入575を介して特定され得る。例えば、
図5Aに従って行われた検証プロセスに基づいて、検証された介入575は、疾患の治療に有効であることが知られている。様々な実施形態において、検証された介入575及び候補介入580は、同様または同じ作用メカニズムを有し得る。様々な実施形態において、検証された介入575及び候補介入580は、埋め込みにおいて互いに近接してクラスタ化し、それによって2つの介入間の類似性を示すことができる。したがって、候補介入580を選択し、これはさらなる検証を受けることができる。様々な実施形態において、複数の候補介入を選択することができ、選択された各候補介入をさらに検証することができる。したがって、これらの複数の候補介入をスクリーニングして、疾患の治療に使用した場合に有効である可能性が高い治療候補を特定することができる。
【0264】
一実施形態では、候補介入580は、細胞に対するin vitroスクリーニングプロセスを使用して評価することができる。例えば、疾患細胞をin vitroで播種することができる場合のin vitroスクリーニングを行うことができ、候補介入580を疾患細胞に加えて、疾患細胞がより健康な状態に戻るかどうかを一般的に観察することができる。一実施形態では、in vitroスクリーニングに使用される疾患細胞は、ステップ250及び255を参照して上記のように生成することができる。したがって、疾患の細胞は、疾患の遺伝的構造とアラインする。一実施形態では、スクリーニングに使用される疾患細胞は、患者から得られた疾患細胞であり、したがって、スクリーニングの結果は、患者由来細胞のスクリーニングから直接生じるため、臨床的に関連し得る。
【0265】
いくつかの実施形態では、候補介入580は、
図5Aに示す細胞疾患モデルのin vitroスクリーニングプロセスを使用して評価することができる。この場合、
図5Aと
図5Eは、
図5Aが、機械学習モデルの予測を使用して、介入の選択を導くという点で異なる。
図5Eでは、候補介入580の選択は、上述のように、特定された生物学的標的578によって導かれる。一般に、介入の影響を評価するin vitroスクリーニングプロセスは、
図5A及び5Eにおいて類似または同一であり得る。
【0266】
図5Eに示すように、細胞582Aを生成することができる。細胞582Aは、いくつかの実施形態では、健康な細胞であり得る。いくつかの実施形態では、細胞582Aは疾患細胞である。細胞582Aは、細胞アバター、例えば、検証された介入575が疾患の治療に有効であることが示された細胞アバターを表し得る。表現型アッセイデータ585Aは、疾患細胞から捕捉される。細胞582Aは、候補介入580を使用してin vitro治療を受け、それにより、治療された細胞582Bが生じる。表現型アッセイデータ585Bは、治療された細胞582Bから捕捉される。表現型アッセイデータ585A及び表現型アッセイデータ585Bのそれぞれを分析して、臨床表現型590A及び臨床表現型590Bをそれぞれ決定する。
図5Eに示すように、表現型アッセイデータ585A及び585Bの分析は、表現型アッセイデータを分析し、疾患の表現型のトレースを区別することができるトレーニングされた機械学習モデル140を適用することを含む。臨床表現型590A及び590Bを互いに比較して、候補介入595の影響を決定することができる。例えば、臨床表現型590Aと臨床表現型590Bの差異は、候補介入595の有効性を表し得る。いくつかの実施形態では、健康な細胞と疾患細胞の両方を介入580にさらして、健康な細胞に対する有害な表現型の転帰を含む、介入の示差的な効果を評価する。健康な細胞が、
図5Eに示し、上記で説明したステップを経た後、追加的に得られた臨床表現型を、臨床表現型590A及び臨床表現型590Bと共に評価して、候補介入の影響595の決定を支援することができる。
【0267】
全体として、このプロセスにより、検証済みの介入による調節が疾患の治療に有効であることが確立されている生物学的標的が与えられた場合、疾患の治療に有効であり得る追加の候補介入の特定が可能になる。
【0268】
いくつかの実施形態では、検証された介入を使用して、介入によって調節される生物学的標的(例えば、生物学的標的578)が疾患を治療するための適切な標的であることを確立することができる。言い換えると、
図5Aに示す細胞疾患モデル500の適用は、疾患を治療するのに有効であり得るさらなる治療薬を発見するための基礎として機能し得る生物学的標的を特定する。一例として、検証された介入は、遺伝子の発現を調節する遺伝子介入であり得る。この場合、核酸(例えば、mRNA)またはタンパク質などの遺伝子及び/または遺伝子産物は、調節のための適切な標的として機能し得る生物学的標的である。様々な実施形態において、遺伝子及び/または遺伝子産物は、疾患に関与することが以前から知られていないか、または以前は知られていなかった可能性がある。したがって、遺伝子及び/または遺伝子産物を標的とし、調節することができる追加の候補介入(例えば、薬物介入、遺伝子介入、またはそれらの組み合わせ)は、疾患に対する治療薬の影響について評価することができる。様々な実施形態において、追加の候補介入は、細胞における疾患状態の進行または退行における追加の候補介入の正または逆の性質に応じて、相補的効果または反対の代謝/表現型効果を生み出す能力に基づいて選択することができる。
【0269】
表現型アッセイ
細胞配列決定データのアッセイ
表現型アッセイデータの1つのタイプは、細胞配列データである。細胞配列決定データの例として、DNA配列決定データまたはRNA配列決定データ、例えば、転写産物レベルの配列決定データが挙げられる。様々な実施形態において、細胞配列決定データは、FASTAフォーマットファイル、BAMファイル、またはBLAST出力ファイルとして表現される。細胞から得られた細胞配列決定データは、参照配列(例えば、対照配列、野生型配列、または健康な個体の配列)と比較して、1つ以上の差異を含み得る。差異には、1つ以上のヌクレオチド塩基のバリアント、変異、多型、挿入、欠失、ノックイン、及びノックアウトが含まれ得る。様々な実施形態において、細胞配列決定データの差異は、疾患の遺伝的リスクを決定するための情報価値の高い高リスク対立遺伝子に対応する。様々な実施形態において、高リスク対立遺伝子は、浸透度の高い対立遺伝子である。
【0270】
様々な実施形態において、細胞配列決定データと参照配列との間の差異は、機械学習モデルの特徴として機能することができる。様々な実施形態において、細胞配列決定データの1つ以上の配列、細胞配列決定データの特定の位置におけるヌクレオチド塩基または変異ヌクレオチド塩基の出現頻度、挿入/欠失/重複、コピー数変動、または配列決定データの配列は、機械学習モデルの特徴として機能する。
【0271】
核酸の増幅
多くの核酸は比較的少量で存在するため、核酸増幅は発現を評価する能力を大幅に高める。一般的な概念は、目的の領域に隣接するペアのプライマーを使用して核酸を増幅することができるということである。本明細書で使用する場合、用語「プライマー」は、テンプレート依存プロセスにおいて新生核酸の合成を開始することができる任意の核酸を包含することを意味する。通常、プライマーは、長さが10~20及び/または30塩基対のオリゴヌクレオチドであるが、より長い配列を使用することができる。プライマーは、二本鎖及び/または一本鎖の形態で提供され得る。
【0272】
選択された遺伝子に対応する核酸に選択的にハイブリダイズするように設計されたプライマー対を、選択的ハイブリダイゼーションを可能にする条件下で鋳型核酸と接触させる。所望の用途に応じて、プライマーに完全に相補的な配列へのハイブリダイゼーションのみを可能にする高ストリンジェントなハイブリダイゼーション条件を選択してもよい。他の実施形態では、ハイブリダイゼーションは、プライマー配列との1つ以上のミスマッチを含む核酸の増幅を可能にするために、ストリンジェンシーを低下させて行ってもよい。ハイブリダイズさせた後、テンプレート-プライマー複合体を、テンプレート依存性核酸合成を促進する1つ以上の酵素と接触させる。「サイクル」とも呼ばれる複数ラウンドの増幅を、十分な量の増幅産物が産生されるまで行う。
【0273】
増幅産物を検出するか、または定量してもよい。特定の用途では、視覚的手段によって検出を行ってもよい。あるいは、検出は、化学発光、取り込まれた放射性標識または蛍光標識の放射性シンチグラフィー、または電気及び/または熱インパルス信号を使用するシステムによる生成物の間接的同定を含み得る。
【0274】
所与の鋳型サンプル中に存在するオリゴヌクレオチド配列を増幅するための、多数の鋳型依存プロセスが利用可能である。既知の増幅方法の1つは、ポリメラーゼ連鎖反応(PCR(商標)と呼ばれる)であり、これは、米国特許第4,683,195号、第4,683,202号及び第4,800,159号、ならびにInnis et al.,1988に詳細に記載されており、これらのそれぞれはその全体が参照により本明細書に援用される。
【0275】
逆転写酵素PCR(商標)増幅手順を実施して、増幅されたmRNAの量を定量化してもよい。RNAをcDNAに逆転写する方法は周知である(Sambrook et al.,1989を参照のこと)。逆転写の代替方法は、耐熱性DNAポリメラーゼを利用する。これらの方法は、WO90/07641に記載されている。ポリメラーゼ連鎖反応法は、当技術分野で周知である。RT-PCRの代表的な方法は、米国特許第5,882,864号に記載されている。
【0276】
標準的なPCRでは通常、1組のプライマーを使用して特定の配列を増幅するが、マルチプレックスPCR(MPCR)では、複数のプライマーペアを使用して多くの配列を同時に増幅する。1つのチューブに多くのPCRプライマーが存在すると、ミスプライミングされたPCR産物及び「プライマー二量体」の形成の増加、より長いDNA断片の増幅識別など、多くの問題が発生し得る。通常、MPCR緩衝液は、Taqポリメラーゼ添加剤を含有し、これにより、アンプリコン間の競合が減少し、MPCR中の長いDNA断片の増幅識別が減少する。MPCR産物を、検証のために遺伝子特異的プローブとさらにハイブリダイズさせることができる。理論的には、必要な数のプライマーを使用することができるべきである。しかしながら、MPCR中に発生する副作用(プライマー二量体、ミスプライミングPCR産物など)により、MPCR反応で使用することができるプライマーの数には制限(20未満)がある。欧州出願第0364255号及びMueller and Wold(1989)も参照のこと。
【0277】
増幅のための別の方法は、リガーゼ連鎖反応(「LCR」)であり、欧州特許出願第320308号に開示されており、その全体が参照により本明細書に援用される。米国特許第4,883,750号は、プローブ対を標的配列に結合させるためのLCRと同様の方法を記載している。米国特許第5,912,148号に開示されたPCR(商標)及びオリゴヌクレオチドリガーゼアッセイ(OLA)に基づく方法も使用してもよい。
【0278】
使用してもよい標的核酸配列の増幅のための別の方法は、米国特許第5,843,650号、第5,846,709号、第5,846,783号、第5,849,546号、第5,849,497号、第5,849,547号、第5,858,652号、第5,866,366号、第5,916,776号、第5,922,574号、第5,928,905号、第5,928,906号、第5,932,451号、第5,935,825号、第5,939,291号、及び第5,942,391号、英国出願第2202328号、ならびにPCT出願第PCT/US89/01025号に開示されており、その各々はその全体が参照により本明細書に援用される。
【0279】
PCT出願第PCT/US87/00880に記載されているQbetaレプリカーゼもまた、増幅方法として使用してもよい。この方法では、標的の領域に相補的な領域を有するRNAの複製配列を、RNAポリメラーゼの存在下でサンプルに添加する。ポリメラーゼにより複製配列がコピーされ、次いでそれを検出してもよい。
【0280】
制限エンドヌクレアーゼ及びリガーゼを使用して、制限部位の一方の鎖にヌクレオチド5’-[α-チオ]-三リン酸を含む標的分子の増幅を達成する等温増幅法もまた、核酸の増幅に有用であり得る(Walker et al.,1992)。米国特許第5,916,779号に記載されている鎖置換型増幅法(SDA)は、核酸の等温増幅を行う別の方法であり、複数回の鎖置換及び合成、すなわちニックトランスレーションを含む。
【0281】
他の核酸増幅手順には、核酸配列に基づく増幅(NASBA)及び3SR(Kwoh et al.,1989;Gingeras et al.、PCT出願WO88/10315、その全体が参照により本明細書に援用される)を含む、転写に基づく増幅系(TAS)が含まれる。欧州特許出願第329822号は、一本鎖RNA(「ssRNA」)、ssDNA、及び二本鎖DNA(dsDNA)を周期的に合成することを伴う核酸増幅プロセスを開示している。
【0282】
PCT出願WO89/06700(参照によりその全体が本明細書に援用される)は、標的一本鎖DNA(「ssDNA」)へのプロモーター領域/プライマー配列のハイブリダイゼーションとそれに続く配列の多数のRNAコピーの転写に基づく核酸配列増幅スキームを開示している。このスキームは周期的ではなく、すなわち、結果として得られるRNA転写産物から新規テンプレートは産生されない。他の増幅方法として、「race」及び「片側(one-sided)PCR」が挙げられる(Frohman,1990;Ohara et al.,1989)。
【0283】
核酸の検出
任意の増幅の後、増幅産物を鋳型及び/または過剰なプライマーから分離することが望ましい場合がある。一実施形態では、標準的な方法を用いたアガロース、アガロース-アクリルアミドまたはポリアクリルアミドゲル電気泳動によって、増幅産物を分離する(Sambrook et al.,1989)。分離された増幅産物を、さらなる操作のために切り出し、ゲルから溶出してもよい。低融点アガロースゲルを使用して、ゲルを加熱して分離したバンドを除去し、続いて核酸を抽出してもよい。
【0284】
核酸の分離はまた、当技術分野で公知のクロマトグラフィー技術によって行ってもよい。吸着、分配、イオン交換、ヒドロキシルアパタイト、モレキュラーシーブ、逆相、カラム、紙、薄層、ならびにガスクロマトグラフィー及びHPLCを含む、本発明の実施において使用し得る多くの種類のクロマトグラフィーが存在する。
【0285】
特定の実施形態では、増幅産物を視覚化する。典型的な視覚化方法には、臭化エチジウムでゲルを染色し、UV光の下でバンドを視覚化することが含まれる。あるいは、増幅産物が放射標識または蛍光標識されたヌクレオチドで完全に標識されている場合、分離した増幅産物をX線フィルムに曝露するか、適切な励起スペクトルで可視化することができる。
【0286】
一実施形態では、増幅産物の分離に続いて、標識核酸プローブを増幅マーカー配列と接触させる。プローブは、好ましくは発色団にコンジュゲートするが、放射性標識してもよい。別の実施形態では、プローブを、抗体またはビオチンなどの結合パートナー、または検出可能な部分を有する別の結合パートナーにコンジュゲートする。
【0287】
特定の実施形態では、検出はサザンブロッティング及び標識プローブとのハイブリダイゼーションによる。サザンブロッティングに関与する技術は、当業者に周知である(Sambrook et al.,2001を参照のこと)。前述の一例は、米国特許第5,279,721号に記載されており、参照により本明細書に援用され、これは、自動電気泳動及び核酸の転写のための装置及び方法を開示している。この装置は、ゲルを外部から操作することなく電気泳動及びブロッティングを可能にし、本発明による方法を実行するのに理想的に適している。
【0288】
ハイブリダイゼーションアッセイは、米国特許第5,124,246号にさらに記載されており、その全体が参照により本明細書に援用される。ノーザンブロットでは、mRNAを電気泳動的に分離し、プローブと接触させる。プローブは、特定のサイズのmRNA種にハイブリダイズするものとして検出される。ハイブリダイゼーションの量を定量して、例えば特定の条件下での相対発現量を決定することができる。プローブは、発現を検出するために細胞へのin situハイブリダイゼーションに使用される。プローブは、ハイブリダイズする配列の診断的検出のためにin vivoで使用することもできる。プローブは通常、放射性同位元素で標識される。発色団、フルオロフォア、及び酵素などの他のタイプの検出可能な標識を使用することができる。示差的遺伝子発現を決定するためのノーザンブロットの使用は、米国特許出願第09/930,213号にさらに記載されており、その全体が参照により本明細書に援用される。
【0289】
本発明の実施において使用され得る核酸検出の他の方法は、米国特許第5,840,873号、第5,843,640,5,843,651号、第5,846,708号、第5,846,717号、第5,846,726号、第5,846,729号、第5,849,487号、第5,853,990号、第5,853,992号、第5,853,993号、第5,856,092号、第5,861,244号、第5,863,732号、第5,863,753号、第5,866,331号、第5,905,024号、第5,910,407号、第5,912,124号、第5,912,145号、第5,919,630号、第5,925,517号、第5,928,862号、第5,928,869号、第5,929,227号、第5,932,413号、及び第5,935,791号に開示されており、これらはそれぞれ参照により本明細書に援用される。
【0290】
核酸アッセイ
マイクロアレイは、実質的に平面の基板、例えば、バイオチップの表面上に空間的に分布し、安定して会合する複数のポリマー分子を含む。ポリヌクレオチドのマイクロアレイが開発されており、スクリーニング、一塩基多型及び他の変異の検出、ならびにDNA配列決定などの様々な用途に使用されている。マイクロアレイが特に使用される分野の1つは、遺伝子発現解析である。
【0291】
マイクロアレイを用いた遺伝子発現分析では、「プローブ」オリゴヌクレオチドのアレイを、目的の核酸サンプル、すなわち、特定の組織型由来のポリA mRNAなどの標的と接触させる。ハイブリダイゼーション条件下で接触を行い、結合していない核酸を除去する。ハイブリダイズした核酸の得られたパターンは、試験したサンプルの遺伝子特性に関する情報を提供する。マイクロアレイの遺伝子発現解析の方法論は、定性的情報と定量的情報の両方を提供することができる。マイクロアレイの一例は、DNAの多型の検出を可能にするDNAマイクロアレイである一塩基多型(SNP)-チップアレイである。
【0292】
使用し得る様々な異なるアレイが当技術分野で公知である。標的核酸との配列特異的ハイブリダイゼーションが可能なアレイのプローブ分子は、ポリヌクレオチドまたはハイブリダイズ類似体またはその模倣物であってもよく、以下を含む:ホスホジエステル結合が置換結合、例えばホスホロチオエート、メチルイミノ、メチルホスホネート、ホスホルアミデート、グアニジンなど;リボースサブユニットが置換された核酸、例えば、ヘキソースホスホジエステル;ペプチド核酸など。プローブの長さは一般に10~1000ntの範囲であり、いくつかの実施形態では、プローブはオリゴヌクレオチドであり、通常は15~150nt、より一般的には15~100ntの長さの範囲であり、他の実施形態ではプローブはより長く、通常は150~1000ntであり、ポリヌクレオチドプローブは一本鎖または二本鎖であってもよく、通常は一本鎖であり、cDNAから増幅されたPCRフラグメントであってもよい。
【0293】
基質の表面上のプローブ分子は、分析される選択された遺伝子に対応し、アレイ上の既知の位置に配置されるため、正のハイブリダイゼーション事象は、標的核酸及びサンプルが由来する生理学的供給源における特定の遺伝子の発現と相関し得る。プローブ分子が安定して会合する基板は、プラスチック、セラミック、金属、ゲル、膜、ガラスなどを含む様々な材料から製造され得る。アレイは、プローブを前もって形成し、次いでプローブを支持体の表面に安定に結合させるか、またはプローブを支持体上で直接成長させるなど、任意の便利な方法論に従って作製してもよい。多数の異なるアレイ構成及びそれらの製造方法が当業者に公知であり、米国特許第5,445,934号、第5,532,128号、第5,556,752号、第5,242,974号、第5,384,261号、第5,405,783号、第5,412,087号、第5,424,186号、第5,429,807号、第5,436,327号、第5,472,672号、第5,527,681号、第5,529,756号、第5,545,531号、第5,554,501号、第5,561,071号、第5,571,639号、第5,593,839号、第5,599,695号、第5,624,711号、第5,658,734号、第5,700,637号、及び第6,004,755号に開示されている。
【0294】
ハイブリダイゼーションに続いて、ハイブリダイズしていない標識核酸が検出ステップ中にシグナルを発することができる場合、ハイブリダイズしていない標識核酸を支持体表面から除去する洗浄ステップが採用され、基板表面上にハイブリダイズした核酸のパターンが生成される。それらを使用するための様々な洗浄溶液及びプロトコルが当業者に公知であり、使用してもよい。
【0295】
標的核酸上の標識が直接検出可能でない場合、次いで、結合した標的を含むアレイを、使用されているシグナル生成系の他のメンバー(複数可)と接触させる。例えば、標的上の標識がビオチンである場合、次いで、アレイをストレプトアビジン-蛍光複合体と、特異的結合メンバー対間の結合が生じるのに十分な条件下で接触させる。接触後、結合していないシグナル生成系のメンバーを、例えば、洗浄によって除去する。採用される特定の洗浄条件は、採用されるシグナル生成系の特定の性質に必然的に依存し、採用される特定のシグナル生成系に精通した当業者に公知である。
【0296】
得られた標識核酸のハイブリダイゼーションパターン(複数可)は、核酸の特定の標識に基づいて選択される特定の検出方法を用いて、様々な方法で視覚化または検出してもよく、代表的な検出手段として、シンチレーション計数、オートラジオグラフィー、蛍光測定、比色測定、発光測定などが挙げられる。
【0297】
検出または視覚化の前に、ミスマッチハイブリダイゼーション事象がパターン上に偽陽性シグナルを生成する可能性を低減したい場合、ハイブリダイズした標的/プローブ複合体のアレイを、エンドヌクレアーゼが一本鎖DNAを分解するのに十分であるが、二本鎖DNAを分解するのには十分でない条件下でエンドヌクレアーゼ処理してもよい。様々な異なるエンドヌクレアーゼが知られており、それらを使用してもよく、そのようなヌクレアーゼとして:リョクトウヌクレアーゼ、S1ヌクレアーゼなどが挙げられる。標的核酸が直接検出可能な標識で標識されていないアッセイ、例えば、ビオチン化標的核酸を用いたアッセイでそのような処理が用いられる場合、エンドヌクレアーゼ処理は一般に、アレイを他のシグナル生成系のメンバー(複数可)、例えば、蛍光-ストレプトアビジン複合体と接触させる前に行う。上記のエンドヌクレアーゼ処理により、プローブの3’末端で実質的に完全なハイブリダイゼーションを有する末端標識標的/プローブ複合体のみがハイブリダイゼーションパターンで検出されることが保証される。
【0298】
上記のように、ハイブリダイゼーション及び任意の洗浄工程(複数可)及び/またはその後の処理に続いて、得られたハイブリダイゼーションパターンを検出する。ハイブリダイゼーションパターンの検出または可視化において、標識の強度またはシグナル値を検出するだけでなく定量化する。これは、ハイブリダイゼーションの各スポットからのシグナルを測定し、既知の数の末端標識標的核酸によって放出されるシグナルに対応する単位値と比較して、ハイブリダイゼーションパターンにおいてアレイ上の特定のスポットにハイブリダイズする各末端標識標的のカウントまたはコピー数の絶対値を取得することを意味する。
【0299】
核酸配列
核酸(DNAまたはRNAのいずれか)を配列決定するために、様々な異なる配列決定法を実施することができる。例えば、DNA配列決定のために、全ゲノム配列決定、全エクソーム配列決定、または標的パネル配列決定のいずれか1つを行うことができる。全ゲノム配列決定は全ゲノムの配列決定を指し、全エクソーム配列決定はゲノムのすべての発現遺伝子の配列決定を指し、標的化パネル配列決定はゲノム内の遺伝子の特定のサブセットの配列決定を指す。
【0300】
RNAの場合、全トランスクリプトームショットガン配列決定(WTSS)とも呼ばれるRNA-seq(RNA配列決定)は、次世代シーケンシングの機能を利用して、特定の瞬間におけるゲノム由来RNAの存在と量のスナップショットを明らかにする技術である。RNA-seq技術の例は、Perturb-seqである。
【0301】
細胞のトランスクリプトームは動的であり;静的ゲノムとは対照的に、継続的に変化する。次世代シーケンシング(NGS)の最近の発展により、DNA配列の塩基適用範囲の増加とサンプルスループットの向上が可能となっている。これにより、細胞内のRNA転写産物の配列決定が容易になり、代替遺伝子スプライス転写産物、転写後の変化、遺伝子融合、変異/SNP、及び遺伝子発現の変化を調べることができる。mRNA転写産物に加えて、RNA-Seqでは、全RNA、miRNA、tRNAなどのsmall RNA、リボソームプロファイリングなど、様々なRNA集団を調べることができる。RNA-Seqは、エクソン/イントロン境界を決定し、以前にアノテーションが付けられた5’及び3’遺伝子境界を検証または修正するためにも使用することができる。進行中のRNA-Seq研究には、感染中の細胞経路の変化の観察、及びがん研究における遺伝子発現レベルの変化が含まれる。NGSが登場する前は、トランスクリプトミクスと遺伝子発現研究は発現マイクロアレイで行われていたが、これには、標的配列の一致を調べる何千ものDNA配列が含まれており、発現しているすべての転写産物の特性が利用可能である。これは、後に遺伝子発現のシリアル分析(SAGE)で行った。
【0302】
読み取りアセンブリ
de-novo及びゲノムガイドの2つの異なるアセンブリ方法を使用して、生の配列読み取り結果を分析することができる。
【0303】
第1のアプローチは、ヌクレオチド配列を再構築するために参照ゲノムの存在に依存しない。短いリードのサイズが小さいため、元の配列を簡単に再構築するために必要な各リードの間に大きな重複が存在し得ないことから、de novoアセンブリは難しい場合があるが、いくつかのソフトウェア(2、3例を挙げると、Velvet(アルゴリズム)、Oases、Trinity など)が存在する。また、適用範囲が大きいため、考えられるすべてのアライメントを追跡する計算能力を必要とする。この欠点は、サンガーシーケンシングなどの他の手法を使用して同じサンプルから得られたより長い配列を使用し、より大きなリードを「骨格」または「テンプレート」として使用して、困難な領域(例えば、反復配列のある領域)でリードを組み立てることにより改善することができる。
【0304】
「より容易」で計算コストが比較的少ないアプローチは、何百万もの読み取り結果を「参照ゲノム」にアラインすることである。ゲノム読み取り結果を参照ゲノムにアラインメントするためのツール(配列アラインメントツール)は多数あるが、トランスクリプトームをゲノムにアラインメントする場合、主にイントロン領域を有する遺伝子を扱う場合は、特別な注意が必要である。短いリードをアラインメントするためのソフトウェアパッケージがいくつか存在し、最近ではトランスクリプトームアラインメントに特化したアルゴリズム、例えば、RNA-seqの短いリードアラインメント用のBowtie、参照ゲノムにリードをアラインしてスプライス部位を発見するためのTopHat、転写産物を組み立てて他のものと比較/マージするためのCufflinks、またはFANSeが開発されている。配列リードを参照配列にアラインするための追加の利用可能なアルゴリズムには、基本的なローカルアラインメント検索ツール(BLAST)及びFASTAが含まれる。これらのツールを組み合わせて、包括的なシステムを形成することもできる。
【0305】
組み立てられた配列リードは、トランスクリプトームの生成、及び/または配列リードの変異、多型、挿入/欠失、ノックイン/ノックアウトなどの特定を含む、様々な目的に使用することができる。
【0306】
タンパク質発現アッセイ
表現型アッセイデータの第2のタイプは、タンパク質発現データである。様々な実施形態において、タンパク質発現データは、細胞が発現し、検出されたタンパク質のレベル、2つの関連タンパク質のレベルの比率(例えば、第1のタンパク質と第1のタンパク質の阻害剤のレベルの比率、または野生型タンパク質とそのタンパク質の変異型のレベルの比率)、または参照値(例えば、健常者の参照タンパク質のレベル)に対するタンパク質のレベルの比率を含み得る。様々な実施形態において、タンパク質発現データのこれらの例は、機械学習モデルの特徴として機能し得る。
【0307】
タンパク質の発現レベルを測定するための1つのアプローチは、抗体を使用してタンパク質の同定を行うことである。本明細書中で使用する場合、用語「抗体」は、広くは、IgG、IgM、IgA、IgD、及びIgEなどの任意の免疫学的結合作用物質を指すように意図される。一般に、IgG及び/またはIgMは、生理学的状況で最も一般的な抗体であり、実験室で最も容易に作成される。用語「抗体」はまた、抗原結合領域を有する任意の抗体様分子を指し、Fab’、Fab、F(ab’)2、単一ドメイン抗体(DAB)、Fv、scFv(単一鎖Fv)などが挙げられる。様々な抗体ベースの構築物及び断片を調製し、使用するための技術は、当技術分野で周知である。ポリクローナル及びモノクローナルの両方の抗体を調製及び特徴付けするための手段も、当技術分野で周知である(例えば、Antibodies:A Laboratory Manual,Cold Spring Harbor Laboratory,1988を参照のこと;参照により本明細書に援用される)。特に、カルサイクリン、カルパクチンI軽鎖、星状細胞リンタンパク質PEA-15及びチューブリン特異的シャペロンAに対する抗体が企図される。
【0308】
免疫検出法を使用して、タンパク質発現のレベルを検出することができる。いくつかの免疫検出法として、いくつか例を挙げると、酵素結合免疫吸着アッセイ(ELISA)、ラジオイムノアッセイ(RIA)、免疫放射アッセイ、蛍光免疫アッセイ、化学発光アッセイ、生物発光アッセイ、及びウエスタンブロットがある。様々な有用な免疫検出方法のステップは、例えば、Doolittle and Ben-Zeev O,1999;Gulbis and Galand,1993;De Jager et al.,1993;及びNakamura et al.,1987などの科学文献に記載されており、それぞれは参照により本明細書に援用される。
【0309】
一般に、免疫結合法は、関連するポリペプチドを含有している疑いのあるサンプルを取得し、免疫複合体の形成を可能にするのに有効な条件下でサンプルを第一の抗体と接触させることを含む。抗原検出に関して、分析する生物学的サンプルは、例えば、組織切片または組織標本、均質化された組織抽出物、細胞、さらには体液など、抗原を含有している疑いのある任意のサンプルであり得る。
【0310】
有効な条件下で、免疫複合体(一次免疫複合体)の形成を可能にするのに十分な期間、選択された生物学的サンプルを抗体と接触させることは、一般に、抗体組成物をサンプルに単に添加し、抗体が、存在する抗原と免疫複合体を形成する、すなわち結合するのに十分な長い一定の期間、混合物をインキュベートすることである。この時間の後、組織切片、ELISAプレート、ドットブロットまたはウエスタンブロットなどのサンプル-抗体組成物を、通常、洗浄して非特異的に結合した抗体種を除去し、一次免疫複合体内で特異的に結合した抗体のみが検出可能となるようにする。
【0311】
一般に、免疫複合体形成の検出は、多数のアプローチの適用によって達成され得る。これらの方法は、一般に、放射性タグ、蛍光タグ、生物学的タグ及び酵素タグのいずれかなどの標識またはマーカーの検出に基づいている。そのようなラベルの使用に関する特許には、米国特許第3,817,837号;第3,850,752号;第3,939,350号;第3,996,345号;第4,277,437号;第4,275,149号及び第4,366,241号に記載されており、それぞれ参照により本明細書に援用される。当然のことながら、当技術分野で公知のように、第2の抗体及び/またはビオチン/アビジンリガンド結合構成などの二次結合リガンドを使用することにより、追加の利点を見出し得る。
【0312】
検出に使用される抗体自体を検出可能な標識に結合させ、次いでこの標識を単純に検出することにより、組成物中の一次免疫複合体の量を決定することができる。あるいは、一次免疫複合体内で結合するようになる第1の抗体を、抗体に対して結合親和性を有する第2の結合リガンドによって検出してもよい。これらの場合、第2の結合リガンドを、検出可能な標識に連結させてもよい。第2の結合リガンドは、多くの場合、それ自体が抗体であり、したがって「二次」抗体と呼ばれる場合がある。一次免疫複合体を、有効な条件下で、二次免疫複合体の形成を可能にするのに十分な時間、標識された二次結合リガンドまたは抗体と接触させる。次いで、二次免疫複合体を一般的には洗浄して、非特異的に結合した標識二次抗体またはリガンドを除去し、次いで二次免疫複合体中の残りの標識を検出する。
【0313】
さらなる方法として、2段階アプローチによる一次免疫複合体の検出が挙げられる。抗体に対して結合親和性を有する抗体などの第2の結合リガンドを使用して、上記のように二次免疫複合体を形成させる。洗浄後、二次免疫複合体を、免疫複合体(三次免疫複合体)の形成を可能にするのに十分な時間、有効な条件下で、第2の抗体に対する結合親和性を有する第3の結合リガンドまたは抗体と接触させる。第3のリガンドまたは抗体を、検出可能な標識に連結させ、これにより、形成された三次免疫複合体を検出することができる。この系は、所望により、シグナル増幅を提供し得る。
【0314】
免疫検出の1つの方法は、2つの異なる抗体を使用する。第1段階のビオチン化モノクローナル抗体またはビオチン化ポリクローナル抗体を使用して標的抗原(複数可)を検出し、次いで第2段階の抗体を使用して、複合体化したビオチンに結合しているビオチンを検出する。この方法では、試験するサンプルを、第一段階の抗体を含有する溶液中で、まずインキュベートする。標的抗原が存在する場合、抗体の一部が抗原に結合して、ビオチン化抗体/抗原複合体を形成する。抗体/抗原複合体は、ストレプトアビジン(またはアビジン)、ビオチン化DNA、及び/または相補的ビオチン化DNAの連続溶液中でのインキュベーションにより増幅され、各ステップで抗体/抗原複合体に追加のビオチン部位が付加される。増幅段階を、適切なレベルの増幅が達成されるまで繰り返し、その時点で、ビオチンに対する第2段階の抗体を含有する溶液中でサンプルをインキュベートする。この第2段階の抗体を、例えば、色素原基質を使用する組織酵素学によって抗体/抗原複合体の存在を検出するために使用することができる酵素で標識する。適切な増幅により、肉眼で見える複合体を生成することができる。
【0315】
免疫検出の別の既知の方法は、免疫PCR(ポリメラーゼ連鎖反応)法を利用する。PCR法は、ビオチン化DNAとのインキュベーションまではカントール法と同様であるが、ストレプトアビジンとビオチン化DNAのインキュベーションを複数回使用する代わりに、DNA/ビオチン/ストレプトアビジン/抗体複合体を、抗体を遊離させる低pHまたは高塩緩衝液で洗い流す。次いで、得られた洗浄溶液を使用して、適切なプライマーを、適切な対照と共に使用してPCR反応を実行する。少なくとも理論的には、PCRの膨大な増幅能力と特異性を利用して、単一の抗原分子を検出することができる。
【0316】
上記で詳述したように、イムノアッセイは本質的に結合アッセイである。特定のイムノアッセイは、当技術分野で公知の様々なタイプの酵素結合免疫吸着アッセイ(ELISA)及びラジオイムノアッセイ(RIA)である。しかしながら、検出は、そのような技術に限定されず、ウェスタンブロッティング、ドットブロッティング、FACS分析なども使用し得ることは容易に理解されるであろう。
【0317】
ELISAの一例では、本発明の抗体を、ポリスチレンマイクロタイタープレートのウェルなど、タンパク質親和性を示す選択された表面上に固定化する。次いで、臨床サンプルなど、抗原を含有すると疑われる被験組成物をウェルに加える。結合させ、洗浄して非特異的に結合した免疫複合体を除去した後、結合した抗原を検出してもよい。検出は、一般に、検出可能な標識に結合した別の抗体を加えることによって達成される。このタイプのELISAは、単純な「サンドイッチELISA」である。検出はまた、第2の抗体の添加、続いて第2の抗体に対する結合親和性を有する第3の抗体の添加によって達成され得、第3の抗体は検出可能な標識に連結されている。
【0318】
別の例示的なELISAでは、抗原を含有すると疑われるサンプルをウェル表面に固定し、次いで本発明の抗ORFメッセージ及び抗ORF翻訳産物抗体と接触させる。結合させ、洗浄して非特異的に結合した免疫複合体を除去した後、結合した抗ORFメッセージ及び抗ORF翻訳産物抗体を検出する。最初の抗ORFメッセージ及び抗ORF翻訳産物抗体が検出可能な標識に連結されている場合、免疫複合体は直接検出され得る。ここでも、免疫複合体は、第1の抗ORFメッセージ及び抗ORF翻訳産物抗体に対して結合親和性を有する第2の抗体を使用して検出され得、第2の抗体は検出可能な標識に連結されている。
【0319】
抗原を固定化する別のELISAでは、検出に抗体競合の使用が含まれる。このELISAでは、抗原に対する標識抗体をウェルに加え、結合させ、その標識によって検出する。コーティングされたウェルを用いて、インキュベーション中にサンプルを抗原に対する標識抗体と混合することによって、未知のサンプル中の抗原の量を測定する。サンプル中の抗原の存在は、ウェルへの結合に利用できる抗原に対する抗体の量を減少させるように作用し、最終的なシグナルを減少させる。これは、未知のサンプル中の抗原に対する抗体の検出にも適しており、その場合、抗原でコーティングされたウェルに非標識抗体が結合し、標識抗体に結合するために利用できる抗原の量も減少する。
【0320】
タンパク質発現アッセイ
表現型アッセイデータの第3のタイプは、遺伝子発現データである。様々な実施形態において、遺伝子発現データは、1つ以上の遺伝子の定量的発現レベル、1つ以上の遺伝子が示差的に発現しているかどうかの指標(例えば、より高いまたはより低い発現)、参照値(例えば、健常者における参照遺伝子発現レベル)に対しての遺伝子の発現レベルの比率を含む。様々な実施形態において、遺伝子発現データのこれらの例は、機械学習モデルの特徴として機能し得る。様々な実施形態において、以前に同定された遺伝子パネルの遺伝子の発現レベルは、機械学習モデルの特徴として機能し得る。例えば、パネル内の遺伝子は、それらが示差的に発現している場合、疾患関連遺伝子として事前に同定され得る。
【0321】
様々な実施形態において、遺伝子発現データは、細胞配列決定データ及び/またはタンパク質発現データを使用して決定することができる。例えば、細胞配列決定データは、転写産物レベルの配列決定データ(例えば、mRNA配列決定データまたはRNA-seqデータ)であってもよい。したがって、特定のmRNA転写産物の存在量は、mRNA転写産物を転写する対応する遺伝子の発現レベルを示している可能性がある。mRNA転写レベルに基づく発現差解析は、baySeq(Hardcastle,T.et al. baySeq:Empirical Bayesian methods for identifying differential expression in sequence count data. BMC bioinformatics,11,1-14(2010)),DESeq(Anders,S.et al. Differential expression analysis for sequence count data. Genome biology,11,R106,(2010)),EBSeq(Leng,N.et al. EBSeq:an empirical Bayes hierarchical model for inference in RNA-seq experiments. Bioinformatics,29,1035-1043,2013),edgeR(Robinson,M.D.et al. edgeR:a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics,26,139-140,(2010)),NBPSeq(Di,Y.,et al.,The NBP Negative Binomial Model for Assessing Differential Gene Expression from RNA-Seq. Statistical applications in genetics and molecular biology,10,1-28(2011)),SAMseq(Li,J.et al. Finding consistent patterns: a nonparametric approach for identifying differential expression in RNA-Seq data. Statistical methods in medical research,22,519-536,(2013)),ShrinkSeq(Van De Wiel,M.A.et al. Bayesian analysis of RNA sequencing data by estimating multiple shrinkage priors. Biostatistics,14,113-128(2013)),TSPM(Auer,P.L.et al. A Two-Stage Poisson Model for Testing RNA-Seq Data. Statistical applications in genetics and molecular biology,10(2011),voom(Law,C.W.et al. voom:Precision weights unlock linear model analysis tools for RNA-seq read counts. Genome biology,15,R29(2014)),limma(Smyth,G.K. Linear models and empirical bayes methods for assessing differential expression in microarray experiments. Statistical applications in genetics and molecular biology,3,Article3(2004)),PoissonSeq(Li,J.et al. Normalization,testing,and false discovery rate estimation for RNA-sequencing data. Biostatistics,13,523-538(2012)),DESeq2(Love,M.I.et al. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome biology,15,550(2014)),及びODP(Storey,J.D. The optimal discovery procedure:a new approach to simultaneous significance testing. Journal of the Royal Statistical Society:Series B(Statistical Methodology),69,347-368(2007))などの利用可能なツールを使用して実行することができ、これらのそれぞれはその全体が参照により本明細書に援用される。
【0322】
別の例として、タンパク質発現データは、遺伝子発現レベルの読み出しとしても機能する。タンパク質の発現レベルは、タンパク質に翻訳されるmRNA転写産物のレベルに対応している場合がある。ここでも、mRNA転写産物のレベルは、対応する遺伝子の発現レベルを示し得る。いくつかの実施形態では、異なるレベルのmRNA及びタンパク質をもたらし得る転写後修飾及び翻訳後修飾が存在する場合、細胞配列決定データ及びタンパク質発現データの両方を使用して遺伝子発現データを決定する。
【0323】
画像化及び免疫組織化学のためのアッセイ
表現型アッセイデータの第4のタイプには、高分解能顕微鏡データ及び/または免疫組織化学画像データなどの顕微鏡データが含まれる。顕微鏡データは、共焦点顕微鏡、超高解像度顕微鏡、in vivo二光子顕微鏡、電子顕微鏡(例えば、走査型電子顕微鏡または透過型電子顕微鏡)、原子間力顕微鏡、明視野顕微鏡、及び位相差顕微鏡を含む様々な画像化様式を使用して捕捉することができる。様々な実施形態において、顕微鏡画像から取り込まれた顕微鏡データは、機械学習モデルの特徴として機能し得る。顕微鏡データを分析するための画像分析ツールの例として、CellPAINT(例えば、NeuroPAINTなどの細胞特異的Paintアッセイを含む)、プール化光学スクリーニング(POSH)、及びCellProfilerが挙げられる。様々な実施形態において、顕微鏡データは、機械学習を実装した分析を行わなければ、疾患細胞または正常細胞の表現型に関連付けることが困難な高次元データを表す。顕微鏡データの例として、顕微鏡画像、特定のマーカーの抗体染色、イオン(例えば、ナトリウム、カリウム、カルシウム)、細胞の分裂速度、細胞の数、細胞の周囲環境、及び疾患マーカー(例えば、免疫組織化学画像における、炎症、変性、細胞の膨張/萎縮、線維症、マクロファージ動員、免疫細胞のマーカー)の有無の画像化が挙げられる。
【0324】
いくつかのシナリオでは、in vitro細胞をウェルに播種し、次いで蛍光標識された一次/二次抗体などを使用して染色する。いくつかの実施形態では、in vitro細胞を画像化の前に固定する。いくつかの実施形態では、in vitro細胞に対して生細胞イメージングを行って、経時的な細胞表現型の変化を観察することができる。
【0325】
共焦点顕微鏡の場合、組織または組織オルガノイドを、最適な組織切断化合物に包埋し、-20℃で凍結させる。凍結したら、ミクロトームを使用して組織を(例えば、厚さ5~50ミクロンに)スライスする。組織切片を、スライドガラスにマウントする。組織切片を染色して固定し、画像化用に調製する。いくつかの実施形態では、ブロッキング緩衝液を使用して組織を処理し、一次抗体と組織との間の非特異的染色を遮断する。ブロッキング緩衝液の例として、リン酸緩衝生理食塩水中の1%ウマ血清が挙げられる。一次抗体を適切な希釈率に希釈し、組織切片に塗布する。組織切片を洗浄し、一次抗体に特異的な二次抗体と共にインキュベートする。いくつかの実施形態では、一次抗体及び/または二次抗体を、蛍光標識する。組織切片を洗浄し、画像化用に調製する。次いで、蛍光(例えば、共焦点)顕微鏡を使用して組織切片を画像化することができる。
【0326】
免疫組織化学については、組織を固定し、パラフィンで包埋し、切断する。通常、ホルムアルデヒド固定液を使用して組織を固定する。組織を、漸増濃度のエタノール(例えば、70%、90%、100%エタノール)に連続的に浸漬させて脱水し、次いでキシレンに浸漬する。組織をパラフィンに包埋し、次いで組織切片(例えば、厚さ5~15μm)に切断する。これは、ミクロトームを使用して達成することができる。組織切片を組織学的スライドにマウントし、乾燥させる。
【0327】
次いで、パラフィン包埋切片を、関心対象の特定の標的(例えば、タンパク質、バイオマーカー)について染色することができる。切片を再水和し(例えば、漸減濃度のエタノール-100%、95%、70%、及び50%エタノール中で)、次いで脱イオンH2Oで洗浄する。必要に応じて、ブロッキング緩衝液を使用して組織を処理して、一次抗体と組織間の非特異的染色を遮断する。ブロッキング緩衝液の例として、リン酸緩衝生理食塩水中の1%ウマ血清が挙げられる。一次抗体を適切な希釈率に希釈し、組織切片に塗布する。組織切片を洗浄し、一次抗体に特異的な二次抗体と共にインキュベートする。組織切片を洗浄し、次いでマウントする。次いで、顕微鏡(例えば、明視野顕微鏡、位相差顕微鏡、蛍光顕微鏡)を使用して組織切片を画像化することができる。免疫組織化学を実施するための追加の方法は、Simon et al.,BioTechniques,36(1):98(2004)及びHaedicke et al.,BioTechniques,35(1):164(2003)にさらに詳細に記載されており、これらのそれぞれはその全体が参照により本明細書に援用される。様々な実施形態において、免疫組織化学は、Roche Groupから入手可能なBenchmark ULTRAシステムなどの市販の機器を使用して自動化することができる。
【0328】
代謝データのアッセイ
表現型アッセイデータの第5のタイプには、代謝データが含まれる。一般に、代謝データは、特定の時間における細胞内の代謝産物のレベル、または細胞によって生成される代謝産物のレベルなど、特定の時間における細胞の生理機能の視覚化を提供する。代謝データは、メタボローム、例えば、代謝産物の完全なセットとして表され得る。様々な実施形態において、代謝データは、摂動因子に応答して細胞内または細胞によって産生される代謝産物のレベルを含み得る。代謝データの例として、細胞が発現し、検出される代謝産物レベル、関連する2つの代謝産物のレベルの比率(例えば、第1の代謝産物と第2の代謝産物のレベルの比率(第1の代謝産物は第2の代謝産物の前駆体である))、または参照値(例えば、健常者における参照代謝産物レベル)に対する代謝産物レベルの比率が挙げられる。様々な実施形態において、これらの例示的な代謝データは、機械学習モデルの特徴として機能し得る。
【0329】
様々な実施形態において、代謝産物は、サイズが1.5kDa未満である。代謝産物の例として、酸素、二酸化炭素、グルコース、インスリン、乳酸、グルタミン、グルタミン酸、リポタンパク質、アルブミン、脂肪酸、ATP、及びNADH関連分子(例えば、NAD、NADP、NADPH)が挙げられる。他の代謝産物の例は、METLINまたはHuman Metabolome Database(HMDB)などの公的に利用可能なデータベースで見出すことができる。
【0330】
様々な実施形態において、例示的な代謝産物の検出は、異なる代謝産物の定量的レベルの決定を容易にするように設計された市販のキットを使用することができる。市販のキットの例として、酸素消費、解糖、脂肪酸代謝、ATP、NADH、及び関連分子を測定するためのABCAMアッセイ、NAD、NADP、NADH、及びNADPHアッセイのためのPROMEGAアッセイ、代謝産物アッセイ(グルコース、乳酸、グルタミン、グルタミン酸)、ならびにATP測定キット、Amplex(商標)アッセイキット、ThioTracker(商標)アッセイ、またはVybrant(商標)Cell Metabolic AssayキットなどのThermo Fisher Scientificアッセイが挙げられる。
【0331】
一般に、キットは、代謝産物を含むサンプルに1つ以上の試薬を添加することを含み、1つ以上の試薬は、標的代謝産物と結合または相互作用することができる。試薬と標的代謝産物の相互作用は、フローサイトメトリー、蛍光顕微鏡、マイクロプレート(例えば、生物発光、化学発光、または蛍光リーダー)、または分光計などの様々な検出方法を使用して検出することができる。様々な実施形態において、検出される強度レベルは、サンプル中の標的代謝産物の濃度の直接的または間接的な読み取り値である。
【0332】
様々な実施形態において、核磁気共鳴(NMR)、質量分析(MS)、または赤外線分光法(IS)などの代謝産物検出技術を使用して、代謝産物を検出することができる。一般に、そのような方法は、代謝産物を検出するための同位体の使用を伴う。同位体を使用して標的代謝産物を検出する方法は、米国特許第6,849,396号に記載されており、その全体が参照により本明細書に援用される。
【0333】
質量分析については、以下の様々なクラスの代謝産物の分析を以下で見出し得る:(1)脂質(例えば、Fenselau,C.,“Mass Spectrometry for Characterization of Microorganisms”,ACS Symp. Ser.,541:1-7(1994));(2)揮発性代謝産物(例えば、Lauritsen,F.R.and Lloyd,D.,“Direct Detection of Volatile Metabolites Produced by Microorganisms,” ACS Sympl Ser.,541:91-106(1994)を参照のこと);(3)炭化水素(例えば、Fox,A.and Black,G.E.,“Identification and Detection of Carbohydrate Markers for Bacteria”,ACS Symp. Ser.541:107-131(1994)を参照のこと;(4)核酸(例えば、Edmonds,C.G.,et al.,“Ribonucleic acid modifications in microorganisms”,ACS Symp. Ser.,541:147-158(1994)を参照のこと;ならびに(5)タンパク質(例えば、Vorm,O.et al.,“Improved Resolution and Very High Sensitivity in MALDI TOF of Matrix Surfaces made by Fast Evaporation,” Anal.Chem.66:3281-3287(1994);及びVorm,O.and Mann,M.,“Improved Mass Accuracy in Matrix-Assisted Laser Desorption/Ionization Time-of-Flight Mass Spectrometry of Peptides”,J.Am.Soc.Mass. Spectrom.5:955-958(1994)を参照のこと)。これらのそれぞれは、その全体が参照により本明細書に援用される。さらに、同位体分析を実施するためのIR法及びNMR法は、例えば、米国特許第5,317,156号;Klein,P.et al.,J.Pediatric Gastroenterology and Nutrition 4:9-19(1985);Klein,P.,et al.,Analytical Chemistry Symposium Series 11:347-352(1982)において述べられており、これらのそれぞれは、その全体が参照により本明細書に援用される。
【0334】
様々な実施形態において、精製/分離したサンプルから代謝産物を検出し、それにより、検出の感度及び/または特異性に影響を与える可能性がある他の成分(例えば、細胞破片)を除去する。例えば、サンプルは、電気泳動または高速液体クロマトグラフィーを使用して精製してもよい。したがって、NMR、MS、またはISを使用して精製サンプルを分析して、代謝産物濃度を検出することができる。
【0335】
細胞形態データのアッセイ
表現型アッセイデータの第6のタイプは、細胞形態データである。細胞形態データは、1つ以上の細胞(または細胞のコンパートメント/オルガネラ)の外観を指す。様々な実施形態において、細胞形態データは、機械学習を実装した分析を行わなければ、疾患細胞または正常細胞の表現型に関連付けることが困難な高次元データを表す。細胞形態データの例として、細胞または個々の細胞コンパートメント/オルガネラのサイズ、幾何学的形状、テクスチャ、強度(例えば、蛍光染色の強度)が挙げられる。細胞形態データの追加の例として、視野内の細胞と別の細胞との間の空間的関係、視野内の別の細胞に対する細胞の形態、または細胞コロニーに対する細胞の位置などの細胞の周囲の環境または前後関係上の特徴が挙げられ得る。他の例として、細胞の長さ、枝の数、細胞体のサイズ、核の直径、核の面積、長軸の長さ、短軸の長さ、染色強度、標準染色強度、最小強度、最大強度、中央強度、Zernlike強度の大きさ、隣接細胞数、隣接細胞との接触の割合、第1の最近接隣接細胞までの距離、第2の最近接隣接細胞までの距離、隣接細胞間の角度、テクスチャ、分散、テクスチャエントロピー、及び画像のコントラストが挙げられる。様々な実施形態において、これらの細胞形態データの例は、機械学習モデルの特徴として機能し得る。
【0336】
様々な実施形態において、細胞形態データを決定するための方法は、共焦点顕微鏡、超高解像度顕微鏡、in vivo二光子顕微鏡、電子顕微鏡(例えば、走査型電子顕微鏡または透過型電子顕微鏡)、原子間力顕微鏡、明視野顕微鏡、及び位相差顕微鏡のうちのいずれか1つを使用することを含む、細胞の画像化を含む。一般に、細胞を画像化すると、細胞(及び他の細胞)の一般的な形態を観察することができる。細胞形態データを決定するためのソフトウェア分析ツールの例として、CellProfilerが挙げられる。
【0337】
特定の実施形態では、細胞形態データの決定は、蛍光タンパク質について細胞を染色することを含み、それにより、蛍光タンパク質の画像化により、細胞の形態を視覚化することができる。そのような蛍光タンパク質の例として、DAPI(4’,6-ジアミジノ-2-フェニルインドール)及びTAP-4PHが挙げられる。蛍光タンパク質(及び対応する細胞の形態)は、蛍光イメージングによって捕捉することができる。いくつかの実施形態では、細胞の形態を視覚化するために細胞染色を必要としない。例えば、明視野顕微鏡法及び/または位相差顕微鏡法は、細胞の形態の直接的な可視化を可能にする細胞の画像の捕捉を可能にする。
【0338】
画像ベースの形態学的細胞特性の生成に関する詳細な説明は、Caicedo et al.,Data-analysis strategy for image-based cell profiling,Nature Methods,14,849-863(2017)に記載されており、その全体が参照により本明細書に援用される。
【0339】
細胞相互作用データのアッセイ
表現型アッセイデータの第7のタイプは、細胞相互作用データである。細胞相互作用データは、特定の細胞が疾患に関連しているかどうかを予測するうえで情報価値を有している可能性がある。様々な実施形態において、細胞相互作用データは、機械学習を実装した分析を行わなければ、疾患細胞または正常細胞の表現型に関連付けることが困難な高次元データを表す。様々な実施形態において、細胞相互作用データは、物理的相互作用(例えば、タンパク質-タンパク質相互作用、受容体-受容体相互作用、リガンド-リガンド相互作用、細胞外マトリックス-細胞外マトリックス(ECM)相互作用、受容体-リガンド相互作用、受容体-ECM相互作用、もしくはリガンド-ECM相互作用)、または分泌因子(例えば、成長因子、タンパク質、サイトカイン)を介した相互作用)を含み得る。相互作用の種類に加えて、細胞相互作用データの追加の例には、2つの細胞間の相互作用の総数、または細胞が相互作用している追加の細胞の総数を含めることができる。
【0340】
細胞相互作用データは、in vitro標本、ex vivo組織切片、または細胞のin vitro培養から取得することができる。細胞相互作用データを取得するための例示的な技術として、原子間力顕微鏡に基づく単一細胞力分光法、免疫組織化学染色、蛍光イメージング、または生細胞イメージングなどの画像化に基づく技術が挙げられる。細胞相互作用データを取得するための追加の手法には、個々の細胞の分子分析の実行が含まれる(これには、標本または組織切片の分離が必要である)。分子分析には、蛍光標識細胞分取、細胞のマイクロ流体分取/分割、個々の細胞の配列決定、または他の単一細胞「オーミクス」技術の実行が含まれる。さらに追加の技術には、イメージング結合型転写プロファイリング、イメージングベースの質量分析、ラマン顕微鏡法、及びサイクリック免疫蛍光法などの結合型分子プロファイリングアプローチが含まれる。細胞相互作用データを決定するための利用可能な技術の概説は、Nishida-Aoki et al.,Emerging approach to study cell-cell interacts intumor microenvironment,Oncotarget,10(7):785-797(2019)に記載されており、その全体が参照により本明細書に援用される。
【0341】
機能細胞データのアッセイ
表現型アッセイデータの第8のタイプは、機能細胞データである。機能細胞データは、細胞の挙動や活動を表すデータであり、特定の細胞が疾患に関連しているかどうかの予測に対する情報価値を有している。そのような挙動または活動には、細胞がどのように分裂するか、シグナルに応答するか、そのDNAを転写もしくは修復するか、またはいくつかの他のプロセスを実行する方法が含まれ得る。様々な実施形態において、細胞相互作用データは、機械学習を実装した分析を行わなければ、疾患細胞または正常細胞の表現型に関連付けることが困難な高次元データによって表わされる。様々な実施形態において、機能細胞データは、細胞から捕捉された電気生理学的シグナル及びイオンの細胞調節(例えば、細胞活動電位)を含み得る。電気生理学的シグナルの例として、心臓の電気生理学的研究によって得られた電気活動、または皮質電図(ECoG)もしくは脳波(EEG)によって得られた脳の電気活動が挙げられる。機能細胞データの特徴には、最大値/最小値、平均値、振動、持続時間(例えば、QRS群の持続時間など)などの電気生理学的シグナルの様々な特性が含まれ得る。
【0342】
治療薬
上述のように、開示される方法は、介入を選択し、検証することを含み得、これには、治療薬が含まれ得る。様々な実施形態において、介入は、治療薬を含む医薬組成物が含まれる。医薬組成物及び/または治療薬を、1つ以上の細胞アバターの細胞疾患モデルを使用して検証する。これは、1つ以上のアバターによって表される対象が、検証済みの治療薬を使用した治療の恩恵を受ける可能性が高いことを示唆している。
【0343】
医薬組成物
様々な実施形態において、医薬化合物は、許容可能な薬学的に許容される担体を含む。担体(複数可)は、製剤の他の成分と適合し、対象に有害でないという意味で「許容される」ものであるべきである。薬学的に許容される担体には、薬学的投与に適合する緩衝剤、溶媒、分散媒、コーティング、等張剤及び吸収遅延剤などが含まれる。一実施形態では、医薬組成物は、経口投与され、消化器系または腸内の封入物質の吸収部位を調節するのに適した腸溶性コーティングを含む。
【0344】
本明細書に開示されるような治療薬を含有する医薬組成物は、単位剤形で提供することができ、任意の適切な方法により調製することができる。医薬組成物は、その意図される投与経路に適合するように製剤化されるべきである。有用な製剤は、製薬業界で周知の方法によって調製することができる。例えば、Remington’s Pharmaceutical Sciences,18th ed.(Mack Publishing Company,1990)を参照のこと。
【0345】
いくつかの実施形態では、医薬製剤は無菌である。無菌は、例えば、除菌濾過膜を通じた濾過によって達成され得る。組成物を凍結乾燥する場合、フィルター除菌を、凍結乾燥及び再構成の前または後に行うことができる。
【0346】
小分子薬
小分子治療薬とは、一般に、疾患を治療するために細胞の挙動を調節する低分子量(例えば、1kDa未満)の治療薬を指す。そのような小分子薬は、標的細胞の1つ以上の生物学的標的に結合し、それによって標的細胞の生物学的標的の活性または機能に変化を引き起こす。そのサイズを考えると、小分子治療薬は細胞膜に浸透することができ、それによって細胞内にある生物学的標的に結合または影響を与えることができる。
【0347】
様々な実施形態において、小分子治療薬は、疾患に関与する生物学的標的を阻害する働きをする阻害剤である。例えば、小分子治療薬は、キナーゼ阻害剤、プロテアソーム阻害剤、プロテイナーゼ阻害剤、またはタンパク質阻害剤であり得る。さらに、小分子治療薬は、アルキル化剤、抗微小管剤、トポイソメラーゼ阻害剤、DNAインターカレーターなどの細胞複製を防止する化学療法剤であり得る。
【0348】
小分子治療薬のより包括的なリストは、DrugBank、ChemSpider、ChEMBL、KEGG、及びPubChemなどの公的に利用可能なデータベースにある。
【0349】
生物製剤
生物製剤とは、一般に、生物源から製造された治療薬を指す(例えば、細胞で生成されたもの)。生物製剤は、小分子薬よりも大きく、多くの場合、構造と分子構成が何倍も複雑である。様々な実施形態において、生物製剤は、1)生物製剤または生物製剤の一部をコードするDNA配列を生細胞に挿入し、2)細胞にDNA配列をタンパク質に転写/翻訳させ、3)細胞からタンパク質を単離することを含む製造方法によって合成され、その場合、タンパク質は、生物製剤または生物製剤の成分として機能する。生物製剤の例として、抗体(例えば、モノクローナル抗体またはポリクローナル抗体)、サイトカイン、成長因子、酵素、免疫調節剤、組換えタンパク質、ワクチン、アレルゲン、血液成分、ホルモン、治療用細胞(例えば、幹細胞)、組織、炭水化物、及び核酸が挙げられる。
【0350】
免疫療法
免疫療法は、疾患を治療するために免疫系を調節する(例えば、活性化または抑制する)治療薬である。例えば、免疫系を活性化することによってがん細胞を特定し標的化することによる、がんの治療のための免疫療法が研究されてきた。免疫療法は、様々な他の疾患の治療に有用である。
【0351】
免疫療法の例には、免疫チェックポイント分子及び免疫チェックポイント分子の阻害剤が含まれる。免疫チェックポイント分子の例として、プログラム細胞死1(PD-1)、PD-L1、PD-L2、Cytotoxic T-Lymphocyte Antigen 4 (CTLA-4)、TIM-3、CEACAM(例えば、CEACAM-1、CEACAM-3及び/またはCEACAM-5)、LAG-3、VISTA、BTLA、TIGIT、LAIR1、CD160、2B4、CD80、CD86、B7-H1、B7-H3(CD276)、B7-H4(VTCN1)、HVEM(TNFRSF14またはCD270)、KIR、A2aR、MHC class I、MHC class II、GAL9、アデノシン、TGFR(例えば、TGFRβ)が挙げられるが、これらに限定されない。免疫チェックポイント分子の阻害剤の例として、PD-1、PD-L1、LAG-3、TIM-3、OX40、CEACAM(例えば、CEACAM-1、CEACAM-3及び/またはCEACAM-5)またはCTLA-4の阻害剤が挙げられる。いくつかの実施形態では、PD-1阻害剤は、ニボルマブ、ペンブロリズマブ、またはピディリズマブなどの抗PD-1抗体である。
【0352】
遺伝子治療
遺伝子治療には、疾患を治療するために標的細胞にペイロード(例えば、核酸ペイロード)を送達する治療薬が含まれる。例えば、遺伝子治療は、DNAを標的細胞に送達し、それにより、標的細胞が、送達されたDNAを、疾患を治療するタンパク質へと転写し、翻訳する。
【0353】
様々な実施形態において、遺伝子治療は、標的細胞に到着したときに標的細胞にペイロードを注入する送達ビヒクルとしてウイルスを利用する。ウイルス遺伝子ベクターの例には、レトロウイルス、アデノウイルス、アデノ随伴ウイルス、単純ヘルペスウイルス、及び複製能力のあるウイルスが含まれる。様々な実施形態において、遺伝子治療は、非ウイルス法を含み、この方法は、対応するウイルスベクターと比較して、より大規模な生産及び宿主の免疫原性を低下させる。非ウイルス性送達ビヒクルの例として、脂質及び高分子材料、デンドリマー、ならびに無機ナノ粒子などのナノ材料が挙げられる。脂質は、カチオン性、アニオン性、または中性であり得る。材料は、合成または天然由来、いくつかの例では生分解性であり得る。脂質には、脂肪、コレステロール、リン脂質、ポリエチレングリコール(PEG)複合体(PEG化脂質)を含むがこれに限定されない脂質複合体、ワックス、油、グリセリド、及び脂溶性ビタミンが含まれ得る。
【0354】
標的細胞に送達されるペイロードの量を増強する物理的または化学的方法を含む、遺伝子治療の送達を促進するための追加の方法を実施することができる。物理的方法の例には、エレクトロポレーション、ソノポレーション、マグネトフェクション、及び流体力学的送達が含まれる。化学的方法には、細胞の結合と取り込みを向上させるウイルスまたはナノマテリアルベクターの表面の改変が含まれる。例えば、カチオン性脂質は、標的細胞への細胞結合を増加させる一方で、DNAペイロードを保有する脂質ナノ粒子の安定性を高めることができる。追加の例は、細胞透過性ペプチドを含むように表面を改変し、それによって細胞への送達を増加させることを含む。
【0355】
遺伝子治療にはさらに、細胞の挙動を調節して疾患を治療する核酸が含まれる。例には、二本鎖DNA、一本鎖DNsiRNA、shRNA、RNAi、オリゴヌクレオチド(例えば、アンチセンスオリゴヌクレオチド)、及びmiRNAが含まれる。遺伝子治療にはさらに、標的細胞の遺伝子を編集するための技術が含まれる。遺伝子編集療法には、cDNA構築物、CRISPR(例えば、CRISPRn)、TALENS、ジンクフィンガーヌクレアーゼ、または他の遺伝子編集技術が含まれる。
【0356】
非一時的コンピュータ可読媒体
本明細書ではまた、本明細書で説明する方法のいずれかを実施するように構成されたコンピュータ実行可能命令を含むコンピュータ可読媒体も提供する。様々な実施形態において、コンピュータ可読媒体は、非一時的コンピュータ可読媒体である。いくつかの実施形態では、コンピュータ可読媒体は、コンピュータシステムの一部(例えば、コンピュータシステムのメモリ)である。コンピュータ可読媒体は、臨床表現型を予測する目的で機械学習モデルを実装するためのコンピュータ実行可能命令を含み得る。
【0357】
演算装置
細胞疾患モデルをトレーニングし、展開する方法を含む上記の方法は、いくつかの実施形態では、演算装置上で実行される。演算装置の例としては、パーソナルコンピュータ、デスクトップコンピュータ、ラップトップ、サーバコンピュータ、クラスタ内の演算ノード、メッセージプロセッサ、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサベースまたはプログラミング可能な消費者エレクトロニクス、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、携帯電話、PDA、タブレット、ポケベル、ルーター、スイッチなどを挙げることができる。
【0358】
図6は、
図2A、2B、3、4、及び5A~5Dに示すシステム及び方法を実装するための、例示的な演算装置600を示す。いくつかの実施形態では、演算装置600は、チップセット604に結合した少なくとも1つのプロセッサ602を含む。チップセット604は、メモリコントローラハブ620、及び入力/出力(I/O)コントローラハブ622を含む。メモリ606及びグラフィックスアダプター612は、メモリコントローラハブ620に連結され、ディスプレイ618は、グラフィックスアダプター612に連結される。記憶装置608、入力インタフェース614、及びネットワークアダプター616が、I/Oコントローラハブ622に連結される。演算装置600の他の実施形態は、異なる構造を有する。
【0359】
記憶装置608は、ハードドライブ、コンパクトディスクリードオンリーメモリ(CD-ROM)、DVD、またはソリッドステートメモリデバイスなどの、非一時的コンピュータ可読記憶媒体である。メモリ606は、プロセッサ602によって使用される命令及びデータを保持する。入力インタフェース614は、タッチスクリーンインタフェース、マウス、トラックボール、または他の種類の入力インタフェース、キーボード、またはいくつかのこれらの組み合わせであり、データを演算装置600に入力するために使用する。いくつかの実施形態では、演算装置600は、入力インタフェース614から、ユーザのジェスチャを介して、入力(例えばコマンド)を受けるように構成され得る。グラフィックスアダプター612は、ディスプレイ618に、画像及び他の情報を表示する。例えば、ディスプレイ618は、治療、例えば、細胞疾患モデルを適用することによって検証された治療の指示を示すことができる。別の例として、ディスプレイ618は、転帰(例えば、好ましい転帰または有害な転帰)に寄与する可能性が高い共通の化学構造基の指示を示すことができる。別の例として、ディスプレイ618は、細胞疾患モデルの実施を通じて、介入に好意的に応答すると予測された候補患者集団を示すことができる。ネットワークアダプター616は、演算装置600を1つ以上のコンピュータネットワークに連結する。
【0360】
演算装置600は、本明細書に記載される機能性を提供するためのコンピュータプログラムモジュールを実行するように適合される。本明細書中で使用する場合、用語「モジュール」とは、指定された機能性を提供するために使用されるコンピュータプログラム論理を指す。したがって、モジュールは、ハードウェア、ファームウェア、及び/またはソフトウェアに実装され得る。一実施形態では、プログラムモジュールは、記憶装置608に記憶され、メモリ606にロードされ、プロセッサ602によって実行される。
【0361】
演算装置600の種類は、本明細書に記載する実施形態によって様々に異なり得る。例えば、演算装置600は、グラフィックスアダプター612、入力インタフェース614、及びディスプレイ618などの、上述した構成要素のいくつかを欠く場合がある。いくつかの実施形態では、演算装置600は、メモリ606に格納された命令を実行するためのプロセッサ602を含み得る。
【0362】
様々な実施形態において、
図7A及び/または
図7Bに示す異なるエンティティは、機械学習モデルをトレーニングし、細胞疾患モデルを展開する方法を含む、1つ以上の演算装置を実装して上記の方法を実行し得る。例えば、臨床表現型システム204、サードパーティエンティティ702A、及びサードパーティエンティティ702Bはそれぞれ、1つ以上の演算装置を使用し得る。別の例として、臨床表現型システム204のサブシステム(例えば、疾患因子分析システム205、細胞改変システム206、表現型アッセイシステム207、及び細胞疾患モデル分析システム208)の1つ以上は、上記の方法を実行するための1つ以上の演算装置を使用し得る。
【0363】
機械学習モデル及び/または細胞疾患モデルのトレーニング及び展開は、ハードウェアもしくはソフトウェア、またはその両方の組み合わせで実装することができる。一実施形態では、上述したものなどの非一時的コンピュータ可読記憶媒体を提供し、その媒体は、前記データを用いるための指示でプログラミングされた機械を用いる際に、本発明の細胞疾患モデルのデータセット及び実行及び結果のいずれかを表示可能な、機械で読取り可能なデータでコードされた、データ格納マテリアルを含む。そのようなデータは、患者のモニタリング、治療の考慮などの、様々な目的のために使用することができる。上述した方法の実施形態を、プロセッサ、データ記憶システム(揮発性及び不揮発性メモリ、及び/または記憶素子を含む)、グラフィックスアダプター、入力インタフェース、ネットワークアダプター、少なくとも1つの入力装置、ならびに少なくとも1つの出力装置を含む、プログラミング可能なコンピュータ上で実行するコンピュータプログラムに実装することができる。ディスプレイは、グラフィックスアダプターに連結される。プログラムコードを入力データに適用して、上記の機能を実行し、出力情報を生成する。出力情報は、既知の方法で、1つ以上の出力装置に適用される。コンピュータは、例えば、従来の設計のパーソナルコンピュータ、マイクロコンピュータ、またはワークステーションであり得る。
【0364】
高レベルの手続き型またはオブジェクト指向のプログラミング言語で各プログラムを実装して、コンピュータシステムと通信することができる。しかしながら、所望により、アセンブリ言語または機械語でプログラムを実装することができる。いずれの場合でも、言語は、コンパイル済み言語またはインタープリタ言語であり得る。そのような各コンピュータプログラムは、好ましくは、汎用または特殊目的のプログラム可能なコンピュータによって読み取り可能な記憶媒体または装置(例えば、ROMまたは磁気ディスケット)に記憶され、その記憶媒体または装置がコンピュータによって読み取られて、本明細書に記載の手順が実行される場合に、コンピュータを構成及び操作するためのものである。システムはまた、コンピュータプログラムで構成されたコンピュータ可読記憶媒体として実装されることが想定され、そのように構成された記憶媒体は、特定の事前定義された方式でコンピュータを動作させ、本明細書に記載の機能を実行する。
【0365】
シグネチャパターン及びそのデータベースは、それらの使用を容易にするために、様々な媒体で提供され得る。「媒体」とは、本発明のシグネチャパターン情報を含む製品を指す。本発明のデータベースは、コンピュータ可読媒体、例えば、コンピュータによって直接読み取られ、アクセスされ得る任意の媒体に記録され得る。そのような媒体としては、フロッピーディスク、ハードディスク記憶媒体、及び磁気テープなどの磁気記憶媒体;CD-ROMなどの光学的記憶媒体;RAM及びROMなどの電気記憶媒体;ならびに磁気/光学的記憶媒体などの分野のハイブリッドが挙げられるが、これらに限定されない。本データベース情報の記憶を含む製品を作製するために、任意の既存のコンピュータ可読媒体がどのように使用され得るかを当業者であれば容易に理解されるであろう。「記録された」とは、当技術分野で公知の方法を使用して、コンピュータ可読媒体に情報を保存するためのプロセスを指す。保存された情報にアクセスするために使用される手段に基づいて、任意の簡便なデータ保存構造を選択することができる。様々なデータプロセッサプログラム及びフォーマット、例えば、ワープロテキストファイル、データベースフォーマットなどを、保存のために使用することができる。
【0366】
システム環境
図7Aは、一実施形態による、細胞疾患モデルを開発し、展開するためのシステム環境全体700を示す。システム環境全体700は、
図2Aを参照して前述したように、臨床表現型システム204、ならびにネットワーク704を介して互いに通信する1つ以上のサードパーティエンティティ702A及び702Bを含む。
図7Aは、システム環境全体700の一実施形態を示す。他の実施形態では、臨床表現型システム204と通信する追加または少数のサードパーティエンティティ702が含まれ得る。一般に、臨床表現型システム204は、予測、例えば、臨床表現型の予測を行う機械学習モデルを実装し、スクリーニングを実行するためにこれらの予測を使用して細胞疾患モデルをさらに展開する。サードパーティエンティティ702は、細胞疾患モデルの実施または細胞疾患モデルからの予測または結果の取得に関連する目的で、臨床表現型システム204と通信する。
【0367】
様々な実施形態において、臨床表現型システム204によって実行されるものとして上記で説明された方法は、臨床表現型システム204とサードパーティエンティティ702との間で分散され得る。例えば、サードパーティエンティティ702Aまたは702Bは、トレーニングデータを生成し、及び/または機械学習モデルをトレーニングすることができる。次いで、臨床表現型システム204は、機械学習モデルの予測を使用して、細胞疾患モデルを展開することができる。
【0368】
サードパーティエンティティ
様々な実施形態において、サードパーティエンティティ702は、臨床表現型システム204の上流または下流のいずれかで動作する臨床表現型システム204のパートナーエンティティを表す。一例として、サードパーティエンティティ702は、臨床表現型システム204の上流で動作し、臨床表現型システム204に情報を提供して、細胞疾患モデルの開発及び展開を可能にする。このシナリオでは、臨床表現型システム204は、健康な対象、疾患の症状を有する対象、またはサードパーティエンティティ702によって収集された疾患に罹患していることが確認された対象に関する対象データを受信する。臨床表現型システム204はまた、サードパーティエンティティ702によって収集または生成された疾患に関連するヒトゲノムデータの機械学習モデルまたは他の計算解析から生成された疾患及び遺伝子研究の公表されたゲノムアノテーションを受信し得る。臨床表現型システム204は、機械学習モデルを使用して受信した対象データ及び他のデータを分析し、臨床表現型を予測する。別の例として、サードパーティエンティティ702は、臨床表現型システム204の下流で動作する。このシナリオでは、臨床表現型システム204は、予測された臨床表現型を生成し、予測された臨床表現型に関する情報をサードパーティエンティティ702に提供する。その後、サードパーティエンティティ702は、臨床表現型に関する情報を自身の目的のために使用することができる。例えば、サードパーティエンティティ702は、医療提供者であり得る。したがって、医療提供者は、予測された臨床表現型に従って患者に適切な医学的配慮(例えば、医学的アドバイス、治療、介入など)を提供することができる。別の例では、サードパーティエンティティ702は、医薬品開発者であり得る。したがって、医薬品開発者は、候補療法の調査または選択、または候補療法を受ける患者集団または臨床対象コホートの選択において、予測された臨床表現型データを使用することができる。
【0369】
ネットワーク
本開示は、臨床表現型システム204とサードパーティエンティティ702との間の接続を可能にする任意の適切なネットワーク704を企図する。ネットワーク704は、有線及び/または無線通信システムの両方を使用して、ローカルエリア及び/またはワイドエリアネットワークの任意の組み合わせを含み得る。一実施形態では、ネットワーク704は、標準的な通信技術及び/またはプロトコルを使用する。例えば、ネットワーク704は、イーサネット、802.11、ワールドワイド・インターオペラビリティ・フォー・マイクロウェーブ・アクセス(WiMAX)、3G、4G、符号分割多元接続(CDMA)、デジタル加入者回線(DSL)などの技術を使用する通信リンクを含む。ネットワーク704を介して通信するために使用されるネットワークプロトコルの例として、マルチプロトコル・ラベル・スイッチング(MPLS)、伝送制御プロトコル/インターネット・プロトコル(TCP/IP)、ハイパーテキスト・トランスポート・プロトコル(HTTP)、簡易メール転送プロトコル(SMTP)、及びファイル転送プロトコル(FTP)が挙げられる。ネットワーク704を介して交換されるデータは、ハイパーテキストマークアップ言語(HTML)または拡張マークアップ言語(XML)などの任意の適切なフォーマットを使用して表され得る。いくつかの実施形態では、ネットワーク704の通信リンクの全部または一部を、任意の適切な技法を使用して暗号化してもよい。
【0370】
アプリケーションプログラミングインターフェイス(API)
様々な実施形態において、臨床表現型システム204は、1つ以上のアプリケーションプログラミングインターフェース(API)706を介してサードパーティエンティティ702Aまたは702Bと通信する。API706は、データフィールド、コーリングプロトコル、及びサードパーティエンティティ702によって維持されるコンピューティングシステムと臨床表現型システム204との間の機能交換を定義し得る。API706は、サードパーティエンティティ702によって受信または提供されるデータ、及び臨床表現型システム204によって受信または提供されるデータのパラメータを定義または制御するために実装され得る。例えば、APIは、疾患因子分析システム205または細胞疾患モデルシステム208、またはそれらの組み合わせもしくはサブセットなど、臨床表現型システム204を含むサブシステムのうちの1つによって生成された情報のみへのアクセスを提供するために実装され得る。API706は、臨床表現型システム204によってサードパーティエンティティ702に提供される情報のライセンス制限及び追跡メカニズムの実装をサポートし得る。API706によってサポートされるそのようなライセンス制限及び追跡メカニズムは、ブロックチェーンベースのネットワーク、安全な台帳、及び情報管理キーを使用して実装できる。APIの例として、リモートAPI、Web API、オペレーティングシステムAPI、またはソフトウェアアプリケーションAPIが挙げられる。
【0371】
APIは、ルーチン、データ構造、オブジェクトクラス、及び変数の仕様を含むライブラリの形式で提供され得る。他の場合では、APIは、APIコンシューマーに公開されるリモート呼び出しの仕様として提供され得る。API仕様は、POSIXなどの国際標準、Microsoft Windows APIなどのベンダードキュメント、またはプログラミング言語のライブラリ、例えば、C++またはJava APIにおける標準テンプレートライブラリを含む、様々な形式をとり得る。様々な実施形態において、臨床表現型システム204は、臨床表現型システム204または臨床表現型システム204のサブシステムのために特別に開発されたカスタムAPIのセットを含む。
【0372】
分散型コンピューティング環境
いくつかの実施形態では、機械学習モデルをトレーニングし、細胞疾患モデルを展開する方法を含む、上記の方法を、ローカルとリモートのコンピュータシステム(両方がタスクを実行する)がネットワークを介して連結された(ハードワイヤードデータリンク、ワイヤレスデータリンクによって、またはハードワイヤードとワイヤレスデータリンクの組み合わせによって)分散型コンピューティングシステム環境で実行する。いくつかの実施形態では、上記の方法を実装するための1つ以上のプロセッサは、単一の地理的場所(例えば、家庭環境内、職場環境内、またはサーバファーム内)に配置され得る。様々な実施形態において、上記の方法を実装するための1つ以上のプロセッサを、いくつもの地理的場所にわたって分散させてもよい。分散型コンピューティングシステム環境において、プログラムモジュールは、ローカル及びリモートのメモリ記憶装置の両方に配置され得る。
【0373】
図7Bは、
図7Aのシステム環境を実装するための分散型コンピューティングシステム環境750、ならびに上述の方法、例えば、
図2A、2B、3、4、及び5A~5Dに記載された方法の例示的な描写である。分散型コンピューティングシステム環境750は、通信ネットワークを介して、演算装置600などの計算リソースの少なくとも1つの分散型プール710と接続された制御サーバ708を含み得、その例は、
図6を参照して上述されている。様々な実施形態において、追加の分散プール710は、分散型コンピューティングシステム環境750内に制御サーバ708と共に存在し得る。計算リソースは、分散プール710内で専用に使用するか、または分散処理システム内の他のプール及び分散処理システム外の他のアプリケーションと共有することができる。さらに、分散プール710内の計算リソースは、必要に応じて演算装置600をプール710に追加するかまたは除去することにより、動的に割り当てることができる。
【0374】
様々な実施形態において、制御サーバ708は、分散プール710内の演算装置600の制御及び監視を提供するソフトウェアアプリケーションである。制御サーバ708自体は、演算装置(例えば、
図6を参照して上述した演算装置600)上で実装され得る。制御サーバ708と分散プール710内の演算装置600との間の通信は、ウェブサービスAPIなどのアプリケーションプログラミングインターフェース(API)を通じて容易にすることができる。いくつかの実施形態では、制御サーバ708は、分散プール710を制御するための管理及び計算リソース管理機能をユーザに提供する(例えば、リソースの可用性の定義、サブミッション、演算装置600によって実行されるタスクの監視及び制御、完了するタスクのタイミングの制御、タスクの優先度のランク付け、または完了したタスクの結果のデータの保存/送信)。
【0375】
様々な実施形態において、制御サーバ708は、分散型コンピューティングシステム環境750全体で実行される計算タスクを識別する。計算タスクは、分散プール710内の異なる演算装置600によって実行可能な複数の作業単位に分割することができる。計算タスクを複数の演算装置600に分割して実行させることにより、計算タスクを効果的に並列実行することができる。これにより、非分散型コンピューティングシステム環境と比較して、向上したパフォーマンスで(例えば、より高速に、少ないリソースの消費で)タスクを完了することができる。
【0376】
様々な実施形態において、分散プール710内の演算装置600を、それぞれのジョブに対して効果的なパフォーマンスを保証するために、異なる構成にすることができる。例えば、演算装置600の第1のセットを、表現型アッセイデータの収集及び/または分析を実行することに専念させてもよい。演算装置600の第2のセットを、機械学習モデルのトレーニングを実行することに専念させてもよい。機械学習モデルをトレーニングする際に、より多くのリソースが必要になる可能性が高いことを考えると、演算装置600の第1のセットは、第2の演算装置600の第2のセットよりも少ないランダムアクセスメモリ(RAM)及び/またはプロセッサを有していてもよい。
【0377】
分散プール710内の演算装置600は、それらのジョブのそれぞれを並行して実行することができ、完了すると、結果を永続的記憶装置に保存し、及び/または結果を制御サーバ708に送り返すことができる。制御サーバ105は、結果をコンパイルするか、または必要に応じて、結果をそれぞれの演算装置600に再配布して、継続的な処理を行うことができる。
【0378】
いくつかの実施形態では、分散型コンピューティングシステム環境750は、クラウドコンピューティング環境で実装される。本明細書では、「クラウドコンピューティング」は、構成可能な計算リソースの共有セットへのオンデマンドネットワークアクセスを可能にするモデルとして定義される。例えば、制御サーバ708及び分散プール710の演算装置600は、クラウドを通じて通信してもよい。したがって、いくつかの実施形態では、制御サーバ708及び演算装置600は、地理的に異なる場所に配置される。クラウドコンピューティングを使用して、構成可能な計算リソースの共有セットへのオンデマンドアクセスを提供することができる。構成可能な計算リソースの共有セットは、仮想化を介して迅速に供給され、少ない管理労力またはサービスプロバイダーの操作でリリースされ、それに応じてスケーリングすることができる。クラウドコンピューティングモデルは、例えば、オンデマンドセルフサービス、広域のネットワークアクセス、リソース共有、迅速な伸縮性、サービスの計測など、様々な特徴からなり得る。クラウドコンピューティングモデルは、例えば、サービスとしてのソフトウェア(「SaaS」)、サービスとしてのプラットフォーム(「PaaS」)、サービスとしてのインフラストラクチャ(「IaaS」)など、様々なサービスモデルを公開することもできる。クラウドコンピューティングモデルは、プライベートクラウド、コミュニティクラウド、パブリッククラウド、ハイブリッドクラウドなどの様々な展開モデルを使用して展開することもできる。本明細書及び特許請求の範囲において、「クラウドコンピューティング環境」とは、クラウドコンピューティングが使用される環境のことである。
【実施例】
【0379】
実施例1:細胞疾患モデルの生成
実施例1A:遺伝性疾患構造を決定するためのヒトデータ分析
ヒトのデータ分析段階での目標は、ヒト遺伝子コホート由来、文献由来、及び汎用(公的または独自の)細胞データまたは組織レベルのゲノムデータに由来するデータを組み合わせて、所与の疾患を引き起こす一連の遺伝的、細胞的、及び環境因子を解明することである。この疾患の理解は、細胞疾患モデルを構築するためのその後の段階で使用される。
【0380】
ステップ1:以下のような1つ以上の関連する臨床表現型を特定または構築することにより、疾患の臨床的記述を構築する:
a)疾患状態または疾患の進行などの確認された表現型の使用
b)測定された中間形質(例えば、HbA1cレベル、脳容積)を要約または処理するための標準的なアプローチの使用
c)MLによって生成される新規表現型を定義するための、測定された内部表現型に対する教師あり、半教師あり、または教師なしの機械学習の使用、例えば、
i)組織病理学または放射線データの画像解析
ii)関連するバイオマーカー(例えば、血液、尿など)からの疾患状態の推定
d)任意選択で、患者を個別のサブセットにセグメント化するか、または後に個別に分析する個別疾患プロセスを特定するための、教師なし機械学習手法の使用
【0381】
ステップ2:疾患(または疾患のサブタイプもしくは疾患プロセス)に関連する遺伝子座を特定する。
a)各患者の遺伝子データを取得する:ジェノタイピングアレイ、全エクソーム配列決定、全ゲノム配列決定など。
b)以下を含む、適切な遺伝子解析アプローチを使用して、疾患を引き起こす遺伝子シグナルを特定する。
i)様々なコーディングまたは非コーディング変化の予測される関連性の計算(例えば、タンパク質切断バリアント、ミスセンスバリアント、スプライスバリアント、転写結合部位に影響を与える可能性が高いバリアントなど)。
ii)単一または多重バリアントの遺伝的関連分析;
iii)例えば、負荷試験を使用した、希少バリアント分析
iv)統計的検出力を高めるための関連する特性の多重特性分析
v)GWASのメタ分析
【0382】
ステップ3:他のデータソースを使用して、特定の原因要素にさらに絞り込む:病因バリアント、病因遺伝子、または各遺伝子座内の他のゲノム単位(例えば、エンハンサー)、及び疾患(または疾患サブタイプまたは疾患プロセス)に対するそれらの影響の予測される性質。以下のいずれも使用することができる:
a)上記の異なるバリアントの予測関連性
b)eQTL、ATACseq、Chip-seq、3Dゲノムデータ(クロマチンコンタクトマップなど)、連鎖平衡ブロックとの共局在化などの追加のシグナルにより、機能的バリアントをノミネートし、それらを原因要素にリンクさせる。
c)ヒト遺伝子型におけるコード変化の枯渇(ExAC、gnomAD)
d)遺伝子が関連する組織で発現しているか
e)疾患状態で遺伝子発現が変化したか
f)遺伝子が(関連する)疾患に関与しているか
g)遺伝子が動物モデルにおいて表現型を有するか
【0383】
いくつかのシナリオでは、原因要素を使用して、遺伝学に基づいて様々な個体のリスクを計算する多遺伝子リスクスコアを定義する。
【0384】
ステップ4:標準的または独自の技術を使用して、関連する細胞型、経路、及び疾患に関与するプロセスを特定する。
a)病因遺伝子が濃縮された分子経路、生物学的プロセス、または他の遺伝子セットを特定するために、様々なツール(例えば、MAGMA)を使用する。
b)単一細胞データ(RNAseq、ATACseq)を使用して、原因要素が活性である細胞型を特定する
c)病因遺伝子が所与の細胞型で疾患状態と相関する方法で示差的に発現するかどうかを試験する(例えば、健康と疾患の間で異なる発現レベル)。
d)その細胞型内で活性な原因要素に関連付けられている患者の多遺伝子性リスクスコアの成分を捕捉する、細胞型特異的な多遺伝子性リスクスコアを定義する。
【0385】
ステップ5:各細胞型において疾患状態/プロセスを駆動または刺激する環境模倣物を特定する:
a)疾患を引き起こすことが文献で示唆されている因子が存在するか(例えば、NASHの遊離脂肪酸、またはPDにおけるロテノン)
b)細胞型の健康と疾患の間で示差的に存在する分子は存在するか(例えば、サイトカイン、またはアミロイドβ、または代謝産物)
【0386】
実施例1B:トレーニングデータの生成
トレーニングデータを生成するために、標的細胞型、共培養における一連の細胞型、または生成するオルガノイド型を最初に決定する。この段階の転帰は、一連の細胞アバターであり、それぞれが実行された遺伝的及び環境的摂動によって特徴付けられ、また、一連の表現型アッセイデータ(及び、実験中に測定した条件の全範囲を捕捉するメタデータ)も含まれる。細胞アバターの表現型の特徴決定は、同一に処理した細胞のセットに対する集計測定値、または単一の細胞から得られた測定値を含み得る。
【0387】
ステップ1:疾患を予測する標的細胞型における疾患の遺伝的構造にアラインしたiPSCコホートの作成。いくつかの場合では、これは疾患が活動性である細胞型であるが、他の場合では、より扱いやすい代理の細胞型である。細胞内では、病因となる遺伝的因子の存在が確立される。これは、以下のアプローチの1つ以上の組み合わせによって実現される。
a)遺伝学が原因要素の多様な範囲の遺伝的多様性にまたがる可能性が高いiPSCを選択するか、原因要素の活性に影響を与える。
b)ゲノム編集を使用して、以下の組み合わせを含む(ただし、これらに限定されない)バリアントをiPSCにさらに導入する
i)CRISPRヌクレアーゼまたはCRISPR阻害を使用して、機能喪失遺伝子バリアントを作成する
ii)CRISPR活性化を使用して機能獲得遺伝子バリアントを作成する
iii)PRIME、HDRを使用して特定の対立遺伝子変化を作成する
iv)Cas3または他のツールを使用してコピー数バリエーション(CNV)を生成する
【0388】
iPSCは、下流のステップを容易にするようにさらに改変され、その方法の例として、以下が挙げられる:
a)dCAS9バリアント、またはPrime-editorなどのタンパク質の構成的または誘導性発現
b)NGN2などの分化因子の構成的発現または誘導性発現
c)表現型の決定を容易にする蛍光マーカーの導入
d)プール内の個々の細胞株の追跡を可能にする様々な種類の分子バーコードの導入
【0389】
ステップ2:以下のステップを適切な順序で組み合わせて、様々な細胞アバターのセットを作成する。
a)上記のiPSCのそれぞれを、単独で、共培養で、またはオルガノイドなどの多細胞系で、1つ以上の関連する細胞系統に分化させる
b)例えば、CRISPRi/aまたはいくつかの他の摂動因子を使用した、病因遺伝子のいくつかのサブセットの摂動発現-活性化または抑制
c)環境模倣の導入-疾患プロセスを推進することができる単一ステップまたは複数ステップのプロトコル
【0390】
ステップ3:単一の時点または経時的に細胞アバターの表現型を1つ以上の様式で決定して、表現型アッセイデータを捕捉する。表現型アッセイの例として、以下が挙げられる:
a)顕微鏡検査
i)例えば、明視野またはいくつかの蛍光マーカーを使用した生細胞顕微鏡検査
ii)様々な顕微鏡方式を介して測定された固定細胞
b)RNAseq:単一細胞またはバルク
c)ATACseq:単一細胞またはバルク
d)タンパク質レベル(例えば、ImmunoSaber、4i、Cite-seqを介して)
e)RNA-FISH(例えば、seqFISH、merFISH)
f)疾患特異的アッセイ(適切な場合)。例として、特定の染色(NASHのBodipyなど)または他の多様なアッセイ(例えば、ニューロンの電位)が挙げられ得る。
【0391】
測定は、各ウェルに均一な細胞集団が含まれるアレイ形式、または単一の培養に複数の遺伝的に多様な細胞が含まれるプール形式で行われる。後者の例として、転写プロファイリング用のPerturb-Seqまたはイメージング用のPOSH(ヒト細胞におけるプール化光学スクリーニング)が挙げられる。
【0392】
実施例1C:モデルの評価
モデルMは、臨床表現型についてのMの予測を、実際に測定された臨床表現型、例えば、Mのトレーニングに使用していない独立した試験コホートと比較することで評価することができる。具体的には、(x
i,y
i)ペアの別個のコホートを想定し、その場合、x
iは、モデルMへの入力であり、y
iは、実際に測定された臨床表現型であり、Mを、x
iベクトル上で計算し、予測を、測定されたy
iと比較する。この場合、x
iは
の形式を有し、その場合、
は、a
iの遺伝学を表し、
は、a
iで行われた摂動を表し、
は、a
iから捕捉された表現型アッセイデータを表す。さらに、intervene(x
i,v)をベクトル
と定義し、ここで、
は、a
iで行われたすべての摂動と追加の介入vを含むベクトルであり、
は、vによる介入後に測定された表現型アッセイデータである。目標は、介入v後のヒトh
iの臨床転帰を予測するために、intervene(x
i,v)に適用されるモデルMを使用することである。
【0393】
モデルMを評価するための検証コホートは、複数の形式を取ることができ、例えば:
● 臨床転帰が知られている遺伝的に多様な個体に由来するiPSC。この場合、x
iは
の形式をとることができ、一方、
は空である。
● 特定の介入v(例えば、臨床試験の)で治療された患者由来のiPSCと、それらの臨床転帰;この場合、
は空であり、M(intervene(x
i,v)の予測を、介入vを与えたh
iについての実際の臨床表現型である
と比較する。
そのような検証コホートが与えられた場合、Mの予測精度を、そのコホートの臨床表現型と比較して測定する。
【0394】
モデルMの品質に対するスコアリング関数が与えられた場合、そのスコアリング関数を使用して一連の候補モデルクラスの中から選択する。モデルクラスは、実験的態様と計算的態様の両方に基づいて様々に異なり得る。特に、以下の点で様々に異なるモデルを検討する:
● 疾患モデルで使用される細胞型
● 疾患状態を生成するために使用される環境模倣物
● どのような測定を行うか(例えば、顕微鏡でどのチャネルを測定するか)
● どの時点で測定を行うか
● どのタイプの機械学習モデルを使用するか
● 機械学習モデルを特徴付けるハイパーパラメータ(例えば、ニューラルネットワークのレイヤー数、ドロップアウト率、特定のユニットの種類など)
【0395】
未知のコホートの臨床表現型を予測する機械学習モデルの能力に基づいて、実験的態様と計算的態様の両方を評価する。これにより、実験的態様(例えば、細胞、遺伝学、環境)と計算態様(例えば、機械学習のトレーニングパラメーター及びハイパーパラメータ)を最適化して、最も予測性の高い機械学習モデルを生成することができる。
【0396】
実施例2:介入の検証
定義されているように、モデル「M」は、以下のように予測を行うために使用される:関連する入力ベクトルx
iを有する特定の細胞アバターa
iに対して、機械学習モデルは、a
iについて、臨床表現型M(x
i)、または臨床的に関連する生物学的プロセスを予測する。モデルは、対応するヒトで実行されなかった追加の介入vの転帰を評価するために展開される。この場合、x
iが形態
を有する場合、intervene(x
i,v)をベクトル
と定義し、ここで、
は、a
iで行われたすべての摂動と追加の介入vを含むベクトルであり、
は、vによる介入後に測定された表現型アッセイデータである。目標は、介入v後のヒトh
iの臨床転帰を予測するために、intervene(x
i,v)に適用されるモデルMを使用することである。
【0397】
ここでは、モデルMを使用して、特定の介入vが患者に臨床的影響を与えるかどうかを評価する。具体的には、特定の患者集団を捕捉する細胞アバターを定義する。例えば、特定の患者集団を捕捉する細胞アバターは、患者集団内の患者と遺伝的バックグラウンドを共有する細胞の集団に対応する。すなわち、特定の患者集団を表す疾患細胞が生成される。次いで、介入vを疾患細胞の集団に導入し、vを含む及び含まない各アバターの表現型アッセイデータを捕捉する。次いで、モデルMを使用して、vを加える前後の各細胞アバターの臨床転帰を予測し、介入がそれぞれの疾患関連の表現型を向上させたかどうかを評価する。最も簡潔に述べれば、臨床転帰(健康対疾患)を予測するようにトレーニングされたモデルMの場合、検証済みの治療薬は、疾患の存在に関するモデルの推定値を有意に減少させる治療薬である。
● 薬物の検証d:介入vは薬物dであり、1回以上の投与で投与し;複数回の投与を行う場合、用量反応曲線を試験する(dの用量が変化するにつれて予測される臨床的影響が変化する)。
● 標的の検証:ここで、CRISPRiまたはCRISPRaなどの遺伝的介入を使用して、所与の遺伝子gの発現を減少または増加させる。遺伝的介入は、同じ方法で検証することができる。
● 組み合わせ:ここで、介入vは、薬物、標的、または混合物の組み合わせであり得る。
【0398】
モデルMはまた、新規個体の標的化療法を検証するためにも使用することができる。新規個体が与えられた場合、その患者の疾患細胞を生成し、上記のアプローチを使用して、その特定の個体の治療薬を検証する。
【0399】
実施例3:構造活性相関スクリーニング
治療薬を検証するための実施例2で説明したものと同じプロセスを使用して、Mを使用して候補治療薬(例えば、薬物または遺伝子治療薬)の効果を予測し、有効である可能性が高い治療介入を特定する。最も有益な効果があると予測される治療薬を選択する。
【0400】
具体的には、以下の手順を繰り返す:
● 1つ以上の介入を選択し、
● それらのそれぞれを疾患の細胞集団に適用し、
● モデルMを適用して、予測される臨床的有用性を評価する
【0401】
このアプローチは、表現型の構造活性相関(SAR)を含む様々な状況で使用することができる。SARを使用すると、特定の標的を狙った一連の化学的に関連する分子を探索して、化学空間全体をより迅速に検索することができる。ここで、SARマッピングは、モデルMを介して予測されるように、化学構造から臨床転帰へのマッピングを行う。
【0402】
SARマッピングを実装して、大規模な化学ライブラリを探索する。大規模な化学ライブラリには、化学的特徴などの一連の特徴を使用して特徴付けられる治療薬、またはそれらの治療薬に適用されるハイスループット表現型アッセイの出力(例えば、1つ以上の細胞の画像化結果)が含まれる。ライブラリ内の化合物を、SARマッピングを使用して探索/スクリーニングする。
【0403】
さらに、SARマッピングを、化学的介入及び/または遺伝的介入を含む有効な治療の組み合わせを識別するように開発する。各介入は、様々な機能を使用するシングルトンとして特徴付けられ、これには、これらの介入後に測定されたハイコンテントアッセイまたは計算されたML特徴も含まれる。介入ペアのいくつかの小さなサブセットについて、シングルトン介入V1及びV2の特徴から、対応するペアワイズ介入の予測される臨床的有用性へのマッピングを学習する。
【0404】
実施例4:患者セグメンテーション
モデルMは、特定の介入vから恩恵を受ける可能性が高い患者集団を特定するために使用される。言い換えれば、モデルは、介入vに対するレスポンダーとノンレスポンダーを区別する。
【0405】
一連の多様な遺伝的バックグラウンドにまたがるヒト集団{h
1,・・・h
n}を選択する。次に、対応する細胞アバターのセットA={a
1,・・・a
n}を生成する。臨床現場で容易にアッセイすることができる一連の患者選択バイオマーカー
を使用して、それぞれのヒトを特徴付けると仮定する。これらのバイオマーカーには、遺伝的バリアントg(h
i)、及び患者のベースライン状態で容易に測定される他の因子が含まれ得る。
【0406】
介入vが与えられた場合、モデルMを使用して、実施例2に関連して上記で説明したように、A内の各個体のvに対する予測される臨床応答を決定する。機械学習を使用し、ここで、トレーニングセットは以下のように定義される:入力特徴は
であり、標的出力は
であるか、または
の2値化バージョンであり、介入vに対して良好なレスポンダーと良好ではないレスポンダーを区別する。ヒト集団は、臨床環境において測定しやすい対象の特徴に基づいて特徴付けることができる。したがって、モデルMによって決定されたレスポンダー/ノンレスポンダーの分析に基づいて、各ヒトについてiPSCを生成する必要なく、ヒト集団を、それらの対象の特徴に従ってレスポンダーまたはノンレスポンダーとして特徴付けることができる。
【0407】
実施例5:健康な肝臓と非アルコール性脂肪性肝炎の疾患肝臓の免疫組織化学画像を区別する例示的な機械学習モデル
この例では、一般に、肝生検から得られた肝細胞の免疫組織化学画像を使用した機械学習モデル(例えば、ニューラルネットワーク)のトレーニングについて説明し、肝細胞は、異なる表現型(例えば、脂肪症、小葉内炎症、バルーニング、及び線維症)を示す。これらの免疫組織化学画像は、肝生検に由来するが(遺伝子改変された細胞のin vitro細胞培養に由来するものではない)、肝細胞の様々な細胞表現型を区別するための機械学習モデルのトレーニングと使用は適用可能である。免疫組織化学画像の試験群に適用する場合、トレーニングされた機械学習モデルは、訓練された病理医と同様に、各表現型の画像を区別することができる。さらに、トレーニング済みの機械学習モデルを分析して、表現型に対して情報価値を有している特定の画像を特定する。これにより、どの表現型がより類似しているか(例えば、2つの表現型について、画像が情報価値を有している場合)、どの表現型が異なるか(例えば、2つの表現型について、異なる画像が情報価値を有している場合)を理解することができる。全体として、本実施例は、機械学習モデルをトレーニングして、患者から取得したサンプルを使用して細胞の表現型を区別し、さらに機械学習モデルを使用して、互いに類似している疾患の表現型を特徴付ける能力を示している。
【0408】
非アルコール性脂肪性肝炎(NASH)の診断と予後のためのゴールドスタンダードは、肝生検の検査によって決定されるNASH活性と線維症の組織学的スコアである。例えば、脂肪症、小葉内炎症、バルーニング、及び線維症のエビデンスについて、肝臓の免疫組織化学的組織切片にゴールドスタンダードの組織学スコアが割り当てられる。ここでの目標は、肝生検から定量的な組織学的形質(ゴールドスタンダードの組織学的スコアを予測する)を抽出することができる機械学習モデルを構築することである。これらの定量的形質は、その後、疾患状態と進行の分子的及び臨床的関連分析の中間形質として使用することができる。
【0409】
患者から肝生検を行い、肝臓組織をスライスし、組織切片を免疫組織化学染色した。組織学的スライドを個別に画像化し、機械学習モデルのトレーニングに使用した。
【0410】
図8Aは、合計4,641の画像サンプルを用いて、健康な肝臓と非アルコール性脂肪性肝炎に罹患した肝臓の免疫組織化学画像を区別する機械学習モデルのトレーニングの例示的なプロセスを示す。好ましい実施形態では、組織学的画像データを分析するために畳み込みニューラルネットワーク(CNN)を展開する。具体的には、複数インスタンス学習(MIL)アプローチを使用してCNNを展開し、その場合、生検内の複数のタイル(インスタンス)に由来する特徴を組み合わせて病理医のスコアを予測する。ピクセルレベルのアノテーションを必要とする、より標準的なアプローチとは異なり、そのようなMILアプローチは、生検レベルのアノテーション(例えば、病理医のスコア)のみを必要とする。各画像を個別のタイルに分割し、それにより、およそ200万個の個別のタイルを作成した。機械学習モデルがアーティファクトの違い(例えば、画像の明るさ/コントラスト、または特定の画像化チャネルに関連するアーティファクト)ではなく、細胞表現型の差異を識別できるようにするために、タイルにデータ拡張を適用して、トレーニング中のタイルの色相、明るさ及びコントラストに、ランダムなシフトを積極的に誘導した(カラージッタリングと呼ばれる手順)。この拡張戦略は、データの不均一性を大幅に強化し、生検間の色の変化から独立した特徴を抽出するようにモデルを後押しする。カラージッタリングに加えて、タイルにはランダムな回転と水平方向の反転も加えた。
【0411】
タイルを機械学習モデルに入力し、この場合、これは例示的な畳み込みニューラルネットワークである(例えば、ResNet18)。タイルの特徴を抽出し、ニューラルネットワークのレイヤーを介して伝播させた。ニューラルネットワークのレイヤーには、タイルの特徴から得られるスコア(例えば、z
1,z
2・・・z
n)を示差的に重み付けする重み(w1,w2・・・w
n)が含まれる。重み付けされたスコアをプールして、プール化スコアo
kを生成し、ここで、
である。プール化スコアに基づいて、モデルは、ゴールドスタンダードの組織学スコアを予測し、これを、脂肪症=0、小葉内炎症=1、バルーニング=1、及び線維症=4のいずれかとして、
図8Aに示す。
【0412】
予測されたゴールドスタンダードの組織学スコアを、参照グラウンドトゥルースと比較して、モデルの予測の精度を決定する。参照グラウンドトゥルースには、病理医によって割り当てられたゴールドスタンダードの組織学スコアが含まれる。したがって、予測されたスコアと参照グラウンドトゥルースの差が逆伝播し、モデルの重みが調整される。追加のタイルと追加のサンプルにわたってトレーニングを反復する。重要なことに、
図8Aに示すように、その後、特定の病理医のスコアを予測するために使用する、タイルの重要性を重み付けするアテンションメカニズムを通じて、生検レベルの疾患状態の特徴付けにおいて、タイルレベルの特徴を集約させる。MILアプローチに関連して多変量アテンションメカニズムを使用することにより、モデルは、各成分スコア(例えば、炎症)を予測するために異なるタイルセットを選択することができる。そのようなアテンションベースの戦略により、明示的なタイルレベルの教師なしで情報価値のあるタイルを特定することができ、したがって、スライド全体のラベルのみを使用してネットワークをトレーニングすることができる。
【0413】
図8Bは、NASHで観察される特定の表現型、例えば、脂肪症、小葉内炎症、肝細胞のバルーニング、及び線維症のそれぞれについて最も重く重み付けされた異なるタイルを示す。さらに、4つの表現型のいずれかの重みが最も低いタイルが示されているため、タイルは「重要でないタイル」として分類される。これは、機械学習モデルが、4つの認識されたNASH表現型のいずれかのタイルによって示されるような疾患状態の細胞表現型(免疫組織化学画像の形式)と、「重要でないタイル」によって示されるような非疾患状態または軽度の疾患状態の細胞表現型を適切に区別することができることを示している。
【0414】
モデルを、保留された(例えば、モデルのトレーニングに使用しなかった)一連の肝生検に対してさらに展開した。
図8Cは、保留された肝生検の免疫組織化学画像に対する機械学習モデルによる予測と、同じ免疫組織化学画像を分析した病理医によって割り当てられた病理医スコアとの間の相関を示す。
図8Cに示すように、機械学習モデルは、病理医によって割り当てられたスコアとほぼ一致するゴールドスタンダードの組織学スコアを割り当てた。繰り返しになるが、これは、機械学習モデルが疾患の細胞表現型(例えば、免疫組織化学スライドにおいて示されているような)と、疾患の少ない細胞表現型または健康な細胞表現型を区別することができるという概念を支持する。
【0415】
上述し、
図8Aに示すように、機械学習モデルを、どのタイルが重く重み付けされているかを識別するようにさらに設計し、特定のNASH表現型においてそれらのタイルを分類する機械学習モデルが得られた。
図8Dは、4つのNASH表現型にわたるタイル重要度の重みの散布図を示す。ここで、NASH表現型は、
図8Dにおいて以下のようにラベルされている:脂肪症=STEATOSI、小葉内炎症=NASLI、肝細胞バルーニング=NASHB、及び線維症=ISHSC。対角線(左上から右下)に沿って示されているのは、それ自体に対して一致する各NASH表現型の重要度の重みの分布である。特に、脂肪症の場合、重要度の重みの分布はバイモーダルであり、タイルの大部分が脂肪症の表現型を重度に示すか、または脂肪症の表現型の情報を提供しないことを示している。小葉内炎症、肝細胞バルーニング、線維症のそれぞれについて、重要度の重みの分布は、全般的に単峰性であった。
【0416】
対角外に示されているのは、2つのNASH表現型のそれぞれに割り当てられたタイルの重みの散布図である。特に、機械学習モデルで同じタイルを使用して2つの異なるNASH表現型を定義した場合、高度に相関した重みが観察される。これは一般に、強い相関がある可能性が高い小葉内炎症と肝細胞バルーニングで観察される(3行目の左から2番目のグラフを参照のこと)。さらに、線維症の表現型を識別するために重要なタイルは、小葉内炎症と肝細胞バルーニングの両方を識別するために重要なタイルとの相関も示した(下段の第2及び第3のグラフを参照のこと)(その相関は小葉内炎症と肝細胞のバルーニングとの相関に比べて弱いが)。脂肪症の表現型を区別するために重要なタイルは、第1の段に示されている非相関散布図によって示されるように、他の3つのNASH表現型を区別するタイルとは全般的に異なっていた。
【0417】
図8Eは、4つの異なるNASH表現型にわたる2つの生検に由来する2つの組織学的スライドの個々のタイルに割り当てられたタイル重みの重要度を示す。
図8Eにおける第1列は、H&E染色された肝生検スライスを示し、生検スライスの各画像は、個々のタイルに分離されている。4つの異なるNASH表現型にわたって、各タイルの生検レベル予測への寄与が赤で示され、濃い赤ほど寄与が大きいことを示している。
【0418】
図8Dを参照して上述した結果と同様に、重なり合ったタイルは、小葉内炎症、肝細胞バルーニング、及び線維症の表現型に寄与していた。しかしながら、脂肪症の表現型の生検レベルの予測に貢献したタイルはほとんどなかった。
【0419】
実施例6:健康な肝臓と非アルコール性脂肪性肝炎の疾患肝臓の蛍光画像を区別する例示的な機械学習モデル
初代肝細胞をin vivoで培養し、蛍光染色した。特に、初代肝細胞は、細胞核(Hoechst 33342)、F-アクチン細胞骨格、ゴルジ体、及び原形質膜(ファロイジン/WGA)、ミトコンドリア(MitoFISH)、及び脂肪滴(BODIPY)などの細胞成分について染色した。蛍光顕微鏡を使用して画像化した蛍光標識細胞。サンプルの80%を、機械学習モデルのトレーニングに使用し、残りの20%のサンプルをモデルの試験/検証に使用した。
【0420】
図9Aは、健康な肝細胞(上段)及びNASH(下段)に対応する一次肝細胞の2つのセットの捕捉された蛍光画像を示す。第1のNASHサンプルには、5のNAFLD活動スコア(NAS)とF1(最小限の線維症)の線維症スコアが割り当てられた。第2のNASHサンプルには、NAS5と線維症スコアF0(線維症なし)が割り当てられた。「Hepatopaint」蛍光画像とは、初代肝細胞を認識するために開発された細胞特異的なCellPaint分析を受けた画像を指す。
図9Aに示すように、肉眼では、健康な肝細胞とNASH肝細胞の細胞表現型は(これらの蛍光染色によって示されるように)有意に異なっていない。しかしながら、機械学習モデルは、NASH肝細胞の蛍光画像と健康な肝細胞の蛍光画像を区別することができた。
図9Bは、3人のNASH個体由来の細胞と3人の健康な対照由来の細胞とを区別する表現型多様体を示す。全体として、このデータは、機械学習モデルをトレーニングして、表現型アッセイデータ(例えば、肝細胞の蛍光画像)に基づいて疾患の肝細胞と健康な肝細胞を区別することができることを立証している。
【0421】
図9Cは、NASH及び健康な肝細胞から捕捉された蛍光標識画像を示す。注目すべきは、枠で囲まれた画像はNASH細胞に対応し、一方、枠で囲まれていない画像は健康な肝細胞に対応する。
図9Cから明らかなように、NASH細胞に対応する画像と健康な肝細胞に対応する画像との間の表現型の違いは、肉眼では明らかではない。
【0422】
図9Dは、NASH細胞と非NASH細胞とを区別する表現型多様体への埋め込みとして描かれた機械学習モデルの予測を示す。重要なことに、機械学習モデルは、トレーニングセット及び示されている2つの表現型の多様体で表されているような検証セット全体で、NASH細胞(通常、多様体の左側にある)を非NASH細胞(多様体の右側にある)から分離する様々な表現型の特徴を発見する。
【0423】
図9Eは、機械学習モデルによってNASH及び非NASHカテゴリのそれぞれに分類された5つの最高ランクのタイルを示す。特に、高解像度では、非NASHカテゴリの上位ランクのタイルと比較して、NASHカテゴリの上位ランクのタイル間に明白な表現型の差異がある。これは、機械学習モデルの有用性を示しており、これは、NASH表現型トレースと非NASH表現型トレースを区別することができるだけでなく、最高ランクのタイルを通じてそれらの表現型トレースをさらに明らかにすることができる。
【0424】
図9Fは、蛍光標識された細胞核及び蛍光標識された脂肪滴のみを有する最高ランクのタイルを示す。ここで、各カテゴリの最高ランクのタイルを分析して、機械学習モデルがNASHと非NASH組織スライスを区別する際に「アテンション」を集中させた表現型のトレースが決定する。具体的には、NASHに関して、機械学習モデルは、細胞核の近位の脂肪滴の存在に基づいて、NASH細胞と非NASH細胞を区別する。具体的には、NASH細胞は、細胞核に近接して位置する高濃度の脂肪滴によって特徴付けられるが、非NASH細胞は、細胞核から離れて位置する低濃度または拡散した濃度の脂肪滴によって特徴付けられる。機械学習モデルの「アテンション」は、生物学的標的の特定について、情報価値を有する。NASHの場合、核の近位に位置するこれらの脂肪滴を標的として、それらを除去することで疾患のNASH表現型をより健康な非NASH表現型に戻すことができる。
【0425】
実施例7:異なる小分子化合物で処理したニューロンを区別する例示的な機械学習モデル
図10Aは、異なる小分子化合物に曝露されたニューロンの表現型アッセイデータ(例えば、蛍光画像)を捕捉するプロセスを示す。DoxNGN2 iPSCを、2つの異なる播種密度(1k及び6k細胞)で播種し、さらにヒト皮質興奮性ニューロンに分化させた。ロテノン、エベロリムス、ロキサピン、ホルボール12-ミリステート13-アセテート(PMA)、スタウロスポリン、ラパマイシン、BIO、及びブレビスタチンを含む3つの異なる濃度の小分子に、ニューロンの異なる集団を曝露した。ニューロンを、リン酸緩衝生理食塩水及びジメチルスルホキシド(DMSO)を含む対照でも処理した。処理後、ハイコンテントイメージング(例えば、Neuropaint)を実行することにより、処理されたニューロンから表現型アッセイデータを捕捉した。
図10Aに示すように、DAPI(細胞核)、LV-Syn-GFP(ニューロン)、アクチン、及びMito-tracker(ミトコンドリア)を用いてニューロンを染色した。
【0426】
図10Bは、それぞれの小分子化合物に曝露したニューロンの蛍光画像を表す。一般に、肉眼では、異なる化合物で処理したニューロンとPBS/DMSO対照(スタウロスポリンで処理したニューロンを除く)を区別することは困難であり得る。
【0427】
図10Cは、異なる小分子化合物で処理したニューロンを区別する埋め込みを示す。一般的な小分子化合物で処理したニューロンを、一緒にクラスタ化している。注目すべきは、スタウロスポリンで処理したニューロンは、他の小化合物で処理したニューロンから離れて位置しており、これは、スタウロスポリンで処理したニューロンと、
図10Bで観察される他のニューロンとの間の有意な表現型の差異とアラインする。
【0428】
図10Dは、CellProfiler(商標)細胞画像分析ソフトウェアと比較した、深層学習機械学習モデルの予測の比較を示す。深層学習機械学習モデルは、CellProfilerと比較して、小分子化合物による処理に応答して神経表現型をより正確に予測することができた。
【0429】
実施例8:異なる遺伝子ノックアウトで改変されたin vitroニューロンを区別する例示的な機械学習モデル
本実施例(実施例8)は、実施例6が肝生検から得られた肝組織の表現型を区別する機械学習モデルを説明しているのに対し、実施例8が異なる遺伝子ノックアウト(KO)を有するニューロンのin vitro培養の表現型を区別する機械学習モデルを説明しているという点で、上記の実施例6とは異なる。実施例6と実施例8は、表現型アッセイデータのそれぞれのソースを使用した機械学習モデル、例えば、畳み込みニューラルネットワークのトレーニングを含み、その結果、スクリーニングを実行するための細胞疾患モデルを展開する場合に、機械学習モデルは有用であり得る。
【0430】
図11Aは、異なる遺伝子KOによるニューロンの表現型アッセイデータ(例えば、蛍光画像)を捕捉する全体プロセスを示す。DoxNGN2 iPSC(in vitro iPSC由来の興奮性ニューロン)を播種し、以下の遺伝子のうちの1つをノックアウトするための遺伝子編集ツール(例えば、最適化されたガイドRNAを含むCRISPR-Cas9)で処理した:CLYBL(陰性対照)、TSC2(陽性対照-結節性硬化症に関与することが知られている)、TCF4(ピット・ホプキンス/自閉症スペクトラム障害に関与)、SETD1Ag3(統合失調症に関与)、及びSETD1Ag4(統合失調症に関与)。
図11Bに示すように、in vitro細胞集団は異種ノックアウトを含む。すなわち、所与のin vitroウェルは、ノックアウト細胞と野生型細胞の両方を含む。
【0431】
それぞれの遺伝子構造を有するIPSCを、ヒト皮質興奮性ニューロンに分化させ、ハイコンテントイメージング(例えば、Neuropaint)を実行することによって表現型アッセイデータを捕捉した。
図11Aに示すように、DAPI(細胞核)、LV-Syn-GFP(ニューロン)、アクチン、及びMito-tracker(ミトコンドリア)を用いてニューロンを染色した。注目すべきことに、所与の細胞で遺伝子編集が行われたことを示すマーカーは存在しない。したがって、機械学習モデルを使用して、目標は、ハイコンテント顕微鏡を介してこの遺伝的摂動からどの表現型の変化が生じるかを理解し、異なる遺伝子のKOを有する細胞の表現型の差異を区別することであった。さらに、これにより、それぞれのKO集団において最も強い表現型を示している細胞の特定が可能になる。
【0432】
深層畳み込みニューラルネットワークなどのモデルをトレーニングするために、in vitro細胞から捕捉したハイコンテント顕微鏡画像を使用して、アテンションベースの複数インスタンス学習を適用することによりモデルをトレーニングした。
図11Cは、トレーニングプロセスの概略図を提供する。ここで、同じKO群由来の細胞の画像のコレクションを、以下で「バッグ」と呼ばれるものにまとめる。細胞の画像のコレクションには、KO細胞(SETD1Aガイド3として
図11Cに示す)と野生型細胞の両方が含まれる。バッグ内の細胞の少なくとも1つが遺伝子編集を受け、何らかの表現型を示していると仮定すると、画像のコレクションは、畳み込みニューラルネットワークを通過し、各細胞のベクトル化された表現が生成する。次いで、学習された重みを使用してこの埋め込みベクトルに線形変換を適用し、各細胞のアテンションベクトルとロジットベクトルの両方を生成する。
【0433】
アテンションベクトルとロジットベクトルの両方の次元は、予測される様々な遺伝子KOの数に等しい。ロジットは、所与の細胞の予測されるKO同一性の表現であり、一方、アテンションベクトルは、選択されたバッグのKO同一性を予測する上で、それぞれのロジットの重要性を再重み付けするために使用される。1つのインスタンス化では、ロジットベクトルは正になるように制約することができ、下流の解釈可能性をさらに支援する。
【0434】
次いで、アテンションベクトルを、合計が1になるように、それぞれのKOクラスごとにバッグ内のすべての細胞にわたって正規化する。次いで、各細胞について正規化されたアテンションベクトルに、その細胞のそれぞれのロジットを要素単位で乗算して、重要度ベクトルを生成する。この重要度ベクトルのコレクションを、バッグ内のすべてのアイテムにわたって合計し、バッグのKOの同一性の確率を生成する。確率的勾配降下法を使用して、エンドツーエンドでモデルをトレーニングする。重要度ベクトルは、所与の表現型を最も強く示している細胞を解釈するために使用することができる。最初に、所与の母集団の各細胞に対して重要度ベクトルを生成する。次いで、各クラスの重要度ベクトル値によって細胞をランク付けする。所与のクラスで大きな正の値で表される細胞は、最も強い表現型を示していると解釈することができる。
【0435】
図11Dは、画像アッセイの分析中に検出された表現型の特徴に従って、異なる遺伝的バックグラウンドを有するニューロンが多様体上でどのように区別され組織化されるかを示す。具体的には、機械学習モデルがSETD1Ag3ノックアウトまたはSETD1AG4ノックアウトのいずれかを有するニューロンに類似性を発見したため、それらは互いに近接して配置されている。ここで、SETD1Aクローンの群化、及び他のクローンからの分離は、MLにより特定された統合失調症の新規表現型を示唆している。さらに、TCF4ノックアウトニューロンとCLYBLノックアウトニューロンは、同様の表現型を示しており、互いに近接して配置されている。ここで、CLYBLノックアウトは陰性対照である。したがって、TCF4(ピット・ホプキンス症候群につながることが知られている)と陰性対照群の重複は、TCF4がピット・ホプキンス症候群で発達上の役割を果たしている可能性が高いことを示唆している。さらに、TSC2ノックアウトニューロンは、他のニューロンと区別可能な強いニューロン表現型を示したため、多様体上で別々に位置している。
図11Eは、ハイコンテント顕微鏡画像に基づいて遺伝子改変されたニューロンの異なるサブタイプを予測するためのトレーニングされたニューラルネットワークの性能を示す。注目すべきことに、ニューラルネットワークは、TSC2変異ニューロンを完全に予測することができた(192個のうちの192個)。全体として、これらの結果は、マルチインスタンス学習MLモデルが、混合ノックアウト培養(例えば、ノックアウト細胞と野生型細胞の両方を含むin vitro培養)の分類を可能にすることを示している。
【0436】
図12は、各ニューロンクラス(例えば、ニューロンノックアウト)について最も高くランク付けされた3つのタイルを示す。ランクの高いタイルを調査することで、機械学習モデルが画像を特定のクラスに分類する際に、画像の何/どこに注目したかを明らかにすることができる。これにより、特定の疾患の背後にある生物学的基盤などの追加情報を明らかにすることができる。
【0437】
実施例9:機械学習モデルのトレーニングデータを生成するための例示的な方法
図13は、機械学習モデルを構築するためのトレーニングデータを生成するためのステップの概要を示す。ステップ1では、関心対象の臨床エンドポイントを選択する。例示的な臨床エンドポイントは、線維症の進行である。ステップ2は、臨床エンドポイントの遺伝的構造を定義することを含む。ステップ3及び4は、関心対象の臨床エンドポイントの生物学的プロセスを選択し、次いで、生物学的プロセスをモデル化するための細胞系を設計及び構築することを含む。ここで、線維症進行の例示的な生物学的プロセスは、肝星細胞(HSC)の活性化である。したがって、iStelは、HSC活性化をモデル化するための選択された細胞系である。ステップ5は、細胞系を使用してアンカー表現型を確立することを含む。これには、様々な摂動因子を使用して細胞を摂動させるエクスポソームの実行が含まれる。これにはさらに、細胞を遺伝的に改変して(例えば、関心対象の特定の遺伝子をノックイン/ノックアウトする)、摂動因子と遺伝的改変の組み合わせ効果をモデル化することが含まれる。ステップ5は、例えば、単一細胞RNA-seq及び/または細胞の画像化を含む、表現型アッセイを細胞に対して実施して、細胞の形態学的特徴を捕捉することを含む。ステップ6は、遺伝的データと臨床データをリンクすることを含む。全体として、
図13に示すステップ1~6は、関心対象の臨床エンドポイント(例えば、NASH線維症の進行)のin vitroモデルにおいて、健康及び疾患の代理ラベルとして機能する曝露反応表現型(ERP)を定義し、検証するのに役立つ。1~6のステップから生成されるそのようなデータ(例えば、エクスポソームから得られるデータ、または細胞を捕捉した画像)を使用して、機械学習モデルをトレーニングする。
【0438】
図14Aは、GWAS分析と、細胞疾患の表現型尺度を区別するモデルとの間の関連性試験を使用して遺伝的構造を決定するためのプロセスの例を示す。一般に、このプロセスは、臨床エンドポイント(例えば、線維症の進行)の新規遺伝的ドライバーである可能性が高い遺伝的バリアントを特定するために、GWASで特定されたバリアントと疾患状態の進行の予測との間の関連性を試験することを含む。上部パネルに示されているように、表現型アッセイデータ(例えば、H&E肝生検画像)を、畳み込みニューラルネットなどの機械学習モデルを使用して解析し、疾患状態を予測する。ここで、畳み込みニューラルネットの性能は、
図8Cで上述したように、病理スコアに対して以前に検証した。ここで、畳み込みニューラルネットを様々な画像に適用して、様々な時点(例えば、ベースライン時とフォローアップ時)での疾患状態を予測し、それによって時点間の疾患進行を特徴付けることができる。疾患の進行の特徴付けとGWASによって特定されたバリアントとの間で関連性試験が実行されるためである。ここで、疾患の進行と高度に関連するバリアントを特定し、疾患の遺伝的構造に含めるために選択する。したがって、そのようなバリアントを細胞系において遺伝子改変して、遺伝的バリアントを試験し、モデリングすることができる。
【0439】
図14Bは、生物学的プロセス(例えば、HSC活性化)を選択し、iStelの細胞系を構築する例を示す。具体的には、
図14Bは、iStel分化プロトコルを示す。時間特異的方法で適用される成長因子と分化因子のカクテルを使用して、iPSCを分化させて、星状様細胞(iSTEL)の再生可能な供給源を生成する。様々な時点での分化を観察し、画像化し、ウェルレベルのコンフルエンス、細胞の健康状態、及び形態の定性的評価を行い;12日目に培養物を採取し、保管した。いくつかの例外を除いて、iPSCは複数の分化を通じて一貫して良好な形態を示した。
図14Bにおいて、上部パネルは、成長因子の時間特異的添加を伴う、iPSCからのiSTEL発生のタイムラインを示す。成長因子には、骨形成タンパク質4(BMP4)、線維芽細胞成長因子(FGF)、レチノール、及びパルミチン酸(PA)が含まれる。
図14Bの下部パネルは、0日目~12日目(D12)のiPSCからのiSTEL分化の代表的な画像を示す。
【0440】
図14Cは、複数の時点(例えば、分化後12日または19日)にわたるscRNA seqデータを使用したiStel系統の品質管理チェックを示す。具体的には、
図14Cのパネル(A)は、星状細胞として同定された細胞の画分を示す。パネル(B)は、12日目のiSTELの肝臓アトラスからの星状細胞のスピアマン相関の中央値を示す。パネル(C)は、星状細胞として同定された細胞の画分を示す。パネル(D)は、肝臓アトラスからの星状細胞のスピアマン相関の中央値を示しており、19日目のiSTELがpSTELと類似していることを示している。
【0441】
具体的には、scRNA-seqを使用してiSTELの同一性を評価した後、12日目のiSTELと肝臓アトラス由来の異なる細胞型との間の遺伝子発現の類似性を、スピアマン相関を使用して定量化した。遺伝的バックグラウンド、バッチ及び継代数の違いにもかかわらず、星状様細胞(すなわち、他の肝細胞型よりもin vivoで星状細胞に最も類似している細胞)として識別された細胞の画分(
図14CのパネルA)、及びin vivoでの星状細胞に対する発現相関の中央値(
図14CのパネルB)に関して、すべてのiSTEL系統にわたって高い一貫性が観察された。NASH株と非NASH株を比較すると、星状細胞の割合にわずかな差異しか観察されず(中央値の差=0.08、マンホイットニーのU検定、p値=0.007)、in vivoでの星状細胞に対する発現相関の中央値に差異はなかった(マンホイットニーのU検定、p=0.25)。
【0442】
次に、各iSTEL分化における最も大きなトランスクリプトームの変動性を説明する遺伝子を同定した。実験共変量の違いにもかかわらず、変動性の特定の軸が、様々なiSTELの分化にわたって共有される場合がある。88種の12日目のiSTEL分化を調べ、そのうちのいくつかは、53系統のプールにおける同じ系統から分化していた。分化ごとに、scRNA-seqデータに対してPCAを実行して、転写発現の上位PCを特定した。系統に沿った転写変動性の共通軸を特徴決定した。これらの分析では、転写変動性の軸に関するものは特定されなかった。
【0443】
さらに、19日目のiSTEL(対照とTGFβ処理の両方)を、12日目のiSTELについて計算したものと同じ同一性測定基準を使用して評価した。12日目と比較して、19日目のiSTELは、有意に高い割合の星状細胞(
図14CのパネルC)及びin vivoでの星状細胞との向上した相関(
図14DのパネルD)を、pSTELの値に近い値で示した。これらのデータは、追加の培養時間及び/または基質への長時間の曝露が、iSTELのさらなる成熟をもたらしたことを示唆している。全体として、これらの結果は、NASH患者と非NASHドナー由来のiSTELの十分に特徴付けられたコホート内の個々の系統の固有の変動性の理解を提供した。このコホートは、筆者らの疾患モデルにおける天然の遺伝的変異を調査するための貴重なツールである。
【0444】
図14Dは、アンカー表現型を確立するためのエクスポソームの設定例を示す。iPSCは、12日目にiStelを生成するための分化誘導を受けた。scRNA-seqを使用した品質管理チェックを12日目に実施した。iStelを17日目まで培養し、その後、細胞を、サイトカイン、リポタンパク質、食餌摂動因子、臨床候補、金属イオン塩などを含む様々な摂動因子に曝露した。
図14Dに示すように、摂動因子として、CTGF/CCN2、FGF1、IFGγ、IGF1、IL1β、AdipoRon、PDGF-D、TGFβ、TNFα、HLD、LDL、VLDL、フルクトース、リポ酸、クエン酸ナトリウム、ACC1i(フィルソコスタット)、ASK1i(セロンセルチブ)、FXRa(オベチコール酸)、PPARアゴニスト(エラフィブラノール)、CuCl
2、FeSO
47H
2O、ZnSO
47H
2O、LPS、TGFβアンタゴニスト、及びウルソデオキシコール酸が挙げられる。摂動因子に細胞を2日間さらした後、scRNA-seqを実行して、細胞の転写特性を特徴付ける。
【0445】
図14E及び14Fは、エクスポソーム分析の結果及び5つの候補曝露の識別を示す。ここで、STELLAR臨床試験に関して、線維症の進行/退行に関連する生物学的プロセスを摂動すると思われる5つの候補曝露を選択した。これには3つのステップが含まれる:1)転写曝露反応表現型(ERP)の同定、2)臨床エンドポイントに関連する遺伝子における曝露反応表現型の濃縮の試験、及び3)曝露全体でのERP類似性の比較。
【0446】
GSEAを使用して、臨床エンドポイントにおいて示差的に発現する遺伝子のin vitro曝露が上方制御及び下方制御された遺伝子セットの濃縮を試験した。
図14Eの左パネルは、濃縮の方向と共に各エンドポイント(FDR 5%)について有意な濃縮を有するERPを示す。線維症の進行/退行関連遺伝子が濃縮されたERPによる曝露を、さらなる分析のために考慮する。
【0447】
線維症の進行に関連する曝露の選択における冗長性を避けるために、線維症の進行/退行の濃縮が類似の遺伝子によって駆動される曝露を特定する。具体的には、GSEA線維症の進行/退行の最先端遺伝子のペアワイズ濃縮を、線維症の進行/退行遺伝子において有意に濃縮されている曝露に対するフィッシャーの正確確率検定を使用して試験する。これらの最先端遺伝子がFDR 5%で有意に濃縮されている場合、曝露は「類似」としてマークされる。
【0448】
実施例10:候補標的を特定するための例示的な細胞疾患モデル
図15Aは、広範囲の曝露(TGFβを含む)及びCRISPR編集遺伝子にわたってPerturb-seqを実行するための方法を示す。Perturb seq実験(scRNAseqと結合した遺伝子のCRISPRノックアウト)を、以下によって実行した (1)関心対象の遺伝子のパネルを特定して摂動させ(GWAS、文献、代替スクリーニングを通じて)(2)関心対象の各遺伝子について、複数のガイド(少なくとも3つ)を特定した。(3)キュレートされたCRISPRガイドライブラリを、ライゲーションアダプターに隣接させて合成した。(4)濃縮されたsgRNAライブラリをCROPseqバックボーンにクローニングし、品質管理実験により、次世代シーケンシング(NGS)によるsgRNA配列の発現を確認する。(5)pMD2.G、PAX2、及びsgRNAガイドライブラリを使用したHEK293Tのリバーストランスフェクションによってレンチウイルスを生成した。ウイルス上清を3日後に回収し、濾過し、使用するまで-80℃で保存した。(6)iSTEL LVC6-Cas9細胞を、プール化sgRNA発現レンチウイルス(MOI 0.15~0.3)で12日目に形質導入し、続いて14日目から20日目までの6日間、ピューロマイシン(1μg/mL)選択を行い、さらに2日間、回復させた。(7)22日目に、細胞を解離させ、6ウェルのコラーゲンコーティングプレートに播種し(ウェルあたり2×10^5細胞)、続いて選択した曝露またはDMSOで処理した。(8)処理の48時間後に細胞を回収した。scRNA-seqを、Chromium Next GEM Single Cell 3’プロトコル(10X Genomics)に従って実行した。
【0449】
2つの異なる機械学習モデルを、処理(例えば、TGFβで処理)及び非処理細胞に由来するscRNA-seqデータでトレーニングした。機械学習モデルは、TGFβ処理細胞と非処理細胞を首尾よく区別することができた。
図15Bは、Perturb-seqの転写状態に従って処理(例えば、TGFβ処理)細胞と非処理細胞とを首尾よく区別する2つの例示的な機械学習モデル(例えば、ランダムフォレスト及びACTIONet)の性能を示す。
【0450】
図15Bの左上のパネルは、ランダムフォレスト回帰モデルの性能を示す。
図15Bの右上のパネルは、ランダムフォレスト回帰モデルから導出された、ランク付けされた遺伝子とACTIONetモデルから得られたランク付けされた遺伝子との間の相関を示す。ここで、ランダムフォレスト回帰モデルは、転写状態に基づいて細胞状態(1-TGFβ対0-対照)を予測する。このモデルは、遺伝子のランク順リストを識別するために実装される。TGFβ応答に対する遺伝子ノックアウトの効果を、ランダムフォレスト回帰とACTIONetの両方によって定量化した。2つを比較すると、遺伝子ノックアウト効果のランキングは非常に一貫している(スピアマン係数=0.97)。
【0451】
具体的には、ランダムフォレスト回帰モデルを、非標的化ガイド(予想されるDNA損傷または遺伝子ノックアウト効果なし)を発現する細胞、及び曝露またはDMSOで処理した細胞でトレーニングする。(2)単一細胞の発現カウント数を、配列決定の深さに対して中央値正規化する。(3)すべての非標的化対照と比較したZスコア遺伝子発現、及び発現量の少ない遺伝子を除外する(例えば、平均UMI<0.1)。(4)5分割交差検証を使用してモデルをトレーニングして、発現データに基づいて曝露条件を予測する。曝露予測のために、各遺伝子の重要度を決定する(
図15Bの下部パネル)。
【0452】
機械学習モデルがパフォーマンスの向上を達成できるかどうかを確認するために、教師なしモデルを使用して埋め込みを生成することにより、pSTEL形態学的表現型を評価した。元の埋め込みに対して共変量補正を実施し、90,596のセグメント化されたpSTELの残差埋め込みを生成した。残差埋め込みは、曝露予測のデータセットとして使用した。評価は、out-of-line検証プロトコルに焦点を当て;言い換えれば、モデルのトレーニングに使用したデータセットに存在しない保留データに対して、各モデルの試験を実行した。pSTEL株のセットが限られているため、細胞株を一度に1つずつ保留し、計算された曲線下面積(AUC)と共に受診者動作特性(ROC)曲線を報告した。この例での関心対象のラベルは、TGFβへの曝露または非曝露であった。
【0453】
保留した各系統について、残差埋め込みのトップから保留した細胞株を差し引いた上で回帰モデルをトレーニングした。out-of-line検証フレームワークを使用して、低濃度と高濃度の両方のTGFβ濃度を、対照条件(すなわち、PBS処理)と比較した。複数のout-of-lineバリエーションを実行することに加えて、out-of-acquisitionセットアップでパフォーマンスを試験することにより(すなわち、別日に実行される生物学的複製/個別のドナー細胞での試験)、TGFβ表現型のさらに厳密な評価も実行した。具体的には、
図15Cは、形態学的差異に従って0.1ng/mLのTGFβ処理細胞と非処理細胞とを区別するトレーニングされた機械学習モデルの改善された性能を示す。
図15Dは、形態学的差異に従って5ng/mLのTGFβ処理細胞と非処理細胞とを区別するトレーニングされた機械学習モデルの改善された性能を示す。
図15C及び15Dの左側のパネルは、用量反応性の属性を示したロバストな形態学的TGFβ誘導表現型を示す(out-of-line/out-of-acquisitionにおいて、それぞれ、低用量では0.74/0.78及び高用量では0.95/0.93の平均AUC)。各細胞株について、Insitroモデルは、従来のモデルよりも優れている(例えば、高いAUC値)。従来のモデルは、古典的な特徴のリストを使用する:
1.局所化された強度統計:核、細胞質及び核周囲領域に局所化されたシグナルの属性(例えば、分布パーセンタイル及びクロスチャネル相関)。
2.形状の特徴付け:サイズと形状の特徴を説明する属性(例えば、Huモーメント、細胞の幅、細胞の高さ)。
3.テクスチャの特徴付け:様々なチャネルのテクスチャ構造をまとめた属性(例えば、ガボールフィルター及び領域共分散記述子)
【0454】
古典的な画像特徴を組み込んだ従来のモデルは、out-of-line検証において、低用量で0.71、高用量で0.89の平均AUCを達成した。これらの結果は、形態学的表現型の特定と特徴付けに深層学習手法を利用する利点を裏付けている。
【0455】
曝露のみの影響を特徴付けた後、曝露の影響を遺伝的データに関連付けた(例えば、
図13に示すステップ6)。ここで、トランスクリプトーム応答に有意な影響を与える遺伝的摂動を特定することに焦点を当てた。この分析では、NASH GWASヒットにiSTEL ERPとの因果関係があるかどうかを直接評価した。分析アプローチでは、PCAを使用した後、投影間のマハラノビス距離を計算し、これにより、遺伝子ノックアウトと曝露を含む細胞と、遺伝子間ガイドと曝露を含む細胞との間の距離を計算することができる。
【0456】
一例として、TGFβまたはDMSOで処理した細胞の主成分(PC)上のTGFβR1ノックアウト細胞の投影を生成した。これらの投影では、最初の2つのPCが分散の約70%を説明しており、これらのPCをロードする際の遺伝子セットがこの曝露に対する反応を促進していることを示している。DMSO処理下のTGFβR1ノックアウト細胞をPC1及びPC2に投影すると、遺伝子間sgRNAに関して細胞のわずかではあるが有意なシフトが明らかになり、集団をDMSO様表現型の方向にさらに移動させ、TGFβ表現型から遠ざけた。これらの結果は、おそらく細胞培養における自然な低いTGFβ濃度のベースラインシグナル伝達が無効化されたことに起因する、iSTELにおけるTGFβR1ノックアウトのマイナーではあるが特異的な効果を明らかにした。予想通り、飽和TGFβ曝露下では、TGFβR1ノックアウト細胞の大部分は、PC1及びPC2に投影された場合にTGFβ表現型を獲得しなかった。これらの結果は、(i)iSTEL応答に有意な影響を与える遺伝的摂動は、PC空間における距離を定量化することで特定することができ、(ii)遺伝子ノックアウトの機能的結果は、適切な環境下でより容易に観察され得ることを示している。
【0457】
この分析結果を、その後、すべての曝露下で収集したすべてのノックアウトデータに拡張させた。このアプローチにより、下流の遺伝子発現に有意な影響を与える遺伝的摂動(FDR<5%)の特定が可能になり、試験した様々な曝露にわたる各ノックアウトの効果の予測される方向のアノテーションが可能になった。具体的には、
図15Eは、iStelにおけるPeturb-seqデータに基づくドラッガブル標的の同定を示す。遺伝子ノックアウトは、有意な曝露特異的な表現型を明らかにする。
図15Eの上段は、遺伝子標的化ガイド及び遺伝子間対照ガイドを含有する細胞間の差異のp値を示すQQプロットを示す。各パネルは、異なる曝露を示し、各データポイントは遺伝子ノックアウトである。PCAを、曝露処理の分類に重要な遺伝子全体に実行した。
図15Eの下部パネルは、対照、TF、及びGWASヒットを示し、摂動された遺伝子がそれぞれの曝露スコアに統計的に有意な影響を示したことを示す(色付きの点、FDR<0.05)。アップセットプロットの接続は、複数の曝露条件にわたる遺伝子ノックアウトの重複を強調している。青は、それぞれのDMSO対照に、より類似しているノックアウトを示し、赤は、曝露処理に、より類似しているノックアウトを示す。
【0458】
対照全体にわたって、転写因子とGWASヒットが摂動したが、試験した5つの曝露全体で、それぞれ14、22、及び27の有意な遺伝的摂動が観察された。それぞれのシグナル伝達経路において作用することが知られている遺伝子の対照セットから、TGFβ応答の調節を、TGFβ及びTGFβR1アンタゴニスト曝露についてはTGFβR1、TGFβR2、SMAD3、SMAD4のノックアウトを使用して、TNFα応答についてはRIPK1、TRADD、MAP3K7及びIKBKBのノックアウトによって確認した。FeSO
4及びZnSO
4曝露について、金属イオントランスポーター遺伝子のノックアウトが有意な効果を有することを確認した(それぞれ、SLC39A8及びSLC39A10)。全体として、これらの分析は、遺伝的摂動と曝露の間の相互作用を大規模に忠実にモデル化する能力を示した。複数の環境条件下での遺伝的摂動を伴う疾患モデルの特徴付けにより、曝露に対するiSTELの応答をよりよく理解し、予測することができた。この分析から、例示的候補標的を特定する。例えば、
図15Eの右下のパネルは、線維症の進行を調節するための候補標的として機能する様々なGWAS標的を示す。目標が細胞を活性化状態(例えば、y軸上の処理のうちの1つの後の状態)に向かわせることである場合、特定のGWASバリアント(例えば、GWAS-9、GWAS-15、GWAS-30、GWAS-50、GWAS-51、GWAS-74、GWAS-85、GWAS-86、GWAS-97)が標的となり得、一方、目標が細胞を非活性化状態(例えば、DMSO処理状態)に向かわせることである場合、他のGWASバリアントが標的となる(例えば、GWAS-7、GWAS-11、GWAS-17、GWAS-24、GWAS-25、GWAS-31、GWAS-33、GWAS-41、GWAS-55、GWAS-56、GWAS-60、GWAS-65、GWAS-75、GWAS-78、GWAS-79、GWAS-88、GWAS-96)。
【0459】
次に、候補マーカーを、様々な臨床的エンドポイント(例えば、線維症の進行、脂肪症、肝細胞バルーニング、または小葉内炎症)とのアラインメントについて分析した。候補マーカー遺伝子の大部分は、NASH疾患状態と強い関連性を有していた(例えば、
図15Fの下部パネル)。進行は、はるかに厳密な基準であり、少数の潜在的なマーカーと弱い関連性を示すのみである。比較すると、表現型アンカー(ACTA2、FN1、及びCOL1A1)は、アンカーと線維症状態との関連性が線維症進行との関連性よりも高いという点で同様の特徴を示した。これらの結果は、関心対象の臨床形質と強い関連性を有するスクリーニング用の候補遺伝的マーカーを特定する能力を支持するものである。まとめると、このG~Eアプローチにより、候補スクリーニング仮説を標的とするマーカーベースのスクリーニングを開発する目的で、ERPを分析するためのデータ駆動型戦略を開発することができる。
【0460】
具体的には、
図15Fは、GWASヒットと機械学習予測スコアとの比較を示す。ランダムフォレストモデルからのTGFβマーカーの選択及びNASH臨床エンドポイントとの関連付け
図15Fの上部パネルは、ERPの分類における重要性によってランク付けされた、TGFβ曝露の候補マーカー遺伝子を示す。左から右に向かって、最も重要な遺伝子から最も重要でない遺伝子である。
図15Fの下部パネルは、Stellar試験におけるTGFβ曝露の候補マーカー遺伝子と臨床標識との関連を示す。関連性試験からの符号付き-log10q値(独立した各臨床ラベルについて、シグネチャ遺伝子全体にBenjamini-Hochberg手順を適用してP値から取得される)を示し、その場合、符号は関連性の方向性を反映している。有意な関連性(FDR<0.20)のみを示す。
【0461】
実施例11:介入を検証し、SARスクリーニングを実施するための例示的な細胞疾患モデル
図16A及び16Bは、例示的な埋め込み及び治療薬の選択におけるそれらの使用を示す。簡潔に述べると、同質遺伝子変異ヒトiPSC株を、神経系統への急速な分化をもたらす転写因子の化学的に誘導される過剰発現を可能にするように設計した。細胞株をさらに、標的遺伝子の編集なし(WT)、完全喪失(TSC2 KO)、またはヘテロ接合性喪失(TSC2 het、SETD1ag3 het、SETD1ag4 het)を含むように改変した。次いで、遺伝子標識技術を使用して、細胞を一緒にプールし、前述の神経系統に分化させた。細胞が未熟なニューロン状態にある分化の14日目に、細胞をDMSO、ラパマイシン(100nM)、エベロリムス(100nM)、ロナファルミブ(100nM)、アイダデムスタット(100nM)で処理するか、または未処理のままとした。16日目に、同じもので2回目の投与により細胞を処理した。17日目に、細胞をアキュターゼによって解離させ、濾過し、計数し、洗浄し、遺伝子細胞標識を含むように改変された単一細胞RNAseqパイプラインを通過させた。各処置条件を個別にインデックス化し、データを逆多重化させるにより、個々の処置と遺伝子型を分離することができた。
【0462】
標準的なscRNAseqパイプラインを、Seuratを使用してRで実施した。まとめると、高い割合(%)のミトコンドリアを発現する細胞を除外し、転写読み取りデータを対数正規化し、高度に可変性の遺伝子を特定し、主成分分析(次元削減)に利用した。処理されたデータに対してグラフベースのクラスタリンとUMAP埋め込みを行い、TSC2koニューロンが特有の疾患シグネチャを発現した一方で、TSC2ko集団を含むラパマイシンで処理したすべての細胞が特有の転写状態に移行したことが示された(
図16A及び16B中のクラスタ1605で示されるように)。このように、
図16A及び16Bは、機械学習モデルによって生成された埋め込みを使用して、細胞にその細胞表現型を変化させるであろう介入(例えば、ラパマイシン)を特定することができるという命題を表している(例えば、転写状態の変化によって証明されるように)。
【0463】
図16Cは、野生型細胞とノックアウト細胞との間の表現型の区別を示す例示的な埋め込みを示す。
図16Cは、深層ニューラルネットワークから抽出された埋め込みを、UMAPを使用して2次元に投影することによって生成された。ニューラルネットワークモデルを教師ありの方法でトレーニングして、WT系統とKO系統のそれぞれのラベルに基づいて疾患/健康を区別する。図中の各点は、元の顕微鏡画像のタイルに対応している。図中に示される点は、処置なしのWT及びKO群のみを対象としている。具体的には、WT群を
図16Cに1620として示し、一方、KO群を
図16Cに1610として示している。
【0464】
図16Dは、処置(例えば、ラパマイシン及びエベロリムス)の既知の効果を検証するための埋め込みの使用を示す。以下の図は、処理なしのWT/KOのタイル埋め込みで計算された同じUMAPプロジェクターを使用して、処置群を表す埋め込みを同じ空間に投影する。重要なことに、埋め込みにおいて健康な細胞に向かってシフトまたは復帰した一連のノックアウト処理細胞(
図16Dのボックス1630に示す)が存在し、このことは、エベロリムス及びラパマイシンが、ノックアウト処理細胞が健康な表現型に戻るように誘導することを示している。
【0465】
図16Eは、ラパマイシン及びエベロリムスの処置を検証するためのin vitro試験を示す。Jurkat細胞(ATCC、TIB-152、ロット70029114)を、RPMI1640培地+10%ウシ胎仔血清(FBS)の懸濁液中で培養した。アッセイのために、細胞を超低接着(ULA)U底96ウェルプレートに1ウェルあたり20k細胞で播種した。懸濁培養物を、滴定用量のラパマイシン(SelleckChem、AY-22989)、エベロリムス(SelleckChem、RAD001)、またはDMSO対照で直ちに処理した。用量は、10μMから10倍希釈で1pMまでの範囲であった。細胞を37℃、5%CO2で20時間培養し、次いで、Beckman Coulter CytoFLEXを使用したフローサイトメトリーで直接検査した。平均前方散乱光(FSC)及び側方散乱光(SSC)に基づく形態測定を使用して、mTOR阻害剤に対する細胞の用量反応を調べた。ここで、データは、ラパマイシンとエベロリムスを含む、2つの十分に確立されたmTOR阻害剤で処理したJurkat細胞を示す。ラパマイシンとエベロリムスのIC50値は、漸増用量の前方散乱光(FSC)に基づいて示す。したがって、これは、機械学習モデルによって(例えば、
図16Cに示す埋め込みを使用して)予測される薬物が、in vitro試験によって首尾よく検証されることを示している。
【0466】
図16Fは、1つ以上の分子を含む例示的なスクリーニングプロセスを示す。ここで、分子は、R1、R2、R3、またはR4と呼ばれる。表現型疾患と対応する画像化+機械学習ベースの読み出しが確立されると、実験とモデルを使用して効率的な分子設計を行うことができる。疾患状態から始めて、R3分子をスクリーニングすることにより、ワンショットで健康な状態に直接戻すことができる。あるいは、基礎となる分子足場へのR1及びR2分子の付加によって示されるように、健康-疾患軸に沿って進行を測定することにより、複数のステップを経て疾患状態を健康な状態に戻すことができる。途中で、表現型空間の望ましくない領域につながるであろうことから、分子R4を回避する。そのようなシステムが実装されると、各出発分子足場の表現型SAR応答が作成され、それによって効率的な分子設計が可能になる。
【0467】
図16Gは、細胞の表現型の形態学的差異に従って作成された用量反応曲線を示す。具体的には、
図16Gは、機械学習モデルが、異なる用量の処置に起因する細胞表現型を区別するという命題を表している。したがって、細胞表現型を未処理状態に逆転させる治療薬が細胞に提供される場合、機械学習モデルは、
図16Gに示されるように、中央値DMSOへの距離の減少を通じて、そのような治療効果を捕捉することができる。
【0468】
細胞の表現型を別の状態(例えば、健康な状態)に戻すことが検証されている薬物を考慮して、細胞疾患モデルを使用して、同じまたは類似の表現型を示し、したがって同じ作用機序を共有する追加の候補治療薬を特定する。
図16Hは、クラスタ化された薬物が同様の構造及び/または作用機序を共有する例示的な多様体を示す。この場合、表現型効果の類似性に応じて、薬物が近接してクラスタ化される。例えば、同じメカニズムのクラスの薬物は、同様の表現型を示す。 これにより、既知薬物(例えば、アトルバスタチン、AZD3147、及びNutlin-3a)へのクラスタ化された近接性に基づいて、未知薬物(例えば、
図16Hに示すロバスタチン、AZD8055、及びRG7388)の識別がさらに可能になる。今度は、それらの表現型効果に基づいて、クラスタ化された近接にある薬物の類似または共通の構造的特徴間の追加の関連付けを決定し、SARマッピングを生成するために使用することができる。
【0469】
実施例12:患者セグメンテーションのための例示的な細胞疾患モデル
図17Aは、パーキンソン病に関する例示的な細胞アバターを示す。メンデル型のパーキンソン病を引き起こす12の機能喪失(LOF)遺伝子を選択し、それらの遺伝子に対する単一ガイドRNA(sgRNA)を設計し、プールとしてTwist Biosciencesに注文する。オリゴをCROP-seqガイド発現レンチベクターにクローニングし、プール化レンチウイルスを293T細胞で産生させ、力価測定する。安定したCas9株を、プール化レンチガイドウイルスに感染させ、5日間ピューロマイシンによって安定した組込み体を選択する。編集されたKO iPSCプールを、次いで、Kriks,S.et al.Dopamine neurons derived from human ES cells efficiently engraft in animal models of Parkinson’s disease. Nature 480,547-551(2011)に記載されている公開プロトコルによって45日目にiDopaに分化させる(その全体が参照により本明細書に援用される)。iDopaを、45日目に10X scRNAseqのために回収する。処理されたデータを、編集された遺伝子型にデコンボリューションし、混合分化細胞型及び摂動状態からノイズ除去し、各遺伝子型を最もよく予測する遺伝子モジュールを、さらなる検証とスクリーニングの取り組みのために疾患表現型としてノミネートする。この場合、
図17Aに示すような個々の「PD疾患表現型」は、細胞アバターとして機能する。したがって、上記の実施例11(例えば、
図16A~16D)の方法論に従って、PD疾患表現型に対して生成された埋め込み/予測を使用して、治療薬を選択し、分析してその効果(例えば、疾患の表現型を健康に戻す)を予測し、さらにin vitroで検証する。したがって、特定の細胞アバター(及びその細胞アバターに対応する患者)は、その治療薬に対するレスポンダーであるとみなされる。
【0470】
図17Bは、さらに、有望なレスポンダーを識別するための例示的なプロセスを示す。
iStel細胞は、ヒトのドナーから得られる。したがって、ドナー由来のそのような細胞は、細胞のアバター(例えば、特定の遺伝子セットを有する細胞)を表し得る。例えば、再び
図5Bを参照すると、細胞は、特定の対象505をさらに代表する細胞アバター540を表し得る。曝露と遺伝的バリアントの組み合わせを細胞に導入し、組み合わせの結果としての特定の遺伝子の示差的発現を調べる。この場合、関心対象の6つの遺伝子座:TM6SF2、GCKR、PNPLA3、HSD17B13、MBOAT、IFNにおいて、iStel細胞集団の遺伝子型決定を行い、細胞の3つの獲得を実行した。逆多重化後のiStelデータセットに対して、2つの成分を使用した部分最小回帰(PLS)回帰分析を実行した。各バリアントに4セットの細胞をPLS成分1及び2に投影した:バリアントリスク対立遺伝子を含まないPBSの細胞、バリアントリスク対立遺伝子を含まないTGFbの細胞、1つまたは2つのリスク対立遺伝子を含むPBSの細胞、及び1つまたは2つのリスク対立遺伝子を含むTGFbの細胞。TGFb/リスクなしの予測とPBS/リスクなしの予測の間のマハラノビス距離を計算した。次に、TGFb/1|2リスク対立遺伝子の投影とPBS/リスクなしの投影との間のマハラノビス距離を計算した。2つの場合のマハラノビス距離の分布を、マンホイットニー検定を介してそれらの間の相対的なシフトについて評価し、結果として-log10(P値)が得られた。これらの結果は、評価した6つの遺伝子座のうちの5つにリスク対立遺伝子が存在することに応じて、遺伝子発現特性の有意なシフトを示唆している。TM6SF2遺伝子座とGCKR遺伝子座において最も有意なシフトが観察され、IFN遺伝子座では有意なシフトは観察されなかった。以下の設計を使用して、各バリアントデータセットにlimma法を使用して、示差的遺伝子発現を実施した:log(カウント数)=アクイジション{1,2,3}+曝露{TGFb,PBS}+バリアント{0 リスク対立遺伝子,1|2 リスク対立遺伝子}+曝露:バリアント。相互作用項に応答した遺伝子のp値及びlog2倍変化を評価し、調整p値の閾値0.01及びlog2倍変化閾値0.1を使用して、発現が有意に異なる遺伝子を決定した。これらは、TM6SF2及びGCKRバリアントについてプロットされている(それぞれ、
図17Bの左パネル及び中央パネルに示されている)(これら2つのバリアントは、最も有意なp値を有していたため、選択された)。
図17Bの左側及び中央のパネルで観察できるように、曝露及び遺伝的バリアントの異なる組み合わせは、TM6SF2またはGCKRの上方制御または下方制御をもたらし得る。SERPINE2及びCD44を含む、複数のNASH関連遺伝子の示差的発現が観察される。リマモデルの相互作用項係数から導出されたT統計量のマトリックスからの53の標準的なNASH経路のセットから、経路濃縮分析を実行した。
図17Bの右パネルは、特定の細胞プロセス(例えば、マトリックスのy軸上のプロセス)及び異なる遺伝子(例えば、GCKR及びTM6SF2を含む)についての対応する経路濃縮を示すマトリックスを示す。具体的には、
図17Bの右側のパネルは、マクロレベルの細胞応答の変化を示しており、これにより、細胞アバターを、治療薬に対するレスポンダーまたはノンレスポンダーとして識別することが可能になる。例えば、細胞外マトリックス組織化を調節する治療薬の場合、細胞アバターは、細胞外マトリックス組織化の経路濃縮を示す
図17Bの分析を考えると、レスポンダーである。上記の実施例11(例えば、
図16A~16D)の方法論に従って、埋め込み/予測を使用して、そのような治療薬を分析して、その効果(例えば、疾患の表現型を健康に戻す)を予測し、細胞アバターが本当に治療薬に対するレスポンダーであるかどうかを判定する。
【0471】
実施例13:検証済み介入から候補介入を特定するための例示的な細胞疾患モデル
不死化がん細胞株A549及びHepG2をT150フラスコで培養し、60%超のコンフルエンスで回収した。細胞を細胞カウンター(Countess by ThermoFisher)でカウントし、細胞懸濁液を、384ウェルPDLコーティング Cell Carrier Ultra(Perkin Elmer)プレートの50μLウェルあたり2000細胞に調整した。細胞を37℃、5%CO2インキュベーターで一晩インキュベートし、Echo qualified PP2.0プレートのLabcyte Echoを使用して、DMSO中の化合物コレクション(対数空間で複数の濃度)を投与した。投与後、細胞を、37℃、5%CO2インキュベーターで48時間インキュベートした。インキュベーション期間の後、細胞培地を除去し、EL406プレートウォッシャー(Biotek)上にてPBSで洗浄し、次いでPRIMEリキッドハンドラー(HighRes Biosciences)を使用して細胞培養培地中の希釈した1mMストック濃度のmitotracker色素を各ウェルに加えることにより、プレートをMito-trackerで染色した。プレートを30分間インキュベートし、次いでPBSで1回洗浄した。ホルムアルデヒドを各プレートの各ウェルに加えて細胞を固定し、20分間インキュベートした後、PBSで5回洗浄した。PBS中の0.1%Tritonをプレートに加え、15分間インキュベートした後、PBSで2回洗浄し、染色混合物をプレートのすべてのウェルに加えた。染色混合物には、5μg/mLヘキスト、100μg/mLコンカナバリンAlexa Fluor488複合体、3uM SYTO14緑色蛍光核酸染色、5uL/mLファロイジン/Alexa Fluor568複合体、及びBSAを含有するHBSS中の1.5ug/mLコムギ胚芽凝集素Alexa Fluor555複合体が含まれていた。プレートを染色溶液と共に30分間インキュベートし、次いでPBSで4回洗浄した。次いで、プレートをPerkin Elmer Opera Phenix顕微鏡で画像化し、すべての染色波長について1ウェルあたり16枚の画像を撮影した。
【0472】
これは、単一ウェル内の細胞を摂動させるために使用された化合物を特定することを目標とする分類タスクである。単一ウェルは、顕微鏡によって捕捉される16の異なる視野(FOV)に分割される。生のFOV画像を、明るさを補正することによって前処理した。深い畳み込みニューラルネットワーク(CNN)モデルのトレーニング中にメモリに収まるように、FOV画像をさらに小さな正方形にトリミングした。ヘキストチャネルを使用して核を検出し、検出された核の周りに正方形を作成した。
【0473】
分類タスクをモデル化するために、深い畳み込みニューラルネットワークを実装した。それは150通りの分類タスクであった。残差ネットワーク(ResNets)を、基本特徴抽出ネットワークとして使用し、その上に完全に接続された線形ネットワークが分類を実行した。パフォーマンスを改善し、実験的バイアスを除去する標準的な増強を実装した。例えば、ガンマコントラストなどの強度ベースの増強は、実験的バイアス(バッチ効果)を除去するのに役立つ。作用機序の同定のために、トレーニング中に一部の化合物を省略した(150のうち約30の化合物)。推論中、未知化合物は、既知化合物と共に、予想される作用機序クラスタの近くに埋め込まれた。
図18Aは、類似の薬物がより密接にクラスタ化された例示的な埋め込みを示す。この場合、ロバスタチンは、保留された、未知薬物であり、一方、アトルバスタチンはトレーニングに使用する薬物である。薬物は密集しており、これは、それらの類似性を示している。
図18Bは、類似の薬物をそれらの作用機序に従ってクラスタ化する例示的な多様体を示す。異なる分子は、HepG2及びA549細胞株内で異なる形態学的表現型を誘導する。深層学習はこれらの形態を捉えて形態学的多様体を作成する。多様体内では、類似の表現型を誘発する化合物が互いに近くにクラスタ化される。明確な表現型を示さない化合物は、陰性対照とクラスタ化される。したがって、これらの結果は、薬物を他の類似する薬物の近くに効果的にクラスタ化できることを示しており、さらなる試験のための候補治療薬を表している。上記の実施例11(例えば、
図16A~16D)の方法論に従って、埋め込み/予測を使用して、候補治療を分析して、その効果(例えば、疾患の表現型を健康に戻す)を予測し、さらにin vitroで検証する。
【国際調査報告】