(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-07-19
(45)【発行日】2023-07-27
(54)【発明の名称】統合算出および実験的深層変異学習フレームワークを介した遺伝子およびゲノム変異体の解釈
(51)【国際特許分類】
G16B 20/20 20190101AFI20230720BHJP
G16B 45/00 20190101ALI20230720BHJP
【FI】
G16B20/20
G16B45/00
(21)【出願番号】P 2020519022
(86)(22)【出願日】2018-06-19
(86)【国際出願番号】 US2018038255
(87)【国際公開番号】W WO2018236852
(87)【国際公開日】2018-12-27
【審査請求日】2021-06-18
(32)【優先日】2017-06-19
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2018-03-08
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】523026927
【氏名又は名称】インビタエ コーポレイション
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】アラヤ, カルロス エル.
(72)【発明者】
【氏名】ロイター, ジェイソン エー.
(72)【発明者】
【氏名】パディゲパティ, サムスクルティ レディ
(72)【発明者】
【氏名】コラヴィン, アレクサンドル
【審査官】橋沼 和樹
(56)【参考文献】
【文献】米国特許出願公開第2013/0332081(US,A1)
【文献】米国特許出願公開第2016/0371431(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
(57)【特許請求の範囲】
【請求項1】
モデルシステム内で識別された分子変異体の表現型影響を判定するためのコンピュータ実装方法であって、
(a)前記モデルシステム内の、1つ以上の機能要素に関連付けられた分子変異体を受容することであって、前記モデルシステムが単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントを含む、受容することと、
(b)前記モデルシステムの分子スコアまたは表現型スコアを判定することと、
(c)前記モデルシステムの前記それぞれの分子スコアまたは表現型スコアに基づいて、前記分子変異体に関連付けられた分子シグナルまたは表現型シグナルを判定することと、
(d)前記モデルシステムの前記分子スコアまたは表現型スコアに基づいて、前記分子変異体に関連付けられた集団シグナルを判定することと、
(e)統計学習に基づいて前記分子変異体に関する機能スコアまたは機能分類を判定することと、
(f)前記機能スコアもしくは機能分類、前記機能スコアもしくは機能分類のモデリング、予測因子スコアもしくは予測因子分類のモデリング、またはホットスポットスコアもしくはホットスポット分類のモデリングに基づいて、前記分子変異体のエビデンススコアまたはエビデンス分類を導出することと、
(g)前記機能スコア、前記機能分類、前記エビデンススコア、または前記エビデンス分類に基づいて、前記分子変異体の前記表現型影響を判定することと、を含む、方法。
【請求項2】
前記エビデンススコアまたは前記エビデンス分類が、
(i)1つ以上の機能要素における前記分子変異体からの前記分子シグナル、前記表現型シグナル、または前記集団シグナルに基づいて判定される、または
(ii)前記機能スコアもしくは機能分類、前記予測因子スコアもしくは予測因子分類、または前記ホットスポットスコアもしくはホットスポット分類から導出される、または
(iii)回帰または分類を利用してエビデンススコアおよびエビデンス分類を前記分子変異体の表現型影響に関連付ける統計学習を応用することによって、導出される、
請求項1に記載の方法。
【請求項3】
前記分子変異体の前記機能スコアまたは機能分類が、回帰または分類を利用して分子シグナルを前記分子変異体の表現型影響に関連付ける統計学習を応用することによって、導出される、請求項1に記載の方法。
【請求項4】
前記分子変異体の前記表現型影響が、
(i)変異体、対象または集団の臨床データベース、表現型データベース、集団データベース、分子アノテーションデータベース、または機能データベースに基づいて、導出される、または
(ii)変異量、変異率、および変異シグネチャーを含む分子シグナルに基づいて導出される、
請求項2(iii)部に記載の方法。
【請求項5】
前記分子変異体の前記機能スコアまたは機能分類が、
(i)前記分子シグナル、前記表現型シグナル、または前記集団シグナルの独立した、または互いに素な推定値を利用して生成された複数の統計学的モデルから、導出される、または
(ii)機能モデリングエンジン(FME)から導出され、機械学習技術を応用することによって、前記FMEが生成され、前記分子変異体の非測定特徴を前記機能スコアまたは機能分類に関連付け、また、前記非測定特徴が進化的、集団、機能的、構造的、動的、かつ物理化学的特徴を含む、
請求項1に記載の方法。
【請求項6】
前記分子変異体の前記予測因子スコアまたは予測因子分類が変異体解釈エンジン(VIE)から導出され、
(i)機械学習技術を応用することによって、前記VIEが生成され、前記機能スコアまたは機能分類および非測定特徴を前記分子変異体の前記表現型影響に関連付ける、または
(ii)前記VIEが機能要素、機能型、または条件固有VIEを含む、または
(iii)前記VIEが複数のパスウェイ、ホモログファミリー、酵素ファミリー、または条件を通知する、
請求項1に記載の方法。
【請求項7】
前記分子シグナルが、
(i)前記モデルシステムにおいて計測された前記分子スコアの概要統計、記載統計、推計統計、またはベイズ推定モデルとして導出される前記分子変異体の分子シグナルを含む、または
(ii)請求項7(i)に記載の前記分子シグナルを調整、シグナル伝達、パスウェイ、処理、細胞周期活性、変更、欠陥、または状態に関連付ける既存のモデルを応用することによって導出される前記分子変異体の分子シグナルを含む、または
(iii)請求項7(i)に記載の前記分子シグナルから教師なし学習、特徴表現学習、または次元削減技術を介して導出される前記分子変異体の分子シグナルを含む、または
(iv)前記モデルシステムからの分子測定、分子処理、分子特徴に対応する分子スコアを含む、または
(v)請求項7(iv)に記載の前記分子スコアを調整、シグナル伝達、パスウェイ、処理、細胞周期活性、変更、欠陥、または状態に関連付ける既存のモデルを応用することによって導出される前記モデルシステムの分子スコアを含む、または
(vi)教師なし学習、特徴表現学習、または次元削減技術によって請求項7(iv)に記載の前記分子スコアから導出される前記モデルシステムの分子スコアを含む、
請求項1に記載の方法。
【請求項8】
前記分子測定が
(i)前記モデルシステム内の分子の遺伝子発現、タンパク質発現、クロマチンアクセシビリティ、エピジェネティック修飾、調整活性、転写後処理、翻訳後修飾、変異状態、変異量、または変異率の遺伝子座特異測定に対応する、
(ii)前記モデルシステム内の分子測定から導出された遺伝子発現、タンパク質発現、クロマチンアクセシビリティ、エピジェネティック修飾、調整活性、転写活性、翻訳活性、シグナル伝達活性、パスウェイ活性、変異状態、変異量、または変異率の多遺伝子座測定に対応する、または
(iii)前記モデルシステム内の分子測定または分子処理から導出された遺伝子発現、タンパク質発現、クロマチンアクセシビリティ、エピジェネティック修飾、調整活性、転写活性、翻訳活性、シグナル伝達活性、パスウェイ活性、変異状態、変異量、または変異率のグローバル測定に対応し、
配列読み取り品質管理、細胞バーコード識別または品質管理、分子バーコード識別または品質管理、配列読み取りの参照ゲノムへの整列、配列読み取り整列フィルタリングまたは品質管理、フィルタリングされ、品質管理された配列読み取りの機能要素へのマッピング、フィルタリングされ、品質管理された分子バーコードの機能要素へのマッピング、および、特定の細胞バーコードに関する、フィルタリングされ、品質管理された配列読み取りまたは分子バーコードの機能要素へのマッピングを、前記分子測定が含んでもよい、
請求項7(iv)部に記載の方法。
【請求項9】
前記分子シグナル、前記表現型シグナル、または前記集団シグナルが、
(i)分子状態固有であり、特定の分子状態からの前記モデルシステムの集団から導出されて、状態特異的な学習層における学習を可能にする、または
(ii)分子状態にとらわれず、複数の分子状態からの前記モデルシステムの集団から導出されて、状態にとらわれない学習層における学習を可能にする、または
(iii)分子状態により順序付けられており、複数の分子状態からの前記モデルシステムの集団から導出されて、多状態学習層における学習を可能にする、
請求項1に記載の方法。
【請求項10】
前記モデルシステムの分子状態が、
(i)分子スコアまたは表現型スコアを前記分子状態に関連付ける既存のモデルであって、前記モデルが予め特徴付けられた遺伝子発現シグネチャーに基づいて、単一細胞を細胞周期の位相に割り当てる、既存のモデルを応用することによって、または
(ii)前記モデルシステムに渡る分子スコアまたは表現型スコアの教師なし学習、特徴表現学習、または次元削減技術を介して、
導出される、請求項1に記載の方法。
【請求項11】
(i)メンデル遺伝病、(ii)既知のがんドライバー、(iii)薬物反応の変化、または(iv)他の臨床的に価値のある遺伝子に関連付けられた機能要素、機能要素の予め識別された変異ホットスポット、遺伝子およびパスウェイ内のコード化または非コード化変異体に、前記分子変異体が対応する、請求項1に記載の方法。
【請求項12】
メンデル遺伝病、既知のがんドライバー、薬物反応の変化または他の臨床的に価値のある遺伝子に関連付けられた機能要素、遺伝子およびパスウェイの、10bp、50bp、100bp、500bpまたは1000bpの予め識別された変異ホットスポットまたは制約領域内のコード化または非コード化変異体に、前記分子変異体が対応する、請求項1に記載の方法。
【請求項13】
前記モデルシステムの前記表現型スコアが、
(i)モデルシステムの前記分子スコアおよび分子状態を、各モデルシステム内での分子変異体の前記表現型影響に関連付ける統計学習技術の利用を通じて表現型モデルによって生成されたスコアまたは分類に対応する表現型スコア、または
(ii)(a)請求項13(i)に記載の前記表現型スコアを調整、シグナル伝達、パスウェイ、処理、細胞周期活性、変更、欠陥、または状態に関連付ける既存のモデルを応用することによって、または(b)請求項13(i)に記載の前記表現型スコアから教師なし学習、特徴表現学習、または次元削減技術を介して導出される表現型スコア、
を含む、請求項1に記載の方法。
【請求項14】
前記分子変異体に関連付けられた前記表現型シグナルが、
(i)前記分子変異体に関連付けられた表現型シグナルを含み、前記分子変異体を含有する前記モデルシステムにおいて計測された前記表現型スコアの概要統計、記載統計、推計統計、ベイズ推定モデルとして、前記分子変異体に関連付けられた前記表現型シグナルが導出される、または
(ii)前記分子変異体に関連付けられた表現型シグナルを含み、前記分子変異体に関連付けられた前記表現型シグナルが、(a)請求項14(i)に記載の前記表現型シグナルを調整、シグナル伝達、パスウェイ、処理、細胞周期活性、変更、欠陥、または状態に関連付ける既存のモデルを応用することによって、または(b)教師なし学習、特徴表現学習、または次元削減技術を介して、請求項14(i)に記載の前記表現型スコアから導出される、
請求項1に記載の方法。
【請求項15】
(h)既存のソースからの、推定上の、または既知の表現型影響を有する分子変異体の集合にアクセスすることと、
(i)予測モデルを利用して、推定上のまたは既知の表現型影響を有する前記分子変異体の集合を増大させることと、
(j)サンプリングモデルを利用して、推定上のまたは既知の表現型影響を有する遺伝子型の第1の集合を選択することと、
(k)サンプリングモデルを利用して、未知の、推定上の、または既知の表現型影響を有する遺伝子型の第2の集合を選択することと、
(l)サンプリングモデルを利用して、未知の、推定上の、または既知の表現型影響を有する遺伝子型の第3の集合を選択することと、
(m)前記遺伝子型の第1の集合の分子シグナル、表現型シグナル、または集団シグナルを推定上のまたは既知の表現型影響に関連付ける統計学習技術を応用することによって、機能モデルを生成することと、
(n)前記遺伝子型の第2の集合の分子シグナル、表現型シグナル、または集団シグナルに基づいて予測を行うために前記機能モデルを応用することによって、前記遺伝子型の第2の集合に関する予測される表現型影響を生成することと、
(o)統計学習技術を応用することによって推論モデルを生成することであって、前記推論モデルが非測定特徴を分子変異体の表現型影響に関連付ける生成することと、
(p)前記遺伝子型の第3の集合の非測定特徴に基づいて予測を行うために前記推論モデルを応用することによって、前記遺伝子型の第3の集合の予測される表現型影響を生成することと、をさらに含む、請求項1に記載の方法。
【請求項16】
前記分子シグナル、前記表現型シグナル、または前記集団シグナルを前記機能要素の前記分子変異体の前記表現型影響と組み合わせる統計学習技術を応用することによって、機能モデルを生成すること、をさらに含み、前記統計学習技術がニューラルネットワークである、請求項1に記載の方法。
【請求項17】
前記分子変異体に関連付けられた前記集団シグナルが、異なる分子状態から前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの亜集団に渡る前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの分布、ダイナミクス、分布の変化、またはダイナミクスの変化を記載する、請求項1に記載の方法。
【請求項18】
前記分子変異体の前記分子スコアまたは前記表現型スコアが、(i)前記分子変異体の前記分子スコアまたは前記表現型スコアと、参照分子変異体または参照単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントの前記分子スコアまたは前記表現型スコアとの間の差異として、または(ii)参照分子変異体または参照単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメント分子スコアまたは表現型スコアに対する前記分子変異体の前記分子スコアまたは前記表現型スコアを正規化することによって算出された調整分子スコアまたは表現型スコアを含む、請求項1に記載の方法。
【請求項19】
分子変異体の分子シグナル、表現型シグナル、または集団シグナルが、
(i)分子変異体の前記分子シグナル、表現型シグナル、または集団シグナルと、参照分子変異体の前記分子シグナル、表現型シグナル、または集団シグナルとの間
の差異として
、
(ii)前記分子変異体に関連付けられた前記分子シグナル、前記表現型シグナル、または前記集団シグナルを参照分子変異体の分子シグナル、表現型シグナル、または集団シグナルによって正規化することによって、
または、
(iii)参照分子変異体の分子シグナル、表現型シグナル、または集団シグナル間の前記分子変異体に関連付けられた前記分子シグナル、前記表現型シグナル、または前記集団シグナルの分位として、
それぞれ算出された調整分子シグナル、表現型シグナル、または集団シグナルを含む、請求項1に記載の方法。
【請求項20】
(a)メモリと、
(b)前記メモリに結合された少なくとも1つのプロセッサであって、
(i)モデルシステムであって、単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントを含む前記モデルシステム内で、1つ以上の機能要素に関連付けられた分子変異体を受容し、
(ii)前記モデルシステムの分子スコアまたは表現型スコアを判定し、
(iii)特定の分子変異体を含有する前記モデルシステムの前記それぞれの分子スコアまたは表現型スコアに基づいて、前記分子変異体に関連付けられた分子シグナルまたは表現型シグナルを判定し、
(iv)特定の分子変異体を含有する前記モデルシステムの前記分子スコアまたは表現型スコアに基づいて、前記分子変異体に関連付けられた集団シグナルを判定し、
(v)統計学習に基づいて、前記分子変異体に関する機能スコアまたは機能分類を判定し、
(vi)前記機能スコアまたは機能分類、前記機能スコアまたは機能分類のモデリング、予測因子スコアまたは予測因子分類のモデリング、またはホットスポットスコアまたはホットスポット分類のモデリングに基づいて、前記分子変異体のエビデンススコアまたはエビデンス分類を導出し、
(vii)前記機能スコア、前記機能分類、前記エビデンススコア、または前記エビデンス分類に基づいて、前記分子変異体の前記表現型影響を判定する、
ように構成された前記少なくとも1つのプロセッサと、を含む、システム。
【発明の詳細な説明】
【技術分野】
【0001】
タンパク質コード化遺伝子、非コード化遺伝子、および調整要素などのゲノム機能要素内の遺伝子型(例えば、配列)変異体の影響を理解することは、多種多様な生命科学の応用に重要である。今日では、疾患関連遺伝子のほぼ半数が、既知の臨床的意義がある変異体よりも多数の、母集団において特徴付けられていない変異体を含有する。これは、遺伝子およびゲノム配列を評価する診断およびスクリーニング検査の両方にとって、大きな課題をもたらす(Landrum et al.2015;Lek et al.2016)。未知の臨床的意義がある多数の新規変異体は、(例えば、集団における生殖細胞系列および体細胞変異体に関する)ほぼすべての遺伝子の特徴であり、最も頻繁に検査された遺伝子にさえ影響する。例えば、がん素因変異に関する遺伝子パネルを評価する検査は、既知の疾患原因変異体ごとに95もの数の特徴付けられていない変異体の発見を報告する(Maxwell et al.2016)。このように、遺伝子型変異体の表現型(例えば、細胞、生物、臨床、または他の)結果の予測は、多種多様な臨床現場において、遺伝子およびゲノム情報を活用する上での難関である。
【0002】
遺伝子符号化された機能要素内の遺伝子型(例えば、配列)変異体は、多様な生物物理学的処理に影響し、各要素内の異なる分子機能を変更し、変化した臨床および非臨床表現型をもたらし得る。例えば、確立された腫瘍抑制タンパク質コード化遺伝子において、ホスファターゼ・テンシン・ホモログ(PTEN)、転写に影響する遺伝子型変異体(f.g.-903G>A、-975G>C、および-1026C>A)、タンパク質安定性(f.g.C136R)、ホスファターゼ触媒活性(f.g.C124S、H93R)、および基質認識(f.g.G129E)はすべて、乳がん、甲状腺がん、子宮内膜がん、腎臓がん、大腸がんおよびメラノーマのリスクを示し、カウデン症候群(CS)に関連付けられている(Heikkinen et al.2011;He et al.2013;Myers et al.1997;Myers et al.1998)。同じ生物物理学的処理および分子機能に影響する変異体は、自閉症スペクトラム障害(ASD)にさらに含有される(Johnston and Raines 2015)、ホスファターゼ活性に影響するPTEN変異体(例えば、H93R)に例示される異なる障害間の共存症につながり、ASDとがんとの間の常習的な共存症につながり得る(Markkanen et al.2016)。また、機能要素内の異なる生物物理学的処理および分子メカニズムに影響する変異体は、常同的な、分化した臨床および非臨床表現型を示し得る。ラミナA/C 遺伝子(LMNA)における変異は、A-EDMD(常染色体エメリ・ドレフュス型筋ジストロフィー)、DCM(拡張型心筋症)、LGMD1B(肢帯型筋ジストロフィー1B)、L-CMD(LMNA関連先天性筋ジストロフィー)、FPLD2(家族性部分型リポジストロフィー2)、HGPS(ハッチンソン・ギルフォード・プロジェリア症候群)、非典型的WRN(ウェルナー症候群)、MAD(下顎骨異形成)and CMT2B(シャルコー・マリー・トゥース障害2B型)を含む、「ラミノパチー」と総称される15を上回る疾患の概要を引き起こす(Scharner et al.2010)。LMNAにおいて、HGPSにつながる遺伝子型(例えば、配列)変異体は、ラミンA特異エクソン11において潜在的なスプライス部位ドナーを生成し、それによってラミンAの切断型がもたらされる一方で、FPLD2をもたらす変異体は、Ig様領域の表面電荷を変更し、変異タンパク質の結晶構造を変化させない(Scharner et al.2010)。このように、多種多様な変異体型、機能要素、および分子システムに渡る遺伝子型表現型関係ならびに細胞効果の複雑性を低減することは、依然として、臨床および非臨床遺伝子およびゲノム検査において発見される変異体の表現型結果の強固で、拡張性のある解釈にとっての課題である。
【0003】
実際に、遺伝子型(例えば、配列)変異体の意義の査定は、複雑かつ困難な作業であり得る。つい2015年までは、変異体分類の調査により、17%(例えば、2,229/12,895)もの数の変異体分類が分類提出者間で一致しないことが示されていた(Rehm et al.2015)。臨床検査研究所間では、解釈の一致が34%と低いことが測定されているが、特定の提案により、研究所間の一致は71%に増大し得る(Amendola et al.2016)。
【0004】
市場の(例えば、NCBI遺伝子検査レジストリによる)遺伝子検査によって5,300を上回る遺伝子が評価されているため、多岐に渡る遺伝子、疾患、およびコンテキスト(例えば、臨床および非臨床)における遺伝子型(例えば、配列)変異体の解釈(例えば、分類)のための拡張性のある解決法が、精密な医学および生命科学産業にとって重要である。14,000,000を上回る潜在的な(例えば、固有の)分子変異体が、臨床検査市場において、一塩基変異体(SNV)に対応する分子変異体の部分集合内に、コード化配列の部分集合内に、また、タンパク質コード化遺伝子の部分集合内にあるため、分子変異体分類のための効果的な解決法は、強固かつ拡張性がある必要がある。
【0005】
ファミリー区分、機能測定、および症例対象研究を含むがそれに限定されない分子変異体の表現型影響の識別に関して、複数の戦略が存在するが、現在のところ、算出変異体影響予測因子のみが、必要な規模でサポートを行うエビデンスを提示することが可能である。実際に、米国臨床遺伝・ゲノム学会(ACMG)および分子病理学協会(AMP)からの臨床変異体解釈のための合同ガイドラインに従う当業者からの臨床変異体分類の分析は、臨床変異体分類の50%までが算出変異体影響予測因子の利用に依拠することを示す。しかし、それらの広い利用にも関わらず、ベンチマーク研究は、SIFT、PolyPhen(v2)、GERP++、Condel、CADD、REVEL他などの算出変異影響予測アルゴリズムの性能が0.52~0.75の範囲の精度(AUC)で、顕著に低いことを示す(Mahmood et al.2017)。
【0006】
分子機能の直接測定は、遺伝子型(例えば、配列)変異体の臨床および非臨床影響の正確な解釈に対する基準を提供してもよい(Shendure and Fields 2016;Araya and Fowler 2011)。今日まで、多種多様な分子機能への変異体の影響を直接査定するために、測定の多様なスペクトラムが考案されている。しかし、既存の方法には、分子機能を定義して測定するために調査されている臨床(および非臨床)表現型に関連付けられた変異体の作用のメカニズムの先験的知識または仮定が必要である(Shendure and Fields 2016)。これらの方法はしばしば、測定された特定の分子機能に影響する変異体のみの効果を得、また、それを通知することに限定されて、大規模で測定され得る変異体の型、分子機能の型、および機能要素の型、ならびに遺伝子の限定を課す。このように、例えばホスファターゼ測定は、PTEN腫瘍抑制因子の触媒活性に影響する変異体に関する潜在的な疾患関連性を指定し(例えば、含み)得るが、タンパク質安定性に影響する変異体は触媒活性における観測可能な欠陥なしに疾患を患うリスクを増大させる可能性があるため、このような測定は、これらの変異体に関する潜在的な疾患関連性を除外する(例えば、排する)ことが不可能である可能性がある。反対に、例えばタンパク質安定性測定は、PTEN腫瘍抑制因子における安定性欠陥につながる変異体に関する潜在的な疾患関連性を指定し(例えば、含み)得るが、このような測定は、触媒活性に影響する変異体に関する潜在的な疾患関連性を除外する(例えば、排する)ことが不可能である可能性がある。作用(したがって測定するための関連する分子機能)のメカニズムの先験的知識または仮定の潜在的な必要性は、十分に特徴付けられた機能要素(例えば、遺伝子)および表現型にこれらの方法の応用を限定する可能性があり、それにより、よく理解されていない疾患関連遺伝子へのそれらの応用が妨げられる可能性がある。
【0007】
ハイスループットDNA配列プラットフォームの技術的基盤を基礎とし、深層変異スキャニング(DMS)、HITS-KIN、RNAマップ他などの近年開発された大規模機能測定は、コード化、非コード化、および調整要素における一塩基変異体(SNV)および非同義変異体(NSV、ミスセンス変異体)を含む異なる配列クラスの、包括的な、またはほぼ包括的な範囲の潜在的な配列変異体を可能にしている(Fowler et al.2010;Araya et al.2012;Guenther et al.2013;Buenrostro et al.2014;Kelsic et al.2016;Patwardhan et al.2009)。このような方法は、リポジストロフィーならびに、PPARGにおける変異体を有する患者の2型糖尿病(T2D)の増大したリスク、またはBRCA1における変異体を有する患者の乳がんおよび卵巣がんの増大したリスクなどの臨床表現型を含む患者の表現型への遺伝子型(例えば、配列)変異体などの分子変異体の影響の強固な、統計学的に検証された解釈の基準となってもよい(Starita et al.2015;Majithia et al.2016)。このような方法は、臨床および非臨床検査現場において強固な変異体解釈を提供してもよいが、これらの方法には、各分子機能および各機能要素を測定するために、大幅な開発およびカスタマイゼーションが必要となる可能性がある。これにより、変異体、生物物理学的処理、分子機能、機能要素、遺伝子、および最終的には、パスウェイの多様な型に渡って、遺伝子型(例えば、配列)変異体などの分子変異体の臨床および非臨床結果を系統的に査定するための汎化可能な、拡張性のある解決法として、それらの利用が限定されてもよい。このように、変異体影響査定のために多機能プラットフォームおよび方法が必要である。
【0008】
添付図面は本明細書に組み込まれ、本明細書の一部を形成する。
本発明は、例えば、以下の項目を提供する。
(項目1)
生体試料内で識別された分子変異体の表現型影響を判定するためのコンピュータ実装方法であって、
モデルシステム内の、1つ以上の機能要素に関連付けられた分子変異体を受容することであって、前記モデルシステムが単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントを含む、受容することと、
前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの分子スコアまたは表現型スコアを判定することと、
特定の分子変異体を含有する前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの前記それぞれの分子スコアまたは表現型スコアに基づいて、前記分子変異体に関連付けられた分子シグナルまたは表現型シグナルを判定することと、
特定の分子変異体を含有する前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの前記分子スコアまたは表現型スコアに基づいて、前記分子変異体に関連付けられた集団シグナルを判定することと、
統計学習に基づいて前記分子変異体に関する機能スコアまたは機能分類を判定することであって、前記統計学習が、分子変異体の前記分子シグナル、前記表現型シグナル、または前記集団シグナルを前記分子変異体の表現型影響に関連付ける、判定することと、
前記機能スコアもしくは機能分類、前記機能スコアもしくは機能分類のモデリング、予測因子スコアもしくは予測因子分類のモデリング、またはホットスポットスコアもしくはホットスポット分類のモデリングに基づいて、前記分子変異体のエビデンススコアまたはエビデンス分類を導出することと、
前記機能スコア、前記機能分類、前記エビデンススコア、または前記エビデンス分類に基づいて、前記分子変異体の前記表現型影響を判定することと、を含む、方法。
(項目2)
前記エビデンススコアまたは前記エビデンス分類が、1つ以上の機能要素における前記分子変異体からの前記分子シグナル、前記表現型シグナル、または前記集団シグナルに基づいて判定される、項目1に記載の方法。
(項目3)
前記エビデンススコアまたはエビデンス分類が、前記機能スコアもしくは機能分類、前記予測因子スコアもしくは予測因子分類、または前記ホットスポットスコアもしくはホットスポット分類から導出される、項目1に記載の方法。
(項目4)
前記エビデンススコアまたはエビデンス分類が、回帰または分類を利用してエビデンススコアおよびエビデンス分類を前記分子変異体の表現型影響に関連付ける統計学習を応用することによって、導出される、項目1に記載の方法。
(項目5)
前記分子変異体の前記機能スコアまたは機能分類が、回帰または分類を利用して分子シグナルを前記分子変異体の表現型影響に関連付ける統計学習を応用することによって、導出される、項目1に記載の方法。
(項目6)
前記分子変異体の前記表現型影響が、変異体、対象または集団の臨床データベース、表現型データベース、集団データベース、分子アノテーションデータベース、または機能データベースに基づいて、導出される、項目4に記載の方法。
(項目7)
前記分子変異体の前記表現型影響が、変異量、変異率、および変異シグネチャーなどの分子シグナルに基づいて導出される、項目4に記載の方法。
(項目8)
前記分子シグナル、前記表現型シグナル、または前記集団シグナルの独立した、または互いに素な推定値を利用して生成された複数の統計学的モデルから、前記分子変異体の前記機能スコアまたは機能分類が導出される、項目1に記載の方法。
(項目9)
機能モデリングエンジン(FME)から、前記分子変異体の前記機能スコアまたは機能分類が導出され、機械学習技術を応用することによって、前記FMEが生成され、前記分子変異体の非測定特徴を前記機能スコアまたは機能分類に関連付け、また、前記非測定特徴が進化的、集団、機能的、構造的、動的、かつ物理化学的特徴を含む、項目1に記載の方法。
(項目10)
変異体解釈エンジン(VIE)から、前記分子変異体の前記予測因子スコアまたは予測因子分類が導出され、機械学習技術を応用することによって、前記VIEが生成され、前記機能スコアまたは機能分類および非測定特徴を前記分子変異体の前記表現型影響に関連付ける、項目1に記載の方法。
(項目11)
より下位の変異体解釈エンジン(VIE)から、前記予測因子スコアまたは予測因子分類が導出され、前記より下位のVIEが機能要素、機能型、または条件固有である、項目1に記載の方法。
(項目12)
より上位の変異体解釈エンジン(VIE)から、前記予測因子スコアまたは予測因子分類が導出され、前記より上位のVIEがパスウェイ、ホモログファミリー、酵素ファミリー、または条件固有である、項目1に記載の方法。
(項目13)
より上位の変異体解釈エンジン(VIE)から、前記予測因子スコアまたは予測因子分類が導出され、前記VIEが複数のパスウェイ、ホモログファミリー、酵素ファミリー、または条件を通知する、項目1に記載の方法。
(項目14)
顕著に変異している領域およびネットワーク(SMR/SMN)算出を応用した空間クラスタリング技術から、前記分子変異体の前記ホットスポットスコアまたはホットスポット分類が導出され、上位または下位機能スコア、または特定の機能分類を有する高密度な分子変異体を有する残差の領域およびネットワークを検出する、項目1に記載の方法。
(項目15)
前記分子変異体を含有する前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントにおいて計測された前記分子スコアの概要統計、概要統計、記載統計、推計統計、またはベイズ推定モデルとして導出される前記分子変異体より下位の分子シグナルを、前記分子シグナルが含む、項目1に記載の方法。
(項目16)
より下位の分子シグナルを調整、シグナル伝達、パスウェイ、処理、細胞周期活性、変更、欠陥、または状態に関連付ける既存のモデルを応用することによって導出される前記分子変異体のより上位の分子シグナルを、前記分子シグナルが含む、項目1に記載の方法。
(項目17)
より下位の分子シグナルから教師なし学習、特徴表現学習、または次元削減技術を介して導出される前記分子変異体のより上位の分子シグナルを、前記分子シグナルが含む、項目1に記載の方法。
(項目18)
前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントからの分子測定、分子処理、分子特徴に対応するより下位の分子スコアを、前記分子シグナルが含む、項目1に記載の方法。
(項目19)
より下位の分子スコアを調整、シグナル伝達、パスウェイ、処理、細胞周期活性、変更、欠陥、または状態に関連付ける既存のモデルを応用することによって導出される前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントのより上位の分子スコアを、前記分子シグナルが含む、項目1に記載の方法。
(項目20)
教師なし学習、特徴表現学習、または次元削減技術からより下位の分子スコアを介して導出される前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントのより上位の分子スコアを、前記分子シグナルが含む、項目1に記載の方法。
(項目21)
より下位の分子スコアの圧縮表現を学習するようにオートエンコーダニューラルネットワークがトレーニングされ、より下位の分子シグナルをより上位の圧縮表現に符号化するために前記オートエンコーダが利用される、項目20に記載の方法。
(項目22)
前記オートエンコーダがノイズ除去オートエンコーダ(DAE)としてトレーニングされるか、または前記オートエンコーダが全結合層を有するニューラルネットワークとして構築されるか、または前記オートエンコーダが対称数のニューロンっを有するニューラルネットワークとして構築されるか、または活性化のための正規化線形ユニット(ReLu)によって前記オートエンコーダが構築されるか、またはAdamオプティマイザを利用して前記オートエンコーダがトレーニングされるか、または前記オートエンコーダが細胞型、遺伝子、パスウェイ、または障害固有である、項目21に記載の方法。
(項目23)
前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメント内の分子の遺伝子発現、タンパク質発現、クロマチンアクセシビリティ、エピジェネティック修飾、調整活性、転写後処理、翻訳後修飾、変異状態、変異量、または変異率の遺伝子座特異測定に、前記分子測定が対応する、項目18に記載の方法。
(項目24)
とりわけ、前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または合成コンパートメント内の分子測定から導出された遺伝子発現、タンパク質発現、クロマチンアクセシビリティ、エピジェネティック修飾、調整活性、転写活性、翻訳活性、シグナル伝達活性、パスウェイ活性、変異状態、変異量、または変異率の多遺伝子座測定に、前記分子処理が対応する、項目18に記載の方法。
(項目25)
とりわけ、前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメント内の分子測定または分子処理から導出された遺伝子発現、タンパク質発現、クロマチンアクセシビリティ、エピジェネティック修飾、調整活性、転写活性、翻訳活性、シグナル伝達活性、パスウェイ活性、変異状態、変異量、または変異率のグローバル測定に前記分子特徴が対応する、項目18に記載の方法。
(項目26)
前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの集団に単一細胞バーコーディングおよび核酸配列技術を応用することによって、前記分子測定が導出される、項目18に記載の方法。
(項目27)
配列読み取り品質管理、細胞バーコード識別または品質管理、分子バーコード識別または品質管理、配列読み取りの参照ゲノムへの整列、配列読み取り整列フィルタリングまたは品質管理、フィルタリングされ、品質管理された配列読み取りの機能要素へのマッピング、フィルタリングされ、品質管理された分子バーコードの機能要素へのマッピング、および、特定の細胞バーコードに関する、フィルタリングされ、品質管理された配列読み取りまたは分子バーコードの機能要素へのマッピングを、前記分子測定が含んでもよい、項目18に記載の方法。
(項目28)
前記分子シグナル、前記表現型シグナル、または前記集団シグナルが分子状態固有であり、特定の分子状態からの前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの集団から導出されて、状態特異的な学習層における学習を可能にする、項目1に記載の方法。
(項目29)
前記分子シグナル、前記表現型シグナル、または前記集団シグナルが分子状態にとらわれず、複数の分子状態からの前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの集団から導出されて、状態にとらわれない学習層における学習を可能にする、項目1に記載の方法。
(項目30)
前記分子シグナル、前記表現型シグナル、または前記集団シグナルが分子状態により順序付けられており、複数の分子状態からの前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの集団から導出されて、多状態学習層における学習を可能にする、項目1に記載の方法。
(項目31)
分子スコアまたは表現型スコアを前記分子状態に関連付ける既存のモデルを応用することによって、前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの分子状態が導出され、前記モデルが予め特徴付けられた遺伝子発現シグネチャーに基づいて、単一細胞を細胞周期の位相に割り当てる、項目1に記載の方法。
(項目32)
前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントに渡る分子スコアまたは表現型スコアの教師なし学習、特徴表現学習、または次元削減技術を介して、前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの分子状態が導出される、項目1に記載の方法。
(項目33)
無作為サンプリングを介して、同じ分子変異体を含有する前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントから選択された単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントの独立した、または互いに素な集団から前記分子シグナル、前記表現型シグナル、または前記集団シグナルが算出される、項目1に記載の方法。
(項目34)
メンデル遺伝病に関連付けられた機能要素、遺伝子およびパスウェイ内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目35)
既知のがんドライバーに関連付けられた機能要素、遺伝子およびパスウェイ内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目36)
薬物反応の変化に関連付けられた機能要素、遺伝子およびパスウェイ内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目37)
他の臨床的に価値のある遺伝子に関連付けられた機能要素、遺伝子およびパスウェイの予め識別された変異ホットスポット内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目38)
メンデル遺伝病に関連付けられた機能要素、遺伝子およびパスウェイの予め識別された変異ホットスポット内のコード化または非コード化変異体に、前記分子変異体が対応する、、項目1に記載の方法。
(項目39)
既知のがんドライバーに関連付けられた機能要素、遺伝子およびパスウェイの予め識別された変異ホットスポット内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目40)
薬物反応の変化に関連付けられた機能要素、遺伝子およびパスウェイの予め識別された変異ホットスポット内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目41)
他の臨床的に価値のある遺伝子に関連付けられた機能要素、遺伝子およびパスウェイの予め識別された変異ホットスポット内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目42)
メンデル遺伝病に関連付けられた機能要素、遺伝子およびパスウェイの、10bpの予め識別された変異ホットスポット内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目43)
既知のがんドライバーに関連付けられた機能要素、遺伝子およびパスウェイの、10bpの予め識別された変異ホットスポット内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目44)
薬物反応の変化に関連付けられた機能要素、遺伝子およびパスウェイの、10bpの予め識別された変異ホットスポット内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目45)
他の臨床的に価値のある遺伝子に関連付けられた機能要素、遺伝子およびパスウェイの、10bpの予め識別された変異ホットスポット内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目46)
メンデル遺伝病に関連付けられた機能要素、遺伝子およびパスウェイの、50bpの予め識別された変異ホットスポット内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目47)
既知のがんドライバーに関連付けられた機能要素、遺伝子およびパスウェイの、50bpの予め識別された変異ホットスポット内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目48)
薬物反応の変化に関連付けられた機能要素、遺伝子およびパスウェイの、50bpの予め識別された変異ホットスポット内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目49)
他の臨床的に価値のある遺伝子に関連付けられた機能要素、遺伝子およびパスウェイの、50bpの予め識別された変異ホットスポット内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目50)
メンデル遺伝病に関連付けられた機能要素、遺伝子およびパスウェイの、100bpの予め識別された変異ホットスポット内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目51)
既知のがんドライバーに関連付けられた機能要素、遺伝子およびパスウェイの、100bpの予め識別された変異ホットスポット内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目52)
薬物反応の変化に関連付けられた機能要素、遺伝子およびパスウェイの、100bpの予め識別された変異ホットスポット内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目53)
他の臨床的に価値のある遺伝子に関連付けられた機能要素、遺伝子およびパスウェイの、100bpの予め識別された変異ホットスポット内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目54)
メンデル遺伝病に関連付けられた機能要素、遺伝子およびパスウェイの、500bpの予め識別された変異ホットスポット内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目55)
既知のがんドライバーに関連付けられた機能要素、遺伝子およびパスウェイの、500bpの予め識別された変異ホットスポット内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目56)
薬物反応の変化に関連付けられた機能要素、遺伝子およびパスウェイの、500bpの予め識別された変異ホットスポット内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目57)
他の臨床的に価値のある遺伝子に関連付けられた機能要素、遺伝子およびパスウェイの、500bpの予め識別された変異ホットスポット内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目58)
メンデル遺伝病に関連付けられた機能要素、遺伝子およびパスウェイの、1,000bpの予め識別された変異ホットスポット内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目59)
既知のがんドライバーに関連付けられた機能要素、遺伝子およびパスウェイの、1,000bpの予め識別された変異ホットスポット内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目60)
薬物反応の変化に関連付けられた機能要素、遺伝子およびパスウェイの、1,000bpの予め識別された変異ホットスポット内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目61)
他の臨床的に価値のある遺伝子に関連付けられた機能要素、遺伝子およびパスウェイの、1,000bpの予め識別された変異ホットスポット内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目62)
メンデル遺伝病に関連付けられた機能要素、遺伝子およびパスウェイの予め識別された制約領域内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目63)
既知のがんドライバーに関連付けられた機能要素、遺伝子およびパスウェイの予め識別された制約領域内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目64)
薬物反応の変化に関連付けられた機能要素、遺伝子およびパスウェイの予め識別された制約領域内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目65)
他の臨床的に価値のある遺伝子に関連付けられた機能要素、遺伝子およびパスウェイの予め識別された制約領域内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目66)
メンデル遺伝病に関連付けられた機能要素、遺伝子およびパスウェイの、10bpの予め識別された制約領域内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目67)
既知のがんドライバーに関連付けられた機能要素、遺伝子およびパスウェイの、10bpの予め識別された制約領域内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目68)
薬物反応の変化に関連付けられた機能要素、遺伝子およびパスウェイの、10bpの予め識別された制約領域内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目69)
他の臨床的に価値のある遺伝子に関連付けられた機能要素、遺伝子およびパスウェイの、10bpの予め識別された制約領域内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目70)
メンデル遺伝病に関連付けられた機能要素、遺伝子およびパスウェイの、50bpの予め識別された制約領域内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目71)
既知のがんドライバーに関連付けられた機能要素、遺伝子およびパスウェイの、50bpの予め識別された制約領域内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目72)
薬物反応の変化に関連付けられた機能要素、遺伝子およびパスウェイの、50bpの予め識別された制約領域内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目73)
他の臨床的に価値のある遺伝子に関連付けられた機能要素、遺伝子およびパスウェイの、50bpの予め識別された制約領域内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目74)
メンデル遺伝病に関連付けられた機能要素、遺伝子およびパスウェイの、100bpの予め識別された制約領域内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目75)
既知のがんドライバーに関連付けられた機能要素、遺伝子およびパスウェイの、100bpの予め識別された制約領域内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目76)
薬物反応の変化に関連付けられた機能要素、遺伝子およびパスウェイの、100bpの予め識別された制約領域内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目77)
他の臨床的に価値のある遺伝子に関連付けられた機能要素、遺伝子およびパスウェイの、100bpの予め識別された制約領域内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目78)
メンデル遺伝病に関連付けられた機能要素、遺伝子およびパスウェイの、500bpの予め識別された制約領域内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目79)
既知のがんドライバーに関連付けられた機能要素、遺伝子およびパスウェイの、500bpの予め識別された制約領域内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目80)
薬物反応の変化に関連付けられた機能要素、遺伝子およびパスウェイの、500bpの予め識別された制約領域内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目81)
他の臨床的に価値のある遺伝子に関連付けられた機能要素、遺伝子およびパスウェイの、500bpの予め識別された制約領域内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目82)
メンデル遺伝病に関連付けられた機能要素、遺伝子およびパスウェイの、1,000bpの予め識別された制約領域内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目83)
既知のがんドライバーに関連付けられた機能要素、遺伝子およびパスウェイの、1,000bpの予め識別された制約領域内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目84)
薬物反応の変化に関連付けられた機能要素、遺伝子およびパスウェイの、1,000bpの予め識別された制約領域内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目85)
他の臨床的に価値のある遺伝子に関連付けられた機能要素、遺伝子およびパスウェイの、1,000bpの予め識別された制約領域内のコード化または非コード化変異体に、前記分子変異体が対応する、項目1に記載の方法。
(項目86)
前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメント内で識別された前記分子変異体の表現型の関連性を、前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの前記表現型スコアが表現する、項目1に記載の方法。
(項目87)
前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの前記表現型スコアがより下位の表現型スコアを含み、モデルシステムの分子スコアおよび分子状態を、各モデルシステム内での分子変異体の前記表現型影響に関連付ける統計学習技術の利用を通じて表現型モデルによって生成されたスコアまたは分類に、前記より下位の表現型スコアが対応する、項目1に記載の方法。
(項目88)
1つ以上の機能要素からの分子スコアを、前記1つ以上の機能要素における分子変異体の1つ以上の表現型影響に関連付ける、シングルタスクまたはマルチタスク統計学習のためのニューラルネットワークアーキテクチャを利用して、前記表現型モデルが生成される、項目87に記載の方法。
(項目89)
前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの前記表現型スコアがより上位の表現型スコアを含み、より下位の表現型スコアを調整、シグナル伝達、パスウェイ、処理、細胞周期活性、変更、欠陥、または状態に関連付ける既存のモデルを応用することによって、前記より上位の表現型スコアが導出される、項目1に記載の方法。
(項目90)
前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの前記表現型スコアがより上位の表現型スコアを含み、教師なし学習、特徴表現学習、または次元削減技術を介して、より下位の表現型スコアから前記より上位の表現型スコアが導出される、項目1に記載の方法。
(項目91)
前記分子変異体に関連付けられた前記表現型シグナルが前記分子変異体に関連付けられたより下位の表現型シグナルを含み、前記分子変異体を含有する前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントにおいて計測された前記表現型スコアの概要統計、記載統計、推計統計、ベイズ推定モデルとして、前記分子変異体に関連付けられた前記より下位の表現型シグナルが導出される、項目1に記載の方法。
(項目92)
前記分子変異体に関連付けられた前記表現型シグナルが前記分子変異体に関連付けられたより上位の表現型シグナルを含み、より下位の表現型シグナルを調整、シグナル伝達、パスウェイ、処理、細胞周期活性、変更、欠陥、または状態に関連付ける既存のモデルを応用することによって、前記分子変異体に関連付けられた前記より上位の表現型シグナルが導出される、項目1に記載の方法。
(項目93)
前記分子変異体に関連付けられた前記表現型シグナルが前記分子変異体に関連付けられたより上位の表現型シグナルを含み、教師なし学習、特徴表現学習、または次元削減技術を介して、より下位の表現型シグナルから、前記分子変異体に関連付けられた前記より上位の表現型シグナルが導出される、項目1に記載の方法。
(項目94)
既存のソースからの、推定上の、または既知の表現型影響を有する分子変異体の集合にアクセスすることと、
予測モデルを利用して、推定上のまたは既知の表現型影響を有する前記分子変異体の集合を増大させることと、
サンプリングモデルを利用して、推定上のまたは既知の表現型影響を有する遺伝子型の第1の集合を選択することと、
サンプリングモデルを利用して、未知の、推定上の、または既知の表現型影響を有する遺伝子型の第2の集合を選択することと、
サンプリングモデルを利用して、未知の、推定上の、または既知の表現型影響を有する遺伝子型の第3の集合を選択することと、
前記遺伝子型の第1の集合の分子シグナル、表現型シグナル、または集団シグナルを推定上のまたは既知の表現型影響に関連付ける統計学習技術を応用することによって、機能モデルを生成することと、
前記遺伝子型の第2の集合の分子シグナル、表現型シグナル、または集団シグナルに基づいて予測を行うために前記機能モデルを応用することによって、前記遺伝子型の第2の集合に関する予測される表現型影響を生成することと、
統計学習技術を応用することによって推論モデルを生成することであって、前記推論モデルが非測定特徴を分子変異体の表現型影響に関連付ける生成することと、
前記遺伝子型の第3の集合の非測定特徴に基づいて予測を行うために前記推論モデルを応用することによって、前記遺伝子型の第3の集合の予測される表現型影響を生成することと、をさらに含む、項目1に記載の方法。
(項目95)
前記予測モデルが遺伝子固有、領域固有、ホモログ固有、またはゲノムワイド算出予測因子または機能測定である、項目94に記載の方法。
(項目96)
前記予測モデルが前記予測モデルの各予測に関する性能または信頼推定値を提供する、項目94に記載の方法。
(項目97)
前記予測モデルの陽性的中率(PPV)が前記予測モデルの予測の性能または信頼推定値の機能を含む、項目94に記載の方法。
(項目98)
前記予測モデルの陰性的中率(NPV)が前記予測モデルの予測の性能または信頼推定値の機能を含む、項目94に記載の方法。
(項目99)
前記予測モデルが分子影響予測因子である、項目94に記載の方法。
(項目100)
タンパク質コード化機能要素における早期終了、ナンセンス、または切断分子変異体が機能喪失変異体であると前記予測モデルが予測する、項目94に記載の方法。
(項目101)
タンパク質コード化機能要素における同義またはサイレント分子変異体がニューラル変異体であると前記予測モデルが予測する、項目94に記載の方法。
(項目102)
前記分子シグナル、前記表現型シグナル、または前記集団シグナルを前記機能要素の前記分子変異体の前記表現型影響と組み合わせる統計学習技術を応用することによって、機能モデルを生成すること、をさらに含む、項目1に記載の方法。
(項目103)
前記機能モデルを生成することが、
前記機能要素からの前記分子シグナル、前記表現型シグナル、または前記集団シグナルを前記機能要素の前記分子変異体の前記1つ以上の表現型影響に関連付けるシングルタスクまたはマルチタスク学習のためのニューラルネットワークアーキテクチャを利用して、前記機能モデルを生成すること、をさらに含む、項目102に記載の方法。
(項目104)
前記分子スコアを前記機能要素の前記分子変異体の前記表現型影響と組み合わせる統計学習技術を応用することによって、表現型モデルを生成すること、をさらに含む、項目1に記載の方法。
(項目105)
前記表現型モデルを生成することが、
前記機能要素からの前記分子スコアを前記機能要素の前記分子変異体の前記1つ以上の表現型影響に関連付けるシングルタスクまたはマルチタスク学習のためのニューラルネットワークアーキテクチャを利用して、表現型モデルを生成すること、をさらに含む、項目104に記載の方法。
(項目106)
前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメント内で、前記分子変異体を前記機能要素に誘導することと、
前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメント内で前記分子変異体を識別することと、
前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメント内で前記分子変異体の前記表現型影響を判定することと、
前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメント内で分子測定、分子特徴、または分子処理を判定することと、をさらに含む、項目1に記載の方法。
(項目107)
前記分子変異体に関連付けられた前記集団シグナルが、異なる分子状態から単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントの亜集団に渡る前記分子変異体に関連付けられた前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの分布を記載する、項目1に記載の方法。
(項目108)
分子変異体に関連付けられた前記集団シグナルが、異なる分子状態から前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの亜集団に渡る前記分子変異体に関連付けられた前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントのダイナミクスを記載する、項目1に記載の方法。
(項目109)
前記分子変異体に関連付けられた前記集団シグナルが、前記分子変異体に関連付けられた異なる分子状態から前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの亜集団に渡る前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの分布の変化を記載する、項目1に記載の方法。
(項目110)
前記分子変異体に関連付けられた前記集団シグナルが、前記分子変異体に関連付けられた異なる分子状態から前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの亜集団に渡る前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントのダイナミクスの変化を記載する、項目1に記載の方法。
(項目111)
前記分子スコアまたは前記表現型スコアに基づいて、前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントをクラスタリングし、割り当てるために、クラスタリング技術が応用される、項目107に記載の方法。
(項目112)
前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントを定義された数の分子状態にクラスタリングし、割り当てるために、混合ガウスモデル(GMM)が応用される、項目111に記載の方法。
(項目113)
ディリクレ過程を利用して、前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントを推論された数の分子状態にクラスタリングし、割り当てるために、変分混合ガウスモデル(VGMM)が応用される、項目111に記載の方法。
(項目114)
特定の分子状態に対応する前記分子変異体に関連付けられた前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの画分として前記分子変異体に関連付けられた前記集団シグナルが判定される、項目107に記載の方法。
(項目115)
前記分子変異体の前記分子スコアまたは前記表現型スコアと、参照分子変異体または参照単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントの前記分子スコアまたは前記表現型スコアとの間の差異として算出された調整分子スコアまたは表現型スコアを、前記分子変異体の前記分子スコアまたは前記表現型スコアが含む、項目1に記載の方法。
(項目116)
参照分子変異体または参照単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメント分子スコアまたは表現型スコアに対する前記分子変異体の前記分子スコアまたは前記表現型スコアを正常化することによって算出された調整分子スコアまたは表現型スコアを、前記分子変異体の前記分子スコアまたは前記表現型スコアが含む、項目1に記載の方法。
(項目117)
分子変異体の前記分子シグナル、表現型シグナル、または集団シグナルと、参照分子変異体の前記分子シグナル、表現型シグナル、または集団シグナルとの間の前記差異としてそれぞれ算出された調整分子シグナル、表現型シグナル、または集団シグナルを、分子変異体の分子シグナル、表現型シグナル、または集団シグナルが含む、項目1に記載の方法。
(項目118)
前記分子変異体に関連付けられた前記分子シグナル、前記表現型シグナル、または前記集団シグナルを参照分子変異体の分子シグナル、表現型シグナル、または集団シグナルによって正常化することによって、それぞれ算出された調整分子シグナル、表現型シグナル、または集団シグナルを、前記分子変異体に関連付けられた前記分子シグナル、前記表現型シグナル、または前記集団シグナルが含む、項目1に記載の方法。
(項目119)
参照分子変異体の分子シグナル、表現型シグナル、または集団シグナル間の前記分子変異体に関連付けられた前記分子シグナル、前記表現型シグナル、または前記集団シグナルの分位としてそれぞれ算出された調整分子シグナル、表現型シグナル、または集団シグナルを、前記分子変異体に関連付けられた前記分子シグナル、前記表現型シグナル、または前記集団シグナルが含む、項目1に記載の方法。
(項目120)
表現型影響を有する遺伝子型の第1の集合を選択することと、
表現型影響を有する遺伝子型の第2の集合を選択することと、
前記遺伝子型の第1の集合に関連付けられた第1の細胞数の単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントから分子を取得するために、単一細胞捕獲またはバーコーディング技術を応用することと、
前記遺伝子型の第1の集合に関連付けられたモデルシステムを利用して、配列、配列読み取り品質管理、細胞バーコード識別または品質管理、分子バーコード識別または品質管理、配列読み取りの参照ゲノムへの整列、または読み取り整列フィルタリングまたは品質管理を行うことによって、モデルシステムごとの第1の読取数の分子読み取りを取得することと、
前記遺伝子型の第1の集合に関連付けられた第2の細胞数の前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントから分子を取得するために、単一細胞捕獲またはバーコーディング技術を応用することと、
前記遺伝子型の第1の集合に関連付けられた前記モデルシステムを利用して、配列、配列読み取り品質管理、細胞バーコード識別または品質管理、分子バーコード識別または品質管理、配列読み取りの参照ゲノムへの整列、または読み取り整列フィルタリングまたは品質管理を行うことによって、モデルごとの第2の読取数の分子読み取りを取得することと、
遺伝子型ごとの合計細胞数の単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントからの、モデルシステムごとの合計読取数の分子読み取りから、合計分子読み取りまたは合計分子測定を導出することと、
前記合計分子読み取りおよび前記合計分子測定を利用して、前記遺伝子型の第1の集合に関する分子スコア、表現型スコア、分子シグナル、表現型シグナル、または集団シグナルを判定するために、特徴選択または次元削減のための統計学習技術を応用することによって、合計次元削減モデルを生成することと、
前記合計分子読み取りおよび前記合計分子測定を利用して、前記合計次元削減モデルからの分子シグナル、表現型シグナル、または集団シグナルを前記遺伝子型の第1の集合に関する表現型影響に関連付ける統計学習技術を応用することによって、合計機能モデルを生成することと、
前記遺伝子型の第1の集合の前記表現型影響の予測のための前記合計細胞数、前記合計読取数、前記合計次元削減モデル、または前記合計機能モデルを利用して、機能スコアまたは機能分類の閾値性能を判定することと、
前記合計分子読み取りまたは前記合計分子測定をサブサンプリングすることによって前記最適分子読み取りおよび前記最適分子測定が取得される、遺伝子型ごとの最適細胞数の単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントからのモデルシステムごとの最適読取数の分子読み取りから最適分子読み取りまたは最適分子測定を導出することと、
前記最適分子読み取りおよび前記最適分子測定を利用して、前記遺伝子型の第1の集合に関する分子スコア、表現型スコア、分子シグナル、表現型シグナル、または集団シグナルを判定するために、特徴選択または次元削減のための統計学習技術を応用することによって、最適次元削減モデルを生成することと、
前記最適分子読み取りおよび前記最適分子測定を利用して、前記最適次元削減モデルからの分子シグナル、表現型シグナル、または集団シグナルを、前記遺伝子型の第1の集合に関する表現型影響に関連付ける統計学習技術を応用することによって、最適機能モデルを生成することと、
前記遺伝子型の第1の集合の前記表現型影響の予測のための前記最適細胞数、前記最適読取数、前記最適次元削減モデル、または前記最適機能モデルに基づいて、前記機能スコアまたは機能分類の前記閾値性能を検証することと、
前記遺伝子型の第2の集合に関連付けられた前記最適細胞数の単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントから分子を取得するために、単一細胞捕獲またはバーコーディング技術を応用することと、
前記遺伝子型の第2の集合に関連付けられたモデルシステムを利用して、配列、配列読み取り品質管理、細胞バーコード識別または品質管理、分子バーコード識別または品質管理、配列読み取りの参照ゲノムへの整列、または読み取り整列フィルタリングまたは品質管理を行うことによって、モデルシステムごとの前記最適読取数の分子読み取りを取得することと、
前記最適細胞数、前記最適読取数、前記最適次元削減モデル、または前記最適機能モデルに基づいて、前記遺伝子型の第2の集合に関する機能スコアまたは機能分類を生成することと、をさらに含む、コンピュータ実装方法。
(項目121)
分子変異体の表現型影響のスコアリングのためのコンピュータ実装方法であって、
前記エビデンスデータセットの精度に基づいて、エビデンスデータセットを評価することと、
前記エビデンスデータセット前記精度に基づいて、前記エビデンスデータセットを検証することと、
前記エビデンスデータセットの前記精度に基づいて、前記エビデンスデータセットを最適化することと、
前記エビデンスデータセットを評価することと、検証することと、最適化することに基づいて、前記分子変異体の前記表現型影響を判定することと、を含む、方法。
(項目122)
前記分子変異体の分子シグナル、表現型シグナル、または集団シグナルを前記分子変異体の前記表現型影響に関連付ける機械学習モデルに基づく、分子変異体の機能スコアまたは機能分類を前記エビデンスデータセットが含む、項目121に記載の方法。
(項目123)
ゲノムワイド、ホモログ固有、酵素クラス固有、領域固有、または遺伝子特定の算出予測因子からの予測因子スコアまたは予測因子分類を、前記エビデンスデータセットが含む、項目121に記載の方法。
(項目124)
変異ホットスポットからのホットスポットスコアまたはホットスポット分類を、前記エビデンスデータセットが含む、項目121に記載の方法。
(項目125)
集団ゲノミクス指標に基づいて導出された変異体分類からの集団スコアまたは集団分類を、前記エビデンスデータセットが含む、項目121に記載の方法。
(項目126)
前記エビデンスデータセットと機能スコアまたは機能分類との間の一致を査定するための算出評価指標をさらに含む、項目121に記載の方法。
(項目127)
ピアソンの相関係数、スピアマンの順位相関、ケンドールの相関、マシューの相関係数、コーエンのカッパ係数、ヨーデンの指標、F値、真陽性率、真陰性率、陽性的中率、陰性的中率、陽性尤度比、陰性尤度比、または診断オッズ比を、前記評価指標が含む、項目121に記載の方法。
(項目128)
前記評価指標に基づいて前記エビデンスデータセットを検証することを、前記エビデンスデータセットを検証することが含む、項目121に記載の方法。
(項目129)
前記評価指標に基づいて前記エビデンスデータセット内のデータを選択することか、または除去することを、前記エビデンスデータセットを最適化することが含む、項目121に記載の方法。
(項目130)
分子変異体の表現型影響のスコアリングのためのコンピュータ実装方法であって、
前記エビデンスデータセットの固有のバイアスに基づいてエビデンスデータセットを評価することと、
前記エビデンスデータセットの前記固有のバイアスに基づいて前記エビデンスデータセットを検証することと、
前記エビデンスデータセットの前記固有のバイアスに基づいて前記エビデンスデータセットを最適化することと、
エビデンスデータセットを評価することと、検証することと、最適化することに基づいて、前記分子変異体の前記表現型影響のスコアを判定することと、を含む、方法。
(項目131)
参照データセットにおける変異体の予期されたエビデンススコアまたはエビデンス分類に対する、前記エビデンスデータセットにおける変異体の観測されたエビデンススコアまたはエビデンス分類間の統計学的距離として、前記エビデンスデータセットのバイアスが測定される、項目130に記載の方法。
(項目132)
マッチング分位または分類に基づいて定義された、参照データセットにおける変異体の予期された特徴およびプロパティに対する、前記エビデンスデータセットにおける変異体の観測された特徴およびプロパティ間の統計学的距離として、前記エビデンスデータセットの検証バイアスが測定される、項目130に記載の方法。
(項目133)
エビデンススコアまたはエビデンス分類のマッチング分布に基づいて定義された、参照データセットにおける変異体の予期された特徴およびプロパティに対する、前記エビデンスデータセットにおける前記変異体の観測された特徴およびプロパティ間の統計学的距離として、前記エビデンスデータセットの検証バイアスが測定される、項目130に記載の方法。
(項目134)
目標評価バイアス指標に基づいて前記エビデンスデータセットを検証することを、前記エビデンスデータセットを検証することが含む、項目130に記載の方法。
(項目135)
目標検証基準に基づいて前記エビデンスデータセット内のデータを選択することか、または除去することを、前記エビデンスデータセットを最適化することが含む、項目130に記載の方法。
(項目136)
メモリと、
前記メモリに結合された少なくとも1つのプロセッサであって、
モデルシステムであって、単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントを含む前記モデルシステム内で、1つ以上の機能要素に関連付けられた分子変異体を受容し、
前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの分子スコアまたは表現型スコアを判定し、
特定の分子変異体を含有する前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの前記それぞれの分子スコアまたは表現型スコアに基づいて、前記分子変異体に関連付けられた分子シグナルまたは表現型シグナルを判定し、
特定の分子変異体を含有する前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの前記分子スコアまたは表現型スコアに基づいて、前記分子変異体に関連付けられた集団シグナルを判定し、
統計学習であって、分子変異体の前記分子シグナル、前記表現型シグナル、または前記集団シグナルを前記分子変異体の表現型影響に関連付ける前記統計学習に基づいて、前記分子変異体に関する機能スコアまたは機能分類を判定し、
前記機能スコアまたは機能分類、前記機能スコアまたは機能分類のモデリング、予測因子スコアまたは予測因子分類のモデリング、またはホットスポットスコアまたはホットスポット分類のモデリングに基づいて、前記分子変異体のエビデンススコアまたはエビデンス分類を導出し、
前記機能スコア、前記機能分類、前記エビデンススコア、または前記エビデンス分類に基づいて、前記分子変異体の前記表現型影響を判定する、ように構成された前記少なくとも1つのプロセッサと、を含む、システム。
(項目137)
有形コンピュータ可読装置であって、少なくとも1つのコンピューティング装置によって実行されるときに、前記少なくとも1つのコンピューティング装置に、
モデルシステム内の1つ以上の機能要素に関連付けられた分子変異体を受容することであって、単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントを前記モデルシステムが含む、受容することと、
前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの分子スコアまたは表現型スコアを判定することと、
特定の分子変異体を含有する前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの前記それぞれの分子スコアまたは表現型スコアに基づいて、前記分子変異体に関連付けられた分子シグナルまたは表現型シグナルを判定することと、
特定の分子変異体を含有する前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの前記分子スコアまたは表現型スコアに基づいて、前記分子変異体に関連付けられた集団シグナルを判定することと、
統計学習に基づいて前記分子変異体に関する機能スコアまたは機能分類を判定することであって、分子変異体の前記分子シグナル、前記表現型シグナル、または前記集団シグナルを前記分子変異体の表現型影響に前記統計学習が関連付ける、判定することと、
前記機能スコアまたは機能分類、前記機能スコアまたは機能分類のモデリング、予測因子スコアまたは予測因子分類のモデリング、またはホットスポットスコアまたはホットスポット分類のモデリングに基づいて、前記分子変異体のエビデンススコアまたはエビデンス分類を導出することと、
前記機能スコア、前記機能分類、前記エビデンススコア、または前記エビデンス分類に基づいて、前記分子変異体の前記表現型影響を判定することと、を含む動作を行わせる命令を格納する、有形コンピュータ可読装置。
【図面の簡単な説明】
【0009】
【
図1A】いくつかの実施形態による、分子変異体の表現型影響を判定するための、統合機能測定および算出深層変異学習(DML)処理およびシステム、ならびに、障害のRAS/MAPKファミリーの2つの遺伝子における処理およびシステムの応用から生成された例示的な(例えば、中間)データを示す。
【
図2A】いくつかの実施形態による、RAS/MAPKパスウェイ、HRAS、PTPN11、およびMAP2K2の3つの遺伝子における生殖細胞系列(例えば、遺伝性)および体細胞障害に関する疾患原因(例えば、病原)および中性(例えば、良性)分子変異体の識別(例えば、二項分類)における深層変異学習(DML)処理およびシステムの性能を示す。
【
図3A】いくつかの実施形態による、MAP2K2における生殖細胞系列疾患原因(例えば、病原)または中性(例えば、良性)分子変異体を含有する細胞の識別(例えば、二項分類)における深層変異学習(DML)処理およびシステムの性能を示す。
【
図4】いくつかの実施形態による、分子スコアの強固な、縮約表現を生成するために、トレーニングされ、かつ応用されたニューラルネットワークベースのノイズ除去オートエンコーダのアーキテクチャを示す。
【
図5】いくつかの実施形態による、MAP2K2およびPTPN11の制御、野生型、および変異バージョンを含有するH293細胞からの細胞抽出の酵素免疫測定法を通じてリン酸化された合計ERKタンパク質の画分として測定された、正常化ERKパスウェイ活性化を示す。
【
図6】いくつかの実施形態による、様々な細胞数、読み取り深度、次元削減モデル(m
DR)、および機能モデル(m
F)を用いた測定の段階的最適化および展開を通じて分子変異体の表現型影響を識別するための深層変異学習(DML)の展開の費用削減のための、分子変異体の(縮約された)真理集合上で最適化がまず実行され、展開が分子変異体の目標集合を含む方法の例を示す。
【
図7】いくつかの実施形態による、表現型スコアの算出方法の例を示す。
【
図8】いくつかの実施形態による、分子スコアの算出方法の例を示す。
【
図9】いくつかの実施形態による、個別の分子変異体に関連付けられた分子シグナルの算出方法を示す。
【
図10】いくつかの実施形態による、分子シグナルの、分子状態特異的な、独立した、または互いに素な推定値算出方法を示す。
【
図11】いくつかの実施形態による、分子状態または表現型スコアに渡る特定の分子変異体を有する細胞の分布を特徴付け、集団シグナルを導出する方法を示す。
【
図12】いくつかの実施形態による、個別の分子変異体に関連付けられたより下位の分子シグナルからのより上位の分子シグナルの識別のための教師なし学習技術の活用方法の例を示す。
【
図13】いくつかの実施形態による、回帰および分類技術を介して、分子、表現型、または集団シグナルを分子変異体の表現型影響に関連付けるための機械学習を介した、機能スコアおよび機能分類の導出方法の例を示す。
【
図14A】いくつかの実施形態による、様々な数の細胞を利用してトレーニングされたように、2つの異なる表現型影響を有する分子変異体の二項分類のための方法およびシステムの性能の例を示す。
【
図15】いくつかの実施形態による、潜在的な非同義変異体の部分集合からの機能スコアおよび機能分類を利用して、タンパク質コード化遺伝子における、すべての潜在的な非同義変異体に関する機能スコアまたは機能分類を記載する配列機能マップの推論を可能にする方法の例を示す。
【
図16】いくつかの実施形態による、一連のモデリング層を通じて分子変異体の表現型影響を判定するために、費用を削減し、DML処理の範囲を増大させるシステムおよび方法の例を示す。
【
図17】いくつかの実施形態による、機械学習技術を利用した、遺伝子および条件特異であり得る、より下位の変異体解釈エンジン(VIE)の生成方法の例を示す。
【
図18】いくつかの実施形態による、顕著に変異している領域(SMR)およびネットワーク(SMN)の識別のための方法の例を示す。
【
図19】様々な実施形態を実施する上で有用な例示的なコンピュータシステムである。
【0010】
図面において、同じ参照番号は、同一の要素または同様な要素を示す。さらに、全体として、参照番号の左端の数字(複数可)は、参照番号が最初に登場した図面を識別する。
【発明を実施するための形態】
【0011】
本明細書において、多種多様な変異体型、生物物理学的処理、分子機能、および表現型に渡る変異体の表現型影響の多機能的、多要素および多遺伝子(例えば、パスウェイスケール)査定を可能にするための、システム、機器、装置、方法および/またはコンピュータプログラム製品の実施形態、および/またはその組み合わせおよび部分組み合わせが提供される。
【0012】
本開示は、ハイスループット分子測定(例えば、次世代配列)、単一細胞操作、分子生物学、算出モデリング、および統計学習技術を活用し得、また、多種多様な変異体型、生物物理学的処理、分子機能、および表現型に渡る変異体の表現型影響の多機能的、多要素、および多遺伝子(パスウェイスケール)査定を可能にし得る、システム、機器、装置、方法および/またはコンピュータプログラム製品の実施形態を提供する。
【0013】
本開示は、対象の生体試料またはその記録内の、(例えば、核、ミトコンドリアなど)ゲノム(複数可)、またはそれらの導出可能な分子における、1つ以上の(例えば、コード化または非コード化)機能要素(例えば、タンパク質コード化遺伝子、非コード化遺伝子、タンパク質またはRNA領域などの分子領域、プロモーター、エンハンサー、サイレンサー、調整結合部位、複製起点など)における、遺伝子型(例えば、配列)変異体などの、識別された分子変異体の1つ以上の表現型(例えば、臨床または非臨床)影響(例えば、病原性、機能性、または比較効果)を系統的に判定し、統計学的に検証するためのシステム、機器、装置、方法および/またはコンピュータプログラム製品の実施形態を提供する。
【0014】
本開示は、in vivoまたはin vitro機能モデルシステムにおいて計測された1つ以上の分子シグナル、表現型シグナル、または集団シグナルに基づく、対象における推定表現型影響の分類(または回帰)のための、システム、機器、装置、方法および/またはコンピュータプログラム製品の実施形態を提供する。導出された回帰または分類は、機能スコアまたは機能分類と称され得る。
【0015】
本明細書の実施形態は、例えば臨床遺伝子およびゲノム診断において利用されるような、分子変異体分類に関する既存の算出または機能エビデンスサポートシステムからの脱却を表す。
【0016】
第1に、変異体分類に関する既存の算出方法およびシステムは、変異体の分類に関する多種多様な集団的、進化的、物理化学的、構造的、および/または分子アノテーションおよびプロパティに依拠するが、既存の算出方法およびシステムは、細胞生物学上の分子変異体の影響に関する情報を利用しない。結果として、このような算出方法は、細胞内の分子プロパティの変化または細胞集団および細胞の不均一性の変化を通じて作用する捕獲表現型影響を把握することが不可能である。
【0017】
第2に、数千個の分子変異体の活性を測定することが可能である既存の大規模機能測定および解決法は、分子変異体ごとに一次元に沿った活性測定を提供し、しばしば、それを通じて分子変異体が表現型影響を与える作用のメカニズムの先験的知識または仮定を必要とする。
【0018】
これらの限定により、変異体分類に関する従来の算出方法およびシステムは、多数のアノテーションおよびパラメータに渡るデータにアクセスし得るが、これらの従来のアプローチは、分子変異体の表現型影響に関する分類(および回帰)作業において顕著に低い性能を有する。同様に、これらの従来のアプローチは、作用(したがって、測定すべき関連する分子機能)のメカニズムの先験的知識または仮定を必要とし、それにより、十分に特徴付けられた機能要素(例えば、遺伝子)へのそれらの応用を限定する。これはさらに、よく理解されていない疾患関連遺伝子へのそれらの応用を除外する。最終的に、これらの従来のアプローチは、各分子機能および各機能要素を測定するために、大幅な開発およびカスタマイゼーションを必要とする。
【0019】
本明細書の実施形態において、これらの技術的問題を克服するための技術的解決法は、1つ以上の機能要素(例えば、遺伝子)において、また、1つ以上のコンテキスト(例えば、細胞型、薬物処置、遺伝子型背景)において、特定の遺伝子型(例えば、分子変異体)を含有する細胞および細胞集団の多次元評価を提供するデータ構造に関与する。このようなデータ構造は、統計学習のためのシステムおよび方法が、遺伝子型(例えば、分子変異体またはその組み合わせ)の表現型影響に関する分類作業における精度向上を実現することを可能にする。
【0020】
本明細書の実施形態は、モデルシステム(例えば、細胞)ごとの数百から数万(~102-104)の分子測定の取得、分子変異体ごとのモデルシステムの数十から数千(~101-103)の分子像の構築、機能要素(例えば、遺伝子)ごとに数千(~103)の分子変異体、および、単一の、または並行した多数の機能要素を通じて、多種多様な機能要素および表現型に渡る分子変異体(およびその組み合わせ)の、強固で、拡張性のある多次元分類を可能にする。
【0021】
図1Aに示すように、本開示の実施形態は、ハイスループット突然変異誘発子に関する変異体ライブラリ生成102および細胞ライブラリ生成104方法ならびに、目標機能要素(例えば、遺伝子)において異なる分子変異体を含有するモデルシステム(例えば、細胞)の概要を生成するための細胞工学技術を統合する。本実施形態は、モデルシステムの処置および捕獲、分子実体のライブラリの調製、およびモデルシステム内での多様な分子実体(例えば、転写)の測定のための細胞、分子生物学、およびゲノミクス技術および科学技術を利用した、処置、単一細胞捕獲、ライブラリ調製、配列106方法を提供する。本実施形態は、各モデルシステム内の分子変異体、モデルシステム、および分子実体の間の関連性のマッピング、定量化、および正常化のためのマッピング、正常化108生命情報科学、算出生物学、および統計学的技術を提供する。本実施形態は、分子変異体のラベル生成、特徴選択、次元削減、トレーニング、および分類のための、特徴選択、次元削減110およびコンテキスト付与、トレーニング、分類112統計学的(例えば、機械)学習、分布された高性能算出、システム生物学、集団および臨床ゲノミクス技術を提供する。
【0022】
いくつかの実施形態において、本開示は、生体試料内で識別された分子変異体の表現型影響を判定するための、
図1Aのこれらの一連の方法および科学技術の利用について記載する。いくつかの実施形態において、本開示は、モデルシステム内の1つ以上の機能要素への分子変異体の誘導について記載する。本モデルシステムは、単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントを含み得る。いくつかの実施形態において、本開示は、単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントの分子スコアまたは表現型スコアの判定について記載する。いくつかの実施形態において、本開示は、単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメント内での分子変異体の識別について記載する。当業者には理解される通り、単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメント内で分子変異体を識別するために、様々な方法が利用され得る。これは、単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントの分子測定に基づいてもよい。いくつかの実施形態において、本開示は、特定の分子変異体に関連付けられた単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントからの分子スコアまたは表現型スコアにそれぞれ基づいて、個別の分子変異体に関連付けられた分子シグナルまたは表現型シグナルの判定について記載する 。いくつかの実施形態において、本開示は、特定の分子変異体に関連付けられた単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントの分子スコアまたは表現型スコアに基づいて、分子変異体に関連付けられた集団シグナルの判定について記載する。
【0023】
いくつかの実施形態において、本開示は、分子シグナル、表現型シグナル、または集団シグナルを分子変異体の表現型影響に関連付ける統計学的(例えば、機械)学習アプローチを応用することによって、分子変異体の機能スコアまたは機能分類の判定について記載する。いくつかの実施形態において、本開示は、機能スコア、機能分類、予測因子スコア、予測因子分類、ホットスポットスコア、またはホットスポット分類に基づいて、分子変異体のエビデンススコアまたはエビデンス分類の判定について記載する。いくつかの実施形態において、本開示は、識別された分子変異体の機能スコア、機能分類、エビデンススコア、またはエビデンス分類に基づいて、生体試料内で識別された分子変異体の表現型影響の判定について記載する。
【0024】
本明細書の実施形態は、多数の領域からの方法、技術、および科学技術を統合する。数十(例えば、102未満)の異なる組織または開発段階に由来するモデルシステム(例えば、細胞)の分類のために、単一細胞分子測定を活用する統計学的、機械学習技術が開発され、応用されているが、同じ細胞株、組織、または開発段階内の3×109より大きいヌクレオチドによって定義されたゲノム背景内で一塩基差異などの微妙な差異を有する数千個の細胞間での正確な遺伝子型特異(例えば分子変異体固有)分類の実現の必要性は、重大な課題を示し得る。
【0025】
本開示は、単一の、または集団のモデルシステム(例えば、細胞)において測定された生物学的シグナルに基づいて、対象において識別された分子変異体の表現型影響の識別(例えば、分類)における課題を克服するための、深層変異学習(DML)システム、機器、装置、方法および/またはコンピュータプログラム製品の実施形態、および/またはその組み合わせおよび部分組み合わせを提供する。
【0026】
本開示は、(i)より低い費用予測モデルを有するDML処理およびシステムの指定展開(
図16参照)、および(ii)削減された費用で分子シグナルの強固な再構築を可能にするDML処理およびシステムの層展開(
図6参照)を通じて、分子変異体の分類における費用効率性を向上させる、システム、機器、装置、方法および/またはコンピュータプログラム製品の実施形態、および/またはその組み合わせおよび部分組み合わせを提供する。
【0027】
本開示は、機能要素間の情報を活用するDML処理およびシステムを通じて、機能要素(例えば、遺伝子)に渡る拡張可能性および性能システムを向上させる、システム、機器、装置、方法および/またはコンピュータプログラム製品の実施形態、および/またはその組み合わせおよび部分組み合わせを提供する(
図3Aおよび3Bを参照)。
【0028】
本開示は、(例えば、核、ミトコンドリアなど)ゲノム(複数可)、またはそれらの導出可能な分子における、1つ以上の(例えば、コード化または非コード化)機能要素(例えば、タンパク質コード化遺伝子、非コード化遺伝子、タンパク質またはRNA領域などの分子領域 、プロモーター、エンハンサー、サイレンサー、調整結合部位、複製起点など)における、1つ以上の分子(例えば、遺伝子型)変異体の表現型影響(例えば、病原性、機能性、または比較効果)を査定するための、システム、機器、装置、方法および/またはコンピュータプログラム製品の実施形態、および/またはその組み合わせおよび部分組み合わせを提供する。当業者には理解される通り、分子変異体は、一塩基変異体(SNV)、コピー数変異体(CNV)、または、核、ミトコンドリア、もしくは、自然もしくは合成エピソームゲノムにおけるコード化または非コード化配列(または両方)に影響する挿入または欠失などの遺伝子型(例えば、配列)変異体であってもよい。当業者には理解される通り、分子変異体はまた、タンパク質分子における一アミノ酸置換、RNA分子における一塩基置換、DNA分子における一塩基置換、または、ポリマー性生物学的分子の同族配列への任意の他の分子変更であってもよい。
【0029】
いくつかの実施形態において、分類(または回帰)は、対象の生体試料またはその記録内で識別された分子変異体に基づく、遺伝子成分を有する障害またはその重症度の予測に関する(例えば、推定)疾患原因(例えば、病原)および中性(例えば、良性)変異体に関連してもよい。いくつかの他の実施形態において、分類(または回帰)は、推定分子結果(例えば、ナンセンスまたは挿入および欠失変異)および推定分子中性(例えば、同義)の分子変異体に基づく分子影響(例えば、機能喪失、機能獲得または中性)に関連してもよい。いくつかの他の実施形態において、分類(または回帰)は、対象の生体試料またはその記録内で識別された分子変異体に基づく、治療的処置(例えば、化学的、生化学的、物理的、行動的、デジタル、または他の)への反応の変化に関連してもよい。いくつかの実施形態において、表現型影響は、表現型クラス(例えば、中性、病原、良性、高リスク、低リスク、陽性反応変異体、陰性反応変異体の確率)および表現型スコア(例えば、特定の臨床および非臨床表現型の開発の確率、血液中の代謝物のレベル、ならびに、特定の化合物が吸収されるまたは代謝される率)を指してもよい。
【0030】
いくつかの実施形態において、本開示は、表示的集団における分子変異体の多様性および有病率に基づいて、集団内の表現型プロパティの多様性および有病率に関するモデリングのためのシステムおよび方法を提供する。いくつかの実施形態において、本開示は、既知の、または予期された多様性および有病率を有する分子変異体の表現型影響に基づいて、集団内の表現型プロパティの多様性および有病率に関するモデリングのための、in vivoまたはin vitro機能モデルシステムにおける変異体に予め関連付けられた、1つ以上の分子シグナル、表現型シグナル、または集団シグナルから表現型影響がモデリングされてもよいシステムおよび方法を提供する。いくつかの実施形態において、集団における薬物耐性のメカニズムの多様性および有病率を通知するために、このようなモデリングが利用されてもよい。
【0031】
いくつかの実施形態において、本開示は、対象(例えば、患者)のコホートを構築し、治療的および非治療的介入の有効性を調査するための、(例えば、機能モデルシステムにおける1つ以上の分子シグナル、表現型シグナル、または集団シグナルからモデリングされた分子変異体の表現型影響によって通知される通り)個体の集団内の表現型プロパティの多様性および有病率のモデルの利用について記載する。
【0032】
いくつかの実施形態において、本開示は、機能モデルシステムにおいて測定されるように変異体に関連付けられた1つ以上の分子シグナル、表現型シグナル、または集団シグナルから導出された機能スコアまたは機能分類に基づく、分子変異体の表現型影響の分類(または回帰)のためのシステムおよび方法を提供する。いくつかの実施形態において、分子変異体は、in vivoまたはin vitroモデルシステムにおけるように、細胞、細胞コンパートメントまたは合成コンパートメント内で、機能的にモデリングされてもよい。
【0033】
いくつかの実施形態において、単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメント(例えば、モデルシステムと総称する)内で核酸または核酸フラグメントのライブラリ調製、配列、および評価を介してモデリングされた機能要素の核酸配列内で、(例えば、in vivoまたはin vitro)モデリングされた分子変異体が直接、識別されてもよい 。いくつかの他の実施形態において、関連付けられたバーコードおよび変異体の予め組み立てられたデータベースを利用して、モデルシステム(例えば、単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメント)内の核酸または核酸フラグメントのライブラリ調製、配列、および評価を介して機能要素における個別の変異体に関連付けられたバーコード配列から、(例えば、in vivoまたはin vitro)モデリングされた分子変異体が推論されてもよい。当業者には理解される通り、分子変異体は、とりわけ、直接(例えば、化学的)合成、変異性PCR、オリゴヌクレオチド指定突然変異誘発子、ニッキング突然変異誘発子、または飽和ゲノム編集(SGE)などの様々な技術を介して製造されてもよい(Firnberg et al.2012;Kitzman et al.2014;Wrenbeck et al.2016;and Findlay et al.2014)。当業者には理解される通り、変異体ライブラリがその後、相同組み換え(例えば、Cas9媒介またはアデノウイルス媒介)、部位特異的組み換え(例えば、Flp媒介)、またはウイルス形質誘導(例えば、レンチウイルス媒介)などの、しかしそれに限定されない様々なアプローチを利用して、モデルシステム(例えば、細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメント)に誘導され(例えば、追加され)得る(Findlay et al.2018;Wissink et al.2016;and Macosko et al.2015)。
【0034】
いくつかの実施形態において、DNA、RNA、およびタンパク質分子またはその改質を含むがそれに限定されない機能要素内の変異体を含有する in vivoまたはin vitroモデルシステム内に存在する分子および/または化学的改質の測定から、個別の分子変異体に関連付けられた機能スコアおよび機能分類が導出されてもよい。例えば、いくつかの実施形態において、機能スコアおよび/または機能分類を学習するために、分子シグナル、細胞シグナル、または集団シグナルの測定またはモデルが作成され、利用されてもよい。いくつかの実施形態において、RNA分子、ゲノムDNA、クロマチン結合DNA、タンパク質結合DNA、アクセス可能なDNAフラグメント、または化学的に改質された核酸を含むがそれに限定されない、単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメント内の複数の核酸または核酸フラグメントの核酸バーコーディング、単離、濃縮ライブラリ調製、配列、および評価を介して取得された分子測定から、機能スコアおよび機能分類が導出されてもよい。いくつかの実施形態において、これらの手順は、個別の単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントから生じる核酸、核酸フラグメント、または核酸配列を固有に識別するか、または関連付ける、分子バーコーディング技術を利用してもよい(Macosko et al.2015;Buenrostro et al.2015;Cusanovich et al.2015;Dixit et al.2016;Adamson et al.2016;Jaitin et al.2016;Datlinger et al.2017;Zheng et al.2017;Cao et al.2017)。これらの方法は、単一細胞ゲノミクスの分野からの開発を基礎としていてもよい(Schwartzman and Tanay 2015:Tanay and Regev 2017;Gawad et al.2016)。いくつかの実施形態において、本開示のシステムおよび方法は、単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントから分子測定を導出するための、単一細胞RNA配列に関する方法を応用してもよい。これらの方法は、単一細胞配列ライブラリ生成、ハイスループット核酸配列、配列読み取り品質管理、(例えば、単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントの)バーコード識別および品質管理、配列読み取り固有の分子バーコード識別および品質管理、配列読み取り整列、ならびに読み取り整列フィルタリングおよび品質管理を含むがそれに限定されない。いくつかの実施形態において、当業者には理解される通り、遺伝子発現(例えば、RNA転写物量)、タンパク質量または改質(例えば、リンタンパク質量)、クロマチンアクセシビリティ(例えば、ヌクレオソーム占有)、エピジェネティック修飾(例えば、DNAメチル化)、調整活性(例えば、転写因子結合)、転写後処理(例えば、スプライシング)、翻訳後修飾(例えば、ユビキチン化)、変異量(例えば、数)、変異率(例えば、頻度)、変異シグネチャー(例えば、変異の型ごとの数または頻度)の遺伝子座特異測定、または、単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメント内での分子の測定の様々な他の型に、分子測定が対応してもよい。いくつかの実施形態において、本開示は、単一細胞RNAライブラリ処理前の、その間の、または後の、交雑または単位複製配列ベースの技術および調査を介した、目標とされた濃縮または目標とされた捕獲技術の利用を介して、特定の目標遺伝子および機能要素に関する分子測定の品質を増大させるためのシステムおよび方法について記載する。
【0035】
いくつかの実施形態において、分子処理の多遺伝子座測定を導出するために、単一細胞、細胞(または細胞内)コンパートメントまたは合成コンパートメントからの分子測定が利用されてもよい。例えば、当業者には理解される通り、遺伝子発現、クロマチンアクセシビリティ、エピジェネティック修飾、調整活性、転写活性、翻訳活性、シグナル伝達活性、シグナル伝達活性、パスウェイ活性、変異量、変異率、変異シグネチャーの多遺伝子座測定および、様々な他の測定を、分子処理のこれらの測定は含んでもよい。
【0036】
いくつかの実施形態において、分子特徴のグローバル(例えば、汎遺伝子座または遺伝子座独立)測定を導出するために、単一細胞、細胞(または細胞内)コンパートメントまたは合成コンパートメントからの分子測定および分子処理が利用されてもよい。例えば、分子特徴のこれらの測定は、当業者には理解される通り、遺伝子発現、クロマチンアクセシビリティ、エピジェネティック修飾、調整活性、転写活性、翻訳活性、シグナル伝達活性、シグナル伝達活性、パスウェイ活性、変異量、変異率、変異シグネチャー、および様々な他の測定のグローバル測定を含んでもよい。
【0037】
いくつかの実施形態において、単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントの分子測定、分子処理、または分子特徴を直接、(例えば、より下位の)分子スコアとしてもよい。いくつかの実施形態において、複数のより下位の(例えば、より下位の)分子スコア(例えば、分子測定、分子処理、または分子特徴)を関連付ける既存のモデルを、調整、シグナル伝達、パスウェイ、処理、細胞周期活性、変更、欠陥、または状態に応用することによって、(例えば、上位の)分子スコアが導出されてもよい。いくつかの実施形態において、このような方法は、当業者には理解される通り、遺伝子集合濃縮分析または他の導出可能な方法を応用してもよい。いくつかの実施形態において、
図8に示す通り、人工ニューラルネットワーク804(ANN)における一連の人工ニューロン層(例えば、畳み込みまたはパーセプトロン層)を通じて、同じ分子変異体802を含有する単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントからの分子測定、分子処理、分子特徴、または(例えば、より下位の)分子スコア806が供給され、ますます複雑な(例えば、上位の)分子スコア806を導出し、学習された特徴を有するオートエンコーダを生成してもよい。いくつかの実施形態において、次元削減を可能にしながら生物学的機能の情報を保存するために、パスウェイレベル分析などの分子スコアの算出方法が利用されてもよい。
【0038】
いくつかの実施形態において、
図9に示す通り、複数の個別の単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントからの細胞スコアリング層902を介して、分子スコアのデータベースが構築されてもよい。いくつかの実施形態において、同じ分子変異体906(例えば、v
1、v
2、およびv
3)を含有する複数の単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントからの分子スコアが変異体サンプリング層908を用いてアクセスされ、変異体スコアリング層910において分析されて、個別の分子変異体に関連付けられた分子スコアの傾向(例えば、平均、中央値、モード)、分散(例えば、変動、標準偏差)、形状(例えば、歪度、尖度)、確率(例えば、分位)、範囲(例えば、信頼区間、最小、最大)、誤差(例えば、標準誤差)、または共変動(例えば、共分散)に関する(例えば、直接測定またはモデル)概要統計を導出してもよい。いくつかの実施形態において、
図9に示す通り、個別の分子変異体906に関連付けられた(例えば、品質管理された)分子シグナル912のデータベースを生成するために、分子スコアの傾向、分散、形状、範囲、または誤差に関する概要統計が利用されてもよい。いくつかの実施形態において、分子測定、分子処理、分子特徴、および分子スコア904は、個別の単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントのプロパティであってもよい。いくつかの実施形態において、分子シグナルは、分子変異体のプロパティであってもよい。
【0039】
当業者には理解される通り、モデルシステム(例えば、単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメント)からの分子測定、処理、特徴、およびスコアは、同様の分子プロパティを有するモデルシステム(例えば、単一細胞、細胞コンパートメント、細胞内コンパートメントまたは合成コンパートメント)の異なる分子状態または特定の亜集団を定義するか、またはそれに対応してもよい。当業者には理解される通り、また、
図10に示す通り、様々な方法に基づいてモデルシステムの分子状態、表現型スコア1006(例えば、s
1、s
2、s
3)を判定するために、細胞スコアリング層1002 が応用され得る。
【0040】
例えば、遺伝子発現分子スコアから導出された細胞周期シグネチャーに基づいて、モデルシステムの分子状態が識別され得る(Macosko et al.2015)。当業者には理解される通り、例えば、化学的に同期された細胞において予め特徴付けられた細胞周期の異なる位相を反映する遺伝子発現シグネチャーなどの予め特徴付けられた分子状態の遺伝子発現シグネチャーのスコアリングなどの、予め導出されたモデルを利用したスコアリングを介して、分子状態が導出され得る(Whitfield et al.2002)。当業者には理解される通り、(例えば、細胞周期の異なる段階全体に渡る遺伝子発現変化と同様に)分子シグナル間の特徴相関が検出されるか、または予期され得る、モデルシステムの区分から内部的に導出されたモデルを利用したスコアリングを介して、分子状態がまた、導出されてもよい。当業者には理解される通り、様々な統計学的技術(例えば、機械学習技術)を利用して、内部的に導出されたモデルが生成されてもよい。
【0041】
いくつかの実施形態において、
図7に示す通り、本開示は、分子スコアおよびモデルシステムの分子状態(例えば、単一細胞、細胞コンパートメント、細胞内コンパートメントまたは合成コンパートメント)を各モデルシステム内の分子変異体の表現型影響に関連付ける統計学的技術(例えば、機械学習技術の利用を通じた表現型スコアの導出のために、表現型モデル(m
P)を生成するシステムおよび方法を提供する。分子スコアは、個別のモデルシステム内の分子、生物学的、または物理的プロパティに直接関連し得るが、表現型スコアは、分子変異体の(例えば、推定)表現型の関連性を記載し得る。いくつかの実施形態において、モデルシステム内の分子変異体の表現型影響(例えば、ラベル)をモデルシステムの分子スコアまたは分子状態(例えば、特徴)に関連付けるための教師あり学習技術を応用することによって表現型スコアが導出される。
【0042】
いくつかの実施形態において、単一細胞702の(例えば、より下位の、またはより上位の)分子スコアおよび分子状態704を記載する特徴のデータベース、ならびに、分子変異体単一細胞702内で識別された表現型影響706を記載する入力ラベル708(例えば、データベース)にアクセスすることによって、表現型スコア(または表現型分類)の表現型モデル(mP)およびデータベースが生成される。いくつかの実施形態において、トレーニング/検証層710は、個別の単一細胞702の表現型影響706を予測し得る表現型モデル(mP)を生成し、品質管理する。いくつかの実施形態において、単一細胞(検査)714における分子変異体の予測される表現型影響718を記載する表現型スコア720のデータベースを計算し、生成するために、単一細胞(検査)714の分子スコアおよび分子状態716を記載する特徴のデータベースが、生成された表現型モデル(mP)に提供される。当業者には理解される通り、検査層712内の単一細胞(検査)714における既知の分子変異体の表現型影響に対して、各細胞(例えば、表現型スコア720)における予測される表現型影響718の性能(例えば精度)が判定され得る。当業者には理解される通り、トレーニング、検証、または検査に含まれない単一細胞の表現型スコアを事前算出するか、または算出するために、表現型モデル(mP)が応用され得る。いくつかの実施形態において、表現型スコアリングおよび分類層722におけるこのようなスコアリングおよび評価が生じ得る。表現型スコアリングおよび分類層722は、表現型スコア720に基づいて可能である表現型影響の分類精度を検討し得る。
【0043】
いくつかの実施形態において、個別の分子変異体に関連付けられた(例えば、品質管理された)表現型シグナルのデータベースを生成するために、表現型スコアの傾向、分散、形状、範囲、または誤差に関する概要統計が利用されてもよい。
【0044】
いくつかの実施形態において、また、
図10に示す通り、本開示は、分子状態特異的なモデルまたは多状態モデルの生成における、教師なしおよび教師あり学習の後続ラウンドのための、分子状態特異的な分子シグナルの利用について記載する。いくつかの実施形態において、また
図10に示す通り、本開示は、特徴表現型スコア、またはその組み合わせを有する、特定の分子変異体1010(例えば、v
1、v
2、v
3)を有し、特定の分子状態にあるモデルシステムの分子測定、処理、特徴、およびスコア1004ならびに分子状態、表現型スコア1006にアクセスするための、分子状態、変異体特異サンプリング層1008の利用について記載する。いくつかの実施形態において、分子測定、処理、特徴、およびスコア1004または分子状態、表現型スコア1006が、細胞スコアリング層1002の要求に応じて事前算出されるか、または算出されてもよい。いくつかの実施形態において、各分子変異体に関する各分子状態における分子シグナルおよび表現型シグナルを記載する分子、表現型シグナルマトリクス1012を構築するために、分子状態、変異体特異サンプリング層1008によってアクセスされるデータのデータ、概要統計、記載統計(例えば、単変量、二変量、または多変量解析)、推計統計、ベイズ推定モデル(例えば、変分ベイズ推定モデル)、ディリクレ過程、または他のモデルが利用される。
【0045】
いくつかの実施形態において、分子、表現型シグナルマトリクス1012は、要求に応じて、事前算出されるか、または算出されてもよい。いくつかの実施形態において、分子、表現型シグナルマトリクス1012は、分子状態固有であるマトリクスを産生している分子状態、変異体特異スコアリング層1016の要求に応じて、事前算出されるか、または算出されてもよい。いくつかの実施形態において、分子、表現型シグナルマトリクス1012は、複数の分子状態からのデータを含むマトリクスを産生している多状態、変異体特異スコアリング層1014の要求に応じて、事前算出されるか、または算出されてもよい。
【0046】
いくつかの実施形態において、
図11に示す通り、本開示は、分子測定、処理、特徴およびスコア1104を入力として利用して細胞スコアリング層1102によって製造されるように、分子状態(例えば、亜集団)または表現型スコア1106に渡る特定の分子変異体を有する細胞の分布を特徴付ける方法を提供する。(a)既存の、または内部的に導出されたモデルの応用によって判定される、分子シグナル(例えば、細胞周期段階中のサイクリン依存性キナーゼ)の特徴レベルまたはその間の相関、(b)表現型スコアの特徴レベルまたはその間の相関、または(c)主成分分析(PCA)、独立成分分析(ICA)、およびt分布型確率的近傍埋め込み法(tSNE)を例として含むがそれに限定されない次元削減技術を含むがそれに限定されない教師なしまたは教師あり機械学習方法によって定義された細胞の亜集団に、これらの分子状態(例えば、亜集団)または表現型スコアが関連付けられてもよいが、それに限定されない。いくつかの実施形態において、
図11に示す通り、各個別の分子変異体1110に関して、集団サンプリング層1108は、分子状態(例えば、分子状態にある変異体含有細胞の比率または確率)または表現型スコア(例えば、特定のスコアを有する変異体含有細胞の比率または確率)に渡る細胞の比較表現(例えば、分布、確率など)の指標を作成し、また、分子変異体が集団レベルでどのように細胞に影響するかを記載する集団シグナルマトリクス1112を提供する役割を果たしてもよい。集団シグナルマトリクス1112は、複数の分子変異体に関する複数の集団シグナルを含んでもよい。
【0047】
いくつかの実施形態において、個別の分子変異体に関連付けられた分子測定、分子処理、分子特徴、または分子スコアまたは表現型スコアの傾向、分散、形状、確率、範囲、共変動、または誤差に関する概要統計の独立した、または互いに素な推定値を生成するために、同じ分子変異体を含有する分子測定、分子処理、分子特徴、分子スコア、または表現型スコアから モデルシステム(例えば、単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメント)のサブサンプリングが応用されてもよい。
【0048】
いくつかの実施形態において、個別の分子変異体に関連付けられた分子シグナルまたは表現型シグナルの(品質管理された)独立した、または互いに素な推定値のデータベースを生成するために、分子測定、分子処理、分子特徴、分子スコアまたは表現型スコアの傾向、分散、形状、確率、範囲、共変動、または誤差に関する概要統計の独立した、または互いに素な推定値が利用されてもよい。当業者には理解される通り、個別の分子変異体に関連付けられた(品質管理された)分子または表現型シグナルのデータベースを生成するために、分子シグナルまたは表現型シグナルの独立した、または互いに素な推定値が利用され得る。
【0049】
いくつかの実施形態において、本開示は、特定の分子状態からのモデルシステム(例えば、単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメント)の亜集団内の個別の分子変異体に関連付けられた分子測定、分子処理、分子特徴、または分子スコアまたは表現型スコアの傾向、分散、形状、確率、範囲、共変動、または誤差に関する概要統計の独立した、または互いに素な推定値を導出するためのシステムおよび方法について記載する。当業者には理解される通り、これらの方法は、複数の統計学的技術(例えば、機械学習技術)を活用してもよい。
【0050】
いくつかの実施形態において、特定の分子状態における個別の分子変異体に関連付けられた分子シグナルおよび表現型シグナルの(例えば、品質管理された)分子状態固有の、独立した 、かつ互いに素な推定値のデータベースを生成するために、分子測定、分子処理、分子特徴、分子スコアまたは表現型スコアの傾向、分散、形状、確率、範囲、共変動、または誤差に関する概要統計の分子状態特異的な独立した、または互いに素な推定値が利用されてもよい。
【0051】
いくつかの実施形態において、個別の分子変異体に関連付けられた(例えば、品質管理された)集団シグナルのデータベースを生成するために、個別の分子変異体に関連付けられた集団シグナルの傾向、分散、形状、確率、範囲、共変動、または誤差に関する概要統計の独立した、または互いに素な推定値が利用されてもよい。
【0052】
いくつかの実施形態において、
図12に示す通り、本開示は、より下位の分子、表現型、または集団シグナルのより上位の表現を産生するために下位の関連性を活用することが可能であるオートエンコーダを生成するために、人工ニューラルネットワーク(ANN)1210を展開する特徴表現学習(または表現学習)技術を含むがそれに限定されない個別の分子変異体1202に関連付けられた、より下位の分子シグナル、表現型シグナル、または集団シグナル1204からの、より上位の分子シグナル、表現型シグナル、または集団シグナルの識別のための特徴抽出層1208(例えば、教師なし学習技術)を活用するシステムおよび方法を提供する。いくつかの実施形態において、これらの方法は、データベース、より下位の、また、より上位の分子シグナル、表現型シグナル、および集団シグナル1214の構築を可能にする。いくつかの実施形態において、特徴抽出層1208は、より下位の分子シグナル、表現型シグナル、または集団シグナル1204に加えてアノテーション特徴1206からのデータにアクセスするか、またはそれを受容してもよい。いくつかの実施形態において、アノテーション特徴1206は、遺伝子型(例えば、配列、分子変異体など)における変化に関連付けられた変化を記載する、複数の独立した(例えば、非測定された)特徴(例えば、当業者には理解される通り、変異体、ゲノム座標、転写(例えば、RNA)座標、翻訳された(例えば、タンパク質)座標、アミノ酸、および様々な他のものに関連付けられた進化的、集団、機能(例えば、アノテーションベースの)、構造的、動的、かつ物理化学的特徴)を包含してもよい。
【0053】
いくつかの実施形態において、本開示は、分子状態特異的な、より上位の分子シグナルまたは表現型シグナルの導出のための分子状態固有の、より下位の分子シグナルまたは表現型シグナルの利用について記載する。いくつかの実施形態において、本開示は、細胞周期段階(例えば、分子状態)に渡る構造化された遺伝子発現パターン(例えば、分子シグナル)などの、分子状態に渡る分子シグナル間の構造化された関係を活用する多状態の、より上位の分子、表現型、または集団シグナルを導出するための、より下位の分子、表現型、または集団シグナルの多状態マトリクスの利用について記載する。いくつかの実施形態において、本開示は、分子状態に渡る分子、表現型、または集団シグナル(およびアノテーション特徴)におけるパターン化された関連性を学習するための、畳み込みニューラルネットワーク(CNN)の利用について記載する。
【0054】
いくつかの実施形態において、また、
図13に示す通り、本開示は、回帰および分類技術をそれぞれ介して、分子変異体の表現型影響(例えば、ラベル)に、分子、表現型、または集団シグナル(例えば、特徴)すなわち、単一の、または複数の分子測定、分子処理、分子特徴、および分子スコアを関連付ける機能モデル(m
F)を生成するための統計学的(例えば、機械)学習を介して、機能スコアおよび機能分類を導出するためのシステムおよび方法 を提供する。
【0055】
いくつかの実施形態において、トレーニング/検証のための分子変異体1302の分子(例えば、より下位のまたは上位の)、表現型、または集団シグナル1304を記載する特徴のデータベースおよび、分子変異体1302の表現型影響1308を記載する入力ラベル1310の集合(例えば、データベース)にアクセスすることによって、機能スコア(または機能分類)の機能モデル(mF)およびデータベースが生成される。生成は、分子、表現型、または集団シグナル1304(例えば、特徴)を表現型影響(例えば、ラベル)に関連付けるための統計学的(例えば、機械)学習技術を応用することによって、さらに行われる。
【0056】
いくつかの実施形態において、トレーニング/検証層1312は、分子変異体1302の表現型影響1308を予測し得る品質管理機能モデル(mF)生成するためのトレーニングおよび検証を行う。いくつかの実施形態において、トレーニング/検証層1312は、K分割または一個抜き交差検証(LOOCV)などの、しかしそれに限定されない交差検証技術を展開し得る。いくつかの実施形態において、分子変異体(検査)1316の予測される表現型影響1322を記載する機能スコア1324のデータベースを計算し、生成するために、生成された機能モデル(mF)に、分子変異体(検査)1316の分子、表現型、または集団シグナル1318を記載する特徴のデータベースが提供され得る。当業者には理解される通り、検査分子変異体1316などの既知の分子変異体の表現型影響に対して、分子変異体の予測される表現型影響1322(例えば、機能スコア1324)の性能(例えば精度)が判定され得る。当業者には理解される通り、検査層1314内の、トレーニング、検証、または検査位相に含まれない分子変異体の機能スコアを、要求に応じて事前算出するか、算出するために、機能モデル(mF)が応用され得る。いくつかの実施形態において、例えば、機能スコア1324に基づいて可能である表現型影響の分類精度を検討するために、機能スコアリングおよび分類層1326において、このようなスコアリングおよび評価が生じ得る。
【0057】
いくつかの実施形態において、機能モデル(mF)のトレーニングおよび検査(予測生成)の間に、追加的なアノテーション特徴1306、1320が提供されてもよい。いくつかの実施形態において、遺伝子型(例えば、配列、分子変異体)における変化に関連付けられた変化を記載する、複数の独立した(例えば、非測定された)特徴(例えば、当業者には理解される通り、変異体、ゲノム座標、転写(例えば、RNA)座標、翻訳された(例えば、タンパク質)座標、アミノ酸、および様々な他のものに関連付けられた、進化的、集団、機能(例えば、アノテーションベースの)、構造的、動的、かつ物理化学的特徴)を、アノテーション特徴1306および1320は包含してもよい。
【0058】
当業者には理解される通り、(例えば、公開および/または私的)臨床および非臨床変異体データベース(例えば、ClinVar、HumVar、VariBench、SwissVar、PhenCode、PharmGKB、または遺伝子座特異データベース)、および結果データベースを含む真理集合を定義するために、分子変異体の表現型影響(例えば、ラベル)に関する多種多様なソースが利用され得る。
【0059】
いくつかの他の実施形態において、本開示は、回帰および分類技術を介して、異なる分子、表現型、または集団シグナルから直接算出された分子変異体の表現型影響(例えば、ラベル)に1つ以上の分子測定、分子処理、分子特徴、および/または分子スコアから導出された分子、表現型、または集団シグナル(例えば、特徴)を関連付ける機能モデル(mF)を生成するための統計学的(例えば、機械)学習を介して、機能スコアおよび機能分類を導出するためのシステムおよび方法を提供する。いくつかの実施形態において、このアプローチは例えば、特定の分子変異体を含有する対象から試料の比較変異量、変異率、または変異シグネチャーを予測する機能スコアおよび機能分類の導出を可能にしてもよい。いくつかの実施形態において、このような測定からの機能スコアまたは機能分類は、検査対象におけるがん発生の生涯リスクの通知を可能にしてもよい。
【0060】
当業者には理解される通り、機能モデル(mF´s)を生成するための回帰および分類は、ランダムフォレスト(RF)、勾配ブースティング木(GBT)、ゼロ規則(ZR)、単純ベイズ(NB)、単純ロジスティック回帰(LR)、サポートベクターマシン(SVM)、k近傍法(kNN)、および多種多様な人工ニューラルネットワーク(ANN)アーキテクチャおよび技術を展開するアプローチを含むがそれに限定されない、半教師ありまたは教師あり学習に関する様々な統計学的(例えば、機械)学習技術に依拠してもよい。いくつかの実施形態において、本開示は、分子状態特異的な機能スコアまたは機能分類の導出のための、分子状態固有の、分子シグナルの利用について記載する。いくつかの他の実施形態において、本開示は、分子状態検知機能スコアまたは機能分類の導出のための、分子シグナルの多状態マトリクスの利用について記載する。いくつかの実施形態において、本開示は、機能スコアまたは機能分類と分子状態に渡って分布された分子シグナルとの間のパターン化された関連性を学習するための、畳み込みニューラルネットワーク(CNN)の利用について記載する。
【0061】
図1Aは、いくつかの実施形態による、RAS/MAPKパスウェイの遺伝子におけるDML処理およびシステムの応用を示す。RAS/分裂促進因子活性化タンパク質キナーゼ(MAPK)パスウェイは細胞増殖、分化、生存および死における役割を果たし得、RAS/MAPK遺伝子における体細胞変異は、MAPK/ERKシグナルの活性化および調整不全を通じて多様ながん型の発生、進行、および治療的反応における役割を果たし得る。加えて、RAS/MAPK遺伝子における遺伝性(例えば、生殖細胞系列)変異は、特徴的な顔貌、心臓欠陥、筋皮異常、および精神遅滞、ならびに皮膚、内耳および性器の異常を有する患者に見られる、ヌ-ナン症候群(NS)、コステロ症候群(CS)、および心臓・顔・皮膚(CFC)症候群、およびレオパード症候群(LS)を含むがそれに限定されない、複数の常染色体優性先天性症候群に関連付けられている(Aoki et al.2008)。例えば、タンパク質チロシンホスファターゼ、非受容体11型(PTPN11)および二重特異性分裂促進因子活性化タンパク質キナーゼキナーゼ1/2遺伝子(MAP2K1、MAP2K2)における変異がヌ-ナンおよびCFC患者において反復的に観測されており、50%ものヌ-ナン患者にPTPN11変異が見られる(Aoki et al.2008)。
【0062】
実施形態は、HRAS(例えば、G12V)、PTPN11(例えば、E76KおよびN308D)、およびMAP2K2(例えば、F57C and P128Q)などの、HEK293細胞で構築され、過剰発現する野生型、体細胞、および主要なRAS/MAPK経路の構成要素の生殖細胞系列分子変異体を利用し得る。実施形態は、1mg/mlのピューロマイシンを有する細胞を選択し、外因的に誘導された機能要素(例えば、遺伝子)の発現を確実にし得、また、リンERKタンパク質および合計ERKタンパク質量に関する酵素免疫測定法(ELISA)を利用して、RAS/MAPKパスウェイ活性化が検証され得る(
図5を参照)。単一細胞RNA配列データを生成するために、実施形態は、10Xゲノミクスクロムシステムを利用して、各分子変異体について500個の細胞の捕獲を目標とし得る。捕獲および後続の単一細胞ライブラリ生成は、製造元の推奨にしたがって行われ得る。各遺伝子型の細胞ごとの平均読み取りが30,000読み取り/細胞を上回るまで、Illumina MiniSeqシーケンサー上に各機能要素(例えば、遺伝子)に関する結果のライブラリがプールされ、配列され得る。10X Genomics Cell Ranger 2.1.0パイプラインおよびデフォルト設定を利用して、単一細胞RNA配列処理(例えば、単一細胞品質管理、正常化、トランスクリプトーム数など)が行われ得る。
【0063】
図1Bおよび1Cは、いくつかの実施形態による、生殖細胞系列障害(F57C、P128Q、and N308D)および体細胞障害(E76K)に関連付けられた分子変異体に関する野生型および変異PTPN11およびMAP2K2を含有する哺乳類細胞(例えば、HEK293)の投影図を示す。いくつかの実施形態による、単一細胞遺伝子発現の、スケーリングされ、正常化された固有の分子識別子(UMI)数から判定された、(例えば、より下位の)分子スコアに基づいて、t分布型確率的近傍埋め込み法(tSNE)によって導出された二次元平面上に、細胞が投影され得る。各遺伝子に関して、より下位の分子スコアの強固な、圧縮表現のためにトレーニングされた、細胞型、遺伝子またはパスウェイ特定のオートエンコーダ(AE)を含む分野(例えば、主成分分析、PCA)およびカスタム開発された解決法における、広範な、一般化アルゴリズム基準の応用を介して導出された、より上位の分子スコアに基づいて、tSNE投影図が示される。いくつかの実施形態において、(例えば、層に渡って)中間層の周辺に対称数のニューロンを含み、活性化のための正規化線形ユニット(ReLu)を有する全結合層を有するニューラルネットワークとして、オートエンコーダが構築され得る。いくつかの実施形態において、Adamオプティマイザを利用して、オートエンコーダはトレーニングされ、平均二乗誤差(MSE)喪失機能に対して最適化され得る。
【0064】
図1Bおよび1Cに示す通り、一般化次元削減アルゴリズムと比較して、カスタマイズされた、細胞型およびパスウェイ特定のオートエンコーダ(AE)からの細胞投影図は、中性(例えば、野生型)および疾患関連分子変異体(例えば、N308D、E76K)を含有するモデルシステム(例えば、細胞)間の超次元分離を改善させ得る。RAS/MAPK遺伝子の野生型および変異バージョンを含有する3,495単一のHEK293細胞において検出された18,800を上回る遺伝子からの8.3百万の、より下位の分子スコアにおいて、ノイズ除去オートエンコーダ(AE)がトレーニングされた。10のミニバッチサイズを有する30のエポックにおいて、エポック間のUMI数のサンプリングにおける無作為された5%の削減に続く雑音シミュレーションによって、トレーニングが行われた。利用された全結合、対称オートエンコーダのアーキテクチャが
図4に示される。より下位の分子スコアのスケーリング、正常化、および次元削減に関する領域における従来のアプローチは、ヌ-ナン症候群(NS;N308D)分子変異体および野生型PTPN11を含有する細胞のtSNE投影図を分離し損なう可能性があるが、カスタマイズされた細胞型およびパスウェイ特定のオートエンコーダは、PTPN11における野生型細胞からの、体細胞(E76K)および生殖細胞系列(N308D)障害分子変異体を含有する細胞の強固な分離を示し得る。
【0065】
いくつかの実施形態によると、
図14Aおよび14Bは、ヒトのHRAS遺伝子の疾患関連(例えば、病原)遺伝子型(例えば、配列)変異体(例えば、G12V)および野生型(例えば、良性)遺伝子型(例えば、配列)バージョンか、または、がんタンパク質h-Ras(形質転換タンパク質p21としても知られる)を符号化するRAS/MAPKパスウェイの第3の部材のいずれかを含有する哺乳類細胞において判定されるように、2つの異なる表現型影響を有する分子変異体の二項分類のためのシステムおよび方法の性能を示す。低分子GTPアーゼ、h-RasのRasスーパーファミリーのRasサブファミリーにおける低分子量Gタンパク質は、一度グアノシン三リン酸に結合されると、RAF-ファミリー キナーゼ(例えば、c-Raf)を活性化させ、それにより、MAPK/ERKパスウェイの細胞活性化につながり得る。
【0066】
図14Aは、細胞の正常化された、単一細胞遺伝子発現測定に基づく、細胞のt分布型確率的近傍埋め込み法(tSNE)によって導出された、二次元平面上の野生型および変異哺乳類細胞(HEK293)の投影
図1402を示す。
図14Aに示すように、細胞ごとに平均で~3,500の分子測定が行われ、33,500を上回る遺伝子の分子測定から、より下位の分子スコアが導出され得る。より下位の分子スコアの次元を削減する、より上位の分子スコアを導出するために、主成分分析(PCA)が応用され得る。投影された細胞を分子状態1404に割り当てるために、混合ガウスモデル(GMM)が応用され、例えば、N=6細胞の亜集団を、それらの正常化された、単一細胞遺伝子発現測定(例えば、UMI数)から導出された、より下位の分子スコアに基づいて、定義し得る。変異および野生型細胞を、例えば、k
P=15疾患関連およびk
B=15良性疑似集団にそれぞれ無作為に割り当てることによって、疑似疾患関連遺伝子型および良性遺伝子型が生成され得る。疾患関連と良性遺伝子型との間を区別することが可能である機械学習機能モデル(m
F)をトレーニングし、検査するために、疑似集団(k
P1-15、k
B1-15)は、例えば、80/20交差検証スキームを応用するトレーニングおよび検査集合に分けられ、例えば、真理集合と総称する、各クラスラベル(例えば、疾患関連および良性)のk
TRAIN=12トレーニングおよびk
TEST=3検査遺伝子型を結果としてもたらし得る。この手順は繰り返され得る。例えば、f=5折りたたみのそれぞれにおいてi=25反復であり、各折りたたみ内で疑似集団(例えば、k
P1-15、k
B1-15)内の細胞が、例えば、細胞の20%、40%、60%、80%、または100%を保持するために復元によりサンプリングされ得る。各反復、折りたたみ、およびサンプリングにおいて、疾患関連および良性遺伝子型に関するより下位の分子シグナルおよび、より上位の分子シグナルが、より下位の分子スコアおよびより上位のスコアのそれぞれ平均として算出され得る。各反復、折りたたみ、およびサンプリングにおいて、疾患関連および良性遺伝子型に関する集団シグナルが、例えば、N=6亜集団のそれぞれに対応する細胞の画分として判定され得る。各反復、折りたたみ、およびサンプリングにおいて、機械学習機能モデル(m
F)は、k
TRAINデータにおいて観測されたより下位の分子シグナル、より上位の分子シグナル、または集団シグナルに基づいて、真理集合からの疾患関連および良性遺伝子型を区分し得る。この機能モデル(m
F)は、変異体を区分するために、10x交差検証戦略およびランダムフォレスト推定量を利用してトレーニングされ得る。各反復、折りたたみ、およびサンプリングにおいて、トレーニングされた機能モデル(m
F)は、k
TEST疑似集団のクラスラベル(例えば、疾患関連または良性)を、それらのより下位の分子シグナル、より上位の分子シグナル、または集団シグナルに基づいて予測し得る。
図14Bに示す通り、このアプローチは、変異および野生型細胞の集団内で判定されたより下位の分子シグナル、より上位の分子シグナル、および集団シグナルに基づいて、疾患関連および良性遺伝子型間の強固な区別に結果としてつながり得る。
【0067】
複数の遺伝子および障害に渡る疾患関連(例えば、病原)分子変異体の正確な識別のための拡張性のある解決法としてDML処理およびシステムの性能を評価するために、例えば、RAS/MAPKパスウェイ、HRAS、PTPN11、およびMAP2K2の3つの遺伝子上の分子および集団シグナルの事前処理、スケーリング、正常化、次元削減、および算出のための一様な、分布されたDML処理パイプラインが展開され得る。上述のような分類精度の評価のための同様のトレーニング/検査スキーマを応用して、DML処理は、
図2Aに示すように、~99.9%の、また、HRAS(例えば、G12V)およびPTPN11(例えば、E76K)それぞれにおける体細胞がん要因分子変異体の分析における~100%の(例えば、中央値)生データの分類精度202、ならびに、~98.5%の、また、PTPN11(例えば、N308D)およびMAP2K2(例えば、F57C、P128Q)それぞれにおける分子変異体型生殖細胞系列(例えば、遺伝性)障害の分析における~96.1%の(例えば、中央値)生データの分類精度204を実現し得る。
図2Bに示す通り、HRASにおける体細胞障害、PTPN11における体細胞障害、PTPN11における生殖細胞系列障害、およびMAP2K2における生殖細胞系列障害を引き起こすことで知られる分子変異体の分類における平均精度206、208(例えば、マシューの相関係数、MCC)はそれぞれ、~99.4%、~100%、~95.2%、および~90.1%であり得る。疾患関連(例えば、体細胞および生殖細胞系列、組み合わせの)分子変異体の分析における生データの分類精度(例えば、ACC)および平均分類精度(例えば、MCC)はそれぞれ、本明細書に記載された分子および集団シグナルに基づいて、~98.4%および~95.6%であり得る。
【0068】
いくつかの実施形態において、本開示は、より下位の、また、より上位の分子スコアをモデルシステム(例えば、細胞)内に含有される変異体の既知の表現型影響に関連付けるための統計学的機械学習モデルの応用を通じた、モデルシステムレベル(例えば、細胞レベル)表現型スコアの導出のためのシステムおよび方法を提供する。
図3Aおよび3Bは、いくつかの実施形態による、MAP2K2の野生型および変異バージョンを含有する細胞における表現型スコアを導出するようトレーニングされた機械学習モデルの細胞レベルの生データの分類精度を示す。
【0069】
図3Aにおいて、細胞表現型スコアに基づいて、トレーニングから除外されたMAP2K2 生殖細胞系列障害分子変異体を含有する検査細胞の平均分類精度を、生殖細胞系列および拡張バーが示し得るが、トレーニングはMAP 2K2ニューラル生殖細胞系列障害分子変異体(例えば、生殖細胞系列302)または、PTPN11生殖細胞系列障害分子変異体(例えば、拡張304)からの含まれたデータのみに基づく。
図3Bにおける生殖細胞系列302および拡張304バーは、様々な数の細胞を有する細胞の集団に関する主要細胞表現型スコアに基づいて判定されるように、トレーニングから除外された検査MAP2K2生殖細胞系列障害分子変異体の平均分類精度を示す。
図3Aにおけるように、生殖細胞系列および拡張バーは、検査分子変異体の分類における生データの精度に対応し得るが、トレーニングがMAP2K2ニューラルおよび生殖細胞系列障害分子変異体(例えば、生殖細胞系列)または、PTPN11生殖細胞系列障害分子(例えば、拡張)からの含まれたデータのみに基づく。
【0070】
図3Aおよび3Bは、(例えば、スケーリングされ、かつ/または正常化された)より下位の分子スコアからの上位100の主成分としての、より上位の分子スコア算出に基づく、野生型 MAP2K2を含有する疾患関連分子変異体および細胞を含有する細胞の二項分類のためにトレーニングされたロジスティック回帰(LR)分類子を用いて取得されたデータを示す。特定の疾患関連分子変異体を有する細胞の特定の集合がトレーニングから除外されるような、分子変異体遺伝子型上での、分子変異体のトレーニングおよび検査ビンへの区分、ならびに、細胞の対応するトレーニングおよび検査集合への区分により、トレーニングおよび検査のために細胞の集合が生成され得る。このように、トレーニングから除外された変異体を含有する細胞の完全な集団上で、分類検査性能が算出され得る。
図3Aおよび3Bに示す通り、MAP2K2における生殖細胞系列(例えば、遺伝性)障害に関連付けられた分子変異体に渡る平均的な細胞ごとの分類精度は、~80.3%であり得る。
【0071】
いくつかの実施形態において、本開示は、同じ、関連する、または相互作用するパスウェイ内の複数の遺伝子、分子要素において測定された分子、表現型、または集団シグナルに基づく、分子変異体の表現型結果の学習および予測について記載する。
図3Aおよび3Bに示す通り、生殖細胞系列(例えば、遺伝性)障害に関連付けられたPTPN11分子変異体からのデータの含有は、MAP2K2における生殖細胞系列障害分子変異体に渡る平均的な細胞ごとの分類精度を、in~80.3%(例えば、生殖細胞系列302)から~92.8%(例えば、拡張304)へと向上させ、それによって、開示されたDML処理およびシステムの、複数の機能要素に渡る分子変異体の表現型影響の正確な分類のためにコヒーレント細胞プロパティを識別し、活用する能力を示し得る。
図3Aおよび3Bに示す通り、細胞ごとの分類における向上した性能が、分子変異体を含有する細胞の集団からのマジョリティ型分類に基づく分子変異体の分類の増大を結果としてもたらし得る。
【0072】
いくつかの実施形態において、本開示は、個別の機能要素(例えば、個別の遺伝子)に関する機能スコアおよび機能分類を導出するためのシステムおよび方法を提供する。いくつかの実施形態において、本開示は、複数の機能要素内の分子変異体に渡る整合した分子シグナルを活用する多数の機能要素に渡る機能スコアおよび機能分類を導出するための方法を提供する。いくつかの実施形態において、本開示は、異なる機能要素における分子変異体が固有に生成されるか、バーコーディングされるか、または両方である細胞の集団を生成するために、突然変異誘発子、分子バーコーディング、分子クローニング、および細胞プーリング技術の利用を組み合わせるシステムおよび方法について記載する。
【0073】
いくつかの実施形態において、回帰および分類技術をそれぞれ介して、分子変異体の表現型影響(例えば、ラベル)に分子シグナル(例えば、特徴)を関連付けるための統計学的(例えば、機械)学習を介して、独立した、または互いに素な機能スコアおよび機能分類を導出するために、分子、表現型、または集団シグナル(例えば、特徴)の独立した、または互いに素な推定値が利用されてもよい。
【0074】
いくつかの実施形態において、当業者には理解される通り、各分子、表現型、または集団シグナルの独立した、または互いに素な推定値を利用して生成された統計学的(例えば、機械)学習モデルからの特徴重みが、技術を利用した強固な特徴選択のために、算出され、収集され、利用される。いくつかの実施形態において、本開示は、回帰および分類技術をそれぞれ介して識別された強固な分子、表現型、または集団シグナル(例えば、強固な特徴)を分子変異体の表現型影響(例えば、ラベル)に関連付けるための統計学的(例えば、機械)学習を介して、機能スコアおよび機能分類を導出するための方法を提供する。
【0075】
いくつかの実施形態において、本開示は、分子シグナルの独立した、または互いに素な推定値を利用し、モデル選択またはモデル組み合わせ(例えば、混合)のいずれかの技術(Pan et al.2006)を応用して生成された複数の統計学的(例えば、機械)学習モデルから機能スコアおよび機能分類を導出するためのシステムおよび方法について記載する。
【0076】
いくつかの実施形態において、モデル選択技術を応用して、真のモデルであるモデルの予測性能またはその確率を測定するモデル選択基準がモデルを比較するために利用されてもよく、選択基準の推定値を最大化するために、選択が応用され得る。当業者には理解される通り、検査入力依存重み(IDW)に例示されるように、トレーニングデータまたは入力検査データ上で算出される、赤池情報量規準(AIC)、ベイズ情報量基準(BIC)、交差検証(CV)、ブートストラップ(Efron1983;Efron1986;Efron and Tibshirani1997)、または適応モデル選択基準(George and Foster 2000;Shen and Ye 2002;Shen et al.2004)を含む(が、それに限定されない)様々なモデル選択基準が応用され得る。入力検査データに関するモデルの予測性能を定量化するための、所定の入力または合理的な測定のために正確な予測を提供するモデルの確率として、候補モデルに関するIDWが定義されてもよい(Pan et al.2006)。
【0077】
いくつかの他の実施形態において、モデル組み合わせ技術を応用して、アンサンブル法を応用することによって、個別のモデルからの出力の等または不等荷重平均を取ることによって、組み合わせられたモデルが生成され得る(Ripley 2008;Hastie et al.2001)。例えば、アンサンブル法は、ベイズモデル平均化、スタッキング、バギング、ランダムフォレスト、ブースティング、ARM、トレーニングデータ上で算出される(Burnham and Anderson 2003;Hastie et al.2001)、または、入力検査 データ上で算出される(Pan et al.2006)重みとしての性能指標(例えば、AICおよび BIC)の利用を含み得るが、それに限定されない。いくつかの他の実施形態において、モデル組み合わせ技術を応用して、人工ニューラルネットワーク(ANN)アーキテクチャを応用し、組み合わせられたモデルが生成され得る。いくつかの実施形態において、本開示は、様々なノイズ制御技術(例えば、ノイズアルゴリズムを有するブートストラップアンサンブル(Yuval Raviv1996))の応用に関わる、分子シグナルの独立した、または互いに素な推定値を利用して生成された複数の統計学的(例えば、機械)学習モデルから機能スコアおよび機能分類を導出するためのシステムおよび方法について記載する。
【0078】
いくつかの実施形態において、本開示は、(例えば、測定終点)機能スコアまたは機能分類と、複数の依存(例えば、測定された)特徴(例えば、分子、表現型、または集団シグナル)または独立した(例えば、非測定)特徴(例えば、当業者には理解される通り、変異体、ゲノム座標、転写(例えば、RNA)座標、翻訳された(例えば、タンパク質)座標、アミノ酸、および様々な他のものに関連付けられた進化的、集団、機能(例えば、アノテーションベースの)、構造的、動的、かつ物理化学的特徴)との間の関係をモデリングする推論モデル(m
I)を生成するための統計学的(例えば、機械)学習技術を応用する、分子変異体に関する機能スコアおよび機能分類を推定するためのシステムおよび方法について記載する。当業者には理解される通り、このような推論モデル(m
I)は、分子、表現型、または集団シグナル、分子測定、分子処理、分子特徴、または分子スコアの明示的な利用をともなうか、またはともなわない、分子変異体に関する機能スコアおよび機能分類の推定を可能にしてもよい。いくつかの実施形態において、このような方法は、機能スコアおよび機能分類が直接測定された以外の分子変異体に関する機能スコアおよび機能分類を記載する配列機能マップの推論を可能にしてもよい。いくつかの実施形態において、
図15に示す通り、このようなシステムおよび方法は、潜在的な非同義変異体の部分集合を表現する配列機能マップ1502からの機能スコアおよび機能分類を利用して、タンパク質コード化遺伝子におけるすべての潜在的な非同義変異体に関する機能スコアまたは機能分類を記載する配列機能マップ1514の推論を可能にしてもよい。いくつかの実施形態において、この推論は、入力としてアノテーション特徴1508、ラベル1510、および機能スコア1512から成るアノテーションマトリクス1506にアクセスするスコア回帰層1504を利用し得る。当業者には理解される通り、推定された機能スコアおよび機能分類の精度を監視するか、または確保するために、多数の統計学的検証および交差検証技術が応用され得る。
【0079】
いくつかの実施形態において、また、
図16に示す通り、本開示は、(a)分子変異体の表現型影響の既存の知識または信頼できる予測を収集するか、または生成し、(b)既知の、高信頼予測された、未知の表現型影響のサンプリングされた分子変異体の機能モデリング(例えば、機能モデリングエンジン(FME)を介して行われる)を通じて、既知の、または予測される表現型影響を有する分子変異体の集合を大きくし、(c)推論モデリングを通じて、既知のまたは予測される表現型影響を有する分子変異体の集合をさらに完成させる、一連のモデリング層を通じて、分子変異体の表現型影響(例えば、病原性、機能性、または比較効果)を判定するためのシステムおよび方法について記載する。これらの層は、組み合わせて、機能モデル(m
F)1607生成のために利用可能な真理集合範囲を広げ(または最適化し)、推論モデル(m
I)1609生成のための機能モデル(m
F)1607生成サポートの必要な範囲を削減し(または最適化し)得る。いくつかの実施形態において、これらのシステムおよび方法は、既知の表現型影響(例えば、病原性、機能性、または比較効果)の分子変異体が限定された機能要素(例えば、遺伝子)およびコンテキストに関する、トレーニング、検証、および検査に関する限定を克服し得る。このようなシステムおよび方法はしたがって、他の方法で限定された、モデル生成に関するデータを有する機能要素(例えば、遺伝子)に関する分子変異体の表現型影響の解明を可能にし、全体の費用を削減し得る。
【0080】
いくつかの実施形態において、また、
図16に示す通り、このようなシステムおよび方法は、 続くモデリング層のうちの1つ以上を組み合わせて、これを実現してもよい。(1)予測モデル(m
P)1603、(2)サンプリングモデル(m
S)1605、(3)機能モデル(m
F)1607、および(4)推論モデル(m
I)1609.いくつかの実施形態において、本開示は、遺伝子/機能要素における分子変異体の表現型影響を記載する配列機能マップ1602を追加するために、既存のソースからの既知の表現型影響(例えば、病原または良性)を有する分子変異体にアクセスするシステムおよび方法について記載する。いくつかの実施形態において、分子変異体の表現型影響を高信頼予測と組み合わせて拡張配列機能マップ1604を生成するために、十分に特徴付けられた予測モデル(m
P)1603が利用され得る。いくつかの実施形態において、(a)既知のまたは高信頼予測された表現型影響を有する分子変異体の選択またはサブサンプリングによる真理集合、および、(b)未知の表現型影響の分子変異体の目標集合を含む遺伝子型(例えば分子変異体)1606の集合を生成するために、サンプリングモデル(m
S)1605が応用される 。
【0081】
いくつかの実施形態において、本開示は、(例えば、遺伝子型1606からの)真理集合における分子変異体から学習されたように、分子、表現型、または集団シグナルならびに機能スコアおよび機能分類を関連付け、(例えば、遺伝子型1606からの)目標集合における機能スコアおよび機能分子変異体の分類を予測して、それによって機能スコア1608の配列機能マップを産生する機能モデル(mF)1607を生成するための統計学的(例えば、機械)学習の利用について記載する。
【0082】
いくつかの実施形態において、
図16に示す通り、機能モデル(m
F)1607は、同じ、関連する、または相互作用するパスウェイにおける複数の機能要素(例えば、遺伝子)からの分子および集団シグナルを含む拡張真理集合1611および1612にアクセスする。この能力により、作用のコヒーレントメカニズムを有する機能要素(例えば、遺伝子)からの分子、表現型、または集団シグナルに基づいて、既知のまたは高信頼予測された表現型影響を有する分子変異体の、利用可能性が限定されているか、または欠けている機能要素(例えば、遺伝子)に関する機能モデル(mF)1607を、システムが生成することが可能になり得る。
図3Aおよび3Bは、この例を示す。
【0083】
いくつかの実施形態において、機能スコア1610の増大された配列機能を産生するために、表現型影響と複数の依存(例えば、測定された)特徴(例えば、分子、表現型、または集団シグナル)または独立した(例えば、非測定)特徴(例えば、当業者には理解される通り、変異体、ゲノム座標、転写(例えば、RNA)座標、翻訳された(例えば、タンパク質)座標、アミノ酸、および様々な他のものに関連付けられた、進化的、集団、機能(例えば、アノテーションベースの)、構造的、動的、かつ物理化学的特徴)との間の関係をモデリングする推論モデル(mI)1609によって、既知の分子変異体の表現型影響、高信頼予測された分子変異体、および機能的にモデリングされた分子変異体は活用され得る 。当業者には理解される通り、このような推論モデル(mI)1609は、分子、表現型、または集団シグナルの明示的な利用をともなうか、またはともなわない、分子変異体の表現型影響の推定を可能にしてもよい。
【0084】
いくつかの実施形態において、本開示は、分子変異体の真理および目標(クエリ)集合上での深層変異学習(DML)処理およびシステムの段階的展開を通じた、分子変異体分類の費用効率性の最適化のためのシステムおよび方法について記載する。いくつかの実施形態は、例えば、
図6に示す通り、段階I最適化610ステップを含み、オートエンコーダ(m
AE)などの次元削減モデル(m
DR)614および、機能モデル(m
F)616最適化に関する高品質データを生成するために、真理集合変異体を含有するモデルシステム(例えば、細胞)が、細胞数、読み取り深度最適化612において高いモデルシステム(例えば、細胞)の数および読み取り深度で測定される。この第1の段階において、強固な目標性能を保証する次元削減モデル(614)、機能モデル(616)、および細胞数、読み取り深度(612)の組み合わせを識別するために、目標分子変異体の表現型影響に関する次元削減および分類精度が最適化され得る。いくつかの実施形態において、次元削減モデルおよび機能モデルの性能をトレーニングし、モデリングするために、サブサンプリングおよび雑音シミュレーションが利用され得る。
図6に示す通り、いくつかの実施形態は、特定の次元削減モデル624および機能モデル626が展開される際に、(例えば、最適の、または最小限の)細胞数および/または読み取り深度622が強固であると識別される展開において、目標集合変異体および、任意に真理集合変異体を含有するモデルシステム(例えば、細胞)が測定され得る、段階II製造620ステップを含む。
【0085】
いくつかの実施形態において、本開示は、上述のように判定された機能スコアおよび機能分類に基づいて、対象の生体試料または記録内で識別された分子変異体の表現型影響(例えば、病原性、機能性、または比較効果)を判定するためのシステムおよび方法について記載する。いくつかの実施形態において、対象の生体試料または記録内で識別された分子変異体の表現型影響を判定するために、(例えば、複数の固有の)分子変異体の集合に関する機能スコアおよび機能分類の組み合わせのタイムスタンプ付きの記録が生成され、評価され、検証され、選択され、かつ応用されてもよい。
【0086】
いくつかの実施形態において、本開示は、機能スコアおよび機能分類を活用するための統計学的(例えば、機械)学習方法を応用することによって生成された算出予測因子からの予測因子スコアまたは予測因子分類に基づいて、対象の生体試料または記録内で識別された分子変異体の表現型影響(例えば、病原性、機能性、または比較効果)を判定するためのシステムおよび方法について記載する。
【0087】
いくつかの実施形態において、また、
図17に示す通り、本開示は、機能要素の変異体および残差に関連付けられた進化的、集団、機能(例えば、アノテーションベースの)、構造的、動的、かつ物理化学的特徴を含むがそれに限定されない算出予測因子の生成において、共通で利用される特徴を含む、それらの機能スコア1702、1708(または機能分類)および他のアノテーション特徴1710を含む入力ラベル1714およびアノテーションマトリクス1706に基づいて分子変異体の表現型影響1712をモデリングする統計学的(例えば、機械)学習技術を通じて、遺伝子および条件固有であり得る(例えば、より下位の)変異体解釈エンジン(VIE)を生成するための方法について記載する。いくつかの実施形態において、VIEをトレーニングし、品質管理するために、トレーニングおよび検証層1704は、交差検証技術1716(例えば、K分割またはLOOCV)を利用してもよく、VIEは続いて、分子変異体分類において利用される予測因子スコア1720を導出するために、検査層1718によって評価される。
【0088】
いくつかの実施形態において、本開示はさらに、関心の目標パスウェイにおける複数の遺伝子からの(より下位の)遺伝子および条件特異変異体解釈エンジン(VIE)を統合するモデル組み合わせ技術を応用する、パスウェイおよび条件特異(上位の)変異体解釈エンジン(VIE)を生成するためのシステムおよび方法を記載する。他の実施形態において、本開示はさらに、機能要素の変異体および残差に関連付けられた進化的、集団、機能(アノテーションベースの)、構造的、動的、かつ物理化学的特徴を含むがそれに限定されない算出予測因子の生成において共通で利用される、それらの機能スコア、機能分類、および他の特徴に基づいて分子変異体の表現型影響をモデリングする統計学的(例えば、機械)学習技術を通じて、パスウェイおよび条件特異(上位の)変異体解釈エンジン(VIE)を生成するためのシステムおよび方法を記載する。
【0089】
いくつかの実施形態において、本開示は、分子変異体および残差に関連付けられた本明細書に記載の、また、有効な機能スコア、機能分類、および分子シグナルを活用する特定の表現型影響を有する残差のネットワークを識別するための空間クラスタリング技術を応用することによって算出された変異ホットスポットからのホットスポットスコアおよびホットスポット分類に基づいて、対象の生体試料またはその記録内で識別された分子変異体の表現型影響(例えば、病原性、機能性、または比較効果)を判定するためのシステムおよび方法について記載する。
【0090】
いくつかの実施形態において、本開示は、(1)分子変異体の特徴空間を削減するために次元削減技術が応用される場合にN<Mである、機能スコア、機能分類、および分子シグナル(上述の通り)の集合によって定義されたN次元空間(1≦N≦M)において投影された分子変異体間の距離指標の算出によって分子変異体またはそれらの対応する残差間の機能的距離のマトリクスを導出するためのシステムおよび方法について記載する。当業者には理解される通り、主成分分析(PCA)におけるような線形変換または、多様体学習技術(例えば、t分布型確率的近傍埋め込み法(tSNE)およびカーネル主成分分析(kPCA))におけるような、非線形変換に依存する技術を含むがそれに限定されない様々な次元削減技術が応用されてもよい。当業者には理解される通り、ユークリッド距離、マンハッタン距離(例えば、都市ブロック)、マハラノビス距離、またはチェビシェフ距離、および様々な他のものを含むがそれに限定されない様々な距離指標が利用され得る。
【0091】
いくつかの実施形態において、本開示は、本明細書に記載された有効な機能的距離、配列距離、構造距離、(共)進化的距離、およびその組み合わせを含む、複数の空間距離指標に渡る空間クラスタリング技術の応用を通じた、機能要素(例えば、タンパク質コード化遺伝子)の空間的に近接した残差内の表現型関連変異密度(例えば、残差ごとの観測された表現型関連変異体の数)の測定およびスコアリングによる、顕著に変異している領域(SMR)およびネットワーク(SMN)の識別のためのシステムおよび方法について記載する。
【0092】
いくつかの実施形態において、また、
図18に示す通り、SMR/SMNの識別は、分子変異体の機能スコアにおける共通性に基づいて判定されるように、表現型関連または機能関連分子変異体1806間の空間クラスタリングを識別するためのトレーニング/検証層1804を応用してもよい。いくつかの実施形態において、これらの共通性は、タンパク質コード化遺伝子1802の配列機能マップにおける分子変異体の機能スコアから識別されてもよい。
【0093】
いくつかの実施形態において、また、
図18に示す通り、トレーニング/検証層1804におけるSMR/SMNの識別は、以下を含むがそれに限定されない一連のステップを含んでもよい。(1)すでに記載されたように、特定の表現型の関連性を有する分子変異体において充実された単一の残差または残差のネットワークの識別のためのSMR/SMN検出技術1805(Araya et al.2016、U.S.Patent Application 20160378915A1)および(2)SMR/SMN選択技術1815。
【0094】
SMR/SMN検出技術1805は、以下を含むがそれに限定されない一連のステップを含み得る。(1.1)機能的、配列、構造的、または(共)進化的次元(またはその組み合わせ)における表現型関連分子変異体1806の投影
図1810、(1.2)空間的に近接した表現型関連変異体のクラスタを検出するための空間クラスタリング技術(例えば、DBSCAN)1812の応用、および(1.3)変異密度の測定、クラスタにおける残差ごとの表現型関連変異体の数のスコアリング。
【0095】
SMN検出技術1805は、以下を含むがそれに限定されない、1814に表されるステップをさらに含み得る。(1.4)例えば、各機能要素(例えば、タンパク質コード化遺伝子)内の残差ごとの変異率が与えられている場合の、クラスタごとのk以上の(例えば、kを上回るか、または等しい)観測された表現型関連変異体の取得の(例えば、二項)確率の算出による、変異密度確率のスコアリング、(1.5)発見されたクラスタの変異密度確率に渡る複数の仮説補正(MHC)の応用、および(1.6)各機能要素内で観測された表現型関連変異体の位置のランダム化によって導出された変異密度確率の背景モデルを利用した、観測された(例えば、生データの、または補正された)変異密度確率に関する偽発見率(FDR)の算出。
【0096】
トレーニング/検証層1804は、SMR/SMN選択技術1815をさらに実行し得る。SMR/SMN選択技術は、以下のステップを含み得る。(2.1)(例えば、生データの、または補正された)変異密度確率および/または偽発見率(FDR)のホットスポットスコアとしての定義および、ホットスポット分類を統計学的に定義するためのカットオフの応用、それによる候補クラスタにおける残差の指定(例えば、配列1816、機能1818、および配列1820)、(2.2)複数の、異なる投影図/空間からの候補クラスタにおける残差の検出、(2.3)割当発見を応用した、残差の個別のクラスタへの割り当て、(例えば、サイズが最大のクラスタ(例えば、残差の数が最も大きいクラスタ)の選択)、および、(2.4)SMR/SMNのこれらの基準を満たすクラスタの終集合としての識別。SMR/SMNの終集合は、複数の、異なる投影図(例えば、配列1820、機能1818、または配列、機能(組み合わせ)1822)から導出され得る。
【0097】
いくつかの実施形態において、本開示は、本明細書に記載された機能スコアおよび機能分類に基づいて表現型関連変異体が定義されてもよい、複数の空間距離指標に渡る空間クラスタリング技術の応用を通じた、機能要素(例えば、タンパク質コード化遺伝子)の空間的に近接した残差内の表現型関連変異密度(例えば、残差ごとの観測された表現型関連変異体の数)の測定およびスコアリングによる、SMR/SMNの識別のためのシステムおよび方法について記載する。当業者には理解される通り、これらの方法は、具体的に定義された表現型影響が生じる、残差のクラスタの判定を可能にしてもよい。
【0098】
いくつかの実施形態において、本開示は、本明細書に記載された機能スコアおよび機能分類に対する、算出予測因子(例えば、M-CAP、REVEL、SIFT、およびPolyPhen2)、および遺伝子特定の予測因子(例えば、PON-P2)、変異ホットスポット、ならびに集団ゲノミクス指標(例えば、アレル頻度ベースの変異体分類)、(Amendola et al.2016)からの定量的(例えば、スコア)または定性的(分類)エビデンスなどの分子変異体の解釈のための、独立したエビデンスデータセットの精度、性能、または強固さを評価するためのシステムおよび方法について記載する。
【0099】
いくつかの実施形態において、本開示は、変異体解釈および優先順位決定における利用のために最良のエビデンスデータセットを選択するこれらの評価指標に基づいて、エビデンスデータセットと本明細書に記載された機能スコアおよび機能分類との間の一致を査定するための、評価指標を算出するためのシステムおよび方法について記載する。当業者には理解される通り、エビデンスデータセットの本明細書に記載された機能スコアまたは機能分類に対する一致を査定するために様々な評価指標が利用され得る定量的エビデンス(例えば、スコア)に関して、当業者には理解される通り、これらは、ピアソンの相関係数、スピアマンの順位相関、ケンドールの相関、および様々な他のものを含んでもよい。定性的エビデンス(例えば、分類)に関して、これらは、当業者には理解される通り、精度、マシューの相関係数、コーエンのカッパ係数、ヨーデンの指標(例えば、理解度)、F値(例えば、F1 スコア)、真陽性率(例えば、感度または再現率)、真陰性率(例えば、特異性)、陽性的中率(例えば、精密さ)、陰性的中率、陽性尤度比、陰性尤度比、and 診断オッズ比、および様々な他のものを含んでもよい。
【0100】
いくつかの実施形態において、本開示は、上述の評価指標に基づいて、多様なエビデンスデータセットを継続的に評価し、検証し、最適化し(例えば、選択し、除去し、または修正し)、また、対象の生体試料またはその記録内で識別された分子変異体の表現型影響(例えば、病原性、機能性、または比較効果)を判定する変異体解釈および優先順位決定慣行における利用のためのプログラムインターフェース(API)の応用を介して、最良の(例えば、独立した)エビデンスデータセットをクライアントシステムに分布させてもよいシステムおよび方法について記載する。
【0101】
いくつかの実施形態において、本開示は、算出予測因子(例えば、M-CAP、REVEL、SIFT、PolyPhen2、およびPON-P2)などの、しかしそれに限定されない、分子変異体の解釈のための、臨床データセット(例えば、ClinVar、HumVar、VariBench、SwissVar、PhenCode、または遺伝子座特異データベース)、集団データセット(例えば、ExAC、GnomAD、および1000のゲノム)、または独立したエビデンスデータセットを含む変異体のデータセット内に存在する検証バイアス、報告バイアス、または結果バイアスの度合いを判定するためのシステムおよび方法について記載する。いくつかの実施形態において、本開示は、分子変異体および残差に関連付けられた本明細書に記載された機能スコア、機能分類、および分子シグナルの予期された分布に基づいて、バイアスを判定するためのシステムおよび方法について記載する。
【0102】
いくつかの実施形態において、本開示は、参照データセットからの分子変異体の機能スコア、機能分類、および分子シグナルの予期された分布に対する目標データセット内の分子変異体および残差の機能スコア、機能分類、および分子シグナルの分布間の差異の測定およびスコアリングによる目標変異体データセットの評価のためのシステムおよび方法について記載する。いくつかの実施形態において、目標変異体データセット内の固有のバイアスの測定は、以下を含むがそれに限定されない一連のステップを含んでもよい。(1)目標および参照データセットにおける分子変異体に関連付けられた機能スコア、機能分類、および分子シグナルの収集、(2)参照データセット内の分子変異体に関連付けられた機能スコア、機能分類、または分子シグナルの確率密度機能の推定、(3)目標データセット内の分子変異体に関連付けられた機能スコア、機能分類、または分子シグナルの確率密度機能の推定、および(4)機能スコア、機能分類、または分子シグナルの目標データセットより導出された確率密度機能と参照データセットより導出された確率密度機能との間の統計学的距離の測定。いくつかの実施形態において、目標変異体データセット内の固有のバイアスの測定は、以下を含む一連のステップを含む。(5)(例えば、目標データセットの試料集団規模をマッチングさせるための)参照データセットからの変異体のサンプリング、(6)ステップ5においてサンプリングされた参照データセット機能スコア、機能分類、または分子シグナルの確率密度機能の推定、(7)機能スコア、機能分類、または分子シグナルの目標データセットより導出された確率密度機能とサンプリングされた参照データセットより導出された確率密度機能との間の統計学的距離の測定、(8)目標および参照データセットの機能スコア、機能分類、または分子シグナルの確率密度機能間の統計学的距離の強固な推定値および信頼区間を取得するためのステップ5~8の反復。いくつかの実施形態において、バイアスの検出および統計学的評価のための上述のシステムおよび方法は、含まれる変異体が、参照データセットにおいて予期されたものとは異なる機能スコア、機能分類、または分子シグナルを有する、臨床データセット、集団データセット、またはエビデンスデータセットの識別を可能にする。
【0103】
いくつかの他の実施形態において、本開示は、以下含むがそれに限定されない一連のステップによってエビデンスデータセット内に内在するバイアスを評価するためのシステムおよび方法について記載する。(1)エビデンスおよび参照データセットの、分位のマッチング集合(例えば、定量的エビデンススコアのための)またはクラス(例えば、定性的エビデンス分類)への区分、(2)複数のプロパティ(例えば、変異体に関連付けられた、進化的、集団、機能(例えば、アノテーションベースの)、構造的、動的、かつ物理化学的特徴)に渡る各集合内の変異体のスコアリング(例えば、エビデンス対参照)、(3)各集合内の各プロパティスコアの確率密度機能の推定(例えば、エビデンス対参照)、(4)各プロパティスコアのエビデンス集合により導出された確率密度機能と参照集合により導出された確率密度機能との間の統計学的距離の測定、および、(5)参照およびエビデンス集合間のスコアにおいて統計学的に大きな差異を有するプロパティの識別。
【0104】
いくつかの実施形態において、本開示は、上述のバイアス指標に基づいて多様なエビデンスデータセットを継続的に評価し、選択し、また、対象の生体試料またはその記録内で識別された分子変異体の表現型影響(例えば、病原性、機能性、または比較効果)を判定する変異体解釈および優先順位決定慣行における利用のためのプログラムインターフェース(API)の応用を介して、最も偏りのない(例えば、独立した)エビデンスデータセットをクライアントシステムに分布させてもよいシステムおよび方法について記載する。
【0105】
いくつかの実施形態において、本開示は、既知のがんドライバー(例えば、表2)である、メンデル遺伝病(例えば、表1)に関連付けられた機能要素(例えば、遺伝子)およびパスウェイ、遺伝子型(例えば、配列)変化が薬物反応の変化(表3)、または他の臨床的に価値のある遺伝子(例えば、表4)に関連付けられた薬理ゲノム遺伝子における、本明細書に記載された機能スコア、機能分類、予測因子スコア、予測因子分類、ホットスポットスコア、およびホットスポット分類に基づいて、対象の生体試料または記録内で識別された分子変異体表現型影響(例えば、病原性、機能性、または比較効果)を判定するためのシステムおよび方法について記載する。
【0106】
いくつかの実施形態において、本開示は、既知のがんドライバー(例えば、表2)であるメンデル遺伝病(例えば、表1)に関連付けられた機能要素(例えば、遺伝子)およびパスウェイ、遺伝子型(例えば、配列)変化が薬物反応の変化(例えば、表3)、または他の臨床的に価値のある遺伝子(例えば、表4)に関連付けられた薬理ゲノム遺伝子における変異体の解釈および優先順位決定のための、本明細書に記載された機能スコアおよび分類に基づいて、最良の、かつ最も偏りのないと判定される独立したエビデンスを評価し、選択し、分布させ、また、利用するためのシステムおよび方法について記載する。
【0107】
上述の通り、表1は、いくつかの実施形態による、メンデル遺伝病に関連付けられた、機能要素およびパスウェイの例示的な表である。表2は、いくつかの実施形態による、既知のがんドライバーである機能要素およびパスウェイの例示的な表である。表3は、いくつかの実施形態による、遺伝子型(例えば、配列)変化が薬物反応の変化に関連付けられた、薬理ゲノム遺伝子の例示的な表である。表4は、いくつかの実施形態による、他の臨床的に価値のある遺伝子の例示的な表である。表1~4は、本明細書内の47ページ上に見られてもよい。
【0108】
いくつかの実施形態において、本開示は、変異ホットスポットを含む(がそれに限定されない)、または、例えば、50、100、500、および1,000塩基対(bp)のこのようなホットスポット内の変異体に関する、病原変化の既知の目標内の変異体の本明細書に記載された、有効な機能スコア、機能分類、予測因子スコア、予測因子分類に基づいて、対象の生体試料または記録内で識別された分子変異体の表現型影響(例えば、病原性、機能性、または比較効果)を判定するためのシステムおよび方法について記載する。いくつかの実施形態において、本開示は、集団の制約された変化の領域内の変異体の、または、例えば、50、100、500、および1,000bpのこのような領域の内の変異体に関する、機能スコア、機能分類、予測因子スコア、または予測因子分類に基づいて、対象の生体試料または記録内で識別された分子変異体の表現型影響(例えば、病原性、機能性、または比較効果)を判定するためのシステムおよび方法について記載する。当業者には理解される通り、変異ホットスポットおよび制約された変化の領域を判定するための様々な方法が応用され得る。
【0109】
様々な実施形態が、例えば、
図19に示されるコンピュータシステム1900などの1つ以上のコンピュータシステムを利用して、実施され得る。例えば、
図1A、6~13、および15~18の方法を実行するために、コンピュータシステム1900が利用され得る。コンピュータシステム1900は、本明細書に記載する機能を実行可能である、任意のコンピュータであり得る。
【0110】
コンピュータシステム1900は、本明細書に記載する機能を実行可能である、任意のよく知られたコンピュータであり得る。
【0111】
コンピュータシステム1900は、プロセッサ1904などの1つ以上のプロセッサ(中央処理装置、またはCPUとも称される)を含む。プロセッサ1904は、通信インフラストラクチャまたはバス1906に接続される。
【0112】
1つ以上のプロセッサ1904はそれぞれ、グラフィック処理装置(GPU)であってもよい。一実施形態において、GPUは、数学的に集中した応用を処理するように設計された専用電子回路であるプロセッサである。GPUは、コンピュータグラフィックの応用、画像、動画などに共通の数学的に集中したデータなどの大きなブロックのデータの並列処理に有効な並列構造を有してもよい。
【0113】
コンピュータシステム1900はまた、ユーザ入力/出力インターフェース(複数可)1902を通じて通信インフラストラクチャ1906と通信するモニタ、キーボード、ポインティングデバイスなどのユーザ入力/出力装置(複数可)1903を含む。
【0114】
コンピュータシステム1900はまた、ランダムアクセスメモリ(RAM)などのメインまたはプライマリメモリ1908を含む。メインメモリ1908は、1つ以上のレベルのキャッシュを含んでもよい。メインメモリ1908は、制御ロジック(例えば、コンピュータソフトウェア)および/またはデータを格納する。
【0115】
コンピュータシステム1900はまた、1つ以上の二次ストレージデバイスまたはメモリ1910を含んでもよい。二次メモリ1910は、例えば、ローカル、ネットワーク、またはクラウドアクセス可能なハードディスクドライブ1912および/またはリムーバブルストレージまたはドライブ1914を含んでもよい。リムーバブルストレージドライブ1914は、フロッピー(登録商標)ディスクドライブ、磁気テープドライブ、コンパクトディスクドライブ、光学ストレージ、テープバックアップデバイス、および/または任意の他のストレージデバイス/ドライブであってもよい。
【0116】
リムーバブルストレージドライブ1914は、リムーバブルストレージユニット1918と対話してもよい。
リムーバブルストレージユニット1918は、コンピュータソフトウェア(制御ロジック)および/またはデータを格納するコンピュータ使用可能または可読ストレージを含む。リムーバブルストレージユニット1918は、フロッピー(登録商標)ディスク、磁気テープ、コンパクトディスク、DVD、光学ストレージディスク、および/または任意の他のコンピュータ データストレージであってもよい。リムーバブルストレージドライブ1914は、よく知られた方法で、リムーバブルストレージユニット1918から読み取り、かつ/またはそれに書き出す。
【0117】
例示的な実施形態による、二次メモリ1910は、コンピュータプログラムおよび/または他の命令および/またはデータが、コンピュータシステム1900によってアクセスされることを可能にする、他の手段、手法または他のアプローチを含んでもよい。このような手段、手法または他のアプローチは例えば、リムーバブルストレージユニット1922およびインターフェース1920を含んでもよい。リムーバブルストレージユニット1922およびインターフェース1920の例は、(ビデオゲームデバイスなどにみられる)プログラムカートリッジおよびカートリッジインターフェース、(EPROMまたはPROMなどの)リムーバブルメモリチップおよび関連付けられたソケット、メモリスティックおよびUSBポート、メモリカードおよび関連付けられたメモリカードスロット、および/または任意の他のリムーバブルストレージユニットおよび関連付けられたインターフェースを含んでもよい。
【0118】
コンピュータシステム1900はさらに、a通信またはネットワークインターフェース1924を含んでもよい。通信インターフェース1924は、コンピュータシステム1900がリモートデバイス、リモートネットワーク、リモートエンティティなど(個別に、また、全体として、参照番号1928によって参照される)の任意の組み合わせと通信し、対話することを可能にする。例えば、通信インターフェース1924は、有線および/または無線であってもよく、インターネットなどの任意の組み合わせを含んでもよい通信パス1926を介して、コンピュータシステム1900が、リモートデバイス1928と通信することを可能にしてもよく、LAN、WAN、インターネットなどの任意の組み合わせが含まれる場合がある。制御ロジックおよび/またはデータは、通信パス1926を介して、コンピュータシステム1900から、また、それへと送信されてもよい。
【0119】
一実施形態において、制御ロジック(ソフトウェア)を格納する有形コンピュータ使用可能または可読媒体を含む有形機器または製品はまた、本明細書において、コンピュータプログラム製品またはプログラムストレージデバイスと称される。これは、コンピュータシステム1900、メインメモリ1908、二次メモリ1910、およびリムーバブルストレージユニット1918および1922、ならびに、上述の任意の組み合わせを具現化する有形製品を含むが、それに限定されない。このような制御ロジックは、1つ以上のデータ処理装置(などのコンピュータシステム1900)による実行時に、このようなデータ処理装置に、上述の動作を行わせる。
【0120】
本開示に含まれる教示に基づいて、
図12に示される以外のデータ処理装置、コンピュータシステムおよび/またはコンピュータアーキテクチャを利用した、本開示の実施形態の作成および利用方法が当業者(複数可)には明らかである。特に、実施形態は、本明細書に記載する以外のソフトウェア、ハードウェア、および/またはオペレーティングシステムの実装によって動作し得る。
【0121】
(発明を実施するための形態)セクションはクレームを解釈するために利用されることを意図されているが、そして他のセクションはいずれも、そうではないことが理解されよう。他のセクションは、発明者(複数可)が考えるような、1つ以上の、しかしすべてではない例示的な実施形態について記載し得るが、本開示または添付のクレームをいかなる方法でも限定することを意図されない。
【0122】
本開示は、例示的な分野および応用に関する例示的な実施形態について記載するが、本開示はそれに限定されないことが理解されるべきである。他の実施形態およびその修正例は、可能であり、本開示の範囲および趣旨に収まる。例えば、本パラグラフの一般性を限定することなく、実施形態は、図面に示され、かつ/または本明細書に記載するソフトウェア、ハードウェア、ファームウェア、および/またはエンティティに限定されない。さらに、実施形態(本明細書に明示的に記載されるか、されない)は、本明細書に記載の例を超える分野および応用への、大きな実用性を有する。
【0123】
本明細書において、特定の機能およびその関係の実行を示す機能構成ブロックによって、実施形態が説明されている。本明細書において、説明の便宜上、これらの機能構成ブロックの境界が恣意的に定義されている。特定の機能および関係(またはその等価物)が適切に実行される限りで、代替的な境界が定義され得る。また、代替的な実施形態が、本明細書の記載とは異なる順番などを利用して、機能ブロック、ステップ、動作、方法を実行し得る。
【0124】
本明細書における「一実施形態」「一実施形態」、「例示的な実施形態」、または同様の句への言及は、本明細書に記載の実施形態が、特定の特徴、構造、または特徴を含み得るが、すべての実施形態が必ずしも特定の特徴、構造、または特徴を含み得るわけではないことを示す。また、このような句は必ずしも同じ実施形態を指すわけではない。さらに、一実施形態に関連して特定の特徴、構造、または特徴について記載する場合、このような特徴、構造、または特徴を、本明細書に明示的に記載されている、あるいはされていない他の実施形態に組み込むことは、当業者(複数可)の知識の範囲内である。さらに、「結合された」また、「接続された」という表現を、その派生語と合わせて使用して、いくつかの実施形態について記載し得る。これらの用語は、必ずしも互いの同義語であることを意図されない。例えば、2つ以上の要素が互いに直接物理的または電気的接触を持っていることを示すために、「結合された」および/または「接続された」という表現を使用して、いくつかの実施形態について記載し得る。しかし、「結合された」の語はまた、2つ以上の要素が2つ以上の要素が互いに直接接触していないが、なお、互いに協働するか、対話することを意味し得る。
【0125】
本開示の広さおよび範囲は、上述の例示的な実施形態のいずれによっても限定されるべきではないが、以下のクレームおよびその等価物によって定義されるべきである。
【表1-1】
【表1-2】
【表2-1】
【表2-2】
【表2-3】
【表2-4】
【表2-5】
【表2-6】
【表2-7】
【表2-8】
【表2-9】
【表2-10】
【表2-11】
【表2-12】
【表2-13】
【表2-14】
【表3-1】
【表3-2】
【表3-3】
【表3-4】
【表3-5】
【表3-6】
【表3-7】
【表3-8】
【表3-9】
【表3-10】
【表3-11】
【表3-12】
【表3-13】
【表3-14】
【表3-15】
【表3-16】
【表3-17】
【表3-18】
【表3-19】
【表3-20】
【表3-21】
【表3-22】
【表3-23】
【表3-24】
【表3-25】
【表3-26】
【表3-27】
【表3-28】
【表4-1】
【表4-2】
【表4-3】
【表4-4】
【表4-5】
【表4-6】
【表4-7】
【表4-8】
【表4-9】
【表4-10】
【表4-11】
【表4-12】
【表4-13】
【表4-14】
【表4-15】
【表4-16】
【表4-17】
【表4-18】
【表4-19】
【表4-20】
【表4-21】
【表4-22】
【表4-23】
【表4-24】
【表4-25】
【表4-26】
【表4-27】
【表4-28】
【表4-29】
【表4-30】
【表4-31】
【表4-32】
【表4-33】
【表4-34】
【表4-35】
【表4-36】
【表4-37】
参考文献
Aoki et al.,”The RAS/MAPKSyndromes:Novel Roles of the RAS Pathway in Human Genetic Disorders,”Human Mutation,2008.
KARCZEWSKI et al.,”Analysis of protein-coding genetic variation in 60,706 humans,”Nature,2016.
LANDRUM et al.,”ClinVar: public archive of interpretations of clinically relevant variants,”Nucleic Acids Res.,2015.
MAXWELL et al.,”Evaluation of ACMG-Guideline-Based Variant Classification of Cancer Susceptibility and Non-Cancer-Associated Genes in Families Affected by Breast Cancer,”Am.J.Hum.Genet.,2016.
MYERS et al.,”The lipid phosphatase activity of PTEN is critical for its tumor supressor function,”Proc.Natl.Acad.Sci.U.S.A.,1998.
MYERS et al.,”P-TEN,the tumor suppressor from human chromosome 10q23,is a dual-specificity phosphatase,”Proc.Natl.Acad.Sci.U.S.A.,1997.
HE et al.,”Cowden syndrome-related mutations in PTEN associate with enhanced proteasome activity,”Cancer Res.,2013.
HEIKKINEN et al.,”Variants on the promoter region of PTEN affect breast cancer progression and patient survival,”Breast Cancer Res.,2011.
JOHNSTON et al.,”Conformational stability and catalytic activity of PTEN variants linked to cancers and autism spectrum disorders,”Biochemistry,2015.
MARKKANEN et al.,”DNA Damage and Repair in Schizophrenia and Autism:Implications for Cancer Comorbidity and Beyond,”Int.J.Mol.Sci.,2016.
SCHARNER et al.,”Genotype-phenotype correlations in laminopathies: how does fate translate?,”Biochem.Soc.Trans.,2010.
ARAYA et al.,”Deep mutational scanning: assessing protein function on a massive scale,”Trends Biotechnol.,2011.
SHENDURE et al.,”Massively Parallel Genetics,”Genetics,2016.
KELSIC et al.,”RNA Structural Determinants of Optimal Codons Revealed by MAGE-Seq,”Cell Syst,2016.
PATWARDHAN et al.,”High-resolution analysis of DNA regulatory elements by synthetic saturation mutagenesis,”Nat.Biotechnol.,2009.
BUENROSTRO et al.,”Quantitative analysis of RNA-protein interactions on a massively parallel array reveals biophysical and evolutionary landscapes,”Nat.Biotechnol.,2014.
GUENTHER et al.,”Hidden specificity in an apparently nonspecific RNA-binding protein,”Nature,2013.
ARAYA et al.,”A fundamental protein property,thermodynamic stability,revealed solely from large-scale measurements of protein function,”Proc.Natl.Acad.Sci.U.S.A.,2012.
FOWLER et al.,”High-resolution mapping of protein sequence-function relationships,”Nat.Methods,2010.
MAJITHIA et al.,”Prospective functional classification of all possible missense variants in PPARG,”Nat.Genet.,2016.
STARITA et al.,”Massively Parallel Functional Analysis of BRCA1 RING Domain Variants,”Genetics,2015.
BUENROSTRO et al.,”Single-cell chromatin accessibility reveals principles of regulatory variation,”Nature,2015.
CUSANOVICH et al.,”Multiplex single-cell profiling of chromatin accessibility by combinatorial cellular indexing,”Science,2015.
CAO et al.,”Comprehensive single cell transcriptional profiling of a multicellular organism by combinatorial indexing,”bioRxiv,2017.
ZHENG et al.,”Massively parallel digital transcriptional profiling of single cells,”Nat.Commun.,2017.
DATLINGER et al.,”Pooled CRISPR screening with single-cell transcriptome readout,”Nat.Methods,2017.
JAITIN et al.,”Dissecting Immune Circuits by Linking CRISPR-Pooled Screens with Single-Cell RNA-Seq,”Cell,2016.
ADAMSON et al.,”A Multiplexed Single-Cell CRISPR Screening Platform Enables Systematic Dissection of the Unfolded Protein Response,”Cell,2016.
DIXIT et al.,”Perturb-Seq:Dissecting Molecular Circuits with Scalable Single-Cell RNA Profiling of Pooled Genetic Screens,”Cell,2016.
MACOSKO et al.,”Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets,”Cell,2015.
GAWAD et al.,”Single-cell genome sequencing: current state of the science,”Nat.Rev.Genet.,2016.
TANAY et al.,”Scaling single-cell genomics from phenomenology to mechanism,”Nature,2017.
SCHWARTZMAN et al.,”Single-cell epigenomics: techniques and emerging applications,”Nat.Rev.Genet.,2015.
BUZDIN et al.,”The OncoFinder algorithm for minimizing the errors introduced by the high-throughput methods of transcriptome analysis,”Front Mol Biosci,2014.
MACOSKO et al.,”Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets,”Cell,2015.
WHITFIELD et al.,”Identification of genes periodically expressed in the human cell cycle and their expression in tumors,”Mol.Biol.Cell,2002.
PAN et al.,”Using input dependent weights for model combination and model selection with multiple sources of data,”Stat.Sin.,2006.
EFRON et al.,”Improvements on Cross-Validation:The 632+ Bootstrap Method,”J.Am.Stat.Assoc.,1997.
EFRON,”How Biased is the Apparent Error Rate of a Prediction Rule?,”J.Am.Stat.Assoc.,1986.
EFRON,”Estimating the Error Rate of a Prediction Rule:Improvement on Cross-Validation,”J.Am.Stat.Assoc.,1983.
SHEN et al.,”Adaptive Model Selection and Assessment for Exponential Family Distributions,”Technometrics,2004.
SHEN et al.,”Adaptive Model Selection,”J.Am.Stat.Assoc.,2002.
GEORGE et al.,”Calibration and Empirical Bayes Variable Selection,”Biometrika,2000.
RIPLEY et al.,”Pattern Recognition and Neural Networks,”Cambridge University Press,2008.
HASTIE et al.,”The Elements of Statistical Learning.Data Mining,Inference,and Prediction,”Springer,2001.
BURNHAM et al.,”Model Selection and Multimodel Inference:A Practical Information- Theoretic Approach,”Springer,2003.
YUVAL,”Bootstrapping with Noise:An Effective Regularization Technique,”Connection Science,1996.
AMENDOLA et al.,”Performance of ACMG-AMP Variant-Interpretation Guidelines among Nine Laboratories in the Clinical Sequencing Exploratory Research Consortium,”Am.J.Hum.Genet.,2016.
BERGER,et al.,”High-throughput Phenotyping of Lung Cancer Somatic Mutations,”Cancer Cell,2016 30(2);pp.214-228.
MACOSKO,et al.,”Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets,”Cell,2015 161(5);pp.1202-1214.
STARITA et al.,”Deep Mutational Scanning:A Highly Parallel Method to Measure the Effects of Mutation on Protein Function,”Cold Spring Harb Protoc,2015(8);pp.711-714.
SHENDURE et al.,”A framework for determining the relative effect of genetic variants,”U.S.Patent Application No.15/023,355,filed March 18,2016.
REGEV et al.,”A droplet-based method and apparatus for composite single-cell nucleic acid analysis,”International Patent Publication No.WO 2016/040476,published March 17,2016.
KALIA SS,et al.,”Recommendations for reporting of secondary findings in clinical exome and genome sequencing,2016 update (ACMG SF v2.0): a policy statement of the American College of Medical Genetics and Genomics,”Genet Med.,2016.
FUTREAL AP,et al.,”A census of human cancer genes,”Nat Rev Cancer,2004 4(3);pp.177-183.
LAWRENCE MS,et al.,”Discovery and saturation analysis of cancer genes across 21 tumour types,”Nature,2014 505(7484);pp.495-501.
WHIRL-CARRILLO et al.,”Pharmacogenomics knowledge for personalized medicine,”Clin Pharmacol Ther,2012 92(4);pp.414-417.
RUBINSTEIN et al.,”The NIH genetic testing registry: a new,centralized database of genetic tests to enable access to comprehensive information and improve transparency,”Nucleic Acids Res,2013 4;pp.D925-35.
SAMOCHA KE,et al.(2017)“Regional missense constraint improves variant deleteriousness prediction,”bioRxiv:148353.
Kitzman,J.O.,Starita,L.M.,Lo,R.S.,Fields,S.& Shendure,J.Massively parallel single-amino-acid mutagenesis.Nat.Methods 12,203-206 (2015).
Findlay,G.M.,Boyle,E.a.,Hause,R.J.,Klein,J.C.,and Shendure,J.(2014).Saturation editing of genomic regions by multiplex homology-directed repair.Nature 513,1-2.
Firnberg,E.& Ostermeier,M.PFunkel:Efficient,Expansive,User-Defined Mutagenesis.PLoS One 7,1-10 (2012).
Wrenbeck,E.E.et al.Plasmid-based one-pot saturation mutagenesis.Nat.Methods 13,928-930 (2016).
Wissink,E.M.,Fogarty,E.A.& Grimson,A.High-throughput discovery of post-transcriptional cis-regulatory elements.BMC Genomics 17,1-14 (2016).
Araya et al.2016,U.S.Patent Application 20160378915A1.