IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラッグシップ・パイオニアリング・イノベーションズ・ブイアイ,エルエルシーの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-10-11
(54)【発明の名称】機械学習支援ポリペプチド設計
(51)【国際特許分類】
   G16B 40/20 20190101AFI20221003BHJP
   G06N 20/00 20190101ALI20221003BHJP
   G06N 3/08 20060101ALI20221003BHJP
【FI】
G16B40/20
G06N20/00
G06N3/08
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022506604
(86)(22)【出願日】2020-07-31
(85)【翻訳文提出日】2022-03-30
(86)【国際出願番号】 US2020044646
(87)【国際公開番号】W WO2021026037
(87)【国際公開日】2021-02-11
(31)【優先権主張番号】62/882,150
(32)【優先日】2019-08-02
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/882,159
(32)【優先日】2019-08-02
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.FRAM
(71)【出願人】
【識別番号】521353768
【氏名又は名称】フラッグシップ・パイオニアリング・イノベーションズ・ブイアイ,エルエルシー
【氏名又は名称原語表記】FLAGSHIP PIONEERING INNOVATIONS VI,LLC
(74)【代理人】
【識別番号】100087941
【弁理士】
【氏名又は名称】杉本 修司
(74)【代理人】
【識別番号】100112829
【弁理士】
【氏名又は名称】堤 健郎
(74)【代理人】
【識別番号】100142608
【弁理士】
【氏名又は名称】小林 由佳
(74)【代理人】
【識別番号】100155963
【弁理士】
【氏名又は名称】金子 大輔
(74)【代理人】
【識別番号】100154771
【弁理士】
【氏名又は名称】中田 健一
(74)【代理人】
【識別番号】100150566
【弁理士】
【氏名又は名称】谷口 洋樹
(74)【代理人】
【識別番号】100213470
【弁理士】
【氏名又は名称】中尾 真二
(74)【代理人】
【識別番号】100220489
【弁理士】
【氏名又は名称】笹沼 崇
(72)【発明者】
【氏名】フィーラ・ジェイコブ・ディー.
(72)【発明者】
【氏名】ビーム・アンドリュー・レーン
(72)【発明者】
【氏名】ギブソン・モリー・クリサン
(72)【発明者】
【氏名】カブラル・バーナード・ジョセフ
(57)【要約】
特定のタンパク質機能又は性質を有するように構成されたアミノ酸配列を操作するシステム、装置、ソフトウェア、及び方法。機械学習が、入力シード配列を処理し、所望の機能又は性質を有する最適化された配列を出力として生成する方法によって実施される。
【選択図】図4
【特許請求の範囲】
【請求項1】
機能によって査定される改良された生体高分子配列を操作する方法であって、
(a)生体高分子配列の機能を予測する教師ありモデルと、デコーダネットワークとを備えたシステムに埋め込みにおける開始点を提供することであって、教師ありモデルネットワークは、前記機能を表す機能空間に生体高分子配列の前記埋め込みを提供するエンコーダネットワークを備え、前記デコーダネットワークは、前記機能空間における生体高分子配列の埋め込みを所与として、確率的生体高分子配列を提供するようにトレーニングされる、提供することと、
(b)ステップサイズに従って前記開始点における前記埋め込みに関連した前記機能の変化を計算することであって、前記計算された変化は、前記機能空間における第1の更新点を提供できるようにする、計算することと、
(c)前記機能空間における前記第1の更新点における特定の閾値内の所望の機能レベルに達すると、前記第1の更新点を提供することと、
(d)デコーダから改良された確率的生体高分子配列を取得することと、
を含む方法。
【請求項2】
前記開始点は、シード生体高分子配列の前記埋め込みである、請求項1に記載の方法。
【請求項3】
前記機能空間における前記第1の更新点における前記埋め込みに関して前記機能の第2の変化を計算することと、
更なる更新点における前記埋め込みに関して前記機能の前記第2の変化を計算するプロセスを繰り返すことと、
を更に含む、請求項1又は2に記載の方法。
【請求項4】
前記第1の更新点を提供することは、任意選択的に繰り返される更なる更新点における特定の閾値内の前記機能の所望のレベルに達した場合、実行することができ、前記更なる更新点を提供することは、前記繰り返された更なる更新点を前記デコーダネットワークに提供することを含む、請求項3に記載の方法。
【請求項5】
前記埋め込みは、前記機能を表し、1つ又は複数の勾配を有する連続微分可能な機能空間である、請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記埋め込みに関する前記機能の前記変化を計算することは、前記埋め込みに関する前記機能の導関数をとることを含む、請求項1~5のいずれか一項に記載の方法。
【請求項7】
前記機能は2つ以上の構成要素機能の複合機能である、請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記複合機能は、前記2つ以上の複合機能の加重和である、請求項7に記載の方法。
【請求項9】
前記埋め込みにおける2つ以上の開始点は同時に使用される、請求項1~8のいずれか一項に記載の方法。
【請求項10】
残基同一性の確率分布を含む確率的配列における残基間の相関が、既に生成された前記配列の部分を考慮に入れる条件付き確率を使用したサンプリングプロセスで考慮される、請求項1~9のいずれか一項に記載の方法。
【請求項11】
残基同一性の確率分布を含む確率的生体高分子配列から最大尤度改良済み生体高分子配列を選択することを更に含む、請求項1~10のいずれか一項に記載の方法。
【請求項12】
残基同一性の確率分布を含む確率的生体高分子配列の各残基における周辺分布をサンプリングすることを含む、請求項1~11のいずれか一項に記載の方法。
【請求項13】
前記埋め込みに関する前記機能の前記変化は、エンコーダに関する前記機能の前記変化、次いで前記デコーダの前記変化への前記エンコーダの前記変化、及び前記埋め込みに関する前記デコーダの前記変化を計算することによって計算される、請求項1~12のいずれか一項に記載の方法。
【請求項14】
前記機能空間における前記第1の更新点又は前記機能空間における更なる更新点を前記デコーダネットワークに提供することであって、それにより、中間確率的生体高分子配列を提供する、提供することと、
前記中間確率的生体高分子配列を前記教師ありモデルネットワークに提供することであって、それにより、前記中間確率的生体高分子配列の前記機能を予測する、提供することと、
前記中間確率的生体高分子の前記埋め込みに関する前記機能の前記変化を計算することであって、それにより、前記機能空間における更なる更新点を提供する、計算することと、
を含む、請求項1~13のいずれか一項に記載の方法。
【請求項15】
機能によって査定される改良された生体高分子配列を操作する方法であって、
(a)生体高分子配列の前記機能を予測する教師ありモデルネットワークと、デコーダネットワークとを備えたシステムに提供される埋め込みにおける開始点の前記機能を予測することであって、前記教師ありモデルネットワークは、前記機能を表す機能空間に生体高分子配列の前記埋め込みを提供するエンコーダネットワークを備え、前記デコーダネットワークは、前記機能空間における前記予測された生体高分子配列の埋め込みを所与として、予測された確率的生体高分子配列を提供するようにトレーニングされる、提供することと、
(b)ステップサイズに従って前記開始点における前記埋め込みに関連した前記機能の変化を計算することであって、前記計算された変化は、前記機能空間における第1の更新点を提供できるようにする、計算することと、
(c)前記機能空間における前記第1の更新点に基づいて、前記デコーダネットワークにおいて第1の中間確率的生体高分子配列を計算することと、
(d)教師ありモデルにおいて、前記第1の中間生体高分子配列に基づいて前記第1の中間確率的生体高分子配列の前記機能を予測することと、
(e)前記機能空間における前記第1の更新点における前記埋め込みに関する前記機能の前記変化を計算することであって、それにより、前記機能空間における更新点を提供する、計算することと、
(f)前記デコーダネットワークにおいて、前記機能空間における前記更新点に基づいて追加の中間確率的生体高分子配列を計算することと、
(g)前記教師ありモデルにおいて、前記追加の中間確率的生体高分子配列に基づいて前記追加の中間確率的生体高分子配列の前記機能を予測することと、
(h)前記機能空間における前記更なる第1の更新点における前記埋め込みに関連する前記機能の前記変化を計算することであって、それにより、前記機能空間における別の更なる更新点を提供し、前記機能空間における前記別の更なる更新点は、ステップ(g)における前記機能空間における前記更なる更新点を置換する、計算することと、
(i)特定の閾値内で前記機能空間における所望の機能レベルに達すると、前記埋め込みにおける前記点に基づいてデコーダから改良された確率的生体高分子配列を取得することと、
を含む方法。
【請求項16】
前記開始点は、シード生体高分子配列の前記埋め込みである、請求項1~15のいずれか一項に記載の方法。
【請求項17】
前記生体高分子はタンパク質である、請求項1~16のいずれか一項に記載の方法。
【請求項18】
前記シード生体高分子配列は、複数の配列の平均である、請求項2~14、16、又は17のいずれか一項に記載の方法。
【請求項19】
前記シード生体高分子配列は、機能を持たず、又は機能の前記所望レベルよりも低い機能レベルを有する、請求項2~14、16、又は17のいずれか一項に記載の方法。
【請求項20】
前記エンコーダは、少なくとも20の生体高分子配列のトレーニングデータセットを使用してトレーニングされる、請求項1~19のいずれか一項に記載の方法。
【請求項21】
前記エンコーダは畳み込みニューラルネットワーク(CNN)又はリカレントニューラルネットワーク(RNN)である、請求項1~20のいずれか一項に記載の方法。
【請求項22】
前記エンコーダはトランスフォーマニューラルネットワークである、請求項1~21のいずれか一項に記載の方法。
【請求項23】
前記エンコーダは、1つ又は複数の畳み込み層、プーリング層、全結合層、正規化層、又はそれらの任意の組合せを含む、請求項1~22のいずれか一項に記載の方法。
【請求項24】
前記エンコーダは深層畳み込みニューラルネットワークである、請求項1~23のいずれか一項に記載の方法。
【請求項25】
前記畳み込みニューラルネットワークは一次元畳み込みニューラルネットワークである、請求項23に記載の方法。
【請求項26】
前記畳み込みニューラルネットワークは二次元以上の畳み込みニューラルネットワークである、請求項23に記載の方法。
【請求項27】
前記畳み込みニューラルネットワークは、VGG16、VGG19、深層ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、又はMobileNetから選択される畳み込みアーキテクチャを有する、請求項23~26のいずれか一項に記載の方法。
【請求項28】
前記エンコーダは少なくとも10の層を含む、請求項1~27のいずれか一項に記載の方法。
【請求項29】
前記エンコーダは、1つ又は複数の層におけるL1-L2正則化、1つ又は複数の層におけるスキップ接続、1つ又は複数の層におけるドロップアウト、又はそれらの組合せを含む正則化法を利用する、請求項1~28のいずれか一項に記載の方法。
【請求項30】
前記正則化はバッチ正規化を使用して実行される、請求項29に記載の方法。
【請求項31】
前記正則化はグループ正規化を使用して実行される、請求項29に記載の方法。
【請求項32】
前記エンコーダは、Adam、RMS prop、モーメント項付き確率的勾配降下法(SGD)、モーメンタム項及びネステロプ項付きSGD、モーメンタム項なしSGD、Adagrad、Adadelta、又はNAdamから選択される手順によって最適化される、請求項1~31のいずれか一項に記載の方法。
【請求項33】
前記エンコーダは転移学習手順を使用してトレーニングされる、請求項1~32のいずれか一項に記載の方法。
【請求項34】
前記転移学習手順は、機能に関してラベリングされていない第1の生体高分子配列トレーニングデータセットを使用して第1のモデルをトレーニングすることと、前記第1のモデルの少なくとも一部分を含む第2のモデルを生成することと、機能に関してラベリングされている第2の生体高分子配列トレーニングデータセットを使用して前記第2のモデルをトレーニングすることであって、それにより、トレーニング済みエンコーダを生成する、トレーニングすることとを含む、請求項32に記載の方法。
【請求項35】
前記デコーダは、少なくとも20の生体高分子配列のトレーニングデータセットを使用してトレーニングされる、請求項1~34のいずれか一項に記載の方法。
【請求項36】
前記デコーダは、畳み込みニューラルネットワーク(CNN)又はリカレントニューラルネットワーク(RNN)である、請求項1~35のいずれか一項に記載の方法。
【請求項37】
前記デコーダはトランスフォーマニューラルネットワークである、請求項1~36のいずれか一項に記載の方法。
【請求項38】
前記デコーダは、1つ又は複数の畳み込み層、プーリング層、全結合層、正規化層、又はそれらの任意の組合せを含む、請求項1~37のいずれか一項に記載の方法。
【請求項39】
前記デコーダは深層畳み込みニューラルネットワークである、請求項1~38のいずれか一項に記載の方法。
【請求項40】
前記畳み込みニューラルネットワークは一次元畳み込みニューラルネットワークである、請求項38に記載の方法。
【請求項41】
前記畳み込みニューラルネットワークは二次元以上の畳み込みニューラルネットワークである、請求項38に記載の方法。
【請求項42】
前記畳み込みニューラルネットワークは、VGG16、VGG19、深層ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、又はMobileNetから選択される畳み込みアーキテクチャを有する、請求項38~41のいずれか一項に記載の方法。
【請求項43】
前記デコーダは少なくとも10の層を含む、請求項1~42のいずれか一項に記載の方法。
【請求項44】
前記デコーダは、1つ又は複数の層におけるL1-L2正則化、1つ又は複数の層におけるスキップ接続、1つ又は複数の層におけるドロップアウト、又はそれらの組合せを含む正則化法を利用する、請求項1~43のいずれか一項に記載の方法。
【請求項45】
前記正則化はバッチ正規化を使用して実行される、請求項43に記載の方法。
【請求項46】
前記正則化はグループ正規化を使用して実行される、請求項43に記載の方法。
【請求項47】
前記デコーダは、Adam、RMS prop、モーメント項付き確率的勾配降下法(SGD)、モーメンタム項及びネステロプ項付きSGD、モーメンタム項なしSGD、Adagrad、Adadelta、又はNAdamから選択される手順によって最適化される、請求項1~46のいずれか一項に記載の方法。
【請求項48】
前記デコーダは転移学習手順を使用してトレーニングされる、請求項1~47のいずれか一項に記載の方法。
【請求項49】
前記転移学習手順は、機能に関してラベリングされていない第1の生体高分子配列トレーニングデータセットを使用して第1のモデルをトレーニングすることと、前記第1のモデルの少なくとも一部分を含む第2のモデルを生成することと、機能に関してラベリングされている第2の生体高分子配列トレーニングデータセットを使用して前記第2のモデルをトレーニングすることであって、それにより、前記トレーニング済みデコーダを生成する、トレーニングすることとを含む、請求項47に記載の方法。
【請求項50】
前記改良された生体高分子配列の前記1つ又は複数の機能は、前記シード生体高分子配列の前記1つ又は複数の機能と比較して改善される、請求項1~49のいずれか一項に記載の方法。
【請求項51】
前記1つ又は複数の機能は、蛍光、酵素活性、ヌクレアーゼ活性、及びタンパク質安定性から選択される、請求項1~50のいずれか一項に記載の方法。
【請求項52】
2つ以上の機能の加重線形結合が前記生体高分子配列の査定に使用される、請求項1~51のいずれか一項に記載の方法。
【請求項53】
指定されたタンパク質機能を有する生体高分子配列を操作するコンピュータ実施方法であって、
(a)エンコーダ法を用いて初期生体高分子配列の埋め込みを生成することと、
(b)最適化法を用いて、1つ又は複数の埋め込みパラメータを調整することにより、前記指定されたタンパク質機能に対応するように前記埋め込みを繰り返し変更することであって、それにより、更新埋め込みを生成する、繰り返し変更することと、
(c)デコーダ法により、前記更新埋め込みを処理して、最終生体高分子配列を生成することと、
を含む方法。
【請求項54】
前記生体高分子配列は一級タンパク質アミノ酸配列を含む、請求項52に記載の方法。
【請求項55】
前記アミノ酸配列は、前記タンパク質機能を生じさせるタンパク質構成を生じさせる、請求項53に記載の方法。
【請求項56】
前記タンパク質機能は蛍光を含む、請求項52~54のいずれか一項に記載の方法。
【請求項57】
前記タンパク質機能は酵素活性を含む、請求項52~54のいずれか一項に記載の方法。
【請求項58】
前記タンパク質機能はヌクレアーゼ活性を含む、請求項52~54のいずれか一項に記載の方法。
【請求項59】
前記タンパク質機能はタンパク質安定性の程度を含む、請求項52~54のいずれか一項に記載の方法。
【請求項60】
前記エンコーダ法は、前記初期生体高分子配列を受け取り、前記埋め込みを生成するように構成される、請求項52~58のいずれか一項に記載の方法。
【請求項61】
前記エンコーダ法は、深層畳み込みニューラルネットワークを含む、請求項59に記載の方法。
【請求項62】
前記畳み込みニューラルネットワークは一次元畳み込みネットワークである、請求項60に記載の方法。
【請求項63】
前記畳み込みニューラルネットワークは二次元以上の畳み込みニューラルネットワークである、請求項60に記載の方法。
【請求項64】
前記畳み込みニューラルネットワークは、VGG16、VGG19、深層ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、又はMobileNetから選択される畳み込みアーキテクチャを有する、請求項60に記載の方法。
【請求項65】
前記エンコーダは少なくとも10の層を含む、請求項52~63のいずれか一項に記載の方法。
【請求項66】
前記エンコーダは、1つ又は複数の層におけるL1-L2正則化、1つ又は複数の層におけるスキップ接続、1つ又は複数の層におけるドロップアウト、又はそれらの組合せを含む正則化法を利用する、請求項52~64のいずれか一項に記載の方法。
【請求項67】
前記正則化はバッチ正規化を使用して実行される、請求項65に記載の方法。
【請求項68】
前記正則化はグループ正規化を使用して実行される、請求項65に記載の方法。
【請求項69】
前記エンコーダは、Adam、RMS prop、モーメント項付き確率的勾配降下法(SGD)、モーメンタム項及びネステロプ項付きSGD、モーメンタム項なしSGD、Adagrad、Adadelta、又はNAdamから選択される手順によって最適化される、請求項1~68のいずれか一項に記載の方法。
【請求項70】
前記デコーダ法は、深層畳み込みニューラルネットワークを含む、請求項52~68のいずれか一項に記載の方法。
【請求項71】
2つ以上の機能の加重線形結合が前記生体高分子配列の査定に使用される、請求項52~69のいずれか一項に記載の方法。
【請求項72】
前記最適化法は、前記連続した微分可能な埋め込み空間内の勾配ベースの降下を使用して前記更新埋め込みを生成する、請求項52~70のいずれか一項に記載の方法。
【請求項73】
前記最適化法は、Adam、RMS Prop、Ada delta、AdamMAX、又はモーメンタム項付きSGDから選択される最適化方式を利用する、請求項52~68のいずれか一項に記載の方法。
【請求項74】
前記最終生体高分子配列は、少なくとも1つの追加のタンパク質機能について更に最適化される、請求項52~72のいずれか一項に記載の方法。
【請求項75】
前記最適化法は、前記タンパク質機能と前記少なくとも1つの追加のタンパク質機能との両方を統合する複合機能に従って前記更新埋め込みを生成する、請求項73に記載の方法。
【請求項76】
前記複合機能は、前記タンパク質機能及び前記少なくとも1つの追加のタンパク質機能に対応する2つ以上の機能の加重線形結合である、請求項74に記載の方法。
【請求項77】
指定されたタンパク質機能を有する生体高分子配列を操作するコンピュータ実施方法であって、
(a)エンコーダ法を用いて初期生体高分子配列の埋め込みを生成することと、
(b)最適化法を用いて、前記指定されたタンパク質機能を達成するように1つ又は複数の埋め込みパラメータを改変することによって前記埋め込みを調整することであって、それにより更新埋め込みを生成する、調整することと、
(c)デコーダ法により、前記更新埋め込みを処理して、最終生体高分子配列を生成することと、
を含む方法。
【請求項78】
プロセッサによって実行されると、前記プロセッサに請求項1~77のいずれか一項に記載の方法を実行させる命令を含む非一時的コンピュータ可読媒体。
【請求項79】
プロセッサによって実行されると、前記プロセッサに、
(a)ステップサイズに従って開始点における埋め込みに関連した機能の変化を計算することであって、前記開始点は、生体高分子配列の前記機能を予測する教師ありモデルと、デコーダネットワークとを備えたシステムに提供され、教師ありモデルネットワークは、前記機能を表す機能空間に生体高分子配列の前記埋め込みを提供するエンコーダネットワークを備え、前記デコーダネットワークは、前記機能空間における生体高分子配列の埋め込みを所与として、確率的生体高分子配列を提供するようにトレーニングされる、計算することと、
(b)前記機能空間における第1の更新点における特定の閾値内の所望の機能レベルに達すると、前記第1の更新点を提供することと、
(c)デコーダから改良された確率的生体高分子配列を取得することと、
を行わせる命令を含む非一時的コンピュータ可読媒体。
【請求項80】
前記開始点は、シード生体高分子配列の前記埋め込みである、請求項79に記載の非一時的コンピュータ可読媒体。
【請求項81】
前記機能空間における前記第1の更新点における前記埋め込みに関して前記機能の第2の変化を計算することと、
更なる更新点における前記埋め込みに関して前記機能の前記第2の変化を計算するプロセスを繰り返すことと、
を更に含む、請求項79又は80に記載の方法。
【請求項82】
前記第1の更新点を提供することは、任意選択的に繰り返される更なる更新点における特定の閾値内の前記機能の所望のレベルに達した場合、実行することができ、前記更なる更新点を提供することは、前記繰り返された更なる更新点を前記デコーダネットワークに提供することを含む、請求項81に記載の方法。
【請求項83】
請求項1~77のいずれか一項に記載の方法を実行するように構成された上記コンピュータ可読媒体と、プロセッサとを備えたシステム。
【請求項84】
プロセッサと、命令を含む非一時的コンピュータ可読媒体とを備えたシステムであって、前記命令は、プロセッサによって実行されると、前記プロセッサに、
(a)ステップサイズに従って開始点における埋め込みに関連した機能の変化を計算することであって、前記埋め込みの前記開始点は、生体高分子配列の前記機能を予測する教師ありモデルと、デコーダネットワークとを備えたシステムに提供され、教師ありモデルネットワークは、前記機能を表す機能空間に生体高分子配列の前記埋め込みを提供するエンコーダネットワークを備え、前記デコーダネットワークは、前記機能空間における生体高分子配列の埋め込みを所与として、確率的生体高分子配列を提供するようにトレーニングされる、計算することと、
(b)前記機能空間における第1の更新点における所望の機能レベルに近づくと、前記第1の更新点を提供することと、
(c)デコーダから改良された確率的生体高分子配列を取得することと、
を行わせる、システム。
【請求項85】
前記開始点は、シード生体高分子配列の前記埋め込みである、請求項84に記載のシステム。
【請求項86】
前記命令は、前記プロセッサによって実行されると、前記プロセッサに、
前記機能空間における前記第1の更新点における前記埋め込みに関して前記機能の第2の変化を計算することと、
更なる更新点における前記埋め込みに関して前記機能の前記第2の変化を計算するプロセスを繰り返すことと、
を更に行わせる、請求項84又は85に記載のシステム。
【請求項87】
前記第1の更新点を提供することは、任意選択的に繰り返される更なる更新点における特定の閾値内の前記機能の所望のレベルに達した場合、実行することができ、前記更なる更新点を提供することは、前記繰り返された更なる更新点を前記デコーダネットワークに提供することを含む、請求項86に記載のシステム。
【請求項88】
プロセッサと、命令を含む非一時的コンピュータ可読媒体とを備えたシステムであって、前記命令は、プロセッサによって実行されると、前記プロセッサに、
(a)生体高分子配列の機能を予測する教師ありモデルネットワークと、デコーダネットワークとを備えたシステムに埋め込みにおける開始点の前記機能を予測することであって、前記教師ありモデルネットワークは、前記機能を表す機能空間に生体高分子配列の前記埋め込みを提供するエンコーダネットワークを備え、前記デコーダネットワークは、前記機能空間における前記予測された生体高分子配列の埋め込みを所与として、予測された確率的生体高分子配列を提供するようにトレーニングされる、予測することと、
(b)ステップサイズに従って前記開始点における前記埋め込みに関連した前記機能の変化を計算することであって、それにより、前記機能空間における第1の更新点を提供できるようにする、計算することと、
(c)前記機能空間における前記第1の更新点に基づいて、前記デコーダネットワークにおいて第1の中間確率的生体高分子配列を計算することと、
(d)教師ありモデルにおいて、前記第1の中間生体高分子配列に基づいて前記第1の中間確率的生体高分子配列の前記機能を予測することと、
(e)前記機能空間における前記第1の更新点における前記埋め込みに関する前記機能の前記変化を計算することであって、それにより、前記機能空間における更新点を提供する、計算することと、
(f)前記デコーダネットワークにおいて、前記機能空間における前記更新点に基づいて追加の中間確率的生体高分子配列を計算することと、
(g)前記教師ありモデルにおいて、前記追加の中間確率的生体高分子配列に基づいて前記追加の中間確率的生体高分子配列の前記機能を予測することと、
(h)前記機能空間における前記更なる第1の更新点における前記埋め込みに関連する前記機能の前記変化を計算することであって、それにより、前記機能空間における別の更なる更新点を提供し、任意選択的にステップ(g)~(i)を繰り返し、ステップ(i)において参照される前記機能空間における別の更なる更新点は、ステップ(g)において前記機能空間における前記更なる更新点として見なされる、計算することと、
(i)前記機能空間における所望の機能レベルに近づくと、前記埋め込みにおける前記点を前記デコーダネットワークに提供し、デコーダから改良された確率的生体高分子配列を取得していることと、
を行わせる、システム。
【請求項89】
命令を含む非一時的コンピュータ可読媒体であって、前記命令は、プロセッサによって実行されると、前記プロセッサに、
(a)埋め込みにおける開始点の機能を予測することであって、前記埋め込みにおける前記開始点は、生体高分子配列の前記機能を予測する教師ありモデルネットワークと、デコーダネットワークとを備えたシステムに提供され、前記教師ありモデルネットワークは、前記機能を表す機能空間に生体高分子配列の前記埋め込みを提供するエンコーダネットワークを備え、前記デコーダネットワークは、前記機能空間における前記予測された生体高分子配列の埋め込みを所与として、予測された確率的生体高分子配列を提供するようにトレーニングされる、予測することと、
(b)ステップサイズに従って前記開始点における前記埋め込みに関連した前記機能の変化を計算することであって、それにより、前記機能空間における第1の更新点を提供できるようにする、計算することと、
(c)前記機能空間における前記第1の更新点に基づいて、前記デコーダネットワークによって第1の中間確率的生体高分子配列を計算することと、
(d)前記教師ありモデルにおいて、前記第1の中間確率的生体高分子配列に基づいて前記第1の中間確率的生体高分子配列の前記機能を予測することと、
(e)前記機能空間における前記第1の更新点における前記埋め込みに関する前記機能の前記変化を計算することであって、それにより、前記機能空間における更新点を提供する、計算することと、
(f)前記デコーダネットワークによって前記機能空間における前記更新点に基づいて追加の中間確率的生体高分子配列を計算することと、
(g)前記教師ありモデルにより、前記追加の確率的生体高分子配列に基づいて前記追加の中間確率的生体高分子配列の前記機能を予測することと、
(h)前記機能空間における前記更なる第1の更新点における前記埋め込みに関連する前記機能の前記変化を計算することであって、それにより、前記機能空間における別の更なる更新点を提供し、前記機能空間における別の更なる更新点は、前記機能空間における前記更なる更新点として見なされる、計算することと、
(i)前記機能空間における所望の機能レベルに近づくと、前記埋め込みにおける前記点を前記デコーダネットワークに提供し、デコーダから改良された確率的生体高分子配列を取得していることと、
を行わせる、非一時的コンピュータ可読媒体。
【請求項90】
請求項1~77のいずれか一項に記載の方法により又は請求項83~88のいずれか一項に記載のシステムを使用して取得可能な改良された生体高分子配列を合成することを含む生体高分子を作製する方法。
【請求項91】
Y39、F64、V68、D129、V163、K166、G191、及びそれらの組合せから選択された部位に置換を含み、配列番号1と比較して増大した蛍光を有する、配列番号1に相対するアミノ酸配列を含む蛍光タンパク質。
【請求項92】
Y39、F64、V68、D129、V163、K166、及びG191の2、3、4、5、6、又は7つ全てにおいて置換を含む、請求項90に記載の蛍光タンパク質。
【請求項93】
配列番号1に相対してS65を含む、請求項90又は91に記載の蛍光タンパク質。
【請求項94】
前記アミノ酸配列は、配列番号1に相対してS65を含む、請求項90~92のいずれか一項に記載の蛍光タンパク質。
【請求項95】
前記アミノ酸配列は、F64及びV68において置換を含む、請求項90~93のいずれか一項に記載の蛍光タンパク質。
【請求項96】
前記アミノ酸配列は、Y39、D129、V163、K166、及びG191の1、2、3、4、又は5つ全てを含む、請求項90~94のいずれか一項に記載の蛍光タンパク質。
【請求項97】
Y39、F64、V68、D129、V163、K166、又はG191における前記置換はそれぞれ、Y39C、F64L、V68M、D129G、V163A、K166R、又はG191Vである、請求項90~95のいずれか一項に記載の蛍光タンパク質。
【請求項98】
配列番号1と少なくとも80、85、90、92、92、93、94、95、96、97、98、99%、又はそれを超えて同一であるアミノ酸配列を含む、請求項90~96のいずれか一項に記載の蛍光タンパク質。
【請求項99】
配列番号1と相対して少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、又は15個の突然変異を含む、請求項90~97のいずれか一項に記載の蛍光タンパク質。
【請求項100】
配列番号1と相対して1、2、3、4、5、6、7、8、9、10、11、12、13、14、又は15個以下の突然変異を含む、請求項90~98のいずれか一項に記載の蛍光タンパク質。
【請求項101】
配列番号1よりも少なくとも約2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、又は50倍高い蛍光強度を有する、請求項90~99のいずれか一項に記載の蛍光タンパク質。
【請求項102】
スーパーフォルダGFP(AIC82357)よりも少なくとも約2、3、4、又は5倍高い蛍光を有する、請求項90~100のいずれか一項に記載の蛍光タンパク質。
【請求項103】
請求項90~101のいずれか一項に記載の蛍光タンパク質を含む融合タンパク質。
【請求項104】
請求項91~102のいずれか一項に記載の蛍光タンパク質又は請求項102に記載の融合タンパク質をコードする配列を含む核酸。
【請求項105】
請求項103に記載の核酸を含むベクター。
【請求項106】
請求項90~102のいずれか一項に記載のタンパク質、請求項103に記載の核酸、又は請求項104に記載のベクターを含む宿主細胞。
【請求項107】
請求項90~101のいずれか一項に記載の蛍光タンパク質又は請求項103に記載の融合タンパク質を検出することを含む視覚化方法。
【請求項108】
前記検出は、前記蛍光タンパク質の放射スペクトルの波長を検出することによる、請求項106に記載の方法。
【請求項109】
前記視覚化は細胞内での視覚化である、請求項106又は107に記載の方法。
【請求項110】
前記細胞はin vitro又はin vivoで単離された生体組織中の細胞である、請求項108に記載の方法。
【請求項111】
ポリペプチドをコードする核酸を含む発現ベクターを細胞に導入することを含む、請求項91~102のいずれか一項に記載の蛍光タンパク質又は請求項103に記載の融合タンパク質を発現する方法。
【請求項112】
前記細胞を培養して、培養された細胞のバッチを成長させ、前記培養された細胞の前記バッチから前記ポリペプチドを精製することを更に含む、請求項110に記載の方法。
【請求項113】
生体細胞又は組織、組織内部のポリペプチドの蛍光信号を検出する方法であって、
(a)請求項90~101のいずれか一項に記載の蛍光タンパク質又は前記蛍光タンパク質をコードする核酸を含む発現ベクターを前記生体細胞又は組織に導入することと、
(b)前記生体細胞又は組織における前記蛍光タンパク質を励起させるのに適した第1の波長の光を向けることと、
(c)前記第1の波長の光の吸収に応答して前記蛍光タンパク質によって放射される第2の波長の光を検出することと、
を含む方法。
【請求項114】
前記第2の波長の光は、蛍光顕微鏡又は蛍光活性化細胞選別(FACS)を使用して検出される、請求項112に記載の方法。
【請求項115】
前記生体細胞又は組織は、原核細胞又は真核細胞である、請求項112に記載の方法。
【請求項116】
前記発現ベクターは、N末端又はC末端上の別の遺伝子と融合した前記ポリペプチドをコードする核酸を含む融合遺伝子を含む、請求項112に記載の方法。
【請求項117】
前記発現ベクターは、構成的活性プロモータ又は誘導発現プロモータである、前記ポリペプチドの発現を制御するプロモータを含む、請求項112に記載の方法。
【請求項118】
請求項1~88のいずれか一項に記載の方法又はシステムで使用される教師ありモデルをトレーニングする方法であって、この教師ありモデルは、生体高分子配列を埋め込み機能空間における表現にマッピングするように構成されたエンコーダネットワークを備え、前記教師ありモデルは、前記表現に基づいて前記生体高分子配列の機能を予測するように構成され、前記方法は、
(a)複数のトレーニング生体高分子配列を提供するステップであって、各トレーニング生体高分子配列は機能でラベリングされる、提供するステップと、
(b)前記エンコーダを使用して、各トレーニング生体高分子配列を前記埋め込み機能空間における表現にマッピングするステップと、
(c)前記教師ありモデルを使用してこれらの表現に基づいて、各トレーニング生体高分子配列の前記機能を予測するステップと、
(d)所定の予測損失関数を使用して、各トレーニング生体高分子配列について、前記予測機能が各トレーニング生体高分子配列の前記ラベルの通りの前記機能と一致する程度を特定するステップと、
(e)更なるトレーニング生体高分子配列が前記教師ありモデルによって処理される場合に生じる前記予測損失関数により、レーティングを改善することを目標として、前記教師ありモデルの挙動を特徴付けるパラメータを最適化するステップと、
を含む方法。
【請求項119】
請求項1~88のいずれか一項に記載の方法又はシステムで使用されるデコーダをトレーニングする方法であって、前記デコーダは、埋め込み機能空間から確率的生体高分子配列に生体高分子配列の表現をマッピングするように構成され、前記方法は、
(a)生体高分子配列の複数の表現を前記埋め込み機能空間に提供するステップと、
(b)前記デコーダを使用して各表現を確率的生体高分子配列にマッピングするステップと、
(c)各確率的生体高分子配列からサンプル生体高分子配列を引き出すステップと、
(d)トレーニング済みエンコーダを使用してこのサンプル生体高分子配列を前記埋め込み機能空間における表現にマッピングするステップと、
(e)所定の再構築損失関数を使用して、そうして特定された各表現が対応する元の表現と一致する程度を特定するステップと、
(f)前記埋め込み機能空間からの生体高分子配列の更なる表現が前記デコーダによって処理される場合に生じる前記再構築損失関数により、レーティングを改善することを目標として、前記デコーダの挙動を特徴付けるパラメータを最適化するステップと、
を含む方法。
【請求項120】
前記エンコーダは、前記デコーダによって生成される前記表現に基づいて前記生体高分子配列の機能を予測するように構成された教師ありモデルの一部であり、前記方法は、
(a)前記トレーニング済みエンコーダを使用してトレーニング生体高分子配列を前記埋め込み機能空間における表現にマッピングすることにより、生体高分子配列の前記複数の表現の少なくとも部分を前記デコーダに提供することと、
(b)前記確率的生体高分子配列から引き出された前記サンプル生体高分子配列について、前記教師ありモデルを使用してこのサンプル生体高分子配列の機能を予測することと、
(c)前記機能を、前記対応する元のトレーニング生体高分子配列について同じ前記教師ありモデルによって予測された機能と比較することと、
(d)所定の一貫性損失関数を使用して、前記サンプル生体高分子配列で予測された前記機能が前記元のトレーニング生体高分子配列で予測された前記機能と一致する程度を特定することと、
(e)トレーニング生体高分子配列から前記エンコーダによって生成された生体高分子配列の更なる表現が前記デコーダによって処理される場合に生じる、前記一貫性損失関数及び/又は前記一貫性損失関数と前記再構築損失関数との所定の組合せにより、前記レーティングを改善することを目標として、前記デコーダの挙動を特徴付けるパラメータを最適化することと、
を更に含む、請求項119に記載の方法。
【請求項121】
教師ありモデル及びデコーダのアンサンブルをトレーニングする方法であって、
前記教師ありモデルは、生体高分子配列を埋め込み機能空間における表現にマッピングするように構成されたエンコーダネットワークを備え、
前記教師ありモデルは、前記表現に基づいて前記生体高分子配列の機能を予測するように構成され、
前記デコーダは、埋め込み機能空間から確率的生体高分子配列に生体高分子配列の表現をマッピングするように構成され、
前記方法は、
(a)複数のトレーニング生体高分子配列を提供するステップであって、各トレーニング生体高分子配列は機能でラベリングされる、提供するステップと、
(b)前記エンコーダを使用して、各トレーニング生体高分子配列を前記埋め込み機能空間における表現にマッピングするステップと、
(c)前記教師ありモデルを使用してこれらの表現に基づいて、各トレーニング生体高分子配列の前記機能を予測するステップと、
(d)前記デコーダを使用して、前記埋め込み機能空間における各表現を確率的生体高分子配列にマッピングするステップと、
(e)前記確率的生体高分子配列からサンプル生体高分子配列を引き出すステップと、
(f)所定の予測損失関数を使用して、各トレーニング生体高分子配列について、前記予測された機能が各トレーニング生体高分子配列の前記ラベルの通りの前記機能と一致する程度を特定するステップと、
(g)所定の再構築損失関数を使用して、各サンプル生体高分子配列について、生成元である元のトレーニング生体高分子配列と一致する程度を特定するステップと、
(h)前記予測損失関数と前記再構築損失関数との所定の組合せにより、レーティングを改善することを目標として、前記教師ありモデルの挙動を特徴付けるパラメータ及び前記デコーダの挙動を特徴付けるパラメータを最適化するステップと、
を含む方法。
【請求項122】
請求項118~121のいずれか一項に記載の方法によって取得される、教師ありモデル、エンコーダ、又はデコーダの挙動を特徴付けるパラメータセット。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願)
本願は、両方とも2019年8月2日付けで出願された米国仮特許出願第62/882,150号明細書及び同第62/882,159号明細書の利益を主張するものである。上記出願の教示全体は参照により本明細書に援用される。
【0002】
ASCIIテキストファイル資料の参照による援用
本願は、本願と同時に提出される以下のASCIIテキストファイルに含まれる配列リストを参照により援用する:
a)ファイル名:GBD_SeqListing_ST25.txt;2020年7月29日作成、サイズ5KB。
【背景技術】
【0003】
タンパク質は、生物にとって必須であり、例えば、代謝反応の触媒、DNA複製の促進、刺激への応答、細胞及び組織への構造の提供、並びに分子の輸送を含め、有機体内の多くの機能を実行し、又は多くの機能に関連するマクロ分子である。タンパク質は、アミノ酸の1つ又は複数の鎖、典型的には三次元構造で構成される。
【発明の概要】
【課題を解決するための手段】
【0004】
本明細書に記載されるのは、機能及び/又は性質又はその改善を達成するようにタンパク質配列又はポリペプチド配列を生成又は改変するシステム、装置、ソフトウェア、及び方法である。配列は計算方法を通してin silicoで特定することができる。タンパク質又はポリペプチドを合理的に操作するための新規の枠組みを提供するために、人工知能又は機械学習が利用される。したがって、所望の機能又は性質を有する、自然起源のタンパク質とは別個の新たなポリペプチド配列を生成することができる。
【0005】
特定の機能に向けたアミノ酸配列(例えばタンパク質)の設計は、分子生物学の長年の目標であった。しかしながら、機能又は性質に基づくタンパク質アミノ酸配列予測は、少なくとも部分的に、一見すると単純な一級アミノ酸配列から生じ得る構造的複雑性に起因して、かなりの難問である。今日での一手法は、in vitroでのランダム変異誘発を使用してから選択し、定向進化過程を生じさせるものであった。しかしながら、そのような手法は時間及びリソース集約的であり、典型的には変異体クローンの生成であって、そのような生成はライブラリ設計でのバイアスを受け、又は配列空間の探求が制限される、変異体クローンの生成、所望の性質に向けたそれらのクローンのスクリーニング、及びこのプロセスの反復繰り返しを必要とする。実際に、従来の手法は、アミノ酸配列に基づいてタンパク質機能を予測する正確で再現可能な方法を提供することができず、ましてやタンパク質機能に基づいてアミノ酸配列を予測することなどできなかった。実際に、機能に基づくタンパク質一級配列予測に関する従来の考えは、タンパク質機能の多くがその最終的な三次(又は四次)構造によって導出されるため、一級タンパク質配列は既知の機能と直接関連付けることができないというものである。
【0006】
逆に、計算又はin silico方法を使用して関心のある性質又は機能を有するタンパク質を操作する能力を有することは、タンパク質設計の分野を一変させることができる。このテーマの多くの研究にも拘わらず、今まで殆ど成功が達成されてこなかった。したがって、本明細書に開示されるのは、特定の性質及び/又は機能を有するように構成されたポリペプチド又はタンパク質のアミノ酸配列コードを生成する革新的なシステム、装置、ソフトウェア、及び方法である。したがって、本明細書に記載の革新は思いがけないものであり、タンパク質解析及びタンパク質構造に関する従来の考えに鑑みて思いがけない結果をもたらす。
【0007】
本明細書に記載されるのは、関数によって査定される改良された生体高分子配列を操作する方法であり、本方法は、(a)ステップサイズに従って開始点における埋め込みに関連した機能の変化を計算することであって、開始点は、生体高分子配列の機能を予測する教師ありモデルと、デコーダネットワークとを備えたシステムに提供され、教師ありモデルネットワークは、機能を表す機能空間に生体高分子配列の埋め込みを提供するエンコーダネットワークを備え、デコーダネットワークは、機能空間における生体高分子配列の埋め込みを所与として、確率的生体高分子配列を提供するようにトレーニングされ、任意選択的に開始点はシード生体高分子配列の埋め込みであり、それにより、機能空間における第1の更新点を提供する、計算することと、(b)任意選択的に機能空間における第1の更新点における埋め込みに関する機能の変化を計算し、任意選択的に更なる更新点における埋め込みに関する機能の変化を計算するプロセスを繰り返すことと、(c)機能空間における第1の更新点又は任意選択的に反復される更なる更新点で所望レベルの機能に近づくと、第1の更新点又は任意選択的に反復される更なる更新点をデコーダネットワークに提供することと、(d)デコーダから改良された確率的生体高分子配列を取得することとを含む。
【0008】
本明細書では、「function」という用語に2つの意味が関連付けられ得る。一方では、function(機能)は質的側面で、生物学的領域でのタンパク質の何らかの性質及び/又は能力(例えば蛍光のような)を表し得る。他方、function(関数)は量的側面で、生物学的領域でのその性質及び/又は能力と関連付けられた何らかの性能指数、例えば蛍光効果の強度の尺度を表し得る。
【0009】
したがって、「機能空間(functional space)」という用語の意味は、数学的領域での意味、即ち、全てが全く同一の空間から入力をとり、この入力を同じ又は他の空間における出力にマッピングする関数の集合に限定されない。むしろ、機能空間は、機能の値、即ち所望の性質及び/又は能力の定量的性能指数を取得し得る生体高分子配列の圧縮表現を含み得る。
【0010】
特に、圧縮表現は、2つ以上の次元を有するデカルトベクトル空間における座標として解釈し得る2つ以上の数値を含み得る。しかしながら、デカルトベクトル空間はこれらの圧縮表現で完全には満たされない。むしろ、圧縮表現は上記デカルトベクトル空間内のサブ空間を形成し得る。これは、圧縮表現に対して本明細書で使用される用語「埋め込み」の1つの意味である。
【0011】
幾つかの態様では、埋め込みは、機能を表し、1つ又は複数の勾配を有する連続微分可能な機能空間である。幾つかの態様では、埋め込みに関する機能の変化を計算することは、埋め込みに関する機能の導関数をとることを含む。
【0012】
特に、教師ありモデルのトレーニングは、2つの生体高分子配列が機能の定量的意味で同様の値の上記性能指数を有する場合、それらの圧縮表現は機能空間において一緒に近いという意味で、埋め込みを機能に結びつけ得る。これは、改善された性能指数を有する生体高分子配列に辿り着くために、圧縮表現に標的更新を行うのに役立つ。
【0013】
「1つ又は複数の勾配を有する」という句は、この勾配が、圧縮表現を定量的性能指数にマッピングする何らかの明示的な機能について計算される必要があるという意味に限定されて解釈されるべきではない。むしろ、圧縮表現へのその性能指数の依存は、明示的な機能項が利用可能ではない学習済み関係であり得る。そのような学習済み関係では、埋め込みの機能空間における勾配は例えば、バックプロパゲーションによって計算し得る。例えば、埋め込みにおける生体高分子配列の第1の圧縮表現がデコーダによって生体高分子配列に変換され、そしてこの生体高分子配列がエンコーダに供給され、圧縮表現にマッピングされる場合、教師ありモデルはこの圧縮表現から上記定量的性能指数を計算し得る。次いで、元の圧縮表現における数値に関するこの性能指数の勾配はバックプロパゲーションによって取得し得る。これは図3Aにより詳細に示されている。
【0014】
先に触れたように、特定の埋め込み空間及び特定の性能指数は、同様の性能指数を有する圧縮表現は、同様の性能指数を有する圧縮表現が埋め込み空間において一緒に近いという意味で、同じメダルの2つの面であり得る。したがって、圧縮表現を構成する数値に関して性能指数機能の勾配を得る有意な方法がある場合、埋め込み空間は「微分可能」と見なされ得る。
【0015】
「確率的生体高分子配列」という用語は特に、生体高分子配列をサンプリングによって取得し得るある分布の生体高分子配列を含み得る。例えば、定義された長さLの生体高分子配列が探され、各位置で利用可能なアミノ酸の集合が固定される場合、確率的生体高分子配列は、配列中の各位置及び利用可能な各アミノ酸について、この位置がこの特定のアミノ酸によって占有される確率を示し得る。これは図3Cにより詳細に示されている。
【0016】
幾つかの態様では、機能は2つ以上の構成要素機能の複合機能である。幾つかの態様では、複合機能は、2つ以上の複合機能の加重和である。幾つかの態様では、埋め込みにおける2つ以上の開始点、例えば少なくとも2つの開始点は同時に使用される。態様では、2、3、4、5、6、7、8、9、10、20、30、40、50、100、200個の開始点を同時に使用することができるが、これは非限定的な列記である。幾つかの態様では、残基同一性の確率分布を含む確率的配列における残基間の相関が、既に生成された配列の部分を考慮に入れる条件付き確率を使用したサンプリングプロセスで考慮される。幾つかの態様では、本方法は、残基同一性の確率分布を含む確率的生体高分子配列から最大尤度改良済み生体高分子配列を選択することを更に含む。幾つかの態様では、本方法は、残基同一性の確率分布を含む確率的生体高分子配列の各残基における周辺分布をサンプリングすることを更に含む。幾つかの態様では、埋め込みに関する機能の変化は、エンコーダに関する機能の変化、次いでデコーダの変化へのエンコーダの変化、及び埋め込みに関するデコーダの変化を計算することによって計算される。幾つかの態様では、本方法は、機能空間における第1の更新点又は機能空間における更なる更新点をデコーダネットワークに提供することであって、それにより、中間確率的生体高分子配列を提供する、提供することと、中間確率的生体高分子配列を教師ありモデルネットワークに提供することであって、それにより、中間確率的生体高分子配列の機能を予測する、提供することと、次いで、中間確率的生体高分子の埋め込みに関する機能の変化を計算することであって、それにより、機能空間における更なる更新点を提供する、計算することとを含む。
【0017】
本明細書に記載されるのは、プロセッサと、ソフトウェアが符号化された非一時的コンピュータ可読媒体とを備えたシステムであって、ソフトウェアは、プロセッサに、(a)ステップサイズに従って開始点における埋め込みに関連した機能の変化を計算することであって、それにより、機能空間における第1の更新点を提供し、開始点は、生体高分子配列の機能を予測する教師ありモデルと、デコーダネットワークとを備えたシステムに提供され、教師ありモデルネットワークは、機能を表す機能空間に生体高分子配列の埋め込みを提供するエンコーダネットワークを備え、デコーダネットワークは、機能空間における生体高分子配列の埋め込みを所与として、確率的生体高分子配列を提供するようにトレーニングされ、任意選択的に開始点はシード生体高分子配列の埋め込みである、計算することと、(b)任意選択的に機能空間における第1の更新点での埋め込みに関する機能の変化を計算し、任意選択的に更なる更新点での埋め込みに関する機能の変化を計算するプロセスを繰り返すことと、(c)機能空間における第1の更新点又は任意選択的に反復される更なる更新点での所望レベルの機能に近づくと、第1の更新点又は任意選択的に反復される更なる更新点をデコーダネットワークに提供することと、(d)デコーダから改良された確率的生体高分子配列を取得することとを行わせるように構成される。幾つかの態様では、埋め込みは、機能を表し、1つ又は複数の勾配を有する連続微分可能な機能空間である。幾つかの態様では、埋め込みに関する機能の変化を計算することは、埋め込みに関する機能の導関数をとることを含む。幾つかの態様では、機能は2つ以上の構成要素機能の複合機能である。幾つかの態様では、複合機能は、2つ以上の複合機能の加重和である。幾つかの態様では、埋め込みにおける2つ以上の開始点、例えば少なくとも2つの開始点は同時に使用される。特定の態様では、2、3、4、5、6、7、8、9、10、20、30、40、50、100、200個の開始点を同時に使用することができるが、これは非限定的な列記である。幾つかの態様では、残基同一性の確率分布を含む確率的配列における残基間の相関が、既に生成された配列の部分を考慮に入れる条件付き確率を使用したサンプリングプロセスで考慮される。幾つかの態様では、プロセッサは、残基同一性の確率分布を含む確率的生体高分子配列から最大尤度改良済み生体高分子配列を選択するように更に構成される。幾つかの態様では、プロセッサは、残基同一性の確率分布を含む確率的生体高分子配列の各残基における周辺分布をサンプリングするように更に構成される。幾つかの態様では、埋め込みに関する機能の変化は、エンコーダに関する機能の変化、次いでデコーダの変化へのエンコーダの変化、及び埋め込みに関するデコーダの変化を計算することによって計算される。幾つかの態様では、プロセッサは、機能空間における第1の更新点又は機能空間における更なる更新点をデコーダネットワークに提供することであって、それにより、中間確率的生体高分子配列を提供する、提供することと、中間確率的生体高分子配列を教師ありモデルネットワークに提供することであって、それにより、中間確率的生体高分子配列の機能を予測する、提供することと、次いで、中間確率的生体高分子の埋め込みに関する機能の変化を計算することであって、それにより、機能空間における更なる更新点を提供する、計算することとを行うように更に構成される。
【0018】
本明細書に記載されるのは、命令を含む非一時的コンピュータ可読記憶媒体であり、命令は、プロセッサによって実行されると、プロセッサに、(a)ステップサイズに従って開始点における埋め込みに関連した機能の変化を計算することであって、それにより、機能空間における第1の更新点を提供し、開始点は、生体高分子配列の機能を予測する教師ありモデルと、デコーダネットワークとを備えたシステムに提供され、教師ありモデルネットワークは、機能を表す機能空間に生体高分子配列の埋め込みを提供するエンコーダネットワークを備え、デコーダネットワークは、機能空間における生体高分子配列の埋め込みを所与として、確率的生体高分子配列を提供するようにトレーニングされ、任意選択的に開始点はシード生体高分子配列の埋め込みである、計算することと、(b)任意選択的に機能空間における第1の更新点での埋め込みに関する機能の変化を計算し、任意選択的に更なる更新点での埋め込みに関する機能の変化を計算するプロセスを繰り返すことと、(c)機能空間における第1の更新点又は任意選択的に反復される更なる更新点での所望レベルの機能に近づくと、第1の更新点又は任意選択的に反復される更なる更新点をデコーダネットワークに提供することと、(d)デコーダから改良された確率的生体高分子配列を取得することとを行わせる。幾つかの態様では、埋め込みは、機能を表し、1つ又は複数の勾配を有する連続微分可能な機能空間である。幾つかの態様では、埋め込みに関する機能の変化を計算することは、埋め込みに関する機能の導関数をとることを含む。幾つかの態様では、機能は2つ以上の構成要素機能の複合機能である。幾つかの態様では、複合機能は、2つ以上の複合機能の加重和である。幾つかの態様では、埋め込みにおける2つ以上の開始点、例えば少なくとも2つの開始点は同時に使用される。特定の態様では、2、3、4、5、6、7、8、9、10、20、30、40、50、100、200個の開始点を同時に使用することができるが、これは非限定的な列記である。幾つかの態様では、残基同一性の確率分布を含む確率的配列における残基間の相関が、既に生成された配列の部分を考慮に入れる条件付き確率を使用したサンプリングプロセスで考慮される。幾つかの態様では、プロセッサは、残基同一性の確率分布を含む確率的生体高分子配列から最大尤度改良済み生体高分子配列を選択するように更に構成される。幾つかの態様では、プロセッサは、残基同一性の確率分布を含む確率的生体高分子配列の各残基における周辺分布をサンプリングするように更に構成される。幾つかの態様では、埋め込みに関する機能の変化は、エンコーダに関する機能の変化、次いでデコーダの変化へのエンコーダの変化、及び埋め込みに関するデコーダの変化を計算することによって計算される。幾つかの態様では、プロセッサは、機能空間における第1の更新点又は機能空間における更なる更新点をデコーダネットワークに提供することであって、それにより、中間確率的生体高分子配列を提供する、提供することと、中間確率的生体高分子配列を教師ありモデルネットワークに提供することであって、それにより、中間確率的生体高分子配列の機能を予測する、提供することと、次いで、中間確率的生体高分子の埋め込みに関する機能の変化を計算することであって、それにより、機能空間における更なる更新点を提供する、計算することとを行うように更に構成される。
【0019】
本明細書に開示されるのは、機能によって査定される改良された生体高分子配列を操作する方法であり、本方法は、(a)生体高分子配列の機能を予測する教師ありモデルネットワークと、デコーダネットワークとを備えたシステムに提供される埋め込みにおける開始点の機能を予測することであって、教師ありモデルネットワークは、機能を表す機能空間に生体高分子配列の埋め込みを提供するエンコーダネットワークを備え、デコーダネットワークは、確率的生体高分子配列を提供するようにトレーニングされ、任意選択的に、開始点はシード生体高分子配列の埋め込みである、予測することと、(b)ステップサイズに従って開始点における埋め込みに関連した機能の変化を計算することであって、それにより、機能空間における第1の更新点を提供できるようにする、計算することと、(c)機能空間における第1の更新点に基づいて、デコーダネットワークにおいて第1の中間確率的生体高分子配列を計算することと、(d)教師ありモデルにおいて、第1の中間生体高分子配列に基づいて第1の中間確率的生体高分子配列の機能を予測することと、(e)機能空間における第1の更新点における埋め込みに関する機能の変化を計算することであって、それにより、機能空間における更新点を提供する、計算することと、(f)デコーダネットワークにおいて、機能空間における更新点に基づいて追加の中間確率的生体高分子配列を計算することと、(g)教師ありモデルにより、追加の中間確率的生体高分子配列に基づいて追加の中間確率的生体高分子配列の機能を予測することと、(h)機能空間における更なる第1の更新点における埋め込みに関連する機能の変化を計算することであって、それにより、機能空間における別の更なる更新点を提供し、任意選択的にステップ(g)~(i)を繰り返し、ステップ(h)において参照される機能空間における別の更なる更新点は、ステップ(f)において機能空間における更なる更新点として見なされる、計算することと、(i)機能空間における所望の機能レベルに近づくと、埋め込みにおける点をデコーダネットワークに提供し、デコーダから改良された確率的生体高分子配列を取得していることとを含む。幾つかの態様では、生体高分子はタンパク質である。幾つかの態様では、シード生体高分子配列は、複数の配列の平均である。幾つかの態様では、シード生体高分子配列は、機能を持たず、又は機能の所望レベルよりも低い機能レベルを有する。幾つかの態様では、エンコーダは、少なくとも20、30、40、50、60、70、80、90、100、150、又は200の生体高分子配列のトレーニングデータセットを使用してトレーニングされる。幾つかの態様では、エンコーダは畳み込みニューラルネットワーク(CNN)又はリカレントニューラルネットワーク(RNN)である。幾つかの態様では、エンコーダはトランスフォーマニューラルネットワークである。幾つかの態様では、エンコーダは、1つ又は複数の畳み込み層、プーリング層、全結合層、正規化層、又はそれらの任意の組合せを含む。幾つかの態様では、エンコーダは深層畳み込みニューラルネットワークである。幾つかの態様では、畳み込みニューラルネットワークは一次元畳み込みニューラルネットワークである。幾つかの態様では、畳み込みニューラルネットワークは二次元以上の畳み込みニューラルネットワークである。幾つかの態様では、畳み込みニューラルネットワークは、VGG16、VGG19、深層ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、又はMobileNetから選択される畳み込みアーキテクチャを有する。幾つかの態様では、エンコーダは少なくとも10、50、100、250、500、750、1000、又はそれを超える数の層を含む。幾つかの態様では、エンコーダは、1つ又は複数の層におけるL1-L2正則化、1つ又は複数の層におけるスキップ接続、1つ又は複数の層におけるドロップアウト、又はそれらの組合せを含む正則化法を利用する。幾つかの態様では、正則化はバッチ正規化を使用して実行される。幾つかの態様では、正則化はグループ正規化を使用して実行される。幾つかの態様では、エンコーダは、Adam、RMS prop、モーメント項付き確率的勾配降下法(SGD)、モーメンタム項及びネステロプ(Nestrop)項付きSGD、モーメンタム項なしSGD、Adagrad、Adadelta、又はNAdamから選択される手順によって最適化される。幾つかの態様では、エンコーダは転移学習手順を使用してトレーニングされる。幾つかの態様では、転移学習手順は、機能に関してラベリングされていない第1の生体高分子配列トレーニングデータセットを使用して第1のモデルをトレーニングすることと、第1のモデルの少なくとも一部分を含む第2のモデルを生成することと、機能に関してラベリングされている第2の生体高分子配列トレーニングデータセットを使用して第2のモデルをトレーニングすることであって、それにより、トレーニング済みエンコーダを生成する、トレーニングすることとを含む。幾つかの態様では、デコーダは、少なくとも20、30、40、50、60、70、80、90、100、150、又は200の生体高分子配列のトレーニングデータセットを使用してトレーニングされる。幾つかの態様では、デコーダは、畳み込みニューラルネットワーク(CNN)又はリカレントニューラルネットワーク(RNN)である。幾つかの態様では、デコーダはトランスフォーマニューラルネットワークである。幾つかの態様では、デコーダは、1つ又は複数の畳み込み層、プーリング層、全結合層、正規化層、又はそれらの任意の組合せを含む。幾つかの態様では、デコーダは深層畳み込みニューラルネットワークである。幾つかの態様では、畳み込みニューラルネットワークは一次元畳み込みニューラルネットワークである。幾つかの態様では、畳み込みニューラルネットワークは二次元以上の畳み込みニューラルネットワークである。幾つかの態様では、畳み込みニューラルネットワークは、VGG16、VGG19、深層ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、又はMobileNetから選択される畳み込みアーキテクチャを有する。幾つかの態様では、デコーダは少なくとも10、50、100、250、500、750、又は1000の層を含む。幾つかの態様では、デコーダは、1つ又は複数の層におけるL1-L2正則化、1つ又は複数の層におけるスキップ接続、1つ又は複数の層におけるドロップアウト、又はそれらの組合せを含む正則化法を利用する。幾つかの態様では、正則化はバッチ正規化を使用して実行される。幾つかの態様では、正則化はグループ正規化を使用して実行される。幾つかの態様では、デコーダは、Adam、RMS prop、モーメント項付き確率的勾配降下法(SGD)、モーメンタム項及びネステロプ項付きSGD、モーメンタム項なしSGD、Adagrad、Adadelta、又はNAdamから選択される手順によって最適化される。幾つかの態様では、デコーダは転移学習手順を使用してトレーニングされる。幾つかの態様では、転移学習手順は、機能に関してラベリングされていない第1の生体高分子配列トレーニングデータセットを使用して第1のモデルをトレーニングすることと、第1のモデルの少なくとも一部分を含む第2のモデルを生成することと、機能に関してラベリングされている第2の生体高分子配列トレーニングデータセットを使用して第2のモデルをトレーニングすることであって、それにより、トレーニング済みデコーダを生成する、トレーニングすることとを含む。幾つかの態様では、改良された生体高分子配列の1つ又は複数の機能は、シード生体高分子配列の1つ又は複数の機能と比較して改善される。幾つかの態様では、1つ又は複数の機能は、蛍光、酵素活性、ヌクレアーゼ活性、及びタンパク質安定性から選択される。幾つかの態様では、2つ以上の機能の加重線形結合が生体高分子配列の査定に使用される。
【0020】
本明細書に記載されるのは、プロセッサと、ソフトウェアが符号化された非一時的コンピュータ可読媒体とを備えたコンピュータシステムであり、ソフトウェアはプロセッサに、(a)ステップサイズに従って開始点における埋め込みに関連した機能の変化を計算することであって、それにより、機能空間における第1の更新点を提供し、埋め込みにおける開始点は、生体高分子配列の機能を予測する教師ありモデルネットワークと、デコーダネットワークとを備えたシステムに提供され、教師ありモデルネットワークは、機能を表す機能空間に生体高分子配列の埋め込みを提供するエンコーダネットワークを備え、デコーダネットワークは、機能空間における予測された生体高分子配列の埋め込みを所与として、予測された確率的生体高分子配列を提供するようにトレーニングされ、任意選択的に、開始点はシード生体高分子配列の埋め込みである、計算することと、(b)機能空間における第1の更新点に基づいて、デコーダネットワークにおいて第1の中間確率的生体高分子配列を計算することと、(c)教師ありモデルにおいて、第1の中間生体高分子配列に基づいて第1の中間確率的生体高分子配列の機能を予測することと、(d)機能空間における第1の更新点での埋め込みに関する機能の変化を計算することであって、それにより、機能空間における更新点を提供する、計算することと、(e)デコーダネットワークにおいて、機能空間における更新点に基づいて追加の中間確率的生体高分子配列を計算することと、(f)教師ありモデルにおいて、追加の中間確率的生体高分子配列に基づいて追加の中間確率的生体高分子配列の機能を予測することと、(g)機能空間における更なる第1の更新点における埋め込みに関連する機能の変化を計算することであって、それにより、機能空間における別の更なる更新点を提供し、任意選択的にステップ(f)~(g)を繰り返し、ステップ(g)において参照される機能空間における別の更なる更新点は、ステップ(e)において機能空間における更なる更新点として見なされる、計算することと、(i)機能空間における所望の機能レベルに近づくと、埋め込みにおける点をデコーダネットワークに提供することと、(j)デコーダから改良された確率的生体高分子配列を取得していることとを行わせるように構成される。幾つかの態様では、生体高分子はタンパク質である。幾つかの態様では、シード生体高分子配列は、複数の配列の平均である。幾つかの態様では、シード生体高分子配列は、機能を持たず、又は機能の所望レベルよりも低い機能レベルを有する。幾つかの態様では、エンコーダは、少なくとも20、30、40、50、60、70、80、90、100、150、又は200の生体高分子配列のトレーニングデータセットを使用してトレーニングされる。幾つかの態様では、エンコーダは畳み込みニューラルネットワーク(CNN)又はリカレントニューラルネットワーク(RNN)である。幾つかの態様では、エンコーダはトランスフォーマニューラルネットワークである。幾つかの態様では、エンコーダは、1つ又は複数の畳み込み層、プーリング層、全結合層、正規化層、又はそれらの任意の組合せを含む。幾つかの態様では、エンコーダは深層畳み込みニューラルネットワークである。幾つかの態様では、畳み込みニューラルネットワークは一次元畳み込みニューラルネットワークである。幾つかの態様では、畳み込みニューラルネットワークは二次元以上の畳み込みニューラルネットワークである。幾つかの態様では、畳み込みニューラルネットワークは、VGG16、VGG19、深層ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、又はMobileNetから選択される畳み込みアーキテクチャを有する。幾つかの態様では、エンコーダは少なくとも10、50、100、250、500、750、1000、又はそれを超える数の層を含む。幾つかの態様では、エンコーダは、1つ又は複数の層におけるL1-L2正則化、1つ又は複数の層におけるスキップ接続、1つ又は複数の層におけるドロップアウト、又はそれらの組合せを含む正則化法を利用する。幾つかの態様では、正則化はバッチ正規化を使用して実行される。幾つかの態様では、正則化はグループ正規化を使用して実行される。幾つかの態様では、エンコーダは、Adam、RMS prop、モーメント項付き確率的勾配降下法(SGD)、モーメンタム項及びネステロプ項付きSGD、モーメンタム項なしSGD、Adagrad、Adadelta、又はNAdamから選択される手順によって最適化される。幾つかの態様では、エンコーダは転移学習手順を使用してトレーニングされる。幾つかの態様では、転移学習手順は、機能に関してラベリングされていない第1の生体高分子配列トレーニングデータセットを使用して第1のモデルをトレーニングすることと、第1のモデルの少なくとも一部分を含む第2のモデルを生成することと、機能に関してラベリングされている第2の生体高分子配列トレーニングデータセットを使用して第2のモデルをトレーニングすることであって、それにより、トレーニング済みエンコーダを生成する、トレーニングすることとを含む。幾つかの態様では、デコーダは、少なくとも20、30、40、50、60、70、80、90、100、150、又は200の生体高分子配列のトレーニングデータセットを使用してトレーニングされる。幾つかの態様では、デコーダは、畳み込みニューラルネットワーク(CNN)又はリカレントニューラルネットワーク(RNN)である。幾つかの態様では、デコーダはトランスフォーマニューラルネットワークである。幾つかの態様では、デコーダは、1つ又は複数の畳み込み層、プーリング層、全結合層、正規化層、又はそれらの任意の組合せを含む。幾つかの態様では、デコーダは深層畳み込みニューラルネットワークである。幾つかの態様では、畳み込みニューラルネットワークは一次元畳み込みニューラルネットワークである。幾つかの態様では、畳み込みニューラルネットワークは二次元以上の畳み込みニューラルネットワークである。幾つかの態様では、畳み込みニューラルネットワークは、VGG16、VGG19、深層ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、又はMobileNetから選択される畳み込みアーキテクチャを有する。幾つかの態様では、デコーダは少なくとも10、50、100、250、500、750、1000、又はそれを超える数の層を含む。幾つかの態様では、デコーダは、1つ又は複数の層におけるL1-L2正則化、1つ又は複数の層におけるスキップ接続、1つ又は複数の層におけるドロップアウト、又はそれらの組合せを含む正則化法を利用する。幾つかの態様では、正則化はバッチ正規化を使用して実行される。幾つかの態様では、正則化はグループ正規化を使用して実行される。幾つかの態様では、デコーダは、Adam、RMS prop、モーメント項付き確率的勾配降下法(SGD)、モーメンタム項及びネステロプ項付きSGD、モーメンタム項なしSGD、Adagrad、Adadelta、又はNAdamから選択される手順によって最適化される。幾つかの態様では、デコーダは転移学習手順を使用してトレーニングされる。幾つかの態様では、転移学習手順は、機能に関してラベリングされていない第1の生体高分子配列トレーニングデータセットを使用して第1のモデルをトレーニングすることと、第1のモデルの少なくとも一部分を含む第2のモデルを生成することと、機能に関してラベリングされている第2の生体高分子配列トレーニングデータセットを使用して第2のモデルをトレーニングすることであって、それにより、トレーニング済みデコーダを生成する、トレーニングすることとを含む。幾つかの態様では、改良された生体高分子配列の1つ又は複数の機能は、シード生体高分子配列の1つ又は複数の機能と比較して改善される。幾つかの態様では、1つ又は複数の機能は、蛍光、酵素活性、ヌクレアーゼ活性、及びタンパク質安定性から選択される。幾つかの態様では、2つ以上の機能の加重線形結合が生体高分子配列の査定に使用される。
【0021】
本明細書に記載されるのは、命令を含む非一時的コンピュータ可読媒体であり、命令は、プロセッサによって実行されると、プロセッサに、(a)埋め込みにおける開始点の機能を予測することであって、開始点はシード生体高分子配列の埋め込みであり、開始点は、生体高分子配列の機能を予測する教師ありモデルネットワークと、デコーダネットワークとを備えたシステムに提供され、教師ありモデルネットワークは、機能を表す機能空間に生体高分子配列の埋め込みを提供するエンコーダネットワークを備え、デコーダネットワークは、機能空間における予測された生体高分子配列の埋め込みを所与として、予測された確率的生体高分子配列を提供するようにトレーニングされる、予測することと、(b)ステップサイズに従って開始点における埋め込みに関連した機能の変化を計算することであって、それにより、機能空間における第1の更新点を提供する、計算することと、(c)機能空間における第1の更新点をデコーダネットワークに提供することであって、それにより、第1の中間確率生体高分子配列を提供する、提供することと、(d)教師ありモデルにより、第1の中間生体高分子配列に基づいて第1の中間確率的生体高分子配列の機能を予測することと、(e)機能空間における第1の更新点における埋め込みに関する機能の変化を計算することであって、それにより、機能空間における更新点を提供する、計算することと、(f)デコーダネットワークにより、機能空間における更新点に基づいて追加の中間確率的生体高分子配列を提供することと、(g)追加の中間確率的生体高分子配列の機能を予測することであって、追加の中間確率的生体高分子配列を教師ありモデルに提供、予測することと、(h)機能空間における更なる第1の更新点での埋め込みに関する機能の変化を計算することであって、それにより、機能空間における別の更なる更新点を提供し、任意選択的にステップ(f)~(h)を繰り返し、ステップ(h)において参照される機能空間での別の更なる更新点は、ステップ(f)において機能空間での更なる更新点として見なされる、計算することと、(i)機能空間における所望の機能レベルに近づくと、埋め込みにおける点をデコーダネットワークに提供し、デコーダから改良された確率的生体高分子配列を取得することとを行わせる。幾つかの態様では、生体高分子はタンパク質である。幾つかの態様では、シード生体高分子配列は、複数の配列の平均である。幾つかの態様では、シード生体高分子配列は、機能を持たず、又は機能の所望レベルよりも低い機能レベルを有する。幾つかの態様では、エンコーダは、少なくとも20、30、40、50、60、70、80、90、100、150、又は200の生体高分子配列のトレーニングデータセットを使用してトレーニングされる。幾つかの態様では、エンコーダは畳み込みニューラルネットワーク(CNN)又はリカレントニューラルネットワーク(RNN)である。幾つかの態様では、エンコーダはトランスフォーマニューラルネットワークである。幾つかの態様では、エンコーダは、1つ又は複数の畳み込み層、プーリング層、全結合層、正規化層、又はそれらの任意の組合せを含む。幾つかの態様では、エンコーダは深層畳み込みニューラルネットワークである。幾つかの態様では、畳み込みニューラルネットワークは一次元畳み込みニューラルネットワークである。幾つかの態様では、畳み込みニューラルネットワークは二次元以上の畳み込みニューラルネットワークである。幾つかの態様では、畳み込みニューラルネットワークは、VGG16、VGG19、深層ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、又はMobileNetから選択される畳み込みアーキテクチャを有する。幾つかの態様では、エンコーダは少なくとも10、50、100、250、500、750、1000、又はそれを超える数の層を含む。幾つかの態様では、エンコーダは、1つ又は複数の層におけるL1-L2正則化、1つ又は複数の層におけるスキップ接続、1つ又は複数の層におけるドロップアウト、又はそれらの組合せを含む正則化法を利用する。幾つかの態様では、正則化はバッチ正規化を使用して実行される。幾つかの態様では、正則化はグループ正規化を使用して実行される。幾つかの態様では、エンコーダは、Adam、RMS prop、モーメント項付き確率的勾配降下法(SGD)、モーメンタム項及びネステロプ項付きSGD、モーメンタム項なしSGD、Adagrad、Adadelta、又はNAdamから選択される手順によって最適化される。幾つかの態様では、エンコーダは転移学習手順を使用してトレーニングされる。幾つかの態様では、転移学習手順は、機能に関してラベリングされていない第1の生体高分子配列トレーニングデータセットを使用して第1のモデルをトレーニングすることと、第1のモデルの少なくとも一部分を含む第2のモデルを生成することと、機能に関してラベリングされている第2の生体高分子配列トレーニングデータセットを使用して第2のモデルをトレーニングすることであって、それにより、トレーニング済みエンコーダを生成する、トレーニングすることとを含む。幾つかの態様では、デコーダは、少なくとも20、30、40、50、60、70、80、90、100、150、又は200の生体高分子配列のトレーニングデータセットを使用してトレーニングされる。幾つかの態様では、デコーダは、畳み込みニューラルネットワーク(CNN)又はリカレントニューラルネットワーク(RNN)である。幾つかの態様では、デコーダはトランスフォーマニューラルネットワークである。幾つかの態様では、デコーダは、1つ又は複数の畳み込み層、プーリング層、全結合層、正規化層、又はそれらの任意の組合せを含む。幾つかの態様では、デコーダは深層畳み込みニューラルネットワークである。幾つかの態様では、畳み込みニューラルネットワークは一次元畳み込みニューラルネットワークである。幾つかの態様では、畳み込みニューラルネットワークは二次元以上の畳み込みニューラルネットワークである。幾つかの態様では、畳み込みニューラルネットワークは、VGG16、VGG19、深層ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、又はMobileNetから選択される畳み込みアーキテクチャを有する。幾つかの態様では、デコーダは少なくとも10、50、100、250、500、750、1000、又はそれを超える数の層を含む。幾つかの態様では、デコーダは、1つ又は複数の層におけるL1-L2正則化、1つ又は複数の層におけるスキップ接続、1つ又は複数の層におけるドロップアウト、又はそれらの組合せを含む正則化法を利用する。幾つかの態様では、正則化はバッチ正規化を使用して実行される。幾つかの態様では、正則化はグループ正規化を使用して実行される。幾つかの態様では、デコーダは、Adam、RMS prop、モーメント項付き確率的勾配降下法(SGD)、モーメンタム項及びネステロプ項付きSGD、モーメンタム項なしSGD、Adagrad、Adadelta、又はNAdamから選択される手順によって最適化される。幾つかの態様では、デコーダは転移学習手順を使用してトレーニングされる。幾つかの態様では、転移学習手順は、機能に関してラベリングされていない第1の生体高分子配列トレーニングデータセットを使用して第1のモデルをトレーニングすることと、第1のモデルの少なくとも一部分を含む第2のモデルを生成することと、機能に関してラベリングされている第2の生体高分子配列トレーニングデータセットを使用して第2のモデルをトレーニングすることであって、それにより、トレーニング済みデコーダを生成する、トレーニングすることとを含む。幾つかの態様では、改良された生体高分子配列の1つ又は複数の機能は、シード生体高分子配列の1つ又は複数の機能と比較して改善される。幾つかの態様では、1つ又は複数の機能は、蛍光、酵素活性、ヌクレアーゼ活性、及びタンパク質安定性から選択される。幾つかの態様では、2つ以上の機能の加重線形結合が生体高分子配列の査定に使用される。
【0022】
本明細書に開示されるのは、指定されたタンパク質機能を有する生体高分子配列を操作するコンピュータ実施方法であり、本方法は、(a)エンコーダ法を用いて初期生体高分子配列の埋め込みを生成することと、(b)最適化法を用いて、1つ又は複数の埋め込みパラメータを調整することにより、指定されたタンパク質機能に対応するように埋め込みを繰り返し変更することであって、それにより、更新埋め込みを生成する、繰り返し変更することと、(c)デコーダ法により、更新埋め込みを処理して、最終生体高分子配列を生成することとを含む。幾つかの態様では、生体高分子配列は一級タンパク質アミノ酸配列を含む。幾つかの態様では、アミノ酸配列は、タンパク質機能を生じさせるタンパク質構成を生じさせる。幾つかの態様では、タンパク質機能は蛍光を含む。幾つかの態様では、タンパク質機能は酵素活性を含む。幾つかの態様では、タンパク質機能はヌクレアーゼ活性を含む。幾つかの態様では、タンパク質機能はタンパク質安定性の程度を含む。幾つかの態様では、エンコーダ法は、初期生体高分子配列を受け取り、埋め込みを生成するように構成される。幾つかの態様では、エンコーダ法は、深層畳み込みニューラルネットワークを含む。幾つかの態様では、畳み込みニューラルネットワークは一次元畳み込みネットワークである。幾つかの態様では、畳み込みニューラルネットワークは二次元以上の畳み込みニューラルネットワークである。幾つかの態様では、畳み込みニューラルネットワークは、VGG16、VGG19、深層ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、又はMobileNetから選択される畳み込みアーキテクチャを有する。幾つかの態様では、エンコーダは少なくとも10、50、100、250、500、750、1000、又はそれを超える数の層を含む。幾つかの態様では、エンコーダは、1つ又は複数の層におけるL1-L2正則化、1つ又は複数の層におけるスキップ接続、1つ又は複数の層におけるドロップアウト、又はそれらの組合せを含む正則化法を利用する。幾つかの態様では、正則化はバッチ正規化を使用して実行される。幾つかの態様では、正則化はグループ正規化を使用して実行される。幾つかの態様では、エンコーダは、Adam、RMS prop、モーメント項付き確率的勾配降下法(SGD)、モーメンタム項及びネステロプ項付きSGD、モーメンタム項なしSGD、Adagrad、Adadelta、又はNAdamから選択される手順によって最適化される。幾つかの態様では、デコーダ法は、深層畳み込みニューラルネットワークを含む。幾つかの態様では、2つ以上の機能の加重線形結合が生体高分子配列の査定に使用される。幾つかの態様では、最適化法は、連続した微分可能な埋め込み空間内の勾配ベースの降下を使用して更新埋め込みを生成する。幾つかの態様では、最適化法は、Adam、RMS Prop、Ada delta、AdamMAX、又はモーメンタム項付きSGDから選択される最適化方式を利用する。幾つかの態様では、最終生体高分子配列は、少なくとも1つの追加のタンパク質機能について更に最適化される。幾つかの態様では、最適化法は、タンパク質機能と少なくとも1つの追加のタンパク質機能との両方を統合する複合機能に従って更新埋め込みを生成する。幾つかの態様では、複合機能は、タンパク質機能及び少なくとも1つの追加のタンパク質機能に対応する2つ以上の機能の加重線形結合である。
【0023】
本明細書に開示されるのは、指定されたタンパク質機能を有する生体高分子配列を操作するコンピュータ実施方法であり、本方法は、(a)エンコーダ法を用いて初期生体高分子配列の埋め込みを生成することと、(b)最適化法を用いて、指定されたタンパク質機能を達成するように1つ又は複数の埋め込みパラメータを改変することによって埋め込みを調整することであって、それにより更新埋め込みを生成する、調整することと、(c)デコーダ法により、更新埋め込みを処理して、最終生体高分子配列を生成することとを含む。
【0024】
本明細書に記載されるのは、プロセッサと、ソフトウェアが符号化された非一時的コンピュータ可読媒体とを備えたシステムであり、ソフトウェアはプロセッサに、(a)エンコーダ法を用いて初期生体高分子配列の埋め込みを生成することと、(b)最適化法を用いて、1つ又は複数の埋め込みパラメータを調整することにより、指定されたタンパク質機能に対応するように埋め込みを繰り返し変更することであって、それにより、更新埋め込みを生成する、繰り返し変更することと、(c)デコーダ法により、更新埋め込みを処理して、最終生体高分子配列を生成することとを行わせるように構成される。幾つかの態様では、生体高分子配列は一級タンパク質アミノ酸配列を含む。幾つかの態様では、アミノ酸配列は、タンパク質機能を生じさせるタンパク質構成を生じさせる。幾つかの態様では、タンパク質機能は蛍光を含む。幾つかの態様では、タンパク質機能は酵素活性を含む。幾つかの態様では、タンパク質機能はヌクレアーゼ活性を含む。幾つかの態様では、タンパク質機能はタンパク質安定性の程度を含む。幾つかの態様では、エンコーダ法は、初期生体高分子配列を受け取り、埋め込みを生成するように構成される。幾つかの態様では、エンコーダ法は、深層畳み込みニューラルネットワークを含む。幾つかの態様では、畳み込みニューラルネットワークは一次元畳み込みネットワークである。幾つかの態様では、畳み込みニューラルネットワークは二次元以上の畳み込みニューラルネットワークである。幾つかの態様では、畳み込みニューラルネットワークは、VGG16、VGG19、深層ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、又はMobileNetから選択される畳み込みアーキテクチャを有する。幾つかの態様では、エンコーダは少なくとも10、50、100、250、500、750、1000、又はそれを超える数の層を含む。幾つかの態様では、エンコーダは、1つ又は複数の層におけるL1-L2正則化、1つ又は複数の層におけるスキップ接続、1つ又は複数の層におけるドロップアウト、又はそれらの組合せを含む正則化法を利用する。幾つかの態様では、正則化はバッチ正規化を使用して実行される。幾つかの態様では、正則化はグループ正規化を使用して実行される。幾つかの態様では、エンコーダは、Adam、RMS prop、モーメント項付き確率的勾配降下法(SGD)、モーメンタム項及びネステロプ項付きSGD、モーメンタム項なしSGD、Adagrad、Adadelta、又はNAdamから選択される手順によって最適化される。幾つかの態様では、デコーダ法は、深層畳み込みニューラルネットワークを含む。幾つかの態様では、2つ以上の機能の加重線形結合が生体高分子配列の査定に使用される。幾つかの態様では、最適化法は、連続した微分可能な埋め込み空間内の勾配ベースの降下を使用して更新埋め込みを生成する。幾つかの態様では、最適化法は、Adam、RMS Prop、Ada delta、AdamMAX、又はモーメンタム項付きSGDから選択される最適化方式を利用する。幾つかの態様では、最終生体高分子配列は、少なくとも1つの追加のタンパク質機能について更に最適化される。幾つかの態様では、最適化法は、タンパク質機能と少なくとも1つの追加のタンパク質機能との両方を統合する複合機能に従って更新埋め込みを生成する。幾つかの態様では、複合機能は、タンパク質機能及び少なくとも1つの追加のタンパク質機能に対応する2つ以上の機能の加重線形結合である。
【0025】
本明細書に記載されるのは、命令を含む非一時的コンピュータ可読媒体であり、命令は、プロセッサによって実行されると、プロセッサに、(a)エンコーダ法を用いて初期生体高分子配列の埋め込みを生成することと、(b)最適化法を用いて、1つ又は複数の埋め込みパラメータを調整することにより、指定されたタンパク質機能に対応するように埋め込みを繰り返し変更することであって、それにより、更新埋め込みを生成する、繰り返し変更することと、(c)デコーダ法により、更新埋め込みを処理して、最終生体高分子配列を生成することとを行わせる。幾つかの態様では、生体高分子配列は一級タンパク質アミノ酸配列を含む。幾つかの態様では、アミノ酸配列は、タンパク質機能を生じさせるタンパク質構成を生じさせる。幾つかの態様では、タンパク質機能は蛍光を含む。幾つかの態様では、タンパク質機能は酵素活性を含む。幾つかの態様では、タンパク質機能はヌクレアーゼ活性を含む。幾つかの態様では、タンパク質機能はタンパク質安定性の程度を含む。幾つかの態様では、エンコーダ法は、初期生体高分子配列を受け取り、埋め込みを生成するように構成される。幾つかの態様では、エンコーダ法は、深層畳み込みニューラルネットワークを含む。幾つかの態様では、畳み込みニューラルネットワークは一次元畳み込みネットワークである。幾つかの態様では、畳み込みニューラルネットワークは二次元以上の畳み込みニューラルネットワークである。幾つかの態様では、畳み込みニューラルネットワークは、VGG16、VGG19、深層ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、又はMobileNetから選択される畳み込みアーキテクチャを有する。幾つかの態様では、エンコーダは少なくとも10、50、100、250、500、750、1000、又はそれを超える数の層を含む。幾つかの態様では、エンコーダは、1つ又は複数の層におけるL1-L2正則化、1つ又は複数の層におけるスキップ接続、1つ又は複数の層におけるドロップアウト、又はそれらの組合せを含む正則化法を利用する。幾つかの態様では、正則化はバッチ正規化を使用して実行される。幾つかの態様では、正則化はグループ正規化を使用して実行される。幾つかの態様では、エンコーダは、Adam、RMS prop、モーメント項付き確率的勾配降下法(SGD)、モーメンタム項及びネステロプ項付きSGD、モーメンタム項なしSGD、Adagrad、Adadelta、又はNAdamから選択される手順によって最適化される。幾つかの態様では、デコーダ法は、深層畳み込みニューラルネットワークを含む。幾つかの態様では、2つ以上の機能の加重線形結合が生体高分子配列の査定に使用される。幾つかの態様では、最適化法は、連続した微分可能な埋め込み空間内の勾配ベースの降下を使用して更新埋め込みを生成する。幾つかの態様では、最適化法は、Adam、RMS Prop、Ada delta、AdamMAX、又はモーメンタム項付きSGDから選択される最適化方式を利用する。幾つかの態様では、最終生体高分子配列は、少なくとも1つの追加のタンパク質機能について更に最適化される。幾つかの態様では、最適化法は、タンパク質機能と少なくとも1つの追加のタンパク質機能との両方を統合する複合機能に従って更新埋め込みを生成する。幾つかの態様では、複合機能は、タンパク質機能及び少なくとも1つの追加のタンパク質機能に対応する2つ以上の機能の加重線形結合である。
【0026】
本明細書に開示されるのは、先の態様のいずれか1つの方法により又は先の態様のいずれか1つのシステムを使用して取得可能な改良された生体高分子配列を合成することを含む生体高分子を作製する方法である。
【0027】
本明細書に開示されるのは、Y39、F64、V68、D129、V163、K166、G191、及びそれらの組合せから選択された部位に置換を含み、配列番号1と比較して増大した蛍光を有する、配列番号1に相対するアミノ酸配列を含む蛍光タンパク質である。幾つかの態様では、蛍光タンパク質はY39、F64、V68、D129、V163、K166、及びG191の2、3、4、5、6、又は7つ全てにおいて置換を含む。幾つかの態様では、蛍光タンパク質は、配列番号1に相対してS65を含む。幾つかの態様では、アミノ酸配列は、配列番号1に相対してS65を含む。幾つかの態様では、アミノ酸配列は、F64及びV68において置換を含む。幾つかの態様では、アミノ酸配列は、Y39、D129、V163、K166、及びG191の1、2、3、4、又は5つ全てを含む。幾つかの態様では、Y39、F64、V68、D129、V163、K166、又はG191における置換はそれぞれ、Y39C、F64L、V68M、D129G、V163A、K166R、又はG191Vである。幾つかの態様では、蛍光タンパク質は、配列番号1と少なくとも80、85、90、92、92、93、94、95、96、97、98、99%、又はそれを超えて同一であるアミノ酸配列を含む。幾つかの態様では、蛍光タンパク質は、配列番号1と相対して少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、又は15個の突然変異を含む。幾つかの態様では、蛍光タンパク質は、配列番号1と相対して1、2、3、4、5、6、7、8、9、10、11、12、13、14、又は15個以下の突然変異を含む。幾つかの態様では、蛍光タンパク質は、配列番号1よりも少なくとも約2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、又は50倍高い蛍光強度を有する。幾つかの態様では、蛍光タンパク質は、スーパーフォルダGFP(AIC82357)よりも少なくとも約2、3、4、又は5倍高い蛍光を有する。幾つかの態様では、本明細書に開示されるのは、蛍光タンパク質を含む融合タンパク質である。幾つかの態様では、本明細書に開示されるのは、上記蛍光タンパク質又は上記融合タンパク質をコードする配列を含む核酸である。幾つかの態様では、本明細書に開示されるのは、上記核酸を含むベクターである。幾つかの態様では、本明細書に開示されるのは、上記タンパク質、上記核酸、又は上記ベクターを含む宿主細胞である。幾つかの態様では、本明細書に開示されるのは、蛍光タンパク質を検出することを含む視覚化方法である。幾つかの態様では、検出は、蛍光タンパク質の放射スペクトルの波長を検出することによる。幾つかの態様では、視覚化は細胞内での視覚化である。幾つかの態様では、細胞はin vitro又はin vivoで単離された生体組織中の細胞である。幾つかの態様では、本明細書に開示されるのは、ポリペプチドをコードする核酸を含む発現ベクターを細胞に導入することを含む、上記蛍光タンパク質又は上記融合タンパク質を発現する方法である。幾つかの態様では、本方法は、細胞を培養して、培養された細胞のバッチを成長させ、培養された細胞のバッチからポリペプチドを精製することを更に含む。幾つかの態様では、本明細書に開示されるのは、生体細胞又は組織内部のポリペプチドの蛍光信号を検出する方法であり、本方法は、(a)上記蛍光タンパク質又は上記蛍光タンパク質をコードする核酸を含む発現ベクターを生体細胞又は組織に導入することと、(b)生体細胞又は組織における蛍光タンパク質を励起させるのに適した第1の波長の光を向けることと、(c)第1の波長の光の吸収に応答して蛍光タンパク質によって放射される第2の波長の光を検出することとを含む。幾つかの態様では、第2の波長の光は、蛍光顕微鏡又は蛍光活性化細胞選別(FACS)を使用して検出される。幾つかの態様では、生体細胞又は組織は、原核細胞又は真核細胞である。幾つかの態様では、発現ベクターは、N末端又はC末端上の別の遺伝子と融合したポリペプチドをコードする核酸を含む融合遺伝子を含む。幾つかの態様では、発現ベクターは、構成的活性プロモータ又は誘導発現プロモータである、ポリペプチドの発現を制御するプロモータを含む。
【0028】
開示されるのは、上述した方法又はシステムで使用される教師ありモデルをトレーニングする方法である。この教師ありモデルは、生体高分子配列を埋め込み機能空間における表現にマッピングするように構成されたエンコーダネットワークを備える。教師ありモデルは、表現に基づいて生体高分子配列の機能を予測するように構成される。本方法は、(a)複数のトレーニング生体高分子配列を提供するステップであって、各トレーニング生体高分子配列は機能でラベリングされる、提供するステップと、(b)エンコーダを使用して、各トレーニング生体高分子配列を埋め込み機能空間における表現にマッピングするステップと、(c)教師ありモデルを使用してこれらの表現に基づいて、各トレーニング生体高分子配列の機能を予測するステップと、(d)所定の予測損失関数を使用して、各トレーニング生体高分子配列について、予測機能が各トレーニング生体高分子配列のラベルの通りの機能と一致する程度を特定するステップと、(e)更なるトレーニング生体高分子配列が教師ありモデルによって処理される場合に生じる上記予測損失関数により、レーティングを改善することを目標として、教師ありモデルの挙動を特徴付けるパラメータを最適化するステップとを含む。
【0029】
開示されるのは、上述した方法又はシステムで使用されるデコーダをトレーニングする方法である。デコーダは、埋め込み機能空間から確率的生体高分子配列に生体高分子配列の表現をマッピングするように構成される。本方法は、(a)生体高分子配列の複数の表現を埋め込み機能空間に提供するステップと、(b)デコーダを使用して各表現を確率的生体高分子配列にマッピングするステップと、(c)各確率的生体高分子配列からサンプル生体高分子配列を引き出すステップと、(d)トレーニング済みエンコーダを使用してこのサンプル生体高分子配列を埋め込み機能空間における表現にマッピングするステップと、(e)所定の再構築損失関数を使用して、そうして特定された各表現が対応する元の表現と一致する程度を特定するステップと、(f)上記埋め込み機能空間からの生体高分子配列の更なる表現がデコーダによって処理される場合に生じる上記再構築損失関数により、レーティングを改善することを目標として、デコーダの挙動を特徴付けるパラメータを最適化するステップとを含む。
【0030】
任意選択的に、エンコーダは、デコーダによって生成される表現に基づいて生体高分子配列の機能を予測するように構成された教師ありモデルの一部であり、本方法は、(a)トレーニング済みエンコーダを使用してトレーニング生体高分子配列を埋め込み機能空間における表現にマッピングすることにより、生体高分子配列の複数の表現の少なくとも部分をデコーダに提供することと、(b)確率的生体高分子配列から引き出されたサンプル生体高分子配列について、教師ありモデルを使用してこのサンプル生体高分子配列の機能を予測することと、(c)上記機能を、対応する元のトレーニング生体高分子配列について同じ教師ありモデルによって予測された機能と比較することと、(d)所定の一貫性損失関数を使用して、サンプル生体高分子配列で予測された機能が元のトレーニング生体高分子配列で予測された機能と一致する程度を特定することと、(e)トレーニング生体高分子配列からエンコーダによって生成された生体高分子配列の更なる表現がデコーダによって処理される場合に生じる、上記一貫性損失関数及び/又は上記一貫性損失関数と上記再構築損失関数との所定の組合せにより、レーティングを改善することを目標として、デコーダの挙動を特徴付けるパラメータを最適化することとを更に含む。
【0031】
開示されるのは、教師ありモデル及びデコーダのアンサンブルをトレーニングする方法である。教師ありモデルは、生体高分子配列を埋め込み機能空間における表現にマッピングするように構成されたエンコーダネットワークを備える。教師ありモデルは、表現に基づいて生体高分子配列の機能を予測するように構成される。デコーダは、埋め込み機能空間から確率的生体高分子配列に生体高分子配列の表現をマッピングするように構成される。本方法は、(a)複数のトレーニング生体高分子配列を提供するステップであって、各トレーニング生体高分子配列は機能でラベリングされる、提供するステップと、(b)エンコーダを使用して、各トレーニング生体高分子配列を埋め込み機能空間における表現にマッピングするステップと、(c)教師ありモデルを使用してこれらの表現に基づいて、各トレーニング生体高分子配列の機能を予測するステップと、(d)デコーダを使用して、埋め込み機能空間における各表現を確率的生体高分子配列にマッピングするステップと、(e)確率的生体高分子配列からサンプル生体高分子配列を引き出すステップと、(f)所定の予測損失関数を使用して、各トレーニング生体高分子配列について、予測された機能が各トレーニング生体高分子配列のラベルの通りの機能と一致する程度を特定するステップと、(g)所定の再構築損失関数を使用して、各サンプル生体高分子配列について、生成元である元のトレーニング生体高分子配列と一致する程度を特定するステップと、(h)予測損失関数と再構築損失関数との所定の組合せにより、レーティングを改善することを目標として、教師ありモデルの挙動を特徴付けるパラメータ及びデコーダの挙動を特徴付けるパラメータを最適化するステップとを含む。
【0032】
さらに、これらのトレーニング方法の1つにより取得される、教師ありモデル、エンコーダ、又はデコーダの挙動を特徴付けるパラメータセットが、本発明の範囲内の別の製品である。
【0033】
[参照による援用]
本明細書で引用される全ての公開物、特許、及び特許出願は、個々の公開物、特許、又は特許出願の各々がまるで具体的且つ個々に参照により援用されると示されるかのような程度まで参照により本明細書に援用される。特に、米国特許出願第62/804,036号明細書が参照により本明細書に援用される。
【0034】
特許又は出願ファイルは、カラーで実行される少なくとも1つの図面を含む。カラー図面を有するこの特許又は特許出願公開のコピーは、要求され、必要料金が支払われた上で特許庁により提供される。本発明の原理が利用される例示的な態様を記載する以下の詳細な説明及び添付図面を参照することにより、本発明の特徴及び利点のよりよい理解が得られよう。
【図面の簡単な説明】
【0035】
図1】エンコーダの非限定的な態様をニューラルネットワークとして示す図を示す。
図2】デコーダの非限定的な態様をニューラルネットワークとして示す図を示す。
図3A】勾配ベースの設計手順の非限定的な全体像を示す。
図3B】勾配ベースの設計手順の一反復の非限定的な例を示す。
図3C】デコーダによって生成された確率的配列を符号化する行列の非限定的な例を示す。
図4】デコーダ検証手順の非限定的な態様を示す図を示す。
図5A】トレーニングデータセットのGFPエンコーダモデルからの予測蛍光値vs真の蛍光値のグラフを示す。
図5B】検証データセットのGFPエンコーダモデルからの予測蛍光値vs真の蛍光値のグラフを示す。
図6A】本明細書に記載の計算システムの例示的な態様を示す。
図6B】本明細書に記載の計算システムの例示的な態様を示す。
図7】GFP配列を操作する勾配ベースの設計(GBD)の非限定的な例を示す図を示す。
図8】GBDを使用して作成されたGFP配列の相対蛍光値を用いた実験的検証結果を示す。
図9】実験的に検証された最高蛍光を有するGBD操作GFP配列と突き合わせたavGFPのアミノ酸配列対アラインメントを示す。
図10】勾配ベースの設計のラウンド又は反復を通して予測された耐性の進化を示すチャートを示す。
図11】勾配ベースの設計を使用して設計された7つの新規のβラクタマーゼによって授けられる実際の抗生物質耐性を査定するために実行された検証実験の結果を示す。
図12】RNA最適化(12A~12C)及び格子タンパク質最適化(12D~12F)での離散最適化結果を示すグラフである。
図13】13A-13Hは、勾配ベースの最適化の結果を示す図である。
図14】14A-14Bは、正則化項λを上方加重する効果を示す図であり、λが大きいほど、モデル誤差が下がるが、モデルはpθによって高確率が割り当てられた配列に制限されるため、最適化の過程にわたる配列多様性はそれに対応して下がる。
図15】15A-15Bは、ヒューリスティック動機付けGBDを示し、これはコホートをZの面積に駆動し、ここで
【数1】
は確実にデコードすることができる。
図16】GBDが、比較的低い誤差を維持しながら、離散法よりも初期シード配列から離れた最適を見つけることが可能なことを示す。
図17】生成されたタンパク質の親和性を検証する、列記されたタンパク質の生成されたバリアンスをテストするウェットラボデータを示すグラフである。
【発明を実施するための形態】
【0036】
本明細書に記載されるのは、性質又は機能に対応するアミノ酸配列の予測を生成するシステム、装置、ソフトウェア、及び方法である。機械学習法は、一級アミノ酸配列等の入力データを受け取り、少なくとも部分的にアミノ酸配列によって定義される、結果として生じるポリペプチド又はタンパク質の1つ又は複数の機能又は特徴に対応する改変されたアミノ酸配列を生成するモデルを生成できるようにする。入力データは、アミノ酸相互作用のコンタクトマップ、三次タンパク質構造、又はポリペプチドの構造に関連する他の関連情報等の追加情報を含むことができる。幾つかの場合では、ラベル付きトレーニングデータが不十分である場合、転移学習が使用されて、モデルの予測能力を改善する。入力アミノ酸配列は埋め込み空間にマッピングされ、所望の機能又は性質(例えば酵素反応速度の増大)に関して埋め込み空間内で最適化され、次いで所望の機能又は性質にマッピングする改変アミノ酸配列にデコードすることができる。
【0037】
本開示は、タンパク質が、深層ニューラルネットワークを使用した勾配ベースの設計等の機械学習ベースの合理的配列設計に適するという新規の発見を組み込み、それにより、標準的な最適化技法を使用して(例えば勾配上昇)、所望の機能を実行するアミノ酸配列を作製することが可能になる。勾配ベースの設計の説明のための例では、アミノ酸の初期配列は、タンパク質の機能を表す新たな埋め込み空間に投影される。タンパク質配列の埋め込みは、D次元空間中の一点としてのタンパク質の表現である。この新たな空間では、タンパク質は2数の(例えば、二次元空間の場合)のベクトルとして符号化することができ、これらは埋め込み空間中のそのタンパク質の座標を提供する。埋め込み空間の性質は、この空間において近傍にあるタンパク質は機能的に類似し関連することである。したがって、タンパク質の集まりがこの空間に埋め込まれた場合、ユークリッド計量を使用して任意の2つのタンパク質間の距離を計算することにより、それらの機能の類似性を特定することができる。
【0038】
[in silicoタンパク質設計]
幾つかの態様では、本明細書に開示されるデバイス、ソフトウェア、システム、及び方法は、タンパク質設計のツールとして機械学習法を利用する。幾つかの態様では、連続した微分可能な埋め込み空間が、所望の機能又は性質にマッピングされる新規のタンパク質又はポリペプチド配列の生成に使用される。幾つかの場合、プロセスは、シード配列(例えば、所望の機能を実行せず、又は所望の機能を所望のレベルで実行しない配列)を提供することと、シード配列を埋め込み空間に投影することと、埋め込み空間に小さな変更を行うことによって配列を反復最適化することと、次いでこれらの変更を配列空間にマッピングすることとを含む。幾つかの場合、シード配列は所望の機能又は性質を有さない(例えば、抗生物質耐性を有さないβラクタマーゼ)。幾つかの場合、シード配列は幾らかの機能又は性質を有する(例えば、幾らかの蛍光を有するベースラインGFP配列)。シード配列は、利用可能な最高又は「最良」の機能又は性質を有することができる(例えば、文献から最高蛍光強度を有するGFP)。シード配列は、所望の機能又は性質に最も近い機能又は性質を有し得る。例えば、所望の最終蛍光強度値に最も近い蛍光強度値を有するシードGFP配列を選択することができる。シード配列は、単一の配列又は複数の配列の平均若しくはコンセンサス配列に基づくことができる。例えば、複数のGFP配列を平均して、コンセンサス配列を産生することができる。平均された配列は、「最良」配列(例えば、最適化すべき最高又は最も近いレベルの所望の機能又は性質を有するもの)の開始点を表し得る。本明細書に開示される手法は、2つ以上の方法又はトレーニング済みモデルを利用することができる。幾つかの態様では、連携して機能する2つのニューラルネットワークが提供される:エンコーダネットワーク及びデコーダネットワーク。エンコーダネットワークは、ワンホットベクトルの配列として表し得るアミノ酸配列を受け取り、そのタンパク質の埋め込みを生成することができる。同様に、デコーダは埋め込みを取得し、埋め込み空間中の特定の点にマッピングされるアミノ酸配列を返すことができる。
【0039】
所与のタンパク質の機能を変更するために、エンコーダネットワークを使用して初期配列をまず埋め込み空間に投影することができる。次に、埋め込み空間内で初期配列の位置を、所望の機能(又は機能のレベル、例えば機能の強化)を有するタンパク質によって占有される空間の領域に向けて「移動」することにより、タンパク質機能を変更することができる。埋め込まれた配列が埋め込み空間の所望の領域に移動する(ひいては所望レベルの機能を達成する)と、デコーダネットワークを使用して、埋め込み空間における新たな座標を受け取り、所望の機能又は所望レベルの機能を有する実際のタンパク質をコードする実際のアミノ酸配列を産生することができる。エンコーダネットワーク及びデコーダネットワークが深層ニューラルネットワークである幾つかの態様では、埋め込み空間内の点の部分導関数を計算することができ、したがって、例えば、勾配ベースの最適化手順等の最適化法でこの空間中の最も急な改良方向を計算できるようになる。
【0040】
本明細書に記載のin silicoタンパク質設計の一態様のステップごとの簡易化された概説は以下のステップを含む。
(1)「シード」タンパク質として機能するタンパク質を選択する。このタンパク質は改変するベース配列として機能する。
(2)エンコーダネットワークを使用してこのタンパク質を埋め込み空間に投影する。
(3)勾配上昇手順を使用して埋め込み空間内でシードタンパク質に反復改良を実行し、勾配上昇手順は、エンコーダネットワークによって提供される埋め込みに関する機能の導関数に基づく。
(4)所望レベルの機能が取得されると、デコーダネットワークを使用して最終埋め込みを配列空間にマッピングする。これは、所望の機能レベルを有するアミノ酸配列を産生する。
【0041】
[埋め込み空間の構築]
幾つかの態様では、本明細書に開示されるデバイス、ソフトウェア、システム、及び方法は、一級アミノ酸配列等の入力が与えられた場合、エンコーダを利用して、埋め込み空間を生成する。幾つかの態様では、エンコーダは、ラベル付きトレーニングデータセットに基づいて、所望の機能を予測するようにニューラルネットワーク(例えば深層ニューラルネットワーク)をトレーニングすることによって構築される。エンコーダモデルは、1D畳み込み(例えば一級アミノ酸配列)、2D畳み込み(例えば、アミノ酸相互作用のコンタクトマップ)、又は3D畳み込み(例えば三次タンパク質構造)の形態の畳み込みニューラルネットワーク(CNN)を使用した教師ありモデルであることができる。畳み込みアーキテクチャは、以下に記載のアーキテクチャのいずれかであることができる:VGG16、VGG19、深層ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、又はMobileNet。
【0042】
幾つかの態様では、エンコーダは任意の数の代替の正則化法を利用して、過学習を回避する。正則化法の非限定的な説明のための例には、少なくとも1、2、3、4、最高で全層におけるドロップアウト、少なくとも1、2、3、4、最高で全層におけるL1-L2正則化、少なくとも1、2、3、4、最高で全層におけるスキップ接続を含む最適停止がある。本明細書では「ドロップアウト」という用語は特に、トレーニングが実際には、多数のわずかに異なるネットワークアーキテクチャに対して実行されるように、トレーニング中、層のニューロン又は他の処理単位の幾つかをランダムに非活性化させることを含み得る。これは、このトレーニングデータから一般化知識を学習するのではなく、「過学習」、即ち手元にある具体的なトレーニングデータへのネットワークの過剰適合を低減する。代替として又はこれと組み合わせて、正則化はバッチ正規化又はグループ正規化を使用して実行することができる。
【0043】
幾つかの態様では、エンコーダは以下の非限定的な最適化手順のいずれかを使用して最適化される:Adam、RMS prop、モーメント項付き確率的勾配降下法(SGD)、モーメンタム項及びネステロプ項付きSGD、モーメンタム項なしSGD、Adagrad、Adadelta、又はNAdam。モデルは以下の活性化関数のいずれかを使用して最適化することができる:softmax、elu、SeLU、softplus、softsign、ReLU、tanh、シグモイド、ハードシグモイド、指数、PReLU、及び漏洩ReLU、又は線形。
【0044】
幾つかの態様では、エンコーダは3層~100,000層を含む。幾つかの態様では、エンコーダは、3層~5層、3層~10層、3層~50層、3層~100層、3層~500層、3層~1,000層、3層~5,000層、3層~10,000層、3層~50,000層、3層~100,000層、3層~100,000層、5層~10層、5層~50層、5層~100層、5層~500層、5層~1,000層、5層~5,000層、5層~10,000層、5層~50,000層、5層~100,000層、5層~100,000層、10層~50層、10層~100層、10層~500層、10層~1,000層、10層~5,000層、10層~10,000層、10層~50,000層、10層~100,000層、10層~100,000層、50層~100層、50層~500層、50層~1,000層、50層~5,000層、50層~10,000層、50層~50,000層、50層~100,000層、50層~100,000層、100層~500層、100層~1,000層、100層~5,000層、100層~10,000層、100層~50,000層、100層~100,000層、100層~100,000層、500層~1,000層、500層~5,000層、500層~10,000層、500層~50,000層、500層~100,000層、500層~100,000層、1,000層~5,000層、1,000層~10,000層、1,000層~50,000層、1,000層~100,000層、1,000層~100,000層、5,000層~10,000層、5,000層~50,000層、5,000層~100,000層、5,000層~100,000層、10,000層~50,000層、10,000層~100,000層、10,000層~100,000層、50,000層~100,000層、50,000層~100,000層、又は100,000層~100,000層を含む。幾つかの態様では、エンコーダは3層、5層、10層、50層、100層、500層、1,000層、5,000層、10,000層、50,000層、100,000層、又は100,000層を含む。幾つかの態様では、エンコーダは少なくとも3層、5層、10層、50層、100層、500層、1,000層、5,000層、10,000層、50,000層、又は100,000層を含む。幾つかの態様では、エンコーダは多くとも5層、10層、50層、100層、500層、1,000層、5,000層、10,000層、50,000層、100,000層、又は100,000層を含む。
【0045】
幾つかの態様では、エンコーダは、生のアミノ酸配列を所与として、タンパク質又はポリペプチドの機能又は性質を予測するようにトレーニングされる。予測学習の副産物として、エンコーダのペナルチメート(penultimate)層は元配列を埋め込み空間に符号化する。したがって、所与の配列を埋め込むために、その所与の配列はペナルチメート層までネットワークの全層を通過し、ペナルチメート層における活性化パターンが埋め込みとしてとられる。図1は、エンコーダ100の非限定的な埋め込みをニューラルネットワークとして示す図である。エンコーダニューラルネットワークは、入力配列110を所与として特定の機能102を予測するようにトレーニングされる。ペナルチメート層は、所与の配列の機能についての全ての情報を符号化する二次元埋め込み104である。したがって、エンコーダは、アミノ酸配列又はアミノ酸配列に対応する核酸配列等の入力配列を取得し、配列を処理して、埋め込み空間内のアミノ酸配列の機能を捕捉するソース配列の埋め込み又はベクトル表現を作成することができる。初期ソース配列の選択は、合理的な手段(例えば、最高レベルの機能を有するタンパク質)に基づいてもよく、又は何らかの他の手段(例えばランダム選択)によってもよい。
【0046】
しかしながら、エンコーダが入力配列から機能の具体的な定量的値まで経ることが厳密に求められるわけではない。むしろ、エンコーダとは別個の層又は他の処理単位は、エンコーダによって送られる埋め込みに取り込まれ、これを機能の探し求められる定量的値にマッピングし得る。そのような一態様を図3Aに示す。
【0047】
エンコーダ及びデコーダは、エンコーダデコーダ構成で少なくとも部分的に連携してトレーニングし得る。機能の定量的値がエンコーダ内で評価されるか、又はエンコーダ外で評価されるかに関係なく、入力生体高分子配列から開始して、エンコーダによって産生される埋め込み空間中の圧縮表現はデコーダに供給し得、次いで、デコーダによって送られた確率的生体高分子配列が元の入力生体高分子配列と一致する程度を特定し得る。例えば、1つ又は複数のサンプルを確率的生体高分子配列から取り出し得、1つ又は複数の取り出されたサンプルを元の入力生体高分子配列と比較し得る。次いで、確率的生体高分子配列と元の入力生体高分子配列との一致が最大化されるように、エンコーダ及び/又はデコーダの挙動を特徴付けるパラメータを最適化し得る。
【0048】
後に考察するように、そのような一致は所定の損失関数(「再構築損失」)によって測定し得る。その上、機能の予測は、予測によって再現すべき機能の既知の値がラベルされた入力生体高分子配列でトレーニングし得る。機能の実際の既知の値との予測の一致は、上記再構築損失を任意の適した様式で組み合わせ得る別の損失によって測定し得る。
【0049】
幾つかの態様では、エンコーダは少なくとも部分的に転移学習を使用して生成されて、性能を改善する。開始点は、出力層(又は1つ若しくは複数の追加の層)以外は凍結された完全な最初のモデルであることができ、標的タンパク質機能又はタンパク質特徴でトレーニングされる。開始点は予めトレーニングされたモデルであってもよく、その場合、埋め込み層、最後の2層、最後の3層、又は全層は凍結されず、モデルの残りの部分は、標的タンパク質機能又はタンパク質特徴でのトレーニング中、凍結される。
【0050】
[埋め込み空間での勾配ベースのタンパク質設計]
幾つかの態様では、本明細書に開示されるデバイス、ソフトウェア、システム、及び方法は、一級アミノ酸配列等の入力データの初期埋め込みを取得し、特定の機能又は性質に向けて埋め込みを最適化する。幾つかの態様では、埋め込みが作成されると、埋め込みは、「バックプロパゲーション」法等の数学的方法を使用して所与の機能に向けて最適化されて、最適化すべき機能に関する埋め込みの導関数を計算する。初期埋め込みE、学習速度r、機能Fの勾配∇Fを所与として、以下の更新を実行して、新たな埋め込みEを作成することができる:
=E+r∇F
【0051】
Fの勾配(∇F)はエンコーダネットワークによって暗黙的に定義され、エンコーダは略あらゆる場所で微分可能であることに起因して、機能に関する埋め込みの導関数を計算することができる。上記更新手順は、所望の機能レベルが達成されるまで繰り返すことができる。
【0052】
図3Bは勾配ベースの設計(GBD)の反復を示す図である。まず、ソース埋め込み354が、デコーダ356及び教師ありモデル358で構成されるGBDネットワーク350に供給される。勾配364が計算され、新たな埋め込みの産生に使用され、新たな埋め込みは次いで、デコーダ356を介してGBDネットワーク350にフィードバックされて、最終的に機能F382を生成する。このプロセスは、所望の機能レベルが得られるまで又は予測された機能が飽和するまで、繰り返すことができる。
【0053】
この更新ルールに可能な多くの変形があり、変形は、rの異なるステップサイズ並びにAdam、RMS Prop、Ada delta、AdamMAX、及びモーメンタム項付きSGD等の異なる最適化方式を含む。さらに、上記更新は、一次導関数についての情報のみを使用する「一次」法の一例であるが、幾つかの態様では例えば、ヘシアンに含まれる情報を利用する二次法等のより高次の方法を利用することができる。
【0054】
本明細書に記載の埋め込み最適化手法を使用して、制約及び他の所望のデータは、更新式に組み込むことができる限り、組み込むことが可能である。幾つかの態様では、埋め込みは、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、又は少なくとも10のパラメータ(例えば所望の機能及び/又は性質)について最適化される。説明のための非限定的な例として、配列は機能F(例えば蛍光)及び機能F(例えば熱安定性)の両方について最適化されている。このシナリオでは、エンコーダはこれらの両機能を予測するようにトレーニングされており、したがって、所望のように機能を重み付ける、両機能を最適化プロセスに組み込む複合機能F=c+cを使用することができる。したがって、この複合機能は、本明細書に記載の勾配ベースの更新手順等を使用して最適化することができる。幾つかの態様では、本明細書に記載のデバイス、ソフトウェア、システム、及び方法は、この枠組下でのF及びFの相対的選好を表現する重みを組み込んだ複合機能を利用する(例えば、大方、蛍光を最大化するが、幾らかの熱安定性も組み込む)。
【0055】
[元のタンパク質空間へのマッピング:デコーダネットワーク]
幾つかの態様では、本明細書に開示されるデバイス、ソフトウェア、システム、及び方法は、何らかの所望のレベルの機能を達成するように最適化されたシード埋め込みを取得し、デコーダを利用して、埋め込み空間での最適化された座標を元のタンパク質空間にマッピングする。幾つかの態様では、ニューラルネットワーク等のデコーダは、埋め込みを含む入力に基づいてアミノ酸配列を産生するようにトレーニングされる。このネットワークは基本的にエンコーダの「逆」を提供し、深層畳み込みニューラルネットワークを使用して実施することができる。換言すれば、エンコーダは入力アミノ酸配列を受け取り、埋め込み空間にマッピングされる配列の埋め込みを生成し、デコーダは入力(最適化された)埋め込み座標を受け取り、その結果としてのアミノ酸配列を生成する。デコーダは、ラベル付きデータ(例えば抗生物質耐性情報がラベルされたβラクタマーゼ)又はラベルなしデータ(例えば抗生物質耐性情報のないβラクタマーゼ)を使用してトレーニングすることができる。幾つかの態様では、デコーダ及びエンコーダの全体構造は同じである。例えば、デコーダでのバリエーション(アーキテクチャ、層数、オプティマイザ等)の数は、エンコーダの場合と同じであることができる。
【0056】
幾つかの態様では、本明細書に開示されるデバイス、ソフトウェア、システム、及び方法はデコーダを利用して、一級アミノ酸配列又は他の生体高分子配列等の入力を処理し、予測された配列(例えば、各位置にアミノ酸の分布を有する確率的配列)を生成する。幾つかの態様では、デコーダは、ラベル付きトレーニングデータセットに基づいて予測配列を生成するようにニューラルネットワーク(例えば深層ニューラルネットワーク)をトレーニングすることによって構築される。例えば、ラベル付きトレーニングデータから埋め込みを生成し、次いで埋め込みを使用してデコーダをトレーニングすることができる。デコーダモデルは、1D畳み込み(例えば一級アミノ酸配列)、2D畳み込み(例えば、アミノ酸相互作用のコンタクトマップ)、又は3D畳み込み(例えば三次タンパク質構造)の形態の畳み込みニューラルネットワーク(CNN)を使用した教師ありモデルであることができる。畳み込みアーキテクチャは、以下に記載のアーキテクチャのいずれかであることができる:VGG16、VGG19、深層ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、又はMobileNet。
【0057】
幾つかの態様では、デコーダは任意の数の代替の正則化法を利用して、過学習を回避する。正則化法の非限定的な説明のための例には、少なくとも1、2、3、4、最高で全層におけるドロップアウト、少なくとも1、2、3、4、最高で全層におけるL1-L2正則化、少なくとも1、2、3、4、最高で全層におけるスキップ接続を含む最適停止がある。正則化はバッチ正規化又はグループ正規化を使用して実行することができる。
【0058】
幾つかの態様では、デコーダは以下の非限定的な最適化手順のいずれかを使用して最適化される:Adam、RMS prop、モーメント項付き確率的勾配降下法(SGD)、モーメンタム項及びネステロプ項付きSGD、モーメンタム項なしSGD、Adagrad、Adadelta、又はNAdam。モデルは以下の活性化関数のいずれかを使用して最適化することができる:softmax、elu、SeLU、softplus、softsign、ReLU、tanh、シグモイド、ハードシグモイド、指数、PReLU、及び漏洩ReLU、又は線形。
【0059】
幾つかの態様では、デコーダは3層~100,000層を含む。幾つかの態様では、デコーダは、3層~5層、3層~10層、3層~50層、3層~100層、3層~500層、3層~1,000層、3層~5,000層、3層~10,000層、3層~50,000層、3層~100,000層、3層~100,000層、5層~10層、5層~50層、5層~100層、5層~500層、5層~1,000層、5層~5,000層、5層~10,000層、5層~50,000層、5層~100,000層、5層~100,000層、10層~50層、10層~100層、10層~500層、10層~1,000層、10層~5,000層、10層~10,000層、10層~50,000層、10層~100,000層、10層~100,000層、50層~100層、50層~500層、50層~1,000層、50層~5,000層、50層~10,000層、50層~50,000層、50層~100,000層、50層~100,000層、100層~500層、100層~1,000層、100層~5,000層、100層~10,000層、100層~50,000層、100層~100,000層、100層~100,000層、500層~1,000層、500層~5,000層、500層~10,000層、500層~50,000層、500層~100,000層、500層~100,000層、1,000層~5,000層、1,000層~10,000層、1,000層~50,000層、1,000層~100,000層、1,000層~100,000層、5,000層~10,000層、5,000層~50,000層、5,000層~100,000層、5,000層~100,000層、10,000層~50,000層、10,000層~100,000層、10,000層~100,000層、50,000層~100,000層、50,000層~100,000層、又は100,000層~100,000層を含む。幾つかの態様では、デコーダは3層、5層、10層、50層、100層、500層、1,000層、5,000層、10,000層、50,000層、100,000層、又は100,000層を含む。幾つかの態様では、デコーダは少なくとも3層、5層、10層、50層、100層、500層、1,000層、5,000層、10,000層、50,000層、又は100,000層を含む。幾つかの態様では、デコーダは多くとも5層、10層、50層、100層、500層、1,000層、5,000層、10,000層、50,000層、100,000層、又は100,000層を含む。
【0060】
幾つかの態様では、デコーダは、配列の埋め込みを所与として、タンパク質又はポリペプチドの生のアミノ酸配列を予測するようにトレーニングされる。幾つかの態様では、デコーダは、少なくとも部分的に転移学習を使用して生成されて、性能を改善する。開始点は、出力層(又は1つ若しくは複数の追加の層)以外は凍結された完全な最初のモデルであることができ、標的タンパク質機能又はタンパク質特徴でトレーニングされる。開始点は予めトレーニングされたモデルであってもよく、その場合、埋め込み層、最後の2層、最後の3層、又は全層は凍結されず、モデルの残りの部分は、標的タンパク質機能又はタンパク質特徴でのトレーニング中、凍結される。
【0061】
幾つかの態様では、デコーダは、エンコーダがトレーニングされるものと同様の手順を使用してトレーニングされる。例えば、配列のトレーニングセットが取得され、トレーニングされたエンコーダを使用してそれらの配列の埋め込みを作成する。これらの埋め込みは、デコーダの入力を表し、一方、出力は、デコーダが予測した元の配列である。幾つかの態様では、畳み込みニューラルネットワークが、エンコーダのアーキテクチャを逆にミラーリングするデコーダに利用される。他のタイプのニューラルネットワーク、例えば長短期記憶(LSTM)ネットワーク等のリカレントニューラルネットワーク(RNN)を使用することもできる。
【0062】
デコーダは、損失、残基ごとのカテゴリ交差エントロピーを最小化し、所与の埋め込みにマッピングされる配列を再構築するようにトレーニングすることができる(再構築損失とも呼ばれる)。幾つかの態様では、追加項が損失に追加され、これはプロセスに相当な改良を提供することが分かっている。以下の表記が本明細書で使用され:
a.x:アミノ酸配列
b.y:xの関心のある測定可能な性質、例えば蛍光、
c.f(x):xをとり、yを予測する関数、例えば深層ニューラルネットワーク、
d.enc(x):配列(x)の埋め込み(e)を産生するf(x)のサブモジュール、
e.dec(e):埋め込み(e)をとり、再構築配列(x’)を産生する別個のデコーダモジュール、
f.x’:デコーダdec(e)の出力、例えば埋め込み(e)から生成された再構築配列。
【0063】
再構築損失に加えて、再構築配列(x’)は元の教師ありモデルf(x’)にフィードバックされて、デコーダの再構築配列を使用して予測された値を産生する(これをy’と呼ぶ)。再構築配列の予測値(y’)は、所与の配列の予測値と比較される(これをyと呼び、f(x)を使用して計算される)。同様のx値及びx’値及び/又は同様のy’値及びy値は、デコーダが効率的に機能していることを示す。これを行うために、幾つかの態様では、カルバックライブラー情報量(KLD)を使用してネットワークの損失関数に追加項が追加される.任意のy’とyとの間のKLDは、
a.KLD(y^’,y^)=y^’log(y^/y’)
として表される。
【0064】
これを組み込んだ損失は、
a.loss=λ_1CCE+λ_2KLD(y^’,y^
として表され、式中、CCEはカテゴリ交差エントロピー再構築損失であり、λ_1及びλ_2は調整パラメータである。
【0065】
図2は、デコーダの一例をニューラルネットワークとして示す図である。デコーダネットワーク200は4層のノードを有し、第1の層202は埋め込み層に対応し、入力を本明細書に記載のエンコーダから受け取ることができる。この説明のための例では、次の2つの層204及び206は隠れ層であり、最後の層208は、埋め込みから「デコード」されたアミノ酸配列を出力する最終層である。
【0066】
図3Aは、勾配ベースの設計手順の全体像一態様を示す図である。エンコーダ310を使用して、ソース埋め込み304を生成することができる。ソース埋め込みはデコーダ306に供給され、これは次いで確率的配列(例えば、各残基におけるアミノ酸の分布)に変わる。確率的配列は次いで、エンコーダ310を含む教師ありモデル308によって処理されて、予測機能値312を産生することができる。関数(F)モデルの勾配314が入力埋め込み304に関してとられ、教師ありモデル及びデコーダを通してのバックプロパゲーションを使用することによって計算される。
【0067】
図3Cは、デコーダによって産生される確率的生体高分子配列390の一例を示す。この例では、確率的生体高分子配列390は行列392で示され得る。行列392の列は20の考えられるアミノ酸の各々を表し、行は、長さLを有するタンパク質中の残基位置を表す。最初のアミノ酸(1行目)は常にメチオニンであり、したがって、M(7列目)は確率1を有し、残りのアミノ酸は確率0を有する。次の残基(2行目)は一例として確率80%でW、確率20%でGを有することができる。配列を生成するために、この行列によって暗示される最大尤度配列を選択することができ、各位置で最高の確率を有するアミノ酸の選択が付随する。代替的には、配列は、アミノ酸確率に従って各位置をサンプリングすることにより、例えばそれぞれ確率80%vs確率20%で位置2におけるW又はGをランダムで選ぶことによってランダムに生成することができる。
【0068】
[デコーダ検証]
幾つかの態様では、本明細書に開示されるデバイス、ソフトウェア、システム、及び方法は、デコーダの性能を決めるデコーダ検証枠組みを提供する。有効なデコーダは、どの配列が所与の埋め込みにマッピングされるかを非常に高い精度で予測することが可能である。したがって、デコーダは、本明細書に記載のエンコーダ及びエンコーダデコーダ枠組みの両方を使用して同じ入力(例えばアミノ酸配列)を処理することによって検証することができる。エンコーダは、エンコーダデコーダ枠組みの出力を評価することができる参照として機能する所望の機能及び/又は性質を示す出力を生成する。説明のための例として、エンコーダ及びデコーダは本明細書に記載の手法に従って生成される。次にトレーニングセット及び検証セット中の各タンパク質がエンコーダを使用して埋め込まれる。次いでそれらの埋め込みはデコーダを使用してデコードされる。最後に、デコードされた配列の機能値がエンコーダを使用して予測され、これらの予測値を元の配列を使用して予測された値と比較する。
【0069】
デコーダ検証プロセス400の一態様の概要を図4に示す。図4に示すように、エンコーダニューラルネットワーク402は上に示され、入力として一級アミノ酸配列(例えば緑色蛍光タンパク質の)を受け取り、配列を処理して、機能の予測406(例えば蛍光強度)を出力する。下のエンコーダデコーダ枠組み408は、予測406の計算がないことを除いてエンコーダニューラルネットワーク402と同一であるペナルチメート埋め込み層を有するエンコーダネットワーク412を示す。エンコーダネットワーク412はデコーダネットワーク410に接続又はリンクされ(又は他の方法で入力を提供し)、配列をデコードし、これは次いでエンコーダネットワーク402に再び供給されて、予測された機能416に辿り着く。したがって、2つの予測406及び416の値が近い場合、この結果は、デコーダ410が所望の機能に対応する配列に埋め込みを有効にマッピングしていることの検証を提供する。
【0070】
予測値間の類似性又は対応性は任意の数の方法で計算することができる。幾つかの態様では、元の配列からの予測値とデコードされた配列からの予測値との間の相関が特定される。幾つかの態様では、相関は約0.7~約0.99である。幾つかの態様では、相関は約0.7~約0.75、約0.7~約0.8、約0.7~約0.85、約0.7~約0.9、約0.7~約0.95、約0.7~約0.99、約0.75~約0.8、約0.75~約0.85、約0.75~約0.9、約0.75~約0.95、約0.75~約0.99、約0.8~約0.85、約0.8~約0.9、約0.8~約0.95、約0.8~約0.99、約0.85~約0.9、約0.85~約0.95、約0.85~約0.99、約0.9~約0.95、約0.9~約0.99、又は約0.95~約0.99である。幾つかの態様では、相関は約0.7、約0.75、約0.8、約0.85、約0.9、約0.95、又は約0.99である。幾つかの態様では、相関は少なくとも約0.7、約0.75、約0.8、約0.85、約0.9、又は約0.95である。幾つかの態様では、相関は多くとも約0.75、約0.8、約0.85、約0.9、約0.95、又は約0.99である。
【0071】
追加の性能尺度、例えば陽性的中率(PPV)、F1、平均二乗誤差、受信者動作特性(ROC)下面積、及び適合率再現率曲線(PRC)下面積を使用して、本明細書に開示されるシステム及び方法を検証することができる。
【0072】
幾つかの態様では、本明細書に開示される方法は陽性的中率(PPV)を有する結果を生成する。幾つかの態様では、PPVは0.7~0.99である。幾つかの態様では、PPVは0.7~0.75、0.7~0.8、0.7~0.85、0.7~0.9、0.7~0.95、0.7~0.99、0.75~0.8、0.75~0.85、0.75~0.9、0.75~0.95、0.75~0.99、0.8~0.85、0.8~0.9、0.8~0.95、0.8~0.99、0.85~0.9、0.85~0.95、0.85~0.99、0.9~0.95、0.9~0.99、又は0.95~0.99である。幾つかの態様では、PPVは0.7、0.75、0.8、0.85、0.9、0.95、又は0.99である。幾つかの態様では、PPVは少なくとも0.7、0.75、0.8、0.85、0.9、又は0.95である。幾つかの態様では、PPVは多くとも0.75、0.8、0.85、0.9、0.95、又は0.99である。
【0073】
幾つかの態様では、本明細書に開示される方法はF1値を有する結果を生成する。幾つかの態様では、F1は0.5~0.95である。幾つかの態様では、F1は0.5~0.6、0.5~0.7、0.5~0.75、0.5~0.8、0.5~0.85、0.5~0.9、0.5~0.95、0.6~0.7、0.6~0.75、0.6~0.8、0.6~0.85、0.6~0.9、0.6~0.95、0.7~0.75、0.7~0.8、0.7~0.85、0.7~0.9、0.7~0.95、0.75~0.8、0.75~0.85、0.75~0.9、0.75~0.95、0.8~0.85、0.8~0.9、0.8~0.95、0.85~0.9、0.85~0.95、又は0.9~0.95である。幾つかの態様では、F1は0.5、0.6、0.7、0.75、0.8、0.85、0.9、又は0.95である。幾つかの態様では、F1は少なくとも0.5、0.6、0.7、0.75、0.8、0.85、又は0.9である。幾つかの態様では、F1は多くとも0.6、0.7、0.75、0.8、0.85、0.9、又は0.95である。
【0074】
幾つかの態様では、本明細書に開示される方法は平均二乗誤差を有する結果を生成する。幾つかの態様では、平均二乗誤差は0.01~0.3である。幾つかの態様では、平均二乗誤差は0.01~0.05、0.01~0.1、0.01~0.15、0.01~0.2、0.01~0.25、0.01~0.3、0.05~0.1、0.05~0.15、0.05~0.2、0.05~0.25、0.05~0.3、0.1~0.15、0.1~0.2、0.1~0.25、0.1~0.3、0.15~0.2、0.15~0.25、0.15~0.3、0.2~0.25、0.2~0.3、又は0.25~0.3である。幾つかの態様では、平均二乗誤差は0.01、0.05、0.1、0.15、0.2、0.25、又は0.3である。幾つかの態様では、平均二乗誤差は少なくとも0.01、0.05、0.1、0.15、0.2、又は0.25である。幾つかの態様では、平均二乗誤差は多くとも0.05、0.1、0.15、0.2、0.25、又は0.3である。
【0075】
幾つかの態様では、本明細書に開示される方法はROC下面積を有する結果を生成する。幾つかの態様では、ROC下面積は0.7~0.95である。幾つかの態様では、ROC下面積は0.95~0.9、0.95~0.85、0.95~0.8、0.95~0.75、0.95~0.7、0.9~0.85、0.9~0.8、0.9~0.75、0.9~0.7、0.85~0.8、0.85~0.75、0.85~0.7、0.8~0.75、0.8~0.7、又は0.75~0.7である。幾つかの態様では、ROC下面積は0.95、0.9、0.85、0.8、0.75、又は0.7である。幾つかの態様では、ROC下面積は少なくとも0.95、0.9、0.85、0.8、又は0.75である。幾つかの態様では、ROC下面積は多くとも0.9、0.85、0.8、0.75、又は0.7である。
【0076】
幾つかの態様では、本明細書に開示される方法はPRC下面積を有する結果を生成する。幾つかの態様では、PRC下面積は0.7~0.95である。幾つかの態様では、PRC下面積は0.95~0.9、0.95~0.85、0.95~0.8、0.95~0.75、0.95~0.7、0.9~0.85、0.9~0.8、0.9~0.75、0.9~0.7、0.85~0.8、0.85~0.75、0.85~0.7、0.8~0.75、0.8~0.7、又は0.75~0.7である。幾つかの態様では、PRC下面積は0.95、0.9、0.85、0.8、0.75、又は0.7である。幾つかの態様では、PRC下面積は少なくとも0.95、0.9、0.85、0.8、又は0.75である。幾つかの態様では、PRC下面積は多くとも0.9、0.85、0.8、0.75、又は0.7である。
【0077】
[ポリペプチド配列の予測]
本明細書に記載されるのは、初期アミノ酸配列(又はアミノ酸配列をコードする核酸配列)等の入力データを評価して、特定の機能又は性質を有するように構成されたポリペプチド又はタンパク質に対応する1つ又は複数の新規のアミノ酸配列を予測するデバイス、ソフトウェア、システム、及び方法である。特定の機能を実行又は特定の性質を有することが可能な特定のアミノ酸配列(例えばタンパク質)の外挿は、分子生物学の長年の目標であった。したがって、本明細書に記載のデバイス、ソフトウェア、システム、及び方法は、人工知能又は機械学習技法の能力をポリペプチド又はタンパク質解析に利用して、配列情報についての予測を行う。機械学習技法は、標準の非ML手法と比較して、予測能力が増大したモデルを生成できるようにする。幾つかの場合、所望の出力に向けてモデルをトレーニングするのに利用可能なデータが不十分であるとき、転移学習が利用されて、予測精度を改善する。代替的には、幾つかの場合、転移学習を組み込むモデルと同等の統計学的パラメータを達成するようにモデルをトレーニングするのに十分なデータがあるとき、転移学習は利用されない。
【0078】
幾つかの態様では、入力データは、タンパク質又はポリペプチドの一次アミノ酸配列を含む。幾つかの場合、モデルは、一次アミノ酸配列を含むラベル付きトレーニングデータセットを使用してトレーニングされる。例えば、データセットは、蛍光強度に基づいてラベル付けられた蛍光タンパク質のアミノ酸配列を含むことができる。したがって、モデルは、機械学習法を使用してこのデータセットでトレーニングされて、アミノ酸配列入力の蛍光強度の予測を生成することができる。換言すれば、モデルは、一級アミノ酸配列入力に基づいて機能を予測するようにトレーニングされた深層ニューラルネットワーク等のエンコーダであることができる。幾つかの態様では、入力データは、一次アミノ酸配列に加えて、例えば、表面電荷、疎水性表面エリア、実測又は予測の溶解性、又は他の関連情報等の情報を含む。幾つかの態様では、入力データは、複数のタイプ又はカテゴリのデータを含む多次元入力データを含む。
【0079】
幾つかの態様では、本明細書において記載のデバイス、ソフトウェア、システム、及び方法は、データ拡張を利用して、予測モデルの性能を強化する。データ拡張は、トレーニングデータセットの、類似するが異なる例又は変形を使用したトレーニングを伴う。一例として、画像分類では、画像データは、画像の向きをわずかに変更すること(例えば、わずかな回転)により拡張することができる。幾つかの態様では、データ入力(例えば、一次アミノ酸配列)は、一次アミノ酸配列へのランダム変異及び/又は生物学的情報に基づく変異(biologically informed mutation)、多重配列アラインメント、アミノ酸相互作用のコンタクトマップ、及び/又は三次タンパク質構造により拡張される。追加の拡張戦略には、選択的スプライシング転写からの公知及び予測のアイソフォームの使用がある。例えば、入力データは、同じ機能又は特性に対応する選択的スプライシング転写のアイソフォームを含むことにより拡張することができる。したがって、アイソフォーム又は変異についてのデータは、予測される機能又は特性にあまり影響しない一次配列の部分又は特徴を識別できるようにすることができる。これにより、モデルは、例えば、安定性等の予測されるタンパク質特性を強化し、低減し、又は影響しないアミノ酸変異等の情報を考慮に入れることができる。例えば、データ入力は、機能に影響しないことが公知である位置におけるランダム置換アミノ酸を有する配列を含むことができる。これにより、このデータでトレーニングされたモデルは、それらの特定の変異に関して、予測される機能が不変であることを学習することができる。
【0080】
本明細書に記載のデバイス、ソフトウェア、システム、及び方法は、多種多様な異なる機能及び/又は性質の1つ又は複数に基づいて配列予測を生成するのに使用することができる。予測はタンパク質の機能及び/又は性質(例えば酵素活性、安定性等)を含むことができる。アミノ酸配列は、タンパク質安定性に基づいて予測又はマッピングすることができ、これは例えば、熱安定性、酸化安定性、又は血清安定性等の種々の尺度を含むことができる。幾つかの態様では、エンコーダは、例えば、二次構造、三次タンパク質構造、四次構造、又はそれらの任意の組合せ等の1つ又は複数の構造的特徴に関連する情報を組み込むように構成される。二次構造は、アミノ酸又はポリペプチド内のアミノ酸の配列が、アルファヘリックス構造、ベータシート構造、それとも無秩序若しくはループ構造を有するかの指示を含むことができる。三次構造は、三次元空間におけるアミノ酸又はポリペプチドの部分の場所又は位置を含むことができる。四次構造は、1つのタンパク質を形成する複数のポリペプチドの場所又は位置を含むことができる。幾つかの態様では、予測は1つ又は複数の機能に基づく配列を含む。ポリペプチド又はタンパク質の機能は、代謝反応、DNA複製、構造の提供、輸送、抗原認識、細胞内又は細胞外シグナリング、及び他の機能カテゴリを含む種々のカテゴリに属することができる。幾つかの態様では、予測は、例えば、触媒効率(例えば、特異性定数kcat/K)又は触媒特異性等の酵素機能を含む。
【0081】
幾つかの態様では、配列予測は、タンパク質又はポリペプチドの酵素機能に基づく。幾つかの態様では、タンパク質機能は酵素機能である。酵素は、種々の酵素反応を実行することができ、転移酵素(例えば、官能基をある分子から別の分子に移す)、酸素還元酵素(例えば、酸化還元反応を触媒する)、加水分解酵素(例えば、加水分解を介して化学結合を開裂させる)、脱離酵素(例えば、二重結合を生成する)、リガーゼ(例えば、共有結合を介して2つの分子を連結する)、及び異性化酵素(例えば、分子内のある異性体から別の異性体への構造変化を触媒する)として分類することができる。幾つかの態様では、加水分解酵素は、セリンプロテアーゼ、トレオニンプロテアーゼ、システインプロテアーゼ、メタロプロテアーゼ、アスパラギンペプチドリアーゼ、グルタミン酸プロテアーゼ、及びアスパラギン酸プロテアーゼ等のプロテアーゼを含む。セリンプロテアーゼは、血液凝固、創傷治癒、消化、免疫応答、並びに腫瘍の湿潤及び転移等の種々の生理学的役割を有する。セリンプロテアーゼの例には、キモトリプシン、トリプシン、エラスターゼ、第10因子、第11因子、トロンビン、プラスミン、C1r、C1s、及びC3転換酵素がある。トレオニンプロテアーゼは、活性触媒部位内にトレオニンを有するプロテアーゼのファミリを含む。トレオニンプロテアーゼの例には、プロテアソームのサブユニットがある。プロテアソームは、アルファ及びベータサブユニットで構成される樽形タンパク質複合体である。触媒活性ベータサブユニットは、触媒作用の各活性部位に保存N末端トレオニンを含むことができる。システインプロテアーゼは、システインスルフヒドリル基を利用する触媒メカニズムを有する。システインプロテアーゼの例には、パパイン、カテプシン、カスパーゼ、及びカルパインがある。アスパラギン酸プロテアーゼは、活性部位における酸/塩基触媒作用に参加する2つのアスパラギン酸残基を有する。アスパラギン酸プロテアーゼの例には、消化酵素ペプシン、幾つかのリソソームプロテアーゼ、及びレニンがある。メタロプロテアーゼは、消化酵素カルボキシペプチダーゼ、細胞外基質リモデリング及び細胞シグナリングにおいて役割を果たすマトリックスメタロプロテアーゼ(MMP)、ADAM(ジスインテグリン及びメタロプロテアーゼドメイン)、及びリソソームプロテアーゼを含む。酵素の他の非限定的な例には、プロテアーゼ、ヌクレアーゼ、DNAリガーゼ、リガーゼ、ポリメラーゼ、セルラーゼ、リギナーゼ(liginase)、アミラーゼ、リパーゼ、ペクチナーゼ、キシラナーゼ、リグニンペルオキシダーゼ、デカルボキシラーゼ、マンナナーゼ、デヒドロゲナーゼ、及び他のポリペプチド系酵素がある。
【0082】
幾つかの態様では、酵素応答は、標的分子の翻訳後修飾を含む。翻訳後修飾の例には、アセチル化、アミド化、ホルミル化、グリコシル化、ヒドロキシル化、メチル化、ミリストイル化、リン酸化、脱アミド化、プレニル化(例えば、ファルネシル化、ゲラニル化等)、ユビキチン化、リボシル化、及び硫酸化がある。リン酸化は、チロシン、セリン、トレオニン、又はヒスチジン等のアミノ酸で生じることができる。
【0083】
幾つかの態様では、タンパク質機能は、熱を加える必要のない光放射である発光である。幾つかの態様では、タンパク質機能は、生物発光等の化学発光である。例えば、ルシフェリン等の化学発光酵素は、基質(ルシフェリン)に作用して、基質の酸化を触媒し、それにより、光を放つことができる。幾つかの態様では、タンパク質機能は、蛍光タンパク質又はペプチドが特定の波長の光を吸収し、異なる波長の光を放出する蛍光である。蛍光タンパク質の例には、緑色蛍光タンパク質(GFP)又はEBFP、EBFP2、Azurite、mKalama1等のGFPの誘導体ECFP、Cerulean、CyPet、YFP、Citrine、Venus、又はYPetがある。GFP等の幾つかのタンパク質は天然蛍光性である。蛍光タンパク質の例には、EGFP、青色蛍光タンパク質(EBFP、EBFP2、Azurite、mKalamal)、シアン蛍光タンパク質(ECFP、Cerulean、CyPet)、黄色蛍光タンパク質(YFP、Citrine、Venus、YPet)、酸化還元感受性GFP(roGFP)、及び単量体GFPがある。
【0084】
幾つかの態様では、タンパク質機能は、酵素機能、結合(例えば、DNA/RNA結合、タンパク質結合等)、免疫機能(例えば抗体)、収縮(例えば、アクチン、ミオシン)、及び他の機能を含む。幾つかの態様では、出力は、例えば、酵素機能又は結合の運動学等のタンパク質機能に関連付けられた一級配列を含む。一例として、そのような出力は、親和性、特異性、又は反応速度等の所望の尺度を組み込む複合機能を最適化することによって取得することができる。
【0085】
幾つかの態様では、本明細書に開示されるシステム及び方法は機能又は性質に対応する生体高分子配列を生成する。幾つかの場合、生体高分子配列は核酸である。幾つかの場合、生体高分子配列はポリペプチドである。特定の生体高分子配列の例には、GFP等の蛍光タンパク質及びβラクタマーゼ等の酵素がある。一事例では、avGFP等の参照GFPは、以下の配列を有するアミノ酸238個分の長さのポリペプチドによって定義される。
【化1】
【0086】
勾配ベースの設計を使用して設計されるGFPは、参照GFP配列に対して100%未満の配列同一性を有する配列を含むことができる。幾つかの場合、GBD最適化されたGFP配列は配列番号1に関して配列同一性80%~99%を有する。幾つかの場合、GBD最適化されたGFP配列は配列番号1に関して配列同一性80%~85%、80%~90%、80%~95%、80%~96%、80%~97%、80%~98%、80%~99%、85%~90%、85%~95%、85%~96%、85%~97%、85%~98%、85%~99%、90%~95%、90%~96%、90%~97%、90%~98%、90%~99%、95%~96%、95%~97%、95%~98%、95%~99%、96%~97%、96%~98%、96%~99%、97%~98%、97%~99%、又は98%~99%を有する。幾つかの場合、GBD最適化されたGFP配列は配列番号1に関して配列同一性80%、85%、90%、95%、96%、97%、98%、又は99%を有する。幾つかの場合、GBD最適化されたGFP配列は配列番号1に関して少なくとも配列同一性80%、85%、90%、95%、96%、97%、又は98%を有する。幾つかの場合、GBD最適化されたGFP配列は配列番号1に関して多くとも配列同一性85%、90%、95%、96%、97%、98%、又は99%を有する。幾つかの場合、GBD最適化されたGFP配列は、配列番号1に対して45未満(例えば、40、35、30、25、20、15、又は10未満)のアミノ酸置換を有する。幾つかの場合、GBD最適化されたGFP配列は、参照GFP配列に対して少なくとも1、2、3、4、5、6、又は7つの点変異を含む。GBD最適化されたGFP配列は、上記の組合せ、例えば1、2、3、4、5、6、又は7つ全ての突然変異を含め、Y39C、F64L、V68M、D129G、V163A、K166R、及びG191Vから選択される1つ又は複数の突然変異によって定義することができる。幾つかの場合、GBD最適化されたGFP配列はS65T突然変異を含まない。本発明により提供されるGBD最適化されたGFP配列は、幾つかの態様では、N末端メチオニンを含み、一方、他の態様では、配列はN末端メチオニンを含まない。
【0087】
幾つかの態様では、本明細書に開示されるのは、GFP及び/又はβラクタマーゼ等のGBD最適化されたポリペプチド配列をコードする核酸配列である。また本明細書に開示されるのは、核酸配列を含むベクター、例えば原核及び/又は真核発現ベクターである。発現ベクターは構成的活性であってもよく、又は誘導発現(例えばテトラサイクリン誘導プロモータ)を有してもよい。例えば、CMVプロモータは構成的活性であるが、テトラサイクリン/ドキシサイクリンの存在下で発現を誘導できるようにするTetオペレータ要素を使用して調節することもできる。
【0088】
ポリペプチド及びポリペプチドをコードする核酸配列は種々のイメージング技法で使用することができる。例えば、蛍光顕微鏡法、蛍光活性化細胞選別(FACS)、フローサイトメトリ、及び他の蛍光イメージングベースの技法が本開示の蛍光タンパク質を利用することができる。GBD最適化されたGFPタンパク質は、標準の参照GFPタンパク質よりも高い輝度を提供することができる。幾つかの場合、GBD最適化されたGFPタンパク質は、非最適化GFP配列(例えばavGFP)の輝度と比較して2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、又は50倍高い蛍光輝度を有する。
【0089】
幾つかの態様では、本明細書において記載の機械学習法は、教師あり機械学習を含む。教師あり機械学習は分類及び回帰を含む。幾つかの態様では、機械学習法は教師なし機械学習を含む。教師なし機械学習は、クラスタリング、オートエンコード、変分オートエンコード、タンパク質言語モデル(例えば、モデルが、前のアミノ酸へのアクセスが与えられる場合、配列中の次のアミノ酸を予測する)、及び相関ルールマイニングを含む。
【0090】
[機械学習]
本明細書において記載されるのは、入力データを解析して、1つ又は複数のタンパク質又はポリペプチドの特性又は機能にマッピングされる配列を生成する1つ又は複数の方法を適用するデバイス、ソフトウェア、システム、及び方法である。幾つかの態様では、方法は、統計学的モデリングを利用して、タンパク質又はポリペプチドの機能又は特性についての予測又は推定を生成する。幾つかの態様では、方法は、アミノ酸配列等の一級配列を埋め込み空間に埋め込み、所望の機能又は性質に関して埋め込まれた配列を最適化し、最適化された埋め込みを処理して、その機能又は性質を有すると予測される配列を生成するのに使用される。幾つかの態様では、2つのモデルが結合されて、第1のモデルを使用して初期配列を埋め込む、次いで第2のモデルを使用して、最適化された埋め込みを配列にマッピングすることができるエンコーダデコーダ枠組みが利用される。
【0091】
幾つかの態様では、方法は、ニューラルネットワーク、決定木、サポートベクターマシン、又は他の適用可能なモデル等の予測モデルを利用する。トレーニングデータを使用して、方法は、関連する特徴に従って分類又は予測を生成する分類器を形成することができる。分類に選択される特徴は、多種多様な方法を使用して分類することができる。幾つかの態様では、トレーニング済みの方法は、機械学習法を含む。
【0092】
幾つかの態様では、機械学習法は、サポートベクターマシン(SVM)、ナイーブベイズ分類、ランダムフォレスト、又は人工ニューラルネットワークを使用する。機械学習技法は、バギング手順、ブースティング手順、ランダムフォレスト法、及びそれらの組合せを含む。幾つかの態様では、予測モデルは深層ニューラルネットワークである。幾つかの態様では、予測モデルは深層畳み込みニューラルネットワークである。
【0093】
幾つかの態様では、機械学習法は教師あり学習手法を使用する。教師あり学習では、方法は、ラベル付きトレーニングデータから関数を生成する。各トレーニング例は、入力オブジェクト及び所望の出力値からなる対である。幾つかの態様では、最適シナリオでは、方法は、見知らぬインスタンスのクラスラベルを正しく特定することができる。幾つかの態様では、教師あり学習法では、ユーザが1つ又は複数のコントロールパラメータを決定する必要がある。これらのパラメータは任意選択的に、トレーニングセットのバリデーションセットと呼ばれるサブセットでの性能を最適化することにより調整される。パラメータ調整及び学習後、結果として生成された関数の性能が任意選択的に、トレーニングセットとは別個のテストセットで測定される。回帰法が一般に教師あり学習で使用される。したがって、教師あり学習では、一次アミノ酸配列が公知の場合、タンパク質機能の計算において等の期待される出力が事前に公知のトレーニングデータを用いてモデル又は分類器を生成又はトレーニングすることができる。
【0094】
幾つかの態様では、機械学習法は教師なし学習手法を使用する。教師なし学習では、方法は、ラベルなしデータ(例えば、分類又はカテゴリ分けが観測に含まれない)から隠された構造を記述する関数を生成する。学習者に与えられる例はラベルなしであるため、関連方法により出力される構造の精度の評価はない。教師なし学習への手法は、クラスタリング、異常検知、並びにオートエンコーダ及び変分オートエンコーダを含むニューラルネットワークに基づく手法を含む。
【0095】
幾つかの態様では、機械学習法はマルチクラス学習を利用する。マルチタスク学習(MTL)は、複数のタスクにわたる共通性及び差分を利用するように2つ以上の学習タスクが同時に解かれる機械学習の分野である。この手法の利点は、モデルを別個にトレーニングするのと比較して、特定の複数の予測モデルでの学習効率及び予測精度の改善を含むことができる。方法に関連タスクで上手く実行するように求めることにより、過剰適合を回避するための正則化を提供することができる。この手法は、全ての複雑性に等しいペナルティを適用する正則化よりも良好であることができる。マルチクラス学習は特に、相当な共通性を共有し、及び/又はアンダーサンプリングされるタスク又は予測に適用される場合、有用であることができる。幾つかの態様では、マルチクラス学習は、相当な共通性を共有しないタスク(例えば、関連しないタスク又は分類)に対して有効である。幾つかの態様では、マルチクラス学習は、転移学習と組み合わせて使用される。
【0096】
幾つかの態様では、機械学習法は、トレーニングデータセット及びそのバッチの他の入力に基づいてバッチで学習する。他の態様では、機械学習法は追加の学習を実行し、追加の学習では、重み及び誤差の計算が、例えば、新しい又は更新されたトレーニングデータを使用して更新される。幾つかの態様では、機械学習法は、新しい又は更新されたデータに基づいて予測モデルを更新する。例えば、機械学習法を新しい又は更新されたデータに適用して再トレーニング又は最適化し、新しい予測モデルを生成することができる。幾つかの態様では、機械学習法又はモデルは、追加のデータが利用可能になる際、定期的に再トレーニングされる。
【0097】
幾つかの態様では、本開示の分類器又はトレーニング済みの方法は、1つの特徴空間を含む。幾つかの場合、分類器は2つ以上の特徴空間を含む。幾つかの態様では、2つ以上の特徴空間は互いと別個である。幾つかの態様では、分類又は予測の精度は、1つの特徴空間を使用する代わりに、2つ以上の特徴空間を分類器で結合することにより改善する。属性は一般に、特徴空間の入力特徴を構成し、事例に対応する所与の組の入力特徴について各事例の分類を示すようにラベル付けられる。
【0098】
幾つかの態様では、トレーニングデータの1つ又は複数のセットが、機械学習法を使用してモデルをトレーニングするのに使用される。幾つかの態様では、本明細書において記載の方法は、トレーニングデータセットを使用してモデルをトレーニングすることを含む。幾つかの態様では、モデルは、複数のアミノ酸配列を含むトレーニングデータセットを使用してトレーニングされる。幾つかの態様では、トレーニングデータセットは、少なくとも100万、200万、300万、400万、500万、600万、700万、800万、900万、1千万、1500万、2千万、2500万、3千万、3500万、4千万、4500万、5千万、5500万、5600万、5700万、5800万のタンパク質アミノ酸配列を含む。幾つかの態様では、トレーニングデータセットは、少なくとも1万、2万、3万、4万、5万、6万、7万、8万、9万、10万、15万、20万、25万、30万、35万、40万、45万、50万、60万、70万、80万、90万、100万、又は100万超のアミノ酸配列を含む。幾つかの態様では、トレーニングデータセットは、少なくとも50、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、又は1000超のアノテーションを含む。本開示の態様例は、深層ニューラルネットワークを使用する機械学習法を含むが、種々のタイプの方法が意図される。幾つかの態様では、方法は、ニューラルネットワーク、決定木、サポートベクターマシン、又は他の適用可能なモデル等の予測モデルを利用する。幾つかの態様では、機械学習モデルは、例えば、サポートベクターマシン(SVM)、ナイーブベイズ分類、ランダムフォレスト、人工ニューラルネットワーク、決定木、K平均、学習ベクトル量子化(LVQ)、自己組織化成マップ(SOM)、グラフィックモデル、回帰法(例えば、線形、ロジスティック、多変量、相関ルール学習、深層学習、次元削減及びアンサンブル選択法等の教師あり、半教師あり、及び教師なし学習からなる群から選択される。幾つかの態様では、機械学習法は、サポートベクターマシン(SVM)、ナイーブベイズ分類、ランダムフォレスト、及び人工ニューラルネットワークからなる群から選択される。機械学習技法は、バギング手順、ブースティング手順、ランダムフォレスト法、及びそれらの組合せを含む。データを解析する例示的な方法は、統計的方法及び機械学習技法に基づく方法等の多数の変数を直接扱う方法を含むが、これに限定されない。統計的方法は、ペナルティ付きロジスティック回帰、マイクロアレイ予測解析(PAM)、収縮重心法に基づく方法、サポートベクターマシン解析、及び正則化線形判別分析を含む。
【0099】
教師ありモデル及び教師なしモデルを含め、本明細書に記載の種々のモデルは、最適停止、少なくとも1、2、3、4、最高で全層におけるドロップアウト、少なくとも1、2、3、4、最高で全層におけるL1-L2正則化、少なくとも1、2、3、4、最高で全層におけるスキップ接続を含め、代替の正則化法を有することができる。第1のモデル及び第2のモデルの両方について、正則化はバッチ正規化又はグループ正規化を使用して実行することができる。L1正則化(LASSOとしても知られている)は、重みベクトルのL1ノルムが存在することが許される期間を制御し、一方、L2は、L2ノルムが大きくなることができる程度を制御する。スキップ接続はResnetアーキテクチャから取得することができる。
【0100】
本明細書に記載の機械学習を使用してトレーニングされた種々のモデルは、以下の任意の最適化手順を使用して最適化することができる:Adam、RMS prop、モーメント項付き確率的勾配降下法(SGD)、モーメンタム項及びネステロフ加速勾配法付きSGD、モーメンタム項なしSGD、Adagrad、Adadelta、又はNAdam。モデルは以下の活性化関数のいずれかを使用して最適化することができる:softmax、elu、SeLU、softplus、softsign、ReLU、tanh、シグモイド、ハードシグモイド、指数、PReLU、及び漏洩ReLU、又は線形。損失関数は、モデルの性能を測定するのに使用することができる。損失は、予測の不正確性のコストとして理解することができる。例えば、交差エントロピー損失関数は、0と1との間の確率値(例えば、0は抗生物質耐性なしであり、1は完全な抗生物質耐性である)である出力を有する分類モデルの性能を測定する。この損失値は、予測された確率が実際の値から外れるにつれて大きくなる。
【0101】
幾つかの態様では、本明細書に記載の方法は、概ね等しい重みが陽性例及び陰性例の両方に置かれるように、先に列記したオプティマイザが最小化しようとする損失関数を「再加重」することを含む。例えば、180,000個の出力の1つが、所与のタンパク質が膜タンパク質である確率を予測する。タンパク質は膜タンパク質であるか、又は膜タンパク質ではないかの状態しかとることができないため、これはバイナリ分類タスクであり、バイナリ分類タスクの従来の損失関数は、「バイナリ交差エントロピー」:loss(p,y)=-ylog(p)-(1-y)log(1-p)であり、式中、pはネットワークによる膜タンパク質である確率であり、yは、タンパク質が膜タンパク質である場合には1であり、膜タンパク質ではない場合には0である「ラベル」である。y=0であるはるかに多くの例がある場合、問題が生じ得、その理由は、常にy=0を予測することにペナルティが科されることは希であるため、ネットワークは、このアノテーションに常に極めて低い確率を予測するという病理学的ルールを学習しがちであるためである。これを回避するために、幾つかの態様では、損失関数は以下のように改変され:loss(p,y)=-w1log(p)-w0(1-y)log(1-p)、式中、w1は陽性クラスの重みであり、w0は陰性クラスの重みである。この手法は、w0=1且つ]w1=1√((1-f0)/f1)であると仮定し、式中、f0は陰性例の頻度であり、f1は陽性例の頻度である。この加重方式は、希である陽性例を「上方加重」し、より一般的な陰性例を「下方加重」する。したがって、本明細書に開示される方法は、上方加重及び/又は下方加重を損失関数に提供する加重方式を組み込んで、陰性例及び陽性例の不均一分布を考慮に入れることを含むことができる。
【0102】
幾つかの態様では、ニューラルネットワーク等のトレーニング済みモデルは10層~1,000,000層を含む。幾つかの態様では、ニューラルネットワークは10層~50層、10層~100層、10層~200層、10層~500層、10層~1,000層、10層~5,000層、10層~10,000層、10層~50,000層、10層~100,000層、10層~500,000層、10層~1,000,000層、50層~100層、50層~200層、50層~500層、50層~1,000層、50層~5,000層、50層~10,000層、50層~50,000層、50層~100,000層、50層~500,000層、50層~1,000,000層、100層~200層、100層~500層、100層~1,000層、100層~5,000層、100層~10,000層、100層~50,000層、100層~100,000層、100層~500,000層、100層~1,000,000層、200層~500層、200層~1,000層、200層~5,000層、200層~10,000層、200層~50,000層、200層~100,000層、200層~500,000層、200層~1,000,000層、500層~1,000層、500層~5,000層、500層~10,000層、500層~50,000層、500層~100,000層、500層~500,000層、500層~1,000,000層、1,000層~5,000層、1,000層~10,000層、1,000層~50,000層、1,000層~100,000層、1,000層~500,000層、1,000層~1,000,000層、5,000層~10,000層、5,000層~50,000層、5,000層~100,000層、5,000層~500,000層、5,000層~1,000,000層、10,000層~50,000層、10,000層~100,000層、10,000層~500,000層、10,000層~1,000,000層、50,000層~100,000層、50,000層~500,000層、50,000層~1,000,000層、100,000層~500,000層、100,000層~1,000,000層、又は500,000層~1,000,000層を含む。幾つかの態様では、ニューラルネットワークは10層、50層、100層、200層、500層、1,000層、5,000層、10,000層、50,000層、100,000層、500,000層、又は1,000,000層を含む。幾つかの態様では、ニューラルネットワークは少なくとも10層、50層、100層、200層、500層、1,000層、5,000層、10,000層、50,000層、100,000層、又は500,000層を含む。幾つかの態様では、ニューラルネットワークは多くとも50層、100層、200層、500層、1,000層、5,000層、10,000層、50,000層、100,000層、500,000層、又は1,000,000層を含む。
【0103】
幾つかの態様では、機械学習法は、その予測能力を評価するために、トレーニングに使用されなかったデータを使用してテストされるトレーニング済みモデル又は分類器を含む。幾つかの態様では、トレーニング済みモデル又は分類器の予測能力は、1つ又は複数の性能尺度を使用して評価される。これらの性能尺度には、分類精度、特異性、感度、陽性的中率、陰性的中率、受信者動作曲線下測定面積(AUROC)、平均二乗誤差、偽陽性率、及び独立事例セットと突き合わせてテストすることによってモデルに特定される予測値と実際の値との間のピアソン相関がある。幾つかの場合、方法は、増分を含め、少なくとも約50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、又は200の独立事例について、増分を含め、少なくとも約60%、65%、70%、75%、80%、85%、90%、95%、又はそれを超えるAUROCを有する。幾つかの場合、方法は、増分を含め、少なくとも約50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、又は200の独立事例について、増分を含め、少なくとも約75%、80%、85%、90%、95%、又はそれを超える精度を有する。幾つかの場合、方法は、増分を含め、少なくとも約50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、又は200の独立事例について、増分を含め、少なくとも約75%、80%、85%、90%、95%、又はそれを超える特異性を有する。幾つかの場合、方法は、増分を含め、少なくとも約50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、又は200の独立事例について、増分を含め、少なくとも約75%、80%、85%、90%、95%、又はそれを超える感度を有する。幾つかの場合、方法は、増分を含め、少なくとも約50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、又は200の独立事例について、増分を含め、少なくとも約75%、80%、85%、90%、95%、又はそれを超える陽性的中率を有する。幾つかの場合、方法は、増分を含め、少なくとも約50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、又は200の独立事例について、増分を含め、少なくとも約75%、80%、85%、90%、95%、又はそれを超える陰性的中率を有する。
【0104】
[転移学習]
本明細書に記載されるのは、1つ又は複数の所望のタンパク質又は機能に基づいてタンパク質又はポリペプチド配列を生成するデバイス、ソフトウェア、システム、及び方法である。幾つかの態様では、転移学習を使用して、予測精度を強化する。転移学習は、あるタスクについて開発されたモデルを、第2のタスクについてのモデルの開始点として再使用することができる機械学習技法である。転移学習は、データが豊富な関連タスクでモデルを学習させることにより、データが限られているタスクでの予測精度を引き上げるのに使用することができる。PCT出願第PCT/US2020/01751762/804,036号明細書に記載された転移学習方法が参照により本明細書に援用される。したがって、本明細書に記載されるのは、配列決定されたタンパク質の大きなデータセットからタンパク質の一般的な機能特徴を学習し、任意の特定のタンパク質の機能、性質、又は特徴を予測するモデルの開始点としてそれを使用する方法である。したがって、エンコーダの生成は転移学習を含むことができ、それにより、入力配列を処理して埋め込みにする際のエンコーダの性能を改善する。したがって、改善された埋め込みは、エンコーダデコーダ枠組み全体の性能を改善することができる。本開示は、第1の予測モデルにより、配列特定された全てのタンパク質にエンコードされた情報を、第2の予測モデルを使用して関心対象の特定のタンパク質機能の設計に転移させることができるという驚くべき発見を認識している。幾つかの態様では、予測モデルは、例えば、深層畳み込みニューラルネットワーク等のニューラルネットワークである。
【0105】
本開示は、1つ又は複数の態様を介して実施されて、以下の利点の1つ又は複数を達成することができる。幾つかの態様では、転移学習を用いてトレーニングされたモデルは、小さなメモリフットプリント、低待ち時間、又は低計算コストを示す等のリソース消費の視点から改善を示す。この利点は、膨大な計算力を必要とすることがある複雑な解析では軽視できない。幾つかの場合、転移学習の使用は、妥当な時間期間(例えば、数週間の代わりに数日)内で十分に正確なモデルをトレーニングするために必須である。幾つかの態様では、転移学習を使用してトレーニングされたモデルは、転移学習を使用してトレーニングされないモデルと比較して高い精度を提供する。幾つかの態様では、ポリペプチドの配列、構成、特製、及び/又は機能を予測するシステムでの深層ニューラルネットワーク及び/又は転移学習の使用は、転移学習を使用しない他の方法又はモデルと比較して計算効率を上げる。
【0106】
幾つかの態様では、ニューラルネットエンベッダー又はエンコーダを含む第1のシステムが提供される。幾つかの態様では、ニューラルネットエンベッダーは、1つ又は複数の埋め込み層を含む。幾つかの態様では、ニューラルネットワークへの入力は、行列としてアミノ酸配列をエンコードする「ワンホット」ベクターとして表されるタンパク質配列を含む。例えば、行列内で、各行は、その残基に存在するアミノ酸に対応する厳密に1つの非ゼロエントリを含むように構成することができる。幾つかの態様では、第1のシステムはニューラルネット予測子を含む。幾つかの態様では、予測子は、入力に基づいて予測又は出力を生成する1つ又は複数の出力層を含む。幾つかの態様では、第1のシステムは、第1のトレーニングデータセットを使用して事前トレーニングされて、事前トレーニング済みニューラルネットエンベッダーを提供する。転移学習を用いて、事前トレーニング済みの第1のシステム又はその一部を転移させて、第2のシステムの一部を形成することができる。ニューラルネットエンベッダーの1つ又は複数の層は、第2のシステムで使用される場合、凍結することができる。幾つかの態様では、第2のシステムは、第1のシステムからのニューラルネットエンベッダー又はその一部を含む。幾つかの態様では、第2のシステムは、ニューラルネットエンベッダー及びニューラルネット予測子を含む。ニューラルネット予測子は、最終出力又は予測を生成する1つ又は複数の出力層を含むことができる。第2のシステムは、関心対象のタンパク質機能又は特性に従ってラベル付けられた第2のトレーニングデータセットを使用してトレーニングすることができる。本明細書において用いられるとき、エンベッダー及び予測子は、機械学習を使用してトレーニングされたニューラルネット等の予測モデルの構成要素を指すことができる。本明細書に開示されるエンコーダデコーダ枠組み内で、埋め込み層は、1つ又は複数の機能に関した最適化及び続く更新又は最適化された配列への「デコード」に向けて処理することができる。
【0107】
幾つかの態様では、転移学習は、少なくとも一部が第2のモデルの一部の形成に使用される第1のモデルのトレーニングに使用される。第1のモデルへの入力データは、機能又は他の特性に関係なく、公知の天然タンパク質及び合成タンパク質の大きなデータリポジトリを含むことができる。入力データは、以下の任意の組合せを含むことができる:一次アミノ酸配列、二次構造配列、アミノ酸相互作用のコンタクトマップ、アミノ酸物理化学特性の関数としての一次アミノ酸配列、及び/又は三次タンパク質構造。これらの特定の例が本明細書において提供されるが、タンパク質又はポリペプチドに関連する任意の追加応報が意図される。幾つかの態様では、入力データは埋め込まれる。例えば、入力データは、配列の多次元テンソルのバイナリワンホットエンコード、実際の値(例えば、三次構造からの物理化学特性若しくは三次元原子配置の場合)、対毎の相互作用の隣接行列として、又はデータの直接埋め込みを使用して(例えば、一次アミノ酸配列の文字埋め込み)表すことができる。第1のシステムは、UniProtアミノ酸配列及び~70,000のアノテーション(例えば配列ラベル)を使用してトレーニングされた埋め込みベクトル及び線形モデルを有する畳み込みニューラルネットワークアーキテクチャを含み得る。転移学習プロセス中、第1のシステム又はモデルの埋め込みベクトル及び畳み込みニューラルネットワーク部分は転移して、タンパク質特性又は機能を予測するように構成された新しい線形モデルも組み込んだ第2のシステム又はモデルのコアを形成する。この第2のシステムは、タンパク質特性又は機能に対応する所望の配列ラベルに基づいて、第2のトレーニングデータセットを使用してトレーニングされる。トレーニングが終わると、第2のシステムを検証データセット及び/又はテストデータセット(例えばトレーニングで使用されなかったデータ)と突き合わせて査定することができる。
【0108】
幾つかの態様では、第1のモデル及び/又は第2のモデルへのデータ入力は、一次アミノ酸配列へのランダム変異及び/又は生物学的情報に基づく変異、アミノ酸相互作用のコンタクトマップ、及び/又は三次タンパク質構造等の追加データにより拡張される。追加拡張戦略は、選択的スプライシング転写からの公知の予測されたアイソフォームの使用を含む。幾つかの態様では、異なるタイプの入力(例えば、アミノ酸配列、コンタクトマップ等)が、1つ又は複数のモデルの異なる部分により処理される。初期処理ステップ後、複数のデータソースからの情報は、ネットワーク内の層において結合することができる。例えば、ネットワークは、配列エンコーダ、コンタクトマップエンコーダ、及び種々のタイプのデータ入力を受け取り且つ/又は処理するように構成された他のエンコーダを含むことができる。幾つかの態様では、データは、ネットワーク内の1つ又は複数の層内へのエンベッドに変わる。
【0109】
第1のモデルへのデータ入力のラベルは、例えば、ジーンオントロジー(GO)、Pfamドメイン、SUPFAMドメイン、EC(Enzyme Commission)番号、分類学、好極限性細菌指示、キーワード、OrthoDB及びKEGGオルソログを含むオルソロググループ割り当て等の1つ又は複数の公開タンパク質配列アノテーションリソースから引き出すことができる。加えて、ラベルは、全てα、全てβ、α+β、α/β、膜、本質的に無秩序、コイルドコイル、スモール、又はデザイナータンパク質を含め、SCOP、FSSP、又はCATH等のデータベースにより指定される公知の構造又はフォールド分類に基づいて分類することができる。構造が公知であるタンパク質の場合、全体表面電荷、疎水性表面エリア、実測又は予測溶解性、又は他の数量等の定量的グローバル特性(quantitative global characteristic)が、マルチタスクモデル等の予測モデルによりフィッティングされる追加ラベルとして使用することができる。これらの入力は転移学習の状況で説明されるが、非転移学習手法へのこれらの入力の適用も意図される。幾つかの態様では、第1のモデルは、エンコーダで構成されるコアネットワークを残すように剥ぎ取られたアノテーション層を含む。アノテーション層は、それぞれが、例えば、一次アミノ酸配列、GO、Pfam、Interpro、SUPFAM、KO、OrthoDB、及びキーワード等の特定のアノテーションに対応する複数の独立層を含むことができる。幾つかの態様では、アノテーション層は、少なくとも、1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、1000、5000、10000、50000、100000、150000、又はそれ以上の独立層を含む。幾つかの態様では、アノテーション層は180000の独立層を含む。幾つかの態様では、モデルは、少なくとも1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、1000、5000、10000、50000、100000、150000、又はそれ以上のアノテーションを使用してトレーニングされる。幾つかの態様では、モデルは約180000のアノテーションを使用してトレーニングされる。幾つかの態様では、モデルは、複数の機能表現にわたる複数のアノテーション(例えば、GO、Pfam、キーワード、Keggオルソログ、Interpro、SUPFAM、及びOrthoDBの1つ又は複数)にわたる複数のアノテーションを用いてトレーニングされる。アミノ酸配列及びアノテーション情報は、UniProt等の種々のデータベースから取得することができる。
【0110】
幾つかの態様では、第1のモデル及び第2のモデルはニューラルネットワークアーキテクチャを含む。第1のモデル及び第2のモデルは、1D畳み込み(例えば、一次アミノ酸配列)、2D畳み込み(例えば、アミノ酸相互作用のコンタクトマップ)、又は3D畳み込み(例えば、三次タンパク質構造)の形態の畳み込みアーキテクチャを使用する教師ありモデルであることができる。畳み込みアーキテクチャは、以下の記載のアーキテクチャの1つであることができる:VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、又はMobileNet。幾つかの態様では、本明細書において記載のアーキテクチャのいずれかを利用するシングルモデル手法(例えば、非転移学習)が意図される。
【0111】
第1のモデルは、敵対的生成ネットワーク(GAN)、リカレントニューラルネットワーク、又は変分自動エンコーダ(VAE)のいずれかを使用した教師なしモデルであることもできる。GANの場合、第1のモデルは、条件付きGAN、深層畳み込みGAN、StackGAN、infoGAN、Wasserstein GAN、敵対的生成ネットワークを用いたクロスドメイン関係発見(Disco GANS)であることができる。リカレントニューラルネットワークの場合、第1のモデルは、Bi-LSTM/LSTM、Bi-GRU/GRU、又はトランスフォーマネットワークであることができる。幾つかの態様では、エンコーダ及び/又はデコーダの生成に、本明細書に記載の任意のアーキテクチャを利用する単一モデル手法(例えば非転移学習)が考えられる。幾つかの態様では、GANは、DCGAN、CGAN、SGAN/プログレッシブGAN、SAGAN、LSGAN、WGAN、EBGAN、BEGAN、又はinfoGANである。リカレントニューラルネットワーク(RNN)は、順次データ向けに構築された従来のニューラルネットワークの変異体である。LSTMは、長短期メモリを指し、データにおける系列又は時間的依存性をモデリングできるようにする、メモリを有するRNNにおけるニューロンの一種である。GRUはゲート付き回帰型ユニットを指し、LSTMの欠点幾つかに対処使用とするLSTMの変異体である。Bi-LSTM/Bi-GRUは、LSTM及びGRUの「双方向」変異体を指す。典型的には、LSTM及びGRUは「順」方向でシーケンシャルを処理するが、双方向バージョンは「逆」方向でも同様に学習する。LSTMは、隠れ状態を使用して、既に通過したデータ入力からの情報の保存を可能にする。単方向LSTMは、過去からの入力しか見ていないため、過去の情報のみを保存する。これとは対照的に、双方向LSTMはデータ入力を過去から未来及び未来から過去の両方向で辿る。したがって、順方向及び逆方向に辿るLSTMは、未来及び過去からの情報を保存する。
【0112】
第2のモデルは、第1のモデルをトレーニングの開始点として使用することができる。開始点は、標的タンパク質機能又はタンパク質特性でトレーニングされる出力層を除いて凍結された完全な第1のモデルであることができる。開始点は、埋め込み層、最後の2層、最後の3層、又は全ての層が凍結されておらず、標的タンパク質機能又はタンパク質機能でのトレーニング中、モデルの残りが凍結される第1のモデルであることができる。開始点は、埋め込み層が除去され、1つ、2つ、3つ、又は4つ以上の層が追加され、標的タンパク質機能又はタンパク質特性でトレーニングされる第1のモデルであることができる。幾つかの態様では、凍結層の数は1~10である。幾つかの態様では、凍結層の数は1~2、1~3、1~4、1~5、1~6、1~7、1~8、1~9、1~10、2~3、2~4、2~5、2~6、2~7、2~8、2~9、2~10、3~4、3~5、3~6、3~7、3~8、3~9、3~10、4~5、4~6、4~7、4~8、4~9、4~10、5~6、5~7、5~8、5~9、5~10、6~7、6~8、6~9、6~10、7~8、7~9、7~10、8~9、8~10、又は9~10である。幾つかの態様では、凍結層の数は1、2、3、4、5、6、7、8、9、又は10である。幾つかの態様では、凍結層の数は少なくとも1、2、3、4、5、6、7、8、又は9である。幾つかの態様では、凍結層の数は多くとも2、3、4、5、6、7、8、9、又は10である。幾つかの態様では、転移学習中、層は凍結されない。幾つかの態様では、第1のモデルで凍結される層の数は、少なくとも部分的に第2のモデルのトレーニングに利用可能なサンプル数に基づいて決まる。本開示は、層の凍結又は凍結層の数の増大が第2のモデルの予測性能を強化することができることを認識している。この効果は、第2のモデルをトレーニングするサンプル数が少ない場合、強まることができる。幾つかの態様では、第2のモデルがトレーニングセット中に200以下、190以下、180以下、170以下、160以下、150以下、140以下、130以下、120以下、110以下、100以下、90以下、80以下、70以下、60以下、50以下、40以下、又は30以下のサンプルを有する場合、第1のモデルからの全ての層は凍結される。幾つかの態様では、第2のモデルをトレーニングするサンプル数がトレーニングセットにおいて200以下、190以下、180以下、170以下、160以下、150以下、140以下、130以下、120以下、110以下、100以下、90以下、80以下、70以下、60以下、50以下、40以下、又は30以下である場合、第2のモデルに転移するために、第1のモデル中の少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、又は少なくとも100の層は凍結される。
【0113】
第1及び第2のモデルは、10~100層、100~500層、500~1000層、1000~10000層、又は最高で1000000層を有することができる。幾つかの態様では、第1及び/又は第2のモデルは10層~1,000,000層を含む。幾つかの態様では、第1及び/又は第2のモデルは、10層~50層、10層~100層、10層~200層、10層~500層、10層~1,000層、10層~5,000層、10層~10,000層、10層~50,000層、10層~100,000層、10層~500,000層、10層~1,000,000層、50層~100層、50層~200層、50層~500層、50層~1,000層、50層~5,000層、50層~10,000層、50層~50,000層、50層~100,000層、50層~500,000層、50層~1,000,000層、100層~200層、100層~500層、100層~1,000層、100層~5,000層、100層~10,000層、100層~50,000層、100層~100,000層、100層~500,000層、100層~1,000,000層、200層~500層、200層~1,000層、200層~5,000層、200層~10,000層、200層~50,000層、200層~100,000層、200層~500,000層、200層~1,000,000層、500層~1,000層、500層~5,000層、500層~10,000層、500層~50,000層、500層~100,000層、500層~500,000層、500層~1,000,000層、1,000層~5,000層、1,000層~10,000層、1,000層~50,000層、1,000層~100,000層、1,000層~500,000層、1,000層~1,000,000層、5,000層~10,000層、5,000層~50,000層、5,000層~100,000層、5,000層~500,000層、5,000層~1,000,000層、10,000層~50,000層、10,000層~100,000層、10,000層~500,000層、10,000層~1,000,000層、50,000層~100,000層、50,000層~500,000層、50,000層~1,000,000層、100,000層~500,000層、100,000層~1,000,000層、又は500,000層~1,000,000層を含む。幾つかの態様では、第1及び/又は第2のモデルは10層、50層、100層、200層、500層、1,000層、5,000層、10,000層、50,000層、100,000層、500,000層、又は1,000,000層を含む。幾つかの態様では、第1及び/又は第2のモデルは少なくとも10層、50層、100層、200層、500層、1,000層、5,000層、10,000層、50,000層、100,000層、又は500,000層を含む。幾つかの態様では、第1及び/又は第2のモデルは多くとも50層、100層、200層、500層、1,000層、5,000層、10,000層、50,000層、100,000層、500,000層、又は1,000,000層を含む。
【0114】
幾つかの態様では、本明細書において記載されるのは、ニューラルネットエンベッダー及び任意選択的にニューラルネット予測子を含む第1のシステムである。幾つかの態様では、第2のシステムはニューラルネットエンベッダー及びニューラルネット予測子を含む。幾つかの態様では、エンベッダーは10層~200層を含む。幾つかの態様では、エンベッダーは10層~20層、10層~30層、10層~40層、10層~50層、10層~60層、10層~70層、10層~80層、10層~90層、10層~100層、10層~200層、20層~30層、20層~40層、20層~50層、20層~60層、20層~70層、20層~80層、20層~90層、20層~100層、20層~200層、30層~40層、30層~50層、30層~60層、30層~70層、30層~80層、30層~90層、30層~100層、30層~200層、40層~50層、40層~60層、40層~70層、40層~80層、40層~90層、40層~100層、40層~200層、50層~60層、50層~70層、50層~80層、50層~90層、50層~100層、50層~200層、60層~70層、60層~80層、60層~90層、60層~100層、60層~200層、70層~80層、70層~90層、70層~100層、70層~200層、80層~90層、80層~100層、80層~200層、90層~100層、90層~200層、又は100層~200層を含む。幾つかの態様では、エンベッダーは10層、20層、30層、40層、50層、60層、70層、80層、90層、100層、又は200層を含む。幾つかの態様では、エンベッダーは少なくとも10層、20層、30層、40層、50層、60層、70層、80層、90層、又は100層を含む。幾つかの態様では、エンベッダーは多くとも20層、30層、40層、50層、60層、70層、80層、90層、100層、又は200層を含む。
【0115】
幾つかの態様では、転移学習は、最終的にトレーニングされたモデルの生成に使用されない。例えば、十分なデータが利用可能な場合、少なくとも部分的に転移学習を使用して生成されたモデルは、転移学習を利用しないモデルと比較して、予測において有意な改善を提供しない(例えば、テストデータセットと突き合わせてテストされる場合)。したがって、幾つかの態様では、トレーニング済みモデルの生成に非転移学習手法が利用される。
【0116】
[計算システム及びソフトウェア]
幾つかの態様では、本明細書に記載のシステムは、ポリペプチド予測エンジン(例えばエンコーダデコーダ枠組みを提供する)等のソフトウェアアプリケーションを提供するように構成される。幾つかの態様では、ポリペプチド予測エンジンは、初期シードアミノ酸配列等の入力データに基づいて、少なくとも1つの機能又は性質にマッピングされるアミノ酸配列を予測する1つ又は複数のモデルを含む。幾つかの態様では、本明細書において記載のシステムは、デジタル処理デバイス等の計算デバイスを含む。幾つかの態様では、本明細書において記載のシステムは、サーバと通信するためのネットワーク要素を含む。幾つかの態様では、本明細書において記載のシステムはサーバを含む。幾つかの態様では、システムは、データをサーバにアップロード且つ/又はサーバからデータをダウンロードするように構成される。幾つかの態様では、サーバは、入力データ、出力、及び/又は他の情報を記憶するように構成される。幾つかの態様では、サーバは、システム又は装置からのデータをバックアップするように構成される。
【0117】
幾つかの態様では、システムは1つ又は複数のデジタル処理デバイスを含む。幾つかの態様では、システムは、トレーニング済みモデルを生成するように構成された複数の処理ユニットを含む。幾つかの態様では、システムは、機械学習アプリケーションに適した複数のグラフィック処理ユニット(GPU)を含む。例えば、GPUは一般に、中央演算処理装置(CPU)と比較した場合、算術論理ユニット(ALU)、制御ユニット、及びメモリキャッシュで構成されたより多数のより小さな論理コアを特徴とする。したがって、GPUは、機械学習手法で一般的な数学行列計算に適した、より多数のより単純で同一の計算を並列して処理するように構成される。幾つかの態様では、システムは、ニューラルネットワーク機械学習に向けてGoogleにより開発されたAI特定用途向け集積回路(ASIC)である1つ又は複数のテンソル処理ユニット(TPU)を含む。幾つかの態様では、本明細書において記載の方法は、複数のGPU及び/又はTPUを含むシステムで実施される。幾つかの態様では、システムは、少なくとも2、3、4、5、6、7、8、9、10、15、20、30、40、50、60、70、80、90、100、又はそれ以上のGPU又はTPUを含む。幾つかの態様では、GPU又はTPUは並列処理を提供するように構成される。
【0118】
幾つかの態様では、システム又は装置はデータを暗号化するように構成される。幾つかの態様では、サーバ上のデータは暗号化される。幾つかの態様では、システム又は装置は、データを記憶するデータ記憶ユニット又はメモリを含む。幾つかの態様では、データ暗号化は、高度暗号化標準(AES)を使用して実行される。幾つかの態様では、データ暗号化は、128ビット、192ビット、又は256ビットAES暗号化を使用して実行される。幾つかの態様では、データ暗号化は、データ記憶ユニットのフルディスク暗号化を含む。幾つかの態様では、データ暗号化は仮想ディスク暗号化を含む。幾つかの態様では、データ暗号化はファイル暗号化を含む。幾つかの態様では、システム又は装置と他のデバイス又はサーバとの間で伝送又は他の方法で通信されるデータは、搬送中、暗号化される。幾つかの態様では、システム又は装置と他のデバイス又はサーバとの間の無線通信は暗号化される。幾つかの態様では、搬送中のデータはセキュアソケットレイヤ(SSL)を使用して暗号化される。
【0119】
本明細書において記載の装置は、デバイスの機能を実行する1つ又は複数のハードウェア中央演算処理装置(CPU)又は汎用グラフィック処理ユニット(GPGPU)を含むデジタル処理デバイスを含む。デジタル処理デバイスは、実行可能命令を実行するように構成されたオペレーティングシステムを更に含む。デジタル処理デバイスは任意選択的に、コンピュータネットワークに接続される。デジタル処理デバイスは任意選択的に、ワールドワイドウェブにアクセスするようにインターネットに接続される。デジタル処理デバイスは任意選択的に、クラウド計算基盤に接続される。適したデジタル処理デバイスは、非限定的な例として、サーバコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、サブノートブックコンピュータ、ネットブックコンピュータ、ネットパッドコンピュータ、セットトップコンピュータ、メディアストリーミングデバイス、ハンドヘルドコンピュータ、インターネット家電、モバイルスマートフォン、タブレットコンピュータ、個人情報端末、ビデオゲームコンソール、及び車両を含む。多くのスマートフォンが本明細書において記載のシステムでの使用に適することを当業者は認識しよう。
【0120】
典型的には、デジタル処理デバイスは、実行可能命令を実行するように構成されたオペレーティングシステムを含む。オペレーティングシステムは、例えば、デバイスのハードウェアを管理し、アプリケーションを実行するサービスを提供する、プログラム及びデータを含むソフトウェアである。適したサーバオペレーティングシステムが、非限定的な例として、FreeBSD、OpenBSD、NetBSD(登録商標)、Linux、Apple(登録商標)Mac OS X Server(登録商標)、Oracle(登録商標)Solaris(登録商標)、Windows Server(登録商標)、及びNovell(登録商標)NetWare(登録商標)を含むことを当業者は認識しよう。適したパーソナルコンピュータオペレーティングシステムが、非限定的な例として、Microsoft(登録商標)Windows(登録商標)、Apple(登録商標)Mac OS X(登録商標)、UNIX(登録商標)、及びGNU/Linux(登録商標)等のUNIX様のオペレーティングシステムを含むことを当業者は認識しよう。幾つかの態様では、オペレーティングシステムはクラウド計算によって提供される。
【0121】
本明細書において記載のデジタル処理デバイスは、記憶装置及び/又はメモリデバイスを含み、又は度差可能に結合される。記憶装置及び/又はメモリデバイスは、データ又はプログラムを一時的又は永続的に記憶するのに使用される1つ又は複数の物理的な装置である。幾つかの態様では、デバイスは揮発性メモリであり、記憶された情報の維持に電力を必要とする。幾つかの態様では、デバイスは不揮発性メモリであり、デジタル処理デバイスが給電されていないとき、記憶された情報を保持する。更なる態様では、不揮発性メモリはフラッシュメモリを含む。幾つかの態様では、不揮発性メモリは動的ランダムアクセスメモリ(DRAM)を含む。幾つかの態様では、不揮発性メモリは強誘電性ランダムアクセスメモリ(FRAM)を含む。幾つかの態様では、不揮発性メモリは相変化ランダムアクセスメモリ(PRAM)を含む。他の態様では、デバイスは、非限定的な例として、CD-ROM、DVD、フラッシュメモリデバイス、磁気ディスクドライブ、磁気テープドライブ、光ディスクドライブ、及びクラウド計算ベースの記憶装置を含む記憶装置である。更なる態様では、記憶装置及び/又はメモリデバイスは、本明細書において開示される等のデバイスの組合せである。
【0122】
幾つかの態様では、本明細書において記載のシステム又は方法は、入力及び/又は出力データを含む又は有するものとしてデータベースを生成する。本明細書において記載のシステムの幾つかの態様は、コンピュータベースのシステムである。これらの態様は、プロセッサを含むCPUと、非一時的コンピュータ可読記憶媒体の形態であり得るメモリとを含む。これらのシステム態様は、典型的にはメモリに記憶される(非一時的コンピュータ可読記憶媒体の形態等)ソフトウェアを更に含み、ソフトウェアは、プロセッサに機能を実行させるように構成される。本明細書において記載のシステムに組み込まれるソフトウェア態様は、1つ又は複数のモジュールを含む。
【0123】
種々の態様では、装置は、デジタル処理デバイス等の計算デバイス又は構成要素を含む。本明細書において記載の態様の幾つかでは、デジタル処理デバイスは、視覚情報を表示するディスプレイを含む。本明細書において記載のシステム及び方法との併用に適したディスプレイの非限定的な例には、液晶ディスプレイ(LCD)、薄膜トランジスタ液晶ディスプレイ(TFT-LCD)、有機発光ダイオード(OLED)ディスプレイ、OLEDディスプレイ、アクティブマトリックスOLED(AMOLED)ディスプレイ、又はプラズマディスプレイがある。
【0124】
デジタル処理デバイスは、本明細書において記載の態様の幾つかでは、情報を受信する入力デバイスを含む。本明細書において記載のシステム及び方法との併用に適した入力デバイスの非限定的な例には、キーボード、マウス、トラックボール、トラックパッド、又はスタイラスがある。幾つかの態様では、入力デバイスはタッチスクリーン又はマルチタッチスクリーンである。
【0125】
本明細書において記載のシステム及び方法は典型的には、任意選択的にネットワーク接続されたデジタル処理デバイスのオペレーティングシステムにより実行可能な命令を含むプログラムがエンコードされた1つ又は複数の非一時的コンピュータ可読記憶媒体を含む。本明細書において記載のシステム及び方法の幾つかの態様では、非一時的記憶媒体は、システム構成要素であり、又は方法で利用されるデジタル処理デバイスの構成要素である。更なる態様では、コンピュータ可読記憶媒体は任意選択的に、デジタル処理デバイスから取り外し可能である。幾つかの態様では、コンピュータ可読記憶媒体は、非限定的な例として、CD-ROM、DVD、フラッシュメモリデバイス、固体状態メモリ、磁気ディスクドライブ、磁気テープドライブ、光ディスクドライブ、クラウド計算システム及びサーバ等を含む。幾つかの場合、プログラム及び命令は媒体に永続的に、略永続的に、汎永続的に、又は非一時的にエンコードされる。
【0126】
典型的には、本明細書において記載のシステム及び方法は、少なくとも1つのコンピュータプログラム又はその使用を含む。コンピュータプログラムは、デジタル処理デバイスのCPUで実行可能であり、指定されたタスクを実行するように書かれた命令シーケンスを含む。コンピュータ可読命令は、特定のタスクを実行し、又は特定の抽象データ型を実装する、関数、オブジェクト、アプリケーションプログラムインターフェース(API)、データ構造等のプログラムモジュールとして実装し得る。本明細書において提供される開示に鑑みて、コンピュータプログラムが種々のバージョンの種々の言語で書かれ得ることを当業者は認識しよう。コンピュータ可読命令の機能は、種々の環境で望まれるように結合又は分散し得る。幾つかの態様では、コンピュータプログラムは1つの命令シーケンスを含む。幾つかの態様では、コンピュータプログラムは複数の命令シーケンスを含む。幾つかの態様では、コンピュータプログラムは1つの場所から提供される。他の態様では、コンピュータプログラムは複数の場所から提供される。種々の態様では、コンピュータプログラムは1つ又は複数のソフトウェアモジュールを含む。種々の態様では、コンピュータプログラムは部分的又は全体的に、1つ又は複数のウェブアプリケーション、1つ又は複数のモバイルアプリケーション、1つ又は複数のスタンドアロンアプリケーション、1つ又は複数のウェブブラウザプラグイン、拡張、アドイン、若しくはアドオン、又はそれらの組合せを含む。種々の態様では、ソフトウェアモジュールは、ファイル、コードの区域、プログラミングオブジェクト、プログラミング構造、又はそれらの組合せを含む。更なる種々の態様では、ソフトウェアモジュールは、複数のファイル、コードの複数の区域、複数のプログラミングオブジェクト、複数のプログラミング構造、又はそれらの組合せを含む。種々の態様では、1つ又は複数のソフトウェアモジュールは、非限定的な例として、ウェブアプリケーション、モバイルアプリケーション、及びスタンドアロンアプリケーションを含む。幾つかの態様では、ソフトウェアモジュールは、1つのコンピュータプログラム又はアプリケーションに存在する。他の態様では、ソフトウェアモジュールは2つ以上のコンピュータプログラム又はアプリケーションに存在する。幾つかの態様では、ソフトウェアモジュールは1つのマシンでホストされる。他の態様では、ソフトウェアモジュールは2つ以上のマシンでホストされる。更なる態様では、ソフトウェアモジュールは、クラウド計算プラットフォームでホストされる。幾つかの態様では、ソフトウェアモジュールは、1つの場所にある1つ又は複数のマシンでホストされる。他の態様では、ソフトウェアモジュールは、2つ以上の場所にある1つ又は複数のマシンでホストされる。
【0127】
典型的には、本明細書において記載のシステム及び方法は、1つ又は複数のデータベースを含み且つ/又は利用する。本明細書において提供される開示に鑑みて、多くのデータベースがベースラインデータセット、ファイル、ファイルシステム、オブジェクト、オブジェクトのシステム、並びに本明細書において記載のデータ構造及び他のタイプの情報の記憶及び検索に適することを当業者は認識しよう。種々の態様では、適したデータベースには、非限定的な例として、リレーショナルデータベース、非リレーショナルデータベース、オブジェクト指向データベース、オブジェクトデータベース、エンティティ関係モデルデータベース、関連データベース、及びXMLデータベースがある。更なる非限定的な例には、SQL、PostgreSQL、MySQL、Oracle、DB2、及びSybaseがある。幾つかの態様では、データベースはインターネットベースである。更なる態様では、データベースはウェブベースである。更なる態様では、データベースはクラウド計算ベースである。他の態様では、データベースは1つ又は複数のローカルコンピュータ記憶装置に基づく。
【0128】
図6Aは、本発明の態様を実施し得るコンピュータネットワーク又は同様のデジタル処理環境を示す。
【0129】
クライアントコンピュータ/デバイス50及びサーバコンピュータ60は、アプリケーションプログラム等を実行する処理デバイス、記憶デバイス、及び入出力デバイスを提供する。クライアントコンピュータ/デバイス50は、他のクライアントデバイス/プロセス50及びサーバコンピュータ60を含め、通信ネットワーク70を通して他の計算デバイスにリンクすることもできる。通信ネットワーク70は、現在、各プロトコル(TCP/IP、Bluetooth(登録商標)等)を使用して互いと通信するリモートアクセスネットワーク、グローバルネットワーク(例えばインターネット)、コンピュータの世界規模の集まり、ローカルエリア又は広域ネットワーク、及びゲートウェイの一部であることができる。他の電子デバイス/コンピュータネットワークアーキテクチャも適する。
【0130】
図6Bは、図6Aのコンピュータシステムにおけるコンピュータ(例えばクライアントプロセッサ/デバイス50又はサーバコンピュータ60)の内部構造の一例の図である。各コンピュータ50、60はシステムバス79を含み、バスは、コンピュータ又は処理システムの構成要素間のデータ転送に使用されるハードウェア回線セットである。システムバス79は基本的に、コンピュータシステムの異なる要素(例えばプロセッサ、ディスクストレージ、メモリ、入出力ポート、ネットワークポート等)を接続し、要素間での情報の転送を可能にする共有コンジットである。システムバス79には、種々の入力デバイス及び出力デバイス(例えばキーボード、マウス、ディスプレイ、プリンタ、スピーカ等)をコンピュータ50、60に接続するためのI/Oデバイスインターフェース82が取り付けられる。ネットワークインターフェース86は、コンピュータをネットワーク(例えば図5のネットワーク70)に取り付けられた種々の他のデバイスに接続できるようにする。メモリ90は、本発明の一態様(例えば先に詳述したニューラルネットワーク、エンコーダ、及びデコーダ)の実施に使用されるコンピュータソフトウェア命令92及びデータ94の揮発性記憶を提供する。ディスクストレージ95は、本発明の一態様の実施に使用されるコンピュータソフトウェア命令92及びデータ94の不揮発性記憶を提供する。中央演算処理装置84もシステムバス79に取り付けられ、コンピュータ命令の実行を提供する。
【0131】
一態様では、プロセッサルーチン92及びデータ94は、本発明のシステムのソフトウェア命令の少なくとも一部を提供する非一時的コンピュータ可読媒体(例えば、1つ又は複数のDVD-ROM、CD-ROM、ディスケット、テープ等のリムーバブル記憶媒体)を含むコンピュータプログラム製品(全体的に92と参照される)である。コンピュータプログラム製品92は、当技術分野で周知のように、任意の適したソフトウェアインストール手順によってインストールすることができる。別の態様では、ソフトウェア命令の少なくとも一部は、ケーブル通信及び/又は無線接続を経由してダウンロードすることもできる。他の態様では、本発明のプログラムは、伝搬媒体(例えば、無線波、赤外線波、レーザ波、音波、又はインターネット若しくは他のネットワーク等のグローバルネットワークを経由して伝搬される電波)上において伝搬信号で実施されるコンピュータプログラム伝搬信号製品である。そのような搬送媒体又は信号は、本発明のルーチン/プログラム92のソフトウェア命令の少なくとも一部を提供するのに利用し得る。
【0132】
[特定の定義]
本明細書において用いられるとき、単数形「1つの(a)」、「1つの(an)」、及び「その(the)」は、文脈により別段のことが明確に示される場合を除き、複数形を含む。例えば、用語「1つのサンプル(a sample)」は、サンプルの混合物を含め、複数のサンプルを含む。本明細書において、「又は」への任意の言及は、別記される場合を除、「及び/又は」を包含することが意図される。
【0133】
用語「核酸」は、本明細書において用いられるとき、一般に、1つ又は複数の核酸塩基、ヌクレオシド、又はヌクレオチドを指す。例えば、核酸は、アデノシン(A)、シトシン(C)、グアニン(G)、チミン(T)、及びウラシル(U)、又はそれらの変形から選択される1つ又は複数のヌクレオチドを含み得る。ヌクレオチドは一般に、ヌクレオシドと、少なくとも1、2、3、4、5、6、7、8、9、10個又はそれ以上のリン酸(PO3)基とを含む。ヌクレオチドは、核酸塩基、五炭糖(リボース又はデオキシリボースのいずれか)、及び1つ又は複数のリン酸基を含むことができる。リボヌクレオチドは、糖がリボースであるヌクレオチドを含む。デオキシリボヌクレオチドは、糖がデオキシリボースであるヌクレオチドを含む。ヌクレオチドは、ヌクレオシドリン酸、ヌクレオシド二リン酸、ヌクレオシド三リン酸、又はヌクレオシドポリリン酸であることができる。アデニン、シトシン、グアニン、チミン、及びウラシルは正規又は一次核酸塩基として知られている。非一次又は非正規核酸塩基を有するヌクレオチドは、プリン修飾及びピリミジン修飾等の修飾された塩基を含む。修飾プリン核酸塩基は、それぞれヌクレオチドイノシン、キサントシン、及び7-メチルグアノシンの一部であるヒポキサンチン、キサンチン、及び7-メチルグアニンを含む。修飾ピリミジン核酸塩基は、それぞれヌクレオシドジヒドロウリジン及び5-メチルシチジンの一部である5,6-ジヒドロウラシル及び5-メチルシトシンを含む。他の非正規ヌクレオシドには、tRNAに一般に見られるプソイドウリジン(Ψ)がある。
【0134】
本明細書において用いられるとき、用語「ポリペプチド」、「タンパク質」、及び「ペプチド」は、同義で使用され、ペプチド結合を介してリンクされ、2つ以上のポリペプチド鎖で構成し得るアミノ酸残基のポリマーを指す。用語「ポリペプチド」、「タンパク質」、及び「ペプチド」は、アミノ結合を通して一緒に結合された少なくとも2つのアミノ酸単量体のポリマーを指す。アミノ酸はL光学異性体又はD光学異性体であり得る。より具体的には、用語「ポリペプチド」、「タンパク質」、及び「ペプチド」は、特定の順序、例えば、遺伝子中のヌクレオチドの塩基配列又はタンパク質のRNAコーディングによって決まる順序の2つ以上のアミノ酸で構成された分子を指す。タンパク質は、体の細胞、組織、及び臓器の構造、機能、及び調整に必須であり、各タンパク質は独自の機能を有する。例は、ホルモン、酵素、抗体、及びそれらの任意の断片である。幾つかの場合、タンパク質は、タンパク質の一部、例えば、タンパク質のドメイン、サブドメイン、又はモチーフであることができる。幾つかの場合、タンパク質はタンパク質の変異体(又は変異)を有することができ、その場合、1つ又は複数のアミノ酸残基が、そのタンパク質の自然に発生する(又は少なくとも公知の)アミノ酸配列に挿入され、削除され、且つ/又は置換される。タンパク質又はその変異体は、自然に発生してもよく、又は組み換えられてもよい。ポリペプチドは、隣接するアミノ酸残基のカルボキシル基とアミノ基との間のペプチド結合により一緒に結合されたアミノ酸の1本の線形ポリマー鎖であることができる。ポリペプチドは、例えば、炭水化物の添加、リン酸化等により変更することができる。タンパク質は1つ又は複数のポリペプチドを含むことができる。アミノ酸は正規アミノ酸アルギニン、ヒスチジン、リジン、アスパラギン酸、グルタミン酸、セリン、トレオニン、アスパラギン、グルタミン、システイン、グリシン、プロリン、アラニン、バリン、イソロイシン、ロイシン、メチオニン、フェニルアラニン、チロシン、及びトリプトファンを含む。アミノ酸は、セレノシステイン及びピロリジン等の非正規アミノ酸を含むこともできる。ポリペプチドは、例えば炭水化物、脂質、リン酸化等の添加により、例えば翻訳後修飾により、及び上記の組合せによって修飾することができる。タンパク質は1つ又は複数のポリペプチドを含むことができる。アミノ酸は、正規Lアミノ酸アルギニン、ヒスチジン、リジン、アスパラギン酸、グルタミン酸、セリン、トレオニン、アスパラギン、グルタミン、システイン、グリシン、プロリン、アラニン、バリン、イソロイシン、ロイシン、メチオニン、フェニルアラニン、チロシン、及びトリプトファンを含む。アミノ酸は、正規アミノ酸のD体並びにセレノシステイン及びピロリジン等の追加の非正規アミノ酸等の非正規アミノ酸を含むこともできる。アミノ酸は、非正規βアラニン、4-アミノ酪酸、6-アミノカプロン酸、サルコシン、スタチン、シトルリン、ホモシトルリン、ホモセリン、ノルロイシン、ノルバリン、及びオルニチンも含む。ポリペプチドは、アセチル化、アミド化、ホルミル化、グリコシル化、ヒドロキシル化、メチル化、ミリストイル化、リン酸化、脱アミド化、プレニル化(例えばファルネシル化、ゲラニル化等)、ユビキチン化、リボシル化、硫酸化、及び上記の組合せの1つ又は複数を含め、翻訳後修飾を含むこともできる。したがって、幾つかの態様では、本発明により提供され、又は本発明により提供される方法若しくはシステムで使用されるポリペプチドは、異なる態様では、正規アミノ酸のみ、非正規アミノ酸のみ、又は他のLアミノ酸含有ポリペプチド中の1つ又は複数のDアミノ酸残基等の正規アミノ酸と非正規アミノ酸との組合せを含むことができる。
【0135】
本明細書において用いられるとき、用語「ニューラルネット」は人工ニューラルネットワークを指す。人工ニューラルネットワークは、相互接続されたノード群という全般構造を有する。ノードは多くの場合、層が1つ又は複数のノードを含む複数の層に組織化される。シグナルは、ある層から次の層にニューラルネットワークを通って伝播することができる。幾つかの態様では、ニューラルネットワークはエンベッダーを含む。エンベッダーは、埋め込み層等の1つ又は複数の層を含むことができる。幾つかの態様では、ニューラルネットワークは予測子を含む。予測子は、出力又は結果(例えば、一次アミノ酸配列に基づいて予測された機能又は特性)を生成する1つ又は複数の出力層を含むことができる。
【0136】
本明細書において用いられるとき、用語「人工知能」は一般に、「知的」であり、非反復的、非機械的暗記、又は非事前プログラム的にタスクを実行することができる機械又はコンピュータを指す。
【0137】
本明細書において用いられるとき、用語「機械学習」は、機械(例えばコンピュータプログラム)が、プログラムされずにそれ自体で学習することができるタイプの学習を指す。
【0138】
本明細書で使用される場合、「a、b、c、及びdの少なくとも1つ」という句は、a、b、c、又はd並びにa、b、c、及びdの2つ又は2つ以上を含むありとあらゆる組合せを指す。
【実施例
【0139】
[実施例1]:勾配ベースの設計を使用した緑色蛍光タンパク質のin silico操作
in silico機械学習手法を使用して、光を放出しなかったタンパク質を蛍光タンパク質に形質転換した。この実験のソースデータは、蛍光がアッセイされた50,000の公開GFP配列であった。まず、UniProtデータベースでまず予めトレーニングされたモデルを使用し、次いでモデルをとり、配列からの蛍光を予測するようにそれをトレーニングすることにより、転移学習を用いてエンコーダニューラルネットワークを生成した。輝度が下位80%のタンパク質をトレーニングデータセットとして選択し、一方、輝度が上位20%のタンパク質を検証データセットとして保持した。トレーニングセット及び検証セットでの平均二乗誤差は<0.001であり、配列から直接、蛍光を予測する高い精度を示す。トレーニングセット及び検証セットにおける真の蛍光値vs予測蛍光値を示すデータプロットを図5A及び図5Bにそれぞれ示す。
【0140】
図7は、GFP配列を操作する勾配ベースの設計(GBD)を示す図を示す。埋め込み702は勾配に基づいて最適化される。デコーダ704を使用して、埋め込みに基づいてGFP配列を特定し、その後、GFP配列をGFP蛍光モデル706によって査定して、予測蛍光708に達することができる。図7に示すように、勾配ベースの設計を使用してGFP配列を生成するプロセスは、勾配によってガイドされるように埋め込み空間において一歩進み、予測を行い(710)、勾配を再評価し(712)、次いでこのプロセスを繰り返すことを含む。
【0141】
エンコーダをトレーニングした後、トレーニング済みのエンコーダを使用して、この時点では蛍光ではない配列をシードタンパク質として選択し、埋め込み空間(例えば二次元空間)に投影した。勾配ベースの更新手順を実行して埋め込みを改良し、したがって、シードタンパク質からの埋め込みを最適化した。次に、導関数を計算し、導関数を使用して、埋め込み空間をより高機能の領域に向けて移動させた。蛍光気機能に関して、最適化された埋め込み座標を改善した。所望の機能レベルが達成されると、埋め込み空間における座標をタンパク質空間に投影し、所望の機能を有するアミノ酸配列を生成した。
【0142】
最高の予測輝度を有するGBD設計配列の60の選択を実験検証に選択した。GBDを使用して作成された配列の実験検証結果を図8に示す。Y軸はavGFP(WT)に対する蛍光の倍変化である。図8は左から右に(1)WT-avGFPの輝度であり、教師ありモデルがトレーニングされた全てのGFP配列のコントロールである;(2)操作済み:「スーパーフォルダ」(sfGFP)として知られる人設計のGFP;(3)GBD:勾配ベースの設計手順を使用して作成された新規の配列を示す。見て分かるように、幾つかの場合、GBDによって設計された配列は、野生型配列及びトレーニング配列よりも約50倍明るく、周知の人設計のsfGFPよりも5倍明るい。これらの結果は、人操作のポリペプチドよりも優れた機能を有するポリペプチドを操作することが可能なものとしてGBDを検証する。
【0143】
図9は、avGFPよりも概ね50倍高い実験的に検証された最高蛍光を有するGBD操作GFP配列と突き合わせたavGFPのアミノ酸配列対アラインメント900を示す。ピリオド「.」はavGFPからの突然変異なしを示し、一方、突然変異又は対ごとの相違は、アラインメントでの示された位置におけるGBD操作GFPアミノ酸残基を表す単一文字アミノ酸コードで示される。図9に示すように、対アラインメントは、配列番号1であるavGFPと配列番号2と呼ぶことができるGBD操作GFPポリペプチド配列との間に、7つのアミノ酸突然変異又は残基相違があることを明らかにしている。
【0144】
avGFPは、以下の配列の配列番号1を有するアミノ酸238個分の長さのポリペプチドである。GBD操作GFPポリペプチドは、avGFP配列から7つのアミノ酸突然変異を有する:Y39C、F64L、V68M、D129G、V163A、K166R、及びG191V。
【0145】
デコーダの残基ごとの精度は、トレーニングデータ及び検証データの両方で>99.9%であり、デコーダが平均で、GFP配列1つにつき0.5の誤りを犯すことを意味する(GFPが238アミノ酸長である場合)。次に、タンパク質設計に関する性能についてデコーダを評価した。まず、エンコーダを使用してトレーニングセット及び検証セット中の各タンパク質を埋め込んだ。次に、デコーダを使用してそれらの埋め込みをデコードした。最後に、エンコーダを使用して、デコードされた配列の蛍光値を予測し、これらの予測値を元の配列を使用して予測された値と比較した。このプロセスの概要を図4に示す。
【0146】
元の配列からの予測値とデコードされた配列からの予測値との相関を計算した。高レベルの一致がトレーニングデータセット及び検証データセットの両方で観測された。これらの観測を表1にまとめる。
【0147】
【表1】
【0148】
[実施例2]:勾配ベースの設計を使用したβラクタマーゼ遺伝子のin silico操作
in silico機械学習手法を使用して、前は耐性がなかった抗生物質への耐性を獲得するようにβラクタマーゼを変換した。11の抗生物質への耐性が測定された662の公開βラクタマーゼ配列のトレーニングセットを使用して、アミノ酸配列に基づいてこれらの抗生物質への耐性を予測するマルチタスク深層学習モデルを構築した。
【0149】
次に、テスト抗生物質への耐性を有する新たな配列を設計することを目標として、トレーニングセットからテスト抗生物質に対する耐性を持たない20のβラクタマーゼを選択した。勾配ベースの設計(GBD)をこれらの配列に合計100回の反復にわたって適用した。このプロセスの視覚化を図10に示す。先に詳述したように、初期配列を、埋め込み空間にマッピングされ、続けて100回の反復を通して最適化されるシードとして使用した。図10は、勾配ベースの設計反復の関数として設計された配列のテスト抗生物質への予測耐性を示す。y軸はモデルによって予測された耐性を示し、x軸は、埋め込みが最適化されるにつれての勾配ベースの設計のラウンド又は反復を示す。図10は、GBDのラウンド又は反復を通して予測耐性がいかに増大したかを示す。シード配列は低い耐性(ラウンド0)で開始され、幾つかのラウンド後、高い予測耐性(確率>0.9)を有するように反復して改善した。示すように、予測耐性は約25のラウンドでピークに達し、次いで横ばいになるように見える。
【0150】
GFPと異なり、βラクタマーゼは可変長を有し、したがって、タンパク質の長さは、GBDがこの例で制御することができる何かである。
【0151】
実験的検証のために7つの配列を選択し、これらを以下の表2に示す。
【0152】
表2.GBDにより設計された7つの配列を実験的検証に選択した。これらの7つの配列は、テスト抗生物質への耐性の高い確率を有し(耐性確率)、トレーニングデータにおいてテスト抗生物質に対して耐性を持つ配列との低い配列同一性を有し(クラスパーセントID)、低い相互配列同一性を有することの組合せについて選択された。トレーニングデータにおける最長βラクタマーゼはアミノ酸400個であり、GBD設計のβラクタマーゼポリペプチド配列の幾つかはその長さを超えた。
【0153】
【表2】
【0154】
GBDを使用して設計された7つの新規のβラクタマーゼに対して検証実験を実行した。βラクタマーゼを発現するベクターを用いて形質転換されたバクテリアを10倍希釈し、8ug/mlテスト抗生物質+1mM IPTGの存在下で寒天平板で成長させた。図11は、抗生物質耐性のテストを示す図である。正規βラクタマーゼTEM-1を最後の列に示す。明らかなように、設計された配列の幾つかは、テスト抗生物質に対してTEM-1よりも大きな耐性能力を示す。列14-1及び14-2におけるβラクタマーゼは、5スポット下にコロニーを有する。列14-3は7スポット下にコロニーを有する。列14-4、14-6、及び14-7は4スポット下にコロニーを有する。列14-5は3スポット下にコロニーを有する。その間、TEM-1は2スポット下のみにコロニーを有する。
【0155】
[実施例3]シミュレートされたランドスケープでの勾配ベースの設計を使用した合成実験
機械学習を使用した、特定の機能性質を有する生体配列の計算設計が本開示の目標である。一般的な戦略はモデルベースの最適化である:機能に配列をマッピングするモデルが、ラベル付きデータでトレーニングされ、続けて、所望の機能を有する配列を産生するように最適化される。しかしながら、ナイーブ最適化法は、モデル誤差が高い分布外入力を回避することができない。これらの問題に対処するために、明示的方法及び暗黙的方法は、新規の生体配列を効率的に生成する分布内入力に目的を制限する。
【0156】
タンパク質操作は、所望の機能性質を有する新規のタンパク質の生成を指す。この分野には、タンパク質治療、農業タンパク質、及び産業生体触媒の設計を含め、多くの用途がある。指定された機能を有するタンパク質をコードするアミノ酸配列の識別は、部分的に候補配列の空間が組み合わせ的に大きく、一方、機能配列のサブセットが消えそうなほど小さいため、難問である。
【0157】
成功してきた方法の1つのファミリは定向進化である:遺伝子変異体のライブラリからのサンプリングと、候補の次のラウンドを構築する改善された機能を有する遺伝的変異体のスクリーニングとを交互にした反復プロセス。高スループットアッセイの開発があっても、プロセスは時間及びリソース集約的であり、多くの反復及び多数の変異体のスクリーニングを必要とする。多くの用途では、所望の機能性質についての高スループットアッセイの設計は難問又は実現不可能である。
【0158】
最近の手法は機械学習法を利用して、ライブラリをより効率的に設計し、より少ない反復/スクリーニングで適合度のより高い配列に辿り着く。そのような一方法はモデルベースの最適化である。この設定では、配列を機能にマッピングするモデルは、ラベル付きデータにフィッティングされる。次いで、モデルは変異体を計算的にスクリーニングし、より適合度の高いライブラリを設計する。一態様では、本開示のシステム及び方法は、ナイーブ手法で生じる問題をモデルベースの最適化に改善し、生成された配列を改善する。
【0159】
一例では、Xをタンパク質配列の空間を示すものとし、fを関心のある性質(例えば蛍光、活性、発現、可溶性)をコードするタンパク質空間での実数値マップであるとする。指定された機能を有する新規のタンパク質を設計するタスクを次いで、
【数2】

への解を見つけるものとして再定式化することができ、式中、fは一般に未知である。このクラスの問題はモデルベースの最適化と呼ばれる。この問題は静的設定に制限することができ、その場合、fを直接問い合わせることができるが、ラベル付きデータセット
【数3】

が提供され、ここで、ラベルyは恐らくはノイジーである:y≒f(x
【0160】
ナイーブ手法は、Dを使用してfに近づくモデルfθをフィッティングし、次いで
【数4】

を解くことである。
【0161】
オプティマイザはfθが誤って大きいように点を見つけることができるため、これは不良な結果を生み出しがちである。主な問題は、可能なアミノ酸配列の空間が非常に高い次元を有するが、データが典型的には、はるかに低次元のサブ空間からサンプリングされることである。これは、実際にはθが高次元であり、fθが高度に非線形である(例えば、生物学でのエピスタシスのような現象に起因して)ことによって悪化する。したがって、出力は、fθがfの良好な近似である許容される配列のクラスにサーチを制限するように何らかの方法で制限されなければならない。
【0162】
一手法は、pθ(x)が、配列xがデータ分布からサンプリングされる確率であるように確率的モデルpθを(xにフィッティングすることである。尤度を明示的に計算(又は下限設定)することができるモデルクラスの幾つかの例は、一次/サイトワイズ(sitewise)モデル、隠れマルコフモデル、条件付き確率場、変分オートエンコーダ(VAE)、自己回帰モデル、及びフローベースモデルである。一態様では、方法は関数:
【数5】

を最適化し、ここで、λ>0は固定されたハイパーパラメータである。多くの場合、ラベル付きデータは高価又は非常に少ないが、関心のあるファミリからのタンパク質のラベルなし例も容易に利用可能である。実際には、pθは、このファミリからのラベルなしタンパク質のより大きなデータセットにフィッティングすることができる。
【0163】
配列空間で直接最適化する一難問は、配列空間が離散であり、勾配ベースの方法には不適であることである。fθが配列空間の学習済み連続表現の平滑関数であることを利用することで、勾配を利用することができ、より効率的に最適化することができる。そのために、fθ=aθθであり、式中、fθはL層ニューラルネットワークであり、eθ:Zはエンコーダを指し、最初のK層であり、aθ:Z→Rはアノテータを指し、最後のL-K層である。これは、最適化を空間Zに移し、勾配を利用できるようにする。非正則化類似物は、
【数6】

を解くことである。
【0164】
次いで、データ分布からサンプリングされたx’について、
【数7】

であるように確率的デコーダdψ:Z→p(X)マッピングz→dψ(x|z)をフィッティングし、これは
【数8】

を返すことができる。勾配は、aθのみならずdψも高い誤差を有するZのエリアにzを引き込み得るため、ここで問題が一層悪化することを予期し得る。aθ及びdψは同じデータマニフォルドでトレーニングされるため、dψの再構築誤差はaθの平均絶対誤差と相関しがちであるという観測によって方法は動機付けられる。以下の目的関数が提案される:
【数9】
【0165】
これは、暗黙的な制約を最適化に追加する。(5)への安定解は、dψ(xz)が低エントロピー及び低再構築誤差を有するZのエリアに対応する。この正則化についての考えのヒューリスティックは、デコーダはデータ分布における点に集中する分布を出力するようにトレーニングされるため、マッピングz→eθ(dφ(x|z))はデータマニフォルドへの投影と見なすことができることである。先のfθはXにおけるマッピングであったが、式は、fθがp()でのマッピングであることを示唆する。しかしながら、以下、式(5)が適合するp()へのfθの自然拡張について説明する。最後に、式(3)中のpθと同様に、デコーダdψは、式(5)を介した勾配ベースの設計(GBD)として勾配上昇を使用して利用可能な場合、関心のあるファミリからタンパク質のより大きなラベルなしデータセットにフィッティングすることができる。
【0166】
[結果-合成実験]
モデルベースの最適化法の評価では、グラウンドトゥルース関数fに問い合わせる必要がある。実際には、これは遅く且つ/又は高価であることができる。方法の開発及び評価を支援するために、方法は2つの設定での合成実験を用いてテストされる:格子タンパク質最適化タスク及びRNA最適化タスク。両タスクで、グラウンドトゥルースfは高度に非線形であり、実際の生体配列の非自明な生物物理学的性質を近似する。
【0167】
格子タンパク質は、L長タンパク質が、自己交差なしの二次元格子上にある配座に制限されるという簡易化仮定を指す。この仮定下で、全ての可能な配座を列挙し、分配関数を厳密に計算することができ、多くの熱力学的性質を効率的に計算できるようにする。ブランドトゥルース適合度fは、固定配座sfに関するアミノ酸鎖の自由エネルギーとして定義される。この適合度に関して配列を最適化することは、配列設計での長年にわたる目標である、固定構造配座に関して安定した配列を見つけることになる。
【0168】
固定配座に関するヌクレオチド配列の自由エネルギーは、2D格子タンパク質モデルで行われる簡易化仮定の多くなしで効率的に計算することができる。RNA最適化設定では、fは、既知のtRNA構造の固定配座sfに関する自由エネルギーとして、ヌクレオチド配列の空間で定義される。
【0169】
両タスクで、fが定義された後、トレーニングデータが選択される適合度ランドスケープが、改変されたメトロポリスヘイスティングスサンプリングによって生成される。メトロポリスヘイスティングス下では、ランドスケープに含まれる配列xの確率は、f(x)に漸近的に比例する。データは適合度に従って分割される:検証データは適合度のより高い配列から均一にサンプリングされ、トレーニングデータは適合度のより低い配列からサンプリングされて、現実世界用途で望ましい性質である、トレーニング中に見られるよりも高い適合度を有する配列を生成する能力について方法を評価する。
【0170】
畳み込みニューラルネットワークfθ及びサイトワイズpθがデータにフィッティングされる。192のシード配列のコホートがトレーニングデータからサンプリングされ、離散最適化目的(2)及び(3)並びに勾配ベースの最適化目的(4)及び(5)に従って最適化される。離散目的は、各ステップにおいて、幾つかの候補突然変異が、トレーニングデータによって与えられた経験分布からサンプリングされる貪欲局所探索によって最適化され、目的に従った最良突然変異が、コホート中の各配列に選択される。
【0171】
ナイーブ最適化は、モデル誤差が高い空間のエリアにコホートを素早く駆動し、両実験でコホートの平均適合度を改善することができない。正則化はこの影響を低下させることができ、モデル誤差を低く維持しながら、コホートの平均適合度を改善することができる。いずれのタスクでも、生成された配列で、トレーニング中に見られた適合度を超えるものは略ない(<1%)。
【0172】
図12A図12Fは、RNA最適化(12A~C)及び格子タンパク質最適化(12D~F)での離散最適化結果を示すグラフである。図12A及び図12Dは、最適化中のコホートにわたる適合度(μ±σ)を示す。ナイーブ最適化は、いずれの環境でも平均適合度の有意な増大を生じさせず、一方、正則化目的はそうすることが可能である。図12B及び図12Eは、適合度で上位10パーセンタイルからなるサブコホートの適合度を示す(サブコホートでの陰影付き最小~最大性能)。トレーニング中に見られるよりも有意に高い適合度を有する配列は、RNAサンドボックスでのいずれの方法によっても見つけることができない。図12C及び図12Fは、最適化中、コホートにわたるfからのfθの絶対偏差(μ±σ)を示す。コホートは、モデルが信頼できない空間の部分に移動するため、ナイーブ目的はコホート性能を改善することができない。
【0173】
図14は、式(3)中の正則化項λを上方加重する効果を示す:λが大きいほど、モデル誤差は小さくなるが、pθによって高確率が割り当てられる配列にモデルが制限されるため、最適化の過程にわたる配列多様性はそれに対応して低下する。このシステムをテストする全ての実験では、別段のことが指定されなければ、λは5に設定される。しかしながら、他の値を他のテストで使用することが可能である。左のグラフは、λが目的(3)で増大するにつれてコホートにわたる平均モデル誤差(μ±σ)が低下することを示し、一方、右のグラフは、コホートにおける配列多様性も同様に低下することを示す。格子タンパク質サンドボックス環境からとられたデータ。勾配ベースの方法は、離散方法よりもはるかに空間中の遠くに素早く移動する。GBDは、離散正則化法と同等の低いモデル誤差を維持しながら、初期シードからはるかに遠くの配列空間の領域を探索することが可能である。
【0174】
図13A図13Hは勾配ベースの最適化の結果を示す。最適化の際の先に強調した問題は、Zで作業する場合のみ悪化する:正則化なしでは、コホートが、aθ(z)が非現実的に(且つ不正確に)高い予測適合値を有する点zに駆動されるのみならず、デコードされた配列
【数10】

はfθによる高適合度を有するように予測されない。両設定において、ナイーブ最適化はコホートにわたる平均適合度を改善することができず、且つトレーニング中に見られる適合度を超える配列を見つけることができない。GBDはこの挙動を示さない:fθ、aθ、及び
【数11】

を首尾よく最適化する。両設定において、GBDはコホートの平均適合度を改善し、コホートにおける配列の上位10%は一貫して、トレーニング中に見られる適合度を超える適合度を有する。
【0175】
図13A図13DはRNA最適化での勾配ベースの最適化結果を示し、図13E図13Hは格子タンパク質最適化を示す。図13A及び図13Eは、最適化中、コホートにわたる最大尤度デコード配列の真の適合度である
【数12】

を示す。ナイーブ最適化は、RNAサンドボックスにおいて平均適合度の有意な増大を生じさせず、格子タンパク質環境ではコホート適合度の大きな低下を生じさせる。GBDは、最適化中、平均コホート適合度を首尾よく改善することが可能である。図13B及び図13Fは、適合度の上位10パーセンタイルからなるサブコホートの適合度を示す(サブコホートにおける陰影付き最小~最大性能)。GBDは、トレーニング中に見られる適合値を超える適合値を有する配列を高い信頼性で見つける。図13C及び図13Gは、Zにおける現在点でのデコード配列の予測適合度である、最適化中のコホートの
【数13】

を示すパネルである。図13D及び図13Hは、Zにおける現在表現の予測適合度である、最適化中のコホートのaθ(z)(μ±σ)を示す。ナイーブ目的はaθを素早くハイパー最適化し、
【数14】

によって有意な配列にデコードすることができないZ空間の非現実的部分にコホートをプッシュする。GBD目的はこの病理を首尾よく回避する。
【0176】
図15A及び図15Bはヒューリスティック動機付けGBDを示す:
【数15】

が高信頼的にデコードすることができるZのエリアにコホートを駆動する。Xで見ると、これは、
【数16】

が概ね同一であることを意味し(右)、又はZで見ると、
【数17】

が小さく、したがって、
【数18】

が小さいことを意味する。fθ及びdψは同じ分布でトレーニングされるため、データは、fθも空間のこのエリアで高信頼性であることを示唆する。
【0177】
図15Aは、格子タンパク質ランドスケープにおいて最適化されたコホートの全てのステップ及び全ての配列にわたる
【数19】

からのaθ(z)の偏差に対してプロットされた
【数20】

からのaθ(z)の偏差の散布図である。図15Bは、同じデータでの
【数21】

からのaθ(z)の偏差に対してプロットされたZにおける点の最大尤度デコードである
【数22】

の精度を示すグラフである。GBDは、dψが高信頼的にデコードするZのエリアにコホートを押すことによって暗黙的に正則化を提供する。fθ及びdψは同じ分布に適合するため、この領域での予測適合度は高信頼性である。
【0178】
合成実験では、GBDは、コホートの適合度(平均及び最大)に関して探索されるモンテカルロ最適化法の性能を満たすか、又は超えることが可能である。実際にGBDははるかに高速である:離散法は、あらゆる反復におけるK個の突然変異候補を生成し評価することを含む。これは、反復ごとに配列1つ当たりでモデルのK回のフォワードパスが必要とされる。GBDは、反復ごとに配列1つ当たりで1つのフォワードパス及び1つのバックワードパスを必要とする。
【0179】
さらに、図16は、格子タンパク質における種々の目的の最適化中、コホートでの初期シードからの突然変異(μ±σ)数を示す。図16は、GBDが、比較的低い誤差を維持しながら、離散法よりも初期シード配列から離れた最適を見つけることが可能なことを示す。
【0180】
表3は、考察した全ての方法とランダムサーチベースラインとの比較を提供する。RNAサンドボックスでは、GBDは、メトロポリスヘイスティングスによって生成されるランドスケープ全体で見られる(最適化よりも数桁多い反復にわたって実行された)よりも高い適合度を有する配列を生成することができた、探索された唯一の方法である。PythonパッケージLatticeProteinsは、長さ16のアミノ酸鎖の全ての可能な非自己交差配座を列挙する。この列挙を使用して、固定配座sf下で長さ16のアミノ酸鎖の自由エネルギーを計算する。適合関数fが長さ32のアミノ酸配列の空間において以下のように定義され:
f(x)=E(x)+E(x)-R(x,x) (6)
式中、E(x)はsfに関する前の16アミノ酸残基によって形成される鎖の自由エネルギーであり、E(x)はsfに関する後の16アミノ酸残基によって形成される鎖の自由エネルギーであり、
R(x,x)=c((x,(x) (7)
であり、c(α,β)は、全てのアミノ酸α、βの標準正規分布からサンプリングされた一定相互作用項である。
【0181】
[RNA構造適合関数]
sfを固定tRNA構造とする。PythonパッケージViennaRNAを用いて、適合関数fは、
f(x)=E(x)-min(exp(βd(s,s)),20) (8)
として長さ70のヌクレオチド配列の空間で定義され、式中、dはハミング距離を示し、β=0.3はハイパーパラメータであり、sはxの最小エネルギー配座であり、E(x)は配座sでの配列の自由エネルギーを有する。
【0182】
[貪欲モンテカルロ探索最適化]
方法は、貪欲モンテカルロ探索アルゴリズムによって目的2及び3を最適化する。xが長さLの配列であると、各反復において、K個の突然変異が、トレーニングデータによって与えられる事前分布からサンプリングされる。より正確には、K個の位置が置換を用いて1・・・Lから均一にサンプリングされ、各位置で、アミノ酸(又はRNA最適化の場合、ヌクレオチド)が、その位置におけるデータによって与えられる周辺分布からサンプリングされる。次いで目的がライブラリ中の各変異体で評価され(元の配列が含まれる)、最良の変異体が選択される。このプロセスはMステップにわたり継続する。
【0183】
[D.適合度ランドスケープの生成]
適合関数fへのアクセスを所与として、教師ありモデルfθをトレーニングするためのサンプルを取得することが望ましい。直観的に高確率で、ランダムに選択された配列が消えそうなほど低い適合度を有することになるため、均一サンプリングは、Xの高次元に起因して実現不可能である。目標は、密度がfに比例する分布からサンプルを取得することである。プロセスにおける各内側ループについて、M配列のコホートがランダムに初期化される。各配列について、引き出されたN個の突然変異がランダムに均一に引き出され、ランドスケープにMN個全ての配列を含む。(xijが配列iのN個の変異体を示す場合、方法は、(f(xij))によって与えられるロジットを用いて、[1・・・N]でのカテゴリ分布から突然変異をサンプリングすることによって更新する。更に後述するように、内側ループはJステップにわたって実行され、C個の外側ループが実行される。
【0184】
[勾配ベースの設計]
勾配ベースの設計は、勾配上昇による目的(4)の最適化を指す。fθ、dψ、及び初期点zを所与として、h:=fθψを設定すると、GBDの反復は、hを最大化するために、Adam等の勾配ベースのオプティマイザのK個のステップからなり、その後、zeθ(dψ(z))であるデコードステップが続く。実際には、有効学習率があり良好な性能に極めて重要、0.05の値が実験全体を通して使用され、Kは20であった。
【0185】
[モデルアーキテクチャ及びトレーニング]
方法はfθ=aθθを因数分解する。畳み込みブロック及び平均プーリング層の交互スタックからなる全ての実験全体を通して、畳み込みエンコーダeθを使用した。ブロックは、残差接続でラップされた2つの層を含む。各層は1d畳み込み、層正規化、ドロップアウト、及びReLU活性化を含む。2層全結合フィードフォワードネットワークaθが全体を通して使用される。デコーダネットワークdψは、交互になった残差ブロック及び転置畳み込み層のスタックで構成され、その後に2層全結合フィードフォワードネットワークが続く。
【0186】
パラメータ推定はまとめてではなく順次行われる:まず、fθがフィッティングされ、次いでパラメータθが凍結され、dψがフィッティングされる。学習は、確率的勾配降下によって行われて、ADAMオプティマイザを用いてfθ、dψのそれぞれのMSE及び交差エントロピーを最小化する。最大学習速度10-4を有する1サイクル学習率アニーリングスケジュールを使用して、fθは20エポックにわたりフィッティングされ、dψは40エポックにわたりフィッティングされる。各エポック後、モデルパラメータは保存され、トレーニング後、検証損失によって測定される最良パラメータが生成に選択される。最大尤度によってフィッティングされるサイトワイズpθが全ての実験で使用される。
【0187】
エビデンス下限を最大化することにより、変分オートエンコーダをデータにフィッティングした。エンコーダパラメータ及びデコーダパラメータは、再パラメータ化(償却)によりまとめて学習される。一定学習速度10-3を最適停止セット及びペイシャンス(patience)パラメータ10を用いて50エポックにわたり使用した。20回の反復で、N=5000配列が標準正規から先にサンプリングされ、デコーダに通され、予測適合度がfθによって割り当てられる。VAEはこれらの配列で10エポックにわたり微調整され、再加重されて、予測適合度がより高い配列を生成する。両生成モデルは、20回の反復が完了する前に崩壊してデルタ質量関数になるため、両方法での真の最大平均適合度に対応する表1の結果が反復について報告された。したがって、報告された尺度は方法のピーク性能を包含する。
【0188】
【表3】
【0189】
最適化は、トレーニングデータからサンプリングされた192配列に適用された20回の反復からなる(方法にわたり一定に保たれた)。
【0190】
[実施例4]:勾配ベースの設計を使用した抗体のin silico操作
上記は、勾配ベースの設計を使用して解離定数(KD)を改善したフルオレセインイソチオシアネート(FITC)を結合する抗体の生成を記載する。モデルは、蛍光活性化細胞選別を使用して測定された2825のユニーク抗体配列のライブラリのKD推定の公開データセットでトレーニングされ、その後、Adams RM;Mora T;Walczak AM;Kinney JB,Elife,“Measuring the sequence-affinity landscape of antibodies with massively parallel titration curves”(2016)(以下“Adamsら”)に記載のように、次世代シーケンシングが続き、これは全体的に、参照により本明細書に援用される。抗体配列をKDにマッピングする配列のこのデータセット及びKD対を3つの方法で分割した。最初の分割は、検証のために機能を発揮する(performing)配列の上位6%を保持することによって行われる(したがって、モデルは下位94%でトレーニングされる)。2番目の分割は、検証のために機能を発揮する配列の上位15%を保持することによって行われた(したがって、モデルは下位85%でトレーニングされる)。3番目の分割は、検証に保持された配列の20%を均一に(iid)サンプリングすることによって行われた。
【0191】
各分割で、エンコーダ(配列を埋め込みにマッピングする)及びアノテータ(埋め込みをKDにマッピングする)を含む教師ありモデルがまとめてフィッティングされる。次いで、埋め込みを再び配列にマッピングするデコーダが、同じトレーニングセットでフィッティングされる。各モデルで、128のシードがトレーニングセットから均一にサンプリングされ、2つの方法で最適化される。最初の方法は、GBDによる5ラウンドにわたり、20のGBDステップからなる各ラウンドの後に、デコーダを通した逆投影が続く。2番目の方法は、GBD+による5ラウンドにわたり(目的は一次正則化で増強される)、20のGBDステップからなる各ラウンドの後に、デコーダを通した逆投影が続く。GBD+は、MSA(多重配列アラインメント)を使用する方法を制約することを含め、追加の正則化を使用する。したがって、各モデルは候補の2つのコホート(各方法GBD、GBD+に1つずつ)をもたらす。まず、(独立してトレーニングされた発現モデルからの各予測発現で各候補をラベルすることにより、各コホートからオーダーする最終配列が選択され、i.i.d(独立同分布)で分割された(配列、発現データのデータセットにフィッティングされる)。コホートは2つの方法でフィルタリングされる:低発現を有すると予測される場合、配列は除去され、予測された適合度がシードの初期予測適合度未満である場合、配列は除去される。残りの配列のうち、最高予測適合度の配列を研究所での測定に選んだ。
【0192】
図17は、生成されたタンパク質の親和性を検証する、列記されたタンパク質変異体のKdを測定するウェットラボデータを示すグラフ1700である。
【0193】
グラフによって示される方法は、CDE:正規化及び非正規化、GBD:正規化及び非正規化、並びにベースラインプロセスを含む。図17が基づくデータセットを以下の表4に示し、表4は生成されたタンパク質の実験的に測定されたKd値を列記する。
【0194】
【表4】
【0195】
本発明によるGBD生成変異体のKdを測定するウェットラボ実験を以下のように行った。表層提示に向けてフォーマットされたユニークな抗FITC scFv設計変異体を発現し、発現定量化のためのcMycタグを含むクローンプラスミドを用いて酵母細胞を形質転換した。培養及びscFv発現後、酵母細胞をフルオレセイン抗原及び蛍光共役抗cMyc抗体で幾つかの濃度で染色した。平衡に達した後、フローサイトメトリによって各濃度の染色からの細胞を測定する。発現細胞でのゲーティング後、フルオレセイン抗原結合のメジアン蛍光強度を計算した。メジアン蛍光データを標準単一結合親和性曲線にフィッティングして、各クローンscFv変異体の概ねの結合親和性Kd(解離定数)を特定した。これらの結果は、GBDが、FITC抗体の設計について他の設計方法よりも優れていることを示した。
【0196】
本発明の好ましい態様を本明細書において示し記載したが、そのような態様が単なる例として提供されることが当業者には明らかである。本発明から逸脱せずに、これより当業者は多くの変形、変更、及び置換を想到しよう。本明細書において記載の本発明の態様への種々の代替が、本発明を実施するに当たり利用し得ることを理解されたい。以下の特許請求の範囲が本発明の範囲を規定し、これらの特許請求の範囲及びそれらの均等物内の方法及び構造が本発明の範囲により包含されることが意図される。
【0197】
本願の開示は以下の例示的な態様も含む。
【0198】
例示的な態様1:機能によって査定される改良された生体高分子配列を操作する方法であって、
(a)生体高分子配列の機能を予測する教師ありモデルと、デコーダネットワークとを備えたシステムに埋め込みにおける開始点を提供することであって、任意選択的に開始点はシード生体高分子配列の埋め込みであり、教師ありモデルネットワークは、機能を表す機能空間に生体高分子配列の埋め込みを提供するエンコーダネットワークを備え、デコーダネットワークは、機能空間における生体高分子配列の埋め込みを所与として、確率的生体高分子配列を提供するようにトレーニングされる、提供することと、
(b)ステップサイズに従って開始点における埋め込みに関連した機能の変化を計算することであって、それにより、機能空間における第1の更新点を提供する、計算することと、
(c)任意選択的に機能空間における第1の更新点での埋め込みに関する機能の変化を計算し、任意選択的に更なる更新点での埋め込みに関する機能の変化を計算するプロセスを反復することと、
(d)機能空間において第1の更新点又は任意選択的に反復された更なる更新点で所望の機能レベルに近づきつつあると、第1の更新点又は任意選択的に反復された更なる更新点をデコーダネットワークに提供することと、
(e)デコーダから改良された確率的生体高分子配列を取得することと、
を含む方法。
【0199】
例示的な態様2:機能によって査定される改良された生体高分子配列を操作する方法であって、
(a)生体高分子配列の機能を予測する教師ありモデルネットワークと、デコーダとを含むシステムに埋め込みにおける開始点を提供することであって、任意選択的にシード生体高分子配列の埋め込みであり、教師ありモデルネットワークは、機能を表す機能空間に生体高分子配列の埋め込みを提供するエンコーダネットワークを備え、デコーダネットワークは、機能空間における予測された生体高分子配列の埋め込みを所与として、予測された確率的生体高分子配列を提供するようにトレーニングされる、提供することと、
(b)埋め込みにおける開始点の機能を予測することと、
(c)ステップサイズに従って開始点における埋め込みの関する機能の変化を計算することであって、それにより、機能空間に第1の更新を提供する、計算することと、
(d)機能空間における第1の更新点をデコーダネットワークに提供することであって、それにより、第1の中間確率的生体高分子配列を提供する、提供することと、
(e)第1の中間確率的生体高分子配列を教師ありモデルに提供することであって、それにより、第1の中間確率的生体高分子配列の機能を予測する、提供することと、
(f)機能空間における第1の更新点での埋め込みに関する機能の変化を計算することであって、それにより、機能空間における更新点を提供する、計算することと、
(g)機能空間における更新点をデコーダネットワークに提供することであって、それにより、追加の中間確率的生体高分子配列を提供する、提供することと、
(h)追加の中間確率的生体高分子配列を教師ありモデルに提供することであって、それにより、追加の中間確率的生体高分子配列の機能を予測する、提供することと、
(i)機能空間における更なる第1の更新点での埋め込みに関する機能の変化を計算することであって、それにより、機能空間における別の更なる更新点を提供し、任意選択的にステップ(g)~(i)を繰り返し、ステップ(i)において参照される機能空間における別の更なる更新点は、ステップ(g)における機能空間における更なる更新点と見なされる、計算することと、
(j)機能空間において所望の機能レベルに近づきつつあると、埋め込みにおける点をデコーダネットワークに提供し、任意選択的にデコーダから改良された確率的生体高分子配列を取得することと、
を含む方法。
【0200】
例示的な態様3:命令を含む非過渡的及び/又は非一時的コンピュータ可読媒体であって、命令は、プロセッサによって実行されると、プロセッサに、
(a)生体高分子配列の機能を予測する教師ありモデルと、デコーダネットワークとを備えたシステムに埋め込みにおける開始点を提供することであって、任意選択的に開始点はシード生体高分子配列の埋め込みであり、教師ありモデルネットワークは、機能を表す機能空間に生体高分子配列の埋め込みを提供するエンコーダネットワークを備え、デコーダネットワークは、機能空間における生体高分子配列の埋め込みを所与として、確率的生体高分子配列を提供するようにトレーニングされる、提供することと、
(b)ステップサイズに従って開始点における埋め込みに関連した機能の変化を計算することであって、それにより、機能空間における第1の更新点を提供する、計算することと、
(c)任意選択的に機能空間における第1の更新点での埋め込みに関する機能の変化を計算し、任意選択的に更なる更新点での埋め込みに関する機能の変化を計算するプロセスを反復することと、
(d)機能空間において第1の更新点又は任意選択的に反復された更なる更新点で所望の機能レベルに近づきつつあると、第1の更新点又は任意選択的に反復された更なる更新点をデコーダネットワークに提供することと、
(e)デコーダから改良された確率的生体高分子配列を取得することと、
を行わせる、非過渡的及び/又は非一時的コンピュータ可読媒体。
【0201】
例示的な態様4:プロセッサと、命令を含む非過渡的及び/又は非一時的コンピュータ可読媒体とを備えたシステムであって、命令は、プロセッサによって実行されると、プロセッサに、
(a)生体高分子配列の機能を予測する教師ありモデルと、デコーダネットワークとを備えたシステムに埋め込みにおける開始点を提供することであって、任意選択的に開始点はシード生体高分子配列の埋め込みであり、教師ありモデルネットワークは、機能を表す機能空間に生体高分子配列の埋め込みを提供するエンコーダネットワークを備え、デコーダネットワークは、機能空間における生体高分子配列の埋め込みを所与として、確率的生体高分子配列を提供するようにトレーニングされる、提供することと、
(b)ステップサイズに従って開始点における埋め込みに関連した機能の変化を計算することであって、それにより、機能空間における第1の更新点を提供する、計算することと、
(c)任意選択的に機能空間における第1の更新点での埋め込みに関する機能の変化を計算し、任意選択的に更なる更新点での埋め込みに関する機能の変化を計算するプロセスを反復することと、
(d)機能空間において第1の更新点又は任意選択的に反復された更なる更新点で所望の機能レベルに近づきつつあると、第1の更新点又は任意選択的に反復された更なる更新点をデコーダネットワークに提供することと、
(e)デコーダから改良された確率的生体高分子配列を取得することと、
を行わせる、システム。
【0202】
例示的な態様5:プロセッサと、命令を含む非過渡的及び/又は非一時的コンピュータ可読媒体とを備えたシステムであって、命令は、プロセッサによって実行されると、プロセッサに、
(a)生体高分子配列の機能を予測する教師ありモデルネットワークと、デコーダネットワークとを含むシステムに埋め込みにおける開始点を提供することであって、任意選択的にシード生体高分子配列の埋め込みであり、教師ありモデルネットワークは、機能を表す機能空間に生体高分子配列の埋め込みを提供するエンコーダネットワークを備え、デコーダネットワークは、機能空間における予測された生体高分子配列の埋め込みを所与として、予測された確率的生体高分子配列を提供するようにトレーニングされる、提供することと、
(b)埋め込みにおける開始点の機能を予測することと、
(c)ステップサイズに従って開始点における埋め込みの関する機能の変化を計算することであって、それにより、機能空間に第1の更新を提供する、計算することと、
(d)機能空間における第1の更新点をデコーダネットワークに提供することであって、それにより、第1の中間確率的生体高分子配列を提供する、提供することと、
(e)第1の中間確率的生体高分子配列を教師ありモデルに提供することであって、それにより、第1の中間確率的生体高分子配列の機能を予測する、提供することと、
(f)機能空間における第1の更新点での埋め込みに関する機能の変化を計算することであって、それにより、機能空間における更新点を提供する、計算することと、
(g)機能空間における更新点をデコーダネットワークに提供することであって、それにより、追加の中間確率的生体高分子配列を提供する、提供することと、
(h)追加の中間確率的生体高分子配列を教師ありモデルに提供することであって、それにより、追加の中間確率的生体高分子配列の機能を予測する、提供することと、
(i)機能空間における更なる第1の更新点での埋め込みに関する機能の変化を計算することであって、それにより、機能空間における別の更なる更新点を提供し、任意選択的にステップ(g)~(i)を繰り返し、ステップ(i)において参照される機能空間における別の更なる更新点は、ステップ(g)における機能空間における更なる更新点と見なされる、計算することと、
(j)機能空間において所望の機能レベルに近づきつつあると、埋め込みにおける点をデコーダネットワークに提供し、デコーダから改良された確率的生体高分子配列を取得することと、
を行わせる、システム。
【0203】
例示的な態様6:命令を含む非過渡的及び/又は非一時的コンピュータ可読媒体であって、命令は、プロセッサによって実行されると、プロセッサに、
(a)生体高分子配列の機能を予測する教師ありモデルネットワークと、デコーダネットワークとを含むシステムに埋め込みにおける開始点を提供することであって、任意選択的にシード生体高分子配列の埋め込みであり、教師ありモデルネットワークは、機能を表す機能空間に生体高分子配列の埋め込みを提供するエンコーダネットワークを備え、デコーダネットワークは、機能空間における予測された生体高分子配列の埋め込みを所与として、予測された確率的生体高分子配列を提供するようにトレーニングされる、提供することと、
(b)埋め込みにおける開始点の機能を予測することと、
(c)ステップサイズに従って開始点における埋め込みの関する機能の変化を計算することであって、それにより、機能空間に第1の更新を提供する、計算することと、
(d)機能空間における第1の更新点をデコーダネットワークに提供することであって、それにより、第1の中間確率的生体高分子配列を提供する、提供することと、
(e)第1の中間確率的生体高分子配列を教師ありモデルに提供することであって、それにより、第1の中間確率的生体高分子配列の機能を予測する、提供することと、
(f)機能空間における第1の更新点での埋め込みに関する機能の変化を計算することであって、それにより、機能空間における更新点を提供する、計算することと、
(g)機能空間における更新点をデコーダネットワークに提供することであって、それにより、追加の中間確率的生体高分子配列を提供する、提供することと、
(h)追加の中間確率的生体高分子配列を教師ありモデルに提供することであって、それにより、追加の中間確率的生体高分子配列の機能を予測する、提供することと、
(i)機能空間における更なる第1の更新点での埋め込みに関する機能の変化を計算することであって、それにより、機能空間における別の更なる更新点を提供し、任意選択的にステップ(g)~(i)を繰り返し、ステップ(i)において参照される機能空間における別の更なる更新点は、ステップ(g)における機能空間における更なる更新点と見なされる、計算することと、
(j)機能空間において所望の機能レベルに近づきつつあると、埋め込みにおける点をデコーダネットワークに提供し、デコーダから改良された確率的生体高分子配列を取得することと、
を行わせる、非過渡的及び/又は非一時的コンピュータ可読媒体。
図1
図2
図3A
図3B
図3C
図4
図5A
図5B
図6A
図6B
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
【配列表】
2022543234000001.app
【手続補正書】
【提出日】2022-04-05
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
機能によって査定される改良された生体高分子配列を操作する方法であって、
(a)生体高分子配列の機能を予測する教師ありモデルと、デコーダネットワークとを備えたシステムに埋め込みにおける開始点を提供することであって、教師ありモデルネットワークは、前記機能を表す機能空間に生体高分子配列の前記埋め込みを提供するエンコーダネットワークを備え、前記デコーダネットワークは、前記機能空間における生体高分子配列の埋め込みを所与として、確率的生体高分子配列を提供するようにトレーニングされる、提供することと、
(b)ステップサイズに従って前記開始点における前記埋め込みに関連した前記機能の変化を計算することであって、前記計算された変化は、前記機能空間における第1の更新点を提供できるようにする、計算することと、
(c)前記機能空間における前記第1の更新点における特定の閾値内の所望の機能レベルに達すると、前記第1の更新点を提供することと、
(d)デコーダから改良された確率的生体高分子配列を取得することと、
を含む方法。
【請求項2】
前記開始点は、シード生体高分子配列の前記埋め込みである、請求項1に記載の方法。
【請求項3】
前記機能空間における前記第1の更新点における前記埋め込みに関して前記機能の第2の変化を計算することと、
更なる更新点における前記埋め込みに関して前記機能の前記第2の変化を計算するプロセスを繰り返すことと、
を更に含む、請求項1又は2に記載の方法。
【請求項4】
前記第1の更新点を提供することは、任意選択的に繰り返される更なる更新点における特定の閾値内の前記機能の所望のレベルに達した場合、実行することができ、前記更なる更新点を提供することは、前記繰り返された更なる更新点を前記デコーダネットワークに提供することを含む、請求項3に記載の方法。
【請求項5】
前記埋め込みは、前記機能を表し、1つ又は複数の勾配を有する連続微分可能な機能空間である、請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記埋め込みに関する前記機能の前記変化を計算することは、前記埋め込みに関する前記機能の導関数をとることを含む、請求項1~5のいずれか一項に記載の方法。
【請求項7】
前記機能は2つ以上の構成要素機能の複合機能である、請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記複合機能は、前記2つ以上の複合機能の加重和である、請求項7に記載の方法。
【請求項9】
前記埋め込みにおける2つ以上の開始点は同時に使用される、請求項1~8のいずれか一項に記載の方法。
【請求項10】
残基同一性の確率分布を含む確率的配列における残基間の相関が、既に生成された前記配列の部分を考慮に入れる条件付き確率を使用したサンプリングプロセスで考慮される、請求項1~9のいずれか一項に記載の方法。
【請求項11】
残基同一性の確率分布を含む確率的生体高分子配列から最大尤度改良済み生体高分子配列を選択することを更に含む、請求項1~10のいずれか一項に記載の方法。
【請求項12】
残基同一性の確率分布を含む確率的生体高分子配列の各残基における周辺分布をサンプリングすることを含む、請求項1~11のいずれか一項に記載の方法。
【請求項13】
前記埋め込みに関する前記機能の前記変化は、エンコーダに関する前記機能の前記変化、次いで前記デコーダの前記変化への前記エンコーダの前記変化、及び前記埋め込みに関する前記デコーダの前記変化を計算することによって計算される、請求項1~12のいずれか一項に記載の方法。
【請求項14】
前記機能空間における前記第1の更新点又は前記機能空間における更なる更新点を前記デコーダネットワークに提供することであって、それにより、中間確率的生体高分子配列を提供する、提供することと、
前記中間確率的生体高分子配列を前記教師ありモデルネットワークに提供することであって、それにより、前記中間確率的生体高分子配列の前記機能を予測する、提供することと、
前記中間確率的生体高分子の前記埋め込みに関する前記機能の前記変化を計算することであって、それにより、前記機能空間における更なる更新点を提供する、計算することと、
を含む、請求項1~13のいずれか一項に記載の方法。
【請求項15】
前記生体高分子はタンパク質である、請求項1~14のいずれか一項に記載の方法。
【請求項16】
前記エンコーダは、少なくとも20の生体高分子配列のトレーニングデータセットを使用してトレーニングされる、請求項1~15のいずれか一項に記載の方法。
【請求項17】
プロセッサと、命令を含む非一時的コンピュータ可読媒体とを備えたシステムであって、前記命令は、プロセッサによって実行されると、前記プロセッサに、
(a)生体高分子配列の機能を予測する教師ありモデルネットワークと、デコーダネットワークとを備えたシステムに埋め込みにおける開始点の前記機能を予測することであって、前記教師ありモデルネットワークは、前記機能を表す機能空間に生体高分子配列の前記埋め込みを提供するエンコーダネットワークを備え、前記デコーダネットワークは、前記機能空間における前記予測された生体高分子配列の埋め込みを所与として、予測された確率的生体高分子配列を提供するようにトレーニングされる、予測することと、
(b)ステップサイズに従って前記開始点における前記埋め込みに関連した前記機能の変化を計算することであって、それにより、前記機能空間における第1の更新点を提供できるようにする、計算することと、
(c)前記機能空間における前記第1の更新点に基づいて、前記デコーダネットワークにおいて第1の中間確率的生体高分子配列を計算することと、
(d)教師ありモデルにおいて、前記第1の中間生体高分子配列に基づいて前記第1の中間確率的生体高分子配列の前記機能を予測することと、
(e)前記機能空間における前記第1の更新点における前記埋め込みに関する前記機能の前記変化を計算することであって、それにより、前記機能空間における更新点を提供する、計算することと、
(f)前記デコーダネットワークにおいて、前記機能空間における前記更新点に基づいて追加の中間確率的生体高分子配列を計算することと、
(g)前記教師ありモデルにおいて、前記追加の中間確率的生体高分子配列に基づいて前記追加の中間確率的生体高分子配列の前記機能を予測することと、
(h)前記機能空間における前記更なる第1の更新点における前記埋め込みに関連する前記機能の前記変化を計算することであって、それにより、前記機能空間における別の更なる更新点を提供し、任意選択的にステップ(g)~(i)を繰り返し、ステップ(i)において参照される前記機能空間における別の更なる更新点は、ステップ(g)において前記機能空間における前記更なる更新点として見なされる、計算することと、
(i)前記機能空間における所望の機能レベルに近づくと、前記埋め込みにおける前記点を前記デコーダネットワークに提供し、デコーダから改良された確率的生体高分子配列を取得していることと、
を行わせる、システム。
【請求項18】
請求項1~16のいずれか一項に記載の方法により又は請求項17に記載のシステムを使用して取得可能な改良された生体高分子配列を合成することを含む生体高分子を作製する方法。
【請求項19】
請求項1~18のいずれか一項に記載の方法又はシステムで使用される教師ありモデルをトレーニングする方法であって、この教師ありモデルは、生体高分子配列を埋め込み機能空間における表現にマッピングするように構成されたエンコーダネットワークを備え、前記教師ありモデルは、前記表現に基づいて前記生体高分子配列の機能を予測するように構成され、前記方法は、
(a)複数のトレーニング生体高分子配列を提供するステップであって、各トレーニング生体高分子配列は機能でラベリングされる、提供するステップと、
(b)前記エンコーダを使用して、各トレーニング生体高分子配列を前記埋め込み機能空間における表現にマッピングするステップと、
(c)前記教師ありモデルを使用してこれらの表現に基づいて、各トレーニング生体高分子配列の前記機能を予測するステップと、
(d)所定の予測損失関数を使用して、各トレーニング生体高分子配列について、前記予測機能が各トレーニング生体高分子配列の前記ラベルの通りの前記機能と一致する程度を特定するステップと、
(e)更なるトレーニング生体高分子配列が前記教師ありモデルによって処理される場合に生じる前記予測損失関数により、レーティングを改善することを目標として、前記教師ありモデルの挙動を特徴付けるパラメータを最適化するステップと、
を含む方法。
【請求項20】
請求項1~18のいずれか一項に記載の方法又はシステムで使用されるデコーダをトレーニングする方法であって、前記デコーダは、埋め込み機能空間から確率的生体高分子配列に生体高分子配列の表現をマッピングするように構成され、前記方法は、
(a)生体高分子配列の複数の表現を前記埋め込み機能空間に提供するステップと、
(b)前記デコーダを使用して各表現を確率的生体高分子配列にマッピングするステップと、
(c)各確率的生体高分子配列からサンプル生体高分子配列を引き出すステップと、
(d)トレーニング済みエンコーダを使用してこのサンプル生体高分子配列を前記埋め込み機能空間における表現にマッピングするステップと、
(e)所定の再構築損失関数を使用して、そうして特定された各表現が対応する元の表現と一致する程度を特定するステップと、
(f)前記埋め込み機能空間からの生体高分子配列の更なる表現が前記デコーダによって処理される場合に生じる前記再構築損失関数により、レーティングを改善することを目標として、前記デコーダの挙動を特徴付けるパラメータを最適化するステップと、
を含む方法。
【請求項21】
教師ありモデル及びデコーダのアンサンブルをトレーニングする方法であって、
前記教師ありモデルは、生体高分子配列を埋め込み機能空間における表現にマッピングするように構成されたエンコーダネットワークを備え、
前記教師ありモデルは、前記表現に基づいて前記生体高分子配列の機能を予測するように構成され、
前記デコーダは、埋め込み機能空間から確率的生体高分子配列に生体高分子配列の表現をマッピングするように構成され、
前記方法は、
(a)複数のトレーニング生体高分子配列を提供するステップであって、各トレーニング生体高分子配列は機能でラベリングされる、提供するステップと、
(b)前記エンコーダを使用して、各トレーニング生体高分子配列を前記埋め込み機能空間における表現にマッピングするステップと、
(c)前記教師ありモデルを使用してこれらの表現に基づいて、各トレーニング生体高分子配列の前記機能を予測するステップと、
(d)前記デコーダを使用して、前記埋め込み機能空間における各表現を確率的生体高分子配列にマッピングするステップと、
(e)前記確率的生体高分子配列からサンプル生体高分子配列を引き出すステップと、
(f)所定の予測損失関数を使用して、各トレーニング生体高分子配列について、前記予測された機能が各トレーニング生体高分子配列の前記ラベルの通りの前記機能と一致する程度を特定するステップと、
(g)所定の再構築損失関数を使用して、各サンプル生体高分子配列について、生成元である元のトレーニング生体高分子配列と一致する程度を特定するステップと、
(h)前記予測損失関数と前記再構築損失関数との所定の組合せにより、レーティングを改善することを目標として、前記教師ありモデルの挙動を特徴付けるパラメータ及び前記デコーダの挙動を特徴付けるパラメータを最適化するステップと、
を含む方法。
【請求項22】
請求項1921のいずれか一項に記載の方法によって取得される、教師ありモデル、エンコーダ、又はデコーダの挙動を特徴付けるパラメータセット。
【国際調査報告】