IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラッグシップ・パイオニアリング・イノベーションズ・ブイアイ,エルエルシーの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-21
(45)【発行日】2024-05-29
(54)【発明の名称】機械学習支援ポリペプチド解析
(51)【国際特許分類】
   G16B 40/00 20190101AFI20240522BHJP
   G06N 20/00 20190101ALI20240522BHJP
   G06N 3/08 20230101ALI20240522BHJP
   G16B 15/00 20190101ALI20240522BHJP
【FI】
G16B40/00
G06N20/00
G06N3/08
G16B15/00
【請求項の数】 15
(21)【出願番号】P 2021546841
(86)(22)【出願日】2020-02-10
(65)【公表番号】
(43)【公表日】2022-04-12
(86)【国際出願番号】 US2020017517
(87)【国際公開番号】W WO2020167667
(87)【国際公開日】2020-08-20
【審査請求日】2023-02-07
(31)【優先権主張番号】62/804,036
(32)【優先日】2019-02-11
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/804,034
(32)【優先日】2019-02-11
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】521353768
【氏名又は名称】フラッグシップ・パイオニアリング・イノベーションズ・ブイアイ,エルエルシー
【氏名又は名称原語表記】FLAGSHIP PIONEERING INNOVATIONS VI,LLC
(74)【代理人】
【識別番号】100087941
【弁理士】
【氏名又は名称】杉本 修司
(74)【代理人】
【識別番号】100112829
【弁理士】
【氏名又は名称】堤 健郎
(74)【代理人】
【識別番号】100142608
【弁理士】
【氏名又は名称】小林 由佳
(74)【代理人】
【識別番号】100155963
【弁理士】
【氏名又は名称】金子 大輔
(74)【代理人】
【識別番号】100154771
【弁理士】
【氏名又は名称】中田 健一
(74)【代理人】
【識別番号】100150566
【弁理士】
【氏名又は名称】谷口 洋樹
(74)【代理人】
【識別番号】100213470
【弁理士】
【氏名又は名称】中尾 真二
(74)【代理人】
【識別番号】100220489
【弁理士】
【氏名又は名称】笹沼 崇
(72)【発明者】
【氏名】フィーラ・ジェイコブ・ディー.
(72)【発明者】
【氏名】ビーム・アンドリュー・レーン
(72)【発明者】
【氏名】ギブソン・モリー・クリサン
【審査官】塩田 徳彦
(56)【参考文献】
【文献】国際公開第2018/094360(WO,A2)
【文献】Xiaoyu Zhang et al.,Seq3seq fingerprint: towards end-to-end semi-supervised deep drug discovery,[onlin], ACM SIGBioinformatics Record, Volume 8, Issue 1,pp 1-10,[2023年12月5日検索],インターネット,<URL:https://arxiv.org/ftp/arxiv/papers/1701/1701.08318.pdf>,Article No.1, URL:https://doi.org/10.1145/3284959.3284960
【文献】Xueliang Liu,Deep Recurrent Neural Network for Protein Function Prediction from Sequence,[online], ,[2023年12月5日検索],インターネット,<URL:https://arxiv.org/abs/1701.08318>,arXiv:1701.08318
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
G06N 20/00
G06N 3/08
(57)【特許請求の範囲】
【請求項1】
所望のタンパク質特性をモデリングするコンピュータ実施方法であって、
(a)第1のニューラルネットエンベッダー及び第1のニューラルネット予測子を含む事前トレーニング済みの第1のシステムを提供することであって、事前トレーニング済みの前記第1のシステムの前記第1のニューラルネット予測子は、前記所望のタンパク質特性と異なる出力を生成するように構成される、提供することと、
(b)事前トレーニング済みの前記第1のシステムの前記第1のニューラルネットエンベッダーの少なくとも一部を第2のシステムに転移することであって、前記第2のシステムは第2のニューラルネットエンベッダー及び第2のニューラルネット予測子を含み、前記第2のシステムの前記第2のニューラルネット予測子は、前記所望のタンパク質特性を提供する、転移することと、
(c)前記転移された前記第1のニューラルネットエンベッダーの一部、前記第2のシステムの第2のニューラルネットエンベッダー、及び前記第2のシステムの第2のニューラルネット予測子を含む前記第2のシステムにより、タンパク質検体の一次アミノ酸配列を解析することであって、それにより、前記タンパク質検体の前記所望のタンパク質特性の予測を生成する、解析することと、
を含むコンピュータ実施方法。
【請求項2】
前記第1のニューラルネットエンベッダーおよび前記第2のニューラルネットエンベッダーの少なくとも一方は、少なくとも50、100、150、200、250、300、350、400、450、500、600、700、800、900、1000、又はそれ以上のアミノ酸配列のセットでトレーニングされ、
前記アミノ酸配列は、ジーンオントロジー、Pfam、キーワード、Keggオントロジー、INTERPRO(登録商標)、SUPFAM、又はOrthoDBの少なくとも1つを含む1つ又は複数の機能表現にわたるアノテーションを含む、請求項1に記載のコンピュータ実施方法。
【請求項3】
前記第2のシステムの第2のモデルは、前記第1のシステムの第1のモデルの前記転移された第1のニューラルネットエンベッダーの一部を使用せずにトレーニングされたモデルと比較して改善された性能尺度を有する、請求項1または2に記載のコンピュータ実施方法。
【請求項4】
前記第2のシステムの第2のモデルは、前記第1のシステムの第1のモデルを含み、前記第1のモデルの最後の層が除去される、請求項1~3のいずれか一項記載のコンピュータ実施方法。
【請求項5】
前記第1のモデルの2、3、4、5、又はそれ以上の層は、前記第2のモデルへの転移において除去される、請求項4に記載のコンピュータ実施方法。
【請求項6】
移された層は、前記第2のモデルのトレーニング中、凍結される、請求項4又は5に記載のコンピュータ実施方法。
【請求項7】
移された層は、前記第2のモデルのトレーニング中、凍結されない、請求項4又は5に記載のコンピュータ実施方法。
【請求項8】
前記第2のモデルは、前記第1のモデルの転移された層に追加される1、2、3、4、5、6、7、8、9、10、又はそれ以上の層を有する、請求項5~7のいずれか一項記載のコンピュータ実施方法。
【請求項9】
前記第2のシステムの前記第2のニューラルネット予測子は、タンパク質結合活性、核酸結合活性、タンパク質溶解性、及びタンパク質安定性の1つ又は複数を予測する、請求項1~8のいずれか一項記載のコンピュータ実施方法。
【請求項10】
前記第2のシステムの前記第2のニューラルネット予測子は、タンパク質蛍光を予測する、請求項1~9のいずれか一項記載のコンピュータ実施方法。
【請求項11】
前記第2のシステムの前記第2のニューラルネット予測子は、酵素活性を予測する、請求項1~10のいずれか一項記載のコンピュータ実施方法。
【請求項12】
アミノ酸配列とタンパク質機能との間の以前は未知であった関連を識別するコンピュータ実施方法であって、
(a)第1の機械学習ソフトウェアモジュールを用いて、複数のタンパク質特性と複数のアミノ酸配列との間の複数の関連の第1のモデルを生成することと、
(b)第2の機械学習ソフトウェアモジュールに前記第1のモデル又はその一部を転移することと、
(c)前記第2の機械学習ソフトウェアモジュールにより、前記第1のモデルの少なくとも一部を含む第2のモデルを生成することと、
(d)前記第2のモデルに基づいて、前記アミノ酸配列と前記タンパク質機能との間の以前は未知であった関連を識別することと、
を含む方法。
【請求項13】
アミノ酸配列とタンパク質機能との間の以前は未知であった関連を識別するコンピュータシステムであって、
(a)プロセッサと、
(b)命令を内部に記憶した非一時的コンピュータ可読媒体と、
を備え、前記命令は、実行されると、前記プロセッサに、
(i)第1の機械学習ソフトウェアモジュールを用いて、複数のタンパク質特性と複数のアミノ酸配列との間の複数の関連の第1のモデルを生成することと、
(ii)前記第1のモデル又はその一部を第2の機械学習ソフトウェアモジュールに転移することと、
(iii)前記第2の機械学習ソフトウェアモジュールにより、前記第1のモデルの少なくとも一部を含む第2のモデルを生成することと、
(iv)前記第2のモデルに基づいて、前記アミノ酸配列と前記タンパク質機能との間の以前は未知であった関連を識別することと、
を行わせるように構成される、システム。
【請求項14】
所望のタンパク質特性をモデリングするコンピュータ実施方法であって、
第1のデータセットを用いて第1のシステムをトレーニングすることであって、前記第1のシステムは第1のトランスフォーマエンコーダ及び事前トレーニング済みのシステムの第1のデコーダを含み、前記第1のシステムの前記第1のデコーダは、前記所望のタンパク質特性とは異なる出力を生成するように構成される、
トレーニングすることと、
前記第1のシステムの前記第1のトランスフォーマエンコーダの少なくとも一部を第2のシステムに転移することであって、前記第2のシステムは第2のトランスフォーマエンコーダ及び第2のデコーダを含む、転移することと、
第2のデータセットを用いて前記第2のシステムをトレーニングすることであって、前記第2のデータセットは、前記第1のデータセットよりも少数のタンパク質クラスを表す1組のタンパク質を含み、前記タンパク質クラスは、(a)前記第1のデータセット内のタンパク質のクラス及び(b)前記第1のデータセットから除外されるタンパク質のクラスの1つ又は複数を含む、トレーニングすることと、
前記第2のシステムにより、タンパク質検体の一次アミノ酸配列を解析することであって、それにより、前記タンパク質検体の前記所望のタンパク質特性の予測を生成する、解析することと、
を含むコンピュータ実施方法。
【請求項15】
タンパク質検体の前記一次アミノ酸配列は、1つ又は複数のアスパラギナーゼ配列及び対応する活性ラベルである、請求項14に記載のコンピュータ実施方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願
本願は、2019年2月11日付けで出願された米国仮出願第62/804,034号明細書及び2019年2月11日付けで出願された米国仮出願第62/804,036号明細書の恩典を主張する。上記出願の教示は全体的に、参照により本明細書に組み入れられる。
【背景技術】
【0002】
タンパク質は、生物にとって必須であり、例えば、代謝反応の触媒、DNA複製の促進、刺激への応答、細胞及び組織への構造の提供、並びに分子の輸送を含め、有機体内の多くの機能を実行し、又は多くの機能に関連するマクロ分子である。タンパク質は、アミノ酸の1つ又は複数の鎖、典型的には三次元構造で構成される。
【発明の概要】
【課題を解決するための手段】
【0003】
本明細書において記載されるのは、タンパク質又はポリペプチド情報を評価し、幾つかの態様では、特性又は機能の予測を生成するシステム、装置、ソフトウェア、及び方法である。タンパク質特性及びタンパク質機能は、表現型を記述する測定可能な値である。実際には、タンパク質機能は基本的な治療機能を指すことができ、タンパク質特性は他の所望の薬のような特性を指すことができる。本明細書において記載のシステム、装置、ソフトウェア及び方法の幾つかの態様では、アミノ酸配列とタンパク質機能との間の以前は未知であった関係が識別される。
【0004】
従来、アミノ酸配列に基づくタンパク質機能予測は、少なくとも部分的に、一見すると単純な一次アミノ酸配列から生じ得る構造複雑性に起因して、非常に困難である。従来の手法は、公知の機能(又は他の同様の手法)を有するタンパク質間の相同性に基づいて統計的比較を適用することであり、これは、アミノ酸配列に基づいてタンパク質機能を予測する正確で再現可能な方法を提供することができていない。
【0005】
実際に、一次配列(例えば、DNA、RNA、又はアミノ酸配列)に基づくタンパク質予測に関する従来の考えは、タンパク質機能の非常に多くがその最終的な三次(又は四次)構造によって決まるため、一次タンパク質配列は公知の機能に直接関連付けることができないというものである。
【0006】
タンパク質解析に関する従来の手法及び従来の考えとは対照的に、本明細書において記載の革新的なシステム、装置、ソフトウェア、及び方法は、革新的な機械学習技法及び/又は高度解析を使用してアミノ酸配列を解析し、アミノ酸配列とタンパク質機能との間の以前は未知であった関係を正確且つ再現可能に識別する。すなわち、本明細書において記載される革新は、タンパク質解析及びタンパク質構造に関する従来の考えに鑑みて予想外のものであり、予想外の結果を生成する。
【0007】
本明細書において記載されるのは、所望のタンパク質特性をモデリングする方法であり、本方法は、(a)第1のニューラルネットエンベッダー及び第1のニューラルネット予測子を含む第1の事前トレーニング済みシステムを提供することであって、事前トレーニング済みシステムの第1のニューラルネット予測子は、所望のタンパク質特性と異なる、提供することと、(b)事前トレーニング済みシステムの第1のニューラルネットエンベッダーの少なくとも一部を第2のシステムに転移することであって、第2のシステムは第2のニューラルネットエンベッダー及び第2のニューラルネット予測子を含み、第2のシステムの第2のニューラルネット予測子は、所望のタンパク質特性を提供する、転移することと、(c)第2のシステムにより、タンパク質検体の一次アミノ酸配列を解析することであって、それにより、タンパク質検体の所望のタンパク質特性の予測を生成する、解析することとを含む。
【0008】
幾つかの態様では、一次アミノ酸配列が、所与のタンパク質検体の全体的及び部分的アミノ酸配列のいずれかであることができることを当業者は認識することができる。態様では、アミノ酸配列は連続配列又は非連続配列であることができる。態様では、アミノ酸配列は、タンパク質検体の一次配列に少なくとも95%同一性を有する。
【0009】
幾つかの態様では、第1及び第2のシステムのニューラルネットエンベッダーのアーキテクチャは、VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、又はMobileNetから独立して選択される畳み込みアーキテクチャである。幾つかの態様では、第1のシステムは、敵対的生成ネットワーク(GAN)、リカレントニューラルネットワーク、又は変分自動エンコーダ(VAE)を含む。幾つかの態様では、第1のシステムは、条件付き敵対的生成ネットワーク(GAN)、DCGAN、CGAN、SGAN若しくはプログレッシブGAN、SAGAN、LSGAN、WGAN、EBGAN、BEGAN、又はinfoGANから選択される敵対的生成ネットワーク(GAN)を含む。幾つかの態様では、第1のシステムは、Bi-LSTM/LSTM、Bi-GRU/GRU、又はトランスフォーマネットワークから選択されるリカレントニューラルネットワークを含む。幾つかの態様では、第1のシステムは変分自動エンコーダ(VAE)を含む。幾つかの態様では、エンベッダーは、少なくとも50、100、150、200、250、300、350、400、450、500、600、700、800、900、1000、又はそれ以上のアミノ酸配列タンパク質アミノ酸配列のセットでトレーニングされる。幾つかの態様では、アミノ酸配列は、GP、Pfam、キーワード、Keggオントロジー、Interpro、SUPFAM、又はOrthoDBの少なくとも1つを含む機能表現にわたるアノテーションを含む。幾つかの態様では、タンパク質アミノ酸配列は、少なくとも約1万、2万、3万、4万、5万、7.5万、10万、12万、14万、15万、16万、又は17万の可能なアノテーションを有する。幾つかの態様では、第2のモデルは、第1のモデルの転移されたエンベッダーを使用せずにトレーニングされたモデルと比較して改善された性能尺度を有する。幾つかの態様では、第1又は第2のシステムは、Adam、RMSプロップ、モメンタムを用いる確率的勾配降下(SGD)、モメンタム及びNestrov加速勾配を用いるSGD、モメンタムなしのSGD、Adagrad、Adadelta、又はNAdamにより最適化される。第1及び第2のモデルは、以下の活性化関数のいずれかを使用して最適化することができる:ソフトマックス、elu、SeLU、ソフトプラス、ソフトサイン、ReLU、tanh、シグモイド、ハードシグモイド、指数、PReLU、及びLeaskyReLU、又は線形。幾つかの態様では、ニューラルネットエンベッダーは、少なくとも10、50、100、250、500、750、1000、又はそれ以上の層を含み、予測子は、少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、又はそれ以上の層を含む。幾つかの態様では、第1又は第2のシステムの少なくとも一方は、早期停止、L1-L2正則化、スキップ接続、又はそれらの組合せから選択される正則化を利用し、正則化は1、2、3、4、5、又はそれ以上の層で実行される。幾つかの態様では、正則化はバッチ正規化を使用して実行される。幾つかの態様では、正則化はグループ正規化を使用して実行される。幾つかの態様では、2のシステムの第2のモデルは、最後の層が除去される第1のシステムの第1のモデルを含む。幾つかの態様では、第1のモデルの2、3、4、5、又はそれ以上の層は、第2のモデルへの転移において除去される。幾つかの態様では、転移された層は、第2のモデルのトレーニング中、凍結される。幾つかの態様では、転移された層は、第2のモデルのトレーニング中、凍結されない。幾つかの態様では、第2のモデルは、第1のモデルの転移された層に追加される1、2、3、4、5、6、7、8、9、10、又はそれ以上の層を有する。幾つかの態様では、第2のシステムのニューラルネット予測子は、タンパク質結合活性、核酸結合活性、タンパク質溶解性、及びタンパク質安定性の1つ又は複数を予測する。幾つかの態様では、第2のシステムのニューラルネット予測子は、タンパク質蛍光を予測する。幾つかの態様では、第2のシステムのニューラルネット予測子は、酵素活性を予測する。
【0010】
本明細書において記載されるのは、アミノ酸配列とタンパク質機能との間の以前は未知であった関連を識別するコンピュータ実施方法であり、本方法は、(a)第1の機械学習ソフトウェアモジュールを用いて、複数のタンパク質特性と複数のアミノ酸配列との間の複数の関連の第1のモデルを生成することと、(b)第2の機械学習ソフトウェアモジュールに第1のモデル又はその一部を転移することと、(c)第2の機械学習ソフトウェアモジュールにより、第1のモデルの少なくとも一部を含む第2のモデルを生成することと、(d)第2のモデルに基づいて、アミノ酸配列とタンパク質機能との間の以前は未知であった関連を識別することとを含む。幾つかの態様では、アミノ酸配列は一次タンパク質構造を含む。幾つかの態様では、アミノ酸配列は、タンパク質機能を生じさせるタンパク質構成を生じさせる。幾つかの態様では、タンパク質機能は蛍光を含む。幾つかの態様では、タンパク質機能は酵素活性を含む。幾つかの態様では、タンパク質機能はヌクレアーゼ活性を含む。ヌクレアーゼ活性例には、制限エンドヌクレアーゼ活性及びCas9エンドヌクレアーゼ活性等の配列誘導型エンドヌクレアーゼ活性がある。幾つかの態様では、タンパク質機能は、タンパク質安定性の程度を含む。幾つかの態様では、複数のタンパク質特性及び複数のアミノ酸配列は、UniProtからのものである。幾つかの態様では、複数のタンパク質特性は、ラベルGP、Pfam、キーワード、Keggオントロジー、Interpro、SUPFAM、及びOrthoDBの1つ又は複数を含む。幾つかの態様では、複数のアミノ酸配列は、複数のタンパク質の一次タンパク質構造、二次タンパク質構造、及び三次タンパク質構造を含む。幾つかの態様では、アミノ酸配列は、フォールドタンパク質において一次、二次、及び/又は三次構造を形成することができる配列を含む。
【0011】
幾つかの態様では、第1のモデルは、多次元テンソル、三次元原子位置の表現、対毎の相互作用の隣接行列、及び文字埋め込みの1つ又は複数を含む入力データでトレーニングされる。幾つかの態様では、本方法は、第2の機械学習モジュールに、一次アミノ酸配列の変異に関連するデータ、アミノ酸相互作用のコンタクトマップ、三次タンパク質構造、及び選択的スプライシング転写からの予測されたアイソフォームの少なくとも1つを入力することを含む。幾つかの態様では、第1のモデル及び第2のモデルは、教師あり学習を使用してトレーニングされる。幾つかの態様では、第1のモデルは教師あり学習を使用してトレーニングされ、第2のモデルは教師なし学習を使用してトレーニングされる。幾つかの態様では、第1のモデル及び第2のモデルは、畳み込みニューラルネットワーク、敵対的生成ネットワーク、リカレントニューラルネットワーク、又は変分自動エンコーダを含むニューラルネットワークを含む。幾つかの態様では、第1のモデル及び第2のモデルはそれぞれ、異なるニューラルネットワークアーキテクチャを含む。幾つかの態様では、畳み込みネットワークは、VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、又はMobileNetの1つを含む。幾つかの態様では、第1のモデルはエンベッダーを含み、第2のモデルは予測子を含む。幾つかの態様では、第1のモデルアーキテクチャは複数の層を含み、第2のモデルアーキテクチャは、複数の層のうちの少なくとも2つの層を含む。幾つかの態様では、第1の機械学習ソフトウェアモジュールは、少なくとも10,000のタンパク質特性を含む第1のトレーニングデータセットで第1のモデルをトレーニングし、第2の機械学習ソフトウェアモジュールは、第2のトレーニングデータセットを使用して第2のモデルをトレーニングする。
【0012】
本明細書において記載されるのは、アミノ酸配列とタンパク質機能との間の以前は未知であった関連を識別するコンピュータシステムであり、本システムは、(a)プロセッサと、(b)ソフトウェアがエンコードされた非一時的コンピュータ可読媒体とを備え、ソフトウェアは、プロセッサに、(i)第1の機械学習ソフトウェアモデルを用いて、複数のタンパク質特性と複数のアミノ酸配列との間の複数の関連の第1のモデルを生成することと、(ii)第1のモデル又はその一部を第2の機械学習ソフトウェアモジュールに転移することと、(iii)第2の機械学習ソフトウェアモジュールにより、第1のモデルの少なくとも一部を含む第2のモデルを生成することと、(iv)第2のモデルに基づいて、アミノ酸配列とタンパク質機能との間の以前は未知であった関連を識別することとを行わせるように構成される。幾つかの態様では、アミノ酸配列は一次タンパク質構造を含む。幾つかの態様では、アミノ酸配列は、タンパク質機能を生じさせるタンパク質構成を生じさせる。幾つかの態様では、タンパク質機能は蛍光を含む。幾つかの態様では、タンパク質機能は酵素活性を含む。幾つかの態様では、タンパク質機能はヌクレアーゼ活性を含む。幾つかの態様では、タンパク質機能は、タンパク質安定性の程度を含む。幾つかの態様では、複数のタンパク質特性及び複数のタンパク質マーカは、UniProtからのものである。幾つかの態様では、複数のタンパク質特性は、ラベルGP、Pfam、キーワード、Keggオントロジー、Interpro、SUPFAM、及びOrthoDBの1つ又は複数を含む。幾つかの態様では、複数のアミノ酸配列は、複数のタンパク質の一次タンパク質構造、二次タンパク質構造、及び三次タンパク質構造を含む。幾つかの態様では、第1のモデルは、多次元テンソル、三次元原子位置の表現、対毎の相互作用の隣接行列、及び文字埋め込みの1つ又は複数を含む入力データでトレーニングされる。幾つかの態様は、ソフトウェアは、プロセッサに、一次アミノ酸配列の変異に関連するデータ、アミノ酸相互作用のコンタクトマップ、三次タンパク質構造、及び選択的スプライシング転写からの予測されたアイソフォームの少なくとも1つを第2の機械学習モジュールに入力させるように構成される。幾つかの態様では、第1のモデル及び第2のモデルは、教師あり学習を使用してトレーニングされる。幾つかの態様では、第1のモデルは教師あり学習を使用してトレーニングされ、第2のモデルは教師なし学習を使用してトレーニングされる。幾つかの態様では、第1のモデル及び第2のモデルは、畳み込みニューラルネットワーク、敵対的生成ネットワーク、リカレントニューラルネットワーク、又は変分自動エンコーダを含むニューラルネットワークを含む。幾つかの態様では、第1のモデル及び第2のモデルはそれぞれ、異なるニューラルネットワークアーキテクチャを含む。幾つかの態様では、畳み込みネットワークは、VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、又はMobileNetの1つを含む。幾つかの態様では、第1のモデルはエンベッダーを含み、第2のモデルは予測子を含む。幾つかの態様では、第1のモデルアーキテクチャは複数の層を含み、第2のモデルアーキテクチャは、複数の層のうちの少なくとも2つの層を含む。幾つかの態様では、第1の機械学習ソフトウェアモジュールは、少なくとも10,000のタンパク質特性を含む第1のトレーニングデータセットで第1のモデルをトレーニングし、第2の機械学習ソフトウェアモジュールは、第2のトレーニングデータセットを使用して第2のモデルをトレーニングする。
【0013】
幾つかの態様では、所望のタンパク質特性をモデリングする方法は、第1のデータセットを用いて第1のシステムをトレーニングすることを含む。第1のシステムは第1のニューラルネットトランスフォーマエンコーダ及び第1のデコーダを含む。事前トレーニング済みのシステムの第1のデコーダは、所望のタンパク質特性とは異なる出力を生成するように構成される。本方法は、事前トレーニング済みシステムの第1のトランスフォーマエンコーダの少なくとも一部を第2のシステムに転移することを更に含み、第2のシステムは第2のトランスフォーマエンコーダ及び第2のデコーダを含む。本方法は、第2のデータセットを用いて第2のシステムをトレーニングすることを更に含む。第2のデータセットは、第1のセットよりも少数のタンパク質クラスを表す1組のタンパク質を含み、タンパク質クラスは、(a)第1のデータセット内のタンパク質のクラス及び(b)第1のデータセットから除外されるタンパク質のクラスの1つ又は複数を含む。本方法は、第2のシステムにより、タンパク質検体の一次アミノ酸配列を解析することであって、それにより、タンパク質検体の所望のタンパク質特性の予測を生成する、解析することを更に含む。幾つかの態様では、第2のデータセットは、第1のデータセットとの幾つかの重複データ又は第1のデータセットとの排他的重複データのいずれかを含むことができる。代替的には、第2のデータセットは、幾つかの態様では、第1のデータセットとの重複データを有さない。
【0014】
幾つかの態様では、タンパク質検体の一次アミノ酸配列は、1つ又は複数のアスパラギナーゼ配列及び対応する活性ラベルである。幾つかの態様では、第1のデータセットは、複数のクラスのタンパク質を含む1組のタンパク質を含む。タンパク質のクラス例には、構造タンパク質、収縮タンパク質、貯蔵タンパク質、防御タンパク質(例えば抗体)、輸送タンパク質、シグナルタンパク質、及び酵素タンパク質がある。一般に、タンパク質のクラスは、1つ又は複数の機能的及び/又は構造的類似性を共有するアミノ酸配列を有するタンパク質を含み、以下に示すタンパク質のクラスを含む。クラスが、溶解性、構造特徴、二次又は三次モチーフ、熱安定性、及び当技術分野において公知の他の特徴等の生物物理学的特性に基づくグルーピングを含むことができることを当業者は更に理解することができる。第2のデータセットは、酵素等のタンパク質のクラスの1つであることができる。幾つかの態様では、システムは上記方法を実行するように構成することができる。
【0015】
特許又は出願ファイルは、カラーで実行される少なくとも1つの図面を含む。カラー図面を有するこの特許又は特許出願公開のコピーは、要求され、必要料金が支払われた上で特許庁により提供される。
【0016】
上記は、添付図面に示される態様例の以下のより具体的な説明から明らかになり、添付図面中、様々な図全体を通して同様の参照文字は同じ部分を指す。図面は必ずしも一定の縮尺ではなく、代わりに態様を例示することに重点が置かれている。
【0017】
本発明の新規の特徴は、特に添付の特許請求の範囲に記載されている。本発明の特徴及び利点のよりよい理解は、本発明の原理が利用される例示的な態様に記載される以下の詳細な説明及び添付図面を参照することにより得られよう。
【図面の簡単な説明】
【0018】
図1】基本深層学習モデルの入力ブロックの概要を示す。
図2】深層学習モデルのアイデンティティブロックの一例を示す。
図3】深層学習モデルの畳み込みブロックの一例を示す。
図4】深層学習モデルの出力層の一例を示す。
図5】開始点として実施例1に記載される第1のモデルを使用するとともに、実施例2に記載される第2のモデルを使用するミニタンパク質の期待される安定性vs予測される安定性を示す。
図6】モデルトレーニングで使用されるラベル付きタンパク質配列数の関数としての様々な機械学習モデルでの予測データvs実測データのピアソン相関を示し、事前トレーニング済みは、第1のモデルが、蛍光の特定のタンパク質機能でトレーニングされる第2のモデルの開始点として使用される方法を表す。
図7】モデルトレーニングで使用されるラベル付きタンパク質配列数の関数としての様々な機械学習モデルの陽性的中率を示す。事前トレーニング済み(フルモデル)は、第1のモデルが、蛍光の特定のタンパク質機能でトレーニングされる第2のモデルの開始点として使用される方法を表す。
図8】本開示の方法又は機能を実行するように構成されたシステムの一態様を示す。
図9】第1のモデルがアノテーション付きUniProt配列でトレーニングされ、転移学習を通して第2のモデルを生成するのに使用されるプロセスの一態様を示す。
図10A】本開示の一態様例を示すブロック図である。
図10B】本開示の方法の一態様例を示すブロック図である。
図11】抗体位置による分割の一態様例を示す。
図12】ランダム分割及び位置による分割を使用した線形、ナイーブ、及び事前トレーニング済みトランスフォーマの結果例を示す。
図13A】アスパラギナーゼ配列の再構築誤差を示すグラフである。
図13B】アスパラギナーゼ配列の再構築誤差を示すグラフである。
【発明を実施するための形態】
【0019】
態様例の説明は以下である。
【0020】
本明細書において記載されるのは、タンパク質又はポリペプチド情報を評価し、幾つかの態様では、特性又は機能の予測を生成するシステム、装置、ソフトウェア、及び方法である。機械学習法は、一次アミノ酸配列等の入力データを受信し、少なくとも部分的にアミノ酸配列によって定義される、結果としてのポリペプチド又はタンパク質の1つ又は複数の機能又は特徴を予測するモデルを生成できるようにする。入力データは、アミノ酸相互作用のコンタクトマップ、三次タンパク質構造、又はポリペプチドの構造に関連する他の関連情報等の追加情報を含むことができる。幾つかの場合では、ラベル付きトレーニングデータが不十分である場合、転移学習が使用されて、モデルの予測能力を改善する。
【0021】
ポリペプチドの特性又は機能の予測
本明細書において記載されるのは、アミノ酸配列(又はアミノ酸配列をコードする核酸配列)等のタンパク質又はポリペプチド情報を含む入力データを評価して、入力データに基づいて1つ又は複数の特定の機能又は特性を予測するデバイス、ソフトウェア、システム、及び方法である。アミノ酸配列(例えばタンパク質)の特定の機能又は特性の説明は、多くの分子生物学用途にとって有益である。したがって、本明細書において記載のデバイス、ソフトウェア、システム、及び方法は、人工知能又は機械学習技法の能力をポリペプチド又はタンパク質解析に利用して、構造及び/又は機能についての予測を行う。機械学習技法は、標準の非ML手法と比較して、予測能力が増大したモデルを生成できるようにする。幾つかの場合、所望の出力に向けてモデルをトレーニングするのに利用可能なデータが不十分であるとき、転移学習が利用されて、予測精度を改善する。代替的には、幾つかの場合、転移学習を組み込むモデルと同等の統計学的パラメータを達成するようにモデルをトレーニングするのに十分なデータがあるとき、転移学習は利用されない。
【0022】
幾つかの態様では、入力データは、タンパク質又はポリペプチドの一次アミノ酸配列を含む。幾つかの場合、モデルは、一次アミノ酸配列を含むラベル付きデータセットを使用してトレーニングされる。例えば、データセットは、蛍光強度に基づいてラベル付けられた蛍光タンパク質のアミノ酸配列を含むことができる。したがって、モデルは、機械学習法を使用してこのデータセットでトレーニングされて、アミノ酸配列入力の蛍光強度の予測を生成することができる。幾つかの態様では、入力データは、一次アミノ酸配列に加えて、例えば、表面電荷、疎水性表面エリア、実測又は予測の溶解性、又は他の関連情報等の情報を含む。幾つかの態様では、入力データは、複数のタイプ又はカテゴリのデータを含む多次元入力データを含む。
【0023】
幾つかの態様では、本明細書において記載のデバイス、ソフトウェア、システム、及び方法は、データ拡張を利用して、予測モデルの性能を強化する。データ拡張は、トレーニングデータセットの、類似するが異なる例又は変形を使用したトレーニングを伴う。一例として、画像分類では、画像データは、画像の向きをわずかに変更すること(例えば、わずかな回転)により拡張することができる。幾つかの態様では、データ入力(例えば、一次アミノ酸配列)は、一次アミノ酸配列へのランダム変異及び/又は生物学的情報に基づく変異(biologically informed mutation)、多重配列アラインメント、アミノ酸相互作用のコンタクトマップ、及び/又は三次タンパク質構造により拡張される。追加の拡張戦略には、選択的スプライシング転写からの公知及び予測のアイソフォームの使用がある。例えば、入力データは、同じ機能又は特性に対応する選択的スプライシング転写のアイソフォームを含むことにより拡張することができる。したがって、アイソフォーム又は変異についてのデータは、予測される機能又は特性にあまり影響しない一次配列の部分又は特徴を識別できるようにすることができる。これにより、モデルは、例えば、安定性等の予測されるタンパク質特性を強化し、低減し、又は影響しないアミノ酸変異等の情報を考慮に入れることができる。例えば、データ入力は、機能に影響しないことが公知である位置におけるランダム置換アミノ酸を有する配列を含むことができる。これにより、このデータでトレーニングされたモデルは、それらの特定の変異に関して、予測される機能が不変であることを学習することができる。
【0024】
幾つかの態様では、データ拡張は、Zhang et al.,Mixup:Beyond Empirical Risk Minimization,Arxiv 2018に記載のように、例の対及び対応するラベルの凸結合でネットワークをトレーニングすることを伴う「ミックスアップ」学習原理を含む。この手法は、トレーニングサンプル間の単純な線形挙動が好まれるようにネットワークを正則化する。ミックスアップは、データ非依存データ拡張プロセスを提供する。幾つかの態様では、ミックスアップデータ拡張は、以下の公式:
【数1】
に従って仮想トレーニング例又はデータを生成することを含む。
【0025】
パラメータx及びxは生の入力ベクトルであり、y及びyはワンホットエンコーディングである。(x,y)及び(x,y)は、トレーニングデータセットからランダムに選択された2つの例又はデータ入力である。
【0026】
本明細書において記載のデバイス、ソフトウェア、システム、及び方法は、多種多様な予測の生成に使用することができる。予測は、タンパク質の機能及び/又は特性(例えば、酵素活性、安定性等)を含むことができる。タンパク質安定性は、例えば、熱安定性、酸化安定性、又は血清安定性等の種々の尺度に従って予測することができる。Rocklinにより定義されるタンパク質安定性は1つの尺度と見なすことができる(例えば、プロテアーゼ開裂の受けやすさ)が、別の尺度は折り畳み(三次)構造の自由エネルギーであることができる。幾つかの態様では、予測は、例えば、二次構造、三次タンパク質構造、四次構造、又はそれらの任意の組合せ等の1つ又は複数の構造特徴を含む。二次構造は、アミノ酸又はポリペプチド内のアミノ酸の配列が、アルファヘリックス構造、ベータシート構造、それとも無秩序若しくはループ構造を有するかの指示を含むことができる。三次構造は、三次元空間におけるアミノ酸又はポリペプチドの部分の場所又は位置を含むことができる。四次構造は、1つのタンパク質を形成する複数のポリペプチドの場所又は位置を含むことができる。幾つかの態様では、予測は1つ又は複数の機能を含む。ポリペプチド又はタンパク質の機能は、代謝反応、DNA複製、構造の提供、輸送、抗原認識、細胞内又は細胞外シグナリング、及び他の機能カテゴリを含む種々のカテゴリに属することができる。幾つかの態様では、予測は、例えば、触媒効率(例えば、特異性定数kcat/K)又は触媒特異性等の酵素機能を含む。
【0027】
幾つかの態様では、予測は、タンパク質又はポリペプチドの酵素機能を含む。幾つかの態様では、タンパク質機能は酵素機能である。酵素は、種々の酵素反応を実行することができ、転移酵素(例えば、官能基をある分子から別の分子に移す)、酸素還元酵素(例えば、酸化還元反応を触媒する)、加水分解酵素(例えば、加水分解を介して化学結合を開裂させる)、脱離酵素(例えば、二重結合を生成する)、リガーゼ(例えば、共有結合を介して2つの分子を連結する)、及び異性化酵素(例えば、分子内のある異性体から別の異性体への構造変化を触媒する)として分類することができる。幾つかの態様では、加水分解酵素は、セリンプロテアーゼ、トレオニンプロテアーゼ、システインプロテアーゼ、メタロプロテアーゼ、アスパラギンペプチドリアーゼ、グルタミン酸プロテアーゼ、及びアスパラギン酸プロテアーゼ等のプロテアーゼを含む。セリンプロテアーゼは、血液凝固、創傷治癒、消化、免疫応答、並びに腫瘍の湿潤及び転移等の種々の生理学的役割を有する。セリンプロテアーゼの例には、キモトリプシン、トリプシン、エラスターゼ、第10因子、第11因子、トロンビン、プラスミン、C1r、C1s、及びC3転換酵素がある。トレオニンプロテアーゼは、活性触媒部位内にトレオニンを有するプロテアーゼのファミリを含む。トレオニンプロテアーゼの例には、プロテアソームのサブユニットがある。プロテアソームは、アルファ及びベータサブユニットで構成される樽形タンパク質複合体である。触媒活性ベータサブユニットは、触媒作用の各活性部位に保存N末端トレオニンを含むことができる。システインプロテアーゼは、システインスルフヒドリル基を利用する触媒メカニズムを有する。システインプロテアーゼの例には、パパイン、カテプシン、カスパーゼ、及びカルパインがある。アスパラギン酸プロテアーゼは、活性部位における酸/塩基触媒作用に参加する2つのアスパラギン酸残基を有する。アスパラギン酸プロテアーゼの例には、消化酵素ペプシン、幾つかのリソソームプロテアーゼ、及びレニンがある。メタロプロテアーゼは、消化酵素カルボキシペプチダーゼ、細胞外基質リモデリング及び細胞シグナリングにおいて役割を果たすマトリックスメタロプロテアーゼ(MMP)、ADAM(ジスインテグリン及びメタロプロテアーゼドメイン)、及びリソソームプロテアーゼを含む。酵素の他の非限定的な例には、プロテアーゼ、ヌクレアーゼ、DNAリガーゼ、リガーゼ、ポリメラーゼ、セルラーゼ、リギナーゼ(liginase)、アミラーゼ、リパーゼ、ペクチナーゼ、キシラナーゼ、リグニンペルオキシダーゼ、デカルボキシラーゼ、マンナナーゼ、デヒドロゲナーゼ、及び他のポリペプチド系酵素がある。
【0028】
幾つかの態様では、酵素応答は、標的分子の翻訳後修飾を含む。翻訳後修飾の例には、アセチル化、アミド化、ホルミル化、グリコシル化、ヒドロキシル化、メチル化、ミリストイル化、リン酸化、脱アミド化、プレニル化(例えば、ファルネシル化、ゲラニル化等)、ユビキチン化、リボシル化、及び硫酸化がある。リン酸化は、チロシン、セリン、トレオニン、又はヒスチジン等のアミノ酸で生じることができる。
【0029】
幾つかの態様では、タンパク質機能は、熱を加える必要のない光放射である発光である。幾つかの態様では、タンパク質機能は、生物発光等の化学発光である。例えば、ルシフェリン等の化学発光酵素は、基質(ルシフェリン)に作用して、基質の酸化を触媒し、それにより、光を放つことができる。幾つかの態様では、タンパク質機能は、蛍光タンパク質又はペプチドが特定の波長の光を吸収し、異なる波長の光を放出する蛍光である。蛍光タンパク質の例には、緑色蛍光タンパク質(GFP)又はEBFP、EBFP2、Azurite、mKalama1等のGFPの誘導体ECFP、Cerulean、CyPet、YFP、Citrine、Venus、又はYPetがある。GFP等の幾つかのタンパク質は天然蛍光性である。蛍光タンパク質の例には、EGFP、青色蛍光タンパク質(EBFP、EBFP2、Azurite、mKalamal)、シアン蛍光タンパク質(ECFP、Cerulean、CyPet)、黄色蛍光タンパク質(YFP、Citrine、Venus、YPet)、酸化還元感受性GFP(roGFP)、及び単量体GFPがある。
【0030】
幾つかの態様では、タンパク質機能は、酵素機能、結合(例えば、DNA/RNA結合、タンパク質結合等)、免疫機能(例えば抗体)、収縮(例えば、アクチン、ミオシン)、及び他の機能を含む。幾つかの態様では、出力は、例えば、酵素機能又は結合の動力学等のタンパク質機能に関連する値を含む。そのような出力は、親和性、特異性、及び反応速度についての尺度を含むことができる。
【0031】
幾つかの態様では、本明細書において記載の機械学習法は、教師あり機械学習を含む。教師あり機械学習は分類及び回帰を含む。幾つかの態様では、機械学習法は教師なし機械学習を含む。教師なし機械学習は、クラスタリング、オートエンコード、変分オートエンコード、タンパク質言語モデル(例えば、モデルが、前のアミノ酸へのアクセスが与えられる場合、配列中の次のアミノ酸を予測する)、及び相関ルールマイニングを含む。
【0032】
幾つかの態様では、予測は、バイナリ、マルチラベル、又はマルチクラス分類等の分類を含む。幾つかの態様では、予測はタンパク質特性のものである。分類は一般に、入力パラメータに基づいて離散クラス又はラベルの予測に使用される。
【0033】
バイナリ分類は、入力に基づいてポリペプチド又はタンパク質が属するのが2つのグループのいずれであるかを予測する。幾つかの態様では、バイナリ分類は、タンパク質又はポリペプチド配列の特性又は機能についての陽性予測又は陰性予測を含む。幾つかの態様では、バイナリ分類は、例えば、ある親和性レベルを超えたDNA配列への結合、動力学パラメータのある域値を超えた反応の触媒、又は特定の溶融温度を超えた熱安定性を示すこと等の域値処理を受ける任意の定量的読み出し値を含む。バイナリ分類の例には、ポリペプチド配列が自己蛍光を示し、セリンプロテアーゼであり、又はGPIアンカー膜貫通タンパク質であることの陽性/陰性予測がある。
【0034】
幾つかの態様では、分類(予測の)はマルチクラス分類又はマルチラベル分類である。例えば、マルチクラス分類は、入力ポリペプチドを2つ以上の相互に排他的なグループ又はカテゴリの1つにカテゴリ分けすることができ、一方、マルチラベル分類は、入力を複数のラベル又はグループに分類する。例えば、マルチラベル分類は、ポリペプチドを細胞内タンパク質(細胞外と対比して)及びプロテアーゼの両方としてラベル付け得る。比較により、マルチクラス分類は、アミノ酸をアルファヘリックス、ベータシート、又は無秩序/ループペプチド配列の1つに属するものとして分類することを含み得る。したがって、タンパク質特性は、自己蛍光を示すこと、セリンプロテアーゼであること、GPIアンカー膜貫通タンパク質であること、細胞内タンパク質(細胞外と対比して)及び/又はプロテアーゼであること、及びアルファヘリックス、ベータシート、又は無秩序/ループペプチド配列に属することを含むことができる。
【0035】
幾つかの態様では、予測は、例えば、自己蛍光の強度又はタンパク質の安定性等の連続した変数又は値を提供する回帰を含む。幾つかの態様では、予測は、本明細書において記載の特性又は機能のいずれかの連続した変数又は値を含む。一例として、連続した変数又は値は、特定の基質細胞外マトリックス成分のマトリックスメタロプロテアーゼの標的特異性を示すことができる。追加の例には、標的分子結合親和性(例えばDNA結合)、酵素の反応速度、又は熱安定性等の種々の定量的読み出し値がある。
【0036】
機械学習法
本明細書において記載されるのは、入力データを解析して、1つ又は複数のタンパク質又はポリペプチドの特性又は機能に関連する予測を生成する1つ又は複数の方法を適用するデバイス、ソフトウェア、システム、及び方法である。幾つかの態様では、方法は、統計学的モデリングを利用して、タンパク質又はポリペプチドの機能又は特性についての予測又は推定を生成する。幾つかの態様では、機械学習法は、予測モデルのトレーニング及び/又は予測の作成に使用される。幾つかの態様では、方法は、1つ又は複数の特性又は機能の尤度又は確率を予測する。幾つかの態様では、方法は、ニューラルネットワーク、決定木、サポートベクターマシン、又は他の適用可能なモデル等の予測モデルを利用する。トレーニングデータを使用して、方法は、関連する特徴に従って分類又は予測を生成する分類器を形成する。分類に選択される特徴は、多種多様な方法を使用して分類することができる。幾つかの態様では、トレーニング済みの方法は、機械学習法を含む。
【0037】
幾つかの態様では、機械学習法は、サポートベクターマシン(SVM)、ナイーブベイズ分類、ランダムフォレスト、又は人工ニューラルネットワークを使用する。機械学習技法は、バギング手順、ブースティング手順、ランダムフォレスト法、及びそれらの組合せを含む。幾つかの態様では、予測モデルは深層ニューラルネットワークである。幾つかの態様では、予測モデルは深層畳み込みニューラルネットワークである。
【0038】
幾つかの態様では、機械学習法は教師あり学習手法を使用する。教師あり学習では、方法は、ラベル付きトレーニングデータから関数を生成する。各トレーニング例は、入力オブジェクト及び所望の出力値を含む対である。幾つかの態様では、最適シナリオでは、方法は、見知らぬインスタンスのクラスラベルを正しく特定することができる。幾つかの態様では、教師あり学習法では、ユーザが1つ又は複数のコントロールパラメータを決定する必要がある。これらのパラメータは任意選択的に、トレーニングセットのバリデーションセットと呼ばれるサブセットでの性能を最適化することにより調整される。パラメータ調整及び学習後、結果として生成された関数の性能が任意選択的に、トレーニングセットとは別個のテストセットで測定される。回帰法が一般に教師あり学習で使用される。したがって、教師あり学習では、一次アミノ酸配列が公知の場合、タンパク質機能の計算において等の期待される出力が事前に公知のトレーニングデータを用いてモデル又は分類器を生成又はトレーニングすることができる。
【0039】
幾つかの態様では、機械学習法は教師なし学習手法を使用する。教師なし学習では、方法は、ラベルなしデータ(例えば、分類又はカテゴリ分けが観測に含まれない)から隠された構造を記述する関数を生成する。学習者に与えられる例はラベルなしであるため、関連方法により出力される構造の精度の評価はない。教師なし学習への手法は、クラスタリング、異常検知、並びにオートエンコーダ及び変分オートエンコーダを含むニューラルネットワークに基づく手法を含む。
【0040】
幾つかの態様では、機械学習法はマルチクラス学習を利用する。マルチタスク学習(MTL)は、複数のタスクにわたる共通性及び差分を利用するように2つ以上の学習タスクが同時に解かれる機械学習の分野である。この手法の利点は、モデルを別個にトレーニングするのと比較して、特定の複数の予測モデルでの学習効率及び予測精度の改善を含むことができる。方法に関連タスクで上手く実行するように求めることにより、過剰適合を回避するための正則化を提供することができる。この手法は、全ての複雑性に等しいペナルティを適用する正則化よりも良好であることができる。マルチクラス学習は特に、相当な共通性を共有し、及び/又はアンダーサンプリングされるタスク又は予測に適用される場合、有用であることができる。幾つかの態様では、マルチクラス学習は、相当な共通性を共有しないタスク(例えば、関連しないタスク又は分類)に対して有効である。幾つかの態様では、マルチクラス学習は、転移学習と組み合わせて使用される。
【0041】
幾つかの態様では、機械学習法は、トレーニングデータセット及びそのバッチの他の入力に基づいてバッチで学習する。他の態様では、機械学習法は追加の学習を実行し、追加の学習では、重み及び誤差の計算が、例えば、新しい又は更新されたトレーニングデータを使用して更新される。幾つかの態様では、機械学習法は、新しい又は更新されたデータに基づいて予測モデルを更新する。例えば、機械学習法を新しい又は更新されたデータに適用して再トレーニング又は最適化し、新しい予測モデルを生成することができる。幾つかの態様では、機械学習法又はモデルは、追加のデータが利用可能になる際、定期的に再トレーニングされる。
【0042】
幾つかの態様では、本開示の分類器又はトレーニング済みの方法は、1つの特徴空間を含む。幾つかの場合、分類器は2つ以上の特徴空間を含む。幾つかの態様では、2つ以上の特徴空間は互いと別個である。幾つかの態様では、分類又は予測の精度は、1つの特徴空間を使用する代わりに、2つ以上の特徴空間を分類器で結合することにより改善する。属性は一般に、特徴空間の入力特徴を構成し、事例に対応する所与の組の入力特徴について各事例の分類を示すようにラベル付けられる。
【0043】
分類精度は、1つの特徴空間を使用する代わりに、2つ以上の特徴空間を予測モデル又は分類器で結合することにより改善し得る。幾つかの態様では、予測モデルは少なくとも2つ、3つ、4つ、5つ、6つ、7つ、8つ、9つ、10、又はそれ以上の特徴空間を含む。ポリペプチド配列情報及び任意選択的に追加のデータは一般に、特徴空間の入力特徴を構成し、事例に対応する所与の組の入力特徴について各事例の分類を示すようにラベル付けられる。多くの場合、分類は事例の結果である。トレーニングデータは機械学習法に供給され、機械学習法は入力特徴及び関連する結果を処理して、トレーニング済みモデル又は予測子を生成する。幾つかの場合、機械学習法に、分類を含むトレーニングデータが提供され、それにより、その結果を実際の結果と比較して、モデルを変更し改善することによって方法が「学習」できるようにする。これは多くの場合、教師あり学習と呼ばれる。代替的には、幾つかの場合、機械学習法にラベルなし又は分類なしデータが提供され、方法に事例(例えば、クラスタリング)の中に隠された構造を識別させる。これは教師なし学習と呼ばれる。
【0044】
幾つかの態様では、トレーニングデータの1つ又は複数のセットが、機械学習法を使用してモデルをトレーニングするのに使用される。幾つかの態様では、本明細書において記載の方法は、トレーニングデータセットを使用してモデルをトレーニングすることを含む。幾つかの態様では、モデルは、複数のアミノ酸配列を含むトレーニングデータセットを使用してトレーニングされる。幾つかの態様では、トレーニングデータセットは、少なくとも100万、200万、300万、400万、500万、600万、700万、800万、900万、1千万、1500万、2千万、2500万、3千万、3500万、4千万、4500万、5千万、5500万、5600万、5700万、5800万のタンパク質アミノ酸配列を含む。幾つかの態様では、トレーニングデータセットは、少なくとも10、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、450、500、600、700、800、900、1000、又は1000超のアミノ酸配列を含む。幾つかの態様では、トレーニングデータセットは、少なくとも50、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、又は1000超のアノテーションを含む。本開示の態様例は、深層ニューラルネットワークを使用する機械学習法を含むが、種々のタイプの方法が意図される。幾つかの態様では、方法は、ニューラルネットワーク、決定木、サポートベクターマシン、又は他の適用可能なモデル等の予測モデルを利用する。幾つかの態様では、機械学習モデルは、例えば、サポートベクターマシン(SVM)、ナイーブベイズ分類、ランダムフォレスト、人工ニューラルネットワーク、決定木、K平均、学習ベクトル量子化(LVQ)、自己組織化成マップ(SOM)、グラフィックモデル、回帰法(例えば、線形、ロジスティック、多変量、相関ルール学習、深層学習、次元削減及びアンサンブル選択法等の教師あり、半教師あり、及び教師なし学習を含む群から選択される。幾つかの態様では、機械学習法は、サポートベクターマシン(SVM)、ナイーブベイズ分類、ランダムフォレスト、及び人工ニューラルネットワークを含む群から選択される。機械学習技法は、バギング手順、ブースティング手順、ランダムフォレスト法、及びそれらの組合せを含む。データを解析する例示的な方法は、統計的方法及び機械学習技法に基づく方法等の多数の変数を直接扱う方法を含むが、これに限定されない。統計的方法は、ペナルティ付きロジスティック回帰、マイクロアレイ予測解析(PAM)、収縮重心法に基づく方法、サポートベクターマシン解析、及び正則化線形判別分析を含む。
【0045】
転移学習
本明細書において記載されるのは、一次アミノ酸配列等の情報に基づいて1つ又は複数のタンパク質又はポリペプチドの特性又は機能を予測するデバイス、ソフトウェア、システム、及び方法である。幾つかの態様では、転移学習を使用して、予測精度を強化する。転移学習は、あるタスクについて開発されたモデルを、第2のタスクについてのモデルの開始点として再使用することができる機械学習技法である。転移学習は、データが豊富な関連タスクでモデルを学習させることにより、データが限られているタスクでの予測精度を引き上げるのに使用することができる。したがって、本明細書において記載されるのは、配列特定されたタンパク質の大きなデータセットからタンパク質の一般的な機能特徴を学習し、それを、任意の特定のタンパク質機能、特性、又は特徴を予測するモデルの開始点として使用する方法である。本開示は、第1の予測モデルにより、配列特定された全てのタンパク質にエンコードされた情報を、第2の予測モデルを使用して関心対象の特定のタンパク質機能の設計に転移させることができるという驚くべき発見を認識している。幾つかの態様では、予測モデルは、例えば、深層畳み込みニューラルネットワーク等のニューラルネットワークである。
【0046】
本開示は、1つ又は複数の態様を介して実施されて、以下の利点の1つ又は複数を達成することができる。幾つかの態様では、転移学習を用いてトレーニングされた予測モジュール又は予測子は、小さなメモリフットプリント、低待ち時間、又は低計算コストを示す等のリソース消費の視点から改善を示す。この利点は、膨大な計算力を必要とすることがある複雑な解析では軽視できない。幾つかの場合、転移学習の使用は、妥当な時間期間(例えば、数週間の代わりに数日)内で十分に正確な予測子をトレーニングするために必須である。幾つかの態様では、転移学習を使用してトレーニングされた予測子は、転移学習を使用してトレーニングされない予測と比較して高い精度を提供する。幾つかの態様では、ポリペプチドの構成、特製、及び/又は機能を予測するシステムでの深層ニューラルネットワーク及び/又は転移学習の使用は、転移学習を使用しない他の方法又はモデルと比較して計算効率を上げる。
【0047】
本明細書において記載されるのは、所望のタンパク質の機能又は特性をモデリングする方法である。幾つかの態様では、ニューラルネットエンベッダーを含む第1のシステムが提供される。幾つかの態様では、ニューラルネットエンベッダーは、1つ又は複数の埋め込み層を含む。幾つかの態様では、ニューラルネットワークへの入力は、行列としてアミノ酸配列をエンコードする「ワンホット」ベクターとして表されるタンパク質配列を含む。例えば、行列内で、各行は、その残基に存在するアミノ酸に対応する厳密に1つの非ゼロエントリを含むように構成することができる。幾つかの態様では、第1のシステムはニューラルネット予測子を含む。幾つかの態様では、予測子は、入力に基づいて予測又は出力を生成する1つ又は複数の出力層を含む。幾つかの態様では、第1のシステムは、第1のトレーニングデータセットを使用して事前トレーニングされて、事前トレーニング済みニューラルネットエンベッダーを提供する。転移学習を用いて、事前トレーニング済みの第1のシステム又はその一部を転移させて、第2のシステムの一部を形成することができる。ニューラルネットエンベッダーの1つ又は複数の層は、第2のシステムで使用される場合、凍結することができる。幾つかの態様では、第2のシステムは、第1のシステムからのニューラルネットエンベッダー又はその一部を含む。幾つかの態様では、第2のシステムは、ニューラルネットエンベッダー及びニューラルネット予測子を含む。ニューラルネット予測子は、最終出力又は予測を生成する1つ又は複数の出力層を含むことができる。第2のシステムは、関心対象のタンパク質機能又は特性に従ってラベル付けられた第2のトレーニングデータセットを使用してトレーニングすることができる。本明細書において用いられるとき、エンベッダー及び予測子は、機械学習を使用してトレーニングされたニューラルネット等の予測モデルの構成要素を指すことができる。
【0048】
幾つかの態様では、転移学習は、少なくとも一部が第2のモデルの一部の形成に使用される第1のモデルのトレーニングに使用される。第1のモデルへの入力データは、機能又は他の特性に関係なく、公知の天然タンパク質及び合成タンパク質の大きなデータリポジトリを含むことができる。入力データは、以下の任意の組合せを含むことができる:一次アミノ酸配列、二次構造配列、アミノ酸相互作用のコンタクトマップ、アミノ酸物理化学特性の関数としての一次アミノ酸配列、及び/又は三次タンパク質構造。これらの特定の例が本明細書において提供されるが、タンパク質又はポリペプチドに関連する任意の追加応報が意図される。幾つかの態様では、入力データは埋め込まれる。例えば、入力データは、配列の多次元テンソルのバイナリワンホットエンコード、実際の値(例えば、三次構造からの物理化学特性若しくは三次元原子配置の場合)、対毎の相互作用の隣接行列として、又はデータの直接埋め込みを使用して(例えば、一次アミノ酸配列の文字埋め込み)表すことができる。
【0049】
図9は、ニューラルネットワークアーキテクチャに適用される転移学習プロセスの一態様を示すブロック図である。示されるように、第1のシステム(左)は、UniProtアミノ酸配列及び~70,000のアノテーション(例えば配列ラベル)を使用してトレーニングされた埋め込みベクトル及び線形モデルを有する畳み込みニューラルネットワークアーキテクチャを有する。転移学習プロセス中、第1のシステム又はモデルの埋め込みベクトル及び畳み込みニューラルネットワーク部分は転移して、第1のモデル又はシステムに構成された任意の予測と異なるタンパク質特性又は機能を予測するように構成された新しい線形モデルも組み込んだ第2のシステム又はモデルのコアを形成する。この第2のシステムは、第1のシステムとは別個の線形モデルを有し、タンパク質特性又は機能に対応する所望の配列ラベルに基づいて、第2のトレーニングデータセットを使用してトレーニングされる。トレーニングが終わると、バリデーションデータセット及び/又はテストデータセット(例えば、トレーニングで使用されなかったデータ)と突き合わせて第2のシステムを査定することができ、検証されると、第2のシステムは、タンパク質の特性又は機能についての配列解析に使用することができる。タンパク質特性は、例えば、治療用途で使用することができる。治療用途では時に、タンパク質が、その基本的な治療機能(例えば、酵素の触媒作用、抗体の結合親和性、ホルモンのシグナリング経路の刺激等)に加えて、安定性、溶解性、及び発現(例えば、製造に向けて)を含む複数の薬のような特性を有することが求められることがある。
【0050】
幾つかの態様では、第1のモデル及び/又は第2のモデルへのデータ入力は、一次アミノ酸配列へのランダム変異及び/又は生物学的情報に基づく変異、アミノ酸相互作用のコンタクトマップ、及び/又は三次タンパク質構造等の追加データにより拡張される。追加拡張戦略は、選択的スプライシング転写からの公知の予測されたアイソフォームの使用を含む。幾つかの態様では、異なるタイプの入力(例えば、アミノ酸配列、コンタクトマップ等)が、1つ又は複数のモデルの異なる部分により処理される。初期処理ステップ後、複数のデータソースからの情報は、ネットワーク内の層において結合することができる。例えば、ネットワークは、配列エンコーダ、コンタクトマップエンコーダ、及び種々のタイプのデータ入力を受け取り且つ/又は処理するように構成された他のエンコーダを含むことができる。幾つかの態様では、データは、ネットワーク内の1つ又は複数の層内へのエンベッドに変わる。
【0051】
第1のモデルへのデータ入力のラベルは、例えば、ジーンオントロジー(GO)、Pfamドメイン、SUPFAMドメイン、EC(Enzyme Commission)番号、分類学、好極限性細菌指示、キーワード、OrthoDB及びKEGGオルソログを含むオルソロググループ割り当て等の1つ又は複数の公開タンパク質配列アノテーションリソースから引き出すことができる。加えて、ラベルは、全てα、全てβ、α+β、α/β、膜、本質的に無秩序、コイルドコイル、スモール、又はデザイナータンパク質を含め、SCOP、FSSP、又はCATH等のデータベースにより指定される公知の構造又はフォールド分類に基づいて分類することができる。構造が公知であるタンパク質の場合、全体表面電荷、疎水性表面エリア、実測又は予測溶解性、又は他の数量等の定量的グローバル特性(quantitative global characteristic)が、マルチタスクモデル等の予測モデルによりフィッティングされる追加ラベルとして使用することができる。これらの入力は転移学習の状況で説明されるが、非転移学習手法へのこれらの入力の適用も意図される。幾つかの態様では、第1のモデルは、エンコーダで構成されるコアネットワークを残すように剥ぎ取られたアノテーション層を含む。アノテーション層は、それぞれが、例えば、一次アミノ酸配列、GO、Pfam、Interpro、SUPFAM、KO、OrthoDB、及びキーワード等の特定のアノテーションに対応する複数の独立層を含むことができる。幾つかの態様では、アノテーション層は、少なくとも、1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、1000、5000、10000、50000、100000、150000、又はそれ以上の独立層を含む。幾つかの態様では、アノテーション層は180000の独立層を含む。幾つかの態様では、モデルは、少なくとも1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、1000、5000、10000、50000、100000、150000、又はそれ以上のアノテーションを使用してトレーニングされる。幾つかの態様では、モデルは約180000のアノテーションを使用してトレーニングされる。幾つかの態様では、モデルは、複数の機能表現にわたる複数のアノテーション(例えば、GO、Pfam、キーワード、Keggオルソログ、Interpro、SUPFAM、及びOrthoDBの1つ又は複数)にわたる複数のアノテーションを用いてトレーニングされる。アミノ酸配列及びアノテーション情報は、UniProt等の種々のデータベースから取得することができる。
【0052】
幾つかの態様では、第1のモデル及び第2のモデルはニューラルネットワークアーキテクチャを含む。第1のモデル及び第2のモデルは、1D畳み込み(例えば、一次アミノ酸配列)、2D畳み込み(例えば、アミノ酸相互作用のコンタクトマップ)、又は3D畳み込み(例えば、三次タンパク質構造)の形態の畳み込みアーキテクチャを使用する教師ありモデルであることができる。畳み込みアーキテクチャは、以下の記載のアーキテクチャの1つであることができる:VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、又はMobileNet。幾つかの態様では、本明細書において記載のアーキテクチャのいずれかを利用するシングルモデル手法(例えば、非転移学習)が意図される。
【0053】
第1のモデルは、敵対的生成ネットワーク(GAN)、リカレントニューラルネットワーク、又は変分自動エンコーダ(VAE)のいずれかを使用した教師なしモデルであることもできる。GANの場合、第1のモデルは、条件付きGAN、深層畳み込みGAN、StackGAN、infoGAN、Wasserstein GAN、敵対的生成ネットワークを用いたクロスドメイン関係発見(Disco GANS)であることができる。リカレントニューラルネットワークの場合、第1のモデルは、Bi-LSTM/LSTM、Bi-GRU/GRU、又はトランスフォーマネットワークであることができる。幾つかの態様では、本明細書において記載のアーキテクチャのいずれを利用するシングルモデル手法(例えば、非転移学習)が意図される。幾つかの態様では、GANは、DCGAN、CGAN、SGAN/プログレッシブGAN、SAGAN、LSGAN、WGAN、EBGAN、BEGAN、又はinfoGANである。リカレントニューラルネットワーク(RNN)は、順次データ向けに構築された従来のニューラルネットワークの変異体である。LSTMは、長短期メモリを指し、データにおける系列又は時間的依存性をモデリングできるようにする、メモリを有するRNNにおけるニューロンの一種である。GRUはゲート付き回帰型ユニットを指し、LSTMの欠点幾つかに対処使用とするLSTMの変異体である。Bi-LSTM/Bi-GRUは、LSTM及びGRUの「双方向」変異体を指す。典型的には、LSTM及びGRUは「順」方向でシーケンシャルを処理するが、双方向バージョンは「逆」方向でも同様に学習する。LSTMは、隠れ状態を使用して、既に通過したデータ入力からの情報の保存を可能にする。単方向LSTMは、過去からの入力しか見ていないため、過去の情報のみを保存する。これとは対照的に、双方向LSTMはデータ入力を過去から未来及び未来から過去の両方向で辿る。したがって、順方向及び逆方向に辿るLSTMは、未来及び過去からの情報を保存する。
【0054】
第1のモデル及び第2のモデルの両方並びに教師あり及び教師なしモデルについて、1、2、3、4、最高で全層でのドロップアウトを含む早期停止、1、2、3、4、最高で全層でのL1-L2正則化、1、2、3、4、最高で全層でのスキップ接続を含め、代替の正則化法を有することができる。第1のモデル及び第2のモデルの両方で、正則化は、バッチ正規化又はグループ正規化を使用して実行することができる。L1正則化(LASSOとしても公知である)は、重みベクトルのL1ノルムが許可される長さを制御し、一方、L2はL1ノルムの可能な大きさを制御する。スキップ接続はResnetアーキテクチャから得ることができる。
【0055】
第1及び第2のモデルは、以下の最適化手順のいずれかを使用して最適化することができる:Adam、RMSプロップ、モメンタムを用いる確率的勾配降下(SGD)、モメンタム及びNestrov加速勾配を用いるSGD、モメンタムなしのSGD、Adagrad、Adadelta、又はNAdam。第1及び第2のモデルは、以下の活性化関数のいずれかを使用して最適化することができる:ソフトマックス、elu、SeLU、ソフトプラス、ソフトサイン、ReLU、tanh、シグモイド、ハードシグモイド、指数、PReLU、及びLeaskyReLU、又は線形。幾つかの態様では、本明細書において記載の方法は、概ね等しい重みが陽性例及び陰性例の両方に配置されるように、先に列記したオプティマイザが最小化しようとする損失関数を「再加重」することを含む。例えば、180,000の出力の1つは、所与のタンパク質が膜タンパク質である確率を予測する。タンパク質は膜タンパク質であるか、又は膜タンパク質ではないかのみであるため、これはバイナリ分類タスクであり、バイナリ分類タスクの従来の損失関数は、“バイナリ交差エントロピー”:loss(p,y)=-ylog(p)-(1-y)log(1-p)であり、式中、pはネットワークに従って膜タンパク質である確率であり、yは、タンパク質が膜タンパク質である場合1であり、膜タンパク質ではない場合0である「ラベル」である。y=0のはるかに多くの例がある場合、常にy=0を予測することでペナルティが課されることは稀であることから、ネットワークは常にこのアノテーションの極めて低い確率を予測するという病理ルールを学習する傾向が高いことがあるため、問題が生じ得る。この問題を解消するために、幾つかの態様では、損失関数は以下のように変更される:loss(p,y)=-w1log(p)-w0(1-y)log(1-p)、式中、w1は陽性クラスの重みであり、w0は陰性クラスの重みである。この手法は、w0=1且つw1=1/√((1-f0)/f1)であると仮定し、式中、f0は陰性例の頻度であり、f1は陽性例の頻度である。この加重方式は、稀である陽性例の「重みを増し」、より一般的な陰性例の「重みを減じる」。
【0056】
第2のモデルは、第1のモデルをトレーニングの開始点として使用することができる。開始点は、標的タンパク質機能又はタンパク質特性でトレーニングされる出力層を除いて凍結された完全な第1のモデルであることができる。開始点は、埋め込み層、最後の2層、最後の3層、又は全ての層が凍結されておらず、標的タンパク質機能又はタンパク質機能でのトレーニング中、モデルの残りが凍結される第1のモデルであることができる。開始点は、埋め込み層が除去され、1つ、2つ、3つ、又は4つ以上の層が追加され、標的タンパク質機能又はタンパク質特性でトレーニングされる第1のモデルであることができる。幾つかの態様では、凍結層の数は1~10である。幾つかの態様では、凍結層の数は1~2、1~3、1~4、1~5、1~6、1~7、1~8、1~9、1~10、2~3、2~4、2~5、2~6、2~7、2~8、2~9、2~10、3~4、3~5、3~6、3~7、3~8、3~9、3~10、4~5、4~6、4~7、4~8、4~9、4~10、5~6、5~7、5~8、5~9、5~10、6~7、6~8、6~9、6~10、7~8、7~9、7~10、8~9、8~10、又は9~10である。幾つかの態様では、凍結層の数は1、2、3、4、5、6、7、8、9、又は10である。幾つかの態様では、凍結層の数は少なくとも1、2、3、4、5、6、7、8、又は9である。幾つかの態様では、凍結層の数は多くとも2、3、4、5、6、7、8、9、又は10である。幾つかの態様では、転移学習中、層は凍結されない。幾つかの態様では、第1のモデルで凍結される層の数は、少なくとも部分的に第2のモデルのトレーニングに利用可能なサンプル数に基づいて決まる。本開示は、層の凍結又は凍結層の数の増大が第2のモデルの予測性能を強化することができることを認識している。この効果は、第2のモデルをトレーニングするサンプル数が少ない場合、強まることができる。幾つかの態様では、第2のモデルがトレーニングセット中に200以下、190以下、180以下、170以下、160以下、150以下、140以下、130以下、120以下、110以下、100以下、90以下、80以下、70以下、60以下、50以下、40以下、又は30以下のサンプルを有する場合、第1のモデルからの全ての層は凍結される。幾つかの態様では、第2のモデルをトレーニングするサンプル数がトレーニングセットにおいて200以下、190以下、180以下、170以下、160以下、150以下、140以下、130以下、120以下、110以下、100以下、90以下、80以下、70以下、60以下、50以下、40以下、又は30以下である場合、第2のモデルに転移するために、第1のモデル中の少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、又は少なくとも100の層は凍結される。
【0057】
第1及び第2のモデルは、10~100層、100~500層、500~1000層、1000~10000層、又は最高で1000000層を有することができる。幾つかの態様では、第1及び/又は第2のモデルは10層~1,000,000層を含む。幾つかの態様では、第1及び/又は第2のモデルは、10層~50層、10層~100層、10層~200層、10層~500層、10層~1,000層、10層~5,000層、10層~10,000層、10層~50,000層、10層~100,000層、10層~500,000層、10層~1,000,000層、50層~100層、50層~200層、50層~500層、50層~1,000層、50層~5,000層、50層~10,000層、50層~50,000層、50層~100,000層、50層~500,000層、50層~1,000,000層、100層~200層、100層~500層、100層~1,000層、100層~5,000層、100層~10,000層、100層~50,000層、100層~100,000層、100層~500,000層、100層~1,000,000層、200層~500層、200層~1,000層、200層~5,000層、200層~10,000層、200層~50,000層、200層~100,000層、200層~500,000層、200層~1,000,000層、500層~1,000層、500層~5,000層、500層~10,000層、500層~50,000層、500層~100,000層、500層~500,000層、500層~1,000,000層、1,000層~5,000層、1,000層~10,000層、1,000層~50,000層、1,000層~100,000層、1,000層~500,000層、1,000層~1,000,000層、5,000層~10,000層、5,000層~50,000層、5,000層~100,000層、5,000層~500,000層、5,000層~1,000,000層、10,000層~50,000層、10,000層~100,000層、10,000層~500,000層、10,000層~1,000,000層、50,000層~100,000層、50,000層~500,000層、50,000層~1,000,000層、100,000層~500,000層、100,000層~1,000,000層、又は500,000層~1,000,000層を含む。幾つかの態様では、第1及び/又は第2のモデルは10層、50層、100層、200層、500層、1,000層、5,000層、10,000層、50,000層、100,000層、500,000層、又は1,000,000層を含む。幾つかの態様では、第1及び/又は第2のモデルは少なくとも10層、50層、100層、200層、500層、1,000層、5,000層、10,000層、50,000層、100,000層、又は500,000層を含む。幾つかの態様では、第1及び/又は第2のモデルは多くとも50層、100層、200層、500層、1,000層、5,000層、10,000層、50,000層、100,000層、500,000層、又は1,000,000層を含む。
【0058】
幾つかの態様では、本明細書において記載されるのは、ニューラルネットエンベッダー及び任意選択的にニューラルネット予測子を含む第1のシステムである。幾つかの態様では、第2のシステムはニューラルネットエンベッダー及びニューラルネット予測子を含む。幾つかの態様では、エンベッダーは10層~200層を含む。幾つかの態様では、エンベッダーは10層~20層、10層~30層、10層~40層、10層~50層、10層~60層、10層~70層、10層~80層、10層~90層、10層~100層、10層~200層、20層~30層、20層~40層、20層~50層、20層~60層、20層~70層、20層~80層、20層~90層、20層~100層、20層~200層、30層~40層、30層~50層、30層~60層、30層~70層、30層~80層、30層~90層、30層~100層、30層~200層、40層~50層、40層~60層、40層~70層、40層~80層、40層~90層、40層~100層、40層~200層、50層~60層、50層~70層、50層~80層、50層~90層、50層~100層、50層~200層、60層~70層、60層~80層、60層~90層、60層~100層、60層~200層、70層~80層、70層~90層、70層~100層、70層~200層、80層~90層、80層~100層、80層~200層、90層~100層、90層~200層、又は100層~200層を含む。幾つかの態様では、エンベッダーは10層、20層、30層、40層、50層、60層、70層、80層、90層、100層、又は200層を含む。幾つかの態様では、エンベッダーは少なくとも10層、20層、30層、40層、50層、60層、70層、80層、90層、又は100層を含む。幾つかの態様では、エンベッダーは多くとも20層、30層、40層、50層、60層、70層、80層、90層、100層、又は200層を含む。
【0059】
幾つかの態様では、ニューラルネット予測子は複数の層を含む。幾つかの態様では、エンベッダーは1層~20層を含む。幾つかの態様では、エンベッダーは1層~2層、1層~3層、1層~4層、1層~5層、1層~6層、1層~7層、1層~8層、1層~9層、1層~10層、1層~15層、1層~20層、2層~3層、2層~4層、2層~5層、2層~6層、2層~7層、2層~8層、2層~9層、2層~10層、2層~15層、2層~20層、3層~4層、3層~5層、3層~6層、3層~7層、3層~8層、3層~9層、3層~10層、3層~15層、3層~20層、4層~5層、4層~6層、4層~7層、4層~8層、4層~9層、4層~10層、4層~15層、4層~20層、5層~6層、5層~7層、5層~8層、5層~9層、5層~10層、5層~15層、5層~20層、6層~7層、6層~8層、6層~9層、6層~10層、6層~15層、6層~20層、7層~8層、7層~9層、7層~10層、7層~15層、7層~20層、8層~9層、8層~10層、8層~15層、8層~20層、9層~10層、9層~15層、9層~20層、10層~15層、10層~20層、又は15層~20層を含む。幾つかの態様では、エンベッダーは1層、2層、3層、4層、5層、6層、7層、8層、9層、10層、15層、又は20層を含む。幾つかの態様では、エンベッダーは少なくとも1層、2層、3層、4層、5層、6層、7層、8層、9層、10層、又は15層を含む。幾つかの態様では、エンベッダーは多くとも2層、3層、4層、5層、6層、7層、8層、9層、10層、15層、又は20層を含む。
【0060】
幾つかの態様では、転移学習は、最終的にトレーニングされたモデルの生成に使用されない。例えば、十分なデータが利用可能な場合、少なくとも部分的に転移学習を使用して生成されたモデルは、転移学習を利用しないモデルと比較して、予測において有意な改善を提供しない(例えば、テストデータセットと突き合わせてテストされる場合)。したがって、幾つかの態様では、トレーニング済みモデルの生成に非転移学習手法が利用される。
【0061】
幾つかの態様では、トレーニング済みモデルは10層~1,000,000層を含む。幾つかの態様では、モデルは10層~50層、10層~100層、10層~200層、10層~500層、10層~1,000層、10層~5,000層、10層~10,000層、10層~50,000層、10層~100,000層、10層~500,000層、10層~1,000,000層、50層~100層、50層~200層、50層~500層、50層~1,000層、50層~5,000層、50層~10,000層、50層~50,000層、50層~100,000層、50層~500,000層、50層~1,000,000層、100層~200層、100層~500層、100層~1,000層、100層~5,000層、100層~10,000層、100層~50,000層、100層~100,000層、100層~500,000層、100層~1,000,000層、200層~500層、200層~1,000層、200層~5,000層、200層~10,000層、200層~50,000層、200層~100,000層、200層~500,000層、200層~1,000,000層、500層~1,000層、500層~5,000層、500層~10,000層、500層~50,000層、500層~100,000層、500層~500,000層、500層~1,000,000層、1,000層~5,000層、1,000層~10,000層、1,000層~50,000層、1,000層~100,000層、1,000層~500,000層、1,000層~1,000,000層、5,000層~10,000層、5,000層~50,000層、5,000層~100,000層、5,000層~500,000層、5,000層~1,000,000層、10,000層~50,000層、10,000層~100,000層、10,000層~500,000層、10,000層~1,000,000層、50,000層~100,000層、50,000層~500,000層、50,000層~1,000,000層、100,000層~500,000層、100,000層~1,000,000層、又は500,000層~1,000,000層を含む。幾つかの態様では、モデルは10層、50層、100層、200層、500層、1,000層、5,000層、10,000層、50,000層、100,000層、500,000層、又は1,000,000層を含む。幾つかの態様では、モデルは少なくとも10層、50層、100層、200層、500層、1,000層、5,000層、10,000層、50,000層、100,000層、又は500,000層を含む。幾つかの態様では、モデルは多くとも50層、100層、200層、500層、1,000層、5,000層、10,000層、50,000層、100,000層、500,000層、又は1,000,000層を含む。
【0062】
幾つかの態様では、機械学習法は、トレーニングに使用されなかったデータを使用してテストされて、その予測能力が評価されるトレーニング済みモデル又は分類器を含む。幾つかの態様では、トレーニング済みモデル又は分類器の予想能力は、1つ又は複数の性能尺度を使用して評価される。これらの性能尺度は、分類性度、特異性、感度、陽性的中率、陰性的中率、受信者動作曲線下実測面積(AUROC)、平均二乗誤差、偽発見率、及び1組の独立事例と突き合わせてテストすることによりモデルに特定される、予測値と実際の値との間のピアソン相関を含む。値が連続する場合、予測値と実測値との間の二乗平均平方根誤差(MSE)又はピアソン相関係数が2つの一般的な尺度である。離散分類タスクの場合、分類精度、陽性的中率、精度及び再現率、並びにROC曲線下面積(AUC)が一般的な性能尺度である。
【0063】
幾つかの場合では、方法は、増分を含む少なくとも約50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、又は200の独立事例での、増分を含む少なくとも約60%、65%、70%、75%、80%、85%、90%、95%、又はそれ以上のAUROCを有する。幾つかの場合、方法は、増分を含む少なくとも約50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、又は200の独立事例での、増分を含む少なくとも約75%、80%、85%、90%、95%、又はそれ以上の精度を有する。方法は、増分を含む少なくとも約50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、又は200の独立事例での、増分を含む少なくとも約75%、80%、85%、90%、95%、又はそれ以上の特異性を有する。方法は、増分を含む少なくとも約50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、又は200の独立事例での、増分を含む少なくとも約75%、80%、85%、90%、95%、又はそれ以上のAUROCを有する。幾つかの場合、方法は、増分を含む少なくとも約50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、又は200の独立事例での、増分を含む少なくとも約75%、80%、85%、90%、95%、又はそれ以上の陽性的中率を有する。幾つかの場合、方法は、増分を含む少なくとも約50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、又は200の独立事例での、増分を含む少なくとも約75%、80%、85%、90%、95%、又はそれ以上の陰性的中率を有する。
【0064】
計算システム及びソフトウェア
幾つかの態様では、本明細書において記載のシステムは、ポリペプチド予測エンジン等のソフトウェアアプリケーションを提供するように構成される。幾つかの態様では、ポリペプチド予測エンジンは、一次アミノ酸配列等の入力データに基づいて少なくとも1つの機能又は特性を予測する1つ又は複数のモデルを含む。幾つかの態様では、本明細書において記載のシステムは、デジタル処理デバイス等の計算デバイスを含む。幾つかの態様では、本明細書において記載のシステムは、サーバと通信するためのネットワーク要素を含む。幾つかの態様では、本明細書において記載のシステムはサーバを含む。幾つかの態様では、システムは、データをサーバにアップロード且つ/又はサーバからデータをダウンロードするように構成される。幾つかの態様では、サーバは、入力データ、出力、及び/又は他の情報を記憶するように構成される。幾つかの態様では、サーバは、システム又は装置からのデータをバックアップするように構成される。
【0065】
幾つかの態様では、システムは1つ又は複数のデジタル処理デバイスを含む。幾つかの態様では、システムは、トレーニング済みモデルを生成するように構成された複数の処理ユニットを含む。幾つかの態様では、システムは、機械学習アプリケーションに適した複数のグラフィック処理ユニット(GPU)を含む。例えば、GPUは一般に、中央演算処理装置(CPU)と比較した場合、算術論理ユニット(ALU)、制御ユニット、及びメモリキャッシュで構成されたより多数のより小さな論理コアを特徴とする。したがって、GPUは、機械学習手法で一般的な数学行列計算に適した、より多数のより単純で同一の計算を並列して処理するように構成される。幾つかの態様では、システムは、ニューラルネットワーク機械学習に向けてGoogleにより開発されたAI特定用途向け集積回路(ASIC)である1つ又は複数のテンソル処理ユニット(TPU)を含む。幾つかの態様では、本明細書において記載の方法は、複数のGPU及び/又はTPUを含むシステムで実施される。幾つかの態様では、システムは、少なくとも2、3、4、5、6、7、8、9、10、15、20、30、40、50、60、70、80、90、100、又はそれ以上のGPU又はTPUを含む。幾つかの態様では、GPU又はTPUは並列処理を提供するように構成される。
【0066】
幾つかの態様では、システム又は装置はデータを暗号化するように構成される。幾つかの態様では、サーバ上のデータは暗号化される。幾つかの態様では、システム又は装置は、データを記憶するデータ記憶ユニット又はメモリを含む。幾つかの態様では、データ暗号化は、高度暗号化標準(AES)を使用して実行される。幾つかの態様では、データ暗号化は、128ビット、192ビット、又は256ビットAES暗号化を使用して実行される。幾つかの態様では、データ暗号化は、データ記憶ユニットのフルディスク暗号化を含む。幾つかの態様では、データ暗号化は仮想ディスク暗号化を含む。幾つかの態様では、データ暗号化はファイル暗号化を含む。幾つかの態様では、システム又は装置と他のデバイス又はサーバとの間で伝送又は他の方法で通信されるデータは、搬送中、暗号化される。幾つかの態様では、システム又は装置と他のデバイス又はサーバとの間の無線通信は暗号化される。幾つかの態様では、搬送中のデータはセキュアソケットレイヤ(SSL)を使用して暗号化される。
【0067】
本明細書において記載の装置は、デバイスの機能を実行する1つ又は複数のハードウェア中央演算処理装置(CPU)又は汎用グラフィック処理ユニット(GPGPU)を含むデジタル処理デバイスを含む。デジタル処理デバイスは、実行可能命令を実行するように構成されたオペレーティングシステムを更に含む。デジタル処理デバイスは任意選択的に、コンピュータネットワークに接続される。デジタル処理デバイスは任意選択的に、ワールドワイドウェブにアクセスするようにインターネットに接続される。デジタル処理デバイスは任意選択的に、クラウド計算基盤に接続される。適したデジタル処理デバイスは、非限定的な例として、サーバコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、サブノートブックコンピュータ、ネットブックコンピュータ、ネットパッドコンピュータ、セットトップコンピュータ、メディアストリーミングデバイス、ハンドヘルドコンピュータ、インターネット家電、モバイルスマートフォン、タブレットコンピュータ、個人情報端末、ビデオゲームコンソール、及び車両を含む。多くのスマートフォンが本明細書において記載のシステムでの使用に適することを当業者は認識しよう。
【0068】
典型的には、デジタル処理デバイスは、実行可能命令を実行するように構成されたオペレーティングシステムを含む。オペレーティングシステムは、例えば、デバイスのハードウェアを管理し、アプリケーションを実行するサービスを提供する、プログラム及びデータを含むソフトウェアである。適したサーバオペレーティングシステムが、非限定的な例として、FreeBSD、OpenBSD、NetBSD(登録商標)、Linux(登録商標)、Apple(登録商標)Mac OS X Server(登録商標)、Oracle(登録商標)Solaris(登録商標)、Windows Server(登録商標)、及びNovell(登録商標)NetWare(登録商標)を含むことを当業者は認識しよう。適したパーソナルコンピュータオペレーティングシステムが、非限定的な例として、Microsoft(登録商標)Windows(登録商標)、Apple(登録商標)Mac OS X(登録商標)、UNIX(登録商標)、及びGNU/Linux(登録商標)等のUNIX様のオペレーティングシステムを含むことを当業者は認識しよう。幾つかの態様では、オペレーティングシステムはクラウド計算によって提供される。
【0069】
本明細書において記載のデジタル処理デバイスは、記憶装置及び/又はメモリデバイスを含み、又は度差可能に結合される。記憶装置及び/又はメモリデバイスは、データ又はプログラムを一時的又は永続的に記憶するのに使用される1つ又は複数の物理的な装置である。幾つかの態様では、デバイスは揮発性メモリであり、記憶された情報の維持に電力を必要とする。幾つかの態様では、デバイスは不揮発性メモリであり、デジタル処理デバイスが給電されていないとき、記憶された情報を保持する。更なる態様では、不揮発性メモリはフラッシュメモリを含む。幾つかの態様では、不揮発性メモリは動的ランダムアクセスメモリ(DRAM)を含む。幾つかの態様では、不揮発性メモリは強誘電性ランダムアクセスメモリ(FRAM(登録商標))を含む。幾つかの態様では、不揮発性メモリは相変化ランダムアクセスメモリ(PRAM)を含む。他の態様では、デバイスは、非限定的な例として、CD-ROM、DVD、フラッシュメモリデバイス、磁気ディスクドライブ、磁気テープドライブ、光ディスクドライブ、及びクラウド計算ベースの記憶装置を含む記憶装置である。更なる態様では、記憶装置及び/又はメモリデバイスは、本明細書において開示される等のデバイスの組合せである。
【0070】
幾つかの態様では、おいて記載のシステム又は方法は、入力及び/又は出力データを含む又は有するものとしてデータベースを生成する。本明細書において記載のシステムの幾つかの態様は、コンピュータベースのシステムである。これらの態様は、プロセッサを含むCPUと、非一時的コンピュータ可読記憶媒体の形態であり得るメモリとを含む。これらのシステム態様は、典型的にはメモリに記憶される(非一時的コンピュータ可読記憶媒体の形態等)ソフトウェアを更に含み、ソフトウェアは、プロセッサに機能を実行させるように構成される。本明細書において記載のシステムに組み込まれるソフトウェア態様は、1つ又は複数のモジュールを含む。
【0071】
種々の態様では、装置は、デジタル処理デバイス等の計算デバイス又は構成要素を含む。本明細書において記載の態様の幾つかでは、デジタル処理デバイスは、視覚情報を表示するディスプレイを含む。本明細書において記載のシステム及び方法との併用に適したディスプレイの非限定的な例には、液晶ディスプレイ(LCD)、薄膜トランジスタ液晶ディスプレイ(TFT-LCD)、有機発光ダイオード(OLED)ディスプレイ、OLEDディスプレイ、アクティブマトリックスOLED(AMOLED)ディスプレイ、又はプラズマディスプレイがある。
【0072】
デジタル処理デバイスは、本明細書において記載の態様の幾つかでは、情報を受信する入力デバイスを含む。本明細書において記載のシステム及び方法との併用に適した入力デバイスの非限定的な例には、キーボード、マウス、トラックボール、トラックパッド、又はスタイラスがある。幾つかの態様では、入力デバイスはタッチスクリーン又はマルチタッチスクリーンである。
【0073】
本明細書において記載のシステム及び方法は典型的には、任意選択的にネットワーク接続されたデジタル処理デバイスのオペレーティングシステムにより実行可能な命令を含むプログラムがエンコードされた1つ又は複数の非一時的コンピュータ可読記憶媒体を含む。本明細書において記載のシステム及び方法の幾つかの態様では、非一時的記憶媒体は、システム構成要素であり、又は方法で利用されるデジタル処理デバイスの構成要素である。更なる態様では、コンピュータ可読記憶媒体は任意選択的に、デジタル処理デバイスから取り外し可能である。幾つかの態様では、コンピュータ可読記憶媒体は、非限定的な例として、CD-ROM、DVD、フラッシュメモリデバイス、固体状態メモリ、磁気ディスクドライブ、磁気テープドライブ、光ディスクドライブ、クラウド計算システム及びサーバ等を含む。幾つかの場合、プログラム及び命令は媒体に永続的に、略永続的に、汎永続的に、又は非一時的にエンコードされる。
【0074】
典型的には、本明細書において記載のシステム及び方法は、少なくとも1つのコンピュータプログラム又はその使用を含む。コンピュータプログラムは、デジタル処理デバイスのCPUで実行可能であり、指定されたタスクを実行するように書かれた命令シーケンスを含む。コンピュータ可読命令は、特定のタスクを実行し、又は特定の抽象データ型を実装する、関数、オブジェクト、アプリケーションプログラムインターフェース(API)、データ構造等のプログラムモジュールとして実装し得る。本明細書において提供される開示に鑑みて、コンピュータプログラムが種々のバージョンの種々の言語で書かれ得ることを当業者は認識しよう。コンピュータ可読命令の機能は、種々の環境で望まれるように結合又は分散し得る。幾つかの態様では、コンピュータプログラムは1つの命令シーケンスを含む。幾つかの態様では、コンピュータプログラムは複数の命令シーケンスを含む。幾つかの態様では、コンピュータプログラムは1つの場所から提供される。他の態様では、コンピュータプログラムは複数の場所から提供される。種々の態様では、コンピュータプログラムは1つ又は複数のソフトウェアモジュールを含む。種々の態様では、コンピュータプログラムは部分的又は全体的に、1つ又は複数のウェブアプリケーション、1つ又は複数のモバイルアプリケーション、1つ又は複数のスタンドアロンアプリケーション、1つ又は複数のウェブブラウザプラグイン、拡張、アドイン、若しくはアドオン、又はそれらの組合せを含む。種々の態様では、ソフトウェアモジュールは、ファイル、コードの区域、プログラミングオブジェクト、プログラミング構造、又はそれらの組合せを含む。更なる種々の態様では、ソフトウェアモジュールは、複数のファイル、コードの複数の区域、複数のプログラミングオブジェクト、複数のプログラミング構造、又はそれらの組合せを含む。種々の態様では、1つ又は複数のソフトウェアモジュールは、非限定的な例として、ウェブアプリケーション、モバイルアプリケーション、及びスタンドアロンアプリケーションを含む。幾つかの態様では、ソフトウェアモジュールは、1つのコンピュータプログラム又はアプリケーションに存在する。他の態様では、ソフトウェアモジュールは2つ以上のコンピュータプログラム又はアプリケーションに存在する。幾つかの態様では、ソフトウェアモジュールは1つのマシンでホストされる。他の態様では、ソフトウェアモジュールは2つ以上のマシンでホストされる。更なる態様では、ソフトウェアモジュールは、クラウド計算プラットフォームでホストされる。幾つかの態様では、ソフトウェアモジュールは、1つの場所にある1つ又は複数のマシンでホストされる。他の態様では、ソフトウェアモジュールは、2つ以上の場所にある1つ又は複数のマシンでホストされる。
【0075】
典型的には、本明細書において記載のシステム及び方法は、1つ又は複数のデータベースを含み且つ/又は利用する。本明細書において提供される開示に鑑みて、多くのデータベースがベースラインデータセット、ファイル、ファイルシステム、オブジェクト、オブジェクトのシステム、並びに本明細書において記載のデータ構造及び他のタイプの情報の記憶及び検索に適することを当業者は認識しよう。種々の態様では、適したデータベースには、非限定的な例として、リレーショナルデータベース、非リレーショナルデータベース、オブジェクト指向データベース、オブジェクトデータベース、エンティティ関係モデルデータベース、関連データベース、及びXMLデータベースがある。更なる非限定的な例には、SQL、PostgreSQL、MySQL、Oracle、DB2、及びSybaseがある。幾つかの態様では、データベースはインターネットベースである。更なる態様では、データベースはウェブベースである。更なる態様では、データベースはクラウド計算ベースである。他の態様では、データベースは1つ又は複数のローカルコンピュータ記憶装置に基づく。
【0076】
図8は、デジタル処理デバイス801等の装置を含む本明細書において記載のシステムの例示的な態様を示す。デジタル処理デバイス801は、入力データを解析するように構成されたソフトウェアアプリケーションを含む。デジタル処理デバイス801は、中央演算処理装置(CPU、本明細書において、「プロセッサ」及び「コンピュータプロセッサ」とも)805を含み得、これは、シングルコア又はマルチコアの1つのプロセッサ又は並列処理に向けた複数のプロセッサであることができる。デジタル処理デバイス801は、キャッシュ等のメモリ又はメモリロケーション810(例えば、ランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリ)のいずれか、電子記憶ユニット815(例えばハードディスク)、1つ又は複数の他のシステムと通信するための通信インターフェース820(例えば、ネットワークアダプタ、ネットワークインターフェース)、及び周辺デバイスも含む。周辺デバイスは、記憶装置インターフェース870を介してデバイスの残りの部分と通信する記憶装置又は記憶媒体865を含むことができる。メモリ810、記憶ユニット815、インターフェース820、及び周辺デバイスは、通信バス825を通してマザーボード等のCPU805と通信するように構成される。デジタル処理デバイス801は、通信インターフェース820を用いてコンピュータネットワーク(「ネットワーク」)830に動作可能に結合することができる。ネットワーク830はインターネットを含むことができる。ネットワーク830は電気通信網及び/又はデータ網であることができる。
【0077】
デジタル処理デバイス801は、情報を受信する入力デバイス845を含み、入力デバイスは、入力インターフェース850を介してデバイスの他の要素と通信する。デジタル処理デバイス801は、出力インターフェース860を介してデバイスの他の要素と通信する出力デバイス855を含むことができる。
【0078】
CPU805は、ソフトウェアアプリケーション又はモジュールに組み込まれる機械可読命令を実行するように構成される。命令は、メモリ810等のメモリロケーションに記憶し得る。メモリ810は、ランダムアクセスメモリ構成要素(例えばRAM)(例えば、静的RAM「SRAM」、動的RAM「DRAM」等)又は読み取り専用構成要素(例えばROM)を含むが、これらに限定されない種々の構成要素(例えば機械可読媒体)を含み得る。メモリ810は、デバイススタートアップ中等にデジタル処理デバイス内の要素間での情報転送に役立ち、メモリ810に記憶し得る基本ルーチンを含む基本入出力システム(BIOS)を含むこともできる。
【0079】
記憶ユニット815は、一次アミノ酸配列等のファイルを記憶するように構成することができる。記憶ユニット815は、オペレーティングシステム、アプリケーションプログラム等の記憶に使用することもできる。任意選択的に、記憶ユニット815は、デジタル処理デバイスと(例えば、外部ポートコネクタ(図示せず)を介して)及び/又は記憶ユニットインターフェースを介して取り外し可能にインターフェースし得る。ソフトウェアは完全に又は部分的に、記憶ユニット815内又は外のコンピュータ可読記憶媒体内に常駐し得る。別の例では、ソフトウェアは完全に又は部分的にプロセッサ805内に常駐し得る。
【0080】
情報及びデータは、ディスプレイ835を通してユーザに表示することができる。ディスプレイは、インターフェース840を介してバス825に接続され、ディスプレイデバイス801の他の要素との間のデータの輸送は、インターフェース840を介して制御することができる。
【0081】
本明細書において記載の方法は、例えば、メモリ810又は電子記憶ユニット815上等のデジタル処理デバイス801の電子記憶ロケーションに記憶された機械(例えばコンピュータプロセッサ)実行可能コードにより実施することができる。機械実行可能又は機械可読コードは、ソフトウェアアプリケーション又はソフトウェアモジュールの形態で提供することができる。使用中、コードはプロセッサ805により実行することができる。幾つかの場合、コードは、記憶ユニット815から検索し、プロセッサ805による容易なアクセスのためにメモリ810に記憶することができる。幾つかの状況では、電子記憶ユニット815は除外することができ、機械実行可能命令はメモリ810に記憶される。
【0082】
幾つかの態様では、リモートデバイス802は、デジタル処理デバイス801と通信するように構成され、任意のモバイル計算デバイスを含み得、その非限定的な例には、タブレットコンピュータ、ラップトップコンピュータ、スマートフォン、又はスマートウォッチがある。例えば、幾つかの態様では、リモートデバイス802は、本明細書において記載の装置又はシステムのデジタル処理デバイス801から情報を受信するように構成されたユーザのスマートフォンであり、情報は概要、入力、出力、又は他のデータを含むことができる。幾つかの態様では、リモートデバイス802は、本明細書において記載の装置又はシステムからデータを送信且つ/又は受信するように構成されたネットワーク上のサーバである。
【0083】
本明細書において記載のシステム及び方法の幾つかの態様は、入力データ及び/又は出力データを含む又は有するデータベースを生成するように構成される。データベースは、本明細書において記載のように、例えば、入力データ及び出力データのデータリポジトリとして機能するように構成される。幾つかの態様では、データベースはネットワーク上のサーバに記憶される。幾つかの態様では、データベースは装置にローカルに(例えば、装置のモニタ構成要素)記憶される。幾つかの態様では、データベースは、サーバにより提供されるデータバックアップと共にローカルに記憶される。
【0084】
特定の定義
本明細書において用いられるとき、単数形「1つの(a)」、「1つの(an)」、及び「その(the)」は、文脈により別段のことが明確に示される場合を除き、複数形を含む。例えば、用語「1つのサンプル(a sample)」は、サンプルの混合物を含め、複数のサンプルを含む。本明細書において、「又は」への任意の言及は、別記される場合を除、「及び/又は」を包含することが意図される。
【0085】
用語「核酸」は、本明細書において用いられるとき、一般に、1つ又は複数の核酸塩基、ヌクレオシド、又はヌクレオチドを指す。例えば、核酸は、アデノシン(A)、シトシン(C)、グアニン(G)、チミン(T)、及びウラシル(U)、又はそれらの変形から選択される1つ又は複数のヌクレオチドを含み得る。ヌクレオチドは一般に、ヌクレオシドと、少なくとも1、2、3、4、5、6、7、8、9、10個又はそれ以上のリン酸(PO3)基とを含む。ヌクレオチドは、核酸塩基、五炭糖(リボース又はデオキシリボースのいずれか)、及び1つ又は複数のリン酸基を含むことができる。リボヌクレオチドは、糖がリボースであるヌクレオチドを含む。デオキシリボヌクレオチドは、糖がデオキシリボースであるヌクレオチドを含む。ヌクレオチドは、ヌクレオシドリン酸、ヌクレオシド二リン酸、ヌクレオシド三リン酸、又はヌクレオシドポリリン酸であることができる。
【0086】
本明細書において用いられるとき、用語「ポリペプチド」、「タンパク質」、及び「ペプチド」は、同義で使用され、ペプチド結合を介してリンクされ、2つ以上のポリペプチド鎖で構成し得るアミノ酸残基のポリマーを指す。用語「ポリペプチド」、「タンパク質」、及び「ペプチド」は、アミノ結合を通して一緒に結合された少なくとも2つのアミノ酸単量体のポリマーを指す。アミノ酸はL光学異性体又はD光学異性体であり得る。より具体的には、用語「ポリペプチド」、「タンパク質」、及び「ペプチド」は、特定の順序、例えば、遺伝子中のヌクレオチドの塩基配列又はタンパク質のRNAコーディングによって決まる順序の2つ以上のアミノ酸で構成された分子を指す。タンパク質は、体の細胞、組織、及び臓器の構造、機能、及び調整に必須であり、各タンパク質は独自の機能を有する。例は、ホルモン、酵素、抗体、及びそれらの任意の断片である。幾つかの場合、タンパク質は、タンパク質の一部、例えば、タンパク質のドメイン、サブドメイン、又はモチーフであることができる。幾つかの場合、タンパク質はタンパク質の変異体(又は変異)を有することができ、その場合、1つ又は複数のアミノ酸残基が、そのタンパク質の自然に発生する(又は少なくとも公知の)アミノ酸配列に挿入され、削除され、且つ/又は置換される。タンパク質又はその変異体は、自然に発生してもよく、又は組み換えられてもよい。ポリペプチドは、隣接するアミノ酸残基のカルボキシル基とアミノ基との間のペプチド結合により一緒に結合されたアミノ酸の1本の線形ポリマー鎖であることができる。ポリペプチドは、例えば、炭水化物の添加、リン酸化等により変更することができる。タンパク質は1つ又は複数のポリペプチドを含むことができる。
【0087】
本明細書において用いられるとき、用語「ニューラルネット」は人工ニューラルネットワークを指す。人工ニューラルネットワークは、相互接続されたノード群という全般構造を有する。ノードは多くの場合、層が1つ又は複数のノードを含む複数の層に組織化される。シグナルは、ある層から次の層にニューラルネットワークを通って伝播することができる。幾つかの態様では、ニューラルネットワークはエンベッダーを含む。エンベッダーは、埋め込み層等の1つ又は複数の層を含むことができる。幾つかの態様では、ニューラルネットワークは予測子を含む。予測子は、出力又は結果(例えば、一次アミノ酸配列に基づいて予測された機能又は特性)を生成する1つ又は複数の出力層を含むことができる。
【0088】
本明細書において用いられるとき、用語「事前トレーニング済みシステム」は、少なくとも1つのデータセットでトレーニングされた少なくとも1つのモデルを指す。モデルの例は、線形モデル、トランスフォーマ、又は畳み込みニューラルネットワーク(CNN)等のニューラルネットワークであることができる。事前トレーニング済みシステムは、データセットの1つ又は複数でトレーニングされたモデルの1つ又は複数を含むことができる。システムは、モデル又はニューラルネットワークの埋め込み重み等の重みを含むこともできる。
【0089】
本明細書において用いられるとき、用語「人工知能」は一般に、「知的」であり、非反復的、非機械的暗記、又は非事前プログラム的にタスクを実行することができる機械又はコンピュータを指す。
【0090】
本明細書において用いられるとき、用語「機械学習」は、機械(例えばコンピュータプログラム)が、プログラムされずにそれ自体で学習することができるタイプの学習を指す。
【0091】
本明細書において用いられるとき、用語「機械学習」は、機械(例えばコンピュータプログラム)が、プログラムされずにそれ自体で学習することができるタイプの学習を指す。
【0092】
本明細書において用いられるとき、用語「約」数字は、その数字±その数字の10%を指す。用語「約」範囲は、その範囲からその最小値の10%を差し引いたものからその最大値の10%を加算したものを指す。
【0093】
本明細書において用いられるとき、句「a、b、c、及びdの少なくとも1つ」は、a、b、c、又はd及びa、b、c、及びdのうちの2つ又は2つ以上を含むありとあらゆる組合せを指す。
【実施例
【0094】
実施例1:全てのタンパク質の機能及び特徴のモデルの構築
この実施例は、特定のタンパク質機能又はタンパク質特性についての転移学習における第1のモデルの構築を説明する。第1のモデルは、7つの異なる機能表現(GO、Pfam、キーワード、Keggオントロジー、Interpro、SUPFAM、及びOrthoDB)にわたる172,401+アノテーションと共にUniprotデータベース(https://www.uniprot.org/)からの5800万のタンパク質配列でトレーニングされた。モデルは残差学習アーキテクチャに従う深層ニューラルネットワークに基づいた。ネットワークへの入力は、各行が、その残基に存在するアミノ酸に対応する厳密に1つの非ゼロエントリを含む行列としてアミノ酸配列をエンコードする「ワンホット」ベクターとして表されるタンパク質配列であった。行列は、25の可能なアミノ酸が全ての標準及び非標準アミノ酸の可能性を包含できるようにし、アミノ酸1000個よりも長い全てのタンパク質は、最初の1000個のアミノ酸を残して切り捨てた。次に、64フィルタを有する一次元畳み込み層によって入力を処理した後、バッチ正規化、正規化線形(ReLU)活性化関数、そして最後に一次元最大プーリング演算が続いた。これは「入力ブロック」と呼ばれ、図1に示される。
【0095】
入力ブロック後、「識別ブロック」及び「畳み込みブロック」として知られる一連の演算の繰り返しを実行した。識別ブロックは一連の一次元畳み込み、バッチ正規化、及びReLU活性化を実行して、入力の形状を保持しながら入力をブロックに変換した。次に、これらの変換の結果を入力に加算し、ReLU活性化を使用して変換し、次に続く層/ブロックに渡した。識別ブロックの一例を図2に示す。
【0096】
畳み込みブロックは識別ブロックと同様であるが、識別分岐の代わりに、入力をリサイズする1つの畳み込み演算を有する分岐を含む。これらの畳み込みブロックは、タンパク質配列のネットワーク内部表現のサイズを変更する(例えば、多くの場合、増大する)のに使用される。畳み込みブロックの一例を図3に示す。
【0097】
入力ブロック後、畳み込みブロック(表現をリサイズする)に続く2~5の識別ブロックの形態の一連の演算を使用して、ネットワークのコアを構築した。このスキーマ(畳み込みブロック+複数の識別ブロック)を合計で5回繰り返した。最後に、グローバル平均プーリング層の後に、512の隠れユニットを有する全結合層が続くものを実行して、配列エンベッドを作成した。エンベッドは、機能に関連する配列中の全ての情報をエンコードする512次元空間で生きるベクトルとして見ることができる。エンベッドを使用して、各アノテーションの線形モデルを用いて172,401のアノテーションのそれぞれの有無を予測した。このプロセスを示す出力層を図4に示す。
【0098】
8つのV100GPUを有する計算ノードで、Adamとして知られる確率的勾配降下法の変異体を使用して、トレーニングデータセット中の57,587,648のタンパク質にわたる6つのフルパスについてモデルをトレーニングした。トレーニングには約1週間掛かった。約700万個のタンパク質で構成されたバリデーションデータセットを使用してトレーニング済みモデルを検証した。
【0099】
ネットワークは、カテゴリ交差エントロピー損失を使用したOrthoDBを除き、各アノテーションのバイナリ交差エントロピー和を最小にするようにトレーニングされる。幾つかのアノテーションは非常に稀であるため、損失再加重戦略が性能を改善する。各バイナリ分類タスクで、マイノリティクラス(例えば陽性クラス)からの損失は、マイノリティクラスの逆周波数の平方根を使用して重み増大される。これは、大半の配列が、アノテーションの大半で陰性例である場合であっても、ネットワークが陽性例及び陰性例の両方に概ね等しく「注意を向ける」ように促す。
【0100】
最終モデルは、一次タンパク質配列のみからの7つの異なるタスクにわたり任意のラベルを予測する全体加重F1精度0.84(表1)をもたらす。F1は、精度及び再現率の調和平均及びが、1において完璧であり、0において完全な失敗であることの精度の尺度である。マクロ及びマイクロ平均精度を表1に示す。マクロ平均の場合、壊死度は、各クラスで独立して計算され、次に、平均が求められる。この手法は全てのクラスを等しく扱う。マイクロ平均精度は、全てのクラスの寄与を集約して、平均尺度を計算する。
【0101】
【表1】
【0102】
実施例2:タンパク質安定性についての深層ニューラルネットワーク解析技法
この実施例は、一次アミノ酸配列から直接、タンパク質安定性の特定のタンパク質特性を予測するような第2のモデルのトレーニングを説明する。実施例1に記載の第1のモデルは、第2のモデルのトレーニングの開始点として使用される。
【0103】
第2のモデルへのデータ入力は、Rocklinら,Science,2017から得られ、タンパク質安定性について高スループットイーストディスプレイアッセイで評価された30,000個のミニタンパク質を含む。手短に言えば、この実施例で第2のモデルへのデータ入力を生成するために、アッセイ済みの各タンパク質が、蛍光標識することができる発現タグに遺伝的に融合されたイーストディスプレイシステムを使用することにより、安定性についてタンパク質をアッセイした。細胞を種々の濃度のプロテアーゼを用いて培養した。蛍光活性化細胞ソート(FACS)により安定したタンパク質を示した細胞を単離し、深層シーケンシングにより各タンパク質を同定した。アンフォールディング状態でのその配列の実測EC50と予測EC50との間の差分を示す最終安定性スコアを特定した。
【0104】
この最終安定性スコアは、第2のモデルへのデータ入力として使用される。56,126のアミノ酸配列の実数値安定性スコアを、Rocklinらの公開されている補足データから抽出し、次に、シャッフルし、40,000配列のトレーニングセット又は16,126配列の独立テストセットのいずれかにランダムに割り当てた。
【0105】
実施例1の事前トレーニング済みモデルからのアーキテクチャは、アノテーション予測の出力層を除去し、線形活性化関数を有する全結合一次元出力層を追加して、サンプル毎のタンパク質安定値にフィッティングさせることにより調整される。128配列のバッチサイズ及び学習速度1×10-4を有するAdam最適化を使用して、モデルはトレーニングデータの90%にフィッティングされ、残りの10%を用いて検証され、25までのエポックについての平均二乗誤差(MSE)を最小にした(検証損失が2つの連続エポックにわたって増大する場合、早期に停止する)。この手順は、事前トレーニング済み重みを有する転移学習モデルである事前トレーニング済みモデル及びランダムに初期化されたパラメータを有する同一モデルアーキテクチャ(「ナイーブ」モデル)の両方に対して繰り返される。ベースライン比較の場合、L2正則化を有する線形回帰モデル(「リッジ」モデル)は同じデータにフィッティングされる。性能は、独立テストセットでの予測値vs実際の値のMSE及びピアソン相関の両方を介して評価される。次に、サンプルサイズ10、50、100、500、1000、5000、及び10000でトレーニングセットから10のランダムサンプルを引き出すことにより、「学習曲線」が作成され、上記トレーニング/テスト手順を各モデルに対して繰り返す。
【0106】
実施例1に記載のように第1のモデルをトレーニングし、それを本実施例2に記載されるように第2のモデルのトレーニングの開始点として使用した後、予測安定性と期待安定性との間のピアソン相関0.72及びMSE0.15が、標準線形回帰モデルから予測性能24%で示される(図5)。図6の学習曲線は、低サンプルサイズで事前トレーニング済みモデルの高い相対精度を示し、これはトレーニングセットが成長するにつれて維持される。ナイーブモデルと比較して、事前トレーニング済みモデルは、等しい性能レベルを達成するのにより少数のサンプルでよいが、モデルは、予想通りに高いサンプルサイズで収束するように見える。線形モデルの性能は最終的に飽和するため、両深層学習モデルは、特定のサンプルサイズで線形モデルよりも優れる。
【0107】
実施例3:タンパク質蛍光についての深層ニューラルネットワーク解析技法
この実施例は、一次配列から直接、蛍光という特定のタンパク質機能を予測するような第2のモデルのトレーニングを説明する。
【0108】
実施例1に記載の第1のモデルは、第2のモデルのトレーニングの開始点として使用される。この実施例では、第2のモデルへのデータ入力は、Sarkisyanら,Nature,2016からのものであり、51,715のラベル付きGFP変異体を含んだ。手短に言えば、蛍光活性化細胞ソートを使用して、各変異体を発現している細菌を、510nm放射の輝度の異なる8つの集団にソートして、GFP活性をアッセイした。
【0109】
実施例1の事前トレーニング済みモデルからのアーキテクチャは、アノテーション予測の出力層を除去し、シグモイド活性化関数を有する全結合一次元出力層を追加して、各配列を蛍光又は非蛍光のいずれかとして分類することにより調整される。128配列のバッチサイズ及び学習速度1×10-4を有するAdam最適化を使用して、モデルは、200エポックでのバイナリ交差エントロピーを最小にするようにトレーニングされる。この手順は、事前トレーニング済み重みを有する転移学習モデル(「事前トレーニング済みモデル」)及びランダムに初期化されたパラメータを有する同一モデルアーキテクチャ(「ナイーブ」モデル)の両方に対して繰り返される。ベースライン比較の場合、L2正則化を有する線形回帰モデル(「リッジ」モデル)は同じデータにフィッティングされる。
【0110】
フルデータはトレーニングセット及びバリデーションセットに分割され、バリデーションデータは上位20%の輝度のタンパク質であり、トレーニングセットは下位80%であった。転移学習モデルが非転移学習モデルをいかに改善し得るかを推測するために、トレーニングデータセットをサブサンプリングして、サンプルサイズ40、50、100、500、1000、5000、10000、25000、40000、及び48000配列を作成する。ランダムサンプリングをフルトレーニングデータセットからの各サンプルサイズの10のリアライゼーションに対して実行して、各方法の性能及びばらつきを測定する。関心のある一次尺度は陽性的中率であり、これは、モデルからの全ての陽性予測の中での真の陽性の割合である。
【0111】
転移学習の追加は、全体陽性的中率を増大させるとともに、他のいずれの方法よりも少ないデータで予測能力を可能にもする(図7)。例えば、第2のモデルへの入力データとして100の配列-機能GFP対を用いる場合、トレーニングへの第1のモデルの追加は、不正確な予測を33%低減させる。加えて、第2のモデルへの入力データとして40のみの配列-機能GFP対を用いる場合、トレーニングへの第1のモデルの追加は、陽性的中率70%をもたらし、一方、第2のモデル単独又は標準ロジスティック回帰モデルは、陽性的中率0で不確定であった。
【0112】
実施例4:タンパク質酵素活性についての深層ニューラルネットワーク解析技法
この実施例は、一次アミノ酸配列から直接、タンパク質酵素活性を予測するような第2のモデルのトレーニングを説明する。第2のモデルへのデータ入力は、Halabiら,Cell,2009からのものであり、1,300のS1Aセリンプロテアーゼを含んだ。論文から引用されるデータの説明は以下の通りである:「S1A、PAS、SH2、及びSH3ファミリを含む配列は、反復PSI-BLAST(Altschulら,1997)を通してNCBI非冗長データベース(リリース2.2.14、2006年5月7日)から収集され、Cn3D(Wangら、2000)及びClustalX(Thompsonら、1997)とアラインメントされ、次に、標準手動調整法(Doolittle、1996)が続いた」。このデータを使用して、以下のカテゴリについて一次アミノ酸配列からの一次触媒特異性を予測することを目的として第2のモデルをトレーニングした:トリプシン、キモトリプシン、グランザイム、及びカリクレイン。これらの4つのカテゴリで合計422の配列がある。重要なことには、モデルのいずれも複数の配列アラインメントを使用せず、このタスクが、複数配列アラインメントを必要とせずに可能なことを示した。
【0113】
実施例1の事前トレーニング済みモデルからのアーキテクチャは、アノテーション予測の出力層を除去し、ソフトマックス活性化関数を有する全結合四次元出力層を追加して、各配列を4つの可能なカテゴリの1つに分類することにより調整される。128配列のバッチサイズ及び学習速度1×10-4を有するAdam最適化を使用して、モデルはトレーニングデータの90%にフィッティングされ、残りの10%を用いて検証され、500までのエポックについてのカテゴリ交差エントロピーを最小にした(検証損失が10の連続エポックにわたって増大する場合、早期に停止する)。この全体プロセスは10回繰り返されて(10フォールド交差検証として知られている)、各モデルの精度及びばらつきを査定する。これは、事前トレーニング済み重みを有する転移学習モデルである事前トレーニング済みモデル及びランダムに初期化されたパラメータを有する同一モデルアーキテクチャ(「ナイーブ」モデル)の両方に対して繰り返される。ベースライン比較の場合、L2正則化を有する線形回帰モデル(「リッジ」モデル)は同じデータにフィッティングされる。性能は、各フォールドでの保留データでの分類精度評価される。
【0114】
実施例1に記載のように第1のモデルをトレーニングし、それを本実施例2に記載されるように第2のモデルのトレーニングの開始点として使用した後、結果は、事前トレーニング済みモデルを使用した場合、ナイーブモデルを用いた場合の81%及び線形回帰を使用した場合の80%と比較して、93%のメジアン分類制度を示した。
【0115】
【表2】
【0116】
実施例5:タンパク質溶解性についての深層ニューラルネットワーク解析技法
多くのアミノ酸配列は、溶液中で凝集する構造になる。アミノ酸配列の凝集傾向を低減する(例えば、溶解性を改善する)ことは、よりよい治療を設計するための目標である。したがって、配列から直接、凝集及び溶解性を予測するモデルは、このために重要なツールである。この実施例は、トランスフォーマアーキテクチャの自己教師あり事前トレーニング及び続く、逆の特性であるタンパク質凝集の読み出しを介したアミロイドベータ(Aβ)溶解性を予測するようなモデルのファインチューニングを説明する。データは、高スループット深層変異スキャンにおける全ての可能な単一点変異について凝集アッセイを使用して測定される。Grayら,“Elucidating the Molecular Determinants of Aβ Aggregation with Deep Mutational Scanning”,G3,2019は、少なくとも1つの実施例において本モデルをトレーニングするのに使用されるデータを含む。しかしながら、幾つかの態様では、他のデータをトレーニングに使用することができる。この実施例では、転移学習の有効性は、前の実施例からの異なるエンコーダアーキテクチャを使用して、この場合では、畳み込みニューラルネットワークの代わりにトランスフォーマを使用して示される。転移学習は、トレーニングデータでは分からないタンパク質位置へのモデルの一般化を改善する。
【0117】
この実施例では、データは、791の配列-ラベル対の組として収集されフォーマットされる。ラベルは、各配列の複数の複製にわたる実数値凝集アッセイ測定の手段である。データは2つの方法により4:1の比率でトレーニングセット/テストセットに分割される:(1)ランダムに;各ラベル付き配列はトレーニングセット、バリデーションセット、又はテストセットに割り当てられる、又は(2)残基により;所与の位置に変異を有する全ての配列は、モデルが、トレーニング中、特定のランダムに選択された位置からのデータから分離される(例えば、決して露出されない)が、差し出されたテストデータでのこれらの未見位置における出力を予測するよう強いられるようにトレーニングセット又はテストセットのいずれかに一緒にグループ化される。図11は、タンパク質位置による分割の態様例を示す。
【0118】
この実施例は、タンパク質の特性予測にBERT言語モデルのトランスフォーマアーキテクチャを利用する。モデルは、入力配列の特定の残基がモデルからマスクされ又は隠され、モデルが、マスクされない残基を所与として、マスクされた残基を同定するタスクを負うように「自己教師あり」様式でトレーニングされる。この実施例では、モデルは、モデル開発時にUniProtKBからダウンロード可能な1億5600万超のタンパク質アミノ酸配列のフルセットを用いてトレーニングされる。各配列で、アミノ酸位置の15%がモデルからランダムにマスクされ、マスクされた配列は実施例1に記載の「ワンホット」入力フォーマットに変換され、モデルは、マスク予測の精度を最大にするようにトレーニングされる。Rivesら,“Biological Structure and Function Emerge from Scaling Unsupervised Learning to 250 Million Protein Sequences”,http://dx.doi.org/10.1101/622803,2019(以下“Rives”)が、他の用途を記載することを当業者は理解することができる。
【0119】
図10Aは、本開示の態様例を示すブロック図1050である。図1050は、本開示に記載の方法を実施することができる1つのシステムであるトレーニングOmniprotを示す。Omniprotは事前トレーニング済みトランスフォーマを指すことができる。Omniprotのトレーニングが、Rivesらと局面において同様であることができるが、同様にバリエーションも有することを理解することができる。第1に、配列及び配列の特性(予測された機能又は他の特性)を有する対応するアノテーションが、Omniprotのニューラルネットワーク/モデルを事前トレーニングする(1052)。これらの配列は大きなデータセットであり、この例では、1億5600万の配列である。次に、特定のライブラリ測定であるより小さなデータセットが、Omniprotをファインチューニングする(1054)。この特定の例では、より小さなデータセットは791個のアミロイドベータ配列凝集ラベルである。しかしながら、他の数及び他のタイプの配列及びラベルを利用してもよいことを当業者は認識することができる。ファインチューニングされると、Omniprotデータベースは配列の予測された機能を出力することができる。
【0120】
より詳細なレベルで、転移学習法は、タンパク質凝集予測タスクについて事前トレーニング済みモデルをファインチューニングする。トランスフォーマアーキテクチャからのデコーダは除去され、残りのエンコーダからの出力としてL×D次元テンソルを明らかにし、ここで、Lはタンパク質の長さであり、埋め込み次元Dはハイパーパラメータである。このテンソルは、長さ次元Lにわたる平均を計算することによりD次元埋め込みベクトルに低減される。次に、線形活性化関数を有する新しい全結合一次元出力層が加算され、モデルにおける全ての層の重みは、スカラー凝集アッセイ値にフィッティングされる。ベースライン比較の場合、L2正則化を有する線形回帰モデル及びナイーブトランスフォーマ(事前トレーニングされた重みではなくランダムに初期化された重みを使用する)の両方もトレーニングデータにフィッティングされる。全てのモデルの性能は、差し出されたテストデータでの予測ラベルvs真のラベルのピアソン相関を使用して評価される。
【0121】
図12は、ランダム分割及び位置による分割を使用した線形、ナイーブ、及び事前トレーニング済みトランスフォーマ結果の結果例を示す。3つ全てのモデルで、位置によるデータ分割はより難しいタスクであり、全てのタイプのモデルを使用して性能は下がる。線形モデルは、データの性質に起因して位置ベースの分割でのデータから学習することができない。ワンホット入力ベクトルは、いかなる特定のアミノ酸変異体でもトレーニングセットとテストセットとの間で重複を有さない。しかしながら、両トランスフォーマモデル(例えば、ナイーブトランスフォーマ及び事前トレーニング済みトランスフォーマ)は、データのランダム分割と比較して精度の小さな損失だけで、トレーニングデータでのある組の位置から別の組の位置へのタンパク質凝集ルールを一般化することが可能である。ナイーブトランスフォーマはr=0.80を有し、事前トレーニング済みトランスフォーマはr=0.87を有する。さらに、両タイプのデータ分割で、事前トレーニング済みトランスフォーマは、ナイーブモデルよりもかなり高い精度を有し、先の実施例とは完全に異なる深層学習アーキテクチャを用いたタンパク質についての転移学習の力を示す。
【0122】
実施例6:酵素活性予測についての連続標的事前トレーニング
L-アスパラギナーゼは、アミノ酸アスパラギンをアスパラギン酸塩及びアンモニアに変換する代謝酵素である。人間は自然にこの酵素を作るが、高活性細菌変異体(大腸菌(Escherichia coli)又は黒脚病菌(Erwinia chrysanthemi)由来)が、体内への直接注射により特定の白血病の治療に使用される。アスパラギナーゼは、L-アスパラギンを血流から除去し、アミノ酸に依存する癌細胞を殺すことにより機能する。
【0123】
酵素活性の予測モデルの開発を目的として、タイプIIアスパラギナーゼの197の自然発生配列変異体の組をアッセイする。全ての配列は、以下のようにクローンプラスミドとして並べられ、E coliで発現し、単離され、酵素の最大酵素速度についてアッセイされる:96ウェル高さの結合プレートをanti-6Hisタグ抗体でコートする。次に、ウェルを洗浄し、BSAブロッキングバッファを使用してブロックする。ブロッキング後、ウェルを再び洗浄し、次に、発現したHisタグ付けアスパラギナーゼを含む適宜希釈したE.coliライセートで培養する。1時間後、プレートを洗浄し、アスパラギナーゼ活性アッセイ混合物(BiovisionキットK754から)を添加する。540nmにおける分光測定により酵素活性を測定し、25分間にわたり1分毎に読み出される。各サンプルのレートを特定するために、4分窓にわたる最高傾きが、各酵素の最大瞬間速度としてとられる。上記酵素速度はタンパク質機能の一例である。これらの活性ラベル付き配列は、100の配列トレーニングセット及び97の配列テストセットに分けられた。
【0124】
図10Bは、本開示の方法の態様例を示すブロック図1000である。理論上、全ての公知のアスパラギナーゼ様タンパク質を使用した、実施例5からの事前トレーニング済みモデルの教師なしファインチューニングの続くラウンドは、少数の実測配列での転移学習タスクにおいてモデルの予測性能を改善する。最初、UniProtKBからの全ての既知のタンパク質配列の世界でトレーニングされた実施例5の事前トレーニング済みトランスフォーマモデルは、InterProファミリIPR004550“L-アスパラギナーゼ、タイプII”を用いてアノテーションされた12,583の配列で更にファインチューニングされる。これは2ステップ事前トレーニングプロセスであり、両ステップは実施例5の同じ自己教師あり法に適用される。
【0125】
第1のシステム1001は、トランスフォーマエンコーダ及びデコーダ1006を有し、1組の全てのタンパク質を使用してトレーニングされる。この例では、1億5600万のタンパク質配列が利用されるが、他の量の配列を使用してもよいことを当業者は理解することができる。モデル1001のトレーニングに使用されるデータのサイズが、第2のシステム1011のトレーニングに使用されるデータのサイズよりも大きいことを当業者は更に理解することができる。第1のモデルは事前トレーニング済みモデル1008を生成し、これは第2のシステム1011に送られる。
【0126】
第2のシステム1011は、事前トレーニング済みモデル1008を受け入れ、より小さなデータセットであるアスパラギナーゼ配列1012を用いてモデルをトレーニングする。しかしながら、他のデータセットをこのファインチューニングトレーニングに使用してもよいことを当業者は認識することができる。次に、第2のシステム1011は転移学習法を適用して、デコーダ層1016を線形回帰層1026で置換し、教師ありタスクとしてスカラー酵素活性値1022を予測するように、生成されたモデルを更にトレーニングすることにより、活性を予測する。ラベル付き配列は、トレーニングセット及びテストセットにランダムに分割される。モデルは、100の活性ラベル付きアスパラギナーゼ配列1022のトレーニングセットでトレーニングされ、次に、性能は差し出されたテストセットで評価される。理論化されるように、第2の事前トレーニングステップを用いた転移学習-タンパク質ファミリ内の利用可能な全ての配列を利用する-は、低データ設定において-すなわち、第2のトレーニングが初期トレーニングよりも少ない又はかなり少ないデータを有した場合-予測精度の顕著な増大を生み出した。
【0127】
図13Aは、1000のラベルなしアスパラギナーゼ配列のマスク予測での再構築誤差を示すグラフである。図13Aは、アスパラギナーゼタンパク質について事前トレーニングする第2のラウンド後の再構築誤差(左)が、天然アスパラギナーゼ配列モデル(右)を用いてファインチューニングされたOmniprotと比較して低減することを示す。図13Bは、100のみのラベル付き配列を用いいたトレーニング後の97の差し出された活性ラベル付き配列での予測精度を示すグラフである。実測活性vsモデル予測のピアソン相関は、1つの(OmniProt)事前トレーニングステップよりも2ステップ事前トレーニングを用いて顕著に改善される。
【0128】
上記説明及び例では、特定の数のサンプルサイズ、反復、エポック、バッチサイズ、学習速度、精度、データ入力サイズ、フィルタ、アミノ酸配列、及び他の数字が調整又は最適化可能であるが、当業者は認識することができる。特定の態様が実施例に記載されるが、実施例に列記された数字は非限定的である。
なお、本発明は、実施の態様として以下の内容を含む。
〔態様1〕
所望のタンパク質特性をモデリングする方法であって、
(a)第1のニューラルネットエンベッダー及び第1のニューラルネット予測子を含む第1の事前トレーニング済みシステムを提供することであって、前記事前トレーニング済みシステムの前記第1のニューラルネット予測子は、前記所望のタンパク質特性と異なる、提供することと、
(b)前記事前トレーニング済みシステムの前記第1のニューラルネットエンベッダーの少なくとも一部を第2のシステムに転移することであって、前記第2のシステムは第2のニューラルネットエンベッダー及び第2のニューラルネット予測子を含み、前記第2のシステムの前記第2のニューラルネット予測子は、前記所望のタンパク質特性を提供する、転移することと、
(c)前記第2のシステムにより、タンパク質検体の一次アミノ酸配列を解析することであって、それにより、前記タンパク質検体の前記所望のタンパク質特性の予測を生成する、解析することと、
を含む方法。
〔態様2〕
前記第1及び第2のシステムの前記ニューラルネットエンベッダーのアーキテクチャは、VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、及びMobileNetの少なくとも1つから独立して選択される畳み込みアーキテクチャである、態様1に記載の方法。
〔態様3〕
前記第1のシステムは、条件付き敵対的生成ネットワーク(GAN)、DCGAN、CGAN、SGAN若しくはプログレッシブGAN、SAGAN、LSGAN、WGAN、EBGAN、BEGAN、又はinfoGANから選択される敵対的生成ネットワーク(GAN)を含む、態様1に記載の方法。
〔態様4〕
前記第1のシステムは、Bi-LSTM/LSTM、Bi-GRU/GRU、又はトランスフォーマネットワークから選択されるリカレントニューラルネットワークを含む、態様3に記載の方法。
〔態様5〕
前記第1のシステムは変分自動エンコーダ(VAE)を含む、態様3に記載の方法又はシステム。
〔態様6〕
前記エンベッダーは、少なくとも50、100、150、200、250、300、350、400、450、500、600、700、800、900、1000、又はそれ以上のアミノ酸配列のセットでトレーニングされる、態様1~5のいずれか一態様記載の方法。
〔態様7〕
前記アミノ酸配列は、GP、Pfam、キーワード、Keggオントロジー、Interpro、SUPFAM、又はOrthoDBの少なくとも1つを含む1つ又は複数の機能表現にわたるアノテーションを含む、態様6に記載の方法。
〔態様8〕
前記アミノ酸配列は、少なくとも約1万、2万、3万、4万、5万、7.5万、10万、12万、14万、15万、16万、又は17万の可能なアノテーションを有する、態様7に記載の方法。
〔態様9〕
前記第2のモデルは、前記第1のモデルの前記転移されたエンベッダーを使用せずにトレーニングされたモデルと比較して改善された性能尺度を有する、態様1~8のいずれか一態様記載の方法。
〔態様10〕
前記第1又は第2のシステムは、Adam、RMSプロップ、モメンタムを用いる確率的勾配降下(SGD)、モメンタム及びNestrov加速勾配を用いるSGD、モメンタムなしのSGD、Adagrad、Adadelta、又はNAdamにより最適化される、態様1~9のいずれか一態様記載の方法。
〔態様11〕
前記第1及び第2のモデルは、以下の活性化関数のいずれかを使用して最適化することができる:ソフトマックス、elu、SeLU、ソフトプラス、ソフトサイン、ReLU、tanh、シグモイド、ハードシグモイド、指数、PReLU、及びLeaskyReLU、又は線形、態様1~10のいずれか一態様記載の方法。
〔態様12〕
前記ニューラルネットエンベッダーは、少なくとも10、50、100、250、500、750、1000、又はそれ以上の層を含み、前記予測子は、少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、又はそれ以上の層を含む、態様1~11のいずれか一態様記載の方法。
〔態様13〕
前記第1又は第2のシステムの少なくとも一方は、早期停止、L1-L2正則化、スキップ接続、又はそれらの組合せから選択される正則化を利用し、前記正則化は1、2、3、4、5、又はそれ以上の層で実行される、態様1~12のいずれか一態様記載の方法。
〔態様14〕
前記正則化はバッチ正規化を使用して実行される、態様13に記載の方法。
〔態様15〕
前記正則化はグループ正規化を使用して実行される、態様13に記載の方法。
〔態様16〕
前記第2のシステムの第2のモデルは、前記第1のモデルの最後の層が除去される前記第1のシステムの第1のモデルを含む、態様1~15のいずれか一態様記載の方法。
〔態様17〕
前記第1のモデルの2、3、4、5、又はそれ以上の層は、前記第2のモデルへの転移において除去される、態様16に記載の方法。
〔態様18〕
前記転移された層は、前記第2のモデルのトレーニング中、凍結される、態様16又は17に記載の方法。
〔態様19〕
前記転移された層は、前記第2のモデルのトレーニング中、凍結されない、態様16又は17に記載の方法。
〔態様20〕
前記第2のモデルは、前記第1のモデルの前記転移された層に追加される1、2、3、4、5、6、7、8、9、10、又はそれ以上の層を有する、態様17~19のいずれか一態様記載の方法。
〔態様21〕
前記第2のシステムの前記ニューラルネット予測子は、タンパク質結合活性、核酸結合活性、タンパク質溶解性、及びタンパク質安定性の1つ又は複数を予測する、態様1~20のいずれか一態様記載の方法。
〔態様22〕
前記第2のシステムの前記ニューラルネット予測子は、タンパク質蛍光を予測する、態様1~21のいずれか一態様記載の方法。
〔態様23〕
前記第2のシステムの前記ニューラルネット予測子は、酵素活性を予測する、態様1~22のいずれか一態様記載の方法。
〔態様24〕
アミノ酸配列とタンパク質機能との間の以前は未知であった関連を識別するコンピュータ実施方法であって、
(a)第1の機械学習ソフトウェアモジュールを用いて、複数のタンパク質特性と複数のアミノ酸配列との間の複数の関連の第1のモデルを生成することと、
(b)第2の機械学習ソフトウェアモジュールに前記第1のモデル又はその一部を転移することと、
(c)前記第2の機械学習ソフトウェアモジュールにより、前記第1のモデルの少なくとも一部を含む第2のモデルを生成することと、
(d)前記第2のモデルに基づいて、前記アミノ酸配列と前記タンパク質機能との間の以前は未知であった関連を識別することと、
を含む方法。
〔態様25〕
前記アミノ酸配列は一次タンパク質構造を含む、態様24に記載の方法。
〔態様26〕
前記アミノ酸配列は、前記タンパク質機能を生じさせるタンパク質構成を生じさせる、態様24又は25に記載の方法。
〔態様27〕
前記タンパク質機能は蛍光を含む、態様24~26のいずれか一態様記載の方法。
〔態様28〕
前記タンパク質機能は酵素活性を含む、態様24~27のいずれか一態様記載の方法。
〔態様29〕
前記タンパク質機能はヌクレアーゼ活性を含む、態様24~28のいずれか一態様記載の方法。
〔態様30〕
前記タンパク質機能は、タンパク質安定性の程度を含む、態様24~29のいずれか一態様記載の方法。
〔態様31〕
前記複数のタンパク質特性及び前記複数のアミノ酸配列は、UniProtからのものである、態様24~30のいずれか一態様記載の方法。
〔態様32〕
前記複数のタンパク質特性は、ラベルGP、Pfam、キーワード、Keggオントロジー、Interpro、SUPFAM、及びOrthoDBの1つ又は複数を含む、態様24~31のいずれか一態様記載の方法。
〔態様33〕
前記複数のアミノ酸配列は、複数のタンパク質の一次タンパク質構造、二次タンパク質構造、及び三次タンパク質構造を形成する、態様24~32のいずれか一態様記載の方法。
〔態様34〕
前記第1のモデルは、多次元テンソル、三次元原子位置の表現、対毎の相互作用の隣接行列、及び文字埋め込みの1つ又は複数を含む入力データでトレーニングされる、態様24~33のいずれか一態様記載の方法。
〔態様35〕
前記第2の機械学習モジュールに、一次アミノ酸配列の変異に関連するデータ、アミノ酸相互作用のコンタクトマップ、三次タンパク質構造、及び選択的スプライシング転写からの予測されたアイソフォームの少なくとも1つを入力することを含む、態様24~34のいずれか一態様記載の方法。
〔態様36〕
前記第1のモデル及び前記第2のモデルは、教師あり学習を使用してトレーニングされる、態様24~35のいずれか一態様記載の方法。
〔態様37〕
前記第1のモデルは教師あり学習を使用してトレーニングされ、前記第2のモデルは教師なし学習を使用してトレーニングされる、態様24~36のいずれか一態様記載の方法。
〔態様38〕
前記第1のモデル及び前記第2のモデルは、畳み込みニューラルネットワーク、敵対的生成ネットワーク、リカレントニューラルネットワーク、又は変分自動エンコーダを含むニューラルネットワークを含む、態様24~37のいずれか一態様記載の方法。
〔態様39〕
前記第1のモデル及び前記第2のモデルはそれぞれ、異なるニューラルネットワークアーキテクチャを含む、態様38に記載の方法。
〔態様40〕
前記畳み込みネットワークは、VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、又はMobileNetの1つを含む、態様38又は39に記載の方法。
〔態様41〕
前記第1のモデルはエンベッダーを含み、前記第2のモデルは予測子を含む、態様24~40のいずれか一態様記載の方法。
〔態様42〕
第1のモデルアーキテクチャは複数の層を含み、第2のモデルアーキテクチャは、前記複数の層のうちの少なくとも2つの層を含む、態様41に記載の方法。
〔態様43〕
前記第1の機械学習ソフトウェアモジュールは、少なくとも10,000のタンパク質特性を含む第1のトレーニングデータセットで前記第1のモデルをトレーニングし、前記第2の機械学習ソフトウェアモジュールは、第2のトレーニングデータセットを使用して前記第2のモデルをトレーニングする、態様24~42のいずれか一態様記載の方法。
〔態様44〕
アミノ酸配列とタンパク質機能との間の以前は未知であった関連を識別するコンピュータシステムであって、
(a)プロセッサと、
(b)命令を内部に記憶した非一時的コンピュータ可読媒体と、
を備え、前記命令は、実行されると、前記プロセッサに、
(i)第1の機械学習ソフトウェアモデルを用いて、複数のタンパク質特性と複数のアミノ酸配列との間の複数の関連の第1のモデルを生成することと、
(ii)前記第1のモデル又はその一部を第2の機械学習ソフトウェアモジュールに転移することと、
(iii)前記第2の機械学習ソフトウェアモジュールにより、前記第1のモデルの少なくとも一部を含む第2のモデルを生成することと、
(iv)前記第2のモデルに基づいて、前記アミノ酸配列と前記タンパク質機能との間の以前は未知であった関連を識別することと、
を行わせるように構成される、システム。
〔態様45〕
前記アミノ酸配列は一次タンパク質構造を含む、態様44に記載のシステム。
〔態様46〕
前記アミノ酸配列は、前記タンパク質機能を生じさせるタンパク質構成を生じさせる、態様44又は45に記載のシステム。
〔態様47〕
前記タンパク質機能は蛍光を含む、態様44~46のいずれか一態様記載のシステム。
〔態様48〕
前記タンパク質機能は酵素活性を含む、態様44~47のいずれか一態様記載のシステム。
〔態様49〕
前記タンパク質機能はヌクレアーゼ活性を含む、態様44~48のいずれか一態様記載のシステム。
〔態様50〕
前記タンパク質機能は、タンパク質安定性の程度を含む、態様44~49のいずれか一態様記載のシステム。
〔態様51〕
前記複数のタンパク質特性及び複数のタンパク質マーカは、UniProtからのものである、態様44~50のいずれか一態様記載のシステム。
〔態様52〕
前記複数のタンパク質特性は、ラベルGP、Pfam、キーワード、Keggオントロジー、Interpro、SUPFAM、及びOrthoDBの1つ又は複数を含む、態様44~51のいずれか一態様記載のシステム。
〔態様53〕
前記複数のアミノ酸配列は、複数のタンパク質の一次タンパク質構造、二次タンパク質構造、及び三次タンパク質構造を含む、態様44~52のいずれか一態様記載のシステム。
〔態様54〕
前記第1のモデルは、多次元テンソル、三次元原子位置の表現、対毎の相互作用の隣接行列、及び文字埋め込みの1つ又は複数を含む入力データでトレーニングされる、態様44~53のいずれか一態様記載のシステム。
〔態様55〕
前記ソフトウェアは、前記プロセッサに、一次アミノ酸配列の変異に関連するデータ、アミノ酸相互作用のコンタクトマップ、三次タンパク質構造、及び選択的スプライシング転写からの予測されたアイソフォームの少なくとも1つを前記第2の機械学習モジュールに入力させるように構成される、態様44~54のいずれか一態様記載のシステム。
〔態様56〕
前記第1のモデル及び前記第2のモデルは、教師あり学習を使用してトレーニングされる、態様44~55のいずれか一態様記載のシステム。
〔態様57〕
前記第1のモデルは教師あり学習を使用してトレーニングされ、前記第2のモデルは教師なし学習を使用してトレーニングされる、態様44~56のいずれか一態様記載のシステム。
〔態様58〕
前記第1のモデル及び前記第2のモデルは、畳み込みニューラルネットワーク、敵対的生成ネットワーク、リカレントニューラルネットワーク、又は変分自動エンコーダを含むニューラルネットワークを含む、態様44~57のいずれか一態様記載のシステム。
〔態様59〕
前記第1のモデル及び前記第2のモデルはそれぞれ、異なるニューラルネットワークアーキテクチャを含む、態様58に記載のシステム。
〔態様60〕
前記畳み込みネットワークは、VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、又はMobileNetの1つを含む、態様58又は59に記載のシステム。
〔態様61〕
前記第1のモデルはエンベッダーを含み、前記第2のモデルは予測子を含む、態様44~60のいずれか一態様記載のシステム。
〔態様62〕
第1のモデルアーキテクチャは複数の層を含み、第2のモデルアーキテクチャは、前記複数の層のうちの少なくとも2つの層を含む、態様61に記載のシステム。
〔態様63〕
前記第1の機械学習ソフトウェアモジュールは、少なくとも10,000のタンパク質特性を含む第1のトレーニングデータセットで前記第1のモデルをトレーニングし、前記第2の機械学習ソフトウェアモジュールは、第2のトレーニングデータセットを使用して前記第2のモデルをトレーニングする、態様44~62のいずれか一態様記載のシステム。
〔態様64〕
所望のタンパク質特性をモデリングする方法であって、
第1のデータセットを用いて第1のシステムをトレーニングすることであって、前記第1のシステムは第1のニューラルネットトランスフォーマエンコーダ及び第1のデコーダを含み、事前トレーニング済みのシステムの前記第1のデコーダは、前記所望のタンパク質特性とは異なる出力を生成するように構成される、トレーニングすることと、
前記事前トレーニング済みシステムの前記第1のトランスフォーマエンコーダの少なくとも一部を第2のシステムに転移することであって、前記第2のシステムは第2のトランスフォーマエンコーダ及び第2のデコーダを含む、転移することと、
第2のデータセットを用いて前記第2のシステムをトレーニングすることであって、前記第2のデータセットは、前記第1のセットよりも少数のタンパク質クラスを表す1組のタンパク質を含み、前記タンパク質クラスは、(a)前記第1のデータセット内のタンパク質のクラス及び(b)前記第1のデータセットから除外されるタンパク質のクラスの1つ又は複数を含む、トレーニングすることと、
前記第2のシステムにより、タンパク質検体の一次アミノ酸配列を解析することであって、それにより、前記タンパク質検体の前記所望のタンパク質特性の予測を生成する、解析することと、
を含む方法。
〔態様65〕
タンパク質検体の前記一次アミノ酸配列は、1つ又は複数のアスパラギナーゼ配列及び対応する活性ラベルである、態様64に記載の方法。
〔態様66〕
前記第1のデータセットは、複数のクラスのタンパク質を含む1組のタンパク質を含む、態様64又は65に記載の方法。
〔態様67〕
前記第2のデータセットは、タンパク質の前記クラスの1つである、態様64~66のいずれか一態様記載の方法。
〔態様68〕
タンパク質の前記クラスの1つは酵素である、態様64~67のいずれか一態様記載の方法。
〔態様69〕
態様64~68のいずれか一態様記載の方法を実行する構成されたシステム。
【0129】
本発明の好ましい態様を本明細書において示し記載したが、そのような態様が単なる例として提供されることが当業者には理解されよう。本発明から逸脱せずに、これより当業者は多くの変形、変更、及び置換を想到しよう。本明細書において記載の本発明の態様への種々の代替が、本発明を実施するに当たり利用し得ることを理解されたい。以下の特許請求の範囲が本発明の範囲を規定し、これらの特許請求の範囲及びそれらの均等物内の方法及び構造が本発明の範囲により包含されることが意図される。態様例が具体的に示され記載されたが、添付の特許請求の範囲により包含される態様の範囲から逸脱せずに、形態及び細部の種々の変更を行い得ることが当業者には理解されよう。
【0130】
本明細書において引用された全ての特許、公開出願、及び引用文献の教示は全体的に、参照により本明細書において組み入れられる。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10A
図10B
図11
図12
図13A
図13B