IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アイバイオ, インク.の特許一覧

特許7579812メソスケールペプチドを操作するための機械学習ベースの装置およびそのための方法およびシステム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-30
(45)【発行日】2024-11-08
(54)【発明の名称】メソスケールペプチドを操作するための機械学習ベースの装置およびそのための方法およびシステム
(51)【国際特許分類】
   G16B 15/00 20190101AFI20241031BHJP
   G16B 40/20 20190101ALI20241031BHJP
   C07K 1/00 20060101ALN20241031BHJP
【FI】
G16B15/00
G16B40/20
C07K1/00
【請求項の数】 11
(21)【出願番号】P 2021571033
(86)(22)【出願日】2020-05-13
(65)【公表番号】
(43)【公表日】2022-08-10
(86)【国際出願番号】 US2020032724
(87)【国際公開番号】W WO2020242766
(87)【国際公開日】2020-12-03
【審査請求日】2023-05-15
(31)【優先権主張番号】62/855,767
(32)【優先日】2019-05-31
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】522441541
【氏名又は名称】アイバイオ, インク.
【氏名又は名称原語表記】iBio, Inc.
(74)【代理人】
【識別番号】100107984
【弁理士】
【氏名又は名称】廣田 雅紀
(74)【代理人】
【識別番号】100182305
【弁理士】
【氏名又は名称】廣田 鉄平
(74)【代理人】
【識別番号】100096482
【弁理士】
【氏名又は名称】東海 裕作
(74)【代理人】
【識別番号】100131093
【弁理士】
【氏名又は名称】堀内 真
(74)【代理人】
【識別番号】100150902
【弁理士】
【氏名又は名称】山内 正子
(74)【代理人】
【識別番号】100141391
【弁理士】
【氏名又は名称】園元 修一
(74)【代理人】
【識別番号】100221958
【弁理士】
【氏名又は名称】篠田 真希恵
(74)【代理人】
【識別番号】100192441
【弁理士】
【氏名又は名称】渡辺 仁
(72)【発明者】
【氏名】グリービング,マシュー ピー
(72)【発明者】
【氏名】タグチ,アレクサンダー ティ
(72)【発明者】
【氏名】ハウザー,ケビン エドゥアルド
【審査官】前田 侑香
(56)【参考文献】
【文献】米国特許出願公開第2013/0090265(US,A1)
【文献】特開2010-113473(JP,A)
【文献】特表2002-536301(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
G16B 5/00-99/00
G16C 10/00-99/00
C07K 1/00
(57)【特許請求の範囲】
【請求項1】
方法であって、
第1の複数のブループリント記録、またはそれらの表現、および第1の複数のスコアに基づいて、機械学習モデルを訓練することであって、前記第1の複数のブループリント記録からの各ブループリント記録が、前記第1の複数のスコアからの各スコアに関連付けられており各ブループリント記録が標的残基位置および足場残基位置を含み、前記標的残基位置および前記足場残基位置の各々が、極性/非極性、疎水性およびサイズから選択される生理化学的特性に基づき固定アミノ酸残基同一性または可変アミノ酸残基同一性に割り当てられる、前記訓練することと、
前記訓練後に、前記機械学習モデルを実行して、少なくとも1つの所望のスコアを有する第2の複数のブループリント記録を生成することと、を含み、
前記第2の複数のブループリント記録が、計算タンパク質モデリングで入力として受信されて、前記第2の複数のブループリント記録に基づいて、操作されたポリペプチドを生成するように構成されており
前記機械学習モデルにより生成された出力が、参照標的構造から導出された1つ以上のエネルギー項およびトポロジカル制約を含み、各操作されたポリペプチドに対してスコアが計算される、前記方法。
【請求項2】
参照標的配列であるアミノ酸配列を有する参照標的に対する参照標的構造の表現を受信することと、
前記参照標的構造の所定の部分から前記第1の複数のブループリント記録を生成することであって、前記第1の複数のブループリント記録からの各ブループリント記録が、標的残基位置および足場残基位置を含み、各標的残基位置が、複数の標的残基からの1つの標的残基に対応し、
少なくとも1つのブループリント記録において、前記標的残基位置が、非連続的であり、
少なくとも1つのブループリント記録において、1つ以上の標的残基位置が、前記参照標的配列中の前記標的残基位置の順序とは異なる順序にある、前記生成することと、
前記第1の複数のブループリント記録からの各ブループリント記録について、
そのブループリント記録上で計算タンパク質モデリングを実施して、ポリペプチド構造を生成すること、
前記ポリペプチド構造のスコアを計算すること、および
前記スコアをそのブループリント記録と関連付けること
により、
前記第1の複数のブループリント記録にラベルを付けることとを含み、
前記計算タンパク質モデリングが、前記参照標的構造とテンプレートを一致させることなく、デノボ設計に基づくか;または
前記第1の複数のスコアからの各スコアが、エネルギー項と、前記参照標的構造の前記表現から抽出された1つ以上の構造制約を使用して決定される、構造制約一致項とを含む、
請求項1に記載の方法。
【請求項3】
前記第2の複数のブループリント記録に対する第2の複数のスコアを計算することによって、前記機械学習モデルを再訓練するかどうかを決定することと、
前記決定することに応答して、(1)前記第2の複数のブループリント記録を含む再訓練ブループリント記録、および(2)前記第2の複数のスコアを含む再訓練スコアに基づいて、前記機械学習モデルを再訓練することと、を含み、任意に、
前記機械学習モデルを前記再訓練することの後に、前記第1の複数のブループリント記録および前記第2の複数のブループリント記録を連結して、前記再訓練ブループリント記録を生成し、前記再訓練スコアを生成することであって、前記再訓練ブループリント記録からの各ブループリント記録が、前記再訓練スコアからのスコアに関連付けられていること、
前記少なくとも1つの所望のスコアが、プリセット値であること、
前記少なくとも1つの所望のスコアが、動的に決定されること、
の少なくとも1つをさらに含み、あるいは
前記機械学習モデルが、教師あり機械学習モデルの場合、
前記教師あり機械学習モデルが、決定木のアンサンブル、ブーストされた決定木アルゴリズム、eXtreme勾配ブースティング(XGBoost)モデル、もしくはランダムフォレストを含むか、
前記教師あり機械学習モデルが、サポートベクトルマシン(SVM)、フィードフォワード機械学習モデル、再帰型ニューラルネットワーク(RNN)、畳み込みニューラルネットワーク(CNN)、グラフニューラルネットワーク(GNN)、もしくはトランスフォーマーニューラルネットワークを含むか、または
前記機械学習モデルが、帰納的機械学習モデルもしくは生成機械学習モデルである、
請求項1に記載の方法。
【請求項4】
前記第2の複数のブループリント記録上で計算タンパク質モデリングを実施して、前記操作されたポリペプチドを生成すること;
前記参照標的構造の前記表現に対する静的構造の比較によって、前記操作されたポリペプチドをフィルタリングすること;
前記参照標的構造および操作されたポリペプチドの各構造の前記表現の分子動力学(MD)シミュレーションを使用する前記参照標的構造の前記表現に対する動的構造の比較によって、前記操作されたポリペプチドをフィルタリングすること;の少なくとも1つを含み、
前記MDシミュレーションが、対称型マルチプロセシング(SMP)を使用して並列して実施されるか、または
前記第2の複数のブループリント記録中のブループリント記録の数が、前記第1の複数のブループリント記録中のブループリント記録の数よりも少ない、請求項2に記載の方法。
【請求項5】
プロセッサによって実行される命令を表すコードを記憶する非一時的プロセッサ可読媒体であって、前記コードが、前記プロセッサに、
第1の複数のブループリント記録、またはそれらの表現、および第1の複数のスコアに基づいて、機械学習モデルを訓練することであって、前記第1の複数のブループリント記録からの各ブループリント記録が、前記第1の複数のスコアからの各スコアに関連付けられており各ブループリント記録が標的残基位置および足場残基位置を含み、かつ極性/非極性、疎水性およびサイズから選択される生理化学的特性に基づき固定アミノ酸残基同一性または可変アミノ酸残基同一性に割り当てられる、前記訓練することと、
前記訓練の後、前記機械学習モデルを実行して、少なくとも1つの所望のスコアを有する第2の複数のブループリント記録を生成することと、を行わせるコードを含み、
前記第2の複数のブループリント記録が、計算タンパク質モデリングで入力として受信されて、前記第2の複数のブループリント記録に基づいて、操作されたポリペプチドを生成するように構成されており
前記機械学習モデルにより生成された出力が、参照標的構造から導出された1つ以上のエネルギー項およびトポロジカル制約を、各操作されたポリペプチドに対して計算されたスコアと共に含む、前記非一時的プロセッサ可読媒体。
【請求項6】
前記プロセッサに、
参照標的配列であるアミノ酸配列を有する参照標的に対する参照標的構造の表現を受信することと、
前記参照標的構造の所定の部分から前記第1の複数のブループリント記録を生成することであって、前記第1の複数のブループリント記録からの各ブループリント記録が、標的残基位置および足場残基位置を含み、複数の標的残基位置からの各標的残基位置が、前記複数の標的残基からの1つの標的残基に対応し、
少なくとも1つのブループリント記録において、前記標的残基位置が、非連続的であり;
少なくとも1つのブループリント記録において、1つ以上の標的残基位置が、前記参照標的配列中の前記標的残基位置の順序とは異なる順序にある、前記生成することと、
前記第1の複数のブループリント記録からの各ブループリント記録について、
そのブループリント記録上で計算タンパク質モデリングを実施して、ポリペプチド構造を生成すること、
前記ポリペプチド構造のスコアを計算すること、および
前記スコアをそのブループリント記録と関連付けること
により、
前記第1の複数のブループリント記録にラベルを付けることと、
を行わせるコードを含み、
前記計算タンパク質モデリングが、前記参照標的構造とテンプレートを一致させることなく、デノボ設計に基づくか、または
前記第1の複数のスコアからの各スコアが、エネルギー項と、前記参照標的構造の前記表現から抽出された1つ以上の構造制約を使用して決定される、構造制約一致項とを含む、
請求項5に記載の媒体。
【請求項7】
前記プロセッサに、
前記第2の複数のブループリント記録に対する第2の複数のスコアを計算することによって、前記機械学習モデルを再訓練するかどうかを決定することと、
前記決定することに応答して、(1)前記第2の複数のブループリント記録を含む再訓練ブループリント記録、および(2)前記第2の複数のスコアを含む再訓練スコアに基づいて、前記機械学習モデルを再訓練することと、を行わせるコードを含み、任意に、
前記機械学習モデルを前記再訓練することの後に、前記第1の複数のブループリント記録および前記第2の複数のブループリント記録を連結して、前記再訓練ブループリント記録を生成し、前記再訓練スコアを生成することであって、前記再訓練ブループリント記録からの各ブループリント記録が、前記再訓練スコアからのスコアに関連付けられていること、
前記少なくとも1つの所望のスコアが、プリセット値であること、
前記少なくとも1つの所望のスコアが、動的に決定されること
の少なくとも1つをさらに含み、あるいは
前記機械学習モデルが、教師あり機械学習モデルの場合、
前記教師あり機械学習モデルが、決定木のアンサンブル、ブーストされた決定木アルゴリズム、eXtreme勾配ブースティング(XGBoost)モデル、もしくはランダムフォレストを含むか、
前記教師あり機械学習モデルが、サポートベクトルマシン(SVM)、フィードフォワード機械学習モデル、再帰型ニューラルネットワーク(RNN)、畳み込みニューラルネットワーク(CNN)、グラフニューラルネットワーク(GNN)、もしくはトランスフォーマーニューラルネットワークを含むか、または
前記機械学習モデルが、帰納的機械学習モデルもしくは生成機械学習モデルである、請求項5に記載の媒体。
【請求項8】
前記プロセッサに、
前記第2の複数のブループリント記録上で計算タンパク質モデリングを実施して、操作されたポリペプチドを生成させること;
参照標的構造の表現に対する静的構造の比較によって、前記操作されたポリペプチドをフィルタリングすること;
前記参照標的構造および操作されたポリペプチドの各構造の前記表現の分子動力学(MD)シミュレーションを使用する前記参照標的構造の前記表現に対する動的構造の比較によって、前記操作されたポリペプチドをフィルタリングすること;または
対称型マルチプロセシング(SMP)を使用して前記MDシミュレーションを並列して実施すること
を行わせるコードを含み、
前記第2の複数のブループリント記録中のブループリント記録の数が、前記第1の複数のブループリント記録中のブループリント記録の数よりも少ない、
請求項5に記載の媒体。
【請求項9】
操作されたポリペプチドを選択する装置であって、
プロセッサと、
第1のコンピューティングデバイスから遠隔の第2のコンピューティングデバイスから、参照標的構造を受信することと、
前記参照標的構造の所定の部分から第1の複数のブループリント記録を生成することであって、前記第1の複数のブループリント記録からの各ブループリント記録が、標的残基位置および足場残基位置を含み、各標的残基位置が、複数の標的残基からの1つの標的残基に対応各ブループリント記録が、極性/非極性、疎水性およびサイズから選択される生理化学的特性に基づき固定アミノ酸残基同一性または可変アミノ酸残基同一性に割り当てられる、前記生成することと、
第1の複数のブループリント記録、またはそれらの表現、および第1の複数のスコアに基づいて、機械学習モデルを訓練することであって、前記第1の複数のブループリント記録からの各ブループリント記録が、前記第1の複数のスコアからの各スコアに関連付けられている、前記訓練することと、
前記訓練の後、前記機械学習モデルを実行して、少なくとも1つの所望のスコアを有する第2の複数のブループリント記録を生成することと
を行うために前記プロセッサによって実行可能な命令を記憶するメモリと
を有する、第1のコンピューティングデバイスを備え、
前記第2の複数のブループリント記録が、計算タンパク質モデリングで入力として受信されて、前記第2の複数のブループリント記録に基づいて、操作されたポリペプチドを生成するように構成されており
前記機械学習モデルにより生成された出力が、参照標的構造から導出された1つ以上のエネルギー項およびトポロジカル制約を、各操作されたポリペプチドに対して計算されたスコアと共に含む、前記装置。
【請求項10】
前記プロセッサに、
前記第2の複数のブループリント記録に対する第2の複数のスコアを計算することによって、前記機械学習モデルを再訓練するかどうかを決定することと、
前記決定することに応答して、(1)前記第2の複数のブループリント記録を含む再訓練ブループリント記録、および(2)前記第2の複数のスコアを含む再訓練スコアに基づいて、前記機械学習モデルを再訓練することと、を行わせるコードを含み、かつ
前記所望のスコアが、プリセット値である、または
前記所望のスコアが、動的に決定される
の少なくとも1つであり、あるいは
前記機械学習モデルが、教師あり機械学習モデルである場合、
前記教師あり機械学習モデルが、決定木のアンサンブル、ブーストされた決定木アルゴリズム、eXtreme勾配ブースティング(XGBoost)モデル、またはランダムフォレストを含み、
前記教師あり機械学習モデルが、サポートベクトルマシン(SVM)、フィードフォワード機械学習モデル、再帰型ニューラルネットワーク(RNN)、畳み込みニューラルネットワーク(CNN)、グラフニューラルネットワーク(GNN)、またはトランスフォーマーニューラルネットワークを含み、
前記機械学習モデルが帰納的機械学習モデルであり、
前記機械学習モデルが生成機械学習モデルである、
請求項9に記載の装置。
【請求項11】
前記プロセッサに、
前記第2の複数のブループリント記録上で計算タンパク質モデリングを実施して、操作されたポリペプチドを生成させること;
参照標的構造の表現に対する静的構造の比較によって、前記操作されたポリペプチドをフィルタリングすること;
参照標的構造および前記操作されたポリペプチドの各構造の前記表現の分子動力学(MD)シミュレーションを使用する前記参照標的構造の前記表現に対する動的構造の比較によって、前記操作されたポリペプチドをフィルタリングすること;または
対称型マルチプロセシング(SMP)を使用して前記MDシミュレーションを並列して実施すること;
の少なくとも1つを行わせるコードを含む、請求項9に記載の装置。
【発明の詳細な説明】
【関連出願の相互参照】
【0001】
本出願は、2019年5月31日に出願され、「Meso-Scale Engineered Peptides and Methods of Selecting」と題する米国特許出願第62/855,767号の優先権および利益を主張するものであり、これは、参照によりその全体が本明細書に組み込まれる。
【技術分野】
【0002】
本開示は、概して、人工知能/機械学習の分野に関し、特に、ペプチドの操作のための機械学習モデルを訓練および使用するための方法ならびに装置に関する。
【背景技術】
【0003】
計算設計(computational design)は、天然タンパク質を模倣する新しい治療用タンパク質の設計に、または病原性抗原からの所望のエピトープ(複数可)を示すワクチンを設計するために使用され得る。また、計算的に設計されたタンパク質を使用して、結合剤を生成または選択してもよい。例えば、抗体のライブラリー(例えば、ファージディスプレイライブラリー)を、設計されたタンパク質ベイトに対してパン(pan)して、そのベイトに結合するクローンを選択することができ、または実験動物を、設計された免疫原で免疫して、新規の抗体を生成することができる。
【0004】
他にもあるが、計算設計のための主要なモデリングプラットフォームは、ロゼッタ(Das and Baker,2008)である。このプラットフォームは、所望の構造に一致するタンパク質の設計に使用され得る。Correia et al.Structure 18:1116-26(2010)は、立体構造安定化および免疫提示のために連続構造エピトープを足場タンパク質に移植する、エピトープ-足場を設計するための一般的な計算方法を開示している。Olek et al.PNAS USA 107:17880-87(2010)は、HIV-1 gp41タンパク質からのエピトープを、選択された受容体足場に移植することを開示している。
【0005】
従来的な計算設計技術は、典型的には、標的タンパク質構造(例えば、エピトープ)の一部分を既存の足場上に移植することに依存する。ロゼッタなどのモデリングプラットフォームは、所与のタンパク質構造を再現するタンパク質の広大なトポロジー空間など、大きなトポロジー空間を適切に探索するには、計算上集約的すぎる。したがって、標的タンパク質構造を模倣するタンパク質の計算設計のための、新しく改善されたデバイスおよび方法に対するニーズがある。
【発明の概要】
【0006】
概して、一部の変形では、装置は、プロセッサによって実行される命令を表すコードを記憶する、非一時的プロセッサ可読媒体を含んでもよい。コードは、プロセッサに、ブループリント記録の第1のセット、またはそれらの表現、およびスコアの第1のセットに基づいて、機械学習モデルを訓練させるコードを含んでもよく、ブループリント記録の第1のセットからの各ブループリント記録は、スコアの第1のセットからの各スコアに関連付けられている。媒体は、訓練後に、機械学習モデルを実行して、少なくとも1つの所望のスコアを有するブループリント記録の第2のセットを生成するためのコードを含んでもよい。ブループリント記録の第2のセットは、計算タンパク質モデリングで入力として受信されて、ブループリント記録の第2のセットに基づいて、操作されたポリペプチドを生成するように構成されてもよい。
【0007】
媒体は、プロセッサに参照標的構造を受信させるためのコードを含んでもよい。媒体は、プロセッサに、参照標的構造の所定の部分からブループリント記録の第1のセットを生成させるコードを含んでもよく、ブループリント記録の第1のセットからの各ブループリント記録は、標的残基位置および足場残基位置を含み、標的残基のセットからの各標的残基位置は、標的残基のセットからの1つの標的残基に対応する。一部の変形では、少なくとも1つのブループリント記録において、標的残基位置は、非連続的である。一部の変形では、少なくとも1つのブループリント記録において、標的残基位置は、参照標的配列中の標的残基位置の順序とは異なる順序にある。
【0008】
媒体は、各ブループリント記録上で計算タンパク質モデリングを実施してポリペプチド構造を生成することと、ポリペプチド構造のスコアを計算することと、スコアをブループリント記録と関連付けることと、によって、プロセッサにブループリント記録の第1のセットにラベルを付けさせるコードを含んでもよい。一部の変形では、計算タンパク質モデリングは、参照標的構造とテンプレートを一致させることなく、デノボ設計に基づいてもよい。一部の変形では、各スコアは、エネルギー項と、参照標的構造の表現から抽出された1つ以上の構造制約を使用して決定され得る、構造制約一致項と、を含む。
【0009】
媒体は、プロセッサに、ブループリント記録の第2のセットに対するスコアの第2のセットを計算することによって、機械学習モデルを再訓練するかどうかを決定させるコードを含んでもよい。媒体は、決定することに応答して、(1)ブループリント記録の第2のセットを含む再訓練ブループリント記録、および(2)スコアの第2のセットを含む再訓練スコアに基づいて、機械学習モデルを再訓練するためのさらなるコードを含んでもよい。
【0010】
媒体は、プロセッサに、機械学習モデルを再訓練することの後に、ブループリント記録の第1のセットおよびブループリント記録の第2のセットを連結して、ブループリント記録の再訓練を生成させ、再訓練スコアを生成させるコードを含んでもよく、ブループリント記録の再訓練からの各ブループリント記録は、再訓練スコアからのスコアに関連付けられている。一部の変形では、少なくとも1つの所望のスコアは、プリセット値であってもよい。一部の変形では、少なくとも1つの所望のスコアは、動的に決定されてもよい。
【0011】
一部の変形では、機械学習モデルは、教師あり機械学習モデルであってもよい。教師あり機械学習モデルは、決定木のアンサンブル、ブーストされた決定木アルゴリズム、eXtreme勾配ブースティング(XGBoost)モデル、またはランダムフォレストを含んでもよい。一部の変形では、教師あり機械学習モデルは、サポートベクトルマシン(SVM)、フィードフォワード機械学習モデル、再帰型ニューラルネットワーク(RNN)、畳み込みニューラルネットワーク(CNN)、グラフニューラルネットワーク(GNN)、またはトランスフォーマーニューラルネットワークを含んでもよい。
【0012】
一部の変形では、機械学習モデルは、帰納的機械学習モデルを含んでもよい。一部の変形では、機械学習モデルは、生成機械学習モデルを含んでもよい。
【0013】
媒体は、プロセッサに、ブループリント記録の第2のセット上で計算タンパク質モデリングを実施して、操作されたポリペプチドを生成させるコードを含んでもよい。
【0014】
媒体は、プロセッサに、参照標的構造の表現に対する静的構造の比較によって、操作されたポリペプチドをフィルタリングさせるコードを含んでもよい。
【0015】
媒体は、プロセッサに、参照標的構造および操作されたポリペプチドの各々の表現の分子動力学(MD)シミュレーションを使用する参照標的構造の表現に対する動的構造の比較によって、操作されたポリペプチドをフィルタリングさせるコードを含んでもよい。一部の変形では、MDシミュレーションは、対称型マルチプロセシング(SMP)を使用して並列して実施される。
【図面の簡単な説明】
【0016】
図1】例示的な操作されたポリペプチド設計デバイスの概略図である。
図2】操作されたポリペプチド設計のための例示的な機械学習モデルの概略図である。
図3】操作されたポリペプチド設計の例示的な方法の概略図である。
図4】操作されたポリペプチド設計の例示的な方法の概略図である。
図5】操作されたポリペプチド設計デバイスのためのデータを準備する例示的な方法の概略図である。
図6】操作されたポリペプチド設計の例示的な方法の概略図である。
図7】操作されたポリペプチド設計のための機械学習モデルの例示的な性能の概略図である。
図8】操作されたポリペプチド設計のための機械学習モデルを使用する例示的な方法の概略図である。
図9】操作されたポリペプチド設計のための機械学習モデルの例示的な性能の概略図である。
図10A】操作されたポリペプチドを検証するために分子動力学シミュレーションを実施する例示的な方法を示している。
図10B】操作されたポリペプチドを検証するために分子動力学シミュレーションを実施する例示的な方法を示している。
図10C】操作されたポリペプチドを検証するために分子動力学シミュレーションを実施する例示的な方法を示している。
図10D】操作されたポリペプチドを検証するために分子動力学シミュレーションを実施する例示的な方法を示している。
図11】操作されたポリペプチドを検証するために分子動力学シミュレーションを実施する例示的な方法を示している。
図12】分子動力学シミュレーションを並列化する例示的な方法の概略図である。
図13】操作されたポリペプチド設計のための機械学習モデルを検証する例示的な方法の概略図である。
【発明を実施するための形態】
【0017】
本発明の様々な態様および変形の非限定的な例を本明細書に記載し、添付図面に示す。
【0018】
本明細書では、操作されたポリペプチドを設計する方法、およびその操作されたペプチドを含む組成物およびその操作されたペプチドを使用する方法が提供されている。例えば、本明細書では、抗体のインビトロ選択において操作されたペプチドを使用する方法が提供されている。いくつかの態様では、ユーザ(またはプログラム)は、既知の構造を有する標的タンパク質を選択し、操作されたポリペプチドの設計のための入力として標的タンパク質の一部分を識別してもよい。標的タンパク質は、病原性生物由来の抗原(または推定抗原)、疾患に関連付けられた細胞機能に関与するタンパク質、酵素、シグナル伝達分子、またはタンパク質の一部分を再現する操作されたポリペプチドが望ましい任意のタンパク質であってもよい。操作されたポリペプチドは、抗体の発見、ワクチン接種、診断、治療、バイオ製造、または他の用途の方法での使用を意図されてもよい。「標的タンパク質」は、変形において、多量体タンパク質複合体などの2つ以上のタンパク質であってもよい。簡略化のために、本開示は、標的タンパク質を指すが、本方法は、多量体構造にも適用される。変形では、標的タンパク質は、2つ以上の別個のタンパク質またはタンパク質複合体である。例えば、本明細書に開示される方法は、例えば、抗体選択のために保存されたエピトープを標的にするために、多様な種由来のタンパク質の共通属性を模倣する操作されたペプチドを設計するために使用され得る。
【0019】
タンパク質のトポロジーの計算記録が導出され、本明細書では「参照標的構造」と呼ばれる。参照標的構造は、例えば、タンパク質中のすべての(またはほとんどの)原子の3D座標、または選択された原子の3D座標(例えば、各タンパク質残基のCβ原子の座標)によって表される従来的なタンパク質構造または構造モデルであってもよい。任意で、参照標的構造は、計算的に(例えば、分子動力学シミュレーションから)または実験的に(例えば、分光法、結晶学、または電子顕微鏡から)導出される動的項を含んでもよい。
【0020】
標的タンパク質の所定の部分は、標的残基位置および足場残基位置を有するブループリントに変換される。各位置は、固定アミノ酸残基同一性または可変同一性(例えば、任意のアミノ酸、または所望の物理化学的特性-極性/非極性、疎水性、サイズなどを有するアミノ酸)のいずれかに割り当てられてもよい。変形では、標的タンパク質の所定の部分由来の各アミノ酸は、標的タンパク質中に存在するのと同じアミノ酸同一性を有するように割り当てられている1つの標的-残基位置にマッピングされる。標的-残基位置は、連続的であってもよく、かつ/または順序付けられてもよい。しかしながら、いくつかの変形では、利点は、標的-残基位置が非連続的(足場-残基位置によって中断される)であり、(標的タンパク質とは異なる順序で)順序付けされ得なないことである。移植アプローチとは異なり、一部の変形では、残基の順序は制約されない。同様に、本開示の方法は、標的タンパク質の不連続部分(例えば、同じタンパク質の異なる部分または異なるタンパク質鎖でさえ1つのエピトープに寄与する不連続エピトープ)に適応することができる。
【0021】
ブループリントの足場-残基位置は、その位置に任意のアミノ酸を有するように割り当てられてもよい(すなわち、任意のアミノ酸を表すX)。変形では、足場-残基位置は、可能性のある天然アミノ酸または非天然アミノ酸のサブセット(例えば、小極性アミノ酸残基、大疎水性アミノ酸残基など)から選択することによって割り当てられる。ブループリントはまた、任意の標的残基位置および/または足場残基位置に適応してもよい。同様に、ブループリントは、残基位置の挿入または欠失を許容し得る。例えば、標的残基位置または足場残基位置は、存在するか存在しないかを割り当てられてもよく、またはその位置は、0、1、2、3、4、5、6、7、8、9、10、またはそれ以上の残基であると割り当てられてもよい。
【0022】
次いで、ブループリントのサブセットを使用して、計算モデリングを実施して、例えば、各ポリペプチド構造に対して計算されたスコアを用いて、参照標的構造から導出されたエネルギー項およびトポロジカル制約を使用して、対応するポリペプチド構造を生成することができる。機械学習(ML)モデルは、スコアおよびブループリント、またはブループリントの表現(例えば、ブループリントを表すベクトル)を使用して訓練されてもよく、さらにブループリントを生成するために、MLモデルを実行してもよい。この方法の利点は、多くのブループリントの反復計算モデリングによって探索できるよりも、はるかに多くのブループリントによってカバーされるトポロジカル空間を、MLモデルによって探索することができることである。
【0023】
本開示は、出力ブループリントを操作されたポリペプチドの配列および/または構造に変換し、これらの操作されたポリペプチドを、静的比較、動的比較、またはその両方を使用して標的タンパク質と比較して、これらの比較を使用してポリペプチドをフィルタリングするための方法および関連するデバイスをさらに提供する。
【0024】
方法および装置が、ブループリント記録のセット、スコアのセット、エネルギー項のセット、分子動力学エネルギーのセット、エネルギー項のセット、またはエネルギー機能のセットからのデータを処理するものとして本明細書に説明されているが、一部の実例では、図1に関して示され、かつ説明されるように操作されたポリペプチド設計デバイス101を使用して、ブループリント記録のセット、スコアのセット、エネルギー項のセット、分子動力学エネルギーのセット、またはエネルギー機能のセットを生成することができる。したがって、操作されたポリペプチド設計デバイス101は、データ、イベント、および/または物体の任意の収集またはストリームを生成または処理するために使用され得る。例えば、操作されたポリペプチド設計デバイス101は、任意の文字列、番号、名前、画像、ビデオ、実行可能ファイル、データセット、スプレッドシート、データファイル、ブループリントファイル、および/または同種のものを処理および/または生成し得る。さらなる実施例について、操作されたポリペプチド設計デバイス101は、任意のソフトウェアコード、ウェブページ、データファイル、モデルファイル、ソースファイル、スクリプト、および/または同種のものを処理および/または生成し得る。別の実施例として、操作されたポリペプチド設計デバイス101は、データストリーム、画像データストリーム、テキストデータストリーム、数値データストリーム、コンピュータ支援設計(CAD)ファイルストリーム、および/または同種のものを処理および/または生成し得る。
【0025】
図1は、例示的な操作されたポリペプチド設計デバイス101の概略図である。操作されたポリペプチド設計デバイスは、操作されたポリペプチド設計のセットを生成するために使用され得る。操作されたポリペプチド設計デバイス101は、メモリ102、通信インターフェース103、およびプロセッサ104を含む。操作されたポリペプチド設計デバイス101は、ネットワーク150を介して、バックエンドサービスプラットフォーム160に、(介在する構成要素なしで)任意に接続されてもよく、または(介在する構成要素で、または介在する構成要素なしで)結合されてもよい。操作されたポリペプチド設計デバイス101は、例えば、デスクトップコンピュータ、サーバーコンピュータ、メインフレームコンピュータ、量子コンピューティングデバイス、並列コンピューティングデバイス、デスクトップコンピュータ、ラップトップコンピュータ、スマートフォンデバイスのアンサンブル、および/または同種のものなどの、ハードウェアベースのコンピューティングデバイスであってもよい。
【0026】
操作されたポリペプチド設計デバイス101のメモリ102は、例えば、メモリバッファ、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROM)、組み込みマルチタイムプログラマブル(MTP)メモリ、組み込みマルチメディアカード(eMMC)、ユニバーサルフラッシュストレージ(UFS)デバイス、および/または同種のものを含んでもよい。メモリ102は、例えば、操作されたポリペプチド設計デバイス101のプロセッサ104に、1つ以上のプロセスまたは機能(例えば、データ準備モジュール105、計算タンパク質モデリングモジュール106、機械学習モデル107、および/または分子動力学シミュレーションモジュール108)を実施させる命令を含む、1つ以上のソフトウェアモジュールおよび/またはコードを記憶してもよい。メモリ102は、操作されたポリペプチド設計デバイス101の動作中に機械学習モデル107によって生成されるデータを含む、機械学習モデル107に関連付けられた(例えば、実行することによって生成される)ファイルのセットを記憶してもよい。一部の実例では、機械学習モデル107に関連付けられたファイルセットは、操作されたポリペプチド設計デバイス101の動作中に生成される、一時変数、返却メモリアドレス、変数、機械学習モデル107のグラフ(例えば、機械学習モデル107によって使用される算術演算のセット、または算術演算のセットの表現)、グラフのメタデータ、アセット(例えば、外部ファイル)、電子署名(例えば、エクスポートされる機械学習モデル107のタイプ、および入力/出力テンソルの指定)および/または同種のものを含んでもよい。
【0027】
操作されたポリペプチド設計デバイス101の通信インターフェース103は、プロセッサ104および/またはメモリ102に動作可能に結合され、かつそれらによって使用される、操作されたポリペプチド設計デバイス101のハードウェア構成要素であってもよい。通信インターフェース103は、例えば、ネットワークインターフェースカード(NIC)、Wi-FiTMモジュール、Bluetooth(登録商標)モジュール、光通信モジュール、ならびに/またはその他の任意の適切な有線および/もしくは無線通信インターフェースを含んでもよい。通信インターフェース103は、本明細書でさらに詳細に説明するように、操作されたポリペプチド設計デバイス101をネットワーク150に接続するように構成されてもよい。一部の実例では、通信インターフェース103は、ネットワーク150を介してデータを受信または送信することを容易にし得る。より具体的には、一部の実装では、通信インターフェース103は、例えば、ブループリント記録のセット、スコアのセット、エネルギー項のセット、分子動力学エネルギーのセット、エネルギー項のセット、またはエネルギー関数のセットなどのデータを、ネットワーク150を通して、バックエンドサービスプラットフォーム160から、またはそれに受信または送信することを容易にし得る。一部の実例では、通信インターフェース103を介して受信されたデータは、本明細書でさらに詳細に説明するように、プロセッサ104によって処理されてもよく、またはメモリ102に記憶されてもよい。
【0028】
プロセッサ104は、例えば、ハードウェアベースの集積回路(IC)、または命令もしくはコードのセットを実施および/もしくは実行するように構成された任意の他の適切な処理デバイスを含んでもよい。例えば、プロセッサ104は、汎用プロセッサ、中央プロセシングユニット(CPU)、グラフィカルプロセシングユニット(GPU)、テンソルプロセシングユニット(TPU)、加速プロセシングユニット(APU)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、プログラマブル論理アレイ(PLA)、複合プログラマブル論理デバイス(CPLD)、プログラマブル論理コントローラ(PLC)、および/または同種のものであってもよい。プロセッサ104は、システムバス(例えば、アドレスバス、データバスおよび/または制御バス)を介してメモリ102に動作可能に結合される。
【0029】
プロセッサ104は、データ準備モジュール105、計算タンパク質モデリングモジュール106、および機械学習モデル107を含んでもよい。プロセッサ104は、随意に分子動力学シミュレーションモジュール108を含んでもよい。データ準備モジュール105、計算タンパク質モデリングモジュール106、機械学習モデル107、または分子動力学シミュレーションモジュール108の各々は、メモリ102に記憶され、プロセッサ104によって実行されるソフトウェアであってもよい。例えば、機械学習モデル107に、ブループリント記録のセットを生成させるコードが、メモリ102に記憶され、プロセッサ104によって実行されてもよい。同様に、データ準備モジュール105、計算タンパク質モデリングモジュール106、機械学習モデル107、または分子動力学シミュレーションモジュール108の各々は、ハードウェアベースのデバイスであってもよい。例えば、機械学習モデル107に、ブループリント記録のセットを生成させるプロセスは、個々の集積回路(IC)チップ上に実装されてもよい。
【0030】
データ準備モジュール105は、参照標的に対する参照標的構造を受信することを含む、データのセットを(例えば、メモリ102またはバックエンドサービスプラットフォーム160から)受信するように構成されてもよい。データ準備モジュール105は、参照標的構造の所定の部分から、ブループリント記録のセット(例えば、英数字データのテーブルに符号化されたブループリントファイル)を生成するようにさらに構成されてもよい。一部の実例では、ブループリント記録のセットからの各ブループリント記録は、標的残基位置および足場残基位置を含んでもよく、各標的残基位置は、標的残基のセットからの1つの標的残基に対応する。
【0031】
一部の実例では、データ準備モジュール105は、参照標的構造のブループリントをブループリント記録に符号化するようにさらに構成されてもよい。データ準備モジュール105は、機械学習モデルでの使用に一般的に適したブループリント記録の表現に、ブループリント記録をさらに変換してもよい。一部の実例では、表現は、数値の1次元ベクトル、英数字データの2次元行列、正規化された数値の3次元テンソルであってもよい。より具体的には、一部の実例では、表現は、介在する足場残基位置の数の順序付けられたリストのベクトルである。標的-残基の順序が標的構造から推測され得るため、このような表現が使用されてもよく、それゆえ、表現は、標的-残基位置のアミノ酸同一性を特定する必要はない。こうした表示の一例を、図6に関してさらに説明する。
【0032】
一部の実例では、データ準備モジュール105は、ブループリント記録のセット、スコアのセット、エネルギー項のセット、分子動力学エネルギーのセット、エネルギー項のセット、および/またはエネルギー関数のセットを生成および/または処理し得る。データ準備モジュール105は、ブループリント記録のセット、スコアのセット、エネルギー項のセット、分子動力学エネルギーのセット、エネルギー項のセット、またはエネルギー関数のセットから情報を抽出するように構成されてもよい。
【0033】
一部の実例では、データ準備モジュール105は、ブループリント記録のセットの符号化を、例えば、ASCII、UTF-8、UTF-16、Guobiao、Big5、Unicode、または任意の他の適切な文字符号化などの共通文字符号化を有するように変換してもよい。さらに他のいくつかの実例では、データ準備モジュール105は、例えば、ブループリント記録の一部分またはポリペプチドの操作に重要なブループリント記録の表示を特定することによって、ブループリント記録の特徴および/またはブループリント記録の表現を抽出するようにさらに構成されてもよい。一部の実例では、データ準備モジュール105は、ブループリント記録のセット、スコアのセット、エネルギー項のセット、分子動力学エネルギーのセット、エネルギー項のセット、または例えば、マイル、フィート、インチ、および/もしくは同様のものなどの英単位からのエネルギー関数のセットの単位を、例えば、キロメートル、メートル、センチメートルおよび/または同様のものなどの単位の国際システム(SI)に変換してもよい。
【0034】
計算タンパク質モデリングモジュール106は、参照標的構造の所定の部分から、本明細書に説明される計算最適化プロセスの開始テンプレートとして役立ち得る、ブループリント記録の初期候補のセットを生成するように構成されてもよい。一実施例では、計算タンパク質モデリングモジュール106は、ロゼッタリモデラーとすることができる。本方法の変形は、分子動力学シミュレーション、ab initio断片アセンブリ、Monte Carlo断片アセンブリ、AlphaFoldもしくはtrRosettaなどの機械学習の構造予測、構造的知識ベースに裏打ちされたタンパク質フォールディング、ニューラルネットワークタンパク質フォールディング、系列ベースの再帰的もしくはトランスフォーマーネットワークタンパク質フォールディング、敵対的ネットワークタンパク質構造の生成、Markov Chain Monte Carloタンパク質フォールディング、および/または同種のものを含むが、これらに限定されない他のモデリングアルゴリズムを採用している。ロゼッタリモデラーを使用して生成された初期候補構造を、機械学習モデル107の訓練セットとして使用してもよい。計算タンパク質モデリングモジュール106は、ブループリント記録の初期候補から各ブループリントに対するエネルギー項を、計算的にさらに決定することができる。次に、データ準備モジュール105は、エネルギー項からスコアを生成するように構成されてもよい。一実施例では、スコアは、エネルギー項の正規化された値とすることができる。正規化された値は、0~1の数字、-1~-1の数字、0~100の正規化された値、または任意の他の数値範囲とすることができる。一部の変形では、計算タンパク質モデリングモジュール106は、参照標的構造とテンプレートを一致させることなく、または弱い距離制限(weak distance restraints)に基づいて、デノボ設計に基づいてもよく、ここで、例えば、標的残基間の距離は、標的構造中の標的-残基間の距離の1オングストローム以内になるように制約される。弱い距離制限は、距離制限の周りの変動ノイズ分布(例えば、特定の平均および距離制限の周りの特定の分散を有するガウスノイズ)を可能にする制限を含んでもよい。一部の変形では、計算タンパク質モデリングモジュール106は、任意の距離制限に変動ノイズを平滑化または追加することによって、および/または距離制限が満たされない場合に計算タンパク質モデルが厳しく罰則化されにくいように計算タンパク質モデルの目的関数を定義することによって使用され得る。さらに、一部の実例では、計算タンパク質モデリングモジュール106は、エネルギー項のスムージングされたラベルを使用し得る。この方法の利点は、エネルギー項ラベルをスムージングすることによって、機械学習モデル107が、探索されるブループリントによってカバーされるトポロジカル空間をより簡単に最適化できることである。
【0035】
機械学習モデル107は、ブループリント記録の初期候補のセットと比較して、改善されたブループリント記録を生成するために使用され得る。機械学習モデル107は、計算タンパク質モデリングモジュール106によって計算される、ブループリント記録の初期候補のセットおよびスコアのセットを受信するように構成された、教師あり機械学習モデルとすることができる。スコアのセットからの各スコアは、ブループリント記録の初期候補のセットからのブループリント記録に対応する。プロセッサ104は、各対応するスコアおよびブループリント記録を関連付けて、ラベルを付けされた訓練データのセットを生成するように構成されてもよい。
【0036】
一部の実例では、機械学習モデル107は、帰納的機械学習モデルおよび/または生成機械学習モデルを含んでもよい。機械学習モデルは、ブーストされた決定木アルゴリズム、決定木のアンサンブル、eXtreme勾配ブースティング(XGBoost)モデル、ランダムフォレスト、サポートベクトルマシン(SVM)、フィードフォワード機械学習モデル、再帰型ニューラルネットワーク(RNN)、畳み込みニューラルネットワーク(CNN)、グラフニューラルネットワーク(GNN)、敵対的ネットワークモデル、インスタンスベースの訓練モデル、トランスフォーマーニューラルネットワーク、および/または同種のものを含んでもよい。機械学習モデル107は、訓練されると、帰納モードで実行されて、ブループリント記録からスコアを生成することができ、または生成モードで実行されて、スコアからブループリント記録を生成することができる、重みのセット、バイアスのセット、および/またはアクティベーション機能のセットを含む、モデルパラメータのセットを含むように構成されてもよい。
【0037】
一実施例では、機械学習モデル107は、入力層、出力層、および複数の隠れ層(例えば、5層、10層、20層、50層、100層、200層など)を含む、深層学習モデルとすることができる。複数の隠れ層は、正規化層、全結合層、アクティベーション層、畳み込み層、再帰層、および/またはブループリント記録のセットとスコアのセットとの間の相関を表すのに好適である任意の他の層を含んでもよく、各スコアは、エネルギー項を表す。
【0038】
一実施例では、機械学習モデル107は、例えば、XGBoostモデル内のブーストラウンドまたは木の数、XGBoostモデルの木のルートから木の葉までの最大許容ノード数を定義する最大深さ、および/または同種のものなどの一連のハイパーパラメータを含む、XGBoostモデルとすることができる。XGBoostモデルは、木のセット、ノードのセット、重みのセット、バイアスのセット、およびXGBoostモデルを説明するのに有用な他のパラメータを含んでもよい。
【0039】
一部の実装では、機械学習モデル107(例えば、深層学習モデル、XGBoostモデル、および/または同種のもの)は、ブループリント記録のセットから各ブループリント記録を繰り返し受信し、出力を生成するように構成されてもよい。ブループリント記録のセットからの各ブループリント記録は、スコアのセットからの1つのスコアに関連付けられている。出力とスコアは、第1の訓練損失値を生成するために、目的関数(コスト関数とも呼ばれる)を使用して比較されてもよい。目的関数は、例えば、平均二乗誤差、平均絶対誤差、平均絶対誤差率、ログコッシュ(lоgcоsh)、カテゴリー交差エントロピー、および/または同種のものを含んでもよい。モデルパラメータのセットは、複数の反復で変更されてもよく、第1の目的関数は、第1の訓練損失値が第1の所定の訓練閾値(例えば、80%、85%、90%、97%など)に収束するまで、各反復で実行されてもよい。
【0040】
一部の実装では、機械学習モデル107は、スコアのセットから各スコアを繰り返し受信し、出力を生成するように構成されてもよい。ブループリント記録のセットからの各ブループリント記録は、スコアのセットからの1つのスコアに関連付けられている。出力とブループリント記録は、第2の訓練損失値を生成するために、目的関数を使用して比較されてもよい。モデルパラメータのセットは、複数の反復で変更されてもよく、第1の目的関数は、第2の訓練損失値が第2の所定の訓練閾値に収束するまで、複数の反復の各反復で実行されてもよい。
【0041】
訓練されると、機械学習モデル107を実行して、改善されたブループリント記録のセットを生成することができる。改善されたブループリント記録のセットは、ブループリント記録の初期候補のセットよりも高いスコアを有すると予想され得る。一部の実例では、機械学習モデル107は、ブループリント記録の第1のセットの設計空間とスコアの第1のセット(例えば、エネルギー項に対応する)との相関を表すために、スコアの第1のセット(例えば、ブループリント記録のセットからのブループリント記録のロゼッタエネルギーに対応するエネルギー項を有する各スコア)に対応するブループリント記録の第1のセット(例えば、ロゼッタリモデラーを使用して生成される)で訓練される、生成機械学習モデルであり得る。訓練されると、機械学習モデル107は、ブループリント記録に関連付けられたスコアの第2のセットを有する、ブループリント記録の第2のセットを生成する。一部の実装では、計算タンパク質モデリングモジュール106を使用して、ブループリント記録の第2のセットに対するエネルギー項のセットを計算することによって、ブループリント記録の第2のセットおよびスコアの第2のセットを検証することができる。エネルギー項のセットは、ブループリント記録の第2のセットに対するグランドトゥルーススコアのセットを生成するために使用され得る。ブループリント記録のサブセットは、ブループリント記録のサブセットからの各ブループリント記録が閾値を超えるグランドトゥルーススコアを有するように、ブループリント記録の第2のセットから選択されてもよい。一部の実例では、閾値は、例えば、操作されたポリペプチド設計デバイス101のユーザによって予め決められた数であってもよい。一部の他の実例では、閾値は、グランドトゥルーススコアのセットに基づいて動的に決定される数であってもよい。
【0042】
任意に、機械学習モデル107が実行されて、ブループリント記録の第2のセットを生成した後、分子動力学シミュレーションモジュール108を使用して、機械学習モデル107の出力を検証することができる。操作されたポリペプチド設計デバイス101は、ブループリント記録の第2のセットに基づいて操作されたポリペプチドを生成し、参照標的構造および操作されたポリペプチドの構造の各々の表現の分子動力学(MD)シミュレーションを使用する参照標的構造の表現に対する動的構造の比較を実行することによって、第2のブループリント記録のサブセットをフィルタリングしてもよい。例えば、分子動力学シミュレーションモジュール108は、操作されたポリペプチドの数個(例えば、10ヒット未満である)を選択してもよい(これは、ブループリント記録の第2のセットに基づく)。一部の実例では、MDシミュレーションは、境界条件、拘束、および/または平衡下で実施されてもよい。一部の実例では、MDシミュレーションは、モデル準備のステップ、平衡化(例えば、100K~300Kの温度)のステップ、力場パラメータおよび/または溶媒モデルパラメータを、参照標的構造および操作されたポリペプチドの各構造の表現に適用するステップを含み、溶液条件下で実施されてもよい。一部の実例では、MDシミュレーションは、拘束された最小化(例えば、構造上の衝突を緩和する)、拘束された加熱(例えば、100ピコ秒の抑制された加熱および周囲温度への段階的な増加)、緩和された拘束(例えば、100ピコ秒の抑制を緩め、および骨格拘束を段階的に除去する)、および/または同種のものを受けることができる。
【0043】
一部の実装では、機械学習モデル107は、帰納的機械学習モデルである。訓練されると、こうした機械学習モデル107は、例えば、ブループリントのスコアを計算するための数値法(例えば、計算タンパク質モデリングモジュール、密度関数理論に基づく分子動力学エネルギーシミュレーター、および/または同種のもの)によって、ブループリント記録に基づくスコアを、通常かかる時間のごく一部の時間で予測し得る。したがって、機械学習モデル107を使用して、ブループリント記録のセットのスコアのセットを迅速に推定し、最適化アルゴリズムの最適化速度(例えば、50%高速、2倍高速、10倍高速、100倍高速、1000倍高速、1,000,000倍高速、1,000,000,000倍高速、および/または同種のもの)を大幅に改善することができる。一部の実装では、機械学習モデル107は、ブループリント記録の第1のセットに対するスコアの第1のセットを生成し得る。操作されたポリペプチド設計デバイス101のプロセッサ104は、命令のセットを表すコードを実行して、(例えば、スコアの第1のセットの上位10%を有する、例えば、スコアの第1のセットの上位2%を有する、および/または同種のものを有する)ブループリント記録の第1のセットの上位のパフォーマーを選択してもよい。プロセッサ104は、ブループリント記録の第1のセットの中で、上位のパフォーマーのスコアを検証するコードをさらに含んでもよい。一部の変形では、対応する検証されたスコアが、スコアの第1のセットのいずれかよりも大きい値を有する場合、ブループリント記録の第1のセットの中での上位のパフォーマーを出力として生成することができる。一部の変形では、機械学習モデル107は、ブループリント記録の第2のセット、およびブループリント記録を含むスコアの第2のセット、および上位のパフォーマーのスコアを含む、新しいデータセットに基づいて再訓練され得る。
【0044】
ネットワーク150は、サーバーおよび/またはコンピューティングデバイスのデジタル通信ネットワークとすることができる。ネットワーク上のサーバーおよび/またはコンピューティングデバイスは、例えば、データストレージまたはコンピューティングパワーなどのリソースを共有するために、1つ以上の有線または無線通信ネットワーク(図示せず)を介して接続されてもよい。ネットワークのサーバーおよび/またはコンピューティングデバイス間の有線または無線通信ネットワークは、1つ以上の通信チャネル(例えば、無線周波数(RF)通信チャネル、光ファイバー通信チャネル、および/または同種のもの)を含んでもよい。ネットワークは、例えば、インターネット、イントラネット、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、メトロポリタンエリアネットワーク(MAN)、マイクロ波アクセスネットワークのための世界的な相互運用性(WiMAX(登録商標))、仮想ネットワーク、任意のその他の適切な通信システム、および/またはこうしたネットワークの組み合わせとすることができる。
【0045】
バックエンドサービスプラットフォーム160は、例えば、インターネットなどのサーバーおよび/またはコンピューティングデバイスのデジタル通信ネットワークに、および/またはデジタル通信ネットワーク内に動作可能に結合されたコンピューティングデバイス(例えば、サーバー)であってもよい。一部の変形では、バックエンドサービスプラットフォーム160は、例えば、サービスとしてのソフトウェア(SaaS)、サービスとしてのプラットフォーム(PaaS)、サービスとしてのインフラストラクチュア(IaaS)、および/または同種のものなどのクラウドベースのサービスを含んでもよく、および/または実行してもよい。一実施例では、バックエンドサービスプラットフォーム160は、タンパク質構造、ブループリント記録、ロゼッタエネルギー、分子動力学エネルギー、および/または同種のものを含む大量のデータを記憶するためのデータストレージを提供することができる。別の実施例では、バックエンドサービスプラットフォーム160は、計算タンパク質モデリング、分子動力学シミュレーション、訓練機械学習モデル、および/または同種のもののセットを実行するための高速コンピューティングを提供することができる。
【0046】
一部の変形では、本明細書に記載の計算タンパク質モジュール106の手順は、クラウドコンピューティングサービスを提供するバックエンドサービスプラットフォーム160で実行されてもよい。こうした変形では、操作されたポリペプチド設計デバイス101は、通信インターフェース103を使用して、信号をバックエンドサービスプラットフォーム160に送信して、ブループリント記録のセットを生成するように構成されてもよい。バックエンドサービスプラットフォーム160は、ブループリント記録のセットを生成する計算タンパク質モデリングプロセスを実行することができる。次いで、バックエンドサービスプラットフォーム160は、ネットワーク150を介して、ブループリント記録のセットを操作されたポリペプチド設計デバイス101に送信することができる。
【0047】
一部の変形では、操作されたポリペプチド設計デバイス101は、機械学習モデル107を含むファイルを、操作されたポリペプチド設計デバイス101から遠隔のユーザコンピューティングデバイス(図示せず)に送信することができる。ユーザコンピューティングデバイスは、設計基準を満たす(例えば、所望のスコアを有する)、ブループリント記録のセットを生成するように構成されてもよい。一部の変形では、ユーザコンピューティングデバイスは、操作されたポリペプチド設計デバイス101から、参照標的構造を受信する。ユーザコンピューティングデバイスは、各ブループリント記録が標的残基位置および足場残基位置を含むように、参照標的構造の所定の部分からブループリント記録の第1のセットを生成し得る。各標的残基位置は、標的残基のセットからの1つの標的残基に対応する。ユーザコンピューティングデバイスは、ブループリント記録の第1のセット、またはその表現、および第1のセットのスコアに基づいて、機械学習モデルをさらに訓練することができる。ユーザコンピューティングデバイスは、訓練後に、機械学習モデルを実行して、少なくとも1つの所望のスコアを有する(例えば、特定の設計基準を満たす)ブループリント記録の第2のセットを生成してもよい。ブループリント記録の第2のセットは、計算タンパク質モデリングで入力として受信されて、ブループリント記録の第2のセットに基づいて、操作されたポリペプチドを生成してもよい。
【0048】
図2は、操作されたポリペプチド設計についての例示的な機械学習モデル202(図1に関して説明され、かつ示されたような機械学習モデル107と同様である)の概略図である。機械学習モデル202は、ブループリント記録の設計空間を、それらのブループリント記録に基づいて構築されたポリペプチドのエネルギー項に対応するスコアと相関させる、教師あり機械学習モデルであってもよい。機械学習モデルは、生成動作モードおよび/または帰納動作モードを有してもよい。
【0049】
生成動作モードでは、機械学習モデル202は、ブループリント記録の第1のセット201およびスコアの第1のセット203で訓練される。訓練されると、機械学習モデル202は、スコアの第1のセットよりも統計的に高い(例えば、高い平均値を有する)スコアの第2のセットを有する、ブループリント記録の第2のセットを生成する。帰納動作モードでは、機械学習モデル202はまた、ブループリント記録の第1のセット201およびスコアの第1のセット203で訓練される。訓練されると、機械学習モデル202は、ブループリント記録の第2のセットに対するスコアの第2のセットを生成する。スコアの第2のセットは、履歴訓練データ(例えば、ブループリント記録の第1のセットおよびスコアの第1のセット)に基づく予測スコアのセットであり、計算タンパク質モデリング(図1に関して示され、かつ説明されるような計算タンパク質モデリングモジュール106と同様である)または分子動力学シミュレーション(図1に関して示され、かつ説明される分子動力学モジュール108と同様である)を使用する、数値的に計算されたスコアおよび/またはエネルギー項よりも大幅に速く(例えば、50%高速、2倍高速、10倍高速、100倍高速、1000倍高速、1,000,000倍高速、1,000,000,000倍高速、および/または同種のもの)生成される。
【0050】
図3は、操作されたポリペプチド設計300の例示的な方法の概略図である。操作されたポリペプチド設計300の方法は、例えば、操作されたポリペプチド設計デバイス(図1に関して示され、かつ説明されたような操作されたポリペプチド設計デバイス101と同様である)によって実施されてもよい。操作されたポリペプチド設計300の方法には、任意に、ステップ301で、参照標的に対する参照標的構造を受信するステップが含まれる。操作されたポリペプチド設計300の方法には、任意に、ステップ302で、参照標的構造の所定の部分からブループリント記録の第1のセットを生成することを含み、ブループリント記録の第1のセットからの各ブループリント記録は、標的残基位置および足場残基位置を含み、各標的残基位置は、標的残基のセットからの1つの標的残基に対応する。一部の実例では、標的残基は、非連続的である。一部の実例では、標的残基は、非順序的である。操作されたポリペプチド設計300の方法には、ステップ303で、ブループリント記録の第1のセット、またはその表現、およびスコアの第1のセットに基づいて、機械学習モデル(図1に関して示され、かつ説明されたような機械学習モデル107と同様である)を訓練することを含んでもよく、ブループリント記録の第1のセットからの各ブループリント記録は、スコアの第1のセットからの各スコアに関連付けられている。表現は、データ準備モジュール(図1に関して示され、かつ説明されたようなデータ準備モジュールと同様である)を使用して、ブループリント記録の第1のセットに基づいて生成されてもよい。操作されたポリペプチド設計300の方法は、ステップ304で、訓練後に、機械学習モデルを実行して、少なくとも1つの所望のスコア(例えば、1つのスコアまたは複数のスコア)を有するブループリント記録の第2のセットを生成することをさらに含む。一部の構成では、機械学習モデルは、生成機械学習モデルを含み、少なくとも1つの所望のスコアは、操作されたポリペプチド設計デバイスのユーザによって決定されるプリセット値である。一部の構成では、機械学習モデルは、ブループリント記録の第2のセットに対する予測スコアのセットを予測する帰納的機械学習モデルを含む。ブループリント記録のサブセットの第2のセットのサブセットは、ブループリント記録のサブセットからの各ブループリント記録が、少なくとも1つの所望のスコアよりも大きいスコアを有するように選択され得る。一部の構成では、少なくとも1つの所望のスコアは、動的に決定されてもよい。例えば、少なくとも1つの所望のスコアは、予測スコアのセットの90パーセンタイルであると決定されてもよい。
【0051】
操作されたポリペプチド設計300の方法は、任意に、305で、例えば、ロゼッタリモデラー、ab initio分子動力学シミュレーション、AlphaFoldもしくはtrRosettaなどの機械学習の構造予測、構造的知識ベースに裏打ちされたタンパク質フォールディング、ニューラルネットワークタンパク質フォールディング、系列ベースの再帰もしくはトランスフォーマーネットワークタンパク質フォールディング、敵対的ネットワークタンパク質構造の生成、Markov Chain Monte Carloタンパク質フォールディング、および/または同種のものを使用することにより、スコアの第2のセット(例えば、スコアのグランドトゥルース)を計算することによって、機械学習モデルを再訓練するかどうかを決定することを含む。次に、操作されたポリペプチド設計デバイスは、スコアの第2のセットを、予測スコアのセットと比較し、スコアの第2のセットからの予測スコアの偏差に基づいて、機械学習モデルを再訓練するかどうかを決定する。操作されたポリペプチド設計300の方法は、任意に、305で、決定することに応答して、(1)ブループリント記録の第2のセットを含む再訓練ブループリント記録、および(2)予測スコアのセットを含む再訓練スコアに基づいて、機械学習モデルを再訓練することを含む。一部の構成では、操作されたポリペプチド設計デバイスは、ブループリント記録の第1のセットとブループリント記録の第2のセットとを連結して、再訓練されたブループリント記録を生成し得る。操作されたポリペプチド設計デバイスは、スコアの第1のセットとスコアの第2のセットを連結して、再訓練スコアをさらに生成し得る。一部の構成では、ブループリント記録の再訓練は、ブループリント記録の第2のセットのみを含み、再訓練スコアは、スコアの第2のセットのみを含む。
【0052】
図4は、操作されたポリペプチド設計400の例示的な方法の概略図である。操作されたポリペプチド設計400の方法は、例えば、操作されたポリペプチド設計デバイス(図1に関して示され、かつ説明されたような操作されたポリペプチド設計デバイス101と同様である)によって実施されてもよい。操作されたポリペプチド設計400の方法には、ステップ401で、ブループリント記録の第1のセット、またはその表現、およびスコアの第1のセットに基づいて、機械学習モデル(図1に関して示され、かつ説明されたような機械学習モデル107と同様である)を訓練することを含み、ブループリント記録の第1のセットからの各ブループリント記録は、スコアの第1のセットからの各スコアに関連付けられている。表現は、データ準備モジュール(図1に関して示され、かつ説明されたようなデータ準備モジュールと同様である)を使用して、ブループリント記録の第1のセットに基づいて生成されてもよい。操作されたポリペプチド設計400の方法は、ステップ402で、訓練後に、機械学習モデルを実行して、少なくとも1つの所望のスコアを有するブループリント記録の第2のセットを生成することをさらに含む。操作されたポリペプチド設計400の方法は、任意に、ステップ403で、ブループリント記録の第2のセット上で計算タンパク質モデリングを実施して、操作されたポリペプチドを生成することを含む。一部の構成では、操作されたポリペプチド設計400の方法は、任意に、ステップ404で、参照標的構造の表現に対する静的構造の比較によって操作されたポリペプチドをフィルタリングすることを含む。一部の構成では、操作されたポリペプチド設計400の方法は、任意に、ステップ405で、参照標的構造および操作されたポリペプチドの構造の各々の表現の分子動力学(MD)シミュレーションを使用する参照標的構造の表現に対する動的構造の比較によって、操作されたポリペプチドをフィルタリングすることを含む。
【0053】
図5は、操作されたポリペプチド設計デバイス用のデータを準備する例示的な方法の概略図である。左に、標的タンパク質の構造のリボン図を示す。所定の部分は、スティック図として示される所定の部分のアミノ酸残基の側鎖とともに、より暗い色で示されている。この実施例では、所定の部分は、抗体の所望の標的エピトープである標的タンパク質の一部分である。このエピトープを再現するために操作されたポリペプチドを生成することによって、標的タンパク質のこの部分に特異的に結合する抗体を得ることができることが期待される。
【0054】
図5の右パネルは、ブループリントのセットの図を示す。各円は、残基位置を示している。足場-残基位置は淡灰色であり、側鎖は示されていない。標的-残基位置はより濃い灰色であり、各々の側鎖が示されている。側鎖は、公知の天然由来のアミノ酸の側鎖である。一部の実例では、標的-残基および/または足場-残基は、非天然アミノ酸である。この実施例では、各標的-残基位置は、標的タンパク質の参照標的構造の所定の部分の正確に1つの残基に対応する。示されるブループリントのセットは、すべての図において、標的-残基位置が同じ順序であるという点で、「順序付け」されている。標的残基の順序は、標的タンパク質配列中の残基と同じ順序である必要はない。最初と最後のブループリントは、連続的な標的-残基位置を有しているが、他のブループリントは、不連続である。少なくとも1つの足場-残基位置は、最初と最後の標的-残基位置の間に位置する。文字NおよびCは、所与のブループリントに一致するポリペプチドのアミノ(N)末端およびカルボキシル(C)末端を示す。
【0055】
図5に示す5つのブループリントは、図の線の間の楕円によって示される、可能性のあるブループリントの膨大なセットのメンバーである。35個の位置を有するブループリント(35量体ポリペプチドと一致する)については、標的残基が順序付けられたと仮定すると、式35!÷(11!×(35-11)!)=4200億によって、潜在的なブループリントの総数が与えられる。利用可能な最大のスーパーコンピューティングサービスを利用しても、考えられるすべての35量体でのロゼッタリモデラー計算は、何年にもわたる時間を費やすことになるだろう。したがって、各ブループリントの直接的な計算モデリングは、現在のコンピュータデバイスおよび方法を使用して、個別には計算不可能である。
【0056】
図6は、操作されたポリペプチド設計の例示的な方法の概略図である。概略図の右側の部分は、どのようにブループリント記録(例えば、入力としての使用に適したブループリント記録に変換された、図示せず)が、(ロゼッタリモデラーを含むが、これに限定されない、図1に関して示され、かつ説明された計算タンパク質モデリングプログラム106と同様である)計算タンパク質モデリングプログラムに供給されて、ラベルとして使用するためのスコアを生成することができるかを示している。スコアは一般的に、モデリングプログラムによって使用されるエネルギー項を反映する。ロゼッタリモデラーの場合、このスコアは、ブループリントから生成された設計ポリペプチドのフォールディングを反映するエネルギー項と、設計ポリペプチドの予測された構造の構造類似性および標的タンパク質の参照標的構造の所定の部分の既知の構造を反映する構造制約一致項との両方を含む。他のモデリングプログラムおよび他のスコアリング関数を使用してもよい。
【0057】
概略図の左側の部分は、ブループリントがブループリントの表現に変換されることを示している。表現は、機械学習モデル(図1に関して示され、かつ説明されたような機械学習モデル107など)での使用に適した任意の表現であってもよい。ここで、表現はベクトルである。より具体的には、ベクトルは、標的-残基位置間の介在する足場残基の数の順序付けられたリストである。標的-残基位置の順序がこの表現で固定されているため、この表現が使用されてもよく、それゆえ、表現は、標的-残基位置のアミノ酸同一性を特定する必要はない。その情報は暗示されている。標的-残基位置の順序は、標的構造配列中と同じ順序である必要はない。ベクトルの第1の要素である8は、第1の標的-残基位置の前に8つの足場-残基位置があることを示す。ベクトルの第2の要素である1は、第1の標的-残基位置の後に、第2の標的-残基位置の前に1つの足場-残基位置があることを示す。0、1、2、または3の後続の要素は、介在する足場-残基位置がないこと、1つの介在する足場-残基位置があること、2つの介在する足場-残基位置があること、または3つの介在する足場-残基位置があることを示す。ベクトルの最後の要素である、4は、ブループリント内の最後の4つの位置が足場-残基位置であることを示す。
【0058】
ブループリント記録の表現のこの変形の利点は、最初と最後の要素以外に、ベクトルがフレームシフト不変であることである。すなわち、機械学習モデルは、ブループリント内の標的残基の位置とは無関係に、標的残基の相対的位置に関する利用可能な情報を有する。これにより、N末端およびC末端に可変な構造化/非構造化領域を有する類似の構造の設計が可能となる。
【0059】
図7は、操作されたポリペプチド設計のための機械学習モデルの例示的な性能の概略図である。散布図は、どのように機械学習モデル(図1に関して示され、かつ説明されたような機械学習モデル107など)が、ブループリント記録のセットに対する予測スコアのセットを正確に生成/予測できるかを示す。散布図の各ドットは、ブループリント記録のセットからのブループリント記録を表す。横軸は、例えば、ロゼッタリモデラー、Ab initio分子動力学シミュレーション、および/または同種のものなどの数値法によって計算され得る、ブループリント記録のセットのグランドトゥルーススコアを表す。縦軸は、数値法よりも実質的に速く(例えば、50%高速、2倍高速、10倍高速、100倍高速、1000倍高速、1,000,000倍高速、1,000,000,000倍高速、および/または同種のもの)動作する機械学習モデルによって生成/予測される、ブループリント記録のセットに対する予測スコアを表す。理想的には、予測されるスコアは、グランドトゥルーススコアに対応する(例えば、等しい、近似する)。予測スコアがグランドトゥルーススコアに対応しない場合、機械学習モデルは、ブループリント記録の新しく生成されたセットの新しく生成された予測スコアが、ブループリント記録の新しく生成されたセットのグランドトゥルーススコアに対応するまで、ブループリント記録のセットおよびグランドトゥルーススコアによって再訓練されてもよい。概して、スコアは、例えば、ロゼッタエネルギー関数2015(REF15)などのエネルギー項および図6に関して説明したような構造制約一致項の両方を含んでもよい。スコアは、本明細書で図7に示されるように、ブループリント記録の低いスコアが低分子動力学エネルギーおよびブループリント記録のより高い安定性を反映するように定義されてもよい。一部の変形では、スコアは、ブループリント記録の高スコアが、ブループリント記録に基づいて構築されるポリペプチドのより高い安定性を一般的に反映するように定義されてもよい。
【0060】
図8は、操作されたポリペプチド設計のための機械学習モデルを使用する例示的な方法の概略図である。図8に示すように、ブループリント記録の第1のセットおよびスコアの第1のセットを含む初期データセット(例えば、ロゼッタエネルギーまたは分子動力学エネルギーなどのエネルギー項を表す)を生成し、データ準備モジュール(図1に関して示され、かつ説明されたようなデータ準備モジュール105など)によってさらに準備することができる。機械学習モデル(図1に関して示され、かつ説明されたような機械学習モデル107と同様である)は、初期データセットに基づいて訓練されてもよい。ブループリント記録の第2のセットは、スコアの第2のセットを生成するための入力として、機械学習モデルに与えられてもよい。所定の値(例えば、所望のスコア)を超えるスコアを有する、ブループリント記録の第2のセットまたはブループリント記録の第2のセットの一部分は、グランドトゥルーススコアについて検証されてもよい。スコアの第2のセットが、十分な精度で(例えば、95%を超える精度を有する)、グランドトゥルーススコアに対応する場合、ブループリント記録の第2のセット、またはブループリント記録の第2のセットの一部分が、ユーザに提示されてもよい。そうでなければ、ブループリント記録の第2のセット、またはブループリント記録の第2のセットの一部分を使用して、機械学習モデルを再訓練してもよい。一部の実例では、望ましいスコアでブループリントを達成するために、ブループリント記録の第3のセット、ブループリント記録の第4のセット、または反復するより大きな数のブループリント記録が生成されてもよい。一部の実例では、望ましいスコアを達成するために必要なだけ多くのブループリントのセットが、ブループリントおよびスコアの新しいセットについて機械学習モデルを繰り返し再訓練することによって生成される。操作されたポリペプチド設計を生成するために機械学習モデルを訓練および使用するための手順を示す例示的なコードスニペットは、以下の通りである。
training_energies=Rosetta(training_scaffolds)##ロゼッタエネルギーは、足場の初期訓練セットに対して計算される
training_energiesが収束していない間:##ロゼッタエネルギーが改善を停止するまで繰り返される
training_scaffoldsからtraining_energiesを予測するためにxgboostを訓練する##足場の訓練セットからロゼッタのエネルギーを予測するようにXGBoostを訓練する
predicted_scaffolds=xgboostから上位の予測された足場##XGBoostで最適な足場を予測する
new_energies=Rosetta(predicted_scaffolds)##ロゼッタエネルギーは、予測足場に対して計算される
predicted_scaffoldsをtraining_scaffoldsに追加する##予測された足場を訓練セットに追加する
new_energiesをtraining_energiesに追加する##予測された足場エネルギーを訓練セットに追加する
【0061】
図9は、操作されたポリペプチド設計のための機械学習モデルの例示的な性能の概略図である。図5に関して記載したように、35個の位置を有する例示的なブループリント(35量体ポリペプチドと一致する)記録については、標的残基が順序付けられたと仮定すると、式35!÷(11!×(35-11)!)=4200億によって、潜在的なブループリントの総数が与えられる。したがって、ブルートフォース検出/最適化を使用する各ブループリントの直接的な計算モデリングは、現在のコンピュータデバイスおよび方法を使用して、個別には計算不可能であり、数年または数十年かかる場合がある。対照的に、本明細書に説明される機械学習モデルなどのデータ駆動型アプローチを使用することは、こうした発見/最適化時間(例えば、数週間、数日、数時間、数分、および/または同種のものまで)を減少させることができる。
【0062】
図10A~Dは、操作されたポリペプチドを検証するために分子動力学シミュレーションを実施する例示的な方法を示している。機械学習モデル(図1に関して示され、かつ説明されたような機械学習モデル107など)が訓練され、改良/最適化された(例えば、設計基準を満たす、所望のスコアを有する、および/または同種のもの)生成されたブループリント記録のセットを生成するように実行された後、操作されたポリペプチド設計デバイス(図1に関して示され、かつ説明されたような)は、生成された設計記録のセットを検証することができる。
【0063】
操作されたポリペプチド設計デバイスは、生成されたブループリント記録のセット上で計算タンパク質モデリング(図1に関して示され、かつ説明されたような計算設計モデリングモジュール106を使用して)を実施して、操作されたポリペプチドを生成してもよい。一部の実装では、その後、操作されたポリペプチド設計デバイスは、参照標的構造の表現に対する静的構造の比較を実施することによって、操作されたポリペプチドのサブセットをフィルタリングしてもよい。
【0064】
一部の実装では、その後、操作されたポリペプチド設計デバイスは、参照標的構造および操作されたポリペプチドの構造の各々の表現の分子動力学(MD)シミュレーションを使用する参照標的構造の表現に対する動的構造の比較によって、操作されたポリペプチドのサブセットをフィルタリングしてもよい。例えば、操作されたポリペプチド設計デバイスは、操作されたポリペプチドのうちの数個(例えば、10ヒット未満)を選択してもよい。一部の実例では、MDシミュレーションは、モデル準備、平衡化(例えば、100K~300Kの温度)、および制限されていないMDシミュレーションのステップを含む溶液条件下で、参照標的構造および操作されたポリペプチドの構造の各々の表現のダイナミクスを決定することができる。一部の実例では、MDシミュレーションは、力場パラメータおよび/または溶媒モデルパラメータを、参照標的構造および操作されたポリペプチドの各構造の表現に適用することを含んでもよい。一部の実例では、MDシミュレーションは、1000サイクルの間拘束された最小化(例えば、構造上の衝突を緩和する)、拘束された加熱(例えば、100ピコ秒の抑制された加熱および周囲温度への段階的な増加)、緩和された拘束(例えば、100ピコ秒の抑制を緩め、および骨格拘束を段階的に除去する)を受けることができる。
【0065】
図11は、操作されたポリペプチドを検証するために分子動力学シミュレーションを実施する例示的な方法を示している。一部の実装では、追加的にまたは代替的に、図10に関連して記載する方法に対して、MDシミュレーションが時間によって制限され得る。例えば、MDシミュレーションは、30nsの制約のないダイナミクスに対して実行されてもよい。一部の実装では、追加的または代替的に、MDシミュレーションは、構造情報によって制限され得る。例えば、MDシミュレーションを実行して、このような構造情報を達成するために必要な任意の時間フレームで観測された構造情報の80%を取得することができる。一部の実装では、MDシミュレーションのスループットと精度のバランスを取るシミュレーション時間を決定するための測定基準は、参照標的構造および操作されたポリペプチドの構造の各々の表現のシミュレーションのコサイン類似性スコアによって計算されてもよい。
【0066】
図12は、分子動力学シミュレーションを並列化する例示的な方法の概略図である。一部の実例では、操作されたポリペプチド設計は、多くの(例えば、100s、1000s、10,000s、および/または同種のもの)分子動力学シミュレーションの実施を伴い得る。こうした実例では、操作されたポリペプチド設計デバイス(図1に関して示され、かつ説明されたような操作されたポリペプチド設計デバイス101のプロセッサ104など)のプロセッサは、グラフィカルプロセシングユニット(GPU)、加速処理ユニット、および/または並列に計算を行うことができる任意の他のプロセシングユニットを含んでもよい。GPUは、対称型マルチプロセシングユニット(SMP)のセットを含んでもよい。したがって、GPUは、SMPのセットを使用して分子動力学シミュレーションの数(例えば、10s、100s、および/または同種のもの)を並列に処理するように構成されてもよい。一部の変形では、クラウドコンピューティングプラットフォーム(図1に関して示され、かつ説明されたようなバックエンドサービスプラットフォーム160など)上のマルチコア処理ユニットを使用して、分子動力学シミュレーションの数を並列に処理してもよい。
【0067】
図13は、操作されたポリペプチド設計のための機械学習モデルを検証する例示的な方法の概略図である。一部の実装では、スコアリング方法は、各操作されたポリペプチドを評価するために、参照標的構造の表現の分子動力学(MD)シミュレーション結果、および操作されたポリペプチドの各々のMDシミュレーション結果に使用され得る。スコアリング方法は、平均二乗偏差(RMSD)を使用することを伴ってもよく、
【数1】
ここで、Nは、原子の数であり、Xiは、参照標的構造の参照位置のベクトルであり、Yiは、各操作されたポリペプチドの位置のベクトルである。あるいは、MEMおよびエピトープ構造の動的マッチングのスコアリングは、二乗平均平方根内積(RMSIP)を使用して実施されてもよく、
【数2】
ここで、固有ベクトルψ&φは、それぞれ、N個の所定の参照残基について、参照標的構造の固有ベクトルおよび操作されたポリペプチドの固有ベクトルであり、対応する固有値によって最高から最低までソートされる。固有ベクトルψ&φの各々は、動きの最低の周波数モードを表しており、この場合、対応する固有値でソートされた上位10個の固有ベクトルが使用される。参照標的構造の固有ベクトルおよび操作されたポリペプチドの固有ベクトルは、例えば、主成分分析(PCA)を使用して計算されてもよい。
【0068】
前述の説明は、説明を目的として、本発明の完全な理解を提供するために特定の命名法を使用した。しかしながら、本発明を実施するために特定の詳細を必要としないことは、当業者には明らかであろう。したがって、本発明の特定の実施形態の前述の説明は、例示および説明の目的で提示されている。それらは、網羅的であることを意図しておらず、または開示された正確な形態に本発明を限定することを意図していない。明らかに、上記の教示に照らして、多くの修正および変形が可能である。実施形態は、本発明の原理およびその実用的な適用を説明するために選択および説明され、それによって、当業者が本発明および企図される特定の使用に適したような様々な修正を有する様々な実施形態を利用することが可能になる。以下の特許請求の範囲およびそれらの等価物は、本発明の範囲を定義することが意図される。
【0069】
列挙された実施形態:
実施形態I-1.方法であって、
第1の複数のブループリント記録、またはそれらの表現、および第1の複数のスコアに基づいて、機械学習モデルを訓練することであって、第1の複数のブループリント記録からの各ブループリント記録が、第1の複数のスコアからの各スコアに関連付けられている、訓練することと、
訓練後に、機械学習モデルを実行して、少なくとも1つの所望のスコアを有する第2の複数のブループリント記録を生成することと、を含み、
第2の複数のブループリント記録が、計算タンパク質モデリングで入力として受信されて、第2の複数のブループリント記録に基づいて、操作されたポリペプチドを生成するように構成されている、方法。
【0070】
実施形態I-2.
参照標的に対する参照標的構造の表現を受信することと、
参照標的構造の所定の部分から第1の複数のブループリント記録を生成することであって、第1の複数のブループリント記録からの各ブループリント記録が、標的残基位置および足場残基位置を含み、各標的残基位置が、複数の標的残基からの1つの標的残基に対応する、生成することと、を含む、実施形態I-1に記載の方法。
【0071】
実施形態I-3.少なくとも1つのブループリント記録において、標的残基位置が、非連続的である、実施形態I-1またはI-2に記載の方法。
【0072】
実施形態I-4.少なくとも1つのブループリント記録において、標的残基位置が、参照標的配列中の標的残基位置の順序とは異なる順序にある、実施形態I-1~I-3のいずれか1つに記載の方法。
【0073】
実施形態I-5.
第1の複数のブループリント記録からの各ブループリント記録について、
そのブループリント記録上で計算タンパク質モデリングを実施して、ポリペプチド構造を生成することと、
ポリペプチド構造のスコアを計算することと、
スコアをそのブループリント記録と関連付けることと、によって、第1の複数のブループリント記録にラベルを付けることを含む、実施形態I-1~I-4のいずれか1つに記載の方法。
【0074】
実施形態I-6.計算タンパク質モデリングが、参照標的構造とテンプレートを一致させることなく、デノボ設計に基づく、実施形態I-1~I-5のいずれか1つに記載の方法。
【0075】
実施形態I-7.第1の複数のスコアからの各スコアが、エネルギー項と、参照標的構造の表現から抽出された1つ以上の構造制約を使用して決定される、構造制約一致項と、を含む、実施形態I-1~I-6のいずれか1つに記載の方法。
【0076】
実施形態I-8.
第2の複数のブループリント記録に対する第2の複数のスコアを計算することによって、機械学習モデルを再訓練するかどうかを決定することと、
決定することに応答して、(1)第2の複数のブループリント記録を含む再訓練ブループリント記録、および(2)第2の複数のスコアを含む再訓練スコアに基づいて、機械学習モデルを再訓練することと、を含む、実施形態I-1~I-7のいずれか1つに記載の方法。
【0077】
実施形態I-9.
機械学習モデルを再訓練することの後に、第1の複数のブループリント記録および第2の複数のブループリント記録を連結して、再訓練ブループリント記録を生成し、再訓練スコアを生成することを含み、再訓練ブループリント記録からの各ブループリント記録が、再訓練スコアからのスコアに関連付けられている、実施形態I-8に記載の方法。
【0078】
実施形態I-10.少なくとも1つの所望のスコアが、プリセット値である、実施形態I-1~I-9のいずれか1つに記載の方法。
【0079】
実施形態I-11.少なくとも1つの所望のスコアが、動的に決定される、実施形態I-1~I-9のいずれか1つに記載の方法。
【0080】
実施形態I-12.機械学習モデルが、教師あり機械学習モデルである、実施形態I-1~I-10のいずれか1つに記載の方法。
【0081】
実施形態I-13.教師あり機械学習モデルが、決定木のアンサンブル、ブーストされた決定木アルゴリズム、eXtreme勾配ブースティング(XGBoost)モデル、またはランダムフォレストを含む、実施形態I-12に記載の方法。
【0082】
実施形態I-14.教師あり機械学習モデルが、サポートベクトルマシン(SVM)、フィードフォワード機械学習モデル、再帰型ニューラルネットワーク(RNN)、畳み込みニューラルネットワーク(CNN)、グラフニューラルネットワーク(GNN)、またはトランスフォーマーニューラルネットワークを含む、実施形態I-12に記載の方法。
【0083】
実施形態I-15.機械学習モデルが、帰納的機械学習モデルである、実施形態I-1~I-14のいずれか1つに記載の方法。
【0084】
実施形態I-16.機械学習モデルが、生成機械学習モデルである、実施形態I-1~I-14のいずれか1つに記載の方法。
【0085】
実施形態I-17.第2の複数のブループリント記録上で計算タンパク質モデリングを実施して、操作されたポリペプチドを生成することを含む、実施形態I-1~I-16のいずれか1つに記載の方法。
【0086】
実施形態I-18.参照標的構造の表現に対する静的構造の比較によって、操作されたポリペプチドをフィルタリングすることを含む、実施形態I-1~I-17のいずれか1つに記載の方法。
【0087】
実施形態I-19.参照標的構造および操作されたポリペプチドの構造の各々の表現の分子動力学(MD)シミュレーションを使用する参照標的構造の表現に対する動的構造の比較によって、操作されたポリペプチドをフィルタリングすることを含む、実施形態I-1~I-18のいずれか1つに記載の方法。
【0088】
実施形態I-20.MDシミュレーションが、対称型マルチプロセシング(SMP)を使用して並列して実施される、実施形態I-19に記載の方法。
【0089】
実施形態I-21.第2の複数のブループリント記録中のブループリント記録の数が、第1の複数のブループリント記録中のブループリント記録の数よりも少ない、実施形態I-1~I-20のいずれか1つに記載の方法。
【0090】
実施形態I-22.プロセッサによって実行される命令を表すコードを記憶する非一時的プロセッサ可読媒体であって、コードが、プロセッサに、
第1の複数のブループリント記録、またはそれらの表現、および第1の複数のスコアに基づいて、機械学習モデルを訓練することであって、第1の複数のブループリント記録からの各ブループリント記録が、第1の複数のスコアからの各スコアに関連付けられている、訓練することと、
訓練の後、機械学習モデルを実行して、少なくとも1つの所望のスコアを有する第2の複数のブループリント記録を生成することと、を行わせるコードを含み、
第2の複数のブループリント記録が、計算タンパク質モデリングで入力として受信されて、第2の複数のブループリント記録に基づいて、操作されたポリペプチドを生成するように構成されている、非一時的プロセッサ可読媒体。
【0091】
実施形態I-23.プロセッサに、
参照標的構造の表現を受信することと、
参照標的構造の所定の部分から第1の複数のブループリント記録を生成することであって、第1の複数のブループリント記録からの各ブループリント記録が、標的残基位置および足場残基位置を含み、複数の標的残基位置からの各標的残基位置が、複数の標的残基からの1つの標的残基に対応する、生成することと、を行わせる、コードを含む、実施形態I-22に記載の媒体。
【0092】
実施形態I-24.少なくとも1つのブループリント記録において、標的残基位置が、非連続的である、実施形態I-23に記載の媒体。
【0093】
実施形態I-25.少なくとも1つのブループリント記録において、標的残基位置が、参照標的配列中の標的残基位置の順序とは異なる順序にある、実施形態I-23またはI-24に記載の媒体。
【0094】
実施形態I-26.プロセッサに、
各ブループリント記録上で計算タンパク質モデリングを実施して、ポリペプチド構造を生成することと、ポリペプチド構造のスコアを計算することと、スコアをブループリント記録と関連付けることと、によって、第1の複数のブループリント記録にラベルを付けさせるコードを含む、実施形態I-23~I-25のいずれか1つに記載の媒体。
【0095】
実施形態I-27.計算タンパク質モデリングが、参照標的構造とテンプレートを一致させることなく、デノボ設計に基づく、実施形態I-26に記載の媒体。
【0096】
実施形態I-28.各スコアが、エネルギー項と、参照標的構造の表現から抽出された1つ以上の構造制約を使用して決定される、構造制約一致項と、を含む、実施形態I-26またはI-27に記載の媒体。
【0097】
実施形態I-29.プロセッサに、
第2の複数のブループリント記録に対する第2の複数のスコアを計算することによって、機械学習モデルを再訓練するかどうかを決定することと、
決定することに応答して、(1)第2の複数のブループリント記録を含む再訓練ブループリント記録、および(2)第2の複数のスコアを含む再訓練スコアに基づいて、機械学習モデルを再訓練することと、を行わせるコードを含む、実施形態I-22~I-28のいずれか1つに記載の媒体。
【0098】
実施形態I-30.プロセッサに、
機械学習モデルを再訓練することの後に、第1の複数のブループリント記録および第2の複数のブループリント記録を連結して、再訓練ブループリント記録を生成させ、再訓練スコアを生成させるコードを含み、再訓練ブループリント記録からの各ブループリント記録が、再訓練スコアからのスコアに関連付けられている、実施形態I-29に記載の媒体。
【0099】
実施形態I-31.少なくとも1つの所望のスコアが、プリセット値である、実施形態I-22~I-30のいずれか1つに記載の媒体。
【0100】
実施形態I-32.少なくとも1つの所望のスコアが、動的に決定される、実施形態I-22~I-31のいずれか1つに記載の媒体。
【0101】
実施形態I-33.機械学習モデルが、教師あり機械学習モデルである、実施形態I- 22~I-32のいずれか1つに記載の媒体。
【0102】
実施形態I-34.教師あり機械学習モデルが、決定木のアンサンブル、ブーストされた決定木アルゴリズム、eXtreme勾配ブースティング(XGBoost)モデル、またはランダムフォレストを含む、実施形態I-22~I-33のいずれか1つに記載の媒体。
【0103】
実施形態I-35.教師あり機械学習モデルが、サポートベクトルマシン(SVM)、フィードフォワード機械学習モデル、再帰型ニューラルネットワーク(RNN)、畳み込みニューラルネットワーク(CNN)、グラフニューラルネットワーク(GNN)、またはトランスフォーマーニューラルネットワークを含む、実施形態I-33に記載の媒体。
【0104】
実施形態I-36.機械学習モデルが、帰納的機械学習モデルである、実施形態I-22~I-35のいずれか1つに記載の媒体。
【0105】
実施形態I-37.機械学習モデルが、生成機械学習モデルである、実施形態I-22~I-36のいずれか1つに記載の媒体。
【0106】
実施形態I-38.プロセッサに、
第2の複数のブループリント記録上で計算タンパク質モデリングを実施して、操作されたポリペプチドを生成させるコードを含む、実施形態I-22~I-37のいずれか1つに記載の媒体。
【0107】
実施形態I-39.プロセッサに、
参照標的構造の表現に対する静的構造の比較によって、操作されたポリペプチドをフィルタリングさせるコードを含む、実施形態I-38に記載の媒体。
【0108】
実施形態I-40.プロセッサに、
参照標的構造および操作されたポリペプチドの各々の表現の分子動力学(MD)シミュレーションを使用する参照標的構造の表現に対する動的構造の比較によって、操作されたポリペプチドをフィルタリングさせるコードを含む、実施形態I-38またはI-39に記載の媒体。
【0109】
実施形態I-41.MDシミュレーションが、対称型マルチプロセシング(SMP)を使用して並列して実施される、実施形態I-40に記載の媒体。
【0110】
実施形態I-42.第2の複数のブループリント記録中のブループリント記録の数が、第1の複数のブループリント記録中のブループリント記録の数よりも少ない、実施形態I-22~I-41のいずれか1つに記載の媒体。
【0111】
実施形態I-43.操作されたポリペプチドを選択する装置であって、
プロセッサと、
メモリと、を有する、第1のコンピューティングデバイスを備え、
メモリは、
第1のコンピューティングデバイスから遠隔の第2のコンピューティングデバイスから、参照標的構造を受信することと、
参照標的構造の所定の部分から第1の複数のブループリント記録を生成することであって、第1の複数のブループリント記録からの各ブループリント記録が、標的残基位置および足場残基位置を含み、各標的残基位置が、複数の標的残基からの1つの標的残基に対応する、生成することと、
第1の複数のブループリント記録、またはそれらの表現、および第1の複数のスコアに基づいて、機械学習モデルを訓練することであって、第1の複数のブループリント記録からの各ブループリント記録が、第1の複数のスコアからの各スコアに関連付けられている、訓練することと、
訓練の後、機械学習モデルを実行して、少なくとも1つの所望のスコアを有する第2の複数のブループリント記録を生成することと、を行うためにプロセッサによって実行可能な命令を記憶しており、
第2の複数のブループリント記録が、計算タンパク質モデリングで入力として受信されて、第2の複数のブループリント記録に基づいて、操作されたポリペプチドを生成するように構成されている、装置。
【0112】
実施形態I-44.プロセッサに、
第2の複数のブループリント記録に対する第2の複数のスコアを計算することによって、機械学習モデルを再訓練するかどうかを決定することと、
決定することに応答して、(1)第2の複数のブループリント記録を含む再訓練ブループリント記録、および(2)第2の複数のスコアを含む再訓練スコアに基づいて、機械学習モデルを再訓練することと、を行わせるコードを含む、実施形態I-43に記載の装置。
【0113】
実施形態I-45.所望のスコアが、プリセット値である、実施形態I-43またはI-44に記載の装置。
【0114】
実施形態I-46.所望のスコアは、動的に決定される、実施形態I-43~I-45のいずれか1つに記載の装置。
【0115】
実施形態I-47.機械学習モデルが、教師あり機械学習モデルである、実施形態I-43~I-46のいずれか1つに記載の装置。
【0116】
実施形態I-48.教師あり機械学習モデルが、決定木のアンサンブル、ブーストされた決定木アルゴリズム、eXtreme勾配ブースティング(XGBoost)モデル、またはランダムフォレストを含む、実施形態I-47に記載の装置。
【0117】
実施形態I-49.教師あり機械学習モデルが、サポートベクトルマシン(SVM)、フィードフォワード機械学習モデル、再帰型ニューラルネットワーク(RNN)、畳み込みニューラルネットワーク(CNN)、グラフニューラルネットワーク(GNN)、またはトランスフォーマーニューラルネットワークを含む、実施形態I-47またはI-48に記載の装置。
【0118】
実施形態I-50.機械学習モデルが、帰納的機械学習モデルである、実施形態I-43~I-49のいずれか1つに記載の装置。
【0119】
実施形態I-51.機械学習モデルが、生成機械学習モデルである、実施形態I-43~I-50のいずれか1つに記載の装置。
【0120】
実施形態I-52.プロセッサに、
第2の複数のブループリント記録上で計算タンパク質モデリングを実施して、操作されたポリペプチドを生成させるコードを含む、実施形態I-43~I-51のいずれか1つに記載の装置。
【0121】
実施形態I-53.プロセッサに、
参照標的構造の表現に対する静的構造の比較によって、操作されたポリペプチドをフィルタリングさせるコードを含む、実施形態I-52に記載の装置。
【0122】
実施形態I-54.プロセッサに、
参照標的構造および操作されたポリペプチドの各々の表現の分子動力学(MD)シミュレーションを使用する参照標的構造の表現に対する動的構造の比較によって、操作されたポリペプチドをフィルタリングさせるコードを含む、実施形態I-52または実施形態I-53に記載の装置。
【0123】
実施形態I-55.MDシミュレーションが、対称型マルチプロセシング(SMP)を使用して並列して実施される、実施形態I-54に記載の装置。
【0124】
実施形態I-56.実施形態I-1~I-21のいずれか1つに記載の方法、実施形態I-22~I-42のいずれか1つに記載の媒体、または実施形態I-43~I-55のいずれか1つに記載の装置によって生成される、操作されたポリペプチド設計。
【0125】
実施形態I-57.操作されたペプチドであって、操作されたペプチドが、1kDa~10kDaの分子量を有し、最大50個のアミノ酸を含み、操作されたペプチドが、
空間的に関連するトポロジカル制約の組み合わせを含み、制約のうちの1つ以上が、参照標的由来の制約であり、
操作されたペプチドのアミノ酸の10%~98%が、1つ以上の参照標的由来の制約を満たし、
1つ以上の参照標的由来の制約を満たすアミノ酸が、参照標的と8.0Å未満の骨格平均二乗偏差(RSMD)構造相同性を有する、操作されたペプチド。
【0126】
実施形態I-58.1つ以上の参照標的由来の制約を満たすアミノ酸が、参照標的と10%~90%の配列相同性を有する、実施形態I-57に記載の操作されたペプチド。
【0127】
実施形態I-59.組み合わせが、少なくとも2つの参照標的由来の制約を含む、実施形態I-57またはI-58に記載の操作されたペプチド。
【0128】
実施形態I-60.組み合わせが、エネルギー項と、参照標的構造の表現から抽出された1つ以上の構造制約を使用して決定される、構造制約一致項と、を含む、実施形態I-57~I-59のいずれか1つに記載の操作されたペプチド。
【0129】
実施形態I-61.1つ以上の非参照標的由来の制約が、所望の構造的特性、動的特性、またはそれらの任意の組み合わせを説明する、実施形態I-57~I-60のいずれか1つに記載の操作されたペプチド。
【0130】
実施形態I-62.参照標的が、生物学的応答または生物学的機能に関連する1つ以上の原子を含み、
生物学的応答または生物学的機能に関連する操作されたペプチド中の1つ以上の原子の原子変動が、生物学的応答または生物学的機能に関連する参照標的中の1つ以上の原子の原子変動と重複する、実施形態I-57~I-61のいずれか一項に記載の操作されたペプチド。
【0131】
実施形態I-63.重複が、0.25より大きい二乗平均平方根内積(RMSIP)である、実施形態I-62に記載の操作されたペプチド。
【0132】
実施形態I-64.重複が、0.75より大きい二乗平均平方根内積(RMSIP)を有する、実施形態I-62またはI-63に記載の操作されたペプチド。
【0133】
実施形態I-65.操作されたペプチドを選択する方法であって、
参照標的の1つ以上のトポロジカル特性を特定することと、
参照標的由来の空間的に関連するトポロジカル制約の組み合わせを生成するように、各トポロジカル特性に対して空間的に関連する制約を設計することと、
候補ペプチドの空間的に関連するトポロジカル特性を、参照標的由来の空間的に関連するトポロジカル制約の組み合わせと比較することと、
参照標的由来の空間的に関連するトポロジカル制約の組み合わせと重複する、空間的に関連するトポロジカル特性を有する候補ペプチドを選択して、操作されたペプチドを生成することと、を含む、方法。
【0134】
実施形態I-66.1つ以上の制約が、残基当たりのエネルギーおよび残基当たりの原子距離に由来する、実施形態I-65に記載の方法。
【0135】
実施形態I-67.1つ以上の候補ペプチドの特性が、コンピュータシミュレーションによって決定される、実施形態I-65またはI-66のいずれか1つに記載の方法。
【0136】
実施形態I-68.コンピュータシミュレーションが、分子動力学シミュレーション、モンテカルロシミュレーション、粗視化シミュレーション、ガウスネットワークモデル、機械学習、またはそれらの任意の組み合わせを含む、実施形態I-67に記載の方法。
【0137】
実施形態I-69.1つ以上の参照標的由来の制約を満たすアミノ酸が、参照標的と10%~90%の配列相同性を有する、実施形態I-65~I-68のいずれか1つに記載の方法。
【0138】
実施形態I-70.1つ以上の非参照標的由来の制約が、所望の構造的特性および/または動的特性を説明する、実施形態I-65~I-69のいずれか1つに記載の方法。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10A
図10B
図10C
図10D
図11
図12
図13