(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025016594
(43)【公開日】2025-02-04
(54)【発明の名称】メソスケールペプチドを操作するための機械学習ベースの装置およびそのための方法およびシステム
(51)【国際特許分類】
C07K 2/00 20060101AFI20250128BHJP
G16B 15/00 20190101ALI20250128BHJP
C07K 1/00 20060101ALI20250128BHJP
G16B 40/20 20190101ALI20250128BHJP
【FI】
C07K2/00
G16B15/00
C07K1/00
G16B40/20
【審査請求】有
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2024189173
(22)【出願日】2024-10-28
(62)【分割の表示】P 2021571033の分割
【原出願日】2020-05-13
(31)【優先権主張番号】62/855,767
(32)【優先日】2019-05-31
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】522441541
【氏名又は名称】アイバイオ, インク.
【氏名又は名称原語表記】iBio, Inc.
(74)【代理人】
【識別番号】100107984
【弁理士】
【氏名又は名称】廣田 雅紀
(74)【代理人】
【識別番号】100182305
【弁理士】
【氏名又は名称】廣田 鉄平
(74)【代理人】
【識別番号】100096482
【弁理士】
【氏名又は名称】東海 裕作
(74)【代理人】
【識別番号】100131093
【弁理士】
【氏名又は名称】堀内 真
(74)【代理人】
【識別番号】100150902
【弁理士】
【氏名又は名称】山内 正子
(74)【代理人】
【識別番号】100141391
【弁理士】
【氏名又は名称】園元 修一
(74)【代理人】
【識別番号】100221958
【弁理士】
【氏名又は名称】篠田 真希恵
(74)【代理人】
【識別番号】100192441
【弁理士】
【氏名又は名称】渡辺 仁
(72)【発明者】
【氏名】グリービング,マシュー ピー
(72)【発明者】
【氏名】タグチ,アレクサンダー ティ
(72)【発明者】
【氏名】ハウザー,ケビン エドゥアルド
(57)【要約】 (修正有)
【課題】標的タンパク質構造を模倣するタンパク質の計算設計のための、改善されたデバイスおよび方法を提供する。
【解決手段】例えば、抗体エピトープまたはタンパク質結合部位などの参照タンパク質構造の所定の部分の分子構造の特徴を再現する操作されたポリペプチドの設計方法が提供されている。機械学習(ML)モデルは、参照標的構造から生成されたブループリント記録を、ブループリント記録によって生成されたポリペプチド構造の計算タンパク質モデリングに基づいて計算されたスコアでラベルを付けることによって訓練される。方法は、ブループリント記録の第1のセット、またはその表現、およびスコアの第1のセットに基づいて、MLモデルを訓練することを含んでもよい。次いで、操作されたポリペプチドのセットが、ブループリント記録の第2のセットに基づいて生成される。
【選択図】
図1
【特許請求の範囲】
【請求項1】
操作されたペプチドであって、前記操作されたペプチドが、1kDa~10kDaの分子量を有し、最大50個のアミノ酸を含み、前記操作されたペプチドが、
空間的に関連するトポロジカル制約の組み合わせを含み、前記制約のうちの1つ以上が、参照標的由来の制約であり、
前記操作されたペプチドの前記アミノ酸の10%~98%が、前記1つ以上の参照標的由来の制約を満たし、
前記1つ以上の参照標的由来の制約を満たす前記アミノ酸が、前記参照標的と8.0Å未満の骨格平均二乗偏差(RSMD)構造相同性を有する、前記操作されたペプチド。
【請求項2】
前記1つ以上の参照標的由来の制約を満たす前記アミノ酸が、前記参照標的と10%~90%の配列相同性を有するか、
前記組み合わせが、少なくとも2つの参照標的由来の制約を含むか、
前記組み合わせが、エネルギー項と、参照標的構造の表現から抽出された1つ以上の構造制約を使用して決定される、構造制約一致項とを含むか、
前記1つ以上の非参照標的由来の制約が、所望の構造的特性、動的特性、またはそれらの任意の組み合わせを規定するか、
前記参照標的が、生物学的応答または生物学的機能に関連する1つ以上の原子を含み、生物学的応答または生物学的機能に関連する前記操作されたペプチド中の前記1つ以上の原子の原子変動が、生物学的応答または生物学的機能に関連する前記参照標的中の前記1つ以上の原子の前記原子変動と重複するか、
前記重複が、0.25より大きい二乗平均平方根内積(RMSIP)であるか、または 前記重複が、0.75より大きい二乗平均平方根内積(RMSIP)を有する
の少なくとも1つである、請求項1に記載の操作されたペプチド。
【請求項3】
操作されたペプチドを選択する方法であって、
参照標的の1つ以上のトポロジカル特性を特定することと、
前記参照標的由来の空間的に関連するトポロジカル制約の組み合わせを生成するように、各トポロジカル特性に対して空間的に関連する制約を設計することと、
候補ペプチドの空間的に関連するトポロジカル特性を、前記参照標的由来の前記空間的に関連するトポロジカル制約の組み合わせと比較することと、
前記参照標的由来の前記空間的に関連するトポロジカル制約の組み合わせと重複する、空間的に関連するトポロジカル特性を有する候補ペプチドを選択して、前記操作されたペプチドを生成することと
を含む、前記方法。
【請求項4】
1つ以上の制約が、残基当たりのエネルギーおよび残基当たりの原子距離に由来するか、
1つ以上の候補ペプチドの前記特性が、コンピュータシミュレーションによって決定されるか、
前記コンピュータシミュレーションが、分子動力学シミュレーション、モンテカルロシミュレーション、粗視化シミュレーション、ガウスネットワークモデル、機械学習、もしくはそれらの任意の組み合わせを含むか、
前記1つ以上の参照標的由来の制約を満たす前記アミノ酸が、前記参照標的と10%~90%の配列相同性を有するか、または
前記1つ以上の非参照標的由来の制約が、所望の構造的特性および/もしくは動的特性を説明する
の少なくとも1つである、請求項3に記載の方法。
【発明の詳細な説明】
【関連出願の相互参照】
【0001】
本出願は、2019年5月31日に出願され、「Meso-Scale Engine
ered Peptides and Methods of Selecting」と
題する米国特許出願第62/855,767号の優先権および利益を主張するものであり
、これは、参照によりその全体が本明細書に組み込まれる。
【技術分野】
【0002】
本開示は、概して、人工知能/機械学習の分野に関し、特に、ペプチドの操作のための
機械学習モデルを訓練および使用するための方法ならびに装置に関する。
【背景技術】
【0003】
計算設計(computational design)は、天然タンパク質を模倣す
る新しい治療用タンパク質の設計に、または病原性抗原からの所望のエピトープ(複数可
)を示すワクチンを設計するために使用され得る。また、計算的に設計されたタンパク質
を使用して、結合剤を生成または選択してもよい。例えば、抗体のライブラリー(例えば
、ファージディスプレイライブラリー)を、設計されたタンパク質ベイトに対してパン(
pan)して、そのベイトに結合するクローンを選択することができ、または実験動物を
、設計された免疫原で免疫して、新規の抗体を生成することができる。
【0004】
他にもあるが、計算設計のための主要なモデリングプラットフォームは、ロゼッタ(D
as and Baker,2008)である。このプラットフォームは、所望の構造に
一致するタンパク質の設計に使用され得る。Correia et al.Struct
ure 18:1116-26(2010)は、立体構造安定化および免疫提示のために
連続構造エピトープを足場タンパク質に移植する、エピトープ-足場を設計するための一
般的な計算方法を開示している。Olek et al.PNAS USA 107:1
7880-87(2010)は、HIV-1 gp41タンパク質からのエピトープを、
選択された受容体足場に移植することを開示している。
【0005】
従来的な計算設計技術は、典型的には、標的タンパク質構造(例えば、エピトープ)の
一部分を既存の足場上に移植することに依存する。ロゼッタなどのモデリングプラットフ
ォームは、所与のタンパク質構造を再現するタンパク質の広大なトポロジー空間など、大
きなトポロジー空間を適切に探索するには、計算上集約的すぎる。したがって、標的タン
パク質構造を模倣するタンパク質の計算設計のための、新しく改善されたデバイスおよび
方法に対するニーズがある。
【発明の概要】
【0006】
概して、一部の変形では、装置は、プロセッサによって実行される命令を表すコードを
記憶する、非一時的プロセッサ可読媒体を含んでもよい。コードは、プロセッサに、ブル
ープリント記録の第1のセット、またはそれらの表現、およびスコアの第1のセットに基
づいて、機械学習モデルを訓練させるコードを含んでもよく、ブループリント記録の第1
のセットからの各ブループリント記録は、スコアの第1のセットからの各スコアに関連付
けられている。媒体は、訓練後に、機械学習モデルを実行して、少なくとも1つの所望の
スコアを有するブループリント記録の第2のセットを生成するためのコードを含んでもよ
い。ブループリント記録の第2のセットは、計算タンパク質モデリングで入力として受信
されて、ブループリント記録の第2のセットに基づいて、操作されたポリペプチドを生成
するように構成されてもよい。
【0007】
媒体は、プロセッサに参照標的構造を受信させるためのコードを含んでもよい。媒体は
、プロセッサに、参照標的構造の所定の部分からブループリント記録の第1のセットを生
成させるコードを含んでもよく、ブループリント記録の第1のセットからの各ブループリ
ント記録は、標的残基位置および足場残基位置を含み、標的残基のセットからの各標的残
基位置は、標的残基のセットからの1つの標的残基に対応する。一部の変形では、少なく
とも1つのブループリント記録において、標的残基位置は、非連続的である。一部の変形
では、少なくとも1つのブループリント記録において、標的残基位置は、参照標的配列中
の標的残基位置の順序とは異なる順序にある。
【0008】
媒体は、各ブループリント記録上で計算タンパク質モデリングを実施してポリペプチド
構造を生成することと、ポリペプチド構造のスコアを計算することと、スコアをブループ
リント記録と関連付けることと、によって、プロセッサにブループリント記録の第1のセ
ットにラベルを付けさせるコードを含んでもよい。一部の変形では、計算タンパク質モデ
リングは、参照標的構造とテンプレートを一致させることなく、デノボ設計に基づいても
よい。一部の変形では、各スコアは、エネルギー項と、参照標的構造の表現から抽出され
た1つ以上の構造制約を使用して決定され得る、構造制約一致項と、を含む。
【0009】
媒体は、プロセッサに、ブループリント記録の第2のセットに対するスコアの第2のセ
ットを計算することによって、機械学習モデルを再訓練するかどうかを決定させるコード
を含んでもよい。媒体は、決定することに応答して、(1)ブループリント記録の第2の
セットを含む再訓練ブループリント記録、および(2)スコアの第2のセットを含む再訓
練スコアに基づいて、機械学習モデルを再訓練するためのさらなるコードを含んでもよい
。
【0010】
媒体は、プロセッサに、機械学習モデルを再訓練することの後に、ブループリント記録
の第1のセットおよびブループリント記録の第2のセットを連結して、ブループリント記
録の再訓練を生成させ、再訓練スコアを生成させるコードを含んでもよく、ブループリン
ト記録の再訓練からの各ブループリント記録は、再訓練スコアからのスコアに関連付けら
れている。一部の変形では、少なくとも1つの所望のスコアは、プリセット値であっても
よい。一部の変形では、少なくとも1つの所望のスコアは、動的に決定されてもよい。
【0011】
一部の変形では、機械学習モデルは、教師あり機械学習モデルであってもよい。教師あ
り機械学習モデルは、決定木のアンサンブル、ブーストされた決定木アルゴリズム、eX
treme勾配ブースティング(XGBoost)モデル、またはランダムフォレストを
含んでもよい。一部の変形では、教師あり機械学習モデルは、サポートベクトルマシン(
SVM)、フィードフォワード機械学習モデル、再帰型ニューラルネットワーク(RNN
)、畳み込みニューラルネットワーク(CNN)、グラフニューラルネットワーク(GN
N)、またはトランスフォーマーニューラルネットワークを含んでもよい。
【0012】
一部の変形では、機械学習モデルは、帰納的機械学習モデルを含んでもよい。一部の変
形では、機械学習モデルは、生成機械学習モデルを含んでもよい。
【0013】
媒体は、プロセッサに、ブループリント記録の第2のセット上で計算タンパク質モデリ
ングを実施して、操作されたポリペプチドを生成させるコードを含んでもよい。
【0014】
媒体は、プロセッサに、参照標的構造の表現に対する静的構造の比較によって、操作さ
れたポリペプチドをフィルタリングさせるコードを含んでもよい。
【0015】
媒体は、プロセッサに、参照標的構造および操作されたポリペプチドの各々の表現の分
子動力学(MD)シミュレーションを使用する参照標的構造の表現に対する動的構造の比
較によって、操作されたポリペプチドをフィルタリングさせるコードを含んでもよい。一
部の変形では、MDシミュレーションは、対称型マルチプロセシング(SMP)を使用し
て並列して実施される。
【図面の簡単な説明】
【0016】
【
図1】例示的な操作されたポリペプチド設計デバイスの概略図である。
【
図2】操作されたポリペプチド設計のための例示的な機械学習モデルの概略図である。
【
図3】操作されたポリペプチド設計の例示的な方法の概略図である。
【
図4】操作されたポリペプチド設計の例示的な方法の概略図である。
【
図5】操作されたポリペプチド設計デバイスのためのデータを準備する例示的な方法の概略図である。
【
図6】操作されたポリペプチド設計の例示的な方法の概略図である。
【
図7】操作されたポリペプチド設計のための機械学習モデルの例示的な性能の概略図である。
【
図8】操作されたポリペプチド設計のための機械学習モデルを使用する例示的な方法の概略図である。
【
図9】操作されたポリペプチド設計のための機械学習モデルの例示的な性能の概略図である。
【
図10A】操作されたポリペプチドを検証するために分子動力学シミュレーションを実施する例示的な方法を示している。
【
図10B】操作されたポリペプチドを検証するために分子動力学シミュレーションを実施する例示的な方法を示している。
【
図10C】操作されたポリペプチドを検証するために分子動力学シミュレーションを実施する例示的な方法を示している。
【
図10D】操作されたポリペプチドを検証するために分子動力学シミュレーションを実施する例示的な方法を示している。
【
図11】操作されたポリペプチドを検証するために分子動力学シミュレーションを実施する例示的な方法を示している。
【
図12】分子動力学シミュレーションを並列化する例示的な方法の概略図である。
【
図13】操作されたポリペプチド設計のための機械学習モデルを検証する例示的な方法の概略図である。
【発明を実施するための形態】
【0017】
本発明の様々な態様および変形の非限定的な例を本明細書に記載し、添付図面に示す。
【0018】
本明細書では、操作されたポリペプチドを設計する方法、およびその操作されたペプチ
ドを含む組成物およびその操作されたペプチドを使用する方法が提供されている。例えば
、本明細書では、抗体のインビトロ選択において操作されたペプチドを使用する方法が提
供されている。いくつかの態様では、ユーザ(またはプログラム)は、既知の構造を有す
る標的タンパク質を選択し、操作されたポリペプチドの設計のための入力として標的タン
パク質の一部分を識別してもよい。標的タンパク質は、病原性生物由来の抗原(または推
定抗原)、疾患に関連付けられた細胞機能に関与するタンパク質、酵素、シグナル伝達分
子、またはタンパク質の一部分を再現する操作されたポリペプチドが望ましい任意のタン
パク質であってもよい。操作されたポリペプチドは、抗体の発見、ワクチン接種、診断、
治療、バイオ製造、または他の用途の方法での使用を意図されてもよい。「標的タンパク
質」は、変形において、多量体タンパク質複合体などの2つ以上のタンパク質であっても
よい。簡略化のために、本開示は、標的タンパク質を指すが、本方法は、多量体構造にも
適用される。変形では、標的タンパク質は、2つ以上の別個のタンパク質またはタンパク
質複合体である。例えば、本明細書に開示される方法は、例えば、抗体選択のために保存
されたエピトープを標的にするために、多様な種由来のタンパク質の共通属性を模倣する
操作されたペプチドを設計するために使用され得る。
【0019】
タンパク質のトポロジーの計算記録が導出され、本明細書では「参照標的構造」と呼ば
れる。参照標的構造は、例えば、タンパク質中のすべての(またはほとんどの)原子の3
D座標、または選択された原子の3D座標(例えば、各タンパク質残基のCβ原子の座標
)によって表される従来的なタンパク質構造または構造モデルであってもよい。任意で、
参照標的構造は、計算的に(例えば、分子動力学シミュレーションから)または実験的に
(例えば、分光法、結晶学、または電子顕微鏡から)導出される動的項を含んでもよい。
【0020】
標的タンパク質の所定の部分は、標的残基位置および足場残基位置を有するブループリ
ントに変換される。各位置は、固定アミノ酸残基同一性または可変同一性(例えば、任意
のアミノ酸、または所望の物理化学的特性-極性/非極性、疎水性、サイズなどを有する
アミノ酸)のいずれかに割り当てられてもよい。変形では、標的タンパク質の所定の部分
由来の各アミノ酸は、標的タンパク質中に存在するのと同じアミノ酸同一性を有するよう
に割り当てられている1つの標的-残基位置にマッピングされる。標的-残基位置は、連
続的であってもよく、かつ/または順序付けられてもよい。しかしながら、いくつかの変
形では、利点は、標的-残基位置が非連続的(足場-残基位置によって中断される)であ
り、(標的タンパク質とは異なる順序で)順序付けされ得なないことである。移植アプロ
ーチとは異なり、一部の変形では、残基の順序は制約されない。同様に、本開示の方法は
、標的タンパク質の不連続部分(例えば、同じタンパク質の異なる部分または異なるタン
パク質鎖でさえ1つのエピトープに寄与する不連続エピトープ)に適応することができる
。
【0021】
ブループリントの足場-残基位置は、その位置に任意のアミノ酸を有するように割り当
てられてもよい(すなわち、任意のアミノ酸を表すX)。変形では、足場-残基位置は、
可能性のある天然アミノ酸または非天然アミノ酸のサブセット(例えば、小極性アミノ酸
残基、大疎水性アミノ酸残基など)から選択することによって割り当てられる。ブループ
リントはまた、任意の標的残基位置および/または足場残基位置に適応してもよい。同様
に、ブループリントは、残基位置の挿入または欠失を許容し得る。例えば、標的残基位置
または足場残基位置は、存在するか存在しないかを割り当てられてもよく、またはその位
置は、0、1、2、3、4、5、6、7、8、9、10、またはそれ以上の残基であると
割り当てられてもよい。
【0022】
次いで、ブループリントのサブセットを使用して、計算モデリングを実施して、例えば
、各ポリペプチド構造に対して計算されたスコアを用いて、参照標的構造から導出された
エネルギー項およびトポロジカル制約を使用して、対応するポリペプチド構造を生成する
ことができる。機械学習(ML)モデルは、スコアおよびブループリント、またはブルー
プリントの表現(例えば、ブループリントを表すベクトル)を使用して訓練されてもよく
、さらにブループリントを生成するために、MLモデルを実行してもよい。この方法の利
点は、多くのブループリントの反復計算モデリングによって探索できるよりも、はるかに
多くのブループリントによってカバーされるトポロジカル空間を、MLモデルによって探
索することができることである。
【0023】
本開示は、出力ブループリントを操作されたポリペプチドの配列および/または構造に
変換し、これらの操作されたポリペプチドを、静的比較、動的比較、またはその両方を使
用して標的タンパク質と比較して、これらの比較を使用してポリペプチドをフィルタリン
グするための方法および関連するデバイスをさらに提供する。
【0024】
方法および装置が、ブループリント記録のセット、スコアのセット、エネルギー項のセ
ット、分子動力学エネルギーのセット、エネルギー項のセット、またはエネルギー機能の
セットからのデータを処理するものとして本明細書に説明されているが、一部の実例では
、
図1に関して示され、かつ説明されるように操作されたポリペプチド設計デバイス10
1を使用して、ブループリント記録のセット、スコアのセット、エネルギー項のセット、
分子動力学エネルギーのセット、またはエネルギー機能のセットを生成することができる
。したがって、操作されたポリペプチド設計デバイス101は、データ、イベント、およ
び/または物体の任意の収集またはストリームを生成または処理するために使用され得る
。例えば、操作されたポリペプチド設計デバイス101は、任意の文字列、番号、名前、
画像、ビデオ、実行可能ファイル、データセット、スプレッドシート、データファイル、
ブループリントファイル、および/または同種のものを処理および/または生成し得る。
さらなる実施例について、操作されたポリペプチド設計デバイス101は、任意のソフト
ウェアコード、ウェブページ、データファイル、モデルファイル、ソースファイル、スク
リプト、および/または同種のものを処理および/または生成し得る。別の実施例として
、操作されたポリペプチド設計デバイス101は、データストリーム、画像データストリ
ーム、テキストデータストリーム、数値データストリーム、コンピュータ支援設計(CA
D)ファイルストリーム、および/または同種のものを処理および/または生成し得る。
【0025】
図1は、例示的な操作されたポリペプチド設計デバイス101の概略図である。操作さ
れたポリペプチド設計デバイスは、操作されたポリペプチド設計のセットを生成するため
に使用され得る。操作されたポリペプチド設計デバイス101は、メモリ102、通信イ
ンターフェース103、およびプロセッサ104を含む。操作されたポリペプチド設計デ
バイス101は、ネットワーク150を介して、バックエンドサービスプラットフォーム
160に、(介在する構成要素なしで)任意に接続されてもよく、または(介在する構成
要素で、または介在する構成要素なしで)結合されてもよい。操作されたポリペプチド設
計デバイス101は、例えば、デスクトップコンピュータ、サーバーコンピュータ、メイ
ンフレームコンピュータ、量子コンピューティングデバイス、並列コンピューティングデ
バイス、デスクトップコンピュータ、ラップトップコンピュータ、スマートフォンデバイ
スのアンサンブル、および/または同種のものなどの、ハードウェアベースのコンピュー
ティングデバイスであってもよい。
【0026】
操作されたポリペプチド設計デバイス101のメモリ102は、例えば、メモリバッフ
ァ、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プロ
グラマブルリードオンリメモリ(EPROM)、組み込みマルチタイムプログラマブル(
MTP)メモリ、組み込みマルチメディアカード(eMMC)、ユニバーサルフラッシュ
ストレージ(UFS)デバイス、および/または同種のものを含んでもよい。メモリ10
2は、例えば、操作されたポリペプチド設計デバイス101のプロセッサ104に、1つ
以上のプロセスまたは機能(例えば、データ準備モジュール105、計算タンパク質モデ
リングモジュール106、機械学習モデル107、および/または分子動力学シミュレー
ションモジュール108)を実施させる命令を含む、1つ以上のソフトウェアモジュール
および/またはコードを記憶してもよい。メモリ102は、操作されたポリペプチド設計
デバイス101の動作中に機械学習モデル107によって生成されるデータを含む、機械
学習モデル107に関連付けられた(例えば、実行することによって生成される)ファイ
ルのセットを記憶してもよい。一部の実例では、機械学習モデル107に関連付けられた
ファイルセットは、操作されたポリペプチド設計デバイス101の動作中に生成される、
一時変数、返却メモリアドレス、変数、機械学習モデル107のグラフ(例えば、機械学
習モデル107によって使用される算術演算のセット、または算術演算のセットの表現)
、グラフのメタデータ、アセット(例えば、外部ファイル)、電子署名(例えば、エクス
ポートされる機械学習モデル107のタイプ、および入力/出力テンソルの指定)および
/または同種のものを含んでもよい。
【0027】
操作されたポリペプチド設計デバイス101の通信インターフェース103は、プロセ
ッサ104および/またはメモリ102に動作可能に結合され、かつそれらによって使用
される、操作されたポリペプチド設計デバイス101のハードウェア構成要素であっても
よい。通信インターフェース103は、例えば、ネットワークインターフェースカード(
NIC)、Wi-FiTMモジュール、Bluetooth(登録商標)モジュール、光通
信モジュール、ならびに/またはその他の任意の適切な有線および/もしくは無線通信イ
ンターフェースを含んでもよい。通信インターフェース103は、本明細書でさらに詳細
に説明するように、操作されたポリペプチド設計デバイス101をネットワーク150に
接続するように構成されてもよい。一部の実例では、通信インターフェース103は、ネ
ットワーク150を介してデータを受信または送信することを容易にし得る。より具体的
には、一部の実装では、通信インターフェース103は、例えば、ブループリント記録の
セット、スコアのセット、エネルギー項のセット、分子動力学エネルギーのセット、エネ
ルギー項のセット、またはエネルギー関数のセットなどのデータを、ネットワーク150
を通して、バックエンドサービスプラットフォーム160から、またはそれに受信または
送信することを容易にし得る。一部の実例では、通信インターフェース103を介して受
信されたデータは、本明細書でさらに詳細に説明するように、プロセッサ104によって
処理されてもよく、またはメモリ102に記憶されてもよい。
【0028】
プロセッサ104は、例えば、ハードウェアベースの集積回路(IC)、または命令も
しくはコードのセットを実施および/もしくは実行するように構成された任意の他の適切
な処理デバイスを含んでもよい。例えば、プロセッサ104は、汎用プロセッサ、中央プ
ロセシングユニット(CPU)、グラフィカルプロセシングユニット(GPU)、テンソ
ルプロセシングユニット(TPU)、加速プロセシングユニット(APU)、特定用途向
け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、プログ
ラマブル論理アレイ(PLA)、複合プログラマブル論理デバイス(CPLD)、プログ
ラマブル論理コントローラ(PLC)、および/または同種のものであってもよい。プロ
セッサ104は、システムバス(例えば、アドレスバス、データバスおよび/または制御
バス)を介してメモリ102に動作可能に結合される。
【0029】
プロセッサ104は、データ準備モジュール105、計算タンパク質モデリングモジュ
ール106、および機械学習モデル107を含んでもよい。プロセッサ104は、随意に
分子動力学シミュレーションモジュール108を含んでもよい。データ準備モジュール1
05、計算タンパク質モデリングモジュール106、機械学習モデル107、または分子
動力学シミュレーションモジュール108の各々は、メモリ102に記憶され、プロセッ
サ104によって実行されるソフトウェアであってもよい。例えば、機械学習モデル10
7に、ブループリント記録のセットを生成させるコードが、メモリ102に記憶され、プ
ロセッサ104によって実行されてもよい。同様に、データ準備モジュール105、計算
タンパク質モデリングモジュール106、機械学習モデル107、または分子動力学シミ
ュレーションモジュール108の各々は、ハードウェアベースのデバイスであってもよい
。例えば、機械学習モデル107に、ブループリント記録のセットを生成させるプロセス
は、個々の集積回路(IC)チップ上に実装されてもよい。
【0030】
データ準備モジュール105は、参照標的に対する参照標的構造を受信することを含む
、データのセットを(例えば、メモリ102またはバックエンドサービスプラットフォー
ム160から)受信するように構成されてもよい。データ準備モジュール105は、参照
標的構造の所定の部分から、ブループリント記録のセット(例えば、英数字データのテー
ブルに符号化されたブループリントファイル)を生成するようにさらに構成されてもよい
。一部の実例では、ブループリント記録のセットからの各ブループリント記録は、標的残
基位置および足場残基位置を含んでもよく、各標的残基位置は、標的残基のセットからの
1つの標的残基に対応する。
【0031】
一部の実例では、データ準備モジュール105は、参照標的構造のブループリントをブ
ループリント記録に符号化するようにさらに構成されてもよい。データ準備モジュール1
05は、機械学習モデルでの使用に一般的に適したブループリント記録の表現に、ブルー
プリント記録をさらに変換してもよい。一部の実例では、表現は、数値の1次元ベクトル
、英数字データの2次元行列、正規化された数値の3次元テンソルであってもよい。より
具体的には、一部の実例では、表現は、介在する足場残基位置の数の順序付けられたリス
トのベクトルである。標的-残基の順序が標的構造から推測され得るため、このような表
現が使用されてもよく、それゆえ、表現は、標的-残基位置のアミノ酸同一性を特定する
必要はない。こうした表示の一例を、
図6に関してさらに説明する。
【0032】
一部の実例では、データ準備モジュール105は、ブループリント記録のセット、スコ
アのセット、エネルギー項のセット、分子動力学エネルギーのセット、エネルギー項のセ
ット、および/またはエネルギー関数のセットを生成および/または処理し得る。データ
準備モジュール105は、ブループリント記録のセット、スコアのセット、エネルギー項
のセット、分子動力学エネルギーのセット、エネルギー項のセット、またはエネルギー関
数のセットから情報を抽出するように構成されてもよい。
【0033】
一部の実例では、データ準備モジュール105は、ブループリント記録のセットの符号
化を、例えば、ASCII、UTF-8、UTF-16、Guobiao、Big5、U
nicode、または任意の他の適切な文字符号化などの共通文字符号化を有するように
変換してもよい。さらに他のいくつかの実例では、データ準備モジュール105は、例え
ば、ブループリント記録の一部分またはポリペプチドの操作に重要なブループリント記録
の表示を特定することによって、ブループリント記録の特徴および/またはブループリン
ト記録の表現を抽出するようにさらに構成されてもよい。一部の実例では、データ準備モ
ジュール105は、ブループリント記録のセット、スコアのセット、エネルギー項のセッ
ト、分子動力学エネルギーのセット、エネルギー項のセット、または例えば、マイル、フ
ィート、インチ、および/もしくは同様のものなどの英単位からのエネルギー関数のセッ
トの単位を、例えば、キロメートル、メートル、センチメートルおよび/または同様のも
のなどの単位の国際システム(SI)に変換してもよい。
【0034】
計算タンパク質モデリングモジュール106は、参照標的構造の所定の部分から、本明
細書に説明される計算最適化プロセスの開始テンプレートとして役立ち得る、ブループリ
ント記録の初期候補のセットを生成するように構成されてもよい。一実施例では、計算タ
ンパク質モデリングモジュール106は、ロゼッタリモデラーとすることができる。本方
法の変形は、分子動力学シミュレーション、ab initio断片アセンブリ、Mon
te Carlo断片アセンブリ、AlphaFoldもしくはtrRosettaなど
の機械学習の構造予測、構造的知識ベースに裏打ちされたタンパク質フォールディング、
ニューラルネットワークタンパク質フォールディング、系列ベースの再帰的もしくはトラ
ンスフォーマーネットワークタンパク質フォールディング、敵対的ネットワークタンパク
質構造の生成、Markov Chain Monte Carloタンパク質フォール
ディング、および/または同種のものを含むが、これらに限定されない他のモデリングア
ルゴリズムを採用している。ロゼッタリモデラーを使用して生成された初期候補構造を、
機械学習モデル107の訓練セットとして使用してもよい。計算タンパク質モデリングモ
ジュール106は、ブループリント記録の初期候補から各ブループリントに対するエネル
ギー項を、計算的にさらに決定することができる。次に、データ準備モジュール105は
、エネルギー項からスコアを生成するように構成されてもよい。一実施例では、スコアは
、エネルギー項の正規化された値とすることができる。正規化された値は、0~1の数字
、-1~-1の数字、0~100の正規化された値、または任意の他の数値範囲とするこ
とができる。一部の変形では、計算タンパク質モデリングモジュール106は、参照標的
構造とテンプレートを一致させることなく、または弱い距離制限(weak dista
nce restraints)に基づいて、デノボ設計に基づいてもよく、ここで、例
えば、標的残基間の距離は、標的構造中の標的-残基間の距離の1オングストローム以内
になるように制約される。弱い距離制限は、距離制限の周りの変動ノイズ分布(例えば、
特定の平均および距離制限の周りの特定の分散を有するガウスノイズ)を可能にする制限
を含んでもよい。一部の変形では、計算タンパク質モデリングモジュール106は、任意
の距離制限に変動ノイズを平滑化または追加することによって、および/または距離制限
が満たされない場合に計算タンパク質モデルが厳しく罰則化されにくいように計算タンパ
ク質モデルの目的関数を定義することによって使用され得る。さらに、一部の実例では、
計算タンパク質モデリングモジュール106は、エネルギー項のスムージングされたラベ
ルを使用し得る。この方法の利点は、エネルギー項ラベルをスムージングすることによっ
て、機械学習モデル107が、探索されるブループリントによってカバーされるトポロジ
カル空間をより簡単に最適化できることである。
【0035】
機械学習モデル107は、ブループリント記録の初期候補のセットと比較して、改善さ
れたブループリント記録を生成するために使用され得る。機械学習モデル107は、計算
タンパク質モデリングモジュール106によって計算される、ブループリント記録の初期
候補のセットおよびスコアのセットを受信するように構成された、教師あり機械学習モデ
ルとすることができる。スコアのセットからの各スコアは、ブループリント記録の初期候
補のセットからのブループリント記録に対応する。プロセッサ104は、各対応するスコ
アおよびブループリント記録を関連付けて、ラベルを付けされた訓練データのセットを生
成するように構成されてもよい。
【0036】
一部の実例では、機械学習モデル107は、帰納的機械学習モデルおよび/または生成
機械学習モデルを含んでもよい。機械学習モデルは、ブーストされた決定木アルゴリズム
、決定木のアンサンブル、eXtreme勾配ブースティング(XGBoost)モデル
、ランダムフォレスト、サポートベクトルマシン(SVM)、フィードフォワード機械学
習モデル、再帰型ニューラルネットワーク(RNN)、畳み込みニューラルネットワーク
(CNN)、グラフニューラルネットワーク(GNN)、敵対的ネットワークモデル、イ
ンスタンスベースの訓練モデル、トランスフォーマーニューラルネットワーク、および/
または同種のものを含んでもよい。機械学習モデル107は、訓練されると、帰納モード
で実行されて、ブループリント記録からスコアを生成することができ、または生成モード
で実行されて、スコアからブループリント記録を生成することができる、重みのセット、
バイアスのセット、および/またはアクティベーション機能のセットを含む、モデルパラ
メータのセットを含むように構成されてもよい。
【0037】
一実施例では、機械学習モデル107は、入力層、出力層、および複数の隠れ層(例え
ば、5層、10層、20層、50層、100層、200層など)を含む、深層学習モデル
とすることができる。複数の隠れ層は、正規化層、全結合層、アクティベーション層、畳
み込み層、再帰層、および/またはブループリント記録のセットとスコアのセットとの間
の相関を表すのに好適である任意の他の層を含んでもよく、各スコアは、エネルギー項を
表す。
【0038】
一実施例では、機械学習モデル107は、例えば、XGBoostモデル内のブースト
ラウンドまたは木の数、XGBoostモデルの木のルートから木の葉までの最大許容ノ
ード数を定義する最大深さ、および/または同種のものなどの一連のハイパーパラメータ
を含む、XGBoostモデルとすることができる。XGBoostモデルは、木のセッ
ト、ノードのセット、重みのセット、バイアスのセット、およびXGBoostモデルを
説明するのに有用な他のパラメータを含んでもよい。
【0039】
一部の実装では、機械学習モデル107(例えば、深層学習モデル、XGBoostモ
デル、および/または同種のもの)は、ブループリント記録のセットから各ブループリン
ト記録を繰り返し受信し、出力を生成するように構成されてもよい。ブループリント記録
のセットからの各ブループリント記録は、スコアのセットからの1つのスコアに関連付け
られている。出力とスコアは、第1の訓練損失値を生成するために、目的関数(コスト関
数とも呼ばれる)を使用して比較されてもよい。目的関数は、例えば、平均二乗誤差、平
均絶対誤差、平均絶対誤差率、ログコッシュ(lоgcоsh)、カテゴリー交差エント
ロピー、および/または同種のものを含んでもよい。モデルパラメータのセットは、複数
の反復で変更されてもよく、第1の目的関数は、第1の訓練損失値が第1の所定の訓練閾
値(例えば、80%、85%、90%、97%など)に収束するまで、各反復で実行され
てもよい。
【0040】
一部の実装では、機械学習モデル107は、スコアのセットから各スコアを繰り返し受
信し、出力を生成するように構成されてもよい。ブループリント記録のセットからの各ブ
ループリント記録は、スコアのセットからの1つのスコアに関連付けられている。出力と
ブループリント記録は、第2の訓練損失値を生成するために、目的関数を使用して比較さ
れてもよい。モデルパラメータのセットは、複数の反復で変更されてもよく、第1の目的
関数は、第2の訓練損失値が第2の所定の訓練閾値に収束するまで、複数の反復の各反復
で実行されてもよい。
【0041】
訓練されると、機械学習モデル107を実行して、改善されたブループリント記録のセ
ットを生成することができる。改善されたブループリント記録のセットは、ブループリン
ト記録の初期候補のセットよりも高いスコアを有すると予想され得る。一部の実例では、
機械学習モデル107は、ブループリント記録の第1のセットの設計空間とスコアの第1
のセット(例えば、エネルギー項に対応する)との相関を表すために、スコアの第1のセ
ット(例えば、ブループリント記録のセットからのブループリント記録のロゼッタエネル
ギーに対応するエネルギー項を有する各スコア)に対応するブループリント記録の第1の
セット(例えば、ロゼッタリモデラーを使用して生成される)で訓練される、生成機械学
習モデルであり得る。訓練されると、機械学習モデル107は、ブループリント記録に関
連付けられたスコアの第2のセットを有する、ブループリント記録の第2のセットを生成
する。一部の実装では、計算タンパク質モデリングモジュール106を使用して、ブルー
プリント記録の第2のセットに対するエネルギー項のセットを計算することによって、ブ
ループリント記録の第2のセットおよびスコアの第2のセットを検証することができる。
エネルギー項のセットは、ブループリント記録の第2のセットに対するグランドトゥルー
ススコアのセットを生成するために使用され得る。ブループリント記録のサブセットは、
ブループリント記録のサブセットからの各ブループリント記録が閾値を超えるグランドト
ゥルーススコアを有するように、ブループリント記録の第2のセットから選択されてもよ
い。一部の実例では、閾値は、例えば、操作されたポリペプチド設計デバイス101のユ
ーザによって予め決められた数であってもよい。一部の他の実例では、閾値は、グランド
トゥルーススコアのセットに基づいて動的に決定される数であってもよい。
【0042】
任意に、機械学習モデル107が実行されて、ブループリント記録の第2のセットを生
成した後、分子動力学シミュレーションモジュール108を使用して、機械学習モデル1
07の出力を検証することができる。操作されたポリペプチド設計デバイス101は、ブ
ループリント記録の第2のセットに基づいて操作されたポリペプチドを生成し、参照標的
構造および操作されたポリペプチドの構造の各々の表現の分子動力学(MD)シミュレー
ションを使用する参照標的構造の表現に対する動的構造の比較を実行することによって、
第2のブループリント記録のサブセットをフィルタリングしてもよい。例えば、分子動力
学シミュレーションモジュール108は、操作されたポリペプチドの数個(例えば、10
ヒット未満である)を選択してもよい(これは、ブループリント記録の第2のセットに基
づく)。一部の実例では、MDシミュレーションは、境界条件、拘束、および/または平
衡下で実施されてもよい。一部の実例では、MDシミュレーションは、モデル準備のステ
ップ、平衡化(例えば、100K~300Kの温度)のステップ、力場パラメータおよび
/または溶媒モデルパラメータを、参照標的構造および操作されたポリペプチドの各構造
の表現に適用するステップを含み、溶液条件下で実施されてもよい。一部の実例では、M
Dシミュレーションは、拘束された最小化(例えば、構造上の衝突を緩和する)、拘束さ
れた加熱(例えば、100ピコ秒の抑制された加熱および周囲温度への段階的な増加)、
緩和された拘束(例えば、100ピコ秒の抑制を緩め、および骨格拘束を段階的に除去す
る)、および/または同種のものを受けることができる。
【0043】
一部の実装では、機械学習モデル107は、帰納的機械学習モデルである。訓練される
と、こうした機械学習モデル107は、例えば、ブループリントのスコアを計算するため
の数値法(例えば、計算タンパク質モデリングモジュール、密度関数理論に基づく分子動
力学エネルギーシミュレーター、および/または同種のもの)によって、ブループリント
記録に基づくスコアを、通常かかる時間のごく一部の時間で予測し得る。したがって、機
械学習モデル107を使用して、ブループリント記録のセットのスコアのセットを迅速に
推定し、最適化アルゴリズムの最適化速度(例えば、50%高速、2倍高速、10倍高速
、100倍高速、1000倍高速、1,000,000倍高速、1,000,000,0
00倍高速、および/または同種のもの)を大幅に改善することができる。一部の実装で
は、機械学習モデル107は、ブループリント記録の第1のセットに対するスコアの第1
のセットを生成し得る。操作されたポリペプチド設計デバイス101のプロセッサ104
は、命令のセットを表すコードを実行して、(例えば、スコアの第1のセットの上位10
%を有する、例えば、スコアの第1のセットの上位2%を有する、および/または同種の
ものを有する)ブループリント記録の第1のセットの上位のパフォーマーを選択してもよ
い。プロセッサ104は、ブループリント記録の第1のセットの中で、上位のパフォーマ
ーのスコアを検証するコードをさらに含んでもよい。一部の変形では、対応する検証され
たスコアが、スコアの第1のセットのいずれかよりも大きい値を有する場合、ブループリ
ント記録の第1のセットの中での上位のパフォーマーを出力として生成することができる
。一部の変形では、機械学習モデル107は、ブループリント記録の第2のセット、およ
びブループリント記録を含むスコアの第2のセット、および上位のパフォーマーのスコア
を含む、新しいデータセットに基づいて再訓練され得る。
【0044】
ネットワーク150は、サーバーおよび/またはコンピューティングデバイスのデジタ
ル通信ネットワークとすることができる。ネットワーク上のサーバーおよび/またはコン
ピューティングデバイスは、例えば、データストレージまたはコンピューティングパワー
などのリソースを共有するために、1つ以上の有線または無線通信ネットワーク(図示せ
ず)を介して接続されてもよい。ネットワークのサーバーおよび/またはコンピューティ
ングデバイス間の有線または無線通信ネットワークは、1つ以上の通信チャネル(例えば
、無線周波数(RF)通信チャネル、光ファイバー通信チャネル、および/または同種の
もの)を含んでもよい。ネットワークは、例えば、インターネット、イントラネット、ロ
ーカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、メトロポ
リタンエリアネットワーク(MAN)、マイクロ波アクセスネットワークのための世界的
な相互運用性(WiMAX(登録商標))、仮想ネットワーク、任意のその他の適切な通
信システム、および/またはこうしたネットワークの組み合わせとすることができる。
【0045】
バックエンドサービスプラットフォーム160は、例えば、インターネットなどのサー
バーおよび/またはコンピューティングデバイスのデジタル通信ネットワークに、および
/またはデジタル通信ネットワーク内に動作可能に結合されたコンピューティングデバイ
ス(例えば、サーバー)であってもよい。一部の変形では、バックエンドサービスプラッ
トフォーム160は、例えば、サービスとしてのソフトウェア(SaaS)、サービスと
してのプラットフォーム(PaaS)、サービスとしてのインフラストラクチュア(Ia
aS)、および/または同種のものなどのクラウドベースのサービスを含んでもよく、お
よび/または実行してもよい。一実施例では、バックエンドサービスプラットフォーム1
60は、タンパク質構造、ブループリント記録、ロゼッタエネルギー、分子動力学エネル
ギー、および/または同種のものを含む大量のデータを記憶するためのデータストレージ
を提供することができる。別の実施例では、バックエンドサービスプラットフォーム16
0は、計算タンパク質モデリング、分子動力学シミュレーション、訓練機械学習モデル、
および/または同種のもののセットを実行するための高速コンピューティングを提供する
ことができる。
【0046】
一部の変形では、本明細書に記載の計算タンパク質モジュール106の手順は、クラウ
ドコンピューティングサービスを提供するバックエンドサービスプラットフォーム160
で実行されてもよい。こうした変形では、操作されたポリペプチド設計デバイス101は
、通信インターフェース103を使用して、信号をバックエンドサービスプラットフォー
ム160に送信して、ブループリント記録のセットを生成するように構成されてもよい。
バックエンドサービスプラットフォーム160は、ブループリント記録のセットを生成す
る計算タンパク質モデリングプロセスを実行することができる。次いで、バックエンドサ
ービスプラットフォーム160は、ネットワーク150を介して、ブループリント記録の
セットを操作されたポリペプチド設計デバイス101に送信することができる。
【0047】
一部の変形では、操作されたポリペプチド設計デバイス101は、機械学習モデル10
7を含むファイルを、操作されたポリペプチド設計デバイス101から遠隔のユーザコン
ピューティングデバイス(図示せず)に送信することができる。ユーザコンピューティン
グデバイスは、設計基準を満たす(例えば、所望のスコアを有する)、ブループリント記
録のセットを生成するように構成されてもよい。一部の変形では、ユーザコンピューティ
ングデバイスは、操作されたポリペプチド設計デバイス101から、参照標的構造を受信
する。ユーザコンピューティングデバイスは、各ブループリント記録が標的残基位置およ
び足場残基位置を含むように、参照標的構造の所定の部分からブループリント記録の第1
のセットを生成し得る。各標的残基位置は、標的残基のセットからの1つの標的残基に対
応する。ユーザコンピューティングデバイスは、ブループリント記録の第1のセット、ま
たはその表現、および第1のセットのスコアに基づいて、機械学習モデルをさらに訓練す
ることができる。ユーザコンピューティングデバイスは、訓練後に、機械学習モデルを実
行して、少なくとも1つの所望のスコアを有する(例えば、特定の設計基準を満たす)ブ
ループリント記録の第2のセットを生成してもよい。ブループリント記録の第2のセット
は、計算タンパク質モデリングで入力として受信されて、ブループリント記録の第2のセ
ットに基づいて、操作されたポリペプチドを生成してもよい。
【0048】
図2は、操作されたポリペプチド設計についての例示的な機械学習モデル202(
図1
に関して説明され、かつ示されたような機械学習モデル107と同様である)の概略図で
ある。機械学習モデル202は、ブループリント記録の設計空間を、それらのブループリ
ント記録に基づいて構築されたポリペプチドのエネルギー項に対応するスコアと相関させ
る、教師あり機械学習モデルであってもよい。機械学習モデルは、生成動作モードおよび
/または帰納動作モードを有してもよい。
【0049】
生成動作モードでは、機械学習モデル202は、ブループリント記録の第1のセット2
01およびスコアの第1のセット203で訓練される。訓練されると、機械学習モデル2
02は、スコアの第1のセットよりも統計的に高い(例えば、高い平均値を有する)スコ
アの第2のセットを有する、ブループリント記録の第2のセットを生成する。帰納動作モ
ードでは、機械学習モデル202はまた、ブループリント記録の第1のセット201およ
びスコアの第1のセット203で訓練される。訓練されると、機械学習モデル202は、
ブループリント記録の第2のセットに対するスコアの第2のセットを生成する。スコアの
第2のセットは、履歴訓練データ(例えば、ブループリント記録の第1のセットおよびス
コアの第1のセット)に基づく予測スコアのセットであり、計算タンパク質モデリング(
図1に関して示され、かつ説明されるような計算タンパク質モデリングモジュール106
と同様である)または分子動力学シミュレーション(
図1に関して示され、かつ説明され
る分子動力学モジュール108と同様である)を使用する、数値的に計算されたスコアお
よび/またはエネルギー項よりも大幅に速く(例えば、50%高速、2倍高速、10倍高
速、100倍高速、1000倍高速、1,000,000倍高速、1,000,000,
000倍高速、および/または同種のもの)生成される。
【0050】
図3は、操作されたポリペプチド設計300の例示的な方法の概略図である。操作され
たポリペプチド設計300の方法は、例えば、操作されたポリペプチド設計デバイス(図
1に関して示され、かつ説明されたような操作されたポリペプチド設計デバイス101と
同様である)によって実施されてもよい。操作されたポリペプチド設計300の方法には
、任意に、ステップ301で、参照標的に対する参照標的構造を受信するステップが含ま
れる。操作されたポリペプチド設計300の方法には、任意に、ステップ302で、参照
標的構造の所定の部分からブループリント記録の第1のセットを生成することを含み、ブ
ループリント記録の第1のセットからの各ブループリント記録は、標的残基位置および足
場残基位置を含み、各標的残基位置は、標的残基のセットからの1つの標的残基に対応す
る。一部の実例では、標的残基は、非連続的である。一部の実例では、標的残基は、非順
序的である。操作されたポリペプチド設計300の方法には、ステップ303で、ブルー
プリント記録の第1のセット、またはその表現、およびスコアの第1のセットに基づいて
、機械学習モデル(
図1に関して示され、かつ説明されたような機械学習モデル107と
同様である)を訓練することを含んでもよく、ブループリント記録の第1のセットからの
各ブループリント記録は、スコアの第1のセットからの各スコアに関連付けられている。
表現は、データ準備モジュール(
図1に関して示され、かつ説明されたようなデータ準備
モジュールと同様である)を使用して、ブループリント記録の第1のセットに基づいて生
成されてもよい。操作されたポリペプチド設計300の方法は、ステップ304で、訓練
後に、機械学習モデルを実行して、少なくとも1つの所望のスコア(例えば、1つのスコ
アまたは複数のスコア)を有するブループリント記録の第2のセットを生成することをさ
らに含む。一部の構成では、機械学習モデルは、生成機械学習モデルを含み、少なくとも
1つの所望のスコアは、操作されたポリペプチド設計デバイスのユーザによって決定され
るプリセット値である。一部の構成では、機械学習モデルは、ブループリント記録の第2
のセットに対する予測スコアのセットを予測する帰納的機械学習モデルを含む。ブループ
リント記録のサブセットの第2のセットのサブセットは、ブループリント記録のサブセッ
トからの各ブループリント記録が、少なくとも1つの所望のスコアよりも大きいスコアを
有するように選択され得る。一部の構成では、少なくとも1つの所望のスコアは、動的に
決定されてもよい。例えば、少なくとも1つの所望のスコアは、予測スコアのセットの9
0パーセンタイルであると決定されてもよい。
【0051】
操作されたポリペプチド設計300の方法は、任意に、305で、例えば、ロゼッタリ
モデラー、ab initio分子動力学シミュレーション、AlphaFoldもしく
はtrRosettaなどの機械学習の構造予測、構造的知識ベースに裏打ちされたタン
パク質フォールディング、ニューラルネットワークタンパク質フォールディング、系列ベ
ースの再帰もしくはトランスフォーマーネットワークタンパク質フォールディング、敵対
的ネットワークタンパク質構造の生成、Markov Chain Monte Car
loタンパク質フォールディング、および/または同種のものを使用することにより、ス
コアの第2のセット(例えば、スコアのグランドトゥルース)を計算することによって、
機械学習モデルを再訓練するかどうかを決定することを含む。次に、操作されたポリペプ
チド設計デバイスは、スコアの第2のセットを、予測スコアのセットと比較し、スコアの
第2のセットからの予測スコアの偏差に基づいて、機械学習モデルを再訓練するかどうか
を決定する。操作されたポリペプチド設計300の方法は、任意に、305で、決定する
ことに応答して、(1)ブループリント記録の第2のセットを含む再訓練ブループリント
記録、および(2)予測スコアのセットを含む再訓練スコアに基づいて、機械学習モデル
を再訓練することを含む。一部の構成では、操作されたポリペプチド設計デバイスは、ブ
ループリント記録の第1のセットとブループリント記録の第2のセットとを連結して、再
訓練されたブループリント記録を生成し得る。操作されたポリペプチド設計デバイスは、
スコアの第1のセットとスコアの第2のセットを連結して、再訓練スコアをさらに生成し
得る。一部の構成では、ブループリント記録の再訓練は、ブループリント記録の第2のセ
ットのみを含み、再訓練スコアは、スコアの第2のセットのみを含む。
【0052】
図4は、操作されたポリペプチド設計400の例示的な方法の概略図である。操作され
たポリペプチド設計400の方法は、例えば、操作されたポリペプチド設計デバイス(図
1に関して示され、かつ説明されたような操作されたポリペプチド設計デバイス101と
同様である)によって実施されてもよい。操作されたポリペプチド設計400の方法には
、ステップ401で、ブループリント記録の第1のセット、またはその表現、およびスコ
アの第1のセットに基づいて、機械学習モデル(
図1に関して示され、かつ説明されたよ
うな機械学習モデル107と同様である)を訓練することを含み、ブループリント記録の
第1のセットからの各ブループリント記録は、スコアの第1のセットからの各スコアに関
連付けられている。表現は、データ準備モジュール(
図1に関して示され、かつ説明され
たようなデータ準備モジュールと同様である)を使用して、ブループリント記録の第1の
セットに基づいて生成されてもよい。操作されたポリペプチド設計400の方法は、ステ
ップ402で、訓練後に、機械学習モデルを実行して、少なくとも1つの所望のスコアを
有するブループリント記録の第2のセットを生成することをさらに含む。操作されたポリ
ペプチド設計400の方法は、任意に、ステップ403で、ブループリント記録の第2の
セット上で計算タンパク質モデリングを実施して、操作されたポリペプチドを生成するこ
とを含む。一部の構成では、操作されたポリペプチド設計400の方法は、任意に、ステ
ップ404で、参照標的構造の表現に対する静的構造の比較によって操作されたポリペプ
チドをフィルタリングすることを含む。一部の構成では、操作されたポリペプチド設計4
00の方法は、任意に、ステップ405で、参照標的構造および操作されたポリペプチド
の構造の各々の表現の分子動力学(MD)シミュレーションを使用する参照標的構造の表
現に対する動的構造の比較によって、操作されたポリペプチドをフィルタリングすること
を含む。
【0053】
図5は、操作されたポリペプチド設計デバイス用のデータを準備する例示的な方法の概
略図である。左に、標的タンパク質の構造のリボン図を示す。所定の部分は、スティック
図として示される所定の部分のアミノ酸残基の側鎖とともに、より暗い色で示されている
。この実施例では、所定の部分は、抗体の所望の標的エピトープである標的タンパク質の
一部分である。このエピトープを再現するために操作されたポリペプチドを生成すること
によって、標的タンパク質のこの部分に特異的に結合する抗体を得ることができることが
期待される。
【0054】
図5の右パネルは、ブループリントのセットの図を示す。各円は、残基位置を示してい
る。足場-残基位置は淡灰色であり、側鎖は示されていない。標的-残基位置はより濃い
灰色であり、各々の側鎖が示されている。側鎖は、公知の天然由来のアミノ酸の側鎖であ
る。一部の実例では、標的-残基および/または足場-残基は、非天然アミノ酸である。
この実施例では、各標的-残基位置は、標的タンパク質の参照標的構造の所定の部分の正
確に1つの残基に対応する。示されるブループリントのセットは、すべての図において、
標的-残基位置が同じ順序であるという点で、「順序付け」されている。標的残基の順序
は、標的タンパク質配列中の残基と同じ順序である必要はない。最初と最後のブループリ
ントは、連続的な標的-残基位置を有しているが、他のブループリントは、不連続である
。少なくとも1つの足場-残基位置は、最初と最後の標的-残基位置の間に位置する。文
字NおよびCは、所与のブループリントに一致するポリペプチドのアミノ(N)末端およ
びカルボキシル(C)末端を示す。
【0055】
図5に示す5つのブループリントは、図の線の間の楕円によって示される、可能性のあ
るブループリントの膨大なセットのメンバーである。35個の位置を有するブループリン
ト(35量体ポリペプチドと一致する)については、標的残基が順序付けられたと仮定す
ると、式35!÷(11!×(35-11)!)=4200億によって、潜在的なブルー
プリントの総数が与えられる。利用可能な最大のスーパーコンピューティングサービスを
利用しても、考えられるすべての35量体でのロゼッタリモデラー計算は、何年にもわた
る時間を費やすことになるだろう。したがって、各ブループリントの直接的な計算モデリ
ングは、現在のコンピュータデバイスおよび方法を使用して、個別には計算不可能である
。
【0056】
図6は、操作されたポリペプチド設計の例示的な方法の概略図である。概略図の右側の
部分は、どのようにブループリント記録(例えば、入力としての使用に適したブループリ
ント記録に変換された、図示せず)が、(ロゼッタリモデラーを含むが、これに限定され
ない、
図1に関して示され、かつ説明された計算タンパク質モデリングプログラム106
と同様である)計算タンパク質モデリングプログラムに供給されて、ラベルとして使用す
るためのスコアを生成することができるかを示している。スコアは一般的に、モデリング
プログラムによって使用されるエネルギー項を反映する。ロゼッタリモデラーの場合、こ
のスコアは、ブループリントから生成された設計ポリペプチドのフォールディングを反映
するエネルギー項と、設計ポリペプチドの予測された構造の構造類似性および標的タンパ
ク質の参照標的構造の所定の部分の既知の構造を反映する構造制約一致項との両方を含む
。他のモデリングプログラムおよび他のスコアリング関数を使用してもよい。
【0057】
概略図の左側の部分は、ブループリントがブループリントの表現に変換されることを示
している。表現は、機械学習モデル(
図1に関して示され、かつ説明されたような機械学
習モデル107など)での使用に適した任意の表現であってもよい。ここで、表現はベク
トルである。より具体的には、ベクトルは、標的-残基位置間の介在する足場残基の数の
順序付けられたリストである。標的-残基位置の順序がこの表現で固定されているため、
この表現が使用されてもよく、それゆえ、表現は、標的-残基位置のアミノ酸同一性を特
定する必要はない。その情報は暗示されている。標的-残基位置の順序は、標的構造配列
中と同じ順序である必要はない。ベクトルの第1の要素である8は、第1の標的-残基位
置の前に8つの足場-残基位置があることを示す。ベクトルの第2の要素である1は、第
1の標的-残基位置の後に、第2の標的-残基位置の前に1つの足場-残基位置があるこ
とを示す。0、1、2、または3の後続の要素は、介在する足場-残基位置がないこと、
1つの介在する足場-残基位置があること、2つの介在する足場-残基位置があること、
または3つの介在する足場-残基位置があることを示す。ベクトルの最後の要素である、
4は、ブループリント内の最後の4つの位置が足場-残基位置であることを示す。
【0058】
ブループリント記録の表現のこの変形の利点は、最初と最後の要素以外に、ベクトルが
フレームシフト不変であることである。すなわち、機械学習モデルは、ブループリント内
の標的残基の位置とは無関係に、標的残基の相対的位置に関する利用可能な情報を有する
。これにより、N末端およびC末端に可変な構造化/非構造化領域を有する類似の構造の
設計が可能となる。
【0059】
図7は、操作されたポリペプチド設計のための機械学習モデルの例示的な性能の概略図
である。散布図は、どのように機械学習モデル(
図1に関して示され、かつ説明されたよ
うな機械学習モデル107など)が、ブループリント記録のセットに対する予測スコアの
セットを正確に生成/予測できるかを示す。散布図の各ドットは、ブループリント記録の
セットからのブループリント記録を表す。横軸は、例えば、ロゼッタリモデラー、Ab
initio分子動力学シミュレーション、および/または同種のものなどの数値法によ
って計算され得る、ブループリント記録のセットのグランドトゥルーススコアを表す。縦
軸は、数値法よりも実質的に速く(例えば、50%高速、2倍高速、10倍高速、100
倍高速、1000倍高速、1,000,000倍高速、1,000,000,000倍高
速、および/または同種のもの)動作する機械学習モデルによって生成/予測される、ブ
ループリント記録のセットに対する予測スコアを表す。理想的には、予測されるスコアは
、グランドトゥルーススコアに対応する(例えば、等しい、近似する)。予測スコアがグ
ランドトゥルーススコアに対応しない場合、機械学習モデルは、ブループリント記録の新
しく生成されたセットの新しく生成された予測スコアが、ブループリント記録の新しく生
成されたセットのグランドトゥルーススコアに対応するまで、ブループリント記録のセッ
トおよびグランドトゥルーススコアによって再訓練されてもよい。概して、スコアは、例
えば、ロゼッタエネルギー関数2015(REF15)などのエネルギー項および
図6に
関して説明したような構造制約一致項の両方を含んでもよい。スコアは、本明細書で
図7
に示されるように、ブループリント記録の低いスコアが低分子動力学エネルギーおよびブ
ループリント記録のより高い安定性を反映するように定義されてもよい。一部の変形では
、スコアは、ブループリント記録の高スコアが、ブループリント記録に基づいて構築され
るポリペプチドのより高い安定性を一般的に反映するように定義されてもよい。
【0060】
図8は、操作されたポリペプチド設計のための機械学習モデルを使用する例示的な方法
の概略図である。
図8に示すように、ブループリント記録の第1のセットおよびスコアの
第1のセットを含む初期データセット(例えば、ロゼッタエネルギーまたは分子動力学エ
ネルギーなどのエネルギー項を表す)を生成し、データ準備モジュール(
図1に関して示
され、かつ説明されたようなデータ準備モジュール105など)によってさらに準備する
ことができる。機械学習モデル(
図1に関して示され、かつ説明されたような機械学習モ
デル107と同様である)は、初期データセットに基づいて訓練されてもよい。ブループ
リント記録の第2のセットは、スコアの第2のセットを生成するための入力として、機械
学習モデルに与えられてもよい。所定の値(例えば、所望のスコア)を超えるスコアを有
する、ブループリント記録の第2のセットまたはブループリント記録の第2のセットの一
部分は、グランドトゥルーススコアについて検証されてもよい。スコアの第2のセットが
、十分な精度で(例えば、95%を超える精度を有する)、グランドトゥルーススコアに
対応する場合、ブループリント記録の第2のセット、またはブループリント記録の第2の
セットの一部分が、ユーザに提示されてもよい。そうでなければ、ブループリント記録の
第2のセット、またはブループリント記録の第2のセットの一部分を使用して、機械学習
モデルを再訓練してもよい。一部の実例では、望ましいスコアでブループリントを達成す
るために、ブループリント記録の第3のセット、ブループリント記録の第4のセット、ま
たは反復するより大きな数のブループリント記録が生成されてもよい。一部の実例では、
望ましいスコアを達成するために必要なだけ多くのブループリントのセットが、ブループ
リントおよびスコアの新しいセットについて機械学習モデルを繰り返し再訓練することに
よって生成される。操作されたポリペプチド設計を生成するために機械学習モデルを訓練
および使用するための手順を示す例示的なコードスニペットは、以下の通りである。
training_energies=Rosetta(training_scaff
olds)##ロゼッタエネルギーは、足場の初期訓練セットに対して計算される
training_energiesが収束していない間:##ロゼッタエネルギーが改
善を停止するまで繰り返される
training_scaffoldsからtraining_energiesを予
測するためにxgboostを訓練する##足場の訓練セットからロゼッタのエネルギー
を予測するようにXGBoostを訓練する
predicted_scaffolds=xgboostから上位の予測された足場
##XGBoostで最適な足場を予測する
new_energies=Rosetta(predicted_scaffold
s)##ロゼッタエネルギーは、予測足場に対して計算される
predicted_scaffoldsをtraining_scaffoldsに
追加する##予測された足場を訓練セットに追加する
new_energiesをtraining_energiesに追加する##予測
された足場エネルギーを訓練セットに追加する
【0061】
図9は、操作されたポリペプチド設計のための機械学習モデルの例示的な性能の概略図
である。
図5に関して記載したように、35個の位置を有する例示的なブループリント(
35量体ポリペプチドと一致する)記録については、標的残基が順序付けられたと仮定す
ると、式35!÷(11!×(35-11)!)=4200億によって、潜在的なブルー
プリントの総数が与えられる。したがって、ブルートフォース検出/最適化を使用する各
ブループリントの直接的な計算モデリングは、現在のコンピュータデバイスおよび方法を
使用して、個別には計算不可能であり、数年または数十年かかる場合がある。対照的に、
本明細書に説明される機械学習モデルなどのデータ駆動型アプローチを使用することは、
こうした発見/最適化時間(例えば、数週間、数日、数時間、数分、および/または同種
のものまで)を減少させることができる。
【0062】
図10A~Dは、操作されたポリペプチドを検証するために分子動力学シミュレーショ
ンを実施する例示的な方法を示している。機械学習モデル(
図1に関して示され、かつ説
明されたような機械学習モデル107など)が訓練され、改良/最適化された(例えば、
設計基準を満たす、所望のスコアを有する、および/または同種のもの)生成されたブル
ープリント記録のセットを生成するように実行された後、操作されたポリペプチド設計デ
バイス(
図1に関して示され、かつ説明されたような)は、生成された設計記録のセット
を検証することができる。
【0063】
操作されたポリペプチド設計デバイスは、生成されたブループリント記録のセット上で
計算タンパク質モデリング(
図1に関して示され、かつ説明されたような計算設計モデリ
ングモジュール106を使用して)を実施して、操作されたポリペプチドを生成してもよ
い。一部の実装では、その後、操作されたポリペプチド設計デバイスは、参照標的構造の
表現に対する静的構造の比較を実施することによって、操作されたポリペプチドのサブセ
ットをフィルタリングしてもよい。
【0064】
一部の実装では、その後、操作されたポリペプチド設計デバイスは、参照標的構造およ
び操作されたポリペプチドの構造の各々の表現の分子動力学(MD)シミュレーションを
使用する参照標的構造の表現に対する動的構造の比較によって、操作されたポリペプチド
のサブセットをフィルタリングしてもよい。例えば、操作されたポリペプチド設計デバイ
スは、操作されたポリペプチドのうちの数個(例えば、10ヒット未満)を選択してもよ
い。一部の実例では、MDシミュレーションは、モデル準備、平衡化(例えば、100K
~300Kの温度)、および制限されていないMDシミュレーションのステップを含む溶
液条件下で、参照標的構造および操作されたポリペプチドの構造の各々の表現のダイナミ
クスを決定することができる。一部の実例では、MDシミュレーションは、力場パラメー
タおよび/または溶媒モデルパラメータを、参照標的構造および操作されたポリペプチド
の各構造の表現に適用することを含んでもよい。一部の実例では、MDシミュレーション
は、1000サイクルの間拘束された最小化(例えば、構造上の衝突を緩和する)、拘束
された加熱(例えば、100ピコ秒の抑制された加熱および周囲温度への段階的な増加)
、緩和された拘束(例えば、100ピコ秒の抑制を緩め、および骨格拘束を段階的に除去
する)を受けることができる。
【0065】
図11は、操作されたポリペプチドを検証するために分子動力学シミュレーションを実
施する例示的な方法を示している。一部の実装では、追加的にまたは代替的に、
図10に
関連して記載する方法に対して、MDシミュレーションが時間によって制限され得る。例
えば、MDシミュレーションは、30nsの制約のないダイナミクスに対して実行されて
もよい。一部の実装では、追加的または代替的に、MDシミュレーションは、構造情報に
よって制限され得る。例えば、MDシミュレーションを実行して、このような構造情報を
達成するために必要な任意の時間フレームで観測された構造情報の80%を取得すること
ができる。一部の実装では、MDシミュレーションのスループットと精度のバランスを取
るシミュレーション時間を決定するための測定基準は、参照標的構造および操作されたポ
リペプチドの構造の各々の表現のシミュレーションのコサイン類似性スコアによって計算
されてもよい。
【0066】
図12は、分子動力学シミュレーションを並列化する例示的な方法の概略図である。一
部の実例では、操作されたポリペプチド設計は、多くの(例えば、100s、1000s
、10,000s、および/または同種のもの)分子動力学シミュレーションの実施を伴
い得る。こうした実例では、操作されたポリペプチド設計デバイス(
図1に関して示され
、かつ説明されたような操作されたポリペプチド設計デバイス101のプロセッサ104
など)のプロセッサは、グラフィカルプロセシングユニット(GPU)、加速処理ユニッ
ト、および/または並列に計算を行うことができる任意の他のプロセシングユニットを含
んでもよい。GPUは、対称型マルチプロセシングユニット(SMP)のセットを含んで
もよい。したがって、GPUは、SMPのセットを使用して分子動力学シミュレーション
の数(例えば、10s、100s、および/または同種のもの)を並列に処理するように
構成されてもよい。一部の変形では、クラウドコンピューティングプラットフォーム(図
1に関して示され、かつ説明されたようなバックエンドサービスプラットフォーム160
など)上のマルチコア処理ユニットを使用して、分子動力学シミュレーションの数を並列
に処理してもよい。
【0067】
図13は、操作されたポリペプチド設計のための機械学習モデルを検証する例示的な方
法の概略図である。一部の実装では、スコアリング方法は、各操作されたポリペプチドを
評価するために、参照標的構造の表現の分子動力学(MD)シミュレーション結果、およ
び操作されたポリペプチドの各々のMDシミュレーション結果に使用され得る。スコアリ
ング方法は、平均二乗偏差(RMSD)を使用することを伴ってもよく、
【数1】
ここで、Nは、原子の数であり、X
iは、参照標的構造の参照位置のベクトルであり、Y
i
は、各操作されたポリペプチドの位置のベクトルである。あるいは、MEMおよびエピト
ープ構造の動的マッチングのスコアリングは、二乗平均平方根内積(RMSIP)を使用
して実施されてもよく、
【数2】
ここで、固有ベクトルψ&φは、それぞれ、N個の所定の参照残基について、参照標的構
造の固有ベクトルおよび操作されたポリペプチドの固有ベクトルであり、対応する固有値
によって最高から最低までソートされる。固有ベクトルψ&φの各々は、動きの最低の周
波数モードを表しており、この場合、対応する固有値でソートされた上位10個の固有ベ
クトルが使用される。参照標的構造の固有ベクトルおよび操作されたポリペプチドの固有
ベクトルは、例えば、主成分分析(PCA)を使用して計算されてもよい。
【0068】
前述の説明は、説明を目的として、本発明の完全な理解を提供するために特定の命名法
を使用した。しかしながら、本発明を実施するために特定の詳細を必要としないことは、
当業者には明らかであろう。したがって、本発明の特定の実施形態の前述の説明は、例示
および説明の目的で提示されている。それらは、網羅的であることを意図しておらず、ま
たは開示された正確な形態に本発明を限定することを意図していない。明らかに、上記の
教示に照らして、多くの修正および変形が可能である。実施形態は、本発明の原理および
その実用的な適用を説明するために選択および説明され、それによって、当業者が本発明
および企図される特定の使用に適したような様々な修正を有する様々な実施形態を利用す
ることが可能になる。以下の特許請求の範囲およびそれらの等価物は、本発明の範囲を定
義することが意図される。
【0069】
列挙された実施形態:
実施形態I-1.方法であって、
第1の複数のブループリント記録、またはそれらの表現、および第1の複数のスコアに基
づいて、機械学習モデルを訓練することであって、第1の複数のブループリント記録から
の各ブループリント記録が、第1の複数のスコアからの各スコアに関連付けられている、
訓練することと、
訓練後に、機械学習モデルを実行して、少なくとも1つの所望のスコアを有する第2の複
数のブループリント記録を生成することと、を含み、
第2の複数のブループリント記録が、計算タンパク質モデリングで入力として受信されて
、第2の複数のブループリント記録に基づいて、操作されたポリペプチドを生成するよう
に構成されている、方法。
【0070】
実施形態I-2.
参照標的に対する参照標的構造の表現を受信することと、
参照標的構造の所定の部分から第1の複数のブループリント記録を生成することであって
、第1の複数のブループリント記録からの各ブループリント記録が、標的残基位置および
足場残基位置を含み、各標的残基位置が、複数の標的残基からの1つの標的残基に対応す
る、生成することと、を含む、実施形態I-1に記載の方法。
【0071】
実施形態I-3.少なくとも1つのブループリント記録において、標的残基位置が、非
連続的である、実施形態I-1またはI-2に記載の方法。
【0072】
実施形態I-4.少なくとも1つのブループリント記録において、標的残基位置が、参
照標的配列中の標的残基位置の順序とは異なる順序にある、実施形態I-1~I-3のい
ずれか1つに記載の方法。
【0073】
実施形態I-5.
第1の複数のブループリント記録からの各ブループリント記録について、
そのブループリント記録上で計算タンパク質モデリングを実施して、ポリペプチド構造を
生成することと、
ポリペプチド構造のスコアを計算することと、
スコアをそのブループリント記録と関連付けることと、によって、第1の複数のブループ
リント記録にラベルを付けることを含む、実施形態I-1~I-4のいずれか1つに記載
の方法。
【0074】
実施形態I-6.計算タンパク質モデリングが、参照標的構造とテンプレートを一致さ
せることなく、デノボ設計に基づく、実施形態I-1~I-5のいずれか1つに記載の方
法。
【0075】
実施形態I-7.第1の複数のスコアからの各スコアが、エネルギー項と、参照標的構
造の表現から抽出された1つ以上の構造制約を使用して決定される、構造制約一致項と、
を含む、実施形態I-1~I-6のいずれか1つに記載の方法。
【0076】
実施形態I-8.
第2の複数のブループリント記録に対する第2の複数のスコアを計算することによって、
機械学習モデルを再訓練するかどうかを決定することと、
決定することに応答して、(1)第2の複数のブループリント記録を含む再訓練ブループ
リント記録、および(2)第2の複数のスコアを含む再訓練スコアに基づいて、機械学習
モデルを再訓練することと、を含む、実施形態I-1~I-7のいずれか1つに記載の方
法。
【0077】
実施形態I-9.
機械学習モデルを再訓練することの後に、第1の複数のブループリント記録および第2の
複数のブループリント記録を連結して、再訓練ブループリント記録を生成し、再訓練スコ
アを生成することを含み、再訓練ブループリント記録からの各ブループリント記録が、再
訓練スコアからのスコアに関連付けられている、実施形態I-8に記載の方法。
【0078】
実施形態I-10.少なくとも1つの所望のスコアが、プリセット値である、実施形態
I-1~I-9のいずれか1つに記載の方法。
【0079】
実施形態I-11.少なくとも1つの所望のスコアが、動的に決定される、実施形態I
-1~I-9のいずれか1つに記載の方法。
【0080】
実施形態I-12.機械学習モデルが、教師あり機械学習モデルである、実施形態I-
1~I-10のいずれか1つに記載の方法。
【0081】
実施形態I-13.教師あり機械学習モデルが、決定木のアンサンブル、ブーストされ
た決定木アルゴリズム、eXtreme勾配ブースティング(XGBoost)モデル、
またはランダムフォレストを含む、実施形態I-12に記載の方法。
【0082】
実施形態I-14.教師あり機械学習モデルが、サポートベクトルマシン(SVM)、
フィードフォワード機械学習モデル、再帰型ニューラルネットワーク(RNN)、畳み込
みニューラルネットワーク(CNN)、グラフニューラルネットワーク(GNN)、また
はトランスフォーマーニューラルネットワークを含む、実施形態I-12に記載の方法。
【0083】
実施形態I-15.機械学習モデルが、帰納的機械学習モデルである、実施形態I-1
~I-14のいずれか1つに記載の方法。
【0084】
実施形態I-16.機械学習モデルが、生成機械学習モデルである、実施形態I-1~
I-14のいずれか1つに記載の方法。
【0085】
実施形態I-17.第2の複数のブループリント記録上で計算タンパク質モデリングを
実施して、操作されたポリペプチドを生成することを含む、実施形態I-1~I-16の
いずれか1つに記載の方法。
【0086】
実施形態I-18.参照標的構造の表現に対する静的構造の比較によって、操作された
ポリペプチドをフィルタリングすることを含む、実施形態I-1~I-17のいずれか1
つに記載の方法。
【0087】
実施形態I-19.参照標的構造および操作されたポリペプチドの構造の各々の表現の
分子動力学(MD)シミュレーションを使用する参照標的構造の表現に対する動的構造の
比較によって、操作されたポリペプチドをフィルタリングすることを含む、実施形態I-
1~I-18のいずれか1つに記載の方法。
【0088】
実施形態I-20.MDシミュレーションが、対称型マルチプロセシング(SMP)を
使用して並列して実施される、実施形態I-19に記載の方法。
【0089】
実施形態I-21.第2の複数のブループリント記録中のブループリント記録の数が、
第1の複数のブループリント記録中のブループリント記録の数よりも少ない、実施形態I
-1~I-20のいずれか1つに記載の方法。
【0090】
実施形態I-22.プロセッサによって実行される命令を表すコードを記憶する非一時
的プロセッサ可読媒体であって、コードが、プロセッサに、
第1の複数のブループリント記録、またはそれらの表現、および第1の複数のスコアに基
づいて、機械学習モデルを訓練することであって、第1の複数のブループリント記録から
の各ブループリント記録が、第1の複数のスコアからの各スコアに関連付けられている、
訓練することと、
訓練の後、機械学習モデルを実行して、少なくとも1つの所望のスコアを有する第2の複
数のブループリント記録を生成することと、を行わせるコードを含み、
第2の複数のブループリント記録が、計算タンパク質モデリングで入力として受信されて
、第2の複数のブループリント記録に基づいて、操作されたポリペプチドを生成するよう
に構成されている、非一時的プロセッサ可読媒体。
【0091】
実施形態I-23.プロセッサに、
参照標的構造の表現を受信することと、
参照標的構造の所定の部分から第1の複数のブループリント記録を生成することであって
、第1の複数のブループリント記録からの各ブループリント記録が、標的残基位置および
足場残基位置を含み、複数の標的残基位置からの各標的残基位置が、複数の標的残基から
の1つの標的残基に対応する、生成することと、を行わせる、コードを含む、実施形態I
-22に記載の媒体。
【0092】
実施形態I-24.少なくとも1つのブループリント記録において、標的残基位置が、
非連続的である、実施形態I-23に記載の媒体。
【0093】
実施形態I-25.少なくとも1つのブループリント記録において、標的残基位置が、
参照標的配列中の標的残基位置の順序とは異なる順序にある、実施形態I-23またはI
-24に記載の媒体。
【0094】
実施形態I-26.プロセッサに、
各ブループリント記録上で計算タンパク質モデリングを実施して、ポリペプチド構造を生
成することと、ポリペプチド構造のスコアを計算することと、スコアをブループリント記
録と関連付けることと、によって、第1の複数のブループリント記録にラベルを付けさせ
るコードを含む、実施形態I-23~I-25のいずれか1つに記載の媒体。
【0095】
実施形態I-27.計算タンパク質モデリングが、参照標的構造とテンプレートを一致
させることなく、デノボ設計に基づく、実施形態I-26に記載の媒体。
【0096】
実施形態I-28.各スコアが、エネルギー項と、参照標的構造の表現から抽出された
1つ以上の構造制約を使用して決定される、構造制約一致項と、を含む、実施形態I-2
6またはI-27に記載の媒体。
【0097】
実施形態I-29.プロセッサに、
第2の複数のブループリント記録に対する第2の複数のスコアを計算することによって、
機械学習モデルを再訓練するかどうかを決定することと、
決定することに応答して、(1)第2の複数のブループリント記録を含む再訓練ブループ
リント記録、および(2)第2の複数のスコアを含む再訓練スコアに基づいて、機械学習
モデルを再訓練することと、を行わせるコードを含む、実施形態I-22~I-28のい
ずれか1つに記載の媒体。
【0098】
実施形態I-30.プロセッサに、
機械学習モデルを再訓練することの後に、第1の複数のブループリント記録および第2の
複数のブループリント記録を連結して、再訓練ブループリント記録を生成させ、再訓練ス
コアを生成させるコードを含み、再訓練ブループリント記録からの各ブループリント記録
が、再訓練スコアからのスコアに関連付けられている、実施形態I-29に記載の媒体。
【0099】
実施形態I-31.少なくとも1つの所望のスコアが、プリセット値である、実施形態
I-22~I-30のいずれか1つに記載の媒体。
【0100】
実施形態I-32.少なくとも1つの所望のスコアが、動的に決定される、実施形態I
-22~I-31のいずれか1つに記載の媒体。
【0101】
実施形態I-33.機械学習モデルが、教師あり機械学習モデルである、実施形態I-
22~I-32のいずれか1つに記載の媒体。
【0102】
実施形態I-34.教師あり機械学習モデルが、決定木のアンサンブル、ブーストされ
た決定木アルゴリズム、eXtreme勾配ブースティング(XGBoost)モデル、
またはランダムフォレストを含む、実施形態I-22~I-33のいずれか1つに記載の
媒体。
【0103】
実施形態I-35.教師あり機械学習モデルが、サポートベクトルマシン(SVM)、
フィードフォワード機械学習モデル、再帰型ニューラルネットワーク(RNN)、畳み込
みニューラルネットワーク(CNN)、グラフニューラルネットワーク(GNN)、また
はトランスフォーマーニューラルネットワークを含む、実施形態I-33に記載の媒体。
【0104】
実施形態I-36.機械学習モデルが、帰納的機械学習モデルである、実施形態I-2
2~I-35のいずれか1つに記載の媒体。
【0105】
実施形態I-37.機械学習モデルが、生成機械学習モデルである、実施形態I-22
~I-36のいずれか1つに記載の媒体。
【0106】
実施形態I-38.プロセッサに、
第2の複数のブループリント記録上で計算タンパク質モデリングを実施して、操作された
ポリペプチドを生成させるコードを含む、実施形態I-22~I-37のいずれか1つに
記載の媒体。
【0107】
実施形態I-39.プロセッサに、
参照標的構造の表現に対する静的構造の比較によって、操作されたポリペプチドをフィル
タリングさせるコードを含む、実施形態I-38に記載の媒体。
【0108】
実施形態I-40.プロセッサに、
参照標的構造および操作されたポリペプチドの各々の表現の分子動力学(MD)シミュレ
ーションを使用する参照標的構造の表現に対する動的構造の比較によって、操作されたポ
リペプチドをフィルタリングさせるコードを含む、実施形態I-38またはI-39に記
載の媒体。
【0109】
実施形態I-41.MDシミュレーションが、対称型マルチプロセシング(SMP)を
使用して並列して実施される、実施形態I-40に記載の媒体。
【0110】
実施形態I-42.第2の複数のブループリント記録中のブループリント記録の数が、
第1の複数のブループリント記録中のブループリント記録の数よりも少ない、実施形態I
-22~I-41のいずれか1つに記載の媒体。
【0111】
実施形態I-43.操作されたポリペプチドを選択する装置であって、
プロセッサと、
メモリと、を有する、第1のコンピューティングデバイスを備え、
メモリは、
第1のコンピューティングデバイスから遠隔の第2のコンピューティングデバイスから、
参照標的構造を受信することと、
参照標的構造の所定の部分から第1の複数のブループリント記録を生成することであって
、第1の複数のブループリント記録からの各ブループリント記録が、標的残基位置および
足場残基位置を含み、各標的残基位置が、複数の標的残基からの1つの標的残基に対応す
る、生成することと、
第1の複数のブループリント記録、またはそれらの表現、および第1の複数のスコアに基
づいて、機械学習モデルを訓練することであって、第1の複数のブループリント記録から
の各ブループリント記録が、第1の複数のスコアからの各スコアに関連付けられている、
訓練することと、
訓練の後、機械学習モデルを実行して、少なくとも1つの所望のスコアを有する第2の複
数のブループリント記録を生成することと、を行うためにプロセッサによって実行可能な
命令を記憶しており、
第2の複数のブループリント記録が、計算タンパク質モデリングで入力として受信されて
、第2の複数のブループリント記録に基づいて、操作されたポリペプチドを生成するよう
に構成されている、装置。
【0112】
実施形態I-44.プロセッサに、
第2の複数のブループリント記録に対する第2の複数のスコアを計算することによって、
機械学習モデルを再訓練するかどうかを決定することと、
決定することに応答して、(1)第2の複数のブループリント記録を含む再訓練ブループ
リント記録、および(2)第2の複数のスコアを含む再訓練スコアに基づいて、機械学習
モデルを再訓練することと、を行わせるコードを含む、実施形態I-43に記載の装置。
【0113】
実施形態I-45.所望のスコアが、プリセット値である、実施形態I-43またはI
-44に記載の装置。
【0114】
実施形態I-46.所望のスコアは、動的に決定される、実施形態I-43~I-45
のいずれか1つに記載の装置。
【0115】
実施形態I-47.機械学習モデルが、教師あり機械学習モデルである、実施形態I-
43~I-46のいずれか1つに記載の装置。
【0116】
実施形態I-48.教師あり機械学習モデルが、決定木のアンサンブル、ブーストされ
た決定木アルゴリズム、eXtreme勾配ブースティング(XGBoost)モデル、
またはランダムフォレストを含む、実施形態I-47に記載の装置。
【0117】
実施形態I-49.教師あり機械学習モデルが、サポートベクトルマシン(SVM)、
フィードフォワード機械学習モデル、再帰型ニューラルネットワーク(RNN)、畳み込
みニューラルネットワーク(CNN)、グラフニューラルネットワーク(GNN)、また
はトランスフォーマーニューラルネットワークを含む、実施形態I-47またはI-48
に記載の装置。
【0118】
実施形態I-50.機械学習モデルが、帰納的機械学習モデルである、実施形態I-4
3~I-49のいずれか1つに記載の装置。
【0119】
実施形態I-51.機械学習モデルが、生成機械学習モデルである、実施形態I-43
~I-50のいずれか1つに記載の装置。
【0120】
実施形態I-52.プロセッサに、
第2の複数のブループリント記録上で計算タンパク質モデリングを実施して、操作された
ポリペプチドを生成させるコードを含む、実施形態I-43~I-51のいずれか1つに
記載の装置。
【0121】
実施形態I-53.プロセッサに、
参照標的構造の表現に対する静的構造の比較によって、操作されたポリペプチドをフィル
タリングさせるコードを含む、実施形態I-52に記載の装置。
【0122】
実施形態I-54.プロセッサに、
参照標的構造および操作されたポリペプチドの各々の表現の分子動力学(MD)シミュレ
ーションを使用する参照標的構造の表現に対する動的構造の比較によって、操作されたポ
リペプチドをフィルタリングさせるコードを含む、実施形態I-52または実施形態I-
53に記載の装置。
【0123】
実施形態I-55.MDシミュレーションが、対称型マルチプロセシング(SMP)を
使用して並列して実施される、実施形態I-54に記載の装置。
【0124】
実施形態I-56.実施形態I-1~I-21のいずれか1つに記載の方法、実施形態
I-22~I-42のいずれか1つに記載の媒体、または実施形態I-43~I-55の
いずれか1つに記載の装置によって生成される、操作されたポリペプチド設計。
【0125】
実施形態I-57.操作されたペプチドであって、操作されたペプチドが、1kDa~
10kDaの分子量を有し、最大50個のアミノ酸を含み、操作されたペプチドが、
空間的に関連するトポロジカル制約の組み合わせを含み、制約のうちの1つ以上が、参照
標的由来の制約であり、
操作されたペプチドのアミノ酸の10%~98%が、1つ以上の参照標的由来の制約を満
たし、
1つ以上の参照標的由来の制約を満たすアミノ酸が、参照標的と8.0Å未満の骨格平均
二乗偏差(RSMD)構造相同性を有する、操作されたペプチド。
【0126】
実施形態I-58.1つ以上の参照標的由来の制約を満たすアミノ酸が、参照標的と1
0%~90%の配列相同性を有する、実施形態I-57に記載の操作されたペプチド。
【0127】
実施形態I-59.組み合わせが、少なくとも2つの参照標的由来の制約を含む、実施
形態I-57またはI-58に記載の操作されたペプチド。
【0128】
実施形態I-60.組み合わせが、エネルギー項と、参照標的構造の表現から抽出され
た1つ以上の構造制約を使用して決定される、構造制約一致項と、を含む、実施形態I-
57~I-59のいずれか1つに記載の操作されたペプチド。
【0129】
実施形態I-61.1つ以上の非参照標的由来の制約が、所望の構造的特性、動的特性
、またはそれらの任意の組み合わせを説明する、実施形態I-57~I-60のいずれか
1つに記載の操作されたペプチド。
【0130】
実施形態I-62.参照標的が、生物学的応答または生物学的機能に関連する1つ以上
の原子を含み、
生物学的応答または生物学的機能に関連する操作されたペプチド中の1つ以上の原子の原
子変動が、生物学的応答または生物学的機能に関連する参照標的中の1つ以上の原子の原
子変動と重複する、実施形態I-57~I-61のいずれか一項に記載の操作されたペプ
チド。
【0131】
実施形態I-63.重複が、0.25より大きい二乗平均平方根内積(RMSIP)で
ある、実施形態I-62に記載の操作されたペプチド。
【0132】
実施形態I-64.重複が、0.75より大きい二乗平均平方根内積(RMSIP)を
有する、実施形態I-62またはI-63に記載の操作されたペプチド。
【0133】
実施形態I-65.操作されたペプチドを選択する方法であって、
参照標的の1つ以上のトポロジカル特性を特定することと、
参照標的由来の空間的に関連するトポロジカル制約の組み合わせを生成するように、各ト
ポロジカル特性に対して空間的に関連する制約を設計することと、
候補ペプチドの空間的に関連するトポロジカル特性を、参照標的由来の空間的に関連する
トポロジカル制約の組み合わせと比較することと、
参照標的由来の空間的に関連するトポロジカル制約の組み合わせと重複する、空間的に関
連するトポロジカル特性を有する候補ペプチドを選択して、操作されたペプチドを生成す
ることと、を含む、方法。
【0134】
実施形態I-66.1つ以上の制約が、残基当たりのエネルギーおよび残基当たりの原
子距離に由来する、実施形態I-65に記載の方法。
【0135】
実施形態I-67.1つ以上の候補ペプチドの特性が、コンピュータシミュレーション
によって決定される、実施形態I-65またはI-66のいずれか1つに記載の方法。
【0136】
実施形態I-68.コンピュータシミュレーションが、分子動力学シミュレーション、
モンテカルロシミュレーション、粗視化シミュレーション、ガウスネットワークモデル、
機械学習、またはそれらの任意の組み合わせを含む、実施形態I-67に記載の方法。
【0137】
実施形態I-69.1つ以上の参照標的由来の制約を満たすアミノ酸が、参照標的と1
0%~90%の配列相同性を有する、実施形態I-65~I-68のいずれか1つに記載
の方法。
【0138】
実施形態I-70.1つ以上の非参照標的由来の制約が、所望の構造的特性および/ま
たは動的特性を説明する、実施形態I-65~I-69のいずれか1つに記載の方法。