(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-05-28
(54)【発明の名称】ポリペプチド構造の時空間的決定
(51)【国際特許分類】
G16B 30/00 20190101AFI20240521BHJP
G16B 15/00 20190101ALI20240521BHJP
【FI】
G16B30/00
G16B15/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023571791
(86)(22)【出願日】2022-05-19
(85)【翻訳文提出日】2024-01-16
(86)【国際出願番号】 IB2022054705
(87)【国際公開番号】W WO2022243940
(87)【国際公開日】2022-11-24
(32)【優先日】2021-05-21
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】523435853
【氏名又は名称】ペプトーン, リミテッド
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】ダットン, オリバー
(72)【発明者】
【氏名】フィジカーロ, カルロ
(72)【発明者】
【氏名】ヘバーリング, マシュー マイケル
(72)【発明者】
【氏名】ヘンダーソン, ルイ デレク
(72)【発明者】
【氏名】レドル, イシュトバーン
(72)【発明者】
【氏名】タミオラ, カミル
(57)【要約】
分子動力学シミュレーションから生成された時間ベースのデータを使用してポリペプチド構造をインシリコで生成する方法が本明細書において開示される。インシリコ法を使用してポリペプチドのエピトープまたは結合表面を予測する方法も本明細書に開示される。ポリペプチドの予測エピトープ構造に結合するように設計されたポリペプチド治療薬を含有する組成物、ならびに前記ポリペプチド治療薬を含有する組成物を対象に投与することによって対象を処置する方法も本明細書に開示される。
【特許請求の範囲】
【請求項1】
インシリコのポリペプチド構造生成の方法であって、
a)ポリペプチドの分子動力学(MD)シミュレーションを実行して、時間の関数として出力データを生成する工程であって、前記出力データは、前記ポリペプチドの三次構造立体構造情報を含む、工程と、
b)前記出力データを関数に符号化してベクトルマップを生成する工程であって、前記ベクトルマップは、
(i)前記ポリペプチド中のアミノ酸に対する前記MDシミュレーションから得られた少なくとも1つの残基特異的特性と、
(ii)前記ポリペプチド中の少なくとも2つのアミノ酸に対する前記MDシミュレーションから得られた少なくとも1つのペアワイズ特性とを含む、工程と、
c)前記ベクトルマップに機械学習アルゴリズムを適用して、前記少なくとも1つの残基特異的特性および前記少なくとも1つのペアワイズ特性に基づいて、予測ポリペプチド構造を生成する工程と
を含む、方法。
【請求項2】
前記ベクトルマップがD次元のアレイを含み、Dは、(i)の残基特異的特性および(ii)の前記ペアワイズ特性の数である、請求項1に記載の方法。
【請求項3】
前記機械学習アルゴリズムが教師なしアルゴリズムである、請求項1に記載の方法。
【請求項4】
前記機械学習アルゴリズムが教師ありアルゴリズムである、請求項1に記載の方法。
【請求項5】
前記少なくとも1つの残基特異的特性が、クーロン力エネルギー、ファンデルワールスエネルギー、残基標識、GRAVYスコア、またはこれらの任意の組み合わせを含む、請求項1に記載の方法。
【請求項6】
前記少なくとも1つのペアワイズ特性が、前記少なくとも2つのアミノ酸間のクーロン力エネルギー、前記少なくとも2つのアミノ酸間のファンデルワールスエネルギー、前記少なくとも2つのアミノ酸間の距離、またはこれらの任意の組み合わせを含む、請求項1に記載の方法。
【請求項7】
前記関数が連続時間動的グラフ関数である、請求項1に記載の方法。
【請求項8】
前記関数が離散時間動的グラフ関数である、請求項1に記載の方法。
【請求項9】
前記MDシミュレーションがレプリカ交換分子動力学を含む、請求項1に記載の方法。
【請求項10】
前記MDシミュレーションがモンテカルロ動力学を含む、請求項1に記載の方法。
【請求項11】
前記符号化が動的残基埋め込みを含む、請求項1に記載の方法。
【請求項12】
前記関数から得られる第2の関数を生成する工程であって、前記第2の関数は、前記動的残基埋め込みに基づく静的タンパク質埋め込みを含む、工程をさらに含む、請求項11に記載の方法。
【請求項13】
結晶構造からのデータを前記関数に符号化する工程をさらに含む、請求項1に記載の方法。
【請求項14】
前記予測構造をデータベースに帰属させる工程をさらに含む、請求項1に記載の方法。
【請求項15】
前記予測構造を前記データベース内の疾患状態に結び付ける工程をさらに含む、請求項14に記載の方法。
【請求項16】
前記予測構造および前記疾患状態に基づいて介入治療を選択する工程をさらに含む、請求項15に記載の方法。
【請求項17】
エピトープ構造を生成する方法であって、
a)ポリペプチド配列を準備する工程と、
b)前記ポリペプチド配列中の複数のエピトープ構造に対して指数スコアを計算する工程であって、前記指数スコアは、前記エピトープの構造的突出パラメータ、無秩序パラメータ、または保存パラメータのうちの少なくとも2つに基づいて計算され、
(i)前記保存パラメータは、前記標的ポリペプチドを含む多重配列アラインメントにおける少なくとも2つのアミノ酸残基の保存に基づいて計算され、
(ii)前記無秩序パラメータおよび前記構造的突出パラメータは、前記標的ポリペプチドの相同体の集約構造を含む相同性モデルの分子動力学(MD)シミュレーションから得られ、ならびに
(iii)前記指数スコアは、前記構造的突出パラメータおよび前記保存パラメータに比例し、前記無秩序パラメータに反比例する、工程と、
c)前記指数スコアをランク付けして、前記複数のエピトープ構造の中から最も高い指数スコアを有するエピトープ構造を選択する工程と
を含む、方法。
【請求項18】
前記エピトープ構造に特異的に結合すると予測されるパラトープ構造を生成する工程をさらに含む、請求項17に記載の方法。
【請求項19】
前記パラトープ構造を含む治療薬を作製する工程をさらに含む、請求項18に記載の方法。
【請求項20】
前記治療薬が小分子である、請求項19に記載の方法。
【請求項21】
前記治療薬がポリペプチドである、請求項19に記載の方法。
【請求項22】
前記ポリペプチドが抗体である、請求項21に記載の方法。
【請求項23】
前記ポリペプチドがナノボディである、請求項21に記載の方法。
【請求項24】
前記分子動力学シミュレーションが、レプリカ交換分子動力学シミュレーションである、請求項17に記載の方法。
【請求項25】
前記構造的突出パラメータが、前記標的ポリペプチド中の露出したアミノ酸の溶媒接触表面積によって決定される、請求項17に記載の方法。
【請求項26】
前記構造的突出パラメータが、前記標的ポリペプチドの原子容マップによって決定される、請求項17に記載の方法。
【請求項27】
前記無秩序パラメータが、前記標的ポリペプチドの骨格中のα炭素の二乗平均平方根ゆらぎによって決定される、請求項17に記載の方法。
【請求項28】
前記無秩序パラメータが、前記標的ポリペプチドの骨格中のN-H結合秩序によって決定される、請求項17に記載の方法。
【請求項29】
前記相同性モデルに基づいて前記標的ポリペプチドの自由エネルギー表面表示を生成し、それにより、自由エネルギー極小値における前記標的ポリペプチドの表示された立体構造を決定する工程をさらに含む、請求項17に記載の方法。
【請求項30】
所与の自由エネルギー極小値における表示の大きさに基づいて、前記表示された立体構造を束ねる工程をさらに含む、請求項29に記載の方法。
【請求項31】
前記指数スコアを計算する前に、グラフノードおよびグラフエッジを含むグラフネットワークを生成する工程であって、前記グラフノードは前記ポリペプチドのα炭素を含み、および前記グラフエッジは前記ポリペプチドの骨格中の少なくとも2つのα炭素原子間の相互作用を含む、工程をさらに含む、請求項17に記載の方法。
【請求項32】
クラスタリングアルゴリズムを前記グラフネットワークに適用する工程をさらに含む、請求項31に記載の方法。
【請求項33】
前記クラスタリングアルゴリズムは、K平均法クラスタリング、t分布型確率的近傍埋め込み法、およびこれらの任意の組み合わせからなる群から選択される、請求項32に記載の方法。
【請求項34】
前記指数スコアに経験的データを適用する工程をさらに含む、請求項17に記載の方法。
【請求項35】
前記経験的データが、前記標的ポリヌクレオチドの前記エピトープへの抗体の結合のIC
50を含む、請求項34に記載の方法。
【請求項36】
前記相同性モデルが前記標的ポリペプチドの溶媒和モデルである、請求項17に記載の方法。
【請求項37】
前記ポリペプチドの構造を提供することをさらに含む、請求項17に記載の方法。
【請求項38】
前記構造がNMR構造である、請求項38に記載の方法。
【請求項39】
パラトープ構造を含むポリペプチドであって、前記パラトープ構造が請求項18に記載の方法によって得られる、ポリペプチド。
【発明の詳細な説明】
【技術分野】
【0001】
相互参照
本出願は、2021年5月21日に出願された欧州出願第21382464.2号の恩典を主張し、その全体が参照により組み入れられる。
【0002】
配列表
本願は、ASCIIフォーマットで電子的に提出された配列表を含有し、その全体が参照により本明細書に組み入れられる。2022年5月13日に作成された前記ASCIIコピーの名称は199589-701601_ST25.txtであり、サイズは7,000バイトである。
【背景技術】
【0003】
背景
ポリペプチド構造の正確な予測は、様々な疾患に関与するタンパク質の創薬可能性を引き出す可能性を秘めている。ポリペプチド構造を解明するためにX線結晶学などの技術を使用することができるが、このような技術は、十分に発現されないまたは十分に折り畳まれていないタンパク質において妨げられる。したがって、インシリコ技術を使用して構造を予測することは、このようなタンパク質の治療潜在性を引き出す上で有望である。
【発明の概要】
【課題を解決するための手段】
【0004】
概要
インシリコのポリペプチド構造生成の方法であって、(a)ポリペプチドの分子動力学(MD)シミュレーションを実行して、時間の関数として出力データを生成する工程であって、前記出力データは、前記ポリペプチドの三次構造立体構造情報を含む、工程と、(b)前記出力データを関数に符号化してベクトルマップを生成する工程であって、前記ベクトルマップは、(i)前記ポリペプチド中のアミノ酸に対する前記MDシミュレーションから得られた少なくとも1つの残基特異的特性と、(ii)前記ポリペプチド中の少なくとも2つのアミノ酸に対する前記MDシミュレーションから得られた少なくとも1つのペアワイズ特性とを含む、工程と、(c)前記ベクトルマップに機械学習アルゴリズムを適用して、前記少なくとも1つの残基特異的特性および前記少なくとも1つのペアワイズ特性に基づいて、予測ポリペプチド構造を生成する工程とを含む、方法が本明細書において提供される。いくつかの実施形態において、ベクトルマップはD次元のアレイを含み、ここで、Dは、(i)の残基特異的特性および(ii)のペアワイズ特性の数である。いくつかの実施形態において、機械学習アルゴリズムは教師なしアルゴリズムである。いくつかの実施形態において、機械学習アルゴリズムは教師ありアルゴリズムである。いくつかの実施形態において、MDシミュレーションを実行する前に、既知の構造データを入力として使用することができる。このような構造データは、例えば、X線結晶学を通じて生成された静的構造から、または例えばNMRから生成された動的構造を通じて取得され得る。いくつかの実施形態において、残基特異的特性は、クーロン力エネルギー、ファンデルワールスエネルギー、残基標識、GRAVYスコア、またはこれらの任意の組み合わせを含む。いくつかの実施形態において、ペアワイズ特性は、少なくとも2つのアミノ酸間のクーロン力エネルギー、少なくとも2つのアミノ酸間のファンデルワールスエネルギー、少なくとも2つのアミノ酸間の距離、またはこれらの任意の組み合わせを含む。いくつかの実施形態において、関数は連続時間動的グラフ関数である。いくつかの実施形態において、関数は離散時間動的グラフ関数である。いくつかの実施形態において、MDシミュレーションはレプリカ交換分子動力学を含む。いくつかの実施形態において、MDシミュレーションはモンテカルロ動力学を含む。いくつかの実施形態において、符号化は動的残基埋め込みを含む。いくつかの実施形態において、本方法は、前記関数から誘導される第2の関数を生成する工程であって、前記第2の関数は、動的残基埋め込みに基づく静的タンパク質埋め込みを含む、工程をさらに含む。いくつかの実施形態において、本方法は、結晶構造からのデータを関数に符号化する工程をさらに含む。いくつかの実施形態において、本方法は、予測構造をデータベースに帰属させる工程をさらに含む。いくつかの実施形態において、本方法は、予測構造をデータベース内の疾患状態に結び付ける工程をさらに含む。いくつかの実施形態において、本方法は、予測構造および疾患状態に基づいて介入治療を選択する工程をさらに含む。コンピュータ可読メモリを備えるシステムも開示される。いくつかの実施形態において、コンピュータ可読メモリは、本明細書に記載されているインシリコのポリペプチド構造生成の方法を実施するための命令を含む。
【0005】
エピトープ構造を生成する方法であって、(a)ポリペプチド配列を準備する工程と;(b)前記ポリペプチド配列中の複数のエピトープ構造に対して指数スコアを計算する工程であって、前記指数スコアは、前記エピトープの構造的突出パラメータ、無秩序パラメータ、または保存パラメータのうちの少なくとも2つに基づいて計算され、(i)前記保存パラメータは、前記標的ポリペプチドを含む多重配列アラインメントにおける少なくとも2つのアミノ酸残基の保存に基づいて計算され、(ii)前記無秩序パラメータおよび前記構造的突出パラメータは、前記標的ポリペプチドの相同体の集約構造を含む相同性モデルの分子動力学(MD)シミュレーションから得られ、ならびに(iii)前記指数スコアは、前記構造的突出パラメータおよび前記保存パラメータに比例し、前記無秩序パラメータに反比例する、工程と;(c)前記指数スコアをランク付けして、前記複数のエピトープ構造の中から最も高い指数スコアを有するエピトープ構造を選択する工程とを含む、方法が本明細書において提供される。いくつかの実施形態において、本方法は、エピトープ構造に特異的に結合すると予測されるパラトープ構造を生成する工程をさらに含む。いくつかの実施形態において、本方法は、前記パラトープ構造を含む治療薬を作製する工程をさらに含む。いくつかの実施形態において、治療薬は小分子である。いくつかの実施形態において、治療薬はポリペプチドである。いくつかの実施形態において、ポリペプチドは抗体である。いくつかの実施形態において、ポリペプチドはナノボディである。いくつかの実施形態において、分子動力学シミュレーションはレプリケート交換分子動力学シミュレーション(replicate exchange molecular dynamics simulation)である。いくつかの実施形態において、構造的突出パラメータは、標的ポリペプチド中の露出したアミノ酸の溶媒接触表面積によって決定される。いくつかの実施形態において、構造的突出パラメータは、標的ポリペプチドの原子容マップによって決定される。いくつかの実施形態において、無秩序パラメータは、標的ポリペプチドの骨格中のα炭素の二乗平均平方根ゆらぎによって決定される。いくつかの実施形態において、無秩序パラメータは、標的ポリペプチドの骨格中のN-H結合秩序によって決定される。いくつかの実施形態において、本方法は、相同性モデルに基づいて標的ポリペプチドの自由エネルギー表面表示を生成し、それにより、自由エネルギー極小値における標的ポリペプチドの表示された立体構造を決定する工程をさらに含む。いくつかの実施形態において、本方法は、所与の自由エネルギー極小値における表示の大きさに基づいて、表示された立体構造を束ねる工程をさらに含む。いくつかの実施形態において、本方法は、前記指数スコアを計算する前に、グラフノードおよびグラフエッジを含むグラフネットワークを生成する工程であって、前記グラフノードは前記ポリペプチドのα炭素を含み、および前記グラフエッジは前記ポリペプチドの骨格中の少なくとも2つのα炭素原子間の相互作用を含む、工程をさらに含む。いくつかの実施形態において、本方法は、クラスタリングアルゴリズムを前記グラフネットワークに適用する工程をさらに含む。いくつかの実施形態において、クラスタリングアルゴリズムは、K平均法クラスタリング、t分布型確率的近傍埋め込み法、およびこれらの任意の組み合わせからなる群から選択される。いくつかの実施形態において、本方法は、前記指数スコアに経験的データを適用する工程をさらに含む。いくつかの実施形態において、経験的データは、前記標的ポリヌクレオチドのエピトープへの抗体の結合のIC50を含む。いくつかの実施形態において、本方法は、前記標的ポリペプチドの溶媒和モデルである相同性モデルをさらに含む。コンピュータ可読メモリを備えるシステムも開示される。いくつかの実施形態において、コンピュータ可読メモリは、本明細書に記載されている、エピトープ構造を生成する方法を実施するための命令を含む。
【0006】
パラトープ構造を含み、前記パラトープ構造は、本明細書に記載されている、エピトープ構造を生成する方法によって得られるポリペプチドも本明細書に開示されている。
【図面の簡単な説明】
【0007】
例示的な実施形態の新規な特徴は、添付の特許請求の範囲に具体的に記載されている。特徴および利点のより良い理解は、開示されているシステムおよび方法の原理がその中において利用されている例示的な実施形態を説明する以下の詳細な説明および添付の図面を参照することによって得られる。
【0008】
【
図1】
図1は、本明細書に記載されている実施形態と一致する、インシリコで予測ポリペプチド構造およびタンパク質治療薬を生成するための例示的なワークフローを表す。
【0009】
【
図2】
図2は、本明細書に記載されている方法を使用して結合部位の創薬可能性を評価し、治療用ポリペプチドを生成する概略図を表す。
【0010】
【
図3】
図3は、時間の関数としての個々のグラフ関数の時空間的グラフ化(spacio-temporal graphing)の図解を表す。
【0011】
【
図4】
図4は、ポリペプチドの対間での相互作用を表す。
【0012】
【
図5】
図5は、単一のポリペプチドの立体構造のリボン表現(cartoon representation)を表す。リボン表現中の基礎となるCA原子は球として表され、αヘリックスなどの二次構造が存在する。
【0013】
【
図6】
図6は、単一のポリペプチドの立体構造の例示的なグラフ表示を表す。グラフ表示中のノードはCA原子を表し、エッジは隣接するCA原子間の相互作用を表す。
【0014】
【
図7A】
図7A、7Bおよび7Cは、時間の関数としての例示的なグラフ関数を示す。
図7Aは、時間t=20ナノ秒(時間枠=100)に取得されたペアワイズCAグラフの進化のスナップショットであり、各ノードは残基の種類に従って色付けされており(すなわち、ノードラベル)、各ノードの大きさは関連する程度に比例し、各エッジの幅は関連する重みに比例する。
図7Bは、時間t=50ナノ秒(時間枠=500)に取得されたペアワイズCAグラフの進化のスナップショットであり、各ノードは残基の種類に従って色付けされており(すなわち、ノードラベル)、各ノードの大きさは関連する程度に比例し、各エッジの幅は関連する重みに比例する。
図7Cは、t=0からt=20ナノ秒への遷移を概略的に要約する。
【
図7B】
図7A、7Bおよび7Cは、時間の関数としての例示的なグラフ関数を示す。
図7Aは、時間t=20ナノ秒(時間枠=100)に取得されたペアワイズCAグラフの進化のスナップショットであり、各ノードは残基の種類に従って色付けされており(すなわち、ノードラベル)、各ノードの大きさは関連する程度に比例し、各エッジの幅は関連する重みに比例する。
図7Bは、時間t=50ナノ秒(時間枠=500)に取得されたペアワイズCAグラフの進化のスナップショットであり、各ノードは残基の種類に従って色付けされており(すなわち、ノードラベル)、各ノードの大きさは関連する程度に比例し、各エッジの幅は関連する重みに比例する。
図7Cは、t=0からt=20ナノ秒への遷移を概略的に要約する。
【
図7C】
図7A、7Bおよび7Cは、時間の関数としての例示的なグラフ関数を示す。
図7Aは、時間t=20ナノ秒(時間枠=100)に取得されたペアワイズCAグラフの進化のスナップショットであり、各ノードは残基の種類に従って色付けされており(すなわち、ノードラベル)、各ノードの大きさは関連する程度に比例し、各エッジの幅は関連する重みに比例する。
図7Bは、時間t=50ナノ秒(時間枠=500)に取得されたペアワイズCAグラフの進化のスナップショットであり、各ノードは残基の種類に従って色付けされており(すなわち、ノードラベル)、各ノードの大きさは関連する程度に比例し、各エッジの幅は関連する重みに比例する。
図7Cは、t=0からt=20ナノ秒への遷移を概略的に要約する。
【0015】
【
図8】
図8は、創薬可能性指数から生成された情報がその上にグラフトされた、例示的なポリペプチドの表面図を表す。陰影が付された表面は、創薬可能性指数を使用して生成された潜在的なエピトープを示す。
【0016】
【
図9】
図9は、標的タンパク質のいくつかの天然および非天然バリアントに対する創薬可能性指数計算手順からの例示的な出力を表す。灰色の陰影は、潜在的に創薬可能な部位を表す。
【発明を実施するための形態】
【0017】
詳細な説明
例えば、時間の関数として分子動力学シミュレーションから生成されたビッグデータを使用してインシリコでポリペプチド構造を生成する方法が本明細書において開示される。本明細書に記載されている方法を使用して予測ポリペプチド構造を生成するための例示的なワークフローが
図1に図解されている。このようなデータは、構造予測の既存の方法を使用する場合と比較して、より包括的な予測ポリペプチド構造を生成するために本明細書に記載されている機械学習アルゴリズムを使用して処理され得る。ポリペプチド構造を時間の関数として変化させ、ポテンシャルエネルギー井戸に沿って稀な立体構造をサンプリングすることによって、予測される構造は、その自然環境に存在するときにポリペプチド中に存在するダイナミクスとより緊密に合致することができる。この方法を使用して、有意な配列空間によって隔てられた残基の動的移動を通して存在する結合表面およびエピトープを正確にマッピングすることができ、これにより、これらのエピトープと相互作用することができる頑強な治療薬の生成が可能になり得る。
図2は、本明細書に記載されている方法に従った、ポリペプチド中の予測されるエピトープ部位の創薬可能性の評価およびタンパク質治療薬の産生についての概略図を図解する。
【0018】
定義
本明細書で使用されるセクションの見出しは編成を目的とするものであり得、記載されている主題を限定するものと解釈されるべきではない。いくつかの事例では、セクションの見出しは、記載されている主題を限定するものとして構成されない場合がある。
【0019】
本明細書および特許請求の範囲において使用される場合、単数形「a」、「an」および「the」は、文脈が明確に反対の意味を指示しなければ、複数表記を含む。例えば、「ポリペプチド(a polypeptide)」という用語は、ポリペプチドの混合物を含む複数のポリペプチドを含む。
【0020】
本明細書で使用される「約」または「およそ」という用語は、量または濃度などの測定可能な値を指す場合、特に明記しない限り、指定された量の+/-10%、5%、1%、0.5%またはさらには0.1%を含む+/-20%の変動を包含することを意味する。
【0021】
本明細書において使用される場合、「含む、備える(comprising)」という用語は、組成物および方法が表記された要素を含むが、他の要素を除外しないことを意味することが意図される。組成物および方法を定義するために使用される場合、「から本質的になる」とは、意図される使用のための組み合わせにとってなんらかの本質的な重要性を有する他の要素を除外することを意味するものとする。したがって、本明細書に定義されている要素から本質的になる組成物は、単離および精製方法由来の微量夾雑物ならびにリン酸緩衝食塩水、防腐剤などの薬学的に許容され得るキャリアを除外しない。「からなる」とは、その他の成分の微量を超える要素および本開示の組成物を投与するための実質的な方法工程を除外することを意味するものとする。これらの移行語の各々によって定義される実施形態は、本開示の範囲に属する。
【0022】
「対象」、「宿主」、「個体」および「患者/患畜(patient)」という用語は、互換的に、動物、典型的には哺乳動物を指す。本明細書に記載されている組成物によって、任意の適切な哺乳動物を処置することが可能である。哺乳動物の非限定的な例として、ヒト、ヒト以外の霊長類(例えば、類人猿、テナガザル、チンパンジー、オランウータン、サル、マカクなど)、飼育動物(例えば、イヌおよびネコ)、農場動物(例えば、ウマ、ウシ、ヤギ、ヒツジ、ブタ)および実験動物(例えば、マウス、ラット、ウサギ、モルモット)が挙げられる。いくつかの実施形態において、哺乳動物はヒトであり得る。哺乳動物は、任意の年齢または任意の発達段階(例えば、成体、青年期(teen)、小児、乳幼児(infant)または子宮内の哺乳動物)であり得る。哺乳動物は、男性/雄(male)または女性/雌(female)であり得る。哺乳動物は、妊娠した女性/雌であり得る。いくつかの実施形態において、対象はヒトであり得る。いくつかの事例において、ヒトは、約1日超~約10月齢、約9月齢~約24月齢、約1歳~約8歳、約5歳~約25歳、約20歳~約50歳、約1歳~約130歳または約30歳~約100歳であり得る。ヒトは、約:1、2、5、10、20、30、40、50、60、70、80、90、100、110または120歳超であり得る。ヒトは、約:1、2、5、10、20、30、40、50、60、70、80、90、100、110、120または130歳未満であり得る。
【0023】
「処置する」、「処置」などの用語は、所望の薬理学的効果、生理学的効果またはこれらの任意の組み合わせを得ることを意味するために本明細書で使用され得る。いくつかの例において、処置は、疾患または障害に起因する有害作用を逆転させることができる。いくつかの事例において、処置は疾患または障害を安定化させることができる。いくつかの事例において、処置は疾患または障害の進行を遅らせることができる。いくつかの例において、処置は疾患または障害の退縮を引き起こすことができる。いくつかの例において、処置は疾患または障害の発生を予防することができる。いくつかの実施形態において、処置の効果は測定され得る。いくつかの事例において、組成物の投与前および後に測定結果を比較することができる。例えば、対象は、がんの退縮を示すために、処置後の画像と比較される処置前の医療画像を有することができる。いくつかの例において、対象は、処置前の血液検査と比較される、処置後の改善された血液検査結果を有することができる。いくつかの例において、測定結果は標準と比較され得る。
【0024】
「タンパク質」、「ペプチド」および「ポリペプチド」という用語は、互換的におよびこれらの最も広い意味において、2またはそれを超えるサブユニットアミノ酸、アミノ酸類縁体またはペプチド模倣物の化合物を指す。サブユニットは、ペプチド結合によって連結され得る。別の実施形態においては、サブユニットは、他の結合、例えばエステル、エーテルなどによって連結され得る。タンパク質またはペプチドは、少なくとも2つのアミノ酸を含有し得、タンパク質の配列またはペプチドの配列を構成し得るアミノ酸の最大数は無制限であり得る。本明細書で使用される場合、「アミノ酸」という用語は、天然、非天然または合成アミノ酸を表すことができる。天然、非天然または合成アミノ酸には、グリシンならびにDおよびL光学異性体の両方、アミノ酸類縁体およびペプチド模倣物が含まれ得る。本明細書で使用される場合、「融合タンパク質」という用語は、1より多くの天然に存在するまたは組換え産生されたタンパク質由来のドメインから構成されるタンパク質を指すことができ、一般的には各ドメインは異なる機能を果たす。これに関して、リンカーは、これらのドメインを一緒に連結するために、必要に応じて融合されたタンパク質ドメインの立体構造を保存するために、および/または融合されたタンパク質ドメインのそれぞれの機能を損ない得る、融合されたタンパク質ドメイン間の好ましくない相互作用を防止するために使用することができるタンパク質断片を指すことができる。
【0025】
「相同性」は、2つのペプチド間または2つの核酸分子間の配列類似性を指す。相同性は、比較のために整列される各配列中の位置を比較することによって決定される。比較された配列中の位置が同一の塩基またはアミノ酸であるときに、その分子はその位置において同一である。配列相同性は、基準配列に対する配列の%同一性を指す。実際の問題としては、相同配列は、Bestfitプログラムなどの公知のコンピュータプログラムを使用して整列させた場合、基準配列に対して少なくとも50%、60%、70%、80%、85%、90%、92%、95%、96%、97%、98%または99%の同一性を有する。Bestfitまたは任意の他の配列アラインメントプログラムを使用して、特定の配列が、例えば、基準配列と95%同一であるかどうかを決定する場合、基準配列の全長にわたって同一性のパーセンテージを計算することができるように、および基準配列全体の最大5%までの配列相同性におけるギャップが許容され得るように、パラメータを設定することができる。「無関係な」配列は、本開示の配列の1つと40%未満の同一性、または25%未満の同一性を共有する。
【0026】
「エピトープ」という用語は、部分(例えば、ポリペプチド免疫グロブリン、抗体など)が特異的に結合する、ポリペプチド上の部分または構造を指す。
【0027】
「パラトープ」という用語は、エピトープに特異的に結合する、部分(例えば、ポリペプチド免疫グロブリン、抗体など)の構造を指す。
【0028】
「教師あり学習」という用語は、機械が人間のソースからデータを提供される深層学習訓練方法を指す。「教師なし学習」という用語は、機械が人間のソースからデータを提供されない深層学習訓練方法を指す。
【0029】
「半教師あり学習」という用語は、機械に利用可能な他のソースからのより大量のデータとその後に比較される、人間のソースからの少量のデータが機械に提供される深層学習訓練方法を指す。
【0030】
I.分子動力学シミュレーションからのデータの生成
分子動力学シミュレーションから生成されたデータ入力を使用してポリペプチド構造を予測する方法が本明細書に開示される。ポリペプチド構造の立体構造および生物物理学的特徴をモデル化するために、分子動力学シミュレーションをインシリコで実施することができる。分子動力学シミュレーションは、ポリペプチドの二次および三次構造が、許容される立体構造に沿ってシミュレーションのタイムライン内で変化し得るように、構造動力学を可能にすることができる。一般に、許容される立体構造は、様々な自由エネルギー井戸に沿った極小値に相当する立体構造である。したがって、分子動力学シミュレーションは、静的構造技術(例えば、X線結晶学)がサンプリングしない場合がある生物学的に適切な立体構造を可視化し、サンプリングするために使用され得る。本明細書に記載されている方法中に含めるための例示的な分子動力学シミュレーションとしては、古典動力学、レプリカ交換分子動力学、メタ動力学、ランジュバン動力学およびモンテカルロ動力学が挙げられるが、これらに限定されない。
【0031】
ポリペプチド構造をモデル化し、予測するために依拠される分子動力学シミュレーションから生成されたデータ、方法が本明細書で提供される。本明細書に記載されているように、分子動力学シミュレーションから生成されたデータは、許容されるおよび稀な構造の立体構造の中で反復して、より頑強で包括的な予測ポリペプチド構造を生成するために、機械学習のための入力として使用される。このようなデータは、分子動力学シミュレーション内の単一の残基に関連する残基特異的生物物理学的特性および分子動力学シミュレーション内の少なくとも2つの残基間の相互作用に関連する生物物理学的特性のセットに関連するペアワイズ特性を含むことができる。分子動力学シミュレーションを使用して生成される残基特異的生物物理学的特性の例には、ハイドロパシーの総加算平均(GRAVY)スコア、残基の同一性または標識、クーロン力エネルギー、ファンデルワールスエネルギー、溶媒接触表面積(SASA)、側鎖秩序パラメータ(S2)などが含まれる。分子動力学シミュレーションを使用して生成されるペアワイズ生物物理学的特性の例には、所与の残基間の距離、クーロン力エネルギー、ファンデルワールスエネルギー、天然接触の割合(Q)などが含まれる。
【0032】
分子動力学から生成されるこのような特性は、時間の関数として所与の立体構造から生成され得る。したがって、ポリペプチド構造のセットからの、時間の関数としての生物物理学的特性のデータセットを分子動力学シミュレーションから生成し、機械学習アルゴリズムに対する入力として使用することができる。このデータは、埋め込みより前に、グラフ形式に整えられる。長さ
【数1】
の各タンパク質配列は、無向グラフ関数にマッピングされる。
図3は、時間の関数としての個々のグラフ関数のマッピングを図解する。このようなグラフ関数には、以下のものが含まれ得る。
【数2】
【0033】
関数は、時間的ランダムウォークのある種のセットの条件付き対数確率であり得る。これらは、時間順序または時間エッジを保存するランダムウォークである、すなわちこのようなウォークのパスに沿って、連続するエッジのタイムスタンプは減少しない。さらに、このような関数は、事前に訓練されたスキップ・グラムモデル
【数3】
が次のスキップ・グラムモデル
【数4】
に対する初期重みとして使用される進化するランダムウォークで訓練された動的スキップ・グラムモデルとして表され得る。実際に、本明細書に記載されている方法とともに、他のこのようなアルゴリズムを使用することができる。
【0034】
本明細書に記載されているグラフ表示の生成後、データは、本明細書に記載されている機械学習アルゴリズムへの入力のために埋め込まれる。いくつかの例において、多様体学習技術、例えばt分布型確率的近傍埋め込み法(t-SNE)を使用することができる。本明細書に記載されている埋め込みは、動的残基埋め込みおよび静的タンパク質埋め込みを含むことができる。
【0035】
【0036】
【0037】
II.機械学習
それぞれ動的および静的埋め込みから生成されたテンソル表示
【数7】
が、低エネルギーの予測ポリペプチド構造を反復して生成するための機械学習への入力として使用される方法が本明細書で提供される。このような機械学習フレームワークは、分子動力学シミュレーションから得られた限られたデータからより頑強で包括的なポリペプチド構造を生成することができるように、有効シミュレーション時間を短縮し、予測タスクを実行し、設計関連タスクを実施するために使用され得る。それぞれ動的および静的埋め込みから生成されたテンソル表示
【数8】
は、分子動力学シミュレーションの現在の計算能力を超える構造の正確な予測を可能にする。
【0038】
いくつかの実施形態において、ポリペプチド構造は、非構造化計算、人工知能または深層学習を使用して生成され得る。いくつかの事例において、計算を反復して実施することができるように、非構造化計算を使用することができる。さらに、ポリペプチド構造の計算は、人工知能または深層学習に依存することができる。例えば、ランダムフォレストなどの本明細書に記載されている方法は、改善された予測値を有するプローブを明確にするために使用することができるジニ不純度スコアを生成するために深層学習を使用することができる。
【0039】
いくつかの実施形態において、本明細書に記載されている構造予測の方法は、深層ニューラルネットワークなどの機械学習および計算知能技術、ならびに教師あり、半教師ありおよび教師なし学習技術の組み合わせを使用することができる。いくつかの実施形態において、本明細書に記載されている構造予測の方法は、教師ありアルゴリズム(非限定的な例として、線形領域、ランダムフォレスト分類、決定木学習、アンサンブル学習、ブートストラップ・アグリゲーティングなど)を使用する。いくつかの実施形態において、本明細書に記載されている構造予測の方法は、教師なしアルゴリズム(非限定的な例として、クラスタリングまたは相関)を使用する。
【0040】
いくつかの実施形態において、本明細書に記載されている構造予測の方法は、決定木、ブースティング、サポートベクターマシン、ニューラルネットワーク、最近傍アルゴリズム、単純ベイズ、バギング、ランダムフォレストなどから選択されるがこれらに限定されない1またはそれを超える例示的なAI/機械学習技術を利用するように構成され得る。いくつかの実施形態において、および必要に応じて、上記または下記の任意の実施形態の組み合わせにおいて、例示的なニュートラルネットワーク技術は、限定されないが、フィードフォワード・ニューラル・ネットワーク、放射基底関数ネットワーク、回帰型ニューラルネットワーク、畳み込みネットワーク(例えば、U-net)またはその他の適切なネットワークのうちの1つであり得る。いくつかの実施形態において、および必要に応じて、上記または下記の任意の実施形態の組み合わせにおいて、ニューラルネットワークの例示的な実装は、以下のように実行され得る。
a.ニューラルネットワークのアーキテクチャ/モデルを定義し、
b.入力データを例示的なニューラル・ネットワーク・モデルに転送し、
c.例示的なモデルを徐々に訓練し、
d.特定の数の時間ステップについて精度を決定し、
e.例示的な訓練されたモデルを適用して、新たに受け取られた入力データを処理し、
f.必要に応じておよび並行して、所定の周期で例示的な訓練されたモデルを訓練し続ける。
【0041】
いくつかの実施形態において、および必要に応じて、上記または下記の任意の実施形態の組み合わせにおいて、例示的な訓練されたニューラル・ネットワーク・モデルは、少なくともニューラル・ネットワーク・トポロジー、一連の活性化関数および結合重みによってニューラルネットワークを指定し得る。例えば、ニューラルネットワークのトポロジーは、ニューラルネットワークのノードの配置およびこのようなノード間の結合を含み得る。いくつかの実施形態において、および必要に応じて、上記または下記の任意の実施形態の組み合わせにおいて、例示的な訓練されたニューラル・ネットワーク・モデルはまた、バイアス値/関数および/または集約関数を含むがこれらに限定されない他のパラメータを含むように指定され得る。例えば、ノードの活性化関数は、階段関数、正弦関数、連続もしくは区分的線形関数、シグモイド関数、双曲線正接関数またはノードが活性化される閾値を表す他の種類の数学的関数であり得る。いくつかの実施形態において、および必要に応じて、上記または下記の任意の実施形態の組み合わせにおいて、例示的な集約関数は、ノードへの入力信号を統合する(例えば、和、積など)数学的関数であり得る。いくつかの実施形態において、および必要に応じて、上記または下記の任意の実施形態の組み合わせにおいて、例示的な集約関数の出力は、例示的な活性化関数への入力として使用され得る。いくつかの実施形態において、および必要に応じて、上記または下記の任意の実施形態の組み合わせにおいて、バイアスは、ノードをより活性化されやすくまたは活性化されにくくするために集約関数および/または活性化関数によって使用され得る一定の値または関数であり得る。
【0042】
いくつかの実施形態において、構造予測のための機械学習モデルは、機械学習モデルのパラメータを適用してモデル出力を生成することによって、上記埋め込みにおいて符号化された生物物理学的特性を処理する。いくつかの実施形態において、ポリペプチド構造を示す1またはそれを超える数的出力値および/またはベクトルを生成するために、モデル出力は復号され得る。
【0043】
いくつかの実施形態において、機械学習モデルのパラメータは、既知のポリペプチド構造に基づいて訓練され得る。例えば、生物物理学的特性は、過去の生物物理学的特性および過去の生物物理学的特性と構造との間の関係におけるデータ点を表す観察された構造などの訓練ペアを形成するために、標的構造および/または測定と対にされ得る。いくつかの実施形態において、生物物理学的特性は、ポリペプチド構造を代表するデータを生成するために、機械学習モデルに提供され得る、例えば、埋め込みにおいて符号化され得る。いくつかの実施形態において、機械学習モデルに伴う最適化問題は、次いで、ポリペプチド構造を、過去の生物物理学的特性を含む訓練ペアの既知の出力と比較して、ポリペプチド構造の誤差を決定し得る。いくつかの実施形態において、最適化問題は、例えば、ヒンジ損失、マルチクラスSVM損失、交差エントロピー損失、負の対数尤度または、既知の構造に基づいてポリペプチド構造の誤差を決定するためのその他の適切な分類損失関数などの損失関数を使用し得る。
【0044】
いくつかの実施形態において、既知の出力は、オンライン学習シナリオなどにおいて、機械学習モデルが予測を生成した後に取得され得る。このようなシナリオでは、機械学習モデルは、生物物理学的特性を受け取り、モデル出力ベクトルを生成して、ポリペプチド構造を代表するデータを生成し得る。その後、ユーザは、例えば、ユーザインターフェースデバイス(例えば、キーボード、マウス、タッチスクリーン、ユーザインターフェースもしくはユーザデバイスの他のインターフェース機構、またはこれらの任意の適切な組み合わせ)などの適切なフィードバック機構を介して、予測された構造を修正し、調整し、除去し、および/または検証することによってフィードバックを提供し得る。フィードバックは、訓練ペアを形成するために生物物理学的特性と対にされ得、最適化問題はフィードバックを使用してポリペプチド構造の誤差を決定し得る。
【0045】
いくつかの実施形態において、誤差に基づいて、最適化問題は、例えば、予測機械学習モデルのための誤差逆伝播法などの適切な訓練アルゴリズムを使用して機械学習モデルのパラメータを更新し得る。いくつかの実施形態において、誤差逆伝播法は、予測機械学習モデルの重みに関する損失関数の勾配法などの任意の適切な最小化アルゴリズムを含み得る。適切な勾配法の例としては、例えば、確率的勾配降下法、バッチ勾配降下法、ミニバッチ勾配降下法またはその他の適切な勾配降下技術が挙げられる。その結果、最適化問題は、予測された構造の誤差に基づき機械学習モデルのパラメータを更新して機械学習モデルを訓練し、生物物理学的特性に基づく構造のより正確な予測を生成するために生物物理学的特性とポリペプチド構造との間の相関をモデル化し得る。
【0046】
III.ポリペプチド治療薬の生成
本明細書に記載されているように、本明細書に記載されている機械学習アルゴリズムを使用して分子動力学シミュレーションから生成されたデータを使用して、頑強で包括的なポリペプチド構造を予測することができる。このような構造の知識を使用して、疾患または状態に関与する関心対象のポリペプチドの動的表面を効果的かつ正確にマッピングすることができる。ポリペプチドの表面を時間の関数として正確にモデル化することによって、関心対象のポリペプチドのエピトープに結合して、関心対象のポリペプチドのエピトープと相互作用することができる新規な治療薬を生成することができる。したがって、このような治療薬は、エピトープに結合するように構成されたパラトープ構造を用いて生成することができ、疾患または状態の処置に有用である。
図4は、本明細書に記載されている方法を使用した予測されるエピトープおよびパラトープ構造の図解を表す。さらに、本明細書に記載されている方法を使用してポリペプチドの動的構造を捕捉することによって、X線結晶学によって生成されたものなどの静的構造中には存在しない場合がある生物学的に関連性がある稀な立体構造を予測することができる。さらに、本明細書に記載されている方法を使用する機械学習を使用した反復は、分子動力学シミュレーションのみの能力を超える頑強なシミュレーションを可能にし、これにより、エピトープを生成する稀で短命な(但し、生物学的に関連性がある)立体構造のサンプリングが可能になる。
【0047】
上記の任意の機械学習アルゴリズムを使用して予測ポリペプチド構造を生成するために、データの任意の組み合わせを上記のように利用することができる。さらに、生物学的に関連性があるエピトープ立体構造を解明するのに有用な追加の情報を提供するために、追加の入力を使用することができる。例えば、一次構造および二次構造において有意な距離で隔てられた残基間の保存性を決定するために、関連するまたは相同なポリペプチド間の進化的共分散を使用することができる。理論に束縛されることを望むものではないが、本明細書に記載されている方法は、残基の対が生物学的機能を共有する(例えば、同じ結合エピトープ中に存在する)かどうかを決定するための入力として、残基の対間の進化的結合を利用する。このような入力により、このような残基が最小のエントロピーペナルティで動的構造中に存在するかどうかを判定するために動的モデル化を実施することができる。したがって、このようなエピトープを生じさせる稀であるが生物学的に関連性がある立体構造を採取するために、進化的結合および動力学/無秩序パラメータのバランスがとられる。
【0048】
進化的結合が使用される場合、本明細書に記載されている方法は、アミノ酸配列間の相同性を決定するために多重配列アラインメントを生成する工程を含む。全体的配列アラインメントとも呼ばれる、基準配列(クエリ配列、すなわち本開示の配列)と対象配列の間の同一性は、Brutlagら(Comp.App.Biosci.6:237-245(1990))のアルゴリズムに基づいてFASTDBコンピュータプログラムを使用して決定することができる。いくつかの実施形態において、FASTDBアミノ酸アラインメントを使用するパラメータには、スコアリングスキーム=PAM(許容される変異パーセント)0、kタプル=2、ミスマッチペナルティ=1、結合ペナルティ=20、ランダム化グループ長=0、カットオフスコア=1、ウィンドウサイズ=配列長、ギャップペナルティ=5、ギャップサイズペナルティ=0.05、ウィンドウサイズ=500または対象配列の長さのうちのいずれか短い方が含まれ得る。この実施形態によれば、対象配列が、内部の欠失のためではなく、N末端またはC末端の欠失のためにクエリ配列よりも短ければ、FASTDBプログラムは、全体的パーセント同一性を計算するときに対象配列のN末端およびC末端のトランケーションを考慮しないという事実を考慮して、結果に対して手作業での補正を行うことができる。クエリ配列に対してN末端およびC末端が切断された対象配列については、対応する対象残基と一致しない/整列されない、対象配列のN末端およびC末端の側方に存在するクエリ配列の残基の数を、クエリ配列の全塩基のパーセントとして計算することによって、パーセント同一性が補正される。残基が一致する/整列されるかどうかの決定は、FASTDB配列アラインメントの結果によって決定され得る。次いで、このパーセンテージは、指定されたパラメータを使用してFASTDBプログラムによって計算されたパーセント同一性から差し引かれて、最終パーセント同一性スコアに到達する。この最終パーセント同一性スコアは、この実施形態において使用され得る。いくつかの事例において、パーセント同一性スコアを手作業で調整する目的で、クエリ配列と一致しない/整列されない対象配列のN末端およびC末端に対する残基のみを考慮することができる。すなわち、対象配列の最も遠いN末端およびC末端残基の外側にあるクエリ残基位置のみが、この手作業での補正のために考慮され得る。例えば、パーセント同一性を決定するために、90残基の対象配列を100残基のクエリ配列と整列させることができる。欠失は、対象配列のN末端で起こり、したがって、FASTDBアラインメントは、N末端における最初の10残基の一致/アラインメントを示さない。10個の対をなさない残基は、配列の10%(一致しないN末端およびC末端の残基の数/クエリ配列中の残基の総数)に相当するので、FASTDBプログラムによって計算されたパーセント同一性スコアから10%が差し引かれ得る。残りの90残基が完全に一致すれば、最終パーセント同一性は90%であり得る。別の例では、90残基の対象配列を100残基のクエリ配列と比較することができる。今度は、欠失は内部欠失であり得るので、クエリと一致し得ない/整列され得ない対象配列のN末端またはC末端の残基は存在し得ない。この事例では、FASTDBによって計算されたパーセント同一性を手作業で補正することができない。この場合にも、FASTDBアラインメントにおいて表示されるように、クエリ配列と一致し得ない/整列され得ない対象配列のN末端およびC末端の外側にある残基位置のみを手作業で補正することができる。
【0049】
いくつかの例において、本明細書に記載されている方法のための入力として、配列と併せて既知の構造を利用することができる。例えば、タンパク質構造データベース中に蓄積された構造にアクセスし、新規エピトープを決定するための入力として使用することができる。いくつかの例において、経験的構造データを入力として使用することができる。例えば、X線結晶学によって得られた標的ポリペプチドの静的構造を入力として使用することができる。また、円二色性やNMR(例えば、2D NMR、3D NMR、固体NMRなど)などの技術を用いて得られた動的構造を入力として使用することができる。
【0050】
エピトープ構造を予測する例示的なワークフローを以下に示す。
・タンパク質配列(またはリスト)がアルゴリズムに供給される。
・分析される配列中のアミノ酸残基の対の間での進化的結合(EC)を評価するために、多重配列アラインメント(MSA)が行われる。進化的結合は、所与の配列中のアミノ酸残基の任意の対が、結合した様式(coupled fashion)で進化した確率について報告し、したがって進化的に重要なものであり、おそらく生物学的役割を有する。
・X線結晶学またはNMR構造に類似するタンパク質相同性3Dモデル(またはタンパク質配列リストからのモデル)が計算される。
・タンパク質の溶媒和3Dモデル(SPCまたはTIP3水モデルを使用)が生成され、残りの中和されていない電荷は、シミュレートされた系の正味電荷(すべての電荷の合計)が0に等しくなるように、一価の正(Na+)および負(CL-)イオンの添加によって中和される。
・溶媒和系をレプリカ交換分子動力学(REMD)シミュレーションに供する。レプリカ交換分子動力学(REMD)シミュレーションにおいては、
a.任意の数のシミュレーションレプリカ(>2)が開始される。数自体は、系のサイズに依存し、原子の数とともにスケールアップする、例えば、25000原子の系は、それぞれ500ナノ秒間実行する25個のレプリカを必要とし得る。
b.すべてのレプリカは、シミュレーションに割り当てられた元の力場のコピーを受け取り、それに対するねじり角ポテンシャル、二面角ポテンシャルおよび選択された非結合項は、レプリカの数に比例する係数によって線形に規模が増減される。セット内の最初のレプリカはすべての力を受けるのに対して、最後のレプリカは0.5に等しい有効係数で規模が増減された修正された力場に曝される。
・REMDを実行すると、異なる自由エネルギー井戸に属する最も代表的な構造を特定し、3Dタンパク質集団として一緒に束ねることができるように、立体配置タンパク質空間の自由エネルギー表面(FES)が再構築される。
・新たに構築された3Dタンパク質集団は、以下のメトリクスを使用して標的タンパク質断片の幾何学的および時空間的適合性を評価するサブドメイン同定手順の対象である。
a.以下から得られる、個々のタンパク質断片の構造的無秩序:
i.タンパク質骨格H-N結合秩序パラメータ(S2)。
ii.タンパク質骨格中のCA原子の二乗平均平方根ゆらぎ(RMSD)。
b.以下から得られる構造的突出:
i.露出されたアミノ酸の溶媒接触表面(SASA)。
ii.原子容マップ(AVM)。
・元の3Dタンパク質分子内のすべてのCA原子がノードによって表されるのに対して、隣接するCA骨格原子とのその相互作用はグラフエッジによって表されるグラフネットワークが構築される。この表示においては、
a.グラフノードが割り当てられる。
i.RMSFおよびS2。
ii.REMDプロトコルから計算された残基内相互作用エネルギーの合計。
iii.組み合わされたSASAおよびAVM。
b.グラフエッジが割り当てられる。
i.REMDプロトコルから推定された残基内相互作用エネルギー。
ii.アルゴリズムの工程2から得られたEC確率。
・類似の時空間的(ダイナミクス)および構造的突出を共有するアミノ酸残基のクラスタを特定し、サブドメインとしてフラグを付けることができるように、グラフノードクラスタリングアルゴリズムが工程8からのグラフに適用される。クラスタリングアルゴリズムは、
a.K平均法クラスタリング。
b.t分布型確率的近傍埋め込み法(t-SNE)
c.および同等物を含み得る。
・すべてのクラスタ化されたクラスに対して、複合創薬可能性指数(DI)が考案され、計算される。スコアは、SASAおよびAVMからの構造的突出の和、ECからの進化的保存の和をRMSFの和およびS2の逆数で割ったものである。高いスコアは、突出しており、溶媒に露出しているが、分子動力学全体を通じて小さな構造転移を受けるドメインを示す。さらに、EC成分の追加は、強く保存された進化的特徴を有する部位の優先順位付けを可能にする。低いスコアは、構造的突出が乏しく、ダイナミクスが高く、重要なことに進化的保存が低いドメインを表す。
・DIスコアは、IC50結合値などの、抗体-エピトープ相互作用に関する手作業で精選されたデータの追加によってさらに強化され得る。このようなデータは、個人的に実施された実験から、または自然言語処理(NLP)方法を使用した自動化された文献検索を通じて得ることができる。
【0051】
本明細書に記載されている方法を使用したエピトープ表面の予測後に、タンパク質治療薬が、予測エピトープ構造に結合し、これと相互作用するように構成されたパラトープ構造を含むようにインシリコで設計される方法が本明細書で提供される。タンパク質治療薬は、当技術分野で使用される標準的なFMOCタンパク質合成または他の標準的なペプチド合成技術を使用して合成され得る。あるいは、いくつかのタンパク質治療薬は、DNAベクターから大腸菌(Escherichia coli)などの微生物中で発現させることができる。このような実施形態では、関心対象のポリペプチドをコードするポリヌクレオチド配列は、微生物中での過剰発現のために発現ベクター中にサブクローニングされる。ポリヌクレオチド配列のサブクローニングの成功は、限定されないが、キャピラリーシーケンシング、バイサルファイトフリーシーケンシング、バイサルファイトシーケンシング、TET支援バイサルファイト(TAB)シーケンシング、ACEシーケンシング、ハイスループットシーケンシング、マキサム・ギルバートシーケンシング、大規模並列シグネチャシーケンシング、Polonyシーケンシング、454パイロシーケンシング、サンガーシーケンシング、Illuminaシーケンシング、SOLiDシーケンシング、Ion Torrent半導体シーケンシング、DNAナノボールシーケンシング、Heliscope単一分子シーケンシング、単一分子リアルタイム(SMRT)シーケンシング、ナノポアシーケンシング、ショットガンシーケンシング、RNAシーケンシング、Enigmaシーケンシングまたはこれらの任意の組み合わせを含む市販の容易に入手可能な方法を使用したシーケンシングによって確認され得る。
【0052】
このようなタンパク質治療薬は、本明細書で提供される頑強な構造サンプリング法に基づいた予測されるエピトープへの結合の高い効力を含有する。したがって、このような治療用ポリペプチドは、対象に投与されると、関心対象のタンパク質に対して生物学的に関連性がある活性を示す。
【0053】
さらに、このようなタンパク質治療薬は、関心対象のタンパク質に対して高い特異性および選択性を有すると予想される。いくつかの事例において、関心対象のタンパク質は、例えばインビトロ競合アッセイで決定される場合、関心対象の標的に対して少なくとも約、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または100%の特異性を有することができる。いくつかの事例において、関心対象のタンパク質は、例えばインビトロ競合アッセイで決定された場合、他のタンパク質の中で、関心対象の標的に対して少なくとも約、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または100%の選択性を有することができる。
【0054】
本明細書に記載されている治療用ペプチドは、生物学的結果(例えば、対象における疾患または状態の処置)を達成するために必要とされる任意の用量で送達され得る。本明細書中に記載される方法を使用して作製される治療薬の高い程度の特異性および効力を考えると、生物学的結果を達成するために必要とされる治療薬の用量は、同等の方法を使用して(すなわち、分子動力学、変異誘発または静的構造のみの使用)同じ標的に対して作製された治療薬より低い。
【0055】
システム
【0056】
本明細書に記載されている方法を実行するためのシステムも本明細書に開示される。システムは、本明細書に記載されている方法を実行するための命令を格納するコンピュータ可読メモリを備えることができる。例えば、コンピュータ可読メモリは、本明細書に記載されている、ポリペプチド構造のインシリコでの決定のための命令を含むことができる。いくつかの実施形態において、コンピュータ可読メモリは、本明細書に記載されているエピトープ決定のための命令を含むことができる。
【0057】
システムは、コンピュータ可読メモリを利用するコンピュータシステムをさらに備えることができる。コンピュータシステムは、コンピュータ可読メモリに動作可能に連結されたプロセッサを含むことができ、本明細書に記載されている方法を実行するための命令を実行するように構成され得る。コンピュータシステムは、キーボード、モニタおよびマウスなどのユーザ入力および出力手段をさらに含むことができる。
【0058】
本明細書に記載されているシステムは、データベースにアクセスするように構成され得る。例えば、システムは、タンパク質構造データベース、タンパク質配列データベース、相同性データベース、核酸配列データベースなどのローカルまたはオンライン(例えば、クラウド)のデータベースにアクセスするように構成され得る。
【0059】
本明細書に記載されている方法を実行すると、システムは、本明細書に記載されている方法を実行することによって取得されたデータをさらに含むことができる。例えば、本明細書に記載されている方法を実行した際のシステムは、新規エピトープを決定するための創薬可能性指数スコアを含むことができる。本明細書の実施例5は、本明細書に記載されている方法の実行後にシステム上に保存され得るこのようなデータの例示的な出力を提供する。システムは、本明細書に記載されているMDシミュレーションから得られた構造情報を含むことができる。さらに、システムは、NMRまたはX線結晶学から得られたタンパク質構造などの経験的構造データを含むことができる。システムは、本明細書に記載されているインシリコ法を使用して得られた最適化されたポリペプチド構造を含むことができる。
【0060】
このようなシステムは、本明細書に記載されている方法によって得られたデータを保存または転送するための保存手段を含むことができる。いくつかの例において、システムは、本明細書に記載されている方法によって得られたデータを外部データベース(例えば、ローカルデータベースまたはオンラインデータベース)に送信するための手段を含むことができる。
【実施例】
【0061】
本開示およびその多くの利点をよりよく理解するために、以下の実施例は、本開示の範囲を限定することなく例示として与えられる。
【0062】
実施例1:分子動力学シミュレーションを用いたポリペプチド構造の生成
【0063】
ポリペプチド配列の立体構造のダイナミクスをモデル化するために、例示的なポリペプチド配列を分子動力学シミュレーションに入力する。TIP3水モデルを使用してモデルを溶媒和し、一価のNa
+およびCl
-イオンを使用して電荷を中和する。
図5は、単一の時点で分子動力学を使用して生成されたポリペプチド構造のリボン表現を表す。所与の時点における各構造の立体構造は、グラフ関数に整えられる。
図6は、単一の時点における単一の立体構造に対する分子動力学から生成された例示的なグラフ関数を表す。この表示において、ノードは個々のCA原子を表し、一方、エッジは残基間でのペアワイズ相互作用を表す。
図7Aおよび
図7Bは、例示的な連続時間動的グラフを示す。
図7Aは、時間t=20ナノ秒(時間枠=100)に取得されたペアワイズCAグラフの進化のスナップショットであり、各ノードは残基の種類に従って色付けされており(すなわち、ノードラベル)、各ノードの大きさは関連する程度(すなわち、ノードが接続されているエッジまたは隣の数)に比例し、各エッジの幅は関連する重み(すなわち、ペアワイズ特性の規模)に比例する。
図7Bは、時間t=50ナノ秒(時間枠=500)に取得されたペアワイズCAグラフの進化のスナップショットであり、各ノードは残基の種類に従って色付けされており(すなわち、ノードラベル)、各ノードの大きさは関連する程度に比例し、各エッジの幅は関連する重みに比例する。
図7Cは、t=0からt=20ナノ秒への遷移を概略的に要約する。
【0064】
実施例2:機械学習実装のためのグラフ関数の符号化
【0065】
実施例1で実行された分子動力学シミュレーションから生成され、グラフ形式に変換されたデータは、機械学習アルゴリズムを実装するためにベクターテーブルに符号化される。連続時間動的グラフ関数
【数9】
はD次元ベクターテーブルに変換され、テーブルの列の数はグラフ関数によって符号化された特性(例えば、クーロン力エネルギー、ファンデルワールスエネルギー、GRAVYスコアなど)に対応する。以下の表1は、所与のアミノ酸残基に対する6つの埋め込まれた特性を表す動的グラフ表示から生成された例示的なベクターテーブルを提供する。
【表1】
【0066】
実施例3:機械学習を用いた動的グラフ表示の最適化
【0067】
実施例2で生成された符号化されたデータに、t分布型確率的近傍埋め込み法を含む多様体学習技術を適用して、符号化されたデータに基づいて、最適化された動的グラフ表示を生成する。教師なし学習アルゴリズムを使用して動的グラフ表示を反復して生成し、予測ポリペプチド構造を生成する。
【0068】
実施例4:エピトープ結合表面の予測
【0069】
タンパク質相同体の多重配列アラインメントを行うことによって、進化的共分散をインシリコで決定する。残基のペアワイズ保存に注目し、2つのアミノ酸が結合した様式で進化した確率に基づいて、それぞれのアミノ酸の任意の対に対して進化的結合報告を計算する。レプリカ交換分子動力学シミュレーションが実行され、実施例1に記載されているように、MDシミュレーションからのデータが生成される。構造的無秩序パラメータは、MDシミュレーションにおけるCA原子のRMSDゆらぎに基づいて計算され、一方、構造的突出パラメータは、露出されたアミノ酸の溶媒接触表面積およびポリペプチドの原子容マッピングに基づいて計算される。
【0070】
実施例2について上述したようにグラフ関数を生成し、構造的無秩序パラメータ、構造的突出パラメータおよび進化的結合報告からのデータを含むベクトルに埋め込む。機械学習を使用してクラスタリングアルゴリズムを実行し、実施例3で上述したように、最適化されたポリペプチド構造を生成する。
【0071】
類似の構造的無秩序パラメータ、構造的突出パラメータおよび進化的結合を共有するクラスタ化された残基をグループ化し、クラスタ化された残基について複合創薬可能性指数スコアを計算する。創薬可能性指数スコアは、構造的突出パラメータおよび進化的結合に比例し、構造的無秩序パラメータに反比例する。推定エピトープを同定するために、予測構造上に創薬可能性指数をマッピングすることができる。
図8は、創薬可能性指数から生成された情報がその上にグラフトされた、例示的なポリペプチドの表面図を表す。陰影が付された表面は、創薬可能性指数を使用して生成された潜在的なエピトープを示す。
図9は、標的タンパク質のいくつかの天然および非天然バリアントに対する創薬可能性指数計算手順からの例示的な出力を表す。灰色の陰影は、潜在的に創薬可能な部位を表す。
【0072】
実施例5-例示的なα-シヌクレインエピトープに対する創薬可能性指数計算
【0073】
新規エピトープの解明のための無秩序パラメータの使用を例示するために、エピトープ決定についてα-シヌクレインバリアントを収集した。本研究では、新規エピトープの創薬可能性に対する、H50における変異の効果を調べた。H50は、変異されたときに、α-シヌクレインの凝集をもたらし得る残基である。したがって、H50に変異を有するα-シヌクレインバリアントの新規エピトープを標的とする治療薬を設計することができることは、重大な治療的意義を提供する。
【0074】
実施例4について上に記載されているように、各α-シヌクレインバリアントのMDシミュレーションにおけるCA原子のRMSDゆらぎに基づいて、構造的無秩序および構造的突出パラメータを計算した。表2は、MDシミュレーションから計算された様々なパラメータを表す。二成分無秩序予測においては、1の値は無秩序残基を示し、0の1値は秩序化された残基を示す。無秩序化傾向においては、無秩序の正規化された大きさが提供され、より高い値は、所与の無秩序が無秩序化されている可能性がより高いことを表す。次いで、二成分創薬可能性指数予測が計算され、1の値は無秩序化されたエピトープ結合残基を示し、0の値はエピトープ結合残基以外の無秩序化された残基を示し、Xはエピトープ結合とは無関係である残基を示す。最後に、正規化されたエピトープ結合傾向が無秩序傾向に基づいて決定され、より高い値は、所与の残基が創薬可能なエピトープを与えるであろう可能性がより高いことを表し、一方、Xは、エピトープ結合に無関係である残基を示す。
【0075】
下記の表2に示されるように、各バリアントについて残基ごとにエピトープ結合傾向を決定するために、無秩序パラメータを使用することができる。注目すべきことに、高い相対的無秩序傾向を有するC末端に沿った残基は、試験されたすべてのバリアントにわたって高いエピトープ結合傾向を有すると予測され(0.9を超える値には、表2で下線が引かれている)、したがって、治療標的化のための魅力的な標的であろう。さらに、H50自体の変異(表2において太字で示された残基)は、α-シヌクレインの凝集傾向において役割を果たすと考えられているが、本明細書で提供されたH50Yバリアント(配列番号9)は、野生型H50残基を有するバリアントと比較して、H50凝集表面に沿った無秩序の劇的な低下を示した。したがって、H50凝集表面は、H50Y変異を有するα-シヌクレインのバリアントについては、創薬可能なエピトープではないようである。
【0076】
例示的な実施形態が本明細書に示され、説明されてきたが、このような実施形態は例として提供されているに過ぎないことは当業者には明らかである。当業者であれば、多数の変形、変更および置換に想到する。本明細書に記載されている実施形態に対する様々な代替手段が使用され得ることが理解されるべきである。以下の特許請求の範囲が本開示の範囲を定義し、これらの特許請求の範囲内の方法および構造ならびにそれらの均等物が本発明の範囲によって包含されることが意図される。
【0077】
【表2-1】
【表2-2】
【表2-3】
【表2-4】
【表2-5】
【表2-6】
【表2-7】
【表2-8】
【表2-9】
【表2-10】
【配列表】
【国際調査報告】