(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-02
(45)【発行日】2024-05-14
(54)【発明の名称】配列に基づくタンパク質の構造と特性の決定
(51)【国際特許分類】
G16B 30/00 20190101AFI20240507BHJP
G01N 33/68 20060101ALI20240507BHJP
【FI】
G16B30/00
G01N33/68
(21)【出願番号】P 2020544750
(86)(22)【出願日】2019-02-26
(86)【国際出願番号】 US2019019688
(87)【国際公開番号】W WO2019165476
(87)【国際公開日】2019-08-29
【審査請求日】2022-02-25
(32)【優先日】2018-02-26
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】519434248
【氏名又は名称】ジャスト-エヴォテック バイオロジクス,インコーポレイテッド
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】アミムー,タイルリ
(72)【発明者】
【氏名】シェイヴァー,ジェレミー,マーティン
(72)【発明者】
【氏名】ケッチェム,ランダル,アール.
【審査官】山崎 誠也
(56)【参考文献】
【文献】特表2002-523057(JP,A)
【文献】韓国公開特許第10-2016-0131837(KR,A)
【文献】国際公開第2002/034876(WO,A2)
【文献】特開2011-133962(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
G01N 33/68
(57)【特許請求の範囲】
【請求項1】
以下の:
1つ以上の計算装置により、多数のタンパク質の複数の
生物物理的特性の値を示す第1データ、及び前記多数のタンパク質の複数の構造的特徴を示す第2データを取得する工程;
前記1つ以上の計算装置により、前記第1データを解析して、複数の生物物理的特性のうちの第1の生物物理的特性に影響を及ぼす1以上の第1の構造的特徴及び
前記複数の生物物理的特性のうちの第2の生物物理的特性に影響を及ぼす1以上の第2の構造的特徴を決定する工程であって、前記1以上の第2の構造的特徴のうち、少なくとも1つの第2の構造的特徴は、前記1以上の第1の構造的特徴のうち、少なくとも1つの第1の構造的特徴とは異なり、
前記1つ以上の計算装置により、前記複数の構造的特徴の個々の構造的特徴に対応する複数の構造的特徴
計算モデルを生成する工程であって、かつ、前記複数の構造的特徴の個々の
計算モデルは、タンパク質に関する前記個々の構造的特徴の存在又は不存在を予測する;
前記1つ以上の計算装置により、前記第1の生物物理的特性に対応する第1の生物物理的特性
計算モデルを作成する工程であって、前記第1の生物物理的特性
計算モデルは、前記1以上の第1の構造的特徴に基づいて、タンパク質に関する前記第1の生物物理的特性の値を予測する;
前記1つ以上の計算装置により、前記第2の生物物理的特性に対応する第2の生物物理的特性
計算モデルを作成する工程であって、前記第2の生物物理的特性
計算モデルは、前記1以上の第2の構造的特徴に基づいて、タンパク質に関する前記第2の生物物理的特性の値を予測する;
前記1つ以上の計算装置により、タンパク質のアミノ酸配列を取得する工程;
前記1つ以上の計算装置により、前記アミノ酸配列
に少なくとも部分的に基づき、かつ前記構造的特徴
計算モデルを部分的に利用して、前記タンパク質の1又はそれ以上の第1の構造的特徴を決定する工程;
前記1つ以上の計算装置により、前記
1又はそれ以上の第1の構造的特徴を
前記第1の生物物理的特性
計算モデルへの入力として提供する工程;かつ、
前記1つ以上の計算装置により、少なくとも1つの前記構造的特徴に少なくとも部分的に基づき、かつ前記第1の生物物理的特性
計算モデルを利用して、前記タンパク質の前記生物物理的特性の値を決定する工程;
を含む、方法。
【請求項2】
さらに、以下の:
さらなる複数の構造的特徴が、前記生物物理的特性のさらなる生物物理的特性に対応することを決定する工程
を含む、請求項1に記載の方法であって、前記さらなる複数の構造的特徴は、前記複数の構造的特徴とは異なる、少なくとも1つの構造的特徴を含み、前記さらなる生物物理的特性は、前記第1の生物物理的特性とは異なる、方法。。
【請求項3】
前記第1の生物物理的特性は、前記タンパク質が展開する(unfold)温度であり、前記少なくとも1つの第1の構造的特徴は、前記タンパク質の多数の極性領域及び前記タンパク質の多数の疎水性領域を含む、請求項2に記載の方法。
【請求項4】
さらに以下の:
タンパク質群から、第1のタンパク質セットを決定して、タンパク質のさらなる生物物理的特性を予測するための第1のさらなる
計算モデルを訓練し、かつ、タンパク質のさらなる構造的特徴を予測するための第2のさらなる
計算モデルを訓練する、工程;
前記第1のタンパク質セットの第1アミノ酸配列及び生物物理的特性に少なくとも部分的に基づき、第1の複数の変数及び第1の複数の重みを含む1以上の第1の方程式を決定することにより、前記第1のさらなる
計算モデルを訓練する工程;
前記第1のタンパク質セットの第1アミノ酸配列及び構造的特徴に少なくとも部分的に基づき、第2の複数の変数及び第2の複数の重みを含む1以上の第2の方程式を決定することにより、前記第2のさらなる
計算モデルを訓練する工程;及び、
前記タンパク質群から、第2のタンパク質セットを決定して、前記第1のさらなる
計算モデルを試験し、かつ、前記第2のさらなる
計算モデルを試験する工程、を含む、請求項1に記載の方法であって、ここで、前記第2のタンパク質セットは第2アミノ酸配列を備える、方法。
【請求項5】
さらに以下の:
前記第1のさらなる
計算モデルを試験する工程であって、以下の:
第2アミノ酸配列に基づき、かつ前記第1のさらなる
計算モデルを用いて、前記第2のタンパク質セットの生物物理的特性の第1の値を決定する工程;及び、
前記生物物理的特性の第1の値と、
前記第2のタンパク質セットに対応するデータに含まれる生物物理的特性の第2の値の間の第1の差異を決定する工程;並びに、
前記第2のさらなる
計算モデルを試験する工程であって、以下の:
前記第2アミノ酸配列に基づき、かつ前記第2のさらなる
計算モデルを用いて、前記第2のタンパク質セットの第1の構造的特徴を決定する工程;及び、
前記第1の構造的特徴と、
前記第2のタンパク質セットに対応するデータに含まれる第2の構造的特徴の間の第2の差異を決定する工程;
を含む、請求項4に記載の方法。
【請求項6】
さらに以下の:
前記第1の差異に基づき、
前記第1のさらなる
計算モデルに関する第1の誤差量を決定する工程;及び、
前記第2の差異に基づき、
前記第2のさらなる
計算モデルに関する第2の誤差量を決定する工程;
を含む、請求項5に記載の方法。
【請求項7】
さらに以下の:
前記タンパク質群から、第3のタンパク質セットを決定して、前記第1のさらなる
計算モデルを訓練して前記タンパク質のさらなる生物物理的特性を予測し、かつ、
前記第2のさらなる
計算モデルを訓練して前記タンパク質の構造的特徴を予測する、工程であって、ここで、前記第3のタンパク質セットは、前記第1のタンパク質セット及び前記第2のタンパク質セットとは異なる;
前記第3のタンパク質セットの第3アミノ酸配列及びさらなる生物物理的特性に少なくとも部分的に基づき、前記第1の複数の変数又は前記第1の複数の重みのうちの少なくとも1つを改変して、前記第1のさらなる
計算モデルを改変し、改変された前記第1のさらなる
計算モデルを生成する、工程;及び、
前記第3のタンパク質セットの前記第3アミノ酸配列及びさらなる構造的特徴に少なくとも部分的に基づき、前記第2の複数の変数又は前記第2の複数の重みのうちの少なくとも1つを改変して、前記第2のさらなる
計算モデルを改変し、改変された前記第2のさらなる
計算モデルを生成する工程;
を含む、請求項6に記載の方法。
【請求項8】
さらに、以下の:
前記タンパク質群から、第4のタンパク質セットを決定して、前記改変された第1のさらなる
計算モデルを訓練し、かつ、前記改変された第2のさらなる
計算モデルを訓練する工程であって、前記第4のタンパク質セットは、第4アミノ酸配列を備え、かつ、前記第1のタンパク質セット、前記第2のタンパク質セット及び前記第3のタンパク質セットとは異なる;
前記改変された第1のさらなる
計算モデルを試験する工程であって、以下の:
前記第4アミノ酸配列に基づき、かつ前記改変された第1のさらなる
計算モデルを用いて、前記第4のタンパク質セットの生物物理的特性の第3の値を決定する工程;及び、
前記生物物理的特性の第3の値と、前記第4のタンパク質セットに対応するデータに含まれる生物物理的特性の第4の値の第3の差異を決定する工程;並びに、
前記改変された第2のさらなるモデルを試験する工程であって、以下の:
前記第4アミノ酸配列に基づき、かつ前記改変された第2のさらなるモデルを用いて、前記第4のタンパク質セットの第3の構造的特徴を決定する工程;及び、
前記第3の構造的特徴と、前記第4のタンパク質セットに対応するデータに含まれる第4の構造的特徴の第4の差異を決定する工程;
を含む、請求項7に記載の方法。
【請求項9】
さらに、以下の:
前記第1の差異よりも小さい前記第3の差異に少なくとも部分的に基づいて、第3の誤差量は、前記第1の誤差量よりも小さいと決定する工程;及び、
前記第2の差異よりも小さい第4の差異に少なくとも部分的に基づいて、第4の誤差量は、前記第2の誤差量よりも小さいと決定する工程;
を含む、請求項8に記載の方法。
【請求項10】
前記第1のタンパク質セットは、少なくとも第1のタンパク質及び前記第1のタンパク質の1以上の変異体を含み、かつ、前記第2のタンパク質セットは、少なくとも第2のタンパク質及び1以上の前記第2のタンパク質の変異体を含む、請求項4に記載の方法。
【請求項11】
1つ以上のプロセッサ;並びに
前記1つ以上のプロセッサによって実行されると、以下の:
多数のタンパク質の
複数の生物物理的特性の値を示す第1データ、及び前記多数のタンパク質の
複数の構造的特徴を示す第2データを取得すること;
1つ以上の計算装置により、前記第1データを解析して、複数の生物物理的特性のうちの第1の生物物理的特性に影響を及ぼす1以上の第1の構造的特徴及び
前記複数の生物物理的特性のうちの第2の生物物理的特性に影響を及ぼす1以上の第2の構造的特徴を決定することであって、前記1以上の第2の構造的特徴のうち、少なくとも1つの第2の構造的特徴は、前記1以上の第1の構造的特徴のうち、少なくとも1つの第1の構造的特徴とは異なり、
前記複数の構造的特徴の個々の構造的特徴に対応する複数の構造的特徴
計算モデルを生成することであって、かつ、前記複数の構造的特徴の個々の
計算モデルは、タンパク質に関する前記個々の構造的特徴の存在又は不存在を予測する、
前記第1の生物物理的特性に対応する第1の生物物理的特性
計算モデルを作成することであって、前記第1の生物物理的特性
計算モデルは、前記1以上の第1の構造的特徴に基づいて、タンパク質に関する前記第1の生物物理的特性の値を予測する、
前記第2の生物物理的特性に対応する第2の生物物理的特性
計算モデルを作成することであって、前記第2の生物物理的特性
計算モデルは、前記1以上の第2の構造的特徴に基づいて、タンパク質に関する前記第2の生物物理的特性の値を予測する、
タンパク質のアミノ酸配列を取得すること;
前記アミノ酸配列の少なくとも部分的に基づき、かつ前記構造的特徴
計算モデルを部分的に利用して、前記タンパク質の1又はそれ以上の第1の構造的特徴を決定すること、
前記
1又はそれ以上の第1の構造的特徴を
前記第1の生物物理的特性
計算モデルへの入力として提供すること、かつ、
少なくとも1つの前記構造的特徴に少なくとも部分的に基づき、かつ前記第1の生物物理的特性
計算モデルを利用して、前記タンパク質の前記生物物理的特性の値を決定すること、
を含む動作を実行するコンピュータ可読命令を格納した1つ以上の非一時的なコンピュータ可読媒体、
を含む、システム。
【請求項12】
1つ以上のプロセッサによって実行されると、以下の:
前記タンパク質のアミノ酸配列と、前記タンパク質の変異体のさらなるアミノ酸配列との間の差異を決定すること;及び
前記差異を前記構造的特徴
計算モデルに提供し、前記タンパク質と前記タンパク質の変異体に関する1つ以上の第1の構造的特徴の間のさらなる差異を決定すること;
を含むさらなる動作を実行するさらなるコンピュータ可読命令を格納する1つ以上の非一時的コンピュータ可読媒体を備える、請求項11に記載のシステム。
【請求項13】
1つ以上のプロセッサによって実行されると、以下の:
前記構造的特徴
計算モデル、前記第1の生物物理的特性
計算モデル及び前記第2の生物物理的特性
計算モデルは、少なくとも部分的に訓練データに基づいて生成され、ここで、前記訓練データは、複数のタンパク質の構造的特徴、前記複数のタンパク質の個々のタンパク質の変異体の構造的特徴、前記複数のタンパク質の生物物理的特性、及び前記複数のタンパク質の個々のタンパク質の変異体の生物物理的特性を含み;かつ、
前記1つ以上のプロセッサによって実行されると、前記訓練データを分析して、前記複数の構造的特徴、前記第1の生物物理的特性及び前記第2の生物物理的特性との間の関係を決定すること;
を含む、さらなる動作を実行するさらなるコンピュータ可読命令を格納する1つ以上の非一時的コンピュータ可読媒体を備える、請求項11に記載のシステム。
【請求項14】
1つ以上のプロセッサによって実行されると、以下の:
ニューラルネットワークと結合されたk-近傍モデルの組み合わせを用いて、
前記多数のタンパク質の構造的特徴を決定すること;及び
1つ以上の因子系モデルを用いて、前記タンパク質の
前記第1の生物物理的特性又は前記第2の生物物理的特性の
少なくともどちらか一方の値を決定すること;
を含むさらなる動作を実行するさらなるコンピュータ可読命令を格納する1つ以上の非一時的コンピュータ可読媒体を備える、請求項11に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願とのクロスレファレンス
【0002】
本出願は、2018年2月26日に出願され、発明の名称が「配列に基づくタンパク質構造及び特性の決定」である米国仮出願第62/635,529号に対する優先権を主張し、その全体が参照により本明細書に援用される。
【背景技術】
【0003】
タンパク質は、化学結合を介して連結されたアミノ酸の配列から構成される。特定のタンパク質のアミノ酸配列は、そのタンパク質が発現されるデオキシリボ核酸(DNA)中のヌクレオチド配列に基づく。タンパク質の機能及び構造は、そのタンパク質のアミノ酸配列に基づくことができる。タンパク質は、酵素活性又は細胞シグナル伝達の調節等の、生物体内で様々な機能を呈すことができる。ある種のタンパク質はまた、生物学的状態の処置に治療的に用いられうる。例えば、抗体等のタンパク質は、場合により病原体に結合して、当該病原体を標的とし、T細胞又はマクロファージ等の生物体内の他の物質により破壊される。他の例では、タンパク質は、分子に結合して、当該分子を生物体内の標的位置に輸送することで、生物学的条件の表現型を緩和することができる。
【0004】
タンパク質の原子構造は、X線結晶解析、核磁気共鳴(NMR)分光法、又はクライオ電子顕微鏡法から得られたデータに関する複雑な計算を用いて決定されることが多い。多くのタンパク質の原子構造は、Protein Data Bankという公的に利用可能なデータベースに保存される。タンパク質の原子構造の決定は、時間がかかり、複雑で、コストのかかるプロセスであり、単一のタンパク質の構造的特徴の決定に数カ月から数年かかることが多い。タンパク質の特性は、各々の特性に応じた特異的な分析法を用いて決定することができる。例えば、タンパク質の安定性は、示差走査蛍光測定法により測定することができ、タンパク質の分子量は、サイズ排除クロマトグラフィーを用いて測定することができる。タンパク質の特徴づけは、時間がかかり、複雑、かつコストもかかる。なぜなら、タンパク質の特徴づけは、特定のタンパク質の性質の決定に複数の検査を行うからである。単一タンパク質の性質を調べるのに、数週間から数カ月かかることがある。
【図面の簡単な説明】
【0005】
【
図1】タンパク質の配列に基づきタンパク質の構造及び特性を決定するアーキテクチャの実施図である。
【0006】
【
図2】タンパク質配列の変化に基づき、タンパク質の構造及び特性を決定するモデルを決定するアーキテクチャの実施図である。
【0007】
【
図3】タンパク質及びその変異体の構造的特徴の変化、並びに当該タンパク質及びその変異体の配列の変化に基づき、タンパク質の特性を決定する構造の実施図である。
【0008】
【
図4】アミノ酸配列に基づきタンパク質の構造的特徴を予測する第1モデルを生成し、かつタンパク質の構造的特徴に基づきタンパク質の生物物理的特性の値を予測する第2モデルを生成する第1例のプロセスのフロー図である。
【0009】
【
図5】複数のモデルを生成し、各モデルについてタンパク質の構造的特徴を決定し、タンパク質の生物物理的特性の値を決定する第2例のプロセスのフロー図である。
【0010】
【
図6】タンパク質の構造的特徴及び生物物理的特性の値を決定するモデルを生成及び実施に、1又はそれ以上の計算装置を含む、例示的なシステムのブロック図を示す。
【0011】
【
図7】基本タンパク質及び基本タンパク質の変異体をコードする例を示す。
【0012】
【
図8】タンパク質及びタンパク質の変性剤の様々な濃度(すなわち、変曲点)でタンパク質がどのように展開するかを示す、第1プロット、第2プロット、及び第3プロットを示す。
【発明を実施するための形態】
【0013】
本明細書に記載される概念は、タンパク質配列に基づきタンパク質の構造及び特性を決定することを目的とする。実施形態では、本明細書に記載のシステム及び技術は、タンパク質の配列及びタンパク質の変異体の間の差異を利用して、タンパク質の構造的特徴を決定する。さらに、本明細書に記載のシステム及び技術は、タンパク質の生物物理学的特性の決定に、タンパク質と当該タンパク質の変異体の構造的特徴の差異を利用する。特定の実施形態では、機械学習を利用して、タンパク質配列の変化からタンパク質の構造的特徴を決定し、タンパク質の構造的特徴の変化からタンパク質の生物物理的特性を決定するモデルを生成することができる。
【0014】
タンパク質の特定の構造的特徴は、通常、タンパク質の原子構造から決定される。例えば、タンパク質の原子構造は鋳型として機能し、タンパク質の構造的特徴は、鋳型の折りたたみに関連するエネルギーを最小化する集中的な計算プロセスを利用して決定することができる。タンパク質の原子構造の決定は長く複雑な過程であるため、当該原子構造を利用してタンパク質の構造的特徴を決定には限界がある。つまり、構造的特徴を決定することができるタンパク質の数は、分析可能なタンパク質の総数のうち極めて限定される。さらに、タンパク質の特徴付けはまた、長く複雑なプロセスであり得るので、従来の分析技術を利用して、より多数のタンパク質の生物物理的特性を決定することもまた限度がある。従って、タンパク質の構造的特徴及びタンパク質の生物物理的特性を決定する予測モデルを実行する機械学習技術を利用して、利用される物理的資源の数及びタンパク質の構造を決定し、タンパク質の特徴付けに必要な時間を最小化できる。
【0015】
しかしながら、機械学習モデルの訓練に利用されるデータの量は限定される。特に、タンパク質の構造的特徴の決定及びタンパク質の生物物理的特性の決定における課題は、タンパク質の構造的特徴及びタンパク質の生物物理的特性の決定に機械学習モデルの訓練に利用できるデータが少ないことである。タンパク質の配列データはより容易に入手可能であり、タンパク質の配列決定に利用される技術は、タンパク質の構造的特徴及び生物物理的特性の決定に利用される技術より安価であるが時間がかかる。従って、タンパク質の配列とタンパク質の構造的特徴との関係を利用して、タンパク質の構造的特徴とタンパク質の配列に基づくタンパク質の生物物理的特性を決定することができる機械学習モデルを訓練することができる。本明細書に記載される様々な実施形態では、タンパク質の配列に基づきタンパク質の構造的特徴及び生物物理的特性を決定するモデルを生成する技術及びシステムが記載される。
【0016】
しかし、タンパク質の構造的特徴がタンパク質の配列に直接対応しない場合もある。例えば、単一タンパク質は、結晶充填効果のために、タンパク質の配列中の同位置に異なる構造的特徴がありうる。すなわち、単一配列を備えるタンパク質であっても、様々な構造的特徴がありうる。当該シナリオでは、機械学習モデルは、タンパク質配列決定に基づき決定される構造的特徴及び生物物理学的特性の結果が不正確である場合がある。従って、本明細書では、単一のタンパク質が結晶充填効果のために異なる構造的特徴がありうる場合、タンパク質配列に基づきタンパク質の構造的特徴及び生物物理的特性の決定に用いられる機械学習モデルに関して生じうる不正確性を補正するさらなるシステム及び技術が記載される。
【0017】
本明細書の様々な実施形態では、タンパク質の配列に基づきタンパク質の構造的特徴及び生物物理的特性の決定に相対モデルを実施する技術及びシステムが記載される。例えば、各タンパク質の多くの変異体に加えて、多くのタンパク質を発現させることができる。さらに、タンパク質及びタンパク質の変異体の構造的特徴、並びにタンパク質及びタンパク質の変異体の生物物理的特性を決定することができる。タンパク質とその変異体の配列の差異は、タンパク質とその変異体の間の構造的特徴の変化や生物物理的特性の変化と相関しる。配列の差異とタンパク質の構造的特徴の変化、及び複数のタンパク質とその変異体のタンパク質の生物物理的特性の相関関係は、さらなるタンパク質の配列に基づきさらなるタンパク質の構造的特徴及び生物物理学的特性を決定するモデルの訓練に利用することができる。
【0018】
タンパク質配列の差異と、タンパク質の変異体の構造的特徴及び生物物理学的特性の変化との間の相関関係を決定することにより、相対的データを用いて、タンパク質の構造的特徴及び生物物理学的特性の決定にタンパク質配列を利用することができるモデルを作成することができる。タンパク質配列からタンパク質の構造的特徴及び生物物理的特性を決定するモデルの生成に相対的データを用いると、単に生の構造的特徴データ及び配列データと関連付けられた生物物理学的特性データを用いてタンパク質の配列からタンパク質の構造的特徴及び生物物理学的特性を決定するモデルを生成することから生じ得る不正確性が除去される。
【0019】
図1は、タンパク質の配列に基づきタンパク質の構造及び特性を決定するアーキテクチャ100の実施図である。アーキテクチャ100では、訓練データ102を利用して、タンパク質の構造的特徴を決定することができるモデル及びタンパク質の特性を決定することができるモデルを生成することができる。訓練データ102は、第1タンパク質104及び第1タンパク質104の変異体から得ることができる。第1タンパク質104には、第1変異体106から第N番目変異体108までの多数の変異体がありうる。第1変異体106は、少なくとも110、112、114の位置で第1タンパク質104と異なることができ、第N番目変異体108は、少なくとも110、114、116の位置で第1タンパク質104と異なってよい。訓練データ102はまた、第2タンパク質118及び第2タンパク質118の変異体から誘導することもできる。第2タンパク質118には、第1変異体120から第N番目変異体122までの多数の変異体がありうる。第1変異体120は、少なくとも124、126、128の位置で第2タンパク質118と異なってよく、第2変異体122は、少なくとも124、126、128の位置で第2タンパク質118と異なってよい。例示的な例では、第1タンパク質104及びその変異体106~108は、第2タンパク質118及びその変異体120~122の生物物理学的特性と共に、抗体(Ig)を含んでよい。特に例示的な例では、第1タンパク質104及びその変異体106~108は、第2タンパク質118及びその変異体120~122の生物物理学的特性と共に、免疫グロビン型抗体を含んでよい。ある実施形態では、軽鎖はλ又はκに分類することができる。
【0020】
特に実施形態では、訓練データ102は、第1タンパク質104及び第2タンパク質118のアミノ酸配列を含むことができる。第1タンパク質104及び第2タンパク質118のアミノ酸配列は、第1タンパク質104及び第2タンパク質118の個々の位置に位置する特定のアミノ酸を示すことができる。質量分析を用いてタンパク質配列を決定する特定の技術は、Hunt, D F et al. “Protein Sequencing by Tandem Mass Spectrometry.” Proceedings of the National Academy of Sciences of the United States of America 83.17 (1986): 6233-6237に見出すことができる。さらに、第1タンパク質104、第2タンパク質118、及びそれらの変異体の配列は、Berg JM, Tymoczko JL, Stryer L. Biochemistry. 5th edition. New York: W H Freeman; 2002. Section 4.2, Amino Acid Sequences Can Be Determined by Automated Edman Degradation. Available from: https://www.ncbi.nlm.nih.gov/books/NBK22571/に記載されるように、Edman分解を用いて決定することができる。さらに、第1タンパク質104、第2タンパク質118、及びそれらの変異体の配列は、Smith, A. (2008) Nucleic acids to amino acids: DNA specifies protein. Nature Education 1(1):126の記載のように、デオキシリボ核酸(DNA)配列又は第1タンパク質104、第2タンパク質118、及びそれらの変異体に関連するリボ核酸(RNA)配列等のヌクレオチド配列から決定することができる。
【0021】
訓練データ102はまた、第2タンパク質118及びその変異体120~122の構造的特徴に加えて、第1タンパク質104及びその変異体106~108の構造的特徴を含むことができる。
図2の例示的な例は、第1タンパク質104及び第2タンパク質118には2つの変異体があることを示すが、他の例では、第1タンパク質104及び第2タンパク質118には、数十の変異体、数百の変異体、又はそれ以上の変異体等の異なる数の変異体があってよい。第1タンパク質104、変異体106~108、第2タンパク質118、及び変異体120~122の構造的特徴は、αヘリックス、βターン、βシート、Ωループ、さらなる構造的特徴、又はそれらの組み合わせを含むことができる。第1タンパク質104、変異体106~108、第2タンパク質118、及び変異体120~122の構造的特徴は、第1タンパク質104、変異体106~108、第2タンパク質118、及び変異体120~122の疎水性領域、極性領域、荷電領域、さらなる構造的特徴、又はそれらの組み合わせを示してよい。当該構造的特徴は、第1タンパク質104、変異体106~108、第2タンパク質118、及び変異体120~122の一種の二次構造又は三次構造に関連するタンパク質の多数の位置又は1又はそれ以上の領域を示すことができる。第1タンパク質104、変異体106~108、第2タンパク質118、及び変異体120~122の二次構造は、レーザーラマン分光法によるタンパク質の二次構造の決定;J. L. Lippert, D. Tyminski, and P. J. Desmeules; Journal of the American Chemical Society 1976 98 (22), 7075-7080 DOI: 10.1021/ja00438a057及びAlberts B, Johnson A, Lewis J, et al. Molecular Biology of the Cell. 4th edition. New York: Garland Science; 2002. Analyzing Protein Structure and Function(https://www.ncbi.nlm.nih.gov/books/NBK26820/から入手可能)に記載されているものを含む、多数の方法により決定することができる。タンパク質の原子構造が決定されている場合、タンパク質の折りたたみに関連するエネルギーを最小限に抑える計算技術により、原子構造に基づくタンパク質の構造的特徴を決定することもできる。
【0022】
さらに、訓練データ102は、第2タンパク質118及びその変異体120~122の生物物理学的特性と共に、第1タンパク質104及びその変異体106~108の生物物理学的特性を含むことができる。第1タンパク質104及びその変異体106~108の生物物理学的特性、並びに第2タンパク質118及びその変異体120~122の生物物理学的特性は、第1タンパク質104及びその変異体106~108に関するデータを第2タンパク質118及びその変異体120~122の生物物理学的特性とともに生成する多数のアッセイを含むことができる分析試験から得ることができる。様々な実施形態では、第1タンパク質104及びその変異体106~108の生物物理学的特性、並びに第2タンパク質118及びその変異体120~122の生物物理学的特性は、サイズ排除クロマトグラフィー及び/又はUV-Vis分光光度計を用いて測定することができる濁度を用いて測定することができる分子量を含むことができる。さらなる実施形態では、第1タンパク質104及びその変異体106~108の生物物理学的特性、並びに第2タンパク質118及びその変異体120~122の生物物理学的特性は、示差走査蛍光分析法又は化学的アンフォールディングアッセイにより決定することができる安定性の測定を含むことができる。さらに、第1タンパク質104及びその変異体106~108の生物物理学的特性、並びに第2タンパク質118及びその変異体120~122の生物物理学的特性は、自己相互作用ナノ粒子分光法(SINS)により決定されるように、これらの個々のタンパク質の領域間の相互作用の尺度を含むことができる。
【0023】
アーキテクチャ100は、訓練データ102を得ることができるタンパク質特性モデル生成システム130を含むことができる。タンパク質特性モデル生成システム130は、訓練データ102を利用して、タンパク質特性モデル134を含むことができるタンパク質特性モデルの群132を生成することができる。タンパク質特性モデルの群132は、タンパク質の構造的特徴に少なくとも部分的に基づき、タンパク質の生物物理的特性を決定することができる。特定の実施形態では、タンパク質特性モデル生成システム130は、訓練データ102を分析して、訓練データ102と関連するタンパク質の構造的特徴と訓練データ102と関連するタンパク質の生物物理的特性との間の関係を決定することができる。訓練データ102に関連するタンパク質の構造的特徴と訓練データ102に関連するタンパク質の生物物理的特性との間の関係は、1又はそれ以上の変数及び1又はそれ以上の変数に対応する1又はそれ以上の重みを含む1又はそれ以上の方程式により表すことができる。1又はそれ以上の重みは、線形モデルの特定の構造的特徴による、又はタンパク質特性モデルの群内の各変数により表される非線形モデルの線形及び非線形構造的特徴の何らかの組み合わせによる、生物物理的特性の決定に対する影響の量を示すことができる。132。
【0024】
アーキテクチャ100はまた、訓練データ102を取得し、訓練データ102を利用して、構造的特徴モデル140を含むことができる構造的特徴モデルの群138を生成することができる構造的特徴モデル生成システム136を含むことができる。構造的特徴モデルの群138は、タンパク質の配列に少なくとも部分的に基づきタンパク質の構造的特徴を決定することができる。特定の実施形態では、タンパク質特性モデル生成システム136は、訓練データ102を分析して、訓練データ102と関連するタンパク質の配列と訓練データ102と関連するタンパク質の構造的特徴との間の関係を決定することができる。訓練データ102に関連するタンパク質の配列と訓練データ102に関連するタンパク質の構造的特徴との間の関係は、1又はそれ以上の変数及び1又はそれ以上の変数に対応する1又はそれ以上の重みを含む1又はそれ以上の方程式により表すことができる。1又はそれ以上の重みは、線形モデルについては配列若しくは配列の特定の部分により、又は非線形モデルについては線形及び/若しくは非線形の構造的特徴の何らかの組み合わせにより、構造的特徴に対する影響の量を示すことができ、これらは、構造的特徴モデルの群138内の各変数により表される。
【0025】
様々な実施形態では、構造的特徴モデルの群138は、決定される各構造的特徴用の単一モデルを含むことができる。例示のため、構造的特徴モデルの群138は、タンパク質の領域の疎水性を決定する構造的特徴モデルを含むことができる。別の例示的な実施例では、構造的特徴モデルの群138は、タンパク質の極性領域を決定する構造的特徴モデルを含むことができる。さらなる場合、構造的特徴モデルの群138は、タンパク質の荷電領域を決定する構造的特徴モデルを含むことができる。さらに、構造的特徴モデルの群138は、抗体の重鎖の構造的特徴を決定する1又はそれ以上の第1モデル、及び抗体の軽鎖の構造的特徴を決定する1又はそれ以上の第2モデルを含むことができる。特定の実施形態では、構造的特徴モデルの群138の個々のモデルは、ランダム森林モデルを含むことができる。さらなる実施形態では、構造的特徴モデルの群138の個々のモデルは、ニューラルネットワーク又は畳み込みニューラルネットワークを含むことができる。例示的な実施形態では、構造的特徴モデルの群138の個々のモデルは、モデルの組み合わせを含むことができる。例えば、構造的特徴モデルの群138の個々のモデルは、ニューラルネットワークと結合されたk-近傍モデルの組み合わせを含むことができる。
【0026】
様々な実施形態では、タンパク質特性モデルの群132の個々のモデルは、構造的特徴モデルの群138のうちの1又はそれ以上からの入力を得ることができる。特定の実施形態では、特定のタンパク質特性モデル132を用いて決定される個々の生物物理的特性は各々、1又はそれ以上の構造的特徴モデル138の各々の数に関連付けることができる。例えば、タンパク質の展開が始まる温度の決定に関するタンパク質特性モデル132は、タンパク質の疎水性の決定に関する第1構造的特徴モデル138、タンパク質の極性領域の決定に関する第2構造的特徴モデル138、及びタンパク質の荷電領域の決定に関する第3構造的特徴モデル138からの入力を利用することができる。様々な実施形態では、タンパク質特性モデルの群132は、ランダム森林モデルを含むことができる。さらなる実施形態では、タンパク質特性モデルの群132は、パラファックモデル、部分最小二乗モデル、又はノンパラメトリック連鎖スコアモデル等の因子系モデルを含むことができる。
【0027】
タンパク質特性モデルの群132は、実施形態では、少なくとも部分的に、個々の生物物理的特性に関して第1タンパク質104とその変異体106~108との間の構造的特徴の差異を分析し、個々の生物物理的特性に関して第2タンパク質118とその変異体120~122との間の構造的特徴の差異を分析することに基づき決定することができる。特定の例では、タンパク質特性モデル生成システム130は、第1タンパク質104とその変異体106~108との間の疎水性の差異、及び第2タンパク質118とその変異体120~122との間の疎水性の差異を分析して、タンパク質が展開する温度を決定するモデルを生成することができる。さらなる実施形態では、構造的特徴モデルの群138は、構造的特徴に関して第1タンパク質104及びその変異体106~108の配列における差異、並びに構造的特徴に関して第2タンパク質118及びその変異体120~122の配列における差異を分析することにより決定することができる。例示的な実施例では、構造的特徴モデル生成システム136は、第1タンパク質104とその変異体106~108の配列間の差異、及び第2タンパク質118とその変異体120~122の配列間の差異を分析して、タンパク質の極性領域の変化を決定することができる。
【0028】
また、アーキテクチャ100は、タンパク質特性モデルの群132及び構造的特徴モデルの群138を利用して、さらなるタンパク質144などのタンパク質の配列に基づきタンパク質の生物物理的特性を決定できるタンパク質分析システム142を含むことができる。特に、146では、タンパク質分析システム142は、1又はそれ以上の構造的特徴モデル及びさらなるタンパク質144の配列データに基づき、さらなるタンパク質144の構造的特徴を決定することができる。タンパク質分析システム142はまた、さらなるタンパク質144の配列と、少なくとも148位でさらなるタンパク質144のアミノ酸配列から変化するアミノ酸配列を有する変異体タンパク質146等の、さらなるタンパク質の少なくとも1つの変異体の配列との間の入力差として利用することもできる。さらに、150では、タンパク質分析システム142は、動作146で決定されるさらなるタンパク質144の構造的特徴に少なくとも部分的に基づき、さらなるタンパク質144の生物物理的特性を決定することができる。タンパク質分析システム142はまた、少なくとも部分的には、さらなるタンパク質144の構造的特徴と、変異体146等のさらなるタンパク質144の少なくとも1つの変異体との間の差異に基づき、さらなるタンパク質144の生物物理的特性を決定することができる。
【0029】
例示的な実施例では、さらなるタンパク質144の配列及び変異体146の配列は、タンパク質分析システム142により得ることができる。さらに、さらなるタンパク質144の1又はそれ以上の生物物理的特性を決定する要件は、タンパク質分析システム142によっても得ることができる。入力に関連する1又はそれ以上の生物物理的特性に少なくとも部分的に基づき、タンパク質分析システム142は、1又はそれ以上の生物物理的特性を決定するために利用することができる構造的特徴を同定することができる。その後、タンパク質分析システム142は、1又はそれ以上の生物物理的特性に対応する構造的特徴モデルの群138から選択された構造的特徴モデルを利用することができる。タンパク質分析システム142は、さらなるタンパク質144の配列と変異体146の配列との間の差異に少なくとも部分的に基づき、構造的特徴モデルの群138から選択された構造的特徴モデルから構造的特徴を決定するために進むことができる。続いて、タンパク質分析システム142は、決定される生物物理的特性に対応するタンパク質特性モデル132への入力として、構造的特徴モデルの群を用いて得られた構造的特徴を利用することができる。特定の実施形態では、タンパク質分析システム142は、決定される生物物理的特性に対応するタンパク質特性モデル132への入力として、さらなるタンパク質144とその変異体146との間の構造的特徴の差異を決定することができる。次いで、タンパク質分析システム142は、決定される生物物理的特性に対応するタンパク質特性モデル132及び動作146において決定される構造的特徴又は構造的特徴の差異に少なくとも部分的に基づき、さらなるタンパク質144の生物物理的特性の値又は変化を決定することができる。
【0030】
図2は、タンパク質配列の変化に基づきタンパク質の構造及び特性を決定するモデルを決定するアーキテクチャ200の実施図である。アーキテクチャ200は、構造的特徴モデル204等の、タンパク質の配列に基づきタンパク質の構造的特徴を決定するモデルの訓練及び試験に用いられうる参照タンパク質202を含むことができる。参照タンパク質202はまた、参照タンパク質202から決定された構造的特徴のモデル、例えばタンパク質特性モデル206に基づき、タンパク質の生物物理的特性を決定するモデルを訓練し、試験に用いることができる。構造的特徴モデル204は、少なくとも第1構造的特徴モデル208、第2構造的特徴モデル210、第3構造的特徴モデル212、及び第4構造的特徴モデル214を含むことができる。さらに、タンパク質特性モデル206は、少なくとも第1タンパク質特性モデル216、第2タンパク質特性モデル218、及び第3タンパク質特性モデル220を含むことができる。
【0031】
個々のタンパク質特性モデル206は、様々な実施形態では、特定の構造的特徴モデル204と関連付けることができる。すなわち、特定の構造的特徴は、タンパク質の特定の生物物理的特性を示すことができる。従って、特定の生物物理的特性を示す構造的特徴に対応する構造的特徴モデル204は、その特定の生物物理的特性に関連するタンパク質特性モデル206と関連する。ある例では、タンパク質の極性領域の多くは、タンパク質の折り畳み温度に対応する。この例の後、タンパク質の極性領域の数を決定する構造的特徴モデル204は、次に、タンパク質の展開温度の決定に関連するタンパク質特性モデル206と関連付けることができる。
図2の例示的な例では、第1タンパク質特性モデル216は、第2構造的特徴モデル210及び第4構造的特徴モデル214に関連付けられる。さらに、第2タンパク質特性モデル218は、第1構造的特徴モデル208に関連し、第3タンパク質特性モデル220は、第2構造的特徴モデル210、第3構造的特徴モデル212、及び第4構造的特徴モデル214に関連する。
【0032】
参照タンパク質202は、第1群222及び第2群224を含むことができる。第1群222は、タンパク質の構造的特徴を同定する構造的特徴モデル204の訓練のために、及びタンパク質の生物物理的特性を決定するタンパク質特性モデル206の訓練のために、用いられる多数のタンパク質を含むことができる。第2群224は、正確性について構造的特徴モデル204及び生物物理的特性モデル208の試験に用いられる多数のタンパク質を含むことができる。
【0033】
様々な実施形態では、参照タンパク質202の異なる群を反復的に選択して、構造的特徴モデル204及びタンパク質特性モデル206を訓練し、試験することができる。例えば、第1群222は、構造的特徴モデル204を訓練するために選択することができ、タンパク質特性モデル206及び第2群224は、構造的特徴モデル204及びタンパク質特性モデル206を正確に試験するために利用することができる。第1群222及び第2群224を用いた第1反復の後、訓練及び試験の第2反復は、構造的特徴モデル204及びタンパク質特性モデル206を訓練するために参照タンパク質202の第3群226を用い、第3群226に基づき生成された構造的特徴モデル204及びタンパク質特性モデル206を試験するために第4群228を用いて行うことができる。訓練及び試験の第2反復を実施した後、構造的特徴モデル204及びタンパク質特性モデル206は、訓練及び試験の第1反復の結果と第2反復の結果との間の差異に基づき、精度を調整することができる。参照タンパク質202の異なる組み合わせによる試験及び訓練のその後の反復は、構造的特徴モデル204及びタンパク質特性モデル206の誤差が最小化されるまで、構造的特徴モデル204及びタンパク質特性モデル206の精度さらなる精緻化に利用することができる。さらなる実施形態では、構造的特徴モデル204及びタンパク質特性モデル206は、異なる群のタンパク質を用いて訓練され、試験され得る。したがって、構造的特徴モデル204は、第1タンパク質セット群を用いて訓練され、試験され、タンパク質特性モデル206は、第1タンパク質セット群とは異なる第2タンパク質セット群を用いて訓練され、試験され得る。
【0034】
図2の例示的な例は、参照タンパク質202が10のタンパク質を含み、第1群222及び第3群226が3つのタンパク質を含み、第2群224及び第4群228が2つのタンパク質を含むことを示すが、他の実施形態では、参照タンパク質202、第1群222、第2群224、第3群226、及び第4群228のタンパク質の数は異なってよい。ある場合、参照タンパク質202の変異体を利用して、タンパク質配列から構造的特徴モデル204を生成し、構造的特徴モデル204から生物物理的特性を決定するためにタンパク質特性モデル206を生成することができる。
【0035】
アーキテクチャ200は、構造的特徴モデル204を、参照タンパク質202を用いて構造的特徴モデル204の訓練及び試験により評価できる構造的特徴モデル評価システム230を含むことができる。特定の実施形態では、構造的特徴モデル評価システム230は、タンパク質の配列及びタンパク質の変異体間の差異を得ることで、1又はそれ以上の構造的特徴モデル234を訓練及び試験することができる。例えば、構造的特徴モデル評価システム230は、参照タンパク質202の第1群222の配列と第1群222の変異体との間の差を決定し、参照タンパク質202の第2群224の構造的特徴と第2群224の変異体との試験に基づき、構造的特徴モデル234の精度を決定することができる。参照タンパク質202の異なる組み合わせを用いて、1又はそれ以上の構造的特徴モデル234を反復的に訓練及び試験した後、構造的特徴モデル評価システム230を、1又はそれ以上の構造的特徴モデル234について誤差が最小化されたことを判定することができる。
【0036】
さらに、アーキテクチャ200は、タンパク質特性モデル234に関するエラーを最小限にするために、タンパク質特性モデル206のタンパク質特性モデル234を評価することができるタンパク質特性モデル評価システム232を含むことができる。例えば、タンパク質特性モデル評価システム232は、タンパク質特性モデル234を訓練し、試験するために、参照タンパク質202及び参照タンパク質202の変異体に関して、構造的特徴モデル204からの出力を得ることができる。例示的な実施形態では、タンパク質特性モデル234は、少なくとも第2構造的特徴モデル210に対応することができ、タンパク質特性モデル評価システム232は、参照タンパク質202の様々な群について第2構造的特徴モデル210からの出力を反復的に得て、タンパク質特性モデル234を訓練し、試験することができる。例示のため、タンパク質特性モデル評価システム232は、タンパク質特性モデル234を訓練するため、第1群222の第2構造的特徴と第1群222の変形との間の差異を得て、第2群224の第2構造的特徴と第2群224の変形との間の差異を得て、タンパク質特性モデル234を試験することができる。他の反復では、タンパク質特性モデル評価システム232は、タンパク質特性モデル234を訓練するため、第3群226の第2構造的特徴と第3群226の変形との間の差異を得ることができ、第4群228の第2構造的特徴と第4群228の変形との間の差異を得ることにより、タンパク質特性モデル234を試験することができる。次に、タンパク質特性モデル評価システム232は、タンパク質特性モデル234の誤差を最小化するため、第1群222及び第2群224に関するタンパク質特性モデル234の評価と第3群226及び第4群228の間の誤差の量との間の誤差の量を評価することができる。参照タンパク質202からさらなる群を選択して、タンパク質特性モデル234に関連する誤差が最小化されるまで、タンパク質特性モデル234を訓練し、試験することができる。
【0037】
さらに、構造的特徴モデル204の訓練及び評価に用いられる参照タンパク質202の変異体は、特定のタンパク質特性モデルに関連する生物物理的特性の決定に用いられる構造的特徴に関連する様々な確率マップを用いて決定することができる。例えば、親タンパク質の単一変異体を、個々のアミノ酸置換のための親タンパク質の個々の位置で決定することができる。すなわち、特定の例では、親タンパク質の各親タンパク質の位置でアミノ酸を異なるアミノ酸で置換する各位置について変異体を決定することができる。ある実施形態では、各親タンパク質の位置を、元の位置に含まれないすべてのアミノ酸で置換することができる。従って、様々な実施形態では、親タンパク質のグリシンの位置は、ロイシン、イソロイシン、バリン、アスパラギン酸、グルタミン酸、アルギニン、ヒスチジン、リジン、システイン、メチオニン、フェニルアラニン、トレオニン、トリプトファン、チロシン、グルタミン、プロリン、セリン、アラニン、アスパラギン、及びセレノシステインで置換され得る。親タンパク質の各位置のアミノ酸が異なるアミノ酸に置換されているので、構造的特徴の変化を決定することができる。例えば、特定の位置のアミノ酸の変化により生じる疎水性の変化を決定することができる。親アミノ酸の位置の様々な変化に基づき、変異体の異なる構造変化が決定され、異なる位置間の相互作用も決定することができる。例としては、親タンパク質の1つの位置が変化すると、別の位置の構造が変化することがある。
【0038】
親タンパク質の配列の位置間の相互作用が同定されると、特定の位置の変化が異なる位置の構造的性質の変化を誘発する確率を示す確率マップが作成される。確率マップは、親タンパク質の位置の変化の間のより複雑な相互作用の予測に利用することができる。例えば、単一の位置と他の2つの位置との相互作用、単一の位置と他の3つの位置との相互作用、単一の相互作用と他の4つの位置との相互作用等、複数の位置にあるアミノ酸間の相互作用は確率マップに基づき決定することができる。次に、構造的特徴モデル204の生成に用いられる変形例は、ある位置での変化が構造的特徴に関して影響を及ぼし得る確率に基づき選択され得る。このようにして、その位置で置換され得る各アミノ酸についての親タンパク質の各位置の変化が、2、3、4、又はそれ以上の他の位置に関して明示的に決定しなくてよい場合、計算技術を利用しなくてよい。従って、構造的特徴モデル204の決定に利用できる参照タンパク質202の変異体の決定に利用される計算リソースは、他の位置の数が増加するにつれて指数関数的に増加するので、参照タンパク質202の複数の他の位置の様々な組み合わせに関して参照タンパク質202の各位置の変化の試験に従来の技術を用いて、大幅に減少される。
【0039】
図3は、タンパク質及びその変異体の構造的特徴の変化、並びにタンパク質及びその変異体の配列の変化に基づきタンパク質の特性を決定する構造300の実施図である。構造300は、タンパク質304とタンパク質304の変異体306との間の差異を示すコード302を含むことができる。タンパク質304及び変異体306は、第308位で変化することができる。すなわち、第308位のタンパク質304のアミノ酸は、第308位の変異体306のアミノ酸と異なってよい。コード化302は、タンパク質304及び変異体306の各位置に関連し得るアミノ酸を分類することができる。実施形態では、コード化302は、タンパク質304及び変異体306の位置に含まれ得る各アミノ酸の値を含むことができる。当該実施形態では、コード化302は、タンパク質304及び変異体306の各位置について21個の値を含むことができる。他の実施形態では、コード化302は、タンパク質304及び変異体306の各位置に関連し得るアミノ酸の群に対する値を含むことができる。特に実施形態では、アミノ酸は、酸性、塩基性、疎水性、芳香族、中性、及び欠失等の分類により群化することができる。これらの実施形態では、コード化302は、タンパク質304及び変異体306の各位置に6つの値を含むことができる。さらなる実施形態では、アミノ酸は、疎水性、極性、荷電、又は欠失等の分類により群化することができる。当該シナリオでは、コード化は、タンパク質及び変異体306の各位置についての4つの値を含むことができる。
【0040】
図3の例示的な例では、タンパク質304及び変異体306のアミノ酸は、6つの分類に関連し、コード化302は、タンパク質304及び変異体306の位置308に対応する。位置308におけるタンパク質304及び変異体306のコード化302は、第1値310、第2値312、第3値314、第4値316、第5値318、及び第6値320を含むことができる。
図3の例示的な例では、符号化302は、タンパク質304の位置308が、第1値310に対して値が1であり、第1値310に対応する分類に関連するアミノ酸があることを示す値312、314、316、318及び320に対して値が0であることを示す。さらに、符号化は、位置308が変異体306に関して改変されたことを示す。特に、符号化302は、変形306の第1値310が-1であり、変形306の第3値314が1であり、値312、316、318、320が0であることを示す。したがって、この実施例では、変異体306は、第1値310で示される分類に関連する308位のアミノ酸を含まず、第3値314で示される分類に関連する308位のアミノ酸を含む。さらに、値-1は、第1値310に対応する分類に関連するアミノ酸が、変異体306に関して修飾されたことを示す。
【0041】
タンパク質304及び変異体306の各位置に対する個々のコード化を用いて、タンパク質配列変化マトリクス322を生成することができる。タンパク質配列変化マトリクス322は、構造的特徴モデル生成システム136に提供され得る。構造的特徴モデル生成システム136は、タンパク質304のさらなる変異体及びさらなるタンパク質及び当該変異体について、タンパク質配列変化マトリクス322及び多くの他のタンパク質配列変化マトリクスを利用して、多数の構造的特徴モデルを生成することができる。例えば、構造的特徴モデル生成システム136は、タンパク質配列変化マトリクス322を利用して、第1構造的特徴モデル324、第2構造的特徴モデル326、第3構造的特徴モデル328、第4構造的特徴モデル330、第5構造的特徴モデル332、及び第6構造的特徴モデル334を生成することができる。
【0042】
構造的特徴モデル324、326、328、330、332、334により生成された出力は、タンパク質特性モデル生成システム130に提供され、タンパク質特性モデルモデル336を生成することができる。タンパク質特性モデル336は、タンパク質の変異体の生物物理的特性に関して、タンパク質の生物物理的特性の値又はタンパク質の生物物理的特性への変化を決定することができる。
図3の例示的な例では、タンパク質特性モデル336に関連する生物物理学的特性は、各構造的特徴モデル324、326、328、330、332、334に対応する構造的特徴に関連する。すなわち、構造的特徴モデル324、326、328、330、332、334に関連する構造的特徴を利用して、タンパク質特性モデル338に関連する生物物理的特性を決定することができる。構造的特徴モデル324、326、328、330、332、334により提供される出力は、タンパク質及びタンパク質の変異体、例えばタンパク質304及び変異体306の間の構造的特徴の差を示すことができる。場合により、タンパク質とタンパク質の変異体の構造的特徴の間の差異は、親タンパク質の疎水性アミノ酸位置の数に関して疎水性である変異体タンパク質の多数の位置等の、特定の構造的特徴があるタンパク質とその変異体の多数の位置の差異として表すことができる。他の例では、タンパク質の構造的特徴とタンパク質の変異体との間の差は、親に関する変異体タンパク質のターン又はシートのシフト、又は親に関する変異体タンパク質の疎水性基の位置のシフト等の特定の構造的特徴の位置の差異として表すことができる。様々な実施形態では、タンパク質特性モデル338は、タンパク質の構造的特徴の変化及び構造的特徴モデル324、326、328、330、332、334により提供される変異体に基づき、タンパク質及びその変異体の生物物理的特性の差異を決定することができる。
【0043】
例示的な実施例では、第1構造的特徴モデル324は、疎水性アミノ酸を含む抗体の重鎖の多数の位置により測定されるか、又は抗体の重鎖の多数の疎水性領域により測定される抗体の重鎖中のタンパク質の疎水性に対応し得る。さらに、第2構造的特徴モデル326は、極性アミノ酸を含む抗体の重鎖の多数の位置、又は抗体の重鎖の多数の極性領域に対応し得る。さらに、第3構造的特徴モデル328は、荷電アミノ酸を含む抗体の重鎖の多数の位置、又は抗体の重鎖の多数の荷電領域に対応し得る。第4構造的特徴モデル330は、疎水性アミノ酸を含むタンパク質の多数の位置により測定されるか、又は抗体のタンパク質軽鎖の多数の疎水性領域により測定される、抗体の軽鎖におけるタンパク質の疎水性に対応し得る。さらに、第5の構造的特徴モデル332は、極性アミノ酸を含む抗体の軽鎖の多数の位置、又は抗体の軽鎖の多数の極性領域に対応し得る。また、第6の構造的特徴モデル334は、荷電アミノ酸を含む抗体の軽鎖の多数の位置、又は抗体の軽鎖の多数の荷電領域に対応し得る。さらに、タンパク質特性モデル336は、タンパク質が展開する温度に対応することができ、これは、構造的特徴モデル324、326、328、330、332、334に関連する構造的特徴に基づき決定することができる。
【0044】
図4及び
図5は、タンパク質の構造的特徴及び生物物理的特性の値を決定するモデルを生成する例示的なプロセスを示す。当該プロセス(及び本明細書に記載される各プロセス)は、論理フローグラフとして示され、その各動作は、少なくとも部分的には、ハードウェア、ソフトウェア、又はそれらの組み合わせにおいて実施可能な一連の動作を表す。ソフトウェアの文脈では、動作は、1又はそれ以上のプロセッサにより実行された場合に列挙される動作を実行する、1又はそれ以上のコンピュータ可読記憶媒体に記憶されたコンピュータ実行可能命令を表す。一般に、コンピュータ実行可能命令は、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含み、特定の機能を実行し、又は特定の抽象データ型を実装する。演算が記述される順序は、それに限定されると解釈されることを意図するものではなく、記述される演算はいかなる数で、いかなる順序及び/又は並列に組み合わされて、プロセスを実行することができる。
【0045】
図4は、アミノ酸配列に基づきタンパク質の構造的特徴を予測する第1モデルを生成し、かつタンパク質の構造的特徴に基づきタンパク質の生物物理的特性の値を予測する第2モデルを生成する第1例のプロセス400のフロー図である。402では、方法400は、タンパク質のアミノ酸配列の少なくとも部分に基づき、タンパク質の少なくとも1つの構造的特徴を決定する第1モデルを生成することを含む。
【0046】
404では、方法400は、タンパク質の少なくとも1つの構造的特徴に少なくとも部分的に基づき、タンパク質の少なくとも1つの生物物理的特性を決定する第2モデルを生成することを含む。さらに、406では、方法400は、タンパク質のアミノ酸配列を得ることを含む。
【0047】
408では、方法400は、タンパク質のアミノ酸配列に少なくとも部分的に基づき、かつ第1モデルを利用して、タンパク質の構造的特徴を決定することを含む。いくつかの実施形態では、タンパク質のアミノ酸配列とタンパク質の変異体のアミノ酸配列との間の差異を決定することができ、その差異を最初のモデルにより用いて、タンパク質及びタンパク質の変異体に関する構造的特徴の間のさらなる差異を決定することができる。
【0048】
工程400は、構造的特徴に少なくとも部分的に基づき、第2モデルを利用して、タンパク質の生物物理的特性の値を決定することを含む。様々な実施形態では、タンパク質及びタンパク質の変異体に関する構造的特徴の間のさらなる差異を第2モデルに提供することができ、第2モデルを用いて、タンパク質に関する構造的特徴とタンパク質の変異体との間のさらなる差異に少なくとも部分的に基づき、タンパク質及びタンパク質の変異体の間の生物物理的特性の差異を決定することができる。
【0049】
第1モデルと第2モデルは、訓練データに少なくとも部分的に基づき生成される。訓練データは、複数のタンパク質及び複数のタンパク質の個々のタンパク質の変異体の構造的特徴、並びに複数のタンパク質及び複数のタンパク質の個々のタンパク質の変異体の生物物理的特性を含むことができる。さらに、訓練データを分析して、複数の構造的特徴と生物物理的特性との間の関係を決定することができる。特に実施形態では、複数の構造的特徴の個々の構造的特徴に対応する複数モデルの個々のモデルからの出力に基づき、生物物理的特性の値を決定することができる。例示的な例では、タンパク質の構造的特徴は、ニューラルネットワークと結合したk-近傍モデルの組み合わせを用いて決定することができ、タンパク質の生物物理的特性の値は、因子系モデルを用いて決定することができる。
【0050】
図5は、複数のモデルを生成し、各モデルについてタンパク質の構造的特徴を決定し、タンパク質の生物物理的特性の値を決定する第2例のプロセス500のフロー図である。502では、プロセス500は、多数のタンパク質の生物物理的特性の値を示す第1データ、及びタンパク質の数の構造的特徴を示す第2データの取得を含むことができる。様々な実施形態では、第1データ及び第2データは、1又はそれ以上のデータストアから取得することができる。当該データストアは、場合により、1又はそれ以上の公開データベースを含むことができる。さらに、第1データ及び第2データは、タンパク質の数に関して様々な分析試験及び/又はアッセイを実施することにより得ることができる。
【0051】
504では、プロセス500は、複数の構造的特徴が、生物物理的特性の生物物理的特性に対応することを決定することを含むことができる。様々な実施形態では、複数の構造的特徴と生物物理的特性との間の関係は、既存の研究を通して同定することができる。他の状況では、1又はそれ以上の機械学習技術を用いた第1データ及び第2データの分析を用いて、複数の構造的特徴と生物物理的特性との間の関係を決定することができる。さらに、異なる生物物理学的特性は、構造的特徴の異なる群と関連し得る。様々な実施形態では、さらなる複数の構造的特徴は、複数の構造的特徴とは異なる少なくとも1つの構造的特徴を含むさらなる複数の構造的特徴を有する生物物理的特性のさらなる生物物理的特性に対応するように決定することができ、さらなる生物物理的特性は生物物理的特性とは異なる。例示的な実施例では、生物物理的特性は、タンパク質が展開する温度であり得、複数の構造的特徴は、タンパク質の多数の極性領域及びタンパク質の多数の疎水性領域を含むことができる。
【0052】
506では、プロセス500は、複数の構造的特徴の個々の構造的特徴に対応する複数のモデルを生成することを含んでよく、複数のモデルは、タンパク質に関して個々の構造的特徴の存在又は非存在を予測する。508では、プロセス500は、生物物理的特性に対応するモデル、すなわち、タンパク質に関する生物物理的特性の値を予測するモデルの生成を含むことができる。
【0053】
様々なモデルは、異なるタンパク質群を選択し、異なるタンパク質群の構造的特徴及び生物物理的特性の値を利用して、モデルの誤差を最小限に抑える反復プロセスを用いて訓練され、試験され得る。特定の実施形態では、モデルを訓練及び試験する手順は、第1モデルを訓練してタンパク質のさらなる生物物理的特性を予測するため、及び第2モデルを訓練してタンパク質の構造的特徴を予測するため、タンパク質群の中から第1タンパク質セットを決定することを含むことができる。さらに、訓練及び試験モデルは、第1タンパク質セットの第1アミノ酸配列及び生物物理学的特性に少なくとも部分的に基づき、第1複数の重み及び訓練を含む1以上の第1方程式を決定することによる、第1モデルの訓練、及び、第1複数の変数及び第1タンパク質セットの第1アミノ酸配列及び構造的特徴に少なくとも部分的に基づき、第2複数の変数及び第2複数の重みを含む1以上の第2方程式を決定することにより、第2モデルの訓練を含むことができる。
【0054】
さらに、タンパク質群から第2タンパク質セットを決定して、第1モデルを試験し、第2モデルを試験することができ、第2タンパク質セットは第2アミノ酸配列を有する。第1モデルを試験する工程は、第2アミノ酸配列に基づき、第1モデルを利用して、第2タンパク質セットの生物物理的特性の第1値を決定する工程と、第2タンパク質セットに対応するデータに含まれる生物物理的特性の第1値と生物物理的特性の第2値との間の第1差異を決定する工程とを含むことができる。第2モデルの試験は、第2アミノ酸配列に基づき、及び第2モデルを利用して、第2タンパク質セットの第1構造的特徴を決定する工程;及び第1構造的特徴と第2タンパク質セットに対応するデータに含まれる第2構造的特徴との間の第2差異を決定する工程を含むことができる。さらに、第1モデルに関する第1誤差量は、第1差異に基づき決定することができ、第2モデルに関する第2誤差量は、第2差異に基づき決定することができる。
【0055】
モデルを訓練し、試験する手順のさらなる繰り返しは、タンパク質のさらなる生物物理的特性を予測するために最初のモデルを訓練するため、及びタンパク質の構造的特徴を予測するために第2モデルを訓練するため、タンパク質群から第3タンパク質セットを決定することを含むことができる。ここで、第3タンパク質セットは、第1タンパク質セット及び第2タンパク質セットとは異なる。さらに、モデルの訓練及び試験は、第3タンパク質セットの第3アミノ酸配列及びさらなる生物物理学的特性に少なくとも部分的に基づき、改変第2モデルを生成するための第1モデルを、第1複数の変数又は第1複数の重みのうちの少なくとも1つを改変して改変し、第3タンパク質セットの第3アミノ酸配列及びさらなる構造的特徴に少なくとも部分的に基づき、改変第2モデルを作成するための第2モデルを、第2複数の変数又は第2複数の重みのうちの少なくとも1つを改変して改変することを含むことができる。さらに、第4タンパク質セットは、改変第1モデルを試験し、改変第2モデルを試験するため、タンパク質群から決定することができる。第4タンパク質セットは、第4アミノ酸配列を備え、第1タンパク質セット、第2タンパク質セット、及び第3タンパク質セットとは異なる。
【0056】
改変第1モデルを試験することは、第4アミノ酸配列に基づき、及び改変第1モデルを利用して、第4タンパク質セットの生物物理的特性の第3値を決定すること、及び第4タンパク質セットに対応するデータに含まれる生物物理的特性の第3値と第4値との間の第3差異を決定することを含むことができる。また、改変第2モデルの試験は、第4アミノ酸配列に基づき、改変第2モデルを利用して、第4タンパク質セットの第3構造的特徴を決定し、第3構造的特徴と第4タンパク質セットに対応するデータに含まれる第4構造的特徴との間の第4差異を決定することを含むことができる。試験及び訓練手順は、第3誤差量が第1誤差量よりも小さいことに基づき、第3差異が第1差異よりも小さいこと、及び第4誤差量が第2差異よりも小さいことに少なくとも部分的に基づき、第4誤差量が第2誤差量よりも小さいことを決定することにより、継続することができる。
【0057】
方法500は、タンパク質のアミノ酸配列を取得する工程を含んでもよく、方法500は、アミノ酸配列に少なくとも部分的に基づき、複数のモデルを利用して、タンパク質の1又はそれ以上の構造的特徴を決定する工程を含んでもよく、1又はそれ以上の構造的特徴の少なくとも1つの構造的特徴は、複数の構造的特徴に含まれる。さらに、514では、プロセス500は、少なくとも1つの構造的特徴に少なくとも部分的に基づき、モデルを利用して、タンパク質の生物物理的特性の値を決定することを含むことができる。
【0058】
図6は、タンパク質の構造的特徴及び生物物理的特性の値を決定するモデルを生成及び実施する1又はそれ以上の計算装置602を含む例示的なシステム600のブロック図を示す。計算装置602は、1又はそれ以上の処理ユニット604及びメモリ606で実施することができ、それらはともに1又はそれ以上の物理的又は論理的位置に分散することができる。例えば、いくつかの実施形態では、計算装置602により実行されると記述された動作は、複数の計算装置により実行され得る。場合によっては、計算装置602により実行されると記述された動作は、クラウドコンピューティングアーキテクチャにおいて実行され得る。
【0059】
処理ユニット604は、中央処理ユニット、グラフィカル処理ユニット、シングルコアプロセッサ、マルチコアプロセッサ、特定用途向け集積回路、Field Programmable Gate Arrays等のプログラマブル回路のいかなる組み合わせを含むことができる。一実施形態では、処理ユニット604のうちの1又はそれ以上は、単一命令多重データ並列アーキテクチャを用いることができる。例えば、処理ユニット604は、SIMDを実装する1又はそれ以上のGPUを含むことができる。処理ユニット604のうちの1又はそれ以上は、ハードウェアデバイスとして実装され得る。いくつかの実施形態では、処理ユニット604のうちの1又はそれ以上は、ハードウェア実装に加えて、ソフトウェア及び/又はファームウェアで実装することができる。処理ユニット604のソフトウェア又はファームウェアの実装は、説明した様々な機能を実行するため、いかなる適当なプログラミング言語で書かれたコンピュータ又は機械実行可能な命令を含むことができる。処理ユニット604のソフトウェア実装は、全体又は部分的にメモリ606に記憶されてもよい。
【0060】
あるいは、又は加えて、計算装置602の機能性は、少なくとも部分的に、1又はそれ以上のハードウェア論理コンポーネントにより実行することができる。例えば、限定されるものではないが、使用可能なハードウェア論理コンポーネントの例示的なタイプとしては、フィールドプログラマブルゲートアレイ、特定用途向け集積回路、特定用途向け標準製品、システムオンチップシステム、複雑なプログラマブル論理デバイスなどが挙げられる。
【0061】
コンピュータ装置602のメモリ606は、コンピュータ読取可能な命令、データ構造、プログラムモジュール、及び他のデータの記憶装置を提供するために、リムーバブル記憶装置、非リムーバブル記憶装置、ローカル記憶装置、及び/又は遠隔記憶装置を含むことができる。メモリ606は、コンピュータ読取可能媒体として実装することができる。コンピュータ可読媒体は、少なくとも2つのタイプの媒体、すなわち、コンピュータ可読記憶媒体及び通信媒体を含む。コンピュータ読取可能な記憶媒体は、コンピュータ読取可能な命令、データ構造、プログラムモジュール、又は他のデータ等の情報の記憶のための任意の方法又は技術で実施される揮発性及び不揮発性、取り外し可能及び非取り外し可能な媒体を含む。コンピュータ読取可能記憶媒体には、RAM、ROM、EEPROM、フラッシュメモリ又は他のメモリ技術、CD-ROM、デジタル多用途ディスク又は他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置又は他の磁気記憶装置、又はコンピュータ装置によるアクセスのための情報を記憶するために使用できる他の非伝送媒体が含まれるが、これらに限定されない。
【0062】
対照的に、通信媒体は、コンピュータ読取可能な命令、データ構造、プログラムモジュール、又は搬送波等の変調されたデータ信号における他のデータ、又は他の伝送機構を具現化することができる。本明細書に定義されるように、コンピュータ読取可能記憶媒体及び通信媒体は、相互に排他的である。
【0063】
計算装置602は、キーボード、ポインティング・デバイス、タッチスクリーン、マイクロホン、カメラ、ディスプレイ、スピーカ、プリンタなどの1又はそれ以上の入力/出力装置608を含むことができ、及び/又は、これらに結合されることができる。処理ユニット604及びメモリ606から物理的に離れた入出力装置708は、入出力装置608の範囲内に含めることもできる。
【0064】
また、計算装置602は、ネットワークインターフェース610を含むことができる。ネットワークインターフェース610は、計算装置602と1又はそれ以上のネットワーク612との間の相互接続点とすることができる。ネットワークインターフェース610は、例えば、ネットワークインターフェースカード、ネットワークアダプタ、LANアダプタ又は物理的ネットワークインターフェースとして、ハードウェアで実装することができる。ネットワークインターフェース610は、ソフトウェアで実装することができる。ネットワークインターフェース610は、拡張カードとして、又はマザーボードの部分として実装することができる。ネットワークインターフェース610は、イーサネット又はWi-Fiなどの特定の物理層及びデータ・リンク層標準を使用して通信するための電子回路を実装することができる。ネットワークインターフェース610は、有線及び/又は無線通信をサポートすることができる。ネットワークインターフェース610は、完全なネットワークプロトコルスタックのためのベースを提供することができ、同じローカルエリアネットワーク上のコンピュータの群間の通信及びインターネット・プロトコル等のルーティング可能なプロトコルを介する大規模なネットワーク通信を可能にする。
【0065】
1又はそれ以上のネットワーク612は、ローカルエリアネットワーク、ワイドエリアネットワーク、メッシュネットワーク、アドホックネットワーク、ピアツーピアネットワーク、インターネット、ケーブルネットワーク、電話ネットワーク、有線ネットワーク、ワイヤレスネットワーク、それらの組み合わせなど、任意のタイプの通信ネットワークを含むことができる。
【0066】
装置インターフェース614は、他の装置への通信接続を確立するハードウェアを提供する計算装置602の部分とすることができる。装置インターフェース614は又はドウェアをサポートするソフトウェアを含むことができる。装置インターフェース614は、ネットワークを横断しない有線又は無線接続として実装することができる。有線接続は、計算装置602を別の装置に物理的に接続する1又はそれ以上のワイヤ又はケーブルを含んでもよい。有線接続は、ヘッドフォンケーブル、電話ケーブル、SCSIケーブル、USBケーブル、イーサネットケーブル、FireWire等により形成することができる。無線接続は、電波(例えば、Bluetooth、ANT、Wi-Fi IEEE 802.11などのいかなるバージョン)、赤外線などにより作成することができる。
【0067】
演算装置602は、処理ユニット604により実行されるためにメモリ606に記憶される命令として、及び/又は全体的にもしくは部分的に、1又はそれ以上のハードウェア論理コンポーネント又はファームウェアにより実行され得る複数のシステム及び/又はモジュールを含むことができる。メモリ606は、1又はそれ以上のプロセッサ処理ユニット604により実行可能な任意の数の機能コンポーネントを記憶するために用いることができる。多くの実装では、当該機能コンポーネントは、1又はそれ以上の処理ユニット604により実行可能であり、実行されると、計算装置602に帰属された動作を実行するための動作ロジックを実装する命令又はプログラムを含む。本明細書に記載されているように、生物物理的特性の構造的特徴及び値を決定するためのモデルの生成及び実施に関連する様々な機能及び特徴を実施するために、1又はそれ以上の処理ユニット604上で実行することができる計算装置602の機能構成要素は、タンパク質特性モデル生成システム130、構造的特徴モデル生成システム136、及びタンパク質分析システム142を含む。
図1、
図2、
図3、
図4、及び
図5のアーキテクチャ100、200、300、及びプロセス400及び500を実装するために、1又はそれ以上のシステム130、136、及び142を用いることができる。
【0068】
特定の実施形態では、タンパク質特性モデル生成システム130は、1又はそれ以上のプロセッシングユニット604により実行可能であるコンピュータ読取可能な命令を含み、タンパク質の生物物理的特性の値を予測するためのモデルを生成することができる。モデルは、多くのタンパク質の生物物理的特性の値及びタンパク質の数の変異体を含む訓練データを用いて作成することができる。さらに、構造的特徴モデル生成システム136は、1又はそれ以上のプロセッシングユニット604により実行可能であるコンピュータ読取可能な命令を含むことができ、訓練データを分析して、タンパク質のアミノ酸配列に基づきタンパク質の構造的特徴を予測するモデルを生成する。また、訓練データは、訓練データに含まれるタンパク質及びそれらの変異体の構造的特徴を含むことができる。タンパク質特性モデル生成システム130及び構造的特徴モデル生成システム136は、別々に、又は互いに関連して、モデルを訓練及び試験して、タンパク質の生物物理的特性及びタンパク質の構造的特徴の値を予測することができる。訓練データは、訓練データセットに含まれるタンパク質について実施されるアッセイ及び/又は分析試験から導き出すことができる。
【0069】
様々な実施形態では、タンパク質分析システム142は、タンパク質特性モデル生成システム130及び構造的特徴モデル生成システム136により生成されたモデルを実装して、1又はそれ以上のアッセイ又は分析技術に従って発現及び分析されなかったタンパク質の生物物理的特性及び構造的特徴の値を予測することができる。タンパク質分析システム142は、構造的特徴モデル生成システム136により生成されたモデルを利用して、タンパク質のアミノ酸配列に基づきタンパク質の構造的特徴を予測することができる。さらに、タンパク質分析システム142は、タンパク質特性モデル生成システム130により生成されたモデルを利用して、タンパク質の構造的特徴及び/又はタンパク質のアミノ酸配列に少なくとも部分的に基づき、タンパク質の生物物理的特性の値を予測することができる。
【0070】
さらなる実施形態では、構造的特徴モデル生成システム136は、タンパク質のアミノ酸配列中の個々のアミノ酸のモデルを生成することができる。例えば、構造的特徴モデル生成システム136は、タンパク質の特定の位置にあるアミノ酸が、タンパク質の1又はそれ以上の構造的特徴を有するか、及び/又は、それに関与するかを予測するためのモデルを生成することができる。アミノ酸に関連する構造的特徴は、とりわけ、疎水性、極性、芳香族、酸性、塩基性、欠失、及び/又は中性を含むことができる。特定の実施形態では、構造的特徴モデル生成システム136は、タンパク質の個々のアミノ酸についてのモデルを生成することができる。さらに、構造的特徴モデル生成システム136は、個々のアミノ酸が1又はそれ以上の構造的特徴を有するか、及び/又はそれに関与するかを予測するため、タンパク質のアミノ酸配列中のすべてのアミノ酸についてモデルを生成することができる。特定の実施形態では、タンパク質の個々のアミノ酸の個々の構造的特徴について個々のモデルを作成することができる。例示のため、タンパク質のアミノ酸の電荷を予測するモデルを決定することができる。
【0071】
様々な実施形態では、訓練データセットは、タンパク質の個々のアミノ酸の変異体のサブセットを含み得る。変異体のサブセットは、モデルが作成されている候補アミノ酸とタンパク質の他のアミノ酸との間の相互作用の可能性に基づき決定することができる。候補アミノ酸と他のアミノ酸との相互作用の可能性は、タンパク質のアミノ酸及び他のアミノ酸に関連するデータを分析して決定することができる。いくつかの例では、分析されるデータは、候補アミノ酸に関するアミノ酸、候補アミノ酸に含まれる原子及びタンパク質の付加アミノ酸に含まれる原子、及び/又はタンパク質に含まれる付加アミノ酸(例えば、芳香族アミノ酸、酸性アミノ酸、塩基性アミノ酸等)に関する候補アミノ酸の他の特性に関連付けることができる。例示的な例では、候補アミノ酸がタンパク質の付加アミノ酸と相互作用する可能性は、候補アミノ酸の少なくとも1つの原子がタンパク質の付加アミノ酸の別の原子と相互作用する閾値確率を超える確率に基づくことができる。
【0072】
候補アミノ酸と相互作用する閾値確率を少なくとも有するタンパク質の1又はそれ以上のさらなるアミノ酸を決定した後、構造的特徴モデル生成システム136は、1又はそれ以上のさらなるアミノ酸の突然変異を決定することができる。次いで、構造的特徴モデル生成システム136は、突然変異が候補アミノ酸に関連する1又はそれ以上の構造的特徴に影響を及ぼすか否かを決定することができる。いくつかの場合では、構造的特徴モデル生成システム136は、候補アミノ酸に対応するデータ及び様々な突然変異アミノ酸に対応するデータを分析することにより、突然変異が効果を有するか否かを決定することができる。データは、突然変異アミノ酸の原子に関して候補アミノ酸に含まれる原子のタイプに関連することができる。分析されたデータはまた、非突然変異体タンパク質に関連するタンパク質の突然変異に関して実施された分析試験及び/又はアッセイから得られた情報を含み得る。候補アミノ酸と少なくとも相互作用する閾値確率を有するアミノ酸を含むデータセット上のタンパク質の個々のアミノ酸に関するモデルを訓練することにより、そのモデルは、そのデータセットが、候補アミノ酸がタンパク質のすべての可能なアミノ酸のすべての突然変異に関して分析された場合のように疎らではないこと、特に、その突然変異が候補アミノ酸の構造的特徴に影響を及ぼしたかどうかを決定するためにタンパク質のすべてのアミノ酸のすべての突然変異が分析された場合、候補アミノ酸と相互作用する閾値確率よりも大きい閾値効果を有するさらなるアミノ酸の数及び突然変異の数は、候補アミノ酸と相互作用する閾値確率を有するアミノ酸の数及びその構造的特徴に対して少なくとも閾値効果を有するそれらの突然変異の群から選択された場合、アミノ酸の数及びそれらの突然変異の数に関して比較的小さいであろうことから、より正確であり得る。
【0073】
さらに、構造的特徴モデル生成システム136は、特定の符号化を利用して、候補アミノ酸の構造的特徴を予測するモデルを生成することができる。特定の例では、各アミノ酸は、疎水性、極性、荷電、及び/又は欠失等の様々な構造的特徴についてコード化することができる。候補アミノ酸の突然変異も同様にコード化することができる。構造的特徴モデル生成システム136が、アミノ酸とアミノ酸の変異体との間の構造的特徴の差異の形で入力を得る場合、候補アミノ酸を含むタンパク質のアミノ酸配列の差異及び変異体を含むアミノ酸配列の符号化は、変異の構造的特徴の変化のみを示し、他のアミノ酸の残りの符号化の変化を示すものではないため、情報が失われる可能性がある。この情報の喪失を補填するため、構造的特徴モデル生成システム136は、タンパク質のアミノ酸配列の差異を候補アミノ酸とし、同じ位置に突然変異を有するタンパク質のアミノ酸配列を2倍し、その後、変異体のアミノ酸配列を差し引くことができる。このようにして、他の位置でのアミノ酸のコード化は保存され、変異体の変異位置での改変も捕捉しうる。このようにして、構造的特徴モデル生成システム136により生成されるモデルの精度を改善することができる。
【0074】
上記の符号化の一例を
図7に示す。具体的には、
図7の例示的な例は、親タンパク質アミノ酸配列702の部分と、親タンパク質アミノ酸配列702のバリンがアスパラギンに変化する変異体タンパク質アミノ酸配列704の部分とを含む。「親コード化」という第1コード化は、親タンパク質アミノ酸配列702のコード化に対応し、そして「変異体コード化」という第2コード化708は、変異体タンパク質アミノ酸配列704のコード化に対応する。第3符号化710は、第1符号化と第2符号化との間の差異を取ることにより生成される。さらに、構造的特徴モデル生成システム136により利用される符号化に対応する第4符号化712は、第3符号化710に2を掛け、次に変形符号化708を加えることにより生成することができる。
【0075】
〔実施形態例〕
(1)以下の:タンパク質のアミノ酸配列に少なくとも部分的に基づく、前記タンパク質の少なくとも1つの構造的特徴を決定する第1モデルを作成する工程;前記タンパク質の少なくとも1つの構造的特徴に少なくとも部分的に基づく、前記タンパク質の少なくとも1つの生物物理的特性を決定する第2モデルを生成する工程;タンパク質のアミノ酸配列を取得する工程;前記タンパク質のアミノ酸配列に少なくとも部分的に基づき、かつ前記第1モデルを利用して、前記タンパク質の1の構造的特徴を決定する工程;前記タンパク質の少なくとも1つの前記構造的特徴に少なくとも部分的に基づき、かつ前記第2モデルを利用して、前記タンパク質の生物物理的特性の値を決定する工程;
を含む方法。
【0076】
(2)さらに以下の:前記タンパク質の前記アミノ酸配列と前記タンパク質変異体の前記アミノ酸配列との差異を決定する工程;及び、前記アミノ酸配列の前記差異を前記第1モデルに提供して、前記タンパク質及び前記タンパク質変異体の前記構造的特徴のさらなる差異を決定する工程;を含む、(1)に記載の方法。
【0077】
(3)さらに以下の:前記タンパク質と前記タンパク質変異体の前記構造的特徴のさらなる差異を前記第2モデルに提供する工程;及び、前記タンパク質と前記タンパク質変異体の前記構造的特徴の前記さらなる差異に少なくとも部分的に基づき、前記タンパク質と前記タンパク質変異体の前記生物物理的特性の差異を決定する工程;を含む、(2)に記載の方法。
【0078】
(4)前記第1モデル及び前記第2モデルが、訓練データに少なくとも部分的に基づき生成され、前記訓練データは、複数のタンパク質及び前記複数のタンパク質の個々のタンパク質の変異体の構造的特徴並びに前記複数のタンパク質及び前記複数のタンパク質の個々のタンパク質の前記変異体の生物物理的特性を含む、(1)~(3)のいずれか一項に記載の方法。
【0079】
(5)前記タンパク質の前記構造的特徴が、ニューラルネットワークと結合したk-近傍モデルの組み合わせを用いて決定され、かつ、前記タンパク質の前記生物物理的特性の前記値が、因子系モデルを用いて決定される、(1)~(4)のいずれか一項に記載の方法。
【0080】
(6)さらに、前記訓練データを分析して、複数の構造的特徴と生物物理的特性の関係を決定する工程を含み、ここで、前記生物物理的特性値の前記値は、複数のモデルからの出力に基づき決定され、前記複数のモデルの個々のモデルは、前記複数の構造的特徴の個々の構造的特徴に対応する、(1)~(5)のいずれか一項に記載の方法。
【0081】
(7) 以下の:多数のタンパク質の生物物理的特性の値を示す第1データ、及び前記多数のタンパク質の構造的特徴を示す第2データを取得する工程;複数の構造的特徴が前記生物物理的特性の1の生物物理的特性に対応することを決定する工程;前記複数の構造的特徴の個々の構造的特徴に対応する複数モデルを生成する工程であって、前記複数モデルは、タンパク質に関する前記個々の構造的特徴の存在又は不存在を予測する;前記生物物理学的特性に対応するモデルを作成する工程であって、前記モデルは、タンパク質に関する前記生物物理学的特性の値を予測する;タンパク質のアミノ酸配列を取得する工程;前記アミノ酸配列に少なくとも部分的に基づき、かつ前記複数モデルを利用して、前記タンパク質の1又はそれ以上の構造的特徴を決定する工程であって、前記1又はそれ以上の構造的特徴の少なくとも1つの構造的特徴が、前記複数の構造的特徴に含まれる;前記少なくとも1つの構造的特徴に少なくとも部分的に基づき、かつ前記モデルを利用して、前記タンパク質の前記生物物理的特性の値を決定する工程;を含む、方法。
【0082】
(8)さらに以下の:さらなる複数の構造的特徴が、前記生物物理的特性のさらなる生物物理的特性に対応することを決定する工程であって、前記さらなる複数の構造的特徴が、前記複数の構造的特徴とは異なる、少なくとも1つの構造的特徴を含み、前記さらなる生物物理的特性が、前記生物物理的特性とは異なる;を含む、(7)に記載の方法。
【0083】
(9)前記生物物理的特性が、前記タンパク質が拡張する(unfold)温度であり、前記複数の構造的特徴が、前記タンパク質の多数の極性領域及び前記タンパク質の多数の疎水性領域を含む、(8)に記載の方法。
【0084】
(10)さらに以下の:タンパク質群から、タンパク質のさらなる生物物理的特性を予測する第1モデル及びタンパク質の構造的特徴を予測する第2モデルを訓練する、第1タンパク質セットを決定する工程;第1タンパク質セットの第1アミノ酸配列及び生物物理学的特性に少なくとも部分的に基づき、第1複数の変数及び第1複数の重みを含む1又はそれ以上の第1方程式を決定することにより、第1モデルを訓練する工程;第1タンパク質セットの第1アミノ酸配列及び構造的特徴に少なくとも部分的に基づき、第2複数の変数及び第2複数の重みを含む1又はそれ以上の第2方程式を決定することにより、第2モデルを訓練する工程;及び、前記タンパク質群から、前記第1モデルを試験し及び第2アミノ酸配列を備える第2モデルを試験する第2タンパク質セットを決定する工程;を含む、(7)記載の方法。
【0085】
(11)さらに以下の:第1モデルを試験する工程であって、以下の:前記第2アミノ酸配列に基づき、かつ前記第1モデルを用いて、前記第2タンパク質セットの生物物理的特性の第1値を決定する工程;及び、前記生物物理的特性の第1値と前記第2タンパク質セットに対応するデータに含まれる前記生物物理的特性の第2値の第1差異を決定する工程;並びに、第2モデルを試験する工程であって、以下の:前記第2アミノ酸配列に基づき、かつ前記第2モデルを用いて、前記第2タンパク質セットの第1構造的特徴を決定する工程;及び、前記第1構造的特徴と、第1構造的特徴と前記第2タンパク質セットに対応するデータに含まれる第2構造的特徴の第2差異を決定する工程;を含む、(10)に記載の方法。
【0086】
(12)さらに以下の:前記第1差異に基づき、前記第1モデルに関する第1誤差量を決定する工程;及び、前記第2差異に基づき、前記第2モデルに関する第2誤差量を決定する工程;を含む、(11)に記載の方法。
【0087】
(13)さらに以下の:前記タンパク質群から、タンパク質のさらなる生物物理的特性を予測する前記第1モデルを訓練する及びタンパク質の構造的特徴を予測する前記第2モデルを訓練する、第3タンパク質セットを決定する工程であって、前記第3タンパク質セットは、前記第1タンパク質セット及び前記第2タンパク質セットとは異なる;前記第3タンパク質セットの第3アミノ酸配列及びさらなる生物物理学的特性に少なくとも部分的に基づき、第1複数の変数又は第1複数の重みのうちの少なくとも1つを改変して、改変第2モデルを生成する、前記第1モデルを改変する工程;及び、前記第3タンパク質セットの前記第3アミノ酸配列及びさらなる構造的特徴に少なくとも部分的に基づき、第2複数の変数又は第2複数の重みのうちの少なくとも1つを改変して、改変第2モデルを生成する、前記第2モデルを改変する工程;を含む、(12)記載の方法。
【0088】
(14)さらに、以下の:前記タンパク質群から、前記改変第1モデルを訓練する及び前記改変第2モデルを訓練する、第4タンパク質セットを決定する工程であって、前記第4タンパク質セットは、第4アミノ酸配列を備え、かつ、前記第1タンパク質セット、前記第2タンパク質セット及び前記第3タンパク質セットとは異なる;前記改変第1モデルを試験する工程であって、以下の:前記第4アミノ酸配列に基づき、かつ前記改変第1モデルを用いて、前記第4タンパク質セットの生物物理的特性の第3値を決定する工程;及び、前記生物物理的特性の第3値と前記第4タンパク質セットに対応するデータに含まれる前記生物物理的特性の第4値の第3差異を決定する工程;並びに、前記改変第2モデルを試験する工程であって、以下の:前記第4アミノ酸配列に基づき、かつ前記改変第2モデルを用いて、前記第4タンパク質セットの第3構造的特徴を決定する工程;及び、前記第3構造的特徴と、第3構造的特徴と前記第4タンパク質セットに対応するデータに含まれる第4構造的特徴の第4差異を決定する工程;を含む、(13)に記載の方法。
【0089】
(15)さらに、以下の:第3誤差量が、前記第1差異よりも小さい前記第3差異に少なくとも部分的には基づく前記第1誤差量よりも小さいことを決定する工程;及び、第4誤差量が、前記第2差異よりも小さい第4差異に少なくとも部分的には基づく前記第2誤差量よりも小さいことを決定する工程;を含む、(14)に記載の方法。
【0090】
(16)前記第1タンパク質セットが、少なくとも第1タンパク質及び前記第1タンパク質の1又はそれ以上の変異体を含み、並びに前記第2タンパク質セットが、少なくとも第2タンパク質及び1又はそれ以上の前記第2タンパク質の変異体を含む、(10)に記載の方法。
【0091】
(17)以下の:基本タンパク質及び前記基本タンパク質の変異体との差異の提示のコード化を決定する工程;前記コード化に少なくとも部分的に基づき、タンパク質配列変化マトリクスを生成する工程であって、前記タンパク質配列変化マトリクスは、前記基本タンパク質のアミノ酸配列の個々の位置及び前記変異体のアミノ酸配列の対応する個々の位置について、(i)基本タンパク質の第1アミノ酸配列及び変異体の第2アミノ酸配列の少なくとも1つの差異、又は(ii)基本タンパク質の第1構造的特徴及び変異体の第2構造的特徴の少なくとも1つの差異を示す;複数のさらなる基本タンパク質及び前記複数のさらなる基本タンパク質各々の1又はそれ以上の変異体について、複数のさらなるタンパク質配列変化マトリクスを生成する工程;前記タンパク質配列変化マトリクス及び前記複数のタンパク質配列変化マトリクスに少なくとも部分的に基づき、複数の構造的特徴モデルを生成する工程であって、前記複数の構造的特徴モデルの個々の構造的特徴モデルは、タンパク質の個々の構造的特徴に対応する;前記基本タンパク質に関する前記複数の構造的特徴モデルからの出力に少なくとも部分的に基づき、前記複数のさらなる基本タンパク質、その変異体、及び前記複数の変異体、タンパク質特性モデルを作成する工程;タンパク質のアミノ酸配列を取得する工程;前記アミノ酸配列に少なくとも部分的に基づき、かつ前記複数の構造的特徴モデルを利用して、前記タンパク質の1又はそれ以上の構造的特徴を示すさらなる出力を決定する工程;及び、前記1又はそれ以上の構造的特徴に少なくとも部分的に基づき、かつ前記タンパク質特性モデルを利用して、前記タンパク質の生物物理的特性の値を決定する工程;を含む、方法。
【0092】
(18)さらに以下の:前記タンパク質の変異体のさらなるアミノ酸配列を取得する工程;前記タンパク質のアミノ酸配列及び前記タンパク質の変異体の前記さらなるアミノ酸配列に少なくとも部分的に基づき、かつ前記複数の構造的特徴モデルを利用して、前記タンパク質の1又はそれ以上の構造的特徴と前記タンパク質の前記変異体の差異を決定する工程;を含む、(17)に記載の方法。
【0093】
(19)さらに以下の:前記タンパク質の前記アミノ酸配列の個々の位置にあるアミノ酸が変化すると、前記タンパク質の構造的特徴が変化する確率を示す確率マップを作成する工程、を含む、(17)又は(18)に記載の方法。
【0094】
(20)さらに以下の:前記確率マップに少なくとも部分的に基づき、前記複数の変異体の少なくとも部分を決定する工程、を含む、(19)に記載の方法。
【0095】
(21)1又はそれ以上のプロセッサと、1又はそれ以上のプロセッサにより実行される場合に、以下の:タンパク質のアミノ酸配列に少なくとも部分的に基づき前記タンパク質の少なくとも1つの構造的特徴を決定する第1モデルを生成する工程;前記タンパク質の少なくとも1つの構造的特徴に少なくとも部分的に基づき前記タンパク質の少なくとも1つの生物物理的特性を決定する第2モデルを生成する工程;タンパク質のアミノ酸配列を取得する工程;前記タンパク質の前記アミノ酸配列に少なくとも部分的に基づき、かつ前記第1モデルを利用して、前記タンパク質の構造的特徴を決定する工程;前記タンパク質の構造的特徴に少なくとも部分的に基づき、かつ前記第2モデルを利用して、前記タンパク質の生物物理的特性の値を決定する工程;と、を含む動作を実行する、1又はそれ以上の非一時コンピュータ読取可能な媒体とを含む、システム。
【0096】
(22)前記動作が、前記タンパク質のアミノ酸配列と前記タンパク質の変異体のアミノ酸配列との間の差異を決定し、前記アミノ酸配列間の差異を前記第1モデルに提供して、前記タンパク質に関する前記構造的特徴と前記タンパク質の変異体との間のさらなる差異を決定することをさらに含む、(21)に記載のシステム。
【0097】
(23)前記動作が、前記タンパク質に関する前記構造的特徴と前記タンパク質の前記変異体との間のさらなる差異を前記第2モデルに提供する工程と、前記タンパク質に関する前記構造的特徴と前記タンパク質の前記変異体との間のさらなる差異に少なくとも部分的に基づき、前記タンパク質の前記生物物理的特性と前記タンパク質の前記変異体との間の差異を決定する工程とをさらに含む、(22)に記載のシステム。
【0098】
(24)前記第1モデル及び前記第2モデルは、訓練データに少なくとも部分的に基づき生成されており、前記訓練データは、複数のタンパク質及び前記複数のタンパク質の個々のタンパク質の変異体の構造的特徴、並びに前記複数のタンパク質及び前記複数のタンパク質の個々のタンパク質の変異体の生物物理的特性を含む、(21)~(23)のいずれか一項に記載のシステム。
【0099】
(25)前記タンパク質の構造的特徴は、ニューラルネットワークと結合したk-近傍モデルの組み合わせを用いて決定され、前記タンパク質の生物物理的特性の値は、因子系モデルを用いて決定される、(21)~(24)のいずれか一項に記載のシステム。
【0100】
(26)前記動作は、複数の構造的特徴と生物物理的特性との間の関係の決定のために前記訓練データを分析する工程をさらに含み、前記生物物理的特性の値の値は、複数のモデルからの出力に基づき決定され、前記複数のモデルの個々のモデルは、前記複数の構造的特徴の個々の構造的特徴に対応する、(21)~(25)のいずれかに記載のシステム。
【0101】
(27)1又はそれ以上のプロセッサと、1又はそれ以上のプロセッサにより実行される場合に、以下の:多数のタンパク質の生物物理的特性の値を示す第1データ、及び前記多数のタンパク質の構造的特徴を示す第2データを取得する工程;複数の構造的特徴が前記生物物理的特性の1の生物物理的特性に対応することを決定する工程;前記複数の構造的特徴の個々の構造的特徴に対応する複数モデルを生成する工程であって、前記複数モデルは、タンパク質に関する前記個々の構造的特徴の存在又は不存在を予測する;前記生物物理学的特性に対応するモデルを作成する工程であって、前記モデルは、タンパク質に関する前記生物物理学的特性の値を予測する;タンパク質のアミノ酸配列を取得する工程;前記アミノ酸配列に少なくとも部分的に基づき、かつ前記複数モデルを利用して、前記タンパク質の1又はそれ以上の構造的特徴を決定する工程であって、前記1又はそれ以上の構造的特徴の少なくとも1つの構造的特徴が、前記複数の構造的特徴に含まれる;前記少なくとも1つの構造的特徴に少なくとも部分的に基づき、かつ前記モデルを利用して、前記タンパク質の前記生物物理的特性の値を決定する工程;と、を含む動作を実行する、1又はそれ以上の非一時コンピュータ読取可能な媒体とを含む、システム。
【0102】
(28)前記動作はさらに以下の:さらなる複数の構造的特徴が、前記生物物理的特性のさらなる生物物理的特性に対応することを決定する工程であって、前記さらなる複数の構造的特徴が、前記複数の構造的特徴とは異なる、少なくとも1つの構造的特徴を含み、前記さらなる生物物理的特性が、前記生物物理的特性とは異なる;を含む、(27)に記載のシステム。
【0103】
(29)前記生物物理的特性が、前記タンパク質が拡張する(unfold)温度であり、前記複数の構造的特徴が、前記タンパク質の多数の極性領域及び前記タンパク質の多数の疎水性領域を含む、(28)に記載のシステム。
【0104】
(30)前記動作はさらに以下の:タンパク質群から、タンパク質のさらなる生物物理的特性を予測する第1モデル及びタンパク質の構造的特徴を予測する第2モデルを訓練する、第1タンパク質セットを決定する工程;第1タンパク質セットの第1アミノ酸配列及び生物物理学的特性に少なくとも部分的に基づき、第1複数の変数及び第1複数の重みを含む1又はそれ以上の第1方程式を決定することにより、第1モデルを訓練する工程;第1タンパク質セットの第1アミノ酸配列及び構造的特徴に少なくとも部分的に基づき、第2複数の変数及び第2複数の重みを含む1又はそれ以上の第2方程式を決定することにより、第2モデルを訓練する工程;及び、前記タンパク質群から、前記第1モデルを試験し及び第2アミノ酸配列を備える第2モデルを試験する第2タンパク質セットを決定する工程;を含む、(27)記載のシステム。
【0105】
(31)前記動作が、さらに以下の:第1モデルを試験する工程であって、以下の:前記第2アミノ酸配列に基づき、かつ前記第1モデルを用いて、前記第2タンパク質セットの生物物理的特性の第1値を決定する工程;及び、前記生物物理的特性の第1値と前記第2タンパク質セットに対応するデータに含まれる前記生物物理的特性の第2値の第1差異を決定する工程;並びに、第2モデルを試験する工程であって、以下の:前記第2アミノ酸配列に基づき、かつ前記第2モデルを用いて、前記第2タンパク質セットの第1構造的特徴を決定する工程;及び、前記第1構造的特徴と、第1構造的特徴と前記第2タンパク質セットに対応するデータに含まれる第2構造的特徴の第2差異を決定する工程;を含む、(30)に記載のシステム。
【0106】
(32)前記動作は、さらに以下の:前記第1差異に基づき、前記第1モデルに関する第1誤差量を決定する工程;及び、前記第2差異に基づき、前記第2モデルに関する第2誤差量を決定する工程;を含む、(31)に記載のシステム。
【0107】
(33)前記動作が、さらに以下の:前記タンパク質群から、タンパク質のさらなる生物物理的特性を予測する前記第1モデルを訓練する及びタンパク質の構造的特徴を予測する前記第2モデルを訓練する、第3タンパク質セットを決定する工程であって、前記第3タンパク質セットは、前記第1タンパク質セット及び前記第2タンパク質セットとは異なる;前記第3タンパク質セットの第3アミノ酸配列及びさらなる生物物理学的特性に少なくとも部分的に基づき、第1複数の変数又は第1複数の重みのうちの少なくとも1つを改変して、改変第2モデルを生成する、前記第1モデルを改変する工程;及び、前記第3タンパク質セットの前記第3アミノ酸配列及びさらなる構造的特徴に少なくとも部分的に基づき、第2複数の変数又は第2複数の重みのうちの少なくとも1つを改変して、改変第2モデルを生成する、前記第2モデルを改変する工程;を含む、(32)に記載のシステム。
【0108】
(34)前記動作が、さらに、以下の:前記タンパク質群から、前記改変第1モデルを訓練する及び前記改変第2モデルを訓練する、第4タンパク質セットを決定する工程であって、前記第4タンパク質セットは、第4アミノ酸配列を備え、かつ、前記第1タンパク質セット、前記第2タンパク質セット及び前記第3タンパク質セットとは異なる;前記改変第1モデルを試験する工程であって、以下の:前記第4アミノ酸配列に基づき、かつ前記改変第1モデルを用いて、前記第4タンパク質セットの生物物理的特性の第3値を決定する工程;及び、前記生物物理的特性の第3値と前記第4タンパク質セットに対応するデータに含まれる前記生物物理的特性の第4値の第3差異を決定する工程;並びに、前記改変第2モデルを試験する工程であって、以下の:前記第4アミノ酸配列に基づき、かつ前記改変第2モデルを用いて、前記第4タンパク質セットの第3構造的特徴を決定する工程;及び、前記第3構造的特徴と、第3構造的特徴と前記第4タンパク質セットに対応するデータに含まれる第4構造的特徴の第4差異を決定する工程;を含む、(33)に記載のシステム。
【0109】
(35)前記動作は、さらに、以下の:第3誤差量が、前記第1差異よりも小さい前記第3差異に少なくとも部分的には基づく前記第1誤差量よりも小さいことを決定する工程;及び、第4誤差量が、前記第2差異よりも小さい第4差異に少なくとも部分的には基づく前記第2誤差量よりも小さいことを決定する工程;を含む、(34)に記載のシステム。
【0110】
(36)前記第1タンパク質セットが、少なくとも第1タンパク質及び前記第1タンパク質の1又はそれ以上の変異体を含み、並びに前記第2タンパク質セットが、少なくとも第2タンパク質及び1又はそれ以上の前記第2タンパク質の変異体を含む、(30)に記載のシステム。
【0111】
(37)1又はそれ以上のプロセッサと、1又はそれ以上のプロセッサにより実行される場合に、以下の:基本タンパク質及び前記基本タンパク質の変異体との差異の提示のコード化を決定する工程;前記コード化に少なくとも部分的に基づき、タンパク質配列変化マトリクスを生成する工程であって、前記タンパク質配列変化マトリクスは、前記基本タンパク質のアミノ酸配列の個々の位置及び前記変異体のアミノ酸配列の対応する個々の位置について、(i)基本タンパク質の第1アミノ酸配列及び変異体の第2アミノ酸配列の少なくとも1つの差異、又は(ii)基本タンパク質の第1構造的特徴及び変異体の第2構造的特徴の少なくとも1つの差異を示す;複数のさらなる基本タンパク質及び前記複数のさらなる基本タンパク質各々の1又はそれ以上の変異体について、複数のさらなるタンパク質配列変化マトリクスを生成する工程;前記タンパク質配列変化マトリクス及び前記複数のタンパク質配列変化マトリクスに少なくとも部分的に基づき、複数の構造的特徴モデルを生成する工程であって、前記複数の構造的特徴モデルの個々の構造的特徴モデルは、タンパク質の個々の構造的特徴に対応する;前記基本タンパク質に関する前記複数の構造的特徴モデルからの出力に少なくとも部分的に基づき、前記複数のさらなる基本タンパク質、その変異体、及び前記複数の変異体、タンパク質特性モデルを作成する工程;タンパク質のアミノ酸配列を取得する工程;前記アミノ酸配列に少なくとも部分的に基づき、かつ前記複数の構造的特徴モデルを利用して、前記タンパク質の1又はそれ以上の構造的特徴を示すさらなる出力を決定する工程;及び、前記1又はそれ以上の構造的特徴に少なくとも部分的に基づき、かつ前記タンパク質特性モデルを利用して、前記タンパク質の生物物理的特性の値を決定する工程;を含む、動作を実行する、1又はそれ以上の非一時コンピュータ読取可能な媒体と、を含む、システム。
【0112】
(38)前記動作が、さらに以下の:前記タンパク質の変異体のさらなるアミノ酸配列を取得する工程;前記タンパク質のアミノ酸配列及び前記タンパク質の変異体の前記さらなるアミノ酸配列に少なくとも部分的に基づき、かつ前記複数の構造的特徴モデルを利用して、前記タンパク質の1又はそれ以上の構造的特徴と前記タンパク質の前記変異体の差異を決定する工程;を含む、(37)に記載のシステム。
【0113】
(39)前記動作が、さらに以下の:前記タンパク質の前記アミノ酸配列の個々の位置にあるアミノ酸が変化すると、前記タンパク質の構造的特徴が変化する確率を示す確率マップを作成する工程、を含む、(37)又は(38)に記載のシステム。
【0114】
(40)前記動作は、少なくとも部分的に前記確率マップに基づき前記複数の変形の少なくとも部分を決定することをさらに含む、(39)に記載のシステム。
【実施例】
【0115】
図8は、第1プロット800、第2プロット802、及び第3プロット804を示し、タンパク質及びタンパク質の変性剤の様々な濃度(すなわち、変曲点)におけるタンパク質の展開の変化を示す。プロット800、802、804のx軸は、タンパク質の原子構造及びタンパク質の折り畳みに関連するエネルギーを最小化する従来の計算技術を用いて、生物物理学的特性モデルへの入力が決定される場合、生物物理学的特性モデルを用いて、変曲点における予測される変化を示す。プロット800、802、804のy軸は、本明細書に記載される実施形態に従って生成される入力を用いて決定される同一の生物物理学的特性モデルを用いて、変曲点変化を示す。ここで、配列に対する相対的変化を用いて、構造的特徴モデルが決定される。
【0116】
上記主題は、例示としてのみ提供され、限定するものと解釈されるべきではない。さらに、クレームされた主題は、本開示のいずれかの部分に記載されたいずれかの又はすべての課題を解決する実施形態に限定されない。図示及び説明される例示的な構成及び用途に従うことなく、また、以下の特許請求の範囲に記載される本発明の真の精神及び範囲から逸脱することなく、本明細書に記載される主題に対して様々な修正及び変更を行うことができる。