IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ボード・オブ・リージエンツ,ザ・ユニバーシテイ・オブ・テキサス・システムの特許一覧

特許7387760合成タンパク質の安定性を高めるためのシステムおよび方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-17
(45)【発行日】2023-11-28
(54)【発明の名称】合成タンパク質の安定性を高めるためのシステムおよび方法
(51)【国際特許分類】
   G16B 15/00 20190101AFI20231120BHJP
   G16B 40/20 20190101ALI20231120BHJP
   C07K 14/435 20060101ALI20231120BHJP
   C12N 15/12 20060101ALI20231120BHJP
   C12N 15/63 20060101ALI20231120BHJP
   G01N 21/64 20060101ALI20231120BHJP
   C12P 21/02 20060101ALN20231120BHJP
【FI】
G16B15/00
G16B40/20
C07K14/435
C12N15/12
C12N15/63 Z
G01N21/64 F
C12P21/02 Z ZNA
【請求項の数】 28
(21)【出願番号】P 2021564714
(86)(22)【出願日】2020-05-01
(65)【公表番号】
(43)【公表日】2022-07-06
(86)【国際出願番号】 US2020031084
(87)【国際公開番号】W WO2020247126
(87)【国際公開日】2020-12-10
【審査請求日】2022-12-08
(31)【優先権主張番号】62/841,906
(32)【優先日】2019-05-02
(33)【優先権主張国・地域又は機関】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】500039463
【氏名又は名称】ボード オブ リージェンツ,ザ ユニバーシティ オブ テキサス システム
【氏名又は名称原語表記】BOARD OF REGENTS,THE UNIVERSITY OF TEXAS SYSTEM
【住所又は居所原語表記】210 West 7th Street Austin,Texas 78701 U.S.A.
(74)【代理人】
【識別番号】230104019
【弁護士】
【氏名又は名称】大野 聖二
(74)【代理人】
【識別番号】100149076
【弁理士】
【氏名又は名称】梅田 慎介
(74)【代理人】
【識別番号】100173185
【弁理士】
【氏名又は名称】森田 裕
(74)【代理人】
【識別番号】100162503
【弁理士】
【氏名又は名称】今野 智介
(74)【代理人】
【識別番号】100144794
【弁理士】
【氏名又は名称】大木 信人
(74)【代理人】
【識別番号】100204582
【弁理士】
【氏名又は名称】大栗 由美
(72)【発明者】
【氏名】エリントン,アンドリュー
(72)【発明者】
【氏名】コール,オースティン
(72)【発明者】
【氏名】シュロフ,ラガヴ
(72)【発明者】
【氏名】タイヤー,ロス
【審査官】山田 倍司
(56)【参考文献】
【文献】国際公開第2003/036546(WO,A1)
【文献】特開2019-028879(JP,A)
【文献】特開2000-229994(JP,A)
【文献】特開平05-089074(JP,A)
【文献】特開平07-013959(JP,A)
【文献】特表2005-519384(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00 - 99/00
C07K 14/435
C12N 15/12
C12N 15/63
G01N 21/64
C12P 21/02
(57)【特許請求の範囲】
【請求項1】
タンパク質の特性を改善するために、ニューラルネットワークを訓練するコンピュータ実装方法であって、
データベースからアミノ酸配列のセットを収集することと、
前記アミノ酸配列のセットに対して化学環境を有する三次元構造のセットをコンパイルすることと、
前記三次元構造をボクセル化マトリックスに翻訳することと、
前記ボクセル化マトリックスのサブセットでニューラルネットワークを訓練することと、
前記ニューラルネットワークで、標的タンパク質中で変異する候補アミノ酸残基を特定することと、
前記ニューラルネットワークで、前記候補アミノ酸残基を置換する予測アミノ酸残基を特定して、変異タンパク質を産生することと、を含み、
前記変異タンパク質が、新規の安定化変異を含み、前記標的タンパク質よりも特性の改善を示す、コンピュータ実装方法。
【請求項2】
水素位置、部分電荷、ベータ因子、二次構造、芳香族性、電子密度、および極性からなる群から選択される特徴の空間的配置を、前記三次元構造のうちの少なくとも1つに付加することをさらに含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記アミノ酸配列のセットを調整して、それらの固有頻度を反映することをさらに含む、請求項1に記載のコンピュータ実装方法。
【請求項4】
前記配列中のランダムな位置から、前記アミノ酸配列のセット中の前記アミノ酸の少なくとも50%をサンプリングすることをさらに含む、請求項1に記載のコンピュータ実装方法。
【請求項5】
三次元構造の第2のサブセットで第2の独立したニューラルネットワークを訓練することと、両方のニューラルネットワークの結果に基づいて、候補アミノ酸残基および予測アミノ酸残基を特定することと、をさらに含む、請求項1に記載のコンピュータ実装方法。
【請求項6】
前記特性が、安定性、成熟、またはフォールディングである、請求項1に記載のコンピュータ実装方法。
【請求項7】
タンパク質の特性を改善するためのシステムであって、プロセッサと、命令が記憶された非一時的コンピュータ可読媒体とを備え、前記命令が、前記プロセッサによって実行されたときに、
アミノ酸の配列を含む標的タンパク質を提供するステップと、
各三次元モデルに対して、アミノ酸の周囲の三次元モデルのセットおよびタンパク質特性値のセットを提供するステップと、
各三次元モデルの様々な点で、パラメータのセットを推定するステップと、
前記三次元モデル、前記パラメータ、および前記タンパク質特性値で、ニューラルネットワークを訓練するステップと、
前記ニューラルネットワークで、前記標的タンパク質中で変異する候補アミノ酸残基を特定するステップと、
前記ニューラルネットワークで、前記候補アミノ酸残基を置換する予測アミノ酸残基を特定し、変異タンパク質を産生するステップと、を含むステップを実施し、
前記変異タンパク質が、新規の安定化変異を含み、前記標的タンパク質よりも前記特性の改善を示す、システム。
【請求項8】
前記タンパク質の特性が、安定性である、請求項7に記載のシステム。
【請求項9】
なくとも1つのアミノ酸配列を再コンパイルして、更新された三次元モデルを生成するステップをさらに実施する、請求項7に記載のシステム。
【請求項10】
コンパイル前に、少なくとも1つのアミノ酸配列に、特徴の空間的配置を付加するステップをさらに実施する、請求項9に記載のシステム。
【請求項11】
前記三次元構造をボクセル化マトリックスに翻訳することが、前記三次元構造に関連する座標を三次元アレイにマッピングすることを含む、請求項1に記載のコンピュータ実装方法。
【請求項12】
前記ボクセル化マトリックスのサブセットが、ある閾値にわたって系統発生的に分岐しているタンパク質から構築される訓練データセットのマトリックスを含む、請求項1に記載のコンピュータ実装方法。
【請求項13】
前記ボクセル化マトリックスのサブセットが、タンパク質構造に付加された水素原子を有するタンパク質から構築される訓練データセットのマトリックスを含む、請求項1に記載のコンピュータ実装方法。
【請求項14】
前記ボクセル化マトリックスのサブセットが、付加された生物物理学的チャネルを有するタンパク質から構築される訓練データセットのマトリックスを含む、請求項1に記載のコンピュータ実装方法。
【請求項15】
前記ボクセル化マトリックスのサブセットから、高解像度閾値を満たすタンパク質を除去することをさらに含み、前記高解像度閾値が、前記三次元構造に基づく電子密度マップが前記電子密度マップの点間の閾値距離に解像可能であることを示す、請求項1に記載のコンピュータ実装方法。
【請求項16】
中央のアミノ酸の周囲に参照フレームを作成すること、および、
前記中央のアミノ酸の周囲の特徴を抽出すること、
をさらに含む、請求項1に記載のコンピュータ実装方法。
【請求項17】
タンパク質の特性を改善するためのシステムであって、プロセッサと、命令が記憶された非一時的コンピュータ可読媒体とを備え、前記命令が、前記プロセッサによって実行されたときに、
データベースからアミノ酸配列のセットを収集するステップと、
前記アミノ酸配列のセットに対して化学環境を有する三次元構造のセットをコンパイルするステップと、
前記三次元構造をボクセル化マトリックスに翻訳するステップと、
前記ボクセル化マトリックスのサブセットでニューラルネットワークを訓練するステップと、
前記ニューラルネットワークで、標的タンパク質中で変異する候補アミノ酸残基を特定するステップと、
前記ニューラルネットワークで、前記候補アミノ酸残基を置換する予測アミノ酸残基を特定して、変異タンパク質を産生するステップと、を含むステップを実施し、
前記変異タンパク質が、新規の安定化変異を含み、前記標的タンパク質よりも特性の改善を示す、システム。
【請求項18】
前記ボクセル化マトリックスのサブセットが、ある閾値にわたって系統発生的に分岐しているタンパク質から構築される訓練データセットのマトリックスを含む、請求項17に記載のシステム。
【請求項19】
前記ボクセル化マトリックスのサブセットが、タンパク質構造に付加された水素原子を有するタンパク質から構築される訓練データセットのマトリックスを含む、請求項17に記載のシステム。
【請求項20】
前記ボクセル化マトリックスのサブセットが、付加された生物物理学的チャネルを有するタンパク質から構築される訓練データセットのマトリックスを含む、請求項1に記載のコンピュータ実装方法。
【請求項21】
前記変異タンパク質がホスホマンノースイソメラーゼを含み、前記新規の安定化変異がD229W、N272K、C295V、S368P、L335A、N388S、S425Tおよびそれらの組み合わせからなる群から選択される、請求項1に記載のコンピュータ実装方法。
【請求項22】
前記変異タンパク質がホスホマンノースイソメラーゼを含み、前記新規の安定化変異がD229W、N272K、C295V、S368P、L335A、N388S、S425Tおよびそれらの組み合わせからなる群から選択される、請求項7に記載のシステム。
【請求項23】
前記変異タンパク質がホスホマンノースイソメラーゼを含み、前記新規の安定化変異がD229W、N272K、C295V、S368P、L335A、N388S、S425Tおよびそれらの組み合わせからなる群から選択される、請求項17に記載のシステム。
【請求項24】
前記変異タンパク質が青色蛍光タンパク質を含み、前記新規の安定化変異がS28A、Y96F、S114T、V124R、T127L、N173Hおよびそれらの組み合わせからなる群から選択される、請求項1に記載のコンピュータ実装方法。
【請求項25】
前記変異タンパク質が青色蛍光タンパク質を含み、前記新規の安定化変異がS28A、Y96F、S114T、V124R、T127L、N173Hおよびそれらの組み合わせからなる群から選択される、請求項7に記載のシステム。
【請求項26】
前記変異タンパク質が青色蛍光タンパク質を含み、前記新規の安定化変異がS28A、Y96F、S114T、V124R、T127L、N173Hおよびそれらの組み合わせからなる群から選択される、請求項17に記載のシステム。
【請求項27】
前記三次元構造のセットの少なくとも一部が、三次元結晶構造である、請求項1に記載のコンピュータ実装方法。
【請求項28】
前記三次元構造のセットの少なくとも一部が、三次元結晶構造である、請求項17に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願
本出願は、2019年5月2日に出願された、「System and Method for Increasing Synthesized Protein Stability」と題する米国仮特許出願第62/841,906号の利益および優先権を主張するものであり、その全体が参照により本明細書に組み込まれる。
【0002】
連邦政府による資金提供を受けた研究または開発の記載
本発明は、National Institutes of Healthによって授与された助成金番号R43 NS105463、および Air Force Office of Scientific Researchによって授与された助成金番号FA9550-14-1-0089の下、政府支援で行われた。政府は、本発明における特定の権利を有する。
【背景技術】
【0003】
タンパク質工学は、バイオテクノロジーおよび生物医学における変革的なアプローチであり、既存のタンパク質に新規の機能性を付与すること、または非天然環境においてタンパク質をより持続性のものにすることのいずれかを目標とする。両方の工学の方法に影響を与える設計上の考慮事項は、タンパク質の全体的な安定性である。前者の場合、合理的な設計または指向性進化を通してタンパク質の役割を拡大する機能獲得変異が、しばしば熱力学的コストで導入される。ほとんどの天然タンパク質は、わずかしか安定していないため、選択前の安定性の向上が、タンパク質の進化性を促進することが示されている一方で、アンフォールディングまでタンパク質を不安定化する機能的変異は、見落とされる可能性がある。
【0004】
有用な天然に存在する生体触媒から産業利用への変換における重大な障壁は、根本的に異なる環境条件、温度、および溶媒へのタンパク質の適応である。タンパク質の安定性を高めることは、これらの圧力の多くを軽減し、より高い収率およびより低いコストで大量の発現を可能にすることができる。したがって、安定化は、多くのタンパク質工学的努力の成功に不可欠である。
【0005】
タンパク質を操作する多くの方法が存在し、すべては一般に、タンパク質バリアントがどれほど迅速かつ正確に測定され得るかと、タンパク質バリアントの状況がどれほど効率的にサンプリングされ得るかとの間の妥協を表す。変異誘発ポリメラーゼ連鎖反応(PCR)などの技術は、配列と機能との間の関係についての最小限の知識を必要とするが、それでもなお、タンパク質バリアントの大きいライブラリを分離するためにハイスループットスクリーンまたは選択に依存する。構造データおよびコンピュータ計算アプローチを使用して、検索空間を狭くし、同時に下流特性評価の量を低減することができる。これらのツールは、所望される特性が、特に大規模で測定困難であるタンパク質にとってますます重要になる。しかしながら、タンパク質配列/構造/機能の関係の理解が不完全なため、タンパク質工学のための異なるコンピュータ計算ツールが、しばしば全く異なる、または相反さえする解を提供する。これは、安定性およびフォールディングなどの特性に特に当てはまるが、これらは多くの場合、全タンパク質配列全体にわたって分布する多くの小さい相互作用の結果である。
【0006】
典型的には、コンピュータ計算方法は、コンピュータ計算集約的なフォールディングシミュレーションを実施することによって、タンパク質を不安定化する残基を特定する。これらのシミュレーションに関与する詳細のレベルは様々であり、量子力学(MOE)を引き合いに出して分子の相互作用を説明するまで進むものもあれば、より粗視化の方法(Rosetta)を使用するものもある。第1の近似まで、粗視化アプローチは、タンパク質構造(RosettaVIP)のギャップを探すか、高速局所自由エネルギー計算(foldX)を行うか、または進化的外れ値(PROSS)である残基を見つけるかのいずれかによって、問題のある残基を特定する。次いで、疎水性パッキングまたは進化的コンセンサスへの復帰によって、より良好な適合残基が提案される。次いで、タンパク質の安定性に対するこれらの置換の効果が、変異体のエネルギーシミュレーションを介して推定される。全体で、このプロセス(残基特定、置換提案、リフォールディング、および自由エネルギー計算)は、数時間から数日間かかる可能性がある。
【0007】
機械学習は、特定のタンパク質の特徴についての事前知識または時間のかかる手作業の検査、および個々の構造の特徴の割り当てを必要としないため、魅力的な代替手段である。近年、Torng and Altman(参照により本明細書に組み込まれるTorng et al.,“3D deep convolutional neural networks for amino acid environment similarity analysis,”BMC Bioinformatics,18:302,2017)は、周囲のタンパク質微小環境に関する情報を与えられたアミノ酸の同一性を予測することによって、三次元畳み込みニューラルネットワーク(3DCNN)をタンパク質構造分析に適用する一般的な枠組みについて記載している。このニューラルネットワークは、野生型配列に対するアミノ酸の割り当てにおいて42%の予測精度を達成し、事前に割り当てられた構造ベースの特徴の特定に依存した他のコンピュータ計算方法よりも優れていた。さらに、モデルタンパク質であるT4リゾチームの構造データを所与として、3D CNNは典型的には、変異が不安定化することが知られている場所で野生型残基を予測し、これらの既知の不安定化変異体の構造を与えられると、野生型残基に対する強い選好を示した。
【発明の概要】
【0008】
プロテオームが、フォールディング形状、安定性、触媒、および結合特異性などのいくつかの無関係な、または相反さえする表現型を同時に示さなければならないことを考慮すると、活性部位から離れた位置で構造的外れ値であるアミノ酸が、フォールディングおよび安定性に影響を与え得るが、機能には影響を与えないことが妥当である。したがって、人工知能を利用して、異なるアミノ酸のコンセンサス微小環境を学習し、構造全体をスキャンして、構造コンセンサスから逸脱する残基を特定する改善されたタンパク質工学技術に対する当該技術分野のニーズがある。野生型の確率が低いとみなされるこれらの残基は、不安定性の遺伝子座であると考えられており、したがって、変異誘発および安定性工学の良好な候補である。本明細書で考察されるシステムおよび方法の実装は、そのような改善されたタンパク質工学技術を提供する。
【0009】
一態様では、タンパク質の特性を改善するためにニューラルネットワークを訓練するコンピュータ実装方法は、データベースからアミノ酸配列のセットを収集することと、アミノ酸のセットに対して化学環境を有する三次元結晶構造のセットをコンパイルすることと、化学環境をボクセル化マトリックスに翻訳することと、ボクセル化マトリックスのサブセットでニューラルネットワークを訓練することと、ニューラルネットワークで、標的タンパク質中で変異する候補残基を特定することと、ニューラルネットワークで、候補残基を置換する予測アミノ酸残基を特定して、変異タンパク質を産生することとを含み、変異タンパク質は、標的タンパク質よりも特性の改善を示す。一実施形態では、方法は、水素位置、部分電荷、ベータ因子、二次構造、芳香族性、電子密度、極性、およびそれらの組み合わせからなる群から選択される特徴の空間的配置を、三次元結晶構造のうちの少なくとも1つに付加するステップをさらに含む。
【0010】
一実施形態では、方法は、アミノ酸配列のセットを調整して、それらの固有頻度を反映することをさらに含む。一実施形態では、方法は、配列中のランダムな位置から、アミノ酸配列のセット中のアミノ酸の少なくとも50%をサンプリングすることをさらに含む。一実施形態では、方法は、三次元結晶構造またはボクセル化マトリックスの第2のサブセットで、第2の独立したニューラルネットワークを訓練することと、両方のニューラルネットワークの結果に基づいて、候補残基および予測残基を特定することと、をさらに含む。一実施形態では、特性は、安定性、成熟、フォールディング、またはそれらの組み合わせである。
【0011】
別の態様では、タンパク質の特性を改善するためのシステムは、プロセッサと、命令が記憶された非一時的コンピュータ可読媒体とを備え、命令は、プロセッサによって実行されたときに、残基の配列を含む標的タンパク質を提供するステップと、各三次元モデルに対して、アミノ酸の周囲の三次元モデルのセットおよびタンパク質特性値のセットを提供するステップと、各三次元モデルの様々な点で、パラメータのセットを推定するステップと、三次元モデル、パラメータ、およびタンパク質特性値で、ニューラルネットワークを訓練するステップと、ニューラルネットワークで、標的タンパク質中で変異する候補残基を特定するステップと、ニューラルネットワークで、候補残基を置換する予測アミノ酸残基を特定し、変異タンパク質を産生するステップとを含むステップを実施し、変異タンパク質は、標的タンパク質よりも特性の改善を示す。
【0012】
一実施形態では、タンパク質特性は、安定性である。一実施形態では、ステップは、フォールディングされたアミノ酸配列の少なくとも1つのアミノ酸配列を再コンパイルして、更新された三次元モデルを生成することを含む。一実施形態では、ステップは、再コンパイル前に、フォールディングされたアミノ酸配列の少なくとも1つのアミノ酸配列に、特徴の空間的配置を付加することを含む。
【0013】
別の態様では、本発明は、完全長野生型secBFP2との関連で、T18、S28、Y96、S114、V124、T127、D151、N173、およびR198から選択されるもう1つの残基において1つ以上の変異を有するsecBFP2バリアントを含む、タンパク質に関する。一実施形態では、タンパク質は、配列番号2~配列番号28のうちの1つのアミノ酸配列を含むsecBFP2バリアントを含む。一実施形態では、secBFP2バリアントは、配列番号2~配列番号28のうちの1つのアミノ酸配列のバリアントを含む。一実施形態では、secBFP2バリアントは、配列番号2~配列番号28のうちの1つのアミノ酸配列を含む融合タンパク質を含む。一実施形態では、BFPは、配列番号2~配列番号28のうちの1つのアミノ酸配列の断片を含む。
【0014】
別の態様では、本発明は、secBFP2バリアントを含むタンパク質をコードするヌクレオチド配列を含む核酸分子に関する。一実施形態では、ヌクレオチド配列は、配列番号2~配列番号28に記載されるアミノ酸配列、そのバリアント、その融合タンパク質、またはその断片をコードする。一実施形態では、分子は、プラスミドである。一実施形態では、分子は、発現ベクターである。一実施形態では、核酸分子は、異種タンパク質コード配列の挿入のための複数のクローニング部位をさらに含む。別の態様では、本発明は、上記のタンパク質を含む組成物、上記の核酸分子を含む組成物、上記のタンパク質を含むキット、または上記の核酸分子を含む。
【図面の簡単な説明】
【0015】
特許または出願ファイルは、カラーで作成される少なくとも1つの図面を含む。カラーの図面(複数可)を含む本特許または特許出願公開の写しは、請求および必要な料金の支払い後に事務所によって提供される。
【0016】
前述の目的および特徴、ならびに他の目的および特徴は、本説明、および本発明の理解を提供するために含まれ、本明細書の一部を構成する以下の添付の図面を参照して明らかとなり、図面中、同様の数字は、同様の要素を表す。
図1A】合成タンパク質特性を増加させるためのコンピュータ実装ニューラルネットワークの実装の図である。
図1B】微小環境の中心におけるアミノ酸残基を決定するための方法の実装のフローチャートである。
図1C】試験中に合成タンパク質特性を増加させるための方法の実装のフローチャートである。
図1D】訓練中に合成タンパク質特性を増加させるためのニューラルネットワークの実装のブロック図である。
図1E】合成タンパク質特性を増加させるための畳み込みニューラルネットワークの実装のブロック図である。
図2A】合成タンパク質特性を増加させるための方法およびシステムの実装の実験結果のグラフである。
図2B】合成タンパク質特性を増加させるための方法およびシステムの実装の実験結果の別のグラフである。
図3A】合成タンパク質特性を増加させるための方法およびシステムの実装の実験結果の別のグラフである。
図3B】合成タンパク質特性を増加させるためのシステムの実装によって示唆される修飾を用いて合成されたタンパク質の写真である。
図4A】合成タンパク質特性を増加させるための方法およびシステムの実装の実験結果の別のグラフである。
図4B】合成タンパク質特性を増加させるためのシステムの実装によって示唆される示唆されたタンパク質修飾の図である。
図5】合成タンパク質特性を増加させるためのシステムの実装の実験結果の写真のセットである。
図6】合成タンパク質特性を増加させるためのシステムの実装の実験結果のグラフである。
図7】合成タンパク質特性を増加させるためのシステムの実装の実験結果のグラフである。
図8】野生型タンパク質に対する17個の青色蛍光タンパク質バリアントの蛍光の倍率変化を示すグラフである。
図9】野生型タンパク質に対する青色蛍光タンパク質バリアントの蛍光の倍率変化を示すグラフである。
図10】親タンパク質および他の青色蛍光タンパク質と比較して、S28A、S114T、N173H、およびT127L変異を含む、青色蛍光タンパク質バリアント「ブルーボネット」の蛍光の例示的な画像を提供する。
図11A】合成タンパク質特性を増加させるためのシステムの実装を示すブロック図である。
図11B】合成タンパク質特性を増加させるためのシステムの実装を示すブロック図である。
【発明を実施するための形態】
【0017】
本発明の図面および説明は、本発明の明確な理解に関連する要素を例示するために単純化されていると同時に、明確にするために、関連するシステムおよび方法に見られる多くの他の要素を排除していることが理解されるべきである。当業者は、本発明を実装する際に他の要素および/またはステップが望ましい、および/または必要であることを認識し得る。しかしながら、そのような要素およびステップは、当該技術分野で周知であるため、かつそれらは、本発明のより良好な理解を促進しないため、そのような要素およびステップの考察は、本明細書には提供されない。本明細書の開示は、当業者に既知のそのような要素および方法に対する、そのようなすべての変更および修正を対象とする。
【0018】
別途定義されない限り、本明細書で使用されるすべての技術用語および科学用語は、本発明が属する分野の当業者によって一般的に理解されるものと同じ意味を有する。本明細書に記載されるものと類似または同等の任意の方法および材料が、本発明の実施または試験で使用され得るが、例示的な方法および材料が記載される。
【0019】
本明細書で使用される場合、以下の用語の各々は、本セクションでそれに関連する意味を有する。
【0020】
冠詞「a」および「an」は、本明細書において、冠詞の文法的対象のうちの1つ、または2つ以上(すなわち、少なくとも1つ)を指すために使用される。一例として、「要素(an element)」は、1つの要素または2つ以上の要素を意味する。
【0021】
量、時間的持続期間などの測定可能な値を指すときに本明細書で使用される場合、「約」は、指定された値からの±20%、±10%、±5%、±1%、および±0.1%の変動を包含するよう意図され、したがって、変動は適切である。
【0022】
「核酸分子」または「ポリヌクレオチド」という用語は、一本鎖形態または二本鎖形態のいずれかにおけるデオキシリボヌクレオチドまたはリボヌクレオチドポリマーを指し、特に別段の示唆がない限り、天然に存在するヌクレオチドと類似の様式で機能することができる、天然に存在するヌクレオチドの既知の類似体を含有するポリヌクレオチドを包含する。核酸分子がDNA配列によって表される場合、これは、「U」(ウリジン)が「T」(チミジン)に取って代わる対応するRNA配列を有するRNA分子も含むことが理解されるであろう。
【0023】
「組換え核酸分子」という用語は、2つ以上の連結ポリヌクレオチド配列を含有する、天然に存在しない核酸分子を指す。組換え核酸分子は、組換え方法、特に遺伝子工学技術によって産生されてもよく、または化学合成方法によって産生されてもよい。組換え核酸分子は、融合タンパク質、例えば、対象となるポリペプチドに連結された本明細書で考察されるシステムおよび方法によって示唆される蛍光タンパク質バリアントをコードすることができる。「組換え宿主細胞」という用語は、組換え核酸分子を含有する細胞を指す。したがって、組換え宿主細胞は、細胞の天然(非組換え)形態内には見られない「遺伝子」からポリペプチドを発現することができる。
【0024】
ポリペプチドを「コードする」ポリヌクレオチドへの言及は、ポリヌクレオチドの転写およびそれから産生されるmRNAの翻訳の際に、ポリペプチドが産生されることを意味する。コードポリヌクレオチドは、そのヌクレオチド配列がmRNAと同一であるコード鎖、ならびにその相補鎖の両方を含むとみなされる。そのようなコードポリヌクレオチドは、同じアミノ酸残基をコードする縮重ヌクレオチド配列を含むとみなされることが認識されるであろう。ポリペプチドをコードするヌクレオチド配列は、イントロンを含有するポリヌクレオチド、ならびにコードエクソンを含み得る。
【0025】
「発現制御配列」という用語は、ポリヌクレオチドの転写もしくは翻訳、またはそれが作動可能に連結されたポリペプチドの局在化を調節するヌクレオチド配列を指す。発現制御配列は、発現制御配列が、ヌクレオチド配列の転写、および必要に応じて翻訳(すなわち、それぞれ転写または翻訳調節要素)、またはコードされたポリペプチドの細胞の特定の区画への局在化を制御または調節するとき、「作動可能に連結」されている。したがって、発現制御配列は、プロモーター、エンハンサー、転写ターミネーター、開始コドン(ATG)、イントロン切除および正しいリーディングフレームの維持のためのスプライシングシグナル、停止コドン、リボソーム結合部位、またはポリペプチドを特定の位置に標的化する配列、例えば、細胞区画化シグナル(これは、ポリペプチドを、細胞質ゾル、核、原形質膜、小胞体、ミトコンドリア膜もしくはマトリックス、葉緑体膜もしくは葉緑体腔、中間トランスゴルジ扁平嚢、リソソーム、またはエンドソームに標的化することができる)であり得る。細胞区画化ドメインとしては、例えば、ヒトII型膜アンカータンパク質ガラクトシルトランスフェラーゼのアミノ酸残基1~81、またはシトクロムcオキシダーゼのサブユニットIVのプレ配列のアミノ酸残基1~12を含有するペプチドが挙げられる(また、Hancock et al.,EMBO J.10:4033-4039,1991、Buss et al.,Mol.Cell.Biol.8:3960-3963,1988、米国特許第5,776,689号も参照されたい(それら各々は、参照により本明細書に組み込まれる))。
【0026】
キメラタンパク質を説明するために使用される場合、「作動可能に連結された」もしくは「作動的に連結された」もしくは「動作可能に結合された」という用語、または類似のものは、互いに物理的および機能的関係に置かれるポリペプチド配列を指す。最も好ましい実施形態では、キメラ分子のポリペプチド構成成分の機能は、単独での機能的活性と比較して変化していない。例えば、本明細書で考察されるシステムおよび方法によって示唆される蛍光タンパク質は、対象となるポリペプチドに融合され得る。この場合、融合分子は、その蛍光を保持し、対象となるポリペプチドは、その元の生物活性を保持することが好ましい。本明細書で考察されるシステムおよび方法のいくつかの実施形態では、蛍光タンパク質または対象となるタンパク質のいずれかの活性は、単独でのそれらの活性と比較して低減され得る。また、そのような融合は、本明細書で考察されるシステムおよび方法とともに使用され得る。
【0027】
「標識」という用語は、例えば、目視検査、分光法、または光化学反応、生化学反応、免疫化学反応、もしくは化学反応によって、機器の有無を問わず検出可能である組成物を指す。有用な標識としては、例えば、リン-32、蛍光染料、蛍光タンパク質、高電子密度試薬、酵素(ELISAで一般的に使用されるものなど)、小分子、例えば、ビオチン、ジゴキシゲニン、またはモノクローナル抗体であり得る抗血清または抗体が利用可能な他のハプテンもしくはペプチドが挙げられる。本明細書で考察されるシステムおよび方法の実装によって示唆される蛍光タンパク質バリアントは、それ自体が検出可能なタンパク質であるが、それにもかかわらず、それ自体の蛍光以外の手段によって、例えば、放射性核種標識またはペプチドタグをタンパク質に組み込んで、例えば、タンパク質のその発現中の特定および発現されたタンパク質の単離のそれぞれを促進することによって検出可能になるように標識され得ることが認識されるであろう。本明細書で考察されるシステムおよび方法の実装の目的に有用な標識は、一般に、放射性シグナル、蛍光性の光、酵素活性などの測定可能なシグナルを発生させ、それらのいずれかは、例えば、サンプル中の蛍光タンパク質バリアントの量を定量化するために使用され得る。
【0028】
「ポリペプチド」または「タンパク質」という用語は、2つ以上のアミノ酸残基のポリマーを指す。これらの用語は、1つ以上のアミノ酸残基が、対応する天然に存在するアミノ酸の人工的化学類似体であるアミノ酸ポリマー、ならびに天然に存在するアミノ酸ポリマーに適用される。「組換えタンパク質」という用語は、組換えDNA分子からのタンパク質のアミノ酸配列をコードするヌクレオチド配列の発現によって産生されるタンパク質を指す。
【0029】
「単離された」または「精製された」という用語は、自然界での天然の状態の物質に通常付随している構成成分を実質的にまたは本質的に含まない物質を指す。純度または均質性は、一般に、ポリアクリルアミドゲル電気泳動、高速液体クロマトグラフィーなどの分析化学技術を使用して決定される。ポリヌクレオチドまたはポリペプチドは、それが調製物中に存在する主要な種である場合に単離されるとみなされる。概して、単離されたタンパク質または核酸分子は、調製物中に存在する高分子種の80%超を表し、多くの場合、存在するすべての高分子種の90%超を表し、通常、高分子種の95%超を表し、特に、そのような分子の純度を決定するための従来の方法を使用して検査されたときに検出される唯一の種であるような本質的な均質性まで精製された、ポリペプチドまたはポリヌクレオチドである。
【0030】
「天然に存在する」という用語は、タンパク質、核酸分子、細胞、または自然界で生じる他の物質を指すために使用される。例えば、ウイルスを含む生物中に存在するポリペプチドまたはポリヌクレオチド配列。天然に存在する物質は、自然界に存在するようなその形態であり得、例えば、単離形態であるように人の手によって修飾され得る。
【0031】
「抗体」という用語は、免疫グロブリン遺伝子(複数可)、またはその抗原結合断片によって実質的にコードされるポリペプチドを指し、それらは、分析物(抗原)に特異的に結合し、それを認識する。認識される免疫グロブリン遺伝子としては、カッパ、ラムダ、アルファ、ガンマ、デルタ、イプシロン、およびミュー定常領域遺伝子、ならびに無数の免疫グロブリン可変領域遺伝子が挙げられる。抗体は、完全型免疫グロブリンとして存在し、抗体の抗原結合断片も同様に特徴付けられ、これは、ペプチダーゼで消化することによって産生されるか、または組換えDNA法を使用することができる。抗体のそのような抗原結合断片としては、例えば、Fv、Fab’、およびF(ab)’2断片が挙げられる。本明細書で使用される場合、「抗体」という用語は、抗体全体の修飾によって産生される抗体断片、または組換えDNA法を使用してデノボ合成される抗体断片のいずれかを含む。「免疫測定法」という用語は、抗体を利用して、分析物に特異的に結合するアッセイを指す。免疫測定法は、特定の抗体の特異的結合特性を使用して、分析物を単離、標的化、および/または定量化することを特徴とする。
【0032】
2つ以上のポリヌクレオチド配列または2つ以上のポリペプチド配列に関連して使用される場合、「同一」という用語は、最大一致のためにアライメントされたときに同じである配列中の残基を指す。配列同一性の割合がポリペプチドに関連して使用される場合、そうでなければ同一ではない1つ以上の残基位置が、保存的アミノ酸置換によって異なり得、第1のアミノ酸残基が、類似の電荷または疎水性もしくは親水性特性などの類似の化学的特性を有する別のアミノ酸残基の代わりに置換され、したがって、ポリペプチドの機能的特性を変化させないことが認識される。ポリペプチド配列が保存的置換で異なる場合、配列同一性パーセントは、上方に調整されて、置換の保存的性質を補正することができる。そのような調整は、例えば、保存的置換を完全なミスマッチではなく部分的なミスマッチとしてスコアリングし、それによって配列同一性の割合を増加させることによって行われ得る。したがって、例えば、同一のアミノ酸が、1のスコアを与えられ、非保存的置換が、ゼロのスコアを与えられる場合、保存的置換は、ゼロと1との間のスコアを与えられる。保存的置換のスコアリングは、例えば、Meyers and Miller,Comp.Appl.Biol.Sci.4:11-17,1988、Smith and Waterman,Adv.Appl.Math.2:482,1981、Needleman and Wunsch,J.Mol.Biol.48:443,1970、Pearson and Lipman,Proc.Natl.Acad.Sci.,USA 85:2444(1988)、Higgins and Sharp,Gene 73:237-244,1988、Higgins and Sharp,CABIOS 5:151-153;1989、Corpet et al.,Nucl.Acids Res.16:10881-10890,1988、Huang,et al.,Comp.Appl.Biol.Sci.8:155-165,1992、Pearson et al.,Meth.Mol.Biol.,24:307-331,1994(これらの各々は、参照により本明細書に組み込まれる)で考察されるアルゴリズムを使用して計算され得る。アライメントはまた、単純な目視検査および配列の手動アライメントによって実施され得る。
【0033】
特定のポリヌクレオチド配列に関連して使用される場合、「保存的に修飾された変異」という用語は、同一もしくは本質的に同一のアミノ酸配列をコードする異なるポリヌクレオチド配列を指し、またはポリヌクレオチドは、本質的に同一の配列に対してアミノ酸配列をコードしない。遺伝子コードの縮重により、多数の機能的に同一のポリヌクレオチドが、任意の所与のポリペプチドをコードする。例えば、コドンCGU、CGC、CGA、CGG、AGA、およびAGGはすべて、アミノ酸アルギニンをコードする。したがって、アルギニンがコドンによって指定されるあらゆる位置で、コドンは、コードされたポリペプチドを改変することなく、記載された対応するコドンのいずれかに改変され得る。そのようなヌクレオチド配列変異は、「サイレント変異」であり、これは、「保存的に修飾された変異」の種とみなされ得る。したがって、蛍光タンパク質バリアントをコードするものとして本明細書に開示される各ポリヌクレオチド配列が、すべての可能性のあるサイレント変異も説明することが認識されるであろう。また、通常メチオニンの唯一のコドンであるAUG、および通常トリプトファンの唯一のコドンであるUUGを除く、ポリヌクレオチド中の各コドンが、標準的な技術によって機能的に同一の分子を得るように修飾され得ることも認識されるであろう。したがって、コードされたポリペプチドの配列を変化させないポリヌクレオチドの各サイレント変異が、本明細書に黙示的に記載される。さらに、コードされた配列中の単一アミノ酸または少ない割合のアミノ酸(典型的には5%未満、概して1%未満)を改変、付加、または欠失する個々の置換、欠失、または付加が、保存的に修飾された変異とみなされ得、ただし、改変が、化学的に類似したアミノ酸でのアミノ酸の置換をもたらすことを条件とすることが認識されるであろう。機能的に類似したアミノ酸を提供する保存的アミノ酸置換は、以下の6つの群を含んでもよく、それらの各々は、互いに対する保存的置換とみなされるアミノ酸を含有する:
1)アラニン(Ala、A)、セリン(Ser、S)、スレオニン(Thr、T)、
2)アスパラギン酸(Asp、D)、グルタミン酸(Glu、E)、
3)アスパラギン(Asn、N)、グルタミン(Gln、Q)、
4)アルギニン(Arg、R)、リジン(Lys、K)、
5)イソロイシン(Ile、I)、ロイシン(Leu、L)、メチオニン(Met、M)、バリン(Val、V)、および
6)フェニルアラニン(Phe、F)、チロシン(Tyr、Y)、トリプトファン(Trp、W)。
【0034】
アミノ酸配列またはヌクレオチド配列が、互いと、または所与の比較ウィンドウにわたって参照配列と少なくとも80%の配列同一性を共有する場合、2つ以上のアミノ酸配列または2つ以上のヌクレオチド配列は、「実質的に同一」または「実質的に類似」であるとみなされる。したがって、実質的に類似した配列は、例えば、少なくとも85%の配列同一性、少なくとも90%の配列同一性、少なくとも95%の配列同一性、または少なくとも99%の配列同一性を有する配列を含む。
【0035】
対象のヌクレオチド配列の補体が参照ヌクレオチド配列と実質的に同一である場合、対象のヌクレオチド配列は、参照ヌクレオチド配列に対して「実質的に相補的」であるとみなされる。
【0036】
蛍光分子は、ドナー分子およびアクセプター分子を伴う蛍光共鳴エネルギー移動、FRETにおいて有用である。ドナー分子とアクセプター分子との間のFRETの効率および検出可能性を最適化するために、いくつかの要因のバランスをとる必要がある。ドナーの発光スペクトルは、重なり積分を最大化するために、アクセプターの励起スペクトルと可能な限り重複するべきである。また、ドナー部分の量子収率およびアクセプターの吸光係数は、エネルギー移動効率が50%である距離を表すROを最大化するために、可能な限り高くあるべきである。しかしながら、アクセプターの直接励起から生じる蛍光は、FRETから生じる蛍光と区別することが困難である場合があるため、ドナーおよびアクセプターの励起スペクトルは、ドナーがアクセプターを直接励起することなく効率的に励起され得る波長領域を見つけることができるように、可能な限り少なく重複するべきである。同様に、ドナーおよびアクセプターの発光スペクトルは、2つの発光が明確に区別され得るように、可能な限り少なく重複するべきである。アクセプターからの発光が、唯一の読み出しとして、または発光比の一部としてのいずれかで測定されることになっている場合、アクセプター部分の高蛍光量子収率が望ましい。ドナーおよびアクセプターの対を選択する際に考慮されるべき1つの要因は、それら間の蛍光共鳴エネルギー移動の効率である。好ましくは、ドナーとアクセプターとの間のFRETの効率は、少なくとも10%、より好ましくは少なくとも50%、さらにより好ましくは少なくとも80%である。
【0037】
「蛍光特性」という用語は、適切な励起波長におけるモル吸光係数、蛍光量子効率、励起スペクトルもしくは発光スペクトルの形状、励起波長最大値および発光波長最大値、2つの異なる波長における励起振幅の比率、2つの異なる波長における発光振幅の比率、励起状態寿命、または蛍光異方性を指す。野生型または親蛍光タンパク質とスペクトルバリアントまたはその変異体との間のこれらの特性のいずれか1つの測定可能な差が、有用である。測定可能な差は、任意の定量的蛍光特性の量、例えば、特定の波長における蛍光の量、または発光スペクトルにわたる蛍光の積分を決定することによって決定され得る。2つの異なる波長における励起振幅または発光振幅の比率を決定すること(それぞれ、「励起振幅比演算」および「発光振幅比演算」)は、特に有利であり、これは、比演算プロセスが、内部参照を提供し、励起源の絶対輝度、検出器の感度、およびサンプルによる光散乱またはクエンチングにおける変動を相殺するためである。本明細書で使用される場合、「蛍光タンパク質」という用語は、蛍光が化学タグによるものである化学的にタグ付けされたタンパク質、および紫外線波長における発光ピーク(すなわち、約400nm未満)が、本明細書で考察されるシステムおよび方法の実装の目的で蛍光タンパク質とみなされないトリプトファンまたはチロシンなどの特定のアミノ酸の存在によってのみ蛍光を発するポリペプチドを除き、適切な電磁放射で励起されたときに蛍光を発することができる任意のタンパク質を指す。概して、本明細書で考察されるシステムの実装の組成物を調製するために、または本明細書で考察される方法の実装で使用するために有用な蛍光タンパク質は、発色団を自己触媒的に形成することからその蛍光を得るタンパク質である。蛍光タンパク質は、天然に存在するか、または操作されている(すなわち、バリアントもしくは変異体)アミノ酸配列を含有し得る。蛍光タンパク質に関連して使用される場合、「変異体」または「バリアント」という用語は、参照タンパク質とは異なるタンパク質を指す。
【0038】
「青色蛍光タンパク質」という用語は、青色蛍光を発するタンパク質を指すために本明細書において広く使用される。「青色蛍光タンパク質」または「BFP」という用語は、最も広い意味で使用され、特に、mTagBFP、secBFP2、および任意の種からの青色蛍光タンパク質、ならびにそれらのバリアント(それらが青色蛍光を発する能力を保持する限り)を含む。
【0039】
「変異体」または「バリアント」という用語は、対応する野生型または親蛍光タンパク質に対する変異を含有する蛍光タンパク質に関連して本明細書で使用される。さらに、対応する野生型蛍光タンパク質に対して異なる蛍光特性を有する変異型蛍光タンパク質を示すために、蛍光タンパク質の「スペクトルバリアント」または「スペクトル変異体」について、本明細書で言及される。
【0040】
本開示全体を通して、本明細書で考察されるシステムおよび方法の実装の様々な態様が、範囲形式で提示され得る。範囲形式の記載は、単に便宜上および簡潔にするためのものであり、本発明の範囲に対する融通性のない制限として解釈されるべきではないことが理解されるべきである。したがって、範囲の記載は、すべての可能性のある部分範囲、ならびにその範囲内の個々の数値を具体的に開示したとみなされるべきである。例えば、1~6などの範囲の記載は、1~3、1~4、1~5、2~4、2~6、3~6などの部分範囲、ならびにその範囲内の個々の数、例えば、1、2、2.7、3、4、5、5.3、6、およびそれらの間の任意の全体的および部分的増分を具体的に開示したとみなされるべきである。これは、範囲の広がりに関係なく適用される。
【0041】
本明細書で考察されるシステムおよび方法のいくつかの態様では、本明細書に提供される命令を実行するソフトウェアは、非一時的コンピュータ可読媒体上に記憶されてもよく、ソフトウェアは、プロセッサ上で実行されたときに、本明細書で考察される方法の実装のステップの一部またはすべてを実施する。
【0042】
本明細書で考察されるシステムおよび方法の態様は、コンピュータソフトウェアで実行されるアルゴリズムに関する。特定の実施形態は、特定のプログラミング言語で記述されるもの、または特定のオペレーティングシステムもしくはコンピューティングプラットフォーム上で実行されるものとして記載されてもよいが、本明細書で考察されるシステムおよび方法の実装は、任意の特定のコンピューティング言語、プラットフォーム、またはそれらの組み合わせに限定されないことが理解される。本明細書に記載されるアルゴリズムを実行するソフトウェアは、C、C++、C#、Objective-C、Java、JavaScript、Python、PHP、Perl、Ruby、またはビジュアルベーシックを含むがこれらに限定されない、任意のプログラミング言語で記述、コンパイル、または解釈されてもよい。本明細書で考察されるシステムおよび方法の要素は、サーバ、クラウドインスタンス、ワークステーション、シンクライアント、モバイルデバイス、組み込み型マイクロコントローラ、テレビ、または任意の他の好適なコンピューティングデバイスを含むがこれらに限定されない、任意の許容可能なコンピューティングプラットフォーム上で実行され得ることがさらに理解される。
【0043】
本明細書で考察されるシステムの実装の一部は、コンピューティングデバイス上で実行されるソフトウェアとして記載される。本明細書に記載されるソフトウェアは、1つの特定のコンピューティングデバイス(例えば、専用サーバまたはワークステーション)上で動作するものとして開示され得るが、ソフトウェアは、本質的にポータブルであってもよく、専用サーバ上で実行されるソフトウェアがまた、デスクトップもしくはモバイルデバイス、ノートパソコン、タブレット、スマートフォン、腕時計、ウェアラブル電子機器もしくは他のワイヤレスデジタル/携帯電話、テレビ、クラウドインスタンス、組み込み型マイクロコントローラ、シンクライアントデバイス、または任意の他の好適なコンピューティングデバイスを含む幅広いデバイスのいずれかで、本明細書で考察されるシステムおよび方法の実装の目的のために実行されてもよい。
【0044】
同様に、本明細書で考察されるシステムの実装の一部は、様々な無線または有線のコンピュータネットワーク上で通信するものとして記載される。本明細書で考察されるシステムおよび方法の実装の目的で、「ネットワーク」、「ネットワーク化」、および「ネットワーキング」という用語は、有線イーサネット、光ファイバ接続、様々な802.11規格のいずれかを含む無線接続、3G、4G/LTE、もしくは5GネットワークなどのセルラーWANインフラストラクチャー、Bluetooth(登録商標)、Bluetooth(登録商標)Low Energy(BLE)、もしくはZigbee(登録商標)通信リンク、または1つの電子デバイスがもう1つの電子デバイスと通信可能である任意の他の方法を包含すると理解される。いくつかの実施形態では、本明細書で考察されるシステムの実装のネットワーク化部分の要素は、仮想プライベートネットワーク(VPN)上で実装されてもよい。
【0045】
本明細書で考察されるシステムおよび方法の実装の態様は、機械学習アルゴリズム、機械学習エンジン、またはニューラルネットワークに関する。ニューラルネットワークは、タンパク質の様々な属性、例えば、既知のタンパク質内のアミノ酸の原子環境に基づいて訓練されてもよく、その属性に基づいて、タンパク質中の1つ以上のアミノ酸への提案された変化を出力してもよい。いくつかの実施形態では、属性は、原子タイプ、静電、ベータ因子、溶媒接触性、二次構造、芳香族性、または極性を含み得る。次いで、得られるアミノ酸は、1つ以上の品質指標に従って判断されてもよく、属性の重みは、品質指標を最大化するために最適化されてもよい。このようにして、ニューラルネットワークは、実験的に測定され得る任意の品質指標を予測および最適化するように訓練され得る。ニューラルネットワークが訓練され得る品質指標の例としては、野生型アミノ酸の精度、既知の安定化/不安定化位置、アミノ酸基の精度、および測定され得る任意の他の好適なタイプの品質指標が挙げられる。いくつかの実施形態では、ニューラルネットワークは、マルチタスク機能を有し、複数の品質指標の同時予測および最適化を可能にし得る。
【0046】
そのようなニューラルネットワークを実装する実施形態では、クエリは、様々な方法で実施され得る。クエリは、所望のパラメータ、例えば、融解曲線を通して熱的に、またはグアニジンもしくは尿素変性を用いて化学的に具体化され得るタンパク質安定性を高めるために、所与のタンパク質内のアミノ酸を特定するようにニューラルネットワークに要求し得る。本明細書で考察されるシステムおよび方法の実装のニューラルネットワークは、その予測同一性(ニューラルネットワークによって評価される)が、その天然の同一性とは異なるタンパク質の1つ以上のアミノ酸残基を特定し、それによって、改善されたタンパク質が、天然アミノ酸残基を予測アミノ酸残基に変異させることによって生成され得ることを示し得る。本明細書で企図されるように、予測アミノ酸残基は、任意の天然または非天然(例えば、人工もしくは合成)アミノ酸であってもよい。
【0047】
いくつかの実施形態では、ニューラルネットワークは、入力されたアミノ酸配列または残基に関連する所望のパラメータの値を使用して、ニューラルネットワークを訓練することによって更新されてもよい。このようにニューラルネットワークを更新すると、最適なアミノ酸残基を提案するニューラルネットワークの能力が改善され得る。いくつかの実施形態では、ニューラルネットワークを訓練することは、予測アミノ酸残基で変異したタンパク質に関連する所望のパラメータの値を使用することを含んでもよい。例えば、いくつかの実施形態では、ニューラルネットワークを訓練することは、提案されたアミノ酸の所望のパラメータの値を予測することと、予測値を既知のアミノ酸に関連するパラメータの対応する値と比較することと、比較の結果に基づいてニューラルネットワークを訓練することとを含んでもよい。予測値が既知の値と同じまたは実質的に類似している場合、ニューラルネットワークは、最小限に更新されてもよく、または全く更新されなくてもよい。予測値が既知のアミノ酸の値と異なる場合、ニューラルネットワークは、この不一致をより良く補正するために実質的に更新され得る。ニューラルネットワークがどのように再訓練されるかに関わらず、再訓練されたニューラルネットワークを使用して、追加のアミノ酸を提案し得る。
【0048】
本出願の技術は、タンパク質安定性を高めることに関連しているが、これは、他のタイプのタンパク質パラメータまたは属性、例えば、半減期、活性、分解抵抗、溶解性、熱安定性、翻訳後修飾、pH耐性の増強、成熟時間の短縮、核酸結合、タンパク質間相互作用、疎水性、またはそれらの組み合わせに適用され得るため、これらの技術の非限定的な適用であることが理解されるべきである。ニューラルネットワークを訓練するために使用されるデータのタイプに応じて、ニューラルネットワークは、異なるタイプのタンパク質、タンパク質間相互作用、および/またはタンパク質の属性のために最適化され得る。このようにして、ニューラルネットワークを訓練して、タンパク質に対する、ペプチドとも称され得るアミノ酸配列の特定を改善することができる。ニューラルネットワークにクエリを行うことは、タンパク質に対する初期アミノ酸配列の入力を含んでもよい。ニューラルネットワークは、異なるアミノ酸配列を使用して以前に訓練されていてもよい。ニューラルネットワークへのクエリは、初期アミノ酸配列よりも高い安定性のタンパク質に対して提案されたアミノ酸配列に関するものであってもよい。提案されたアミノ酸配列の各残基に対して特定のアミノ酸を示す提案されたアミノ酸配列は、ニューラルネットワークから受信されてもよい。
【0049】
離散的表現を有する配列を入力すること、連続的表現を有するニューラルネットワークからの出力を受信すること、およびそれをニューラルネットワークへの入力として連続して提供する前に出力を離散化することによって、ニューラルネットワークに反復的にクエリを行うことに関連する、本明細書に記載される技術は、他の機械学習用途に適用され得る。そのような技術は、離散的表現を有する最終出力が望ましい用途で特に有用であり得る。そのような技術は、離散属性を一連の離散属性の特性に関連付けるデータを使用して訓練されたニューラルネットワークによって生成されたモデルを適用することによって、一連の離散属性を特定するために一般化され得る。配列中のアミノ酸を特定する文脈において、離散属性は、異なるアミノ酸を含んでもよい。
【0050】
いくつかの実施形態では、モデルは、分子シミュレーションから生じるデータを含むがこれに限定されない、一連の各位置に位置する離散属性を有する初期の一連を、入力として受信してもよい。初期の一連内の離散属性の各々は、複数の離散属性のうちの1つである。ニューラルネットワークにクエリを行うことは、初期の一連の離散属性を入力することと、初期の一連の特性のレベルとは異なる特性のレベルを有する出力された一連の離散属性を生成することとを含んでもよい。ニューラルネットワークにクエリを行うことに応答して、出力された一連、および出力された一連の各位置についての異なる離散属性に関連する値は、ニューラルネットワークから受信されてもよい。一連の各位置について、各離散属性の値は、離散属性が位置について選択される場合、特性のレベルに関するニューラルネットワークの予測に対応し、連続的な値のデータセットを形成し得る。値は、位置についての離散属性にわたって広がってもよく、出力された一連の離散バージョンを特定する際に使用されてもよい。いくつかの実施形態では、出力された一連の離散バージョンを特定することは、シリーズの各位置について、位置に対する異なる離散属性の値の中から最も高い値を有する離散属性を選択することを含んでもよい。提案された一連の離散属性は、離散バージョンを特定する出力として受信されてもよい。
【0051】
いくつかの実施形態では、反復プロセスは、出力された一連についてニューラルネットワークにクエリを行うこと、出力された一連を受信すること、および出力された一連の離散バージョンを特定することによって形成される。反復プロセスの追加の反復は、直前の反復からの出力された一連の離散バージョンを入力することを含んでもよい。反復プロセスは、現在の出力された一連が、直前の反復からの直前の出力された一連と一致するときに停止してもよい。
【0052】
いくつかの実施形態では、複数の品質指標を有するアミノ酸配列を特定するためにニューラルネットワークを訓練するためのものを含む、単一の品質指標に対する所望の値よりもむしろ複数の品質指標に対する所望の値(例えば、別の配列の値よりも高い値)を有する提案されたアミノ酸配列が、特定される。そのような技術は、異なる特性を有するタンパク質について提案されたアミノ酸配列の特定が望ましい用途で特に有用であり得る。そのような技術の実装では、訓練データは、ニューラルネットワークを訓練するために使用されるアミノ酸配列の各々についての異なる特性に関連するデータを含んでもよい。ニューラルネットワークを訓練することによって生成されるモデルは、特性の異なる組み合わせに対応する1つ以上のパラメータを有してもよい。いくつかの実施形態では、パラメータは、第1の特徴と第2の特徴との間の重みを表してもよく、これは、提案されたアミノ酸配列が、第2の特性と比較して第1の特徴を有する可能性のバランスをとるように使用されてもよい。いくつかの実施形態では、ニューラルネットワークを訓練することは、異なる特性についてスコアを割り当てることを含み、スコアは、提案されたアミノ酸配列を予測するために使用されるモデルのパラメータについての値を推定するために使用され得る。いくつかのそのような実施形態における訓練データは、アミノ酸配列に関連する原子微小環境を含んでもよく、これは、ニューラルネットワークを訓練するために使用される場合、提案されたアミノ酸配列を予測するために使用されるモデルを生成する。ニューラルネットワークを訓練することは、スコアを割り当てることを伴い得、パラメータについての値は、スコアを使用して推定され得る。
【0053】
畳み込みニューラルネットワークについての生物学的用途は、比較的希少である。タンパク質は、アミノ酸配列として分析されるのではなく、その三次元構造を解くために、その結晶化形態で評価されつつある。本明細書で考察される方法の実装の一態様は、20個のアミノ酸の各々に特有の化学環境を特徴付ける三次元畳み込みニューラルネットワークを訓練することを伴う。次いで、同じニューラルネットワークが、所与の環境に最も適合するアミノ酸を予測することができる。本明細書に記載されるニューラルネットワークは、19,000個の系統発生的に遠いタンパク質構造にわたる160万個のアミノ酸環境で訓練されている。訓練後、このネットワークのサンプル内精度は80.0%であり、サンプル外精度は72.5%であり、現在の技術水準の約20~30%の改善(約40%のサンプル外精度)である。
【0054】
予想されたアミノ酸と観察されたアミノ酸との間に大きい不一致がある部位は、安定性およびフォールディング成熟などのタンパク質の特徴を操作するための標的を示す。本明細書に記載されるシステムおよび方法は、3つの生物学的事例である、ベータ-ラクタマーゼ抗生物質マーカー、サンゴ由来の青色蛍光タンパク質、および酵母Candida albicans由来のホスホマンノースイソメラーゼを実験的に特徴付け、ニューラルネットワークからの予測は、インビボでタンパク質機能および安定性の向上を実証する。これらの結果は、AIおよび分子生物学の交点における新たな生物学的ツールを予測する。
【0055】
一実施形態では、本明細書で考察される方法の実装は、ニューラルネットワーク、例えば、上記で参照されるTorng and Altmanによって公開されたニューラルネットワークの実装を利用する。本明細書で考察されるシステムおよび方法の実装は、以下で考察される実験結果が示すように、公開されたニューラルネットワーク設計を実質的に改善する。元のTorng and Altmanのセットは、32,760個の訓練構造および1601個の試験構造をもたらす、3696個の訓練タンパク質ファミリーおよび194個の試験タンパク質ファミリーを含有する。
【0056】
本明細書で考察されるシステムおよび方法の実装は、タンパク質安定化の問題に対処するために、Torng and Altmanのフレームワークを基礎とする。基本的な例では、タンパク質の結晶構造は、三次元画像のように処理される。任意の所与の画像では、個々のアミノ酸およびその原子環境についての多くの観察がある。一部の方法は、これらのアミノ酸のうちの1つに一貫した参照フレームを集中させる。この有利な立場から、20×20×20オングストロームのボックス内で酸素、窒素、硫黄、および炭素原子が分離され、中央のアミノ酸に関連するすべての原子が除去される。次いで、環境および環境に適合するアミノ酸のこのセットは、三次元畳み込みニューラルネットワークのための注釈付き訓練セットとして使用されてもよい。この訓練されたニューラルネットワークで、実験的に導入された不安定化変異が検出され得る。
【0057】
本明細書で考察されるシステムおよび方法の実装は、新規の安定化変異を特定するための基礎モデルを改善する。本明細書に記載される改善は、予測の品質を、既知の不安定化変異を正当化するだけでなく、未知の不安定化残基を特定し、安定化変異を示唆するのに十分な状態にする。
【0058】
いくつかの実装では、本明細書で考察されるシステムおよび方法は、入力されたタンパク質上の好ましい環境に位置する野生型アミノ酸の特定を可能にする。そのような実装は、非常に低い野生型確率を有する残基の配列空間を狭くし得る。現在の技術水準と比べた、本明細書で考察されるシステムおよび方法の実装によって提供される改善は、組み合わされたときに、全体的な有用性の改善のための候補タンパク質残基を特定するための著しく改善されたモデルを形成する、いくつかの個別の改善として記載され得る。
【0059】
図1Aは、合成タンパク質特性を増加させるためのコンピュータ実装ニューラルネットワークの実装の図である。技術者が改変することを望むタンパク質のいくつかの特性は、成熟動態、熱安定性、Km、cat、適切なフォールディングのためのカチオンまたはアニオンへの依存性、およびpH耐性である。101において、タンパク質は、タンパク質中の各残基に対して微小環境に翻訳されてもよく、タンパク質の三次元モデルおよびその微小環境が生成される。三次元モデルを生成するためのいくつかの方法としては、他にも方法があるが、未知のタンパク質モデルが既知のタンパク質構造から取られる候補断片のプールから構築される場合の断片集合、既知のタンパク質セグメントがアミノ酸配列に一致する場合のセグメント一致、または既知のタンパク質モデルが選択され(「テンプレート」)、アミノ酸配列の残基がテンプレート配列中の残基にマッピングされ(アライメント)、配列中の様々な距離、角度、および二面角への拘束がテンプレート構造とのアライメントから導出され、拘束の違反が最小化される場合の空間的拘束の達成に基づく比較タンパク質モデリングが挙げられる。タンパク質結晶構造の三次元モデルが生成されると、構造に関連する対応する微小環境が生成される。
【0060】
いくつかの実施形態では、三次元モデルは、微小環境なしにタンパク質を単に例示または表示してもよい。三次元モデルは、いくつかの実装では、三次元アレイにマッピングされてもよい。一例では、三次元モデルの座標は、三次元アレイに記憶される。いくつかの実施形態では、三次元画像は、三次元モデルから生成されてもよく、三次元画像は、三次元アレイにマッピングされてもよい。アレイ内の画像データは、ボクセル化マトリックスと称され得る。ピクセルが、二次元空間における画像のアドレス可能な要素を表し得るように、ボクセルは、三次元空間におけるアドレス可能な要素を表す。
【0061】
いくつかの実装では、画像の特徴は、三次元畳み込み層および最大プーリング層を介して抽出されてもよい。三次元畳み込み層における三次元フィルタは、20個のアミノ酸微小環境を分離するために局所的な生化学的特徴を最も良く捕捉する反復空間パターンを検索する。最大プーリング層は、入力へのダウンサンプリングを実施し、ネットワークの並進不変性を高める。畳み込みニューラルネットワークアーキテクチャについて、以下でさらに考察される。
【0062】
第1の畳み込み層121は、フィルタを介して低レベルの特徴を検出する。畳み込みニューラルネットワークは、畳み込みを使用して、データセットの特徴を強調する。畳み込みニューラルネットワークの畳み込み層において、フィルタが三次元アレイに適用されて、特徴マップを生成する。畳み込み層において、フィルタは、入力およびフィルタの要素毎のドット積上をスライドし、入力は、特徴マップとして記憶される。いくつかの実施形態では、3×3×3フィルタが、三次元画像に適用されてもよい。
【0063】
畳み込みフィルタおよび画像からの特徴マップは、102によって示される。いくつかの実施形態では、参照フレームは、画像中の中央のアミノ酸の周囲に作成されてもよく、特徴は、その中央のアミノ酸の周囲に抽出されてもよい。画像およびフィルタの畳み込みから作成された特徴マップは、画像中のフィルタ固有の特徴の存在を要約する。画像に適用されるフィルタの数を増加させると、追跡され得る特徴の数が増加する。102において、100個のフィルタを適用して、18×18×18の特徴マップを作成した。他の実装では、他の数のフィルタが用いられてもよい。得られる特徴マップは、その後、特徴の非線形パターンを説明するために、活性化関数を通過してもよい。
【0064】
いくつかの実装では、式f(x)=max(0,x)を有する正規化線形関数が、活性化関数として特徴マップに適用されてもよい。正規化線形活性化関数は、正の値に対して線形に挙動し、この関数を最適化が容易なものにし、その後、ニューラルネットワークが高い予測精度を達成することを可能にする。また、正規化線形活性化関数は、任意の負の入力に対してゼロを出力し、それが真の線形関数ではないことを意味する。したがって、畳み込みニューラルネットワーク内の畳み込み層の出力は、特徴マップであり、特徴マップ内の値は、正規化線形活性化関数を通過し得る。
【0065】
第2の畳み込み層が122に例示される。畳み込み層の数を増加させると、追跡され得る特徴の複雑性が高まり得る。122における畳み込み層は、特徴を追跡するために別の100個のフィルタを組み込む。いくつかの実施形態では、フィルタは、追跡された特徴の精度を確実にするために、第1の畳み込み層におけるものと同じである。代替の実施形態では、異なるフィルタが、第2の畳み込み層に組み込まれてもよい。いくつかの実施形態では、中央のアミノ酸に関連する原子は、フィルタを介して除去されてもよい。
【0066】
いくつかの実装では、寸法16×16×16のより小さいデータセットが103によって示される(他の実装では、他の寸法が利用され得るか、またはより多数もしくはより少数のフィルタが適用される)。第2の畳み込み層における畳み込みのドット積は、データセットのサイズを縮小する。データセット103は、元のタンパク質画像101からの複雑な特徴を追跡した特徴マップを含む。
【0067】
いくつかの実装では、寸法2×2×2の第1のプーリング層が、123で実装されてもよい。プーリング層は、データをダウンサンプリングするために実装されてもよい。プーリングウィンドウが、特徴マップに適用されてもよい。いくつかの実施形態では、プーリング層は、ウィンドウ内のデータの最大値を出力し、ウィンドウ内のデータをダウンサンプリングする。最大プーリングは、プーリングウィンドウで最も顕著な特徴を強調する。他の実施形態では、プーリング層は、ウィンドウ内のデータの平均値を出力する。
【0068】
104におけるダウンサンプリングされたデータは、200個の独立した8×8×8アレイを表す。データをダウンサンプリングすることにより、ニューラルネットワークは関連情報を保持することが可能になる。大量のデータを有することは、以下でさらに考察されるように、ネットワークがその重みの精度を微調整することを可能にするために有利であり得るが、大量のデータにより、ニューラルネットワークは、かなりの処理時間を費やす可能性がある。データをダウンサンプリングすることは、ネットワークで必要なコンピュータ計算を低減するために、ニューラルネットワークにおいて重要であり得る。寸法2×2×2のプーリング層123、および寸法8×8×8のダウンサンプリングされたデータとともに示されるが、他の実装では、他のサイズのプーリングウィンドウおよびダウンサンプリングされたデータが利用されてもよい。
【0069】
いくつかの実装では、後続の畳み込み層124は、200個の独立した2×2×2フィルタを使用して、ダウンサンプリングされたデータを再処理し、新たな特徴マップ内の特徴を強調する。3×3×3とは対照的に、より小さいフィルタである2×2×2は、ダウンサンプリングされたデータを説明するために、124において畳み込み層で実装される。畳み込みフィルタの深さは、ドット積行列の乗算をうまく実施するために、データの深さと同じであるべきである。他の実装では、上で考察されたように、他のサイズまたは寸法のフィルタが利用されてもよい。
【0070】
畳み込み層124および画像からの特徴マップは、105に示される。ダウンサンプリングされたデータおよびフィルタの畳み込みから作成された特徴マップは、画像中のフィルタ固有の特徴の存在を要約する。105に例示される実装では、200個の独立した7×7×7アレイがある。畳み込みからのドット積は、データのサイズをさらに縮小する。
【0071】
畳み込み層125は、図示されるように、低解像度データセット105から400個の独立した2×2×2フィルタを使用することなどによって、追加のフィルタを使用して、より複雑な特徴を抽出し得る。画像に適用されるフィルタの数を増加させると、追跡され得る特徴の数が増加する。このデータは、プール層123からダウンサンプリングされ、実質的にサイズが縮小されているため、より多くのフィルタがこの畳み込み層で適用されて、膨大な処理またはメモリ要件の必要なしに、タンパク質101の画像の特徴を抽出および強調し得る。
【0072】
畳み込み層125からの特徴マップは、106に示される。ダウンサンプリングされたデータおよびフィルタの畳み込みから作成された特徴マップは、画像中のフィルタ固有の特徴の存在を要約する。106に例示される実装では、400個の独立した6×6×6アレイがあるが、様々な実装において、他の数またはサイズのアレイが利用され得る。畳み込みからのドット積は、データのサイズをさらに縮小する。
【0073】
いくつかの実装では、寸法2×2×2(または任意の他の適切な寸法サイズ)を有する第2のプーリング層が、126において実装されて、データをさらにダウンサンプリングする。いくつかの実施形態では、同じタイプのプーリング層が、第1のプーリング層で実装されたように第2のプーリング層で実装されてもよい。プーリング層のタイプによって、データをダウンサンプリングするために使用されるプーリングウィンドウが決定される。例えば、最大プーリング層は、123および126において実装され得る。他の実施形態では、異なるプーリング層が、畳み込みニューラルネットワークで実装されてもよい。例えば、最大プーリング層は、123において実装されてもよく、平均プーリング層は、126において実装されてもよい。最大プーリング層が、プーリングウィンドウで最も顕著な特徴を強調する一方で、平均プーリング層は、ウィンドウのデータの平均値を出力する。
【0074】
例示された実装では、107におけるダウンサンプリングされたデータは、400個の独立した3×3×3アレイを表すが、他の数または寸法のアレイが利用されてもよい。大量のデータを有することは、以下でさらに考察されるように、ネットワークがその重みの精度を微調整することを可能にするために有利であり得るが、大量のデータにより、ニューラルネットワークは、かなりの処理時間を費やす可能性がある。データをダウンサンプリングすることは、ネットワークで必要なコンピュータ計算を低減するために、ニューラルネットワークにおいて有用であり得る。
【0075】
データのサイズを縮小すると、データは、いくつかの実装ではさらに平坦化されてもよく、データが、一次元ベクトルに配置され得ることを意味する。データは、完全に接続された層で発生する行列の乗算の目的のために平坦化される。したがって、完全に接続された層127は、長さ10800の平坦化された一次元ベクトルを受信してもよい(例えば、ステップ107の400×3×3×3アレイからであるが、ベクトルは、他の実装では異なる長さを有してもよい)。畳み込みニューラルネットワークの完全に接続された層において、一次元ベクトルの各数がニューロンに適用される。ニューロンは、入力を合計し、活性化関数を適用する。いくつかの実施形態では、活性化関数は、正規化線形関数である。代替の実施形態では、活性化関数は、双曲線正接またはシグモイド関数であってもよい。
【0076】
例示される実装では、第1の完全に接続された層127は、長さ10800の108における一次元ベクトルを出力する(ただし、上で考察されたように、他の長さが利用されてもよい)。完全に接続された層によって出力されるベクトルは、実数のベクトルを表す。いくつかの実施形態では、実数は、出力および分類されてもよい。他の実施形態では、実数は、畳み込みニューラルネットワークの精度を改善するために、後続の完全に接続された層にさらに入力されてもよい。
【0077】
本実施形態では、第1の完全に接続された層108の出力は、128において示される第2の完全に接続された層に入力される。第1の完全に接続された層108の出力は、すでに一次元ベクトルであるため、後続の完全に接続された層に入力される前に平坦化される必要はない。いくつかの実施形態では、ニューラルネットワークの精度を改善するために、追加の完全に接続された層が実装される。追加の完全に接続された層の数は、ニューラルネットワークを実行するコンピュータの処理能力によって制限され得る。あるいは、完全に接続された層の追加は、追加の完全に接続された層を処理するためのコンピュータ計算時間の増加と比較して、精度のわずかな増加によって制限され得る。
【0078】
例示される実装では、第2の完全に接続された層128は、109において長さ1000の一次元ベクトルを出力する(ただし、他の長さが利用されてもよい)。完全に接続された層によって出力されるベクトルは、実数のベクトルを表す。いくつかの実施形態では、実数は、出力および分類されてもよい。他の実施形態では、実数は、畳み込みニューラルネットワークの精度を改善するために、後続の完全に接続された層にさらに入力されてもよい。
【0079】
129において、いくつかの実装では、完全に接続された層109の出力は、ソフトマックス分類器に入力される。ソフトマックス分類器は、ソフトマックス関数または正規化された指数関数を使用して、実数の入力を、予測された出力クラスに対する正規化された確率分布に変換する。代替の実施形態では、シグモイド関数を使用して、畳み込みニューラルネットワークの出力を分類してもよい。シグモイド関数は、1つのクラスがある場合に使用され得る。ソフトマックス関数は、マルチクラスシグモイド関数である。
【0080】
110において、ソフトマックス層の出力は、20個の特定されたアミノ酸の各々が標的タンパク質の特性を改善する確率である(ただし、より多数またはより少数のアミノ酸が、他の実装で利用されてもよい)。この出力は、追加の畳み込みニューラルネットワークが、予測アミノ酸配列を所与として異なるクエリを実施することができるように、追加の畳み込みニューラルネットワークに入力されてもよく、または出力110は、標的タンパク質の特性を改善する予測アミノ酸として直接使用されてもよい。
【0081】
図1Bは、微小環境の中心におけるアミノ酸残基を決定するための方法の実装のフローチャートである。ニューラルネットワークが、特定の入力を所与として出力を分類する方法を学習できるように、ニューラルネットワークは、既知の入力/出力の対について訓練されてもよい。いったんニューラルネットワークが、既知の入力/出力の対を分類する方法を学習すると、ニューラルネットワークは、分類された出力が何であるべきかを予測するために未知の入力で動作することができる。本実施形態では、ニューラルネットワークは、微小環境の中心におけるアミノ酸を予測するように訓練される。試験中、ニューラルネットワークは、アミノ酸配列が提供され、アミノ酸の周囲の微小環境を分析し、天然アミノ酸残基とは異なるアミノ酸残基を予測し得る。ニューラルネットワークの予測アミノ酸は、改善されたタンパク質が、天然アミノ酸残基を予測アミノ酸残基に変異させることによって生成され得ることを示す。
【0082】
ステップ130において、いくつかの実装では、ニューラルネットワークを訓練するために使用される多様なタンパク質サンプルセットがコンパイルまたは構築されてもよい。サンプルセットがより多様であるほど、ニューラルネットワークは、その分類においてより堅牢になり得る。例えば、ニューラルネットワークは、学習の第1の反復中に入力/出力の対を分類しようと試みる。次の学習の反復中に、入力/出力の対が、第1の反復の学習された入力/出力の対と類似している場合、ニューラルネットワークは、ニューラルネットワークが堅牢であるためではなく、単にデータが類似しているために機能するはずであるよりも高く人工的に機能し得る。多様な入力/出力の対が、その後、第3の反復のためにネットワークに入力される場合、分類誤差は、最初の2つの入力/出力の対が多様であった場合よりもはるかに大きくなる可能性が高い。最初の2つの入力/出力の対の類似性によって、ニューラルネットワークが、最初の2つの反復の類似した入力/出力の対を学習するようにそれ自体を微調整する可能性がある。これは、ネットワークを「過剰訓練すること」と呼ばれ得る。
【0083】
あるいは、訓練の第2の反復が、第1の反復の入力/出力の対と比較して別個の入力/出力の対を使用した場合、ニューラルネットワークは、より広範な入力/出力の対を分類することが可能であるように強制される。試験中、出力は既知ではないため、ネットワークが幅広い入力/出力の対を分類することが可能であることが理想的である。
【0084】
したがって、ステップ130のいくつかの実装では、ニューラルネットワークのための訓練データセットは、ある閾値にわたってすべて系統発生的に分岐しているタンパク質から構築される。様々な実施形態では、データセットは、少なくとも20%、30%、40%、または50%系統発生的に分岐しているタンパク質から構築される。そのようなフィルタリングは、訓練セットで何度も生じ得る非常に類似/重複したタンパク質を除去することによって、効率を高める。そのような改善は、過剰サンプリングされたタンパク質に対する現在の技術水準で存在するバイアスを低減し得る。
【0085】
いくつかの実施形態では、訓練データセット中の個々のタンパク質を、注釈を欠いたそれらのタンパク質データベース(PDB)構造に水素原子を付加することによって修飾した。一実施形態では、水素原子の付加は、ソフトウェア変換器、例えば、pdb2pqrを使用して達成される。別の実施形態では、原子は、各原子の結合能力、およびDNA骨格中のリンなどの他の原子の含有によってさらに分離される。
【0086】
いくつかの実施形態では、訓練セット中の個々のタンパク質を、部分電荷、ベータ因子、二次構造、芳香族性、および極性を含むがこれに限定されない、タンパク質の追加の特性を考慮に入れて、タンパク質モデルに生物物理学的チャネルを付加することによって修飾した。
【0087】
いくつかの実施形態では、同じタンパク質の高解像度モデルおよび低解像度モデルが、タンパク質データベース内に共存し得る場合、訓練データは、除去されてもよい。本明細書で考察される方法のいくつかの実装によると、閾値を下回る解像度の関連構造を有するすべての遺伝子は、あるパーセンテージ閾値を超える配列類似性を有する群に一緒にグループ分けされてもよい。本明細書で使用される場合、「解像度」は、典型的にはオングストローム(A)で測定される分子の電子密度マップの解像性を指す。電子密度マップは、点間のより低い距離に解像可能であり、分子構造のより多くの特徴が見えることを意味するため、「より低い」解像度を有する分子モデルは、「より高い」解像度を有する分子モデルよりも高い品質である。一例では、関連構造、ならびに2.5Å未満の解像度および少なくとも50%の配列類似性を有するすべての遺伝子が、一緒にグループ分けされ、最低の解像度を有する利用可能な構造が、訓練モデルで使用するために選択され、より高い解像度(より低品質)の分子モデルは、除去される。
【0088】
いくつかの実施形態では、アミノ酸サンプリングを、20個すべてのアミノ酸の等しい表現とは対照的に、システインに対してPDBにおけるその存在量で正規化した。一実施形態では、アミノ酸サンプリングは、自然発生に対して正規化されてもよい。一実施形態では、アミノ酸サンプリングは、所与の種内の自然発生に対して正規化されてもよい。システインは、任意の所与の位置で高い確率が人工的に割り当てられ得るため、システインアミノ酸をデータサンプル中で修飾した。システインは、PDBで観察される最も希少なアミノ酸であり、したがって、より豊富なアミノ酸が過少サンプリングされ、占有する可能性があるタンパク質微小環境の多様性が不完全に表されていた可能性がある。データサンプル中のシステインアミノ酸を修飾することは、野生型の精度の有意な増加をもたらした。アミノ酸毎に、精度は、96.7%~32.8%の範囲である(図2Aを参照されたい)。
【0089】
ステップ131において、タンパク質中のアミノ酸は、アミノ酸配列からランダムにサンプリングされてもよい。一実施形態では、タンパク質中のアミノ酸の最大50%を、タンパク質が大きい場合を除いてサンプリングし、その場合、個々のタンパク質から100個以下のアミノ酸をサンプリングした。別の実施形態では、上限は、個々のタンパク質当たり200個のアミノ酸であった。開示されたサンプリング方法は、タンパク質の外側の残基に対するデータセットのバイアスを除去する。
【0090】
ステップ132において、タンパク質結晶構造の三次元モデルは、構造を含む各アミノ酸に関連する微小環境とともに作成され得る。例えば、三次元モデルを生成するためのいくつかの方法としては、他にも方法があるが、未知のタンパク質モデルが既知のタンパク質構造から取られる候補断片のプールから構築される場合の断片集合、既知のタンパク質セグメントがアミノ酸配列に一致する場合のセグメント一致、または既知のタンパク質モデルが選択され(「テンプレート」)、アミノ酸配列の残基がテンプレート配列中の残基にマッピングされ(アライメント)、配列中の様々な距離、角度、および二面角への拘束がテンプレート構造とのアライメントから導出され、拘束の違反が最小化される場合の空間的拘束の達成に基づく比較タンパク質モデリングが挙げられる。タンパク質結晶構造の三次元モデルが生成されると、構造を含む各アミノ酸に関連する微小環境も生成される。既存のタンパク質構造データベースの1つの障害は、新たなタンパク質が付加される際に、結晶構造を作成するために異なる方法が使用されることである。三次元構造を作成する異なる方法は、モデルの精度に影響を与える可能性がある異なるバイアスまたはアーチファクトを追加し得る。同じ方法の最新で、同じバージョンを使用して構造を再構築することにより、訓練構造が、より古いバージョンに存在するアーチファクトまたは誤差ではなく、化学組成で変化することが確実になる。
【0091】
ステップ133において、ステップ132から生成された三次元モデルが、三次元アレイにマッピングされてもよい。一例では、三次元モデルの座標は、三次元アレイに記憶される。いくつかの実施形態では、三次元画像は、三次元モデルから生成されてもよく、三次元画像は、三次元アレイにマッピングされてもよい。アレイ内の画像データは、ボクセル化マトリックスと呼ばれ得る。ピクセルが、二次元空間における画像のアドレス可能な要素を表すように、ボクセルは、三次元空間におけるアドレス可能な要素を表す。
【0092】
ステップ134において、画像は、畳み込みニューラルネットワーク内の畳み込み層に入力される。畳み込み層は、フィルタを介して画像の特徴を検出する。フィルタは、画像内の特定の特徴の存在を検出するよう設計されている。単純化された例では、ハイパスフィルタは、高周波信号の存在を検出する。ハイパスフィルタの出力は、高周波を有する信号の部分である。同様に、画像フィルタは、画像内の特定の特徴を追跡するように設計され得る。画像に適用されるフィルタの数が多いほど、追跡され得る特徴も多くなる。
【0093】
ステップ135において、画像は、畳み込み層内のフィルタと畳み込みされて、画像内のフィルタ固有の特徴を抽出する。畳み込み層において、フィルタは、入力およびフィルタの要素毎のドット積上をスライドし、入力は、特徴マップとして記憶される。
【0094】
136における決定は、より多くのフィルタがあるかどうかに依存する。上で考察されたように、実装されたより多くのフィルタは、画像内で追跡され得るより多くの特徴を意味し得る。各フィルタは、独立して画像と畳み込まれて、独立した特徴マップを作成する。より多くのフィルタが画像と畳み込まれる場合、ステップ134および135が繰り返され得る。フィルタのすべてが画像と畳み込まれている場合、プロセスは、ステップ137に進む。いくつかの実施形態では、特徴マップは、一緒に連結されて、画像に適用されるフィルタの数と同程度に深い特徴マップを作成し得る。他の実施形態では、特徴マップは、一度に1つずつ処理されてもよい。
【0095】
ステップ137において、活性化関数が、畳み込みニューラルネットワークの畳み込み層の特徴マップに適用される。活性化関数は、ニューラルネットワークが抽出された特徴マップ内の非線形パターンを検出することを可能にする。式f(x)=max(0,x)を有する正規化線形関数が、特徴マップに適用されてもよい。正規化線形活性化関数は、正の値に対して線形に挙動し、この関数を最適化が容易なものにし、その後、ニューラルネットワークがより高い精度を達成することを可能にする。また、正規化線形活性化関数は、任意の負の入力に対してゼロを出力し、それが真の線形関数ではないことを意味する。したがって、畳み込みニューラルネットワーク内の畳み込み層の出力は、特徴マップであり、特徴マップ内の値は、正規化線形活性化関数を通過している。
【0096】
138における決定は、さらなる畳み込み層があるかどうかに依存する。畳み込み層の数を増加させると、追跡され得る特徴の複雑性が高まり得る。追加の畳み込み層がある場合、新たなフィルタが画像に適用され得、プロセスは、ステップ134~138を繰り返し得る。いくつかの実施形態では、フィルタは、追跡された特徴の精度を確実にするために、第1の畳み込み層におけるものと同じであってもよい。代替の実施形態では、異なるフィルタが、第2の畳み込み層に組み込まれてもよい。さらなる畳み込み層がない場合、プロセスは、ステップ139に進む。
【0097】
ステップ139において、プーリング層が、データをダウンサンプリングする。プーリングウィンドウが、特徴マップに適用されてもよい。いくつかの実施形態では、プーリング層は、ウィンドウ内のデータの最大値を出力し、ウィンドウ内のデータをダウンサンプリングする。最大プーリングは、プーリングウィンドウで最も顕著な特徴を強調する。他の実施形態では、プーリング層は、ウィンドウ内のデータの平均値を出力する。
【0098】
140における決定は、さらなる畳み込み層があるかどうかに依存する。畳み込み層の数を増加させると、追跡され得る特徴の複雑性が増大し得る。追加の畳み込み層がある場合、新たなフィルタが画像に適用され得、プロセスは、ステップ134~140を繰り返し得る。いくつかの実施形態では、フィルタは、追跡された特徴の精度を確実にするために、第1の畳み込み層におけるものと同じである。代替の実施形態では、異なるフィルタが、第2の畳み込み層に組み込まれてもよい。したがって、ステップ134~136、134~138、および134~140の繰り返される反復は、追跡された特徴の柔軟性および増大した複雑性を提供する。さらなる畳み込み層がない場合、プロセスは、ステップ141に進む。
【0099】
ステップ141において、いくつかの実装では、ダウンサンプリングされたデータが平坦化される。これは、データが、一次元ベクトルに配置されることを意味する。データは、完全に接続された層で発生する行列の乗算の目的のために平坦化される。
【0100】
ステップ142において、いくつかの実装では、平坦化された一次元ベクトルは、ニューラルネットワークの完全に接続された層に入力される。畳み込みニューラルネットワークの完全に接続された層において、一次元ベクトルの各数が、入力としてニューロンに適用される。ニューロンは、入力を合計し、活性化関数を適用する。いくつかの実施形態では、活性化関数は、正規化線形関数である。代替の実施形態では、活性化関数は、双曲線正接またはシグモイド関数であってもよい。
【0101】
いくつかの実施形態では、完全に接続された層内のニューロンの第1のセットの出力は、重みを介してニューロンの別のセットに入力されてもよい。ニューロンの後続の各セットは、ニューロンの「隠れ層」と称され得る。完全に接続された中の隠れ層の数は、取り除かれてもよい。言い換えれば、ニューラルネットワーク内の隠れ層の数は、ニューロンネットワークが出力を分類する方法を学習するにつれて適応的に変化し得る。
【0102】
ステップ143において、いくつかの実装では、完全に接続されたネットワークを含むニューロンは、重みによって他のニューロンに接続される。重みは、一部のニューロンの効果を強化し、他のニューロンの効果を弱めるように調整される。各ニューロンの強度の調整により、ニューラルネットワークは、出力をより良く分類することが可能になる。ニューロンを接続する重みは、ニューラルネットワークが入力または「訓練」を分類する方法を学習している間に調整される。いくつかの実施形態では、ニューラルネットワーク内のニューロンの数は、取り除かれてもよい。言い換えれば、ニューラルネットワーク内でアクティブであるニューロンの数は、ニューラルネットワークが出力を分類する方法を学習するにつれて適応的に変化する。
【0103】
144における決定は、追加の完全に接続された層があるかどうかに依存する。いくつかの実施形態では、1つの完全に接続された層の出力は、第2の完全に接続された層への入力になり得る。いくつかの実施形態では、ニューラルネットワークの精度を改善するために、追加の完全に接続された層が実装される。追加の完全に接続された層の数は、ニューラルネットワークを実行するコンピュータの処理能力によって制限され得る。あるいは、完全に接続された層の追加は、追加の完全に接続された層を処理するためのコンピュータ計算時間の増加と比較して、精度のわずかな増加によって制限され得る。代替の実施形態では、1つの完全に接続された層の出力は、画像を分類するのに十分であり得る。追加の完全に接続された層がある場合、ステップ142および143は、入力ベクトルが、重みを介して互いに接続されるニューロンに供給されるように繰り返される。追加の完全に接続された層がない場合、プロセスは、ステップ145に進む。
【0104】
ステップ145において、いくつかの実装では、完全に接続された層は、実数のベクトルを出力する。いくつかの実施形態では、実数は、出力および分類されてもよい。代替の実施形態では、完全に接続された層の出力は、ソフトマックス分類器に入力される。ソフトマックス分類器は、ソフトマックス関数または正規化された指数関数を使用して、実数の入力を、予測された出力クラスに対する正規化された確率分布に変換する。他の実施形態では、シグモイド関数を使用して、畳み込みニューラルネットワークの出力を分類してもよい。シグモイド関数は、1つのクラスがある場合に使用され得る。ソフトマックス関数は、マルチクラスシグモイド関数である。いくつかの実施形態では、ニューラルネットワークの出力は、化学的微小環境の中心における予測アミノ酸残基を表す。
【0105】
例えば、ニューラルネットワークは、20個の実数を含む20の長さのベクトルを出力してもよい。ベクトルは、20の長さを有し、これは、20個の可能性のあるアミノ酸が微小環境の中心に存在し得るためである。ベクトル内の値が、微小環境の中心に存在するアミノ酸の可能性を表すように、ベクトル内の実数は、ソフトマックス分類器を通過する。
【0106】
ステップ146において、いくつかの実装では、予測アミノ酸残基は、化学環境の中心における天然アミノ酸と比較される。例えば、真のアミノ酸ベクトルは、長さ20のベクトルであってもよく、単一の「1」は、化学環境の中心における天然アミノ酸を示し、ベクトル内の他の値は、「0」を保持する。
【0107】
訓練中の既知の入力/出力の対を比較する学習である、ニューラルネットワークにおけるこのタイプの学習は、教師あり学習と呼ばれる。予測値と既知の値との間の差が決定され得、情報は、ニューラルネットワークを介して逆伝播される。重みは、その後、誤差信号によって修正されてもよい。ニューラルネットワークを訓練するこの方法は、逆伝播法と呼ばれる。
【0108】
ステップ147において、いくつかの実装では、重みは、最急降下法を介して更新される。以下の方程式1は、重みが各反復nでどのように調整されるかを示す。
【数1】

上の方程式1中、wjiは、ニューロンiをニューロンjに接続する重みを表す。
【0109】
最急降下法は、目的関数を最小化する最適化技術である。言い換えれば、最急降下法は、最急降下の方向に未知のパラメータを調整することが可能である。訓練中、ニューラルネットワークの分類精度を最適化する重みの値は、未知である。したがって、重みは、最急降下の方向に調整される未知のパラメータである。
【0110】
いくつかの実施形態では、目的関数は、交差エントロピー誤差関数であってもよい。交差エントロピー誤差関数を最小化することは、予測アミノ酸ベクトルの確率分布と天然アミノ酸ベクトルの確率分布との間の差を最小化することを表す。いくつかの実施形態では、目的関数は、二乗誤差関数であってもよい。二乗誤差目的関数を最小化することは、各ニューロンの瞬時誤差を最小化することを表す。
【0111】
各訓練の反復中、重みは、その最適値に近づくように調整される。ネットワーク内のニューロンの位置に応じて、異なる式を使用して、重みが目的関数に対してどのように調整されるかを決定する。以下の方程式2は、ニューロンiとニューロンjとの間の重みが、交差エントロピー誤差関数に対してどのように調整されるかを示す。
【数2】

重みが小さすぎ、ニューロンの出力が、分類に大きい影響を与えている可能性がないことを意味する場合、小さい重みが最適重みと比較されるときの重みの負の傾きおよび方程式中の負号により、重みの正の変化がある。重みが大きすぎる場合、大きい重みが最適重みと比較されるときの重みの正の傾きおよび方程式中の負号により、重みの負の変化がある。したがって、重みは、最適な値に近づくようにそれ自体を訓練する。重みの修正は、ステップ147によって示されるように、一時的に記憶されてもよい。
【0112】
いくつかの実施形態では、重みの修正が決定される度に、重みが調整されてもよい。このタイプの訓練は、オンラインまたはインクリメンタル訓練と呼ばれ得る。インクリメンタル訓練の1つの利点としては、入力の小さい変化を追跡するニューラルネットワークの能力が挙げられる。いくつかの実施形態では、重みは、ニューラルネットワークが入力/出力の対のバッチを受信した後に修正されてもよい。このタイプの訓練は、バッチ訓練と呼ばれ得る。バッチ訓練の1つの利点としては、最適化された重み値へのニューラルネットワークのより迅速な収束が挙げられる。本実施形態では、ニューラルネットワークを、160万個のアミノ酸および微小環境の対について訓練した。本実施形態では、20のバッチサイズを使用した。ステップ148において、カウンターがインクリメントされる。ニューラルネットワークは、カウンターが20に達すると、バッチ訓練の1ラウンドを完了する。言い換えれば、ニューラルネットワークが20個の入力/出力の対に基づいてそれ自体を評価すると、訓練の1ラウンドが完了する。
【0113】
149における決定は、訓練サンプルの現在のバッチが完了したかどうかに依存する。1つのバッチを満たすために必要な訓練サンプルの数が達成された場合、ネットワークは、ステップ150に進む。上で考察されたように、1バッチの訓練には20個の入力/出力の対が必要である。1つのバッチを満たすために必要なサンプルの数が達成されていない場合、ニューラルネットワークは、ステップ134~149を繰り返す。
【0114】
ステップ150において、ステップ147において一時的に記憶された重みの修正が合計される。重みの値は、20個の入力/出力の対の新たなバッチが新しく修正された重み値を使用して評価されるように、合計された修正に従って修正される。
【0115】
151における決定は、訓練の反復の最大数に達したかどうかに依存する。バッチ訓練の1ラウンドが完了すると、1回の訓練の反復が完了する。いくつかの状況では、重みがその最適値の周囲を行ったり来たりし続けるため、重みは、その最適値に決して到達しない可能性がある。したがって、いくつかの実施形態では、ニューラルネットワークがネットワークを無期限に訓練することを防止するように、最大反復回数が設定され得る。
【0116】
最大反復数に達していない場合、ニューラルネットワークは、ステップ130で作成されたデータサンプルからの別の入力/出力の対を使用して、ネットワークを再び訓練することを許可され得る。反復カウンターは、ニューラルネットワークが訓練の1バッチを完了した後、ステップ153において増加する。
【0117】
最大反復数に達した場合、ニューラルネットワークは、重みの値を記憶し得る。ステップ152は、重みの値を記憶することを示す。これらの重みは、ネットワークによって訓練されている重みであり、その後、ニューラルネットワークを試験するときに使用されるため、メモリに記憶される。
【0118】
反復数に達していない場合、予測アミノ酸残基と既知の天然アミノ酸残基との間の誤差が評価されてもよい。この評価は、ステップ154において実施される。いくつかの状況では、予測値と既知の天然の値との間の誤差は、非常に小さいため、誤差は、許容可能であるとみなされ得、ニューラルネットワークは、訓練を続ける必要はない。これらの状況では、そのような小さい誤差率をもたらした重みの値が記憶され、その後、試験で使用されてもよい。いくつかの実施形態では、ニューラルネットワークは、ニューラルネットワークが、1つの出力を非常に良好に予測するか、または1つの出力を非常に良好に誤って予測する方法を学習しなかったことを確実にするために、数回の反復に対して小さい誤差率を維持しなければならない。数回の反復にわたって小さい誤差を維持するようネットワークに要求すると、ネットワークが多様な入力範囲を適切に分類している可能性が高くなる。予測値と既知の値との間の誤差がまだ大きすぎる場合、ニューラルネットワークは、それ自体を訓練し続け、ステップ131~154を繰り返し得る。多くの実装では、ステップ131~154の繰り返しの反復中、ニューラルネットワークは、新たなデータセットを使用して、ニューラルネットワークを訓練する。
【0119】
図1Cは、試験中に合成タンパク質特性を高めるための方法の実装のフローチャートである。ステップ160において、訓練シナリオから記憶された重みは、ステップ172において完全に接続された層の重みとして設定される。これらの重みは、重みが未知の入力を正確に分類することが可能である可能性が高くあるべきであるように、重みが広範かつ多様な入力セットを介して訓練されているため、未知の入力が分類される必要がある場合に使用される。
【0120】
ステップ161において、いくつかの実装では、未知のタンパク質が、ランダムにサンプリングされる。一実施形態では、タンパク質中のアミノ酸の最大50%が、タンパク質が大きい場合を除いてサンプリングされ、その場合、個々のタンパク質から100個以下のアミノ酸をサンプリングした。別の実施形態では、上限は、個々のタンパク質当たり200個のアミノ酸である。開示されたサンプリング方法は、タンパク質の外側の残基に対するデータセットのバイアスを除去する。
【0121】
ステップ162において、タンパク質結晶構造の三次元モデルは、構造を含む各アミノ酸に関連する微小環境とともに作成され得る。三次元モデルを生成するためのいくつかの方法としては、他にも方法があるが、未知のタンパク質モデルが既知のタンパク質構造から取られる候補断片のプールから構築される場合の断片集合、既知のタンパク質セグメントがアミノ酸配列に一致する場合のセグメント一致、または既知のタンパク質モデルが選択され(「テンプレート」)、アミノ酸配列の残基がテンプレート配列中の残基にマッピングされ(アライメント)、配列中の様々な距離、角度、および二面角への拘束がテンプレート構造とのアライメントから導出され、拘束の違反が最小化される場合の空間的拘束の達成に基づく比較タンパク質モデリングが挙げられる。タンパク質結晶構造の三次元モデルが生成されると、構造を含む各アミノ酸に関連する微小環境も生成される。既存のタンパク質構造データベースの1つの障害は、新たなタンパク質が付加される際に、結晶構造を作成するために異なる方法が使用されることである。三次元構造を作成する異なる方法は、モデルの精度に影響を与える可能性がある異なるバイアスまたはアーチファクトを追加し得る。同じ方法の最新で、同じバージョンを使用して構造を再構築することにより、訓練構造が、より古いバージョンに存在するアーチファクトまたは誤差ではなく、化学組成で変化することが確実になる。
【0122】
ステップ163において、ステップ162から生成された三次元モデルが、三次元アレイにマッピングされてもよい。一例では、三次元モデルの座標は、三次元アレイに記憶される。いくつかの実施形態では、三次元画像は、三次元モデルから生成されてもよく、三次元画像は、三次元アレイにマッピングされてもよい。アレイ内の画像データは、ボクセル化マトリックスと呼ばれ得る。ピクセルが、二次元空間における画像のアドレス可能な要素を表すように、ボクセルは、三次元空間におけるアドレス可能な要素を表す。
【0123】
ステップ164において、画像は、畳み込みニューラルネットワーク内の畳み込み層に入力されてもよい。畳み込み層は、フィルタを介して画像の特徴を検出する。フィルタは、画像内の特定の特徴の存在を検出するよう設計されている。単純化された例では、ハイパスフィルタは、高周波信号の存在を検出する。ハイパスフィルタの出力は、高周波を有する信号の部分である。同様に、画像フィルタは、画像内の特定の特徴を追跡するように設計され得る。画像に適用されるフィルタの数が多いほど、追跡され得る特徴も多くなる。
【0124】
ステップ165において、画像は、畳み込み層内のフィルタと畳み込みされて、画像内のフィルタ固有の特徴を抽出する。畳み込み層において、フィルタは、入力およびフィルタの要素毎のドット積上をスライドし、入力は、特徴マップとして記憶される。
【0125】
166における決定は、より多くのフィルタがあるかどうかに依存する。上で考察されたように、実装されたより多くのフィルタは、画像内で追跡され得るより多くの特徴を意味する。各フィルタは、独立して画像と畳み込まれて、独立した特徴マップを作成する。より多くのフィルタが画像と畳み込まれる場合、ステップ164および165が繰り返され得る。フィルタのすべてが画像と畳み込まれている場合、プロセスは、ステップ167に進む。いくつかの実施形態では、特徴マップは、一緒に連結されて、画像に適用されるフィルタの数と同程度に深い特徴マップを作成し得る。他の実施形態では、特徴マップは、一度に1つずつ処理されてもよい。
【0126】
ステップ167において、いくつかの実装では、活性化関数が、畳み込みニューラルネットワークの畳み込み層の特徴マップに適用される。活性化関数は、ニューラルネットワークが抽出された特徴マップ内の非線形パターンを検出することを可能にする。式f(x)=max(0,x)を有する正規化線形関数が、活性化関数として特徴マップに適用されてもよい。正規化線形活性化関数は、正の値に対して線形に挙動し、この関数を最適化が容易なものにし、その後、ニューラルネットワークが高い予測精度を達成することを可能にする。また、正規化線形活性化関数は、任意の負の入力に対してゼロを出力し、それが真の線形関数ではないことを意味する。したがって、畳み込みニューラルネットワーク内の畳み込み層の出力は、特徴マップであり、特徴マップ内の値は、正規化線形活性化関数を通過し得る。
【0127】
168における決定は、さらなる畳み込み層があるかどうかに依存する。畳み込み層の数を増加させると、追跡され得る特徴の複雑性が増大し得る。追加の畳み込み層がある場合、新たなフィルタが画像に適用され、ステップ164~168が繰り返され得る。いくつかの実施形態では、フィルタは、追跡された特徴の精度を確実にするために、第1の畳み込み層におけるものと同じである。代替の実施形態では、異なるフィルタが、第2の畳み込み層に組み込まれてもよい。さらなる畳み込み層がない場合、プロセスは、ステップ169に進む。
【0128】
ステップ169において、プーリング層が、データをダウンサンプリングする。プーリングウィンドウが、特徴マップに適用されてもよい。いくつかの実施形態では、プーリング層は、ウィンドウ内のデータの最大値を出力し、ウィンドウ内のデータをダウンサンプリングする。最大プーリングは、プーリングウィンドウで最も顕著な特徴を強調する。他の実施形態では、プーリング層は、ウィンドウ内のデータの平均値を出力する。
【0129】
170における決定は、さらなる畳み込み層があるかどうかに依存する。畳み込み層の数を増加させると、追跡され得る特徴の複雑性が増大し得る。追加の畳み込み層がある場合、新たなフィルタが画像に適用され、ステップ164~170が繰り返され得る。いくつかの実施形態では、フィルタは、追跡された特徴の精度を確実にするために、第1の畳み込み層におけるものと同じである。代替の実施形態では、異なるフィルタが、第2の畳み込み層に組み込まれてもよい。さらなる畳み込み層がない場合、プロセスは、ステップ171に進む。
【0130】
ステップ171において、いくつかの実装では、ダウンサンプリングされたデータが平坦化される。これは、データが、一次元ベクトルに配置されることを意味する。データは、完全に接続された層で発生する行列の乗算の目的のために平坦化される。
【0131】
ステップ172において、いくつかの実装では、平坦化された一次元ベクトルは、ニューラルネットワークの完全に接続された層に入力される。畳み込みニューラルネットワークの完全に接続された層において、一次元ベクトルの各数がニューロンに適用される。ニューロンは、入力を合計し、活性化関数を適用する。いくつかの実施形態では、活性化関数は、正規化線形関数である。代替の実施形態では、活性化関数は、双曲線正接またはシグモイド関数であってもよい。
【0132】
ステップ173において、いくつかの実装では、完全に接続されたネットワークを含むニューロンは、重みが掛けられる。完全に接続されたネットワーク内の重みは、ステップ160において初期化された重みである。これらの重みは、重みが未知の入力を正確に分類することが可能である可能性が高くあるべきであるように、重みが広範かつ多様な入力セットを介して訓練されているため、未知の入力が評価される場合に使用される。
【0133】
174における決定は、追加の完全に接続された層があるかどうかに依存する。いくつかの実施形態では、1つの完全に接続された層の出力は、第2の完全に接続された層への入力になり得る。いくつかの実施形態では、ニューラルネットワークの精度を改善するために、追加の完全に接続された層が実装される。追加の完全に接続された層の数は、ニューラルネットワークを実行するコンピュータの処理能力によって制限され得る。あるいは、完全に接続された層の追加は、追加の完全に接続された層を処理するためのコンピュータ計算時間の増加と比較して、精度のわずかな増加によって制限され得る。代替の実施形態では、1つの完全に接続された層の出力は、画像を分類するのに十分であり得る。追加の完全に接続された層がある場合、ステップ172および173は、入力ベクトルが、重みを介して互いに接続されるニューロンに供給されるように繰り返される。追加の完全に接続された層がない場合、プロセスは、ステップ175に進む。
【0134】
ステップ175において、完全に接続された層は、実数のベクトルを出力する。いくつかの実施形態では、実数は、出力および分類されてもよい。代替の実施形態では、完全に接続された層の出力は、ソフトマックス分類器に入力される。ソフトマックス分類器は、ソフトマックス関数または正規化された指数関数を使用して、実数の入力を、予測された出力クラスに対する正規化された確率分布に変換する。他の実施形態では、シグモイド関数を使用して、畳み込みニューラルネットワークの出力を分類してもよい。シグモイド関数は、1つのクラスがある場合に使用され得る。ソフトマックス関数は、マルチクラスシグモイド関数である。いくつかの実施形態では、ニューラルネットワークの出力は、タンパク質の品質指標を改善するために予測された候補残基およびアミノ酸残基を表す。
【0135】
ステップ176において、合成タンパク質は、ニューラルネットワークの出力に従って生成され得る。合成タンパク質は、ニューラルネットワークを実行するコンピューティングデバイスによって、ニューラルネットワークを実行するコンピューティングデバイスと通信している別のコンピューティングデバイスによって、第三者の製造業者もしくは研究所によって、またはニューラルネットワークによって特定された候補アミノ酸残基および予測アミノ酸残基に従って置換を行う別の実体によって生成され得る。例えば、いくつかの実施形態では、合成タンパク質は、ニューラルネットワークによって、および/またはニューラルネットワークもしくはニューラルネットワークを実行するコンピューティングデバイスの方向で特定される予測アミノ酸残基および候補残基に従って、1つ以上の置換を行う実体によって得られてもよい。いくつかの実施形態では、ニューラルネットワークは、天然アミノ酸残基と同じであるアミノ酸残基を予測し得る。他の実施形態では、ニューラルネットワークは、天然アミノ酸残基とは異なるアミノ酸残基を予測し得る。ニューラルネットワークの予測アミノ酸は、改善されたタンパク質が、天然アミノ酸残基を予測アミノ酸残基に変異させることによって生成され得ることを示す。したがって、合成タンパク質は、ニューラルネットワークの出力に従って生成され得る。
【0136】
図1Dは、いくつかの実装による、訓練中のニューラルネットワークのブロック図である。入力は、180においてニューラルネットワークに供給される。上で考察されたように、ニューラルネットワークは、様々な入力を受け入れることが可能である。いくつかの実施形態では、ニューラルネットワークは、アミノ酸配列または残基を受け入れる。他の実施形態では、ニューラルネットワークは、一連の各位置に位置する離散属性を有する一連のアミノ酸を受信してもよい。
【0137】
ブロック図中、181は、経時的に変化するニューラルネットワークを表す。上で考察されたように、訓練中、ニューラルネットワークは、新たな入力/出力の各反復を適応的に更新する。重みは、予測出力と既知の出力との間の差によって計算された誤差信号に応じて更新されるため、ニューラルネットワークは、適応的に更新される。
【0138】
ブロック図中、182は、ニューラルネットワークが予測する出力が、クエリを満たすことを表す。例えば、ニューラルネットワークは、修飾され得る特定のアミノ酸残基を特定するようにクエリが行われ、訓練されてもよい。これらの状況では、ニューラルネットワークの出力は、アミノ酸残基であってもよく、アミノ酸残基は、改善された特性を有する新たなタンパク質を合成するために使用されてもよい。他の実施形態では、ニューラルネットワークの出力は、置換として使用され得るアミノ酸残基であってもよく、置換は、改善された特性を有する新たなタンパク質を合成するために使用されてもよい。他の実施形態では、ニューラルネットワークは、初期アミノ酸配列とは異なるパラメータのタンパク質についての提案されたアミノ酸配列についてクエリが行われてもよい。これらの状況では、ニューラルネットワークの出力は、アミノ酸配列の各残基についての特定のアミノ酸を示すアミノ酸配列であってもよい。
【0139】
ブロック図中、186は、所望の値を表す。このタイプの訓練は、ニューラルネットワークを訓練するために、出力に対応する入力が既知でなければならないため、教師あり訓練と呼ばれる。訓練中、ニューラルネットワークは、所望の値に可能な限り近い結果を出力するように求められる。
【0140】
所望の値186およびニューラルネットワーク182からの出力値は、185において比較される。出力値と所望の値との間の差が決定され、ニューラルネットワークを通して再び伝播される誤差信号183となるため、ニューラルネットワークは、この誤差から学習することができる。上の方程式1および2に示されるように、重みは、誤差信号に基づいて更新される。
【0141】
図1Eは、いくつかの実装による、畳み込みニューラルネットワークのブロック図である。ブロック図中、190は、畳み込み層を表す。畳み込み層は、フィルタを介して画像の特徴を検出し得る。フィルタは、画像内の特定の特徴の存在を検出するよう設計されている。単純化された例では、ハイパスフィルタは、高周波信号の存在を検出する。ハイパスフィルタの出力は、高周波を有する信号の部分である。同様に、画像フィルタは、画像内の特定の特徴を追跡するように設計され得る。画像に適用されるフィルタの数が多いほど、追跡され得る特徴も多くなる。
【0142】
いくつかの実装では、画像は、畳み込み層内のフィルタと畳み込みされて、画像内のフィルタ固有の特徴を抽出する。畳み込み層において、フィルタは、入力およびフィルタの要素毎のドット積上をスライドし、入力は、特徴マップとして記憶される。活性化関数は、畳み込みニューラルネットワークの畳み込み層の特徴マップに適用される。活性化関数は、ニューラルネットワークが抽出された特徴マップ内の非線形パターンを検出することを可能にする。式f(x)=max(0,x)を有する正規化線形関数が、特徴マップに適用されてもよい。正規化線形活性化関数は、正の値に対して線形に挙動し、この関数を最適化が容易なものにし、その後、ニューラルネットワークが高い予測精度を達成することを可能にする。また、正規化線形活性化関数は、任意の負の入力に対してゼロを出力し、それが真の線形関数ではないことを意味する。したがって、畳み込みニューラルネットワーク内の畳み込み層の出力は、特徴マップであり、特徴マップ内の値は、正規化線形活性化関数を通過している。他の実施形態では、シグモイド関数または双曲線正接関数ガ、活性化関数として適用され得る。
【0143】
活性化関数によって作用されている抽出された特徴マップは、その後、191によって示されるように、プーリング層に入力されてもよい。プーリング層は、データをダウンサンプリングする。プーリングウィンドウが、特徴マップに適用されてもよい。いくつかの実施形態では、プーリング層は、ウィンドウ内のデータの最大値を出力し、ウィンドウ内のデータをダウンサンプリングする。最大プーリングは、プーリングウィンドウで最も顕著な特徴を強調する。
【0144】
ダウンサンプリングされたプーリングデータは、その後、いくつかの実装では、畳み込みニューラルネットワークの完全に接続された層192に入力される前に平坦化され得る。
【0145】
いくつかの実施形態では、完全に接続された層は、ニューロンの1つのセットのみを有してもよい。代替の実施形態では、完全に接続された層は、第1の層193内のニューロンのセット、および後続の隠れ層194内のニューロンのセットを有してもよい。完全に接続された中の隠れ層の数は、取り除かれてもよい。言い換えれば、ニューラルネットワーク内の隠れ層の数は、ニューロンネットワークが出力を分類する方法を学習するにつれて適応的に変化し得る。
【0146】
完全に接続された層において、層193および194の各々のニューロンは、互いに接続される。ニューロンは、重みによって接続される。訓練中、重みは、いくつかのニューロンの効果を強化し、他のニューロンの効果を弱めるように調整される。各ニューロンの強度の調整により、ニューラルネットワークは、出力をより良く分類することが可能になる。いくつかの実施形態では、ニューラルネットワーク内のニューロンの数は、取り除かれてもよい。言い換えれば、ニューラルネットワーク内でアクティブであるニューロンの数は、ニューラルネットワークが出力を分類する方法を学習するにつれて適応的に変化する。
【0147】
訓練後、予測値と既知の値との間の誤差は、非常に小さい可能性があるため、誤差は、許容可能であるとみなされ得、ニューラルネットワークは、訓練を続ける必要はない。これらの状況では、そのような小さい誤差率をもたらした重みの値が記憶され、その後、試験で使用されてもよい。いくつかの実施形態では、ニューラルネットワークは、ニューラルネットワークが、1つの出力を非常に良好に予測するか、または1つの出力を非常に良好に誤って予測する方法を学習しなかったことを確実にするために、数回の反復に対して小さい誤差率を満たさなければならない。数回の反復にわたって小さい誤差を維持するようネットワークに要求すると、ネットワークが多様な入力範囲を適切に分類している可能性が高くなる。
【0148】
ブロック図中、195は、ニューラルネットワークの出力を表す。完全に接続された層の出力は、実数のベクトルである。いくつかの実施形態では、実数は、出力および分類されてもよい。代替の実施形態では、完全に接続された層の出力は、ソフトマックス分類器に入力される。
【0149】
ブロック図中、196は、ソフトマックス分類器層を表す。ソフトマックス分類器は、ソフトマックス関数または正規化された指数関数を使用して、実数の入力を、予測された出力クラスに対する正規化された確率分布に変換する。他の実施形態では、シグモイド関数を使用して、畳み込みニューラルネットワークの出力を分類してもよい。シグモイド関数は、1つのクラスがある場合に使用され得る。ソフトマックス関数は、マルチクラスシグモイド関数である。いくつかの実施形態では、ニューラルネットワークの出力は、タンパク質の品質指標を改善するために予測された候補残基およびアミノ酸残基を表す。他の実施形態では、ニューラルネットワークの出力は、アミノ酸配列の各残基についての特定のアミノ酸を示すアミノ酸配列であってもよい。
【0150】
いくつかの実施形態では、問題のある残基が特定され、複数の独立して訓練されたニューラルネットワークからの予測を組み合わせることによって、新規残基について提案される。独立して訓練されたニューラルネットワークに基づいて残基を特定することによって、ニューラルネットワークが訓練中に現れ、かつ任意の個々のニューラルネットワークに固有である特異性に起因するバイアスが除去され得る。多くの独立したニューラルネットワークの平均は、任意の個々のニューラルネットワークに関連する癖を排除する。
【0151】
既存のアルゴリズムに対する様々な改善により、累積的に精度が改善された。図2Bに示されるように、様々な改善は、総合すると、一実施形態では、野生型アミノ酸予測のモデル精度を、すべてのアミノ酸にわたって約40%から70%超に高めた。
【0152】
操作されたタンパク質
本明細書で考察されるシステムおよび方法の実装は、天然タンパク質または親タンパク質の形質または特性と比較して、タンパク質の所望の形質または特性を修飾する1つ以上の変異を含む操作されたタンパク質を含む組成物をさらに提供または特定する。一実施形態では、本明細書で考察されるシステムおよび方法の実装によって生成または特定される修飾タンパク質は、本明細書で考察されるシステムおよび方法の実装の三次元畳み込みニューラルネットワーク(3DCNN)予測パイプラインによって予測される1つ以上のアミノ酸残基における1つ以上の変異を含んで、所望の形質または特性をタンパク質に付与する。3DCNN予測パイプラインによる分析から予測される残基における変異を含むように生成されている、本明細書で考察されるシステムおよび方法の実装によって生成または特定された操作されたタンパク質は、本明細書において3DCNNで操作されたタンパク質と称される。
【0153】
本明細書で考察されるシステムおよび方法の実装によって生成または特定される3DCNNで操作されたタンパク質中で修飾され得る形質または特性の例としては、安定性、親和性、活性、半減期、蛍光特性、および光退色に対する感受性が挙げられるが、これらに限定されない。
【0154】
本明細書で考察されるシステムおよび方法の実装によって生成または特定される3DCNNで操作されたタンパク質は、化学的方法を使用して作製され得る。例えば、3DCNNで操作されたタンパク質は、固相技術(Roberge J Y et al(1995)Science 269:202-204)によって合成され、樹脂から切断され、分取高速液体クロマトグラフィーによって精製され得る。自動化合成は、例えば、製造業者によって提供される指示に従って、ABI 431 Aペプチド合成装置(Perkin Elmer)を使用して達成され得る。
【0155】
3DCNNで操作されたタンパク質は、代替的に、コード核酸配列の翻訳によって、組換え手段によって、またはより長いタンパク質配列からの切断によって作製されてもよい。3DCNNで操作されたタンパク質の組成は、アミノ酸分析または配列決定によって確認されてもよい。
【0156】
本明細書で考察されるシステムおよび方法の実装によって生成または特定される3DCNNで操作されたタンパク質のバリアントは、(i)アミノ酸残基のうちの1つ以上が、保存または非保存のアミノ酸残基(好ましくは、保存アミノ酸残基)で置換され、そのような置換アミノ酸残基が、遺伝子コードによってコードされてもされなくてもよいもの、(ii)1つ以上の修飾アミノ酸残基、例えば、置換基の付着によって修飾される残基があるもの、(iii)3DCNNで操作されたタンパク質の断片、および/または(iv)3DCNNで操作されたタンパク質が、別のタンパク質またはポリペプチドと融合されるものであってもよい。断片は、元の3DCNNで操作されたタンパク質配列のタンパク質分解切断(多部位タンパク質分解を含む)を介して生成されるポリペプチドを含む。バリアントは、翻訳後にまたは化学的に修飾されてもよい。そのようなバリアントは、本明細書の教示から当業者の範囲内であるとみなされる。
【0157】
当該技術分野で既知のように、2つのポリペプチド間の「類似性」は、1つのポリペプチドのアミノ酸配列およびその保存されたアミノ酸置換を、第2のポリペプチドの配列と比較することによって決定される。バリアントは、元の配列とは異なる、対象となるセグメント当たり残基の40%未満で元の配列とは異なる、対象となるセグメント当たり残基の25%未満で元の配列とは異なる、対象となるセグメント当たり残基の10%未満異なる、または対象となるセグメント当たりわずか数個の残基で元のタンパク質配列とは異なり、かつ同時に、元の配列の機能性および/またはユビキチンもしくはユビキチン化タンパク質に結合する能力を保持するために、元の配列に対して十分に相同である、ポリペプチド配列を含むように定義される。本明細書で考察されるシステムおよび方法の実装を使用して、元のアミノ酸配列に対して少なくとも60%、65%、70%、72%、74%、76%、78%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、または99%類似している、または同一であるアミノ酸配列を生成または特定し得る。2つのアミノ酸配列間の同一性は、好ましくは、BLASTPアルゴリズム[BLAST Manual,Altschul,S.,et al.,NCBI NLM NIH Bethesda,Md.20894,Altschul,S.,et al.,J.Mol.Biol.215:403-410(1990)]を使用することによって決定される。
【0158】
本明細書で考察されるシステムおよび方法の実装によって生成または特定される3DCNNで操作されたタンパク質は、翻訳語修飾され得る。例えば、本明細書で考察されるシステムおよび方法の実装の範囲内に含まれる翻訳後修飾としては、シグナルペプチド切断、グリコシル化、アセチル化、イソプレニル化、タンパク質分解、ミリストイル化、タンパク質フォールディング、およびタンパク質分解処理などが挙げられる。いくつかの修飾または処理事象は、追加の生物学的機械の導入を必要とする。例えば、シグナルペプチド切断およびコアグリコシル化などの処理事象は、イヌのミクロソーム膜またはXenopus卵抽出物(米国特許第6,103,489号)を標準翻訳反応に付加することによって検査される。
【0159】
本明細書で考察されるシステムおよび方法の実装によって生成または特定される3DCNNで操作されたタンパク質は、翻訳後修飾によって、または翻訳中に非天然アミノ酸を導入することによって形成される非天然アミノ酸を含み得る。タンパク質翻訳中に非天然アミノ酸を導入するための様々なアプローチが利用可能である。一例として、サプレッサー特性を有するtRNAであるサプレッサーtRNAなどの特殊なtRNAが、部位特異的非天然アミノ酸置換(SNAAR)のプロセスで使用されている。SNAARでは、タンパク質合成中に非天然アミノ酸を固有の部位に標的化するように作用する、mRNAおよびサプレッサーtRNA上の固有のコドンが必要である(WO90/05785に記載されている)。しかしながら、サプレッサーtRNAは、タンパク質翻訳系に存在するアミノアシルtRNA合酵素によって認識可能であってはならない。特定の場合では、天然アミノ酸を特異的に修飾し、アミノアシル化tRNAの機能的活性を著しく改変しない化学反応を使用して、tRNA分子がアミノアシル化された後、非天然アミノ酸が形成され得る。これらの反応は、アミノアシル化後修飾と称される。例えば、その同族tRNA(tRNALYS)に連結されたリジンのイプシロン-アミノ基は、アミン特異的光親和性標識で修飾され得る。
【0160】
本明細書で考察されるシステムおよび方法の実装によって生成または特定される3DCNNで操作されたタンパク質は、融合タンパク質を調製するために、タンパク質などの他の分子とコンジュゲートされてもよい。これは、例えば、N末端またはC末端融合タンパク質の合成によって達成されてもよく、ただし、得られる融合タンパク質が、3DCNNで操作されたタンパク質の機能性を保持することを条件とする。
【0161】
3DCNNで操作されたタンパク質模倣体
いくつかの実施形態では、対象の組成物は、3DCNNで操作されたタンパク質のペプチド模倣体である。ペプチド模倣体は、ペプチドおよびタンパク質に基づく、またはそれらに由来する化合物である。本明細書で考察されるシステムおよび方法の実装によって生成または特定されるペプチド模倣体は、典型的には、非天然アミノ酸、立体配座拘束、等配電子置換などを使用した既知の3DCNNで操作されたタンパク質配列の構造修飾によって得られ得る。対象のペプチド模倣体は、ペプチドと非ペプチド合成構造との間の構造空間の連続体を構成し、したがって、ペプチド模倣体は、ファーマコフォアを描出し、親3DCNNで操作されたタンパク質の活性を有する非ペプチド化合物にペプチドを翻訳するのを助けるのに有用であり得る。
【0162】
さらに、本開示から明らかであるように、対象の3DCNNで操作されたタンパク質のミメトープが提供され得る。そのようなペプチド模倣体は、非加水分解性であること(例えば、対応するペプチドを分解するプロテアーゼまたは他の生理学的条件に対する安定性の向上)、特異性および/または効力の向上、ならびにペプチド模倣体の細胞内局在化のための細胞透過性の向上などの属性を有し得る。例示目的で、本明細書で考察されるシステムおよび方法の実装によって生成または特定されるペプチド類似体は、例えば、ベンゾジアゼピン(例えば、Freidinger et al.in Peptides:Chemistry and Biology,G.R.Marshall ed.,ESCOM Publisher:Leiden,Netherlands,1988を参照されたい)、置換ガマラクタム環(substituted gama lactam ring)(Garvey et al.in Peptides:Chemistry and Biology,G.R.Marshall ed.,ESCOM Publisher:Leiden,Netherlands,1988,p123)、C-7模倣体(Huffman et al.in Peptides:Chemistry and Biology,G.R.Marshall ed.,ESCOM Publisher:Leiden,Netherlands,1988,p.105)、ケト-メチレン偽ペプチド(Ewenson et al.(1986)J Med Chem 29:295、およびEwenson et al.in Peptides:Structure and Function(Proceedings of the 9th American Peptide Symposium)Pierce Chemical Co.Rockland,Ill.,1985)、β-ターンジペプチドコア(Nagai et al.(1985)Tetrahedron Lett 26:647、およびSato et al.(1986)J Chem Soc Perkin Trans 1:1231)、β-アミノアルコール(Gordon et al.(1985)Biochem Biophys Res Commun 126:419、およびDann et al.(1986)Biochem Biophys Res Commun 134:71)、ジアミノケトン(Natarajan et al.(1984)Biochem Biophys Res Commun 124:141)、ならびにメチレンアミノ修飾(Roark et al.in Peptides:Chemistry and Biology,G.R.Marshall ed.,ESCOM Publisher:Leiden,Netherlands,1988,p134)を使用して生成され得る。また、一般に、Session III: Analytic and synthetic methods,in in Peptides:Chemistry and Biology,G.R.Marshall ed.,ESCOM Publisher:Leiden,Netherlands,1988)も参照されたい。
【0163】
3DCNNで操作されたタンパク質ペプチド模倣体を生成するために実施され得る様々な側鎖置換に加えて、本明細書で考察されるシステムおよび方法の実装は、ペプチド二次構造の立体配座的に拘束された模倣体の使用を企図する。ペプチドのアミド結合のために多数の代理物が開発されている。アミド結合のために頻繁に利用される代理物としては、次の群(i)トランス-オレフィン、(ii)フルオロアルケン、(iii)メチレンアミノ、(iv)ホスホンアミド、および(v)スルホンアミドが挙げられる。
【0164】
核酸
一実施形態では、本明細書で考察されるシステムおよび方法の実装を使用して、3DCNNで操作されたタンパク質をコードするヌクレオチド配列を含む単離核酸を生成または特定し得る。
【0165】
3DCNNで操作されたタンパク質をコードするヌクレオチド配列は、代替的に、得られるポリヌクレオチドが、本明細書で考察されるシステムおよび方法の実装に従ってポリペプチドをコードするという条件で、元のヌクレオチド配列に対する配列変異、例えば、1つ以上のヌクレオチドの置換、挿入、および/または欠失を含むことができる。したがって、本明細書で考察されるシステムおよび方法の実装を使用して、本明細書に列挙されるヌクレオチド配列と実質的に同一であり、3DCNNで操作されたタンパク質をコードするヌクレオチド配列を生成または特定し得る。
【0166】
本明細書で使用される意味において、ヌクレオチド配列は、そのヌクレオチド配列が、少なくとも60%、少なくとも70%、少なくとも85%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、または少なくとも99%のヌクレオチド配列に対する同一性の程度を有する場合、本明細書に記載するヌクレオチド配列のいずれかと「実質的に同一」である。3DCNNで操作されたタンパク質をコードするヌクレオチド配列と実質的に相同であるヌクレオチド配列は、典型的には、例えば、保存的置換または非保存的置換を導入することによって、ヌクレオチド配列中に含有される情報に基づいて、本明細書で考察されるシステムおよび方法の実装によって生成または特定されるポリペプチドの産生生物から単離され得る。可能性のある修飾の他の例としては、配列中の1つ以上のヌクレオチドの挿入、配列の末端のいずれかにおける1つ以上のヌクレオチドの付加、または任意の末端もしくは配列の内側における1つ以上のヌクレオチドの欠失が挙げられる。2つのヌクレオチド配列間の同一性は、好ましくは、BLASTNアルゴリズム[BLAST Manual,Altschul,S.,et al.,NCBI NLM NIH Bethesda,Md.20894,Altschul,S.,et al.,J.Mol.Biol.215:403-410(1990)]を使用することによって決定される。
【0167】
別の態様では、本明細書で考察されるシステムおよび方法の実装を使用して、3DCNNで操作されたタンパク質またはその誘導体をコードするヌクレオチド配列を含む構築物を生成または特定し得る。特定の実施形態では、構築物は、転写、および任意選択的に翻訳、制御要素に作動可能に結合される。構築物は、本明細書で考察されるシステムおよび方法の実装によって生成または特定されるヌクレオチド配列の発現の作動可能に結合した調節配列を組み込み、したがって発現カセットを形成することができる。
【0168】
3DCNNで操作されたタンパク質またはキメラ3DCNNで操作されたタンパク質は、組換えDNA法を使用して調製されてもよい。したがって、3DCNNで操作されたタンパク質またはキメラ3DCNNで操作されたタンパク質をコードする核酸分子は、3DCNNで操作されたタンパク質またはキメラ3DCNNで操作されたタンパク質の良好な発現を確実にする適切な発現ベクターに組み込まれてもよい。
【0169】
したがって、別の態様では、本明細書で考察されるシステムおよび方法の実装を使用して、本明細書で考察されるシステムおよび方法の実装によって生成または特定されるヌクレオチド配列または構築物を含むベクターを生成または特定し得える。ベクターの選択は、その後に導入される宿主細胞に依存する。特定の実施形態では、本明細書で考察されるシステムおよび方法の実装によって生成または特定されるベクターは、発現ベクターである。好適な宿主細胞は、多種多様な原核および真核宿主細胞を含む。特定の実施形態では、発現ベクターは、ウイルスベクター、細菌ベクター、および哺乳類細胞ベクターからなる群から選択される。原核生物および/または真核生物ベクターベースの系は、本明細書で考察されるシステムおよび方法の実装とともに使用して、ポリヌクレオチドまたはその同族ポリペプチドを産生するために用いられ得る。多くのそのようなシステムは、商業的に、かつ広く利用可能である。
【0170】
さらに、発現ベクターは、ウイルスベクターの形態で細胞に提供されてもよい。ベクターとして有用であるウイルスとしては、レトロウイルス、アデノウイルス、アデノ関連ウイルス、ヘルペスウイルス、およびレンチウイルスが挙げられるが、これらに限定されない。概して、好適なベクターは、少なくとも1つの生物において機能的な複製起点、プロモーター配列、便利な制限エンドヌクレアーゼ部位、および1つ以上の選択可能なマーカーを含有する。(例えば、WO 01/96584、WO 01/29058、および米国特許第6,326,193号を参照されたい)。
【0171】
ポリヌクレオチドの挿入に適したベクターは、原核生物中の発現ベクター、例えば、pUC18、pUC19、Bluescriptおよびその誘導体、mp18、mp19、pBR322、pMB9、ColE1、pCR1、RP4、ファージ、および「シャトル」ベクター、例えば、pSA3およびpAT28;酵母中の発現ベクター、例えば、2ミクロンプラスミドのタイプのベクター、組み込みベクター、YEPベクター、セントロメアプラスミドなど;昆虫細胞中の発現ベクター、例えば、pACシリーズおよびpVLのベクター;植物中の発現ベクター、例えば、pIBI、pEarleyGate、pAVA、pCAMBIA、pGSA、pGWB、pMDC、pMY、pOREシリーズなど;ならびにウイルスベクターに基づく真核細胞中の発現ベクター(アデノウイルス、アデノウイルス関連ウイルス、例えば、レトロウイルス、および特に、レンチウイルス);ならびに非ウイルスベクター、例えば、pSilencer 4.1-CMV(Ambion)、pcDNA3、pcDNA3.1/hyg、pHMCV/Zeo、pCR3.1、pEFI/His、pIND/GS、pRc/HCMV2、pSV40/Zeo2、pTRACER-HCMV、pUB6/V5-His、pVAX1、pZeoSV2、pCI、pSVLおよびPKSV-10、pBPV-1、pML2d、およびpTDT1に由来するベクターである。
【0172】
例示として、核酸配列が導入されるベクターは、宿主細胞に導入されるときに宿主細胞のゲノム内に組み込まれる、または組み込まれないプラスミドであってもよい。本明細書で考察されるシステムおよび方法の実装によって生成または特定されるヌクレオチド配列または遺伝子構築物が挿入され得る例示的で非限定的な例としては、真核細胞における発現のためのtet-on誘導性ベクターが挙げられる。
【0173】
特定の実施形態では、ベクターは、動物細胞を形質転換するのに有用なベクターである。
【0174】
組換え発現ベクターはまた、3DCNNで操作されたタンパク質もしくはキメラ3DCNNで操作されたタンパク質の発現の増加、3DCNNで操作されたタンパク質もしくはキメラ3DCNNで操作されたタンパク質の溶解性の向上をもたらす部分をコードし、かつ/または親和性精製のリガンドとして作用することによって、3DCNNで操作されたタンパク質もしくはキメラ3DCNNで操作されたタンパク質の精製を補助する核酸分子を含有してもよい。例えば、タンパク質分解切断部位は、3DCNNで操作されたタンパク質に挿入されて、融合タンパク質の精製後に、融合タンパク質部分からの3DCNNで操作されたタンパク質またはキメラ3DCNNで操作されたタンパク質の分離を可能にし得る。融合発現ベクターの例としては、グルタチオンS-トランスフェラーゼ(GST)、マルトースE結合タンパク質、またはプロテインAをそれぞれ組換えタンパク質に融合する、pGEX(Amrad Corp.,Melbourne,Australia)、pMAL(New England Biolabs,Beverly,Mass.)、およびpRIT5(Pharmacia,Piscataway,N.J.)が挙げられる。
【0175】
追加のプロモーター要素、すなわち、エンハンサーは、転写開始の頻度を調節する。典型的には、これらは、開始部位の上流の30~110bpの領域に位置するが、多くのプロモーターは、開始部位の下流にも機能的要素を含有することが近年示されている。プロモーター要素間の間隔は、しばしば柔軟であり、その結果、プロモーター機能は、要素が互いに対して逆転または移動するときに保持される。チミジンキナーゼ(tk)プロモーターでは、プロモーター要素間の間隔は、活性が低下し始める前に50bp離れるまで増加し得る。プロモーターに応じて、個々の要素は、協働的にまたは独立してのいずれかで機能して、転写を活性化することができるように思われる。
【0176】
プロモーターは、コードセグメントおよび/またはエクソンの上流に位置する5非コード配列を単離することによって得られ得るように、遺伝子またはポリヌクレオチド配列に天然に関連するプロモーターであってもよい。そのようなプロモーターは、「内因性」と称され得る。同様に、エンハンサーは、その配列の下流または上流のいずれかに位置するポリヌクレオチド配列に天然に関連するエンハンサーであり得る。あるいは、特定の利点は、コードポリヌクレオチドセグメントを、組換えプロモーターまたは異種プロモーター(これは、その天然環境中のポリヌクレオチド配列に通常関連しないプロモーターを指す)の制御下に位置付けることによって得られる。組換えエンハンサーまたは異種エンハンサーもまた、その天然環境においてポリヌクレオチド配列に通常関連しないエンハンサーを指す。そのようなプロモーターまたはエンハンサーは、他の遺伝子のプロモーターまたはエンハンサー、ならびに任意の他の原核細胞、ウイルス細胞、または真核細胞から単離されたプロモーターまたはエンハンサー、および「天然に存在」していない、すなわち、異なる転写調節領域の異なる要素、および/または発現を改変する変異を含有するプロモーターまたはエンハンサーを含んでもよい。プロモーターおよびエンハンサーの核酸配列を合成的に産生することに加えて、配列は、本明細書に開示される組成物に関連して、組換えクローニングおよび/またはPCR(商標)を含む核酸増幅技術を使用して産生されてもよい(米国特許第4,683,202号、米国特許第5,928,906号)。さらに、ミトコンドリア、葉緑体などの非核細胞小器官内の配列の転写および/または発現を方向付ける制御配列も用いられ得ることが企図される。
【0177】
当然のことながら、発現のために選択される細胞型、細胞小器官、および生物におけるDNAセグメントの発現を効果的に方向付けるプロモーターおよび/またはエンハンサーを用いることが重要である。用いられるプロモーターは、例えば、組換えタンパク質および/またはペプチドの大規模生産において有利であるなど、導入されたDNAセグメントの高レベルの発現を方向付けるのに適切な条件下で、構成的、組織特異的、誘導性、および/または有用であり得る。プロモーターは、異種または内因性であり得る。
【0178】
本明細書に提示される実験例で例示されるプロモーター配列は、即時初期サイトメガロウイルス(CMV)プロモーター配列である。このプロモーター配列は、それと作動可能に連結された任意のポリヌクレオチド配列の高レベルの発現を促進することが可能な強力な構成的プロモーター配列である。しかしながら、シミアンウイルス40(SV40)初期プロモーター、マウス乳腺腫瘍ウイルス(MMTV)、ヒト免疫不全ウイルス(HIV)の長い末端反復(LTR)プロモーター、モロニーウイルスプロモーター、トリ白血病ウイルスプロモーター、エプスタイン-バールウイルス即時初期プロモーター、ラウス肉腫ウイルスプロモーター、ならびにヒト遺伝子プロモーター、例えば、これらに限定されないが、アクチンプロモーター、ミオシンプロモーター、ヘモグロビンプロモーター、および筋クレアチンプロモーターが挙げられるがこれらに限定されない、他の構成的プロモーター配列も使用され得る。さらに、本明細書で考察されるシステムおよび方法の実装は、構成的プロモーターの使用に限定されない。誘導性プロモーターもまた、本明細書で考察されるシステムおよび方法の実装を介して生成または特定され得る。そのようなシステムまたは方法を介して生成または特定される誘導性プロモーターの使用は、そのような発現が所望されるときに作動可能に連結されたポリヌクレオチド配列の発現をオンにするか、または発現が所望されないときに発現をオフにすることが可能な分子スイッチを提供する。誘導性プロモーターの例としては、メタロチオニンプロモーター、グルココルチコイドプロモーター、プロゲステロンプロモーター、およびテトラサイクリンプロモーターが挙げられるが、これらに限定されない。さらに、本明細書で考察されるシステムおよび方法の実装により、組織特異的プロモーターの使用が可能になり得、そのプロモーターは、所望の組織においてのみ活性である。組織特異的プロモーターとしては、HER-2プロモーターおよびPSA関連プロモーター配列が挙げられるが、これらに限定されない。
【0179】
一実施形態では、核酸の発現は、外部から制御される。例えば、一実施形態では、発現は、ドキシサイクリンTet-On系または他の誘導性もしくは抑制性発現系を使用して外部から制御される。
【0180】
組換え発現ベクターはまた、形質転換またはトランスフェクトされた宿主細胞の選択を促進する選択可能なマーカー遺伝子を含有してもよい。好適な選択可能なマーカー遺伝子は、特定の薬剤に対する耐性を付与するG418およびハイグロマイシン、β-ガラクトシダーゼ、クロラムフェニコールアセチルトランスフェラーゼ、ホタルルシフェラーゼ、または免疫グロブリンもしくはその部分、例えば、免疫グロブリン、好ましくはIgGのFc部分などのタンパク質をコードする遺伝子である。選択可能なマーカーは、対象となる核酸とは別のベクター上に導入されてもよい。
【0181】
レポーター遺伝子は、トランスフェクトされた可能性のある細胞を特定し、調節配列の機能性を評価するために使用される。概して、レポーター遺伝子は、レシピエント生物または組織内に存在しないか、またはそれらによって発現され、かつその発現が、例えば、酵素活性などの何らかの容易に検出可能な特性によって示されるタンパク質をコードする遺伝子である。レポーター遺伝子の発現は、DNAがレシピエント細胞に導入された後の好適な時点でアッセイされる。
【0182】
例示的なレポーター遺伝子は、ルシフェラーゼ、ベータ-ガラクトシダーゼ、クロラムフェニコールアセチルトランスフェラーゼ、分泌型アルカリホスファターゼ、または緑色蛍光タンパク質遺伝子を含むがこれに限定されない、蛍光タンパク質をコードする遺伝子を含み得る(例えば、Ui-Tei et al.,2000 FEBS Lett.479:79-82を参照されたい)。
【0183】
一実施形態では、本明細書で考察されるシステムおよび方法の実装によって生成または特定される3DCNNで操作されたタンパク質は、レポーター遺伝子であり、好適な発現系に含まれる。例えば、一実施形態では、そのようなシステムまたは方法によって生成または特定される3DCNNで操作されたタンパク質は、蛍光活性が増加した青色蛍光タンパク質である。そのような実施形態では、本明細書で考察されるシステムおよび方法の実装によって生成または特定される3DCNNで操作されたタンパク質をコードするヌクレオチド配列は、異種タンパク質配列の検出を可能にするために発現系に組み込まれてもよい。
【0184】
組換え発現ベクターは、宿主細胞に導入されて、組換え細胞を産生してもよい。細胞は、原核細胞または真核細胞であり得る。本明細書で考察されるシステムおよび方法の実装によって生成または特定されるベクターを使用して、例えば、真核細胞、例えば、酵母細胞、Saccharomyces cerevisiae、もしくは哺乳類細胞、例えば、上皮腎臓293細胞もしくはU2OS細胞、または原核細胞、例えば、細菌、Escherichia coli、もしくはBacillus subtilisを形質転換することができる。核酸は、リン酸カルシウムまたは塩化カルシウムの共沈、DEAE-デキストラン媒介トランスフェクション、リポフェクチン、電気穿孔、またはマイクロインジェクションなどの従来の技術を使用して、細胞に導入され得る。宿主細胞を形質転換およびトランスフェクトするための好適な方法は、Sambrook et al.(Molecular Cloning:A Laboratory Manual,2nd Edition,Cold Spring Harbor Laboratory press(1989))、および他の実験テキストで見ることができる。
【0185】
例えば、本明細書で考察されるシステムおよび方法の実装によって生成または特定される3DCNNで操作されたタンパク質またはキメラ3DCNNで操作されたタンパク質は、細菌細胞、例えば、E.coli、昆虫細胞(バキュロウイルスを使用する)、酵母細胞、または哺乳類細胞で発現され得る。他の好適な宿主細胞は、Goeddel,Gene Expression Technology:Methods in Enzymology 185,Academic Press,San Diego,Calif.(1991)で見ることができる。
【0186】
修飾青色蛍光タンパク質
一実施形態では、本明細書で考察されるシステムおよび方法の実装を使用して、secBFP2バリアントタンパク質を特定または生成し得る。特定の態様では、組成物は、安定性を強化する1つ以上の変異を含むsecBFP2バリアントタンパク質に関する。特定の態様では、secBFP2バリアントタンパク質は、野生型secBFP2と比較して、強化された安定性、強化された蛍光、強化された半減期、およびより遅い光退色のうちの1つ以上を示す。
【0187】
いくつかの実施形態では、secBFP2バリアントタンパク質は、1つ以上の変異を含むsecBFP2を含む。例えば、いくつかの実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、T18、S28、Y96、S114、V124、T127、D151、N173、およびR198から選択される1つ以上の残基において1つ以上の変異を含むsecBFP2を含む。一実施形態では、完全長野生型secBFP2は、
のアミノ酸配列を含む。
【0188】
特定の実施形態では、本明細書に記載されるsecBFP2バリアントタンパク質内の変異の表記は、配列番号1に関連する。例えば、T18において変異を含むsecBFP2バリアントタンパク質は、secBFP2を指すが、完全長野生型secBFP2(配列番号1)の18位のトレオニンと相関する残基において変異を有する。
【0189】
いくつかの実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、T18X、S28X、Y96X、S114X、V124X、T127X、D151X、N173X、およびR198X(ここで、Xは、任意のアミノ酸である)から選択される1つ以上の変異を含むsecBFP2を含む。いくつかの実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、T18W、T18V、T18E、S28A、Y96F、S114V、S114T、V124T、V124Y、V124W、T127P、T127L、T127R、T127D、D151G、N173T、N173H、N173R、N173S、R198V、およびR198Lから選択される1つ以上の変異を含むsecBFP2を含む。
【0190】
一実施形態では、secBFP2バリアントタンパク質は、T18X変異(ここで、Xは、任意のアミノ酸である)を含むsecBFP2を含む。一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、T18W変異、T18V変異、またはT18E変異を含むsecBFP2を含む。
【0191】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0192】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0193】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0194】
一実施形態では、secBFP2バリアントタンパク質は、S28X変異(ここで、Xは、任意のアミノ酸である)を含むsecBFP2を含む。一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、S28A変異を含むsecBFP2を含む。
【0195】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0196】
一実施形態では、secBFP2バリアントタンパク質は、T96X変異(ここで、Xは、任意のアミノ酸である)を含むsecBFP2を含む。一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、Y96F変異を含むsecBFP2を含む。
【0197】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0198】
一実施形態では、secBFP2バリアントタンパク質は、S114X変異(ここで、Xは、任意のアミノ酸である)を含むsecBFP2を含む。一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、S114V変異またはS114T変異を含むsecBFP2を含む。
【0199】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0200】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0201】
一実施形態では、secBFP2バリアントタンパク質は、V124X変異(ここで、Xは、任意のアミノ酸である)を含むsecBFP2を含む。一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、V124T変異、V124Y変異、またはV124W変異を含むsecBFP2を含む。
【0202】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0203】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0204】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0205】
一実施形態では、secBFP2バリアントタンパク質は、T127X変異(ここで、Xは、任意のアミノ酸である)を含むsecBFP2を含む。一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、T127P変異、T127L変異、T127R変異、またはT127D変異を含むsecBFP2を含む。
【0206】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0207】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0208】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0209】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0210】
一実施形態では、secBFP2バリアントタンパク質は、D151X変異(ここで、Xは、任意のアミノ酸である)を含むsecBFP2を含む。一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、D151G変異を含むsecBFP2を含む。
【0211】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0212】
一実施形態では、secBFP2バリアントタンパク質は、N173X変異(ここで、Xは、任意のアミノ酸である)を含むsecBFP2を含む。一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、N173T変異、N173H変異、N173R変異、またはN173S変異を含むsecBFP2を含む。
【0213】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0214】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0215】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0216】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0217】
一実施形態では、secBFP2バリアントタンパク質は、R198X変異(ここで、Xは、任意のアミノ酸である)を含むsecBFP2を含む。一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、R198V変異またはR198L変異を含むsecBFP2を含む。
【0218】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0219】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0220】
一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、T18X、S28X、Y96X、S114X、V124X、T127X、D151X、N173X、およびR198Xの変異(ここで、Xは、任意のアミノ酸である)のうちの1つ以上、2つ以上、3つ以上、4つ以上、5つ以上、6つ以上、7つ以上、8つ以上、または9つすべてを含むsecBFP2を含む。一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、T18W、T18V、T18E、S28A、Y96F、S114V、S114T、V124T、V124Y、V124W、T127P、T127L、T127R、T127D、D151G、N173T、N173H、N173R、N173S、R198V、およびR198Lのうちの1つ以上、2つ以上、3つ以上、4つ以上、5つ以上、6つ以上、7つ以上、8つ以上、または9つ以上を含むsecBFP2を含む。
【0221】
一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、T18X、S28X、S114X、V124X、T127X、D151X、N173X、およびR198X(ここで、Xは、任意のアミノ酸である)の変異を含むsecBFP2を含む。一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、T18W、S28A、S114V、V124T、T127P、D151G、N173T、およびR198Lの変異を含むsecBFP2を含む。
【0222】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0223】
一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、S28X、S114X、T127X、およびN173X(ここで、Xは、任意のアミノ酸である)の変異を含むsecBFP2を含む。一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、S28A、S114T、T127L、およびN173Hの変異を含むsecBFP2を含む。
【0224】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0225】
一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、S28XおよびS114X(ここで、Xは、任意のアミノ酸である)の変異を含むsecBFP2を含む。一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、S28AおよびS114Tの変異を含むsecBFP2を含む。
【0226】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0227】
一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、S28X、S114X、およびN173X(ここで、Xは、任意のアミノ酸である)の変異を含むsecBFP2を含む。一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、S28A、S114T、およびN173Hの変異を含むsecBFP2を含む。
【0228】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0229】
一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、S28X、Y96X、S114X、およびN173X(ここで、Xは、任意のアミノ酸である)の変異を含むsecBFP2を含む。一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、S28A、Y96F、S114T、およびN173Hの変異を含むsecBFP2を含む。
【0230】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0231】
一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、S28X、Y96X、S114X、T127X、およびN173X(ここで、Xは、任意のアミノ酸である)の変異を含むsecBFP2を含む。一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、S28A、Y96F、S114T、T127L、およびN173Hの変異を含むsecBFP2を含む。
【0232】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0233】
一実施形態では、本明細書で考察されるシステムおよび方法の実装によって生成または特定される組成物は、secBFP2バリアントタンパク質をコードするヌクレオチド配列を含む単離核酸分子を含む。様々な実施形態では、核酸分子は、配列番号2~配列番号28に記載される少なくとも1つのアミノ酸配列をコードする配列、またはそのバリアントもしくは断片を含む。
【0234】
1つ以上の対象となるポリペプチドに作動可能に連結された蛍光タンパク質バリアントを含む融合タンパク質も提供される。融合タンパク質のポリペプチドは、ペプチド結合を介して連結され得るか、または蛍光タンパク質バリアントは、リンカー分子を介して対象となるポリペプチドに連結され得る。一実施形態では、融合タンパク質は、1つ以上の対象となるポリペプチドをコードする1つ以上のポリヌクレオチドに作動可能に連結された蛍光タンパク質バリアントをコードするポリヌクレオチドを含有する、組換え核酸分子から発現される。
【0235】
対象となるポリペプチドは、例えば、ポリヒスチジンペプチドなどのペプチドタグ、または酵素、Gタンパク質、成長因子受容体、もしくは転写因子などの細胞ポリペプチドを含む、任意のポリペプチドであってもよく、かつ会合して複合体を形成することができる2つ以上のタンパク質のうちの1つであってもよい。一実施形態では、融合タンパク質は、タンデム蛍光タンパク質バリアント構築物であり、これは、ドナー蛍光タンパク質バリアント、アクセプター蛍光タンパク質バリアント、ならびに該ドナーおよび該アクセプターを結合するペプチドリンカー部分を含み、ドナーの環化アミノ酸は、該ドナーの特性である光を発し、ドナーおよびアクセプターは、ドナーが励起されたときに蛍光共鳴エネルギー移動を示し、リンカー部分は、ドナーを励起するための光を実質的に発しない。したがって、本明細書で考察されるシステムおよび方法の実装によって生成または特定される融合タンパク質は、直接的または間接的に連結され得る、2つ以上の作動可能に連結された蛍光タンパク質バリアントを含み得、1つ以上の対象となるポリペプチドをさらに含み得る。
【0236】
キット
いくつかの実装では、キットは、本明細書で考察されるシステムおよび方法の実装によって提供または特定される組成物の使用を促進および/または標準化するために、ならびに本明細書で考察される方法を促進するために提供されてもよい。これらの様々な方法を実施するための材料および試薬は、方法の実行を促進するためにキットで提供され得る。本明細書で使用される場合、「キット」という用語は、プロセス、アッセイ、分析、または操作を促進する物品の組み合わせに関連して使用される。
【0237】
キットは、化学試薬(例えば、ポリペプチドまたはポリヌクレオチド)、ならびに他の構成要素を含み得る。さらに、本明細書で考察されるキットはまた、例えば、サンプル採取および/または精製のための装置および試薬、生成物採取および/または精製のための装置および試薬、細菌細胞形質転換のための試薬、真核細胞トランスフェクションのための試薬、すでに形質転換またはトランスフェクトされた宿主細胞、サンプル管、ホルダ、トレイ、ラック、皿、プレート、キットユーザへの指示、溶液、緩衝剤液または他の化学試薬、標準化、正規化、および/または対照サンプルに使用される好適なサンプルを含むことができるが、これらに限定されない。キットはまた、例えば、便利な保管および安全な出荷のために、蓋を有する箱の中に包装され得る。
【0238】
いくつかの実施形態では、例えば、本明細書で考察されるキットは、本明細書で考察されるシステムおよび方法の実装によって生成または特定される蛍光タンパク質、本明細書で考察されるシステムおよび方法の実施によって生成または特定される蛍光タンパク質をコードするポリヌクレオチドベクター(例えば、プラスミド)、ベクターの増殖に適した細菌細胞株、ならびに発現された融合タンパク質の精製のための試薬を提供することができる。いくつかの実施形態では、本明細書で考察されるキットは、オリゴマー化の傾向が低減されたタンパク質バリアントを生成するために、Anthozoan蛍光タンパク質の変異誘発を行うために必要な試薬を提供することができる。
【0239】
キットは、本明細書で考察されるシステムおよび方法の実装によって生成または特定される1つ以上の組成物、例えば、融合タンパク質の一部であり得る1つもしくは複数の蛍光タンパク質バリアント、またはポリペプチドをコードする1つもしくは複数のポリヌクレオチドを含み得る。蛍光タンパク質バリアントは、非オリゴマー化モノマーなどのオリゴマー化の傾向が低減された変異蛍光タンパク質であり得るか、またはタンデム二量体蛍光タンパク質であり得、キットは、複数の蛍光タンパク質バリアントを含み、その複数は、複数の変異蛍光タンパク質バリアント、もしくは複数のタンデム二量体蛍光タンパク質、またはそれらの組み合わせであり得る。
【0240】
本明細書で考察されるキットはまた、1つまたは複数の組換え核酸分子を含有し得、これは部分的に、同じであっても異なっていてもよい蛍光タンパク質バリアントをコードし、例えば、制限エンドヌクレアーゼ認識部位もしくはリコンビナーゼ認識部位、または任意の対象となるポリペプチドを含有またはコードする、作動可能に連結された第2のポリヌクレオチドをさらに含み得る。さらに、キットは、キットの構成要素、特に、キットに含まれる本明細書で考察されるシステムおよび方法の実装によって生成または特定される組成物を使用するための指示を含むことができる。
【0241】
当業者は、特定の用途に望ましい蛍光特性を有する1つ以上のタンパク質を便利に選択することができるため、そのようなキットは、複数の異なる蛍光タンパク質バリアントを提供する場合に特に有用であり得る。同様に、異なる蛍光タンパク質バリアントをコードする複数のポリヌクレオチドを含むキットは、数多くの利点を提供する。例えば、ポリヌクレオチドは、便利な制限エンドヌクレアーゼまたはリコンビナーゼ認識部位を含有するように操作され、したがって、調節要素、もしくは対象となるポリペプチドをコードするポリヌクレオチドへのポリヌクレオチドの作動可能な連結、または所望の場合、蛍光タンパク質バリアントをコードする2つ以上のポリヌクレオチドを互いに作動可能に連結することを促進することができる。
【0242】
蛍光タンパク質バリアントの使用
本明細書で考察されるシステムおよび方法の実装によって生成または特定される蛍光タンパク質バリアントは、蛍光タンパク質を用いる任意の方法で有用である。したがって、単量体、二量体、およびタンデム二量体蛍光タンパク質を含む蛍光タンパク質バリアントは、例えば、免疫測定法もしくはハイブリダイゼーションアッセイなどの検出アッセイで使用するために、または細胞中のタンパク質の動きを追跡するために、蛍光タンパク質バリアントを抗体、ポリヌクレオチド、またはの他の受容体に結合することを含む、蛍光マーカーがすでに使用されている多くの方法で、蛍光マーカーとして有用である。細胞内追跡研究については、蛍光タンパク質バリアントをコードする第1(または他)のポリヌクレオチドは、対象となるタンパク質をコードする第2(または他)のポリヌクレオチドに融合され、所望により、構築物は、発現ベクターに挿入され得る。細胞内で発現すると、対象となるタンパク質は、タンパク質の局在化が融合タンパク質の蛍光タンパク質構成成分のオリゴマー化によって引き起こされるアーチファクトであるという心配なしに、蛍光に基づいて局在化され得る。この方法の一実施形態では、2つの対象となるタンパク質は独立して、異なる蛍光特性を有する2つの蛍光タンパク質バリアントと融合される。
【0243】
本明細書で考察されるシステムおよび方法の実装によって生成または特定される蛍光タンパク質バリアントは、転写の誘導を検出するための系で有用である。例えば、非オリゴマー化単量体、二量体、またはタンデム二量体蛍光タンパク質をコードするヌクレオチド配列は、現ベクターに含有され得る、対象となるプロモーターまたは他の発現制御配列に融合され得、構築物は、細胞内にトランスフェクトされ得、プロモーター(または他の調節要素)の誘導は、蛍光の存在または量を検出することによって測定され、それによって手段が、受容体からプロモーターへのシグナル伝達経路の応答性を観察することを可能にすることができる。
【0244】
本明細書で考察されるシステムおよび方法の実装によって生成または特定される蛍光タンパク質バリアントはまた、FRETを伴う用途で有用であり、FRETは、蛍光ドナーおよびアクセプターの互いに向かう、または互いから離れる動きの関数として事象を検出することができる。ドナー/アクセプターの対の一方または両方は、蛍光タンパク質バリアントであり得る。そのようなドナー/アクセプターの対は、ドナーの励起ピークと発光ピークとの間の広範な分離を提供し、ドナー発光スペクトルとアクセプター励起スペクトルとの間の良好な重複を提供する。
【0245】
FRETを使用して、ドナーおよびアクセプターが切断部位の両側の基質に結合された基質の切断を検出することができる。基質の切断時に、ドナー/アクセプターの対は、物理的に分離し、FRETを排除する。そのようなアッセイは、例えば、基質をサンプルと接触させることと、FRETの定性的または定量的変化を決定することとによって実施され得る(例えば、参照により本明細書に組み込まれる米国特許第5,741,657号を参照されたい)。蛍光タンパク質バリアントドナー/アクセプターの対は、タンパク質分解切断部位を有するペプチドによって結合される融合タンパク質の一部であり得る(例えば、参照により本明細書に組み込まれる米国特許第5,981,200号を参照されたい)。FRETは、膜にわたる電位の変化を検出するためにも使用され得る。例えば、ドナーおよびアクセプターは、電圧変化に応答して膜を横切って移動するように膜の両側に配置され、それによって測定可能なFRETを生じさせることができる(例えば、参照により本明細書に組み込まれる米国特許第5,661,035号を参照されたい)。
【0246】
他の実施形態では、本明細書で考察されるシステムおよび方法の実装によって生成または特定される蛍光タンパク質は、タンパク質キナーゼおよびホスファターゼ活性の蛍光センサ、またはCa2+、Zn2+、環状3′,5′-アデノシン一リン酸、および環状3′,5′-グアノシン一リン酸などの小イオンおよび分子のインジケータを作製するために有用である。
【0247】
サンプル中の蛍光は、一般に、蛍光光度計を使用して測定され、第1の波長を有する励起源からの励起放射が、励起光学系を通過し、それによって、励起放射がサンプルを励起させる。応答して、サンプル中の蛍光タンパク質バリアントは、励起波長とは異なる波長を有する放射線を発する。次いで、収集光学系が、サンプルからの発光を収集する。デバイスは、スキャンされている間にサンプルを特定の温度に維持するための温度コントローラを含み得、かつ曝露される異なるウェルを位置付けるために複数のサンプルを保持するマイクロタイタープレートを移動させる、多軸移動ステージを有し得る。撮像およびデータ収集に関連する多軸移動ステージ、温度コントローラ、自動フォーカス機能、および電子機器は、適切にプログラムされたデジタルコンピュータによって管理され得、デジタルコンピュータはまた、アッセイ中に収集されたデータを、プレゼンテーションのために別の形式に変換し得る。このプロセスは、小型化および自動化されて、ハイスループット形式で多数の何千もの化合物をスクリーニングすることを可能にし得る。蛍光材料上のアッセイを実施するいくつかの方法としては、Lakowicz,“Principles of Fluorescence Spectroscopy”(Plenum Press 1983)、Herman,“Resonance energy transfer microscopy”In“Fluorescence Microscopy of Living Cells in Culture”Part B,Meth.Cell Biol.30:219-243(ed.Taylor and Wang;Academic Press 1989)、Turro,“Modern Molecular Photochemistry”(Benjamin/Cummings Publ.Co.,Inc.1978),pp.296-361が挙げられ、これらの各々は、参照により本明細書に組み込まれる。
【0248】
したがって、本開示はまた、サンプル中の分子の存在を特定するための方法の実装を提供する。そのような方法は、例えば、本明細書で考察されるシステムおよび方法の実装によって生成または特定される蛍光タンパク質バリアントを分子にリンクさせることと、分子を含有する疑いのあるサンプル中の蛍光タンパク質バリアントによる蛍光を検出することとによって実施され得る。検出される分子は、ポリペプチド、ポリヌクレオチド、または例えば、抗体、酵素、もしくは受容体を含む任意の他の分子であり得、蛍光タンパク質バリアントは、タンデム二量体蛍光タンパク質であり得る。
【0249】
検査されるサンプルは、生物学的サンプル、環境サンプル、または特定の分子が内部に存在するかどうかを決定することが望まれる任意の他のサンプルを含む、任意のサンプルであり得る。好ましくは、サンプルは、細胞またはその抽出物を含む。細胞は、ヒトなどの哺乳動物を含む脊椎動物から、または無脊椎動物から得られ得、植物または動物からの細胞であり得る。細胞は、そのような細胞、例えば、細胞株の培養から得られ得るか、または生物から単離され得る。したがって、細胞は、組織サンプル中に含有され得、これは、組織サンプルを得るために一般的に使用される任意の手段によって、例えば、ヒトの生検によって、生物から得られ得る。方法が、無傷の生細胞または新たに単離された組織もしくは臓器サンプルを使用して実施される場合、生細胞中の対象となる分子の存在が特定され、したがって例えば、分子の細胞内区画化を決定するための手段を提供することができる。そのような目的のための、本明細書で考察されるシステムおよび方法の実装によって生成または特定される蛍光タンパク質バリアントの使用は、蛍光タンパク質のオリゴマー化による異常な同定または局在化の可能性が大幅に最小化されるという点で、実質的な利点を提供する。
【0250】
蛍光タンパク質バリアントは、タンパク質-分子複合体が曝露される条件下で安定である任意の連結を使用して、直接的または間接的に分子に連結され得る。したがって、蛍光タンパク質および分子は、タンパク質および分子上に存在する反応基間の化学反応を介して連結され得るか、または連結は、蛍光タンパク質および分子に特異的な反応基を含有するリンカー部分によって媒介され得る。蛍光タンパク質バリアントおよび分子を連結するための適切な条件は、例えば、分子の化学的性質および所望の連結のタイプに応じて選択されることが認識されるであろう。対象となる分子がポリペプチドである場合、蛍光タンパク質バリアントおよび分子を連結するための便利な手段は、それらを、例えば、ポリペプチド分子をコードするポリヌクレオチドに作動可能に連結されたタンデム二量体蛍光タンパク質をコードするポリヌクレオチドを含む、組換え核酸分子からの融合タンパク質として発現することによる。
【0251】
発現制御配列の活性を調節する薬剤または条件を特定する方法も提供される。そのような方法は、例えば、発現制御配列に作動可能に連結された蛍光タンパク質バリアントをコードするポリヌクレオチドを含む組換え核酸分子を、発現制御配列からのポリヌクレオチドの発現を調節することが可能である疑いのある薬剤または条件に曝露することと、そのような曝露による蛍光タンパク質バリアントの蛍光を検出することとによって実施され得る。そのような方法は、例えば、調節要素からの組織特異的発現に関与する細胞因子を含む、発現制御配列からの発現を調節することができる細胞タンパク質を含む、化学的または生物学的薬剤を特定するのに有用である。したがって、発現制御配列は、プロモーター、エンハンサー、サイレンサー、イントロンスプライシング認識部位、ポリアデニル化部位などの転写調節要素、またはリボソーム結合部位などの翻訳調節要素であり得る。
【0252】
本明細書で考察されるシステムおよび方法の実装によって生成または特定される蛍光タンパク質バリアントはまた、第1の分子および第2の分子の特異的相互作用を特定する方法でも有用である。そのような方法は、例えば、第1の分子および第2の分子の特異的相互作用を可能にする条件下で、ドナーの第1の蛍光タンパク質バリアントに連結された第1の分子を、アクセプターの第2の蛍光タンパク質バリアントに連結された第2の分子と接触させること、ドナーを励起することと、ドナーからアクセプターへの蛍光または発光共鳴エネルギー移動を検出し、それによって、第1の分子および第2の分子の特異的相互作用を特定することとによって実施され得る。そのような相互作用の条件は、分子が特異的に相互作用することができることが予測されるか、または疑われる任意の条件であり得る。特に、検査される分子が細胞分子である場合、条件は一般に、生理学的条件である。したがって、方法は、生理学的条件を模倣する緩衝液、pH、イオン強度などの条件を使用してインビトロで実施され得るか、または方法は、細胞中で、もしくは細胞抽出物を使用して実施され得る。
【0253】
発光共鳴エネルギー移動は、化学発光、生物発光、ランタニド、または遷移金属ドナーから赤色蛍光タンパク質部分へのエネルギー移動を伴う。赤色蛍光タンパク質のより長い励起波長は、緑色蛍光タンパク質バリアントで可能なものよりも多様なドナーから、かつより大きい距離にわたって、エネルギー移動を可能にする。また、より長い発光波長は、固体光検出器によってより効率的に検出され、赤色光がより短い波長よりもはるかに良好に組織を透過するインビボ用途にとって特に有益である。化学発光ドナーとしては、ルミノール誘導体およびペルオキシオキサレート系が含まれる。生物発光ドナーとしては、エクオリン、オベリン、ホタルルシフェラーゼ、ウミシイタケシフェラーゼ、細菌ルシフェラーゼ、およびそれらのバリアントが挙げられるが、これらに限定されない。ランタニドドナーとしては、金属イオンを溶媒水から保護するために、複数のリガンド基に連結された紫外線吸収増感剤発色団を含有するテルビウムキレートが挙げられるが、これに限定されない。遷移金属ドナーとしては、オリゴピリジンリガンドのルテニウムおよびオスミウムキレートが挙げられるが、これらに限定されない。化学発光および生物発光ドナーは、励起光を必要としないが、基質の付加によって励起される一方で、金属ベースの系は、励起光を必要とするが、より長い励起状態寿命を提供し、望ましくないバックグラウンド蛍光および散乱を区別するための時間ゲート検出を促進する。
【0254】
第1および第2の分子は、タンパク質が特異的に相互作用するかどうかを判断するために、またはそのような相互作用を確認するために調査されている細胞タンパク質であり得る。そのような第1および第2の細胞タンパク質は、例えば、オリゴマー化する能力について検査されている場合と同じであり得るか、またはそれらは、タンパク質が、例えば、細胞内経路に関与する特異的結合パートナーとして検査されている場合と異なり得る。第1および第2の分子はまた、ポリヌクレオチドおよびポリペプチド、例えば、既知の、または転写調節要素活性について検査されているポリヌクレオチド、および既知の、または転写因子活性について試験されているポリペプチドであり得る。例えば、第1の分子は、転写調節要素活性について試験される、ランダムであり得るか、または既知の配列のバリアントであり得る複数のヌクレオチド配列を含み得、第2の分子は、転写因子であり得、そのような方法は、望ましい活性を有する新規の転写調節要素を特定するのに有用である。
【0255】
本開示はまた、サンプルが酵素を含有するかどうかを判断するための方法の実装も提供する。そのような方法は、例えば、サンプルを、本明細書で考察されるシステムおよび方法の実装によって生成または特定されるタンデム蛍光タンパク質バリアントと接触させることと、ドナーを励起することと、サンプル中の蛍光特性を決定することであって、サンプル中の酵素の存在が、蛍光共鳴エネルギー移動の程度の変化をもたらす、決定することとによって実施され得る。同様に、本開示は、細胞中の酵素の活性を決定するための方法の実装を提供する。そのような方法は、例えば、タンデム蛍光タンパク質バリアント構築物を発現する細胞を提供するであって、ペプチドリンカー部分が、ドナーおよびアクセプターを結合する酵素に特異的な切断認識アミノ酸配列を含む、提供することと、該ドナーを励起することと、細胞中の蛍光共鳴エネルギー移動の程度を決定するであって、細胞中の酵素活性の存在が、蛍光共鳴エネルギー移動の程度の変化をもたらす、決定することとによって実施され得る。
【実施例
【0256】
本明細書で考察されるシステムおよび方法の実装は、以下の実験例を参照することによってさらに詳述される。これらの実施例は、例示のみを目的として提供され、別段の指定がない限り、限定することを意図するものではない。したがって、本明細書で考察されるシステムおよび方法は、決して以下の実施例に限定されるものとして解釈されるべきではないが、むしろ本明細書に提供される教示の結果として明らかになる、ありとあらゆる変形形態を包含するものとして解釈されるべきである。
【0257】
さらなる説明なく、当業者は、前述の説明および以下の例示的な実施例を使用して、本明細書で考察されるシステムおよび方法の実装を作製および利用することができると考えられる。したがって、以下の実施例は、本明細書で考察されるシステムおよび方法の例示的な実施形態を具体的に指摘するものであり、決して本開示の残りの部分を制限するものとして解釈されるべきではない。
【0258】
実施例1:ニューラルネットワークを使用したタンパク質工学
経験的にニューラルネットワークを検証するために、3つの異なるモデルタンパク質を選択し、各々は、別個のタンパク質工学の課題を表す。第1の検証モデルタンパク質は、tem-1ベータラクタマーゼであり、その理由は主に、1)抗生物質に対する感受性が、そのタンパク質の全体的な安定性に直接関係しているため、および2)そのタンパク質が、安定化変異および不安定化変異の両方を明らかにすることが良好に特徴付けられているためである。次に、非標準アミノ酸であるL-DOPAを組み込むために、金属タンパク質ホスホマンノースイソメラーゼをレポーターに再利用して、安定性を改善した。しかしながら、酵素の不十分な安定性は、レポーターとして作用するためのその使用を妨げる。最後のタンパク質の事例は、青色蛍光タンパク質バリアント、secBFP2の改善である。青色蛍光タンパク質は、よく特徴付けられているが、急速な光退色、ゆっくりとした成熟およびフォールディング、ならびに比較的薄暗い蛍光は、より広範な使用を妨げる。
【0259】
最初に、野生型アミノ酸が、その位置で最良の残基として実験的に検証されている残基に分析を分けることによって、ニューラルネットワークの真陰性率を評価した。これを、各個々のアミノ酸変化の効果を生物の適応度で定量化した、tem-1 β-ラクタマーゼのすでに公開された変異スキャンを使用して試験した。tem-1で試験した263の位置のうち、136部位が、ゼロ未満の相対的な適応度値を有した(すなわち、生物の適応度に対する損失なしに、野生型残基から離れた変異に耐えることができなかった部位)。136部位のこの収集は、tem-1ベータラクタマーゼにおける真陰性の完全な収集を構成し、ニューラルネットワークに対して行われた個別の各変化について、真陰性感度をベンチマークした。最終バージョンは、136個の真陰性のうち92.6%を正確に特定し、初期のモデルと比べて30%近くの増加であった。したがって、開発されたモデルは、変異に適していないタンパク質内の部位を特定する能力が増大している。
【0260】
実験の結果が、図3Aおよび図3Bに示される。図3Aは、BFP蛍光を改善することがニューラルネットワークによって予測された部位、およびその程度の棒グラフを示す。右端の棒301は、各々がニューラルネットワークによって個々に示唆される、野生型タンパク質へのアミノ酸置換の特定の組み合わせを実施することによって観察される蛍光の改善を示す。改善の視覚的表現が、図3Bに示される。修飾青色蛍光タンパク質302は、野生型青色蛍光タンパク質303よりもはるかに明るく輝く。
【0261】
追加の結果が、図4Aおよび図4Bに示される。図4Bの棒グラフは、ホスホマンノースイソメラーゼ(PMI)に対するニューラルネットワーク提案の改善を示す。個々の安定化変異は各々、野生型と比べて15%~50%の増加をもたらすが、組み合わせて使用される場合(棒401)、改善は相加的であり、600%近い安定性の有意な改善をもたらす。
【0262】
図4Bのベン図411(青色蛍光タンパク質、pdb:3m24)および412(ホスホマンノースイソメラーゼ、pdb:1pmi)は、ニューラルネットワークが、他のコンピュータ計算タンパク質安定化技術(Foldx PositionScan and Rosetta pmutスキャン)によって特定されない固有の残基候補を予測することを示す。
【0263】
図5は、ニューラルネットワークによって特定されたTEM-1 β-ラクタマーゼバリアントが、祖先タンパク質よりも高いアンピシリン濃度でのE.coliの成長を可能にしたことを示す。単独で変異誘発されたβ-ラクタマーゼ変異体N52K、F60Y、M182T、E197D、またはA249Vを発現するE.coliは各々、125ug/mL以上のアンピシリン濃度で成長することができ、その濃度では、「WT」とラベル付けされた祖先酵素を発現するE.coliは、成長することができなかった。これらの変異の5つすべてを含有する単一酵素バリアントを発現するE.coli(N52K、F60Y、M182T、E197D、およびA249V、「All」とラベル付けされる)は、3000ug/mLのアンピシリン濃度で成長することができた。言い換えれば、ニューラルネットワークは、触媒に関連する表現型、本実施形態では、E.coliが抗生物質であるアンピシリンに対してより高い耐性を示すことを可能にする表現型を改善した。
【0264】
図6は、ニューラルネットワークが、青色蛍光タンパク質の熱安定性を改善したことを示す。一例では、10分間の熱負荷後、残留蛍光は、誘導タンパク質であるBluebonnetよりも、祖先タンパク質であるSecBFP2.1について少なかった。精製された青色蛍光タンパク質をPBS pH7.4で0.01mg/mLに希釈し、100uLのアリコートを、サーマルサイクラーを使用して、熱勾配において、PCRストリップで10分間熱処理した。熱的に負荷されたバリアントの蛍光および室温でインキュベートされた対照を、それぞれ402nmおよび457nmの励起波長および発光波長を使用してアッセイした。蛍光読み取り値を、室温でインキュベートされた溶液の平均に正規化した(例えば、0.8の測定値は、熱処理されたタンパク質が、その未処理の蛍光の80%を保持していたことを示す)。図6に示されるように、Bluebonnetは、約84℃~約100℃の全温度範囲にわたって、SecBFP2.1と比較してより高い熱安定性を示し、例えば、100℃での10分間の熱負荷後、蛍光が祖先タンパク質によって保持されない場合、その未処理の蛍光の20%超を保持した。
【0265】
図7は、ニューラルネットワークが、青色蛍光タンパク質の化学的安定性を改善したことを示す。別の例では、グアニジン溶融物における蛍光半減期は、誘導タンパク質であるBluebonnetよりも、祖先タンパク質であるSecBFP2.1について少なかった。精製された青色蛍光タンパク質を、6Mのグアニジン塩酸塩中で0.01mg/mLに希釈した。100uLのアリコートを三連で、96ウェル透明底黒壁プレートのウェルに添加し、25℃で23時間インキュベートした。これらの精製された蛍光タンパク質を、それぞれ402nmおよび457nmの励起波長および発光波長を使用して、30分間隔でアッセイした。各測定の前にプレートを撹拌した。時間ゼロで測定された蛍光値を使用して、アッセイの残りの部分を通して蛍光を正規化した(例えば、0.8の測定値は、タンパク質がその初期蛍光の80%を保持したことを示す)。図7に示されるように、Bluebonnetは、時間=0よりも大きく、最大で時間=約24時間のすべての時点にわたって、SecBFP2.1よりも高い化学的安定性を示した。
【0266】
実施例2:より明るい青色の蛍光タンパク質であるBluebonnet
タンパク質が細胞全体を通してどのように、かつどこに移動するかを見るとき、科学者は、特殊な遺伝学的ツールを必要とする。これらのツールのうちの1つは、紫外線光、すなわち、蛍光タンパク質下で蛍光を発するタンパク質のファミリーである。青色蛍光タンパク質(BFP、pdb:3m24)は、はるかに一般的に使用される赤色蛍光タンパク質の誘導体であるが、不十分なインビボでの活性に悩まされる。三次元畳み込みニューラルネットワークパイプラインを使用して、E.coli細胞内で発現された場合に蛍光の増加をもたらすBFPのバリアントを予測した。図8は、17個のニューラルネットワーク予測を、蛍光を増加させる能力について試験したことを示すデータを提供する(野生型に正規化されて示される)。図9は、有益な変異が組み合わされた場合、野生型よりも8倍超の蛍光の増加が観察されたことを示すデータを提供する。図10は、S28A、S114T、T127L、およびN173H変異の組み合わせを含むBluebonnet青色蛍光タンパク質の蛍光の増加が、親株ならびに他の青色蛍光タンパク質と比較して目に見えることを示す。
【0267】
コンピュータのシステム図
図11Aおよび図11Bは、本明細書で考察されるシステムおよび方法の実装に関連して有用なコンピュータの実施形態を示すブロック図である。図11Aおよび11Bは、典型的なコンピュータ1100のブロック図を示す。図11Aおよび11Bに示されるように、コンピュータ1100は、中央処理装置1102および主記憶装置1104を含む。コンピュータ1100はまた、他の任意の要素、例えば、1つ以上の入力/出力デバイス130a~130n(一般に、参照番号1130を使用して称される)、コプロセッサ1106、ならびに中央処理装置1102およびコプロセッサ1106と通信しているキャッシュメモリ1140を含んでもよい。
【0268】
中央処理装置1102は、主記憶装置1104に応答し、かつそれからフェッチされた命令を処理する、任意の論理回路である。多くの実施形態では、中央処理装置は、Intel Corporation(Mountain View,California)によって製造されたもの、Motorola Corporation(Schaumburg,Illinois)によって製造されたもの、International Business Machines(White Plains,New York)によって製造されたもの、またはAdvanced Micro Devices(Sunnyvale,California)によって製造されたものなどのマイクロプロセッサ装置によって提供される。
【0269】
同様に、コプロセッサ1106は、主記憶装置1104に応答し、かつそれからフェッチされた命令を処理する、任意の論理回路である。いくつかの実施形態では、コプロセッサ1106は、Google(Mountain View,California)によって製造されたものなど、人工知能特定用途向け集積回路であるテンソルプロセッシングユニット(TPU)を含んでもよい。
【0270】
主記憶装置1104は、データを記憶し、任意の記憶場所がメインプロセッサ1102またはコプロセッサ1106のマイクロプロセッサによって直接アクセスされることを可能にすることが可能な、1つ以上のメモリチップ、例えば、スタティックランダムアクセスメモリ(SRAM)、Burst SRAMもしくはSynchBurst SRAM(BSRAM)、ダイナミックランダムアクセスメモリ(DRAM)、高速ページモードDRAM(FPM DRAM)、強化DRAM(EDRAM)、拡張データ出力RAM(EDO RAM)、拡張データ出力DRAM(EDO DRAM)、バースト拡張データ出力DRAM(BEDO DRAM)、強化DRAM(EDRAM)、同期DRAM(SDRAM)、JEDEC SRAM、PC100 SDRAM、ダブルデータレートSDRAM(DDR SDRAM)、強化SDRAM(ESDRAM)、SyncLink DRAM(SLDRAM)、ダイレクトラムバスDRAM(DRDRAM)、または強誘電体RAM(FRAM)であり得る。
【0271】
図11Aに示される実施形態では、プロセッサ1102は、システムバス1120(以下でさらに詳述される)を介して主記憶装置1104と通信する。同様に、コプロセッサ1106は、システムバス1120を介して主記憶装置1104と通信する。図11Bは、プロセッサ1102がメモリポートを介して主記憶装置1104と直接通信する、コンピュータシステム1100の一実施形態を示す。例えば、図11B中、主記憶装置1104は、DRDRAMであってもよい。いくつかの実施形態では、ニューラルネットワークエンジンは、主記憶装置が、訓練された重みの値を記憶することに関与し得るため、主記憶装置内に存在してもよい。
【0272】
図11Aおよび図11Bは、メインプロセッサ1102が、時に「バックサイド」バスと称される二次バスを介して、キャッシュメモリ1140と直接通信する実施形態を示す。いくつかの実施形態では、コプロセッサ1106は、二次バスを介してキャッシュメモリ1140と直接通信してもよい。他の実施形態では、メインプロセッサ1102は、システムバス1120を使用してキャッシュメモリ1140と通信する。他の実施形態では、コプロセッサ1106は、システムバス1120を使用してキャッシュメモリ1140と通信してもよい。キャッシュメモリ1140は、典型的には、主記憶装置1104よりも速い応答時間を有し、典型的には、SRAM、BSRAM、またはEDRAMによって提供される。いくつかの実施形態では、コプロセッサは、ニューラルネットワークに関連する計算を行うための、テンソルプロセッシングユニット(TPU)または他のコプロセッサ、例えば、特定用途向け集積回路(ASIC)を含んでもよい(一次プロセッサ1102上でそのような計算を行うよりも高速または効率的であり得る)。
【0273】
図11Aに示される実施形態では、プロセッサ1102およびコプロセッサ1106は、ローカルシステムバス1120を介して様々なI/Oデバイス1130と通信する。VESA VLバス、ISAバス、EISAバス、マイクロチャネルアーキテクチャ(MCA)バス、PCIバス、PCI-Xバス、PCI-Expressバス、またはNuBusを含む様々なバスを使用して、中央処理装置1102およびコプロセッサ1106をI/Oデバイス1130に接続し得る。I/Oデバイスがビデオディスプレイである実施形態については、プロセッサ1102および/またはコプロセッサ1106は、Advanced Graphics Port(AGP)を使用して、ディスプレイと通信してもよい。図11Bは、メインプロセッサ1102がHyperTransport、Rapid I/O、またはInfiniBandを介してI/Oデバイス1130bと直接通信する、コンピュータシステム1100の一実施形態を示す。図11Bはまた、ローカルバスおよび直接通信が混合された実施形態を示し、プロセッサ1102は、I/Oデバイス1130bと直接通信しながら、ローカル相互接続バスを使用してI/Oデバイス1130aと通信する。
【0274】
多種多様なI/Oデバイス1130が、コンピュータシステム1100に存在し得る。入力デバイスとしては、キーボード、マウス、トラックパッド、トラックボール、マイク、およびドローイングタブレットが挙げられる。出力デバイスとしては、ビデオディスプレイ、スピーカ、インクジェットプリンタ、レーザープリンタ、および昇華型プリンタが挙げられる。I/Oデバイスはまた、コンピュータシステム1100用の大容量記憶装置、例えば、ハードディスクドライブ、3.5インチ、5.25インチディスクまたはZIPディスクなどのフロッピーディスクを受けるためのフロッピーディスクドライブ、CD-ROMドライブ、CD-R/RWドライブ、DVD-ROMドライブ、様々な形式のテープドライブ、ならびにTwintech Industry,Inc.(Los Alamitos,California)によって製造されたUSB Flash Driveのデバイスライン、およびApple Computer,Inc.(Cupertino,California)によって製造されたiPod ShuffleのデバイスラインなどのUSB記憶デバイスを提供し得る。
【0275】
さらなる実施形態では、I/Oデバイス1130は、システムバス1120と、外部通信バス、例えば、USBバス、Apple Desktopバス、RS-232シリアル接続、SCSIバス、FireWireバス、FireWire 800バス、Ethernetバス、AppleTalkバス、Gigabit Ethernetバス、非同期転送モードバス、HIPPIバス、Super HIPPIバス、SerialPlusバス、SCI/LAMPバス、FibreChannelバス、またはSerial Attached小型コンピュータシステムインターフェースバスとの間のブリッジであってもよい。
【0276】
図11Aおよび11Bに示される種類の汎用デスクトップコンピュータは、典型的には、タスクのスケジューリングおよびシステムリソースへのアクセスを制御するオペレーティングシステムの制御下で動作する。一般的なオペレーティングシステムとしては、とりわけ、Microsoft Corp.(Redmond,Washington)によって製造されたMICROSOFT WINDOWS、Apple Computer(Cupertino,California)によって製造されたMacOS、International Business Machines(Armonk,New York)によって製造されたOS/2、およびCaldera Corp.(Salt Lake City,Utah)によって流通されている自由に利用できるオペレーティングシステムであるLinuxが挙げられる。
【0277】
本明細書に引用されるありとあらゆる特許、特許出願、および刊行物の開示は、参照によりそれらの全体が本明細書に組み込まれる。本発明は、特定の実施形態を参照して開示されているが、本発明の他の実施形態および変更が、本発明の真の趣旨および範囲から逸脱することなく、当業者によって考案され得ることが明らかである。添付の特許請求の範囲は、すべてのそのような実施形態および同等の変更を含むと解釈されることが意図される。
図1A
図1B
図1C
図1D
図1E
図2A
図2B
図3A
図3B
図4A
図4B
図5
図6
図7
図8
図9
図10
図11A
図11B
【配列表】
0007387760000001.app