IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ボード・オブ・リージエンツ,ザ・ユニバーシテイ・オブ・テキサス・システムの特許一覧

特開2024-16257合成タンパク質の安定性を高めるためのシステムおよび方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024016257
(43)【公開日】2024-02-06
(54)【発明の名称】合成タンパク質の安定性を高めるためのシステムおよび方法
(51)【国際特許分類】
   G16B 15/00 20190101AFI20240130BHJP
【FI】
G16B15/00
【審査請求】有
【請求項の数】19
【出願形態】OL
(21)【出願番号】P 2023194581
(22)【出願日】2023-11-15
(62)【分割の表示】P 2021564714の分割
【原出願日】2020-05-01
(31)【優先権主張番号】62/841,906
(32)【優先日】2019-05-02
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
2.PYTHON
3.JAVASCRIPT
4.FRAM
5.FIREWIRE
6.ETHERNET
7.APPLETALK
(71)【出願人】
【識別番号】500039463
【氏名又は名称】ボード オブ リージェンツ,ザ ユニバーシティ オブ テキサス システム
【氏名又は名称原語表記】BOARD OF REGENTS,THE UNIVERSITY OF TEXAS SYSTEM
【住所又は居所原語表記】210 West 7th Street Austin,Texas 78701 U.S.A.
(74)【代理人】
【識別番号】230104019
【弁護士】
【氏名又は名称】大野 聖二
(74)【代理人】
【識別番号】100149076
【弁理士】
【氏名又は名称】梅田 慎介
(74)【代理人】
【識別番号】100173185
【弁理士】
【氏名又は名称】森田 裕
(74)【代理人】
【識別番号】100162503
【弁理士】
【氏名又は名称】今野 智介
(74)【代理人】
【識別番号】100144794
【弁理士】
【氏名又は名称】大木 信人
(74)【代理人】
【識別番号】100204582
【弁理士】
【氏名又は名称】大栗 由美
(72)【発明者】
【氏名】エリントン,アンドリュー
(72)【発明者】
【氏名】コール,オースティン
(72)【発明者】
【氏名】シュロフ,ラガヴ
(72)【発明者】
【氏名】タイヤー,ロス
(57)【要約】      (修正有)
【課題】タンパク質の特性を改善するためにニューラルネットワークを訓練するコンピュータ実装、そのタンパク質及びタンパク質を含む組成物並びにヌクレオチド配列を含む核酸分子、核酸分子を含む組成物及びキットを提供する。
【解決手段】方法は、データベースからアミノ酸配列のセットを収集することと、各アミノ酸配列を、フォールディングされたタンパク質の三次元結晶構造にコンパイルすることと、三次元結晶構造のサブセットでニューラルネットワークを訓練することと、ニューラルネットワークで、標的タンパク質中で変異する候補残基を特定することと、ニューラルネットワークで、候補残基を置換する予測アミノ酸残基を特定して、変異タンパク質を産生することとを含み、変異タンパク質は、標的タンパク質よりも特性の改善を示す。
【選択図】なし
【特許請求の範囲】
【請求項1】
標的タンパク質の1つ以上の特性を改善する方法であって、
訓練されたニューラルネットワークを使用して、標的タンパク質のアミノ酸配列を分析して、変異のための候補残基として、前記アミノ酸配列の特定の位置で1つ以上のアミノ酸残基を特定することと、
前記ニューラルネットワークで、前記候補残基のうちの少なくとも1つの置換として使用するための1つ以上の予測アミノ酸残基を特定することと、を含む、方法。
【請求項2】
前記ニューラルネットワークで、前記候補残基のうちの少なくとももう1つの置換として使用するための1つ以上の予測アミノ酸残基を特定することをさらに含む、請求項1に記載の方法。
【請求項3】
前記ニューラルネットワークで、前記候補残基の各々の置換として使用するための1つ以上の予測アミノ酸残基を特定することをさらに含む、請求項1又は2に記載の方法。
【請求項4】
1つ以上の置換を行うことによって変異タンパク質を合成することをさらに含み、前記変異タンパク質が、新規の安定化変異を含み、前記標的タンパク質よりも特性における改善を示す、請求項1-3のいずれか一項に記載の方法。
【請求項5】
前記ニューラルネットワークを、
(a)所与のアミノ酸残基の配列を有するフォールディングされたタンパク質を表す多次元アレイを生成することであって、前記フォールディングされたタンパク質が、各アミノ酸残基の微小環境に関連する1つ以上の属性を示す、生成することと、
(b)前記多次元アレイをベクトルに前処理することと、
(c)前記前処理されたベクターから前記ニューラルネットワークを介して、前記フォールディングされたタンパク質に関連する微小環境の中心における予測アミノ酸残基を計算することと、
(d)前記予測アミノ酸残基と前記微小環境に関連する前記アミノ酸残基との間の差を決定することと、
(e)閾値を超える前記決定された差に応答して、異なるフォールディングされたタンパク質に対してステップ(a)~(d)を反復的に繰り返すことと、
によって訓練することをさらに含む、請求項1-4のいずれか一項に記載の方法。
【請求項6】
前記ニューラルネットワークが、
(a)所与のアミノ酸残基の配列を有するフォールディングされたタンパク質を表す多次元アレイを生成することであって、前記フォールディングされたタンパク質が、各アミノ酸残基の微小環境に関連する1つ以上の属性を示す、生成することと、
(b)前記多次元アレイをベクトルに前処理することと、
(c)前記前処理されたベクターから前記ニューラルネットワークを介して、前記フォールディングされたタンパク質に関連する微小環境の中心における予測アミノ酸残基を計算することと、
(d)前記予測アミノ酸残基と前記微小環境に関連する前記アミノ酸残基との間の差を決定することと、
(e)閾値を超える前記決定された差に応答して、異なるフォールディングされたタンパク質に対してステップ(a)~(d)を反復的に繰り返すことと、
によって訓練された、請求項1-5のいずれか一項に記載の方法。
【請求項7】
前記標的タンパク質の前記アミノ酸配列からの1つ以上のアミノ酸のサンプルから前記多次元アレイを生成することをさらに含む、請求項6に記載の方法。
【請求項8】
前記多次元アレイを生成することが、前記フォールディングされたタンパク質の三次元モデルをボクセル化マトリックスにマッピングすることをさらに含む、請求項6又は7に記載の方法。
【請求項9】
前記多次元アレイを前処理することが、
前記ニューラルネットワークの1つ以上の畳み込み層の各々について、前記多次元アレイのサブセットから特徴を抽出し、前記抽出された特徴をダウンサンプリングして、特徴特異的マップを生成することと、
前記特徴特異的マップを一次元ベクトルに統合することと、をさらに含む、請求項6-8のいずれか一項に記載の方法。
【請求項10】
ステップ(e)が、前記予測された候補残基およびアミノ酸残基と、前記測定された残基およびアミノ酸残基との間の差に応答して、前記ニューラルネットワークの1つ以上のニューロン重量を修正することをさらに含む、請求項6-9のいずれか一項に記載の方法。
【請求項11】
完全長野生型secBFP2との関連で、T18、S28、Y96、S114、V124、T127、D151、N173、およびR198から選択される1つ以上の残基において1つ以上の変異を有するsecBFP2バリアントを含む、タンパク質。
【請求項12】
配列番号2-配列番号28からなる群から選択されるアミノ酸配列を含むタンパク質、
配列番号2-配列番号28からなる群から選択されるアミノ酸配列を含むタンパク質のバリアント、
配列番号2-配列番号28からなる群から選択されるアミノ酸配列を含む融合タンパク質、および、
配列番号2-配列番号28からなる群から選択されるアミノ酸配列を含むタンパク質の断片、
からなる群から選択される、請求項11に記載のタンパク質。
【請求項13】
請求項11又は12に記載のタンパク質をコードするヌクレオチド配列を含む核酸分子。
【請求項14】
プラスミドである、請求項13に記載の核酸分子。
【請求項15】
発現ベクターである、請求項13に記載の核酸分子。
【請求項16】
異種タンパク質コード配列の挿入のためのマルチクローニングサイトをさらに含む、請求項13-15のいずれか一項に記載の核酸分子。
【請求項17】
請求項11又は12に記載のタンパク質を含む、組成物。
【請求項18】
請求項13―16のいずれか一項に記載の核酸分子を含む、組成物。
【請求項19】
請求項13―16のいずれか一項に記載の核酸分子を含む、キット。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願
本出願は、2019年5月2日に出願された、「System and Method
for Increasing Synthesized Protein Stab
ility」と題する米国仮特許出願第62/841,906号の利益および優先権を主
張するものであり、その全体が参照により本明細書に組み込まれる。
【0002】
連邦政府による資金提供を受けた研究または開発の記載
本発明は、National Institutes of Healthによって授
与された助成金番号R43 NS105463、および Air Force Offi
ce of Scientific Researchによって授与された助成金番号F
A9550-14-1-0089の下、政府支援で行われた。政府は、本発明における特
定の権利を有する。
【背景技術】
【0003】
タンパク質工学は、バイオテクノロジーおよび生物医学における変革的なアプローチで
あり、既存のタンパク質に新規の機能性を付与すること、または非天然環境においてタン
パク質をより持続性のものにすることのいずれかを目標とする。両方の工学の方法に影響
を与える設計上の考慮事項は、タンパク質の全体的な安定性である。前者の場合、合理的
な設計または指向性進化を通してタンパク質の役割を拡大する機能獲得変異が、しばしば
熱力学的コストで導入される。ほとんどの天然タンパク質は、わずかしか安定していない
ため、選択前の安定性の向上が、タンパク質の進化性を促進することが示されている一方
で、アンフォールディングまでタンパク質を不安定化する機能的変異は、見落とされる可
能性がある。
【0004】
有用な天然に存在する生体触媒から産業利用への変換における重大な障壁は、根本的に
異なる環境条件、温度、および溶媒へのタンパク質の適応である。タンパク質の安定性を
高めることは、これらの圧力の多くを軽減し、より高い収率およびより低いコストで大量
の発現を可能にすることができる。したがって、安定化は、多くのタンパク質工学的努力
の成功に不可欠である。
【0005】
タンパク質を操作する多くの方法が存在し、すべては一般に、タンパク質バリアントが
どれほど迅速かつ正確に測定され得るかと、タンパク質バリアントの状況がどれほど効率
的にサンプリングされ得るかとの間の妥協を表す。変異誘発ポリメラーゼ連鎖反応(PC
R)などの技術は、配列と機能との間の関係についての最小限の知識を必要とするが、そ
れでもなお、タンパク質バリアントの大きいライブラリを分離するためにハイスループッ
トスクリーンまたは選択に依存する。構造データおよびコンピュータ計算アプローチを使
用して、検索空間を狭くし、同時に下流特性評価の量を低減することができる。これらの
ツールは、所望される特性が、特に大規模で測定困難であるタンパク質にとってますます
重要になる。しかしながら、タンパク質配列/構造/機能の関係の理解が不完全なため、
タンパク質工学のための異なるコンピュータ計算ツールが、しばしば全く異なる、または
相反さえする解を提供する。これは、安定性およびフォールディングなどの特性に特に当
てはまるが、これらは多くの場合、全タンパク質配列全体にわたって分布する多くの小さ
い相互作用の結果である。
【0006】
典型的には、コンピュータ計算方法は、コンピュータ計算集約的なフォールディングシ
ミュレーションを実施することによって、タンパク質を不安定化する残基を特定する。こ
れらのシミュレーションに関与する詳細のレベルは様々であり、量子力学(MOE)を引
き合いに出して分子の相互作用を説明するまで進むものもあれば、より粗視化の方法(R
osetta)を使用するものもある。第1の近似まで、粗視化アプローチは、タンパク
質構造(RosettaVIP)のギャップを探すか、高速局所自由エネルギー計算(f
oldX)を行うか、または進化的外れ値(PROSS)である残基を見つけるかのいず
れかによって、問題のある残基を特定する。次いで、疎水性パッキングまたは進化的コン
センサスへの復帰によって、より良好な適合残基が提案される。次いで、タンパク質の安
定性に対するこれらの置換の効果が、変異体のエネルギーシミュレーションを介して推定
される。全体で、このプロセス(残基特定、置換提案、リフォールディング、および自由
エネルギー計算)は、数時間から数日間かかる可能性がある。
【0007】
機械学習は、特定のタンパク質の特徴についての事前知識または時間のかかる手作業の
検査、および個々の構造の特徴の割り当てを必要としないため、魅力的な代替手段である
。近年、Torng and Altman(参照により本明細書に組み込まれるTor
ng et al.,“3D deep convolutional neural
networks for amino acid environment simi
larity analysis,”BMC Bioinformatics,18:3
02,2017)は、周囲のタンパク質微小環境に関する情報を与えられたアミノ酸の同
一性を予測することによって、三次元畳み込みニューラルネットワーク(3DCNN)を
タンパク質構造分析に適用する一般的な枠組みについて記載している。このニューラルネ
ットワークは、野生型配列に対するアミノ酸の割り当てにおいて42%の予測精度を達成
し、事前に割り当てられた構造ベースの特徴の特定に依存した他のコンピュータ計算方法
よりも優れていた。さらに、モデルタンパク質であるT4リゾチームの構造データを所与
として、3D CNNは典型的には、変異が不安定化することが知られている場所で野生
型残基を予測し、これらの既知の不安定化変異体の構造を与えられると、野生型残基に対
する強い選好を示した。
【発明の概要】
【0008】
プロテオームが、フォールディング形状、安定性、触媒、および結合特異性などのいく
つかの無関係な、または相反さえする表現型を同時に示さなければならないことを考慮す
ると、活性部位から離れた位置で構造的外れ値であるアミノ酸が、フォールディングおよ
び安定性に影響を与え得るが、機能には影響を与えないことが妥当である。したがって、
人工知能を利用して、異なるアミノ酸のコンセンサス微小環境を学習し、構造全体をスキ
ャンして、構造コンセンサスから逸脱する残基を特定する改善されたタンパク質工学技術
に対する当該技術分野のニーズがある。野生型の確率が低いとみなされるこれらの残基は
、不安定性の遺伝子座であると考えられており、したがって、変異誘発および安定性工学
の良好な候補である。本明細書で考察されるシステムおよび方法の実装は、そのような改
善されたタンパク質工学技術を提供する。
【0009】
一態様では、タンパク質の特性を改善するためにニューラルネットワークを訓練するコ
ンピュータ実装方法は、データベースからアミノ酸配列のセットを収集することと、アミ
ノ酸のセットに対して化学環境を有する三次元結晶構造のセットをコンパイルすることと
、化学環境をボクセル化マトリックスに翻訳することと、ボクセル化マトリックスのサブ
セットでニューラルネットワークを訓練することと、ニューラルネットワークで、標的タ
ンパク質中で変異する候補残基を特定することと、ニューラルネットワークで、候補残基
を置換する予測アミノ酸残基を特定して、変異タンパク質を産生することとを含み、変異
タンパク質は、標的タンパク質よりも特性の改善を示す。一実施形態では、方法は、水素
位置、部分電荷、ベータ因子、二次構造、芳香族性、電子密度、極性、およびそれらの組
み合わせからなる群から選択される特徴の空間的配置を、三次元結晶構造のうちの少なく
とも1つに付加するステップをさらに含む。
【0010】
一実施形態では、方法は、アミノ酸配列のセットを調整して、それらの固有頻度を反映
することをさらに含む。一実施形態では、方法は、配列中のランダムな位置から、アミノ
酸配列のセット中のアミノ酸の少なくとも50%をサンプリングすることをさらに含む。
一実施形態では、方法は、三次元結晶構造またはボクセル化マトリックスの第2のサブセ
ットで、第2の独立したニューラルネットワークを訓練することと、両方のニューラルネ
ットワークの結果に基づいて、候補残基および予測残基を特定することと、をさらに含む
。一実施形態では、特性は、安定性、成熟、フォールディング、またはそれらの組み合わ
せである。
【0011】
別の態様では、タンパク質の特性を改善するためのシステムは、プロセッサと、命令が
記憶された非一時的コンピュータ可読媒体とを備え、命令は、プロセッサによって実行さ
れたときに、残基の配列を含む標的タンパク質を提供するステップと、各三次元モデルに
対して、アミノ酸の周囲の三次元モデルのセットおよびタンパク質特性値のセットを提供
するステップと、各三次元モデルの様々な点で、パラメータのセットを推定するステップ
と、三次元モデル、パラメータ、およびタンパク質特性値で、ニューラルネットワークを
訓練するステップと、ニューラルネットワークで、標的タンパク質中で変異する候補残基
を特定するステップと、ニューラルネットワークで、候補残基を置換する予測アミノ酸残
基を特定し、変異タンパク質を産生するステップとを含むステップを実施し、変異タンパ
ク質は、標的タンパク質よりも特性の改善を示す。
【0012】
一実施形態では、タンパク質特性は、安定性である。一実施形態では、ステップは、フ
ォールディングされたアミノ酸配列の少なくとも1つのアミノ酸配列を再コンパイルして
、更新された三次元モデルを生成することを含む。一実施形態では、ステップは、再コン
パイル前に、フォールディングされたアミノ酸配列の少なくとも1つのアミノ酸配列に、
特徴の空間的配置を付加することを含む。
【0013】
別の態様では、本発明は、完全長野生型secBFP2との関連で、T18、S28、
Y96、S114、V124、T127、D151、N173、およびR198から選択
されるもう1つの残基において1つ以上の変異を有するsecBFP2バリアントを含む
、タンパク質に関する。一実施形態では、タンパク質は、配列番号2~配列番号28のう
ちの1つのアミノ酸配列を含むsecBFP2バリアントを含む。一実施形態では、se
cBFP2バリアントは、配列番号2~配列番号28のうちの1つのアミノ酸配列のバリ
アントを含む。一実施形態では、secBFP2バリアントは、配列番号2~配列番号2
8のうちの1つのアミノ酸配列を含む融合タンパク質を含む。一実施形態では、BFPは
、配列番号2~配列番号28のうちの1つのアミノ酸配列の断片を含む。
【0014】
別の態様では、本発明は、secBFP2バリアントを含むタンパク質をコードするヌ
クレオチド配列を含む核酸分子に関する。一実施形態では、ヌクレオチド配列は、配列番
号2~配列番号28に記載されるアミノ酸配列、そのバリアント、その融合タンパク質、
またはその断片をコードする。一実施形態では、分子は、プラスミドである。一実施形態
では、分子は、発現ベクターである。一実施形態では、核酸分子は、異種タンパク質コー
ド配列の挿入のための複数のクローニング部位をさらに含む。別の態様では、本発明は、
上記のタンパク質を含む組成物、上記の核酸分子を含む組成物、上記のタンパク質を含む
キット、または上記の核酸分子を含む。
【図面の簡単な説明】
【0015】
特許または出願ファイルは、カラーで作成される少なくとも1つの図面を含む。カラー
の図面(複数可)を含む本特許または特許出願公開の写しは、請求および必要な料金の支
払い後に事務所によって提供される。
【0016】
前述の目的および特徴、ならびに他の目的および特徴は、本説明、および本発明の理解
を提供するために含まれ、本明細書の一部を構成する以下の添付の図面を参照して明らか
となり、図面中、同様の数字は、同様の要素を表す。
図1A】合成タンパク質特性を増加させるためのコンピュータ実装ニューラルネットワークの実装の図である。
図1B】微小環境の中心におけるアミノ酸残基を決定するための方法の実装のフローチャートである。
図1C】試験中に合成タンパク質特性を増加させるための方法の実装のフローチャートである。
図1D】訓練中に合成タンパク質特性を増加させるためのニューラルネットワークの実装のブロック図である。
図1E】合成タンパク質特性を増加させるための畳み込みニューラルネットワークの実装のブロック図である。
図2A】合成タンパク質特性を増加させるための方法およびシステムの実装の実験結果のグラフである。
図2B】合成タンパク質特性を増加させるための方法およびシステムの実装の実験結果の別のグラフである。
図3A】合成タンパク質特性を増加させるための方法およびシステムの実装の実験結果の別のグラフである。
図3B】合成タンパク質特性を増加させるためのシステムの実装によって示唆される修飾を用いて合成されたタンパク質の写真である。
図4A】合成タンパク質特性を増加させるための方法およびシステムの実装の実験結果の別のグラフである。
図4B】合成タンパク質特性を増加させるためのシステムの実装によって示唆される示唆されたタンパク質修飾の図である。
図5】合成タンパク質特性を増加させるためのシステムの実装の実験結果の写真のセットである。
図6】合成タンパク質特性を増加させるためのシステムの実装の実験結果のグラフである。
図7】合成タンパク質特性を増加させるためのシステムの実装の実験結果のグラフである。
図8】野生型タンパク質に対する17個の青色蛍光タンパク質バリアントの蛍光の倍率変化を示すグラフである。
図9】野生型タンパク質に対する青色蛍光タンパク質バリアントの蛍光の倍率変化を示すグラフである。
図10】親タンパク質および他の青色蛍光タンパク質と比較して、S28A、S114T、N173H、およびT127L変異を含む、青色蛍光タンパク質バリアント「ブルーボネット」の蛍光の例示的な画像を提供する。
図11A】合成タンパク質特性を増加させるためのシステムの実装を示すブロック図である。
図11B】合成タンパク質特性を増加させるためのシステムの実装を示すブロック図である。
【発明を実施するための形態】
【0017】
本発明の図面および説明は、本発明の明確な理解に関連する要素を例示するために単純
化されていると同時に、明確にするために、関連するシステムおよび方法に見られる多く
の他の要素を排除していることが理解されるべきである。当業者は、本発明を実装する際
に他の要素および/またはステップが望ましい、および/または必要であることを認識し
得る。しかしながら、そのような要素およびステップは、当該技術分野で周知であるため
、かつそれらは、本発明のより良好な理解を促進しないため、そのような要素およびステ
ップの考察は、本明細書には提供されない。本明細書の開示は、当業者に既知のそのよう
な要素および方法に対する、そのようなすべての変更および修正を対象とする。
【0018】
別途定義されない限り、本明細書で使用されるすべての技術用語および科学用語は、本
発明が属する分野の当業者によって一般的に理解されるものと同じ意味を有する。本明細
書に記載されるものと類似または同等の任意の方法および材料が、本発明の実施または試
験で使用され得るが、例示的な方法および材料が記載される。
【0019】
本明細書で使用される場合、以下の用語の各々は、本セクションでそれに関連する意味
を有する。
【0020】
冠詞「a」および「an」は、本明細書において、冠詞の文法的対象のうちの1つ、ま
たは2つ以上(すなわち、少なくとも1つ)を指すために使用される。一例として、「要
素(an element)」は、1つの要素または2つ以上の要素を意味する。
【0021】
量、時間的持続期間などの測定可能な値を指すときに本明細書で使用される場合、「約
」は、指定された値からの±20%、±10%、±5%、±1%、および±0.1%の変
動を包含するよう意図され、したがって、変動は適切である。
【0022】
「核酸分子」または「ポリヌクレオチド」という用語は、一本鎖形態または二本鎖形態
のいずれかにおけるデオキシリボヌクレオチドまたはリボヌクレオチドポリマーを指し、
特に別段の示唆がない限り、天然に存在するヌクレオチドと類似の様式で機能することが
できる、天然に存在するヌクレオチドの既知の類似体を含有するポリヌクレオチドを包含
する。核酸分子がDNA配列によって表される場合、これは、「U」(ウリジン)が「T
」(チミジン)に取って代わる対応するRNA配列を有するRNA分子も含むことが理解
されるであろう。
【0023】
「組換え核酸分子」という用語は、2つ以上の連結ポリヌクレオチド配列を含有する、
天然に存在しない核酸分子を指す。組換え核酸分子は、組換え方法、特に遺伝子工学技術
によって産生されてもよく、または化学合成方法によって産生されてもよい。組換え核酸
分子は、融合タンパク質、例えば、対象となるポリペプチドに連結された本明細書で考察
されるシステムおよび方法によって示唆される蛍光タンパク質バリアントをコードするこ
とができる。「組換え宿主細胞」という用語は、組換え核酸分子を含有する細胞を指す。
したがって、組換え宿主細胞は、細胞の天然(非組換え)形態内には見られない「遺伝子
」からポリペプチドを発現することができる。
【0024】
ポリペプチドを「コードする」ポリヌクレオチドへの言及は、ポリヌクレオチドの転写
およびそれから産生されるmRNAの翻訳の際に、ポリペプチドが産生されることを意味
する。コードポリヌクレオチドは、そのヌクレオチド配列がmRNAと同一であるコード
鎖、ならびにその相補鎖の両方を含むとみなされる。そのようなコードポリヌクレオチド
は、同じアミノ酸残基をコードする縮重ヌクレオチド配列を含むとみなされることが認識
されるであろう。ポリペプチドをコードするヌクレオチド配列は、イントロンを含有する
ポリヌクレオチド、ならびにコードエクソンを含み得る。
【0025】
「発現制御配列」という用語は、ポリヌクレオチドの転写もしくは翻訳、またはそれが
作動可能に連結されたポリペプチドの局在化を調節するヌクレオチド配列を指す。発現制
御配列は、発現制御配列が、ヌクレオチド配列の転写、および必要に応じて翻訳(すなわ
ち、それぞれ転写または翻訳調節要素)、またはコードされたポリペプチドの細胞の特定
の区画への局在化を制御または調節するとき、「作動可能に連結」されている。したがっ
て、発現制御配列は、プロモーター、エンハンサー、転写ターミネーター、開始コドン(
ATG)、イントロン切除および正しいリーディングフレームの維持のためのスプライシ
ングシグナル、停止コドン、リボソーム結合部位、またはポリペプチドを特定の位置に標
的化する配列、例えば、細胞区画化シグナル(これは、ポリペプチドを、細胞質ゾル、核
、原形質膜、小胞体、ミトコンドリア膜もしくはマトリックス、葉緑体膜もしくは葉緑体
腔、中間トランスゴルジ扁平嚢、リソソーム、またはエンドソームに標的化することがで
きる)であり得る。細胞区画化ドメインとしては、例えば、ヒトII型膜アンカータンパ
ク質ガラクトシルトランスフェラーゼのアミノ酸残基1~81、またはシトクロムcオキ
シダーゼのサブユニットIVのプレ配列のアミノ酸残基1~12を含有するペプチドが挙
げられる(また、Hancock et al.,EMBO J.10:4033-40
39,1991、Buss et al.,Mol.Cell.Biol.8:3960
-3963,1988、米国特許第5,776,689号も参照されたい(それら各々は
、参照により本明細書に組み込まれる))。
【0026】
キメラタンパク質を説明するために使用される場合、「作動可能に連結された」もしく
は「作動的に連結された」もしくは「動作可能に結合された」という用語、または類似の
ものは、互いに物理的および機能的関係に置かれるポリペプチド配列を指す。最も好まし
い実施形態では、キメラ分子のポリペプチド構成成分の機能は、単独での機能的活性と比
較して変化していない。例えば、本明細書で考察されるシステムおよび方法によって示唆
される蛍光タンパク質は、対象となるポリペプチドに融合され得る。この場合、融合分子
は、その蛍光を保持し、対象となるポリペプチドは、その元の生物活性を保持することが
好ましい。本明細書で考察されるシステムおよび方法のいくつかの実施形態では、蛍光タ
ンパク質または対象となるタンパク質のいずれかの活性は、単独でのそれらの活性と比較
して低減され得る。また、そのような融合は、本明細書で考察されるシステムおよび方法
とともに使用され得る。
【0027】
「標識」という用語は、例えば、目視検査、分光法、または光化学反応、生化学反応、
免疫化学反応、もしくは化学反応によって、機器の有無を問わず検出可能である組成物を
指す。有用な標識としては、例えば、リン-32、蛍光染料、蛍光タンパク質、高電子密
度試薬、酵素(ELISAで一般的に使用されるものなど)、小分子、例えば、ビオチン
、ジゴキシゲニン、またはモノクローナル抗体であり得る抗血清または抗体が利用可能な
他のハプテンもしくはペプチドが挙げられる。本明細書で考察されるシステムおよび方法
の実装によって示唆される蛍光タンパク質バリアントは、それ自体が検出可能なタンパク
質であるが、それにもかかわらず、それ自体の蛍光以外の手段によって、例えば、放射性
核種標識またはペプチドタグをタンパク質に組み込んで、例えば、タンパク質のその発現
中の特定および発現されたタンパク質の単離のそれぞれを促進することによって検出可能
になるように標識され得ることが認識されるであろう。本明細書で考察されるシステムお
よび方法の実装の目的に有用な標識は、一般に、放射性シグナル、蛍光性の光、酵素活性
などの測定可能なシグナルを発生させ、それらのいずれかは、例えば、サンプル中の蛍光
タンパク質バリアントの量を定量化するために使用され得る。
【0028】
「ポリペプチド」または「タンパク質」という用語は、2つ以上のアミノ酸残基のポリ
マーを指す。これらの用語は、1つ以上のアミノ酸残基が、対応する天然に存在するアミ
ノ酸の人工的化学類似体であるアミノ酸ポリマー、ならびに天然に存在するアミノ酸ポリ
マーに適用される。「組換えタンパク質」という用語は、組換えDNA分子からのタンパ
ク質のアミノ酸配列をコードするヌクレオチド配列の発現によって産生されるタンパク質
を指す。
【0029】
「単離された」または「精製された」という用語は、自然界での天然の状態の物質に通
常付随している構成成分を実質的にまたは本質的に含まない物質を指す。純度または均質
性は、一般に、ポリアクリルアミドゲル電気泳動、高速液体クロマトグラフィーなどの分
析化学技術を使用して決定される。ポリヌクレオチドまたはポリペプチドは、それが調製
物中に存在する主要な種である場合に単離されるとみなされる。概して、単離されたタン
パク質または核酸分子は、調製物中に存在する高分子種の80%超を表し、多くの場合、
存在するすべての高分子種の90%超を表し、通常、高分子種の95%超を表し、特に、
そのような分子の純度を決定するための従来の方法を使用して検査されたときに検出され
る唯一の種であるような本質的な均質性まで精製された、ポリペプチドまたはポリヌクレ
オチドである。
【0030】
「天然に存在する」という用語は、タンパク質、核酸分子、細胞、または自然界で生じ
る他の物質を指すために使用される。例えば、ウイルスを含む生物中に存在するポリペプ
チドまたはポリヌクレオチド配列。天然に存在する物質は、自然界に存在するようなその
形態であり得、例えば、単離形態であるように人の手によって修飾され得る。
【0031】
「抗体」という用語は、免疫グロブリン遺伝子(複数可)、またはその抗原結合断片に
よって実質的にコードされるポリペプチドを指し、それらは、分析物(抗原)に特異的に
結合し、それを認識する。認識される免疫グロブリン遺伝子としては、カッパ、ラムダ、
アルファ、ガンマ、デルタ、イプシロン、およびミュー定常領域遺伝子、ならびに無数の
免疫グロブリン可変領域遺伝子が挙げられる。抗体は、完全型免疫グロブリンとして存在
し、抗体の抗原結合断片も同様に特徴付けられ、これは、ペプチダーゼで消化することに
よって産生されるか、または組換えDNA法を使用することができる。抗体のそのような
抗原結合断片としては、例えば、Fv、Fab’、およびF(ab)’2断片が挙げられ
る。本明細書で使用される場合、「抗体」という用語は、抗体全体の修飾によって産生さ
れる抗体断片、または組換えDNA法を使用してデノボ合成される抗体断片のいずれかを
含む。「免疫測定法」という用語は、抗体を利用して、分析物に特異的に結合するアッセ
イを指す。免疫測定法は、特定の抗体の特異的結合特性を使用して、分析物を単離、標的
化、および/または定量化することを特徴とする。
【0032】
2つ以上のポリヌクレオチド配列または2つ以上のポリペプチド配列に関連して使用さ
れる場合、「同一」という用語は、最大一致のためにアライメントされたときに同じであ
る配列中の残基を指す。配列同一性の割合がポリペプチドに関連して使用される場合、そ
うでなければ同一ではない1つ以上の残基位置が、保存的アミノ酸置換によって異なり得
、第1のアミノ酸残基が、類似の電荷または疎水性もしくは親水性特性などの類似の化学
的特性を有する別のアミノ酸残基の代わりに置換され、したがって、ポリペプチドの機能
的特性を変化させないことが認識される。ポリペプチド配列が保存的置換で異なる場合、
配列同一性パーセントは、上方に調整されて、置換の保存的性質を補正することができる
。そのような調整は、例えば、保存的置換を完全なミスマッチではなく部分的なミスマッ
チとしてスコアリングし、それによって配列同一性の割合を増加させることによって行わ
れ得る。したがって、例えば、同一のアミノ酸が、1のスコアを与えられ、非保存的置換
が、ゼロのスコアを与えられる場合、保存的置換は、ゼロと1との間のスコアを与えられ
る。保存的置換のスコアリングは、例えば、Meyers and Miller,Co
mp.Appl.Biol.Sci.4:11-17,1988、Smith and
Waterman,Adv.Appl.Math.2:482,1981、Needle
man and Wunsch,J.Mol.Biol.48:443,1970、Pe
arson and Lipman,Proc.Natl.Acad.Sci.,USA
85:2444(1988)、Higgins and Sharp,Gene 73
:237-244,1988、Higgins and Sharp,CABIOS 5
:151-153;1989、Corpet et al.,Nucl.Acids R
es.16:10881-10890,1988、Huang,et al.,Comp
.Appl.Biol.Sci.8:155-165,1992、Pearson et
al.,Meth.Mol.Biol.,24:307-331,1994(これらの
各々は、参照により本明細書に組み込まれる)で考察されるアルゴリズムを使用して計算
され得る。アライメントはまた、単純な目視検査および配列の手動アライメントによって
実施され得る。
【0033】
特定のポリヌクレオチド配列に関連して使用される場合、「保存的に修飾された変異」
という用語は、同一もしくは本質的に同一のアミノ酸配列をコードする異なるポリヌクレ
オチド配列を指し、またはポリヌクレオチドは、本質的に同一の配列に対してアミノ酸配
列をコードしない。遺伝子コードの縮重により、多数の機能的に同一のポリヌクレオチド
が、任意の所与のポリペプチドをコードする。例えば、コドンCGU、CGC、CGA、
CGG、AGA、およびAGGはすべて、アミノ酸アルギニンをコードする。したがって
、アルギニンがコドンによって指定されるあらゆる位置で、コドンは、コードされたポリ
ペプチドを改変することなく、記載された対応するコドンのいずれかに改変され得る。そ
のようなヌクレオチド配列変異は、「サイレント変異」であり、これは、「保存的に修飾
された変異」の種とみなされ得る。したがって、蛍光タンパク質バリアントをコードする
ものとして本明細書に開示される各ポリヌクレオチド配列が、すべての可能性のあるサイ
レント変異も説明することが認識されるであろう。また、通常メチオニンの唯一のコドン
であるAUG、および通常トリプトファンの唯一のコドンであるUUGを除く、ポリヌク
レオチド中の各コドンが、標準的な技術によって機能的に同一の分子を得るように修飾さ
れ得ることも認識されるであろう。したがって、コードされたポリペプチドの配列を変化
させないポリヌクレオチドの各サイレント変異が、本明細書に黙示的に記載される。さら
に、コードされた配列中の単一アミノ酸または少ない割合のアミノ酸(典型的には5%未
満、概して1%未満)を改変、付加、または欠失する個々の置換、欠失、または付加が、
保存的に修飾された変異とみなされ得、ただし、改変が、化学的に類似したアミノ酸での
アミノ酸の置換をもたらすことを条件とすることが認識されるであろう。機能的に類似し
たアミノ酸を提供する保存的アミノ酸置換は、以下の6つの群を含んでもよく、それらの
各々は、互いに対する保存的置換とみなされるアミノ酸を含有する:
1)アラニン(Ala、A)、セリン(Ser、S)、スレオニン(Thr、T)、
2)アスパラギン酸(Asp、D)、グルタミン酸(Glu、E)、
3)アスパラギン(Asn、N)、グルタミン(Gln、Q)、
4)アルギニン(Arg、R)、リジン(Lys、K)、
5)イソロイシン(Ile、I)、ロイシン(Leu、L)、メチオニン(Met、M
)、バリン(Val、V)、および
6)フェニルアラニン(Phe、F)、チロシン(Tyr、Y)、トリプトファン(T
rp、W)。
【0034】
アミノ酸配列またはヌクレオチド配列が、互いと、または所与の比較ウィンドウにわた
って参照配列と少なくとも80%の配列同一性を共有する場合、2つ以上のアミノ酸配列
または2つ以上のヌクレオチド配列は、「実質的に同一」または「実質的に類似」である
とみなされる。したがって、実質的に類似した配列は、例えば、少なくとも85%の配列
同一性、少なくとも90%の配列同一性、少なくとも95%の配列同一性、または少なく
とも99%の配列同一性を有する配列を含む。
【0035】
対象のヌクレオチド配列の補体が参照ヌクレオチド配列と実質的に同一である場合、対
象のヌクレオチド配列は、参照ヌクレオチド配列に対して「実質的に相補的」であるとみ
なされる。
【0036】
蛍光分子は、ドナー分子およびアクセプター分子を伴う蛍光共鳴エネルギー移動、FR
ETにおいて有用である。ドナー分子とアクセプター分子との間のFRETの効率および
検出可能性を最適化するために、いくつかの要因のバランスをとる必要がある。ドナーの
発光スペクトルは、重なり積分を最大化するために、アクセプターの励起スペクトルと可
能な限り重複するべきである。また、ドナー部分の量子収率およびアクセプターの吸光係
数は、エネルギー移動効率が50%である距離を表すROを最大化するために、可能な限
り高くあるべきである。しかしながら、アクセプターの直接励起から生じる蛍光は、FR
ETから生じる蛍光と区別することが困難である場合があるため、ドナーおよびアクセプ
ターの励起スペクトルは、ドナーがアクセプターを直接励起することなく効率的に励起さ
れ得る波長領域を見つけることができるように、可能な限り少なく重複するべきである。
同様に、ドナーおよびアクセプターの発光スペクトルは、2つの発光が明確に区別され得
るように、可能な限り少なく重複するべきである。アクセプターからの発光が、唯一の読
み出しとして、または発光比の一部としてのいずれかで測定されることになっている場合
、アクセプター部分の高蛍光量子収率が望ましい。ドナーおよびアクセプターの対を選択
する際に考慮されるべき1つの要因は、それら間の蛍光共鳴エネルギー移動の効率である
。好ましくは、ドナーとアクセプターとの間のFRETの効率は、少なくとも10%、よ
り好ましくは少なくとも50%、さらにより好ましくは少なくとも80%である。
【0037】
「蛍光特性」という用語は、適切な励起波長におけるモル吸光係数、蛍光量子効率、励
起スペクトルもしくは発光スペクトルの形状、励起波長最大値および発光波長最大値、2
つの異なる波長における励起振幅の比率、2つの異なる波長における発光振幅の比率、励
起状態寿命、または蛍光異方性を指す。野生型または親蛍光タンパク質とスペクトルバリ
アントまたはその変異体との間のこれらの特性のいずれか1つの測定可能な差が、有用で
ある。測定可能な差は、任意の定量的蛍光特性の量、例えば、特定の波長における蛍光の
量、または発光スペクトルにわたる蛍光の積分を決定することによって決定され得る。2
つの異なる波長における励起振幅または発光振幅の比率を決定すること(それぞれ、「励
起振幅比演算」および「発光振幅比演算」)は、特に有利であり、これは、比演算プロセ
スが、内部参照を提供し、励起源の絶対輝度、検出器の感度、およびサンプルによる光散
乱またはクエンチングにおける変動を相殺するためである。本明細書で使用される場合、
「蛍光タンパク質」という用語は、蛍光が化学タグによるものである化学的にタグ付けさ
れたタンパク質、および紫外線波長における発光ピーク(すなわち、約400nm未満)
が、本明細書で考察されるシステムおよび方法の実装の目的で蛍光タンパク質とみなされ
ないトリプトファンまたはチロシンなどの特定のアミノ酸の存在によってのみ蛍光を発す
るポリペプチドを除き、適切な電磁放射で励起されたときに蛍光を発することができる任
意のタンパク質を指す。概して、本明細書で考察されるシステムの実装の組成物を調製す
るために、または本明細書で考察される方法の実装で使用するために有用な蛍光タンパク
質は、発色団を自己触媒的に形成することからその蛍光を得るタンパク質である。蛍光タ
ンパク質は、天然に存在するか、または操作されている(すなわち、バリアントもしくは
変異体)アミノ酸配列を含有し得る。蛍光タンパク質に関連して使用される場合、「変異
体」または「バリアント」という用語は、参照タンパク質とは異なるタンパク質を指す。
【0038】
「青色蛍光タンパク質」という用語は、青色蛍光を発するタンパク質を指すために本明
細書において広く使用される。「青色蛍光タンパク質」または「BFP」という用語は、
最も広い意味で使用され、特に、mTagBFP、secBFP2、および任意の種から
の青色蛍光タンパク質、ならびにそれらのバリアント(それらが青色蛍光を発する能力を
保持する限り)を含む。
【0039】
「変異体」または「バリアント」という用語は、対応する野生型または親蛍光タンパク
質に対する変異を含有する蛍光タンパク質に関連して本明細書で使用される。さらに、対
応する野生型蛍光タンパク質に対して異なる蛍光特性を有する変異型蛍光タンパク質を示
すために、蛍光タンパク質の「スペクトルバリアント」または「スペクトル変異体」につ
いて、本明細書で言及される。
【0040】
本開示全体を通して、本明細書で考察されるシステムおよび方法の実装の様々な態様が
、範囲形式で提示され得る。範囲形式の記載は、単に便宜上および簡潔にするためのもの
であり、本発明の範囲に対する融通性のない制限として解釈されるべきではないことが理
解されるべきである。したがって、範囲の記載は、すべての可能性のある部分範囲、なら
びにその範囲内の個々の数値を具体的に開示したとみなされるべきである。例えば、1~
6などの範囲の記載は、1~3、1~4、1~5、2~4、2~6、3~6などの部分範
囲、ならびにその範囲内の個々の数、例えば、1、2、2.7、3、4、5、5.3、6
、およびそれらの間の任意の全体的および部分的増分を具体的に開示したとみなされるべ
きである。これは、範囲の広がりに関係なく適用される。
【0041】
本明細書で考察されるシステムおよび方法のいくつかの態様では、本明細書に提供され
る命令を実行するソフトウェアは、非一時的コンピュータ可読媒体上に記憶されてもよく
、ソフトウェアは、プロセッサ上で実行されたときに、本明細書で考察される方法の実装
のステップの一部またはすべてを実施する。
【0042】
本明細書で考察されるシステムおよび方法の態様は、コンピュータソフトウェアで実行
されるアルゴリズムに関する。特定の実施形態は、特定のプログラミング言語で記述され
るもの、または特定のオペレーティングシステムもしくはコンピューティングプラットフ
ォーム上で実行されるものとして記載されてもよいが、本明細書で考察されるシステムお
よび方法の実装は、任意の特定のコンピューティング言語、プラットフォーム、またはそ
れらの組み合わせに限定されないことが理解される。本明細書に記載されるアルゴリズム
を実行するソフトウェアは、C、C++、C#、Objective-C、Java、J
avaScript、Python、PHP、Perl、Ruby、またはビジュアルベ
ーシックを含むがこれらに限定されない、任意のプログラミング言語で記述、コンパイル
、または解釈されてもよい。本明細書で考察されるシステムおよび方法の要素は、サーバ
、クラウドインスタンス、ワークステーション、シンクライアント、モバイルデバイス、
組み込み型マイクロコントローラ、テレビ、または任意の他の好適なコンピューティング
デバイスを含むがこれらに限定されない、任意の許容可能なコンピューティングプラット
フォーム上で実行され得ることがさらに理解される。
【0043】
本明細書で考察されるシステムの実装の一部は、コンピューティングデバイス上で実行
されるソフトウェアとして記載される。本明細書に記載されるソフトウェアは、1つの特
定のコンピューティングデバイス(例えば、専用サーバまたはワークステーション)上で
動作するものとして開示され得るが、ソフトウェアは、本質的にポータブルであってもよ
く、専用サーバ上で実行されるソフトウェアがまた、デスクトップもしくはモバイルデバ
イス、ノートパソコン、タブレット、スマートフォン、腕時計、ウェアラブル電子機器も
しくは他のワイヤレスデジタル/携帯電話、テレビ、クラウドインスタンス、組み込み型
マイクロコントローラ、シンクライアントデバイス、または任意の他の好適なコンピュー
ティングデバイスを含む幅広いデバイスのいずれかで、本明細書で考察されるシステムお
よび方法の実装の目的のために実行されてもよい。
【0044】
同様に、本明細書で考察されるシステムの実装の一部は、様々な無線または有線のコン
ピュータネットワーク上で通信するものとして記載される。本明細書で考察されるシステ
ムおよび方法の実装の目的で、「ネットワーク」、「ネットワーク化」、および「ネット
ワーキング」という用語は、有線イーサネット、光ファイバ接続、様々な802.11規
格のいずれかを含む無線接続、3G、4G/LTE、もしくは5Gネットワークなどのセ
ルラーWANインフラストラクチャー、Bluetooth(登録商標)、Blueto
oth(登録商標)Low Energy(BLE)、もしくはZigbee(登録商標
)通信リンク、または1つの電子デバイスがもう1つの電子デバイスと通信可能である任
意の他の方法を包含すると理解される。いくつかの実施形態では、本明細書で考察される
システムの実装のネットワーク化部分の要素は、仮想プライベートネットワーク(VPN
)上で実装されてもよい。
【0045】
本明細書で考察されるシステムおよび方法の実装の態様は、機械学習アルゴリズム、機
械学習エンジン、またはニューラルネットワークに関する。ニューラルネットワークは、
タンパク質の様々な属性、例えば、既知のタンパク質内のアミノ酸の原子環境に基づいて
訓練されてもよく、その属性に基づいて、タンパク質中の1つ以上のアミノ酸への提案さ
れた変化を出力してもよい。いくつかの実施形態では、属性は、原子タイプ、静電、ベー
タ因子、溶媒接触性、二次構造、芳香族性、または極性を含み得る。次いで、得られるア
ミノ酸は、1つ以上の品質指標に従って判断されてもよく、属性の重みは、品質指標を最
大化するために最適化されてもよい。このようにして、ニューラルネットワークは、実験
的に測定され得る任意の品質指標を予測および最適化するように訓練され得る。ニューラ
ルネットワークが訓練され得る品質指標の例としては、野生型アミノ酸の精度、既知の安
定化/不安定化位置、アミノ酸基の精度、および測定され得る任意の他の好適なタイプの
品質指標が挙げられる。いくつかの実施形態では、ニューラルネットワークは、マルチタ
スク機能を有し、複数の品質指標の同時予測および最適化を可能にし得る。
【0046】
そのようなニューラルネットワークを実装する実施形態では、クエリは、様々な方法で
実施され得る。クエリは、所望のパラメータ、例えば、融解曲線を通して熱的に、または
グアニジンもしくは尿素変性を用いて化学的に具体化され得るタンパク質安定性を高める
ために、所与のタンパク質内のアミノ酸を特定するようにニューラルネットワークに要求
し得る。本明細書で考察されるシステムおよび方法の実装のニューラルネットワークは、
その予測同一性(ニューラルネットワークによって評価される)が、その天然の同一性と
は異なるタンパク質の1つ以上のアミノ酸残基を特定し、それによって、改善されたタン
パク質が、天然アミノ酸残基を予測アミノ酸残基に変異させることによって生成され得る
ことを示し得る。本明細書で企図されるように、予測アミノ酸残基は、任意の天然または
非天然(例えば、人工もしくは合成)アミノ酸であってもよい。
【0047】
いくつかの実施形態では、ニューラルネットワークは、入力されたアミノ酸配列または
残基に関連する所望のパラメータの値を使用して、ニューラルネットワークを訓練するこ
とによって更新されてもよい。このようにニューラルネットワークを更新すると、最適な
アミノ酸残基を提案するニューラルネットワークの能力が改善され得る。いくつかの実施
形態では、ニューラルネットワークを訓練することは、予測アミノ酸残基で変異したタン
パク質に関連する所望のパラメータの値を使用することを含んでもよい。例えば、いくつ
かの実施形態では、ニューラルネットワークを訓練することは、提案されたアミノ酸の所
望のパラメータの値を予測することと、予測値を既知のアミノ酸に関連するパラメータの
対応する値と比較することと、比較の結果に基づいてニューラルネットワークを訓練する
こととを含んでもよい。予測値が既知の値と同じまたは実質的に類似している場合、ニュ
ーラルネットワークは、最小限に更新されてもよく、または全く更新されなくてもよい。
予測値が既知のアミノ酸の値と異なる場合、ニューラルネットワークは、この不一致をよ
り良く補正するために実質的に更新され得る。ニューラルネットワークがどのように再訓
練されるかに関わらず、再訓練されたニューラルネットワークを使用して、追加のアミノ
酸を提案し得る。
【0048】
本出願の技術は、タンパク質安定性を高めることに関連しているが、これは、他のタイ
プのタンパク質パラメータまたは属性、例えば、半減期、活性、分解抵抗、溶解性、熱安
定性、翻訳後修飾、pH耐性の増強、成熟時間の短縮、核酸結合、タンパク質間相互作用
、疎水性、またはそれらの組み合わせに適用され得るため、これらの技術の非限定的な適
用であることが理解されるべきである。ニューラルネットワークを訓練するために使用さ
れるデータのタイプに応じて、ニューラルネットワークは、異なるタイプのタンパク質、
タンパク質間相互作用、および/またはタンパク質の属性のために最適化され得る。この
ようにして、ニューラルネットワークを訓練して、タンパク質に対する、ペプチドとも称
され得るアミノ酸配列の特定を改善することができる。ニューラルネットワークにクエリ
を行うことは、タンパク質に対する初期アミノ酸配列の入力を含んでもよい。ニューラル
ネットワークは、異なるアミノ酸配列を使用して以前に訓練されていてもよい。ニューラ
ルネットワークへのクエリは、初期アミノ酸配列よりも高い安定性のタンパク質に対して
提案されたアミノ酸配列に関するものであってもよい。提案されたアミノ酸配列の各残基
に対して特定のアミノ酸を示す提案されたアミノ酸配列は、ニューラルネットワークから
受信されてもよい。
【0049】
離散的表現を有する配列を入力すること、連続的表現を有するニューラルネットワーク
からの出力を受信すること、およびそれをニューラルネットワークへの入力として連続し
て提供する前に出力を離散化することによって、ニューラルネットワークに反復的にクエ
リを行うことに関連する、本明細書に記載される技術は、他の機械学習用途に適用され得
る。そのような技術は、離散的表現を有する最終出力が望ましい用途で特に有用であり得
る。そのような技術は、離散属性を一連の離散属性の特性に関連付けるデータを使用して
訓練されたニューラルネットワークによって生成されたモデルを適用することによって、
一連の離散属性を特定するために一般化され得る。配列中のアミノ酸を特定する文脈にお
いて、離散属性は、異なるアミノ酸を含んでもよい。
【0050】
いくつかの実施形態では、モデルは、分子シミュレーションから生じるデータを含むが
これに限定されない、一連の各位置に位置する離散属性を有する初期の一連を、入力とし
て受信してもよい。初期の一連内の離散属性の各々は、複数の離散属性のうちの1つであ
る。ニューラルネットワークにクエリを行うことは、初期の一連の離散属性を入力するこ
とと、初期の一連の特性のレベルとは異なる特性のレベルを有する出力された一連の離散
属性を生成することとを含んでもよい。ニューラルネットワークにクエリを行うことに応
答して、出力された一連、および出力された一連の各位置についての異なる離散属性に関
連する値は、ニューラルネットワークから受信されてもよい。一連の各位置について、各
離散属性の値は、離散属性が位置について選択される場合、特性のレベルに関するニュー
ラルネットワークの予測に対応し、連続的な値のデータセットを形成し得る。値は、位置
についての離散属性にわたって広がってもよく、出力された一連の離散バージョンを特定
する際に使用されてもよい。いくつかの実施形態では、出力された一連の離散バージョン
を特定することは、シリーズの各位置について、位置に対する異なる離散属性の値の中か
ら最も高い値を有する離散属性を選択することを含んでもよい。提案された一連の離散属
性は、離散バージョンを特定する出力として受信されてもよい。
【0051】
いくつかの実施形態では、反復プロセスは、出力された一連についてニューラルネット
ワークにクエリを行うこと、出力された一連を受信すること、および出力された一連の離
散バージョンを特定することによって形成される。反復プロセスの追加の反復は、直前の
反復からの出力された一連の離散バージョンを入力することを含んでもよい。反復プロセ
スは、現在の出力された一連が、直前の反復からの直前の出力された一連と一致するとき
に停止してもよい。
【0052】
いくつかの実施形態では、複数の品質指標を有するアミノ酸配列を特定するためにニュ
ーラルネットワークを訓練するためのものを含む、単一の品質指標に対する所望の値より
もむしろ複数の品質指標に対する所望の値(例えば、別の配列の値よりも高い値)を有す
る提案されたアミノ酸配列が、特定される。そのような技術は、異なる特性を有するタン
パク質について提案されたアミノ酸配列の特定が望ましい用途で特に有用であり得る。そ
のような技術の実装では、訓練データは、ニューラルネットワークを訓練するために使用
されるアミノ酸配列の各々についての異なる特性に関連するデータを含んでもよい。ニュ
ーラルネットワークを訓練することによって生成されるモデルは、特性の異なる組み合わ
せに対応する1つ以上のパラメータを有してもよい。いくつかの実施形態では、パラメー
タは、第1の特徴と第2の特徴との間の重みを表してもよく、これは、提案されたアミノ
酸配列が、第2の特性と比較して第1の特徴を有する可能性のバランスをとるように使用
されてもよい。いくつかの実施形態では、ニューラルネットワークを訓練することは、異
なる特性についてスコアを割り当てることを含み、スコアは、提案されたアミノ酸配列を
予測するために使用されるモデルのパラメータについての値を推定するために使用され得
る。いくつかのそのような実施形態における訓練データは、アミノ酸配列に関連する原子
微小環境を含んでもよく、これは、ニューラルネットワークを訓練するために使用される
場合、提案されたアミノ酸配列を予測するために使用されるモデルを生成する。ニューラ
ルネットワークを訓練することは、スコアを割り当てることを伴い得、パラメータについ
ての値は、スコアを使用して推定され得る。
【0053】
畳み込みニューラルネットワークについての生物学的用途は、比較的希少である。タン
パク質は、アミノ酸配列として分析されるのではなく、その三次元構造を解くために、そ
の結晶化形態で評価されつつある。本明細書で考察される方法の実装の一態様は、20個
のアミノ酸の各々に特有の化学環境を特徴付ける三次元畳み込みニューラルネットワーク
を訓練することを伴う。次いで、同じニューラルネットワークが、所与の環境に最も適合
するアミノ酸を予測することができる。本明細書に記載されるニューラルネットワークは
、19,000個の系統発生的に遠いタンパク質構造にわたる160万個のアミノ酸環境
で訓練されている。訓練後、このネットワークのサンプル内精度は80.0%であり、サ
ンプル外精度は72.5%であり、現在の技術水準の約20~30%の改善(約40%の
サンプル外精度)である。
【0054】
予想されたアミノ酸と観察されたアミノ酸との間に大きい不一致がある部位は、安定性
およびフォールディング成熟などのタンパク質の特徴を操作するための標的を示す。本明
細書に記載されるシステムおよび方法は、3つの生物学的事例である、ベータ-ラクタマ
ーゼ抗生物質マーカー、サンゴ由来の青色蛍光タンパク質、および酵母Candida
albicans由来のホスホマンノースイソメラーゼを実験的に特徴付け、ニューラル
ネットワークからの予測は、インビボでタンパク質機能および安定性の向上を実証する。
これらの結果は、AIおよび分子生物学の交点における新たな生物学的ツールを予測する
【0055】
一実施形態では、本明細書で考察される方法の実装は、ニューラルネットワーク、例え
ば、上記で参照されるTorng and Altmanによって公開されたニューラル
ネットワークの実装を利用する。本明細書で考察されるシステムおよび方法の実装は、以
下で考察される実験結果が示すように、公開されたニューラルネットワーク設計を実質的
に改善する。元のTorng and Altmanのセットは、32,760個の訓練
構造および1601個の試験構造をもたらす、3696個の訓練タンパク質ファミリーお
よび194個の試験タンパク質ファミリーを含有する。
【0056】
本明細書で考察されるシステムおよび方法の実装は、タンパク質安定化の問題に対処す
るために、Torng and Altmanのフレームワークを基礎とする。基本的な
例では、タンパク質の結晶構造は、三次元画像のように処理される。任意の所与の画像で
は、個々のアミノ酸およびその原子環境についての多くの観察がある。一部の方法は、こ
れらのアミノ酸のうちの1つに一貫した参照フレームを集中させる。この有利な立場から
、20×20×20オングストロームのボックス内で酸素、窒素、硫黄、および炭素原子
が分離され、中央のアミノ酸に関連するすべての原子が除去される。次いで、環境および
環境に適合するアミノ酸のこのセットは、三次元畳み込みニューラルネットワークのため
の注釈付き訓練セットとして使用されてもよい。この訓練されたニューラルネットワーク
で、実験的に導入された不安定化変異が検出され得る。
【0057】
本明細書で考察されるシステムおよび方法の実装は、新規の安定化変異を特定するため
の基礎モデルを改善する。本明細書に記載される改善は、予測の品質を、既知の不安定化
変異を正当化するだけでなく、未知の不安定化残基を特定し、安定化変異を示唆するのに
十分な状態にする。
【0058】
いくつかの実装では、本明細書で考察されるシステムおよび方法は、入力されたタンパ
ク質上の好ましい環境に位置する野生型アミノ酸の特定を可能にする。そのような実装は
、非常に低い野生型確率を有する残基の配列空間を狭くし得る。現在の技術水準と比べた
、本明細書で考察されるシステムおよび方法の実装によって提供される改善は、組み合わ
されたときに、全体的な有用性の改善のための候補タンパク質残基を特定するための著し
く改善されたモデルを形成する、いくつかの個別の改善として記載され得る。
【0059】
図1Aは、合成タンパク質特性を増加させるためのコンピュータ実装ニューラルネット
ワークの実装の図である。技術者が改変することを望むタンパク質のいくつかの特性は、
成熟動態、熱安定性、Km、cat、適切なフォールディングのためのカチオンまたは
アニオンへの依存性、およびpH耐性である。101において、タンパク質は、タンパク
質中の各残基に対して微小環境に翻訳されてもよく、タンパク質の三次元モデルおよびそ
の微小環境が生成される。三次元モデルを生成するためのいくつかの方法としては、他に
も方法があるが、未知のタンパク質モデルが既知のタンパク質構造から取られる候補断片
のプールから構築される場合の断片集合、既知のタンパク質セグメントがアミノ酸配列に
一致する場合のセグメント一致、または既知のタンパク質モデルが選択され(「テンプレ
ート」)、アミノ酸配列の残基がテンプレート配列中の残基にマッピングされ(アライメ
ント)、配列中の様々な距離、角度、および二面角への拘束がテンプレート構造とのアラ
イメントから導出され、拘束の違反が最小化される場合の空間的拘束の達成に基づく比較
タンパク質モデリングが挙げられる。タンパク質結晶構造の三次元モデルが生成されると
、構造に関連する対応する微小環境が生成される。
【0060】
いくつかの実施形態では、三次元モデルは、微小環境なしにタンパク質を単に例示また
は表示してもよい。三次元モデルは、いくつかの実装では、三次元アレイにマッピングさ
れてもよい。一例では、三次元モデルの座標は、三次元アレイに記憶される。いくつかの
実施形態では、三次元画像は、三次元モデルから生成されてもよく、三次元画像は、三次
元アレイにマッピングされてもよい。アレイ内の画像データは、ボクセル化マトリックス
と称され得る。ピクセルが、二次元空間における画像のアドレス可能な要素を表し得るよ
うに、ボクセルは、三次元空間におけるアドレス可能な要素を表す。
【0061】
いくつかの実装では、画像の特徴は、三次元畳み込み層および最大プーリング層を介し
て抽出されてもよい。三次元畳み込み層における三次元フィルタは、20個のアミノ酸微
小環境を分離するために局所的な生化学的特徴を最も良く捕捉する反復空間パターンを検
索する。最大プーリング層は、入力へのダウンサンプリングを実施し、ネットワークの並
進不変性を高める。畳み込みニューラルネットワークアーキテクチャについて、以下でさ
らに考察される。
【0062】
第1の畳み込み層121は、フィルタを介して低レベルの特徴を検出する。畳み込みニ
ューラルネットワークは、畳み込みを使用して、データセットの特徴を強調する。畳み込
みニューラルネットワークの畳み込み層において、フィルタが三次元アレイに適用されて
、特徴マップを生成する。畳み込み層において、フィルタは、入力およびフィルタの要素
毎のドット積上をスライドし、入力は、特徴マップとして記憶される。いくつかの実施形
態では、3×3×3フィルタが、三次元画像に適用されてもよい。
【0063】
畳み込みフィルタおよび画像からの特徴マップは、102によって示される。いくつか
の実施形態では、参照フレームは、画像中の中央のアミノ酸の周囲に作成されてもよく、
特徴は、その中央のアミノ酸の周囲に抽出されてもよい。画像およびフィルタの畳み込み
から作成された特徴マップは、画像中のフィルタ固有の特徴の存在を要約する。画像に適
用されるフィルタの数を増加させると、追跡され得る特徴の数が増加する。102におい
て、100個のフィルタを適用して、18×18×18の特徴マップを作成した。他の実
装では、他の数のフィルタが用いられてもよい。得られる特徴マップは、その後、特徴の
非線形パターンを説明するために、活性化関数を通過してもよい。
【0064】
いくつかの実装では、式f(x)=max(0,x)を有する正規化線形関数が、活性
化関数として特徴マップに適用されてもよい。正規化線形活性化関数は、正の値に対して
線形に挙動し、この関数を最適化が容易なものにし、その後、ニューラルネットワークが
高い予測精度を達成することを可能にする。また、正規化線形活性化関数は、任意の負の
入力に対してゼロを出力し、それが真の線形関数ではないことを意味する。したがって、
畳み込みニューラルネットワーク内の畳み込み層の出力は、特徴マップであり、特徴マッ
プ内の値は、正規化線形活性化関数を通過し得る。
【0065】
第2の畳み込み層が122に例示される。畳み込み層の数を増加させると、追跡され得
る特徴の複雑性が高まり得る。122における畳み込み層は、特徴を追跡するために別の
100個のフィルタを組み込む。いくつかの実施形態では、フィルタは、追跡された特徴
の精度を確実にするために、第1の畳み込み層におけるものと同じである。代替の実施形
態では、異なるフィルタが、第2の畳み込み層に組み込まれてもよい。いくつかの実施形
態では、中央のアミノ酸に関連する原子は、フィルタを介して除去されてもよい。
【0066】
いくつかの実装では、寸法16×16×16のより小さいデータセットが103によっ
て示される(他の実装では、他の寸法が利用され得るか、またはより多数もしくはより少
数のフィルタが適用される)。第2の畳み込み層における畳み込みのドット積は、データ
セットのサイズを縮小する。データセット103は、元のタンパク質画像101からの複
雑な特徴を追跡した特徴マップを含む。
【0067】
いくつかの実装では、寸法2×2×2の第1のプーリング層が、123で実装されても
よい。プーリング層は、データをダウンサンプリングするために実装されてもよい。プー
リングウィンドウが、特徴マップに適用されてもよい。いくつかの実施形態では、プーリ
ング層は、ウィンドウ内のデータの最大値を出力し、ウィンドウ内のデータをダウンサン
プリングする。最大プーリングは、プーリングウィンドウで最も顕著な特徴を強調する。
他の実施形態では、プーリング層は、ウィンドウ内のデータの平均値を出力する。
【0068】
104におけるダウンサンプリングされたデータは、200個の独立した8×8×8ア
レイを表す。データをダウンサンプリングすることにより、ニューラルネットワークは関
連情報を保持することが可能になる。大量のデータを有することは、以下でさらに考察さ
れるように、ネットワークがその重みの精度を微調整することを可能にするために有利で
あり得るが、大量のデータにより、ニューラルネットワークは、かなりの処理時間を費や
す可能性がある。データをダウンサンプリングすることは、ネットワークで必要なコンピ
ュータ計算を低減するために、ニューラルネットワークにおいて重要であり得る。寸法2
×2×2のプーリング層123、および寸法8×8×8のダウンサンプリングされたデー
タとともに示されるが、他の実装では、他のサイズのプーリングウィンドウおよびダウン
サンプリングされたデータが利用されてもよい。
【0069】
いくつかの実装では、後続の畳み込み層124は、200個の独立した2×2×2フィ
ルタを使用して、ダウンサンプリングされたデータを再処理し、新たな特徴マップ内の特
徴を強調する。3×3×3とは対照的に、より小さいフィルタである2×2×2は、ダウ
ンサンプリングされたデータを説明するために、124において畳み込み層で実装される
。畳み込みフィルタの深さは、ドット積行列の乗算をうまく実施するために、データの深
さと同じであるべきである。他の実装では、上で考察されたように、他のサイズまたは寸
法のフィルタが利用されてもよい。
【0070】
畳み込み層124および画像からの特徴マップは、105に示される。ダウンサンプリ
ングされたデータおよびフィルタの畳み込みから作成された特徴マップは、画像中のフィ
ルタ固有の特徴の存在を要約する。105に例示される実装では、200個の独立した7
×7×7アレイがある。畳み込みからのドット積は、データのサイズをさらに縮小する。
【0071】
畳み込み層125は、図示されるように、低解像度データセット105から400個の
独立した2×2×2フィルタを使用することなどによって、追加のフィルタを使用して、
より複雑な特徴を抽出し得る。画像に適用されるフィルタの数を増加させると、追跡され
得る特徴の数が増加する。このデータは、プール層123からダウンサンプリングされ、
実質的にサイズが縮小されているため、より多くのフィルタがこの畳み込み層で適用され
て、膨大な処理またはメモリ要件の必要なしに、タンパク質101の画像の特徴を抽出お
よび強調し得る。
【0072】
畳み込み層125からの特徴マップは、106に示される。ダウンサンプリングされた
データおよびフィルタの畳み込みから作成された特徴マップは、画像中のフィルタ固有の
特徴の存在を要約する。106に例示される実装では、400個の独立した6×6×6ア
レイがあるが、様々な実装において、他の数またはサイズのアレイが利用され得る。畳み
込みからのドット積は、データのサイズをさらに縮小する。
【0073】
いくつかの実装では、寸法2×2×2(または任意の他の適切な寸法サイズ)を有する
第2のプーリング層が、126において実装されて、データをさらにダウンサンプリング
する。いくつかの実施形態では、同じタイプのプーリング層が、第1のプーリング層で実
装されたように第2のプーリング層で実装されてもよい。プーリング層のタイプによって
、データをダウンサンプリングするために使用されるプーリングウィンドウが決定される
。例えば、最大プーリング層は、123および126において実装され得る。他の実施形
態では、異なるプーリング層が、畳み込みニューラルネットワークで実装されてもよい。
例えば、最大プーリング層は、123において実装されてもよく、平均プーリング層は、
126において実装されてもよい。最大プーリング層が、プーリングウィンドウで最も顕
著な特徴を強調する一方で、平均プーリング層は、ウィンドウのデータの平均値を出力す
る。
【0074】
例示された実装では、107におけるダウンサンプリングされたデータは、400個の
独立した3×3×3アレイを表すが、他の数または寸法のアレイが利用されてもよい。大
量のデータを有することは、以下でさらに考察されるように、ネットワークがその重みの
精度を微調整することを可能にするために有利であり得るが、大量のデータにより、ニュ
ーラルネットワークは、かなりの処理時間を費やす可能性がある。データをダウンサンプ
リングすることは、ネットワークで必要なコンピュータ計算を低減するために、ニューラ
ルネットワークにおいて有用であり得る。
【0075】
データのサイズを縮小すると、データは、いくつかの実装ではさらに平坦化されてもよ
く、データが、一次元ベクトルに配置され得ることを意味する。データは、完全に接続さ
れた層で発生する行列の乗算の目的のために平坦化される。したがって、完全に接続され
た層127は、長さ10800の平坦化された一次元ベクトルを受信してもよい(例えば
、ステップ107の400×3×3×3アレイからであるが、ベクトルは、他の実装では
異なる長さを有してもよい)。畳み込みニューラルネットワークの完全に接続された層に
おいて、一次元ベクトルの各数がニューロンに適用される。ニューロンは、入力を合計し
、活性化関数を適用する。いくつかの実施形態では、活性化関数は、正規化線形関数であ
る。代替の実施形態では、活性化関数は、双曲線正接またはシグモイド関数であってもよ
い。
【0076】
例示される実装では、第1の完全に接続された層127は、長さ10800の108に
おける一次元ベクトルを出力する(ただし、上で考察されたように、他の長さが利用され
てもよい)。完全に接続された層によって出力されるベクトルは、実数のベクトルを表す
。いくつかの実施形態では、実数は、出力および分類されてもよい。他の実施形態では、
実数は、畳み込みニューラルネットワークの精度を改善するために、後続の完全に接続さ
れた層にさらに入力されてもよい。
【0077】
本実施形態では、第1の完全に接続された層108の出力は、128において示される
第2の完全に接続された層に入力される。第1の完全に接続された層108の出力は、す
でに一次元ベクトルであるため、後続の完全に接続された層に入力される前に平坦化され
る必要はない。いくつかの実施形態では、ニューラルネットワークの精度を改善するため
に、追加の完全に接続された層が実装される。追加の完全に接続された層の数は、ニュー
ラルネットワークを実行するコンピュータの処理能力によって制限され得る。あるいは、
完全に接続された層の追加は、追加の完全に接続された層を処理するためのコンピュータ
計算時間の増加と比較して、精度のわずかな増加によって制限され得る。
【0078】
例示される実装では、第2の完全に接続された層128は、109において長さ100
0の一次元ベクトルを出力する(ただし、他の長さが利用されてもよい)。完全に接続さ
れた層によって出力されるベクトルは、実数のベクトルを表す。いくつかの実施形態では
、実数は、出力および分類されてもよい。他の実施形態では、実数は、畳み込みニューラ
ルネットワークの精度を改善するために、後続の完全に接続された層にさらに入力されて
もよい。
【0079】
129において、いくつかの実装では、完全に接続された層109の出力は、ソフトマ
ックス分類器に入力される。ソフトマックス分類器は、ソフトマックス関数または正規化
された指数関数を使用して、実数の入力を、予測された出力クラスに対する正規化された
確率分布に変換する。代替の実施形態では、シグモイド関数を使用して、畳み込みニュー
ラルネットワークの出力を分類してもよい。シグモイド関数は、1つのクラスがある場合
に使用され得る。ソフトマックス関数は、マルチクラスシグモイド関数である。
【0080】
110において、ソフトマックス層の出力は、20個の特定されたアミノ酸の各々が標
的タンパク質の特性を改善する確率である(ただし、より多数またはより少数のアミノ酸
が、他の実装で利用されてもよい)。この出力は、追加の畳み込みニューラルネットワー
クが、予測アミノ酸配列を所与として異なるクエリを実施することができるように、追加
の畳み込みニューラルネットワークに入力されてもよく、または出力110は、標的タン
パク質の特性を改善する予測アミノ酸として直接使用されてもよい。
【0081】
図1Bは、微小環境の中心におけるアミノ酸残基を決定するための方法の実装のフロー
チャートである。ニューラルネットワークが、特定の入力を所与として出力を分類する方
法を学習できるように、ニューラルネットワークは、既知の入力/出力の対について訓練
されてもよい。いったんニューラルネットワークが、既知の入力/出力の対を分類する方
法を学習すると、ニューラルネットワークは、分類された出力が何であるべきかを予測す
るために未知の入力で動作することができる。本実施形態では、ニューラルネットワーク
は、微小環境の中心におけるアミノ酸を予測するように訓練される。試験中、ニューラル
ネットワークは、アミノ酸配列が提供され、アミノ酸の周囲の微小環境を分析し、天然ア
ミノ酸残基とは異なるアミノ酸残基を予測し得る。ニューラルネットワークの予測アミノ
酸は、改善されたタンパク質が、天然アミノ酸残基を予測アミノ酸残基に変異させること
によって生成され得ることを示す。
【0082】
ステップ130において、いくつかの実装では、ニューラルネットワークを訓練するた
めに使用される多様なタンパク質サンプルセットがコンパイルまたは構築されてもよい。
サンプルセットがより多様であるほど、ニューラルネットワークは、その分類においてよ
り堅牢になり得る。例えば、ニューラルネットワークは、学習の第1の反復中に入力/出
力の対を分類しようと試みる。次の学習の反復中に、入力/出力の対が、第1の反復の学
習された入力/出力の対と類似している場合、ニューラルネットワークは、ニューラルネ
ットワークが堅牢であるためではなく、単にデータが類似しているために機能するはずで
あるよりも高く人工的に機能し得る。多様な入力/出力の対が、その後、第3の反復のた
めにネットワークに入力される場合、分類誤差は、最初の2つの入力/出力の対が多様で
あった場合よりもはるかに大きくなる可能性が高い。最初の2つの入力/出力の対の類似
性によって、ニューラルネットワークが、最初の2つの反復の類似した入力/出力の対を
学習するようにそれ自体を微調整する可能性がある。これは、ネットワークを「過剰訓練
すること」と呼ばれ得る。
【0083】
あるいは、訓練の第2の反復が、第1の反復の入力/出力の対と比較して別個の入力/
出力の対を使用した場合、ニューラルネットワークは、より広範な入力/出力の対を分類
することが可能であるように強制される。試験中、出力は既知ではないため、ネットワー
クが幅広い入力/出力の対を分類することが可能であることが理想的である。
【0084】
したがって、ステップ130のいくつかの実装では、ニューラルネットワークのための
訓練データセットは、ある閾値にわたってすべて系統発生的に分岐しているタンパク質か
ら構築される。様々な実施形態では、データセットは、少なくとも20%、30%、40
%、または50%系統発生的に分岐しているタンパク質から構築される。そのようなフィ
ルタリングは、訓練セットで何度も生じ得る非常に類似/重複したタンパク質を除去する
ことによって、効率を高める。そのような改善は、過剰サンプリングされたタンパク質に
対する現在の技術水準で存在するバイアスを低減し得る。
【0085】
いくつかの実施形態では、訓練データセット中の個々のタンパク質を、注釈を欠いたそ
れらのタンパク質データベース(PDB)構造に水素原子を付加することによって修飾し
た。一実施形態では、水素原子の付加は、ソフトウェア変換器、例えば、pdb2pqr
を使用して達成される。別の実施形態では、原子は、各原子の結合能力、およびDNA骨
格中のリンなどの他の原子の含有によってさらに分離される。
【0086】
いくつかの実施形態では、訓練セット中の個々のタンパク質を、部分電荷、ベータ因子
、二次構造、芳香族性、および極性を含むがこれに限定されない、タンパク質の追加の特
性を考慮に入れて、タンパク質モデルに生物物理学的チャネルを付加することによって修
飾した。
【0087】
いくつかの実施形態では、同じタンパク質の高解像度モデルおよび低解像度モデルが、
タンパク質データベース内に共存し得る場合、訓練データは、除去されてもよい。本明細
書で考察される方法のいくつかの実装によると、閾値を下回る解像度の関連構造を有する
すべての遺伝子は、あるパーセンテージ閾値を超える配列類似性を有する群に一緒にグル
ープ分けされてもよい。本明細書で使用される場合、「解像度」は、典型的にはオングス
トローム(A)で測定される分子の電子密度マップの解像性を指す。電子密度マップは、
点間のより低い距離に解像可能であり、分子構造のより多くの特徴が見えることを意味す
るため、「より低い」解像度を有する分子モデルは、「より高い」解像度を有する分子モ
デルよりも高い品質である。一例では、関連構造、ならびに2.5Å未満の解像度および
少なくとも50%の配列類似性を有するすべての遺伝子が、一緒にグループ分けされ、最
低の解像度を有する利用可能な構造が、訓練モデルで使用するために選択され、より高い
解像度(より低品質)の分子モデルは、除去される。
【0088】
いくつかの実施形態では、アミノ酸サンプリングを、20個すべてのアミノ酸の等しい
表現とは対照的に、システインに対してPDBにおけるその存在量で正規化した。一実施
形態では、アミノ酸サンプリングは、自然発生に対して正規化されてもよい。一実施形態
では、アミノ酸サンプリングは、所与の種内の自然発生に対して正規化されてもよい。シ
ステインは、任意の所与の位置で高い確率が人工的に割り当てられ得るため、システイン
アミノ酸をデータサンプル中で修飾した。システインは、PDBで観察される最も希少な
アミノ酸であり、したがって、より豊富なアミノ酸が過少サンプリングされ、占有する可
能性があるタンパク質微小環境の多様性が不完全に表されていた可能性がある。データサ
ンプル中のシステインアミノ酸を修飾することは、野生型の精度の有意な増加をもたらし
た。アミノ酸毎に、精度は、96.7%~32.8%の範囲である(図2Aを参照された
い)。
【0089】
ステップ131において、タンパク質中のアミノ酸は、アミノ酸配列からランダムにサ
ンプリングされてもよい。一実施形態では、タンパク質中のアミノ酸の最大50%を、タ
ンパク質が大きい場合を除いてサンプリングし、その場合、個々のタンパク質から100
個以下のアミノ酸をサンプリングした。別の実施形態では、上限は、個々のタンパク質当
たり200個のアミノ酸であった。開示されたサンプリング方法は、タンパク質の外側の
残基に対するデータセットのバイアスを除去する。
【0090】
ステップ132において、タンパク質結晶構造の三次元モデルは、構造を含む各アミノ
酸に関連する微小環境とともに作成され得る。例えば、三次元モデルを生成するためのい
くつかの方法としては、他にも方法があるが、未知のタンパク質モデルが既知のタンパク
質構造から取られる候補断片のプールから構築される場合の断片集合、既知のタンパク質
セグメントがアミノ酸配列に一致する場合のセグメント一致、または既知のタンパク質モ
デルが選択され(「テンプレート」)、アミノ酸配列の残基がテンプレート配列中の残基
にマッピングされ(アライメント)、配列中の様々な距離、角度、および二面角への拘束
がテンプレート構造とのアライメントから導出され、拘束の違反が最小化される場合の空
間的拘束の達成に基づく比較タンパク質モデリングが挙げられる。タンパク質結晶構造の
三次元モデルが生成されると、構造を含む各アミノ酸に関連する微小環境も生成される。
既存のタンパク質構造データベースの1つの障害は、新たなタンパク質が付加される際に
、結晶構造を作成するために異なる方法が使用されることである。三次元構造を作成する
異なる方法は、モデルの精度に影響を与える可能性がある異なるバイアスまたはアーチフ
ァクトを追加し得る。同じ方法の最新で、同じバージョンを使用して構造を再構築するこ
とにより、訓練構造が、より古いバージョンに存在するアーチファクトまたは誤差ではな
く、化学組成で変化することが確実になる。
【0091】
ステップ133において、ステップ132から生成された三次元モデルが、三次元アレ
イにマッピングされてもよい。一例では、三次元モデルの座標は、三次元アレイに記憶さ
れる。いくつかの実施形態では、三次元画像は、三次元モデルから生成されてもよく、三
次元画像は、三次元アレイにマッピングされてもよい。アレイ内の画像データは、ボクセ
ル化マトリックスと呼ばれ得る。ピクセルが、二次元空間における画像のアドレス可能な
要素を表すように、ボクセルは、三次元空間におけるアドレス可能な要素を表す。
【0092】
ステップ134において、画像は、畳み込みニューラルネットワーク内の畳み込み層に
入力される。畳み込み層は、フィルタを介して画像の特徴を検出する。フィルタは、画像
内の特定の特徴の存在を検出するよう設計されている。単純化された例では、ハイパスフ
ィルタは、高周波信号の存在を検出する。ハイパスフィルタの出力は、高周波を有する信
号の部分である。同様に、画像フィルタは、画像内の特定の特徴を追跡するように設計さ
れ得る。画像に適用されるフィルタの数が多いほど、追跡され得る特徴も多くなる。
【0093】
ステップ135において、画像は、畳み込み層内のフィルタと畳み込みされて、画像内
のフィルタ固有の特徴を抽出する。畳み込み層において、フィルタは、入力およびフィル
タの要素毎のドット積上をスライドし、入力は、特徴マップとして記憶される。
【0094】
136における決定は、より多くのフィルタがあるかどうかに依存する。上で考察され
たように、実装されたより多くのフィルタは、画像内で追跡され得るより多くの特徴を意
味し得る。各フィルタは、独立して画像と畳み込まれて、独立した特徴マップを作成する
。より多くのフィルタが画像と畳み込まれる場合、ステップ134および135が繰り返
され得る。フィルタのすべてが画像と畳み込まれている場合、プロセスは、ステップ13
7に進む。いくつかの実施形態では、特徴マップは、一緒に連結されて、画像に適用され
るフィルタの数と同程度に深い特徴マップを作成し得る。他の実施形態では、特徴マップ
は、一度に1つずつ処理されてもよい。
【0095】
ステップ137において、活性化関数が、畳み込みニューラルネットワークの畳み込み
層の特徴マップに適用される。活性化関数は、ニューラルネットワークが抽出された特徴
マップ内の非線形パターンを検出することを可能にする。式f(x)=max(0,x)
を有する正規化線形関数が、特徴マップに適用されてもよい。正規化線形活性化関数は、
正の値に対して線形に挙動し、この関数を最適化が容易なものにし、その後、ニューラル
ネットワークがより高い精度を達成することを可能にする。また、正規化線形活性化関数
は、任意の負の入力に対してゼロを出力し、それが真の線形関数ではないことを意味する
。したがって、畳み込みニューラルネットワーク内の畳み込み層の出力は、特徴マップで
あり、特徴マップ内の値は、正規化線形活性化関数を通過している。
【0096】
138における決定は、さらなる畳み込み層があるかどうかに依存する。畳み込み層の
数を増加させると、追跡され得る特徴の複雑性が高まり得る。追加の畳み込み層がある場
合、新たなフィルタが画像に適用され得、プロセスは、ステップ134~138を繰り返
し得る。いくつかの実施形態では、フィルタは、追跡された特徴の精度を確実にするため
に、第1の畳み込み層におけるものと同じであってもよい。代替の実施形態では、異なる
フィルタが、第2の畳み込み層に組み込まれてもよい。さらなる畳み込み層がない場合、
プロセスは、ステップ139に進む。
【0097】
ステップ139において、プーリング層が、データをダウンサンプリングする。プーリ
ングウィンドウが、特徴マップに適用されてもよい。いくつかの実施形態では、プーリン
グ層は、ウィンドウ内のデータの最大値を出力し、ウィンドウ内のデータをダウンサンプ
リングする。最大プーリングは、プーリングウィンドウで最も顕著な特徴を強調する。他
の実施形態では、プーリング層は、ウィンドウ内のデータの平均値を出力する。
【0098】
140における決定は、さらなる畳み込み層があるかどうかに依存する。畳み込み層の
数を増加させると、追跡され得る特徴の複雑性が増大し得る。追加の畳み込み層がある場
合、新たなフィルタが画像に適用され得、プロセスは、ステップ134~140を繰り返
し得る。いくつかの実施形態では、フィルタは、追跡された特徴の精度を確実にするため
に、第1の畳み込み層におけるものと同じである。代替の実施形態では、異なるフィルタ
が、第2の畳み込み層に組み込まれてもよい。したがって、ステップ134~136、1
34~138、および134~140の繰り返される反復は、追跡された特徴の柔軟性お
よび増大した複雑性を提供する。さらなる畳み込み層がない場合、プロセスは、ステップ
141に進む。
【0099】
ステップ141において、いくつかの実装では、ダウンサンプリングされたデータが平
坦化される。これは、データが、一次元ベクトルに配置されることを意味する。データは
、完全に接続された層で発生する行列の乗算の目的のために平坦化される。
【0100】
ステップ142において、いくつかの実装では、平坦化された一次元ベクトルは、ニュ
ーラルネットワークの完全に接続された層に入力される。畳み込みニューラルネットワー
クの完全に接続された層において、一次元ベクトルの各数が、入力としてニューロンに適
用される。ニューロンは、入力を合計し、活性化関数を適用する。いくつかの実施形態で
は、活性化関数は、正規化線形関数である。代替の実施形態では、活性化関数は、双曲線
正接またはシグモイド関数であってもよい。
【0101】
いくつかの実施形態では、完全に接続された層内のニューロンの第1のセットの出力は
、重みを介してニューロンの別のセットに入力されてもよい。ニューロンの後続の各セッ
トは、ニューロンの「隠れ層」と称され得る。完全に接続された中の隠れ層の数は、取り
除かれてもよい。言い換えれば、ニューラルネットワーク内の隠れ層の数は、ニューロン
ネットワークが出力を分類する方法を学習するにつれて適応的に変化し得る。
【0102】
ステップ143において、いくつかの実装では、完全に接続されたネットワークを含む
ニューロンは、重みによって他のニューロンに接続される。重みは、一部のニューロンの
効果を強化し、他のニューロンの効果を弱めるように調整される。各ニューロンの強度の
調整により、ニューラルネットワークは、出力をより良く分類することが可能になる。ニ
ューロンを接続する重みは、ニューラルネットワークが入力または「訓練」を分類する方
法を学習している間に調整される。いくつかの実施形態では、ニューラルネットワーク内
のニューロンの数は、取り除かれてもよい。言い換えれば、ニューラルネットワーク内で
アクティブであるニューロンの数は、ニューラルネットワークが出力を分類する方法を学
習するにつれて適応的に変化する。
【0103】
144における決定は、追加の完全に接続された層があるかどうかに依存する。いくつ
かの実施形態では、1つの完全に接続された層の出力は、第2の完全に接続された層への
入力になり得る。いくつかの実施形態では、ニューラルネットワークの精度を改善するた
めに、追加の完全に接続された層が実装される。追加の完全に接続された層の数は、ニュ
ーラルネットワークを実行するコンピュータの処理能力によって制限され得る。あるいは
、完全に接続された層の追加は、追加の完全に接続された層を処理するためのコンピュー
タ計算時間の増加と比較して、精度のわずかな増加によって制限され得る。代替の実施形
態では、1つの完全に接続された層の出力は、画像を分類するのに十分であり得る。追加
の完全に接続された層がある場合、ステップ142および143は、入力ベクトルが、重
みを介して互いに接続されるニューロンに供給されるように繰り返される。追加の完全に
接続された層がない場合、プロセスは、ステップ145に進む。
【0104】
ステップ145において、いくつかの実装では、完全に接続された層は、実数のベクト
ルを出力する。いくつかの実施形態では、実数は、出力および分類されてもよい。代替の
実施形態では、完全に接続された層の出力は、ソフトマックス分類器に入力される。ソフ
トマックス分類器は、ソフトマックス関数または正規化された指数関数を使用して、実数
の入力を、予測された出力クラスに対する正規化された確率分布に変換する。他の実施形
態では、シグモイド関数を使用して、畳み込みニューラルネットワークの出力を分類して
もよい。シグモイド関数は、1つのクラスがある場合に使用され得る。ソフトマックス関
数は、マルチクラスシグモイド関数である。いくつかの実施形態では、ニューラルネット
ワークの出力は、化学的微小環境の中心における予測アミノ酸残基を表す。
【0105】
例えば、ニューラルネットワークは、20個の実数を含む20の長さのベクトルを出力
してもよい。ベクトルは、20の長さを有し、これは、20個の可能性のあるアミノ酸が
微小環境の中心に存在し得るためである。ベクトル内の値が、微小環境の中心に存在する
アミノ酸の可能性を表すように、ベクトル内の実数は、ソフトマックス分類器を通過する
【0106】
ステップ146において、いくつかの実装では、予測アミノ酸残基は、化学環境の中心
における天然アミノ酸と比較される。例えば、真のアミノ酸ベクトルは、長さ20のベク
トルであってもよく、単一の「1」は、化学環境の中心における天然アミノ酸を示し、ベ
クトル内の他の値は、「0」を保持する。
【0107】
訓練中の既知の入力/出力の対を比較する学習である、ニューラルネットワークにおけ
るこのタイプの学習は、教師あり学習と呼ばれる。予測値と既知の値との間の差が決定さ
れ得、情報は、ニューラルネットワークを介して逆伝播される。重みは、その後、誤差信
号によって修正されてもよい。ニューラルネットワークを訓練するこの方法は、逆伝播法
と呼ばれる。
【0108】
ステップ147において、いくつかの実装では、重みは、最急降下法を介して更新され
る。以下の方程式1は、重みが各反復nでどのように調整されるかを示す。
【数1】

上の方程式1中、wjiは、ニューロンiをニューロンjに接続する重みを表す。
【0109】
最急降下法は、目的関数を最小化する最適化技術である。言い換えれば、最急降下法は
、最急降下の方向に未知のパラメータを調整することが可能である。訓練中、ニューラル
ネットワークの分類精度を最適化する重みの値は、未知である。したがって、重みは、最
急降下の方向に調整される未知のパラメータである。
【0110】
いくつかの実施形態では、目的関数は、交差エントロピー誤差関数であってもよい。交
差エントロピー誤差関数を最小化することは、予測アミノ酸ベクトルの確率分布と天然ア
ミノ酸ベクトルの確率分布との間の差を最小化することを表す。いくつかの実施形態では
、目的関数は、二乗誤差関数であってもよい。二乗誤差目的関数を最小化することは、各
ニューロンの瞬時誤差を最小化することを表す。
【0111】
各訓練の反復中、重みは、その最適値に近づくように調整される。ネットワーク内のニ
ューロンの位置に応じて、異なる式を使用して、重みが目的関数に対してどのように調整
されるかを決定する。以下の方程式2は、ニューロンiとニューロンjとの間の重みが、
交差エントロピー誤差関数に対してどのように調整されるかを示す。
【数2】

重みが小さすぎ、ニューロンの出力が、分類に大きい影響を与えている可能性がないこと
を意味する場合、小さい重みが最適重みと比較されるときの重みの負の傾きおよび方程式
中の負号により、重みの正の変化がある。重みが大きすぎる場合、大きい重みが最適重み
と比較されるときの重みの正の傾きおよび方程式中の負号により、重みの負の変化がある
。したがって、重みは、最適な値に近づくようにそれ自体を訓練する。重みの修正は、ス
テップ147によって示されるように、一時的に記憶されてもよい。
【0112】
いくつかの実施形態では、重みの修正が決定される度に、重みが調整されてもよい。こ
のタイプの訓練は、オンラインまたはインクリメンタル訓練と呼ばれ得る。インクリメン
タル訓練の1つの利点としては、入力の小さい変化を追跡するニューラルネットワークの
能力が挙げられる。いくつかの実施形態では、重みは、ニューラルネットワークが入力/
出力の対のバッチを受信した後に修正されてもよい。このタイプの訓練は、バッチ訓練と
呼ばれ得る。バッチ訓練の1つの利点としては、最適化された重み値へのニューラルネッ
トワークのより迅速な収束が挙げられる。本実施形態では、ニューラルネットワークを、
160万個のアミノ酸および微小環境の対について訓練した。本実施形態では、20のバ
ッチサイズを使用した。ステップ148において、カウンターがインクリメントされる。
ニューラルネットワークは、カウンターが20に達すると、バッチ訓練の1ラウンドを完
了する。言い換えれば、ニューラルネットワークが20個の入力/出力の対に基づいてそ
れ自体を評価すると、訓練の1ラウンドが完了する。
【0113】
149における決定は、訓練サンプルの現在のバッチが完了したかどうかに依存する。
1つのバッチを満たすために必要な訓練サンプルの数が達成された場合、ネットワークは
、ステップ150に進む。上で考察されたように、1バッチの訓練には20個の入力/出
力の対が必要である。1つのバッチを満たすために必要なサンプルの数が達成されていな
い場合、ニューラルネットワークは、ステップ134~149を繰り返す。
【0114】
ステップ150において、ステップ147において一時的に記憶された重みの修正が合
計される。重みの値は、20個の入力/出力の対の新たなバッチが新しく修正された重み
値を使用して評価されるように、合計された修正に従って修正される。
【0115】
151における決定は、訓練の反復の最大数に達したかどうかに依存する。バッチ訓練
の1ラウンドが完了すると、1回の訓練の反復が完了する。いくつかの状況では、重みが
その最適値の周囲を行ったり来たりし続けるため、重みは、その最適値に決して到達しな
い可能性がある。したがって、いくつかの実施形態では、ニューラルネットワークがネッ
トワークを無期限に訓練することを防止するように、最大反復回数が設定され得る。
【0116】
最大反復数に達していない場合、ニューラルネットワークは、ステップ130で作成さ
れたデータサンプルからの別の入力/出力の対を使用して、ネットワークを再び訓練する
ことを許可され得る。反復カウンターは、ニューラルネットワークが訓練の1バッチを完
了した後、ステップ153において増加する。
【0117】
最大反復数に達した場合、ニューラルネットワークは、重みの値を記憶し得る。ステッ
プ152は、重みの値を記憶することを示す。これらの重みは、ネットワークによって訓
練されている重みであり、その後、ニューラルネットワークを試験するときに使用される
ため、メモリに記憶される。
【0118】
反復数に達していない場合、予測アミノ酸残基と既知の天然アミノ酸残基との間の誤差
が評価されてもよい。この評価は、ステップ154において実施される。いくつかの状況
では、予測値と既知の天然の値との間の誤差は、非常に小さいため、誤差は、許容可能で
あるとみなされ得、ニューラルネットワークは、訓練を続ける必要はない。これらの状況
では、そのような小さい誤差率をもたらした重みの値が記憶され、その後、試験で使用さ
れてもよい。いくつかの実施形態では、ニューラルネットワークは、ニューラルネットワ
ークが、1つの出力を非常に良好に予測するか、または1つの出力を非常に良好に誤って
予測する方法を学習しなかったことを確実にするために、数回の反復に対して小さい誤差
率を維持しなければならない。数回の反復にわたって小さい誤差を維持するようネットワ
ークに要求すると、ネットワークが多様な入力範囲を適切に分類している可能性が高くな
る。予測値と既知の値との間の誤差がまだ大きすぎる場合、ニューラルネットワークは、
それ自体を訓練し続け、ステップ131~154を繰り返し得る。多くの実装では、ステ
ップ131~154の繰り返しの反復中、ニューラルネットワークは、新たなデータセッ
トを使用して、ニューラルネットワークを訓練する。
【0119】
図1Cは、試験中に合成タンパク質特性を高めるための方法の実装のフローチャートで
ある。ステップ160において、訓練シナリオから記憶された重みは、ステップ172に
おいて完全に接続された層の重みとして設定される。これらの重みは、重みが未知の入力
を正確に分類することが可能である可能性が高くあるべきであるように、重みが広範かつ
多様な入力セットを介して訓練されているため、未知の入力が分類される必要がある場合
に使用される。
【0120】
ステップ161において、いくつかの実装では、未知のタンパク質が、ランダムにサン
プリングされる。一実施形態では、タンパク質中のアミノ酸の最大50%が、タンパク質
が大きい場合を除いてサンプリングされ、その場合、個々のタンパク質から100個以下
のアミノ酸をサンプリングした。別の実施形態では、上限は、個々のタンパク質当たり2
00個のアミノ酸である。開示されたサンプリング方法は、タンパク質の外側の残基に対
するデータセットのバイアスを除去する。
【0121】
ステップ162において、タンパク質結晶構造の三次元モデルは、構造を含む各アミノ
酸に関連する微小環境とともに作成され得る。三次元モデルを生成するためのいくつかの
方法としては、他にも方法があるが、未知のタンパク質モデルが既知のタンパク質構造か
ら取られる候補断片のプールから構築される場合の断片集合、既知のタンパク質セグメン
トがアミノ酸配列に一致する場合のセグメント一致、または既知のタンパク質モデルが選
択され(「テンプレート」)、アミノ酸配列の残基がテンプレート配列中の残基にマッピ
ングされ(アライメント)、配列中の様々な距離、角度、および二面角への拘束がテンプ
レート構造とのアライメントから導出され、拘束の違反が最小化される場合の空間的拘束
の達成に基づく比較タンパク質モデリングが挙げられる。タンパク質結晶構造の三次元モ
デルが生成されると、構造を含む各アミノ酸に関連する微小環境も生成される。既存のタ
ンパク質構造データベースの1つの障害は、新たなタンパク質が付加される際に、結晶構
造を作成するために異なる方法が使用されることである。三次元構造を作成する異なる方
法は、モデルの精度に影響を与える可能性がある異なるバイアスまたはアーチファクトを
追加し得る。同じ方法の最新で、同じバージョンを使用して構造を再構築することにより
、訓練構造が、より古いバージョンに存在するアーチファクトまたは誤差ではなく、化学
組成で変化することが確実になる。
【0122】
ステップ163において、ステップ162から生成された三次元モデルが、三次元アレ
イにマッピングされてもよい。一例では、三次元モデルの座標は、三次元アレイに記憶さ
れる。いくつかの実施形態では、三次元画像は、三次元モデルから生成されてもよく、三
次元画像は、三次元アレイにマッピングされてもよい。アレイ内の画像データは、ボクセ
ル化マトリックスと呼ばれ得る。ピクセルが、二次元空間における画像のアドレス可能な
要素を表すように、ボクセルは、三次元空間におけるアドレス可能な要素を表す。
【0123】
ステップ164において、画像は、畳み込みニューラルネットワーク内の畳み込み層に
入力されてもよい。畳み込み層は、フィルタを介して画像の特徴を検出する。フィルタは
、画像内の特定の特徴の存在を検出するよう設計されている。単純化された例では、ハイ
パスフィルタは、高周波信号の存在を検出する。ハイパスフィルタの出力は、高周波を有
する信号の部分である。同様に、画像フィルタは、画像内の特定の特徴を追跡するように
設計され得る。画像に適用されるフィルタの数が多いほど、追跡され得る特徴も多くなる
【0124】
ステップ165において、画像は、畳み込み層内のフィルタと畳み込みされて、画像内
のフィルタ固有の特徴を抽出する。畳み込み層において、フィルタは、入力およびフィル
タの要素毎のドット積上をスライドし、入力は、特徴マップとして記憶される。
【0125】
166における決定は、より多くのフィルタがあるかどうかに依存する。上で考察され
たように、実装されたより多くのフィルタは、画像内で追跡され得るより多くの特徴を意
味する。各フィルタは、独立して画像と畳み込まれて、独立した特徴マップを作成する。
より多くのフィルタが画像と畳み込まれる場合、ステップ164および165が繰り返さ
れ得る。フィルタのすべてが画像と畳み込まれている場合、プロセスは、ステップ167
に進む。いくつかの実施形態では、特徴マップは、一緒に連結されて、画像に適用される
フィルタの数と同程度に深い特徴マップを作成し得る。他の実施形態では、特徴マップは
、一度に1つずつ処理されてもよい。
【0126】
ステップ167において、いくつかの実装では、活性化関数が、畳み込みニューラルネ
ットワークの畳み込み層の特徴マップに適用される。活性化関数は、ニューラルネットワ
ークが抽出された特徴マップ内の非線形パターンを検出することを可能にする。式f(x
)=max(0,x)を有する正規化線形関数が、活性化関数として特徴マップに適用さ
れてもよい。正規化線形活性化関数は、正の値に対して線形に挙動し、この関数を最適化
が容易なものにし、その後、ニューラルネットワークが高い予測精度を達成することを可
能にする。また、正規化線形活性化関数は、任意の負の入力に対してゼロを出力し、それ
が真の線形関数ではないことを意味する。したがって、畳み込みニューラルネットワーク
内の畳み込み層の出力は、特徴マップであり、特徴マップ内の値は、正規化線形活性化関
数を通過し得る。
【0127】
168における決定は、さらなる畳み込み層があるかどうかに依存する。畳み込み層の
数を増加させると、追跡され得る特徴の複雑性が増大し得る。追加の畳み込み層がある場
合、新たなフィルタが画像に適用され、ステップ164~168が繰り返され得る。いく
つかの実施形態では、フィルタは、追跡された特徴の精度を確実にするために、第1の畳
み込み層におけるものと同じである。代替の実施形態では、異なるフィルタが、第2の畳
み込み層に組み込まれてもよい。さらなる畳み込み層がない場合、プロセスは、ステップ
169に進む。
【0128】
ステップ169において、プーリング層が、データをダウンサンプリングする。プーリ
ングウィンドウが、特徴マップに適用されてもよい。いくつかの実施形態では、プーリン
グ層は、ウィンドウ内のデータの最大値を出力し、ウィンドウ内のデータをダウンサンプ
リングする。最大プーリングは、プーリングウィンドウで最も顕著な特徴を強調する。他
の実施形態では、プーリング層は、ウィンドウ内のデータの平均値を出力する。
【0129】
170における決定は、さらなる畳み込み層があるかどうかに依存する。畳み込み層の
数を増加させると、追跡され得る特徴の複雑性が増大し得る。追加の畳み込み層がある場
合、新たなフィルタが画像に適用され、ステップ164~170が繰り返され得る。いく
つかの実施形態では、フィルタは、追跡された特徴の精度を確実にするために、第1の畳
み込み層におけるものと同じである。代替の実施形態では、異なるフィルタが、第2の畳
み込み層に組み込まれてもよい。さらなる畳み込み層がない場合、プロセスは、ステップ
171に進む。
【0130】
ステップ171において、いくつかの実装では、ダウンサンプリングされたデータが平
坦化される。これは、データが、一次元ベクトルに配置されることを意味する。データは
、完全に接続された層で発生する行列の乗算の目的のために平坦化される。
【0131】
ステップ172において、いくつかの実装では、平坦化された一次元ベクトルは、ニュ
ーラルネットワークの完全に接続された層に入力される。畳み込みニューラルネットワー
クの完全に接続された層において、一次元ベクトルの各数がニューロンに適用される。ニ
ューロンは、入力を合計し、活性化関数を適用する。いくつかの実施形態では、活性化関
数は、正規化線形関数である。代替の実施形態では、活性化関数は、双曲線正接またはシ
グモイド関数であってもよい。
【0132】
ステップ173において、いくつかの実装では、完全に接続されたネットワークを含む
ニューロンは、重みが掛けられる。完全に接続されたネットワーク内の重みは、ステップ
160において初期化された重みである。これらの重みは、重みが未知の入力を正確に分
類することが可能である可能性が高くあるべきであるように、重みが広範かつ多様な入力
セットを介して訓練されているため、未知の入力が評価される場合に使用される。
【0133】
174における決定は、追加の完全に接続された層があるかどうかに依存する。いくつ
かの実施形態では、1つの完全に接続された層の出力は、第2の完全に接続された層への
入力になり得る。いくつかの実施形態では、ニューラルネットワークの精度を改善するた
めに、追加の完全に接続された層が実装される。追加の完全に接続された層の数は、ニュ
ーラルネットワークを実行するコンピュータの処理能力によって制限され得る。あるいは
、完全に接続された層の追加は、追加の完全に接続された層を処理するためのコンピュー
タ計算時間の増加と比較して、精度のわずかな増加によって制限され得る。代替の実施形
態では、1つの完全に接続された層の出力は、画像を分類するのに十分であり得る。追加
の完全に接続された層がある場合、ステップ172および173は、入力ベクトルが、重
みを介して互いに接続されるニューロンに供給されるように繰り返される。追加の完全に
接続された層がない場合、プロセスは、ステップ175に進む。
【0134】
ステップ175において、完全に接続された層は、実数のベクトルを出力する。いくつ
かの実施形態では、実数は、出力および分類されてもよい。代替の実施形態では、完全に
接続された層の出力は、ソフトマックス分類器に入力される。ソフトマックス分類器は、
ソフトマックス関数または正規化された指数関数を使用して、実数の入力を、予測された
出力クラスに対する正規化された確率分布に変換する。他の実施形態では、シグモイド関
数を使用して、畳み込みニューラルネットワークの出力を分類してもよい。シグモイド関
数は、1つのクラスがある場合に使用され得る。ソフトマックス関数は、マルチクラスシ
グモイド関数である。いくつかの実施形態では、ニューラルネットワークの出力は、タン
パク質の品質指標を改善するために予測された候補残基およびアミノ酸残基を表す。
【0135】
ステップ176において、合成タンパク質は、ニューラルネットワークの出力に従って
生成され得る。合成タンパク質は、ニューラルネットワークを実行するコンピューティン
グデバイスによって、ニューラルネットワークを実行するコンピューティングデバイスと
通信している別のコンピューティングデバイスによって、第三者の製造業者もしくは研究
所によって、またはニューラルネットワークによって特定された候補アミノ酸残基および
予測アミノ酸残基に従って置換を行う別の実体によって生成され得る。例えば、いくつか
の実施形態では、合成タンパク質は、ニューラルネットワークによって、および/または
ニューラルネットワークもしくはニューラルネットワークを実行するコンピューティング
デバイスの方向で特定される予測アミノ酸残基および候補残基に従って、1つ以上の置換
を行う実体によって得られてもよい。いくつかの実施形態では、ニューラルネットワーク
は、天然アミノ酸残基と同じであるアミノ酸残基を予測し得る。他の実施形態では、ニュ
ーラルネットワークは、天然アミノ酸残基とは異なるアミノ酸残基を予測し得る。ニュー
ラルネットワークの予測アミノ酸は、改善されたタンパク質が、天然アミノ酸残基を予測
アミノ酸残基に変異させることによって生成され得ることを示す。したがって、合成タン
パク質は、ニューラルネットワークの出力に従って生成され得る。
【0136】
図1Dは、いくつかの実装による、訓練中のニューラルネットワークのブロック図であ
る。入力は、180においてニューラルネットワークに供給される。上で考察されたよう
に、ニューラルネットワークは、様々な入力を受け入れることが可能である。いくつかの
実施形態では、ニューラルネットワークは、アミノ酸配列または残基を受け入れる。他の
実施形態では、ニューラルネットワークは、一連の各位置に位置する離散属性を有する一
連のアミノ酸を受信してもよい。
【0137】
ブロック図中、181は、経時的に変化するニューラルネットワークを表す。上で考察
されたように、訓練中、ニューラルネットワークは、新たな入力/出力の各反復を適応的
に更新する。重みは、予測出力と既知の出力との間の差によって計算された誤差信号に応
じて更新されるため、ニューラルネットワークは、適応的に更新される。
【0138】
ブロック図中、182は、ニューラルネットワークが予測する出力が、クエリを満たす
ことを表す。例えば、ニューラルネットワークは、修飾され得る特定のアミノ酸残基を特
定するようにクエリが行われ、訓練されてもよい。これらの状況では、ニューラルネット
ワークの出力は、アミノ酸残基であってもよく、アミノ酸残基は、改善された特性を有す
る新たなタンパク質を合成するために使用されてもよい。他の実施形態では、ニューラル
ネットワークの出力は、置換として使用され得るアミノ酸残基であってもよく、置換は、
改善された特性を有する新たなタンパク質を合成するために使用されてもよい。他の実施
形態では、ニューラルネットワークは、初期アミノ酸配列とは異なるパラメータのタンパ
ク質についての提案されたアミノ酸配列についてクエリが行われてもよい。これらの状況
では、ニューラルネットワークの出力は、アミノ酸配列の各残基についての特定のアミノ
酸を示すアミノ酸配列であってもよい。
【0139】
ブロック図中、186は、所望の値を表す。このタイプの訓練は、ニューラルネットワ
ークを訓練するために、出力に対応する入力が既知でなければならないため、教師あり訓
練と呼ばれる。訓練中、ニューラルネットワークは、所望の値に可能な限り近い結果を出
力するように求められる。
【0140】
所望の値186およびニューラルネットワーク182からの出力値は、185において
比較される。出力値と所望の値との間の差が決定され、ニューラルネットワークを通して
再び伝播される誤差信号183となるため、ニューラルネットワークは、この誤差から学
習することができる。上の方程式1および2に示されるように、重みは、誤差信号に基づ
いて更新される。
【0141】
図1Eは、いくつかの実装による、畳み込みニューラルネットワークのブロック図であ
る。ブロック図中、190は、畳み込み層を表す。畳み込み層は、フィルタを介して画像
の特徴を検出し得る。フィルタは、画像内の特定の特徴の存在を検出するよう設計されて
いる。単純化された例では、ハイパスフィルタは、高周波信号の存在を検出する。ハイパ
スフィルタの出力は、高周波を有する信号の部分である。同様に、画像フィルタは、画像
内の特定の特徴を追跡するように設計され得る。画像に適用されるフィルタの数が多いほ
ど、追跡され得る特徴も多くなる。
【0142】
いくつかの実装では、画像は、畳み込み層内のフィルタと畳み込みされて、画像内のフ
ィルタ固有の特徴を抽出する。畳み込み層において、フィルタは、入力およびフィルタの
要素毎のドット積上をスライドし、入力は、特徴マップとして記憶される。活性化関数は
、畳み込みニューラルネットワークの畳み込み層の特徴マップに適用される。活性化関数
は、ニューラルネットワークが抽出された特徴マップ内の非線形パターンを検出すること
を可能にする。式f(x)=max(0,x)を有する正規化線形関数が、特徴マップに
適用されてもよい。正規化線形活性化関数は、正の値に対して線形に挙動し、この関数を
最適化が容易なものにし、その後、ニューラルネットワークが高い予測精度を達成するこ
とを可能にする。また、正規化線形活性化関数は、任意の負の入力に対してゼロを出力し
、それが真の線形関数ではないことを意味する。したがって、畳み込みニューラルネット
ワーク内の畳み込み層の出力は、特徴マップであり、特徴マップ内の値は、正規化線形活
性化関数を通過している。他の実施形態では、シグモイド関数または双曲線正接関数ガ、
活性化関数として適用され得る。
【0143】
活性化関数によって作用されている抽出された特徴マップは、その後、191によって
示されるように、プーリング層に入力されてもよい。プーリング層は、データをダウンサ
ンプリングする。プーリングウィンドウが、特徴マップに適用されてもよい。いくつかの
実施形態では、プーリング層は、ウィンドウ内のデータの最大値を出力し、ウィンドウ内
のデータをダウンサンプリングする。最大プーリングは、プーリングウィンドウで最も顕
著な特徴を強調する。
【0144】
ダウンサンプリングされたプーリングデータは、その後、いくつかの実装では、畳み込
みニューラルネットワークの完全に接続された層192に入力される前に平坦化され得る
【0145】
いくつかの実施形態では、完全に接続された層は、ニューロンの1つのセットのみを有
してもよい。代替の実施形態では、完全に接続された層は、第1の層193内のニューロ
ンのセット、および後続の隠れ層194内のニューロンのセットを有してもよい。完全に
接続された中の隠れ層の数は、取り除かれてもよい。言い換えれば、ニューラルネットワ
ーク内の隠れ層の数は、ニューロンネットワークが出力を分類する方法を学習するにつれ
て適応的に変化し得る。
【0146】
完全に接続された層において、層193および194の各々のニューロンは、互いに接
続される。ニューロンは、重みによって接続される。訓練中、重みは、いくつかのニュー
ロンの効果を強化し、他のニューロンの効果を弱めるように調整される。各ニューロンの
強度の調整により、ニューラルネットワークは、出力をより良く分類することが可能にな
る。いくつかの実施形態では、ニューラルネットワーク内のニューロンの数は、取り除か
れてもよい。言い換えれば、ニューラルネットワーク内でアクティブであるニューロンの
数は、ニューラルネットワークが出力を分類する方法を学習するにつれて適応的に変化す
る。
【0147】
訓練後、予測値と既知の値との間の誤差は、非常に小さい可能性があるため、誤差は、
許容可能であるとみなされ得、ニューラルネットワークは、訓練を続ける必要はない。こ
れらの状況では、そのような小さい誤差率をもたらした重みの値が記憶され、その後、試
験で使用されてもよい。いくつかの実施形態では、ニューラルネットワークは、ニューラ
ルネットワークが、1つの出力を非常に良好に予測するか、または1つの出力を非常に良
好に誤って予測する方法を学習しなかったことを確実にするために、数回の反復に対して
小さい誤差率を満たさなければならない。数回の反復にわたって小さい誤差を維持するよ
うネットワークに要求すると、ネットワークが多様な入力範囲を適切に分類している可能
性が高くなる。
【0148】
ブロック図中、195は、ニューラルネットワークの出力を表す。完全に接続された層
の出力は、実数のベクトルである。いくつかの実施形態では、実数は、出力および分類さ
れてもよい。代替の実施形態では、完全に接続された層の出力は、ソフトマックス分類器
に入力される。
【0149】
ブロック図中、196は、ソフトマックス分類器層を表す。ソフトマックス分類器は、
ソフトマックス関数または正規化された指数関数を使用して、実数の入力を、予測された
出力クラスに対する正規化された確率分布に変換する。他の実施形態では、シグモイド関
数を使用して、畳み込みニューラルネットワークの出力を分類してもよい。シグモイド関
数は、1つのクラスがある場合に使用され得る。ソフトマックス関数は、マルチクラスシ
グモイド関数である。いくつかの実施形態では、ニューラルネットワークの出力は、タン
パク質の品質指標を改善するために予測された候補残基およびアミノ酸残基を表す。他の
実施形態では、ニューラルネットワークの出力は、アミノ酸配列の各残基についての特定
のアミノ酸を示すアミノ酸配列であってもよい。
【0150】
いくつかの実施形態では、問題のある残基が特定され、複数の独立して訓練されたニュ
ーラルネットワークからの予測を組み合わせることによって、新規残基について提案され
る。独立して訓練されたニューラルネットワークに基づいて残基を特定することによって
、ニューラルネットワークが訓練中に現れ、かつ任意の個々のニューラルネットワークに
固有である特異性に起因するバイアスが除去され得る。多くの独立したニューラルネット
ワークの平均は、任意の個々のニューラルネットワークに関連する癖を排除する。
【0151】
既存のアルゴリズムに対する様々な改善により、累積的に精度が改善された。図2B
示されるように、様々な改善は、総合すると、一実施形態では、野生型アミノ酸予測のモ
デル精度を、すべてのアミノ酸にわたって約40%から70%超に高めた。
【0152】
操作されたタンパク質
本明細書で考察されるシステムおよび方法の実装は、天然タンパク質または親タンパク
質の形質または特性と比較して、タンパク質の所望の形質または特性を修飾する1つ以上
の変異を含む操作されたタンパク質を含む組成物をさらに提供または特定する。一実施形
態では、本明細書で考察されるシステムおよび方法の実装によって生成または特定される
修飾タンパク質は、本明細書で考察されるシステムおよび方法の実装の三次元畳み込みニ
ューラルネットワーク(3DCNN)予測パイプラインによって予測される1つ以上のア
ミノ酸残基における1つ以上の変異を含んで、所望の形質または特性をタンパク質に付与
する。3DCNN予測パイプラインによる分析から予測される残基における変異を含むよ
うに生成されている、本明細書で考察されるシステムおよび方法の実装によって生成また
は特定された操作されたタンパク質は、本明細書において3DCNNで操作されたタンパ
ク質と称される。
【0153】
本明細書で考察されるシステムおよび方法の実装によって生成または特定される3DC
NNで操作されたタンパク質中で修飾され得る形質または特性の例としては、安定性、親
和性、活性、半減期、蛍光特性、および光退色に対する感受性が挙げられるが、これらに
限定されない。
【0154】
本明細書で考察されるシステムおよび方法の実装によって生成または特定される3DC
NNで操作されたタンパク質は、化学的方法を使用して作製され得る。例えば、3DCN
Nで操作されたタンパク質は、固相技術(Roberge J Y et al(199
5)Science 269:202-204)によって合成され、樹脂から切断され、
分取高速液体クロマトグラフィーによって精製され得る。自動化合成は、例えば、製造業
者によって提供される指示に従って、ABI 431 Aペプチド合成装置(Perki
n Elmer)を使用して達成され得る。
【0155】
3DCNNで操作されたタンパク質は、代替的に、コード核酸配列の翻訳によって、組
換え手段によって、またはより長いタンパク質配列からの切断によって作製されてもよい
。3DCNNで操作されたタンパク質の組成は、アミノ酸分析または配列決定によって確
認されてもよい。
【0156】
本明細書で考察されるシステムおよび方法の実装によって生成または特定される3DC
NNで操作されたタンパク質のバリアントは、(i)アミノ酸残基のうちの1つ以上が、
保存または非保存のアミノ酸残基(好ましくは、保存アミノ酸残基)で置換され、そのよ
うな置換アミノ酸残基が、遺伝子コードによってコードされてもされなくてもよいもの、
(ii)1つ以上の修飾アミノ酸残基、例えば、置換基の付着によって修飾される残基が
あるもの、(iii)3DCNNで操作されたタンパク質の断片、および/または(iv
)3DCNNで操作されたタンパク質が、別のタンパク質またはポリペプチドと融合され
るものであってもよい。断片は、元の3DCNNで操作されたタンパク質配列のタンパク
質分解切断(多部位タンパク質分解を含む)を介して生成されるポリペプチドを含む。バ
リアントは、翻訳後にまたは化学的に修飾されてもよい。そのようなバリアントは、本明
細書の教示から当業者の範囲内であるとみなされる。
【0157】
当該技術分野で既知のように、2つのポリペプチド間の「類似性」は、1つのポリペプ
チドのアミノ酸配列およびその保存されたアミノ酸置換を、第2のポリペプチドの配列と
比較することによって決定される。バリアントは、元の配列とは異なる、対象となるセグ
メント当たり残基の40%未満で元の配列とは異なる、対象となるセグメント当たり残基
の25%未満で元の配列とは異なる、対象となるセグメント当たり残基の10%未満異な
る、または対象となるセグメント当たりわずか数個の残基で元のタンパク質配列とは異な
り、かつ同時に、元の配列の機能性および/またはユビキチンもしくはユビキチン化タン
パク質に結合する能力を保持するために、元の配列に対して十分に相同である、ポリペプ
チド配列を含むように定義される。本明細書で考察されるシステムおよび方法の実装を使
用して、元のアミノ酸配列に対して少なくとも60%、65%、70%、72%、74%
、76%、78%、80%、90%、91%、92%、93%、94%、95%、96%
、97%、98%、または99%類似している、または同一であるアミノ酸配列を生成ま
たは特定し得る。2つのアミノ酸配列間の同一性は、好ましくは、BLASTPアルゴリ
ズム[BLAST Manual,Altschul,S.,et al.,NCBI
NLM NIH Bethesda,Md.20894,Altschul,S.,et
al.,J.Mol.Biol.215:403-410(1990)]を使用するこ
とによって決定される。
【0158】
本明細書で考察されるシステムおよび方法の実装によって生成または特定される3DC
NNで操作されたタンパク質は、翻訳語修飾され得る。例えば、本明細書で考察されるシ
ステムおよび方法の実装の範囲内に含まれる翻訳後修飾としては、シグナルペプチド切断
、グリコシル化、アセチル化、イソプレニル化、タンパク質分解、ミリストイル化、タン
パク質フォールディング、およびタンパク質分解処理などが挙げられる。いくつかの修飾
または処理事象は、追加の生物学的機械の導入を必要とする。例えば、シグナルペプチド
切断およびコアグリコシル化などの処理事象は、イヌのミクロソーム膜またはXenop
us卵抽出物(米国特許第6,103,489号)を標準翻訳反応に付加することによっ
て検査される。
【0159】
本明細書で考察されるシステムおよび方法の実装によって生成または特定される3DC
NNで操作されたタンパク質は、翻訳後修飾によって、または翻訳中に非天然アミノ酸を
導入することによって形成される非天然アミノ酸を含み得る。タンパク質翻訳中に非天然
アミノ酸を導入するための様々なアプローチが利用可能である。一例として、サプレッサ
ー特性を有するtRNAであるサプレッサーtRNAなどの特殊なtRNAが、部位特異
的非天然アミノ酸置換(SNAAR)のプロセスで使用されている。SNAARでは、タ
ンパク質合成中に非天然アミノ酸を固有の部位に標的化するように作用する、mRNAお
よびサプレッサーtRNA上の固有のコドンが必要である(WO90/05785に記載
されている)。しかしながら、サプレッサーtRNAは、タンパク質翻訳系に存在するア
ミノアシルtRNA合酵素によって認識可能であってはならない。特定の場合では、天然
アミノ酸を特異的に修飾し、アミノアシル化tRNAの機能的活性を著しく改変しない化
学反応を使用して、tRNA分子がアミノアシル化された後、非天然アミノ酸が形成され
得る。これらの反応は、アミノアシル化後修飾と称される。例えば、その同族tRNA(
tRNALYS)に連結されたリジンのイプシロン-アミノ基は、アミン特異的光親和性
標識で修飾され得る。
【0160】
本明細書で考察されるシステムおよび方法の実装によって生成または特定される3DC
NNで操作されたタンパク質は、融合タンパク質を調製するために、タンパク質などの他
の分子とコンジュゲートされてもよい。これは、例えば、N末端またはC末端融合タンパ
ク質の合成によって達成されてもよく、ただし、得られる融合タンパク質が、3DCNN
で操作されたタンパク質の機能性を保持することを条件とする。
【0161】
3DCNNで操作されたタンパク質模倣体
いくつかの実施形態では、対象の組成物は、3DCNNで操作されたタンパク質のペプ
チド模倣体である。ペプチド模倣体は、ペプチドおよびタンパク質に基づく、またはそれ
らに由来する化合物である。本明細書で考察されるシステムおよび方法の実装によって生
成または特定されるペプチド模倣体は、典型的には、非天然アミノ酸、立体配座拘束、等
配電子置換などを使用した既知の3DCNNで操作されたタンパク質配列の構造修飾によ
って得られ得る。対象のペプチド模倣体は、ペプチドと非ペプチド合成構造との間の構造
空間の連続体を構成し、したがって、ペプチド模倣体は、ファーマコフォアを描出し、親
3DCNNで操作されたタンパク質の活性を有する非ペプチド化合物にペプチドを翻訳す
るのを助けるのに有用であり得る。
【0162】
さらに、本開示から明らかであるように、対象の3DCNNで操作されたタンパク質の
ミメトープが提供され得る。そのようなペプチド模倣体は、非加水分解性であること(例
えば、対応するペプチドを分解するプロテアーゼまたは他の生理学的条件に対する安定性
の向上)、特異性および/または効力の向上、ならびにペプチド模倣体の細胞内局在化の
ための細胞透過性の向上などの属性を有し得る。例示目的で、本明細書で考察されるシス
テムおよび方法の実装によって生成または特定されるペプチド類似体は、例えば、ベンゾ
ジアゼピン(例えば、Freidinger et al.in Peptides:C
hemistry and Biology,G.R.Marshall ed.,ES
COM Publisher:Leiden,Netherlands,1988を参照
されたい)、置換ガマラクタム環(substituted gama lactam
ring)(Garvey et al.in Peptides:Chemistry
and Biology,G.R.Marshall ed.,ESCOM Publ
isher:Leiden,Netherlands,1988,p123)、C-7模
倣体(Huffman et al.in Peptides:Chemistry a
nd Biology,G.R.Marshall ed.,ESCOM Publis
her:Leiden,Netherlands,1988,p.105)、ケト-メチ
レン偽ペプチド(Ewenson et al.(1986)J Med Chem 2
9:295、およびEwenson et al.in Peptides:Struc
ture and Function(Proceedings of the 9th
American Peptide Symposium)Pierce Chemi
cal Co.Rockland,Ill.,1985)、β-ターンジペプチドコア(
Nagai et al.(1985)Tetrahedron Lett 26:64
7、およびSato et al.(1986)J Chem Soc Perkin
Trans 1:1231)、β-アミノアルコール(Gordon et al.(1
985)Biochem Biophys Res Commun 126:419、お
よびDann et al.(1986)Biochem Biophys Res C
ommun 134:71)、ジアミノケトン(Natarajan et al.(1
984)Biochem Biophys Res Commun 124:141)、
ならびにメチレンアミノ修飾(Roark et al.in Peptides:Ch
emistry and Biology,G.R.Marshall ed.,ESC
OM Publisher:Leiden,Netherlands,1988,p13
4)を使用して生成され得る。また、一般に、Session III: Analyt
ic and synthetic methods,in in Peptides:
Chemistry and Biology,G.R.Marshall ed.,E
SCOM Publisher:Leiden,Netherlands,1988)も
参照されたい。
【0163】
3DCNNで操作されたタンパク質ペプチド模倣体を生成するために実施され得る様々
な側鎖置換に加えて、本明細書で考察されるシステムおよび方法の実装は、ペプチド二次
構造の立体配座的に拘束された模倣体の使用を企図する。ペプチドのアミド結合のために
多数の代理物が開発されている。アミド結合のために頻繁に利用される代理物としては、
次の群(i)トランス-オレフィン、(ii)フルオロアルケン、(iii)メチレンア
ミノ、(iv)ホスホンアミド、および(v)スルホンアミドが挙げられる。
【0164】
核酸
一実施形態では、本明細書で考察されるシステムおよび方法の実装を使用して、3DC
NNで操作されたタンパク質をコードするヌクレオチド配列を含む単離核酸を生成または
特定し得る。
【0165】
3DCNNで操作されたタンパク質をコードするヌクレオチド配列は、代替的に、得ら
れるポリヌクレオチドが、本明細書で考察されるシステムおよび方法の実装に従ってポリ
ペプチドをコードするという条件で、元のヌクレオチド配列に対する配列変異、例えば、
1つ以上のヌクレオチドの置換、挿入、および/または欠失を含むことができる。したが
って、本明細書で考察されるシステムおよび方法の実装を使用して、本明細書に列挙され
るヌクレオチド配列と実質的に同一であり、3DCNNで操作されたタンパク質をコード
するヌクレオチド配列を生成または特定し得る。
【0166】
本明細書で使用される意味において、ヌクレオチド配列は、そのヌクレオチド配列が、
少なくとも60%、少なくとも70%、少なくとも85%、少なくとも95%、少なくと
も96%、少なくとも97%、少なくとも98%、または少なくとも99%のヌクレオチ
ド配列に対する同一性の程度を有する場合、本明細書に記載するヌクレオチド配列のいず
れかと「実質的に同一」である。3DCNNで操作されたタンパク質をコードするヌクレ
オチド配列と実質的に相同であるヌクレオチド配列は、典型的には、例えば、保存的置換
または非保存的置換を導入することによって、ヌクレオチド配列中に含有される情報に基
づいて、本明細書で考察されるシステムおよび方法の実装によって生成または特定される
ポリペプチドの産生生物から単離され得る。可能性のある修飾の他の例としては、配列中
の1つ以上のヌクレオチドの挿入、配列の末端のいずれかにおける1つ以上のヌクレオチ
ドの付加、または任意の末端もしくは配列の内側における1つ以上のヌクレオチドの欠失
が挙げられる。2つのヌクレオチド配列間の同一性は、好ましくは、BLASTNアルゴ
リズム[BLAST Manual,Altschul,S.,et al.,NCBI
NLM NIH Bethesda,Md.20894,Altschul,S.,e
t al.,J.Mol.Biol.215:403-410(1990)]を使用する
ことによって決定される。
【0167】
別の態様では、本明細書で考察されるシステムおよび方法の実装を使用して、3DCN
Nで操作されたタンパク質またはその誘導体をコードするヌクレオチド配列を含む構築物
を生成または特定し得る。特定の実施形態では、構築物は、転写、および任意選択的に翻
訳、制御要素に作動可能に結合される。構築物は、本明細書で考察されるシステムおよび
方法の実装によって生成または特定されるヌクレオチド配列の発現の作動可能に結合した
調節配列を組み込み、したがって発現カセットを形成することができる。
【0168】
3DCNNで操作されたタンパク質またはキメラ3DCNNで操作されたタンパク質は
、組換えDNA法を使用して調製されてもよい。したがって、3DCNNで操作されたタ
ンパク質またはキメラ3DCNNで操作されたタンパク質をコードする核酸分子は、3D
CNNで操作されたタンパク質またはキメラ3DCNNで操作されたタンパク質の良好な
発現を確実にする適切な発現ベクターに組み込まれてもよい。
【0169】
したがって、別の態様では、本明細書で考察されるシステムおよび方法の実装を使用し
て、本明細書で考察されるシステムおよび方法の実装によって生成または特定されるヌク
レオチド配列または構築物を含むベクターを生成または特定し得える。ベクターの選択は
、その後に導入される宿主細胞に依存する。特定の実施形態では、本明細書で考察される
システムおよび方法の実装によって生成または特定されるベクターは、発現ベクターであ
る。好適な宿主細胞は、多種多様な原核および真核宿主細胞を含む。特定の実施形態では
、発現ベクターは、ウイルスベクター、細菌ベクター、および哺乳類細胞ベクターからな
る群から選択される。原核生物および/または真核生物ベクターベースの系は、本明細書
で考察されるシステムおよび方法の実装とともに使用して、ポリヌクレオチドまたはその
同族ポリペプチドを産生するために用いられ得る。多くのそのようなシステムは、商業的
に、かつ広く利用可能である。
【0170】
さらに、発現ベクターは、ウイルスベクターの形態で細胞に提供されてもよい。ベクタ
ーとして有用であるウイルスとしては、レトロウイルス、アデノウイルス、アデノ関連ウ
イルス、ヘルペスウイルス、およびレンチウイルスが挙げられるが、これらに限定されな
い。概して、好適なベクターは、少なくとも1つの生物において機能的な複製起点、プロ
モーター配列、便利な制限エンドヌクレアーゼ部位、および1つ以上の選択可能なマーカ
ーを含有する。(例えば、WO 01/96584、WO 01/29058、および米
国特許第6,326,193号を参照されたい)。
【0171】
ポリヌクレオチドの挿入に適したベクターは、原核生物中の発現ベクター、例えば、p
UC18、pUC19、Bluescriptおよびその誘導体、mp18、mp19、
pBR322、pMB9、ColE1、pCR1、RP4、ファージ、および「シャトル
」ベクター、例えば、pSA3およびpAT28;酵母中の発現ベクター、例えば、2ミ
クロンプラスミドのタイプのベクター、組み込みベクター、YEPベクター、セントロメ
アプラスミドなど;昆虫細胞中の発現ベクター、例えば、pACシリーズおよびpVLの
ベクター;植物中の発現ベクター、例えば、pIBI、pEarleyGate、pAV
A、pCAMBIA、pGSA、pGWB、pMDC、pMY、pOREシリーズなど;
ならびにウイルスベクターに基づく真核細胞中の発現ベクター(アデノウイルス、アデノ
ウイルス関連ウイルス、例えば、レトロウイルス、および特に、レンチウイルス);なら
びに非ウイルスベクター、例えば、pSilencer 4.1-CMV(Ambion
)、pcDNA3、pcDNA3.1/hyg、pHMCV/Zeo、pCR3.1、p
EFI/His、pIND/GS、pRc/HCMV2、pSV40/Zeo2、pTR
ACER-HCMV、pUB6/V5-His、pVAX1、pZeoSV2、pCI、
pSVLおよびPKSV-10、pBPV-1、pML2d、およびpTDT1に由来す
るベクターである。
【0172】
例示として、核酸配列が導入されるベクターは、宿主細胞に導入されるときに宿主細胞
のゲノム内に組み込まれる、または組み込まれないプラスミドであってもよい。本明細書
で考察されるシステムおよび方法の実装によって生成または特定されるヌクレオチド配列
または遺伝子構築物が挿入され得る例示的で非限定的な例としては、真核細胞における発
現のためのtet-on誘導性ベクターが挙げられる。
【0173】
特定の実施形態では、ベクターは、動物細胞を形質転換するのに有用なベクターである
【0174】
組換え発現ベクターはまた、3DCNNで操作されたタンパク質もしくはキメラ3DC
NNで操作されたタンパク質の発現の増加、3DCNNで操作されたタンパク質もしくは
キメラ3DCNNで操作されたタンパク質の溶解性の向上をもたらす部分をコードし、か
つ/または親和性精製のリガンドとして作用することによって、3DCNNで操作された
タンパク質もしくはキメラ3DCNNで操作されたタンパク質の精製を補助する核酸分子
を含有してもよい。例えば、タンパク質分解切断部位は、3DCNNで操作されたタンパ
ク質に挿入されて、融合タンパク質の精製後に、融合タンパク質部分からの3DCNNで
操作されたタンパク質またはキメラ3DCNNで操作されたタンパク質の分離を可能にし
得る。融合発現ベクターの例としては、グルタチオンS-トランスフェラーゼ(GST)
、マルトースE結合タンパク質、またはプロテインAをそれぞれ組換えタンパク質に融合
する、pGEX(Amrad Corp.,Melbourne,Australia)
、pMAL(New England Biolabs,Beverly,Mass.)
、およびpRIT5(Pharmacia,Piscataway,N.J.)が挙げら
れる。
【0175】
追加のプロモーター要素、すなわち、エンハンサーは、転写開始の頻度を調節する。典
型的には、これらは、開始部位の上流の30~110bpの領域に位置するが、多くのプ
ロモーターは、開始部位の下流にも機能的要素を含有することが近年示されている。プロ
モーター要素間の間隔は、しばしば柔軟であり、その結果、プロモーター機能は、要素が
互いに対して逆転または移動するときに保持される。チミジンキナーゼ(tk)プロモー
ターでは、プロモーター要素間の間隔は、活性が低下し始める前に50bp離れるまで増
加し得る。プロモーターに応じて、個々の要素は、協働的にまたは独立してのいずれかで
機能して、転写を活性化することができるように思われる。
【0176】
プロモーターは、コードセグメントおよび/またはエクソンの上流に位置する5非コー
ド配列を単離することによって得られ得るように、遺伝子またはポリヌクレオチド配列に
天然に関連するプロモーターであってもよい。そのようなプロモーターは、「内因性」と
称され得る。同様に、エンハンサーは、その配列の下流または上流のいずれかに位置する
ポリヌクレオチド配列に天然に関連するエンハンサーであり得る。あるいは、特定の利点
は、コードポリヌクレオチドセグメントを、組換えプロモーターまたは異種プロモーター
(これは、その天然環境中のポリヌクレオチド配列に通常関連しないプロモーターを指す
)の制御下に位置付けることによって得られる。組換えエンハンサーまたは異種エンハン
サーもまた、その天然環境においてポリヌクレオチド配列に通常関連しないエンハンサー
を指す。そのようなプロモーターまたはエンハンサーは、他の遺伝子のプロモーターまた
はエンハンサー、ならびに任意の他の原核細胞、ウイルス細胞、または真核細胞から単離
されたプロモーターまたはエンハンサー、および「天然に存在」していない、すなわち、
異なる転写調節領域の異なる要素、および/または発現を改変する変異を含有するプロモ
ーターまたはエンハンサーを含んでもよい。プロモーターおよびエンハンサーの核酸配列
を合成的に産生することに加えて、配列は、本明細書に開示される組成物に関連して、組
換えクローニングおよび/またはPCR(商標)を含む核酸増幅技術を使用して産生され
てもよい(米国特許第4,683,202号、米国特許第5,928,906号)。さら
に、ミトコンドリア、葉緑体などの非核細胞小器官内の配列の転写および/または発現を
方向付ける制御配列も用いられ得ることが企図される。
【0177】
当然のことながら、発現のために選択される細胞型、細胞小器官、および生物における
DNAセグメントの発現を効果的に方向付けるプロモーターおよび/またはエンハンサー
を用いることが重要である。用いられるプロモーターは、例えば、組換えタンパク質およ
び/またはペプチドの大規模生産において有利であるなど、導入されたDNAセグメント
の高レベルの発現を方向付けるのに適切な条件下で、構成的、組織特異的、誘導性、およ
び/または有用であり得る。プロモーターは、異種または内因性であり得る。
【0178】
本明細書に提示される実験例で例示されるプロモーター配列は、即時初期サイトメガロ
ウイルス(CMV)プロモーター配列である。このプロモーター配列は、それと作動可能
に連結された任意のポリヌクレオチド配列の高レベルの発現を促進することが可能な強力
な構成的プロモーター配列である。しかしながら、シミアンウイルス40(SV40)初
期プロモーター、マウス乳腺腫瘍ウイルス(MMTV)、ヒト免疫不全ウイルス(HIV
)の長い末端反復(LTR)プロモーター、モロニーウイルスプロモーター、トリ白血病
ウイルスプロモーター、エプスタイン-バールウイルス即時初期プロモーター、ラウス肉
腫ウイルスプロモーター、ならびにヒト遺伝子プロモーター、例えば、これらに限定され
ないが、アクチンプロモーター、ミオシンプロモーター、ヘモグロビンプロモーター、お
よび筋クレアチンプロモーターが挙げられるがこれらに限定されない、他の構成的プロモ
ーター配列も使用され得る。さらに、本明細書で考察されるシステムおよび方法の実装は
、構成的プロモーターの使用に限定されない。誘導性プロモーターもまた、本明細書で考
察されるシステムおよび方法の実装を介して生成または特定され得る。そのようなシステ
ムまたは方法を介して生成または特定される誘導性プロモーターの使用は、そのような発
現が所望されるときに作動可能に連結されたポリヌクレオチド配列の発現をオンにするか
、または発現が所望されないときに発現をオフにすることが可能な分子スイッチを提供す
る。誘導性プロモーターの例としては、メタロチオニンプロモーター、グルココルチコイ
ドプロモーター、プロゲステロンプロモーター、およびテトラサイクリンプロモーターが
挙げられるが、これらに限定されない。さらに、本明細書で考察されるシステムおよび方
法の実装により、組織特異的プロモーターの使用が可能になり得、そのプロモーターは、
所望の組織においてのみ活性である。組織特異的プロモーターとしては、HER-2プロ
モーターおよびPSA関連プロモーター配列が挙げられるが、これらに限定されない。
【0179】
一実施形態では、核酸の発現は、外部から制御される。例えば、一実施形態では、発現
は、ドキシサイクリンTet-On系または他の誘導性もしくは抑制性発現系を使用して
外部から制御される。
【0180】
組換え発現ベクターはまた、形質転換またはトランスフェクトされた宿主細胞の選択を
促進する選択可能なマーカー遺伝子を含有してもよい。好適な選択可能なマーカー遺伝子
は、特定の薬剤に対する耐性を付与するG418およびハイグロマイシン、β-ガラクト
シダーゼ、クロラムフェニコールアセチルトランスフェラーゼ、ホタルルシフェラーゼ、
または免疫グロブリンもしくはその部分、例えば、免疫グロブリン、好ましくはIgGの
Fc部分などのタンパク質をコードする遺伝子である。選択可能なマーカーは、対象とな
る核酸とは別のベクター上に導入されてもよい。
【0181】
レポーター遺伝子は、トランスフェクトされた可能性のある細胞を特定し、調節配列の
機能性を評価するために使用される。概して、レポーター遺伝子は、レシピエント生物ま
たは組織内に存在しないか、またはそれらによって発現され、かつその発現が、例えば、
酵素活性などの何らかの容易に検出可能な特性によって示されるタンパク質をコードする
遺伝子である。レポーター遺伝子の発現は、DNAがレシピエント細胞に導入された後の
好適な時点でアッセイされる。
【0182】
例示的なレポーター遺伝子は、ルシフェラーゼ、ベータ-ガラクトシダーゼ、クロラム
フェニコールアセチルトランスフェラーゼ、分泌型アルカリホスファターゼ、または緑色
蛍光タンパク質遺伝子を含むがこれに限定されない、蛍光タンパク質をコードする遺伝子
を含み得る(例えば、Ui-Tei et al.,2000 FEBS Lett.4
79:79-82を参照されたい)。
【0183】
一実施形態では、本明細書で考察されるシステムおよび方法の実装によって生成または
特定される3DCNNで操作されたタンパク質は、レポーター遺伝子であり、好適な発現
系に含まれる。例えば、一実施形態では、そのようなシステムまたは方法によって生成ま
たは特定される3DCNNで操作されたタンパク質は、蛍光活性が増加した青色蛍光タン
パク質である。そのような実施形態では、本明細書で考察されるシステムおよび方法の実
装によって生成または特定される3DCNNで操作されたタンパク質をコードするヌクレ
オチド配列は、異種タンパク質配列の検出を可能にするために発現系に組み込まれてもよ
い。
【0184】
組換え発現ベクターは、宿主細胞に導入されて、組換え細胞を産生してもよい。細胞は
、原核細胞または真核細胞であり得る。本明細書で考察されるシステムおよび方法の実装
によって生成または特定されるベクターを使用して、例えば、真核細胞、例えば、酵母細
胞、Saccharomyces cerevisiae、もしくは哺乳類細胞、例えば
、上皮腎臓293細胞もしくはU2OS細胞、または原核細胞、例えば、細菌、Esch
erichia coli、もしくはBacillus subtilisを形質転換す
ることができる。核酸は、リン酸カルシウムまたは塩化カルシウムの共沈、DEAE-デ
キストラン媒介トランスフェクション、リポフェクチン、電気穿孔、またはマイクロイン
ジェクションなどの従来の技術を使用して、細胞に導入され得る。宿主細胞を形質転換お
よびトランスフェクトするための好適な方法は、Sambrook et al.(Mo
lecular Cloning:A Laboratory Manual,2nd
Edition,Cold Spring Harbor Laboratory pr
ess(1989))、および他の実験テキストで見ることができる。
【0185】
例えば、本明細書で考察されるシステムおよび方法の実装によって生成または特定され
る3DCNNで操作されたタンパク質またはキメラ3DCNNで操作されたタンパク質は
、細菌細胞、例えば、E.coli、昆虫細胞(バキュロウイルスを使用する)、酵母細
胞、または哺乳類細胞で発現され得る。他の好適な宿主細胞は、Goeddel,Gen
e Expression Technology:Methods in Enzym
ology 185,Academic Press,San Diego,Calif
.(1991)で見ることができる。
【0186】
修飾青色蛍光タンパク質
一実施形態では、本明細書で考察されるシステムおよび方法の実装を使用して、sec
BFP2バリアントタンパク質を特定または生成し得る。特定の態様では、組成物は、安
定性を強化する1つ以上の変異を含むsecBFP2バリアントタンパク質に関する。特
定の態様では、secBFP2バリアントタンパク質は、野生型secBFP2と比較し
て、強化された安定性、強化された蛍光、強化された半減期、およびより遅い光退色のう
ちの1つ以上を示す。
【0187】
いくつかの実施形態では、secBFP2バリアントタンパク質は、1つ以上の変異を
含むsecBFP2を含む。例えば、いくつかの実施形態では、secBFP2バリアン
トタンパク質は、完全長野生型secBFP2との関連で、T18、S28、Y96、S
114、V124、T127、D151、N173、およびR198から選択される1つ
以上の残基において1つ以上の変異を含むsecBFP2を含む。一実施形態では、完全
長野生型secBFP2は、
のアミノ酸配列を含む。
【0188】
特定の実施形態では、本明細書に記載されるsecBFP2バリアントタンパク質内の
変異の表記は、配列番号1に関連する。例えば、T18において変異を含むsecBFP
2バリアントタンパク質は、secBFP2を指すが、完全長野生型secBFP2(配
列番号1)の18位のトレオニンと相関する残基において変異を有する。
【0189】
いくつかの実施形態では、secBFP2バリアントタンパク質は、完全長野生型se
cBFP2との関連で、T18X、S28X、Y96X、S114X、V124X、T1
27X、D151X、N173X、およびR198X(ここで、Xは、任意のアミノ酸で
ある)から選択される1つ以上の変異を含むsecBFP2を含む。いくつかの実施形態
では、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で
、T18W、T18V、T18E、S28A、Y96F、S114V、S114T、V1
24T、V124Y、V124W、T127P、T127L、T127R、T127D、
D151G、N173T、N173H、N173R、N173S、R198V、およびR
198Lから選択される1つ以上の変異を含むsecBFP2を含む。
【0190】
一実施形態では、secBFP2バリアントタンパク質は、T18X変異(ここで、X
は、任意のアミノ酸である)を含むsecBFP2を含む。一実施形態では、secBF
P2バリアントタンパク質は、完全長野生型secBFP2との関連で、T18W変異、
T18V変異、またはT18E変異を含むsecBFP2を含む。
【0191】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0192】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0193】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0194】
一実施形態では、secBFP2バリアントタンパク質は、S28X変異(ここで、X
は、任意のアミノ酸である)を含むsecBFP2を含む。一実施形態では、secBF
P2バリアントタンパク質は、完全長野生型secBFP2との関連で、S28A変異を
含むsecBFP2を含む。
【0195】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0196】
一実施形態では、secBFP2バリアントタンパク質は、T96X変異(ここで、X
は、任意のアミノ酸である)を含むsecBFP2を含む。一実施形態では、secBF
P2バリアントタンパク質は、完全長野生型secBFP2との関連で、Y96F変異を
含むsecBFP2を含む。
【0197】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0198】
一実施形態では、secBFP2バリアントタンパク質は、S114X変異(ここで、
Xは、任意のアミノ酸である)を含むsecBFP2を含む。一実施形態では、secB
FP2バリアントタンパク質は、完全長野生型secBFP2との関連で、S114V変
異またはS114T変異を含むsecBFP2を含む。
【0199】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0200】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0201】
一実施形態では、secBFP2バリアントタンパク質は、V124X変異(ここで、
Xは、任意のアミノ酸である)を含むsecBFP2を含む。一実施形態では、secB
FP2バリアントタンパク質は、完全長野生型secBFP2との関連で、V124T変
異、V124Y変異、またはV124W変異を含むsecBFP2を含む。
【0202】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0203】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0204】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0205】
一実施形態では、secBFP2バリアントタンパク質は、T127X変異(ここで、
Xは、任意のアミノ酸である)を含むsecBFP2を含む。一実施形態では、secB
FP2バリアントタンパク質は、完全長野生型secBFP2との関連で、T127P変
異、T127L変異、T127R変異、またはT127D変異を含むsecBFP2を含
む。
【0206】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0207】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0208】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0209】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0210】
一実施形態では、secBFP2バリアントタンパク質は、D151X変異(ここで、
Xは、任意のアミノ酸である)を含むsecBFP2を含む。一実施形態では、secB
FP2バリアントタンパク質は、完全長野生型secBFP2との関連で、D151G変
異を含むsecBFP2を含む。
【0211】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0212】
一実施形態では、secBFP2バリアントタンパク質は、N173X変異(ここで、
Xは、任意のアミノ酸である)を含むsecBFP2を含む。一実施形態では、secB
FP2バリアントタンパク質は、完全長野生型secBFP2との関連で、N173T変
異、N173H変異、N173R変異、またはN173S変異を含むsecBFP2を含
む。
【0213】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0214】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0215】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0216】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0217】
一実施形態では、secBFP2バリアントタンパク質は、R198X変異(ここで、
Xは、任意のアミノ酸である)を含むsecBFP2を含む。一実施形態では、secB
FP2バリアントタンパク質は、完全長野生型secBFP2との関連で、R198V変
異またはR198L変異を含むsecBFP2を含む。
【0218】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0219】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0220】
一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP
2との関連で、T18X、S28X、Y96X、S114X、V124X、T127X、
D151X、N173X、およびR198Xの変異(ここで、Xは、任意のアミノ酸であ
る)のうちの1つ以上、2つ以上、3つ以上、4つ以上、5つ以上、6つ以上、7つ以上
、8つ以上、または9つすべてを含むsecBFP2を含む。一実施形態では、secB
FP2バリアントタンパク質は、完全長野生型secBFP2との関連で、T18W、T
18V、T18E、S28A、Y96F、S114V、S114T、V124T、V12
4Y、V124W、T127P、T127L、T127R、T127D、D151G、N
173T、N173H、N173R、N173S、R198V、およびR198Lのうち
の1つ以上、2つ以上、3つ以上、4つ以上、5つ以上、6つ以上、7つ以上、8つ以上
、または9つ以上を含むsecBFP2を含む。
【0221】
一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP
2との関連で、T18X、S28X、S114X、V124X、T127X、D151X
、N173X、およびR198X(ここで、Xは、任意のアミノ酸である)の変異を含む
secBFP2を含む。一実施形態では、secBFP2バリアントタンパク質は、完全
長野生型secBFP2との関連で、T18W、S28A、S114V、V124T、T
127P、D151G、N173T、およびR198Lの変異を含むsecBFP2を含
む。
【0222】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0223】
一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP
2との関連で、S28X、S114X、T127X、およびN173X(ここで、Xは、
任意のアミノ酸である)の変異を含むsecBFP2を含む。一実施形態では、secB
FP2バリアントタンパク質は、完全長野生型secBFP2との関連で、S28A、S
114T、T127L、およびN173Hの変異を含むsecBFP2を含む。
【0224】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0225】
一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP
2との関連で、S28XおよびS114X(ここで、Xは、任意のアミノ酸である)の変
異を含むsecBFP2を含む。一実施形態では、secBFP2バリアントタンパク質
は、完全長野生型secBFP2との関連で、S28AおよびS114Tの変異を含むs
ecBFP2を含む。
【0226】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0227】
一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP2
との関連で、S28X、S114X、およびN173X(ここで、Xは、任意のアミノ酸
である)の変異を含むsecBFP2を含む。一実施形態では、secBFP2バリアン
トタンパク質は、完全長野生型secBFP2との関連で、S28A、S114T、およ
びN173Hの変異を含むsecBFP2を含む。
【0228】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0229】
一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP
2との関連で、S28X、Y96X、S114X、およびN173X(ここで、Xは、任
意のアミノ酸である)の変異を含むsecBFP2を含む。一実施形態では、secBF
P2バリアントタンパク質は、完全長野生型secBFP2との関連で、S28A、Y9
6F、S114T、およびN173Hの変異を含むsecBFP2を含む。
【0230】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0231】
一実施形態では、secBFP2バリアントタンパク質は、完全長野生型secBFP
2との関連で、S28X、Y96X、S114X、T127X、およびN173X(ここ
で、Xは、任意のアミノ酸である)の変異を含むsecBFP2を含む。一実施形態では
、secBFP2バリアントタンパク質は、完全長野生型secBFP2との関連で、S
28A、Y96F、S114T、T127L、およびN173Hの変異を含むsecBF
P2を含む。
【0232】
例えば、一実施形態では、secBFP2バリアントタンパク質は、
、またはそのバリアントもしくは断片を含む。
【0233】
一実施形態では、本明細書で考察されるシステムおよび方法の実装によって生成または
特定される組成物は、secBFP2バリアントタンパク質をコードするヌクレオチド配
列を含む単離核酸分子を含む。様々な実施形態では、核酸分子は、配列番号2~配列番号
28に記載される少なくとも1つのアミノ酸配列をコードする配列、またはそのバリアン
トもしくは断片を含む。
【0234】
1つ以上の対象となるポリペプチドに作動可能に連結された蛍光タンパク質バリアント
を含む融合タンパク質も提供される。融合タンパク質のポリペプチドは、ペプチド結合を
介して連結され得るか、または蛍光タンパク質バリアントは、リンカー分子を介して対象
となるポリペプチドに連結され得る。一実施形態では、融合タンパク質は、1つ以上の対
象となるポリペプチドをコードする1つ以上のポリヌクレオチドに作動可能に連結された
蛍光タンパク質バリアントをコードするポリヌクレオチドを含有する、組換え核酸分子か
ら発現される。
【0235】
対象となるポリペプチドは、例えば、ポリヒスチジンペプチドなどのペプチドタグ、ま
たは酵素、Gタンパク質、成長因子受容体、もしくは転写因子などの細胞ポリペプチドを
含む、任意のポリペプチドであってもよく、かつ会合して複合体を形成することができる
2つ以上のタンパク質のうちの1つであってもよい。一実施形態では、融合タンパク質は
、タンデム蛍光タンパク質バリアント構築物であり、これは、ドナー蛍光タンパク質バリ
アント、アクセプター蛍光タンパク質バリアント、ならびに該ドナーおよび該アクセプタ
ーを結合するペプチドリンカー部分を含み、ドナーの環化アミノ酸は、該ドナーの特性で
ある光を発し、ドナーおよびアクセプターは、ドナーが励起されたときに蛍光共鳴エネル
ギー移動を示し、リンカー部分は、ドナーを励起するための光を実質的に発しない。した
がって、本明細書で考察されるシステムおよび方法の実装によって生成または特定される
融合タンパク質は、直接的または間接的に連結され得る、2つ以上の作動可能に連結され
た蛍光タンパク質バリアントを含み得、1つ以上の対象となるポリペプチドをさらに含み
得る。
【0236】
キット
いくつかの実装では、キットは、本明細書で考察されるシステムおよび方法の実装によ
って提供または特定される組成物の使用を促進および/または標準化するために、ならび
に本明細書で考察される方法を促進するために提供されてもよい。これらの様々な方法を
実施するための材料および試薬は、方法の実行を促進するためにキットで提供され得る。
本明細書で使用される場合、「キット」という用語は、プロセス、アッセイ、分析、また
は操作を促進する物品の組み合わせに関連して使用される。
【0237】
キットは、化学試薬(例えば、ポリペプチドまたはポリヌクレオチド)、ならびに他の
構成要素を含み得る。さらに、本明細書で考察されるキットはまた、例えば、サンプル採
取および/または精製のための装置および試薬、生成物採取および/または精製のための
装置および試薬、細菌細胞形質転換のための試薬、真核細胞トランスフェクションのため
の試薬、すでに形質転換またはトランスフェクトされた宿主細胞、サンプル管、ホルダ、
トレイ、ラック、皿、プレート、キットユーザへの指示、溶液、緩衝剤液または他の化学
試薬、標準化、正規化、および/または対照サンプルに使用される好適なサンプルを含む
ことができるが、これらに限定されない。キットはまた、例えば、便利な保管および安全
な出荷のために、蓋を有する箱の中に包装され得る。
【0238】
いくつかの実施形態では、例えば、本明細書で考察されるキットは、本明細書で考察さ
れるシステムおよび方法の実装によって生成または特定される蛍光タンパク質、本明細書
で考察されるシステムおよび方法の実施によって生成または特定される蛍光タンパク質を
コードするポリヌクレオチドベクター(例えば、プラスミド)、ベクターの増殖に適した
細菌細胞株、ならびに発現された融合タンパク質の精製のための試薬を提供することがで
きる。いくつかの実施形態では、本明細書で考察されるキットは、オリゴマー化の傾向が
低減されたタンパク質バリアントを生成するために、Anthozoan蛍光タンパク質
の変異誘発を行うために必要な試薬を提供することができる。
【0239】
キットは、本明細書で考察されるシステムおよび方法の実装によって生成または特定さ
れる1つ以上の組成物、例えば、融合タンパク質の一部であり得る1つもしくは複数の蛍
光タンパク質バリアント、またはポリペプチドをコードする1つもしくは複数のポリヌク
レオチドを含み得る。蛍光タンパク質バリアントは、非オリゴマー化モノマーなどのオリ
ゴマー化の傾向が低減された変異蛍光タンパク質であり得るか、またはタンデム二量体蛍
光タンパク質であり得、キットは、複数の蛍光タンパク質バリアントを含み、その複数は
、複数の変異蛍光タンパク質バリアント、もしくは複数のタンデム二量体蛍光タンパク質
、またはそれらの組み合わせであり得る。
【0240】
本明細書で考察されるキットはまた、1つまたは複数の組換え核酸分子を含有し得、こ
れは部分的に、同じであっても異なっていてもよい蛍光タンパク質バリアントをコードし
、例えば、制限エンドヌクレアーゼ認識部位もしくはリコンビナーゼ認識部位、または任
意の対象となるポリペプチドを含有またはコードする、作動可能に連結された第2のポリ
ヌクレオチドをさらに含み得る。さらに、キットは、キットの構成要素、特に、キットに
含まれる本明細書で考察されるシステムおよび方法の実装によって生成または特定される
組成物を使用するための指示を含むことができる。
【0241】
当業者は、特定の用途に望ましい蛍光特性を有する1つ以上のタンパク質を便利に選択
することができるため、そのようなキットは、複数の異なる蛍光タンパク質バリアントを
提供する場合に特に有用であり得る。同様に、異なる蛍光タンパク質バリアントをコード
する複数のポリヌクレオチドを含むキットは、数多くの利点を提供する。例えば、ポリヌ
クレオチドは、便利な制限エンドヌクレアーゼまたはリコンビナーゼ認識部位を含有する
ように操作され、したがって、調節要素、もしくは対象となるポリペプチドをコードする
ポリヌクレオチドへのポリヌクレオチドの作動可能な連結、または所望の場合、蛍光タン
パク質バリアントをコードする2つ以上のポリヌクレオチドを互いに作動可能に連結する
ことを促進することができる。
【0242】
蛍光タンパク質バリアントの使用
本明細書で考察されるシステムおよび方法の実装によって生成または特定される蛍光タ
ンパク質バリアントは、蛍光タンパク質を用いる任意の方法で有用である。したがって、
単量体、二量体、およびタンデム二量体蛍光タンパク質を含む蛍光タンパク質バリアント
は、例えば、免疫測定法もしくはハイブリダイゼーションアッセイなどの検出アッセイで
使用するために、または細胞中のタンパク質の動きを追跡するために、蛍光タンパク質バ
リアントを抗体、ポリヌクレオチド、またはの他の受容体に結合することを含む、蛍光マ
ーカーがすでに使用されている多くの方法で、蛍光マーカーとして有用である。細胞内追
跡研究については、蛍光タンパク質バリアントをコードする第1(または他)のポリヌク
レオチドは、対象となるタンパク質をコードする第2(または他)のポリヌクレオチドに
融合され、所望により、構築物は、発現ベクターに挿入され得る。細胞内で発現すると、
対象となるタンパク質は、タンパク質の局在化が融合タンパク質の蛍光タンパク質構成成
分のオリゴマー化によって引き起こされるアーチファクトであるという心配なしに、蛍光
に基づいて局在化され得る。この方法の一実施形態では、2つの対象となるタンパク質は
独立して、異なる蛍光特性を有する2つの蛍光タンパク質バリアントと融合される。
【0243】
本明細書で考察されるシステムおよび方法の実装によって生成または特定される蛍光タ
ンパク質バリアントは、転写の誘導を検出するための系で有用である。例えば、非オリゴ
マー化単量体、二量体、またはタンデム二量体蛍光タンパク質をコードするヌクレオチド
配列は、現ベクターに含有され得る、対象となるプロモーターまたは他の発現制御配列に
融合され得、構築物は、細胞内にトランスフェクトされ得、プロモーター(または他の調
節要素)の誘導は、蛍光の存在または量を検出することによって測定され、それによって
手段が、受容体からプロモーターへのシグナル伝達経路の応答性を観察することを可能に
することができる。
【0244】
本明細書で考察されるシステムおよび方法の実装によって生成または特定される蛍光タ
ンパク質バリアントはまた、FRETを伴う用途で有用であり、FRETは、蛍光ドナー
およびアクセプターの互いに向かう、または互いから離れる動きの関数として事象を検出
することができる。ドナー/アクセプターの対の一方または両方は、蛍光タンパク質バリ
アントであり得る。そのようなドナー/アクセプターの対は、ドナーの励起ピークと発光
ピークとの間の広範な分離を提供し、ドナー発光スペクトルとアクセプター励起スペクト
ルとの間の良好な重複を提供する。
【0245】
FRETを使用して、ドナーおよびアクセプターが切断部位の両側の基質に結合された
基質の切断を検出することができる。基質の切断時に、ドナー/アクセプターの対は、物
理的に分離し、FRETを排除する。そのようなアッセイは、例えば、基質をサンプルと
接触させることと、FRETの定性的または定量的変化を決定することとによって実施さ
れ得る(例えば、参照により本明細書に組み込まれる米国特許第5,741,657号を
参照されたい)。蛍光タンパク質バリアントドナー/アクセプターの対は、タンパク質分
解切断部位を有するペプチドによって結合される融合タンパク質の一部であり得る(例え
ば、参照により本明細書に組み込まれる米国特許第5,981,200号を参照されたい
)。FRETは、膜にわたる電位の変化を検出するためにも使用され得る。例えば、ドナ
ーおよびアクセプターは、電圧変化に応答して膜を横切って移動するように膜の両側に配
置され、それによって測定可能なFRETを生じさせることができる(例えば、参照によ
り本明細書に組み込まれる米国特許第5,661,035号を参照されたい)。
【0246】
他の実施形態では、本明細書で考察されるシステムおよび方法の実装によって生成また
は特定される蛍光タンパク質は、タンパク質キナーゼおよびホスファターゼ活性の蛍光セ
ンサ、またはCa2+、Zn2+、環状3′,5′-アデノシン一リン酸、および環状3
′,5′-グアノシン一リン酸などの小イオンおよび分子のインジケータを作製するため
に有用である。
【0247】
サンプル中の蛍光は、一般に、蛍光光度計を使用して測定され、第1の波長を有する励
起源からの励起放射が、励起光学系を通過し、それによって、励起放射がサンプルを励起
させる。応答して、サンプル中の蛍光タンパク質バリアントは、励起波長とは異なる波長
を有する放射線を発する。次いで、収集光学系が、サンプルからの発光を収集する。デバ
イスは、スキャンされている間にサンプルを特定の温度に維持するための温度コントロー
ラを含み得、かつ曝露される異なるウェルを位置付けるために複数のサンプルを保持する
マイクロタイタープレートを移動させる、多軸移動ステージを有し得る。撮像およびデー
タ収集に関連する多軸移動ステージ、温度コントローラ、自動フォーカス機能、および電
子機器は、適切にプログラムされたデジタルコンピュータによって管理され得、デジタル
コンピュータはまた、アッセイ中に収集されたデータを、プレゼンテーションのために別
の形式に変換し得る。このプロセスは、小型化および自動化されて、ハイスループット形
式で多数の何千もの化合物をスクリーニングすることを可能にし得る。蛍光材料上のアッ
セイを実施するいくつかの方法としては、Lakowicz,“Principles
of Fluorescence Spectroscopy”(Plenum Pre
ss 1983)、Herman,“Resonance energy transf
er microscopy”In“Fluorescence Microscopy
of Living Cells in Culture”Part B,Meth.
Cell Biol.30:219-243(ed.Taylor and Wang;
Academic Press 1989)、Turro,“Modern Molec
ular Photochemistry”(Benjamin/Cummings P
ubl.Co.,Inc.1978),pp.296-361が挙げられ、これらの各々
は、参照により本明細書に組み込まれる。
【0248】
したがって、本開示はまた、サンプル中の分子の存在を特定するための方法の実装を提
供する。そのような方法は、例えば、本明細書で考察されるシステムおよび方法の実装に
よって生成または特定される蛍光タンパク質バリアントを分子にリンクさせることと、分
子を含有する疑いのあるサンプル中の蛍光タンパク質バリアントによる蛍光を検出するこ
ととによって実施され得る。検出される分子は、ポリペプチド、ポリヌクレオチド、また
は例えば、抗体、酵素、もしくは受容体を含む任意の他の分子であり得、蛍光タンパク質
バリアントは、タンデム二量体蛍光タンパク質であり得る。
【0249】
検査されるサンプルは、生物学的サンプル、環境サンプル、または特定の分子が内部に
存在するかどうかを決定することが望まれる任意の他のサンプルを含む、任意のサンプル
であり得る。好ましくは、サンプルは、細胞またはその抽出物を含む。細胞は、ヒトなど
の哺乳動物を含む脊椎動物から、または無脊椎動物から得られ得、植物または動物からの
細胞であり得る。細胞は、そのような細胞、例えば、細胞株の培養から得られ得るか、ま
たは生物から単離され得る。したがって、細胞は、組織サンプル中に含有され得、これは
、組織サンプルを得るために一般的に使用される任意の手段によって、例えば、ヒトの生
検によって、生物から得られ得る。方法が、無傷の生細胞または新たに単離された組織も
しくは臓器サンプルを使用して実施される場合、生細胞中の対象となる分子の存在が特定
され、したがって例えば、分子の細胞内区画化を決定するための手段を提供することがで
きる。そのような目的のための、本明細書で考察されるシステムおよび方法の実装によっ
て生成または特定される蛍光タンパク質バリアントの使用は、蛍光タンパク質のオリゴマ
ー化による異常な同定または局在化の可能性が大幅に最小化されるという点で、実質的な
利点を提供する。
【0250】
蛍光タンパク質バリアントは、タンパク質-分子複合体が曝露される条件下で安定であ
る任意の連結を使用して、直接的または間接的に分子に連結され得る。したがって、蛍光
タンパク質および分子は、タンパク質および分子上に存在する反応基間の化学反応を介し
て連結され得るか、または連結は、蛍光タンパク質および分子に特異的な反応基を含有す
るリンカー部分によって媒介され得る。蛍光タンパク質バリアントおよび分子を連結する
ための適切な条件は、例えば、分子の化学的性質および所望の連結のタイプに応じて選択
されることが認識されるであろう。対象となる分子がポリペプチドである場合、蛍光タン
パク質バリアントおよび分子を連結するための便利な手段は、それらを、例えば、ポリペ
プチド分子をコードするポリヌクレオチドに作動可能に連結されたタンデム二量体蛍光タ
ンパク質をコードするポリヌクレオチドを含む、組換え核酸分子からの融合タンパク質と
して発現することによる。
【0251】
発現制御配列の活性を調節する薬剤または条件を特定する方法も提供される。そのよう
な方法は、例えば、発現制御配列に作動可能に連結された蛍光タンパク質バリアントをコ
ードするポリヌクレオチドを含む組換え核酸分子を、発現制御配列からのポリヌクレオチ
ドの発現を調節することが可能である疑いのある薬剤または条件に曝露することと、その
ような曝露による蛍光タンパク質バリアントの蛍光を検出することとによって実施され得
る。そのような方法は、例えば、調節要素からの組織特異的発現に関与する細胞因子を含
む、発現制御配列からの発現を調節することができる細胞タンパク質を含む、化学的また
は生物学的薬剤を特定するのに有用である。したがって、発現制御配列は、プロモーター
、エンハンサー、サイレンサー、イントロンスプライシング認識部位、ポリアデニル化部
位などの転写調節要素、またはリボソーム結合部位などの翻訳調節要素であり得る。
【0252】
本明細書で考察されるシステムおよび方法の実装によって生成または特定される蛍光タ
ンパク質バリアントはまた、第1の分子および第2の分子の特異的相互作用を特定する方
法でも有用である。そのような方法は、例えば、第1の分子および第2の分子の特異的相
互作用を可能にする条件下で、ドナーの第1の蛍光タンパク質バリアントに連結された第
1の分子を、アクセプターの第2の蛍光タンパク質バリアントに連結された第2の分子と
接触させること、ドナーを励起することと、ドナーからアクセプターへの蛍光または発光
共鳴エネルギー移動を検出し、それによって、第1の分子および第2の分子の特異的相互
作用を特定することとによって実施され得る。そのような相互作用の条件は、分子が特異
的に相互作用することができることが予測されるか、または疑われる任意の条件であり得
る。特に、検査される分子が細胞分子である場合、条件は一般に、生理学的条件である。
したがって、方法は、生理学的条件を模倣する緩衝液、pH、イオン強度などの条件を使
用してインビトロで実施され得るか、または方法は、細胞中で、もしくは細胞抽出物を使
用して実施され得る。
【0253】
発光共鳴エネルギー移動は、化学発光、生物発光、ランタニド、または遷移金属ドナー
から赤色蛍光タンパク質部分へのエネルギー移動を伴う。赤色蛍光タンパク質のより長い
励起波長は、緑色蛍光タンパク質バリアントで可能なものよりも多様なドナーから、かつ
より大きい距離にわたって、エネルギー移動を可能にする。また、より長い発光波長は、
固体光検出器によってより効率的に検出され、赤色光がより短い波長よりもはるかに良好
に組織を透過するインビボ用途にとって特に有益である。化学発光ドナーとしては、ルミ
ノール誘導体およびペルオキシオキサレート系が含まれる。生物発光ドナーとしては、エ
クオリン、オベリン、ホタルルシフェラーゼ、ウミシイタケシフェラーゼ、細菌ルシフェ
ラーゼ、およびそれらのバリアントが挙げられるが、これらに限定されない。ランタニド
ドナーとしては、金属イオンを溶媒水から保護するために、複数のリガンド基に連結され
た紫外線吸収増感剤発色団を含有するテルビウムキレートが挙げられるが、これに限定さ
れない。遷移金属ドナーとしては、オリゴピリジンリガンドのルテニウムおよびオスミウ
ムキレートが挙げられるが、これらに限定されない。化学発光および生物発光ドナーは、
励起光を必要としないが、基質の付加によって励起される一方で、金属ベースの系は、励
起光を必要とするが、より長い励起状態寿命を提供し、望ましくないバックグラウンド蛍
光および散乱を区別するための時間ゲート検出を促進する。
【0254】
第1および第2の分子は、タンパク質が特異的に相互作用するかどうかを判断するため
に、またはそのような相互作用を確認するために調査されている細胞タンパク質であり得
る。そのような第1および第2の細胞タンパク質は、例えば、オリゴマー化する能力につ
いて検査されている場合と同じであり得るか、またはそれらは、タンパク質が、例えば、
細胞内経路に関与する特異的結合パートナーとして検査されている場合と異なり得る。第
1および第2の分子はまた、ポリヌクレオチドおよびポリペプチド、例えば、既知の、ま
たは転写調節要素活性について検査されているポリヌクレオチド、および既知の、または
転写因子活性について試験されているポリペプチドであり得る。例えば、第1の分子は、
転写調節要素活性について試験される、ランダムであり得るか、または既知の配列のバリ
アントであり得る複数のヌクレオチド配列を含み得、第2の分子は、転写因子であり得、
そのような方法は、望ましい活性を有する新規の転写調節要素を特定するのに有用である
【0255】
本開示はまた、サンプルが酵素を含有するかどうかを判断するための方法の実装も提供
する。そのような方法は、例えば、サンプルを、本明細書で考察されるシステムおよび方
法の実装によって生成または特定されるタンデム蛍光タンパク質バリアントと接触させる
ことと、ドナーを励起することと、サンプル中の蛍光特性を決定することであって、サン
プル中の酵素の存在が、蛍光共鳴エネルギー移動の程度の変化をもたらす、決定すること
とによって実施され得る。同様に、本開示は、細胞中の酵素の活性を決定するための方法
の実装を提供する。そのような方法は、例えば、タンデム蛍光タンパク質バリアント構築
物を発現する細胞を提供するであって、ペプチドリンカー部分が、ドナーおよびアクセプ
ターを結合する酵素に特異的な切断認識アミノ酸配列を含む、提供することと、該ドナー
を励起することと、細胞中の蛍光共鳴エネルギー移動の程度を決定するであって、細胞中
の酵素活性の存在が、蛍光共鳴エネルギー移動の程度の変化をもたらす、決定することと
によって実施され得る。
【実施例0256】
本明細書で考察されるシステムおよび方法の実装は、以下の実験例を参照することによ
ってさらに詳述される。これらの実施例は、例示のみを目的として提供され、別段の指定
がない限り、限定することを意図するものではない。したがって、本明細書で考察される
システムおよび方法は、決して以下の実施例に限定されるものとして解釈されるべきでは
ないが、むしろ本明細書に提供される教示の結果として明らかになる、ありとあらゆる変
形形態を包含するものとして解釈されるべきである。
【0257】
さらなる説明なく、当業者は、前述の説明および以下の例示的な実施例を使用して、本
明細書で考察されるシステムおよび方法の実装を作製および利用することができると考え
られる。したがって、以下の実施例は、本明細書で考察されるシステムおよび方法の例示
的な実施形態を具体的に指摘するものであり、決して本開示の残りの部分を制限するもの
として解釈されるべきではない。
【0258】
実施例1:ニューラルネットワークを使用したタンパク質工学
経験的にニューラルネットワークを検証するために、3つの異なるモデルタンパク質を
選択し、各々は、別個のタンパク質工学の課題を表す。第1の検証モデルタンパク質は、
tem-1ベータラクタマーゼであり、その理由は主に、1)抗生物質に対する感受性が
、そのタンパク質の全体的な安定性に直接関係しているため、および2)そのタンパク質
が、安定化変異および不安定化変異の両方を明らかにすることが良好に特徴付けられてい
るためである。次に、非標準アミノ酸であるL-DOPAを組み込むために、金属タンパ
ク質ホスホマンノースイソメラーゼをレポーターに再利用して、安定性を改善した。しか
しながら、酵素の不十分な安定性は、レポーターとして作用するためのその使用を妨げる
。最後のタンパク質の事例は、青色蛍光タンパク質バリアント、secBFP2の改善で
ある。青色蛍光タンパク質は、よく特徴付けられているが、急速な光退色、ゆっくりとし
た成熟およびフォールディング、ならびに比較的薄暗い蛍光は、より広範な使用を妨げる
【0259】
最初に、野生型アミノ酸が、その位置で最良の残基として実験的に検証されている残基
に分析を分けることによって、ニューラルネットワークの真陰性率を評価した。これを、
各個々のアミノ酸変化の効果を生物の適応度で定量化した、tem-1 β-ラクタマー
ゼのすでに公開された変異スキャンを使用して試験した。tem-1で試験した263の
位置のうち、136部位が、ゼロ未満の相対的な適応度値を有した(すなわち、生物の適
応度に対する損失なしに、野生型残基から離れた変異に耐えることができなかった部位)
。136部位のこの収集は、tem-1ベータラクタマーゼにおける真陰性の完全な収集
を構成し、ニューラルネットワークに対して行われた個別の各変化について、真陰性感度
をベンチマークした。最終バージョンは、136個の真陰性のうち92.6%を正確に特
定し、初期のモデルと比べて30%近くの増加であった。したがって、開発されたモデル
は、変異に適していないタンパク質内の部位を特定する能力が増大している。
【0260】
実験の結果が、図3Aおよび図3Bに示される。図3Aは、BFP蛍光を改善すること
がニューラルネットワークによって予測された部位、およびその程度の棒グラフを示す。
右端の棒301は、各々がニューラルネットワークによって個々に示唆される、野生型タ
ンパク質へのアミノ酸置換の特定の組み合わせを実施することによって観察される蛍光の
改善を示す。改善の視覚的表現が、図3Bに示される。修飾青色蛍光タンパク質302は
、野生型青色蛍光タンパク質303よりもはるかに明るく輝く。
【0261】
追加の結果が、図4Aおよび図4Bに示される。図4Bの棒グラフは、ホスホマンノー
スイソメラーゼ(PMI)に対するニューラルネットワーク提案の改善を示す。個々の安
定化変異は各々、野生型と比べて15%~50%の増加をもたらすが、組み合わせて使用
される場合(棒401)、改善は相加的であり、600%近い安定性の有意な改善をもた
らす。
【0262】
図4Bのベン図411(青色蛍光タンパク質、pdb:3m24)および412(ホス
ホマンノースイソメラーゼ、pdb:1pmi)は、ニューラルネットワークが、他のコ
ンピュータ計算タンパク質安定化技術(Foldx PositionScan and
Rosetta pmutスキャン)によって特定されない固有の残基候補を予測する
ことを示す。
【0263】
図5は、ニューラルネットワークによって特定されたTEM-1 β-ラクタマーゼバ
リアントが、祖先タンパク質よりも高いアンピシリン濃度でのE.coliの成長を可能
にしたことを示す。単独で変異誘発されたβ-ラクタマーゼ変異体N52K、F60Y、
M182T、E197D、またはA249Vを発現するE.coliは各々、125ug
/mL以上のアンピシリン濃度で成長することができ、その濃度では、「WT」とラベル
付けされた祖先酵素を発現するE.coliは、成長することができなかった。これらの
変異の5つすべてを含有する単一酵素バリアントを発現するE.coli(N52K、F
60Y、M182T、E197D、およびA249V、「All」とラベル付けされる)
は、3000ug/mLのアンピシリン濃度で成長することができた。言い換えれば、ニ
ューラルネットワークは、触媒に関連する表現型、本実施形態では、E.coliが抗生
物質であるアンピシリンに対してより高い耐性を示すことを可能にする表現型を改善した
【0264】
図6は、ニューラルネットワークが、青色蛍光タンパク質の熱安定性を改善したことを
示す。一例では、10分間の熱負荷後、残留蛍光は、誘導タンパク質であるBluebo
nnetよりも、祖先タンパク質であるSecBFP2.1について少なかった。精製さ
れた青色蛍光タンパク質をPBS pH7.4で0.01mg/mLに希釈し、100u
Lのアリコートを、サーマルサイクラーを使用して、熱勾配において、PCRストリップ
で10分間熱処理した。熱的に負荷されたバリアントの蛍光および室温でインキュベート
された対照を、それぞれ402nmおよび457nmの励起波長および発光波長を使用し
てアッセイした。蛍光読み取り値を、室温でインキュベートされた溶液の平均に正規化し
た(例えば、0.8の測定値は、熱処理されたタンパク質が、その未処理の蛍光の80%
を保持していたことを示す)。図6に示されるように、Bluebonnetは、約84
℃~約100℃の全温度範囲にわたって、SecBFP2.1と比較してより高い熱安定
性を示し、例えば、100℃での10分間の熱負荷後、蛍光が祖先タンパク質によって保
持されない場合、その未処理の蛍光の20%超を保持した。
【0265】
図7は、ニューラルネットワークが、青色蛍光タンパク質の化学的安定性を改善したこ
とを示す。別の例では、グアニジン溶融物における蛍光半減期は、誘導タンパク質である
Bluebonnetよりも、祖先タンパク質であるSecBFP2.1について少なか
った。精製された青色蛍光タンパク質を、6Mのグアニジン塩酸塩中で0.01mg/m
Lに希釈した。100uLのアリコートを三連で、96ウェル透明底黒壁プレートのウェ
ルに添加し、25℃で23時間インキュベートした。これらの精製された蛍光タンパク質
を、それぞれ402nmおよび457nmの励起波長および発光波長を使用して、30分
間隔でアッセイした。各測定の前にプレートを撹拌した。時間ゼロで測定された蛍光値を
使用して、アッセイの残りの部分を通して蛍光を正規化した(例えば、0.8の測定値は
、タンパク質がその初期蛍光の80%を保持したことを示す)。図7に示されるように、
Bluebonnetは、時間=0よりも大きく、最大で時間=約24時間のすべての時
点にわたって、SecBFP2.1よりも高い化学的安定性を示した。
【0266】
実施例2:より明るい青色の蛍光タンパク質であるBluebonnet
タンパク質が細胞全体を通してどのように、かつどこに移動するかを見るとき、科学者
は、特殊な遺伝学的ツールを必要とする。これらのツールのうちの1つは、紫外線光、す
なわち、蛍光タンパク質下で蛍光を発するタンパク質のファミリーである。青色蛍光タン
パク質(BFP、pdb:3m24)は、はるかに一般的に使用される赤色蛍光タンパク
質の誘導体であるが、不十分なインビボでの活性に悩まされる。三次元畳み込みニューラ
ルネットワークパイプラインを使用して、E.coli細胞内で発現された場合に蛍光の
増加をもたらすBFPのバリアントを予測した。図8は、17個のニューラルネットワー
ク予測を、蛍光を増加させる能力について試験したことを示すデータを提供する(野生型
に正規化されて示される)。図9は、有益な変異が組み合わされた場合、野生型よりも8
倍超の蛍光の増加が観察されたことを示すデータを提供する。図10は、S28A、S1
14T、T127L、およびN173H変異の組み合わせを含むBluebonnet青
色蛍光タンパク質の蛍光の増加が、親株ならびに他の青色蛍光タンパク質と比較して目に
見えることを示す。
【0267】
コンピュータのシステム図
図11Aおよび図11Bは、本明細書で考察されるシステムおよび方法の実装に関連し
て有用なコンピュータの実施形態を示すブロック図である。図11Aおよび11Bは、典
型的なコンピュータ1100のブロック図を示す。図11Aおよび11Bに示されるよう
に、コンピュータ1100は、中央処理装置1102および主記憶装置1104を含む。
コンピュータ1100はまた、他の任意の要素、例えば、1つ以上の入力/出力デバイス
130a~130n(一般に、参照番号1130を使用して称される)、コプロセッサ1
106、ならびに中央処理装置1102およびコプロセッサ1106と通信しているキャ
ッシュメモリ1140を含んでもよい。
【0268】
中央処理装置1102は、主記憶装置1104に応答し、かつそれからフェッチされた
命令を処理する、任意の論理回路である。多くの実施形態では、中央処理装置は、Int
el Corporation(Mountain View,California)
によって製造されたもの、Motorola Corporation(Schaumb
urg,Illinois)によって製造されたもの、International B
usiness Machines(White Plains,New York)に
よって製造されたもの、またはAdvanced Micro Devices(Sun
nyvale,California)によって製造されたものなどのマイクロプロセッ
サ装置によって提供される。
【0269】
同様に、コプロセッサ1106は、主記憶装置1104に応答し、かつそれからフェッ
チされた命令を処理する、任意の論理回路である。いくつかの実施形態では、コプロセッ
サ1106は、Google(Mountain View,California)に
よって製造されたものなど、人工知能特定用途向け集積回路であるテンソルプロセッシン
グユニット(TPU)を含んでもよい。
【0270】
主記憶装置1104は、データを記憶し、任意の記憶場所がメインプロセッサ1102
またはコプロセッサ1106のマイクロプロセッサによって直接アクセスされることを可
能にすることが可能な、1つ以上のメモリチップ、例えば、スタティックランダムアクセ
スメモリ(SRAM)、Burst SRAMもしくはSynchBurst SRAM
(BSRAM)、ダイナミックランダムアクセスメモリ(DRAM)、高速ページモード
DRAM(FPM DRAM)、強化DRAM(EDRAM)、拡張データ出力RAM(
EDO RAM)、拡張データ出力DRAM(EDO DRAM)、バースト拡張データ
出力DRAM(BEDO DRAM)、強化DRAM(EDRAM)、同期DRAM(S
DRAM)、JEDEC SRAM、PC100 SDRAM、ダブルデータレートSD
RAM(DDR SDRAM)、強化SDRAM(ESDRAM)、SyncLink
DRAM(SLDRAM)、ダイレクトラムバスDRAM(DRDRAM)、または強誘
電体RAM(FRAM)であり得る。
【0271】
図11Aに示される実施形態では、プロセッサ1102は、システムバス1120(以
下でさらに詳述される)を介して主記憶装置1104と通信する。同様に、コプロセッサ
1106は、システムバス1120を介して主記憶装置1104と通信する。図11B
、プロセッサ1102がメモリポートを介して主記憶装置1104と直接通信する、コン
ピュータシステム1100の一実施形態を示す。例えば、図11B中、主記憶装置110
4は、DRDRAMであってもよい。いくつかの実施形態では、ニューラルネットワーク
エンジンは、主記憶装置が、訓練された重みの値を記憶することに関与し得るため、主記
憶装置内に存在してもよい。
【0272】
図11Aおよび図11Bは、メインプロセッサ1102が、時に「バックサイド」バス
と称される二次バスを介して、キャッシュメモリ1140と直接通信する実施形態を示す
。いくつかの実施形態では、コプロセッサ1106は、二次バスを介してキャッシュメモ
リ1140と直接通信してもよい。他の実施形態では、メインプロセッサ1102は、シ
ステムバス1120を使用してキャッシュメモリ1140と通信する。他の実施形態では
、コプロセッサ1106は、システムバス1120を使用してキャッシュメモリ1140
と通信してもよい。キャッシュメモリ1140は、典型的には、主記憶装置1104より
も速い応答時間を有し、典型的には、SRAM、BSRAM、またはEDRAMによって
提供される。いくつかの実施形態では、コプロセッサは、ニューラルネットワークに関連
する計算を行うための、テンソルプロセッシングユニット(TPU)または他のコプロセ
ッサ、例えば、特定用途向け集積回路(ASIC)を含んでもよい(一次プロセッサ11
02上でそのような計算を行うよりも高速または効率的であり得る)。
【0273】
図11Aに示される実施形態では、プロセッサ1102およびコプロセッサ1106は
、ローカルシステムバス1120を介して様々なI/Oデバイス1130と通信する。V
ESA VLバス、ISAバス、EISAバス、マイクロチャネルアーキテクチャ(MC
A)バス、PCIバス、PCI-Xバス、PCI-Expressバス、またはNuBu
sを含む様々なバスを使用して、中央処理装置1102およびコプロセッサ1106をI
/Oデバイス1130に接続し得る。I/Oデバイスがビデオディスプレイである実施形
態については、プロセッサ1102および/またはコプロセッサ1106は、Advan
ced Graphics Port(AGP)を使用して、ディスプレイと通信しても
よい。図11Bは、メインプロセッサ1102がHyperTransport、Rap
id I/O、またはInfiniBandを介してI/Oデバイス1130bと直接通
信する、コンピュータシステム1100の一実施形態を示す。図11Bはまた、ローカル
バスおよび直接通信が混合された実施形態を示し、プロセッサ1102は、I/Oデバイ
ス1130bと直接通信しながら、ローカル相互接続バスを使用してI/Oデバイス11
30aと通信する。
【0274】
多種多様なI/Oデバイス1130が、コンピュータシステム1100に存在し得る。
入力デバイスとしては、キーボード、マウス、トラックパッド、トラックボール、マイク
、およびドローイングタブレットが挙げられる。出力デバイスとしては、ビデオディスプ
レイ、スピーカ、インクジェットプリンタ、レーザープリンタ、および昇華型プリンタが
挙げられる。I/Oデバイスはまた、コンピュータシステム1100用の大容量記憶装置
、例えば、ハードディスクドライブ、3.5インチ、5.25インチディスクまたはZI
Pディスクなどのフロッピーディスクを受けるためのフロッピーディスクドライブ、CD
-ROMドライブ、CD-R/RWドライブ、DVD-ROMドライブ、様々な形式のテ
ープドライブ、ならびにTwintech Industry,Inc.(Los Al
amitos,California)によって製造されたUSB Flash Dri
veのデバイスライン、およびApple Computer,Inc.(Cupert
ino,California)によって製造されたiPod Shuffleのデバイ
スラインなどのUSB記憶デバイスを提供し得る。
【0275】
さらなる実施形態では、I/Oデバイス1130は、システムバス1120と、外部通
信バス、例えば、USBバス、Apple Desktopバス、RS-232シリアル
接続、SCSIバス、FireWireバス、FireWire 800バス、Ethe
rnetバス、AppleTalkバス、Gigabit Ethernetバス、非同
期転送モードバス、HIPPIバス、Super HIPPIバス、SerialPlu
sバス、SCI/LAMPバス、FibreChannelバス、またはSerial
Attached小型コンピュータシステムインターフェースバスとの間のブリッジであ
ってもよい。
【0276】
図11Aおよび11Bに示される種類の汎用デスクトップコンピュータは、典型的には
、タスクのスケジューリングおよびシステムリソースへのアクセスを制御するオペレーテ
ィングシステムの制御下で動作する。一般的なオペレーティングシステムとしては、とり
わけ、Microsoft Corp.(Redmond,Washington)によ
って製造されたMICROSOFT WINDOWS、Apple Computer(
Cupertino,California)によって製造されたMacOS、Inte
rnational Business Machines(Armonk,New Y
ork)によって製造されたOS/2、およびCaldera Corp.(Salt
Lake City,Utah)によって流通されている自由に利用できるオペレーティ
ングシステムであるLinuxが挙げられる。
【0277】
本明細書に引用されるありとあらゆる特許、特許出願、および刊行物の開示は、参照に
よりそれらの全体が本明細書に組み込まれる。本発明は、特定の実施形態を参照して開示
されているが、本発明の他の実施形態および変更が、本発明の真の趣旨および範囲から逸
脱することなく、当業者によって考案され得ることが明らかである。添付の特許請求の範
囲は、すべてのそのような実施形態および同等の変更を含むと解釈されることが意図され
る。
図1A
図1B
図1C
図1D
図1E
図2A
図2B
図3A
図3B
図4A
図4B
図5
図6
図7
図8
図9
図10
図11A
図11B
【配列表】
2024016257000001.xml