特開2024-16257 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ボード・オブ・リージエンツ，ザ・ユニバーシテイ・オブ・テキサス・システムの特許一覧

特開2024-16257合成タンパク質の安定性を高めるためのシステムおよび方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
1D
1E
2A
2B
3A
3B
4A
4B
5
6
7
8
9
10
11A
11B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024016257

(43)【公開日】2024-02-06

(54)【発明の名称】合成タンパク質の安定性を高めるためのシステムおよび方法

(51)【国際特許分類】

G16B 15/00 20190101AFI20240130BHJP

【ＦＩ】

G16B15/00

【審査請求】有

【請求項の数】19

【出願形態】ＯＬ

(21)【出願番号】P 2023194581

(22)【出願日】2023-11-15

(62)【分割の表示】P 2021564714の分割

【原出願日】2020-05-01

(31)【優先権主張番号】62/841,906

(32)【優先日】2019-05-02

(33)【優先権主張国・地域又は機関】US

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＪＡＶＡ

２．ＰＹＴＨＯＮ

３．ＪＡＶＡＳＣＲＩＰＴ

４．ＦＲＡＭ

５．ＦＩＲＥＷＩＲＥ

６．ＥＴＨＥＲＮＥＴ

７．ＡＰＰＬＥＴＡＬＫ

(71)【出願人】

【識別番号】500039463

【氏名又は名称】ボードオブリージェンツ，ザユニバーシティオブテキサスシステム

【氏名又は名称原語表記】ＢＯＡＲＤＯＦＲＥＧＥＮＴＳ，ＴＨＥＵＮＩＶＥＲＳＩＴＹＯＦＴＥＸＡＳＳＹＳＴＥＭ

【住所又は居所原語表記】２１０Ｗｅｓｔ７ｔｈＳｔｒｅｅｔＡｕｓｔｉｎ，Ｔｅｘａｓ７８７０１Ｕ．Ｓ．Ａ．

(74)【代理人】

【識別番号】230104019

【弁護士】

【氏名又は名称】大野聖二

(74)【代理人】

【識別番号】100149076

【弁理士】

【氏名又は名称】梅田慎介

(74)【代理人】

【識別番号】100173185

【弁理士】

【氏名又は名称】森田裕

(74)【代理人】

【識別番号】100162503

【弁理士】

【氏名又は名称】今野智介

(74)【代理人】

【識別番号】100144794

【弁理士】

【氏名又は名称】大木信人

(74)【代理人】

【識別番号】100204582

【弁理士】

【氏名又は名称】大栗由美

(72)【発明者】

【氏名】エリントン，アンドリュー

(72)【発明者】

【氏名】コール，オースティン

(72)【発明者】

【氏名】シュロフ，ラガヴ

(72)【発明者】

【氏名】タイヤー，ロス

(57)【要約】（修正有）

【課題】タンパク質の特性を改善するためにニューラルネットワークを訓練するコンピュータ実装、そのタンパク質及びタンパク質を含む組成物並びにヌクレオチド配列を含む核酸分子、核酸分子を含む組成物及びキットを提供する。
【解決手段】方法は、データベースからアミノ酸配列のセットを収集することと、各アミノ酸配列を、フォールディングされたタンパク質の三次元結晶構造にコンパイルすることと、三次元結晶構造のサブセットでニューラルネットワークを訓練することと、ニューラルネットワークで、標的タンパク質中で変異する候補残基を特定することと、ニューラルネットワークで、候補残基を置換する予測アミノ酸残基を特定して、変異タンパク質を産生することとを含み、変異タンパク質は、標的タンパク質よりも特性の改善を示す。
【選択図】なし

【特許請求の範囲】

【請求項1】

標的タンパク質の１つ以上の特性を改善する方法であって、
訓練されたニューラルネットワークを使用して、標的タンパク質のアミノ酸配列を分析して、変異のための候補残基として、前記アミノ酸配列の特定の位置で１つ以上のアミノ酸残基を特定することと、
前記ニューラルネットワークで、前記候補残基のうちの少なくとも１つの置換として使用するための１つ以上の予測アミノ酸残基を特定することと、を含む、方法。

【請求項2】

前記ニューラルネットワークで、前記候補残基のうちの少なくとももう１つの置換として使用するための１つ以上の予測アミノ酸残基を特定することをさらに含む、請求項１に記載の方法。

【請求項3】

前記ニューラルネットワークで、前記候補残基の各々の置換として使用するための１つ以上の予測アミノ酸残基を特定することをさらに含む、請求項１又は２に記載の方法。

【請求項4】

１つ以上の置換を行うことによって変異タンパク質を合成することをさらに含み、前記変異タンパク質が、新規の安定化変異を含み、前記標的タンパク質よりも特性における改善を示す、請求項１－３のいずれか一項に記載の方法。

【請求項5】

前記ニューラルネットワークを、
（ａ）所与のアミノ酸残基の配列を有するフォールディングされたタンパク質を表す多次元アレイを生成することであって、前記フォールディングされたタンパク質が、各アミノ酸残基の微小環境に関連する１つ以上の属性を示す、生成することと、
（ｂ）前記多次元アレイをベクトルに前処理することと、
（ｃ）前記前処理されたベクターから前記ニューラルネットワークを介して、前記フォールディングされたタンパク質に関連する微小環境の中心における予測アミノ酸残基を計算することと、
（ｄ）前記予測アミノ酸残基と前記微小環境に関連する前記アミノ酸残基との間の差を決定することと、
（ｅ）閾値を超える前記決定された差に応答して、異なるフォールディングされたタンパク質に対してステップ（ａ）～（ｄ）を反復的に繰り返すことと、
によって訓練することをさらに含む、請求項１－４のいずれか一項に記載の方法。

【請求項6】

前記ニューラルネットワークが、
（ａ）所与のアミノ酸残基の配列を有するフォールディングされたタンパク質を表す多次元アレイを生成することであって、前記フォールディングされたタンパク質が、各アミノ酸残基の微小環境に関連する１つ以上の属性を示す、生成することと、
（ｂ）前記多次元アレイをベクトルに前処理することと、
（ｃ）前記前処理されたベクターから前記ニューラルネットワークを介して、前記フォールディングされたタンパク質に関連する微小環境の中心における予測アミノ酸残基を計算することと、
（ｄ）前記予測アミノ酸残基と前記微小環境に関連する前記アミノ酸残基との間の差を決定することと、
（ｅ）閾値を超える前記決定された差に応答して、異なるフォールディングされたタンパク質に対してステップ（ａ）～（ｄ）を反復的に繰り返すことと、
によって訓練された、請求項１－５のいずれか一項に記載の方法。

【請求項7】

前記標的タンパク質の前記アミノ酸配列からの１つ以上のアミノ酸のサンプルから前記多次元アレイを生成することをさらに含む、請求項６に記載の方法。

【請求項8】

前記多次元アレイを生成することが、前記フォールディングされたタンパク質の三次元モデルをボクセル化マトリックスにマッピングすることをさらに含む、請求項６又は７に記載の方法。

【請求項9】

前記多次元アレイを前処理することが、
前記ニューラルネットワークの１つ以上の畳み込み層の各々について、前記多次元アレイのサブセットから特徴を抽出し、前記抽出された特徴をダウンサンプリングして、特徴特異的マップを生成することと、
前記特徴特異的マップを一次元ベクトルに統合することと、をさらに含む、請求項６－８のいずれか一項に記載の方法。

【請求項10】

ステップ（ｅ）が、前記予測された候補残基およびアミノ酸残基と、前記測定された残基およびアミノ酸残基との間の差に応答して、前記ニューラルネットワークの１つ以上のニューロン重量を修正することをさらに含む、請求項６－９のいずれか一項に記載の方法。

【請求項11】

完全長野生型ｓｅｃＢＦＰ２との関連で、Ｔ１８、Ｓ２８、Ｙ９６、Ｓ１１４、Ｖ１２４、Ｔ１２７、Ｄ１５１、Ｎ１７３、およびＲ１９８から選択される１つ以上の残基において１つ以上の変異を有するｓｅｃＢＦＰ２バリアントを含む、タンパク質。

【請求項12】

配列番号２－配列番号２８からなる群から選択されるアミノ酸配列を含むタンパク質、
配列番号２－配列番号２８からなる群から選択されるアミノ酸配列を含むタンパク質のバリアント、
配列番号２－配列番号２８からなる群から選択されるアミノ酸配列を含む融合タンパク質、および、
配列番号２－配列番号２８からなる群から選択されるアミノ酸配列を含むタンパク質の断片、
からなる群から選択される、請求項１１に記載のタンパク質。

【請求項13】

請求項１１又は１２に記載のタンパク質をコードするヌクレオチド配列を含む核酸分子。

【請求項14】

プラスミドである、請求項１３に記載の核酸分子。

【請求項15】

発現ベクターである、請求項１３に記載の核酸分子。

【請求項16】

異種タンパク質コード配列の挿入のためのマルチクローニングサイトをさらに含む、請求項１３－１５のいずれか一項に記載の核酸分子。

【請求項17】

請求項１１又は１２に記載のタンパク質を含む、組成物。

【請求項18】

請求項１３―１６のいずれか一項に記載の核酸分子を含む、組成物。

【請求項19】

請求項１３―１６のいずれか一項に記載の核酸分子を含む、キット。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願
本出願は、２０１９年５月２日に出願された、「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄ
ｆｏｒＩｎｃｒｅａｓｉｎｇＳｙｎｔｈｅｓｉｚｅｄＰｒｏｔｅｉｎＳｔａｂ
ｉｌｉｔｙ」と題する米国仮特許出願第６２／８４１，９０６号の利益および優先権を主
張するものであり、その全体が参照により本明細書に組み込まれる。

【0002】

連邦政府による資金提供を受けた研究または開発の記載
本発明は、ＮａｔｉｏｎａｌＩｎｓｔｉｔｕｔｅｓｏｆＨｅａｌｔｈによって授
与された助成金番号Ｒ４３ＮＳ１０５４６３、およびＡｉｒＦｏｒｃｅＯｆｆｉ
ｃｅｏｆＳｃｉｅｎｔｉｆｉｃＲｅｓｅａｒｃｈによって授与された助成金番号Ｆ
Ａ９５５０－１４－１－００８９の下、政府支援で行われた。政府は、本発明における特
定の権利を有する。

【背景技術】

【0003】

タンパク質工学は、バイオテクノロジーおよび生物医学における変革的なアプローチで
あり、既存のタンパク質に新規の機能性を付与すること、または非天然環境においてタン
パク質をより持続性のものにすることのいずれかを目標とする。両方の工学の方法に影響
を与える設計上の考慮事項は、タンパク質の全体的な安定性である。前者の場合、合理的
な設計または指向性進化を通してタンパク質の役割を拡大する機能獲得変異が、しばしば
熱力学的コストで導入される。ほとんどの天然タンパク質は、わずかしか安定していない
ため、選択前の安定性の向上が、タンパク質の進化性を促進することが示されている一方
で、アンフォールディングまでタンパク質を不安定化する機能的変異は、見落とされる可
能性がある。

【0004】

有用な天然に存在する生体触媒から産業利用への変換における重大な障壁は、根本的に
異なる環境条件、温度、および溶媒へのタンパク質の適応である。タンパク質の安定性を
高めることは、これらの圧力の多くを軽減し、より高い収率およびより低いコストで大量
の発現を可能にすることができる。したがって、安定化は、多くのタンパク質工学的努力
の成功に不可欠である。

【0005】

タンパク質を操作する多くの方法が存在し、すべては一般に、タンパク質バリアントが
どれほど迅速かつ正確に測定され得るかと、タンパク質バリアントの状況がどれほど効率
的にサンプリングされ得るかとの間の妥協を表す。変異誘発ポリメラーゼ連鎖反応（ＰＣ
Ｒ）などの技術は、配列と機能との間の関係についての最小限の知識を必要とするが、そ
れでもなお、タンパク質バリアントの大きいライブラリを分離するためにハイスループッ
トスクリーンまたは選択に依存する。構造データおよびコンピュータ計算アプローチを使
用して、検索空間を狭くし、同時に下流特性評価の量を低減することができる。これらの
ツールは、所望される特性が、特に大規模で測定困難であるタンパク質にとってますます
重要になる。しかしながら、タンパク質配列／構造／機能の関係の理解が不完全なため、
タンパク質工学のための異なるコンピュータ計算ツールが、しばしば全く異なる、または
相反さえする解を提供する。これは、安定性およびフォールディングなどの特性に特に当
てはまるが、これらは多くの場合、全タンパク質配列全体にわたって分布する多くの小さ
い相互作用の結果である。

【0006】

典型的には、コンピュータ計算方法は、コンピュータ計算集約的なフォールディングシ
ミュレーションを実施することによって、タンパク質を不安定化する残基を特定する。こ
れらのシミュレーションに関与する詳細のレベルは様々であり、量子力学（ＭＯＥ）を引
き合いに出して分子の相互作用を説明するまで進むものもあれば、より粗視化の方法（Ｒ
ｏｓｅｔｔａ）を使用するものもある。第１の近似まで、粗視化アプローチは、タンパク
質構造（ＲｏｓｅｔｔａＶＩＰ）のギャップを探すか、高速局所自由エネルギー計算（ｆ
ｏｌｄＸ）を行うか、または進化的外れ値（ＰＲＯＳＳ）である残基を見つけるかのいず
れかによって、問題のある残基を特定する。次いで、疎水性パッキングまたは進化的コン
センサスへの復帰によって、より良好な適合残基が提案される。次いで、タンパク質の安
定性に対するこれらの置換の効果が、変異体のエネルギーシミュレーションを介して推定
される。全体で、このプロセス（残基特定、置換提案、リフォールディング、および自由
エネルギー計算）は、数時間から数日間かかる可能性がある。

【0007】

機械学習は、特定のタンパク質の特徴についての事前知識または時間のかかる手作業の
検査、および個々の構造の特徴の割り当てを必要としないため、魅力的な代替手段である
。近年、ＴｏｒｎｇａｎｄＡｌｔｍａｎ（参照により本明細書に組み込まれるＴｏｒ
ｎｇｅｔａｌ．，“３Ｄｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌ
ｎｅｔｗｏｒｋｓｆｏｒａｍｉｎｏａｃｉｄｅｎｖｉｒｏｎｍｅｎｔｓｉｍｉ
ｌａｒｉｔｙａｎａｌｙｓｉｓ，”ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ，１８：３
０２，２０１７）は、周囲のタンパク質微小環境に関する情報を与えられたアミノ酸の同
一性を予測することによって、三次元畳み込みニューラルネットワーク（３ＤＣＮＮ）を
タンパク質構造分析に適用する一般的な枠組みについて記載している。このニューラルネ
ットワークは、野生型配列に対するアミノ酸の割り当てにおいて４２％の予測精度を達成
し、事前に割り当てられた構造ベースの特徴の特定に依存した他のコンピュータ計算方法
よりも優れていた。さらに、モデルタンパク質であるＴ４リゾチームの構造データを所与
として、３ＤＣＮＮは典型的には、変異が不安定化することが知られている場所で野生
型残基を予測し、これらの既知の不安定化変異体の構造を与えられると、野生型残基に対
する強い選好を示した。

【発明の概要】

【0008】

プロテオームが、フォールディング形状、安定性、触媒、および結合特異性などのいく
つかの無関係な、または相反さえする表現型を同時に示さなければならないことを考慮す
ると、活性部位から離れた位置で構造的外れ値であるアミノ酸が、フォールディングおよ
び安定性に影響を与え得るが、機能には影響を与えないことが妥当である。したがって、
人工知能を利用して、異なるアミノ酸のコンセンサス微小環境を学習し、構造全体をスキ
ャンして、構造コンセンサスから逸脱する残基を特定する改善されたタンパク質工学技術
に対する当該技術分野のニーズがある。野生型の確率が低いとみなされるこれらの残基は
、不安定性の遺伝子座であると考えられており、したがって、変異誘発および安定性工学
の良好な候補である。本明細書で考察されるシステムおよび方法の実装は、そのような改
善されたタンパク質工学技術を提供する。

【0009】

一態様では、タンパク質の特性を改善するためにニューラルネットワークを訓練するコ
ンピュータ実装方法は、データベースからアミノ酸配列のセットを収集することと、アミ
ノ酸のセットに対して化学環境を有する三次元結晶構造のセットをコンパイルすることと
、化学環境をボクセル化マトリックスに翻訳することと、ボクセル化マトリックスのサブ
セットでニューラルネットワークを訓練することと、ニューラルネットワークで、標的タ
ンパク質中で変異する候補残基を特定することと、ニューラルネットワークで、候補残基
を置換する予測アミノ酸残基を特定して、変異タンパク質を産生することとを含み、変異
タンパク質は、標的タンパク質よりも特性の改善を示す。一実施形態では、方法は、水素
位置、部分電荷、ベータ因子、二次構造、芳香族性、電子密度、極性、およびそれらの組
み合わせからなる群から選択される特徴の空間的配置を、三次元結晶構造のうちの少なく
とも１つに付加するステップをさらに含む。

【0010】

一実施形態では、方法は、アミノ酸配列のセットを調整して、それらの固有頻度を反映
することをさらに含む。一実施形態では、方法は、配列中のランダムな位置から、アミノ
酸配列のセット中のアミノ酸の少なくとも５０％をサンプリングすることをさらに含む。
一実施形態では、方法は、三次元結晶構造またはボクセル化マトリックスの第２のサブセ
ットで、第２の独立したニューラルネットワークを訓練することと、両方のニューラルネ
ットワークの結果に基づいて、候補残基および予測残基を特定することと、をさらに含む
。一実施形態では、特性は、安定性、成熟、フォールディング、またはそれらの組み合わ
せである。

【0011】

別の態様では、タンパク質の特性を改善するためのシステムは、プロセッサと、命令が
記憶された非一時的コンピュータ可読媒体とを備え、命令は、プロセッサによって実行さ
れたときに、残基の配列を含む標的タンパク質を提供するステップと、各三次元モデルに
対して、アミノ酸の周囲の三次元モデルのセットおよびタンパク質特性値のセットを提供
するステップと、各三次元モデルの様々な点で、パラメータのセットを推定するステップ
と、三次元モデル、パラメータ、およびタンパク質特性値で、ニューラルネットワークを
訓練するステップと、ニューラルネットワークで、標的タンパク質中で変異する候補残基
を特定するステップと、ニューラルネットワークで、候補残基を置換する予測アミノ酸残
基を特定し、変異タンパク質を産生するステップとを含むステップを実施し、変異タンパ
ク質は、標的タンパク質よりも特性の改善を示す。

【0012】

一実施形態では、タンパク質特性は、安定性である。一実施形態では、ステップは、フ
ォールディングされたアミノ酸配列の少なくとも１つのアミノ酸配列を再コンパイルして
、更新された三次元モデルを生成することを含む。一実施形態では、ステップは、再コン
パイル前に、フォールディングされたアミノ酸配列の少なくとも１つのアミノ酸配列に、
特徴の空間的配置を付加することを含む。

【0013】

別の態様では、本発明は、完全長野生型ｓｅｃＢＦＰ２との関連で、Ｔ１８、Ｓ２８、
Ｙ９６、Ｓ１１４、Ｖ１２４、Ｔ１２７、Ｄ１５１、Ｎ１７３、およびＲ１９８から選択
されるもう１つの残基において１つ以上の変異を有するｓｅｃＢＦＰ２バリアントを含む
、タンパク質に関する。一実施形態では、タンパク質は、配列番号２～配列番号２８のう
ちの１つのアミノ酸配列を含むｓｅｃＢＦＰ２バリアントを含む。一実施形態では、ｓｅ
ｃＢＦＰ２バリアントは、配列番号２～配列番号２８のうちの１つのアミノ酸配列のバリ
アントを含む。一実施形態では、ｓｅｃＢＦＰ２バリアントは、配列番号２～配列番号２
８のうちの１つのアミノ酸配列を含む融合タンパク質を含む。一実施形態では、ＢＦＰは
、配列番号２～配列番号２８のうちの１つのアミノ酸配列の断片を含む。

【0014】

別の態様では、本発明は、ｓｅｃＢＦＰ２バリアントを含むタンパク質をコードするヌ
クレオチド配列を含む核酸分子に関する。一実施形態では、ヌクレオチド配列は、配列番
号２～配列番号２８に記載されるアミノ酸配列、そのバリアント、その融合タンパク質、
またはその断片をコードする。一実施形態では、分子は、プラスミドである。一実施形態
では、分子は、発現ベクターである。一実施形態では、核酸分子は、異種タンパク質コー
ド配列の挿入のための複数のクローニング部位をさらに含む。別の態様では、本発明は、
上記のタンパク質を含む組成物、上記の核酸分子を含む組成物、上記のタンパク質を含む
キット、または上記の核酸分子を含む。

【図面の簡単な説明】

【0015】

特許または出願ファイルは、カラーで作成される少なくとも１つの図面を含む。カラー
の図面（複数可）を含む本特許または特許出願公開の写しは、請求および必要な料金の支
払い後に事務所によって提供される。

【0016】

前述の目的および特徴、ならびに他の目的および特徴は、本説明、および本発明の理解
を提供するために含まれ、本明細書の一部を構成する以下の添付の図面を参照して明らか
となり、図面中、同様の数字は、同様の要素を表す。

【図1A】合成タンパク質特性を増加させるためのコンピュータ実装ニューラルネットワークの実装の図である。

【図1B】微小環境の中心におけるアミノ酸残基を決定するための方法の実装のフローチャートである。

【図1C】試験中に合成タンパク質特性を増加させるための方法の実装のフローチャートである。

【図1D】訓練中に合成タンパク質特性を増加させるためのニューラルネットワークの実装のブロック図である。

【図1E】合成タンパク質特性を増加させるための畳み込みニューラルネットワークの実装のブロック図である。

【図2A】合成タンパク質特性を増加させるための方法およびシステムの実装の実験結果のグラフである。

【図2B】合成タンパク質特性を増加させるための方法およびシステムの実装の実験結果の別のグラフである。

【図3A】合成タンパク質特性を増加させるための方法およびシステムの実装の実験結果の別のグラフである。

【図3B】合成タンパク質特性を増加させるためのシステムの実装によって示唆される修飾を用いて合成されたタンパク質の写真である。

【図4A】合成タンパク質特性を増加させるための方法およびシステムの実装の実験結果の別のグラフである。

【図4B】合成タンパク質特性を増加させるためのシステムの実装によって示唆される示唆されたタンパク質修飾の図である。

【図5】合成タンパク質特性を増加させるためのシステムの実装の実験結果の写真のセットである。

【図6】合成タンパク質特性を増加させるためのシステムの実装の実験結果のグラフである。

【図7】合成タンパク質特性を増加させるためのシステムの実装の実験結果のグラフである。

【図8】野生型タンパク質に対する１７個の青色蛍光タンパク質バリアントの蛍光の倍率変化を示すグラフである。

【図9】野生型タンパク質に対する青色蛍光タンパク質バリアントの蛍光の倍率変化を示すグラフである。

【図10】親タンパク質および他の青色蛍光タンパク質と比較して、Ｓ２８Ａ、Ｓ１１４Ｔ、Ｎ１７３Ｈ、およびＴ１２７Ｌ変異を含む、青色蛍光タンパク質バリアント「ブルーボネット」の蛍光の例示的な画像を提供する。

【図11A】合成タンパク質特性を増加させるためのシステムの実装を示すブロック図である。

【図11B】合成タンパク質特性を増加させるためのシステムの実装を示すブロック図である。

【発明を実施するための形態】

【0017】

本発明の図面および説明は、本発明の明確な理解に関連する要素を例示するために単純
化されていると同時に、明確にするために、関連するシステムおよび方法に見られる多く
の他の要素を排除していることが理解されるべきである。当業者は、本発明を実装する際
に他の要素および／またはステップが望ましい、および／または必要であることを認識し
得る。しかしながら、そのような要素およびステップは、当該技術分野で周知であるため
、かつそれらは、本発明のより良好な理解を促進しないため、そのような要素およびステ
ップの考察は、本明細書には提供されない。本明細書の開示は、当業者に既知のそのよう
な要素および方法に対する、そのようなすべての変更および修正を対象とする。

【0018】

別途定義されない限り、本明細書で使用されるすべての技術用語および科学用語は、本
発明が属する分野の当業者によって一般的に理解されるものと同じ意味を有する。本明細
書に記載されるものと類似または同等の任意の方法および材料が、本発明の実施または試
験で使用され得るが、例示的な方法および材料が記載される。

【0019】

本明細書で使用される場合、以下の用語の各々は、本セクションでそれに関連する意味
を有する。

【0020】

冠詞「ａ」および「ａｎ」は、本明細書において、冠詞の文法的対象のうちの１つ、ま
たは２つ以上（すなわち、少なくとも１つ）を指すために使用される。一例として、「要
素（ａｎｅｌｅｍｅｎｔ）」は、１つの要素または２つ以上の要素を意味する。

【0021】

量、時間的持続期間などの測定可能な値を指すときに本明細書で使用される場合、「約
」は、指定された値からの±２０％、±１０％、±５％、±１％、および±０．１％の変
動を包含するよう意図され、したがって、変動は適切である。

【0022】

「核酸分子」または「ポリヌクレオチド」という用語は、一本鎖形態または二本鎖形態
のいずれかにおけるデオキシリボヌクレオチドまたはリボヌクレオチドポリマーを指し、
特に別段の示唆がない限り、天然に存在するヌクレオチドと類似の様式で機能することが
できる、天然に存在するヌクレオチドの既知の類似体を含有するポリヌクレオチドを包含
する。核酸分子がＤＮＡ配列によって表される場合、これは、「Ｕ」（ウリジン）が「Ｔ
」（チミジン）に取って代わる対応するＲＮＡ配列を有するＲＮＡ分子も含むことが理解
されるであろう。

【0023】

「組換え核酸分子」という用語は、２つ以上の連結ポリヌクレオチド配列を含有する、
天然に存在しない核酸分子を指す。組換え核酸分子は、組換え方法、特に遺伝子工学技術
によって産生されてもよく、または化学合成方法によって産生されてもよい。組換え核酸
分子は、融合タンパク質、例えば、対象となるポリペプチドに連結された本明細書で考察
されるシステムおよび方法によって示唆される蛍光タンパク質バリアントをコードするこ
とができる。「組換え宿主細胞」という用語は、組換え核酸分子を含有する細胞を指す。
したがって、組換え宿主細胞は、細胞の天然（非組換え）形態内には見られない「遺伝子
」からポリペプチドを発現することができる。

【0024】

ポリペプチドを「コードする」ポリヌクレオチドへの言及は、ポリヌクレオチドの転写
およびそれから産生されるｍＲＮＡの翻訳の際に、ポリペプチドが産生されることを意味
する。コードポリヌクレオチドは、そのヌクレオチド配列がｍＲＮＡと同一であるコード
鎖、ならびにその相補鎖の両方を含むとみなされる。そのようなコードポリヌクレオチド
は、同じアミノ酸残基をコードする縮重ヌクレオチド配列を含むとみなされることが認識
されるであろう。ポリペプチドをコードするヌクレオチド配列は、イントロンを含有する
ポリヌクレオチド、ならびにコードエクソンを含み得る。

【0025】

「発現制御配列」という用語は、ポリヌクレオチドの転写もしくは翻訳、またはそれが
作動可能に連結されたポリペプチドの局在化を調節するヌクレオチド配列を指す。発現制
御配列は、発現制御配列が、ヌクレオチド配列の転写、および必要に応じて翻訳（すなわ
ち、それぞれ転写または翻訳調節要素）、またはコードされたポリペプチドの細胞の特定
の区画への局在化を制御または調節するとき、「作動可能に連結」されている。したがっ
て、発現制御配列は、プロモーター、エンハンサー、転写ターミネーター、開始コドン（
ＡＴＧ）、イントロン切除および正しいリーディングフレームの維持のためのスプライシ
ングシグナル、停止コドン、リボソーム結合部位、またはポリペプチドを特定の位置に標
的化する配列、例えば、細胞区画化シグナル（これは、ポリペプチドを、細胞質ゾル、核
、原形質膜、小胞体、ミトコンドリア膜もしくはマトリックス、葉緑体膜もしくは葉緑体
腔、中間トランスゴルジ扁平嚢、リソソーム、またはエンドソームに標的化することがで
きる）であり得る。細胞区画化ドメインとしては、例えば、ヒトＩＩ型膜アンカータンパ
ク質ガラクトシルトランスフェラーゼのアミノ酸残基１～８１、またはシトクロムｃオキ
シダーゼのサブユニットＩＶのプレ配列のアミノ酸残基１～１２を含有するペプチドが挙
げられる（また、Ｈａｎｃｏｃｋｅｔａｌ．，ＥＭＢＯＪ．１０：４０３３－４０
３９，１９９１、Ｂｕｓｓｅｔａｌ．，Ｍｏｌ．Ｃｅｌｌ．Ｂｉｏｌ．８：３９６０
－３９６３，１９８８、米国特許第５，７７６，６８９号も参照されたい（それら各々は
、参照により本明細書に組み込まれる））。

【0026】

キメラタンパク質を説明するために使用される場合、「作動可能に連結された」もしく
は「作動的に連結された」もしくは「動作可能に結合された」という用語、または類似の
ものは、互いに物理的および機能的関係に置かれるポリペプチド配列を指す。最も好まし
い実施形態では、キメラ分子のポリペプチド構成成分の機能は、単独での機能的活性と比
較して変化していない。例えば、本明細書で考察されるシステムおよび方法によって示唆
される蛍光タンパク質は、対象となるポリペプチドに融合され得る。この場合、融合分子
は、その蛍光を保持し、対象となるポリペプチドは、その元の生物活性を保持することが
好ましい。本明細書で考察されるシステムおよび方法のいくつかの実施形態では、蛍光タ
ンパク質または対象となるタンパク質のいずれかの活性は、単独でのそれらの活性と比較
して低減され得る。また、そのような融合は、本明細書で考察されるシステムおよび方法
とともに使用され得る。

【0027】

「標識」という用語は、例えば、目視検査、分光法、または光化学反応、生化学反応、
免疫化学反応、もしくは化学反応によって、機器の有無を問わず検出可能である組成物を
指す。有用な標識としては、例えば、リン－３２、蛍光染料、蛍光タンパク質、高電子密
度試薬、酵素（ＥＬＩＳＡで一般的に使用されるものなど）、小分子、例えば、ビオチン
、ジゴキシゲニン、またはモノクローナル抗体であり得る抗血清または抗体が利用可能な
他のハプテンもしくはペプチドが挙げられる。本明細書で考察されるシステムおよび方法
の実装によって示唆される蛍光タンパク質バリアントは、それ自体が検出可能なタンパク
質であるが、それにもかかわらず、それ自体の蛍光以外の手段によって、例えば、放射性
核種標識またはペプチドタグをタンパク質に組み込んで、例えば、タンパク質のその発現
中の特定および発現されたタンパク質の単離のそれぞれを促進することによって検出可能
になるように標識され得ることが認識されるであろう。本明細書で考察されるシステムお
よび方法の実装の目的に有用な標識は、一般に、放射性シグナル、蛍光性の光、酵素活性
などの測定可能なシグナルを発生させ、それらのいずれかは、例えば、サンプル中の蛍光
タンパク質バリアントの量を定量化するために使用され得る。

【0028】

「ポリペプチド」または「タンパク質」という用語は、２つ以上のアミノ酸残基のポリ
マーを指す。これらの用語は、１つ以上のアミノ酸残基が、対応する天然に存在するアミ
ノ酸の人工的化学類似体であるアミノ酸ポリマー、ならびに天然に存在するアミノ酸ポリ
マーに適用される。「組換えタンパク質」という用語は、組換えＤＮＡ分子からのタンパ
ク質のアミノ酸配列をコードするヌクレオチド配列の発現によって産生されるタンパク質
を指す。

【0029】

「単離された」または「精製された」という用語は、自然界での天然の状態の物質に通
常付随している構成成分を実質的にまたは本質的に含まない物質を指す。純度または均質
性は、一般に、ポリアクリルアミドゲル電気泳動、高速液体クロマトグラフィーなどの分
析化学技術を使用して決定される。ポリヌクレオチドまたはポリペプチドは、それが調製
物中に存在する主要な種である場合に単離されるとみなされる。概して、単離されたタン
パク質または核酸分子は、調製物中に存在する高分子種の８０％超を表し、多くの場合、
存在するすべての高分子種の９０％超を表し、通常、高分子種の９５％超を表し、特に、
そのような分子の純度を決定するための従来の方法を使用して検査されたときに検出され
る唯一の種であるような本質的な均質性まで精製された、ポリペプチドまたはポリヌクレ
オチドである。

【0030】

「天然に存在する」という用語は、タンパク質、核酸分子、細胞、または自然界で生じ
る他の物質を指すために使用される。例えば、ウイルスを含む生物中に存在するポリペプ
チドまたはポリヌクレオチド配列。天然に存在する物質は、自然界に存在するようなその
形態であり得、例えば、単離形態であるように人の手によって修飾され得る。

【0031】

「抗体」という用語は、免疫グロブリン遺伝子（複数可）、またはその抗原結合断片に
よって実質的にコードされるポリペプチドを指し、それらは、分析物（抗原）に特異的に
結合し、それを認識する。認識される免疫グロブリン遺伝子としては、カッパ、ラムダ、
アルファ、ガンマ、デルタ、イプシロン、およびミュー定常領域遺伝子、ならびに無数の
免疫グロブリン可変領域遺伝子が挙げられる。抗体は、完全型免疫グロブリンとして存在
し、抗体の抗原結合断片も同様に特徴付けられ、これは、ペプチダーゼで消化することに
よって産生されるか、または組換えＤＮＡ法を使用することができる。抗体のそのような
抗原結合断片としては、例えば、Ｆｖ、Ｆａｂ’、およびＦ（ａｂ）’２断片が挙げられ
る。本明細書で使用される場合、「抗体」という用語は、抗体全体の修飾によって産生さ
れる抗体断片、または組換えＤＮＡ法を使用してデノボ合成される抗体断片のいずれかを
含む。「免疫測定法」という用語は、抗体を利用して、分析物に特異的に結合するアッセ
イを指す。免疫測定法は、特定の抗体の特異的結合特性を使用して、分析物を単離、標的
化、および／または定量化することを特徴とする。

【0032】

２つ以上のポリヌクレオチド配列または２つ以上のポリペプチド配列に関連して使用さ
れる場合、「同一」という用語は、最大一致のためにアライメントされたときに同じであ
る配列中の残基を指す。配列同一性の割合がポリペプチドに関連して使用される場合、そ
うでなければ同一ではない１つ以上の残基位置が、保存的アミノ酸置換によって異なり得
、第１のアミノ酸残基が、類似の電荷または疎水性もしくは親水性特性などの類似の化学
的特性を有する別のアミノ酸残基の代わりに置換され、したがって、ポリペプチドの機能
的特性を変化させないことが認識される。ポリペプチド配列が保存的置換で異なる場合、
配列同一性パーセントは、上方に調整されて、置換の保存的性質を補正することができる
。そのような調整は、例えば、保存的置換を完全なミスマッチではなく部分的なミスマッ
チとしてスコアリングし、それによって配列同一性の割合を増加させることによって行わ
れ得る。したがって、例えば、同一のアミノ酸が、１のスコアを与えられ、非保存的置換
が、ゼロのスコアを与えられる場合、保存的置換は、ゼロと１との間のスコアを与えられ
る。保存的置換のスコアリングは、例えば、ＭｅｙｅｒｓａｎｄＭｉｌｌｅｒ，Ｃｏ
ｍｐ．Ａｐｐｌ．Ｂｉｏｌ．Ｓｃｉ．４：１１－１７，１９８８、Ｓｍｉｔｈａｎｄ
Ｗａｔｅｒｍａｎ，Ａｄｖ．Ａｐｐｌ．Ｍａｔｈ．２：４８２，１９８１、Ｎｅｅｄｌｅ
ｍａｎａｎｄＷｕｎｓｃｈ，Ｊ．Ｍｏｌ．Ｂｉｏｌ．４８：４４３，１９７０、Ｐｅ
ａｒｓｏｎａｎｄＬｉｐｍａｎ，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．，ＵＳＡ
８５：２４４４（１９８８）、ＨｉｇｇｉｎｓａｎｄＳｈａｒｐ，Ｇｅｎｅ７３
：２３７－２４４，１９８８、ＨｉｇｇｉｎｓａｎｄＳｈａｒｐ，ＣＡＢＩＯＳ５
：１５１－１５３；１９８９、Ｃｏｒｐｅｔｅｔａｌ．，Ｎｕｃｌ．ＡｃｉｄｓＲ
ｅｓ．１６：１０８８１－１０８９０，１９８８、Ｈｕａｎｇ，ｅｔａｌ．，Ｃｏｍｐ
．Ａｐｐｌ．Ｂｉｏｌ．Ｓｃｉ．８：１５５－１６５，１９９２、Ｐｅａｒｓｏｎｅｔ
ａｌ．，Ｍｅｔｈ．Ｍｏｌ．Ｂｉｏｌ．，２４：３０７－３３１，１９９４（これらの
各々は、参照により本明細書に組み込まれる）で考察されるアルゴリズムを使用して計算
され得る。アライメントはまた、単純な目視検査および配列の手動アライメントによって
実施され得る。

【0033】

特定のポリヌクレオチド配列に関連して使用される場合、「保存的に修飾された変異」
という用語は、同一もしくは本質的に同一のアミノ酸配列をコードする異なるポリヌクレ
オチド配列を指し、またはポリヌクレオチドは、本質的に同一の配列に対してアミノ酸配
列をコードしない。遺伝子コードの縮重により、多数の機能的に同一のポリヌクレオチド
が、任意の所与のポリペプチドをコードする。例えば、コドンＣＧＵ、ＣＧＣ、ＣＧＡ、
ＣＧＧ、ＡＧＡ、およびＡＧＧはすべて、アミノ酸アルギニンをコードする。したがって
、アルギニンがコドンによって指定されるあらゆる位置で、コドンは、コードされたポリ
ペプチドを改変することなく、記載された対応するコドンのいずれかに改変され得る。そ
のようなヌクレオチド配列変異は、「サイレント変異」であり、これは、「保存的に修飾
された変異」の種とみなされ得る。したがって、蛍光タンパク質バリアントをコードする
ものとして本明細書に開示される各ポリヌクレオチド配列が、すべての可能性のあるサイ
レント変異も説明することが認識されるであろう。また、通常メチオニンの唯一のコドン
であるＡＵＧ、および通常トリプトファンの唯一のコドンであるＵＵＧを除く、ポリヌク
レオチド中の各コドンが、標準的な技術によって機能的に同一の分子を得るように修飾さ
れ得ることも認識されるであろう。したがって、コードされたポリペプチドの配列を変化
させないポリヌクレオチドの各サイレント変異が、本明細書に黙示的に記載される。さら
に、コードされた配列中の単一アミノ酸または少ない割合のアミノ酸（典型的には５％未
満、概して１％未満）を改変、付加、または欠失する個々の置換、欠失、または付加が、
保存的に修飾された変異とみなされ得、ただし、改変が、化学的に類似したアミノ酸での
アミノ酸の置換をもたらすことを条件とすることが認識されるであろう。機能的に類似し
たアミノ酸を提供する保存的アミノ酸置換は、以下の６つの群を含んでもよく、それらの
各々は、互いに対する保存的置換とみなされるアミノ酸を含有する：
１）アラニン（Ａｌａ、Ａ）、セリン（Ｓｅｒ、Ｓ）、スレオニン（Ｔｈｒ、Ｔ）、
２）アスパラギン酸（Ａｓｐ、Ｄ）、グルタミン酸（Ｇｌｕ、Ｅ）、
３）アスパラギン（Ａｓｎ、Ｎ）、グルタミン（Ｇｌｎ、Ｑ）、
４）アルギニン（Ａｒｇ、Ｒ）、リジン（Ｌｙｓ、Ｋ）、
５）イソロイシン（Ｉｌｅ、Ｉ）、ロイシン（Ｌｅｕ、Ｌ）、メチオニン（Ｍｅｔ、Ｍ
）、バリン（Ｖａｌ、Ｖ）、および
６）フェニルアラニン（Ｐｈｅ、Ｆ）、チロシン（Ｔｙｒ、Ｙ）、トリプトファン（Ｔ
ｒｐ、Ｗ）。

【0034】

アミノ酸配列またはヌクレオチド配列が、互いと、または所与の比較ウィンドウにわた
って参照配列と少なくとも８０％の配列同一性を共有する場合、２つ以上のアミノ酸配列
または２つ以上のヌクレオチド配列は、「実質的に同一」または「実質的に類似」である
とみなされる。したがって、実質的に類似した配列は、例えば、少なくとも８５％の配列
同一性、少なくとも９０％の配列同一性、少なくとも９５％の配列同一性、または少なく
とも９９％の配列同一性を有する配列を含む。

【0035】

対象のヌクレオチド配列の補体が参照ヌクレオチド配列と実質的に同一である場合、対
象のヌクレオチド配列は、参照ヌクレオチド配列に対して「実質的に相補的」であるとみ
なされる。

【0036】

蛍光分子は、ドナー分子およびアクセプター分子を伴う蛍光共鳴エネルギー移動、ＦＲ
ＥＴにおいて有用である。ドナー分子とアクセプター分子との間のＦＲＥＴの効率および
検出可能性を最適化するために、いくつかの要因のバランスをとる必要がある。ドナーの
発光スペクトルは、重なり積分を最大化するために、アクセプターの励起スペクトルと可
能な限り重複するべきである。また、ドナー部分の量子収率およびアクセプターの吸光係
数は、エネルギー移動効率が５０％である距離を表すＲＯを最大化するために、可能な限
り高くあるべきである。しかしながら、アクセプターの直接励起から生じる蛍光は、ＦＲ
ＥＴから生じる蛍光と区別することが困難である場合があるため、ドナーおよびアクセプ
ターの励起スペクトルは、ドナーがアクセプターを直接励起することなく効率的に励起さ
れ得る波長領域を見つけることができるように、可能な限り少なく重複するべきである。
同様に、ドナーおよびアクセプターの発光スペクトルは、２つの発光が明確に区別され得
るように、可能な限り少なく重複するべきである。アクセプターからの発光が、唯一の読
み出しとして、または発光比の一部としてのいずれかで測定されることになっている場合
、アクセプター部分の高蛍光量子収率が望ましい。ドナーおよびアクセプターの対を選択
する際に考慮されるべき１つの要因は、それら間の蛍光共鳴エネルギー移動の効率である
。好ましくは、ドナーとアクセプターとの間のＦＲＥＴの効率は、少なくとも１０％、よ
り好ましくは少なくとも５０％、さらにより好ましくは少なくとも８０％である。

【0037】

「蛍光特性」という用語は、適切な励起波長におけるモル吸光係数、蛍光量子効率、励
起スペクトルもしくは発光スペクトルの形状、励起波長最大値および発光波長最大値、２
つの異なる波長における励起振幅の比率、２つの異なる波長における発光振幅の比率、励
起状態寿命、または蛍光異方性を指す。野生型または親蛍光タンパク質とスペクトルバリ
アントまたはその変異体との間のこれらの特性のいずれか１つの測定可能な差が、有用で
ある。測定可能な差は、任意の定量的蛍光特性の量、例えば、特定の波長における蛍光の
量、または発光スペクトルにわたる蛍光の積分を決定することによって決定され得る。２
つの異なる波長における励起振幅または発光振幅の比率を決定すること（それぞれ、「励
起振幅比演算」および「発光振幅比演算」）は、特に有利であり、これは、比演算プロセ
スが、内部参照を提供し、励起源の絶対輝度、検出器の感度、およびサンプルによる光散
乱またはクエンチングにおける変動を相殺するためである。本明細書で使用される場合、
「蛍光タンパク質」という用語は、蛍光が化学タグによるものである化学的にタグ付けさ
れたタンパク質、および紫外線波長における発光ピーク（すなわち、約４００ｎｍ未満）
が、本明細書で考察されるシステムおよび方法の実装の目的で蛍光タンパク質とみなされ
ないトリプトファンまたはチロシンなどの特定のアミノ酸の存在によってのみ蛍光を発す
るポリペプチドを除き、適切な電磁放射で励起されたときに蛍光を発することができる任
意のタンパク質を指す。概して、本明細書で考察されるシステムの実装の組成物を調製す
るために、または本明細書で考察される方法の実装で使用するために有用な蛍光タンパク
質は、発色団を自己触媒的に形成することからその蛍光を得るタンパク質である。蛍光タ
ンパク質は、天然に存在するか、または操作されている（すなわち、バリアントもしくは
変異体）アミノ酸配列を含有し得る。蛍光タンパク質に関連して使用される場合、「変異
体」または「バリアント」という用語は、参照タンパク質とは異なるタンパク質を指す。

【0038】

「青色蛍光タンパク質」という用語は、青色蛍光を発するタンパク質を指すために本明
細書において広く使用される。「青色蛍光タンパク質」または「ＢＦＰ」という用語は、
最も広い意味で使用され、特に、ｍＴａｇＢＦＰ、ｓｅｃＢＦＰ２、および任意の種から
の青色蛍光タンパク質、ならびにそれらのバリアント（それらが青色蛍光を発する能力を
保持する限り）を含む。

【0039】

「変異体」または「バリアント」という用語は、対応する野生型または親蛍光タンパク
質に対する変異を含有する蛍光タンパク質に関連して本明細書で使用される。さらに、対
応する野生型蛍光タンパク質に対して異なる蛍光特性を有する変異型蛍光タンパク質を示
すために、蛍光タンパク質の「スペクトルバリアント」または「スペクトル変異体」につ
いて、本明細書で言及される。

【0040】

本開示全体を通して、本明細書で考察されるシステムおよび方法の実装の様々な態様が
、範囲形式で提示され得る。範囲形式の記載は、単に便宜上および簡潔にするためのもの
であり、本発明の範囲に対する融通性のない制限として解釈されるべきではないことが理
解されるべきである。したがって、範囲の記載は、すべての可能性のある部分範囲、なら
びにその範囲内の個々の数値を具体的に開示したとみなされるべきである。例えば、１～
６などの範囲の記載は、１～３、１～４、１～５、２～４、２～６、３～６などの部分範
囲、ならびにその範囲内の個々の数、例えば、１、２、２．７、３、４、５、５．３、６
、およびそれらの間の任意の全体的および部分的増分を具体的に開示したとみなされるべ
きである。これは、範囲の広がりに関係なく適用される。

【0041】

本明細書で考察されるシステムおよび方法のいくつかの態様では、本明細書に提供され
る命令を実行するソフトウェアは、非一時的コンピュータ可読媒体上に記憶されてもよく
、ソフトウェアは、プロセッサ上で実行されたときに、本明細書で考察される方法の実装
のステップの一部またはすべてを実施する。

【0042】

本明細書で考察されるシステムおよび方法の態様は、コンピュータソフトウェアで実行
されるアルゴリズムに関する。特定の実施形態は、特定のプログラミング言語で記述され
るもの、または特定のオペレーティングシステムもしくはコンピューティングプラットフ
ォーム上で実行されるものとして記載されてもよいが、本明細書で考察されるシステムお
よび方法の実装は、任意の特定のコンピューティング言語、プラットフォーム、またはそ
れらの組み合わせに限定されないことが理解される。本明細書に記載されるアルゴリズム
を実行するソフトウェアは、Ｃ、Ｃ＋＋、Ｃ＃、Ｏｂｊｅｃｔｉｖｅ－Ｃ、Ｊａｖａ、Ｊ
ａｖａＳｃｒｉｐｔ、Ｐｙｔｈｏｎ、ＰＨＰ、Ｐｅｒｌ、Ｒｕｂｙ、またはビジュアルベ
ーシックを含むがこれらに限定されない、任意のプログラミング言語で記述、コンパイル
、または解釈されてもよい。本明細書で考察されるシステムおよび方法の要素は、サーバ
、クラウドインスタンス、ワークステーション、シンクライアント、モバイルデバイス、
組み込み型マイクロコントローラ、テレビ、または任意の他の好適なコンピューティング
デバイスを含むがこれらに限定されない、任意の許容可能なコンピューティングプラット
フォーム上で実行され得ることがさらに理解される。

【0043】

本明細書で考察されるシステムの実装の一部は、コンピューティングデバイス上で実行
されるソフトウェアとして記載される。本明細書に記載されるソフトウェアは、１つの特
定のコンピューティングデバイス（例えば、専用サーバまたはワークステーション）上で
動作するものとして開示され得るが、ソフトウェアは、本質的にポータブルであってもよ
く、専用サーバ上で実行されるソフトウェアがまた、デスクトップもしくはモバイルデバ
イス、ノートパソコン、タブレット、スマートフォン、腕時計、ウェアラブル電子機器も
しくは他のワイヤレスデジタル／携帯電話、テレビ、クラウドインスタンス、組み込み型
マイクロコントローラ、シンクライアントデバイス、または任意の他の好適なコンピュー
ティングデバイスを含む幅広いデバイスのいずれかで、本明細書で考察されるシステムお
よび方法の実装の目的のために実行されてもよい。

【0044】

同様に、本明細書で考察されるシステムの実装の一部は、様々な無線または有線のコン
ピュータネットワーク上で通信するものとして記載される。本明細書で考察されるシステ
ムおよび方法の実装の目的で、「ネットワーク」、「ネットワーク化」、および「ネット
ワーキング」という用語は、有線イーサネット、光ファイバ接続、様々な８０２．１１規
格のいずれかを含む無線接続、３Ｇ、４Ｇ／ＬＴＥ、もしくは５Ｇネットワークなどのセ
ルラーＷＡＮインフラストラクチャー、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｂｌｕｅｔｏ
ｏｔｈ（登録商標）ＬｏｗＥｎｅｒｇｙ（ＢＬＥ）、もしくはＺｉｇｂｅｅ（登録商標
）通信リンク、または１つの電子デバイスがもう１つの電子デバイスと通信可能である任
意の他の方法を包含すると理解される。いくつかの実施形態では、本明細書で考察される
システムの実装のネットワーク化部分の要素は、仮想プライベートネットワーク（ＶＰＮ
）上で実装されてもよい。

【0045】

本明細書で考察されるシステムおよび方法の実装の態様は、機械学習アルゴリズム、機
械学習エンジン、またはニューラルネットワークに関する。ニューラルネットワークは、
タンパク質の様々な属性、例えば、既知のタンパク質内のアミノ酸の原子環境に基づいて
訓練されてもよく、その属性に基づいて、タンパク質中の１つ以上のアミノ酸への提案さ
れた変化を出力してもよい。いくつかの実施形態では、属性は、原子タイプ、静電、ベー
タ因子、溶媒接触性、二次構造、芳香族性、または極性を含み得る。次いで、得られるア
ミノ酸は、１つ以上の品質指標に従って判断されてもよく、属性の重みは、品質指標を最
大化するために最適化されてもよい。このようにして、ニューラルネットワークは、実験
的に測定され得る任意の品質指標を予測および最適化するように訓練され得る。ニューラ
ルネットワークが訓練され得る品質指標の例としては、野生型アミノ酸の精度、既知の安
定化／不安定化位置、アミノ酸基の精度、および測定され得る任意の他の好適なタイプの
品質指標が挙げられる。いくつかの実施形態では、ニューラルネットワークは、マルチタ
スク機能を有し、複数の品質指標の同時予測および最適化を可能にし得る。

【0046】

そのようなニューラルネットワークを実装する実施形態では、クエリは、様々な方法で
実施され得る。クエリは、所望のパラメータ、例えば、融解曲線を通して熱的に、または
グアニジンもしくは尿素変性を用いて化学的に具体化され得るタンパク質安定性を高める
ために、所与のタンパク質内のアミノ酸を特定するようにニューラルネットワークに要求
し得る。本明細書で考察されるシステムおよび方法の実装のニューラルネットワークは、
その予測同一性（ニューラルネットワークによって評価される）が、その天然の同一性と
は異なるタンパク質の１つ以上のアミノ酸残基を特定し、それによって、改善されたタン
パク質が、天然アミノ酸残基を予測アミノ酸残基に変異させることによって生成され得る
ことを示し得る。本明細書で企図されるように、予測アミノ酸残基は、任意の天然または
非天然（例えば、人工もしくは合成）アミノ酸であってもよい。

【0047】

いくつかの実施形態では、ニューラルネットワークは、入力されたアミノ酸配列または
残基に関連する所望のパラメータの値を使用して、ニューラルネットワークを訓練するこ
とによって更新されてもよい。このようにニューラルネットワークを更新すると、最適な
アミノ酸残基を提案するニューラルネットワークの能力が改善され得る。いくつかの実施
形態では、ニューラルネットワークを訓練することは、予測アミノ酸残基で変異したタン
パク質に関連する所望のパラメータの値を使用することを含んでもよい。例えば、いくつ
かの実施形態では、ニューラルネットワークを訓練することは、提案されたアミノ酸の所
望のパラメータの値を予測することと、予測値を既知のアミノ酸に関連するパラメータの
対応する値と比較することと、比較の結果に基づいてニューラルネットワークを訓練する
こととを含んでもよい。予測値が既知の値と同じまたは実質的に類似している場合、ニュ
ーラルネットワークは、最小限に更新されてもよく、または全く更新されなくてもよい。
予測値が既知のアミノ酸の値と異なる場合、ニューラルネットワークは、この不一致をよ
り良く補正するために実質的に更新され得る。ニューラルネットワークがどのように再訓
練されるかに関わらず、再訓練されたニューラルネットワークを使用して、追加のアミノ
酸を提案し得る。

【0048】

本出願の技術は、タンパク質安定性を高めることに関連しているが、これは、他のタイ
プのタンパク質パラメータまたは属性、例えば、半減期、活性、分解抵抗、溶解性、熱安
定性、翻訳後修飾、ｐＨ耐性の増強、成熟時間の短縮、核酸結合、タンパク質間相互作用
、疎水性、またはそれらの組み合わせに適用され得るため、これらの技術の非限定的な適
用であることが理解されるべきである。ニューラルネットワークを訓練するために使用さ
れるデータのタイプに応じて、ニューラルネットワークは、異なるタイプのタンパク質、
タンパク質間相互作用、および／またはタンパク質の属性のために最適化され得る。この
ようにして、ニューラルネットワークを訓練して、タンパク質に対する、ペプチドとも称
され得るアミノ酸配列の特定を改善することができる。ニューラルネットワークにクエリ
を行うことは、タンパク質に対する初期アミノ酸配列の入力を含んでもよい。ニューラル
ネットワークは、異なるアミノ酸配列を使用して以前に訓練されていてもよい。ニューラ
ルネットワークへのクエリは、初期アミノ酸配列よりも高い安定性のタンパク質に対して
提案されたアミノ酸配列に関するものであってもよい。提案されたアミノ酸配列の各残基
に対して特定のアミノ酸を示す提案されたアミノ酸配列は、ニューラルネットワークから
受信されてもよい。

【0049】

離散的表現を有する配列を入力すること、連続的表現を有するニューラルネットワーク
からの出力を受信すること、およびそれをニューラルネットワークへの入力として連続し
て提供する前に出力を離散化することによって、ニューラルネットワークに反復的にクエ
リを行うことに関連する、本明細書に記載される技術は、他の機械学習用途に適用され得
る。そのような技術は、離散的表現を有する最終出力が望ましい用途で特に有用であり得
る。そのような技術は、離散属性を一連の離散属性の特性に関連付けるデータを使用して
訓練されたニューラルネットワークによって生成されたモデルを適用することによって、
一連の離散属性を特定するために一般化され得る。配列中のアミノ酸を特定する文脈にお
いて、離散属性は、異なるアミノ酸を含んでもよい。

【0050】

いくつかの実施形態では、モデルは、分子シミュレーションから生じるデータを含むが
これに限定されない、一連の各位置に位置する離散属性を有する初期の一連を、入力とし
て受信してもよい。初期の一連内の離散属性の各々は、複数の離散属性のうちの１つであ
る。ニューラルネットワークにクエリを行うことは、初期の一連の離散属性を入力するこ
とと、初期の一連の特性のレベルとは異なる特性のレベルを有する出力された一連の離散
属性を生成することとを含んでもよい。ニューラルネットワークにクエリを行うことに応
答して、出力された一連、および出力された一連の各位置についての異なる離散属性に関
連する値は、ニューラルネットワークから受信されてもよい。一連の各位置について、各
離散属性の値は、離散属性が位置について選択される場合、特性のレベルに関するニュー
ラルネットワークの予測に対応し、連続的な値のデータセットを形成し得る。値は、位置
についての離散属性にわたって広がってもよく、出力された一連の離散バージョンを特定
する際に使用されてもよい。いくつかの実施形態では、出力された一連の離散バージョン
を特定することは、シリーズの各位置について、位置に対する異なる離散属性の値の中か
ら最も高い値を有する離散属性を選択することを含んでもよい。提案された一連の離散属
性は、離散バージョンを特定する出力として受信されてもよい。

【0051】

いくつかの実施形態では、反復プロセスは、出力された一連についてニューラルネット
ワークにクエリを行うこと、出力された一連を受信すること、および出力された一連の離
散バージョンを特定することによって形成される。反復プロセスの追加の反復は、直前の
反復からの出力された一連の離散バージョンを入力することを含んでもよい。反復プロセ
スは、現在の出力された一連が、直前の反復からの直前の出力された一連と一致するとき
に停止してもよい。

【0052】

いくつかの実施形態では、複数の品質指標を有するアミノ酸配列を特定するためにニュ
ーラルネットワークを訓練するためのものを含む、単一の品質指標に対する所望の値より
もむしろ複数の品質指標に対する所望の値（例えば、別の配列の値よりも高い値）を有す
る提案されたアミノ酸配列が、特定される。そのような技術は、異なる特性を有するタン
パク質について提案されたアミノ酸配列の特定が望ましい用途で特に有用であり得る。そ
のような技術の実装では、訓練データは、ニューラルネットワークを訓練するために使用
されるアミノ酸配列の各々についての異なる特性に関連するデータを含んでもよい。ニュ
ーラルネットワークを訓練することによって生成されるモデルは、特性の異なる組み合わ
せに対応する１つ以上のパラメータを有してもよい。いくつかの実施形態では、パラメー
タは、第１の特徴と第２の特徴との間の重みを表してもよく、これは、提案されたアミノ
酸配列が、第２の特性と比較して第１の特徴を有する可能性のバランスをとるように使用
されてもよい。いくつかの実施形態では、ニューラルネットワークを訓練することは、異
なる特性についてスコアを割り当てることを含み、スコアは、提案されたアミノ酸配列を
予測するために使用されるモデルのパラメータについての値を推定するために使用され得
る。いくつかのそのような実施形態における訓練データは、アミノ酸配列に関連する原子
微小環境を含んでもよく、これは、ニューラルネットワークを訓練するために使用される
場合、提案されたアミノ酸配列を予測するために使用されるモデルを生成する。ニューラ
ルネットワークを訓練することは、スコアを割り当てることを伴い得、パラメータについ
ての値は、スコアを使用して推定され得る。

【0053】

畳み込みニューラルネットワークについての生物学的用途は、比較的希少である。タン
パク質は、アミノ酸配列として分析されるのではなく、その三次元構造を解くために、そ
の結晶化形態で評価されつつある。本明細書で考察される方法の実装の一態様は、２０個
のアミノ酸の各々に特有の化学環境を特徴付ける三次元畳み込みニューラルネットワーク
を訓練することを伴う。次いで、同じニューラルネットワークが、所与の環境に最も適合
するアミノ酸を予測することができる。本明細書に記載されるニューラルネットワークは
、１９，０００個の系統発生的に遠いタンパク質構造にわたる１６０万個のアミノ酸環境
で訓練されている。訓練後、このネットワークのサンプル内精度は８０．０％であり、サ
ンプル外精度は７２．５％であり、現在の技術水準の約２０～３０％の改善（約４０％の
サンプル外精度）である。

【0054】

予想されたアミノ酸と観察されたアミノ酸との間に大きい不一致がある部位は、安定性
およびフォールディング成熟などのタンパク質の特徴を操作するための標的を示す。本明
細書に記載されるシステムおよび方法は、３つの生物学的事例である、ベータ－ラクタマ
ーゼ抗生物質マーカー、サンゴ由来の青色蛍光タンパク質、および酵母Ｃａｎｄｉｄａ
ａｌｂｉｃａｎｓ由来のホスホマンノースイソメラーゼを実験的に特徴付け、ニューラル
ネットワークからの予測は、インビボでタンパク質機能および安定性の向上を実証する。
これらの結果は、ＡＩおよび分子生物学の交点における新たな生物学的ツールを予測する
。

【0055】

一実施形態では、本明細書で考察される方法の実装は、ニューラルネットワーク、例え
ば、上記で参照されるＴｏｒｎｇａｎｄＡｌｔｍａｎによって公開されたニューラル
ネットワークの実装を利用する。本明細書で考察されるシステムおよび方法の実装は、以
下で考察される実験結果が示すように、公開されたニューラルネットワーク設計を実質的
に改善する。元のＴｏｒｎｇａｎｄＡｌｔｍａｎのセットは、３２，７６０個の訓練
構造および１６０１個の試験構造をもたらす、３６９６個の訓練タンパク質ファミリーお
よび１９４個の試験タンパク質ファミリーを含有する。

【0056】

本明細書で考察されるシステムおよび方法の実装は、タンパク質安定化の問題に対処す
るために、ＴｏｒｎｇａｎｄＡｌｔｍａｎのフレームワークを基礎とする。基本的な
例では、タンパク質の結晶構造は、三次元画像のように処理される。任意の所与の画像で
は、個々のアミノ酸およびその原子環境についての多くの観察がある。一部の方法は、こ
れらのアミノ酸のうちの１つに一貫した参照フレームを集中させる。この有利な立場から
、２０×２０×２０オングストロームのボックス内で酸素、窒素、硫黄、および炭素原子
が分離され、中央のアミノ酸に関連するすべての原子が除去される。次いで、環境および
環境に適合するアミノ酸のこのセットは、三次元畳み込みニューラルネットワークのため
の注釈付き訓練セットとして使用されてもよい。この訓練されたニューラルネットワーク
で、実験的に導入された不安定化変異が検出され得る。

【0057】

本明細書で考察されるシステムおよび方法の実装は、新規の安定化変異を特定するため
の基礎モデルを改善する。本明細書に記載される改善は、予測の品質を、既知の不安定化
変異を正当化するだけでなく、未知の不安定化残基を特定し、安定化変異を示唆するのに
十分な状態にする。

【0058】

いくつかの実装では、本明細書で考察されるシステムおよび方法は、入力されたタンパ
ク質上の好ましい環境に位置する野生型アミノ酸の特定を可能にする。そのような実装は
、非常に低い野生型確率を有する残基の配列空間を狭くし得る。現在の技術水準と比べた
、本明細書で考察されるシステムおよび方法の実装によって提供される改善は、組み合わ
されたときに、全体的な有用性の改善のための候補タンパク質残基を特定するための著し
く改善されたモデルを形成する、いくつかの個別の改善として記載され得る。

【0059】

図１Ａは、合成タンパク質特性を増加させるためのコンピュータ実装ニューラルネット
ワークの実装の図である。技術者が改変することを望むタンパク質のいくつかの特性は、
成熟動態、熱安定性、Ｋ_ｍ、Ｋ_ｃａｔ、適切なフォールディングのためのカチオンまたは
アニオンへの依存性、およびｐＨ耐性である。１０１において、タンパク質は、タンパク
質中の各残基に対して微小環境に翻訳されてもよく、タンパク質の三次元モデルおよびそ
の微小環境が生成される。三次元モデルを生成するためのいくつかの方法としては、他に
も方法があるが、未知のタンパク質モデルが既知のタンパク質構造から取られる候補断片
のプールから構築される場合の断片集合、既知のタンパク質セグメントがアミノ酸配列に
一致する場合のセグメント一致、または既知のタンパク質モデルが選択され（「テンプレ
ート」）、アミノ酸配列の残基がテンプレート配列中の残基にマッピングされ（アライメ
ント）、配列中の様々な距離、角度、および二面角への拘束がテンプレート構造とのアラ
イメントから導出され、拘束の違反が最小化される場合の空間的拘束の達成に基づく比較
タンパク質モデリングが挙げられる。タンパク質結晶構造の三次元モデルが生成されると
、構造に関連する対応する微小環境が生成される。

【0060】

いくつかの実施形態では、三次元モデルは、微小環境なしにタンパク質を単に例示また
は表示してもよい。三次元モデルは、いくつかの実装では、三次元アレイにマッピングさ
れてもよい。一例では、三次元モデルの座標は、三次元アレイに記憶される。いくつかの
実施形態では、三次元画像は、三次元モデルから生成されてもよく、三次元画像は、三次
元アレイにマッピングされてもよい。アレイ内の画像データは、ボクセル化マトリックス
と称され得る。ピクセルが、二次元空間における画像のアドレス可能な要素を表し得るよ
うに、ボクセルは、三次元空間におけるアドレス可能な要素を表す。

【0061】

いくつかの実装では、画像の特徴は、三次元畳み込み層および最大プーリング層を介し
て抽出されてもよい。三次元畳み込み層における三次元フィルタは、２０個のアミノ酸微
小環境を分離するために局所的な生化学的特徴を最も良く捕捉する反復空間パターンを検
索する。最大プーリング層は、入力へのダウンサンプリングを実施し、ネットワークの並
進不変性を高める。畳み込みニューラルネットワークアーキテクチャについて、以下でさ
らに考察される。

【0062】

第１の畳み込み層１２１は、フィルタを介して低レベルの特徴を検出する。畳み込みニ
ューラルネットワークは、畳み込みを使用して、データセットの特徴を強調する。畳み込
みニューラルネットワークの畳み込み層において、フィルタが三次元アレイに適用されて
、特徴マップを生成する。畳み込み層において、フィルタは、入力およびフィルタの要素
毎のドット積上をスライドし、入力は、特徴マップとして記憶される。いくつかの実施形
態では、３×３×３フィルタが、三次元画像に適用されてもよい。

【0063】

畳み込みフィルタおよび画像からの特徴マップは、１０２によって示される。いくつか
の実施形態では、参照フレームは、画像中の中央のアミノ酸の周囲に作成されてもよく、
特徴は、その中央のアミノ酸の周囲に抽出されてもよい。画像およびフィルタの畳み込み
から作成された特徴マップは、画像中のフィルタ固有の特徴の存在を要約する。画像に適
用されるフィルタの数を増加させると、追跡され得る特徴の数が増加する。１０２におい
て、１００個のフィルタを適用して、１８×１８×１８の特徴マップを作成した。他の実
装では、他の数のフィルタが用いられてもよい。得られる特徴マップは、その後、特徴の
非線形パターンを説明するために、活性化関数を通過してもよい。

【0064】

いくつかの実装では、式ｆ（ｘ）＝ｍａｘ（０，ｘ）を有する正規化線形関数が、活性
化関数として特徴マップに適用されてもよい。正規化線形活性化関数は、正の値に対して
線形に挙動し、この関数を最適化が容易なものにし、その後、ニューラルネットワークが
高い予測精度を達成することを可能にする。また、正規化線形活性化関数は、任意の負の
入力に対してゼロを出力し、それが真の線形関数ではないことを意味する。したがって、
畳み込みニューラルネットワーク内の畳み込み層の出力は、特徴マップであり、特徴マッ
プ内の値は、正規化線形活性化関数を通過し得る。

【0065】

第２の畳み込み層が１２２に例示される。畳み込み層の数を増加させると、追跡され得
る特徴の複雑性が高まり得る。１２２における畳み込み層は、特徴を追跡するために別の
１００個のフィルタを組み込む。いくつかの実施形態では、フィルタは、追跡された特徴
の精度を確実にするために、第１の畳み込み層におけるものと同じである。代替の実施形
態では、異なるフィルタが、第２の畳み込み層に組み込まれてもよい。いくつかの実施形
態では、中央のアミノ酸に関連する原子は、フィルタを介して除去されてもよい。

【0066】

いくつかの実装では、寸法１６×１６×１６のより小さいデータセットが１０３によっ
て示される（他の実装では、他の寸法が利用され得るか、またはより多数もしくはより少
数のフィルタが適用される）。第２の畳み込み層における畳み込みのドット積は、データ
セットのサイズを縮小する。データセット１０３は、元のタンパク質画像１０１からの複
雑な特徴を追跡した特徴マップを含む。

【0067】

いくつかの実装では、寸法２×２×２の第１のプーリング層が、１２３で実装されても
よい。プーリング層は、データをダウンサンプリングするために実装されてもよい。プー
リングウィンドウが、特徴マップに適用されてもよい。いくつかの実施形態では、プーリ
ング層は、ウィンドウ内のデータの最大値を出力し、ウィンドウ内のデータをダウンサン
プリングする。最大プーリングは、プーリングウィンドウで最も顕著な特徴を強調する。
他の実施形態では、プーリング層は、ウィンドウ内のデータの平均値を出力する。

【0068】

１０４におけるダウンサンプリングされたデータは、２００個の独立した８×８×８ア
レイを表す。データをダウンサンプリングすることにより、ニューラルネットワークは関
連情報を保持することが可能になる。大量のデータを有することは、以下でさらに考察さ
れるように、ネットワークがその重みの精度を微調整することを可能にするために有利で
あり得るが、大量のデータにより、ニューラルネットワークは、かなりの処理時間を費や
す可能性がある。データをダウンサンプリングすることは、ネットワークで必要なコンピ
ュータ計算を低減するために、ニューラルネットワークにおいて重要であり得る。寸法２
×２×２のプーリング層１２３、および寸法８×８×８のダウンサンプリングされたデー
タとともに示されるが、他の実装では、他のサイズのプーリングウィンドウおよびダウン
サンプリングされたデータが利用されてもよい。

【0069】

いくつかの実装では、後続の畳み込み層１２４は、２００個の独立した２×２×２フィ
ルタを使用して、ダウンサンプリングされたデータを再処理し、新たな特徴マップ内の特
徴を強調する。３×３×３とは対照的に、より小さいフィルタである２×２×２は、ダウ
ンサンプリングされたデータを説明するために、１２４において畳み込み層で実装される
。畳み込みフィルタの深さは、ドット積行列の乗算をうまく実施するために、データの深
さと同じであるべきである。他の実装では、上で考察されたように、他のサイズまたは寸
法のフィルタが利用されてもよい。

【0070】

畳み込み層１２４および画像からの特徴マップは、１０５に示される。ダウンサンプリ
ングされたデータおよびフィルタの畳み込みから作成された特徴マップは、画像中のフィ
ルタ固有の特徴の存在を要約する。１０５に例示される実装では、２００個の独立した７
×７×７アレイがある。畳み込みからのドット積は、データのサイズをさらに縮小する。

【0071】

畳み込み層１２５は、図示されるように、低解像度データセット１０５から４００個の
独立した２×２×２フィルタを使用することなどによって、追加のフィルタを使用して、
より複雑な特徴を抽出し得る。画像に適用されるフィルタの数を増加させると、追跡され
得る特徴の数が増加する。このデータは、プール層１２３からダウンサンプリングされ、
実質的にサイズが縮小されているため、より多くのフィルタがこの畳み込み層で適用され
て、膨大な処理またはメモリ要件の必要なしに、タンパク質１０１の画像の特徴を抽出お
よび強調し得る。

【0072】

畳み込み層１２５からの特徴マップは、１０６に示される。ダウンサンプリングされた
データおよびフィルタの畳み込みから作成された特徴マップは、画像中のフィルタ固有の
特徴の存在を要約する。１０６に例示される実装では、４００個の独立した６×６×６ア
レイがあるが、様々な実装において、他の数またはサイズのアレイが利用され得る。畳み
込みからのドット積は、データのサイズをさらに縮小する。

【0073】

いくつかの実装では、寸法２×２×２（または任意の他の適切な寸法サイズ）を有する
第２のプーリング層が、１２６において実装されて、データをさらにダウンサンプリング
する。いくつかの実施形態では、同じタイプのプーリング層が、第１のプーリング層で実
装されたように第２のプーリング層で実装されてもよい。プーリング層のタイプによって
、データをダウンサンプリングするために使用されるプーリングウィンドウが決定される
。例えば、最大プーリング層は、１２３および１２６において実装され得る。他の実施形
態では、異なるプーリング層が、畳み込みニューラルネットワークで実装されてもよい。
例えば、最大プーリング層は、１２３において実装されてもよく、平均プーリング層は、
１２６において実装されてもよい。最大プーリング層が、プーリングウィンドウで最も顕
著な特徴を強調する一方で、平均プーリング層は、ウィンドウのデータの平均値を出力す
る。

【0074】

例示された実装では、１０７におけるダウンサンプリングされたデータは、４００個の
独立した３×３×３アレイを表すが、他の数または寸法のアレイが利用されてもよい。大
量のデータを有することは、以下でさらに考察されるように、ネットワークがその重みの
精度を微調整することを可能にするために有利であり得るが、大量のデータにより、ニュ
ーラルネットワークは、かなりの処理時間を費やす可能性がある。データをダウンサンプ
リングすることは、ネットワークで必要なコンピュータ計算を低減するために、ニューラ
ルネットワークにおいて有用であり得る。

【0075】

データのサイズを縮小すると、データは、いくつかの実装ではさらに平坦化されてもよ
く、データが、一次元ベクトルに配置され得ることを意味する。データは、完全に接続さ
れた層で発生する行列の乗算の目的のために平坦化される。したがって、完全に接続され
た層１２７は、長さ１０８００の平坦化された一次元ベクトルを受信してもよい（例えば
、ステップ１０７の４００×３×３×３アレイからであるが、ベクトルは、他の実装では
異なる長さを有してもよい）。畳み込みニューラルネットワークの完全に接続された層に
おいて、一次元ベクトルの各数がニューロンに適用される。ニューロンは、入力を合計し
、活性化関数を適用する。いくつかの実施形態では、活性化関数は、正規化線形関数であ
る。代替の実施形態では、活性化関数は、双曲線正接またはシグモイド関数であってもよ
い。

【0076】

例示される実装では、第１の完全に接続された層１２７は、長さ１０８００の１０８に
おける一次元ベクトルを出力する（ただし、上で考察されたように、他の長さが利用され
てもよい）。完全に接続された層によって出力されるベクトルは、実数のベクトルを表す
。いくつかの実施形態では、実数は、出力および分類されてもよい。他の実施形態では、
実数は、畳み込みニューラルネットワークの精度を改善するために、後続の完全に接続さ
れた層にさらに入力されてもよい。

【0077】

本実施形態では、第１の完全に接続された層１０８の出力は、１２８において示される
第２の完全に接続された層に入力される。第１の完全に接続された層１０８の出力は、す
でに一次元ベクトルであるため、後続の完全に接続された層に入力される前に平坦化され
る必要はない。いくつかの実施形態では、ニューラルネットワークの精度を改善するため
に、追加の完全に接続された層が実装される。追加の完全に接続された層の数は、ニュー
ラルネットワークを実行するコンピュータの処理能力によって制限され得る。あるいは、
完全に接続された層の追加は、追加の完全に接続された層を処理するためのコンピュータ
計算時間の増加と比較して、精度のわずかな増加によって制限され得る。

【0078】

例示される実装では、第２の完全に接続された層１２８は、１０９において長さ１００
０の一次元ベクトルを出力する（ただし、他の長さが利用されてもよい）。完全に接続さ
れた層によって出力されるベクトルは、実数のベクトルを表す。いくつかの実施形態では
、実数は、出力および分類されてもよい。他の実施形態では、実数は、畳み込みニューラ
ルネットワークの精度を改善するために、後続の完全に接続された層にさらに入力されて
もよい。

【0079】

１２９において、いくつかの実装では、完全に接続された層１０９の出力は、ソフトマ
ックス分類器に入力される。ソフトマックス分類器は、ソフトマックス関数または正規化
された指数関数を使用して、実数の入力を、予測された出力クラスに対する正規化された
確率分布に変換する。代替の実施形態では、シグモイド関数を使用して、畳み込みニュー
ラルネットワークの出力を分類してもよい。シグモイド関数は、１つのクラスがある場合
に使用され得る。ソフトマックス関数は、マルチクラスシグモイド関数である。

【0080】

１１０において、ソフトマックス層の出力は、２０個の特定されたアミノ酸の各々が標
的タンパク質の特性を改善する確率である（ただし、より多数またはより少数のアミノ酸
が、他の実装で利用されてもよい）。この出力は、追加の畳み込みニューラルネットワー
クが、予測アミノ酸配列を所与として異なるクエリを実施することができるように、追加
の畳み込みニューラルネットワークに入力されてもよく、または出力１１０は、標的タン
パク質の特性を改善する予測アミノ酸として直接使用されてもよい。

【0081】

図１Ｂは、微小環境の中心におけるアミノ酸残基を決定するための方法の実装のフロー
チャートである。ニューラルネットワークが、特定の入力を所与として出力を分類する方
法を学習できるように、ニューラルネットワークは、既知の入力／出力の対について訓練
されてもよい。いったんニューラルネットワークが、既知の入力／出力の対を分類する方
法を学習すると、ニューラルネットワークは、分類された出力が何であるべきかを予測す
るために未知の入力で動作することができる。本実施形態では、ニューラルネットワーク
は、微小環境の中心におけるアミノ酸を予測するように訓練される。試験中、ニューラル
ネットワークは、アミノ酸配列が提供され、アミノ酸の周囲の微小環境を分析し、天然ア
ミノ酸残基とは異なるアミノ酸残基を予測し得る。ニューラルネットワークの予測アミノ
酸は、改善されたタンパク質が、天然アミノ酸残基を予測アミノ酸残基に変異させること
によって生成され得ることを示す。

【0082】

ステップ１３０において、いくつかの実装では、ニューラルネットワークを訓練するた
めに使用される多様なタンパク質サンプルセットがコンパイルまたは構築されてもよい。
サンプルセットがより多様であるほど、ニューラルネットワークは、その分類においてよ
り堅牢になり得る。例えば、ニューラルネットワークは、学習の第１の反復中に入力／出
力の対を分類しようと試みる。次の学習の反復中に、入力／出力の対が、第１の反復の学
習された入力／出力の対と類似している場合、ニューラルネットワークは、ニューラルネ
ットワークが堅牢であるためではなく、単にデータが類似しているために機能するはずで
あるよりも高く人工的に機能し得る。多様な入力／出力の対が、その後、第３の反復のた
めにネットワークに入力される場合、分類誤差は、最初の２つの入力／出力の対が多様で
あった場合よりもはるかに大きくなる可能性が高い。最初の２つの入力／出力の対の類似
性によって、ニューラルネットワークが、最初の２つの反復の類似した入力／出力の対を
学習するようにそれ自体を微調整する可能性がある。これは、ネットワークを「過剰訓練
すること」と呼ばれ得る。

【0083】

あるいは、訓練の第２の反復が、第１の反復の入力／出力の対と比較して別個の入力／
出力の対を使用した場合、ニューラルネットワークは、より広範な入力／出力の対を分類
することが可能であるように強制される。試験中、出力は既知ではないため、ネットワー
クが幅広い入力／出力の対を分類することが可能であることが理想的である。

【0084】

したがって、ステップ１３０のいくつかの実装では、ニューラルネットワークのための
訓練データセットは、ある閾値にわたってすべて系統発生的に分岐しているタンパク質か
ら構築される。様々な実施形態では、データセットは、少なくとも２０％、３０％、４０
％、または５０％系統発生的に分岐しているタンパク質から構築される。そのようなフィ
ルタリングは、訓練セットで何度も生じ得る非常に類似／重複したタンパク質を除去する
ことによって、効率を高める。そのような改善は、過剰サンプリングされたタンパク質に
対する現在の技術水準で存在するバイアスを低減し得る。

【0085】

いくつかの実施形態では、訓練データセット中の個々のタンパク質を、注釈を欠いたそ
れらのタンパク質データベース（ＰＤＢ）構造に水素原子を付加することによって修飾し
た。一実施形態では、水素原子の付加は、ソフトウェア変換器、例えば、ｐｄｂ２ｐｑｒ
を使用して達成される。別の実施形態では、原子は、各原子の結合能力、およびＤＮＡ骨
格中のリンなどの他の原子の含有によってさらに分離される。

【0086】

いくつかの実施形態では、訓練セット中の個々のタンパク質を、部分電荷、ベータ因子
、二次構造、芳香族性、および極性を含むがこれに限定されない、タンパク質の追加の特
性を考慮に入れて、タンパク質モデルに生物物理学的チャネルを付加することによって修
飾した。

【0087】

いくつかの実施形態では、同じタンパク質の高解像度モデルおよび低解像度モデルが、
タンパク質データベース内に共存し得る場合、訓練データは、除去されてもよい。本明細
書で考察される方法のいくつかの実装によると、閾値を下回る解像度の関連構造を有する
すべての遺伝子は、あるパーセンテージ閾値を超える配列類似性を有する群に一緒にグル
ープ分けされてもよい。本明細書で使用される場合、「解像度」は、典型的にはオングス
トローム（Ａ）で測定される分子の電子密度マップの解像性を指す。電子密度マップは、
点間のより低い距離に解像可能であり、分子構造のより多くの特徴が見えることを意味す
るため、「より低い」解像度を有する分子モデルは、「より高い」解像度を有する分子モ
デルよりも高い品質である。一例では、関連構造、ならびに２．５Å未満の解像度および
少なくとも５０％の配列類似性を有するすべての遺伝子が、一緒にグループ分けされ、最
低の解像度を有する利用可能な構造が、訓練モデルで使用するために選択され、より高い
解像度（より低品質）の分子モデルは、除去される。

【0088】

いくつかの実施形態では、アミノ酸サンプリングを、２０個すべてのアミノ酸の等しい
表現とは対照的に、システインに対してＰＤＢにおけるその存在量で正規化した。一実施
形態では、アミノ酸サンプリングは、自然発生に対して正規化されてもよい。一実施形態
では、アミノ酸サンプリングは、所与の種内の自然発生に対して正規化されてもよい。シ
ステインは、任意の所与の位置で高い確率が人工的に割り当てられ得るため、システイン
アミノ酸をデータサンプル中で修飾した。システインは、ＰＤＢで観察される最も希少な
アミノ酸であり、したがって、より豊富なアミノ酸が過少サンプリングされ、占有する可
能性があるタンパク質微小環境の多様性が不完全に表されていた可能性がある。データサ
ンプル中のシステインアミノ酸を修飾することは、野生型の精度の有意な増加をもたらし
た。アミノ酸毎に、精度は、９６．７％～３２．８％の範囲である（図２Ａを参照された
い）。

【0089】

ステップ１３１において、タンパク質中のアミノ酸は、アミノ酸配列からランダムにサ
ンプリングされてもよい。一実施形態では、タンパク質中のアミノ酸の最大５０％を、タ
ンパク質が大きい場合を除いてサンプリングし、その場合、個々のタンパク質から１００
個以下のアミノ酸をサンプリングした。別の実施形態では、上限は、個々のタンパク質当
たり２００個のアミノ酸であった。開示されたサンプリング方法は、タンパク質の外側の
残基に対するデータセットのバイアスを除去する。

【0090】

ステップ１３２において、タンパク質結晶構造の三次元モデルは、構造を含む各アミノ
酸に関連する微小環境とともに作成され得る。例えば、三次元モデルを生成するためのい
くつかの方法としては、他にも方法があるが、未知のタンパク質モデルが既知のタンパク
質構造から取られる候補断片のプールから構築される場合の断片集合、既知のタンパク質
セグメントがアミノ酸配列に一致する場合のセグメント一致、または既知のタンパク質モ
デルが選択され（「テンプレート」）、アミノ酸配列の残基がテンプレート配列中の残基
にマッピングされ（アライメント）、配列中の様々な距離、角度、および二面角への拘束
がテンプレート構造とのアライメントから導出され、拘束の違反が最小化される場合の空
間的拘束の達成に基づく比較タンパク質モデリングが挙げられる。タンパク質結晶構造の
三次元モデルが生成されると、構造を含む各アミノ酸に関連する微小環境も生成される。
既存のタンパク質構造データベースの１つの障害は、新たなタンパク質が付加される際に
、結晶構造を作成するために異なる方法が使用されることである。三次元構造を作成する
異なる方法は、モデルの精度に影響を与える可能性がある異なるバイアスまたはアーチフ
ァクトを追加し得る。同じ方法の最新で、同じバージョンを使用して構造を再構築するこ
とにより、訓練構造が、より古いバージョンに存在するアーチファクトまたは誤差ではな
く、化学組成で変化することが確実になる。

【0091】

ステップ１３３において、ステップ１３２から生成された三次元モデルが、三次元アレ
イにマッピングされてもよい。一例では、三次元モデルの座標は、三次元アレイに記憶さ
れる。いくつかの実施形態では、三次元画像は、三次元モデルから生成されてもよく、三
次元画像は、三次元アレイにマッピングされてもよい。アレイ内の画像データは、ボクセ
ル化マトリックスと呼ばれ得る。ピクセルが、二次元空間における画像のアドレス可能な
要素を表すように、ボクセルは、三次元空間におけるアドレス可能な要素を表す。

【0092】

ステップ１３４において、画像は、畳み込みニューラルネットワーク内の畳み込み層に
入力される。畳み込み層は、フィルタを介して画像の特徴を検出する。フィルタは、画像
内の特定の特徴の存在を検出するよう設計されている。単純化された例では、ハイパスフ
ィルタは、高周波信号の存在を検出する。ハイパスフィルタの出力は、高周波を有する信
号の部分である。同様に、画像フィルタは、画像内の特定の特徴を追跡するように設計さ
れ得る。画像に適用されるフィルタの数が多いほど、追跡され得る特徴も多くなる。

【0093】

ステップ１３５において、画像は、畳み込み層内のフィルタと畳み込みされて、画像内
のフィルタ固有の特徴を抽出する。畳み込み層において、フィルタは、入力およびフィル
タの要素毎のドット積上をスライドし、入力は、特徴マップとして記憶される。

【0094】

１３６における決定は、より多くのフィルタがあるかどうかに依存する。上で考察され
たように、実装されたより多くのフィルタは、画像内で追跡され得るより多くの特徴を意
味し得る。各フィルタは、独立して画像と畳み込まれて、独立した特徴マップを作成する
。より多くのフィルタが画像と畳み込まれる場合、ステップ１３４および１３５が繰り返
され得る。フィルタのすべてが画像と畳み込まれている場合、プロセスは、ステップ１３
７に進む。いくつかの実施形態では、特徴マップは、一緒に連結されて、画像に適用され
るフィルタの数と同程度に深い特徴マップを作成し得る。他の実施形態では、特徴マップ
は、一度に１つずつ処理されてもよい。

【0095】

ステップ１３７において、活性化関数が、畳み込みニューラルネットワークの畳み込み
層の特徴マップに適用される。活性化関数は、ニューラルネットワークが抽出された特徴
マップ内の非線形パターンを検出することを可能にする。式ｆ（ｘ）＝ｍａｘ（０，ｘ）
を有する正規化線形関数が、特徴マップに適用されてもよい。正規化線形活性化関数は、
正の値に対して線形に挙動し、この関数を最適化が容易なものにし、その後、ニューラル
ネットワークがより高い精度を達成することを可能にする。また、正規化線形活性化関数
は、任意の負の入力に対してゼロを出力し、それが真の線形関数ではないことを意味する
。したがって、畳み込みニューラルネットワーク内の畳み込み層の出力は、特徴マップで
あり、特徴マップ内の値は、正規化線形活性化関数を通過している。

【0096】

１３８における決定は、さらなる畳み込み層があるかどうかに依存する。畳み込み層の
数を増加させると、追跡され得る特徴の複雑性が高まり得る。追加の畳み込み層がある場
合、新たなフィルタが画像に適用され得、プロセスは、ステップ１３４～１３８を繰り返
し得る。いくつかの実施形態では、フィルタは、追跡された特徴の精度を確実にするため
に、第１の畳み込み層におけるものと同じであってもよい。代替の実施形態では、異なる
フィルタが、第２の畳み込み層に組み込まれてもよい。さらなる畳み込み層がない場合、
プロセスは、ステップ１３９に進む。

【0097】

ステップ１３９において、プーリング層が、データをダウンサンプリングする。プーリ
ングウィンドウが、特徴マップに適用されてもよい。いくつかの実施形態では、プーリン
グ層は、ウィンドウ内のデータの最大値を出力し、ウィンドウ内のデータをダウンサンプ
リングする。最大プーリングは、プーリングウィンドウで最も顕著な特徴を強調する。他
の実施形態では、プーリング層は、ウィンドウ内のデータの平均値を出力する。

【0098】

１４０における決定は、さらなる畳み込み層があるかどうかに依存する。畳み込み層の
数を増加させると、追跡され得る特徴の複雑性が増大し得る。追加の畳み込み層がある場
合、新たなフィルタが画像に適用され得、プロセスは、ステップ１３４～１４０を繰り返
し得る。いくつかの実施形態では、フィルタは、追跡された特徴の精度を確実にするため
に、第１の畳み込み層におけるものと同じである。代替の実施形態では、異なるフィルタ
が、第２の畳み込み層に組み込まれてもよい。したがって、ステップ１３４～１３６、１
３４～１３８、および１３４～１４０の繰り返される反復は、追跡された特徴の柔軟性お
よび増大した複雑性を提供する。さらなる畳み込み層がない場合、プロセスは、ステップ
１４１に進む。

【0099】

ステップ１４１において、いくつかの実装では、ダウンサンプリングされたデータが平
坦化される。これは、データが、一次元ベクトルに配置されることを意味する。データは
、完全に接続された層で発生する行列の乗算の目的のために平坦化される。

【0100】

ステップ１４２において、いくつかの実装では、平坦化された一次元ベクトルは、ニュ
ーラルネットワークの完全に接続された層に入力される。畳み込みニューラルネットワー
クの完全に接続された層において、一次元ベクトルの各数が、入力としてニューロンに適
用される。ニューロンは、入力を合計し、活性化関数を適用する。いくつかの実施形態で
は、活性化関数は、正規化線形関数である。代替の実施形態では、活性化関数は、双曲線
正接またはシグモイド関数であってもよい。

【0101】

いくつかの実施形態では、完全に接続された層内のニューロンの第１のセットの出力は
、重みを介してニューロンの別のセットに入力されてもよい。ニューロンの後続の各セッ
トは、ニューロンの「隠れ層」と称され得る。完全に接続された中の隠れ層の数は、取り
除かれてもよい。言い換えれば、ニューラルネットワーク内の隠れ層の数は、ニューロン
ネットワークが出力を分類する方法を学習するにつれて適応的に変化し得る。

【0102】

ステップ１４３において、いくつかの実装では、完全に接続されたネットワークを含む
ニューロンは、重みによって他のニューロンに接続される。重みは、一部のニューロンの
効果を強化し、他のニューロンの効果を弱めるように調整される。各ニューロンの強度の
調整により、ニューラルネットワークは、出力をより良く分類することが可能になる。ニ
ューロンを接続する重みは、ニューラルネットワークが入力または「訓練」を分類する方
法を学習している間に調整される。いくつかの実施形態では、ニューラルネットワーク内
のニューロンの数は、取り除かれてもよい。言い換えれば、ニューラルネットワーク内で
アクティブであるニューロンの数は、ニューラルネットワークが出力を分類する方法を学
習するにつれて適応的に変化する。

【0103】

１４４における決定は、追加の完全に接続された層があるかどうかに依存する。いくつ
かの実施形態では、１つの完全に接続された層の出力は、第２の完全に接続された層への
入力になり得る。いくつかの実施形態では、ニューラルネットワークの精度を改善するた
めに、追加の完全に接続された層が実装される。追加の完全に接続された層の数は、ニュ
ーラルネットワークを実行するコンピュータの処理能力によって制限され得る。あるいは
、完全に接続された層の追加は、追加の完全に接続された層を処理するためのコンピュー
タ計算時間の増加と比較して、精度のわずかな増加によって制限され得る。代替の実施形
態では、１つの完全に接続された層の出力は、画像を分類するのに十分であり得る。追加
の完全に接続された層がある場合、ステップ１４２および１４３は、入力ベクトルが、重
みを介して互いに接続されるニューロンに供給されるように繰り返される。追加の完全に
接続された層がない場合、プロセスは、ステップ１４５に進む。

【0104】

ステップ１４５において、いくつかの実装では、完全に接続された層は、実数のベクト
ルを出力する。いくつかの実施形態では、実数は、出力および分類されてもよい。代替の
実施形態では、完全に接続された層の出力は、ソフトマックス分類器に入力される。ソフ
トマックス分類器は、ソフトマックス関数または正規化された指数関数を使用して、実数
の入力を、予測された出力クラスに対する正規化された確率分布に変換する。他の実施形
態では、シグモイド関数を使用して、畳み込みニューラルネットワークの出力を分類して
もよい。シグモイド関数は、１つのクラスがある場合に使用され得る。ソフトマックス関
数は、マルチクラスシグモイド関数である。いくつかの実施形態では、ニューラルネット
ワークの出力は、化学的微小環境の中心における予測アミノ酸残基を表す。

【0105】

例えば、ニューラルネットワークは、２０個の実数を含む２０の長さのベクトルを出力
してもよい。ベクトルは、２０の長さを有し、これは、２０個の可能性のあるアミノ酸が
微小環境の中心に存在し得るためである。ベクトル内の値が、微小環境の中心に存在する
アミノ酸の可能性を表すように、ベクトル内の実数は、ソフトマックス分類器を通過する
。

【0106】

ステップ１４６において、いくつかの実装では、予測アミノ酸残基は、化学環境の中心
における天然アミノ酸と比較される。例えば、真のアミノ酸ベクトルは、長さ２０のベク
トルであってもよく、単一の「１」は、化学環境の中心における天然アミノ酸を示し、ベ
クトル内の他の値は、「０」を保持する。

【0107】

訓練中の既知の入力／出力の対を比較する学習である、ニューラルネットワークにおけ
るこのタイプの学習は、教師あり学習と呼ばれる。予測値と既知の値との間の差が決定さ
れ得、情報は、ニューラルネットワークを介して逆伝播される。重みは、その後、誤差信
号によって修正されてもよい。ニューラルネットワークを訓練するこの方法は、逆伝播法
と呼ばれる。

【0108】

ステップ１４７において、いくつかの実装では、重みは、最急降下法を介して更新され
る。以下の方程式１は、重みが各反復ｎでどのように調整されるかを示す。

【数1】

上の方程式１中、ｗ_ｊｉは、ニューロンｉをニューロンｊに接続する重みを表す。

【0109】

最急降下法は、目的関数を最小化する最適化技術である。言い換えれば、最急降下法は
、最急降下の方向に未知のパラメータを調整することが可能である。訓練中、ニューラル
ネットワークの分類精度を最適化する重みの値は、未知である。したがって、重みは、最
急降下の方向に調整される未知のパラメータである。

【0110】

いくつかの実施形態では、目的関数は、交差エントロピー誤差関数であってもよい。交
差エントロピー誤差関数を最小化することは、予測アミノ酸ベクトルの確率分布と天然ア
ミノ酸ベクトルの確率分布との間の差を最小化することを表す。いくつかの実施形態では
、目的関数は、二乗誤差関数であってもよい。二乗誤差目的関数を最小化することは、各
ニューロンの瞬時誤差を最小化することを表す。

【0111】

各訓練の反復中、重みは、その最適値に近づくように調整される。ネットワーク内のニ
ューロンの位置に応じて、異なる式を使用して、重みが目的関数に対してどのように調整
されるかを決定する。以下の方程式２は、ニューロンｉとニューロンｊとの間の重みが、
交差エントロピー誤差関数に対してどのように調整されるかを示す。

【数2】

重みが小さすぎ、ニューロンの出力が、分類に大きい影響を与えている可能性がないこと
を意味する場合、小さい重みが最適重みと比較されるときの重みの負の傾きおよび方程式
中の負号により、重みの正の変化がある。重みが大きすぎる場合、大きい重みが最適重み
と比較されるときの重みの正の傾きおよび方程式中の負号により、重みの負の変化がある
。したがって、重みは、最適な値に近づくようにそれ自体を訓練する。重みの修正は、ス
テップ１４７によって示されるように、一時的に記憶されてもよい。

【0112】

いくつかの実施形態では、重みの修正が決定される度に、重みが調整されてもよい。こ
のタイプの訓練は、オンラインまたはインクリメンタル訓練と呼ばれ得る。インクリメン
タル訓練の１つの利点としては、入力の小さい変化を追跡するニューラルネットワークの
能力が挙げられる。いくつかの実施形態では、重みは、ニューラルネットワークが入力／
出力の対のバッチを受信した後に修正されてもよい。このタイプの訓練は、バッチ訓練と
呼ばれ得る。バッチ訓練の１つの利点としては、最適化された重み値へのニューラルネッ
トワークのより迅速な収束が挙げられる。本実施形態では、ニューラルネットワークを、
１６０万個のアミノ酸および微小環境の対について訓練した。本実施形態では、２０のバ
ッチサイズを使用した。ステップ１４８において、カウンターがインクリメントされる。
ニューラルネットワークは、カウンターが２０に達すると、バッチ訓練の１ラウンドを完
了する。言い換えれば、ニューラルネットワークが２０個の入力／出力の対に基づいてそ
れ自体を評価すると、訓練の１ラウンドが完了する。

【0113】

１４９における決定は、訓練サンプルの現在のバッチが完了したかどうかに依存する。
１つのバッチを満たすために必要な訓練サンプルの数が達成された場合、ネットワークは
、ステップ１５０に進む。上で考察されたように、１バッチの訓練には２０個の入力／出
力の対が必要である。１つのバッチを満たすために必要なサンプルの数が達成されていな
い場合、ニューラルネットワークは、ステップ１３４～１４９を繰り返す。

【0114】

ステップ１５０において、ステップ１４７において一時的に記憶された重みの修正が合
計される。重みの値は、２０個の入力／出力の対の新たなバッチが新しく修正された重み
値を使用して評価されるように、合計された修正に従って修正される。

【0115】

１５１における決定は、訓練の反復の最大数に達したかどうかに依存する。バッチ訓練
の１ラウンドが完了すると、１回の訓練の反復が完了する。いくつかの状況では、重みが
その最適値の周囲を行ったり来たりし続けるため、重みは、その最適値に決して到達しな
い可能性がある。したがって、いくつかの実施形態では、ニューラルネットワークがネッ
トワークを無期限に訓練することを防止するように、最大反復回数が設定され得る。

【0116】

最大反復数に達していない場合、ニューラルネットワークは、ステップ１３０で作成さ
れたデータサンプルからの別の入力／出力の対を使用して、ネットワークを再び訓練する
ことを許可され得る。反復カウンターは、ニューラルネットワークが訓練の１バッチを完
了した後、ステップ１５３において増加する。

【0117】

最大反復数に達した場合、ニューラルネットワークは、重みの値を記憶し得る。ステッ
プ１５２は、重みの値を記憶することを示す。これらの重みは、ネットワークによって訓
練されている重みであり、その後、ニューラルネットワークを試験するときに使用される
ため、メモリに記憶される。

【0118】

反復数に達していない場合、予測アミノ酸残基と既知の天然アミノ酸残基との間の誤差
が評価されてもよい。この評価は、ステップ１５４において実施される。いくつかの状況
では、予測値と既知の天然の値との間の誤差は、非常に小さいため、誤差は、許容可能で
あるとみなされ得、ニューラルネットワークは、訓練を続ける必要はない。これらの状況
では、そのような小さい誤差率をもたらした重みの値が記憶され、その後、試験で使用さ
れてもよい。いくつかの実施形態では、ニューラルネットワークは、ニューラルネットワ
ークが、１つの出力を非常に良好に予測するか、または１つの出力を非常に良好に誤って
予測する方法を学習しなかったことを確実にするために、数回の反復に対して小さい誤差
率を維持しなければならない。数回の反復にわたって小さい誤差を維持するようネットワ
ークに要求すると、ネットワークが多様な入力範囲を適切に分類している可能性が高くな
る。予測値と既知の値との間の誤差がまだ大きすぎる場合、ニューラルネットワークは、
それ自体を訓練し続け、ステップ１３１～１５４を繰り返し得る。多くの実装では、ステ
ップ１３１～１５４の繰り返しの反復中、ニューラルネットワークは、新たなデータセッ
トを使用して、ニューラルネットワークを訓練する。

【0119】

図１Ｃは、試験中に合成タンパク質特性を高めるための方法の実装のフローチャートで
ある。ステップ１６０において、訓練シナリオから記憶された重みは、ステップ１７２に
おいて完全に接続された層の重みとして設定される。これらの重みは、重みが未知の入力
を正確に分類することが可能である可能性が高くあるべきであるように、重みが広範かつ
多様な入力セットを介して訓練されているため、未知の入力が分類される必要がある場合
に使用される。

【0120】

ステップ１６１において、いくつかの実装では、未知のタンパク質が、ランダムにサン
プリングされる。一実施形態では、タンパク質中のアミノ酸の最大５０％が、タンパク質
が大きい場合を除いてサンプリングされ、その場合、個々のタンパク質から１００個以下
のアミノ酸をサンプリングした。別の実施形態では、上限は、個々のタンパク質当たり２
００個のアミノ酸である。開示されたサンプリング方法は、タンパク質の外側の残基に対
するデータセットのバイアスを除去する。

【0121】

ステップ１６２において、タンパク質結晶構造の三次元モデルは、構造を含む各アミノ
酸に関連する微小環境とともに作成され得る。三次元モデルを生成するためのいくつかの
方法としては、他にも方法があるが、未知のタンパク質モデルが既知のタンパク質構造か
ら取られる候補断片のプールから構築される場合の断片集合、既知のタンパク質セグメン
トがアミノ酸配列に一致する場合のセグメント一致、または既知のタンパク質モデルが選
択され（「テンプレート」）、アミノ酸配列の残基がテンプレート配列中の残基にマッピ
ングされ（アライメント）、配列中の様々な距離、角度、および二面角への拘束がテンプ
レート構造とのアライメントから導出され、拘束の違反が最小化される場合の空間的拘束
の達成に基づく比較タンパク質モデリングが挙げられる。タンパク質結晶構造の三次元モ
デルが生成されると、構造を含む各アミノ酸に関連する微小環境も生成される。既存のタ
ンパク質構造データベースの１つの障害は、新たなタンパク質が付加される際に、結晶構
造を作成するために異なる方法が使用されることである。三次元構造を作成する異なる方
法は、モデルの精度に影響を与える可能性がある異なるバイアスまたはアーチファクトを
追加し得る。同じ方法の最新で、同じバージョンを使用して構造を再構築することにより
、訓練構造が、より古いバージョンに存在するアーチファクトまたは誤差ではなく、化学
組成で変化することが確実になる。

【0122】

ステップ１６３において、ステップ１６２から生成された三次元モデルが、三次元アレ
イにマッピングされてもよい。一例では、三次元モデルの座標は、三次元アレイに記憶さ
れる。いくつかの実施形態では、三次元画像は、三次元モデルから生成されてもよく、三
次元画像は、三次元アレイにマッピングされてもよい。アレイ内の画像データは、ボクセ
ル化マトリックスと呼ばれ得る。ピクセルが、二次元空間における画像のアドレス可能な
要素を表すように、ボクセルは、三次元空間におけるアドレス可能な要素を表す。

【0123】

ステップ１６４において、画像は、畳み込みニューラルネットワーク内の畳み込み層に
入力されてもよい。畳み込み層は、フィルタを介して画像の特徴を検出する。フィルタは
、画像内の特定の特徴の存在を検出するよう設計されている。単純化された例では、ハイ
パスフィルタは、高周波信号の存在を検出する。ハイパスフィルタの出力は、高周波を有
する信号の部分である。同様に、画像フィルタは、画像内の特定の特徴を追跡するように
設計され得る。画像に適用されるフィルタの数が多いほど、追跡され得る特徴も多くなる
。

【0124】

ステップ１６５において、画像は、畳み込み層内のフィルタと畳み込みされて、画像内
のフィルタ固有の特徴を抽出する。畳み込み層において、フィルタは、入力およびフィル
タの要素毎のドット積上をスライドし、入力は、特徴マップとして記憶される。

【0125】

１６６における決定は、より多くのフィルタがあるかどうかに依存する。上で考察され
たように、実装されたより多くのフィルタは、画像内で追跡され得るより多くの特徴を意
味する。各フィルタは、独立して画像と畳み込まれて、独立した特徴マップを作成する。
より多くのフィルタが画像と畳み込まれる場合、ステップ１６４および１６５が繰り返さ
れ得る。フィルタのすべてが画像と畳み込まれている場合、プロセスは、ステップ１６７
に進む。いくつかの実施形態では、特徴マップは、一緒に連結されて、画像に適用される
フィルタの数と同程度に深い特徴マップを作成し得る。他の実施形態では、特徴マップは
、一度に１つずつ処理されてもよい。

【0126】

ステップ１６７において、いくつかの実装では、活性化関数が、畳み込みニューラルネ
ットワークの畳み込み層の特徴マップに適用される。活性化関数は、ニューラルネットワ
ークが抽出された特徴マップ内の非線形パターンを検出することを可能にする。式ｆ（ｘ
）＝ｍａｘ（０，ｘ）を有する正規化線形関数が、活性化関数として特徴マップに適用さ
れてもよい。正規化線形活性化関数は、正の値に対して線形に挙動し、この関数を最適化
が容易なものにし、その後、ニューラルネットワークが高い予測精度を達成することを可
能にする。また、正規化線形活性化関数は、任意の負の入力に対してゼロを出力し、それ
が真の線形関数ではないことを意味する。したがって、畳み込みニューラルネットワーク
内の畳み込み層の出力は、特徴マップであり、特徴マップ内の値は、正規化線形活性化関
数を通過し得る。

【0127】

１６８における決定は、さらなる畳み込み層があるかどうかに依存する。畳み込み層の
数を増加させると、追跡され得る特徴の複雑性が増大し得る。追加の畳み込み層がある場
合、新たなフィルタが画像に適用され、ステップ１６４～１６８が繰り返され得る。いく
つかの実施形態では、フィルタは、追跡された特徴の精度を確実にするために、第１の畳
み込み層におけるものと同じである。代替の実施形態では、異なるフィルタが、第２の畳
み込み層に組み込まれてもよい。さらなる畳み込み層がない場合、プロセスは、ステップ
１６９に進む。

【0128】

ステップ１６９において、プーリング層が、データをダウンサンプリングする。プーリ
ングウィンドウが、特徴マップに適用されてもよい。いくつかの実施形態では、プーリン
グ層は、ウィンドウ内のデータの最大値を出力し、ウィンドウ内のデータをダウンサンプ
リングする。最大プーリングは、プーリングウィンドウで最も顕著な特徴を強調する。他
の実施形態では、プーリング層は、ウィンドウ内のデータの平均値を出力する。

【0129】

１７０における決定は、さらなる畳み込み層があるかどうかに依存する。畳み込み層の
数を増加させると、追跡され得る特徴の複雑性が増大し得る。追加の畳み込み層がある場
合、新たなフィルタが画像に適用され、ステップ１６４～１７０が繰り返され得る。いく
つかの実施形態では、フィルタは、追跡された特徴の精度を確実にするために、第１の畳
み込み層におけるものと同じである。代替の実施形態では、異なるフィルタが、第２の畳
み込み層に組み込まれてもよい。さらなる畳み込み層がない場合、プロセスは、ステップ
１７１に進む。

【0130】

ステップ１７１において、いくつかの実装では、ダウンサンプリングされたデータが平
坦化される。これは、データが、一次元ベクトルに配置されることを意味する。データは
、完全に接続された層で発生する行列の乗算の目的のために平坦化される。

【0131】

ステップ１７２において、いくつかの実装では、平坦化された一次元ベクトルは、ニュ
ーラルネットワークの完全に接続された層に入力される。畳み込みニューラルネットワー
クの完全に接続された層において、一次元ベクトルの各数がニューロンに適用される。ニ
ューロンは、入力を合計し、活性化関数を適用する。いくつかの実施形態では、活性化関
数は、正規化線形関数である。代替の実施形態では、活性化関数は、双曲線正接またはシ
グモイド関数であってもよい。

【0132】

ステップ１７３において、いくつかの実装では、完全に接続されたネットワークを含む
ニューロンは、重みが掛けられる。完全に接続されたネットワーク内の重みは、ステップ
１６０において初期化された重みである。これらの重みは、重みが未知の入力を正確に分
類することが可能である可能性が高くあるべきであるように、重みが広範かつ多様な入力
セットを介して訓練されているため、未知の入力が評価される場合に使用される。

【0133】

１７４における決定は、追加の完全に接続された層があるかどうかに依存する。いくつ
かの実施形態では、１つの完全に接続された層の出力は、第２の完全に接続された層への
入力になり得る。いくつかの実施形態では、ニューラルネットワークの精度を改善するた
めに、追加の完全に接続された層が実装される。追加の完全に接続された層の数は、ニュ
ーラルネットワークを実行するコンピュータの処理能力によって制限され得る。あるいは
、完全に接続された層の追加は、追加の完全に接続された層を処理するためのコンピュー
タ計算時間の増加と比較して、精度のわずかな増加によって制限され得る。代替の実施形
態では、１つの完全に接続された層の出力は、画像を分類するのに十分であり得る。追加
の完全に接続された層がある場合、ステップ１７２および１７３は、入力ベクトルが、重
みを介して互いに接続されるニューロンに供給されるように繰り返される。追加の完全に
接続された層がない場合、プロセスは、ステップ１７５に進む。

【0134】

ステップ１７５において、完全に接続された層は、実数のベクトルを出力する。いくつ
かの実施形態では、実数は、出力および分類されてもよい。代替の実施形態では、完全に
接続された層の出力は、ソフトマックス分類器に入力される。ソフトマックス分類器は、
ソフトマックス関数または正規化された指数関数を使用して、実数の入力を、予測された
出力クラスに対する正規化された確率分布に変換する。他の実施形態では、シグモイド関
数を使用して、畳み込みニューラルネットワークの出力を分類してもよい。シグモイド関
数は、１つのクラスがある場合に使用され得る。ソフトマックス関数は、マルチクラスシ
グモイド関数である。いくつかの実施形態では、ニューラルネットワークの出力は、タン
パク質の品質指標を改善するために予測された候補残基およびアミノ酸残基を表す。

【0135】

ステップ１７６において、合成タンパク質は、ニューラルネットワークの出力に従って
生成され得る。合成タンパク質は、ニューラルネットワークを実行するコンピューティン
グデバイスによって、ニューラルネットワークを実行するコンピューティングデバイスと
通信している別のコンピューティングデバイスによって、第三者の製造業者もしくは研究
所によって、またはニューラルネットワークによって特定された候補アミノ酸残基および
予測アミノ酸残基に従って置換を行う別の実体によって生成され得る。例えば、いくつか
の実施形態では、合成タンパク質は、ニューラルネットワークによって、および／または
ニューラルネットワークもしくはニューラルネットワークを実行するコンピューティング
デバイスの方向で特定される予測アミノ酸残基および候補残基に従って、１つ以上の置換
を行う実体によって得られてもよい。いくつかの実施形態では、ニューラルネットワーク
は、天然アミノ酸残基と同じであるアミノ酸残基を予測し得る。他の実施形態では、ニュ
ーラルネットワークは、天然アミノ酸残基とは異なるアミノ酸残基を予測し得る。ニュー
ラルネットワークの予測アミノ酸は、改善されたタンパク質が、天然アミノ酸残基を予測
アミノ酸残基に変異させることによって生成され得ることを示す。したがって、合成タン
パク質は、ニューラルネットワークの出力に従って生成され得る。

【0136】

図１Ｄは、いくつかの実装による、訓練中のニューラルネットワークのブロック図であ
る。入力は、１８０においてニューラルネットワークに供給される。上で考察されたよう
に、ニューラルネットワークは、様々な入力を受け入れることが可能である。いくつかの
実施形態では、ニューラルネットワークは、アミノ酸配列または残基を受け入れる。他の
実施形態では、ニューラルネットワークは、一連の各位置に位置する離散属性を有する一
連のアミノ酸を受信してもよい。

【0137】

ブロック図中、１８１は、経時的に変化するニューラルネットワークを表す。上で考察
されたように、訓練中、ニューラルネットワークは、新たな入力／出力の各反復を適応的
に更新する。重みは、予測出力と既知の出力との間の差によって計算された誤差信号に応
じて更新されるため、ニューラルネットワークは、適応的に更新される。

【0138】

ブロック図中、１８２は、ニューラルネットワークが予測する出力が、クエリを満たす
ことを表す。例えば、ニューラルネットワークは、修飾され得る特定のアミノ酸残基を特
定するようにクエリが行われ、訓練されてもよい。これらの状況では、ニューラルネット
ワークの出力は、アミノ酸残基であってもよく、アミノ酸残基は、改善された特性を有す
る新たなタンパク質を合成するために使用されてもよい。他の実施形態では、ニューラル
ネットワークの出力は、置換として使用され得るアミノ酸残基であってもよく、置換は、
改善された特性を有する新たなタンパク質を合成するために使用されてもよい。他の実施
形態では、ニューラルネットワークは、初期アミノ酸配列とは異なるパラメータのタンパ
ク質についての提案されたアミノ酸配列についてクエリが行われてもよい。これらの状況
では、ニューラルネットワークの出力は、アミノ酸配列の各残基についての特定のアミノ
酸を示すアミノ酸配列であってもよい。

【0139】

ブロック図中、１８６は、所望の値を表す。このタイプの訓練は、ニューラルネットワ
ークを訓練するために、出力に対応する入力が既知でなければならないため、教師あり訓
練と呼ばれる。訓練中、ニューラルネットワークは、所望の値に可能な限り近い結果を出
力するように求められる。

【0140】

所望の値１８６およびニューラルネットワーク１８２からの出力値は、１８５において
比較される。出力値と所望の値との間の差が決定され、ニューラルネットワークを通して
再び伝播される誤差信号１８３となるため、ニューラルネットワークは、この誤差から学
習することができる。上の方程式１および２に示されるように、重みは、誤差信号に基づ
いて更新される。

【0141】

図１Ｅは、いくつかの実装による、畳み込みニューラルネットワークのブロック図であ
る。ブロック図中、１９０は、畳み込み層を表す。畳み込み層は、フィルタを介して画像
の特徴を検出し得る。フィルタは、画像内の特定の特徴の存在を検出するよう設計されて
いる。単純化された例では、ハイパスフィルタは、高周波信号の存在を検出する。ハイパ
スフィルタの出力は、高周波を有する信号の部分である。同様に、画像フィルタは、画像
内の特定の特徴を追跡するように設計され得る。画像に適用されるフィルタの数が多いほ
ど、追跡され得る特徴も多くなる。

【0142】

いくつかの実装では、画像は、畳み込み層内のフィルタと畳み込みされて、画像内のフ
ィルタ固有の特徴を抽出する。畳み込み層において、フィルタは、入力およびフィルタの
要素毎のドット積上をスライドし、入力は、特徴マップとして記憶される。活性化関数は
、畳み込みニューラルネットワークの畳み込み層の特徴マップに適用される。活性化関数
は、ニューラルネットワークが抽出された特徴マップ内の非線形パターンを検出すること
を可能にする。式ｆ（ｘ）＝ｍａｘ（０，ｘ）を有する正規化線形関数が、特徴マップに
適用されてもよい。正規化線形活性化関数は、正の値に対して線形に挙動し、この関数を
最適化が容易なものにし、その後、ニューラルネットワークが高い予測精度を達成するこ
とを可能にする。また、正規化線形活性化関数は、任意の負の入力に対してゼロを出力し
、それが真の線形関数ではないことを意味する。したがって、畳み込みニューラルネット
ワーク内の畳み込み層の出力は、特徴マップであり、特徴マップ内の値は、正規化線形活
性化関数を通過している。他の実施形態では、シグモイド関数または双曲線正接関数ガ、
活性化関数として適用され得る。

【0143】

活性化関数によって作用されている抽出された特徴マップは、その後、１９１によって
示されるように、プーリング層に入力されてもよい。プーリング層は、データをダウンサ
ンプリングする。プーリングウィンドウが、特徴マップに適用されてもよい。いくつかの
実施形態では、プーリング層は、ウィンドウ内のデータの最大値を出力し、ウィンドウ内
のデータをダウンサンプリングする。最大プーリングは、プーリングウィンドウで最も顕
著な特徴を強調する。

【0144】

ダウンサンプリングされたプーリングデータは、その後、いくつかの実装では、畳み込
みニューラルネットワークの完全に接続された層１９２に入力される前に平坦化され得る
。

【0145】

いくつかの実施形態では、完全に接続された層は、ニューロンの１つのセットのみを有
してもよい。代替の実施形態では、完全に接続された層は、第１の層１９３内のニューロ
ンのセット、および後続の隠れ層１９４内のニューロンのセットを有してもよい。完全に
接続された中の隠れ層の数は、取り除かれてもよい。言い換えれば、ニューラルネットワ
ーク内の隠れ層の数は、ニューロンネットワークが出力を分類する方法を学習するにつれ
て適応的に変化し得る。

【0146】

完全に接続された層において、層１９３および１９４の各々のニューロンは、互いに接
続される。ニューロンは、重みによって接続される。訓練中、重みは、いくつかのニュー
ロンの効果を強化し、他のニューロンの効果を弱めるように調整される。各ニューロンの
強度の調整により、ニューラルネットワークは、出力をより良く分類することが可能にな
る。いくつかの実施形態では、ニューラルネットワーク内のニューロンの数は、取り除か
れてもよい。言い換えれば、ニューラルネットワーク内でアクティブであるニューロンの
数は、ニューラルネットワークが出力を分類する方法を学習するにつれて適応的に変化す
る。

【0147】

訓練後、予測値と既知の値との間の誤差は、非常に小さい可能性があるため、誤差は、
許容可能であるとみなされ得、ニューラルネットワークは、訓練を続ける必要はない。こ
れらの状況では、そのような小さい誤差率をもたらした重みの値が記憶され、その後、試
験で使用されてもよい。いくつかの実施形態では、ニューラルネットワークは、ニューラ
ルネットワークが、１つの出力を非常に良好に予測するか、または１つの出力を非常に良
好に誤って予測する方法を学習しなかったことを確実にするために、数回の反復に対して
小さい誤差率を満たさなければならない。数回の反復にわたって小さい誤差を維持するよ
うネットワークに要求すると、ネットワークが多様な入力範囲を適切に分類している可能
性が高くなる。

【0148】

ブロック図中、１９５は、ニューラルネットワークの出力を表す。完全に接続された層
の出力は、実数のベクトルである。いくつかの実施形態では、実数は、出力および分類さ
れてもよい。代替の実施形態では、完全に接続された層の出力は、ソフトマックス分類器
に入力される。

【0149】

ブロック図中、１９６は、ソフトマックス分類器層を表す。ソフトマックス分類器は、
ソフトマックス関数または正規化された指数関数を使用して、実数の入力を、予測された
出力クラスに対する正規化された確率分布に変換する。他の実施形態では、シグモイド関
数を使用して、畳み込みニューラルネットワークの出力を分類してもよい。シグモイド関
数は、１つのクラスがある場合に使用され得る。ソフトマックス関数は、マルチクラスシ
グモイド関数である。いくつかの実施形態では、ニューラルネットワークの出力は、タン
パク質の品質指標を改善するために予測された候補残基およびアミノ酸残基を表す。他の
実施形態では、ニューラルネットワークの出力は、アミノ酸配列の各残基についての特定
のアミノ酸を示すアミノ酸配列であってもよい。

【0150】

いくつかの実施形態では、問題のある残基が特定され、複数の独立して訓練されたニュ
ーラルネットワークからの予測を組み合わせることによって、新規残基について提案され
る。独立して訓練されたニューラルネットワークに基づいて残基を特定することによって
、ニューラルネットワークが訓練中に現れ、かつ任意の個々のニューラルネットワークに
固有である特異性に起因するバイアスが除去され得る。多くの独立したニューラルネット
ワークの平均は、任意の個々のニューラルネットワークに関連する癖を排除する。

【0151】

既存のアルゴリズムに対する様々な改善により、累積的に精度が改善された。図２Ｂに
示されるように、様々な改善は、総合すると、一実施形態では、野生型アミノ酸予測のモ
デル精度を、すべてのアミノ酸にわたって約４０％から７０％超に高めた。

【0152】

操作されたタンパク質
本明細書で考察されるシステムおよび方法の実装は、天然タンパク質または親タンパク
質の形質または特性と比較して、タンパク質の所望の形質または特性を修飾する１つ以上
の変異を含む操作されたタンパク質を含む組成物をさらに提供または特定する。一実施形
態では、本明細書で考察されるシステムおよび方法の実装によって生成または特定される
修飾タンパク質は、本明細書で考察されるシステムおよび方法の実装の三次元畳み込みニ
ューラルネットワーク（３ＤＣＮＮ）予測パイプラインによって予測される１つ以上のア
ミノ酸残基における１つ以上の変異を含んで、所望の形質または特性をタンパク質に付与
する。３ＤＣＮＮ予測パイプラインによる分析から予測される残基における変異を含むよ
うに生成されている、本明細書で考察されるシステムおよび方法の実装によって生成また
は特定された操作されたタンパク質は、本明細書において３ＤＣＮＮで操作されたタンパ
ク質と称される。

【0153】

本明細書で考察されるシステムおよび方法の実装によって生成または特定される３ＤＣ
ＮＮで操作されたタンパク質中で修飾され得る形質または特性の例としては、安定性、親
和性、活性、半減期、蛍光特性、および光退色に対する感受性が挙げられるが、これらに
限定されない。

【0154】

本明細書で考察されるシステムおよび方法の実装によって生成または特定される３ＤＣ
ＮＮで操作されたタンパク質は、化学的方法を使用して作製され得る。例えば、３ＤＣＮ
Ｎで操作されたタンパク質は、固相技術（ＲｏｂｅｒｇｅＪＹｅｔａｌ（１９９
５）Ｓｃｉｅｎｃｅ２６９：２０２－２０４）によって合成され、樹脂から切断され、
分取高速液体クロマトグラフィーによって精製され得る。自動化合成は、例えば、製造業
者によって提供される指示に従って、ＡＢＩ４３１Ａペプチド合成装置（Ｐｅｒｋｉ
ｎＥｌｍｅｒ）を使用して達成され得る。

【0155】

３ＤＣＮＮで操作されたタンパク質は、代替的に、コード核酸配列の翻訳によって、組
換え手段によって、またはより長いタンパク質配列からの切断によって作製されてもよい
。３ＤＣＮＮで操作されたタンパク質の組成は、アミノ酸分析または配列決定によって確
認されてもよい。

【0156】

本明細書で考察されるシステムおよび方法の実装によって生成または特定される３ＤＣ
ＮＮで操作されたタンパク質のバリアントは、（ｉ）アミノ酸残基のうちの１つ以上が、
保存または非保存のアミノ酸残基（好ましくは、保存アミノ酸残基）で置換され、そのよ
うな置換アミノ酸残基が、遺伝子コードによってコードされてもされなくてもよいもの、
（ｉｉ）１つ以上の修飾アミノ酸残基、例えば、置換基の付着によって修飾される残基が
あるもの、（ｉｉｉ）３ＤＣＮＮで操作されたタンパク質の断片、および／または（ｉｖ
）３ＤＣＮＮで操作されたタンパク質が、別のタンパク質またはポリペプチドと融合され
るものであってもよい。断片は、元の３ＤＣＮＮで操作されたタンパク質配列のタンパク
質分解切断（多部位タンパク質分解を含む）を介して生成されるポリペプチドを含む。バ
リアントは、翻訳後にまたは化学的に修飾されてもよい。そのようなバリアントは、本明
細書の教示から当業者の範囲内であるとみなされる。

【0157】

当該技術分野で既知のように、２つのポリペプチド間の「類似性」は、１つのポリペプ
チドのアミノ酸配列およびその保存されたアミノ酸置換を、第２のポリペプチドの配列と
比較することによって決定される。バリアントは、元の配列とは異なる、対象となるセグ
メント当たり残基の４０％未満で元の配列とは異なる、対象となるセグメント当たり残基
の２５％未満で元の配列とは異なる、対象となるセグメント当たり残基の１０％未満異な
る、または対象となるセグメント当たりわずか数個の残基で元のタンパク質配列とは異な
り、かつ同時に、元の配列の機能性および／またはユビキチンもしくはユビキチン化タン
パク質に結合する能力を保持するために、元の配列に対して十分に相同である、ポリペプ
チド配列を含むように定義される。本明細書で考察されるシステムおよび方法の実装を使
用して、元のアミノ酸配列に対して少なくとも６０％、６５％、７０％、７２％、７４％
、７６％、７８％、８０％、９０％、９１％、９２％、９３％、９４％、９５％、９６％
、９７％、９８％、または９９％類似している、または同一であるアミノ酸配列を生成ま
たは特定し得る。２つのアミノ酸配列間の同一性は、好ましくは、ＢＬＡＳＴＰアルゴリ
ズム［ＢＬＡＳＴＭａｎｕａｌ，Ａｌｔｓｃｈｕｌ，Ｓ．，ｅｔａｌ．，ＮＣＢＩ
ＮＬＭＮＩＨＢｅｔｈｅｓｄａ，Ｍｄ．２０８９４，Ａｌｔｓｃｈｕｌ，Ｓ．，ｅｔ
ａｌ．，Ｊ．Ｍｏｌ．Ｂｉｏｌ．２１５：４０３－４１０（１９９０）］を使用するこ
とによって決定される。

【0158】

本明細書で考察されるシステムおよび方法の実装によって生成または特定される３ＤＣ
ＮＮで操作されたタンパク質は、翻訳語修飾され得る。例えば、本明細書で考察されるシ
ステムおよび方法の実装の範囲内に含まれる翻訳後修飾としては、シグナルペプチド切断
、グリコシル化、アセチル化、イソプレニル化、タンパク質分解、ミリストイル化、タン
パク質フォールディング、およびタンパク質分解処理などが挙げられる。いくつかの修飾
または処理事象は、追加の生物学的機械の導入を必要とする。例えば、シグナルペプチド
切断およびコアグリコシル化などの処理事象は、イヌのミクロソーム膜またはＸｅｎｏｐ
ｕｓ卵抽出物（米国特許第６，１０３，４８９号）を標準翻訳反応に付加することによっ
て検査される。

【0159】

本明細書で考察されるシステムおよび方法の実装によって生成または特定される３ＤＣ
ＮＮで操作されたタンパク質は、翻訳後修飾によって、または翻訳中に非天然アミノ酸を
導入することによって形成される非天然アミノ酸を含み得る。タンパク質翻訳中に非天然
アミノ酸を導入するための様々なアプローチが利用可能である。一例として、サプレッサ
ー特性を有するｔＲＮＡであるサプレッサーｔＲＮＡなどの特殊なｔＲＮＡが、部位特異
的非天然アミノ酸置換（ＳＮＡＡＲ）のプロセスで使用されている。ＳＮＡＡＲでは、タ
ンパク質合成中に非天然アミノ酸を固有の部位に標的化するように作用する、ｍＲＮＡお
よびサプレッサーｔＲＮＡ上の固有のコドンが必要である（ＷＯ９０／０５７８５に記載
されている）。しかしながら、サプレッサーｔＲＮＡは、タンパク質翻訳系に存在するア
ミノアシルｔＲＮＡ合酵素によって認識可能であってはならない。特定の場合では、天然
アミノ酸を特異的に修飾し、アミノアシル化ｔＲＮＡの機能的活性を著しく改変しない化
学反応を使用して、ｔＲＮＡ分子がアミノアシル化された後、非天然アミノ酸が形成され
得る。これらの反応は、アミノアシル化後修飾と称される。例えば、その同族ｔＲＮＡ（
ｔＲＮＡ_ＬＹＳ）に連結されたリジンのイプシロン－アミノ基は、アミン特異的光親和性
標識で修飾され得る。

【0160】

本明細書で考察されるシステムおよび方法の実装によって生成または特定される３ＤＣ
ＮＮで操作されたタンパク質は、融合タンパク質を調製するために、タンパク質などの他
の分子とコンジュゲートされてもよい。これは、例えば、Ｎ末端またはＣ末端融合タンパ
ク質の合成によって達成されてもよく、ただし、得られる融合タンパク質が、３ＤＣＮＮ
で操作されたタンパク質の機能性を保持することを条件とする。

【0161】

３ＤＣＮＮで操作されたタンパク質模倣体
いくつかの実施形態では、対象の組成物は、３ＤＣＮＮで操作されたタンパク質のペプ
チド模倣体である。ペプチド模倣体は、ペプチドおよびタンパク質に基づく、またはそれ
らに由来する化合物である。本明細書で考察されるシステムおよび方法の実装によって生
成または特定されるペプチド模倣体は、典型的には、非天然アミノ酸、立体配座拘束、等
配電子置換などを使用した既知の３ＤＣＮＮで操作されたタンパク質配列の構造修飾によ
って得られ得る。対象のペプチド模倣体は、ペプチドと非ペプチド合成構造との間の構造
空間の連続体を構成し、したがって、ペプチド模倣体は、ファーマコフォアを描出し、親
３ＤＣＮＮで操作されたタンパク質の活性を有する非ペプチド化合物にペプチドを翻訳す
るのを助けるのに有用であり得る。

【0162】

さらに、本開示から明らかであるように、対象の３ＤＣＮＮで操作されたタンパク質の
ミメトープが提供され得る。そのようなペプチド模倣体は、非加水分解性であること（例
えば、対応するペプチドを分解するプロテアーゼまたは他の生理学的条件に対する安定性
の向上）、特異性および／または効力の向上、ならびにペプチド模倣体の細胞内局在化の
ための細胞透過性の向上などの属性を有し得る。例示目的で、本明細書で考察されるシス
テムおよび方法の実装によって生成または特定されるペプチド類似体は、例えば、ベンゾ
ジアゼピン（例えば、Ｆｒｅｉｄｉｎｇｅｒｅｔａｌ．ｉｎＰｅｐｔｉｄｅｓ：Ｃ
ｈｅｍｉｓｔｒｙａｎｄＢｉｏｌｏｇｙ，Ｇ．Ｒ．Ｍａｒｓｈａｌｌｅｄ．，ＥＳ
ＣＯＭＰｕｂｌｉｓｈｅｒ：Ｌｅｉｄｅｎ，Ｎｅｔｈｅｒｌａｎｄｓ，１９８８を参照
されたい）、置換ガマラクタム環（ｓｕｂｓｔｉｔｕｔｅｄｇａｍａｌａｃｔａｍ
ｒｉｎｇ）（Ｇａｒｖｅｙｅｔａｌ．ｉｎＰｅｐｔｉｄｅｓ：Ｃｈｅｍｉｓｔｒｙ
ａｎｄＢｉｏｌｏｇｙ，Ｇ．Ｒ．Ｍａｒｓｈａｌｌｅｄ．，ＥＳＣＯＭＰｕｂｌ
ｉｓｈｅｒ：Ｌｅｉｄｅｎ，Ｎｅｔｈｅｒｌａｎｄｓ，１９８８，ｐ１２３）、Ｃ－７模
倣体（Ｈｕｆｆｍａｎｅｔａｌ．ｉｎＰｅｐｔｉｄｅｓ：Ｃｈｅｍｉｓｔｒｙａ
ｎｄＢｉｏｌｏｇｙ，Ｇ．Ｒ．Ｍａｒｓｈａｌｌｅｄ．，ＥＳＣＯＭＰｕｂｌｉｓ
ｈｅｒ：Ｌｅｉｄｅｎ，Ｎｅｔｈｅｒｌａｎｄｓ，１９８８，ｐ．１０５）、ケト－メチ
レン偽ペプチド（Ｅｗｅｎｓｏｎｅｔａｌ．（１９８６）ＪＭｅｄＣｈｅｍ２
９：２９５、およびＥｗｅｎｓｏｎｅｔａｌ．ｉｎＰｅｐｔｉｄｅｓ：Ｓｔｒｕｃ
ｔｕｒｅａｎｄＦｕｎｃｔｉｏｎ（Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ９ｔｈ
ＡｍｅｒｉｃａｎＰｅｐｔｉｄｅＳｙｍｐｏｓｉｕｍ）ＰｉｅｒｃｅＣｈｅｍｉ
ｃａｌＣｏ．Ｒｏｃｋｌａｎｄ，Ｉｌｌ．，１９８５）、β－ターンジペプチドコア（
Ｎａｇａｉｅｔａｌ．（１９８５）ＴｅｔｒａｈｅｄｒｏｎＬｅｔｔ２６：６４
７、およびＳａｔｏｅｔａｌ．（１９８６）ＪＣｈｅｍＳｏｃＰｅｒｋｉｎ
Ｔｒａｎｓ１：１２３１）、β－アミノアルコール（Ｇｏｒｄｏｎｅｔａｌ．（１
９８５）ＢｉｏｃｈｅｍＢｉｏｐｈｙｓＲｅｓＣｏｍｍｕｎ１２６：４１９、お
よびＤａｎｎｅｔａｌ．（１９８６）ＢｉｏｃｈｅｍＢｉｏｐｈｙｓＲｅｓＣ
ｏｍｍｕｎ１３４：７１）、ジアミノケトン（Ｎａｔａｒａｊａｎｅｔａｌ．（１
９８４）ＢｉｏｃｈｅｍＢｉｏｐｈｙｓＲｅｓＣｏｍｍｕｎ１２４：１４１）、
ならびにメチレンアミノ修飾（Ｒｏａｒｋｅｔａｌ．ｉｎＰｅｐｔｉｄｅｓ：Ｃｈ
ｅｍｉｓｔｒｙａｎｄＢｉｏｌｏｇｙ，Ｇ．Ｒ．Ｍａｒｓｈａｌｌｅｄ．，ＥＳＣ
ＯＭＰｕｂｌｉｓｈｅｒ：Ｌｅｉｄｅｎ，Ｎｅｔｈｅｒｌａｎｄｓ，１９８８，ｐ１３
４）を使用して生成され得る。また、一般に、ＳｅｓｓｉｏｎＩＩＩ：Ａｎａｌｙｔ
ｉｃａｎｄｓｙｎｔｈｅｔｉｃｍｅｔｈｏｄｓ，ｉｎｉｎＰｅｐｔｉｄｅｓ：
ＣｈｅｍｉｓｔｒｙａｎｄＢｉｏｌｏｇｙ，Ｇ．Ｒ．Ｍａｒｓｈａｌｌｅｄ．，Ｅ
ＳＣＯＭＰｕｂｌｉｓｈｅｒ：Ｌｅｉｄｅｎ，Ｎｅｔｈｅｒｌａｎｄｓ，１９８８）も
参照されたい。

【0163】

３ＤＣＮＮで操作されたタンパク質ペプチド模倣体を生成するために実施され得る様々
な側鎖置換に加えて、本明細書で考察されるシステムおよび方法の実装は、ペプチド二次
構造の立体配座的に拘束された模倣体の使用を企図する。ペプチドのアミド結合のために
多数の代理物が開発されている。アミド結合のために頻繁に利用される代理物としては、
次の群（ｉ）トランス－オレフィン、（ｉｉ）フルオロアルケン、（ｉｉｉ）メチレンア
ミノ、（ｉｖ）ホスホンアミド、および（ｖ）スルホンアミドが挙げられる。

【0164】

核酸
一実施形態では、本明細書で考察されるシステムおよび方法の実装を使用して、３ＤＣ
ＮＮで操作されたタンパク質をコードするヌクレオチド配列を含む単離核酸を生成または
特定し得る。

【0165】

３ＤＣＮＮで操作されたタンパク質をコードするヌクレオチド配列は、代替的に、得ら
れるポリヌクレオチドが、本明細書で考察されるシステムおよび方法の実装に従ってポリ
ペプチドをコードするという条件で、元のヌクレオチド配列に対する配列変異、例えば、
１つ以上のヌクレオチドの置換、挿入、および／または欠失を含むことができる。したが
って、本明細書で考察されるシステムおよび方法の実装を使用して、本明細書に列挙され
るヌクレオチド配列と実質的に同一であり、３ＤＣＮＮで操作されたタンパク質をコード
するヌクレオチド配列を生成または特定し得る。

【0166】

本明細書で使用される意味において、ヌクレオチド配列は、そのヌクレオチド配列が、
少なくとも６０％、少なくとも７０％、少なくとも８５％、少なくとも９５％、少なくと
も９６％、少なくとも９７％、少なくとも９８％、または少なくとも９９％のヌクレオチ
ド配列に対する同一性の程度を有する場合、本明細書に記載するヌクレオチド配列のいず
れかと「実質的に同一」である。３ＤＣＮＮで操作されたタンパク質をコードするヌクレ
オチド配列と実質的に相同であるヌクレオチド配列は、典型的には、例えば、保存的置換
または非保存的置換を導入することによって、ヌクレオチド配列中に含有される情報に基
づいて、本明細書で考察されるシステムおよび方法の実装によって生成または特定される
ポリペプチドの産生生物から単離され得る。可能性のある修飾の他の例としては、配列中
の１つ以上のヌクレオチドの挿入、配列の末端のいずれかにおける１つ以上のヌクレオチ
ドの付加、または任意の末端もしくは配列の内側における１つ以上のヌクレオチドの欠失
が挙げられる。２つのヌクレオチド配列間の同一性は、好ましくは、ＢＬＡＳＴＮアルゴ
リズム［ＢＬＡＳＴＭａｎｕａｌ，Ａｌｔｓｃｈｕｌ，Ｓ．，ｅｔａｌ．，ＮＣＢＩ
ＮＬＭＮＩＨＢｅｔｈｅｓｄａ，Ｍｄ．２０８９４，Ａｌｔｓｃｈｕｌ，Ｓ．，ｅ
ｔａｌ．，Ｊ．Ｍｏｌ．Ｂｉｏｌ．２１５：４０３－４１０（１９９０）］を使用する
ことによって決定される。

【0167】

別の態様では、本明細書で考察されるシステムおよび方法の実装を使用して、３ＤＣＮ
Ｎで操作されたタンパク質またはその誘導体をコードするヌクレオチド配列を含む構築物
を生成または特定し得る。特定の実施形態では、構築物は、転写、および任意選択的に翻
訳、制御要素に作動可能に結合される。構築物は、本明細書で考察されるシステムおよび
方法の実装によって生成または特定されるヌクレオチド配列の発現の作動可能に結合した
調節配列を組み込み、したがって発現カセットを形成することができる。

【0168】

３ＤＣＮＮで操作されたタンパク質またはキメラ３ＤＣＮＮで操作されたタンパク質は
、組換えＤＮＡ法を使用して調製されてもよい。したがって、３ＤＣＮＮで操作されたタ
ンパク質またはキメラ３ＤＣＮＮで操作されたタンパク質をコードする核酸分子は、３Ｄ
ＣＮＮで操作されたタンパク質またはキメラ３ＤＣＮＮで操作されたタンパク質の良好な
発現を確実にする適切な発現ベクターに組み込まれてもよい。

【0169】

したがって、別の態様では、本明細書で考察されるシステムおよび方法の実装を使用し
て、本明細書で考察されるシステムおよび方法の実装によって生成または特定されるヌク
レオチド配列または構築物を含むベクターを生成または特定し得える。ベクターの選択は
、その後に導入される宿主細胞に依存する。特定の実施形態では、本明細書で考察される
システムおよび方法の実装によって生成または特定されるベクターは、発現ベクターであ
る。好適な宿主細胞は、多種多様な原核および真核宿主細胞を含む。特定の実施形態では
、発現ベクターは、ウイルスベクター、細菌ベクター、および哺乳類細胞ベクターからな
る群から選択される。原核生物および／または真核生物ベクターベースの系は、本明細書
で考察されるシステムおよび方法の実装とともに使用して、ポリヌクレオチドまたはその
同族ポリペプチドを産生するために用いられ得る。多くのそのようなシステムは、商業的
に、かつ広く利用可能である。

【0170】

さらに、発現ベクターは、ウイルスベクターの形態で細胞に提供されてもよい。ベクタ
ーとして有用であるウイルスとしては、レトロウイルス、アデノウイルス、アデノ関連ウ
イルス、ヘルペスウイルス、およびレンチウイルスが挙げられるが、これらに限定されな
い。概して、好適なベクターは、少なくとも１つの生物において機能的な複製起点、プロ
モーター配列、便利な制限エンドヌクレアーゼ部位、および１つ以上の選択可能なマーカ
ーを含有する。（例えば、ＷＯ０１／９６５８４、ＷＯ０１／２９０５８、および米
国特許第６，３２６，１９３号を参照されたい）。

【0171】

ポリヌクレオチドの挿入に適したベクターは、原核生物中の発現ベクター、例えば、ｐ
ＵＣ１８、ｐＵＣ１９、Ｂｌｕｅｓｃｒｉｐｔおよびその誘導体、ｍｐ１８、ｍｐ１９、
ｐＢＲ３２２、ｐＭＢ９、ＣｏｌＥ１、ｐＣＲ１、ＲＰ４、ファージ、および「シャトル
」ベクター、例えば、ｐＳＡ３およびｐＡＴ２８；酵母中の発現ベクター、例えば、２ミ
クロンプラスミドのタイプのベクター、組み込みベクター、ＹＥＰベクター、セントロメ
アプラスミドなど；昆虫細胞中の発現ベクター、例えば、ｐＡＣシリーズおよびｐＶＬの
ベクター；植物中の発現ベクター、例えば、ｐＩＢＩ、ｐＥａｒｌｅｙＧａｔｅ、ｐＡＶ
Ａ、ｐＣＡＭＢＩＡ、ｐＧＳＡ、ｐＧＷＢ、ｐＭＤＣ、ｐＭＹ、ｐＯＲＥシリーズなど；
ならびにウイルスベクターに基づく真核細胞中の発現ベクター（アデノウイルス、アデノ
ウイルス関連ウイルス、例えば、レトロウイルス、および特に、レンチウイルス）；なら
びに非ウイルスベクター、例えば、ｐＳｉｌｅｎｃｅｒ４．１－ＣＭＶ（Ａｍｂｉｏｎ
）、ｐｃＤＮＡ３、ｐｃＤＮＡ３．１／ｈｙｇ、ｐＨＭＣＶ／Ｚｅｏ、ｐＣＲ３．１、ｐ
ＥＦＩ／Ｈｉｓ、ｐＩＮＤ／ＧＳ、ｐＲｃ／ＨＣＭＶ２、ｐＳＶ４０／Ｚｅｏ２、ｐＴＲ
ＡＣＥＲ－ＨＣＭＶ、ｐＵＢ６／Ｖ５－Ｈｉｓ、ｐＶＡＸ１、ｐＺｅｏＳＶ２、ｐＣＩ、
ｐＳＶＬおよびＰＫＳＶ－１０、ｐＢＰＶ－１、ｐＭＬ２ｄ、およびｐＴＤＴ１に由来す
るベクターである。

【0172】

例示として、核酸配列が導入されるベクターは、宿主細胞に導入されるときに宿主細胞
のゲノム内に組み込まれる、または組み込まれないプラスミドであってもよい。本明細書
で考察されるシステムおよび方法の実装によって生成または特定されるヌクレオチド配列
または遺伝子構築物が挿入され得る例示的で非限定的な例としては、真核細胞における発
現のためのｔｅｔ－ｏｎ誘導性ベクターが挙げられる。

【0173】

特定の実施形態では、ベクターは、動物細胞を形質転換するのに有用なベクターである
。

【0174】

組換え発現ベクターはまた、３ＤＣＮＮで操作されたタンパク質もしくはキメラ３ＤＣ
ＮＮで操作されたタンパク質の発現の増加、３ＤＣＮＮで操作されたタンパク質もしくは
キメラ３ＤＣＮＮで操作されたタンパク質の溶解性の向上をもたらす部分をコードし、か
つ／または親和性精製のリガンドとして作用することによって、３ＤＣＮＮで操作された
タンパク質もしくはキメラ３ＤＣＮＮで操作されたタンパク質の精製を補助する核酸分子
を含有してもよい。例えば、タンパク質分解切断部位は、３ＤＣＮＮで操作されたタンパ
ク質に挿入されて、融合タンパク質の精製後に、融合タンパク質部分からの３ＤＣＮＮで
操作されたタンパク質またはキメラ３ＤＣＮＮで操作されたタンパク質の分離を可能にし
得る。融合発現ベクターの例としては、グルタチオンＳ－トランスフェラーゼ（ＧＳＴ）
、マルトースＥ結合タンパク質、またはプロテインＡをそれぞれ組換えタンパク質に融合
する、ｐＧＥＸ（ＡｍｒａｄＣｏｒｐ．，Ｍｅｌｂｏｕｒｎｅ，Ａｕｓｔｒａｌｉａ）
、ｐＭＡＬ（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ，Ｂｅｖｅｒｌｙ，Ｍａｓｓ．）
、およびｐＲＩＴ５（Ｐｈａｒｍａｃｉａ，Ｐｉｓｃａｔａｗａｙ，Ｎ．Ｊ．）が挙げら
れる。

【0175】

追加のプロモーター要素、すなわち、エンハンサーは、転写開始の頻度を調節する。典
型的には、これらは、開始部位の上流の３０～１１０ｂｐの領域に位置するが、多くのプ
ロモーターは、開始部位の下流にも機能的要素を含有することが近年示されている。プロ
モーター要素間の間隔は、しばしば柔軟であり、その結果、プロモーター機能は、要素が
互いに対して逆転または移動するときに保持される。チミジンキナーゼ（ｔｋ）プロモー
ターでは、プロモーター要素間の間隔は、活性が低下し始める前に５０ｂｐ離れるまで増
加し得る。プロモーターに応じて、個々の要素は、協働的にまたは独立してのいずれかで
機能して、転写を活性化することができるように思われる。

【0176】

プロモーターは、コードセグメントおよび／またはエクソンの上流に位置する５非コー
ド配列を単離することによって得られ得るように、遺伝子またはポリヌクレオチド配列に
天然に関連するプロモーターであってもよい。そのようなプロモーターは、「内因性」と
称され得る。同様に、エンハンサーは、その配列の下流または上流のいずれかに位置する
ポリヌクレオチド配列に天然に関連するエンハンサーであり得る。あるいは、特定の利点
は、コードポリヌクレオチドセグメントを、組換えプロモーターまたは異種プロモーター
（これは、その天然環境中のポリヌクレオチド配列に通常関連しないプロモーターを指す
）の制御下に位置付けることによって得られる。組換えエンハンサーまたは異種エンハン
サーもまた、その天然環境においてポリヌクレオチド配列に通常関連しないエンハンサー
を指す。そのようなプロモーターまたはエンハンサーは、他の遺伝子のプロモーターまた
はエンハンサー、ならびに任意の他の原核細胞、ウイルス細胞、または真核細胞から単離
されたプロモーターまたはエンハンサー、および「天然に存在」していない、すなわち、
異なる転写調節領域の異なる要素、および／または発現を改変する変異を含有するプロモ
ーターまたはエンハンサーを含んでもよい。プロモーターおよびエンハンサーの核酸配列
を合成的に産生することに加えて、配列は、本明細書に開示される組成物に関連して、組
換えクローニングおよび／またはＰＣＲ（商標）を含む核酸増幅技術を使用して産生され
てもよい（米国特許第４，６８３，２０２号、米国特許第５，９２８，９０６号）。さら
に、ミトコンドリア、葉緑体などの非核細胞小器官内の配列の転写および／または発現を
方向付ける制御配列も用いられ得ることが企図される。

【0177】

当然のことながら、発現のために選択される細胞型、細胞小器官、および生物における
ＤＮＡセグメントの発現を効果的に方向付けるプロモーターおよび／またはエンハンサー
を用いることが重要である。用いられるプロモーターは、例えば、組換えタンパク質およ
び／またはペプチドの大規模生産において有利であるなど、導入されたＤＮＡセグメント
の高レベルの発現を方向付けるのに適切な条件下で、構成的、組織特異的、誘導性、およ
び／または有用であり得る。プロモーターは、異種または内因性であり得る。

【0178】

本明細書に提示される実験例で例示されるプロモーター配列は、即時初期サイトメガロ
ウイルス（ＣＭＶ）プロモーター配列である。このプロモーター配列は、それと作動可能
に連結された任意のポリヌクレオチド配列の高レベルの発現を促進することが可能な強力
な構成的プロモーター配列である。しかしながら、シミアンウイルス４０（ＳＶ４０）初
期プロモーター、マウス乳腺腫瘍ウイルス（ＭＭＴＶ）、ヒト免疫不全ウイルス（ＨＩＶ
）の長い末端反復（ＬＴＲ）プロモーター、モロニーウイルスプロモーター、トリ白血病
ウイルスプロモーター、エプスタイン－バールウイルス即時初期プロモーター、ラウス肉
腫ウイルスプロモーター、ならびにヒト遺伝子プロモーター、例えば、これらに限定され
ないが、アクチンプロモーター、ミオシンプロモーター、ヘモグロビンプロモーター、お
よび筋クレアチンプロモーターが挙げられるがこれらに限定されない、他の構成的プロモ
ーター配列も使用され得る。さらに、本明細書で考察されるシステムおよび方法の実装は
、構成的プロモーターの使用に限定されない。誘導性プロモーターもまた、本明細書で考
察されるシステムおよび方法の実装を介して生成または特定され得る。そのようなシステ
ムまたは方法を介して生成または特定される誘導性プロモーターの使用は、そのような発
現が所望されるときに作動可能に連結されたポリヌクレオチド配列の発現をオンにするか
、または発現が所望されないときに発現をオフにすることが可能な分子スイッチを提供す
る。誘導性プロモーターの例としては、メタロチオニンプロモーター、グルココルチコイ
ドプロモーター、プロゲステロンプロモーター、およびテトラサイクリンプロモーターが
挙げられるが、これらに限定されない。さらに、本明細書で考察されるシステムおよび方
法の実装により、組織特異的プロモーターの使用が可能になり得、そのプロモーターは、
所望の組織においてのみ活性である。組織特異的プロモーターとしては、ＨＥＲ－２プロ
モーターおよびＰＳＡ関連プロモーター配列が挙げられるが、これらに限定されない。

【0179】

一実施形態では、核酸の発現は、外部から制御される。例えば、一実施形態では、発現
は、ドキシサイクリンＴｅｔ－Ｏｎ系または他の誘導性もしくは抑制性発現系を使用して
外部から制御される。

【0180】

組換え発現ベクターはまた、形質転換またはトランスフェクトされた宿主細胞の選択を
促進する選択可能なマーカー遺伝子を含有してもよい。好適な選択可能なマーカー遺伝子
は、特定の薬剤に対する耐性を付与するＧ４１８およびハイグロマイシン、β－ガラクト
シダーゼ、クロラムフェニコールアセチルトランスフェラーゼ、ホタルルシフェラーゼ、
または免疫グロブリンもしくはその部分、例えば、免疫グロブリン、好ましくはＩｇＧの
Ｆｃ部分などのタンパク質をコードする遺伝子である。選択可能なマーカーは、対象とな
る核酸とは別のベクター上に導入されてもよい。

【0181】

レポーター遺伝子は、トランスフェクトされた可能性のある細胞を特定し、調節配列の
機能性を評価するために使用される。概して、レポーター遺伝子は、レシピエント生物ま
たは組織内に存在しないか、またはそれらによって発現され、かつその発現が、例えば、
酵素活性などの何らかの容易に検出可能な特性によって示されるタンパク質をコードする
遺伝子である。レポーター遺伝子の発現は、ＤＮＡがレシピエント細胞に導入された後の
好適な時点でアッセイされる。

【0182】

例示的なレポーター遺伝子は、ルシフェラーゼ、ベータ－ガラクトシダーゼ、クロラム
フェニコールアセチルトランスフェラーゼ、分泌型アルカリホスファターゼ、または緑色
蛍光タンパク質遺伝子を含むがこれに限定されない、蛍光タンパク質をコードする遺伝子
を含み得る（例えば、Ｕｉ－Ｔｅｉｅｔａｌ．，２０００ＦＥＢＳＬｅｔｔ．４
７９：７９－８２を参照されたい）。

【0183】

一実施形態では、本明細書で考察されるシステムおよび方法の実装によって生成または
特定される３ＤＣＮＮで操作されたタンパク質は、レポーター遺伝子であり、好適な発現
系に含まれる。例えば、一実施形態では、そのようなシステムまたは方法によって生成ま
たは特定される３ＤＣＮＮで操作されたタンパク質は、蛍光活性が増加した青色蛍光タン
パク質である。そのような実施形態では、本明細書で考察されるシステムおよび方法の実
装によって生成または特定される３ＤＣＮＮで操作されたタンパク質をコードするヌクレ
オチド配列は、異種タンパク質配列の検出を可能にするために発現系に組み込まれてもよ
い。

【0184】

組換え発現ベクターは、宿主細胞に導入されて、組換え細胞を産生してもよい。細胞は
、原核細胞または真核細胞であり得る。本明細書で考察されるシステムおよび方法の実装
によって生成または特定されるベクターを使用して、例えば、真核細胞、例えば、酵母細
胞、Ｓａｃｃｈａｒｏｍｙｃｅｓｃｅｒｅｖｉｓｉａｅ、もしくは哺乳類細胞、例えば
、上皮腎臓２９３細胞もしくはＵ２ＯＳ細胞、または原核細胞、例えば、細菌、Ｅｓｃｈ
ｅｒｉｃｈｉａｃｏｌｉ、もしくはＢａｃｉｌｌｕｓｓｕｂｔｉｌｉｓを形質転換す
ることができる。核酸は、リン酸カルシウムまたは塩化カルシウムの共沈、ＤＥＡＥ－デ
キストラン媒介トランスフェクション、リポフェクチン、電気穿孔、またはマイクロイン
ジェクションなどの従来の技術を使用して、細胞に導入され得る。宿主細胞を形質転換お
よびトランスフェクトするための好適な方法は、Ｓａｍｂｒｏｏｋｅｔａｌ．（Ｍｏ
ｌｅｃｕｌａｒＣｌｏｎｉｎｇ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ，２ｎｄ
Ｅｄｉｔｉｏｎ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙｐｒ
ｅｓｓ（１９８９））、および他の実験テキストで見ることができる。

【0185】

例えば、本明細書で考察されるシステムおよび方法の実装によって生成または特定され
る３ＤＣＮＮで操作されたタンパク質またはキメラ３ＤＣＮＮで操作されたタンパク質は
、細菌細胞、例えば、Ｅ．ｃｏｌｉ、昆虫細胞（バキュロウイルスを使用する）、酵母細
胞、または哺乳類細胞で発現され得る。他の好適な宿主細胞は、Ｇｏｅｄｄｅｌ，Ｇｅｎ
ｅＥｘｐｒｅｓｓｉｏｎＴｅｃｈｎｏｌｏｇｙ：ＭｅｔｈｏｄｓｉｎＥｎｚｙｍ
ｏｌｏｇｙ１８５，ＡｃａｄｅｍｉｃＰｒｅｓｓ，ＳａｎＤｉｅｇｏ，Ｃａｌｉｆ
．（１９９１）で見ることができる。

【0186】

修飾青色蛍光タンパク質
一実施形態では、本明細書で考察されるシステムおよび方法の実装を使用して、ｓｅｃ
ＢＦＰ２バリアントタンパク質を特定または生成し得る。特定の態様では、組成物は、安
定性を強化する１つ以上の変異を含むｓｅｃＢＦＰ２バリアントタンパク質に関する。特
定の態様では、ｓｅｃＢＦＰ２バリアントタンパク質は、野生型ｓｅｃＢＦＰ２と比較し
て、強化された安定性、強化された蛍光、強化された半減期、およびより遅い光退色のう
ちの１つ以上を示す。

【0187】

いくつかの実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、１つ以上の変異を
含むｓｅｃＢＦＰ２を含む。例えば、いくつかの実施形態では、ｓｅｃＢＦＰ２バリアン
トタンパク質は、完全長野生型ｓｅｃＢＦＰ２との関連で、Ｔ１８、Ｓ２８、Ｙ９６、Ｓ
１１４、Ｖ１２４、Ｔ１２７、Ｄ１５１、Ｎ１７３、およびＲ１９８から選択される１つ
以上の残基において１つ以上の変異を含むｓｅｃＢＦＰ２を含む。一実施形態では、完全
長野生型ｓｅｃＢＦＰ２は、

のアミノ酸配列を含む。

【0188】

特定の実施形態では、本明細書に記載されるｓｅｃＢＦＰ２バリアントタンパク質内の
変異の表記は、配列番号１に関連する。例えば、Ｔ１８において変異を含むｓｅｃＢＦＰ
２バリアントタンパク質は、ｓｅｃＢＦＰ２を指すが、完全長野生型ｓｅｃＢＦＰ２（配
列番号１）の１８位のトレオニンと相関する残基において変異を有する。

【0189】

いくつかの実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、完全長野生型ｓｅ
ｃＢＦＰ２との関連で、Ｔ１８Ｘ、Ｓ２８Ｘ、Ｙ９６Ｘ、Ｓ１１４Ｘ、Ｖ１２４Ｘ、Ｔ１
２７Ｘ、Ｄ１５１Ｘ、Ｎ１７３Ｘ、およびＲ１９８Ｘ（ここで、Ｘは、任意のアミノ酸で
ある）から選択される１つ以上の変異を含むｓｅｃＢＦＰ２を含む。いくつかの実施形態
では、ｓｅｃＢＦＰ２バリアントタンパク質は、完全長野生型ｓｅｃＢＦＰ２との関連で
、Ｔ１８Ｗ、Ｔ１８Ｖ、Ｔ１８Ｅ、Ｓ２８Ａ、Ｙ９６Ｆ、Ｓ１１４Ｖ、Ｓ１１４Ｔ、Ｖ１
２４Ｔ、Ｖ１２４Ｙ、Ｖ１２４Ｗ、Ｔ１２７Ｐ、Ｔ１２７Ｌ、Ｔ１２７Ｒ、Ｔ１２７Ｄ、
Ｄ１５１Ｇ、Ｎ１７３Ｔ、Ｎ１７３Ｈ、Ｎ１７３Ｒ、Ｎ１７３Ｓ、Ｒ１９８Ｖ、およびＲ
１９８Ｌから選択される１つ以上の変異を含むｓｅｃＢＦＰ２を含む。

【0190】

一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、Ｔ１８Ｘ変異（ここで、Ｘ
は、任意のアミノ酸である）を含むｓｅｃＢＦＰ２を含む。一実施形態では、ｓｅｃＢＦ
Ｐ２バリアントタンパク質は、完全長野生型ｓｅｃＢＦＰ２との関連で、Ｔ１８Ｗ変異、
Ｔ１８Ｖ変異、またはＴ１８Ｅ変異を含むｓｅｃＢＦＰ２を含む。

【0191】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0192】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0193】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0194】

一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、Ｓ２８Ｘ変異（ここで、Ｘ
は、任意のアミノ酸である）を含むｓｅｃＢＦＰ２を含む。一実施形態では、ｓｅｃＢＦ
Ｐ２バリアントタンパク質は、完全長野生型ｓｅｃＢＦＰ２との関連で、Ｓ２８Ａ変異を
含むｓｅｃＢＦＰ２を含む。

【0195】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0196】

一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、Ｔ９６Ｘ変異（ここで、Ｘ
は、任意のアミノ酸である）を含むｓｅｃＢＦＰ２を含む。一実施形態では、ｓｅｃＢＦ
Ｐ２バリアントタンパク質は、完全長野生型ｓｅｃＢＦＰ２との関連で、Ｙ９６Ｆ変異を
含むｓｅｃＢＦＰ２を含む。

【0197】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0198】

一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、Ｓ１１４Ｘ変異（ここで、
Ｘは、任意のアミノ酸である）を含むｓｅｃＢＦＰ２を含む。一実施形態では、ｓｅｃＢ
ＦＰ２バリアントタンパク質は、完全長野生型ｓｅｃＢＦＰ２との関連で、Ｓ１１４Ｖ変
異またはＳ１１４Ｔ変異を含むｓｅｃＢＦＰ２を含む。

【0199】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0200】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0201】

一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、Ｖ１２４Ｘ変異（ここで、
Ｘは、任意のアミノ酸である）を含むｓｅｃＢＦＰ２を含む。一実施形態では、ｓｅｃＢ
ＦＰ２バリアントタンパク質は、完全長野生型ｓｅｃＢＦＰ２との関連で、Ｖ１２４Ｔ変
異、Ｖ１２４Ｙ変異、またはＶ１２４Ｗ変異を含むｓｅｃＢＦＰ２を含む。

【0202】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0203】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0204】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0205】

一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、Ｔ１２７Ｘ変異（ここで、
Ｘは、任意のアミノ酸である）を含むｓｅｃＢＦＰ２を含む。一実施形態では、ｓｅｃＢ
ＦＰ２バリアントタンパク質は、完全長野生型ｓｅｃＢＦＰ２との関連で、Ｔ１２７Ｐ変
異、Ｔ１２７Ｌ変異、Ｔ１２７Ｒ変異、またはＴ１２７Ｄ変異を含むｓｅｃＢＦＰ２を含
む。

【0206】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0207】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0208】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0209】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0210】

一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、Ｄ１５１Ｘ変異（ここで、
Ｘは、任意のアミノ酸である）を含むｓｅｃＢＦＰ２を含む。一実施形態では、ｓｅｃＢ
ＦＰ２バリアントタンパク質は、完全長野生型ｓｅｃＢＦＰ２との関連で、Ｄ１５１Ｇ変
異を含むｓｅｃＢＦＰ２を含む。

【0211】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0212】

一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、Ｎ１７３Ｘ変異（ここで、
Ｘは、任意のアミノ酸である）を含むｓｅｃＢＦＰ２を含む。一実施形態では、ｓｅｃＢ
ＦＰ２バリアントタンパク質は、完全長野生型ｓｅｃＢＦＰ２との関連で、Ｎ１７３Ｔ変
異、Ｎ１７３Ｈ変異、Ｎ１７３Ｒ変異、またはＮ１７３Ｓ変異を含むｓｅｃＢＦＰ２を含
む。

【0213】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0214】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0215】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0216】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0217】

一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、Ｒ１９８Ｘ変異（ここで、
Ｘは、任意のアミノ酸である）を含むｓｅｃＢＦＰ２を含む。一実施形態では、ｓｅｃＢ
ＦＰ２バリアントタンパク質は、完全長野生型ｓｅｃＢＦＰ２との関連で、Ｒ１９８Ｖ変
異またはＲ１９８Ｌ変異を含むｓｅｃＢＦＰ２を含む。

【0218】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0219】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0220】

一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、完全長野生型ｓｅｃＢＦＰ
２との関連で、Ｔ１８Ｘ、Ｓ２８Ｘ、Ｙ９６Ｘ、Ｓ１１４Ｘ、Ｖ１２４Ｘ、Ｔ１２７Ｘ、
Ｄ１５１Ｘ、Ｎ１７３Ｘ、およびＲ１９８Ｘの変異（ここで、Ｘは、任意のアミノ酸であ
る）のうちの１つ以上、２つ以上、３つ以上、４つ以上、５つ以上、６つ以上、７つ以上
、８つ以上、または９つすべてを含むｓｅｃＢＦＰ２を含む。一実施形態では、ｓｅｃＢ
ＦＰ２バリアントタンパク質は、完全長野生型ｓｅｃＢＦＰ２との関連で、Ｔ１８Ｗ、Ｔ
１８Ｖ、Ｔ１８Ｅ、Ｓ２８Ａ、Ｙ９６Ｆ、Ｓ１１４Ｖ、Ｓ１１４Ｔ、Ｖ１２４Ｔ、Ｖ１２
４Ｙ、Ｖ１２４Ｗ、Ｔ１２７Ｐ、Ｔ１２７Ｌ、Ｔ１２７Ｒ、Ｔ１２７Ｄ、Ｄ１５１Ｇ、Ｎ
１７３Ｔ、Ｎ１７３Ｈ、Ｎ１７３Ｒ、Ｎ１７３Ｓ、Ｒ１９８Ｖ、およびＲ１９８Ｌのうち
の１つ以上、２つ以上、３つ以上、４つ以上、５つ以上、６つ以上、７つ以上、８つ以上
、または９つ以上を含むｓｅｃＢＦＰ２を含む。

【0221】

一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、完全長野生型ｓｅｃＢＦＰ
２との関連で、Ｔ１８Ｘ、Ｓ２８Ｘ、Ｓ１１４Ｘ、Ｖ１２４Ｘ、Ｔ１２７Ｘ、Ｄ１５１Ｘ
、Ｎ１７３Ｘ、およびＲ１９８Ｘ（ここで、Ｘは、任意のアミノ酸である）の変異を含む
ｓｅｃＢＦＰ２を含む。一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、完全
長野生型ｓｅｃＢＦＰ２との関連で、Ｔ１８Ｗ、Ｓ２８Ａ、Ｓ１１４Ｖ、Ｖ１２４Ｔ、Ｔ
１２７Ｐ、Ｄ１５１Ｇ、Ｎ１７３Ｔ、およびＲ１９８Ｌの変異を含むｓｅｃＢＦＰ２を含
む。

【0222】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0223】

一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、完全長野生型ｓｅｃＢＦＰ
２との関連で、Ｓ２８Ｘ、Ｓ１１４Ｘ、Ｔ１２７Ｘ、およびＮ１７３Ｘ（ここで、Ｘは、
任意のアミノ酸である）の変異を含むｓｅｃＢＦＰ２を含む。一実施形態では、ｓｅｃＢ
ＦＰ２バリアントタンパク質は、完全長野生型ｓｅｃＢＦＰ２との関連で、Ｓ２８Ａ、Ｓ
１１４Ｔ、Ｔ１２７Ｌ、およびＮ１７３Ｈの変異を含むｓｅｃＢＦＰ２を含む。

【0224】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0225】

一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、完全長野生型ｓｅｃＢＦＰ
２との関連で、Ｓ２８ＸおよびＳ１１４Ｘ（ここで、Ｘは、任意のアミノ酸である）の変
異を含むｓｅｃＢＦＰ２を含む。一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質
は、完全長野生型ｓｅｃＢＦＰ２との関連で、Ｓ２８ＡおよびＳ１１４Ｔの変異を含むｓ
ｅｃＢＦＰ２を含む。

【0226】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0227】

一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、完全長野生型ｓｅｃＢＦＰ２
との関連で、Ｓ２８Ｘ、Ｓ１１４Ｘ、およびＮ１７３Ｘ（ここで、Ｘは、任意のアミノ酸
である）の変異を含むｓｅｃＢＦＰ２を含む。一実施形態では、ｓｅｃＢＦＰ２バリアン
トタンパク質は、完全長野生型ｓｅｃＢＦＰ２との関連で、Ｓ２８Ａ、Ｓ１１４Ｔ、およ
びＮ１７３Ｈの変異を含むｓｅｃＢＦＰ２を含む。

【0228】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0229】

一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、完全長野生型ｓｅｃＢＦＰ
２との関連で、Ｓ２８Ｘ、Ｙ９６Ｘ、Ｓ１１４Ｘ、およびＮ１７３Ｘ（ここで、Ｘは、任
意のアミノ酸である）の変異を含むｓｅｃＢＦＰ２を含む。一実施形態では、ｓｅｃＢＦ
Ｐ２バリアントタンパク質は、完全長野生型ｓｅｃＢＦＰ２との関連で、Ｓ２８Ａ、Ｙ９
６Ｆ、Ｓ１１４Ｔ、およびＮ１７３Ｈの変異を含むｓｅｃＢＦＰ２を含む。

【0230】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0231】

一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、完全長野生型ｓｅｃＢＦＰ
２との関連で、Ｓ２８Ｘ、Ｙ９６Ｘ、Ｓ１１４Ｘ、Ｔ１２７Ｘ、およびＮ１７３Ｘ（ここ
で、Ｘは、任意のアミノ酸である）の変異を含むｓｅｃＢＦＰ２を含む。一実施形態では
、ｓｅｃＢＦＰ２バリアントタンパク質は、完全長野生型ｓｅｃＢＦＰ２との関連で、Ｓ
２８Ａ、Ｙ９６Ｆ、Ｓ１１４Ｔ、Ｔ１２７Ｌ、およびＮ１７３Ｈの変異を含むｓｅｃＢＦ
Ｐ２を含む。

【0232】

例えば、一実施形態では、ｓｅｃＢＦＰ２バリアントタンパク質は、

、またはそのバリアントもしくは断片を含む。

【0233】

一実施形態では、本明細書で考察されるシステムおよび方法の実装によって生成または
特定される組成物は、ｓｅｃＢＦＰ２バリアントタンパク質をコードするヌクレオチド配
列を含む単離核酸分子を含む。様々な実施形態では、核酸分子は、配列番号２～配列番号
２８に記載される少なくとも１つのアミノ酸配列をコードする配列、またはそのバリアン
トもしくは断片を含む。

【0234】

１つ以上の対象となるポリペプチドに作動可能に連結された蛍光タンパク質バリアント
を含む融合タンパク質も提供される。融合タンパク質のポリペプチドは、ペプチド結合を
介して連結され得るか、または蛍光タンパク質バリアントは、リンカー分子を介して対象
となるポリペプチドに連結され得る。一実施形態では、融合タンパク質は、１つ以上の対
象となるポリペプチドをコードする１つ以上のポリヌクレオチドに作動可能に連結された
蛍光タンパク質バリアントをコードするポリヌクレオチドを含有する、組換え核酸分子か
ら発現される。

【0235】

対象となるポリペプチドは、例えば、ポリヒスチジンペプチドなどのペプチドタグ、ま
たは酵素、Ｇタンパク質、成長因子受容体、もしくは転写因子などの細胞ポリペプチドを
含む、任意のポリペプチドであってもよく、かつ会合して複合体を形成することができる
２つ以上のタンパク質のうちの１つであってもよい。一実施形態では、融合タンパク質は
、タンデム蛍光タンパク質バリアント構築物であり、これは、ドナー蛍光タンパク質バリ
アント、アクセプター蛍光タンパク質バリアント、ならびに該ドナーおよび該アクセプタ
ーを結合するペプチドリンカー部分を含み、ドナーの環化アミノ酸は、該ドナーの特性で
ある光を発し、ドナーおよびアクセプターは、ドナーが励起されたときに蛍光共鳴エネル
ギー移動を示し、リンカー部分は、ドナーを励起するための光を実質的に発しない。した
がって、本明細書で考察されるシステムおよび方法の実装によって生成または特定される
融合タンパク質は、直接的または間接的に連結され得る、２つ以上の作動可能に連結され
た蛍光タンパク質バリアントを含み得、１つ以上の対象となるポリペプチドをさらに含み
得る。

【0236】

キット
いくつかの実装では、キットは、本明細書で考察されるシステムおよび方法の実装によ
って提供または特定される組成物の使用を促進および／または標準化するために、ならび
に本明細書で考察される方法を促進するために提供されてもよい。これらの様々な方法を
実施するための材料および試薬は、方法の実行を促進するためにキットで提供され得る。
本明細書で使用される場合、「キット」という用語は、プロセス、アッセイ、分析、また
は操作を促進する物品の組み合わせに関連して使用される。

【0237】

キットは、化学試薬（例えば、ポリペプチドまたはポリヌクレオチド）、ならびに他の
構成要素を含み得る。さらに、本明細書で考察されるキットはまた、例えば、サンプル採
取および／または精製のための装置および試薬、生成物採取および／または精製のための
装置および試薬、細菌細胞形質転換のための試薬、真核細胞トランスフェクションのため
の試薬、すでに形質転換またはトランスフェクトされた宿主細胞、サンプル管、ホルダ、
トレイ、ラック、皿、プレート、キットユーザへの指示、溶液、緩衝剤液または他の化学
試薬、標準化、正規化、および／または対照サンプルに使用される好適なサンプルを含む
ことができるが、これらに限定されない。キットはまた、例えば、便利な保管および安全
な出荷のために、蓋を有する箱の中に包装され得る。

【0238】

いくつかの実施形態では、例えば、本明細書で考察されるキットは、本明細書で考察さ
れるシステムおよび方法の実装によって生成または特定される蛍光タンパク質、本明細書
で考察されるシステムおよび方法の実施によって生成または特定される蛍光タンパク質を
コードするポリヌクレオチドベクター（例えば、プラスミド）、ベクターの増殖に適した
細菌細胞株、ならびに発現された融合タンパク質の精製のための試薬を提供することがで
きる。いくつかの実施形態では、本明細書で考察されるキットは、オリゴマー化の傾向が
低減されたタンパク質バリアントを生成するために、Ａｎｔｈｏｚｏａｎ蛍光タンパク質
の変異誘発を行うために必要な試薬を提供することができる。

【0239】

キットは、本明細書で考察されるシステムおよび方法の実装によって生成または特定さ
れる１つ以上の組成物、例えば、融合タンパク質の一部であり得る１つもしくは複数の蛍
光タンパク質バリアント、またはポリペプチドをコードする１つもしくは複数のポリヌク
レオチドを含み得る。蛍光タンパク質バリアントは、非オリゴマー化モノマーなどのオリ
ゴマー化の傾向が低減された変異蛍光タンパク質であり得るか、またはタンデム二量体蛍
光タンパク質であり得、キットは、複数の蛍光タンパク質バリアントを含み、その複数は
、複数の変異蛍光タンパク質バリアント、もしくは複数のタンデム二量体蛍光タンパク質
、またはそれらの組み合わせであり得る。

【0240】

本明細書で考察されるキットはまた、１つまたは複数の組換え核酸分子を含有し得、こ
れは部分的に、同じであっても異なっていてもよい蛍光タンパク質バリアントをコードし
、例えば、制限エンドヌクレアーゼ認識部位もしくはリコンビナーゼ認識部位、または任
意の対象となるポリペプチドを含有またはコードする、作動可能に連結された第２のポリ
ヌクレオチドをさらに含み得る。さらに、キットは、キットの構成要素、特に、キットに
含まれる本明細書で考察されるシステムおよび方法の実装によって生成または特定される
組成物を使用するための指示を含むことができる。

【0241】

当業者は、特定の用途に望ましい蛍光特性を有する１つ以上のタンパク質を便利に選択
することができるため、そのようなキットは、複数の異なる蛍光タンパク質バリアントを
提供する場合に特に有用であり得る。同様に、異なる蛍光タンパク質バリアントをコード
する複数のポリヌクレオチドを含むキットは、数多くの利点を提供する。例えば、ポリヌ
クレオチドは、便利な制限エンドヌクレアーゼまたはリコンビナーゼ認識部位を含有する
ように操作され、したがって、調節要素、もしくは対象となるポリペプチドをコードする
ポリヌクレオチドへのポリヌクレオチドの作動可能な連結、または所望の場合、蛍光タン
パク質バリアントをコードする２つ以上のポリヌクレオチドを互いに作動可能に連結する
ことを促進することができる。

【0242】

蛍光タンパク質バリアントの使用
本明細書で考察されるシステムおよび方法の実装によって生成または特定される蛍光タ
ンパク質バリアントは、蛍光タンパク質を用いる任意の方法で有用である。したがって、
単量体、二量体、およびタンデム二量体蛍光タンパク質を含む蛍光タンパク質バリアント
は、例えば、免疫測定法もしくはハイブリダイゼーションアッセイなどの検出アッセイで
使用するために、または細胞中のタンパク質の動きを追跡するために、蛍光タンパク質バ
リアントを抗体、ポリヌクレオチド、またはの他の受容体に結合することを含む、蛍光マ
ーカーがすでに使用されている多くの方法で、蛍光マーカーとして有用である。細胞内追
跡研究については、蛍光タンパク質バリアントをコードする第１（または他）のポリヌク
レオチドは、対象となるタンパク質をコードする第２（または他）のポリヌクレオチドに
融合され、所望により、構築物は、発現ベクターに挿入され得る。細胞内で発現すると、
対象となるタンパク質は、タンパク質の局在化が融合タンパク質の蛍光タンパク質構成成
分のオリゴマー化によって引き起こされるアーチファクトであるという心配なしに、蛍光
に基づいて局在化され得る。この方法の一実施形態では、２つの対象となるタンパク質は
独立して、異なる蛍光特性を有する２つの蛍光タンパク質バリアントと融合される。

【0243】

本明細書で考察されるシステムおよび方法の実装によって生成または特定される蛍光タ
ンパク質バリアントは、転写の誘導を検出するための系で有用である。例えば、非オリゴ
マー化単量体、二量体、またはタンデム二量体蛍光タンパク質をコードするヌクレオチド
配列は、現ベクターに含有され得る、対象となるプロモーターまたは他の発現制御配列に
融合され得、構築物は、細胞内にトランスフェクトされ得、プロモーター（または他の調
節要素）の誘導は、蛍光の存在または量を検出することによって測定され、それによって
手段が、受容体からプロモーターへのシグナル伝達経路の応答性を観察することを可能に
することができる。

【0244】

本明細書で考察されるシステムおよび方法の実装によって生成または特定される蛍光タ
ンパク質バリアントはまた、ＦＲＥＴを伴う用途で有用であり、ＦＲＥＴは、蛍光ドナー
およびアクセプターの互いに向かう、または互いから離れる動きの関数として事象を検出
することができる。ドナー／アクセプターの対の一方または両方は、蛍光タンパク質バリ
アントであり得る。そのようなドナー／アクセプターの対は、ドナーの励起ピークと発光
ピークとの間の広範な分離を提供し、ドナー発光スペクトルとアクセプター励起スペクト
ルとの間の良好な重複を提供する。

【0245】

ＦＲＥＴを使用して、ドナーおよびアクセプターが切断部位の両側の基質に結合された
基質の切断を検出することができる。基質の切断時に、ドナー／アクセプターの対は、物
理的に分離し、ＦＲＥＴを排除する。そのようなアッセイは、例えば、基質をサンプルと
接触させることと、ＦＲＥＴの定性的または定量的変化を決定することとによって実施さ
れ得る（例えば、参照により本明細書に組み込まれる米国特許第５，７４１，６５７号を
参照されたい）。蛍光タンパク質バリアントドナー／アクセプターの対は、タンパク質分
解切断部位を有するペプチドによって結合される融合タンパク質の一部であり得る（例え
ば、参照により本明細書に組み込まれる米国特許第５，９８１，２００号を参照されたい
）。ＦＲＥＴは、膜にわたる電位の変化を検出するためにも使用され得る。例えば、ドナ
ーおよびアクセプターは、電圧変化に応答して膜を横切って移動するように膜の両側に配
置され、それによって測定可能なＦＲＥＴを生じさせることができる（例えば、参照によ
り本明細書に組み込まれる米国特許第５，６６１，０３５号を参照されたい）。

【0246】

他の実施形態では、本明細書で考察されるシステムおよび方法の実装によって生成また
は特定される蛍光タンパク質は、タンパク質キナーゼおよびホスファターゼ活性の蛍光セ
ンサ、またはＣａ^２＋、Ｚｎ^２＋、環状３′，５′－アデノシン一リン酸、および環状３
′，５′－グアノシン一リン酸などの小イオンおよび分子のインジケータを作製するため
に有用である。

【0247】

サンプル中の蛍光は、一般に、蛍光光度計を使用して測定され、第１の波長を有する励
起源からの励起放射が、励起光学系を通過し、それによって、励起放射がサンプルを励起
させる。応答して、サンプル中の蛍光タンパク質バリアントは、励起波長とは異なる波長
を有する放射線を発する。次いで、収集光学系が、サンプルからの発光を収集する。デバ
イスは、スキャンされている間にサンプルを特定の温度に維持するための温度コントロー
ラを含み得、かつ曝露される異なるウェルを位置付けるために複数のサンプルを保持する
マイクロタイタープレートを移動させる、多軸移動ステージを有し得る。撮像およびデー
タ収集に関連する多軸移動ステージ、温度コントローラ、自動フォーカス機能、および電
子機器は、適切にプログラムされたデジタルコンピュータによって管理され得、デジタル
コンピュータはまた、アッセイ中に収集されたデータを、プレゼンテーションのために別
の形式に変換し得る。このプロセスは、小型化および自動化されて、ハイスループット形
式で多数の何千もの化合物をスクリーニングすることを可能にし得る。蛍光材料上のアッ
セイを実施するいくつかの方法としては、Ｌａｋｏｗｉｃｚ，“Ｐｒｉｎｃｉｐｌｅｓ
ｏｆＦｌｕｏｒｅｓｃｅｎｃｅＳｐｅｃｔｒｏｓｃｏｐｙ”（ＰｌｅｎｕｍＰｒｅ
ｓｓ１９８３）、Ｈｅｒｍａｎ，“Ｒｅｓｏｎａｎｃｅｅｎｅｒｇｙｔｒａｎｓｆ
ｅｒｍｉｃｒｏｓｃｏｐｙ”Ｉｎ“ＦｌｕｏｒｅｓｃｅｎｃｅＭｉｃｒｏｓｃｏｐｙ
ｏｆＬｉｖｉｎｇＣｅｌｌｓｉｎＣｕｌｔｕｒｅ”ＰａｒｔＢ，Ｍｅｔｈ．
ＣｅｌｌＢｉｏｌ．３０：２１９－２４３（ｅｄ．ＴａｙｌｏｒａｎｄＷａｎｇ；
ＡｃａｄｅｍｉｃＰｒｅｓｓ１９８９）、Ｔｕｒｒｏ，“ＭｏｄｅｒｎＭｏｌｅｃ
ｕｌａｒＰｈｏｔｏｃｈｅｍｉｓｔｒｙ”（Ｂｅｎｊａｍｉｎ／ＣｕｍｍｉｎｇｓＰ
ｕｂｌ．Ｃｏ．，Ｉｎｃ．１９７８），ｐｐ．２９６－３６１が挙げられ、これらの各々
は、参照により本明細書に組み込まれる。

【0248】

したがって、本開示はまた、サンプル中の分子の存在を特定するための方法の実装を提
供する。そのような方法は、例えば、本明細書で考察されるシステムおよび方法の実装に
よって生成または特定される蛍光タンパク質バリアントを分子にリンクさせることと、分
子を含有する疑いのあるサンプル中の蛍光タンパク質バリアントによる蛍光を検出するこ
ととによって実施され得る。検出される分子は、ポリペプチド、ポリヌクレオチド、また
は例えば、抗体、酵素、もしくは受容体を含む任意の他の分子であり得、蛍光タンパク質
バリアントは、タンデム二量体蛍光タンパク質であり得る。

【0249】

検査されるサンプルは、生物学的サンプル、環境サンプル、または特定の分子が内部に
存在するかどうかを決定することが望まれる任意の他のサンプルを含む、任意のサンプル
であり得る。好ましくは、サンプルは、細胞またはその抽出物を含む。細胞は、ヒトなど
の哺乳動物を含む脊椎動物から、または無脊椎動物から得られ得、植物または動物からの
細胞であり得る。細胞は、そのような細胞、例えば、細胞株の培養から得られ得るか、ま
たは生物から単離され得る。したがって、細胞は、組織サンプル中に含有され得、これは
、組織サンプルを得るために一般的に使用される任意の手段によって、例えば、ヒトの生
検によって、生物から得られ得る。方法が、無傷の生細胞または新たに単離された組織も
しくは臓器サンプルを使用して実施される場合、生細胞中の対象となる分子の存在が特定
され、したがって例えば、分子の細胞内区画化を決定するための手段を提供することがで
きる。そのような目的のための、本明細書で考察されるシステムおよび方法の実装によっ
て生成または特定される蛍光タンパク質バリアントの使用は、蛍光タンパク質のオリゴマ
ー化による異常な同定または局在化の可能性が大幅に最小化されるという点で、実質的な
利点を提供する。

【0250】

蛍光タンパク質バリアントは、タンパク質－分子複合体が曝露される条件下で安定であ
る任意の連結を使用して、直接的または間接的に分子に連結され得る。したがって、蛍光
タンパク質および分子は、タンパク質および分子上に存在する反応基間の化学反応を介し
て連結され得るか、または連結は、蛍光タンパク質および分子に特異的な反応基を含有す
るリンカー部分によって媒介され得る。蛍光タンパク質バリアントおよび分子を連結する
ための適切な条件は、例えば、分子の化学的性質および所望の連結のタイプに応じて選択
されることが認識されるであろう。対象となる分子がポリペプチドである場合、蛍光タン
パク質バリアントおよび分子を連結するための便利な手段は、それらを、例えば、ポリペ
プチド分子をコードするポリヌクレオチドに作動可能に連結されたタンデム二量体蛍光タ
ンパク質をコードするポリヌクレオチドを含む、組換え核酸分子からの融合タンパク質と
して発現することによる。

【0251】

発現制御配列の活性を調節する薬剤または条件を特定する方法も提供される。そのよう
な方法は、例えば、発現制御配列に作動可能に連結された蛍光タンパク質バリアントをコ
ードするポリヌクレオチドを含む組換え核酸分子を、発現制御配列からのポリヌクレオチ
ドの発現を調節することが可能である疑いのある薬剤または条件に曝露することと、その
ような曝露による蛍光タンパク質バリアントの蛍光を検出することとによって実施され得
る。そのような方法は、例えば、調節要素からの組織特異的発現に関与する細胞因子を含
む、発現制御配列からの発現を調節することができる細胞タンパク質を含む、化学的また
は生物学的薬剤を特定するのに有用である。したがって、発現制御配列は、プロモーター
、エンハンサー、サイレンサー、イントロンスプライシング認識部位、ポリアデニル化部
位などの転写調節要素、またはリボソーム結合部位などの翻訳調節要素であり得る。

【0252】

本明細書で考察されるシステムおよび方法の実装によって生成または特定される蛍光タ
ンパク質バリアントはまた、第１の分子および第２の分子の特異的相互作用を特定する方
法でも有用である。そのような方法は、例えば、第１の分子および第２の分子の特異的相
互作用を可能にする条件下で、ドナーの第１の蛍光タンパク質バリアントに連結された第
１の分子を、アクセプターの第２の蛍光タンパク質バリアントに連結された第２の分子と
接触させること、ドナーを励起することと、ドナーからアクセプターへの蛍光または発光
共鳴エネルギー移動を検出し、それによって、第１の分子および第２の分子の特異的相互
作用を特定することとによって実施され得る。そのような相互作用の条件は、分子が特異
的に相互作用することができることが予測されるか、または疑われる任意の条件であり得
る。特に、検査される分子が細胞分子である場合、条件は一般に、生理学的条件である。
したがって、方法は、生理学的条件を模倣する緩衝液、ｐＨ、イオン強度などの条件を使
用してインビトロで実施され得るか、または方法は、細胞中で、もしくは細胞抽出物を使
用して実施され得る。

【0253】

発光共鳴エネルギー移動は、化学発光、生物発光、ランタニド、または遷移金属ドナー
から赤色蛍光タンパク質部分へのエネルギー移動を伴う。赤色蛍光タンパク質のより長い
励起波長は、緑色蛍光タンパク質バリアントで可能なものよりも多様なドナーから、かつ
より大きい距離にわたって、エネルギー移動を可能にする。また、より長い発光波長は、
固体光検出器によってより効率的に検出され、赤色光がより短い波長よりもはるかに良好
に組織を透過するインビボ用途にとって特に有益である。化学発光ドナーとしては、ルミ
ノール誘導体およびペルオキシオキサレート系が含まれる。生物発光ドナーとしては、エ
クオリン、オベリン、ホタルルシフェラーゼ、ウミシイタケシフェラーゼ、細菌ルシフェ
ラーゼ、およびそれらのバリアントが挙げられるが、これらに限定されない。ランタニド
ドナーとしては、金属イオンを溶媒水から保護するために、複数のリガンド基に連結され
た紫外線吸収増感剤発色団を含有するテルビウムキレートが挙げられるが、これに限定さ
れない。遷移金属ドナーとしては、オリゴピリジンリガンドのルテニウムおよびオスミウ
ムキレートが挙げられるが、これらに限定されない。化学発光および生物発光ドナーは、
励起光を必要としないが、基質の付加によって励起される一方で、金属ベースの系は、励
起光を必要とするが、より長い励起状態寿命を提供し、望ましくないバックグラウンド蛍
光および散乱を区別するための時間ゲート検出を促進する。

【0254】

第１および第２の分子は、タンパク質が特異的に相互作用するかどうかを判断するため
に、またはそのような相互作用を確認するために調査されている細胞タンパク質であり得
る。そのような第１および第２の細胞タンパク質は、例えば、オリゴマー化する能力につ
いて検査されている場合と同じであり得るか、またはそれらは、タンパク質が、例えば、
細胞内経路に関与する特異的結合パートナーとして検査されている場合と異なり得る。第
１および第２の分子はまた、ポリヌクレオチドおよびポリペプチド、例えば、既知の、ま
たは転写調節要素活性について検査されているポリヌクレオチド、および既知の、または
転写因子活性について試験されているポリペプチドであり得る。例えば、第１の分子は、
転写調節要素活性について試験される、ランダムであり得るか、または既知の配列のバリ
アントであり得る複数のヌクレオチド配列を含み得、第２の分子は、転写因子であり得、
そのような方法は、望ましい活性を有する新規の転写調節要素を特定するのに有用である
。

【0255】

本開示はまた、サンプルが酵素を含有するかどうかを判断するための方法の実装も提供
する。そのような方法は、例えば、サンプルを、本明細書で考察されるシステムおよび方
法の実装によって生成または特定されるタンデム蛍光タンパク質バリアントと接触させる
ことと、ドナーを励起することと、サンプル中の蛍光特性を決定することであって、サン
プル中の酵素の存在が、蛍光共鳴エネルギー移動の程度の変化をもたらす、決定すること
とによって実施され得る。同様に、本開示は、細胞中の酵素の活性を決定するための方法
の実装を提供する。そのような方法は、例えば、タンデム蛍光タンパク質バリアント構築
物を発現する細胞を提供するであって、ペプチドリンカー部分が、ドナーおよびアクセプ
ターを結合する酵素に特異的な切断認識アミノ酸配列を含む、提供することと、該ドナー
を励起することと、細胞中の蛍光共鳴エネルギー移動の程度を決定するであって、細胞中
の酵素活性の存在が、蛍光共鳴エネルギー移動の程度の変化をもたらす、決定することと
によって実施され得る。

【実施例0256】

本明細書で考察されるシステムおよび方法の実装は、以下の実験例を参照することによ
ってさらに詳述される。これらの実施例は、例示のみを目的として提供され、別段の指定
がない限り、限定することを意図するものではない。したがって、本明細書で考察される
システムおよび方法は、決して以下の実施例に限定されるものとして解釈されるべきでは
ないが、むしろ本明細書に提供される教示の結果として明らかになる、ありとあらゆる変
形形態を包含するものとして解釈されるべきである。

【0257】

さらなる説明なく、当業者は、前述の説明および以下の例示的な実施例を使用して、本
明細書で考察されるシステムおよび方法の実装を作製および利用することができると考え
られる。したがって、以下の実施例は、本明細書で考察されるシステムおよび方法の例示
的な実施形態を具体的に指摘するものであり、決して本開示の残りの部分を制限するもの
として解釈されるべきではない。

【0258】

実施例１：ニューラルネットワークを使用したタンパク質工学
経験的にニューラルネットワークを検証するために、３つの異なるモデルタンパク質を
選択し、各々は、別個のタンパク質工学の課題を表す。第１の検証モデルタンパク質は、
ｔｅｍ－１ベータラクタマーゼであり、その理由は主に、１）抗生物質に対する感受性が
、そのタンパク質の全体的な安定性に直接関係しているため、および２）そのタンパク質
が、安定化変異および不安定化変異の両方を明らかにすることが良好に特徴付けられてい
るためである。次に、非標準アミノ酸であるＬ－ＤＯＰＡを組み込むために、金属タンパ
ク質ホスホマンノースイソメラーゼをレポーターに再利用して、安定性を改善した。しか
しながら、酵素の不十分な安定性は、レポーターとして作用するためのその使用を妨げる
。最後のタンパク質の事例は、青色蛍光タンパク質バリアント、ｓｅｃＢＦＰ２の改善で
ある。青色蛍光タンパク質は、よく特徴付けられているが、急速な光退色、ゆっくりとし
た成熟およびフォールディング、ならびに比較的薄暗い蛍光は、より広範な使用を妨げる
。

【0259】

最初に、野生型アミノ酸が、その位置で最良の残基として実験的に検証されている残基
に分析を分けることによって、ニューラルネットワークの真陰性率を評価した。これを、
各個々のアミノ酸変化の効果を生物の適応度で定量化した、ｔｅｍ－１ β－ラクタマー
ゼのすでに公開された変異スキャンを使用して試験した。ｔｅｍ－１で試験した２６３の
位置のうち、１３６部位が、ゼロ未満の相対的な適応度値を有した（すなわち、生物の適
応度に対する損失なしに、野生型残基から離れた変異に耐えることができなかった部位）
。１３６部位のこの収集は、ｔｅｍ－１ベータラクタマーゼにおける真陰性の完全な収集
を構成し、ニューラルネットワークに対して行われた個別の各変化について、真陰性感度
をベンチマークした。最終バージョンは、１３６個の真陰性のうち９２．６％を正確に特
定し、初期のモデルと比べて３０％近くの増加であった。したがって、開発されたモデル
は、変異に適していないタンパク質内の部位を特定する能力が増大している。

【0260】

実験の結果が、図３Ａおよび図３Ｂに示される。図３Ａは、ＢＦＰ蛍光を改善すること
がニューラルネットワークによって予測された部位、およびその程度の棒グラフを示す。
右端の棒３０１は、各々がニューラルネットワークによって個々に示唆される、野生型タ
ンパク質へのアミノ酸置換の特定の組み合わせを実施することによって観察される蛍光の
改善を示す。改善の視覚的表現が、図３Ｂに示される。修飾青色蛍光タンパク質３０２は
、野生型青色蛍光タンパク質３０３よりもはるかに明るく輝く。

【0261】

追加の結果が、図４Ａおよび図４Ｂに示される。図４Ｂの棒グラフは、ホスホマンノー
スイソメラーゼ（ＰＭＩ）に対するニューラルネットワーク提案の改善を示す。個々の安
定化変異は各々、野生型と比べて１５％～５０％の増加をもたらすが、組み合わせて使用
される場合（棒４０１）、改善は相加的であり、６００％近い安定性の有意な改善をもた
らす。

【0262】

図４Ｂのベン図４１１（青色蛍光タンパク質、ｐｄｂ：３ｍ２４）および４１２（ホス
ホマンノースイソメラーゼ、ｐｄｂ：１ｐｍｉ）は、ニューラルネットワークが、他のコ
ンピュータ計算タンパク質安定化技術（ＦｏｌｄｘＰｏｓｉｔｉｏｎＳｃａｎａｎｄ
Ｒｏｓｅｔｔａｐｍｕｔスキャン）によって特定されない固有の残基候補を予測する
ことを示す。

【0263】

図５は、ニューラルネットワークによって特定されたＴＥＭ－１ β－ラクタマーゼバ
リアントが、祖先タンパク質よりも高いアンピシリン濃度でのＥ．ｃｏｌｉの成長を可能
にしたことを示す。単独で変異誘発されたβ－ラクタマーゼ変異体Ｎ５２Ｋ、Ｆ６０Ｙ、
Ｍ１８２Ｔ、Ｅ１９７Ｄ、またはＡ２４９Ｖを発現するＥ．ｃｏｌｉは各々、１２５ｕｇ
／ｍＬ以上のアンピシリン濃度で成長することができ、その濃度では、「ＷＴ」とラベル
付けされた祖先酵素を発現するＥ．ｃｏｌｉは、成長することができなかった。これらの
変異の５つすべてを含有する単一酵素バリアントを発現するＥ．ｃｏｌｉ（Ｎ５２Ｋ、Ｆ
６０Ｙ、Ｍ１８２Ｔ、Ｅ１９７Ｄ、およびＡ２４９Ｖ、「Ａｌｌ」とラベル付けされる）
は、３０００ｕｇ／ｍＬのアンピシリン濃度で成長することができた。言い換えれば、ニ
ューラルネットワークは、触媒に関連する表現型、本実施形態では、Ｅ．ｃｏｌｉが抗生
物質であるアンピシリンに対してより高い耐性を示すことを可能にする表現型を改善した
。

【0264】

図６は、ニューラルネットワークが、青色蛍光タンパク質の熱安定性を改善したことを
示す。一例では、１０分間の熱負荷後、残留蛍光は、誘導タンパク質であるＢｌｕｅｂｏ
ｎｎｅｔよりも、祖先タンパク質であるＳｅｃＢＦＰ２．１について少なかった。精製さ
れた青色蛍光タンパク質をＰＢＳｐＨ７．４で０．０１ｍｇ／ｍＬに希釈し、１００ｕ
Ｌのアリコートを、サーマルサイクラーを使用して、熱勾配において、ＰＣＲストリップ
で１０分間熱処理した。熱的に負荷されたバリアントの蛍光および室温でインキュベート
された対照を、それぞれ４０２ｎｍおよび４５７ｎｍの励起波長および発光波長を使用し
てアッセイした。蛍光読み取り値を、室温でインキュベートされた溶液の平均に正規化し
た（例えば、０．８の測定値は、熱処理されたタンパク質が、その未処理の蛍光の８０％
を保持していたことを示す）。図６に示されるように、Ｂｌｕｅｂｏｎｎｅｔは、約８４
℃～約１００℃の全温度範囲にわたって、ＳｅｃＢＦＰ２．１と比較してより高い熱安定
性を示し、例えば、１００℃での１０分間の熱負荷後、蛍光が祖先タンパク質によって保
持されない場合、その未処理の蛍光の２０％超を保持した。

【0265】

図７は、ニューラルネットワークが、青色蛍光タンパク質の化学的安定性を改善したこ
とを示す。別の例では、グアニジン溶融物における蛍光半減期は、誘導タンパク質である
Ｂｌｕｅｂｏｎｎｅｔよりも、祖先タンパク質であるＳｅｃＢＦＰ２．１について少なか
った。精製された青色蛍光タンパク質を、６Ｍのグアニジン塩酸塩中で０．０１ｍｇ／ｍ
Ｌに希釈した。１００ｕＬのアリコートを三連で、９６ウェル透明底黒壁プレートのウェ
ルに添加し、２５℃で２３時間インキュベートした。これらの精製された蛍光タンパク質
を、それぞれ４０２ｎｍおよび４５７ｎｍの励起波長および発光波長を使用して、３０分
間隔でアッセイした。各測定の前にプレートを撹拌した。時間ゼロで測定された蛍光値を
使用して、アッセイの残りの部分を通して蛍光を正規化した（例えば、０．８の測定値は
、タンパク質がその初期蛍光の８０％を保持したことを示す）。図７に示されるように、
Ｂｌｕｅｂｏｎｎｅｔは、時間＝０よりも大きく、最大で時間＝約２４時間のすべての時
点にわたって、ＳｅｃＢＦＰ２．１よりも高い化学的安定性を示した。

【0266】

実施例２：より明るい青色の蛍光タンパク質であるＢｌｕｅｂｏｎｎｅｔ
タンパク質が細胞全体を通してどのように、かつどこに移動するかを見るとき、科学者
は、特殊な遺伝学的ツールを必要とする。これらのツールのうちの１つは、紫外線光、す
なわち、蛍光タンパク質下で蛍光を発するタンパク質のファミリーである。青色蛍光タン
パク質（ＢＦＰ、ｐｄｂ：３ｍ２４）は、はるかに一般的に使用される赤色蛍光タンパク
質の誘導体であるが、不十分なインビボでの活性に悩まされる。三次元畳み込みニューラ
ルネットワークパイプラインを使用して、Ｅ．ｃｏｌｉ細胞内で発現された場合に蛍光の
増加をもたらすＢＦＰのバリアントを予測した。図８は、１７個のニューラルネットワー
ク予測を、蛍光を増加させる能力について試験したことを示すデータを提供する（野生型
に正規化されて示される）。図９は、有益な変異が組み合わされた場合、野生型よりも８
倍超の蛍光の増加が観察されたことを示すデータを提供する。図１０は、Ｓ２８Ａ、Ｓ１
１４Ｔ、Ｔ１２７Ｌ、およびＮ１７３Ｈ変異の組み合わせを含むＢｌｕｅｂｏｎｎｅｔ青
色蛍光タンパク質の蛍光の増加が、親株ならびに他の青色蛍光タンパク質と比較して目に
見えることを示す。

【0267】

コンピュータのシステム図
図１１Ａおよび図１１Ｂは、本明細書で考察されるシステムおよび方法の実装に関連し
て有用なコンピュータの実施形態を示すブロック図である。図１１Ａおよび１１Ｂは、典
型的なコンピュータ１１００のブロック図を示す。図１１Ａおよび１１Ｂに示されるよう
に、コンピュータ１１００は、中央処理装置１１０２および主記憶装置１１０４を含む。
コンピュータ１１００はまた、他の任意の要素、例えば、１つ以上の入力／出力デバイス
１３０ａ～１３０ｎ（一般に、参照番号１１３０を使用して称される）、コプロセッサ１
１０６、ならびに中央処理装置１１０２およびコプロセッサ１１０６と通信しているキャ
ッシュメモリ１１４０を含んでもよい。

【0268】

中央処理装置１１０２は、主記憶装置１１０４に応答し、かつそれからフェッチされた
命令を処理する、任意の論理回路である。多くの実施形態では、中央処理装置は、Ｉｎｔ
ｅｌＣｏｒｐｏｒａｔｉｏｎ（ＭｏｕｎｔａｉｎＶｉｅｗ，Ｃａｌｉｆｏｒｎｉａ）
によって製造されたもの、ＭｏｔｏｒｏｌａＣｏｒｐｏｒａｔｉｏｎ（Ｓｃｈａｕｍｂ
ｕｒｇ，Ｉｌｌｉｎｏｉｓ）によって製造されたもの、ＩｎｔｅｒｎａｔｉｏｎａｌＢ
ｕｓｉｎｅｓｓＭａｃｈｉｎｅｓ（ＷｈｉｔｅＰｌａｉｎｓ，ＮｅｗＹｏｒｋ）に
よって製造されたもの、またはＡｄｖａｎｃｅｄＭｉｃｒｏＤｅｖｉｃｅｓ（Ｓｕｎ
ｎｙｖａｌｅ，Ｃａｌｉｆｏｒｎｉａ）によって製造されたものなどのマイクロプロセッ
サ装置によって提供される。

【0269】

同様に、コプロセッサ１１０６は、主記憶装置１１０４に応答し、かつそれからフェッ
チされた命令を処理する、任意の論理回路である。いくつかの実施形態では、コプロセッ
サ１１０６は、Ｇｏｏｇｌｅ（ＭｏｕｎｔａｉｎＶｉｅｗ，Ｃａｌｉｆｏｒｎｉａ）に
よって製造されたものなど、人工知能特定用途向け集積回路であるテンソルプロセッシン
グユニット（ＴＰＵ）を含んでもよい。

【0270】

主記憶装置１１０４は、データを記憶し、任意の記憶場所がメインプロセッサ１１０２
またはコプロセッサ１１０６のマイクロプロセッサによって直接アクセスされることを可
能にすることが可能な、１つ以上のメモリチップ、例えば、スタティックランダムアクセ
スメモリ（ＳＲＡＭ）、ＢｕｒｓｔＳＲＡＭもしくはＳｙｎｃｈＢｕｒｓｔＳＲＡＭ
（ＢＳＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、高速ページモード
ＤＲＡＭ（ＦＰＭＤＲＡＭ）、強化ＤＲＡＭ（ＥＤＲＡＭ）、拡張データ出力ＲＡＭ（
ＥＤＯＲＡＭ）、拡張データ出力ＤＲＡＭ（ＥＤＯＤＲＡＭ）、バースト拡張データ
出力ＤＲＡＭ（ＢＥＤＯＤＲＡＭ）、強化ＤＲＡＭ（ＥＤＲＡＭ）、同期ＤＲＡＭ（Ｓ
ＤＲＡＭ）、ＪＥＤＥＣＳＲＡＭ、ＰＣ１００ＳＤＲＡＭ、ダブルデータレートＳＤ
ＲＡＭ（ＤＤＲＳＤＲＡＭ）、強化ＳＤＲＡＭ（ＥＳＤＲＡＭ）、ＳｙｎｃＬｉｎｋ
ＤＲＡＭ（ＳＬＤＲＡＭ）、ダイレクトラムバスＤＲＡＭ（ＤＲＤＲＡＭ）、または強誘
電体ＲＡＭ（ＦＲＡＭ）であり得る。

【0271】

図１１Ａに示される実施形態では、プロセッサ１１０２は、システムバス１１２０（以
下でさらに詳述される）を介して主記憶装置１１０４と通信する。同様に、コプロセッサ
１１０６は、システムバス１１２０を介して主記憶装置１１０４と通信する。図１１Ｂは
、プロセッサ１１０２がメモリポートを介して主記憶装置１１０４と直接通信する、コン
ピュータシステム１１００の一実施形態を示す。例えば、図１１Ｂ中、主記憶装置１１０
４は、ＤＲＤＲＡＭであってもよい。いくつかの実施形態では、ニューラルネットワーク
エンジンは、主記憶装置が、訓練された重みの値を記憶することに関与し得るため、主記
憶装置内に存在してもよい。

【0272】

図１１Ａおよび図１１Ｂは、メインプロセッサ１１０２が、時に「バックサイド」バス
と称される二次バスを介して、キャッシュメモリ１１４０と直接通信する実施形態を示す
。いくつかの実施形態では、コプロセッサ１１０６は、二次バスを介してキャッシュメモ
リ１１４０と直接通信してもよい。他の実施形態では、メインプロセッサ１１０２は、シ
ステムバス１１２０を使用してキャッシュメモリ１１４０と通信する。他の実施形態では
、コプロセッサ１１０６は、システムバス１１２０を使用してキャッシュメモリ１１４０
と通信してもよい。キャッシュメモリ１１４０は、典型的には、主記憶装置１１０４より
も速い応答時間を有し、典型的には、ＳＲＡＭ、ＢＳＲＡＭ、またはＥＤＲＡＭによって
提供される。いくつかの実施形態では、コプロセッサは、ニューラルネットワークに関連
する計算を行うための、テンソルプロセッシングユニット（ＴＰＵ）または他のコプロセ
ッサ、例えば、特定用途向け集積回路（ＡＳＩＣ）を含んでもよい（一次プロセッサ１１
０２上でそのような計算を行うよりも高速または効率的であり得る）。

【0273】

図１１Ａに示される実施形態では、プロセッサ１１０２およびコプロセッサ１１０６は
、ローカルシステムバス１１２０を介して様々なＩ／Ｏデバイス１１３０と通信する。Ｖ
ＥＳＡＶＬバス、ＩＳＡバス、ＥＩＳＡバス、マイクロチャネルアーキテクチャ（ＭＣ
Ａ）バス、ＰＣＩバス、ＰＣＩ－Ｘバス、ＰＣＩ－Ｅｘｐｒｅｓｓバス、またはＮｕＢｕ
ｓを含む様々なバスを使用して、中央処理装置１１０２およびコプロセッサ１１０６をＩ
／Ｏデバイス１１３０に接続し得る。Ｉ／Ｏデバイスがビデオディスプレイである実施形
態については、プロセッサ１１０２および／またはコプロセッサ１１０６は、Ａｄｖａｎ
ｃｅｄＧｒａｐｈｉｃｓＰｏｒｔ（ＡＧＰ）を使用して、ディスプレイと通信しても
よい。図１１Ｂは、メインプロセッサ１１０２がＨｙｐｅｒＴｒａｎｓｐｏｒｔ、Ｒａｐ
ｉｄＩ／Ｏ、またはＩｎｆｉｎｉＢａｎｄを介してＩ／Ｏデバイス１１３０ｂと直接通
信する、コンピュータシステム１１００の一実施形態を示す。図１１Ｂはまた、ローカル
バスおよび直接通信が混合された実施形態を示し、プロセッサ１１０２は、Ｉ／Ｏデバイ
ス１１３０ｂと直接通信しながら、ローカル相互接続バスを使用してＩ／Ｏデバイス１１
３０ａと通信する。

【0274】

多種多様なＩ／Ｏデバイス１１３０が、コンピュータシステム１１００に存在し得る。
入力デバイスとしては、キーボード、マウス、トラックパッド、トラックボール、マイク
、およびドローイングタブレットが挙げられる。出力デバイスとしては、ビデオディスプ
レイ、スピーカ、インクジェットプリンタ、レーザープリンタ、および昇華型プリンタが
挙げられる。Ｉ／Ｏデバイスはまた、コンピュータシステム１１００用の大容量記憶装置
、例えば、ハードディスクドライブ、３．５インチ、５．２５インチディスクまたはＺＩ
Ｐディスクなどのフロッピーディスクを受けるためのフロッピーディスクドライブ、ＣＤ
－ＲＯＭドライブ、ＣＤ－Ｒ／ＲＷドライブ、ＤＶＤ－ＲＯＭドライブ、様々な形式のテ
ープドライブ、ならびにＴｗｉｎｔｅｃｈＩｎｄｕｓｔｒｙ，Ｉｎｃ．（ＬｏｓＡｌ
ａｍｉｔｏｓ，Ｃａｌｉｆｏｒｎｉａ）によって製造されたＵＳＢＦｌａｓｈＤｒｉ
ｖｅのデバイスライン、およびＡｐｐｌｅＣｏｍｐｕｔｅｒ，Ｉｎｃ．（Ｃｕｐｅｒｔ
ｉｎｏ，Ｃａｌｉｆｏｒｎｉａ）によって製造されたｉＰｏｄＳｈｕｆｆｌｅのデバイ
スラインなどのＵＳＢ記憶デバイスを提供し得る。

【0275】

さらなる実施形態では、Ｉ／Ｏデバイス１１３０は、システムバス１１２０と、外部通
信バス、例えば、ＵＳＢバス、ＡｐｐｌｅＤｅｓｋｔｏｐバス、ＲＳ－２３２シリアル
接続、ＳＣＳＩバス、ＦｉｒｅＷｉｒｅバス、ＦｉｒｅＷｉｒｅ８００バス、Ｅｔｈｅ
ｒｎｅｔバス、ＡｐｐｌｅＴａｌｋバス、ＧｉｇａｂｉｔＥｔｈｅｒｎｅｔバス、非同
期転送モードバス、ＨＩＰＰＩバス、ＳｕｐｅｒＨＩＰＰＩバス、ＳｅｒｉａｌＰｌｕ
ｓバス、ＳＣＩ／ＬＡＭＰバス、ＦｉｂｒｅＣｈａｎｎｅｌバス、またはＳｅｒｉａｌ
Ａｔｔａｃｈｅｄ小型コンピュータシステムインターフェースバスとの間のブリッジであ
ってもよい。

【0276】

図１１Ａおよび１１Ｂに示される種類の汎用デスクトップコンピュータは、典型的には
、タスクのスケジューリングおよびシステムリソースへのアクセスを制御するオペレーテ
ィングシステムの制御下で動作する。一般的なオペレーティングシステムとしては、とり
わけ、ＭｉｃｒｏｓｏｆｔＣｏｒｐ．（Ｒｅｄｍｏｎｄ，Ｗａｓｈｉｎｇｔｏｎ）によ
って製造されたＭＩＣＲＯＳＯＦＴＷＩＮＤＯＷＳ、ＡｐｐｌｅＣｏｍｐｕｔｅｒ（
Ｃｕｐｅｒｔｉｎｏ，Ｃａｌｉｆｏｒｎｉａ）によって製造されたＭａｃＯＳ、Ｉｎｔｅ
ｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓ（Ａｒｍｏｎｋ，ＮｅｗＹ
ｏｒｋ）によって製造されたＯＳ／２、およびＣａｌｄｅｒａＣｏｒｐ．（Ｓａｌｔ
ＬａｋｅＣｉｔｙ，Ｕｔａｈ）によって流通されている自由に利用できるオペレーティ
ングシステムであるＬｉｎｕｘが挙げられる。

【0277】

本明細書に引用されるありとあらゆる特許、特許出願、および刊行物の開示は、参照に
よりそれらの全体が本明細書に組み込まれる。本発明は、特定の実施形態を参照して開示
されているが、本発明の他の実施形態および変更が、本発明の真の趣旨および範囲から逸
脱することなく、当業者によって考案され得ることが明らかである。添付の特許請求の範
囲は、すべてのそのような実施形態および同等の変更を含むと解釈されることが意図され
る。

【図1A】