特表2022-532707 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ラブジニアスエルティーディーの特許一覧

特表2022-532707タンパク質工学及びタンパク質生成のための方法及びシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6-1
6-2
6-3
8-1
8-2
8-3
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-07-19

(54)【発明の名称】タンパク質工学及びタンパク質生成のための方法及びシステム

(51)【国際特許分類】

C12Q 1/6811 20180101AFI20220711BHJP

C12Q 1/6804 20180101ALI20220711BHJP

C12N 15/10 20060101ALI20220711BHJP

C12N 15/13 20060101ALI20220711BHJP

C12N 15/12 20060101ALI20220711BHJP

C12N 15/34 20060101ALI20220711BHJP

C12N 15/62 20060101ALI20220711BHJP

C12Q 1/37 20060101ALI20220711BHJP

C12M 1/00 20060101ALI20220711BHJP

G16B 40/00 20190101ALI20220711BHJP

C40B 40/08 20060101ALN20220711BHJP

C40B 10/00 20060101ALN20220711BHJP

【ＦＩ】

C12Q1/6811 Z ZNA

C12Q1/6804 Z

C12N15/10 200Z

C12N15/13

C12N15/12

C12N15/34

C12N15/62 Z

C12Q1/37

C12M1/00 A

G16B40/00

C40B40/08

C40B10/00

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2021566942

(86)(22)【出願日】2020-05-11

(85)【翻訳文提出日】2022-01-07

(86)【国際出願番号】 GB2020051143

(87)【国際公開番号】W WO2020225576

(87)【国際公開日】2020-11-12

(31)【優先権主張番号】1906566.3

(32)【優先日】2019-05-09

(33)【優先権主張国・地域又は機関】GB

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＶＩＳＵＡＬＢＡＳＩＣ

２．ＴＲＩＴＯＮ

３．ＴＷＥＥＮ

(71)【出願人】

【識別番号】521489355

【氏名又は名称】ラブジニアスエルティーディー

【氏名又は名称原語表記】ＬＡＢＧＥＮＩＵＳＬＴＤ

【住所又は居所原語表記】Ｓｕｉｔｅ１，３ｒｄＦｌｏｏｒ１１－１２Ｓｔ．Ｊａｍｅｓ’ｓＳｑｕａｒｅＬｏｎｄｏｎＧｒｅａｔｅｒＬｏｎｄｏｎＳＷ１Ｙ４ＬＢ（ＧＢ）

(74)【代理人】

【識別番号】110001999

【氏名又は名称】特許業務法人はなぶさ特許商標事務所

(72)【発明者】

【氏名】リッカビー、ハリソンフレデリック

(72)【発明者】

【氏名】フィールド、ジェームスエドワードジョン

(72)【発明者】

【氏名】プチンツェワ、エカテリナヴィクトロヴナ

(72)【発明者】

【氏名】コーゼンズ、クリストファー

【テーマコード（参考）】

4B029

4B063

【Ｆターム（参考）】

4B029AA07

4B029AA23

4B029BB15

4B029BB20

4B029FA15

4B029GB01

4B063QA05

4B063QA13

4B063QA18

4B063QQ10

4B063QQ13

4B063QQ36

4B063QQ43

4B063QQ46

4B063QQ53

4B063QQ79

4B063QR16

4B063QR33

4B063QR36

4B063QR48

4B063QR79

4B063QR80

4B063QR82

4B063QS15

4B063QS38

4B063QS39

(57)【要約】

【課題】タンパク質工学及びタンパク質生成のための方法及びシステム
【解決手段】本発明は、１以上の所望の特性を有するタンパク質を生成するための方法を提供し、この方法は：（ａ）ライブラリ設計工程、（ｂ）ライブラリ試験工程、（ｃ）学習工程を含み、ライブラリ試験工程の結果に少なくとも一部に基づいて、配列変異体にフィットネススコアを割り当て、機械学習アルゴリズムを各配列変異体のフィットネススコアに使用して、新たな配列変異体のフィットネススコアを予測するモデルのトレーニングを行い、そして工程（ｃ）でトレーニングされた機械学習モデルを使用して、配列変異体の新たなライブラリを設計する。本発明はまた、１以上の所望の特性を有するタンパク質を生成するためのシステムを提供し、前記システムは、本発明の方法を実施するように適合されている。
【選択図】図１

【特許請求の範囲】

【請求項1】

１以上の所望の特性を有するタンパク質を生成する方法であって、
前記方法は
（ａ）ライブラリ設計工程：
少なくとも１０^４配列変異体を含む核酸ライブラリを設計する工程であって、
各配列変異体は、タンパク質のコード配列を含むとともに、各配列変異体は、少なくとも１つの定常領域と少なくとも１つの可変領域とを含み、
１以上の定常領域はライブラリ内の全ての配列変異体に共通であり、
１以上の可変領域はライブラリ内の全ての配列変異体に共通ではない、工程
（ｂ）ライブラリ試験工程：
１以上の所望の特性について、配列変異体が並行して試験される工程；
（ｃ）学習工程：
前記ライブラリ試験工程の結果の少なくとも一部に基いて、配列変異体にフィットネススコア（適応度スコア）をそれぞれ割り当て、そして、機械学習アルゴリズムを各配列変異体のフィットネススコア（適応度スコア）に使用して、新たな配列変異体用のフィットネススコア（適応度スコア）を予測するモデルをトレーニングする工程；
を含み、
工程（ｃ）でトレーニングされた前記機械学習モデルを使用して、改善されたフィットネススコア（適応度スコア）分布を有する配列変異体の新たなライブラリを設計する、
方法。

【請求項2】

さらに（ａ’）ライブラリアセンブリ工程：
－１以上の可変領域を含む、ライブラリ中の配列変異体の第一の可変部分に対応する第一の複数の核酸分子を提供する段階であって、ここで、第一の複数の核酸分子は１以上の可変領域の変異体を含む、段階；
－少なくとも１つのさらなる可変領域を含む、ライブラリ中の配列変異体の少なくとも１つのさらなる可変部分に対応する、少なくとも１つのさらなる複数の核酸分子を提供する段階であって、ここで、少なくとも１つのさらなる複数の核酸分子は、少なくとも１つのさらなる可変領域の変異体を含む、段階；及び／又は
ライブラリ中の配列変異体の少なくとも１つの定常部分に対応する、少なくとも１つのさらなる複数の核酸分子を提供する段階であって、各定常部分は定常領域を含み且つ可変領域を含まず、ここで少なくとも１つのさらなる複数の核酸分子は実質的に同一である、段階；
－複数の第一の及び少なくとも１つのさらなる核酸分子のそれぞれをアセンブリして、核酸ライブラリを形成する段階であって、ライブラリ内の各変異体は第一の可変部分及び少なくとも１つのさらなる部分を含む、段階；
を含む、請求項１に記載の方法。

【請求項3】

前記ライブラリ設計工程（ａ）がＵＳＥＲアセンブリ、Ｄａｒｗｉｎ（ダーウィン）アセンブリ、及び／又は、逆ＰＣＲを利用する、請求項１又は請求項２に記載の方法。

【請求項4】

１以上の可変部分のそれぞれに対応する前記核酸分子が一本鎖ＤＮＡとして提供され、任意に、１以上の可変部分の変異体に対応する複数の核酸分子を提供することが、シングルプライマーエクステンション（単一プライマー伸長法）により第二のＤＮＡ鎖を合成して、二本鎖ＤＮＡを形成することを含む、
請求項２に記載の方法。

【請求項5】

前記定常部分が最大約２０００のヌクレオチド長であり、及び／又は、前記可変部分が最大約２００のヌクレオチド長である、請求項１乃至請求項４のうちいずれか一項に記載の
方法。

【請求項6】

各配列変異体が、複数の定常部分及び／又は複数の可変部分を含む、請求項１乃至請求項５のうちいずれか一項に記載の方法。

【請求項7】

前記ライブラリ設計工程（ａ）が、少なくとも１つの位置にランダムな変動性を含むよう、１以上の可変領域の少なくとも１つを設計することを含み、任意に、前記ライブラリ設計工程（ａ）が、少なくとも１つの可変領域の１以上の特定位置に、ランダムな変動性を含むように、１以上の可変領域の少なくとも１つを設計することを含む、請求項１乃至請求項６のうちいずれか一項に記載の方法。

【請求項8】

ランダムな変動性を含むことが、ＤＮＡコドンに対応する配列に対する変動性を制約することを含む、請求項７に記載の方法。

【請求項9】

前記ライブラリ設計工程（ａ）が：
－１以上の所望の特性のうちの少なくとも１つを有するタンパク質をエンコードする核酸配列を選択する段階；
－変動性が、１以上の所望の特性に関する少なくとも１つの改善、及び／又は、１以上の所望の特性に関する少なくとも１つの獲得をもたらすことが予想される、配列の１以上の領域を自動的に特定する段階；及び
－変動性が、１以上の所望の特性に関する少なくとも１つの改善、及び／又は、１以上の所望の特性に関する少なくとも１つの獲得をもたらすことが予想される、配列の１以上の領域を含むよう、１以上の可変部分を定義する段階；を含む、
請求項１乃至請求項８のうちいずれか一項に記載の方法。

【請求項10】

前記ライブラリ設計工程（ａ）が、さらに、
－変動性が、タンパク質の完全性及び／又は１以上の所望の特性に関する少なくとも１つに対して有害であることが予想される、配列の１以上の領域を特定する段階；及び
－変動性が、タンパク質の完全性及び／又は１以上の所望の特性に関する少なくとも１つに対して有害であることが予想される、配列の１以上の領域を含むよう、１以上の定常領域の１以上を定義する段階；を含む、
請求項９に記載の方法。

【請求項11】

１以上の定常領域の少なくとも１つが、プロモーター配列、エンハンサー配列、局在化シグナル、フラグ配列、マーカー配列、リボソーム結合部位、終止コドン、開始コドン、５’ステムループ構造、３’ステムループ構造、複製起点、及び選択配列から選択される、１以上の配列を含む、請求項１乃至請求項１０のうちいずれか一項に記載の方法。

【請求項12】

さらに、核酸ライブラリの各配列変異体によってエンコードされたタンパク質を生成し、タンパク質ライブラリを得る工程（ａ”）を含み、ここで前記ライブラリ試験工程（ｂ）はタンパク質ライブラリを、１以上の所望の特性に関して試験される１以上のアッセイに供する段階を含む、請求項１乃至請求項１１のうちいずれか一項に記載の方法。

【請求項13】

前記核酸ライブラリはＤＮＡライブラリであり、タンパク質ライブラリの生成は、ＤＮＡライブラリの転写及び翻訳を含み、ライブラリの翻訳は、それがエンコードするタンパク質に結合したＲＮＡ配列変異体を夫々含むＲＮＡポリペプチド融合分子の合成を含む、請求項１２に記載の方法。

【請求項14】

前記核酸ライブラリはＤＮＡライブラリであり、タンパク質ライブラリの生成は、ＤＮＡライブラリの転写及び翻訳を含み、ライブラリの翻訳は、ポリペプチドがＤＮＡライブラ
リの配列変異体に対応するコートタンパク質と融合する、コートタンパク質－ポリペプチド融合を示すファージ増殖を含む、請求項１２に記載の方法。

【請求項15】

前記ライブラリ試験工程（ｂ）は、１以上のアッセイの結果に応じて、タンパク質ライブラリを少なくとも２つのサンプルに分割する段階、及び、少なくとも２つのサンプルの少なくとも１つに存在する核酸を配列決定する段階を含む、請求項１２、請求項１３又は請求項１４に記載の方法。

【請求項16】

前記学習工程（ｃ）が、配列決定によって得られた配列を工程（ａ）において設計された配列とアライニング（整列）させる段階、及び、各配列が各サンプルに現れる回数を定量化する段階を含む、請求項１５に記載の方法。

【請求項17】

１以上の所望の特性が、タンパク質の物理化学的特性、活性関連特性、生理学的関連特性、及び薬物動態特性から選択される、請求項１乃至請求項１６のうちいずれか一項に記載の方法。

【請求項18】

定常領域の少なくとも１つが、タンパク質精製タグをエンコードする配列を含み、任意に、タンパク質精製タグは、タンパク質のＣ末端に位置し、１以上の所望の特性の１つは、プロテアーゼ耐性であり、１以上のアッセイを介してタンパク質ライブラリを実行することは、タンパク質ライブラリを１以上のプロテアーゼに暴露し、タンパク質精製タグを用いてタンパク質を精製し、１以上のプロテアーゼによって切断されない配列変異体を特定することを含む、請求項１７に記載の方法。

【請求項19】

１以上の所望の特性の１つは特定の標的に結び付けられ、ライブラリ試験工程（ｂ）は、表面に固定化された特定の標的とともにタンパク質ライブラリをインキュベートする段階、及びタンパク質ライブラリを、前記表面に結合されたサンプルと、前記表面に結合していないサンプルに分割する段階を含む、請求項１５、又は請求項１５に従属する請求項１６乃至請求項１８のうちいずれか一項に記載の方法。

【請求項20】

ライブラリ試験工程が、複数の特性について変異体を試験する段階を含み、学習工程が、試験された各変異体に対して、複数のフィットネススコアを割り当てる段階を含み、ここで各フィットネススコアは、複数の特性の１つに対応し、学習工程は複数の機械学習アルゴリズムをトレーニングする段階を含み、各機械学習アルゴリズムは、新たな配列変異体の複数のフィットネススコアの少なくとも１つを予測するようにトレーニングされる、請求項１乃至請求項１９のうちいずれか一項に記載の方法。

【請求項21】

配列変異体の夫々に関連する１以上のフィットネススコアは、各配列が第一のサンプル中に現れる回数、及び、各配列が第二のサンプル中に現れる回数に依存し、任意で、第一のサンプルは、１以上のアッセイの１つにおいて陽性結果とみなされるサンプルに対応し、第二のサンプルは対照例である、請求項１６、又は請求項１６に従属する請求項１７乃至請求項２０のうちいずれか一項に記載の方法。

【請求項22】

機械学習アルゴリズムが分類子であり、機械学習アルゴリズムがニューラルネットワークである、請求項１乃至請求項２１のうちいずれか一項に記載の方法。

【請求項23】

工程（ｃ）でトレーニングされた機械学習モデルが、インシリコで配列変異体のライブラリを反復的に最適化することにより、配列変異体の新たなライブラリを設計するために使用され、任意に、配列変異体のライブラリは、遺伝子アルゴリズムを使用して反復的に最適化される、請求項１乃至請求項２２のうちいずれか一項に記載の方法。

【請求項24】

新たなライブラリとともに、工程（ａ）から（ｃ）を繰り返すことをさらに含む、請求項１乃至請求項２３のうちいずれか一項に記載の方法。

【請求項25】

新たなライブラリが、１以上の所望の特性を有するタンパク質をエンコードする、少なくとも１つの配列変異体を含む、請求項１乃至請求項２４のうちいずれか一項に記載の方法。

【請求項26】

改善されたフィットネススコア分布を有する配列変異体の新たなライブラリは、工程（ａ）で調製されたライブラリ内の配列変異体の全て又は一部の対応する１以上の可変領域に関して、少なくとも３０％の配列変異体が、９５％未満のＤＮＡ配列類似性を有する、１以上の可変領域を有するものである、請求項１乃至請求項２５のうちいずれか一項に記載の方法。

【請求項27】

工程（ａ）で調製されたライブラリ内の配列変異体と比較して、新たなライブラリの配列変異体のより高い割合において、１以上の改善された所望の特性を示す、請求項１乃至請求項２６のうちいずれか一項に記載の方法。

【請求項28】

１以上の所望の特性を有するタンパク質を生成するシステムであって、該システムは、
（ｉ）請求項１乃至請求項２７のうちいずれか一項に記載の方法を実施するように適合されたプロセッサ、
（ｉｉ）少なくとも試験工程を実施するように、プロセッサによって制御される、実験室自動化装置、を含む、
システム。

【請求項29】

実験自動化装置は、液体取扱及び分配装置；コンテナ取扱装置；実験用ロボット：インキュベータ；プレート取扱装置；分光光度計；クロマトグラフィー装置；質量分析計；サーマルサイクリング（熱サイクル）装置；核酸配列決定装置；及び遠心分離装置からなる群のうちの１以上を含む、請求項２８に記載のシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、タンパク質工学及びタンパク質生成生のための方法及びシステム、特に、ハイコンテント（ｈｉｇｈ－ｃｏｎｔｅｎｔ）核酸ライブラリ、ハイスループットアッセイ及び人工知能の組み合わせを用いるタンパク質工学のための反復アプローチであるとみなされる。

【背景技術】

【0002】

特定の機能のためにタンパク質を設計する際、主な課題の１つは、候補タンパク質を変更の起点として使用する場合においても、検索可能な配列空間を構成する、ユーザーに提示される可能性のある分子の組み合わせ的爆発にある。この問題は、合成生物学プロセスに共通する設計（デザイン）－構築－試験（テスト）－学習の方法論ループ全体を通して、タンパク質工学に対するハイスルプットアプローチが使用可能である選択肢が少なすぎることでより一層ひどくなっている。ループ内のあらゆるボトルネックが、配列空間の探索に制限をもたらすことが理解されるであろう。したがって、配列変動性の広大な空間を自動的且つ効率的に探索して、特定の所望の特性のセットを備える候補タンパク質を特定することができる、方法及びシステムを提供する必要性が存在する。本発明のこれら及び他の使用、特徴及び利点は、本明細書で提供される教示から、当業者にとって明らかであろう。

【発明の概要】

【課題を解決するための手段】

【0003】

本発明によれば、第１の態様は、１以上の所望の機能を有するタンパク質を生成する方法を提供し、該方法は、
（ａ）ライブラリ設計工程：
少なくとも１０^４配列変異体を含む核酸ライブラリを設計する工程であって、
各配列変異体は、タンパク質のコード配列を含むとともに、各配列変異体は、少なくとも１つの定常領域と少なくとも１つの可変領域とを含み、
１以上の定常領域はライブラリ内の全ての配列変異体に共通であり、
１以上の可変領域はライブラリ内の全ての配列変異体に共通ではない、工程
（ｂ）ライブラリ試験工程：
１以上の所望の特性について、配列変異体が並行して試験される工程；
（ｃ）学習工程：
前記ライブラリ試験工程の結果の少なくとも一部に基いて、配列変異体にフィットネススコア（適応度スコア）をそれぞれ割り当て、そして、機械学習アルゴリズムを各配列変異体のフィットネススコア（適応度スコア）に使用して、新たな配列変異体用のフィットネススコア（適応度スコア）を予測するモデルをトレーニングする工程；
を含み、
工程（ｃ）でトレーニングされた前記機械学習モデルを使用して、改善されたフィットネススコア（適応度スコア）分布を有する配列変異体の新たなライブラリを設計する、方法である。

【0004】

したがって、本発明の方法は、ライブラリ設計、ハイスループットアッセイ、及び人工知能への特定のアプローチを組み合わせて、配列空間の広い領域を効率的に探索することにより、１以上の所望の特性を有する候補タンパク質のエンジニアリング及び生成を可能にする。

【0005】

特に、定常及び可変部分の使用は、可変性が有効に導入される配列の領域を制約可能にし
、任意で、これら部分を別々に設計及び生成し、全ての変異体に含まれるプロモーターやフラグなどの要素を含む共通の定常部分でこれらを組み立てることができる。定常部分は、例えば選択されたフラグ又はプロモーターを有する選択されたいくつかの部分間で容易に交換され、可変部分のライブラリと組み合わせられる。可変部分は、配列空間を効果的に探索するために使用される。さらに、ライブラリで取得したデータから学習するための機械学習の使用により、新たな設計工程に情報を提供できるため、試験された変異体の初期セットを改善できる新たな候補変異体を生成できる。

【0006】

実施形態において、本方法は、さらに（ａ’）ライブラリアセンブリ工程：
（１）１以上の可変領域を含む、ライブラリ中の配列変異体の第一の可変部分に対応する、第一の複数の核酸分子を提供する段階であって、ここで、第一の複数の核酸分子は、１以上の可変領域の変異体を含む、段階；
（２）（ｉ）少なくとも１つのさらなる可変領域を含む、ライブラリ中の配列変異体の少なくとも１つのさらなる可変部分に対応する、少なくとも１つのさらなる複数の核酸分子を提供する段階であって、ここで少なくとも１つのさらなる複数の核酸分子は、少なくとも１つのさらなる可変領域の変異体を含む、段階；及び／又は
（ｉｉ）ライブラリ中の配列変異体の少なくとも１つの定常部分に対応する、少なくとも１つのさらなる複数の核酸分子を提供する段階であって、各定常部分は定常領域を含み且つ可変領域を含まず、ここで、少なくとも１つのさらなる複数の核酸分子は実質的に同一である、段階；及び
（３）複数の第一の及び少なくとも１つのさらなる核酸分子のそれぞれをアセンブリ（組み立て）して、核酸ライブラリを形成する段階であって、ライブラリ中の各変異体は第一の可変部分と少なくとも１つのさらなる部分を含む、段階；
を含む。

【0007】

実施形態において、複数の核酸分子のそれぞれは、核酸分子のアセンブリのために、オーバーハングの生成を可能にするための、複数の他の核酸分子の別の１つの末端配列と同一である、末端配列をさらに含む。実施形態において、末端配列は、２乃至２０の塩基長を有する。実施形態において、末端配列は４乃至１０の塩基長を有する。

【0008】

実施形態において、各配列変異体は、少なくとも１つの定常部分と少なくとも１つの可変部分を含む。

【0009】

実施形態において、各配列変異体は、２つの定常部分を含む：プロモーター配列（例えばＴ７プロモーター配列）、１以上の任意のタグ、及び、エンコードされたタンパク質のコード配列の開始（すなわちＮ－末端部分）を含む、第一の又は開始部分；エンコードされたタンパク質のコード配列の末端（すなわち、Ｃ－末端部分）、及び、１以上の任意の精製タグを含む、第二の又は最終部分。

【0010】

実施形態において、各配列変異体は、２つの可変部分を含み、それぞれは、エンコードされたタンパク質のコード配列の一部を含む。

【0011】

実施形態において、２つの可変部分間に、さらなる定常部分が提供され得る。

【0012】

実施形態において、各配列変異体は、２つの可変部分と２つの定常部分を有する。２つの可変部分に制限することで、可変部分の調達（ソーシング）に関連するコストを制御し、可変部分が類似のセクション（例えば繰り返しの足場など）を含む場合、ライブラリアセンブリ工程においてエラーが発生するリスクを減じることができるため、有用であり得る。

【0013】

実施形態において、定常部分に対応する核酸分子は二本鎖ＤＮＡとして提供される。この有利性は、配列が、たとえばＰＣＲによって、又はバクテリアで複製されるプラスミドにそれを含めることによって、容易に操作及び複製され得ることを意味する。

【0014】

実施形態において、定常部分に対応する複数の核酸分子を提供することは、ポリメラーゼ連鎖反応によって、定常部分に対応する核酸分子を増幅することを含む。

【0015】

実施形態において、１以上の可変部分のそれぞれに対応する核酸分子は、一本鎖ＤＮＡとして提供され、任意に、１以上の可変部分の変異体に対応する複数の核酸分子を提供することは、シングルプライマーエクステンション（単一プライマー伸長法）により第二のＤＮＡ鎖を合成して、二本鎖ＤＮＡを形成することを含む。これは、ｄｓＤＮＡとして高精度で合成することが難しいため、ランダムな変動性が高い可変部分の複雑なコレクションを使用する場合に、特に有利であり得る。

【0016】

実施形態において、１以上の可変部分の変異体に対応する複数の核酸分子を提供することは、シングルプライマーエクステンション（単一プライマー伸長法）により、第二のＤＮＡ鎖を合成し、二本鎖ＤＮＡを形成すること含む。

【0017】

有利なことに、ＰＣＲを使用しないことは、ライブラリにエラーや増幅バイアスが導入されないことを保証する。ＰＣＲはこれらの確率を変える可能性があるため、可変部分が夫々の変異体の特定の確率で設計される場合、これは特に有利である。

【0018】

実施形態において、第一の複数の核酸分子のそれぞれを、さらなる複数の核酸分子のそれぞれからの核酸分子とアセンブリ（組み立て）することは、ＵＳＥＲ（ウラシル特異的切除試薬）アセンブリにより、核酸分子をアセンブリすることを含む。理論に縛られることを望まないが、ＵＳＥＲアセンブリは、傷を残さず、制限酵素のような特定の認識配列に依存せず、プログラム可能なオーバーハングをもたらすため、特に有利であると考えられている。

【0019】

実施形態において、定常部分は、最大約２０００のヌクレオチド長であり、及び／又は、ここで可変部分は最大約２００のヌクレオチド長である。

【0020】

有利なことに、定常部分は一度だけ供給されればよく、例えばバクテリア細胞で複製されるプラスミドにそれらを含めることにより、容易に複製されるｄｓＤＮＡとして供給され得る。実施形態において、可変部分は最大約２００のヌクレオチド長である。これにより、可変配列の非常に複雑なコレクションが生じる場合を含め、可変配列を高精度で化学的に合成できる可能性がある。

【0021】

実施形態において、各配列変異体は、複数の定常部分及び／又は複数の可変部分を含む。

【0022】

実施形態において、ライブラリ設計工程（ａ）は、１以上の定常部分のそれぞれの配列を完全に定義することを含む。

【0023】

実施形態において、ライブラリ設計工程（ａ）は、少なくとも１つの位置にランダムな変動性を含むよう、１以上の可変領域の少なくとも１つを設計することを含み、任意に、前記ライブラリ設計工程（ａ）は、少なくとも１つの可変領域の１以上の特定位置に、ランダムな変動性を含むよう、１以上の可変領域の少なくとも１つを設計することを含む。

【0024】

実施形態において、ランダムな変動性は、各塩基（Ａ、Ｃ、Ｔ、Ｇ）の確率を提供することにより制約される。実施形態では、ランダムな変動性は、各アミノ酸の確率を提供する
ことにより制約される。実施形態では、各塩基の確率は、可変部分のそれぞれにわたって同じであるか、あるいは、可変部分に依存し得る。実施形態では、少なくとも１つの部分での少なくとも１つの塩基の確率は０であり得る。

【0025】

実施形態において、ライブラリ設計工程（ａ）は、可変部分の１以上の特定部分におけるランダムな変動性を含むよう、１以上の可変部分の少なくとも１つを設計することを含む。

【0026】

特に、ランダムな変動性を含むことは、ＤＮＡコドンに対応する配列に変動性を制約することを含み得る。

【0027】

実施形態において、ランダムな変動性を含むことは、終止（ストップ）コドンに対応しない配列に変動性を制約することを含む。これは、先端を切り取った（トランケートされた）タンパク質にエンコードし得る配列の排除を可能にし、それにより、実際に使用される可能性が高い領域へ配列空間の探索を集中させることを可能にする。

【0028】

実施形態において、ライブラリ設計工程（ａ）は：
１以上の所望の特性のうちの少なくとも１つを有する、タンパク質をエンコードする核酸配列を選択する段階；
変動性が１以上の所望の特性の少なくとも１つを改善すること、及び／又は、１以上の所望の特性の少なくとも１つを獲得することをもたらすことが予想される、配列の１以上の領域を自動的に特定する段階；及び、
変動性が１以上の所望の特性の少なくとも１つを改善すること、及び／又は、１以上の所望の特性の少なくとも１つを獲得することをもたらすことが予想される、配列の１以上の領域を含むように、１以上の可変部分を定義する段階；
を含む。

【0029】

いくつかの実施形態において、ライブラリ設計工程（ａ）はさらに：
変動性がタンパク質の完全性（全体性）に対して、及び／又は、１以上の所望の特性の少なくとも１つに対して有害であることが予想される、配列の１以上の領域を特定する段階；及び、
変動性がタンパク質の完全性（全体性）に対して、及び／又は、１以上の所望の特性の少なくとも１つに対して有害であることが予想される、配列の１以上の領域を含むよう、１以上の定常領域の１以上を定義する段階；
を含む。

【0030】

実施形態において、１以上の定常領域の少なくとも一つは以下から選択される１以上の配列を含む：プロモーター配列、エンハンサー配列、局在化シグナル、フラグ配列、マーカー配列、リボソーム結合部位、終止コドン、開始コドン、５’ステムループ構造、３’ステムループ培養、複製起点、及び選択配列。

【0031】

実施形態において、本方法はさらに、各配列変異体によりエンコードされたタンパク質を生成し、タンパク質ライブラリを得る工程（ａ）を含み、ここでライブラリ試験工程（ｂ）は、１以上の所望の特性に関して試験される１以上のアッセイに、タンパク質ライブラリを供することを含む。核酸ライブラリは、ＤＮＡライブラリであり得、タンパク質ライブラリの生成は、ＤＮＡライブラリの転写及び翻訳を含み得る。実施形態において、ＤＮＡライブラリの転写は、ＤＮＡライブラリをＴ７ＲＮＡポリメラーゼとともにインキュベートすることを含む。Ｔ７ＲＮＡポリメラーゼの使用は、このポリメラーゼが明確に定義されたプロモーター配列を有し、エラー率が非常に低いため有利であり得る。

【0032】

実施形態において、本方法はさらに、各配列変異体によりエンコードされたタンパク質を生成し、タンパク質ライブラリを得る工程（ａ”）を含み、ここでライブラリ試験工程（ｂ）は、１以上の所望の特性に関して試験される１以上のアッセイに、タンパク質ライブラリを供することを含む。核酸ライブラリは、ＤＮＡライブラリであり得、タンパク質ライブラリの生成は、ＤＮＡライブラリの転写及び翻訳を含み得る。実施形態において、ＤＮＡライブラリの転写は、ＤＮＡライブラリをＴ７ＲＮＡポリメラーゼとともにインキュベートすることを含む。Ｔ７ポリメラーゼの使用は、このポリメラーゼが明確に定義されたプロモーター配列を有し、エラー率が非常に低いため有利であり得る。

【0033】

実施形態において、核酸ライブラリはＤＮＡライブラリであり、タンパク質ライブラリの生成はＤＮＡライブラリの転写と翻訳を含み、ここで、ライブラリの翻訳は、それがエンコードするタンパク質に結合したＲＮＡ配列変異体をそれぞれ含む、ＲＮＡポリペプチド融合分子を合成する。実施形態において、これは、“ｍＲＮＡディスプレイ”と呼ばれる技術を使用して実施される。実施形態において、これは“ファージディスプレイ”と呼ばれる技術を使用して実施される。理論に拘束されることを望まないが、ｍＲＮＡディスプレイは、全プロセスがインビトロで起こるために、本発明の観点においては有利であると考えられる。これは、多くの場合効率の低いプロセスであり、それによりボトルネックの発生とライブラリにバイアスをかける可能性がある、ＤＮＡライブラリを細胞に変換する必要性を廃する。さらに、ｍＲＮＡディスプレイにおいて、コード配列はタンパク質の共有結合しているため、過酷な試験条件下であっても、２つの部分が解離することを防ぐ。これは、過酷な条件への耐性といったことなど、幅広い範囲で所望の特性の試験を可能にする。

【0034】

実施形態において、核酸ライブラリはＤＮＡライブラリであり、タンパク質ライブラリの生成はＤＮＡライブラリの転写と翻訳を含み、ここでライブラリの翻訳は、ポリペプチドがＤＮＡライブラリの配列変異体に対応するコートタンパク質と融合する、コートタンパク質－ポリペプチド融合を示すファージ増殖を含む。実施形態では、これは“ファージディスプレイ”呼ばれる技術を使用して行われる。議論に束縛されることを望まないが、ファージディスプレイは、ｍＲＮＡディスプレイと比較して、長鎖タンパク質（例えば、１０ｋＤａより長いタンパク質、例えば、１０－１００、１０－５０、１５、３０、４０、又は５０ｋＤａ）のより効率的なディスプレイを可能とし、それにより、ライブラリ内の変異体のより効果的な選択を可能とするため、本発明の観点において有利であると考えられる。

【0035】

実施形態において、生成されるタンパク質ライブラリは、タンパク質を抽出し、逆転写定量的ＰＣＲを実施して、タンパク質ライブラリに関連するｍＲＮＡの量を定量化することにより、品質管理される。

【0036】

実施形態において、タンパク質ライブラリは、完全にインビトロで核酸ライブラリから生成される。

【0037】

実施形態において、ライブラリ試験工程（ｂ）は、１以上のアッセイの結果に応じてタンパク質ライブラリを少なくとも２つのサンプルに分割し、少なくとも２つのサンプルのうちの少なくとも１つに存在する核酸を配列決定（シーケンス）することを含む。

【0038】

実施形態において、各サンプルは、ＤＮＡシーケンシング（配列決定）の前に、逆転写工程及びサンプルのＤＮＡ部分を抽出するための精製工程に供される。

【0039】

このアプローチは、次世代のシーケンシング（配列決定）を使用して、機能的に異なるタンパク質のグループを特定することを可能とし得る。その結果、この方法は、非常に高ス
ループットで、所望の機能を有する／有していないタンパク質を特定できる（アッセイでのパフォーマンスに応じて異なる）。タンパク質レベルでの変異体の特定は、非常にエラーが発生しやすく（たとえば、質量分析プロテオミクスは現在でもＤＮＡ配列よりも著しくノイズが多い）、及び／又は、著しく遅くなる。

【0040】

実施形態では、本方法は、少なくとも２つのサンプルのうちの少なくとも２つに存在する核酸をバーコード化し、少なくとも２つのバーコード化されたサンプルを一緒に配列決定することをさらに含む。

【0041】

実施形態では、学習工程（ｃ）は、配列決定によって得られた配列を工程（ａ）で設計された配列とアライニング（整列）させ、各配列が各サンプルに現れる回数を定量化することを含む。

【0042】

実施形態において、定常領域の少なくとも１つは、タンパク質精製タグをエンコードする配列を含み、任意に、タンパク質精製タグは、ストレプトアビジン結合ペプチドである。有利なことに、これにより、ストレプトアビジンでコートされたビーズを、翻訳後のタンパク質の分離に使用して、ｍＲＮＡディスプレイ工程の品質管理の実行、又はプロテアーゼ安定性アッセイなどのいくつかのアッセイの実行ができるようになる可能性がある。

【0043】

実施形態において、１以上の所望の特性は、以下から選択される：タンパク質の物理化学的特性、活性関連特性、生理学的関連特性、及び薬物動態学的特性。

【0044】

実施形態では、物理化学的特性は、化学的安定性（例えば、酸化剤、酸などに対する耐性）、溶解性、熱耐性、乾燥及び再水和に対する耐性などから選択され得る。

【0045】

実施形態において、活性関連特性は、酵素活性、任意の活性又は結合の特異性、標的外効果（すなわち、一次標的以外の標的への活性又は結合）、結合親和性、選択された標的に対する会合／解離速度、酵素の阻害又は刺激に対する能力、結合力（機能的親和性）などから選択され得る。

【0046】

実施形態において、生理学的関連特性は、プロテアーゼ耐性、免疫原性、１以上の免疫エフェクターを活性化する能力、血液脳バリアを通過する能力、上皮（例えば、腸上皮、肺上皮など）を通過する能力、細胞内に入る能力、細胞膜／脂質二重層を通過する能力、特定の細胞型の細胞内に入る能力、固形腫瘍に浸透する能力、臓器／細胞型特異的送達への適合性から選択され得る。

【0047】

実施形態において、薬物動態学的特性は、消失半減期、クリアランス、毒性、臓器特異的薬物動態などから選択され得る。

【0048】

実施形態では、定常領域の少なくとも１つは、タンパク質精製タグをエンコードする配列（シーケンス）を含み、任意で、タンパク質精製タグはタンパク質のＣ末端に位置し、１以上の所望の特性の１つはプロテアーゼ耐性であり、１以上のアッセイを介してタンパク質ライブラリを実行することは、タンパク質ライブラリを１以上のプロテアーゼに曝露し、タンパク質精製タグを使用してタンパク質を精製し、１以上のプロテアーゼによって切断されない配列変異体を特定することを含む。

【0049】

実施形態では、タンパク質精製タグは、タンパク質のＣ末端に位置している。

【0050】

有利なことに、ｍＲＮＡディスプレイを使用する場合、各タンパク質に関連するｍＲＮＡは、タンパク質のＮ末端に位置するであろう。したがって、１以上のプロテアーゼによっ
て切断されない配列変異体は、依然としてそれらのｍＲＮＡに結合するであろうが、切断される配列変異体は結合しないだろう。このように、タンパク質が精製されると、切断された変異体のｍＲＮＡが洗い流され、プロテアーゼ耐性変異体のみが配列決定される。

【0051】

実施形態において、１以上の所望の特性の１つは特定の標的に結び付けられ、ライブラリ試験工程（ｂ）は、タンパク質ライブラリを表面に固定化された特定の標的とともにインキュベートし、タンパク質ライブラリを、表面に結合したサンプルと表面に結合していないサンプルに分割することを含む。

【0052】

実施形態では、本方法は、非特異的相互作用を除去するためにインキュベーション後に表面を洗浄することをさらに含む。実施形態では、本方法は、同じライブラリを対照条件（例えば、固定化標的のない、表面のみ）に曝露して、偽陽性（例えば、標的よりはむしろ表面に結合する変異体）を除外することをさらに含む。

【0053】

実施形態では、ライブラリ試験工程は、複数の特性について変異体を試験することを含み、学習工程は、試験された各変異体に複数のフィットネススコアを割り当てることを含み、ここで各フィットネススコアは、複数の特性の１つに対応し、学習工程は、複数の機械学習アルゴリズムをトレーニングすることを含み、各機械学習アルゴリズムは、新たな配列変異体の複数のフィットネススコアの少なくとも１つを予測するようにトレーニングされる。

【0054】

実施形態では、学習工程は、試験された各配列変異体に関して組み合わされたフィットネススコア（適合性スコア）を割り当てることを含み、試験された各配列変異体に関して組み合わされたフィットネススコアは、配列変異体の複数のフィットネススコアに基づく。

【0055】

実施形態では、配列変異体のそれぞれに関連する１以上のフィットネススコアは、各配列が第一のサンプル中に現れる回数及び各配列が第二のサンプル中に現れる回数に依存し、任意で、第一のサンプルは、１以上のアッセイの１つで陽性の結果が得られたとみなされるサンプルであり、第二のサンプルは対照例である。

【0056】

有利なことに、配列をスコアリングするこの方法は、システム内のノイズの影響を減らすことを可能にし得る。選択後に配列が１回のみ表示される場合、これは、実際に安定性が向上しているというよりはむしろ、単にライブラリの準備中に導入されたエラーであり得るか、又は、たまたまプロテアーゼに遭遇しなかった配列である可能性がある。

【0057】

実施形態では、配列変異体に関連するフィットネススコアは、特定の工程が配列に関してどの程度偏っているのかを定量化するスコアである。たとえば、所望の機能を試験するためのアッセイは、アッセイ前後のライブラリ上で、配列データ（例えば配列カウンタ）を比較することにより、ライブラリ中の各配列に対して工程がどの程度偏っているか定量化するスコア（“バイアス”又は“バイアススコア”とも呼ばれる）に関連付けることができる。

【0058】

実施形態では、スコアは、ベイズ（Ｂａｙｅｓｉａｎ）方法論を使用して、０（強い負のバイアス）と１（強い正のバイアス）の間で定量化される。中間スコアは、主観的な信頼水準に応じて、負のバイアス、正のバイアス、又は“以前と同様”（状況によっては“成功”とラベル付けされ得る）とみなされ得る。

【0059】

実施形態では、使用されるベイズ（Ｂａｙｅｓｉａｎ）方法論は、与えられた配列について、未知の平均λを有するポアソン分布を仮定し、工程前にｘカウントを測定した後（すなわち、ｐ（ｙ｜x））、工程後のｙカウントを測定して、期待値を定量化するように設
計される。

【0060】

実施形態では、ｐ（ｙ｜ｘ）は、（Ｎ２／Ｎ１）^ｙ＊（（ｘ＋ｙ）！／（ｘ！ｙ！（１＋（Ｎ２／Ｎ１））^{（ｘ＋ｙ＋１）}））として計算され得、ここで、ｘはサンプルサイズＮ１から観測され、ｙはサンプルサイズＮ２から観測される。

【0061】

有利なことに、このアプローチは、配列が工程後に何度も観察される場合、変異体が数回のみ観察される状況と比較して、配列変異体に関連する工程のバイアスの信頼性がより高くなるという仮定を反映する。

【0062】

実施形態では、スコアは、“期待通り／バイアスなし”として定義される残りの配列とともに、“負にバイアスされた”（例えば、バイアススコア＜０．１）配列グループ、“正にバイアスされた”（例えば、バイアススコア＞０．９）配列グループを定義するために使用され得る。これらの定義は、学習工程で機械学習アルゴリズムをトレーニングするために使用できる。

【0063】

実施形態において、負にバイアスされている、又は正にバイアスされている配列の閾値は、選択された信頼水準ＣＬを使用して設定され得る。特に、１－εを超えるスコアを有する配列は“正のバイアス”としてラベル付けされ得、スコアがε未満の配列は“負のバイアス”としてラベル付けされ得、ここでεは（１－ＣＬ）／２として計算される。実施形態では、ＣＬは、少なくとも０．９９７５、少なくとも０．９５５、又は少なくとも０．６８３である。

【0064】

実施形態では、フィットネススコアは、配列が第一及び第二のサンプルのそれぞれに少なくとも１つ現れる場合にのみ、配列変異体について計算される。これは、配列決定（シーケンシング）プロセスの誤りが原因で表示され、“真の読み取り”ではない配列を除外するのに有用であり得る。

【0065】

実施形態では、スコアは、第一のサンプル、第二のサンプル、又は第一及び第二のサンプルの合計において選んだ回数未満で現れる配列変異体を除外するためにフィルタリングされる。たとえば、両方のサンプルに渡って最低１０回の読み取りの閾値を適用し得る。

【0066】

実施形態において、別個のバイアススコアは、各所望の機能について、各配列変異体について計算され得る。例えば、タンパク質ライブラリが、第一の標的への結合親和性を定量化するための第一のアッセイ、及び第二の標的への結合親和性を定量化するための第二のアッセイに供されると仮定すると、各配列変異体に関係する、これらアッセイのそれぞれのバイアスを反映して、２つの別個のスコアを計算することができる。

【0067】

実施形態では、第一のサンプルは、１以上のアッセイの１つで陽性の結果を有するとみなされるサンプルに対応し、第二のサンプルは対照例である。適切には、対照例は、１以上のアッセイの１つで陰性結果を有するとみなされるサンプルであるか、又は、陽性結果を有するとして第一のサンプルを認定するために使用される１以上のアッセイの前のライブラリに対応するサンプルである。

【0068】

実施形態では、機械学習アルゴリズムは分類子であり、機械学習アルゴリズムはニューラルネットワークである。

【0069】

実施形態では、機械学習アルゴリズムは回帰アルゴリズムである。たとえば、アルゴリズムは、ラッソ（Least Absolute Shrinkage and Selection Operator）回帰、リッジ回帰（Tikhonov正則化とも呼ばれる）、又はロジスティック回帰を利用し得る。言い換えると
、機械学習アルゴリズムは、各配列の数値（たとえば、連続数値）を予測できるモデルを構築するようにトレーニングされ得る。理論に拘束されることを望まないが、バイアススコアがスコアの範囲の端の周りに強くクラスター化することをデータが示す場合（すなわち、配列変異体の大部分が０に近いあるいは１に近いバイアススコアを有する場合）、分類子が特に適切であり得ると考えられる。

【0070】

実施形態では、機械学習アルゴリズムはニューラルネットワークである。特定の実施形態では、機械学習アルゴリズムは畳み込みニューラルネットワークである。

【0071】

実施形態では、機械学習アルゴリズムは複数分類子システムである。すなわち、アルゴリズムは分類子の集合であり、たとえば、アンサンブルアルゴリズムである。

【0072】

実施形態では、機械学習アルゴリズムはサポートベクター機械アルゴリズムである。

【0073】

有利なことに、分類子は、モデルに供給される任意の新たな配列のスコアを予測することができる。そのため、さまざまな最適化方法を使用して、これを配列の集団を最適化するために使用できる。したがって、最適化プロセスを実行して、これまでに試験された配列と比較して（例えば、“親”ライブラリ又は“母”集団（a ”parent” library or population）を有する配列変異体と比較して）、改善されたフィットネス（例えば、改善されたフィットネス分布）を有する配列の新たな集団を特定する。

【0074】

“改善されたフィットネススコア分布”を有する配列変異体のライブラリ又は集団は、配列変異体の１以上のフィットネススコアの分布が、配列の親ライブラリ又は母集団内の配列変異体の１以上のフィットネススコアの分布と比較して、より正値に偏っているものであり得る。すなわち最適化プロセスは、最適化プロセスを経験していない配列変異体の親ライブラリ又は母集団（例えば、新たに最適化された配列変異体のライブラリ又は集団に直接先行する、配列変異体の親ライブラリ又は母集団）の平均フィットネススコアより高い、平均フィットネススコア（たとえば、１、２、３、４、５、６、７以上の所望の特性に対応する、１、２、３、４、５、６、７以上のフィットネススコア）を有する配列変異体の新たなライブラリ又は集団を提供する。

【0075】

一実施形態では、“改善されたフィットネススコア分布”を有する配列変異体のライブラリ又は集団は、配列変異体の１以上の平均フィットネススコアが、配列変異体の親ライブラリ又は母集団内の、配列変異体の１以上の平均フィットネススコアより高いものである。さらに、又は代わりに、改善されたフィットネスを有する配列変異体のライブラリ又は集団は、配列変異体の１以上の中央フィットネススコアが、（配列変異体の親ライブラリ又は母集団）配列変異体の親ライブラリ又は母集団内の、配列変異体の１以上の中央フィットネススコアより高いものであり得る。さらに、又は代わりに、改善されたフィットネス有する配列変異体のライブラリ又は集団は、配列変異体の１以上の最頻（ｍｏｄａｌ）フィットネススコアが、親ライブラリ又は母集団内の、配列変異体の１以上の最頻フィットネススコアよりも高いものであり得る。

【0076】

別の実施形態において、“改善されたフィットネススコア分布”を有する配列変異体のライブラリ又は集団は、親ライブラリ又は母集団と比較して、より少ない割合で非機能的配列変異体を含むものである。例えば、配列変異体のライブラリ又は集団における変異体の５０％未満（たとえば、５０、４０、３０、２０、１５、１０、７、５、２、又は１％未満）は、非機能的配列変異体である（例えば、前記非機能的配列変異体は、１以上の改善された所望の特性、例えば、改善された物理化学的特性、改善された活性関連特性及び／又は改善された生理学的関連特性を示さない）。好ましくは、ライブラリ又は集団における配列変異体の２０％未満（例えば、２０、１９、１８、１７、１６、１５、１４、１３
、１２、１１、１０、９、８、７、６、５、４、３、２、又は１％未満）は、非機能的配列変異体である。より好ましくは、ライブラリ又は集団における変異体の１０％未満が非機能的配列変異体である。

【0077】

別の実施形態では、“改善されたフィットネススコア分布”を有する配列変異体のライブラリ又は集団は、配列変異体の親ライブラリ又は母集団と比較して、１以上の改善されたフィットネススコア（例えば、１以上の改善された所望の特性、例えば、改善された物理化学的特性、改善された活性関連特性及び／又は改善された生理学的連特性を示す変異体のより高い割合）を示す変異体をより高い割合で含むものである。例えば、配列変異体の少なくとも１％（例えば、少なくとも１、２、５、７、１０、又は少なくとも２０％）の上位は、親ライブラリ又は母集団における変異体の少なくとも１％（例えば、少なくとも１、２、５、７、１０、又は少なくとも２０％）の上位と比較して、１以上の改善された所望の特性を有する。

【0078】

別の実施形態では、“改善されたフィットネススコア分布”を有する配列変異体のライブラリ又は集団は、前記ライブラリ又は集団における最も高いフィットネススコアを有する変異体が、親ライブラリ又は母集団において最も高いフィットネススコアを有する変異体と比べて、より高いフィットネススコアを有する。すなわち、最適化されたライブラリ又は集団においてより最も高いフィットネススコアを有する変異体は、親ライブラリ又は母集団において最も高いフィットネススコアを有する変異体と比べて、１以上の改善されたフィットネススコア（たとえば、１以上の改善された所望の特性、たとえば、改善された物理化学的特性、改善された活動関連特性及び／又は改善された生理学的関連特性）を示すものである。

【0079】

さらに、又は代わりに、“改善されたフィットネススコア分布”を有する配列変異体のライブラリ又は集団は、１以上の可変領域が、対応する、親ライブラリ又は母集団内の、全て又は一部の変異体の１以上の可変領域に関して、９９％未満（たとえば、９８、９７、９６、９５、９０、８５、８０、７５、７０、６０、５０、４０、３０、２０、１０又は５％未満）の配列類似性（ＤＮＡ及び／又はアミノ酸配列）を有する、少なくとも１つの変異体を含むものである。さらに、又は代わりに、“改善されたフィットネススコア分布”を有する配列変異体のライブラリ又は集団は、少なくとも５％、例えば、少なくとも１０、１５、２０、２５、３０、３５、４０、４５、５５、６５、７０、７５、８５、９０、９５、又は１００％の変異体を含むものであり得、該変異体は、対応する、親ライブラリ又は母集団内の、全て又は一部の変異体の１以上の可変領域に関して、９９％未満（例えば、９８、９７、９６、９５、９０、８５、８０、７５、７０、６０、５０、４０、３０、２０、１０又は５％未満）の配列類似性（ＤＮＡ及び／又はアミノ酸配列）を有する１以上の可変領域を有する。

【0080】

実施形態において、“改善されたフィットネススコア分布”を有する配列変異体のライブラリ又は集団は、１以上の可変領域が、対応する、親ライブラリ又は母集団内の、全て又は一部の変異体の１以上の可変領域に関して、９９％未満（たとえば、９８、９７、９６、９５、９０、８５、８０、７５、７０、６０、５０、４０、３０、２０、１０、又は５％未満）の配列類似性（ＤＮＡ及び／又はアミノ酸配列）を有し、そして、最も高いフィットネススコアを有する親ライブラリ又は母集団に含まれる変異体と比較して、１以上の改善されたフィットネススコアを示す（例えば、少なくとも１つの変異体は、１以上の改善された望ましい特性、たとえば、改善された物理化学的特性、改善された活動関連特性及び／又は改善された生理学的関連特性を示す。）、少なくとも１つの変異体を含むものである。

【0081】

実施形態において、“改善されたフィットネススコア分布”を有する配列変異体のライブ
ラリ又は集団は、１以上の可変領域が、対応する、親ライブラリ又は母集団内の、全て又は一部の変異体の１以上の可変領域に関して、９９％未満（たとえば、９８、９７、９６、９５、９０、８５、８０、７５、７０、６０、５０、４０、３０、２０、１０、又は５％未満）の配列類似性（ＤＮＡ及び／又はアミノ酸配列）を有する、少なくとも１つの変異体を含むものであり、ここで、改善されたフィットネススコア分布を有する前記変異体のライブラリ又は集団は、親ライブラリ又は母集団の、全て又は一部の変異体に示された、１以上のフィットネススコアと比べて、１以上の複数の改善されたフィットネススコアを示す（例えば、前記変異体は、１以上の改善された所望の特性、たとえば、改善された物理化学的特性、改善された活動関連特性、及び／又は改善された生理学的関連特性を示す）。

【0082】

ライブラリ又は集団の“全て又は一部の変配列変異体”を言及する実施形態において、ライブラリ又は集団の“全ての配列変異体”は、実質的にライブラリ又は集団の全ての変異体を言及するものと理解される。さらに、ライブラリ又は集団の“一部の列変異体”は、決して、実質的にライブラリ又は集団の全ての変異体ではなく、例えば、ライブラリ又は集団の９５、９０、８５、８０、７５、７０、６０、５０、４０、３０、２０、１０、５、２、１％又は１％未満）の変異体を言及すると理解される。

【0083】

誤解を避けるために、用語“親ライブラリ又は母集団”は、配列の新たな集団と比較して、最適化が少ない配列変異体のライブラリ又は集団を言及する。すなわち、親ライブラリ又は母集団は、新たに最適化されたライブラリ又は集団の直前にあるものであり得る。たとえば、新たなライブラリ又は集団と比較して、親ライブラリ又は母集団は、少なくともｎ－１（例えば、ｎ－１、ｎ－２、ｎ－３、又はｎ－４、ここでｎは、新たなライブラリが実行した最適化ラウンドの数である）の最適化ラウンドを実行し得る。好ましくは、親ライブラリ又は母集団は、新たなライブラリ又は集団と比較して、ｎ－１の最適化ラウンドを実行したものである（すなわち、親ライブラリ又は母集団は、新たに最適化されたライブラリ又は集団の直前にあるものである）。より好ましくは、親ライブラリ又は母集団は、本発明のライブラリ設計工程（ａ）に従って準備される。

【0084】

実施形態では、工程（ｃ）でトレーニングされた機械学習モデルは、インシリコで配列変異体のライブラリを反復的に最適化することによって、配列変異体の新たなライブラリを設計するために使用され、任意に、配列変異体のライブラリは、遺伝的アルゴリズムを使用して反復的に最適化される。

【0085】

機械学習アルゴリズムが分類子である実施形態では、機械学習アルゴリズムは、提供される新たな配列のクラス（分類）を予測するモデルの構築、及び／又は、定義されたクラス（分類）のいずれかに属するように提供されている、新たな配列の確率を表す連続値を提供するモデルの構築に使用される。機械学習アルゴリズムが回帰アルゴリズムである実施形態では、機械学習アルゴリズムは、提供される任意の新たな配列のスコアを予測できるモデルを構築するために使用され得る。

【0086】

実施形態では、機械学習アルゴリズムは、配列変異体の初期集団のクラス（分類）、スコア、又はクラス（分類）に属する確率を予測することに使用され、この情報は、機械学習アルゴリズムに提供される、新たな集団を取得するために使用可能である。

【0087】

実施形態では、学習段階は、新たなライブラリと以前に生じたライブラリ（例えば、以前に試験されたライブラリ及び／又は以前のインシリコライブラリ）との間のディスタンスを計算することを含む。実施形態では、配列ライブラリ間のディスタンスは、イェンセン・シャノン情報量法を使用して計算される。

【0088】

複数のフィットネススコアが配列変異体ごとに計算される実施形態において、多目的最適化を実行することができ、これは、フィットネススコアごとに配列変異体のライブラリを共同で最適化することを目的とする。

【0089】

実施形態では、配列変異体のライブラリは、遺伝的アルゴリズムを使用して反復的に最適化される。

【0090】

実施形態では、遺伝的アルゴリズムのパラメーターは、最適化の開始時に検索空間の探索を支持するように最適化される。最適化される遺伝的アルゴリズムのパラメーターは、クロスオーバー戦略の選択、クロスオーバー率、突然変異戦略、突然変異率、親の数、集団サイズ、集団内のエリートの数、選択方法などの１以上が含まれ得る。

【0091】

実施形態において、配列変異体のライブラリは、マルコフ連鎖モンテカルロ（ＭＣＭＣ）法及び／又は勾配降下などの最適化アルゴリズムを使用して最適化され得る。そのようなアルゴリズム及び方法は当技術分野で既知である。

【0092】

実施形態では、配列変異体の新しいライブラリは、工程（ｂ）で試験された変異体のサブセットに由来する。

【0093】

実施形態では、ライブラリのサブセット（初期集団又は世代０と呼ばれる）が分類子を介して実行され、各配列にフィットネススコアが割り当てられる。次に、遺伝的アルゴリズムを使用してサブセットを変異させ第一世代を取得し、これが分類子にフィードバックされる。このプロセスは、十分に高いフィットネス（適合性）を有するライブラリが生じるか、あるいは最大反復回数に達するまで、繰り返される。これらのパラメーターは、ユーザーが事前に定義することも、デフォルト値を割り当てることもできる。

【0094】

実施形態では、この方法は、新たなライブラリとともに工程（ａ）から（ｃ）を繰り返すことをさらに含む。

【0095】

実施形態では、この方法は、新たなライブラリとともに工程（ａ）から（ｃ）を合計で最大１０回繰り返すことを含む。

【0096】

実施形態では、この方法は、ライブラリ内の少なくとも１つ、好ましくは少なくとも３つ、少なくとも５つ、又は少なくとも１０の変異体に関して、１以上の所望の特性の特定の値といった、所定の基準が満たされるまで、工程（ａ）から（ｃ）を繰り返すことを含む。

【0097】

実施形態では、工程（ｃ）は、以前に試験された任意の配列変異体の１以上のフィットネススコアを使用して、機械学習アルゴリズムをトレーニングすることを含む。

【0098】

実施形態では、新たなライブラリは、直前の工程（ｂ）又は任意の先行する工程（ｂ）で試験された変異体のサブセットに由来する。

【0099】

実施形態では、新たなライブラリは、以前のライブラリには存在しなかった変異体を含む。たとえば、新たなライブラリには、高いフィットネススコアを有すると予測される変異体を含み得る。実施形態では、新たなライブラリは、以前に試験された変異体を含まない。

【0100】

実施形態では、新たなライブラリは、１以上の所望の特性を有するタンパク質をエンコードする少なくとも１つの配列変異体を含む。

【0101】

第２の態様によれば、１以上の所望の特性を有するタンパク質を生成するためのシステムが提供され、該システムは、以下を含む：
（ｉ）第１の態様の実施形態に従う任意の方法を含む、本明細書に記載の方法のいずれかを実施するように適合されたプロセッサ；
（ｉｉ）少なくとも試験工程を実施するようにプロセッサによって制御される、実験室自動化装置。

【0102】

実施形態では、実験室自動化装置は、以下からなる群のうちの１以上を含む；液体取扱及び分配装置；コンテナ取扱装置；実験用ロボット；インキュベータ；プレート取扱装置；分光光度計；クロマトグラフィー装置；質量分析計；サーマルサイクリング（熱サイクル）装置；核酸配列決定装置；及び遠心分離装置。

【0103】

さらなる態様によれば、本発明は、本明細書に記載の方法を使用して得られた配列変異体のライブラリに関する。

【0104】

実施形態において、配列変異体のライブラリは、核酸ライブラリである。実施形態では、ライブラリはＤＮＡライブラリである。実施形態では、配列変異体のライブラリは、ペプチド又はタンパク質ライブラリ（例えば、ペプチドリガンドライブラリ、抗体ライブラリ、抗体模倣ライブラリ、又は抗体フラグメントライブラリ、例えば、単鎖抗体又は単一ドメイン（すなわち、ＶＨＨドメイン）である。

【0105】

実施形態では、配列変異体は、１以上の可変領域、例えば、少なくとも１、２、３、又は４の可変領域（例えば、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、２０、２５、３０、３５、４０、４５又は５０の可変領域）を有する。

【0106】

実施形態において、各可変領域は、独立して、１～２００、又は１～１００、１～６０のヌクレオチド長、例えば、１～３、３～６、６～９、９～１２、１２～１５、１５～１８、１８～２１、２１～２４、２４～２７、２７～３０、３０～３３、３３～３６、３６～３９、３９～４２、４２～４５、４５～４８、４８～５１、５１～５４、５４～５７又は５７～６０のヌクレオチド長であり得る。好ましくは、１～１００、１～６０、１～４８、３～４５又は３～３０のヌクレオチド長である。可変領域は単一ヌクレオチドであり得る。

【0107】

実施形態において、１以上の可変領域は、独立して、１～６０又は１～２０アミノ酸長、例えば、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９又は２０アミノ酸長であり得る。好ましくは、１～１５又は１～１０アミノ酸長である。可変領域は単一のアミノ酸であり得る。

【0108】

さらなる態様によれば、前述の態様によるライブラリを含むコンテナが提供される。

【0109】

さらに別の態様によれば、１以上の所望の特性を有するタンパク質が提供され、ここで、タンパク質は、本明細書に記載の方法を使用して得られる。

【0110】

実施形態では、タンパク質は、１以上の定常部分及び１以上の可変部分を含む。実施形態では、１以上の定常部分は、足場（スキャフォールド）ドメインを含む。実施形態では、１以上の可変部分は、相互作用媒介ドメインを含む。

【図面の簡単な説明】

【0111】

【図1】図１は、本発明の一実施形態による反復的タンパク質工学戦略（エンジニアリングストラテジー）のフローチャートである；

【図2】図２は、本発明の実施形態によるライブラリ構造の例を示す；

【図3】図３は、本発明の実施形態によるプロテアーゼ安定性アッセイの例を示す；

【図4】図４は、本発明の実施形態による結合アッセイの例を示す；

【図5】図５は、本発明の実施形態による計算されたバイアススコアを示し、アッセイの前に特定の変異体に関して観察された読み取り数の３つの異なる値について、以下の比率の関数として、所望の機能（ｘ＝２、ｘ＝２０、ｘ＝２００）を有するライブラリの変異体を分割する：アッセイ後のライブラリのサブセット内の特定の変異体で観察された読み取り数（ｙ）とアッセイ前の変異体で観察された読み取り数（ｘ）；

【図6-1】図６Ａ～６Ｅは、本発明の実施形態によるライブラリ選択プロセスの例の結果を示し、ファージディスプレイを使用して、変異体のライブラリを発現させ、プロテアーゼに対する耐性、及び、３連続選択ラウンドを使用する標的への結合について選択し、各ラウンド後に変異体の集団の配列を決定する；特に、図６Ａは、各配列決定実施中の生の読み取りの総数を示す（選択前は“ｐｒｅ”としてラベル付けされ、各選択ラウンド後は“ｒｏｕｎｄ＿１”、“ｒｏｕｎｄ＿２”、及び“ｒｏｕｎｄ＿３”とラベル付けされる）；図６Ｂは、選択前（“ｐｒｅ”）と各選択ラウンド後の集団に存在する変異体の総数を示す；

【図6-2】図６Ｃは、対応する配列決定実施の読み取りの総数（図６Ａを参照）と比較した、選択前（“ｐｒｅ”）及び各選択ラウンド後の集団に存在する変異体の数を示す；図６Ｄは、選択前（“ｐｒｅ”）及び各選択ラウンド後の集団に存在する変異体の総数を示し、ただし、開始ライブラリに存在しなかった変異体は含まない；

【図6-3】図６Ｅは、３ラウンドの選択（“ｒｏｕｎｄ＿１”、“ｒｏｕｎｄ＿２”、“ｒｏｕｎｄ＿３”）のそれぞれの前（“ｐｒｅ”）と後のさまざまな可変位置でのライブラリ構成の変化を示す周波数分布表を示す－もとのライブラリ内に存在しない変異株を除く。

【図7】図７Ａ及び７Ｂは、本発明の実施形態によるライブラリ選択プロセスの例の結果を示す；ここでｍＲＮＡディスプレイを使用して変異体のライブラリを発現させ、プロテアーゼ（トリプシン（図７Ａ）及びキモトリプシン（図７Ｂ））に対する耐性について選択し、選択後に変異体の集団をｑＰＣＲによって定量化する；特に図７Ａ及び７Ｂは、各３つのライブラリに関して、フロースローサンプル（ＦＴ）及びビーズ（Ｂｅａｄｓ）に補足されたサンプルに対するｑＰＣＲ定量化（ｃｔ値、蛍光シグナルがバックグラウンドを超えるレベルに達するサイクル数）の結果を示す。

【図8-1】図８Ａから８Ｃは、本発明の実施形態によるライブラリ最適化プロセスの例の結果を示す；特に、図８Ａから８Ｃは、特定の反復（図８Ａは開始集団を示し、図８Ｂは反復６での集団を示し、図８Ｃは反復１４での集団を示す）を示し、左パネルは現在の集団のフィットネススコア分布（連続曲線）と初期集団のフィットネススコア分布（ヒストグラム）を示し、現在の反復のライブラリ変異体分布（中央パネル）、及び、多数のライブラリのパレートフロント（２つの別のパラメーターの最大平均フィットネススコア）（右パネル）を示す。

【図8-2】図８Ａから８Ｃは、特定の反復（図８Ａは開始集団を示し、図８Ｂは反復６での集団を示し、図８Ｃは反復１４での集団を示す）を示し、左パネルは現在の集団のフィットネススコア分布（連続曲線）と初期集団のフィットネススコア分布（ヒストグラム）を示し、現在の反復のライブラリ変異体分布（中央パネル）、及び、多数のライブラリのパレートフロント（２つの別のパラメーターの最大平均フィットネススコア）（右パネル）を示す。

【図8-3】図８Ａから８Ｃは、特定の反復（図８Ａは開始集団を示し、図８Ｂは反復６での集団を示し、図８Ｃは反復１４での集団を示す）を示し、左パネルは現在の集団のフィットネススコア分布（連続曲線）と初期集団のフィットネススコア分布（ヒストグラム）を示し、現在の反復のライブラリ変異体分布（中央パネル）、及び、多数のライブラリのパレートフロント（２つの別のパラメーターの最大平均フィットネススコア）（右パネル）を示す。

【図9】図９は、配列の集団の実際のフィットネスと予測されたフィットネスの間のスピアマンの相関がＲ＝０．６７であることを示し、これは、モデルがアミノ酸配列のみに基づいて対象の標的への結合を正確に予測できることを示す；

【図10】図１０は、細胞ベースの有効性（ｐｏｔｅｎｃｙ）アッセイにおける候補分子の活性を示す。試験された候補分子は、本明細書に記載される機械学習を使用して、高性能の変異体であると予測される。モデルが元の分子と比較して改善された有効性を有すると予測した候補分子の６８％は、細胞ベースの有効性アッセイにおいて改善された有効性を示した。

【発明を実施するための形態】

【0112】

本明細書で引用されているすべての参考文献は、その全体が参照により組み込まれる。別段の定義がない限り、本明細書で使用されるすべての技術用語及び科学用語は、本発明が属する当業者によって一般に理解されるものと同じ意味を有する。

【0113】

特に明記しない限り、本発明の実施は、当業者の能力の範囲内である、化学、分子生物学、微生物学、組換えＤＮＡ技術、及び化学的方法の従来の技術が使用される。
このような手法は、文献でも説明されており、たとえば、M. R. Green、J. Sambrook、2012、分子クローニング：実施マニュアル、第4版、Books 1-3、コールドスプリングハーバーラボラトリープレス、コールドスプリングハーバー、ＮＹ； Ausubel, F. M. ら（１９９５年及び定期的な補足；分子生物学の現在のプロトコル、第９章、第１３章、及び第１６章、ジョン・ワイリー＆サンズ、ニューヨーク、ニューヨーク州）；B. Roe, J. Crabtree、及びA. Kahn、１９９６年、ＤＮＡ分離とシーケンス：エッセンシャルテクニック、ジョン・ワイリー＆サンズ; J. M. Polak及びJames O'D. McGee、１９９０年、イン－シツ（原位置）ハイブリダイゼーション：原則と実践、オックスフォード大学出版局；M.
J. Gait（編集者）、１９８４年、オリゴヌクレオチド合成：実用的なアプローチ、ＩＲＬプレス；及び D. M. J.Lilley及びJ. E. Dahlberg、１９９２、酵素学の方法：ＤＮＡ構造パートＡ：酵素学におけるＤＮＡ法の合成と物理的分析、アカデミックプレス；Durbin R.、Eddy S. 、Krogh A.、Mitchinson G.（１９９８年）、生物学的配列分析、ケンブリッジ大学出版局；David W.（２００４）、バイオインフォマティクス、コールドスプリングハーバーラボラトリープレス。これらの一般的なテキストのそれぞれは、参照により本明細書に組み込まれる。

【0114】

本発明を説明する前に、本発明の理解を助けるいくつかの定義が提供される。

【0115】

本明細書で使用される場合、用語“含む（comprising）”は、列挙された要素のいずれかが必然的に含まれ、他の要素も任意に含まれ得ることを意味する。“基本的に～からなる（consisting essentiallly of）”は、記載されている要素が必ず含まれ、記載されている要素の基本的かつ新規な特性に重大な影響を与える要素が除外され、他の要素が任意に含まれ得ることを意味する。“～からなる（consisting of）”は、記載されているもの以外の全ての要素が除外されることを意味する。これらの用語のそれぞれによって定義される実施形態は、本発明の範囲内にある。

【0116】

本明細書で使用される場合、用語“ライブラリ”又は“配列変異体のライブラリ”は、それら配列の少なくとも１つの位置において、互いに異なる関連する核酸又はポリペプチド（本明細書では“ペプチド”又は“タンパク質”とも呼ばれる）の集合を指す。したがって、核酸ライブラリは、少なくとも１つの塩基において互いに異なる核酸、典型的にはＤＮＡ分子のコレクションを含む。本発明の観点において、各核酸配列変異体は、タンパク質のコード配列を含む。したがって、本発明によるタンパク質ライブラリは、核酸ライブラリを発現させることによって得られたタンパク質のコレクションを含む。当業者が理解
するように、そのようなタンパク質ライブラリは、遺伝コードの冗長性のために、少なくとも１つのアミノ酸残基において互いに異なる分子、ならびに互いに異ならない分子を含み得る。さらに、当業者が理解するように、ライブラリを含むサンプルは、実際には、配列変異体のいくつか又はすべての複数のコピーを含み得る。

【0117】

実施形態において、核酸ライブラリは、少なくとも１０^４の配列変異体、好ましくは少なくとも１０^５又は少なくとも１０^６の配列変異体を含む。実施形態において、核酸ライブラリは、少なくとも１０^７、少なくとも１０^８、少なくとも１０^９、又は少なくとも１０^１０の配列変異体を含む。以下でさらに説明するように、配列変異体は、選択された開始配列又は関連する配列のセットにランダムな変動性を導入することによって得ることができる。関連する配列のセットは、例えば、特定の位置（例えば、位置ｐはｘ又はｙであり得る）で柔軟性をもって定義された単一の配列であるか、又は例えば同族体（ホモログ）及び／又は相同分子種（オルソログ）に対応する配列のセットを含み得る。したがって、１０^６個の配列変異体のライブラリは必ずしも１０^６個の異なる配列を含むとは限らない。代わりに、１０^６個の配列変異体のライブラリは、開始配列に変動性を導入するために定義された制約内で可能な、配列のプールのサンプリングからそれぞれ生じる１０^６個の配列を含み得る。実際には、ライブラリ内の異なる配列の数は、開始配列に導入された変動性及び開始配列の長さに課せられた制約によって、上方に制限され得る。実施形態において、核酸ライブラリ中の異なる配列の総数は、少なくとも約１０ｋ、少なくとも約５０ｋ、少なくとも約１００ｋ、又は少なくとも約１５０ｋであり得る。

【0118】

本発明の観点において、以下でさらに説明されるように、核酸ライブラリ中の配列変異体は、１以上の定常領域及び１以上の可変領域を含み、１以上の定常領域は、ライブラリ中のすべての変異体に共通であり、１以上の可変領域は、ライブラリ内のすべての変異体に共通ではない。配列変異体は、ライブラリ内の各配列変異体を形成するために組み立てられる複数の部分（パーツ）として提供され得る。複数の部分（パーツ）を使用する場合、各部分（パーツ）は、定常部分（パーツ）（可変領域が含まれていない場合）又は可変部分（少なくとも１つの可変領域が含まれている場合）であり得る。核酸ライブラリを設計する場合、本明細書では、“固定部分／領域”とも呼ばれる定常部分／領域が完全に定義される。このように、定常部分／領域を構成するヌクレオチドの配列は、完全に定義され、そしてライブラリ内のすべての配列に共通であり得る。あるいは、ライブラリ内に複数の同等の定常部分／領域を存在させることも可能であるが、そのような定常部分／領域はそれぞれ、ライブラリの設計の開始時に完全に定義され、ランダムに変化することはない。

【0119】

本発明の観点において、用語“ハイスループット”は、上述の核酸ライブラリ又は対応するタンパク質ライブラリのすべての変異体を並行して処理できるアッセイ、プロセス、及びプロトコルに関する。

【0120】

本明細書で使用される場合、“フィットネススコア（適合性スコア）”（“スコア”又は“バイアス”又は“バイアススコア”とも呼ばれる）は、タンパク質又は核酸ライブラリの配列変異体に関連するスコアであり、１以上の所望の特性を有する変異体の可能性を示す。

【0121】

本発明は、大規模な核酸ライブラリ設計、ハイスループットアッセイ、及び機械学習の組み合わせを使用して、所望の機能を有するタンパク質を操作する、新しい方法論を提供する。

【0122】

図１は、本発明の実施形態による、１以上の所望の特性を有するタンパク質を生成する方法のフローチャートを示す。大まかに言えば、図示された方法は、ライブラリ設計工程１
０、ライブラリ構築工程２０、ライブラリ試験工程３０、及び学習工程４０を含み、学習工程４０の結果が、新たなライブラリ設計工程１０’に通知するために使用され、構築２０、試験３０、及び学習４０の新たなサイクルへの入力として任意に使用することができる。図示の実施形態では、ライブラリ設計工程１０は、配列又は配列のセットを開始する選択１２、開始配列内（又は開始配列セット全体）における定常及び可変領域の定義１４、そして、可変領域に導入された変動性の定義１６により、配列変異体の核酸ライブラリを設計することを含む。例えば、開始配列は、それが１以上の所望の特性の少なくとも１つを既に有するか、あるいは、１以上の所望の特性の少なくとも１つを有するように適合される可能性があるという理由で選択され得る。図示の実施形態では、ライブラリ構築工程２０は、ライブラリを構築するために使用される物理的部品（パーツ）の調達（ソーシング）２２、核酸ライブラリを取得するための部品（パーツ）のアセンブリング（組み立て）２４、そして核酸ライブラリからのタンパク質ライブラリの生成２６を含む。可変領域を含まない部分（パーツ）は、本明細書では“定常部分”と呼ばれる。少なくとも１つの可変領域を含む部分は、本明細書では“可変部分”と呼ばれる。核酸ライブラリの配列変異体は、複数部分の集合によって形成され得、その少なくとも１つは可変部分である。配列変異体には通常、少なくとも１つの可変部分を含む。可変及び定常領域の相対的なサイズ及び位置に応じて、さらなる可変部分及び定常部分が有利に提供され得る。例えば、大きな定常領域が存在する場合、これらは、別個の定常部分として有利に提供され得る。対照的に、可変領域の間に散在する比較的小さな定常領域は、可変部分の一部として有利に提供され得る。ライブラリ試験工程３０において、タンパク質ライブラリ内のすべての配列変異体が、１以上の特性について並行して試験３２される。学習工程４０において、工程３０で試験された配列変異体は、ライブラリ試験工程３０の結果の少なくとも一部に基づいて、１以上のフィットネススコアが割り当て４２られる。配列変異体のフィットネススコアは、新たな配列変異体の１以上のフィットネススコアを予測するように、機械学習アルゴリズムを使用して１以上のモデルのトレーニング４４に使用される。次に、工程４４においてトレーニングされた機械学習モデルは、改善されたフィットネススコア分布を有する配列変異体の新たなライブラリの設計１６に使用される。実施形態では、設計１０、１０’及び学習４０の工程はインシリコで実行され、一方、構築２０及び試験３０の工程は物理的部品（パーツ）を含み、通常はインビトロで実行される。しかしながら、工程３２で実施されるアッセイの性質に応じて、試験工程３０のいくつかは、インシリコで実施され得る。例えば、配列変異体は、１以上のインシリコアッセイを使用して分析され、たとえば１以上の所望の特性を有する配列変異体の可能性が予測され得る。

【0123】

所望の特性は、タンパク質の物理化学特性、例えば、化学的安定性（例えば、酸化剤、酸などに対する耐性）、溶解性熱耐性、乾燥及び再水和に対する耐性（例えば、乾燥及び再水和後、許容レベルの活性又は他の機能を維持する）など；活性関連（例えば“機能”）特性、例えば、酵素活性、任意の活性又は結合の特異性、標的外効果（すなわち、一次標的以外の標的への活性又は結合）、結合親和性、選択された標的（ｋ_ｏｎ、ｋ_ｏｆｆ、ｋ_Ｄ）に対する会合／解離速度、酵素の阻害又は刺激に対する能力、結合力（機能的親和性）など；生理学的関連特性、例えば、プロテアーゼ耐性、免疫原性、１以上の免疫エフェクターを活性化する能力、血液脳バリアを通過する能力、上皮（例えば、腸上皮、肺上皮など）を通過する能力、細胞内に入る能力、細胞膜／脂質二重層を通過する能力、特定の細胞型の細胞内に入る能力、固形腫瘍に浸透する能力、臓器／細胞型特異的送達への適合性など；薬物動態学的特性、例えば、消失半減期、クリアランス、毒性、臓器特異的薬物動態など；から選択され得る。インシリコで評価できる特性には、タンパク質の安定性、免疫原性、結合親和性、又はインシリコ配列解析から少なくとも部分的に導き出せるその他の機能が含まれ得る。これらの各工程について、さらに詳しく説明する。

【0124】

定常領域及び可変領域を指定することにより、上述のように核酸ライブラリの設計は、タンパク質配列空間の探索を特定の領域（すなわち、可変部分によって表される領域）に制
約することを可能にする。これにより、タンパク質工学プロセスが簡素化され、たとえば、変動性が１以上の所望の特性に関連して改善をもたらす可能性が高い領域に焦点を当てることができる。さらに、ライブラリ内の変異体が、部分（パーツ）を単位として構造的に定義されている場合、その一部は定数部分（パーツ）であり、一部は可変部分（パーツ）であり得、これらは別個に供給し組み立てることができる。これにより、定常部分（パーツ）をライブラリに１回供給するだけで、そして必要に応じて増幅（ＰＣＲなど）され得ることで、複数の可変部品の調達が配列の特定（できれば短い）領域に制限できるため、実用性とコスト効率の大幅な改善につながり得る。さらに、定常部分は、プロモーター、フラグ、エンハンサー、局在化シグナル、マーカー、例えば、ライブラリ内のすべての配列に共通するスキャフィールド（足場）などとして機能するタンパク質配列の部分といった、機能的要素を含むように、設計され得る。さらに、定常部分の代替バージョンを簡単に取得し得（たとえば、異なるプロモーター又はフラグを含む）、可変部分のコレクションと組み合わせて新たなライブラリを作成し得る。

【0125】

図２は、本発明の実施形態によるライブラリ構造の例を示し、上記の工程１２、１４、及び１６の結果を示している。図２に示される実施形態では、各配列変異体は、プロモーター２０２及びタグ２０４（例えば、精製タグ）を含む第一の定常部分２００を含み、定常部分の全体が配列の定常領域を表す。第一の定常部分２００は、エンコードされたタンパク質のＮ末端キャップ２０６の一部を含む。各配列変異体は、エンコードされたタンパク質のＣ末端キャップ２１０の一部と、リンカー配列２１４に囲まれた精製タグ２１２とを含む、第二の定常部分２０８をさらに含む。各配列変異体は、２つの可変部分２１６、２１８をさらに含む。可変部分２１６、２１８は、変動性が導入される複数の位置のサブセットをそれぞれ含む、少なくとも１つの可変領域２２０を含む。部分２００、２０８、２１６、２１８のそれぞれは、隣接する部分の末端配列と同一である、少なくとも１つの短い末端配列２２２ａ、２２２ｂ、２２２ｃをさらに含み、アセンブリ（組み立て）のためのオーバーハングの作成を可能にする。

【0126】

実施形態において、短い配列（及び対応するオーバーハング）は、２から２０塩基の間の長さを有し得る。実施形態において、短い配列（及び対応するオーバーハング）は、４から１０塩基の間の長さを有し得る。図２はさらにプライマー２２４ａ、２２４ｂ、２２４ｃ、２２４ｄを示し、プライマーのＰＣＲ伸長によって一本鎖のＤＮＡ部分から二本鎖ＤＮＡ部分が生じるために、それぞれが部分２００、２０８、２１６、２１８の１つとアニールするように提供される。図示の実施形態では、いくつかのプライマー、具体的には、隣接する部分の対の間で同一である、短い末端配列２２２ａ、２２２ｂ、２２２ｃ内にある部分の領域に結合する、プライマー２２４ａ、２２４ｂ、２２４ｃは、デオキシウリジンを含む。これは、以下でさらに説明するように、アセンブリ（組み立て）工程２４に有用であり得る。簡単に言えば、これらのプライマーにデオキシウリジンが存在すると、伸長すると、それぞれの末端にＵを含む、部分２００、２１６、及び２１８に対応する二本鎖ＤＮＡフラグメントが作成され、これは、ウラシル固有の切除試薬によって認識され、アセンブリ用の“粘着末端”又はオーバーハングを作成する。図２に示される実施形態では、部分２１６、２１８及び２０８は、短末端配列２２２ａ、２２２ｂ及び２２２ｃ（それぞれ部分２１６、２１８及び２０８内）に隣接するデオキシウリジンを含む。これは、前述及び後述でさらに説明するように、アセンブリ工程２４に有用であり得る。実施形態において、相補的プライマーは、定常部分２００及び２０８を増幅するために提供され得る。言い換えると、リバースプライマー２２４ａ、２２４ｄのみが図２に示されているが、対応するフォワードプライマーは、各定常部分のプライマーの対を用いる、定常部分のＰＣＲ増幅を可能にするために提供され得る。同様に、可変部分を増幅するために、対応するフォワードプライマーが提供され得る。これらは、デオキシウリジンを有利に含み得る。理論に拘束されることを望まないが、様々な可変部分と組み合わせるための定常部分のプールを得るために、定常部分の増幅が有利であり得ると考えられている。対照的に、
可変部分の増幅は、例えば、いくつかの配列でそれを人工的に濃縮することによってライブラリ内にバイアスを導入するリスクを低減するために、有利に回避され得る。

【0127】

実施形態では、定常部分は、最大約２０００ヌクレオチド長になるように設計される。上述したように、定常部分は有利には一度だけ供給するだけでよく、変動性を含まない。したがって、これらの配列は、二本鎖ＤＮＡ（ｄｓＤＮＡ）として容易に供給され得、これは、例えば、細菌細胞において複製可能なプラスミド内にそれらを含めることによって、低コストで有利に複製され得る。実施形態では、可変部分は、最大約２００ヌクレオチド長になるように設計される。そのような長さは、高精度で化学的に合成するのに有利に適している。さらに、可変部分は一本鎖ＤＮＡ（ｓｓＤＮＡ）として供給され得る。これは、ランダムな変動性が高い可変部分の複雑なコレクションが使用される状況で特に有利であり得、これは、これらが従来のオーバーラップエクステンションＰＣＲを使用して合成することが難しいことによる。

【0128】

図２の実施形態に示されるように、可変領域は、しばしば、ライブラリ中の変異体によりエンコードされるタンパク質のコード配列内に位置する。したがって、可変部分は、通常、ライブラリ内の変異体によってエンコードされるタンパク質のコード配列の一部を含む。プロモーター配列（例えば、Ｔ７プロモーター配列）、リボソーム結合部位、１以上の任意のタグ、及び、エンコードされたタンパク質のコード配列の開始（すなわち、Ｎ末端部分）を含む、少なくとも１つの定常領域が典型的に提供される。定常領域のサイズに応じて、これは、定常部分として有利に提供され得る。実施形態において、可変領域は、代わりに又はさらに、調節機能を有することが期待される非コード配列を含み得る。例えば、プロモーター配列、リボソーム結合部位などのいくつか又は一部を含む可変部分を提供し得る。そのような実施形態は、これらの領域の変動性が、ライブラリ内の変異体によってエンコードされるタンパク質のコード配列の発現に、所望の影響を及ぼし得るかどうかを調査するために有利に使用され得る。さらに、エンコードされたタンパク質のコード配列の末端（すなわち、Ｃ末端部分）、及び１以上の任意の精製タグを含みて、少なくとも１つの第二の又は最後の定常部分が提供され得る。実施形態において、定常部分は、例えば、エンハンサー配列、局在化シグナル、フラグ配列、マーカー配列、及び選択配列などの、機能要素がエンコードされた１以上の配列を含む。

【0129】

図２に示される実施形態は、２つの可変部分及び２つの一定部分を含むが、他の複数の部分の組み合わせが可能であることが理解されよう。具体的には、さらなる定常部分が２つの可変部分の間に提供され得る。あるいは、定常部分は提供されない。例えば、提供されるすべての部分は、１以上の可変領域を含み得、これらは、定常領域に隣接（ｆｌａｎｋｅｄｂｙ）／近接（ａｄｊａｃｅｎｔｔｏ）し得る。さらに、定常領域は、有利には、複数の定常部分に分割され得る。これは、例えば、非常に大きな配列が使用される場合、及び／又は、定常部分に提供される機能要素のモジュール性が有利であり得る場合に、有利であり得る。実施形態では、各配列変異体は、正確に２つの可変部分及び２つの定常部分を有する。理論に縛られることを望まないが、ライブラリ構造を２つの可変部分に制限することは、可変部分の調達（ソーシング）に関連するコストを制御し、可変部分が同様のセクション（例えば、反復足場）を含む場合に、ライブラリアセンブリ工程に導入されるエラーのリスクを低減するのに役立つと考えられ得る。

【0130】

工程１６では、ライブラリに導入される変動性が定義される。実施形態では、可変領域は、少なくとも１つの位置においてランダムな変動性を含むように設計される。位置（又は複数の位置）は、（図２の実施形態に示される位置２２０の場合のように）定義され得るか、又は（例えば、ランダム突然変異誘発を用いる場合のように）可変領域全体にわたってランダムであり得る。したがって、実施形態では、可変領域は、可変領域の１以上の特定の位置にランダムな変動性を含むように設計されている。ランダムな変動性（その位置
が特定であるかランダムであるかを問わず）は、各塩基（Ａ、Ｃ、Ｔ、Ｇ）の確率を提供することによって制約され得る。複数の特定の可変位置が使用される実施形態では、各塩基の確率は、各可変位置にわたって同じであり得るか、又は可変位置に依存し得る。実施形態では、少なくとも１つの位置の少なくとも１つの塩基に関する確率は０であり得る（すなわち、１以上の特定の塩基が除外され得る）。実施形態において、変動性は、可変配列を、配列の各トリプレットがＤＮＡコドンに対応する配列に、可変配列を制限するように制約され得る。特定の実施形態では、可変部分内に終止コドンを含む変異体を除外するように、変動性を制約して、短縮タンパク質を潜在的にエンコードする配列を除去することができる。実施形態では、例えば、コドンに重みを割り当てることによって、いくつかのコドンが他のコドンよりも発生する可能性が低くなるように、変動性を制約することができ得る。例えば、システイン及びプロリンなどの特定のアミノ酸をエンコードするコドンは、たとえば、他のコドンよりもこれらのアミノ酸をエンコードするコドンに低い重みを適用することによって（たとえば、デフォルトの重みが割当てられ得る）、好ましくは回避され得るが、正式に除外されない場合があり得る。実施形態において、変動性は、変異体によってエンコードされるタンパク質ライブラリに現れる、アミノ酸の比率がほぼ所望の比率に対応することを確実にするように設計されたコドンに、重みを割り当てることによって制約され得る。

【0131】

実施形態では、可変領域は、選択されたタンパク質配列を分析して、変動性が少なくとも１つの所望の特性の改善／獲得をもたらすと予想される１以上の領域を特定することによって設計され得る。実施形態では、そのような領域は、保存領域、デフォルトで可変であるとみなされる非保存領域を特定するために、及び／又は、例えば相互作用パートナーを変更することにより変更させることができる、相互作用領域／ドメインなどの機能領域（“ドメイン”と呼ばれることもある）を特定するために、選択されるタンパク質配列に関連するタンパク質配列をアライニング（整列）させることによって特定され得る。実施形態では、そのような領域は、相互作用領域、露出領域、弱点などを特定するために（実験的又は予測されたタンパク質構造を使用して）選択されたタンパク質の構造分析によって特定され得る。実施形態において、そのような領域は、潜在的な弱点（例えば、露出ループなどのプロテアーゼ感受性点）を同定するための配列分析によって特定され得る。実施形態では、そのような領域は、文献分析によって特定され得る。実施形態では、可変領域は、以前に取得された１以上のライブラリに関連付けられたデータに機械学習アルゴリズムを適用することにより取得されたモデルを使用して設計され得る。このようなモデルは、変動性が少なくとも１つの所望の特性の改善／獲得をもたらすと予想される１以上の領域を特定するために使用され得、そして、ライブラリに変動性を導入するときに含まれる又は除外される、特定の変異又は変異の組み合わせを特定するために使用され得る。当業者が理解するように、これらのアプローチのそれぞれの任意の組み合わせは、１つのライブラリ設計プロセス内で組み合わせることができ得、それはさらに、少なくとも部分的に自動化することができる。逆に言うと、実施形態では、定常領域は、変動性がタンパク質の完全性及び／又は１以上の所望の特性の少なくとも１つに害を及ぼすことが予想される、選択された配列の１以上の領域を特定することによって設計され得る。これは、上記のアプローチのいずれかを使用して実行可能である。

【0132】

アセンブリ（組み立て）工程２４において、定常部分（存在する場合）のそれぞれに対応する核酸分子、及び工程２２で別々に供給される（例えば、市販のオリゴヌクレオチド合成サービスから供給される）１以上の可変部分の変異体に対応する核酸分子は、ライブラリの核酸配列変異体のそれぞれを作成するために物理的にアセンブリされる。アセンブリの前に、１以上の定常部分のそれぞれに対応する複数の核酸分子（使用する場合）は、当技術分野で知られているように、ポリメラーゼ連鎖反応（ＰＣＲ）によって１以上の定常部分のそれぞれを増幅することによって得ることができ得る。さらに、アセンブリの前に、１以上の可変部分の変異体に対応する複数の二本鎖核酸分子は、シングルプライマーエ
クステンション（単一プライマー伸長）により第二のＤＮＡ鎖を合成することによって得ることができ得る。有利なことに、可変部分の生成にＰＣＲを使用しないことにより、エラー及び増幅バイアスがライブラリ内に導入されないことが保証される。可変部分が各変異体に関し特有の確率で設計されている場合、ＰＣＲの忠実性と増幅バイアスにおける通常の変動がこれらの確率を変える可能性があるため、これは特に有利である。組み合わされた二本鎖核酸配列における、定常及び可変部分のアセンブリは、当技術分野で既知の任意の組み立て方法を使用して実施可能である。

【0133】

実施形態では、部分（パーツ）のアセンブリング（組み立て）は、ＵＳＥＲ（ウラシル特異的切除試薬）アセンブリによって部分（パーツ）をアセンブリすることを含む。ＵＳＥＲアセンブリは、デオキシウリジン（ウリジンに密接に関連している）と呼ばれる非天然ヌクレオチド塩基を、特定の位置のライブラリの核酸部分に組み込むことによって機能する。したがって、そのような実施形態では、核酸部分は、それらの配列の特定点にデオキシウリジン残基を含む。これらは、ＰＣＲによって導入することができ、及び／又はｓｓＤＮＡ部分及び／又はシングルプライマーエクステンション（単一プライマー伸長）に使用されるプライマーに存在することができる。次に、部分（パーツ）内のデオキシウリジンは、ＵＳＥＲ酵素ミックスによって処理され、これは、最初にデオキシウリジンの塩基を切り取り、次にデオキシウリジンの両側のＤＮＡバックボーンを切断する。これにより、分子の短い端（たとえば、３’端）が解離し（低い溶融温度のため）、短い一本鎖領域が残される。次に、これらの一本鎖領域を、対応する入力部分の相補鎖とハイブリダイズさせる。最後に、ＤＮＡリガーゼ酵素（たとえば、Ｔ４リガーゼ）を使用してＤＮＡバックボーンを封鎖する。

【0134】

ＵＳＥＲアセンブリは、制限酵素に依存せず、傷がなく、プログラム可能なオーバーハングを生じるため、有利である。制限酵素は、ＤＮＡの特定の配列モチーフを認識する。高度にランダム化されたライブラリを使用する場合、これらのモチーフはライブラリのコード配列内で発生する可能性が高く、それによって一部の変異体が破壊される。さらに、ＤＮＡアセンブリの多くの従来法では、“痕跡（スカー）”が残り、これは、領域をアセンブリする際に常に発生する短い固定配列である。これは、タンパク質コード配列などの機能配列に瘢痕が存在する場合に問題となる。最後に、ＵＳＥＲアセンブリは、アセンブリされるフラグメントの末端にある相補的な一本鎖ＤＮＡの領域（“粘着末端”と呼ばれる）を使用し、アセンブリを指示する。これは他の多くの方法にも当てはまるが、ＵＳＥＲアセンブリでは、粘着末端の配列と長さは、プロセス自体には組み込まれず、そして、配列がデオキシウリジン残基の取り込みを可能にしなければならないという単一の制約をもって設計される、そこでは、相補鎖上に粘着末端を生じるよう鎖が切断される。そのようにして、アセンブリプロセスの特異性（方向性を含む）と効率が設計される。したがって、実施形態では、ライブラリ設計工程１０は、アセンブリ工程に関して粘着末端（オーバーハング）を形成するための、デオキシウリジン残基を後で組み込むことを可能とするように、定常部分（使用する場合）及び可変部分を設計することを含む。

【0135】

実施形態では、工程２４は、ダーウィンアセンブリを使用することを含む。ダーウィンアセンブリは当技術分野で既知である。たとえば、Cozensら、２０１８（Nucleic Acids Res；４６（８）：ｅ５１、参照により本明細書に組み込まれる）は、ダーウィンアセンブリを使用してライブラリをアセンブリするためのプロトコルを記載している。本発明者らは、本発明の方法におけるダーウィンアセンブリの使用が、ＤＮＡライブラリにおける、多数（例えば、３を超える、例えば、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、２０、２５、３０、３５、４０、４５又は５０）の小さな可変領域（例えば、１～１５、１～３０、１～５０、１～７５、１～１００又は１～２００ヌクレオチド長、好ましくは１００未満のヌクレオチド長の可変領域）の効率的な追加を可能にすることを見出した。さらに、本発明者らは、本発明の方法におけるダーウィンアセンブリの使
用が、ライブラリ変異体における塩基の非特異的挿入又は欠失を減少させ、それがフレームシフト突然変異の発生率を減少させることを見出した。本発明者らは、ダーウィンアセンブリが、結合タンパク質全体に可変領域、例えば、抗体フレームワーク領域及び抗体模倣フレームワーク／足場領域を導入するのに、特に有用であることを見出した。

【0136】

実施形態において、工程２４は、インバースＰＣＲ（逆ＰＣＲ）を使用することを含む。インバースＰＣＲ法は当技術分野で既知であり、例えば、Ochmanら、１９８９（Erlich H.A.（eds）PCR Technology, Palgrave Macmillan、London）を参照されたい。インバースＰＣＲは、テンプレートから目的の変異を導入するために必要なＰＣＲ増幅工程が１つだけであるため、単純なＤＮＡライブラリの迅速かつ効率的なアセンブリを可能にする、特に単純な手法である。本発明者らは、ライブラリ設計が単純である場合（すなわち、変動性が小さい領域、例えば単一ヌクレオチド、又は約３～５０ヌクレオチド長の領域、例えば、３～３０ヌクレオチド長、及び／又は、変動性が少数である領域、例えば、１０未満、５未満、４、３、又は２未満、例えば単一領域の変動性など）に、インバースＰＣＲが本発明の方法において特に効果的であることを見出した。

【0137】

所望の特性についてライブラリを試験する前に、工程２６で核酸ライブラリからタンパク質ライブラリを取得する。核酸ライブラリは通常ＤＮＡライブラリであるため、これにはＤＮＡライブラリの転写及び翻訳が含まれる。実施形態において、定常部分の少なくとも１つは、Ｔ７プロモーターを含み、そしてＤＮＡライブラリをＴ７ＲＮＡポリメラーゼと共にインキュベートすることを含む、ＤＮＡライブラリを転写するように設計される。有利なことに、Ｔ７ＲＮＡポリメラーゼは、明確に定義されたプロモーター配列（ＴＡＡＴＡＣＧＡＣＴＣＡＣＴＡＴＡＧ（配列番号１）であり、転写は３’末端にあるＧで始まる）を有し、そして非常に低いエラー率を有する。

【0138】

本発明によれば、核酸ライブラリは、好ましくは、各ＲＮＡテンプレートとそのエンコードされたタンパク質との間の関係を維持するような方法で、すなわち、いわゆる“ディスプレイ技術”を使用することによって翻訳される。有利なことに、これは、タンパク質ライブラリが、工程３０でタンパク質機能に関連するハイスループットアッセイに供される（すなわち、ライブラリの少なくとも重要な部分が並行して試験される）一方で、アッセイの結果として１以上の所望の特性を有すると特定されたタンパク質のハイスループット特定を可能にすることを意味する。実施形態において、核酸ライブラリを翻訳してタンパク質ライブラリを生成することは、それがエンコードするタンパク質に結合したＲＮＡ配列変異体をそれぞれ含む、ＲＮＡ－ポリペプチド融合分子を合成することを含む。実施形態では、これは、“ｍＲＮＡディスプレイ”と呼ばれる技術を使用して行うことができる。特定の実施形態では、ピューロマイシン（小分子抗生物質）を含む修飾オリゴヌクレオチドが、転写されたｍＲＮＡテンプレートの末端に付着している。これは、ＤＮＡの一部を３’ピューロマイシン分子（“ピューロマイシンリンカー”と呼ばれる）で各ｍＲＮＡテンプレートの３’末端にライゲーション（ｌｉｇａｔｉｎｇ）することによって実行される。ＤＮＡの断片は、翻訳を停止させる二次構造を含み、それによってピューロマイシンがリボソームに入り込み、合成されるペプチドに共有結合することを可能にする。このように、翻訳時に、ピューロマイシンは、アセンブリされるタンパク質とｍＲＮＡの間に共有結合を形成する。ｍＲＮＡの存在は、特にタンパク質が小さい場合、所望の特性を試験するために使用されるアッセイの結果を変更し得る。ただし、この潜在的な欠点は、タンパク質変異体の特定の容易さに関連する利点を上回る（以下を参照）。

【0139】

実施形態では、Galanら、Mol. BioSyst.、2016、12、2342-2358（その内容は参照により本明細書に組み込まれる）など、当技術分野で知られているように、他のディスプレイ技術を使用し得る。例えば、ファージディスプレイ、ＣＩＳディスプレイ（シス活性ベースのディスプレイ）、ｃＤＮＡディスプレイ、酵母ディスプレイ、大腸菌（Ｅ．ｃｏｌｉ）
ディスプレイ、リボソームディスプレイ、共有結合抗体（ＣＡＤ）ディスプレイ、インビトロ区画化、胞子表面ディスプレイ、及びＳＮＡＰタグディスプレイから選択される任意のディスプレイ技術が、使用され得る。一実施形態では、使用されるディスプレイ技術は、ｍＲＮＡディスプレイ又はファージディスプレイからなる群から選択される。

【0140】

理論に拘束されることを望まないが、ファージディスプレイは、ｍＲＮＡディスプレイと比較して、大きなタンパク質（例えば、１０ｋＤａより大きいタンパク質、例えば、１５、３０、４０又は５０、１０－１００又は１０－５０ｋＤａ）の効率的なディスプレイを可能にし、したがって、大きなタンパク質に対応するライブラリ内の変異体のより効率的な選択を可能にするので、本発明において有利であると考えられる。さらに、理論に拘束されることを望まないが、プロセス全体がインビトロで起こるので、ｍＲＮＡディスプレイは、本発明において有利であると考えられる。これにより、ＤＮＡライブラリを細胞に変換する必要がなくなり、これは、多くの場合、効率の低いプロセスであり、ボトルネックが発生し、ライブラリにバイアスがかかる可能性があるものである。さらに、ｍＲＮＡディスプレイでは、コード配列がタンパク質に共有結合しているため、過酷な試験条件下でも２つの部分が解離するのを防ぐ。これは、例えば過酷な条件への耐性といった、幅広い所望の特性を試験することを可能にする。実施形態において、生成されたタンパク質ライブラリは、サンプル中のタンパク質を精製し、タンパク質ライブラリに関連するｍＲＮＡの量を定量化するために逆転写定量的ＰＣＲを実行することによって品質管理され得る。そのような実施形態において、定常領域の少なくとも１つは、タンパク質精製タグをエンコードする配列を含むように設計され得る。例えば、タンパク質精製タグは、ストレプトアビジン結合ペプチドであり得る。ｍＲＮＡディスプレイ工程が成功した場合、この分析では、タンパク質精製後のタンパク質ライブラリサンプル中にＲＮＡが存在することが示される。

【0141】

ファージディスプレイがディスプレイ技術として使用される実施形態では、ファージディスプレイ選択プロセスは、ある範囲の選択ストリンジェンシー（stringencies）を使用して実行される。例えば、本発明での使用に適した選択ストリンジェンシーには、例えば、標的タンパク質濃度の変化、プロテアーゼ濃度（例えば、トリプシン及び／又はキモトリプシン濃度）の変化、標的タンパク質濃度変化、及びプロテアーゼ濃度（例えば、トリプシン及び／又はキモトリプシン濃度）変化などが挙げられる。

【0142】

工程２６でタンパク質ライブラリを取得した後、タンパク質ライブラリを１以上のアッセイに供して、１以上の所望の特性を試験することができ得る。該アッセイは、タンパク質ライブラリを少なくとも２つのサンプルに分割し得る。タンパク質ライブラリは、核酸配列とそのエンコードされたタンパク質との関係を維持する方法で取得されるため（たとえば、ｍＲＮＡディスプレイを使用）、これら２つのサンプルの一方又は両方を次世代シーケンシングに供することができる。実施形態において、例えば、ｍＲＮＡディスプレイが使用される場合、これは、配列決定される任意のサンプルを逆転写及び精製することを含む。１以上の機能アッセイを使用して特性評価されたサンプル中のタンパク質を特定するための次世代シーケンシングの使用は、非常に高いレベルで、（アッセイでのパフォーマンスに応じて）所望の機能を有する／有していないタンパク質を特定することを可能にする。タンパク質レベルでの変異体の特定は、非常にエラーが発生しやすく（たとえば、質量分析プロテオミクスは現在でもＤＮＡシーケンシングよりも大幅にノイズが多い）、及び／又は顕著に遅くなり得る。実施形態では、分割された２以上のサンプルは、バーコード化され、一緒に配列決定され得る。実施形態では、配列決定後、読み取られた配列（“読み取り”とも呼ばれる）を、工程１０（又は場合によっては１０'）で設計された核酸ライブラリの配列とアライニング（整列）させ得る。実施形態では、読み取り（リード）は、ライブラリ内の部分（パーツ）の可能な組み合わせのすべてを明示的に列挙する配列のセットというよりはむしろ、ライブラリを生じさせるために使用された配列設計とアラ
イニングされ得る。これは、アラインメント（位置合わせ）プロセスの計算効率に有利に影響を与え得る。これに関して、“配列設計”は、（ライブラリ内の部分の可能な各組み合わせというよりはむしろ）ライブラリ内の各部分の別個の配列を言及し得、及び／又は、読み取りを整列させるときに、可変領域として設計された任意の領域の変動性（任意に制約された変動性）を可能にする一般的な配列（又は一般的な配列のセット）を言及し得る。アラインメント後、読み取り（リード）は連続配列にマージ（ｍｅｒｇｅ）され得る。好ましくは、例えば、１から数百塩基対のオーダー、又は約６００塩基対の長さといった、長い読み取りを提供する配列決定技術（シーケンシングテクノロジー）が使用され得る。有利には、ペア－エンドシーケンシング技術が使用され得る。例えば、１から数百塩基対の長さ（例えば、約３００塩基対の長さ）の読み取りを有するペアエンドシーケンシング技術が有利であり得る。たとえば、ＭｉＳｅｑシステムで使用されるイルミナ（登録商標）ビーズベースのシーケンシングテクノロジーが使用され得る。有利なことに、長い読み取りの使用は、いくつかの配列変異体が可変領域のサブセットを共有している場合でも、読み取りを配列変異体に一意に帰属させることができる可能性が高くなり得る。配列変異体の長さ及び／又は使用される部分の長さに応じて、例えば１～５万塩基対のオーダーでさらに長い読み取りを提供する配列決定技術が使用され得る。例えば、ＰａｃＢｉｏのＳｅｑｕｅｌＳｙｓｔｅｍにあるような単一分子リアルタイムシーケンシング技術が使用され得る。読み取り及び／又はマージされた配列は、位置ごとであるか、複数の位置の平均（たとえば、読み取り全体又はスライディングウィンドウ）であるかにかかわらず、塩基呼び出しプロセスに関連付けられたスコアにフィルタを適用するなど、１以上の品質管理工程に供し得る。次に、各配列が各サンプルに現れる回数をカウントし得る（“カウント”とも呼ぶ）。実施形態において、以下でさらに説明されるように、ライブラリはまた、ライブラリを１以上のアッセイに供する工程の前に、配列決定され得る。これは、１以上の所望の特性を選択するように設計されたアッセイの前後のライブラリ組成の比較を可能にし得る。

【0143】

実施形態では、１以上の所望の特性は、特定の標的への結合、プロテアーゼ耐性、選択された物理化学的条件での安定性などから選択される。

【0144】

図３は、本発明の実施形態によるプロテアーゼ安定性アッセイの例を示している。本発明の実施形態によるプロテアーゼ安定性アッセイのために、核酸ライブラリは、エンコードされたタンパク質３００（図３において“目的タンパク質”又はＰＯＩとして示される）がそれらのＣ末端にタンパク質精製タグ３０２を含むように設計される。例えば、タンパク質精製タグは、ストレプトアビジン結合ペプチド（例えば“ストレプ－タグ”）であり得る。ｍＲＮＡ表示に続いて、各タンパク質に関連するｍＲＮＡテンプレート分子３０４は、ピューロマイシン分子３１４を介して、タンパク質ライブラリ中の各タンパク質３００のＮ末端に結合される。タンパク質ライブラリは、１以上のプロテアーゼ３０６で消化される。所定期間、タンパク質は適切なアフィニティー精製法を使用して精製される。図３に示される実施形態では、これは、ストレプトアビジンで標識（ラベル化）された磁気ビーズ３０８を使用して実行される。すべてのタンパク質３００はＣ末端でストレプ－タグ化されているため、これらの磁気ビーズ３０８に結合する。プロテアーゼによって切断されたタンパク質のＣ末端は、引き続き、これらのビーズに結合するが、それらのコーディングｍＲＮＡ鎖３０４は固定化プロセスの間に洗い流される。このように、ビーズに残っているテンプレートＲＮＡ３０４は、プロテアーゼ安定変異体に属する。次に、プライマー３１０を使用してこのＲＮＡを逆転写して、対応するＤＮＡ分子３１２を得ることができる。次に、ＤＮＡ分子３１２を配列決定して、どのタンパク質がプロテアーゼ安定であるかを明らかにすることができる。実施形態において、磁気プルダウン中に洗い流されるＲＮＡもまた、逆転写及び配列決定され、ポジティブセットと比較するためのネガティブデータセットを与えることができる。

【0145】

図４は、本発明の実施形態による結合アッセイの例を示す。ｍＲＮＡ表示に続いて、タンパク質ライブラリは、結合ドメイン４０２ａを有するエンコード化タンパク質４００（図４中、“目的タンパク質”又はＰＯＩとして示される）及び結合ドメイン４０２ｂを有するエンコード化タンパク質４００（図４中、“目的タンパク質”又はＰＯＩとして示される）を含み得、各タンパク質４００は、ピューロマイシン分子４１４を介してそのｍＲＮＡテンプレート４０４と結合する。したがって、ライブラリは、表面に固定化された特定の標的３０６とともにインキュベートされ得、これ（表面）は、図４に示される実施形態では、磁気ビーズ４０８の表面である。標的３０６に結合する結合ドメイン４０２ａを有するタンパク質は、（例えば、磁気ビーズをプルダウン（引き下げる）ことによって）、標的４０８に結合しない結合ドメイン４０３ｂを有するタンパク質から分離され得る。次に、プライマー４１０を使用して第一サンプル中のＲＮＡを逆転写し、対応するＤＮＡ４１２を得ることができる。次に、これらを配列決定して、標的３０６に結合する配列変異体を特定することができる。実施形態では、この方法は、非特異的相互作用を除去するために、インキュベーション後の表面の洗浄をさらに含み得る。実施形態では、この方法は、同じライブラリを制御条件（例えば、固定化標的なしの表面のみ）に供して、偽陽性（例えば、標的というよりはむしろ表面に結合する変異体）を除外することをさらに含む。

【0146】

工程４２で、１以上のフィットネススコアは、工程３２で試験された各変異体に関連付けられ得る。特に、ライブラリ試験工程は、複数の特性について変異体を試験することを含み得、複数のフィットネススコアが試験された各変異体に割り当てられ得、ここで各フィットネススコアは複数の特性の１つに対応する。以下、スコアリングプロセスについて詳しく説明する。実施形態では、各配列変異体に関連する１以上のフィットネススコアは、各配列が第一サンプルに現れる回数及び各配列が第二のサンプルに現れる回数に依存し、この数は上記に説明したように、各サンプルを次世代のシーケンシングに供することによって得ることができる。実際、理論に拘束されることを望まないが、これは、配列が特定のプールに出現する周波数（頻度）が高いほど、この配列が真にそのプールに属している可能性が高いという仮定によって明確に示される。たとえば、プロテアーゼ選択中にプロテアーゼに供した後（プロテアーゼ選択前と比較して）に配列が１００倍頻繁に出現する場合、プロテアーゼの安定性について高いスコアを獲得し、選択中にプロテアーゼに供した後に出現する周波数（頻度）が１００倍少ない配列は、プロテアーゼの安定性について低いスコアを獲得する。有利なことに、配列をスコアリングするこの方法は、システム内のノイズの影響を減らすことを可能にする。配列が選択後に１回だけ表示される場合、これは単にライブラリの準備中に導入されたエラーであり得るか、又は実際に安定性が向上しているというよりはむしろ、たまたまプロテアーゼに遭遇しなかった配列であり得る。

【0147】

実施形態では、配列変異体に関連するフィットネススコアは、特定の工程が配列に関してどれほど偏っているのかを定量化するスコアである。これは、たとえば、以下で説明するように、確率的スコアであり得る。該スコアは、本方法の任意の工程に関連付けることができ得るが、より一般的には、試験工程の任意のサブ工程（機能性アッセイなど）に関連付けられる。たとえば、所望の機能を試験するアッセイは、アッセイ前後のライブラリにおける配列データ（例えば配列カウント）を比較することにより、ライブラリ内の各配列に対して工程がどの程度バイアスされているかを定量化するスコア（“バイアス”又は“バイアススコア”とも呼ばれる）に関連付けることができる。

【0148】

実施形態では、スコアは、０（強い負のバイアス）と１（強い正のバイアス）との間で定量化される。例えば、これは、単純な比率ベースのアプローチ（例えば、カウント比率の計算に基づく）又はベイズ（Ｂａｙｅｓｉａｎ）の方法論を使用して実行され得る。０から１の間のスコアの使用は、たとえば回帰モデルなどの多くのモデルでの使用に有益であり得る。実施形態では、スコアは、ベイズ方法論を使用して、０（強い負のバイアス）と１（強い正のバイアス）との間で定量化される。実施形態では、以下でさらに説明するよ
うに、０から１の間の連続スコアをモデルのトレーニングに使用し得る。実施形態では、例えば分類子をトレーニングする目的で、０から１の間の連続スコアにラベルを割り当てることができる。たとえば、中間スコアは、主観的な信頼水準に応じて、負のバイアス、正のバイアス、又は“以前と同様”（状況によっては“成功”とラベル付けされ得る）とみなされ得る。実施形態では、１以上の信頼水準を定義して、ラベルスコアを“期待値未満／失敗”（例えば、第一の閾値未満）、“期待値超／成功”（例えば、第二の閾値を超える）、又は“期待値内”（例えば、１番目と２番目の閾値の間）と定義し得る。実施形態では、スコアは、所与の配列について、工程後の配列変異体のｙカウントを測定する期待値を定量化するように設計されたベイズ方法論を使用し、未知の平均λを有するポアソン分布を仮定し、工程前の配列変異体（すなわち、ｐ（ｙ｜ｘ））に関してｘカウントを測定して、定量化される。特に、ｘとｙが抽出されるサンプルサイズが等しい場合、ｐ（ｙ｜ｘ）は（ｘ＋ｙ）！／（ｘ！ｙ！２（ｘ＋ｙ＋１））として計算できる。ｘとｙが抽出されるサンプルサイズが均一でない場合（ｘはサンプルサイズＮ１から観察され、ｙはサンプルサイズＮ２から観察される）、ｐ（ｙ｜ｘ）は（Ｎ２／Ｎ１）ｙ^＊（（ｘ＋ｙ）！／（ｘ！ｙ！（１＋（Ｎ２／Ｎ１））（ｘ＋ｙ＋１）））として計算できる。これらの値は、ｐ（ｘ）とｐ（ｙ）が、未知の平均λを有する同じポアソン分布に由来することを前提とし、ここで、λにはフラットな事前確率（a flat prior）が想定される。これらの統計の詳細は、Audic＆Claverie（Genome Research 1997、7：986-995）に記載されており、参照により本明細書に組み込まれる。実施形態では、λについて非フラットな事前確率を想定し得る。たとえば、Audic＆Claverie（Genome Research 1997、7：986-995）で説明されているように、０から無限大の代わりに、λに関して限定された関心領域を選択できる（つまり、フラット事前確率）。

【0149】

次に、すべてのｐ（ｙ_ｉ｜ｘ）（式中、ｙ_ｉはサブセット［０、ｙ］内の任意のカウントｙ）の合計を計算することにより、配列変異体のスコアを導出でき得る。これは０から１の間のスコアを有利にもたらす。

【0150】

図５は、工程（ｙ）の後に特定の変異体で観察された読み取りの数と、工程（ｘ）の前に変異体で観察された読み取りの数の比例の関数として、工程の前に特定の変異体で観察された読み取り数の３つの異なる値（ｘ＝２、ｘ＝２０、ｘ＝２００）について、Ｎ２／Ｎ１＝１．０２の計算されたバイアススコアを示す。図５に示されているように、このスコアリングアプローチでは、ｘの値が大きいほど（つまり、工程の前により多くの配列が観察された）、バイアススコアの漸近線が極端に速くなる（負のバイアスの場合は０、正のバイアスの場合は１）。有利なことに、これは、工程の前に２回、工程の後に４回、変異体が観察される状況と比較して、配列が工程後に４０回、及び工程前に２０回、観察される場合、配列変異体に関して、工程のバイアスに対するより高い信頼を得られることを反映する。

【0151】

実施形態では、“負にバイアスされた”（例えば、バイアススコア＜０．１）配列グループ、“正にバイアスされた”（例えば、バイアススコア＞０．９）配列グループを定義するために定義を使用し得、そして残りの配列を“期待どおり／バイアスなし”として定義され得る。これらの定義は、以下でさらに説明するように、工程４４の機械学習アルゴリズムにより使用され得る。実施形態では、負にバイアスされている、又は正にバイアスされている配列の閾値を、選択された信頼水準ＣＬを使用して設定することができ得る。特に、スコアが１－εを超える配列は“正のバイアス”としてラベル付けされ得、一方で、スコアがε未満の配列は“負のバイアス”としてラベル付けされ、ここでεは（１－ＣＬ）／２として計算される。たとえば、ＣＬ＝０．９９７５の信頼度は、４００回のテストで１エラーの許容範囲を表す（１／（１－０．９９７５）、３Σ信頼度とも呼ばれる）。実施形態では、ＣＬは、少なくとも０．９９７５（４００のテストごとに１つのエラー）、少なくとも０．９５５（２２のテストごとに１つのエラー、２Σ信頼度とも呼ばれる）
、又は少なくとも０．６８３（３つのテストごとに１つのエラー、１Σ信頼度とも呼ばれる）である。実施形態では、フィットネススコアは、配列が第一及び第二のサンプルのそれぞれに少なくとも１回現れる場合にのみ、配列変異体について計算される。これは、配列プロセスの誤りが原因で表示され、“真の読み取り”ではない配列を除外するのに有用であり得る。実施形態では、スコアは、第一のサンプル、第二のサンプル、又は第一及び第二のサンプルの合計において、選択された回数未満で現れる配列変異体を除外するためにフィルタリングされる。たとえば、各サンプル又は両方のサンプルで最小４、６、８、１０、１５、又は２０回の読み取りの閾値を適用でき得る。

【0152】

実施形態では、上記のように、各所望の機能に関して、各配列変異体について別個のバイアススコアを計算することができる。例えば、タンパク質ライブラリを、第一の標的への結合親和性を定量化するための第一のアッセイ、及び第二の標的への結合親和性を定量化するための第二のアッセイに供すると仮定すると、各配列変異体に関連するこれらのアッセイの夫々のバイアスを反映して、２つの別個のスコアを計算することができる。

【0153】

工程４４で、１以上の機械アルゴリズムが、工程４２で得られたスコアを使用して予測モデルを構築するようにトレーニングされる。したがって、工程４２で得られたスコアによって測定されるように、変異体の配列の特徴をフィットネス（適合性）に関連付けるモデルが得られる。特に、各変異体に対して複数のフィットネススコアが計算される場合、組み合わせたフィットネススコアを各変異体に割り当て、単一の機械学習アルゴリズムをトレーニングして、組み合わせたスコアに基づいて予測モデルを構築することができる。好ましくは、複数の機械アルゴリズムをトレーニングすることができ、それぞれが複数のフィットネススコアのうちの１つに基づく。言い換えると、各アルゴリズムを、１つの所望の機能に関連する配列のフィットネス（適合性）を予測するようにトレーンングし得る。実施形態では、単一の（例えば、多変量）モデルを構築して、複数のフィットネススコアを予測し得る。実施形態では、変異体の配列は、２次元又は３次元のマトリクスにエンコード（符号化）され得、各変異体のフィットネススコア（１次元ベクトルとして）をラベルとして使用する。実施形態において、変異体は、アミノ酸又はヌクレオチドレベルでエンコードされる。有利には、アミノ酸レベルでのエンコードは、塩基レベルでのエンコードよりも著しく単純であり得、タンパク質の配列に関連する特性（例えば、タンパク質自体の任意の特性など）をとらえるのに適切であり得る。実施形態において、変異体は、いくつかのモデル（すなわち、いくつかの所望の機能に関連するフィットネススコアを予測するように訓練されたモデル）についてはヌクレオチドレベルで、他のモデル（すなわち、他の所望の機能に関連するフィットネススコアを予測するように訓練されたモデル）についてはアミノ酸レベルでエンコードされる。たとえば、配列は、（ホットエンコーディング）とも呼ばれる２次元バイナリマトリックスにエンコードすることができ、ここで各列は、その位置での位置と変異体に対応し（たとえば、列１：位置１－アミノ酸１、列２：位置１－アミノ酸２など）、各行は変異体に対応する（すなわち、位置１にアミノ酸２を有する変異体は、列１に０、列２に１を有する）。実施形態では、配列は、３次元バイナリマトリックスにエンコードされ得（ホットエンコーディング）、ここで、第一の次元（例えば、列）は位置に対応し、第二の次元（例えば、行）は変異体に対応し、そして第三の次元（例えば、“深さ”）は、場合によって、その位置のアミノ酸又はヌクレオチドに対応する。たとえば、最初の列は位置１に対応し、最初の行は変異体１に対応し、深さの次元はアミノ酸に対応する（深さ１＝アミノ酸１、深さ２＝アミノ酸２など）。この例では、位置１にアミノ酸２を有する変異体は、位置（列１、行１、深さ１）に０を、位置（列１１、行１、深さ２）に１を、（及び、他のすべての位置（行１、列１、深さｘ（式中、ｘは２ではない）に０を有する。あるいは、アミノ酸又は（場合によっては）ヌクレオチドを数値的にエンコード化して、各列が位置に対応し、各行が変異体に対応するマトリックスに含めることができ得る。このような例では、変異体は、その行の各列に、対応する位置のアミノ酸／ヌクレオチドを表すその番号を有する。

【0154】

実施形態では、１以上の機械学習アルゴリズムのうちの１以上は、分類子である。言い換えると、機械学習アルゴリズムは、選択されたカテゴリのセットのどれに配列が属する可能性が高いかを予測するようにトレーニングされ得る。たとえば、配列のカテゴリは、上記で説明したように、“正のバイアス”とラベル付けされたスコア、“負のバイアス”とラベル付けされたスコア、及び任意で“中立”とラベル付けされたスコアを有するものとして定義され得る。次に、機械学習アルゴリズムは、これらの各カテゴリに割り当てられた配列の機能を使用して、カテゴリに関連付けられている機能を（暗黙的又は明示的に）学習し、新たな配列のカテゴリを予測できる。機械学習アルゴリズムが分類子である実施形態では、機械学習アルゴリズムを使用して、それが提供される任意の新たな配列のクラスを予測し、及び／又は、定義されたクラスのいずれかに属するようにそれが提供される新たな配列の確率を表す連続値を予測することができる。機械学習アルゴリズムが回帰アルゴリズムである実施形態では、機械学習アルゴリズムを使用して、それが提供される任意の新たな配列のスコアを予測することができる。実施形態では、機械学習アルゴリズムは回帰アルゴリズムである。言い換えると、機械学習アルゴリズムは、各配列の数値（たとえば、連続数値）を予測するようにトレーニングされ得る。分類子は、バイアススコアがスコアの範囲の端の周りに強くクラスター化することをデータが示す場合（すなわち、配列変異体の大部分のバイアススコアが０又は１に近い）に、有利に使用できる。機械学習アルゴリズムが分類子又は回帰アルゴリズムである実施形態では、アルゴリズムは、決定木アンサンブル又はサポートベクター機械アルゴリズムであり得る。

【0155】

実施形態では、１以上の機械学習アルゴリズムを使用することができ、複数のアルゴリズムの出力を比較するか、あるいは組み合わせることができる。実施形態では、機械学習アルゴリズムは、深層学習（ディープラーニング）アルゴリズムであり得る。たとえば、機械学習アルゴリズムは、密なニューラルネットワーク、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、オートエンコーダなどから選択され得る。

【0156】

実施形態では、１以上の機械学習アルゴリズムのうちの１以上は、ニューラルネットワーク分類子、例えば畳み込みニューラルネットワーク又はオートエンコーダなどのいわゆる“ブラックボックス”アルゴリズムであり得る。実施形態では、１以上の機械学習アルゴリズムのうちの１以上は、有利には、解釈可能なモデルであり得る。機械学習アルゴリズムは、１以上の所望の特性を有する配列と有していない配列の違いをとらえるために使用される。機械学習アルゴリズムが（ニューラルネットワークのように）ブラックボックスモデルである場合、通常、モデル自体から直接分類される基礎となる配列の特徴を抽出することはできない。ただし、モデルは、モデルに入力される新たな配列のスコアを予測できる。さらに、いわゆる“ブラックボックス”アルゴリズムが使用されている場合でも、解釈可能性の手法を実装して、データに対するさらなる洞察を得ることができる。たとえば、ニューラルネットワークのエッジなどの割り当てられた重みの分析を分析することにより、特徴の重要性を試験することにより、及び／又は、一度に考慮される因子の数を制限するための注意メカニズムを実装することにより、モデルにより実施される予測に対して、特に重要な配列の特徴に関するいくつかの情報を得ることができる。有利なことに、“ホワイトボックス”又は解釈可能なモデルは、スコアの動作を強調するパターンを直接抽出することを可能にし得る。モデルから直接又は解釈可能性技術を使用して得られた洞察を使用して、新たなライブラリを設計する工程をガイドし、及び／又は有利に適合される本発明の方法の任意の特徴を特定することができ得る。たとえば、機械学習モデルからの洞察は、本方法の実験工程の設計における欠陥やバイアスを特定するのに役立ち得る。実施形態では、１以上の機械学習アルゴリズムを使用して、配列変異体の初期集団のクラス、スコア、又はクラスに属する確率を予測することができる。好ましくは、機械学習アルゴリズムを使用して構築されたモデルは、予測の信頼性の尺度とともに、配列変異体の予測スコアを提供できる。配列の複数の特徴を予測するために複数のモデルがトレーニン
グされる実施形態では、モデルに具体化された知識のいくつかをモデル間で共有することができる。理論に縛られることを望まないが、タンパク質の機能に関連する多くの特徴は、タンパク質の構造の高レベルの特徴から導き出すことができると信じられている。したがって、そのような高レベルの知識は、モデル間で有利に再利用され得る。これは、モデルを特定の機能に過剰適合させるリスクを低減し、及び／又はモデルトレーニングプロセスの効率を高めるのに有利に寄与し得る。特に、ニューラルネットワークが使用される実施形態では、モデルのいくつかの低レベル層が再利用され得、アーキテクチャの残りの部分は、個々の機能を予測するモデルごとに個別に構築され得る。モデル又はそれらから派生した学習を使用して、機能的に改善された配列変異体を見つけるという最終目的とともに、スコアリング用の機械学習アルゴリズムに提供される新たな集団のスコアを取得できる。言い換えると、試験工程３０からのデータでトレーニングされたモデル又はそれらから派生した学習は、変異体をスコアリングするために使用でき、工程４６で、以下に説明するように、改善された変異体を検索するためのツールとして使用でき得る。

【0157】

工程４６で、検索プロセスが実行されて新たな配列又は配列の集団が特定され、新たな配列は、工程４４で構築された予測モデルによって予測されるように、これまでに試験された配列又は配列の集団と比較して、（配列ごとに、又は集団レベルでの集約値に基づいて）改善されたフィトネス（適合性）を有することが好ましい。検索プロセスは通常反復的であり、新たな反復ごとに、前の反復からの学習に基づいて新たな集団が設計され、新たな集団が評価され、次の反復（“構築－試験－学習－設計サイクルと”も呼ばれるプロセス）において使用される新たな学習が導出される（たとえば、工程４４で取得された予測モデルが改善される）。

【0158】

実施形態では、２つのタイプの検索プロセスの一方又は双方を実行することができ、これらは、本明細書では、配列検索最適化及び配列ライブラリ検索最適化と呼ばれる。さらに、これらのタイプの検索のそれぞれは、全数検索として、又は確率的検索として実行され得る。全数検索は通常、検索空間ですべての可能性を生じさせ評価することを含む。確率的検索は、通常、ヒューリスティックアルゴリズムを頼りに、検索空間を探索し、以下でさらに説明するように、前記空間内の最適値を識別する。大空間において可能なすべての変異体の列挙と評価は計算コストがかかるため、全数検索は通常、比較的小さな変異体空間でのみ実行可能である。したがって、全数検索と確率的検索のどちらを選択するかは、検索する変異体空間のサイズ、及び使用可能な計算リソースによって異なる。

【0159】

配列検索の最適化では、配列変異体のリストとしての配列集団を検索及び最適化アルゴリズムへの入力として提供し（以下を参照）、改善されたフィットネスを有する配列変異体のリストとして新たな配列集団が出力として提供される。実施形態では、配列検索の最適化は網羅的である。そのような実施形態では、すべての可能な配列変異体は、工程４４で生じた予測モデルを使用して個々に評価され（すなわち、各配列及び予測モデルに関連する各特性についてフィットネススコアが予測される）、そして、改善されたフィットネスを有する配列変異体のサブセットが選択され得る。例えば、配列変異体のサブセットは、（以下でさらに説明されるように）多目的基準に従って最も高くランク付けされたサブセットとして選択され得る。あるいは、配列検索の最適化は確率論的であり得、それにより、改善されたフィットネスを有する１以上の配列変異体のセットが、１以上の配列変異体の初期セットからの検索空間の反復探索によって得られる。以下でさらに説明するように、遺伝的アルゴリズムをこの目的に使用することができ得る。実施形態では、関心のある各特性を予測するために、１以上のモデルが工程４４で構築される。例えば、同様のフィットレベルで試験されたライブラリのフィットネススコアを予測することができる、複数のモデルが存在し得る。したがって、複数のモデルを使用して配列変異体のフィットネススコアを予測し、これらのモデルの出力を集計して、集約値とこの集約値の不確実性の尺度を取得できる。たとえば、同じ特性を予測するために工程４４でトレーニングされた複
数のモデル（たとえば、３～１０、好ましくは５～１０のモデル）によって配列変異体に対して予測されたスコアの平均及び標準偏差は、配列変異体のスコアとして使用でき得る。

【0160】

配列ライブラリ検索の最適化では、最適化プロセスは、アミノ酸又はヌクレオチド（Ａ、Ｇ、Ｃ、Ｔなど）ごとの列と可変位置ごとの行を含む周波数マトリクスを入力として受け取り、各セルは、特定の位置に特定のアミノ酸／ヌクレオチドの周波数（頻度）を含む。そのため、周波数は通常０から１の間であり、各列の合計は１である。当業者が理解するように、周波数マトリクスは、配列のコレクションの集合表現を構成し、マトリックス内の周波数（頻度）は、コレクション内の配列を表す。周波数マトリクスの使用は、配列空間をより広く探索できる可能性があるため、最適化の初期段階で有利であり得る。全数検索を使用すると、複数の配列ライブラリ（周波数マトリクス）が生じ、スコアが付けられ、相互に比較される。確率的検索を使用して、１以上の配列ライブラリ（周波数マトリクス）のリストが入力として提供され、各ライブラリがスコア付けられ、１以上の改善されたライブラリの新たなリストが選択される。これは、検索の新たな反復の入力として使用できる。

【0161】

配列ライブラリ（周波数マトリクス）をスコア付けするために、周波数マトリクスは、サンプリングによる配列のサブセットを生じさせるために用いられ、該サブセットは、周波数マトリクスに要約されたライブラリの“代表的なサブセット”を表すとみなされる。次に、サブセット内の各配列を、工程４４で構築されたモデルを使用して、上記のようにスコア付けする。次に、１以上のフィットネススコアについて（すなわち、トレーニングされた１以上のモデルのそれぞれについて）、ライブラリのスコアとして、集計値（“集約値”とも呼ばれる）を計算し得る。実施形態では、集計値は、配列のサブセットのスコアの算術平均、又は配列のサブセットのスコアのｎ番目のパーセンタイル（ここで、ｎは、例えば、５０、６０、７０、８０又は９０であり得る）である。上記の配列検索の最適化に関連して、このプロセスは、工程４４でトレーニングされた複数のモデルを使用して何度も繰り返され、同じ所望の特性に関連する変異体のフィットネスを予測し得る。各モデルによって予測されたサブセット集計値全体の集計値は、予測されたサブセット集約値の変動性の尺度を含み、配列ライブラリのフィットネスの尺度として計算され使用され得る。

【0162】

最適化プロセスへの入力（例えば、配列のセット又は周波数マトリクス）は、ヌクレオチドレベル又はアミノ酸レベルで表すことができる。ヌクレオチドとアミノ酸の間に（コドンを介して）明確に定義された多対１のマッピングが存在するため、ヌクレオチドレベルでの最適化は有利であり得る。対照的に、逆マッピングはそれほど単純ではない。

【0163】

実施形態では、配列検索最適化及び配列ライブラリ検索最適化は双方とも、工程４６での検索プロセスの一部として、例えば、検索プロセスの異なる反復で実行され得る。特に、配列検索の最適化と配列ライブラリ検索の最適化は、検索の以前の反復を通じて、検索空間の探索（ここで検索は検索空間の新たな変異体／領域の評価を促進するように適合されている）と取得した学習の活用のバランスをとるために連続して実行し得る（現在既知の最適領域に近い検索空間の領域をより詳細に検索する）。通常、探索は検索プロセスの開始時に優先される（この場合、プロセスのこの部分は“探索フェーズ”と呼ばれ得る）が、活用は検索プロセスの終了時に優先される（この場合、このプロセスは“活用フェーズ”と呼ばれ得る）。実施形態では、配列検索の最適化は、検索プロセスの最後の反復で、活用段階フェーズにて実行される。実施形態では、配列ライブラリ検索の最適化は、検索プロセスの開始時に、探索フェーズにて実行される。さらに、探索フェーズでは、（全数検索の出力として、又は確率的検索の次の反復の入力として）選択された配列又は配列ライブラリは、それらの予測スコアにおける高レベルの不確実性に関連付けられた配列／配
列ライブラリを優先するように選択され得る。逆に、活用フェーズでは、スコアの不確実性のレベルが低いことに基づいて、配列又は配列ライブラリが優先付けされ得る。

【0164】

すべての配列（配列検索の最適化）又はすべての配列ライブラリ／周波数マトリクス（配列ライブラリ検索の最適化）がスコア付けされると、各配列／配列ライブラリは複数のスコアに関連付けられ、ここで各スコアは所望の特性に関連する配列／配列ライブラリの予測されるフィットネススコアを表す。さらに、上で説明したように、たとえば、スコアが、同じ所望の特性に関連する適合性を予測するために構築された複数のモデルによって予測された複数のスコアの集合体である場合に、各スコアは、不確実性の尺度に関連付けられ得る。したがって、トップランクの配列／配列ライブラリのサブセットを選択するタスク（たとえば、全数検索又は確率的検索の最後の反復の場合）、又は、後続の反復のための確率的検索アルゴリズムの配列／配列ライブラリのセットを選択するタスクは、多目的問題である。そのような実施形態では、多目的最適化アルゴリズムを使用することができ－ここで各目的は、配列変異体又はライブラリの所望の特性を表す適合性スコアを意味し得る。実施形態では、重みは、いくつかの目的（フィットネススコア）を他のものよりも優先する／強調するために適用される。実施形態では、多目的最適化は、例えば、SPEA2（Zitzler、Laumanns＆Thiele、2001、TIK-Report、volume 103、https：//www.research-collection.ethz.ch/handle/20.500.11850/145755又はhttps://doi.org/10.3929/ethz-a-004284029を使用してアクセス可能であり、参照により本明細書に組み込まれる）や、IBEA（Zitzler、Kunzli、2004、多目的検索におけるインジケーターベースの選択、In：Yao
X. et al, （eds）Parallel Problem Solving from Nature-PPSN VIII .PPSN 2004. Lecture Notes in Computer Science、vol 3242. Springer、Berlin、Heidelberg、https：//link.springer.com/chapter/10.1007/978-3-540-30217-9_84又はhttps：// doi.org/10.1007/978-3-540-30217-9_84を使用してアクセス可能であり、参照により本明細書に組み込まれる）などの、パレートフロント最適化に基づくアルゴリズムを使用して行うことができる。このようなアルゴリズムは、選択したソリューション間の多様性（ダイバーシティ）を最大化（重複を最小化）しながら、たとえば、目的空間での密度の考慮事項を考慮することにより、ソリューションの完全なパレートフロント集団を、選択されたいくつかのソリューション（配列又は配列ライブラリ）に減らし得る。実施形態では、最適化は、他のいくつかの目的（フィットネススコア）の値を下げることなく、目的（フィットネススコア）のいずれも値を改善できない場合に、ソリューションを最高にランク付けするように設計され得る。このようなソリューションは、パレートフロントを表す。使用される最適化プロセスは、パレートフロントを最適化するように有利に設計し得、すなわち、反復最適化が進むにつれて、パレートフロントを目的のより高い値（適合性スコア）に向かって移動させ得る。

【0165】

実施形態では、確率的検索方法を使用して、配列変異体空間を検索する。たとえば、確率的検索は遺伝的アルゴリズムを使用できる。簡単に言えば、基本的な原則は、個々の集団の適合性（つまり、スコア又は集計スコア）を計算し（ここで、個々は、配列検索の最適化の場合は配列変異体、又は配列ライブラリ検索の最適化の場合には、配列ライブラリ／周波数マトリクスである）、計算されたフィットネスを少なくとも部分的に使用して（及び任意に上記で説明したパレートフロントアルゴリズムを使用して）、集団の個々のサブセットを選択し、選択した集団を定義された変換に供して新たな集団を取得し、それをスコア付けすることである。現在の状況に適用すると、配列又は周波数マトリクスの入力セットが変更され（すなわち、事前定義されたパラメーターに従ってランダムに選択された、突然変異及び／又は別の個とのクロスオーバーなどの変換に供される）、子集団と呼ばれる配列／マトリクスの初期集団が取得される。この集団は、工程４４でトレーニングされたモデルを使用してスコア付けされる。次に、子集団が入力集団と一緒にプールされ、この組み合わされた集団のサブセットが、たとえば上記のパレートフロント最適化アルゴリズムを使用して選択され、ここでいくつかの実施形態は、集団をトーナメントスタイル
の競争に供することに依存し得る。好ましくは、パレートフロントで最も多様な個々を選択する上記のＳＰＥＡ２などのアルゴリズムが使用される。サブセットは新たな初期集団となり、前と同じように変形されて次の世代が取得され、同様にスコア付けされ選択される。このプロセスは、事前定義された停止基準が満たされるまで繰り返される。たとえば、停止基準は、十分に高い適合性を持つライブラリが生じるか、最大反復回数に達することであり得る。停止パラメーターは、ユーザーが事前に定義することも、デフォルト値を割り当てることもできる。実施形態では、集団に適用可能な変換は、突然変異、クロスオーバー（交差）、生殖機能などから選択することができる。

【0166】

実施形態では、遺伝的アルゴリズムのパラメーターは、当技術分野で既知の方法を使用して最適化される。たとえば、集団サイズ、各子の集団クロスオーバー（交差）率（cross over rate）における個々の数、突然変異率などの遺伝的アルゴリズムパラメータは、IBEA（Zitzler、Kunzli、2004、https：//link.springer.com chapter/10.1007/978-3-540-30217-9_84、これは参照により本明細書に組み込まれる）などのインデックスベースの手法を使用して最適化され得る。そのようなアルゴリズムは、上で説明したように、活用フェーズにおいて適合性の不確実性を最小化し、探索フェーズにおいてそれを最小化することを有利に可能にし得る。最適化される遺伝的アルゴリズムのパラメーターには、クロスオーバー戦略の選択、クロスオーバー率、突然変異戦略、突然変異率、親の数、集団サイズ、集団内のエリートの数、選択方法などの１以上が含まれ得る。実施形態では、遺伝的アルゴリズムのいくつかのパラメーターは、例えば、物理的制約に対処するため、又は検索にドメイン知識を含めるためなど、生物学的考慮事項を考慮に入れるように適合させることができ得る。例えば、遺伝的アルゴリズムがヌクレオチドレベルで機能する場合、突然変異率は、コドンの第一のヌクレオチドの突然変異を、コドンの第二及び／又は第三のヌクレオチドの突然変異よりも起こりにくくするように適合させ得る。たとえば、コドン内の突然変異の確率の可能な分布は、各コドンの第一、第二、及び第三ヌクレオチドについてそれぞれ１０％、３０％、６０％であり得る。実施形態において、突然変異及び／又はクロスオーバーパラメーターは、配列の翻訳段階における終止コドン（例えば、ＴＡＧ、ＴＡＡ、ＴＧＡ）を含む任意の配列を除外するように選択され得る。実施形態において、突然変異及び／又はクロスオーバーパラメーターは、（最適化アルゴリズムがどのレベルで作動するかに応じて、アミノ酸又は対応するコドンレベルのいずれかで）特定のアミノ酸を除外するように選択され得る。そのような除外は、事前の知識に基づいて、例えばユーザーにより定義され得る。実施形態において、配列変異体／配列ライブラリ変異体に対してクロスオーバーを実施する場合、クロスオーバーポイントは、全コドンが変異体間で交換されるように設計され得る。

【0167】

実施形態では、最適化工程は、複数の最適化を並行して実行し、それらの出力を、間隔を置いて又は実行の終わりに集約することを含み得る。これは、得られるソリューションの多様性を有利に増大させ得る。

【0168】

実施形態では、生じた任意の新たなライブラリと、少なくとも１つの以前に生じたライブラリ（例えば、以前に試験されたライブラリ及び／又は以前のインシリコライブラリ）との間のディスタンスが計算される。たとえば、新たなライブラリと以前に生じたライブラリとの間のディスタンスを、検索空間の探索に優先順位を付けるために、検索プロセス中に使用し得る。以前に生じたライブラリ間のディスタンスを計算することで、ライブラリの多様性を評価し、プロセスが配列空間の特定の領域に限定されないようにすることを可能にする。実施形態では、配列ライブラリ間のディスタンスは、イェンセン・シャノン情報量法（Ｊｅｎｓｅｎ－ＳｈａｎｎｏｎＤｉｖｅｒｇｅｎｃｅｍｅｔｈｏｄ）を使用して計算される。イェンセン・シャノン情報量（ＪＳＤ）は、２つの確率分布間の類似性を測定する方法である。特に、該分布は離散分布であり得る。たとえば、この方法を使用して、（１）位置ｐでアミノ酸Ａ１を有する可能性が５０％であるライブラリとアミノ酸
Ａ２を有する可能性が５０％であるライブラリ（すなわち、（Ａ１、Ａ２）ベクトルの確率が（５０％、５０％）に等しい）と、（２）位置ｐで（Ａ１、Ａ２、Ａ３）ベクトルの確率が（４０％、４０％、２０％）に等しいライブラリの間のディスタンスを測定することができる。これらの２つのライブラリは、確率分布Ｐ＝（０．５、０．５，０）、及びＱ＝（０．４、０．４、０．２））を有する。ＪＳＤは、ＪＳＤ（Ｐ｜｜Ｄ）＝λＤ（Ｐ｜｜Ｍ）＋（１－λ）Ｄ（Ｑ｜｜Ｍ）として定義され、ここで、Ｍ＝λＰ＋（１－λ）Ｑであり、λは（０，１）（対称の場合はλ＝０．５）から選択される重みであり、Ｄ（Ａ｜｜Ｂ）は、２つの分布間のカルバックライブラー・ダイバージェンス（情報量）であり、すなわち、ＤＫＬ（Ａ｜｜Ｂ）＝－ΣｉＡ（ｉ）ｌｏｇ（Ｂ（ｉ）／Ａ（ｉ））である。Ｄ（Ａ｜｜Ｂ）（「相対エントロピー」とも呼ばれる）は、１つの確率分布Ａが基本分布Ｂとどのように異なるかを示す尺度である。たとえば、基本分布Ｂは、機械学習アルゴリズムを使用して最適化する前の初期ライブラリであり得、新たなライブラリＡは、反復最適化によって生じた最新のライブラリであり得る。各ライブラリの位置ｐごとに、ＪＳＤ（Ａｐ｜｜Ｂｐ）の値が計算される。次に、最終的なダイバージェンス（情報量）が、すべての位置ｐにわたるＪＳＤの合計として計算される。

【0169】

実施形態において、配列ライブラリ間のディスタンスは、あるアミノ酸から別のアミノ酸への移行の可能性を考慮に入れて、有意性項と共に計算される。実施形態では、１つのアミノ酸から別のアミノ酸に移行する可能性は、ＢＬＯＳＵＭ（ブロック置換マトリクス）、特にＢＬＯＳＵＭ６２などの置換マトリクスによってとらえられる。ＢＬＯＳＵＭは、タンパク質配列のアラインメント用に設計されたマトリクスであり、あるアミノ酸から別のアミノ酸に移行する確率を定量化する。たとえば、上記で計算されたダイバージェンスに関連する有意性は、Ｙｏｎａ及びＬｅｖｉｔｔ(J Mol Biol. 2002 Feb 1;315(5):1257-75.)で説明されているように計算できる。特に、有意性はＪＳＰ（Ｍ｜｜ＢＡＣＫＧＲＯＵＮＤ）として計算され、ここでＭは前と同じように定義され、ＢＡＣＫＧＲＯＵＮＤはバックグラウンド信号である。たとえば、バックグラウンド信号は、ＢＬＯＳＵＭ６２の対角項（すなわち、各アミノ酸を観測する可能性）として選択できる。したがって、有意性が大きいということは、ＰとＱがバックグラウンド信号と非常に異なることを意味し、類似性が小さいということは、ＰとＱがバックグラウンド信号と類似していることを意味する。さらに、ダイバージェンスＪＳＤ（Ｐ｜｜Ｑ）と有意性ＪＳＤ（Ｍ｜｜ＢＡＣＫＧＲＯＵＮＤ）の両方を考慮に入れて、類似度＝０．５＊（１－Ｄ）＊（１＋Ｓ）（ここで、ＤはＪＳＤ（Ｐ｜｜Ｑ）であり、ＳはＪＳＤ（Ｍ｜｜ＢＡＣＫＧＲＯＵＮＤ）である）として定義される、類似度項を計算できる。したがって、類似度は次の通りである：（ｉ）スモールＤ（Ｄ→０）とスモールＳ（Ｓ→０）の値（ＰとＱは類似しており、バックグラウンドとあまり変わらない）は、類似性が０．５に近づく結果となる（類似性→０．５）；（ｉｉ）スモールＤ（Ｄ→０）とラージＳ（Ｓ→１）の値（ＰとＱは類似しており、バックグラウンドとは大きく異なる）は、類似性が１に近づく結果となる（類似性→１）；そして（ｉｉｉ）ラージＤ（Ｄ→１）値（ＰとＱは互いに非常に異なる）は、類似性が０に近づく結果となる（類似性→０）。

【0170】

実施形態では、工程１６で設計された新たなライブラリが構築２０され、試験３０され、新たな学習フェーズ４０に使用され得る。そのような実施形態では、機械学習アルゴリズムは、工程４２で、設計－構築－試験プロセスの現在及び以前の反復からのデータを使用してトレーニングされ得る。実施形態では、工程１６で設計された新たなライブラリを使用して、１以上の所望の特性を有すると予測される候補タンパク質のセットを生成することができる。

【0171】

本発明の特定の実施形態では、記載された方法は、１以上のコンピュータシステムを介して少なくとも部分的に実施することができる。別の実施形態では、本発明は、本発明の方法における設計１０、１０’及び学習４０フェーズを少なくとも実施するための、及び／
又は、本発明の方法における構築２０及び試験フェーズを実装するための試験装置を制御するための、プログラム指示を含むコンピューター可読媒体を提供し、ここで、コンピュータシステムの１以上のプロセッサによるプログラム指示の遂行は、１以上のプロセッサに、本明細書に記載の工程を実行させる。適切には、コンピュータシステムは、少なくとも、入力デバイス、出力デバイス、記憶媒体、及びマイクロプロセッサを含む。可能な入力デバイスには、キーボード、コンピュータマウス、タッチスクリーンなどが含まれる。出力デバイスコンピュータモニター、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）コンピューターモニター、バーチャルリアリティ（ＶＲ）ヘッドセットなど。さらに、情報は、ユーザー、ユーザーインターフェースデバイス、コンピューターで読み取り可能な記憶媒体、又は別のローカルコンピューター又はネットワークコンピューターに出力できる。ストレージメディアには、ハードディスク、ＲＡＭ、フラッシュメモリ、その他の磁気、光学、物理、又は電子メモリデバイスなどのさまざまな種類のメモリが含まれる。マイクロプロセッサは、計算を実行し、データの入力、出力、計算、及び表示を実行するための他の機能を指示するための一般的なコンピュータマイクロプロセッサである。２以上のコンピュータシステムは、有線又は無線手段を使用してリンクされ得、互いに又は他のコンピュータシステムと直接、及び／又はインターネットなどの公的に利用可能なネットワークシステムを使用して通信し得る。コンピューターのネットワーキングは、本発明の様々な態様が、ローカルで、及びクラウド内を含む遠隔サイトで、１以上のコンピュータシステム間で実行、格納、及び共有されることを可能にする。

【0172】

本発明の方法は、液体取扱及び分配装置、又はより高度な実験用ロボットシステムなどの、自動化された実験装置と相互作用し、制御するように構成され得る。実施形態では、１以上の工程は、高水準プログラミング言語を使用して完全に自動化され、本方法の設計、試験、及び学習工程を支える、再現可能でスケーラブルなワークフローを生成する。適切な高級プログラミング言語には、C ++、Python Java（登録商標）、Visual Basic、Ruby、PHP、及び生物学固有の言語であるAntha（登録商標）（www.antha-lang.org）が含まれる。

【0173】

本発明は、以下の非限定的な例によってさらに説明される。

【実施例】

【0174】

実施例１
例１－特定の標的に結合するスキャフォールド（足場）タンパク質のエンジニアリング
この例では、特定の標的への結合親和性を有するネイティブ配列に基づいて、配列変異体のライブラリを生じさせた。ライブラリに基づいて、ネイティブ配列と比較して特定の結合標的に対する結合親和性が改善されたタンパク質のコレクションを生じさせた。この実施例は、所望の機能性を有するタンパク質（又はこの場合、候補タンパク質のコレクション）を生成するための本発明の使用を実証する。

【0175】

例２－プロテアーゼ安定変異体の選択
この例では、配列変異体（ＤＮＡ）のライブラリを、構造情報に基づいて半合理的に設計した。この初期ライブラリの多様性は約３，０００の変異体である。ライブラリを国際公開第２０１７／０４６５９４Ａ１号に記載されているようにアセンブリ（組み立て）した（以下の材料と方法を参照）。ライブラリは、当技術分野で知られているように、ファージディスプレイベクターに挿入され、大腸菌（Ｅ．ｃｏｌｉ）での形質転換後に、Ｍ１３ファージキャプシドの外側に表示（ディスプレイ）された。それぞれが目的のタンパク質変異体を示すファージ集団は、プロテアーゼ（トリプシン又はキモトリプシン）に曝露され、少なくともいくつかのタンパク質変異体の切断をもたらした。次に、ファージのプール（切断されたものと切断されていないものの両方）を固定化された標的タンパク質に曝露し、標的に結合できなかったファージを洗い流した。残りのファージ（“ラウンド１”
ファージと呼ばれる）を使用して大腸菌（Ｅ．ｃｏｌｉ）に感染させ、新しいファージ集団を生成し、それらのいくつかを上記のように選択に使用し（“ラウンド２”と呼ばれるファージの集団をもたらす）、そして、それらのいくつかを配列決定のために保存した。このプロセスを再度繰り返して、ファージの３番目の集団である“ラウンド３”ファージを取得した。各ラウンド及び選択前のファージ集団からのＤＮＡのサンプルを、製造元の指示に従って、イルミナシーケンシング用のＮＥＢＮｅｘｔＵｌｔｒａＩＩＤＮＡライブラリ調製キットを使用して次世代シーケンシング用に準備した。次に、イルミナのｉＳｅｑシーケンサーを使用してサンプルを配列決定した。順方向及び逆方向の読み取りを含むｉＳｅｑからの配列（Ｆａｓｔｑファイル）を、Ｂｕｒｒｏｗｓ－ＷｈｅｅｌｅｒＡｌｉｇｎｍｅｎｔアルゴリズムを使用して、ライブラリの参照配列にアライニングした。次に、共通配列を使用して、対エンド読み取りをマージし、対エンド間のギャップを埋め、得られた配列をトリミングして、参照配列にオーバーハングしているエンドを削除し、参照配列の手前で終了する配列を削除した。次に、エラー訂正のためにＳｔａｒｃｏｄｅを使用して読み取りをクラスター化した（https://academic.oup.com/bioinformatics/article/31/12/1913/213875で説明されている）。

【0176】

図６Ａ～６Ｅは、この分析の結果を示す。図６Ａは、各配列決定実行における生の読み取りの総数を示している（選択前は“ｐｒｅ”とラベル付けし、選択の各ラウンド後を“ｒｏｕｎｄ＿１”、“ｒｏｕｎｄ＿２”、及び“ｒｏｕｎｄ＿３”とラベル付けする）。
図６Ｂは、選択前（“ｐｒｅ”）及び選択の各ラウンド後の集団に存在する変異体の総数を示す。図６Ｂのデータは、最初の選択ラウンドが、配列決定される変異体の数を劇的に減少したことを示す（選択中に多くの変異体が洗い流されるため）。２回目の選択ラウンドでは集団がさらに精製されるが、３回目の選択ラウンドでは大きな影響はないようにみられる。図６Ｃのデータは、対応する配列決定実行の読み取りの総数（図６Ａを参照）と比較した、選択前（“ｐｒｅ”）及び選択の各ラウンド後の母集団に存在する変異体の数を示している。データは、変異体が選択前でも複数の読み取りで表され、変異体ごとの読み取り数が選択によって（１、２、又は３ラウンドの選択が実行されたかどうかにかかわらず、同程度に）さらに増加することを示す。図６Ｄは、選択前（“ｐｒｅ”）及び選択の各ラウンド後の集団に存在する変異体の総数を示し、ただし、開始ライブラリに存在しなかった変異体は除外される。図６Ｄと６Ｂのデータを比較すると、選択後の変異体の数（図Ｅ、“ｒｏｕｎｄ＿１”、“ｒｏｕｎｄ＿２”、“ｒｏｕｎｄ＿３”）が、元のライブラリに存在しない変異体が除外されるようにフィルタされてなる、図６Ｄの対応するデータポイントにおける変異体の数と比べ多いため、選択プロセス中にランダムな突然変異が発生することが示される。

【0177】

図６Ｅは、前（“ｐｒｅ”）とそれぞれ３ラウンドの選択（“ｒｏｕｎｄ＿１”、“ｒｏｕｎｄ＿２”、“ｒｏｕｎｄ＿３”）の後の、様々な可変位置でのライブラリの構成の変化を示す周波数テーブルを示す－元のライブラリに存在しないそれらの突然変異は除外される。

【0178】

このデータは、本発明の工程１２から３２の実現可能性を実証する。

【0179】

次に、本発明者らは、そのようなオプションの実現可能性を実証するために、ｍＲＮＡディスプレイを使用して同様の実験を繰り返した。結合タンパク質をエンコードする３つのＤＮＡライブラリを、構造情報に基づいて半合理的に設計した。これらの初期ライブラリの多様性は約２４，０００の変異体であった。ライブラリは、国際公開第２０１７／０４６５９４Ａ１号に記載されているようにアセンブリした（以下の材料と方法を参照）。次に、これらのライブラリを以下に説明するようにｍＲＮＡディスプレイで表示し（材料と方法を参照）、それらの遺伝子型と表現型をリンクさせた。次に、この表示されたライブラリをプロテアーゼ（この場合はトリプシンとキモトリプシン）とインキュベートした。
プロテアーゼと１０分間及び１２０分間インキュベートした後、反応を停止し、Ｎ末端ストレプトアビジン結合タグを介してタンパク質を精製した。精製後、完全長の（フルレングスの）タンパク質の量をｑＰＣＲで定量した。完全長の、切断されていないタンパク質のみが、Ｎ末端のｓｔｒｅｐタグとＣ末端のｍＲＮＡ分子の両方を含んでいた。次に、ストレプトアビジンビーズに捕捉されたｍＲＮＡと捕捉されなかったｍＲＮＡの双方をｑＰＣＲで増幅した。これにより、両方のサンプルに存在する物質の量を定量化することができた。

【0180】

図７Ａ及び７Ｂは、トリプシン（図８Ａ）及びキモトリプシン（図８Ｂ）のこれらの分析結果を示し、これらは、３つのライブラリのそれぞれについて、フロースローサンプル（ＦＴ）及びビーズに補足されたサンプル（Ｂｅａｄｓ）の、ｑＰＣＲ定量化の結果（ｃｔ値、蛍光シグナルがバックグラウンドを超えるレベルに達するサイクル数）を示している。各サンプルの各グループのバーは、左から右に、選択前のサンプル（ｐｒｅ）、１０分後の選択前のサンプル（ｐｒｅ１０ｍｉｎ）、１０分選択後のサンプル（（Ｃｈｙｍｏ）ｔｒｙｐｓｉｎ１０ｍｉｎ）、１２０分後の選択前のサンプル（ｐｒｅ１２０ｍｉｎ）、及び１２０分選択後のサンプル（（Ｃｈｙｍｏ）ｔｒｙｐｓｉｎ１２０ｍｉｎ）のデータを示す。このデータは、ライブラリをプロテアーゼとインキュベートすると、回収された配列の数が予想どおりに減少することを示す。さらに、データは、この減少がインキュベーション時間に依存することを示す（減少は、プロテアーゼとのインキュベーションの１０～１２０分の間に増加する）。これは、ｍＲＮＡディスプレイとプロテアーゼインキュベーションを使用して、プロテアーゼ耐性分子のライブラリを強化することが可能であることを示す。

【0181】

例３反復最適化による配列ライブラリの設計
この例では、配列ライブラリを、配列変異体のライブラリのインビトロ試験から得られたデータでトレーニングされたニューラルネットワーク分類子を使用して、インシリコで最適化した。具体的には、公的に入手可能な免疫原性データ（Dhandaら、Front. Immunol. 2018年6月、https：//www.frontiersin.org/articles/10.3389/fimmu.2018.01369/fullで入手可能）を使用して、約６，０００の配列に基づき、免疫原性スコアに関して、予測モデルをトレーニングした。１４個の配列ライブラリを含む配列ライブラリのセットを設計し、インビトロデータでトレーニングしたニューラルネットワーク分類子を使用してスコア付けした。さらに、各配列ライブラリの多様性（ダイバーシティ）を計算し、最適化の第二の目的として使用した。５０，０００配列の多様性を有する配列ライブラリに関して多様性スコアを１として計算し、多様性スコアがより高い場合とより低い場合を１未満として計算した。言い換えると、最適化アルゴリズムの目的の１つは、５０，０００の変異体に近いライブラリを設計することであり、ここでライブラリ内の変異体の数は、可変位置のすべての可能な組み合わせをカウントすることによって計算される。たとえば、それぞれが２つのアミノ酸の１つであり得る、２つの可変位置を有するライブラリは、４つの配列の多様性を持ち、それぞれが２つのアミノ酸の１つであり得る、３つの可変位置を持つライブラリは、８配列の多様性を有する、などである。各配列ライブラリの１０，０００配列のサブセットを、合計８０回の反復で実行された遺伝的アルゴリズムの開始集団として、置換によりランダムに選択した。遺伝的アルゴリズムは、反復の最大数（８０）に達するまで実行され、各世代に６０人の子を有し、クロスオーバー（交差）率(crossover
rate)は０．７、突然変異率は０．３であった。

【0182】

図８Ａから８Ｃのそれぞれは、示されているように、最適化プロセスの反復を示す。各図の左側のパネルは、初期集団（バー）と最新世代（ドットと影付きの領域、ドットは各フィットネスヒストグラムビン内の集団スコアの平均値であり、影付きの領域は平均の周りの２つの標準偏差間隔である）に関するフィットネススコア分布を示す。各図の中央のパネルは、コドン表現の配列ライブラリを示し、ここで、行はアミノ酸配列内の位置であり
、列はコドン内のヌクレオチドである（たとえば、Ａ１はコドンの最初の塩基のヌクレオチドＡであり、ここで、Ｔ３はコドンの３番目の塩基のＴヌクレオチドである）。値は、各変異体がヌクレオチドレベルで表される周波数（頻度）（％）を示す。各図の右側のパネルは、いくつかのライブラリのパレートフロント（２つの別々のパラメーターの最大平均フィットネススコア）を示す。これらの図からわかるように、遺伝的アルゴリズムの最適化プロセスでは、機械学習アルゴリズム（ニューラルネットワークなど）が高いフィットネススコアに関連付けられていると識別した変異体に焦点を当てることで、改善されたフィットネススコア分布を有するライブラリが得られる。このように、この新たなライブラリのメンバーは、試験された所望の特性に関連して、開始配列と比較して改善された新たな配列変異体を表現する。

【0183】

例４－機械学習主導の指向進化を使用した新たなＶＨＨドメインの設計
この例では、配列変異体（ＤＮＡ）のライブラリを、いくつかの関連するプロテアーゼ酵素とのインキュベーション後のＶＨＨドメインの質量分析データに基づいて、半合理的に設計した。この初期ライブラリの多様性は約１×１０^９の変異体であった。ライブラリは、Cozensら、2018（Nucleic Acids Res. 46（8）：e51）によって説明されているように、ダーウィンアセンブリによってアセンブリした。ライブラリを、当技術分野で知られているように、ファージディスプレイベクターに挿入し、大腸菌（Ｅ．ｃｏｌｉ）での形質転換後に、Ｍ１３ファージキャプシドの外側に表示させた。ファージ集団を目的の標的タンパク質に曝露し、標的に結合する多くのタンパク質変異体を得た。標的に結合できなかったファージ粒子をすべて洗い流した。残りのファージ粒子（“ラウンド１”ファージと呼ばれる）を使用して大腸菌（Ｅ．ｃｏｌｉ）に感染させ、新たに濃縮されたファージ集団を生成した。次に、この集団を上記のように選択に使用した（“ラウンド２”ファージと呼ばれるファージ集団を得た）。選択されたファージ粒子と同様に、同じファージディスプレイ工程を経たものの目的の標的に対して選択されなかった模擬対照サンプルを生じさせた。“ラウンド２”ファージからのＤＮＡのサンプルを、２つのＰＣＲ反応（シーケンシングバーコードとアダプターの追加）を介して次世代シーケンシング用に準備し、製造元の指示に従ってＰｒｏＮｅｘサイズ選択ビーズを使用して精製した。次に、これらのサンプルを、イルミナＭｉＳｅｑシーケンサーを使用して配列決定した。

【0184】

フォワードリードとリバースリードを含むＭｉＳｅｑＳｅｑｕｅｎｃｅｒのＤＮＡ配列（ＦａｓｔＱファイル）を、Ｂｕｒｒｏｗｓ－ＷｈｅｅｌｅｒＡｌｉｇｎｍｅｎｔアルゴリズムを使用して、ライブラリの参照配列にアライニングした。次に、共通配列を使用して対エンド読み取りをマージし、対エンド間のギャップを埋め、得られた配列をトリミングして、参照配列にオーバーハングしているエンドを削除し、参照配列の手前で終了する配列を削除した。次に、分析とモデルトレーニングの前に、読み取りをクラスター化した。

【0185】

処理されたライブラリの各変異体を、モックコントロール（模擬対照）と比較した選択中の濃縮度に基づいてスコアリングした。これらのスコアと配列情報を使用して、測定されたフィットネスに配列をリンクさせる機械学習モデルを作成した。このモデルの精度を、モデルがこれまでに見たことのない配列の予測されたフィットネスを実際のフィットネスと比較することによって評価した。このモデルの実際のフィットネスと予測されたフィットネスの間のスピアマン相関間の相関は０．６７であり、モデルがアミノ酸配列のみに基づいて目的の標的への結合を正確に予測できることを示す（図９を参照）。

【0186】

５：結合分子のインビトロ検証
機械学習を使用して多数の高性能な変異体を予測した後、これらの変異体を外部の遺伝子合成サプライヤーを使用して新たに合成した。これらの遺伝子を発現コンストラクトにクローン化し、大腸菌（Ｅ．Ｃｏｌｉ）シャーシーで発現させた。発現後、候補分子をアフ
ィニティータグで精製した。次に、プロテアーゼ消化を使用して、アフィニティータグを候補分子から切断した。

【0187】

各分子の性能を、細胞ベースの効力アッセイを使用して測定した。アッセイに続いて、モデルが予測した分子の６８％は、より大きな効力を持つことになった（図１０を参照）。これは、モデルの精度が、ＮＧＳ濃縮スコアだけでなく、精製タンパク質アッセイでも維持されていることを示す。

【0188】

材料及び方法
［シングルプライマーエクステンション］
シングルプライマーエクステンション（単一プライマー伸長）を使用して、一本鎖ＤＮＡ分子から二本鎖ＤＮＡ、例えば、ライブラリ中の配列変異体の可変部分を得ることができる。本発明の実施形態によるシングルプライマーエクステンション（単一プライマー伸長）を実施するために、一本鎖ＤＮＡテンプレートを、テンプレートの３’末端に相補的である短いｓｓＤＮＡ配列（プライマーと呼ばれる）、及びＤＮＡポリメラーゼと共にインキュベートする。次に、サンプルを次のインキュベーション条件に供する。
－９８℃ －融解：この工程は、プライマーとｓｓＤＮＡテンプレートに形成され得る二次構造を破壊する。
－５５－７０℃ －プライマーアニーリング：プライマーをｓｓＤＮＡテンプレートの３’末端にあるプライマー結合部位にアニール（結合）させるようにする。特定温度は、プライマー配列に依存し得る。
－７２℃－エクステンション（伸長）：ＤＮＡポリメラーゼをプライマー：テンプレート複合体に結合させ、残りのｓｓＤＮＡをｄｓＤＮＡに変換する。
－４℃－保存：エクステンション（伸長）反応が完了した後、ＤＮＡが分解するのを防ぐ。

【0189】

ポリメラーゼ連鎖反応（以下を参照）と比較すると、これは次の点で異なる。テンプレートＤＮＡは二本鎖ではなく一本鎖である；２つではなく１つのプライマーが使用される；プロセスは循環されないため、テンプレートＤＮＡは増幅されない。

【0190】

シングルプライマーエクステンション（単一プライマー伸長）は、手動で実行することも、Ａｎｔｈａなどを使用して自動化することもできる。特に、本発明の実施形態に従って使用されるプライマーエクステンションプロセスは、少なくとも部分的に自動化され、設計、デッキ準備（preparation）、反応セットアップ、プライマーエクステンション、精製及び収量定量化を含む複数の工程に分割され得る。

【0191】

プライマーエクステンション設計工程では、使用するプライマーの固有性（同一性）とパラメーターの値が定義される。これには、ｄｓＤＮＡ収量の最適なパラメーター値を見つけるために、パラメーター空間の少なくとも一部の検索が実行される、最適化プロセスが含まれ得る。

【0192】

デッキ準備工程では、液体取扱ロボットのデッキを準備する。これには、実施する反応に必要な個々の構成要素を提供すること、構成要素のサブセットのマスターミックスを準備すること、及びマスターミックスとその他の要素をマイクロタイタープレートの事前定義された場所にピペッティングすることが含まれ得る。

【0193】

プライマーエクステンション反応のコア構成要素としては、例えば以下が挙げられる：
１以上のｓｓＤＮＡテンプレート、１以上のｓｓＤＮＡプライマー、ＤＮＡポリメラーゼ、好ましくは、ＰｈｕｓｉｏｎＵＤＮＡポリメラーゼなどのウラシルリードスルーを伴うＤＮＡポリメラーゼ、ポリメラーゼバッファー、ｄＮＴＰ（デオキシヌクレオチド三
リン酸）。実施形態において、他の潜在的な要素をプライマーエクステンション反応に加えて、効率及び忠実度を最適化することができる。たとえば、ホルムアミド、ＴＭＡＣ（トリメリット酸無水物クロリド）、トレハロース、ＣＥＳ（コンビナトリアルエンハンサーソリューション、http：//www.protocol-online.org/prot/Protocols/An-Economic-PCR-Enhancer-for-GC-Rich-PCR-Templates-3469.htmlを参照）、ＤＭＳＯ（ジメチルスルホキシド）、ＰＥＧ（ポリエチレングリコール）、硫酸アンモニウム、逆転写酵素、メソフィリックＤＮＡポリメラーゼ、から任意の要素が選択される。ＤＮＡ結合タンパク質、７－デアザ－２’－デオキシグアノシン５’－三リン酸、非イオン性界面活性剤（ＴｒｉｔｏｎＸ－１００、Ｔｗｅｅｎ２０、ＮＰ－４０）、及びＢＳＡ（ウシ血清アルブミン）を追加でき得る。

【0194】

反応設定工程では、１以上のマルチウェルプレートのウェルでエクステンション（伸長）の準備がなされた混合物と、プライマーエクステンション反応のすべての構成要素が、組み合わせられる。実施形態では、これは、ＧｉｌｓｏｎＰＩＰＥＴＭＡＸ液体取扱ロボットによって実行される。このロボットは、Ａｎｔｈａワークフローによって制御でき得る。

【0195】

プライマーエクステンション工程では、マルチウェルプレートをＰＣＲマシン又はプレートの温度を調節できるその他のセットアップに配置する。次に、プレート内のサンプルを、エクステンション反応を実行するために上記のインキュベーション条件に供する。

【0196】

精製工程では、各サンプルのｄｓＤＮＡの分子を分離する。実施形態において、これは、ｄｓＤＮＡに特異的に結合する磁気ビーズと共にサンプルをインキュベートし、そして磁気プレートでビーズを“引き下げる（プルダウン）”することによって実行される。
その後、残りの反応要素を手動又は自動でピペットアウト（排出）し得る。

【0197】

収量定量化工程において、生成されたｄｓＤＮＡの量を、当技術分野で既知のアッセイ、例えば、ピコグリーンアッセイ及びナノドロップ又はテカンプレートリーダーを使用して定量化する。サンプルの２６０ｎｍでの光の吸光度を標準曲線と比較して、サンプル中のｄｓＤＮＡの量を特定することができる。

【0198】

［ポリメラーゼ連鎖反応］
ポリメラーゼ連鎖反応（ＰＣＲ）を使用して、二本鎖ＤＮＡ、たとえばライブラリの配列変異体の定常部分を増幅することができる。ＰＣＲを使用して、ＤＮＡ部分の特定の位置にデオキシウリジン残基を追加することもできる。これらは、ウラシル特異的切除（ＵＳＥＲ試薬を使用）によって一本鎖オーバーハングを生成するために使用できる。

【0199】

本発明の実施形態によるＰＣＲを実施するために、二本鎖ＤＮＡテンプレート（より長い配列の一部を形成することができる）を、テンプレートのそれぞれの鎖の３’末端に相補的である２つの短いｓｓＤＮＡ配列（プライマーと呼ばれる）、及びＤＮＡポリメラーゼと共にインキュベートする。次に、サンプルを次のインキュベーション条件に供する。
－９８℃ 融解：この工程で、ＤＮＡテンプレートの相補鎖間の水素結合が切断され、プライマーがそれぞれの鎖に結合できるようになる。
－５５－７０℃ プライマーアニーリング：プライマーをテンプレート鎖の３’末端のプライマー結合部位にアニールさせるようにする。特定の温度は、プライマー配列に依存し得る。
－７２℃ エクステンション（伸長）：ＤＮＡポリメラーゼをプライマー：テンプレート複合体に結合させ、残りのｓｓＤＮＡをｄｓＤＮＡに変換する。
上記の手順を最大３５回繰り返す。
－４℃ 保存：エクステンション（伸長）反応が完了した後、ＤＮＡが分解するのを防ぐ
。

【0200】

ＰＣＲは手動で実行することも、Ａｎｔｈａなどを使用して自動化することもできる。実施形態では、本発明の実施形態に従って使用されるＰＣＲプロセスは、少なくとも部分的に自動化され得る。

【0201】

実施形態において、ＰＣＲプロセスは、設計、反応準備（任意にデッキ準備及び反応セットアップを含む）、サーモサイクリング、精製及び収量定量化を含む複数の工程に分割され得る。

【0202】

ＰＣＲ設計工程では、使用するプライマーのＩＤとパラメーターの値が定義される。これには、標的のｄｓＤＮＡ収量に最適なパラメーター値を見つけるために、パラメーター空間の少なくとも一部の検索が実行される、最適化プロセスを含めることができる。

【0203】

最適化できるパラメーターの１つは、プライマーのアニーリング温度である。プライマー配列が異なれば、アニーリング温度も異なるものとなり得る。これらのアニーリング温度は、バイオインフォマティクスで推定することができ、及び／又は“勾配”アニーリング工程を実行することによって解明できる。勾配アニーリング工程は、複数の異なるアニーリング温度を並行して試験し、どの温度が最良の標的ｄｓＤＮＡ収量を提供することとなるかを見い出すために、サーモサイクラーブロック全体に温度範囲を作成する。

【0204】

反応準備工程では、ＰＣＲのすべての構成要素が、反応が準備された混合物と組み合わされる。これは、手動又は液体取扱ロボットを使用して行うことができる。そのような実施形態では、これは、デッキ準備工程及び反応セットアップ工程を含み得る。デッキ準備工程では、液体取扱ロボットのデッキを準備する。これには、実施する反応に必要な個々の構成要素を提供すること、構成要素のサブセットのマスターミックスを準備すること、及びマスターミックスとその他の要素をマイクロタイタープレートの事前定義された場所にピペッティングすることが含まれ得る。反応セットアップ工程では、ＰＣＲ反応のすべての構成要素が、１以上のマルチウェルプレートのウェルでのＰＣＲの準備がなされた混合物と組み合わせられる。実施形態では、これは、ＧｉｌｓｏｎＰＩＰＥＴＭＡＸ液体取扱ロボットによって実行される。このロボットは、Ａｎｔｈａワークフローによって制御できる。

【0205】

ＰＣＲのコア構成要素としては、例えば以下が挙げられる：１以上のｄｓＤＮＡテンプレート、１以上のフォワードｓｓＤＮＡプライマー、１以上のリバースｓｓＤＮＡプライマー、熱安定性ＤＮＡポリメラーゼ（たとえば、好ましくは、ＰｈｕｓｉｏｎＵＤＮＡポリメラーゼなどのウラシルリードスルーを備えたＤＮＡポリメラーゼ）、ポリメラーゼバッファー、ｄＮＴＰ（デオキシヌクレオチド三リン酸）。実施形態において、他の潜在的な要素をプライマーエクステンション反応に加えて、効率及び忠実度を最適化することができる。たとえば、ホルムアミド、ＴＭＡＣ（トリメリット酸無水物クロリド）、トレハロース、ＣＥＳ（コンビナトリアルエンハンサーソリューション、http://www.protocol-online.org/prot/Protocols/An-Economic-PCR-Enhancer-for-GC-Rich-PCR-Templates-3469.htmlを参照）、ＤＭＳＯ（ジメチルスルホキシド）、ＰＥＧ（ポリエチレングリコール）、硫酸アンモニウム、逆転写酵素、メソフィリックＤＮＡポリメラーゼ、から任意の要素が選択される。ＤＮＡ結合タンパク質、７－デアザ－２’－デオキシグアノシン５’－三リン酸、非イオン性界面活性剤（ＴｒｉｔｏｎＸ－１００、Ｔｗｅｅｎ２０、ＮＰ－４０）、及びＢＳＡ（ウシ血清アルブミン）を追加でき得る。

【0206】

サーモサイクリング工程では、１以上のサンプルを含むマルチウェルプレートをサーモサイクラー又はプレート内のサンプルの温度を制御できるその他のセットアップ（例：任意
のサーマルサイクリング装置）に配置する。次に、プレート内のサンプルを上記のインキュベーション条件に供して、ＰＣＲを実施する。

【0207】

ＰＣＲが成功したことを確認するために、任意の成功検証試験を実行できる。これには、既知のサイズのＤＮＡフラグメントを含む標準的なラダーと一緒にサンプルをアガロースゲルにロードし、アガロースゲル電気泳動を実行することが含まれ、これにより、ＤＮＡフラグメントはサイズに比例した速度でゲル内を移動する。標的ＤＮＡの予想サイズでゲル上にバンドが存在することは、ＰＣＲが成功したことを示す。

【0208】

上で説明したように、精製工程では、磁気ビーズを使用してｄｓＤＮＡを分離する。これは、検証試験が実行されたかどうか、及び単一の優勢なｄｓＤＮＡ生成物がサンプルに存在することを試験が示したかどうかに応じて、異なる方法で実行され得る。検証試験で単一の優勢なｄｓＤＮＡ生成物がサンプルに存在することが示された場合、上記で説明したように、磁気ビーズを使用してｄｓＤＮＡを残りのサンプルから分離することができる。サンプルに複数のｄｓＤＮＡ産物が存在する場合は、“サイズ選択”アガロースゲルが使用され得、この場合、ウェルはゲル中に事前にカットされそして水で満たされ、所望のＤＮＡがゲルを通って、ピペットアウトできるウェルに移動する。

【0209】

【0210】

［アセンブリ（組み立て）］
可変部分及び定常部分からの核酸ライブラリのアセンブリは、国際公開第２０１７／０４６５９４号に記載されているように行われ、その内容は参照により本明細書に組み込まれる。

【0211】

特に、ＵＳＥＲＤＮＡアセンブリを使用して、ライブラリ内で配列変異体を形成する可変部分と定数部分をアセンブリすることができる。

【0212】

実施形態において、ＵＳＥＲＤＮＡアセンブリは、設計、反応準備（任意選択でデッキ準備及び反応セットアップを含む）、インキュベーション、精製及び収量定量化を含む複数の工程に分割され得る。

【0213】

ＵＳＥＲＤＮＡアセンブリの設計工程では、反応混合物と使用されるパラメーターの値が定義される。これには、標的ｄｓＤＮＡ収量に最適なパラメーター値を見つけるために、パラメーター空間の少なくとも一部の検索が実行される、最適化プロセスを含めることができる。

【0214】

反応準備工程では、ＵＳＥＲアセンブリのすべての構成要素が、反応が準備された混合物と組み合わされる。これは、手動又は液体取扱ロボットを使用して行うことができる。そのような実施形態では、これは、デッキ準備工程及び反応セットアップ工程を含み得る。デッキ準備工程では、液体取扱ロボットのデッキを準備する。これには、実施する反応に必要な個々の構成要素を提供すること、構成要素のサブセットのマスターミックスを準備すること、及びマスターミックスとその他の要素をマイクロタイタープレートの事前定義された場所にピペッティングすることが含まれる場合がある。反応セットアップ工程では、反応のすべての構成要素が、１以上のマルチウェルプレートのウェルでのインキュベーションの準備がなされた混合物と組み合わされる。実施形態では、これは、Ｇｉｌｓｏｎ
ＰＩＰＥＴＭＡＸ液体取扱ロボットによって実行される。このロボットは、Ａｎｔｈａ
ワークフローによって制御でき得る。

【0215】

ＵＳＥＲアセンブリのコア構成要素には、２以上の入力パーツ、ＵＳＥＲ酵素ミックス、ＤＮＡリガーゼ（Ｔ４ＤＮＡリガーゼなど）、反応バッファー（Ｔ４ＤＮＡリガーゼバッファーなど）、及びＡＴＰなどが含まれ得る。

【0216】

インキュベーション工程では、マイクロウェルプレートをサーモブロック又は、マイクロウェルプレート内のサンプルの温度を制御できる他のセットアップ（例：任意のサーマルサイクリング装置）に配置する。インキュベーション工程は、ＵＳＥＲ酵素がそれらの機能を実行できるようにする３７℃の工程、続いてオーバーハングをアニールできるようにする２１℃の工程、及びＤＮＡリガーゼがその機能を実行できるようにする工程を含み得る。

【0217】

アセンブリが成功したことを確認ために、任意の成功検証試験を実行できる。これには、既知のサイズのＤＮＡフラグメントを含む標準的なラダーと一緒にサンプルをアガロースゲルにロードし、アガロースゲル電気泳動を実行することが含まれ、これにより、ＤＮＡフラグメントはサイズに比例した速度でゲル内を移動する。標的ＤＮＡの予想サイズでゲル上にバンドが存在することは、アセンブリが成功したことを示す。

【0218】

精製工程では、組み立てられたｄｓＤＮＡ（すなわち、所望のサイズを有する反応生成物中のｄｓＤＮＡ）を残りの反応生成物から分離する。これには“サイズ選択”アガロースゲルを使用でき、この場合、ウェルはゲル中に事前にカットされそして水で満たされ、所望のＤＮＡがゲルを通って、ピペットアウトできるウェルに移動する。

【0219】

収量定量化工程において、サンプル中のｄｓＤＮＡの量を、当技術分野で既知のアッセイ、例えば、ピコグリーンアッセイ及びナノドロップ又はテカンプレートリーダーを使用して定量化する。サンプルの２６０ｎｍでの光の吸光度を標準曲線と比較して、サンプル中のｄｓＤＮＡの量を特定することができる。

【0220】

［ダーウィンアセンブリ］
ダーウィンアセンブリは、テンプレート配列に変異を導入するための３工程のプロセスで広く構成される。まず、二本鎖テンプレートＤＮＡ配列を一本鎖に変換する。これは、ニッキング（ｎｉｃｋｉｎｇ）エンドヌクレアーゼとエキソヌクレアーゼの共役反応と、それに続く酵素の熱不活性化によって達成される。

【0221】

次に、この一本鎖テンプレートを、多数の変異原性オリゴヌクレオチド、及び目的領域に隣接する境界オリゴヌクレオチド－そのうちの１つはビオチンタグで標識されている－と混合する。これらのオリゴヌクレオチドがアニールされると、それらの間のギャップが熱安定性ＤＮＡポリメラーゼを使用して埋められ、熱安定性ＤＮＡリガーゼでニック（切れ目）が封止される。アセンブリされた生成物は、ストレプトアビジンでコーティングされた磁気ビーズを使用して精製する。次に、この生成物を、“外部”プライマーの添加と標準的なＰＣＲ反応によって磁気ビーズから増幅する。この最終生成物は、プラスミドにクローン化するか、インビトロディスプレイ法で線形コンストラクトとして直接使用する準備ができている。

【0222】

［インバースＰＣＲ］
インバースＰＣＲは、変異原性オリゴヌクレオチドを使用して実行される。これらのオリゴヌクレオチドを、テンプレート配列に相補的ではない変異原性領域を含む一方又は双方のオリゴヌクレオチドとともに、遺伝子“バックツーバック”内の目的の領域にアニールする。置換の場合、この変異原性領域を、変異原性オリゴヌクレオチドの中心又は５’末
端に配置する。付加変異の場合、変異原性領域をオリゴヌクレオチドの５’末端に配置する。

【0223】

変異原性オリゴヌクレオチドが環状テンプレートｄｓＤＮＡ及び耐熱性ＤＮＡポリメラーゼと混合されると、従来のＰＣＲ反応が実行される。まず、ｄｓＤＮＡが溶けてｓｓＤＮＡになるように、サンプルを＞９５℃に加熱する。次に、サンプルをプライマーのアニーリング温度（通常は５５～６５℃の範囲）まで冷却して、オリゴヌクレオチドをテンプレート配列にアニールさせる。アニール完了後、熱安定性ポリメラーゼの最適な伸長温度（たとえば、約７２℃）にサンプルを再度加熱し、プライマーが伸長される間、そこで保持する。このプロセスを、十分な収量を生み出すように何度も繰り返す（１５～３５回のサイクル）。

【0224】

ＰＣＲ反応が完了したら、ＰＣＲクリーンアップキット又はＤＮＡアガロースゲル抽出を使用してＤＮＡを精製する。テンプレートプラスミドＤＮＡは、ＤｐｎＩ酵素の添加により消化される。次に、変異したＰＣＲ生成物をＤＮＡリガーゼで再循環させ、宿主細胞への形質転換を準備する。

【0225】

［ファージディスプレイ］
まず、エレクトロポレーションを使用して、ファージミドベクターのライブラリを大腸菌（Ｅ．Ｃｏｌｉ）に転換する。選択的アガープレート上で増殖した後、細胞のライブラリをプレートからこすり落とし、液体培地とグリセロールに再懸濁し、保存する。

【0226】

次に、これらの細胞を大量の液体培地に接種し、対数増殖期中期（ｍｉｄ－ｌｏｇｐｈａｓｅ）まで増殖させる。ログの途中（ｍｉｄ－ｌｏｇ）で、ヘルパーファージを培養物に加える。細胞をさらに１時間増殖させて、ヘルパーファージに感染させる。

【0227】

次に、細胞をペレット化し、誘導培地（ＩＰＴＧを含む）に再懸濁することにより、ファージ発現を誘導する。次に、細胞を一晩増殖させる。

【0228】

ファージを遠心分離によって細胞から精製する。培養物を５，０００ｘｇで回転させ、ペレットを廃棄する。次に、上清を１１，０００ｘｇで遠心分離して、ファージをペレット化する。これらのペレットを保存バッファーに再懸濁し、－８０℃で保存する。

【0229】

準備ができたら、ファージを標的に対して選択させる。バインダを選択する場合、ファージを、特定の濃度で固体表面（磁気ビーズなど）に固定化された標的分子に供する。正（陽性）分子はこれらの標的分子に結合するが、残りの変異体は結合しない。表面をバッファーで洗浄して、表面に非特異的に結合した変異体をすべて除去する。数回の洗浄サイクルの後、結合したファージは標的から溶出させる。

【0230】

溶出後、ファージの一部を分離し、次世代シーケンシングに備えて準備する。残りを大腸菌に再感染させ、陽性変異体を増幅し、標的に対して再度パン（洗浄：ｐａｎｎｅｄ）され得る。

【0231】

［ｍＲＮＡディスプレイ（表示）］
ｍＲＮＡディスプレイは、Ｂａｒｅｎｄｔら（ACS Comb. Sci. 2013、15、2、77-81; https://pubs.acs.org/doi/abs/10.1021/co300135r）に記載されているように実行される。簡単に説明すると、ライブラリの各メンバーを、コード配列の上流にＴ７プロモーター配列を含むように設計する。ＤＮＡ分子を、Ｔ７ポリメラーゼ、バッファー、及びリボヌクレオチド三リン酸（ｒＮＴＰ）と混合する。Ｔ７ポリメラーゼをＴ７プロモーターでＤＮＡテンプレートと結合させ、ＤＮＡをＲＮＡに転写する。配列の３’末端でＴ７ターミネ
ーター配列に到達するか、線形ＤＮＡフラグメントの末端に到達するまで、これを継続する。反応が完了した時点で、転写が成功したことをゲル分析によって確認する。
残りの反応系をＤＮＡｓｅで処理してＤＮＡテンプレートを除去し、Ｍｏｎａｒｃｈ（登録商標）ＲＮＡクリーンアップカラム（New England BioLabs、https：//international.neb.com/products/t2030-monarch-rna-cleanup-kit-10- ug＃Product％20Information）で精製し、残存する塩、酵素及びｒＮＴＰを除去する。

【0232】

次に、各ｍＲＮＡを、３’末端にピューロマイシン分子を持つ短いＤＮＡ配列で構成されるピューロマイシンリンカーとリンクさせる。スプリントＤＮＡ配列を使用して、ピューロマイシンリンカーを各ｍＲＮＡテンプレートの３’末端に効率的にライゲート（ｌｉｇａｔｅ）させる。このスプリント配列は、ｍＲＮＡの３’末端とピューロマイシンリンカーの５’末端の双方に相補的である。したがって、ｍＲＮＡの３’末端とピューロマイシンリンカーの５’末端を効果的に近接させる。これが達成されたら、リガーゼ（Ｔ４リガーゼなど）を導入して、これら２つの分子を一緒にライゲート（ｌｉｇａｔｅ）させる。ライゲーション（ｌｉｇａｔｉｏｎ）の完了時点で、ＤＮＡエキソヌクレアーゼを使用してスプリントオリゴを除去し、たとえばＭｏｎａｒｃｈ（登録商標）ＲＮＡクリーンアップキット（ＮｅｗＥｎｇｌａｎｄＢｉｏＬａｂｓ）を使用して、ＲＮＡをクリーンアップする。

【0233】

次に、ｍＲＮＡ－ピューロマイシン融合分子を、例えば、ＰＵＲＥｘｐｒｅｓｓ（登録商標）翻訳システム（New England BioLabs; https://international.neb.com/products/e6850-purexpress-rf123-kit#Product%20Information）を使用して翻訳する。この無細胞混合物は、再構成されたタンパク質発現システムである。タンパク質の発現に必要な個々の要素はすべて細胞内で生成され、精製されて混合される。他の無細胞発現システムに対するこのシステムの主な利点は、非常にクリーン；ＲＮＡｓｅを殆ど含まない；ことである。

【0234】

翻訳が完了すると、ピューロマイシン融合の発生が促進されるように反応条件を変更し、これにはサンプルの冷却と塩濃度の増加が含まれる。

【0235】

次に、融合分子を、ノーザンブロット又は定量ＰＣＲ（ｑＰＣＲ）のいずれかによって品質管理する。

【0236】

ノーザンブロットの場合、サンプルはＲＮＡゲル（例：トリスホウ酸尿素ゲル）で泳動し、ナイロンメンブレン上にブロットする。次に、ジゴキシゲニン（ＤＩＧ）で修飾されたＲＮＡオリゴ(Digoxigen (DIG)-modified RNA origos)を、このメンブレン上のＲＮＡにハイブリダイズさせる。これが完了すると、ＤＩＧ発光検出キットで定義されたプロトコル（Sigma Aldrich、https：//www.sigmaaldrich.com/catalog/product/ROCHE/11363514910？lang = en＆region = GB）を使用して、ＤＩＧ標識ｍＲＮＡが検出可能になる。

【0237】

このプロセスは、サンプル内のｍＲＮＡを分離して視覚化する。ｍＲＮＡディスプレイ（表示）が成功すると、３つのバンド：１つはｍＲＮＡのみ、もう１つはｍＲＮＡ－ピューロマイシン、３つ目はｍＲＮＡ－ピューロマイシン－タンパク質融合（これは３つのうち最大である）：が表示される。

【0238】

ｑＰＣＲの場合、ライブラリ内の変異体を、タンパク質が精製タグを含むような、ｓｔｒｅｐタグ配列又はストレプトアビジン結合ペプチド配列（又は他の精製タグ）を含むように設計する。次に、発現させたタンパク質を、適切な親和性分離法、例えばストレプトアビジン標識磁気ビーズを使用して、任意にサンプルをヘパリンなどの遮断剤とインキュベートすることにより、分離する。次に、当技術分野で既知の定量的逆転写ＰＣＲを実施し
て、サンプル中に存在するｍＲＮＡの量を定量化する。ｍＲＮＡディスプレイ（表示）が成功すると、サンプルに存在するＲＮＡの量はネガティブコントロール（陰性対照）と比較してはるかに多くなり得る。ネガティブコントロール（陰性対照）として、ｍＲＮＡをタンパク質に結合するピューロマイシンを含まない、タンパク質サンプル（例えば、マッチングタンパク質ライブラリ）を使用でき得る。

【0239】

［逆転写］
１以上の機能アッセイでの挙動に応じてグループに分けられた配列変異体の配列決定の前に、タンパク質変異体に付着したｍＲＮＡ配列を逆転写して、配列決定された各グループの変異体を代表するＤＮＡサンプルを取得できる。これは、当技術分野で既知であるように、、サンプルを逆転写酵素、プライマー、適切な緩衝液及びｄＮＴＰと共にインキュベートすることによって実施される。

【0240】

［次世代シーケンシング］
本発明の実施形態による次世代シーケンシング（ＮＧＳ）は、イルミナシーケンサーを使用して実行される。したがって、配列決定されるサンプルを、ＤＮＡアダプターなどにより、配列決定のために準備し得る。ＤＮＡアダプターは、ＤＮＡ配列を配列決定チップに結合するために使用される領域、プライマー配列が配列に結合することを可能にする領域、及び任意で、変異体の異なるグループが一緒に配列決定されることを可能にするバーコード配列を含み得る。

【0241】

イルミナシーケンシング及びイルミナシーケンシングのためのライブラリ調製は当技術分野で既知である。たとえば、シーケンシング用のライブラリ調製は、https：//www.neb.com/-/media/nebus/files/brochures/nebnextillumina.pdf（４及び５頁）で説明されているように、ＮＥＢＮｅｘｔキット（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ）を使用して実行できる。

【0242】

本発明の実施形態は、イルミナｉＳｅｑ１００シーケンサーを使用する。このシーケンサーは現在、１７時間で約５００万の２ｘ１５０読み取りを生じさせる。

【0243】

本発明の特定の実施形態が本明細書に詳細に開示されているが、これは、例として、説明のみを目的として行われたものである。前述の実施形態は、以下に添付される特許請求の範囲に関して限定することを意図するものではない。本発明者らは、特許請求の範囲によって定義される本発明の精神及び範囲から逸脱することなく、本発明に対して様々な置換、変更、及び修正を行うことができると考える。

【先行技術文献】

【特許文献】

【0244】

【特許文献1】国際公開第２０１７／０４６５９４Ａ１号

【非特許文献】

【0245】

【非特許文献1】M. R. Green、J. Sambrook、2012、分子クローニング：実施マニュアル、第4版、Books 1-3、コールドスプリングハーバーラボラトリープレス、コールドスプリングハーバー、ＮＹ

【非特許文献2】Ausubel, F. M. ら（１９９５年及び定期的な補足；分子生物学の現在のプロトコル、第９章、第１３章、及び第１６章、ジョン・ワイリー＆サンズ、ニューヨーク、ニューヨーク州）

【非特許文献3】B. Roe, J. Crabtree、及びA. Kahn、１９９６年、ＤＮＡ分離とシーケンス：エッセンシャルテクニック、ジョン・ワイリー＆サンズ

【非特許文献4】J. M. Polak及びJames O'D. McGee、１９９０年、イン－シツ（原位置）ハイブリダイゼーション：原則と実践、オックスフォード大学出版局

【非特許文献5】M. J. Gait（編集者）、１９８４年、オリゴヌクレオチド合成：実用的なアプローチ、ＩＲＬプレス

【非特許文献6】D. M. J.Lilley及びJ. E. Dahlberg、１９９２、酵素学の方法：ＤＮＡ構造パートＡ：酵素学におけるＤＮＡ法の合成と物理的分析、アカデミックプレス

【非特許文献7】Durbin R.、Eddy S. 、Krogh A.、Mitchinson G.（１９９８年）、生物学的配列分析、ケンブリッジ大学出版局

【非特許文献8】David W.（２００４）、バイオインフォマティクス、コールドスプリングハーバーラボラトリープレス

【非特許文献9】Cozensら、２０１８（Nucleic Acids Res；４６（８）：ｅ５１

【非特許文献10】Ochmanら、１９８９（Erlich H.A.（eds）PCR Technology, Palgrave Macmillan、London

【非特許文献11】Galanら、Mol. BioSyst.、2016、12、2342-2358

【非特許文献12】Audic＆Claverie（Genome Research 1997、7：986-995

【非特許文献13】Zitzler、Laumanns＆Thiele、2001、TIK-Report、volume 103

【非特許文献14】Zitzler、Kunzli、2004、多目的検索におけるインジケーターベースの選択、In：Yao X. et al, （eds）Parallel Problem Solving from Nature-PPSN VIII .PPSN 2004. Lecture Notes in Computer Science、vol 3242. Springer、Berlin、Heidelberg

【図1】