(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-07-19
(54)【発明の名称】タンパク質工学及びタンパク質生成のための方法及びシステム
(51)【国際特許分類】
C12Q 1/6811 20180101AFI20220711BHJP
C12Q 1/6804 20180101ALI20220711BHJP
C12N 15/10 20060101ALI20220711BHJP
C12N 15/13 20060101ALI20220711BHJP
C12N 15/12 20060101ALI20220711BHJP
C12N 15/34 20060101ALI20220711BHJP
C12N 15/62 20060101ALI20220711BHJP
C12Q 1/37 20060101ALI20220711BHJP
C12M 1/00 20060101ALI20220711BHJP
G16B 40/00 20190101ALI20220711BHJP
C40B 40/08 20060101ALN20220711BHJP
C40B 10/00 20060101ALN20220711BHJP
【FI】
C12Q1/6811 Z ZNA
C12Q1/6804 Z
C12N15/10 200Z
C12N15/13
C12N15/12
C12N15/34
C12N15/62 Z
C12Q1/37
C12M1/00 A
G16B40/00
C40B40/08
C40B10/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021566942
(86)(22)【出願日】2020-05-11
(85)【翻訳文提出日】2022-01-07
(86)【国際出願番号】 GB2020051143
(87)【国際公開番号】W WO2020225576
(87)【国際公開日】2020-11-12
(32)【優先日】2019-05-09
(33)【優先権主張国・地域又は機関】GB
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】521489355
【氏名又は名称】ラブジニアス エルティーディー
【氏名又は名称原語表記】LABGENIUS LTD
【住所又は居所原語表記】Suite 1,3rd Floor 11-12 St. James’s Square London Greater London SW1Y 4LB(GB)
(74)【代理人】
【識別番号】110001999
【氏名又は名称】特許業務法人はなぶさ特許商標事務所
(72)【発明者】
【氏名】リッカビー、ハリソン フレデリック
(72)【発明者】
【氏名】フィールド、ジェームス エドワード ジョン
(72)【発明者】
【氏名】プチンツェワ、エカテリナ ヴィクトロヴナ
(72)【発明者】
【氏名】コーゼンズ、クリストファー
【テーマコード(参考)】
4B029
4B063
【Fターム(参考)】
4B029AA07
4B029AA23
4B029BB15
4B029BB20
4B029FA15
4B029GB01
4B063QA05
4B063QA13
4B063QA18
4B063QQ10
4B063QQ13
4B063QQ36
4B063QQ43
4B063QQ46
4B063QQ53
4B063QQ79
4B063QR16
4B063QR33
4B063QR36
4B063QR48
4B063QR79
4B063QR80
4B063QR82
4B063QS15
4B063QS38
4B063QS39
(57)【要約】
【課題】タンパク質工学及びタンパク質生成のための方法及びシステム
【解決手段】本発明は、1以上の所望の特性を有するタンパク質を生成するための方法を提供し、この方法は:(a)ライブラリ設計工程、(b)ライブラリ試験工程、(c)学習工程を含み、ライブラリ試験工程の結果に少なくとも一部に基づいて、配列変異体にフィットネススコアを割り当て、機械学習アルゴリズムを各配列変異体のフィットネススコアに使用して、新たな配列変異体のフィットネススコアを予測するモデルのトレーニングを行い、そして工程(c)でトレーニングされた機械学習モデルを使用して、配列変異体の新たなライブラリを設計する。本発明はまた、1以上の所望の特性を有するタンパク質を生成するためのシステムを提供し、前記システムは、本発明の方法を実施するように適合されている。
【選択図】
図1
【特許請求の範囲】
【請求項1】
1以上の所望の特性を有するタンパク質を生成する方法であって、
前記方法は
(a)ライブラリ設計工程:
少なくとも10
4配列変異体を含む核酸ライブラリを設計する工程であって、
各配列変異体は、タンパク質のコード配列を含むとともに、各配列変異体は、少なくとも1つの定常領域と少なくとも1つの可変領域とを含み、
1以上の定常領域はライブラリ内の全ての配列変異体に共通であり、
1以上の可変領域はライブラリ内の全ての配列変異体に共通ではない、工程
(b)ライブラリ試験工程:
1以上の所望の特性について、配列変異体が並行して試験される工程;
(c)学習工程:
前記ライブラリ試験工程の結果の少なくとも一部に基いて、配列変異体にフィットネススコア(適応度スコア)をそれぞれ割り当て、そして、機械学習アルゴリズムを各配列変異体のフィットネススコア(適応度スコア)に使用して、新たな配列変異体用のフィットネススコア(適応度スコア)を予測するモデルをトレーニングする工程;
を含み、
工程(c)でトレーニングされた前記機械学習モデルを使用して、改善されたフィットネススコア(適応度スコア)分布を有する配列変異体の新たなライブラリを設計する、
方法。
【請求項2】
さらに(a’)ライブラリアセンブリ工程:
-1以上の可変領域を含む、ライブラリ中の配列変異体の第一の可変部分に対応する第一の複数の核酸分子を提供する段階であって、ここで、第一の複数の核酸分子は1以上の可変領域の変異体を含む、段階;
-少なくとも1つのさらなる可変領域を含む、ライブラリ中の配列変異体の少なくとも1つのさらなる可変部分に対応する、少なくとも1つのさらなる複数の核酸分子を提供する段階であって、ここで、少なくとも1つのさらなる複数の核酸分子は、少なくとも1つのさらなる可変領域の変異体を含む、段階;及び/又は
ライブラリ中の配列変異体の少なくとも1つの定常部分に対応する、少なくとも1つのさらなる複数の核酸分子を提供する段階であって、各定常部分は定常領域を含み且つ可変領域を含まず、ここで少なくとも1つのさらなる複数の核酸分子は実質的に同一である、段階;
-複数の第一の及び少なくとも1つのさらなる核酸分子のそれぞれをアセンブリして、核酸ライブラリを形成する段階であって、ライブラリ内の各変異体は第一の可変部分及び少なくとも1つのさらなる部分を含む、段階;
を含む、請求項1に記載の方法。
【請求項3】
前記ライブラリ設計工程(a)がUSERアセンブリ、Darwin(ダーウィン)アセンブリ、及び/又は、逆PCRを利用する、請求項1又は請求項2に記載の方法。
【請求項4】
1以上の可変部分のそれぞれに対応する前記核酸分子が一本鎖DNAとして提供され、任意に、1以上の可変部分の変異体に対応する複数の核酸分子を提供することが、シングルプライマーエクステンション(単一プライマー伸長法)により第二のDNA鎖を合成して、二本鎖DNAを形成することを含む、
請求項2に記載の方法。
【請求項5】
前記定常部分が最大約2000のヌクレオチド長であり、及び/又は、前記可変部分が最大約200のヌクレオチド長である、請求項1乃至請求項4のうちいずれか一項に記載の
方法。
【請求項6】
各配列変異体が、複数の定常部分及び/又は複数の可変部分を含む、請求項1乃至請求項5のうちいずれか一項に記載の方法。
【請求項7】
前記ライブラリ設計工程(a)が、少なくとも1つの位置にランダムな変動性を含むよう、1以上の可変領域の少なくとも1つを設計することを含み、任意に、前記ライブラリ設計工程(a)が、少なくとも1つの可変領域の1以上の特定位置に、ランダムな変動性を含むように、1以上の可変領域の少なくとも1つを設計することを含む、請求項1乃至請求項6のうちいずれか一項に記載の方法。
【請求項8】
ランダムな変動性を含むことが、DNAコドンに対応する配列に対する変動性を制約することを含む、請求項7に記載の方法。
【請求項9】
前記ライブラリ設計工程(a)が:
-1以上の所望の特性のうちの少なくとも1つを有するタンパク質をエンコードする核酸配列を選択する段階;
-変動性が、1以上の所望の特性に関する少なくとも1つの改善、及び/又は、1以上の所望の特性に関する少なくとも1つの獲得をもたらすことが予想される、配列の1以上の領域を自動的に特定する段階;及び
-変動性が、1以上の所望の特性に関する少なくとも1つの改善、及び/又は、1以上の所望の特性に関する少なくとも1つの獲得をもたらすことが予想される、配列の1以上の領域を含むよう、1以上の可変部分を定義する段階;を含む、
請求項1乃至請求項8のうちいずれか一項に記載の方法。
【請求項10】
前記ライブラリ設計工程(a)が、さらに、
-変動性が、タンパク質の完全性及び/又は1以上の所望の特性に関する少なくとも1つに対して有害であることが予想される、配列の1以上の領域を特定する段階;及び
-変動性が、タンパク質の完全性及び/又は1以上の所望の特性に関する少なくとも1つに対して有害であることが予想される、配列の1以上の領域を含むよう、1以上の定常領域の1以上を定義する段階;を含む、
請求項9に記載の方法。
【請求項11】
1以上の定常領域の少なくとも1つが、プロモーター配列、エンハンサー配列、局在化シグナル、フラグ配列、マーカー配列、リボソーム結合部位、終止コドン、開始コドン、5’ステムループ構造、3’ステムループ構造、複製起点、及び選択配列から選択される、1以上の配列を含む、請求項1乃至請求項10のうちいずれか一項に記載の方法。
【請求項12】
さらに、核酸ライブラリの各配列変異体によってエンコードされたタンパク質を生成し、タンパク質ライブラリを得る工程(a”)を含み、ここで前記ライブラリ試験工程(b)はタンパク質ライブラリを、1以上の所望の特性に関して試験される1以上のアッセイに供する段階を含む、請求項1乃至請求項11のうちいずれか一項に記載の方法。
【請求項13】
前記核酸ライブラリはDNAライブラリであり、タンパク質ライブラリの生成は、DNAライブラリの転写及び翻訳を含み、ライブラリの翻訳は、それがエンコードするタンパク質に結合したRNA配列変異体を夫々含むRNAポリペプチド融合分子の合成を含む、請求項12に記載の方法。
【請求項14】
前記核酸ライブラリはDNAライブラリであり、タンパク質ライブラリの生成は、DNAライブラリの転写及び翻訳を含み、ライブラリの翻訳は、ポリペプチドがDNAライブラ
リの配列変異体に対応するコートタンパク質と融合する、コートタンパク質-ポリペプチド融合を示すファージ増殖を含む、請求項12に記載の方法。
【請求項15】
前記ライブラリ試験工程(b)は、1以上のアッセイの結果に応じて、タンパク質ライブラリを少なくとも2つのサンプルに分割する段階、及び、少なくとも2つのサンプルの少なくとも1つに存在する核酸を配列決定する段階を含む、請求項12、請求項13又は請求項14に記載の方法。
【請求項16】
前記学習工程(c)が、配列決定によって得られた配列を工程(a)において設計された配列とアライニング(整列)させる段階、及び、各配列が各サンプルに現れる回数を定量化する段階を含む、請求項15に記載の方法。
【請求項17】
1以上の所望の特性が、タンパク質の物理化学的特性、活性関連特性、生理学的関連特性、及び薬物動態特性から選択される、請求項1乃至請求項16のうちいずれか一項に記載の方法。
【請求項18】
定常領域の少なくとも1つが、タンパク質精製タグをエンコードする配列を含み、任意に、タンパク質精製タグは、タンパク質のC末端に位置し、1以上の所望の特性の1つは、プロテアーゼ耐性であり、1以上のアッセイを介してタンパク質ライブラリを実行することは、タンパク質ライブラリを1以上のプロテアーゼに暴露し、タンパク質精製タグを用いてタンパク質を精製し、1以上のプロテアーゼによって切断されない配列変異体を特定することを含む、請求項17に記載の方法。
【請求項19】
1以上の所望の特性の1つは特定の標的に結び付けられ、ライブラリ試験工程(b)は、表面に固定化された特定の標的とともにタンパク質ライブラリをインキュベートする段階、及びタンパク質ライブラリを、前記表面に結合されたサンプルと、前記表面に結合していないサンプルに分割する段階を含む、請求項15、又は請求項15に従属する請求項16乃至請求項18のうちいずれか一項に記載の方法。
【請求項20】
ライブラリ試験工程が、複数の特性について変異体を試験する段階を含み、学習工程が、試験された各変異体に対して、複数のフィットネススコアを割り当てる段階を含み、ここで各フィットネススコアは、複数の特性の1つに対応し、学習工程は複数の機械学習アルゴリズムをトレーニングする段階を含み、各機械学習アルゴリズムは、新たな配列変異体の複数のフィットネススコアの少なくとも1つを予測するようにトレーニングされる、請求項1乃至請求項19のうちいずれか一項に記載の方法。
【請求項21】
配列変異体の夫々に関連する1以上のフィットネススコアは、各配列が第一のサンプル中に現れる回数、及び、各配列が第二のサンプル中に現れる回数に依存し、任意で、第一のサンプルは、1以上のアッセイの1つにおいて陽性結果とみなされるサンプルに対応し、第二のサンプルは対照例である、請求項16、又は請求項16に従属する請求項17乃至請求項20のうちいずれか一項に記載の方法。
【請求項22】
機械学習アルゴリズムが分類子であり、機械学習アルゴリズムがニューラルネットワークである、請求項1乃至請求項21のうちいずれか一項に記載の方法。
【請求項23】
工程(c)でトレーニングされた機械学習モデルが、インシリコで配列変異体のライブラリを反復的に最適化することにより、配列変異体の新たなライブラリを設計するために使用され、任意に、配列変異体のライブラリは、遺伝子アルゴリズムを使用して反復的に最適化される、請求項1乃至請求項22のうちいずれか一項に記載の方法。
【請求項24】
新たなライブラリとともに、工程(a)から(c)を繰り返すことをさらに含む、請求項1乃至請求項23のうちいずれか一項に記載の方法。
【請求項25】
新たなライブラリが、1以上の所望の特性を有するタンパク質をエンコードする、少なくとも1つの配列変異体を含む、請求項1乃至請求項24のうちいずれか一項に記載の方法。
【請求項26】
改善されたフィットネススコア分布を有する配列変異体の新たなライブラリは、工程(a)で調製されたライブラリ内の配列変異体の全て又は一部の対応する1以上の可変領域に関して、少なくとも30%の配列変異体が、95%未満のDNA配列類似性を有する、1以上の可変領域を有するものである、請求項1乃至請求項25のうちいずれか一項に記載の方法。
【請求項27】
工程(a)で調製されたライブラリ内の配列変異体と比較して、新たなライブラリの配列変異体のより高い割合において、1以上の改善された所望の特性を示す、請求項1乃至請求項26のうちいずれか一項に記載の方法。
【請求項28】
1以上の所望の特性を有するタンパク質を生成するシステムであって、該システムは、
(i)請求項1乃至請求項27のうちいずれか一項に記載の方法を実施するように適合されたプロセッサ、
(ii)少なくとも試験工程を実施するように、プロセッサによって制御される、実験室自動化装置、を含む、
システム。
【請求項29】
実験自動化装置は、液体取扱及び分配装置;コンテナ取扱装置;実験用ロボット:インキュベータ;プレート取扱装置;分光光度計;クロマトグラフィー装置;質量分析計;サーマルサイクリング(熱サイクル)装置;核酸配列決定装置;及び遠心分離装置からなる群のうちの1以上を含む、請求項28に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、タンパク質工学及びタンパク質生成生のための方法及びシステム、特に、ハイコンテント(high-content)核酸ライブラリ、ハイスループットアッセイ及び人工知能の組み合わせを用いるタンパク質工学のための反復アプローチであるとみなされる。
【背景技術】
【0002】
特定の機能のためにタンパク質を設計する際、主な課題の1つは、候補タンパク質を変更の起点として使用する場合においても、検索可能な配列空間を構成する、ユーザーに提示される可能性のある分子の組み合わせ的爆発にある。この問題は、合成生物学プロセスに共通する設計(デザイン)-構築-試験(テスト)-学習の方法論ループ全体を通して、タンパク質工学に対するハイスルプットアプローチが使用可能である選択肢が少なすぎることでより一層ひどくなっている。ループ内のあらゆるボトルネックが、配列空間の探索に制限をもたらすことが理解されるであろう。したがって、配列変動性の広大な空間を自動的且つ効率的に探索して、特定の所望の特性のセットを備える候補タンパク質を特定することができる、方法及びシステムを提供する必要性が存在する。本発明のこれら及び他の使用、特徴及び利点は、本明細書で提供される教示から、当業者にとって明らかであろう。
【発明の概要】
【課題を解決するための手段】
【0003】
本発明によれば、第1の態様は、1以上の所望の機能を有するタンパク質を生成する方法を提供し、該方法は、
(a)ライブラリ設計工程:
少なくとも104配列変異体を含む核酸ライブラリを設計する工程であって、
各配列変異体は、タンパク質のコード配列を含むとともに、各配列変異体は、少なくとも1つの定常領域と少なくとも1つの可変領域とを含み、
1以上の定常領域はライブラリ内の全ての配列変異体に共通であり、
1以上の可変領域はライブラリ内の全ての配列変異体に共通ではない、工程
(b)ライブラリ試験工程:
1以上の所望の特性について、配列変異体が並行して試験される工程;
(c)学習工程:
前記ライブラリ試験工程の結果の少なくとも一部に基いて、配列変異体にフィットネススコア(適応度スコア)をそれぞれ割り当て、そして、機械学習アルゴリズムを各配列変異体のフィットネススコア(適応度スコア)に使用して、新たな配列変異体用のフィットネススコア(適応度スコア)を予測するモデルをトレーニングする工程;
を含み、
工程(c)でトレーニングされた前記機械学習モデルを使用して、改善されたフィットネススコア(適応度スコア)分布を有する配列変異体の新たなライブラリを設計する、方法である。
【0004】
したがって、本発明の方法は、ライブラリ設計、ハイスループットアッセイ、及び人工知能への特定のアプローチを組み合わせて、配列空間の広い領域を効率的に探索することにより、1以上の所望の特性を有する候補タンパク質のエンジニアリング及び生成を可能にする。
【0005】
特に、定常及び可変部分の使用は、可変性が有効に導入される配列の領域を制約可能にし
、任意で、これら部分を別々に設計及び生成し、全ての変異体に含まれるプロモーターやフラグなどの要素を含む共通の定常部分でこれらを組み立てることができる。定常部分は、例えば選択されたフラグ又はプロモーターを有する選択されたいくつかの部分間で容易に交換され、可変部分のライブラリと組み合わせられる。可変部分は、配列空間を効果的に探索するために使用される。さらに、ライブラリで取得したデータから学習するための機械学習の使用により、新たな設計工程に情報を提供できるため、試験された変異体の初期セットを改善できる新たな候補変異体を生成できる。
【0006】
実施形態において、本方法は、さらに(a’)ライブラリアセンブリ工程:
(1)1以上の可変領域を含む、ライブラリ中の配列変異体の第一の可変部分に対応する、第一の複数の核酸分子を提供する段階であって、ここで、第一の複数の核酸分子は、1以上の可変領域の変異体を含む、段階;
(2)(i)少なくとも1つのさらなる可変領域を含む、ライブラリ中の配列変異体の少なくとも1つのさらなる可変部分に対応する、少なくとも1つのさらなる複数の核酸分子を提供する段階であって、ここで少なくとも1つのさらなる複数の核酸分子は、少なくとも1つのさらなる可変領域の変異体を含む、段階;及び/又は
(ii)ライブラリ中の配列変異体の少なくとも1つの定常部分に対応する、少なくとも1つのさらなる複数の核酸分子を提供する段階であって、各定常部分は定常領域を含み且つ可変領域を含まず、ここで、少なくとも1つのさらなる複数の核酸分子は実質的に同一である、段階;及び
(3)複数の第一の及び少なくとも1つのさらなる核酸分子のそれぞれをアセンブリ(組み立て)して、核酸ライブラリを形成する段階であって、ライブラリ中の各変異体は第一の可変部分と少なくとも1つのさらなる部分を含む、段階;
を含む。
【0007】
実施形態において、複数の核酸分子のそれぞれは、核酸分子のアセンブリのために、オーバーハングの生成を可能にするための、複数の他の核酸分子の別の1つの末端配列と同一である、末端配列をさらに含む。実施形態において、末端配列は、2乃至20の塩基長を有する。実施形態において、末端配列は4乃至10の塩基長を有する。
【0008】
実施形態において、各配列変異体は、少なくとも1つの定常部分と少なくとも1つの可変部分を含む。
【0009】
実施形態において、各配列変異体は、2つの定常部分を含む:プロモーター配列(例えばT7プロモーター配列)、1以上の任意のタグ、及び、エンコードされたタンパク質のコード配列の開始(すなわちN-末端部分)を含む、第一の又は開始部分;エンコードされたタンパク質のコード配列の末端(すなわち、C-末端部分)、及び、1以上の任意の精製タグを含む、第二の又は最終部分。
【0010】
実施形態において、各配列変異体は、2つの可変部分を含み、それぞれは、エンコードされたタンパク質のコード配列の一部を含む。
【0011】
実施形態において、2つの可変部分間に、さらなる定常部分が提供され得る。
【0012】
実施形態において、各配列変異体は、2つの可変部分と2つの定常部分を有する。2つの可変部分に制限することで、可変部分の調達(ソーシング)に関連するコストを制御し、可変部分が類似のセクション(例えば繰り返しの足場など)を含む場合、ライブラリアセンブリ工程においてエラーが発生するリスクを減じることができるため、有用であり得る。
【0013】
実施形態において、定常部分に対応する核酸分子は二本鎖DNAとして提供される。この有利性は、配列が、たとえばPCRによって、又はバクテリアで複製されるプラスミドにそれを含めることによって、容易に操作及び複製され得ることを意味する。
【0014】
実施形態において、定常部分に対応する複数の核酸分子を提供することは、ポリメラーゼ連鎖反応によって、定常部分に対応する核酸分子を増幅することを含む。
【0015】
実施形態において、1以上の可変部分のそれぞれに対応する核酸分子は、一本鎖DNAとして提供され、任意に、1以上の可変部分の変異体に対応する複数の核酸分子を提供することは、シングルプライマーエクステンション(単一プライマー伸長法)により第二のDNA鎖を合成して、二本鎖DNAを形成することを含む。これは、dsDNAとして高精度で合成することが難しいため、ランダムな変動性が高い可変部分の複雑なコレクションを使用する場合に、特に有利であり得る。
【0016】
実施形態において、1以上の可変部分の変異体に対応する複数の核酸分子を提供することは、シングルプライマーエクステンション(単一プライマー伸長法)により、第二のDNA鎖を合成し、二本鎖DNAを形成すること含む。
【0017】
有利なことに、PCRを使用しないことは、ライブラリにエラーや増幅バイアスが導入されないことを保証する。PCRはこれらの確率を変える可能性があるため、可変部分が夫々の変異体の特定の確率で設計される場合、これは特に有利である。
【0018】
実施形態において、第一の複数の核酸分子のそれぞれを、さらなる複数の核酸分子のそれぞれからの核酸分子とアセンブリ(組み立て)することは、USER(ウラシル特異的切除試薬)アセンブリにより、核酸分子をアセンブリすることを含む。理論に縛られることを望まないが、USERアセンブリは、傷を残さず、制限酵素のような特定の認識配列に依存せず、プログラム可能なオーバーハングをもたらすため、特に有利であると考えられている。
【0019】
実施形態において、定常部分は、最大約2000のヌクレオチド長であり、及び/又は、ここで可変部分は最大約200のヌクレオチド長である。
【0020】
有利なことに、定常部分は一度だけ供給されればよく、例えばバクテリア細胞で複製されるプラスミドにそれらを含めることにより、容易に複製されるdsDNAとして供給され得る。実施形態において、可変部分は最大約200のヌクレオチド長である。これにより、可変配列の非常に複雑なコレクションが生じる場合を含め、可変配列を高精度で化学的に合成できる可能性がある。
【0021】
実施形態において、各配列変異体は、複数の定常部分及び/又は複数の可変部分を含む。
【0022】
実施形態において、ライブラリ設計工程(a)は、1以上の定常部分のそれぞれの配列を完全に定義することを含む。
【0023】
実施形態において、ライブラリ設計工程(a)は、少なくとも1つの位置にランダムな変動性を含むよう、1以上の可変領域の少なくとも1つを設計することを含み、任意に、前記ライブラリ設計工程(a)は、少なくとも1つの可変領域の1以上の特定位置に、ランダムな変動性を含むよう、1以上の可変領域の少なくとも1つを設計することを含む。
【0024】
実施形態において、ランダムな変動性は、各塩基(A、C、T、G)の確率を提供することにより制約される。実施形態では、ランダムな変動性は、各アミノ酸の確率を提供する
ことにより制約される。実施形態では、各塩基の確率は、可変部分のそれぞれにわたって同じであるか、あるいは、可変部分に依存し得る。実施形態では、少なくとも1つの部分での少なくとも1つの塩基の確率は0であり得る。
【0025】
実施形態において、ライブラリ設計工程(a)は、可変部分の1以上の特定部分におけるランダムな変動性を含むよう、1以上の可変部分の少なくとも1つを設計することを含む。
【0026】
特に、ランダムな変動性を含むことは、DNAコドンに対応する配列に変動性を制約することを含み得る。
【0027】
実施形態において、ランダムな変動性を含むことは、終止(ストップ)コドンに対応しない配列に変動性を制約することを含む。これは、先端を切り取った(トランケートされた)タンパク質にエンコードし得る配列の排除を可能にし、それにより、実際に使用される可能性が高い領域へ配列空間の探索を集中させることを可能にする。
【0028】
実施形態において、ライブラリ設計工程(a)は:
1以上の所望の特性のうちの少なくとも1つを有する、タンパク質をエンコードする核酸配列を選択する段階;
変動性が1以上の所望の特性の少なくとも1つを改善すること、及び/又は、1以上の所望の特性の少なくとも1つを獲得することをもたらすことが予想される、配列の1以上の領域を自動的に特定する段階;及び、
変動性が1以上の所望の特性の少なくとも1つを改善すること、及び/又は、1以上の所望の特性の少なくとも1つを獲得することをもたらすことが予想される、配列の1以上の領域を含むように、1以上の可変部分を定義する段階;
を含む。
【0029】
いくつかの実施形態において、ライブラリ設計工程(a)はさらに:
変動性がタンパク質の完全性(全体性)に対して、及び/又は、1以上の所望の特性の少なくとも1つに対して有害であることが予想される、配列の1以上の領域を特定する段階;及び、
変動性がタンパク質の完全性(全体性)に対して、及び/又は、1以上の所望の特性の少なくとも1つに対して有害であることが予想される、配列の1以上の領域を含むよう、1以上の定常領域の1以上を定義する段階;
を含む。
【0030】
実施形態において、1以上の定常領域の少なくとも一つは以下から選択される1以上の配列を含む:プロモーター配列、エンハンサー配列、局在化シグナル、フラグ配列、マーカー配列、リボソーム結合部位、終止コドン、開始コドン、5’ステムループ構造、3’ステムループ培養、複製起点、及び選択配列。
【0031】
実施形態において、本方法はさらに、各配列変異体によりエンコードされたタンパク質を生成し、タンパク質ライブラリを得る工程(a)を含み、ここでライブラリ試験工程(b)は、1以上の所望の特性に関して試験される1以上のアッセイに、タンパク質ライブラリを供することを含む。核酸ライブラリは、DNAライブラリであり得、タンパク質ライブラリの生成は、DNAライブラリの転写及び翻訳を含み得る。実施形態において、DNAライブラリの転写は、DNAライブラリをT7RNAポリメラーゼとともにインキュベートすることを含む。T7RNAポリメラーゼの使用は、このポリメラーゼが明確に定義されたプロモーター配列を有し、エラー率が非常に低いため有利であり得る。
【0032】
実施形態において、本方法はさらに、各配列変異体によりエンコードされたタンパク質を生成し、タンパク質ライブラリを得る工程(a”)を含み、ここでライブラリ試験工程(b)は、1以上の所望の特性に関して試験される1以上のアッセイに、タンパク質ライブラリを供することを含む。核酸ライブラリは、DNAライブラリであり得、タンパク質ライブラリの生成は、DNAライブラリの転写及び翻訳を含み得る。実施形態において、DNAライブラリの転写は、DNAライブラリをT7RNAポリメラーゼとともにインキュベートすることを含む。T7ポリメラーゼの使用は、このポリメラーゼが明確に定義されたプロモーター配列を有し、エラー率が非常に低いため有利であり得る。
【0033】
実施形態において、核酸ライブラリはDNAライブラリであり、タンパク質ライブラリの生成はDNAライブラリの転写と翻訳を含み、ここで、ライブラリの翻訳は、それがエンコードするタンパク質に結合したRNA配列変異体をそれぞれ含む、RNAポリペプチド融合分子を合成する。実施形態において、これは、“mRNAディスプレイ”と呼ばれる技術を使用して実施される。実施形態において、これは“ファージディスプレイ”と呼ばれる技術を使用して実施される。理論に拘束されることを望まないが、mRNAディスプレイは、全プロセスがインビトロで起こるために、本発明の観点においては有利であると考えられる。これは、多くの場合効率の低いプロセスであり、それによりボトルネックの発生とライブラリにバイアスをかける可能性がある、DNAライブラリを細胞に変換する必要性を廃する。さらに、mRNAディスプレイにおいて、コード配列はタンパク質の共有結合しているため、過酷な試験条件下であっても、2つの部分が解離することを防ぐ。これは、過酷な条件への耐性といったことなど、幅広い範囲で所望の特性の試験を可能にする。
【0034】
実施形態において、核酸ライブラリはDNAライブラリであり、タンパク質ライブラリの生成はDNAライブラリの転写と翻訳を含み、ここでライブラリの翻訳は、ポリペプチドがDNAライブラリの配列変異体に対応するコートタンパク質と融合する、コートタンパク質-ポリペプチド融合を示すファージ増殖を含む。実施形態では、これは“ファージディスプレイ”呼ばれる技術を使用して行われる。議論に束縛されることを望まないが、ファージディスプレイは、mRNAディスプレイと比較して、長鎖タンパク質(例えば、10kDaより長いタンパク質、例えば、10-100、10-50、15、30、40、又は50kDa)のより効率的なディスプレイを可能とし、それにより、ライブラリ内の変異体のより効果的な選択を可能とするため、本発明の観点において有利であると考えられる。
【0035】
実施形態において、生成されるタンパク質ライブラリは、タンパク質を抽出し、逆転写定量的PCRを実施して、タンパク質ライブラリに関連するmRNAの量を定量化することにより、品質管理される。
【0036】
実施形態において、タンパク質ライブラリは、完全にインビトロで核酸ライブラリから生成される。
【0037】
実施形態において、ライブラリ試験工程(b)は、1以上のアッセイの結果に応じてタンパク質ライブラリを少なくとも2つのサンプルに分割し、少なくとも2つのサンプルのうちの少なくとも1つに存在する核酸を配列決定(シーケンス)することを含む。
【0038】
実施形態において、各サンプルは、DNAシーケンシング(配列決定)の前に、逆転写工程及びサンプルのDNA部分を抽出するための精製工程に供される。
【0039】
このアプローチは、次世代のシーケンシング(配列決定)を使用して、機能的に異なるタンパク質のグループを特定することを可能とし得る。その結果、この方法は、非常に高ス
ループットで、所望の機能を有する/有していないタンパク質を特定できる(アッセイでのパフォーマンスに応じて異なる)。タンパク質レベルでの変異体の特定は、非常にエラーが発生しやすく(たとえば、質量分析プロテオミクスは現在でもDNA配列よりも著しくノイズが多い)、及び/又は、著しく遅くなる。
【0040】
実施形態では、本方法は、少なくとも2つのサンプルのうちの少なくとも2つに存在する核酸をバーコード化し、少なくとも2つのバーコード化されたサンプルを一緒に配列決定することをさらに含む。
【0041】
実施形態では、学習工程(c)は、配列決定によって得られた配列を工程(a)で設計された配列とアライニング(整列)させ、各配列が各サンプルに現れる回数を定量化することを含む。
【0042】
実施形態において、定常領域の少なくとも1つは、タンパク質精製タグをエンコードする配列を含み、任意に、タンパク質精製タグは、ストレプトアビジン結合ペプチドである。有利なことに、これにより、ストレプトアビジンでコートされたビーズを、翻訳後のタンパク質の分離に使用して、mRNAディスプレイ工程の品質管理の実行、又はプロテアーゼ安定性アッセイなどのいくつかのアッセイの実行ができるようになる可能性がある。
【0043】
実施形態において、1以上の所望の特性は、以下から選択される:タンパク質の物理化学的特性、活性関連特性、生理学的関連特性、及び薬物動態学的特性。
【0044】
実施形態では、物理化学的特性は、化学的安定性(例えば、酸化剤、酸などに対する耐性)、溶解性、熱耐性、乾燥及び再水和に対する耐性などから選択され得る。
【0045】
実施形態において、活性関連特性は、酵素活性、任意の活性又は結合の特異性、標的外効果(すなわち、一次標的以外の標的への活性又は結合)、結合親和性、選択された標的に対する会合/解離速度、酵素の阻害又は刺激に対する能力、結合力(機能的親和性)などから選択され得る。
【0046】
実施形態において、生理学的関連特性は、プロテアーゼ耐性、免疫原性、1以上の免疫エフェクターを活性化する能力、血液脳バリアを通過する能力、上皮(例えば、腸上皮、肺上皮など)を通過する能力、細胞内に入る能力、細胞膜/脂質二重層を通過する能力、特定の細胞型の細胞内に入る能力、固形腫瘍に浸透する能力、臓器/細胞型特異的送達への適合性から選択され得る。
【0047】
実施形態において、薬物動態学的特性は、消失半減期、クリアランス、毒性、臓器特異的薬物動態などから選択され得る。
【0048】
実施形態では、定常領域の少なくとも1つは、タンパク質精製タグをエンコードする配列(シーケンス)を含み、任意で、タンパク質精製タグはタンパク質のC末端に位置し、1以上の所望の特性の1つはプロテアーゼ耐性であり、1以上のアッセイを介してタンパク質ライブラリを実行することは、タンパク質ライブラリを1以上のプロテアーゼに曝露し、タンパク質精製タグを使用してタンパク質を精製し、1以上のプロテアーゼによって切断されない配列変異体を特定することを含む。
【0049】
実施形態では、タンパク質精製タグは、タンパク質のC末端に位置している。
【0050】
有利なことに、mRNAディスプレイを使用する場合、各タンパク質に関連するmRNAは、タンパク質のN末端に位置するであろう。したがって、1以上のプロテアーゼによっ
て切断されない配列変異体は、依然としてそれらのmRNAに結合するであろうが、切断される配列変異体は結合しないだろう。このように、タンパク質が精製されると、切断された変異体のmRNAが洗い流され、プロテアーゼ耐性変異体のみが配列決定される。
【0051】
実施形態において、1以上の所望の特性の1つは特定の標的に結び付けられ、ライブラリ試験工程(b)は、タンパク質ライブラリを表面に固定化された特定の標的とともにインキュベートし、タンパク質ライブラリを、表面に結合したサンプルと表面に結合していないサンプルに分割することを含む。
【0052】
実施形態では、本方法は、非特異的相互作用を除去するためにインキュベーション後に表面を洗浄することをさらに含む。実施形態では、本方法は、同じライブラリを対照条件(例えば、固定化標的のない、表面のみ)に曝露して、偽陽性(例えば、標的よりはむしろ表面に結合する変異体)を除外することをさらに含む。
【0053】
実施形態では、ライブラリ試験工程は、複数の特性について変異体を試験することを含み、学習工程は、試験された各変異体に複数のフィットネススコアを割り当てることを含み、ここで各フィットネススコアは、複数の特性の1つに対応し、学習工程は、複数の機械学習アルゴリズムをトレーニングすることを含み、各機械学習アルゴリズムは、新たな配列変異体の複数のフィットネススコアの少なくとも1つを予測するようにトレーニングされる。
【0054】
実施形態では、学習工程は、試験された各配列変異体に関して組み合わされたフィットネススコア(適合性スコア)を割り当てることを含み、試験された各配列変異体に関して組み合わされたフィットネススコアは、配列変異体の複数のフィットネススコアに基づく。
【0055】
実施形態では、配列変異体のそれぞれに関連する1以上のフィットネススコアは、各配列が第一のサンプル中に現れる回数及び各配列が第二のサンプル中に現れる回数に依存し、任意で、第一のサンプルは、1以上のアッセイの1つで陽性の結果が得られたとみなされるサンプルであり、第二のサンプルは対照例である。
【0056】
有利なことに、配列をスコアリングするこの方法は、システム内のノイズの影響を減らすことを可能にし得る。選択後に配列が1回のみ表示される場合、これは、実際に安定性が向上しているというよりはむしろ、単にライブラリの準備中に導入されたエラーであり得るか、又は、たまたまプロテアーゼに遭遇しなかった配列である可能性がある。
【0057】
実施形態では、配列変異体に関連するフィットネススコアは、特定の工程が配列に関してどの程度偏っているのかを定量化するスコアである。たとえば、所望の機能を試験するためのアッセイは、アッセイ前後のライブラリ上で、配列データ(例えば配列カウンタ)を比較することにより、ライブラリ中の各配列に対して工程がどの程度偏っているか定量化するスコア(“バイアス”又は“バイアススコア”とも呼ばれる)に関連付けることができる。
【0058】
実施形態では、スコアは、ベイズ(Bayesian)方法論を使用して、0(強い負のバイアス)と1(強い正のバイアス)の間で定量化される。中間スコアは、主観的な信頼水準に応じて、負のバイアス、正のバイアス、又は“以前と同様”(状況によっては“成功”とラベル付けされ得る)とみなされ得る。
【0059】
実施形態では、使用されるベイズ(Bayesian)方法論は、与えられた配列について、未知の平均λを有するポアソン分布を仮定し、工程前にxカウントを測定した後(すなわち、p(y|x))、工程後のyカウントを測定して、期待値を定量化するように設
計される。
【0060】
実施形態では、p(y|x)は、(N2/N1)y*((x+y)!/(x!y!(1+(N2/N1))(x+y+1)))として計算され得、ここで、xはサンプルサイズN1から観測され、yはサンプルサイズN2から観測される。
【0061】
有利なことに、このアプローチは、配列が工程後に何度も観察される場合、変異体が数回のみ観察される状況と比較して、配列変異体に関連する工程のバイアスの信頼性がより高くなるという仮定を反映する。
【0062】
実施形態では、スコアは、“期待通り/バイアスなし”として定義される残りの配列とともに、“負にバイアスされた”(例えば、バイアススコア<0.1)配列グループ、“正にバイアスされた”(例えば、バイアススコア>0.9)配列グループを定義するために使用され得る。これらの定義は、学習工程で機械学習アルゴリズムをトレーニングするために使用できる。
【0063】
実施形態において、負にバイアスされている、又は正にバイアスされている配列の閾値は、選択された信頼水準CLを使用して設定され得る。特に、1-εを超えるスコアを有する配列は“正のバイアス”としてラベル付けされ得、スコアがε未満の配列は“負のバイアス”としてラベル付けされ得、ここでεは(1-CL)/2として計算される。実施形態では、CLは、少なくとも0.9975、少なくとも0.955、又は少なくとも0.683である。
【0064】
実施形態では、フィットネススコアは、配列が第一及び第二のサンプルのそれぞれに少なくとも1つ現れる場合にのみ、配列変異体について計算される。これは、配列決定(シーケンシング)プロセスの誤りが原因で表示され、“真の読み取り”ではない配列を除外するのに有用であり得る。
【0065】
実施形態では、スコアは、第一のサンプル、第二のサンプル、又は第一及び第二のサンプルの合計において選んだ回数未満で現れる配列変異体を除外するためにフィルタリングされる。たとえば、両方のサンプルに渡って最低10回の読み取りの閾値を適用し得る。
【0066】
実施形態において、別個のバイアススコアは、各所望の機能について、各配列変異体について計算され得る。例えば、タンパク質ライブラリが、第一の標的への結合親和性を定量化するための第一のアッセイ、及び第二の標的への結合親和性を定量化するための第二のアッセイに供されると仮定すると、各配列変異体に関係する、これらアッセイのそれぞれのバイアスを反映して、2つの別個のスコアを計算することができる。
【0067】
実施形態では、第一のサンプルは、1以上のアッセイの1つで陽性の結果を有するとみなされるサンプルに対応し、第二のサンプルは対照例である。適切には、対照例は、1以上のアッセイの1つで陰性結果を有するとみなされるサンプルであるか、又は、陽性結果を有するとして第一のサンプルを認定するために使用される1以上のアッセイの前のライブラリに対応するサンプルである。
【0068】
実施形態では、機械学習アルゴリズムは分類子であり、機械学習アルゴリズムはニューラルネットワークである。
【0069】
実施形態では、機械学習アルゴリズムは回帰アルゴリズムである。たとえば、アルゴリズムは、ラッソ(Least Absolute Shrinkage and Selection Operator)回帰、リッジ回帰(Tikhonov正則化とも呼ばれる)、又はロジスティック回帰を利用し得る。言い換えると
、機械学習アルゴリズムは、各配列の数値(たとえば、連続数値)を予測できるモデルを構築するようにトレーニングされ得る。理論に拘束されることを望まないが、バイアススコアがスコアの範囲の端の周りに強くクラスター化することをデータが示す場合(すなわち、配列変異体の大部分が0に近いあるいは1に近いバイアススコアを有する場合)、分類子が特に適切であり得ると考えられる。
【0070】
実施形態では、機械学習アルゴリズムはニューラルネットワークである。特定の実施形態では、機械学習アルゴリズムは畳み込みニューラルネットワークである。
【0071】
実施形態では、機械学習アルゴリズムは複数分類子システムである。すなわち、アルゴリズムは分類子の集合であり、たとえば、アンサンブルアルゴリズムである。
【0072】
実施形態では、機械学習アルゴリズムはサポートベクター機械アルゴリズムである。
【0073】
有利なことに、分類子は、モデルに供給される任意の新たな配列のスコアを予測することができる。そのため、さまざまな最適化方法を使用して、これを配列の集団を最適化するために使用できる。したがって、最適化プロセスを実行して、これまでに試験された配列と比較して(例えば、“親”ライブラリ又は“母”集団(a ”parent” library or population)を有する配列変異体と比較して)、改善されたフィットネス(例えば、改善されたフィットネス分布)を有する配列の新たな集団を特定する。
【0074】
“改善されたフィットネススコア分布”を有する配列変異体のライブラリ又は集団は、配列変異体の1以上のフィットネススコアの分布が、配列の親ライブラリ又は母集団内の配列変異体の1以上のフィットネススコアの分布と比較して、より正値に偏っているものであり得る。すなわち最適化プロセスは、最適化プロセスを経験していない配列変異体の親ライブラリ又は母集団(例えば、新たに最適化された配列変異体のライブラリ又は集団に直接先行する、配列変異体の親ライブラリ又は母集団)の平均フィットネススコアより高い、平均フィットネススコア(たとえば、1、2、3、4、5、6、7以上の所望の特性に対応する、1、2、3、4、5、6、7以上のフィットネススコア)を有する配列変異体の新たなライブラリ又は集団を提供する。
【0075】
一実施形態では、“改善されたフィットネススコア分布”を有する配列変異体のライブラリ又は集団は、配列変異体の1以上の平均フィットネススコアが、配列変異体の親ライブラリ又は母集団内の、配列変異体の1以上の平均フィットネススコアより高いものである。さらに、又は代わりに、改善されたフィットネスを有する配列変異体のライブラリ又は集団は、配列変異体の1以上の中央フィットネススコアが、(配列変異体の親ライブラリ又は母集団)配列変異体の親ライブラリ又は母集団内の、配列変異体の1以上の中央フィットネススコアより高いものであり得る。さらに、又は代わりに、改善されたフィットネス有する配列変異体のライブラリ又は集団は、配列変異体の1以上の最頻(modal)フィットネススコアが、親ライブラリ又は母集団内の、配列変異体の1以上の最頻フィットネススコアよりも高いものであり得る。
【0076】
別の実施形態において、“改善されたフィットネススコア分布”を有する配列変異体のライブラリ又は集団は、親ライブラリ又は母集団と比較して、より少ない割合で非機能的配列変異体を含むものである。例えば、配列変異体のライブラリ又は集団における変異体の50%未満(たとえば、50、40、30、20、15、10、7、5、2、又は1%未満)は、非機能的配列変異体である(例えば、前記非機能的配列変異体は、1以上の改善された所望の特性、例えば、改善された物理化学的特性、改善された活性関連特性及び/又は改善された生理学的関連特性を示さない)。好ましくは、ライブラリ又は集団における配列変異体の20%未満(例えば、20、19、18、17、16、15、14、13
、12、11、10、9、8、7、6、5、4、3、2、又は1%未満)は、非機能的配列変異体である。より好ましくは、ライブラリ又は集団における変異体の10%未満が非機能的配列変異体である。
【0077】
別の実施形態では、“改善されたフィットネススコア分布”を有する配列変異体のライブラリ又は集団は、配列変異体の親ライブラリ又は母集団と比較して、1以上の改善されたフィットネススコア(例えば、1以上の改善された所望の特性、例えば、改善された物理化学的特性、改善された活性関連特性及び/又は改善された生理学的連特性を示す変異体のより高い割合)を示す変異体をより高い割合で含むものである。例えば、配列変異体の少なくとも1%(例えば、少なくとも1、2、5、7、10、又は少なくとも20%)の上位は、親ライブラリ又は母集団における変異体の少なくとも1%(例えば、少なくとも1、2、5、7、10、又は少なくとも20%)の上位と比較して、1以上の改善された所望の特性を有する。
【0078】
別の実施形態では、“改善されたフィットネススコア分布”を有する配列変異体のライブラリ又は集団は、前記ライブラリ又は集団における最も高いフィットネススコアを有する変異体が、親ライブラリ又は母集団において最も高いフィットネススコアを有する変異体と比べて、より高いフィットネススコアを有する。すなわち、最適化されたライブラリ又は集団においてより最も高いフィットネススコアを有する変異体は、親ライブラリ又は母集団において最も高いフィットネススコアを有する変異体と比べて、1以上の改善されたフィットネススコア(たとえば、1以上の改善された所望の特性、たとえば、改善された物理化学的特性、改善された活動関連特性及び/又は改善された生理学的関連特性)を示すものである。
【0079】
さらに、又は代わりに、“改善されたフィットネススコア分布”を有する配列変異体のライブラリ又は集団は、1以上の可変領域が、対応する、親ライブラリ又は母集団内の、全て又は一部の変異体の1以上の可変領域に関して、99%未満(たとえば、98、97、96、95、90、85、80、75、70、60、50、40、30、20、10又は5%未満)の配列類似性(DNA及び/又はアミノ酸配列)を有する、少なくとも1つの変異体を含むものである。さらに、又は代わりに、“改善されたフィットネススコア分布”を有する配列変異体のライブラリ又は集団は、少なくとも5%、例えば、少なくとも10、15、20、25、30、35、40、45、55、65、70、75、85、90、95、又は100%の変異体を含むものであり得、該変異体は、対応する、親ライブラリ又は母集団内の、全て又は一部の変異体の1以上の可変領域に関して、99%未満(例えば、98、97、96、95、90、85、80、75、70、60、50、40、30、20、10又は5%未満)の配列類似性(DNA及び/又はアミノ酸配列)を有する1以上の可変領域を有する。
【0080】
実施形態において、“改善されたフィットネススコア分布”を有する配列変異体のライブラリ又は集団は、1以上の可変領域が、対応する、親ライブラリ又は母集団内の、全て又は一部の変異体の1以上の可変領域に関して、99%未満(たとえば、98、97、96、95、90、85、80、75、70、60、50、40、30、20、10、又は5%未満)の配列類似性(DNA及び/又はアミノ酸配列)を有し、そして、最も高いフィットネススコアを有する親ライブラリ又は母集団に含まれる変異体と比較して、1以上の改善されたフィットネススコアを示す(例えば、少なくとも1つの変異体は、1以上の改善された望ましい特性、たとえば、改善された物理化学的特性、改善された活動関連特性及び/又は改善された生理学的関連特性を示す。)、少なくとも1つの変異体を含むものである。
【0081】
実施形態において、“改善されたフィットネススコア分布”を有する配列変異体のライブ
ラリ又は集団は、1以上の可変領域が、対応する、親ライブラリ又は母集団内の、全て又は一部の変異体の1以上の可変領域に関して、99%未満(たとえば、98、97、96、95、90、85、80、75、70、60、50、40、30、20、10、又は5%未満)の配列類似性(DNA及び/又はアミノ酸配列)を有する、少なくとも1つの変異体を含むものであり、ここで、改善されたフィットネススコア分布を有する前記変異体のライブラリ又は集団は、親ライブラリ又は母集団の、全て又は一部の変異体に示された、1以上のフィットネススコアと比べて、1以上の複数の改善されたフィットネススコアを示す(例えば、前記変異体は、1以上の改善された所望の特性、たとえば、改善された物理化学的特性、改善された活動関連特性、及び/又は改善された生理学的関連特性を示す)。
【0082】
ライブラリ又は集団の“全て又は一部の変配列変異体”を言及する実施形態において、ライブラリ又は集団の“全ての配列変異体”は、実質的にライブラリ又は集団の全ての変異体を言及するものと理解される。さらに、ライブラリ又は集団の“一部の列変異体”は、決して、実質的にライブラリ又は集団の全ての変異体ではなく、例えば、ライブラリ又は集団の95、90、85、80、75、70、60、50、40、30、20、10、5、2、1%又は1%未満)の変異体を言及すると理解される。
【0083】
誤解を避けるために、用語“親ライブラリ又は母集団”は、配列の新たな集団と比較して、最適化が少ない配列変異体のライブラリ又は集団を言及する。すなわち、親ライブラリ又は母集団は、新たに最適化されたライブラリ又は集団の直前にあるものであり得る。たとえば、新たなライブラリ又は集団と比較して、親ライブラリ又は母集団は、少なくともn-1(例えば、n-1、n-2、n-3、又はn-4、ここでnは、新たなライブラリが実行した最適化ラウンドの数である)の最適化ラウンドを実行し得る。好ましくは、親ライブラリ又は母集団は、新たなライブラリ又は集団と比較して、n-1の最適化ラウンドを実行したものである(すなわち、親ライブラリ又は母集団は、新たに最適化されたライブラリ又は集団の直前にあるものである)。より好ましくは、親ライブラリ又は母集団は、本発明のライブラリ設計工程(a)に従って準備される。
【0084】
実施形態では、工程(c)でトレーニングされた機械学習モデルは、インシリコで配列変異体のライブラリを反復的に最適化することによって、配列変異体の新たなライブラリを設計するために使用され、任意に、配列変異体のライブラリは、遺伝的アルゴリズムを使用して反復的に最適化される。
【0085】
機械学習アルゴリズムが分類子である実施形態では、機械学習アルゴリズムは、提供される新たな配列のクラス(分類)を予測するモデルの構築、及び/又は、定義されたクラス(分類)のいずれかに属するように提供されている、新たな配列の確率を表す連続値を提供するモデルの構築に使用される。機械学習アルゴリズムが回帰アルゴリズムである実施形態では、機械学習アルゴリズムは、提供される任意の新たな配列のスコアを予測できるモデルを構築するために使用され得る。
【0086】
実施形態では、機械学習アルゴリズムは、配列変異体の初期集団のクラス(分類)、スコア、又はクラス(分類)に属する確率を予測することに使用され、この情報は、機械学習アルゴリズムに提供される、新たな集団を取得するために使用可能である。
【0087】
実施形態では、学習段階は、新たなライブラリと以前に生じたライブラリ(例えば、以前に試験されたライブラリ及び/又は以前のインシリコライブラリ)との間のディスタンスを計算することを含む。実施形態では、配列ライブラリ間のディスタンスは、イェンセン・シャノン情報量法を使用して計算される。
【0088】
複数のフィットネススコアが配列変異体ごとに計算される実施形態において、多目的最適化を実行することができ、これは、フィットネススコアごとに配列変異体のライブラリを共同で最適化することを目的とする。
【0089】
実施形態では、配列変異体のライブラリは、遺伝的アルゴリズムを使用して反復的に最適化される。
【0090】
実施形態では、遺伝的アルゴリズムのパラメーターは、最適化の開始時に検索空間の探索を支持するように最適化される。最適化される遺伝的アルゴリズムのパラメーターは、クロスオーバー戦略の選択、クロスオーバー率、突然変異戦略、突然変異率、親の数、集団サイズ、集団内のエリートの数、選択方法などの1以上が含まれ得る。
【0091】
実施形態において、配列変異体のライブラリは、マルコフ連鎖モンテカルロ(MCMC)法及び/又は勾配降下などの最適化アルゴリズムを使用して最適化され得る。そのようなアルゴリズム及び方法は当技術分野で既知である。
【0092】
実施形態では、配列変異体の新しいライブラリは、工程(b)で試験された変異体のサブセットに由来する。
【0093】
実施形態では、ライブラリのサブセット(初期集団又は世代0と呼ばれる)が分類子を介して実行され、各配列にフィットネススコアが割り当てられる。次に、遺伝的アルゴリズムを使用してサブセットを変異させ第一世代を取得し、これが分類子にフィードバックされる。このプロセスは、十分に高いフィットネス(適合性)を有するライブラリが生じるか、あるいは最大反復回数に達するまで、繰り返される。これらのパラメーターは、ユーザーが事前に定義することも、デフォルト値を割り当てることもできる。
【0094】
実施形態では、この方法は、新たなライブラリとともに工程(a)から(c)を繰り返すことをさらに含む。
【0095】
実施形態では、この方法は、新たなライブラリとともに工程(a)から(c)を合計で最大10回繰り返すことを含む。
【0096】
実施形態では、この方法は、ライブラリ内の少なくとも1つ、好ましくは少なくとも3つ、少なくとも5つ、又は少なくとも10の変異体に関して、1以上の所望の特性の特定の値といった、所定の基準が満たされるまで、工程(a)から(c)を繰り返すことを含む。
【0097】
実施形態では、工程(c)は、以前に試験された任意の配列変異体の1以上のフィットネススコアを使用して、機械学習アルゴリズムをトレーニングすることを含む。
【0098】
実施形態では、新たなライブラリは、直前の工程(b)又は任意の先行する工程(b)で試験された変異体のサブセットに由来する。
【0099】
実施形態では、新たなライブラリは、以前のライブラリには存在しなかった変異体を含む。たとえば、新たなライブラリには、高いフィットネススコアを有すると予測される変異体を含み得る。実施形態では、新たなライブラリは、以前に試験された変異体を含まない。
【0100】
実施形態では、新たなライブラリは、1以上の所望の特性を有するタンパク質をエンコードする少なくとも1つの配列変異体を含む。
【0101】
第2の態様によれば、1以上の所望の特性を有するタンパク質を生成するためのシステムが提供され、該システムは、以下を含む:
(i)第1の態様の実施形態に従う任意の方法を含む、本明細書に記載の方法のいずれかを実施するように適合されたプロセッサ;
(ii)少なくとも試験工程を実施するようにプロセッサによって制御される、実験室自動化装置。
【0102】
実施形態では、実験室自動化装置は、以下からなる群のうちの1以上を含む;液体取扱及び分配装置;コンテナ取扱装置;実験用ロボット;インキュベータ;プレート取扱装置;分光光度計;クロマトグラフィー装置;質量分析計;サーマルサイクリング(熱サイクル)装置;核酸配列決定装置;及び遠心分離装置。
【0103】
さらなる態様によれば、本発明は、本明細書に記載の方法を使用して得られた配列変異体のライブラリに関する。
【0104】
実施形態において、配列変異体のライブラリは、核酸ライブラリである。実施形態では、ライブラリはDNAライブラリである。実施形態では、配列変異体のライブラリは、ペプチド又はタンパク質ライブラリ(例えば、ペプチドリガンドライブラリ、抗体ライブラリ、抗体模倣ライブラリ、又は抗体フラグメントライブラリ、例えば、単鎖抗体又は単一ドメイン(すなわち、VHHドメイン)である。
【0105】
実施形態では、配列変異体は、1以上の可変領域、例えば、少なくとも1、2、3、又は4の可変領域(例えば、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45又は50の可変領域)を有する。
【0106】
実施形態において、各可変領域は、独立して、1~200、又は1~100、1~60のヌクレオチド長、例えば、1~3、3~6、6~9、9~12、12~15、15~18、18~21、21~24、24~27、27~30、30~33、33~36、36~39、39~42、42~45、45~48、48~51、51~54、54~57又は57~60のヌクレオチド長であり得る。好ましくは、1~100、1~60、1~48、3~45又は3~30のヌクレオチド長である。可変領域は単一ヌクレオチドであり得る。
【0107】
実施形態において、1以上の可変領域は、独立して、1~60又は1~20アミノ酸長、例えば、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19又は20アミノ酸長であり得る。好ましくは、1~15又は1~10アミノ酸長である。可変領域は単一のアミノ酸であり得る。
【0108】
さらなる態様によれば、前述の態様によるライブラリを含むコンテナが提供される。
【0109】
さらに別の態様によれば、1以上の所望の特性を有するタンパク質が提供され、ここで、タンパク質は、本明細書に記載の方法を使用して得られる。
【0110】
実施形態では、タンパク質は、1以上の定常部分及び1以上の可変部分を含む。実施形態では、1以上の定常部分は、足場(スキャフォールド)ドメインを含む。実施形態では、1以上の可変部分は、相互作用媒介ドメインを含む。
【図面の簡単な説明】
【0111】
【
図1】
図1は、本発明の一実施形態による反復的タンパク質工学戦略(エンジニアリングストラテジー)のフローチャートである;
【
図2】
図2は、本発明の実施形態によるライブラリ構造の例を示す;
【
図3】
図3は、本発明の実施形態によるプロテアーゼ安定性アッセイの例を示す;
【
図4】
図4は、本発明の実施形態による結合アッセイの例を示す;
【
図5】
図5は、本発明の実施形態による計算されたバイアススコアを示し、アッセイの前に特定の変異体に関して観察された読み取り数の3つの異なる値について、以下の比率の関数として、所望の機能(x=2、x=20、x=200)を有するライブラリの変異体を分割する:アッセイ後のライブラリのサブセット内の特定の変異体で観察された読み取り数(y)とアッセイ前の変異体で観察された読み取り数(x);
【
図6-1】
図6A~6Eは、本発明の実施形態によるライブラリ選択プロセスの例の結果を示し、ファージディスプレイを使用して、変異体のライブラリを発現させ、プロテアーゼに対する耐性、及び、3連続選択ラウンドを使用する標的への結合について選択し、各ラウンド後に変異体の集団の配列を決定する;特に、
図6Aは、各配列決定実施中の生の読み取りの総数を示す(選択前は“pre”としてラベル付けされ、各選択ラウンド後は“round_1”、“round_2”、及び“round_3”とラベル付けされる);
図6Bは、選択前(“pre”)と各選択ラウンド後の集団に存在する変異体の総数を示す;
【
図6-2】
図6Cは、対応する配列決定実施の読み取りの総数(
図6Aを参照)と比較した、選択前(“pre”)及び各選択ラウンド後の集団に存在する変異体の数を示す;
図6Dは、選択前(“pre”)及び各選択ラウンド後の集団に存在する変異体の総数を示し、ただし、開始ライブラリに存在しなかった変異体は含まない;
【
図6-3】
図6Eは、3ラウンドの選択(“round_1”、“round_2”、“round_3”)のそれぞれの前(“pre”)と後のさまざまな可変位置でのライブラリ構成の変化を示す周波数分布表を示す-もとのライブラリ内に存在しない変異株を除く。
【
図7】
図7A及び7Bは、本発明の実施形態によるライブラリ選択プロセスの例の結果を示す;ここでmRNAディスプレイを使用して変異体のライブラリを発現させ、プロテアーゼ(トリプシン(
図7A)及びキモトリプシン(
図7B))に対する耐性について選択し、選択後に変異体の集団をqPCRによって定量化する;特に
図7A及び7Bは、各3つのライブラリに関して、フロースローサンプル(FT)及びビーズ(Beads)に補足されたサンプルに対するqPCR定量化(ct値、蛍光シグナルがバックグラウンドを超えるレベルに達するサイクル数)の結果を示す。
【
図8-1】
図8Aから8Cは、本発明の実施形態によるライブラリ最適化プロセスの例の結果を示す;特に、
図8Aから8Cは、特定の反復(
図8Aは開始集団を示し、
図8Bは反復6での集団を示し、
図8Cは反復14での集団を示す)を示し、左パネルは現在の集団のフィットネススコア分布(連続曲線)と初期集団のフィットネススコア分布(ヒストグラム)を示し、現在の反復のライブラリ変異体分布(中央パネル)、及び、多数のライブラリのパレートフロント(2つの別のパラメーターの最大平均フィットネススコア)(右パネル)を示す。
【
図8-2】
図8Aから8Cは、特定の反復(
図8Aは開始集団を示し、
図8Bは反復6での集団を示し、
図8Cは反復14での集団を示す)を示し、左パネルは現在の集団のフィットネススコア分布(連続曲線)と初期集団のフィットネススコア分布(ヒストグラム)を示し、現在の反復のライブラリ変異体分布(中央パネル)、及び、多数のライブラリのパレートフロント(2つの別のパラメーターの最大平均フィットネススコア)(右パネル)を示す。
【
図8-3】
図8Aから8Cは、特定の反復(
図8Aは開始集団を示し、
図8Bは反復6での集団を示し、
図8Cは反復14での集団を示す)を示し、左パネルは現在の集団のフィットネススコア分布(連続曲線)と初期集団のフィットネススコア分布(ヒストグラム)を示し、現在の反復のライブラリ変異体分布(中央パネル)、及び、多数のライブラリのパレートフロント(2つの別のパラメーターの最大平均フィットネススコア)(右パネル)を示す。
【
図9】
図9は、配列の集団の実際のフィットネスと予測されたフィットネスの間のスピアマンの相関がR=0.67であることを示し、これは、モデルがアミノ酸配列のみに基づいて対象の標的への結合を正確に予測できることを示す;
【
図10】
図10は、細胞ベースの有効性(potency)アッセイにおける候補分子の活性を示す。試験された候補分子は、本明細書に記載される機械学習を使用して、高性能の変異体であると予測される。モデルが元の分子と比較して改善された有効性を有すると予測した候補分子の68%は、細胞ベースの有効性アッセイにおいて改善された有効性を示した。
【発明を実施するための形態】
【0112】
本明細書で引用されているすべての参考文献は、その全体が参照により組み込まれる。別段の定義がない限り、本明細書で使用されるすべての技術用語及び科学用語は、本発明が属する当業者によって一般に理解されるものと同じ意味を有する。
【0113】
特に明記しない限り、本発明の実施は、当業者の能力の範囲内である、化学、分子生物学、微生物学、組換えDNA技術、及び化学的方法の従来の技術が使用される。
このような手法は、文献でも説明されており、たとえば、M. R. Green、J. Sambrook、2012、分子クローニング:実施マニュアル、第4版、Books 1-3、コールドスプリングハーバーラボラトリープレス、コールド スプリング ハーバー、NY; Ausubel, F. M. ら(1995年及び定期的な補足;分子生物学の現在のプロトコル、第9章、第13章、及び第16章、ジョン・ワイリー&サンズ、ニューヨーク、ニューヨーク州);B. Roe, J. Crabtree、及びA. Kahn、1996年、DNA分離とシーケンス:エッセンシャルテクニック、ジョン・ワイリー&サンズ; J. M. Polak及びJames O'D. McGee、1990年、イン-シツ(原位置)ハイブリダイゼーション:原則と実践、オックスフォード大学出版局;M.
J. Gait(編集者)、1984年、オリゴヌクレオチド合成:実用的なアプローチ、IRLプレス;及び D. M. J.Lilley及びJ. E. Dahlberg、1992、酵素学の方法:DNA構造パートA:酵素学におけるDNA法の合成と物理的分析、アカデミックプレス;Durbin R.、Eddy S. 、Krogh A.、Mitchinson G.(1998年)、生物学的配列分析、ケンブリッジ大学出版局;David W.(2004)、バイオインフォマティクス、コールドスプリングハーバーラボラトリープレス。これらの一般的なテキストのそれぞれは、参照により本明細書に組み込まれる。
【0114】
本発明を説明する前に、本発明の理解を助けるいくつかの定義が提供される。
【0115】
本明細書で使用される場合、用語“含む(comprising)”は、列挙された要素のいずれかが必然的に含まれ、他の要素も任意に含まれ得ることを意味する。“基本的に~からなる(consisting essentiallly of)”は、記載されている要素が必ず含まれ、記載されている要素の基本的かつ新規な特性に重大な影響を与える要素が除外され、他の要素が任意に含まれ得ることを意味する。“~からなる(consisting of)”は、記載されているもの以外の全ての要素が除外されることを意味する。これらの用語のそれぞれによって定義される実施形態は、本発明の範囲内にある。
【0116】
本明細書で使用される場合、用語“ライブラリ”又は“配列変異体のライブラリ”は、それら配列の少なくとも1つの位置において、互いに異なる関連する核酸又はポリペプチド(本明細書では“ペプチド”又は“タンパク質”とも呼ばれる)の集合を指す。したがって、核酸ライブラリは、少なくとも1つの塩基において互いに異なる核酸、典型的にはDNA分子のコレクションを含む。本発明の観点において、各核酸配列変異体は、タンパク質のコード配列を含む。したがって、本発明によるタンパク質ライブラリは、核酸ライブラリを発現させることによって得られたタンパク質のコレクションを含む。当業者が理解
するように、そのようなタンパク質ライブラリは、遺伝コードの冗長性のために、少なくとも1つのアミノ酸残基において互いに異なる分子、ならびに互いに異ならない分子を含み得る。さらに、当業者が理解するように、ライブラリを含むサンプルは、実際には、配列変異体のいくつか又はすべての複数のコピーを含み得る。
【0117】
実施形態において、核酸ライブラリは、少なくとも104の配列変異体、好ましくは少なくとも105又は少なくとも106の配列変異体を含む。実施形態において、核酸ライブラリは、少なくとも107、少なくとも108、少なくとも109、又は少なくとも1010の配列変異体を含む。以下でさらに説明するように、配列変異体は、選択された開始配列又は関連する配列のセットにランダムな変動性を導入することによって得ることができる。関連する配列のセットは、例えば、特定の位置(例えば、位置pはx又はyであり得る)で柔軟性をもって定義された単一の配列であるか、又は例えば同族体(ホモログ)及び/又は相同分子種(オルソログ)に対応する配列のセットを含み得る。したがって、106個の配列変異体のライブラリは必ずしも106個の異なる配列を含むとは限らない。代わりに、106個の配列変異体のライブラリは、開始配列に変動性を導入するために定義された制約内で可能な、配列のプールのサンプリングからそれぞれ生じる106個の配列を含み得る。実際には、ライブラリ内の異なる配列の数は、開始配列に導入された変動性及び開始配列の長さに課せられた制約によって、上方に制限され得る。実施形態において、核酸ライブラリ中の異なる配列の総数は、少なくとも約10k、少なくとも約50k、少なくとも約100k、又は少なくとも約150kであり得る。
【0118】
本発明の観点において、以下でさらに説明されるように、核酸ライブラリ中の配列変異体は、1以上の定常領域及び1以上の可変領域を含み、1以上の定常領域は、ライブラリ中のすべての変異体に共通であり、1以上の可変領域は、ライブラリ内のすべての変異体に共通ではない。配列変異体は、ライブラリ内の各配列変異体を形成するために組み立てられる複数の部分(パーツ)として提供され得る。複数の部分(パーツ)を使用する場合、各部分(パーツ)は、定常部分(パーツ)(可変領域が含まれていない場合)又は可変部分(少なくとも1つの可変領域が含まれている場合)であり得る。核酸ライブラリを設計する場合、本明細書では、“固定部分/領域”とも呼ばれる定常部分/領域が完全に定義される。このように、定常部分/領域を構成するヌクレオチドの配列は、完全に定義され、そしてライブラリ内のすべての配列に共通であり得る。あるいは、ライブラリ内に複数の同等の定常部分/領域を存在させることも可能であるが、そのような定常部分/領域はそれぞれ、ライブラリの設計の開始時に完全に定義され、ランダムに変化することはない。
【0119】
本発明の観点において、用語“ハイスループット”は、上述の核酸ライブラリ又は対応するタンパク質ライブラリのすべての変異体を並行して処理できるアッセイ、プロセス、及びプロトコルに関する。
【0120】
本明細書で使用される場合、“フィットネススコア(適合性スコア)”(“スコア”又は“バイアス”又は“バイアススコア”とも呼ばれる)は、タンパク質又は核酸ライブラリの配列変異体に関連するスコアであり、1以上の所望の特性を有する変異体の可能性を示す。
【0121】
本発明は、大規模な核酸ライブラリ設計、ハイスループットアッセイ、及び機械学習の組み合わせを使用して、所望の機能を有するタンパク質を操作する、新しい方法論を提供する。
【0122】
図1は、本発明の実施形態による、1以上の所望の特性を有するタンパク質を生成する方法のフローチャートを示す。大まかに言えば、図示された方法は、ライブラリ設計工程1
0、ライブラリ構築工程20、ライブラリ試験工程30、及び学習工程40を含み、学習工程40の結果が、新たなライブラリ設計工程10’に通知するために使用され、構築20、試験30、及び学習40の新たなサイクルへの入力として任意に使用することができる。図示の実施形態では、ライブラリ設計工程10は、配列又は配列のセットを開始する選択12、開始配列内(又は開始配列セット全体)における定常及び可変領域の定義14、そして、可変領域に導入された変動性の定義16により、配列変異体の核酸ライブラリを設計することを含む。例えば、開始配列は、それが1以上の所望の特性の少なくとも1つを既に有するか、あるいは、1以上の所望の特性の少なくとも1つを有するように適合される可能性があるという理由で選択され得る。図示の実施形態では、ライブラリ構築工程20は、ライブラリを構築するために使用される物理的部品(パーツ)の調達(ソーシング)22、核酸ライブラリを取得するための部品(パーツ)のアセンブリング(組み立て)24、そして核酸ライブラリからのタンパク質ライブラリの生成26を含む。可変領域を含まない部分(パーツ)は、本明細書では“定常部分”と呼ばれる。少なくとも1つの可変領域を含む部分は、本明細書では“可変部分”と呼ばれる。核酸ライブラリの配列変異体は、複数部分の集合によって形成され得、その少なくとも1つは可変部分である。配列変異体には通常、少なくとも1つの可変部分を含む。可変及び定常領域の相対的なサイズ及び位置に応じて、さらなる可変部分及び定常部分が有利に提供され得る。例えば、大きな定常領域が存在する場合、これらは、別個の定常部分として有利に提供され得る。対照的に、可変領域の間に散在する比較的小さな定常領域は、可変部分の一部として有利に提供され得る。ライブラリ試験工程30において、タンパク質ライブラリ内のすべての配列変異体が、1以上の特性について並行して試験32される。学習工程40において、工程30で試験された配列変異体は、ライブラリ試験工程30の結果の少なくとも一部に基づいて、1以上のフィットネススコアが割り当て42られる。配列変異体のフィットネススコアは、新たな配列変異体の1以上のフィットネススコアを予測するように、機械学習アルゴリズムを使用して1以上のモデルのトレーニング44に使用される。次に、工程44においてトレーニングされた機械学習モデルは、改善されたフィットネススコア分布を有する配列変異体の新たなライブラリの設計16に使用される。実施形態では、設計10、10’及び学習40の工程はインシリコで実行され、一方、構築20及び試験30の工程は物理的部品(パーツ)を含み、通常はインビトロで実行される。しかしながら、工程32で実施されるアッセイの性質に応じて、試験工程30のいくつかは、インシリコで実施され得る。例えば、配列変異体は、1以上のインシリコアッセイを使用して分析され、たとえば1以上の所望の特性を有する配列変異体の可能性が予測され得る。
【0123】
所望の特性は、タンパク質の物理化学特性、例えば、化学的安定性(例えば、酸化剤、酸などに対する耐性)、溶解性熱耐性、乾燥及び再水和に対する耐性(例えば、乾燥及び再水和後、許容レベルの活性又は他の機能を維持する)など;活性関連(例えば“機能”)特性、例えば、酵素活性、任意の活性又は結合の特異性、標的外効果(すなわち、一次標的以外の標的への活性又は結合)、結合親和性、選択された標的(kon、koff、kD)に対する会合/解離速度、酵素の阻害又は刺激に対する能力、結合力(機能的親和性)など;生理学的関連特性、例えば、プロテアーゼ耐性、免疫原性、1以上の免疫エフェクターを活性化する能力、血液脳バリアを通過する能力、上皮(例えば、腸上皮、肺上皮など)を通過する能力、細胞内に入る能力、細胞膜/脂質二重層を通過する能力、特定の細胞型の細胞内に入る能力、固形腫瘍に浸透する能力、臓器/細胞型特異的送達への適合性など;薬物動態学的特性、例えば、消失半減期、クリアランス、毒性、臓器特異的薬物動態など;から選択され得る。インシリコで評価できる特性には、タンパク質の安定性、免疫原性、結合親和性、又はインシリコ配列解析から少なくとも部分的に導き出せるその他の機能が含まれ得る。これらの各工程について、さらに詳しく説明する。
【0124】
定常領域及び可変領域を指定することにより、上述のように核酸ライブラリの設計は、タンパク質配列空間の探索を特定の領域(すなわち、可変部分によって表される領域)に制
約することを可能にする。これにより、タンパク質工学プロセスが簡素化され、たとえば、変動性が1以上の所望の特性に関連して改善をもたらす可能性が高い領域に焦点を当てることができる。さらに、ライブラリ内の変異体が、部分(パーツ)を単位として構造的に定義されている場合、その一部は定数部分(パーツ)であり、一部は可変部分(パーツ)であり得、これらは別個に供給し組み立てることができる。これにより、定常部分(パーツ)をライブラリに1回供給するだけで、そして必要に応じて増幅(PCRなど)され得ることで、複数の可変部品の調達が配列の特定(できれば短い)領域に制限できるため、実用性とコスト効率の大幅な改善につながり得る。さらに、定常部分は、プロモーター、フラグ、エンハンサー、局在化シグナル、マーカー、例えば、ライブラリ内のすべての配列に共通するスキャフィールド(足場)などとして機能するタンパク質配列の部分といった、機能的要素を含むように、設計され得る。さらに、定常部分の代替バージョンを簡単に取得し得(たとえば、異なるプロモーター又はフラグを含む)、可変部分のコレクションと組み合わせて新たなライブラリを作成し得る。
【0125】
図2は、本発明の実施形態によるライブラリ構造の例を示し、上記の工程12、14、及び16の結果を示している。
図2に示される実施形態では、各配列変異体は、プロモーター202及びタグ204(例えば、精製タグ)を含む第一の定常部分200を含み、定常部分の全体が配列の定常領域を表す。第一の定常部分200は、エンコードされたタンパク質のN末端キャップ206の一部を含む。各配列変異体は、エンコードされたタンパク質のC末端キャップ210の一部と、リンカー配列214に囲まれた精製タグ212とを含む、第二の定常部分208をさらに含む。各配列変異体は、2つの可変部分216、218をさらに含む。可変部分216、218は、変動性が導入される複数の位置のサブセットをそれぞれ含む、少なくとも1つの可変領域220を含む。部分200、208、216、218のそれぞれは、隣接する部分の末端配列と同一である、少なくとも1つの短い末端配列222a、222b、222cをさらに含み、アセンブリ(組み立て)のためのオーバーハングの作成を可能にする。
【0126】
実施形態において、短い配列(及び対応するオーバーハング)は、2から20塩基の間の長さを有し得る。実施形態において、短い配列(及び対応するオーバーハング)は、4から10塩基の間の長さを有し得る。
図2はさらにプライマー224a、224b、224c、224dを示し、プライマーのPCR伸長によって一本鎖のDNA部分から二本鎖DNA部分が生じるために、それぞれが部分200、208、216、218の1つとアニールするように提供される。図示の実施形態では、いくつかのプライマー、具体的には、隣接する部分の対の間で同一である、短い末端配列222a、222b、222c内にある部分の領域に結合する、プライマー224a、224b、224cは、デオキシウリジンを含む。これは、以下でさらに説明するように、アセンブリ(組み立て)工程24に有用であり得る。簡単に言えば、これらのプライマーにデオキシウリジンが存在すると、伸長すると、それぞれの末端にUを含む、部分200、216、及び218に対応する二本鎖DNAフラグメントが作成され、これは、ウラシル固有の切除試薬によって認識され、アセンブリ用の“粘着末端”又はオーバーハングを作成する。
図2に示される実施形態では、部分216、218及び208は、短末端配列222a、222b及び222c(それぞれ部分216、218及び208内)に隣接するデオキシウリジンを含む。これは、前述及び後述でさらに説明するように、アセンブリ工程24に有用であり得る。実施形態において、相補的プライマーは、定常部分200及び208を増幅するために提供され得る。言い換えると、リバースプライマー224a、224dのみが
図2に示されているが、対応するフォワードプライマーは、各定常部分のプライマーの対を用いる、定常部分のPCR増幅を可能にするために提供され得る。同様に、可変部分を増幅するために、対応するフォワードプライマーが提供され得る。これらは、デオキシウリジンを有利に含み得る。理論に拘束されることを望まないが、様々な可変部分と組み合わせるための定常部分のプールを得るために、定常部分の増幅が有利であり得ると考えられている。対照的に、
可変部分の増幅は、例えば、いくつかの配列でそれを人工的に濃縮することによってライブラリ内にバイアスを導入するリスクを低減するために、有利に回避され得る。
【0127】
実施形態では、定常部分は、最大約2000ヌクレオチド長になるように設計される。上述したように、定常部分は有利には一度だけ供給するだけでよく、変動性を含まない。したがって、これらの配列は、二本鎖DNA(dsDNA)として容易に供給され得、これは、例えば、細菌細胞において複製可能なプラスミド内にそれらを含めることによって、低コストで有利に複製され得る。実施形態では、可変部分は、最大約200ヌクレオチド長になるように設計される。そのような長さは、高精度で化学的に合成するのに有利に適している。さらに、可変部分は一本鎖DNA(ssDNA)として供給され得る。これは、ランダムな変動性が高い可変部分の複雑なコレクションが使用される状況で特に有利であり得、これは、これらが従来のオーバーラップエクステンションPCRを使用して合成することが難しいことによる。
【0128】
図2の実施形態に示されるように、可変領域は、しばしば、ライブラリ中の変異体によりエンコードされるタンパク質のコード配列内に位置する。したがって、可変部分は、通常、ライブラリ内の変異体によってエンコードされるタンパク質のコード配列の一部を含む。プロモーター配列(例えば、T7プロモーター配列)、リボソーム結合部位、1以上の任意のタグ、及び、エンコードされたタンパク質のコード配列の開始(すなわち、N末端部分)を含む、少なくとも1つの定常領域が典型的に提供される。定常領域のサイズに応じて、これは、定常部分として有利に提供され得る。実施形態において、可変領域は、代わりに又はさらに、調節機能を有することが期待される非コード配列を含み得る。例えば、プロモーター配列、リボソーム結合部位などのいくつか又は一部を含む可変部分を提供し得る。そのような実施形態は、これらの領域の変動性が、ライブラリ内の変異体によってエンコードされるタンパク質のコード配列の発現に、所望の影響を及ぼし得るかどうかを調査するために有利に使用され得る。さらに、エンコードされたタンパク質のコード配列の末端(すなわち、C末端部分)、及び1以上の任意の精製タグを含みて、少なくとも1つの第二の又は最後の定常部分が提供され得る。実施形態において、定常部分は、例えば、エンハンサー配列、局在化シグナル、フラグ配列、マーカー配列、及び選択配列などの、機能要素がエンコードされた1以上の配列を含む。
【0129】
図2に示される実施形態は、2つの可変部分及び2つの一定部分を含むが、他の複数の部分の組み合わせが可能であることが理解されよう。具体的には、さらなる定常部分が2つの可変部分の間に提供され得る。あるいは、定常部分は提供されない。例えば、提供されるすべての部分は、1以上の可変領域を含み得、これらは、定常領域に隣接(flanked by)/近接(adjacent to)し得る。さらに、定常領域は、有利には、複数の定常部分に分割され得る。これは、例えば、非常に大きな配列が使用される場合、及び/又は、定常部分に提供される機能要素のモジュール性が有利であり得る場合に、有利であり得る。実施形態では、各配列変異体は、正確に2つの可変部分及び2つの定常部分を有する。理論に縛られることを望まないが、ライブラリ構造を2つの可変部分に制限することは、可変部分の調達(ソーシング)に関連するコストを制御し、可変部分が同様のセクション(例えば、反復足場)を含む場合に、ライブラリアセンブリ工程に導入されるエラーのリスクを低減するのに役立つと考えられ得る。
【0130】
工程16では、ライブラリに導入される変動性が定義される。実施形態では、可変領域は、少なくとも1つの位置においてランダムな変動性を含むように設計される。位置(又は複数の位置)は、(
図2の実施形態に示される位置220の場合のように)定義され得るか、又は(例えば、ランダム突然変異誘発を用いる場合のように)可変領域全体にわたってランダムであり得る。したがって、実施形態では、可変領域は、可変領域の1以上の特定の位置にランダムな変動性を含むように設計されている。ランダムな変動性(その位置
が特定であるかランダムであるかを問わず)は、各塩基(A、C、T、G)の確率を提供することによって制約され得る。複数の特定の可変位置が使用される実施形態では、各塩基の確率は、各可変位置にわたって同じであり得るか、又は可変位置に依存し得る。実施形態では、少なくとも1つの位置の少なくとも1つの塩基に関する確率は0であり得る(すなわち、1以上の特定の塩基が除外され得る)。実施形態において、変動性は、可変配列を、配列の各トリプレットがDNAコドンに対応する配列に、可変配列を制限するように制約され得る。特定の実施形態では、可変部分内に終止コドンを含む変異体を除外するように、変動性を制約して、短縮タンパク質を潜在的にエンコードする配列を除去することができる。実施形態では、例えば、コドンに重みを割り当てることによって、いくつかのコドンが他のコドンよりも発生する可能性が低くなるように、変動性を制約することができ得る。例えば、システイン及びプロリンなどの特定のアミノ酸をエンコードするコドンは、たとえば、他のコドンよりもこれらのアミノ酸をエンコードするコドンに低い重みを適用することによって(たとえば、デフォルトの重みが割当てられ得る)、好ましくは回避され得るが、正式に除外されない場合があり得る。実施形態において、変動性は、変異体によってエンコードされるタンパク質ライブラリに現れる、アミノ酸の比率がほぼ所望の比率に対応することを確実にするように設計されたコドンに、重みを割り当てることによって制約され得る。
【0131】
実施形態では、可変領域は、選択されたタンパク質配列を分析して、変動性が少なくとも1つの所望の特性の改善/獲得をもたらすと予想される1以上の領域を特定することによって設計され得る。実施形態では、そのような領域は、保存領域、デフォルトで可変であるとみなされる非保存領域を特定するために、及び/又は、例えば相互作用パートナーを変更することにより変更させることができる、相互作用領域/ドメインなどの機能領域(“ドメイン”と呼ばれることもある)を特定するために、選択されるタンパク質配列に関連するタンパク質配列をアライニング(整列)させることによって特定され得る。実施形態では、そのような領域は、相互作用領域、露出領域、弱点などを特定するために(実験的又は予測されたタンパク質構造を使用して)選択されたタンパク質の構造分析によって特定され得る。実施形態において、そのような領域は、潜在的な弱点(例えば、露出ループなどのプロテアーゼ感受性点)を同定するための配列分析によって特定され得る。実施形態では、そのような領域は、文献分析によって特定され得る。実施形態では、可変領域は、以前に取得された1以上のライブラリに関連付けられたデータに機械学習アルゴリズムを適用することにより取得されたモデルを使用して設計され得る。このようなモデルは、変動性が少なくとも1つの所望の特性の改善/獲得をもたらすと予想される1以上の領域を特定するために使用され得、そして、ライブラリに変動性を導入するときに含まれる又は除外される、特定の変異又は変異の組み合わせを特定するために使用され得る。当業者が理解するように、これらのアプローチのそれぞれの任意の組み合わせは、1つのライブラリ設計プロセス内で組み合わせることができ得、それはさらに、少なくとも部分的に自動化することができる。逆に言うと、実施形態では、定常領域は、変動性がタンパク質の完全性及び/又は1以上の所望の特性の少なくとも1つに害を及ぼすことが予想される、選択された配列の1以上の領域を特定することによって設計され得る。これは、上記のアプローチのいずれかを使用して実行可能である。
【0132】
アセンブリ(組み立て)工程24において、定常部分(存在する場合)のそれぞれに対応する核酸分子、及び工程22で別々に供給される(例えば、市販のオリゴヌクレオチド合成サービスから供給される)1以上の可変部分の変異体に対応する核酸分子は、ライブラリの核酸配列変異体のそれぞれを作成するために物理的にアセンブリされる。アセンブリの前に、1以上の定常部分のそれぞれに対応する複数の核酸分子(使用する場合)は、当技術分野で知られているように、ポリメラーゼ連鎖反応(PCR)によって1以上の定常部分のそれぞれを増幅することによって得ることができ得る。さらに、アセンブリの前に、1以上の可変部分の変異体に対応する複数の二本鎖核酸分子は、シングルプライマーエ
クステンション(単一プライマー伸長)により第二のDNA鎖を合成することによって得ることができ得る。有利なことに、可変部分の生成にPCRを使用しないことにより、エラー及び増幅バイアスがライブラリ内に導入されないことが保証される。可変部分が各変異体に関し特有の確率で設計されている場合、PCRの忠実性と増幅バイアスにおける通常の変動がこれらの確率を変える可能性があるため、これは特に有利である。組み合わされた二本鎖核酸配列における、定常及び可変部分のアセンブリは、当技術分野で既知の任意の組み立て方法を使用して実施可能である。
【0133】
実施形態では、部分(パーツ)のアセンブリング(組み立て)は、USER(ウラシル特異的切除試薬)アセンブリによって部分(パーツ)をアセンブリすることを含む。USERアセンブリは、デオキシウリジン(ウリジンに密接に関連している)と呼ばれる非天然ヌクレオチド塩基を、特定の位置のライブラリの核酸部分に組み込むことによって機能する。したがって、そのような実施形態では、核酸部分は、それらの配列の特定点にデオキシウリジン残基を含む。これらは、PCRによって導入することができ、及び/又はssDNA部分及び/又はシングルプライマーエクステンション(単一プライマー伸長)に使用されるプライマーに存在することができる。次に、部分(パーツ)内のデオキシウリジンは、USER酵素ミックスによって処理され、これは、最初にデオキシウリジンの塩基を切り取り、次にデオキシウリジンの両側のDNAバックボーンを切断する。これにより、分子の短い端(たとえば、3’端)が解離し(低い溶融温度のため)、短い一本鎖領域が残される。次に、これらの一本鎖領域を、対応する入力部分の相補鎖とハイブリダイズさせる。最後に、DNAリガーゼ酵素(たとえば、T4リガーゼ)を使用してDNAバックボーンを封鎖する。
【0134】
USERアセンブリは、制限酵素に依存せず、傷がなく、プログラム可能なオーバーハングを生じるため、有利である。制限酵素は、DNAの特定の配列モチーフを認識する。高度にランダム化されたライブラリを使用する場合、これらのモチーフはライブラリのコード配列内で発生する可能性が高く、それによって一部の変異体が破壊される。さらに、DNAアセンブリの多くの従来法では、“痕跡(スカー)”が残り、これは、領域をアセンブリする際に常に発生する短い固定配列である。これは、タンパク質コード配列などの機能配列に瘢痕が存在する場合に問題となる。最後に、USERアセンブリは、アセンブリされるフラグメントの末端にある相補的な一本鎖DNAの領域(“粘着末端”と呼ばれる)を使用し、アセンブリを指示する。これは他の多くの方法にも当てはまるが、USERアセンブリでは、粘着末端の配列と長さは、プロセス自体には組み込まれず、そして、配列がデオキシウリジン残基の取り込みを可能にしなければならないという単一の制約をもって設計される、そこでは、相補鎖上に粘着末端を生じるよう鎖が切断される。そのようにして、アセンブリプロセスの特異性(方向性を含む)と効率が設計される。したがって、実施形態では、ライブラリ設計工程10は、アセンブリ工程に関して粘着末端(オーバーハング)を形成するための、デオキシウリジン残基を後で組み込むことを可能とするように、定常部分(使用する場合)及び可変部分を設計することを含む。
【0135】
実施形態では、工程24は、ダーウィンアセンブリを使用することを含む。ダーウィンアセンブリは当技術分野で既知である。たとえば、Cozensら、2018(Nucleic Acids Res;46(8):e51、参照により本明細書に組み込まれる)は、ダーウィンアセンブリを使用してライブラリをアセンブリするためのプロトコルを記載している。本発明者らは、本発明の方法におけるダーウィンアセンブリの使用が、DNAライブラリにおける、多数(例えば、3を超える、例えば、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45又は50)の小さな可変領域(例えば、1~15、1~30、1~50、1~75、1~100又は1~200ヌクレオチド長、好ましくは100未満のヌクレオチド長の可変領域)の効率的な追加を可能にすることを見出した。さらに、本発明者らは、本発明の方法におけるダーウィンアセンブリの使
用が、ライブラリ変異体における塩基の非特異的挿入又は欠失を減少させ、それがフレームシフト突然変異の発生率を減少させることを見出した。本発明者らは、ダーウィンアセンブリが、結合タンパク質全体に可変領域、例えば、抗体フレームワーク領域及び抗体模倣フレームワーク/足場領域を導入するのに、特に有用であることを見出した。
【0136】
実施形態において、工程24は、インバースPCR(逆PCR)を使用することを含む。インバースPCR法は当技術分野で既知であり、例えば、Ochmanら、1989(Erlich H.A.(eds)PCR Technology, Palgrave Macmillan、London)を参照されたい。インバースPCRは、テンプレートから目的の変異を導入するために必要なPCR増幅工程が1つだけであるため、単純なDNAライブラリの迅速かつ効率的なアセンブリを可能にする、特に単純な手法である。本発明者らは、ライブラリ設計が単純である場合(すなわち、変動性が小さい領域、例えば単一ヌクレオチド、又は約3~50ヌクレオチド長の領域、例えば、3~30ヌクレオチド長、及び/又は、変動性が少数である領域、例えば、10未満、5未満、4、3、又は2未満、例えば単一領域の変動性など)に、インバースPCRが本発明の方法において特に効果的であることを見出した。
【0137】
所望の特性についてライブラリを試験する前に、工程26で核酸ライブラリからタンパク質ライブラリを取得する。核酸ライブラリは通常DNAライブラリであるため、これにはDNAライブラリの転写及び翻訳が含まれる。実施形態において、定常部分の少なくとも1つは、T7プロモーターを含み、そしてDNAライブラリをT7RNAポリメラーゼと共にインキュベートすることを含む、DNAライブラリを転写するように設計される。有利なことに、T7RNAポリメラーゼは、明確に定義されたプロモーター配列(TAATACGACTCACTATAG(配列番号1)であり、転写は3’末端にあるGで始まる)を有し、そして非常に低いエラー率を有する。
【0138】
本発明によれば、核酸ライブラリは、好ましくは、各RNAテンプレートとそのエンコードされたタンパク質との間の関係を維持するような方法で、すなわち、いわゆる“ディスプレイ技術”を使用することによって翻訳される。有利なことに、これは、タンパク質ライブラリが、工程30でタンパク質機能に関連するハイスループットアッセイに供される(すなわち、ライブラリの少なくとも重要な部分が並行して試験される)一方で、アッセイの結果として1以上の所望の特性を有すると特定されたタンパク質のハイスループット特定を可能にすることを意味する。実施形態において、核酸ライブラリを翻訳してタンパク質ライブラリを生成することは、それがエンコードするタンパク質に結合したRNA配列変異体をそれぞれ含む、RNA-ポリペプチド融合分子を合成することを含む。実施形態では、これは、“mRNAディスプレイ”と呼ばれる技術を使用して行うことができる。特定の実施形態では、ピューロマイシン(小分子抗生物質)を含む修飾オリゴヌクレオチドが、転写されたmRNAテンプレートの末端に付着している。これは、DNAの一部を3’ピューロマイシン分子(“ピューロマイシンリンカー”と呼ばれる)で各mRNAテンプレートの3’末端にライゲーション(ligating)することによって実行される。DNAの断片は、翻訳を停止させる二次構造を含み、それによってピューロマイシンがリボソームに入り込み、合成されるペプチドに共有結合することを可能にする。このように、翻訳時に、ピューロマイシンは、アセンブリされるタンパク質とmRNAの間に共有結合を形成する。mRNAの存在は、特にタンパク質が小さい場合、所望の特性を試験するために使用されるアッセイの結果を変更し得る。ただし、この潜在的な欠点は、タンパク質変異体の特定の容易さに関連する利点を上回る(以下を参照)。
【0139】
実施形態では、Galanら、Mol. BioSyst.、2016、12、2342-2358(その内容は参照により本明細書に組み込まれる)など、当技術分野で知られているように、他のディスプレイ技術を使用し得る。例えば、ファージディスプレイ、CISディスプレイ(シス活性ベースのディスプレイ)、cDNAディスプレイ、酵母ディスプレイ、大腸菌(E.coli)
ディスプレイ、リボソームディスプレイ、共有結合抗体(CAD)ディスプレイ、インビトロ区画化、胞子表面ディスプレイ、及びSNAPタグディスプレイから選択される任意のディスプレイ技術が、使用され得る。一実施形態では、使用されるディスプレイ技術は、mRNAディスプレイ又はファージディスプレイからなる群から選択される。
【0140】
理論に拘束されることを望まないが、ファージディスプレイは、mRNAディスプレイと比較して、大きなタンパク質(例えば、10kDaより大きいタンパク質、例えば、15、30、40又は50、10-100又は10-50kDa)の効率的なディスプレイを可能にし、したがって、大きなタンパク質に対応するライブラリ内の変異体のより効率的な選択を可能にするので、本発明において有利であると考えられる。さらに、理論に拘束されることを望まないが、プロセス全体がインビトロで起こるので、mRNAディスプレイは、本発明において有利であると考えられる。これにより、DNAライブラリを細胞に変換する必要がなくなり、これは、多くの場合、効率の低いプロセスであり、ボトルネックが発生し、ライブラリにバイアスがかかる可能性があるものである。さらに、mRNAディスプレイでは、コード配列がタンパク質に共有結合しているため、過酷な試験条件下でも2つの部分が解離するのを防ぐ。これは、例えば過酷な条件への耐性といった、幅広い所望の特性を試験することを可能にする。実施形態において、生成されたタンパク質ライブラリは、サンプル中のタンパク質を精製し、タンパク質ライブラリに関連するmRNAの量を定量化するために逆転写定量的PCRを実行することによって品質管理され得る。そのような実施形態において、定常領域の少なくとも1つは、タンパク質精製タグをエンコードする配列を含むように設計され得る。例えば、タンパク質精製タグは、ストレプトアビジン結合ペプチドであり得る。mRNAディスプレイ工程が成功した場合、この分析では、タンパク質精製後のタンパク質ライブラリサンプル中にRNAが存在することが示される。
【0141】
ファージディスプレイがディスプレイ技術として使用される実施形態では、ファージディスプレイ選択プロセスは、ある範囲の選択ストリンジェンシー(stringencies)を使用して実行される。例えば、本発明での使用に適した選択ストリンジェンシーには、例えば、標的タンパク質濃度の変化、プロテアーゼ濃度(例えば、トリプシン及び/又はキモトリプシン濃度)の変化、標的タンパク質濃度変化、及びプロテアーゼ濃度(例えば、トリプシン及び/又はキモトリプシン濃度)変化などが挙げられる。
【0142】
工程26でタンパク質ライブラリを取得した後、タンパク質ライブラリを1以上のアッセイに供して、1以上の所望の特性を試験することができ得る。該アッセイは、タンパク質ライブラリを少なくとも2つのサンプルに分割し得る。タンパク質ライブラリは、核酸配列とそのエンコードされたタンパク質との関係を維持する方法で取得されるため(たとえば、mRNAディスプレイを使用)、これら2つのサンプルの一方又は両方を次世代シーケンシングに供することができる。実施形態において、例えば、mRNAディスプレイが使用される場合、これは、配列決定される任意のサンプルを逆転写及び精製することを含む。1以上の機能アッセイを使用して特性評価されたサンプル中のタンパク質を特定するための次世代シーケンシングの使用は、非常に高いレベルで、(アッセイでのパフォーマンスに応じて)所望の機能を有する/有していないタンパク質を特定することを可能にする。タンパク質レベルでの変異体の特定は、非常にエラーが発生しやすく(たとえば、質量分析プロテオミクスは現在でもDNAシーケンシングよりも大幅にノイズが多い)、及び/又は顕著に遅くなり得る。実施形態では、分割された2以上のサンプルは、バーコード化され、一緒に配列決定され得る。実施形態では、配列決定後、読み取られた配列(“読み取り”とも呼ばれる)を、工程10(又は場合によっては10')で設計された核酸ライブラリの配列とアライニング(整列)させ得る。実施形態では、読み取り(リード)は、ライブラリ内の部分(パーツ)の可能な組み合わせのすべてを明示的に列挙する配列のセットというよりはむしろ、ライブラリを生じさせるために使用された配列設計とアラ
イニングされ得る。これは、アラインメント(位置合わせ)プロセスの計算効率に有利に影響を与え得る。これに関して、“配列設計”は、(ライブラリ内の部分の可能な各組み合わせというよりはむしろ)ライブラリ内の各部分の別個の配列を言及し得、及び/又は、読み取りを整列させるときに、可変領域として設計された任意の領域の変動性(任意に制約された変動性)を可能にする一般的な配列(又は一般的な配列のセット)を言及し得る。アラインメント後、読み取り(リード)は連続配列にマージ(merge)され得る。好ましくは、例えば、1から数百塩基対のオーダー、又は約600塩基対の長さといった、長い読み取りを提供する配列決定技術(シーケンシングテクノロジー)が使用され得る。有利には、ペア-エンドシーケンシング技術が使用され得る。例えば、1から数百塩基対の長さ(例えば、約300塩基対の長さ)の読み取りを有するペアエンドシーケンシング技術が有利であり得る。たとえば、MiSeqシステムで使用されるイルミナ(登録商標)ビーズベースのシーケンシングテクノロジーが使用され得る。有利なことに、長い読み取りの使用は、いくつかの配列変異体が可変領域のサブセットを共有している場合でも、読み取りを配列変異体に一意に帰属させることができる可能性が高くなり得る。配列変異体の長さ及び/又は使用される部分の長さに応じて、例えば1~5万塩基対のオーダーでさらに長い読み取りを提供する配列決定技術が使用され得る。例えば、PacBioのSequel Systemにあるような単一分子リアルタイムシーケンシング技術が使用され得る。読み取り及び/又はマージされた配列は、位置ごとであるか、複数の位置の平均(たとえば、読み取り全体又はスライディングウィンドウ)であるかにかかわらず、塩基呼び出しプロセスに関連付けられたスコアにフィルタを適用するなど、1以上の品質管理工程に供し得る。次に、各配列が各サンプルに現れる回数をカウントし得る(“カウント”とも呼ぶ)。実施形態において、以下でさらに説明されるように、ライブラリはまた、ライブラリを1以上のアッセイに供する工程の前に、配列決定され得る。これは、1以上の所望の特性を選択するように設計されたアッセイの前後のライブラリ組成の比較を可能にし得る。
【0143】
実施形態では、1以上の所望の特性は、特定の標的への結合、プロテアーゼ耐性、選択された物理化学的条件での安定性などから選択される。
【0144】
図3は、本発明の実施形態によるプロテアーゼ安定性アッセイの例を示している。本発明の実施形態によるプロテアーゼ安定性アッセイのために、核酸ライブラリは、エンコードされたタンパク質300(
図3において“目的タンパク質”又はPOIとして示される)がそれらのC末端にタンパク質精製タグ302を含むように設計される。例えば、タンパク質精製タグは、ストレプトアビジン結合ペプチド(例えば“ストレプ-タグ”)であり得る。mRNA表示に続いて、各タンパク質に関連するmRNAテンプレート分子304は、ピューロマイシン分子314を介して、タンパク質ライブラリ中の各タンパク質300のN末端に結合される。タンパク質ライブラリは、1以上のプロテアーゼ306で消化される。所定期間、タンパク質は適切なアフィニティー精製法を使用して精製される。
図3に示される実施形態では、これは、ストレプトアビジンで標識(ラベル化)された磁気ビーズ308を使用して実行される。すべてのタンパク質300はC末端でストレプ-タグ化されているため、これらの磁気ビーズ308に結合する。プロテアーゼによって切断されたタンパク質のC末端は、引き続き、これらのビーズに結合するが、それらのコーディングmRNA鎖304は固定化プロセスの間に洗い流される。このように、ビーズに残っているテンプレートRNA304は、プロテアーゼ安定変異体に属する。次に、プライマー310を使用してこのRNAを逆転写して、対応するDNA分子312を得ることができる。次に、DNA分子312を配列決定して、どのタンパク質がプロテアーゼ安定であるかを明らかにすることができる。実施形態において、磁気プルダウン中に洗い流されるRNAもまた、逆転写及び配列決定され、ポジティブセットと比較するためのネガティブデータセットを与えることができる。
【0145】
図4は、本発明の実施形態による結合アッセイの例を示す。mRNA表示に続いて、タンパク質ライブラリは、結合ドメイン402aを有するエンコード化タンパク質400(
図4中、“目的タンパク質”又はPOIとして示される)及び結合ドメイン402bを有するエンコード化タンパク質400(
図4中、“目的タンパク質”又はPOIとして示される)を含み得、各タンパク質400は、ピューロマイシン分子414を介してそのmRNAテンプレート404と結合する。したがって、ライブラリは、表面に固定化された特定の標的306とともにインキュベートされ得、これ(表面)は、
図4に示される実施形態では、磁気ビーズ408の表面である。標的306に結合する結合ドメイン402aを有するタンパク質は、(例えば、磁気ビーズをプルダウン(引き下げる)ことによって)、標的408に結合しない結合ドメイン403bを有するタンパク質から分離され得る。次に、プライマー410を使用して第一サンプル中のRNAを逆転写し、対応するDNA412を得ることができる。次に、これらを配列決定して、標的306に結合する配列変異体を特定することができる。実施形態では、この方法は、非特異的相互作用を除去するために、インキュベーション後の表面の洗浄をさらに含み得る。実施形態では、この方法は、同じライブラリを制御条件(例えば、固定化標的なしの表面のみ)に供して、偽陽性(例えば、標的というよりはむしろ表面に結合する変異体)を除外することをさらに含む。
【0146】
工程42で、1以上のフィットネススコアは、工程32で試験された各変異体に関連付けられ得る。特に、ライブラリ試験工程は、複数の特性について変異体を試験することを含み得、複数のフィットネススコアが試験された各変異体に割り当てられ得、ここで各フィットネススコアは複数の特性の1つに対応する。以下、スコアリングプロセスについて詳しく説明する。実施形態では、各配列変異体に関連する1以上のフィットネススコアは、各配列が第一サンプルに現れる回数及び各配列が第二のサンプルに現れる回数に依存し、この数は上記に説明したように、各サンプルを次世代のシーケンシングに供することによって得ることができる。実際、理論に拘束されることを望まないが、これは、配列が特定のプールに出現する周波数(頻度)が高いほど、この配列が真にそのプールに属している可能性が高いという仮定によって明確に示される。たとえば、プロテアーゼ選択中にプロテアーゼに供した後(プロテアーゼ選択前と比較して)に配列が100倍頻繁に出現する場合、プロテアーゼの安定性について高いスコアを獲得し、選択中にプロテアーゼに供した後に出現する周波数(頻度)が100倍少ない配列は、プロテアーゼの安定性について低いスコアを獲得する。有利なことに、配列をスコアリングするこの方法は、システム内のノイズの影響を減らすことを可能にする。配列が選択後に1回だけ表示される場合、これは単にライブラリの準備中に導入されたエラーであり得るか、又は実際に安定性が向上しているというよりはむしろ、たまたまプロテアーゼに遭遇しなかった配列であり得る。
【0147】
実施形態では、配列変異体に関連するフィットネススコアは、特定の工程が配列に関してどれほど偏っているのかを定量化するスコアである。これは、たとえば、以下で説明するように、確率的スコアであり得る。該スコアは、本方法の任意の工程に関連付けることができ得るが、より一般的には、試験工程の任意のサブ工程(機能性アッセイなど)に関連付けられる。たとえば、所望の機能を試験するアッセイは、アッセイ前後のライブラリにおける配列データ(例えば配列カウント)を比較することにより、ライブラリ内の各配列に対して工程がどの程度バイアスされているかを定量化するスコア(“バイアス”又は“バイアススコア”とも呼ばれる)に関連付けることができる。
【0148】
実施形態では、スコアは、0(強い負のバイアス)と1(強い正のバイアス)との間で定量化される。例えば、これは、単純な比率ベースのアプローチ(例えば、カウント比率の計算に基づく)又はベイズ(Bayesian)の方法論を使用して実行され得る。0から1の間のスコアの使用は、たとえば回帰モデルなどの多くのモデルでの使用に有益であり得る。実施形態では、スコアは、ベイズ方法論を使用して、0(強い負のバイアス)と1(強い正のバイアス)との間で定量化される。実施形態では、以下でさらに説明するよ
うに、0から1の間の連続スコアをモデルのトレーニングに使用し得る。実施形態では、例えば分類子をトレーニングする目的で、0から1の間の連続スコアにラベルを割り当てることができる。たとえば、中間スコアは、主観的な信頼水準に応じて、負のバイアス、正のバイアス、又は“以前と同様”(状況によっては“成功”とラベル付けされ得る)とみなされ得る。実施形態では、1以上の信頼水準を定義して、ラベルスコアを“期待値未満/失敗”(例えば、第一の閾値未満)、“期待値超/成功”(例えば、第二の閾値を超える)、又は“期待値内”(例えば、1番目と2番目の閾値の間)と定義し得る。実施形態では、スコアは、所与の配列について、工程後の配列変異体のyカウントを測定する期待値を定量化するように設計されたベイズ方法論を使用し、未知の平均λを有するポアソン分布を仮定し、工程前の配列変異体(すなわち、p(y|x))に関してxカウントを測定して、定量化される。特に、xとyが抽出されるサンプルサイズが等しい場合、p(y|x)は(x+y)!/(x!y!2(x+y+1))として計算できる。xとyが抽出されるサンプルサイズが均一でない場合(xはサンプルサイズN1から観察され、yはサンプルサイズN2から観察される)、p(y|x)は(N2/N1)y*((x+y)!/(x!y!(1+(N2/N1))(x+y+1)))として計算できる。これらの値は、p(x)とp(y)が、未知の平均λを有する同じポアソン分布に由来することを前提とし、ここで、λにはフラットな事前確率(a flat prior)が想定される。これらの統計の詳細は、Audic&Claverie(Genome Research 1997、7:986-995)に記載されており、参照により本明細書に組み込まれる。実施形態では、λについて非フラットな事前確率を想定し得る。たとえば、Audic&Claverie(Genome Research 1997、7:986-995)で説明されているように、0から無限大の代わりに、λに関して限定された関心領域を選択できる(つまり、フラット事前確率)。
【0149】
次に、すべてのp(yi|x)(式中、yiはサブセット[0、y]内の任意のカウントy)の合計を計算することにより、配列変異体のスコアを導出でき得る。これは0から1の間のスコアを有利にもたらす。
【0150】
図5は、工程(y)の後に特定の変異体で観察された読み取りの数と、工程(x)の前に変異体で観察された読み取りの数の比例の関数として、工程の前に特定の変異体で観察された読み取り数の3つの異なる値(x=2、x=20、x=200)について、N2/N1=1.02の計算されたバイアススコアを示す。
図5に示されているように、このスコアリングアプローチでは、xの値が大きいほど(つまり、工程の前により多くの配列が観察された)、バイアススコアの漸近線が極端に速くなる(負のバイアスの場合は0、正のバイアスの場合は1)。有利なことに、これは、工程の前に2回、工程の後に4回、変異体が観察される状況と比較して、配列が工程後に40回、及び工程前に20回、観察される場合、配列変異体に関して、工程のバイアスに対するより高い信頼を得られることを反映する。
【0151】
実施形態では、“負にバイアスされた”(例えば、バイアススコア<0.1)配列グループ、“正にバイアスされた”(例えば、バイアススコア>0.9)配列グループを定義するために定義を使用し得、そして残りの配列を“期待どおり/バイアスなし”として定義され得る。これらの定義は、以下でさらに説明するように、工程44の機械学習アルゴリズムにより使用され得る。実施形態では、負にバイアスされている、又は正にバイアスされている配列の閾値を、選択された信頼水準CLを使用して設定することができ得る。特に、スコアが1-εを超える配列は“正のバイアス”としてラベル付けされ得、一方で、スコアがε未満の配列は“負のバイアス”としてラベル付けされ、ここでεは(1-CL)/2として計算される。たとえば、CL=0.9975の信頼度は、400回のテストで1エラーの許容範囲を表す(1/(1-0.9975)、3Σ信頼度とも呼ばれる)。実施形態では、CLは、少なくとも0.9975(400のテストごとに1つのエラー)、少なくとも0.955(22のテストごとに1つのエラー、2Σ信頼度とも呼ばれる)
、又は少なくとも0.683(3つのテストごとに1つのエラー、1Σ信頼度とも呼ばれる)である。実施形態では、フィットネススコアは、配列が第一及び第二のサンプルのそれぞれに少なくとも1回現れる場合にのみ、配列変異体について計算される。これは、配列プロセスの誤りが原因で表示され、“真の読み取り”ではない配列を除外するのに有用であり得る。実施形態では、スコアは、第一のサンプル、第二のサンプル、又は第一及び第二のサンプルの合計において、選択された回数未満で現れる配列変異体を除外するためにフィルタリングされる。たとえば、各サンプル又は両方のサンプルで最小4、6、8、10、15、又は20回の読み取りの閾値を適用でき得る。
【0152】
実施形態では、上記のように、各所望の機能に関して、各配列変異体について別個のバイアススコアを計算することができる。例えば、タンパク質ライブラリを、第一の標的への結合親和性を定量化するための第一のアッセイ、及び第二の標的への結合親和性を定量化するための第二のアッセイに供すると仮定すると、各配列変異体に関連するこれらのアッセイの夫々のバイアスを反映して、2つの別個のスコアを計算することができる。
【0153】
工程44で、1以上の機械アルゴリズムが、工程42で得られたスコアを使用して予測モデルを構築するようにトレーニングされる。したがって、工程42で得られたスコアによって測定されるように、変異体の配列の特徴をフィットネス(適合性)に関連付けるモデルが得られる。特に、各変異体に対して複数のフィットネススコアが計算される場合、組み合わせたフィットネススコアを各変異体に割り当て、単一の機械学習アルゴリズムをトレーニングして、組み合わせたスコアに基づいて予測モデルを構築することができる。好ましくは、複数の機械アルゴリズムをトレーニングすることができ、それぞれが複数のフィットネススコアのうちの1つに基づく。言い換えると、各アルゴリズムを、1つの所望の機能に関連する配列のフィットネス(適合性)を予測するようにトレーンングし得る。実施形態では、単一の(例えば、多変量)モデルを構築して、複数のフィットネススコアを予測し得る。実施形態では、変異体の配列は、2次元又は3次元のマトリクスにエンコード(符号化)され得、各変異体のフィットネススコア(1次元ベクトルとして)をラベルとして使用する。実施形態において、変異体は、アミノ酸又はヌクレオチドレベルでエンコードされる。有利には、アミノ酸レベルでのエンコードは、塩基レベルでのエンコードよりも著しく単純であり得、タンパク質の配列に関連する特性(例えば、タンパク質自体の任意の特性など)をとらえるのに適切であり得る。実施形態において、変異体は、いくつかのモデル(すなわち、いくつかの所望の機能に関連するフィットネススコアを予測するように訓練されたモデル)についてはヌクレオチドレベルで、他のモデル(すなわち、他の所望の機能に関連するフィットネススコアを予測するように訓練されたモデル)についてはアミノ酸レベルでエンコードされる。たとえば、配列は、(ホットエンコーディング)とも呼ばれる2次元バイナリマトリックスにエンコードすることができ、ここで各列は、その位置での位置と変異体に対応し(たとえば、列1:位置1-アミノ酸1、列2:位置1-アミノ酸2など)、各行は変異体に対応する(すなわち、位置1にアミノ酸2を有する変異体は、列1に0、列2に1を有する)。実施形態では、配列は、3次元バイナリマトリックスにエンコードされ得(ホットエンコーディング)、ここで、第一の次元(例えば、列)は位置に対応し、第二の次元(例えば、行)は変異体に対応し、そして第三の次元(例えば、“深さ”)は、場合によって、その位置のアミノ酸又はヌクレオチドに対応する。たとえば、最初の列は位置1に対応し、最初の行は変異体1に対応し、深さの次元はアミノ酸に対応する(深さ1=アミノ酸1、深さ2=アミノ酸2など)。この例では、位置1にアミノ酸2を有する変異体は、位置(列1、行1、深さ1)に0を、位置(列11、行1、深さ2)に1を、(及び、他のすべての位置(行1、列1、深さx(式中、xは2ではない)に0を有する。あるいは、アミノ酸又は(場合によっては)ヌクレオチドを数値的にエンコード化して、各列が位置に対応し、各行が変異体に対応するマトリックスに含めることができ得る。このような例では、変異体は、その行の各列に、対応する位置のアミノ酸/ヌクレオチドを表すその番号を有する。
【0154】
実施形態では、1以上の機械学習アルゴリズムのうちの1以上は、分類子である。言い換えると、機械学習アルゴリズムは、選択されたカテゴリのセットのどれに配列が属する可能性が高いかを予測するようにトレーニングされ得る。たとえば、配列のカテゴリは、上記で説明したように、“正のバイアス”とラベル付けされたスコア、“負のバイアス”とラベル付けされたスコア、及び任意で“中立”とラベル付けされたスコアを有するものとして定義され得る。次に、機械学習アルゴリズムは、これらの各カテゴリに割り当てられた配列の機能を使用して、カテゴリに関連付けられている機能を(暗黙的又は明示的に)学習し、新たな配列のカテゴリを予測できる。機械学習アルゴリズムが分類子である実施形態では、機械学習アルゴリズムを使用して、それが提供される任意の新たな配列のクラスを予測し、及び/又は、定義されたクラスのいずれかに属するようにそれが提供される新たな配列の確率を表す連続値を予測することができる。機械学習アルゴリズムが回帰アルゴリズムである実施形態では、機械学習アルゴリズムを使用して、それが提供される任意の新たな配列のスコアを予測することができる。実施形態では、機械学習アルゴリズムは回帰アルゴリズムである。言い換えると、機械学習アルゴリズムは、各配列の数値(たとえば、連続数値)を予測するようにトレーニングされ得る。分類子は、バイアススコアがスコアの範囲の端の周りに強くクラスター化することをデータが示す場合(すなわち、配列変異体の大部分のバイアススコアが0又は1に近い)に、有利に使用できる。機械学習アルゴリズムが分類子又は回帰アルゴリズムである実施形態では、アルゴリズムは、決定木アンサンブル又はサポートベクター機械アルゴリズムであり得る。
【0155】
実施形態では、1以上の機械学習アルゴリズムを使用することができ、複数のアルゴリズムの出力を比較するか、あるいは組み合わせることができる。実施形態では、機械学習アルゴリズムは、深層学習(ディープラーニング)アルゴリズムであり得る。たとえば、機械学習アルゴリズムは、密なニューラルネットワーク、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、オートエンコーダなどから選択され得る。
【0156】
実施形態では、1以上の機械学習アルゴリズムのうちの1以上は、ニューラルネットワーク分類子、例えば畳み込みニューラルネットワーク又はオートエンコーダなどのいわゆる“ブラックボックス”アルゴリズムであり得る。実施形態では、1以上の機械学習アルゴリズムのうちの1以上は、有利には、解釈可能なモデルであり得る。機械学習アルゴリズムは、1以上の所望の特性を有する配列と有していない配列の違いをとらえるために使用される。機械学習アルゴリズムが(ニューラルネットワークのように)ブラックボックスモデルである場合、通常、モデル自体から直接分類される基礎となる配列の特徴を抽出することはできない。ただし、モデルは、モデルに入力される新たな配列のスコアを予測できる。さらに、いわゆる“ブラックボックス”アルゴリズムが使用されている場合でも、解釈可能性の手法を実装して、データに対するさらなる洞察を得ることができる。たとえば、ニューラルネットワークのエッジなどの割り当てられた重みの分析を分析することにより、特徴の重要性を試験することにより、及び/又は、一度に考慮される因子の数を制限するための注意メカニズムを実装することにより、モデルにより実施される予測に対して、特に重要な配列の特徴に関するいくつかの情報を得ることができる。有利なことに、“ホワイトボックス”又は解釈可能なモデルは、スコアの動作を強調するパターンを直接抽出することを可能にし得る。モデルから直接又は解釈可能性技術を使用して得られた洞察を使用して、新たなライブラリを設計する工程をガイドし、及び/又は有利に適合される本発明の方法の任意の特徴を特定することができ得る。たとえば、機械学習モデルからの洞察は、本方法の実験工程の設計における欠陥やバイアスを特定するのに役立ち得る。実施形態では、1以上の機械学習アルゴリズムを使用して、配列変異体の初期集団のクラス、スコア、又はクラスに属する確率を予測することができる。好ましくは、機械学習アルゴリズムを使用して構築されたモデルは、予測の信頼性の尺度とともに、配列変異体の予測スコアを提供できる。配列の複数の特徴を予測するために複数のモデルがトレーニン
グされる実施形態では、モデルに具体化された知識のいくつかをモデル間で共有することができる。理論に縛られることを望まないが、タンパク質の機能に関連する多くの特徴は、タンパク質の構造の高レベルの特徴から導き出すことができると信じられている。したがって、そのような高レベルの知識は、モデル間で有利に再利用され得る。これは、モデルを特定の機能に過剰適合させるリスクを低減し、及び/又はモデルトレーニングプロセスの効率を高めるのに有利に寄与し得る。特に、ニューラルネットワークが使用される実施形態では、モデルのいくつかの低レベル層が再利用され得、アーキテクチャの残りの部分は、個々の機能を予測するモデルごとに個別に構築され得る。モデル又はそれらから派生した学習を使用して、機能的に改善された配列変異体を見つけるという最終目的とともに、スコアリング用の機械学習アルゴリズムに提供される新たな集団のスコアを取得できる。言い換えると、試験工程30からのデータでトレーニングされたモデル又はそれらから派生した学習は、変異体をスコアリングするために使用でき、工程46で、以下に説明するように、改善された変異体を検索するためのツールとして使用でき得る。
【0157】
工程46で、検索プロセスが実行されて新たな配列又は配列の集団が特定され、新たな配列は、工程44で構築された予測モデルによって予測されるように、これまでに試験された配列又は配列の集団と比較して、(配列ごとに、又は集団レベルでの集約値に基づいて)改善されたフィトネス(適合性)を有することが好ましい。検索プロセスは通常反復的であり、新たな反復ごとに、前の反復からの学習に基づいて新たな集団が設計され、新たな集団が評価され、次の反復(“構築-試験-学習-設計サイクルと”も呼ばれるプロセス)において使用される新たな学習が導出される(たとえば、工程44で取得された予測モデルが改善される)。
【0158】
実施形態では、2つのタイプの検索プロセスの一方又は双方を実行することができ、これらは、本明細書では、配列検索最適化及び配列ライブラリ検索最適化と呼ばれる。さらに、これらのタイプの検索のそれぞれは、全数検索として、又は確率的検索として実行され得る。全数検索は通常、検索空間ですべての可能性を生じさせ評価することを含む。確率的検索は、通常、ヒューリスティックアルゴリズムを頼りに、検索空間を探索し、以下でさらに説明するように、前記空間内の最適値を識別する。大空間において可能なすべての変異体の列挙と評価は計算コストがかかるため、全数検索は通常、比較的小さな変異体空間でのみ実行可能である。したがって、全数検索と確率的検索のどちらを選択するかは、検索する変異体空間のサイズ、及び使用可能な計算リソースによって異なる。
【0159】
配列検索の最適化では、配列変異体のリストとしての配列集団を検索及び最適化アルゴリズムへの入力として提供し(以下を参照)、改善されたフィットネスを有する配列変異体のリストとして新たな配列集団が出力として提供される。実施形態では、配列検索の最適化は網羅的である。そのような実施形態では、すべての可能な配列変異体は、工程44で生じた予測モデルを使用して個々に評価され(すなわち、各配列及び予測モデルに関連する各特性についてフィットネススコアが予測される)、そして、改善されたフィットネスを有する配列変異体のサブセットが選択され得る。例えば、配列変異体のサブセットは、(以下でさらに説明されるように)多目的基準に従って最も高くランク付けされたサブセットとして選択され得る。あるいは、配列検索の最適化は確率論的であり得、それにより、改善されたフィットネスを有する1以上の配列変異体のセットが、1以上の配列変異体の初期セットからの検索空間の反復探索によって得られる。以下でさらに説明するように、遺伝的アルゴリズムをこの目的に使用することができ得る。実施形態では、関心のある各特性を予測するために、1以上のモデルが工程44で構築される。例えば、同様のフィットレベルで試験されたライブラリのフィットネススコアを予測することができる、複数のモデルが存在し得る。したがって、複数のモデルを使用して配列変異体のフィットネススコアを予測し、これらのモデルの出力を集計して、集約値とこの集約値の不確実性の尺度を取得できる。たとえば、同じ特性を予測するために工程44でトレーニングされた複
数のモデル(たとえば、3~10、好ましくは5~10のモデル)によって配列変異体に対して予測されたスコアの平均及び標準偏差は、配列変異体のスコアとして使用でき得る。
【0160】
配列ライブラリ検索の最適化では、最適化プロセスは、アミノ酸又はヌクレオチド(A、G、C、Tなど)ごとの列と可変位置ごとの行を含む周波数マトリクスを入力として受け取り、各セルは、特定の位置に特定のアミノ酸/ヌクレオチドの周波数(頻度)を含む。そのため、周波数は通常0から1の間であり、各列の合計は1である。当業者が理解するように、周波数マトリクスは、配列のコレクションの集合表現を構成し、マトリックス内の周波数(頻度)は、コレクション内の配列を表す。周波数マトリクスの使用は、配列空間をより広く探索できる可能性があるため、最適化の初期段階で有利であり得る。全数検索を使用すると、複数の配列ライブラリ(周波数マトリクス)が生じ、スコアが付けられ、相互に比較される。確率的検索を使用して、1以上の配列ライブラリ(周波数マトリクス)のリストが入力として提供され、各ライブラリがスコア付けられ、1以上の改善されたライブラリの新たなリストが選択される。これは、検索の新たな反復の入力として使用できる。
【0161】
配列ライブラリ(周波数マトリクス)をスコア付けするために、周波数マトリクスは、サンプリングによる配列のサブセットを生じさせるために用いられ、該サブセットは、周波数マトリクスに要約されたライブラリの“代表的なサブセット”を表すとみなされる。次に、サブセット内の各配列を、工程44で構築されたモデルを使用して、上記のようにスコア付けする。次に、1以上のフィットネススコアについて(すなわち、トレーニングされた1以上のモデルのそれぞれについて)、ライブラリのスコアとして、集計値(“集約値”とも呼ばれる)を計算し得る。実施形態では、集計値は、配列のサブセットのスコアの算術平均、又は配列のサブセットのスコアのn番目のパーセンタイル(ここで、nは、例えば、50、60、70、80又は90であり得る)である。上記の配列検索の最適化に関連して、このプロセスは、工程44でトレーニングされた複数のモデルを使用して何度も繰り返され、同じ所望の特性に関連する変異体のフィットネスを予測し得る。各モデルによって予測されたサブセット集計値全体の集計値は、予測されたサブセット集約値の変動性の尺度を含み、配列ライブラリのフィットネスの尺度として計算され使用され得る。
【0162】
最適化プロセスへの入力(例えば、配列のセット又は周波数マトリクス)は、ヌクレオチドレベル又はアミノ酸レベルで表すことができる。ヌクレオチドとアミノ酸の間に(コドンを介して)明確に定義された多対1のマッピングが存在するため、ヌクレオチドレベルでの最適化は有利であり得る。対照的に、逆マッピングはそれほど単純ではない。
【0163】
実施形態では、配列検索最適化及び配列ライブラリ検索最適化は双方とも、工程46での検索プロセスの一部として、例えば、検索プロセスの異なる反復で実行され得る。特に、配列検索の最適化と配列ライブラリ検索の最適化は、検索の以前の反復を通じて、検索空間の探索(ここで検索は検索空間の新たな変異体/領域の評価を促進するように適合されている)と取得した学習の活用のバランスをとるために連続して実行し得る(現在既知の最適領域に近い検索空間の領域をより詳細に検索する)。通常、探索は検索プロセスの開始時に優先される(この場合、プロセスのこの部分は“探索フェーズ”と呼ばれ得る)が、活用は検索プロセスの終了時に優先される(この場合、このプロセスは“活用フェーズ”と呼ばれ得る)。実施形態では、配列検索の最適化は、検索プロセスの最後の反復で、活用段階フェーズにて実行される。実施形態では、配列ライブラリ検索の最適化は、検索プロセスの開始時に、探索フェーズにて実行される。さらに、探索フェーズでは、(全数検索の出力として、又は確率的検索の次の反復の入力として)選択された配列又は配列ライブラリは、それらの予測スコアにおける高レベルの不確実性に関連付けられた配列/配
列ライブラリを優先するように選択され得る。逆に、活用フェーズでは、スコアの不確実性のレベルが低いことに基づいて、配列又は配列ライブラリが優先付けされ得る。
【0164】
すべての配列(配列検索の最適化)又はすべての配列ライブラリ/周波数マトリクス(配列ライブラリ検索の最適化)がスコア付けされると、各配列/配列ライブラリは複数のスコアに関連付けられ、ここで各スコアは所望の特性に関連する配列/配列ライブラリの予測されるフィットネススコアを表す。さらに、上で説明したように、たとえば、スコアが、同じ所望の特性に関連する適合性を予測するために構築された複数のモデルによって予測された複数のスコアの集合体である場合に、各スコアは、不確実性の尺度に関連付けられ得る。したがって、トップランクの配列/配列ライブラリのサブセットを選択するタスク(たとえば、全数検索又は確率的検索の最後の反復の場合)、又は、後続の反復のための確率的検索アルゴリズムの配列/配列ライブラリのセットを選択するタスクは、多目的問題である。そのような実施形態では、多目的最適化アルゴリズムを使用することができ-ここで各目的は、配列変異体又はライブラリの所望の特性を表す適合性スコアを意味し得る。実施形態では、重みは、いくつかの目的(フィットネススコア)を他のものよりも優先する/強調するために適用される。実施形態では、多目的最適化は、例えば、SPEA2(Zitzler、Laumanns&Thiele、2001、TIK-Report、volume 103、https://www.research-collection.ethz.ch/handle/20.500.11850/145755又はhttps://doi.org/10.3929/ethz-a-004284029を使用してアクセス可能であり、参照により本明細書に組み込まれる)や、IBEA(Zitzler、Kunzli、2004、多目的検索におけるインジケーターベースの選択、In:Yao
X. et al, (eds)Parallel Problem Solving from Nature-PPSN VIII .PPSN 2004. Lecture Notes in Computer Science、vol 3242. Springer、Berlin、Heidelberg、https://link.springer.com/chapter/10.1007/978-3-540-30217-9_84又はhttps:// doi.org/10.1007/978-3-540-30217-9_84を使用してアクセス可能であり、参照により本明細書に組み込まれる)などの、パレートフロント最適化に基づくアルゴリズムを使用して行うことができる。このようなアルゴリズムは、選択したソリューション間の多様性(ダイバーシティ)を最大化(重複を最小化)しながら、たとえば、目的空間での密度の考慮事項を考慮することにより、ソリューションの完全なパレートフロント集団を、選択されたいくつかのソリューション(配列又は配列ライブラリ)に減らし得る。実施形態では、最適化は、他のいくつかの目的(フィットネススコア)の値を下げることなく、目的(フィットネススコア)のいずれも値を改善できない場合に、ソリューションを最高にランク付けするように設計され得る。このようなソリューションは、パレートフロントを表す。使用される最適化プロセスは、パレートフロントを最適化するように有利に設計し得、すなわち、反復最適化が進むにつれて、パレートフロントを目的のより高い値(適合性スコア)に向かって移動させ得る。
【0165】
実施形態では、確率的検索方法を使用して、配列変異体空間を検索する。たとえば、確率的検索は遺伝的アルゴリズムを使用できる。簡単に言えば、基本的な原則は、個々の集団の適合性(つまり、スコア又は集計スコア)を計算し(ここで、個々は、配列検索の最適化の場合は配列変異体、又は配列ライブラリ検索の最適化の場合には、配列ライブラリ/周波数マトリクスである)、計算されたフィットネスを少なくとも部分的に使用して(及び任意に上記で説明したパレートフロントアルゴリズムを使用して)、集団の個々のサブセットを選択し、選択した集団を定義された変換に供して新たな集団を取得し、それをスコア付けすることである。現在の状況に適用すると、配列又は周波数マトリクスの入力セットが変更され(すなわち、事前定義されたパラメーターに従ってランダムに選択された、突然変異及び/又は別の個とのクロスオーバーなどの変換に供される)、子集団と呼ばれる配列/マトリクスの初期集団が取得される。この集団は、工程44でトレーニングされたモデルを使用してスコア付けされる。次に、子集団が入力集団と一緒にプールされ、この組み合わされた集団のサブセットが、たとえば上記のパレートフロント最適化アルゴリズムを使用して選択され、ここでいくつかの実施形態は、集団をトーナメントスタイル
の競争に供することに依存し得る。好ましくは、パレートフロントで最も多様な個々を選択する上記のSPEA2などのアルゴリズムが使用される。サブセットは新たな初期集団となり、前と同じように変形されて次の世代が取得され、同様にスコア付けされ選択される。このプロセスは、事前定義された停止基準が満たされるまで繰り返される。たとえば、停止基準は、十分に高い適合性を持つライブラリが生じるか、最大反復回数に達することであり得る。停止パラメーターは、ユーザーが事前に定義することも、デフォルト値を割り当てることもできる。実施形態では、集団に適用可能な変換は、突然変異、クロスオーバー(交差)、生殖機能などから選択することができる。
【0166】
実施形態では、遺伝的アルゴリズムのパラメーターは、当技術分野で既知の方法を使用して最適化される。たとえば、集団サイズ、各子の集団クロスオーバー(交差)率(cross over rate)における個々の数、突然変異率などの遺伝的アルゴリズムパラメータは、IBEA(Zitzler、Kunzli、2004、https://link.springer.com chapter/10.1007/978-3-540-30217-9_84、これは参照により本明細書に組み込まれる)などのインデックスベースの手法を使用して最適化され得る。そのようなアルゴリズムは、上で説明したように、活用フェーズにおいて適合性の不確実性を最小化し、探索フェーズにおいてそれを最小化することを有利に可能にし得る。最適化される遺伝的アルゴリズムのパラメーターには、クロスオーバー戦略の選択、クロスオーバー率、突然変異戦略、突然変異率、親の数、集団サイズ、集団内のエリートの数、選択方法などの1以上が含まれ得る。実施形態では、遺伝的アルゴリズムのいくつかのパラメーターは、例えば、物理的制約に対処するため、又は検索にドメイン知識を含めるためなど、生物学的考慮事項を考慮に入れるように適合させることができ得る。例えば、遺伝的アルゴリズムがヌクレオチドレベルで機能する場合、突然変異率は、コドンの第一のヌクレオチドの突然変異を、コドンの第二及び/又は第三のヌクレオチドの突然変異よりも起こりにくくするように適合させ得る。たとえば、コドン内の突然変異の確率の可能な分布は、各コドンの第一、第二、及び第三ヌクレオチドについてそれぞれ10%、30%、60%であり得る。実施形態において、突然変異及び/又はクロスオーバーパラメーターは、配列の翻訳段階における終止コドン(例えば、TAG、TAA、TGA)を含む任意の配列を除外するように選択され得る。実施形態において、突然変異及び/又はクロスオーバーパラメーターは、(最適化アルゴリズムがどのレベルで作動するかに応じて、アミノ酸又は対応するコドンレベルのいずれかで)特定のアミノ酸を除外するように選択され得る。そのような除外は、事前の知識に基づいて、例えばユーザーにより定義され得る。実施形態において、配列変異体/配列ライブラリ変異体に対してクロスオーバーを実施する場合、クロスオーバーポイントは、全コドンが変異体間で交換されるように設計され得る。
【0167】
実施形態では、最適化工程は、複数の最適化を並行して実行し、それらの出力を、間隔を置いて又は実行の終わりに集約することを含み得る。これは、得られるソリューションの多様性を有利に増大させ得る。
【0168】
実施形態では、生じた任意の新たなライブラリと、少なくとも1つの以前に生じたライブラリ(例えば、以前に試験されたライブラリ及び/又は以前のインシリコライブラリ)との間のディスタンスが計算される。たとえば、新たなライブラリと以前に生じたライブラリとの間のディスタンスを、検索空間の探索に優先順位を付けるために、検索プロセス中に使用し得る。以前に生じたライブラリ間のディスタンスを計算することで、ライブラリの多様性を評価し、プロセスが配列空間の特定の領域に限定されないようにすることを可能にする。実施形態では、配列ライブラリ間のディスタンスは、イェンセン・シャノン情報量法(Jensen-Shannon Divergence method)を使用して計算される。イェンセン・シャノン情報量(JSD)は、2つの確率分布間の類似性を測定する方法である。特に、該分布は離散分布であり得る。たとえば、この方法を使用して、(1)位置pでアミノ酸A1を有する可能性が50%であるライブラリとアミノ酸
A2を有する可能性が50%であるライブラリ(すなわち、(A1、A2)ベクトルの確率が(50%、50%)に等しい)と、(2)位置pで(A1、A2、A3)ベクトルの確率が(40%、40%、20%)に等しいライブラリの間のディスタンスを測定することができる。これらの2つのライブラリは、確率分布P=(0.5、0.5,0)、及びQ=(0.4、0.4、0.2))を有する。JSDは、JSD(P||D)=λD(P||M)+(1-λ)D(Q||M)として定義され、ここで、M=λP+(1-λ)Qであり、λは(0,1)(対称の場合はλ=0.5)から選択される重みであり、D(A||B)は、2つの分布間のカルバックライブラー・ダイバージェンス(情報量)であり、すなわち、DKL(A||B)=-ΣiA(i)log(B(i)/A(i))である。D(A||B)(「相対エントロピー」とも呼ばれる)は、1つの確率分布Aが基本分布Bとどのように異なるかを示す尺度である。たとえば、基本分布Bは、機械学習アルゴリズムを使用して最適化する前の初期ライブラリであり得、新たなライブラリAは、反復最適化によって生じた最新のライブラリであり得る。各ライブラリの位置pごとに、JSD(Ap||Bp)の値が計算される。次に、最終的なダイバージェンス(情報量)が、すべての位置pにわたるJSDの合計として計算される。
【0169】
実施形態において、配列ライブラリ間のディスタンスは、あるアミノ酸から別のアミノ酸への移行の可能性を考慮に入れて、有意性項と共に計算される。実施形態では、1つのアミノ酸から別のアミノ酸に移行する可能性は、BLOSUM(ブロック置換マトリクス)、特にBLOSUM62などの置換マトリクスによってとらえられる。BLOSUMは、タンパク質配列のアラインメント用に設計されたマトリクスであり、あるアミノ酸から別のアミノ酸に移行する確率を定量化する。たとえば、上記で計算されたダイバージェンスに関連する有意性は、Yona及びLevitt(J Mol Biol. 2002 Feb 1;315(5):1257-75.)で説明されているように計算できる。特に、有意性はJSP(M||BACKGROUND)として計算され、ここでMは前と同じように定義され、BACKGROUNDはバックグラウンド信号である。たとえば、バックグラウンド信号は、BLOSUM62の対角項(すなわち、各アミノ酸を観測する可能性)として選択できる。したがって、有意性が大きいということは、PとQがバックグラウンド信号と非常に異なることを意味し、類似性が小さいということは、PとQがバックグラウンド信号と類似していることを意味する。さらに、ダイバージェンスJSD(P||Q)と有意性JSD(M||BACKGROUND)の両方を考慮に入れて、類似度=0.5*(1-D)*(1+S)(ここで、DはJSD(P||Q)であり、SはJSD(M||BACKGROUND)である)として定義される、類似度項を計算できる。したがって、類似度は次の通りである:(i)スモールD(D→0)とスモールS(S→0)の値(PとQは類似しており、バックグラウンドとあまり変わらない)は、類似性が0.5に近づく結果となる(類似性→0.5);(ii)スモールD(D→0)とラージS(S→1)の値(PとQは類似しており、バックグラウンドとは大きく異なる)は、類似性が1に近づく結果となる(類似性→1);そして(iii)ラージD(D→1)値(PとQは互いに非常に異なる)は、類似性が0に近づく結果となる(類似性→0)。
【0170】
実施形態では、工程16で設計された新たなライブラリが構築20され、試験30され、新たな学習フェーズ40に使用され得る。そのような実施形態では、機械学習アルゴリズムは、工程42で、設計-構築-試験プロセスの現在及び以前の反復からのデータを使用してトレーニングされ得る。実施形態では、工程16で設計された新たなライブラリを使用して、1以上の所望の特性を有すると予測される候補タンパク質のセットを生成することができる。
【0171】
本発明の特定の実施形態では、記載された方法は、1以上のコンピュータシステムを介して少なくとも部分的に実施することができる。別の実施形態では、本発明は、本発明の方法における設計10、10’及び学習40フェーズを少なくとも実施するための、及び/
又は、本発明の方法における構築20及び試験フェーズを実装するための試験装置を制御するための、プログラム指示を含むコンピューター可読媒体を提供し、ここで、コンピュータシステムの1以上のプロセッサによるプログラム指示の遂行は、1以上のプロセッサに、本明細書に記載の工程を実行させる。適切には、コンピュータシステムは、少なくとも、入力デバイス、出力デバイス、記憶媒体、及びマイクロプロセッサを含む。可能な入力デバイスには、キーボード、コンピュータマウス、タッチスクリーンなどが含まれる。出力デバイスコンピュータモニター、液晶ディスプレイ(LCD)、発光ダイオード(LED)コンピューターモニター、バーチャルリアリティ(VR)ヘッドセットなど。さらに、情報は、ユーザー、ユーザーインターフェースデバイス、コンピューターで読み取り可能な記憶媒体、又は別のローカルコンピューター又はネットワークコンピューターに出力できる。ストレージメディアには、ハードディスク、RAM、フラッシュメモリ、その他の磁気、光学、物理、又は電子メモリデバイスなどのさまざまな種類のメモリが含まれる。マイクロプロセッサは、計算を実行し、データの入力、出力、計算、及び表示を実行するための他の機能を指示するための一般的なコンピュータマイクロプロセッサである。2以上のコンピュータシステムは、有線又は無線手段を使用してリンクされ得、互いに又は他のコンピュータシステムと直接、及び/又はインターネットなどの公的に利用可能なネットワークシステムを使用して通信し得る。コンピューターのネットワーキングは、本発明の様々な態様が、ローカルで、及びクラウド内を含む遠隔サイトで、1以上のコンピュータシステム間で実行、格納、及び共有されることを可能にする。
【0172】
本発明の方法は、液体取扱及び分配装置、又はより高度な実験用ロボットシステムなどの、自動化された実験装置と相互作用し、制御するように構成され得る。実施形態では、1以上の工程は、高水準プログラミング言語を使用して完全に自動化され、本方法の設計、試験、及び学習工程を支える、再現可能でスケーラブルなワークフローを生成する。適切な高級プログラミング言語には、C ++、Python Java(登録商標)、Visual Basic、Ruby、PHP、及び生物学固有の言語であるAntha(登録商標)(www.antha-lang.org)が含まれる。
【0173】
本発明は、以下の非限定的な例によってさらに説明される。
【実施例】
【0174】
実施例1
例1-特定の標的に結合するスキャフォールド(足場)タンパク質のエンジニアリング
この例では、特定の標的への結合親和性を有するネイティブ配列に基づいて、配列変異体のライブラリを生じさせた。ライブラリに基づいて、ネイティブ配列と比較して特定の結合標的に対する結合親和性が改善されたタンパク質のコレクションを生じさせた。この実施例は、所望の機能性を有するタンパク質(又はこの場合、候補タンパク質のコレクション)を生成するための本発明の使用を実証する。
【0175】
例2-プロテアーゼ安定変異体の選択
この例では、配列変異体(DNA)のライブラリを、構造情報に基づいて半合理的に設計した。この初期ライブラリの多様性は約3,000の変異体である。ライブラリを国際公開第2017/046594A1号に記載されているようにアセンブリ(組み立て)した(以下の材料と方法を参照)。ライブラリは、当技術分野で知られているように、ファージディスプレイベクターに挿入され、大腸菌(E.coli)での形質転換後に、M13ファージキャプシドの外側に表示(ディスプレイ)された。それぞれが目的のタンパク質変異体を示すファージ集団は、プロテアーゼ(トリプシン又はキモトリプシン)に曝露され、少なくともいくつかのタンパク質変異体の切断をもたらした。次に、ファージのプール(切断されたものと切断されていないものの両方)を固定化された標的タンパク質に曝露し、標的に結合できなかったファージを洗い流した。残りのファージ(“ラウンド1”
ファージと呼ばれる)を使用して大腸菌(E.coli)に感染させ、新しいファージ集団を生成し、それらのいくつかを上記のように選択に使用し(“ラウンド2”と呼ばれるファージの集団をもたらす)、そして、それらのいくつかを配列決定のために保存した。このプロセスを再度繰り返して、ファージの3番目の集団である“ラウンド3”ファージを取得した。各ラウンド及び選択前のファージ集団からのDNAのサンプルを、製造元の指示に従って、イルミナシーケンシング用のNEB Next Ultra II DNAライブラリ調製キットを使用して次世代シーケンシング用に準備した。次に、イルミナのiSeqシーケンサーを使用してサンプルを配列決定した。順方向及び逆方向の読み取りを含むiSeqからの配列(Fastqファイル)を、Burrows-Wheeler Alignmentアルゴリズムを使用して、ライブラリの参照配列にアライニングした。次に、共通配列を使用して、対エンド読み取りをマージし、対エンド間のギャップを埋め、得られた配列をトリミングして、参照配列にオーバーハングしているエンドを削除し、参照配列の手前で終了する配列を削除した。次に、エラー訂正のためにStarcodeを使用して読み取りをクラスター化した(https://academic.oup.com/bioinformatics/article/31/12/1913/213875で説明されている)。
【0176】
図6A~6Eは、この分析の結果を示す。
図6Aは、各配列決定実行における生の読み取りの総数を示している(選択前は“pre”とラベル付けし、選択の各ラウンド後を“round_1”、“round_2”、及び“round_3”とラベル付けする)。
図6Bは、選択前(“pre”)及び選択の各ラウンド後の集団に存在する変異体の総数を示す。
図6Bのデータは、最初の選択ラウンドが、配列決定される変異体の数を劇的に減少したことを示す(選択中に多くの変異体が洗い流されるため)。2回目の選択ラウンドでは集団がさらに精製されるが、3回目の選択ラウンドでは大きな影響はないようにみられる。
図6Cのデータは、対応する配列決定実行の読み取りの総数(
図6Aを参照)と比較した、選択前(“pre”)及び選択の各ラウンド後の母集団に存在する変異体の数を示している。データは、変異体が選択前でも複数の読み取りで表され、変異体ごとの読み取り数が選択によって(1、2、又は3ラウンドの選択が実行されたかどうかにかかわらず、同程度に)さらに増加することを示す。
図6Dは、選択前(“pre”)及び選択の各ラウンド後の集団に存在する変異体の総数を示し、ただし、開始ライブラリに存在しなかった変異体は除外される。
図6Dと6Bのデータを比較すると、選択後の変異体の数(
図E、“round_1”、“round_2”、“round_3”)が、元のライブラリに存在しない変異体が除外されるようにフィルタされてなる、
図6Dの対応するデータポイントにおける変異体の数と比べ多いため、選択プロセス中にランダムな突然変異が発生することが示される。
【0177】
図6Eは、前(“pre”)とそれぞれ3ラウンドの選択(“round_1”、“round_2”、“round_3”)の後の、様々な可変位置でのライブラリの構成の変化を示す周波数テーブルを示す-元のライブラリに存在しないそれらの突然変異は除外される。
【0178】
このデータは、本発明の工程12から32の実現可能性を実証する。
【0179】
次に、本発明者らは、そのようなオプションの実現可能性を実証するために、mRNAディスプレイを使用して同様の実験を繰り返した。結合タンパク質をエンコードする3つのDNAライブラリを、構造情報に基づいて半合理的に設計した。これらの初期ライブラリの多様性は約24,000の変異体であった。ライブラリは、国際公開第2017/046594A1号に記載されているようにアセンブリした(以下の材料と方法を参照)。次に、これらのライブラリを以下に説明するようにmRNAディスプレイで表示し(材料と方法を参照)、それらの遺伝子型と表現型をリンクさせた。次に、この表示されたライブラリをプロテアーゼ(この場合はトリプシンとキモトリプシン)とインキュベートした。
プロテアーゼと10分間及び120分間インキュベートした後、反応を停止し、N末端ストレプトアビジン結合タグを介してタンパク質を精製した。精製後、完全長の(フルレングスの)タンパク質の量をqPCRで定量した。完全長の、切断されていないタンパク質のみが、N末端のstrepタグとC末端のmRNA分子の両方を含んでいた。次に、ストレプトアビジンビーズに捕捉されたmRNAと捕捉されなかったmRNAの双方をqPCRで増幅した。これにより、両方のサンプルに存在する物質の量を定量化することができた。
【0180】
図7A及び7Bは、トリプシン(
図8A)及びキモトリプシン(
図8B)のこれらの分析結果を示し、これらは、3つのライブラリのそれぞれについて、フロースローサンプル(FT)及びビーズに補足されたサンプル(Beads)の、qPCR定量化の結果(ct値、蛍光シグナルがバックグラウンドを超えるレベルに達するサイクル数)を示している。各サンプルの各グループのバーは、左から右に、選択前のサンプル(pre)、10分後の選択前のサンプル(pre10min)、10分選択後のサンプル((Chymo)trypsin10min)、120分後の選択前のサンプル(pre120min)、及び120分選択後のサンプル((Chymo)trypsin120min)のデータを示す。このデータは、ライブラリをプロテアーゼとインキュベートすると、回収された配列の数が予想どおりに減少することを示す。さらに、データは、この減少がインキュベーション時間に依存することを示す(減少は、プロテアーゼとのインキュベーションの10~120分の間に増加する)。これは、mRNAディスプレイとプロテアーゼインキュベーションを使用して、プロテアーゼ耐性分子のライブラリを強化することが可能であることを示す。
【0181】
例3 反復最適化による配列ライブラリの設計
この例では、配列ライブラリを、配列変異体のライブラリのインビトロ試験から得られたデータでトレーニングされたニューラルネットワーク分類子を使用して、インシリコで最適化した。具体的には、公的に入手可能な免疫原性データ(Dhandaら、Front. Immunol. 2018年6月、https://www.frontiersin.org/articles/10.3389/fimmu.2018.01369/fullで入手可能)を使用して、約6,000の配列に基づき、免疫原性スコアに関して、予測モデルをトレーニングした。14個の配列ライブラリを含む配列ライブラリのセットを設計し、インビトロデータでトレーニングしたニューラルネットワーク分類子を使用してスコア付けした。さらに、各配列ライブラリの多様性(ダイバーシティ)を計算し、最適化の第二の目的として使用した。50,000配列の多様性を有する配列ライブラリに関して多様性スコアを1として計算し、多様性スコアがより高い場合とより低い場合を1未満として計算した。言い換えると、最適化アルゴリズムの目的の1つは、50,000の変異体に近いライブラリを設計することであり、ここでライブラリ内の変異体の数は、可変位置のすべての可能な組み合わせをカウントすることによって計算される。たとえば、それぞれが2つのアミノ酸の1つであり得る、2つの可変位置を有するライブラリは、4つの配列の多様性を持ち、それぞれが2つのアミノ酸の1つであり得る、3つの可変位置を持つライブラリは、8配列の多様性を有する、などである。各配列ライブラリの10,000配列のサブセットを、合計80回の反復で実行された遺伝的アルゴリズムの開始集団として、置換によりランダムに選択した。遺伝的アルゴリズムは、反復の最大数(80)に達するまで実行され、各世代に60人の子を有し、クロスオーバー(交差)率(crossover
rate)は0.7、突然変異率は0.3であった。
【0182】
図8Aから8Cのそれぞれは、示されているように、最適化プロセスの反復を示す。各図の左側のパネルは、初期集団(バー)と最新世代(ドットと影付きの領域、ドットは各フィットネスヒストグラムビン内の集団スコアの平均値であり、影付きの領域は平均の周りの2つの標準偏差間隔である)に関するフィットネススコア分布を示す。各図の中央のパネルは、コドン表現の配列ライブラリを示し、ここで、行はアミノ酸配列内の位置であり
、列はコドン内のヌクレオチドである(たとえば、A1はコドンの最初の塩基のヌクレオチドAであり、ここで、T3はコドンの3番目の塩基のTヌクレオチドである)。値は、各変異体がヌクレオチドレベルで表される周波数(頻度)(%)を示す。各図の右側のパネルは、いくつかのライブラリのパレートフロント(2つの別々のパラメーターの最大平均フィットネススコア)を示す。これらの図からわかるように、遺伝的アルゴリズムの最適化プロセスでは、機械学習アルゴリズム(ニューラルネットワークなど)が高いフィットネススコアに関連付けられていると識別した変異体に焦点を当てることで、改善されたフィットネススコア分布を有するライブラリが得られる。このように、この新たなライブラリのメンバーは、試験された所望の特性に関連して、開始配列と比較して改善された新たな配列変異体を表現する。
【0183】
例4-機械学習主導の指向進化を使用した新たなVHHドメインの設計
この例では、配列変異体(DNA)のライブラリを、いくつかの関連するプロテアーゼ酵素とのインキュベーション後のVHHドメインの質量分析データに基づいて、半合理的に設計した。この初期ライブラリの多様性は約1×109の変異体であった。ライブラリは、Cozensら、2018(Nucleic Acids Res. 46(8):e51)によって説明されているように、ダーウィンアセンブリによってアセンブリした。ライブラリを、当技術分野で知られているように、ファージディスプレイベクターに挿入し、大腸菌(E.coli)での形質転換後に、M13ファージキャプシドの外側に表示させた。ファージ集団を目的の標的タンパク質に曝露し、標的に結合する多くのタンパク質変異体を得た。標的に結合できなかったファージ粒子をすべて洗い流した。残りのファージ粒子(“ラウンド1”ファージと呼ばれる)を使用して大腸菌(E.coli)に感染させ、新たに濃縮されたファージ集団を生成した。次に、この集団を上記のように選択に使用した(“ラウンド2”ファージと呼ばれるファージ集団を得た)。選択されたファージ粒子と同様に、同じファージディスプレイ工程を経たものの目的の標的に対して選択されなかった模擬対照サンプルを生じさせた。“ラウンド2”ファージからのDNAのサンプルを、2つのPCR反応(シーケンシングバーコードとアダプターの追加)を介して次世代シーケンシング用に準備し、製造元の指示に従ってProNexサイズ選択ビーズを使用して精製した。次に、これらのサンプルを、イルミナMiSeqシーケンサーを使用して配列決定した。
【0184】
フォワードリードとリバースリードを含むMiSeq SequencerのDNA配列(FastQ ファイル)を、Burrows-Wheeler Alignmentアルゴリズムを使用して、ライブラリの参照配列にアライニングした。次に、共通配列を使用して対エンド読み取りをマージし、対エンド間のギャップを埋め、得られた配列をトリミングして、参照配列にオーバーハングしているエンドを削除し、参照配列の手前で終了する配列を削除した。次に、分析とモデルトレーニングの前に、読み取りをクラスター化した。
【0185】
処理されたライブラリの各変異体を、モックコントロール(模擬対照)と比較した選択中の濃縮度に基づいてスコアリングした。これらのスコアと配列情報を使用して、測定されたフィットネスに配列をリンクさせる機械学習モデルを作成した。このモデルの精度を、モデルがこれまでに見たことのない配列の予測されたフィットネスを実際のフィットネスと比較することによって評価した。このモデルの実際のフィットネスと予測されたフィットネスの間のスピアマン相関間の相関は0.67であり、モデルがアミノ酸配列のみに基づいて目的の標的への結合を正確に予測できることを示す(
図9を参照)。
【0186】
5:結合分子のインビトロ検証
機械学習を使用して多数の高性能な変異体を予測した後、これらの変異体を外部の遺伝子合成サプライヤーを使用して新たに合成した。これらの遺伝子を発現コンストラクトにクローン化し、大腸菌(E.Coli)シャーシーで発現させた。発現後、候補分子をアフ
ィニティータグで精製した。次に、プロテアーゼ消化を使用して、アフィニティータグを候補分子から切断した。
【0187】
各分子の性能を、細胞ベースの効力アッセイを使用して測定した。アッセイに続いて、モデルが予測した分子の68%は、より大きな効力を持つことになった(
図10を参照)。これは、モデルの精度が、NGS濃縮スコアだけでなく、精製タンパク質アッセイでも維持されていることを示す。
【0188】
材料及び方法
[シングルプライマーエクステンション]
シングルプライマーエクステンション(単一プライマー伸長)を使用して、一本鎖DNA分子から二本鎖DNA、例えば、ライブラリ中の配列変異体の可変部分を得ることができる。本発明の実施形態によるシングルプライマーエクステンション(単一プライマー伸長)を実施するために、一本鎖DNAテンプレートを、テンプレートの3’末端に相補的である短いssDNA配列(プライマーと呼ばれる)、及びDNAポリメラーゼと共にインキュベートする。次に、サンプルを次のインキュベーション条件に供する。
- 98℃ - 融解:この工程は、プライマーとssDNAテンプレートに形成され得る二次構造を破壊する。
- 55-70℃ - プライマーアニーリング:プライマーをssDNAテンプレートの3’末端にあるプライマー結合部位にアニール(結合)させるようにする。特定温度は、プライマー配列に依存し得る。
-72℃- エクステンション(伸長):DNAポリメラーゼをプライマー:テンプレート複合体に結合させ、残りのssDNAをdsDNAに変換する。
-4℃- 保存:エクステンション(伸長)反応が完了した後、DNAが分解するのを防ぐ。
【0189】
ポリメラーゼ連鎖反応(以下を参照)と比較すると、これは次の点で異なる。テンプレートDNAは二本鎖ではなく一本鎖である;2つではなく1つのプライマーが使用される;プロセスは循環されないため、テンプレートDNAは増幅されない。
【0190】
シングルプライマーエクステンション(単一プライマー伸長)は、手動で実行することも、Anthaなどを使用して自動化することもできる。特に、本発明の実施形態に従って使用されるプライマーエクステンションプロセスは、少なくとも部分的に自動化され、設計、デッキ準備(preparation)、反応セットアップ、プライマーエクステンション、精製及び収量定量化を含む複数の工程に分割され得る。
【0191】
プライマーエクステンション設計工程では、使用するプライマーの固有性(同一性)とパラメーターの値が定義される。これには、dsDNA収量の最適なパラメーター値を見つけるために、パラメーター空間の少なくとも一部の検索が実行される、最適化プロセスが含まれ得る。
【0192】
デッキ準備工程では、液体取扱ロボットのデッキを準備する。これには、実施する反応に必要な個々の構成要素を提供すること、構成要素のサブセットのマスターミックスを準備すること、及びマスターミックスとその他の要素をマイクロタイタープレートの事前定義された場所にピペッティングすることが含まれ得る。
【0193】
プライマーエクステンション反応のコア構成要素としては、例えば以下が挙げられる:
1以上のssDNAテンプレート、1以上のssDNAプライマー、DNAポリメラーゼ、好ましくは、Phusion U DNAポリメラーゼなどのウラシルリードスルーを伴うDNAポリメラーゼ、ポリメラーゼバッファー、dNTP(デオキシヌクレオチド三
リン酸)。実施形態において、他の潜在的な要素をプライマーエクステンション反応に加えて、効率及び忠実度を最適化することができる。たとえば、ホルムアミド、TMAC(トリメリット酸無水物クロリド)、トレハロース、CES(コンビナトリアルエンハンサーソリューション、http://www.protocol-online.org/prot/Protocols/An-Economic-PCR-Enhancer-for-GC-Rich-PCR-Templates-3469.htmlを参照)、DMSO(ジメチルスルホキシド)、PEG(ポリエチレングリコール)、硫酸アンモニウム、逆転写酵素、メソフィリックDNAポリメラーゼ、から任意の要素が選択される。DNA結合タンパク質、7-デアザ-2’-デオキシグアノシン5’-三リン酸、非イオン性界面活性剤(Triton X-100、Tween 20、NP-40)、及びBSA(ウシ血清アルブミン)を追加でき得る。
【0194】
反応設定工程では、1以上のマルチウェルプレートのウェルでエクステンション(伸長)の準備がなされた混合物と、プライマーエクステンション反応のすべての構成要素が、組み合わせられる。実施形態では、これは、Gilson PIPETMAX液体取扱ロボットによって実行される。このロボットは、Anthaワークフローによって制御でき得る。
【0195】
プライマーエクステンション工程では、マルチウェルプレートをPCRマシン又はプレートの温度を調節できるその他のセットアップに配置する。次に、プレート内のサンプルを、エクステンション反応を実行するために上記のインキュベーション条件に供する。
【0196】
精製工程では、各サンプルのdsDNAの分子を分離する。実施形態において、これは、dsDNAに特異的に結合する磁気ビーズと共にサンプルをインキュベートし、そして磁気プレートでビーズを“引き下げる(プルダウン)”することによって実行される。
その後、残りの反応要素を手動又は自動でピペットアウト(排出)し得る。
【0197】
収量定量化工程において、生成されたdsDNAの量を、当技術分野で既知のアッセイ、例えば、ピコグリーンアッセイ及びナノドロップ又はテカンプレートリーダーを使用して定量化する。サンプルの260nmでの光の吸光度を標準曲線と比較して、サンプル中のdsDNAの量を特定することができる。
【0198】
[ポリメラーゼ連鎖反応]
ポリメラーゼ連鎖反応(PCR)を使用して、二本鎖DNA、たとえばライブラリの配列変異体の定常部分を増幅することができる。PCRを使用して、DNA部分の特定の位置にデオキシウリジン残基を追加することもできる。これらは、ウラシル特異的切除(USER試薬を使用)によって一本鎖オーバーハングを生成するために使用できる。
【0199】
本発明の実施形態によるPCRを実施するために、二本鎖DNAテンプレート(より長い配列の一部を形成することができる)を、テンプレートのそれぞれの鎖の3’末端に相補的である2つの短いssDNA配列(プライマーと呼ばれる)、及びDNAポリメラーゼと共にインキュベートする。次に、サンプルを次のインキュベーション条件に供する。
- 98℃ 融解:この工程で、DNAテンプレートの相補鎖間の水素結合が切断され、プライマーがそれぞれの鎖に結合できるようになる。
- 55-70℃ プライマーアニーリング:プライマーをテンプレート鎖の3’末端のプライマー結合部位にアニールさせるようにする。特定の温度は、プライマー配列に依存し得る。
- 72℃ エクステンション(伸長):DNAポリメラーゼをプライマー:テンプレート複合体に結合させ、残りのssDNAをdsDNAに変換する。
上記の手順を最大35回繰り返す。
-4℃ 保存:エクステンション(伸長)反応が完了した後、DNAが分解するのを防ぐ
。
【0200】
PCRは手動で実行することも、Anthaなどを使用して自動化することもできる。実施形態では、本発明の実施形態に従って使用されるPCRプロセスは、少なくとも部分的に自動化され得る。
【0201】
実施形態において、PCRプロセスは、設計、反応準備(任意にデッキ準備及び反応セットアップを含む)、サーモサイクリング、精製及び収量定量化を含む複数の工程に分割され得る。
【0202】
PCR設計工程では、使用するプライマーのIDとパラメーターの値が定義される。これには、標的のdsDNA収量に最適なパラメーター値を見つけるために、パラメーター空間の少なくとも一部の検索が実行される、最適化プロセスを含めることができる。
【0203】
最適化できるパラメーターの1つは、プライマーのアニーリング温度である。プライマー配列が異なれば、アニーリング温度も異なるものとなり得る。これらのアニーリング温度は、バイオインフォマティクスで推定することができ、及び/又は“勾配”アニーリング工程を実行することによって解明できる。勾配アニーリング工程は、複数の異なるアニーリング温度を並行して試験し、どの温度が最良の標的dsDNA収量を提供することとなるかを見い出すために、サーモサイクラーブロック全体に温度範囲を作成する。
【0204】
反応準備工程では、PCRのすべての構成要素が、反応が準備された混合物と組み合わされる。これは、手動又は液体取扱ロボットを使用して行うことができる。そのような実施形態では、これは、デッキ準備工程及び反応セットアップ工程を含み得る。デッキ準備工程では、液体取扱ロボットのデッキを準備する。これには、実施する反応に必要な個々の構成要素を提供すること、構成要素のサブセットのマスターミックスを準備すること、及びマスターミックスとその他の要素をマイクロタイタープレートの事前定義された場所にピペッティングすることが含まれ得る。反応セットアップ工程では、PCR反応のすべての構成要素が、1以上のマルチウェルプレートのウェルでのPCRの準備がなされた混合物と組み合わせられる。実施形態では、これは、Gilson PIPETMAX液体取扱ロボットによって実行される。このロボットは、Anthaワークフローによって制御できる。
【0205】
PCRのコア構成要素としては、例えば以下が挙げられる:1以上のdsDNAテンプレート、1以上のフォワードssDNAプライマー、1以上のリバースssDNAプライマー、熱安定性DNAポリメラーゼ(たとえば、好ましくは、Phusion U DNAポリメラーゼなどのウラシルリードスルーを備えたDNAポリメラーゼ)、ポリメラーゼバッファー、dNTP(デオキシヌクレオチド三リン酸)。実施形態において、他の潜在的な要素をプライマーエクステンション反応に加えて、効率及び忠実度を最適化することができる。たとえば、ホルムアミド、TMAC(トリメリット酸無水物クロリド)、トレハロース、CES(コンビナトリアルエンハンサーソリューション、http://www.protocol-online.org/prot/Protocols/An-Economic-PCR-Enhancer-for-GC-Rich-PCR-Templates-3469.htmlを参照)、DMSO(ジメチルスルホキシド)、PEG(ポリエチレングリコール)、硫酸アンモニウム、逆転写酵素、メソフィリックDNAポリメラーゼ、から任意の要素が選択される。DNA結合タンパク質、7-デアザ-2’-デオキシグアノシン5’-三リン酸、非イオン性界面活性剤(Triton X-100、Tween 20、NP-40)、及びBSA(ウシ血清アルブミン)を追加でき得る。
【0206】
サーモサイクリング工程では、1以上のサンプルを含むマルチウェルプレートをサーモサイクラー又はプレート内のサンプルの温度を制御できるその他のセットアップ(例:任意
のサーマルサイクリング装置)に配置する。次に、プレート内のサンプルを上記のインキュベーション条件に供して、PCRを実施する。
【0207】
PCRが成功したことを確認するために、任意の成功検証試験を実行できる。これには、既知のサイズのDNAフラグメントを含む標準的なラダーと一緒にサンプルをアガロースゲルにロードし、アガロースゲル電気泳動を実行することが含まれ、これにより、DNAフラグメントはサイズに比例した速度でゲル内を移動する。標的DNAの予想サイズでゲル上にバンドが存在することは、PCRが成功したことを示す。
【0208】
上で説明したように、精製工程では、磁気ビーズを使用してdsDNAを分離する。これは、検証試験が実行されたかどうか、及び単一の優勢なdsDNA生成物がサンプルに存在することを試験が示したかどうかに応じて、異なる方法で実行され得る。検証試験で単一の優勢なdsDNA生成物がサンプルに存在することが示された場合、上記で説明したように、磁気ビーズを使用してdsDNAを残りのサンプルから分離することができる。サンプルに複数のdsDNA産物が存在する場合は、“サイズ選択”アガロースゲルが使用され得、この場合、ウェルはゲル中に事前にカットされそして水で満たされ、所望のDNAがゲルを通って、ピペットアウトできるウェルに移動する。
【0209】
収量定量化工程において、生成されたdsDNAの量を、当技術分野で既知のアッセイ、例えば、ピコグリーンアッセイ及びナノドロップ又はテカンプレートリーダーを使用して定量化する。サンプルの260nmでの光の吸光度を標準曲線と比較して、サンプル中のdsDNAの量を特定することができる。
【0210】
[アセンブリ(組み立て)]
可変部分及び定常部分からの核酸ライブラリのアセンブリは、国際公開第2017/046594号に記載されているように行われ、その内容は参照により本明細書に組み込まれる。
【0211】
特に、USER DNAアセンブリを使用して、ライブラリ内で配列変異体を形成する可変部分と定数部分をアセンブリすることができる。
【0212】
実施形態において、USER DNAアセンブリは、設計、反応準備(任意選択でデッキ準備及び反応セットアップを含む)、インキュベーション、精製及び収量定量化を含む複数の工程に分割され得る。
【0213】
USER DNAアセンブリの設計工程では、反応混合物と使用されるパラメーターの値が定義される。これには、標的dsDNA収量に最適なパラメーター値を見つけるために、パラメーター空間の少なくとも一部の検索が実行される、最適化プロセスを含めることができる。
【0214】
反応準備工程では、USERアセンブリのすべての構成要素が、反応が準備された混合物と組み合わされる。これは、手動又は液体取扱ロボットを使用して行うことができる。そのような実施形態では、これは、デッキ準備工程及び反応セットアップ工程を含み得る。デッキ準備工程では、液体取扱ロボットのデッキを準備する。これには、実施する反応に必要な個々の構成要素を提供すること、構成要素のサブセットのマスターミックスを準備すること、及びマスターミックスとその他の要素をマイクロタイタープレートの事前定義された場所にピペッティングすることが含まれる場合がある。反応セットアップ工程では、反応のすべての構成要素が、1以上のマルチウェルプレートのウェルでのインキュベーションの準備がなされた混合物と組み合わされる。実施形態では、これは、Gilson
PIPETMAX液体取扱ロボットによって実行される。このロボットは、Antha
ワークフローによって制御でき得る。
【0215】
USERアセンブリのコア構成要素には、2以上の入力パーツ、USER酵素ミックス、DNAリガーゼ(T4 DNAリガーゼなど)、反応バッファー(T4 DNAリガーゼバッファーなど)、及びATPなどが含まれ得る。
【0216】
インキュベーション工程では、マイクロウェルプレートをサーモブロック又は、マイクロウェルプレート内のサンプルの温度を制御できる他のセットアップ(例:任意のサーマルサイクリング装置)に配置する。インキュベーション工程は、USER酵素がそれらの機能を実行できるようにする37℃の工程、続いてオーバーハングをアニールできるようにする21℃の工程、及びDNAリガーゼがその機能を実行できるようにする工程を含み得る。
【0217】
アセンブリが成功したことを確認ために、任意の成功検証試験を実行できる。これには、既知のサイズのDNAフラグメントを含む標準的なラダーと一緒にサンプルをアガロースゲルにロードし、アガロースゲル電気泳動を実行することが含まれ、これにより、DNAフラグメントはサイズに比例した速度でゲル内を移動する。標的DNAの予想サイズでゲル上にバンドが存在することは、アセンブリが成功したことを示す。
【0218】
精製工程では、組み立てられたdsDNA(すなわち、所望のサイズを有する反応生成物中のdsDNA)を残りの反応生成物から分離する。これには“サイズ選択”アガロースゲルを使用でき、この場合、ウェルはゲル中に事前にカットされそして水で満たされ、所望のDNAがゲルを通って、ピペットアウトできるウェルに移動する。
【0219】
収量定量化工程において、サンプル中のdsDNAの量を、当技術分野で既知のアッセイ、例えば、ピコグリーンアッセイ及びナノドロップ又はテカンプレートリーダーを使用して定量化する。サンプルの260nmでの光の吸光度を標準曲線と比較して、サンプル中のdsDNAの量を特定することができる。
【0220】
[ダーウィンアセンブリ]
ダーウィンアセンブリは、テンプレート配列に変異を導入するための3工程のプロセスで広く構成される。まず、二本鎖テンプレートDNA配列を一本鎖に変換する。これは、ニッキング(nicking)エンドヌクレアーゼとエキソヌクレアーゼの共役反応と、それに続く酵素の熱不活性化によって達成される。
【0221】
次に、この一本鎖テンプレートを、多数の変異原性オリゴヌクレオチド、及び目的領域に隣接する境界オリゴヌクレオチド-そのうちの1つはビオチンタグで標識されている-と混合する。これらのオリゴヌクレオチドがアニールされると、それらの間のギャップが熱安定性DNAポリメラーゼを使用して埋められ、熱安定性DNAリガーゼでニック(切れ目)が封止される。アセンブリされた生成物は、ストレプトアビジンでコーティングされた磁気ビーズを使用して精製する。次に、この生成物を、“外部”プライマーの添加と標準的なPCR反応によって磁気ビーズから増幅する。この最終生成物は、プラスミドにクローン化するか、インビトロディスプレイ法で線形コンストラクトとして直接使用する準備ができている。
【0222】
[インバースPCR]
インバースPCRは、変異原性オリゴヌクレオチドを使用して実行される。これらのオリゴヌクレオチドを、テンプレート配列に相補的ではない変異原性領域を含む一方又は双方のオリゴヌクレオチドとともに、遺伝子“バックツーバック”内の目的の領域にアニールする。置換の場合、この変異原性領域を、変異原性オリゴヌクレオチドの中心又は5’末
端に配置する。付加変異の場合、変異原性領域をオリゴヌクレオチドの5’末端に配置する。
【0223】
変異原性オリゴヌクレオチドが環状テンプレートdsDNA及び耐熱性DNAポリメラーゼと混合されると、従来のPCR反応が実行される。まず、dsDNAが溶けてssDNAになるように、サンプルを>95℃に加熱する。次に、サンプルをプライマーのアニーリング温度(通常は55~65℃の範囲)まで冷却して、オリゴヌクレオチドをテンプレート配列にアニールさせる。アニール完了後、熱安定性ポリメラーゼの最適な伸長温度(たとえば、約72℃)にサンプルを再度加熱し、プライマーが伸長される間、そこで保持する。このプロセスを、十分な収量を生み出すように何度も繰り返す(15~35回のサイクル)。
【0224】
PCR反応が完了したら、PCRクリーンアップキット又はDNAアガロースゲル抽出を使用してDNAを精製する。テンプレートプラスミドDNAは、DpnI酵素の添加により消化される。次に、変異したPCR生成物をDNAリガーゼで再循環させ、宿主細胞への形質転換を準備する。
【0225】
[ファージディスプレイ]
まず、エレクトロポレーションを使用して、ファージミドベクターのライブラリを大腸菌(E.Coli)に転換する。選択的アガープレート上で増殖した後、細胞のライブラリをプレートからこすり落とし、液体培地とグリセロールに再懸濁し、保存する。
【0226】
次に、これらの細胞を大量の液体培地に接種し、対数増殖期中期(mid-log phase)まで増殖させる。ログの途中(mid-log)で、ヘルパーファージを培養物に加える。細胞をさらに1時間増殖させて、ヘルパーファージに感染させる。
【0227】
次に、細胞をペレット化し、誘導培地(IPTGを含む)に再懸濁することにより、ファージ発現を誘導する。次に、細胞を一晩増殖させる。
【0228】
ファージを遠心分離によって細胞から精製する。培養物を5,000xgで回転させ、ペレットを廃棄する。次に、上清を11,000xgで遠心分離して、ファージをペレット化する。これらのペレットを保存バッファーに再懸濁し、-80℃で保存する。
【0229】
準備ができたら、ファージを標的に対して選択させる。バインダを選択する場合、ファージを、特定の濃度で固体表面(磁気ビーズなど)に固定化された標的分子に供する。正(陽性)分子はこれらの標的分子に結合するが、残りの変異体は結合しない。表面をバッファーで洗浄して、表面に非特異的に結合した変異体をすべて除去する。数回の洗浄サイクルの後、結合したファージは標的から溶出させる。
【0230】
溶出後、ファージの一部を分離し、次世代シーケンシングに備えて準備する。残りを大腸菌に再感染させ、陽性変異体を増幅し、標的に対して再度パン(洗浄:panned)され得る。
【0231】
[mRNAディスプレイ(表示)]
mRNAディスプレイは、Barendtら(ACS Comb. Sci. 2013、15、2、77-81; https://pubs.acs.org/doi/abs/10.1021/co300135r)に記載されているように実行される。簡単に説明すると、ライブラリの各メンバーを、コード配列の上流にT7プロモーター配列を含むように設計する。DNA分子を、T7ポリメラーゼ、バッファー、及びリボヌクレオチド三リン酸(rNTP)と混合する。T7ポリメラーゼをT7プロモーターでDNAテンプレートと結合させ、DNAをRNAに転写する。配列の3’末端でT7ターミネ
ーター配列に到達するか、線形DNAフラグメントの末端に到達するまで、これを継続する。反応が完了した時点で、転写が成功したことをゲル分析によって確認する。
残りの反応系をDNAseで処理してDNAテンプレートを除去し、Monarch(登録商標)RNAクリーンアップカラム(New England BioLabs、https://international.neb.com/products/t2030-monarch-rna-cleanup-kit-10- ug#Product%20Information)で精製し、残存する塩、酵素及びrNTPを除去する。
【0232】
次に、各mRNAを、3’末端にピューロマイシン分子を持つ短いDNA配列で構成されるピューロマイシンリンカーとリンクさせる。スプリントDNA配列を使用して、ピューロマイシンリンカーを各mRNAテンプレートの3’末端に効率的にライゲート(ligate)させる。このスプリント配列は、mRNAの3’末端とピューロマイシンリンカーの5’末端の双方に相補的である。したがって、mRNAの3’末端とピューロマイシンリンカーの5’末端を効果的に近接させる。これが達成されたら、リガーゼ(T4リガーゼなど)を導入して、これら2つの分子を一緒にライゲート(ligate)させる。ライゲーション(ligation)の完了時点で、DNAエキソヌクレアーゼを使用してスプリントオリゴを除去し、たとえばMonarch(登録商標)RNAクリーンアップキット(New England BioLabs)を使用して、RNAをクリーンアップする。
【0233】
次に、mRNA-ピューロマイシン融合分子を、例えば、PURExpress(登録商標)翻訳システム(New England BioLabs; https://international.neb.com/products/e6850-purexpress-rf123-kit#Product%20Information)を使用して翻訳する。この無細胞混合物は、再構成されたタンパク質発現システムである。タンパク質の発現に必要な個々の要素はすべて細胞内で生成され、精製されて混合される。他の無細胞発現システムに対するこのシステムの主な利点は、非常にクリーン;RNAseを殆ど含まない;ことである。
【0234】
翻訳が完了すると、ピューロマイシン融合の発生が促進されるように反応条件を変更し、これにはサンプルの冷却と塩濃度の増加が含まれる。
【0235】
次に、融合分子を、ノーザンブロット又は定量PCR(qPCR)のいずれかによって品質管理する。
【0236】
ノーザンブロットの場合、サンプルはRNAゲル(例:トリスホウ酸尿素ゲル)で泳動し、ナイロンメンブレン上にブロットする。次に、ジゴキシゲニン(DIG)で修飾されたRNAオリゴ(Digoxigen (DIG)-modified RNA origos)を、このメンブレン上のRNAにハイブリダイズさせる。これが完了すると、DIG発光検出キットで定義されたプロトコル(Sigma Aldrich、https://www.sigmaaldrich.com/catalog/product/ROCHE/11363514910?lang = en&region = GB)を使用して、DIG標識mRNAが検出可能になる。
【0237】
このプロセスは、サンプル内のmRNAを分離して視覚化する。mRNAディスプレイ(表示)が成功すると、3つのバンド:1つはmRNAのみ、もう1つはmRNA-ピューロマイシン、3つ目はmRNA-ピューロマイシン-タンパク質融合(これは3つのうち最大である):が表示される。
【0238】
qPCRの場合、ライブラリ内の変異体を、タンパク質が精製タグを含むような、strepタグ配列又はストレプトアビジン結合ペプチド配列(又は他の精製タグ)を含むように設計する。次に、発現させたタンパク質を、適切な親和性分離法、例えばストレプトアビジン標識磁気ビーズを使用して、任意にサンプルをヘパリンなどの遮断剤とインキュベートすることにより、分離する。次に、当技術分野で既知の定量的逆転写PCRを実施し
て、サンプル中に存在するmRNAの量を定量化する。mRNAディスプレイ(表示)が成功すると、サンプルに存在するRNAの量はネガティブコントロール(陰性対照)と比較してはるかに多くなり得る。ネガティブコントロール(陰性対照)として、mRNAをタンパク質に結合するピューロマイシンを含まない、タンパク質サンプル(例えば、マッチングタンパク質ライブラリ)を使用でき得る。
【0239】
[逆転写]
1以上の機能アッセイでの挙動に応じてグループに分けられた配列変異体の配列決定の前に、タンパク質変異体に付着したmRNA配列を逆転写して、配列決定された各グループの変異体を代表するDNAサンプルを取得できる。これは、当技術分野で既知であるように、、サンプルを逆転写酵素、プライマー、適切な緩衝液及びdNTPと共にインキュベートすることによって実施される。
【0240】
[次世代シーケンシング]
本発明の実施形態による次世代シーケンシング(NGS)は、イルミナシーケンサーを使用して実行される。したがって、配列決定されるサンプルを、DNAアダプターなどにより、配列決定のために準備し得る。DNAアダプターは、DNA配列を配列決定チップに結合するために使用される領域、プライマー配列が配列に結合することを可能にする領域、及び任意で、変異体の異なるグループが一緒に配列決定されることを可能にするバーコード配列を含み得る。
【0241】
イルミナシーケンシング及びイルミナシーケンシングのためのライブラリ調製は当技術分野で既知である。たとえば、シーケンシング用のライブラリ調製は、https://www.neb.com/-/media/nebus/files/brochures/nebnextillumina.pdf(4及び5頁)で説明されているように、NEBNextキット(New England Biolabs)を使用して実行できる。
【0242】
本発明の実施形態は、イルミナiSeq 100シーケンサーを使用する。このシーケンサーは現在、17時間で約500万の2x150読み取りを生じさせる。
【0243】
本発明の特定の実施形態が本明細書に詳細に開示されているが、これは、例として、説明のみを目的として行われたものである。前述の実施形態は、以下に添付される特許請求の範囲に関して限定することを意図するものではない。本発明者らは、特許請求の範囲によって定義される本発明の精神及び範囲から逸脱することなく、本発明に対して様々な置換、変更、及び修正を行うことができると考える。
【先行技術文献】
【特許文献】
【0244】
【特許文献1】国際公開第2017/046594A1号
【非特許文献】
【0245】
【非特許文献1】M. R. Green、J. Sambrook、2012、分子クローニング:実施マニュアル、第4版、Books 1-3、コールドスプリングハーバーラボラトリープレス、コールド スプリング ハーバー、NY
【非特許文献2】Ausubel, F. M. ら(1995年及び定期的な補足;分子生物学の現在のプロトコル、第9章、第13章、及び第16章、ジョン・ワイリー&サンズ、ニューヨーク、ニューヨーク州)
【非特許文献3】B. Roe, J. Crabtree、及びA. Kahn、1996年、DNA分離とシーケンス:エッセンシャルテクニック、ジョン・ワイリー&サンズ
【非特許文献4】J. M. Polak及びJames O'D. McGee、1990年、イン-シツ(原位置)ハイブリダイゼーション:原則と実践、オックスフォード大学出版局
【非特許文献5】M. J. Gait(編集者)、1984年、オリゴヌクレオチド合成:実用的なアプローチ、IRLプレス
【非特許文献6】D. M. J.Lilley及びJ. E. Dahlberg、1992、酵素学の方法:DNA構造パートA:酵素学におけるDNA法の合成と物理的分析、アカデミックプレス
【非特許文献7】Durbin R.、Eddy S. 、Krogh A.、Mitchinson G.(1998年)、生物学的配列分析、ケンブリッジ大学出版局
【非特許文献8】David W.(2004)、バイオインフォマティクス、コールドスプリングハーバーラボラトリープレス
【非特許文献9】Cozensら、2018(Nucleic Acids Res;46(8):e51
【非特許文献10】Ochmanら、1989(Erlich H.A.(eds)PCR Technology, Palgrave Macmillan、London
【非特許文献11】Galanら、Mol. BioSyst.、2016、12、2342-2358
【非特許文献12】Audic&Claverie(Genome Research 1997、7:986-995
【非特許文献13】Zitzler、Laumanns&Thiele、2001、TIK-Report、volume 103
【非特許文献14】Zitzler、Kunzli、2004、多目的検索におけるインジケーターベースの選択、In:Yao X. et al, (eds)Parallel Problem Solving from Nature-PPSN VIII .PPSN 2004. Lecture Notes in Computer Science、vol 3242. Springer、Berlin、Heidelberg
【配列表】
【手続補正書】
【提出日】2022-01-12
【手続補正1】
【補正対象書類名】図面
【補正対象項目名】全図
【補正方法】変更
【補正の内容】
【国際調査報告】