(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-08-29
(54)【発明の名称】DNAバーコードを使用してタンパク質コード配列を同定する方法
(51)【国際特許分類】
C40B 40/06 20060101AFI20240822BHJP
C12Q 1/6869 20180101ALI20240822BHJP
C12N 1/19 20060101ALN20240822BHJP
【FI】
C40B40/06 ZNA
C12Q1/6869 Z
C12N1/19
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024516412
(86)(22)【出願日】2022-09-09
(85)【翻訳文提出日】2024-04-23
(86)【国際出願番号】 US2022043139
(87)【国際公開番号】W WO2023043685
(87)【国際公開日】2023-03-23
(32)【優先日】2021-09-16
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】522384318
【氏名又は名称】エー-アルファ バイオ,インコーポレイテッド
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】ヤンガー,デイビッド
(72)【発明者】
【氏名】ロペズ,ランドルフ
(72)【発明者】
【氏名】エマーソン,ライアン
【テーマコード(参考)】
4B063
4B065
【Fターム(参考)】
4B063QA12
4B063QA17
4B063QA19
4B063QQ03
4B063QQ08
4B063QQ42
4B063QQ52
4B063QR32
4B063QR35
4B063QS34
4B065AA72X
4B065AA72Y
4B065AB01
4B065AC14
4B065BA02
4B065CA46
(57)【要約】
【課題】
固有のユーザー設計の且つ/又はランダムな合成DNAバーコードと、タンパク質をコードする変異関心領域との間の関係を、ショートリード配列決定プラットフォームに適した高い精度で分離する。エラーが発生しやすいロングリード配列決定プラットフォームを使用する場合、変異原性ライブラリー内の変異バリアントの分離能を高めるために、関心領域の変異バリアント間に配列の相違の増加を導入する。
【解決手段】
複数の第1のポリヌクレオチドを含む第1のライブラリを合成すること;各第1のポリヌクレオチドを固有の第2のランダム化されたバーコードヌクレオチド配列とランダムに対形成して、第2のポリヌクレオチドから構成される第2のライブラリを生成すること;第2のポリヌクレオチドを配列決定すること;及び各第2のランダム化されたバーコードを、第1のポリヌクレオチドのタンパク質コード領域及び/又は関心領域にマッピングすること、を含む方法。
【選択図】なし
【特許請求の範囲】
【請求項1】
a)複数の第1のポリヌクレオチドを含む第1のポリヌクレオチドライブラリーを合成することであって、第1のポリヌクレオチドのそれぞれが少なくとも1つのタンパク質コード領域を含むか、及び/又はタンパク質コード領域内の少なくとも1つの関心領域をコードし、各第1のポリヌクレオチドは、独立して、任意選択により、前記タンパク質コード領域及び/又は関心領域の参照配列に関する1つ又は複数の非サイレント変異を含み、少なくとも1つの前記第1のポリヌクレオチドは、参照配列に関して少なくとも1つのサイレント変異を含む前記タンパク質コード領域又は関心領域をコードし、所与のタンパク質コード領域及び/又は関心領域における前記少なくとも1つのサイレント変異又はサイレント変異の組み合わせが第1のバーコードを提供する、合成すること;
b)各第1のポリヌクレオチドを固有の第2のランダム化されたバーコードヌクレオチド配列とランダムに対形成して、第2のポリヌクレオチドから構成される第2のポリヌクレオチドライブラリーを生成すること;
c)前記第2のポリヌクレオチド、又は少なくともその前記第1のバーコード及び第2のランダム化されたバーコードを配列決定すること;及び
d)各第2のランダム化されたバーコードを、第1のポリヌクレオチドのタンパク質コード領域及び/又は関心領域にマッピングすること
を含む方法であって、前記第2のポリヌクレオチドライブラリーのポリヌクレオチドは、前記第2のランダム化されたバーコードのみを配列決定することによって同定することができる、方法。
【請求項2】
前記第2のポリヌクレオチドが、ロングリード次世代配列決定によって配列決定される、請求項1記載の方法。
【請求項3】
前記第2のバーコードが、ショートリード次世代配列決定を使用して配列決定される、請求項1~2のいずれか一項に記載の方法。
【請求項4】
前記第2のランダム化されたバーコードを配列決定することによって、1つ又は複数のタンパク質コード配列をコードするポリヌクレオチドの同一性及び相対存在量を決定することをさらに含む、請求項1~3のいずれか一項に記載の方法。
【請求項5】
前記第2のポリヌクレオチドライブラリーの前記ポリヌクレオチドが、約300を超えるヌクレオチドによって分離された第1のバーコード及び第2のバーコードを含有する、請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記第2のポリヌクレオチドライブラリーの前記ポリヌクレオチドが、約600未満のヌクレオチドによって分離された第1のバーコード及び第2のバーコードを含有する、請求項1~5のいずれか一項に記載の方法。
【請求項7】
前記第2のポリヌクレオチドライブラリーの前記ポリヌクレオチド内に含有される前記第1のバーコードと前記第2の(ランダム化された)バーコードの両方が、ショートリード次世代配列決定によって配列決定される、請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記第2のポリヌクレオチドライブラリーの各ポリヌクレオチド内に含有される前記第1及び第2のバーコードの両方が、ロングリード次世代配列決定によって配列決定される、請求項1~7のいずれか一項に記載の方法。
【請求項9】
前記第1のポリヌクレオチドライブラリーが、参照タンパク質配列に関して単一のアミノ酸変異を有するタンパク質をコードするタンパク質コード領域を含有する1つ又は複数のポリヌクレオチドを含有する、請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記第1のポリヌクレオチドライブラリーからの1つ又は複数のポリヌクレオチドが、単一の核酸置換から生じる単一の非サイレント変異を含む、請求項1~9のいずれか一項に記載の方法。
【請求項11】
前記第1のバーコードが、3つ以上のサイレント変異を含む、請求項1~10のいずれか一項に記載の方法。
【請求項12】
前記第1のポリヌクレオチドライブラリーからの1つ又は複数のポリヌクレオチドが、参照タンパク質配列に関して、前記参照タンパク質配列に関する非サイレント核酸変異の数と比較して、より多くのサイレント変異を含有する、請求項1~11のいずれか一項に記載の方法。
【請求項13】
前記第2のポリヌクレオチドライブラリーからの2つ以上のポリヌクレオチドが、参照タンパク質配列に関して同一の非サイレント変異を含むが、同一のアミノ酸配列をコードする2つの分子が、第2のバーコードの配列決定によって同定されるように、異なる第2のバーコードを含む、請求項1~12のいずれか一項に記載の方法。
【請求項14】
1つ又は複数の細胞内の1つ又は複数のタンパク質コード領域が、1つ又は複数の第2のバーコードを配列決定することによって同定される、請求項1~13のいずれか一項に記載の方法。
【請求項15】
1つ又は複数の細胞内の2つのタンパク質コード領域が、同じ細胞内に含有される2つの第2のバーコードを配列決定することによって同定される、請求項14に記載の方法。
【請求項16】
前記細胞が、酵母二倍体細胞である、請求項15に記載の方法。
【請求項17】
前記酵母二倍体細胞が、それぞれが1つの第2のバーコードを含む2つの酵母一倍体細胞の交配を通じて産生された、請求項16に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願
[0001] 本出願は、2021年9月16日に出願された米国特許出願第63/244,957号に対する優先権を主張し、その全体が参照により本出願に組み込まれる。
【背景技術】
【0002】
背景情報
[0002] 分子生物学及び生化学の多くは、変異原性ライブラリー、すなわち、後の実験における発現及び特性評価のために、最初のタンパク質コード配列(野生型、参照、又は親配列と呼ばれ、典型的には、本明細書において「参照」配列又は「参照」タンパク質と呼ばれる)が1つ又は複数の位置で変異して、多数の変異バリアントを生成する、部分的にランダム化された複数の配列、の構築によって達成される。このプロセスの重要な部分は、このようなライブラリーから実験的に測定できるデオキシリボ核酸(DNA)から、各DNA分子によって発現されるタンパク質種へのマッピングである。このようなマッピングは、DNAライブラリーのタンパク質コード領域を直接配列決定することによって達成できるが、このアプローチは、典型的には、ロングリード配列決定、すなわち、DNA関心領域全体を直接観察するのに十分な長さのリードの配列決定を要する。
【0003】
[0003] 別のアプローチは、配列決定して変異関心領域が同定され得る、タンパク質をコードするDNA分子に、ユーザーが設計した合成DNAバーコードを組み込むことであるが、このようなバーコードがランダムなDNA配列を含むと、完全に定義されたオープンリーディングフレーム(ORF)の維持と両立できなくなるため、実際の変異バリアントを有するタンパク質コード領域の外側に配置しなければならない。同定用合成DNAバーコードは、タンパク質コード配列内の変異した関心領域と何らかの方法で関連付けられ、同定用バーコードと変異した関心領域とが同じ分子上にあることが確認される既知の関係がなければならない。この関係を確立するには、明白な2つの選択肢がある。第一に、合成DNAバーコードの同定と関心領域との関係が、実験的のマッピングを必要とせず合成時に確立されるように、非コードユーザー指定合成DNAバーコードと、タンパク質をコードする変異関心領域との両方にわたる配列全体を、単一の分子として合成することができる。しかし、完全にカスタムでのこのような長さの分子のオリゴヌクレオチド合成は、大規模なハイスループットのライブラリーベースの実験では極めて高価である。第二に、変異関心領域DNA配列のライブラリーにランダムDNAバーコードのライブラリーをライゲートするか、又はオーバーハングにバーコードを有するプライマーを使用して、ランダムDNAバーコードのライブラリーを変異関心領域のライブラリーにポリメラーゼ連鎖反応(PCR)し、合成DNAバーコード及びタンパク質コード領域のランダムな組み合わせを生成することができる。組み立てが完了すると、DNAライブラリーは、固有の同定DNAバーコードを固有の変異関心領域にマッピングするために、ユーザー設計の非コード合成DNAバーコードから、変異関心領域を介してDNAのタンパク質コードセグメントへと配列決定することができる。しかし、このアプローチでは、比較的長いシーケンスリードを生成する配列決定プラットフォーム(例えば、現在日常的に10キロベース(kb)を超えるリードを生成するPacific Biosciencesの単一分子リアルタイム配列決定又はOxford Nanopore Technologiesのナノポア配列決定)を使用する必要があり、これらのリードは、より短いリードを利用する他のハイスループット配列決定法(例えば、IlluminaのNovaSeq、HiSeq、NextSeq、及びMiSeqプラットフォーム)が、より経済的であり、より正確であるのと比較して、品質がより低い、及び/又はコストがより高いことが当業者に知られている。さらに、そのような変異原性ライブラリーのいくつかの実施では、関心領域の1つの変異バリアントは、関心領域の別の変異バリアントとほぼ同一であり得、単一の塩基対置換のみが異なる可能性がある。変異原性ライブラリーの変異バリアント間のこのようなわずかな違いは、現在利用可能なロングシーケンスリードの比較的高いエラー率によって隠れやすく、そのため、比較的近い2つの変異バリアントが配列決定では分離できなくなり得る。
【発明の概要】
【課題を解決するための手段】
【0004】
[0004] したがって、当技術分野では、固有のユーザー設計の合成DNAバーコードと、タンパク質をコードする変異関心領域との間の関係を、ショートリード配列決定プラットフォーム(例えば、Illumina配列決定)に適した高い精度で分離する方法に対するニーズが存在する。さらに、エラーが発生しやすいロングリード配列決定プラットフォーム(PacBio又はOxford Nanopore Technologies)を使用する場合、変異原性ライブラリー内の変異バリアントの分離能を高めるために、関心領域の変異バリアント間に配列の相違の増加を導入するニーズが存在する。本明細書に開示される方法は、その需要を満たす。
【0005】
図面の簡単な説明
[0005] 本明細書に組み込まれ、その一部を構成する添付の図面は、1つ又は複数の実施形態を示し、記述とともにこれらの実施形態を説明する。添付の図面は、必ずしも一定の縮尺で描かれているわけではない。添付のグラフ及び図面に示されている値及び
/又は寸法は、説明のみを目的としており、実際の値又は好ましい値又は寸法を表している場合も表していない場合もある。該当する場合、基礎となる特徴の説明を補助するために、一部又は全ての特徴が図示されていない場合がある。
【図面の簡単な説明】
【0006】
【
図1】[0006]目的タンパク質(POI)と、POIのオープンリーディングフレーム(ORF)の上流(5’)に付加された例示的な「ランダム」25ヌクレオチドバーコード(N25)とをコードする、例示的なポリヌクレオチド配列、及び目的タンパク質をコードする配列に導入されるユーザー指定のバリアント(変異体)を表す関心領域(ROI)(POIよりも短い設計ヌクレオチド配列長を有する)の図である。長さ25ヌクレオチド(すなわち、N25)であるこの図の「ランダム」バーコードは、配列がPOI及び/又はROIの発現に干渉しない限り、設計又はランダムに生成(「ランダム」)され得る、任意のヌクレオチド配列及び長さのもの(例えば、約10、15、20、25、30又はそれを超えるヌクレオチドのいずれか)であり得る。例えば、ランダムバーコード(N25)をPOIのコード配列内に配置すると、POIの発現が破損するため、配置できない。
【
図2】[0007]ポリヌクレオチド配列の例示的なライブラリーの図であり、それぞれがPOIをコードし、それぞれが固有の関心領域(ROI)を含み、それぞれがオープンリーディングフレームの上流に付加された固有のランダムな25ヌクレオチドのバーコード(N25)を含む。次いで、ROIを含むポリヌクレオチドは、N25配列(ランダムバーコード)のみを配列決定することによって補完することができる。
【
図3】[0008]目的タンパク質(POI)と、オープンリーディングフレーム(ORF)の上流(5’)に付加又は配置された例示的な第2のバーコード(例えば、「ランダムな」又は「ランダムに生成された」25ヌクレオチドバーコード(N25))とをコードする、本開示のポリヌクレオチド配列、及び目的タンパク質(POI)をコードするヌクレオチド配列内のユーザー指定のヌクレオチド配列バリアントを表す関心領域(ROI)の図であり、ここで、固有のROIと対形成された参照配列に対する1つ又は複数のサイレント変異を導入する固有の合成バーコード(SynBC)がポリヌクレオチド配列に導入されており、第2のバーコード(例えば、N25配列)及びSynBC配列は、特定のROIを含む特定のPOIを同定するためのいくつかの市販のショートリード又はロングリード配列決定プラットフォームのうちの1つによって配列決定することができる。
【
図4】[0009]例示的なRBD POIをカバーする部位飽和変異誘発(SSM)ライブラリーの全ての要素の予想されるDNA配列を示す。
【
図5】[0010]例示的なRBD POIをカバーする部位飽和変異誘発(SSM)ライブラリーの全ての要素の予想されるDNA配列を示す。
【
図6】[0011]例示的なRBD POIをカバーする部位飽和変異誘発(SSM)ライブラリーの全ての要素の予想されるDNA配列を示す。
【
図7】[0012]例示的なVEGF-A POIをカバーする部位飽和変異誘発(SSM)ライブラリーの全ての要素の予想されるDNA配列を示す。
【
図8】[0013]例示的なVEGF-A POIをカバーする部位飽和変異誘発(SSM)ライブラリーの全ての要素の予想されるDNA配列を示す。
【
図9】[0014]予想されるPOI配列と比較した最良の一致と2番目に良好な一致の間でBLASTNスコアによってビニングされた、SynBCを有する及び有しない(コドンシャッフリング)ポリヌクレオチドシーケンスリードを表すヒストグラムプロットである。
【
図10】[0015]予想されるPOI配列と比較した最良の一致と2番目に良好な一致の間でコンセンサススコアによってビニングされた、SynBCを有する及び有しない(コドンシャッフリング)ポリヌクレオチドシーケンスリードを表すヒストグラムプロットである。
【発明を実施するための形態】
【0007】
開示の概要
[0016] 本開示は、ポリヌクレオチド、ポリヌクレオチドの組み合わせ、及びそれらを含む細胞、並びに前記ポリヌクレオチドのそれぞれに関連する少なくとも1つの「バーコード」の同定に基づき、ポリヌクレオチド内(例えば、その少なくとも一部が異なる目的タンパク質(POI)をコードするポリヌクレオチドのライブラリー内)のタンパク質コード領域を同定するための方法を提供する。好ましい実施形態では、特定の関心領域(「ROI」、参照POIと異なる少なくとも1つのヌクレオチド配列を含むPOIの事前設計された領域)、POIによってコードされるアミノ酸配列を変更することなく、POI内の第1のバーコードを提供する少なくとも1つのサイレント変異、及び上流(5’)に位置し、POIの先頭から、特に第1のバーコードから、特定の数のヌクレオチド又は塩基対内(例えば、600ヌクレオチド又は塩基対以内)に位置する「ランダム」(例えば、非タンパク質コード)ヌクレオチド配列を有する少なくとも1つの第2のバーコードを含む、特定のPOIである。好ましくは、特定のROIを含む特定のPOIをコードするそのようなポリヌクレオチドは、第1及び第2のバーコードのみ、又はいくつかの実施形態では第2のバーコードのみを配列決定することによって同定することができる。この開示から当業者には明らかであるように、他の実施形態も提供される。
【0008】
詳細な説明
[0017] 添付の図面に関連して以下に記載される説明は、開示された主題の様々な例示的な実施形態の説明であることを意図している。特定の特徴及び機能は、各例示的実施形態に関連して説明される。しかし、当業者には、開示された実施形態がそれらの特定の各特徴及び機能なしで実施され得ることが明らかであろう。
【0009】
[0018] 固有のユーザー設計の及び/又はランダムな(又はランダム化された)合成DNAバーコード(それぞれ第1(SynBC)及び第2のバーコード)と、タンパク質をコードする変異関心領域(ROI)との間の関係を、ショートリード配列決定プラットフォームに適した高い精度で分離する(決定する)方法が提供される。さらに、この方法は、エラーが発生しやすい及び/又は費用のかかるロングリード配列決定プラットフォームを使用する場合、変異原性ライブラリー内の変異バリアントの分離能を高めるために、関心領域の変異バリアント間に配列の相違の増加を導入する。本明細書に記載の方法はまた、好ましくは、第1のバーコード(「参照」配列(例えば、野生型及び/又は親POI)との設計された配列の違いを有する)及び第2の(「ランダムな」配列を有する)バーコードのみ、又はその第2のバーコードのみを同定することによる、特定の目的タンパク質(POI)又はその関心領域(ROI)をコードするポリヌクレオチドを同定するためのショートリード配列決定プラットフォームのみの使用を提供する。
【0010】
[0019] 本開示は、ポリヌクレオチド、ポリヌクレオチドの組み合わせ、及びそれらを含む細胞、並びに前記ポリヌクレオチドのそれぞれに関連する少なくとも1つの「バーコード」の同定に基づき、ポリヌクレオチド内(例えば、その少なくとも一部が異なるPOIをコードするポリヌクレオチドのライブラリー内)のタンパク質コード領域を同定するための方法を提供する。いくつかの実施形態では、本開示は、ショートリード配列決定を使用して、特定のタンパク質コード領域を含むポリヌクレオチド又は細胞を同定することができるように、タンパク質コード領域をそのようなバーコードの1つ又は複数と対形成させる方法を提供する。いくつかの実施形態では、本開示は、タンパク質コード領域(例えば、好ましくはPOIをコードする)を1つ又は複数の短いバーコード(例えば、第1及び第2のバーコード)と対形成させ、これにより、1つ又は複数の短いバーコードのみを配列決定することによってコード領域が同定できる方法を提供する。いくつかの実施形態では、1つのバーコードを配列決定することができる。いくつかの実施形態では、複数のバーコードを配列決定することができる。いくつかの実施形態では、本開示は、ショートリード配列決定(すなわち、約600ヌクレオチド未満;例えば、ショートリード「次世代配列決定」(「NGS」)を使用)を用いてタンパク質コード領域を同定する方法を提供し、これにより、ポリヌクレオチドタンパク質コード領域は、最初に短いポリヌクレオチドバーコードと対形成して単一のポリヌクレオチドとなり、次いで、ロングリード配列決定(すなわち、約600ヌクレオチド超;例えば、ロングリードNGS)を使用した特定のタンパク質コード領域と対形成されていると同定され、ポリヌクレオチドはその後、必ずしもポリヌクレオチドのタンパク質コード領域全体を配列決定することなく、1つ又は複数のポリヌクレオチドバーコード(いくつかの好ましい実施形態では、第2の(ランダム化された)バーコードのみ)のショートリード配列決定(例えば、約600ヌクレオチド未満、例えば、約100、150、200、250、300、350、400、450、500又は550ヌクレオチドのいずれかであるが、これらに限定されない)によって同定することができる。
【0011】
[0020] 本明細書に開示されるポリヌクレオチドは、少なくとも第1及び第2のバーコードを含む。「バーコード」は、本開示のポリヌクレオチド内に含有される特定のポリヌクレオチド配列である。第1のバーコード(「同義」又は「SynBC」又は「コドンシャッフリング」とも呼ばれる)は、POIをコードするポリヌクレオチドのタンパク質コード領域に組み込まれ、第2のバーコード(すなわち、「ランダム化された」バーコード)は、同じポリヌクレオチドのタンパク質コード領域の外側に組み込まれる。好ましくは、ポリヌクレオチドの群(例えば、ポリヌクレオチドライブラリー)の各メンバーは、異なる第1及び第2のバーコードを含むが、最も好ましくは、少なくとも異なる第2のバーコードを含む。第1のバーコードは、参照配列(本明細書のいくつかの実施形態では「SynBC」と呼ばれる;例えば、野生型(例えば、天然に存在する)又は親ポリヌクレオチド(「参照」ポリヌクレオチド)によってコードされるPOIと比較して「サイレント」であり、これは、サイレント又はサイレントでなくてもよい野生型ポリヌクレオチドとの1つ又は複数のヌクレオチドの相違を含み得る。「サイレント」変異は、参照配列に対して少なくとも1つのヌクレオチド置換を含み、サイレント変異を含むポリヌクレオチドによってコードされるPOIのアミノ酸配列を変化させない変異である。非サイレント変異は、参照ポリヌクレオチドによってコードされるPOIに対して少なくとも1つのアミノ酸変化をもたらす、参照配列と比較した少なくとも1つのヌクレオチドの相違である。第2のバーコードは、特定の所定のヌクレオチド配列を必ずしも有しないという点で「ランダム」又は「ランダム化」されており(ただし、いくつかの実施形態では、所定の又は設計されたものであり得る)、タンパク質を産生するか、又はPOIをコードするヌクレオチド配列と相互作用する細胞をコードしないか、又はそれによって使用されないため、いずれかの発現及び/又は配列決定が妨げられる(すなわち、干渉される)が、ポリヌクレオチドライブラリーのポリヌクレオチド内の他の第2のバーコードに対して固有である。この第2のバーコードは、約100、90、80、70、60、50、40、30、25、20、15又は10ヌクレオチドのいずれかなどの、任意の適切な長さ(すなわち、ヌクレオチド又は塩基対の数)であり得る。いくつかの好ましい実施形態では、第2のバーコードは、25ヌクレオチド又は塩基対のランダムな非タンパク質コードヌクレオチド配列である(例えば、
図3に例示されるようなN25)。第2のバーコードは、任意の適切な長さであり得るが、好ましくは、少なくとも約10、15、20、25、又は30ヌクレオチド長である。いくつかの実施形態では、第2のバーコードは、当業者が利用可能な任意の技術を使用して、特別に設計することも、ランダムに生成することもできる。
【0012】
[0021] いくつかの実施形態では、関心領域をコードするヌクレオチド配列は、単一の塩基対(又はヌクレオチド)だけが参照配列(例えば、部位飽和変異誘発ライブラリーの他のメンバー)と異なっていてもよく、このような単一塩基対の置換は、ロングリード配列決定プラットフォームでは、そのようなプラットフォームはエラー率が高いため、検出不能であり得る。第1のバーコード(SynBC)は、POIをコードするポリヌクレオチド内に含まれることができ、含まれることが好ましい。いくつかの実施形態では、第1のバーコード(SynBC)は、オープンリーディングフレーム(ORF)の先頭とPOIの関心領域(ROI)をコードするポリヌクレオチド配列との間の、POIをコードするポリヌクレオチド配列内に配置され得る。他の実施形態では、第1のバーコード(SynBC)は、POIの関心領域(ROI)をコードするポリヌクレオチド配列とオープンリーディングフレーム(ORF)の末端との間の、POIをコードするポリヌクレオチド配列内に配置され得る(
図3を参照)。他の実施形態では、第1のバーコード(SynBC)は、POIの関心領域(ROI)内に部分的又は完全に配置することができる。第1のバーコード(SynBC、ポリヌクレオチドのタンパク質コード領域に組み込まれる)は、任意の数のヌクレオチドであり得る。第1のバーコード(SynBC)は、POIをコードする参照ポリヌクレオチド(例えば、野生型、親ポリヌクレオチド、又は参照ポリヌクレオチド)との少なくとも1つのヌクレオチドの相違を含み、その結果、タンパク質コード領域にアミノ酸変化が生じない(すなわち、参照(例えば、親又は「野生型」(例えば、天然に存在する)タンパク質コード領域と比較して)。好ましい実施形態では、第1のバーコードは、タンパク質コード領域の野生型(例えば、天然に存在する)、親、参照、又は他のヌクレオチド配列(本明細書ではこれらを集合的に「参照」配列と呼ぶことができる)との、1~100(例えば、1、5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95又は100のいずれかのおおよそ又はちょうどの値)のヌクレオチドの相違を含む。タンパク質コード領域は、数百又は数千のヌクレオチド(例えば、複数のキロベース(kb))を含むことができ、参照ヌクレオチド配列と比較して1つ又は複数のヌクレオチド変異(例えば、相違)を含むことができ、いくつかの好ましい実施形態ではそれを含み、これにより、POIのアミノ酸配列に変化が導入される(すなわち、「非サイレント」変異)。
【0013】
[0022] タンパク質コード領域の野生型バージョンは、自然界に見出され、参照配列として機能するPOIのバージョンであり得る。親又は参照タンパク質コード領域は、変異バージョンが顕著な類似性を共有するもの、及び/又は由来するもの、又はそうでなければ、ポリヌクレオチドライブラリーのポリヌクレオチドのタンパク質コード領域と類似しているが異なるものであることが当業者によって理解され得るものであり得る。第1のバーコードの少なくとも1つのヌクレオチドの相違は、POIのアミノ酸配列を変化させないが、非サイレント変異をもたらす2つのポリヌクレオチドのタンパク質コード領域における相違の存在又は数にかかわらず、あるポリヌクレオチドにおける1つの第1のバーコードを、別のポリヌクレオチドにおける別の第1のバーコードから区別するために使用することができる。典型的には、第1のバーコードは、特定の配列を有するように特別に設計されており、オリゴヌクレオチドとして合成し、標準的な技術を使用してPOIをコードするポリヌクレオチドに組み込むことができる。いくつかの好ましい実施形態では、ROI(1つ又は複数の非サイレント変異を含有し得る)及び第1のバーコードは、単一のオリゴヌクレオチドとして合成し、標準的な技術を使用して第2の(ランダム化された)バーコードをコードするポリヌクレオチドに組み込むことができる。いくつかの実施形態では、第1のバーコード及び第2の(ランダム化された)バーコードは、単一のオリゴヌクレオチドとして合成し、標準的な技術を使用してPOIをコードするポリヌクレオチドに組み込むことができる。
【0014】
[0023] 好ましい実施形態では、本開示の(例えば、ポリヌクレオチドライブラリーの)ポリヌクレオチドは、参照(例えば、ポリヌクレオチドによってコードされるPOIが由来するか、又はそれに基づく野生型、親配列)又は他のPOIと比較して、POIの少なくとも1つのアミノ酸残基を変更する特定の「非サイレント」変異をそれぞれ含むPOIの少なくとも2つ以上のバージョンをコードして、ROIを提供する。同義バーコード(SynBC)(最初のバーコード)の形式で、少なくとも1つのサイレント変異(アミノ酸残基の変化をもたらさない)を追加すると、例えば、ポリヌクレオチド合成の段階で推定上同一の表現型を有する実験的複製を確立し、本開示のポリヌクレオチド構築物及び方法によって提供される固有の第1及び第2のバーコードマッピングを使用して、下流のデータ分析においてそれぞれを個別に追跡すること、又はヌクレオチドレベルでは非常に類似しているため、精度の高いDNA配列決定を使用しない限り分離が困難であり、ヌクレオチドレベルではより多様であるため、精度の低いDNAシークエンシングでも容易に分離できる、POIのバージョンをいくつか作成することなどの多くの実用的な用途に有用である。このような少なくとも1つの非サイレント変異は、POIの関心領域(ROI)で作製することができ、好ましくは作製される(例えば、
図3を参照)。このような変異は、例えば、限定されないが、1つ又は複数のアミノ酸の置換、欠失、付加などであり得る。1つ又は複数の変異は、DNA合成又はDNAオリゴヌクレオチド(「オリゴ」)合成を含むがこれらに限定されない、当業者が利用可能な任意の技術によって親ポリヌクレオチドに導入することができる。「部位飽和変異誘発」(SSM)、アラニンスキャニング変異誘発、完全に定義された変異誘発、及び/又はランダムな変異誘発を含むがこれらに限定されない、このような技術、特に、DNAオリゴ合成は、1つ又は複数のアミノ酸が異なるPOIをコードするポリヌクレオチドのライブラリーを調製するために使用できる。第1のバーコードに含まれる少なくとも1つのサイレント変異は、野生型、親、又は他のバージョンのタンパク質コード領域(それぞれが「参照」配列であり得る)と比較した、タンパク質コード領域のアミノ酸変化をコードしない。
【0015】
[0024] 好ましい実施形態では、少なくとも1つの第2のバーコード(又は第2の(ランダム化された)バーコード)は、ポリヌクレオチドのタンパク質コード領域の外側、好ましくは上流(5’)に位置し、任意の数のヌクレオチド及び任意のポリヌクレオチドであり得る。例えば、第2の(ランダム化された)バーコードは、約5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、又はそれを超えるヌクレオチドのいずれかであり得、いくつかの好ましい実施形態では、約25ヌクレオチド長(本明細書では「N25」と呼ぶ)。好ましい実施形態では、ポリヌクレオチドの各メンバーの第2の(ランダム化された)バーコードは、ポリヌクレオチドのメンバー間の第2の(ランダム化された)バーコードの配列の重複を避けるために、好ましくは、他の第2の(ランダム化された)バーコードとは十分に異なるヌクレオチド配列を有する。したがって、第2の(ランダム化された)バーコードは、ロングリード又はショートリード配列決定によって第2の(ランダム化された)バーコードと第1のバーコード(SynBC)の間で対形成が確立されたら、第2の(ランダム化された)バーコードを配列決定することで目的のポリヌクレオチドを同定できるように、ヌクレオチドの任意の配列を含むことができ、好ましくは、一方を他方から区別するために互いに十分に固有のものである。したがって、ポリヌクレオチドライブラリーは、数十、数百、数千、数百万、数千万、数億、又は数十億のPOIをコードすることができ、それぞれが異なる第1の(SynBC)バーコード及び/又は第2の(ランダム化された)バーコードに関連付けられる。
【0016】
[0025] 本開示のポリヌクレオチドは、第1のバーコード(SynBC)及び第2の(ランダム化された)バーコードの両方を含む(例えば、
図3を参照)。第1のバーコード(SynBC)は、ポリヌクレオチドのタンパク質コード領域内の任意の位置に配置できる。例えば、第1のバーコードは、ポリヌクレオチドのタンパク質コード領域の5’(例えば、N末端)又は3’(例えば、C末端)末端に位置することができる。第2の(ランダム化された)バーコードは、ポリヌクレオチドのタンパク質コード領域の外側のポリヌクレオチドの任意の位置に配置することができる。バーコードは、任意選択により、ポリヌクレオチド内で互いに約600ヌクレオチド以下の範囲内に配置することができる。以下で考察するように、第1及び第2のバーコードをポリヌクレオチド内で互いに約600ヌクレオチド以下の範囲内に配置することにより、少なくとも1つの特定のタンパク質コード領域(例えば、特定のタンパク質をコードする)を含む1つ又は複数のポリヌクレオチドを同定するためのショートリードポリヌクレオチド配列決定の使用が提供される。したがって、いくつかの実施形態では、本開示は、タンパク質コード領域、タンパク質コード領域内の少なくとも1つの第1のバーコード(例えば、SynBC)、及びタンパク質コード領域の外側、好ましくはその上流(5’)に位置する、少なくとも1つの第2の(ランダム化された)バーコード(例えば、N25)を含む、ポリヌクレオチドを提供し(例えば、
図3を参照)、ここで、特定のタンパク質コード領域を含むポリヌクレオチドは、少なくとも1つのバーコード、及び/又はいくつかの好ましい実施形態では両方のバーコードの配列によって同定することができる。いくつかの好ましい実施形態では、特定のタンパク質コード領域を含む特定のポリヌクレオチドと、第1(SynBC)及び第2(ランダム化された)のバーコード(すなわち、第2のポリヌクレオチドライブラリーの第2のポリヌクレオチド)との会合(又は対形成)の後、ポリヌクレオチドは、第2の(ランダム化された)バーコードの配列のみによって同定することができる。
【0017】
[0026] POI及び第2のバーコードをコードするポリヌクレオチド構築物の図を
図1に示す。そこに示されるように、第2の(ランダム化された)バーコード(「N25」とラベル付けされる)は、POI(
図1で「POI」とラベル付けされる)のコード配列の外側に位置する。この第2の(ランダム化された)バーコードがPOIのコード配列内に配置されるとすると、POIが破壊されるであろう(例えば、そのアミノ酸配列が変化し、発現及び/又はタンパク質機能に悪影響を及ぼす)。いくつかの実施形態では、POI内の関心領域(「ROI」)は、好ましくは第1のバーコードを含み得、さらに、POIのアミノ酸配列に影響を及ぼし得る変異(非サイレント変異)を含み得る。[
図2]異なるROIと、少なくとも1つの異なる第2の(ランダム化された)バーコード(それぞれがその中でN25として示されている)とをそれぞれが含む、POIのライブラリーを示す。ROIは、POI全体から構成されてもよく、POIより小さくてもよい(例えば、約10、20、30、40、50、60、70、80、又は90%のアミノ酸残基のいずれか)。第1のバーコード(SynBC)をコードするヌクレオチドは、任意選択により、第2の(ランダム化された)バーコードの約600ヌクレオチド以内に位置してもよい。しかし、これは、ポリヌクレオチドのロングリード配列決定に従う場合などには必要ではない。なぜなら、そのような実施形態では、第2の(ランダム化された)バーコードは、特定のPOI及び/又はROIに事前に関連付けられており、その特定のポリヌクレオチドを同定又は検出するために配列決定を必要とする唯一のバーコードであり得るからである。
図3は、POIの1つの位置にROIを含み、POIの異なる位置に第1のバーコードを含み(「SynBC」と標識)、したがっていずれもPOI内にあり、POIコード領域の外側に第2の(ランダム化された)バーコード(「N25」とラベル付け)を含む、POIをコードする本開示の好ましい実施形態の例示的なポリヌクレオチドを示す。
図3に示される例におけるものなどの、いくつかの実施形態では、ヌクレオチドの介在セクションは、第2のバーコード(例えば、N25)とPOIをコードするヌクレオチドとの間に存在し得る。このような介在配列は、例えば、POIの発現若しくは第1及び第2のバーコードの配列決定に悪影響を及ぼすタンパク質をコードしないプロモーター若しくはサイレント結合配列、又は他の適切な配列などの、任意の適切な配列であり得るが、これらに限定されない。このような構築物は、特定のPOI及び/又はROIをコードするポリヌクレオチドを同定するために必要な、より短い配列リードを提供し得る。例えば、好ましい実施形態では、
図3に示すように、第1及び第2のバーコード(例えば、N25及びSynBC)のみが配列である必要がある。
図3に示されるタイプなどの本開示のポリヌクレオチドは、バリアント間の配列距離を大幅に増加させ、低品質の配列データのより良好な処理を可能にする。例えば、POI及び/又はROIバリアントは、ROI内の1部位の平均と比較して、バーコード構築物中で平均10ヌクレオチド(例えば、
図3に示す第1のバーコード(SynBC)のおかげで)異なり得る(例えば、必要な変化及び/又は唯一の変化がROI内に見られる場合)。
【0018】
[0027] いくつかの好ましい実施形態では、本開示は、特定の目的タンパク質(「POI」)をコードするタンパク質コード領域を含むポリヌクレオチドライブラリーのメンバーを同定するために、第1(SynBC)及び/又は第2(ランダム化)のバーコードを調製及び/又は使用する方法を提供する。好ましい実施形態では、本開示は、a)少なくとも1つのタンパク質コード領域を含む複数のポリヌクレオチドを含む第1のポリヌクレオチドライブラリーを合成するステップであって、各タンパク質コード領域が、第1のバーコードを提供する少なくとも1つのサイレント変異をさらに含む、ステップ;b)第1のポリヌクレオチドライブラリーの各ポリヌクレオチドを少なくとも1つの第2の(ランダム化された)バーコードとランダムに対形成して、第2のポリヌクレオチドライブラリーを生成するステップ;c)ロングリードヌクレオチド配列決定(例えば、ロングリード次世代配列決定)によって第2のポリヌクレオチドライブラリーのポリヌクレオチドを配列決定するステップ;及びd)各第2の(ランダム化された)バーコードをタンパク質コード領域にマッピング及び/又は関連付けるステップ、を含む方法を提供し、ここで、第2のポリヌクレオチドライブラリーのポリヌクレオチドは、ランダム化されたバーコードのみを配列決定することによって同定することができる。ステップc)及びd)(すなわち、ロングリード次世代配列決定によって第2のポリヌクレオチドライブラリーのポリヌクレオチドを配列決定するステップ;及び各第2の(ランダム化された)バーコードをタンパク質コード領域にマッピングするステップ)において、特定のタンパク質コード領域を含むポリヌクレオチド内に含有されるものとして同定されたため、第2のポリヌクレオチドライブラリーのポリヌクレオチドは、ランダム化されたバーコードのみを配列決定することによって同定することができ、これは、本質的に同時又は同時ではなく、及び/又は同じ又は異なるシステム(例えば、物理的システム及び/又はソフトウェアシステム)を使用して実施できる。
【0019】
[0028] 好ましい実施形態では、本開示の方法は、そのバーコードのうちの少なくとも1つ、好ましくは第2の(ランダム化された)バーコードのみを配列決定することによって、特定のタンパク質コード配列をコードするポリヌクレオチドを同定することを含む(又はそれからなる)、方法を提供する。いくつかの好ましい実施形態では、本開示の方法は、第1のバーコード及び第2の(ランダム化された)バーコードを配列決定することを含む(又はそれからなる)。いくつかの好ましい実施形態では、第1のバーコード及び/又は第2の(ランダム化された)バーコードは、ショートリード配列決定、さらにより好ましくはショートリードNGSによって配列決定される。いくつかの好ましい実施形態では、第1のバーコードと第2の(ランダム化された)バーコードは、ポリヌクレオチドライブラリーのポリヌクレオチド上で約600未満のヌクレオチドによって分離される。いくつかの実施形態では、ステップc)の配列決定は、タンパク質コード領域(例えば、第1のバーコードが配列決定される領域)を部分的に配列決定することを含む。いくつかの実施形態では、ステップc)の配列決定は、(例えば、ロングリード配列決定を使用して)タンパク質コード領域を完全に配列決定することを含む。
【0020】
[0029] いくつかの実施形態では、本開示は、少なくとも1つの変異及び第1のバーコード(例えば、SynBC)を含む、少なくとも1つのタンパク質コード領域;並びにタンパク質コード領域の外側に配置された第2の(ランダム化された)バーコード(例えば、N25)を含む、ポリヌクレオチドを含む、ポリヌクレオチドライブラリーを提供する。好ましい実施形態では、第1の(SynBC)バーコード及び第2の(ランダム化された)バーコードは、ポリヌクレオチド上で互いから約600ヌクレオチド以内に位置する。好ましい実施形態では、バーコードをポリヌクレオチド内で互いに約600ヌクレオチド以内に配置することにより、ショートリード配列決定を使用して、バーコードを配列決定することによって特定のPOIをコードするポリヌクレオチドを同定する能力が提供される。
【0021】
[0030] いくつかの実施形態では、本開示はまた、本明細書に開示されるように調製された特定の第2の(ランダム化された)バーコードを含むポリヌクレオチドを、当業者が利用可能な標準的なポリヌクレオチド同定法を使用して、細胞内で、又は細胞溶解物から同定することによって、ポリヌクレオチドを含む細胞からの特定のPOIの同一性を決定することを含む方法を提供する。いくつかの実施形態では、本開示のポリヌクレオチドを含む細胞は二倍体であり得、細胞内で、又は細胞溶解物から、少なくとも2つの第2の(ランダム化された)バーコードを識別することによって同定でき、そのそれぞれは、二倍体細胞を形成した第1及び第2の一倍体細胞のうちの1つに由来する。いくつかの実施形態では、2つの第2の(ランダム化された)バーコードの同定は、第1の一倍体細胞に含まれるタンパク質コード領域によってコードされるタンパク質が、第2の一倍体細胞のタンパク質コード領域によってコードされるタンパク質と相互作用することを示す。いくつかの実施形態では、ポリヌクレオチドライブラリーのポリヌクレオチド上のloxP部位の組換えと、第1及び第2の一倍体細胞におけるCREリコンビナーゼの発現によって、2つの第2の(ランダム化された)バーコードが関連付ける(例えば、結合、接続、及び/又は連結する)ことができる。いくつかの実施形態では、第1及び第2の一倍体細胞は酵母細胞であり、任意選択により、それぞれMat a細胞及びMat α細胞である。いくつかの実施形態では、第1のタンパク質結合パートナーのポリヌクレオチドライブラリーを第2のタンパク質結合パートナーのライブラリーに対してアッセイして、結合親和性を有する目的タンパク質を同定することができる。このような実施形態で使用されるアッセイは、酵母ツーハイブリッドシステム、AlphaSeqシステム(又は酵母合成凝集システム)、又は別の並列ハイスループットライブラリー別スクリーニング方法であってもよい。AlphaSeq法は、米国特許第10,988,759 B2号に記載されており、その全内容は、全ての目的のために本開示に組み込まれる。
【0022】
[0031] いくつかの実施形態では、ロングリード配列決定プラットフォームを使用して、目的タンパク質(POI)をコードするヌクレオチド配列の外側にある合成ユーザー指定のバーコード配列(例えば、第2の(ランダム化)バーコード)目的タンパク質(POI)をコードするヌクレオチド配列(好ましい実施形態では、第1のバーコード/SynBC(例えば、
図3を参照)を含む)、及び目的タンパク質を有する関心領域(ROI)をコードするヌクレオチド配列(POI)(例えば、目的の変異)を含む構築物の一部が配列決定され得る。使用できるロングリード配列決定プラットフォームには、例えば、Oxford Nanopore Technologies(ONT)のMinION、GridION、若しくはPromethIONプラットフォーム、又はPacific BiosciencesのSequel System単一分子リアルタイム(SMRT)プラットフォームが含まれるが、これらに限定されない。ONT及びSMRTリードの精度はそれぞれのプラットフォームの最近のバージョンで向上しているが、ONT及びSMRT技術はいずれも、ショートリード配列決定(例えば、Illumina配列決定プラットフォームなどであるがこれに限定されない)よりもリードあたりの精度が低くなる(Amarasinghe, S.L., Su, S., Dong, X. et al.Opportunities and challenges in long-read sequencing data analysis. Genome Biol 21, 30 (2020))。リードを参照配列にマッピングするには、リードごとの精度が約95%あれば許容できるかもしれないが、そのレベルの精度は、多くの場合、目的のタンパク質(POI)をコードするヌクレオチド配列の外側に位置する固有のユーザー指定の合成バーコード(例えば、
図3に示すような、N25とラベル付けされた第2のバーコード)に、変異体/変異ポリヌクレオチドのライブラリーの他のメンバー(例えば、部位飽和変異誘発ライブラリーのメンバー)とは単一の塩基対(又はヌクレオチド)だけが異なる可能性がある目的タンパク質(POI)をコードするヌクレオチド配列のリードを割り当てるには十分ではない。POIをコードするヌクレオチド配列内の関心領域(ROI)がORFの先頭(又は第1のヌクレオチド)から約1キロベース(kb)を超えて離れている場合、ロングリード配列決定プラットフォームは、目的タンパク質をコードするヌクレオチド配列を通して、さらに、関心領域(ROI)をコードするヌクレオチド配列を通して、目的タンパク質(POI)をコードするヌクレオチド配列の外側にあるユーザー指定の合成ヌクレオチドバーコード(すなわち、第2のランダム化されたバーコード)の位置から配列決定することを要し得る。いくつかの実施形態では、第1のバーコード(SynBC)は、POIをコードするポリヌクレオチドのオープンリーディングフレーム(ORF)に中の1つ、2つ、3つ、4つ、5つ、6つ、7つ、8つ、9つ、10、又はそれを超えるコドン内に、1つ、2つ、3つ、4つ、5つ、6つ、7つ、8つ、9つ、10、又はそれを超える「同義」(それによってコードされるアミノ酸配列が、参照配列と比較して変化しないことを意味する)単一ヌクレオチド置換を含み得る。上述のように、第1のバーコード(SynBC)をポリヌクレオチドに導入した結果、目的タンパク質のアミノ酸配列は変化しないままであるが、任意の2つのバリアント目的タンパク質をコードするヌクレオチド配列間のDNA配列距離(すなわち、配列多様性の程度)は、SynBCがない場合に存在する適度なDNA配列距離と比較して大幅に増加する。ライブラリー内の任意の2つのバリアント目的タンパク質をコードするヌクレオチド配列間の配列多様性のこの増加により、好ましくは第2の(ランダム化された)バーコードと組み合わせて使用した場合、エラーが発生しやすいロングリード配列決定プラットフォームを使用して、分解能の向上が可能になる。
【0023】
[0032] 一実施形態では、同義バーコード(SynBC)及び関心領域(ROI)は、単一のDNA分子として、すなわち、単一の合成オリゴヌクレオチドとして合成され得る。同義バーコード(SynBC)及び関心領域(ROI)は、ユーザー設計され、当技術分野で周知であり市販されている任意の数の商業的オリゴヌクレオチド合成法によって合成されてもよい。
【0024】
[0033] いくつかの実施形態では、本開示は、修飾されたアミノ酸配列を含む目的タンパク質をコードする第1のポリヌクレオチドを含む細胞(一倍体又は二倍体)を同定するための方法を提供し、この方法は、第1のポリヌクレオチド内に位置する第1のバーコード、及び第1のポリヌクレオチドの外側に配置される第2の(ランダム化された)バーコードを含む第2のポリヌクレオチドを配列決定することを含む。いくつかの実施形態では、第2のポリヌクレオチドは、それぞれが一倍体細胞に由来するバーコードの少なくとも1つの組み合わせを含み得る(例えば、各一倍体細胞は、第1のバーコード(SynBC)及び第2の(ランダム化された)バーコードを含んでいた)。
【0025】
[0034] いくつかの実施形態では、本開示は、相互作用するタンパク質を同定するための方法を提供し、この方法は、それぞれ、第1又は第2のPOIをそれぞれコードする少なくとも1つの外因性コード配列と、各外因性コード配列内の少なくとも1つの第1のバーコードとを含み、各細胞が外因性コード配列の外側に少なくとも1つの第2の(ランダム化された)バーコードをさらに含む、第1及び第2の一倍体酵母細胞を共培養することを含み、ここで、第1及び第2の一倍体酵母細胞の交配は、第1及び第2タンパク質が相互作用することを示し、方法は、バーコードを配列決定することによって第1及び第2タンパク質を同定することをさらに含む。いくつかのそのような実施形態では、一倍体細胞のそれぞれに由来するバーコードは、第1及び第2のタンパク質を同定するために配列決定される単一のポリヌクレオチドに組み換えられる。いくつかのそのような実施形態では、本開示は、a)第1の一倍体酵母株(例えば、Mat a)と第2の一倍体酵母株(例えば、Mat α)を共培養することであって、第1の一倍体酵母株は、少なくとも第1及び第2の合成ポリヌクレオチドバーコード(SynBC)を含む第1のポリヌクレオチド、第1のlox P部位、及び細胞表面上に発現される第1の目的タンパク質(POI)(例えば、抗原(Ag))をコードする第1のコード配列を含み;第2の一倍体酵母株は、第3及び第4のSynBCを含む第2のポリヌクレオチド、第2のlox P部位、及び細胞表面上に発現される第2のPOI(例えば、抗体(ab))をコードする第2のコード配列を含み;第1及び第3のSynBCは、それぞれ第1及び第2のコード配列の外側に位置し(例えば、N25);第2及び第4のSynBCは、それぞれ第1及び第2のコード配列内に位置し(例えば、Mat aのAg及びMat αのAb)、第1又は第2の一倍体酵母株の1つは、CREリコンビナーゼに作動可能に連結された誘導性プロモーターを含む発現カセットを含み、第1又は第2の一倍体酵母株の他方は、CREの発現を誘導するための誘導性プロモーターを誘導できるリガンドを構成的に発現し;第1及び第2の一倍体酵母株は、相補的な選択マーカーを含み;第1及び第2のタンパク質は潜在的な結合パートナーであること;b)二倍体細胞を選択すること;c)二倍体細胞においてCREリコンビナーゼの発現を誘導し、第1及び第2のloxP部位を介して組換えを引き起こし、第1及び第3のSynBC又は第2及び第4のSynBCを含む標的ポリヌクレオチドを産生すること;d)第1及び第3のSynBC並びに第2及び第4のSynBCを配列決定することであって、二倍体細胞の第1及び第3のSynBC並びに第2及び第4のSynBCの配列決定は、第1及び第2のタンパク質が結合パートナーであることを示すことを含む方法を提供する。
【0026】
[0035] いくつかの実施形態では、本開示は、少なくとも1つのPOIをコードする少なくとも1つの外因性コード配列、外因性コード配列内に位置する少なくとも1つの第1のバーコード(SynBC)、及び外因性コード配列の外側に位置する少なくとも1つの第2の合成バーコードを含む、細胞(例えば、一倍体酵母細胞)を提供する。
【0027】
[0036] いくつかの実施形態では、本開示は、本明細書に開示されるポリヌクレオチドの組み合わせを提供し、この組み合わせは、複数種のポリヌクレオチドを含み、各種は、異なるランダム化されたバーコード(例えば、N25(例えば、
図3を参照))、及びPOIをコードするポリヌクレオチド内の少なくとも1つの異なる第1のバーコード(SynBC)を含む。いくつかのそのような実施形態では、ポリヌクレオチドは、少なくとも1つの変異を含む少なくとも1つのROIを含むPOIをコードする少なくとも1つのオープンリーディングフレーム(ORF);ORFの上流(5’)又は下流(3’)の少なくとも1つのランダム化されたバーコード;ORF内にあり、少なくとも1つのランダム化されたバーコードの上流(5’)又は下流(3’)に位置する、少なくとも1つの第1のポリヌクレオチドバーコード(SynBC)を含む。好ましい実施形態では、少なくとも1つの第1のポリヌクレオチドバーコード(SynBC)及び第2の(ランダム化された)バーコードは、ポリヌクレオチド上で互いに約600ヌクレオチド以内にある。好ましい実施形態では、第2の(ランダム化された)バーコードはランダムに生成される。いくつかの実施形態では、ポリヌクレオチドの少なくとも一部又は全ては、ORFによってコードされる野生型又は親タンパク質をコードするヌクレオチド配列にコドン変異を含み、ここで、コドン変異はPOIのアミノ酸配列を変化させない。他の実施形態では、ポリヌクレオチドの少なくとも一部又は全ては、ORFによってコードされる野生型又は親タンパク質をコードするヌクレオチド配列にコドン変異を含み、ここで、コドン変異はPOIのアミノ酸配列を変化させる。いくつかの実施形態では、第1のバーコード(SynBC)は、ランダム化されたバーコードとROIをコードするポリヌクレオチドとの間に位置する。いくつかの実施形態では、第1のバーコード(SynBC)は、ROIをコードするポリヌクレオチド内に位置する。いくつかの実施形態では、ORFは5’末端及び3’末端を含み、ROI、第1のバーコード、及び/又は第2の(ランダム化された)バーコードは、ポリヌクレオチドの3’末端よりも5’末端の近くに位置する。いくつかの実施形態では、本開示は、複数種のポリヌクレオチドの組み合わせを提供し、各種は、異なる25ヌクレオチドの第2のバーコード(又は他の適切な長さの第2のバーコード)及び少なくとも1つの異なる第1のバーコード(SynBC)を含む。いくつかの実施形態では、そのような組み合わせは、ROIの複数種の変異バリアントを含み得る。いくつかの実施形態では、本開示は、1つ又は複数のそのようなポリヌクレオチド及び/又はそれらの組み合わせを含む、細胞、又は細胞の組み合わせを提供する。
【0028】
[0037] いくつかの実施形態では、そのような細胞は酵母細胞である。いくつかの実施形態では、そのような細胞は細胞表面を含み、その上にPOIを提示することができる。いくつかの実施形態では、バーコードがマッピングされ、ランダムなバーコードがタンパク質コードバリアント(例えば、特定の変異を有するPOI)と関連付けられると、ユーザーは、ショートリードNGSを使用してAlphaSeqアッセイを実施し、互いに結合したタンパク質を同定すること(例えば、上記の米国特許第10,988,759 B2号に記載されているように);ショートリードNGSを使用してファージパンから濃縮された抗体を同定すること;及び/又は少なくとも部分的に合成されたライブラリーからタンパク質バリアントを同定するためにショートリード配列決定を使用することが有益であると考えられる他のタンパク質工学/分子生物学アッセイを実施すること(無細胞又は細胞(例えば、哺乳類、酵母、細菌、昆虫、又は他の種類の細胞)を使用)が可能となる。いくつかの実施形態では、POIは短くてもよく(例えば、50アミノ酸残基未満のペプチド)、POI全体がSynBCとして合成される。そして、いくつかの実施形態では、POIが長い(例えば、1000アミノ酸残基を超える)場合など、ROIを合成し、POIの残りの部分をコードするポリヌクレオチドにクローン化することができる。当業者には理解されるように、他の実施形態も本開示によって企図される。
【0029】
[0038] 本開示は、いくつかの実施形態では、少なくとも1つの変異を含む、少なくとも1つのタンパク質コード領域(又はタンパク質コード領域内の関心領域)を含む複数のポリヌクレオチドを含む第1のポリヌクレオチドライブラリーを合成することであって、各タンパク質コード領域が、第1のバーコードを提供する少なくとも1つのサイレント変異をさらに含むこと;第1のポリヌクレオチドライブラリーの各ポリヌクレオチドを少なくとも1つの第2の(ランダム化された)バーコードとランダムに対形成して、第2のポリヌクレオチドライブラリーを生成すること;任意選択によりロングリード次世代配列決定によって、第2のポリヌクレオチドライブラリーのポリヌクレオチドを配列決定すること;及び各第2の(ランダム化された)バーコードをタンパク質コード領域にマッピングすることを含む方法を提供し、ここで、第2のポリヌクレオチドライブラリーのポリヌクレオチドは、ランダム化されたバーコードのみを配列決定することによって同定することができる。いくつかの実施形態では、方法は、第2の(ランダム化された)バーコードを配列決定することを含む。いくつかの実施形態では、方法は、特定のタンパク質コード配列をコードするポリヌクレオチドを、その第2の(ランダム化された)バーコードを配列決定することによって同定することを含む。いくつかの実施形態では、方法は、第1のバーコード及び第2の(ランダム化された)バーコードを配列決定することを含む。いくつかの実施形態では、方法は、ショートリード次世代配列決定によって第1のバーコード及び/又は第2の(ランダム化された)バーコードを配列決定することを含む。いくつかの実施形態では、第1のバーコードと第2の(ランダム化された)バーコードは、ポリヌクレオチド上で約300を超えるヌクレオチドによって分離される。
【0030】
[0039] いくつかの実施形態では、方法は、タンパク質コード領域を部分的に配列決定することを含む。いくつかの実施形態では、方法は、タンパク質コード領域を完全に配列決定することを含む。いくつかの実施形態では、第1のバーコードは、タンパク質コード領域の野生型、親又は参照配列との1~100ヌクレオチドの相違を含む。いくつかの実施形態では、第1のバーコードにおける全て又は大半の、好ましくは全ての変異は、表現型的にサイレントである。いくつかの実施形態では、変異は表現型的にサイレントではない。いくつかの実施形態では、方法は、細胞内で特定の第2の(ランダム化された)バーコードを同定することによって、特定のタンパク質コード領域をコードするポリヌクレオチドを含む細胞を単離することを含む。いくつかの実施形態では、細胞は二倍体であり、細胞内で少なくとも2つの第2の(ランダム化された)バーコードを同定することによって同定され、そのそれぞれは、二倍体細胞を形成した第1及び第2の一倍体細胞のうちの1つに由来する。
【0031】
[0040] いくつかの実施形態では、方法は、2つの第2の(ランダム化された)バーコードの同定を含んで、第1の一倍体細胞に含まれるタンパク質コード領域によってコードされるタンパク質が、第2の一倍体細胞のタンパク質コード領域によってコードされるタンパク質と相互作用することを示す。いくつかの実施形態では、方法は、ポリヌクレオチドライブラリーのポリヌクレオチド上のloxP部位の組換えと、第1及び第2の一倍体細胞におけるCREリコンビナーゼの発現によって、2つの第2の(ランダム化された)バーコードが関連付けられることを含む。いくつかの実施形態では、第1及び第2の一倍体細胞は酵母細胞であり、任意選択により、それぞれMat a細胞及びMat α細胞である。
【0032】
[0041] いくつかの実施形態では、本開示は、少なくとも1つの変異及び第1のバーコードを含む、少なくとも1つのタンパク質コード領域;並びにタンパク質コード領域の外側に配置された第2の(ランダム化された)バーコードを含む、ポリヌクレオチドを含む、1つ又は複数のポリヌクレオチドライブラリーを提供するか、及び/又はそれを含む。いくつかの実施形態では、ポリヌクレオチドライブラリーのポリヌクレオチドは、第1のバーコード及び第2の(ランダム化された)バーコードを含み、ポリヌクレオチド上で互いに約600以下のヌクレオチド以内に位置する。いくつかの実施形態では、ライブラリーのポリヌクレオチドは、少なくとも1つの変異及び第1のバーコードを含む、少なくとも1つのタンパク質コード領域;並びにタンパク質コード領域の外側に配置された第2の(ランダム化された)バーコードを含む。いくつかの実施形態では、第1のバーコード及び第2の(ランダム化された)バーコードは、互いから約600ヌクレオチド以内に位置する。
【0033】
[0042] 当業者には理解されるように、他の態様(又は実施形態)も本開示によって企図される。
【0034】
[0043] したがって、好ましい実施形態では、本開示は、a)複数の第1のポリヌクレオチドを含む第1のポリヌクレオチドライブラリーを合成することであって、それぞれが少なくとも1つのタンパク質コード領域を含むか、及び/又はタンパク質コード領域内の少なくとも1つの関心領域をコードし、各第1のポリヌクレオチドは、独立して、任意選択により、タンパク質コード領域及び/又は関心領域の参照配列に関する1つ又は複数の非サイレント変異を含み、少なくとも1つの第1のポリヌクレオチドは、参照配列に関して少なくとも1つのサイレント変異を含むタンパク質コード領域又は関心領域をコードし、所与のタンパク質コード領域及び/又は関心領域における少なくとも1つのサイレント変異又はサイレント変異の組み合わせが第1のバーコードを提供すること;b)少なくとも1つの第1のポリヌクレオチドを固有の第2のランダム化されたバーコードヌクレオチド配列とランダムに対形成して、第2のポリヌクレオチドから構成される第2のポリヌクレオチドライブラリーを生成すること;c)第2のポリヌクレオチド、又は少なくともその第1のバーコード及び第2のランダム化されたバーコードを配列決定すること;及びd)各第2のランダム化されたバーコードを、第1のポリヌクレオチドのタンパク質コード領域及び/又は関心領域にマッピングすることを含む方法を提供し、ここで、第2のポリヌクレオチドライブラリーのポリヌクレオチドは、ランダム化されたバーコードのみを配列決定することによって同定することができる。各第1のポリヌクレオチドを少なくとも1つ(最も好ましくは1つ)の第2のランダム化されたバーコードヌクレオチド配列と「ランダムに対形成」して、第2のポリヌクレオチドから構成される第2のポリヌクレオチドライブラリーを生成することは、標準的なライゲーション技術、ポリメラーゼ連鎖反応(PCR)などを使用した、ライゲーション、結合、組み合わせ、連結、及び/又は連結したポリヌクレオチドの生成を含むがこれらに限定されない、ポリヌクレオチドを互いに連結するための当技術分野で公知の任意の方法によって達成することができる。好ましい実施形態では、「ランダムに対形成すること」は、この方法が、特定の第1のポリヌクレオチドを特定の第2のランダム化バーコードと対形成することを要しないことを意味する。「固有の第2のランダム化されたバーコードヌクレオチド配列」という用語は、各第1のポリヌクレオチド、又はそれを含む細胞が、第2のランダム化されたバーコードヌクレオチド配列(SynBCを有する又は有しない)を配列決定することによって同定できるように、特定のPOI(特定のROI及びSynBCを含む)をコードする各第1のポリヌクレオチドが、その特定のPOIをコードする他の第1のポリヌクレオチドと比較して固有である、第2のランダム化されたバーコードヌクレオチド配列と対形成されることを意味する。いくつかのそのような好ましい実施形態では、第2のポリヌクレオチドは、ロングリード次世代配列決定によって配列決定することができる。いくつかのそのような好ましい実施形態では、第2の(すなわち、ランダム化された)バーコードは、ショートリード次世代配列決定を使用して配列決定される。いくつかのそのような好ましい実施形態では、方法は、特定のタンパク質コード配列をコードするポリヌクレオチド(好ましくは、POIをコードするポリヌクレオチド)を、その第2の(ランダム化された)バーコードを配列決定することによって同定することを含み得る。いくつかのそのような好ましい実施形態では、方法は、第2のランダム化されたバーコードを配列決定することによって、1つ又は複数のタンパク質コード配列をコードするポリヌクレオチドの同一性及び相対存在量を決定することを含む。いくつかのそのような好ましい実施形態では、第1のバーコード及び/又は第2の(ランダム化された)バーコードは、Illuminaプラットフォームなどのショートリード次世代配列決定によって配列決定することができる。いくつかのそのような好ましい実施形態では、第2のポリヌクレオチドライブラリーのポリヌクレオチドは、約300を超えるヌクレオチドによって分離された第1のバーコード及び第2の(ランダム化された)バーコードを含有する。いくつかのそのような好ましい実施形態では、第2のポリヌクレオチドライブラリーのポリヌクレオチド内に含有される第1のバーコードと第2の(ランダム化された)バーコードの両方が、ナノポア又はPacBio配列決定などのロングリード次世代配列決定によって配列決定される。いくつかのそのような好ましい実施形態では、第2のポリヌクレオチドライブラリーのポリヌクレオチドは、約600未満のヌクレオチドによって分離された第1のバーコード及び第2の(ランダム化された)バーコードを含有する。いくつかのそのような好ましい実施形態では、第2のポリヌクレオチドライブラリーのポリヌクレオチド内に含有される第1のバーコードと第2の(ランダム化された)バーコードの両方が、Illumina配列決定などのショートリード次世代配列決定によって配列決定される。いくつかのそのような好ましい実施形態では、第1のポリヌクレオチドライブラリーは、参照タンパク質配列に関して単一のアミノ酸変異を有するタンパク質をコードするタンパク質コード領域を含有する1つ又は複数のポリヌクレオチドを含有する。いくつかのそのような好ましい実施形態では、第1のポリヌクレオチドライブラリーからの1つ又は複数のポリヌクレオチドは、単一の核酸置換から生じる単一の非サイレント変異を含む。いくつかのそのような好ましい実施形態では、第1のバーコードは3つ以上のサイレント変異を含む。いくつかのそのような好ましい実施形態では、第1のポリヌクレオチドライブラリーからの1つ又は複数のポリヌクレオチドは、サイレント変異をコードする参照タンパク質配列に関して、非サイレント変異をコードする参照タンパク質配列に関する核酸変異の数と比較して、より多くの核酸変異を含有する。いくつかのそのような好ましい実施形態では、第2のポリヌクレオチドライブラリーからの2つ以上のポリヌクレオチドは、参照タンパク質配列に関して同一の非サイレント変異を含むが、同一のアミノ酸配列をコードする(すなわち、生物学的複製として機能する)2つの分子が、第2のバーコードの配列決定によって同定されるように、異なる第2のバーコードを含む。いくつかのそのような好ましい実施形態では、1つ又は複数の細胞内の1つ又は複数のタンパク質コード領域は、1つ又は複数の第2のバーコードを配列決定することによって同定される。いくつかのそのような好ましい実施形態では、1つ又は複数の細胞内の2つのタンパク質コード領域は、同じ細胞内に含有される2つの第2のバーコードを配列決定することによって同定される。いくつかのそのような好ましい実施形態では、細胞は酵母二倍体細胞である。いくつかのそのような好ましい実施形態では、酵母二倍体細胞は、それぞれが1つの第2のバーコードを含む2つの酵母一倍体細胞の交配を通じて産生される。当業者には理解されるように、他の実施形態も本開示によって企図される。
【0035】
[0044] 別段の定義がない限り、本明細書で使用される全ての技術的及び科学的用語は、本発明が属する技術分野の当業者によって一般的に理解されるものと同じ意味を有する。本明細書で言及される全ての刊行物は、ここに記載される発明に関連して使用され得る、デバイス、方法、及び細胞集団を記載及び開示する目的で、参照により組み込まれる。
【0036】
[0045] 明細書全体での「一実施形態(one embodiment)」又は「実施形態(an embodiment)」への言及は、実施形態に関連して説明される特定の特徴、構造、又は特性が、開示される主題の少なくとも一実施形態に含まれることを意味する。したがって、本明細書全体の様々な箇所における「一実施形態(one embodiment)において」又は「実施形態(a embodiment)において」という語句の出現は、必ずしも同じ実施形態を指しているとは限らない。さらに、特定の特徴、構造、又は特性は、1つ又は複数の実施形態において任意の適切な方法で組み合わせられ得る。さらに、開示された内容の実施形態は、その修正及び変形をカバーすることが意図されている。
【0037】
[0046] 本明細書及び添付の特許請求の範囲で使用される場合、単数形「a」、「an」、及び「the」は、文脈上別段の明示がない限り、複数の指示対象を含むことに注意しなければならない。すなわち、別段の明示的な指定がない限り、本明細書で使用される「a」、「an」、「the」などの単語は、「1つ又は複数」の意味を有する。さらに、本明細書で使用され得る「左」、「右」、「上」、「下」、「前」、「後」、「横」、「高さ」、「長さ」、「幅」、「上部」、「下部」、「内部」、「外部」、「内側」、「外側」などの用語は、参照点を説明するに過ぎず、必ずしも本開示の実施形態を特定の向き又は構成に限定するものではないことを理解されたい。さらに、「第1の」、「第2の」、「第3の」などの用語は、本明細書に開示される多数の部分、構成要素、ステップ、操作、機能、及び/又は参照点のうちの1つを特定するに過ぎず、同様に、必ずしも本開示の実施形態を特定の構成又は向きに限定するものではない。さらに、用語「およそ」、「約」、「近似」、「軽微な変動」、及び同様の用語は、一般に、特定の実施形態において、20%、10%、又は好ましくは5%のマージン内に特定された値を含む範囲、及びその間の任意の値を指す。
【0038】
[0047] 一実施形態に関連して説明される全ての機能は、明示的に述べられている場合、又は特徴若しくは機能が追加の実施形態と適合性でない場合を除いて、以下に説明される追加の実施形態に適用可能であることを意図している。例えば、所望の特徴又は機能が一実施形態に関連して明示的に記載されているが、代替の実施形態に関連して明示的に言及されていない場合、本発明者らは、特徴又は機能が代替的実施形態と適合性でない場合を除き、代替的実施形態に関連してその特徴又は機能を展開、利用、又は実装できることを意図していることを理解されたい。
【0039】
[0048] 本明細書に記載される技術の実践は、別段の指示がない限り、有機化学、高分子技術、分子生物学(組換え技術を含む)、細胞生物学、細胞培養、生化学、及び配列決定技術の従来の技術及び説明を採用してもよく、これらは当業者の技術範囲内である。そのような従来の技術には、細菌、真菌、及び哺乳動物の細胞培養技術及びスクリーニングアッセイが含まれる。本明細書の例を参照することにより、適切な技術の具体的な実例を得ることができる。しかし、もちろん、他の同等の従来の手順も使用することができる。そのような従来の技術及び説明は、Green, et al., Eds.(1999), Genome Analysis:A Laboratory Manual Series (Vols. I-IV);Weiner, Gabriel, Stephens, Eds.(2007), Genetic Variation:A Laboratory Manual;Dieffenbach, Dveksler, Eds.(2003), PCR Primer:A Laboratory Manual;Bowtell and Sambrook (2003), DNA Microarrays:A Molecular Cloning Manual;Mount (2004), Bioinformatics:Sequence and Genome Analysis;Sambrook and Russell (2006), Condensed Protocols from Molecular Cloning:A Laboratory Manual;及びSambrook and Russell (2002), Molecular Cloning:A Laboratory Manual (all from Cold Spring Harbor Laboratory Press);Stryer, L.(1995) Biochemistry (4th Ed.) W.H.Freeman, New York N.Y.;Gait, “Oligonucleotide Synthesis:A Practical Approach” 1984, IRL Press, London;Nelson and Cox (2000), Lehninger, Principles of Biochemistry 3rd Ed., W. H.Freeman Pub., New York, N.Y.;Berg et al.(2002) Biochemistry, 5th Ed., W.H.Freeman Pub., New York, N.Y.などの標準的な実験マニュアルに見出すことができ、これら全ては、全ての目的のために参照によりその全体が本明細書に組み込まれる。
【0040】
[0049] 本明細書で使用される「相補的」という用語は、ヌクレオチド間のワトソン・クリック塩基対形成を指し、具体的には、2つの水素結合によってアデニン残基に結合されたチミン又はウラシル残基、並びに3つの水素結合によって結合されたシトシン及びグアニン残基によって相互に水素結合されたヌクレオチドを指す。一般に、核酸は、特定の第2のヌクレオチド配列に対して「パーセント相補性」又は「パーセント相同性」を有すると記載されるヌクレオチド配列を含む。例えば、ヌクレオチド配列は、特定の第2のヌクレオチド配列に対して80%、90%、又は100%の相補性を有し、これは、配列の10個中8個、10個中9個、又は10個中10個のヌクレオチドが特定の第2のヌクレオチド配列に相補的であることを示す。例えば、ヌクレオチド配列3’-TCGA-5’は、ヌクレオチド配列5’-AGCT-3’と100%相補的であり;ヌクレオチド配列3’-TCGA-5’は、ヌクレオチド配列5’-TTAGCTGG-3’の領域と100%相補的である。「相同性」又は「同一性」又は「類似性」は、2つのペプチド間、又は本開示の文脈においてより頻繁には、2つの核酸分子間の、配列類似性を指す。「相同領域」又は「相同アーム」という用語は、標的ゲノムDNA配列とある程度の相同性を有するドナーDNA上の領域を指す。相同性は、比較のためにアラインされ得る各配列の位置を比較することによって決定することができる。比較された配列の位置が同じ塩基又はアミノ酸に占められている場合、分子はその位置で相同である。配列間の相同性の程度は、配列が共有する、一致する又は相同な位置の数の関数である。本明細書で使用される場合、「ベクター」という用語は、細胞に送達され、及び/又は細胞内で発現される、所望の配列を含む様々な核酸のいずれかである。ベクターは典型的にはDNAで構成されるが、RNAベクターも利用できる。ベクターには、とりわけ、プラスミド、フォスミド、ファージミド、ウイルスゲノム、BAC、YAC、PAC、合成染色体などが含まれるが、これらに限定されない。「作動可能に連結された」とは、要素、例えば、バーコード配列、遺伝子発現カセット、コード配列、プロモーター、エンハンサー、転写因子結合部位の配置を指し、そのように記載された構成要素は、それらの通常の機能を実施するように構成されている。したがって、コード配列に作動可能に連結された制御配列は、コード配列の転写、場合によっては翻訳を行う又は制御することができる。制御配列は、コード配列の発現を指示するように機能する限り、コード配列と連続している必要はない。したがって、例えば、介在性の未翻訳であるが転写された配列は、プロモーター配列とコード配列との間に存在することができ、プロモーター配列は、依然としてコード配列に「作動可能に連結されている」とみなすことができる。実際、そのような配列は、同じ連続したDNA分子(例えば、染色体)に存在する必要はなく、依然として、調節の変更を生じる相互作用を有し得る。
【0041】
[0050] アミノ酸は、当技術分野で知られているように、標準的な一文字の略語で表され、コドンによってコードされてもよく、以下の表1に示すものが挙げられるが、これらに限定されない。
【0042】
【0043】
[0051] 本明細書で使用される「選択マーカー」という用語は、人為的選択に適した形質を付与する、細胞に導入された遺伝子を指す。一般的な使用の選択マーカーは、当業者に周知である。アンピシリン/カルベニシリン、カナマイシン、クロラムフェニコール、エリスロマイシン、テトラサイクリン、ゲンタマイシン、ブレオマイシン、ストレプトマイシン、ピューロマイシン、ハイグロマイシン、ブラストサイジン、及びG418などの薬物選択マーカーが使用され得る。選択マーカーはまた、栄養要求性選択可能マーカーであってもよく、ここで、選択される細胞株は、必須栄養素を合成できなくする変異を保有する。そのような株は、欠乏している必須栄養素が成長培地に供給された場合にのみ成長する。例えば、酵母変異株の必須アミノ酸栄養要求性選択は、一般的であり、当技術分野で周知である。本明細書で使用される「選択培地」は、選択マーカーについて、又は選択マーカーに対して選択する化合物又は生物学的部分が添加された細胞成長培地、又は必須栄養素が欠乏し、栄養要求性株に対して選択する培地を指す。
【0044】
[0052] 本明細書で使用される場合、「親和性」は、単一の生体分子とそのリガンド又は結合パートナーとの間の結合相互作用の強度である。親和性は通常、平衡解離定数KDを使用して測定及び説明される。KD値が低いほど、タンパク質とその結合パートナーとの間の親和性が高くなる。親和性は、結合パートナー間の水素結合、静電相互作用、疎水性力及びファンデルワールス力によって、又は結合アゴニスト又はアンタゴニストなどの他の分子の存在によって影響を受ける可能性がある。
【0045】
[0053] 本明細書で使用される場合、「部位飽和変異誘発」(SSM)は、タンパク質工学及び分子生物学で使用される変異誘発技術を指し、ここで、コドン又はコドンのセットは、ポリペプチド内の位置において殆ど又は全ての可能なアミノ酸で置換される。SSMは、1つのコドン、いくつかのコドン、又はタンパク質内の全ての位置に対して実施され得る。その結果、ポリペプチドの1つ、いくつか、又は全てのアミノ酸位置で可能なアミノ酸の完全又はほぼ完全な相補体を表す変異タンパク質のライブラリーが得られる。タンパク質のフォールディング又は機能に望ましくない影響を与え得る、システインなどの特定のアミノ酸が、部位飽和変異(SSM)ライブラリーから除外されることもある。
【0046】
[0054] 本明細書で使用される場合、「サイレント変異」又は「同義置換」は、目的のヌクレオチド配列(例えば、ポリヌクレオチド)のコード領域における、目的のヌクレオチド配列(例えば、目的タンパク質(POI)をコードする)によってコードされるアミノ酸配列が、修飾されないような、あるヌクレオチド塩基の別のヌクレオチド塩基への置換を指す。
【0047】
[0055] いくつかの実施形態では、同義バーコード(第1のバーコード又はSynBC)を目的タンパク質のオープンリーディングフレームに導入して、変異原性ライブラリーの個々のメンバー間に配列多様性を導入し、ハイスループットアッセイによってライブラリーにつき生成された配列データの下流プロセス中に、変異原性ライブラリーのメンバーの同定及びデコンボリューションを提供することができる。遺伝コードの縮重的性質により、翻訳されたポリペプチドのアミノ酸配列を変更することなく、目的タンパク質をコードするオープンリーディングフレームのDNA配列に1つ又は複数の単一ヌクレオチド置換が導入され得る。例えば、「Met-Ala-Glu…」をコードする仮定上のDNA配列「ATG GCC GAA…」は、「Met-Ala-Glu」をコードしたまま「ATG GCA GAA…」に変更され得る。第2のコドンの第3の位置でのアデニンからシトシンへの単一ヌクレオチド置換は、同義であり、したがって「サイレント」置換である。いくつかの実施形態では、サイレント置換は、目的タンパク質をコードするORF中の1つ、2つ、3つ、4つ、5つ、6つ、7つ、8つ、9つ、10、又はそれを超えるコドンに導入され得る。元のコドンに応じて、いくつかの実施形態では、1つ、2つ、3つ、4つ、又は5つの同義置換がORFのDNA配列に導入され得、各固有の置換又は置換の組み合わせは、変異原性ライブラリーのメンバーに対応する。
【0048】
[0056] 当業者には理解されるように、他の実施形態も本明細書で企図される。
【実施例】
【0049】
実施例
[0057] 以下の実施例は、当業者に本明細書で提供される実施形態の完全な開示及び使用方法の説明を提供するために提示されるものであり、開示の範囲を限定することを意図したものではなく、また、以下の実施例が必ずしも全ての実験ではないか、又は実施された唯一の実験ではないことを表すことを意図したものでもない。使用される数値(例えば、量、温度など)に関する正確性を確保するために努力がなされているが、一部の実験誤差及び偏差は考慮すべきである。別段の指示がない限り、部は体積部であり、温度は摂氏温度である。実施例が説明することを意図している基本的な態様を変更することなく、説明した方法の変形を行うことができることを理解されたい。
【0050】
[0058] 個々のSAPのオープンリーディングフレーム(「ORF」)内の第1のバーコード(SynBC)及びORFの外側の第2のバーコード(第2の(ランダム化された)バーコード)を利用する有効性を評価するために、SAPのライブラリーはSynBCを使用せずに生成され、SAPのライブラリーは、本明細書に開示される方法に従って、SynBCを用いて生成された。各ライブラリーは、関心領域で部位飽和変異誘発(SSM)を使用して生成された目的タンパク質(POI)の数千の変異バリアントを含んでいた。
【0051】
[0059] ポリヌクレオチドの第1の例示的な群は、SARS-CoV-2スパイクタンパク質受容体結合ドメイン(RBD)及びその変異体(AAYL75(SARS-CoV2-RBD SSM))をコードする。
図4~6は、例示的なRBD残基をカバーする部位飽和変異誘発(SSM)ライブラリーの全ての要素の予想されるDNA配列を提供する。
図4~6において、「説明」は変異体名を提供し、「配列」の列は変異体RBDをコードするDNA配列を提供する。全てのアミノ酸変化は、標準的な1文字のアミノ酸記号を使用して示される。例えば、R1Aは、RBDポリペプチドの変異領域内の第1のアミノ酸位置にアルギニン(R)からアラニン(A)への変異(例えば、R1A)を有するSARS-CoV2 RBDをコードする。
【0052】
[0060] ポリヌクレオチドの第2の例示的な群は、血管内皮成長因子A(VEGF-A)(AAYL135(VEGF SSM))をコードする。
図7~8は、VEGF-Aの選択された残基の部位飽和変異誘発(SSM)ライブラリーの全ての要素の予想されるDNA配列を提供する。
図7~8において、「説明」の列は変異体名を提供し、「配列」の列はDNA配列を提供する。全てのアミノ酸変化は、標準的な1文字のアミノ酸記号を使用して示される。例えば、説明のVEGF_F17A_rep0は、17位がフェニルアラニン(F)からアラニン(A)に変異したVEGF-Aの第1の複製(2つのうち)をコードする(つまり、「F17A」で示される)。
【0053】
[0061] ここで示したVEGF-A及びRBDの例などの、単一のアミノ酸変化を有する変異体を含むライブラリーでは、全てのDNA配列が非常に類似しているため、低品質のDNA配列データを使用してバリアントを区別することが困難になる。本明細書に開示される第1のバーコード(SynBC)は、驚くべきことに、そのようなポリヌクレオチドを識別し、それらを第2の(ランダム化された)バーコードと対形成させるユーザーの能力を有意に向上させる。SynBCと変異は、完全に定義された方法で合成されている。そのため、SynBC(多くのヌクレオチドの違いにより他の全てのSynBCとは異なる)を同定することにより、ユーザーは特定の変異バリアントが同定されたと推測することができる。ランダム化されたバーコードはまた、互いに大きく異なるため、ユーザーは所与のSynBCにつき簡単に決定でき、2つのバーコード間の関連付けを簡単に行うことができる。
【0054】
[0062] 第1(SynBC)及び第2(ランダム化された)のバーコードを含むライブラリーについて、各変異バリアントには、POIをコードするORF内の既知の固有のSynBC、及びPOIをコードするORF外部の第2の(ランダム化された)バーコードが割り当てられた。インサート合成及びライブラリー構築後、ロングリード次世代配列決定(MinIONプラットフォーム、Oxford Nanopore Technologies)を使用して、各ライブラリー(すなわち、第1(SynBC)及び第2(ランダム化された)のバーコードを有する及び有しない)を配列決定した。POIをコードするORFのシーケンスリードを予想されるPOI配列に合わせてアライメントし、BLASTNツールを使用してアライメントをスコア化した(Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J.(1990) “Basic local alignment search tool.” J. Mol. Biol. 215:403-410)。
図9及び10は、それぞれ、第1の(SynBC)バーコードを有する及び有しない(「コドンシャッフリングなし」として示す)POI配列に加え、第2の(ランダム化された)バーコードを含むシーケンスリードのヒストグラムプロットを示す。シーケンスリードは、予想されるPOI配列のセットに対する各シーケンスリードに対する最良の一致と2番目に良好な一致の間のBLASTNスコアの差によってビニングされる。BLASTNスコアの差が低いことは、ライブラリーメンバー間の配列の相違が限られていることと、ロングリード配列決定プラットフォームの配列決定エラーの割合が比較的高いため、シーケンスリード間の区別が困難又は不可能であることを示す。高いBLASTNスコアは、POI構築物のシーケンスリードが同定可能であり、個々のPOIがその固有の第2の(ランダム化された)バーコードと明確に対形成し得ることを示す。SynBCバーコードがない場合、多くのPOI配列はほぼ同一であり、配列決定エラーにより、シーケンスリードのほぼ50%が2つ以上の予想されるPOIシーケンス、すなわちシーケンスリードから等しく離れているため役に立たなくなり、したがって、特定の第2の(ランダム化された)バーコードは、個々のPOIに割り当てることができない。原データを以下の表2及び3に示す。バーコードにより、シーケンスリードの90%超が固有のPOIに明確に割り当てられ得る。SynBCバーコードを有しないランダムバーコードの34%、及びSynBCバーコードを有するランダムバーコードの56%で、高度に確からしいバーコードとPOIの関連性(特定の第2の(ランダムな)バーコードを含む様々なシーケンスリード間で95%を超える一致)が見られる。
【0055】
【0056】
【0057】
[0063] 特定の実施形態を好ましい実施形態に関して説明してきたが、当業者であれば変形及び修正を思いつくであろうことが理解される。したがって、添付の特許請求の範囲は、以下の範囲内にある全ての均等な変形を包含することが意図される。
【手続補正書】
【提出日】2023-01-17
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
a)複数の第1のポリヌクレオチドを含む第1のポリヌクレオチドライブラリーを合成することであって、第1のポリヌクレオチドのそれぞれが少なくとも1つのタンパク質コード領域を含むか、及び/又はタンパク質コード領域内の少なくとも1つの関心領域をコードし、各第1のポリヌクレオチドは、独立して、任意選択により、前記タンパク質コード領域及び/又は関心領域の参照配列に関する1つ又は複数の非サイレント変異を含み、少なくとも1つの前記第1のポリヌクレオチドは、参照配列に関して少なくとも1つのサイレント変異を含む前記タンパク質コード領域又は関心領域をコードし、所与のタンパク質コード領域及び/又は関心領域における前記少なくとも1つのサイレント変異又はサイレント変異の組み合わせが第1のバーコードを提供する、合成すること;
b)各第1のポリヌクレオチドを固有の第2のランダム化されたバーコードヌクレオチド配列とランダムに対形成して、第2のポリヌクレオチドから構成される第2のポリヌクレオチドライブラリーを生成すること;
c)前記第2のポリヌクレオチド、又は少なくともその前記第1のバーコード及び第2のランダム化されたバーコードを配列決定すること;及び
d)各第2のランダム化されたバーコードを、第1のポリヌクレオチドのタンパク質コード領域及び/又は関心領域にマッピングすること
を含む方法であって、前記第2のポリヌクレオチドライブラリーのポリヌクレオチドは、前記第2のランダム化されたバーコードのみを配列決定することによって同定することができる、方法。
【請求項2】
前記第2のポリヌクレオチドが、ロングリード次世代配列決定によって配列決定される、請求項1に記載の方法。
【請求項3】
前記第2のバーコードが、ショートリード次世代配列決定を使用して配列決定される、請求項1に記載の方法。
【請求項4】
前記第2のランダム化されたバーコードを配列決定することによって、1つ又は複数のタンパク質コード配列をコードするポリヌクレオチドの同一性及び相対存在量を決定することをさらに含む、請求項1に記載の方法。
【請求項5】
前記第2のポリヌクレオチドライブラリーの前記ポリヌクレオチドが、約300を超えるヌクレオチドによって分離された第1のバーコード及び第2のバーコードを含有する、請求項1に記載の方法。
【請求項6】
前記第2のポリヌクレオチドライブラリーの前記ポリヌクレオチドが、約600未満のヌクレオチドによって分離された第1のバーコード及び第2のバーコードを含有する、請求項1に記載の方法。
【請求項7】
前記第2のポリヌクレオチドライブラリーの前記ポリヌクレオチド内に含有される前記第1のバーコードと前記第2の(ランダム化された)バーコードの両方が、ショートリード次世代配列決定によって配列決定される、請求項6に記載の方法。
【請求項8】
前記第2のポリヌクレオチドライブラリーの各ポリヌクレオチド内に含有される前記第1及び第2のバーコードの両方が、ロングリード次世代配列決定によって配列決定される、請求項1に記載の方法。
【請求項9】
前記第1のポリヌクレオチドライブラリーが、参照タンパク質配列に関して単一のアミノ酸変異を有するタンパク質をコードするタンパク質コード領域を含有する1つ又は複数のポリヌクレオチドを含有する、請求項1に記載の方法。
【請求項10】
前記第1のポリヌクレオチドライブラリーからの1つ又は複数のポリヌクレオチドが、単一の核酸置換から生じる単一の非サイレント変異を含む、請求項9に記載の方法。
【請求項11】
前記第1のバーコードが、3つ以上のサイレント変異を含む、請求項1に記載の方法。
【請求項12】
前記第1のポリヌクレオチドライブラリーからの1つ又は複数のポリヌクレオチドが、参照タンパク質配列に関して、前記参照タンパク質配列に関する非サイレント核酸変異の数と比較して、より多くのサイレント変異を含有する、請求項1に記載の方法。
【請求項13】
前記第2のポリヌクレオチドライブラリーからの2つ以上のポリヌクレオチドが、参照タンパク質配列に関して同一の非サイレント変異を含むが、同一のアミノ酸配列をコードする2つの分子が、第2のバーコードの配列決定によって同定されるように、異なる第2のバーコードを含む、請求項1に記載の方法。
【請求項14】
1つ又は複数の細胞内の1つ又は複数のタンパク質コード領域が、1つ又は複数の第2のバーコードを配列決定することによって同定される、請求項1に記載の方法。
【請求項15】
1つ又は複数の細胞内の2つのタンパク質コード領域が、同じ細胞内に含有される2つの第2のバーコードを配列決定することによって同定される、請求項14に記載の方法。
【請求項16】
前記細胞が、酵母二倍体細胞である、請求項15に記載の方法。
【請求項17】
前記酵母二倍体細胞が、それぞれが1つの第2のバーコードを含む2つの酵母一倍体細胞の交配を通じて産生された、請求項16に記載の方法。
【国際調査報告】