(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-10
(45)【発行日】2024-12-18
(54)【発明の名称】収束抗体特異性配列パターンの識別
(51)【国際特許分類】
G16B 30/10 20190101AFI20241211BHJP
G16B 40/20 20190101ALI20241211BHJP
C07K 16/08 20060101ALI20241211BHJP
C07K 16/12 20060101ALI20241211BHJP
C07K 16/14 20060101ALI20241211BHJP
C12N 15/13 20060101ALI20241211BHJP
C12N 1/15 20060101ALI20241211BHJP
C12N 1/19 20060101ALI20241211BHJP
C12N 1/21 20060101ALI20241211BHJP
C12N 5/10 20060101ALI20241211BHJP
【FI】
G16B30/10
G16B40/20
C07K16/08
C07K16/12
C07K16/14
C12N15/13
C12N1/15
C12N1/19
C12N1/21
C12N5/10
(21)【出願番号】P 2021561675
(86)(22)【出願日】2020-05-02
(86)【国際出願番号】 IB2020054171
(87)【国際公開番号】W WO2020225693
(87)【国際公開日】2020-11-12
【審査請求日】2023-04-28
(32)【優先日】2019-05-03
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】519146639
【氏名又は名称】エーテーハー チューリッヒ
【氏名又は名称原語表記】ETH ZURICH
(74)【代理人】
【識別番号】100102978
【氏名又は名称】清水 初志
(74)【代理人】
【識別番号】100160923
【氏名又は名称】山口 裕孝
(74)【代理人】
【識別番号】100119507
【氏名又は名称】刑部 俊
(74)【代理人】
【識別番号】100142929
【氏名又は名称】井上 隆一
(74)【代理人】
【識別番号】100148699
【氏名又は名称】佐藤 利光
(74)【代理人】
【識別番号】100128048
【氏名又は名称】新見 浩一
(74)【代理人】
【識別番号】100129506
【氏名又は名称】小林 智彦
(74)【代理人】
【識別番号】100205707
【氏名又は名称】小寺 秀紀
(74)【代理人】
【識別番号】100114340
【氏名又は名称】大関 雅人
(74)【代理人】
【識別番号】100121072
【氏名又は名称】川本 和弥
(72)【発明者】
【氏名】フリーデンソン シモン
(72)【発明者】
【氏名】レッディ サイ
【審査官】藤原 拓也
(56)【参考文献】
【文献】特開2012-097107(JP,A)
【文献】中国特許出願公開第108138244(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
C07K 16/08
C07K 16/12
C07K 16/14
C12N 15/13
C12N 1/15
C12N 1/19
C12N 1/21
C12N 5/10
(57)【特許請求の範囲】
【請求項1】
複数の抗原結合分子の抗原結合部分を表す複数の入力アミノ酸配列を候補識別システムに提供する工程と、
前記候補識別システムによって実行されるエンコーダによって、前記複数の入力アミノ酸配列を潜在空間に変換する工程と、
前記候補識別システムによって実行されるクラスタリングエンジンによって、前記潜在空間内の複数の配列クラスタを判定する工程と、
前記クラスタリングエンジンによって、収束クラスタを識別する工程と、
前記候補識別システムによって実行される候補生成エンジンによって、前記収束クラスタによって画定された前記潜在空間内のサンプルを選択する工程と、
前記潜在空間内の前記サンプルに基づいて、デコーダを使用して前記候補生成エンジンによって、候補アミノ酸配列を生成する工程と、を含む、方法。
【請求項2】
前記抗原結合分子が、抗体、またはその抗原結合断片である、請求項1に記載の方法。
【請求項3】
前記抗原結合分子が、キメラ抗原受容体である、請求項1に記載の方法。
【請求項4】
前記複数の入力アミノ酸配列が、1つ以上の相補性決定領域(CDR)を含む、請求項1~3のいずれか一項に記載の方法。
【請求項5】
前記複数の入力アミノ酸配列が、以下の1つ以上のアミノ酸配列を含む、請求項1~4のいずれか一項に記載の方法:
(a)重鎖相補性決定領域3(CDRH3)配列、
(b)重鎖相補性決定領域1(CDRH1)配列、
(c)重鎖相補性決定領域2(CDRH2)配列、
(d)軽鎖相補性決定領域1(CDRL1)配列、
(e)軽鎖相補性決定領域2(CDRL2)配列、および/または
(f)軽鎖相補性決定領域3(CDRL3)配列。
【請求項6】
前記複数の入力アミノ酸配列が、
(a)全長重鎖、またはその抗原結合部分、および/または
(b)全長軽鎖、またはその抗原結合部分
を含む、請求項4または5に記載の方法。
【請求項7】
(a)前記デコーダが、複数の長期短期再帰ニューラルネットワークを含み、かつ、
(b)前記候補配列を生成する工程が、前記サンプルを前記複数の長期短期再帰ニューラルネットワークの各々に提供することをさらに含む、
請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記複数の入力アミノ酸配列を前記潜在空間に変換する工程が、前記複数の入力アミノ酸配列を変分深埋め込み(VaDE)を用いて前記潜在空間に変換することをさらに含む、請求項1~7のいずれか一項に記載の方法。
【請求項9】
前記複数の配列クラスタを判定する工程が、混合モデリングを用いて前記複数の配列クラスタを判定することをさらに含む、請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記混合モデリングが、ガウス混合モデリング(GMM)を含む、請求項9に記載の方法。
【請求項11】
プロセッサ実行可能命令を格納するメモリと、
1つ以上のプロセッサと
を含み、
前記1つ以上のプロセッサは、
前記1つ以上のプロセッサによって実行されるエンコーダによって、抗体の抗原結合部分を表す複数の入力アミノ酸配列を受信し、
前記エンコーダによって、前記複数の入力アミノ酸配列を潜在空間に変換し、
前記1つ以上のプロセッサによって実行されるクラスタリングエンジンによって、前記潜在空間内の複数の配列クラスタを判定し、
前記クラスタリングエンジンによって、収束クラスタを識別し、
前記1つ以上のプロセッサによって実行される候補生成エンジンによって、前記収束クラスタによって画定された前記潜在空間内のサンプルを選択し、
前記潜在空間内の前記サンプルに基づいて、前記候補生成エンジンによって、候補配列を生成する、システム。
【請求項12】
(a)前記候補生成エンジンが、複数の長期短期再帰ニューラルネットワークを有するデコーダを含む、
(b)前記エンコーダが変分深埋め込み(VaDE)を用いて前記複数の入力アミノ酸配列を前記潜在空間に変換する、および/または
(c)前記クラスタリングエンジンがガウス混合モデリング(GMM)を用いて前記複数の配列クラスタを判定する、
請求項11に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2019年5月3日に出願された米国特許出願第62/843,010号の優先権を主張し、参照によりその全体が本明細書に組み込まれる。
【背景技術】
【0002】
開示の背景
抗体レパートリの深層配列決定は、免疫学、免疫診断、および薬物発見プロセスにおいて使用することができる。これらの大規模なデータセットの中から関連する情報を特定することは、依然として困難である。その中心的な問題は、抗原曝露が異なる個体において、どの程度まで抗体の配列が収束的に選択されるかということである。
【発明の概要】
【0003】
本解決策により、深層生成モデリングアプローチである変分オートエンコーダ(VAE)を使用して、抗原に曝露された対象を含む哺乳動物対象の免疫レパートリから有意な表現を提供することができる。本明細書において、免疫化マウスの抗体レパートリへのこの手法の適用を実証する例示的なデータが提供される。本システムは、抗体レパートリを低次元潜在空間にマッピングすることができ、これにより大量の収束配列パターンが明らかになる。本システムは、線形分類器および変分オートエンコーダ(VAE)と混合モデルとの組み合わせを使用して、抗原曝露を予測する収束クラスタに存在するパターンを識別することができる。一部の実施形態では、本システムは、変分深埋め込み(VaDE)の使用をさらに含む。一部の実施形態では、混合モデルは、ガウス混合モデルである。本システムはまた、線形分類器およびVAE、続いて潜在空間における別個のクラスタリングステップを用いて、抗原曝露を予測する収束クラスタに存在するパターンを識別することができる。次いで、収束した抗体配列は、組換え抗体発現系において(例えば、哺乳類ディスプレイ系における全長IgGとして)発現され得、フローサイトメトリおよび酵素結合免疫吸着アッセイ(ELISA)などの技術を使用して、抗原特異的であることが実証され得る。本システムは、インシリコで数千の新規かつ機能的な変異体を生成することによって、収束配列空間を解明することもできる。
【0004】
本開示の少なくとも1つの態様によれば、方法は、候補識別システムに、抗体の抗原結合部分を表す複数の入力アミノ酸配列を提供することを含むことができる。方法は、候補識別システムによって実行されるエンコーダによって、複数の入力アミノ酸配列を潜在空間に変換することを含むことができる。方法は、候補識別システムによって実行されるクラスタリングエンジンによって、潜在空間内の複数の配列クラスタを判定することを含むことができる。方法は、クラスタリングエンジンによって、収束クラスタを識別することを含むことができる。方法は、候補識別システムによって実行される候補生成エンジンによって、収束クラスタによって画定される潜在空間内のサンプルを選択することを含むことができる。方法は、潜在空間内のサンプルに基づいて、デコーダを使用して候補生成エンジンによって、候補配列を生成することを含むことができる。
【0005】
一部の実装形態では、デコーダは、複数の長期短期再帰ニューラルネットワークを含むことができ、候補配列を生成することは、サンプルを複数の長期短期再帰ニューラルネットワークの各々に提供することを含むことができる。一部の実装形態では、複数の入力アミノ酸配列を潜在空間に変換することは、複数の入力アミノ酸配列を線形分類器および変分オートエンコーダと混合モデルとの組み合わせを用いて潜在空間に変換することを含むことができる。一部の実装形態では、本システムは、変分深埋め込み(VaDE)を使用することができる。一部の実装形態では、本システムは、1つ以上の高密度層または長期短期メモリ層を使用することができる。複数の配列クラスタを判定することは、ガウス混合モデリング(GMM)などの混合モデルを用いて複数の配列クラスタを判定することをさらに含む。
【0006】
一部の実装形態では、本システムは、プロセッサ実行可能命令を格納するメモリおよび1つ以上のプロセッサを含むことができる。本システムは、1つ以上のプロセッサによって実行されるエンコーダによって、抗体の抗原結合部分を表す複数の入力アミノ酸配列を受信することができる。本システムは、エンコーダによって、複数の入力アミノ酸配列を潜在空間に変換することができる。本システムは、1つ以上のプロセッサによって実行されるクラスタリングエンジンによって、潜在空間内の複数の配列クラスタを判定することができる。本システムは、クラスタリングエンジンによって、収束クラスタを識別することができる。本システムは、1つ以上のプロセッサによって実行される候補生成エンジンによって、収束クラスタによって画定された潜在空間内のサンプルを選択することができる。本システムは、潜在空間内のサンプルに基づいて、候補生成エンジンによって、候補配列を生成することができる。
【0007】
一部の実装形態では、候補生成エンジンは、複数の長期短期再帰ニューラルネットワークを有するデコーダを含むことができる。エンコーダは、複数の入力アミノ酸配列を線形分類器および変分オートエンコーダと混合エモデルとの組み合わせを用いて潜在空間に変換することができる。一部の実装形態では、本システムは、変分深埋め込み(VaDE)を使用することができる。クラスタリングエンジンは、GMMなどの混合モデルを用いて複数の配列クラスタを判定することができる。
【0008】
入力アミノ酸配列は、ヒトおよび非ヒト動物を含む任意の哺乳類対象に由来し得る。入力アミノ酸配列は、健康な対象または疾患もしくは状態(例えば、病原性感染症、癌、自己免疫疾患、アレルギー反応、または炎症)を有する対象に由来し得る。入力アミノ酸配列は、過去に抗原に曝露した対象に由来し得る。入力アミノ酸配列は、過去に疾患または状態(例えば、病原性感染、癌、自己免疫疾患、アレルギー反応、炎症、または炎症性疾患)を有する健康な対象に由来し得る。入力アミノ酸配列は、免疫化された対象、例えば、ワクチンを受けた対象に由来し得る。
【0009】
入力アミノ酸配列は、抗体の任意の抗原結合部分を含むことができる。一部の実施形態では、入力アミノ酸配列は、1つ以上の相補性決定領域(CDR)を含む。一部の実施形態では、入力アミノ酸配列は、1つ以上の重鎖CDR、例えばCDRH1、CDRH2、CDRH3、またはこれらの任意の組み合わせを含む。一部の実施形態では、入力アミノ酸配列は、1つ以上の軽鎖CDR、例えばCDRH1、CDRH2、CDRH3、またはこれらの任意の組み合わせを含む。一部の実施形態では、入力アミノ酸配列は、1つ以上の重鎖CDRおよび1つ以上の重鎖CDRを含む。一部の実施形態では、入力アミノ酸配列は、重鎖および/または軽鎖可変領域の1つ以上のフレームワーク領域を含む。一部の実施形態では、入力アミノ酸配列は、全長重鎖可変領域を含む。一部の実施形態では、入力アミノ酸配列は、全長軽鎖可変領域を含む。一部の実施形態では、入力アミノ酸配列は、重鎖および/または軽鎖の1つ以上の定常領域を含む。一部の実施形態では、入力アミノ酸配列は、全長重鎖またはその抗原結合部分を含む。一部の実施形態では、入力アミノ酸配列は、全長軽鎖またはその抗原結合部分を含む。
【0010】
本明細書で提供される方法によって生成されるアミノ酸配列を含むタンパク質またはペプチドもまた、本明細書で提供される。一部の実施形態では、生成されたアミノ酸配列は、抗体の重鎖もしくは軽鎖、またはその任意の部分である。一部の実施形態では、生成されたアミノ酸配列は、1つ以上の相補性決定領域(CDR)を含む。一部の実施形態では、生成されたアミノ酸配列は、CDRH1、CDRH2、CDRH3、またはそれらの任意の組み合わせを含む。一部の実施形態では、生成されたアミノ酸配列は、CDRL1、CDRL2、CDRL3、またはこれらの任意の組み合わせを含む。一部の実施形態では、本明細書で生成されるアミノ酸配列を含むタンパク質またはペプチドは、抗体またはその断片である。一部の実施形態では、本明細書で生成されるアミノ酸配列を含むタンパク質またはペプチドは、全長抗体である。一部の実施形態では、本明細書で生成されるアミノ酸配列を含むタンパク質またはペプチドは、抗体の1つ以上の部分を含む融合タンパク質である。一部の実施形態では、本明細書で生成されるアミノ酸配列を含むタンパク質またはペプチドは、scFvまたはFc融合タンパク質である。一部の実施形態では、本明細書で生成されるアミノ酸配列を含むタンパク質またはペプチドは、キメラ抗原受容体である。一部の実施形態では、本明細書で生成されるアミノ酸配列を含むタンパク質またはペプチドは、組換えタンパク質である。一部の実施形態では、本明細書で生成されるアミノ酸配列を含むタンパク質またはペプチドは、抗原に結合する。一部の実施形態では、抗原は、疾患または状態と関連付けられる。一部の実施形態では、抗原は、腫瘍抗原、炎症性抗原、病原性抗原(例えば、ウイルス、細菌、酵母、寄生虫)である。一部の実施形態では、本明細書で生成されたアミノ酸配列を含むタンパク質またはペプチドは、入力アミノ酸配列を含むタンパク質またはペプチドと比較して、1つ以上の改善された特性を有する。一部の実施形態では、本明細書で生成されるアミノ酸配列を含むタンパク質またはペプチドは、入力アミノ酸配列を含むタンパク質またはペプチドと比較して、抗原に対する改善された親和性を有する。一部の実施形態では、本明細書で生成されるアミノ酸配列を含むタンパク質またはペプチドは、炎症性疾患、感染性疾患、癌、遺伝子障害、臓器移植拒絶反応、自己免疫疾患、または免疫障害を治療するために投与することができる。一部の実施形態では、本明細書で生成されるアミノ酸配列を含むタンパク質またはペプチドは、炎症性疾患、感染性疾患、癌、遺伝子障害、臓器移植拒絶反応、自己免疫疾患、および免疫障害を治療するための薬剤の製造に使用することができる。本明細書で生成されるアミノ酸配列を含む1つ以上のタンパク質またはペプチドを含む細胞もまた、本明細書に提供される。細胞は、哺乳動物細胞、細菌細胞、酵母細胞、または本明細書で生成されたアミノ酸配列を含むタンパク質もしくはペプチドを発現することができる任意の細胞であり得る。細胞は、免疫細胞、例えばT細胞(例えば、CAR-T細胞)であり得る。一部の実施形態では、本明細書で生成されるアミノ酸配列を含むタンパク質またはペプチドを使用して、生体サンプル中の抗原を検出することができる。
【0011】
【0012】
一部の実施形態では、
図10、
図12もしくは
図18~
図19のいずれかに示されるアミノ酸配列、または
図10、
図12もしくは表2~表3のいずれかに示されるアミノ酸配列の1つ以上のCDR配列を含むタンパク質もしくはペプチドは、卵白アルブミン抗原に結合する。一部の実施形態では、
図10、
図12、もしくは
図18~
図19のいずれかに示されるアミノ酸配列、または
図10、
図12、もしくは
図18~
図19のいずれかに示されるアミノ酸配列の1つ以上のCDR配列を含むタンパク質もしくはペプチドを使用して、(例えば、生体サンプル中の)卵白アルブミン抗原を検出することができる。
【0013】
一部の実施形態では、
図10、
図13、
図20もしくは
図21のいずれかに示されるアミノ酸配列、または
図10、
図13、
図20もしくは
図21のいずれかに示されるアミノ酸配列の1つ以上のCDR配列を含むタンパク質もしくはペプチドは、RSV-F抗原に結合する。一部の実施形態では、
図10、
図13、
図20もしくは
図21のいずれかに示されるアミノ酸配列、または
図10、
図13、
図20もしくは
図21のいずれかに示されるアミノ酸配列の1つ以上のCDR配列を含むタンパク質もしくはペプチドを投与して、呼吸合胞体ウイルス感染症を治療することができる。一部の実施形態では、
図10、
図13、
図20もしくは
図21のいずれかに示されるアミノ酸配列、または
図10、
図13、
図20もしくは
図21のいずれかに示されるアミノ酸配列の1つ以上のCDR配列を含むタンパク質もしくはペプチドを使用して、呼吸合胞体ウイルス感染症を治療するための薬剤を製造することができる。一部の実施形態では、
図10、
図13、
図20もしくは
図21のいずれかに示されるアミノ酸配列、または
図10、
図13、
図20もしくは
図21のいずれかに示されるアミノ酸配列の1つ以上のCDR配列を含むタンパク質もしくはペプチドを使用して、(例えば、生体サンプル中で)RSV-F抗原を検出することができる。
【0014】
本明細書では、
図10、
図12、
図13もしくは
図18~
図22のいずれかに示されるアミノ酸配列、または
図10、
図12、
図13もしくは
図18~
図22のいずれかに示されるアミノ酸配列の1つ以上のCDR配列を含む、1つ以上のタンパク質またはペプチドを含む細胞も提供される。細胞は、
図10、
図12、
図13もしくは
図18~
図22のいずれかに示されるアミノ酸配列、または
図10、
図12、
図13もしくは
図18~
図22のいずれかに示されるアミノ酸配列の1つ以上のCDR配列を含むタンパク質もしくはペプチドを発現することができる哺乳類細胞、細菌細胞、酵母細胞、または任意の細胞であり得る。細胞は、免疫細胞、例えばT細胞(例えば、CAR-T細胞)であり得る。
【0015】
[本発明1001]
複数の抗原結合分子の抗原結合部分を表す複数の入力アミノ酸配列を候補識別システムに提供する工程と、
前記候補識別システムによって実行されるエンコーダによって、前記複数の入力アミノ酸配列を潜在空間に変換する工程と、
前記候補識別システムによって実行されるクラスタリングエンジンによって、前記潜在空間内の複数の配列クラスタを判定する工程と、
前記クラスタリングエンジンによって、収束クラスタを識別する工程と、
前記候補識別システムによって実行される候補生成エンジンによって、前記収束クラスタによって画定された前記潜在空間内のサンプルを選択する工程と、
前記潜在空間内の前記サンプルに基づいて、デコーダを使用して前記候補生成エンジンによって、候補アミノ酸配列を生成する工程と、を含む、方法。
[本発明1002]
前記抗原結合分子が、抗体、またはその抗原結合断片である、本発明1001の方法。
[本発明1003]
前記抗原結合分子が、キメラ抗原受容体である、本発明1001の方法。
[本発明1004]
前記入力アミノ酸配列が、相補性決定領域(CDR)を表している、本発明1002の方法。
[本発明1005]
前記入力アミノ酸配列が、CDRH3配列を含む、本発明1004の方法。
[本発明1006]
前記入力アミノ酸配列が、CDRH1配列を含む、本発明1004または1005の方法。
[本発明1007]
前記入力アミノ酸配列が、CDRH2配列を含む、本発明1004~1006のいずれかの方法。
[本発明1008]
前記入力アミノ酸配列が、CDRL1配列を含む、本発明1004~1007のいずれかの方法。
[本発明1009]
前記入力アミノ酸配列が、CDRL2配列を含む、本発明1004~1008のいずれかの方法。
[本発明1010]
前記入力アミノ酸配列が、CDRL3配列を含む、本発明1004~1009のいずれかの方法。
[本発明1011]
前記入力アミノ酸配列が、全長重鎖、またはその抗原結合部分を含む、本発明1004~1010のいずれかの方法。
[本発明1012]
前記入力アミノ酸配列が、全長軽鎖、またはその抗原結合部分を含む、本発明1004~1011のいずれかの方法。
[本発明1013]
前記デコーダが、複数の長期短期再帰ニューラルネットワークを含み、
前記候補配列を生成する工程が、前記サンプルを前記複数の長期短期再帰ニューラルネットワークの各々に提供することをさらに含む、本発明1001~1012のいずれかの方法。
[本発明1014]
前記複数の入力アミノ酸配列を前記潜在空間に変換する工程が、前記複数の入力アミノ酸配列を変分深埋め込み(VaDE)を用いて前記潜在空間に変換することをさらに含む、本発明1001~1013のいずれかの方法。
[本発明1015]
前記複数の配列クラスタを判定する工程が、混合モデリングを用いて前記複数の配列クラスタを判定することをさらに含む、本発明1001~1014のいずれかの方法。
[本発明1016]
前記混合モデリングが、ガウス混合モデリング(GMM)を含む、本発明1015の方法。
[本発明1017]
プロセッサ実行可能命令を格納するメモリと、
1つ以上のプロセッサと
を含み、
前記1つ以上のプロセッサは、
前記1つ以上のプロセッサによって実行されるエンコーダによって、抗体の抗原結合部分を表す複数の入力アミノ酸配列を受信し、
前記エンコーダによって、前記複数の入力アミノ酸配列を潜在空間に変換し、
前記1つ以上のプロセッサによって実行されるクラスタリングエンジンによって、前記潜在空間内の複数の配列クラスタを判定し、
前記クラスタリングエンジンによって、収束クラスタを識別し、
前記1つ以上のプロセッサによって実行される候補生成エンジンによって、前記収束クラスタによって画定された前記潜在空間内のサンプルを選択し、
前記潜在空間内の前記サンプルに基づいて、前記候補生成エンジンによって、候補配列を生成する、システム。
[本発明1018]
前記候補生成エンジンが、複数の長期短期再帰ニューラルネットワークを有するデコーダを含む、本発明1017のシステム。
[本発明1019]
変分深埋め込み(VaDE)を用いて前記複数の入力アミノ酸配列を前記潜在空間に変換する前記エンコーダを含む、本発明1017または1018のシステム。
[本発明1020]
ガウス混合モデリング(GMM)を用いて前記複数の配列クラスタを判定する前記クラスタリングエンジンを含む、本発明1017~1019のいずれかのシステム。
[本発明1021]
タンパク質またはペプチドであって、前記タンパク質またはペプチドのアミノ酸配列が、本発明1001~1016のいずれかの方法、または本発明1017~1020のいずれかのシステムによって生成された候補アミノ酸配列である、タンパク質またはペプチド。
[本発明1022]
前記タンパク質またはペプチドが、抗原に結合する、本発明1021のタンパク質またはペプチド。
[本発明1023]
前記タンパク質またはペプチドが、キメラ抗原である、本発明1021または1022のタンパク質またはペプチド。
[本発明1024]
前記生成された候補アミノ酸配列が、CDRH1、CDRH2、CDRH3、またはこれらの任意の組み合わせを含む、本発明1021または1022のタンパク質またはペプチド。
[本発明1025]
前記生成された候補アミノ酸配列が、CDRL1、CDRL2、CDRL3、またはこれらの任意の組み合わせを含む、本発明1021、1022、または1024のいずれかのタンパク質またはペプチド。
[本発明1026]
前記タンパク質またはペプチドが、抗体またはその抗原結合断片を含む、本発明1011、1022、1024、または1025のいずれかのタンパク質またはペプチド。
[本発明1027]
前記タンパク質またはペプチドが、抗体の1つ以上の部分を含む融合タンパク質である、本発明1021~1026のいずれかのタンパク質またはペプチド。
[本発明1028]
前記タンパク質またはペプチドが、scFvまたはFc融合タンパク質を含む、本発明1021~1026のいずれかのタンパク質またはペプチド。
[本発明1029]
前記抗原が、疾患または状態と関連付けられている、本発明1021~1028のいずれかのタンパク質またはペプチド。
[本発明1030]
前記抗原が、腫瘍抗原である、本発明1029のタンパク質またはペプチド。
[本発明1031]
前記抗原が、抗炎症性抗原である、本発明1029のタンパク質またはペプチド。
[本発明1032]
前記抗原が、ウイルス、細菌、酵母、または寄生性抗原から選択される病原性抗原である、本発明1029のタンパク質またはペプチド。
[本発明1033]
図10、図12、図13または図18~図22のいずれかに示されるアミノ酸配列を含む、タンパク質またはペプチド。
[本発明1034]
図10、図12、図13、または図18~図22のいずれかに示されるアミノ酸配列の1つ以上のCDR配列を含む、タンパク質またはペプチド。
[本発明1035]
本発明1021~1034のいずれかのタンパク質またはペプチドを含む、細胞。
[本発明1036]
本発明1021~1034のいずれかのタンパク質またはペプチドをコードする核酸配列を含む、細胞。
[本発明1037]
前記細胞が、哺乳類細胞、細菌細胞、酵母細胞、昆虫細胞、または真核細胞である、本発明1035または1036の細胞。
[本発明1038]
前記細胞が、免疫細胞である、本発明1037の細胞。
[本発明1039]
前記免疫細胞が、T細胞である、本発明1038の細胞。
[本発明1040]
前記T細胞が、CAR-T細胞である、本発明1039の細胞。
[本発明1041]
前記タンパク質もしくはペプチド、または細胞が、炎症性疾患、感染性疾患、癌、遺伝子障害、臓器移植拒絶反応、自己免疫疾患、または免疫障害を治療するために対象に投与される、本発明1021~1034のいずれかのタンパク質もしくはペプチド、または本発明1035~1040のいずれかの細胞。
[本発明1042]
前記タンパク質もしくはペプチド、または細胞が、炎症性疾患、感染性疾患、癌、遺伝子障害、臓器移植拒絶反応、自己免疫疾患、または免疫障害を治療するための薬剤の製造のために使用される、本発明1021~1034のいずれかのタンパク質もしくはペプチド、または本発明1035~1040のいずれかの細胞。
[本発明1043]
生体サンプル中の抗原を検出するための、本発明1021~1034のいずれかのタンパク質またはペプチドの使用。
[本発明1044]
対象における抗原をインビボで検出するための、本発明1021~1034のいずれかのタンパク質またはペプチドの使用。
前述の概要および図面の以下の発明を実施するための形態および発明を実施するための形態は、例示的および説明的であり、特許請求される発明のさらなる説明を提供することを意図している。他の目的、利点、および新規の特徴は、以下の図面の簡単な説明および詳細な説明から、当業者に容易に明らかになるであろう。
【図面の簡単な説明】
【0016】
添付の図面は、縮尺に合わせて描画されることを意図しない。種々の図面における同様の参照番号および指定は、同様の要素を示している。明確にするために、全ての構成要素が全ての図面にラベル付けされているわけではない場合がある。
【0017】
【
図1】例示的な候補識別システムのブロック図を示す。
【
図2】インシリコ配列を生成するためのフロー図である。種々の抗原を免疫化した45匹のBALB/cマウスの骨髄由来の抗体レパートリが配列決定される。次いで、抗体配列を使用して、深層生成モデルが訓練され、当該深層生成モデルは、新規の配列を生成することと、入力配列をその潜在的な埋め込みに基づいて異なるクラスタに割り当てることと、の両方を行うことができる。クラスタの割り当ては、特定のレパートリまたは抗原コホートで大きく濃縮された配列を識別するために使用される。抗原関連クラスタの天然配列およびインシリコで生成された配列は、全長IgGとして発現され、結合抗体として検証される。
図は、配列番号41~46、37、および47~52を、それぞれ出現順に開示する。
【
図3】
図1に示されるシステムで使用することができる例示的なエンコーダアーキテクチャを示す。
【
図4】
図1に示されるシステムで使用することができる例示的なデコーダアーキテクチャを示す。
【
図5】変分オートエンコーダの例示的な深層ニュートラルネットワークを示す。灰色のボックスはモデルへの入力を示し、淡赤色のボックスは種々の(数学的な)演算を示す。紫色のボックスは、モデルの訓練可能な層を強調している。暗赤色はモデルの出力を示す。灰色のボックスには、全てのクラスタ次元で重みが共有されている層が含まれている。変分オートエンコーダは、入力として、CDR1、CDR2、およびCDR3を受け取ることができる。種々の長さのCDRHを処理するために、本システムは、一定の固定長(データ内の各CDRHの最大長)に達するまで、ダッシュで配列をパディングする。本システムは、パディングされた配列をワンホットエンコーディングし、連結し、これを変分オートエンコーダ(VAE)への入力として使用する。
図2に示されるように、VAEは、高密度層(例えば、非線形活性化関数)と線形層の両方を含む。高密度層は、例えば、256~512個または他の量の範囲のフィルタまたはユニットを含むことができる。線形層は、10個のユニット、または一部の他の数のユニットを含むことができる。
【
図6】抗原関連配列の識別および特徴付けを示す。(A)主成分分析(PCA)によって可視化された2つの抗体レパートリの10次元潜在空間。青色および赤色の点は、それぞれ、1つのOVA(2C)およびRSV-F(2C)レパートリに属する配列を示す。拡大された領域では、1つのレパートリに特異的な配列とそれらのそれぞれの配列モチーフのみを含む2つの学習されたクラスタが強調されている。(B)抗体レパートリは、潜在空間における学習された配列クラスタに基づいてベクターに変換される。再コード化ベクターは、抗原曝露の線形サポートベクターマシン(SVM)分類器の入力として使用される。混同行列は、特徴としてクラスタ標識および生の配列を用いた5分割交差検証中の各モデルの集計予測結果を示している。(C)ヒートマップは、各コホートの全ての予測配列クラスタおよび収束配列クラスタを含む。赤色の破線は、一次免疫のみを受けたマウスを示す。(D)各抗原コホートに見られる収束クラスタの例示的な配列ロゴ。
【
図7】抗原特異的抗体を含有する種々のレパートリにわたるクラスタ特異的配列を示す。(A)4つの抗原関連重鎖プールから調製した上清の全ての抗原に対する用量依存性吸光度曲線。(B)異なる収束OVA関連またはRSV-F関連V
Hをそれぞれ利用する6つのモノクローナル細胞集団のフローサイトメトリヒストグラム。灰色のヒストグラムは陰性対照を表し、色付きのヒストグラムは収束抗体を示す。(C)RSV3と同じクラスタからの異なるV
H配列を使用する、収束変異体(CV)の12モノクローナル細胞集団のフローサイトメトリヒストグラム。(D)表は、選択されたCVのCDRH3およびそれらが見出されたRSV-F免疫化マウスレパートリを示す。赤色文字は、最初に発見された配列RSV3の配列との差異を示す。(E)散布図は、RSV3クラスタ由来のCVのマウスレパートリごとの頻度ランク分布を示す。赤色の点は、(C)で結合することが確認されたV
Hを強調している。(F)円グラフは、RSV-FおよびOVAの両方について、収束クローンにおいて最も利用される9つのV遺伝子生殖細胞株を示す。
図は、配列番号53~65を、それぞれ出現順に開示する。
【
図8】深層生成モデリングおよびインシリコ抗体配列の生成を示す。(A)抗体配列空間の概略的な深層生成モデリングであり、クラスタを選択するか、またはランダムにサンプリングし、選択されたパラメータに基づいて、ランダムサンプルを多変量正規分布から採取する。次いで、エンコーダは、新規の配列がサンプリングされる多変量多項式分布にエンコーディングを変換する。(B)散布図は、2つの潜在的な天然に存在する変異体を示し、黄色の点は、結合抗体であることが確認された10個の最も頻繁にインシリコサンプリングされたエンコーディングを示す。右の表は、それらのCDRH3配列および1,000,000回のサンプリング後のそのカウントを示す
(それぞれ出現順に、配列番号66~75)。赤色文字は、初期の生体配列(RSV3、黒色で示される)に対する差異を示す。
【
図9】提供される深層生成モデルによって選択される新しいV
H配列を生成およびテストするための例示的な作業フローを示す。候補の重鎖は、実装されたバイオインフォマティック配列クラスタリングフレームワークに基づいて、各抗原のバルク重鎖配列決定データセットから選択される。配列を遺伝子合成し、HDRドナーベクターにクローニングする(ステップ1)。各抗原について、軽鎖レパートリは、マルチプレックスPCRによって同じ抗原で免疫化したマウスのRNAから増幅される。次いで、得られた軽鎖ライブラリを、各重鎖について別個のHDRドナーVLライブラリを作製するために、ステップ1で作製したHDRドナーベクターにクローニングする(ステップ2)。次いで、得られたHDRドナーライブラリを、PnP mRuby/Cas9細胞へのCRISPR/Cas9ベースの組み込みのためのDNA修復テンプレートとして使用し、それによって、同じ候補重鎖であるが異なる軽鎖を有する抗体を発現するハイブリドーマ細胞クローンのライブラリを作製する。抗原特異的クローンは、蛍光活性化細胞選別によって濃縮される。
【
図10-1】ハイブリドーマライブラリのフローサイトメトリ分析を示す。(A)~(B)OVA、および(C)~(D)RSV-Fのハイブリドーマ細胞ライブラリのフローサイトメトリ分析であり、配列ライブラリ濃縮ドットプロットを(A)および(C)に示す。それぞれの抗原特異的モノクローナル細胞株は、所与の抗原に対して特異的でない陰性対照細胞株に関して、ヒストグラムプロット(B)および(D)に示される。
図10Bは、配列番号76~81、79、82~83、79、82、84、47~48、85、79、82、および86を、図10Dは、配列番号87~95を、それぞれ出現順に開示する。
【
図11】抗原特異的であることが確認された収束配列のELISAデータを示す。抗原特異的ハイブリドーマモノクローナル細胞株の上清ELISAプロファイルを、(A)OVAおよび(B)RSV-Fについて示す。開始細胞株PnP-mRuby/Cas9を、陰性対照として使用した。
【
図12】抗原特異的であることが確認された収束配列のアラインメントを示す。抗原特異的抗体のためのV
Hアミノ酸アラインメント。(A)OVAおよびRSV変異体について、全長VDJアラインメントを示す
(それぞれ出現順に、配列番号96~104)。(B)OVAおよびRSV-Fの連結CDRH1-CDRH2-CDRH3アミノ酸アラインメントを示す
(CDRの配列は、連続したものとして解釈されることを意図したものではない)。使用されるカラーコードは、Geneious V10.2.6ソフトウェアを使用したClustalカラーリングスキームから派生したものである。
図は、配列番号76~81、79、82~83、79、82、84、47~48、85、79、82、および86~95としてCDR配列を、それぞれ出現順に開示する。
【
図13】RSV3クラスタからの収束変異体のアミノ酸配列アラインメントを示す
(それぞれ出現順に、配列番号105~116、および104)。RSV3クラスタからの収束天然変異体(NV)のV
Hアミノ酸アラインメントである。使用されるカラーコードは、Geneious V10.2.6のClustalカラーリングスキームに由来している。
【
図14】変分オートエンコーダの再構築精度を示す。棒グラフは、クラスタ数の関数として達成された再構築精度を示す。クラスタ(k)の量を増やすことで再構築精度が上がり、k=2000以降はリターンが減少する。
【
図15】RSV3 CDRH3抗体ライブラリスクリーニングワークフローのワークフローを示す。(A)RSV3 CDRH3ライブラリを、示したロゴによって描写された配列空間を表す退化コドンを有するssODNを使用して、CRISPR-Cas9相同性指向突然変異誘発によって生成した。(B)その後、トランスフェクト細胞を、抗体発現およびRSV-Fに対する特異性または陰性度について2つの連続したステップで選別した。
【
図16】RSV3生成CDRH3ライブラリからのサンプリング結果を示す。ヒストグラムは、VAEデコーダモデルに従って、RSV3 CDRH3ライブラリ画面の陽性(青色)および陰性(赤色)画分からの配列が生じる可能性が高いことを示す。陽性変異体は、わずかではあるが有意に発生する可能性が高い(P<0.001、マン・ホイットニーのU検定)。右側の緑色のヒストグラムは、生体レパートリで観察される変異体の確率を示す。
【
図17】RSV3 CDRH3ライブラリスクリーニングからの深層配列決定結果を示す。配列ロゴは、RSV3 CDRH3ライブラリ画面の(A)陽性画分および(B)陰性画分に見出される集約された配列を示す。
【
図18】OVAに結合することが確認された配列を示す。
図は、配列番号96~101として「HC」配列を、配列番号117~122として「LC」配列を、それぞれ出現順に開示する。
【
図19】OVA1およびOVA5のサロゲートV
L鎖配列を示す。
図は、配列番号123~129を、それぞれ出現順に開示する。
【
図20】RSVに結合することが確認された配列を示す。
図は、配列番号102~104として「HC」配列を、配列番号130~132として「LC」配列を、それぞれ出現順に開示する。
【
図21】RSV1、2、および3のサロゲートV
L鎖配列を示す
(それぞれ出現順に、配列番号133~135)。
【
図22】抗原結合についてスクリーニングした収束抗体配列を示す。この表は、抗原結合について実験的にスクリーニングした収束配列を示す。最も右側の3つの列は、それぞれの方法によって配列が識別され得るかどうかを示す。配列がそのコホートにおいて少なくとも1つの他のマウスと共有されているが、任意の他の抗原コホートにおいて観察されなかった場合、配列は、公開クローンとして発見されたであろう。括弧内の数は、収束クラスタ内で見出された配列の数を示す。
図は、配列番号76、79、79、79、47、79、87、90、93、および136として「CDR1」配列を、配列番号77、80、82、82、48、82、88、91、94、および137として「CDR2」配列を、配列番号138~143、38~39、53、および40として「CDR3」配列を、それぞれ出現順に開示する。
【発明を実施するための形態】
【0018】
詳細な説明
上記で導入され、かつ以下でさらに詳細に考察される種々の概念は、実装形態のいかなる特定の様式にも限定されないため、数多くの方式の実装形態のいずれかで実施することができる。特定の実装形態および用途の例は、主に例示的な目的のために提供される。
【0019】
本明細書に記載される方法は、深層生成モデリングアプローチである、変分オートエンコーダ(VAE)を使用するものであり、抗原に曝露された対象を含む、哺乳動物対象の免疫レパートリから有意な表現を提供する。本システムは、抗体レパートリを低次元潜在空間にマッピングすることができ、これにより大量の収束配列パターンが明らかになる。一部の実施形態では、本システムは、線形分類器および変分深埋め込み(VaDE)を使用して、抗原曝露を予測する収束クラスタに存在するパターンを識別することができる。一部の実施形態では、統計的有意性を検定するために、t検定、フィッシャーの正確確率検定、またはパーミュテーション検定などの統計的検定が、線形分類器の代わりに使用される。次いで、収束した抗体配列は、組換え発現系において(例えば、哺乳類ディスプレイ系における全長IgGとして)発現され得、フローサイトメトリおよび酵素結合免疫吸着アッセイ(ELISA)などの技術を使用して、抗原特異的であることを実証することができる。システムは、インシリコで数千の新規かつ機能的な変異体を生成することによって、収束配列空間を解明することもできる。本方法は、改善された特性を有する治療および診断(標的識別)抗体剤の開発に適用することができる。
【0020】
図1は、候補配列と称され得るインシリコ配列を生成する例示的なシステム100のブロック図を示す。候補識別システム102は、1つ以上のプロセッサ104および1つ以上のメモリ106を含むことができる。プロセッサ104は、本明細書に記載される機能を実行するためにプロセッサ実行可能命令を実行することができる。プロセッサ104は、エンコーダ108、クラスタリングエンジン110、デコーダ112、および候補選択エンジン114を実行させることができる。メモリ106は、プロセッサ実行可能命令を格納し、データを生成し、収集されたデータを格納することができる。メモリ106は、1つ以上の分類器重み122を格納することができる。メモリ106はまた、分類データ116、訓練データ118、および候補データ120を格納することができる。
【0021】
システム100は、1つ以上の候補識別システム102を含むことができる。候補識別システム102は、プロセッサ104などの少なくとも1つの論理デバイスを含むことができる。候補識別システム102は、データおよびプロセッサ実行可能命令を格納することができる少なくとも1つのメモリ要素106を含むことができる。候補識別システム102は、少なくとも1つのデータセンター内に位置する複数のコンピューティングリソースまたはサーバを含むことができる。候補識別システム102は、複数の論理的に群化されたサーバを含み、分散コンピューティング技術を容易にすることができる。サーバの論理群は、データセンター、サーバファーム、またはマシンファームと称され得る。サーバは地理的に分散させることもできる。候補識別システム102は、任意のコンピューティングデバイスであり得る。例えば、候補識別システム102は、1つ以上のラップトップ、デスクトップ、タブレット、スマートフォン、ポータブルコンピュータ、またはそれらの任意の組み合わせであり得るか、またはそれらを含むことができる。
【0022】
候補識別システム102は、1つ以上のプロセッサ104を含むことができる。プロセッサ104は、候補識別システム102に情報処理能力を提供することができる。プロセッサ104は、デジタルプロセッサ、アナログプロセッサ、情報を処理するデジタル回路、情報を処理するように設計されたアナログ回路、状態機械、および/または情報を電子的に処理するための他の機構のうちの1つ以上を含むことができる。各プロセッサ104は、複数の処理ユニットまたは処理コアを含むことができる。プロセッサ104は、メモリ106と電気的に結合することができ、エンコーダ108、クラスタリングエンジン110、デコーダ112、および候補生成エンジン114を実行することができる。
【0023】
プロセッサ104は、1つ以上のマイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、またはそれらの組み合わせを含むことができる。プロセッサ104は、アナログプロセッサであり得、1つ以上の抵抗ネットワークを含むことができる。抵抗ネットワークは、複数の入力および複数の出力を含むことができる。複数の入力の各々、および複数の出力の各々は、ナノワイヤと結合され得る。入力のナノワイヤは、メモリ要素を介して出力のナノワイヤと結合され得る。メモリ要素は、ReRAM、メモリスタ、またはPCMを含むことができる。プロセッサ104は、アナログプロセッサとして、アナログ信号を使用して行列ベクトル乗算を実行することができる。
【0024】
候補識別システム102は、1つ以上のエンコーダ108を含むことができる。エンコーダ108は、潜在空間に入力配列をエンコードするためのアプリケーション、アプレット、スクリプト、サービス、デーモン、ルーチン、または他の実行可能ロジックであり得る。エンコーダ108は、ニューラルネットワークオートエンコーダを含むことができる。エンコーダ108は、特に、
図3に関してさらに説明される。概要として、エンコーダ108は、標識されていない入力配列を受信し、入力配列をより低次元の空間にマッピング(またはエンコーディング)することができる。エンコーダ108は、例えば、変分オートエンコーダ(VAE)を使用して、入力配列をより低次元の空間にエンコードすることができる。一部の実施形態では、エンコーダは、変分深埋め込み(VaDE)を使用する。エンコーダ108は、入力配列を例えば5次元空間にマッピングすることができる。一部の実施形態では、エンコーダは、潜在空間のガウス混合モデル(GMM)ベースのクラスタリングなどの混合モデルと共に、深層生成モデルを共同で最適化することができる。
【0025】
候補識別システム102は、1つ以上のクラスタリングエンジン110を含むことができる。クラスタリングエンジン110は、潜在空間内のクラスタを判定するためのアプリケーション、アプレット、スクリプト、サービス、デーモン、ルーチン、または他の実行可能ロジックであり得る。クラスタリングエンジン110は、K平均クラスタリングを使用して、潜在空間内の入力配列からエンコーダ108によって生成されたクラスタを識別することができる。クラスタリングエンジン110は、ガウス混合モデリング(GMM)を使用して潜在空間内のクラスタを識別することができる。
【0026】
候補識別システム102は、1つ以上のデコーダ112を含むことができる。デコーダ112は、アプリケーション、アプレット、スクリプト、サービス、デーモン、ルーチン、または他の実行可能ロジックであってもよく、潜在空間内の入力からの出力配列をデコードするか、または別様で作成することができる。デコーダ112は、特に、
図4に関してさらに説明される。デコーダ112は、潜在空間からサンプルを受信し、配列(例えば、CDR1、CDR2、またはCDR3)を再構築することができる。例えば、デコーダ112は、潜在空間サンプルを、CDR1、CDR2、またはCDR3の配列を表すワンホットエンコーディング行列に変換することができる。一部の実装形態では、デコーダ112は、複数の異なるニューラルネットワークを含むことができる。例えば、デコーダ112は、潜在的な空間サンプルから生成された配列の各々について、異なるニューラルネットワークを含むことができる。デコーダ112は、CDR1、CDR2、およびCDR3配列の各々を生成するための異なるニューラルネットワークを含むことができる。デコーダ112のニューラルネットワークは、長期短期再帰ニューラルネットワークであり得る。
【0027】
候補識別システム102は、候補生成エンジン114を含むことができる。クラスタリングエンジン110によって識別されたクラスタから、デコーダ112を使用して、候補生成エンジン114は、インシリコ出力配列を生成することができる。例えば、候補生成エンジン114は、潜在空間からサンプルを選択することができる。候補生成エンジン114は、潜在空間内の定義済みクラスタ内からサンプルを選択することができる。候補生成エンジン114は、サンプルをデコーダ112に提供して、出力としてインシリコ配列を生成することができ、候補生成エンジン114は、候補データ120としてこれをメモリに格納することができる。
【0028】
候補識別システム102は、1つ以上のメモリ106を含むことができる。メモリ106は、メモリ要素であり得るか、またはメモリ要素を含むことができる。メモリ106は、プロセッサ104によって実行されたときに、プロセッサ104に、本明細書に記載された動作のうちの1つ以上を実行させ得る機械命令を格納することができる。メモリ106は、プロセッサ104に命令を提供することができる電子的、光学的、磁気的、または任意の他の記憶デバイスを含むことができるが、これらに限定されない。メモリ106は、フロッピーディスク、CD-ROM、DVD、磁気ディスク、メモリチップ、ROM、RAM、EEPROM、EPROM、フラッシュメモリ、光学媒体、またはプロセッサ104が命令を読み取ることができる任意の他の好適なメモリを含むことができる。命令は、限定されないが、C、C++、C#、Java、JavaScript、Perl、HTML、XML、Python、およびVisual Basicなどの任意の好適なコンピュータプログラミング言語からのコードを含むことができる。
【0029】
候補識別システム102は、分類器重み122をメモリ106に格納することができる。分類器重み122は、エンコーダ108およびデコーダ112のニューラルネットワークを定義する重みおよびバイアスを含むデータ構造であり得る。訓練されると、分類エンジン108は、例えば、分類器重み122をメモリ106に格納して、インシリコ配列を後で検索し、生成するために使用することができる。
【0030】
訓練段階の間、エンコーダ108およびデコーダ112は、訓練データ118を処理して、エンコーダ108およびデコーダ112内の1つ以上の機械学習モデルに対する重みおよびバイアスを生成することができる。訓練されると、エンコーダ108およびデコーダ112は、重みおよびバイアスを分類器重み122としてメモリ106に格納することができる。エンコーダ108およびデコーダ112の訓練データおよび訓練の生成は、以下に、メモリ106、訓練データ118、および実施例に関連してさらに説明される。エンコーダ108およびデコーダ112が訓練されると、重みおよびバイアスは、分類器重み122としてメモリ106に保存され得る。分類エンジン108のモデル(例えば、畳み込みニューラルネットワーク、高密度層、およびLSTMニューラルネットワーク)は、特に、
図2および
図3に関連してさらに説明される。
【0031】
図2は、例えば、
図1に例示されるシステムを使用してインシリコ配列を生成するためのフロー
図200を示す。フロー
図200は、3つの段階を含む。第1の段階202の間、訓練または検定データが生成される。第2の段階204の間、深埋め込みを実行して、エンコーダ108を訓練することができる。第3の段階206の間、候補生成エンジン114は、抗原関連クラスタを識別し、次いで、インシリコ配列を生成することができる。例えば、実施例のセクションに関連してさらに説明するように、種々の抗原で免疫化した45匹のBALB/cマウスの骨髄からの抗体レパートリを配列決定して、訓練データ118を生成することができる。候補識別システム102は、訓練データ118を使用して、第2の段階204の間にエンコーダ108およびデコーダ112を訓練することができる。訓練済みエンコーダ108は、配列の潜在的埋め込みに基づいて、入力配列を別個のクラスタに割り当てることができる。第3の段階306の間、候補生成エンジン114は、特定のレパートリまたは抗原コホートにおいて濃縮されたクラスタを識別することができる。候補生成エンジン114は、抗原関連クラスタからインシリコ配列を生成することができる。
【0032】
図3は、エンコーダ108の例示的なアーキテクチャ300を示す。エンコーダ108は、アーキテクチャ300の第1の層で入力302を受信することができる。
図3は、CDR1、CDR2、およびCDR3の配列を含む配列の入力を示すが、入力配列は任意の他の配列であってもよい。アーキテクチャ300は、パディング層304を含むことができる。パディング層304は、ゼロパディング、ダッシュパディング、またはそれ以外の場合、全ての入力配列が同じ長さを有するように入力配列をパディングすることができる。例えば、CDR1、CDR2、またはCDR3の異なるバリエーションは、異なる配列長を有してもよい。パディング層304は、それぞれのCDR1、CDR2、およびCDR3配列の各々の最長の変異体よりも短い長さを有する変異体の末端に、ゼロ、ダッシュ、または他の値を追加することができる。パディング層204を出る各配列は、所定の長さ(またはサイズ)を有することができる。アーキテクチャ300は、ワンホットエンコーディング層306を含むことができ、当該ワンホットエンコーディング層306は、パディングされた入力配列(パディング層304から出力される)をワンホットエンコーディング行列に変換する。ワンホットエンコーディング層306は、例えば、パディングされた入力配列の各位置についての行を含む、ワンホットエンコーディング行列を生成することができる。ワンホットエンコーディング行列の各列は、異なる可能性のあるアミノ酸に対応することができ、これにより、パディングされた入力配列のそれぞれの値を各々満たすことができる。この例では、配列に追加されるパディングされた値(例えば、0)のための20個のアミノ酸および別の列が存在するので、ワンホットエンコーディング行列は、21個の列を含む。ワンホットエンコーディング行列の各行には、パディングされた入力配列のそれぞれの値に存在するアミノ酸に対応した列に1が含まれる。一部の実装形態では、ワンホットエンコーディング層306は、BLOSUM26またはBlomapなどの、ワンホットエンコーディングとは異なるエンコーディングを使用することができるエンコーディング層であり得る。
【0033】
アーキテクチャ300は、連結層308を含むことができ、当該連結層308は、(この例では)CDR1、CDR2、およびCDR3のワンホットエンコーディング行列を単一のワンホットエンコーディング行列に連結する。
【0034】
アーキテクチャ300は、訓練可能な層であり得る複数の相互接続された層310を含むことができる。層310の各々は、1つ以上のニューロンを含むことができる。
図3に示すように、層310の一部分は、21個のニューロンを含むことができ、層310の一部分は、64個のユニットを含むことができる。アーキテクチャ300は、複数の演算層312を含むことができ、複数の演算層312は、層310からの出力に対して数学的演算を組み合わせるか、または別様で実行することができる。アーキテクチャ300は、訓練可能な正規化層314を含むことができる。アーキテクチャ300は、正規化層314の出力をフラット化して出力ベクトルを生成する層316を含むことができ、これは、複数の正規化線形ユニット(ReLU)を含む層318と完全に相互接続することができる。
【0035】
図4は、
図1に図示されたデコーダ112の例示的なデコーダアーキテクチャ400を示す図である。アーキテクチャ400は、潜在空間からサンプルを受信または選択することができる。
図4の例示的なアーキテクチャ400に例示されるように、潜在空間は5次元の潜在空間であり得る。アーキテクチャ400は、デコーダ112によって再作成される各配列についての異なるニューラルネットワーク402を含むことができる。図示された例では、デコーダ112は、インシリコでCDR1、CDR2、およびCDR3を含む配列を生成している(または別様に生成している)。したがって、
図4に示される例では、アーキテクチャ400は、3つのニューラルネットワークを含むことができ、それらの各々は、CDR1、CDR2、またはCDR3上の各々に対応する。ニューラルネットワーク402は、高密度層を含むことができ、または長期短期再帰ニューラルネットワーク(LSTM-RNN)層を含むことができる。ニューラルネットワーク内の高密度層は、非線形である層を指し得る。高密度層は、wx+bなどの線形式を含むことができるが、高密度層の最終結果は、次いで、y=f(w*x+b)のような活性化関数と称される非線形関数に渡すことができる。非線形活性化関数の例として、例えば、ユニットステップ、サイン(sign)、区分的線形、ロジスティック、双曲線接線、正規化線形ユニット、または正規化ソフトプラスが挙げられる。例えば、ニューラルネットワーク402の各々の出力は、ソフトマックス活性化を用いてフィードフォワード層404に入力することができる。層404の出力は、ワンホットエンコーディング行列であり得、これは、エンコーダ108で使用されるのと同じワンホットエンコーディングを使用する。ワンホットエンコーディング出力行列は、配列に変換され得る。
【0036】
本明細書に記載の方法に従って訓練されると、深層学習モデルを使用して、極めて大きなインシリコ生成された変異体のライブラリから、数百万の抗原結合剤を予測することができる。これらの変異体は、複数の開発可能性フィルタに供され得、結果として、数万の最適化されたリード候補が得られる。そのスケーラブルなスループットおよび広大なタンパク質配列空間を調べる能力により、本明細書に記載される方法は、抗体および他のタンパク質ベースの治療薬のエンジニアリングおよび最適化を伴う多種多様な用途に適用され得る。
【実施例】
【0037】
適応免疫は、高度に多様な一連の適応免疫受容体(例えば、B細胞受容体およびT細胞受容体、ならびに分泌抗体)を生成するその能力、およびその後の外来抗原を認識することができるそれらの受容体のクローン選択および拡大によって駆動され得る。これらの原理は、独自の動的な免疫レパートリをもたらすることができる。深層配列決定は、1つの種内の個々の生物にわたって共通に共有される受容体の存在の証拠を提供することができる。種々の抗原に対する特異的受容体を収束的に選択することは、個々の生物にわたる共通の共有受容体の存在に対する一説明を提供する。マウスの抗体レパートリにおける収束的な選択は、種々の範囲のタンパク質抗原および免疫化条件に対して生じ得る。本実施例では、特に、
図1~
図3に示すシステムおよびアーキテクチャに類似したシステムを用いて、変分エンコーディングを行った。この例では、ガウス混合モデル(GMM)ベースのクラスタリングなど、変分オートエンコーダと混合モデルとを組み合わせる生成モデリング技術が使用される。本システムは、変分エンコーディングを使用して、抗体レパートリをより低次元の潜在空間にマッピングすることができ、多数の収束抗原特異的配列パターン(AASP)を発見することを可能にする。線形な一対一のサポートベクターマシン(SVM)を使用して、本システムにより、最大95%の精度で抗原曝露を予測する配列パターンを識別した。AASPを有する天然および変分エンコーディング生成抗体の両方の組換え発現により、標的抗原への結合が確認される。本実施例により、深層生成モデリングが、免疫診断、ならびに抗体発見および工学に適用され得ることが例示される。
【0038】
I.結果
再配列されたB細胞受容体(BCR)遺伝子座の標的化された深層配列決定により、所与の組織または細胞集団におけるB細胞または発現された抗体のレパートリを明らかにすることができる。深層配列決定データを使用して、45匹のBALB/cマウスの骨髄における抗体レパートリを分析し、これを、卵白アルブミン(OVA)、ニワトリ卵白リゾチーム(HEL)、Blue Carrier Protein(BCP)、または呼吸合胞体ウイルス融合タンパク質(RSV-F)のいずれかのタンパク質抗原で免疫化したコホートに分けた。
図2に示し、表1に概説したように、OVA、HEL、およびBCPコホートを、ゼロ、1、2、または3回のブースター免疫を受ける群にさらに細分化した。血清ELISAにより、全てのマウスにおいて抗原特異的抗体力価が確認され、一次免疫のみを受けたマウスは、有意に弱い力価を示している。RNAを骨髄からバルク抽出し、可変重鎖IgG配列決定ライブラリを、2ステップRT-PCRプロトコルを使用して調製した。Illumina社製のMiSeq上でライブラリを配列決定し、品質を処理し、アラインメントし、全てのマウスにわたって、3つ全ての相補性決定領域(CDR)の合計243,374個の独自の組み合わせを得た。
【0039】
【0040】
図6は、正確な配列類似性を超えた収束がどの程度発生するかを評価するためのワークフローを示す。
図6は、抗原関連配列の識別および特徴付けを示す。(A)主成分分析(PCA)によって可視化された2つの抗体レパートリの10次元潜在空間。青色および赤色の点は、それぞれ、1つのOVA(2C)およびRSV-F(2C)レパートリに属する配列を示す。拡大された領域は、1つのレパートリに特異的な配列とそれらのそれぞれの配列モチーフのみを含む2つの学習されたクラスタを強調している。(B)抗体レパートリは、潜在空間における学習された配列クラスタに基づいてベクターに変換される。再コード化ベクターは、抗原曝露の線形サポートベクターマシン(SVM)分類器の入力として使用される。混同行列は、特徴としてクラスタ標識および生の配列を用いた5分割交差検証中の各モデルの集計予測結果を示している。(C)ヒートマップは、各コホートの全ての予測配列クラスタおよび収束配列クラスタを含む。赤色の破線は、一次免疫のみを受けたマウスを示す。(D)各抗原コホートに見られる収束クラスタの例示的な配列ロゴ。
【0041】
図7は、種々のレパートリにわたるクラスタ特異的配列を示す。(A)各抗原について収束可変重鎖(VH)プールを有する抗体を発現するハイブリドーマ細胞から調製した上清の用量依存性吸光度曲線。(B)異なる収束OVA関連またはRSV-F関連VHを各々利用する6つのモノクローナル細胞集団のフローサイトメトリヒストグラム。灰色のヒストグラムは陰性対照を表し、色付きのヒストグラムは収束抗体を示す。(C)RSV3と同じクラスタからの異なるVH配列を使用する、収束変異体(CV)の12モノクローナル細胞集団のフローサイトメトリヒストグラム。(D)表は、選択されたCVのCDRH3およびそれらが見出されたRSV-F免疫化マウスレパートリを示す。赤色文字は、最初に発見された配列RSV3配列との差異を示す。(E)散布図は、RSV3クラスタ由来のCVのマウスレパートリごとの頻度ランク分布を示す。赤い点は、(C)で結合することが確認されたVHを強調している。(F)円グラフは、RSV-FおよびOVAの両方について、収束クローンにおいて最も利用される9つのV遺伝子生殖細胞株を示す。
【0042】
特に、
図1~
図5に示されるシステムおよびアーキテクチャは、潜在空間との間のCDR1、CDR2、CDR3配列、およびそれらの適切な組み合わせをエンコードおよびデコードすることができる。潜在空間内の配列は、GMMに従ってクラスタ化することができ、類似の配列は、同じクラスタに分類され、密接に関連するクラスタは潜在空間内の類似の領域を占有する。一部の実施形態では、深層ニューラルネットワークは、配列をエンコード(
図3)およびデコード(
図4)するために使用され、GMMの事前処理および入力配列を再構築するそれらの能力に関して最適化される。潜在的エンコーディングの次元数を増加させることで、モデルの再構築能力を向上させ、10次元のエンコーディング層を用いることで、本システムは、93%以上の再構築精度を実現した(
図14)。
図6Aに例示されるように、主成分分析(PCA)を使用して、潜在的エンコーディングを可視化し、関連する配列が、実際に潜在配列空間内の同じクラスタおよび領域にマッピングされたことを示すことができる。収束量は、それぞれの抗原免疫化の予測性が高い潜在的クラスタを識別することによって定量化した。配列をそれらのそれぞれのクラスタに群化し、再コード化されたレパートリを使用して、線形な一対一のSVM分類器を訓練および交差検証した。このワークフローのベースラインを確立するために、線形サポートベクターマシン(SVM)もまた、公開クローン(CDRH1-CDRH2-CDRH3 a.a.の配列が正確に一致したもの)の発生について訓練され、抗原曝露の予測(5分割交差検証)に対し42%の精度が得られた。対照的に、VAEベースのクラスタ割り当てを使用し、その後クラスタ濃縮に基づいてレパートリをエンコードする場合、結果として生じる分類器は、80%を超える予測精度を達成することができた(
図6B)。モデルを完全なデータ上で再訓練し、クラスタを非パラメトリックパーミュテーション検定に基づいて選択し、0.05未満のボンフェローニ補正したp値を有する有意に濃縮されたクラスタを選択した。より詳しく調べることによって、全てのマウスがそれぞれの収束クラスタの全てを発現したわけではなく、むしろ、小さいながらも予測可能なサブセットを発現したことが明らかになった(
図6C)。発見された収束クラスタの数は、抗原の大きさおよび複雑さとよく相関している。所与のクラスタにマッピングする全ての配列を比較することで、本システムにより、VaDEが生物学的に有意なクラスタを構築することができる方法が実証された。繰り返しとなるが、集約された配列ロゴを単一のレパートリから生成されたロゴと比較することで、収束配列空間の潜在的多様性が示され、収束が特定のCDRに焦点を当てていないことが強調されている(
図6Aおよび
図6C)。
【0043】
抗原予測配列収束が抗原認識によって実際に駆動されることを確認するために、収束V
H配列の小さなサブセットを、単一のレパートリからクローニングした可変軽鎖(V
L)ライブラリと共に発現させた(
図19~
図22および
図9)。哺乳類の発現系を、抗原特異性をスクリーニングするためのCRISPR-Ca9媒介性ライブラリの組み込みにカップリングすることを通じて、抗体のディスプレイおよび分泌に利用した。ライブラリ細胞株の上清上で実施したELISAは、全ての4つの抗原に対して正しい特異性を実証した(
図6A、
図6C)。さらに、蛍光活性化細胞選別(FACS)により、単一の抗原特異的クローンを識別した(
図7B、
図9、および
図10)。次いで、蛍光活性化細胞選別(FACS)による単一クローン単離を通じて、RSV-FおよびOVAという2つの抗原の重鎖プールをより詳細に調べた。本ステップで識別した抗原特異的クローンおよびそれらの対応する重鎖を、再び新しいモノクローナル細胞集団の上清上で実施したELISAによって確認した(
図7B、
図7C、および
図10)。この手順により、本発明者らは、(選択された6つのうちの)6つのOVAの抗原特異性、および(選択された4つのうちの)3つのRSV-F収束VH配列の抗原特異性を確認することができた(
図19~
図22)。VH鎖は、異なるマウスレパートリからのVL鎖と対合することができ、さらに、VH鎖優位結合に対する収束性を強調するものであった(
図19~
図22)。全ての抗原は種々のV遺伝子生殖細胞株と関連付けられていたが、本発明者らは、収束抗体が抗原依存的な様式で異なるV遺伝子セグメントを利用していることに気付き、元のV遺伝子生殖細胞株が収束的な選択に寄与していることを強調させた(
図7F)。
【0044】
同じ収束クラスタにマッピングする抗体配列変異体も抗原特異的であることを確認するために、本発明者らは、クラスタマッピングから確認されたRSV-F結合剤の1つに12個の収束V
H変異体(同じ抗原で免疫化された他のマウスに由来)を組換えて発現させた(RSV3、
図13)。これらの12個の収束変異体は、同じV
LのRSV3で発現させた。フローサイトメトリにより、これらの収束変異体の12個全てが実際に抗原特異的であることを確認した(
図7c)。100%または80%のV
HCDRH3 a.a.同一性(2,4)の標準的なクローノタイプ定義を使用して、12個の変異体のうち、それぞれ、0個または5個のみが、レパートリ間で収束することを特定した(
図7d)。対照的に、VAEモデルは、低くても64%のCDRH3 a.a.同一性を有するRSV3の変異体を発見することができ(11個のミスマッチのうち4個)、過去のロゴプロットによって明らかになる大きな潜在的多様性を検証することができた(
図6d、
図7f)。それらの配列多様性に加えて、これらのクローンはまた、それぞれのマウスレパートリにおいて、確認された結合剤が高頻度、中頻度、および低頻度であり、その存在範囲が大きいことを確認した(
図7e)。
【0045】
最後に、本発明者らは、VAEモデルが未見のデータにどの程度一般化することができるかを理解することを目指した。初めに、本発明者らは、CRISPR-Cas9相同性指向突然変異誘発を通じてRSV3クローンの抗体CDRH3ライブラリを実験的に生成した。ライブラリの多様性は、RSV3クラスタのデコーダ生成配列をモデル化するように設計された一方で、完全にランダム化された位置も含有していた(
図15a)。FACSによるハイブリドーマ抗体ライブラリのスクリーニング、続いて深層配列決定により、19,270個の表面発現変異体が得られ、そのうち7,470個が抗原結合であることを確認した(
図15b)。VAEモデル下でこれらの新規変異体の確率を評価した際、本発明者らは、結合CDRH3が、非結合変異体よりも著しく生成される可能性が高いことを見出した(
図16)。しかしながら、ライブラリは、自然界では観察されなかったa.a.も含有していたため、その変異体の大部分は、天然に存在する配列よりも、本発明者らのモデルによって生成される可能性は低いものであった(
図16、
図17)。しかしながら、分布間が重複していることから、VAEモデルがこれらの変異体の一部をインシリコで生成することができることが示された。本発明者らは、この事実を100万回の潜在的エンコーディングをサンプリングして確認した。
【0046】
II.考察
本解決策は、広範囲の収束を明らかにし、インシリコ配列を生成するための分析ツールおよびワークフローを提供することができる。本システムは、VHスクリーニングワークフローを含むことができ、これにより、抗体発現およびディスプレイ系に基づくバイオインフォマティクスおよびスクリーニング技術を組み合わせることができる。エンコーダによって明らかにされた収束クラスタまたはデコーダによって生成されたインシリコ配列を使用して、薬物開発のための最適な特性(例えば、抗体開発能)を評価することができる。収束クラスタ抗体を実験アッセイを、通じて使用して、それらの同族の結合エピトープ(例えば、ペプチド/タンパク質抗原ライブラリアレイ、質量分析)を識別することもでき、これらの同族エピトープは、薬物開発の標的として機能し得る。収束クラスタはまた、個体の免疫状態または健康/疾患状態を評価するための診断として使用され得る。
【0047】
要約すると、本システムにより、マウスの抗体レパートリにおいて、一連の抗原にわたる広範囲の収束が生じることが示される。収束を検出するために使用されている現在のアプローチは、正確なCDR3配列同一性を調べるか、または80%の配列同一性の閾値を使用しており、個々の収束モチーフにおいて40%を超える非類似性が見られるため、収束パターンの完全なスケールは部分的にしか回復することができない。収束を抽出するために使用され得る他のクラスタリングアルゴリズムも、しばしば、任意の類似性閾値の定義を必要とする。本解決策では、これらのパラメータをデータから学習して、種々の程度の類似性のクラスタが形成される。さらに、これらのシステムにより、レパートリの奥深くに埋もれている収束モチーフを発見することができる。これは、利用可能な配列決定データの量が増加するにつれて、同様の現象がヒトでもより一般的に観察される可能性があることを強調するものである。さらに、本発明者らは、深層生成モデリングを使用して、新規かつ機能的な抗体をインシリコで生成する方法を初めて示し、それによって、深層配列決定から抗体発見能力を大幅に拡張させることを可能とした。
【0048】
III.方法
A.免疫化
6~8週齢の雌BALB/cマウス(チャールスリバー社製)を、抗原、すなわちニワトリ卵白リゾチーム(HEL)、卵白アルブミン(OVA)、Blue Carrier Protein(BCP)および呼吸合胞体ウイルス糖タンパク質(RSV)に基づいて、コホート(10~12匹)に分離した。マウスに、200μg抗原および20μgモノホスホリル脂質A(MPLA)アジュバントの皮下注射を行った。最終的な免疫接種(ブースト1、2、または3)は、アジュバントなしで腹腔内注射当たり50μgの抗原で行った。中間免疫接種(ブースト1および/または2)は、50μg抗原および20μg MPLAで行った。順次、3週間間隔で注射を行った。全てのアジュバントおよび抗原を調製し、実験の前にアリコートし、対応する注射の日に混合した。最終的な免疫化の10日後にマウスを屠殺し、骨髄を後足の大腿骨から抽出した。次いで、単離した骨髄を400g、4℃で5分間遠心分離した。上清を除去し、1.25mLのトリゾールを添加した。次いで、骨髄を、18G×2インチの針(1.2×50mm)を使用して均質化した。次いで、得られたトリゾール溶液1mLを、処理するまで-80℃で凍結した。マウスコホートおよび免疫群を表1に記載する。
【0049】
B.マウス骨髄からのRNA抽出
1mLのホモジネートを、PureLink RNAミニキット(ライフテクノロジーズ社製、12183018A)の入力として使用した。次に、製造業者のガイドラインに従って、RNA抽出を行った。
【0050】
C.抗体レパートリライブラリの調製および深層配列決定
深層配列決定のための抗体可変重鎖(VH)ライブラリを、包括的なエラーおよびバイアス補正を可能にする分子増幅フィンガープリント(MAF)のプロトコルを使用して調製した(Khan,T.A.,et al.,「Accurate and predictive antibody repertoire profiling by molecular amplification fingerprinting」Sci Adv,2016.2(3):p.e1501371)。簡潔に述べると、IgGサブタイプの定常重領域1(CH1)に対応する遺伝子特異的プライマーを使用し、逆ユニーク分子識別子(RID)を含有するオーバーハング領域を用いて、全RNA上で逆転写の第1のステップを実施した。次に、多重PCRは、VHのフレームワーク1(FR1)領域にアニールし、フォワード分子識別子(FID)および部分的Illuminaアダプターのオーバーハング領域を有するフォワードプライマーセットを使用して、第1鎖cDNA上で実行され、リバースプライマーはまた、部分的Illumina配列決定アダプターを含有している。最終的なシングルプレックスPCRステップを実施して、完全なIlluminaアダプターの添加を完了する。ライブラリ調製後、フラグメントアナライザ(アジレント社製)上で、全体的なライブラリの品質および濃度を判定した。次いで、ライブラリをプールし、品質目的のために10%のPhiX DNAを添加した試薬v3キット(2×300bp)を使用して、Illumina MiSeq上で配列決定した。
【0051】
D.データの前処理および配列アライメント
アラインメントの前に、生のFASTQファイルをカスタムCLCゲノミクスワークベンチ10スクリプトによって処理した。まず、0.05の品質制限を有する品質トリミングオプションを使用して、低品質ヌクレオチドを除去した。その後、順方向および逆方向の読み取り対をマージし、得られた350~600個の塩基対をさらなる分析のために保持した。次いで、前処理した配列をエラー補正し、アラインメントさせた。
【0052】
E.抗体レパートリへの変分深埋め込み(VaDE)
また、
図1および
図3を参照すると、特に、エラー誤差およびバイアス補正、ならびに抗体レパートリ配列決定データのアラインメントの後、各データセットについてのCDRH1、CDRH2、およびCDRH3の発見された全ての組み合わせを抽出した。種々の長さのCDRHを処理するために、
図3に関して上述したように、一定の固定長(データ中の各CDRHの最大長)に達するまで、配列をダッシュでパディングした。パディングされた配列は、特に、
図3に関して、ワンホットエンコーディングされ、連結され、変分オートエンコーダ(VAE)への入力として使用した。VAEモデルでは、以下の式に従って、潜在空間のガウス混合モデル(GMM)ベースのクラスタリングと共に、その入力を再構築する能力を共同で最適化する。
ここで、
また、次式のような事後の変分近似を行う。式中、q(z│x,y)がガウス分布に従って分布すると仮定している。
q(y,z│x)=q(y│x)q(z|x,y)
【0053】
本技術では、事後モデリングの際に平均場近似を行わないことで、モデルの安定性を高めることができる。本システムは、全ての層で共有された重みを使用して、全ての入力配列を、あたかもその配列が(ワンホットエンコーディングされたクラスタ標識によって示される)全てのクラスタに属するかのようにエンコードおよびデコードすることができる。次に、本システムは、特定のクラスタに属する配列の確率を記述する別々に予測された確率q(y│x)によって、全体の損失に対する最終的な寄与を重み付けする(
図5)。デコーダは、入力配列および連結されたクラス標識を、正規化線形ユニット(ReLU)活性化を伴う2つの高密度層、続いて最終の10次元の層を使用して、より低い次元(d=10)の空間にマッピングする。配列は、デコーダを使用して潜在空間からサンプリングされ、再作成される。復号化ネットワーク(
図5)は、ReLU活性化を伴う2つの別個の高密度層、続いて線形活性化を伴う高密度層を採用しており、その出力は、初期のワンホットエンコーディングCDRHの確率を再構築するために、ソフトマックス活性化で再形成および正規化することができる。標準多クラス交差エントロピー損失は、再構築項として使用され得る。例えば、全てのVAEモデルは、並列コンピューティングクラスタ(例えば、ETHチューリッヒ並列コンピューティングクラスタ)の単一のGPUノード上で訓練され得る。訓練には、確率最適化アルゴリズムを使用して、全てのモデルに200個のエポックを含めることができる。
【0054】
VaDEは、
図2に示されるように、潜在空間のガウス混合モデル(GMM)ベースのクラスタリングと共に、深層生成モデルを共同で最適化することができる。エンコーダ108は、CDR1、CDR2、およびCDR3配列を連結し、セルフアテンション層にそれらを供給する。この層の入出力は、正規化された残査ブロックを形成する。正規化された残査ブロックは、位置ごとの完全に接続されたフィードフォワードニューラルネットワーク層に入力される。次いで、この層の出力は、線形変換を使用して、より低次元の潜在空間にマッピングされる。
【0055】
また、
図1および
図4を参照すると、特に、デコーダ112は、潜在空間から配列を再作成することができる。デコーダ112は、
図4に示すように、3つの別個の長い短期再帰ニューラルネットワーク(LSTM-RNN)層を用いることができ、その出力は、初期のワンホットエンコーディングCDRを個別に再構築するために、ソフトマックス活性化を伴うフィードフォワード層を使用して処理される。各VaDEモデルは、例えば、並列コンピューティングクラスタのGPUノードで訓練された。訓練は、100回以上の事前訓練と1000回以上の完全訓練を含むことができる。事前訓練するために、
図3に図示されている上述のアーキテクチャを層が反映する深層オートエンコーダモデルを使用した。事前訓練が完了した後、潜在空間でGMMを学習し、オートエンコーダの層重みとGMMパラメータの両方を使用してフルモデルを初期化した。
【0056】
F.単一抗体レパートリの抗原曝露の予測
レパートリデータセットを5つのフォールドに分割し、各フォールドは、異なる抗原群の数でおおよそバランスが取れており、各データセットは、全てのフォールドにわたって1回のみ現れる。次いで、この分割を使用して、交差検証手順を実行し、ここで、5つのフォールドの各々を1回テストセットとして確保し、残りの4つのフォールドを訓練データとして使用した。5つの訓練/テスト分割の各々について、訓練セットからの全てのレパートリにわたる全ての配列を入力として組み合わせることによって、別個のVAEモデルが学習された。次いで、訓練済みモデルについて、訓練およびテストセットの両方からのクラスタリング割り当てまたは配列を計算した。これらのクラスタ標識に基づいて、各レパートリをn次元ベクトルとして再コード化した。ここで、nは、可能なクラスタの数であり、i番目の要素は、所与のレパートリ内のi番目のクラスタにマッピングする配列の数を示す。次いで、これらのベクトルを使用して、一対一の設定で線形サポートベクトルマシン(SVM)を訓練し、検証した。また、リソースを大量に消費するネスト化された交差検証手順を防ぐために、SVMのハイパーパラメータを最適化せず、代わりにサイキット-ラーン(scikit-learn)の「SVC」の実装形態で与えられた標準値(線形カーネルを使用)を使用することにした。可視化の目的のために、各交差検証ステップの結果を、1つの単一の混同行列に群化した(
図6B)。
【0057】
G.抗原関連配列クラスタの識別
抗体レパートリから抗原関連配列クラスタを識別して、配列リードが特定のコホートを与えられた1つのクラスタで特異的に濃縮されたかどうかを判定するために、非パラメトリックパーミュテーション検定を行った(
図6D)。複数の検定を考慮するために、各コホートの全てのp値にボンフェローニ補正を適用した。さらなる検証のために、各クラスタから1つのCDR1-CDR2-CDR3組み合わせおよびその同族の全長可変領域をランダムに選択することによって進めた。
【0058】
H.クラスタ特異的インシリコ変異体の生成
クラスタ特異的な新規変異体を、多変量ガウス分布から潜在空間内のデータポイントをサンプリングすることによってインシリコで生成し、そこでパラメータを、最終的なVAEモデルからのそれぞれのクラスタパラメータによって与えた。次いで、これらのサンプリングされたデータポイントを復号化ネットワークに供給し、各CDRHの位置確率行列を得た(
図8Aを参照)。各データポイントについて、所与のCDRH1、CDRH2、およびCDRH3を生成した。このプロセスは、何百万回も反復された。単一配列の対数確率は、証拠の下限(ELBO)の平均500個のサンプルを取得することによって近似した。
【0059】
I.ハイブリドーマ細胞培養条件
全てのハイブリドーマ細胞株およびライブラリを、10%(v/v)熱不活性化ウシ胎仔血清(FBS;Thermo社製)、100U/mlペニシリン/ストレプトマイシン(Pen Strep;Thermo社製)、10mM HEPES緩衝液(Thermo社製)、および50μM 2-メルカプトエタノール(Thermo社製)を補充した高グルコースダルベッコ改変イーグル培地(DMEM;Thermo社製)で培養した。全てのハイブリドーマ培養物を、5%CO2の加湿空気中、37℃の一定の温度で細胞培養インキュベータに維持した。ハイブリドーマ細胞は、典型的には、T-25フラスコ(TPP、90026)中の10mLの培地中で培養し、48/72時間ごとに通過させた。全てのハイブリドーマ細胞株は、マイコプラズマを含まないことが毎年確認されている(ユニバーサルマイコプラズマ検出キット、ATCC、30-1012K)。細胞株PnP-mRuby/Cas9は、Mason et al.,(2018)に公開されている。
【0060】
J.CRISPR-CAS9相同組換え修復による抗体ライブラリの生成
候補VH遺伝子は、遺伝子断片としてツイストバイオサイエンス社に注文し、これらは、使用前に25μl Tris-EDTA、pH7.4(Sigma社製)中に再懸濁された。本研究で使用される全てのオリゴヌクレオチド、ならびにcrRNA-JPおよびtracrRNAをインテグレーテッドディーエヌエーテクノロジーズ社(IDT)から購入し、Tris-EDTAを用いて100μM(オリゴヌクレオチド)、または使用前にヌクレアーゼフリー二本鎖緩衝液(IDT社製、11-01-03-01)を用いて200μM(crRNA/tracrRNA)に調整した。この研究を通じて使用された相同組換え修復(HDR)ドナーテンプレートは、pUC57(Kan)-HEL23-HDR相同ドナープラスミドに基づいていた。ライブラリクローニングアーチファクトおよび非修飾親ベクターDNAによるバックグラウンド抗体発現を回避するために、2つの連続した終止コドンを、VHおよび可変軽鎖(VL)配列のコード領域の開始部に組み込んだ。
【0061】
各候補VHについて、別個のHDR-ドナーVLライブラリを、Gibsonアセンブリマスターミックス(NEB)を使用して、Gibsonクローニングによって段階的に組み立てた。必要に応じて、製造業者の指示に従って、KAPA Hifi HotStart Ready Mix(カパバイオシステムズ社製)を使用して断片を増幅した。まず、重鎖遺伝子を遺伝子断片から増幅し、PCR線形化親HDR-ドナーベクターにクローニングした(ステップ1)。次に、4つのそれぞれの抗原RTのうちの1つで免疫化したマウスの全骨髄RNAを、VL定常領域に特異的な退化プライマーを有するMaxima逆転写酵素(Thermo社製)を使用して行った。得られたcDNAを使用して、退化マルチプレックスプライマーを使用して、マルチプレックスPCR反応におけるそれぞれのVLレパートリを増幅した(表7)。最後に、VLレパートリを、各候補VHライブラリについて、ステップ1で作製したPCR線形化HDR-ドナーベクターにクローニングし(ステップ2)、最終ライブラリを、多様性およびバックグラウンドクローンの観点から評価した。典型的には、固定VHHDRドナーVLライブラリサイズは、ライブラリ当たり30,000~80,000のトランスフォーマントの範囲であった。
【0062】
(表7)ライブラリ生成および配列決定に使用されるプライマー
【0063】
PnP-mRuby/Cas9細胞を、プログラムCQ-104を有するSF Cell Line4D-ヌクレオフェクターキットL(ロンザ社製、V4XC-2012)を使用して、4D-ヌクレオフェクターシステム(ロンザ社製)でエレクトロポレーションした。各HDR-ドナーライブラリについて、106個の細胞を、125gで10分間の遠心分離によって採取し、1mLのOpti-MEM還元血清培地(Thermo社製、31985-062)で洗浄し、同じパラメータを使用して再度遠心分離した。最終的に、細胞を、500pmolのcrRNA-J/tracrRNA複合体およびSF緩衝液で希釈した20μgのHDRドナープラスミド(5.9kb)を含有する100μlのヌクレオフェクション混合物中に再懸濁した。エレクトロポレーション後、細胞を、24ウェルプレート(Thermo社製)中の1mLの増殖培地中で2日間培養し、さらに1日間、2mLの増殖培地を含有する6ウェルプレート(Costar社製)に移動した。
【0064】
K.フローサイトメトリによるハイブリドーマ抗体ライブラリのスクリーニング
CRISPR-Cas9修飾ハイブリドーマのフローサイトメトリベースの分析および細胞単離を、BD LSR FortessaおよびBD FACS Aria III(BDバイオサイエンス社製)上で行った。フローサイトメトリデータを、FlowJo V10(FlowJo LLC社製)を使用して分析した。トランスフェクションから3日後、1つの抗原に特異的なハイブリドーマ細胞ライブラリをプールし、蛍光活性化細胞選別(FACS)の連続ラウンドにおける抗体発現細胞および抗原特異的細胞について濃縮した。典型的には、前回の濃縮ステップからの選別された細胞の数は、後続の選別ステップのための標識細胞の数に関して40倍過剰にサンプリングされた。標識のために、細胞をPBS(Thermo社製、10010023)で洗浄し、標識抗体または抗原と共に光から保護された氷上で30分間インキュベートし、再びPBSで2回洗浄し、分析または選別した。標識試薬および作業濃度を表8に列挙する。106と異なる細胞数については、抗体/抗原の量ならびにインキュベーション体積を比例的に調整した。RSVF特異的細胞の標識には、RSVF-ビオチン/ストレプトアビジン-AlexaFluor647による細胞の間接標識のため、2ステップの標識手順が必要であった。
【0065】
【0066】
L.単細胞ハイブリドーマクローンの遺伝子型決定
単一細胞ハイブリドーマクローンのゲノムDNAを5×105細胞から単離し、これをPBSで洗浄し、QuickExtract DNA抽出溶液(エピセンター社製、QE09050)中に再懸濁した。細胞を、68℃で15分間および95℃で8分間インキュベートし、一体化された合成VL-Ck-2A-VH抗体領域を、5’および3’ホモロジーアームに特異的な隣接プライマーCATGTGCCTTTTCAGTGCTTTCTC(配列番号:33)およびCTAGATGCCTTTCTCCCTTGACTC(配列番号:34)でPCR増幅した。この単一の増幅器から、VHおよびVL領域の両方は、それぞれプライマーTGACCTTCTCAAGTTGGC(配列番号:36)およびGAAAACAACATATGACTCCTGTCTTC(配列番号:35)(Microsynth社製)を使用してサンガー配列決定され得る。
【0067】
M.ELISAによる抗体特異性の測定
分泌型IgGを含有する単一ハイブリドーマ細胞株上清の特異性を測定するために、標準的な酵素結合免疫吸着アッセイ(ELISA)を行った。高結合96ウェルプレート(Costar社製、CLS3590)を、4℃でPBS中の4ug/mlの抗原で一晩コーティングした。次いで、2%(m/v)の非脂肪乾燥乳粉末(アプリケム社製、A0830)および0.05%(v/v)のTween-20(アプリケム社製、A1389)を含有するPBSで、プレートを室温で2時間ブロックした。ブロック後、プレートを0.05%(v/v)のTween-20(PBST)を含有するPBSで3回洗浄した。細胞培養上清液を、0.2μm滅菌濾過し(ザルトリウス社製、16534)、2%(m/v)牛乳(PBSM)を添加したPBS中のプレート(1:3ステップ)にわたって連続的に希釈し、希釈されていない上清液を最高濃度として開始した。プレートを室温で1時間インキュベートし、PBSTで3回洗浄した。HRPコンジュゲートラットモノクローナル[187.1]抗マウスカッパ軽鎖抗体(アブカム社製、ab99617)を、PBSM中、0.7μg/ml(在庫からの1:1500希釈)で濃縮した二次検出抗体として使用した。プレートを再び室温で1時間インキュベートし、続いてPBSTで3つの洗浄ステップを行った。ELISA検出は、1ステップの超TMB-ELISA基質溶液(Thermo社製、34028)を使用して実施し、1M H2SO4で反応を終了した。450nmでの吸収を、Infinite 200PRO NanoQuant(Tecan社製)で測定し、Prism V8(Graphpad社製)を使用してデータを分析した。
【0068】
動作が特定の順序で図面に示されているが、かかる動作は、示されている特定の順序または順序で実行される必要はなく、例示されている動作は全て実行される必要はない。本明細書に記載される作用は、異なる順序で実行することができる。
【0069】
種々のシステム構成要素の分離は、全ての実装形態において分離を必要とせず、説明されたプログラム構成要素は、単一のハードウェアまたはソフトウェア製品に含めることができる。
【0070】
一部の例示的な実装形態をここで説明した後、上記は例示的であり、限定的ではないことが明らかであり、例として提示されている。特に、本明細書に提示される多くの例は、方法行為またはシステム要素の特定の組み合わせを含むが、それらの行為およびそれらの要素は、同じ目的を達成するために他の方式で組み合わされ得る。一実装形態に関連して考察される行為、要素、および特徴は、他の実装形態または実装形態における類似の役割から除外されることを意図しない。
【0071】
本明細書で使用される用語および用語は、記載の目的のためであり、制限するものと見なされるべきではない。本明細書における「その」およびその変形形態によって「特徴付けられる(characterized by,characterized in that)」ことを「含む(including)」「含む(comprising)」「有する(having)」「含有する(containing)」「含む(involving)」ことの使用は、その後に列挙される項目、その等価物、および追加の項目、およびその後に列挙される項目のみからなる代替の実装形態を包含することを意味する。一実装形態では、本明細書に記載されるシステムおよび方法は、記載される要素、作用、または構成要素のうちの1つ、複数の各組み合わせ、または全てからなる。
【0072】
本明細書で使用される場合、「約」および「実質的に」という用語は、当業者によって理解され、それが使用される文脈に応じてある程度変化するであろう。使用される文脈において当業者には明らかでない用語の使用が存在する場合、「約」は、特定の用語のプラスまたはマイナス10%までを意味する。
【0073】
本明細書において単数形で言及されるシステムおよび方法の実装形態または要素または行為への任意の参照は、複数のこれらの要素を含む実装形態を包含し得、複数形で本明細書の任意の実装形態または要素または行為への任意の参照は、単一の要素のみを含む実装形態を包含し得る。単数形または複数形での参照は、本明細書で開示されているシステムまたは方法、それらの構成要素、作用、または要素を単数形または複数形の構成に限定することを意図しない。任意の情報、行為、または要素に基づいている任意の行為または要素への言及は、行為または要素が任意の情報、行為、または要素に少なくとも部分的に基づいている実装形態を含み得る。
【0074】
本明細書に開示される任意の実装形態は、任意の他の実装形態または実施形態と組み合わされてもよく、「実装形態」、「一部の実装形態」、「一実装形態」などへの言及は、必ずしも互いに排他的ではなく、実装形態に関連して説明される特定の特徴、構造、または特徴が少なくとも1つの実装形態または実施形態に含まれ得ることを示すことが意図される。本明細書で使用される場合、かかる用語は、必ずしも全て同じ実装形態を指すものではない。任意の実装形態は、本明細書に開示される態様および実装形態と一致する任意の様式で、包括的または排他的に任意の他の実装形態と組み合わせてもよい。
【0075】
本明細書および特許請求の範囲で使用される場合、明確にそれに反して示されない限り、不定冠詞「1つの(a)」および「1つの(an)」は、「少なくとも1つ」を意味すると理解されるべきである。
【0076】
「または」への言及は、「または」を使用して記載された任意の用語が、記載された用語の単一、複数、および全てのいずれかを示すことができるように、包括的であると解釈されてもよい。用語の接続詞リストのうちの少なくとも1つへの言及は、説明された用語の単一、複数、および全てのうちのいずれかを示す包含的な「または(OR)」として解釈されてもよい。例えば、「『A』および『B』のうちの少なくとも1つ」への言及は、『A』のみ、『B』のみ、ならびに『A』および『B』の両方を含むことができる。「含む(comprising)」または他のオープンな用語と併せて使用されるかかる参照は、追加の項目を含むことができる。
【0077】
図面、詳細な説明、または任意の特許請求の範囲の技術的特徴の後に参照符号が続く場合、参照符号は、図面、詳細な説明、および特許請求の範囲の明瞭性を高めるために含まれている。したがって、参照符号があってもなくても、いかなる特許請求の範囲の要素の範囲に対していかなる制限効果も有しない。
【0078】
本明細書に記載されるシステムおよび方法は、その特徴から逸脱することなく、他の特定の形態で具現化され得る。前述の実装形態は、記載されたシステムおよび方法を限定するのではなく、例示的である。したがって、本明細書に記載されるシステムおよび方法の範囲は、前述の明細書ではなく、添付の特許請求の範囲によって示され、特許請求の範囲の意味および同等性の範囲内に入る変更が、そこに包含される。
【配列表】