(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-06-01
(54)【発明の名称】抗体を分類するためのシステムおよび方法
(51)【国際特許分類】
G16B 20/20 20190101AFI20220525BHJP
G16B 40/20 20190101ALI20220525BHJP
【FI】
G16B20/20
G16B40/20
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021559527
(86)(22)【出願日】2020-04-08
(85)【翻訳文提出日】2021-11-24
(86)【国際出願番号】 IB2020053370
(87)【国際公開番号】W WO2020208555
(87)【国際公開日】2020-10-15
(32)【優先日】2019-04-09
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】519146639
【氏名又は名称】エーテーハー チューリッヒ
【氏名又は名称原語表記】ETH ZURICH
(74)【代理人】
【識別番号】100102978
【氏名又は名称】清水 初志
(74)【代理人】
【識別番号】100102118
【氏名又は名称】春名 雅夫
(74)【代理人】
【識別番号】100160923
【氏名又は名称】山口 裕孝
(74)【代理人】
【識別番号】100119507
【氏名又は名称】刑部 俊
(74)【代理人】
【識別番号】100142929
【氏名又は名称】井上 隆一
(74)【代理人】
【識別番号】100148699
【氏名又は名称】佐藤 利光
(74)【代理人】
【識別番号】100128048
【氏名又は名称】新見 浩一
(74)【代理人】
【識別番号】100129506
【氏名又は名称】小林 智彦
(74)【代理人】
【識別番号】100205707
【氏名又は名称】小寺 秀紀
(74)【代理人】
【識別番号】100114340
【氏名又は名称】大関 雅人
(74)【代理人】
【識別番号】100121072
【氏名又は名称】川本 和弥
(72)【発明者】
【氏名】メイソン デレク
(72)【発明者】
【氏名】フリーデンソーン サイモン
(72)【発明者】
【氏名】ウェーバー セドリック
(72)【発明者】
【氏名】レディ サイ
(57)【要約】
本開示は、抗体などの結合タンパク質の1つ以上の特性、例えば、抗原に対する抗体親和性または特異性を分類する予測を行うためのシステムおよび方法を説明する。システムは、アミノ酸配列と機能との間の複雑な関係を推測し得る1つ以上の機械学習モデルを含み得る。システムは、2段階の単一部位およびコンビナトリアル深層突然変異走査アプローチを通じて生成された高品質の訓練データで訓練され得る。次いで、訓練済みモデルにより、インシリコ生成された新規の変異体配列について予測を行うことができる。本開示は、提供されたシステムおよび方法によって生成されたアミノ酸配列、ならびに治療および診断用のタンパク質を生成するための生成された配列の使用を説明する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
抗原結合分子の抗原結合部分を表す入力アミノ酸配列を提供する工程と、
第1の複数の変異体配列を含む第1の訓練データセットを生成する工程であって、前記第1の複数の変異体配列の各々が、前記抗原結合分子の前記入力アミノ酸配列における単一部位突然変異を含む、工程と、
第2の複数の配列を含む第2の訓練データセットを生成する工程であって、前記第2の複数の配列の各々が、前記第1の複数の変異体配列を含む前記第1の訓練データセットの濃縮スコアに基づく位置に複数の変異体を含む、工程と、
第1の機械学習モデルについての複数の重みおよびバイアスを生成するために、前記第2の訓練データセットを、前記第1の機械学習モデルを含む分類エンジンに提供する工程と、
前記第1の機械学習モデルについての前記複数の重みおよびバイアスに基づいて、前記分類エンジンによって、提案されたアミノ酸配列についての抗原に対する第1の親和性結合スコアを決定する工程と、
閾値を満たす前記第1の親和性結合スコアに基づいて、発現のための前記提案されたアミノ酸配列を選択する工程と
を含む、方法。
【請求項2】
前記抗原結合分子が、抗体、またはその抗原結合断片を含む、請求項1に記載の方法。
【請求項3】
前記抗原結合分子が、キメラ抗原受容体を含む、請求項1に記載の方法。
【請求項4】
前記分類エンジンによって、前記分類エンジンの第2の機械学習モデルを使用して、前記提案されたアミノ酸配列についての第2の親和性結合スコアを決定する工程と、
前記閾値を満たす前記第1の親和性結合スコアおよび前記第2の親和性結合スコアに基づいて、発現のための前記提案されたアミノ酸配列を選択する工程と
を含む、請求項1~3のいずれか一項に記載の方法。
【請求項5】
前記分類エンジンによって、複数の提案されたアミノ酸配列の各々についての親和性結合スコアを決定する工程と、
候補選択エンジンによって、前記複数の提案されたアミノ酸配列の各々について1つ以上のパラメータを決定する工程と、
前記候補選択エンジンによって、前記複数の提案されたアミノ酸配列の各々についての前記親和性結合スコアおよび前記1つ以上のパラメータに基づいて、前記複数の提案されたアミノ酸配列から候補変異体を選択する工程と
を含む、請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記候補選択エンジンが、所定の信頼度または確率レベルで分類された前記変異体のみを選択する、請求項5に記載の方法。
【請求項7】
前記所定の信頼度または確率レベルが、0.5より大きい、請求項6に記載の方法。
【請求項8】
前記候補選択エンジンが、1つ以上の追加パラメータのうちの少なくとも1つについての閾値を満たす前記提案されたアミノ酸配列に基づいて変異体を選択する、請求項5~7のいずれか一項に記載の方法。
【請求項9】
前記候補選択エンジンが、前記1つ以上の追加パラメータの各々についての閾値を満たす前記提案されたアミノ酸配列に基づいて変異体を選択する、請求項5に記載の方法。
【請求項10】
前記閾値のうちの1つ以上が、値の閾値である、請求項9に記載の方法。
【請求項11】
前記閾値のうちの1つ以上が、可変閾値または相対閾値である、請求項9または10に記載の方法。
【請求項12】
前記追加パラメータのうちの1つ以上についての前記閾値が、上位5%または上位10%におけるパラメータ値である、請求項9~11のいずれか一項に記載の方法。
【請求項13】
前記追加パラメータのうちの1つ以上についての前記閾値が、前記1つ以上のパラメータについての平均を上回る標準偏差の数に基づく、請求項9~12のいずれか一項に記載の方法。
【請求項14】
前記1つ以上のパラメータが、粘度値、溶解度値、安定性値、薬物動態値、および/または免疫原性値を含む、請求項5~13のいずれか一項に記載の方法。
【請求項15】
前記1つ以上のパラメータが、レーベンシュタイン距離値を含む、請求項5~14のいずれか一項に記載の方法。
【請求項16】
前記1つ以上のパラメータが、電荷値を含む、請求項5~15のいずれか一項に記載の方法。
【請求項17】
前記電荷値が、可変断片(Fv)電荷値である、請求項16に記載の方法。
【請求項18】
前記Fv電荷値が、約0~約6.2である、請求項17に記載の方法。
【請求項19】
前記電荷値が、可変断片電荷対称パラメータ(FvCSP)値である、請求項16に記載の方法。
【請求項20】
前記FvCSP値が、0より大きい、請求項19に記載の方法。
【請求項21】
前記1つ以上のパラメータが、疎水性指数値を含む、請求項5~20のいずれか一項に記載の方法。
【請求項22】
前記疎水性指数合計値が、4.0未満である、請求項21に記載の方法。
【請求項23】
前記1つ以上のパラメータが、タンパク質溶解度スコアを含む、請求項5~22のいずれか一項に記載の方法。
【請求項24】
前記タンパク質溶解度スコアが、CamSolスコアである、請求項23に記載の方法。
【請求項25】
前記タンパク質溶解度スコアが、0.5より大きい、請求項23または24に記載の方法。
【請求項26】
前記タンパク質溶解度スコアが、1より大きい、請求項25に記載の方法。
【請求項27】
前記1つ以上のパラメータが、最小親和性ランクを含む、請求項5~26のいずれか一項に記載の方法。
【請求項28】
前記1つ以上のパラメータが、平均親和性ランクを含む、請求項5~27のいずれか一項に記載の方法。
【請求項29】
前記1つ以上のパラメータが、製造責任に関連する配列モチーフを含む、請求項5~28のいずれか一項に記載の方法。
【請求項30】
前記1つ以上のパラメータが、n-グリコシル化部位を含む、請求項29に記載の方法。
【請求項31】
前記1つ以上のパラメータが、脱アミド化部位を含む、請求項29または30に記載の方法。
【請求項32】
前記1つ以上のパラメータが、異性化部位を含む、請求項29~31のいずれか一項に記載の方法。
【請求項33】
前記1つ以上のパラメータが、n-グリコシル化メチオニン酸化部位を含む、請求項29~32のいずれか一項に記載の方法。
【請求項34】
前記1つ以上のパラメータが、トリプトファン酸化部位を含む、請求項29~33のいずれか一項に記載の方法。
【請求項35】
前記1つ以上のパラメータが、対合または非対合システイン残基を含む、請求項29~34のいずれか一項に記載の方法。
【請求項36】
前記1つ以上のパラメータが、タンパク質構造化ベースのメトリックを含む、請求項5~35のいずれか一項に記載の方法。
【請求項37】
前記1つ以上のパラメータが、溶媒アクセス可能表面積(SASA)を含む、請求項36に記載の方法。
【請求項38】
前記1つ以上のパラメータが、パッチ正電荷(PPC)を含む、請求項36または37に記載の方法。
【請求項39】
前記PPC値が、1未満である、請求項38に記載の方法。
【請求項40】
前記1つ以上のパラメータが、パッチ負電荷(PNC)を含む、請求項36~39のいずれか一項に記載の方法。
【請求項41】
前記PNC値が、1.5未満である、請求項40に記載の方法。
【請求項42】
前記1つ以上のパラメータが、パッチ表面疎水性(PSH)を含む、請求項36~41のいずれか一項に記載の方法。
【請求項43】
前記PSH値が、約100~約150である、請求項42に記載の方法。
【請求項44】
前記1つ以上のパラメータが、表面Fv電荷対称パラメータ(SFvCSP)を含む、請求項36~43のいずれか一項に記載の方法。
【請求項45】
前記SFvCSP値が、0より大きい、請求項44に記載の方法。
【請求項46】
前記候補選択エンジンが、前記候補変異体のMHCクラスII分子への結合についての親和性結合スコアを計算する、請求項5~45のいずれか一項に記載の方法。
【請求項47】
前記MHCクラスII分子が、MHCクラスIIアイソタイプHLA-DR、HLA-DP、およびHLA-DQを含む、請求項46に記載の方法。
【請求項48】
前記候補変異体のMHC II分子への結合に対する前記親和性結合ランクが、NetNHCII%ランクである、請求項46または47に記載の方法。
【請求項49】
前記NetMHCII%ランクが、10%より大きい閾値を有する、請求項48に記載の方法。
【請求項50】
前記第1の機械学習モデルが、再帰ニューラルネットワーク(RNN)を含む、請求項1~49のいずれか一項に記載の方法。
【請求項51】
前記第1の機械学習モデルが、畳み込みニューラルネットワーク(CNN)を含む、請求項1~49のいずれか一項に記載の方法。
【請求項52】
前記第1の機械学習モデルが、標準人工ニューラルネットワーク(ANN)を含む、請求項1~49のいずれか一項に記載の方法。
【請求項53】
前記第1の機械学習モデルが、サポートベクターマシン(SVM)を含む、請求項1~49のいずれか一項に記載の方法。
【請求項54】
前記第1の機械学習モデルが、ランダムフォレストアンサンブル(RF)を含む、請求項1~49のいずれか一項に記載の方法。
【請求項55】
前記第1の機械学習モデルが、ロジスティック回帰モデル(LR)を含む、請求項1~49のいずれか一項に記載の方法。
【請求項56】
前記入力アミノ酸配列が、前記抗体の相補性決定領域(CDR)の一部である、請求項2および4~55のいずれか一項に記載の方法。
【請求項57】
前記入力アミノ酸配列が、CDRH3配列を含む、請求項56に記載の方法。
【請求項58】
前記入力アミノ酸配列が、CDRH1配列を含む、請求項56または57に記載の方法。
【請求項59】
前記入力アミノ酸配列が、CDRH2配列を含む、請求項56~58のいずれか一項に記載の方法。
【請求項60】
前記入力アミノ酸配列が、CDRL1配列を含む、請求項56~59のいずれか一項に記載の方法。
【請求項61】
前記入力アミノ酸配列が、CDRL2配列を含む、請求項56~60のいずれか一項に記載の方法。
【請求項62】
前記入力アミノ酸配列が、CDRL3配列を含む、請求項56~61のいずれか一項に記載の方法。
【請求項63】
前記入力アミノ酸配列が、前記抗体のフレームワークドメイン、または前記フレームワークドメイン内の領域を含む、請求項2および4~62のいずれか一項に記載の方法。
【請求項64】
前記入力アミノ酸配列が、前記抗体のFR1、FR2、FR3、またはFR4を含む、請求項63に記載の方法。
【請求項65】
前記入力アミノ酸配列が、前記抗体の定常ドメイン、または定常ドメインを有する領域を含む、請求項2および4~64のいずれか一項に記載の方法。
【請求項66】
前記入力アミノ酸配列が、前記抗体の全長重鎖配列を含む、請求項2および4~65のいずれか一項に記載の方法。
【請求項67】
前記入力アミノ酸配列が、前記抗体の全長軽鎖配列を含む、請求項2および4~66のいずれか一項に記載の方法。
【請求項68】
前記抗体が、治療抗体である、請求項2および4~67のいずれか一項に記載の方法。
【請求項69】
前記治療抗体が、アブシキシマブ(Reopro)、アダリムマブ(Humira,Amjevita)、アレファセプト(Amevive)、アレムツズマブ(Campath)、バシリキシマブ(Simulect)、ベリムマブ(Benlysta)、ベズロトキシマブ(Zinplava)、カナキヌマブ(Ilaris)、セルトリズマブペゴル(Cimzia)、セツキシマブ(Erbitux)、ダクリズマブ(Zenapax,Zinbryta)、デノスマブ(Prolia,Xgeva)、エファリズマブ(Raptiva)、ゴリムマブ(Simponi,Simponi Aria)、インフレクトラ(Remicade)、イピリムマブ(Yervoy)、イキセキズマブ(Taltz)、ナタリズマブ(Tysabri)、ニボルマブ(Opdivo)、オララツマブ(Lartruvo)、オマリズマブ(Xolair)、パリビズマブ(Synagis)、パニツムマブ(Vectibix)、ペムブロリズマブ(Keytruda)、リツキシマブ(Rituxan)、トシリズマブ(Actemra)、トラスツズマブ(Herceptin)、セクキヌマブ(Cosentyx)、およびウステキヌマブ(Stelara)から選択される、請求項68に記載の方法。
【請求項70】
前記第1の訓練データセットが、深層突然変異走査によって生成される、請求項1~69のいずれか一項に記載の方法。
【請求項71】
深層突然変異走査が、変異体配列の第1のライブラリを生成することを含み、
各変異体配列が、前記入力アミノ酸配列に対して単一のアミノ酸位置で修飾される、請求項70に記載の方法。
【請求項72】
前記第1のライブラリが、前記入力アミノ酸配列の各アミノ酸位置を表す変異体配列を含む、請求項71に記載の方法。
【請求項73】
前記第1のライブラリが、前記入力アミノ酸配列の各位置で、全ての20個の標準アミノ酸を表す変異体配列を含む、請求項71または72に記載の方法。
【請求項74】
前記変異体配列の第1のライブラリが、前記入力アミノ酸配列をコードする核酸の突然変異誘発によって生成される、請求項71~73のいずれか一項に記載の方法。
【請求項75】
前記変異体配列の第1のライブラリが、哺乳類細胞における高スループット突然変異誘発によって生成される、請求項71~74のいずれか一項に記載の方法。
【請求項76】
前記高スループット突然変異誘発が、エラーが生じやすいPCR、組換え突然変異誘発、アラニンスキャニング突然変異誘発、構造誘導突然変異誘発、または相同組換え修復(HDR)を含む、請求項75に記載の方法。
【請求項77】
前記変異体配列の第1のライブラリが、CRISPR/Cas9媒介性相同組換え修復(HDR)によって生成される、請求項76に記載の方法。
【請求項78】
深層突然変異走査が、前記変異体配列の第1のライブラリを含む複数の抗体を生成することを含む、請求項70~77のいずれか一項に記載の方法。
【請求項79】
深層突然変異走査が、
抗原に結合するための前記変異体配列の第1のライブラリを含む前記複数の抗体をスクリーニングすること、および、
前記抗原に結合するために選択された変異体の配列を決定し、それによって前記第1の訓練データセットを取得すること
をさらに含む、請求項78に記載の方法。
【請求項80】
前記第2の訓練データセットが、深層突然変異走査誘導型のコンビナトリアル突然変異誘発によって生成される、請求項1~79のいずれか一項に記載の方法。
【請求項81】
深層突然変異走査誘導型のコンビナトリアル突然変異誘発が、変異体配列の第2のライブラリを生成することを含み、
各変異体配列が、前記第1の訓練データセットに基づいて、2つ以上のアミノ酸位置で修飾される、請求項80に記載の方法。
【請求項82】
前記変異体配列の第2のライブラリが、入力アミノ酸配列の前記第1の訓練データをエンコードする核酸の突然変異誘発によって生成される、請求項81に記載の方法。
【請求項83】
前記変異体配列の第2のライブラリが、哺乳類細胞における高スループット突然変異誘発によって生成される、請求項81または82に記載の方法。
【請求項84】
前記変異体配列の第2のライブラリが、CRISPR/Cas9媒介性相同組換え修復(HDR)によって生成される、請求項81~83のいずれか一項に記載の方法。
【請求項85】
深層突然変異走査誘導型のコンビナトリアル突然変異誘発が、前記変異体配列の第2のライブラリを含む複数の抗体を生成することを含む、請求項81~84のいずれか一項に記載の方法。
【請求項86】
コンビナトリアル深層突然変異走査が、
前記抗原に結合するための前記変異体配列の第2のライブラリを含む前記複数の抗体をスクリーニングすること、および、
前記抗原に結合するために選択された変異体の前記配列を決定し、それによって前記第2の訓練データセットを取得すること
をさらに含む、請求項85に記載の方法。
【請求項87】
前記候補変異体が、前記入力アミノ酸配列以上の1つ以上のパラメータ値を有する、請求項5~86のいずれか一項に記載の方法。
【請求項88】
1つ以上のプロセッサと、プロセッサ実行可能命令を格納するメモリとを含むシステムであって、
前記1つ以上のプロセッサが、前記プロセッサ実行可能命令を実行して、
抗体の抗原結合部分を表す入力アミノ酸配列を受信することと、
第1の複数の変異体配列を含む第1の訓練データセットを受信することであって、前記第1の複数の変異体配列の各々が、前記抗体の前記入力アミノ酸配列における単一部位突然変異を含む、受信することと、
第2の複数の配列を含む第2の訓練データセットを受信することであって、前記第2の複数の配列の各々が、前記第1の複数の変異体配列を含む前記第1の訓練データセットの濃縮スコアに基づく位置に複数の変異体を含む、受信することと、
第1の機械学習モデルについての複数の重みおよびバイアスを生成するために、前記第2の訓練データセットを、前記第1の機械学習モデルを含む分類エンジンに提供することと、
前記第1の機械学習モデルについての前記複数の重みおよびバイアスに基づいて、提案されたアミノ酸配列についての抗原に対する第1の親和性結合スコアを決定することと、
閾値を満たす前記第1の親和性結合スコアに基づいて、発現のための前記提案されたアミノ酸配列を選択することと
を行う、システム。
【請求項89】
タンパク質またはペプチドであって、前記タンパク質またはペプチドのアミノ酸配列が、請求項1~87のいずれか一項に記載の方法、または請求項88に記載のシステムによって生成される、タンパク質またはペプチド。
【請求項90】
前記タンパク質またはペプチドが、抗原に結合する、請求項89に記載のタンパク質またはペプチド。
【請求項91】
前記タンパク質またはペプチドが、キメラ抗原受容体である、請求項90に記載のタンパク質またはペプチド。
【請求項92】
前記アミノ酸配列が、CDRH3配列を含む、請求項89または90に記載のタンパク質またはペプチド。
【請求項93】
前記タンパク質またはペプチドが、抗体またはその抗原結合断片を含む、請求項89、90または92に記載のタンパク質またはペプチド。
【請求項94】
前記タンパク質またはペプチドが、抗体の1つ以上の部分を含む融合タンパク質である、請求項93に記載のタンパク質またはペプチド。
【請求項95】
前記タンパク質またはペプチドが、scFvまたはFc融合タンパク質を含む、請求項89~94のいずれか一項に記載のタンパク質またはペプチド。
【請求項96】
前記抗原が、疾患または状態に関連付けられている、請求項90~95のいずれか一項に記載のタンパク質またはペプチド。
【請求項97】
前記抗原が、腫瘍抗原である、請求項96に記載のタンパク質またはペプチド。
【請求項98】
前記抗原が、抗炎症性抗原である、請求項96に記載のタンパク質またはペプチド。
【請求項99】
前記抗原が、寄生虫の抗原である、請求項96に記載のタンパク質またはペプチド。
【請求項100】
前記タンパク質またはペプチドが、前記入力アミノ酸配列を含むタンパク質またはペプチドと比較して、1つ以上の改善された特性を有する、請求項89~99のいずれか一項に記載のタンパク質またはペプチド。
【請求項101】
前記タンパク質またはペプチドが、前記入力アミノ酸配列を含むタンパク質またはペプチドと比較して、製造のための改善された生物物理学的特性を有する、請求項89~100のいずれか一項に記載のタンパク質またはペプチド。
【請求項102】
前記タンパク質またはペプチドが、前記入力アミノ酸配列を含むタンパク質またはペプチドと比較して、抗原に対する改善された親和性を有する、請求項89~101のいずれか一項に記載のタンパク質またはペプチド。
【請求項103】
前記タンパク質またはペプチドが、前記入力アミノ酸配列を含むタンパク質またはペプチドと比較して、免疫原性リスクが低下している、請求項89~102のいずれか一項に記載のタンパク質またはペプチド。
【請求項104】
図15A~
図15Dまたは
図23A~
図23Oに示されるアミノ酸配列を含む、タンパク質またはペプチド。
【請求項105】
前記タンパク質またはペプチドが、抗体またはその抗原結合断片を含む、請求項104に記載のタンパク質またはペプチド。
【請求項106】
前記タンパク質またはペプチドが、全長抗体を含む、請求項105に記載のタンパク質またはペプチド。
【請求項107】
前記タンパク質またはペプチドが、scFvまたはFc融合タンパク質を含む、請求項104または105に記載のタンパク質またはペプチド。
【請求項108】
前記タンパク質またはペプチドが、キメラ抗原受容体を含む、請求項104に記載のタンパク質またはペプチド。
【請求項109】
前記タンパク質またはペプチドが、融合タンパク質である、請求項104~108のいずれか一項に記載のタンパク質またはペプチド。
【請求項110】
前記タンパク質またはペプチドが、HER2(ヒト表皮成長因子受容体2)に結合する、請求項89~109のいずれか一項に記載のタンパク質またはペプチド。
【請求項111】
前記タンパク質またはペプチドが、前記トラスツズマブ(Herceptin)抗体と比較して、HER2抗原に対する改善された親和性を有する、請求項110に記載のタンパク質またはペプチド。
【請求項112】
請求項89~111のいずれか一項に記載のタンパク質またはペプチドを含む、細胞。
【請求項113】
請求項89~112のいずれか一項に記載のタンパク質またはペプチドをコードする核酸配列を含む、細胞。
【請求項114】
前記細胞が、哺乳類細胞、細菌細胞、酵母細胞、昆虫細胞、または真核細胞である、請求項112または113に記載の細胞。
【請求項115】
前記細胞が、免疫細胞である、請求項112~114のいずれか一項に記載の細胞。
【請求項116】
前記免疫細胞が、T細胞である、請求項115に記載の細胞。
【請求項117】
前記T細胞が、CAR-T細胞である、請求項116に記載の細胞。
【請求項118】
前記タンパク質もしくはペプチド、または細胞が、炎症性疾患、感染性疾患、癌、遺伝子障害、臓器移植拒絶反応、自己免疫疾患、または免疫障害を治療するために対象に投与される、請求項89~111のいずれか一項に記載のタンパク質もしくはペプチド、または請求項112~117のいずれか一項に記載の細胞。
【請求項119】
前記タンパク質もしくはペプチド、または細胞が、HER2陽性癌を治療するために対象に投与される、請求項89~111のいずれか一項に記載のタンパク質もしくはペプチド、または請求項112~117のいずれか一項に記載の細胞。
【請求項120】
前記タンパク質もしくはペプチド、または細胞が、炎症性疾患、感染性疾患、癌、遺伝子障害、臓器移植拒絶反応、自己免疫疾患、または免疫障害を治療するための薬剤の製造のために使用される、請求項89~111のいずれか一項に記載のタンパク質もしくはペプチド、または請求項112~117のいずれか一項に記載の細胞。
【請求項121】
前記タンパク質もしくはペプチド、または細胞が、HER2陽性癌を治療するための薬剤の製造のために使用される、請求項89~111のいずれか一項に記載のタンパク質もしくはペプチド、または請求項112~117のいずれか一項に記載の細胞。
【請求項122】
生体サンプル中の抗原を検出するための、請求項89~111のいずれか一項に記載のタンパク質またはペプチドの使用。
【請求項123】
対象における抗原をインビボで検出するための、請求項89~111のいずれか一項に記載のタンパク質またはペプチドの使用。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2019年4月9日に出願された米国特許出願第62/831,663号の優先権を主張しており、参照によりその全体が本明細書に組み込まれる。
【背景技術】
【0002】
開示の背景
抗体薬物の探索において、ファージまたは酵母ディスプレイライブラリのスクリーニングは、治療用抗体を識別するための標準的な慣行であり、典型的には、複数の潜在的なリード変異体候補を得ることができる。しかし、リード候補の最適化にかかる時間およびコストは、薬剤の前臨床探索および開発サイクルの大半を占めることが多い。これは、抗体分子のリード最適化が、発現レベル、粘度、薬物動態、溶解度、および免疫原性を含む複数のパラメータを並行して検討することが多いことに起因している。リード候補が見つかった後、追加のエンジニアリングが必要になることがある。ほとんど全ての治療抗体が全長IgGとして哺乳類細胞内での発現を必要とするという事実は、残りの開発および最適化工程がこの状況下で行われなければならないことを意味している。哺乳類細胞はプラスミドを安定して複製する能力を欠いており、約103個の抗体分子の最大範囲のライブラリをスクリーニングするために精緻なクローニング、トランスフェクション、および精製ストラテジを実施しなければならないため、この最後の開発段階は、低スループットで行われる。これにより、わずかな変化(例えば、単一点突然変異)しかスクリーニングできない場合がある。また、かかるタンパク質配列空間のわずかな部分を調べることは、1つの開発問題に対処することで、しばしば別の問題を引き起こすか、または抗原結合を完全に減少させ、マルチパラメータ最適化を困難にし得ることを意味している。
【発明の概要】
【0003】
開示の概要
例えば、抗原に結合する抗体、またはリガンドに結合する受容体を含む、結合タンパク質のアミノ酸配列の分類のためのシステムおよび方法が本明細書に提供される。一部の実施形態では、本明細書で提供する方法により、指向性進化および機械学習が組み合わせられ、入力アミノ酸配列に基づいて新しいタンパク質が開発される。一部の実施形態では、提供する方法は、結合タンパク質の1つ以上の特性、例えば、1つの抗原、または2つ以上の(例えば、多重特異性)抗原に結合する抗体の親和性もしくは特異性の増加を改善するアミノ酸配列を識別することができる。
【0004】
本開示の少なくとも1つの態様によれば、方法は、結合タンパク質の一部を表す入力アミノ酸配列を提供することを含み得る。一部の実施形態では、部分は、抗体の抗原結合部分である。一部の実施形態では、部分は、結合タンパク質の1つ以上の特性(例えば、抗原結合親和性)に影響を与える。方法は、第1の複数の変異体配列を含む第1の訓練データセットを生成することを含み得る。第1の複数の配列の各々は、結合タンパク質(例えば、抗体)の入力アミノ酸配列における単一部位突然変異を含み得る。方法は、第2の複数の配列を含む第2の訓練データセットを生成することを含み得る。第2の複数の配列の各々は、第1の複数の配列を含む第1の訓練データセットの濃縮スコアに基づく位置に複数の変異体を含み得る。方法は、第1の機械学習モデルについての複数のパラメータを生成するために、第2の訓練データセットを、第1の機械学習モデルを含む分類エンジンに提供することを含み得る。方法は、第1の機械学習モデルの複数のパラメータに基づいて、分類エンジンによって、提案されたアミノ酸配列についての抗原に対する第1の親和性結合スコアを決定することを含み得る。一部の実施形態では、パラメータは、第1の学習モデルの重みおよびバイアスを含む。方法は、閾値を満たす第1の親和性結合スコアに基づいて、さらなる分析、検証、および/または発現のために提案されたアミノ酸配列を選択することを含み得る。一部の実施形態では、提案されたアミノ酸配列のさらなる分析および検証は、提案されたアミノ酸配列の開発可能性および/または治療可能性に関連するもう1つのパラメータに基づく。
【0005】
方法は、分類エンジンによって、分類エンジンの第2の機械学習モデルを使用して、提案されたアミノ酸配列についての第2の親和性結合スコアを決定することを含み得る。方法は、閾値を満たす第1の親和性結合スコアおよび第2の親和性結合スコアに基づいて、発現のために提案されたアミノ酸配列を選択することを含み得る。方法は、分類エンジンによって、複数の提案されたアミノ酸配列の各々についての親和性結合スコアを決定することを含み得る。方法は、候補選択エンジンによって、複数の提案されたアミノ酸配列の各々について1つ以上のパラメータを決定することを含み得る。方法は、候補選択エンジンによって、複数の提案されたアミノ酸配列の各々についての親和性結合スコアおよび1つ以上のパラメータに基づいて、複数の提案されたアミノ酸配列から候補変異体を選択することを含み得る。1つ以上のパラメータは、タンパク質配列に基づくメトリック、例えば、レーベンシュタイン距離値、電荷値、疎水性指数値、CamSolスコア、最小親和性ランク、または平均親和性ランキングを含み得る。タンパク質配列ベースのメトリックはまた、n-グリコシル化部位、脱アミド化部位、異性化部位、メチオニン酸化、トリプトファン酸化、および対合または非対合システイン残基などの製造責任と関連付けられた配列モチーフを含み得る。1つ以上のパラメータはまた、溶媒アクセス可能表面積(SASA)、パッチ正電荷(PPC)、パッチ負電荷(PNC)、パッチ表面疎水性(PSH)、および表面Fv電荷対称パラメータ(SFvCSP)などのタンパク質構造化ベースのメトリックを含み得る。
【0006】
第1の機械学習モデルは、再帰ニューラルネットワーク(RNN)、畳み込みニューラルネットワーク(CNN)、標準人工ニューラルネットワーク(ANN)、サポートベクターマシン(SVM)、ランダムフォレストアンサンブル(RF)またはロジスティック回帰(LR)モデルを含み得る。入力アミノ酸配列は、抗体の相補性決定領域(CDR)の一部であり得る。入力アミノ酸配列は、抗体の1つ以上の特性の改善が望まれるCDRH1、CDRH2、CDRH3、CDRL1、CDRL2、CDRL3、抗体のフレームワークドメイン内の領域(例えば、FR1、FR2、FR3、FR4)、もしくは抗体の定常ドメイン内の領域(例えば、CH1、CH2、CH3)、またはこれらの任意の組み合わせであり得る。入力アミノ酸配列は、全長重鎖または全長軽鎖であり得る。入力アミノ酸配列は、抗体の1つ以上の部分を含む組換え配列であり得る。抗体は、治療用抗体であり得る。第1の訓練データセットは、深層突然変異走査によって生成され得る。深層突然変異走査は、各変異体配列が、入力アミノ酸配列に対して単一のアミノ酸位置で修飾される、変異体配列の第1のライブラリを生成することを含み得る。第1のライブラリは、入力アミノ酸配列の各アミノ酸位置を表す変異体配列を含み得る。
【0007】
第1のライブラリは、入力アミノ酸配列の各位置で全ての20個のアミノ酸を表す変異体配列を含み得る。変異体配列の第1のライブラリは、入力アミノ酸配列をコードする核酸配列の突然変異誘発によって生成され得る。変異体配列の第1のライブラリは、突然変異誘発および突然変異体配列の好適な発現系への導入によって生成され得る。突然変異誘発方法は、エラーが生じやすいPCR、組換え突然変異誘発、アラニンスキャニング突然変異誘発、構造誘導突然変異誘発、または相同組換え修復(HDR)などの任意の好適な方法を含み得る。発現系は、例えば、哺乳類、酵母、細菌、またはファージ発現系であり得る。変異体配列の第1のライブラリは、哺乳類細胞における高スループット突然変異誘発によって生成され得る。変異体配列の第1のライブラリは、CRISPR/Cas9媒介性相同組換え修復(HDR)によって生成され得る。深層突然変異走査は、変異体配列の第1のライブラリを含み得る複数の抗体を生成することを含み得る。深層突然変異走査は、抗原に結合するための複数の抗体および変異体配列の第1のライブラリをスクリーニングし、抗原に結合するために選択される変異体の配列および頻度を決定し、それによって第1の訓練データセットを取得することを含み得る。
【0008】
第2の訓練データセットは、深層突然変異走査誘導型のコンビナトリアル突然変異誘発によって生成され得る。深層突然変異走査誘導型のコンビナトリアル突然変異誘発は、変異体配列の第2のライブラリを生成することを含み得、各変異体配列は、第1の訓練データセットに基づいて、2つ以上のアミノ酸位置で修飾される。変異体配列の第2のライブラリは、哺乳類細胞における高スループット突然変異誘発によって生成され得る。変異体配列の第2のライブラリは、CRISPR/Cas9媒介性相同組換え修復(HDR)によって生成される。深層突然変異走査誘導型のコンビナトリアル突然変異誘発は、変異体配列の第2のライブラリを含む複数の抗体を生成することを含み得る。コンビナトリアル深層突然変異走査は、抗原に結合するための変異体配列の第2のライブラリを含み得る複数の抗体をスクリーニングし、抗原に結合するために選択される変異体の配列を決定し、それによって第2の訓練データセットを取得することを含み得る。
【0009】
本明細書で提供される方法によって生成されるアミノ酸配列を含むタンパク質またはペプチドもまた、本明細書で提供される。一部の実施形態では、生成されたアミノ酸配列は、CDRH3である。一部の実施形態では、本明細書で生成されるアミノ酸配列を含むタンパク質またはペプチドは、抗体またはその断片である。一部の実施形態では、本明細書で生成されるアミノ酸配列を含むタンパク質またはペプチドは、全長抗体である。一部の実施形態では、本明細書で生成されるアミノ酸配列を含むタンパク質またはペプチドは、抗体の1つ以上の部分を含む融合タンパク質である。一部の実施形態では、本明細書で生成されるアミノ酸配列を含むタンパク質またはペプチドは、scFvまたはFc融合タンパク質である。一部の実施形態では、本明細書で生成されるアミノ酸配列を含むタンパク質またはペプチドは、キメラ抗原受容体である。一部の実施形態では、本明細書で生成されるアミノ酸配列を含むタンパク質またはペプチドは、組換えタンパク質である。一部の実施形態では、本明細書で生成されるアミノ酸配列を含むタンパク質またはペプチドは、抗原に結合する。一部の実施形態では、抗原は、疾患または状態に関連付けられる。一部の実施形態では、抗原は、腫瘍抗原、炎症性抗原、病原性抗原(例えば、ウイルス、細菌、酵母、寄生虫)である。一部の実施形態では、本明細書で生成されたアミノ酸配列を含むタンパク質またはペプチドは、入力アミノ酸配列を含むタンパク質またはペプチドと比較して、1つ以上の改善された特性を有する。一部の実施形態では、本明細書で生成されるアミノ酸配列を含むタンパク質またはペプチドは、入力アミノ酸配列を含むタンパク質またはペプチドと比較して、抗原に対する改善された親和性を有する。一部の実施形態では、本明細書で生成されたアミノ酸配列を含むタンパク質またはペプチドは、入力アミノ酸配列を含むタンパク質またはペプチドと比較して、製造のための改善された生物物理学的特性を有する。一部の実施形態では、本明細書で生成されたアミノ酸配列を含むタンパク質またはペプチドは、入力アミノ酸配列を含むタンパク質またはペプチドと比較して、免疫原性リスクが低減されている。一部の実施形態では、本明細書で生成されるアミノ酸配列を含むタンパク質またはペプチドは、炎症性疾患、感染性疾患、癌、遺伝子障害、臓器移植拒絶反応、自己免疫疾患、または免疫障害を治療するために投与され得る。一部の実施形態では、本明細書で生成されるアミノ酸配列を含むタンパク質またはペプチドは、炎症性疾患、感染性疾患、癌、遺伝子障害、臓器移植拒絶反応、自己免疫疾患、および免疫障害を治療するための薬剤の製造に使用することができる。本明細書で生成されるアミノ酸配列を含むもう1つのタンパク質またはペプチドを含む細胞もまた、本明細書に提供される。細胞は、哺乳類細胞、細菌細胞、酵母細胞、または本明細書で生成されたアミノ酸配列を含むタンパク質もしくはペプチドを発現することができる任意の細胞であり得る。細胞は、免疫細胞、例えばT細胞(例えば、キメラ抗原受容体(CAR)T細胞療法で使用される細胞)であり得る。一部の実施形態では、本明細書で生成されるアミノ酸配列を含むタンパク質またはペプチドを使用して、生体サンプル中の抗原を検出することができる。
【0010】
本明細書では、
図15A~
図15D、
図23A~
図23Oのいずれかに示されるアミノ酸配列を含むタンパク質またはペプチドも提供される。一部の実施形態では、
図15A~
図15D、
図23A~
図23Oのいずれかに示されるアミノ酸配列は、CDRH3である。一部の実施形態において、
図15A~
図15D、
図23A~
図23Oのいずれかに示されるアミノ酸配列を含むタンパク質またはペプチドは、抗体またはその断片である。一部の実施形態では、
図15A~
図15D、
図23A~
図23Oのいずれかに示されるアミノ酸配列を含むタンパク質またはペプチドは、全長抗体である。一部の実施形態では、
図15A~
図15D、
図23A~
図23Oのいずれかに示されるアミノ酸配列を含むタンパク質またはペプチドは、抗体の1つ以上の部分を含む融合タンパク質である。一部の実施形態では、
図15A~
図15D、
図23A~
図23Oのいずれかに示されるアミノ酸配列を含むタンパク質またはペプチドは、scFvまたはFc融合タンパク質である。一部の実施形態では、
図15A~
図15D、
図23A~
図23Oのいずれかに示されるアミノ酸配列を含むタンパク質またはペプチドは、キメラ抗原受容体である。一部の実施形態では、
図15A~
図15D、
図23A~
図23Oのいずれかに示されるアミノ酸配列を含むタンパク質またはペプチドは、組換えタンパク質である。一部の実施形態では、
図15A~
図15D、
図23A~
図23Oのいずれかに示されるアミノ酸配列を含むタンパク質またはペプチドは、HER2(ヒト表皮成長因子受容体2)抗原に結合する。一部の実施形態では、
図15A~
図15D、
図23A~
図23Oのいずれかに示されるアミノ酸配列を含むタンパク質またはペプチドは、トラスツズマブ(Herceptin)抗体と比較して1つ以上の改善された特性を有する。一部の実施形態では、
図15A~
図15D、
図23A~
図23Oのいずれかに示されるアミノ酸配列を含むタンパク質またはペプチドは、トラスツズマブ(Herceptin)抗体と比較して、HER2抗原に対する改善された親和性を有する。一部の実施形態では、
図15A~
図15D、
図23A~
図23Oのいずれかに示されるアミノ酸配列を含むタンパク質またはペプチドを投与して、HER2陽性癌を治療することができる。一部の実施形態では、
図15A~
図15D、
図23A~
図23Oのいずれかに示されるアミノ酸配列を含むタンパク質またはペプチドを投与して、HER2陽性乳癌を治療することができる。一部の実施形態では、
図15A~
図15D、
図23A~
図23Oのいずれかに示されるアミノ酸配列を含むタンパク質またはペプチドは、HER2陽性乳癌を治療するための薬剤の製造に使用することができる。一部の実施形態では、HER2陽性癌は、転移性癌である。本明細書では、
図15A~
図15D、
図23A~
図23Oのいずれかに示されるアミノ酸配列を含む、もう1つのタンパク質またはペプチドを含む細胞も提供される。細胞は、哺乳類細胞、細菌細胞、酵母細胞、または
図15A~
図15D、
図23A~
図23Oのいずれかに示されるアミノ酸配列を含むタンパク質またはペプチドを発現し得る任意の細胞であり得る。細胞は、T細胞(例えば、CAR-T細胞)などの免疫細胞であり得る。一部の実施形態では、
図15A~
図15D、
図23A~
図23Oのいずれかを示すアミノ酸配列を含むタンパク質またはペプチドを使用して、生体サンプル中のHER2抗原を検出することができる。
【0011】
前述の概要および図面の以下の発明を実施するための形態および発明を実施するための形態は、例示的および説明的であり、特許請求される発明のさらなる説明を提供することを意図している。他の目的、利点、および新規の特徴は、以下の図面の簡単な説明および詳細な説明から、当業者に容易に明らかになるであろう。
【図面の簡単な説明】
【0012】
添付の図面は、縮尺に合わせて描画されることを意図しない。種々の図面における同様の参照番号および指定は、同様の要素を示している。明確にするために、全ての構成要素が全ての図面にラベル付けされているわけではない。
【0013】
【
図1】抗体候補を選択するためのシステム例のブロック図を示す。
【
図2A】
図1に示すシステム例で使用され得るニューラルネットワークの例を示す。
【
図3A】
図1に示す例示的なシステムで使用され得る別の例示的なニューラルネットワークを示す。
【
図4A】
図1に示される例示的なシステムと共に使用され得る訓練データを生成するための例示的なフロープロセスを示す。
【
図4B】
図1に示される例示的なシステムを使用して候補変異体を選択するための例示的なフロープロセスを示す。
【
図5A】(A)トラスツズマブ(Herceptin)CDRH3変異体配列、および(B)相同組換え突然変異誘発によるタイル化突然変異の組み込み後のフローサイトメトリプロファイルを示す。
【
図5B】3ラウンドの濃縮を行った抗原特異的変異体を示しており、(C)事前選別された(Ab+)集団および事後選別された(Ag+)集団の配列分析後の対応するヒートマップである。黒丸は野生型アミノ酸を示す。(D)得られた配列ロゴプロットは、位置ごとに正に濃縮された突然変異によって生成されている。
【
図5C】(E)標的抗原であるHER2と複合体を形成したトラスツズマブの3Dタンパク質構造を示す(Cho et al.(2003)Nature 421(6924):756-60)。表面に露出したアミノ酸位置102D、103G、104F、および105Yの位置が提供されている。
【
図6A】(A)配列ロゴプロットおよび(B)合理的に設計されたライブラリのトランスフェクションから生じるフローサイトメトリプロットを示す。2ラウンドの濃縮を行い、抗原特異的変異体のライブラリが作製された。
【
図6B】(C、D)ライブラリ(Ab+)、非結合変異体(Ag-)、および1および2ラウンドの濃縮後の結合変異体(Ag+1、Ag+2)で次世代配列決定がどのように実行されたかを示しており、(C)抗原結合変異体および(D)非結合変異体のアミノ酸頻度プロットは、全ての位置でほぼ区別不能なアミノ酸使用量を示している。
【
図7A】
図7A~
図7Eは、
図1に示すシステム例で使用できるフィルタリングポリシーの例を示す。ヒストグラムは、フィルタリングの異なる段階における全ての予測された変異体のパラメータ分布を示す。
図7Aは、(A)野生型トラスツズマブからのレーベンシュタイン距離、および(B)VHドメインの実効電荷を示す。
図7Bは、(C)CDRH3疎水性指数、および(D)CamSol固有溶解度スコアを示す。
図7Cは、(E)全ての可能な15量体にわたる最小NetMHCIIpan%ランク、および(F)全ての可能な15量体にわたる平均NetMHCIIpan%ランクを示す。
図7Dは、(G)種々の平均netMHCスコアを有する配列のカウント数、および(H)実験的および予測される結合剤の全体的な開発可能性スコアを示す。
図7Eは、(I)フィルタリングパラメータおよびフィルタリングの対応する段階における配列の数を示す。
【
図8】
図1に示される例示的なシステムを使用して抗原親和性を有する抗体を識別する例示的な方法のブロック図を示す。
【
図9A】
図9A~
図9Bは、gRNAのみ(左下のパネル)、gRNA+DMS ssODNライブラリ(中央下のパネル)、またはgRNA+DMS-コンビナトリアル突然変異誘発ライブラリ(右下のパネル)のいずれかを用いてハイブリドーマ細胞をトランスフェクションした後の、トラスツズマブ(Herceptin)CDRH3変異体およびCDRH3配列およびフローサイトメトリデータを示す。上部中央パネルは、トランスフェクション前のトラスツズマブCDRH3変異体の代表的なフローサイトメトリプロットである。
【
図10】トラスツズマブ(Herceptin)CDRH3深層突然変異走査のための例示的なフローサイトメトリデータを示す。(A)抗体発現(Ab+)細胞および抗原特異的(Ag+)細胞についてのFACSに続くフローサイトメトリプロット、ヒートマップ、および配列ロゴプロット。(B)抗原特異的(Ag+2)細胞の第2のラウンドの濃縮後のフローサイトメトリプロット、ヒートマップ、および配列ロゴプロットであり、抗原濃度の低下を、フローサイトメトリ標識に使用している。(C)抗原特異的(Ag+3)細胞のための第3のラウンドの濃縮後のフローサイトメトリプロット、ヒートマップ、および配列ロゴプロットであり、代替的にコンジュゲートされたフルオロフォア(Alexa Fluor 488)を含有する抗原で実施されるフローサイトメトリのために標識されている。全ての濃縮比(ER)は、それぞれのAg+集団に見出される突然変異体の頻度を、Ab+集団に見出される突然変異体の頻度で除算することによって計算されている。
【
図11】哺乳類細胞における抗原特異的ライブラリを生成するための例示的なワークフローおよびフローサイトメトリデータを示す。合理的に設計されたライブラリを含有するgRNAおよびssODNドナーテンプレートをトランスフェクションすることによって、ライブラリが生成される。抗体発現細胞(Ab+)は、磁気活性化細胞選別(MACS)によって濃縮される。次いで、Ab+細胞は、抗原特異的変異体のための複数ラウンドの濃縮を受けることができる。抗原特異的ライブラリは、DMS研究中の抗原濃縮の連続ラウンドに続いて計算された濃縮比から設計される。(A)1ラウンドの抗原濃縮(Ag+、
図10A)後にDMSデータから設計したライブラリ。(B)2ラウンドの抗原濃縮(Ag+2、
図10B)後にDMSデータから設計したライブラリ。(C)3ラウンドの抗原濃縮(Ag+3、
図10C)後にDMSデータから設計したライブラリ。
【
図12】ライブラリ(Ab+)、非結合変異体(Ag-)ならびに1および2ラウンドの濃縮(Ag+1、Ag+2)後に結合変異体上で実施したNGSについて検出された固有配列の配列リード、アラインメント、および数の例示的な次世代配列決定結果を示す。
【
図13A】
図13Aおよび
図13Bは、コンビナトリアル突然変異誘発ライブラリ上で行われたNGSについて検出された配列リード、アラインメント、および固有配列の数に関する例示的な次世代配列決定結果を示す。
【
図14A】
図14Aおよび
図14Bは、トラスツズマブ(Herceptin)CDRH3 DMSベースのコンビナトリアル突然変異誘発ライブラリの例示的なフローサイトメトリデータを示す。DMSベースのコンビナトリアル突然変異誘発ライブラリのトランスフェクションおよび組み込み後、抗原特異的変異体の頻度を使用して、モデル性能および評価を補助することができる。提供される例において、抗体変異体の約10%は、抗原特異的である。
【
図16A】
図16A~
図16Dは、開示された方法に従って予測される抗体配列についての実験的検証データを示す。
図16Aは、トラスツズマブの発現レベルと比較した種々の予測された抗体配列のタンパク質発現レベルを示す(最も右側)。
図16Bは、予測される抗体配列の結合動態を示す。トラスツズマブの結合動態は、ナノモル範囲で示される。
図16Cは、トラスツズマブ(最も右側)の熱安定性と比較した、予測された抗体配列の熱安定性を示す。
図16Dは、トラスツズマブと比較した2つの予測配列(CおよびF)の免疫原性リスクを示す。
【
図17A】
図17A~
図21Bは、未知のテストデータ上の結合剤および非結合剤の分類のためのモデル性能曲線を示す。初期データセットの30%を2つのテストデータセット(各15%)に分割した。1つのテストデータセットには、訓練データセット(テストセットA)に存在する結合配列と非結合配列の同じ比率が含まれ、他のテストデータセットには、
図14A~
図14Bに示したデータで観察される生理学的頻度に類似する10/90の結合配列および非結合配列(テストセットB)の近似比率が含まれる。(上部パネル)ROC(受信者操作特性)曲線およびPR(適合率-再現率)曲線は、テストセットAにおける配列の分類で観察される。(下部パネル)ROC曲線およびPR曲線は、テストセットBにおける配列の分類で観察される。(A)LSTM-RNN(長期短期記憶再帰ニューラルネットワーク)ROC曲線(左パネル)、LSTM-RNN PR曲線(右パネル)であり、(B)CNN(畳み込みニューラルネットワーク)ROC曲線(左パネル)、CNN PR(右パネル)である。
【
図22】
図17~
図21に示されるモデル性能曲線の各々について、AUC(曲線下面積)、平均PR、および予測される結合剤の数の要約を提供する。
【
図23A】
図23A~
図23Oは、テストした変異体のフローサイトメトリ分析(左)およびバイオ層干渉親和性分析(右)のための例示的なデータを示す。
【
図24A】深層突然変異走査研究のフローサイトメトリ標識条件の表を示す。
【
図24B】DMS誘導コンビナトリアル突然変異誘発ライブラリのフローサイトメトリ標識条件を示す。
【
図25】トラスツズマブ(Herceptin)CDRL3深層突然変異走査のための例示的なフローサイトメトリデータを示す。(A)抗体発現(Ab+)細胞および抗原特異的(Ag+)細胞についてのFACSに続くフローサイトメトリプロット、ヒートマップ、および配列ロゴプロット。(B)抗原特異的(Ag+2)細胞の第2のラウンドの濃縮後のフローサイトメトリプロット、ヒートマップ、および配列ロゴプロットであり、抗原濃度の低下を、フローサイトメトリ標識に使用している。(C)抗原特異的(Ag+3)細胞のための第3のラウンドの濃縮後のフローサイトメトリプロット、ヒートマップ、および配列ロゴプロットであり、代替的にコンジュゲートされたフルオロフォア(Alexa Fluor 488)を含有する抗原で実施されるフローサイトメトリのために標識されている。全ての濃縮比(ER)は、それぞれのAg+集団に見出される突然変異体の頻度を、Ab+集団に見出される突然変異体の頻度で除算することによって計算される。
【
図26】CDRL3ライブラリ(Ab+)ならびに1および2ラウンドの濃縮(Ag+1、Ag+2)後に結合変異体上で実施したNGSについて検出された固有配列の配列リード、アラインメント、および数の例示的な次世代配列決定結果を示す。
【
図27】抗体に沿った複数の位置(例えば、CDRL3およびCDRH3)で哺乳類細胞において抗原特異的ライブラリを生成するための例示的なワークフローおよびフローサイトメトリデータを示す。初期ライブラリは、第1の領域について合理的に設計されたライブラリを含有するgRNAおよびssODNドナーテンプレートをトランスフェクションすることによって生成される。抗体発現細胞(Ab+)は、蛍光活性化細胞選別(FACS)によって濃縮される。次に、第2の領域におけるライブラリは、第2の領域について合理的に設計されたライブラリを含有するgRNAおよびssODNドナーテンプレートをトランスフェクションすることによって生成される。抗体発現細胞(Ab+)は、蛍光活性化細胞選別(FACS)によって濃縮される。次いで、Ab+細胞は、抗原特異的変異体のための複数ラウンドの濃縮を受けることができる。抗原特異的ライブラリは、DMS研究中の抗原濃縮の連続ラウンドに続いて計算された濃縮比から設計される。(A)2ラウンドの抗原濃縮(Ag+2、
図25C)後にDMSデータから設計したCDRL3ライブラリ。(B)2ラウンドの抗原濃縮(Ag+3、
図10C)後のDMSデータから設計したCDRH3ライブラリ。(C~D)両方の領域に導入された遺伝的多様性を検証する最終的なCDRL3+CDRH3突然変異誘発ライブラリに由来するサンガー配列決定実験の実験結果。(E)は、抗原特異的ライブラリを最初にCDRL3で、次いでCDRH3で生成するための例示的なワークフローおよびフローサイトメトリデータを示す。
【
図28】アダリムマブ(Humira)CDRH3深層突然変異走査の例示的なデータを示す。抗体発現(Ab+)細胞および抗原特異的(Ag+)細胞についてのFACS後のライブラリの深層配列決定から生成されたヒートマップおよび配列ロゴプロットであり、代替的にコンジュゲートされたフルオロフォア(Alexa Fluor 488)を含有する抗原を用いて実施されるフローサイトメトリのために標識されている。
【
図29】アダリムマブCDRH3ライブラリ(Ab+)ならびに1および2ラウンドの濃縮(Ag+1、Ag+2)後に結合変異体上で実施したNGSについて検出された固有配列の配列リード、アラインメント、および数の例示的な次世代配列決定結果を示す。
【発明を実施するための形態】
【0014】
詳細な説明
上記で紹介し、以下でさらに詳しく説明する様々な概念は、特定の実装形態に限定されないため、数多くの方法の実装形態のいずれかで実施することができる。特定の実装形態および用途の例は、主に例示的な目的のために提供される。
【0015】
ファージおよび酵母ディスプレイスクリーニングは、大型の突然変異誘発ライブラリの高スループットスクリーニング(>109)に有用であるが、それらは主に標的抗原に対する親和性または特異性の増加にのみ使用される。ほとんど全ての治療抗体は、全長IgGとして哺乳類細胞内での発現を必要とし得、これは、初期選択に続く開発および最適化工程がこの状況下で行われなければならないことを意味する。哺乳類細胞は、プラスミドを安定して複製する能力を欠いており、最大103個の抗体の範囲のライブラリをスクリーニングするために精緻なクローニング、トランスフェクション、および精製ストラテジを実施しなければならないため、この最後の開発段階は、非常に低いスループットで行われる。したがって、この段階では、わずかな変化(例えば、点突然変異)しかスクリーニングされず、典型的には、少数の最適化されたリードのみが得られる。また、かかるタンパク質配列空間のわずかな部分を調べることは、1つの開発問題に対処することで、しばしば別の問題を引き起こし、または抗原結合を完全に減少させ、マルチパラメータ最適化を非常に困難にし得ることを意味する。
【0016】
本明細書に記載される方法は、合理的に設計された突然変異誘発ライブラリから機械学習への指向性進化の効果的な組み合わせを用いる、改善された治療用抗体開発プロセスを含む。深層学習モデルを用いて、抗体配列空間の巨大な多様性から抗原特異性を調べ、予測することで、数千の最適化されたリード候補の生成が可能となる。
【0017】
一部の態様では、哺乳類ディスプレイプラットフォームが使用されており、ここでは、CRISPR/Cas9媒介性相同組換え修復(HDR)などの哺乳類の発現のための高スループット突然変異誘発システムを使用して、合理的に設計された部位特異的突然変異誘発ライブラリが導入される。本発明者らは、記載された方法に基づいて生成された比較的小さなライブラリ(例えば、約104)のスクリーニングおよび深層配列決定により、抗体配列に基づいて抗原結合を予測する深層ニューラルネットワークを80%超の適合率で訓練し得る高品質のデータが得られることを見出した。
【0018】
本明細書に記載の方法に従って訓練されると、機械学習モデルを使用して、インシリコ生成された極めて大きなライブラリ変異体(例えば、トラスツズマブを入力アミノ酸配列として使用した場合、本明細書に記載の方法によって、約108個の変異体が生成された)から、数百万の抗原結合剤を予測することができる。これらの変異体は、複数の開発可能性フィルタに供され得、結果として、数万の最適化されたリード候補が得られる。本明細書の実施例で記載されるように、本方法を、例示的な抗体である治療抗体トラスツズマブの重鎖相補性決定領域3(CDRH3)に適用したところ、発現され、抗原結合についてアッセイされた、わずか30個の最適化されたリード候補の小さなサブセットのうち、29個が抗原特異的であることが観察された。したがって、テストのために選択されたほとんど全ての最適化されたリード候補は、予測された特性を有していた。そのスケーラブルなスループットおよび広大なタンパク質配列空間を調べる能力により、本明細書に記載される方法は、抗体および他のタンパク質ベースの治療薬のエンジニアリングおよび最適化を伴う多種多様な用途に適用され得る。
【0019】
本開示は、タンパク質配列-表現型の関係性の予測を行うためのシステムおよび方法を説明するものであり、抗原特異性または親和性などの1つ以上の所望のパラメータを有する治療抗体の識別に用いることができる。システムは、タンパク質配列と機能との間の複雑な関係を推測し得る1つ以上の機械学習モデルを含み得る。一部の態様では、これらのモデルは、単一部位突然変異誘発スキャン、続いてコンビナトリアル深層突然変異走査アプローチを組み合わせる、2段階の指向性進化アプローチを通じて生成された高品質の訓練データ上で訓練され得る。本明細書に記載される訓練済みモデルは、次いで、インシリコで生成された新しい抗体配列に関する予測を行うことができる。本明細書に記載されるシステムおよび方法は、ファージまたは細菌ディスプレイなどの標準的な発現系で物理的に可能なものよりもはるかに大きな配列空間の調査を可能にする。例えば、10個のアミノ酸からなる短いストレッチでは、コンビナトリアル配列の多様性は1013個にまで増大し、実験的に調べることはほぼ不可能である。一部の態様では、本明細書に記載されるシステムは、マルチパラメータ最適化を実行して、抗原結合剤としてモデルによって分類される変異体から、抗原特異性を示す可能性が最も高い抗原結合剤に分類される変異体を識別することもできる。
【0020】
図1は、抗体リード候補を選択する例示的なシステム100のブロック図を示している。候補識別システム102は、1つ以上のプロセッサ104および1つ以上のメモリ106を含み得る。プロセッサ104は、本明細書に記載される機能を実行するためにプロセッサ実行可能命令を実行することができる。プロセッサ104は、分類エンジン108および候補選択エンジン110を実行することができる。メモリ106は、プロセッサ実行可能命令を格納し、データを生成し、収集されたデータを格納することができる。メモリ106は、1つ以上の分類器重み112およびフィルタリングパラメータ114を格納することができる。メモリ106はまた、分類データ116、訓練データ118、および候補データ120を格納することができる。
【0021】
システム100は、1つ以上の候補識別システム102を含み得る。候補識別システム102は、プロセッサ104などの少なくとも1つの論理デバイスを含み得る。候補識別システム102は、データおよびプロセッサ実行可能命令を格納し得る少なくとも1つのメモリ要素106を含み得る。候補識別システム102は、少なくとも1つのデータセンター内に位置する複数のコンピューティングリソースまたはサーバを含み得る。候補識別システム102は、複数の論理的にグループ化されたサーバを含み、分散コンピューティング技術を容易にし得る。サーバの論理グループは、データセンター、サーバファーム、またはマシンファームと称され得る。サーバは地理的に分散させることもできる。候補識別システム102は、任意のコンピューティングデバイスであり得る。例えば、候補識別システム102は、1つ以上のラップトップ、デスクトップ、タブレット、スマートフォン、ポータブルコンピュータ、またはそれらの任意の組み合わせであり得るか、またはそれらを含み得る。
【0022】
候補識別システム102は、1つ以上のプロセッサ104を含み得る。プロセッサ104は、候補識別システム102に情報処理能力を提供することができる。プロセッサ104は、デジタルプロセッサ、アナログプロセッサ、情報を処理するデジタル回路、情報を処理するように設計されたアナログ回路、状態機械、および/または情報を電子的に処理するための他の機構のうちの1つ以上を含み得る。各プロセッサ104は、複数の処理ユニットまたは処理コアを含み得る。プロセッサ104は、メモリ106と電気的に結合することができ、分類エンジン108および候補選択エンジン110を実行することができる。
【0023】
プロセッサ104は、1つ以上のマイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、またはそれらの組み合わせを含み得る。プロセッサ104は、アナログプロセッサであり得、1つ以上の抵抗ネットワークを含み得る。抵抗ネットワークは、複数の入力および複数の出力を含み得る。複数の入力の各々、および複数の出力の各々は、ナノワイヤと結合され得る。入力のナノワイヤは、メモリ要素を介して出力のナノワイヤと結合され得る。メモリ要素は、ReRAM、メモリスタ、またはPCMを含み得る。プロセッサ104は、アナログプロセッサとして、アナログ信号を使用して行列ベクトル乗算を実行することができる。
【0024】
候補識別システム102は、1つ以上の分類エンジン108を含み得る。分類エンジン108は、データから特徴量を抽出し、抽出された特徴量に基づいてデータを分類するように構成された1つ以上の機械学習アルゴリズムを含み得る。例えば、分類エンジン108として、1つ以上の再帰ニューラルネットワーク(例えば、ノード間の結合が時間的動的挙動を可能にするために時間的配列に沿って指向性グラフを形成するフィードフォワードニューラルネットワークから派生したタイプの人工ニューラルネットワーク)、畳み込みニューラルネットワーク(例えば、互いに結合され、少なくとも1つの層で畳み込みを使用するノードの層を持つニューラルネットワーク)、標準的な人工ニューラルネットワーク(例えば、例または訓練データに基づいてタスクを実行することを学習するように構成された、結合されたユニットまたはノードの集合に基づくコンピューティングシステム)、サポートベクターマシン(例えば、分類および回帰分析に使用されるデータを分析する関連する学習関数を備えた教師あり学習モデル)、ランダムフォレストアンサンブル(例えば、訓練時に多数の決定木を構築し、クラスを出力することによって動作する分類、回帰、およびその他のタスクのためのコンピューティングシステム学習方法は、クラスのモードまたは個々のツリーの平均予測である)、またはロジスティック回帰モデル(例えば、ロジスティック関数を使用して、バイナリ従属変数などの特定のクラスまたはイベントが存在する確率をモデル化できる統計手法)が挙げられる。
【0025】
例えば、分類エンジン108は、人工ニューラルネットワークを含み得る。ニューラルネットワークは、入力層、複数の隠れ層、および出力層を含み得る。ニューラルネットワークは、多層ニューラルネットワーク、畳み込みニューラルネットワーク、または長期短期記憶(LSTM)ニューラルネットワークを含む再帰ニューラルネットワークであり得る。分類エンジン108は、複数のニューラルネットワークまたは分類モデルを含み得る。例えば、分類エンジン108は、分類データ116を、第1の分類モデル(例えば、畳み込みニューラルネットワーク)および第2の分類モデル(例えば、LSTMニューラルネットワーク)で処理することができる。候補選択エンジン110に関して以下に説明するように、候補選択エンジン110は、第1および第2の分類モデルによって識別された抗体として候補抗体を選択することができる。
【0026】
訓練段階の間、分類エンジン108は、訓練データ118を処理して、1つ以上の分類エンジンの機械学習モデルに対する重みおよびバイアスを生成することができる。訓練されると、分類エンジン108は、重みおよびバイアスを分類器重み112としてメモリ106に格納することができる。訓練データの生成および分類エンジン108の訓練は、以下に、メモリ106、訓練データ118、および例に関連してさらに説明される。
【0027】
分類エンジン108は、訓練データ118をニューラルネットワークに入力し、結果として生じる分類を(入力データのラベルによって定義されるように)予想される分類と比較することによって、重みおよびバイアスを生成することができる。例えば、それぞれが異なる分類に対応する10個の出力ニューロンを含む例示的なシステムにおいて、分類エンジン108は、バックプロパゲーションおよび勾配降下を使用して、予想される結果と分類エンジン108によって決定される結果との間のコストまたは誤差を最小限に抑えることができる。分類エンジン108がそのニューラルネットワークを訓練すると、分類エンジン108は、重みおよびバイアスを分類器重み112としてメモリ106に格納することができる。分類エンジン108のモデル(例えば、畳み込みニューラルネットワークおよびLSTMニューラルネットワーク)は、特に、
図2および3に関連してさらに説明される。
【0028】
候補識別システム102は、候補選択エンジン110を含み得る。所与のタンパク質配列空間(例えば、全ての可能なタンパク質配列変異体)について、分類エンジン108は、多数の変異体を抗原結合剤として分類することができる。候補選択エンジン110は、さらなるテストまたは研究のために、抗原結合剤として分類される変異体から候補変異体を選択することができる。候補選択エンジン110は、1つ以上のフィルタリングポリシーを抗原結合剤分類変異体に適用することによって候補変異体を選択することができる。フィルタリングポリシーは、それぞれが関連付けられた閾値または他の制約を有する1つ以上のフィルタリングパラメータ114を含み得る。抗原結合剤分類変異体が、例えば、それぞれのフィルタリングパラメータ114の閾値を満たす場合、候補選択エンジン110は、抗原結合剤分類変異体を候補変異体として選択することができる。
【0029】
候補選択エンジン110は、分類エンジン108の2つ以上のモデルが変異体を抗原結合剤として分類する場合、抗原結合剤分類変異体を候補変異体として選択することができる。例えば、分類エンジン108は、畳み込みニューラルネットワークおよびLSTMニューラルネットワークを含み得る。分類エンジン108は、畳み込みニューラルネットワークおよびLSTMニューラルネットワークを用いて変異体空間内の変異体の各々を分類し、各変異体について2つの分類(例えば、畳み込みニューラルネットワークによる1つの分類およびLSTMニューラルネットワークによる第2の分類)を生成することができる。分類エンジン108が複数のモデルを用いて分類を実行し、各変異体について複数の分類を生成する場合、モデル間のコンセンサスは、フィルタリングパラメータ114のうちの1つであり得る。例えば、畳み込みニューラルネットワークおよびLSTMニューラルネットワークの両方によって分類される抗原結合剤変異体として分類されない変異体は、さらなる処理から破棄され得る。候補データ120は、畳み込みニューラルネットワークおよびLSTMニューラルネットワークの両方によって抗原結合剤分類された変異体として分類される変異体を含み得る。
【0030】
フィルタリングパラメータ114は、既知の野生型抗体配列との類似性メトリック要件を含み得る。例えば、候補選択エンジン110は、変異体空間内の各変異体と既知の野生型配列との間のレーベンシュタイン距離を計算して、それぞれの変異体と野生型配列との間の類似性を決定することができる。フィルタリングポリシーは、各候補変異体が野生型配列との類似性閾値を満たす必要があることを示し得る。例えば、候補選択エンジン110は、抗原結合剤分類変異体が、例えば、5未満のレーベンシュタイン距離を有する場合、候補データ120に格納するための候補変異体として、抗原結合剤分類変異体を選択することができる。候補選択エンジン110は、一部の例では、5より大きいレーベンシュタイン距離を有する抗原結合剤分類変異体を選択することができる。
【0031】
フィルタリングパラメータ114は、ヒト抗体レパートリー配列との類似性メトリックを含み得る。例えば、候補選択エンジン110は、変異体空間内の各変異体と(例えば、患者B細胞からの)ヒト抗体配列の集合との間のレーベンシュタイン距離を計算して、それぞれの変異体とヒトレパートリーとの間の類似性を決定することができる。フィルタリングポリシーに基づいて、候補選択エンジン110は、ヒトレパートリー配列との類似性閾値を満たす候補変異体を選択することができる。
【0032】
フィルタリングパラメータ114は、タンパク質の任意の開発可能性属性を含み得、これには、例えば、実効電荷、疎水性指数、粘度、クリアランス閾値、溶解度、親和性、化学的安定性、熱安定性、発現性、特異性、交差反応性、またはそれらの任意の組み合わせが含まれる。候補選択エンジン110は、各抗原結合剤分類変異体について、抗原結合剤分類変異体の実効的な変化および疎水性を計算することができる。実効電荷および疎水性に基づいて、候補選択エンジン110は、抗原結合剤分類変異体の粘度値およびクリアランス値を計算することができる。例えば、粘度は、可変断片(Fv)実効電荷の増加、およびFv電荷対称パラメータ(FvCSP)の増加に伴って減少し得る。フィルタリングパラメータ114は、CDRL1+CDRL3+CDRH3の疎水性指数合計が4.0未満で、約0~約6.2の可変断片(Fv)電荷に基づくクリアランス値を含み得る。候補選択エンジン110は、n-グリコシル化部位、脱アミド化部位、異性化部位、メチオニン酸化、トリプトファン酸化、および対合または非対合システイン残基などの製造責任と関連付けられた配列モチーフを識別することができる。例えば、候補選択エンジン110は、製造責任に関連するゼロ配列モチーフを有する抗原結合剤分類変異体を選択することができる。候補選択エンジン110は、抗原結合剤分類変異体の各々のタンパク質溶解度を予測するためのタンパク質溶解度予測因子を含み得る。例えば、候補選択エンジン110は、1より大きい溶解度を有する抗原結合剤分類変異体を候補変異体として選択することができる。一部の実装形態では、候補選択エンジン110は、閾値を上回る溶解度または他の開発可能性属性を有する抗原結合剤分類変異体を選択することができる。閾値は、値の閾値であり得る。閾値は、変数または相対閾値であり得る。例えば、閾値は、抗原結合剤分類変異体の上位5%、10%、または他の割合であり得る。別の例では、候補選択エンジン110は、平均を上回る複数の標準偏差を上回る抗原結合剤分類変異体を選択することができる。
【0033】
候補選択エンジン110は、免疫原性であり得る候補ペプチドを除去するために、MHCクラスII分子の抗原結合剤分類変異体の各々についての親和性結合スコアを計算することができる。例えば、候補選択エンジン110は、3つのヒトMHCクラスIIアイソタイプHLA-DR、HLA-DPおよびHLA-DQへのペプチドの結合を予測するNetMHCIIpanなどのツールを利用することによって、変異体配列のMHCクラスII分子へのペプチド結合親和性を予測することができる。CDRH3配列は、5’および3’末端上の10個のアミノ酸でパディングすることができ、次いで、考え得る全ての15量体をNetMHCIIpanを介して実行することができる。候補選択エンジン110は、20万個のランダムな天然ペプチドのセットと比較して、MHCクラスIIに対する抗原結合剤分類変異体のパーセンテージランク予測親和性を決定することができる。候補選択エンジン110は、約20%、15%、10%、5%、または2%未満のパーセンテージランクを有する抗原結合剤分類変異体を除去することができる。パーセンテージランクが低いほど、MHCクラスIIに対する抗原結合剤分類変異体の予測される親和性が高い。一部の態様では、15量体のいずれかが%ランク<15を含有する場合、配列をフィルタリングすることができる。残りの配列の全ての15量体全体にわたる平均%ランクをさらに計算し、平均%ランク<70のものをフィルタリングすることができる。予測される結合親和性の平均値および中央値は、さらに、15量体の各々の全てのMHCクラスII対立遺伝子全体にわたって計算することができ、平均値および/または中央値が定義された閾値よりも大きいそれらの配列をフィルタリングすることができる。フィルタリングポリシーは、抗原結合剤分類変異体が、候補変異体として選択され、候補データ120として格納されるために、フィルタリングパラメータ114のうちの1つ以上を満たす必要があることを示し得る。
【0034】
候補識別システム102は、1つ以上のメモリ106を含み得る。メモリ106は、メモリ要素であり得るか、またはメモリ要素を含み得る。メモリ106は、プロセッサ104によって実行されたときに、プロセッサ104に、本明細書に記載された動作のうちの1つ以上を実行させ得る機械命令を格納することができる。メモリ106は、プロセッサ104に命令を提供し得る電子的、光学的、磁気的、または任意の他の記憶装置を含むことができるが、これらに限定されない。メモリ106は、フロッピーディスク、CD-ROM、DVD、磁気ディスク、メモリチップ、ROM、RAM、EEPROM、EPROM、フラッシュメモリ、光学媒体、またはプロセッサ104が命令を読み取ることができる任意の他の好適なメモリを含み得る。命令は、限定されないが、C、C++、C#、Java、JavaScript、Perl、HTML、XML、Python、およびVisual Basicなどの任意の好適なコンピュータプログラミング言語からのコードを含み得る。
【0035】
候補識別システム102は、分類器重み112をメモリ106に格納することができる。分類器重み112は、分類エンジン108のニューラルネットワークを定義する重みおよびバイアスを含むデータ構造であり得る。訓練されると、分類エンジン108は、分類データ116を分類する際に後で検索および使用するために、分類器重み112をメモリ106に格納することができる。
【0036】
候補データ120は、フィルタリングパラメータ114をメモリ106に格納することができる。上述のように、候補選択エンジン110は、抗原結合剤分類変異体から候補変異体を選択するためのフィルタリングポリシーを取得することができる。候補選択エンジン110は、フィルタリングポリシーを適用して、所与の抗原に対して比較的高い親和性を有する可能性が高い抗原結合剤分類変異体を識別することができる。フィルタリングパラメータ114はそれぞれ、それぞれのフィルタリングパラメータ114の閾値を示すデータ構造であり得る。例えば、フィルタリングパラメータは、所与の抗原結合剤分類変異体についての抗体が、約0~約6の間のFv実効電荷を有し得ることを示し得る。各フィルタリングパラメータ114は、特定のパラメータおよび所定の閾値(例えば、2を上回る)、所定の範囲(例えば、0~6の間)、適応閾値(例えば、抗原結合剤分類変異体の上位5%内の予測された親和性を有する)、または適応範囲(例えば、抗原結合剤分類変異体の予測された親和性の上位1%~5%の間)を示し得る。
【0037】
候補識別システム102は、分類データ116をメモリ106に格納することができる。分類データ116は、分類エンジン108によって分類される複数の変異体であり得る。分類データ116は、所与の配列についての変異体空間内の各変異体を含み得る。例えば、候補識別システム102は、所定の抗体から開始し、抗体の全ての可能な変異体を計算することができる。変異体の各々は、分類データ116としてメモリ106に格納され得る。
【0038】
候補識別システム102は、訓練データ118をメモリ106に格納することができる。訓練データ118は、複数の変異体の表示を含むデータ構造を含み得る。訓練データ118の各変異体は、別個に(例えば、単一の文字列またはベクトルとして)または集合的に(例えば、各列または行が異なる変異体に対応する行列として)格納され得る。訓練データは、それぞれの変異体が結合変異体であるか非結合変異体であるかを示すために、訓練データ118とラベル付けされ得る。例えば、各変異体は、変異体の配列をエンコードするバイナリファイルとして格納され得る。バイナリファイルには、変異体が結合変異体であることを示すために設定する(例えば、1に設定する)ことができるか、または変異体が非結合変異体であることを示すために設定する(例えば、0に設定する)ことができる、先頭(または末尾(trailing))ビットが含まれ得る。
【0039】
訓練データ118は、選択されたパラメータ(例えば、抗原結合)に基づいて合理的に設計された変異体のライブラリの物理的スクリーニングによって選択される変異体の集合であり得る。例えば、一部の実施形態では、訓練データは、数値を含む。一部の実施形態では、数値は、変異体の集合の結合動態値に対応する。一部の実施形態では、数値は、生物物理学的アッセイの数値結果(例えば、熱安定性のための融解温度、または溶解性のためのAC-SINS)に対応する。訓練データを生成するための例示的な方法がさらに詳細に説明される(例えば、
図4Aを参照されたい)。
【0040】
分類エンジン108は、訓練データ118を使用して訓練することができる。分類エンジン108は、この例において、標的抗原に対する特異性を予測するように訓練され得る。以下にさらに説明するように、
図2および
図3に関連して、(分類データ116のような)訓練データ118は、分類エンジン108に入力するためにワンホットエンコーディングされ得る。訓練データ118は、訓練データおよびテストデータに分割することができる。例えば、訓練データを使用して分類エンジン108を訓練することができ、テストデータを予約して、分類エンジン108の訓練の代わりに、訓練済み分類エンジン108の精度および適合率をテストすることができる。テストデータは、分類エンジン108が、テストデータの変異体が適切に分類されたかどうかを判定することを可能にするようにラベル付けされ得る。一例では、訓練データ118の70%を訓練のために確保することができ、30%を分類エンジン108のテストまたは評価のために使用することができる。テストデータは、結合剤と非結合剤の変異体の所定の割合を含むように分割され得る。例えば、テストデータは、生理学的頻度に類似するように、約10/90の結合剤/非結合剤に分割することができる。
【0041】
候補選択エンジン110は、候補変異体を候補データ120としてメモリ106に格納することができる。候補データ120は、フィルタリングポリシーのパラメータを満たす抗原結合剤分類変異体の各々を示し得るデータ構造であり得る。候補データ120は、抗原結合剤分類変異体をフィルタリングポリシーで処理する前に、または処理せずに、抗原結合剤として分類された各変異体を示し得るデータ構造であり得る。データ構造は、テキストベースのファイルまたは変異体の配列を示すバイナリファイルであり得る。例えば、配列は、テキストベースのファイルに文字列として格納することができる。データ構造(またはファイル)は、どの位置が野生型に関して突然変異したか、および突然変異の性質などのメタデータを含み得る。メタデータは、分類エンジン108が抗原結合剤分類変異体を抗原結合剤分類変異体として分類した確実性を示す分類スコアを含み得る。
【0042】
図2は、例示的なニューラルネットワーク200を図示する。ニューラルネットワーク200は、LSTMニューラルネットワーク200であり得る。
図2Aを参照されたい。LSTMニューラルネットワーク200は、ニューロン202とも称され得る複数のノード202を含み得る。ノード202は、層状に配置され得る。例えば、ノード202は、ノード202の入力層、ノード202の1つ以上の隠れ層、およびノード202の出力層を含み得る。各層は、1つ以上のノード202を含み得る。例えば、入力層は、10個のノード202を含み得(例えば、入力層内のノード202の数は、入力ベクトル204の長さに等しい)、出力層は、1つのノード202を含み得る。出力層のノード202は、入力ベクトル204が抗原結合剤分類変異体に対応する確率を示し得る。LSTMニューラルネットワーク200は、2つの出力ノード202を含み得、1つのノード202は、変異体が抗原結合剤分類変異体である可能性を提供し、第2のノード202は、変異体が非抗原結合剤分類変異体である可能性を提供する。
【0043】
LSTMニューラルネットワーク200は、約2~約10、約2~約8、約2~約6、約2~約4、または約2~約3層を含み得る。各層は、同じ数のノード202または異なる数のノード202を含み得る。入力層は、ワンホットエンコーディング行列入力上の各値についてのノード202を含み得る。例えば、10×20のワンホットエンコーディング行列について、入力層は、200個のノード202を含み得る。入力層内のノード202の数は、入力配列内の値の数(例えば、配列内のアミノ酸の数)に各値の可能な値の数を乗算したものに基づき得る。例えば、位置当たり20個の可能なアミノ酸を有する長さ10の配列について、入力層は、10×20=200のノード202を含み得る。LSTMニューラルネットワーク200は、複数の隠れ層を含み得る。隠れ層の各々は、同一のまたは異なる数のノード202を含み得る。隠れ層は、入力層よりも少ないノード202を含み得る。例えば、隠れ層は、各々40のノード202を含み得る。
【0044】
層内の各ノード202は、後続の層内の各ノード202にリンクされ得る。各ノード202は、それが結合されるノード202に、ノードの入力の加重和を出力する。ノード202は、出力をバイアスするために、加重和にバイアスを追加することができる。ノード202は、ノード202が加重和に基づいて信号をいつ「発火」または出力するかを判定する活性化関数(例えば、シグモイド関数、正規化線形ユニット(ReLU)、または漏れ正規化線形ユニット)を含み得る。各リンクの重みおよび各ノード202のバイアスは、訓練段階中に設定され、分類器重み112として格納され得る。LSTMニューラルネットワーク200は、再帰ニューラルネットワークであり得、各ノード202は、それ自体にフィードバック(または入力)を提供し得る。再帰ニューラルネットワークは、時間的挙動を示す内部状態を作成することができる。
【0045】
変異体を分類するために、分類エンジン108は、変異体の配列を入力ベクトル204に変換し、この入力ベクトル204の各値は、配列の各アミノ酸に対応する。入力ベクトル204は、入力配列の長さに等しい長さを有する。分類エンジン108は、入力ベクトル204をワンホットエンコードして、行列206を生成することができる。入力ベクトル204は、変異体配列の他の特徴量を含み得る。例えば、変異体配列の生物物理学的特性を入力ベクトル204にエンコードすることができる。行列206の各行は、入力ベクトル204のそれぞれの値(例えば、位置)に対応する。行列206の各列は、異なる可能性のあるアミノ酸に対応しており、これにより、入力ベクトル204のそれぞれの値を満たすことができる。この例では、20個のアミノ酸が存在するので、行列206は、20個の列を含む。行列206の各行には、入力ベクトル204のそれぞれの値に存在するアミノ酸に対応する列に1が含まれる。行列206は、ベクトルに平滑化され得、ベクトルからの各値は、入力層のノード202のうちの1つに提供され得る。行列206は、入力層のノード202に順次提供され得る。例えば、入力層は、10個の入力ノード202を含み得、行列206の列(例えば、各列の10個の値)は、入力ノード202に順次提供され得る。
【0046】
変異体を分類するために、分類エンジン108は、変異体の配列を入力ベクトル204に変換することができ、この入力ベクトル204の各値は、配列の各アミノ酸に対応する。入力ベクトル204は、入力配列の長さに等しい長さを有する。各個々のアミノ酸が物理的特性(例えば、電荷、疎水性、体積)の集合で表されるため、入力ベクトルのエンコーディングは、タンパク質の物理的特性に基づいて行うこともできる。
【0047】
図2Bは、テストデータセット上のLSTMニューラルネットワーク200の受信者操作特性(ROC)曲線208およびLSTMニューラルネットワーク200の適合率-再現率(PR)曲線210を示している。ROC曲線208およびPR曲線210は、LSTMニューラルネットワーク200の精度を示している。曲線208および210は、LSTMニューラルネットワーク200に、非結合剤への結合剤の50/50分割における未知の変異体のテストデータセットを提供することによって生成された。
【0048】
図3は、例示的なニューラルネットワーク300を示している。ニューラルネットワーク300は、畳み込みニューラルネットワーク300であり得る。
図3Aを参照すると、畳み込みニューラルネットワーク300は、複数のノード202を含み得る。畳み込みニューラルネットワーク300は、複数の層302を含み得る。ニューラルネットワーク200とは異なり、畳み込みニューラルネットワーク300内の層302の各々は、完全に結合されなくてもよい。例えば、所与の層302のノード202は、後続の層302内の各ノード202に結合されていなくてもよい。畳み込みニューラルネットワーク300は、複数のフィルタを含み得る。畳み込みニューラルネットワーク300は、複数のフィルタの各々と行列206とを畳み込み、複数の特徴量マップを生成することができる。各フィルタは、行列206内の所定のパターンを検出するように構成され得る。フィルタは、拡張率が1、ストライドサイズが1で、カーネルサイズが3である1D畳み込みフィルタであってもよく、これは、サイズ20×3のフィルタをもたらし得る。畳み込みニューラルネットワーク300は、約100~約400個のフィルタを含み得る。フィルタの数は、交差検証、またはデータを訓練/検証/テストセットに分割し、ランダム/グリッドサーチを介して最適な構成を選択することによって選択できる。畳み込みニューラルネットワーク300は、特徴量マップの空間サイズを減少させるために1つ以上の最大プーリング層を含み得る。畳み込みニューラルネットワーク300は、平坦化層を含み得、平坦化層は、ノードの全結合層についての入力ベクトルに最大プーリング層を平坦化する。平坦化層における各値は、高密度(または全結合)層におけるノード202の各々への入力として機能することができる。畳み込みニューラルネットワーク300は、高密度層内に50個のノード202を含み得る。ノードの数は、限定された交差検証/グリッドサーチ手順に基づいて選択することができる。LSTMニューラルネットワーク200と同様に、高密度層の各ノード202は、出力ノード202への入力として機能することができる。
【0049】
図3Bは、テストデータセット上の畳み込みニューラルネットワーク300のROC曲線308および畳み込みニューラルネットワーク300のPR曲線310を図示する。ROC曲線308およびPR曲線310は、畳み込みニューラルネットワーク300の精度を示している。曲線308および310は、畳み込みニューラルネットワーク300に、非結合剤と結合剤との50/50分割で未知の変異体を提供することによって生成された。
【0050】
特に、
図2および
図3を参照すると、LSTMニューラルネットワーク200および畳み込みニューラルネットワーク300アーキテクチャおよびハイパーパラメータは、様々なパラメータにわたってグリッドサーチを実行することによって選択された。例えば、LSTMニューラルネットワーク200では、グリッドサーチを実行して、層ごとのノード202、バッチサイズ、エポック数、および最適化機能を決定した。畳み込みニューラルネットワーク300のために、分類エンジン108は、データセットのk分割交差検証に基づいて、高密度層ノード内のフィルタの数、カーネルサイズ、ドロップアウト率、ノードの数202を決定する。
【0051】
図4Aは、訓練データ118を生成するためのフロープロセス400を示している。訓練データ118は、選択されたパラメータ(例えば、抗原結合)に基づいて合理的に設計された変異体のライブラリの物理的スクリーニングによって選択される変異体の集合であり得る。フロープロセス400は、例えば、相同組換え突然変異誘発(HDM)または任意の他の好適な突然変異誘発方法を使用して、点突然変異ライブラリを生成することを含み得る。一部の態様では、変異体の集合は、単一部位(すなわち、点突然変異)およびコンビナトリアル深層突然変異走査(DMS)プロセスを含む2段階のスクリーニングプロセスにおいて選択され、その一例がフロープロセス400に示されている。抗体の重鎖相補性決定領域3(CDRH3)のアミノ酸配列は、抗原特異性の重要な決定因子である。したがって、この選択領域(例えば、CDRH3の10個のアミノ酸)に対して2段階のDMSプロセスを実行して、アミノ酸位置を決定する特異性を解明することができる。一部の態様では、抗体がもはやその抗原に結合しないような変異体CDRH3配列(例えば、突然変異CDRH3配列)を有する突然変異体全長抗体を、開始配列として使用することができる。突然変異体非結合変異体から開始することで、元の配列からのバックグラウンドを減少させることによって、ライブラリからの結合剤の選択の際に利点が得られる。一部の代替的な実装形態では、プロセスは、その抗原に依然として結合する変異体から開始することができる。
【0052】
図4Aは、抗体のCDRH3のための訓練データを例示しているが、本明細書に記載される方法はそのように限定されるものではなく、抗体またはリガンドに結合する受容体などの他の結合タンパク質における1つ以上の関心領域の変異体の集合に適用され得る。例えば、変異体の集合は、抗体の1つ以上の特性の改善が望まれる抗体の他のCDR領域、例えば、CDRH1、CDRH2、CDRL1、CDRL2、CDRL3、2つ以上のCDR領域の組み合わせ、抗体のフレームワークドメイン内の領域(例えば、FR1、FR2、FR3、FR4)、または抗体の定常ドメイン内の領域(例えば、CH1、CH2、CH3)を表すことができる。一部の態様では、変異体は、全長抗体である。一部の態様では、変異体は、scFvまたはFc融合タンパク質などの抗原結合ドメインを含む、組換え抗体の抗体の断片である。一部の態様では、訓練データは、リガンドに結合する受容体などの結合タンパク質の変異体に由来する。
【0053】
例示的なフロープロセス400の第1の工程では、突然変異誘発方法をCDRH3配列に適用し、CDRH3配列の各位置に単一部位としての変異体のライブラリが生成される(本明細書では、単一部位DMSと称する)。単一点突然変異を生成する任意の好適な方法を用いることができる。一部の態様では、全長抗体変異体配列を発現するハイブリドーマ細胞株が使用される。変異体抗体配列のライブラリは、CRISPR-Cas9媒介性相同組換え突然変異誘発(HDM)によって生成することができる(例えば、参照によりその全体が組み込まれる、PCT国際公開第2017/174329号を参照されたい)。例えば、CDRH3のCas9標的化のためのgRNA、およびCDRH3全体の単一アミノ酸位置にNNK縮合コドンを含有する一本鎖オリゴヌクレオチド(ssODN)形態の相同性テンプレートのプールを使用して、抗体のCDRH3内の単一部位に点突然変異を導入することができる。あるいは、任意の好適な突然変異誘発方法を使用して、変異体、例えば、エラーが生じやすいPCR、組換え突然変異誘発、アラニンスキャニング突然変異誘発、構造誘導突然変異誘発を生成することができる。一部の態様では、突然変異誘発は、インビトロ技術(例えば、PCR)を使用して、対象のアミノ酸配列をコードする核酸配列上で、次いで、哺乳類細胞に導入された変異体核酸上で(例えば、CRISPR-Cas9 HDRによって)行われ得る。
【0054】
次いで、変異体全長抗体を発現する細胞のライブラリを、蛍光活性化細胞選別(FACS)などにより、抗原結合を検出するための好適な方法によってスクリーニングすることができる。スクリーニングプロセスの第1の工程の例示的なFACS結果を、プロセス400の第1の工程に示している。次いで、抗体を発現し、結合または非結合抗原のために選択された細胞の集団を、深層配列決定に供して、選択された細胞によって発現される抗体配列を決定することができる。
【0055】
フロープロセス400は、深層突然変異走査を含んでおり、アッセイされた各アミノ酸位置の濃縮スコアを決定し、どの位置が変異を突然変異を受け入れるのに適しているか、または適していないかを判定することができる。例えば、変異体ライブラリをFACSによってスクリーニングし、抗体を発現し、抗原に結合するか、または結合しない集団を、深層配列決定に供した。一部の態様では、2つ以上の抗原(例えば、交差反応性または多重特異性抗体)に結合する細胞集団が選択される。濃縮比(ER)と称され得る濃縮スコアは、FACS、f
i、Ag
+によって抗原特異性を濃縮した変異体のクローン頻度と、元のライブラリ、f
i、Ab
+に存在する変異体のクローン頻度との比であり得る。より具体的には、以下のようになる。
【0056】
一部の実装形態では、log[ER]値が-2以下の変異体に最小値の-2が指定され、データセットに存在しない変異体は計算から除外された。CDRH3の特定のアミノ酸配列に基づいて、クローンを定義した。次いで、ヒートマップおよびそれらの対応する配列ロゴプロットは、スクリーニングプロセスの第1の工程からの濃縮スコアに基づいて生成することができる。次いで、ヒートマップおよび配列ロゴプロットを使用して、スクリーニングのためのコンビナトリアル突然変異誘発ライブラリを合理的に設計することができる。縮重コドンは、DMSデータの分析に見出される濃縮度または濃縮スコアに最もよく似たそれらのアミノ酸頻度に基づく位置ごとに選択することができる。例えば、合理的なライブラリ設計のためのコドン選択は、以下の式に基づき得る。正の濃縮スコア(例えば、ER>1、またはlog[ER]>0)を有するDMS分析で特定されたアミノ酸位置を、それらの濃縮比に従って正規化し、理論頻度に変換した。次いで、縮重コドンスキームが選択された。これは、縮重コドンと標的頻度との間の平均二乗誤差によって計算されるこれらの頻度を最もよく反映するものである。
【0057】
例えば、ヒートマップおよび配列ロゴプロットから、103位(
図5)は、グリシン(G)およびセリン(S)残基の受容度が高く、アラニン(A)の受容度は低いことがわかる。これらの残基の濃縮スコアは、約66%のG、25%のS、および9%のAの正規化された頻度に対応する。これらの頻度は、次いで、上記の最適コドン式(例えば、式2)への入力値であり、全ての3,375個の可能な縮重コドンスキームと比較される。この例では、正規化濃縮スコアによって定義される標的頻度に最も近い頻度(50%のG、50%のS)を有する縮重コドンスキームを表すので、縮重コドンスキーム「RGY」が選択された。複数の位置にわたって縮重コドンを組み合わせると、巨大な理論的タンパク質空間が生成される。一例として、全ての位置にわたる1位置あたりの全ての潜在的なアミノ酸の積をとることにより、本明細書に提供される実施例に記載されるトラスツズマブ抗体のために生成されるコンビナトリアルライブラリは、6.67×10
8の理論的なタンパク質配列空間を有することとなり、これは、200の単一部位DMSライブラリ多様性よりもはるかに大きい。次いで、CDRH3変異体を含有するコンビナトリアル突然変異誘発ライブラリを、例えば、HDMを介してハイブリドーマ細胞内で物理的に生成することができる。次いで、抗原結合細胞を、FACSによる1ラウンド以上の濃縮によって単離し、結合集団または非結合集団を深層配列決定に供することができる。次いで、この第2の工程からの結合または非結合集団を表す配列決定データを、機械学習モデルの訓練セットとして使用することができる。
【0058】
図4Bは、候補変異体を選択するためのプロセスフロー450を示している。プロセスフロー450は、プロセスフロー400中に生成された訓練済みデータを用いて本明細書に記載されるモデルを訓練することを含み得る。訓練データが生成され、分類エンジン108が訓練されると、突然変異の完全な配列空間をインシリコで生成することができる。完全な配列空間には、各可能な突然変異が含まれ得る。完全な配列空間内の変異体の数は、分類エンジン108が訓練済み変異体の数よりも大きい数のオーダーであり得る。分類エンジン108は、全配列空間の変異体を処理して、変異体を抗原結合剤分類変異体または非抗原結合剤分類変異体として分類することができる。プロセスフロー450は、候補選択エンジン110が、抗原結合剤分類変異体をマルチパラメータ最適化を用いてフィルタリングして、1つ以上の候補変異体を選択することを含み得る。候補選択エンジン110は、抗原結合剤分類変異体がフィルタリングポリシーを満たすかどうかを判定することによって、抗原結合剤分類変異体をフィルタリングすることができる。フィルタリングポリシーは、モデルコンセンサス(例えば、LSTMニューラルネットワークおよび畳み込みニューラルネットワークの各々が、変異体を抗原結合剤分類変異体として分類したもの)、粘度値、溶解度値、安定性値、薬物動態値、および免疫原性値などのパラメータ要件を含み得る。
【0059】
図5および
図6は、例示的な抗体トラスツズマブのCDRH3に適用されるプロセスフロー400および450の例示的なデータを示しており、これらは以下の実施例にさらに詳細に記載されている。
【0060】
図7は、フィルタリングポリシー700および複数のパラメータのプロットを示している。上述のように、抗原結合剤分類変異体の各々について、候補選択エンジン110は、パラメータ値を計算することができる。システム100は、例えば、レーベンシュタイン距離値、電荷値、疎水性指数値、CamSolスコア、最小親和性ランク、および各抗原結合剤分類変異体の平均親和性ランキングを計算することができる。システム100はまた、n-グリコシル化部位、脱アミド化部位、異性化部位、メチオニン酸化、トリプトファン酸化、および対合または非対合システイン残基などの、製造責任に関連する抗原結合剤分類変異体配列モチーフの各々内で識別することができる。
【0061】
フィルタリングポリシー700は、複数のパラメータ要件を含み得る。候補選択エンジン110は、パラメータ要件を並行して適用することができる。例えば、候補選択エンジン110は、抗原結合剤分類変異体の各々のパラメータ値の各々を計算し、抗原結合剤分類変異体がフィルタリングポリシー700のパラメータ要件を満たすかどうかを判定することができる。候補選択エンジン110は、パラメータ要件を直列に適用することができる。例えば、候補選択エンジン110は、抗原結合剤分類変異体のパラメータを順次計算し、抗原結合剤分類変異体が所与のパラメータに必要なパラメータを満たすかどうかを判定することができる。次いで、システム100は、第1のパラメータ要件を満たした抗原結合剤分類変異体の次のパラメータ値のみを計算し得る。抗原結合剤分類変異体がパラメータ要件を満たさない場合、候補選択エンジン110は、抗原結合剤分類変異体の残りのパラメータ値を計算しなくてもよい。これにより、抗原結合剤分類変異体をフィルタリングするのに必要な計算リソースを減少させることができる。これは、パラメータ値が、フィルタリングプロセスによって一旦除去されると、抗原結合剤分類変異体について計算されないためである。したがって、パラメータ要件を満たさない抗原結合剤分類変異体のパラメータ値を計算しないことを決定することによって、本技術解決策は、最適な変異体を識別しながら、計算リソース消費(例えば、プロセッサ利用率、メモリ利用率、またはネットワーク帯域幅利用率)を削減することができる。
【0062】
さらに
図7を参照すると、候補選択エンジン110は、まず、再帰ニューラルネットワーク(RNN)および畳み込みニューラルネットワーク(CNN)によって出力される抗原結合剤分類変異体を決定することができる。候補選択エンジン110は、それぞれのニューラルネットワークによって所定の信頼度で分類変異体のみを選択することができる。例えば、
図7に示すように、候補選択エンジン110は、再帰ニューラルネットワークによって識別された4,315,323個の抗原結合剤分類変異体、および0.75より大きい信頼度または確率を有する畳み込みニューラルネットワークによって識別された5,218,706個の抗原結合剤分類変異体を識別することができる。フィルタリングポリシー700の次のフィルタは、畳み込みニューラルネットワークおよび再帰ニューラルネットワークの両方によって識別される抗原結合剤分類変異体を識別することを含み得る。候補選択エンジン110は、畳み込みニューラルネットワークおよび再帰ニューラルネットワークの両方によって識別される3,159,373個の抗原結合剤分類変異体を、0.75より大きい確率で識別することができる。次いで、候補選択エンジン110は、6.61より大きい電荷対称パラメータ、6.2未満の実効電荷、および4未満の疎水性指数を有する抗原結合剤分類変異体を識別し、402,633個の抗原結合剤分類変異体を返すことができる。次いで、候補選択エンジン110は、0.5より大きい溶解度スコアを有する抗原結合剤分類変異体を識別し、14,125個の抗原結合剤分類変異体を返すことができる。次いで、候補選択エンジン110は、5.5%より大きいNetMHCII最小親和性ランクと60.6%より大きい平均親和性ランクとを有する抗原結合剤分類変異体を識別し、4,881個の抗原結合剤分類変異体を返すことができる。本例における残りの全ての抗原結合剤分類変異体は、トラスツズマブの開始候補配列のパラメータと同等またはそれ以上の値を含有する。次いで、候補選択エンジン110は、全てのパラメータにわたって最高の全体的な開発可能性を有する抗原結合剤分類変異体を識別することができ、これにより、あらかじめ定義されたパーセンテージに従って、残りの候補変異体の上位パーセンテージ内の抗原結合剤分類変異体が返される。システム100は、さらに、5未満のレーベンシュタイン距離を有する抗原結合剤分類変異体を識別することができる。
【0063】
図8は、抗原親和性を有する抗体を識別する例示的な方法800のブロック図を示している。方法800は、訓練データを生成することを含み得る(動作802)。方法800は、分類モデルを訓練することを含み得る(動作804)。方法800は、変異体を分類することを含み得る(動作806)。方法800は、変異体をフィルタリングすることを含み得る(動作808)。方法800は、変異体を選択することを含み得る(動作810)。
【0064】
上述のように、方法800は、訓練データを生成することを含み得る(動作802)。また、
図1を参照すると、分類エンジン108は、訓練のために訓練データ118を使用して、未知の変異体を分類するための分類器重み112を決定することができる。訓練データ118は、単一部位突然変異プロセス、続いてDMSベースのコンビナトリアルプロセスを含む2段階のプロセスを使用して生成され得る。
【0065】
方法800は、分類モデルを訓練することを含み得る(動作804)。上述のように、分類エンジン108は、1つ以上の分類モデルを含み得る。例えば、分類エンジン108は、再帰ニューラルネットワークまたは畳み込みニューラルネットワークを含み得る。分類エンジン108は、再帰ニューラルネットワーク、畳み込みニューラルネットワーク、標準人工ニューラルネットワーク(ANN)、サポートベクターマシン(SVM)、ランダムフォレストアンサンブル(RF)またはロジスティック回帰(LR)モデルを含み得る。訓練データ118は、ワンホットエンコーディング行列としてラベル付けされ、ニューラルネットワークに渡され得る。分類エンジン108は、バックプロパゲーションおよび勾配降下を使用して、予想される結果と分類エンジン108によって決定される結果との間のコストまたは誤差を最小限に抑えることができる。分類エンジン108がそのニューラルネットワークを訓練すると、分類エンジン108は、重みおよびバイアスを分類器重み112としてメモリ106に保存することができる。
【0066】
方法800は、変異体を分類することを含み得る(動作806)。一部の実施態様では、所与の抗体について、候補識別システム102は、インシリコで抗体の変異体の完全な配列空間を生成することができる。例えば、候補識別システム102は、所与の抗体またはその一部に関する全ての可能な配列変異を生成することができる。分類エンジン108は、分類器重み112をロードすることができる。分類エンジン108は、完全な配列空間の変異体の各々を、畳み込みニューラルネットワークおよび再帰ニューラルネットワークの入力層に渡すことができる。例えば、各変異体において、分類エンジン108は、変異体が抗原結合剤分類変異体である可能性を判定することができる。分類エンジン108は、閾値を超える確率で抗原結合剤分類変異体をメモリ106内の抗原結合剤分類変異体として格納することができる。
【0067】
方法800は、抗原結合剤分類変異体をフィルタリングすることを含み得る(動作808)。候補選択エンジン110は、抗原結合剤分類変異体をフィルタリングして候補変異体を識別することができる。候補変異体は、生存抗体を産生する可能性が最も高い抗原結合剤分類変異体であり得る。候補選択エンジン110は、メモリ106からフィルタリングポリシーを取り出すことができる。フィルタリングポリシーは、抗原結合剤分類変異体が候補変異体として選択されるために満たす必要がある複数のパラメータを含み得る。候補選択エンジン110は、抗原結合剤分類変異体のパラメータを計算し、それぞれの抗原結合剤分類変異体の各々がフィルタリングポリシーのパラメータ要件を満たすかどうかを判定することができる。
【0068】
方法800は、変異体を選択することを含み得る(動作810)。候補変異体(例えば、フィルタリングポリシーのパラメータを満たす抗原結合剤分類変異体)は、さらなる組換え発現のために選択されて、変異体が抗原特異的結合を有する抗体を産生することをテストすることができる。一部の実装形態では、候補変異体のサブ部分は、組換え発現およびテストのためにランダムに選択され得る。
【0069】
動作が特定の順序で図面に示されているが、かかる動作は、示されている特定の順序または順番で実行される必要はなく、例示されている動作は全て実行される必要はない。本明細書に記載される作用は、異なる順序で実行され得る。
【0070】
種々のシステム構成要素の分離は、全ての実装形態において分離を必要とせず、説明されたプログラム構成要素は、単一のハードウェアまたはソフトウェア製品に含めることができる。
【実施例】
【0071】
I.実施例
本実施例は、本明細書に記載されるシステムおよび方法の、トラスツズマブ(Herceptin)抗体のCDRH3への例示的に適用し、対応する標的HER2抗原への抗体結合を分類することを説明するものである。
【0072】
A.結果
1)抗原特異的配列のランドスケープを決定し、合理的な抗体ライブラリ設計をガイドする深層突然変異走査
抗体のCDRH3のアミノ酸配列は、抗原特異性の重要な決定因子であるため、この領域に対して深層突然変異走査(DMS)を行い、特異性決定残基を解明した。最初に、HER2抗原(突然変異CDRH3配列)に結合することができなかったトラスツズマブ変異体を発現するハイブリドーマ細胞株を使用した(
図9)。ライブラリは、CRISPR-Cas9媒介性相同組換え突然変異誘発(HDM)(Mason et al.(2018)Nucleic Acids Research 46(14):7436-49)によって生成された。これは、CDRH3のCas9標的化にgRNAを利用し、CDRH3全体にタイル化された単一部位にNNK縮重コドンを含む一本鎖オリゴヌクレオチド(ssODN)の形の相同性テンプレートのプールを利用していた(
図5A)。次いで、ライブラリを蛍光活性化細胞選別(FACS)によってスクリーニングし、抗体および結合または結合しない抗原を発現する集団を深層配列決定(Illumina MiSeq)に供した(
図10)。次いで、深層配列決定データを使用して、調査した10個の位置の濃縮スコアを計算した。これにより、広範囲の突然変異に十分に適応できる6つの位置と、定義された突然変異をわずかに受け入れていた追加の3つの位置が明らかとなった(
図5Bおよび
図5C)。残基103102D、103G、104F、105Yは、CDRH3ループのHER2との一次接触アミノ酸と思われるが(PDB ID:1N8Z、Cho et al.(2003)Nature 421(6924):756-60、Rose et al.(2018)Bioinformatics 34(21):3755-58)、105Yは完全に固定された唯一の残基である(
図5D)。
【0073】
DMSによって生成されたヒートマップおよびそれらの対応する配列ロゴプロットを使用して、全ての位置(105Yを除く)にわたって縮重コドンからなるコンビナトリアル突然変異誘発ライブラリの合理的な設計を導いた(
図11)。縮重コドンを、DMSデータに見出される濃縮度に最もよく似たそれらのアミノ酸頻度に基づく位置ごとに選択した(
図5C、式2)。このコンビナトリアルライブラリは、6.67×10
8個の理論的なタンパク質配列空間を有し、200の単一部位DMSライブラリ多様性よりもはるかに大きい。理論的多様性は、全ての位置にわたる1位置あたりの全ての可能なアミノ酸の積をとることによって計算することができる(例えば、全ての位置に存在する全ての20個のアミノ酸では、20^Xとなる。ここで、Xは位置の数である)。一部の実装形態では、DMS誘導コンビナトリアル突然変異誘発ライブラリは、位置ごとにアミノ酸のサブセットが減少し、その結果、理論的多様性が減少する。CDRH3変異体を含有するライブラリを、前述の同じ非結合トラスツズマブクローン(
図6A)においてHDMを通してハイブリドーマ細胞内で再び生成した。抗原結合細胞を、FACSによる2ラウンドの濃縮によって単離し、結合/非結合集団を深層配列決定に供した。配列決定データにより、それぞれ、11,300個および27,539個の固有の結合剤および非結合剤が識別された(NGS統計、
図13)。これらの配列変異体は、コンビナトリアル突然変異誘発ライブラリの理論的タンパク質配列空間のわずか0.0058%を表したにすぎない。位置ごとのアミノ酸使用量は、結合集団と非結合集団との間で比較的類似しているため(
図6B)、結合配列を識別するための任意の種類のヒューリスティックルールまたは観察可能なパターンを開発することは困難であった。
【0074】
2)抗体配列に基づいて抗原特異性を分類するための深層ニューラルネットワークの訓練
結合および非結合CDRH3変異体に関する深層配列決定データを収集した後、標的抗原HER2に対する特異性を予測し得る深層学習モデルを開発し、訓練した。アミノ酸配列を、ワンホットエンコーディングによって入力行列に変換した。ここで、ワンホットエンコーディングとは、各列が特定の残基を表し、各行が配列内の位置に対応するアプローチであり、10個のアミノ酸CDRH3配列の場合、10×20行列となる。各行には、その位置にある残基に対応した列に単一の「1」が含まれる。それによって他の全ての列/行に「0」が入る。LSTM-RNNおよびCNN。LSTM-RNNとCNNはいずれも、学習可能な重みおよびバイアスを含むニューロンに沿って情報が伝達される標準的なニューラルネットワークに由来するが、情報の処理方法には根本的な違いがある。LSTM-RNN層は、ループを含んでおり、情報をある工程から次の工程に保持することを可能にし、モデルが所与の出力と順序を効率的に相関させることを可能にする。一方、CNNは、学習可能なフィルタを入力データに適用し、それが所与の出力に関連付けられた空間依存性を効率的に認識することを可能にする。モデルアーキテクチャおよびハイパーパラメータは、データセットのk分割交差検証を使用して、様々なパラメータ(LSTM-RNN:層ごとのノード、バッチサイズ、エポック数、および最適化関数、CNN:フィルタの数、カーネルサイズ、ドロップアウト率、高密度層ノード)にわたってグリッドサーチを実行することによって選択された(
図7)。全てのモデルは、利用可能な配列決定データから結合剤および非結合剤を分類するそれらの精度および適合率を評価するために構築された。元のデータセットの70%は、モデルを訓練するために使用され、残りの30%は、モデル評価のために使用される2つのテストデータセットに分割された。一方のテストデータセットは、モデルを訓練するために使用される配列の同じクラス分割を含んでおり、もう一方は、約10/90の結合剤/非結合剤のクラス分割を含んでおり、生理学的頻度と類似していた(
図6Aおよび14)。LSTM-RNNおよびCNNの性能は、受信者操作特性(ROC)曲線および未知のテストデータセットの予測から導出された適合率-再現率(PR)曲線を構築することによって評価した。従来の訓練分類モデルへのアプローチに基づいて、データセットは、訓練中に結合剤および非結合剤の50/50分割を可能にするように調整された。これらの訓練条件下で、LSTM-RNNおよびCNNは、未知のテストデータを正確に分類することができた(ROC曲線AUC:0.9±0.0、平均適合率:0.9±0.0、
図17)。
【0075】
次に、訓練済みのLSTM-RNNおよびCNNモデルを使用して、潜在的なコンビナトリアル多様性空間からの1×10
5個の配列のランダムサンプルを分類した。しかしながら、予想外に陽性の分類の出現率が高い(25,318±1,643個の配列、または25.3±1.6%、
図21)ことがわかった。結合剤の生理学的頻度がおよそ10~15%であるはずであるという知見に基づき、モデルが一部の未知の分類バイアスに供されているという仮説のもと、訓練データの分類分割を調整した。次いで、追加のモデルを、20/80、および10/90の結合剤/非結合剤の両方の分類分割、ならびに利用可能な全てのデータ(約30/70の結合剤/非結合剤)との分類分割について訓練した。配列分類の非均衡化は、結合剤として分類される配列のパーセンテージが大幅な低下したが、未知のテストデータに対するモデル性能も低下した(
図21)。1)結合剤として予測される配列の割合がこの生理学的頻度を反映していること、2)このデータセットは、モデルが見る情報を最大化していること、および3)テストデータに対するモデルの性能から、この分析を通じて、モデルを訓練するための最適なデータセットは、全ての既知のCDRH3配列を含むセットであると結論付けた。最終モデルのアーキテクチャ、パラメータ、および評価を
図2に示している。
【0076】
3)抗体配列空間のインシリコスクリーニングによる開発可能性のためのマルチパラメータ最適化
次に、完全な3.1×10
6個の深層学習予測抗原特異的配列を複数のパラメータで特徴付けて、元のトラスツズマブ配列と比較して、高度に開発可能な候補を特定した。予備的メトリックとして、それらの配列と元のトラスツズマブ配列との類似性を、LDを計算することによって調査した。配列の大部分は、LD>4の編集距離を示した(
図7A)。フィルタリングの最初の工程は、分子の粘度およびクリアランスを推定するために、実効電荷および疎水性指数を計算することであった。Sharmaらによれば、粘度は、可変断片(Fv)実効電荷の増加およびFv電荷対称パラメータ(FvCSP)の増加に伴って低下するが、CDRL1+CDRL3+CDRH3疎水性指数合計(HI合計)が<4で、薬物クリアランスに関して最適なFv実効電荷は、0~6.2である。3.1×10
6個の予測変異体(
図7B、
図7C)におけるこれらのパラメータの広範な値に基づいて、FvCSP<6.61(トラスツズマブFvCSP)を有するか、またはそれらがFv実効電荷>6.2、およびHI合計が>4、<0を含む場合の任意の配列をフィルタリングした。このフィルタリング基準により、配列空間は4.02×10
5個の変異体に大幅に減少した。次に、CDRH3配列を5’および3’末端上の10個のアミノ酸でパディングし、次いで、これらの配列を、Sormanniらによって開発されたタンパク質溶解度予測因子であるCamSolを通して実行し、それらの理論的溶解度に基づいて配列変異体を推定し、ランク付けした。残りの変異体は、広範囲のタンパク質溶解度スコアを生成し(
図7D)、スコアが0.5未満の配列(トラスツズマブスコア)をフィルタリングし、さらなる分析のための14,125個の候補を残した。インシリコスクリーニングプロセスの最後の工程として、Jensenらによって過去に開発されたモデルであるNetMHCIIpanを利用して、変異体配列のMHCクラスII分子に対するペプチド結合親和性を予測することにより、免疫原性を低下させることを目指した。モデルからの出力の1つは、20万個のランダムな天然ペプチドの集合と比較した、所与のペプチドの予測親和性%ランクである。典型的には、%ランク<2の分子は強い結合剤と見なされ、%ランク<10の分子は、走査されたMHCクラスII分子に対する弱い結合剤と見なされる。パディングされたCDRH3配列からの全ての可能な15量体を、NetMHCIIpanを通して実行した。全集団32の98%超をカバーすると判定された26個のHLA対立遺伝子の集合に対する親和性を予測した後、15量体のいずれかが%ランク<5.5(トラスツズマブ最小%ランク)を含む場合に、配列をフィルタリングした(
図7E)。残りの配列について、10%未満のランクを有する15量体の数、および全ての15量体にわたる平均%ランクも計算した。%ランク<10の3つ以上の15量体を有する配列(
図7F)、および平均%ランク<60.56の配列(トラスツズマブ平均%ランク)もフィルタリングした(
図7G)。残りの全ての4,881個の変異体は、元のトラスツズマブ配列のパラメータ以上の値を含む。(訓練/テストデータから得られた)11,300個の実験的に決定された結合配列にこの同じフィルタリングスキームを適用した場合、残りの変異体は9個のみであった。最後に、最適な開発可能配列を決定するために、関連する各パラメータの正規化された値の平均に基づいて、全体的な開発可能性の改善スコアを計算した(材料および方法を参照されたい)。ここで、トラスツズマブの開発可能性改善スコアは0となる。残りの4,881個の予測される結合配列のうち、293個の変異体は、9個の実験的に決定された結合配列の最大開発可能性スコアと比較して、より高い開発可能性スコアを有することを特定した(
図7H)。インシリコライブラリの各工程におけるフィルタリングパラメータおよび残存変異体の数を
図7Iに示している。
【0077】
4)選択された抗体配列は、組換え発現であり、抗原特異的である
完全に訓練済みのLSTM-RNNおよびCNNモデルの適合率を検証するために、抗原特異的であり、複数の開発可能性パラメータにわたって最適化されると予測される30個のCDRH3配列のサブセットをランダムに選択した。新規の配列変異体を識別するための深層学習の能力をさらに実証するために、選択した変異体の最小レーベンシュタイン編集距離がトラスツズマブの元のCDRH3配列から5であるという基準も追加された。CRISPR-Cas9媒介性HDRを使用して、異なる配列変異体を発現する哺乳類ディスプレイ細胞株を生成した。フローサイトメトリを実施し、30個の変異体のうちの29個(96.67%)が抗原特異的であることを明らかにした(
図23A~
図23O)。さらに、抗原結合変異体の104個に対して分析を行い、バイオ層干渉法(ForteBio Octet)を介して結合動態をより正確に定量化した(
図15、
図16B、
図23A~
図23G)。元のトラスツズマブ配列は、HER2に対する親和性が4.0×10
-10M(平衡解離定数、Kd)であると測定された。テストした変異体の大部分は、親和性がわずかに低下したが、75%(78/104)は依然として1桁のナノモル範囲にあり、16%(17/104)はサブナノモルのままであり、6個の変異体(5%)は、トラスツズマブ(Kd=1.4×10
-10M)と比較して、親和性の増加を示した。
【0078】
選択した変異体の開発可能性パラメータも実験的に検証した。特に、選択された変異体の発現レベルを、トラスツズマブの発現レベルと比較した(
図16A)。さらに、選択された変異体の熱安定性を、トラスツズマブのものと比較した(
図16C)。免疫原性リスクをトラスツズマブと比較し、各テスト変異体(変異体CおよびF)およびトラスツズマブをそれぞれ2回テストした(
図16D)。
【0079】
B.考察
哺乳類細胞における抗体最適化の限界に対処し、抗原特異的配列を高適合率で識別することを可能にする深層学習に基づくアプローチが開発されている。臨床的に承認された抗体トラスツズマブを使用して、単一部位DMSを行い、続いてコンビナトリアル突然変異誘発を行い、CDRH3の抗原結合ランドスケープを決定した。このDMSベースの突然変異誘発ストラテジは、抗原結合変異体で濃縮された高品質の訓練データを得るために重要であり、この場合、生成されたライブラリの10%近くであった(
図14)。対照的に、完全にランダム化されたコンビナトリアル突然変異誘発ストラテジが用いられた場合(すなわち、NNK縮重コドン)、抗原結合変異体の任意の有意な割合を生成する可能性は低い。
【0080】
この研究における顕著な発見は、DMSベースのコンビナトリアル突然変異誘発ライブラリの全配列多様性(6.67×10
8)のごく一部(0.0005%)を反映した、わずか5×10
4個の変異体のみのライブラリを実験的スクリーニングすることで、正確なニューラルネットワークを訓練できたことである。これは、哺乳類発現系(またはファージディスプレイおよび酵母ディスプレイなどの他の発現系)の物理ライブラリサイズの制限および深層配列決定のリード深度が、深層学習誘導タンパク質工学における制限として機能しないことを示唆している。別の重要な結果は、抗原結合集団および非結合集団の深層配列決定が、それらの位置的なアミノ酸の使用において観察可能な差異をほとんど示さなかったことであり(
図6)、ニューラルネットワークが高次元パターンを効果的に捕捉していることを示唆している。
【0081】
今回の研究では、深層学習における2つの最先端のアプローチを表すLSTM-RNNおよびCNNを、分類モデルの基礎として選択した。k近傍、ランダムフォレスト、およびサポートベクターマシンなどの他の機械学習アプローチもまた、限られた入力データから複雑なパターンを識別するのに適している。さらに、変分オートエンコーダなどの深層生成モデリング方法を使用して、指向性進化から突然変異誘発配列空間を探索することもできる。
【0082】
DMSベースのコンビナトリアル多様性から約10
8個のCDRH3変異体をインシリコで生成し、完全に訓練済みのLSTM-RNNおよびCNNモデルを使用して、各配列を結合剤または非結合剤として分類した。約10
8個の配列変異体は、潜在的な配列空間のサブセットのみを含み、計算労力を最小限に抑えるために選択されたものであるが、それでも哺乳類細胞において実験的に達成可能なものよりも数桁大きいライブラリサイズとなる。スクリプトの最適化および高性能クラスタによる並列計算を採用することで、スクリーニング能力を向上させることができる。LSTM-RNNおよびCNNは、分類された全ての変異体のうち、約12~13%が標的抗原と結合すると予測し、フローサイトメトリで実験的に観測された頻度と非常によく一致した(
図14)。DMSによって決定される重要な残基を除いて、予測される結合剤の大部分は、元のトラスツズマブ配列から実質的に離れており、配列の80%は、少なくとも6個の残基の編集距離を有していた。この高い配列可変性は、広範囲の生体分子特性の可能性を示している。
【0083】
抗体の標的抗原に対する親和性が、有効な生物学的修飾のための望ましい範囲内にある場合、他の生体分子特性に対処することが抗体開発の焦点となる。最近の計算予測の進歩により、粘度、クリアランス、安定性、特異性、溶解性、および免疫原性を含むこれらの特性の多くは、配列情報のみから近似することができる。改善された特徴を有する抗体を選択することを目的として、予測された結合剤のライブラリを、開発可能性のためのランキング構造およびフィルタリングストラテジを提供するために、これらのインシリコアプローチの幾つかに供した(
図7)。これらの方法を実施して、粘度、クリアランス、または溶解度が低い可能性が高い変異体、および高い免疫原性電位を有する変異体を除去した後、約5,000個のマルチパラメータ最適化された抗体変異体が残った。より厳密なまたは追加のフィルタを適用して、他の開発可能性パラメータ(例えば、安定性、特異性、ヒト化)に対処して、高度に開発可能な治療用分子の配列空間をさらに減少させることもできる。
【0084】
最後に、抗原特異性を予測するためのニューラルネットワークの精度を実験的に検証するために、発明者らは、最適化された配列のライブラリから、トラスツズマブとの最小編集距離が5の変異体30個をランダムに選択して発現させた。LSTM-RNNおよびCNNモデルの適合率は、テストデータセットでの予測から、それぞれ約85%(P>0.75)と推定された。しかし、モデル間のコンセンサスを取ることによって、抗原予測(および開発可能性をフィルタリングした)配列の96%超(29/30)が実際に結合剤であることが実験的に検証された。これは、開始トラスツズマブ配列とは実質的に異なる、潜在的に数千の最適化されたリード候補が、治療的関連性の範囲内で結合親和性を維持することを示唆している。
【0085】
本明細書で提供される方法は、予測確率と親和性との間の相関のスクリーニングまたは調査中の選択の厳密性を増加させるようにさらに改良することができる。これは、高い標的親和性を保持するのに役立つ。これらの方法はまた、pH依存性抗体リサイクルまたはpH依存性抗原結合などの、治療抗体の他の機能的特性の最適化を可能にし得る。加えて、このアプローチを可変軽鎖および重鎖遺伝子、すなわち他のCDRにわたって他の領域に拡張することで、抗体とその標的抗原との間の長距離の複雑な関係を捕捉し得る深層ニューラルネットワークが得られる。加えて、説明されたニューラルネットワーク予測は、タンパク質構造モデリング予測と比較することができる。
【0086】
C.方法
1)哺乳類細胞培養およびトランスフェクション
ハイブリドーマ細胞は、Mason et al.(2018)Nucleic Acids Research 46(14):7436-49によって記述されたプロトコルに従って培養および維持された。ハイブリドーマ細胞を、プログラムCQ-104を有するSF Cell Line 4D-ヌクレオフェクター(登録商標)X Kit LまたはX Kit S(ロンザ社製、V4XC-2024、V4XC-2032)を使用して、4D-ヌクレオフェクター(商標)システム(ロンザ社製)でエレクトロポレーションした。細胞を単離し、125×Gで10分間遠心分離し、Opti-MEM(登録商標)I還元血清培地(Thermo社製、31985-062)で洗浄し、同じパラメータで再度遠心分離することで、細胞を調製した。細胞をSF緩衝液(キット製造業者ガイドラインごと)に再懸濁し、その後、Alt-R gRNA(IDT社製)およびssODNドナー(IDT社製)を添加した。実施される全ての実験は、化膿レンサ球菌(SpCas9)からのCas9の構成的発現を利用している。1×106個および1×107個の細胞のトランスフェクションを、それぞれ0.575または2.88nmol Alt-R gRNAおよび0.5または2.5nmol ssODNドナーを有する100μlの単一のNucleocuvettes(商標)で行った。2×105個の細胞のトランスフェクションを、115pmol Alt-R gRNAおよび100pmol ssODNドナーを用いて、16ウェル、20ul Nucleocuvette(商標)スティップで行った。
【0087】
2)フローサイトメトリ分析および選別
フローサイトメトリベースの分析および細胞単離を、それぞれBD LSR Fortessa(商標)(BDバイオサイエンス社製)およびSony SH800S(Sony社製)を使用して行った。蛍光コンジュゲート抗原または抗IgG抗体で標識する場合、細胞を最初にPBSで洗浄し、標識抗体および/または抗原と共に氷上で30分間インキュベートし、光から保護し、再びPBSで洗浄し、次いで分析または選別した。標識試薬および作業濃度は、
図23Aおよび
図23Bに記載されている。10
6とは異なる細胞数については、抗体/抗原量とインキュベーション量を比例的に調整した。
【0088】
3)深層配列決定のためのサンプル調製
深層配列決定のためのサンプル調製は、前述のプライマー伸長方法の抗体ライブラリ生成プロトコルと同様に行った(Menzel,et al.(2014)PloS One 9(5):e96727)。Purelink(商標)ゲノムDNAミニキット(Thermo社製、K182001)を使用して、1~5×106個の細胞からゲノムDNAを抽出した。抽出された全てのゲノムDNAを、第1のPCR工程に供した。増幅は、VHフレームワーク領域の開始部に結合したフォワードプライマー、およびJセグメントのすぐ3’にあるイントロン領域に特異的なリバースプライマーを用いて行った。PCRは、Q5(登録商標)High-Fidelity DNAポリメラーゼ(NEB、M0491L)を50mlの平行反応体積で、98℃で30秒、98℃で10秒、70℃で20秒、72℃で30秒の16サイクル、最終伸張72℃で1分、4℃で保管というサイクル条件で行った。PCR産物を、DNAクリーンおよび濃縮器(Zymo社製、D4013)、続いて0.8X SPRIselect(Beckman Coulter社製、B22318)の左側サイズ選択を使用して濃縮した。総PCR1産物をPCR2工程で増幅し、伸長特異的全長Illuminaアダプター配列を増幅ライブラリに添加した。個々のサンプルを、20種の異なるインデックスリバースプライマーから選択することによって、Illuminaインデックスを行った。サイクル条件は、98℃で30秒と、98℃で10秒、40℃で20秒、72℃で1分の2サイクルと、98℃で10秒、65℃で20秒、72℃で1分の6サイクルと、72℃で5分間と、4℃の保管と、の条件であった。PCR2産物を、DNAクリーンおよび濃縮器で再び濃縮し、1%アガロースゲル上で実行した。適切なサイズ(約550bp)のバンドを、Zymoclean(商標)ゲルDNA回収キット(Zymo社製、D4008)を使用してゲル精製した。精製したライブラリの濃度を、ナノドロップ2000c分光光度計によって決定し、最適なリードリターンを目的とした濃度でプーリングした。最終配列決定プールの品質を、DNF-473標準感度NGS断片分析キットを使用して断片分析装置(Advanced Analytical Technologies社製)で検証した。品質管理に合格した全てのサンプルを配列決定した。抗体ライブラリプールを、10%のPhiX対照ライブラリを有する試薬キットv3(2×300サイクル、ペアエンド)を使用して、Illumina MiSeqプラットフォーム上で配列決定した。全てのサンプルのベースコールの質は、34の平均Phredスコアの範囲内であった。
【0089】
4)バイオインフォマティクス分析とグラフィックス
MiXCR v2.0.3プログラムを使用して、生のFASTQファイルのデータ前処理を実行した(Bolotin et al.(2015)Nature Methods 12(5):380-81)。配列を、トラスツズマブ抗体遺伝子の可変重鎖についてのV遺伝子およびJ遺伝子領域の既知の配列情報を含むカスタム生殖系列遺伝子参照データベースにアラインメントさせた。CDRH3によるクロノタイプ形成および誤り訂正は、Bolotinらの記載に従って行った。1)MiXCR未補正PCRエラーから生じる重複CDRH3アミノ酸配列、または2)1に等しいクローン数の場合、機能的なクロノタイプは破棄した。下流解析は、R v3.2.2(Cite R Development Core Team(2008))およびPython v3.6.5(Van Rossumet al.(2011)The Python Language Reference Manual.Network Theory)を使用して行った。グラフィックは、Rパッケージggplot2(「https://doi.org/10.1111/j.1541-0420.2011.01616.x.」で見られるWilkinson(2011)Biometrics)、RColorBrewer(「https://doi.org/10.1559/152304003100010929」で見られるBrewer et al.(2003)Cartography and Geographic Information Science)、およびggseqlogo(Wagih(2017)Bioinformatics 33(22):3645-47)を使用して生成した。
【0090】
5)DMSにおける濃縮比(ER)の算出
所与の変異体のERは、従来の方法(Fowler et al.(2010)Nature Methods 7(9):741-46)に従って計算された。FACS、fi,Ag+によって抗原特異性を濃縮した変異体のクローン頻度を、上記の式1に従って、元のライブラリ、fi,Ab+に存在する変異体のクローン頻度で除算した。
【0091】
log[ER]値が-2以下の変異体には最小値-2を指定し、データセットに存在しない変異体は計算において無視した。CDRH3の正確なアミノ酸配列に基づいて、クローンを定義した。
【0092】
6)配列の多様性のためのロゼッタにおけるトラスツズマブの再設計
Rosettaプログラム(Leaver-Fay et al.)を使用して、HER2(PDB id:1N8Z)(Cho et al.)の細胞外ドメインと複合体を形成したトラスツズマブ抗体を再設計した。トラスツズマブのCDRH3ループ内の10個の残基(重鎖の残基98~108)を、任意の天然アミノ酸に変異させ、他の全ての残基を、ロタメリック立体配座を変化させた。RosettaScriptは、確率論的モンテカルロアルゴリズムであるPackRotamersMoverを呼び出して、Rosettaエネルギー関数に従ってCDRH3に対する抗体の配列を最適化し、その後バックボーンを最小化した。エネルギーは、RosettaのddGフィルタを使用して計算した。Rosettaを実行して、5000個の配列を確率的に生成し、これにより、48個の配列が得られた。Rosettaの出力ファイルは、RS-Toolboxを使用して処理された(Bonet et al.,(2019))。
【0093】
7)Rosettaにおける実験的に決定された配列の分類
コンビナトリアルライブラリからの11,300個の結合配列および27,539個の非結合配列の各々を、Rosettaにおいてモデル化した。実験的に決定された結合配列または非結合配列ごとに、HER2:トラスツズマブ複合体の構造を入力として使用し、RosettaScriptsのPackRotamersMover(Fleishman et al.)を使用して野生型から分岐した残基を変異させた。配列を最適化された鎖内および鎖間接触にモデル化した後、骨格および側鎖をRosettaのMinMoverで最小化した。Rosettaの予測界面スコア(ddG)を相対分類スコアとして使用した。
【0094】
8)合理的なライブラリ設計のためのコドン選択
合理的なライブラリ設計のためのコドン選択は、Mason et al.(2018)Nucleic Acids Research 46(14):7436-49(式2)によって提供された式に基づいていた。正の濃縮スコア(ER>1、またはlog[ER]>0)を有するDMS分析で特定された残基を、それらの濃縮比に従って正規化し、理論頻度に変換した。次いで、縮重コドンスキームが選択された。これは、縮重コドンと標的頻度との間の平均二乗誤差によって計算されるこれらの頻度を最もよく反映するものである。
【0095】
特定の事例では、選択された縮重コドンが所望のアミノ酸頻度を表さないか、または所望でないアミノ酸を含まない場合、縮重コドンの混合物を選択し、機能配列空間のより良いカバレッジを達成するために一緒にプーリングした。
【0096】
9)機械学習モデルの構築
機械学習モデルはPython v3.6.5で構築された。k近傍モデルおよびサポートベクターマシンモデルは、サイキット-ラーン(Scikit-learn)ライブラリを使用して構築された。人工ニューラルネットワーク、LSTM-RNN、およびCNNは、TensorFlowのラッパーとしてKeras Sequentialモデルを使用して構築された。モデルアーキテクチャおよびハイパーパラメータは、与えられたモデルの関連変数のグリッドサーチを実行することによって最適化された。これらの変数には、層ごとのノード、活性化関数、オプティマイザ、損失関数、ドロップアウト率、バッチサイズ、エポック数、フィルタ数、カーネルサイズ、ストライド長、およびプールサイズが含まれる。グリッドサーチは、データセットのk分割交差検証を実施することによって実施した。
【0097】
10)機械学習モデルの訓練およびテスト
抗体発現、非結合、および結合配列(配列決定統計:
図12および
図13)のデータセットを集約して、単一の結合/非結合データセットを形成した。抗体発現配列は、結合配列間でも識別されない限り、非結合物質として分類された。1ラウンドの抗原濃縮からの配列を、訓練データセットから除外した。次いで、完全な集約データセットをランダムに配置し、適切なクラス標識配列を除去して、結合剤対非結合剤の所望の分類比率(50/50、20/80、10/90、および非調整)を達成した。クラス調整されたデータセットは、さらに訓練セット(70%)と2つのテストセット(各15%)とに分割された。ここで、一方のテストセットは、訓練のために観察された分類比を反映し、もう一方のテストセットは、結合剤の生理学的予想頻度に似た約10/90の分類比を反映していた。
【0098】
11)予測変異体の配列類似性およびモデル帰属分析
レーベンシュタイン距離1~6について、抗原陽性および抗原陰性であると予測される配列の配列類似性ネットワークを構築し、igraph Rパッケージv1.2.4(Csardi and Nepusz(2006))を使用して構築した。得られたネットワークを、それらの全体的な結合性、それらの最大クラスタの構成、およびクラス間の全体的な度合い分布に関して分析した。
【0099】
積分勾配技術(Sundararajan et al.(2017))を使用して、所与の入力配列の各特徴量の最終予測スコアに対する相対的な帰属を評価した。まず、入力ベクトルをゼロ化することによりベースラインを得、次いで、ベースラインから入力ベクトルへの勾配の経路積分を工程サイズ100で近似した。統合された勾配を配列ロゴとして可視化した。配列ロゴは、PythonモジュールLogomaker(Tareen and Kinney(2019))によって作成された。
【0100】
12)インシリコ配列分類および配列パラメータ
DMSベースのコンビナトリアル突然変異誘発ライブラリに存在するアミノ酸の全ての可能な組み合わせを使用して、7.17×108個の理論的な配列空間の合計を計算した。7.2×107個の配列変異体を、抗原結合変異体について3ラウンドの濃縮後にDMSデータから設計されたコンビナトリアル突然変異誘発ライブラリ内の位置ごとに使用されるアミノ酸の全ての可能な組み合わせを取得することによって、インシリコで生成した。アラニンもまた、103位に含まれるように選択した。次いで、全てのインシリコ配列を、訓練済みのLSTM-RNNおよびCNNモデルによって結合剤または非結合剤として分類した。予測確率(P)が0.75より大きい両方のモデルで分類された場合、配列をさらなる分析のために選択した。
【0101】
Fv実効電荷およびFv電荷対称パラメータ(FvCSP)は、Sharmaらの説明に従って計算された。簡単に説明すると、実効電荷は、まず、既知のアミノ酸pKaを用いて、指定されたpH(ここでは5.5)で各残基のヘンダーソン-ハッセルバルッチ式を解くことによって決定した。次いで、VLおよびVHの両方の全ての残基全体の合計を、Fv実効電荷として計算した。FvCSPは、VLおよびVH実効電荷の積をとることによって計算した。疎水性指数(HI)もまた、以下の式に従って、Sharmaらによって説明されるように計算した。
Eは、アミノ酸のアイゼンバーグ値を表し、nは、アミノ酸の数であり、iおよびjは、それぞれ疎水性および親水性残基である。
【0102】
タンパク質溶解度スコアは、pH7.0のCamSol法により、5’末端と3’末端(35a.a.)との両方に10個のアミノ酸が埋め込まれた全長CDRH3配列(15a.a.)ごとに決定した。
【0103】
26個のHLA対立遺伝子の基準集合に対する結合親和性を、NetMHCIIpan3.2によって、10個のアミノ酸パディングされたCDRH3配列(35a.a.)内に含まれる15量体ごとに決定した。出力により、15量体ごとに、nMでの予測された親和性、および1セットのランダムな天然ペプチドと比較した15量体の親和性を反映する%ランクが提供される。%ランク測定値は、特定の分子の強いまたは弱い親和性に対するバイアスの影響を受けず、指定されたMHCクラスII対立遺伝子に対する弱いまたは強い結合剤としてペプチドを分類するために使用される。最小の%ランク、10未満の%ランク(弱い結合剤の分類)を有する15量体の数、および平均%ランクは、全ての26のHLA対立遺伝子にわたる単一のCDRH3配列のための21の15量体全てにわたって計算された。
【0104】
抗体配列の全体的な開発可能性の改善は、最初に、フィルタリング後の残りの配列で観察される値の範囲に従って、FvCSP、CamSolスコア、および平均NetMHCII%ランクを正規化することによって決定された。次に、正規化されたCamSolタンパク質溶解度スコアを、開発可能性を決定する上での重要性について2倍に重み付けした。最後に、これらの3つのパラメータにわたる平均を採用して、全体的な開発可能性改善スコアを作成した。配列はトラスツズマブの計算値でフィルタリングされたため、トラスツズマブの全体的な開発可能性の改善は0に等しくなる。
【0105】
13)バイオ層干渉法による発現および親和性測定
個々の変異体のモノクローナル集団を、単一細胞選別を行うことによって単離した。膨張後、全ての変異体の上清を収集し、0.20μmフィルタ(ザルトリウス社製、16534-K)を通してフィルタリングした。次いで、親和性測定を、以下のパラメータを用いてOctet RED96e(ForteBio社製)上で行った。抗ヒト捕捉センサ(ForteBio社製、18-5060)を、動態緩衝液(ForteBio社製、18-1105)で1対2に希釈した馴化培地中で少なくとも10分間水和した後、10mMのグリシン(pH1.52)中で10秒のインキュベーション、および動態緩衝液中で10秒のインキュベーションからなる4サイクルの再生を通して条件付けた。次いで、コンディショニングされたセンサに0μg/mL(参照センサ)、10μg/mLトラスツズマブ(参照サンプル)、または2分の1で動態緩衝液で希釈したハイブリドーマ上清(約20μg/mL)でロードした後、動態緩衝液中で50μg/mLでマウスIgG(Rockland社製、010-0102)でブロックした。ブロック後、装填したセンサを動態緩衝液中で平衡化し、5nMまたは25nMのHER2タンパク質(Sigma-Aldrich社製、SRP6405-50UG)のいずれかでインキュベートした。最後に、センサを緩衝液動態でインキュベートし、抗原解離を可能にした。抗体発現および動態解析は、解析ソフトウェアData Analysis HT v11.0.0.50で実施した。
【0106】
14)蛍光による熱安定性測定
個々の変異体のモノクローナル抗体を、それぞれのモノクローナル細胞株の上清からのプロテインAカラムクロマトグラフィによって精製し、200mMのリン酸二水素ナトリウム、140mMの塩化ナトリウム、pH2.5に溶出した。下流解析の前に、タンパク質の純度をSDS-PAGEによって検証した。精製した抗体をUnchained Lab社のUNcle機器に装填し、静的光散乱(SLS)および蛍光測定を行いながら、抗体を20℃~95℃の熱ランプに毎分0.5℃の速度で曝露した。融解温度(Tm)は、温度の関数として、重心平均(BCM)の第1の導関数の収束点として識別される。
【0107】
15)T細胞増殖アッセイによる免疫原性リスク評価
免疫原性リスクを、ProImmune社のProMap(登録商標)T細胞増殖アッセイによって評価した。簡潔に述べると、特定の変異体配列の15量体ペプチドを合成し、潜在的な抗原性のインビトロ評価に使用した。各15量体のペプチドをドナー抗原提示細胞にパルスし、ドナーのCD4+T細胞と共培養する。次いで、CD4+T細胞増殖を、フローサイトメトリによって測定する。アッセイは、20個の健康なドナー細胞サンプルに対してペプチドをテストすることによって実施した。分析からCD8+応答を除去するために、ドナー細胞サンプルを使用前にCD8を枯渇させた。CD4+T細胞の増殖の検出は、細胞をCFSEで標識し、抗ヒトCD4抗体で共染色することによって行った。
【0108】
図面、詳細な説明、または任意の特許請求の範囲の技術的特徴の後に参照符号が続く場合、参照符号は、図面、詳細な説明、および特許請求の範囲の明瞭性を高めるために含まれている。したがって、参照符号があってもなくても、いかなる特許請求の範囲の要素の範囲に対していかなる制限効果も有しない。
【0109】
本明細書に記載されるシステムおよび方法は、その特徴から逸脱することなく、他の特定の形態で具現化され得る。前述の実装形態は、記載されたシステムおよび方法を限定するのではなく、例示的である。したがって、本明細書に記載されるシステムおよび方法の範囲は、前述の説明ではなく、添付の特許請求の範囲によって示され、特許請求の範囲の意味および同等性の範囲内に入る変更が、そこに包含される。
【0110】
一部の例示的な実装形態をここで説明した後、上記は例示的であり、限定的ではないことが明らかであり、例として提示されている。特に、本明細書に提示される多くの例は、方法行為またはシステム要素の特定の組み合わせを含むが、それらの行為およびそれらの要素は、同じ目的を達成するために他の方法で組み合わせられ得る。1つの実装形態に関連して議論される行為、要素、および特徴は、他の実装形態または実装形態における類似の役割から除外されることを意図しない。
【0111】
本明細書で使用される用語および用語は、記載の目的のためであり、制限するものと見なされるべきではない。本明細書における「その」およびその変形形態によって「特徴付けられる(characterized by,characterized in that)」ことを「含む(including)」「含む(comprising)」「有する(having)」「含有する(containing)」「含む(involving)」ことの使用は、その後に列挙される項目、その等価物、および追加の項目、およびその後に列挙される項目のみからなる代替の実装形態を包含することを意味する。1つの実装形態では、本明細書に記載されるシステムおよび方法は、記載される要素、作用、または構成要素のうちの1つ、2つ以上の組み合わせ、または全てからなる。
【0112】
本明細書で使用される場合、「約」および「実質的に」という用語は、当業者によって理解され、それが使用される文脈に応じてある程度変化するであろう。使用される文脈において当業者には明らかでない用語の使用が存在する場合、「約」は、特定の用語のプラスまたはマイナス10%までを意味する。
【0113】
単数形で本明細書で言及されるシステムおよび方法の実装形態または要素または行為への任意の参照は、複数のこれらの要素を含む実装形態を包含し得、複数形で本明細書の任意の実装形態または要素または行為への任意の参照は、単一の要素のみを含む実装形態を包含し得る。単数形または複数形での参照は、本明細書で開示されているシステムまたは方法、それらの構成要素、作用、または要素を単数形または複数形の構成に限定することを意図しない。任意の情報、行為、または要素に基づいている任意の行為または要素への言及は、行為または要素が任意の情報、行為、または要素に少なくとも部分的に基づいている実装形態を含み得る。
【0114】
本明細書に開示される任意の実装形態は、任意の他の実装形態または実施形態と組み合わせられてもよく、「実装形態」、「一部の実装形態」、「1つの実装形態」などへの言及は、必ずしも互いに排他的ではなく、実装形態に関連して説明される特定の特徴、構造、または特徴が少なくとも1つの実装形態または実施形態に含まれ得ることを示すことが意図される。本明細書で使用される場合、かかる用語は、必ずしも全て同じ実装形態を指すものではない。任意の実装形態は、本明細書に開示される態様および実装形態と一致する任意の方法で、包括的または排他的に任意の他の実装形態と組み合わせてもよい。
【0115】
本明細書および特許請求の範囲で使用される場合、明確にそれに反して示されない限り、不定冠詞「1つの(a)」および「1つの(an)」は、「少なくとも1つ」を意味すると理解されるべきである。
【0116】
「または」への言及は、「または」を使用して記載された任意の用語が、記載された用語の単一、2つ以上、および全てのいずれかを示すことができるように、包括的であると解釈されてもよい。例えば、「『A』および『B』のうちの少なくとも1つ」への言及は、『A』のみ、『B』のみ、ならびに『A』および『B』の両方を含み得る。「含む(comprising)」または他のオープンな用語と併せて使用されるかかる参照は、追加の項目を含み得る。
【0117】
本明細書の記載で使用される用語は、特定の実施形態を記載する目的のためだけであり、本発明を制限することを意図しない。本明細書で言及される全ての刊行物、特許出願、特許、および他の参照文献は、参照によりその全体が本明細書に組み込まれる。
【国際調査報告】