IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラッグシップ パイオニアリング イノベーションズ シックス,エルエルシーの特許一覧

特表2023-536118新規抗体親和力成熟(修正)及び特性改善のための深層学習
<>
  • 特表-新規抗体親和力成熟(修正)及び特性改善のための深層学習 図1A
  • 特表-新規抗体親和力成熟(修正)及び特性改善のための深層学習 図1B
  • 特表-新規抗体親和力成熟(修正)及び特性改善のための深層学習 図2
  • 特表-新規抗体親和力成熟(修正)及び特性改善のための深層学習 図3
  • 特表-新規抗体親和力成熟(修正)及び特性改善のための深層学習 図4
  • 特表-新規抗体親和力成熟(修正)及び特性改善のための深層学習 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-08-23
(54)【発明の名称】新規抗体親和力成熟(修正)及び特性改善のための深層学習
(51)【国際特許分類】
   G16B 30/00 20190101AFI20230816BHJP
   G16B 40/00 20190101ALI20230816BHJP
【FI】
G16B30/00
G16B40/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023505917
(86)(22)【出願日】2021-07-28
(85)【翻訳文提出日】2023-03-23
(86)【国際出願番号】 US2021043461
(87)【国際公開番号】W WO2022026551
(87)【国際公開日】2022-02-03
(31)【優先権主張番号】63/057,376
(32)【優先日】2020-07-28
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】520445473
【氏名又は名称】フラッグシップ パイオニアリング イノベーションズ シックス,エルエルシー
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】コステロ, ザッカリー コール
(72)【発明者】
【氏名】フィーラ, ジェイコブ
(72)【発明者】
【氏名】ビーム, アンドリュー レーン
(57)【要約】
抗体親和力及び抗体発現を制御することは臨床応用にとって鍵である。高親和力抗体は、より高い特異性と相関しており、したがってより低いドーズ量で使用され得る。現在は、抗体成熟は指向性進化法により取り組まれる。この場合、突然変異結合剤の初期ライブラリがプロセス内へ植え付けられ、そして親和力が複数回の突然変異及び選択を介し改善される。しかし、本開示は、指向性進化に対する類似性を有するプロセスを使用することにより抗体配列を計算的に成熟させるために機械学習手法を採用する。これらの抗体配列はそれらの計算及び検証後に物理的抗体へ製造され得る。加えて、本方法は、特定親和力を標的とする際に指向性進化を凌駕する可能性を有し、そして一般的な蛋白質間相互作用へ適用可能である。
【特許請求の範囲】
【請求項1】
改善された特性を有する抗体配列を判断する方法であって、前記方法は、
複数の機械学習モデルのそれぞれのスコアを生成することであって、各機械学習モデルはそれぞれの複数の抗体配列に基づきトレーニングされ、前記それぞれの複数の抗体配列の各抗体配列は、前記複数の抗体配列に対応する特性と前記それぞれの抗体配列に対応する特性の値とにより標記され、前記それぞれの機械学習モデルに対応する前記特性を予測することに対する貢献を指示する前記複数の機械学習モデルの各機械学習モデルのそれぞれのスコアを生じる、生成すること、及び
生成された各スコアに従って各機械学習モデルの出力を重み付けそして前記重み付けされた出力を加重和へ合成することにより前記複数の機械学習モデルを使用することにより抗体配列を生成することを含む方法。
【請求項2】
前記抗体配列を生成することはさらに、
前記複数の機械学習モデルに基づき提案分布から抗体配列を選択すること;及び
前記選択された抗体配列が特定閾値を越える許容確率を有するかどうかを判断すること、そしてそうであれば前記抗体配列を解析すること、そしてそうでなければ前記提案分布から次の抗体配列を選択することを含む、請求項1に記載の方法。
【請求項3】
前記抗体配列を生成することはさらに、
提案分布から選択された抗体配列の、前記複数の機械学習モデルの関数により判断された、第1の特性値と現在の探求において最良特性値を有する抗体配列の、前記複数の機械学習モデルにより判断された、第2の特性値とを比較すること;及び
前記第1の特性値が前記第2の特性値より大きければ、前記最良特性値を有する前記抗体配列を前記提案分布から選択された前記抗体配列と交換することを含む、請求項1又は2に記載の方法。
【請求項4】
前記微調整された機械学習モデルを生成することはさらに、
前記第2の複数の抗体配列の各配列特性を重み付けすること;
前記機械学習モデルを使用することにより前記第2の複数の抗体配列を生成するために最適モデルパラメータを判断すること;及び
前記最適モデルパラメータを前記機械学習モデルへ適用することであって、適用された前記最適モデルパラメータを有する結果モデルは前記微調整された機械学習モデルである、適用することを含む、請求項1乃至3のいずれか一項に記載の方法。
【請求項5】
対応特性は親和力、発現、蛋白質凝集、蛋白質分解安定性、発現、及び標的外れ影響の少なくとも1つである、請求項1乃至4のいずれか一項に記載の方法。
【請求項6】
前記複数の機械学習モデルに基づき提案分布から規定受容基準内である抗体配列候補を選択すること;及び
前記抗体配列候補の特性が、最良と分かった抗体配列より良ければ、前記最良と分かった抗体配列と前記抗体配列候補とを交換すること、又はそうでなければ前記抗体配列候補を無視することをさらに含む請求項1乃至5のいずれか一項に記載の方法。
【請求項7】
前記生成された抗体配列を有する抗体を生成することをさらに含む請求項1乃至6のいずれか一項に記載の方法。
【請求項8】
前記生成された抗体配列を有する製造された抗体を提供すること;及び前記特性に関し前記抗体を分析することをさらに含む請求項1乃至7のいずれか一項に記載の方法。
【請求項9】
1つ又は複数の機械学習モデルをトレーニングすることであって、各機械学習モデルはそれぞれの複数の抗体配列に基づきトレーニングされ、前記それぞれの複数の抗体配列の各抗体配列は、前記複数の抗体配列に対応する特性と前記それぞれの抗体配列に対応する特性の値とにより標記される、トレーニングすることをさらに含む請求項1乃至8のいずれか一項に記載の方法。
【請求項10】
前記1つ又は複数の機械学習モデルをトレーニングすることはさらに:
少なくとも1つの特性により標記された一組のアミノ酸配列を提供すること;
マスクされた一組のアミノ酸配列を提供するために前記一組のアミノ酸配列の一部をマスクすることであって、前記一組のアミノ酸配列の残りはマスクされない一組のアミノ酸配列である、マスクすること:及び
前記マスクされた各アミノ酸配列を(1)各マスクされたアミノ酸配列を標記する前記少なくとも1つの特性と(2)前記マスクされない一組のアミノ酸配列と各マスクされないアミノ酸配列の前記標記された特性とに基づき推定するように前記1つ又は複数の機械学習モデルをトレーニングすることをさらに含む、請求項9に記載の方法。
【請求項11】
前記抗体配列を生成することはMCMCサンプリングを採用することにより行われる、請求項1乃至10のいずれか一項に記載の方法。
【請求項12】
前記複数の抗体配列は当該の抗原に関連する、請求項1乃至11のいずれか一項に記載の方法。
【請求項13】
前記貢献は改善される以下の特性:
前記抗体配列の製造に対する前記特性の重要度、
患者内の前記抗体の免疫原性、
前記抗体の発現レベル、
開発可能性、
他のモデルとの相互作用、
他のモデルとの直交性、
及び前記生成プロセスを調節することによる経験的導出、
のうちの少なくとも1つを予測することに対するものである、請求項1乃至12のいずれか一項に記載の方法。
【請求項14】
改善された特性を有する抗体配列を判断するためのシステムであって、プロセッサ;及びコンピュータコード指令が格納されたメモリを含むシステムにおいて、
前記プロセッサ及び前記メモリは、前記コンピュータコード指令により、以下のこと:
複数の機械学習モデルのそれぞれのスコアを生成することであって、各機械学習モデルはそれぞれの複数の抗体配列に基づきトレーニングされ、前記それぞれの複数の抗体配列の各抗体配列は、前記複数の抗体配列に対応する特性と前記それぞれの抗体配列に対応する特性の値とにより標記され、前記それぞれの機械学習モデルに対応する前記特性を予測することに対する貢献を指示する前記複数の機械学習モデルの各機械学習モデルのそれぞれのスコアを生じる、生成すること、及び
生成された各スコアに従って各機械学習モデルの出力を重み付けそして前記重み付けされた出力を加重和へ合成することにより前記複数の機械学習モデルを使用することにより抗体配列を生成すること、
を前記システムにさせるように構成される、システム。
【請求項15】
前記抗体配列を生成することはさらに、
前記微調整された機械学習モデルに基づき提案分布から抗体配列を選択すること;及び
前記選択された抗体配列が特定閾値を越える許容確率を有するかどうかを判断すること、そしてそうであれば前記抗体配列を解析すること、そしてそうでなければ前記提案分布から次の抗体配列を選択することを含む、請求項14に記載のシステム。
【請求項16】
前記抗体配列を生成することはさらに、
提案分布から選択された抗体配列の、前記微調整された機械学習モデルの関数により判断された、第1の特性値と現在の探求において最良特性値を有する抗体配列の、前記微調整された機械学習モデルにより判断された、第2の特性値とを比較すること;及び
前記第1の特性値が前記第2の特性値より大きければ、前記最良特性値を有する抗体配列と前記提案分布から選択された抗体配列とを交換することを含む、請求項14乃至15のいずれか一項に記載のシステム。
【請求項17】
前記微調整された機械学習モデルを生成することはさらに、
前記第2の複数の抗体配列の各配列特性を重み付けすること;
前記機械学習モデルを使用することにより前記第2の複数の抗体配列を生成するために最適モデルパラメータを判断すること;及び
前記最適モデルパラメータを前記機械学習モデルへ適用することであって、適用された前記最適モデルパラメータを有する結果モデルは前記微調整された機械学習モデルである、適用することを含む、請求項14乃至16のいずれか一項に記載のシステム。
【請求項18】
前記対応特性は親和力及び発現の少なくとも1つである、請求項14乃至17のいずれか一項に記載のシステム。
【請求項19】
前記プロセッサはさらに:
前記微調整された機械学習モデルに基づき提案分布から規定受容基準内である抗体配列候補を選択し;そして
前記抗体配列候補の前記特性が、最良と分かった抗体配列より良ければ、前記最良と分かった抗体配列と前記抗体配列候補とを交換すること又はそうでなければ前記抗体配列候補を無視するように構成される、請求項14乃至18のいずれか一項に記載のシステム。
【請求項20】
前記プロセッサはさらに、1つ又は複数の機械学習モデルをトレーニングするように構成され、各機械学習モデルはそれぞれの複数の抗体配列に基づきトレーニングされ、前記それぞれの複数の抗体配列の各抗体配列は、前記複数の抗体配列に対応する特性と前記それぞれの抗体配列に対応する特性の値とにより標記される、請求項14乃至19のいずれか一項に記載のシステム。
【請求項21】
前記機械学習モデルをトレーニングすることはさらに、
少なくとも1つの特性により標記された一組のアミノ酸配列を提供すること;
マスクされた一組のアミノ酸配列を提供するために前記一組のアミノ酸配列の一部をマスクすることであって、前記一組のアミノ酸配列の残りはマスクされない一組のアミノ酸配列である、マスクすること;及び
前記マスクされた一組のアミノ酸配列のそれぞれを(1)各マスクされたアミノ酸配列を標記する前記少なくとも1つの特性と(2)前記マスクされない一組のアミノ酸配列と各マスクされないアミノ酸配列の前記標記された特性とに基づき推定するように前記機械学習モデルをトレーニングすることを含む、請求項20に記載のシステム。
【請求項22】
前記抗体配列を生成することはMCMCサンプリングを採用することにより行われる、請求項14乃至21のいずれか一項に記載のシステム。
【請求項23】
前記複数の抗体配列が目的の抗原に関連する、請求項14乃至22のいずれか一項に記載のシステム。
【請求項24】
前記貢献は改善される以下の特性:
前記抗体配列の製造に対する前記特性の重要度、
前記抗体配列の発現、
患者内の前記抗体の免疫原性、
前記抗体の発現レベル、
開発可能性、
他のモデルとの相互作用、
他のモデルとの直交性、
及び前記生成プロセスを調節することによる経験的導出、
のうちの少なくとも1つを予測することに対するものである、請求項14乃至23のいずれか一項に記載のシステム。
【請求項25】
第1の抗体配列を請求項9乃至16のいずれか一項に記載のシステムへ提供すること;及び前記生成された抗体配列を前記システムから取得することを含む、抗体成熟の方法。
【請求項26】
請求項25に記載の方法により生成された隔離抗体。
【請求項27】
前記隔離抗体は組み換え技術により生成される、請求項26に記載の隔離抗体。
【請求項28】
前記隔離抗体は化学的に合成される、請求項26乃至27のいずれか一項に記載の隔離抗体。
【請求項29】
第1の抗体配列を請求項1乃至9のいずれか一項に記載の方法へ提供すること;及び
前記生成された抗体配列を前記システムから取得することを含む、抗体成熟の方法。
【請求項30】
請求項29に記載の方法により生成される隔離抗体。
【請求項31】
前記隔離抗体は組み換え技術により生成される、請求項30に記載の隔離抗体。
【請求項32】
前記隔離抗体は化学的に合成される、請求項30乃至31のいずれか一項に記載の隔離抗体。
【請求項33】
改善された特性を有する抗体配列を判断する方法であって、前記方法は、
対応する初期の複数の抗体配列に基づきトレーニングされた複数の微調整された機械学習モデルのそれぞれのスコアを生成することであって、前記初期の複数の抗体配列の各抗体配列は対応特性により標記され、各微調整された機械学習モデルはさらに、第2の複数の抗体配列により各機械学習モデルをトレーニングすることにより生成され、目的の抗原に関連する前記第2の複数の抗体配列の各抗体配列は対応特性により標記される、生成すること;及び
対応ハイパーパラメータにより重み付けされた前記複数の微調整された機械学習モデルを使用することにより目的関数に基づき抗体配列を生成することを含む、方法。
【請求項34】
改善された特性を有する抗体配列を判断する方法であって、前記方法は、
それぞれが対応特性により標記される第1の複数の抗体配列に基づき機械学習モデルをトレーニングすること;
第2の複数の抗体配列に基づき前記機械学習モデルをトレーニングすることにより、微調整された機械学習モデルを生成することであって、目的の抗原に関連する前記第2の複数の抗体配列の各抗体配列は対応特性により標記される、生成すること;及び
前記微調整された機械学習モデルに基づき抗体配列を生成することを含む方法。
【請求項35】
改善された特性を有する抗体配列を判断する方法であって、前記方法は、
それぞれがそれぞれの複数の抗体配列に基づきトレーニングされた複数の機械学習モデルのそれぞれのスコアを提供することであって、前記それぞれの複数の抗体配列の各抗体配列は、前記複数の抗体配列に対応する特性と前記それぞれの抗体配列に対応する特性の値とにより標記され、前記複数の機械学習モデルの各機械学習モデルの各それぞれのスコアは、前記それぞれの機械学習モデルに対応する前記特性を予測することに対する貢献を指示する、提供すること;及び
提供された各スコアに従って各機械学習モデルの出力を重み付けそして前記重み付けされた出力を加重和へ合成することにより前記複数の機械学習モデルを使用することにより抗体配列を生成することを含む方法。
【請求項36】
改善された特性を有する抗体配列を判断する方法であって、
前記複数の機械学習モデルのそれぞれのスコアに従って各機械学習モデルの出力を重み付けすることであって、各機械学習モデルはそれぞれの複数の抗体配列に基づきトレーニングされ、前記それぞれの複数の抗体配列の各抗体配列は、前記複数の抗体配列に対応する特性と前記それぞれの抗体配列に対応する特性の値とにより標記され、前記複数の機械学習モデルの各機械学習モデルの各それぞれのスコアは、前記それぞれの機械学習モデルに対応する前記特性を予測することに対する貢献を指示する、重み付けること;及び
前記重み付けされた出力を加重和へ合成することにより複数の機械学習モデルを使用することにより抗体配列を生成することを含む方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願
本出願は2020年7月28日申請の米国特許仮出願第63/057,376号の便益を主張する。上記出願の全教示を参照により本明細書に援用する。
【背景技術】
【0002】
抗体成熟(antibody maturation)は所与の抗体のその抗原に対する親和力を改善するプロセスである。免疫学では、抗原は免疫反応を誘起する毒素又は異物である。このような免疫反応の一例は抗原を中和するために抗原に結合する抗体の生成である。抗体はまた、多種多様な方法により設計され得る。
【発明の概要】
【課題を解決するための手段】
【0003】
抗体親和力及び発現を制御することは臨床応用にとって鍵である。高親和力抗体は、より高い特異性と相関があり、したがってより低いドーズ量で使用され得る。現在は、抗体成熟は指向性進化法(directed evolution method)により取り組まれる。この場合、突然変異結合剤の初期ライブラリがプロセス内へ植付けられ、そして親和力が複数回の突然変異及び選択を介し改善される。しかし、本開示は、指向性進化との類似性を有するプロセスを使用することにより抗体配列を計算的に成熟させるために機械学習手法を採用する。これらの抗体配列はそれらの計算及び検証後に物理的抗体へ製造され得る。加えて、本方法は、特定親和力を標的とする際に指向性進化を凌駕する可能性を有し、そして一般的蛋白質間相互作用へ適用可能である。
【0004】
一実施形態では、計算指向性進化(CDE:computational directed evolution)は多目的及び多モデル状況において使用され得る(例えば、改善のために2つ以上の特性をほぼ同時に選択する際)。この場合、1つ又は複数のモデルが使用され得る。これらのモデルのそれぞれは最適化される1つ又は複数の特性を有し得る。1つ又は複数のモデルは単一目的関数へ合成され得、そしてCDEはその目的を最適化し得る。目的関数は最適化手順(この場合、計算指向性進化)により最適化される。最適化されると、目的関数は当該の1つ又は複数の抗体特性を改善する抗体配列を生じる。
【0005】
一実施形態では、改善された特性を有する抗体配列を判断する方法は、抗体配列の第1のグループに基づき機械学習モデルをトレーニングすることを含む。データベースの各抗体配列は1つ又は複数の対応特性により標記される。本方法はさらに、それぞれが対応特性により標記された第2の複数の抗体配列に基づき機械学習モデルをトレーニングすることにより、微調整された機械学習モデルを生成する。第2の複数の抗体配列は当該の抗原に関連する。本方法はさらに、微調整された機械学習モデルに基づき抗体配列を生成することを含む。
【0006】
当業者は微調整された機械学習モデル(細かく調整された機械学習モデルとも言う)が最初に一般的データセットに基づきトレーニングされそして次により大きな特定データセットに基づき細かく調整された機械学習モデルであるということを認識する。微調整はまた、所与のタスクに関してトレーニングされた機械学習モデルを採用しそして第2のタスクを行うようにこの機械学習モデルをトレーニングするプロセスとして説明され得る。
【0007】
一実施形態では、改善された特性を有する抗体配列を判断する方法は、複数の機械学習モデルのそれぞれのスコアを生成することを含む。各機械学習モデルはそれぞれの複数の抗体配列に基づきトレーニングされる。それぞれの複数の抗体配列の各抗体配列は複数の抗体配列に対応する特性及びそれぞれの抗体配列に対応する特性の値により標記される。各機械学習モデルのスコアを生成することは、複数の機械学習モデルの各機械学習モデルのそれぞれのスコアを生じ、スコアはそれぞれの機械学習モデルに対応する特性を予測することに対する貢献を指示する。本方法はさらに、生成された各スコアに従って各機械学習モデルの出力を重み付けそして重み付けされた出力を加重和へ合成することにより複数の機械学習モデルを使用することにより抗体配列を生成することを含む。
【0008】
いくつかの実施形態では、貢献は、製造に対する特性の重要度、蛋白質の発現、患者の免疫原性、発現、開発可能性、他のモデルとの相互作用、他のモデルとの直交性、及び生成プロセスを調節することによる経験的導出のうちの1つ又は複数を含む。
【0009】
一実施形態では、抗体配列を生成することはさらに、微調整された機械学習モデルに基づき提案分布から抗体配列を選択することを含む。抗体配列を生成することはさらに、選択された抗体配列が特定閾値を越える受容確率を有するかどうかを判断すること、そしてそうであれば抗体を解析すること、そしてそうでなければ提案分布から次の抗体配列を選択することを含む。
【0010】
一実施形態では、抗体配列を生成することはさらに、提案分布から選択された抗体の(微調整された機械学習モデルにより判断された)第1の特性値と現在の探求において最良特性値を有する抗体の(微調整された機械学習モデルにより判断された)第2の特性値とを比較することを含む。第1の特性値が第2の特性値より大きければ、本方法は最良特性値を有する抗体と提案分布から選択された抗体とを交換する。
【0011】
一実施形態では、機械学習モデルをトレーニングすることはさらに、少なくとも1つの特性により標記された一組のアミノ酸配列を提供することを含む。機械学習モデルをトレーニングすることはさらに、マスクされた一組のアミノ酸配列を提供するために一組のアミノ酸配列の一部をマスクすることを含む。一組のアミノ酸配列の残りはマスクされない一組のアミノ酸配列である。機械学習モデルをトレーニングすることはさらに、マスクされた一組のアミノ酸配列のそれぞれを(1)各マスクされたアミノ酸配列を標記する少なくとも1つの特性と(2)マスクされない一組のアミノ酸配列と各マスクされないアミノ酸配列の標記された特性とに基づき推定するように機械学習モデルをトレーニングすることを含む。
【0012】
一実施形態では、微調整された機械学習モデルを生成することはさらに、第2の複数の抗体配列の各配列特性を重み付けすることを含む。微調整された機械学習モデルを生成することはさらに、機械学習モデルを使用することにより第2の複数の抗体配列を生成するために最適モデルパラメータを判断することを含む。微調整された機械学習モデルを生成することはさらに、最適モデルパラメータを機械学習モデルへ適用することを含む。適用された最適モデルパラメータを有する結果モデルは微調整された機械学習モデルである。
【0013】
一実施形態では、対応特性は親和力(例えば結合親和力)又は発現である。他のいくつかの実施形態では、特性(例えば関数値)の例は以下のうちの1つ又は複数であり得る:結合親和力、結合特異性、触媒(例えば酵素)活性、蛍光、可溶性、熱的安定性、立体配座、免疫原性、蛋白質凝集、蛋白質分解安定性、発現、的外れ効果、及び生体高分子配列の任意の他の機能特性。このプロセスは、我々が当該特性を有する(小さな)開始組の例を有する任意の蛋白質に適用可能である。次に、ここから、我々は、我々のニーズにより適する当該特性を修正するために本明細書に記載のプロセスを使用し得る。これは、標的値又は或る範囲の値に当たる(例えば、特異的結合親和力に当たる)ための値の増加(例えば触媒反応速度の増加)又は特性値の低下(例えば免疫原性の低下)に到る可能性がある。
【0014】
一実施形態では、本方法は、微調整された機械学習モデルに基づき提案分布から規定受容基準内である抗体配列候補を選択することを含む。本方法はさらに、抗体配列候補の特性が、最良と分かった抗体配列より良ければ、最良と分かった抗体配列と抗体配列候補とを交換すること又はそうでなければ抗体配列候補を無視することを含む。
【0015】
一実施形態では、本方法はまた、生成される抗体配列を有する抗体を生成することを含む。一実施形態では、本方法はまた、生成される抗体配列を有する製造済み抗体を提供すること及び特性に関し抗体を分析することを含み得る。
【0016】
一実施形態では、改善された特性を有する抗体を判断するためのシステムは、プロセッサと、その上に格納されたコンピュータコード指令を有するメモリとを含む。プロセッサ及びメモリは、コンピュータコード指令によりシステムに第1の複数の抗体配列に基づき機械学習モデルをトレーニングさせるように構成される。データベースの各抗体配列は対応特性により標記される。プロセッサはさらに、第2の複数の抗体配列及び対応特性に基づき機械学習モデルをトレーニングすることにより、微調整された機械学習モデルを生成するように構成される。第2の複数の抗体配列は当該の抗原に関連する。プロセッサはさらに、微調整された機械学習モデルに基づき抗体配列を生成するように構成される。
【0017】
一実施形態では、抗体成熟の方法は、第1の抗体配列を上記システム又は方法へ提供すること及び生成された抗体配列をこのシステムから取得することを含み得る。
【0018】
一実施形態では、隔離抗体が上記方法により生成され得る。一実施形態では、隔離抗体は組み換え技術により生成される。一実施形態では、隔離抗体は化学的に合成される。
【0019】
一実施形態では、本方法は改善された特性を有する抗体配列を判断又は生成すること含み、判断又は生成することは微調整された機械学習モデルにより行われる。微調整された機械学習モデルは、(1)それぞれが対応特性により標記される第1の複数の抗体配列に基づき機械学習モデルをトレーニングすることにより、そして(2)それぞれが対応特性により標記される第2の複数の抗体配列であって当該の抗原に関係する第2の複数の抗体配列に基づき機械学習モデルをトレーニングすることにより、微調整された機械学習モデルを生成することにより生成され得る。任意選択的に、機械学習モデルをトレーニングすること、微調整された機械学習モデルを生成すること、又は両方は、抗体配列を生成することとは別な第三者により行われ得る。
【0020】
本明細書で使用されるように、抗体配列は、ディジタル的に又は別のフォーマットで格納され得るアミノ酸の規則正しい配列を指す。抗体は抗体の物理的発現を指す。当業者は、本開示のシステム及び方法により生成される抗体配列が製造され得る又はそうでなければ抗体として生成され得るということを認識し得る。
【0021】
一実施形態では、改善された特性を有する抗体配列を判断する方法は、複数の機械学習モデルをトレーニングすることを含む。各機械学習モデルは対応する初期の複数の抗体配列に基づきトレーニングされる。初期の複数の抗体配列の各抗体配列は対応特性により標記される。当業者は、各それぞれの機械学習モデルは異なる複数の抗体配列によりトレーニングされ得るということを理解し得る。次に、本方法は複数の微調整された機械学習モデルを生成する。各微調整された機械学習モデルは、第2の複数の抗体配列により各機械学習モデルをトレーニングすることにより生成される。第2の複数の抗体配列の各抗体配列は対応特性により標記され、そして第2の複数の抗体配列は当該の抗原に関連する。次に、本方法は、対応ハイパーパラメータにより重み付けされた複数の微調整された機械学習モデルを使用することにより目的関数に基づき抗体配列を生成する。
【0022】
一実施形態では、1つ又は複数の抗体配列は当該の抗原に関連する。
【0023】
一実施形態では、改善された特性を有する抗体配列を判断する方法は、それぞれがそれぞれの複数の抗体配列に基づきトレーニングされた複数の機械学習モデルのそれぞれのスコアを提供することを含む。それぞれの複数の抗体配列の各抗体配列は、複数の抗体配列に対応する特性とそれぞれの抗体配列に対応する特性の値とにより標記される。複数の機械学習モデルの各機械学習モデルの各それぞれのスコアは、それぞれの機械学習モデルに対応する特性を予測することに対する貢献を指示する。本方法はさらに、提供された各スコアに従って各機械学習モデルの出力を重み付けそして重み付けされた出力を加重和へ合成することにより複数の機械学習モデルを使用することにより抗体配列を生成することを含む。
【0024】
一実施形態では、改善された特性を有する抗体配列を判断する方法は、複数の機械学習モデルを使用することにより抗体配列を生成することを含む。抗体配列を生成することは、複数の機械学習モデルのそれぞれのスコアに従って各機械学習モデルの出力を重み付けすることにより行われる。各機械学習モデルはそれぞれの複数の抗体配列に基づきトレーニングされる。それぞれの複数の抗体配列の各抗体配列は、複数の抗体配列に対応する特性とそれぞれの抗体配列に対応する特性の値とにより標記される。複数の機械学習モデルの各機械学習モデルの各それぞれのスコアは、それぞれの機械学習モデルに対応する特性を予測することに対する貢献を指示する。本方法はさらに、重み付けられた出力を加重和へ合成することを含む。
【0025】
本特許又は出願ファイルはカラーで描かれた少なくとも1つの図を含む。カラー図面を含む本特許又は特許出願公開の複製が、要求され所要手数料が支払われると特許商標庁により提供される。
【0026】
前述のことは、添付図面に示される例示的実施形態の以下のより具体的な説明から明らかになる。添付図面では、同様な参照文字は様々な図を通して同じ部分を指す。添付図面は必ずしもスケーリングされていなく、そして強調はむしろ実施形態を例示することに置かれている。
【図面の簡単な説明】
【0027】
図1A】本開示の方法の例示的実施形態を示すブロック図である。
図1B】本開示により採用されるプロセスの例示的実施形態を示す流れ図である。
図2】計算指向性進化を使用することにより抗体配列を発見するための抗体配列空間内のランダムウォーク系列を示すグラフである。
図3】既存データセットと比較した、生成された抗体配列の改善を示すグラフである。
図4】本発明のいくつかの実施形態が実施され得るコンピュータネットワーク又は同様なディジタル処理環境を示す。
図5図4のコンピュータシステム内のコンピュータ(例えばクライアントプロセッサ/デバイス又はサーバコンピュータ)の例示的内部構造の線図である。
【発明を実施するための形態】
【0028】
例示的実施形態の説明が続く。
【0029】
図1Aは本開示の方法の例示的実施形態を示すブロック図100である。本開示は、閉ループ抗体親和力成熟に対する新規手法を採用する。反復プロセスは、大きく且つ重要な一組の蛋白質配列データ及びそれらの特性に対する深層機械学習モデルの教師無し事前トレーニングで始まる(102)。いくつかの実施形態では、これは、n個の抗体配列を含むデータセットに対する言語モデルの教師無し事前トレーニングを含む。これは、抗体配列内のアミノ酸間の根本的統計的関係を学習するようにモデルを条件付ける。
【0030】
次に、このプロセスは、所望抗体抗原ペアに固有なデータを使用することによりより小さな教師有り学習タスクに関する事前トレーニング済みモデルを微調整する(104)。この微調整された機械学習モデルは所望抗体抗原ペアに固有なデータとして親和力及び発現の両方に関し併せてトレーニングされるが、実際には、任意数又は任意タイプの追加特性が微調整過程において使用され得る。微調整されたモデルがトレーニングされると(104)、このモデルは、以下にさらに説明される最適化問題を解くことより親和力成熟を行うために下流で採用される。微調整後、計算指向性進化は、選択された標的に対して高親和力抗体配列の抗体配列空間の制約された探索を行う。この最適化問題に対する解は1つ又は複数の親和力成熟抗体配列(例えば、教師付きトレーニングタスクにおいて観測されたものより高い親和力を有するために機械学習モデルにより予測される配列)である(106)。次に、本方法はこれらの親和力成熟抗体配列(すなわち改善された抗体配列)を構築する。本方法はさらに、構築された抗体配列を親和力及び発現に関し実験的に分析する。分析された配列からの新しいデータが教師有り学習データセットに取り込まれ、そしてプロセス100は好適な候補が見つかるまで繰り返す(102)。一実施形態では、高親和力候補の資格は10ピコモル(pM:picomolar)未満の平衡解離定数(K:equilibrium dissociation constant)であり得る(例えばフルオレセインに対する抗体の場合)。
【0031】
本明細書で使用されるように、「抗体」は、免疫グロブリン分子の可変領域内に配置された(少なくとも1つの抗原識別部を介し)標的に対して特異結合することができる炭水化物、ポリヌクレオチド、脂質、ポリペプチドなどの免疫グロブリン分子を指す。本明細書で使用されるように、用語「抗体」は、無損傷(すなわち完全長)単クローン抗体だけでなく、抗原結合性フラグメントも(Fab,Fab’,F(ab’)2,Fvなど)、単鎖可変フラグメント(scFv:single chain variable fragment)、その突然変異体、抗体部を含む融合蛋白質、ヒト化抗体、キメラ抗体、二重特異性抗体、線形抗体、単鎖抗体、単一ドメイン抗体(例えばラクダ又はラマVHH抗体)、多特異特抗体(例えば二重特異性抗体)、及び必要とされる特異性の抗原識別部を含む免疫グロブリン分子の任意の他の修飾構成(抗体のグリコシル化変種、抗体のアミノ酸配列変種及び共有結合修飾抗体を含む)も包含する。
【0032】
本明細書で使用されるように、「結合定数」、「平衡解離定数」、又は「親和力定数」とも呼ばれる用語「K」は、2つの分子種(例えば抗体と標的蛋白質)間の可逆的会合の程度の測度であり、実際の結合親和力及び見かけ結合親和力の両方を含む。結合親和力は、当該技術領域において知られた方法を使用すること(例えば表面プラズモン共鳴の測定(例えばBIAcoreシステム及び分析を使用する)によることを含む)により判断され得る。
【0033】
いくつかの態様では、抗体は、標的蛋白質を10-4M、10-5M、10-6M、10-7M、10-8M、10-9M、10-10M、10-11M、又は10-12M未満のKで結合する。例えば、抗体は、標的蛋白質を1000nM未満、又は代替的に900nM未満、代替的に800nM未満、又は代替的に700nM未満、又は代替的に600nM未満、代替的に500nM未満、又は代替的に400nM未満,又は代替的に300nM未満、又は代替的に200nM未満、代替的に100nM未満、又は代替的に90nM未満、又は代替的に80nM未満、代替的に70nM未満、又は代替的に60nM未満,又は代替的に50nM未満、又は代替的に40nM未満、代替的に30nM未満、又は代替的に20nM未満、又は代替的に15nM未満、代替的に10nM未満、又は代替的に9nM未満、又は代替的に8nM未満,又は代替的に7nM未満、又は代替的に6nM未満、代替的に5nM未満、又は代替的に4nM未満、又は代替的に3nM未満、代替的に2nM未満、又は代替的に1nM未満、又は代替的に、1000未満pM、又は代替的に100未満pM、又は代替的に、10未満pM、又は代替的に1未満pMのKで結合し得る。
【0034】
いくつかの態様では、本明細書において開示された方法により識別される抗体配列は、基準抗体の親和力と比較して標的蛋白質を少なくとも70%親和力以上、代替的に少なくとも75%親和力以上、又は代替的に少なくとも80%親和力以上、又は代替的に少なくとも85%親和力以上、又は代替的に少なくとも90%親和力以上、又は代替的に少なくとも95%親和力以上で結合する抗体に対応する。いくつかの態様では、抗体は標的蛋白質を基準抗体より高い親和力で結合する。基準抗体は、例えば所与の標的に関して最も高い報告(例えば公表)された類似性を有する抗体であり得る。
【0035】
実際、図1Aに記載のプロセス100は、10pMより大きい親和力を有するフルオレセイン抗体配列の生成により1回後に抗体親和力を急速に改善する。このプロセスは、より良い治療抗体を生成するのにかかる費用及び時間を、作られそして試験される必要がある構造の数を低減することにより低減し得る。このプロセスの詳細は以下に説明される。
【0036】
初期実験では、本プロセスは以下の2つのデータセットを採用した:抗体配列の大きな教師無しセット、及び成熟を計算的にブートストラップするための当該の抗体の小さな一組の配列親和力ペア。具体的には、事前トレーニングは単一人から採取された完全抗体レパートリを使用した。このデータセットは、参照によりその全体を本明細書に援用するBryan,et al.,“Commonality despite exceptional diversity in the baseline human antibody repertoire,”Nature 566.7744(2019):393(以降“Bryan”)にさらに詳細に説明されている。教師無しデータセット
【数1】

は約3億の抗体配列
【数2】

を含む。微調整のために、参照によりその全体を本明細書に援用するAdams,Rhys M.,et al.“Measuring the sequence-affinity landscape of antibodies with massively parallel titration curves.”Elife 5(2016):e23156(以降“Adams”)からの高スループットフルオレセイン抗体データが使用される。この例示的教師有りデータセット
【数3】

は、3通り評価された発現及び親和力データと対をなす2803個の配列で構成される。このデータセット
【数4】

からの例は蛋白質配列、親和力測定値及び発現測定値をそれぞれ含むタプルである。
【0037】
機械学習モデルは親和力特性及び発現特性の両方に関する特性オラクルとして働くようにトレーニングされる。このプロセスにおいて使用されるモデル(「Omniprot」と呼ばれる)は、参照によりその全体を本明細書に援用するDevlin,Jacob,et al.“Bert:Pre-training of deep bidirectional transformers for language understanding.”arXiv preprint arXiv:1810.04805(2018)(以降“Devlin”)においてさらに詳細に説明されるBERTマスク言語モデル(masked language model)の適合版である。しかし、原理的に、教師無しやり方で事前トレーニングされ得る任意のモデルが使用され得る。Omniprotは、蛋白質配列のマスク部分smaskedを再構築するために学習することによりトレーニングされる深層トランスフォーマモデル(deep transformer model)であり、そのマスクされたそのアミノ酸のうちの無作為15%を有する。トレーニングタスクは次のように規定される:
【数5】

ここで、θはOmniprotのパラメータのベクトルであり、そして
【数6】

は教師無し事前トレーニング問題を解く最適条件であるネットワークパラメータを表す。換言すれば、Omniprotは、どれだけ正確にマスクアミノ酸を推測し得るかに関し評価される。このトレーニング目的は、基礎をなす蛋白質配列空間内の統計的規則性をモデル化するようにOmniprotに教示する。この場合、Omniprotは、より小さな下流教師有りタスクに対するモデル性能を改善するために転移学習の形式として教師無し抗体配列データセット
【数7】

に対しトレーニングする。Devlinはさらに、BERTのようなモデル及びそれらのアーキテクチャの教師無し事前トレーニングの態様を開示する。
【0038】
一組のモデルパラメータ
【数8】

が事前トレーニング目的関数から取得されると、はるかに小さな教師有り一組のデータがモデルを微調整する際に使用され得る。この例示的実施形態では、微調整は「トレーニングの開始時にモデルを初期化するために事前トレーニングパラメータを使用した後に、より小さなデータセットを使用することによりモデルを新しいタスクに適合させるために新しい最適化問題を解くこと」を意味する。この目的を達成するために、微調整最適化問題は次のように表され得る:
【数9】

ここで、
【数10】

は当該の各配列特性を重み付けするハイパーパラメータであり、
【数11】

はトレーニングデータセット
【数12】

を所与として最適組のネットワーク重み付けである。最適パラメータはモデルアーキテクチャと共に、抗体親和力の下流最適化を行うために使用され得るオラクルを構成する。
【0039】
モデルがトレーニングされると、このモデルは改善された親和力を有する抗体配列を見出すために使用され得る。このような工程は配列成熟と呼ばれる。一例示的実施形態では、微調整されたOmniprotモデルが、候補配列の親和力及び発現を予測し得、そしてあり得る抗体配列の有効ドメイン全体にわたって探索し得る。最適化問題は次のように表され得る:
【数13】

ここで、
【数14】

は配列から親和力への微調整されたOmniprotモデルのマッピングである。この最適化問題は、様々な最適化方法を適用することにより多くのやり方で単純に解かれ得る。しかし、重要な考慮がドメイン(例えば蛋白質配列)を一組の有効抗体配列に制限している。所望配列制約を考慮する一方でこの問題を解くために、計算指向性進化(Computational Directed Evolution:以降「CDE」)と呼ばれる最適化手順が適用され得る。CDEは蛋白質最適化に適用されるマルコフ連鎖モンテカルロ[MCMC:Markov Chain Monte Carlo]技術である。CDEのMCMCプロセスは、トレーニングセットのMSA内の突然変異の臨界確率により規定された提案分布を使用する。このプロセスは、どのように各突然変異が期待のモデルにより予測親和力を改善するかを実証する。繰り返されると、追加突然変異が、予測結合親和力を改善する元の配列内に蓄積され、最終的に、実験室における試験ための強い候補を生じる。具体的には、CDEはMetropolis-Hastings方法の実装である。この例示的実施形態では、CDEは有効蛋白質配列空間全体にわたる偏ったランダムウォークであり、ここでは、見出された最高親和力抗体が選択されたランダムウォークの終わりに戻される。
【0040】
Metropolis-Hastings方法を実施するために、以下の一群の目的関数が以下の入力として使用される:
a)初期開始抗体配列
【数15】


b)提案分布p(s_{t+1}|s_t)、及び
c)受容基準g:
【数16】


ここで、
【数17】

はOmniprot微調整過程のトレーニングセット内の一組のすべての抗体配列であり、そして
【数18】

は、整列されたトレーニングセット(aligned training set)内のアミノ酸に関する臨界分布から引き出され得る一組のすべての配列である。したがって、受容基準gは、一対の配列(例えば抗体配列及び次候補配列)から、ランダムウォークにおける次工程として候補配列を受容する確率を指示する単位間隔へのマッピングピングである。本方法の例示的実施形態では受容基準は次のよう定義される:
【数19】

ここで、s及びsはそれぞれ現在配列及び候補配列であり、そしてαは正の定数である。原理的に、多くのこのような受容基準が使用されそして効果的であり得るが、実際、この判断基準は効果的であるということが分かった。
【0041】
上記を所与として、CDE方法は次のように進む(これはMetropolis-Hastingsの実装であるということに留意されたい):
a)初期抗体配列で開始する:
【数20】

b)現在の最良配列を初期化する:
【数21】

c)提案分布から新候補配列を引き出す:
【数22】

d)確率g(s,s)により:
【数23】

と設定する
e)
【数24】

f)n>最大反復数になるまでは工程(c)に戻る
【0042】
設計者は抗体配列の複数の特性を最適化することを望み得る。そうするために、抗体配列の各特性を推定するためのモデルが採用され得、そして目的関数が、ハイパーパラメータを使用することによりそれぞれのモデルの重み付け結果を合成する。ハイパーパラメータ及びその使用は以下に説明される。
【0043】
2つの目的関数が最適化されるシナリオを考察する。当業者は、任意の2つの特性が解析され得るということを認識し得る。しかし、この例に関しては、結合親和力及び抗体溶解度が例示のために使用されている。例えば、第1のモデルは、我々の標的(m(s))に対する配列の結合親和力を判断する。第2のモデルは抗体溶解度(m(s))を判断する。両方のモデルは、配列(s)を取り込み、そして測定された特性を表すスカラー量を戻す。結合目的関数(例えば目的関数)は次のように2つのスカラー出力を合成し得る:
objective(s):=(1-α)m(s)+αm(s)
ここで、αは0~1の閉区間上にある。このαハイパーパラメータを判断することは良い目的関数を見出す行為の一部であり、そして試験を必要とし得る。一般的に、目的関数は、一組のモデルの加重和として表現され得る。複数のモデルを最適化することは、所望抗体配列を得るためにモデルを合成する際にどのように各モデルを重み付けするかを判断することに関わる。このような最適化は、抗体の設計者がいくつかの特性を他の特性より優先し得ると手動で行われ得る。ハイパーパラメータは、製造に対する特性(例えば製造可能性)の重要度、蛋白質の発現、患者の免疫原性、開発可能性、他のモデルとの相互作用、他のモデルとの直交性、及び生成プロセスを調節することによる経験的導出のうちの1つ又は複数を表し得る。製造可能性は、標準的生化学技術を使用することにより蛋白質配列(例えば薬)を生成する容易性又は困難性に基づく要因である。製造可能性要因は、どれだけ容易に蛋白質が発現するか、どれくらいの可能性で蛋白質が集約するか、蛋白質がどれだけ安定か等々を含む。これらの関心はすべて、生成の費用及び実現可能性に関係する。開発可能性は、蛋白質配列(例えば薬)の臨床成功に関係する属性に基づく要因である。開発可能性要因は、どれだけ容易に蛋白質が発現するか、どれくらいの可能性で蛋白質が集約するか、蛋白質がどれだけ安定か、標的に対する特異性、等々を含む。
【0044】
一般的に、n個のモデルに関して、多モデルタイプの目的関数は次のよう表される:
【数25】

ここで、重み付けwは0~1の値を取り、そしてすべての重み付けwの合計は1となる。ただ1つの特性が最適化される場合は、n=1、w=1。しかし、設計者は、多モデル目的関数の重み付けを構成する。
【0045】
図1Bは、本開示により採用されるプロセスの例示的実施形態を示す流れ図150である。本プロセスは初期抗体sを選択すること(152)により始まる。初期抗体sは機械学習プロセスにより改善される抗体である。初期化するために、本方法は最良と分かった抗体sを第1のパスのsに設定する。次に、本方法は上に定義された提案分布
【数26】

から新配列sを引き出す(156)。換言すれば、提案分布は、現在配列sから単一配列である新抗体を選択する。提案分布
【数27】

を所与として、新配列は、いつくかの位置にわたる一様分布を使用することにより、突然変異すべき位置を選択することにより提案される。位置が選択されると、特定点突然変異が選択されるいくつかのやり方が存在する。これらの方法は以下のことを含む:
a)当該位置において新アミノ酸を(20のカノニカルセットから)一様に無作為に選択する、
b)トレーニングセット内の抗体の多配列アラインメントにより誘起される一次分布を使用することにより当該位置において新アミノ酸を選択する、又は
c)抗体トレーニングセット内で見出されたアミノ酸の零次分布にわたってサンプリングすることにより当該位置において新アミノ酸を選択する。
【0046】
多配列アラインメントにより誘起される一次分布は、トレーニングセット内の特定位置に見られる潜在的アミノ酸の経験的分布である。零次分布は位置にはかかわらないすべてのアミノ酸の経験的分布である。零次分布は、トレーニングセット内の各蛋白質からあらゆる残りを採用し、これらをバッグ内に入れ、そして交換無しにこのバッグからサンプリングする分布と同様である。零次分布は位置を保存しないが、一次分布は蛋白質内の各位置における分布を考慮する。上述のプロセスは、潜在的配列の分布と開始配列を与えられた条件付分布とを誘起する。
【0047】
確率g(s,s)が構成可能閾値の上にあれば、sはsに設定される(158)。構成可能閾値は一実施形態では設計するユーザにより設定され得る。
【0048】
別の実施形態では、構成可能閾値は少なくとも1つの要因により自動的に設定され得る。自動か手動かにかかわらず、構成可能閾値は以下の要因を考慮することにより設定され得る:提案の受容率及びMCMC手順の混合速度。閾値が余りに低く設定されれば、受容率は高くなるが、混合速度は低くなり、そして収束は遅くなる。閾値が余りに高く設定されれば、混合速度は高くなるが、受容率は低くなり、したがって再び収束は遅くなる。したがって、アルゴリズムの性能を最大化するためには、提案受容率と混合速度とのバランスに達する中間値が理想的である。上述のように、g(s,s)は、一対の配列(例えば抗体配列と次候補配列)から、候補配列をランダムウォークにおける次工程として受容する確率を指示する単位間隔へのマッピングを表す。
【0049】
次に、本方法は
【数28】

から見出された特性値が
【数29】

の特性値より小さいかどうかを判断する(160)。換言すれば、本方法は親和力値sと親和力値sとを比較するが、当業者は、親和力以外の他の特性値がこの工程において評価され得るということを認識し得る。sの評価された特性がsより小さければ、sはsに設定される(例えば、考察されている配列がこれまでの最良配列であると評価される)(162)。次に、本方法は、十分な回数繰り返したか又は本方法を指示する他のメトリックが完了したかを照査する(164)。そうであれば、本方法はsを出力として出力する(166)。そうでなければ、本方法は提案分布から別の配列sを引き出す(156)。sの評価された特性がs以上であれば、本方法は、完了したかどうかを照査し(164)、そして上述のようにここから継続する。
【0050】
図2は、計算指向性進化を使用することにより抗体配列を発見するための抗体配列空間におけるランダムウォーク系列を示すグラフ200である。微調整されたモデルによりCDEを使用することで抗体親和力を最適化する。シーズ抗体配列s 202は1つ又は複数の初期抗体配列である。これらの配列の最良配列s 204が初期化されるために選択され、ここで、最良配列は最高親和力及び発現特性を有するものである。次に、新候補配列206が提案分布から引き出される。次に、一組の配列sがsに設定される。sの微調整されたモデルの特性値結果がsのものより小さいと、sはsに設定される。次に、このプロセスは好適な抗体が見出されるまで繰り返す。
【0051】
本明細書において説明される方法の結果は改善された抗体配列sを提供する。このランダムウォークは、試験に必要なものと同数の配列を生成するために繰り返される。いくつかの実施形態では、このランダムウォークは無作為手法、教師有り手法、又はハイブリッド手法であり得る。次に、これらの配列は抗原及び発現に対する類似性に関して分析される。次に、このデータは、微調整過程へフィードバックされ得、そして、臨床的に重要な抗体配列が生成されるまで、所望に応じて何度も繰り返され得る。本明細書において説明される方法を使用することにより、データセット内に見られる最高親和力抗体を一桁越える改善されたフルオレセイン抗体親和力を有する抗体配列が、生成され得る。この場合、事前トレーニング及び微調整は上述のデータセットを使用したが、他のデータセットが使用され得る。
【0052】
図3は、既存データセットと比較した、生成された抗体配列302の改善を示すグラフ300である。このグラフは、新規抗体親和力成熟を使用することにより、生成されたフルオレセイン抗体配列を示す。新規抗体親和力成熟プロセスを使用することにより、100pM以下の親和力フルオレセイン抗体配列が生成される。グラフ300では、抗体配列は親和力(X軸)対発現(Y軸)でプロットされる。右上象限は、両特性の最も高いものを有する生成された抗体配列302を含む。当業者は、これらの生成された抗体配列302(赤色で示す)が本プロセスにより望まれる特性を有するということを認識し得る。
【0053】
図4は本発明のいくつかの実施形態が実施され得るコンピュータネットワーク又は同様なディジタル処理環境を示す。
【0054】
クライアントコンピュータ/デバイス50及びサーバコンピュータ60は、処理、格納、及びアプリケーションプログラムなどを実行する入力/出力デバイスを提供する。クライアントコンピュータ/デバイス50はまた、通信ネットワーク70を介し他のコンピューティングデバイス(他のクライアントデバイス/プロセス50及びサーバコンピュータ60を含む)へリンクされ得る。通信ネットワーク70は、リモートアクセスネットワーク、グローバネットワーク(例えばインターネット)、コンピュータの世界的集合、ローカルエリアワーク又は広域ネットワーク、及び互いに通信するためにそれぞれのプロトコル(TCP/IP、ブルートゥース(登録商標)など)を現在使用するゲートウェイの一部であり得る。他の電子デバイス/コンピュータネットワークアーキテクチャも好ましい。
【0055】
図5は、図4のコンピュータシステム内のコンピュータ(例えばクライアントプロセッサ/デバイス50又はサーバコンピュータ60)の例示的内部構造の線図である。各コンピュータ50、60はシステムバス79を含み、バスは、コンピュータ又は処理システムの部品間のデータ転送のために使用される一組のハードウェア線である。システムバス79は本質的に、要素間の情報の転送を可能にするコンピュータシステムの様々な要素(例えばプロセッサ、ディスクストレージ、メモリ、入力ポート/出力ポート、ネットワークポートなど)を接続する共有導管である。システムバス79へ取り付けられるのは、コンピュータ50、60に様々な入力デバイス及び出力デバイス(例えばキーボード、マウス、ディスプレイ、プリンタ、スピーカなど)を接続するためのI/Oデバイスインターフェース82である。ネットワークインターフェース86は、コンピュータがネットワーク(例えば図5のネットワーク70)へ取り付けられる様々な他のデバイスへ接続することを可能にする。メモリ90は、本発明の一実施形態を実施するために使用されるコンピュータソフトウェア指令92及びデータ94のための揮発性ストレージ(例えば、上に詳述された機械学習モデルモジュール及び微調整された機械学習モデルモジュールコード)を提供する。ディスクストレージ95は、本発明の一実施形態を実施するために使用されるコンピュータソフトウェア指令92及びデータ94のための不揮発性ストレージを提供する。中央プロセッサユニット84もシステムバス79に取り付けられており、コンピュータ指令を実行する。
【0056】
一実施形態では、プロセッサルーチン92及びデータ94は、本発明システムのソフトウェア指令の少なくとも一部を提供するコンピュータプログラム製品(概して符号92で参照される)(非一時的コンピュータ可読媒体(例えば、1つ又は複数のDVD-ROM、CD-ROM、ディスケット、テープなどの着脱可能ストレージ媒体)を含む)である。コンピュータプログラム製品92は、当該技術分野でよく知られているような任意の好適なソフトウェアインストール手順によりインストールされ得る。別の実施形態では、ソフトウェア指令の少なくとも一部はまた、ケーブル通信及び/又は無線接続上でダウンロードされ得る。他の実施形態では、本発明プログラムは、伝播媒体(例えば、無線波、赤外線波、レーザ波、音波、又はインターネットなどのグローバネットワーク又は他のネットワーク上で伝播される電波)上の伝播信号上で具現化されるコンピュータプログラム伝播信号製品である。このような搬送媒体又は信号は、本発明ルーチン/プログラム92のためのソフトウェア指令の少なくとも一部を提供するために採用され得る。
【0057】
本明細書において引用されるすべての特許、公開出願、参考文献の教示は参照によりその全体が援用される。
【0058】
例示的実施形態は具体的に示され説明されたが、形式及び詳細の様々な変更は添付の特許請求の範囲に包含される実施形態の精神及び範囲から逸脱することなくなされ得ることが当業者により理解されることになる。
図1A
図1B
図2
図3
図4
図5
【国際調査報告】