特表2023-536118 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ フラッグシップ　パイオニアリング　イノベーションズ　シックス，エルエルシーの特許一覧

特表2023-536118新規抗体親和力成熟（修正）及び特性改善のための深層学習

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-08-23

(54)【発明の名称】新規抗体親和力成熟（修正）及び特性改善のための深層学習

(51)【国際特許分類】

G16B 30/00 20190101AFI20230816BHJP

G16B 40/00 20190101ALI20230816BHJP

【ＦＩ】

G16B30/00

G16B40/00

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023505917

(86)(22)【出願日】2021-07-28

(85)【翻訳文提出日】2023-03-23

(86)【国際出願番号】 US2021043461

(87)【国際公開番号】W WO2022026551

(87)【国際公開日】2022-02-03

(31)【優先権主張番号】63/057,376

(32)【優先日】2020-07-28

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】520445473

【氏名又は名称】フラッグシップパイオニアリングイノベーションズシックス，エルエルシー

(74)【代理人】

【識別番号】100078282

【弁理士】

【氏名又は名称】山本秀策

(74)【代理人】

【識別番号】100113413

【弁理士】

【氏名又は名称】森下夏樹

(74)【代理人】

【識別番号】100181674

【弁理士】

【氏名又は名称】飯田貴敏

(74)【代理人】

【識別番号】100181641

【弁理士】

【氏名又は名称】石川大輔

(74)【代理人】

【識別番号】230113332

【弁護士】

【氏名又は名称】山本健策

(72)【発明者】

【氏名】コステロ，ザッカリーコール

(72)【発明者】

【氏名】フィーラ，ジェイコブ

(72)【発明者】

【氏名】ビーム，アンドリューレーン

(57)【要約】

抗体親和力及び抗体発現を制御することは臨床応用にとって鍵である。高親和力抗体は、より高い特異性と相関しており、したがってより低いドーズ量で使用され得る。現在は、抗体成熟は指向性進化法により取り組まれる。この場合、突然変異結合剤の初期ライブラリがプロセス内へ植え付けられ、そして親和力が複数回の突然変異及び選択を介し改善される。しかし、本開示は、指向性進化に対する類似性を有するプロセスを使用することにより抗体配列を計算的に成熟させるために機械学習手法を採用する。これらの抗体配列はそれらの計算及び検証後に物理的抗体へ製造され得る。加えて、本方法は、特定親和力を標的とする際に指向性進化を凌駕する可能性を有し、そして一般的な蛋白質間相互作用へ適用可能である。

【特許請求の範囲】

【請求項1】

改善された特性を有する抗体配列を判断する方法であって、前記方法は、
複数の機械学習モデルのそれぞれのスコアを生成することであって、各機械学習モデルはそれぞれの複数の抗体配列に基づきトレーニングされ、前記それぞれの複数の抗体配列の各抗体配列は、前記複数の抗体配列に対応する特性と前記それぞれの抗体配列に対応する特性の値とにより標記され、前記それぞれの機械学習モデルに対応する前記特性を予測することに対する貢献を指示する前記複数の機械学習モデルの各機械学習モデルのそれぞれのスコアを生じる、生成すること、及び
生成された各スコアに従って各機械学習モデルの出力を重み付けそして前記重み付けされた出力を加重和へ合成することにより前記複数の機械学習モデルを使用することにより抗体配列を生成することを含む方法。

【請求項2】

前記抗体配列を生成することはさらに、
前記複数の機械学習モデルに基づき提案分布から抗体配列を選択すること；及び
前記選択された抗体配列が特定閾値を越える許容確率を有するかどうかを判断すること、そしてそうであれば前記抗体配列を解析すること、そしてそうでなければ前記提案分布から次の抗体配列を選択することを含む、請求項１に記載の方法。

【請求項3】

前記抗体配列を生成することはさらに、
提案分布から選択された抗体配列の、前記複数の機械学習モデルの関数により判断された、第１の特性値と現在の探求において最良特性値を有する抗体配列の、前記複数の機械学習モデルにより判断された、第２の特性値とを比較すること；及び
前記第１の特性値が前記第２の特性値より大きければ、前記最良特性値を有する前記抗体配列を前記提案分布から選択された前記抗体配列と交換することを含む、請求項１又は２に記載の方法。

【請求項4】

前記微調整された機械学習モデルを生成することはさらに、
前記第２の複数の抗体配列の各配列特性を重み付けすること；
前記機械学習モデルを使用することにより前記第２の複数の抗体配列を生成するために最適モデルパラメータを判断すること；及び
前記最適モデルパラメータを前記機械学習モデルへ適用することであって、適用された前記最適モデルパラメータを有する結果モデルは前記微調整された機械学習モデルである、適用することを含む、請求項１乃至３のいずれか一項に記載の方法。

【請求項5】

対応特性は親和力、発現、蛋白質凝集、蛋白質分解安定性、発現、及び標的外れ影響の少なくとも１つである、請求項１乃至４のいずれか一項に記載の方法。

【請求項6】

前記複数の機械学習モデルに基づき提案分布から規定受容基準内である抗体配列候補を選択すること；及び
前記抗体配列候補の特性が、最良と分かった抗体配列より良ければ、前記最良と分かった抗体配列と前記抗体配列候補とを交換すること、又はそうでなければ前記抗体配列候補を無視することをさらに含む請求項１乃至５のいずれか一項に記載の方法。

【請求項7】

前記生成された抗体配列を有する抗体を生成することをさらに含む請求項１乃至６のいずれか一項に記載の方法。

【請求項8】

前記生成された抗体配列を有する製造された抗体を提供すること；及び前記特性に関し前記抗体を分析することをさらに含む請求項１乃至７のいずれか一項に記載の方法。

【請求項9】

１つ又は複数の機械学習モデルをトレーニングすることであって、各機械学習モデルはそれぞれの複数の抗体配列に基づきトレーニングされ、前記それぞれの複数の抗体配列の各抗体配列は、前記複数の抗体配列に対応する特性と前記それぞれの抗体配列に対応する特性の値とにより標記される、トレーニングすることをさらに含む請求項１乃至８のいずれか一項に記載の方法。

【請求項10】

前記１つ又は複数の機械学習モデルをトレーニングすることはさらに：
少なくとも１つの特性により標記された一組のアミノ酸配列を提供すること；
マスクされた一組のアミノ酸配列を提供するために前記一組のアミノ酸配列の一部をマスクすることであって、前記一組のアミノ酸配列の残りはマスクされない一組のアミノ酸配列である、マスクすること：及び
前記マスクされた各アミノ酸配列を（１）各マスクされたアミノ酸配列を標記する前記少なくとも１つの特性と（２）前記マスクされない一組のアミノ酸配列と各マスクされないアミノ酸配列の前記標記された特性とに基づき推定するように前記１つ又は複数の機械学習モデルをトレーニングすることをさらに含む、請求項９に記載の方法。

【請求項11】

前記抗体配列を生成することはＭＣＭＣサンプリングを採用することにより行われる、請求項１乃至１０のいずれか一項に記載の方法。

【請求項12】

前記複数の抗体配列は当該の抗原に関連する、請求項１乃至１１のいずれか一項に記載の方法。

【請求項13】

前記貢献は改善される以下の特性：
前記抗体配列の製造に対する前記特性の重要度、
患者内の前記抗体の免疫原性、
前記抗体の発現レベル、
開発可能性、
他のモデルとの相互作用、
他のモデルとの直交性、
及び前記生成プロセスを調節することによる経験的導出、
のうちの少なくとも１つを予測することに対するものである、請求項１乃至１２のいずれか一項に記載の方法。

【請求項14】

改善された特性を有する抗体配列を判断するためのシステムであって、プロセッサ；及びコンピュータコード指令が格納されたメモリを含むシステムにおいて、
前記プロセッサ及び前記メモリは、前記コンピュータコード指令により、以下のこと：
複数の機械学習モデルのそれぞれのスコアを生成することであって、各機械学習モデルはそれぞれの複数の抗体配列に基づきトレーニングされ、前記それぞれの複数の抗体配列の各抗体配列は、前記複数の抗体配列に対応する特性と前記それぞれの抗体配列に対応する特性の値とにより標記され、前記それぞれの機械学習モデルに対応する前記特性を予測することに対する貢献を指示する前記複数の機械学習モデルの各機械学習モデルのそれぞれのスコアを生じる、生成すること、及び
生成された各スコアに従って各機械学習モデルの出力を重み付けそして前記重み付けされた出力を加重和へ合成することにより前記複数の機械学習モデルを使用することにより抗体配列を生成すること、
を前記システムにさせるように構成される、システム。

【請求項15】

前記抗体配列を生成することはさらに、
前記微調整された機械学習モデルに基づき提案分布から抗体配列を選択すること；及び
前記選択された抗体配列が特定閾値を越える許容確率を有するかどうかを判断すること、そしてそうであれば前記抗体配列を解析すること、そしてそうでなければ前記提案分布から次の抗体配列を選択することを含む、請求項１４に記載のシステム。

【請求項16】

前記抗体配列を生成することはさらに、
提案分布から選択された抗体配列の、前記微調整された機械学習モデルの関数により判断された、第１の特性値と現在の探求において最良特性値を有する抗体配列の、前記微調整された機械学習モデルにより判断された、第２の特性値とを比較すること；及び
前記第１の特性値が前記第２の特性値より大きければ、前記最良特性値を有する抗体配列と前記提案分布から選択された抗体配列とを交換することを含む、請求項１４乃至１５のいずれか一項に記載のシステム。

【請求項17】

【請求項18】

前記対応特性は親和力及び発現の少なくとも１つである、請求項１４乃至１７のいずれか一項に記載のシステム。

【請求項19】

前記プロセッサはさらに：
前記微調整された機械学習モデルに基づき提案分布から規定受容基準内である抗体配列候補を選択し；そして
前記抗体配列候補の前記特性が、最良と分かった抗体配列より良ければ、前記最良と分かった抗体配列と前記抗体配列候補とを交換すること又はそうでなければ前記抗体配列候補を無視するように構成される、請求項１４乃至１８のいずれか一項に記載のシステム。

【請求項20】

前記プロセッサはさらに、１つ又は複数の機械学習モデルをトレーニングするように構成され、各機械学習モデルはそれぞれの複数の抗体配列に基づきトレーニングされ、前記それぞれの複数の抗体配列の各抗体配列は、前記複数の抗体配列に対応する特性と前記それぞれの抗体配列に対応する特性の値とにより標記される、請求項１４乃至１９のいずれか一項に記載のシステム。

【請求項21】

前記機械学習モデルをトレーニングすることはさらに、
少なくとも１つの特性により標記された一組のアミノ酸配列を提供すること；
マスクされた一組のアミノ酸配列を提供するために前記一組のアミノ酸配列の一部をマスクすることであって、前記一組のアミノ酸配列の残りはマスクされない一組のアミノ酸配列である、マスクすること；及び
前記マスクされた一組のアミノ酸配列のそれぞれを（１）各マスクされたアミノ酸配列を標記する前記少なくとも１つの特性と（２）前記マスクされない一組のアミノ酸配列と各マスクされないアミノ酸配列の前記標記された特性とに基づき推定するように前記機械学習モデルをトレーニングすることを含む、請求項２０に記載のシステム。

【請求項22】

前記抗体配列を生成することはＭＣＭＣサンプリングを採用することにより行われる、請求項１４乃至２１のいずれか一項に記載のシステム。

【請求項23】

前記複数の抗体配列が目的の抗原に関連する、請求項１４乃至２２のいずれか一項に記載のシステム。

【請求項24】

前記貢献は改善される以下の特性：
前記抗体配列の製造に対する前記特性の重要度、
前記抗体配列の発現、
患者内の前記抗体の免疫原性、
前記抗体の発現レベル、
開発可能性、
他のモデルとの相互作用、
他のモデルとの直交性、
及び前記生成プロセスを調節することによる経験的導出、
のうちの少なくとも１つを予測することに対するものである、請求項１４乃至２３のいずれか一項に記載のシステム。

【請求項25】

第１の抗体配列を請求項９乃至１６のいずれか一項に記載のシステムへ提供すること；及び前記生成された抗体配列を前記システムから取得することを含む、抗体成熟の方法。

【請求項26】

請求項２５に記載の方法により生成された隔離抗体。

【請求項27】

前記隔離抗体は組み換え技術により生成される、請求項２６に記載の隔離抗体。

【請求項28】

前記隔離抗体は化学的に合成される、請求項２６乃至２７のいずれか一項に記載の隔離抗体。

【請求項29】

第１の抗体配列を請求項１乃至９のいずれか一項に記載の方法へ提供すること；及び
前記生成された抗体配列を前記システムから取得することを含む、抗体成熟の方法。

【請求項30】

請求項２９に記載の方法により生成される隔離抗体。

【請求項31】

前記隔離抗体は組み換え技術により生成される、請求項３０に記載の隔離抗体。

【請求項32】

前記隔離抗体は化学的に合成される、請求項３０乃至３１のいずれか一項に記載の隔離抗体。

【請求項33】

改善された特性を有する抗体配列を判断する方法であって、前記方法は、
対応する初期の複数の抗体配列に基づきトレーニングされた複数の微調整された機械学習モデルのそれぞれのスコアを生成することであって、前記初期の複数の抗体配列の各抗体配列は対応特性により標記され、各微調整された機械学習モデルはさらに、第２の複数の抗体配列により各機械学習モデルをトレーニングすることにより生成され、目的の抗原に関連する前記第２の複数の抗体配列の各抗体配列は対応特性により標記される、生成すること；及び
対応ハイパーパラメータにより重み付けされた前記複数の微調整された機械学習モデルを使用することにより目的関数に基づき抗体配列を生成することを含む、方法。

【請求項34】

改善された特性を有する抗体配列を判断する方法であって、前記方法は、
それぞれが対応特性により標記される第１の複数の抗体配列に基づき機械学習モデルをトレーニングすること；
第２の複数の抗体配列に基づき前記機械学習モデルをトレーニングすることにより、微調整された機械学習モデルを生成することであって、目的の抗原に関連する前記第２の複数の抗体配列の各抗体配列は対応特性により標記される、生成すること；及び
前記微調整された機械学習モデルに基づき抗体配列を生成することを含む方法。

【請求項35】

改善された特性を有する抗体配列を判断する方法であって、前記方法は、
それぞれがそれぞれの複数の抗体配列に基づきトレーニングされた複数の機械学習モデルのそれぞれのスコアを提供することであって、前記それぞれの複数の抗体配列の各抗体配列は、前記複数の抗体配列に対応する特性と前記それぞれの抗体配列に対応する特性の値とにより標記され、前記複数の機械学習モデルの各機械学習モデルの各それぞれのスコアは、前記それぞれの機械学習モデルに対応する前記特性を予測することに対する貢献を指示する、提供すること；及び
提供された各スコアに従って各機械学習モデルの出力を重み付けそして前記重み付けされた出力を加重和へ合成することにより前記複数の機械学習モデルを使用することにより抗体配列を生成することを含む方法。

【請求項36】

改善された特性を有する抗体配列を判断する方法であって、
前記複数の機械学習モデルのそれぞれのスコアに従って各機械学習モデルの出力を重み付けすることであって、各機械学習モデルはそれぞれの複数の抗体配列に基づきトレーニングされ、前記それぞれの複数の抗体配列の各抗体配列は、前記複数の抗体配列に対応する特性と前記それぞれの抗体配列に対応する特性の値とにより標記され、前記複数の機械学習モデルの各機械学習モデルの各それぞれのスコアは、前記それぞれの機械学習モデルに対応する前記特性を予測することに対する貢献を指示する、重み付けること；及び
前記重み付けされた出力を加重和へ合成することにより複数の機械学習モデルを使用することにより抗体配列を生成することを含む方法。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願
本出願は２０２０年７月２８日申請の米国特許仮出願第６３／０５７，３７６号の便益を主張する。上記出願の全教示を参照により本明細書に援用する。

【背景技術】

【0002】

抗体成熟（ａｎｔｉｂｏｄｙｍａｔｕｒａｔｉｏｎ）は所与の抗体のその抗原に対する親和力を改善するプロセスである。免疫学では、抗原は免疫反応を誘起する毒素又は異物である。このような免疫反応の一例は抗原を中和するために抗原に結合する抗体の生成である。抗体はまた、多種多様な方法により設計され得る。

【発明の概要】

【課題を解決するための手段】

【0003】

抗体親和力及び発現を制御することは臨床応用にとって鍵である。高親和力抗体は、より高い特異性と相関があり、したがってより低いドーズ量で使用され得る。現在は、抗体成熟は指向性進化法（ｄｉｒｅｃｔｅｄｅｖｏｌｕｔｉｏｎｍｅｔｈｏｄ）により取り組まれる。この場合、突然変異結合剤の初期ライブラリがプロセス内へ植付けられ、そして親和力が複数回の突然変異及び選択を介し改善される。しかし、本開示は、指向性進化との類似性を有するプロセスを使用することにより抗体配列を計算的に成熟させるために機械学習手法を採用する。これらの抗体配列はそれらの計算及び検証後に物理的抗体へ製造され得る。加えて、本方法は、特定親和力を標的とする際に指向性進化を凌駕する可能性を有し、そして一般的蛋白質間相互作用へ適用可能である。

【0004】

一実施形態では、計算指向性進化（ＣＤＥ：ｃｏｍｐｕｔａｔｉｏｎａｌｄｉｒｅｃｔｅｄｅｖｏｌｕｔｉｏｎ）は多目的及び多モデル状況において使用され得る（例えば、改善のために２つ以上の特性をほぼ同時に選択する際）。この場合、１つ又は複数のモデルが使用され得る。これらのモデルのそれぞれは最適化される１つ又は複数の特性を有し得る。１つ又は複数のモデルは単一目的関数へ合成され得、そしてＣＤＥはその目的を最適化し得る。目的関数は最適化手順（この場合、計算指向性進化）により最適化される。最適化されると、目的関数は当該の１つ又は複数の抗体特性を改善する抗体配列を生じる。

【0005】

一実施形態では、改善された特性を有する抗体配列を判断する方法は、抗体配列の第１のグループに基づき機械学習モデルをトレーニングすることを含む。データベースの各抗体配列は１つ又は複数の対応特性により標記される。本方法はさらに、それぞれが対応特性により標記された第２の複数の抗体配列に基づき機械学習モデルをトレーニングすることにより、微調整された機械学習モデルを生成する。第２の複数の抗体配列は当該の抗原に関連する。本方法はさらに、微調整された機械学習モデルに基づき抗体配列を生成することを含む。

【0006】

当業者は微調整された機械学習モデル（細かく調整された機械学習モデルとも言う）が最初に一般的データセットに基づきトレーニングされそして次により大きな特定データセットに基づき細かく調整された機械学習モデルであるということを認識する。微調整はまた、所与のタスクに関してトレーニングされた機械学習モデルを採用しそして第２のタスクを行うようにこの機械学習モデルをトレーニングするプロセスとして説明され得る。

【0007】

一実施形態では、改善された特性を有する抗体配列を判断する方法は、複数の機械学習モデルのそれぞれのスコアを生成することを含む。各機械学習モデルはそれぞれの複数の抗体配列に基づきトレーニングされる。それぞれの複数の抗体配列の各抗体配列は複数の抗体配列に対応する特性及びそれぞれの抗体配列に対応する特性の値により標記される。各機械学習モデルのスコアを生成することは、複数の機械学習モデルの各機械学習モデルのそれぞれのスコアを生じ、スコアはそれぞれの機械学習モデルに対応する特性を予測することに対する貢献を指示する。本方法はさらに、生成された各スコアに従って各機械学習モデルの出力を重み付けそして重み付けされた出力を加重和へ合成することにより複数の機械学習モデルを使用することにより抗体配列を生成することを含む。

【0008】

いくつかの実施形態では、貢献は、製造に対する特性の重要度、蛋白質の発現、患者の免疫原性、発現、開発可能性、他のモデルとの相互作用、他のモデルとの直交性、及び生成プロセスを調節することによる経験的導出のうちの１つ又は複数を含む。

【0009】

一実施形態では、抗体配列を生成することはさらに、微調整された機械学習モデルに基づき提案分布から抗体配列を選択することを含む。抗体配列を生成することはさらに、選択された抗体配列が特定閾値を越える受容確率を有するかどうかを判断すること、そしてそうであれば抗体を解析すること、そしてそうでなければ提案分布から次の抗体配列を選択することを含む。

【0010】

一実施形態では、抗体配列を生成することはさらに、提案分布から選択された抗体の（微調整された機械学習モデルにより判断された）第１の特性値と現在の探求において最良特性値を有する抗体の（微調整された機械学習モデルにより判断された）第２の特性値とを比較することを含む。第１の特性値が第２の特性値より大きければ、本方法は最良特性値を有する抗体と提案分布から選択された抗体とを交換する。

【0011】

一実施形態では、機械学習モデルをトレーニングすることはさらに、少なくとも１つの特性により標記された一組のアミノ酸配列を提供することを含む。機械学習モデルをトレーニングすることはさらに、マスクされた一組のアミノ酸配列を提供するために一組のアミノ酸配列の一部をマスクすることを含む。一組のアミノ酸配列の残りはマスクされない一組のアミノ酸配列である。機械学習モデルをトレーニングすることはさらに、マスクされた一組のアミノ酸配列のそれぞれを（１）各マスクされたアミノ酸配列を標記する少なくとも１つの特性と（２）マスクされない一組のアミノ酸配列と各マスクされないアミノ酸配列の標記された特性とに基づき推定するように機械学習モデルをトレーニングすることを含む。

【0012】

一実施形態では、微調整された機械学習モデルを生成することはさらに、第２の複数の抗体配列の各配列特性を重み付けすることを含む。微調整された機械学習モデルを生成することはさらに、機械学習モデルを使用することにより第２の複数の抗体配列を生成するために最適モデルパラメータを判断することを含む。微調整された機械学習モデルを生成することはさらに、最適モデルパラメータを機械学習モデルへ適用することを含む。適用された最適モデルパラメータを有する結果モデルは微調整された機械学習モデルである。

【0013】

一実施形態では、対応特性は親和力（例えば結合親和力）又は発現である。他のいくつかの実施形態では、特性（例えば関数値）の例は以下のうちの１つ又は複数であり得る：結合親和力、結合特異性、触媒（例えば酵素）活性、蛍光、可溶性、熱的安定性、立体配座、免疫原性、蛋白質凝集、蛋白質分解安定性、発現、的外れ効果、及び生体高分子配列の任意の他の機能特性。このプロセスは、我々が当該特性を有する（小さな）開始組の例を有する任意の蛋白質に適用可能である。次に、ここから、我々は、我々のニーズにより適する当該特性を修正するために本明細書に記載のプロセスを使用し得る。これは、標的値又は或る範囲の値に当たる（例えば、特異的結合親和力に当たる）ための値の増加（例えば触媒反応速度の増加）又は特性値の低下（例えば免疫原性の低下）に到る可能性がある。

【0014】

一実施形態では、本方法は、微調整された機械学習モデルに基づき提案分布から規定受容基準内である抗体配列候補を選択することを含む。本方法はさらに、抗体配列候補の特性が、最良と分かった抗体配列より良ければ、最良と分かった抗体配列と抗体配列候補とを交換すること又はそうでなければ抗体配列候補を無視することを含む。

【0015】

一実施形態では、本方法はまた、生成される抗体配列を有する抗体を生成することを含む。一実施形態では、本方法はまた、生成される抗体配列を有する製造済み抗体を提供すること及び特性に関し抗体を分析することを含み得る。

【0016】

一実施形態では、改善された特性を有する抗体を判断するためのシステムは、プロセッサと、その上に格納されたコンピュータコード指令を有するメモリとを含む。プロセッサ及びメモリは、コンピュータコード指令によりシステムに第１の複数の抗体配列に基づき機械学習モデルをトレーニングさせるように構成される。データベースの各抗体配列は対応特性により標記される。プロセッサはさらに、第２の複数の抗体配列及び対応特性に基づき機械学習モデルをトレーニングすることにより、微調整された機械学習モデルを生成するように構成される。第２の複数の抗体配列は当該の抗原に関連する。プロセッサはさらに、微調整された機械学習モデルに基づき抗体配列を生成するように構成される。

【0017】

一実施形態では、抗体成熟の方法は、第１の抗体配列を上記システム又は方法へ提供すること及び生成された抗体配列をこのシステムから取得することを含み得る。

【0018】

一実施形態では、隔離抗体が上記方法により生成され得る。一実施形態では、隔離抗体は組み換え技術により生成される。一実施形態では、隔離抗体は化学的に合成される。

【0019】

一実施形態では、本方法は改善された特性を有する抗体配列を判断又は生成すること含み、判断又は生成することは微調整された機械学習モデルにより行われる。微調整された機械学習モデルは、（１）それぞれが対応特性により標記される第１の複数の抗体配列に基づき機械学習モデルをトレーニングすることにより、そして（２）それぞれが対応特性により標記される第２の複数の抗体配列であって当該の抗原に関係する第２の複数の抗体配列に基づき機械学習モデルをトレーニングすることにより、微調整された機械学習モデルを生成することにより生成され得る。任意選択的に、機械学習モデルをトレーニングすること、微調整された機械学習モデルを生成すること、又は両方は、抗体配列を生成することとは別な第三者により行われ得る。

【0020】

本明細書で使用されるように、抗体配列は、ディジタル的に又は別のフォーマットで格納され得るアミノ酸の規則正しい配列を指す。抗体は抗体の物理的発現を指す。当業者は、本開示のシステム及び方法により生成される抗体配列が製造され得る又はそうでなければ抗体として生成され得るということを認識し得る。

【0021】

一実施形態では、改善された特性を有する抗体配列を判断する方法は、複数の機械学習モデルをトレーニングすることを含む。各機械学習モデルは対応する初期の複数の抗体配列に基づきトレーニングされる。初期の複数の抗体配列の各抗体配列は対応特性により標記される。当業者は、各それぞれの機械学習モデルは異なる複数の抗体配列によりトレーニングされ得るということを理解し得る。次に、本方法は複数の微調整された機械学習モデルを生成する。各微調整された機械学習モデルは、第２の複数の抗体配列により各機械学習モデルをトレーニングすることにより生成される。第２の複数の抗体配列の各抗体配列は対応特性により標記され、そして第２の複数の抗体配列は当該の抗原に関連する。次に、本方法は、対応ハイパーパラメータにより重み付けされた複数の微調整された機械学習モデルを使用することにより目的関数に基づき抗体配列を生成する。

【0022】

一実施形態では、１つ又は複数の抗体配列は当該の抗原に関連する。

【0023】

一実施形態では、改善された特性を有する抗体配列を判断する方法は、それぞれがそれぞれの複数の抗体配列に基づきトレーニングされた複数の機械学習モデルのそれぞれのスコアを提供することを含む。それぞれの複数の抗体配列の各抗体配列は、複数の抗体配列に対応する特性とそれぞれの抗体配列に対応する特性の値とにより標記される。複数の機械学習モデルの各機械学習モデルの各それぞれのスコアは、それぞれの機械学習モデルに対応する特性を予測することに対する貢献を指示する。本方法はさらに、提供された各スコアに従って各機械学習モデルの出力を重み付けそして重み付けされた出力を加重和へ合成することにより複数の機械学習モデルを使用することにより抗体配列を生成することを含む。

【0024】

一実施形態では、改善された特性を有する抗体配列を判断する方法は、複数の機械学習モデルを使用することにより抗体配列を生成することを含む。抗体配列を生成することは、複数の機械学習モデルのそれぞれのスコアに従って各機械学習モデルの出力を重み付けすることにより行われる。各機械学習モデルはそれぞれの複数の抗体配列に基づきトレーニングされる。それぞれの複数の抗体配列の各抗体配列は、複数の抗体配列に対応する特性とそれぞれの抗体配列に対応する特性の値とにより標記される。複数の機械学習モデルの各機械学習モデルの各それぞれのスコアは、それぞれの機械学習モデルに対応する特性を予測することに対する貢献を指示する。本方法はさらに、重み付けられた出力を加重和へ合成することを含む。

【0025】

本特許又は出願ファイルはカラーで描かれた少なくとも１つの図を含む。カラー図面を含む本特許又は特許出願公開の複製が、要求され所要手数料が支払われると特許商標庁により提供される。

【0026】

前述のことは、添付図面に示される例示的実施形態の以下のより具体的な説明から明らかになる。添付図面では、同様な参照文字は様々な図を通して同じ部分を指す。添付図面は必ずしもスケーリングされていなく、そして強調はむしろ実施形態を例示することに置かれている。

【図面の簡単な説明】

【0027】

【図1A】本開示の方法の例示的実施形態を示すブロック図である。

【図1B】本開示により採用されるプロセスの例示的実施形態を示す流れ図である。

【図2】計算指向性進化を使用することにより抗体配列を発見するための抗体配列空間内のランダムウォーク系列を示すグラフである。

【図3】既存データセットと比較した、生成された抗体配列の改善を示すグラフである。

【図4】本発明のいくつかの実施形態が実施され得るコンピュータネットワーク又は同様なディジタル処理環境を示す。

【図5】図４のコンピュータシステム内のコンピュータ（例えばクライアントプロセッサ／デバイス又はサーバコンピュータ）の例示的内部構造の線図である。

【発明を実施するための形態】

【0028】

例示的実施形態の説明が続く。

【0029】

図１Ａは本開示の方法の例示的実施形態を示すブロック図１００である。本開示は、閉ループ抗体親和力成熟に対する新規手法を採用する。反復プロセスは、大きく且つ重要な一組の蛋白質配列データ及びそれらの特性に対する深層機械学習モデルの教師無し事前トレーニングで始まる（１０２）。いくつかの実施形態では、これは、ｎ個の抗体配列を含むデータセットに対する言語モデルの教師無し事前トレーニングを含む。これは、抗体配列内のアミノ酸間の根本的統計的関係を学習するようにモデルを条件付ける。

【0030】

次に、このプロセスは、所望抗体抗原ペアに固有なデータを使用することによりより小さな教師有り学習タスクに関する事前トレーニング済みモデルを微調整する（１０４）。この微調整された機械学習モデルは所望抗体抗原ペアに固有なデータとして親和力及び発現の両方に関し併せてトレーニングされるが、実際には、任意数又は任意タイプの追加特性が微調整過程において使用され得る。微調整されたモデルがトレーニングされると（１０４）、このモデルは、以下にさらに説明される最適化問題を解くことより親和力成熟を行うために下流で採用される。微調整後、計算指向性進化は、選択された標的に対して高親和力抗体配列の抗体配列空間の制約された探索を行う。この最適化問題に対する解は１つ又は複数の親和力成熟抗体配列（例えば、教師付きトレーニングタスクにおいて観測されたものより高い親和力を有するために機械学習モデルにより予測される配列）である（１０６）。次に、本方法はこれらの親和力成熟抗体配列（すなわち改善された抗体配列）を構築する。本方法はさらに、構築された抗体配列を親和力及び発現に関し実験的に分析する。分析された配列からの新しいデータが教師有り学習データセットに取り込まれ、そしてプロセス１００は好適な候補が見つかるまで繰り返す（１０２）。一実施形態では、高親和力候補の資格は１０ピコモル（ｐＭ：ｐｉｃｏｍｏｌａｒ）未満の平衡解離定数（Ｋ_Ｄ：ｅｑｕｉｌｉｂｒｉｕｍｄｉｓｓｏｃｉａｔｉｏｎｃｏｎｓｔａｎｔ）であり得る（例えばフルオレセインに対する抗体の場合）。

【0031】

本明細書で使用されるように、「抗体」は、免疫グロブリン分子の可変領域内に配置された（少なくとも１つの抗原識別部を介し）標的に対して特異結合することができる炭水化物、ポリヌクレオチド、脂質、ポリペプチドなどの免疫グロブリン分子を指す。本明細書で使用されるように、用語「抗体」は、無損傷（すなわち完全長）単クローン抗体だけでなく、抗原結合性フラグメントも（Ｆａｂ，Ｆａｂ’，Ｆ（ａｂ’）２，Ｆｖなど）、単鎖可変フラグメント（ｓｃＦｖ：ｓｉｎｇｌｅｃｈａｉｎｖａｒｉａｂｌｅｆｒａｇｍｅｎｔ）、その突然変異体、抗体部を含む融合蛋白質、ヒト化抗体、キメラ抗体、二重特異性抗体、線形抗体、単鎖抗体、単一ドメイン抗体（例えばラクダ又はラマＶＨＨ抗体）、多特異特抗体（例えば二重特異性抗体）、及び必要とされる特異性の抗原識別部を含む免疫グロブリン分子の任意の他の修飾構成（抗体のグリコシル化変種、抗体のアミノ酸配列変種及び共有結合修飾抗体を含む）も包含する。

【0032】

本明細書で使用されるように、「結合定数」、「平衡解離定数」、又は「親和力定数」とも呼ばれる用語「Ｋ_Ｄ」は、２つの分子種（例えば抗体と標的蛋白質）間の可逆的会合の程度の測度であり、実際の結合親和力及び見かけ結合親和力の両方を含む。結合親和力は、当該技術領域において知られた方法を使用すること（例えば表面プラズモン共鳴の測定（例えばＢＩＡｃｏｒｅシステム及び分析を使用する）によることを含む）により判断され得る。

【0033】

いくつかの態様では、抗体は、標的蛋白質を１０^－４Ｍ、１０^－５Ｍ、１０^－６Ｍ、１０^－７Ｍ、１０^－８Ｍ、１０^－９Ｍ、１０^－１０Ｍ、１０^－１１Ｍ、又は１０^－１２Ｍ未満のＫ_Ｄで結合する。例えば、抗体は、標的蛋白質を１０００ｎＭ未満、又は代替的に９００ｎＭ未満、代替的に８００ｎＭ未満、又は代替的に７００ｎＭ未満、又は代替的に６００ｎＭ未満、代替的に５００ｎＭ未満、又は代替的に４００ｎＭ未満，又は代替的に３００ｎＭ未満、又は代替的に２００ｎＭ未満、代替的に１００ｎＭ未満、又は代替的に９０ｎＭ未満、又は代替的に８０ｎＭ未満、代替的に７０ｎＭ未満、又は代替的に６０ｎＭ未満，又は代替的に５０ｎＭ未満、又は代替的に４０ｎＭ未満、代替的に３０ｎＭ未満、又は代替的に２０ｎＭ未満、又は代替的に１５ｎＭ未満、代替的に１０ｎＭ未満、又は代替的に９ｎＭ未満、又は代替的に８ｎＭ未満，又は代替的に７ｎＭ未満、又は代替的に６ｎＭ未満、代替的に５ｎＭ未満、又は代替的に４ｎＭ未満、又は代替的に３ｎＭ未満、代替的に２ｎＭ未満、又は代替的に１ｎＭ未満、又は代替的に、１０００未満ｐＭ、又は代替的に１００未満ｐＭ、又は代替的に、１０未満ｐＭ、又は代替的に１未満ｐＭのＫ_Ｄで結合し得る。

【0034】

いくつかの態様では、本明細書において開示された方法により識別される抗体配列は、基準抗体の親和力と比較して標的蛋白質を少なくとも７０％親和力以上、代替的に少なくとも７５％親和力以上、又は代替的に少なくとも８０％親和力以上、又は代替的に少なくとも８５％親和力以上、又は代替的に少なくとも９０％親和力以上、又は代替的に少なくとも９５％親和力以上で結合する抗体に対応する。いくつかの態様では、抗体は標的蛋白質を基準抗体より高い親和力で結合する。基準抗体は、例えば所与の標的に関して最も高い報告（例えば公表）された類似性を有する抗体であり得る。

【0035】

実際、図１Ａに記載のプロセス１００は、１０ｐＭより大きい親和力を有するフルオレセイン抗体配列の生成により１回後に抗体親和力を急速に改善する。このプロセスは、より良い治療抗体を生成するのにかかる費用及び時間を、作られそして試験される必要がある構造の数を低減することにより低減し得る。このプロセスの詳細は以下に説明される。

【0036】

初期実験では、本プロセスは以下の２つのデータセットを採用した：抗体配列の大きな教師無しセット、及び成熟を計算的にブートストラップするための当該の抗体の小さな一組の配列親和力ペア。具体的には、事前トレーニングは単一人から採取された完全抗体レパートリを使用した。このデータセットは、参照によりその全体を本明細書に援用するＢｒｙａｎ，ｅｔａｌ．，“Ｃｏｍｍｏｎａｌｉｔｙｄｅｓｐｉｔｅｅｘｃｅｐｔｉｏｎａｌｄｉｖｅｒｓｉｔｙｉｎｔｈｅｂａｓｅｌｉｎｅｈｕｍａｎａｎｔｉｂｏｄｙｒｅｐｅｒｔｏｉｒｅ，”Ｎａｔｕｒｅ５６６．７７４４（２０１９）：３９３（以降“Ｂｒｙａｎ”）にさらに詳細に説明されている。教師無しデータセット

【数1】

は約３億の抗体配列

【数2】

を含む。微調整のために、参照によりその全体を本明細書に援用するＡｄａｍｓ，ＲｈｙｓＭ．，ｅｔａｌ．“Ｍｅａｓｕｒｉｎｇｔｈｅｓｅｑｕｅｎｃｅ－ａｆｆｉｎｉｔｙｌａｎｄｓｃａｐｅｏｆａｎｔｉｂｏｄｉｅｓｗｉｔｈｍａｓｓｉｖｅｌｙｐａｒａｌｌｅｌｔｉｔｒａｔｉｏｎｃｕｒｖｅｓ．”Ｅｌｉｆｅ５（２０１６）：ｅ２３１５６（以降“Ａｄａｍｓ”）からの高スループットフルオレセイン抗体データが使用される。この例示的教師有りデータセット

【数3】

は、３通り評価された発現及び親和力データと対をなす２８０３個の配列で構成される。このデータセット

【数4】

からの例は蛋白質配列、親和力測定値及び発現測定値をそれぞれ含むタプルである。

【0037】

機械学習モデルは親和力特性及び発現特性の両方に関する特性オラクルとして働くようにトレーニングされる。このプロセスにおいて使用されるモデル（「Ｏｍｎｉｐｒｏｔ」と呼ばれる）は、参照によりその全体を本明細書に援用するＤｅｖｌｉｎ，Ｊａｃｏｂ，ｅｔａｌ．“Ｂｅｒｔ：Ｐｒｅ－ｔｒａｉｎｉｎｇｏｆｄｅｅｐｂｉｄｉｒｅｃｔｉｏｎａｌｔｒａｎｓｆｏｒｍｅｒｓｆｏｒｌａｎｇｕａｇｅｕｎｄｅｒｓｔａｎｄｉｎｇ．”ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１８１０．０４８０５（２０１８）（以降“Ｄｅｖｌｉｎ”）においてさらに詳細に説明されるＢＥＲＴマスク言語モデル（ｍａｓｋｅｄｌａｎｇｕａｇｅｍｏｄｅｌ）の適合版である。しかし、原理的に、教師無しやり方で事前トレーニングされ得る任意のモデルが使用され得る。Ｏｍｎｉｐｒｏｔは、蛋白質配列のマスク部分ｓ_{ｍａｓｋｅｄ}を再構築するために学習することによりトレーニングされる深層トランスフォーマモデル（ｄｅｅｐｔｒａｎｓｆｏｒｍｅｒｍｏｄｅｌ）であり、そのマスクされたそのアミノ酸のうちの無作為１５％を有する。トレーニングタスクは次のように規定される：

【数5】

ここで、θはＯｍｎｉｐｒｏｔのパラメータのベクトルであり、そして

【数6】

は教師無し事前トレーニング問題を解く最適条件であるネットワークパラメータを表す。換言すれば、Ｏｍｎｉｐｒｏｔは、どれだけ正確にマスクアミノ酸を推測し得るかに関し評価される。このトレーニング目的は、基礎をなす蛋白質配列空間内の統計的規則性をモデル化するようにＯｍｎｉｐｒｏｔに教示する。この場合、Ｏｍｎｉｐｒｏｔは、より小さな下流教師有りタスクに対するモデル性能を改善するために転移学習の形式として教師無し抗体配列データセット

【数7】

に対しトレーニングする。Ｄｅｖｌｉｎはさらに、ＢＥＲＴのようなモデル及びそれらのアーキテクチャの教師無し事前トレーニングの態様を開示する。

【0038】

一組のモデルパラメータ

【数8】

が事前トレーニング目的関数から取得されると、はるかに小さな教師有り一組のデータがモデルを微調整する際に使用され得る。この例示的実施形態では、微調整は「トレーニングの開始時にモデルを初期化するために事前トレーニングパラメータを使用した後に、より小さなデータセットを使用することによりモデルを新しいタスクに適合させるために新しい最適化問題を解くこと」を意味する。この目的を達成するために、微調整最適化問題は次のように表され得る：

【数9】

ここで、

【数10】

は当該の各配列特性を重み付けするハイパーパラメータであり、

【数11】

はトレーニングデータセット

【数12】

を所与として最適組のネットワーク重み付けである。最適パラメータはモデルアーキテクチャと共に、抗体親和力の下流最適化を行うために使用され得るオラクルを構成する。

【0039】

モデルがトレーニングされると、このモデルは改善された親和力を有する抗体配列を見出すために使用され得る。このような工程は配列成熟と呼ばれる。一例示的実施形態では、微調整されたＯｍｎｉｐｒｏｔモデルが、候補配列の親和力及び発現を予測し得、そしてあり得る抗体配列の有効ドメイン全体にわたって探索し得る。最適化問題は次のように表され得る：

【数13】

ここで、

【数14】

は配列から親和力への微調整されたＯｍｎｉｐｒｏｔモデルのマッピングである。この最適化問題は、様々な最適化方法を適用することにより多くのやり方で単純に解かれ得る。しかし、重要な考慮がドメイン（例えば蛋白質配列）を一組の有効抗体配列に制限している。所望配列制約を考慮する一方でこの問題を解くために、計算指向性進化（ＣｏｍｐｕｔａｔｉｏｎａｌＤｉｒｅｃｔｅｄＥｖｏｌｕｔｉｏｎ：以降「ＣＤＥ」）と呼ばれる最適化手順が適用され得る。ＣＤＥは蛋白質最適化に適用されるマルコフ連鎖モンテカルロ［ＭＣＭＣ：ＭａｒｋｏｖＣｈａｉｎＭｏｎｔｅＣａｒｌｏ］技術である。ＣＤＥのＭＣＭＣプロセスは、トレーニングセットのＭＳＡ内の突然変異の臨界確率により規定された提案分布を使用する。このプロセスは、どのように各突然変異が期待のモデルにより予測親和力を改善するかを実証する。繰り返されると、追加突然変異が、予測結合親和力を改善する元の配列内に蓄積され、最終的に、実験室における試験ための強い候補を生じる。具体的には、ＣＤＥはＭｅｔｒｏｐｏｌｉｓ－Ｈａｓｔｉｎｇｓ方法の実装である。この例示的実施形態では、ＣＤＥは有効蛋白質配列空間全体にわたる偏ったランダムウォークであり、ここでは、見出された最高親和力抗体が選択されたランダムウォークの終わりに戻される。

【0040】

Ｍｅｔｒｏｐｏｌｉｓ－Ｈａｓｔｉｎｇｓ方法を実施するために、以下の一群の目的関数が以下の入力として使用される：
ａ）初期開始抗体配列

【数15】

、
ｂ）提案分布ｐ（ｓ＿｛ｔ＋１｝｜ｓ＿ｔ）、及び
ｃ）受容基準ｇ：

【数16】

、
ここで、

【数17】

はＯｍｎｉｐｒｏｔ微調整過程のトレーニングセット内の一組のすべての抗体配列であり、そして

【数18】

は、整列されたトレーニングセット（ａｌｉｇｎｅｄｔｒａｉｎｉｎｇｓｅｔ）内のアミノ酸に関する臨界分布から引き出され得る一組のすべての配列である。したがって、受容基準ｇは、一対の配列（例えば抗体配列及び次候補配列）から、ランダムウォークにおける次工程として候補配列を受容する確率を指示する単位間隔へのマッピングピングである。本方法の例示的実施形態では受容基準は次のよう定義される：

【数19】

ここで、ｓ及びｓ_ｃはそれぞれ現在配列及び候補配列であり、そしてαは正の定数である。原理的に、多くのこのような受容基準が使用されそして効果的であり得るが、実際、この判断基準は効果的であるということが分かった。

【0041】

上記を所与として、ＣＤＥ方法は次のように進む（これはＭｅｔｒｏｐｏｌｉｓ－Ｈａｓｔｉｎｇｓの実装であるということに留意されたい）：
ａ）初期抗体配列で開始する：

【数20】

ｂ）現在の最良配列を初期化する：

【数21】

ｃ）提案分布から新候補配列を引き出す：

【数22】

ｄ）確率ｇ（ｓ，ｓ_ｃ）により：

【数23】

と設定する
ｅ）

【数24】

ｆ）ｎ＞最大反復数になるまでは工程（ｃ）に戻る

【0042】

設計者は抗体配列の複数の特性を最適化することを望み得る。そうするために、抗体配列の各特性を推定するためのモデルが採用され得、そして目的関数が、ハイパーパラメータを使用することによりそれぞれのモデルの重み付け結果を合成する。ハイパーパラメータ及びその使用は以下に説明される。

【0043】

２つの目的関数が最適化されるシナリオを考察する。当業者は、任意の２つの特性が解析され得るということを認識し得る。しかし、この例に関しては、結合親和力及び抗体溶解度が例示のために使用されている。例えば、第１のモデルは、我々の標的（ｍ_１（ｓ））に対する配列の結合親和力を判断する。第２のモデルは抗体溶解度（ｍ_２（ｓ））を判断する。両方のモデルは、配列（ｓ）を取り込み、そして測定された特性を表すスカラー量を戻す。結合目的関数（例えば目的関数）は次のように２つのスカラー出力を合成し得る：
ｏｂｊｅｃｔｉｖｅ（ｓ）：＝（１－α）ｍ_１（ｓ）＋αｍ_２（ｓ）
ここで、αは０～１の閉区間上にある。このαハイパーパラメータを判断することは良い目的関数を見出す行為の一部であり、そして試験を必要とし得る。一般的に、目的関数は、一組のモデルの加重和として表現され得る。複数のモデルを最適化することは、所望抗体配列を得るためにモデルを合成する際にどのように各モデルを重み付けするかを判断することに関わる。このような最適化は、抗体の設計者がいくつかの特性を他の特性より優先し得ると手動で行われ得る。ハイパーパラメータは、製造に対する特性（例えば製造可能性）の重要度、蛋白質の発現、患者の免疫原性、開発可能性、他のモデルとの相互作用、他のモデルとの直交性、及び生成プロセスを調節することによる経験的導出のうちの１つ又は複数を表し得る。製造可能性は、標準的生化学技術を使用することにより蛋白質配列（例えば薬）を生成する容易性又は困難性に基づく要因である。製造可能性要因は、どれだけ容易に蛋白質が発現するか、どれくらいの可能性で蛋白質が集約するか、蛋白質がどれだけ安定か等々を含む。これらの関心はすべて、生成の費用及び実現可能性に関係する。開発可能性は、蛋白質配列（例えば薬）の臨床成功に関係する属性に基づく要因である。開発可能性要因は、どれだけ容易に蛋白質が発現するか、どれくらいの可能性で蛋白質が集約するか、蛋白質がどれだけ安定か、標的に対する特異性、等々を含む。

【0044】

一般的に、ｎ個のモデルに関して、多モデルタイプの目的関数は次のよう表される：

【数25】

ここで、重み付けｗ_ｉは０～１の値を取り、そしてすべての重み付けｗ_ｉの合計は１となる。ただ１つの特性が最適化される場合は、ｎ＝１、ｗ_ｉ＝１。しかし、設計者は、多モデル目的関数の重み付けを構成する。

【0045】

図１Ｂは、本開示により採用されるプロセスの例示的実施形態を示す流れ図１５０である。本プロセスは初期抗体ｓ_０を選択すること（１５２）により始まる。初期抗体ｓ_０は機械学習プロセスにより改善される抗体である。初期化するために、本方法は最良と分かった抗体ｓ_ｂを第１のパスのｓ_０に設定する。次に、本方法は上に定義された提案分布

【数26】

から新配列ｓ_ｃを引き出す（１５６）。換言すれば、提案分布は、現在配列ｓ_０から単一配列である新抗体を選択する。提案分布

【数27】

を所与として、新配列は、いつくかの位置にわたる一様分布を使用することにより、突然変異すべき位置を選択することにより提案される。位置が選択されると、特定点突然変異が選択されるいくつかのやり方が存在する。これらの方法は以下のことを含む：
ａ）当該位置において新アミノ酸を（２０のカノニカルセットから）一様に無作為に選択する、
ｂ）トレーニングセット内の抗体の多配列アラインメントにより誘起される一次分布を使用することにより当該位置において新アミノ酸を選択する、又は
ｃ）抗体トレーニングセット内で見出されたアミノ酸の零次分布にわたってサンプリングすることにより当該位置において新アミノ酸を選択する。

【0046】

多配列アラインメントにより誘起される一次分布は、トレーニングセット内の特定位置に見られる潜在的アミノ酸の経験的分布である。零次分布は位置にはかかわらないすべてのアミノ酸の経験的分布である。零次分布は、トレーニングセット内の各蛋白質からあらゆる残りを採用し、これらをバッグ内に入れ、そして交換無しにこのバッグからサンプリングする分布と同様である。零次分布は位置を保存しないが、一次分布は蛋白質内の各位置における分布を考慮する。上述のプロセスは、潜在的配列の分布と開始配列を与えられた条件付分布とを誘起する。

【0047】

確率ｇ（ｓ，ｓ_ｃ）が構成可能閾値の上にあれば、ｓはｓ_ｃに設定される（１５８）。構成可能閾値は一実施形態では設計するユーザにより設定され得る。

【0048】

別の実施形態では、構成可能閾値は少なくとも１つの要因により自動的に設定され得る。自動か手動かにかかわらず、構成可能閾値は以下の要因を考慮することにより設定され得る：提案の受容率及びＭＣＭＣ手順の混合速度。閾値が余りに低く設定されれば、受容率は高くなるが、混合速度は低くなり、そして収束は遅くなる。閾値が余りに高く設定されれば、混合速度は高くなるが、受容率は低くなり、したがって再び収束は遅くなる。したがって、アルゴリズムの性能を最大化するためには、提案受容率と混合速度とのバランスに達する中間値が理想的である。上述のように、ｇ（ｓ，ｓ_ｃ）は、一対の配列（例えば抗体配列と次候補配列）から、候補配列をランダムウォークにおける次工程として受容する確率を指示する単位間隔へのマッピングを表す。

【0049】

次に、本方法は

【数28】

から見出された特性値が

【数29】

の特性値より小さいかどうかを判断する（１６０）。換言すれば、本方法は親和力値ｓ_ｂと親和力値ｓとを比較するが、当業者は、親和力以外の他の特性値がこの工程において評価され得るということを認識し得る。ｓ_ｂの評価された特性がｓより小さければ、ｓはｓ_ｂに設定される（例えば、考察されている配列がこれまでの最良配列であると評価される）（１６２）。次に、本方法は、十分な回数繰り返したか又は本方法を指示する他のメトリックが完了したかを照査する（１６４）。そうであれば、本方法はｓ_ｂを出力として出力する（１６６）。そうでなければ、本方法は提案分布から別の配列ｓ_ｃを引き出す（１５６）。ｓ_ｂの評価された特性がｓ以上であれば、本方法は、完了したかどうかを照査し（１６４）、そして上述のようにここから継続する。

【0050】

図２は、計算指向性進化を使用することにより抗体配列を発見するための抗体配列空間におけるランダムウォーク系列を示すグラフ２００である。微調整されたモデルによりＣＤＥを使用することで抗体親和力を最適化する。シーズ抗体配列ｓ_０２０２は１つ又は複数の初期抗体配列である。これらの配列の最良配列ｓ_ｂ２０４が初期化されるために選択され、ここで、最良配列は最高親和力及び発現特性を有するものである。次に、新候補配列２０６が提案分布から引き出される。次に、一組の配列ｓがｓ_ｃに設定される。ｓ_ｂの微調整されたモデルの特性値結果がｓのものより小さいと、ｓ_ｂはｓに設定される。次に、このプロセスは好適な抗体が見出されるまで繰り返す。

【0051】

本明細書において説明される方法の結果は改善された抗体配列ｓ_ｂを提供する。このランダムウォークは、試験に必要なものと同数の配列を生成するために繰り返される。いくつかの実施形態では、このランダムウォークは無作為手法、教師有り手法、又はハイブリッド手法であり得る。次に、これらの配列は抗原及び発現に対する類似性に関して分析される。次に、このデータは、微調整過程へフィードバックされ得、そして、臨床的に重要な抗体配列が生成されるまで、所望に応じて何度も繰り返され得る。本明細書において説明される方法を使用することにより、データセット内に見られる最高親和力抗体を一桁越える改善されたフルオレセイン抗体親和力を有する抗体配列が、生成され得る。この場合、事前トレーニング及び微調整は上述のデータセットを使用したが、他のデータセットが使用され得る。

【0052】

図３は、既存データセットと比較した、生成された抗体配列３０２の改善を示すグラフ３００である。このグラフは、新規抗体親和力成熟を使用することにより、生成されたフルオレセイン抗体配列を示す。新規抗体親和力成熟プロセスを使用することにより、１００ｐＭ以下の親和力フルオレセイン抗体配列が生成される。グラフ３００では、抗体配列は親和力（Ｘ軸）対発現（Ｙ軸）でプロットされる。右上象限は、両特性の最も高いものを有する生成された抗体配列３０２を含む。当業者は、これらの生成された抗体配列３０２（赤色で示す）が本プロセスにより望まれる特性を有するということを認識し得る。

【0053】

図４は本発明のいくつかの実施形態が実施され得るコンピュータネットワーク又は同様なディジタル処理環境を示す。

【0054】

クライアントコンピュータ／デバイス５０及びサーバコンピュータ６０は、処理、格納、及びアプリケーションプログラムなどを実行する入力／出力デバイスを提供する。クライアントコンピュータ／デバイス５０はまた、通信ネットワーク７０を介し他のコンピューティングデバイス（他のクライアントデバイス／プロセス５０及びサーバコンピュータ６０を含む）へリンクされ得る。通信ネットワーク７０は、リモートアクセスネットワーク、グローバネットワーク（例えばインターネット）、コンピュータの世界的集合、ローカルエリアワーク又は広域ネットワーク、及び互いに通信するためにそれぞれのプロトコル（ＴＣＰ／ＩＰ、ブルートゥース（登録商標）など）を現在使用するゲートウェイの一部であり得る。他の電子デバイス／コンピュータネットワークアーキテクチャも好ましい。

【0055】

図５は、図４のコンピュータシステム内のコンピュータ（例えばクライアントプロセッサ／デバイス５０又はサーバコンピュータ６０）の例示的内部構造の線図である。各コンピュータ５０、６０はシステムバス７９を含み、バスは、コンピュータ又は処理システムの部品間のデータ転送のために使用される一組のハードウェア線である。システムバス７９は本質的に、要素間の情報の転送を可能にするコンピュータシステムの様々な要素（例えばプロセッサ、ディスクストレージ、メモリ、入力ポート／出力ポート、ネットワークポートなど）を接続する共有導管である。システムバス７９へ取り付けられるのは、コンピュータ５０、６０に様々な入力デバイス及び出力デバイス（例えばキーボード、マウス、ディスプレイ、プリンタ、スピーカなど）を接続するためのＩ／Ｏデバイスインターフェース８２である。ネットワークインターフェース８６は、コンピュータがネットワーク（例えば図５のネットワーク７０）へ取り付けられる様々な他のデバイスへ接続することを可能にする。メモリ９０は、本発明の一実施形態を実施するために使用されるコンピュータソフトウェア指令９２及びデータ９４のための揮発性ストレージ（例えば、上に詳述された機械学習モデルモジュール及び微調整された機械学習モデルモジュールコード）を提供する。ディスクストレージ９５は、本発明の一実施形態を実施するために使用されるコンピュータソフトウェア指令９２及びデータ９４のための不揮発性ストレージを提供する。中央プロセッサユニット８４もシステムバス７９に取り付けられており、コンピュータ指令を実行する。

【0056】

一実施形態では、プロセッサルーチン９２及びデータ９４は、本発明システムのソフトウェア指令の少なくとも一部を提供するコンピュータプログラム製品（概して符号９２で参照される）（非一時的コンピュータ可読媒体（例えば、１つ又は複数のＤＶＤ－ＲＯＭ、ＣＤ－ＲＯＭ、ディスケット、テープなどの着脱可能ストレージ媒体）を含む）である。コンピュータプログラム製品９２は、当該技術分野でよく知られているような任意の好適なソフトウェアインストール手順によりインストールされ得る。別の実施形態では、ソフトウェア指令の少なくとも一部はまた、ケーブル通信及び／又は無線接続上でダウンロードされ得る。他の実施形態では、本発明プログラムは、伝播媒体（例えば、無線波、赤外線波、レーザ波、音波、又はインターネットなどのグローバネットワーク又は他のネットワーク上で伝播される電波）上の伝播信号上で具現化されるコンピュータプログラム伝播信号製品である。このような搬送媒体又は信号は、本発明ルーチン／プログラム９２のためのソフトウェア指令の少なくとも一部を提供するために採用され得る。

【0057】

本明細書において引用されるすべての特許、公開出願、参考文献の教示は参照によりその全体が援用される。

【0058】

例示的実施形態は具体的に示され説明されたが、形式及び詳細の様々な変更は添付の特許請求の範囲に包含される実施形態の精神及び範囲から逸脱することなくなされ得ることが当業者により理解されることになる。

【図1A】