IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ リジェネロン・ファーマシューティカルズ・インコーポレイテッドの特許一覧

特許7602034バイオ医薬品開発のための方法およびシステム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-09
(45)【発行日】2024-12-17
(54)【発明の名称】バイオ医薬品開発のための方法およびシステム
(51)【国際特許分類】
   G16B 40/20 20190101AFI20241210BHJP
   G01N 33/68 20060101ALI20241210BHJP
【FI】
G16B40/20
G01N33/68
【請求項の数】 15
(21)【出願番号】P 2023526602
(86)(22)【出願日】2021-11-02
(65)【公表番号】
(43)【公表日】2023-11-16
(86)【国際出願番号】 US2021057731
(87)【国際公開番号】W WO2022094468
(87)【国際公開日】2022-05-05
【審査請求日】2023-06-27
(31)【優先権主張番号】63/108,716
(32)【優先日】2020-11-02
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】597160510
【氏名又は名称】リジェネロン・ファーマシューティカルズ・インコーポレイテッド
【氏名又は名称原語表記】REGENERON PHARMACEUTICALS, INC.
(74)【代理人】
【識別番号】100105957
【弁理士】
【氏名又は名称】恩田 誠
(74)【代理人】
【識別番号】100068755
【弁理士】
【氏名又は名称】恩田 博宣
(74)【代理人】
【識別番号】100142907
【弁理士】
【氏名又は名称】本田 淳
(72)【発明者】
【氏名】アローラ、ジャヤント
(72)【発明者】
【氏名】タン、シャオリン
(72)【発明者】
【氏名】シャミーム、モハメッド
(72)【発明者】
【氏名】タファゾル、アリレザ
【審査官】田中 寛人
(56)【参考文献】
【文献】韓国公開特許第10-2016-0131837(KR,A)
【文献】米国特許出願公開第2017/0091377(US,A1)
【文献】特表2015-523967(JP,A)
【文献】Dheeraj S. Tomar et al.,In-silico prediction of concentration-dependent viscosity curves for monoclonal antibody solutions,mAbs,2017年,Vol.9,No.3,pp.476-489,https://doi.org/10.1080/19420862.2017.1285479
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
G01N 33/68
(57)【特許請求の範囲】
【請求項1】
1つ以上のモノクローナル抗体(mAb)の物理的特性を予測するための予測モデルを生成するためのコンピュータ実装方法であって:
コンピュータにより一つ以上のモノクローナル抗体(mAb)に関連する実験データを決定することと、
コンピュータにより前記一つ以上のmAbに関連する計算導出データを決定することであって、前記計算導出データが、一つ以上の計算パラメータを含み、前記一つ以上の計算パラメータは、前記一つ以上のmAbの一つ以上の領域内の一つ以上の残基に関連する一つ以上の電荷値を含む、計算導出データを決定することと、
コンピュータにより、前記一つ以上のmAbの前記一つ以上の領域内の前記一つ以上の残基の溶媒露出面積(SAS)に基づいて、重み係数を計算することと、
コンピュータにより前記重み係数に基づいて、前記一つ以上の残基に関連する前記一つ以上の電荷値を調整することと、
コンピュータにより前記一つ以上の残基に関連する調整済みの前記一つ以上の電荷値に基づいて、前記一つ以上の領域の各領域に関連する電荷値を決定することと、
コンピュータにより前記実験データおよび前記計算導出データに基づいて、一つ以上のmAbの物理的特性を予測するための予測モデルを生成することであって、前記計算導出データは前記一つ以上の領域の各領域に関連する前記電荷値を含む、一つ以上のmAbの物理的特性を予測するための予測モデルを生成すること、を含む方法。
【請求項2】
前記一つ以上のmAbが、IgG1抗体またはIgG4抗体のうちの一つ以上を含む、請求項1に記載の方法。
【請求項3】
前記実験データが、実験粘度データを含み、前記実験粘度データが、動的粘度値または動粘度値のうちの一つ以上を含む、請求項1に記載の方法。
【請求項4】
前記一つ以上のmAbに関連する前記実験データを決定することが、
前記一つ以上のmAbのそれぞれの溶液および粘度計に基づいて、動的粘度値または動粘度値のうちの少なくとも一つを測定すること、を含む、請求項3に記載の方法。
【請求項5】
前記一つ以上の領域が、前記一つ以上のmAbの配列に関連する、請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記一つ以上のmAbに関連する前記計算導出データを決定することが、前記一つ以上のmAbの配列の完全抗体ホモロジーモデリング、または前記一つ以上のmAbの抗原結合断片(Fab)配列のFab領域モデリングを含む、請求項1~5のいずれか一項に記載の方法。
【請求項7】
前記一つ以上のmAbの前記一つ以上の領域内の前記一つ以上の残基の溶媒露出面積(SAS)に基づいて前記重み係数を計算することが、
前記一つ以上のmAbのホモロジーモデルに基づいて、前記一つ以上のmAbの前記一つ以上の領域内の前記一つ以上の残基に関連する前記一つ以上の電荷値を決定することと、
前記一つ以上のmAbの前記ホモロジーモデルに基づいて、前記一つ以上の領域内の前記一つ以上の残基の前記溶媒露出面積(SAS)を決定することと、を含む、請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記実験データおよび前記計算導出データに基づいて、前記予測モデルを生成することが、
前記実験データの一つ以上の実験パラメータを従属変数として特定することと、
前記計算導出データの一つ以上の計算パラメータを独立変数として特定することと、
段階的回帰アルゴリズムに基づいて、前記従属変数に基づいて、かつ前記独立変数に基づいて、前記予測モデルを生成することと、を含む、請求項1~7のいずれか一項に記載の方法。
【請求項9】
前記予測モデルについて、赤池情報量規準(AIC)スコアを決定することをさらに含む、請求項1~8のいずれか一項に記載の方法。
【請求項10】
クエリーmAbに関連する計算導出データを受信することと、
記予測モデルに前記計算導出データを提供することと、
記予測モデルに基づいて、前記クエリーmAbに関連する粘度スコアを決定することと、をさらに含む、請求項1~9のいずれか一項に記載の方法。
【請求項11】
前記粘度スコアに基づいて、前記クエリーmAbに関連する製剤組成物を調節すること、をさらに含む、請求項10に記載の方法。
【請求項12】
前記一つ以上のmAbに関連する前記計算導出データを決定することが、前記一つ以上のmAbに関連する一つ以上の分子動力学(MD)シミュレーションを含む、請求項1~11のいずれか一項に記載の方法。
【請求項13】
前記実験データおよび前記計算導出データに基づいて、前記予測モデルを生成することが、
少なくとも前記実験データの一部分および少なくとも前記計算導出データの一部分を含む訓練データセットを生成することであって、前記少なくとも前記実験データの一部分が、抗体溶液の粘性の直接測定を含み、前記少なくとも前記計算導出データの一部分が、前記抗体溶液の抗体上にある残基について、計算モデリングを介して決定される一つ以上の電荷値を含む、訓練データセットを生成することと、
前記訓練データセットに基づいて、複数のパラメータを抽出することと、
前記訓練データセットおよび前記複数のパラメータに基づいて、抗体の粘性を予測するように構成された機械学習ベースの分類モデルを訓練することと、を含む、請求項1~12のいずれか一項に記載の方法。
【請求項14】
前記複数のパラメータが、V領域に対するSAS調整後電荷、V領域に対するSAS調整後電荷、C領域に対するSAS調整後電荷、C1領域に対するSAS調整後電荷、ヒンジ領域に対するSAS調整後電荷、C2領域に対するSAS調整後電荷、C3領域に対するSAS調整後電荷、または疎水性指標のうち1つ以上を含む、請求項13に記載の方法。
【請求項15】
前記抗体の粘性を予測するように構成された機械学習ベースの分類モデルが、新たな抗体の1つ以上の計算パラメータが低粘性もしくは高粘性スコアに関連付けられる尤度を予測するように構成されている、請求項13に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、2020年11月2日出願の米国仮特許出願第63/108,716号に対する優先権を主張するものであり、その仮特許出願の全体が、参照により本明細書に組み込まれる。
【背景技術】
【0002】
急性臓器移植拒絶反応に適応されたマウスCD3特異的IgG2aモノクローナル抗体(mAb)であるムロモナブが、1986年にモノクローナル抗体として初めてFDAから承認を得て以来、64種を超えるmAbがFDAから承認を受けている。この治療プラットフォームの人気は、進行中の臨床試験数が毎年増加しており、その使用が幅広い種類の異なる治療ポートフォリオに拡大していることからも明らかである。治療用mAbは、静脈内(IV)注射、筋肉内(IM)注射、皮下(SC)注射という三つの投与経路を介して最も一般的に投与されるが、この選択は、その安全性、有効性、患者の満足度、および薬剤経済学を含む様々な寄与因子に基づく。IV投与は、通常はクリニックにおいて制御可能な高用量で送達することができ、したがって通常は患者および臨床医にとってより費用がかさむ。大半の免疫グロブリンのIV投与経路からSC投与経路への移行は、患者による在宅での自己投与、または医療従事者によるクリニック内での投与の迅速化に可能にし、長期入院を減らし、医療の全体的品質を向上させることにより医療制度の経済的負担を軽減するため、全体的な医療コストを低減する可能性がある。IV投与よりも多くの利点を提供するにもかかわらず、SC投与経路は、医薬品開発や薬剤投与に対していくつかの重大な課題を提示する。SC投与の主な欠点は、細胞外基質に対する自然耐性および容量制限であり、最適なPK/PD転帰およびユーザーの利便性のために、高濃度の抗体溶液(≧150mg/mL)を限定的な注射量(約2~3mL弱)で投与する必要がある。
【0003】
高いタンパク質濃度は、高い溶液粘度やタンパク質凝集率などの重要な技術的課題をもたらす可能性があるため、高濃度の抗体溶液は、医薬品分野において開発するのが困難である。高粘性の抗体はまた、製造工程や薬物送達に関連する困難をもたらす。タンパク質凝集は抗体活性の低下をもたらすことがあり、免疫原性の潜在性はより大きいため、タンパク質の薬物動態および安全性に影響を与える可能性がある。したがって、高濃度の治療用抗体のための、コロイド的および立体構造的の両方の構造を安定化させて、それにより、粘度と凝集傾向を減少させ、許容可能な貯蔵寿命と製造工程との適合性の両方を確保するための適切な製剤が開発されるべきである。
【0004】
高濃度タンパク質製剤を開発するための従来のアプローチは、概して、広範な生物物理学的技術と分析的手法を利用した経験的方法を伴う。例えば、溶液粘度は、直接粘度測定によって測定され、浸透圧二次ビリアル係数(B22)測定、および拡散相互作用パラメータ(K)測定などの確立されたツールによって実験的に予測され得る。このようなツール、例えばB22測定はかなりの量の材料を必要とし、またかなり労働集約的である。タンパク質凝集および会合は、立体構造安定性(すなわち、タンパク質構造における巨視的および微視的な摂動)とコロイド安定性(すなわち、ネイティブな分子間相互作用)との間の相互作用の結果であると考えられる。
【0005】
全体的なタンパク質安定性を評価し、立体構造安定性とコロイド安定性の個々の寄与を予測するために、様々な確立された生物物理学的および分析的なツールやアプローチが定例的に使用されている。これらの安定性は、熱応力、攪拌応力、および凍結融解応力の定量化を可能にする様々な確立された技術によって、測定および予測され得る。安定性予測アプローチは、熱応力安定性研究、熱変性温度(T)、化学変性温度、凝集温度(Tagg)、曇り点温度(Tcloud)の測定、疎水性相互作用クロマトグラフィーを使用した直接表面疎水性測定、ゼータ電位、および高次構造推定などである。これらの技術はすべて物理的材料を必要とし、技術によっては煩雑でありかつ時間がかかる。
【0006】
さらに、実験的に開発された予測モデルは、ほとんどの場合で失敗している。粘度および凝集率の測定および予測をするための上述の技術のほとんどは費用と時間がかかり、物理的材料を必要とする。したがって、粘度値および凝集傾向を予測するか、またはその開発性に基づいて抗体をランク付けするための新規の実験的および/またはコンピュータ利用ツールの開発が、早期の製剤開発中および創薬中に多くのmAb候補を迅速にスクリーニングするために不可欠である。
【0007】
個々の抗体分子の抗体配列、ホモロジーモデル、および分子動力学(MD)シミュレーションから得られる物理的特性を、予測モデルまたは順位付けスキームを開発するためのパラメータとして使用することができる。これらのモデルを使用して、粘度、立体構造安定性、コロイド安定性、および製造可能性を予測することができる。また、こうした迅速かつ材料が不要のツールにより、抗体分子およびその相互作用に対する分子面の洞察も可能になる。
【0008】
Sharmaらは、14個のIgG1ホモロジーモデルの可変ドメインFvに基づく粘度の予測モデルを開発した。電荷および疎水性を含むがこれに限定されない物理的パラメータは、主要成分回帰モデルにおいて測定された粘度値に対する相関性があった。Agrawalらはまた、ホモロジーモデルにおけるFv領域の表面が露出した残基の部分電荷に基づいて、IgG1抗体をランク付けする粘度スコアリング関数を開発し、高粘性の抗体を他の抗体と区別するための閾値を提案した。
【0009】
Tomarらは、16個のIgG1抗体、IgG2抗体、IgG4抗体の完全長ホモロジーモデルから得られた静電気的および疎水的な記述子に基づいて、抗体溶液の濃度依存性粘度曲線を予測した。完全長抗体の疎水性表面積と、Fv領域およびヒンジ領域に対する電荷とを使用して、線形化された濃度依存性粘度曲線の傾きが予測された。
【0010】
さらに、この分野の研究者によって、ペプチドおよび治療用タンパク質の凝集しやすい領域を予測するための様々な方法が開発されてきた。TANGO統計力学アルゴリズムは、配列ベースの凝集を予測するため、βシート形成の物理化学的原理に基づいて開発された。ウェブベースのツールであるWaltzは、位置特異的スコアリングマトリックスを使用して、タンパク質配列中のアミロイド形成領域を識別するように設計された。Chennamsettyらは、抗体の原子論的シミュレーションから得られた疎水性パッチの動的露出に基づいて、凝集しやすい領域を予測する方法を開発した。治療用タンパク質の凝集および凝集しやすい領域を予測するために開発された計算方法の包括的なリストは、出版された書籍の章や総括書に見出すことができる。
【0011】
全体として、医薬品開発を促進するために、粘度および凝集傾向に対するより堅牢かつ予測可能なモデルに対するニーズがある。
【発明の概要】
【0012】
一つ以上のモノクローナル抗体(mAb)に関連する実験データを決定することと、一つ以上のmAbに関連する計算導出データを決定することであって、計算導出データが、一つ以上のmAbの一つ以上の残基の露出面積(ASA)に基づいて重み付けされた一つ以上の計算パラメータを含む、計算導出データを決定することと、実験データおよび計算導出データに基づいて、複数の候補予測モデルを決定することと、複数の候補予測モデルから最適な予測モデルを決定することと、最適な予測モデルを出力することと、を含む方法が説明されている。
【0013】
また、モノクローナル抗体(mAb)に関連する計算導出データを受信することと、予測モデルに対して計算導出データを提供することと、予測モデルに基づいて、mAbに関連する粘度スコアを決定することと、を含む方法も説明されている。
【0014】
モノクローナル抗体(mAb)に関連する計算導出データを受信することと、予測モデルに対して計算導出データを提供することと、予測モデルに基づいて、mAbに関連する凝集スコアを決定することと、を含む方法も説明されている。
【0015】
開示される方法および組成物のさらなる利点は、一部が、以下の記載において記載されるか、一部が、記載から理解されるか、または開示される方法および組成物の実施によって学んでもよい。開示される方法および組成物の利点は、添付の特許請求の範囲において特に指摘されている要素および組み合わせによって実現され、達成されるであろう。前述の一般的な説明および以下の詳細な説明は両方とも、請求される本発明の、あくまで例示的かつ説明的なものであって、限定的なものではないことを理解されたい。
【0016】
本明細書において援用され、かつ本明細書の一部を成す添付の図面は、開示される方法および組成物の一部の実施形態を例証し、説明と共に、開示される方法および組成物の原理を説明する役割を果たすものである。
【図面の簡単な説明】
【0017】
図1図1は、治療のためのスクリーニングおよび/または選択を支援する予測モデルを生成するための例を示すフローチャートである。
図2図2は、予測モデルを生成するためのブロック図の例である。
図3図3は、訓練方法の一例を図解するフローチャートである。
図4図4は、機械学習ベースの分類器を使用して、ヌクレオチド配列がプロモーターであるかどうかを決定するための例示的なプロセスフローの図である。
図5図5は、様々なタンパク質濃度での拡散係数に線を適合させることに基づいて計算された、拡散相互作用パラメータ(K)の例を示す。このグラフは、例として、mAb4についてKがどのように計算されたかを示す。
図6A図6Aおよび図6Bは、本試験で使用される16個の完全抗体モデルについて計算されたパラメータを示す表である。これらの物理的特性は、タンパク質溶液粘度の予測モデルを開発するために使用される完全抗体ホモロジーモデルから取得された。ZVL、ZVH、ZCL、ZCH1、ZHinge、ZCH2、およびZCH3は、それぞれ、V領域、V領域、C領域、C1領域、ヒンジ領域、C2領域、C3領域に対する実効電荷であり、ZmAbは合計抗体電荷であり、Z VL、Z VH、Z CL、Z CH1、Z Hinge、Z CH2、Z CH3は、それぞれ、V領域、V領域、C領域、C1領域、ヒンジ領域、C2領域、C3領域に対する正味溶媒露出面積(SAS)調整後電荷であり、HIは疎水性指標であり、DmAbは抗体の平均化した合計双極子モーメントであり、PISequenceおよびPIStructureは、それぞれ、配列ベースおよび構造ベースの等電点であり、APは、Chennamsettyによって予測される凝集傾向である。
図6B】同上。
図7図7は、Fabモデルの計算されたパラメータを示す表である。本試験では、14個のFabモデルの計算されたパラメータを使用した。これらの物理的特性は、凝集傾向について予測モデルを開発するために使用されるFabホモロジーモデルおよび分子動力学シミュレーションから取得された。ZVL、ZVH、ZCL、ZCH1は、それぞれ、V領域、V領域、C領域、C1領域に対する実効電荷であり、ZFabは、合計Fab領域電荷であり、Z VL、Z VH、Z CL、Z CH1は、それぞれ、V領域、V領域、C領域、C1領域に対する正味溶媒露出面積(SAS)調整後電荷であり、HIは疎水性指標であり、DmAbはFab領域の平均化した合計双極子モーメントであり、PISequenceおよびPIStructureは、それぞれ、配列ベースおよび構造ベースの等電点であり、APは、Chennamsettyによって予測される凝集傾向であり、RMSDは、Fab領域の分子動力学シミュレーションから得られた平均化した平均二乗偏差(Å)である。
図8図8は、本試験で使用される16個のmAbについて測定されたタンパク質溶液粘度値の広範な分布を示す。IgG1およびIgG4の候補は、それぞれ灰色および黒色で示されている。我々のデータセットによると、IgG1抗体は、IgG4候補と比較してより低い粘度値を示す傾向がある。
図9図9A図9B図9Cは、本試験で使用される15個のmAbの測定値の例を示す。(a)浸透圧二次ビリアル係数(B22)、(b)拡散相互作用パラメータ(K)、および(c)高い相関係数(R)によって観察される、現在のデータセットに対するB22値とK値との間の強い相関。K測定のための材料がなかったため、MAb1はこれらのプロットから除外された。IgG1およびIgG4の候補は、それぞれ灰色および黒色で色付けられている。
図10図10Aおよび図10Bは、タンパク質溶液粘度に対する測定値の相関の例を示す:a)浸透圧二次ビリアル係数(B22)、および(b)拡散相互作用パラメータ(K)。B22値は本試験で使用した16個のmAbについて測定され、K値は、mAb1用に十分な材料がなかったため、そのうちの15個について測定された。線形相関係数(R)および回帰線が各グラフに示される。
図11A図11A図11B図11Cは、実験粘度値と計算されたパラメータとの間の線形関係を示す。線形適合式および相関係数(R)が、各プロットに示される。ZVL、ZVH、ZCL、ZCH1、ZHinge、ZCH2、およびZCH3は、それぞれ、V領域、V領域、C領域、C1領域、ヒンジ領域、C2領域、C3領域に対する実効電荷であり、ZmAbは合計抗体電荷であり、Z VL、Z VH、Z CL、Z CH1、Z Hinge、Z CH2、Z CH3は、それぞれ、V領域、V領域、C領域、C1領域、ヒンジ領域、C2領域、C3領域に対する正味溶媒露出面積(SAS)調整後電荷であり、HIは疎水性指標であり、DmAbは抗体の平均化した合計双極子モーメントであり、PISequenceおよびPIStructureは、それぞれ、配列ベースおよび構造ベースの等電点であり、APは、Chennamsettyによって予測される凝集傾向である。
図11B】同上。
図11C】同上。
図12図12は、計算された予測粘度スコア(PVS)と測定された粘度値との間の線形回帰線の例を示す。相関係数(R)および相関係数の二乗値(R)がグラフに示される。破線の間の領域は95%信頼区間を示す。
図13図13は、本試験で使用した抗体mAb3の一つに対するサイズ排除クロマトグラフィー(SEC)のシグナルの代表例であり、40℃および相対湿度75%での0日目と28日目の期間にわたるインキュベーションを示す。高分子量(HMW)種形成の増加が、凝集の結果として観察される。0日目および28日目のデータは、それぞれ赤色の点線と黒色の実線で示されている。
図14図14は、本試験で使用される14個のmAbをサイズ排除クロマトグラフィー(SEC)によって測定した、0日目と比較した場合の7、14、28日間の高分子量(HMW)種形成の相対的割合である%ΔHMWを示す。試料を、40℃および相対湿度75%で7日間、14日間、28日間インキュベートした。MAb9およびmAb16は、材料の利用可能性が限定されたため除外された。
図15図15は、本試験で使用した14個のmAbについて、28日間のデータ点の%ΔHMWを28で割った値に基づいて計算した、1日あたりの高分子量(HMW)種形成率である%ΔHMW/日を示す。IgG1およびIgG4は、それぞれ灰色および黒色で色付けられている。
図16A図16A図16B図16Cは、本試験で使用した14個のmAbの初期構造に対する立体配置的構造の平均二乗偏差(RMSD)を示す。これらの立体構造は、各抗体のFab領域に対する2.0nsで3回の分子動力学シミュレーションから取得した。各mAbの第一、第二、および第三のシミュレーションは、それぞれ、黒色、赤色、青色で色付けされている。
図16B】同上。
図16C】同上。
図17図17は、凝集の予測モデルを開発するために、現在の試験で使用された14個のmAbの初期構造からのFabモデルの骨格原子の平均化した平均二乗偏差(RMSD)の例を示す。RMSD値は、抗体を互いに区別するために、立体構造安定性の記述子として使用することができる。各mAbのRMSD値は、3回の分子動力学(MD)シミュレーションの平均である。MAb9およびmAb16は、材料の利用可能性が限定されたため除外された。
図18A図18A図18B図18Cは、各mAbにおけるFab領域の3回の2.0ns分子動力学シミュレーションに対する平均化した平均二乗偏差(RMSD)を示す。各シミュレーションにおけるRMSDは、初期構造に対する各立体構造について計算された。
図18B】同上。
図18C】同上。
図19A図19A図19B図19Cは、測定された1日当たりの高分子量(HMW)種形成率である%ΔHMW/日と、分子動力学シミュレーションから得られた平均二乗偏差(RMSD)を含む計算パラメータとの間の線形関係を示す。
図19B】同上。
図19C】同上。
図20図20は、計算された予測凝集スコア(PAS)と、測定された1日あたりの高分子量(HMW)形成率との間の線形回帰線の例を示す。相関係数(R)および相関係数の二乗値(R)がグラフに示される。破線の間の領域は95%信頼区間を示す。
図21図21は、予測される粘度スコアと検証実験データの相関を示す。
図22図22は、予測される凝集スコアと検証実験データの相関を示す。
図23図23は、例示的な操作環境を示す。
図24図24は、例示的な方法を示す。
図25図25は、例示的な方法を示す。
図26図26は、例示的な方法を示す。
【発明を実施するための形態】
【0018】
下記の特定の実施形態およびそれに含まれる実施例についての発明を実施するための形態、ならびに図面およびその前後の説明を参照することによって、開示される方法および組成物についての理解を容易にすることができる。
【0019】
当然のことながら、本開示の方法および組成物は、記載されている特定の方法論、プロトコルおよび試薬に限定されるものではない。理由はこれらが、変更される可能性があるからである。本明細書中に使用されている用語は、あくまで特定の実施形態を説明することを目的としたものであって、もっぱら添付の特許請求の範囲により限定される本発明の範囲を限定するものではないことも、理解すべきである。
【0020】
本明細書および添付の特許請求の範囲で使用される場合、単数形「a」、「an」、および「the」は、文脈が明白に指示しない限り、複数の参照を含むことに留意されたい。したがって、例えば、「一つの抗体」への言及は、複数のこうした抗体を含み、「抗体」への言及は、一つ以上の抗体および当業者に公知のその均等物などへの言及である。
【0021】
本明細書で使用される場合、「抗体」という用語は抗体全体を指す。抗体は、ジスルフィド結合によって相互接続された少なくとも二つの重鎖(H)鎖と二つの軽鎖(L)とを含む糖タンパク質である。各重鎖は、重鎖可変領域(本明細書ではVHと省略される)と重鎖定常領域から構成される。重鎖定常領域は、CH1、CH2、およびCH3という三つのサブドメインから構成される。各軽鎖は、軽鎖可変領域(本明細書ではVLと省略される)と軽鎖定常領域から構成される。軽鎖定常領域は、一つのサブドメインCLから構成される。VH領域およびVL領域は、フレームワーク領域(FR)と称される、より保存された領域が点在する、相補性決定領域(CDR)と称される超可変性の領域にさらに細分されることができる。各VHおよびVLは、以下の順序でアミノ末端からカルボキシ末端まで配列された3つのCDRおよび4つのFRから構成される:FR1、CDR1、FR2、CDR2、FR3、CDR3、FR4。重鎖および軽鎖の可変領域は、抗原と相互作用する結合ドメインを含む。抗体の定常領域は、免疫系(例えば、エフェクター細胞)の様々な細胞および古典的補体系の第一の成分(Clq)を含む、宿主組織または因子への免疫グロブリンの結合を媒介し得る。一部の態様では、抗体は、キメラ抗体、モノクローナル抗体、および/またはヒト化抗体であってもよい。
【0022】
抗体断片は、抗体全体の任意のより小さな部分を指すことができる。抗体断片は、Fv(可変領域断片)、Fab(抗体結合領域断片)、Fab’およびF(ab’)2(抗体結合断片にヒンジ領域の一部を加えたもの)断片を含むが限定されない、タンパク質分解断片に関して記述することができる。このような断片は、標準方法(例えば、本明細書に参照により組み込まれるColigan et al.Current Protocols in Immunology、John Wiley & Sons、1991-1997を参照のこと)により調製されてもよい。抗体は、少なくとも三つのタンパク質分解断片(すなわち、パパインによる切断によって産生される断片)、すなわち、各々が軽鎖ドメインと重鎖ドメインを含有する二つのFab断片(本明細書では「Fab重鎖ドメイン」として指定される)、および二つのFcドメインを含有する一つのFc断片を含んでもよい。各軽鎖ドメインは、VLサブドメインとCLサブドメインを含有し、各Fab重鎖ドメインは、VHサブドメインとCH1サブドメインを含有し、各Fcドメインは、CH2サブドメインとCH3サブドメインを含有する。一部の態様では、抗体断片は、キメラ抗体断片、モノクローナル抗体断片、および/またはヒト化抗体断片であってもよい。
【0023】
本明細書で使用される場合、「モノクローナル抗体」または「モノクローナル抗体断片」という用語は、抗原の同じエピトープに結合する免疫グロブリンの単一クローン集団から得られた抗体または抗体断片を指す。モノクローナル抗体は、同じIg遺伝子再構成を有し、したがって同一の結合特異性を示す。モノクローナル抗体を調製する方法は、当該技術分野で公知である。
【0024】
本明細書で使用される場合、「ヒト化モノクローナル抗体」または「ヒト化モノクローナル抗体断片」は、少なくともヒト定常領域と、非ヒト種由来の、例えば一つ、二つ、または三つのCDRなどの抗原結合領域とを有するモノクローナル抗体またはその断片を指す場合がある。ヒト化抗体またはその断片は、対象抗原を特異的に認識するが、ヒトでは抗体自体に対する免疫応答を誘発しない。
【0025】
本明細書で使用される場合、「キメラ抗体」または「キメラ抗体断片」という用語は、一つの供給源(例えば、種)からの可変領域、および異なる供給源から誘導された定常領域の少なくとも一部を含むモノクローナル抗体またはその断片を指す。一部の実施形態では、キメラ抗体は、マウス可変領域およびヒト定常領域を含む。
【0026】
この明細書の記載および特許請求の範囲を通じて、「含む(comprise)」という語およびこの語の変形、例えば「含む(comprising)」および「含む(comprises)」などは、「~を含むがこれに限定されない」を意味し、例えば、他の追加のもの、コンポーネント、整数、または工程を除外することを意図するものではない。特に、一つ以上の工程または動作を含むものとして記載される方法では、それぞれの工程が、列挙されているものを含むこと(その工程が、「からなる」などの限定する用語を含まない限り)が具体的に企図されており、それは、それぞれの工程が、例えば、工程に挙げられていない他の追加のもの、コンポーネントまたは工程を排除することが意図されていないことを意味している。
【0027】
創薬および早期開発中、大部分の薬剤候補は、親和性および機能性に基づいて最初にスクリーニングおよび選択される。しかしながら、バイオ医薬品開発において考慮する必要のある他の特性や属性も存在する。例えば、タンパク質収率、粘度、凝集、化学安定性(例えば、酸化、脱アミド化による分解に対する感受性)、配合性、および免疫原性は、包括的な開発性リスク評価の一部を形成するべきである。開発性の概念は、治療薬/薬剤として開発される薬剤候補(例えば、抗体)の適合性を定義するために使用される。抗体が薬剤として特定され開発されると、患者に投与することができる。
【0028】
抗体粘度を予測する方法が開示されている。この粘度予測ツールは、薬剤開発工程の早期段階で使用することができ、粘性であることのリスクが低減されたリード抗体のランク付けおよび選択を可能にする。
【0029】
抗体薬剤は高濃度の製剤を必要とするが、これは、製造工程およびエンドユーザーへの注射の両面において扱いにくく粘性の高い溶液をもたらす可能性がある。抗体粘度は、大幅な研究開発投資後に初めて、薬剤開発の後期段階に見出されることが多い。本明細書に記載する方法およびシステムは、薬剤開発工程の早期段階で抗体粘度を予測することができ、粘度の低い抗体候補に優先順位を置くことを可能にする。粘度予測ツールは、抗体の分析に関連するが、これらの技術は他のタンパク質にも適用できることが理解されるべきである。タンパク質は、臨床候補であり得るが、これらに限定されない。
【0030】
抗体凝集を予測する方法が開示されている。この凝集予測ツールは、薬剤開発工程の早期段階で使用することができ、凝集リスクが低減したリード抗体のランク付けおよび選択を可能にする。バイオ医薬品開発中に一般に発生する問題であるタンパク質凝集は、発酵、精製、製剤化、充填と製剤最終化、および貯蔵など、製造・開発工程の異なる段階で発生する可能性がある。凝集は、製造工程だけでなく、目標製品プロファイル、製品有効性、送達、そして重要なことに患者の安全性にも影響を与える可能性がある。タンパク質凝集体は、患者における免疫反応の症例に寄与することが報告されている。
【0031】
これらの凝集体は、可逆オリゴマー、肉眼では見えない粒子または肉眼で見える粒子、または沈殿物として顕在化する可能性がある。タンパク質凝集プロセスは、アミノ酸の組成および配列、タンパク質産生に使用されるプロセス中のpH、濃度、緩衝剤/賦形剤およびせん断力などの環境要因、ならびに最終製剤化および貯蔵条件を含む、多くの要因によって決定される。
【0032】
一部の態様では、凝集予測は、他のコンピュータ利用予測ツールと組み合わせて使用して対象抗体をスクリーニングおよび選択することができる。例えば、開示された凝集予測モデルは、開示された粘度予測モデル、または既知の免疫原性もしくは分解予測ツールと組み合わせることができる。これらのツールの組み合わせにより、凝集、粘度、分解、および/または免疫原性のリスクが低減した一つ以上の抗体を選択して、インビトロでの発現および特徴解析に進むことができる。
【0033】
図1に示す一実施形態では、治療スクリーニング、ランク付け、および/または選択を支援する予測モデルを生成するための方法100が記載されている。110で、実験パラメータを決定してもよい。実験パラメータは、例えば、タンパク質収率、粘度、凝集、化学安定性(例えば、酸化、脱アミド化による分解に対する感受性)、配合性、および/または免疫原性に関連してもよい。
【0034】
実験パラメータは、実験データから決定されてもよい。実験データは、例えば、測定、試験方法、実験設計、および/または準実験設計によって生成されるデータであってもよい。臨床研究においては、作成されたデータは臨床試験の結果である。実験データは定性的または定量的であってもよく、各々が異なる調査に適している。実験データは、抗体に関連する一つ以上の実験を実施することによって得られた実験パラメータの値を含み得る。
【0035】
一実施形態では、粘度に関連する実験パラメータを決定してもよい。一部の態様では、粘度を測定する技術は、試料が流量、速度、時間に対してどのように反応するかを測定する。例えば、毛細管粘度計を使用して、試料が管を通過するのにかかる時間を測定することができる。毛細管粘度計の使用と同様に、小さな穴をカップの底部に配置するザーンカップ法を使用することができ、試料が穴を通過するのにかかる時間が測定される。落球粘度計技術を使用して粘度を測定することもでき、既知の密度を持つ球を試料中に落下させ、球が指定される地点まで落下するのにかかる時間が記録される。一部の態様では、振動粘度計が、試料中に浸漬された振動電気機械共振器の減衰を測定するために使用される。回転粘度計技術を使用してもよく、回転粘度計は、試料の粘度の関数として、試料中の物体を回転させるために必要なトルクを測定する。
【0036】
一実施形態では、抗体凝集に関連する実験パラメータを決定してもよい。抗体凝集に関連する実験パラメータは、任意の公知のタンパク質凝集技術を使用して実施することができる。例えば、凝集を測定するための生化学的アッセイには、超遠心分離法、サイズ排除クロマトグラフィー、ゲル電気泳動、動的光散乱または濁度測定が含まれるが、これらに限定されない。これらの技術の多くは、タンパク質単量体と凝集体との間のサイズ差を考慮に入れている。蛍光ベースのアッセイを使用してもよく、このアッセイでは、タンパク質凝集体の存在下ではフルオロフォアによりその蛍光収率が増加する。
【0037】
一実施形態では、タンパク質収率に関連する実験パラメータは、当該技術分野で公知の技術を使用して実施することができる。タンパク質濃度はタンパク質収率と類似しているが、特定の体積の溶液中のタンパク質の量を確立する。タンパク質濃度は、分光光度計を使用して決定されることが最も多い。タンパク質濃度が決定されると、タンパク質収率を決定することができる。したがって、試料が5mg/mlのタンパク質濃度を有する場合、タンパク質収率が100mlとなった場合の合計タンパク質収率は500mgである。
【0038】
一実施形態では、抗体-抗原ドッキングに関連する実験パラメータは、公知の技術を使用して実施することができる。このデータを取得するための「標準基準」は、X線結晶解析を使用して抗体-抗原複合体の3D構造を実験的に決定することによる。低温電子顕微鏡法(cryoEM)または核磁気共鳴法(NMR)などの他の構造方法を使用することもできるが、複合体のサイズのため後者は困難である。抗体とその抗原との間の結合の可能性を示すこれらの実験データは、結合時に起こり得る異なる立体構造変化をもたらす可能性がある。
【0039】
一実施形態では、免疫原性に関連する実験パラメータを決定してもよい。治療用抗体の免疫原性は、有害な副作用を引き起こす可能性がある。免疫原性は、動物実験を使用して実験的に決定することができる。抗体は、動物(マウスまたはウサギなど)に投与されてもよく、その後、異なる時点で、動物由来の血清を、抗体に対する免疫応答(特にT細胞およびB細胞の応答)について試験することができる。ほとんどの場合、免疫原性が低いほど、治療用抗体がより優れた選択肢となる。一部の態様では、抗体の免疫原性は、抗体をヒト化することによって変化させることができる。
【0040】
一実施形態では、化学安定性に関連する実験パラメータを決定してもよい。化学安定性は、治療用タンパク質、特に抗体の重要な属性であり得る。ほとんどの場合、抗体が分解する可能性がより高いほど、治療剤としては望ましくない。化学安定性を実験的に決定するための最も一般的な方法は、ゲル電気泳動を使用することである。パルスチェイスアッセイも使用することができる。pH、温度、およびプロテアーゼはすべてが、化学安定性の要因である。したがって、わずかな製剤変更でも化学安定性に影響を及ぼす可能性がある。
【0041】
120で、計算パラメータを決定してもよい。計算パラメータは、計算解析および/またはシミュレーションによって決定されてもよい。計算パラメータは、計算導出データから決定されてもよい。計算導出データは、例えば、配列分析、抗体ナンバリング、完全FV領域モデリング、Ab特異的側鎖予測、抗体特異的ループ予測、側鎖予測、第一原理ループ予測、CDR正準構造予測、VH/VL配向、パラトープ予測、タンパク質のコンタクト予測、Ab特異的エピトープ予測、Ab特異的ドッキング、不特異的ドッキング、構造予測、ホモロジーモデリング、タンパク質-タンパク質ドッキングシミュレーション、分子動力学シミュレーションなどによって生成されたデータであり得る。実験データは、抗体に関連する計算解析を実施することによって得られた実験パラメータの値を含み得る。
【0042】
一実施形態では、計算パラメータは、抗体ナンバリングを介して決定されてもよい。抗体配列は、標準化された参照フレームワーク上にマッピングされてもよい。可変領域の未加工ヌクレオチド配列は、それらを生殖系列配列に整列させることによってアミノ酸に翻訳することができ、それによってV領域、D領域、J領域を特定する。これは、IgBLASTまたはIMGT V-Quesなどのプログラムおよび未加工の抗体データの処理を目的とした複数の他のツールによって達成され得る。抗体アミノ酸配列間の類似性はさらに、標準化された参照フレームワーク、またはナンバリングスキームの生成を可能にし、各可変領域アミノ酸に識別子を与える。ナンバリングスキームは、抗体の構造内の各位置の文脈を説明し、CDRおよびフレームワーク領域の迅速な描写を可能にする。抗体ナンバリングは、ホモロジーモデリングなどの計算抗体分析の第一のステップであってもよい。
【0043】
一実施形態では、計算パラメータは、抗体モデリングを介して決定されてもよい。構造抗体モデリングは、特に抗体構造、およびタンパク質構造全般に関する既存の知識に基づいて、抗体配列から3D構造を生成するものである。フレームワーク領域および五つの正準ループにおける高度な抗体配列および構造保存は、抗体ホモロジーモデリングの全体的な高精度をもたらす。抗体モデリングは一般に、CDRループを収容できる適切なフレームワークテンプレートの選択を伴う。これは、利用可能なデータベース内においてH鎖とL鎖と近い配列一致を探すことによって達成され得る。VHドメインとVLドメインの相対配向が決定され、これがパラトープの形状に影響を与える。次に、CDRループがモデル化される。抗体特異的な知識ベースのアプローチを使用して、テンプレートに従ってCDRループを予測することができる。CDRH3で多くみられるように、適切なテンプレートがない場合は、大規模な新規ループのセットを生成して最良のループモデルを選択する、より計算コストが高い第一原理アプローチを用いることができる。次に、側鎖が構築されて改良される。タンパク質一般および/または抗体に焦点を当てたアプローチを採用してもよい。最終抗体モデルは、分子のエネルギー充填を最適化することによってさらに改良することができる。例えば、AccelrysからのBiovia(https://www.3dsbiovia.com/)、MacromoltekからのSmrtMolAntibody(https://www.macromoltek.com/)、CCGからのMOE(https://www.chemcomp.com/)、およびSchrodinger Inc.からのBioLuminate(https://www.schrodinger.com/products/bioluminate)などの様々なモデリングツールが使用され得る。モデリングツールは、平均で1.1Åの平均二乗偏差(RMSD)の精度で、抗体F全体のモデルを生成することができ、最も困難な領域はCDRH3であり、これは一部の標的においては>5ÅのRMSDにモデル化される。このような結果は通常、実験から導出された構造の精度に匹敵するものではないが、1.0ÅのRMSDを有するモデルを、分子の構造特徴を描写するための急な代理として使用することができる。モデル構造は、変異のために、選択された表面露出パラトープ残基で、または同族エピトープに対する結合を特徴付けるために、使用することができる。正確な構造情報を使用して、パラトープおよびエピトープの分子表面についての正確なモデルに依存する疎水性など、様々な開発可能性指標を評価することができる。
【0044】
一実施形態では、残基電荷に関連する計算パラメータは、抗体ホモロジーモデリングを介して決定されてもよい。完全抗体および/またはFab(抗原結合断片)のホモロジーモデルは、タンパク質データバンク(PDB)結晶構造をテンプレートとして使用したモデリングソフトウェアを介して構築されてもよい。一実施形態では、完全抗体および/またはFabホモロジーモデルは、タンパク質粘度および/またはタンパク質凝集傾向の計算パラメータを決定するように構築されてもよい。本明細書に記載されるように、完全抗体および/またはFabホモロジーモデルを分子動力学シミュレーションで使用して計算パラメータを決定してもよい。抗体構造のエネルギーは、ホモロジーモデルに基づいて決定され、その後、幾何学最適化によって最小化されてもよい。抗体構造はプロトン化され、その後、残基に対する電荷および平均双極子モーメントなどの計算パラメータの決定がなされてもよい。
【0045】
軽鎖および重鎖の両方の可変領域および定常領域を含む、抗体(完全抗体モデルではZVL、ZVH、ZCL、ZCH1、ZHinge、ZCH2、ZCH3、ZTotal、FabモデルではZVL、ZVH、ZCL、ZCH1、ZTotal)の一つ以上の領域に対する電荷は、計算パラメータとして決定されてもよい。一実施形態では、各残基の実効電荷は、対応する抗体のホモロジーモデル内におけるその残基の相対的溶媒露出面積(SAS)を考慮することによって調整され得る。一実施形態では、Discovery Studioソフトウェア内の組み込みアルゴリズムを使用して、各アミノ酸の合計露出表面積を決定することができる。このアプローチでは、使用されているモデルに応じて、各残基に対する電荷について、完全抗体またはFabのいずれかの合計SASに対する残基のSASを使用して計算された重み係数で乗算してもよい。例えば、可変軽鎖では、各残基に対する調整後電荷は、式3を使用して計算されてもよく、この領域に対する合計SAS調整後電荷は、式4を使用して計算されてもよい。これらのSAS調整後電荷は、完全モデルではZ VL、Z VH、Z CL、Z CH1、Z Hinge、Z CH2、Z CH3、Z Total、FabモデルではZ VL、Z VH、Z CL、Z CH1、Z Totalとして標識されてもよい。
【0046】
【数1】
【0047】
式中、i=可変軽鎖(VL)中の任意の残基、およびn=指定される抗体の完全モデルまたはFabモデル中の残基数。
【0048】
【数2】
【0049】
式中、m=可変軽鎖(VL)中の残基数。
一実施形態では、完全抗体および/またはFabホモロジーモデルを使用して、計算パラメータとしての疎水性指標(HI)を決定してもよい。可変断片(Fv)のHIは、
【0050】
【数3】
【0051】
として決定されてもよく、式中、iは疎水性アミノ酸を表し、例えば、A、C、F、G、I、L、M、P、V、W、Yであり、jは親水性アミノ酸を表し、例えば、D、E、H、K、N、Q、R、S、Tであり、nは、各アミノ酸の数であり、Eは各アミノ酸のEisenbergスケール値である。一実施形態では、完全抗体および/またはFabホモロジーモデルを使用して、計算パラメータとしての平均双極子モーメント(HI)を決定してもよい。完全モデルおよびFabモデルの平均双極子モーメントは、プロトン化構造から決定することができる。
【0052】
一実施形態では、完全抗体ホモロジーモデル、Fabホモロジーモデル、および/または抗体配列データを使用して、等電点(pI)を決定してもよい。一実施形態では、完全抗体および/またはFabホモロジーモデルを使用して、原子ごとの凝集傾向(AP)スコアを決定してもよい。APスコアは、例えば、半径10Åにおいて露出された疎水性残基のCHARMM力場およびSASパッチに基づいて決定され得る。各抗体の合計凝集スコアは、完全抗体ホモロジーモデルまたはFabホモロジーモデルのいずれかにおけるすべての残基の凝集スコアの総和として決定され得る。抗体ホモロジーモデルおよび/またはFabホモロジーモデルに基づいて決定され得る計算パラメータの例を表1に示す。
【0053】
【表1】
【0054】
一実施形態では、計算パラメータは、分子動力学(MD)シミュレーションに基づいて決定されてもよい。MDシミュレーションを利用して、凝集傾向に関連するFab領域の立体構造変化を含めてもよい。Fab構造の原子は、各残基をそのテンプレートに構造的にマッチングすることによって、力場パラメータを割り当てることができる。これらの構造は、TIP3P水分子の切頂八面体ボックス内で明示的に溶媒和されてもよい。対イオンであるNaおよびClは、明示的に溶媒和されたシステムに添加されて、システムを中和してもよい。各シミュレーションでは、システムのエネルギーは、最急降下アルゴリズムを用いて最小化されてもよく、その後、システム中の大きなひずみを除去するために、Adopted Basis Newton-Raphson(ABNR)最小化法を用いて、さらに最小化されてもよい。システムは、一定体積(NVT)下で徐々に加熱され、一定温度および圧力でシミュレーションされてもよい。粒子メッシュエワルド(PME)法を使用して、ファンデルワールス相互作用のカットオフ距離を使用して、長距離静電を決定することができる。SHAKEアルゴリズムを各シミュレーションで使用して、すべての水素原子に対する結合の長さを制約してもよい。シミュレーションは、結果の再現性に対する精査を可能にするために、各システムに対して実施することができ、速度の初期分布のみで異なる。各シミュレーションの軌道、時間的に変動する原子座標を捕捉してもよい。一実施形態では、各シミュレーションにおける剛体アライメント後の初期構造に対する立体配置的構造の骨格平均二乗偏差(RMSD)は、そのため、立体構造安定性の記述子である計算パラメータとして決定されてもよい。
【0055】
一実施形態では、計算パラメータは、界面予測および抗体-抗原ドッキングを介して決定されてもよい。抗体-抗原接触表面を予測するために、計算方法を採用してもよい。計算方法は、例えば、パラトープ、エピトープ、または抗体-抗原複合体全体を予測してもよい。CDR中の40~50残基の約半分が抗原と直接接触し、パラトープを形成する。Antibody i-Patchなどの統計学的方法では、パラトープの一部となる残基の傾向に関して各残基にスコアを割り当て、高スコア残基は変異誘発の潜在性がある候補を提供する。すべてのパラトープ残基がCDRに制約されるわけではないため、抗原認識に寄与し得るフレームワーク領域内の位置は、計算的に特定することができる。
【0056】
エピトープ予測のための計算方法は、一次アミノ酸配列の連続的な伸長の特定に焦点を当てた線形エピトープの予測因子と、エピトープの3D構成の識別を目的とした立体構造的なエピトープ予測因子とに分けることができる。パラトープおよびエピトープの予測は、抗体-抗原認識に関する有用な情報を提供することができるが、これらの方法は、抗体-抗原結合に関与する特定の相互作用についての情報は提供しない。この問題は、より広範な分子ドッキング分野の特殊応用である、抗体-抗原ドッキングによって対処される。分子ドッキングは、非結合タンパク質から始まる生物学的複合体を予測する。典型的には、その間に数千もの可能性のある複合体の立体構造が生成されるサンプリングステップと、特定のスコアリング関数に従って立体構造をランク付けして、ネイティブ立体構造に近いモデルを識別するスコアリングステップの二つの工程を伴う。
【0057】
一実施形態では、配列分析を介した治療薬の「ヒト化」の評価を通して、計算パラメータが決定されてもよい。現在開発されている抗体の大部分は、動物への免疫付与によって発見される。マウスなどの動物で生成された分子は、抗薬物抗体(ADA)という形態でヒト内で免疫学的応答を誘発するリスクを伴う。このような問題を避けるために、動物由来抗体はヒト化と呼ばれるプロセスを経る。このプロセス中、(典型的には)マウス由来抗体からのCDRをヒトフレームワーク上に移植するか、または別の方法として、マウス由来フレームワークがヒトフレームワークに類似するように操作する。従来、ヒト化は、動物由来配列をおよそ1000個のヒト生殖系列配列と比較してから、適切なテンプレートを選択することを伴う。しかしながら、生殖系列配列は全体的な突然変異的な抗体多様性に対しては限られた視点を提供するに過ぎず、この点については、動物由来治療薬をヒト抗体配列中のアミノ酸の分布と比較する、計算によるヒト化によって対処することができる。一実施形態では、クエリー治療用配列を、ヒト化における参照としての役割を果たす、組換えられた可変領域配列のセットと比較する計算方法を採用してもよい。一実施形態では、クエリー治療用配列のアミノ酸含有量がヒトアミノ酸分布にどの程度近いかを決定することによって、クエリー治療用配列の「ヒトらしさ」を評価する計算方法を採用してもよい。
【0058】
一実施形態では、バイオ医薬品に対して生成された免疫エピトープおよびADAの計算予測を介して、計算パラメータが決定されてもよい。バイオ医薬品に対する免疫応答の生成には、ヒト抗体配列の多様性の再現を超えた複数の工程を必要とする。ヒト化抗体および完全ヒト抗体でさえ、かかる治療を受けている患者において免疫応答を誘発し、それらの患者に対してADAを形成する可能性がある。ADAの形成は多因子的な問題であり、例えば、患者の遺伝的背景、病歴、治療薬中のタンパク質凝集体、および他の分解物に依存し得る。ADA形成の構成要素は、バイオ医薬品に由来する短ペプチド断片の主要組織適合複合体クラスII(MHC II)分子への結合である。したがって、MHC IおよびMHC II結合T細胞エピトープ、ならびに立体構造のB細胞エピトープおよびT細胞エピトープの可能性を特定するために、計算方法を使用してもよい。
【0059】
一実施形態では、治療剤の生物物理特性に関連する計算パラメータを決定してもよい。例えば、抗体溶液のコロイド安定性、濃度依存性粘度挙動、および物理化学的分解などの生物物理特性である。溶解性は、活性の喪失、抗体の分解、または免疫原性につながる可能性のある凝集を回避する。一般的な見地から、タンパク質凝集には、機構的および動態学的という二つの側面がある。機構的側面は、タンパク質の不安定性、および潜在的なAPR、主にタンパク質表面上の疎水性パッチを特定することに焦点を当てるが、これは潜在的に核凝集である可能性がある。計算方法を使用して、例えば、複数の明確に定義された凝集しやすいモチーフ(多くの場合はCDR内に位置する)の存在など、配列分析に従って、バイオ医薬品中のAPRを予測してもよい。これらのCDR内に位置するAPRは、抗原結合に寄与し得る。さらに、配列分析を使用して、タンパク質中の凝集率エンハンサーおよび緩和的変異を特定することができる。溶解性を予測するために、計算方法を使用してもよい。配列分析を使用して、タンパク質中の溶解性およびAPRの一つ以上の予測因子の存在を決定することができる。疎水性を予測するために、計算方法を使用してもよい。疎水性領域の特定は、ホモロジーモデルを使用して行われてもよい。
【0060】
130で、一つ以上の候補予測モデルを決定してもよい。一実施形態では、実験パラメータおよび計算パラメータは、実験パラメータに顕著な影響を与えると決定された計算パラメータに依存する一つ以上の予測モデルを決定するために分析されてもよい。一つ以上の計算法を使用して、例えば、適応型文脈木重み付け、ニューラルネットワーク、CART(分類木および回帰木)、射影追跡回帰、段階的回帰、線形回帰、エラスティックネット、多価モデル、MARS(多変量適応的回帰スプライン)、べき法則、一次グラフィカルLASSO、リッジ回帰および一般加法モデル(GAM)を含む、一つ以上の予測モデルを決定することができる。
【0061】
一実施形態では、段階的重回帰(前方選択、または後方削減を含む)、強制入力、強制除去、および階層的重回帰を使用して、一つ以上の予測モデルを決定してもよい。例えば、重回帰分析を使用して、すべての独立変数(例えば、実験パラメータ)と従属変数(計算パラメータ)との間の関係を確立してもよい。関係は、独立変数の相対的影響を確立する。次に、前方選択(段階的回帰に関連する)を使用して、独立変数の関連性を決定してもよい。前方選択は、式(重回帰に関連する)に独立変数がない状態で開始することができる。従属変数と最も高い相関または影響を示す独立変数を、式に追加してもよい。結果として生じる予測モデルの性能は、評価技術を使用して決定され得る。赤池情報量規準(AIC)、R2、RMS、p値、F比、標準誤差などの評価技術(例えば、「適合度」分析技術)を使用して、関係の性能特性を確立してもよい。例えば、独立変数(例えば、実験パラメータ)によって集合的に説明される、従属変数(例えば、計算パラメータ)の分散率を確立するR2などの技術。R2を使用することで、例えば、どの関係が、独立変数に応答した従属変数の分散を最もよく説明するかに関して評価がなされ得る。AICなどの技術は、試料内予測誤差の推定量として、それゆえ予測モデルの相対的な品質の役目を果たす。
【0062】
前方選択プロセスは反復することができ、別の独立変数(および関連する係数)を式に加えてから、式を評価することができる。すべての独立変数が追加された後、評価指標(例えば、AIC、R2)を比較して、関係を最良に説明する式を決定してもよい。関係を最良に説明する式における変数は、最も関連性の高い変数であると考えられてもよく、他の変数は無視されてもよい。例えば、どの変数構成が最も低いAICをもたらしたかに関して決定がなされてもよく、および/またはどの変数構成が最も高いR2をもたらしたか、またはR2の顕著な改善をもたらしたかに関して決定がなされてもよい。別の例では、独立変数が加えられるたびに、関係を評価して、顕著な改善(例えば、AICがかなりの量減少した)が見られたかどうかを決定してもよい。評価指標が相当な量変化しなかった場合、プロセスは停止されてもよく、現在関係を形成している独立変数が最も関連の高いものと見なされてもよい。
【0063】
後方削減プロセス(段階的回帰に関連する)は、式中の全ての独立変数から始まり、所望の関係を決定するために、前方プロセスと同様に、それらを順次削除する。例えば、独立変数の相対的影響を確立した後、最も影響の低い独立変数を式から削除してもよい。結果として生じるAICが著しく減少しない場合は、プロセスを繰り返すことができる。一つの実施形態では、式を構築するとき、または予測モデルの確立に使用される変数を減らすために、段階的回帰法を使用してもよい。
【0064】
140で、予測モデルが、工程130で生成された候補予測モデルから選択されてもよい。一実施形態では、予測モデルを選択するために、一個抜き交差検証(LOOCV)などの検証技術を使用してもよい。LOOCVは、データ点がデータセットから体系的に除外され、その後、残りのデータ点から導出された関係によってそのエンドポイント値が予測される方法である(本明細書に参照により組み込まれるCramer et al.,Quant.Struct-Act.Relat.7:18-25,1998を参照)。相互検証は、特に検証データセットが利用できない場合に、関係の信頼性を判断するのに有用である。実験値からの予測LOOCV値の誤差の平均および標準偏差を、予測モデルを比較および選択するための基準として使用してもよい。
【0065】
選択されると、予測モデルには、新規の計算パラメータが提示され、実験パラメータに関連する予測を行うことができる。例えば、予測モデルは、mAb溶液粘度に関連する実験パラメータ、およびmAb残基の電荷値に関連する計算パラメータに従って訓練されてもよい。予測モデルは、予測モデルが訓練されたタイプの計算パラメータと共に提示されてもよく、予測モデルは、予測モデルが訓練された実験パラメータに関連する予測を行う。
【0066】
例えば、予測モデルは、複数のmAb溶液から成る粘度測定値を通して生成される実験パラメータに従って生成され得る。粘度測定値は、粘度計の使用を介して取得され得る。ホモロジーモデルは、計算的に生成され、mAbの残基に関連する電荷値を決定するために使用され得る。電荷値は、表面が露出した残基であると残基が決定されるかどうかに基づいて、重み付けされてもよい。電荷値および/または重み付けされた電荷値は、計算パラメータとして使用されてもよい。予測モデルは、実験パラメータおよび計算パラメータに従って生成され得る。予測モデルは、粘度を示すスコアを生成するように構成されてもよい。予測モデルが訓練されていないmAb(例えば、入力mAb)をモデル化して、電荷値/重み付けされた電荷値を生成してもよい。
【0067】
電荷値および/または重み付けされた電荷値は、入力mAbに関連する粘度を示すスコアを生成する予測モデルに提供されてもよい。例えば、予測モデルは、複数のmAb溶液から成る凝集測定値を通して生成される実験パラメータに従って生成され得る。凝集測定値は、動的光散乱の使用を介して取得されてもよい。ホモロジーモデルは、計算的に生成され、mAbの残基に関連する電荷値を決定するために使用され得る。電荷値は、表面が露出した残基であると残基が決定されるかどうかに基づいて、重み付けされてもよい。電荷値および/または重み付けされた電荷値は、計算パラメータとして使用されてもよい。予測モデルは、実験パラメータおよび計算パラメータに従って生成され得る。予測モデルは、凝集を示すスコアを生成するように構成されてもよい。予測モデルが訓練されていないmAb(例えば、入力mAb)をモデル化して、電荷値/重み付けされた電荷値を生成してもよい。電荷値および/または重み付けされた電荷値は、入力mAbに関連する凝集を示すスコアを生成する予測モデルに提供されてもよい。
【0068】
一部の態様では、最適な予測モデルに計算導出データを提供し、最適な予測モデルに基づいて、クエリーmAbに関連する粘度スコアを決定した後、粘度スコアに基づいて、例えば、クエリーmAbに関連する溶液の粘度低下剤量を調節するなど、開発中の薬剤候補の特定の課題を軽減するために、適切な製剤組成物またはタンパク質工学戦略を調節することができる。一部の態様では、粘度スコアに加えて、または粘度スコアの代わりに、凝集スコアに対しても同じことを実施できる。対象mAbに対して高い粘度スコアと凝集スコアが計算される場合、様々な製剤開発またはタンパク質工学戦略を設計することができる。一部の態様では、高い凝集スコアと粘度スコアは、コロイド相互作用および立体構造的な相互作用の組み合わせによって決定され得る分子間相互作用の存在を示す可能性がある。一般に安全と認められる(GRAS)様々な賦形剤が、コロイド不安定性および立体構造の不安定性を安定化させることが既知であり、このような賦形剤の組み合わせを利用してmAb構造を安定化し、粘度を低減することができる。一部の態様では、高粘度スコアと低凝集スコアは、分子間相互作用が一過性であり、主にコロイド相互作用によって決定されることを示し得る。ここでも、溶液中のmAb間の静電気的相互作用および疎水性相互作用を減少させるための、様々なGRAS賦形剤が既知である。一部の態様では、タンパク質工学を使用して、このような相互作用に関与する特定のアミノ酸を置換することもできる。一部の態様では、高凝集スコアと低粘度スコアは、立体構造の不安定化を要因とする凝集を主に示し得る。スクロース、様々なジオールおよび塩などの賦形剤が、立体構造的にタンパク質構造を安定化させることが示されており、このような場合に使用することができる。
【0069】
ここで図2を参照すると、予測モデルを生成するための追加の方法が説明されている。説明された方法は、訓練モジュール220による一つ以上の訓練データセット210の分析に基づいて、任意の抗体に対するタンパク質粘度スコアおよび/またはタンパク質凝集スコアを予測するように構成されている少なくとも一つのMLモジュール230を訓練するために機械学習(「ML」)技術を使用してもよい。
【0070】
訓練データセット210は、抗体溶液の粘度および/または抗体凝集の直接測定に関連する実験パラメータを含んでもよい。実験パラメータは、対応する抗体に関連する計算パラメータと関連する。計算パラメータは、計算モデリングを介して、決定された対応する抗体上にある残基の電荷値に関連してもよい。例えば、第一のmAb溶液の粘度の測定は、第一のmAbの電荷値に関連してもよい。こうしたデータは、本明細書で説明する実験データおよび/または計算導出データから全体的または部分的に導出され得る。
【0071】
計算パラメータに関連する実験パラメータのサブセットは、訓練データセット210または試験データセットに無作為に割り当てられてもよい。一部の実施では、訓練データセットまたは試験データセットへのデータの割り当ては完全に無作為ではない場合がある。この場合、一つ以上の基準が、割り当て中に使用され得る。一般に、任意の好適な方法を使用して、データを訓練データセットまたは試験データセットに割り当ててもよい一方で、はいおよびいいえの標識分布が、訓練データセットおよび試験データセットにおいていくらか類似していることを保証し得る。
【0072】
訓練モジュール220は、一つ以上の特徴選択技術により、訓練データセット210における計算パラメータ(例えば、実験パラメータにより標識化)から特徴セットを抽出することによって、MLモジュール230を訓練してもよい。訓練モジュール220は、統計的に有意な特徴を含む訓練データセット210から特徴セットを抽出することによって、MLモジュール230を訓練してもよい。
【0073】
訓練モジュール220は、様々な方法で、訓練データセット210から特徴セットを抽出してもよい。訓練モジュール220は、異なる特徴抽出技術を使用して、各回に特徴抽出を複数回実施し得る。一例では、異なる技術を使用して生成される特徴セットは各々が、異なる機械学習ベースの分類モデル240を生成するために使用され得る。例えば、最も高い品質の測定基準を伴う特徴セットが、訓練における使用のために選択され得る。訓練モジュール220は、特徴セットを使用して、新しいmAb(例えば、未知の粘度および/または未知の凝集を有する)の計算された粘度および/または計算された凝集スコアを示すように構成される、一つ以上の機械学習ベースの分類モデル240A~240Nを構築してもよい。
【0074】
訓練データセット210を分析して、訓練データセット210における特徴と実験パラメータの間の任意の依存性、関連性、および/または相関を決定してもよい。識別された相関は、特徴のリストの形態を有してもよい。本明細書で使用される場合、用語「特徴」は、データのある項目が、一つ以上の特定のカテゴリー内にあるか否かを決定するために使用され得るデータの項目の任意の特徴を指し得る。例として、本明細書に記載される特徴は、ZVL(V領域に対する電荷)、ZVH(V領域に対する電荷)、ZCL(C領域に対する電荷)、ZCH1(C1領域に対する電荷)、ZHinge(ヒンジ領域に対する電荷)、ZCH2(C2領域に対する電荷)、ZCH3(C3領域に対する電荷)、ZmAb(合計電荷)、Z VL(V領域に対する溶媒露出面積(SAS)調整後電荷)、Z VH(V領域に対するSAS調整後電荷)、Z CL(C領域に対するSAS調整後電荷)、Z CH1(C1領域に対するSAS調整後電荷)、Z Hinge(ヒンジ領域に対するSAS調整後電荷)、Z CH2(C2領域に対するSAS調整後電荷)、Z CH3(C3領域に対するSAS調整後電荷)、HI(疎水性指標)、DmAbまたはDFab(全双極子モーメント)、pISequence(配列ベースpI)、pIStructure(構造ベースpI)、AP(予測凝集傾向)、および/またはRMSD(立体構造変化の平均二乗偏差)のうちの一つ以上を含んでもよい。
【0075】
特徴選択技術は、一つ以上の特徴選択ルールを含み得る。一つ以上の特徴選択ルールは、特徴発生ルールを含み得る。特徴発生ルールは、訓練データセット210においていずれの特徴が閾値の回数にわたって生じるかを決定すること、および閾値を満たすそれらの特徴を、特徴として特定することを含み得る。
【0076】
単一の特徴選択ルールを、特徴を選択するために適用してもよく、または複数の特徴選択ルールを、特徴を選択するために適用してもよい。特徴選択ルールは、カスケード方式で適用されてもよく、特徴選択ルールは、特定の順序で適用され、以前のルールの結果に適用される。例えば、特徴発生ルールは、訓練データセット210に適用されて、特徴の第一のリストを生成し得る。特徴の最終リストは、一つ以上の特徴群(例えば、粘度および/または凝集を予測するために使用され得る特徴の群)を決定するためのさらなる特徴選択技術により分析されてもよい。任意の好適な計算技術を使用して、フィルター方法、ラッパー方法、および/または埋め込み方法などの任意の特徴選択技術を使用して、特徴群を特定し得る。一つ以上の特徴群は、フィルター方法に従い選択されてもよい。フィルター方法には、例えば、ピアソンの相関、線形判別分析、分散分析(ANOVA)、カイ二乗、それらの組み合わせなどが含まれる。フィルター方法に従った特徴の選択は、任意の機械学習アルゴリズムから独立している。代わりに、特徴は、転帰変数との相関について、様々な統計検定におけるスコアに基づいて選択され得る。
【0077】
別の例として、一つ以上の特徴群は、ラッパー方法により選択されてもよい。ラッパー方法は、特徴のサブセットを使用し、特徴のサブセットを使用して機械学習モデルを訓練するように構成され得る。以前のモデルから引き出された推論に基づいて、特徴は、サブセットから追加および/または削除され得る。ラッパー方法は、例えば、前方特徴量選択、後方特徴量削減、再帰的特徴量削減、それらの組み合わせなどを含む。一例として、前方特徴量選択を使用して、一つ以上の特徴群を識別してもよい。前方特徴量選択は、機械学習モデルにおける特徴なしに始まる反復方法である。各反復において、モデルを最良に改善する特徴が、新たな変数の追加によって機械学習モデルの性能が改善されなくなるまで加えられる。一例として、後方削減を使用して、一つ以上の特徴群を識別してもよい。後方削減は、機械学習モデルにおける全ての特徴で始まる反復方法である。各反復では、最下位の特徴が、特徴の削除時に改善が観察されなくなるまで除去される。再帰的特徴量削減を使用して、一つ以上の特徴群を識別してもよい。再帰的特徴量削減は、性能が最良である特徴サブセットを見出すことを目指す貪欲最適化アルゴリズムである。再帰的特徴量削減によって、モデルが反復的に作成され、各反復で最良または最悪の性能の特徴を別にしておく。再帰的特徴量削減によって、全ての特徴が消耗するまで、特徴が残っている次のモデルが構築される。再帰的特徴量削減によって、次に、それらの削減の順序に基づいて特徴がランク付けされる。
【0078】
さらなる例として、一つ以上の特徴群は、埋め込み方法により選択されてもよい。埋め込み方法によって、フィルター方法とラッパー方法の質が組み合わされる。埋め込み方法には、例えば、過学習を低下させるためのペナルティ機能を実施する、最小絶対収縮および選択演算子(LASSO)およびリッジ回帰が含まれる。例えば、LASSO回帰によって、係数の大きさの絶対値に相当するペナルティを加えるL1正則化が実施され、リッジ回帰によって、係数の大きさの二乗に相当するペナルティを加えるL2正則化が実施される。
【0079】
訓練モジュール220によって特徴セットが生成された後、訓練モジュール220によって、特徴セットに基づいて、機械学習ベースの分類モデル240が生成され得る。機械学習ベースの分類モデルは、機械学習技術を使用して生成される、データ分類のための複雑な数学的モデルを指し得る。一例では、機械学習ベースの分類モデル240は、境界特徴を表すサポートベクトルのマップを含み得る。この例では、境界特徴は、ある特徴セット内の最高ランクの特徴から選択されても、かつ/またはそれらを表してもよい。
【0080】
訓練モジュール220は、機械学習ベースの分類モデル240A~240Nを構築するために訓練データセット210から決定または抽出された特徴セットを使用してもよい。いくつかの例では、機械学習ベースの分類モデル240A~240Nを、単一の機械学習ベースの分類モデル240に組み合わせてもよい。同様に、MLモジュール230は、単一もしくは複数の機械学習ベースの分類モデル240を含有する単一の分類器、および/または単一もしくは複数の機械学習ベースの分類モデル240を含有する複数の分類器を表し得る。
【0081】
特徴を、機械学習アプローチ、例えば判別分析;決定木;最近傍(NN)アルゴリズム(例えば、k-NNモデル、レプリケーターNNモデルなど);統計アルゴリズム(例えば、ベイジアンネットワークなど);クラスタリングアルゴリズム(例えば、k平均値、平均値シフトなど);ニューラルネットワーク(例えば、リザーバネットワーク、人工ニューラルネットワークなど);サポートベクトル機械(SVM);ロジスティック回帰アルゴリズム;線形回帰アルゴリズム;マルコフモデルまたはチェーン;主成分分析(PCA)(例えば、線形モデルについて);多層パーセプトロン(MLP)ANN(例えば、非線形モデルについて);リザーバネットワークの複製(例えば、非線形モデルについて、通常は時系列について);ランダムフォレスト分類;それらの組み合わせおよび/または同様のものを使用して訓練された分類モデルにおいて組み合わせてもよい。得られたMLモジュール230は、抗体の粘度および/または凝集を決定するための各特徴の決定ルールまたはマッピングを含み得る。
【0082】
一実施形態では、訓練モジュール220は、畳み込みニューラルネットワーク(CNN)として機械学習ベースの分類モデル240を訓練してもよい。CNNは、少なくとも一つの畳み込み特徴層および最終の分類層(softmax)につながる三つの完全に連結した層を含む。最終の分類層を最終的に適用して、当該技術分野で公知のsoftmax関数を使用して、完全に結び付けられた層の出力を組み合わせてもよい。
【0083】
特徴(複数可)およびMLモジュール230は、試験データセット中の実験パラメータから粘度および/または凝集を予測するために使用され得る。一例では、各配列の予測結果は、試験データセット中のmAbの計算パラメータが、低/高粘度および/または低/高凝集に関連する尤度または確率に対応する信頼レベルを含む。信頼レベルは、0と1との間の値であり得る。一例では、二つの状態(例えば、低および高)があるとき、信頼レベルは、値pに対応してもよく、それは、特定のmAbが、第一の状態(例えば、低)に属する尤度を指す。この場合では、値1-pは、特定の配列が、第二の状態(例えば、高)に属する尤度を指し得る。一般に、複数の信頼レベルは、試験データセットの各mAbについて、および三つ以上の状態がある場合、各特徴について提供され得る。最も高性能の特徴は、各試験mAbについて得られた結果を、各試験mAbについての公知の実験パラメータと比較することによって決定されてもよい。一般に、最も高性能の特徴は、公知のはい/いいえプロモーター状態と密接に一致する結果を有するであろう。性能が最も高い特徴は、mAbの粘度および/または凝集状態を予測するために使用され得る。
【0084】
図3は、訓練モジュール220を使用して、MLモジュール230を生成するための例となる訓練方法300を説明するフローチャートである。訓練モジュール220によって、教師あり、教師なし、および/または半教師あり(例えば、補強ベース)の機械学習ベースの分類モデル240を実施することができる。図3に例証する方法300は、教師あり学習方法の例であり、訓練方法のこの例の変形を以下で考察するが、しかし、他の訓練方法は、教師なしおよび/または半教師ありの機械学習モデルを訓練するために類似的に実施することができる。
【0085】
訓練方法300は、工程310においてデータを決定(例えば、アクセス、受信、検索など)してもよい。データは、抗体溶液の粘度および/または抗体凝集の直接測定に関連する実験パラメータを含み得る。実験パラメータは、対応する抗体に関連する計算パラメータに関連する。計算パラメータは、計算モデリングを介して、決定された対応する抗体上にある残基の電荷値に関連してもよい。
【0086】
訓練方法300は、工程320において、訓練データセットおよび試験データセットを生成してもよい。訓練データセットおよび試験データセットは、計算パラメータおよび関連する実験パラメータを訓練データセットまたは試験データセットのいずれかに無作為に割り当てることによって、生成されてもよい。一部の実施では、訓練または試験データとしての計算パラメータおよび関連する実験パラメータの割り当ては、完全に無作為ではない場合がある。一例として、計算パラメータおよび関連する実験パラメータの大部分を使用して、訓練データセットを生成してもよい。例えば、計算パラメータおよび関連する実験パラメータの75%を使用して、訓練データセットを生成してもよく、25%を使用して、試験データセットを生成してもよい。別の例では、計算パラメータおよび関連する実験パラメータの80%を使用して、訓練データセットを生成してもよく、20%を使用して、試験データセットを生成してもよい。
【0087】
訓練方法300は、工程330において、例えば、粘度および/または凝集状態(例えば、低と高)の異なる分類の中で区別するために分類器によって使用することができる一つ以上の特徴を決定(例えば、抽出、選択など)してもよい。一例として、訓練方法300は、計算パラメータおよび関連する実験パラメータから特徴のセットを決定し得る。さらなる例では、特徴のセットは、訓練データセットまたは試験データセットのいずれかにおいて、計算パラメータおよび関連する実験パラメータとは異なるデータから決定されてもよい。こうした計算パラメータおよび関連する実験パラメータまたは他のデータは、特徴の初期セットを決定するために使用されてもよく、これは訓練データセットを使用してさらに低減され得る。
【0088】
訓練方法300によって、工程340で、一つ以上の特徴を使用して、一つ以上の機械学習モデルが訓練され得る。一例では、機械学習モデルは、教師あり学習を使用して訓練され得る。別の例では、教師なし学習および半教師ありを含む、他の機械学習技術が用いられてもよい。340で訓練された機械学習モデルは、解決される問題および/または訓練データセットで利用可能なデータに応じて、異なる基準に基づいて選択され得る。例えば、機械学習分類器は、異なる程度のバイアスを受け得る。したがって、二つ以上の機械学習モデルを、340で訓練し、工程350で最適化し、改善し、相互検証することができる。
【0089】
訓練方法300は、360で予測モデルを構築するために、一つ以上の機械学習モデルを選択し得る。予測モデルは、試験データセットを使用して評価してもよい。予測モデルは、試験データセットを分析し、工程370において予測される粘度および/または凝集状態を生成してもよい。予測される粘度および/凝集状態を、工程380において評価して、こうした値が、所望の精度レベルを達成したかどうかを決定することができる。予測モデルの性能は、予測モデルによって示される複数のデータ点の多数の真陽性、偽陽性、真陰性、および/または偽陰性の分類に基づいて、多数の方法で評価され得る。
【0090】
例えば、予測モデルの偽陽性は、予測モデルが、実際には高粘度または高凝集であるmAbを、誤って低粘度または低凝集として分類した回数を指し得る。逆に、予測モデルの偽陰性は、機械学習モデルが、実際にはmAbが低粘度または低凝集であるmAbを、高粘度または高凝集として分類した回数を指し得る。真陰性および真陽性は、予測モデルによって一つ以上のmAbが正しく分類された回数を指し得る。これらの測定に関連するのは、想起および精度の概念である。一般に、想起とは、真陽性および偽陰性の合計に対する真陽性の比率を指し、それによって予測モデルの感度が定量化される。同様に、精度は、真陽性と偽陽性との合計の正陽性の比を指す。このような所望の精度レベルに達すると、訓練期が終了し、予測モデル(例えば、MLモジュール230)が、工程390において出力されてもよく、しかしながら、所望の精度レベルに達していないとき、訓練方法300のその後の反復は、例えば、配列データのより大きな収集を考慮するなどの変動を伴って、工程310において開始して行われてもよい。
【0091】
図4は、mAbが低粘度および/または低凝集に関連するかどうかを決定するために、機械学習ベースの分類器を使用するための例示的なプロセスフローの図である。図4に示すように、mAb 410の未分類の計算パラメータを、MLモジュール230への入力として提供してもよい。MLモジュール230は、機械学習ベースの分類器(複数可)を使用してmAb 410の未分類の計算パラメータを処理して、予測結果420に到達してもよい。
【0092】
予測結果420は、mAb 410の未分類の計算パラメータの一つ以上の特性を識別し得る。例えば、分類結果420は、mAb 410の未分類の計算パラメータの粘度および/または凝集状態を識別し得る(例えば、mAbが低/高粘度および/または低/高凝集を有するかどうか)。
【実施例
【0093】
A.医薬品開発を促進するためのタンパク質溶液粘度および凝集傾向のコンピュータ利用予測モデル
本試験では、以下の二つの予測モデルを開発した。(1)16個のIgG1抗体とIgG4抗体の混合物の粘度値を実験的に測定することと、対応する抗体の計算的な完全抗体ホモロジーモデリングによる、溶液粘度の予測モデル、および(2)加速熱応力で高分子量(HMW)種形成を実験的に測定することと、対応するFab領域の計算的な抗原結合断片(Fab)ホモロジーモデリングおよびMDシミュレーションによる、凝集傾向の予測モデル。本試験のアプローチは、露出した残基の相対的溶媒露出面積(SAS)に基づいて、重み係数によってホモロジーモデル中の各残基の電荷を調整することである。機械学習アルゴリズムの助けを借りて、ホモロジーモデルおよびMDシミュレーションからそれぞれ得られた、計算された静電パラメータおよび疎水性パラメータ、ならびに立体構造変化を評価し、タンパク質溶液の粘度および凝集傾向についての堅牢な予測モデルを構築した。
【0094】
1.方法
i.タンパク質溶液の粘度測定
150mg/mLのタンパク質濃度、10mMのヒスチジン緩衝液、pH6.0で製剤化された、16つのIgG1抗体溶液およびIgG4抗体溶液であるmAb1~mAb16を、粘度測定用に調製した。溶液の動的粘度を、m-VROC粘度計(Rheosense、カリフォルニア州サンラモン)を用いて、せん断速度1420S-1かつ100μL/分の速度で、20℃で測定した。3回の粘度測定値を100秒間にわたって記録した。
【0095】
ii.浸透圧二次ビリアル係数(B22)測定
抗体試料を、対応する緩衝液で希釈して、10mg/mLの最終タンパク質濃度に到達させた。その後、試料を0.22μmのMillex-GVシリンジフィルターユニット(EMD Millipore、マサチューセッツ州ビルリカ)を通して濾過した。トリプルシリンジポンプCalypso-II試料調製および送達ユニット(Wyatt Technology社、カリフォルニア州サンタバーバラ)を有する完全自動化された組成勾配多角度静的光散乱(CG-MALS)装置を使用して、室温での光散乱を測定した。658nmレーザーおよびOptilab Rex屈折率検出器(Wyatt Technology、カリフォルニア州サンタバーバラ)を備えたMini Dawn Treos光散乱装置(Wyatt Technology、カリフォルニア州サンタバーバラ)を使用して、光散乱とタンパク質濃度の両方を測定した。レイリー比光散乱強度を、2~8mg/mLのタンパク質濃度範囲にわたって得た。光散乱およびタンパク質濃度のデータを、Astra 6.1ソフトウェア(Wyatt Technology社、カリフォルニア州サンタバーバラ)を使用してB22値を推定するために、非理想溶液のビリアル展開である式1に適合させた。
【0096】
【数4】
【0097】
θはレイリー比、Mは分子量、cはタンパク質濃度(mg/mL)である。B22は、データフィッティング中に制約されずに残る浸透圧二次ビリアル係数を示す。B22は、希釈溶液中のタンパク質分子間の分子間相互作用に関して有用な洞察を提供する。B22の負の値は、タンパク質分子間の全体的な相互作用が魅力的であることを示し、一方、正の値は、全体的な相互作用が反発的であることを示す。式1のKは、式2によって記述される光学定数である。
【0098】
【数5】
【0099】
nは溶媒の屈折率(1.33)、Nはアボガドロ数(mol-1)、dn/dcはタンパク質/溶媒対の屈折率の増分(0.185mL/g)、λは真空中の入射光の波長である。
【0100】
iii.拡散相互作用パラメータ(K)測定
抗体溶液を10mMヒスチジン緩衝液(pH6.0)で希釈し、10、5、2.5、および0.1mg/mLのタンパク質濃度で各mAbの試料を調製した。MAb1は、材料の利用可能性が限られているため、K測定から除外された。試料を12,000×gで5分間遠心分離し、分析して溶液中のマイクロバブルを除去した。DynaProプレートリーダー(Wyatt Technology社、カリフォルニア州サンタバーバラ)を使用して、光散乱(DLS)を測定した。15秒間の測定を15回実施して収集し、平均して、各試料の拡散係数を決定した。相互作用パラメーターKを、以下の式に基づいて計算した:
【0101】
【数6】
【0102】
式中、Dは、任意のタンパク質濃度cにおける拡散係数であり、Dは、cが0に近い場合の拡散係数を表す。図5は、例としてmAb4を使用して、様々なタンパク質濃度での拡散係数に線を適合させることに基づいてKがどのように計算されたかを示す。
【0103】
iv.計算によるホモロジーモデリング
16個のIgG1抗体およびIgG4抗体の完全抗体およびFabホモロジーモデルを、BIOVIA Discovery Studio 2017 R2を介して構築した。IgG1抗体およびIgG4抗体は、それぞれ1HZHおよび5DK3のタンパク質データバンク(PDB)結晶構造をテンプレートおよびその提供された遺伝子配列として使用して、モデル化された。完全抗体モデルは、タンパク質粘度の予測モデルを開発するため、後で使用した物理的特性を計算するために構築された。一方、Fabモデルは物理的特性を計算するために使用され、最終的には、MDシミュレーションにおいて凝集傾向の予測モデルを開発するために使用された。抗体構造をモデル化するためのフレームワークは、Kemmishらにより詳細に記載されている。次いで、抗体構造のエネルギーを、200ステップでCHARMM力場を用いた幾何学最適化により最小化した。構造をpH6.0でプロトン化し、続いて残基の電荷および平均双極子モーメントを計算した。
【0104】
v.計算されたパラメータ
軽鎖および重鎖の両方の可変領域および定常領域を含む抗体の全領域に対する電荷(完全抗体モデルではZVL、ZVH、ZCL、ZCH1、ZHinge、ZCH2、ZCH3、ZTotal、FabモデルではZVL、ZVH、ZCL、ZCH1、ZTotal)を、計算によるホモロジーモデリングの項に記載される手順を用いて計算した。各残基の実効電荷は、対応する抗体のホモロジーモデル内におけるその残基の相対的溶媒露出面積(SAS)を考慮することによって調整された。このアプローチでは、使用されているモデルに応じて、各残基に対する電荷に対して、完全抗体またはFabのいずれかの合計SASに対する残基のSASを使用して計算された重み係数で乗算した。例えば、可変軽鎖では、各残基に対する調整後電荷は、式3を使用して計算され、この領域に対する合計SAS調整後電荷は、式4を使用して計算された。これらのSAS調整後電荷は、完全モデルではZ VL、Z VH、Z CL、Z CH1、Z Hinge、Z CH2、Z CH3、Z Total、FabモデルではZ VL、Z VH、Z CL、Z CH1、Z Totalとして標識される。
【0105】
【数7】
【0106】
式中、i=可変軽鎖(VL)中の任意の残基、およびn=指定される抗体の完全モデルまたはFabモデル中の残基数。
【0107】
【数8】
【0108】
式中、m=可変軽鎖(VL)中の残基数。
可変断片(Fv)の疎水性指標(HI)は、Sharmaらが説明する方法を用いて、
【0109】
【数9】
【0110】
として計算され、式中、iは疎水性アミノ酸を表し、例えば、A、C、F、G、I、L、M、P、V、W、Yであり、jは親水性アミノ酸を表し、例えば、D、E、H、K、N、Q、R、S、Tであり、nは、各アミノ酸の数であり、Eは各アミノ酸のEisenbergスケール値である。上述のように、完全モデルおよびFabモデルの平均双極子モーメントを、pH6.0のプロトン化構造で計算した。本試験で使用した抗体の等電点(pI)は、構造ホモロジーモデルおよび配列の両方から計算した。原子ごとの凝集傾向(AP)スコアは、10Åの半径における露出された疎水性残基のCHARMM力場およびSASパッチに基づいて計算される。各mAbの合計凝集スコアは、完全モデルまたはFabモデルのいずれかにおけるすべての残基の凝集スコアの総和として計算される。完全抗体およびFabモデルにおける計算パラメータの包括的リストは、表1に見出すことができ、各mAbに対するこれらの計算パラメータの値は、完全抗体モデルについては図6A図6B、Fabモデルについては図7に列挙されている。
【0111】
表1.完全抗体モデルにおいて実験的に測定された粘度値と各計算パラメータとの間、およびFabモデルにおける一日当たりの実験的に測定された高分子量種形成速度(%ΔHMW/日)と各計算パラメータとの間の線形回帰から得らえた相関係数(R)
【0112】
i.タンパク質粘度の数学的予測モデリング
実験粘度値および計算されたパラメータは、それぞれ、依存変数および独立変数として、段階的回帰アルゴリズムに供された。このアルゴリズムは、有意なパラメータを追加し、パラメータのリストから有意でないパラメータを除去することによって、新しい線形回帰モデルを生成し、赤池情報量規準(AIC)に基づいて生成されたモデルを比較するが、AICは、モデル内の推定パラメータの数と、そのモデルの尤度関数の最大値に基づいて、任意のデータセットの統計モデルの相対的な品質の推定器である。より多くのモデルを生成するためにウィルキンソンの表記法におけるパラメータの組み合わせも考慮された。結果は、それらのR、p値、および実験値からの予測粘度スコア(PVS)の誤差の平均および標準偏差に基づいて一緒に比較できる、可能性のある予測モデルである。さらに、モデルを、予測不可能なデータセットを予測する際のモデルの有効性を確保するために、一個抜き交差検証(LOOCV)法によって評価した。LOOCVは、一度に一つのmAbを訓練セットから除外し、除外されたデータ点を予測する際のモデルの堅牢性を評価した。この解析を、毎回異なるmAbの計算されたデータおよび実験データを除外することによって、各モデルにつき16回繰り返した。実験値からの予測LOOCV粘度スコアの誤差の平均および標準偏差を、モデルを比較するための別の基準として使用した。スクリプトは、ハイスループット自動パイプラインでの予測モデルの構築を容易にするために、R環境で開発された。
【0113】
ii.加速熱応力安定性、凝集動態の測定
加速安定性試験は、製薬会社で製剤開発中に定期的に実施される。本試験では、粘度試験に使用した14個のmAb試料を、40℃および相対湿度75%で、0、7、14、28日間インキュベートすることによって、全体的な安定性に対する熱応力の効果を評価した。mAb9およびmAb16は材料の利用可能性が限定されたため、これらの二つの候補は、凝集傾向の予測モデル開発のための現在のデータセットから除外された。サイズ排除クロマトグラフィー(SEC)を使用して、高分子量(HMW)種形成の量を測定した。7、14、28日間のHMW形成の相対的割合である%ΔHMWを、0日と比較することによって計算した。さらに、1日あたりの%ΔHMW形成の速度を、28日間のデータ点を28で割った%ΔHMWに基づいて計算した。
【0114】
iii.分子動力学(MD)シミュレーション
凝集傾向の予測モデルにFab領域の立体構造変化を含めるために、FabモデルのMDシミュレーションを利用した。14個の抗体の最小化されたFab構造の原子は、各残基をそのテンプレートに構造的にマッチングすることによって、CHARMM36力場パラメータに割り当てた。これらの構造は、次いで、TIP3P水分子の切頂八面体ボックス内で明示的に溶媒和された。対イオンであるNaおよびClを、明示的に溶媒和されたシステムに添加し、イオン濃度0.145mol/Lでシステムを中和した。各シミュレーションで、1000ステップの最急降下アルゴリズムを用いてシステムのエネルギーを最初に最小化し、その後、ABNRを用いてさらに2000ステップの最小化を行い、システム内の大きなひずみを除去した。システムは、2.0fsの時間ステップで、一定体積(NVT)アンサンブル下で、50Kの間隔で、4psで50.0から300.0Kまで徐々に加熱された。次いで、各システムを、1.0barの等方圧力下で、300.0Kの目標温度かつ2.0fsの時間ステップで、10psの間さらに平衡化した。最後に、各システムを、恒温300.0Kかつ1.0barの圧力で、2.0fsの時間ステップで2000ps(すなわち2.0ns)にわたりシミュレーションした。
【0115】
粒子メッシュエワルド(PME)法を使用して、ファンデルワールス相互作用の10Åカットオフ距離を使用して、長距離静電を使用した。SHAKEアルゴリズムを各シミュレーションに適用し、すべての水素原子に対する結合の長さを制約して、2.0fsの時間ステップを可能にした。2.0nsの三回のシミュレーション(全体としては6.0ns)は、結果の再現性に対する精査を可能にするために、各システムに対して実施することができ、速度の初期分布のみで異なっていた。各シミュレーションの軌道、時間変動する原子座標は、1.0psごとに捕捉された(すなわち、各シミュレーションについて全体で2000の立体構造)。各シミュレーションにおける剛体アライメント後の初期構造に対する立体配置的構造の骨格平均二乗偏差(RMSD)を、立体構造安定性の記述子として計算した。
【0116】
iv.凝集傾向の数学的予測モデリング
前述したように、タンパク質凝集は、コロイド安定性(すなわち、分子間相互作用)および立体構造安定性(すなわち、タンパク質構造の変化)の集団効果である。凝集傾向の予測モデルを構築するために、HMW形成の実験速度(すなわち、%ΔHMW/日)、コロイド安定性の記述子としてのFabモデル(表1)の物理的計算パラメータ、および立体構造安定性の記述子としてのMDシミュレーションにおける平均化RMSDを、粘度の項で記載するのと同じプロトコルにおいて使用した。要約すると、段階的回帰アルゴリズムを使用して、コロイドおよび立体構造の計算パラメータを測定された凝集動態と相関させる、最も統計的に有意なモデルを作成した。これらのモデルを、AIC数、p値、R、調整後R、絶対誤差の平均および標準偏差、LOOCVの性能、および抗体構造の構造的対称性に従って、互いに比較した。
【0117】
2.結果
i.タンパク質溶液の粘度
粘度値を、150mg/mLのタンパク質濃度で16個のmAbについて測定した。全体的に、粘度値は、5.5~32.0cPの範囲の広範な分布を示す(表2および図8)。データセットによると、IgG1抗体は、IgG4候補と比較してより低い粘度値を示す傾向がある(図8)。
【0118】
表2.本試験で使用した16個のmAbについての、測定された粘度および計算された予測粘度スコア(PVS)値。粘度値は、150mg/mLのタンパク質濃度、10mMヒスチジン緩衝液、pH6.0の製剤で測定された。PVS値は、式5に基づいて計算された。PVS値と測定された粘度値との間の絶対誤差を計算した。PVSおよび一個抜き交差検証(LOOCV)法における絶対誤差も示されている。
【0119】
ii.B22とKDは相互に強い相関を示すが、粘度との相関は示さない
浸透圧二次ビリアル係数(B22)および拡散相互作用パラメータ(K)を、それぞれ16個および15個のmAbについて測定した。現在のデータセットについては、B22値は-1.461×10-05~2.939×10-04mol ml g-2の間で変化し、K値は-11.604~61.114mL/gの間で変化する(図9A~9C)。データセットに基づいて、IgG1抗体は、IgG4候補と比較して、より高い正のB22値とK値を示す傾向がある。B22値およびK値は、現在のデータセットについて互いに強く相関し、線形相関係数(R)は0.99である(図9A~9C)。この観察内容は、同分野の他の研究者により以前に発表された研究と一致している。
【0120】
22およびK測定は両方とも、ペアワイズ相互作用の尺度であり、主に希釈濃度で優勢であった。しかし、濃度が上昇するにつれて、複数の分子が関与するより高位の相互作用もまた、溶液粘度に大きく寄与する。したがって、希釈溶液で測定されたB22値およびK値は、高濃度でのタンパク質間相互作用の直接的な尺度ではない。しかしながら、文献では、高いタンパク質濃度での粘度値の予測因子として希釈濃度でのB22値およびKd値を使用することの有効性に関して、議論がなされている。これを評価するために、B22またはKのいずれかと測定された粘度値との間の線形相関を決定した(図10A~10B)。データセットに基づくと、B22またはKのいずれかと粘度値の間には、方向性の減少傾向(すなわち、負の相関)があるが、強い相関はない(図10A~10B)。したがって、B22およびKは、mAb濃度が上昇するときには、タンパク質溶液の粘度を予測するには不十分である。
【0121】
iii.単一の選択された各計算パラメータが全体的な粘度値の予測に寄与
16個のmAbの完全抗体ホモロジーモデルからの測定された粘度値と計算されたパラメータとの間の回帰線から得られた線形相関係数(R)値を、表1に示す。さらに、図11A図11Cは、実験粘度値と計算されたパラメータとの間の線形関係のプロットを示す。相関R値は-0.68~0.54の間で変化する。最終予測モデルで使用される計算されたパラメータ(すなわち、Z VL、Z CL、Z Hinge、Z CH2、Z CH3、HI)は、数学的モデリングの項に記載される段階的プロトコルおよび抗体の構造的対称性に基づいて選択された。これらのパラメータはそれぞれが、全体的な粘度値の予測に寄与するが、中程度のR値で観察されるように単一の計算パラメータで粘度値を単独で予測することはできない。粘度の性質は、様々な領域の疎水性特性および静電気的特性によって定義される分子間相互作用を伴う多変量現象であるため、これは実際に予想されたものであった。
【0122】
iv.タンパク質粘度の予測モデル:予測粘度スコア(PVS)
タンパク質粘度の最終予測モデルは、前項に記載されるように、段階的プロトコルおよび選択された計算されたパラメータに基づいて選択された。予測粘度スコア(PVS)は、完全抗体モデルのV領域、C領域、ヒンジ領域、C2領域およびC3領域に対する溶媒露出面積(SAS)、調整後電荷、および可変領域の疎水性を考慮したタンパク質粘度の予測モデルである(式5)。
【0123】
PVSモデルにおける定数C~Cを表3に示す。
【0124】
【数10】
【0125】
表3:式5の定数係数、予測粘度スコア(PVS)。
【0126】
PVSモデルは、Rが0.884、調整後Rが0.807である。相関R値0.94は、現在のデータセットにおいて、PVSと測定された粘度値との間の強い相関を示し、調整後R値0.90は、データの過剰適合という懸念なく、モデル内のパラメータの数を考慮することによって、このモデルが任意のデータセットに適合したことを示す。PVSモデルのp値は0.0009であり、PVSモデルは95%の信頼度(p値<0.05)で粘度値を予測できないという帰無仮説に反する強力な証拠を示す。PVSと実験値との間で観察された平均絶対誤差2.7ならびに標準偏差1.8は、このモデルの有効性を証明する。PVSと測定された粘度との間の最小残差および最大残差は、それぞれ-7.9および3.9である(表2)。計算されたPVS値と測定された粘度値との間の線形回帰線は、データ点の大部分が95%信頼区間内にあることを示す(図12)。より重要なことに、PVSモデルは、LOOCV分析において、LOOCV法に基づくPVSと実験粘度値との間で平均絶対誤差4.6、標準偏差2.3であり、良好に機能する(表2)。LOOCV中、R値は0.863~0.925の範囲であり、調整後R値は0.760~0.868の範囲であった。これらの結果は、PVSが、選択された計算パラメータと実験粘度値との間の統計的に有意な予測モデルを表すことを確認する。
【0127】
v.熱応力安定性の結果
14個のmAbを、40℃および相対湿度75%でインキュベートした。図13は、0日および28日のインキュベーション期間にわたるmAb3に対する代表的なSECシグナル、ならびに凝集体形成の結果としてのHMWピークの増加を示す。本試験で使用される14個のmAbについて、7、14、28日間のHMW形成を0日と比較した相対的割合、%ΔHMWを図14に示す。mAb試料がより長い時間インキュベートされると、より多くの凝集体が形成される(図14)。28日間のデータ点を28で割った%ΔHMWに基づいて計算された、1日あたりの%ΔHMWの形成速度は、0.0564~0.1600の範囲である(表4および図15)。粘度値が低い傾向にあるIgG1抗体分子は、現在のデータセットでは、IgG4候補と比較して平均で%ΔHMW/日が高い傾向にある(図15)。
【0128】
表4.本試験で使用した14個のmAbについての、測定された1日あたりの高分子量種形成の速度(%ΔHMW/日)および計算された予測凝集スコア(PAS)値。mAb9およびmAb16は材料の利用可能性が限定されたため、これらの二つの候補は、凝集傾向の予測モデル開発のための現在のデータセットから除外された。40℃および相対湿度75%での28日間のインキュベーション後、%ΔHMW/日値を算出した。PAS値は、式6に基づいて計算された。PAS値と測定された%ΔHMW/日値との間の絶対誤差を計算した。PASおよび一個抜き交差検証(LOOCV)法における絶対誤差も示されている。
【0129】
vi.PVSのさらなる検証
PVSモデル(式5)の予測可能性をさらに試験するために、予測モデルの開発に使用された16個のmAbの一部ではない4個のIgG1およびIgG4 mAb(表5)を評価した。これら4個のmAbの粘度を、前述したプロトコルと同じプロトコルを用いて同じ製剤で測定した。測定された粘度値は、4.1~22.0cPの範囲である(表5)。これら4個のmAbの構造を、この作業で説明したプロトコルに従ってモデル化した。PVSモデルにおける利用のために、疎水性パラメータおよび静電気的パラメータを計算した(表5)。PVSと実験粘度値との間の絶対誤差は2.8~5.6(表5)の範囲であり、PVSモデルが、訓練データセットに含まれないmAbの粘度値を正確に予測できることを示す。
【0130】
表5:粘度の予測モデルの開発には、16個のmAbの一部ではない、4個のmAbの計算パラメータ、測定された粘度値、および予測粘度スコア(PVS)が使用された。Z VL、Z CL、Z Hinge、Z CH2およびZ CH3は、それぞれ、V領域、C領域、ヒンジ領域、C2領域に対する溶媒露出面積の調整後電荷であり、HIは疎水性指標である。PVS値は、式5に基づいて計算され、粘度値は、150mg/mLのタンパク質濃度、10mMヒスチジン緩衝液、pH6.0の製剤で測定された。PVS値と測定された粘度値との間の絶対誤差を計算した。
【0131】
vii.MDシミュレーションの結果
14個のmAbの各Fabモデルについて、観察結果の一貫性を評価するために、三つの個別のMDシミュレーションを実施した。各mAbの初期構造に対する立体配置的構造のRMSDを、シミュレーション時間2.0nsにわたってプロットし(図16A~16C)、各mAbに対する全体的なシミュレーションが再現可能であることを示す。各mAbについて、各時点でのRMSD値を三つのシミュレーションで平均し、図17で、平均化RMSDをシミュレーション時間2.0nsに対してプロットした。さらに、図18A~18Cは、各mAbの平均化RMSDを別々のプロットで示す。各mAbの3回のシミュレーションにわたる平均化RMSD値を、最後の1.5nsにわたって平均し、各mAbの平均化RMSDとして単一の数を得た。本試験で使用される14個のmAbのFab領域について、平均RMSDは、1.785~3.159Åの範囲である(図7)。
【0132】
viii.単一の選択された各計算パラメータが全体的な凝集傾向の予測に寄与
Fabホモロジーモデルからの計算パラメータおよびMDシミュレーションからのRMSD値は、それぞれコロイド安定性および立体構造安定性の記述子である。14個のmAbのMDシミュレーションから得られた、測定された%ΔHMW/日値と計算されたパラメータまたはRMSD値との間の回帰線から得られた線形相関係数(R)値を、表1に示す。さらに、図19A~19Cは、実験%ΔHMW/日値とRMSDを含む計算パラメータとの間の線形関係のプロットを示す。相関R値は-0.59~0.72の間で変化する。最終予測モデル(すなわち、Z VL、Z CH1、RMSD、HI、DFab、およびPISequence)で使用される計算されたパラメータは、数学的モデリングの項に記載される段階的プロトコルおよびFab領域の構造的対称性に基づいて選択された。これらのパラメータはそれぞれが、全体的な%ΔHMW/日値の予測に寄与するが、中程度のR値で観察されるように単一の計算パラメータで%ΔHMW/日値を単独で予測することはできない。これは、凝集の性質がコロイド安定性と立体構造安定性の条件の両方を含む多変量現象である結果として、予想されたものであった。
【0133】
ix.凝集傾向の予測モデル:予測凝集スコア(PAS)
凝集傾向の最終予測モデルは、試験法の項に記載されるように、段階的プロトコルおよび選択された計算されたパラメータに基づいて選択された。予測凝集スコア(PAS)は、Fab領域のコロイド構造および立体構造の計算された記述子の両方を含む、タンパク質凝集動態の予測モデルである。このモデルは、V領域およびCH1領域に対するSAS調整後電荷、初期構造に対する立体構造変化の平均化骨格RMSD、可変領域の疎水性、Fab領域の双極子モーメント、およびその配列から得られた抗体の等電点を考慮した(式6)。PASモデルにおける定数C~Cを表6に示す。
【0134】
【数11】
【0135】
表6:式6の定数係数、予測凝集スコア(PAS)。
【0136】
PASモデルは、Rが0.883、調整後Rが0.782である。相関R値0.94は、現在のデータセットにおいて、PASと測定された%ΔHMW/日値との間の強い相関を示し、調整後R値0.88は、データの過剰適合という懸念なく、モデル内のパラメータの数を考慮することによって、このモデルが任意のデータセットに良好に適合したことを示す。PASモデルのp値は0.0057であり、PASモデルは95%の信頼度(p値<0.05)で%ΔHMW/日値を予測できないという帰無仮説に反する強力な証拠を示す。PASと実験値との間で観察された平均絶対誤差0.0084ならびに標準偏差0.0083は、このモデルの有効性を証明する。PASと測定された%ΔHMW/日との間の最小残差誤差および最大残差誤差は、それぞれ-0.0290および0.0216である(表3)。
【0137】
計算されたPAS値と測定された%ΔHMW/日値との間の線形回帰線は、データ点の大部分が95%信頼区間内にあることを示す(図20)。より重要なことに、PASモデルは、LOOCV分析において、LOOCV法に基づくPVSと実験の%ΔHMW/日間との間で平均絶対誤差0.0173、標準偏差0.0151で、良好に機能する(表4)。LOOCV中、R値は0.858~0.949の範囲であり、調整後R値は0.716~0.897の範囲であった。これらの結果は、PASが、選択されたコロイド構造および立体構造の計算パラメータと、実験の%ΔHMW値との間の統計的に有意な予測モデルを表すことを確認する。
【0138】
3.論考
モノクローナル抗体の産生は、バイオ医薬品企業のパイプラインにおいて増加しつつある。IV投与からSC投与への移行傾向は、粘度およびmAb凝集の問題のためにより高い力価の投与を必要とするこれらの候補の製剤開発における課題を提起する。製剤開発および創薬において、粘度および凝集傾向の早期段階での予測を可能にするために、より堅牢な方法が開発されるべきである。コンピュータ利用ツールと実験手法の組み合わせは、これらの課題の解決に有望である。ここでは、抗体溶液の粘度および凝集傾向の予測モデルを生成するためにホモロジーモデリングとMDシミュレーションの能力を利用するスキームが開発された。これらのモデル、PVSおよびPASは、物理的な材料を必要とせずに、医薬品開発、さらには創薬の早期段階においても、異なる抗体を一緒に比較する。
【0139】
タンパク質溶液の粘度および凝集傾向に関する文献での類似の予測モデルと比較して、本試験で開発されたPVSおよびPASモデルは、予測誤差がより少なく、R値、調整後R値、p値、絶対誤差値、LOOCV分析に基づいてより信頼性が高いことを示す。PVSモデルおよびPASモデルの堅牢性は、抗体の異なる領域における各残基のSASに対して電荷分布を調整する新規の計算パラメータを利用し、その構造の対称性を考慮することによって、取得される。PVSモデルでは、抗体ホモロジーモデルからの静電気的および疎水性の計算されたパラメータは、タンパク質溶液中の分子内相互作用および分子間相互作用を反映するとみなされる。
【0140】
全原子MDシミュレーションを介して、コロイド安定性パラメータおよび立体構造安定性パラメータの両方が凝集傾向の予測モデルで使用されたのは、今回が初めてである。したがって、PASモデルは、原子の詳細での安定性を考察することによって、より現実的に凝集傾向を予測できる。粘度および凝集傾向のために開発されたPVSおよびPASの予測モデルの定数係数は、本試験で使用される緩衝系およびそれぞれのタンパク質濃度に特異的であることは言うまでもない。しかしながら、全体的なスキームおよび計算されたパラメータは、他の緩衝系およびタンパク質濃度にも拡張され得る。
【0141】
機械学習アルゴリズムおよび統計手法における予測モデルの堅牢性と正確性は、訓練データセットと検証データセットのデータ点の数に依存する。しかしながら、実験的な粘度の性質、凝集測定値、および物理的材料の利用可能性の制限により、この分野の研究者が多数のデータ点を取得する能力は制限される。したがって、全てのデータ点を訓練データセットとして使用し、LOOCV分析を実施してモデルの予測可能性を評価した。PVSモデルおよびPASモデルは、それぞれ16個のmAbおよび14個のmAbの粘度および凝集の測定値に基づいて開発された。同じ条件で測定されたより多くのデータ点をこれらのモデル用に開発されたデータセットに追加して、これらの予測モデルの堅牢性と正確性を向上させることができる。新しいデータ点は、PVSモデルとPASモデルのさらなる予測可能性を評価するために、検証データセットとしても使用することができる。さらに、本試験では、段階的回帰アルゴリズムを利用して、計算されたパラメータから予測モデルを生成した。LASSO(least absolute shrinkage and selection operator)回帰法およびランダムフォレスト回帰法などのさらなる統計および機械学習アルゴリズム技術を探求して、より堅牢なモデルを開発することができる。
【0142】
前述したように、凝集傾向モデルにおける立体構造安定性を考慮するために、抗体のFab領域についてMDシミュレーションを実施した。この作業で説明したプロトコルを、完全抗体についてMDシミュレーションを実施するために拡張して、完全抗体モデルについての立体構造の計算されたパラメータを生成することができる。これらのパラメータは、凝集傾向モデルの有効性および信頼性を改善する可能性がある。さらに、完全抗体全原子および粗視化MDシミュレーションは、抗体分子の分子内相互作用および分子間相互作用に対してより多くのヒントを提供することができる。一例として、Cloutierらは、3個のIgG1 mAbについての全原子MDシミュレーションを通して、凝集および粘度に対する賦形剤の影響を分析した。Kastelicらは、粗視化MDシミュレーションを実施して、断片抗原(Fab-Fab)または結晶化可能断片(Fab-Fc)の結合相互作用を評価し、その結合部位の制御を通して抗体溶液の粘度を制御する戦略を提案した。
【0143】
現行試験では、各mAbを切頂八面体水ボックスで溶解し、重い計算シミュレーションを優先して水原子の数を最小化した。このスキームを用いても、溶媒和された各完全抗体モデルまたはFabモデルは、それぞれ約275,000個の原子または51,000個の原子から構成される。こうした大きなシステムは大量の計算能力を必要とし、シミュレーション時間が利用可能なインフラに限定される可能性がある。グラフィックス・プロセシング・ユニット(GPU)の進歩により、Fab領域および完全抗体に対するより長時間のMDシミュレーションが可能となる。より長時間のMDシミュレーションは、溶液中の抗体の立体構造と固有の不安定性に対するより多くのヒントを提供し、分子内相互作用および分子間相互作用をより良く理解できるようになる可能性がある。さらに、長方形の水ボックスなどの他のスキームを利用して、より多くの水分子と特定の抗体との相互作用を考慮することができる。シミュレーションで使用されるボックス形状は、タンパク質および計算特性の動的挙動に影響を与える可能性がある。
【0144】
さらに、本試験のすべてのMDシミュレーションを、水溶液中で実施した。これは、大半の力場は水相互作用に対して最適化されているため、生物製剤のMDシミュレーションにおける最も一般的なアプローチである。しかしながら、最終医薬品と類似した緩衝液環境でMDシミュレーションを実施することは、実験的な粘度および安定性の測定に対してより関連性の高い計算パラメータをもたらすことができる。抗体をランク付ける場合、すべてのmAb候補が同じ緩衝系で処理されている限り、それらを予測モデルで使用し、相互に比較することができる。
【0145】
B.モデルの検証
10個のmAbのセットを使用して、PVS(予測粘度スコア)とPAS(予測凝集スコア)両方のモデルおよびアルゴリズムについて検証実験を実施した。実験データセットと予測スコアとの間のデータの統計的相関を使用して、粘度および凝集の予測アルゴリズムを検証した。
【0146】
1.試験法
10個の追加mAbについて、40℃での動的粘度(cP)および合計凝集率の実験データを使用して、予測モデルを検証した。実験データは、既知および未知のバイアスを除去するため、ユーザーから盲検化された。次いで、粘度および凝集の予測スコアを実験データと比較し、線形回帰モデルを使用して相関させた。データセットのサイズが小さいことを踏まえ、0.75を超える相関スコアは許容可能な相関とみなされる。
【0147】
動的粘度に対する試験セット(データ盲検化相関)を使用したモデル検証を、図21に示す。PVS(式5)およびPAS(式6)モデルは、10個のmAb(IgG1およびIgG4の混合)からのデータを使用して検証された。バイアスのない検証を確保するために、データはユーザーから盲検化された。リスクランク付けのためのカラーコード付け(破線で分けられ、色についてラベルが付けられる)は、バイオ医薬品業界全体の過去の開発目標に基づくものであり、いかなる規制要件も反映していない。
【0148】
高分子量(HMW)種形成について試験セット(データ盲検化相関)を使用したモデル検証を図22に示す。%ΔHMWは、以下のように計算した:
【0149】
【数12】
【0150】
PVSモデルおよびPASモデルを、10個のmAb(IgG1とIgG4の混合)からのデータを使用して検証した。バイアスのない検証を確保するために、データはユーザーから盲検化された。
【0151】
リスクランク付けのためのカラーコード付け(破線で分けられ、色についてラベルが付けられる)は、バイオ医薬品業界全体の過去の開発目標に基づくものであり、いかなる規制要件も反映していない。
【0152】
2.結果
凝集および粘度の両方の予測スコアは、検証実験データに対して高い相関性があった(R2値は0.8超)。強力な統計的相関により、予測モデルとその根本となるAIアルゴリズムの両方における信頼性がさらに改善される。
【0153】
図23は、ネットワーク2304を通じて接続された計算デバイス2301およびサーバ2302の非限定的な例を含む環境2300を描写するブロック図である。一態様では、いずれの記載の方法のいくつかまたは全ての工程も、本明細書に記載の計算デバイスで実行することができる。計算デバイス2301は、実験データ2320、計算導出データ2322、予測モジュール2326(例えば、任意の補助的訓練モジュールを含む、MLモジュール230)などのうちの一つ以上を保存するように構成された一つ以上のコンピュータを備え得る。サーバ2302は、実験データ2320および/または計算導出データ2322を保存するように構成された一つまたは複数のコンピュータを備えることができる。複数のサーバ2302は、ネットワーク2304を通じて計算デバイス2301と通信することができる。一実施形態では、サーバ2302は、一つ以上の実験によって生成されたデータのためのリポジトリを備えてもよい。
【0154】
計算デバイス2301およびサーバ2302は、ハードウェアアーキテクチャに関して、一般にプロセッサ2308、メモリシステム2310、入力/出力(I/O)インターフェース2312、およびネットワークインターフェース2314を含む、デジタルコンピュータであってもよい。これらの構成要素(2308、2310、2312、および2314)は、ローカルインターフェース2316を介して通信的に連結される。ローカルインターフェース2316は、例えば、当該技術分野で公知の一つ以上のバスまたは他の有線もしくは無線接続であってもよいが、これに限定されない。ローカルインターフェース2316は、コントローラ、バッファ(キャッシュ)、ドライバ、リピータ、およびレシーバなどの、通信を可能にするための追加の要素(簡略化のために省略される)を有してもよい。さらに、ローカルインターフェースは、前述の構成要素間の適切な通信を可能にするためのアドレス、制御、および/またはデータ接続を含んでもよい。
【0155】
プロセッサ2308は、特にメモリシステム2310に保存される、ソフトウェアを実行するためのハードウェアデバイスであってもよい。プロセッサ2308は、任意のカスタム作製または市販のプロセッサ、中央処理ユニット(CPU)、計算デバイス2301およびサーバ2302に関連付けられたいくつかのプロセッサの中の補助プロセッサ、半導体ベースのマイクロプロセッサ(マイクロチップもしくはチップセットの形態)、またはソフトウェア命令を実行するための一般に任意のデバイスとすることができる。計算デバイス2301および/またはサーバ2302が動作中である時、プロセッサ2308は、メモリシステム2310内に保存されているソフトウェアを実行して、メモリシステム2310へのおよびそこからのデータを通信し、ソフトウェアに従って、計算デバイス2301およびサーバ2302の動作を一般に制御するように構成されてもよい。
【0156】
I/Oインターフェース2312を使用して、一つ以上のデバイスまたは構成要素からユーザ入力を受信する、かつ/またはそれらへとシステム出力を提供することができる。ユーザ入力は、例えば、キーボードおよび/またはマウスを介して提供されてもよい。システム出力は、表示デバイスおよびプリンタ(図示せず)を介して提供されてもよい。I/Oインターフェース2312は、例えば、シリアルポート、パラレルポート、小型コンピュータシステムインターフェース(SCSI)、赤外(IR)インターフェース、無線周波数(RF)インターフェース、および/またはユニバーサルシリアルバス(USB)インターフェースを含んでもよい。
【0157】
ネットワークインターフェース2314は、計算デバイス2301および/またはネットワーク2304上のサーバ2302から送信および受信するために使用することができる。ネットワークインターフェース2314は、例えば、10BaseT Ethernetアダプタ、100BaseT Ethernetアダプタ、LAN PHY Ethernetアダプタ、Token Ringアダプタ、ワイヤレスネットワークアダプタ(例えば、WiFi、セルラー、サテライト)、または任意の他の好適なネットワークインターフェースデバイスを含んでもよい。ネットワークインターフェース2314は、ネットワーク2304上での適切な通信を可能にするためのアドレス、制御、および/またはデータ接続を含んでもよい。
【0158】
メモリシステム2310は、揮発性メモリ素子(例えば、ランダムアクセスメモリ(DRAM、SRAM、SDRAMなどのRAM))および不揮発性メモリ素子(例えば、ROM、ハードドライブ、テープ、CDROM、DVDROMなど)のいずれか一つまたはその組み合わせを含んでもよい。さらに、メモリシステム2310は、電子、磁気、光学、および/または他の型の保存媒体を組み込んでもよい。メモリシステム2310は、様々な構成要素が互いに離れて位置するが、プロセッサ2308によってアクセスすることができる、分散型アーキテクチャを有し得ることに留意されたい。
【0159】
メモリシステム2310内のソフトウェアは、一つ以上のソフトウェアプログラムを含んでもよく、これらの各々は、論理機能を実施するための実行可能な命令の順序付けされたリストを含む。図23の例では、計算デバイス2301のメモリシステム2310におけるソフトウェアは、実験データ2320、計算導出データ2322、予測モジュール2326、および好適なオペレーティングシステム(O/S)2318を含むことができる。図23の例では、サーバ2302のメモリシステム2310内のソフトウェアは、実験データ2320、計算導出データ2322、および好適なオペレーティングシステム(O/S)2318を含むことができる。オペレーティングシステム2318は、他のコンピュータプログラムの実行を本質的に制御し、スケジューリング、入力-出力制御、ファイルおよびデータ管理、メモリ管理、および通信制御、ならびに関連するサービスを提供する。
【0160】
例証の目的で、アプリケーションプログラムおよびオペレーティングシステム2318などの他の実行可能なプログラム構成要素は、本明細書では別々のブロックとして例証されているが、そのようなプログラムおよび構成要素は、計算デバイス2301および/またはサーバ2302の異なる保存構成要素内で、様々な時間に存在し得ることが認識される。予測モジュール2326の実装形態は、何らかの形態のコンピュータ可読媒体上に保存される場合もあれば、または伝送される場合もある。本開示の方法のいずれも、コンピュータ可読媒体上に具現化されたコンピュータ可読命令によって実行することができる。コンピュータ可読媒体は、コンピュータによってアクセス可能な任意の利用可能媒体とすることができる。例として、かつ限定を意図するものではないが、コンピュータ可読媒体は、「コンピュータストレージ媒体」および「通信媒体」を含み得る。「コンピュータ記憶媒体」は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの、情報を記憶するための任意の方法または技術で実施される、揮発性および不揮発性の取り外し可能な媒体および取り外し不能な媒体を含み得る。例示的なコンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリもしくは他の記憶技術、CD-ROM、デジタル多用途ディスク(DVD)もしくは他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶デバイスもしくは他の磁気記憶デバイス、または所望の情報の記憶に使用することができ、かつコンピュータによってアクセスすることができる任意の他の媒体を含み得る。
【0161】
一実施形態では、予測モジュール2326は、図24に示す方法2400を実行するように構成され得る。方法2400は、単一の計算デバイス、複数の電子デバイス、および同様のものによって、全体的または部分的に実施されてもよい。方法2400は、2410で、一つ以上のモノクローナル抗体(mAb)に関連する実験データを決定することを含み得る。一つ以上のmAbは、IgG1抗体またはIgG4抗体のうちの一つ以上を含み得る。実験データは、実験粘度データを含み得る。実験粘度データは、動的粘度値または動粘度値のうちの一つ以上を含み得る。
【0162】
一つ以上のmAbに関連する実験データを決定することは、一つ以上のmAbのそれぞれの溶液および粘度計に基づいて、動的粘度値または動粘度値のうちの少なくとも一つを測定することを含み得る。
【0163】
実験データは、実験凝集データを含み得る。実験凝集データは、一つ以上のmAbの各mAbに対する高分子量(HMW)種形成データを含み得る。一つ以上のmAbに関連する実験データを決定することは、一つ以上のmAbのそれぞれの溶液およびサイズ排除クロマトグラフィー(SEC)に基づいて、経時的なHMW種形成の量を測定することを含み得る。
【0164】
2420で、一つ以上のmAbに関連する計算導出データを決定し、計算導出データは、一つ以上のmAbの一つ以上の残基の露出面積(ASA)に基づいて重み付けされた一つ以上の計算パラメータを含む。計算導出データは、一つ以上のmAbの配列に関連する一つ以上の領域に関連する電荷データ、一つ以上のmAbのホモロジーモデル中の残基の溶媒露出面積に基づいて、一つ以上の領域に関連する改変電荷データ、疎水性指標(HI)、双極子モーメント、または等電点(pI)を含み得る。一つ以上のmAbに関連する計算導出データを決定することは、一つ以上のmAbの配列の完全抗体ホモロジーモデリング、または一つ以上のmAbの抗原結合断片(Fab)配列のFab領域モデリングを含み得る。
【0165】
一つ以上のmAbに関連する計算導出データを決定することは、一つ以上のmAbのホモロジーモデルに基づいて、一つ以上のmAbの一つ以上の領域における一つ以上の残基に関連する一つ以上の電荷値を決定することと、一つ以上のmAbのホモロジーモデルに基づいて、一つ以上の領域における一つ以上の残基の溶媒露出面積(SAS)を決定することと、一つ以上のmAbと関連する合計SASに対して、一つ以上の残基のSASを使用して計算された重み係数に基づいて、一つ以上の残基と関連する一つ以上の電荷値を調節することと、一つ以上のmAbのホモロジーモデル、および一つ以上の残基に関連する調整後一つ以上の電荷値に基づいて、一つ以上の領域の各領域に関連する電荷値を決定することと、を含み得る。
【0166】
計算導出データは、一つ以上のmAbの配列に関連する一つ以上の領域に関連する電荷データ、一つ以上のmAbのホモロジーモデル中の残基の溶媒露出面積に基づく一つ以上の領域に関連する改変電荷データ、疎水性指標(HI)、双極子モーメント、等電点(pI)、凝集傾向(AP)、または立体構造安定性の記述子を含み得る。立体構造安定性の記述子が、剛体アライメント後の初期構造に対する立体構造の骨格平均二乗偏差(RMSD)を含み得る。一つ以上のmAbに関連する計算導出データを決定することは、一つ以上のmAbに関連する一つ以上の分子動力学(MD)シミュレーションを含み得る。
【0167】
2430で、実験データおよび計算導出データに基づいて、複数の候補予測モデルを決定する。実験データおよび計算導出データに基づいて、複数の候補予測モデルを決定することは、実験データの一つ以上の実験パラメータを従属変数として特定することと、計算導出データの一つ以上の計算パラメータを独立変数として特定することと、段階的回帰アルゴリズムに基づいて、従属変数に基づいて、および独立変数に基づいて、複数の候補予測モデルを決定することと、を含み得る。
【0168】
2440で、複数の候補予測モデルから最適な予測モデルを決定する。複数の候補予測モデルから最適な予測モデルを決定することは、複数の候補予測モデルの各候補予測モデルに対して、赤池情報量規準(AIC)スコアを決定することと、最適な予測モデルとして、最高AICスコアに関連する複数の候補予測モデルの候補予測モデルを決定することと、を含み得る。
【0169】
複数の候補予測モデルから、最適な予測モデルを決定することは、最適な予測モデルとして、実験データおよび計算導出データから除外されたmAbの粘度スコアを予測する際に最小誤差に関連する複数の候補予測モデルの候補予測モデルを決定することを含み得る。
【0170】
複数の候補予測モデルから、最適な予測モデルを決定することは、最適な予測モデルとして、実験データおよび計算導出データから除外されたmAbの凝集スコアを予測する際に最小誤差に関連する複数の候補予測モデルの候補予測モデルを決定することを含み得る。
【0171】
2450で、最適な予測モデルを出力する。
方法2400はまた、クエリーmAbに関連する計算導出データを受信することと、最適な予測モデルに計算導出データを提供することと、最適な予測モデルに基づいて、クエリーmAbに関連する粘度スコアを決定することと、を含み得る。方法2400は、粘度スコアに基づいて、例えば、クエリーmAbに関連する溶液の粘度低下剤量を調節するなど、開発中の薬剤候補の特定の課題を軽減するために、適切な製剤組成物またはタンパク質工学戦略を調節することと、を含み得る。
【0172】
方法2400はまた、クエリーmAbに関連する計算導出データを受信することと、最適な予測モデルに計算導出データを提供することと、最適な予測モデルに基づいて、凝集スコアを決定することと、を含み得る。
【0173】
一実施形態では、予測モジュール2326は、図25に示す方法2500を実行するように構成され得る。方法2500は、単一の計算デバイス、複数の電子デバイス、および同様のものによって、全体的または部分的に実施されてもよい。方法2500は、2510で、モノクローナル抗体(mAb)に関連する計算導出データを受信することを含み得る。計算導出データは、計算から導出された粘度データを含み得る。計算から導出された粘度データは、動的粘度値または動粘度値のうちの一つ以上を含み得る。
【0174】
2520で、予測モデルに、計算導出データを提供する。
2530で、予測モデルに基づいて、mAbに関連する粘度スコアを決定する。
方法2500はまた、粘度スコアに基づいて、例えば、クエリーmAbに関連する溶液の粘度低下剤量を調節するなど、開発中の薬剤候補の特定の課題を軽減するために、適切な製剤組成物またはタンパク質工学戦略を調節することと、を含み得る。
【0175】
方法2500はまた、mAbに関連する配列データを受信することと、配列データに基づいて、計算導出データを決定することと、を含んでもよい。
方法2500はまた、クエリーmAbに関連する計算導出データを受信することと、最適な予測モデルに計算導出データを提供することと、最適な予測モデルに基づいて、クエリーmAbに関連する粘度スコアを決定することと、を含み得る。
【0176】
一実施形態では、予測モジュール2326は、図26に示す方法2600を実行するように構成され得る。方法2600は、単一の計算デバイス、複数の電子デバイス、および同様のものによって、全体的または部分的に実施されてもよい。方法2600は、2610で、モノクローナル抗体(mAb)に関連する計算導出データを受信することを含み得る。計算導出データは、計算から導出された凝集データを含み得る。計算から導出された凝集データは、mAbについての高分子量(HMW)種形成データを含み得る。計算導出データは、mAbの配列に関連する一つ以上の領域に関連する電荷データ、mAbのホモロジーモデル中の残基の溶媒露出面積に基づいて、一つ以上の領域に関連する改変電荷データ、疎水性指標(HI)、双極子モーメント、等電点(pI)、凝集傾向(AP)、または立体構造安定性の記述子を含み得る。
【0177】
2620で、予測モデルに、計算導出データを提供する。
2630で、予測モデルに基づいて、mAbに関連する凝集スコアを決定する。
方法2600はまた、mAbに関連する配列データを受信することと、配列データに基づいて、計算導出データを決定することと、を含んでもよい。
【0178】
方法2600はまた、mAbに関連する凝集スコアを予測する際の最小誤差に関連する複数の候補予測モデルから、最適な予測モデルを決定することを含み得る。
方法2600はまた、クエリーmAbに関連する計算導出データを受信することと、最適な予測モデルに、クエリーmAbに関連する計算導出データを提供することと、最適な予測モデルに基づいて、クエリーmAbに関連する凝集スコアを決定することと、を含み得る。
【0179】
記載された装置、システム、および方法ならびにそれらの変形に照らして、本明細書では、以下に本発明のより具体的に記述された特定の実施形態を説明する。しかし、これらの特に列挙された実施形態は、本明細書に記載される異なるまたはより一般的な教示を含む任意の異なる特許請求の範囲に対して何らかの限定効果を有すると解釈されるべきではなく、または「特定の」実施形態が、その中に文字通り使用される言語の固有の意味以外の何らかの方法で、何らかの形で限定されると解釈されるべきでもない。
【0180】
実施形態1:一つ以上のモノクローナル抗体(mAb)に関連する実験データを決定することと、一つ以上のmAbに関連する計算導出データを決定することであって、計算導出データが、一つ以上のmAbの一つ以上の残基の露出面積(ASA)に基づいて重み付けされた一つ以上の計算パラメータを含む、計算導出データを決定することと、実験データおよび計算導出データに基づいて、複数の候補予測モデルを決定することと、複数の候補予測モデルから最適な予測モデルを決定することと、最適の予測モデルを出力することと、を含む、方法。
【0181】
実施形態2:一つ以上のmAbが、IgG1抗体またはIgG4抗体のうちの一つ以上を含む、実施形態1に記載の実施形態。
実施形態3:実験データが、実験粘度データを含む、実施形態1~2のいずれかに記載の実施形態。
【0182】
実施形態4:実験粘度データが、動的粘度値または動粘度値のうちの一つ以上を含む、実施形態1~3のいずれかに記載の実施形態。
実施形態5:一つ以上のmAbに関連する実験データを決定することが、一つ以上のmAbのそれぞれの溶液および粘度計に基づいて、動的粘度値または動粘度値のうちの少なくとも一つを測定することを含む、実施形態1~4のいずれかに記載の実施形態。
【0183】
実施形態6:計算導出データが、一つ以上のmAbの配列に関連する一つ以上の領域に関連する電荷データ、一つ以上のmAbのホモロジーモデル中の残基の溶媒露出面積に基づいて一つ以上の領域に関連する改変電荷データ、疎水性指標(HI)、双極子モーメント、または等電点(pI)を含む、実施形態1~5のいずれかに記載の実施形態。
【0184】
実施形態7:一つ以上のmAbに関連する前記計算導出データを決定することが、一つ以上のmAbの配列の完全抗体ホモロジーモデリング、または一つ以上のmAbの抗原結合断片(Fab)配列のFab領域モデリングを含む、実施形態1~6のいずれかに記載の実施形態。
【0185】
実施形態8:一つ以上のmAbに関連する計算導出データを決定することが、一つ以上のmAbのホモロジーモデルに基づいて、一つ以上のmAbの一つ以上の領域における一つ以上の残基に関連する一つ以上の電荷値を決定することと、一つ以上のmAbのホモロジーモデルに基づいて、一つ以上の領域における一つ以上の残基の溶媒露出面積(SAS)を決定することと、一つ以上のmAbに関連する合計SASに対して一つ以上の残基のSASを使用して計算された重み係数に基づいて、一つ以上の残基と関連する一つ以上の電荷値を調整することと、一つ以上のmAbのホモロジーモデル、および一つ以上の残基に関連する調整後一つ以上の電荷値に基づいて、一つ以上の領域の各領域に関連する電荷値を決定することと、を含む、実施形態1~7のいずれかに記載の実施形態。
【0186】
実施形態9:実験データおよび計算導出データに基づいて、複数の候補予測モデルを決定することが、実験データの一つ以上の実験パラメータを従属変数として特定することと、計算導出データの一つ以上の計算パラメータを独立変数として特定することと、段階的回帰アルゴリズムに基づいて、従属変数に基づいて、および独立変数に基づいて、複数の候補予測モデルを決定することと、を含む、実施形態1~8のいずれかに記載の実施形態。
【0187】
実施形態10:複数の候補予測モデルから最適な予測モデルを決定することが、複数の候補予測モデルの各候補予測モデルに対して、赤池情報量規準(AIC)スコアを決定することと、最適な予測モデルとして、最高AICスコアに関連する複数の候補予測モデルの候補予測モデルを決定することと、を含む、実施形態1~9のいずれかに記載の実施形態。
【0188】
実施形態11:複数の候補予測モデルから、最適な予測モデルを決定することが、最適な予測モデルとして、実験データおよび計算導出データから除外されたmAbの粘度スコアを予測する際に最小誤差に関連する複数の候補予測モデルの候補予測モデルを決定することを含む、実施形態1~10のいずれかに記載の実施形態。
【0189】
実施形態12:クエリーmAbに関連する計算導出データを受信することと、最適な予測モデルに計算導出データを提供することと、最適な予測モデルに基づいて、クエリーmAbに関連する粘度スコアを決定することと、をさらに含む、実施形態1~11のいずれかに記載の実施形態。
【0190】
実施形態13:粘度スコアに基づいて、例えば、クエリーmAbに関連する溶液の粘度低下剤量を調節するなど、開発中の薬剤候補の特定の課題を軽減するために、適切な製剤組成物またはタンパク質工学戦略を調節することと、をさらに含む、実施形態12に記載の実施形態。
【0191】
実施形態14:実験データが、実験凝集データを含む、実施形態1~13のいずれかに記載の実施形態。
実施形態15:実験凝集データが、一つ以上のmAbの各mAbについての高分子量(HMW)種形成データを含む、実施形態14に記載の実施形態。
【0192】
実施形態16:一つ以上のmAbに関連する実験データを決定することが、一つ以上のmAbのそれぞれの溶液およびサイズ排除クロマトグラフィー(SEC)に基づいて、経時的なHMW種形成の量を測定することを含む、実施形態1~15のいずれかに記載の実施形態。
【0193】
実施形態17:一つ以上のmAbに関連する実験データを決定することが、一つ以上のmAbのそれぞれの溶液およびサイズ排除クロマトグラフィー(SEC)に基づいて、経時的なHMW種形成の量を測定することと、を含む、実施形態1~16のいずれかに記載の実施形態。
【0194】
実施形態18:立体構造安定性の記述子が、剛体アライメント後の初期構造に対する立体配置的構造の骨格平均二乗偏差(RMSD)を含む、実施形態1~17のいずれかに記載の実施形態。
【0195】
実施形態19:一つ以上のmAbに関連する計算導出データを決定することが、一つ以上のmAbに関連する一つ以上の分子動力学(MD)シミュレーションを含む、実施形態1~18のいずれかに記載の実施形態。
【0196】
実施形態20:複数の候補予測モデルから最適な予測モデルを決定することが、最適な予測モデルとして、実験データおよび計算導出データから除外されたmAbの凝集スコアを予測する際に最小誤差に関連する複数の候補予測モデルの候補予測モデルを決定することを含む、実施形態1~19のいずれかに記載の実施形態。
【0197】
実施形態21:クエリーmAbに関連する計算導出データを受信することと、最適な予測モデルに計算導出データを提供することと、最適な予測モデルに基づいて凝集スコアを決定することと、をさらに含む、実施形態1~20のいずれかに記載の実施形態。
【0198】
実施形態22:凝集スコアに基づいて、例えば、クエリーmAbに関連する溶液の凝集低下剤量を調節するなど、開発中の薬剤候補の特定の課題を軽減するために、適切な製剤組成物またはタンパク質工学戦略を調節することと、をさらに含む、実施形態1~21のいずれかに記載の実施形態。
【0199】
実施形態23:モノクローナル抗体(mAb)に関連する計算導出データを受信することと、予測モデルに計算導出データを提供することと、予測モデルに基づいて、mAbに関連する粘度スコアを決定することと、を含む、方法。
【0200】
実施形態24:粘度スコアに基づいて、例えば、クエリーmAbに関連する溶液の粘度低下剤量を調節するなど、開発中の薬剤候補の特定の課題を軽減するために、適切な製剤組成物またはタンパク質工学戦略を調節することと、をさらに含む、実施形態23に記載の実施形態。
【0201】
実施形態25:mAbに関連する配列データを受信することと、配列データに基づいて、計算導出データを決定することと、をさらに含む、実施形態23~24のいずれかに記載の実施形態。
【0202】
実施形態26:計算導出データが、計算から導出された粘度データを含む、実施形態23~25のいずれかに記載の実施形態。
実施形態27:計算導出データが、計算から導出された粘度データを含む、実施形態23~26のいずれかに記載の実施形態。
【0203】
実施形態28:クエリーmAbに関連する計算導出データを受信することと、最適な予測モデルに計算導出データを提供することと、最適な予測モデルに基づいて、クエリーmAbに関連する粘度スコアを決定することと、をさらに含む、実施形態23~27のいずれかに記載の実施形態。
【0204】
実施形態29:モノクローナル抗体(mAb)に関連する計算導出データを受信することと、予測モデルに計算導出データを提供することと、予測モデルに基づいて、mAbに関連する凝集スコアを決定することと、を含む、方法。
【0205】
実施形態30:凝集スコアに基づいて、例えば、クエリーmAbに関連する溶液の凝集低下剤量を調節するなど、開発中の薬剤候補の特定の課題を軽減するために、適切な製剤組成物またはタンパク質工学戦略を調節することと、をさらに含む、実施形態29に記載の実施形態。
【0206】
実施形態31:mAbに関連する配列データを受信することと、配列データに基づいて、計算導出データを決定することと、をさらに含む、実施形態29~30のいずれかに記載の実施形態。
【0207】
実施形態32:計算導出データが、計算から導出された凝集データを含む、実施形態29~31のいずれかに記載の実施形態。
実施形態33:計算から導出された凝集データが、mAbについての高分子量(HMW)種形成データを含む、請求項29~32のいずれかに記載の実施形態。
【0208】
実施形態34:計算導出データが、mAbの配列に関連する一つ以上の領域に関連する電荷データ、mAbのホモロジーモデル中の残基の溶媒露出面積に基づいて、一つ以上の領域に関連する改変電荷データ、疎水性指標(HI)、双極子モーメント、等電点(pI)、凝集傾向(AP)、または立体構造安定性の記述子を含む、実施形態29~33のいずれかに記載の実施形態。
【0209】
実施形態35:mAbに関連する凝集スコアを予測する際の最小誤差に関連する複数の候補予測モデルから、最適な予測モデルを決定することをさらに含む、実施形態29~34のいずれかに記載の実施形態。
【0210】
実施形態36:クエリーmAbに関連する計算導出データを受信することと、最適な予測モデルにクエリーmAbに関連する計算導出データを提供することと、最適な予測モデルに基づいて、クエリーmAbに関連する凝集スコアを決定することと、をさらに含む、実施形態29~35のいずれかに記載の実施形態。
【0211】
方法およびシステムは、好ましい実施形態および特定の実施例に関連して記載されているが、その範囲は、記載されている特定の実施形態に限定されることを意図するものではない。この理由は、本明細書中の実施形態が、全ての点において限定的ではなくむしろ例示的であることを意図したものであるからである。
【0212】
別途明記しない限り、本明細書中に記載のいかなる方法も、その工程を特定の順序で実施することを必須としていると解釈するべきであることを意図するものでは決してない。したがって、方法についてのある請求項が、実際にその工程に従うべき順序を列挙していない場合、または、特許請求の範囲もしくは明細書において特定の順序に限定されることが別途明記されていない場合には、いかなる点においても、順序を推定することは決して意図されない。これは、工程の配置または操作の流れの配列に関するロジックの問題、文法的な編成または句読法から導き出される明白な意味、本明細書中に記載されている実施形態の数またはタイプを含む、解釈するための、あらゆる可能な非明示的基礎に対して成り立つ。
【0213】
当業者は、通常の実験だけを用いることで、本明細書に記載の方法および組成物の特定の実施形態の多数の同等物を認識し、または確認できる。かかる同等物は、以下の特許請求の範囲に包含されることが意図される。
図1
図2
図3
図4
図5
図6A
図6B
図7
図8
図9
図10
図11A
図11B
図11C
図12
図13
図14
図15
図16A
図16B
図16C
図17
図18A
図18B
図18C
図19A
図19B
図19C
図20
図21
図22
図23
図24
図25
図26