特表2023-522695 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ アムジエン・インコーポレーテツドの特許一覧

特表2023-522695治療用タンパク質を製造するためのクロマトグラフィーパラメータの選択

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4A
4B
5A
5B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-05-31

(54)【発明の名称】治療用タンパク質を製造するためのクロマトグラフィーパラメータの選択

(51)【国際特許分類】

C07K 1/16 20060101AFI20230524BHJP

G01N 30/88 20060101ALI20230524BHJP

【ＦＩ】

C07K1/16

G01N30/88 J

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2022563389

(86)(22)【出願日】2021-04-21

(85)【翻訳文提出日】2022-12-16

(86)【国際出願番号】 US2021028291

(87)【国際公開番号】W WO2021216635

(87)【国際公開日】2021-10-28

(31)【優先権主張番号】63/014,273

(32)【優先日】2020-04-23

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】500049716

【氏名又は名称】アムジエン・インコーポレーテツド

(74)【代理人】

【識別番号】110001173

【氏名又は名称】弁理士法人川口國際特許事務所

(72)【発明者】

【氏名】ダン，オー

(72)【発明者】

【氏名】ハート，ロジャー

(72)【発明者】

【氏名】ウォン，ハン－チュン

【テーマコード（参考）】

4H045

【Ｆターム（参考）】

4H045AA10

4H045AA30

4H045AA50

4H045EA20

4H045GA22

4H045GA23

4H045GA26

(57)【要約】

治療用タンパク質を製造するためのクロマトグラフィーパラメータの選択を促進する方法において、仮説的クロマトグラフィープロセスと関連する１つ以上のプロセスパラメータ値及び治療用タンパク質を記述する１つ以上の分子記述子が受け取られる。本方法は、機械学習モデルを使用して、少なくとも１つ以上のプロセスパラメータ及び１つ以上の分子記述子を分析することにより、仮説的クロマトグラフィープロセスの性能指標値を予測する工程も含む。機械学習モデルは、回帰木モデル、ｅＸｔｒｅｍｅ勾配ブーストモデル又はエラスティックネットモデルである。本方法は、予測された性能指標値及び／又は予測された性能指標値が１つ以上の合格判定基準を満たすかどうかの指標を、ユーザインターフェースを介してユーザに提示させる工程も含む。

【特許請求の範囲】

【請求項1】

治療用タンパク質の製造中の精製プロセスのためのクロマトグラフィーパラメータの選択を促進する方法であって、
コンピューティングシステムの１つ以上のプロセッサにより、仮説的クロマトグラフィープロセスと関連する１つ以上のプロセスパラメータ値を受け取る工程；
前記１つ以上のプロセッサにより、前記治療用タンパク質を記述する１つ以上の分子記述子を受け取る工程；
前記１つ以上のプロセッサにより、機械学習モデルを使用して、少なくとも前記１つ以上のプロセスパラメータ及び前記１つ以上の分子記述子を分析することにより、前記仮説的クロマトグラフィープロセスの性能指標値を予測する工程であって、前記機械学習モデルは、（ｉ）回帰木モデル、（ｉｉ）ｅＸｔｒｅｍｅ勾配ブーストモデル、及び（ｉｉｉ）エラスティックネットモデルからなる群から選択されるモデルである、工程；及び
前記１つ以上のプロセッサにより、（ｉ）前記予測された性能指標値、及び（ｉｉ）前記予測された性能指標値が１つ以上の合格判定基準を満たすかどうかの指標を、ユーザインターフェースを介してユーザに提示させる工程
を含む方法。

【請求項2】

治療用タンパク質の製造中の精製プロセスのためのクロマトグラフィーパラメータの選択を促進する方法であって、
コンピューティングシステムの１つ以上のプロセッサにより、仮説的クロマトグラフィープロセスと関連する１つ以上の性能指標値を受け取る工程；
前記１つ以上のプロセッサにより、前記治療用タンパク質を記述する１つ以上の分子記述子を受け取る工程；
前記１つ以上のプロセッサにより、機械学習モデルを使用して、少なくとも前記１つ以上の性能指標値及び前記１つ以上の分子記述子を分析することにより、前記仮説的クロマトグラフィープロセスのプロセスパラメータ値を予測する工程であって、前記機械学習モデルは、（ｉ）回帰木モデル、（ｉｉ）ｅＸｔｒｅｍｅ勾配ブーストモデル、及び（ｉｉｉ）エラスティックネットモデルからなる群から選択されるモデルである、工程；及び
前記１つ以上のプロセッサにより、（ｉ）前記予測されたプロセスパラメータ値、及び（ｉｉ）前記予測されたプロセスパラメータ値の予測された精度範囲の一方又は両方を、ユーザインターフェースを介してユーザに提示させる工程
を含む方法。

【請求項3】

前記仮説的クロマトグラフィープロセスは、
仮説的カチオン交換クロマトグラフィー（ＣＥＸ）プロセス；
仮説的サイズ排除クロマトグラフィー（ＳＥＣ）プロセス；及び
プロテインＡクロマトグラフィープロセス
からなる群から選択されるプロセスである、請求項１又は２に記載の方法。

【請求項4】

前記１つ以上のプロセッサにより、前記治療用タンパク質と関連する配列情報に基づいて、前記１つ以上の分子記述子の少なくとも１つを決定する工程を更に含む、請求項１～３のいずれか一項に記載の方法。

【請求項5】

前記１つ以上のプロセッサにより、前記治療用タンパク質の物理的特性の実験的測定に基づいて、前記１つ以上の分子記述子の少なくとも１つを決定する工程を更に含む、請求項１～４のいずれか一項に記載の方法。

【請求項6】

前記１つ以上の分子記述子の少なくとも１つは、ｐＨレベルの関数である、請求項１～５のいずれか一項に記載の方法。

【請求項7】

前記１つ以上のプロセスパラメータ値は、
緩衝液のｐＨ；
溶出緩衝液のｐＨ；
溶出緩衝液の伝導度；
溶出緩衝液のモル濃度；
勾配の傾斜；
線速度；
負荷伝導度；
負荷因子；
負荷ｐＨ；又は
収集停止
の１つ以上を含む、請求項１～６のいずれか一項に記載の方法。

【請求項8】

前記機械学習モデルは、前記回帰木モデルである、請求項１～７のいずれか一項に記載の方法。

【請求項9】

前記性能指標値は、
ｎｒＣＥ－ＳＤＳＬＣ＋ＨＣ（％）；
ｒＣＥ－ＳＤＳプレ－ＬＣ（％）；
ＣＥＸ塩基性（％）；
ＳＥＣＨＭＷ（％）；
ＳＥＣメイン（％）；
ＳＥＣＬＭＷ（％）；
ｒＣＥ－ＳＤＳＨＣ（％）；
ｒＣＥ－ＳＤＳＨＭＷ（％）；
ｒＣＥ－ＳＤＳプレ－ＬＣ＋ＬＣ＿ＨＣ（％）；
プール伝導度；又は
ｎｒＣＥ－ＳＤＳプレピーク（％）
を含む、請求項８に記載の方法。

【請求項10】

前記機械学習モデルは、前記ｅＸｔｒｅｍｅ勾配ブーストモデルである、請求項１～７のいずれか一項に記載の方法。

【請求項11】

前記性能指標値は、
ＣＥＸ酸性（％）；
ＣＥＸメイン（％）；
工程収率；
ｒＣＥ－ＳＤＳメイン（％）；
ｒＣＥ－ＳＤＳＬＭＷ（％）；
ｃＩＥＦ酸性（％）；
ｃＩＥＦ塩基性（％）；又は
ｃＩＥＦメイン（％）
を含む、請求項１０に記載の方法。

【請求項12】

前記性能指標値は、ＳＥＣＨＭＷ（％）を含む、請求項９に記載の方法。

【請求項13】

前記１つ以上のプロセッサにより、追加の機械学習モデルを使用して、少なくともプロセスパラメータ及び分子記述子を分析することにより、前記仮説的クロマトグラフィープロセスの収率を予測する工程であって、前記追加の機械学習モデルは、別のｅＸｔｒｅｍｅ勾配ブーストモデルである、工程；及び
前記１つ以上のプロセッサにより、（ｉ）前記予測された収率、及び（ｉｉ）前記予測された収率が１つ以上の追加の合格判定基準を満たすかどうかの指標を、前記ユーザインターフェースを介して前記ユーザに提示させる工程
を更に含む、請求項１２に記載の方法。

【請求項14】

前記機械学習モデルは、前記エラスティックネットモデルである、請求項１～７のいずれか一項に記載の方法。

【請求項15】

前記性能指標値は、
ｒＣＥ－ＳＤＳＬＣ＋ＨＣ（％）；又は
ｒＣＥ－ＳＤＳＬＣ（％）
を含む、請求項１４に記載の方法。

【請求項16】

前記提示された性能指標値及び／又は前記提示された指標に基づいて、前記治療用タンパク質のためのクロマトグラフィープロセスの１つ以上のプロセスパラメータ値を選択する工程；及び
前記選択されたプロセスパラメータ値に従って前記治療用タンパク質のための前記クロマトグラフィープロセスを実施する工程
を更に含む、請求項１又は３～１５のいずれか一項に記載の方法。

【請求項17】

前記提示された予測されたプロセスパラメータ値及び／又は前記予測された精度範囲に基づいて、前記治療用タンパク質のためのクロマトグラフィープロセスの１つ以上のプロセスパラメータ値を選択する工程；及び
前記選択されたプロセスパラメータ値に従って前記治療用タンパク質のための前記クロマトグラフィープロセスを実施する工程
を更に含む、請求項２～１５のいずれか一項に記載の方法。

【請求項18】

コンピューティングシステムの１つ以上のプロセッサによって実行されると、前記コンピューティングシステムに、請求項１～１７のいずれか一項に記載の方法を実施させる命令を保存する１つ以上の非一時的コンピュータ可読媒体。

【請求項19】

コンピューティングシステムであって、
１つ以上のプロセッサ；及び
前記１つ以上のプロセッサによって実行されると、前記コンピューティングシステムに、請求項１～１５のいずれか一項に記載の方法を実施させる命令を保存する１つ以上の非一時的コンピュータ可読媒体
を含むコンピューティングシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本出願は、概して、バイオ医薬製品の製造に関し、より詳細には、治療用タンパク質を製造する場合のクロマトグラフィーパラメータの選択を促進するための、クロマトグラフィープロセス（クロマトグラフィー精製プロセスなど）をモデリングするための技術に関する。

【背景技術】

【0002】

バイオ医薬産業では、バイオ医薬品又は治療用タンパク質として公知の大きく複雑なタンパク質分子は、生物系に由来する。高レベルにおいて、治療用タンパク質を製造するプロセスは、以下の工程：（１）選択ステージにある宿主細胞、所望のタンパク質が生成される遺伝子を含有する万能細胞株が（例えば、チャイニーズハムスター卵巣（ＣＨＯ）細胞を使用して）生成される、宿主細胞の選択ステージ；（２）バイオリアクター内でタンパク質を生成する極めて多くの細胞を増殖させるために規定の培養培地が使用される、細胞培養ステージ；（３）タンパク質を単離させるために以前のステージからの生成物の回収及び精製が実施される、精製ステージ；及び（４）タンパク質が医師又は患者による使用のために調製される、製剤化及び充填－仕上げ－パッケージステージ程を含む。

【0003】

図２は、典型的な治療用タンパク質の製造プロセス１０を示す。第１のステージ１２では、高濃度の所望のタンパク質を産生する最適な細胞がバイアル又は細胞バッグ内で工学的に作製されて凍結保存された後、凍結保存細胞を受領することによって「上流」製造プロセスが開始される。細胞は、典型的には、小型のＴ型フラスコ、振とうフラスコ又はスピナーフラスコ内に解凍され、且つステージ１４でシードバイオリアクターの接種を達成するために、増加した数及び増大させたフラスコサイズで増殖される。増殖プロセスを通して、細胞は、持続的増殖のために制御された条件（温度、ｐＨ及び／又は栄養分）で維持される。培養液量拡大の１つ以上のステージ（図２においてステージ１６と表示した）後、細胞は、ステージ１８で製造バイオリアクターに接種される。ステージ１８中、治療用タンパク質は、細胞によって発現される。この工程後、「下流」プロセスが始まる。下流プロセスでは、ステージ２０において、細胞から培養培地を分離し、且つ／又はバイオリアクター内の他の分子から所望のタンパク質を分離するために、遠心分離濾過又は深層濾過が実施される。ステージ２２では、クロマトグラフィー精製プロセスは、所望のタンパク質を宿主細胞及び不純物又は他の所望ではない物質（例えば、劣化若しくは凝集したタンパク質など）から更に単離する。様々な濾過テクノロジーは、ステージ２２でそのサイズ、分子量及び電荷に基づいてタンパク質を単離及び精製するために使用され得る。結果として生じた物質は、ステージ２４でウイルス濾過を受ける。精製されたタンパク質は、典型的には、注射又は注入され得る無菌溶液を生成するために、賦形剤を用いて調製される。ステージ２６では、物質は、濃縮されて標的緩衝液中に配置され、ラベリング、長期保存及び輸送のために容器（例えば、バイアル又はシリンジ）内に配置される製剤が生成される。この例示的治療薬製造プロセス１０は、例示的目的のために提供されるが、本明細書に記載するクロマトグラフィーパラメータの選択は、クロマトグラフィーを含む、他の治療用タンパク質製造プロセスに容易に適用できることが理解されるであろう。

【0004】

一般に、（例えば、ステージ２２で実施されているような）「クロマトグラフィー」は、分子が２つの相：（１）多くの場合にクロマトグラフィー樹脂である固定相；及び（２）タンパク質分離の場合に水又はクロロホルムなどの溶媒である移動相間に分布する分離プロセスを指す。より強力に固定相に引き付けられる分子は、移動相により強力に引き付けられる分子と比較して、系を通してより緩徐に引き付けられる。商業的製造精製のために、クロマトグラフィーは、典型的には、スケールの考察に起因して、カラムクロマトグラフィーとして実施される。一般的なクロマトグラフィー操作では、ある量のサンプルがカラム内に注入される。溶出液は、次に、カラムを通してポンプ送出され、分子が、固定相の樹脂及び溶出液に対するその相対的な親和性に基づいて分離される。様々な分子は、カラムから様々な時点及び異なる量の溶出液がカラムを通過した後に溶出するであろう。したがって、治療用タンパク質は、様々な時点において、カラムから溶出する他の物質から分離することができる。この情報は、カラムから出る濃度対時間のプロットであるクロマトグラムで捕捉される。

【0005】

疎水性相互作用クロマトグラフィーは、その疎水性の差に基づいてタンパク質を分離するために使用することができ、親和性クロマトグラフィーは、クロマトグラフィー樹脂に付着した標的リガンドに対するその親和性の差に基づいて分子を分離するために使用することができ、及びイオン交換クロマトグラフィーは、分子電荷の差に基づいて分子を分離するために使用することができる。より特定の例として、カチオン交換クロマトグラフィー（ＣＥＸ）は、関心対象の分子が正荷電した場合に使用されるイオン交換クロマトグラフィーである。タンパク質は、酸性及び塩基性側鎖を備えるアミノ酸を有する。バイオ医薬品を取り囲んでいる溶液の酸性レベル（ｐＨ）に依存して、分子は、正電荷、負電荷又は中性であり得る。等電点（ｐＩ）は、プロトン化基及び脱プロトン化基の数が等しいｐＨであり、タンパク質は、正味電荷を有しない。ｐＨがｐＩより高い場合、タンパク質は、正味負電荷を有し、及びｐＨがｐＩ未満である場合、タンパク質は、正味正電荷を有することになる。タンパク質のｐＩは、タンパク質の一次アミノ酸配列によって決定され、したがって計算され得、関心対象のタンパク質の公知の正味電荷を保証する緩衝液を選択することができる。異なるｐＩ値を備えるタンパク質は、所与のｐＨで様々な電荷度を有するため、様々なタンパク質は、異なる強度を備える樹脂に結合し、カラムを通したその分離を促進するであろう。他の一般的なタイプのクロマトグラフィーは、溶液中の分子がサイズ及び／又は分子量によって分離されるサイズ排除クロマトグラフィー（ＳＥＣ）及びプロテインＡクロマトグラフィーである。

【発明の概要】

【発明が解決しようとする課題】

【0006】

慣例的に、クロマトグラフィーパラメータ（例えば、溶出緩衝液のｐＨ、溶出緩衝液の導電性、溶出緩衝液のモル濃度、勾配の傾斜、線速度、負荷及び収集時間）を選択すること及び精製ステージが特定の生成物／分子に対して（例えば、特定の溶液、特定のｐＨなどを用いて）どのように実施されるかを決定することは、時間、費用、労働力及び装置の使用に関して高度に資源集約的であり得、且つ経験的測定値を得るために、多くの実験をセットアップして実行することにより、極めて多くの試行錯誤を必要とする可能性がある。しかしながら、バイオテクノロジーのペースが進むにつれて、且つパイプライン内の追加の分子をプロセッシングすることが一層大きく強調されるにつれて、クロマトグラフィー精製プロセスを含む製造プロセスをより迅速に設計及び実行する必要性が一層増加している。

【課題を解決するための手段】

【0007】

本明細書に記載する実施形態は、治療用タンパク質の製造における精製プロセスの性能を予測する１つ以上のモデルを作成及び適用するシステム及び方法に関する。治療用タンパク質は、例えば、モノクローナル抗体（「ｍＡｂ」）又は二重特異性若しくは他の多重特異性抗体などの任意の好適なタイプのタンパク質であり得る。より詳細には、これらの実施形態では、例えば、ＣＥＸ、ＳＥＣ、プロテインＡ若しくは任意の他の好適なクロマトグラフィープロセスなどのクロマトグラフィー精製プロセスの性能指標値（例えば、製品収率及び／又は品質尺度）を、様々なプロセスパラメータ（例えば、緩衝液及び／又は溶出緩衝液及び／又は負荷ｐＨ、溶出緩衝液のモル濃度、溶出緩衝液の伝導度、勾配の傾斜、線速度、負荷伝導度、負荷因子、収集停止、カラム体積、実質的ＣＥＸ負荷（ＣＥＸが使用される場合）、負荷流量、溶出流量、緩衝液濃度、勾配長、勾配始点、勾配終点、プール体積、タンパク質濃度、プール開始及び／又はプール終了）並びに分子記述子（例えば、分子の物理的特性の数学的表現）に基づいて予測するために機械学習モデルが使用される。このプロセスは、従来型プロセスと比較して、クロマトグラフィープロセスパラメータのより良好な選択を生じさせることができ、（例えば、実験を実施する必要性を除去又は低減することによって）下流製造プロセスを設計／開発／実行するために必要とされる時間量の実質的減少及び／又は他の（例えば、労働力、装置、費用などの）資源の使用の実質的低減を生じさせることができる。更に、このプロセスは、異なる分子の（様々な分子記述子に関連する）物理的特徴量がクロマトグラフィーの性能にどのような影響を及ぼすかを解明することができ、それにより分子設計に関する洞察を提供する。

【0008】

性能指標値は、典型的には、プロセスパラメータに依存することが企図される。本明細書に記載するように、ヌルでないプロセスパラメータは、１つ以上の性能指標値に基づいて予測することができ、これは、１つ以上の所望のプロセスパラメータに基づくプロセスパラメータ（又はその精度範囲）の効率的な予測を許容する。本明細書の幾つかの実施形態は、１つ以上の所望の性能指標値に基づいて、精製プロセスのためのクロマトグラフィーパラメータの選択を促進する１つ以上のモデルを作製及び適用するシステム及び方法に関する。これらの方法は、治療用タンパク質の製造中の精製プロセスのためのクロマトグラフィーパラメータの選択を促進するために使用することができる。これらの実施形態では、様々なプロセスパラメータ及び分子記述子（例えば、分子の物理的特性の数学的表現）に基づいて、例えばＣＥＸ、ＳＥＣ、プロテインＡ又は任意の他の好適なクロマトグラフィープロセスの１つ以上の性能指標値（例えば、製品収率及び／又は品質尺度）に基づいて、プロセスパラメータ（例えば、緩衝液及び／又は溶出緩衝液及び／又は負荷ｐＨ、溶出緩衝液のモル濃度、溶出緩衝液の伝導度、勾配の傾斜、線速度、負荷伝導度、負荷因子、収集停止、カラム体積、実質的ＣＥＸ負荷（ＣＥＸが使用される場合）、負荷流量、溶出流量、緩衝液濃度、勾配長、勾配始点、勾配終点、プール体積、タンパク質濃度、プール開始及び／又はプール終了）を予測するために機械学習モデルが使用される。

【0009】

更に、解釈可能な機械学習アルゴリズムを使用して、正確な予測を行うために最も重要である入力特徴量（例えば、分子記述子及びプロセスパラメータ又は性能指標）を同定することができる。これは、特に、プロセスパラメータ、性能指標の数及び特に潜在的な分子記述子の数が膨大である（例えば、数百又は更に数千の潜在的分子記述子）ことを前提にすると、特に有益であり得る。したがって、例えば、比較的少数の入力特徴量を使用する精製プロセスのために十分に正確な記述子を作成することと、多くの他のパラメータ及び／又は記述子を測定又は計算する必要性を排除することとが可能になり得る。入力パラメータ／記述子と予測標的との間の相関の知識は、科学的洞察を提供し得、且つ将来的なバイオプロセスの改善を導き得る更なる研究のための仮説も生じ得る。

【0010】

当業者は、本明細書で説明する図が説明のために含まれ、本開示を限定しないことを理解するであろう。図面は、必ずしも縮尺通りではなく、代わりに本開示の原理を示すことに重点が置かれている。幾つかの場合、記載される実施形態の種々の態様は、記載される実施形態の理解を促進するために誇張又は拡大して示される場合があることを理解されたい。図面では、種々の図面を通して同様の参照符号は、全般的に、機能的に類似する及び／又は構造的に類似する構成要素を指す。

【図面の簡単な説明】

【0011】

【図1】本明細書に記載される技術が実装され得る例示的なシステムの簡略化したブロック図である。

【図2】原薬を製造するための先行技術のプロセスを示す。

【図3】図１のシステムで使用するための機械学習モデルを生成するための例示的プロセスのフロー図である。

【図4A】ｅＸｔｒｅｍｅ勾配ブーストモデルを使用して実験的収率又はＳＥ－ＨＰＬＣＨＭＷを予測するための例示的な特徴量の重要度尺度を示す。

【図4B】ｅＸｔｒｅｍｅ勾配ブーストモデルを使用して実験的収率又はＳＥ－ＨＰＬＣＨＭＷを予測するための例示的な特徴量の重要度尺度を示す。

【図5A】治療用タンパク質の製造中の生成プロセスのためのクロマトグラフィーパラメータの選択を促進するための例示的方法のフロー図である。

【図5B】治療用タンパク質の製造中の生成プロセスのためのクロマトグラフィーパラメータの選択を促進するための例示的方法のフロー図である。

【発明を実施するための形態】

【0012】

上記で導入として説明され、以下でより詳細に論じられる種々の概念は、多くの方法のいずれかで実施することができ、説明される概念は、いかなる特定の実施形態の様式にも限定されない。実施形態の例は、説明を目的として提供される。

【0013】

図１は、本明細書で記載される技術が実装され得る例示的なシステム１００の簡略化されたブロック図である。システム１００は、ネットワーク１０６を介してトレーニングサーバ１０４に通信可能に接続されたコンピューティングシステム１０２を含む。概して、コンピューティングシステム１０２及び／又はトレーニングサーバ１０４は、１つ以上の機械学習（ＭＬ）モデル１０８をトレーニングするように構成され、トレーニングされたモデルを使用して、治療用タンパク質の製造において使用できる仮説的クロマトグラフィープロセスの性能（例えば、収率及び／又は製品品質尺度）を予測する。本明細書で使用する用語「仮説的」は、対応する現実世界のプロセスが存在しないことを必ずしも意味しないことを理解されたい。例えば、予測された性能は、対応する現実世界のクロマトグラフィー精製プロセスと同時に又は更にその後にＭＬモデル１０８の１つを実行することにより、測定された性能と比較することができる。クロマトグラフィー精製プロセスは、ＣＥＸプロセス、ＳＥＣプロセス、プロテインＡクロマトグラフィープロセス又は任意の他の好適なクロマトグラフィープロセスの少なくとも１つを含み得る。

【0014】

ＭＬモデル１０８は、プロセスパラメータ（例えば、溶出緩衝液のｐＨ、塩濃度、カラム体積など）、分子記述子（例えば、分子電荷を含むか又は分子電荷に関するパラメータ、疎水性、等電点、双極子モーメントなど）及び／又は他の数的及び／又はカテゴリーパラメータ（例えば、モノクローナル抗体（ｍＡｂ）などの様式）又は二重特異性抗体など）に基づいて性能を予測することができる。コンピューティングシステム１０２は、概して、ローカル又は遠隔に配置され得る１人以上の使用者がコンピューティングシステム１０２の予測能力を利用し、且つ本明細書の他の箇所で考察するように使用者に様々なインタラクティブ能力を提供することを可能にするようにも構成される。

【0015】

ネットワーク１０６は、単一の通信ネットワークであり得るか、或いは１つ以上の種類の複数の通信ネットワーク（例えば、１つ以上の有線及び／若しくは無線ローカルエリアネットワーク（ＬＡＮ）並びに／又はインターネットなどの１つ以上の有線及び／若しくは無線広域ネットワーク（ＷＡＮ））を含み得る。様々な実施形態では、トレーニングサーバ１０４は、「クラウド」サービス（例えば、ＡｍａｚｏｎＷｅｂＳｅｒｖｉｃｅｓ）としてＭＬモデル１０８をトレーニング及び／若しくは使用するか、又はトレーニングサーバ１０４は、ローカルサーバであり得る。しかしながら、図示した実施形態では、ＭＬモデル１０８は、サーバ１０４によってトレーニングされ、必要に応じてネットワーク１０６を介してコンピューティングシステム１０２に転送される。他の実施形態では、ＭＬモデル１０８の１つ、幾つか又は全ては、コンピューティングシステム１０２上でトレーニングされ、次いでサーバ１０４にアップロードされ得る。更に他の実施形態では、コンピューティングシステム１０２は、その場合にシステム１００がネットワーク１０６及びトレーニングサーバ１０４の両方を排除し得るモデル１０８をトレーニングし、且つ維持／保存するか、又はサーバ１０４は、コンピューティングシステム１０２の一部であり得る。

【0016】

コンピューティングシステム１０２は、本明細書で考察した操作を実施するために特別にプログラミングされた１つ以上の汎用コンピュータを含み得、且つ／又は１つ以上の特殊用途のコンピューティングデバイスを含み得る。図１から明らかなように、コンピューティングシステム１０２は、プロセッシングユニット１２０、ネットワークインターフェース１２２、ディスプレイ１２４、ユーザ入力装置１２６及びメモリユニット１２８を含む。コンピューティングシステム１０２が２つ以上のコンピュータ（相互に同じ場所又は離れた場所に所在するのいずれか）を含む実施形態では、少なくともプロセッシングユニット１２０、ネットワークインターフェース１２２及び／又はメモリユニット１２８に関連する本明細書に記載した操作は、複数のプロセッシングユニット、複数のネットワークインターフェース及び／又は複数のメモリユニットの各々の間で分割することができる。更に、ディスプレイ１２４及びユーザ入力装置１２６は、本明細書では単数形で言及されるが、複数のディスプレイ及び複数のユーザ入力装置各々を含むことができる。例えば、ディスプレイ１２４は、多くの遠隔のユーザ特異的クライアント装置のそれぞれで少なくとも１つのディスプレイを含み得、及びユーザ入力装置１２６は、そのクライアント装置のそれぞれについて少なくとも１つのユーザ入力装置を含み得る。

【0017】

プロセッシングユニット１２０は、１つ以上のプロセッサを含み、それらのそれぞれは、本明細書に記載したコンピューティングシステム１０２の機能の幾つか又は全てを実行するためにメモリユニット１２８に保存されたソフトウェア命令を実行する、プログラム可能なマイクロプロセッサであり得る。プロセッシングユニット１２０は、例えば、１つ以上の中央プロセッシングユニット（ＣＰＵ）及び／又は１つ以上のグラフィックスプロセッシングユニット（ＧＰＵ）を含み得る。代わりに又は加えて、プロセッシングユニット１２０内のプロセッサの幾つかは、他のタイプのプロセッサ（例えば、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）など）であり得、本明細書に記載したコンピューティングシステム１０２の機能の幾つかは、代わりに、ハードウェアに実装され得る。

【0018】

ネットワークインターフェース１２２は、１つ以上の通信プロトコルを使用して、ネットワーク１０６を介してトレーニングサーバ１０４と通信するように構成された任意の適切なハードウェア（例えば、フロントエンド送信機及び受信機ハードウェア）、ファームウェア及び／又はソフトウェアを含み得る。例えば、ネットワークインターフェース１２２は、コンピューティングシステム１０２がインターネット又はイントラネットなどの上でトレーニングサーバ１０４と通信することを可能にするイーサネットインターフェースであり得るか又はそれを含み得る。

【0019】

ディスプレイ１２４は、ユーザに情報を提示するために任意の適切なディスプレイ技術（例えば、ＬＥＤ、ＯＬＥＤ、ＬＣＤなど）を使用し得、ユーザ入力装置１２６は、キーボード又は他の適切な入力装置であり得る。幾つかの実施形態では、ディスプレイ１２４及びユーザ入力装置１２６は、単一装置（例えば、タッチスクリーンディスプレイ）内に一体化される。概して、ディスプレイ１２４及びユーザ入力装置１２６は、ユーザが、コンピューティングシステム１０２によって提供されたグラフィカルユーザインターフェース（ＧＵＩ）と相互作用することを可能にするために結び付けることができる。しかしながら、コンピューティングシステム１０２は、その装置又はシステムのユーザによる相互作用を可能にするために、コンピューティングシステム１０２が他のコンピューティング装置又はシステム（例えば、サードパーティーのクライアント装置）と相互作用する所定の実施形態では、ディスプレイ１２４及び／又はユーザ入力装置１２６を排除することができる。

【0020】

メモリユニット１２８は、１つ以上の揮発性及び／又は不揮発性メモリを含み得る。読み取り専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、フラッシュメモリ、ソリッドステートドライブ（ＳＳＤ）、ハードディスクドライブ（ＨＤＤ）など、１つ以上の任意の適切なメモリタイプを含めることができる。メモリユニット１２８は、まとめて、１つ以上のソフトウェアアプリケーション、そのアプリケーションによって受け取られる／使用されるデータ及びそのアプリケーションによって出力／生成されるデータを保存し得る。これらのアプリケーションは、プロセッシングユニット１２０によって実行された場合、治療用タンパク質の製造中の精製のための仮説的クロマトグラフィープロセスの性能（例えば、収率及び／又は品質尺度）を予測するクロマトグラフィーモデリングアプリケーション１３０を含む。幾つかの実施形態では、本明細書で考察したアプリケーション１３０の様々な「ユニット」は、様々なソフトウェアアプリケーション間に分配され得、及び／又は任意の１つのそのような装置の機能性は、２つ以上のソフトウェアアプリケーション間で分割され得る。

【0021】

例示的システム１００では、アプリケーション１３０は、データ収集ユニット１３２、予測ユニット１３４及び可視化ユニット１３６を含む。一般に、データ収集ユニット１３２は、予測ユニット１３４が、性能指標値（例えば、収率若しくは製品品質尺度）又はプロセスパラメータ（又はその精度範囲）を予測するために、ローカル機械学習（ＭＬ）モデル１３８への入力として適用されるパラメータを受信する（例えば、読み出す）。図示した実施形態では、ＭＬモデル１３８は、トレーニングサーバ１０４によってトレーニングされたモデル１０８の１つのローカルコピーであり、例えばメモリユニット１２８のＲＡＭに保存することができる。上述したように、しかしながら、サーバ１０４は、幾つかの実施形態では、全モデル１０８を利用／実行することができ、いずれの場合にもメモリユニット１２８内に存在する必要のあるローカルコピーがないか、又はモデル１０８の全ては、必要に応じてトレーニングサーバ１０４から読み出されるのではなく、むしろメモリユニット１２８の継続的なメモリ中に存在し得る。データ収集ユニット１３２は、可視化ユニット１３６により生成又は追加されるＧＵＩ（例えば、ディスプレイ１２４上で）ユーザ入力パラメータ／値からの値を受信することができ、且つ／又は例えば１つ以上のファイル若しくは他のデータ転送として（例えば、そのようなＧＵＩを介してユーザによって指定されたファイルパスを用いて）値を受信することができる。

【0022】

可視化ユニット１３６は、例えば、モデル化プロセスの予測された結果（例えば、性能指標値出力又はモデル１３８を使用した予測ユニット１３４によるプロセスパラメータ出力の値）を見て、且つ／又は相互作用するためにＧＵＩを生成及び／若しくは追加することもできる。実施形態に依存して、可視化ユニット１３６は、ユーザが有用なモデルを開発する（例えば、所与性能指標値又はプロセスパラメータについての最も予測的な特徴量を同定する、モデルについてのハイパーパラメータを最適化するなど）のためのツール、及び／又はユーザが（例えば、高度に一貫性／再現性などである高収率及び優れた品質属性を備えるプロセスを達成するための）クロマトグラフィー精製プロセスを設計する（例えば、最適化する）ときにそのようなモデルを利用するツールも提供することができる。

【0023】

例示的システム１００では、メモリユニット１２８は、関心対象の治療用タンパク質のためのホモロジーモデリングを提供する分子操作環境（ＭＯＥ）アプリケーション１３９のソフトウェア命令も保存する。概して、ＭＯＥアプリケーション１３９は、分子についての入力情報に基づいて、分子についての記述子（例えば電荷、疎水性、双極子モーメント、等電点などの分子の物理的特徴量の数学的表現）を生成するように構成される。例えば、ユーザは、ＭＯＥアプリケーション１３９を使用して、（例えば、ユーザ入力装置１２６を介して）分子のアミノ酸配列を入力し、且つ適切な分子鋳型を選択することができる。ＭＯＥアプリケーション１３９は、次に、アミノ酸配列を、選択された鋳型に「適合させる」ことを試みることができる。代わりに又は加えて、ＭＯＥアプリケーション１３９は、分子についての実験的／測定結果に基づいて記述子を生成することができる。代替実施形態では、ＭＯＥアプリケーション１３９は、コンピューティングシステム１０２以外の（例えば、サードパーティコンピューティング装置又はシステムによって）コンピューティング装置又はシステムによって保存及び実行される。

【0024】

ここで、一実施形態によるシステム１００の作動を更に詳細に記載する。最初に、トレーニングサーバ１０４は、トレーニングデータベース１４０に保存された歴史的データを使用してＭＬモデル１０８をトレーニングする。トレーニングデータベース１４０は、単一のメモリ（例えば、ＨＤＤ、ＳＳＤなど）に保存された単一のデータベース又は１つ以上のメモリに保存された複数のデータベースを含み得る。ＭＬモデル１０８は、例えば、ｅＸｔｒｅｍｅ勾配ブースト（又は「ｘｇｂｏｏｓｔ」）モデル、回帰（又は「決定」若しくは「ＩＤ」）木モデル、エラスティックネット（ｅｌａｓｔｉｃｎｅｔ）モデル、投げ縄モデル、リッジモデル、確率的勾配降下法（ＳＧＤ）正規化損失線形モデル、線形サポートベクターマシン（ＳＶＭ）モデル、部分最小二乗法（ＰＬＳ）回帰モデル及び／又は１つ以上の他の好適なモデルタイプなどの多くの様々なタイプの機械学習モデルを含み得る。更に、ＭＬモデル１０８の様々なモデルは、異なる性能指標値（例えば、収率、特定のＣＥＸ読み出し、特定のＳＥＣ読み出しなど）又は異なるプロセスパラメータ（例えば、緩衝液及び／又は溶出緩衝液及び／又は負荷ｐＨ、溶出緩衝液モル濃度、溶出緩衝液の伝導度、勾配の傾斜、線速度、負荷伝導度、負荷因子、収集停止、カラム体積、実際のＣＥＸ負荷（ＣＥＸが使用される場合）、負荷流量、溶出流量、緩衝液濃度、勾配長、勾配始点、勾配終点、プール体積、タンパク質濃度、プール開始及び／又はプール終了）を予測するためにトレーニングすることができる。幾つかの実施形態では、例えば、ＭＬモデル１０８は、詳細には、第１のセットの１つ以上の性能指標値を予測するための回帰木モデル、異なる第２のセットの１つ以上の性能指標値を予測するためのｘｇｂｏｏｓｔモデル及び異なる第３のセットの１つ以上の性能指標値を予測するためのエラスティックネットモデルを含む。幾つかの実施形態では、例えば、ＭＬモデル１０８は、詳細には、第１のセットの１つ以上のプロセスパラメータを予測するための回帰木モデル、異なる第２のセットの１つ以上のプロセスパラメータを予測するためのｘｇｂｏｏｓｔモデル及び異なる第３のセットの１つ以上のプロセスパラメータを予測するためのエラスティックネットモデルを含む。更に、幾つかの実施形態では、ＭＬモデル１０８は、任意の所与のタイプの２つ以上のモデル（例えば、異なる特徴量セットを使用し、且つ／又は異なるハイパーパラメータを有する異なる歴史的データセット上でトレーニングされた同一タイプの２つ以上のモデル）を含むことができる。幾つかの実施形態において且つ図４Ａ及び４Ｂと結び付けて更に詳細に考察したように、ＭＬモデル１０８のそれぞれは、いずれの特徴量（例えば、プロセスパラメータ、分子記述子など）が特定の性能指標値の最高の予測因子であるか（適用可能な場合）を識別するために使用され得、且つ／又は特定の性能指標値若しくはプロセスパラメータの最高の予測因子である特徴量のみを含む特徴量セットを用いてトレーニング若しくは再トレーニングされ得る。

【0025】

ＭＬモデル１０８内のそれぞれの異なるモデルに対して、トレーニングデータベース１４０は、トレーニングデータの対応するセット（例えば、入力／特徴量データ及び対応するラベル）を保存し得、場合によりトレーニングデータセット間で重複することもある。収率パーセンテージを予測するモデルをトレーニングするために、例えば、トレーニングデータベース１４０は、それぞれが歴史的プロセスパラメータ（例えば、ｐＨレベル、負荷流量、塩濃度など）を含む、分析機器によって作製されている可能性がある多くのセットの入力／特徴量並びに製造されているタンパク質のためのソフトウェア（例えば、ＭＯＥアプリケーション１３９又は類似のソフトウェア）によって計算された分子記述子（例えば、電荷、疎水性、等電点などに関する記述子）及び場合により他の情報（例えば、製造中のタンパク質の様式）を、それぞれの特徴量セットのためのラベルと一緒に含むことができる。この実施例では、それぞれの特徴量セットについてのラベルは、特定のタンパク質がクロマトグラフィープロセスにおいて測定された場合の収率パーセンテージを示す。幾つかの実施形態では、全ての特徴量及びラベルは、数値であり、数値でない分類又はカテゴリーは、数値にマッピングされる（例えば、モダリティ機能／入力の許容値［Ｍｏｎｏｃｌｏｎａｌ、ＢｉｓｐｅｃｉｆｉｃＦｏｒｍａｔ１、ＢｉｓｐｅｃｉｆｉｃＦｏｒｍａｔ２、ＢｉｓｐｅｃｉｆｉｃＦｏｒｍａｔ１又は２］は、値［００、１０、０１、１１］にマッピングされる）。

【0026】

幾つかの実施形態では、トレーニングサーバ１０４は、トレーニングされたＭＬモデル１０８を検証するために（例えば、ＭＬモデル１０８の所与の１つが少なくともいくらかの最小許容可能性正確性を提供することを確認するために）、トレーニングデータベース１４０内の追加のラベル付きデータセットを使用する。幾つかの実施形態では、トレーニングサーバ１０４は、継続的に１つ以上のＭＬモデル１０８も更新／改良する。例えば、ＭＬモデル１０８が十分な精度レベルを提供するために最初にトレーニングされた後、クロマトグラフィー性能指標値（及び対応する入力／特徴量）の追加の測定を使用すると、予測精度を改善することができる。

【0027】

アプリケーション１３０は、ネットワーク１０６及びネットワークインターフェース１２２を介してトレーニングサーバ１０４から、関心対象の性能指標値に対応するＭＬモデル１０８の特定の１つを読み出し得る。性能指標値は、例えば、可視化ユニット１３６によって生成又は追加されたＧＵＩを介してユーザによって指示された１つであり得る。モデルを読み出すと、コンピューティングシステム１０２は、ローカルＭＬモデル１３８としてローカルコピーを保存する。他の実施形態では、上述したように、モデルは、読み出されず、代わりに、入力／データは、トレーニングサーバ１０４（若しくは他のサーバ）に、必要に応じてモデル１０８の適切なモデルを使用するために送信されるか、又は全てのモデル１０８は、コンピューティングシステム１０２にのみ存在し得る。

【0028】

特定モデル１０８又はモデル１３８が予測するためにトレーニングされる性能指標値は、例えば収率又は製品品質（例えば、純度）などの性能の任意の態様の指標値を含み得る。更に、性能指標値は、異なるタイプのクロマトグラフィーにとって一般的である（例えば、収率）又は特定タイプのクロマトグラフィーにとって特異的である（例えば、ＣＥＸ、ＳＥＣ、プロテインＡなど）可能性がある。例えば且つ限定なしに、ＭＬモデル１０８又は１３８は、以下の指標値：工程収率、ＣＥＸ酸性（％）、ＣＥＸメイン（％）、ＣＥＸ塩基性（％）、ＳＥＣ高分子量（ＨＭＷ）（％）、ＳＥＣメイン（％）、ＳＥＣ低分子量（ＬＭＷ）（％）、還元サンプル調製（ｒＣＥ－ＳＤＳ）メイン（％）、ｒＣＥ－ＳＤＳＬＭＷ（％）、ｒＣＥ－ＳＤＳ軽鎖（ＬＣ）＋重鎖（ＨＣ）（％）を伴うキャピラリー電気泳動ドデシル硫酸ナトリウム、還元サンプル調製（ｎｒＣＥ－ＳＤＳ）メイン（％）、ｒＣＥ－ＳＤＳプレ－ＬＣ（％）、ｒＣＥ－ＳＤＳＬＣ（％）、ｒＣＥ－ＳＤＳ非グリコシル化重鎖（ＮＧＨＣ）（％）、ｒＣＥ－ＳＤＳＨＣ（％）、ｒＣＥ－ＳＤＳＨＭＷ（％）、ｒＣＥ－ＳＤＳプレ－ＬＣ＋ＬＣ＋ＨＣ（％）を伴わないキャピラリー電気泳動ドデシル硫酸ナトリウム（ｎｒＣＥ－ＳＤＳ）、プール伝導度（ｍＳ／ｃｍ）、キャピラリー等電点電気泳動法（ｃＩＥＦ）酸性（％）、ｃＩＥＦ塩基性（％）、ｃＩＥＦメイン（％）、ｎｒＣＥ－ＳＤＳプレピーク（％）、宿主細胞タンパク質（ＨＣＰ）及びＳＥ－ＨＰＬＣＨＭＷのいずれかを予測することができる。幾つかの実施形態では、特定モデル１０８又はモデル１３８が予測するためにトレーニングされるプロセスパラメータは、プロセスの任意の態様又はその精度範囲の指標値（例えば、８０％、８５％、９０％又は９５％の信頼区間などの信頼区間）を含み得る。例えば且つ限定なしに、ＭＬモデル１０８又は１３８は、以下のプロセスパラメータ：緩衝液及び／又は溶出緩衝液及び／又は負荷ｐＨ、溶出緩衝液のモル濃度、溶出緩衝液の伝導度、勾配の傾斜、線速度、負荷伝導度、負荷因子、収集停止、カラム体積、実際のＣＥＸ負荷（ＣＥＸが使用される場合）、負荷流量、溶出流量、緩衝液濃度、勾配長、勾配始点、勾配終点、プール体積、タンパク質濃度、プール開始及び／又はプール終了のいずれかを予測することができる。

【0029】

データ収集ユニット１３２は、モデル１３８によって使用される特徴量セットに従って、必要なデータを収集する。例えば、データ収集ユニット１３２は、ユーザが入力したプロセスパラメータ（又は必要に応じて性能指標値）並びに関心対象の治療用タンパク質のためのＭＯＥアプリケーション１３９による分子記述子出力（例えば、ユーザがＭＯＥアプリケーション１３９にタンパク質のアミノ酸配列を入力又はさもなければ提供した後に）を受信することができる。プロセスパラメータ及び性能指標値は、本明細書に記載したとおりであり得る。例えば、プロセスパラメータは、例えば且つ限定なしに、緩衝液のｐＨ、溶出緩衝液の伝導度（ｍＳ／ｃｍ）、溶出緩衝液のモル濃度（ｍＭ）、溶出緩衝液のｐＨ、勾配の傾斜（ｍＭ／ＣＶ）、線速度（ｃｍ／ｈｒ）、負荷伝導度（ｍＳ／ｃｍ）、負荷因子（ｇ／Ｌｒ）、負荷ｐＨ、収集停止（％）、カラム体積、実際のＣＥＸ負荷、負荷流量、溶出流量、緩衝液の濃度、勾配長、勾配始点、勾配終点、プール体積、タンパク質濃度、プール開始及び／又はプール終了などの仮説的クロマトグラフィープロセスの条件又は特徴量に関連する任意のパラメータを含み得る。

【0030】

ＭＯＥアプリケーション１３９によって生成された分子記述子は、例えば且つ限定なしに、ＭＯＥソフトウェアのユーザに公知である以下の記述子：ｐＨ、ＨＩ、ｐｒｏ＿Ｆｖ＿ｎｅｔ＿ｃｈａｒｇｅ、Ｕ、ａｓａ＿ｈｙｄ、ｖｉｓｃｏｓｉｔｙ、ｈｙｄ＿ｉｄｘ、ｐｒｏ＿ｈｅｌｉｃｉｔｙ、ａｐｏｌ、ａｓａ＿ｈｐｈ、ｐｒｏ＿ｎｅｔ＿ｃｈａｒｇｅ、ｈｙｄ＿ｉｄｘ＿ｃｄｒ、ｐｒｏ＿ｈｅｎｒｙ、ｂ＿１ｒｏｔＲ、ｖｏｌｕｍｅ、ａｍｐｈｉｐａｔｈｉｃｉｔｙ、ｈｙｄ＿ｓｔｒｅｎｇｔｈ、ｐｒｏ＿ｈｙｄ＿ｍｏｍｅｎｔ、ｂ＿ｒｏｔＲ、ｍｏｂｉｌｉｔｙ、ＡＳＰｍａｘ、ｈｙｄ＿ｓｔｒｅｎｇｔｈ＿ｃｄｒ、ｐｒｏ＿ｍａｓｓ、ｄｅｎｓｉｔｙ、ｈｅｌｉｃｉｔｙ、ＢＳＡ、ＰａｃｋｉｎｇＳｃｏｒｅ、ｐｒｏ＿ｍｏｂｉｌｉｔｙ、ｅｎｓ＿ｄｉｐｏｌｅ、ｈｅｎｒｙ、ＢＳＡ＿ＨＣ、ｐｒｏ＿ａｆｆｉｎｉｔｙ、ｐｒｏ＿ｐＩ＿３Ｄ、ｍａｓｓ、ｎｅｔ＿ｃｈａｒｇｅ、ＢＳＡ＿ＬＣ＿ＨＣ、ｐｒｏ＿ａｐｐ＿ｃｈａｒｇｅ、ｐｒｏ＿ｐＩ＿ｓｅｑ、ｐＩ＿ｓｅｑ、ａｐｐ＿ｃｈａｒｇｅ、ｃｏｎｔａｃｔｅｎｅｒｇｙ、ｐｒｏ＿ａｓａ＿ｈｐｈ、ｐｒｏ＿ｒ＿ｇｙｒ、ｐＩ＿３Ｄ、ｄｉｐｏｌｅ＿ｍｏｍｅｎｔ、ＤＲＴ、ｐｒｏ＿ａｓａ＿ｈｙｄ、ｐｒｏ＿ｒ＿ｓｏｌｖ、ｃｏｅｆｆ＿ｆｒｉｃ、ｈｙｄ＿ｍｏｍｅｎｔ、Ｅｂｏｎｄ、ｐｒｏ＿ａｓａ＿ｖｄｗ、ｐｒｏ＿ｓｅｄ＿ｃｏｎｓｔ、ｃｏｅｆｆ＿ｄｉｆｆ、ｚｅｔａ、Ｅｅｌｅ、ｐｒｏ＿ｃｄｒ＿ｎｅｔ＿ｃｈａｒｇｅ、ｐｒｏ＿ｓｔａｂｉｌｉｔｙ、ｒ＿ｇｙｒ、ｚｄｉｐｏｌｅ、Ｅｓｏｌ、ｐｒｏ＿ｃｏｅｆｆ＿ｄｉｆｆ、ｐｒｏ＿ｖｏｌｕｍｅ、ｒ＿ｓｏｌｖ、ｚｑｕａｄｒｕｐｏｌｅ、Ｅｖｄｗ、ｐｒｏ＿ｃｏｅｆｆ＿ｆｒｉｃ、ｐｒｏ＿ｚｄｉｐｏｌｅ、ｓｅｄ＿ｃｏｎｓｔ、Ｅｉｎｔ＿ＶＬ＿ＶＨ、ｐｒｏ＿ｄｉｐｏｌｅ＿ｍｏｍｅｎｔ、ｐｒｏ＿ｚｅｔａ、ｅｃｃｅｎ、ＧＢ／ＶＩ、ｐｒｏ＿ｅｃｃｅｎ、ｐｒｏ＿ｚｑｕａｄｒｕｐｏｌｅ及び／又はａｓａ＿ｖｄｗのいずれか又は全てなどの任意の好適な記述子タイプを含み得る。好ましくは、幾つかの実施形態では、分子記述子は、分子の環境のｐＨレベル及び場合により多くのそのような記述子の関数（又はさもなければそれらに依存する）少なくとも１つの記述子を含む。例えば、様々な記述子は、タンパク質分子の表面電荷に依存する可能性があり、表面電荷は、順に分子環境のｐＨに依存する可能性がある。

【0031】

データ収集ユニット１３２がプロセスパラメータ（又は該当する場合には性能指標値）及び特定の仮説的クロマトグラフィープロセスのための分子記述子（場合により例えばユーザが入力したタンパク質の様式などの他のデータと一緒に）を収集した後、予測ユニット１３４は、ＭＬモデル１３８が、仮説的クロマトグラフィープロセスのための所望の性能指標値（又はプロセスパラメータ）を予測するためにその入力／特徴量上で作動することを誘発する。幾つかの実施形態及び／又はシナリオでは、予測ユニット１３４は、同一の仮説的クロマトグラフィープロセスのための異なる性能指標値（又は適用可能な場合にはプロセスパラメータ）を（例えば、並行して又は連続的に）予測するためにトレーニングサーバ１０４から複数の異なるローカルＭＬモデル１３８を入手し得、ここで、ローカルＭＬモデル１３８は、各予測因子を生成するために同一の又は異なる特徴量上で作動すると理解されている。

【0032】

可視化ユニット１３６は、ディスプレイ１２４上に描出されたＧＵＩが予測された性能指標値（又は適用可能な場合にはプロセスパラメータ）及び／又は予測された性能指標値（又は適用可能な場合にはプロセスパラメータ）に由来する他の情報を提示させる。例えば、可視化ユニット１３６は、（例えば、アプリケーション１３０が性能指標値を１つ以上のそれぞれの閾値と比較した後に）予測された性能指標値が１つ以上の合格判定基準を満たすかどうかの表示をＧＵＩに提示させ得る。例えば、可視化ユニット１３６は、ＧＵＩに予測されたプロセスパラメータの精度範囲を提示させ得る。

【0033】

上記の予測／可視化プロセスは、（例えば、プロセスパラメータと治療用タンパク質のための固定セットの分子記述子との異なる組み合わせについて）多くの異なる仮説的クロマトグラフィープロセスにわたって繰り返すことができ、それによりユーザが異なるプロセス設計を迅速に試験することを可能にする。ユーザは、小さい摂動が、例えば、特定の入力に予測された性能指標値にどの程度影響を及ぼすか（例えば、溶出緩衝液のｐＨ又は負荷流量などにおける予測範囲を反映する）など、設計の特定の態様を迅速に試験することもできる。可視化ユニット１３６は、視聴しているユーザが様々な仮説的クロマトグラフィープロセスについての予測の結果を理解及び考察するのに役立つ１つ以上のＧＵＩを生成又は追加することができる。この方法で、視聴しているユーザは、（任意の必要な認定試験を受ける）現実世界の商業的製造プロセスにおいて、いずれのクロマトグラフィープロセスパラメータを使用するかについて情報を得た上で選択することができる。クロマトグラフィープロセスパラメータの選択は、概して、（場合により使用事例／プロジェクトのゴールに依存する他のゴールよりむしろこれらのゴールの１つに重点を置いて）不純物を最小限に抑えながら収率を最大化することを試みなければならず、且つ表示された情報に基づいて一人以上のユーザによって決定され得るか、又は幾つかの規定の選択基準に従って完全に自動化され得る。幾つかの場合、本明細書に記載した技術は、クロマトグラフィープロセスパラメータを選択するためだけではなく、更に又は代わりに、新規の分子と精製プロセスとの間の相互関係に関する相対的洞察も提供するために（例えば、分子記述子を微調整し、様々な性能指標値に及ぼす影響を観察することによって）使用することができる。これらの洞察は、精製有効性に影響を及ぼす重要な分子特性を同定することにより、将来的に分子設計を誘導するのに役立ち得る。

【0034】

極めて大量の標識された歴史的データを実施且つ収集するために必要とされる時間及び費用を回避するために、解釈可能な機械学習モデルをモデル１０８として使用することができる。例えば、トレーニングサーバ１０４は、何百もの特徴量について、モデル１０８の１つをトレーニングすることができ、その後、トレーニングサーバ１０４（又は人間のレビューア）は、トレーニングされたモデル（例えば、各特徴に割り当てられた重み）を分析して、最も予測的な特徴量（例えば、約１０の特徴量又は約５０の特徴量など）を決定することができる。その後、その特定のモデル１０８又は最も予測的な特徴量のみを使用してトレーニングされたそのモデル１０８の新しいバージョンは、はるかに小型の特徴量セットと共に使用され得る。高度に予測的な特徴量を同定することは、新たな仮説を生じ得る新たな科学的洞察を提供するなど（これは、次にバイオプロセスの改善につながり得る）、他の目的にも有用であり得る。

【0035】

いずれのモデルが特定の性能指標値（及び／又はプロセスパラメータ）に最も適しているかを決定し、且つ所与のモデル又は使用事例について最も予測的な特徴量を識別するための様々な技術を、図３及び４を参照して以下に説明する。

【0036】

概して、特異的性能指標値について良好に機能するモデルは、以前のクロマトグラフィー精製プロセスからの現実世界の歴史的トレーニングデータを使用する多くの様々なモデルタイプをトレーニングし、且つ結果を比較することによって同定することができる。図３は、特定の関心対象の性能指標値に対して、この目的で使用され得る例示的プロセス３００を図示している。プロセス３００の第１のステージ３０２では、性能指標値に関連するデータが選択（即ち、同定して入手）される。しかしながら、歴史的データは、例えば、異なる薬物製品若しくはプロジェクトについて捕捉されている異なるタイプ及び／又は様式のデータとは不一致であることが多い。したがって、ステージ３０４では、トレーニングデータのロバストなセットを保証するために、欠測値を帰属させ、且つ／又は他の（例えば、正規化する、外れ値を除去するなどの）工程を実施することが必要になる場合がある。

【0037】

ステージ３０６では、候補モデルのそれぞれは、それぞれの候補モデルについて最適化されたハイパーパラメータを用いて、歴史的データの少なくとも一部分についてトレーニングされる。ステージ３０６は、各モデルについてｋ倍の確認を実施することを含み得る（例えば、ｋ＝１０（ここで、モデルは、ステージ３０２で選択され、ステージ３０４で増強されたデータセットの様々な９０／１０区画にわたって１０回トレーニング且つ評価される）又はｋ＝５などを用いて）。ステージ３０６は、ベイズ検索技法を用いて、各モデルのハイパーパラメータをチューニングすることを含み得る。ベイズ技法は、グリッド探索又はランダム探索よりも計算上効率的なベイズガイド探索を実行するが、ランダム探索と同様のレベルの性能を得る。ステージ３０６は、ベイズ検索の幾つかの反復及びｋ倍の確認を通してモデルハイパーパラメータを選択することを含み得る。

【0038】

ステージ３０８では、様々な候補モデル（その微調整されたハイパーパラメータを含む）が評価され、（関心対象の性能指標値又はプロセスパラメータのための）最良モデルが選択される。任意の適切な基準を使用すると、「最良」モデルを選択することができる。例えば、決定係数（Ｒ^２）及び／又は二乗平均平方根誤差（ＲＭＳＥ）などのアルゴリズム性能尺度を各モデルについて捕捉することができ、それぞれの平均値は、クロス確認プロセスに基づいて得られる。Ｒ^２は、

【数1】

として計算され得る。方程式１では、ｎは、クロス確認倍率当たりのサンプル数を表し、ｙは、真の標的出力を表し、及びｆは、モデルによって予測される出力を表す。平均Ｒ^２は、

【数2】

（式中、ｋは、クロス確認倍率数を表す）
として計算され得る。ＲＭＳＥは、

【数3】

として計算され得る。モデルについての平均ＲＭＳＥは、

【数4】

として計算され得る。

【0039】

ＲＭＳＥは、ＲＭＳＥが予測されている性能指標値（又はプロセスパラメータ）の容易に理解されるユニット内のモデルの精度／誤差を示すため、Ｒ^２よりも優れた尺度であり得る。更に、Ｒ^２尺度は、場合により、幾つかのクロス確認セットを用いると極端な負の値を生じさせることがあり、これは、セット全体で平均化したときにモデル比較を歪め得る。ＲＭＳＥは、更に平均絶対誤差（ＭＡＥ）よりも好ましい可能性があり、それは、前者が、予測と実際の結果との間により大きい誤差を課すためである。

【0040】

その後、ステージ３１０では、性能指標値（又はプロセスパラメータ）を予測するための最終モデルは、例えば、異なるモデルについてのＲＭＳＥ（及び／又は１つ以上の他の尺度）の比較に基づいて、出力／選択される。最終モデルは、全データセットについて再トレーニングされ得る。最終生成モデルは、次にトレーニングされたモデル（例えば、ＭＬモデル１０８の１つ）として保存され、新規／将来のクロマトグラフィープロセスのための予測をする準備が整う。

【0041】

一実施形態では、プロセス３００は、図１のトレーニングサーバ１０４によって（場合により関心対象の性能指標値を選択する、候補としてのモデルを選択することなどの様々なステージでヒト入力を用いて）実施される。プロセス３００は、関心対象の各性能指標値について且つ本明細書の他の箇所で考察された例示的性能指標値のいずれかなど、性能指標値の任意の好適な数（例えば、５、１０、２０など）について繰り返すことができる。異なる性能指標値に対する最終モデルは、ステージ３１０の各反復で出力されると、トレーニングサーバ１０４は、その最終モデルをＭＬモデル１０８に追加することができる。その後且つ本明細書で考察した方法で特定の仮説的クロマトグラフィー精製プロセスについての予測を行う前に（例えば、図１を参照して）、コンピューティングシステム１０２又はトレーニングサーバ１０４は、ＭＬモデル１０８から適切な最終モデルを選択することができる。選択は、例えば、所望の性能指標値を示しているユーザ入力に基づいて行うことができる。

【0042】

概して、プロセス３００に従い、多くのモデルは、ＲＭＳＥに基づいて且つ以下の表１に示したように、治療用タンパク質の製造中のクロマトグラフィー精製プロセスについて様々な異なる性能指標値に関する優れた性能を有すると同定されている。

【0043】

【表1】

【0044】

表１の結果は、全て様々なモノクローナル抗体についての歴史的データセットに関連する。各性能指標値については、最低ＲＭＳＥを生じさせたモデルは、「最良実行」モデルであると解釈された。表１から明らかなように、全性能指標値を予測するために最良に実行されたモデルは１つもなかった。むしろ、回帰木モデルは、１２種の性能指標値に対して最良に実行し、ｘｇｂｏｏｓｔモデルは、８種の性能指標値に対して最良に実行し、及びエラスティックネットは、２種の性能指標値に対して最良に実行した。プロセス３００を用いて評価された他のモデル（投げ縄、リッジ、ＳＧＤ、線形ＳＶＭ及びＰＬＳ）は、表１における性能指標のいずれに対しても最良に実行しなかった。回帰木及びｘｇｂｏｏｓｔモデルは、特に、多数及び少数の両方の観察所見（トレーニングデータセット）を伴って良好に実行した。

【0045】

他のプロセスは、異なる性能指標値に基づいて（及び／又は異なる性能指標値の組み合わせに基づいて）モデルを評価する、異なる尺度（ＲＭＳＥ以外）を用いてモデルを評価するなどのより多数又は少数のトレーニングデータセットに起因して、異なる性能特性を有する可能性がある。例えば、収率を予測するため及びＲ^２尺度に従って（特にモノクローナル抗体に対して）ＳＥＣ－ＨＭＷパーセンテージを予測するための機械学習モデルを評価する場合、最良に実行するモデルは、ｘｇｂｏｏｓｔモデルであることが見出された。この後者の評価のために、ｘｇｂｏｏｓｔモデルへのプロセスパラメータ入力は、カラム体積、負荷ｐＨ、実際のＣＥＸ負荷、負荷流量、溶出流量、緩衝液濃度、溶出ｐＨ、勾配の傾斜、勾配長、勾配始点、勾配終点、プール体積、タンパク質濃度、プール開始及び／又はプール終了を含んでいた。

【0046】

上述したように、ステージ３１０で「最良」モデルが同定／出力された場合、所望の性能指標値を最高に予測するその特徴量のみが利用されるように、いずれの特徴量が特定モデルにとって最重要であるかを学習することは、有益であり得る。図４Ａ及び４Ｂは、いずれもｅＸｔｒｅｍｅ勾配ブースト（ｘｇｂｏｏｓｔ）モデルを用いて、実験的収率を予測し、且つＳＥ－ＨＰＬＣＨＭＷを予測することの両方のために、例示的な特徴量の重要度尺度（それぞれ相対的特徴量の重要度と特徴量との相関）のプロット４００、４２０を示す。プロット４００、４２０は、例えば、可視化ユニット１３６によって生成され、ディスプレイ１２４を介してＧＵＩ上に提示することができる。

【0047】

例えばプロット４００、４２０などのプロットは、ユーザ（例えば、科学者）が特異的性能指標値を予測するために（ここでは実験的収率及びＳＥ－ＨＰＬＣＨＭＷを予測するために）、最重要因子を容易に同定することを可能にさせ得る。これは、分子の構造が精製プロセスにどのように影響を及ぼすかについてのより大きい洞察を提供することもできる。例えば、ＣＥＸプロセスにおいて不純物を増加させることに疎水性が役割を果たすことは常識であるが、概して、分子の電荷が最大の影響を及ぼすであろうと考えられている。しかしながら、プロット４００及び／又は４２０（又は相関熱マップなど）に類似する特徴量の重要度プロットは、一貫して且つ驚くべきことに、ＣＥＸプロセスに従って疎水性をより高度の不純物（詳細には高いＨＭＷ）のより重要な指標であるとランク付けする。更に、全ての形態の疎水性が不純物のレベルに同等に影響を及ぼすわけではない。例えば、プロット４２０（又は相関熱マップなど）に類似するプロットは、少なくとも他の疎水性に比較して、幾つかの形態の疎水性は、より低い不純物の指標（特に、低ＨＭＷ）であることを示す。

【0048】

図５Ａは、治療用タンパク質の製造中の精製プロセスのためのクロマトグラフィーパラメータの選択を促進するための例示的方法５００のフロー図である。方法５００は、少なくとも一部には、メモリユニット１２８に保存されたアプリケーション１３０のソフトウェア命令を実行する場合、コンピューティングシステム１０２のプロセッシングユニット１２０又は例えばサーバ１０４の（例えば、クラウドサービスの実行において）１つ以上のプロセッサによって実行され得る。

【0049】

ブロック５０２では、仮説的クロマトグラフィー（例えば、ＣＥＸ、ＳＥＣ又はプロテインＡクロマトグラフィー）プロセスに関連する１つ以上のプロセスパラメータ値が受け取られる。プロセスパラメータ値は、ユーザインターフェースを介して、且つ／又は例えばファイル若しくは他のデータなどをインポートすることによって受け取られ得る。例として且つ限定なしに、プロセスパラメータ値は、以下：緩衝液のｐＨ、溶出緩衝液の伝導度（ｍＳ／ｃｍ）、溶出緩衝液のモル濃度（ｍＭ）、溶出緩衝液のｐＨ、勾配の傾斜（ｍＭ／ＣＶ）、線速度（ｃｍ／ｈｒ）、負荷伝導度（ｍＳ／ｃｍ）、負荷因子（ｇ／Ｌｒ）、負荷ｐＨ、収集停止（％）、カラム体積、実際のＣＥＸ負荷、負荷流量、溶出流量、緩衝液の濃度、勾配長、勾配始点、勾配終点、プール体積、タンパク質濃度、プール開始及び／又はプール終了のいずれかの１つ以上の値を含み得る。先行するリストに例示的単位を示したが、これらの単位は、例示するためのみのものであることと、これらのパラメータは、任意の好適な単位で伝達され得ることとを理解されたい。したがって、例示的単位が先行リスト又は本明細書のプロセスパラメータの任意の他のリストから排除され得ることが理解されるであろう。

【0050】

ブロック５０４では、治療用タンパク質を記述する１つ以上の分子記述子が受け取られる。分子記述子は、ユーザインターフェースを介して、且つ／又は例えばファイル若しくは（例えば、ＭＯＥアプリケーション１３９から）他のデータなどをインポートすることによって受け取られ得る。幾つかの実施形態では、方法５００は更に、治療用タンパク質と関連する配列情報（例えば、ＭＯＥソフトウェアに入力されるアミノ酸配列情報）及び／又は治療用タンパク質の物理的特性の実験的測定（例えば、ＭＯＥソフトウェアに入力される測定結果）に基づいて１つ以上の分子記述子を決定することも含む。幾つかの実施形態では、少なくとも１つの分子記述子は、分子を取り囲んでいる環境のｐＨの関数（例えば、ｐＨが知られている／特定されている場合に変動する数学的関数）である。例として且つ限定なしに、分子記述子は、以下：ｐＨ、ＨＩ、ｐｒｏ＿Ｆｖ＿ｎｅｔ＿ｃｈａｒｇｅ、Ｕ、ａｓａ＿ｈｙｄ、ｖｉｓｃｏｓｉｔｙ、ｈｙｄ＿ｉｄｘ、ｐｒｏ＿ｈｅｌｉｃｉｔｙ、ａｐｏｌ、ａｓａ＿ｈｐｈ、ｐｒｏ＿ｎｅｔ＿ｃｈａｒｇｅ、ｈｙｄ＿ｉｄｘ＿ｃｄｒ、ｐｒｏ＿ｈｅｎｒｙ、ｂ＿１ｒｏｔＲ、ｖｏｌｕｍｅ、ａｍｐｈｉｐａｔｈｉｃｉｔｙ、ｈｙｄ＿ｓｔｒｅｎｇｔｈ、ｐｒｏ＿ｈｙｄ＿ｍｏｍｅｎｔ、ｂ＿ｒｏｔＲ、ｍｏｂｉｌｉｔｙ、ＡＳＰｍａｘ、ｈｙｄ＿ｓｔｒｅｎｇｔｈ＿ｃｄｒ、ｐｒｏ＿ｍａｓｓ、ｄｅｎｓｉｔｙ、ｈｅｌｉｃｉｔｙ、ＢＳＡ、ＰａｃｋｉｎｇＳｃｏｒｅ、ｐｒｏ＿ｍｏｂｉｌｉｔｙ、ｅｎｓ＿ｄｉｐｏｌｅ、ｈｅｎｒｙ、ＢＳＡ＿ＨＣ、ｐｒｏ＿ａｆｆｉｎｉｔｙ、ｐｒｏ＿ｐＩ＿３Ｄ、ｍａｓｓ、ｎｅｔ＿ｃｈａｒｇｅ、ＢＳＡ＿ＬＣ＿ＨＣ、ｐｒｏ＿ａｐｐ＿ｃｈａｒｇｅ、ｐｒｏ＿ｐＩ＿ｓｅｑ、ｐＩ＿ｓｅｑ、ａｐｐ＿ｃｈａｒｇｅ、ｃｏｎｔａｃｔｅｎｅｒｇｙ、ｐｒｏ＿ａｓａ＿ｈｐｈ、ｐｒｏ＿ｒ＿ｇｙｒ、ｐＩ＿３Ｄ、ｄｉｐｏｌｅ＿ｍｏｍｅｎｔ、ＤＲＴ、ｐｒｏ＿ａｓａ＿ｈｙｄ、ｐｒｏ＿ｒ＿ｓｏｌｖ、ｃｏｅｆｆ＿ｆｒｉｃ、ｈｙｄ＿ｍｏｍｅｎｔ、Ｅｂｏｎｄ、ｐｒｏ＿ａｓａ＿ｖｄｗ、ｐｒｏ＿ｓｅｄ＿ｃｏｎｓｔ、ｃｏｅｆｆ＿ｄｉｆｆ、ｚｅｔａ、Ｅｅｌｅ、ｐｒｏ＿ｃｄｒ＿ｎｅｔ＿ｃｈａｒｇｅ、ｐｒｏ＿ｓｔａｂｉｌｉｔｙ、ｒ＿ｇｙｒ、ｚｄｉｐｏｌｅ、Ｅｓｏｌ、ｐｒｏ＿ｃｏｅｆｆ＿ｄｉｆｆ、ｐｒｏ＿ｖｏｌｕｍｅ、ｒ＿ｓｏｌｖ、ｚｑｕａｄｒｕｐｏｌｅ、Ｅｖｄｗ、ｐｒｏ＿ｃｏｅｆｆ＿ｆｒｉｃ、ｐｒｏ＿ｚｄｉｐｏｌｅ、ｓｅｄ＿ｃｏｎｓｔ、Ｅｉｎｔ＿ＶＬ＿ＶＨ、ｐｒｏ＿ｄｉｐｏｌｅ＿ｍｏｍｅｎｔ、ｐｒｏ＿ｚｅｔａ、ｅｃｃｅｎ、ＧＢ／ＶＩ、ｐｒｏ＿ｅｃｃｅｎ、ｐｒｏ＿ｚｑｕａｄｒｕｐｏｌｅ及び／又はａｓａ＿ｖｄｗの任意の１つ以上を含み得る。

【0051】

ブロック５０６では、仮説的クロマトグラフィープロセスの性能指標値は、機械学習モデルを使用して、少なくともブロック５０２で受け取られたプロセスパラメータ及びブロック５０４で受け取られた分子記述子を分析することによって予測される。機械学習モデルは、回帰木モデル、ｅＸｔｒｅｍｅ勾配ブースト（ｘｇｂｏｏｓｔ）モデル又はエラスティックネットモデルのいずれかであり得る。例として且つ限定なしに、予測される性能指標値は、以下：工程収率、ＣＥＸ酸性（％）、ＣＥＸメイン（％）、ＣＥＸ塩基性（％）、ＳＥＣＨＭＷ（％）、ＳＥＣメイン（％）、ＳＥＣ低分子量（ＬＭＷ）（％）、還元サンプル調製を伴うキャピラリー電気泳動ドデシル硫酸ナトリウム（ｒＣＥ－ＳＤＳ）メイン（％）、ｒＣＥ－ＳＤＳＬＭＷ（％）、ｒＣＥ－ＳＤＳ軽鎖（ＬＣ）＋重鎖（ＨＣ）（％）、還元サンプル調製（ｎｒＣＥ－ＳＤＳ）を伴わないキャピラリー電気泳動ドデシル硫酸ナトリウム（ｎｒＣＥ－ＳＤＳ）メイン（％）、ｒＣＥ－ＳＤＳプレ－ＬＣ（％）、ｒＣＥ－ＳＤＳＬＣ（％）、ｒＣＥ－ＳＤＳ非グリコシル化重鎖（ＮＧＨＣ）（％）、ｒＣＥ－ＳＤＳＨＣ（％）、ｒＣＥ－ＳＤＳ高分子量（ＨＭＷ）（％）、ｒＣＥ－ＳＤＳプレ－ＬＣ＋ＬＣ＋ＨＣ（％）、プール伝導度（ｍＳ／ｃｍ）、キャピラリー等電点電気泳動法（ｃＩＥＦ）酸性（％）、ｃＩＥＦ塩基性（％）、ｃＩＥＦメイン（％）、ｎｒＣＥ－ＳＤＳプレピーク（％）、ＨＣＰ及び／又はＳＥ－ＨＰＬＣＨＭＷの１つであり得る。

【0052】

幾つかの実施形態では、ブロック５０６は、ｎｒＣＥ－ＳＤＳＬＣ＋ＨＣ（％）、ｒＣＥ－ＳＤＳプレ－ＬＣ（％）、ＣＥＸ塩基性（％）、ＳＥＣＨＭＷ（％）、ＳＥＣメイン（％）、ＳＥＣＬＭＷ（％）、ｒＣＥ－ＳＤＳＨＣ（％）、ｒＣＥ－ＳＤＳＨＭＷ（％）、ｒＣＥ－ＳＤＳプレ－ＬＣ＋ＬＣ＿ＨＣ（％）、プール伝導度（％）又はｎｒＣＥ－ＳＤＳプレピーク（％）を予測するために回帰木モデルを使用することを含む。他の実施形態では、ブロック５０６は、ＣＥＸ酸性（％）、ＣＥＸメイン（％）、工程収率、ｒＣＥ－ＳＤＳメイン（％）、ｒＣＥ－ＳＤＳＬＭＷ（％）、ｃＩＥＦ酸性（％）、ｃＩＥＦ塩基性（％）又はｃＩＥＦメイン（％）を予測するために、ｅＸｔｒｅｍｅ勾配ブーストモデルを使用することを含む。代わりに、ブロック５０６は、ＳＥＣＨＭＷ（％）又は収率を予測するために、ｅＸｔｒｅｍｅ勾配ブーストモデルを使用することを含み得る。更に他の実施形態では、ブロック５０６は、ｒＣＥ－ＳＤＳＬＣ＋ＨＣ（％）を予測するか又はｒＣＥ－ＳＤＳＬＣ（％）を予測するために、エラスティックネットモデルを使用することを含む。

【0053】

ブロック５０８では、ブロック５０６で予測された性能指標値及び／又は予測された性能指標値は、治療用タンパク質の製造中の現実世界の精製プロセスのためのクロマトグラフィーパラメータの選択（例えば、ユーザによる手動選択）を促進するために、１つ以上の合格判定基準を満たす（例えば、幾つかの閾値を超えるか又は下回る）かどうかの指標がユーザインターフェース（例えば、可視化ユニット１３６によって生成又は追加され、図１のディスプレイ１２４上に提示されたＧＵＩ）を介してユーザに提示される。

【0054】

幾つかの実施形態では、方法５００は、図５Ａに図示されてない１つ以上の追加のブロックを含む。例えば、方法５００は、いずれもブロック５０２前に行われる２つの追加のブロック：関心対象の性能指標値を示すデータがユーザからユーザインターフェース（例えば、可視化ユニット１３６によって生成又は追加されてディスプレイ１２４上に提示されるＧＵＩ）を介して受け取られる第１の追加のブロック及び機械学習モデル（後にブロック５０６で使用される）が異なる性能指標を予測するためにトレーニングされた複数の機械学習モデル（例えば、ＭＬモデル１０８）の中から選択される第２の追加のブロックを含み得る。

【0055】

別の例として、方法５００は、第２の機械学習モデルを使用して、関心対象の第２の性能指標値を発生させるために、ブロック５０６及び５０８（又は５０２～５０８）に類似する、４つの追加のブロックを含み得る。例えば、第１及び第２の機械学習モデルは、一方は実験的収率パーセンテージを予測し、他方は、ＳＥＣＨＭＷパーセンテージを予測する、異なる目的のためにトレーニングされたｘｇｂｏｏｓｔモデルであり得る。

【0056】

更に別の例として、方法５００は、いずれもブロック５０６後に発生する２つの追加のブロック：１つ以上のプロセスパラメータ値がブロック５０８で提示された性能指標値及び／又は指示に基づいて治療用タンパク質のための（現実世界の）クロマトグラフィープロセスに対して選択される第１の追加のブロック及びクロマトグラフィープロセスが１つ以上の選択されたプロセスパラメータ値に従って治療用タンパク質に対して実施される第２の追加のブロックを含み得る。

【0057】

図５Ｂは、治療用タンパク質の製造中の精製プロセスのためのクロマトグラフィーパラメータの選択を促進するための別の例示的方法５２０のフロー図である。方法５２０は、少なくとも一部には、メモリユニット１２８に保存されたアプリケーション１３０のソフトウェア命令を実行する場合、コンピューティングシステム１０２のプロセッシングユニット１２０又は例えばサーバ１０４の（例えば、クラウドサービスの実行において）１つ以上のプロセッサによって実行され得る。

【0058】

ブロック５２２では、仮説的クロマトグラフィー（例えば、ＣＥＸ、ＳＥＣ又はプロテインＡクロマトグラフィー）プロセスに関連する１つ以上の性能指標値が受け取られる。性能指標値は、ユーザインターフェースを介して、且つ／又は例えばファイル若しくは他のデータなどをインポートすることによって受け取られ得る。例として且つ限定なしに、性能指標値は、以下：工程収率、ＣＥＸ酸性（％）、ＣＥＸメイン（％）、ＣＥＸ塩基性（％）、ＳＥＣＨＭＷ（％）、ＳＥＣメイン（％）、ＳＥＣ低分子量（ＬＭＷ）（％）、還元サンプル調製を伴うキャピラリー電気泳動ドデシル硫酸ナトリウム（ｒＣＥ－ＳＤＳ）メイン（％）、ｒＣＥ－ＳＤＳＬＭＷ（％）、ｒＣＥ－ＳＤＳ軽鎖（ＬＣ）＋重鎖（ＨＣ）（％）、還元サンプル調製（ｎｒＣＥ－ＳＤＳ）を伴わないキャピラリー電気泳動ドデシル硫酸ナトリウム（ｎｒＣＥ－ＳＤＳ）メイン（％）、ｒＣＥ－ＳＤＳプレ－ＬＣ（％）、ｒＣＥ－ＳＤＳＬＣ（％）、ｒＣＥ－ＳＤＳ非グリコシル化重鎖（ＮＧＨＣ）（％）、ｒＣＥ－ＳＤＳＨＣ（％）、ｒＣＥ－ＳＤＳ高分子量（ＨＭＷ）（％）、ｒＣＥ－ＳＤＳプレ－ＬＣ＋ＬＣ＋ＨＣ（％）、プール伝導度（ｍＳ／ｃｍ）、キャピラリー等電点電気泳動法（ｃＩＥＦ）酸性（％）、ｃＩＥＦ塩基性（％）、ｃＩＥＦメイン（％）、ｎｒＣＥ－ＳＤＳプレピーク（％）、ＨＣＰ及び／又はＳＥ－ＨＰＬＣＨＭＷのいずれかの１つ以上の値を含み得る。

【0059】

ブロック５２４では、治療用タンパク質を説明する１つ以上の分子記述子が受け取られる。分子記述子は、ユーザインターフェースを介して、且つ／又は例えばファイル若しくは他のデータ（例えば、ＭＯＥアプリケーション１３９から）などをインポートすることによって受け取られ得る。幾つかの実施形態では、方法５２０は更に、治療用タンパク質と関連する配列情報（例えば、ＭＯＥソフトウェアに入力されるアミノ酸配列情報）及び／又は治療用タンパク質の物理的特性の実験的測定（例えば、ＭＯＥソフトウェアに入力される測定結果）に基づく１つ以上の分子記述子を決定することも含む。幾つかの実施形態では、少なくとも１つの分子記述子は、分子を取り囲んでいる環境のｐＨの関数（例えば、ｐＨが知られている／特定されている場合に変動する数学的関数）である。例として且つ限定なしに、分子記述子は、以下：ｐＨ、ＨＩ、ｐｒｏ＿Ｆｖ＿ｎｅｔ＿ｃｈａｒｇｅ、Ｕ、ａｓａ＿ｈｙｄ、ｖｉｓｃｏｓｉｔｙ、ｈｙｄ＿ｉｄｘ、ｐｒｏ＿ｈｅｌｉｃｉｔｙ、ａｐｏｌ、ａｓａ＿ｈｐｈ、ｐｒｏ＿ｎｅｔ＿ｃｈａｒｇｅ、ｈｙｄ＿ｉｄｘ＿ｃｄｒ、ｐｒｏ＿ｈｅｎｒｙ、ｂ＿１ｒｏｔＲ、ｖｏｌｕｍｅ、ａｍｐｈｉｐａｔｈｉｃｉｔｙ、ｈｙｄ＿ｓｔｒｅｎｇｔｈ、ｐｒｏ＿ｈｙｄ＿ｍｏｍｅｎｔ、ｂ＿ｒｏｔＲ、ｍｏｂｉｌｉｔｙ、ＡＳＰｍａｘ、ｈｙｄ＿ｓｔｒｅｎｇｔｈ＿ｃｄｒ、ｐｒｏ＿ｍａｓｓ、ｄｅｎｓｉｔｙ、ｈｅｌｉｃｉｔｙ、ＢＳＡ、ＰａｃｋｉｎｇＳｃｏｒｅ、ｐｒｏ＿ｍｏｂｉｌｉｔｙ、ｅｎｓ＿ｄｉｐｏｌｅ、ｈｅｎｒｙ、ＢＳＡ＿ＨＣ、ｐｒｏ＿ａｆｆｉｎｉｔｙ、ｐｒｏ＿ｐＩ＿３Ｄ、ｍａｓｓ、ｎｅｔ＿ｃｈａｒｇｅ、ＢＳＡ＿ＬＣ＿ＨＣ、ｐｒｏ＿ａｐｐ＿ｃｈａｒｇｅ、ｐｒｏ＿ｐＩ＿ｓｅｑ、ｐＩ＿ｓｅｑ、ａｐｐ＿ｃｈａｒｇｅ、ｃｏｎｔａｃｔｅｎｅｒｇｙ、ｐｒｏ＿ａｓａ＿ｈｐｈ、ｐｒｏ＿ｒ＿ｇｙｒ、ｐＩ＿３Ｄ、ｄｉｐｏｌｅ＿ｍｏｍｅｎｔ、ＤＲＴ、ｐｒｏ＿ａｓａ＿ｈｙｄ、ｐｒｏ＿ｒ＿ｓｏｌｖ、ｃｏｅｆｆ＿ｆｒｉｃ、ｈｙｄ＿ｍｏｍｅｎｔ、Ｅｂｏｎｄ、ｐｒｏ＿ａｓａ＿ｖｄｗ、ｐｒｏ＿ｓｅｄ＿ｃｏｎｓｔ、ｃｏｅｆｆ＿ｄｉｆｆ、ｚｅｔａ、Ｅｅｌｅ、ｐｒｏ＿ｃｄｒ＿ｎｅｔ＿ｃｈａｒｇｅ、ｐｒｏ＿ｓｔａｂｉｌｉｔｙ、ｒ＿ｇｙｒ、ｚｄｉｐｏｌｅ、Ｅｓｏｌ、ｐｒｏ＿ｃｏｅｆｆ＿ｄｉｆｆ、ｐｒｏ＿ｖｏｌｕｍｅ、ｒ＿ｓｏｌｖ、ｚｑｕａｄｒｕｐｏｌｅ、Ｅｖｄｗ、ｐｒｏ＿ｃｏｅｆｆ＿ｆｒｉｃ、ｐｒｏ＿ｚｄｉｐｏｌｅ、ｓｅｄ＿ｃｏｎｓｔ、Ｅｉｎｔ＿ＶＬ＿ＶＨ、ｐｒｏ＿ｄｉｐｏｌｅ＿ｍｏｍｅｎｔ、ｐｒｏ＿ｚｅｔａ、ｅｃｃｅｎ、ＧＢ／ＶＩ、ｐｒｏ＿ｅｃｃｅｎ、ｐｒｏ＿ｚｑｕａｄｒｕｐｏｌｅ及び／又はａｓａ＿ｖｄｗの任意の１つ以上を含み得る。

【0060】

ブロック５２６では、仮説的クロマトグラフィープロセスのプロセスパラメータ値は、機械学習モデルを使用して、少なくともブロック５２２で受け取られた性能指標値及びブロック５２４で受け取られた分子記述子を分析することによって予測される。機械学習モデルは、回帰木モデル、ｅＸｔｒｅｍｅ勾配ブースト（ｘｇｂｏｏｓｔ）モデル又はエラスティックネットモデルのいずれかであり得る。例として且つ限定なしに、それに対して値が予測されるプロセスパラメータは、以下：緩衝液のｐＨ、溶出緩衝液の伝導度（ｍＳ／ｃｍ）、溶出緩衝液のモル濃度（ｍＭ）、溶出緩衝液のｐＨ、勾配の傾斜（ｍＭ／ＣＶ）、線速度（ｃｍ／ｈｒ）、負荷伝導度（ｍＳ／ｃｍ）、負荷因子（ｇ／Ｌｒ）、負荷ｐＨ、収集停止（％）、カラム体積、実際のＣＥＸ負荷、負荷流量、溶出流量、緩衝液の濃度、勾配長、勾配始点、勾配終点、プール体積、タンパク質濃度、プール開始及び／又はプール終了の１つであり得る。先行するリストに例示的単位を示したが、これらの単位は、例示するためのみのものであることと、これらのパラメータは、任意の好適な単位で伝達され得ることとを理解されたい。したがって、例示的単位が先行リスト又は本明細書のプロセスパラメータの任意の他のリストから排除され得ることが理解されるであろう。

【0061】

幾つかの実施形態では、ブロック５２６は、分子記述子並びにｎｒＣＥ－ＳＤＳＬＣ＋ＨＣ（％）、ｒＣＥ－ＳＤＳプレ－ＬＣ（％）、ＣＥＸ塩基性（％）、ＳＥＣＨＭＷ（％）、ＳＥＣメイン（％）、ＳＥＣＬＭＷ（％）、ｒＣＥ－ＳＤＳＨＣ（％）、ｒＣＥ－ＳＤＳＨＭＷ（％）、ｒＣＥ－ＳＤＳプレ－ＬＣ＋ＬＣ＿ＨＣ（％）、プール伝導度及び／又はｎｒＣＥ－ＳＤＳ（％）プレピークの１つ以上に基づいてプロセスパラメータ値を予測するために、回帰木モデルを使用することを含む。他の実施形態では、ブロック５２６は、分子記述子並びにＣＥＸ酸性（％）、ＣＥＸメイン（％）、工程収率、ｒＣＥ－ＳＤＳメイン（％）、ｒＣＥ－ＳＤＳＬＭＷ（％）、ｃＩＥＦ酸性（％）、ｃＩＥＦ塩基性（％）及び／又はｃＩＥＦメイン（％）の１つ以上に基づいてプロセスパラメータを予測するために、ｅＸｔｒｅｍｅ勾配ブーストモデルを使用することを含む。代わりに、ブロック５０６は、分子記述子並びにＳＥＣＨＭＷ（％）及び収率の一方又は両方に基づいてプロセスパラメータ値を予測するために、ｅＸｔｒｅｍｅ勾配ブーストモデルを使用することを含み得る。更に他の実施形態では、ブロック５０６は、分子記述子及びｒＣＥ－ＳＤＳＬＣ＋ＨＣ（％）又は分子記述子及びｒＣＥ－ＳＤＳＬＣ（％）に基づいてプロセスパラメータ値を予測するために、エラスティックネットモデルを使用することを含む。

【0062】

ブロック５２８では、ブロック５２６で予測されたプロセスパラメータ値及び／又は予測されたプロセスパラメータ値の予測された精度範囲は、治療用タンパク質の製造中の現実世界の精製プロセスのためのクロマトグラフィーパラメータの選択（例えば、ユーザによる手動選択）を促進するために、ユーザインターフェース（例えば、可視化ユニット１３６によって生成又は追加され、図１のディスプレイ１２４上に提示されるＧＵＩ）を介してユーザに提示される。

【0063】

幾つかの実施形態では、方法５２０は、図５Ｂに図示されてない１つ以上の追加のブロックを含む。例えば、方法５２０は、いずれもブロック５２２前に行われる２つの追加のブロック：関心対象のプロセスパラメータを示すデータがユーザからユーザインターフェース（例えば、可視化ユニット１３６によって生成又は追加されてディスプレイ１２４上に提示されるＧＵＩ）を介して受け取られる第１の追加のブロック及び（後にブロック５２６で使用される）機械学習モデルが異なるプロセスパラメータの値を予測するためにトレーニングされた複数の機械学習モデル（例えば、ＭＬモデル１０８）の中から選択される第２の追加のブロックを含み得る。

【0064】

別の例として、方法５２０は、第２の機械学習モデルを使用して、関心対象の第２のプロセスパラメータを発生させるために、ブロック５２６及び５２８（又は５２２～５２８）に類似する、追加のブロックを含み得る。例えば、第１及び第２の機械学習モデルは、一方は緩衝液のｐＨを予測し、他方は、負荷因子を予測する、異なる目的のためにトレーニングされたｘｇｂｏｏｓｔモデルであり得る。

【0065】

更に別の例として、方法５２０は、いずれもブロック５２６後に発生する２つの追加のブロック：１つ以上のプロセスパラメータ値がブロック５２８で提示された情報に基づいて、治療用タンパク質のための（現実世界の）クロマトグラフィープロセスに対して選択される第１の追加のブロック及びクロマトグラフィープロセスが１つ以上の選択されたプロセスパラメータ値に従って治療用タンパク質に対して実施される第２の追加のブロックを含み得る。

【0066】

システム、方法、装置及びその構成要素を例示的な実施形態の観点から説明してきたが、それらは、これらの例示的な実施形態に限定されない。詳細な説明は、例としてのみ解釈されるものとし、可能な実施形態の全てを説明することは、不可能ではないとしても非現実的であることから、本発明の全ての可能な実施形態を説明しているわけではない。現在の技術又は本特許の申請日以降に開発された技術のいずれかを使用して、多くの代替的な実施形態を実施することができ、それは、本発明を定義する請求項の範囲内に依然として含まれる。

【0067】

当業者であれば、本発明の範囲から逸脱することなく、上記の実施形態に対する多様な修正形態、変形形態及び組み合わせをなすことができ、そうした修正形態、変形形態及び組み合わせが本発明の概念の範囲内であると解釈されることを理解するであろう。

【図1】