IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アムジエン・インコーポレーテツドの特許一覧

特許7562563バイオ医薬品生産における細胞株選択のためのデータ駆動予測モデリング
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-27
(45)【発行日】2024-10-07
(54)【発明の名称】バイオ医薬品生産における細胞株選択のためのデータ駆動予測モデリング
(51)【国際特許分類】
   G16B 40/20 20190101AFI20240930BHJP
【FI】
G16B40/20
【請求項の数】 19
(21)【出願番号】P 2021564140
(86)(22)【出願日】2020-04-30
(65)【公表番号】
(43)【公表日】2022-07-21
(86)【国際出願番号】 US2020030585
(87)【国際公開番号】W WO2020223422
(87)【国際公開日】2020-11-05
【審査請求日】2023-04-14
(31)【優先権主張番号】63/014,398
(32)【優先日】2020-04-23
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/841,186
(32)【優先日】2019-04-30
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】500049716
【氏名又は名称】アムジエン・インコーポレーテツド
(74)【代理人】
【識別番号】110001173
【氏名又は名称】弁理士法人川口國際特許事務所
(72)【発明者】
【氏名】レ,キム・エイチ
(72)【発明者】
【氏名】シエ,ユーツェン
(72)【発明者】
【氏名】スティーブンズ,ジェニット・リアン
(72)【発明者】
【氏名】バスカビル-ブリッジズ,アーロン
【審査官】鈴木 和樹
(56)【参考文献】
【文献】特表2018-523968(JP,A)
【文献】特表2018-503589(JP,A)
【文献】米国特許出願公開第2016/0171686(US,A1)
【文献】米国特許出願公開第2017/0258390(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00 - 99/00
(57)【特許請求の範囲】
【請求項1】
組換えタンパク質を産生する複数の候補細胞株の中から細胞株を選択することを容易にする方法であって、
光-電子細胞株生成及び分析システムを使用して、前記複数の候補細胞株について第1の複数の属性値を測定すること;
1つ以上のプロセッサにより、前記複数の候補細胞株について第2の複数の属性値を取得することであって、前記第2の複数の属性値は、前記複数の候補細胞株の細胞プールスクリーニングステージで測定された1つ以上の属性値を含む、取得すること;
1つ以上のプロセッサにより、前記複数の候補細胞株のための仮想小規模スクリーニング培養物に関連する製品品質属性に従い、前記複数の候補細胞株のランキングを決定することであって、(i)機械学習ベースの回帰推定器を使用して、前記第1の複数の属性値及び前記第2の複数の属性値を分析することにより、前記複数の候補細胞株のそれぞれについて前記製品品質属性の値を予測することと、(ii)予測された前記製品品質属性の値を比較することとを含む、決定すること;及び
前記ランキングの表示を、ユーザインターフェースを介してユーザに提示させること
を含む方法。
【請求項2】
前記光-電子細胞株生成及び分析システムを使用して前記第1の複数の属性値を測定することは、前記複数の候補細胞株について複数の光学的及びアッセイ測定を行うことを含む、請求項1に記載の方法。
【請求項3】
前記複数の候補細胞株について前記複数の光学的及びアッセイ測定を行うことは、前記光-電子細胞株生成及び分析システムにおいて、複数の物理的に隔離されたペンで少なくとも細胞数及び細胞生産性スコアを測定することを含み、前記方法は、
前記光-電子細胞株生成及び分析システムを使用して、少なくとも、光パターンによって活性化された1つ以上の光伝導体を有する前記複数の物理的に隔離されたペンの異なるペンに個々の細胞を移動させることと、細胞株生成及び分析プロセスを通して、前記個々の細胞をそのそれぞれのペン内に収容することとにより、前記複数の候補細胞株の細胞を生成すること
をさらに含む、請求項2に記載の方法。
【請求項4】
前記第1の複数の属性値を測定することは、
属性の第1の測定に対応する第1の属性値;及び
前記属性の第2の測定に対応する第2の属性値
を測定することを含み、前記第1の測定及び前記第2の測定は、前記細胞株生成及び分析プロセスの異なる日に行われる、請求項3に記載の方法。
【請求項5】
前記第2の複数の属性値を取得することは、
測定された細胞プール力価;
測定された細胞プール生存細胞密度(VCD);又は
測定された細胞プール生存率
の1つ以上を受け取ることを含む、請求項1に記載の方法。
【請求項6】
前記第2の複数の属性値を取得することは、前記細胞プールスクリーニングステージの異なる日に測定された属性値を受け取ることを含む、請求項1に記載の方法。
【請求項7】
前記1つ以上の製品品質属性は、細胞増殖メトリックスを含む、請求項1に記載の方法。
【請求項8】
前記1つ以上の製品品質属性は、(i)力価、又は(ii)比生産性メトリックスの1つ以上を含む、請求項1に記載の方法。
【請求項9】
前記ランキングを決定することは、少なくとも、(i)前記複数の候補細胞株のそれぞれについて、前記機械学習ベースの回帰推定器を使用して、前記第1の複数の属性値及び前記第2の複数の属性値を分析することによって力価を予測することと、(ii)前記予測された力価を比較することとにより、力価に従って前記ランキングを決定することを含み;
前記第1の複数の属性値は、細胞生産性スコアに基づく値を含み;及び
前記第2の複数の属性値は、細胞プール力価に基づく値を含む、請求項1に記載の方法。
【請求項10】
前記力価を予測することは、リッジ回帰推定器を使用して前記第1の複数の属性値を分析することを含む、請求項9に記載の方法。
【請求項11】
前記ランキングを決定することは、少なくとも、(i)前記複数の候補細胞株のそれぞれについて、前記機械学習ベースの回帰推定器を使用して、前記第1の複数の属性値及び前記第2の複数の属性値を分析することによって比生産性メトリックスを予測することと、(ii)前記予測された比生産性メトリックスを比較することとにより、比生産性に従って前記ランキングを決定することを含み;
前記第1の複数の属性値は、細胞生産性スコアに基づく値及び細胞数に基づく値を含み;及び
前記第2の複数の属性値は、細胞プール力価に基づく値を含む、請求項1に記載の方法。
【請求項12】
前記比生産性メトリックスを予測することは、2つの主成分を有する主成分分析(PCA)回帰推定器を使用することを含む、請求項11に記載の方法。
【請求項13】
前記ランキングを決定することは、少なくとも、(i)前記複数の候補細胞株のそれぞれについて、前記機械学習ベースの回帰推定器を使用して、前記第1の複数の属性値及び前記第2の複数の属性値を分析することによって細胞増殖メトリックスを予測することと、(ii)前記予測された細胞増殖メトリックスを比較することとにより、細胞増殖に従って前記ランキングを決定することを含み;
前記第1の複数の属性値は、細胞数に基づく値を含み;及び
前記第2の複数の属性値は、細胞プール力価に基づく値、細胞プール時間積分生存細胞密度(iVCD)に基づく値、異なる日における細胞プール生存細胞密度(VCD)に基づく値及び異なる日における細胞プール生存率に基づく値を含む、請求項1に記載の方法。
【請求項14】
前記細胞増殖メトリックスを予測することは、1つの主成分を有する部分最小二乗(PLS)回帰推定器を使用することを含む、請求項13に記載の方法。
【請求項15】
少なくとも前記機械学習ベースの回帰推定器についてSpearmanのロー又は平均Spearmanのローを計算することにより、前記機械学習ベースの回帰推定器の性能を評価することをさらに含む、請求項1に記載の方法。
【請求項16】
前記ランキングに基づいて、前記複数の候補細胞株の1つ以上の細胞株を次の細胞株スクリーニングステージに進めることをさらに含む、請求項1に記載の方法。
【請求項17】
前記次の細胞株スクリーニングステージは、流加バッチ細胞培養ステージである、請求項16に記載の方法。
【請求項18】
コンピューティングシステムの1つ以上のプロセッサによって実行されると、前記コンピューティングシステムに、請求項1~15のいずれか一項に記載の方法を行わせる命令を保存する1つ以上の非一時的コンピュータ可読媒体。
【請求項19】
コンピューティングシステムであって、
1つ以上のプロセッサ;及び
前記1つ以上のプロセッサによって実行されると、前記コンピューティングシステムに、請求項1~15のいずれか一項に記載の方法を行わせる命令を保存する1つ以上の非一時的コンピュータ可読媒体
を含むコンピューティングシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
2019年4月30日に出願された米国仮特許出願第62/841,186号明細書及び2020年4月23日に出願された米国仮特許出願第63/014,398号明細書に対する優先権が主張され、これらの出願の開示全体が参照により本明細書に組み込まれる。
【0002】
本出願は、概して、細胞株(クローン)選択技術に関し、より具体的には、特定の製品品質属性に従い、クローン生成及び分析プロセスから進められた細胞株の相対的なランクを予測する技術に関する。
【背景技術】
【0003】
バイオ医薬品産業において生物製剤として知られる大きい複合分子(例えば、タンパク質)は、生体系に由来する。生物製剤の開発のための一般的なワークフローは、研究及び開発から始まる。この初期段階では、満たされていない重要な医学的必要性を表す疾患又は適応症が標的とされる。研究者らは、例えば、安全性、有効性及び投与経路などの側面を支配する適切な標的製品のプロファイルに基づいて、見込みのある薬物候補を決定する。最終的に、インビトロ研究と計算モデルとの組み合わせにより、特定の疾患及び標的集団のためのトップの薬物候補として特定の分子が選択される。トップの候補が選択された後、その分子の青写真が遺伝子に形式化され、その目的の遺伝子が発現ベクターに挿入される。次いで、発現ベクターを、遺伝子導入として知られるプロセスで宿主細胞に挿入する。遺伝子導入が成功すると、細胞は、目的の遺伝子をそれ自体の産生メカニズムに組み込むことができ、最終的に所望の医薬品を産生する能力を獲得する。
【0004】
各細胞は、固有の特性を有するため、各細胞によって産生される生成物は、例えば、生産性(例えば、力価)及び生成物の品質の点でわずかに変化する。一般に、経済性及び安全性の理由から、一貫して高い力価及び一貫して高い品質を有する薬物を製造することがより望ましい。製品の高濃度又は力価は、所望の生産量を実現するために必要とされる製造フットプリントを低減するのに役立ち、したがって資本費用及び運転費用の両方を節約する。高い製品品質は、より多くの割合の薬物が安全であり、有効であり、且つ使用可能であることを保証し、これもコストを節約する。細胞株開発に関連して、製品品質属性は、目的の製品に対して行われるアッセイを通して評価される。これらのアッセイは、多くの場合、クロマトグラフ法分析を含み、これは、グリコシル化の程度及び切断(クリッピング)又は凝集(凝集体)に起因する使用不能タンパク質の割合など、他の因子などの属性を決定するために使用される。
【0005】
生産性及び製品品質に関する基準に基づいて、「最良の」細胞株又はクローンは、「細胞株選択」、「クローン選択」又は「クローンスクリーニング」として知られるプロセスで選択される。選択された細胞株/クローンは、マスターセルバンクのために使用され、これは、全ての将来の製造(例えば、臨床及び商業)のための均一な出発点としての役割を果たす。
【0006】
一貫した製品バッチを確保することは、患者のより均一で予測可能な薬物動態反応及び薬力学的反応を促進することを支援する。しかし、遺伝子導入後に得られた異種細胞の「プール」を使用して目的の生成物を生成する場合、生成された生成物の多くの変異体が存在し得る。これは、遺伝子導入中、目的の遺伝子が種々の方法で候補宿主細胞に組み込まれるためである。例えば、異なる細胞の固有のフットプリント間でコピー数(すなわち目的の遺伝子の組み込まれたコピーの数)及び他の分化因子に差が生じ得る。目的の製品の製造は、翻訳後修飾の性質を含む、個々の細胞の内部機構におけるわずかな差異によっても変動し得る。これらの変動は、特に患者の測定される安全な応答を最終的に制御及び保証する必要性を考慮すると、望ましくない。したがって、典型的には、マスターセルバンクの細胞株は、「クローン的に誘導される」、すなわち、マスターセルバンクは、共通する単一の細胞の祖先に由来する細胞のみを含むことが要求される。これは、理論的には、細胞が分裂する際のランダムな突然変異による自然の遺伝的変異のため、わずかではあるが必然的な差異があるものの、生産される薬物の大きい程度の均一性を保証することを促進する。したがって、クローンスクリーニングプロセスは、生産的で高品質の出発物質だけでなく、「クローン由来」要件に適合する唯一の細胞株を配布する際に重要である。
【0007】
図1は、典型的なクローンスクリーニングプロセス10を示す。最初のステージ11は、2~3週間かかり得る、クローンの生成及び増殖の従来のマイクロタイタープレートベースの方法を示す。数百のプールされた不均一な細胞を蛍光活性化細胞選別(FACS)又は限界希釈などのプロセスによって単一細胞培養物に選別する。健康で安定な集団に回復させた後、これらのクローン由来細胞を分析し、選択された集団をステージ12に移す。ステージ12では、スピンチューブ、24ウェルプレート又は96深型ウェルプレートなどの小さい容器中のクローン細胞を「小規模細胞培養物」(例えば、10日間の流加バッチ法)において培養する。この小規模プロセスでは、栄養素のボーラスが定期的に添加され、細胞増殖及び生存率の異なる測定値が得られる。典型的には、数百又は数千ものこれらの小規模培養が並行して実施される。培養の終わり(例えば、10日目)に、アッセイ及び分析のために細胞を収集する。
【0008】
ステージ12で小規模培養物中のクローンの増殖及び生産性特性を分析することにより、第3のステージ14で実施されるスケールアップ培養のための「トップ」又は「ベスト」のクローン(例えば、トップ4)を選択する。最終的に臨床及び商業的製造において使用されるプロセスをよりよく表すため、スケールアップ(又は「大規模」)プロセスは、ステージ12における小規模培養と比較して有用である。スケールアッププロセスは、例えば、3~5リットルの潅流バイオリアクター中で15日間の培養により実施され得る。これらの潅流バイオリアクターは、老廃物及び栄養素のより効率的な移動に適応し、それによって培養物の全体的な生産性を増加させる。潅流バイオリアクターは、典型的には、日常的及び連続的なプロセス条件並びに代謝産物濃度など、より多数の測定変数にも関連し、より厳密な制御及びモニタリングが可能になる。
【0009】
ステージ14でのスケールアッププロセス後、媒体及び生成物が収集及び分析される。最終的に、第4のステージ16において、最高の力価をもたらし、最良の製品品質属性(PQA)を示すスケールアップ生成物が、典型的には「最良」又は「勝利」クローンとして選択される。最後に、第5のステージ18では、勝利したクローンは、将来の臨床及び商業的製造で使用するためのマスターセルバンクとして使用される。
【発明の概要】
【発明が解決しようとする課題】
【0010】
上記の種類の従来方式クローンスクリーニングプロセスは、極めてリソース集約的であり、典型的には数ヶ月を要し、数百又は数千のアッセイ及び細胞培養を必要とする。しかしながら、バイオテクノロジーのペースが速くなるにつれて、且つ初期段階のパイプラインにおけるさらなる分子のプロセシングに一層重点が置かれるにつれて、より迅速なクローンスクリーニングに対する必要性が増大している。さらに、従来のクローンスクリーニングプロセスは、部分的には、それぞれの異なる薬物候補についてのモダリティ、構成及び配列特性の独特の組み合わせが、異なる因子が多かれ少なかれ重要であり得ることを意味するため、いずれのクローンを次のステージ/バイオプロセスに進めるかを選択し、且つ最終的に勝利クローンを選択するための標準化された基準を欠いている。
【課題を解決するための手段】
【0011】
本明細書に記載の実施形態は、クローン選択における細胞株及びバイオプロセスの性能予測モデルを作製、評価及び/又は適用するシステム及び方法に関する。特に、ロバストな機械学習モデルが作製され、性能を改善しながら開発のタイムライン及びリソースの使用を低減するために使用される。
【0012】
一態様では、1つ以上の機械学習アルゴリズムを使用して、これらの同じクローンの実世界での小規模培養物に関する測定値及び他のデータに基づき、仮想的スケールアップ(バイオリアクター)培養における各クローン及び全てのクローンの性能を予測することができる。大規模培養性能は、仮定/仮想的な培養日数(例えば、15日間の培養)について予測することができ、各予測は、ほぼ即座に行うことができる。実施形態に依存して、このプロセスは、スケールアップ実験のためのより良好なクローン/細胞株(すなわち大規模培養でより良好な性能を示す可能性が高いクローン)の選択をもたらし得るか、又はいかなるスケールアップ実験も行わずに(例えば、最良の予測されるバイオリアクター性能を有するクローンを選択することにより)、さらに「勝利」クローンの選択をもたらし得、これにより生物製剤プログラムのクリティカルパスから1ヶ月以上が短縮され得る。
【0013】
本明細書に記載の予測モデルを使用して、従来の「漏斗」アプローチ(すなわち図1のステージ12からステージ14に、且つステージ16に進む)と比較して、より高産生及び/又はより高品質のクローンが同定され得る。この改善は、小規模の結果がいくつかの類似性を有するにもかかわらず、スケールアップの結果を完全には代表しないために生じる。換言すれば、ステージ12において、いくつかの予め決められた基準に従い、最良の生産性及び/又は最良の生成物品質を有するクローンを単に選択することは、ステージ14において、(同じ基準に従って)必ずしも最良の生産性及び/又は最良の生成物品質をもたらさない。
【0014】
さらに、解釈可能な機械学習アルゴリズムを使用して、正確な予測を実現するために最も重要な入力の特徴(例えば、小規模培養物の測定)を特定し得る。任意の所与のクローンスクリーニングプログラムにおいて、非常に多数の属性(例えば、600超)が追跡され得ることを考慮すれば、これは、有用であり得る。したがって、例えば、比較的少数の入力特徴(例えば、約10の特徴)を使用して十分に正確な予測を行うことが可能であり、多数の他の属性を測定する必要性を排除することができる。測定値と、所望の予測標的との間の相関の知識は、科学的洞察を提供し得、且つ将来のバイオプロセスの改善を導き得るさらなる研究のための仮説も生じ得る。
【0015】
別の態様では、上記のプロセスに加えて又はその代わりに、1つ以上の機械学習アルゴリズムを使用して、いずれのクローンがサブクローニングステージから小規模スクリーニング培養(例えば、図1のステージ11からステージ12)に進むべきかを選択し得る。典型的には、サブクローニングステージの終わりに高い細胞生産性スコア及び多くの細胞数の両方を有するクローンは、小規模スクリーニング培養(流加バッチ実験)において高い性能を達成する最良の候補であると考えられてきた。このアプローチは、典型的には、およそ30~100クローンの流加バッチステージへの前進をもたらす。しかしながら、本明細書に記載の機械学習アルゴリズムは、サブクローニングステージ及び先行する細胞プールステージの両方で候補クローンの種々の属性を分析し、仮想小規模(例えば、流加バッチ)培養実験から生じる特定の製品品質属性(例えば、力価、細胞増殖又は比生産性)を予測することにより、このプロセスを改善することができる。クローンの生成及び増殖のマイクロタイタープレートに基づく方法(すなわち図1のサブクローニングステージ11)は、例えば、Berkeley Lights Beacon(商標)光-電子細胞株生成及び分析システムなど、より効率的であり、高スループットあり、且つ高含有量のスクリーニングツールの使用で置換され得る。候補細胞株について製品品質属性値を予測した後、候補は、予測された値に従ってランク付けされ、それにより細胞株開発の次のステージに向けた候補クローンのより小さいサブセットの選択を容易にする。有利には、これらの値に従って作成されたランキングは、基礎となる予測値が比較的低い精度を示し、したがって表面上では不十分であるように見えても、特定の機械学習モデルでは高度に正確であり得る。実施形態に応じて、このプロセスは、小規模スクリーニング培養のための候補クローン/細胞株(すなわち小規模培養において最良の性能を示すものである可能性がより高いクローン)を選択する場合、より少ないリソース使用(例えば、時間、コスト、労力、設備などに関して)を必要とし、且つ/又はより良好な標準化を提供し得る。例えば、流加バッチステージに進められる細胞の数を減らすことは、他の薬物製品について他の細胞株を試験する能力を解放し得る。いくつかの実施形態では、小規模スクリーニングステージは、様々な細胞株のランキングに基づいて完全にスキップされ得る(例えば、プロセス10のステージ11からステージ14に直接進むことにより)。
【0016】
本明細書で説明される図は、説明のために含められたものであり、本開示を限定するものではないことが当業者に理解されるであろう。図面は、必ずしも縮尺通りではなく、代わりに本開示の原理を示すことに重点が置かれている。いくつかの場合、記載される実施形態の様々な態様は、記載される実施形態の理解を促進するために誇張又は拡大して示される場合があることを理解されたい。図面では、様々な図面を通した同様の参照符号は、全般的に、機能的に類似する及び/又は構造的に類似する構成要素を指す。
【図面の簡単な説明】
【0017】
図1】典型的クローンスクリーニングプロセスの様々なステージを示す。
図2】本明細書に記載の本発明の第1の態様の手法を実施し得る例示的なシステムの簡略化したブロック図である。
図3】特定の使用事例に特化した機械学習モデルを生成するための例示的なプロセスのフロー図である。
図4A】様々な異なる使用事例における様々なモデルの例示的な性能を示す。
図4B】様々な異なる使用事例における様々なモデルの例示的な性能を示す。
図5A】様々な異なる使用事例及びモデルについて例示的な特徴重要度のメトリクスを示す。
図5B】様々な異なる使用事例及びモデルについて例示的な特徴重要度のメトリクスを示す。
図5C】様々な異なる使用事例及びモデルについて例示的な特徴重要度のメトリクスを示す。
図5D】様々な異なる使用事例及びモデルについて例示的な特徴重要度のメトリクスを示す。
図6A】それぞれ使用事例のパラメータの設定及び予測出力分析のための例示的なユーザインターフェースにより提供されるスクリーンショットを示す。
図6B】それぞれ使用事例のパラメータの設定及び予測出力分析のための例示的なユーザインターフェースにより提供されるスクリーンショットを示す。
図7】組換えタンパク質を産生する候補細胞株の中からのマスター細胞株の選択を容易にする例示的な方法のフロー図である。
図8】本明細書に記載の本発明の第2の態様の手法を実施し得る例示的なシステムの簡略化したブロック図である。
図9】細胞株の選択のための、細胞数と細胞生産性スコアとの関係を示す例示的なグラフィック出力である。
図10】機械学習モデルを生成及び評価するための例示的なプロセスを示す。
図11A】特徴削減のために使用され得る回帰推定器からの例示的な出力を示す。
図11B】特徴削減のために使用され得る回帰推定器からの例示的な出力を示す。
図12A】様々なモデル及び標的の製品品質属性について観察されたモデル性能及び/又は特徴重要度を示す。
図12B】様々なモデル及び標的の製品品質属性について観察されたモデル性能及び/又は特徴重要度を示す。
図12C】様々なモデル及び標的の製品品質属性について観察されたモデル性能及び/又は特徴重要度を示す。
図12D】様々なモデル及び標的の製品品質属性について観察されたモデル性能及び/又は特徴重要度を示す。
図12E】様々なモデル及び標的の製品品質属性について観察されたモデル性能及び/又は特徴重要度を示す。
図12F】様々なモデル及び標的の製品品質属性について観察されたモデル性能及び/又は特徴重要度を示す。
図12G】様々なモデル及び標的の製品品質属性について観察されたモデル性能及び/又は特徴重要度を示す。
図13A】実世界の流加バッチ培養物に基づくランキングとモデル予測ランキングとの比較を示す。
図13B】実世界の流加バッチ培養物に基づくランキングとモデル予測ランキングとの比較を示す。
図13C】実世界の流加バッチ培養物に基づくランキングとモデル予測ランキングとの比較を示す。
図14】組換えタンパク質を産生する複数の候補細胞株の中からの、次の細胞株スクリーニングのステージに進むべき細胞株の選択を容易にするための例示的な方法のフロー図である。
【発明を実施するための形態】
【0018】
上記で導入され、後により詳細に議論される様々な概念は、多くの方法のいずれかで実施することができ、説明される概念は、いかなる特定の実施様式にも限定されるものではない。実施形態の例は、説明を目的として提供されている。
【0019】
図2は、本明細書に記載の第1の態様の手法を実施し得る例示的なシステム100の簡略化されたブロック図である。システム100は、ネットワーク106を介してトレーニングサーバー104に通信可能に接続されたコンピューティングシステム102を含む。一般に、コンピューティングシステム102は、トレーニングサーバー104によってトレーニングされた1つ以上の機械学習(ML)モデル108を使用して、特定の細胞株の大規模(バイオリアクター)細胞培養性能(例えば、生産性及び/又は製品品質属性)を、それらの細胞株の小規模培養物測定に基づいて且つ場合により他のパラメータ(例えば、モダリティ)にも基づいて予測するように構成される。
【0020】
ネットワーク106は、単一の通信ネットワークであり得るか、又は1つ以上の種類の複数の通信ネットワーク(例えば、1つ以上の有線及び/若しくは無線ローカルエリアネットワーク(LAN)並びに/又はインターネットなどの1つ以上の有線及び/若しくは無線広域ネットワーク(WAN))を含み得る。様々な実施形態では、トレーニングサーバー104は、「クラウド」サービス(例えば、Amazon Web Services)としてMLモデル108をトレーニング及び/若しくは使用するか、又はトレーニングサーバー104は、ローカルサーバであり得る。しかしながら、図示の実施形態では、MLモデル108は、サーバ104によってトレーニングされ、必要に応じてネットワーク106を介してコンピューティングシステム102に転送される。他の実施形態では、MLモデル108の1つ、いくつか又は全ては、コンピューティングシステム102上でトレーニングされ、次いでサーバ104にアップロードされ得る。さらに他の実施形態では、コンピュータシステム102は、モデル108をトレーニングし、且つ維持/保存し、この場合、システム100は、ネットワーク106及びトレーニングサーバー104の両方を省略し得る。
【0021】
図2は、コンピューティングシステム102が特定の小規模細胞培養物110の測定に基づいて予測を行うシナリオを示す。培養物110は、例えば、ウェル又はバイアルなどの単一の容器内の特定の細胞株(例えば、チャイニーズハムスター卵巣(CHO)細胞由来)の培養物であり得る。培養物110の細胞株は、組換えタンパク質を産生する任意の適切な細胞株であり得、任意の特定のモダリティのものであり得る。細胞株は、例えば、モノクローナル抗体(mAb)産生細胞株又は二重特異性若しくは他の多重特異性抗体を産生する細胞株であり得る。コンピューティングシステム102は、本明細書に記載されているような光-電子機器などのマイクロ流体環境で培養された細胞の測定に基づいて予測を行い得ることも理解されるであろう。
【0022】
1つ以上の分析機器112は、後にさらに議論するように、予測を行うためにコンピューティングシステム102によって使用される物理的測定値を取得するように集合的に構成される。分析機器112は、測定値を直接取得することができ、且つ/又は間接的若しくは「ソフト」センサ測定値を取得するか若しくはその取得を容易にすることができる。本明細書で使用される場合、「測定値」という用語は、分析機器(例えば、機器112の1つ)によって直接測定/検知される値、分析機器が1つ以上の直接測定値に基づいて計算する値又は別の装置(例えば、コンピューティングシステム102)が1つ以上の直接測定値に基づいて計算する値を指し得る。分析機器112は、完全に自動化された機器及び/又は人間の援助を必要とする機器を含み得る。単なる一例として、分析機器112は、1つ以上のクロマトグラフ装置(例えば、サイズ排除クロマトグラフィー(SEC)、カチオン交換クロマトグラフィー(CEX)及び/又は親水性相互作用クロマトグラフィー(HILIC)を実施するように構成された装置)、標的生成物の力価を決定するための測定値を得るように構成された1つ以上の装置、培養培地(例えば、グルコース、グルタミンなど)の代謝産物濃度を直接的又は間接的に測定するように構成された1つ以上のデバイスなどを含み得る。
【0023】
コンピュータシステム102は、本明細書で論じられる動作を実行するように特別にプログラムされた汎用コンピュータであり得るか、又は専用コンピューティング装置であり得る。図2から分かるように、コンピューティングシステム102は、プロセッシングユニット120、ネットワークインターフェース122、ディスプレイ124、ユーザ入力装置126及びメモリユニット128を含む。しかしながら、いくつかの実施形態では、コンピューティングシステム102は、互いに同じ場所に配置されているか、又は互いに離れている2つ以上のコンピュータを含む。これらの分散型の実施形態では、プロセッシングユニット120、ネットワークインターフェース122及び/又はメモリユニット128に関連する、本明細書に記載される動作は、それぞれ複数のプロセッシングユニット、ネットワークインターフェース及び/又はメモリユニット間で分割され得る。
【0024】
プロセッシングユニット120は、1つ以上のプロセッサを含み、1つ以上のプロセッサのそれぞれは、メモリユニット128に保存されたソフトウェア命令を実行して、本明細書に記載されているようなコンピューティングシステム102の機能のいくつか又は全てを実行するプログラム可能なマイクロプロセッサであり得る。プロセッシングユニット120は、例えば、1つ以上の中央プロセッシングユニット(CPU)及び/又は1つ以上のグラフィックスプロセッシングユニット(GPU)を含み得る。代わりに又は加えて、プロセッシングユニット120内のプロセッサのいくつかは、他のタイプのプロセッサ(例えば、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)など)であり得、本明細書に記載されるコンピューティングシステム102の機能のいくつかは、代わりにハードウェアで実装され得る。ネットワークインターフェース122は、1つ以上の通信プロトコルを使用して、ネットワーク106を介してトレーニングサーバー104と通信するように構成された任意の適切なハードウェア(例えば、フロントエンド送信機及び受信機ハードウェア)、ファームウェア及び/又はソフトウェアを含み得る。例えば、ネットワークインターフェース122は、コンピューティングシステム102がインターネット又はイントラネットなどの上でトレーニングサーバー104と通信することを可能にするイーサネットインターフェースであり得るか又はそれを含み得る。
【0025】
ディスプレイ124は、ユーザに情報を提示するために任意の適切なディスプレイ技術(例えば、LED、OLED、LCDなど)を使用し得、ユーザ入力装置126は、キーボード又は他の適切な入力装置であり得る。いくつかの実施形態では、ディスプレイ124及びユーザ入力装置126は、単一装置(例えば、タッチスクリーンディスプレイ)内に一体化される。一般に、ディスプレイ124及びユーザ入力装置126は、ユーザが、コンピューティングシステム102により提供されるグラフィカルユーザインターフェース(GUI)(例えば、図6A及び6Bを参照して後述するようなインターフェース)と対話することを可能にするように組み合わされ得る。しかしながら、いくつかの実施形態では、コンピューティングシステム102は、ディスプレイ124及び/若しくはユーザ入力装置126を含まないか、又はディスプレイ124及びユーザ入力装置126の一方若しくは両方は、コンピューティングシステム102と通信可能に結合される別のコンピュータ若しくはシステム(例えば、顧客の装置)に含まれる。
【0026】
メモリユニット128は、1つ以上の揮発性及び/又は不揮発性メモリを含み得る。読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、フラッシュメモリ、ソリッドステートドライブ(SSD)、ハードディスクドライブ(HDD)など、1つ以上の任意の適切なメモリタイプを含めることができる。メモリユニット128は、まとめて、1つ以上のソフトウェアアプリケーション、それらのアプリケーションによって受け取られる/使用されるデータ及びそれらのアプリケーションによって出力/生成されるデータを保存し得る。これらのアプリケーションは、プロセッシングユニット120によって実行されると、分析機器112によって得られた小規模測定値に基づいて(且つ場合によりモダリティなどの他の情報にも基づいて)、仮想/仮定の大規模培養における特定の細胞株の性能(例えば、生産性及び/又は製品品質属性)を予測する大規模予測アプリケーション130を含む。アプリケーション130の様々なモジュールは、後述されるが、それらのモジュールは、異なるソフトウェアアプリケーション間に分配され得、且つ/又はそのようなモジュールのいずれか1つの機能は、2つ以上のソフトウェアアプリケーション間で分割され得ることが理解されるであろう。
【0027】
アプリケーション130のデータ収集ユニット132は、培養物110などの小規模細胞培養物に関連する様々な属性の値を収集する。例えば、データ収集ユニット132は、分析機器112から直接測定値を受け取ることができる。加えて又は代わりに、データ収集ユニット132は、測定値データベース(図2には示さず)に保存された情報及び/又はユーザによって入力された情報を(例えば、ユーザ入力装置126を介して)受信することができる。例えば、データ収集ユニット132は、モダリティ、標的薬物製品、薬物タンパク質足場型及び/又はユーザによって入力され、且つ/若しくはデータベースに保存された任意の他の適切な情報を受信し得る。加えて又は代わりに、データ収集ユニットは、本明細書に記載されているように、光-電子装置から測定値を受信し得る。
【0028】
特定の細胞株に対応する所与の小規模細胞培養物について、アプリケーション130の予測ユニット134は、データ収集ユニット132によって収集された属性値に基づいて動作し、ローカル機械学習モデル136を使用して、仮定/仮想的大規模培養物に対応する1つ以上の予測属性値を出力する。すなわち、データ収集ユニット132によって収集された属性値は、機械学習モデル136の入力/特徴として使用される。値が予測される属性は、1つ以上の生産性メトリクス(例えば、力価)及び/又は1つ以上の生成物品質メトリクス(例えば、SECメインピーク、低分子量ピーク及び/又は高分子量ピークパーセンテージ)を含み得る。図示した実施形態では、機械学習モデル136は、トレーニングサーバー104によってトレーニングされたモデル108の1つのローカルコピーであり、例えばメモリユニット128のRAMに保存することができる。しかしながら、上述のように、サーバ104は、他の実施形態における全てのモデル108を利用し得、この場合、ローカルコピーは、メモリユニット128に存在する必要がない。
【0029】
アプリケーション130の可視化ユニット138は、ユーザが、ユーザ入力装置126を介して、使用事例(例えば、いずれの大規模属性値を予測するか、モダリティなど)を示す情報を入力することを可能にするユーザインターフェースを生成し、ユーザが、ディスプレイ124を介して、予測ユニット134によって行われた予測(及び/又はそれから得られた他の情報)の視覚表現を観察することを可能にする。可視化ユニット138により生成され得るユーザインターフェースの例示的なスクリーンショットは、図6A及び図6Bを参照して後述する。
【0030】
一実施形態によるシステム100の動作を特定のシナリオ(そのシナリオでは、小規模細胞培養物110の特定の細胞株を含む小規模培養物中の多数の異なる細胞株(クローン)について大規模性能を予測するためにアプリケーション130が使用される)に関して、ここでさらに詳細に説明する。そうすることにより、スケールアップのために(例えば、図1のプロセス10におけるステージ14のために)細胞株のより良好な選択が同定され得るか、又はスケールアップステージが完全にスキップされ得る(例えば、種々の細胞株についての予測に基づいてプロセス10のステージ12からステージ16に直接パスすることにより)。
【0031】
最初に、トレーニングサーバー104は、トレーニングデータベース140に保存されたデータを使用して機械学習モデル108をトレーニングする。機械学習モデル108は、多数の異なるタイプの機械学習ベースの回帰推定器(例えば、決定木回帰器モデル、ランダムフォレスト回帰器モデル、線形サポートベクトル回帰モデル、エクストリーム勾配ブースティング(xgboost)回帰器モデルなど)及び場合により回帰に基づかない1つ以上のモデル(例えば、ニューラルネットワーク)も含むことができる。さらに、いくつかの実施形態では、モデル108は、任意の所与のタイプの2つ以上のモデル(例えば、異なる履歴データセット上において且つ/又は異なる特徴セットを使用してトレーニングされる同じタイプの2つ以上のモデル)を含むことができる。さらに、モデル108の異なるモデルは、異なる大規模培養物属性値(例えば、力価又はクロマトグラフィーSEC値など)を予測するようにトレーニングされ得る。図4A及び4Bを参照して後にさらに議論されるように、機械学習モデル108の各々は、特定の仕様事例に対して又は仕様事例の特定のクラスに対して最適化(トレーニング及びチューニング)され得る。さらに、図5A~5Dを参照して後にさらに議論されるように、機械学習モデル108の各々は、いずれの特徴(例えば、小規模培養物属性値)が特定の大規模培養物属性値を最も予測するかを識別するために使用され得、且つ/又は特定の大規模培養物属性値を最も予測する特徴のみを含む特徴セットを使用してトレーニング又は再トレーニングされ得る。
【0032】
トレーニングデータベース140は、単一のメモリ(例えば、HDD、SSDなど)に保存された単一のデータベース又は1つ以上のメモリに保存された複数のデータベースを含み得る。機械学習モデル108内のそれぞれの異なるモデルに対して、トレーニングデータベース140は、トレーニングデータの対応するセット(例えば、入力/特徴データ及び対応するラベル)を保存し得、場合によりトレーニングデータセット間で重複することもある。例えば、力価を予測するモデルをトレーニングするために、トレーニングデータベース140は、多数の特徴セット(これらの各々は、1つ以上の分析機器(例えば、分析機器112及び/又は類似の機器)によって行われた履歴的な小規模培養物測定値及び場合により他の情報(例えば、モダリティ)を含む)を各特徴セットのラベルと共に含み得る。この例では、各特徴セットのラベルは、小規模培養物の細胞株をバイオリアクター中でスケールアップしたときに測定された大規模培養物力価値(例えば、15日目の終点力価)を示す。いくつかの実施形態では、全ての特徴及びラベルは、数値であり、数値でない分類又はカテゴリーは、数値にマッピングされる(例えば、モダリティ機能/入力の許容値[Bispecific Format 1、Bispecific Format 2、Bispecific Format 1又は2]は、値[10、01、00]にマッピングされる)。
【0033】
いくつかの実施形態では、トレーニングサーバー104は、トレーニングされた機械学習モデル108を検証するため(例えば、機械学習モデル108の所与の1つが少なくともある最小許容精度を提供することを確認するため)、トレーニングデータベース140内で追加のラベル付きデータセットを使用する。モデル108の検証について、図3を参照して後にさらに議論する。いくつかの実施形態では、トレーニングサーバー104はまた、継続的に1つ以上の機械学習モデル108を更新/改良する。例えば、機械学習モデル108が最初に十分なレベルの精度を提供するようにトレーニングされた後、予測精度を改良するために、小規模(特徴)及び大規模(ラベル)の両方の追加の測定値を使用し得る。
【0034】
アプリケーション130は、ネットワーク106及びネットワークインターフェース122を介してトレーニングサーバー104から、目的の使用事例に対応する機械学習モデル108の特定の1つを読み出し得る。使用事例は、例えば、ユーザインターフェースを介してユーザによって示されるものである(例えば、図6Aを参照して後述するように)。モデルを読み出すと、コンピューティングシステム102は、ローカル機械学習モデル136としてローカルコピーを保存する。他の実施形態では、上述のように、モデルを読み出さず、代わりに、入力/特徴データは、モデル108の適切なモデルを使用するために必要に応じてトレーニングサーバー104(又は別のサーバ)に送られる。
【0035】
データ収集ユニット132は、モデル136によって使用される特徴セットに従い、必要なデータを収集する。例えば、データ収集ユニット132は、分析機器112と通信して、小規模細胞培養物110の力価、クロマトグラフ値、代謝産物濃度及び/又は他の特定の属性の測定値を収集し得る。そのような一実施形態では、データ収集ユニット132は、1つ以上の分析機器112にコマンドを送り、1つ以上の機器に所望の測定値を自動的に収集させる。別の実施形態では、データ収集ユニット132は、分析機器112に結合されている(且つ場合によりそれを制御する)異なるコンピューティングシステム(図2には示さず)と通信することにより、小規模細胞培養物110の測定値を収集する。上述のように、データ収集ユニット132は、ユーザによって入力された情報(例えば、モダリティ、標的薬物製品など)も受信し得る。いくつかの実施形態では、データ収集ユニット132によって収集されたいくつかのユーザ入力情報は、モデル108の適切な1つを選択するために使用される一方、データ収集ユニット132によって収集された他のユーザ入力情報は、選択されたモデルへの1つ以上の特徴/入力として使用される(又はそれを得るために使用される)。
【0036】
データ収集ユニット132が小規模細胞培養物110(及び場合により標的薬物製品などの他のデータ)に関連し、ローカル機械学習モデル136によって入力/特徴として使用される属性値を収集した後、予測ユニット134は、モデル136に、それらの入力/特徴に基づいて動作させて、同じ細胞株に対する1つ以上の大規模細胞培養物属性値の予測を出力させる。いくつかの実施形態及び/又はシナリオでは、ローカル機械学習モデル136は、異なる大規模培養物属性値をそれぞれが予測/出力する2つ以上のモデルを含み得ることを理解されたい。
【0037】
モデル136によって出力される大規模培養物属性値は、例えば、力価若しくは生存細胞密度(VCD)などの1つ以上の生産性属性並びに/又はSECメインピーク(MP)パーセンテージ、SEC低分子量(LMW)ピークパーセンテージ及び/若しくはSEC高分子量(HMW)ピークパーセンテージなどの1つ以上の製品品質属性値を含み得る。可視化ユニット138は、ディスプレイ124上に描かれたユーザインターフェースに、予測属性値及び/又は予測属性値から得られた他の情報を提示させる。例えば、可視化ユニット138は、(例えば、アプリケーション130が属性値を1つ以上のそれぞれの閾値と比較した後に)予測された属性値が1つ以上の細胞株選択基準を満たすかどうかの表示をユーザインターフェースに提示させ得る。
【0038】
上記のプロセスは、多数の異なる細胞株について繰り返すことができ、その各々は、小規模細胞培養物110と同様の小規模細胞培養物のために使用される。例えば、コンピューティングシステム102(又は図2には示されていない別のコンピューティングシステム)は、分析機器112に、数百又は数千の小規模細胞培養物(それぞれが異なるクローン/細胞株を含む)から測定値を連続的に取得させ得、予測ユニット134は、モデル136に、測定値(及び場合により他のデータ)の各セットに対して動作させて、それぞれの大規模予測又は予測のセットを出力させ得る。
【0039】
予測ユニット134は、各細胞株についてモデル136によって行われた予測及び/又は各予測セットから得られた情報をメモリユニット128又は別の適切なメモリ/場所に保存させることができる。予測が行われ、考慮中の全ての細胞株について保存された後、「勝利」細胞株が選択され得る(例えば、図1のステージ16と同様)。勝利細胞株の選択は、(例えば、生産性及び製品品質属性に特定の重みを割り当て、次いでスコアを比較することにより)使用事例に特有のいくつかの基準に従って完全に自動化され得るか、又は(例えば、ディスプレイ124を介して、予測された大規模属性値をユーザに単に表示することにより)人間との対話を伴い得る。代わりに、予測がなされ、且つ考慮中の全ての細胞株について保存された後、スケールアップのために細胞株のサブセットが選択され得る(例えば、図1のステージ14に類似する)。再び、この選択は、使用事例に特有のいくつかの基準に従って完全に自動化され得るか、又は人間との対話を伴い得る。
【0040】
上述のように、トレーニングサーバー104は、特定の仕様事例又は特定のクラスの仕様事例に特によく適した多数の異なる予測モデル108をトレーニングすることができる。さらに、非常に多数の小規模分析測定(及び場合により他の情報)を実行し、収集しなければならない時間及びコストを回避するために、解釈可能な機械学習モデルを使用し得る。例えば、トレーニングサーバー104は、何百もの特徴(例えば、約600の特徴)についてモデル108の1つをトレーニングすることができ、その後、トレーニングサーバー104(又は人間のレビューア)は、トレーニングされたモデル(例えば、各特徴に割り当てられた重み)を分析して、最も予測的な特徴(例えば、約10の特徴)を決定し得る。その後、その特定のモデル又は最も予測的な特徴のみを使用してトレーニングされたそのモデルの新しいバージョンは、はるかに小さい特徴セットと共に使用され得る。高度に予測的な特徴を同定することは、新たな仮説を生じ得る新たな科学的洞察を提供する(これは、次にバイオプロセスの改善につながり得る)など、他の目的にも有用であり得る。
【0041】
いずれのモデルが特定の使用事例に最も適しているかを決定し、所与のモデル又は使用事例について最も予測的な特徴を識別するための様々な技法を、図3~5を参照して以下に説明する。
【0042】
一般に、特定の使用事例について良好に性能を発揮するモデルは、以前のクローンスクリーニングの実施から生成された履歴トレーニングデータを使用して、多くの異なるモデルをトレーニングし、それらの結果を比較することによって識別され得る。履歴データは、小規模の細胞株開発データ(例えば、小規模流加バッチ測定データ)及びスケールアップされたバイオリアクターデータ(例えば、潅流バイオリアクター測定)を含み得る。さらに、履歴データは、培地の種類及びモダリティなどのカテゴリーデータ並びに代謝産物濃度及び力価値などの数値データの両方を含み得る。小規模細胞株開発データ(本明細書では単に「細胞株開発データ」又は「CLDデータ」とも呼ばれる)について、生存率、VCD及びグルコース濃度などの成長因子を経時的に(例えば、10日間の培養の異なる日に)定期的に収集することができる。スケールアップされたバイオリアクターデータ(本明細書中では「バイオプロセス開発データ」又は「BDデータ」とも呼ばれる)について、これらの属性並びに場合によりpHレベル及び溶存酸素濃度などの追加の属性を各特徴セットに関連して収集及び記録し得る。バイオリアクターデータは、生成物力価及びアッセイからの他の分析結果(例えば、SEC及び/又はCEX分析の結果)など、種々の特徴セットのためのラベルとしての役割を果たすデータも含み得る。頑強なトレーニングデータセットを保証するために、様々な対策を取ることができる(例えば、標準化された異種データを提供すること、異常値を除去すること、欠落値を帰属させることなど)。
【0043】
いくつかの実施形態では、有用な特徴を抽出又は導出するために、特別な特徴エンジニアリング技法が使用される。例えば、畳み込みニューラルネットワーク(又はtsfreshなどの時間データから要約統計を自動的に抽出するAPI)を使用して、様々な属性間の時間依存性を検出することができる(例えば、小規模培養物の0日目のVCDと、小規模培養物の6日目のVCDとの間の高い相関など)。これらの時間依存性は、モデルトレーニングのための有用な特徴を抽出/導出するために使用し得る。例えば、分散閾値化、主成分分析(PCA)、相互情報回帰、分散分析(ANOVA)及び高い共分散を有する特徴の除去など、他の特徴エンジニアリング技法も使用し得る。
【0044】
履歴トレーニングデータを使用して生成された任意の教師あり機械学習回帰モデルでは、タスクは、入力/特徴データxを予測値
【数1】
に最もよくマッピングする関数fを見つけることである。このマッピングは、以下の式で表されるように、予測値
【数2】
と将来のデータy*との間の誤差eを最小にすべきである。
【数3】
さらに、履歴トレーニングデータに対するこのモデルの誤差を最小化することは、不十分である。理想的には、モデルは、それが新しいデータに適用されるときに正確であるべきである。このようにして、新しい実験/プログラムのための最終結果の予測を生成するために、以前の実験からデータを取り込む機械学習アルゴリズムが構築され得る。
【0045】
多数の異なる使用事例の各々について良好に性能を発揮するモデルを識別するためのフレームワークとして使用することができる、モジュール式の柔軟なプロセス200を図3に示す。最初に、ステージ202では、与えられた仕様事例に対応する関連データが、利用可能な履歴データの中から選択される。「仕様事例」は、いずれのデータがその使用事例に関連するかを決定する方法により、様々な方法で定義することができる。例えば、使用事例は、特定の標的変数(y)、特定のモダリティ又はモダリティのセット及び場合により特徴データセットに対する1つ以上の特定の制限として定義され得る。より具体的な例として、使用事例は、(1)標的変数としての大規模培養物(バイオリアクター)についての終点力価、(2)全てのモダリティ(例えば、モノクローナル抗体及び考慮され得る二重特異性又は多重特異性フォーマット)、及び(3)トレーニングデータの特徴として(且つ/又は導出するために)細胞株開発履歴データのみを使用することに対応し得る。逆に、別の使用事例は、(1)標的変数としての大規模培養物についてのクロマトグラフィー分析結果(例えば、SECメインピーク)、(2)単一のモダリティ(例えば、特定のモノクローナル抗体又は二重特異性若しくは多重特異性抗体フォーマット)、及び(3)トレーニングデータの特徴として(及び/又は導出するために)細胞株開発履歴データ及びバイオリアクター履歴データの両方を使用することに対応し得る。
【0046】
使用事例用のモデルライブラリは、ステージ204で登録される。ステージ204は、使用事例のための標的属性値を予測するのに特に適していることが明らかになることも又はならないこともある多数の候補機械学習モデル/推定器の選択を含む。正確で解釈可能な結果を得るために、ステージ204で選択された機械学習モデルのいくつか又は全ては、2つの基準を満たすべきである。第1に、入力特徴に重みを割り当てることができる機械学習モデルは、標的出力を予測することに関して各入力特徴の相対的重要性を説明することができるために好ましい。第2に、スパース性誘導機械学習モデルが好ましい(例えば、最初に多くの属性値を特徴として受け入れるが、正確な予測を行うために、特徴としてこれらの属性値の小さいサブセットのみを必要とするモデル)。この特性は、標的結果に著しく影響しない特徴を排除することにより、過学習を減らす一方、解釈可能性も改善する。スパース性誘導モデルは、排除された属性値を測定する必要がないために、時間及びコストを節約することもできる。決定木(例えば、決定/ID木モデル、ランダムフォレストモデル、xgboostモデル、勾配ブースティングモデルなど)に基づく又は他の機械学習アルゴリズム(例えば、線形基底関数カーネル及び/又は半径基底関数カーネルを有するサポートベクトルマシン(SVM)、弾性ネットなど)に基づく回帰モデル/推定器は、上記の両方の基準を満たすのに特に適している。従来、解釈可能であると見なされないが、いくつかの実施形態では、ステージ204で1つ以上のニューラルネットワークを選択することもできる。
【0047】
ステージ206では、機械学習パイプラインは、使用事例のためと見なされる各モデル(すなわちステージ204でライブラリのために選択された各モデル)をトレーニングするように設計される。例えば、ステージ206は、各モデルについてk分割の検証を実施することを含み得る(例えば、ステージ202で選択されたデータセットの異なる90/10パーティションにわたってモデルが10回トレーニングされ、評価される場合、k=10である)。機械学習パイプライン内において、ステージ202で選択されたデータセットは、最初に、各特徴の平均をゼロ(μ=0)及び標準偏差を1(σ=1)で正規化することなどにより、標準スケーリングにより変換され得る。これは、異なる特徴に対応する生の値の等しくない大きさによるバイアスがかかることなく、各特徴の重要性が等しい基準で考慮されることを可能にする。
【0048】
正規化後、モデルのハイパーパラメータがチューニングされる。例えば、ベイズ探索技法を使用して、ハイパーパラメータをチューニングすることができる。この技法は、グリッド探索又はランダム探索よりも計算上効率的なベイズガイド探索を実行するが、ランダム探索と同様のレベルの性能を得る。非ブースティング及び非ニューラルネットワークアルゴリズムなどの比較的単純なアルゴリズムは、ベイズ探索の比較的少数の反復(例えば、10)を使用し得、勾配ブースティング、xgboost及びニューラルネットワークアルゴリズムなどのより複雑なアルゴリズムは、より高次元の探索空間のために、ベイズ探索の比較的多数の反復(例えば、30)を使用し得る。ハイパーパラメータは、k分割の検証(例えば、k=5)を通して選択され得る。次いで、チューニングされたハイパーパラメータを有する各トレーニングされたモデルは、試験データセットを使用して評価される。各モデルについて決定係数(R)及び二乗平均平方根誤差(RMSE)のようなアルゴリズム性能メトリクスを得ることができる。RMSEは、以下のように計算され得る。
【数4】
ここで、nは、1つの交差検証分割当たりのサンプル数を表し、yは、実際の標的出力を表し、fは、予測標的出力を表す。モデルの平均RMSEは、以下のように計算され得る。
【数5】
ここで、kは、交差検証の分割数を表す。
【0049】
ステージ208では、いくつかの基準に従い、使用事例のための最良のモデルが選択される。例えば、「最良の」モデルは、ステージ204でモデルライブラリを登録するために使用され、ステージ206でトレーニングされる全てのモデルの中でも、90/10k分割の検証後に10の交差検証分割にわたって最低の平均RMSEを有するモデルであり得る(上記の式3による)。RMSEは、使用事例間のモデル性能を特異な正規化メトリックと比較する傾向を回避するため、RMSEは、Rよりも良好なメトリックであり得る。さらに、Rメトリックは、場合により、いくつかの交差検証セットで極端な負の値をとることがあり、これは、平均化されたときにモデル比較のダイナミックスを歪めることがある。RMSEは、予測と実績との間のより大きい誤差をペナルティ化するために、平均絶対誤差(MAE)よりも利用され得る。
【0050】
その後、ステージ210において、使用事例の最終生産モデルが出力される。最終生産モデルは、ステージ208で選択されたモデルと同じタイプであり得るが、より良好な(例えば、最適である)ハイパーパラメータを得るためにステージ202で選択されたデータセット全体に対して再トレーニングされ得る。データセット全体に対してトレーニングすることにより、最終生産モデルは、よりよく一般化することができ、交差分割検証中に得られるものと比較して同様の又はより高いレベルの平均精度を示すことができる。その後、最終生産モデルは、トレーニングされたモデルとして保存され、新しい実験のための予測を行う準備が整う。
【0051】
一実施形態では、プロセス200は、図2のトレーニングサーバー104によって実行される(場合により使用事例を定義すること及び/又はモデルライブラリに候補モデルを登録することなど、様々なステージでの人間の入力を用いて)。プロセス200は、各使用事例について且つ使用事例の任意の適切な数(例えば、5、10、100など)だけ繰り返され得る。異なる使用事例に対する最終生産モデルがステージ210の各反復で出力されると、トレーニングサーバー104は、それらの最終生産モデルを機械学習モデル108に追加し得る。その後、且つ図2を参照して上記で議論した方法で小規模細胞培養物(例えば、培養物110)の種々のクローン/細胞株について予測を行う前に、コンピューティングシステム102又はトレーニングサーバー104は、モデル108から適切な最終生産モデルを選択し得る。この選択は、(例えば、図6Aを参照して後述するように)使用事例を示すユーザ入力に基づいて且つユーザ指定の使用事例を最終生産モデルに一致させるアルゴリズム又はマッピング(例えば、アプリケーション130によって実行される)に基づいて行うことができる。代わりに、正確な一致が存在しない場合、そのようなアルゴリズムは、ユーザ指定の使用事例を、ユーザ指定の使用事例に最も類似する使用事例に適合させたモデル108の最終生産モデルに一致させ得る(例えば、モダリティなどのカテゴリーパラメータが数値にマッピングされて、使用事例を定義する数値パラメータ間のベクトル距離を計算することによって決定されるように)。
【0052】
上述のように、特定のモデルに必要とされる特徴の数を減らすことは、有利であり得る。したがって、ステージ208からの「最良の」モデルがステージ210で再トレーニングされる場合、所望の出力(例えば、力価など)を最も予測する特徴のみが利用され得る。より小さい機能セットを識別するために、プロセス200は、再帰的特徴除去(RFE)を行うことができ、これは、最終生産モデルにおいて使用される説明的特徴の再帰的低減を可能にし、最も重要でない特徴を廃棄する。RFEアルゴリズムは、特徴のサブセットを利用することによってデータをトレーニングし、特徴の数に対する制約に関して最適なモデル性能を得る。RFEを決定木又は弾性ネットなどのスパース性誘導モデル/推定器と対にすることは、モデル精度を犠牲にして解釈可能性を増大させるトレードオフで説明的特徴の数をさらに低減することができる。RFEを通して、解釈可能性と精度との間の「スイートスポット」又は変曲点を決定するために、エルボープロットを使用することができる。
【0053】
モデルライブラリ内の各モデルの精度を決定することに加えて、予測間隔(「信頼」間隔としても知られる)を知ることが重要であり得る。例えば、精度が低いモデルがはるかに厳しい予測間隔を有する場合、精度がわずかに低いモデルの方が、精度が高いモデルよりも好まれることがある。しかしながら、複雑な機械学習アルゴリズムは、間隔なしに点予測のみを生成し得る。したがって、いくつかの実施形態では、共形予測フレームワークが利用される。共形予測間隔は、それぞれの新しい観測に対する誤差限界の割り当てを可能にし、任意の機械学習推定器のラッパーとして使用され得る。このフレームワークは、トレーニングデータ及びテストデータが同じ分布に由来する仮定される場合に適用可能である。この交換可能性条件が満たされる場合、トレーニングデータのサブセットを利用して、基礎となるサンプル分布が測定される不適合関数を構築することができる。
【0054】
一実施形態では、「不適合」APIは、誘導共形予測フレームワークと共に使用され、これにより、全ての新しい観測値について予測間隔が並列に生成される直前に一度のみモデルをトレーニングすることが可能になる。誘導共形予測フレームワークは、トレーニングセットの互いに素な較正セットを必要とする。これは、頑強な予測間隔を構築するのに役立つが、不適合関数を構築するためにトレーニングセットからサンプルを除去することは、モデルの統計的検定力を減少させる。正規化プロセス(例えば、KNNベースのアプローチによる)を使用して、各予測のための特定の決定境界を生成することができる。
【0055】
共形予測フレームワークによって生成される予測間隔は、1-α(αは有意レベル)に等しい割合で将来の観測を含むが、生成される間隔の幅は、基礎となる関数に大きく依存する。当然のことながら、より狭い間隔は、点予測においてより大きい信頼性をもたらす。
【0056】
図4A及び4Bは、多くの異なる使用事例についての例示的なモデル性能(ここでは交差検証の10分割にわたるRMSE)を示す。示される全ての使用事例において、標的変数(属性値)は、大規模(バイオリアクター)終点力価又は大規模SEC分析メトリクスのいずれかである。バイオリアクター終点力価は、潅流バイオリアクター培養の最終日(例えば、15日目)に採取された細胞培養液(HCCF)からの生成物濃度収率を表し得る。これは、培養物上清及び潅流透過液からの加重平均複合力価である。終点力価を使用して生産性を評価する。SEC分析は、タンパク質のサイズに基づいて生成物のクロマトグラフピークプロファイルを評価する。3つの溶出ピークは、通常、3つの分類に分離される:低分子量(LMW)、メインピーク(MP)及び高分子量(HMW)。高品質クローンは、理想的には、高いSEC MP、低いSEC LMW及び低いSEC HMWを有する。MPは、使用可能な生成物を表し、LMWは、切断クリッピングを表し、HMWは、集合した凝集体を表す。SECは、生成物品質を評価するために典型的に使用されるいくつかのコア分析の1つである。
【0057】
図4A及び4Bにおいて、「CLD」は、その使用事例について、モデルをトレーニングするために小規模培養物データが使用されることを示す細胞株の開発を指し、「BD」は、その使用事例について、モデルをトレーニングするために大規模培養物データも使用されることを示すバイオプロセスの開発を指す。したがって、例えば、使用事例「力価-全モダリティ-CLD」は、標的属性値がバイオリアクター終点力価であり、全てのモダリティ(例えば、mAb及び二重特異性又は多重特異性抗体)が含まれ、モデルのトレーニングに小規模培養物データのみが使用されるものである。各プロット内の各モデルについて、細い水平線(両端に短い垂直線がある)は、10分割の交差検証にわたる全RMSE範囲を表し、太い水平線は、RMSEに対する+/-標準偏差範囲を表し、太い水平線内の垂直線は、全10分割にわたる平均RMSEを表す。
【0058】
例えば、図4Aに見られるように、ランダムフォレスト回帰器モデルは、使用事例「力価-全モダリティ-CLD」及び「力価-二重特異性-CLD」に対して最も低い平均RMSEを提供し、xgboostモデルは、使用事例「力価-mAb-CLD」及び「力価-全モダリティ-CLD+BD」に対して最も低い平均RMSEを提供し、決定木モデルは、使用事例「力価-二重特異性-CLD+BD」に対して最も低い平均RMSEを提供し、SVM(線形カーネル)モデルは、使用事例「Titer-mAb-CLD+BD」に対して最も低い平均RMSEを提供する。図4Bに見られるように、xgboostモデルは、使用事例「SEC MP-全モダリティ-CLD」、「SEC MP-二重特異性-CLD」、「SEC MP-mAb-CLD」、「SEC MP-全モダリティ-CLD_BD」及び「SEC MP-mAb-CLD+BD」に対して最も低い平均RMSEを提供する一方、SVM(線形カーネル)モデルは、使用事例「SEC MP-二重特異性-CLD+BD」に対して最も低い平均RMSEを提供する。
【0059】
図4Bには示されていないが、SEC HMW及びSEC LMWについても同様の結果を得ることができる。SEC HMWの標的属性値の場合、決定木モデルは、使用事例「SEC HMW-全モダリティ-CLD」、「SEC LMW-全モダリティ-CLD」、「SEC LMW-二重特異性-CLD」及び「SEC LMW-全モダリティ-CLD+BD」に対して最も低い平均RMSEを提供し、xgboostモデルは、使用事例「SEC HMW-二重特異性-CLD」、「SEC HMW-mAb-CLD」、「SEC HMW-二重特異性-CLD+BD」、「SEC HMW-mAb-CLD+BD」及び「SEC LMW-二重特異性-CLD+BD」に対して最も低いRMSEを提供し、ランダムフォレストモデルは、使用事例「SEC HMW-全モダリティ-CLD+BD」に対して最も低いRMSEを提供し、弾性ネットは、使用事例「SEC LMW-mAb-CLD」に対して最も低いRMSEを提供し、及びSVM(線形カーネル)モデルは、使用事例「SEC LMW-mAb-CLD+BD」に対して最も低いRMSEを提供する。
【0060】
いくつかの実施形態では、図2のコンピューティングシステム102のアプリケーション130は、ユーザ入力(例えば、ディスプレイ124を介して入力される)に基づいて、候補クローン/細胞株の所与の収集物のための使用事例(標的属性値、モダリティ及びデータセットの種類)を決定し、トレーニングサーバー104からモデル108の対応する1つを要請する。例えば、モデル108は、上で示した「最も低い平均RMSE」モデルの全てを含み得、サーバ104又はコンピューティングシステム102は、これらのモデルのそれぞれと、モデルが最も低い平均RMSEを提供した使用事例(又は複数の使用事例)とを関連付けるデータベースを保存し得る。次いで、サーバ104又は計算システム102は、そのデータベースにアクセスして、決定された使用事例に適切で最良のモデルを選択することができる。代替の実施形態では、コンピューティングシステム102は、使用事例を示すデータをトレーニングサーバー104に送信し、これに応答して、トレーニングサーバー104は、モデル108の対応する1つを選択し、そのモデルをローカル機械学習モデル136として保存するためにコンピューティングシステム102に送信する。さらに他の実施形態では、上述のように、選択されたモデルは、コンピューティングシステム102からリモートで(例えば、サーバ104で)利用され得る。
【0061】
場合により、ユーザは、勝利クローンを選択するか、又はさらなるスクリーニングのためにバイオリアクターにおいてスケールアップされるクローンのセットを選択するために2つ以上の使用事例を試験することを望み得る。これらの場合、アプリケーション130(又はサーバ104などのリモートサーバ)は、各クローン/細胞株について大規模予測を行うために全て使用される複数のモデルを選択及び実行し得る。例えば、ユーザは、勝利クローンを選択するとき、大規模で力価及びSECメインピークの両方を考慮することを望み得る。したがって、アプリケーション130は、終点力価に対応する使用事例のための第1の機械学習モデル(例えば、ランダムフォレストモデル)及びSECメインピークに対応する使用事例のための第2の機械学習モデル(例えば、xgboostモデル)を選択及び/又は実行することができる。別の例として、ユーザは、勝利クローンを選択するとき、大規模での力価、SECメインピーク、SEC低分子量及びSEC高分子量を考慮することを望み得、アプリケーション130は、力価についてランダムフォレストモデル、SECメインピークについてxgboostモデル、且つSEC低分子量及びSEC高分子量の両方について決定木モデルを選択及び/又は実行し得る。
【0062】
上述のように、いずれの入力/特徴が特定の標的属性値を最も予測するかを識別するために、解釈可能なモデルが好ましい場合がある。例えば、ツリーベースの学習方法は、各特徴が、その特徴が決定木のノードとして使用されるとき、モデルの平均二乗誤差を低減する目的のためにどの程度重要であるかを示すメトリックスを出力し得る。さらに、係数プロットは、標的属性値を予測するときに各入力/特徴に重み付けする正規化された方向係数を表すことができる。
【0063】
図5A~5Dは、様々な異なる使用事例及び様々な異なるモデルについて、例示的な特徴重要度のメトリクスを示す。図5Aは、大規模(バイオリアクター)の終点力価を予測するモデルについての特徴重要度プロット及び係数プロットを示し、図5Bは、モダリティよってフィルタリングされる力価予測についての特徴重要度プロットを示す。これらの2つのプロットから、「CLD-力価×SECメインピーク-10日目」は、CLD(細胞株開発)データのみを使用して誘導されたモデルにとって一貫して高重要度の特徴であることが分かる。力価を予測する際、VCDは、比生産性(「qp」と示され、1細胞当たり1日当たりpgの単位を有する)よりも特に重要な特性であることも分かる。これは、高い力価を生成する目的のために、培養物中で高い比生産性を有するよりも、より良好な細胞増殖を有することが重要であることを示す。図5Aの用語「iVCD」は、反応器中の量(細胞×日)の合計を説明する積分されたVCDを指す。
【0064】
図5Cは、大規模(バイオリアクター)の終点SECメインピークを予測するモデルについての特徴重要度プロット及び係数プロットを示し、図5Dは、モダリティによってフィルタリングされるSECメインピーク予測についての特徴重要度プロットを示す。これらのプロットから、タンパク質足場に対するモダリティ及び修飾がSECメインピークの重要な決定因子であることが分かる。例えば、0日目のCLDモダリティ(数値に変換された)は、SECメインピークと強い負の相関を有し、二重特異性フォーマットに対応する分子は、一般に、より低い予想SECメインピークを有することを示す。図5Dの「プロジェクト」という用語は、特定のプロジェクト、したがって特定の製品の指標を指す。
【0065】
いくつかの実施形態では、図2のトレーニングサーバー104は、特定の使用事例及びモデルのためにN個の最も重要な特徴(Nは、10などの所定の正の整数又は全ての特徴について閾値重要度メトリックスを超える数などである)を使用して、機械学習モデル108の任意の所与のモデルをトレーニングし、これらのN個の特徴のみが、ローカルモデル136による処理のためにデータ収集ユニット132によって収集される。いくつかの実施形態では、Nは、上述のように、再帰的特徴除去(RFE)を使用して決定される。RFEを介して、トレーニングサーバー104は、予測を行うために使用される入力/特徴の最終的な数を減らすために、トレーニングの複数の反復を実行し得る。上述のように、特徴の理想的な数(すなわち生産に使用される種々のモデル108をトレーニングするために使用される特徴の数)は、モデル性能に対して特徴の数をグラフ化したエルボープロットを、例えばそのようなグラフのそれぞれにおいて、精度と解釈可能性との間の「スイートスポット」を表す変曲点と共に検査することによって選択し得る。
【0066】
上で議論した特徴のために、任意の適切な属性が使用され得る(例えば、様々なモデルを最初にトレーニングし、且つ場合により特徴が十分に重要なものである場合には最終生産モデルをトレーニングするため)。細胞株開発(CLD)及びバイオプロセス開発(BD)データセットの両方について、可能な属性/特徴の非網羅的なリストを以下の表1に示す。
【0067】
【表1】
【0068】
【表2】
【0069】
【表3】
【0070】
【表4】
【0071】
上述のように、大規模培養の予測を行うために選択された(例えば、アプリケーション130又はサーバ104により)1つ以上の機械学習モデル(例えば、モデル108の)は、グラフィカルユーザインターフェースを介してユーザによって入力される使用事例又は一連の使用事例に依存し得る。図6Aは、そのようなユーザインターフェースの例示的なスクリーンショット400を示すが、これは、アプリケーション130が例えばディスプレイ124上に提示させ得るものである。図6Aの例示的な実施形態に見られるように、ユーザインターフェースは、ユーザが、(1)2つの標的属性(すなわち対応する機械学習モデルによって予測される大規模なバイオリアクター属性)を入力すること、(2)入力/特徴が細胞株開発データのみを含むべきかどうか、又は細胞株開発及びバイオプロセス開発(バイオリアクター)データの両方を含むべきかどうかを示すこと、(3)考慮している1つ以上のモダリティを示すこと、及び(4)所望の予測/信頼区間を示すことを可能にし得る。ユーザ入力に基づいて、アプリケーション130又はサーバ104は、予測を行うために、モデル108から適切なモデル、すなわちユーザが指示した使用事例のそれぞれについてプロセス200のステージ210から得られる最終生産モデルを選択することができる。例示的なスクリーンショット400では、ユーザ入力の単一セットは、2つの使用事例(すなわち2つの標的属性それぞれに対して1つずつあり、それらの使用事例のそれぞれは、同一のユーザ選択データセット及びモダリティを含む)に対応し得ることが分かる。選択されたモデルは、ローカルモデル(例えば、各々がモデル136に類似する)としてダウンロードされるか、又はクラウドサービスで使用するためにサーバ104に残り得る。「予測する」コントロールのユーザによる起動は、アプリケーション130(又はサーバ104)によって検知され、これに応答して、アプリケーション130(又はサーバ104)は、モデルをそれぞれの特徴セットに作用させ、それぞれの大規模属性値を予測させる。他の実施形態では、ユーザインターフェースは、図6Aに示されるものと異なるユーザコントロールが提供され得ることが理解されるであろう。
【0072】
選択された/適用されたモデルによって行われる予測は、任意の適切な方法でユーザに提示され得る。このような提示の一例は、図6Bのスクリーンショット410に示され、これは、全てのクローン/細胞株についての予測を同時に示すことができる実施形態に対応する。図6Bにおいて、各クローン/細胞株は、二次元グラフ上に暗い円としてプロットされている。図6Bの例示的なシナリオに示される結果では、高いSECメインピーク及び高い力価を有するクローンを所望するユーザは、グラフの右上コーナーの2つのクローンの一方又は両方をトップクローンとして選択するであろう(又は代わりにアプリケーション130が自動的に選択するであろう)。いくつかの実施形態では、アプリケーション130は、ユーザが各予測について予測間隔の表示をトグルで切り替えることも可能にする。さらに、いくつかの実施形態では、アプリケーション130は、ユーザが様々なモデル/予測に関連する特徴重要度及び/又は係数プロット(例えば、図5A~5Dに示されるものと同様のプロット)を見ることを可能にする。
【0073】
図7は、組換えタンパク質を産生する候補細胞株の中からのマスター細胞株の選択を容易にする例示的な方法500のフロー図である。方法500は、メモリユニット128に保存されたアプリケーション130のソフトウェア命令を実行する場合、コンピューティングシステム102のプロセッシングユニット120により実行されるか、又は例えばサーバ104の1つ以上のプロセッサにより実行される(例えば、クラウドサービスの実行において)。
【0074】
ブロック502において、特定の細胞株について、小規模細胞培養物に関連する属性値が受け取られる。受け取られた属性値の少なくともいくつかは、小規模細胞培養物の測定値である(例えば、終点力価、SEC MP、SEC LMW、SEC HMW、VCD、生存率、グルコース若しくは他の代謝産物濃度などの1つ以上の培地特性及び/又は上記表1に示す任意の他のCLD測定値)。いくつかの実施形態では、属性値は、本明細書に記載の光-電子機器から受け取られ得る。いくつかの実施形態及び/又はシナリオでは、ブロック502において、ユーザ入力データ(例えば、特定の細胞株の識別子、特定の細胞株を使用して生産される薬物のモダリティ、特定の細胞株を使用して生産される薬物製品の指示及び/又は特定の細胞株を使用して生産される薬物に関連するタンパク質足場型)などの他のデータも受け取られる。さらに、いくつかの実施形態では、大規模細胞培養物に関連する1つ以上の属性値を受け取ることができる(例えば、小規模培養をスケールアップして、0日目に大規模測定を行う実施形態では、全期間の大規模培養を必ずしも行うことなく、15日目の大規模性能をよりよく予測するため)。
【0075】
いくつかの実施形態では、ブロック502で受け取られた小規模培養物属性値は、小規模培養物の異なる日に得られた測定値を含む。例えば、第1の属性値は、小規模培養物の10日目の力価値(例えば、10日間培養物の終点力価)であり、第2の属性値は、小規模培養物の0日目のVCD値であり得る。さらなる例として、第3の属性値は、小規模培養物の6日目におけるVCD値であり得、以下同様である。他の例示的な実施形態では、小規模測定値の組み合わせは、図5A~5Dのプロットのいずれかにおいてラベル「CLD」で示されるものと同じであるか又は類似し得る。
【0076】
ブロック504では、特定の細胞株について、仮想大規模細胞培養物に関連する1つ以上の属性値は、少なくとも、機械学習ベースの回帰推定器(例えば、決定木回帰推定器、ランダムフォレスト回帰推定器、xgboost回帰推定器、線形SVM回帰推定器など)を使用して、ブロック502で受け取られた属性値(及び場合によりユーザ入力データ)を分析することによって予測される。予測属性値は、例えば、力価(例えば、終点力価)及び/又は1つ以上の製品品質属性値(例えば、SECメインピーク、SEC LMW及び/又はSEC HMWなどのクロマトグラフィー測定値)を含み得る。
【0077】
ブロック506において、予測された属性値及び/又は予測された属性値が1つ以上の細胞株選択基準を満たすかどうかの表示(例えば、ある閾値を超えるか又は下回る)は、ユーザインターフェース(例えば、図6Bのスクリーンショット410に対応するユーザインターフェース)を介してユーザに提示され、薬物製品製造において使用するための所望の細胞株の選択を容易にする。例えば、ユーザは、そのようなディスプレイから直接進んで「勝利」細胞株を選択し得るか、又は表示された情報を使用して、検証及び/又はさらなるクローンスクリーニング(勝利クローンの選択は後続のステージで行われる)のために、いずれの細胞株が実世界のバイオリアクターでスケールアップされるべきかを識別し得る。
【0078】
いくつかの実施形態では、方法500は、図7に示されていない1つ以上の追加のブロックを含む。例えば、方法500は、2つの追加のブロックを含み得、その両方は、ブロック502の前に行われる:使用事例を示すデータをユーザインターフェース(例えば、図6Aのスクリーンショット400に対応するユーザインターフェース)を介してユーザから受け取る第1の追加のブロック、及び使用事例を示すデータに基づいて、複数の推定器の中から(例えば、モデル108の中から)機械学習ベースの回帰推定器(これらの推定器のそれぞれは異なる使用事例のために設計/最適化されている)が選択される第2の追加のブロック。例えば、ユーザ入力データは、仮想大規模細胞培養物に関連する1つ以上の属性値の少なくとも1つを示し、生成される薬物のモダリティを示し、且つ場合により他のパラメータ(例えば、上で議論したCLD及びBDデータセットなどのデータセットの範囲を示すパラメータ)も示し得る。
【0079】
より具体的な実施形態及びシナリオでは、使用事例を示すユーザ入力データは、仮想大規模細胞培養物に関連する少なくとも1つの力価を示すデータを含むことができ、ブロック504は、決定木回帰推定器、ランダムフォレスト回帰推定器、xgboost回帰推定器又は線形SVM回帰推定器を使用して複数の属性値を分析する(例えば、図4Aに関連して上で議論した結果に従って)ことを含み得る。別の具体的な実施形態及びシナリオとして、使用事例を示すユーザ入力データは、仮想大規模細胞培養物に関連する少なくとも1つのクロマトグラフィー測定値(例えば、SECメインピーク)を示すデータを含むことができ、ブロック504は、xgboost回帰推定器を使用して複数の属性値を分析する(例えば、図4Bに関連して上で議論した結果に従って)ことを含み得る。
【0080】
機械学習ベースの回帰推定器が複数の推定器の中から選択される実施形態では、方法500は、推定器のそれぞれについて、推定器の出力を最も予測する特徴セットが決定される追加のブロックを含み得る。このような実施形態では、ブロック502は、最も予測的な特徴セット内に含まれる属性値のみを受け取ることを含み得る。
【0081】
図8は、本明細書に記載の第2の態様の技法を実行し得る例示的なシステム800の簡略化したブロック図である。システム800は、ネットワーク806を介してトレーニングサーバー804に通信可能に繋がれたコンピューティングシステム802を含む。一般に、コンピューティングシステム802は、トレーニングサーバー804によってトレーニングされた1つ以上の機械学習(ML)モデル808を使用して、クローン(又は細胞株)生成及び分析システム850による測定並びに1つ以上の細胞プール810での測定に基づいて、仮想小規模スクリーニング培養物(例えば、流加バッチ培養物)における1つ以上の製品品質属性(例えば、比生産性、力価及び/又は細胞増殖)のそれぞれに従い、候補細胞株のランキングを決定/予測するように構成される。
【0082】
ネットワーク806は、図2のネットワーク106と類似であり得、及び/又はトレーニングサーバー804は、トレーニングサーバー104と類似であり得る。図示した実施形態では、機械学習モデル808は、トレーニングサーバー804によってトレーニングされ、その後、必要に応じてネットワーク806を介してコンピューティングシステム802に転送される。しかしながら、他の実施形態では、MLモデル808の1つ、いくつか又は全ては、コンピューティングシステム802上でトレーニングされ、次いでサーバ804にアップロードされ得る。他の実施形態では、コンピューティングシステム802は、MLモデル808をトレーニングし、且つ維持/保存し、この場合、システム800は、ネットワーク806及びトレーニングサーバー804の両方を省略し得る。さらに別の実施形態では、トレーニングサーバー804は、ウェブサービスとしてモデル808へのアクセスを提供する(例えば、コンピューティングシステム802は、サーバ804が1つ以上のモデル808を用いて予測を行うために使用する入力データを提供し、サーバ804は、その結果をコンピューティングシステム802に返す)。
【0083】
細胞プール810の各々は、例えば、ウェル又はバイアルのような単一の容器内の遺伝子導入された細胞(例えば、チャイニーズハムスター卵巣(CHO)細胞)のプールであり得る。細胞プール810は、組換えタンパク質を産生する、選択的増殖培地中の連続した細胞継代を通してスケールアップされた細胞の任意の適切なプールであり得、且つ任意のモダリティのものであり得る。細胞は、例えば、モノクローナル抗体(mAb)などの組換えタンパク質を産生する細胞又は二重特異性又は他の多重特異性抗体などの組換えタンパク質を産生する細胞であり得る。しかしながら、一般に、プール810の各々の細胞は、全てクローンに由来するわけではない。
【0084】
1つ以上の分析機器812は、本明細書でさらに議論されるように、予測を行うためにコンピューティングシステム802によって使用され得る細胞プール810の物理的測定値を取得するように集合的に構成される。分析機器812は、測定値を直接取得することができ、且つ/又は間接的若しくは「ソフト」センサ測定値を取得するか若しくはその取得を容易にすることができる。上述のように、本明細書で使用される場合、「測定値」という用語は、直接測定/感知(例えば、機器812の1つにより)される値、1つ以上の直接測定値に基づいて計算される値又は測定装置以外の装置(例えば、コンピューティングシステム802)が1つ以上の直接測定値に基づいて計算する値を指し得る。分析機器812は、図2の分析機器112、例えば本明細書に記載のクロマトグラフ又は光学センサと同様であり得る。分析機器812は、例えば、細胞プール生存細胞密度(VCD)、細胞プール生存率(VIA)、時間積分生存細胞密度(IVCD)及び細胞プール比生産性を測定するように特に構成された1つ以上の装置を含み得る。
【0085】
クローン生成及び分析システム850は、任意の適切な(好ましくはハイスループットの)サブクローニングシステムであり得る。いくつかの実施形態では、クローン生成及び分析システム850は、Berkeley Lights Beaconシステムである。図8から分かるように、システム850は、分析ユニット852並びに細胞株生成及び増殖ユニット854を含む。細胞株生成及び増殖ユニット854は、マイクロ流体チャネルによって潅流される複数の物理的に単離されたペンを含む培養チップであり得る。ユニット854は、例えば、OptoSelect(商標)Berkeley Lightsチップであり得る。各ペンは、光伝導体を活性化する投光パターンを用いて細胞プールから遺伝子導入された細胞を受け取ることができ、この光伝導体は、細胞を穏やかにはじいてそれらの細胞を操作し(例えば、Berkeley Lights OptoElectro(商標)の位置決め技術によって提供されるように)、細胞株の生成及び分析プロセスを通して、細胞(及び細胞株の他の生成された細胞)を含有する。
【0086】
細胞株生成及び分析システム850の分析ユニット852は、クローン生成及び増殖ユニット854における細胞の物理的特性を測定するように構成される。分析ユニット852は、測定値を直接取得するための1つ以上のセンサ又は機器を含むことができ、且つ/又は間接的若しくは「ソフト」センサ測定値を取得するか若しくはその取得を容易にすることができる。分析ユニット852の機器は、完全に自動化された機器及び/又は人間の補助を必要とする機器を含み得る。単なる一例として、分析ユニット852の機器(例えば、ユニット854内に一体化された又はユニット854とインターフェースで連結されたセンサ又は他の機器)は、1つ以上の撮像装置(例えば、カメラ及び/又は顕微鏡)及び細胞数又は細胞増殖を直接的又は間接的に測定するように構成された関連ソフトウェア並びに分泌アッセイ(例えば、Spotlight HuIg2アッセイ(又はSpotlightアッセイ)を使用する分泌アッセイなど、チップ上の細胞によって産生される抗体に結合する拡散ベースの蛍光アッセイ)を実施することによって細胞生産性を直接的又は間接的に測定するように構成された1つ以上の装置などを含み得る。
【0087】
コンピューティングシステム802は、例えば、コンピューティングシステム102に類似の汎用コンピュータであり得る。図8で分かるように、コンピューティングシステム802は、プロセッシングユニット820、ネットワークインターフェース822、ディスプレイ824、ユーザ入力装置826及びメモリユニット828を含む。プロセッシングユニット820、ネットワークインターフェース822、ディスプレイ824及びユーザ入力装置826は、例えば、図2のプロセッシングユニット120、ネットワークインターフェース122、ディスプレイ124及びユーザ入力装置126とそれぞれ類似し得る。
【0088】
メモリユニット828は、図2のメモリユニット128と類似し得る。メモリユニット828は、まとめて、1つ以上のソフトウェアアプリケーション、それらのアプリケーションによって受け取られる/使用されるデータ及びそれらのアプリケーションによって出力/生成されるデータを保存し得る。これらのアプリケーションは、プロセッシングユニット820によって実行される場合、分析機器812及び分析ユニット852によって得られた測定値に基づいて且つ場合により他の情報(例えば、モダリティ、細胞プール識別子など)にも基づいて、仮想小規模スクリーニング培養物(例えば、図1のステージ12)における1つ以上の製品品質属性(例えば、比生産性、力価及び/又は細胞増殖)のそれぞれに従って候補細胞株をランク付けする小規模予測アプリケーション830を含む。アプリケーション830の様々なユニットは、以下で論じられるが、それらのユニットは、異なるソフトウェアアプリケーション間で分散され得、且つ/又はそのようなユニットのいずれか1つの機能は、2つ以上のソフトウェアアプリケーション間で分割され得ることが理解されるであろう。
【0089】
いくつかの実施形態では、コンピューティングシステム802、トレーニングサーバー804及びネットワーク806は、それぞれコンピューティングシステム102、トレーニングサーバー104及びネットワーク106であり、メモリユニット(128及び828)は、小規模予測アプリケーション830及び大規模予測アプリケーション130の両方を保存する。すなわち、システム(10及び800)は、小規模及び大規模性能の両方を予測することが可能であり得、図8は、図2に示されるものと異なる使用事例を表す。
【0090】
アプリケーション830のデータ収集ユニット832は、一般に、細胞プール810及び細胞株生成及び増殖ユニット854に関連する種々の属性の値を収集する。例えば、データ収集ユニット832は、分析機器812及び/又は分析ユニット852から直接測定値を受け取ることができる。加えて又は代わりに、データ収集ユニット832は、測定値データベース(図8には示さず)に保存された情報及び/又はユーザによって入力(例えば、ユーザ入力装置826を介して)された情報を受け取ることができる。例えば、データ収集ユニット832は、モダリティ、標的薬物製品、薬物タンパク質足場型及び/又はユーザによって入力され、且つ/若しくはデータベースに保存された任意の他の適切な情報を受け取ることができる。
【0091】
アプリケーション830の予測ユニット834は、一般に、データ収集ユニット832によって収集された属性値に基づいて動作し、ローカル機械学習モデル836を使用して、異なる候補細胞株の仮想小規模スクリーニング培養物の製品品質属性値を予測し、その予測値を使用して細胞株をランク付けする。図示した実施形態では、機械学習モデル836は、トレーニングサーバー804によってトレーニングされたモデル808の1つのローカルコピーであり、例えばメモリユニット828のRAMに保存することができる。しかしながら、上述したように、サーバ804は、他の実施形態ではモデル808を利用/実行することができ、この場合、ローカルコピーは、メモリユニット828に存在する必要がない。
【0092】
アプリケーション830の可視化ユニット838は、ユーザにランキング(予測ユニット834によって決定された)を提示するユーザインターフェースを生成する。視覚化ユニット838は、ユーザが、ユーザ入力装置826及びディスプレイ824を介して、予測ユニット834からの提示されたデータと対話し、且つ/又は特定の予測又はランキング(例えば、いずれの予測された性能がランク付けされるべきかに従って製品品質属性を選択することなど)のためのパラメータを入力することも可能にし得る。
【0093】
1つの実施形態に従ったシステム800の動作を、1つ以上の小規模培養物製品品質属性に従って1つ以上の細胞株ランキングを決定するためにアプリケーション830が使用される特定のシナリオについて、ここでさらに詳細に説明する。このように細胞株をランク付けすることにより、トップ細胞株を選択するための方法論を標準化し得、小規模スクリーニングのために細胞株のより良好な選択を同定し得るか、又は小規模スクリーニングステージを完全にスキップし得る(例えば、様々な細胞株のランキングに基づいて、プロセス10のステージ11からステージ14に直接スキップすることにより)。
【0094】
最初に、トレーニングサーバー804は、トレーニングデータベース840に保存されたデータを使用して機械学習モデル808をトレーニングする。機械学習モデル808は、多数の異なるタイプの機械学習ベースの回帰推定器(例えば、ランダムフォレスト回帰モデル、エクストリーム勾配ブースティング(xgboost)回帰モデル、線形回帰モデル、リッジ回帰モデル、ラッソ回帰モデル、線形回帰モデルを伴う主成分分析(PCA)、部分最小二乗(PLS)回帰など)及び場合により回帰に基づかない1つ以上のモデル(例えば、ニューラルネットワーク)を含み得る。さらに、いくつかの実施形態では、モデル808は、任意の所与のタイプの2つ以上のモデル(例えば、異なる履歴データセット上において且つ/又は異なる特徴セットを使用してトレーニングされた同じタイプの2つ以上のモデル)を含み得る。さらに、モデル808の異なるモデルは、異なる製品品質属性(例えば、力価、増殖又は比生産性など)の値を予測するようにトレーニングされ得、それらの異なる製品品質属性に従って細胞株のランキングを容易にする(予測ユニット834により)。さらに、機械学習モデル808は、1つ以上の小規模培養物製品品質属性の各々について、いずれの特徴(例えば、細胞プールステージ及び/又はクローン生成並びに分析ステージからのいずれの属性値)が候補細胞株の相対的性能を最も予測するかを識別するために使用され得る。モデル808は、最も予測的な特徴のみを含む特徴セットを使用してもトレーニング又は再トレーニングされ得る。
【0095】
トレーニングデータベース840は、単一のメモリ(例えば、HDD、SSDなど)に保存された単一のデータベース、単一のメモリに保存された複数のデータベース、複数のメモリに保存された単一のデータベース又は複数のメモリに保存された複数のデータベースを含み得る。機械学習モデル808内のそれぞれの異なるモデルに対して、トレーニングデータベース840は、トレーニングデータの対応するセット(例えば、入力/特徴データ及び対応するラベル)を保存し得、場合によりトレーニングデータセット間で重複することもある。仮想小規模培養物の力価を予測するモデルをトレーニングするために、例えば、トレーニングデータベース840は、多数のトレーニングデータセットをそのラベルと共に含み得、トレーニングデータセットの各々は、細胞プール力価の履歴的測定、細胞生産性スコア及び/又は1つ以上の機器(例えば、分析機器812、分析ユニット852の機器及び/又は他の機器/センサ)によって行われた他の測定値を含む。この例では、各トレーニングデータセットのラベルは、小規模培養ステージでその細胞株について実際に測定された力価を示す。
【0096】
いくつかの実施形態では、トレーニングサーバー804は、トレーニングされた機械学習モデル808を検証するため(例えば、機械学習モデル808の所与の1つが少なくともある最小許容精度を提供することを確認するため)、トレーニングデータベース840内の追加のラベル付きデータセットを使用する。いくつかの実施形態では、トレーニングサーバー804はまた、継続的に1つ以上の機械学習モデル808を更新/改良する。例えば、機械学習モデル808が最初に十分なレベルの精度を提供するようにトレーニングされた後、予測精度を改良するために、細胞プール及びサブクローニングステージ(特徴)並びに小規模培養ステージ(ラベル)での追加の測定値が使用され得る。
【0097】
モデル808が十分にトレーニングされた後、アプリケーション830は、ネットワーク806及びネットワークインターフェース822を介して、トレーニングサーバー804から、機械学習モデル808の特定の1つ(これは、特定の製品品質属性に対応し、その属性に対して候補細胞株のランキングが所望されている)を読み出すことができる。例として、製品品質属性は、細胞増殖を含むことができ、且つ機械学習モデルは、PLSを含むことができるか;又は製品品質属性は、比生産性を含むことができ、且つ機械学習モデルは、PCAを含むことができるか;又は製品品質属性は、力価を含むことができ、且つ機械学習モデルは、リッジ回帰モデルを含むことができる。製品品質属性は、ユーザインターフェースを介して(例えば、ユーザ入力装置826及びディスプレイ824並びに可視化ユニット838によって生成されたユーザインターフェースを介して)又は任意の他の適切な入力に基づいて、ユーザによって示されたものであり得る。モデルを読み出すと、コンピューティングシステム802は、ローカル機械学習モデル836としてローカルコピーを保存する。他の実施形態では、上述のように、モデルを読み出さず、代わりに、入力/特徴データは、モデル808の適切なモデルを使用するために、必要に応じてトレーニングサーバー804(又は別のサーバ)に送られる。
【0098】
データ収集ユニット832は、モデル836に使用される特徴セットに従い、必要なデータを収集する。例えば、データ収集ユニット832は、分析機器812及び分析ユニット852と通信して、力価、プールVCD、プールVIA、細胞数、細胞生産性スコアの測定値並びに/又は細胞プール810及び/若しくは細胞株生成及び増殖ユニット854の他の特定の属性の測定値を収集し得る。そのような一実施形態では、データ収集ユニット832は、1つ以上の分析機器812及び分析ユニット852の1つ以上の機器にコマンドを送信して、1つ以上の機器に所望の測定値を自動的に収集させる。別の実施形態では、データ収集ユニット832は、分析機器812及び/又は分析ユニット852に連結されている(且つ場合によりそれを制御する)異なるコンピューティングシステム(図8には図示せず)と通信することにより、細胞プール810並びに細胞株生成及び増殖ユニット854の測定値を収集する。上述のように、データ収集ユニット832は、ユーザによって入力された情報(例えば、モダリティ)も受け取り得る。いくつかの実施形態では、アプリケーション830は、データ収集ユニット832によって収集されたいくつかのユーザ入力情報を使用してモデル808の適切な1つを選択し、データ収集ユニット832によって収集された他のユーザ入力情報を、選択されたモデルへの1つ以上の特徴/入力として(又は特徴/入力を計算するために)使用する。
【0099】
データ収集ユニット832が、細胞プール810並びに細胞株生成及び増殖ユニット854に関連する属性値と、ローカル機械学習モデル836によって入力/特徴として使用される属性値とを収集した後、予測ユニット834は、これらの入力/特徴に対してモデル836を動作させて、候補細胞株のそれぞれについて目的の製品品質属性の値(例えば、力価、増殖又は比生産性)を予測させる。次いで、予測ユニット834は、予測値を互いに比較して、細胞株を最良から最悪まで又は最悪から最良まで順序付け/ランク付けする。重要なことに、機械学習モデルは、一般に、小規模培養物における重要な製品品質属性の予測に関して低い精度を有し得るが、それにもかかわらず、候補細胞株のランキングは、たとえそれらのランク付けのために使用される予測値が低い精度を有していても、概ね正確であるように、特定のモデル(例えば、本明細書で論じられるような)は、相対値を予測する点において良好であることが見出されている。
【0100】
可視化ユニット838は、ディスプレイ824上に提示されるユーザインターフェースに、細胞株の決定されたランキングを表示させ得る。上記のプロセスは、目的の1つ以上の他の製品品質属性について特別にトレーニングされたモデル808の異なるモデルを読み出し、それらのモデルによって使用される入力/特徴を(データ収集ユニット832により)収集し、(例えば、予測ユニット834により)モデルを使用して、候補細胞株のそれぞれについて他の製品品質属性を予測し、それらの他の製品品質属性に従って候補細胞株をランク付け(例えば、予測ユニット834により)することによって繰り返され得る。次いで、可視化ユニット838は、ユーザインターフェースに、細胞株のランキングの全て(例えば、力価について1つ、細胞増殖について1つ及び比生産性について1つ)を提示させて、ユーザが、いずれの細胞株又は複数の細胞株を小規模培養ステージに進めるべきか(又は場合によりバイパスさせるべきか)について、より情報が与えられた選択を行うことを可能にし得る。
【0101】
予測ユニット834は、候補細胞株の各セット及び/又は対応するランキングについてモデル836によって行われた予測をメモリユニット828又は別の適切なメモリ/ロケーションに保存することができる。考慮中の全ての候補細胞株について、予測及び/又はランク付けが行われ、保存された後且つ目的の全ての製品品質属性について、候補細胞株の「勝利」部分が小規模培養ステージ(例えば、図1のステージ12)への前進のために選択され得る。勝利細胞株の選択は、製品品質属性に特有のいくつかの基準に従って(例えば、力価、細胞増殖及び比生産性ランキングに特定の重みを割り当て、次いで得られたスコアを比較することにより)完全に自動化され得るか、又は人間との対話を伴い得る(例えば、ディスプレイ824を介して、予測されたランキングをユーザに表示することにより)。次いで、勝利細胞株は、小規模細胞培養ステージ(例えば、図1のステージ12)に進められ得るか、又はいくつかの実施形態では小規模細胞培養ステージをバイパスして先のステージ(例えば、図1のステージ14)に進められ得る。
【0102】
いくつかの実施形態では、コンピューティングシステム802は、いずれの細胞株が、上で議論した手順に供されるべきか、すなわちいずれの細胞株が「候補」細胞株として使用されるべきかを識別するように構成される。例えば、コンピューティングシステム802(例えば、アプリケーション830又は別のアプリケーション)は、細胞数及び拡散アッセイの結果(データ収集ユニット832によって細胞株生成及び分析システム850の分析ユニット852から取得される)を分析して、いずれの細胞株が最高の可能性を有し、さらなる細胞株の開発及びスクリーニングのために進められるべきかを決定し得る。高い細胞生産性スコアと高い細胞数との両方を有する細胞株は、小規模スクリーニング培養で高い性能を達成する最良の候補と考えられる。候補細胞株の識別は、プロセッシングユニット820若しくは予測ユニット834によって自動的に、又はユーザ入力装置826を介してユーザがこれらの因子を手作業で比較検討することと組み合わせて実行され得る。識別は、厳密に手作業でもあり得、その場合、ユーザ入力装置826を介して、ディスプレイ824に示されるスコアをユーザが評価し、いずれの細胞株が候補となるべきかを選択する。図9は、細胞株の選択についての細胞数対細胞生産性スコア(Spotlightアッセイスコア)のプロットを示す、ディスプレイ824の例示的なグラフィック出力860を示す。ユーザが候補細胞株として選択したい細胞株は、例えば、破線で囲まれている。ここで、いずれのモデルが仮想小規模スクリーニング培養物について所与の製品品質属性ランキングを予測し、所与のモデル及び/又は製品品質属性について最も予測的な特徴/入力を識別するのに最も適しているかを決定するための様々な技法を、図10図12Gを参照して説明する。
【0103】
図10は、データの準備及びモデル選択フレームワークを提供する、モジュール式の柔軟なプロセス900の例を示す。特に、プロセス900は、異なる製品品質属性の値を予測し、それらの属性に従って細胞株のランキング(例えば、予測ユニット834による)を容易にするための、良好に性能を発揮するモデルを識別するフレームワークとして使用され得る。高レベルでは、プロセス900は、データを集約するためのステージ又はステップ902と、データ前処理のためのステージ910と、モデルを定義するためのステージ920とを含む。一般に、特定の属性値について良好に性能を発揮するモデルは、以前の細胞株スクリーニングの実施から生成された履歴トレーニングデータを使用して、多くの異なるモデルをトレーニングし、それらの結果を比較することによって識別され得る。例えば、属性は、細胞増殖を含むことができ、且つ機械学習モデルは、PLSを含むことができるか;又は属性は、比生産性を含むことができ、且つ機械学習モデルは、PCAを含むことができるか;又は属性は、力価を含むことができ、且つ機械学習モデルは、リッジ回帰モデルを含むことができる。頑強なトレーニングデータセットを保証するために、様々な対策を取ることができる(例えば、標準化された異種データを提供すること、異常値を除去すること、欠落値を帰属させることなど)。いくつかの実施形態では、モデルの有効性を高めるため、予測変数の最良の表現を抽出又は導出するために特別な特徴エンジニアリング技法が使用される。オーバーフィッティングを回避するために、いくつかの実施形態では、特徴削減を実施することができる。モデルは、例えば、予測値の精度を測定するための二乗平均平方根誤差(RMSE)、ランキング順序の正しさを測定するためのSpearmanローなどのメトリックスを使用して評価し得る。
【0104】
ステップ902では、トレーニングサーバー804は、トレーニングデータベース840又は任意の他の適切なデータベースからデータを受け取る。このステップは、ユーザ入力装置826を介してユーザ入力を入力することを含むことができ、ユーザは、可能な予測変数及び機械学習回帰推定器(モデル)によって予測される製品品質属性値を定義する。予測変数は、細胞プールデータ並びに細胞株生成及び分析システムで収集されたデータを含み得る。他の実施形態は、他のサブクローニングシステムを使用し得るが、以下の議論は、Berkeley Lights’ Beacon(本明細書中では「BLI」と略される)が細胞株生成及び分析システムのために使用される例を参照する。予測された変数は、例えば、クローン流加バッチ実験中に収集されたデータとして定義することができる。最初に、ステップ902では、利用可能な履歴データの中から適切なデータが選択される。さらに、履歴データは、モダリティなどのカテゴリーデータ並びに細胞数及び力価などの数値データの両方を含み得る。細胞プールデータは、例えば、モダリティ、VCD、プール生存率、プール力価、プール比生産性及びプール時間積分VCDに関するデータを含み得る。VCD及び生存率のような増殖因子は、経時的に定期的に(例えば、10日間の培養の異なる日に)収集され得る。細胞株の生成及び増殖データ(BLIデータ)は、例えば、細胞生産性スコア、BLI比生産性、細胞数、時間積分VCD、倍加時間などに関するデータを含み得る。BLIで測定される増殖因子、例えば細胞数は、経時的に定期的(例えば、ユニット854などのクローン生成及び増殖ユニットに仕込み後の異なる日に)にも収集され得る。これらの細胞株が細胞株開発の次のステージ(例えば、図1のステージ12)に進められた場合、力価、比生産性及び/又は細胞増殖測定などの結果を反映する小規模培養物(例えば、流加バッチ培養物)データは、種々の特徴セットのためのラベルとして役立つ。細胞プールデータセット(プールデータ)と細胞株生成及び分析データセット(BLIデータ)との両方並びに流加バッチ予測変数について、可能な属性/特徴の非限定的なリストを以下の表2に示す。
【0105】
例示的なプロセス900では、データ前処理ステージ910は、ステップ912~918を含む。ステップ912では、欠落データの処理及び異常値の処理を含むトレーニングデータが評価及びクリーニングされる。例えば、欠落したレコード(例えば、空のペンのためのプールVCDデータ)、ゼロ値(例えば、記録されなかった値)、不完全なデータセット(例えば、細胞株のための細胞プールから流加バッチ実験の終わりまでデータ収集が完了しなかったシナリオのためのもの)、異常値及び決定的でない実験からのデータが除去され得る。いくつかの実施形態では、組み合わされたデータセットを使用する場合、いくつかのデータ値は、機器の変動性を補正するために調節される必要があり得る。
【0106】
ステップ914では、モデルの有効性を高めるための予測変数の最良の表現を見つけるために、特別な特徴エンジニアリング技法を使用して、データセットから有用な特徴を抽出又は導出する。データは、性能改善のためにいずれの特徴工学ステップが評価されるべきかを決定するために、基礎となる関係について可視化され得る。例えば、予測変数の最良の表現は、(i)予測子の変換、(ii)積又は比などの2つ以上の予測子の相互作用、(iii)予測子間の関数関係、又は(iv)予測子の均等な再表現であり得る。アッセイ又は増殖の値は、増殖及びアッセイスコアの不偏の視点を与えるために、同じコホートの細胞に対してスケーリングされ得る。これらの観察から、特徴を計算し、予測子データセットに加え得る(例えば、細胞数の二乗、プール力価の二乗など)。
【0107】
ステップ914は、カテゴリー変数を数値に変換することを含み得る。例えば、モダリティのカテゴリー変数について、モノクローナル(mAb)モダリティを「10」に変換することができ、特定の二重特異性モダリティを「00」に変換することができ、以下同様である。データ前処理ステップ916において、トレーニングデータは、上記のステップ912及び914で選択された特徴のみを含むようにフィルタリングされ、且つ定義された標的/予測子(例えば、流加バッチ力価、増殖及び比生産性)にフィルタリングされ得る。
【0108】
機械学習モデルをトレーニング及び比較するとき、k分割交差検証を使用してモデル性能を測定し、最適ハイパーパラメータを選択することができる。したがって、ステップ918において、トレーニングデータは、同じサンプルに対するトレーニング及びテストを回避するために、k分割交差検証のためのトレーニング及びテストデータセットに分割され得る。例えば、分割の数は、トレーニングデータセットで使用されるサブクローニングプロジェクトの数によって定義することができる(例えば、k=6では、モデルは、データセットの異なる5/1パーティションにわたって6回トレーニング及び評価される)。
【0109】
ステージ920は、機械学習モデルを定義し、ステップ922~928を含む。高レベルでは、ステージ920は、回帰器及びスケーリング方法を設定すること(ステップ922)、ハイパーパラメータの範囲にわたってモデルライブラリ内の各モデルを通してステージ910の前処理されたデータを実行することによって予測モデルをトレーニングすること(ステップ924)、モデル性能メトリックスを定義及び計算すること(ステップ926)並びに最終生産モデルを出力すること(ステップ928)を含み得る。
【0110】
例示的なステップ922は、モデルライブラリを登録し、選択された各回帰モデルのスケーリング方法を設定する。好ましくは、ステップ922でテストするために選択された機械学習モデルのいくつか又は全ては、2つの基準を満たす:(i)定量的な出力を提供すること、及び/又は(ii)解釈可能であること(例えば、係数の重み又は特徴重要度の重みを提供することにより)。入力特徴に重みを割り当てることができる機械学習モデルは、標的出力を予測することに関して各入力特徴の相対的重要性を説明することができるために一般に好ましい。スパース性誘導機械学習モデルも一般に好ましい(例えば、最初に多くの属性値を特徴として受け入れるが、正確な予測を行うために、特徴としてこれらの属性値の小さいサブセットのみを必要とするモデル)。この特性は、標的結果に著しく影響しない特徴を排除することにより、過学習を減らす一方、解釈可能性も改善する。決定木(例えば、ランダムフォレスト回帰モデル、エクストリーム勾配ブースティング(xgboost)回帰モデル)又は他の機械学習アルゴリズム(例えば、線形回帰モデル、リッジ回帰モデル、ラッソ回帰モデル、線形回帰モデルを伴う主成分分析(PCA)又は部分最小二乗(PLS)回帰モデルなど)に基づく回帰モデル/推定器は、上記の両方の基準を満たすのに特に適していることがある。従来、解釈可能であると見なされないが、いくつかの実施形態では、ステップ922で1つ以上のニューラルネットワークを選択し得る。ステップ922は、選択された回帰モデルのためにハイパーパラメータの範囲を設定することも含み得る。
【0111】
例示的なステップ924では、予測モデルをトレーニングする。例えば、ステップ924は、ライブラリに包含するために選択されたモデルを、ステップ912及び914で前処理された特徴データの全セットに対して、目的の各標的製品品質属性についてトレーニングし、ステップ922で定義されたハイパーパラメータの範囲にわたって交差検証することができる。ステップ924は、各モデルについて、ステップ918で定義されたデータセットに対してk分割検証を実施することを含み得る。
【0112】
例示的なステップ926は、トレーニングされたモデルを使用して性能メトリックスを計算する。k分割のそれぞれについて、例えば、RMSE(標的製品品質属性を予測する精度に関する)及び/又はSpearmanのロー(ランク付け精度に関する)などのアルゴリズム性能メトリックスは、ステップ924でトレーニングされた予測モデルのそれぞれについて計算され得る。次に、チューニングされたハイパーパラメータを有する各トレーニングされたモデルは、分割の1つを試験データセットとして使用して評価され、それぞれの予測された製品品質属性について最良のメトリックス(例えば、最高のSpearmanのロー又は最低のRMSE)を有するモデルが選択される。反復実行の性能メトリックスは、保存することができ、k分割(例えば、6分割)の平均を計算して、モデル性能を比較し得る。RMSEメトリックスの計算は、上記の式2で示される。Spearmanのローは、以下のように計算することができる。
【数6】
【0113】
直観に反するが、上述のように、特定の機械学習モデルが細胞株を正しくランク付けする(モデルによって予測される製品品質属性の相対値に従って)能力は、それらのモデルが製品品質属性を正確に予測する能力をはるかに上回ることができる。例えば、特定の機械学習モデルは、流加ステージで特定の製品品質属性の値を予測するときに比較的低い精度を有するが、相対的な意味で値を予測する(例えば、他の細胞株についてモデルが予測する値よりも予測値が大きいか又は小さいかに関して)良好に動作することが見出されている。次の開発ステージに進むべき細胞株を選択することに関連して、いずれの細胞株を次のステージに進めるかを知ることは、正確且つ精密な製品品質属性を予測することよりも一般的に重要であるため、細胞株を正確にランク付けするこの能力は、十分であり得る。したがって、Spearmanのローは、(例えば、RMSEではなく)ステップ926で計算するのに好ましいメトリックであり得る。
【0114】
ステップ928では、「最良の」モデルは、計算されたメトリックス(例えば、最も高いSpearmanのロー又は最も低いRMSEを有するモデル)に基づいて、最終生産モデルとして出力/識別される。最良のモデルが解釈可能なものである場合、ステップ928は、予測を行う際に各特徴の重要度を決定することを含み得る。例えば、ステップ928は、係数の重み(例えば、ラッソ回帰モデルによって生成される)又は特徴重要度の重み(例えば、xgboostなどの木ベースのモデルによって生成される)に基づいて特徴重要度を決定することを含み得る。これらの解釈可能なモデルからの出力(例えば、ラッソスパース性誘発モデルによって縮小されたパラメータの表示又はxgboostモデルの木をトレーニングする際に各変数がどの程度の頻度で分割されたかを示す特徴重要度プロットなど)は、トレーニングサーバー804又は人間のレビューアによって(可視化ユニット838を介して)分析され、予測された製品品質属性値に従い、候補細胞株の各相対ランキングについて最も予測的な特徴(例えば、2~10の特徴)が決定され得る。例えば、図11Aは、流加バッチ力価を予測する場合のラッソ回帰モデルからの例示的な出力930であり、プール力価が細胞生産性スコア(ここでは「Spotlight」アッセイスコア)よりも流加バッチ力価を予測し、細胞生産性スコアが細胞カウント(これは、流加バッチ力価について、予測能力を有さないか又は極めてわずかな予測能力を有する)よりも流加バッチ力価を予測することを示す。同様に、図11Bは、流加バッチ力価を予測するxgboost回帰モデルの特徴重要度プロット932の例を示し、使用された他の特徴と比べてプール力価及び細胞生産性スコア(Adj_Au)が強力な特徴重要度を示す。結果は、モデルが、例えば、細胞数に基づく特徴(例えば、細胞数の二乗又は「CC」)を使用せずに同様に良好に動作することを示している。その後、その勝利/最良モデル又は最も予測的な特徴のみを使用してトレーニングされたそのモデルの新しいバージョンは、はるかに小さい特徴セットと共に使用され得る。次いで、モデルは、トレーニングされたモデルとして保存され(例えば、トレーニングサーバー804により、モデル808に)、新しい実験で予測を行うために使用され得る(例えば、予測ユニット834により)。高度に予測的な特徴を同定することは、新たな仮説を生じ得る新たな科学的洞察を提供する(これは、次にバイオプロセスの改善につながり得る)など、他の目的にも有用であり得る。
【0115】
上で議論した特徴のために任意の適切な属性が使用され得る(例えば、様々なモデルを最初にトレーニングし、且つ場合により特徴が十分に重要なものである場合には最終生産モデルをトレーニングするため)。細胞プールデータセット(プールデータ)と細胞株生成及び分析データセット(BLIデータ)との両方について、可能な属性/特徴の非限定的なリストを以下の表2に示す。
【0116】
【表5】
【0117】
【表6】
【0118】
図12Aは、細胞増殖、比生産性及び力価の製品質属性について、Spearmanのローメトリックス(ここでは6分割にわたる交差検証による)を使用して、ベースライン性能に対する最良モデル(プロセス900のステップ928での出力)の性能を示すバーグラフ934である。属性の各々は、小規模細胞培養プロセスの終点(ここでは流加バッチ実験の10日目)で測定した。この例では、比生産性性能「ベースライン」は、細胞生産性スコアにおける線形回帰であり、より高い細胞生産性スコアは、より高い予測される比生産性に対応する。同様に、増殖性能ベースラインは、細胞数における線形回帰であり、より高い細胞数は、より高い予測増殖に対応し、力価性能ベースラインは、細胞生産性スコア及び細胞数における線形回帰であり、両方におけるより高いスコアは、より高い予測力価に対応する。
【0119】
図12Aに見られるように、プロセス900のステップ928において識別/出力された機械学習モデルの予測能力(図12B~12Gを参照してさらに議論される)は、3つの標的製品品質属性の全てにおいて候補細胞株をランク付けするためのベースライン性能を上回る。最大の利得は、増殖ランキングを予測するモデルにおいて見られ、モデルは、ベースラインρ=0(予測能力なし)と比較してρ=0.283のランク相関を示した。ステップ928からのモデルは、比生産性の予測においてわずかな改善のみを示し、ランク相関は、ρ=0.468からベースラインρ=0.492に増加したが、これは、細胞生産性スコアのみが、比生産性ランクにおける順序の違いの大部分を説明できることを意味し得る。ステップ928からのモデルは、力価を予測する性能において中程度の増加を示し、ランク相関は、ρ=0.245からρ=0.342に増加した。
【0120】
モデルライブラリ922の異なる回帰推定器は、異なる標的製品品質属性値を予測するのにより適していることが分かっている。例えば、ステージ920で概説したモデル識別/定義手順を使用して、コンピューティングシステム802は、ステージ910で定義されたデータセットを使用して複数の回帰推定器をテストし、ハイパーパラメータの範囲にわたって各回帰モデルの交差検証を行い得る。図12B図12Gは、特定の性能属性値を予測する際の異なる回帰推定器の相対性能の例と、ステップ928を参照して本明細書で説明した特徴削減方法を用いて選択された各モデルを構築するために使用されるそれぞれの選択された特徴とを示す。「最良」の性能を示す回帰推定器は、関連するハイパーパラメータ(存在する場合)を最適化した後、全ての細胞株にわたって最も高い平均Spearmanローを有するモデルが選択された。平均RMSEも図12B、12D及び12Fに示されているが、本明細書の他の箇所で説明される理由のため(すなわち絶対精度に対する相対/ランキング精度の重要性のため)、このメトリックスは、モデルの選択に使用されなかった。
【0121】
図12Bに示した表936に見られるように、力価を予測する最良の回帰推定器は、ハイパーパラメータラムダが1.3に等しいリッジ回帰であることが見出された。このパフォーマンスに他の4つのモデルが接近して続く:線形回帰、ラムダが0.001に等しいラッソ回帰、2つの主成分を有するPCA及び2つの主成分を有するPLS。図12Cの表938は、特徴の削減で選択されたモデルによって分析された2つの属性(プール力価及び細胞生産性スコア(Spotlightアッセイスコア))を示す。
【0122】
図12Dの表940は、比生産性の最良の予測子が、2つの主成分を有するPCAであったことを示す。図12Eの表942は、特徴削減で選択されたモデルによって分析された8つの属性を示す。第1のPCA成分について、プール力価、細胞生産性スコア(Spotlightアッセイスコア)並びに細胞株の生成及び分析システムにおける比生産性の値がより重要である一方、第2のPCA成分について、これらのメトリックスのスケーリングされた値(各細胞株の異なる特性の正規化)がより重要である。
【0123】
図12Fの表944は、増殖を予測する最良の回帰推定器が、1つの主成分を有するPLSであると判明したことを示す。図12Gの表946は、特徴削減で選択されたモデルによって分析された9つの属性を示す。モデルは、一般に、Berkeley Lightsシステムで収集されたデータよりもプールデータにより多くの重みを置いた。特に、プール力価、プールIVCD並びに6日目及び8日目のプール生存細胞密度が最も重要であったが、細胞数は、より低い重み付けであった。
【0124】
Spearmanのローを使用することに加えて、他の尺度又は可視化を使用して、様々なモデルのランキング精度を決定し得る。このような評価は、例えば、モデルによって決定されたランキングと、実世界の流加バッチ実験における同じ細胞株の実際のランクとの比較として表され得る。この評価は、実世界の流加バッチ実験において、各標的生成物属性についてのトップ細胞株(例えば、トップ4細胞株)を捉えるモデルの能力を、例えばこれらのトップ細胞株がモデル結果によりランク付けされる細胞株のトップ付近(例えば、トップ50%内)のいずれかに出現するかどうかを示すことによっても評価され得る。図13A図13Cは、このような評価結果の例を示す。図13A~13Cのそれぞれは、6つのバーグラフを示し、それぞれは、6つの評価されたデータセットの1つに対する評価結果を表す。ランク付けされた細胞株のトップ50%は、白色バーとして示され、ランク付けされた細胞株のボトム50%は、網掛けバーとして示されている。ランキングを完全に予測するモデルの場合、所与のバーグラフは、全ての網掛けバーの左(x軸に沿って)に位置する全ての白いバーを有することになる。各バーの高さは、各細胞株についての実世界の小規模細胞培養物で表される製品品質属性の相対値を表す。
【0125】
最初に図13Aを参照すると、例示的な結果950は、製品品質属性の力価(この例では流加バッチ、小規模培養物の10日目に測定された力価)に従った細胞株の予測ランキングに対応する。図13Aに見られるように、このモデルを使用した搬出の50%削減(すなわち流加バッチステージに進行した細胞株の)は、あまりにも積極的であり、実世界細胞株のトップのいくつかを排除させる。この例では、トップ4のクローンの全てが選択されることを確実にするためには、少なくとも38のクローンがデータセット4から搬出されなければならない。
【0126】
図13Bは、製品品質属性の比生産性(この例では流加バッチ、小規模培養物の10日目の比生産性(qP))に従った細胞株の予測ランキングに対応する例示的な結果952を示す。比生産性のモデル予測は、有望であった。例えば、搬出の数を半分にしても、全ての細胞株にわたり、トップ4のクローンの1つのみが失われるに過ぎない。トップ4クローンを捉えるのに必要なクローンの最大数(予測ランキングから)は、31であり、データセット5及び6は、それぞれモデルによって予測されたトップ8クローン内でトップ4クローンの全てを同定した。
【0127】
図13Cは、製品品質属性の細胞増殖(この例では流加バッチ、小規模培養物の10日目のIVCD)に従った細胞株の予測ランキングに対応する例示的な結果954を示す。増殖のモデル予測は、最良の指標が細胞株の生成及び増殖ユニットでの増殖ではなく、クローンが由来するプールであることを示す。しかしながら、データセット3及び5によって示されるように、このモデルは、トップの増殖クローンのいくつかがトップ50%にあることを予測しなかった。しかしながら、この情報は、細胞数の予測能力がないベースライン(細胞株の生成及び増殖ユニットで測定されるように)と比較した場合、依然として価値がある。トップ4のクローンが搬出される/先に進められることを確実にするためには、データセット4からの結果に基づいて、最低37個のクローンが搬出されなければならない。
【0128】
図14は、組換えタンパク質を産生する候補細胞株の中からの、次の細胞株スクリーニングステージ(例えば、図1のステージ12)に進むべき細胞株の選択を容易にするための例示的な方法960のフロー図である。方法960の一部又は全ては、例えば、メモリユニット828に保存されたアプリケーション830のソフトウェア命令を実行すると、コンピューティングシステム802のプロセッシングユニット820又はサーバ804の1つ以上のプロセッサ(例えば、クラウドサービスの実行で)によって実行され得る。
【0129】
ブロック962では、光-電子細胞株生成及び分析システム(例えば、図8のシステム850)を使用して、複数の候補細胞株について第1の複数の属性値が測定される。光-電子細胞株生成及び分析システムは、例えば、ブロック962において、候補細胞株についての光学的及びアッセイ測定を行い得る。いくつかの実施形態では、そのような測定は、少なくとも部分的には光-電子細胞株生成及び分析システム内の複数の物理的に隔離されたペンにおいて、少なくとも細胞数及び細胞生産性スコアを測定することによって実施される。これらの実施形態のいくつかでは、ブロック962は、光-電子細胞株生成及び分析システムを使用して、少なくとも、光パターンによって活性化された1つ以上の光伝導体を有する物理的に隔離されたペンの異なるペンに個々のセルを移動させることと、細胞株生成及び分析プロセスを通して、個々のセルをそのそれぞれのペン内に収容することとにより、候補細胞株の細胞を生成することをさらに含む。さらに、ブロック962は、細胞株生成及び分析プロセスの異なる日において、第1の複数の属性値の異なる値を測定することを含み得る。より一般的には、第1の複数の属性値は、本明細書の他の箇所で論じられているように、分析ユニット852によって測定することができる属性のいずれかの値を含むことができ、且つ/又は光-電子細胞株生成及び分析システムを使用して測定することができる任意の適切な属性値を含み得る。
【0130】
ブロック964では、候補細胞株について第2の複数の属性値が取得される。第2の複数の属性値は、候補細胞株の細胞プールスクリーニングステージで測定された1つ以上の属性値を含む。ブロック964で測定された属性値は、例えば、プール力価、VCD及び/又はプール生存率を含み得る。いくつかの実施形態及び/又はシナリオでは、1つ以上の直接測定値(例えば、時間積分VCD、プール比生産性など)に基づいて計算される値若しくは測定装置以外の装置(例えば、コンピューティングシステム802)が1つ以上の直接測定値に基づいて計算する値並びに/又はユーザ入力値(例えば、モダリティ)などの他の属性値がブロック964で代わりに又はさらに取得される。いくつかの実施形態では、ブロック964で取得された属性値のいくつかは、経時的に(例えば、異なる日に)定期的に取得された測定値である。例えば、第1の属性値は、細胞プールの0日目のVCD値であり得、第2の属性値は、同じ細胞プールの3日目のVCD値であり得、以下同様である。より一般的に、第2の複数の属性値は、分析機器812によって測定され得るか、又は本明細書の他の箇所で論じるように細胞プール810に関連する属性のいずれかの値を含み得、且つ/又は細胞プールに関連する他の適切な属性の値を含み得る。
【0131】
ブロック966において、候補細胞株についての仮想小規模スクリーニング培養物に関連する製品品質属性に従い、候補細胞株のランキングが決定される。ブロック966は、ブロック962で測定された第1の複数の属性値と、ブロック964で取得された第2の複数の属性値とを、機械学習ベースの回帰推定器を使用して分析することにより、候補細胞株のそれぞれについて製品品質属性の値を予測することを含む。ブロック968は、予測値を比較することも含む(すなわち候補細胞株をランク付け(例えば、予測値に関して最良から最悪までの順序で)するため)。いくつかの実施形態では、予測値は、細胞増殖メトリックスの予測値である。他の実施形態では、予測値は、仮想小規模培養スクリーニングステージでの力価、比生産性メトリックス又は性能に関する任意の他の適切な指標である。機械学習ベースの回帰推定器は、任意の適切なタイプの回帰推定器(例えば、リッジ、ラッソ、PCA、PCS、xgboostなど)であり得る。他の実施形態では、ブロック966で予測を行うために、他のタイプの機械学習モデルを使用する(例えば、予測ユニット834により)ことができる(例えば、ニューラルネットワークなど)。
【0132】
いくつかの実施形態では、ブロック966は、少なくとも、(i)複数の候補細胞株のそれぞれについて、機械学習ベースの回帰推定器を使用して、第1の複数の属性値及び第2の複数の属性値を分析することによって力価を予測することと、(ii)予測された力価を比較することとにより、力価に従ってランキングを決定することを含む。これらの実施形態のいくつかでは、第1の複数の属性値は、細胞生産性スコア(例えば、スコア自体若しくはそのスコアから導出された値)に基づく値を含み、及び/又は第2の複数の属性値は、細胞プール力価(例えば、細胞プール力価自体若しくはそのスコアから導出された値)に基づく値を含む。これらの属性を分析する機械学習ベースの回帰推定器は、例えば、リッジ回帰推定器であり得る。
【0133】
他の実施形態では、ブロック966は、少なくとも、(i)複数の候補細胞株のそれぞれについて、機械学習ベースの回帰推定器を使用して、第1の複数の属性値及び第2の複数の属性値を分析することによって比生産性メトリックスを予測することと、(ii)予測された比生産性メトリックスを比較することとにより、比生産性に従ってランキングを決定することを含む。これらの実施形態のいくつかでは、第1の複数の属性値は、細胞生産性スコアに基づく値及び細胞数に基づく値を含み、及び/又は第2の複数の属性値は、細胞プール力価に基づく値を含む。これらの属性を分析する機械学習ベースの回帰推定器は、例えば、2つの主成分を有するPCA回帰推定器であり得る。
【0134】
さらに他の実施形態では、ブロック966は、少なくとも、(i)複数の候補細胞株のそれぞれについて、機械学習ベースの回帰推定器を使用して、第1の複数の属性値及び第2の複数の属性値を分析することによって細胞増殖メトリックスを予測することと、(ii)予測された細胞増殖メトリックスを比較することとにより、細胞増殖に従ってランキングを決定することを含む。これらの実施形態のいくつかでは、第1の複数の属性値は、細胞数に基づく値を含み、及び第2の複数の属性値は、細胞プール時間積分生存細胞密度(iVCD)に基づく値、異なる日における細胞プール生存細胞密度(VCD)に基づく値及び異なる日における細胞プール生存率に基づく値を含む。これらの属性を分析する機械学習ベースの回帰推定器は、例えば、1つの主成分を有するPLS回帰推定器であり得る。
【0135】
ブロック968において、ランキングの表示(例えば、順序付けられたリスト、バーグラフなど)は、ユーザインターフェースを介してユーザに提示される。例えば、ブロック968は、GUIを生成又は表示し(例えば、可視化ユニット838により)、GUIをディスプレイ(例えば、ディスプレイ824)上に提示させることを含み得る。ある実施形態では、表示の提示は、ランキングを示すデータを別のコンピューティング装置又はシステムに送ることによって引き起こされ、このコンピューティング装置又はシステムは、データを使用してGUIを表示及び提示する。
【0136】
いくつかの実施形態では、方法960は、図14には示されていない1つ以上の追加のブロックを含む。例えば、方法960は、機械学習ベースの回帰推定器の性能が、少なくとも機械学習ベースの回帰推定器(例えば、式4に従って計算されるように)に対する平均Spearmanランキング相関係数を計算することによって評価される追加のブロック(例えば、ブロック962の前)を含み得る。別の例として、方法960は、ブロック966で決定されたランキングに基づいて、候補細胞株の1つ以上の細胞株が細胞株スクリーニングの次のステージ(例えば、流加バッチ細胞培養ステージ)に進められる、さらなるブロックを含み得る。
【0137】
本発明の態様は、以下を含む。
【0138】
態様1.組換えタンパク質を産生する複数の候補細胞株の中から細胞株を選択することを容易にする方法であって、光-電子細胞株生成及び分析システムを使用して、複数の候補細胞株について第1の複数の属性値を測定すること;1つ以上のプロセッサにより、複数の候補細胞株について第2の複数の属性値を取得することであって、第2の複数の属性値は、複数の候補細胞株の細胞プールスクリーニングステージで測定された1つ以上の属性値を含む、取得すること;1つ以上のプロセッサにより、複数の候補細胞株のための仮想小規模スクリーニング培養物に関連する製品品質属性に従い、複数の候補細胞株のランキングを決定することであって、(i)機械学習ベースの回帰推定器を使用して、第1の複数の属性値及び第2の複数の属性値を分析することにより、複数の候補細胞株のそれぞれについて製品品質属性の値を予測することと、(ii)予測された値を比較することとを含む、決定すること;及びランキングの表示を、ユーザインターフェースを介してユーザに提示することを含む方法。
【0139】
態様2.光-電子細胞株生成及び分析システムを使用して第1の複数の属性値を測定することは、複数の候補細胞株について複数の光学的及びアッセイ測定を行うことを含む、態様1の方法。
【0140】
態様3.複数の候補細胞株について複数の光学的及びアッセイ測定を行うことは、光-電子細胞株生成及び分析システムにおいて、複数の物理的に隔離されたペンで少なくとも細胞数及び細胞生産性スコアを測定することを含み、方法は、光-電子細胞株生成及び分析システムを使用して、少なくとも、光パターンによって活性化された1つ以上の光伝導体を有する複数の物理的に隔離されたペンの異なるペンに個々の細胞を移動させることと、細胞株生成及び分析プロセスを通して、個々の細胞をそのそれぞれのペン内に収容することとにより、複数の候補細胞株の細胞を生成することをさらに含む、態様2の方法。
【0141】
態様4.第1の複数の属性値を測定することは、属性の第1の測定に対応する第1の属性値;及びその属性の第2の測定に対応する第2の属性値を測定することを含み、第1の測定及び第2の測定は、細胞株生成及び分析プロセスの異なる日に行われる、態様3の方法。
【0142】
態様5.第2の複数の属性値を取得することは、測定された細胞プール力価;測定された細胞プール生存細胞密度(VCD);又は測定された細胞プール生存率の1つ以上を受け取ることを含む、態様1~4のいずれか1つの方法。
【0143】
態様6.第2の複数の属性値を取得することは、細胞プールスクリーニングステージの異なる日に測定された属性値を受け取ることを含む、態様1~5のいずれか1つの方法。
【0144】
態様7.1つ以上の製品品質属性は、細胞増殖メトリックスを含む、態様1~6のいずれか1つの方法。
【0145】
態様8.1つ以上の製品品質属性は、(i)力価、又は(ii)比生産性メトリックスの1つ以上を含む、態様1~6のいずれか1つの方法。
【0146】
態様9.ランキングを決定することは、少なくとも、(i)複数の候補細胞株のそれぞれについて、機械学習ベースの回帰推定器を使用して、第1の複数の属性値及び第2の複数の属性値を分析することによって力価を予測することと、(ii)予測された力価を比較することとにより、力価に従ってランキングを決定することを含み;第1の複数の属性値は、細胞生産性スコアに基づく値を含み;及び第2の複数の属性値は、細胞プール力価に基づく値を含む、態様1~8のいずれか1つの方法。
【0147】
態様10.力価を予測することは、リッジ回帰推定器を使用して第1の複数の属性値を分析することを含む、態様9の方法。
【0148】
態様11.ランキングを決定することは、少なくとも、(i)複数の候補細胞株のそれぞれについて、機械学習ベースの回帰推定器を使用して、第1の複数の属性値及び第2の複数の属性値を分析することによって比生産性メトリックスを予測することと、(ii)予測された比生産性メトリックスを比較することとにより、比生産性に従ってランキングを決定することを含み;第1の複数の属性値は、細胞生産性スコアに基づく値及び細胞数に基づく値を含み;及び第2の複数の属性値は、細胞プール力価に基づく値を含む、態様1~8のいずれか1つの方法。
【0149】
態様12.比生産性メトリックスを予測することは、2つの主成分を有する主成分分析(PCA)回帰推定器を使用することを含む、態様11の方法。
【0150】
態様13.ランキングを決定することは、少なくとも、(i)複数の候補細胞株のそれぞれについて、機械学習ベースの回帰推定器を使用して、第1の複数の属性値及び第2の複数の属性値を分析することによって細胞成長メトリックスを予測することと、(ii)予測された細胞成長メトリックを比較することとにより、細胞成長に従ってランキングを決定することを含み;第1の複数の属性値は、細胞数に基づく値を含み;第2の複数の属性値は、細胞プール力価に基づく値、細胞プール時間積分生存細胞密度(iVCD)に基づく値、異なる日における細胞プール生存細胞密度(VCD)に基づく値及び異なる日における細胞プール生存率に基づく値を含む、態様1~8のいずれか1つの方法。
【0151】
態様14.細胞増殖メトリックスを予測することは、1つの主成分を有する部分最小二乗(PLS)回帰推定器を使用することを含む、態様13の方法。
【0152】
態様15.少なくとも機械学習ベースの回帰推定器についてSpearmanのロー又は平均Spearmanのローを計算することにより、機械学習ベースの回帰推定器の性能を評価することをさらに含む、態様1~14のいずれか1つの方法。
【0153】
態様16.ランキングに基づいて、複数の候補細胞株の1つ以上の細胞株を次の細胞株スクリーニングステージに進めることをさらに含む、態様1~15のいずれか1つの方法。
【0154】
態様17.次の細胞株スクリーニングステージは、流加バッチ細胞培養ステージである、態様16の方法。
【0155】
態様18.コンピューティングシステムの1つ以上のプロセッサによって実行されると、コンピューティングシステムに、態様1~15のいずれか1つの方法を行わせる命令を保存する1つ以上の非一時的コンピュータ可読媒体。
【0156】
態様19.コンピューティングシステムであって、1つ以上のプロセッサ;及び1つ以上のプロセッサによって実行されると、コンピューティングシステムに、態様1~15のいずれか1つの方法を行わせる命令を保存する1つ以上の非一時的コンピュータ可読媒体を含むコンピューティングシステム。
【0157】
態様20.組換えタンパク質を産生する候補細胞株の中からマスター細胞株を選択することを容易にするための方法であって、コンピューティングシステの1つ以上のプロセッサにより、特定の細胞株について、小規模細胞培養物に関連する複数の属性値を受け取ることであって、複数の属性値の少なくともいくつかは、小規模細胞培養物の測定値である、受け取ること;1つ以上のプロセッサにより、少なくとも、機械学習ベースの回帰推定器を使用して、小規模細胞培養物に関連する複数の属性値を分析することにより、特定の細胞株について、仮想大規模細胞培養物に関連する1つ以上の属性値を予測することであって、予測された1つ以上の属性値は、力価及び/又は1つ以上の製品品質属性値を含む、予測すること;及び1つ以上のプロセッサにより、薬物製品製造で使用するためのマスター細胞株の選択を容易にするために、(i)予測された1つ以上の属性値、及び(ii)予測された1つ以上の属性値が1つ以上の細胞株選択基準を満たすかどうかの表示の一方又は両方を、ユーザインターフェースを介してユーザに提示させることを含む方法。
【0158】
態様21.機械学習ベースの回帰推定器を使用して複数の属性値を分析することは、決定木回帰推定器を使用して複数の属性値を分析することを含む、態様20の方法。
【0159】
態様22.機械学習ベースの回帰推定器を使用して複数の属性値を分析することは、ランダムフォレスト回帰推定器を使用して複数の属性値を分析することを含む、態様21の方法。
【0160】
態様23.機械学習ベースの回帰推定器を使用して複数の属性値を分析することは、xgboost回帰推定器を使用して複数の属性値を分析することを含む、態様21の方法。
【0161】
態様24.機械学習ベースの回帰推定器を使用して複数の属性値を分析することは、線形サポートベクトルマシン(SVM)回帰推定器を使用して複数の属性値を分析することを含む、態様20の方法。
【0162】
態様25.機械学習ベースの回帰推定器を使用して複数の属性値を分析することは、弾性ネット推定器を使用して複数の属性値を分析することを含む、態様20の方法。
【0163】
態様26.予測された1つ以上の属性値は、1つ以上の製品品質属性を含む、態様20~25のいずれか1つの方法。
【0164】
態様27.予測された1つ以上の製品品質属性値は、1つ以上の予測されたクロマトグラフィー測定値を含む、態様26の方法。
【0165】
態様28.ユーザインターフェースを介して、ユーザから、特定の細胞株の識別子、特定の細胞株を使用して生産される薬物のモダリティ、特定の細胞株を使用して生産される薬物製品の指示又は特定の細胞株を使用して生産される薬物に関連するタンパク質足場型の1つ以上を含むユーザ入力データを受け取ることをさらに含み、機械学習ベースの回帰推定器を使用して、小規模細胞培養物に関連する複数の属性値を分析することは、機械学習ベースの回帰推定器を使用してユーザ入力データを分析することをさらに含む、態様20~27のいずれか1つの方法。
【0166】
態様29.小規模細胞培養物に関連する複数の属性値を受け取ることは、小規模細胞培養物の測定された力価;小規模細胞培養物の測定された生存細胞密度;又は小規模細胞培養物の測定された生存率の1つ以上を受け取ることを含む、態様20~28のいずれか1つの方法。
【0167】
態様30.小規模細胞培養物に関連する複数の属性値を受け取ることは、小規模細胞培養物の培地の1つ以上の特性を受け取ることを含む、態様20~29のいずれか1つの方法。
【0168】
態様31.培地の1つ以上の特性を受け取ることは、培地の測定されたグルコース濃度を受け取ることを含む、態様30の方法。
【0169】
態様32.小規模細胞培養物に関連する複数の属性値を受け取ることは、小規模細胞培養物に関連する属性の第1の測定に対応する第1の属性値;及び小規模細胞培養物に関連する属性の第2の測定に対応する第2の属性値を受け取ることを含み、第1の測定及び第2の測定は、小規模細胞培養物の異なる日に行われる、態様20~31のいずれか1つの方法。
【0170】
態様33.小規模細胞培養物に関連する複数の属性値を受け取る前に、1つ以上のプロセッサにより、且つユーザインターフェースを介してユーザから、使用事例を示すデータを受け取ること、及び1つ以上のプロセッサにより、且つ使用事例を示すデータに基づいて、機械学習ベースの回帰推定器を複数の推定器の中から選択することをさらに含み、複数の推定器のそれぞれは、異なる使用事例のために設計される、態様20~32のいずれか1つの方法。
【0171】
態様34.使用事例を示すデータを受け取ることは、少なくとも、(i)仮想大規模細胞培養物に関連する1つ以上の属性値の少なくとも1つ、及び(ii)生産される薬物のモダリティを示すデータを受け取ることを含む、態様33の方法。
【0172】
態様35.使用事例を示すデータを受け取ることは、少なくとも仮想大規模細胞培養物に関連する力価を示すデータを受け取ることを含み;及び機械学習ベースの回帰推定器を使用して複数の属性値を分析することは、(i)決定木回帰推定器、(ii)ランダムフォレスト回帰推定器、(iii)xgboost回帰推定器、又は(iv)線形サポートベクトルマシン(SVM)回帰推定器を使用して複数の属性値を分析することを含む、態様34の方法。
【0173】
態様36.使用事例を示すデータを受け取ることは、少なくとも仮想大規模細胞培養物に関連するクロマトグラフィー測定値を示すデータを受け取ることを含み;及び機械学習ベースの回帰推定器を使用して複数の属性値を分析することは、xgboost回帰推定器を使用して複数の属性値を分析することを含む、態様34の方法。
【0174】
態様37.複数の推定器の各推定器について、1つ以上のプロセッサにより、推定器の出力を最も予測する特徴のセットを決定することをさらに含み;及び小規模細胞培養物に関連する複数の属性値を受け取ることは、機械学習ベースの回帰推定器のために決定される特徴のセット内に含まれる属性値のみを受け取ることを含む、態様33の方法。
【0175】
態様38.1つ以上の分析機器により、小規模細胞培養物に関連する複数の属性値の少なくともいくつかを測定することをさらに含む、態様20~37のいずれか1つの方法。
【0176】
態様39.複数の属性値を受け取ることは、光-電子細胞株生成及び分析システムから測定値を受け取ることを含む、態様20~38のいずれか1つの方法。
【0177】
態様40.コンピューティングシステムの1つ以上のプロセッサによって実行されると、コンピューティングシステムに、態様20~39のいずれか1つの方法を行わせる命令を保存する1つ以上の非一時的コンピュータ可読媒体。
【0178】
態様41.コンピューティングシステムであって、1つ以上のプロセッサ;及び1つ以上のプロセッサによって実行されると、コンピューティングシステムに、態様20~39のいずれか1つの方法を行わせる命令を保存する1つ以上の非一時的コンピュータ可読媒体を含むコンピューティングシステム。
【0179】
システム、方法、装置及びそれらの構成要素を例示的な実施形態の観点から説明してきたが、システム、方法、装置及びそれらの構成要素は、これらに限定されるものではない。詳細な説明は、例としてのみ解釈されものとし、可能な実施形態の全てを説明することは、不可能ではないとしても非現実的であることから、本発明の全ての可能な実施形態を説明しているわけではない。現在の技術又は本特許の申請日以降に開発された技術のいずれかを使用して、多くの代替的な実施形態を実施することができるが、このような実施形態は、本発明を定義する請求項の範囲内に依然として含まれる。
【0180】
当業者であれば、本発明の範囲から逸脱することなく、上記の実施形態に対する多様な修正形態、変更形態及び組み合わせがなされ得、そうした修正形態、変更形態及び組み合わせが本発明の概念の範囲内であると解釈されることを理解するであろう。
図1
図2
図3
図4A
図4B
図5A
図5B
図5C
図5D
図6A
図6B
図7
図8
図9
図10
図11A
図11B
図12A
図12B
図12C
図12D
図12E
図12F
図12G
図13A
図13B
図13C
図14