(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-25
(45)【発行日】2024-01-09
(54)【発明の名称】細胞培養プロセスにおけるプロセス変数を測定するための方法
(51)【国際特許分類】
C12N 1/00 20060101AFI20231226BHJP
G06N 20/00 20190101ALI20231226BHJP
C12N 5/071 20100101ALI20231226BHJP
G16B 40/20 20190101ALI20231226BHJP
【FI】
C12N1/00 B
G06N20/00 130
C12N5/071
G16B40/20
(21)【出願番号】P 2022508761
(86)(22)【出願日】2020-08-12
(86)【国際出願番号】 EP2020072560
(87)【国際公開番号】W WO2021028453
(87)【国際公開日】2021-02-18
【審査請求日】2022-03-16
(32)【優先日】2019-08-14
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】591003013
【氏名又は名称】エフ. ホフマン-ラ ロシュ アーゲー
【氏名又は名称原語表記】F. HOFFMANN-LA ROCHE AKTIENGESELLSCHAFT
(74)【代理人】
【識別番号】100102978
【氏名又は名称】清水 初志
(74)【代理人】
【識別番号】100160923
【氏名又は名称】山口 裕孝
(74)【代理人】
【識別番号】100119507
【氏名又は名称】刑部 俊
(74)【代理人】
【識別番号】100142929
【氏名又は名称】井上 隆一
(74)【代理人】
【識別番号】100148699
【氏名又は名称】佐藤 利光
(74)【代理人】
【識別番号】100128048
【氏名又は名称】新見 浩一
(74)【代理人】
【識別番号】100129506
【氏名又は名称】小林 智彦
(74)【代理人】
【識別番号】100205707
【氏名又は名称】小寺 秀紀
(74)【代理人】
【識別番号】100114340
【氏名又は名称】大関 雅人
(74)【代理人】
【識別番号】100121072
【氏名又は名称】川本 和弥
(72)【発明者】
【氏名】エアハルト クリスティーナ
(72)【発明者】
【氏名】グロスコフ トビアス
(72)【発明者】
【氏名】パウル ヴォルフガング
(72)【発明者】
【氏名】ステフケ ダニエル
(72)【発明者】
【氏名】ヴェンカテーシュワラン スリラム
【審査官】林 康子
(56)【参考文献】
【文献】Processes,2018年,Vol.6, No.176,pp.1-15
【文献】Journal of Process Control,2014年,vol.24,p.344-357
【文献】Biotechnology and Bioengineering,2019年,Vol.116,pp.2575-2586,Epub 2019 Jul 21
(58)【調査した分野】(Int.Cl.,DB名)
C12N 1/00
JSTPlus/JMEDPlus/JST7580(JDreamIII)
CAplus/MEDLINE/EMBASE/BIOSIS(STN)
(57)【特許請求の範囲】
【請求項1】
哺乳動物細胞を培養する間、グルコース濃度を目標値に調整するための方法であって、
該方法が、
(a)培養中に、少なくともプロセス変数「時間」、
「冷却要素の温度(℃)」(「CHT.PV」
)、
「排ガス流中のCO2総量(体積%)」(「ACOT.PV」
)、
「供給物2の累積(ml)」(「FED2T.PV」
)、
「発酵槽重量(g)」(「GEW.PV」
)、
「CO2流入量累積(ml)」(「CO2T.PV」
)、
「排ガス流中のCO2濃度」(体積%)(「ACO.PV」
)、
「排ガス流中のO2濃度(体積%)」(「AO.PV」
)、
「N2流入(ml/min)」(「N2.PV」
)、
「塩基添加量累積(g)」(「LGE.PV」
)、
「CO2流入(ml/ml)」(「CO2.PV」
)、
「供給物3の累積(ml)」(「FED3T.PV」
)、
「酸素利用率(mol/(l
*
h))」(「OUR」
)、および
「pH」(「PH.PV」
)の現在値を測定する工程、
(b)プロセス変数「時間」、「CHT.PV」、「ACOT.PV」、「FED2T.PV」、「GEW.PV」、「CO2T.PV」、「ACO.PV」、「AO.PV」、「N2.PV」、「LGE.PV」、「CO2.PV」、「FED3T.PV」、「OUR」、および「PH.PV」を含む特徴行列を使用して生成された、哺乳動物細胞培養のためのデータ駆動モデルによって、(a)の測定値を用いて培養培地中の現在のグルコース濃度を
決定する工程、および
(c)(b)の現在のグルコース濃度が目標値よりも低い場合、目標値に達するまでグルコースを添加し、それによってグルコース濃度を目標値に調整する工程
を含
み、
前記方法が、サンプリングせずに、この培養からのオンライン測定値のみを使用して実施され、かつ、前記哺乳動物細胞がCHO-K1細胞である、
方法。
【請求項2】
前記データ駆動モデルが機械学習によって生成されていることを特徴とする、請求項
1に記載の方法。
【請求項3】
前記データ駆動モデルが、ランダムフォレスト法を用いて生成されていることを特徴とする、請求項
1または2に記載の方法。
【請求項4】
前記データ駆動モデルが、少なくとも10回の培養ランを含む訓練データセットを用いて生成されていることを特徴とする、請求項
1~3のいずれか一項に記載の方法。
【請求項5】
(a)モデリングに利用可能なデータセットが、70:30~80:20の比で訓練データセットと試験データセットとにランダムに分割されること、
(b)モデルが生成されること、
(c)データセットのプロセス変数を
決定するための平均値および標準偏差が前記訓練データセットから
決定され、データセットのプロセスを
決定するための平均値および標準偏差が前記試験データセットから
決定されること、
(d)試験データセットと訓練データセットとの間の分割に関して同等の平均値および標準偏差が達成されるまで工程(a)~(c)がくり返され、(a)の下で得られた分割は新たなランの度に異なっていること
を特徴とする、請求項
4に記載の方法。
【請求項6】
前記データ駆動モデルを生成するために使用されるデータセットが、それぞれ同じ数のデータ点を含むことを特徴とする、請求項
4または5に記載の方法。
【請求項7】
前記データ駆動モデルを生成するために使用されるデータセット内のデータ点が、それぞれ同じ培養時間に対するものであることを特徴とする、請求項
4~6のいずれか一項に記載の方法。
【請求項8】
データセット内の欠落データ点が補間によって補完されていることを特徴とする、請求項
4~7のいずれか一項に記載の方法。
【請求項9】
グルコース濃度および/または生細胞体積の欠落データ点が、三次多項式フィッティングによって得られ、乳酸濃度の欠落データ点が、単変量スプラインフィッティングによって得られ、かつ/または生細胞密度の欠落データ点が、ペレグフィッティングによって得られ得ることを特徴とする、請求項
8に記載の方法。
【請求項10】
データセットが、少なくとも144分ごとのデータ点を含むことを特徴とする、請求項
4~9のいずれか一項に記載の方法。
【請求項11】
前記哺乳動物細胞が抗体を発現および分泌することを特徴とする、請求項
1~10のいずれか一項に記載の方法。
【請求項12】
前記データ駆動モデルが、複合IgG培養ランおよび標準IgG培養ランを含む訓練データセットを用いて生成されていることを特徴とする、請求項
1~11のいずれか一項に記載の方法。
【請求項13】
培養体積が300mL以下であることを特徴とする、請求項
1~12のいずれか一項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、哺乳動物細胞培養法の分野にある。より具体的には、本発明の目的は、一連のプロセス変数の履歴的オンラインおよびオフライン値に基づいてプロセス目標パラメータをオンラインで測定するための方法である。
【背景技術】
【0002】
技術背景
医薬品産業における治療薬の製造にとって、最も要求されるものとしては品質および再現性である。このため、これらの要件を満たすために、目標値、プロセス限界および偏差を定義する経験的標準(GMPガイドライン、医薬品及び医薬部外品の製造管理及び品質管理の基準)が定められている。最近、米国食品医薬品局(FDA)は、PAT(プロセス分析技術)の主導により、製品の品質を向上させるために実行されるプロセスの良好な理解を深めるよう製薬業界に求めた[1]。近年、コンピュータベースのモデルなどの新しい技術が、治療用タンパク質を産生するために使用される、例えばCHO細胞の細胞培養プロセスの理解を進めるために使用されている。
【0003】
バイオリアクターは、細胞を培養するために最もよく使用されている。バイオリアクターでは、培養中に様々なプロセス変数が記録される。これらは、プロセス監視ならびに制御を可能にし、環境条件の制御を維持するのに役立つ。オンライン値とオフライン値とは区別される。両者の値は、プロセスに関する重要な情報を提供する。オンライン値は、直接オンライン制御に使用される適切なセンサによって収集される。しかしながら、オフライン値は、その後の外部分析方法による手動サンプリングによって測定されている。そのようなオフラインパラメータは、例えば、生細胞密度、グルコース濃度および乳酸濃度である。これらを使用して、最新の培養条件を評価し、必要に応じて、プロセスの調節に介入し得る。
【0004】
サンプルの分析には、特にハイスループット培養システムの場合、手作業が増えることが必要となる。これらの外部方法はまた、いくつかの状況ではエラーおよびデバイス障害につながる可能性がある。プロセスをより効率的かつ堅牢にするために、培養中に既に記録されたオンライン値を使用してオンラインで情報を取得することが可能である。このようにして、既存の測定されたパラメータおよびそれらの関係は、機械学習の適切な数学モデルを使用して説明するように解析し得る。
【0005】
流加培養プロセスでバイオマスを監視するための人工ニューラルネットワーク(ANN)が開示されている[8]。Krollらは、CHO細胞バイオマスの亜集団を測定するためのモデルに基づくソフトセンサを開示している[9]。
【0006】
Hutter,S.らは、チャイニーズハムスター卵巣灌流細胞培養における免疫グロブリンGのグリコシル化フラックス分析を開示している(Process6(2018)176)。著者らは、グリコシル化経路に関する洞察を生み出すための代謝フラックス分析に基づくアプローチを開示している。Hutterらは、灌流細胞培養実験における代謝フラックス分析に注目している。オフラインで測定されたパラメータのみを使用して、ランダムフォレストモデルにより使用して機構的(線形)モデルをフィッティングさせ、グリコシル化結果に対する入力パラメータの影響をランク付けした。このように、Hutterらは、培養後に実施される、オフラインデータに基づいて統計分析、すなわち履歴データの(生物学的)意味を理解するためのモデリングツールを開示している。予測またはオンラインアルゴリズムは開示されていない。
【0007】
白書「バイオファーマPAT-バイオリアクターにおける品質属性、重要なプロセスパラメータおよび重要な性能指標」((https://www.researchgate.net/publication/326804832_Biopharma_PAT_-_Quality_Attributes_Criticcal_Process_Parameters_Key_Performance_Indicators_at_the_Bioreactorで入手可能)には、プロセス分析技術の高レベルの概要が記載されている。この白書には、培養原理(例えば、バッチ、流加および灌流、モニタリング方法)が開示されている。そこで、溶存酸素などの測定値の影響を使用して、プロセスの理解を得ている。出力パラメータまたは機械学習手法の予測は開示されていない。
【0008】
Rubin,J.らは、pHが逸脱することにより、CHO細胞培養性能および抗体N結合型グリコシル化に影響を及ぼされることを報告している(Bioprocess.Biosys.Eng.,41(2018)1731-1741)。著者らは、任意の培養で行われたプロセスパラメータの典型的なオフライン測定を使用した抗体グリコシル化に対する細胞培養pHの影響、およびpH変動の影響に関する研究を開示している。
【0009】
Downey,B.J.らは、初期プロセス開発において生存細胞体積(VCV)を予測するために誘電分光法を使用するための新規アプローチを報告している(Biotechnol.Prog.30(2014)479-487)。
【0010】
Xiao,P.らは、流加培養物におけるCHO細胞サイズ増加期の代謝的特徴付けを報告した(Appl.Microbiol.Biotechnol.101(2017)8101-8113)。
【0011】
Kroll,P.らは、哺乳動物細胞培養プロセスにおけるバイオマス亜集団を監視するためのソフトセンサについて報告している(Biotechnol.Lett.39(2017)1667-1673)。著者らは、濁度物理センサを使用して、線形モデルに基づいて生細胞数(VCC、VCDと等価)を測定した。
【発明の概要】
【0012】
本発明は、少なくとも部分的には、履歴データセットから特定のプロセス変数を選択することによって、VCD(生細胞密度)、VCV(生細胞体積)、グルコースおよび乳酸などのCHO細胞の培養のための重要なパラメータをリアルタイムで含む有用なデータ駆動モデルを得ることができるという知見に基づいている。本発明による方法では、サンプリングなしで培養の全過程にわたって目標変数の正確なオンライン様値を提供することが可能になる。
【0013】
このCHO細胞の培養のためのモデルによる前記培養からのオンライン測定値のみを使用して、抗体を発現するCHO細胞の培養のため、および培養中の生細胞密度および/または生細胞体積および/または培養培地中のグルコース濃度および/または培養培養培地中の乳酸濃度を測定する方法であって、特徴「時間」、「CHT.PV」、「ACOT.PV」、「FED2T.PV」、「GEW.PV」、「CO2T.PV」、「ACO.PV」、「AO.PV」、「N2.PV」、「LGE.PV」、「CO2.PV」、「FED3T.PV」、「OUR」、および「PH.PV」を含む特徴行列に基づくモデルを生成することを特徴とする、方法である。
【0014】
【0015】
一実施形態では、モデルは、ランダムフォレスト法を使用して生成されている。
【0016】
一実施形態では、訓練データセットは、少なくとも10回の培養ラン、好ましくは少なくとも60回の培養ランを含む。
【0017】
一実施形態では、モデルは、例えば1つ以上のFabなどの追加のドメインを含むことによって、複合IgG、すなわち野生型Y字形全長抗体とは異なる形態を含む抗体を発現する哺乳動物細胞の培養ランを含む訓練データセットを使用して得られる。一実施形態では、訓練データセットはまた、標準IgG、すなわちドメインが追加または削除されていないY字形の野生型様抗体を発現する哺乳動物細胞の培養ランも含んでいる。
【0018】
一実施形態では、モデル形成に利用可能なデータセットの約80%が訓練データセットとして使用され、残りのデータセットが試験データセットとして使用される。
【0019】
一実施形態では、
a)モデリングに利用可能なデータセットを、80:20の比で訓練データセットと試験データセットとにランダムに分け、
b)モデルを形成し、
c)データセットの目標パラメータを測定するための平均値および標準偏差を、前記訓練データセットから測定し、記録の目標パラメータを測定するための平均値および標準偏差を前記試験データセットから測定し、
d)工程a)~c)は、試験データセットと訓練データセットとの間の分割に関して、同等、すなわち互いに最大10%、好ましくは最大5%以内の平均値および標準偏差が達成されるまで繰り返される。
【0020】
一実施形態では、データセット内の欠落データ点は補間によって補完されている。
【0021】
一実施形態では、データセットは、少なくとも60分間のデータ点、好ましくは約5~10分ごとのデータ点を含む。
【0022】
本発明の特定の実施形態
1.哺乳動物細胞の培養中に1以上のプロセス変数を測定するための方法であって、
前記プロセス変数(単数または複数)は、単に
i)プロセス変数「時間」、「CHT.PV」、「ACOT.PV」、「FED2T.PV」、「GEW.PV」、「CO2T.PV」、「ACO.PV」、「AO.PV」、「N2.PV」、「LGE.PV」、「CO2.PV」、「FED3T.PV」、「OUR」、および「PH.PV」を含む特徴行列を用いて生成された哺乳動物細胞の培養のデータ駆動モデルによって、
ならびに
ii)培養からのオンライン測定値のみを使用することによって測定される、方法。
【0023】
2.オンライン測定値が、少なくとも培養のプロセス変数「時間」、「CHT.PV」、「ACOT.PV」、「FED2T.PV」、「GEW.PV」、「CO2T.PV」、「ACO.PV」、「AO.PV」、「N2.PV」、「LGE.PV」、「CO2.PV」、「FED3T.PV」、「OUR」、および「PH.PV」」を使用することを特徴とする、実施形態1に記載の方法。
【0024】
3.哺乳動物細胞を培養する間、グルコース濃度を目標値に調整する方法であって、
a)培養の、少なくともプロセス変数「時間」、「CHT.PV」、「ACOT.PV」、「FED2T.PV」、「GEW.PV」、「CO2T.PV」、「ACO.PV」、「AO.PV」、「N2.PV」、「LGE.PV」、「CO2.PV」、「FED3T.PV」、「OUR」、および「PH.PV」の現在値を測定する工程、
b)プロセス変数「時間」、「CHT.PV」、「ACOT.PV」、「FED2T.PV」、「GEW.PV」、「CO2T.PV」、「ACO.PV」、「AO.PV」、「N2.PV」、「LGE.PV」、「CO2.PV」、「FED3T.PV」、「OUR」、および「PH.PV」を含む特徴行列を使用して生成された、哺乳動物細胞培養のためのデータ駆動モデルによって、a)で測定された値を用いて培養培地中の現在のグルコース濃度を測定する工程、
ならびに
c)b)で測定された現在のグルコース濃度が目標値よりも低い場合、目標値に達するまでグルコースを添加し、それによってグルコース濃度を目標値に調整する工程を含む、方法。
【0025】
4.前記プロセス変数が、プロセス変数生細胞密度、生細胞体積、培養培地中のグルコース濃度、および培養培地中の乳酸濃度から選択されることを特徴とする、実施形態1~3のいずれか1つに記載の方法。
【0026】
5.前記方法がサンプリングなしで実施され、前記培養からのオンラインで測定された値のみが使用されることを特徴とする、実施形態1~4のいずれか1つに記載の方法。
【0027】
6.前記データ駆動モデルが機械学習によって生成されていることを特徴とする、実施形態1~5のいずれか1つに記載の方法。
【0028】
7.前記データ駆動モデルが、人工ニューラルネットワークおよびアンサンブル学習を含む群から選択される方法を使用して生成されていることを特徴とする、実施形態1~6のいずれか1つに記載の方法。
【0029】
8.前記データ駆動モデルが、ランダムフォレスト法を使用して生成されていることを特徴とする、実施形態1~7のいずれか1つに記載の方法。
【0030】
9.前記データ駆動モデルが、MLPRegressor法を使用して生成されていることを特徴とする、実施形態1~7のいずれか1つに記載の方法。
【0031】
10.前記データ駆動モデルが、XGBoost法を使用して生成されていることを特徴とする、実施形態1~7のいずれか1つに記載の方法。
【0032】
11.前記データ駆動モデルが、教師あり学習を通して生成されていることを特徴とする、実施形態1~10のいずれか1つに記載の方法。
【0033】
12.前記データ駆動モデルが交差検証によって検証されることを特徴とする、実施形態1~11のいずれか1つに記載の方法。
【0034】
13.前記交差検証が10倍交差検証であることを特徴とする、実施形態12に記載の方法。
【0035】
14.前記データ駆動モデルが、少なくとも10回の培養ランを含む訓練データセットを使用して生成されていることを特徴とする、実施形態1~13のいずれか1つに記載の方法。
【0036】
15.前記訓練データセットが、少なくとも60回の培養ランを含むことを特徴とする、実施形態14に記載の方法。
【0037】
16.モデル生成に利用可能なデータセットの約80%が訓練データセットとして使用され、残りのデータセットが試験データセットとして使用されることを特徴とする、実施形態1~15のいずれか1つに記載の方法。
【0038】
17.実施形態1~16のいずれか1つに記載の方法であって、
a)モデリングに利用可能なデータセットが、70:30~80:20の比で訓練データセットと試験データセットとにランダムに分割されること、
b)モデルを形成し、
c)データセットのプロセス変数を測定するための平均値および標準偏差を、前記訓練データセットから測定し、データセットのプロセス変数を測定するための平均値および標準偏差を前記試験データセットから測定する工程、
試験データセットと訓練データセットに関して同等の平均値および標準偏差が達成されるまで、すなわち互いに10%以内、好ましくは互いに5%以内が達成されるまで工程a)~c)を繰り返す工程であって、a)で得られた分割は、新しい実行ごとに異なっている、工程を含む、方法。
【0039】
18.前記データ駆動モデルを生成するために使用されるデータセットが、それぞれ同じ数のデータ点を含むことを特徴とする、実施形態1~17のいずれか1つに記載の方法。
【0040】
19.前記データ駆動モデルを生成するために使用されるデータセット内のデータ点が、それぞれ培養の同じ時点に対するものであることを特徴とする、実施形態1~18のいずれか1つに記載の方法。
【0041】
20.前記データセット内の欠落データ点が補間によって得られることを特徴とする、実施形態1~19のいずれか1つに記載の方法。
【0042】
21.グルコース濃度および/または生細胞体積の欠落データ点が、三次多項式フィッティングによって得られることを特徴とする、実施形態20に記載の方法。
【0043】
22.乳酸濃度の欠落データ点が、単変量スプラインフィッティングによって得られることを特徴とする、実施形態20または21に記載の方法。
【0044】
23.生細胞密度の欠落データ点が、ペレグフィッティングによって得られることを特徴とする、実施形態20~22のいずれか1つに記載の方法。
【0045】
24.各データセットが、少なくとも144分ごとにデータ点を含むことを特徴とする、実施形態1~23のいずれか1つに記載の方法。
【0046】
25.各データセットが、少なくとも60分ごとにデータ点を含むことを特徴とする、実施形態1~24のいずれか1つに記載の方法。
【0047】
26.各データセットが、約5~10分ごとにデータ点を含むことを特徴とする、実施形態1~25のいずれか1つに記載の方法。
【0048】
27.哺乳動物細胞がCHO細胞であることを特徴とする、実施形態1~26のいずれか1つに記載の方法。
【0049】
28.哺乳動物細胞がCHO-K1細胞である、実施形態1~27のいずれか1つに記載の方法。
【0050】
29.哺乳動物細胞が治療用タンパク質を発現および分泌することを特徴とする、実施形態1~28のいずれか1つに記載の方法。
【0051】
30.哺乳動物細胞が抗体を発現および分泌することを特徴とする、実施形態1~29のいずれか1つに記載の方法。
【0052】
31.抗体がモノクローナル抗体および/または治療用抗体であることを特徴とする、実施形態30に記載の方法。
【0053】
32.前記抗体が、標準IgG抗体ではない、すなわち、野生型の四鎖の全長抗体であるか、または複合抗体、すなわち、標準抗体と比較して追加の抗体および/または非抗体ドメインを含む抗体であることを特徴とする、実施形態30または31に記載の方法。
【0054】
33.データ駆動モデルが、複合IgGの培養ランのみを含む訓練データセットを用いて生成されていることを特徴とする、実施形態1~32のいずれか1つに記載の方法。
【0055】
34.データ駆動モデルが、標準IgG培養ランも含む訓練データセットを用いて生成されていることを特徴とする、実施形態1~33のいずれか1つに記載の方法。
【0056】
35.哺乳動物細胞が、複合IgGまたは標準IgGを発現および分泌することを特徴とする、実施形態1~34のいずれか1つに記載の方法。
【0057】
36.培養体積が300mL以下であることを特徴とする、実施形態1~35のいずれか1つに記載の方法。
【0058】
37.培養体積が、250mL以下、200mL以下、100mL以下、75mL以下、200~250mL、または50~100mLであることを特徴とする、実施形態1~36のいずれか1つに記載の方法。
【0059】
38.培養が流加培養であることを特徴とする、実施形態1~37のいずれか1つに記載の方法。
【0060】
39.培養が撹拌槽型リアクター内で行われることを特徴とする、実施形態1~38のいずれか1つに記載の方法。
【0061】
40.培養中に水中ガス処理を行うことを特徴とする、実施形態1~39のいずれか1つに記載の方法。
【0062】
41.培養が使い捨てバイオリアクター(SUB)内で行われることを特徴とする、実施形態1~40のいずれか1つに記載の方法。
【0063】
42.哺乳動物細胞が浮遊状態で培養されること、または哺乳動物細胞が浮遊状態で増殖する哺乳動物細胞であることを特徴とする、実施形態1~41のいずれか1つに記載の方法。
【0064】
43.データ駆動モデルが回帰分析によって生成されていることを特徴とする、実施形態1~42のいずれか1つに記載の方法。
【0065】
44.300mL以下の体積で哺乳動物細胞を培養するためのプロセス変数を測定するためのデータ駆動モデルの生成における目標パラメータとしての生細胞体積の使用。
【0066】
45.プロセス変数が、プロセス変数生細胞密度、生細胞体積、培養培地中のグルコース濃度、および培養培地中の乳酸濃度を含む群から選択されることを特徴とする、実施形態44に記載の使用。
【0067】
46.培養がサンプリングなしで行われることを特徴とする、実施形態44または45に記載の使用。
【0068】
47.哺乳動物細胞がCHO細胞であることを特徴とする、実施形態44~46のいずれか1つに記載の使用。
【0069】
48.哺乳動物細胞がCHO-K1細胞であることを特徴とする、実施形態44~47のいずれか1つに記載の使用。
【0070】
49.哺乳動物細胞が治療用タンパク質を発現および分泌することを特徴とする、実施形態44~48のいずれか1つに記載の使用。
【0071】
50.哺乳動物細胞が抗体を発現および分泌することを特徴とする、実施形態44~49のいずれか1つに記載の使用。
【0072】
51.抗体がモノクローナル抗体および/または治療用抗体であることを特徴とする、実施形態50に記載の使用。
【0073】
52.前記抗体が、標準IgG抗体ではないか、または複合抗体であることを特徴とする、実施形態50または51に記載の使用。
【0074】
53.データ駆動モデルが、複合IgGの培養ランのみを含む訓練データセットを用いて生成されていることを特徴とする、実施形態44~52のいずれか1つに記載の使用。
【0075】
54.データ駆動モデルが、標準IgGの培養ランも含む訓練データセットを用いて生成されていることを特徴とする、実施形態44~53のいずれか1つに記載の使用。
【0076】
55.哺乳動物細胞が複合IgGまたは標準IgGを発現および分泌することを特徴とする、実施形態44~54のいずれか1つに記載の使用。
【発明を実施するための形態】
【0077】
発明の態様の詳細な説明
特に複雑な分子および分子フォーマットについて、試験培養のハイスループットを達成し得るようにするために、培養容器のサイズを小さくしなければならず、培養を自動化しなければならない。培養の成功は制御されたプロセス変数に依存し、最適な培養条件が提供された場合にのみ所望の分子を高収率で産生し得る。したがって、それぞれのプロセス変数を設定し、最適な培養条件を維持することを可能にするために、関連するプロセス変数の迅速かつ効率的な制御が必要とされる。各培養を別々に監視しなければならないため、このような制御は、小規模並列培養には特に必要とされる。特に、いわゆるオフラインプロセス変数は、一方では必要なサンプリングおよび別個の分析結果が時間オフセットであり、すなわち培養が継続し、オフラインで測定されたプロセス変数が実際のプロセス変数と異なり、他方ではサンプリングポイントの数がオンラインで利用可能なプロセス変数と比較して著しく少なく、このプロセス変数の時間的に悪い制御をもたらすため、ここでは問題となる。
【0078】
したがって、本発明の目的は、オンラインでは測定し得ないが、特に使用される培養容器の大きさのためにオフラインでのみ測定されるプロセス変数を、データ駆動モデルに基づいてリアルタイムで使用される培養規模でオンラインで利用可能なプロセス変数と同様に利用可能にすることである。
【0079】
組換えタンパク質を生産するために、バイオリアクターは、ほとんどの場合、流加プロセスを使用して作動する[4]。流加プロセスに加えて、バッチプロセスおよび連続培養モードなどの他の動作モードがある。
【0080】
流加または供給プロセスは、部分開放系の1つである。このプロセスの利点は、グルコース、グルタミンおよび他のアミノ酸などの栄養素をプロセス中に培養に添加し得ることである。結果として生じる基質の制限を回避し得、より長いプロセス時間を確保し得る。基質は、連続的にまたは(1つ以上の)濃縮した塊の形態で添加し得る。阻害効果および毒性副産物の蓄積をより適切に制御するために、適切な供給戦略を使用し得る。しかしながら、これには、プロセスの十分な知識、ならびにプロセスの制御が必要である。
【0081】
CHO細胞などの哺乳動物細胞の培養中に最適な条件を提供および維持するために、バイオリアクターがほぼ排他的に使用される[2]。使用されるバイオリアクターは、ほとんどが撹拌槽型リアクターである。培養は、懸濁液中で、すなわち浮遊状態で増殖する細胞で行われる。
【0082】
CHO細胞などの好気性哺乳動物細胞は、それらの細胞代謝を維持するために酸素を必要とする。細胞には、通常、培養ブロスの水中ガス処理によって酸素が供給される。リアクター内の溶存酸素濃度は、好気性細胞の培養にとって最も重要なパラメータの1つである。培地中に溶解した酸素の濃度は、いくつかの輸送抵抗によって測定される。拡散により、酸素が気泡から細胞に輸送され、最終的に細胞によって代謝され得る。輸送機構は酸素輸送速度(酸素移動速度、略してOTR)を用いて行い得るが、細胞自体による酸素消費量は酸素消費速度(酸素摂取速度、略してOUR)を用いて測定し得ることが開示されている[2]。適切な排ガス分析は、OURおよびOTRを計算するために必要なデータを提供し得る。温度、pH値および溶存酸素濃度などのプロセス変数は、適切なセンサで監視され、培養中に制御されるパラメータに含まれる。これらのプロセス変数は、哺乳動物細胞株の有効生産性に大きな影響を及ぼす[3]。
【0083】
バイオリアクターの開発および設定時間を短縮するために、研究および開発は、単回使用技術(単回使用バイオリアクタ;略記:SUB)にますます集中している。これらのシステムの大きな利点は、複雑な洗浄プロセス、ならびにCIP(適所での洗浄)およびSIP(適所での滅菌)などの必要な複雑で費用のかかる洗浄方法を必要としないことである。
【0084】
ambr250システム(自動マイクロスケールバイオリアクター)などの自動ハイスループット培養システムは、薬物開発を早めるのに役立つ。それぞれ250mLの体積を有する12個の単回使用バイオリアクターがこのシステム内で利用可能である。ピペット操作およびサンプリングのために、自動液体ハンドラが使用される。操作は、中央処理ソフトウェアによって制御される。操作中の無菌環境を確保するために、ambr250システム全体が層流ボックスの下に配置される。
【0085】
ソフトセンサは、プロセス変数の監視のために過去20年間でますます工業的に使用されてきた[6]。前記プロセス変数は、通常、高い分析努力で、または外部的に、すなわちオフラインでのみ測定し得る。特に、小規模で単回使用システムを使用する場合、必要な追加のセンサを設置し得ないことが多い(空間および利用可能性または使い捨てバイオリアクターへの接続性、場合によってはガンマ線照射可能ではないなど)。したがって、プロセス監視に使用し得、前記プロセス変数、すなわちプロセス目標パラメータの調整を可能にする重要なプロセス変数、特に小さな培養規模での連続データが不足している。「ソフトセンサ」という名称は、「ソフトウェア」と「センサ」という2つの用語を組み合わせたものである。「ソフトウェア」という用語は、モデルのコンピュータ支援プログラミングを意味する。これらのモデルの出力は、培養に関する情報、特に、それぞれの物理センサがないために利用できないプロセス変数のリアルタイム値を提供する[5]。
【0086】
基本的に、ソフトセンサは、モデル駆動型ソフトセンサとデータ駆動型ソフトセンサの2つのクラスに分け得る。
【0087】
モデル駆動型ソフトセンサは、理論的なプロセスモデルの影響を受ける。これらには、進行中のプロセスの詳細な知識が必要であり、状態の微分方程式を使用して前記プロセスを説明する。これは、プロセスの動的挙動が機構モデルを使用して表されなければならないことを意味する。そのようなモデルは、主に製造プラントの計画および設計のために開発され、理想的な平衡状態の説明に焦点を当てている。
【0088】
データ駆動型ソフトセンサ(ブラックボックスモデルと呼ばれる)では、機械学習に基づくモデルが使用される。これらは、プロセス変数相関を表わすために履歴データを使用する経験的モデルを含む。生物学的プロセスは複雑であり、培養哺乳動物細胞の代謝のありとあらゆる態様に関してはまだ十分には解明されていない。
【0089】
製薬業界内のデータ駆動型ソフトセンサの適用分野は広い。一般に、培養を監視し、記録する。
【0090】
現在、このような履歴データを使用して、オフラインプロセス変数のオンライン概算のためのデータ駆動モデルを生成し得ることが本発明者らによって見出されている。
【0091】
プロセス変数は、主にリアルタイムで測定される、すなわち利用可能にされる。それらは通常、困難を伴って、かつ分析努力および関連する時間オフセットを増大させてのみ測定し得る。さらに、バイオマスまたは特定の基質および生成物濃度などのいくつかのプロセス変数のオンライン監視には、ロバストで長期安定なオンラインセンサシステムが常に利用できるとは限らない[7]。これらのパラメータは、培養プロセスに関する重要な情報を含むが、培養中の限られた時点、すなわちオフラインでサンプルを採取して分析する時点でのみ利用可能である。
【0092】
ambr250システムなどの小型システムでは、プローブポートがないために、濁度および/または導電率などの特定のプロセス変数を測定することは不可能である。さらに、それらの設計のために、いくつかの一般的なプローブは、比較的大量の空間を必要とし、これは、これらの小さい体積のシステムでは利用できない。
【0093】
機械学習は、データセットの基本構造を表わすためのアルゴリズムの応用である。機械学習は、教師あり学習および教師なし学習の2つの部分に分け得る。
【0094】
教師あり学習は、訓練データに基づいて将来または未知のデータの予測を行うためにモデルが準備されるときに使用される。訓練データセットは、所望の出力値に関する情報を既に含んでいるため、管理される。一例は、スパムメールの選別である[10]。したがって、アルゴリズムは、スパムメッセージおよび非スパムメッセージからなり、学習フェーズを通過するスパム/非スパムに関する情報を既に含んでいるデータセットを受信する。マークされていない新しい電子メールでは、アルゴリズムは、それがどのタイプのメッセージであるかを予測しようとする。これは分類上の目標変数(スパム/非-スパム)であるため、「分類」という用語を用いる。
【0095】
教師なし学習の場合、目標変数をアルゴリズムに提示することなく、データセット内の関係を取得する試みが行われる。その焦点は、そこから意味のある情報を抽出するために、データの基礎となる構成を探索することにある。このグループの最も単純な例はクラスタリングである。この探索的データ分析では、実際の集団の帰属関係の事前知識なしにデータセットを意味のあるサブグループに分ける試みが行われる。
【0096】
目標変数が連続変数である場合、回帰または回帰分析と言う。回帰モデルを説明するために使用される変数は、独立変数または説明変数と呼ばれる。これに基づいて、結果を予測できるようにするために、入力変数と目標パラメータとの間の数学的関係を見つける試みが行われる。
【0097】
本発明による方法は、目標変数が回帰によって表わされる、教師あり学習を使用する。
【0098】
モデル化は、目標変数の前処理、学習、評価および概算の工程において模式的に整列させ得る。
【0099】
データの前処理は、モデルがそれが基づく情報を正しく解釈できることを保証するために必要である。データセットは、特徴行列xの形態で準備され、m個の特徴(列)およびn個の行を含み、それ故説明変数を表す。各行nは、特定のデータ点の特徴の仕様を含む。
【0100】
目標変数は、ベクトルyに配置される。したがって、特徴行列x(n)の各行は、目標変数y(n)の関連する値の情報を含む。
【0101】
適切な特徴を特定するために、統計分析が使用される。適切な特徴が特定され、対応する特徴行列が作成されると、サブセット(データセット全体の70~80%)がモデルで学習し得るようになる。このサブセットは訓練データセットと呼ばれる。
【0102】
典型的なデータ前処理は、データセットを標準化された形式でモデルに提供することを含み得る。したがって、各特徴のデータには、平均0および標準偏差1を有する標準正規分布の特性が与えられる。これは、特徴の互いの比較可能性を高め、学習アルゴリズムがそれらの最適な性能を達成することを可能にする[10]。
【0103】
学習は、モデル構築の中心部分である。学習中、モデルは、データ間の関係を理解および認識しようとする。各モデルは、特定のパラメータを有する数式に従う。これらは、データ間の関係を可能な限り適切に表わすために、訓練プロセス内で適応させる。
【0104】
ニューラルネットワークなどのいくつかのモデルは、学習プロセス中に変更されない他のパラメータを有する。これらはハイパーパラメータと呼ばれる。それらは、モデルの複雑さまたは学習プロセスの速度に影響を及ぼし、訓練プロセスの前に測定される。正しいハイパーパラメータを選択するための決まった方法はない。したがって、異なるモデルは、異なるハイパーパラメータで訓練され、次いで試験される。その場合にのみ、どのモデルが最も適しているかを判断し得る。
【0105】
ハイパーパラメータの最適な組み合わせを探索するために、ランダム化およびラスターベースのアルゴリズムが使用される。各ハイパーパラメータは、異なる値を有するリストによって表される。モデルは、それぞれのリストから可能な全ての組み合わせでグリッド検索(GridSearch)で訓練される。必要とされる計算労力は、ランダム化された検索によって低減され得る。様々なランダムなパラメータの組み合わせが使用され、計算労力を予め測定し得る。一実施形態では、モデルは、最初にハイパーパラメータの大まかな概算値のためのランダム化検索で実行され、次いで、ハイパーパラメータの微調整のためにグリッド検索が実行される。学習の目的は、バイアスおよび分散が可能な限り低く保たれるようにモデルを訓練することである。
【0106】
モデルは、未知のデータセットを用いた後続の予測よりも訓練データ間の関係をより適切に学習することが多い。この挙動を過学習と呼ぶ。したがって、モデルは訓練データセットを記憶しており、不十分な精度で関連性を新しいデータで表わする。同様の挙動はまた、過度の分散に起因し得る。ここで、モデルは、訓練されるデータセットに対して多すぎる入力パラメータを使用し、高いデータ分散を有するこのデータセットにのみフィッティングする複雑なモデルをもたらす。したがって、モデルは、実際の関係をマッピングし得ず、データのノイズを学習した。
【0107】
一方、モデルが試験データセットの変化に反応し得るほど複雑でない場合、これは学習不足と呼ばれる。その場合、バイアスは大きすぎ、モデルは訓練データの関係を試験データに不正確にマッピングすることしかできない。
【0108】
既に学習中に、訓練データセットのk倍の交差検証は、モデルの過学習を回避する可能性を提供する[11]。訓練データセットはk個のサブセットに分けられる。次に、k-1個のサブセットがモデルを訓練するために使用され、残りのサブセットが試験データセットとして使用される。この手順をk回繰り返す。このようにして、k個のモデルが訓練され、目標変数のk個の概算値が取得される。
【0109】
モデルの性能概算値E
iは、実行ごとに生成されている。回帰の性能概算値としては、例えば、誤差の尺度である平均二乗偏差が用いられる。実際には、ほとんどの場合、10倍の交差検証がバイアスおよび分散のための適切な妥協点であることが証明されている[12]:
【0110】
人工ニューラルネットワーク(ANN)は、1943年にWarren McCullochおよびWalter Pittsによってニューロンの数学的モデルとともに開示された。このようにして、生体系における情報伝達を理解し得る[13]。次いで、Frank Rosenblattは、人工ニューロンのMcCulloch-Pittsモデルを学習規則とリンクさせ、それ故パーセプトロンを説明し得た[14]。パーセプトロンは、依然としてANNの基礎を形成する。
【0111】
単純なパーセプトロンは、n個の入力x
1,....,x
n∈IRを有し、それぞれ重みw
1,....,w
n∈IRを有する。出力はo∈IRで表される。適切な重み付けを有する入力信号の処理は、伝搬関数(入力関数)σであり、
これは、ニューロンのネットワーク入力を説明する。活性化関数φを介して、
次いで、パーセプトロンの出力oが測定される。様々な関数をφに使用し得、これはパーセプトロンの活性化の原因となる可能性がある。
【0112】
したがって、活性化関数により、閾値およびネットワーク入力に応じてニューロンがどれだけ強く活性化されるかが計算される[15]。これらのニューロンのいくつかが適切な構造で相互接続されている場合、入力層と出力層との間の複雑な関係をマッピングし得る。そのような単純なニューロンの構造的相互接続の最も単純な形態は、フィードフォワードネットワークである。これらは層状に配置され、入力層、出力層、および構造に応じていくつかの隠れ層からなる。
【0113】
フィードフォワードネットワーク(いわゆる多層パーセプトロン)では、1つの層における全てのニューロンが次の層における全ての他のニューロンに接続される。したがって、これらのネットワークは、ネットワークを介して作成された情報コンテンツを順方向に伝播する。各ニューロンは、最初にランダムに選択された重みで入力信号を重み付けし、バイアス項を加算する。このニューロンの出力は、全ての重み付けされた入力データの合計に対応する。層内のニューロンの数および隠れ層の数に応じて、ニューラルネットワークの複雑さを測定し得る。
【0114】
誤差フィードバック(逆伝播)を含む多層フィードフォワードネットワークは、主にANNによる、教師あり学習に使用される[16]。
【0115】
そのようなニューラルネットワークの訓練は、以下の3つの工程に分け得る。
・工程1:フィードフォワード;
・工程2:誤差計算;
・工程3:逆伝播
【0116】
第1の工程では、ネットワークの入力層に入力が行われ、この入力はネットワークからの出力があるまでネットワークを介して層ごとに伝搬される。ネットワークの出力は、第2の工程において期待値と比較され、ネットワーク誤差は誤差関数を使用して計算される。現在の重み付けに応じて、隠れ層内の各ニューロンは、異なる程度まで計算された誤差に寄与する。第3の工程では、誤差がネットワークを通して後方に伝搬され、重みは、誤差に対する個々のニューロンの重みの寄与に応じて調整される。逆伝播アルゴリズムの目的は誤差を最小限に抑えることであり、通常は勾配降下法を使用する[17]。この方法によれば、ネットワークの出力と予想出力との間の二次距離が誤差関数として計算される。
【0117】
各ニューロンの重みの誤差への寄与を計算するために、考慮される重みw
ijから誤差関数Errを導出しなければならない。したがって、ここでは、連続的で微分可能な活性化関数のみを使用し得る[17]。これにより、次の反復工程で使用される重み調整デルタが測定される。この関係は、数学的に以下のように説明し得る:
【0118】
学習係数ηは、反復回数と共に、モデルを訓練する前に確立されるハイパーパラメータである。2つの工程は、最大反復回数または定義された誤差値に達するまで繰り返され、未知の入力に対して良好な結果を達成し得る。
【0119】
さらに、ランダムフォレスト(RF)アルゴリズムは、回帰問題の機械学習で使用し得る[18]。RFは、多数の決定木を介して学習し、それ故、アンサンブル学習者のカテゴリに属する。決定木は、ルートから広がり得る(上位ノード、先行ノードなし)。各ノードは、特徴に基づいてデータセットを2つの群に分ける。ルートの後行者は、リーフ(後行者なし)またはノード(少なくとも1つの後行者)であり得る。ノードおよびリーフはエッジによって接続されている。回帰問題の場合、[19]
・各内側ノード(ルートを含む)に特徴が割り当てられる;
・予測対象の目標変数の特定の値が決定木の各リーフに割り当てられる;
・各エッジに対して、閾値に関係が割り当てられている。
【0120】
好ましい実施形態では、RFは、Breiman[18]による袋詰め原理(ブートストラップアグリゲーション原理)を使用して適切な訓練セットを作成し、訓練セットは、置き換えを伴う訓練データセット全体からのサンプリングによって作成される。一部のデータは複数回選択されてもよいが、他のデータは訓練データとして選択されない。訓練セットの数は常に訓練データセット全体の数に対応する。選択された各訓練セットは、決定木(分類子)を使用して判断するために使用される。次いで、全ての訓練セットによる決定が平均化され、それによる多数決により最終的な分類が測定される。したがって、ブートストラップサンプルの生成により、個々の分類子間の相関は低くなる。さらに、個々の分類子の分散を減少し得、全体的な分類性能が向上する[18]。
【0121】
好ましい実施形態では、特徴は、決定木の作成中の分割(ノードの分割)の決定に使用され、その特徴は、データセットの特徴のランダムな選択に関する最も明確な決定を行う。選択された分割は、全ての特徴に関して最良の分割として選択されるのではなく、特徴のランダムな選択内の最良の分割として選択されるのみである。このランダム化の結果、決定木のバイアス(歪み、系統誤差)は作成の過程で増加する。RFに含まれる全ての決定木の平均値が形成されるため、分散は減少する。分散の減少は、バイアスの増加よりも大きな付加価値が高く、モデルの精度が高まる[20]。
【0122】
さらに、全ての個々の決定の平均が常に考慮されるため、RF予測ではモデルの過学習はほとんど防止される[18]。
【0123】
XGBoost(eXtreme Gradient BOOSTing)は、回帰木のアンサンブルをモデル形成の基礎として使用する。すでに説明したバギング原理、および特別なブースティング技法の両者を使用し、可能な限り最も正確な予測のためにアンサンブルを訓練する。簡単に言えば、ブースティング技法は、多くの弱い学習者で構成される勾配降下法の組み合わせと見なし得る[21]。これらの弱い学習器は、通常、ランダムな推測ほど正確ではなく、アンサンブルを作成する過程で強い学習者として一緒にグループ化されるこのような弱い学習者の典型例は、ノードを1つのみ有する単純な回帰木である。ブースティングアルゴリズムの原理は、これらの弱い学習者を用いてこれらの十分に分類されていない対象から学習するために分類が困難な訓練データを選択し、それによってアンサンブルの性能を改善することである。XGBoostが複雑なため、アルゴリズムはブラックボックスと見なされる。しかしながら、その拡張可能性および問題解決の速度のために、アルゴリズムは、機械学習の異なるモデルの直接比較で非常にうまく使用されている[22]。
【0124】
XGBoostによって実施される方法は、勾配降下法とブースティング技法とを組み合わせたものであり、Tianqi Chenによる元の文献 “XGBoost:A Scalable Tree Boosting System”[22]を使用して以下に説明する。
【0125】
k個の決定木からなるアンサンブルを用いて、モデルは、以下に従って表され得る:
式中、f
kは単一の決定木の予測である。全ての決定木にわたって見て、以下の予測を行い得る:
式中、x
iは、i番目のデータ点の特徴ベクトルである。モデルを訓練するために、損失関数Lを最適化する。回帰問題の場合、RMSE(二乗平均平方根誤差)が使用される:
【0126】
正則化は、モデルの過学習を防ぐ重要な部分であり:
式中、Tは葉の数であり、w
2
jは、j番目の葉の達成されたスコアリングである。正則化および損失関数が一緒にされる場合、モデルの基本目的関数は、以下のように定式化し得:
ここで、損失関数は前記予測力を決定し、正則化はモデルの複雑さを制御する。目標関数は、勾配降下法を使用して最適化される。最適化されるべき目的関数
が与えられると、勾配降下は各反復において計算され:
かつ
は、目的関数Objが最小化されるように、下降勾配に沿って変更する。
【0127】
回帰木を作成するために、データセットの特徴に基づいて内部ノードが分けられる。結果として得られるエッジは、データセットを分けることを可能にする値の範囲を定義する。回帰木内の葉は重み付けされ、重みは予測値に対応する。反復回数は、バギングおよびブースティングのプロセスが繰り返される頻度を示す。XGBoostアルゴリズムは、良好なモデルの形成に大きく寄与するハイパーパラメータの非常に大規模なリストを提供する。
【0128】
使用されるモデルに関係なく、相関関係を使用して、2つの変数間の線形関係を評価および表し得る。ピアソン相関係数r(またはr
2)は、この関係を評価するための共通の尺度を提供する。これは無次元であり、以下に従って計算され:
、かつ-1≦r≦+1の範囲内で変化する。カウンタは、経験的共分散s
xyに対応する平均に対する2つの変数xおよびyの偏差積の和を表わす。分母は、個々の経験的標準偏差s
xおよびs
yの積のルートである。相関されるべき量の平均値は、
として表わされる。Fahrmeir[23]による直線関係は、以下の式で解釈し得る。
・r<0.5:弱い直線関係
・0.5≦r<0.8:中程度の直線関係
・0.8≦r:強い直線関係
【0129】
相関分析では、直線関係のみを示し得ることに留意されたい。したがって、Bravais-Pearson相関係数は、非線形関係を表わすのに適していない。これは、相関係数が0.0≦r≦0.2であるにもかかわらず、変数の強い非線形依存性があることを意味し得る。
【0130】
相互情報量を通じて、2つのランダム変数の非線形依存性を測定し得る。これは情報理論[24]で使用されている。確率を利用して、第2の確率変数と比較した確率変数の情報内容が表わされる。基本的な形式的関係は以下の通りである。
【0131】
したがって、適切な連続変数の選択に使用し得るように、KraskovらおよびRossらによって、このアプローチは発展した[25][26]。
【0132】
適切な測定基準を使用して、種々のモデルを比較する必要がある。これらの補助により、モデルが目標変数を表わし得る精度について表わすことが可能である。
【0133】
測定係数R
2は、目標変数yの分散のどの割合をモデルで表わすかを示す。測定係数は、以下に従って計算し得る:
ここで、
は第iの例の目標変数の概算値であり、y
iは関連する真の値である。
は平均である。測定係数は、0~1の間の値をとり得る。測定係数が1に近いほど、モデルは目標変数にフィッティングし得る。
【0134】
二乗平均平方根誤差(RMSE)は、モデル品質を測定するために使用し得る別の統計的尺度である。ここで、概算値に対する実際の距離の二乗平均のルートが計算される:
【0135】
誤差を二乗した後、ルートを形成することにより、RMSEを概算対象の変数の標準偏差と解釈し得る。式中、nは観測数であり、
は目標変数yの概算値である。RMSEによる誤差の表示は、検査される目標パラメータに応じて異なるサイズの値をもたらす絶対誤差値である。したがって、RMSEを平均に関連付けることは理にかなっている。
【0136】
したがって、RMSEは、平均真値
に対して計算し得る。これにより、異なるサイズの対象変数についての誤差のより良好な評価が可能になる。
【0137】
方法
本発明の方法によれば、細胞増殖、すなわち細胞密度のタイムライン、ならびに特定の代謝産物、特にグルコースおよび乳酸のタイムラインを、オンラインプロセス変数から、培養中にリアルタイムで、特に小さな培養規模で測定することが可能である。したがって、本発明の方法によれば、以前はリアルタイムでは利用できなかったがオフラインでのみ利用可能であったプロセス変数のリアルタイム値を提供することが可能である。これは、本発明の方法が培養培地からのサンプリングを必要としない限り、細胞増殖および特定の代謝産物、特にグルコースおよび乳酸のタイムラインに対する従来の測定方法が改善されている。
【0138】
好ましい実施形態では、本発明の方法は、300mL以下の培養体積を有する哺乳動物細胞の流加培養における細胞密度、グルコース濃度および乳酸濃度をオンラインプロセス変数から測定するために使用され、方法はサンプリングなしで、すなわちフィードバック制御サンプリングで実施される。
【0139】
本発明の方法は、小規模で、すなわち300mL以下の培養体積で、完全に自動的に、すなわちサンプリングなしで培養を行うことを可能にし、細胞密度などの関連するプロセス変数をオンラインでは測定することができず、オフラインのみで測定する。
【0140】
本発明の方法は、小規模で哺乳動物細胞の培養を監視および制御するのに特に適している。
【0141】
本発明による方法では、CHO細胞培養における目標パラメータとして生細胞密度、グルコースおよび乳酸濃度を測定する方法であって、データベースのソフトセンサを使用する方法が提供される。機械学習モデルは、種々の目標変数を表わすために使用される。
【0142】
本発明は、少なくとも部分的に、モデル生成に使用されるプロセス変数の選択が、測定された目標プロセス変数の質に大きな影響を与えるという知見に基づいている。
【0143】
さらに、本発明は、少なくとも部分的に、既存のデータセットの分割のタイプ、すなわち、訓練データセットおよび試験データセットへの割り当てがモデルの質に影響を及ぼすという知見に基づいている。
【0144】
さらに、本発明は、少なくとも部分的に、産生される抗体のタイプが最適な目標パラメータの選択に影響を及ぼすという知見に基づく。
【0145】
本発明の方法について、ambr250システムでの培養から得られた155個の例示的なデータセットを使用して以下に説明する。これは、本発明による教示または本発明による方法を限定するものとして理解されるべきではなく、むしろ本発明による教示の例示的な適用として理解されるべきである。同じまたは異なる培養システムで生成された他のデータセットも同様に、本発明による方法に使用し得る。
【0146】
155個のデータセットを分析し、適切な特徴について調べた。選択されたモデルが離散的な時点で全ての目標パラメータの値を提供できるように、対応する補間戦略を使用して目標パラメータをマッピングした。モデルを、誤差およびモデルの質に関して評価した。それに基づく方法は、それぞれの目標変数/プロセス変数のロバストで正確なモデルの提供を可能にした。
【0147】
データセットにおける培養で産生された抗体の分子フォーマットは異なっていた。様々なプロジェクトおよび分子フォーマットならびにそれぞれの培養数の概要を以下の表1に示す。
【0148】
【0149】
培養プロセス全体に関連するデータ、すなわちオンラインパラメータセット、および関連する日時スタンプを各培養に使用した。種々のプロセス値のデータ密度は、タイムラインに関して変化した。これらのデータ密度の偏差は、システムにより、測定値が各測定値に対して具体的に定義されたデルタによって変更された場合にのみ、オンラインパラメータに対して新しいデータ点が記録されたという事実に起因する可能性がある。連続プロセスデータを利用可能にし、ランを互いに比較することを確実にするために、対応するオンラインパラメータを全ての欠落したタイムスタンプについて補間した。
【0150】
オンラインプロセス変数については、データの平滑化が多い場合には、測定値の変動が失われることに留意されたい。しかしながら、このノイズはまた、発生しているプロセス関連の変化を表し、情報としてプロセス値に含まれる。したがって、プロセス値を過度に平滑化しないこと、および補間後であってもプロセス過程の変更を可能にしておくことが重要である。
【0151】
オフラインデータは、培養中のサンプル数(8~13)に応じて種々の数の分析値を含む。各データセットは、各データ点の日時スタンプ、およびオフラインパラメータの関連する分析値を含む。
【0152】
オンラインおよびオフラインデータの補間による前処理は、それらがオンラインまたはオフラインのプロセス変数であるかにかかわらず、同時に全てのプロセス変数について同じ数のデータ点を含むデータセットをもたらす。解析は、補間されたデータセットに基づいていた。データ点が全てのオンラインおよびオフラインのプロセス変数について同じ頻度で同時に利用可能である場合、このような補間は必要ではない。
【0153】
利用可能なオンラインおよびオフラインデータの前処理により、種々の測定頻度に起因する個々のプロセス変数の種々のプロファイルは、均一な時間プロファイル、すなわち単一のタイムラインに標準化される。技術的およびプロセス管理によって引き起こされる不良値が識別され、選択解除または修正され、既存の時間ギャップは閉じられるため、プロセス変数の時間および数に関して、培養用の1つのデータセット内の全てのプロセス変数および全ての培養用のための全てのデータセットが均一になる。
【0154】
培養の開始時に制御をオンにするか、または培養の終了時に制御をオフにすることによって引き起こされる測定信号の変動がモデル形成を改ざんしないように、培養の最初および最後の12時間に収集されたデータは使用されなかった。具体例では、これは、0.5日~13.5日までの時間範囲が使用されたことを意味する。これは、プロセス変数の変化が細胞培養におけるプロセスにのみ起因し得ることを保証する。オンラインデータの補間はデータセット全体に対して行った。
図1は、プロセス値「AO.PV」の線形補間の一例を示す。
【0155】
図1に示すように、線形補間によるオンライン信号の経過が十分に説明されている。最初(<0.5日目>)に、制御を開始したときに測定値がどのように変動したかを理解し得る。ピーク(短時間でのより大きなプロセス値の変化)もまた、このタイプの補間で十分にマッピングし得る。
【0156】
オフラインデータについては、得られた分析値(VCD、VCV、グルコース、乳酸)を3つの異なる補間でフィッティングさせた。
図2は、種々のフィッティング方法を用いたVCDの補間の一例を示す。
【0157】
それぞれの測定係数R2を計算して、VCDの個々の補間を評価した。単変量スプラインは、ここで最大のR2値を達成したが、有意な過学習に向かう傾向があった。したがって、単変量スプラインは、ほぼ全ての測定値を正確に表すが、生物系の典型的な増殖曲線を表していない。一方、ペレグフィッティングと多項式フィッティングとの間の差はより小さい。しかしながら、ペレグフィッティングは、生物系の種々の成長段階を十分良好に表し得、それ故、VCDの目標変数の補間に使用される[27]。
【0158】
乳酸およびグルコースプロファイルの補間は、単変量スプラインがオフラインデータをより十分にR2でマッピングし、乳酸の場合のプロファイルを十分良好に表すことを示した。多項式フィッティングは10日目から乳酸の負の値を補間するので、単変量スプラインの補間を乳酸の目標ベクトルyとして定義した。しかしながら、グルコースについては、多項式フィッティング(3次)を用いて目標変数(グルコース:単変量スプライン(R2=0.999)および多項式フィッティング(R2=0.958);乳酸:単変量スプライン(R2=0.999)および多項式フィッティング(R2=0.959))を表した。
【0159】
さらに、前処理のためのオフラインデータ点が少なすぎる(3つ以下)データセットは、もはや分析に使用されなかった。これは、2つのデータセットの場合であった。したがって、補間および調整されたデータセット全体は、153回の培養を含んでいた。
【0160】
最大分解能5分の補間データセットには多数のデータポイントが含まれているため、計算労力を軽減するために、1/10日の分解能で分析を実行した。これには、JMP(登録商標)プログラムを使用し得る。
【0161】
図3は、プロジェクト2(12回の培養)からのデータセットについて示す。図に示すように、種々の補間方法(ペレグフィッティング、単変量スプラインおよび多項式フィッティング)は、相関の強さに非常に小さな影響を及ぼす。
【0162】
図3の散布図では、オンラインパラメータは特徴(線)として示されている。列は、VCDの種々の補間を表す。散布図の楕円には、常にデータの95%が含まれる。楕円が近いほど、変数間の直線関係は強くなる。算出されたBravais-Pearson相関係数を以下の表2に示す。
【0163】
(表2)
図3の値に対応するプロジェクトBからのサンプルデータセットのピアソン相関係数の数値。
【0164】
一例として「O2.PV」の値を見ると、補間について計算された係数は互いに非常に近い(0.9547;0.9490;0.9490)。
【0165】
したがって、相関分析をデータセット全体に対して行った。以下の表3は、このようにして測定されたBravais-Pearson相関係数を示す。
【0166】
(表3)全データセット(153回の培養)について計算されたピアソン相関係数、ペレグフィッティングにフィッティングした目標変数VCD。
【0167】
単一のambr250ランでの相関分析と比較して(前の表3および
図3を参照)、相関分析は、データセット全体にわたって有意に弱い直線関係を示した。相関の強さとは別に、データセット全体の分析は、最良の候補として他のオンラインパラメータも生成した。また、独立変数同士は相関することが分かった。以下の表4は、パラメータ「O2.PV」および「N2.PV」と他の独立変数との相関を部分的に示す。
【0168】
(表4)プロジェクトBの以前に実行された相関分析において最も高い相関値を有していたO2.PVおよびN2.PVの例を使用して示された、独立変数の相互の相関。
【0169】
独立変数が互いに相関している場合、1つは多重共線性を意味する。「O2.PV」の例を使用して示すように、
図3の「N2.PV」および「O2.PV」の2つの最良の相関係数と残りの独立したパラメータとの間には明確な直線関係がある。
【0170】
図4は、データセット全体についての目標変数VCDについての全ての特徴についての計算された情報内容(相互情報)を示す。
図4は、利用可能な特徴のいくつかがVCD目標変数に関する高レベルの情報を有することを示す。したがって、VCDに関して、相互情報は、「時間」、「CHT.PV」、「ACOT.PV」、「FED2T.PV」、「GEW.PV」、「CO2T.PV」、「ACO.PV」、「AO.PV」、「O2.PV」、「N2.PV」および「LGE.PV」に対して最高のインデックスを有し得る。
【0171】
情報内容の計算および相関分析の結果に基づいて、最良の10個のプロセス変数(CHT.PV、ACOT.PV、FED2T.PV、GEW.PV、CO2T.PV、ACO.PV、AO.PV、LGE.PV、O2.PVおよびN2.PV)が選択され、対応する特徴行列Xが作成される。行列は、利用可能なデータセットの補間データを含む。特徴(f
1...f
10)について5分の分解能および培養の持続時間(時間)をマトリックスの追加の列として選択した:
【0172】
訓練データセットおよび試験データセットへの分割は、これらがプロジェクト2の培養からのデータセットのみであるようにして行われた。目標変数「VCD」は、特徴行列の分布に従って分けられた。
【0173】
得られたモデルの質を確認するために、試験データセット全体の誤差の相対頻度密度を計算した。目標変数VCDについてMLPRegressor(a)、ランダムフォレスト(b)およびXGBoost(c)を使用して測定されたモデルの試験データセット全体に対する予測のヒストグラムをX軸上に示し、予測値と比較した概算VCD値の誤差を誤差の相対頻度をY軸上に示した。3つの分布は全て左に歪んだ傾向を示し、これはVCDが過小評価されていることを示している。さらに、全てのヒストグラムの検討により、3つ全てのモデルの概算値が同等の結果がもたらされたことが示されている。XGBoostは、計算された誤差の最も均一な分布を示すが、ここでは、目標変数が過大評価されていることも認められ得る。
【0174】
各モデルについて、RMSEおよびR2を試験データセット全体に基づいて計算した。両者の値は、目標変数VCDのペレグ適合に関する。3つのモデルの結果を以下の表5に要約する。
【0175】
(表5)MLPRegressor、ランダムフォレストおよびXGBoostについてのVCDの概算結果。
【0176】
全てのモデルは、RMSEおよび測定係数に関して同等の結果を達成した。
【0177】
ランダムフォレストを用いて測定された、いくつかの特定のデータセット(最良のモデル)を調べると、全培養期間にわたってVCDのペレグ適合を正確にマッピングすることが不可能であることが分かる(
図5参照)。図の上部のモデルは、VCDに対するデータの関係を、5日目から正しく示すことができない。図の下部は反対の挙動を示す。このモデルは、最初から高すぎるVCDを概算するため、VCDの十分に正確な記述を達成することができない。
【0178】
驚くべきことに、有意に少ない情報コンテンツを有するが依然として測定可能な情報コンテンツを有する特徴行列内の特徴の交換は、予測の質を有意に高め得ることが分かった。
【0179】
特徴「CO2.PV」、「FED3T.PV」、「OUR」、および「PH.PV」による行列の拡大、ならびに重複した特徴「O2.PV」の削除(N2およびO2によるガス処理)は、予測の質の改善につながることが分かっている。
【0180】
改善された特徴行列は、以下の14個の特徴を含む。「時間」、「ACO.PV」、「ACOT.PV」、「AO.PV」、「CHT.PV」、「CO2.PV」、「CO2T.PV」、「FED2T.PV」、「FED3T.PV」、「GEW.PV」、「PH.PV」、「N2.PV」、「LGE.PV」および「OUR.PV」。
【0181】
さらに、訓練データセットおよび試験データセットへの選択または分割は、予測の質に影響を及ぼすことが分かった。
【0182】
目標変数に関して既に選択された訓練データセットおよび試験データセットを比較すると、プロジェクト2の培養からなる訓練データセットのVCDの分布は、平均値μTrain=84.60を有し、σTrain=48.62の標準偏差を有し、一方、試験データセットは、平均値μTest=64.22を有し、σTest=38.02の標準偏差を有することが分かった。
【0183】
構造的に異なるタンパク質を発現する細胞について予測を行う場合、たった1つのプロジェクトから訓練データセットを取得することは不利であることがわかっている。既存のデータセット全体に訓練データセットをランダムに分布させることが有利であることが分かった。
【0184】
本実施例では、データセットをより均一に分布させるために、(153個のデータセットがあったので)0~152の間の30個の乱数を生成した。数字は、それぞれ1回の培養ランを表した。試験データセットと訓練データセットとの間の分割に関する同等の平均値および標準偏差が訓練されたモデルで達成され得るまで、乱数を繰り返し生成した。最終的な分割は、σTrain=47.11でのμTrain=80.72およびσTest=48.70でのμTest=80.11をもたらし、さらなるコースにおける2つのデータセットの分割比として使用した。
【0185】
したがって、本発明による方法の一実施形態では、既存の、好ましくは前処理されたデータセットは、訓練データセットと試験データセットとに分けられ、訓練データセットは全データセットの70~80%(この例では80%、したがって123回の培養ラン)であり、試験データセットは全データセットのデータの20~30%(この例では、上記のように検証されたデータセット全体の30のランダムに選択された培養がモデルの検証に利用可能であった)を含む。
【0186】
次いで、モデルを訓練し、拡張特徴行列およびデータセットの新しい分布で試験を行った。上記で概説したハイパーパラメータを最適化するための戦略は、このために保持されている。新たに分けられた訓練データセットおよび試験データセットを有するVCDの概算値の対応するヒストグラムから、3つ全てのモデルの誤差の分布が著しく狭くなっていることが分かり、これは目標パラメータのより正確な概算値に起因する可能性がある(
図6)。
【0187】
3つのモデルはいずれも、目標変数の真値(0におけるX軸)を中心としてより明確に変動する誤差分布を実現し得る。ここでも、XGBoostのヒストグラムは、最も均一な誤差分布を示す。ランダムフォレストのヒストグラムは、全領域にわたって小さな誤差を示す。2つのヒストグラム(a)および(c)を互いに比較する場合、XGBoostは、MLPRegressorよりも正確な目標値を概算することが多い。しかしながら、誤差の程度が低いMLPRegressorの分布の幅のために、両者のモデルについて精度がほぼ同じであると推論し得る。
【0188】
(表6)MLPRegressor、ランダムフォレスト、XGBoostのVCDの概算結果と、試験データおよび訓練データの新しい分布
【0189】
3つのモデルは全て、密接に関連する結果を達成し得る。
図7は、個々の培養を使用した最良のモデルの概算の例示である。
【0190】
したがって、生データのペレグ適合に基づく目標変数のほぼ理想的な概算値が達成される。試験データセット全体を見ると、全てのモデルは、上記のようにデータセットの分割比でR2およびRMSEに関して良好な結果を達成し得る。
【0191】
3次多項式フィットによってフィッティングされたグルコース値を、グルコース濃度の概算のための目標パラメータとして使用した。訓練に使用された特徴行列は、VCDと同じ特徴を含んでいた。訓練データセットおよび試験データセットへの同じ分割も使用した。
【0192】
VCDと同様に、ヒストグラムは誤差に関して同等の結果を示す。ここでも、XGBoostは、ほとんどの場合、実際の値と概算値との間に小さな誤差をもたらす可能性がある。ランダムフォレストヒストグラムはまた、目標変数の補間値と概算値との間にわずかな誤差を示し、これらはグルコースの実際の値の前後に均一に分布する。MLPRegressorは、他の2つのヒストグラムと比較して最大の誤差を示す。
【0193】
(表7)MLPRegressor、ランダムフォレストおよびXGBoostについてのグルコース値の概算結果。
【0194】
図9は、ランダムフォレストを用いて得られた2つの典型的な培養を示す。目的変数は、0.93の測定係数で適切に記載された。
【0195】
乳酸濃度の概算には、単変量スプライン法でフィッティングした乳酸の値を、目標パラメータとして使用した。訓練に使用された特徴行列は、VCDおよびグルコースと同じ特徴を含んでいた。訓練データセットおよび試験データセットへの同じ分割も使用した。ヒストグラムは、誤差に関して種々の結果を示す(
図11)。
【0196】
MLPRegressorのヒストグラムを考慮すると、他の2つのモデルほど頻繁に、小さい誤差で概算することは可能でない。他方、ランダムフォレストおよびXGBoostは、その分布が非常に狭い。目標変数のいくつかの概算値については、ほとんど誤差なく非常に良好な予測を行い得るように思われるが、これらは、試験データセット全体においてより大きな誤差を迅速にもたらす。ニューラルネットワークは、ここでは最も均一な誤差分布を有する。
【0197】
以下の表8は、全てのモデルについてRMSEおよびR
2の乳酸評価の結果を示す。
(表8)MLPRegressor、ランダムフォレストおよびXGBoostの乳酸値の概算結果。
【0198】
図12は、試験データセットからの例示的な培養についての乳酸に対するXGBoostの予測値を示す。フィッティングさせた乳酸の経過のほぼ理想的な説明は、上側部分画像に認め得る。下部では、コースはR2が0.98と表わされる。
【0199】
検証のために、最初に、どのモデルが試験データセット上の特徴の相互関係を最も効率的に表わし得るかを測定するための研究があった。この目的のために、モデルには、学習のための10個のデータセットのみが最初に提供された。プロセスが進行するにつれて、それぞれデータセットの数が10個ずつ増加した。これにより、モデルが10個~120個のデータセットを受け取る12個の訓練プロセスが得られた。各訓練セッションの後、試験データセットに基づいて目標変数を概算した。それぞれのRMSEを計算した。試験データセットはまた、上記のように、ランダムに検証された30個の選択されたデータセットから構成された。VCDを目標変数として選択した。これは、
図13に記載された学習反応をもたらした。
【0200】
図13に示すように、ランダムフォレストおよびXGBoostはいずれも、ニューラルネットワークよりも少数のデータセットで試験データセットの予測におけるよりも小さい誤差を達成し得る。しかしながら、この効果は、訓練データセットの数が増加するにつれて減少するようであり、その結果、他の2つのモデルと比較して同等の誤差を約80個のデータセット以降で達成し得る。最大120個のデータセットでは、ランダムフォレストが最も低いRMSEを達成する。しかしながら、全てのモデルの誤差は非常に狭い範囲である。
【0201】
試験データセットの30回の培養に対するVCDの予測に関するモデルの概算値の詳細な評価を行った。データセット全体にわたって良好な結果(ヒストグラム、測定係数、RMSE)を示したにもかかわらず、いくつかの予測は依然として有意に大きい偏差を示すことがわかった。
図14は、概算されたVCDの経過が実際の分布より明らかに上回っている培養ランを示す。
【0202】
プロジェクト1および3からの培養は、概算の精度が不十分であることがいっそう観察された。両プロジェクトからの培養では、培養細胞は複雑な分子フォーマットを生成した。
【0203】
天然のIgG抗体の特徴的なY字形を有するか、またはそれを大きく保持するIgGベースの形式のVCD(プロジェクト2および4)は、標的産物として複雑な分子形式を有する細胞(プロジェクト1および3)よりも平均して高く、計算された細胞直径は、複雑な分子形式を有するプロジェクトよりも高い値を有することがわかった。
【0204】
図15は、各サンプルについてのY字形IgG(IgG、プロジェクト2および4)および複合IgG(複合体、プロジェクト1および3)によってグループ化されたプロジェクトの細胞直径の平均、ならびにボックスプロット図の形態の標準偏差を示す。図は、緑色のボックスプロット(複合タンパク質フォーマット;各時点で左)が青色のボックスプロット(Y字形IgG抗体;各時点で右)の上にあることを示している。培養期間の開始時には、両分子フォーマットは依然として比較的接近している。標的産物として複雑な分子フォーマットを有する細胞は、培養時期が進むにつれて著しく大きくなるだけである。対照的に、標準抗体を有する細胞は7日目まで大きく成長するが、その後、細胞の直径はさらに増大しないことが分かる。
【0205】
IgGフォーマットについてのより高いVCDとより小さい細胞直径との間の関係、ならびに複雑なタンパク質フォーマットにおけるより小さいVCDおよびより大きい細胞は、VCDの正確な予測をさせないことがわかった。
【0206】
複合抗体フォーマットが産生される培養だけでなく、Y字型IgG抗体が産生される培養についても、生細胞体積(VCV)がVCDよりも適した目標変数であることがわかった。
【0207】
【0208】
したがって、VCVは、VCDよりも培養中の生きているバイオマスを説明するためのより良好な概算値である。
【0209】
VCVの計算値は、他の全てのオフラインパラメータと同様に、サンプリングの時間のみを含んでいたので、新しい目標パラメータを3次多項式フィッティングでフィッティングさせた。次いで、上記の他の目標パラメータについて既に説明したように、モデルを訓練し、新しい目標サイズについて評価した。
【0210】
RMSEおよび測定係数を使用して、個々のモデルを評価した。要約すると、14個の特徴を有する最良のモデルは、以下の結果を達成した。
【0211】
(表9)目標変数VCDに対する最良のモデルのRMSEおよび決定係数の比較
【0212】
目標変数VCVについて、個々のモデルの計算された誤差および測定係数を以下の表10に要約する。
【0213】
(表10)目標変数VCVに対する最良モデルのRMSEおよび決定係数の比較
【0214】
VCDの代わりに目標変数VCVを使用することにより、全てのモデルが0.9を超える測定係数を達成し得た。モデルの改善は、より低いRMSEおよびより高いR2値の両方で認められ得る。
【0215】
生細胞密度と細胞体積との比較において結果が改善されたことを実証するために、訓練セット全体の概算値と試験データセットの両方を表す散布図を得た。ランダムフォレストは、VCDおよびVCVについて最良の結果を概算する。二つの散布図を
図16に示す。
【0216】
2つの散布図を互いに比較すると、VCVの予測は理想的な概算に近く、VCDの予測よりも試験データセットおよび訓練データセットの広がりが著しく小さいことが分かる。訓練データ(青色ドット)のみを考慮する場合、モデルは、生細胞密度よりも細胞体積に対して、より適切に特徴の関係を学習する。したがって、これらの特徴は、全ての訓練されたモデルの試験データセット全体の細胞体積のより正確な概算を可能にする。
【0217】
抗体の異なる群への分割および方法の訓練に関する限られたデータセットのみの使用が質に影響する程度を以下のように調査した。
【0218】
4つ全てのプロジェクトを目標パラメータVCVの経過に関して別々に考慮する場合、
図17に示すボックスプロットが得られる。図から分かるように、プロジェクト4のVCVは、一方のプロジェクト1および3と他方のプロジェクト2との間で挙動する。これは、プロジェクト1、3、および4からのデータセットも複雑なIgG抗体フォーマットとして分類できることを意味する(分類2)。したがって、この分類で計算を繰り返した。訓練データセットと試験データセットとの様々な組み合わせも試験した。結果を表11、
図18および19に示す。
【0219】
(表11)訓練データセットと試験データセットとの種々の組み合わせに対するRMSE。
【0220】
種々の組み合わせにより、ランダムフォレスト法を使用した予測が最良の結果、すなわち最低RMSEを達成したことが示されている。
【0221】
RMSEは、VCVをVCDと比較して標目標パラメータとして使用した場合、訓練データセットまたは試験データセットの全ての組み合わせにおいて有意な改善(減少)を示した。
【0222】
訓練データセットおよび試験データセットの種々の組み合わせにより、分子フォーマットに応じたデータセットの選択が目標パラメータのRMSEに影響を及ぼすことが示された。標準フォーマットのデータセットを用いたモデル訓練および複雑なフォーマットのVCDまたはVCVの概算の場合、この組み合わせは最も高いRMSEを達成する。複雑な分子フォーマットのデータセットを使用する訓練、およびVCDまたはVCVの予測により、RMSEがより小さくなった。混合データセットを標準Y-IgGおよび複合分子フォーマットに使用した場合、最小のRMSEを達成し得た。
【0223】
さらに、モデルは、既に訓練されたモデルが過学習されているかどうかをチェックするために、訓練データセットおよび試験データセットの概算に関して評価した。目標変数VCVの訓練されたモデルは、試験データセットおよび訓練データセットについて概算された。RMSEに従って概算値を評価し、次いで、試験データセットと訓練データセットとの間の差を棒グラフの形で示した(
図20)。
【0224】
図20は、MLPRegressorが訓練データセットよりも試験データセットの方が低い誤差を達成することを示す。したがって、算出された差分は負となる。ランダムフォレストおよびXGBoostは、試験データセット上でより大きな誤差が発生し、これにより、ここに示されている差が正の値になる。したがって、決定木に基づく両モデルは、過学習となる傾向がある。
【0225】
従来技術
先行技術は、細胞内活性の動的挙動を説明するためにランダムフォレスト回帰分析のための入力変数としてグルコース、乳酸、アンモニア、VCDなどのパラメータ(これらは全てオフラインパラメータである)を使用するが、オフラインパラメータの予測またはモデリングには使用していない。
【0226】
従来技術とは対照的に、本発明では、機械学習モデルに使用されるパラメータは排他的オンラインパラメータ(発酵条件を制御するために使用される)である。
【0227】
したがって、本発明は、追加のセンサまたはサンプリングを必要とせずに、培養および統計モデルを通して生成されている典型的なオンライン測定パラメータを利用して、VCV、グルコースなどのパラメータを概算する。
【0228】
要約および概要
既存のオンラインおよびオフラインの培養データセットを補間することによって、標準化された均一なデータセットを得ることができ、これは、オフラインでのみ利用可能な目標パラメータを予測するためのモデル生成に使用された。
【0229】
さらなるコースの目標変数と考えられたオフラインデータについては、それぞれの目標パラメータのコースを代表的に記述することができる補間を見つけることが不可欠であった。生細胞密度は生体系の成長過程に関連するため、多項式フィッティングまたは単変量スプラインフィッティングなどの従来の補間は、この目標パラメータを不十分な精度でしか記述できないことが多い。外挿を誤ると、目標変数の記述が誤ったものとなる。選択された補間により、R2に関して同等の結果がもたらされたが、M.Peleg[27]による選択された補間は、細胞培養プロセスの成長プロセスを最もよく説明し得る。内挿戦略の背景は、細胞の成長の説明のための連続的なロジスティック方程式と、死の行動を説明するための鏡像化されたロジスティック方程式(フェルミ方程式)との組み合わせにある。
【0230】
相関分析の結果は、補間戦略の選択によってわずかしか影響を受けない。
【0231】
VCD目標変数の概算値の精度は、データセットを訓練データセットおよび試験データセットに適合させた分割比によって高め得る。この目的のために、平均値および標準偏差が互いに可能な限り小さくなるように、検証データセットを目標変数の分布に関して選択した。目標は、予測のためのより適切なデータセットを人工的に生成することではなかった。むしろ、以前に生成された試験データセットは、十分な精度でデータセット全体を記述するために使用することができないと仮定された。これにより、対応する方法として交差検証が参照される。
【0232】
細胞体積および細胞のサイズに対する関連する関係の計算は、VCDよりもバイオマスのより良い概算値を表し得、それ故、VCVが新たな目標パラメータとして得られた。
【0233】
バイオマスの記述の概算として計算された細胞体積は、サンプルの分析によって測定された培養物の以前に使用された生細胞密度よりも高いプロセス特性に関する情報量を提供した。細胞培養物の平均体積は、測定された細胞の平均直径から結論付け得る。細胞のサイズ、特に生成物として複雑な標的分子を有する細胞のサイズは、培養時間の増加と共に連続的に増加することが示され得る。しかしながら、生細胞密度はこの関係をマッピングし得ない。最終的に、培養細胞の代謝活性は、生細胞密度よりも生細胞体積によってより適切に説明し得る。
【0234】
目標パラメータをリアルタイムで測定するために、概算は所定の間隔、例えば10分で行うべきである。CHO細胞については、約24時間の倍加時間を有するので、この間隔は許容可能な分解能である。
【0235】
[本発明1001]
哺乳動物細胞を培養する間、グルコース濃度を目標値に調整するための方法であって、
(a)培養中に、少なくともプロセス変数「時間」、「CHT.PV」、「ACOT.PV」、「FED2T.PV」、「GEW.PV」、「CO2T.PV」、「ACO.PV」、「AO.PV」、「N2.PV」、「LGE.PV」、「CO2.PV」、「FED3T.PV」、「OUR」、および「PH.PV」の現在値を測定する工程、
(b)プロセス変数「時間」、「CHT.PV」、「ACOT.PV」、「FED2T.PV」、「GEW.PV」、「CO2T.PV」、「ACO.PV」、「AO.PV」、「N2.PV」、「LGE.PV」、「CO2.PV」、「FED3T.PV」、「OUR」、および「PH.PV」を含む特徴行列を使用して生成された、哺乳動物細胞培養のためのデータ駆動モデルによって、(a)の測定値を用いて培養培地中の現在のグルコース濃度を測定する工程、
および
(c)(b)の現在のグルコース濃度が目標値よりも低い場合、目標値に達するまでグルコースを添加し、それによってグルコース濃度を目標値に調整する工程
を含む、方法。
[本発明1002]
前記プロセス変数が、プロセス変数生細胞密度、生細胞体積、培養培地中のグルコース濃度、および培養培地中の乳酸濃度から選択されることを特徴とする、本発明1001の方法。
[本発明1003]
前記方法が、サンプリングせずに、この培養からのオンライン測定値のみを使用して実施されることを特徴とする、本発明1001または1002の方法。
[本発明1004]
前記データ駆動モデルが機械学習によって生成されていることを特徴とする、本発明1001~1003のいずれかの方法。
[本発明1005]
前記データ駆動モデルが、ランダムフォレスト法を用いて生成されていることを特徴とする、本発明1001~1004のいずれかの方法。
[本発明1006]
前記データ駆動モデルが、少なくとも10回の培養ランを含む訓練データセットを用いて生成されていることを特徴とする、本発明1001~1005のいずれかの方法。
[本発明1007]
(a)モデリングに利用可能なデータセットが、70:30~80:20の比で訓練データセットと試験データセットとにランダムに分割されること、
(b)モデルが生成されること、
(c)データセットのプロセス変数を測定するための平均値および標準偏差が前記訓練データセットから測定され、データセットのプロセスを測定するための平均値および標準偏差が前記試験データセットから測定されること、
(d)試験データセットと訓練データセットとの間の分割に関して同等の平均値および標準偏差が達成されるまで工程(a)~(c)がくり返され、(a)の下で得られた分割は新たなランの度に異なっていること
を特徴とする、本発明1001~1006のいずれかの方法。
[本発明1008]
前記データ駆動モデルを生成するために使用されるデータセットが、それぞれ同じ数のデータ点を含むことを特徴とする、本発明1001~1007のいずれかの方法。
[本発明1009]
前記データ駆動モデルを生成するために使用されるデータセット内のデータ点が、それぞれ同じ培養時間に対するものであることを特徴とする、本発明1001~1008のいずれかの方法。
[本発明1010]
データセット内の欠落データ点が補間によって補完されていることを特徴とする、本発明1001~1009のいずれかの方法。
[本発明1011]
グルコース濃度および/または生細胞体積の欠落データ点が、三次多項式フィッティングによって得られ、乳酸濃度の欠落データ点が、単変量スプラインフィッティングによって得られ、かつ/または生細胞密度の欠落データ点が、ペレグフィッティングによって得られ得ることを特徴とする、本発明1010の方法。
[本発明1012]
データセットが、少なくとも144分ごとのデータ点を含むことを特徴とする、本発明1001~1011のいずれかの方法。
[本発明1013]
前記哺乳動物細胞がCHO-K1細胞であることを特徴とする、本発明1001~1012のいずれかの方法。
[本発明1014]
前記哺乳動物細胞が抗体を発現および分泌することを特徴とする、本発明1001~1013のいずれかの方法。
[本発明1015]
前記データ駆動モデルが、複合IgG培養ランおよび標準IgG培養ランを含む訓練データセットを用いて生成されていることを特徴とする、本発明1001~1014のいずれかの方法。
[本発明1016]
培養体積が300mL以下であることを特徴とする、本発明1001~1015のいずれかの方法。
以下の実施例および図は、本発明を説明するためにのみ役立つ。保護の範囲は、係属中の特許請求の範囲によって定義される。しかしながら、開示された実施形態に対する修正は、本発明による原理から逸脱することなく行うことができる。
【図面の簡単な説明】
【0236】
【
図1】ACO.PVの例を使用した線形補間測定値補間は0.5日目から13.5日目までの範囲である。
【
図2】典型的な培養の生細胞密度の補間測定曲線。補間および測定係数:ペレグフィッティング(R2=0.957)、単変量スプライン(R2=0.998)、および三次ポリフィット(R2=0.864)。
【
図3】プロジェクト2から実行されたambr250のデータセットの例示的な相関分析。異なる補間戦略に対する相関係数の比較。この図は、VCDの個々のオンラインパラメータの散布図を示す。
【
図4】データセット全体についての目標変数VCDについての相互情報に従って計算された情報内容。
【
図5】2つの別々の実行に対するランダムフォレストVCDの概算。図の上部では、R2が0.20317の概算値を達成し得た。図の下部では、0.54896のR2の推定値を達成し得た。
【
図6】目標変数「VCD」についてのモデルMLPRegressor(a)、ランダムフォレスト(b)およびXGBoost(c)の新しく作成された試験データセットの予測のヒストグラム。予測値に対してフィッティングしたVCD値の誤差をX軸に示す。Y軸は、誤差の相対度数を示す。
【
図7】試験データセットの2つの例示的な実行に対するランダムフォレストのVCDの概算。図の上部では、0.98944のR2の概算値が達成された。図の下部では、0.99837のR2の概算値を達成し得た。
【
図8】目標変数グルコースについての相互情報に従ってデータセット全体について計算された情報内容。
【
図9】試験データセットの2つの例示的な実行に対するランダムフォレストからのグルコースの概算。図の上部では、0.99のR2の推定値を達成し得た。図の下部では、0.97のR2の概算値を達成し得た。
【
図10】目標変数乳酸についての相互情報に従ってデータセット全体について計算された情報内容。
【
図11】目標変数乳酸についてのMLPRegressor(a)、ランダムフォレスト(b)およびXGBoost(c)の試験データセットについての予測のヒストグラム。予測値に加算した乳酸値の誤差をX軸に示す。Y軸は、誤差の相対度数を示す。
【
図12】試験データセットの2つの例示的な実行に対するXGBoostによる乳酸の概算。図の上部では、0.99のR2の推定値を達成し得た。図の下部では、0.98のR2の概算値を達成し得た。
【
図13】異なる数の訓練データセットを用いたMLPRegressor、ランダムフォレストおよびXGBoostについて計算されたRMSE。
【
図14】単一培養についてのランダムフォレストVCDの概算。VCDのペレグフィッティングを青色で示し、VCDの推定値を橙色で示す。
【
図15】全培養期間にわたる各サンプリングの平均直径の表示。プロジェクト1および3は、生成物として複雑な分子フォーマット(ここでは青色で示され、左)を有する。プロジェクト2および4は、対象の生成物としてY字型のIg-Gフォーマット(ここでは緑色、右で示されている)を有する。箱ひげ図は平均を含む;単位を標準化して示した。
【
図16】図の左部分:VCDについてのランダムフォレストの概算。赤色では、真値に対する試験データセットの概算値である。青色では、真値に対する訓練データセットの概算値である。試験データセットおよび訓練データセットの理想的な概算値が黒色で示されている。図の右側部分:VCVについてのランダムフォレストの概算。赤色では、真値に対する試験データセットの概算値である。青色では、真値に対する訓練データセットの概算値である。試験データセットおよび訓練データセットの理想的な概算値が黒色で示されている。
【
図17】各プロジェクトの全培養期間にわたる各サンプルの平均直径の表示。プロジェクト1=紫色、プロジェクト2=赤色、プロジェクト3=緑色、プロジェクト4=青色。箱ひげ図は平均を含む。
【
図18】ランダムフォレストモデル(最良のモデル)を用いたVCD/VCVの比較。
【
図19】目標パラメータVCVに応じた訓練データセットを有する全てのモデル(MLPRegressor、ランダムフォレスト、XGBoost)を考慮したRMSEの挙動。
【
図20】目標変数VCVの最良のモデルである試験データセットおよび訓練データセットのRMSEの差の棒グラフ。
【0237】
【0238】
【0239】
【実施例】
【0240】
材料
ソフトウェア:
作業全体のために、プログラミング言語PythonはSpyder開発環境で使用された。実装はオブジェクト指向プログラミングで実行された。プロジェクト内の個々のタスクを実装するいくつかのクラスが記述された。
【0241】
方法
データ処理
全データセットは、155回の培養ランを含んでいた。これらをオンラインおよびオフラインデータに分けた。データ処理は、Pythonプログラミング言語のSpyderを用いて実施した。データはcsvファイルとして利用可能であった。データを「csv」プログラムライブラリで読み取った。これにより、データを迅速かつ容易に読み込み、開発環境内で新しいデータ構造に変換することが可能となる。オンラインデータ用の「PIFileParser」クラス、およびオフラインデータ用の「オフラインデータパーサ」クラスが実装されている。
【0242】
補間
データは種々のデータ密度で利用可能であったため、それに応じて補間する必要があった。この目的のために、線形補間および移動平均法を用いた補間を使用した。両機能は、「scipy」ライブラリ:「線形補間間隔1d」および「moving-average-convolve」で実装されている。これにより、補間された値が常に2つの生の測定値の間にあることが確実になった。したがって、補間は常にプロセス変数の測定信号の自然変動の範囲内にある。各プロセス変数はファイル内でタイムスタンプが異なるため、別のCSVファイルを作成する必要があった。「タイムラインマッピング」 は、それぞれの培養の全ての開始時間および終了時間を含み、別のデータベースクエリによって作成された。データの分解能のために3つの異なる区間を選択した:
・オフラインデータの関連するサンプリング時間のタイムスタンプ
・1/10日間
・5分
【0243】
データ密度がかなり低く、非線形データが経過しているため、オフラインデータに線形補間は適用されなかった。ここでは、フィッティングに3つの異なる補間戦略を使用した。
・ペレグフィッティング
・多項式フィッティング
・スプライン
【0244】
M.Pelegによる補間は、追加の関数項を介して生物学的増殖をマッピングし得、それ故増殖の経過を十分に説明し得る[27]。したがって、生細胞密度の生データを3つ全ての補間でフィッティングさせた。グルコースおよび乳酸については、ここでは生物学的挙動を仮定しなかったので、多項式およびスプライン法を使用して補間を行った。オンラインおよびオフラインデータセットを異なる間隔でマージし、各培養のCSVファイルとして保存した。次いで、これらのデータセットに基づいて相関分析を行った。
【0245】
相関分析
相関分析は、JMP(登録商標)を用いて行った。JMP(登録商標)を用いると、統計分析をデータセットに適用することが可能である。それぞれの目標変数(乳酸、グルコース、VCD、VCV)に関するオンラインデータ(特徴)の多変量統計を適用した。データは、目標変数の記述における統計的有意性および線形関係の両方について分析される。相関分析は、Bravais-Pearsonによる相関係数の形で、独立変数と従属変数との間の線形関係を示す。
【0246】
相互情報
適切な特徴を識別する別の方法は、相互情報の形態で使用されている。相互情報による測定では、目標変数Yを記述するために独立変数Xに含まれる情報内容が測定される。依存性を計算し、「相互情報回帰」によって「sklearn」を用いて実施した。5分の分解能を有するデータセットのサイズに基づいて、各培養について別々に情報内容を計算し、次いで全ての培養にわたって得られた値の平均を生成した。
【0247】
特徴行列の作成/得られたベクトル
特徴行列の作成は、情報内容に基づく相関分析および統計的評価の結果に基づいて行われた。これは行列として表し得、列ごとに1つの特徴と、特徴のそれぞれのバージョンとの1つの時点を含む。特徴行列は、パンダデータフレーム(Panda DataFrame)として保存された。したがって、モデルの訓練および試験のために適切なファイルフォーマットが利用可能であった。
【0248】
モデル化および評価
相関分析の結果の助けを借りて、各目標変数に対して別個のデータセットを作成した。モデルを訓練するために、特徴行列を訓練データセットおよび試験データセットに分けることが必要であった。オンライン予測のための後の使用には、完全な検証プロジェクトの保留が必要であった。訓練データセットは、全データセットの80%、したがって123回の培養ランを含んでいた。
【0249】
全ての目標変数は一定の目標パラメータであるため、回帰器のみをモデルとして使用した。モデルごとに異なるいくつかのハイパーパラメータがモデルに利用可能であった。したがって、モデルの訓練は、目標変数を可能な限り正確にマッピングするようにハイパーパラメータを適合させるのに役立った。
【0250】
訓練自体については、特徴行列全体を、Scikit-Learningライブラリの標準スケーラで標準化した。
【0251】
ハイパーパラメータの最適化
ハイパーパラメータは、ランダム化検索(RandomizedSearchCV)およびグリッドベース検索(GridSearchCV)を用いてScikit-Learnライブラリから最適化された。全てのモデルは、訓練データセットの10倍交差検証と組み合わせてScikit-Learningライブラリのランダム化検索を使用して訓練された。ハイパーパラメータの様々な領域を最小RMSEについて調べた。ランダム化探索を30回行った。したがって、種々のランダムに選択されたハイパーパラメータのセットを各反復で使用した。最小RMSEを有する10個のモデルのハイパーパラメータを出力した。次いで、ランダム化検索からのハイパーパラメータに基づいて、グリッド検索のハイパーパラメータをより細かく等級付けした。グリッド検索を、データセットの10倍の交差検証を用いて再度実行した。誤差が最小(最小RMSE)のモデルを保存し、次いで、試験データセットから目標変数を推定するために使用した。
【0252】
多層パーセプトロン
Scikit-Learningライブラリを使用して、多層パーセプトロン(MLP)を実装した。以下のリストは、モデルを訓練するために使用されたハイパーパラメータを含む。
・入力層のニューロン数
・隠れ層のニューロン数
・重みを設定するためのソルバーアルゴリズム(adam,lbfgs,sgd)
・活性化関数(identity,logistic、tanh、relu)
・学習率
・最大反復回数
【0253】
ランダムフォレスト
ランダムフォレストもScikit-Learnライブラリによって実施された。以下の候補がこの最適化内のハイパーパラメータとして利用可能であった。
・決定木の数
・決定木あたりの特徴の数
・決定木の最大深度
・新しいノードを作成するためのデータセットの最小数
・データセットを選択するための方法(ブートストラップ=真/偽)
【0254】
XGBoost
XGBoostアルゴリズムは、XGBoostライブラリを介してプロジェクト構造に統合された。以下のハイパーパラメータ空間に相当する:
・アンサンブル内の回帰木の数
・決定木の最大深度
・学習率η
・決定木あたりのデータセットの数
・決定木における子ノードの最小重み
・γ誤差評価
使用されるハイパーパラメータとして。
【0255】
モデル評価
モデル評価は、主に誤差ヒストグラムを表示することによって実施した。これは、目標パラメータの実際の値に対する試験データセットを予測するときにモデルが有する誤差(残差)を示す。
【0256】
RMSEを目標パラメータの推定精度について計算し、目標パラメータの平均値と比較した。
【0257】
オーバーフィッティングについてモデルを調べるために、訓練データセットおよび試験データセット全体についてRMSEを計算した。2つの誤差の差を、モデルの過学習の指標として使用した。
過学習=RMSE試験-RMSE訓練
【0258】
試験データセット全体および個々に考慮される各培養の測定係数を使用し、モデルの質をさらに説明した。
【0259】
実施例1
Ambr250-培養
ambr250システム内での培養に基づく155個のデータセットを収集した。使用した真核細胞は、細胞外に標的分子を発現するCHO細胞であった。培養は流加法を用いて行った。使用されるambrシステムは、12回の培養を同時に行うことを可能にする。本培養の培養時間は13~14日間であった。単回使用バイオリアクター(250mL)は、このための反応空間を提供した。前培養を振盪フラスコ中で行い、これを3週間続けた。接種時の細胞の体積および数に関する出発条件は、各反応器で同等であった。使用した培地は、既知組成の培地のみであった1回の培養につき1つの培地バッチのみを使用した
【0260】
このシステム内で最適な培養条件を提供するために、いくつかのプロセス変数が利用可能であった。制御するパラメータは、pH、温度および培地中の溶存酸素濃度であった。以下の表は、この作業に使用される全てのプロセス変数の完全なリストを含む。
【0261】
【0262】
測定された全ての変数は、いわゆるPIシステムによって全培養期間にわたって記録された。PIシステムはオンラインで測定された変数のみを含む。
【0263】
ここに列挙したパラメータは、最適な培養条件を監視するために利用可能であった。各リアクターについて、BlueSensからの排出ガス分析も利用可能であった。これは、バイオリアクターからの排出ガス流中のO2およびCO2含有量を検出し、それによってプロセス制御における別の重要な構成要素を提供する。排出ガス流のこれら2つの測定変数を使用して、OURおよびOTRを測定し得る。
【0264】
サンプルは、培養の間、毎日採取した。次いで、Cedex Bio HAT(登録商標)(Roche Diagnostics GmbH,Mannheim,Germany)を使用して、様々な濃度の代謝産物および製品力価についてこれらを分析した。
【0265】
更に、細胞数測定を行った。この測定は、生細胞密度、総細胞密度、生存率、凝集率および細胞直径に関する情報を提供する。これらのパラメータを使用して、培養物の増殖挙動を推測し得る。オフラインサイズは、Cedex HiRes(登録商標)(oche Diagnostics GmbH,Mannheim,Germany)セルカウンタで測定した。これらの細胞計数および細胞分析システムからの誤差は10%の範囲である。使用される全てのオフライン測定量を以下の表に示す。
【0266】