IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ シェンチェン タイリ バイオテクノロジー カンパニー リミテッドの特許一覧

<>
  • 特表-基礎培地の開発方法及びシステム 図1
  • 特表-基礎培地の開発方法及びシステム 図2
  • 特表-基礎培地の開発方法及びシステム 図3
  • 特表-基礎培地の開発方法及びシステム 図4
  • 特表-基礎培地の開発方法及びシステム 図5
  • 特表-基礎培地の開発方法及びシステム 図6
  • 特表-基礎培地の開発方法及びシステム 図7
  • 特表-基礎培地の開発方法及びシステム 図8
  • 特表-基礎培地の開発方法及びシステム 図9
  • 特表-基礎培地の開発方法及びシステム 図10
  • 特表-基礎培地の開発方法及びシステム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-10-19
(54)【発明の名称】基礎培地の開発方法及びシステム
(51)【国際特許分類】
   C12N 1/00 20060101AFI20231012BHJP
   C12M 1/00 20060101ALI20231012BHJP
   C12N 5/00 20060101ALI20231012BHJP
【FI】
C12N1/00 F
C12M1/00 C
C12N5/00
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023543259
(86)(22)【出願日】2021-11-17
(85)【翻訳文提出日】2023-05-16
(86)【国際出願番号】 CN2021131105
(87)【国際公開番号】W WO2022063341
(87)【国際公開日】2022-03-31
(31)【優先権主張番号】202011343180.5
(32)【優先日】2020-11-26
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.PYTHON
(71)【出願人】
【識別番号】523111533
【氏名又は名称】シェンチェン タイリ バイオテクノロジー カンパニー リミテッド
(74)【代理人】
【識別番号】110001210
【氏名又は名称】弁理士法人YKI国際特許事務所
(72)【発明者】
【氏名】チェン リアン
(72)【発明者】
【氏名】カシム マンチミン
(72)【発明者】
【氏名】チョウ シャンタオ
(72)【発明者】
【氏名】ラン ワンジュン
(72)【発明者】
【氏名】レオン キングスリー
(72)【発明者】
【氏名】リアン チュフェン
【テーマコード(参考)】
4B029
4B065
【Fターム(参考)】
4B029AA01
4B029BB01
4B029DF00
4B065BB01
4B065BB40
(57)【要約】
本出願は、基礎培地の開発方法、基礎培地組成の開発方法及びシステムを開示する。前記基礎培地の開発方法は、選定された培養指標に対し、当該培養指標に対する基礎培地を予測するための回帰予測モデルを決定するステップ(1)と、基礎培地の各成分の添加範囲を取得し、枚挙してランダムに選択するにより複数の候補基礎培地組成を生成するステップ(2)と、回帰予測モデルを採用して前記培養指標を予測し、基礎培地組成を推薦するステップ(3)と、細胞培養実験を行い、前記推薦基礎培地組成の培養指標を検証するステップ(4)と、を含む。
【特許請求の範囲】
【請求項1】
基礎培地の開発方法であって、
選定された培養指標に対し、実験で検証された基礎培地組成データベースによって回帰モデルの選択及びオプティマイズを行い、当該培養指標に対する基礎培地を予測するための回帰予測モデルを決定するステップと、
基礎培地の各成分の添加範囲を取得し、各成分の添加量を枚挙してランダムに選択するにより複数の候補基礎培地組成を生成するステップと、
得られた候補基礎培地組成に対し、前記回帰予測モデルを採用して前記培養指標を予測するとともに、予測結果に基づいて前記候補基礎培地組成から1つ以上の組成を推薦基礎培地組成としてスクリーニングするステップと、
得られた推薦基礎培地組成を採用して細胞培養実験を行い、前記推薦基礎培地組成の培養指標を検証し、且つ検証された培養指標に基づいて、最適基礎培地組成を決定するステップと、を含む基礎培地の開発方法。
【請求項2】
当該培養指標に対する基礎培地を予測するための回帰予測モデルを決定する前記ステップは、
基礎培地の各成分の添加範囲内で捜索してトレーニング組成を形成するステップと、
細胞培養実験を行い、前記トレーニング組成の培養指標データを取得するステップと、
前記トレーニング組成における各成分の添加量又はその正規化値を入力行列とし、前記培養指標データを出力行列としてトレーニングサンプルデータ群を構築するステップと、
複数の候補回帰予測モデルに対し、同じ条件下で前記トレーニングサンプルデータ群を利用してトレーニング及びテストを行い、トレーニング及びテストが行われた複数の候補回帰予測モデルのうちの1つを当該培養指標に対する基礎培地を予測する回帰予測モデルとして選択するステップと、を含む請求項1に記載の基礎培地の開発方法。
【請求項3】
前記培養指標は、細胞生存率、細胞密度、タンパク質発現量、グルコース、乳酸、アンモニアを含む請求項2に記載の基礎培地の開発方法。
【請求項4】
前記トレーニング組成における各成分の添加量又はその正規化値を入力行列とし、前記培養指標データを出力行列としてトレーニングサンプルデータ群を構築する前記ステップは、
入力データ(x,x,・・・,x)及び出力データ(y,y,...,y)を1組の実験データとして構成し、ここで、xは基礎培地組成のi番目の成分であり、モデルトレーニング、検証及びテストの時に特徴とし、yは細胞生存率を表し、yは細胞密度を表し、yはタンパク質発現量を表し、...、yはm番目の出力指標を表し、回帰モデルの入力行列はX行列であり、ここで、xijはi番目の組成のj番目の成分を表し、出力行列はY行列であり、ここで、yijはi番目の組成のj番目の出力値を表すステップを含む請求項2に記載の基礎培地の開発方法。
【数1】
【請求項5】
前記トレーニング組成における各成分の添加量又はその正規化値を入力行列とし、前記培養指標データを出力行列としてトレーニングサンプルデータ群を構築する前記ステップは、
回帰モデルの特徴選択により、前記トレーニング組成における成分をオプティマイズするステップを含む請求項2に記載の基礎培地の開発方法。
【請求項6】
前記複数の候補回帰予測モデルは、サポートベクトル回帰モデル、弾性ネットワークモデル、Xgboostモデル、Gradient Boosting Regressionモデル、Logostic Regressionモデル、多層ニューラルネットワークによる回帰モデル、畳み込みニューラルネットワークによる回帰モデル、及び循環ニューラルネットワークによる回帰モデルを含む請求項2に記載の基礎培地の開発方法。
【請求項7】
基礎培地の各成分の添加範囲を取得し、各成分の添加量を枚挙してランダムに選択するにより複数の候補基礎培地組成を生成する前記ステップは、
前記基礎培地の各成分に対し、それぞれに取り得る値の範囲内で同じ数の点値を取得し、成分ごとの取り得る値数列を形成するステップと、
全ての成分取り得る値数列をソートして並び替えられた成分取り得る値数列を得るステップと、
前記並び替えられた成分取り得る値数列を行又は列として成分取り得る値数列を構築し、成分取り得る値数列の列又は行を各成分の取り得る値とし、候補基礎培地組成を得るステップと、を含む請求項1に記載の基礎培地の開発方法。
【請求項8】
前記候補基礎培地組成の数は1000~1000000である請求項7に記載の基礎培地の開発方法。
【請求項9】
基礎培地の開発システムであって、
選定された培養指標に対し、実験で検証された基礎培地組成データベースによって回帰モデルの選択及びオプティマイズを行い、当該培養指標に対する基礎培地を予測するための回帰予測モデルを決定するための回帰モデル選択モジュールと、
基礎培地の各成分の添加範囲を取得し、各成分の添加量を枚挙してランダムに選択するにより複数の候補基礎培地組成を生成するための候補基礎培地組成生成モジュールと、
得られた候補基礎培地組成に対し、前記回帰予測モデルを採用して前記培養指標を予測するとともに、予測結果に基づいて前記候補基礎培地組成から1つ以上の組成を推薦基礎培地組成としてスクリーニングするための基礎培地組成推薦モジュールと、
得られた推薦基礎培地組成を採用して細胞培養実験を行い、前記推薦基礎培地組成の培養指標を検証し、且つ検証された培養指標に基づいて、最適基礎培地組成を決定するための最適基礎培地組成決定モジュールと、を含む基礎培地の開発システム。
【請求項10】
前記候補基礎培地組成生成モジュールは、
前記基礎培地の各成分に対し、それぞれに取り得る値の範囲内で同じ数の点値を取得し、成分ごとの取り得る値数列を形成するための枚挙サブモジュールと、
全ての成分の取り得る値数列をソートして並び替えられた成分取り得る値数列を得るための並び替えサブモジュールと、
前記並び替えられた成分取り得る値数列を行又は列として成分取り得る値数列を構築し、成分取り得る値数列の列又は行を各成分の取り得る値とし、候補基礎培地組成を得るための組合せサブモジュールと、を含む請求項9に記載の基礎培地の開発システム。
【請求項11】
基礎培地組成の開発方法であって、
候補基礎培地組成成分を取得し、成分ごとに対しその添加割合の捜索空間を決定し、且つ各成分の捜索空間内で捜索して基礎培地サンプル組成を形成し、前記基礎培地サンプル組成を収集してサンプル組成データベースを構築するステップと、
前記サンプル組成データベースに格納された基礎培地サンプル組成に対し、開発目的に応じて実験検証を行って各基礎培地サンプル組成ごとの培養効果を取得し、培養効果が関連付けられた基礎培地サンプル組成データをサンプル組成培養データベースとして収集するステップと、
前記サンプル組成培養データベースを採用して、開発目標に対し機械学習モデルをトレーニングし、基礎培地組成培養効果予測モデルを得るステップと、
オプティマイズ対象の基礎培地組成における成分ごとの添加割合の捜索空間内で前記基礎培地組成培養効果予測モデルを採用して開発目標に対し培養効果回帰予測を行い、且つ予測された培養効果に基づいて基礎培地組成を推薦するステップと、を含む基礎培地組成の開発方法。
【請求項12】
各成分の捜索空間内で捜索してトレーニング基礎培地サンプル組成を形成する前記ステップは、ランダム生成組成、DOE実験設計組成、混合形成組成及び履歴AI推薦組成を含む請求項11に記載の基礎培地組成の開発方法。
【請求項13】
前記ランダム生成組成は、基礎培地組成における成分ごとに対し、その捜索空間内でランダムに値を取り、基礎培地サンプル組成を形成することを含み、
前記DOE実験設計組成は、
基礎培地における各成分の最低添加割合に対しクラスタリングを行い、複数の添加レベルを取得することと、
基礎培地における各成分に対し機能に応じてアミノ酸、微量金属イオン、ビタミン、脂質及び緩衝剤を含む機能カテゴリに分けることと、
前記複数の添加レベル及び機能カテゴリを組み合わせてDOE実験因子を形成し、ボール充填法、ラテン超方格法、均質法及び最低潜在能力法を含む空間充填DOE実験設計を採用して基礎サンプル組成を形成することと、を含み、
前記混合形成組成は既存の基礎培地サンプル組成をスクリーニングし及び組み合わせ、更新された基礎培地サンプル組成を取得し、そのうち、既存の基礎培地サンプル組成の培養効果を検証し、細胞生存率が比較的高く、細胞密度が比較的高いか又はタンパク質発現が比較的高い組成を選択して2つずつ混合又は3種類以上の組成を採用してランダム又は予め設定された割合で混合して新しい組成を調合することを含み、
前記履歴AI推薦組成は人工知能法に基づいて推薦して基礎培地組成を得ることを含む請求項12に記載の基礎培地組成の開発方法。
【請求項14】
前記サンプル組成データベースにおけるランダム生成組成とDOE実験設計組成との数の比は1~4:10である請求項12に記載の基礎培地組成の開発方法。
【請求項15】
前記サンプル組成データベースのサンプル総数は1000個であり、そのうち、ランダム生成組成100~200個、DOE実験設計組成50~200個、及び履歴AI推薦組成を含み、残りは混合培地である請求項12に記載の基礎培地組成の開発方法。
【請求項16】
前記添加割合は成分の添加値と添加最大値との比率であり、その捜索空間は最低添加割合から100%までであり、前記最低添加割合は当該成分の添加最小値と最大値との比率である請求項11に記載の基礎培地組成の開発方法。
【請求項17】
開発目的に応じて実験検証を行って各基礎培地サンプル組成の培養効果を得る前記ステップは、
当該基礎培地サンプル組成を採用して標的細胞を培養し、培養過程は細胞状態を時刻に従えサンプリングして検出し、前記細胞状態は細胞生存率、細胞密度、及び/又は生化学的指標を含み、前記生化学的指標は、タンパク質発現量、グルコース、乳酸、アンモニア、及び/又はグルタミン含有量であるステップと、細胞生存率に対しフィッティングして当該基礎培地サンプル組成の培養時間に関する細胞生存率曲線を取得し、細胞密度に対しフィッティング当該基礎培地サンプル組成の培養時間に関する細胞成長曲線を取得し、前記基礎培地サンプル組成の培養効果は当該基礎培地の培養時間に関する細胞成長曲線、細胞生存率曲線、特定時点の細胞密度、細胞生存率、及び生化学的指標のうちの1つ以上又は複数の組合せであること、を含む請求項11に記載の基礎培地組成の開発方法。
【請求項18】
前記機械学習モデルは、サポートベクトルマシン回帰モデル、K最近傍モデル、XGBoost、リッジ回帰、LightGBM、ランダムフォレスト、GBDT、及び深層学習モデルを含み、前記深層学習モデルは、完全接続ニューラルネットワーク、畳み込みニューラルネットワーク、及び循環ニューラルネットワークを含む請求項11に記載の基礎培地組成の開発方法。
【請求項19】
全体オプティマイズアルゴリズム又はヒューリスティックアルゴリズムを採用して捜索空間内で基礎培地組成を捜索して培養効果回帰予測を行い、前記ヒューリスティックアルゴリズムは、遺伝的アルゴリズム、欲張りアルゴリズム、アニーリングアルゴリズム、蟻群アルゴリズム、粒子群アルゴリズム、人工ハチコロニーアルゴリズム、人工魚群アルゴリズム、シャッフルフロッグ跳躍アルゴリズム、花火アルゴリズム、細菌採餌オプティマイズアルゴリズム、及びホタルアルゴリズムを含み、前記全体オプティマイズアルゴリズムは、ニュートン法、擬ニュートン法、共役勾配法、及び深層学習の勾配降下法を含み、前記勾配降下法はSGD、Momentum、Adagrad、RMSprop、Adam、Nadamである請求項11に記載の基礎培地組成の開発方法。
【請求項20】
基礎培地組成の開発システムであって、
候補基礎培地組成成分を取得し、成分ごとに対しその添加割合の捜索空間を決定し、且つ各成分の捜索空間内で捜索して基礎培地サンプル組成を形成し、前記基礎培地サンプル組成を収集してサンプル組成データベースを構築するためのサンプル組成生成モジュールと、
前記サンプル組成データベースに格納された基礎培地サンプル組成に対し、開発目的に応じて実験検証を行って各基礎培地サンプル組成の培養効果を取得し、培養効果が関連付けられた基礎培地サンプル組成データをサンプル組成培養データベースとして収集するためのサンプル組成培養生成モジュールと、
前記サンプル組成培養データベースを採用して、開発目標に対し機械学習モデルをトレーニングし、基礎培地組成培養効果予測モデルを得るための回帰モデルトレーニングモジュールと、
オプティマイズ対象の基礎培地組成における成分ごとの添加割合の捜索空間内で前記基礎培地組成培養効果予測モデルを採用して開発目標に対し培養効果回帰予測を行い、且つ予測された培養効果に基づいて基礎培地組成を推薦するための組成推薦モジュールと、を含む基礎培地組成の開発システム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2020年11月26日に中国国家知識産権局に提出された、出願番号が2020113431805であり、出願の名称が「培養指標評価に基づく基礎培地の開発方法」である中国特許出願、及び2020年9月27日に中国国家知識産権局に提出された、出願番号が2020110330817であり、出願の名称が「人工知能に基づく基礎培地組成の開発方法及びシステム」である中国特許出願に基づき優先権を主張し、その内容の全てが参照によって本出願に組み込まれる。
【0002】
本出願は、バイオテクノロジー分野に属し、より具体的には、基礎培地の開発方法、基礎培地組成の開発方法及びシステムに関する。
【背景技術】
【0003】
無血清、動物由来成分フリー、化学成分で限定した基礎培地は、炭素源、アミノ酸、ビタミン、微量金属イオン、脂質、緩衝剤及び他の添加剤からなり、従来の基礎培地組成の開発方法は、1つ又はいくつかの典型的な培地(例えばDEME/F12)を基礎とし、複数種類の異なる成分を添加することによって、1因子試験又はDOEスクリーニング試験を採用して決定的な成分を見つけ出し、そして応答曲面などの複数種類のDOE実験設計を用いて、最適な組成を得るために各成分の濃度を最適化し、又は細胞代謝分析、ゲノミクス分析及びプロテオミクス分析に基づいて、細胞成長する際に各成分の変化状況及び目的生成物及び品質に対する影響を見つけ出すことによって組成を最適化する。
【0004】
従来技術は、複数回の試験を行う必要があり、毎回の試験に全ての成分を含むことができなく、時間がかかり、基礎化学、生化学・分子生物学、細胞生物学などの多くの専門的な理論知識を把握する必要があり、得られた組成が最適ではない可能性がある。
【0005】
従来の培地組成の開発方法は、1つ又はいくつかの典型的な培地(例えばDEME/F12)を基礎とし、複数種類の異なる成分を添加することによって、1因子試験又はDOEスクリーニング試験を採用して決定的な成分を見つけ出し、そして応答曲面などの複数種類のDOE実験設計を用いて、最適な組成を得るために各成分の濃度を最適化し、又は細胞代謝分析、ゲノミクス分析及びプロテオミクス分析に基づいて、細胞成長する際に各成分の変化状況及び目的生成物及び品質に対する影響を見つけ出すことによって組成を最適化する。
【発明の概要】
【発明が解決しようとする課題】
【0006】
従来技術の上記の欠陥又は改良の需要に対して、本出願は、基礎培地の開発方法、基礎培地組成の開発方法及びシステムを提供する。
【課題を解決するための手段】
【0007】
本出願の一態様は、培養指標評価に基づく基礎培地の開発方法を提供し、下記のステップを含む。
選定された培養指標に対し、実験で検証された基礎培地組成データベースによって回帰モデルの選択及びオプティマイズを行い、当該培養指標に対する基礎培地を予測するための回帰予測モデルを決定するステップ(1)と、
基礎培地の各成分の添加範囲を取得し、各成分の添加量を枚挙してランダムに選択するにより複数の候補基礎培地組成を生成するステップ(2)と、
ステップ(2)で得られた候補基礎培地組成に対しステップ(1)で得られた回帰予測モデルを採用して前記培養指標を予測するとともに、予測結果に基づいて前記候補基礎培地組成から1つ以上の組成を推薦基礎培地組成としてスクリーニングするステップ(3)と、及び
ステップ(3)で得られた推薦基礎培地組成を採用して細胞培養実験を行い、前記推薦基礎培地組成の培養指標を検証し、且つこれに基づいて最適基礎培地組成を確認するステップ(4)。
【0008】
好ましくは、前記培養指標評価に基づく基礎培地の開発方法は、そのステップ(1)の当該培養指標に対する基礎培地を予測するための前記回帰予測モデルが以下の方法に従って決定され、
(1-1)トレーニング組成の収集:
各成分の添加範囲内で捜索してトレーニング組成を形成する前記ステップは、ランダム生成組成、DOE実験設計組成、混合形成組成の3つの方法を含むが、これらに限定されず、
(1-2)培養指標データの取得:
細胞培養実験を行い、ステップ(1-1)で得られたトレーニング組成の培養指標データを取得し、
(1-3)トレーニングサンプルデータ群の編成:
ステップ(1-1)で得られたトレーニング組成の各成分の添加量又はその正規化値を入力行列とし、ステップ(1-2)で得られた培養指標データを出力行列としてトレーニングサンプルデータ群を編成し、
(1-4)複数の候補回帰予測モデルに対し、同じ条件下で、ステップ(1-3)で得られたトレーニングサンプルデータ群を利用してトレーニング及びテストを行い、当該培養指標に対する基礎培地を予測する回帰予測モデルとして優れたものを選択する。
【0009】
本出願は、人工知能に基づく基礎培地組成の開発方法及びシステムを提供し、その目的は、機械学習アルゴリズムを複雑な組成オプティマイズ過程に適用し、品質が良好且つ数量が十分なサンプル組成データベースを構築し、適切な機械学習アルゴリズム及びオプティマイズアルゴリズムを選択し、短時間内に良好な培養効果を備える最も可能性がある基礎培地組成を推薦し、組成の開発ハードルを下げることにより、既存の基礎培地成分が複雑であることによる開発速度が遅く、開発コストが高いという技術的問題を解決することである。
【0010】
本出願の一態様は、人工知能に基づく基礎培地組成の開発方法をさらに提供し、
(1)サンプル組成データベースの構築:候補基礎培地組成成分を取得し、その成分ごとに対しその添加割合の捜索空間を確定し、且つ成分ごとの捜索空間内で捜索して基礎培地サンプル組成を形成し、前記基礎培地サンプル組成を収集してサンプル組成データベースを構築するステップと、
(2)サンプル組成培養データベースの取得:ステップ(1)で得られたサンプル組成データベースに格納された基礎培地サンプル組成に対して、開発目的に応じて実験検証を行って各基礎培地サンプル組成の培養効果を取得し、培養効果が関連付けられた基礎培地サンプル組成データをサンプル組成培養データベースとして収集するステップと、
(3)ステップ(2)で得られたサンプル組成培養データベースを採用して、開発目標に対し機械学習モデルをトレーニングし、基礎培地組成培養効果予測モデルを得るステップと、
(4)オプティマイズ対象の基礎培地組成における成分ごとの添加割合の捜索空間内で、ステップ(3)で得られた基礎培地組成培養効果予測モデルを採用して開発目標に対して培養効果回帰予測を行い、且つ予測された培養効果に基づいて推薦基礎培地組成から優れたものを選択するステップと、を含む。
【0011】
本出願の別の態様は、人工知能に基づく基礎培地組成の開発システムをさらに提供し、
オプティマイズ対象の基礎培地組成における成分ごとの添加割合の捜索空間内で捜索して基礎培地サンプル組成を形成し、且つサンプル組成データベースを構築するためのサンプル組成生成モジュールと、
前記サンプル組成データベースにおける各基礎培地サンプル組成及びそれに関連付けられた培養効果データが格納されたサンプル組成培養データベースと、
回帰モデルを選択して前記サンプル組成培養データベースに格納された基礎培地サンプル組成及びそれに関連付けられた培養効果データを採用して回帰モデルトレーニングを行い、基礎培地組成培養効果予測モデルを取得して保存するための回帰モデルトレーニングモジュールと、
前記回帰モデルトレーニングモジュールに格納された基礎培地組成培養効果予測モデルを捜索空間内の基礎培地組成培養効果予測に適用し、且つ推薦基礎培地組成から優れたものを選択するための組成推薦モジュールと、を含む。
【0012】
上記によれば分かるように、本出願を通じて構想された以上の技術案は従来技術と比較して、以下の有益な効果を取得することができる。
【図面の簡単な説明】
【0013】
図1】本出願にて提供される培養指標評価に基づく基礎培地の開発方法のフローを示す模式図である。
図2】本出願の実施例にて提供される培養指標評価に基づく基礎培地の開発方法のフローチャートである。
図3】本出願の実施例で得られた最適な3つの基礎培地組成のバッチ培養の細胞密度プロットである。
図4】本出願にて提供される人工知能に基づく基礎培地組成の開発方法のフローチャートである。
図5】15分割交差検証における各種機械学習モデルのサンプル組成データベースに対する7日以内の最大細胞密度予測精度評価である。
図6】15分割交差検証における各種機械学習モデルのサンプル組成データベースに対する5日目の細胞密度予測精度評価である。
図7】本出願の実施例の基礎培地組成の開発方法のフローチャートである。
図8】本出願の実施例の7日以内の最大細胞密度に対して推薦する基礎培地組成の培養結果の予測値と実際値とのデータ比較を示す図である。
図9】本出願の実施例の7日以内の最大細胞密度に対して推薦する基礎培地組成の細胞成長曲線である。
図10】本出願の実施例の5日目の細胞密度に対して推薦する基礎培地組成の培養結果の予測値と実際値とのデータ比較を示す図である。
図11】本出願の実施例の5日目の細胞密度に対して推薦する基礎培地組成の細胞成長曲線である。
【発明を実施するための形態】
【0014】
本出願の目的、技術案及び利点をより明確にするために、以下に実施例を参照して、本出願をより詳細に説明する。本明細書に記載された具体的な実施例は、単に本出願を解釈するために用いられ、本出願を限定するものではないことを理解されたい。また、以下に説明する本出願の各実施形態に係る技術的特徴は、相互に矛盾を生じさせない限り、相互に組み合わせることができる。
【0015】
本出願にて提供される培養指標評価に基づく基礎培地の開発方法は、図1に示すように、ステップ(1)~ステップ(4)を含む。
【0016】
(1)選定された培養指標に対し、実験で検証された基礎培地組成データベースによって回帰モデルの選択及びオプティマイズを行い、当該培養指標に対する基礎培地を予測するための回帰予測モデルを決定する。
【0017】
当該培養指標に対する基礎培地を予測するための前記回帰予測モデルは以下の方法に従って決定される。
【0018】
(1-1)トレーニング組成の収集:
各成分の添加範囲内で捜索してトレーニング組成を形成する前記ステップは、ランダム生成組成、DOE実験設計組成、混合形成組成の3つの方法を含むが、これらに限定されない。
【0019】
前記ランダム生成組成は、即ち基礎培地組成における成分ごとに対し、その添加範囲内でランダムに値を取り、基礎培地サンプル組成を形成する。
【0020】
前記DOE実験設計組成は、
基礎培地における各成分の最低添加割合に対してクラスタリングを行い、複数の添加レベルを取得し、基礎培地における各成分に対し機能に応じてアミノ酸、微量金属イオン、ビタミン、脂質、緩衝剤などを含む機能カテゴリに分けるステップS1と、
ステップS1で取得した異なる添加レベル及び機能カテゴリを組み合わせてDOE実験因子を形成し、ボール充填法、ラテン超方格法、均質法及び最低潜在能力法を含む空間充填DOE実験設計を採用して基礎サンプル組成を形成し、前記空間充填DOE実験設計としてラテン超方格法を利用して組成を設計することが好ましいステップS2と、を含む。
【0021】
前記混合形成組成は、即ち既存の基礎培地サンプル組成をスクリーニングし及び組み合わせ、更新された基礎培地サンプル組成を取得し、好ましくは、以下の方法に従って既存の基礎培地サンプル組成をスクリーニングし及び組み合わせ、既存の基礎培地サンプル組成の培養効果を検証し、細胞生存率が比較的高く、細胞密度が比較的高く、又はタンパク質発現が比較的高い組成を選択して2つずつ混合又は3種類以上の組成を採用してランダム又は予め設定された割合で混合して新しい組成を調合し、
【0022】
(1-2)培養指標データの取得:
細胞培養実験を行い、ステップ(1-1)で得られたトレーニング組成の培養指標データを取得する。
【0023】
(1-3)トレーニングサンプルデータ群の編成:
ステップ(1-1)で得られたトレーニング組成の各成分の添加量又はその正規化値を入力行列とし、ステップ(1-2)で得られた培養指標を出力行列としてトレーニングサンプルデータ群を編成する。
【0024】
データの汎用性を保証するために、トレーニング組成の培養指標を得る時にできるだけ多くの培養指標を網羅すべきであり、前記培養指標は、細胞生存率、細胞密度、タンパク質発現量、グルコース、乳酸、アンモニアを含むが、これらに限定されず、具体的には、各組の実験データは入力データ(x,x,・・・,x)及び出力データ(y,y,・・・,y)から構成される。ここでxは基礎培地組成のi番目の成分であり、モデルトレーニング、検証及びテストの時に特徴とする。yは細胞生存率を表し、yは細胞密度を表し、yはタンパク質発現量を表し、...、yはm番目の出力指標を表し、グルコース、乳酸、アンモニアなどのパラメータを含むが、これらに限定されない。回帰モデルの入力行列はX行列で示され、ここで、xijはi番目の組成のj番目の成分を表す。出力行列はY行列で示される。ここで、yijはi番目の組成のj番目の出力値を表す。
【0025】
【数1】
【0026】
好ましくは、モデルの特徴選択により、組成における成分をオプティマイズする。
【0027】
(1-4)複数の候補回帰予測モデルに対して、同じ条件下で、ステップ(1-3)で得られたトレーニングサンプルデータ群をトレーニング及びテストを行い、当該培養指標に対する基礎培地を予測する回帰予測モデルとして優れたものを選択する。
【0028】
前記候補回帰予測モデルは、SVR(サポートベクトル回帰、Support VactorRegression)モデル、ElasticNet(弾性ネットワーク)モデル、Xgboostモデル、Gradient BoostingRegressionモデル、Logostic Regressionモデル、多層ニューラルネットワークによる回帰モデル、畳み込みニューラルネットワークによる回帰モデル、及び/又は循環ニューラルネットワークによる回帰モデルを含むが、これらに限定されない。異なる回帰モデルの実現形式が異なり、即ち基礎数学原理が同じではないため、異なる回帰モデルを採用して基礎培地出力を予測し、異なる回帰モデルの実現形式が異なり、即ち基礎数学原理が同じではないため、異なる回帰モデルは基礎培地出力に対する予測性能も予期できない。回帰予測モデル選択ステップにより、オプティマイズ及び選択を行う必要がある。異なる回帰モデルを採用して基礎培地出力を予測し、異なる培養指標に対して各種回帰予測モデルが得る予測結果が違い、異なる回帰モデルの性能を比較し、最も性能の良いものを選択する。
【0029】
同じ条件下でトレーニングサンプルデータ群を利用してトレーニングしてテストする前記ステップは、好ましくは前記トレーニングサンプルデータ群を8:1:1の割合でトレーニング、検証、テストに分け、交差実験を行い、ここで検証はデータのオーバーフィッティングを回避するために用いられ、テストはモデル汎化能力及び予測能力を評価するために用いられ、予測目標によって予測能力はMSE平均二乗誤差、二乗平均平方根誤差RMSE、及び/又はR-SQUAREDを採用して回帰予測モデルをスクリーニングすることができる。
【0030】
(2)基礎培地の各成分の添加範囲を取得し、各成分の添加量を枚挙してランダムに選択するにより複数の候補基礎培地組成を生成し、各成分の添加量を枚挙する前記ステップは、具体的には各成分の添加範囲内で、できるだけ多く且つ平均に値を取ることにより、大量の組成データを形成することである。
【0031】
本出願はモデルのオーバーフィッティングを回避し、成分添加量を枚挙するなどの手段を組み合わせるため、実験経験による局所最適解を全体最適解とするオプティマイズトラップを回避し、それによって全体に最適な基礎培地組成を効率的に取得する。
【0032】
具体的には以下のステップを含む。
【0033】
(2-1)基礎培地の成分ごとに対し、それぞれに取り得る値の範囲内で同じ数の点値を取り、前記成分の取り得る値数列を形成するステップであって、
好ましくは、前記同じ数の点値は等差又は等比数列を構成し、優れた均一性を有し、それぞれに取り得る値の範囲をよりよくカバーすることができるステップと、
(2-2)ステップ(2-1)で得られた成分の取り得る値数列を乱雑にソートして並び替え後の成分取り得る値数列を得るステップと、
(2-3)ステップ(2-2)で得られた並び替え後の全ての成分取り得る値数列を行又は列として成分取り得る値数列を構成し、成分取り得る値数列の列又は行を組成の各成分の取り得る値とし、候補基礎培地組成を得るステップと、
(2-4)ステップ(2-1)~(2-3)を繰り返してより多くの候補基礎培地組成を取得し、好ましくは前記候補基礎培地組成の数は1000~1000000であるステップ。
【0034】
(3)ステップ(2)で得られた候補基礎培地組成に対しステップ(1)で得られた回帰予測モデルを採用して前記培養指標を予測するとともに、予測結果に基づいて前記候補基礎培地組成から1つ以上の推薦基礎培地組成をスクリーニングする。
【0035】
(4)ステップ(3)で得られた推薦基礎培地組成を採用して細胞培養実験を行い、前記推薦基礎培地組成の培養指標を検証し、これに基づいて最適基礎培地組成を確認する。
【0036】
回帰分析は、従属変数(目標)と独立変数(予測器)との間の関係を研究する予測的なモデリング技術である。回帰分析によって、まず既存の基礎培地組成実験データを用いて培地の各成分(独立変数)とタンパク質発現量、細胞密度、細胞生存率など(従属変数)との間のモデルを構築し、そしてモデルを用いて大量の基礎培地組成の出力指標を予測し、つまり基礎培地組成を用いた後に産生するタンパク質発現量、生存率、密度などの指標を予測する。組成における各成分の取り得る値の範囲に応じて大量の組成データを形成することができる。人工的にオプティマイズされた組成データは取り得る値の範囲が比較的狭いが、自動的に形成された組成データにおける各成分は取り得る値の範囲が広い。そして多数の予測結果から1つ以上の指標に合致する基礎培地組成を、候補基礎培地組成として選択する。最後に候補基礎培地培養細胞を用いて、基礎培地組成を検証する。検証実験においてスクリーニング要求に合致する候補基礎培地組成を、最適基礎培地組成として決定することにより、実験回数を大幅に減らし、工時、コストを節約するとともに、開発時間を短縮する。
【0037】
本出願にて提供される培養指標評価に基づく基礎培地の開発システムは、回帰モデル選択モジュールと、候補基礎培地組成生成モジュールと、基礎培地組成推薦モジュールと、を含み、
前記回帰モデル選択モジュールは、実験で検証された基礎培地組成データベースによって回帰モデルの選択及びオプティマイズを行い、当該培養指標に対する基礎培地を予測するための回帰予測モデルを決定し、前記基礎培地組成推薦モジュールに提出するために用いられ、
前記候補基礎培地組成生成モジュールは、基礎培地の各成分の添加範囲を取得し、各成分の添加量を枚挙してランダムに選択するにより複数の候補基礎培地組成を生成し、前記基礎培地組成推薦モジュールに提出するために用いられ、前記候補基礎培地組成生成モジュールは、枚挙サブモジュールと、並び替えサブモジュールと、組合せサブモジュールと、を含み、
前記枚挙サブモジュールは、基礎培地の成分ごとに対し、それぞれに取り得る値の範囲内で同じ数の点値を取り、前記成分の取り得る値数列を形成し、前記並び替えサブモジュールに提出するために用いられ、
前記並び替えサブモジュールは、前記成分の取り得る値数列を乱雑にソートして並び替え後の成分取り得る値数列を取得し、前記組合せサブモジュールに提出するために用いられ、
前記組合せサブモジュールは、前記並び替え後の全ての成分の取り得る値数列を行又は列として成分取り得る値数列を構成し、成分取り得る値数列の列又は行を組成の各成分の取り得る値とし、候補基礎培地組成を得るために用いられ、
前記基礎培地組成推薦モジュールは、前記候補基礎培地組成に対し前記回帰予測モデルを採用して前記培養指標を予測するとともに、予測結果に基づいて前記候補基礎培地組成から1つ以上の推薦基礎培地組成をスクリーニングするために用いられる。
【0038】
以下は実施例である。
【0039】
培養指標評価に基づく基礎培地の開発方法であって、図2に示すように、ステップ(1)~ステップ(4)を含む。
【0040】
(1)選定された培養指標に対し、実験で検証された基礎培地組成データベースによって回帰モデルの選択及びオプティマイズを行い、当該培養指標に対する基礎培地を予測するための回帰予測モデルを決定する。
【0041】
当該培養指標に対する基礎培地を予測するための前記回帰予測モデルは以下の方法に従って決定される。
【0042】
(1-1)トレーニング組成の収集:
本実施例は、コンピュータAI技術を採用して、ランダムに形成された組成、DOE実験設計による組成、既存の組成に対し一定の割合で2種類以上の培地を混合して形成された大量の組成に対し、細胞培養によって生成した実験データをまとめてトレーニング組成セットを構成する。
【0043】
各成分の添加範囲内で捜索してトレーニング組成を形成する前記ステップは、ランダム生成組成、DOE実験設計組成、混合形成組成の3つの方法を含むが、これらに限定されない。
【0044】
前記ランダム生成組成の具体的な方法は、資料を調べて培地組成に含まれる成分及び成分濃度範囲を探し出し、そして各成分はその濃度範囲内でランダムに値を取り、各成分は1つのランダムな値を取って1つの組成を形成する。
【0045】
前記DOE実験設計組成は、以下のステップを含み、
ステップS1、基礎培地における各成分の最低添加割合に対してクラスタリングを行い、複数の添加レベルを取得し、基礎培地における各成分に対して機能に応じてアミノ酸、微量金属イオン、ビタミン、脂質、緩衝剤などを含む機能カテゴリに分け、具体的には、
組成における少量の不変成分(例えばグルコース)を除き、他の全ての成分をアミノ酸、微量金属イオン、ビタミン、脂質、緩衝剤などの他の物質に応じて5つの大きなカテゴリに分ける。
ステップS2、ステップS1で取得した異なる添加レベル及び機能カテゴリを組み合わせてDOE実験因子を形成し、空間充填DOE実験設計を採用して基礎サンプル組成を形成し、具体的には、
各大きなカテゴリにおいて、各成分は最大添加値を100%とし、最小値を最大値で割ったものを組成における最低添加%とし、最低添加%が近い成分を選択して新しいカテゴリを構成し、このように5つの大きなカテゴリの基礎の上で9つの大きなカテゴリ、即ち9つの因子を形成し、空間充填ラテン超方格DOE実験を採用して90個の組成を設計する。
【0046】
前記混合形成組成は、即ち既存の基礎培地サンプル組成をスクリーニング及び組み合わせ、更新された基礎培地サンプル組成を取得し、具体的には以下の方法に従って既存の基礎培地サンプル組成をスクリーニング及び組み合わせ、既存の基礎培地サンプル組成の培養効果を検証し、細胞生存率が比較的高く、細胞密度が比較的高く、又はタンパク質発現が比較的高い組成を選択して2つずつ混合又は3種類以上の組成を採用してランダム又は予め設定された割合で混合して新しい組成を調合する。
【0047】
(1-2)培養指標データの取得:
細胞培養実験を行い、ステップ(1-1)で得られたトレーニング組成の培養指標データを取得し、具体的には、
データの汎用性を保証するために、トレーニング組成の培養指標を得る時にできるだけ多くの培養指標を網羅すべきであり、前記培養指標は、細胞生存率、細胞密度、細胞発現量、グルコース、乳酸、アンモニアを含み、具体的には、
上記発明内容における3つの方式で形成された大量のトレーニング組成に対して細胞バッチ培養を行い、培養容器は50mL mini bioreactorであり、培養体積は10mLであり、理論接種密度は0.5E+06cells/mLであり、培養時間は7日間であり、それぞれ3日目、5日目にサンプリング・カウントし、且つグルコース及び乳酸などの生化学的パラメータの含有量を検出し、7日目にサンプリング・カウントしてグルコース、乳酸及びタンパク質発現などのパラメータを検出した後、バッチ培養を終了する。
【0048】
(1-3)トレーニングサンプルデータ群の編成:
ステップ(1-1)で得られたトレーニング組成の各成分の添加量又はその正規化値を入力行列とし、ステップ(1-2)で得られた培養指標を出力行列としてトレーニングサンプルデータ群を編成する。
【0049】
各組の実験データは入力データ(x,x,・・・,x)及び出力データ(y,y,・・・,y)から構成される。ここでxは基礎培地組成のi番目の成分であり、モデルトレーニング、検証及びテストの時に特徴とする。yは細胞生存率を表し、yは細胞密度を表し、yは細胞発現量を表し、...、yはm番目の出力指標を表し、グルコース、乳酸、アンモニアなどのパラメータを含むが、これらに限定されない。回帰モデルの入力行列はX行列で示され、ここで、xijはi番目の組成のj番目の成分を表す。出力行列はY行列で示される。ここで、yijはi番目の組成のj番目の出力値を表す。
【0050】
【数2】
【0051】
実験データの前処理:基礎培地組成の各成分及び出力指標の各値の測定単位が異なるため、直接用いるとモデルのトレーニング及び検証効率に影響するため、入力及び出力データに対して正規化(normalization)前処理を行う必要がある。
【0052】
本実施例は、7日間のバッチ培養過程で細胞密度の最大値yを例に、具体的に実現する時、異なる出力指標の異なる段階の値をモデリング、検証、テスト及び予測することも可能である。
【0053】
基礎培地組成データをExcelファイルに書き込み、各行ごとは基礎培地に関する情報を表す。モデルトレーニング、テスト又は組成予測の時、直接にExcelファイルからデータを読み込む。処理の便宜性のため、ExcelファイルのデータをCSVファイル、データベースファイルなどの他のファイルに書き込み、且つ対応するファイルフォーマットを形成することもできる。
【0054】
特徴選択:基礎培地組成の各成分は出力指標への寄与度が異なる。従ってトレーニング効率を向上させ、予測誤差を減らすために、どの成分が出力指標の予測に大きく寄与するかを判断する必要がある。どの特徴が出力値の予測に最も寄与するかを判断する場合、相関特徴選択や相互情報特徴選択などの方法を用いて、各種特徴をスコアリングし、スコアの高い特徴を選択して予測実験を行う。予測結果が最も高い値に達する時に対応する特徴が、出力値の予測能力が最も高い特徴である。具体的に実現する場合、実験データを前処理した後、相関特徴選択、相互情報特徴選択などの方法で各特徴をスコアリングする。ある成分のスコアが高いほど、出力指標に対する予測寄与度が大きく、スコア値が高い順に成分をソートし、特徴スコアリングシーケンスを形成する。
【0055】
本実施例の特徴スクリーニングの結果、実施例の特徴値として、L-グルタミン酸、L-アラニン、L-トリプトファン、硫酸マンガン一水和物、亜セレン酸ナトリウム、塩化コバルト六水和物、ピリドキサール塩酸塩、ピルビン酸ナトリウム、HEPES(pH緩衝剤)、炭酸水素ナトリウムが、7日間のバッチ培養過程における細胞密度の最大値に大きく寄与することを示す。
【0056】
性能の良い回帰モデルを2~3種類選択し、スコアリングシーケンスから、スコア値が最も高い成分(5,10,15,20,・・・,全ての成分)を異なる割合で選択し、回帰モデルトレーニング、検証、及びテスト実験を行う。実験の時に10倍交差実験を選択し、10倍交差実験の平均値、例えばMSE、R2などの回帰モデル指標に基づいて、回帰モデル性能を評価する。本実施例における他の実験についても同様である。そして各モデルが異なる割合の成分データを含む場合の性能を比較し、予測寄与度が最も大きい成分を選択する。予測寄与度が最も大きい成分とはモデルにおいて成分を増やす場合には性能が変化せず、成分を減らす場合には性能が低下し、対応する成分シーケンスは即ち予測性能の最も良い成分セットである。
【0057】
(1-4)複数の候補回帰予測モデルに対し、同じ条件下で、ステップ(1-3)で得られたトレーニングサンプルデータ群を利用してトレーニング及びテストを行い、当該培養指標に対する基礎培地を予測する回帰予測モデルとして優れたものを選択する。
【0058】
前記候補回帰予測モデルは、SVR(サポートベクトル回帰、Support VactorRegression)モデル、ElasticNet(弾性ネットワーク)モデル、Xgboostモデル、Gradient BoostingRegressionモデル、Logostic Regressionモデル、多層ニューラルネットワークによる回帰モデル、畳み込みニューラルネットワークによる回帰モデル、循環ニューラルネットワークによる回帰モデルを含むが、これらに限定されない。
【0059】
異なる回帰モデルの実現形式が異なり、即ち基礎数学原理が同じではないため、異なる回帰モデルは基礎培地出力に対する予測性能も異なる。回帰予測モデル選択ステップにより、オプティマイズ及び選択を行う必要がある。異なる回帰モデルを採用して基礎培地出力を予測し、異なる培養指標に対し各種回帰予測モデルが得る予測結果が違い、異なる回帰モデルの性能を比較し、最も性能の良いものを選択する。
【0060】
同じ条件下でトレーニングサンプルデータ群を利用してトレーニングしてテストする前記ステップは、前記トレーニングサンプルデータ群を8:1:1の割合でトレーニング、検証、テストに分け、交差実験を行い、ここで検証はデータのオーバーフィッティングを回避するために用いられ、テストはモデル汎化能力及び予測能力を評価するために用いられ、予測目標によって予測能力はMSE平均二乗誤差、二乗平均平方根誤差RMSE、及び/又はR-SQUAREDを採用して回帰予測モデルをスクリーニングすることができる。
【0061】
異なる回帰アルゴリズムを用いて基礎培地の予測を実現することができるが、予測精度は異なる。どの回帰アルゴリズムが基礎培地に対し予測効果が高いかを決定するために、異なる回帰アルゴリズムを用いてトレーニング、検証を行い、回帰モデルを構築する。異なる回帰モデルを用いて、同じテストデータに対し組成予測実験を行い、実験結果を比較し、どの回帰モデルの基礎培地の予測効率が最も高いかを判断する。
【0062】
本実施例は、MSE平均二乗誤差、二乗平均平方根誤差RMSE、及びR-SQUARED指標を採用して総合的にスクリーニングし、効果が最も高いモデルとして、畳み込みニューラルネットワークによる回帰モデルをスクリーニングする。
【0063】
(2)基礎培地の各成分の添加範囲を取得し、各成分の添加量を枚挙してランダムに選択するにより複数の候補基礎培地組成を生成し、各成分の添加量を枚挙する前記ステップは、具体的には各成分の添加範囲内で、できるだけ多く且つ平均に値を取ることにより、大量の組成データを形成することである。具体的な方法は以下のとおりであり、
第1ステップ:空行列を定義し、形成された組成データを格納し、その名称はPFである。
第2ステップ:基礎培地組成の各成分の取り得る値の範囲に基づいて、長さがMのシーケンスを形成する。実際の状況に応じて任意のタイプの数列を形成することができる。本特許は等差数列に対して実験データを形成する。ユーザは長さm、公差dの等差数列を形成することができる。例えば、xiの取り得る値の範囲は(xi_min,xi_max)であり、等差数列{x1_min,x1_min+d,x1_min+i*d,......,xi_max}を形成する。ここでxi_minは取り得る値の範囲の最小値であり、xi_maxは取り得る値の範囲の最大値である。全ての成分の取り得る値の範囲を上記方法で処理し、以下のような等差数列行列が得られる。
【数3】

第3ステップ:等差数列行列の各行ごとに対しランダム且つ乱雑にソートしてn行m列の新しい行列Aを得、A行列をm行n列のB行列に転置し、B行列の各行ごとが新たに形成された組成を表し、合計m組の組成を形成する。mは等差数列の長さである。
【数4】

第4ステップ:B行列データを行ごとに組成行列PFに追加する。組成行列PFの各行ごとが新しい組成を表す。
第5ステップ:第3ステップをk回繰り返し、得られた転置行列を組成行列PFに追加し、組成の数を絶えず増やし、このようにk*m個の組成を得ることができる。
【0064】
以上のステップにより、等差数列の長さm及び循環回数kを調整することによって、多数の候補基礎培地組成を得ることができる。
【0065】
(3)ステップ(2)で得られた候補基礎培地組成に対しステップ(1)で得られた回帰予測モデルを採用して前記培養指標を予測するとともに、予測結果に基づいて前記候補基礎培地組成から1つ以上の組成を推薦基礎培地組成としてスクリーニングする。
【0066】
具体的には、
第1ステップ:回帰モデルを用いて得られた候補基礎培地組成を予測する。
第2ステップ:予測結果から条件{y≧y1_optimal∩y≧y2_optimal∩y…≧ym_optimal}を同時に満たす組成を、候補組成として選択する。ここでy1_optimalはyの最低最適値であり、y2_optimalはyの最低最適値であり、ym_optimalはyの最低最適値である。
【0067】
例えば、基礎培地組成の各成分の範囲に基づいて、各成分に対し長さMの等差数列を形成し、基礎培地が5つの成分を含む場合、それらの取り得る値の範囲を下記表1に示す。
【0068】
【表1】
【0069】
基礎培地組成の各成分の取り得る値の範囲に基づいて等差数列を形成し、本例では長さ5(即ちM=5)の等差数列を形成し、結果を下記表2に示す。実験者は実際の状況に応じて長さがMの等差数列を形成することができる。
【0070】
【表2】
【0071】
等差数列行列のデータを乱雑にソートし、新しい行列を形成し、下記表3に示す。
【0072】
【表3】
【0073】
乱雑にソートした行列を転置してM組の新しい組成を取得し、ここでMは等差数列の長さであり、本例では等差数列の長さが5であるため、5組の新しい組成を取得し、下記表4に示す。
【0074】
【表4】
【0075】
等差数列行列を乱雑にソートして転置する目的は異なる組成を形成することであり、使用時に数回乱雑にソートして転置することでより多くの組成を形成することができ、本例では2回乱雑にソートして転置した後に形成された組成を下記表5に示す。
【0076】
【表5】
【0077】
表5中の下線を付した部分は2回目に乱雑にソートして転置した後に形成された組成である。K回の乱雑なソート及び転置を経てK*M組の組成を形成することができる。ここでMは等差数列の長さである。
【0078】
上記方法により大量の基礎培地組成を得た後、最適組成予測モデルを用いて全ての組成の各出力指標を予測する。本例では合計90万組の基礎培地組成を形成し、そして組成予測モデルを用いて出力指標-細胞密度を予測し、予測結果を上位からソートした後に上位10個の組成を選択し、推薦基礎培地組成として推薦した。予測結果を下記表6に示す(表中には10種類の成分濃度のみ記載)。
【0079】
【表6】
【0080】
(4)ステップ(3)で得られた推薦基礎培地組成を採用して細胞培養実験を行い、前記推薦基礎培地組成の培養指標を検証し、且つこれに基づいて最適基礎培地組成を確認する。
【0081】
具体的には、候補組成を用いて細胞培養実験を行い、実験結果からY1,Y2,…,Ym値が最も良い1つ以上の組成を最適基礎培地組成として選択する。
【0082】
本実施例ではAIが推薦した10個の最適組成に従って培地を調合し、そして細胞培養実験を行い、最適組成を検証する。実験結果を下記表7に示す。
【0083】
【表7】
【0084】
10個の最適予測組成の細胞密度の実際値及び予測値を比較し、番号が3、6、9の組成の予測値が実際値に近く、且つ細胞密度が非常に高く、要求を満たすことを発見したので、この3つの培地組成を最適基礎培地組成として選択し、最終的に得られた最適組成及び培養結果を下記表8に示す。
【0085】
【表8】
【0086】
当業者には容易に理解されるように、上記は本出願の好ましい実施例に過ぎず、本出願を限定するものではなく、本出願の精神及び原則の範囲内で行われた補正、均等置換、及び改良などは、本出願の保護の範囲内に含まれるものである。
【0087】
本出願にて提供される人工知能に基づく基礎培地組成の開発方法は、図4に示すように、ステップ(1)~ステップ(4)を含む。
【0088】
(1)サンプル組成データベースの構築:開発対象の基礎培地組成における成分ごとに対し、その添加割合の捜索空間を決定し、且つ各成分の捜索空間内で捜索して基礎培地サンプル組成を形成し、前記基礎培地サンプル組成を収集してサンプル組成データベースを構築し、当該成分の添加割合は当該成分の添加値と添加最大値との比率であり、その捜索空間は最低添加割合から100%までであり、前記最低添加割合は当該成分の添加最小値と最大値との比率である。
【0089】
各成分の捜索空間内で捜索してトレーニング組成を形成する前記ステップは、ランダム生成組成、DOE実験設計組成、混合形成組成、履歴AI推薦組成の4つの方法を含むが、これらに限定されない。
【0090】
前記ランダム生成組成は、即ち基礎培地組成における成分ごとに対し、その捜索空間内でランダムに値を取り、基礎培地サンプル組成を形成する。
【0091】
前記DOE実験設計組成は、下記のステップを含む。
基礎培地における各成分の最低添加割合に対しクラスタリングを行い、複数の添加レベルを取得し、基礎培地における各成分に対し機能に応じてアミノ酸、微量金属イオン、ビタミン、脂質、緩衝剤などを含む機能カテゴリに分けるステップS1と、
ステップS1で取得した異なる添加レベル及び機能カテゴリを組み合わせてDOE実験因子を形成し、ボール充填法、ラテン超方格法、均質法及び最低潜在能力法を含む空間充填DOE実験設計を採用して基礎サンプル組成を形成し、前記空間充填DOE実験設計としてラテン超方格法を利用して組成を設計することが好ましいステップS2。
【0092】
前記混合形成組成は、即ち既存の基礎培地サンプル組成をスクリーニング及び組み合わせ、更新された基礎培地サンプル組成を取得し、好ましくは、以下の方法に従って既存の基礎培地サンプル組成をスクリーニング及び組み合わせ、既存の基礎培地サンプル組成の培養効果を検証し、細胞生存率が比較的高く、細胞密度が比較的高く、又はタンパク質発現が比較的高い組成を選択して2つずつ混合又は3種類以上の組成を採用してランダム又は予め設定された割合で混合して新しい組成を調合する。
【0093】
前記履歴AI推薦組成は、本出願の組成開発方法に従って人工知能に基づいて開発された基礎培地組成を含む。
【0094】
基礎培地サンプル組成の品質及び数は人工知能が基礎培地オプティマイズ効果をオプティマイズするための重要な要件及び前提条件である。機械学習によるより正確なモデルトレーニングのために、基礎培地サンプル組成は100個以上に達する必要があるとともに、基礎培地サンプル組成は既知、未知の異なる次元、異なる効果をカバーすべきであるが、効果の良い高次元空間領域内、変化が明らかな高次元空間領域内でより多く分布する基礎培地サンプル組成を有する。従って数を上げ、且つ効果の良い高次元空間領域内、変化が明らかな高次元空間領域内でより密に基礎培地サンプル組成を選択するために、本出願はDOE実験設計組成をより優先し、ともに異なる次元、異なる効果のサンプル組成に対するカバーを高めるために、ランダム生成基礎培地サンプル組成を増やし、且つ混合形成組成の方式を補助する。実験によると、以上の3種類の方法を組み合わせて構築されたサンプル組成データベースは、より優れた機械学習モデルトレーニング効果を有する。
【0095】
好ましくは、前記サンプル組成データベースにおけるランダム生成組成とDOE実験設計組成との数の比は1~4:10であり、ランダム生成組成は本方法の汎化能力を保証し、DOE実験設計組成は予測精度をよりよく向上させることができる。
【0096】
サンプル組成データベースのサンプル総数は100個以上であり、即ち本出願にて提供される人工知能の基礎培地組成の開発方法を実現することができ、好ましくは、前記サンプル組成データベースのサンプル総数は1000個以上であり、そのうち、ランダム生成組成100~200個、DOE実験設計組成50~200個を含み、培地の調合による時間コストを制御し、履歴AI推薦組成は継続的な実験過程で必ず調合及び培養効果検証を行うため、余分に培地の調合及び培養効果の検証のコストを増やすことがなく、残量は混合培地であり、既に調合済みの培地を用いて混合するので、培地調合の時間コストを大幅に削減することができる。
【0097】
(2)サンプル組成培養データベースの取得:ステップ(1)で得られたサンプル組成データベースに格納された基礎培地サンプル組成に対して、オプティマイズ目的に従って実験検証を行って各基礎培地サンプル組成の培養効果を取得し、培養効果が関連付けられた基礎培地サンプル組成データをサンプル組成培養データベースとして収集し、オプティマイズ目的に従って実験検証を行って各基礎培地サンプル組成の培養効果を得る前記ステップは、具体的には、
当該基礎培地サンプル組成を採用して標的細胞を培養し、培養過程は細胞状態を時刻に従えサンプリングして検出し、前記細胞状態は細胞生存率、細胞密度、及び/又は生化学的指標を含み、前記生化学的指標は、タンパク質発現量、グルコース、乳酸、アンモニア、及び/又はグルタミン含有量であり、細胞生存率に対しフィッティングして当該基礎培地サンプル組成の培養時間に関する細胞生存率曲線を得ることができ、細胞密度に対しフィッティング当該基礎培地サンプル組成の培養時間に関する細胞成長曲線を取得し、前記基礎培地サンプル組成の培養効果は当該基礎培地の培養時間に関する細胞成長曲線、細胞生存率曲線、又は特定時点の細胞密度、細胞生存率、生化学的指標であり、上記複数の指標(多目的オプティマイズの機械学習モデルを対応して採用する)、又は上記複数の指標の総合指標(例えば特定の複数の指標の加重和)であってもよい。
【0098】
(3)ステップ(2)で得られたサンプル組成培養データベースを採用して、オプティマイズ目標に対し機械学習モデルをトレーニングし、基礎培地組成培養効果予測モデルを取得し、
前記機械学習モデルは、サポートベクトルマシン回帰モデル、K最近傍モデル、XGBoost、リッジ回帰、LightGBM、ランダムフォレスト、GBDT、又は深層学習モデルを含むが、これらに限定されず、前記深層学習モデルは、完全接続ニューラルネットワーク、畳み込みニューラルネットワーク、又は循環ニューラルネットワークを含むが、これらに限定されない、そのうち、サポートベクトルマシン回帰モデル効果はより優れる。15分割交差検証により、図5及び図6に示すように、サポートベクトルマシン回帰モデルがより良いモデル表現を持ち、且つ当該モデルは連続微分可能なモデルであり、後から最適組成の推薦にも大きな利点を有することが分かる。残りの機械学習モデル、例えばK最近傍モデル、リッジ回帰モデルはテストセットでの精度が比較的低く、またXGBoost、LightGBM、ランダムフォレスト、GBDTなどの木構造ベースの機械学習モデルは連続微分可能なモデルではない。深層学習モデルは例えば完全接続ニューラルネットワーク、畳み込みニューラルネットワーク、循環ニューラルネットワークなどであり、畳み込みニューラルネットワークは画像処理のような並進不変性を有するデータに適し、循環ニューラルネットワークは、音声テキスト処理のようなシーケンス型データに適し、最適組成を予測する上で特に大きな利点がない。また深層学習モデルは大量のデータを必要とし、コストもより高い。従って総合的に言えば、サポートベクトルマシン回帰モデルは平均二乗誤差が最も低く、好ましいモデルである。
【0099】
(4)オプティマイズ対象の基礎培地組成における成分ごとの添加割合の捜索空間内で、ステップ(3)で得られた基礎培地組成培養効果予測モデルを採用してオプティマイズ目標に対し培養効果回帰予測を行い、且つ予測された培養効果に基づいて推薦基礎培地組成から優れたものを選択する。具体的には、
好ましくは全体オプティマイズアルゴリズム又はヒューリスティックアルゴリズムを採用して捜索空間内で基礎培地組成を捜索して培養効果回帰予測を行い、前記ヒューリスティックアルゴリズムは、遺伝的アルゴリズム、欲張りアルゴリズム、アニーリングアルゴリズム、蟻群アルゴリズム、粒子群アルゴリズム、人工ハチコロニーアルゴリズム、人工魚群アルゴリズム、シャッフルフロッグ跳躍アルゴリズム、花火アルゴリズム、細菌採餌オプティマイズアルゴリズム、ホタルアルゴリズムを含むが、これらに限定されず、前記全体オプティマイズアルゴリズムは、ニュートン法、擬ニュートン法、共役勾配法、及び深層学習で一般的に使用される勾配降下法を含むが、これらに限定されず、一般的な勾配降下法の変種はSGD、Momentum、Adagrad、RMSprop、Adam、Nadamなどが挙げられる。
【0100】
空間複雑度から言えば、ほとんどのヒューリスティックアルゴリズム、例えば遺伝的アルゴリズム、蟻群アルゴリズム、粒子群アルゴリズム、人工ハチコロニーアルゴリズム、人工魚群アルゴリズム、シャッフルフロッグ跳躍アルゴリズム、花火アルゴリズム、細菌採餌オプティマイズアルゴリズム、ホタルアルゴリズムなどの群類オプティマイズアルゴリズムは大量のキャッシュを占有する必要があり、及び大量の計算量が必要である。一方、欲張りアルゴリズムは多種の成分含有量組成を推薦するような複数の要因が相互に影響し合う問題では、全体的な最適値を達成することが容易ではない。一方、アニーリングアルゴリズムは単に増分を評価指標とするだけで、勾配を評価指標とする勾配降下法よりも劣る。またニュートン法、擬ニュートン法、共役勾配法のようなアルゴリズムは二次勾配近似を採用し、理論的には勾配降下法の一次勾配近似よりも優れるが、組成が複雑であるため、このような方法は計算力の負担がより大きい。従って勾配降下法の各種変種法が好ましい。
【0101】
本出願にて提供される人工知能に基づく基礎培地組成の開発システムは、
オプティマイズ対象の基礎培地組成における成分ごとの添加割合の捜索空間内で捜索して基礎培地サンプル組成を形成し、且つサンプル組成データベースを構築するためのサンプル組成生成モジュールと、
前記サンプル組成データベースにおける各基礎培地サンプル組成及びそれに関連付けられた培養効果データが格納されたサンプル組成培養データベースと、
回帰モデルを選択して前記サンプル組成培養データベースに格納された基礎培地サンプル組成及びそれに関連付けられた培養効果データを採用して回帰モデルトレーニングを行い、基礎培地組成培養効果予測モデルを取得して保存するための回帰モデルトレーニングモジュールと、
前記回帰モデルトレーニングモジュールに格納された基礎培地組成培養効果予測モデルを捜索空間内の基礎培地組成培養効果予測に適用し、且つ推薦基礎培地組成から優れたものを選択するための組成推薦モジュールと、を含む。
【0102】
以下は実施例である。
【0103】
人工知能に基づく基礎培地組成の開発方法であって、少量の組成成分を例に、以下のステップ(1)~ステップ(4)を含む。
【0104】
(1)サンプル組成データベースの構築:L-トリプトファン、L-システイン、L-グリシン、L-アラニン、硫酸マンガン一水和物、塩化コバルト六水和物、ピリドキサール塩酸塩、エタノールアミン、炭酸水素ナトリウム、poloxamer 188であり、各成分の添加割合の捜索空間を決定し、且つ成分ごとの捜索空間内で捜索して基礎培地サンプル組成を形成し、前記基礎培地サンプル組成を収集してサンプル組成データベースを構築し、当該成分の添加割合は当該成分の添加値と添加最大値との比率であり、その捜索空間は最低添加割合から100%までであり、前記最低添加割合は当該成分の添加最小値と最大値との比率である。
【0105】
各成分の捜索空間内で捜索してトレーニング組成を形成する前記ステップは、ランダム生成組成、DOE実験設計組成、混合形成組成、履歴AI推薦組成の4つの方法を含む。
【0106】
前記ランダム生成組成は、即ち基礎培地組成における成分ごとに対し、その捜索空間内でランダムに値を取り、基礎培地サンプル組成を形成する。
【0107】
本実施例は前記DOE実験設計組成を採用し、具体的には、
組成における少量の不変成分(例えばグルコース)を除き、他の全ての成分をアミノ酸、微量金属イオン、ビタミン、脂質、緩衝剤などの他の物質に応じて5つの大きなカテゴリに分け、各大きなカテゴリにおいて、各成分は最大添加値を100%とし、最小値を最大値で割ったものを組成における最低添加%とし、最低添加%が近い成分を選択して新しいカテゴリを構成し、5つの大きなカテゴリの基礎の上で9つの大きなカテゴリ、即ち9つの因子を形成し、空間充填DOE実験設計におけるラテン超方格法を採用して90個の組成を設計する。
【0108】
本実施例で採用する混合形成組成は、具体的には、既存の基礎培地サンプル組成の培養効果を検証し、細胞生存率が比較的高く、細胞密度が比較的高く、又はタンパク質発現が比較的高い組成を選択して2つずつ混合又は3種類以上の組成を採用してランダムな割合で混合して新しい組成を調合する。
【0109】
前記履歴AI推薦組成は、本出願の組成オプティマイズ方法に従って人工知能に基づいてオプティマイズされた基礎培地組成を含む。
【0110】
本実施例で最終的に構築されたサンプル組成データベースは1000~1500基礎培地組成を含み、そのうち、DOE実験設計組成90個、ランダム組成200個、履歴AI推薦組成100~200個を含み、残りは混合組成であり、500~700個である。
【0111】
(2)サンプル組成培養データベースの取得:ステップ(1)で得られたサンプル組成データベースに格納された基礎培地サンプル組成に対し、オプティマイズ目的に従って実験検証を行って各基礎培地サンプル組成の培養効果を取得し、培養効果が関連付けられた基礎培地サンプル組成データをサンプル組成培養データベースとして収集し、オプティマイズ目的に従って実験検証を行って各基礎培地サンプル組成の培養効果を得る前記ステップは、本実施例では、具体的には、
バッチ培養の方式を採用して行い、バッチ培養の方法は、0.5×10cells/mLの細胞密度で接種し、培養体積が10mLであり、培養容器が50mL mini bioreactorであり、ロッカー回転数が180rpmであり、培養時間が7日間であり、培養中にそれぞれ3日目、5日目及び7日目にサンプリングし、細胞密度をカウントし、グルコース、乳酸、アンモニア、グルタミン、タンパク質発現量などの生化学的パラメータを検出し、グルコースの消費状況に応じてグルコースを4~5g/Lまで補充する。完全な試験データを得るために、毎日サンプリングを行う。
【0112】
AIがモデルを構築する際、あるサンプリングポイントの細胞生存率又は細胞密度又は生化学的パラメータだけを用いて単一目的モデリング又は複数目的モデリングを行うことができ、細胞生存率プロット又は細胞密度プロットを採用して回帰モデルを構築することもできる。
【0113】
本実施例では、各サンプリングポイントの細胞密度、7日以内の最大細胞密度、細胞密度データを用いてプロットされた細胞成長プロットのデータを得る。
【0114】
組成における各成分の含有量、培地調合過程におけるデータ及び培養効果などの関連情報を培養データベースに記録して保存する。
【0115】
(3)ステップ(2)で得られたサンプル組成培養データベースを採用して、回帰モデルをトレーニングし、基礎培地組成培養効果予測モデルを取得し、具体的には、
python言語を採用して、サポートベクトルマシン回帰モデルをロードし、RBF(ガウス)カーネル関数を採用して、15分割交差検証を行い、7日以内の最大細胞密度に対し組成培養効果予測モデル1を取得し、平均二乗誤差が小数点以下2桁で約0.39に等しく、5日目の細胞密度に対し組成培地効果予測モデル2を取得し、平均二乗誤差が小数点以下2桁で約0.41に等しく、モデルは培地組成の各成分の異なる含有量における培養細胞の収量及び品質を完璧に予測できることが期待される。
【0116】
トレーニング結果が基準を満たさない場合、ステップ(1)~(2)を繰り返してトレーニングサンプルデータ量を増加させる。
【0117】
(4)オプティマイズ対象の基礎培地組成における成分ごとの添加割合の捜索空間内で、ステップ(3)で得られた基礎培地組成培養効果予測モデルを採用してオプティマイズ目標に対し培養効果回帰予測を行い、且つ予測された培養効果に基づいて推薦基礎培地組成から優れたものを選択する。本実施例は具体的には、
以上の7日以内の最大細胞密度、及び5日目の細胞密度に基づいて、モデル情報を深掘りし、各成分の異なる含有量で出現する可能性の最も高い細胞培養効果をコンピュータで数値シミュレーションする。シミュレーション計算は勾配降下法を採用し、勾配は即ち各成分が特定の含有量で1単位増加することによる細胞の培養効果に対する変化の影響であり、この勾配はプラスとマイナスの2種類に分けられ、プラス勾配はこの成分の含有量を増やすと細胞の培養効果に有利であることを示し、マイナス勾配はこの成分を増やすと細胞の培養効果に有害であることを示す。以上のシミュレーション結果に基づいて、成分含有量を徐々に補正し(プラス勾配になると成分含有量を増加し、マイナス勾配になると成分含有量を減少し、増加又は減少した成分の含有量の値は勾配値に比例する)、さらにシミュレーション計算を繰り返し、そして勾配に応じて成分を調整する。以上の過程を数値シミュレーションにより、勾配が限りなく0に近く、成分含有量を補正することにより細胞シミュレーションの培養効果を向上させることができないことを発見するまで繰り返し、この培地組成はモデルシミュレーションでの最適組成である。上記勾配降下法は、アルゴリズム上の形式としてSGD、Momentum、Adagrad、RMSprop、Adamなどが挙げられる。
【0118】
以上の機械学習モデルの構築に成功することで、各成分が細胞の培養効果に与える影響を測定できることに成功する。機械学習モデルがトレーニング時に収束できないか又は精度が低過ぎ、汎化能力が良くないなどの問題が発生する場合、データが十分でないと判断し、戻ってステップ(1)から(3)を繰り返してランダム生成、DOE組成設計、又は混合組成を続けてより多くの基礎培地サンプル組成を形成し、データを拡張し、機械学習モデルをオプティマイズする。
【0119】
以上の機械学習後に数値シミュレーションして得られた推薦最適組成には、各成分の含有量を詳細に明らかにし、組成に基づいて培地を調合してバッチ培養実験を行うことができ、細胞培養の培養効果が実験要件を満たさない場合、ステップ(4)を繰り返す。以上の機械学習によりモデルを構築した後、成分を調整した後の推薦組成を検定し、それぞれ7日以内の最大細胞密度に対して、基礎培地組成を生成し、細胞を培地に接種した後にバッチ培養を行う。細胞生存率は安定を維持し、7日間の養死率が0%であり、細胞密度が極めて高く、モデル予測値が実際値に近く、予測組成が信頼でき、具体的な組成データは下記表に示され、培養細胞の予測値と実際値データとの比較は図8に示され、細胞成長曲線は図9に示す。
【0120】
【表9】
【0121】
5日目の細胞密度に対して、基礎培地組成を生成し、細胞を培地に接種した後にバッチ培養を行う。細胞生存率は安定を維持し、7日間の養死率が0%であり、細胞密度が極めて高く、モデル予測値が実際値に近く、予測組成が信頼でき、具体的な組成データは下記表に示され、培養細胞の予測値と実際値データとの比較は図10に示され、細胞成長曲線は図11に示される。
【0122】
【表10】
【0123】
本実施例の組成のオプティマイズ周期は、サンプル組成培養データベース(1000以上の組成)の構築及び機械学習モデルトレーニングを含めると、周期が5か月程度であり、使用時に、その学習モデルトレーニング、組成推薦及び効果検証を行い、半月だけでデータベースに既に含まれている培養効果に対して組成開発を行うことができ、基礎培地の開発周期を大幅に短縮し、基礎培地の開発ハードルを下げる。
【0124】
当業者には容易に理解されるように、上記は本出願の好ましい実施例に過ぎず、本出願を限定するものではなく、本出願の精神及び原則の範囲内で行われた補正、均等置換、及び改良などは、本出願の保護の範囲内に含まれるものである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
【手続補正書】
【提出日】2023-05-16
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
基礎培地の開発方法であって、
選定された培養指標に対し、実験で検証された基礎培地組成データベースによって回帰モデルの選択及びオプティマイズを行い、当該培養指標に対する基礎培地を予測するための回帰予測モデルを決定するステップと、
基礎培地の各成分の添加範囲を取得し、各成分の添加量を枚挙してランダムに選択するにより複数の候補基礎培地組成を生成するステップと、
得られた候補基礎培地組成に対し、前記回帰予測モデルを採用して前記培養指標を予測するとともに、予測結果に基づいて前記候補基礎培地組成から1つ以上の組成を推薦基礎培地組成としてスクリーニングするステップと、
得られた推薦基礎培地組成を採用して細胞培養実験を行い、前記推薦基礎培地組成の培養指標を検証し、且つ検証された培養指標に基づいて、最適基礎培地組成を決定するステップと、を含む基礎培地の開発方法。
【請求項2】
当該培養指標に対する基礎培地を予測するための回帰予測モデルを決定する前記ステップは、
基礎培地の各成分の添加範囲内で捜索してトレーニング組成を形成するステップと、
細胞培養実験を行い、前記トレーニング組成の培養指標データを取得するステップと、
前記トレーニング組成における各成分の添加量又はその正規化値を入力行列とし、前記培養指標データを出力行列としてトレーニングサンプルデータ群を構築するステップと、
複数の候補回帰予測モデルに対し、同じ条件下で前記トレーニングサンプルデータ群を利用してトレーニング及びテストを行い、トレーニング及びテストが行われた複数の候補回帰予測モデルのうちの1つを当該培養指標に対する基礎培地を予測する回帰予測モデルとして選択するステップと、を含む請求項1に記載の基礎培地の開発方法。
【請求項3】
前記培養指標は、細胞生存率、細胞密度、タンパク質発現量、グルコース、乳酸、アンモニアを含む請求項2に記載の基礎培地の開発方法。
【請求項4】
前記トレーニング組成における各成分の添加量又はその正規化値を入力行列とし、前記培養指標データを出力行列としてトレーニングサンプルデータ群を構築する前記ステップは、
入力データ(x,x,・・・,x)及び出力データ(y,y,...,y)を1組の実験データとして構成し、ここで、xは基礎培地組成のi番目の成分であり、モデルトレーニング、検証及びテストの時に特徴とし、yは細胞生存率を表し、yは細胞密度を表し、yはタンパク質発現量を表し、...、yはm番目の出力指標を表し、回帰モデルの入力行列はX行列であり、ここで、xijはi番目の組成のj番目の成分を表し、出力行列はY行列であり、ここで、yijはi番目の組成のj番目の出力値を表すステップを含む請求項2に記載の基礎培地の開発方法。
【数1】
【請求項5】
前記トレーニング組成における各成分の添加量又はその正規化値を入力行列とし、前記培養指標データを出力行列としてトレーニングサンプルデータ群を構築する前記ステップは、
回帰モデルの特徴選択により、前記トレーニング組成における成分をオプティマイズするステップを含む請求項2に記載の基礎培地の開発方法。
【請求項6】
前記複数の候補回帰予測モデルは、サポートベクトル回帰モデル、弾性ネットワークモデル、Xgboostモデル、Gradient Boosting Regressionモデル、Logostic Regressionモデル、多層ニューラルネットワークによる回帰モデル、畳み込みニューラルネットワークによる回帰モデル、及び循環ニューラルネットワークによる回帰モデルを含む請求項2に記載の基礎培地の開発方法。
【請求項7】
基礎培地の各成分の添加範囲を取得し、各成分の添加量を枚挙してランダムに選択するにより複数の候補基礎培地組成を生成する前記ステップは、
前記基礎培地の各成分に対し、それぞれに取り得る値の範囲内で同じ数の点値を取得し、成分ごとの取り得る値数列を形成するステップと、
全ての成分取り得る値数列をソートして並び替えられた成分取り得る値数列を得るステップと、
前記並び替えられた成分取り得る値数列を行又は列として成分取り得る値数列を構築し、成分取り得る値数列の列又は行を各成分の取り得る値とし、候補基礎培地組成を得るステップと、を含む請求項1に記載の基礎培地の開発方法。
【請求項8】
前記候補基礎培地組成の数は1000~1000000である請求項7に記載の基礎培地の開発方法。
【請求項9】
基礎培地の開発システムであって、
選定された培養指標に対し、実験で検証された基礎培地組成データベースによって回帰モデルの選択及びオプティマイズを行い、当該培養指標に対する基礎培地を予測するための回帰予測モデルを決定するための回帰モデル選択モジュールと、
基礎培地の各成分の添加範囲を取得し、各成分の添加量を枚挙してランダムに選択するにより複数の候補基礎培地組成を生成するための候補基礎培地組成生成モジュールと、
得られた候補基礎培地組成に対し、前記回帰予測モデルを採用して前記培養指標を予測するとともに、予測結果に基づいて前記候補基礎培地組成から1つ以上の組成を推薦基礎培地組成としてスクリーニングするための基礎培地組成推薦モジュールと、
得られた推薦基礎培地組成を採用して細胞培養実験を行い、前記推薦基礎培地組成の培養指標を検証し、且つ検証された培養指標に基づいて、最適基礎培地組成を決定するための最適基礎培地組成決定モジュールと、を含む基礎培地の開発システム。
【請求項10】
前記候補基礎培地組成生成モジュールは、
前記基礎培地の各成分に対し、それぞれに取り得る値の範囲内で同じ数の点値を取得し、成分ごとの取り得る値数列を形成するための枚挙サブモジュールと、
全ての成分の取り得る値数列をソートして並び替えられた成分取り得る値数列を得るための並び替えサブモジュールと、
前記並び替えられた成分取り得る値数列を行又は列として成分取り得る値数列を構築し、成分取り得る値数列の列又は行を各成分の取り得る値とし、候補基礎培地組成を得るための組合せサブモジュールと、を含む請求項9に記載の基礎培地の開発システム。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0001
【補正方法】変更
【補正の内容】
【0001】
本出願は、2020年11月26日に中国国家知識産権局に提出された、出願番号が2020113431805であり、出願の名称が「培養指標評価に基づく基礎培地の開発方法」である中国特許出願に基づき優先権を主張し、その内容の全てが参照によって本出願に組み込まれる。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0012
【補正方法】削除
【補正の内容】
【国際調査報告】