(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-03
(54)【発明の名称】対象決定方法と装置、コンピュータ機器及びコンピュータプログラム
(51)【国際特許分類】
G16B 15/20 20190101AFI20241126BHJP
G16B 40/00 20190101ALI20241126BHJP
G16B 30/00 20190101ALI20241126BHJP
【FI】
G16B15/20
G16B40/00
G16B30/00
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024532391
(86)(22)【出願日】2023-03-29
(85)【翻訳文提出日】2024-05-30
(86)【国際出願番号】 CN2023084640
(87)【国際公開番号】W WO2023216747
(87)【国際公開日】2023-11-16
(31)【優先権主張番号】202210498684.7
(32)【優先日】2022-05-09
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
【氏名又は名称原語表記】TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED
【住所又は居所原語表記】35/F,Tencent Building,Kejizhongyi Road,Midwest District of Hi-tech Park,Nanshan District, Shenzhen,Guangdong 518057,CHINA
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】程 立雪
(72)【発明者】
【氏名】▲楊▼ 子翊
(72)【発明者】
【氏名】廖 奔犇
(72)【発明者】
【氏名】▲張▼ ▲勝▼誉
(57)【要約】
本出願は、人工知能の技術分野に関し、特に、対象決定方法と装置及びコンピュータ機器とプログラムに関する。かかる方法は第一対象集合における各対象のそれぞれの所定指標に関する指標予測値を取得し(202);第一対象集合から、指標予測値が指標値スクリーニング条件を満足した対象をスクリーニングし、第二対象集合を取得し(204);第一対象集合における複数の対象の、所定指標に関する指標実験値と、対象特徴とに基づいて、所定指標と対象特徴との間のマッピング関係を決定し(206);及び、マッピング関係に基づいて、第二対象集合から所定指標の指標要求を満たした目標対象を決定するステップ(208)を含む。
【特許請求の範囲】
【請求項1】
コンピュータ機器が実行する、対象を決定する方法であって、
第一対象集合における各対象のそれぞれの所定指標に関する指標予測値を取得するステップであって、前記指標予測値は事前訓練のモデルにより予測された、対象の前記所定指標に関する値である、ステップ;
前記第一対象集合から、前記指標予測値が指標値スクリーニング条件を満足した対象をスクリーニングし、第二対象集合を取得するステップ;
前記第一対象集合における複数の対象の、前記所定指標に関する指標実験値と、対象特徴とに基づいて、所定指標と対象特徴との間のマッピング関係を決定するステップであって、前記指標実験値とは、実験により取得された、前記所定指標に関する対象の値を指す、ステップ;及び
前記マッピング関係に基づいて、前記第二対象集合から、前記所定指標の指標要求を満たした目標対象を決定するステップを含む、方法。
【請求項2】
請求項1に記載の方法であって、
前記第一対象集合における対象は突然変異型蛋白質であり、
前記方法はさらに、
前記第一対象集合に基づいてスクリーニングすることで参照対象集合を取得するステップであって、前記参照対象集合は「各種類のアミノ酸が各突然変異位置で少なくとも目標回数出現するという条件」を満たしている、ステップを含み、
前記第一対象集合における各対象のそれぞれの所定指標に関する指標予測値を取得するステップは、
前記参照対象集合における各対象の対象特徴及び指標実験値に基づいて、指標検出モデルを訓練するステップ;及び
訓練済みの前記指標検出モデルを利用して、前記第一対象集合における各対象の指標予測値を予測するステップを含む、方法。
【請求項3】
請求項2に記載の方法であって、
前記第一対象集合における複数の対象の、前記所定指標に関する指標実験値と、対象特徴とに基づいて、所定指標と対象特徴との間のマッピング関係を決定するステップは、
前記参照対象集合における各対象の前記所定指標に関する指標実験値に基づいて、前記参照対象集合における各対象の対象特徴を決定するステップ;及び
前記参照対象集合における各対象の、前記所定指標に関する指標実験値と、対象特徴とに基づいて、所定指標と対象特徴との間のマッピング関係を決定するステップを含む、方法。
【請求項4】
請求項2に記載の方法であって、
前記第一対象集合に基づいてスクリーニングすることで参照対象集合を取得するステップは、
現在のスコア集合を取得するステップであって、前記現在のスコア集合は各種類のアミノ酸にそれぞれ対応する現在のスコアを含む、ステップ;
前記第一対象集合に基づいて第二蛋白質集合を取得し、現在のスコア集合に基づいて前記第二蛋白質集合から目標蛋白質を選択するステップ;
現在のスコア集合において目標蛋白質における各突然変異位置でのアミノ酸にそれぞれ対応する現在のスコアを逓減させ、前記目標蛋白質を第二蛋白質集合から第一蛋白質集合にトランスファーするステップ;及び
現在のスコア集合により、第一蛋白質集合が「各種類のアミノ酸が各突然変異位置で少なくとも目標回数出現するという条件」を満足しないと表される場合に、前記現在のスコア集合に基づいて前記第二蛋白質集合から目標蛋白質を選択するステップに戻って継続して実行し、現在のスコア集合により、第一蛋白質集合が「各種類のアミノ酸が各突然変異位置で少なくとも目標回数出現するという条件」を満たしたと表される場合に、第一蛋白質集合を参照対象集合として決定するステップを含む、方法。
【請求項5】
請求項4に記載の方法であって、
前記現在のスコア集合を取得するステップは、
最初のスコア集合を取得するステップであって、前記最初のスコア集合における各種類のアミノ酸にそれぞれ対応する最初のスコアは目標回数である、ステップ;及び
前記最初のスコア集合において野生型蛋白質における各突然変異位置でのアミノ酸にそれぞれ対応する最初のスコアを逓減させ、現在のスコア集合を取得し、前記野生型蛋白質に基づいて第一蛋白質集合を決定するステップであって、前記野生型蛋白質は突然変異の発生がない蛋白質である、ステップを含む、方法。
【請求項6】
請求項4に記載の方法であって、
前記現在のスコア集合に基づいて前記第二蛋白質集合から目標蛋白質を選択するステップは、
前記第二蛋白質集合における各突然変異型蛋白質について、現在のスコア集合から前記突然変異型蛋白質における各突然変異位置でのアミノ酸にそれぞれ対応する現在のスコアを決定するステップ;
取得された各現在のスコアに基づいて前記突然変異型蛋白質の現在の蛋白質スコアを決定するステップ;及び
現在の蛋白質スコアに基づいて前記第二蛋白質集合からスクリーニングすることで目標蛋白質を取得するステップを含む、方法。
【請求項7】
請求項6に記載の方法であって、
各種類のアミノ酸は対応するアミノ酸を有し、前記現在のスコア集合におけるスコアはアミノ酸及び突然変異位置により一意に標識され、
前記現在のスコア集合から前記突然変異型蛋白質における各突然変異位置でのアミノ酸にそれぞれ対応する現在のスコアを決定するステップは、
各突然変異位置でのアミノ酸について、前記アミノ酸に対応するアミノ酸及び前記突然変異位置に基づいて、現在のスコア集合から前記突然変異位置でのアミノ酸に対応する現在のスコアを決定するステップを含む、方法。
【請求項8】
請求項3に記載の方法であって、
前記対象特徴は蛋白質特徴であり、
前記参照対象集合における各対象の前記所定指標に関する指標実験値に基づいて、前記参照対象集合における各対象の対象特徴を決定するステップは、
各突然変異位置について、前記突然変異位置でのアミノ酸の種類に従って前記参照対象集合を分割し、各種類のアミノ酸にそれぞれ対応する第一サブ対象集合を取得するステップ;
各前記突然変異位置での各種類のアミノ酸について、前記アミノ酸に対応する第一サブ対象集合における各対象の指標実験値に基づいて、前記アミノ酸の前記突然変異位置でのアミノ酸特徴を決定するステップ;及び
前記対象における各突然変異位置でのアミノ酸のアミノ酸特徴に基づいて、前記対象の蛋白質特徴を取得するステップを含む、方法。
【請求項9】
請求項8に記載の方法であって、
前記アミノ酸に対応する第一サブ対象集合における各対象の指標実験値に基づいて、前記アミノ酸の前記突然変異位置でのアミノ酸特徴を決定するステップは、
前記アミノ酸に対応する第一サブ対象集合における各対象の指標実験値に対して統計の計算を行い、少なくとも1つの指標実験統計値を取得するステップ;及び
前記少なくとも1つの指標実験統計値に基づいて前記アミノ酸の前記突然変異位置でのアミノ酸特徴を決定するステップを含む、方法。
【請求項10】
請求項9に記載の方法であって、
前記アミノ酸に対応する第一サブ対象集合における各対象の指標実験値に対して統計の計算を行い、少なくとも1つの指標実験統計値を取得するステップは、
前記アミノ酸に対応する第一サブ対象集合における各対象の指標実験値に対して平均値の計算を行い、第一指標平均値を取得するステップ;及び
前記アミノ酸に対応する第一サブ対象集合における各対象の指標実験値から、最大の指標実験値を決定して第一指標最大値として取得するステップであって、前記少なくとも1つの指標実験統計値は前記第一指標平均値又は前記第一指標最大値のうちの少なくとも1つを含む、ステップを含む、方法。
【請求項11】
請求項10に記載の方法であって、
前記少なくとも1つの指標実験統計値に基づいて前記アミノ酸の前記突然変異位置でのアミノ酸特徴を決定するステップは、
前記第一指標平均値及び前記第一指標最大値により、前記アミノ酸の前記突然変異位置でのアミノ酸特徴を構成するステップを含む、方法。
【請求項12】
請求項3に記載の方法であって、
前記対象特徴は蛋白質特徴であり、
前記参照対象集合における各対象の前記所定指標に関する指標実験値に基づいて、前記参照対象集合における各対象の対象特徴を決定するステップは、
各種類のアミノ酸について、前記参照対象集合から突然変異位置でのアミノ酸に含まれる前記アミノ酸の対象を決定し、前記アミノ酸に対応する第二サブ対象集合を取得するステップ;
各種類のアミノ酸について、前記アミノ酸に対応する第二サブ対象集合における各対象の指標実験値に基づいて、前記アミノ酸のアミノ酸特徴を決定するステップ;及び
前記対象における各突然変異位置でのアミノ酸のアミノ酸特徴に基づいて、前記対象の蛋白質特徴を取得するステップを含む、方法。
【請求項13】
請求項3に記載の方法であって、
前記マッピング関係に基づいて、前記第二対象集合から、前記所定指標の指標要求を満たした目標対象を決定するステップは、
前記マッピング関係に基づいて、前記第二対象集合における各対象の目標統計指標に関する統計指標値を決定し、前記統計指標値に基づいて前記第二対象集合から選択対象を決定するステップ;
反復停止条件を満足しない場合に、前記選択対象を参照対象集合に追加するステップ;
前記参照対象集合における各対象の前記所定指標に関する指標実験値に基づいて、前記参照対象集合における各対象の対象特徴を決定するステップに戻って、反復停止条件を満足するまで継続して実行するステップ;及び
反復停止条件を満足した場合に取得された選択対象を、前記所定指標の指標要求を満たした目標対象として決定するステップを含む、方法。
【請求項14】
対象を決定する装置であって、
第一対象集合における各対象のそれぞれの所定指標に関する指標予測値を取得するための予測値取得モジュールであって、前記指標予測値は事前訓練のモデルにより予測された対象の前記所定指標に関する値である、予測値取得モジュール;
前記第一対象集合から、前記指標予測値が指標値スクリーニング条件を満足した対象をスクリーニングし、第二対象集合を取得するための対象集合取得モジュール;
前記第一対象集合における複数の対象の、前記所定指標に関する指標実験値と、対象特徴とに基づいて、所定指標と対象特徴との間のマッピング関係を決定するためのマッピング関係決定モジュールであって、前記指標実験値とは、実験により取得された、前記所定指標に関する対象の値を指す、マッピング関係決定モジュール;及び
前記マッピング関係に基づいて、前記第二対象集合から、前記所定指標の指標要求を満たした目標対象を決定するための目標対象決定モジュールを含む、装置。
【請求項15】
記憶器、及び前記記憶器に接続される処理器を含むコンピュータ機器であって、
前記記憶器にはコンピュータプログラムが記憶されており、
前記処理器は前記コンピュータプログラムを実行することで請求項1乃至13のうちの何れか1項に記載の方法を実現するように構成される、コンピュータ機器。
【請求項16】
コンピュータに、請求項1乃至13のうちの何れか1項に記載の方法を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2022年05月09日に中国専利局に出願した、出願番号が202210498684.7、発明の名称が「対象決定方法、装置、コンピュータ機器及び記憶媒体」である中国特許出願に基づく優先権を主張するものであり、その全内容を参照によりここに援用する。
【0002】
本出願は、コンピュータの技術分野に関し、特に、対象決定方法と装置、コンピュータ機器及びコンピュータプログラムに関する。
【背景技術】
【0003】
コンピュータ技術の発展に伴い、指向性進化(directed evolution)技術が現れた。指向性進化により、比較的短い期間で新しい機能及び特性を有する蛋白質を得ることができる。明確な目標を設定することで分子を再設計することができる。指向性進化は既に新薬開発や化学工学などの分野で重要な研究ツールとなっている。
【0004】
従来の蛋白質指向性進化では、目標機能について最初のプロテインを確立し、1つ又は複数の位置で変異体ライブラリーを構築し、ススクリーニング(選択する/選ぶこと)により最も一般的な変異体を決定し、そして、これらの変異体に対してランダムに組換え、スクリーニングを行い、スクリーニングした変異体を利用して次のラウンドの“突然変異、組換え及びスクリーニング”のサイクル(ループ)を行い、このようなプロセスを、期待されるプロテイン性質に達するまで行う。
【0005】
しかし、今のところ、指向性進化技術はほとんど手間も時間もかかり、時間コストが高い。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本出願で提供される実施例は、対象決定方法と装置、コンピュータ機器及びコンピュータプログラムの提供を課題とする。
【課題を解決するための手段】
【0007】
1つの側面によれば、本出願では対象決定方法が提供され、それはコンピュータ機器により実行される。前記方法は、
第一対象集合における各対象のそれぞれの所定指標に関する指標予測値を取得し、前記指標予測値は事前訓練のモデルにより予測された、対象の前記所定指標に関する値であり;
前記第一対象集合から、前記指標予測値が指標値スクリーニング条件を満足した対象をスクリーニングし、第二対象集合を取得し;
前記第一対象集合における複数の対象の、前記所定指標に関する指標実験値と、対象特徴とに基づいて、前記所定指標と前記対象特徴との間のマッピング関係を決定し、前記指標実験値とは、実験により取得された、前記所定指標に関する対象の値を指し;及び
前記マッピング関係に基づいて、前記第二対象集合から、前記所定指標の指標要求を満たした目標対象を決定するステップを含む。
【0008】
もう1つの側面によれば、本出願では対象決定装置がさらに提供される。前記装置は、
第一対象集合における各対象のそれぞれの所定指標に関する指標予測値を取得するための予測値取得モジュールであって、前記指標予測値は事前訓練のモデルにより予測された、対象の前記所定指標に関する値である、予測値取得モジュール;
前記第一対象集合から、前記指標予測値が指標値スクリーニング条件を満足した対象をスクリーニングし、第二対象集合を取得するための対象集合取得モジュール;
前記第一対象集合における複数の対象の、前記所定指標に関する指標実験値と、対象特徴とに基づいて、所定指標と対象特徴との間のマッピング関係を決定するためのマッピング関係決定モジュールであって、前記指標実験値とは、実験により取得された、前記所定指標に関する対象の値を指す、マッピング関係決定モジュール;及び
前記マッピング関係に基づいて、前記第二対象集合から、前記所定指標の指標要求を満たした目標対象を決定するための目標対象決定モジュールを含む。
【0009】
もう1つの側面によれば、本出願ではコンピュータ機器がさらに提供される。前記コンピュータ機器は記憶器及び1つ又は複数の処理器を含み、前記記憶器にはコンピュータ可読命令が記憶されており、前記コンピュータ可読命令は前記処理器により実行されるときに、前記1つ又は複数の処理器に、上述の対象決定方法におけるステップを実現させる。
【0010】
もう1つの側面によれば、本出願では1つ又は複数の不揮発性可読記憶媒体がさらに提供される。前記コンピュータ可読記憶媒体にはコンピュータ可読命令が記憶されており、前記コンピュータ可読命令は1つ又は複数の処理器により実行されるときに、前記1つ又は複数の処理器に、上述の対象決定方法におけるステップを実現させる。
【0011】
もう1つの側面によれば、本出願ではコンピュータプログラムプロダクト(コンピュータプログラム)がさらに提供される。前記コンピュータプログラムプロダクトはコンピュータ可読命令を含み、該コンピュータ可読命令は処理器により実行されるときに、上述の対象決定方法におけるステップを実現する。
【0012】
本出願の1つ又は複数の実施例の細部は以下の図面及び説明で与えられる。本出願の他の特徴、目的及び利点は明細書、図面及び特許請求の範囲から明確になる。
【図面の簡単な説明】
【0013】
本出願の実施例における技術案をより明確に説明するために、以下、実施例の説明に使用する必要のある図面について簡単に紹介する。明らかのように、以下に説明される図面は本出願の幾つかの実施例に過ぎず、当業者は創造性のある労働をせずにこれらの図面に基づいて他の図面を得ることもできる。
【
図1】幾つかの実施例における対象決定方法の適用環境を示す図である。
【
図2】幾つかの実施例における対象決定方法のフローチャートである。
【
図3A】幾つかの実施例における酵素の適用を示す図である。
【
図3B】幾つかの実施例における機械学習補助指向性進化の原理を示す図である。
【
図4】幾つかの実施例におけるアミノ酸の平均適応度を示す図である。
【
図5】幾つかの実施例における対象決定方法のフローチャートである。
【
図6】幾つかの実施例における対象決定方法の原理を示す図である。
【
図7】幾つかの実施例における対象決定方法の原理を示す図である。
【
図8】幾つかの実施例における対象決定方法の適用環境を示す図である。
【
図9】幾つかの実施例における対象決定方法の適用環境を示す図である。
【
図10】幾つかの実施例における異なるデータセットの適応度分布を示す図である。
【
図11】幾つかの実施例における異なる方法の4つの蛋白質指向性進化データセットに関する効果を示す図である。
【
図12】幾つかの実施例における異なる方法のデータセットに関する効果を示す図である。
【
図13】幾つかの実施例における対象決定装置の構成を示すブロック図である。
【
図14】幾つかの実施例におけるコンピュータ機器の内部構成を示す図である。
【
図15】幾つかの実施例におけるコンピュータ機器の内部構成を示す図である。
【発明を実施するための形態】
【0014】
本出願の目的、技術案及利点をより明らかにするために、以下、図面及び実施例と併せて本出願をさらに詳しく説明する。理解できるように、ここで説明される具体的な実施例は本出願を解釈するためのものに過ぎず、本出願を限定しない。
【0015】
本出願の実施例で提供される対象決定方法は
図1に示すような適用環境に用いることができる。そのうち、端末102はネットワークを介してサーバー104と通信を行う。データ記憶システムはサーバー104が処理する必要のあるデータを記憶することができる。データ記憶システムはサーバー104に集積されても良く、クラウドや他のサーバーに置かれても良い。
【0016】
具体的には、サーバー104は第一対象集合における各対象のそれぞれの所定指標に関する指標予測値を取得し、第一対象集合から、指標予測値が指標値スクリーニング条件を満足した対象をスクリーニングし、第二対象集合を取得し、第一対象集合における複数の対象の、所定指標に関する指標実験値と、対象特徴とに基づいて、所定指標と対象特徴との間のマッピング関係を決定し、そして、マッピング関係に基づいて第二対象集合から所定指標の指標要求を満たした目標対象を決定することができ、サーバー104は目標対象を決定した後に、目標対象を記憶することができ、さらに目標対象を端末102に送信することができ、端末102は目標対象の関連情報を表示することができる。
【0017】
そのうち、端末102は様々なデスクトップコンピュータ、ノートパソコン、スマートフォン、タブレットコンピュータ、IoTデバイス及びポータブルウェアラブルデバイスであっても良いが、これらに限定されず、IoTデバイスはスマートスピーカー、スマートテレビ、スマートエアコン、インテリジェント車載機などであり得る。ポータブルウェアラブルデバイスはスマートウォッチ、スマートブレスレット、ヘッドマウントデバイスなどであり得る。サーバー104は独立したサーバー、又は、複数サーバーからなるサーバー群により実現され得る。
【0018】
幾つかの実施例において、指標予測値は訓練済みの指標検出モデルにより予測され得る。指標検出モデルは人工知能及び機械学習によるものであっても良く、例えば、ニューラルネットワークモデルであっても良い。
【0019】
本出願の実施例で提供されるスキーム(技術案)は人工知能のニューラルネットワークなどの技術に関し、具体的には次のような実施例により説明される。
【0020】
幾つかの実施例において、
図2に示すように、対象決定方法が提供され、該方法は端末又はサーバーにより実行されても良く、端末及びサーバーにより共同で実行されても良い。該方法が
図1におけるサーバー104に適用されることを例にして説明を行い、具体的には以下のようなステップが含まれる。
【0021】
ステップ202:第一対象集合における各対象のそれぞれの所定指標に関する指標予測値を取得する。
【0022】
そのうち、第一対象集合には複数の対象が含まれる。対象は真の物質であっても良く、蛋白質、材料、電池などのうちの少なくとも1つを含み得るが、これらに限られない。対象はさらに、抽象的な具体概念であっても良く、例えば、対象は電池の急速(高速)充電プロトコルであっても良い。
【0023】
対象は対応する複数の指標を有しても良く、所定指標は対象の複数の指標のうちの任意の1つであっても良く、例えば、対象が蛋白質である場合に、対象の指標は適応度、濃縮スコア、活性又は明るさなどのうちの少なくとも1つを含んでも良いが、これらに限定されず、対象が材料である場合に、対象の指標は材料の組成又は組成の比率などのうちの少なくとも1つを含んでも良いが、これらに限られず、対象が電池の急速充電プロトコルである場合に、対象の指標は電池の急速充電プロトコルにおける各パラメータを含んでも良いが、これらに限定されない。
【0024】
指標予測値は対象のために予測された、該所定指標に対応する値である。指標所定値は事前訓練のモデルにより予測された、所定指標に対応する対象の値であり、該モデルは所定指標に対応する対象の値を予測し得る機能を有する。指標予測値は訓練済みの指標検出モデルにより予測され得る。指標検出モデルはニューラルネットワークモデルであっても良い。
【0025】
第一対象集合における各対象は1つの対象カテゴリーに属しても良く、対象カテゴリーは蛋白質又は材料などの物質のうちの少なくとも1つを含んでも良いが、これらに限定されず、さらに電池の充電プロトコルなどの抽象概念を含んでも良い。例えば、第一対象集合における各対象は何れも或る種類の蛋白質に属し、例えば、各対象はそれぞれ、同じ種類の蛋白質を突然変異させた後に取得される突然変異型蛋白質である。そのうち、突然変異型蛋白質は野生型蛋白質に対するものであり、野生型蛋白質は突然変異が発生したことのない蛋白質であり、突然変異型蛋白質は野生型蛋白質をもとに突然変異が加われた後に取得される蛋白質である。蛋白質指向性進化では突然変異によって必要な蛋白質を得ることができる。蛋白質指向性進化には2つの突然変異のシナリオが含まれ、1つはkサイトの飽和変異誘発のシナリオであり、もう1つは非飽和変異誘発のシナリオである。
【0026】
kサイトの飽和変異誘発のシナリオは、k個の指定(所定)の突然変異サイトのアミノ酸を突然変異させるために用いられ、該シナリオで生成される突然変異型蛋白質では、該k個の指定の突然変異サイトのうちの少なくとも1つの突然変異サイト上のアミノ酸が突然変異後に取得される。例えば、k=4である場合に、取得される突然変異型蛋白質における該指定の4つの突然変異サイトのうちの少なくとも1つの突然変異サイトのアミノ酸が突然変異により取得される。即ち、kサイトの飽和変異誘発のシナリオにおける突然変異サイトの位置及び数は固定されており、突然変異は該指定のk個の突然変異サイトでのみ発生し得る。突然変異サイトとは蛋白質において突然変異が発生する可能性がある位置を指す。よって、突然変異サイトは突然変異位置とも称されても良く、蛋白質における各位置には1つのアミノ酸がある。
【0027】
非飽和変異誘発のシナリオでは突然変異サイトが固定されていないが、突然変異が発生するアミノ酸の数は固定されいる。例えば、非飽和変異誘発のシナリオで取得される各突然変異型蛋白質のそれぞれには突然変異により得られる2つの位置のアミノ酸があるとする場合に、突然変異が生じる位置は同じであっても良く、又は、異なっても良く、例えば、1つは位置1及び位置2で発生する突然変異であり、もう1つは位置3及び位置4で発生する突然変異である。
【0028】
対象カテゴリーが蛋白質である場合に、第一対象集合における各対象はkサイトの飽和変異誘発のシナリオで生成される突然変異型蛋白質であっても良く、非飽和変異誘発のシナリオで生成される突然変異型蛋白質であっても良い。突然変異型蛋白質は変異体とも称され得る。蛋白質はアミノ酸シーケンスにより表すことができる。例えば、第一対象集合にn個の突然変異型蛋白質が含まれる場合に、第一対象集合は、
【0029】
【数1】
と表することができ、そのうち、nは変異体の数を表し、S
iは変異体を表し、S
i=(S
i1,S
i2,…,S
iL)であり、S
iはL個のアミノ酸を有するi番目のアミノ酸シーケンスを表し、S
ijはアミノ酸を表し、1≦j≦Lであり、y
iはi番目の蛋白質の適応度を表し、適応度は実験で測定することにより取得され、蛋白質の適応度は蛋白質の特性を表し、適応度は例えば、親和力であっても良い。
【0030】
具体的には、第一対象集合における各対象について、サーバーは各対象の所定指標に関する指標予測値を予測し、各対象の指標予測値を得ることができ、例えば、訓練済みの指標検出モデルを利用して指標予測値を予測して取得することができる。
【0031】
幾つかの実施例において、サーバーは第一対象集合から複数の対象をスクリーニングし、参照対象集合を取得し、参照対象集合における各対象の対象特徴を決定することができ、対象特徴とは対象の特徴を指し、また、実験の方式で参照対象集合における各対象の所定指標に対応する値を取得し、参照対象集合における各対象の指標実験値を取得することができ、指標実験値とは実験の方式で取得された所定指標に対応する対象の値を指し、即ち、対象の指標実験値は対象の所定指標に関する真の値である。例えば、対象が蛋白質であり、所定指標が適応度である場合に、指標実験値とは実験の方式で取得された、蛋白質の適応度に関する値を指す。サーバーは参照対象集合における各対象の対象特徴及び各対象の指標実験値を用いて指標検出モデルを訓練することで、訓練済みの指標検出モデルを取得し、第一対象集合における各対象の対象特徴を決定し、第一対象集合における各対象の対象特徴を訓練済みの指標検出モデルに入力し、訓練済みの指標検出モデルを用いて第一対象集合における各対象のそれぞれの対応する指標予測値を予測して取得することができる。
【0032】
幾つかの実施例において、対象は突然変異型蛋白質であり、対象特徴は蛋白質特徴であり、蛋白質特徴は、突然変異型蛋白質における突然変異サイトでのアミノ酸に基づいて符号化することにより取得される特徴であっても良い。例えば、突然変異型蛋白質の所定指標に関する指標実験値に基づいてアミノ酸を符号化することで、アミノ酸に対応するアミノ酸特徴を取得し、そして、各突然変異位置でのアミノ酸に対応するアミノ酸特徴に基づいて、突然変異型蛋白質の蛋白質特徴を得ることができる。例えば、kサイトの飽和変異誘発のシナリオで生成される突然変異型蛋白質について、該kサイトのアミノ酸のアミノ酸特徴を使用して突然変異型蛋白質の蛋白質特徴を取得することができる。非飽和変異誘発のシナリオで生成される突然変異型蛋白質について、2つの位置で突然変異が発生した場合に、この2つの位置でのアミノ酸のアミノ酸特徴からなるベクトルを該突然変異型蛋白質の蛋白質特徴として決定することができる。
【0033】
ステップ204:第一対象集合から、指標予測値が指標値スクリーニング条件を満足した対象をスクリーニングし、第二対象集合を取得する。
【0034】
そのうち、指標値スクリーニング条件は指標予測値が第一指標閾値よりも大きいことを含み、第一指標閾値は予め設定されても良く、又は、ニーズに応じて設定されても良い。第二対象集合は第一対象集合からスクリーニングした対象からなる集合であり、第二対象集合における対象の指標予測値は指標値スクリーニング条件を満たしている。
【0035】
具体的には、サーバーは第一対象集合における各対象の指標予測値と、第一指標閾値との対比(比較)を行い、指標予測値が第一指標閾値よりも大きい各対象により第二対象集合を構成することができる。例えば、対象が突然変異型蛋白質であり、所定指標が親和力であり、第一指標閾値が親和力閾値である場合に、第一対象集合において親和力が親和力閾値よりも大きい各対象により第二対象集合を構成しても良く、親和力閾値は予め設定されても良く、又は、ニーズに応じて設定されても良い。
【0036】
ステップ206:第一対象集合における複数の対象の、所定指標に関する指標実験値と、対象特徴とに基づいて、所定指標と対象特徴との間のマッピング関係を決定する。
【0037】
そのうち、第一対象集合における複数の対象とは上述の参照対象集合における各対象を指しても良い。所定指標と対象特徴との間のマッピング関係は、対象特徴の変化に伴って所定指標の値が変化することを反映するために用いられ、曲線を用いて所定指標と対象特徴との間のマッピング関係を表すことができ、例えば、該マッピング関係は曲線y1=f1(x)で表されても良く、そのうち、y1は所定指標を表し、xは対象特徴を表す。
【0038】
具体的には、サーバーは参照対象集合を得た後に、参照対象集合を利用して、指標検出モデルを訓練することができるだけでなく、参照対象集合における各対象の所定指標に関する指標実験値及び対象特徴を利用して、所定指標と対象特徴との間のマッピング関係を決定することもできる。
【0039】
幾つかの実施例において、参照対象集合における各対象の指標実験値を得た後に、参照対象集合内の各対象について、サーバーは対象の対象特徴及び指標実験値を曲線y1=f1(x)上の点とし、複数の曲線上の複数点を用いて、取得された該複数点に対してフィッティングを行うことで、該マッピング関係を表す曲線y1=f1(x)を得ることができる。
【0040】
ステップ208:マッピング関係に基づいて第二対象集合から所定指標の指標要求を満たした目標対象を決定する。
【0041】
そのうち、所定指標の指標要求は例えば、指標実験値が可能な限り大きいこと、又は、指標実験値が第二指標閾値よりも大きいことのうちの少なくとも1つであっても良く、目標対象は第二対象集合において所定指標の指標要求を満たした対象である。
【0042】
具体的には、所定指標と対象特徴との間のマッピング関係は第一マッピング関係であり、サーバーは第一マッピング関係に基づいて統計の演算を行うことで、目標統計指標と対象特徴との間の第二マッピング関係を取得し、第二マッピング関係に基づいて、第二対象集合における各対象の目標統計指標に関する統計指標値を決定し、各対象の統計指標値に基づいて、第二対象集合における各対象から選択対象を決定し、そして、選択対象に基づいて、所定指標の指標要求を満たした対象を得ることができる。第一マッピング関係は、所定指標の値が対象特徴の変化に伴って変化する規則を表し、第二マッピング関係は目標統計指標の値が対象特徴の変化に伴って変化する規則を表す。例えば、第二マッピング関係は曲線y2=f2(x)で表されても良く、そのうち、y2は目標統計指標を表し、xは対象特徴を表す。
【0043】
目標統計指標は1つ又は複数有り得る。例えば、目標統計指標は期待改善(Expected Improvement、EI)、改善確率(Probability of Improvement、PI)、上限信頼限界(Upper Confidence Bound、UCB)又はトンプソンサンプリング(Thompson Sampling、TS)などのうちの少なくとも1つを含むが、これらに限定されない。第一マッピング関係はさらに確率的代理モデル(probabilistic surrogate model)と称されても良く、第二マッピング関係はさらに獲得関数(acquisition function)と称されても良い。そのうち、獲得関数は確率的代理モデルにより取得される事後確率分布により構築され、獲得関数を最大化することで次の最も“潜在的な”実験点を選択する。獲得関数は探索と利用のトレードオフに基づいて、提案される新しい点をテストすることを担当する。探索とは、できるだけ既知点を離れる点を選んで次の実験を行い、即ち、できるだけ未知の領域を探索することを指し、利用とは、できるだけ既知点に近い点を選んで次の実験を行い、即ち、できるだけ既知点の周囲の点をマイニングすることを指す。
【0044】
幾つかの実施例において、サーバーは第二マッピング関係に基づいて、第二対象集合における各対象の目標統計指標に関する統計指標値を決定し、各対象の統計指標値に基づいて、第二対象集合における各対象から選択対象を決定することができ、具体的には、選択対象は1つ又は複数あっても良く、最大の統計指標値に対応する対象を選択対象として決定しても良く、又は、統計指標値が第三指標閾値よりも大きい対象を選択対象として決定しても良く、第三指標閾値はニーズに応じて設定されても良い。サーバーは選択対象に基づいて、所定指標の指標要求を満たした対象を得ることができ、例えば、サーバーは選択対象を、所定指標の指標要求を満たした対象として決定することができる。
【0045】
幾つかの実施例において、サーバーは選択対象を得た後に、選択対象の指標実験値を取得し、選択対象の指標実験値と第二指標閾値との対比を行い、選択対象の指標実験値が第二指標閾値に達していると決定したときに、選択対象を目標対象として決定することができる、そのうち、選択対象を得た後に、実験により、対応する指標実験値を選択するように決定することができ、選択対象の指標実験値が第二指標閾値に達しないと決定した場合に、選択対象を参照対象集合に追加し、再び参照対象集合における各対象の所定指標に関する指標実験値及び対象特徴を用いて、所定指標と対象特徴との間の第一マッピング関係を決定することで、再び第一マッピング関係に基づいて、第二対象集合から所定指標の指標要求を満たした目標対象を決定することができ、このように、継続的にループし、指標実験値が第二指標閾値に達している選択対象を見つけた場合に、ループを終了し、指標実験値が第二指標閾値に達している選択対象を目標対象として決定し、又は、ループの回数が回数閾値に達しているときに、スクリーニングされた選択対象を目標対象として決定する。
【0046】
上述の対象決定方法では、第一対象集合における各対象のそれぞれの所定指標に関する指標予測値を取得し、第一対象集合から、指標予測値が指標値スクリーニング条件を満足した対象を選択し、第二対象集合を取得し、第一対象集合における複数の対象の、所定指標に関する指標実験値と、対象特徴とに基づいて、所定指標と対象特徴との間のマッピング関係を決定し、そして、マッピング関係に基づいて第二対象集合から所定指標の指標要求を満たした目標対象を決定する。第二対象集合が第一対象集合からスクリーニングされたものであるため、第二対象集合から所定指標の指標要求を満たした目標対象を決定する効率は第一対象集合から目標対象をスクリーニングする効率よりも高い。よって、目標対象を決定する時間コストを削減することができる。
【0047】
実際の設計と適用のシナリオでは、例えば、環境科学者がセンサーの配置位置を設計することで環境状況を取得し、化学者が実験を設計することで新しい物質を取得し、製薬メーカーが新薬を設計することで病気と戦うなどの場合に、通常、これらの設計問題を次のような最適化問題として考慮し、求解する(最大化の問題のみを考慮し、最小化の問題は負の符号をとる操作だけで最大化の問題に変換可能である)。
【0048】
【数2】
そのうち、xはd次元決定ベクトルを表し、Xは決定空間を表し、f(x)は目標関数を表す。上述の例に対応して、xはセンサー配置位置、実験構成、薬剤処方などとして表されても良く、f(x)は環境、実験、処方などの優劣を表す尺度として表されても良い。これらの実際の設計と適用のシナリオには多くの複雑な設計決定が含まれ、その最適化目標は通常、次のような特徴を有し、即ち、計算コストが高く、理想的な場合には、関数を複数回実行することでその最適解を決定することができるが、実際の最適化問題では多過ぎるサンプルの計算が非現実的であり、計算コストは非常に高く;ブラックボックス関数であり、実際の問題では、目標関数の構造を数学的に説明するのが困難であり、1次又は高次の導関数が無く、勾配降下法やニュートン関連アルゴリズムにより求解することができず;及び、グローバルな最小値/最大値を見つける必要があり、ローカルな最小値/最大値に陥ることを避けるためには、何らかのメカニズムが必要である。そのため、必要なオブジェクトを得るには非常に高い時間コストが要される。
【0049】
対して、本出願で提供される対象決定方法により、必要なオブジェクトを得るプロセスを加速化し、効率を向上させることができるため、時間コストを削減することができる。例えば、本出願で提供される対象決定方法を計算方法補助(支援)蛋白質進化に利用することで、必要な蛋白質を得ることができる。
図3Aに示すように、蛋白質は人々の生活において重要な役割を果たしており、例えば、酵素は日常生活から産業に至るまで人間社会において重要な役割を果たしている。毎日使用する洗剤の一部には油汚れなどの分解を促進するための酵素が含まれており、食品産業における発酵や分解(degradation)などのプロセスでは酵素が不可欠であり、医薬品やファインケミカルでは酵素が環境に優しい効率的な触媒として、既に、従来の化学において重金属の関与を必要とし、かつエネルギーを多く消費する幾つかの生産プロセスに取って代わっている。また、酵素はバイオエネルギーの発生においても最も重要な役割を果たしている。指向性進化は比較的短い期間で有新しい機能及び特性を有する蛋白質を得ることができる。明確な目標を人為的に設定することで、科学家は分子を再設計することができ、指向性進化は既に新薬研発や化学工学などの分野で重要な研究ツールになっている。機械学習補助指向性進化を採用することができ、
図3Bに示すように、例えば、機械学習方法補助指向性進化のプロセスは次のような4つのステップを含んでも良く、即ち、1)目標機能について最初のプロテインを確立し、k個の位置で変異体ライブラリーを構築し;2)既存のデータを用いてモデルを訓練し;3)訓練済みのモデルにより、変異体ライブラリーにおける他の変異体を予測し;及び、4)最適な変異体を選んで実験テストを行い、そして、それを次のラウンドのモデル訓練のために訓練セットに追加する。計算方法補助指向性進化により、最適化を加速し、実験の負担を軽減することができる。
【0050】
幾つかの実施例において、第一対象集合における対象は突然変異型蛋白質であり、かかる方法はさらに、第一対象集合に基づいてスクリーニングすることで参照対象集合を取得するステップを含み、参照対象集合は各種類のアミノ酸が各突然変異位置で少なくとも目標回数出現するという条件を満足している。第一対象集合における各対象のそれぞれの所定指標に関する指標予測値を取得するステップは、参照対象集合における各対象の対象特徴及び指標実験値に基づいて、指標検出モデルを訓練し;及び、訓練済みの指標検出モデルを使用して第一対象集合における各対象の指標予測値を予測するステップを含む。
【0051】
そのうち、参照対象集合における各対象は何れも突然変異型蛋白質であっても良く、又は、参照対象集合には野生型蛋白質及び突然変異型蛋白質が含まれても良い。第一対象集合における対象は突然変異型蛋白質であり、目標回数は予め設定されても良く、又は、ニーズに応じて設定されても良く、例えば、2回であっても良い。突然変異位置は突然変異サイトである。参照対象集合は各アミノ酸が各突然変異位置で少なくとも目標回数出現するという条件を満たし、例えば、アミノ酸が20種類あり、目標回数が2である場合に、参照対象集合における各蛋白質において、この20個のアミノ酸は各突然変異サイトで少なくとも2回出現する。kサイトの飽和変異誘発のシナリオで生成される突然変異型蛋白質を例にとり、4つの突然変異サイトがあり、20種類のアミノ酸のうちの各アミノ酸が各突然変異サイトで2回現れるとする場合に、サンプル空間から40個のサンプルを最初のサンプルとして選択することができる。このようにして、最初のサンプルに含まれるアミノ酸の符号化情報のカバーする範囲が最大になるととも、必要な実験回数が最小になるように保証することができるため、実験コストを削減することができる。そのうち、サンプル空間は突然変異型蛋白質を含んでも良く、野生型蛋白質をさらに含んでも良く、サンプルとは蛋白質を指し、参照対象集合は常に変化しても良く、最初のサンプルとは最初に決定された参照対象集合を指す。
【0052】
指標検出モデルは対象特徴に基づいて所定指標に対応する対象の値を決定し、即ち、対象の所定指標に関する指標予測値を決定するために用いられ、指標検出モデルはニューラルネットワークモデル、例えば、XGBOD(Improving Supervised Outlier Detection with Unsupervised Representation Learning)であっても良く、もちろん、他のモデルであっても良いが、ここではこれについて限定しない。そのうち、XGBODの基本プロセスは、様々な教師無しのモデルを採用してオリジナルデータを学習することで、各サンプルの外れ値スコアを取得し、そして、外れ値スコアを新しいデータ表現形式とし;次に、オリジナル特徴との合併を行い、新しい特徴空間を生成し;最後に、新しい特徴空間でXGBoost分類器を訓練し、そして、その出力を予測結果として見なすことである。
【0053】
具体的には、サーバーは参照対象集合内の各対象の所定指標に関する指標実験値(対象に対応する指標実験値と記す)を取得し、参照対象集合内の各対象の所定指標に関する指標実験値に基づいて、参照対象集合内の各対象の対象特徴を得ることができる。サーバーは対象の対象特徴を訓練待ちの指標検出モデルに入力して予測を行うことで、対象の所定指標に関する指標予測値(対象に対応する指標予測値と記す)を取得し、そして、対象に対応する指標実験値とその対応する指標予測値との間の差に基づいて、指標検出モデルのモデルパラメータを、モデルが収斂(収束)するまで調整することで、訓練済みの指標検出モデルを取得することができる。サーバーは第一対象集合における各対象の対象特徴を訓練済みの指標検出モデルに入力して予測を行うことで、第一対象集合における各対象に対応する指標予測値を得ることができる。
【0054】
幾つかの実施例において、サーバーは参照対象集合における各対象の指標実験値に基づいて、各種類のアミノ酸のアミノ酸特徴を決定することで、第一対象集合における対象の対象特徴(即ち、蛋白質特徴)を決定するときに、サーバーは参照対象集合に基づいて決定された各種類のアミノ酸のアミノ酸特徴を用いて、第一対象集合における対象の蛋白質特徴を決定することができ、例えば、kサイトの飽和変異誘発のシナリオでは、参照対象集合における各対象の指標実験値に基づいて、各種類のアミノ酸の各突然変異位置でのアミノ酸特徴を決定することができ、第一対象集合における対象について、該対象における突然変異位置での各アミノ酸を決定し、決定した“各種類のアミノ酸の各突然変異位置でのアミノ酸特徴”から、該対象における各突然変異位置でのアミノ酸に対応するアミノ酸特徴を決定し、そして、決定した各アミノ酸特徴からなるベクトルを該対象の対象特徴(即ち、蛋白質特徴)として決定することができる。
【0055】
幾つかの実施例において、第一対象集合に基づいてスクリーニングすることで参照対象集合を得る方法は、ベイズ最適化において最初のサンプルを決定するサンプル選択ストラテジーとすることで、最適化効率を向上させ、ベイズ最適化の時間コストを削減することができ、これによって、最初のサンプルに含まれるアミノ酸の符号化情報のカバーする範囲が最大になるとともに、必要な実験回数が最小になるように保証することができるため、実験コストを削減することができる。そのうち、ベイズ最適化は通常、ガウス分布に基づくガウスプロセス(Gaussian process、GP)回帰を先験的な確率的代理モデルとして採用する。GPは柔軟性及び拡張性を有し、理論上、任意の線形/非線形関数を代理することができる。もちろん、student-t先験に基づくガウスプロセス回帰を先験的な確率的代理モデルとして採用し、ロバスト回帰(student-t分布に基づくガウスプロセス)と異常点検出を組み合わせ、データ点を異常点(outliers)と正常点(inliers)に分けることで、外れ値のモデルフィッティングへの影響を無くしても良い。student-t先験に基づくガウスプロセスは“Robust GP”と略称することができ、ガウス分布に基づくガウスプロセスは“GP”と略称することができる。
【0056】
本実施例では、参照対象集合が「各種類のアミノ酸が各突然変異位置で少なくとも目標回数出現するという条件」を満たすため、取得された参照対象集合における各アミノ酸の数はバランスをとることができ、これによって、参照対象集合に基づいて指標検出モデルを訓練することで、訓練の正確さを向上させることができるため、訓練済みの指標検出モデルが予測した指標予測値の正確さを向上させることができる。
【0057】
幾つかの実施例において、第一対象集合における複数の対象の、所定指標に関する指標実験値と、対象特徴とに基づいて、所定指標と対象特徴との間のマッピング関係を決定するステップは、参照対象集合における各対象の所定指標に関する指標実験値に基づいて、参照対象集合における各対象の対象特徴を決定し;及び、参照対象集合における各対象の所定指標に関する指標実験値及び対象特徴に基づいて、所定指標と対象特徴との間のマッピング関係を決定するステップを含む。
【0058】
具体的には、サーバーは参照対象集合内の各対象に対応する指標実験値に対して統計の計算を行うことで、参照対象における各対象の対象特徴を得ることができる。そのうち、対象に対応する指標実験値とは対象の所定指標に関する指標実験値を指す。統計の計算は平均値、最大値又は最小値の計算のうちの少なくとも1つを含むが、これらに限られない。
【0059】
幾つかの実施例において、所定指標と対象特徴との間のマッピング関係は第一マッピング関係であり、マッピング関係は曲線で表されても良く、例えば、第一マッピング関係は曲線y1=f1(x)で表され、参照対象集合における各対象について、サーバーは対象の対象特徴及び指標実験値を曲線y1=f1(x)上の点とし、複数曲線上の複数点を用いて、取得された該複数点に対してフィッティングを行うことで、該マッピング関係を表す曲線y1=f1(x)を生成することができる。
【0060】
本実施例では、参照対象集合が「各種類のアミノ酸が各突然変異位置で少なくとも目標回数出現するという条件」を満たすため、取得された参照対象集合における各アミノ酸はバランスをとることができ、これによって、参照対象集合における各対象の所定指標に関する指標実験値に基づいて、参照対象集合における各対象の対象特徴を決定することは、アミノ酸の符号化情報のカバーする範囲が比較的大きくなり、即ち、対象特徴がカバーする情報範囲が広がるようにさせることができる。
【0061】
幾つかの実施例において、第一対象集合に基づいてスクリーニングすることで参照対象集合を得るステップは次のようなステップを含んでも良く、即ち、現在のスコア集合を取得し、現在のスコア集合は各種類のアミノ酸にそれぞれ対応する現在のスコアを含み;第一対象集合に基づいて第二蛋白質集合を取得し、現在のスコア集合に基づいて第二蛋白質集合から目標蛋白質を選択し;現在のスコア集合において目標蛋白質における各突然変異位置でのアミノ酸にそれぞれ対応する現在のスコアを逓減させ、目標蛋白質を第二蛋白質集合から第一蛋白質集合にトランスファーし;及び、現在のスコア集合が、第一蛋白質集合が「各種類のアミノ酸が各突然変異位置で少なくとも目標回数出現するという条件」を満足しないことを表す場合に、現在のスコア集合に基づいて第二蛋白質集合から目標蛋白質をスクリーニング(選択)するステップに戻り、このような処理を、現在のスコア集合が、第一蛋白質集合が「各種類のアミノ酸が各突然変異位置で少なくとも目標回数出現するという条件」を満たしたことを表すまで行い、そして、第一蛋白質集合を参照対象集合として決定する。
【0062】
そのうち、現在のスコア集合は各種類のアミノ酸にそれぞれ対応する現在のスコアを含む。現在のスコアは整数であり、例えば、2である。各種類のアミノ酸にそれぞれ対応する現在のスコアは異なっても良く、同じであっても良く、各種類のアミノ酸は1つの現在のスコアに対応しても良く、複数の現在のスコアに対応しても良く、例えば、同じ種類のアミノ酸は異なるの突然変異位置でそれぞれ対応する現在のスコアを有する。現在のスコア集合は常に変化する。目標蛋白質は現在のスコア集合に基づいて第二蛋白質集合から選択され、目標蛋白質は1つ又は複数あっても良い。
【0063】
具体的には、サーバーは第一対象集合を第二蛋白質集合として決定することができ、即ち、第二蛋白質集合における対象は第一対象集合における対象と一致しており、又は、サーバーは第一対象集合から参照対象集合における対象以外の対象を得て第二対象集合を構成しても良い。
【0064】
幾つかの実施例において、現在のスコア集合を第二蛋白質集合における各突然変異型蛋白質の現在の蛋白質スコアとして決定し、最大の現在の蛋白質スコアに対応する突然変異型蛋白質を目標蛋白質として決定する。サーバーは現在の蛋白質スコアの大から小への順序に従って、第二蛋白質集合における各突然変異型蛋白質を並べ替えることで、第一蛋白質シーケンスを取得し、そして、第一蛋白質シーケンスにおいて並べ替え閾値の前に配列される突然変異型蛋白質を目標蛋白質として決定することができ、並べ替え閾値は予め設定されても良く、又は、ニーズに応じて設定されても良く、例えば、第1位又は第2位などのうちの任意の1つであっても良い。
【0065】
幾つかの実施例において、サーバーは現在のスコア集合において目標蛋白質における各突然変異位置でのアミノ酸にそれぞれ対応する現在のスコアを逓減させ、また、目標蛋白質を第二蛋白質集合から第一蛋白質集合にトランスファーすることができる。
【0066】
例を挙げて説明すると、第一対象集合における対象がkサイトの飽和変異誘発のシナリオで生成される突然変異型蛋白質である場合に、現在のスコア集合には各種類のアミノ酸の各種類の突然変異位置での現在のスコアが含まれ、突然変異位置が4つあることを例にとり、現在のスコア集合は行列の形式で表されても良く、現在のスコア集合はさらに現在のスコア行列と称されても良く、現在のスコア集合に対応する行列では、第u行第w列が、第u種類のアミノ酸が第w個目の突然変異位置で対応する現在のスコアを表し、1≦u≦m、1≦w≦kであり、mはアミノ酸の種類の数を表し、例えば、20種類であり、kは突然変異位置の数を表し、例えば、4である。例えば、突然変異型蛋白質において第1個目の突然変異位置でのアミノ酸が第1種類のアミノ酸である場合に、対応する現在のスコアは行列における第1行第1列のスコアである。
【0067】
第一対象集合における対象が非飽和変異誘発のシナリオで生成される突然変異型蛋白質である場合に、現在のスコア集合には各種類のアミノ酸にそれぞれ対応する現在のスコアが含まれ、現在のスコア集合は1つのベクトルで表されても良く、現在のスコア集合はさらに現在のスコアベクトルと称されても良く、該ベクトルにおける第u個目の位置でのスコアが第u種類のアミノ酸の現在のスコアを表し、例えば、突然変異型蛋白質において第1個目の突然変異位置でのアミノ酸が第1種類のアミノ酸である場合に、対応する現在のスコアは該ベクトルにおける第1位のスコアである。
【0068】
幾つかの実施例において、現在のスコア集合により、第一蛋白質集合が「各種類のアミノ酸が各突然変異位置で少なくとも目標回数出現するという条件」を満足しないと表される場合に、サーバーは、現在のスコア集合に基づいて第二蛋白質集合から目標蛋白質を選ぶステップの実行に戻り、このような処理を、現在のスコア集合により、第一蛋白質集合が「各種類のアミノ酸が各突然変異位置で少なくとも目標回数出現するという条件」を満たした表されるまで行い、そして、第一蛋白質集合を参照対象集合として決定する。具体的には、第一蛋白質集合は常に変化し、最初の第一蛋白質集合に何れの蛋白質が含まれない場合に、最初の現在のスコア集合におけるスコアはすべて目標回数に等しく、例えば、目標回数が2である場合に、最初の現在のスコア集合における各現在のスコアは2に等しい。目標蛋白質を決定した後に、目標蛋白質を第二蛋白質集合から第一蛋白質集合にトランスファーし、目標蛋白質における各突然変異位置でのアミノ酸が現在のスコア行列において対応する現在のスコアを逓減させ、毎回1減算し、例えば、2から1に又は1から0に減らし、これによって、現在のスコア行列を絶えずに更新し、現在のスコア行列に0よりも大きいスコアが存在しない場合、第一蛋白質集合が「各種類のアミノ酸が各突然変異位置で少なくとも目標回数出現するという条件」を満足したと決定し、そして、第一蛋白質集合を参照対象集合として決定する。
【0069】
本実施例では、第一対象集合に基づいて第二蛋白質集合を取得し、第二蛋白質集合から目標プロテイン値をスクリーニングし、目標蛋白質に基づいて現在のスコア集合を更新し、目標蛋白質を第二蛋白質集合から第一蛋白質集合にトランスファーすることで、絶えずに蛋白質を選択して現在のスコアを更新し、現在のスコア集合により、第一蛋白質集合が「各種類のアミノ酸が各突然変異位置で少なくとも目標回数出現するという条件」を満たしたと表される場合に、第一蛋白質集合を参照対象集合として決定し、これによって、第一対象集合から、各種類のアミノ酸が各突然変異位置で少なくとも目標回数現れるという条件を満足した参照対象集合を迅速に選択し、参照対象集合を決定する実験回数を減少させることができるため、実験コスト及び時間コストを削減することができる。
【0070】
幾つかの実施例において、現在のスコア集合を取得するステップは次のようなステップを含み、即ち、最初のスコア集合を取得し、最初のスコア集合における各種類のアミノ酸にそれぞれ対応する最初のスコアは目標回数であり;及び、最初のスコア集合において野生型蛋白質内の各突然変異位置でのアミノ酸にそれぞれ対応する最初のスコアを逓減させ、現在のスコア集合を取得し、そして、野生型蛋白質に基づいて第一蛋白質集合を決定し、野生型蛋白質は突然変異の発生がない蛋白質である。
【0071】
そのうち、最初のスコア集合における各種類のアミノ酸にそれぞれ対応する最初のスコアは目標回数であり、目標回数が整数、例えば、2である場合に、最初のスコアは2である。例えば、第一対象集合における対象がkサイトの飽和変異誘発のシナリオで生成される突然変異型蛋白質である場合に、最初のスコア集合には各種類のアミノ酸の各種類の突然変異位置上の最初のスコアが含まれ、突然変異位置が4つあることを例にとり、最初に取得される集合は行列の形式で表され、かつ行列における各要素はすべて2であっても良く、最初に取得される集合に対応する行列では、第u行第w列は第u種類のアミノ酸が第w個目の突然変異位置で対応する最初のスコアを表し、1≦u≦m、1≦w≦kであり、mはアミノ酸の種類の数を表し、例えば、20種類であり、kは突然変異位置の数を表し、例えば、4である。例えば、突然変異型蛋白質における第1個目の突然変異位置でのアミノ酸が第1種類のアミノ酸である場合に、対応する最初のスコアは行列内の第1行第1列の最初のスコアである。
【0072】
第一対象集合における対象が非飽和変異誘発のシナリオで生成される突然変異型蛋白質である場に、最初のスコア集合には各種類のアミノ酸にそれぞれ対応する最初のスコアが含まれ、最初のスコア集合は1つのベクトルで表され、かつ該ベクトルにおける要素はすべて2であっても良く、該ベクトルにおける第u個目の位置でのスコアは第u種類のアミノ酸の最初のスコアを表す。突然変異型蛋白質における第1個目の突然変異位置上のアミノ酸が第1種類のアミノ酸である場合に、対応する最初のスコアは該ベクトルにおける第1位のスコアである。
【0073】
具体的には、kサイトの飽和変異誘発のシナリオの場合に、k個の突然変異位置があり、サーバーは野生型蛋白質から各突然変異位置に対応するアミノ酸を決定し、最初のスコア集合内の該アミノ酸に対応する現在のスコアを逓減させ、毎回1減算することで、現在のスコア集合を取得することができる。4サイトの飽和変異誘発のシナリオを例にとり、突然変異位置が4つあり、この4つの突然変異位置が野生型蛋白質において対応するアミノ酸がそれぞれ第1種類のアミノ酸A1、第2種類のアミノ酸A2、第3種類のアミノ酸A3、及び第4種類のアミノ酸A4である場合に、最初のスコア集合に対応する行列における第1行第1列、第2行第2列、第3行第3列、及び第4行第4列のスコアのそれぞれを1減算し、1減算した後の該最初のスコア集合を現在のスコア集合として決定する。
【0074】
非飽和変異誘発のシナリオの場合に、各種類の突然変異型蛋白質が対応して目標数の突然変異位置を有し、目標数は例えば、2であり、サーバーは非飽和変異誘発のシナリオにおける複数の突然変異型蛋白質にそれぞれ対応する突然変異位置をカウント(統計)することで、突然変異位置集合を得ることができ、サーバーは野生型蛋白質から突然変異位置集合内の各突然変異位置に対応するアミノ酸を決定することができ、サーバーは野生型蛋白質から突然変異位置集合における各突然変異位置が野生型蛋白質においてそれぞれ対応するアミノ酸を決定し、最初のスコア集合において決定された各種類のアミノ酸にそれぞれ対応する現在のスコアを逓減させ、毎回1減算することで、現在のスコア集合を取得することができる。
【0075】
幾つかの実施例において、サーバーは野生型蛋白質からなる集合を第一蛋白質集合として決定することができ、即ち、最初の第一蛋白質集合には1つの野生型蛋白質が含まれる。
【0076】
本実施例では、突然変異の発生がない野生型蛋白質に基づいて最初のスコア集合を更新し、現在のスコア集合を取得することで、スコア逓減の速度を加速化し、参照対象集合を得る効率を上げ、時間コストを削減することができる。
【0077】
幾つかの実施例において、現在のスコア集合に基づいて第二蛋白質集合から目標蛋白質を選ぶステップは次のようなステップを含み、即ち、第二蛋白質集合における各突然変異型蛋白質について、現在のスコア集合から突然変異型蛋白質における各突然変異位置でのアミノ酸にそれぞれ対応する現在のスコアを決定し;取得した各現在のスコアに基づいて突然変異型蛋白質の現在の蛋白質スコアを決定し;及び、現在の蛋白質スコアに基づいて第二蛋白質集合から目標蛋白質を選んで取得する。
【0078】
具体的には、第二蛋白質集合における各突然変異型蛋白質について、現在のスコア集合から突然変異型蛋白質における各突然変異位置でのアミノ酸にそれぞれ対応する現在のスコアを決定し、取得した各現在のスコアの和を求め、和を求めた結果を突然変異型蛋白質の現在の蛋白質スコアとする。
【0079】
幾つかの実施例において、サーバーは現在の蛋白質スコアの大から小への順序に従って第二蛋白質集合における各突然変異型蛋白質を並べ替え、第一蛋白質シーケンスを取得し、第一蛋白質シーケンスにおいて並べ替え閾値の前に配列される突然変異型蛋白質を目標蛋白質として決定することができ、並べ替え閾値は予め設定されても良く、又は、ニーズに応じて設定されても良く、例えば、第1位又は第2位などのうちの任意の1つである。
【0080】
本実施例では、第二蛋白質集合から、現在の蛋白質スコアが、スコアが比較的大きいという条件を満足した突然変異型蛋白質をスクリーニングし、目標蛋白質を取得し、現在の蛋白質スコアが大きいほど、現在のスコア集合に対しての更新の強度が高くなるため、現在のスコア集合が、第一蛋白質集合が「各種類のアミノ酸が各突然変異位置で少なくとも目標回数出現するという条件」を満たしたことを表すようにさせる速度を加速化し、参照対象集合を得る効率を上げることができる。
【0081】
幾つかの実施例において、各種類のアミノ酸は対応するアミノ酸を有し、現在のスコア集合におけるスコアはアミノ酸及び突然変異位置により一意に標識され、現在のスコア集合から突然変異型蛋白質における各突然変異位置でのアミノ酸にそれぞれ対応する現在のスコアを決定するステップは次のようなステップを含み、即ち、各突然変異位置でのアミノ酸について、アミノ酸に対応するアミノ酸及び突然変異位置に基づいて、現在のスコア集合から突然変異位置でのアミノ酸に対応する現在のスコアを決定する。
【0082】
具体的には、第一対象集合における対象がkサイトの飽和変異誘発のシナリオで生成される突然変異型蛋白質である場合に、現在のスコア集合には各種類のアミノ酸の各種類の突然変異位置上の現在のスコアが含まれ、即ち、現在のスコア行列におけるスコアはアミノ酸及び突然変異位置により一意に標識され、突然変異位置が4つあることを例にとり、現在のスコア集合は行列の形式で表されても良く、現在のスコア集合に対応する行列では、第u行第w列は第u種類のアミノ酸が第w個目の突然変異位置で対応する現在のスコアを表し、1≦u≦m、1≦w≦kであり、mはアミノ酸の種類の数を表し、例えば、20種類であり、kは突然変異位置の数を表し、例えば、4である。例えば、突然変異型蛋白質における第1個目の突然変異位置上のアミノ酸が第1種類のアミノ酸である場合に、対応する現在のスコアは行列内の第1行第1列のスコアである。
【0083】
非飽和変異誘発のシナリオの場合に、現在のスコア集合が現在のスコアベクトルであるときに、現在のスコアベクトルにおける第u個目の要素は第u種類のアミノ酸のスコアであり、突然変異型蛋白質が2つの突然変異位置を有するときに、この2つの突然変異位置のアミノ酸はそれぞれ第3種類のアミノ酸及び第10種類のアミノ酸であり、このときに、第3種類のアミノ酸に対応するスコアは現在のスコアベクトルにおける第3個目の位置のスコアであり、第10種類のアミノ酸に対応するスコアは現在のスコアベクトル内の第10個目の位置のスコアである。
【0084】
幾つかの実施例において、kサイトの飽和変異誘発のシナリオの場合に、サーバーは以下のアルゴリズムにより、スクリーニングして取得する参照対象集合を決定することができる。
【0085】
該アルゴリズムの入力データは、p,集合Dtrain={(S0,y0)},行列Mである。
【0086】
そのうち、pとは各突然変異サイト上の各種類のアミノ酸の出現回数、即ち、目標回数を指し、例えば、2である。Dtrainとは第一蛋白質集合を指し、(S0,y0)におけるS0は野生型蛋白質を表し、y0は野生型蛋白質の指標実験値を表す。Mとは現在のスコア行列を指し、
【0087】
【数3】
であり、そのうち、mはアミノ酸の種類の数を表し、例えば、20であり、AAINDEX(a)は行列Mにおけるアミノ酸aの座標を表し、即ち、アミノ酸aに対応するスコアのMにおける位置である。
【0088】
現在のスコア行列を初期化するステップは、第u種類のアミノ酸がS0の第w個目の突然変異位置で出現する場合に、Muw=p-1であり、そうでない場合に、Muw=pであり、MuwはM中u行第w列の要素であり、1≦w≦kである。
【0089】
該アルゴリズムの出力データは更新後の集合Dtrainである。アルゴリズムが出力するDtrainは最初の参照対象集合である。
【0090】
該アルゴリズムのステップは以下のとおりである。
【0091】
ステップ1:while ∃Muw>0 doであり、該ステップの意味は、行列Mに0よりも小さい要素が存在する場合に、ステップ2乃至ステップ5を実行することである。
【0092】
ステップ2:各変異体のスコア
【0093】
【数4】
を計算し、そのうち、Score
iは第一対象集合におけるi番目の突然変異型蛋白質S
iの現在の蛋白質スコアであり、V
i={(u,w)|AAINDEX(S
ij)}はS
i中の各突然変異位置上の各アミノ酸S
ijに対応する現在のスコアの、行列Mにおける座標(u,w)を表す。
【0094】
ステップ3:スコア最大の突然変異型蛋白質i*=argmaxScoreiを選択し、該ステップは、現在の蛋白質スコアが最大の突然変異型蛋白質を決定するために用いられる。
【0095】
そのうち、i*は現在の蛋白質スコアが最大の突然変異型蛋白質が第一対象集合における第i*個目の突然変異型蛋白質であることを表す。
【0096】
ステップ4:集合の更新を行い、Dtrain←(Si*,yi*)であり、該ステップの意味は第一対象集合における第i*個目の突然変異型蛋白質を第一蛋白質集合に追加することである。
【0097】
そのうち、(Si*,yi*)におけるSi*は第一対象集合における第i*個目の突然変異型蛋白質を表し、yi*は第i*個目の突然変異型蛋白質の指標実験値を表す。
【0098】
ステップ5:スコア行列Mを更新し、第u種類のアミノ酸がSi*の第w個目の突然変異位置で出現する場合に、Muw=Muw-1であり、そうでない場合に、Muw=Muwである。
【0099】
ステップ6:end whileであり、Mに0よりも大きい要素が存在しない場合に、ステップ7を実行する。
【0100】
ステップ7:Dtrainを出力する。
【0101】
幾つかの実施例において、非飽和変異誘発のシナリオの場合に、サーバーは以下のアルゴリズムにより、参照対象集合をスクリーニングして取得することができる。
【0102】
該アルゴリズムの入力データはp,集合Dtrain={(S0,y0)},ベクトルQである。
【0103】
そのうち、pとは各突然変異サイト上の各種類のアミノ酸の出現回数、即ち、目標回数を指し、例えば、2である。Dtrainとは第一蛋白質集合を指し、(S0,y0)におけるS0は野生型蛋白質を表し、y0は野生型蛋白質の指標実験値を表す。ベクトルQとは現在のスコアベクトルを指し、
【0104】
【数5】
であり、mはアミノ酸の種類の数を表し、例えば、20であり、AAINDEX(a)はベクトルQにおけるアミノ酸aの座標を表し、即ち、アミノ酸aに対応するスコアのQにおける位置である。
【0105】
現在のスコアベクトルを初期化するステップは、第u種類のアミノ酸がS0の突然変異位置で出現する場合に、Qu=p-1であり、そうでない場合に、Qu=pであり、QuはベクトルQ内の第u個目の要素である。
【0106】
該アルゴリズムの出力データは更新後の集合Dtrainである。アルゴリズムが出力するDtrainは最初の参照対象集合である。
【0107】
ステップ1:while ∃Qu>0 doであり、該ステップは、行列Qに0よりも小さい要素が存在する場合に、ステップ2乃至ステップ5を実行することを意味する。
【0108】
ステップ2:各変異体のスコア
【0109】
【数6】
を計算する。そのうち、Score
iは第一対象集合におけるi番目の突然変異型蛋白質S
iの現在の蛋白質スコアであり、B
i={u|AAINDEX(S
ij)}はS
i中の各突然変異位置上の各アミノ酸S
ijに対応する現在のスコアの、行列Qにおける座標uを表す。
【0110】
ステップ3:スコア最大の変異体i*=argmaxScoreiを選択し、該ステップは現在の蛋白質スコアが最大の突然変異型蛋白質を決定するために用いられる。
【0111】
そのうち、i*は現在の蛋白質スコアが最大の突然変異型蛋白質が第一対象集合における第i*個目の突然変異型蛋白質であることを表す。
【0112】
ステップ4:集合の更新を行い、Dtrain←(Si*,yi*)であり、該ステップは第一対象集合における第i*個目の突然変異型蛋白質を第一蛋白質集合に追加することを意味する。
【0113】
ステップ5:スコア行列Qを更新し、第u種類のアミノ酸がSi*の突然変異位置で出現する場合に、Qu=p-1であり、そうでない場合に、Qu=pであり、QuはベクトルQにおける第u個目の要素である。
【0114】
ステップ6:end whileであり、Qに0よりも大きい要素が存在しない場合に、ステップ7を実行する。
【0115】
ステップ7:Dtrainを出力する。
【0116】
本実施例では、各種類のアミノ酸は対応してアミノ酸を有し、現在のスコア集合におけるスコアはアミノ酸及び突然変異位置により一意に標識され、各突然変異位置でのアミノ酸について、アミノ酸に対応するアミノ酸及び突然変異位置に基づいて、現在のスコア集合から突然変異位置でのアミノ酸に対応する現在のスコアを決定することで、各アミノ酸の各突然変異位置での現在のスコアを迅速かつ正確に決定することができる。
【0117】
本出願で提供される蛋白質符号化の方法(即ち、蛋白質特徴の決定方法)では、ベイズ最適化と併せて蛋白質進化を補助することができ、蛋白質を符号化して蛋白質特徴を得るプロセスは蛋白質特徴表現のプロセスと称されても良く、有効な蛋白質特徴表現はベイズ最適化により最適な蛋白質変異体を見つけることに極めて重要である。関連分野の知識と併せて正確かつ情報豊富な低次元特徴表現を構築するために、本出願では新しい低次元符号化スキームを、各サイトの各アミノ酸を表すために提案している。具体的に言えば、蛋白質指向性進化における2つの実験シナリオ、即ち、kサイトの飽和変異誘発のシナリオ及び非飽和変異誘発のシナリオについて、各サイトのアミノ酸表現を計算する2つの方式を与えている。
【0118】
幾つかの実施例において、対象特徴は蛋白質特徴であり、参照対象集合における各対象の所定指標に関する指標実験値に基づいて、参照対象集合における各対象の対象特徴を決定するステップは、各突然変異位置について、突然変異位置でのアミノ酸の種類に従って参照対象集合を分割し、各種類のアミノ酸にそれぞれ対応する第一サブ対象集合を取得し;各突然変異位置での各種類のアミノ酸について、アミノ酸に対応する第一サブ対象集合における各対象の指標実験値に基づいて、アミノ酸の突然変異位置でのアミノ酸特徴を決定し;及び、対象中の各突然変異位置でのアミノ酸のアミノ酸特徴に基づいて、対象の蛋白質特徴を得るステップを含む。
【0119】
そのうち、第一サブ対象集合は参照対象集合のサブ集合であり、第一サブ対象集合は参照対象集合における少なくとも一部の対象を含む。第一サブ対象集合は突然変異位置及びアミノ酸の種類により一意に決定され、例えば、突然変異位置が4つあり、それぞれ、第1個目の突然変異位置、第2個目の突然変異位置、第3個目の突然変異位置、及び第4個目の突然変異位置であり、アミノ酸が20種類あり、それぞれ、第ii種類のアミノ酸であり、1≦ii≦20である場合に、80個の第一サブ対象集合を生成し、異なる第一サブ対象集合に対応する突然変異位置及びアミノ酸のうちの少なくとも1つが異なり、例えば、第一サブ対象集合1が第1個目の突然変異位置及び第1種類のアミノ酸に対応する第一サブ対象集合であり、第一サブ対象集合2は第1個突然変異位置及び第2種類のアミノ酸に対応する第一サブ対象集合である。
【0120】
具体的には、各突然変異位置について、サーバーは突然変異位置でのアミノ酸の種類に従って参照対象集合を分割し、各種類のアミノ酸にそれぞれ対応する第一サブ対象集合を得ることができる。例えば、第kk個目の突然変異位置について、サーバーは参照対象集合における各対象から第kk個目の突然変異位置上のアミノ酸を得て、第kk個目の突然変異位置に対応するアミノ酸集合を構成することができ、例えば、パラメータ対象集合に40個の対象が含まれる場合に、アミノ酸集合には40個のアミノ酸が含まれ、異なる対象における第kk個目の突然変異位置上のアミノ酸の種類は同じであっても良く、異なっても良い。第kk個目の突然変異位置に対応するアミノ酸集合を得た後に、サーバーはアミノ酸の種類に基づいてアミノ酸集合を分割して複数のサブ集合を取得することができ、同一の種類のアミノ酸を同じサブ集合に分類し、異なるアミノ酸を異なるサブ集合に分類し、各サブ集合には1種類のみのアミノ酸が含まれ、分割することで取得される各サブ集合は第kk個目の突然変異位置上の各種類のアミノ酸にそれぞれ対応する第一サブ対象集合である。例えば、蛋白質における第j個目の位置が突然変異位置である場合に、該突然変異位置に対応する第一サブ対象集合はVj(a)={i|Sij=a}として表されても良く、そのうち、jは突然変異位置を表し、iは参照対象集合における対象の順番号であり、Sijは参照対象集合内のi番目の対象Siにおける突然変異位置jでのアミノ酸を表し、aは任意の1つの種類のアミノ酸を表し、例えば、アミノ酸が20種類ある場合に、aはこの20種類のアミノ酸のうちの任意の1つの種類を表し、aが第1種類のアミノ酸(A1と記す)である場合に、突然変異位置jでのアミノ酸A1に対応する第一サブ対象集合はVj(A1)={i|Sij=A1}である。
【0121】
幾つかの実施例において、各突然変異位置での各種類のアミノ酸について、サーバーはアミノ酸に対応する第一サブ対象集合における各対象の指標実験値に基づいて、アミノ酸の突然変異位置でのアミノ酸特徴を決定することができる。例を挙げて説明すると、突然変異位置jでのアミノ酸A1に対応する第一サブ対象集合がVj(A1)={i|Sij=A1}である場合に、アミノ酸A1の突然変異位置jでのアミノ酸特徴を計算するときに、Vj(A1)={i|Sij=A1}における各対象の順番号に対応する対象の指標実験値を用いて、アミノ酸A1の突然変異位置jでのアミノ酸特徴を計算することができる。
【0122】
本実施例では、各突然変異位置での各種類のアミノ酸について、アミノ酸に対応する第一サブ対象集合における各対象の指標実験値に基づいて、アミノ酸の突然変異位置でのアミノ酸特徴を決定することで、同一の種類のアミノ酸の異なる突然変異位置でのアミノ酸特徴が突然変異位置に関連しているようにさせ、即ち、同じアミノ酸は異なる位置で異なる特徴表現を有し、例えば、異なる突然変異位置に所在する同一の種類のアミノ酸の特徴は互いに異なっても良く、これによって、アミノ酸に対する符号化の精度を向上させることができる。本実施例で提供される蛋白質特徴の決定方法は、kサイトの飽和変異誘発のシナリオで生成される突然変異型蛋白質を符号化し、突然変異型蛋白質の蛋白質特徴を得るために用いられ得る。
【0123】
本出願で提供される対象決定方法をベイズ最適化に適用し、ベイズ最適化方法を利用して蛋白質指向性進化を補助することができる。ベイズ最適化は少量の測定サンプルにおいて、できる限り少ない実験回数で、探索と利用のバランスをとることで、組み合わせ空間を有効に探索し、サンプル空間における最適解を見つけることができる。しかし、ベイズ最適化の応用では、今のところ、符号化ストラテジーは幾つかの問題に直面している。一方では、高次元符号化ストラテジーはベイズ最適化にとって困難であり、何故なら、グローバルな最適化捜索を成功させるには正確かつ情報豊富な低次元表現が要されるからである。他方では、分類ラベル(例えば、one-hot符号化)は特定の蛋白質の可用実験データからデスバリアントに関する知識を失わせる可能性がある。この点については
図4から分かり、
図4における横座標に対応する各字母は1つの種類のアミノ酸を表し、例えば、Vは1つの種類のアミノ酸であり、
図4ではGB1データセットから選択された384個の実験サンプル(GB1変異体)のうちの4つの突然変異サイト上の20種類のアミノ酸(AA、Amino Acid)の平均適応度が計算されている。各突然変異サイト上の各種類のアミノ酸の平均適応度は該突然変異サイトでの親和力を有する測定値の平均値を計算することにより取得され、対応する標準偏差は誤差バー(即ち、
図4における縦方向の線)として示されている。
図4から分かるように、他の位置でのアミノ酸の選択に関係なく、特定の突然変異サイトに幾つかのデスバリアントが存在することが原因で、直接、低適応度又は零(ゼロ)適応度をもたらすことができる。よって、従来の蛋白質符号化スキームをベイズ最適化方法に適用して蛋白質指向性進化を支援することは通常、効果が良くない。
【0124】
対して、本出願で提供される蛋白質符号化方法(即ち、蛋白質特徴の決定方法)によれば、符号化することで取得する蛋白質特徴が正確かつ情報豊富な低次元特徴であるため、本出願で提供される対象決定方法をベイズ最適化に適用することで、ベイズ最適化を利用して蛋白質指向性進化を迅速に補助することができる。
【0125】
幾つかの実施例において、アミノ酸に対応する第一サブ対象集合における各対象の指標実験値に基づいて、アミノ酸の突然変異位置でのアミノ酸特徴を決定するステップは、アミノ酸に対応する第一サブ対象集合における各対象の指標実験値に対して統計の計算を行い、少なくとも1つの指標実験統計値を取得し;及び、少なくとも1つの指標実験統計値に基づいてアミノ酸の突然変異位置でのアミノ酸特徴を決定するステップを含む。
【0126】
そのうち、指標実験統計値は1つ又は複数あっても良く、複数とは少なくとも2つを指す。統計の計算は平均値、最小値又は最小値の計算などのうちの少なくとも1つを含むが、これらに限定されない。
【0127】
具体的には、サーバーはアミノ酸に対応する第一サブ対象集合における各対象の指標実験値に対して統計の計算を行って少なくとも1つの指標実験統計値を取得し、少なくとも1つの指標実験統計値に基づいてアミノ酸の突然変異位置でのアミノ酸特徴を決定することができる。
【0128】
幾つかの実施例において、アミノ酸に対応する第一サブ対象集合における各対象の指標実験値に対して統計の計算を行って少なくとも1つの指標実験統計値を取得するステップは、アミノ酸に対応する第一サブ対象集合における各対象の指標実験値に対して平均値の計算を行って第一指標平均値を取得し;及び、アミノ酸に対応する第一サブ対象集合における各対象の指標実験値から最大の指標実験値を決定して第一指標最大値を取得するステップを含み、少なくとも1つの指標実験統計値は第一指標平均値又は第一指標最大値のうちの少なくとも1つを含む。例を挙げて説明すると、突然変異位置jでのアミノ酸A1に対応する第一サブ対象集合がVj(A1)={i|Sij=A1}である場合に、アミノ酸A1の突然変異位置jでのアミノ酸特徴を計算するときに、Vj(A1)={i|Sij=A1}における各順番号に対応する対象の指標実験値を取得し、取得した各指標実験値の平均値を計算して第一指標平均値を取得し、各指標実験値から最大値を決定して第一指標最大値を取得し、第一指標平均値は1つの指標実験統計値であり、最大値も1つの指標実験統計値であり、第一指標平均値又は第一指標最大値のうちの少なくとも1つに基づいてアミノ酸A1の突然変異位置jでのアミノ酸特徴を決定する。本実施例では、第一指標平均値及び第一指標最大値が統計により取得されるため、アミノ酸の特徴を反映することができ、これによって、第一指標平均値又は第一指標最大値を指標実験統計値とすることで、指標実験統計値の正確さを向上させることができる。
【0129】
幾つかの実施例において、少なくとも1つの指標実験統計値に基づいてアミノ酸の突然変異位置でのアミノ酸特徴を決定するステップは、第一指標平均値及び第一指標最大値により、アミノ酸の突然変異位置でのアミノ酸特徴を構成するステップを含む。例えば、第一指標平均値及び第一指標最大値のそれぞれを特徴値としてアミノ酸特徴を構成しても良く、即ち、アミノ酸特徴には第一指標平均値及び第一指標最大値が含まれる。例えば、第一指標平均値は公式(1)として表され、第一指標最大値は公式(2)として表されても良い。公式(1)及び公式(2)におけるyiは参照対象集合におけるi番目の対象の所定指標に関する指標実験値を表す。公式(1)及び公式(2)におけるaはアミノ酸を表す。本実施例では、第一指標平均値及び第一指標最大値によりアミノ酸の突然変異位置でのアミノ酸特徴を構成することで、アミノ酸特徴が指標実験値に関連しているようにさせることができるため、アミノ酸特徴に基づいてスクリーニングされる目標対象の正確さを向上させることができる。
【0130】
【数7】
例を挙げて説明すると、参照対象集合における突然変異型蛋白質がkサイトの飽和変異誘発のシナリオで生成される突然変異型蛋白質であることを例にとり、各突然変異サイトの各種類のアミノ酸の所在する突然変異型蛋白質の親和力の測定値の平均値又は最大値を計算することでアミノ酸を符号化する。対応する突然変異型蛋白質の特徴はこれらのアミノ酸の符号化によるものからなる特徴ベクトルにより表される。このような方式は同じアミノ酸が異なる位置で異なる特徴表現を有することを可能にすることで、回帰のために1つのよりスムーズなローカルな変数を構築することができる。
【0131】
本実施例では、アミノ酸に対応する第一サブ対象集合における各突然変異型蛋白質の指標実験値に対して統計の計算を行い、統計による指標実験統計値に基づいてアミノ酸の突然変異位置でのアミノ酸特徴を決定し、データの統計を行うことで、符号化することで取得されるアミノ酸特徴の精度を向上させることができる。本実施例で提供される蛋白質特徴の決定方法をkサイトの飽和変異誘発のシナリオで生成される突然変異型蛋白質に対しての符号化に適用することで、突然変異型蛋白質の蛋白質特徴を得ることができる。
【0132】
幾つかの実施例において、対象特徴は蛋白質特徴であり、参照対象集合における各対象の所定指標に関する指標実験値に基づいて参照対象集合における各対象の対象特徴を決定するステップは、各種類のアミノ酸について、参照対象集合から、突然変異位置でのアミノ酸に含まれるアミノ酸の対象を確定し、アミノ酸に対応する第二サブ対象集合を取得し;各種類のアミノ酸について、アミノ酸に対応する第二サブ対象集合における各対象の指標実験値に基づいて、アミノ酸のアミノ酸特徴を決定し;及び、対象における各突然変異位置でのアミノ酸のアミノ酸特徴に基づいて、対象の蛋白質特徴を得るステップを含む。
【0133】
そのうち、第二サブ対象集合は参照対象集合のサブ集合であり、第二サブ対象集合は参照対象集合における少なくとも一部の対象を含む。各第二サブ対象集合はそれぞれ1つの種類のアミノ酸に対応し、異なる第二サブ対象集合は1つのアミノ酸について異なる。
【0134】
具体的には、参照対象集合における対象は蛋白質であり、参照対象集合は突然変異型蛋白質及び野生型蛋白質を含んでも良い。各種類のアミノ酸について、サーバーは参照対象集合から突然変異位置でのアミノ酸に含まれる該アミノ酸の対象を決定して該アミノ酸に対応する第二サブ対象集合を構成することができる。例えば、第1種類のアミノ酸A1の場合に、各対象について、該対象の各突然変異位置上のアミノ酸を決定して該対象に対応するアミノ酸集合を構成し、参照対象集合における各対象にそれぞれ対応するアミノ酸集合を得た後に、各対象にそれぞれ対応するアミノ酸集合から、第1種類のアミノ酸A1を含むアミノ酸集合を決定し、A1を含むアミノ酸集合に対応する対象により、アミノ酸A1に対応する第二サブ対象集合を構成する。
【0135】
幾つかの実施例において、参照対象集合における各対象に関し、各種類のアミノ酸について、サーバーは該対象から各種類のアミノ酸にそれぞれ対応する突然変異位置を決定することができ、そのうち、突然変異位置1上のアミノ酸がA1であるときに、アミノ酸A1に対応する突然変異位置は突然変異位置1である。各種類のアミノ酸は0個、1個又は複数の突然変異位置に対応しても良く、複数とは少なくとも2つを指し、例えば、参照対象集合におけるi番目の対象Sijについて、各種類のアミノ酸にそれぞれ対応する突然変異位置からなる集合Ni(a)は公式(3)として表されても良く、そのうち、jは突然変異位置である。各種類のアミノ酸について、各アミノ酸における各種類のアミノ酸にそれぞれ対応する突然変異位置からなる集合に基づいて、各種類のアミノ酸に対応する第二サブ対象集合を決定することができる。例えば、第二サブ対象集合V(a)は公式(4)として表されても良く、公式(4)では、アミノ酸aについて、i番目の対象におけるアミノ酸aに対応する突然変異位置の数(即ち、|Ni(a)|)が0でない場合に、i番目の対象をアミノ酸aに対応する第二サブ対象集合における対象とする。|Ni(a)|は集合Ni(a)に含まれる要素の数を表す。
【0136】
【数8】
幾つかの実施例において、各種類のアミノ酸について、サーバーは該アミノ酸に対応する第二サブ対象集合における各対象の指標実験値に基づいて統計の計算を行って該アミノ酸のアミノ酸特徴を得ることができる。統計の計算は平均値、最大値又は最小値の掲載のうちの少なくとも1つを含むが、これらに限定されない。例えば、サーバーは第二サブ対象集合における各対象の指標実験値に対して平均値の計算を行って第二指標平均値を取得し、第二サブ対象集合における各対象の指標実験値のうちの最大の指標実験値を得て第二指標最大値を取得し、第二指標平均値又は第二指標最大値のうちの少なくとも1つに基づいて該アミノ酸のアミノ酸特徴を取得することができ、例えば、第二指標平均値及び第二指標最大値を特徴値としてアミノ酸特徴を構成することができ、即ち、アミノ酸特徴は第二指標平均値及び第二指標最大値を含む。例えば、第二指標平均値は公式(5)として表すことができ、第二指標最大値は公式(6)として表すことができる。公式(5)及び公式(6)におけるy
iは参照対象集合におけるi番目の対象の所定指標に関する指標実験値を表す。
【0137】
【数9】
幾つかの実施例において、サーバーは突然変異型蛋白質における各突然変異位置、及び各突然変異位置上のアミノ酸のアミノ酸特徴に基づいて符号化することで該突然変異型蛋白質の蛋白質特徴を得ることができる。例えば、非飽和変異誘発のシナリオで生成される突然変異型蛋白質について、各突然変異型蛋白質が2つの突然変異位置を含む場合に、この2つの突然変異位置及びこの2つの突然変異位置にそれぞれ対応するアミノ酸のアミノ酸特徴からなるベクトルを該突然変異型蛋白質の蛋白質特徴として決定することができる。これにより、非飽和変異誘発のシナリオで生成される突然変異型蛋白質について、突然変異型蛋白質におけるアミノ酸は任意の位置で該アミノ酸を含む蛋白質の適応度測定値(指標実験値)の平均値又は最大値を計算することで符号化することができ、突然変異型蛋白質の表現キャリアは突然変異位置及び対応する突然変異アミノ酸の符号化によるものからなり、このような符号化スキームは蛋白質進化の生物学的意義により一致しており、かつ特徴の次元数を大幅に削減することができる。
【0138】
本実施例では、或るアミノ酸に対応する第二サブ対象集合における各突然変異型蛋白質の突然変異位置でのアミノ酸が該アミノ酸を含むため、各種類のアミノ酸について、該アミノ酸に対応する第二サブ対象集合における各突然変異型蛋白質の指標実験値に基づいて、アミノ酸のアミノ酸特徴を取得し、そして、該アミノ酸を含む蛋白質の指標実験値に基づいて、該アミノ酸を符号化することで、アミノ酸符号化の精度を向上させることができる。本実施例で提供される蛋白質特徴の決定方法を非飽和変異誘発のシナリオで生成される突然変異型蛋白質の符号化に適用することで、突然変異型蛋白質の蛋白質特徴を得ることができる。
【0139】
幾つかの実施例において、マッピング関係に基づいて第二対象集合から所定指標の指標要求を満たした目標対象を決定するステップは次のようなステップを含み、即ち、マッピング関係に基づいて、第二対象集合における各対象の目標統計指標に関する統計指標値を決定し、統計指標値に基づいて、第二対象集合から選択対象を決定し;反復停止(終了)条件を満足しない場合に、選択対象を参照対象集合に追加し;参照対象集合における各対象の所定指標に関する指標実験値に基づいて、参照対象集合における各対象の対象特徴を決定するステップに戻り、このような処理を、反復停止条件を満足するまで行い;及び、反復停止条件を満足した場合に取得された選択対象を、所定指標の指標要求を満たした目標対象とする。
【0140】
そのうち、所定指標と対象特徴との間のマッピング関係は第一マッピング関係である。反復停止条件は反復回数(即ち、ループの回数)が回数閾値に達していること、及び選択対象の指標実験値が第二指標閾値に達していることのうちの少なくとも1つを含み、選択対象は常に変化しても良く、異なるループで決定される選択対象は異なる。
【0141】
具体的には、サーバーは第一マッピング関係に基づいて統計の計算を行って、目標統計指標と対象特徴との間の第二マッピング関係を取得し、第二マッピング関係に基づいて、第二対象集合における各対象の目標統計指標に関する統計指標値を決定することができ、統計指標値とは対象の目標統計指標に関する値を指す。例えば、第二マッピング関係は曲線y2=f2(x)で表され、対象の目標統計指標に関する指標統計値を決定するには、曲線y2=f2(x)におけるxが該対象の対象特徴である場合のy2の値を計算し、y2の値を該対象在目標統計指標に関する指標統計値とすることができる。
【0142】
幾つかの実施例において、選択対象は1つ又は複数あっても良く、最大の統計指標値に対応する対象を選択対象として決定しても良く、又は、統計指標値が第三指標閾値よりも大きい対象を選択対象として決定しても良く、第三指標閾値はニーズに応じて設定されても良い。サーバーは選択対象に基づいて、所定指標の指標要求を満たした対象を得ることができ、例えば、サーバーは選択対象を、所定指標の指標要求を満たした対象として決定することができる。
【0143】
幾つかの実施例において、反復停止条件を満足しない場合に、サーバーは選択対象を参照対象集合に追加し、参照対象集合における各対象の所定指標に関する指標実験値に基づいて参照対象集合における各対象の対象特徴を決定するステップに戻ることができ、このような処理を、反復停止条件を満足するまで行い、そして、反復停止条件を満足した場合に取得した選択対象を、所定指標の指標要求を満たした目標対象として決定することができる。例えば、反復停止条件は反復回数(即ち、ループの回数)が回数閾値に達していることであり、この場合に、反復回数(即と、ループの回数)が回数閾値に達しているときに選択対象を目標対象として決定する。
【0144】
本実施例では、反復停止条件を満足しない場合に、再び新しい選択対象を決定することで、所定指標の指標要求を満たす目標対象を次第に見つけることができ、また、選択対象を参照対象集合に追加することで、参照対象集合における対象の数が増加するため、新しい選択対象を毎回決定するプロセスで参照対象集合における各対象の対象特徴を決定するステップを実行することにより、符合化することで取得される対象特徴の精度を次第に向上させることができ、最終的に選択される目標対象の正確さを向上させることができる。
【0145】
幾つかの実施例において、
図5に示すように、対象決定方法が提供され、該方法にかかる対象は突然変異型蛋白質であり、該方法は端末又はサーバーにより実行されても良く、端末及びサーバーにより共同で実行されても良く、該方法がサーバーに適用されることを例にして説明を行い、該方法は以下のステップが含まれる。
【0146】
ステップ502:最初のスコア集合を取得し、最初のスコア集合における各種類のアミノ酸にそれぞれ対応する最初のスコアは目標回数である。
【0147】
ステップ504:最初のスコア集合において野生型蛋白質内の各突然変異位置でのアミノ酸にそれぞれ対応する最初のスコアを逓減させ、現在のスコア集合を取得し、野生型蛋白質に基づいて第一蛋白質集合を決定し、野生型蛋白質は突然変異の発生がない蛋白質であり、第一対象集合に基づいて第二蛋白質集合を取得する。
【0148】
ステップ506:第二蛋白質集合における各突然変異型蛋白質について、現在のスコア集合から突然変異型蛋白質における各突然変異位置でのアミノ酸にそれぞれ対応する現在のスコアを決定し、取得した各現在のスコアに基づいて突然変異型蛋白質の現在の蛋白質スコアを決定し、現在の蛋白質スコアに基づいて第二蛋白質集合から目標蛋白質を選んで取得する。
【0149】
ステップ508:現在のスコア集合において目標蛋白質内の各突然変異位置でのアミノ酸にそれぞれ対応する現在のスコアを逓減させ、また、目標蛋白質を第二蛋白質集合から第一蛋白質集合にトランスファーする。
【0150】
ステップ510:現在のスコア集合に0よりも大きいスコアが存在するかを判断し、はいの場合に、ステップ506に戻り、いいえの場合に、ステップ512を実行する。
【0151】
ステップ512:第一蛋白質集合を参照対象集合として決定する。
【0152】
図6を参照し、それは対象決定方法の原理を示す図であり、親和力が比較的高い突然変異型蛋白質を決定するために用いられる。候補サンプル空間には野生型蛋白質及び複数の突然変異型蛋白質が含まれる。ステップ508における参照対象集合は最初の参照対象集合であり、参照対象集合はその後に変化することが可能であり、最初の参照対象集合は例えば、
図6における最初のサンプル集合であり、本出願で提供される最初の参照対象集合の決定方法によれば、候補サンプル空間からスクリーニングすることで最初のサンプル集合を取得し、最初のサンプル集合におけるサンプルは野生型蛋白質又は突然変異型蛋白質のうちの任意の1つの種類である。
【0153】
ステップ514:参照対象集合における各対象の対象特徴及び指標実験値に基づいて、指標検出モデルを訓練し、訓練済みの指標検出モデルを利用して、第一対象集合における各対象の指標予測値を予測し、第一対象集合から、指標予測値が指標値スクリーニング条件を満足した対象をスクリーニングし、第二対象集合を取得する。
【0154】
図6に示すように、最初のサンプル集合を得た後に、“親和力”の階段では最初のサンプル集合におけるサンプルの親和力を取得し(実験で測定することで取得する)、親和力を得た後に、“蛋白質特徴表現”の階段では最初のサンプル集合における蛋白質を符号化し、最初のサンプル集合における各蛋白質の蛋白質特徴を取得し、蛋白質の親和力(実験で測定することで取得される)及び蛋白質特徴を用いて指標検出モデルを訓練し、訓練後に、候補サンプル空間における蛋白質に対応する蛋白質特徴を指標検出待ちモデルに入力し、予測することで該蛋白質の親和力予測値を取得し、候補サンプル空間から親和力予測値が親和力閾値よりも大きい蛋白質を選んで第二対象集合を構成する。
【0155】
候補サンプル空間から最初のサンプル集合をスクリーニングすることで(即ち、第一対象集合に基づいて第二対象集合をスクリーニングすることで)、捜索空間プリスクリーニングストラテジーが提供され、候補サンプル空間における多くの変異体の親和力の値が比較的低いため、サンプルの捜索空間プリスクリーニングストラテジーを採用することで、前もって低親和力値のサンプルを削除し、ベイズ最適化において捜索する必要のあるサンプル空間を減少させ、計算の効率を向上させることができる。例えば、XGBODを採用することで、低親和力の変異体をサンプル捜索空間から除去することができる。具体的に言えば、毎回のベイズ最適化の反復プロセスでは、先に候補サンプル空間におけるサンプルに対してプリスクリーニングを行い、閾値の設定により、該閾値未満のサンプルを低適応度(除去点、Postive class)として判定し、該閾値以上のサンプルを高適応度(非除去点、Negative class)として判定することができる。既存の実験値のサンプル(即ち、実験で親和力が決定された蛋白質)を訓練セットとして用いてXGBODを訓練し、候補サンプル空間におけるサンプルに対してスクリーニングを行い、前もって親和力がとても低い潜在的なサンプル点を除去することで、サンプリング空間のサンプル数を減少させ、モデルの効率を向上させることができる。
【0156】
毎回、第二対象集合から1つの選択対象を決定するプロセスは1回のベイズ最適化と見なすことができ、例えば、
図6では、毎回、獲得関数を利用して、親和力が比較的低いサンプルが除去された後の残りのサンプルのうちから、サンプルをスクリーニングするプロセスは、1回のベイズ最適化である。
【0157】
ステップ516:参照対象集合における各対象の所定指標に関する指標実験値に基づいて、参照対象集合における各対象の対象特徴を決定し、参照対象集合における各対象の所定指標に関する指標実験値及び対象特徴に基づいて、所定指標と対象特徴との間のマッピング関係を決定する。
【0158】
そのうち、所定指標と対象特徴との間のマッピング関係は例えば、
図6における確率的代理モデルであり、確率的代理モデルはガウス分布に基づくガウスプロセス回帰モデル、又は、student-t分布に基づくガウスプロセス回帰モデルなどのうちの任意の1つであっても良い。
【0159】
ステップ518:マッピング関係に基づいて、第二対象集合における各対象の目標統計指標に関する統計指標値を決定し、統計指標値に基づいて第二対象集合から選択対象を決定する。
【0160】
図6に示すように、目標統計指標は例えば、
図6における獲得関数であり、所定指標と対象特徴との間のマッピング関係を用いて獲得関数を決定し、獲得関数に基づいて、残りのサンプルからサンプルを選択する。
【0161】
ステップ520:反復停止条件を満足したかを判断し、いいえの場合、ステップ522を実行し、はいの場合に、ステップ524を実行する。
【0162】
ステップ522:選択対象を参照対象集合に追加し、ステップ514に戻る。
【0163】
ステップ524:反復停止条件を満足した場合に取得された選択対象を、所定指標の指標要求を満たした目標対象として決定する。
【0164】
例えば、サーバーは次のようなアルゴリズムを利用することができ、該アルゴリズムは捜索空間プリスクリーニングに基づくベイズ最適化(ODBO、Bayesian optimization with prescreened search space via outlier detection)であり、参照対象集合に基づいて第二対象集合から目標対象を決定するプロセスを実現する。
【0165】
該アルゴリズムの入力データは最初のサンプル集合Dt及び実験回数T(即ち、ループの回数はTである)である。
【0166】
そのうち、最初のサンプル集合Dtは最初の参照対象集合であり、即ち、第一回反復時に採用される参照対象集合である。
【0167】
該アルゴリズムの出力データはサンプル空間における最適値(s*,y*)である。s*は最適な変異体を表す、y*はs*の親和力(実験で測定することで取得される)を表す。
【0168】
該アルゴリズムのプロセスは以下のとおりである。
【0169】
T←1;//1をtに与え、tは現在の反復の回数を表す;
while t≦T do;//t≦Tの場合に続いて実行し、Tは実験回数(即ち、ループの回数)である;
if Robust GP then;//Robust GPを確率的代理モデルとして採用する場合に続いて実行する;
Dtを用いてstudent-t分布に基づくガウスプロセス回帰モデルを訓練する;//tが1の場合に、DtはD1に等しいことに基づいて、最初のサンプル集合、即ち、最初の参照対象集合(第1回反復時に採用される参照対象集合)を表す;
Dtin={(Si,yi)│|ft(Si)-yi|≦α}であり、拒否閾値αに基づいて外れ値を除去し、正常点を残す;//DtinはDtから外れ値(サンプル)を除去した後の残りのサンプルからなる集合を表す;
Dtinを使用してガウス分布に基づくガウスプロセス回帰モデルを訓練する;
else if GP then;//Robust GPを確率的代理モデルとして採用する場合に続いて実行する;
Dtを利用してガウス分布に基づくガウスプロセス回帰モデルを訓練する;
if Naivo BO then;//単純ベイズ最適化を採用する場合に続いて実行し、Naivo BOとは単純ベイズ最適化を指す;
現在の事後確率に基づいて獲得関数
【0170】
【数10】
を最大化する;//D_searchとは第二対象集合を指し、即ち、候補サンプル空間から親和力が低いサンプルを除去した後の残りのサンプルからなる集合であり、S
t+1は第二対象集合からスクリーニングしたサンプル(即ち、上述の選択対象)である;
実験でデータ点S
t+1を評価し、該実験結果を観測サンプル集合に更新し、D
t+1←(S
t+1,y
t+1)である;//y
t+1はS
t+1を決定する親和力である(実験で測定される);
else if TuRBO then;//TuRBO(Trust region Bayesian optimization、信頼領域ベイズ最適化);
現在の信頼性閾値TRに基づいて信頼性閾値区間Ωを設定する;
信頼領域Ω内で、若干個の点をランダムにサンプリングし、現在の事後確率に基づいて獲得関数
【0171】
【数11】
を最大化する;
実験でデータ点S
t+1を評価し、該実験結果を観測サンプル集合に更新し、D
t+1←(S
t+1,y
t+1)である;
end if;//今回のループを終了する;
確率的代理モデルを更新する;
t←t+1//tを1逓増させる;
end while;
(s*,y*)を出力する。
【0172】
そのうち、TuRBOは1種のグローバルな最適化方法であり、一連のローカルなGPs代理モデルを構築することで、グローバルな角度から、捜索空間における高さ不確定領域を捜索し過ぎることを避けることができるとともに、ローカルで、信頼可能な方法の2次収束性を十分に利用することで、高効率の求解を行うことができる。
【0173】
例を挙げて、本出願で提供される対象決定方法の基本フローを説明する。
図7に示すように、主に次のような4つのステップが含まれ、即ち、1)最初の実験データを取得し;2)データの特徴表現を取得し;3)捜索空間のプリスクリーニングを行い;及び、4)スクリーニング後の捜索空間について、ベイズ最適化アルゴリズムを用いて最初の実験データに基づいて確率的代理モデルを訓練する。代理モデルを訓練した後に、獲得関数を最適化することで、捜索空間から次のラウンドの実験サンプルを選択する。与えられた実験設計に対して検証を行い、実験結果を訓練セットに追加し、また、代理モデルの事後確率を更新する。このような処理を、設計が最大化され、リソースが使い果たされ、又は空間探索が改善されるべき条件を見つけ得ないことに至るまで繰り返す。
図7の(a)は取得された最初の実験データであり、即ち、第一対象集合からスクリーニングした最初の参照対象集合であり、(a)には8つの変異体が示されており、各変異体は対応してスコアを有し、これはスコアが適応度を表すことであり、例えば、変異体“H76L,K78R”は1つの変異体を表し、“H76L,K78R”のスコアは0.18である。
図7の(b)はデータの特徴表現を得ることであり(即ち、符号化することでアミノ酸特徴を決定するプロセスである)、
図7の(b)における棒グラフは20種類のアミノ酸のi番目の突然変異サイトでの平均適応度であり、
図7の(b)における表には5種類のアミノ酸のi番目の突然変異サイトでの平均適応度が示されており、例えば、アミノ酸“V”の平均適応度は1.12である。
図7の(c)は捜索空間プリスクリーニングのプロセスであり、該プロセスでは最初の実験データにおける変異体の特徴を決定し、
図7の(c)における“P1 P2 A1 A2”は変異体の特徴であり、そのうち、Pはposition(位置)の略称であり、AはAmino Acid(アミノ酸)の略称であり、P1及びP2はそれぞれアミノ酸の変異体内の位置を表し、A1及びA2はそれぞれアミノ酸の特徴を表す。決定された変異体の特徴を利用して捜索空間に対してプリスクリーニングを行い、
図7の(c)では、中実円は外れ値(即ち、適応度が比較的低い変異体)を表し、中実三角形は正常点(即ち、適応度が比較的高い変異体)を表す。
図7の(d)はベイズ最適化アルゴリズムのプロセスである。
図7の4つのプロセスにより適応度が高い変異体を決定することができる。
【0174】
計算方法補助実験設計について、本出願の技術案では高効率の実験設計向けのフレームワークが提供されている。捜索空間プリスクリーニングストラテジーにより、前もって候補サンプル空間におけるサンプルに対してプリスクリーニングを行う(即ち、第一対象集合からスクリーニングして第二対象集合を取得する)とともに、ベイズ最適化アルゴリズムと組み合わせることで、探索と利用のバランスをとり、サンプル空間に対して効果的な探索を行い、できるだけ少ないステップから最適な実験設計スキームを見つけることができる。本出願の技術案では、蛋白質指向性進化の実際の適用シナリオについて、平均適応度に基づくアミノ酸符号化ストラテジー(即ち、アミノ酸特徴を得る方法)を、特徴表現を正確かつ有効に実現するように設計している。実験者の実験設計をより良く補助するには、さらに、最初のサンプルのスクリーニングストラテジー(即ち、参照対象集合を決定する方法)を、実験者が最初の実験サンプルを選ぶことを補助するために提供しており、これによって、最初のサンプル数に含まれるアミノ酸符号化情報のカバーする範囲が最大になり、かつ必要な最初の実験回数が最小になるように保証することができる。捜索空間プリスクリーニングのベイズ最適化アルゴリズムにより、実験コスト及び時間コストを削減することができる。本出願の技術案では高効率の実験設計向けのフレームワークが実現されており、それはODBO(Bayesian optimization with prescreened search space via outlier detection)と呼ばれる。該方法は捜索空間スクリーニングプラスベイズ最適化により実験設計を補助し、実験者が実験コスト及び時間コストを削減するに役立つことができる。蛋白質指向性進化の実際の適応シナリオについて、平均適応度に基づくアミノ酸符号化ストラテジーを、特徴表現を正確且つ有効に実現するために提供している。実験者の実験設計をより良く補助するには、本技術案ではさらに、最初のサンプルのスクリーニングストラテジーを、実験者が最初の実験サンプルを選ぶことを補助するために提供しており、これによって、最初のサンプル数に含まれるアミノ酸符号化情報のカバーする範囲が最大になり、かつ必要な実験回数が最小になるように保証することができるため、実験コストを減少させることができる。
【0175】
本発明は計算方法補助蛋白質指向性進化の実験設計を行うために用いられても良く、そのうち、提案された、捜索空間プリスクリーニングと組み合わせたベイズ最適化は他の分野の自動実験設計、例えば、新材料開発や電池の急速充電プロトコルなどに適用することもできる。
【0176】
材料科学では、特定の性質を有する材料の発見及び生成に費用と時間がかかる。各々の新しい組成又は材料パラメータの増加に伴って、候補実験の空間が指数関数的に増加する。例えば、1つの新しいパラメータの影響(例えば、ドーパントの導入による影響)を研究する場合に、パラメータの範囲内で約10回の実験を行う必要があり、すると、N個のパラメータは10N回の実験が必要である。各々の新しいパラメータの出現に伴って、候補実験の数は徹底的な探索の実現可能性を迅速に超えるようになる。材料組成-構造-特性(CSP)の関係の多様性及び複雑性、並びに材料-加工パラメータ及び原子の無秩序性により、研究をさらに混乱させることがある。最適材料の不足と相まって、これらの課題はイノベーションと産業の進歩を脅かしている。ベイズ最適化に基づく材料発見支援方法は、実験室の実験者が実験設計を行うように指導することができ、それは、実験を用いて未知の機能を探索することと、事前知識を用いて極値を特定することとのバランスをとることにより、材料探索の実験において材料発見の速度を加速化し、より少ないリソースを費やすことができる。
【0177】
リチウムイオン電池は電気自動車で最も一般的に使用されるエネルギー貯蔵装置の1つである。電池の化学技術の進歩に伴って、1つの重要な問題は高速充電のニーズと電池の使用寿命の最大化とのバランスをとるように、充電プロトコルを如何に効果的に決定するかである。しかし、適切な充電プロトコルの決定は容易ではない。一方では、電池のサイクル寿命を評価するには数か月から数年が必要である。他方では、膨大なパラメータ調整空間、及びサンプルの多様性により、実験はさらに困難になる。如何にパラメータ範囲を縮小し、実験時間を短縮するかはリチウムイオン電池の開発にとって非常に重要である。計算により実験設計を補助する方法は実験最適化のコストの削減のために用いることができ、完成済みの実験のフィードバックを利用してその後の実験の決定に情報を提供し、実験結果とニーズのバランスをとることができ、即ち、高さ不確定性を有する実験パラメータ空間をテストし、探索を行い、完成した実験結果に基づいて有望なパラメータを予測することができる。最終的には、必要な実験数及び時間を減少させ、コストを削減し、有効な充電プロトコルを見つけることを達成することができる。
【0178】
本出願ではさらに1つの適用シナリオが提供され、該適用シナリオは新材料開発のシナリオである。該適用シナリオには上述の対象決定方法が使用される。具体的には、該対象決定方法の該適用シナリオにおける応用は次のとおりであり、即ち、サーバーは第一材料集合における各材料のそれぞれの所定指標に関する指標予測値を取得し、第一材料集合から、指標予測値が指標値スクリーニング条件を満足した材料を選んで第二材料集合を取得し、第一材料集合における複数の材料の所定指標に関する指標実験値及び材料特徴に基づいて所定指標と材料特徴との間のマッピング関係を決定し、マッピング関係に基づいて第二材料集合から、所定指標の指標要求を満たした目標材料を決定する。これにより、指定性質を有する材料を迅速に決定することができる。そのうち、第一材料集合における各材料の少なくとも1つの組成が異なり、又は、少なくとも1つの組成の含量が異なる。
図8に示すように、機械学習に基づくペロブスカイト電解質の閉ループ最適化が示されており、ベイズ最適化により、ペロブスカイト固体電解質から、高速リチウムイオン導体の有効な実験捜索を発見することができる。
【0179】
本出願ではさらにもう1つの適用シナリオが提供され、該適用シナリオは電池の急速充電プロトコルのシナリオであり、該適用シナリオには上述の対象決定方法が使用される。具体的には、該対象決定方法の該適用シナリオにおける応用は次のとおりであり、即ち、サーバーは第一電池充電プロトコル集合における各電池充電プロトコルのそれぞれの所定指標に関する指標予測値を取得し、第一電池充電プロトコル集合から、指標予測値が指標値スクリーニング条件を満足した電池充電プロトコルを選んで第二電池充電プロトコル集合を取得し、第一電池充電プロトコル集合における複数の電池充電プロトコルの所定指標に関する指標実験値及び電池充電プロトコル特徴に基づいて、所定指標と電池充電プロトコル特徴との間のマッピング関係を取得し、マッピング関係に基づいて第二電池充電プロトコル集合から所定指標の指標要求を満たした目標電池充電プロトコルを決定する。これにより、指定パフォーマンスを有する電池充電プロトコルを迅速に決定することができる。そのうち、第一電池充電プロトコル集合における各電池充電プロトコルの少なくとも1つのパラメータが異なり、又は、少なくとも1つのパラメータの値が異なる。
図9に示すように、機械学習に基づく電池高速充電プロトコルの閉ループ最適化が示されている。機械学習方法により、パラメータ空間を有効に最適化し、高速充電プロトコルの電流と電圧設定パラメータを特定し、最大限で電池の寿命を延ばすことができる。
【0180】
本出願で提供される対象決定方法は、Python言語及びBotorchライブラリーに基づいて、Linuxオペレーティングシステム又はWindowsオペレーティングシステム及びCPU/GPUコンピューティングリソースが搭載されるサーバーに設定することができる。
【0181】
本出願で提供される対象決定方法の蛋白質指向性進化への支援における有効性を検証するために、4つの蛋白質指向性進化データセットをもとにテストが行われており、即ち、1)GB1データセット(55個の突然変異部分がある);2)GB1データセット(4つの突然変異部分がある);3)BRCA1データセット;及び、4)緑色蛍光プロテインデータセットである。
【0182】
そのうち、GB1とはプロテインGのB1構造ドメインを指す。プロテインGは免疫グロブリン結合プロテインであり、C組及びG組の連鎖球菌で表現される。プロテインGのB1構造ドメイン(GB1)は免疫グロブリンのFc構造ドメインと互いに作用する。生成されたGB1データセットについてそれぞれ実験が行われている。GB1から慎重に選択された4つの残基サイト39、40、41及び51で飽和変異誘発が行われている。149,361個の変異体には実験で測定された適応度の値がある。適合度の標準はIgG-Fcとの結合の親和力である。GB1プロテインの55個のコドンのランダム領域全体で1つ又は2つのアミノ酸が突然変異し、トータルで536,944個の変異体データが収集されている。
【0183】
BRCA1はマルチドメインプロテインであり、腫瘍抑制遺伝子ファミリーに属し、3つのドメイン、即ち、N末端RINGドメイン、エキソン11-13及びBRCTドメインで最も良く突然変異する。BRCA1 RING構造ドメインはBRCA1のE3ユビキチンリガーゼ活性を担っており、かつBRCA1と他の蛋白質との間の相互作用を媒介する。BRCA1残基の単一又は複数の点の突然変異がE3ユビキチンリガーゼ活性の機能に与えた影響が研究あされている。該データセットはトータルで98,300個のE3 scoreありの変異体を含む。
【0184】
緑色蛍光プロテイン(green fluorescent protein、GFP)は緑色蛍光タンパク質とも称され、学名Aequorea victoria(avGFP)のクラゲから初めて発見され、光が当たると緑色な蛍光を発する。avGFPシーケンスのランダム変異誘発により得られた遺伝子型の蛍光レベルを推定することで、avGFPのローカルな適応度ランドスケープが分析されている。該データセットは54,025個の異なる蛋白質シーケンスを含む。表1には、使用された4つのデータセットの詳細情報が詳しく示されている。
【0185】
表1は、蛋白質指向性進化のデータセットの詳細情報である。
【0186】
【表1】
図10は異なるデータセットの適応度分布を示している。
図10では横座標が度量値であり、縦座標がDensity(濃度又は密度)である。
図10の(a)はデータセットGB1(4)の適応度分布であり、
図10の(b)はデータセットGB1(55)の適応度分布であり、
図10の(c)はデータセットBRCA1の適応度分布であり、
図10の(d)はデータセットavGFPの適応度分布である。
【0187】
最初のサンプルのスクリーニングストラテジーを採用して最初のサンプル集合を生成する。飽和突然変異のシナリオに一致したGB1(4)データセットについて、各アミノ酸が各位置で少なくとも2回出現すると設定し、40個の最初の訓練サンプルを得る。非飽和突然変異のシナリオに一致したGB1(55)、Ube4b及びavGFPデータセットについて、各アミノ酸がすべての位置で少なくとも1回出現すると設定し、それぞれ、136、217及び142個の最初の訓練サンプルを得る。ODBOアルゴリズムについて、捜索空間プリスクリーニングのフィルタリング閾値が0.05に設定される。各種類の方法について、すべて、10種類の異なるランダムシーズを用いて毎回の実験を行う。各方法はGB1(55)、Ube4b及びavGFPデータセットについて、毎回、サンプル空間から1つのサンプルをスクリーニングし、50回繰り返す。GB1(55)データセットについて、毎回、サンプル空間から1つのサンプルをスクリーニングし、100回繰り返す。期待改善(EI)を獲得関数として採用する。Ube4bとBRCA1は同一の蛋白質を指す。
【0188】
図11は異なる方法の4つの蛋白質指向性進化のデータセットに関するパフォーマンスをまとめている。そのうち、データセット1とはデータセットGB1(4)を指し、データセット2とはデータセットGB1(55)を指し、データセット3とはデータセットUbe4を指し、データセット4とはavGFPを指す。方法1とはランダムスクリーニング(Random)の方法を指し、方法2とはTuRBOとGPとの結合の方法を指し、方法3とはODBOとuRBO及びGPとの結合の方法を指し、方法4とはODBOとTuRBO及びRobustGPとの結合の方法を指し、方法5とは
(外1)
BOとGPとの結合の方法を指し、方法6とはODBOとBO及びGPとの結合の方法を指し、方法7とはODBOとBO及びRobustGPとの結合の方法を指す。
図11の4つのグラフにはそれぞれ1つの直線が含まれており、該直線とは真の最大適応度(True maximum fitness)を指す。
【0189】
図12は異なる方法の4つの蛋白質指向性進化のデータセットに関する比較をまとめており、各曲線は各方法が10個の異なるランダムシーズで得た平均値を表す。そのうち、F1はODBOとTuRBO及びGPとの結合の方法を表し、かつq=1であり、F2はODBOとTuRBO及びGPとの結合の方法を表し、かつq=5であり、F3はODBOとTuRBO及びGPとの結合の方法を表し、かつq=10であり、F4はODBOとTuRBO及びRobustGPとの結合を表し、かつq=1であり、F5はODBOとTuRBO及びRobustGPとの結合を表し、かつq=5であり、F6はODBOとTuRBO及びRobustGPとの結合を表し、かつq=10である。G1はODBOとTuRBO及びGPとの結合を表し、かつ獲得関数は期待改善であり、G2はODBOとTuRBO及びGPとの結合を表し、かつ獲得関数は上限信頼限界であり、G3はODBOとTuRBO及びGPとの結合を表し、かつ獲得関数はトンプソンサンプリングである。Qは毎回の反復で選択した、次のラウンドの実験を行うサンプルの数を表す。
【0190】
よって、次のようなことを発見することができ、即ち、ODBOはすべてのデータセットで最適なパフォーマンスを得ている。捜索空間プリスクリーニングステップはより有効なサンプル採集を行うことができ、最適な性質を有する変異体をより速く見つけることに有利である。例えば、飽和突然変異のシナリオ(即ち、GB1(4)データセット)について、ODBOとTuRBO及びRobustGPとの結合の方法は1つの大きなサンプル空間(204=16000)で50回未満の評価により最適な変数(適応度=8.76)を得ることができる。しかし、プリスクリーニングストラテジーが採用されない方法では、ベイズ最適化アルゴリズム(例えば、
(外2)
BO、TuRBO)は通常、1つの悪いのローカルな最適値に収束し得るため、平均パフォーマンスが低下する。これは捜索空間プリスクリーニングの重要性を示している。非飽和突然変異の場合について、
(外3)
BOとGPとの結合の方法以外に、ほぼすべてのベイズ最適化方法は与えられた低次元プロテイン符号化ストラテジーを採用して最適な変異体を見つける。すべての方法はGB1(55)及びavGFPデータセットで最適に近い変異体しか見つけることができないが、本技術案で提出される方法は他の方法よりも優れている。
【0191】
表2は、異なる計算方法がGB1(4)データセットでスクリーニングした、サンプル空間内の前の1%、2%及び5%の親和力の値に属するサンプルが50ラウンドの推薦スクリーニングに占める比率を示している。分かるように、サンプル空間プリスクリーニングの採用は各ランドのサンプルスクリーニングからより良いサンプルを選んで次のラウンドの実験テストを行うことにより有利である。
【0192】
【表2】
また、異なる獲得関数及び確率的代理モデルのベイズ最適化アルゴリズムの蛋白質指向性進化におけるパフォーマンスについてもテストされている。
図10に示すように、異なる獲得関数及び確率的代理モデルのベイズ最適化アルゴリズムのGB1(4)データセットにおけるパフォーマンスが示されている。
図10の(a)では毎回の反復のバッチサイズ(batch size)が異なり、
図10の(b)では“ODBO,TuRBO+GP”の方法にそれぞれEI、UCB、PI及びTSを獲得関数として使用したときのパフォーマンスが示されており、
図10の(c)では“ODBO,TuRBO+RobustGP”の方法にそれぞれEI、UCB、PI及びTSを獲得関数として使用したときのパフォーマンスが示されている。
【0193】
さらに、各方法がGB1データセットについて実行されたときに消費された計算リソースも算出されており、表3に示すとおりである。従来の符号化スキーム(ここで示されているのが物理化学的性質を用いて符号化する特徴georgievである)を採用する場合に、76次元の特徴があり、TuRBOを利用すると計算リソース及び時間がかなりかかり、対して、ここで与えられたアミノ酸符号化スキームを使用する場合に、アミノ酸の特徴次元数(Feature dimension)を4次元に下げることができ、かつ、計算の時間及びリソースの消費を大幅に減少させることができる。また、捜索空間プリスクリーニングストラテジーを採用することで、計算のために消費される時間及びリソースを大幅に削減することができる。さらに、ODBOは最も少ない実験ステップからサンプル空間における最適値を見つけることができ、これは実験コスト及び時間コストの削減に有利である。
【0194】
【表3】
なお、理解できるように、上述のような各実施例にかかるフローチャートにおける各ステップは矢印の指示に従って順次表示され得るが、これらのステップは必ずしも矢印で指示される順序に従って順次実行されない。明確な説明がない限り、これらのステップの実行は順序の制限を受けず、これらのステップは他の順序に従って実行されても良い。また、上述の各実施例にかかるフローチャートにおける少なくとも一部のステップが複数のステップ又は複数の階段を含んでも良く、これらのステップ又は階段は同一の時刻に実行されても良く、異なる時刻に実行されても良く、また、これらのステップ又は階段は順次実行されても良く、他のステップ又は他のステップにおけるステップ又は階段の少なくとも一部と交互で実行されても良い。
【0195】
また、同様の発明構想に基づいて、本出願の実施例ではさらに、上述の対象決定方法を実現するための対象決定装置が提供される。該装置が提供する、問題を解決する実現スキームは上述の方法に記載された実現スキームと同様であるため、以下に提供される1つ又は複数の対象決定装置の実施例における具体的な限定については上述の対象決定方法にかかる限定を参照することができ、ここではその詳しい説明を省略する。
【0196】
幾つかの実施例において、
図13に示すように、対象決定装置が提供され、それは予測値取得モジュール1302、対象集合取得モジュール1304、マッピング関係決定モジュール1306及び目標対象決定モジュール1308を含む。
【0197】
予測値取得モジュール1302は第一対象集合における各対象のそれぞれの所定指標に関する指標予測値を取得するために用いられる。
【0198】
対象集合取得モジュール1304は第一対象集合から、指標予測値が指標値スクリーニング条件を満足した対象をスクリーニングし、第二対象集合を取得するために用いられる。
【0199】
マッピング関係決定モジュール1306は第一対象集合における複数の対象の、所定指標に関する指標実験値と、対象特徴とに基づいて、所定指標と対象特徴との間のマッピング関係を決定するために用いられる。
【0200】
目標対象決定モジュール1308はマッピング関係に基づいて第二対象集合から所定指標の指標要求を満たした目標対象を決定するために用いられる。
【0201】
幾つかの実施例において、第一対象集合における対象は突然変異型蛋白質であり、かかる装置はさらに、第一対象集合に基づいてスクリーニングすることで参照対象集合を得るための参照対象集合スクリーニングモジュールであって、参照対象集合は各種類のアミノ酸が各突然変異位置で少なくとも目標回数出現するという条件を満足している、ものを含み、予測値取得モジュールはさらに、参照対象集合における各対象の対象特徴及び指標実験値に基づいて、指標検出モデルを訓練し;及び、訓練済みの指標検出モデルを用いて、第一対象集合における各対象の指標予測値を予測するために用いられる。
【0202】
幾つかの実施例において、マッピング関係決定モジュールはさらに、参照対象集合における各対象の所定指標に関する指標実験値に基づいて、参照対象集合内の各対象の対象特徴を取得し;及び、参照対象集合における各対象の所定指標に関する指標実験値及び対象特徴に基づいて、所定指標と対象特徴との間のマッピング関係を決定するために用いられる。
【0203】
幾つかの実施例において、参照対象集合スクリーニングモジュールはさらに、現在のスコア集合を取得し、現在のスコア集合は各種類のアミノ酸にそれぞれ対応する現在のスコアを含み;第一対象集合に基づいて第二蛋白質集合を取得し、現在のスコア集合に基づいて第二蛋白質集合から目標蛋白質を選び;現在のスコア集合において目標蛋白質内の各突然変異位置のアミノ酸にそれぞれ対応する現在のスコアを逓減させ、かつ目標蛋白質を第二蛋白質集合から第一蛋白質集合にトランスファーし;現在のスコア集合により、第一蛋白質集合が「各種類のアミノ酸が各突然変異位置で少なくとも目標回数出現するという条件」を満足しないと表した場合に、現在のスコア集合に基づいて第二蛋白質集合から目標蛋白質を選ぶステップに戻り、このような処理を、現在のスコア集合により、第一蛋白質集合が「各種類のアミノ酸が各突然変異位置で少なくとも目標回数出現するという条件」を満たすと表すまで行い、そして、第一蛋白質集合を参照対象集合として決定するために用いられる。
【0204】
幾つかの実施例において、参照対象集合スクリーニングモジュールはさらに、最初のスコア集合を取得し、最初のスコア集合における各種類のアミノ酸にそれぞれ対応する最初のスコアは目標回数であり;及び、最初のスコア集合において野生型蛋白質内の各突然変異位置でのアミノ酸にそれぞれ対応する最初のスコアを逓減させ、現在のスコア集合を取得し、野生型蛋白質に基づいて第一蛋白質集合を決定するために用いられ、野生型蛋白質は突然変異の発生がない蛋白質である。
【0205】
幾つかの実施例において、マッピング関係決定モジュールはさらに、第二蛋白質集合における各突然変異型蛋白質について、現在のスコア集合から突然変異型蛋白質における各突然変異位置でのアミノ酸にそれぞれ対応する現在のスコアを決定し;取得した各現在のスコアに基づいて突然変異型蛋白質の現在の蛋白質スコアを決定し;及び、現在の蛋白質スコアに基づいて第二蛋白質集合から目標蛋白質を選んで取得するために用いられる。
【0206】
幾つかの実施例において、各種類のアミノ酸は対応してアミノ酸を有し、現在のスコア集合におけるスコアはアミノ酸及び突然変異位置により一意に標識され、マッピング関係決定モジュールはさらに、各突然変異位置でのアミノ酸について、アミノ酸に対応するアミノ酸及び突然変異位置に基づいて、現在のスコア集合から突然変異位置でのアミノ酸に対応する現在のスコアを決定するために用いられる。
【0207】
幾つかの実施例において、対象特徴は蛋白質特徴であり、マッピング関係決定モジュールはさらに、各突然変異位置について、突然変異位置でのアミノ酸の種類に従って参照対象集合を分割し、各種類のアミノ酸にそれぞれ対応する第一サブ対象集合を取得し;各突然変異位置での各種類のアミノ酸について、アミノ酸に対応する第一サブ対象集合における各対象の指標実験値に基づいて、アミノ酸の突然変異位置でのアミノ酸特徴を決定し;及び、対象にける各突然変異位置でのアミノ酸のアミノ酸特徴に基づいて、対象の蛋白質特徴を得るために用いられる。
【0208】
幾つかの実施例において、マッピング関係決定モジュールはさらに、アミノ酸に対応する第一サブ対象集合における各対象の指標実験値に対して統計の計算を行い、少なくとも1つの指標実験統計値を取得し;及び、少なくとも1つの指標実験統計値に基づいてアミノ酸の突然変異位置でのアミノ酸特徴を決定するために用いられる。
【0209】
幾つかの実施例において、マッピング関係決定モジュールはさらに、アミノ酸に対応する第一サブ対象集合における各対象の指標実験値に対して平均値の計算を行い、第一指標平均値を取得し;及び、アミノ酸に対応する第一サブ対象集合における各対象の指標実験値から最大の指標実験値を決定して第一指標最大値として得るために用いられ、少なくとも1つの指標実験統計値は第一指標平均値又は第一指標最大値のうちの少なくとも1つを含む。
【0210】
幾つかの実施例において、マッピング関係決定モジュールはさらに、第一指標平均値及び第一指標最大値によりアミノ酸の突然変異位置でのアミノ酸特徴を構成するために用いられる。
【0211】
幾つかの実施例において、対象特徴は蛋白質特徴であり、マッピング関係決定モジュールはさらに、各種類のアミノ酸について、参照対象集合から突然変異位置でのアミノ酸に含まれるアミノ酸の対象を決定し、アミノ酸に対応する第二サブ対象集合を取得し;各種類のアミノ酸について、アミノ酸に対応する第二サブ対象集合における各対象の指標実験値に基づいて、アミノ酸のアミノ酸特徴を決定し;対象における各突然変異位置でのアミノ酸のアミノ酸特徴に基づいて、対象の蛋白質特徴を得るために用いられる。
【0212】
幾つかの実施例において、目標対象決定モジュールはさらに、マッピング関係に基づいて、第二対象集合における各対象の目標統計指標に関する統計指標値を決定し、統計指標値に基づいて第二対象集合から選択対象を決定し;反復停止条件を満足しない場合に、選択対象を参照対象集合に追加し、参照対象集合における各対象の所定指標に関する指標実験値に基づいて参照対象集合における各対象の対象特徴を決定するステップに戻り、このような処理を、反復停止条件を満足するまで行い;及び、反復停止条件を満足した場合に取得した選択対象を、所定指標の指標要求を満たした目標対象として決定するために用いられる。
【0213】
上述の対象決定装置における各モジュールは全部又は部分的にソフトウェア、ハードウェア及びその組み合わせにより実現されても良い。上述の各モジュールはハードウェアの形式で埋め込まれても良く、又はコンピュータ機器における処理器とは別々であっても良く、あるいは、ソフトウェアの形式でコンピュータ機器における記憶器に記憶されても良く、これによって、処理器は上述の各モジュールに対応する操作(ステップ)を呼び出して実行することができる。
【0214】
幾つかの実施例において、コンピュータ機器が提供され、該コンピュータ機器はサーバーでであっても良く、その内部構成は
図14に示すとおりであっても良い。該コンピュータ機器は処理器、記憶器、入力/出力インターフェース(Input/Output、I/O)及び通信インターフェースを含み得る。そのうち、処理器、記憶器及び入力/出力インターフェースはシステムバスを介して接続され、通信インターフェースは入力/出力インターフェースを介してシステムバスに接続される。そのうち、該コンピュータ機器の処理器は計算及び制御能力を提供するために用いられる。該コンピュータ機器の記憶器は不揮発性記憶媒体及び内部記憶器を含む。該不揮発性記憶媒体にはオペレーティングシステム、コンピュータ可読命令及びデータベースが記憶されている。該内部記憶器は不揮発性記憶媒体におけるオペレーティングシステム及びコンピュータ可読命令の実行のために環境を提供するために用いられる。該コンピュータ機器のデータベースは対象決定方法にかかるデータを格納するために用いられる。該コンピュータ機器の入力/出力インターフェースは処理器が外部機器と情報を交換するために用いられる。該コンピュータ機器の通信インターフェースは外部の端末とネットワーク接続を介して通信するために用いられる。該コンピュータ可読命令は処理器により実行されるときに対象決定方法を実現するために用いられる。
【0215】
幾つかの実施例において、コンピュータ機器が提供され、該コンピュータ機器は端末であっても良く、その内部構成は
図15に示すとおりであっても良い。該コンピュータ機器は処理器、記憶器、入力/出力インターフェース、通信インターフェース、表示ユニット及び入力装置を含み得る。そのうち、処理器、記憶器及び入力/出力インターフェースはシステムバスを介して接続され、通信インターフェース、表示ユニット及び入力装置は入力/出力インターフェースを介してシステムバスに接続される。そのうち、該コンピュータ機器の処理器は計算及び制御能力を提供するために用いられる。該コンピュータ機器の記憶器は不揮発性記憶媒体及び内部記憶器を含む。該不揮発性記憶媒体にはオペレーティングシステム及びコンピュータ可読命令が記憶されている。該内部記憶器は不揮発性記憶媒体におけるオペレーティングシステム及びコンピュータ可読命令の実行のために環境を提供するために用いられる。該コンピュータ機器の入力/出力インターフェースは処理器が外部機器と情報交換を行うために用いられる。該コンピュータ機器の通信インターフェースは外部の端末と有線又は無線方式の通信を行うために用いられ、無線方式はWIFI、モバイルセルラーネットワーク、NFC又は他の技術により実現されても良い。該コンピュータ可読命令は処理器により実行されるときに対象決定方法を実現するために用いられる。該コンピュータ機器の表示ユニットは可視の画面を生成するために用いられ、表示スクリーン、投影装置又は仮想現実結像装置であっても良く、表示スクリーンは液晶表示スクリーン又は電子インク表示スクリーンであっても良く、該コンピュータ機器の入力装置は表示スクリーンを覆うタッチ層(膜)であっても良く、コンピュータ機器の外殻に設置されるキー、トラックボール又はタッチパネルであっても良く、さらに外付けのキーボード、タッチパネル又はマウスなどであっても良い。
【0216】
当業者が理解できるように、
図14及び
図15に示す構成は本出願の技術案に関連している一部のみの構成であり、本出願の技術案が適用されるコンピュータ機器を限定せず、具体的なコンピュータ機器は図示よりも多くの又は少ない部品を含んでも良く、又は、幾つかの部品を組み合わせても良く、又は、異なる部品レイアウトを有しても良い。
【0217】
幾つかの実施例において、コンピュータ機器が提供され、それは記憶器及び1つ又は複数の処理器を含み、記憶器にはコンピュータ可読命令が記憶されており、コンピュータ可読命令は該処理器により実行されるときに、1つ又は複数の処理器に、上述の対象決定方法におけるステップを実現させる。
【0218】
幾つかの実施例において、1つ又は複数の不揮発性可読記憶媒体が提供され、その中にはコンピュータ可読命令が格納されており、コンピュータ可読命令は1つ又は複数の処理器により実行されるときに、1つ又は複数の処理器に、上述の対象決定方法におけるステップを実現させる。
【0219】
幾つかの実施例において、コンピュータプログラムプロダクトが提供され、それはコンピュータ可読命令を含み、該コンピュータ可読命令は処理器により実行されるときに上述の対象決定方法におけるステップを実現し得る。
【0220】
なお、本出願にかかるユーザー情報(ユーザー機器情報、ユーザー個人情報などを含むが、これらに限定されない)及びデータ(分析用のデータ、記憶用のデータ、表示用のデータなどを含むが、これらに限定されない)はすべて、ユーザーによって許可された、又はすべての関係者によって完全に許可された情報及びデータであり、かつ関連データの収集、使用及び処理は関連する国や地域の関連法、規制、基準に準拠する必要がある。
【0221】
当業者が理解できるように、上述の実施例にかかる方法における全部又は一部のフローの実行はコンピュータ可読命令によって、関連するハードウェアを命令することで完了することができ、前述のコンピュータ可読命令は不揮発性コンピュータ可読記憶媒体に記憶することができ、該コンピュータ可読命令は実行時に上述のような各方法の実施例のフローを含んでも良い。そのうち、本出願で提供される各実施例に使用される記憶器、データベース又は他の媒体についての任意の引用はすべて不揮発性及び揮発性記憶器のうちの少なくとも1つを含んでも良い。不揮発性記憶器はROM(Read-Only Memory)、磁気テープ、フロッピーディスク、フレッシュメモリ、光メモリ、高密度組み込み型不揮発性メモリ、ReRAM、MRAM(Magnetoresistive Random Access Memory)、FRAM(Ferroelectric Random Access Memory)、PCM(Phase Change Memory)、グラフェンメモリなどを含んでも良い。揮発性記憶器はRAM(Random Access Memory)又は外部高速キャッシュメモリなどを含んでも良い。限定ではなく例示として、RAMは複数の形式で、例えば、SRAM(Static Random Access Memory)又はDRAM(Dynamic Random Access Memory)などであっても良い。本出願で提供される各実施例にかかるデータベースは関係型データベース及び非関係型データベースのうちの少なくとも1つを含んでも良い。非関係型データベースはブロックチェーンに基づく分散データベースなどであっても良いが、これらに限られない。本出願で提供される実施例にかかる処理器は汎用プロセッサ、中央処理装置、グラフィックスプロセッサ、デジタル信号プロセッサ、プログラマブルロジックデバイス、量子コンピューティングベースのデータ処理ロジックデバイスなどであっても良いが、これらに限定されない。
【0222】
以上、本出願の好ましい実施例を説明したが、本出願はこの実施例に限定されず、本出願の趣旨を離脱しない限り、本出願に対するあらゆる変更は本出願の技術的範囲に属する。
【国際調査報告】