(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-26
(45)【発行日】2024-09-03
(54)【発明の名称】データ処理方法及び装置並びにコンピュータ装置及びプログラム
(51)【国際特許分類】
G16B 40/00 20190101AFI20240827BHJP
【FI】
G16B40/00
(21)【出願番号】P 2023519591
(86)(22)【出願日】2022-01-12
(86)【国際出願番号】 CN2022071490
(87)【国際公開番号】W WO2022156568
(87)【国際公開日】2022-07-28
【審査請求日】2023-03-29
(31)【優先権主張番号】202110065836.X
(32)【優先日】2021-01-19
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514187420
【氏名又は名称】テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ペイ,ジャングオ
(72)【発明者】
【氏名】リウ,ウェイ
(72)【発明者】
【氏名】ホアン,ジュンジョウ
【審査官】鈴木 和樹
(56)【参考文献】
【文献】特表2022-516344(JP,A)
【文献】米国特許出願公開第2015/0278440(US,A1)
【文献】米国特許出願公開第2019/0065677(US,A1)
【文献】中国特許出願公開第106709272(CN,A)
【文献】中国特許出願公開第111445945(CN,A)
【文献】中国特許第105143250(CN,B)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00 - 99/00
(57)【特許請求の範囲】
【請求項1】
コンピュータ装置が実行する、データを処理する方法であって、
参照タンパク質のプロティーン属性情報を得るステップであって、前記参照タンパク質はプロティーン調整領域を含む、ステップ;
プロティーン予測モデルにより、前記プロティーン属性情報に基づいて、前記参照タンパク質における前記プロティーン調整領域のところの予測プロティーンセグメントを生成するステップであって、前記プロティーン予測モデルは標的タンパク質に基づいて訓練することで得られるものであり、前記プロティーン予測モデルは前記標的タンパク質に結合するタンパク質を予測するために用いられる、ステップ;
プロティーンセグメントデータベースにおいて前記予測プロティーンセグメントの類似プロティーンセグメントのマッチングを行うステップ;及び
前記類似プロティーンセグメントと前記参照タンパク質との仮想合成を行い、合成物質補助情報を得るステップであって、前記合成物質補助情報は前記標的タンパク質に結合する抗体タンパク質の生成を補助するために用いられる、ステップを含
み、
前記参照タンパク質のプロティーン属性情報を得るステップは、
前記参照タンパク質に含まれる少なくとも2つのアミノ酸を得るステップ;
前記少なくとも2つのアミノ酸のうちの各アミノ酸のアミノ酸構造情報及びアミノ酸ねじれ角情報を得るステップ;及び
前記各アミノ酸のアミノ酸構造情報及びアミノ酸ねじれ角情報を前記参照タンパク質の前記プロティーン属性情報と決定するステップを含み、
前記プロティーン予測モデルにより、前記プロティーン属性情報に基づいて、前記参照タンパク質における前記プロティーン調整領域のところの予測プロティーンセグメントを生成するステップは、
前記参照タンパク質における前記プロティーン調整領域のところのアミノ酸を調整アミノ酸と決定するステップ;
前記プロティーン予測モデルにより、前記調整アミノ酸に対応する予測構造情報を生成するステップ;
前記プロティーン予測モデルにより、前記調整アミノ酸に対応する予測ねじれ角情報を生成するステップ;及び
前記調整アミノ酸に対応する前記予測構造情報及び前記予測ねじれ角情報に基づいて前記予測プロティーンセグメントを決定するステップを含み、
前記類似プロティーンセグメントと前記参照タンパク質との仮想合成を行い、合成物質補助情報を得るステップは、
前記参照タンパク質における前記プロティーン調整領域のところのプロティーンセグメントを切り出し、切り出し後の前記参照タンパク質を得るステップ;及び
切り出し後の前記参照タンパク質と前記類似プロティーンセグメントとの仮想合成を行い、前記合成物質補助情報を得るステップを含む、方法。
【請求項2】
請求項
1に記載の方法であって、
前記プロティーン予測モデルにより、前記調整アミノ酸に対応する予測構造情報を生成するステップは、
前記プロティーン予測モデルにより、前記調整アミノ酸の、少なくとも2つのアミノ酸構造次元のうちの各アミノ酸構造次元上のサンプリング確率を決定するステップ;
前記少なくとも2つのアミノ酸構造次元のうち、サンプリング確率が最も大きいアミノ酸構造次元を目標構造次元と決定するステップ;及び
前記目標構造次元上で構造パラメータのサンプリングを行い、前記調整アミノ酸に対応する予測構造情報を生成するステップを含む、方法。
【請求項3】
請求項
1に記載の方法であって、
前記プロティーン予測モデルにより、前記調整アミノ酸に対応する予測ねじれ角情報を生成するステップは、
前記プロティーン予測モデルにより、前記調整アミノ酸の、少なくとも2つのアミノ酸ねじれ角次元のうちの各アミノ酸ねじれ角次元上のサンプリング確率を決定するステップ;
前記少なくとも2つのアミノ酸ねじれ角次元のうち、サンプリング確率が最も大きいアミノ酸ねじれ角次元を目標ねじれ角次元と決定するステップ;及び
前記目標ねじれ角次元上でねじれ角パラメータのサンプリングを行い、前記調整アミノ酸に対応する予測ねじれ角情報を生成するステップを含む、方法。
【請求項4】
請求項
1に記載の方法であって、
前記プロティーンセグメントデータベースにおいて前記予測プロティーンセグメントの類似プロティーンセグメントのマッチングを行うステップは、
前記予測構造情報についての構造重みを取得し、前記予測ねじれ角情報についてのねじれ角重みを取得するステップ;及び
前記構造重み、前記ねじれ角重み、前記予測構造情報及び前記予測ねじれ角情報に基づいて、前記プロティーンセグメントデータベースにおいて前記予測プロティーンセグメントの前記類似プロティーンセグメントのマッチングを行うステップを含む、方法。
【請求項5】
請求項1に記載の方法であって、さらに、
前記標的タンパク質の標的プロティーン類型を認識するステップ;及び
前記標的プロティーン類型に基づいて、前記参照タンパク質における前記プロティーン調整領域を決定するステップを含む、方法。
【請求項6】
請求項1に記載の方法であって、
前記標的タンパク質は第三者装置により提供され、
前記方法は、さらに、
前記合成物質補助情報の可視化プログラムファイルを生成するステップ;及び
前記可視化プログラムファイルを前記第三者装置に送信し、前記第三者装置に、前記可視化プログラムファイルを出力させるステップを含む、方法。
【請求項7】
請求項1に記載の方法であって、
前記プロティーン予測モデルは、以下の方式により訓練することで得られ、即ち、
前記プロティーン属性情報を初期予測モデルに入力し、前記初期予測モデルの第n回の訓練プロセスにおいて、前記プロティーン調整領域のところのサンプル予測プロティーンセグメントを生成し、前記nは1よりも大きいの整数であり;
前記プロティーンセグメントデータベースにおいて前記サンプル予測プロティーンセグメントのサンプル類似プロティーンセグメントのマッチングを行い;
前記参照タンパク質と前記サンプル類似プロティーンセグメントとの仮想合成を行い、サンプル合成物質補助情報を取得し、前記サンプル合成物質補助情報は前記標的タンパク質に結合するサンプル抗体タンパク質k
nの生成を補助するために用いられ;
前記サンプル抗体タンパク質k
nと前記標的タンパク質との間のサンプル結合強度q
nを取得し;
前記初期予測モデルの第n-1回の訓練プロセスにおいて、前記標的タンパク質についてのサンプル抗体タンパク質k
n-1と前記標的タンパク質との間のサンプル結合強度q
n-1を取得し;及び
前記サンプル結合強度q
n及び前記サンプル結合強度q
n-1に基づいて、前記初期予測モデルのモデルパラメータを修正し、前記プロティーン予測モデルを得る、方法。
【請求項8】
請求項
7に記載の方法であって、
前記サンプル類似プロティーンセグメントの数が少なくとも2つであり、1つのサンプル類似プロティーンセグメントが1つのサンプル抗体タンパク質k
nに対応し、
前記サンプル抗体タンパク質k
nと前記標的タンパク質との間のサンプル結合強度q
nを取得することは、
少なくとも2つのサンプル抗体タンパク質k
nのそれぞれと、前記標的タンパク質との間の標的結合強度を取得し;及び
前記少なくとも2つのサンプル抗体タンパク質k
nのそれぞれに対応する標的結合強度の平均強度を前記サンプル結合強度q
nと決定することを含む、方法。
【請求項9】
請求項
7に記載の方法であって、
前記サンプル結合強度q
n及び前記サンプル結合強度q
n-1に基づいて、前記初期予測モデルのモデルパラメータを修正し、前記プロティーン予測モデルを取得することは、
前記サンプル結合強度q
nと前記サンプル結合強度q
n-1との間の平方差を取得し;
前記平方差に基づいて前記初期予測モデルについてのインセンティブパラメータを決定し;及び
前記インセンティブパラメータに基づいて前記初期予測モデルのモデルパラメータを修正し、前記プロティーン予測モデルを取得することを含む、方法。
【請求項10】
データを処理する装置であって、
参照タンパク質のプロティーン属性情報を取得するための属性取得モジュールであって、前記参照タンパク質はプロティーン調整領域を含む、属性取得モジュール;
プロティーン予測モデルにより、前記プロティーン属性情報に基づいて、前記参照タンパク質における前記プロティーン調整領域のところの予測プロティーンセグメントを生成するための予測セグメント生成モジュールであって、前記プロティーン予測モデルは標的タンパク質に基づいて訓練することで得られるものであり、前記プロティーン予測モデルは前記標的タンパク質に結合するタンパク質を予測するために用いられる、予測セグメント生成モジュール;
プロティーンセグメントデータベースにおいて、前記予測プロティーンセグメントにマッチングした類似プロティーンセグメントを見つけるためのセグメント・マッチング・モジュール;及び
前記類似プロティーンセグメントと前記参照タンパク質との仮想合成を行い、合成物質補助情報を取得するための物質合成モジュールであって、前記合成物質補助情報は前記標的タンパク質に結合する抗体タンパク質の生成を補助するために用いられる、物質合成モジュールを含
み、
前記参照タンパク質のプロティーン属性情報を取得することは、
前記参照タンパク質に含まれる少なくとも2つのアミノ酸を得ること;
前記少なくとも2つのアミノ酸のうちの各アミノ酸のアミノ酸構造情報及びアミノ酸ねじれ角情報を得ること;及び
前記各アミノ酸のアミノ酸構造情報及びアミノ酸ねじれ角情報を前記参照タンパク質の前記プロティーン属性情報と決定することを含み、
前記プロティーン予測モデルにより、前記プロティーン属性情報に基づいて、前記参照タンパク質における前記プロティーン調整領域のところの予測プロティーンセグメントを生成することは、
前記参照タンパク質における前記プロティーン調整領域のところのアミノ酸を調整アミノ酸と決定すること;
前記プロティーン予測モデルにより、前記調整アミノ酸に対応する予測構造情報を生成すること;
前記プロティーン予測モデルにより、前記調整アミノ酸に対応する予測ねじれ角情報を生成すること;及び
前記調整アミノ酸に対応する前記予測構造情報及び前記予測ねじれ角情報に基づいて前記予測プロティーンセグメントを決定することを含み、
前記類似プロティーンセグメントと前記参照タンパク質との仮想合成を行い、合成物質補助情報を取得することは、
前記参照タンパク質における前記プロティーン調整領域のところのプロティーンセグメントを切り出し、切り出し後の前記参照タンパク質を得ること;及び
切り出し後の前記参照タンパク質と前記類似プロティーンセグメントとの仮想合成を行い、前記合成物質補助情報を得ることを含む、装置。
【請求項11】
記憶器と、前記記憶器に接続される処理器と、を含むコンピュータ装置であって、
前記記憶器にはコンピュータプログラムが記憶されており、
前記処理器は、前記コンピュータプログラムを実行して請求項1-
9のうちの何れか1項に記載の方法を実現するように構成される、コンピュータ装置。
【請求項12】
コンピュータに、請求項1-
9のうちの何れか1項に記載の方法を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2021年01月19日に中国専利局に出願した、出願番号が202110065836X、発明の名称が「データ処理方法、装置、コンピュータ装置及び記憶媒体」である中国特許出願に基づく優先権を主張するものであり、その全内容を参照によりここに援用する。
【0002】
本出願は、人工知能の技術分野に関し、特に、データ処理技術に関する。
【背景技術】
【0003】
標的プロティーンが疾患の原因となるタンパク質であり、標的プロティーンに結合するための抗体プロティーンを設計する際に、通常、人体に元々存在する参照抗体プロティーンを改変(modification)する必要があり、改変後の参照抗体プロティーンは標的プロティーンと結合するための抗体プロティーンである。
【0004】
具体的に実現するときに、短鎖ペプチド(短ペプチドともいう)データベースにおける短鎖ペプチドを採用して参照抗体プロティーンを改変でき、短鎖ペプチドデータベースには通常、自然界から収集した複数の短鎖ペプチドが含まれ、1つの短鎖ペプチドが1つのプロティーンセグメントである。関連技術では通常、短鎖ペプチドデータベースから短鎖ペプチドを絶えずにランダム選択して参照抗体プロティーンを改変でき、1つの短鎖ペプチドを用いて参照抗体プロティーンを改変する度に、改変後の参照抗体プロティーンが標的プロティーンに結合する基準を満足したかを対応して評価する必要があり、改変後の参照抗体プロティーンが標的プロティーンに結合する基準を満足したと評価するまで、短鎖ペプチドデータベースから短鎖ペプチドを選択して参照抗体プロティーンを改変し続ける。
【0005】
上述から分かるように、関連技術では、参照抗体プロティーンを改変するための短鎖ペプチドの選択はランダム性が非常に高く、これにより、多くの場合、標的プロティーンと結合する基準を満足する参照抗体プロティーンを得るためには、大量の短鎖ペプチドにより参照抗体プロティーンを改変する必要があり、即ち、標的プロティーンと結合するための抗体プロティーンを取得する際の効率は低下する恐れがある。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本出願は少なくとも、抗体プロティーンの取得効率を向上させることができるデータ処理方法、装置、コンピュータ装置及びプログラムを提供することを課題とする。
【課題を解決するための手段】
【0007】
本出願の一側面によれば、コンピュータ装置が実行するデータ処理方法が提供され、それは、
参照タンパク質のプロティーン属性情報を取得し、参照タンパク質はプロティーン調整領域を含み;
プロティーン予測モデルにより、プロティーン属性情報に基づいて、参照タンパク質におけるプロティーン調整領域のところの予測プロティーンセグメントを生成し、プロティーン予測モデルは標的タンパク質に基づいて訓練することで得られるものであり、プロティーン予測モデルは標的タンパク質に結合するタンパク質を予測するために用いられ;
プロティーンセグメントデータベースにおいて予測プロティーンセグメントの類似プロティーンセグメントのマッチングを行い;及び
類似プロティーンセグメントと参照タンパク質との仮想合成を行い、合成物質補助情報を取得し、合成物質補助情報は標的タンパク質に結合する抗体タンパク質の生成を補助するために用いられるステップを含む。
【0008】
本出願の一側面によれば、データ処理装置が提供され、それは、
参照タンパク質のプロティーン属性情報を取得するための属性取得モジュールであって、参照タンパク質はプロティーン調整領域を含む、属性取得モジュール;
プロティーン予測モデルにより、プロティーン属性情報に基づいて、参照タンパク質におけるプロティーン調整領域のところの予測プロティーンセグメントを生成するための予測セグメント生成モジュールであって、プロティーン予測モデルは標的タンパク質に基づいて訓練することで得られるものであり、プロティーン予測モデルは標的タンパク質に結合するタンパク質を予測するために用いられる、予測セグメント生成モジュール;
プロティーンセグメントデータベースにおいて予測プロティーンセグメントの類似プロティーンセグメントのマッチングを行うセグメント・マッチング・モジュール;及び
類似プロティーンセグメントと参照タンパク質との仮想合成を行い、合成物質補助情報を取得するための物質合成モジュールであって、合成物質補助情報は標的タンパク質に結合する抗体タンパク質の生成を補助するために用いられる、物質合成モジュールを含む。
【0009】
本出願の一側面によれば、記憶器及び処理器を含むコンピュータ装置が提供され、記憶器にはコンピュータプログラムが記憶されており、コンピュータプログラムは処理器により実行されるときに、処理器に、本出願の一側面における方法を実行させる。
【0010】
本出願の一側面によれば、コンピュータ可読記憶媒体が提供され、該コンピュータ可読記憶媒体にはコンピュータプログラムが記憶されており、該コンピュータプログラムはプログラム命令を含み、該プログラム命令は処理器により実行されるときに、該処理器に、上述の一側面における方法を実行させる。
【0011】
本出願の一側面によれば、コンピュータプログラムプロダクト又はコンピュータプログラムが提供され、該コンピュータプログラムプロダクト又はコンピュータプログラムはコンピュータ命令を含み、該コンピュータ命令はコンピュータ可読記憶媒体に記憶されている。コンピュータ装置の処理器がコンピュータ可読記憶媒体のうちから該コンピュータ命令を読み取り、該処理器は該コンピュータ命令を実行することで、該コンピュータ装置に、上述の一側面における方法を実行させる。
【発明の効果】
【0012】
本出願では、参照タンパク質のプロティーン属性情報を取得し、参照タンパク質はプロティーン調整領域を含み;プロティーン予測モデルにより、プロティーン属性情報に基づいて、参照タンパク質におけるプロティーン調整領域のところの予測プロティーンセグメントを生成し、プロティーン予測モデルは標的タンパク質に基づいて訓練することで得られるものであり、プロティーン予測モデルは標的タンパク質に結合するタンパク質を予測するために用いられ;プロティーンセグメントデータベースにおいて予測プロティーンセグメントの類似プロティーンセグメントのマッチングを行い;類似プロティーンセグメントと参照タンパク質との仮想合成を行い、合成物質補助情報を取得し、合成物質補助情報は標的タンパク質に結合する抗体タンパク質の生成を補助するために用いられる。よって、分かるように、本出願による方法は、プロティーン予測モデルが予測して得た予測プロティーンセグメントに基づいて、マッチングにより、参照タンパク質におけるプロティーン調整領域のところのプロティーンセグメントを改変するための類似プロティーンセグメントを迅速に取得でき、そして、該類似プロティーンセグメントに基づいて標的タンパク質に結合するための抗体タンパク質を迅速に生成できるため、抗体タンパク質の取得効率を向上させることができる。
【図面の簡単な説明】
【0013】
【
図1】本出願の実施例により提供されるネットワークアーキテクチャの構成図である。
【
図2】本出願により提供されるデータの予測のシナリオを示す図である。
【
図3】本出願により提供されるデータ処理方法のフローチャートである。
【
図4】本出願により提供されるセグメントの予測のシナリオを示す図である。
【
図5】本出願により提供されるセグメントの生成のシナリオを示す図である。
【
図6】本出願により提供されるモデルの訓練のシナリオを示す図である。
【
図7】本出願により提供される抗体タンパク質の合成のシナリオを示す図である。
【
図8】本出願により提供されるデータのインタラクションのシナリオを示す図である。
【
図9】本出願により提供されるデータ処理装置の構成図である。
【
図10】本出願により提供されるコンピュータ装置の構成図である。
【発明を実施するための形態】
【0014】
図1を参照するに、
図1は本出願の実施例により提供されるネットワークアーキテクチャの構成図である。
図1に示すように、ネットワークアーキテクチャはサーバー200及び端末装置群を含んでも良く、端末装置群は1つ又は複数の端末装置を含んでも良いが、ここでは端末装置の数について限定しない。
図1に示すように、複数の端末装置は具体的には端末装置100a、端末装置101a、端末装置102a、…、端末装置103aを含み得る。
図1に示すように、端末装置100a、端末装置101a、端末装置102a、…、端末装置103aは何れもサーバー200とネットワーク接続を行うことで、各端末装置がネットワーク接続によりサーバー200とデータのインタラクションを行うようにさせることができる。
【0015】
図1に示すサーバー200は独立した物理サーバーであっても良く、複数の物理サーバーからなるサーバー群又は分散システムであっても良く、さらに、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティサービス、CDN、ビッグデータ、人工知能プラットフォームなどの基本クラウドコンピューティングサービスを提供するクラウドサーバーであっても良い。端末装置はスマートフォン、タブレットコンピュータ、ノートブックコンピュータ、デスクトップコンピュータ、スマートテレビなどのスマート端末であっても良い。以下、端末装置100aとサーバー200との通信を例にして本出願の実施例についての具体な説明を行う。
【0016】
図2をも参照するに、
図2は本出願により提供されるデータの予測のシナリオを示す図である。
図2に示すように、端末装置100aは製薬会社向けの端末装置であっても良い。端末装置100aはサーバー200に標的タンパク質100bを提供でき、例えば、端末装置100aは標的タンパク質100bの関連記述情報をサーバー200に送信できる。そのうち、標的タンパク質100bの関連記述情報は標的タンパク質100bを一意に決定するための記述情報であり、例えば、標的タンパク質100bの構造情報、ねじれ角情報、プロティーン配列情報などであり得る。該標的タンパク質100bは疾患の原因となるタンパク質であり、例えば、標的タンパク質100bは人体のガン病変のタンパク質であっても良い。
【0017】
サーバー200は端末装置100aが提供する標的タンパク質100bを得た後に、サーバー200は該標的タンパク質100b及び参照タンパク質102bに基づいて、初期予測モデル101bを共同で訓練することで、プロティーン予測モデル103bを得ることができる。そのうち、参照タンパク質102bは人体に存在する、改変後に標的タンパク質100bと結合可能なタンパク質である。初期予測モデル101bを訓練して得られたプロティーン予測モデル103bは標的タンパク質100bと結合可能なタンパク質を予測するために用いられる。標的タンパク質に結合するタンパク質を予測することにより、標的タンパク質100bの属する疾病(例えば、ガン)を治療するための抗体タンパク質を生成できる。そのうち、初期予測モデル101bを訓練してプロティーン予測モデル103bを得る具体的プロセスについては、後述の
図3に対応する実施例における関連説明を参照できる。
【0018】
そのうち、参照タンパク質102bにはプロティーン調整領域が含まれても良く、該プロティーン調整領域は参照タンパク質102bにおける改変可能な領域である。プロティーン予測モデル103bにより、参照タンパク質102bの、プロティーン調整領域におけるプロティーンセグメント104bを生成でき、該プロティーンセグメント104bは予測プロティーンセグメントと呼ばれても良く、プロティーンセグメント104bは参照タンパク質102bの、プロティーン調整領域におけるプロティーンセグメント改変後の形式である。
【0019】
プロティーンセグメントデータベース105bは自然界から収集した複数のプロティーンセグメントを含んでも良く、サーバー200はプロティーンセグメントデータベース105bにおいて予測プロティーンセグメント104bの類似プロティーンセグメント106bのマッチングを行うことができる。そして、サーバー200は該類似プロティーンセグメント106bと参照抗体プロティーン102bとの合成を行い、合成後の結果に基づいて抗体タンパク質107bを得ることができる。該抗体タンパク質は標的タンパク質100bに結合して標的タンパク質100bの属する疾病(例えば、ガン)を治療する目的を達成するために用いられる。そのうち、抗体タンパク質107bを得る具体的なプロセスについても、後述の
図3に対応する実施例における関連説明を参照できる。
【0020】
本出願で提供される方法により、AIを医薬品製造のシナリオに適用し、医薬品製造の支援に用いることで、類似プロティーンセグメントのマッチング効率を向上させることができるため、標的タンパク質についての抗体タンパク質の取得効率を向上させることができる。よって、分かるように、本出願で提供される方法を採用することにより、医薬品製造のコストを節約し、医薬品製造の速度を向上させることができる。
【0021】
図3を参照するに、
図3は本出願により提供されるデータ処理方法のフローチャートである。
図3に示すように、該方法は以下のようなステップを含む。
【0022】
ステップS101:参照タンパク質のプロティーン属性情報を取得し、参照タンパク質はプロティーン調整領域を含む。
【0023】
具体的には、本出願の実施例の実行主体は1つのコンピュータ装置であっても良く、又は、複数のコンピュータ装置からなるコンピュータ装置群であっても良い。該コンピュータ装置はサーバーであっても良く、端末装置であっても良い。よって、本出願の実施例により提供される方法はサーバーにより実行されても良く、端末装置により実行されても良く、又は、サーバーと端末装置との連携により実行されても良い。以下、実行主体がサーバーであることを例にして本出願の実施例についての具体的な説明を行う。
【0024】
参照タンパク質は人体に存在する、改変され得る或る特定のタンパク質であり、参照タンパク質を改変することで高分子抗体プロティーンを得ることができ、該高分子抗体プロティーンは疾病治療用のタンパク質であり、該高分子抗体プロティーンは疾患を引き起こすプロティーンと結合することで、疾病治療の効果を達成できる。そのうち、参照抗体プロティーンは人体に存在するTCLプロティーン(ヒト組換えプロティーン)であっても良い。
【0025】
通常の場合、参照タンパク質は複数(少なくとも2つ)のアミノ酸を含んでも良く、サーバーは参照タンパク質に含まれる各アミノ酸のアミノ酸構造情報を取得でき、また、参照タンパク質に含まれる各アミノ酸のアミノ酸ねじれ角情報を得ることもできる。
【0026】
そのうち、アミノ酸のアミノ酸構造情報はアミノ酸の二次構造情報であって良く、アミノ酸の二次構造はα-ヘリックス、β-シート、β-ターン及びランダムコイルの4種類を含み、それ相応に、アミノ酸のアミノ酸構造情報は、アミノ酸がα-ヘリックス、β-シート、β-ターン及びランダムコイルにおいて属する二次構造の情報であっても良い。アミノ酸の二次構造情報はアミノ酸が属するタンパク質の二次構造情報であり、該二次構造情報はタンパク質におけるポリペプチド鎖の主鎖の骨格原子が一定の軸に沿って、らせん状又は折り畳み状に形成された特定のコンフォメーションであり、即ち、ペプチド鎖の主鎖の骨格原子の空間的位置配置である。
【0027】
そのうち、アミノ酸のアミノ酸ねじれ角情報は参照タンパク質のねじれ角情報である。タンパク質のねじれ角情報はタンパク質のねじれ角を含み、該ねじれ角とは、タンパク質における単結合が回転するときに、隣接する炭素上の他の結合が交差して形成した角度である。そのうち、1つのアミノ酸のアミノ酸ねじれ角情報は3つの角度を含んでも良く、該3つの角度はそれぞれPhi角、Psi角及びOmega角である。具体的には、phi角は結合N-Ca(1種の化学結合)を中心に回転する角度であり、psi角は結合Ca-C(1種の化学結合)を中心に回転する角度であり、omega角はC-N結合(1種の化学結合)を中心に回転する角度である。
【0028】
参照タンパク質における1つのアミノ酸は1つのアミノ酸構造情報及び1つのアミノ酸ねじれ角情報を有しても良く、サーバーはその取得した参照タンパク質におけるすべてのアミノ酸のアミノ酸構造情報及びアミノ酸ねじれ角情報を参照タンパク質のプロティーン属性情報とすることができる。また、該プロティーン属性情報はさらに、参照タンパク質のタンパク質配列(プロティーン配列と略称しても良い)を含んでも良く、該プロティーン配列は参照タンパク質のコンピュータによる表現であり、即ち、参照タンパク質のマシン言語である。参照タンパク質が含むアミノ酸のアミノ酸構造情報及びアミノ末端ねじれ角情報は、参照タンパク質の構造情報及びねじれ角情報を表すことができる。
【0029】
参照タンパク質は1種の参照抗体プロティーンであり、参照タンパク質には可変領域(CDR)が含まれても良く、該可変領域は参照タンパク質において改変され得る領域である。そのうち、疾患を引き起こすプロティーンにおける病変部位のプロティーンを標的プロティーンと称しても良く、該標的プロティーンは1種のタンパク質であり、標的プロティーンを標的タンパク質と称することもできる。該標的タンパク質は人体において病変を引き起こすタンパク質であり、生成された高分子抗体プロティーンは、ヒトの疾病を治療する目的を達成するために、該標的タンパク質に結合する必要がある。
【0030】
理解できるように、異なる疾病は通常、異なる標的タンパク質があり、異なる疾病は通常、参照タンパク質の中の異なる可変領域(即ち、改変領域)に対応し得る。言い換えれば、異なる標的タンパク質について、その参照タンパク質は同じであって良いが、異なる標的タンパク質は同じ参照タンパク質の中の異なる可変領域に対応できる。
【0031】
本出願の実施例では、生成された高分子抗体プロティーンと結合する必要のある標的タンパク質は人体内の任意の病変プロティーンであっても良く、標的タンパク質が具体的に属する疾病類型は実際の適用シナリオに応じて決定されても良いが、これについて限定せず、本明細書では標的タンパク質と総称し、本明細書では標的タンパク質の高分子抗体プロティーンを生成するプロセスを例にして説明を行う。
【0032】
そのうち、標的タンパク質は第三者装置により提供されても良く、該第三者装置は製薬会社向けのものであっても良い。製薬会社が或る標的タンパク質に結合するための高分子抗体プロティーンを生成する必要があるときに、製薬会社は第三者装置により、該標的タンパク質をサーバーに提供でき、例えば、製薬会社は第三者装置により、標的タンパク質の関連記述情報をサーバーに送信でき、該関連記述情報は標的タンパク質を記述及び決定するための情報であり、例えば、標的タンパク質のタンパク質配列情報、タンパク質構造情報などを含んでも良い。あるいは、製薬会社は第三者装置により、標的タンパク質のpdbファイルをサーバーに提供でき、該pdbファイルはプログラムデータファイルであり、該標的タンパク質のpdbファイルにより、標的タンパク質の3次元立体構造に対して可視化を行うことができ、即ち、標的タンパク質の3D画像を呈することができる。
【0033】
サーバーは第三者装置により提供される標的タンパク質を得た後に、さらに、標的タンパク質の標的プロティーン類型を認識でき、該標的プロティーン類型は、該標的タンパク質が属する疾病の類型、例えば、ガンの類型、ウィルスの類型などを表すことができる。サーバーでは疾病類型と参照タンパク質の中の対応する可変領域との間のマッピング関係がメンテナンスされており、該マッピング関係は各疾病類型の参照タンパク質の中の対応する可変領域を示している。
【0034】
これに基づいて、サーバーはその認識した標的タンパク質の標的プロティーン類型に従って、参照タンパク質における、該標的プロティーン類型とマッピング関係を有する可変領域を検索(サーチ)でき、そして、検索した参照タンパク質における、標的タンパク質に対応する可変領域を、参照タンパク質の中のプロティーン調整領域とすることができる。
【0035】
ステップS102:プロティーン予測モデルにより、プロティーン属性情報に基づいて、参照タンパク質におけるプロティーン調整領域のところの予測プロティーンセグメントを生成し、プロティーン予測モデルは標的タンパク質に基づいて訓練することで得られるものであり、プロティーン予測モデルは標的タンパク質に結合するタンパク質を予測するために用いられる。
【0036】
具体的には、サーバーはプロティーン予測モデルを呼び出すことができ、該プロティーン予測モデルは標的タンパク質に基づいて訓練することで得られるものであり、該プロティーン予測モデルは標的タンパク質に結合するタンパク質を予測するために用いられる。サーバーはその取得した参照タンパク質のプロティーン属性情報をプロティーン予測モデルに入力することで、該プロティーン予測モデルが対応して参照タンパク質におけるプロティーン調整領域のところの予測プロティーンセグメントを生成するようにさせることができる。該予測プロティーンセグメントは参照タンパク質におけるプロティーン調整領域のところのプロティーンセグメント改変後の形式である。1つのプロティーンセグメントは互いに接続される複数のアミノ酸からなるタンパク質セグメントであっても良い。
【0037】
オプションとして、サーバーは参照タンパク質全体のプロティーン属性情報をプロティーン予測モデルに入力することで、プロティーン予測モデルに予測プロティーンセグメントを生成させることができる。あるいは、サーバーは参照タンパク質におけるプロティーン調整領域のところのプロティーン属性情報をプロティーン予測モデルに入力することで、プロティーン予測モデルに予測プロティーンセグメントを生成させても良い。そのうち、参照タンパク質におけるプロティーン調整領域のところのプロティーン属性情報は参照タンパク質のプロティーン調整領域のところのアミノ酸のアミノ酸構造情報及びアミノ酸ねじれ角情報を含んでも良く、さらに、参照プロティーンセグメントのプロティーン調整領域のところのプロティーンセグメントのプロティーン配列情報を含んでも良い。具体的に実現するときに、実際の適用シナリオに応じて、参照タンパク質全体のプロティーン属性情報をプロティーン予測モデルに入力すること、又は、参照タンパク質におけるプロティーン調整領域のところのプロティーン属性情報のみをプロティーン予測モデルに入力することを選択しても良い。
【0038】
そのうち、プロティーン予測モデルにより、プロティーン属性情報に基づいて、参照タンパク質におけるプロティーン調整領域のところの予測プロティーンセグメントを生成するプロセスは次のとおりであっても良い。
【0039】
参照タンパク質におけるプロティーン調整領域のところのアミノ酸を調整アミノ酸と決定し、該調整アミノ酸は複数あっても良い。プロティーン予測モデルは入力された参照タンパク質のプロティーン属性情報に基づいて、各調整アミノ酸の予測構造情報及び予測ねじれ角情報を生成し、1つの調整アミノ酸は1つの予測構造情報及び1つの予測ねじれ角情報を対応して有しても良く、1つの予測構造情報はα-ヘリックス、β-シート、β-ターン及びランダムコイルの4種類の二次構造のうちの任意の1つの二次構造の構造情報であっても良く、1つの予測ねじれ角情報はPhi角、Psi角及びOmega角の計3つの角度を含んでも良い。
【0040】
また、プロティーン予測モデルでは各調整アミノ酸の予測構造情報をそれぞれ予測でき、プロティーン予測モデルが調整アミノ酸の予測構造情報を生成する具体的なプロセスは次のとおりであっても良い。
【0041】
アミノ酸の二次構造がα-ヘリックス、β-シート、β-ターン及びランダムコイルの4種類を含むため、1つの二次構造がアミノ酸の1つの構造次元と理解しても良い(それをアミノ酸構造次元と称しても良い)。よって、アミノ酸のアミノ酸構造次元はα-ヘリックス、β-シート、β-ターン及びランダムコイルの4種類のアミノ酸構造次元を含んでも良い。
【0042】
これに基づいて、プロティーン予測モデルは調整アミノ酸の各アミノ酸構造次元上のサンプリング確率を予測できる。1つの調整アミノ酸について、1つのアミノ酸構造次元が1つのサンプリング確率に対応しても良く、該サンプリング確率は、予測される調整アミノ酸の二次構造の、対応するアミノ酸構造次元上のサンプリング確率を表すことができる。すべてのアミノ酸構造次元のうちのサンプリング確率最大のアミノ酸構造次元を目標構造次元とすることができる。1つの調整アミノ酸が1つの目標構造次元に対応する。
【0043】
そして、サーバーは目標構造次元上で構造パラメータのサンプリングを行い、調整アミノ酸に対応する予測構造情報を生成でき、生成された予測構造情報は生成された調整アミノ酸の目標構造次元上の二次構造である。例えば、目標構造次元がα-ヘリックスの構造次元である場合、生成された調整アミノ酸に対応する予測構造情報は調整アミノ酸のα-ヘリックス二次構造である。理解できるように、構造パラメータのサンプリングを行うプロセスは予測構造情報を生成するプロセスである。
【0044】
また、プロティーン予測モデルでは各調整アミノ酸の予測ねじれ角情報をそれぞれ予測でき、プロティーン予測モデルが調整アミノ酸の予測ねじれ角情報を生成する具体的なプロセスは以下のとおりであっても良い。
【0045】
アミノ酸のねじれ角がPhi角、Psi角及びOmega角の3つの角度を含み、Phi角、Psi角及びOmega角の数値範囲がすべて0から360度であり得るため、10度を1つのサンプリング区間とすることができ、例えば、[0,10]が1つのサンプリング区間であっても良い。よって、Phi角、Psi角及びOmega角について、それぞれは36(即ち、360/10)個のサンプリング区間に対応でき、1つのサンプリング区間が1つのねじれ角次元と理解しても良い(それをアミノ酸ねじれ角次元と称しても良い)。よって、アミノ酸のねじれ角について言えば、トータルで6*36*36個のアミノ酸ねじれ角次元がある。
【0046】
例えば、Phi角の1つのサンプリング区間が[0,10]、Psi角の1つのサンプリング区間が[10,20]、Omega角の1つのサンプリング区間が[20,30]である場合、1つのアミノ酸ねじれ角次元はPhi[0,10]~Psi[10,20]~Omega[20,30]であっても良く、該アミノ酸ねじれ角次元はPhi角の数値範囲が0から10度、Psi角の数値範囲が10から20度、Omega角の数値範囲が20から30度であることを表す。
【0047】
オプションとして、1つのサンプリング区間の角度範囲は10度に限定されず、他の角度範囲であっても良く、1つのサンプリング区間の角度の数値範囲は実際の適用シナリオに応じて決定されても良いが、これについて限定しない。例えば、1つのサンプリング区間がさらに、5度であっても良く、例えば、[0,5]が1つのサンプリング区間であっても良い。このときに、Phi角、Psi角及びOmega角について、それぞれはすべて72(即ち、360/5)個のサンプリング区間に対応できる。よって、アミノ酸のねじれ角について言えば、トータルで72*72*72個のアミノ酸ねじれ角次元がある。
【0048】
例えば、Phi角の1つのサンプリング区間が[0,5]、Psi角の1つのサンプリング区間が[5,10]、Omega角の1つのサンプリング区間が[10,15]である場合、1つのアミノ酸ねじれ角次元は[0,5]~[5,10]~[10,15]であっても良く、該アミノ酸ねじれ角次元は、Phi角の数値範囲が0から5度、Psi角の数値範囲が5から10度、Omega角の数値範囲が10から15度であることを表す。
【0049】
これに基づいて、プロティーン予測モデルは調整アミノ酸の各アミノ酸ねじれ角次元上のサンプリング確率を予測できる。1つの調整アミノ酸について、1つのアミノ酸ねじれ角次元が1つのサンプリング確率に対応しても良く、該サンプリング確率は、予測される調整アミノ酸のねじれ角の対応するアミノ酸ねじれ角次元上の確率を表すことができる。すべてのアミノ酸ねじれ角次元のうちのサンプリング確率最大のアミノ酸ねじれ角次元を目標ねじれ角次元とすることができる。1つの調整アミノ酸が1つの目標ねじれ角次元に対応する。
【0050】
そして、サーバーは目標ねじれ角次元上でねじれ角パラメータのサンプリングを行い、調整アミノ酸に対応する予測ねじれ角情報を生成でき、生成された予測ねじれ角情報は生成された調整アミノ酸の目標ねじれ角次元上のねじれ角である。例えば、中間角の方式でねじれ角パラメータのサンプリングを行っても良く、例えば、1つのサンプリング区間が10度であっても良く、該10度のサンプリング区間が[0,10]であっても良く、この場合、該サンプリング区間でサンプリングして得た角度は5度であっても良い。
【0051】
一例として、1つのアミノ酸ねじれ角次元がPhi[0,10]~Psi[10,20]~Omega[20,30]である場合、[0,10]でサンプリングして得たPhi角は5度であっても良く、[10,20]でサンプリングして得たPsi角は15度であっても良く、[20,30]でサンプリングして得たOmega角は25度であって良く、それ相応に、最終的にサンプリングして生成した調整アミノ酸の予測ねじれ角情報は5度のPhi角、15度のPsi角及び25度のOmega角である。理解できるように、ねじれ角パラメータのサンプリングを行うプロセスは予測ねじれ角情報を生成するプロセスである。
【0052】
上述のプロセスにより、各調整アミノ酸に対応する予測構造情報及び予測ねじれ角情報を生成しており、各調整アミノ酸に対応する予測構造情報及び予測ねじれ角情報に基づいて、プロティーン調整領域のところの予測されるプロティーンセグメントを決定でき、該プロティーンセグメントを予測プロティーンセグメントと称しても良く、該予測プロティーンセグメントの構造情報は調整アミノ酸の予測構造情報であり、該予測プロティーンセグメントのねじれ角情報は調整アミノ酸の予測ねじれ角情報である。
【0053】
図4を参照するに、
図4は本出願により提供されるセグメント予測のシナリオを示す図である。
図4に示すように、参照タンパク質100cが計6つのアミノ酸を含み、該6つのアミノ酸がそれぞれアミノ酸a1、アミノ酸a2、アミノ酸a3、アミノ酸a4、アミノ酸a5及びアミノ酸a6であるとする。また、参照タンパク質100cにおけるプロティーン調整領域のところのアミノ酸がアミノ酸a1、アミノ酸a2及びアミノ酸a3を含み、即ち、参照タンパク質100cにおける調整アミノ酸がアミノ酸a1、アミノ酸a2及びアミノ酸a3を含むとする。
【0054】
参照タンパク質100cにおける各アミノ酸のアミノ酸構造情報が各アミノ酸の実際の二次構造であっても良く、枠101cに示すように、アミノ酸a1の二次構造a1、アミノ酸a2の二次構造a2、アミノ酸a3の二次構造a3、アミノ酸a4の二次構造a4、アミノ酸a5の二次構造a5及びアミノ酸a6の二次構造a6を含む。
【0055】
参照タンパク質100cにおける各アミノ酸のアミノ酸ねじれ角情報が各アミノ酸の実際のねじれ角であっても良く、例えば、枠102cに示すように、アミノ酸a1のねじれ角a1、アミノ酸a2のねじれ角a2、アミノ酸a3のねじれ角a3、アミノ酸a4のねじれ角a4、アミノ酸a5のねじれ角a5及びアミノ酸a6のねじれ角a6を含む。
【0056】
よって、上述の枠101cにおける各アミノ酸の二次構造及び枠102cにおける各アミノ酸のねじれ角により、参照タンパク質100cのプロティーン属性情報103cを得ることができる。
【0057】
サーバーはプロティーン属性情報103cをプロティーン予測モデル104cに入力することで、プロティーン予測モデル104cが参照タンパク質100cにおける各調整アミノ酸の予測構造情報及び予測ねじれ角情報を生成するようにさせることができる。そのうち、各調整アミノ酸の予測構造情報は各調整アミノ酸の予測二次構造であっても良く、該予測二次構造はプロティーン予測モデル104cが予測した調整アミノ酸の二次構造である。枠105cに示すように、各調整アミノ酸の予測構造情報はアミノ酸a1の予測二次構造a1、アミノ酸a2の予測二次構造a2及びアミノ酸a3の予測二次構造a3を含む。
【0058】
各アミノ酸の予測ねじれ角情報が各調整アミノ酸の予測ねじれ角であっても良く、該予測ねじれ角はプロティーン予測モデルが予測した調整アミノ酸のねじれ角である。枠106cに示すように、各調整アミノ酸の予測ねじれ角情報はアミノ酸a1の予測ねじれ角a1、アミノ酸a2の予測ねじれ角a2及びアミノ酸a3の予測ねじれ角a3を含む。
【0059】
よって、上述の枠105cにおける各調整アミノ酸の予測構造情報及び枠106cにおける各調整アミノ酸の予測ねじれ角情報に基づいて、予測プロティーンセグメント107cを得ることができる。
【0060】
図5を参照するに、
図5は本出願により提供されるセグメントの生成のシナリオを示す図である。
図5に示すように、第1個目のアミノ酸~第m個目のアミノ酸は参照タンパク質の、プロティーン調整領域のところの調整アミノ酸であっても良い。プロティーン予測モデルにより予測プロティーンセグメントを生成するときに、プロティーン予測モデルはその中のモデルネットワーク層により各調整アミノ酸の予測構造情報及び予測ねじれ角情報に対してサンプリングを行うことができる。
【0061】
枠100dに示すように、まず、プロティーン予測モデルは第1個目のアミノ酸のアミノ酸特徴をサンプリングでき、枠101dに示すように、第1個目のアミノ酸のアミノ酸特徴をサンプリングすることは。第1個目のアミノ酸の二次構造をサンプリングし、第1個目のアミノ酸のPhi角をサンプリングし、第1個目のアミノ酸のPsi角をサンプリングし、及び第1個目のアミノ酸のOmega角をサンプリングすることを含む。そのうち、サンプリングして得た第1個目のアミノ酸の二次構造は第1個目のアミノ酸の予測構造情報であり、サンプリングして得た第1個目のアミノ酸のPhi角、Psi角及びOmega角は第1個目のアミノ酸の予測ねじれ角情報である。
【0062】
枠102dに示すように、続いて、プロティーン予測モデルは第2個目のアミノ酸のアミノ酸特徴をサンプリングでき、枠103dに示すように、第2個目のアミノ酸のアミノ酸特徴をサンプリングすることは、第2個目のアミノ酸の二次構造をサンプリングし、第2個目のアミノ酸のPhi角をサンプリングし、第2個目のアミノ酸のPsi角をサンプリングし、及び第2個目のアミノ酸のOmega角をサンプリングすることを含む。そのうち、サンプリングして得た第2個目のアミノ酸の二次構造は第2個目のアミノ酸の予測構造情報であり、サンプリングして得た第2個目のアミノ酸のPhi角、Psi角及びOmega角は第2個目のアミノ酸の予測ねじれ角情報である。
【0063】
枠104dに示すように、次いて、プロティーン予測モデルは第3個目のアミノ酸のアミノ酸特徴をサンプリングでき、枠105dに示すように、第3個目のアミノ酸のアミノ酸特徴をサンプリングすることは、第3個目のアミノ酸の二次構造をサンプリングし、第3個目のアミノ酸のPhi角をサンプリングし、第3個目のアミノ酸のPsi角をサンプリングし、及び第3個目のアミノ酸のOmega角をサンプリングすることを含む。そのうち、サンプリングして得た第3個目のアミノ酸の二次構造は第3個目のアミノ酸の予測構造情報であり、サンプリングして得た第3個目のアミノ酸のPhi角、Psi角及びOmega角は第3個目のアミノ酸の予測ねじれ角情報である。
【0064】
上述のプロセスにより、プロティーン予測モデルは各調整アミノ酸のアミノ酸特徴に対してサンプリングを、最後の1つの調整アミノ酸(例えば、第m個目のアミノ酸)のアミノ酸特徴をサンプリングして得るまで行っても良い。
【0065】
枠106dに示すように、プロティーン予測モデルは第m個目のアミノ酸のアミノ酸特徴をサンプリングでき、枠107dに示すように、第m個目のアミノ酸のアミノ酸特徴をサンプリングすることは、第m個目のアミノ酸の二次構造をサンプリングし、第m個目のアミノ酸のPhi角をサンプリングし、第m個目のアミノ酸のPsi角をサンプリングし、及び第m個目のアミノ酸のOmega角をサンプリングすることを含む。そのうち、サンプリングして得た第m個目のアミノ酸の二次構造は第m個目のアミノ酸の予測構造情報であり、サンプリングして得た第m個目のアミノ酸のPhi角、Psi角及びOmega角は第m個目のアミノ酸の予測ねじれ角情報である。
【0066】
そして、プロティーン予測モデルは上述のサンプリングにより得た各調整アミノ酸(第1個目のアミノ酸~第m個目のアミノ酸を含む)のアミノ酸特徴に基づいて、予測プロティーンセグメント108dを生成できる。
【0067】
以下、具体的に如何に訓練して上述のプロティーン予測モデルを得るかを説明する。
【0068】
なお、本出願の実施例では強化学習方法を用いて訓練することでプロティーン予測モデルを得るのであり、プロティーン予測モデルの訓練データと予測データが通常同じでるので、プロティーン予測モデルの訓練プロセスは予測される予測プロティーンセグメントについて絶えずに更新するプロセスに相当すると理解できる。
【0069】
言い換えれば、サーバーは1つの標的タンパク質を取得する度に、該標的タンパク質及び参照タンパク質に基づいてプロティーン予測モデルを訓練し、かつリアルタイムで、訓練により得られたプロティーン予測モデルを用いて、参照タンパク質におけるプロティーン調整領域のところの予測プロティーンセグメントを予測でき、該予測プロティーンセグメントは標的タンパク質に結合する高分子抗体プロティーンの生成を補助するために用いられる。
【0070】
本出願の実施例では、訓練未完成のプロティーン予測モデルを初期予測モデルと呼んでも良い。言い換えれば、初期予測モデルを訓練することでプロティーン予測モデルを得ることができ、該初期予測モデルは深層ニューラルネットワークであっても良く、例えば、該初期予測モデルはRNNネットワーク(Recurrent Neural Network)、LSTMネットワーク(Long Short Term Memory Network)又は他のニューラルネットワーク構造であり得る。
【0071】
同様に、訓練データが上述の標的タンパク質及び参照タンパク質であるので、参照タンパク質の上述のプロティーン属性情報を初期予測モデルに入力し、該初期予測モデルにより、参照タンパク質におけるプロティーン調整領域のところのプロティーンセグメントを予測して生成でき、該初期予測モデルが予測して得た参照タンパク質におけるプロティーン調整領域のところのプロティーンセグメントはサンプル予測プロティーンセグメントと称されても良く、初期予測モデルがサンプル予測プロティーンセグメントを生成する原理は、上述のプロティーン予測モデルが予測プロティーンセグメントを生成する原理と同じである。但し、初期予測モデルのモデルパラメータがプロティーン予測モデルのモデルパラメータとは異なるので、初期予測モデルが生成するサンプル予測プロティーンセグメントとプロティーン予測モデルが生成する予測プロティーンセグメントとは同じではない。
【0072】
また、サーバーではさらにプロティーンセグメントデータベースがメンテナンスされており、該プロティーンセグメントデータベースには複数のプロティーンセグメントが含まれても良く、1つのプロティーンセグメントが1つの短鎖ペプチドであり、1つの短鎖ペプチドが複数のアミノ酸からなって良いので、プロティーンセグメントデータベースを短鎖ペプチドデータベースと称することもできる。理解できるように、プロティーンセグメントデータベースには過去収集した、自然界に存在するすべての短鎖ペプチドが含まれても良く、さらには、プロティーンセグメントデータベースには、過去収集したプロティーンを分割することで得られたプロティーンセグメント(即ち、タンパク質セグメント)がさらに含まれても良い。
【0073】
初期予測モデルが生成したサンプル予測プロティーンセグメントを得た後に、サーバーはプロティーンセグメントデータベースにおいてサンプル予測プロティーンセグメントに類似したプロティーンセグメントのマッチングを行うことができ、マッチングにより得た(即ち、マッチングした)、サンプル予測プロティーンセグメントに類似したプロティーンセグメントをサンプル類似プロティーンセグメントと称しても良い。マッチングにより得たサンプル類似プロティーンセグメントの長さはサンプル予測プロティーンセグメントの長さと同じであり、サンプル予測プロティーンセグメントの長さは参照タンパク質におけるプロティーン調整領域のところのプロティーンセグメントの長さと同じである。なお、アミノ酸の個数を用いてプロティーンセグメントの長さを評価でき、同じ数のアミノ酸を有するプロティーンセグメントはその長さが同じであると見なされる。ここで、FragmentPickerツール(フラグメントピッカーツール)によりプロティーンセグメントデータベースにおいてサンプル予測プロティーンセグメントにマッチングしたサンプル類似プロティーンセグメントを見つけることができる。
【0074】
また、マッチングしたサンプル類似プロティーンセグメントと、参照タンパク質との仮想合成を行うことで、サンプル合成物質補助情報を得ることができる。そのうち、サンプル類似プロティーンセグメントと参照タンパク質との仮想合成を行う方法は、参照タンパク質におけるプロティーン調整領域のところのプロティーンセグメントをサンプル類似プロティーンセグメントで置換することであっても良く、それ相応に、サンプル合成物質補助情報は、サンプル類似プロティーンセグメントと参照タンパク質との合成後に得られたタンパク質の関連記述情報(例えば、プロティーン構造情報、プロティーン配列情報、プロティーンねじれ角情報などの、タンパク質を記述及び一意に決定し得る記述情報)であっても良く、つまり、参照タンパク質におけるプロティーン調整領域のところのプロティーンセグメントをサンプル類似プロティーンセグメントで置換した後に得られた新しいタンパク質の関連記述情報である。
【0075】
理解できるように、上述のサンプル合成物質補助情報は標的タンパク質に結合するサンプル抗体タンパク質の生成を補助するために用いられ、該サンプル抗体タンパク質は、参照タンパク質におけるプロティーン調整領域のところのプロティーンセグメントをサンプル類似プロティーンセグメントで置換した後に得らえたタンパク質であり、該サンプル抗体タンパク質は、マッチングしたサンプル類似プロティーンセグメントに基づいて生成された、標的タンパク質に結合するための高分子抗体プロティーンである。
【0076】
そして、サーバーはさらに、サンプル抗体タンパク質と標的タンパク質との間の結合強度を取得でき、該結合強度をサンプル結合強度と呼んでも良い。名前から分かるように、該サンプル結合強度はサンプル抗体プロティーンセグメント物質と標的タンパク質との間で反応が生じて結合を行う強度である。
【0077】
抗体タンパク質と標的タンパク質との間の結合強度が大きいほど、抗体タンパク質が標的タンパク質の属する疾病を治療する治療効果が良くなる。よって、サーバーが得たサンプル抗体タンパク質と標的タンパク質との間のサンプル結合強度に基づいて、初期予測モデルに1つのインセンティブパラメータ又は罰パラメータを与えることで、初期予測モデルのモデルパラメータを修正でき、具体的には以下の説明内容を参照する。
【0078】
サーバーは参照タンパク質及び標的タンパク質に基づいて初期予測モデルに対して複数回持続的なモデル訓練を行うことができ、また、初期予測モデルに対してモデル訓練を行う度に、初期予測モデルは1つのサンプル予測プロティーンセグメントを生成し、そして、1つのサンプル結合強度を得ることができる。よって、サンプル結合強度に基づいて初期予測モデルのモデルパラメータを修正するときに、初期予測モデルに対しての隣接する2回のモデル訓練において得られたサンプル結合強度の間の差に基づいて、初期予測モデルのモデルパラメータを修正できる。
【0079】
具体的には、初期予測モデルに対しての次回の訓練により得られたサンプル結合強度が初期予測モデルに対してのその前の回の訓練により得られたサンプル結合強度よりも大きいときに、次回の訓練により予測して得たサンプル予測プロティーンセグメントの正確さはその前の回の訓練により予測して得たサンプル予測プロティーンセグメントの正確さよりも高いことを意味する。よって、次回の訓練プロセスでは、初期予測モデルに1つの奨励(報酬)パラメータを与えることで、初期予測モデルが該奨励パラメータに基づいて良い予測方向(例えば、次回の予測方向)にモデルパラメータを修正するように励ますことができる。
【0080】
逆に、初期予測モデルに対しての次回の訓練により得られたサンプル結合強度が初期予測モデルに対してのその前の回の訓練により得られたサンプル結合強度よりも小さいときに、次回の訓練により予測して得たサンプル予測プロティーンセグメントの正確さはその前の回の訓練により予測して得たサンプル予測プロティーンセグメントの正確さよりも小さいことを意味する。よって、次回の訓練プロセスでは、初期予測モデルに1つの罰パラメータを与えることで、初期予測モデルが該罰パラメータに基づいて悪い予測方向(例えば、次回の予測方向)を捨て、良い予測方向(例えば、その前の回の予測方向)にモデルパラメータを修正するようにさせることができる。
【0081】
例えば、初期予測モデルに対しての第n回の訓練プロセスにおいて、サーバーは初期予測モデルが生成したサンプル予測プロティーンセグメントとマッチングしたサンプル類似プロティーンセグメントを用いてサンプル抗体タンパク質knを合成でき、該サンプル抗体タンパク質knと標的タンパク質との間のサンプル結合強度はサンプル結合強度qnである。そのうち、nは初期予測モデルに対しての総訓練回数以下の正の整数であっても良い。
【0082】
初期予測モデルに対しての第n-1回の訓練プロセスにおいて、サーバーは初期予測モデルが生成したサンプル予測プロティーンセグメントとマッチングしたサンプル類似プロティーンセグメントを用いてサンプル抗体タンパク質kn-1を合成でき、該サンプル抗体タンパク質kn-1と標的タンパク質との間のサンプル結合強度はサンプル結合強度qn-1であっても良い。
【0083】
オプションとして、初期予測モデルに対しての第n回の訓練プロセスにおいて、サーバーはプロティーンセグメントデータベースからサンプル予測プロティーンセグメントとマッチングした複数のサンプル類似プロティーンセグメントを見つけることができ、該複数のサンプル類似プロティーンセグメントはプロティーンセグメントデータベースにおいてサンプル予測プロティーンセグメントと一番類似したN個のプロティーンセグメントであっても良く、Nの具体的な値は実際の適用シナリオに応じて決定されても良いが、これについて限定しない。
【0084】
1つのサンプル類似プロティーンセグメントが1つのサンプル抗体タンパク質knに対応し得る。よって、複数(例えば、N個)のサンプル抗体タンパク質knが存在し、各サンプル抗体タンパク質knと標的タンパク質との間に1つの結合強度(標的結合強度と呼んでも良い)が存在するので、すべてのサンプル抗体タンパク質knのそれぞれと標的タンパク質との間の標的結合強度の平均値(平均強度と呼んでも良い)を第n回の訓練プロセスにおけるサンプル結合強度qnとすることができる。同様に、サンプル結合強度qnの計算と同じ原理を採用して第n-1回の訓練プロセスにおけるサンプル結合強度qn-1を計算できる。
【0085】
そして、サーバーはサンプル結合強度qn及びサンプル結合強度qn-1に基づいて初期予測モデルのモデルパラメータを修正できる。例えば、サーバーはサンプル結合強度qnとサンプル結合強度qn-1との間の平方差を取得でき、該平方差はサンプル結合強度qnの平方からサンプル結合強度qn-1の平方を減算した値であり得る。
【0086】
上述の罰パラメータ及び奨励パラメータをインセンティブパラメータと総称しても良く、サーバーは上述のサンプル結合強度qnとサンプル結合強度qn-1との間の平方差をインセンティブパラメータとして初期予測モデルに与えることで、初期予測モデルが該インセンティブパラメータに基づいて自分のモデルパラメータを修正するようにさせることができる。
【0087】
理解できるように、サンプル結合強度qnがサンプル結合強度qn-1よりも大きい場合、サンプル結合強度qnとサンプル結合強度qn-1との間の平方差の値は正数であり、このときに、該平方差を奨励パラメータとして初期予測モデルに与えることで、初期予測モデルが該奨励パラメータにより自分のモデルパラメータを修正するようにさせることができる。一方、サンプル結合強度qnがサンプル結合強度qn-1よりも小さい場合、サンプル結合強度qnとサンプル結合強度qn-1との間の平方差の値は負数であり、このときに、該平方差を罰パラメータとして初期予測モデルに与えることで、初期予測モデルが該罰パラメータにより自分のモデルパラメータを修正するようにさせることができる。
【0088】
上述のプロセスにより、標的タンパク質及び参照タンパク質を採用して初期予測モデルを絶えずに訓練でき、初期予測モデルが収斂(収束)に達しており、又は、初期予測モデルに対しての訓練回数が所定の閾値に達している場合、このときに訓練により得られた初期予測モデルを上述のプロティーン予測モデルとすることができる。
【0089】
理解できるように、初期予測モデルを毎回訓練するときに該初期予測モデルのモデルパラメータを修正し得るため、初期予測モデルが各訓練プロセスで予測して得たサンプル予測プロティーンセグメントは通常異なり、それ相応に、各訓練プロセスで得たサンプル結合強度も通常異なり、毎回の訓練プロセスで得られた異なるサンプル結合強度に基づいて、初期予測モデルのモデルパラメータを絶えずに修正できる。これは初期予測モデルを訓練するためのサンプルデータ(毎回の訓練プロセスにおけるサンプル結合強度であっても良い)が初期予測モデル自体によって生成されることに相当し、よって、大量のサンプルデータを追加で準備する必要がない。
【0090】
そのうち、サンプル抗体タンパク質及び標的タンパク質に対してprotein-docking(分子間の相互作用を計算するアルゴリズム)による計算を行うことで、サンプル抗体タンパク質と標的タンパク質との間のサンプル結合強度を得ることができる。
【0091】
上述から分かるように、本出願の実施例で提供される方法により、サンプル合成物質補助情報の補助により合成されたサンプル抗体タンパク質と標的タンパク質との間のサンプル結合強度に基づいて、初期予測モデルにインセンティブパラメータを与え、該インセンティブパラメータにより初期予測モデルに対して強化学習を行うことで、最終のプロティーン予測モデル、を取得でき、そして、該プロティーン予測モデルにより、自発的にAI技術に基づいて標的タンパク質に結合するタンパク質に対しての予測を実現できる。
【0092】
図6を参照するに、
図6は本出願により提供されるモデルの訓練のシナリオを示す図である。
図6に示すように、AIモジュール100fとは初期予測モデルを指しても良く、本出願ではAIモジュール以外に、短鎖ペプチド・マッチング・クエリ・モジュール101f、抗体プロティーンデータ合成モジュール103f及び結合強度計算モジュール104fが含まれても良い。
【0093】
サーバーは参照抗体プロティーンのプロティーン属性情報をAIモジュールに入力し、AIモジュールによって予測することでロティーン調整領域におけるアミノ酸の二次構造(即ち、サンプル予測構造情報)及びねじれ角(即ち、サンプル予測ねじれ角情報)を得ることができる。
【0094】
プロティーン調整領域のところの元のプロティーンセグメントの長さ(即ち、短鎖ペプチド長)及びAIモジュールが予測して得たプロティーン調整領域のところのアミノ酸の二次構造及びねじれ角に基づいて、短鎖ペプチドデータベース102fにおいてマッチングによりサンプル類似プロティーンセグメントを得ることができ、該サンプル類似プロティーンセグメントはこのところの目標短鎖ペプチドである。
【0095】
サーバーは抗体プロティーンデータ合成モジュール103fにより、目標短鎖ペプチドと参照抗体プロティーンとの合成を行うことで新抗体プロティーンを得ることができ、該新抗体プロティーンは上述のサンプル抗体タンパク質である。そして、サーバーは結合強度計算モジュール104fにより、該新抗体プロティーンと標的タンパク質との間の結合強度を計算し、該結合強度によりAIモジュールについての1つのインセンティブパラメータを生成できる。サーバーは該インセンティブパラメータをAIモジュールに与えることで、AIモジュールのモデルパラメータを修正できる。
【0096】
上述のプロセスにより、参照抗体プロティーン及び標的タンパク質に基づいて持続かつ循環的にAIモジュール100fを訓練でき、訓練済みのAIモジュール100fは上述のプロティーン予測モデルである。
【0097】
ステップS103:プロティーンセグメントデータベースにおいて予測プロティーンセグメントの類似プロティーンセグメントのマッチングを行う。
【0098】
具体的には、サーバーは上述のプロティーンセグメントデータベースにおいてプロティーン予測モデルが予測した予測プロティーンセグメントと類似したプロティーンセグメントのマッチングを行うことができ、プロティーンセグメントデータベースにおいてマッチングを行うことで得られた、予測プロティーンセグメントと類似したプロティーンセグメントは予測プロティーンセグメントの類似プロティーンセグメントと称され得る。該類似プロティーンセグメントの長さは予測プロティーンセグメントの長さと同じである。ここで、FragmentPickerツール(フラグメントピッカーツール)により、プロティーンセグメントデータベースにおいて予測プロティーンセグメントの類似プロティーンセグメントのマッチングを行うことができる。
【0099】
なお、本出願の実施例では類似プロティーンセグメントのマッチングのためのプロティーンセグメントデータベースのデータ量が非常に大きくても良い。何故なら、プロティーン予測モデルの予測により得られた予測プロティーンセグメントがプロティーンの検索ための方向及び根拠を提供しているからである。よって、プロティーンセグメントデータベースにおけるプロティーンセグメントの数が非常に多くても、予測プロティーンセグメントの二次構造(即ち、上述の予測構造情報)及びねじれ角(即ち、上述の予測ねじれ角情報)により、プロティーンセグメントデータベースから、類似二次構造及びねじれ角を有する類似プロティーンセグメントを迅速に検索できる。
【0100】
そのうち、類似プロティーンセグメントが、プロティーンセグメントデータベースからマッチングした、予測プロティーンセグメントの二次構造及びねじれ角と最も類似したプロティーンセグメントであるので、プロティーンセグメントデータベースにおいて予測プロティーンセグメントの類似プロティーンセグメントのマッチングを行うときに、それぞれ、予測構造情報及び予測ねじれ角情報について1つの重みを設定しても良く、予測構造情報について設定した重みは構造重みと呼ばれても良く、予測ねじれ角情報について設定した重みはじれ角重みと称されても良い。よって、該構造重み及び該ねじれ角重みに基づいて、プロティーンセグメントデータベースにおいて予測構造情報及び予測ねじれ角情報との綜合類似度が最も高いプロティーンセグメントのマッチングを行い、マッチングしたものを予測プロティーンセグメントの類似プロティーンセグメントとすることができる。
【0101】
ステップS104:類似プロティーンセグメントと参照タンパク質との仮想合成を行い、合成物質補助情報を取得し、合成物質補助情報は標的タンパク質に結合する抗体タンパク質の生成を補助するために用いられる。
【0102】
具体的には、サーバーはマッチングした類似プロティーンセグメントと、参照タンパク質との仮想合成を行い、合成物質補助情報を取得できる。そのうち、類似プロティーンセグメントと参照タンパク質との仮想合成を行う方法は、参照タンパク質におけるプロティーン調整領域のところのプロティーンセグメントを類似プロティーンセグメントで置換することであっても良い。類似プロティーンセグメントと参照タンパク質との仮想合成を行うとは、装置において類似プロティーンセグメントと参照タンパク質とのシミュレーションによる合成を指し、実際の類似プロティーンセグメントと参照タンパク質とを実際の抗体タンパク質に合成するのではない。
【0103】
合成物質補助情報は類似タンパク質と参照タンパク質との合成後に得られた新しいタンパク質の関連記述情報(例えば、プロティーン構造情報、プロティーン配列情報、プロティーンねじれ角情報などの、タンパク質を記述及び一意に決定するための記述情報)であっても良い。該合成物質補助情報は、参照タンパク質におけるプロティーン調整領域のところのプロティーンセグメントを類似プロティーンセグメントで置換した後に得られた新しいタンパク質の関連記述情報である。ここで、PyRosettaツールにより、類似プロティーンセグメントと参照タンパク質との仮想合成を行うことができ、PyRosettaはPython(1種のコンピュータプログラミング言語)ベースのRosetta(ラフセット理論のフレームワークに基づくテーブル邏輯データ処理ツール)インタラクションキットである。
【0104】
理解できるように、上述の合成物質補助情報は標的タンパク質に結合する抗体タンパク質の生成を補助するために用いられ、該抗体タンパク質は参照タンパク質におけるプロティーン調整領域のところのプロティーンセグメントを類似プロティーンセグメントで置換した後に得られたタンパク質である。該抗体タンパク質は、類似プロティーンセグメントに基づいて生成された、標的タンパク質に結合するための高分子抗体プロティーンである。該抗体タンパク質は最終的な予測により得られた、標的タンパク質の属する疾病を治療するための薬物であり、該抗体タンパク質は標的タンパク質に結合することで、標的タンパク質の属する疾病を治療することを実現できる。
【0105】
例えば、サーバーは参照タンパク質におけるプロティーン調整領域のところのプロティーンセグメントを切り出し、切り出し後の参照タンパク質を得ることができる。該切り出し後の参照タンパク質は、参照タンパク質からプロティーン調整領域のところのプロティーンセグメントを除去した後のタンパク質である。そして、サーバーは切り出し後の参照タンパク質と類似プロティーンセグメントとの仮想合成を行い、合成物質補助情報を取得できる。なお、切り出し後の参照タンパク質と類似プロティーンセグメントとの仮想合成を行う方法は、切り出し後の参照タンパク質におけるプロティーン調整領域のところに、類似プロティーンセグメントを繋ぎわせることであっても良い。
【0106】
図7を参照するに、
図7は本出願により提供される抗体タンパク質の合成のシナリオを示す図である。
図7に示すように、参照タンパク質100eには可変領域101eが含まれ、該可変領域101eは参照タンパク質100eにおけるプロティーン調整領域である。
【0107】
サーバーは参照タンパク質のプロティーン属性情報をプロティーン予測モデル102eに入力でき、それ相応に、プロティーン予測モデル102eはプロティーン調整領域101eのところのプロティーンセグメントについての予測プロティーンセグメント103eを生成できる。該予測プロティーンセグメント103eのセグメント長は参照タンパク質100eにおける元のプロティーン調整領域101eのところのプロティーンセグメントのセグメント長と同である。
【0108】
続いて、サーバーはプロティーンセグメントデータベース104eにおいて予測プロティーンセグメント103eの類似プロティーンセグメント106eのマッチングを行うことができる。そして、サーバーは参照タンパク質100eと類似プロティーンセグメント106eとの仮想合成を行い、合成物質補助情報を取得できる。該合成物質補助情報は合成を行う必要のある抗体タンパク質の関連記述情報であっても良く、該合成物質補助情報により、参照タンパク質100eと類似プロティーンセグメント106eとを合成した後に得られた新しい抗体物質(即ち、抗体タンパク質105e)を決定できる。
図7に示すように、該抗体タンパク質105eは参照タンパク質100eにおけるプロティーン調整領域101eのところの元のプロティーンセグメントを類似プロティーンセグメントで置換した後に得られたタンパク質である。
【0109】
また、サーバーはさらに、該合成物質補助情報により可視化プログラムファイルを生成でき、該可視化プログラムファイルのファイルフォーマットはpdb(プログラムデータベース)ファイルフォーマットであっても良い。該可視化プログラムファイルにより、合成物質補助情報に基づいて生成された抗体タンパク質に対して装置での物質可視化を実現でき、例えば、該可視化プログラムファイルにより、装置で抗体タンパク質全体の3D画像を表示でき、該3D画像は抗体タンパク質の3次元立体構造であっても良い。
【0110】
標的タンパク質は製薬会社向けの第三者装置に提供されても良いので、サーバーは生成された合成物質補助情報の可視化プログラムファイルを第三者装置に送信できる。第三者装置は合成物質補助情報の可視化プログラムファイルを得た後に、自装置の画面に該可視化プログラムファイルを出力でき、これによって、関連研究者は表示されている抗体タンパク質の3次元立体画像に基づいて抗体タンパク質に対して研究、開発、生成、改良などを行うことができる。そのうち、標的タンパク質は第三者装置によりクラウド技術などの関連データ伝送技術を用いてオンラインでサーバーに伝送されても良い。同様に、サーバーはクラウド技術などの関連技術を用いて上述の合成物質補助情報のオンラインでの予測及び生成を実現し、そして、クラウド技術などの関連データ伝送技術を用いて可視化プログラムファイルをオンラインで第三者装置に伝送しても良い。
【0111】
図8を参照するに、
図8は本出願により提供されるデータのインタラクションのシナリオを示す図である。第三者装置100gは大手製薬会社又は生物学研究機構向けの装置であって良い。第三者装置100gはタンパク質設計サーバー101g(即ち、本出願において実行主体とされるサーバーである)に標的タンパク質のpdbファイルを提供できる。これにより、タンパク質設計サーバー101gは第三者装置により提供された標的タンパク質のpdbファイルに基づいて、上述の合成物質補助情報を生成でき、そして、該合成物質補助情報に基づいて抗体タンパク質のpdbファイルを生成でき、抗体タンパク質のpdbファイルは上述の可視化プログラムファイルである。
【0112】
タンパク質設計サーバー101gはその生成した抗体タンパク質のpdbファイルを第三者装置100gに送信でき、これにより、第三者装置100gは抗体タンパク質のpdbファイルを有料ダウンロードし、有料ダウンロード後に該抗体タンパク質のpdbファイルを装置の画面に出力でき、即ち、抗体タンパク質の3次元画像を表示できる。そして、関連研究者は抗体タンパク質に対して研究、改変又は製造を行うことができる。
【0113】
本出願では、参照タンパク質のプロティーン属性情報を取得し、参照タンパク質はプロティーン調整領域を含み;プロティーン予測モデルにより、プロティーン属性情報に基づいて、参照タンパク質におけるプロティーン調整領域のところの予測プロティーンセグメントを生成し、プロティーン予測モデルは標的タンパク質に基づいて訓練することで得られ、プロティーン予測モデルは標的タンパク質に結合するタンパク質を予測するために用いられ;プロティーンセグメントデータベースにおいて予測プロティーンセグメントの類似プロティーンセグメントのマッチングを行い;そして、類似プロティーンセグメントと参照タンパク質との仮想合成を行い、合成物質補助情報を取得でき、合成物質補助情報は標的タンパク質に結合する抗体タンパク質の生成を補助するために用いられる。これで分かるように、本出願による方法は、プロティーン予測モデルの予測により得られた予測プロティーンセグメントに基づいて、マッチングにより、参照タンパク質におけるプロティーン調整領域のところのプロティーンセグメントを改変するための類似プロティーンセグメントを迅速に得ることができ、そして、該類似プロティーンセグメントに基づいて標的タンパク質に結合するための抗体タンパク質を迅速に生成できるため、抗体タンパク質の取得効率を向上させることができる。
【0114】
図9を参照するに、
図9は本出願により提供されるデータ処理装置の構成図である。
図9に示すように、該データ処理装置1は属性取得モジュール101、予測セグメント生成モジュール102、セグメント・マッチング・モジュール103及び物質合成モジュール104を含み得る。
【0115】
属性取得モジュール101は参照タンパク質のプロティーン属性情報を取得するために用いられ、参照タンパク質はプロティーン調整領域を含み、
予測セグメント生成モジュール102はプロティーン予測モデルにより、プロティーン属性情報に基づいて、参照タンパク質におけるプロティーン調整領域のところの予測プロティーンセグメントを生成するために用いられ、プロティーン予測モデルは標的タンパク質に基づいて訓練することで得られるものであり、プロティーン予測モデルは標的タンパク質に結合するタンパク質を予測するために用いられ、
セグメント・マッチング・モジュール103はプロティーンセグメントデータベースにおいて予測プロティーンセグメントの類似プロティーンセグメントのマッチングを行うために用いられ、
物質合成モジュール104は類似プロティーンセグメントと参照タンパク質との仮想合成を行い、合成物質補助情報を取得するために用いられ、合成物質補助情報は標的タンパク質に結合する抗体タンパク質の生成を補助するために用いられる。
【0116】
そのうち、属性取得モジュール101、予測セグメント生成モジュール102、セグメント・マッチング・モジュール103及び物質合成モジュール104の具体的な機能の実現方法については
図3に対応する実施例におけるステップS101-ステップS104を参照できるため、ここではその詳しい説明を省略する。
【0117】
そのうち、属性取得モジュール101はアミノ酸取得ユニット1011、情報取得ユニット1012及び属性決定ユニット1013を含む。
【0118】
アミノ酸取得ユニット1011は参照タンパク質に含まれる少なくとも2つのアミノ酸を得るために用いられ、
情報取得ユニット1012は少なくとも2つのアミノ酸のうちの各アミノ酸のアミノ酸構造情報及びアミノ酸ねじれ角情報を得るために用いられ、
属性決定ユニット1013は各アミノ酸のアミノ酸構造情報及びアミノ酸ねじれ角情報を参照タンパク質のプロティーン属性情報と決定するために用いられる。
【0119】
そのうち、アミノ酸取得ユニット1011、情報取得ユニット1012及び属性決定ユニット1013の具体的な機能の実現方法については
図3に対応する実施例におけるステップS101を参照できるため、ここではその詳しい説明を省略する。
【0120】
そのうち、予測セグメント生成モジュール102はアミノ酸決定ユニット1021、構造生成ユニット1022、ねじれ角生成ユニット1023及び予測セグメント決定ユニット1024を含む。
【0121】
アミノ酸決定ユニット1021は参照タンパク質におけるプロティーン調整領域のところのアミノ酸を調整アミノ酸と決定するために用いられ、
構造生成ユニット1022はプロティーン予測モデルにより、調整アミノ酸に対応する予測構造情報を生成するために用いられ、
ねじれ角生成ユニット1023はプロティーン予測モデルにより、調整アミノ酸に対応する予測ねじれ角情報を生成するために用いられ、
予測セグメント決定ユニット1024は調整アミノ酸に対応する予測構造情報及び予測ねじれ角情報に基づいて予測プロティーンセグメントを決定するために用いられる。
【0122】
そのうち、アミノ酸決定ユニット1021、構造生成ユニット1022、ねじれ角生成ユニット1023及び予測セグメント決定ユニット1024の具体的な機能の実現方法については
図3に対応する実施例におけるステップS102を参照できるため、ここではその詳しい説明を省略する。
【0123】
そのうち、構造生成ユニット1022は第一の確率決定サブユニット10221、第一の次元決定サブユニット10222及び構造生成サブユニット10223を含む。
【0124】
第一の確率決定サブユニット10221はプロティーン予測モデルにより、調整アミノ酸の、少なくとも2つのアミノ酸構造次元のうちの各アミノ酸構造次元上のサンプリング確率を決定するために用いられ;
第一の次元決定サブユニット10222は少なくとも2つのアミノ酸構造次元のうちサンプリング確率最大のアミノ酸構造次元を目標構造次元と決定するために用いられ;
構造生成サブユニット10223は目標構造次元上で構造パラメータのサンプリングを行うことで調整アミノ酸に対応する予測構造情報を生成するために用いられる。
【0125】
そのうち、第一の確率決定サブユニット10221、第一の次元決定サブユニット10222及び構造生成サブユニット10223の具体的な機能の実現方法については
図3に対応する実施例におけるステップS102を参照できるため、ここではその詳しい説明を省略する。
【0126】
そのうち、ねじれ角生成ユニット1023は第二の確率決定サブユニット10231、第二の次元決定ユニット10232及びねじれ角生成サブユニット10233を含む。
【0127】
第二の確率決定サブユニット10231は、プロティーン予測モデルにより、調整アミノ酸の、少なくとも2つのアミノ酸ねじれ角次元のうちの各アミノ酸ねじれ角次元上のサンプリング確率を決定するために用いられ、
第二の次元決定ユニット10232は、少なくとも2つのアミノ酸ねじれ角次元のうちサンプリング確率最大のアミノ酸ねじれ角次元を目標ねじれ角次元と決定するために用いられ、
ねじれ角生成サブユニット10233は、目標ねじれ角次元上でねじれ角パラメータのサンプリングを行い、調整アミノ酸に対応する予測ねじれ角情報を生成するために用いられる。
【0128】
そのうち、第二の確率決定サブユニット10231、第二の次元決定ユニット10232及びねじれ角生成サブユニット10233の具体的な機能の実現方法については
図3に対応する実施例におけるステップS102を参照できるため、ここではその詳しい説明を省略する。
【0129】
そのうち、セグメント・マッチング・モジュール103は、重み取得ユニット1031及びセグメントマッチングユニット1032を含む。
【0130】
重み取得ユニット1031は予測構造情報についての構造重みを取得し、予測ねじれ角情報についてのねじれ角重みを取得するために用いられ、
セグメントマッチングユニット1032は構造重み、ねじれ角重み、予測構造情報及び予測ねじれ角情報に基づいて、プロティーンセグメントデータベースにおいて予測プロティーンセグメントの類似プロティーンセグメントのマッチングを行うために用いられる。
【0131】
そのうち、重み取得ユニット1031及びセグメントマッチングユニット1032の具体的な機能の実現方法については
図3に対応する実施例におけるステップS103を参照できるため、ここではその詳しい説明を省略する。
【0132】
そのうち、物質合成モジュール104は切り出しユニット1041及び合成ユニット1042を含む。
【0133】
切り出しユニット1041は、参照タンパク質におけるプロティーン調整領域のところのプロティーンセグメントを切り出し、切り出し後の参照タンパク質を得るために用いられ、
合成ユニット1042は、切り出し後の参照タンパク質と類似プロティーンセグメントとの仮想合成を行い、合成物質補助情報を取得するために用いられる。
【0134】
そのうち、切り出しユニット1041及び合成ユニット1042の具体的な機能の実現方法については
図3に対応する実施例におけるステップS104を参照できるため、ここではその詳しい説明を省略する。
【0135】
そのうち、上述のデータ処理装置1はさらに、類型認識モジュール105及び領域決定モジュール106を含む。
【0136】
類型認識モジュール105は、標的タンパク質の標的プロティーン類型を認識するために用いられ、
領域決定モジュール106は、標的プロティーン類型に基づいて、参照タンパク質におけるプロティーン調整領域を決定するために用いられる。
【0137】
そのうち、類型認識モジュール105及び領域決定モジュール106の具体的な機能の実現方法については
図3に対応する実施例におけるステップS101を参照できるため、ここではその詳しい説明を省略する。
【0138】
そのうち、標的タンパク質は第三者装置により提供される。
【0139】
上述のデータ処理装置1はさらに、ファイル生成モジュール107及びファイル送信モジュール108を含む。
【0140】
ファイル生成モジュール107は、合成物質補助情報の可視化プログラムファイルを生成するために用いられ、
ファイル送信モジュール108は、可視化プログラムファイルを第三者装置に送信し、第三者装置が可視化プログラムファイルを出力するようにさせるために用いられる。
【0141】
そのうち、ファイル生成モジュール107及びファイル送信モジュール108の具体的な機能の実現方法については
図3に対応する実施例におけるステップS104を参照できるため、ここではその詳しい説明を省略する。
【0142】
そのうち、上述のデータ処理装置1はさらに、サンプルセグメント生成モジュール109、サンプル・セグメント・マッチング・モジュール110、サンプル合成モジュール111、第一の強度取得モジュール112、第二の強度取得モジュール113及びパラメータ修正モジュール114を含む。
【0143】
サンプルセグメント生成モジュール109は、プロティーン属性情報を初期予測モデルに入力し、初期予測モデルの第n回の訓練プロセスにおいてプロティーン調整領域のところのサンプル予測プロティーンセグメントを生成するために用いられ、nは1よりも大きい整数であり、
サンプル・セグメント・マッチング・モジュール110は、プロティーンセグメントデータベースにおいてサンプル予測プロティーンセグメントのサンプル類似プロティーンセグメントのマッチングを行うために用いられ、
サンプル合成モジュール111は、参照タンパク質とサンプル類似プロティーンセグメントとの仮想合成を行い、サンプル合成物質補助情報を得るために用いられ、サンプル合成物質補助情報は標的タンパク質に結合するサンプル抗体タンパク質knの生成を補助するために用いられ、
第一の強度取得モジュール112は、サンプル抗体タンパク質knと標的タンパク質との間のサンプル結合強度qnを得るために用いられ、
第二の強度取得モジュール113は、初期予測モデルの第n-1回の訓練プロセスにおいて標的タンパク質についてのサンプル抗体タンパク質kn-1と標的タンパク質との間のサンプル結合強度qn-1を得るために用いられ、
パラメータ修正モジュール114は、サンプル結合強度qn及びサンプル結合強度qn-1に基づいて、初期予測モデルのモデルパラメータを修正し、プロティーン予測モデルを取得するために用いられる。
【0144】
そのうち、サンプルセグメント生成モジュール109、サンプル・セグメント・マッチング・モジュール110、サンプル合成モジュール111、第一の強度取得モジュール112、第二の強度取得モジュール113及びパラメータ修正モジュール114の具体的な機能の実現方法については
図3に対応する実施例におけるステップS102を参照できるため、ここではその詳しい説明を省略する。
【0145】
そのうち、サンプル類似プロティーンセグメントの数が少なくとも2つであり、1つのサンプル類似プロティーンセグメントが1つのサンプル抗体タンパク質knに対応する。
【0146】
第一の強度取得モジュール112は標的強度取得ユニット1121及び平均強度取得ユニット1122を含む。
【0147】
標的強度取得ユニット1121は、少なくとも2つのサンプル抗体タンパク質knのそれぞれと標的タンパク質との間の標的結合強度を得るために用いられ、
平均強度取得ユニット1122は、少なくとも2つのサンプル抗体タンパク質knのそれぞれに対応する標的結合強度の平均強度をサンプル結合強度qnと決定するために用いられる。
【0148】
そのうち、標的強度取得ユニット1121及び平均強度取得ユニット1122の具体的な機能の実現方法については
図3に対応する実施例におけるステップS102を参照できるため、ここではその詳しい説明を省略する。
【0149】
そのうち、パラメータ修正モジュール114は、平方差取得ユニット1141、パラメータ決定ユニット1142及びパラメータ修正ユニット1143を含む。
【0150】
平方差取得ユニット1141は、サンプル結合強度qnとサンプル結合強度qn-1との間の平方差を得るために用いられ、
パラメータ決定ユニット1142は、平方差に基づいて初期予測モデルについてのインセンティブパラメータを決定するために用いられ、
パラメータ修正ユニット1143は、インセンティブパラメータに基づいて初期予測モデルのモデルパラメータを修正し、プロティーン予測モデルを得るために用いられる。
【0151】
そのうち、平方差取得ユニット1141、パラメータ決定ユニット1142及びパラメータ修正ユニット1143の具体的な機能の実現方法については
図3に対応する実施例におけるステップS102を参照できるため、ここではその詳しい説明を省略する。
【0152】
本出願では、参照タンパク質のプロティーン属性情報を取得し、参照タンパク質はプロティーン調整領域を含み;プロティーン予測モデルにより、プロティーン属性情報に基づいて、参照タンパク質のプロティーン調整領域における予測プロティーンセグメントを生成し、プロティーン予測モデルは標的タンパク質に基づいて訓練することで得られるものであり、プロティーン予測モデルは標的タンパク質に結合するタンパク質を予測するために用いられ;プロティーンセグメントデータベースにおいて予測プロティーンセグメントの類似プロティーンセグメントのマッチングを行い;そして、類似プロティーンセグメントと参照タンパク質との仮想合成を行い、合成物質補助情報を取得でき、合成物質補助情報は標的タンパク質に結合する抗体タンパク質の生成を補助するために用いられる。これで分かるように、本出願による装置は、プロティーン予測モデルの予測により得られた予測プロティーンセグメントに基づいて、マッチングにより、参照タンパク質におけるプロティーン調整領域のところのプロティーンセグメントを改変するための類似プロティーンセグメントを迅速に得ることができ、そして、該類似プロティーンセグメントに基づいて標的タンパク質に結合するための抗体タンパク質を迅速に生成できるため、抗体タンパク質の取得効率を向上させることができる。
【0153】
図10を参照するに、
図10は本出願により提供されるコンピュータ装置の構成図である。
図10に示すように、コンピュータ装置1000は処理器1001、ネットワークインターフェース1004及び記憶器1005を含み、また、コンピュータ装置1000はさらに、ユーザーインターフェース1003、及び少なくとも1つの通信バス1002を含む。そのうち、通信バス1002はこれらの部品の間の接続及び通信を実現するように用いられる。そのうち、ユーザーインターフェース1003はディスプレー(Display)やキーボード(Keyboard)を含んでも良く、オプションとして、ユーザーインターフェース1003はさらに、標準に準拠した有線インターフェースや無線インターフェースを含んでも良い。ネットワークインターフェース1004はオプションとして、標準に準拠した有線インターフェースや無線インターフェース(例えば、WI-FIインターフェース)を含んでも良い。記憶器1005は高速RAMメモリであっても良く、非一時的メモリ(non-volatile memory)、例えば、少なくとも1つの磁気メモリであっても良い。記憶器1005はオプションとして、少なくとも1つの、前述の処理器1001を離れた場所に位置する記憶装置であっても良い。
図10に示すように、コンピュータ記憶媒体としての記憶器1005にはオペレーティングシステム、ネットワーク通信モジュール、ユーザーインターフェースモジュール及び装置制御アプリケーションプログラムが含まれても良い。
【0154】
図10に示すコンピュータ装置1000では、ネットワークインターフェース1004はネットワーク通信機能を提供でき、ユーザーインターフェース1003は主に、ユーザーが入力するためのインターフェースを提供でき、処理器1001は記憶器1005に記憶されている装置制御アプリケーションプログラムを呼び出すことで、前述の
図3に対応する実施例におけるデータ処理方法についての説明内容を実行するために用いられる。なお、本出願で説明されたコンピュータ装置1000は前述の
図9に対応する実施例におけるデータ処理装置1についての説明内容を実行することもできるが、ここではその詳しい説明を省略する。また、同じ方法を採用することによる有利な効果の説明についても省略する。
【0155】
本出願ではさらに、コンピュータ可読記憶媒体が提供され、コンピュータ可読記憶媒体には前述のデータ処理装置1で実行されるコンピュータプログラムが記憶されており、コンピュータプログラムはプログラム命令を含み、処理器はプログラム命令を実行するときに、前述の
図3に対応する実施例におけるデータ処理方法についての説明内容を実行できるため、ここではその詳しい説明を省略する。また、同じ方法を採用することによる有利な効果についても省略する。また、本出願に係るコンピュータ記憶媒体の実施例における未披露の技術的細部については本出願の方法の実施例における説明を参照できる。
【0156】
当業者が理解すべきは、上述の実施例の方法における全部又は一部のフローについて、コンピュータプログラムが関連ハードウェアを命令することで完了しても良いということである。また、上述のプログラムはコンピュータ可読取記憶媒体に記憶でき、該プログラムは実行されるときに、上述のような各方法の実施例のフローを実行できる。そのうち、上述の記憶媒体は磁気ディスク、光ディスク、ROM(Read-Only Memory)、RAM(Random Access Memory)などであっても良い。
【0157】
以上、本出願の好ましい実施例を説明したが、本出願はこの実施例に限定されず、本出願の趣旨を離脱しない限り、本出願に対するあらゆる変更は本出願の技術的範囲に属する。