(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023007370
(43)【公開日】2023-01-18
(54)【発明の名称】ソート学習モデルの訓練方法、ソート方法、装置、デバイス及び媒体
(51)【国際特許分類】
G16B 15/30 20190101AFI20230111BHJP
G06N 3/08 20230101ALI20230111BHJP
G06N 20/00 20190101ALI20230111BHJP
G16C 20/70 20190101ALI20230111BHJP
【FI】
G16B15/30
G06N3/08
G06N20/00 130
G16C20/70
【審査請求】有
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2022032930
(22)【出願日】2022-03-03
(31)【優先権主張番号】202110739297.3
(32)【優先日】2021-06-30
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】シャン、インフェイ
(72)【発明者】
【氏名】ルオ、ホンギュ
(72)【発明者】
【氏名】ファン、シャオミン
(72)【発明者】
【氏名】ワン、ファン
(57)【要約】 (修正有)
【課題】同一の標的タンパク質に対応する複数の薬物をより効率的かつ正確にソートすることを可能にするソート学習モデルの訓練方法、薬物ソート方法、ソート学習モデルの訓練装置、薬物ソート装置、薬物ソート方法を実行させる電子デバイス記憶媒体及びコンピュータプログラムを提供する。
【解決手段】ソート学習モデルの訓練方法は、既知の訓練標的タンパク質情報、対応する2つの訓練薬物情報及び対応する2つの訓練薬物と既知の訓練標的との真の親和度の差が含まれる複数の訓練サンプルを収集しS101、複数の訓練サンプルに基づいて、各訓練サンプル中の2つの訓練薬物と既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するように、ソート学習モデルを訓練するS102。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ソート学習モデルの訓練方法であって、
既知の訓練標的タンパク質情報、対応する2つの訓練薬物情報、及び対応する2つの訓練薬物と既知の訓練標的との真の親和度の差がそれぞれ含まれる複数の訓練サンプルを収集することと、
前記複数の訓練サンプルに基づいて、各前記訓練サンプルの中の前記2つの訓練薬物と前記既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するようにソート学習モデルを訓練することと、
を含むソート学習モデルの訓練方法。
【請求項2】
前記複数の訓練サンプルに基づいて、各前記訓練サンプルの中の前記2つの訓練薬物と前記既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するようにソート学習モデルを訓練することは、
各前記訓練サンプルについて、対応する前記訓練サンプルの中の前記既知の訓練標的タンパク質情報、対応する前記2つの訓練薬物情報を前記ソート学習モデルに入力することと、
前記ソート学習モデルから出力された前記2つの訓練薬物と前記既知の訓練標的タンパク質との予測親和度の差を取得することと、
前記予測親和度の差と対応する前記真の親和度の差とに基づいて、前記ソート学習モデルが各前記訓練サンプルの中の前記2つの訓練薬物と前記既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するように、前記ソート学習モデルのパラメータを調整することと、
を含む請求項1に記載のソート学習モデルの訓練方法。
【請求項3】
前記予測親和度の差と対応する前記真の親和度の差とに基づいて、前記ソート学習モデルが各前記訓練サンプルの中の前記2つの訓練薬物と前記既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するように、前記ソート学習モデルのパラメータを調整することは、
前記予測親和度の差と対応する前記真の親和度の差とに基づいて損失関数を構築し、
前記損失関数が収束しているか否かを検出し、
前記損失関数が収束しない場合に、前記損失関数が収束する方向となるように前記ソート学習モデルのパラメータを調整する、
ことを含む請求項2に記載のソート学習モデルの訓練方法。
【請求項4】
複数の訓練サンプルを収集することは、
複数のデータセットから前記複数の訓練サンプルを収集すること、
を含む請求項1~3のいずれか1項に記載のソート学習モデルの訓練方法。
【請求項5】
異なる前記データセットにおける前記訓練薬物と前記既知の訓練標的との親和度は、異なる指標で表す、
請求項4に記載のソート学習モデルの訓練方法。
【請求項6】
薬物ソート方法であって、
目標標的情報及び複数の候補薬物情報を取得することと、
予め訓練された、任意の2つの薬物と同一の標的タンパク質との親和度の大小関係を学習するソート学習モデルのパラメータを共有するソートモデルを用いて、前記目標標的情報と各前記候補薬物情報とに基づいて、複数の候補薬物を目標標的との親和度の大きさに応じてソートすることと、
を含む薬物ソート方法。
【請求項7】
ソート学習モデルの訓練装置であって、
既知の訓練標的タンパク質情報、対応する2つの訓練薬物情報、及び対応する2つの訓練薬物と既知の訓練標的との真の親和度の差がそれぞれ含まれる複数の訓練サンプルを収集する収集モジュールと、
前記複数の訓練サンプルに基づいて、各前記訓練サンプルの中の前記2つの訓練薬物と前記既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するようにソート学習モデルを訓練する訓練モジュールと、
を備えるソート学習モデルの訓練装置。
【請求項8】
前記訓練モジュールは、
各前記訓練サンプルについて、対応する前記訓練サンプルの中の前記既知の訓練標的タンパク質情報、対応する前記2つの訓練薬物情報を前記ソート学習モデルに入力する入力ユニットと、
前記ソート学習モデルから出力された前記2つの訓練薬物と前記既知の訓練標的タンパク質との予測親和度の差を取得する取得ユニットと、
前記予測親和度の差と対応する前記真の親和度の差とに基づいて、前記ソート学習モデルが各前記訓練サンプルの中の前記2つの訓練薬物と前記既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するように、前記ソート学習モデルのパラメータを調整する調整ユニットと、
を備える請求項7に記載のソート学習モデルの訓練装置。
【請求項9】
前記調整ユニットは、
前記予測親和度の差と対応する前記真の親和度の差とに基づいて損失関数を構築し、
前記損失関数が収束しているか否かを検出し、
前記損失関数が収束しない場合に、前記損失関数が収束する方向となるように、前記ソート学習モデルのパラメータを調整する、
請求項8に記載のソート学習モデルの訓練装置。
【請求項10】
前記収集モジュールは、複数のデータセットから前記複数の訓練サンプルを収集する、
請求項7~9の何れか1項に記載のソート学習モデルの訓練装置。
【請求項11】
異なる前記データセットにおける前記訓練薬物と前記既知の訓練標的との親和度は、異なる指標で表す、
請求項10に記載のソート学習モデルの訓練装置。
【請求項12】
薬物ソート装置であって、
目標標的情報及び複数の候補薬物情報を取得する取得モジュールと、
予め訓練された、任意の2つの薬物と同一の標的タンパク質との親和度の大小関係を学習するソート学習モデルのパラメータを共有するソートモデルを用いて、前記目標標的情報と各前記候補薬物情報とに基づいて、複数の候補薬物を目標標的との親和度の大きさに応じてソートするソートモジュールと、
を備える薬物ソート装置。
【請求項13】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリと、を備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1~5のいずれか1項に記載のソート学習モデルの訓練方法又は請求項6に記載の薬物ソート方法を実行させる電子デバイス。
【請求項14】
コンピュータに請求項1~5のいずれか1項に記載のソート学習モデルの訓練方法又は請求項6に記載の薬物ソート方法を実行させるためのコンピュータコマンドを記憶する非一時的なコンピュータ可読記憶媒体。
【請求項15】
プロセッサにより実行されると、請求項1~5のいずれか1項に記載のソート学習モデルの訓練方法又は請求項6に記載の薬物ソート方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示はコンピュータ技術分野に関し、具体的には機械学習及び自然言語処理等の人工知能技術分野に関し、特に、ソート学習モデルの訓練方法並びにソート方法、装置、デバイス及び媒体に関する。
【背景技術】
【0002】
薬物標的タンパク質の相互作用(Drug Target Interaction;DTI)は、標的タンパク質と薬物化合物との親和度を表し、薬物研究開発の分野における非常に重要な部分である。DTIは、薬物開発者が病気のメカニズムを理解し、薬物の設計プロセスを加速するのに寄与することができる。
【0003】
従来の生物学の分野では、実験室内での湿式実験によるDTIの測定方法は非常に高価で時間がかかる。現在、人工知能(Artificial Intelligence;AI)に基づくディープラーニングアルゴリズムの成熟に伴い、多くのDTIタスクはグラフニューラルネットワーク(Graph Neural Network;GNN)、コンボリューションニューラルネットワーク(Convolutional Neural Network;CNN)などのネットワークモデルにより実現される。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、ソート学習モデルの訓練方法、ソート方法、装置、デバイス及び媒体を提供する。
【課題を解決するための手段】
【0005】
本開示の一態様によれば、既知の訓練標的タンパク質情報、対応する2つの訓練薬物情報、及び対応する2つの訓練薬物と既知の訓練標的との真の親和度の差がそれぞれ含まれる複数の訓練サンプルを採取し、前記複数の訓練サンプルに基づいて、各前記訓練サンプル中の前記2つの訓練薬物と前記既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するようにソート学習モデルを訓練することを含むソート学習モデルの訓練方法が提供される。
【0006】
本開示の別の態様によれば、目標標的情報及び複数の候補薬剤情報を取得し、予め訓練された、任意の2つの薬物と同一の標的タンパク質との親和度の大小関係を学習するためのソート学習モデルのパラメータを共有するソートモデルにより、前記目標標的情報と各前記候補薬物情報とに基づいて、前記複数の候補薬物を前記目標標的との親和度の大きさに応じてソートすることを含む薬物ソート方法が提供される。
【0007】
本開示の更なる別の態様によれば、既知の訓練標的タンパク質情報、対応する2つの訓練薬物情報、及び対応する2つの訓練薬物と既知の訓練標的との真の親和度の差がそれぞれ含まれる複数の訓練サンプルを収集する収集モジュールと、前記複数の訓練サンプルに基づいて、各前記訓練サンプル中の前記2つの訓練薬物と前記既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するようにソート学習モデルを訓練する訓練モジュールとを備えるソート学習モデルの訓練装置が提供される。
【0008】
本開示の更なる別の態様によれば、目標標的情報及び複数の候補薬物情報を取得する取得モジュールと、予め訓練された、任意の2つの薬物と同一の標的タンパク質との親和度の大小関係を学習するためのソート学習モデルのパラメータを共有するソートモデルにより、前記目標標的情報と各前記候補薬物情報とに基づいて、前記複数の候補薬物を前記目標標的との親和度の大きさに応じてソートするソートモジュールとを備える薬物ソート装置が提供される。
【0009】
本開示の更なる別の態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに上記の態様及び任意の可能な実施形態の方法を実行させる電子デバイスが提供される。
【0010】
本開示の更なる別の態様によれば、コンピュータに上記の態様及び任意の可能な実施形態の方法を実行させるためのコンピュータコマンドが記憶される非一時的なコンピュータ可読記憶媒体が提供される。
【0011】
本開示の更なる別の態様によれば、プロセッサにより実行されると、上記の態様及び任意の可能な実施形態の方法を実施するコンピュータプログラムが含まれるコンピュータプログラム製品が提供される。
【0012】
本開示の技術によれば、同一の標的タンパク質に対応する複数の薬物を、より効率的かつ正確にソート可能な、より効率的なソート学習モデルが提供される。
【0013】
理解すべきなのは、本セクションで説明される内容は、本開示の実施形態の重要な又は肝心な特徴を標識することでもなく、本開示の範囲を制限することでもない。本開示の他の特徴は、以下の明細書により容易に理解されるであろう。
【図面の簡単な説明】
【0014】
図面は、本技術案をより良く理解するためのものであり、本願に制限されない。図面において、
【
図8】本開示の実施形態を実装するために使用され得る一例の電子デバイス800の概略ブロック図を示す。
【発明を実施するための形態】
【0015】
以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
【0016】
明らかに、記載された実施形態は、本開示の一部の実施形態であり、全ての実施形態ではない。本開示の実施形態に基づいて、当業者が創造的な労働をしていないという前提の下で得た他のすべての実施形態は、本開示の保護の範囲に属する。
【0017】
説明すべきなのは、本開示の実施形態に係る端末装置は、携帯電話、携帯情報端末(Personal Digital Assistant、PDA)、無線ハンドヘルドデバイス、タブレット(Tablet Computer)などのスマートデバイスを含むことができるが、これらに限定されない。表示装置は、パーソナルコンピュータ、テレビ等の表示機能を有する装置を含むことができるが、これらに限定されない。
【0018】
さらに、本明細書における用語「及び/又は」は、単に関連オブジェクトを記述する関連関係であり、3つの関係が存在し得ると意味する。例えば、A及び/又はBは、Aが単独で存在し、AとBが同時に存在し、Bが単独で存在するという三つの状況を意味することができる。また、本明細書における文字「/」は、一般的に前後の関連オブジェクトが「又は」の関係にあることを意味する。
【0019】
図1は本開示の第1実施形態に係る概略図である。
図1に示すように、本実施形態は、ソート学習モデルの訓練方法を提供する。
図1に示すように、本実施形態のソート学習モデルの訓練方法は、具体的には以下のステップを含むことができる。
【0020】
S101において、既知の訓練標的タンパク質情報、対応する2つの訓練薬物情報、及び対応する2つの訓練薬物と既知の訓練標的との真の親和度の差が含まれる複数の訓練サンプルを収集する。
【0021】
S102において、複数の訓練サンプルに基づいて、各訓練サンプル中の2つの訓練薬物と既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するように、ソート学習モデルを訓練する。
【0022】
本実施形態のソート学習モデルの訓練方法の実行主体は、ソート学習モデルの訓練装置である。当該ソート学習モデルの訓練装置の実行主体は、電子エンティティであっても良く、ソフトウェア統合を採用したアプリケーションであってもよい。本実施形態のソート学習モデルの訓練装置は、ソート学習モデルの訓練を実現するために用いられる。
【0023】
本実施形態のソート学習モデルは、2つの訓練薬物と既知の訓練標的タンパク質との親和度の大小関係を予測することを学習するために使用され、さらに、2つずつの訓練薬物と既知の訓練標的タンパク質との親和度の大小関係に基づいて、複数の訓練薬物を既知の訓練標的タンパク質との親和度の大きさに応じてソートすることが可能となる。
【0024】
本実施形態で収集された訓練サンプルは、ストリップの形で存在しており、各訓練サンプルには2つの訓練薬物の情報が含まれている。例えば、訓練薬物の情報は、訓練薬物のSMILES(Simplified molecular input line entry specification)配列を用いて識別されてもよく、訓練薬物の他の一意の識別情報を用いてもよい。既知の訓練標的タンパク質の情報は、既知の訓練標的タンパク質のFASTA配列を用いて識別されてもよく、既知の訓練標的タンパク質の他の一意の識別情報を用いてもよい。
【0025】
注意すべきなのは、本実施形態の各訓練サンプルは、各訓練サンプル中の2つの訓練薬物と既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するようにソート学習モデルを訓練するため、教師付き訓練では、本実施形態の各訓練サンプルには、更に2つの訓練薬物と既知の訓練標的タンパク質との真の親和度の差も含まれる必要があり、すなわち、この真の親和度の差は、2つの訓練薬物と既知の訓練標的タンパク質との親和度の大小関係を識別することができる。これにより、オプションとして、実際の運用におけるこの真の親和度の差は、具体的な差の数値ではなく、真の親和度の差の方向のみを特定すれば良い。例えば、2つの訓練薬物AとBについては、訓練薬物Aと既知の訓練標的タンパク質1との親和度aが、訓練薬物Bと既知の訓練標的蛋白質1との親和度bよりも大きい場合、即ちa-b>0であれば、対応する真の親和度の差は1として標識し、訓練薬物Aと既知の訓練標的蛋白質1との親和度aが、訓練薬物Bと既知の訓練標的蛋白質1との親和度bよりも小さい場合、即ちa-b<0であれば、対応する真の親和度の差は0として標識して良い。
【0026】
次に、複数の訓練サンプル中の2つの訓練薬物情報、及び対応する2つの訓練薬物と既知の訓練標的との真の親和度の差に基づいて、ソート学習モデルを教師付きで訓練することにより、ソート学習モデルに各訓練サンプル中に標識された2つの訓練薬物と既知の訓練標的との真の親和度の差を学習させ、複数の訓練サンプルを用いてソート学習モデルを継続的に訓練することにより、各訓練サンプル中の2つの訓練薬物と既知の訓練標的タンパク質との親和度の大小関係を予測する能力をソート学習モデルに学習させることができる。
【0027】
本実施形態では、収集される訓練サンプルの数は非常に多くてもよく、例えば、数十万から数百万を含むことができる。訓練サンプルの数が多いほど、訓練されたソート学習モデルの精度が高くなる。
【0028】
本実施形態のソート学習モデルの訓練方法は、既知の訓練標的タンパク質情報、対応する2つの訓練薬物情報、及び対応する2つの訓練薬物と既知の訓練標的との真の親和度の差を含む各訓練サンプルを採用してソート学習モデルを訓練することにより、ソート学習モデルに各訓練サンプル中の2つの訓練薬物と既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習させることができる。
【0029】
図2は本開示の第2実施形態に係る概略図である。
図2に示すように、本実施形態のソート学習モデルの訓練方法は、上述した
図1に示す実施形態の技術案に基づいて、さらに詳細に本出願の技術案について説明する。
図2に示すように、本実施形態のソート学習モデルの訓練方法は、具体的には以下のステップを含むことができる。
【0030】
S201において、複数のデータセットから、既知の訓練標的タンパク質情報、対応する2つの訓練薬物情報、及び対応する2つの訓練薬物と既知の訓練標的との真の親和度の差を含む複数の訓練サンプルを収集する。
【0031】
オプションとして、本実施形態では、異なるデータセットにおける訓練薬物と既知の訓練標的との親和度は、異なる指標を用いて表すことができる。例えば、あるデータセットにおける親和度の指標はIC50標識を採用し、あるデータセットにおける親和度の指標はKd標識を採用し、またあるデータセットにおける親和度の指標はKi標識を採用している。データセットがどの親和度の指標を採用するかにかかわらず、本実施形態の訓練サンプルにおいては、2つの訓練薬物と既知の訓練標的との真の親和度の差の方向を標識するだけでよい。
【0032】
例えば、
図3に示された訓練サンプル構築の概略図では、収集された複数の訓練サンプルからなる訓練セットは、それぞれt
(1),……,t
(m)と標識可能なm個の訓練標的タンパク質を含むことができる。各訓練標的タンパク質について、n個の訓練薬物及び対応する各訓練薬物と訓練標的タンパク質との親和度を先に収集することができる。例えば、訓練標的タンパク質t
(1)については、収集した訓練薬物を{(d
1
(1), S
1
(1))、(d
2
(1), S
2
(1))……(d
n
(1), S
n
(1))}と記載することができる。訓練標的タンパク質t
(m)については、収集した訓練薬物を{(d
1
(m), S
1
(m))、(d
2
(m), S
2
(m))……(d
n
(m), S
n
(m))}と記載することができる。単一の標的タンパク質に対して、すべての対応する薬物dはペアリング(pairwise)の関係を構成することができる。各ペアリングされた薬物(d
i
(m),d
j
(m))に対して、対応する親和度スコアの差はs(S
i
(m),S
j
(m))と記載することができる。
図3に示すように、訓練標的タンパク質t
(1)については、任意の1つの訓練サンプルをf(t
(1),d
i
(1),d
j
(1)), s(S
i
(1),S
j
(1))と表記してよい。同様に、訓練標的タンパク質t
(2)については、任意の1つの訓練サンプルをf(t
(2),d
i
(2),d
j
(2)), s(S
i
(2),S
j
(2))と表記してよい。訓練標的タンパク質t
(m)については、任意の1つの訓練サンプルをf(t
(m),d
i
(m),d
j
(m)), s(S
i
(m),S
j
(m))と表記してよい。
【0033】
ここで、訓練薬物及び訓練標的タンパク質は、複数の異なるデータセットから得られ、異なる訓練標的タンパク質に対応する訓練薬物の親和度は、異なる親和度指標を用いて標識され得る。任意の1つの訓練サンプルの中、2つの訓練薬物と訓練標的タンパク質の親和度の差を標識できることを保証するだけでよい。同様に、ここでの親和度の差も、差の大きさではなく、差の方向、即ちどちらが大きいか、どちらが小さいかを標識すればよい。
【0034】
本実施形態のソート学習モデルは、マルチレイヤパーセプトロン(Multi-Layer Perceptron;MLP)、コンボリューションニューラルネットワーク(Convolutional Neural Network;CNN)やTransformerなどのニューラルネットワークモデルを用いても良く、標的タンパク質や薬物分子の特性評価を抽出し学習することができる他のニューラルネットワーク構造であっても良い。本実施形態のソート学習モデルは、ツインタワー構造である。
【0035】
202において、各訓練サンプルについて、対応する訓練サンプル中の既知の訓練標的タンパク質情報、及び対応する2つの訓練薬物情報をソート学習モデルに入力する。
【0036】
203において、ソート学習モデルから出力された2つの訓練薬物と既知の訓練標的タンパク質の予測親和度の差を取得する。
【0037】
204において、予測親和度の差と対応する真の親和度の差とに基づいて、ソート学習モデルが、各訓練サンプル中の2つの訓練薬物と既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するように、ソート学習モデルのパラメータを調整する。
【0038】
例えば、このステップが具体的に実現される場合、以下のステップを含むことができる。
【0039】
(a)予測親和度の差と対応する真の親和度の差とに基づいて損失関数を構築する。
【0040】
(b)損失関数が収束しているか否かを検出し、収束する場合は、ステップ(d)を実行する。
【0041】
(c)収束しない場合に、損失関数が収束する方向になるようにソート学習モデルのパラメータを調整し、ステップ202に戻り、次の訓練サンプルを選択して訓練を開始し続ける。
【0042】
(d)訓練終了条件を満たしているか否かを検出し,満たしていれば訓練を停止し,この場合にソート学習モデルのパラメータを決定して終了し、満たされない場合は、ステップ202に戻り、次の訓練サンプルを選択して訓練を開始し続ける。
【0043】
オプションとして、本実施形態の訓練終了条件は、連続の所定の回数閾値までの訓練において損失関数が収束し続けるか否かを検出し、肯定の場合に訓練終了条件を満たしていると判定して良い。ここで、連続の所定の回数閾値は、実際のシーンに応じて設定することができ、例えば、連続80回、連続100回、連続150回、又は連続する他の回数であってもよく、ここでは限定しない。また、最大訓練回数閾値を設定し、訓練回数が当該最大訓練回数閾値に達した時点で訓練を終了するようにしてもよい。以上の訓練方式を採用することにより、ソート学習モデルの訓練効果を効果的に向上させることができる。
【0044】
本実施形態のソート学習モデルはツインタワー構造であり、ソート学習を実現する。学習されたソート学習モデルのパラメータをシングルタワー構造のソートモデルに共有することにより、ソートモデルが同一の標的タンパク質に対応する複数の薬物を親和度に応じてソートすることを実現することができる。
【0045】
本実施形態のソート学習モデルの訓練方法は、異なるデータセットと異なる指標のDTIデータを十分に利用し、ソート学習アルゴリズムを設計して異なる薬物と同一の標的タンパク質との親和度の大小関係を学習することにより、複数の薬物を同一の標的タンパク質との親和度の大きさに応じてソートする目的を達成することができる。本実施形態によるソート学習モデルの訓練により、ペアリングされた二つの薬物と標的タンパク質との親和度の差により注目し、更に異なるデータセット、複数の親和度指標のデータを統合してモデルを訓練することができるため、モデル訓練におけるDTIデータセットが小さいという制限性を有効に克服し、ソート学習模型の訓練効果を有効に高めることができる。
【0046】
本実施形態のソート学習モデルの訓練方法は、Pairwiseに基づいたソート学習アルゴリズムを設計することで、異なる薬物と同じ標的タンパク質との親和度の前後関係を得ることができ、既存の他の方法と比較して、異なる薬物と同一の標的タンパク質との親和度のソートの正確性を効果的に向上させることができる。例えば、ある標的タンパク質の対応する薬物の加重一致指数(WeightedCI)と平均一致指数(AverageCI)に基づいて、それぞれ約0.03と0.05を向上させることができる。
【0047】
図4は本開示の第4実施形態に係る概略図である。
図4に示すように、本実施形態は薬物ソート方法を提供する。本実施形態の薬物ソート方法は、具体的には、以下のステップを含むことができる。
【0048】
S401において、目標標的情報及び複数の候補薬物情報を取得する。
【0049】
S402において、ソートモデルを用いて、目標標的情報と各候補薬物情報に基づいて、複数の候補薬物を目標標的との親和度の大きさに応じてソートする。ここで、ソートモデルは、予め訓練されたソート学習モデルのパラメータを共有し、ソート学習モデルは、任意の2つの薬物と同一の標的タンパク質との親和度の大小関係を学習するために使用される。
【0050】
本実施形態の薬物ソート方法の実行主体は薬物ソート装置である。当該薬物ソートの実行主体は電子エンティティであっても良く、ソフトウェア統合を採用したアプリケーションであってもよい。本実施形態の薬物ソートは、複数の候補薬物を同一の標的タンパク質との親和度の大きさに応じてソートすることを実現し、ひいては薬物推奨を実現することができる。
【0051】
本実施形態のソートモデルは、前記
図1又は
図2に示す実施形態で訓練されたソートモデルのパラメータを共有して実装され得るシングルタワー構造である。上記のソート学習モデルは、異なる薬物と同一の標的との親和度の大小関係を学習しているため、複数の薬物を同一の標的との親和度の大小に応じてソートすることが可能である。例えば、薬物Aと標的1との親和度が薬物Bと標的1との親和度よりも大きいことを予測することができ、同時に薬物Bと標的1との親和度が薬物Cと標的1との親和度よりも大きいことを予測することができれば、さらに薬物A、薬物B、薬物Cを標的1との親和度の大きさに応じてソートし、ひいては薬物推薦を実現することができる。
【0052】
同様に、本実施形態の目標標的情報はSMILES配列を用いて標識することができ、候補薬物情報はFASTA配列を用いて標識することができる。
【0053】
使用する際に、目標標的情報と複数の候補薬物情報とをembeddingした後、入力された情報に基づいて複数の候補薬物を目標標的タンパク質との親和度の大きさに応じてソートしたソート関係を予測して出力することができるソートモデルに入力する。その後、このソート関係に基づいて、目標標的タンパク質との親和度が最も高い薬物を取得し、ひいては薬物推奨を実現することができる。
【0054】
本実施形態の薬物ソート方法によれば、このソートモデルは、予め訓練されたソート学習モデルのパラメータを共有し、ソート学習モデルは任意の2つの薬物と同一の標的タンパク質との親和度の大小関係を学習するために用いられる。このソートモデルを用いて、薬物ソートの精度を有効に向上させ、ひいては薬物推薦をより有効に行うことができる。
【0055】
図5は本開示の第5実施形態に係る概略図である。
図5に示すように、本実施形態は、既知の訓練標的タンパク情報、対応する2つの訓練薬物情報、及び対応する2つの訓練薬物と既知の訓練標的との真の親和度の差が含まれる複数の訓練サンプルを収集する収集モジュール501と、複数の訓練サンプルに基づいて、各訓練サンプルにおける2つの訓練薬物と既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するようにソート学習モデルを訓練する訓練モジュール502と、を備えるソート学習モデルの訓練装置500を提供する。
【0056】
本実施形態のソート学習モデルの訓練装置500は、上述したモジュールを用いてソート学習モデルの訓練を実現する実現原理及び技術的効果は、上述した関連方法の実施形態の実現と同じである。詳細は上述した関連方法の実施形態の記載を参照でき、ここでは再度言及しない。
【0057】
図6は本開示の第6実施形態に係る概略図である。
図6に示すように、本実施形態により提供されるソート学習モデルの訓練装置500は、上述した
図5に示す実施形態の技術案に加えて、本開示の技術案をより詳細に説明する。
【0058】
図6に示すように、本実施形態により提供されるソート学習モデルの訓練装置500において、訓練モジュール502は、各訓練サンプルについて、対応する訓練サンプルにおける既知の訓練標的タンパク質情報、対応する2つの訓練薬物情報をソート学習モデルに入力する入力ユニット5021と、ソート学習モデルから出力された2つの訓練薬物と既知の訓練標的タンパク質との予測親和度の差を取得する取得部5022と、予測親和度の差と対応する真の親和度の差とに基づいて、ソート学習モデルが各訓練サンプルにおける2つの訓練薬物と既知の訓練標的タンパク質との親和度の大小関係を予測する能力を学習するように、ソート学習モデルのパラメータを調整する調整部5023と、を備える。
【0059】
更に、オプションとして、当該調整ユニット5023は、予測親和度の差と対応する真の親和度の差とに基づいて損失関数を構築し、損失関数が収束しているかどうかを検出し、収束しなければ、損失関数が収束する方向になるようにソート学習モデルのパラメータを調整する。
【0060】
更に、オプションとして、本実施形態により提供されるソート学習モデルの訓練装置500では、収集モジュール501が複数のデータセットから複数の訓練サンプルを収集する。
【0061】
ここで、異なるデータセットにおける訓練薬物と既知の訓練標的との親和度は異なる指標を用いて表される。
【0062】
本実施形態のソート学習モデルの訓練装置500は、上述したモジュールを用いてソート学習モデルの訓練を実現する実現原理及び技術的効果は、上述した関連方法の実施形態の実現と同じである。詳細は上述した関連方法の実施形態の記載を参照でき、ここでは再度言及しない。
【0063】
図7は本開示の第7実施形態に係る概略図である。
図7に示すように、本実施形態は、目標標的情報及び複数の候補薬物情報を取得する取得モジュール701と、予め訓練された、任意の2つの薬物と同一の標的タンパク質との親和度の大小関係を学習するソート学習モデルのパラメータを共有するソートモデルを用いて、目標標的情報と各候補薬物情報とに基づいて、複数の候補薬物を目標標的との親和度の大きさに応じてソートするソートモジュール702とを備える薬物ソート装置700を提供する。
【0064】
本実施形態の薬物ソート装置700は、上述したモジュールを用いて薬物ソートを実現する実現原理及び技術的効果は、上述した関連方法の実施形態の実現と同じである。詳細は上述した関連方法の実施形態の記載を参照でき、ここでは再度言及しない。
【0065】
図8は、本開示の実施形態を実施するために使用され得る例示的な電子デバイス800の模式的なブロック図である。電子デバイスは、ラップトップ、デスクトップコンピュータ、ワークベンチ、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような、様々な形態のデジタルコンピュータを表す。電子デバイスは更に、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。本明細書に示す構成要素、それらの接続及び関係、ならびにそれらの機能は、単なる一例であり、本明細書に記載及び/又は要求された本開示の実現を制限することではない。
【0066】
図8に示すように、電子デバイス800は、読み取り専用メモリ(ROM)802に記憶されたコンピュータプログラム、又は記憶手段808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる演算手段801を含む。RAM803には、電子デバイス800の動作に必要な各種のプログラムやデータが記憶されてもよい。演算手段801、ROM802及びRAM803は、バス804を介して接続されている。入出力(I/O)インターフェース805もバス804に接続されている。
【0067】
例えばキーボード、マウス等の入力手段806と、例えば様々なタイプのディスプレイ、スピーカ等の出力手段807と、例えば磁気ディスク、光ディスク等の記憶手段808と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信手段809を含む電子デバイス800の複数の構成要素は、I/Oインターフェース805に接続される。通信手段809は、電子デバイス800が例えばインターネットのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
【0068】
演算手段801は、処理能力及び演算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってよい。演算手段801のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用の人工知能(AI)演算チップ、機械学習モデルアルゴリズムを実行する様々な演算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。演算手段801は、上述した様々な方法及び処理、例えばソート学習モデルの訓練方法や薬物ソート方法を実行する。例えば、幾つかの実施形態では、ソート学習モデルの訓練方法又は薬物ソート方法は、例えば記憶手段808のような機械可読媒体に物理的に組み込まれたコンピュータソフトウェアプログラムとして実装されてもよい。幾つかの実施形態では、コンピュータプログラムの一部又は全部は、ROM802及び/又は通信手段809を介して電子デバイス800にロード及び/又はインストールすることができる。コンピュータプログラムがRAM803にロードされ、演算手段801により実行されると、上述したソート学習モデルの訓練方法又は薬物ソート方法の1つ又は複数のステップを実行することができる。代替的に、他の実施形態では、演算手段801は、ソート学習モデルの訓練方法又は薬物ソート方法を実行するように、他の任意の適切な方法で(例えば、ファームウェアを介する)構成されてもよい。
【0069】
本明細書で前述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含んで良い。当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈することができる。当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであって、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置にデータ及び命令を転送することができる。
【0070】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを用いて記述することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供することにより、プログラムコードがプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図に指定された機能/動作を実行するようにすることができる。プログラムコードは、全てがマシン上で実行されても良く、一部がマシン上で実行されても良く、スタンドアロンパッケージとして一部的にマシン上で実行され且つ一部的にリモートマシン上で実行され、或いは全てがリモートマシン又はサーバ上で実行されても良い。
【0071】
本開示の文脈では、機械可読媒体は、有形の媒体であって、命令実行システム、装置又はデバイスにより使用され、或いは命令実行システム、装置又はデバイスと合わせて使用されるプログラムを含むか記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってよい。機械可読媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体的なシステム、装置又はデバイス、あるいはこれらの任意の適切な組み合わせを含んで良いが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。
【0072】
ユーザとのインタラクションを提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザにより入力をコンピュータに提供するキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)と備えるコンピュータ上に実施されてよい。他の種類の装置は、ユーザとのインタラクションを提供するためにも使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であって良く、ユーザからの入力を任意の形式(声入力、音声入力、又は触覚入力を含む)で受信して良い。
【0073】
本明細書に記載されたシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、インターネットワークを含む。
【0074】
コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。サーバはクラウドサーバ、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、従来の物理ホストとVPSサービス(「Virtual Private Server」、或いは「VPS」と略称される)において管理が難しく、ビジネスの拡張性が弱いという欠点を解決するクラウドコンピューティングサービスシステムのホスト製品の1つであって良い。サーバは、分散システムのサーバであっても良く、ブロックチェーンを組み合わせたサーバであってもよい。
【0075】
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本開示に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本開示で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
【0076】
上記の具体的な実施形態は本開示の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本開示の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本開示の保護範囲内に含まれるべきである。