(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-18
(45)【発行日】2023-12-26
(54)【発明の名称】分子構造取得方法、装置、電子デバイス及び記憶媒体
(51)【国際特許分類】
G16C 20/70 20190101AFI20231219BHJP
G06N 99/00 20190101ALI20231219BHJP
【FI】
G16C20/70
G06N99/00 180
(21)【出願番号】P 2022031687
(22)【出願日】2022-03-02
【審査請求日】2022-03-02
(31)【優先権主張番号】202110739352.9
(32)【優先日】2021-06-30
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】チェン、ジユアン
(72)【発明者】
【氏名】ファン、シャオミン
(72)【発明者】
【氏名】ワン、ファン
【審査官】渡邉 加寿磨
(56)【参考文献】
【文献】中国特許出願公開第112136181(CN,A)
【文献】特表平8-512159(JP,A)
【文献】中国特許出願公開第111063398(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16C 10/00-99/00
G06Q 10/00-99/00
G16Z 99/00
G06N 99/00
(57)【特許請求の範囲】
【請求項1】
コンピュータにより実行される分子構造取得方法であって、
初期のシードに対して第1処理を行うことを含み、
前記第1処理は、
前記シードからM(Mは1より大きい正の整数である)個の分子構造を生成し、
前記M個の分子構造を選択対象分子構造とし、前記選択対象分子構造から一部の分子構造を選択して子分子構造とし、
前記子分子構造を進化学習し、前記進化学習後の子分子構造を前記シードとして最適化目標に収束するまで前記第1処理を繰り返し実行し、前記最適化目標に収束した場合に最新に選択された分子構造を所望の分子構造と
し、
前記選択対象分子構造から一部の分子構造を選択して子分子構造とすることは、
各選択対象分子構造の評価スコアをそれぞれ取得し、
前記評価スコアに基づいて前記子分子構造を選択し、
前記各選択対象分子構造の評価スコアをそれぞれ取得することは、
選択対象分子構造のそれぞれについて、
前記選択対象分子構造のP(Pは正の整数である)個のスコアを取得し、異なるスコアはそれぞれ異なる最適化目標に対応し、
前記Pが1と等しい場合に、前記スコアを前記選択対象分子構造の評価スコアとし、
前記Pが1より大きい場合に、前記P個のスコアを総合して前記選択対象分子構造の評価スコアを決定する、
分子構造取得方法。
【請求項2】
生成された分子構造の中から要件を満たしていない分子構造をフィルタリングし、フィルタリング後に残った分子構造を前記選択対象分子構造とする、
ことを更に含む請求項
1に記載の分子構造取得方法。
【請求項3】
前記評価スコアに基づいて前記子分子構造を選択することは、
評価スコアの高い順に各選択対象分子構造をソートしてから、上位N(Nは正の整数で且つ前記選択対象分子構造の数よりも少ない)個の分子構造を前記子分子構造とし、
あるいは、前記評価スコアに基づいて、行列式点過程DPP方式により、各選択対象分子構造から前記子分子構造を選択する、
ことを含む請求項
1に記載の分子構造取得方法。
【請求項4】
前記進化学習後の子分子構造に対応する隠れ空間を正則化処理することをさらに含む請求項1から
3のいずれか一項に記載の分子構造取得方法。
【請求項5】
第1処理モジュール及び第2処理モジュールを備える分子構造取得装置であって、
前記第1処理モジュールは、初期のシードを取得して前記第2処理モジュールに送信し、
前記第2処理モジュールは、前記シードについて第1処理を行い、
前記第1処理は、
前記シードからM(Mは1より大きい正の整数である)個の分子構造を生成し、
前記M個の分子構造を選択対象分子構造とし、前記選択対象分子構造から一部の分子構造を選択して子分子構造とし、
前記子分子構造を進化学習し、前記進化学習後の子分子構造を前記シードとして最適化目標に収束するまで前記第1処理を繰り返し実行し、前記最適化目標に収束した場合に最新に選択された分子構造を所望の分子構造と
し、
前記第2処理モジュールは、各選択対象分子構造の評価スコアをそれぞれ取得し、前記評価スコアに基づいて前記子分子構造を選択し、
前記第2処理モジュールは、選択対象分子構造のそれぞれについて、前記選択対象分子構造のスコアをP(Pが正の整数である)個取得し、異なるスコアがそれぞれ異なる最適化目標に対応し、
前記Pが1と等しい場合に、前記スコアを前記選択対象分子構造の評価スコアとし、
前記Pが1より大きい場合に、前記P個のスコアを総合して前記選択対象分子構造の評価スコアを決定する、
という処理をそれぞれ行う、
分子構造取得装置。
【請求項6】
前記第2処理モジュールは、更に、生成された分子構造の中から要件を満たしていない分子構造をフィルタリングし、フィルタリング後に残った分子構造を前記選択対象分子構造とする、
請求項
5に記載の分子構造取得装置。
【請求項7】
前記第2処理モジュールは、評価スコアの高い順に各選択対象分子構造をソートしてから、上位N(Nは正の整数で且つ前記選択対象分子構造の数よりも少ない)個の分子構造を前記子分子構造とし、
あるいは、前記第2処理モジュールは、前記評価スコアに基づいて、行列点過程DPP方式により、各選択対象分子構造の中から前記子分子構造を選択する、
請求項
5に記載の分子構造取得装置。
【請求項8】
前記第2処理モジュールは、さらに、前記進化学習後の子分子構造に対応する隠れ空間を正則化処理する、
請求項
5から
7のいずれか一項に記載の分子構造取得装置。
【請求項9】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1から
4のいずれか1項に記載の分子構造取得方法を実行させる電子デバイス。
【請求項10】
コンピュータに請求項1から
4のいずれか1項に記載の分子構造取得方法を実行させるためのコンピュータコマンドを記憶する非一時的なコンピュータ可読記憶媒体。
【請求項11】
プロセッサにより実行されると、請求項1から
4のいずれか1項に記載の分子構造取得方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能技術分野に関し、特にディープラーニング等の分野における分子構造取得方法、装置、電子デバイス及び記憶媒体に関する。
【背景技術】
【0002】
分子構造の最適化は薬物研究開発プロセスにおける重要な一環であり、特定の性質/要求を満たす分子構造を取得することを目的とする。
【0003】
伝統的な方式において、分子構造の最適化は化学、薬学及び材料学などの複数の学科に跨ることに関し、一般的に薬物/化学の専門家の分析と実験などにより分子構造を確定し、即ち必要な分子構造を取得する。この方式は専門家の知識に大きく依存し、生化学的な実験を多く必要とするため、コストが高く、効率が悪いといった問題がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、分子構造取得方法、装置、電子デバイス及び記憶媒体を提供する。
【課題を解決するための手段】
【0005】
分子構造取得方法であって、初期のシードについて第1処理を実行することを含み、前記第1処理は、前記シードからM(Mは1より大きい正の整数である)個の分子構造を生成し、前記M個の分子構造を選択対象分子構造とし、前記選択対象分子構造から一部の分子構造を選択して子分子構造とし、前記子分子構造を進化学習し、進化学習された子分子構造を前記シードとして、最適化目標に収束するまで前記第1処理を繰り返し実行し、最適化目標に収束した場合に、最新に選択された分子構造を所望の分子構造とする方法を提供する。
【0006】
分子構造取得装置であって、第1処理モジュール及び第2処理モジュールを備え、前記第1処理モジュールは、初期のシードを取得して前記第2処理モジュールに送信し、前記第2処理モジュールは、前記シードについて第1処理を行い、前記第1処理は、前記シードからM(Mは1より大きい正の整数である)個の分子構造を生成し、前記M個の分子構造を選択対象分子構造とし、前記選択対象分子構造から一部の分子構造を選択して子分子構造とし、前記子分子構造を進化学習し、進化学習された子分子構造を前記シードとして最適化目標に収束するまで前記第1処理を繰り返し実行し、最適化目標に収束した場合に、最新に選択された分子構造を所望の分子構造とする装置を提供する。
【0007】
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに上記の方法を実行させる電子デバイスを提供する。
【0008】
コンピュータに上記の方法を実行させるためのコンピュータコマンドを記憶した非一時的なコンピュータ可読記憶媒体を提供する。
【0009】
プロセッサにより実行されると、上記の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。
【0010】
前記開示の1つの実施形態は、ループ反復などの一連の処理により、所望の分子構造を自動的に取得し、即ち分子構造の最適化を実現することができるため、既存の方式に比べて実現コストを低減し、処理効率を向上させるなどの利点又は有益な効果を有する。
【0011】
理解すべきなのは、本セクションで説明される内容は、本開示の実施形態の重要な又は肝心な特徴を標識することでもなく、本開示の範囲を制限することでもない。本開示の他の特徴は、以下の明細書により容易に理解されるであろう。
【図面の簡単な説明】
【0012】
図面は、本技術案をより良く理解するためのものであり、本願に制限されない。図面において:
【
図1】本開示に記載の分子構造取得方法の実施形態のフローチャートである。
【
図2】本開示に記載の分子構造取得方法の全体的な実現プロセスの概略図である。
【
図3】本開示に記載の分子構造取得装置の実施形態300の構成構造の概略図である。
【
図4】本開示の実施形態を実施可能な例示的な電子デバイス400の概略ブロック図である。
【発明を実施するための形態】
【0013】
以下、図面に基づいて、本出願の例示的な実施例を説明する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
【0014】
さらに、本明細書における用語「及び/又は」は、単に関連オブジェクトを記述する関連関係であり、3つの関係が存在し得ると意味する。例えば、A及び/又はBは、Aが単独で存在し、AとBが同時に存在し、Bが単独で存在するという三つの状況を意味することができる。また、本明細書における文字「/」は、一般的に前後の関連オブジェクトが「又は」の関係にあることを意味する。
【0015】
図1は本開示に記載の分子構造取得方法の実施形態のフローチャートである。
図1に示すように、以下の具体的な実現形態を含む。
【0016】
ステップ101では、初期のシードに対して、ステップ102~ステップ104に示す第1処理が実行される。
【0017】
ステップ102では、前記シードからM個の分子構造を生成し、Mは1より大きい正の整数である。
【0018】
ステップ103では、M個の分子構造を選択対象分子構造とし、選択対象分子構造から一部の分子構造を選択して子分子構造とする。
【0019】
ステップ104では、子分子構造を進化学習し、進化学習された子分子構造をシードとして、最適化目標に収束するまで前記第1処理を繰り返し実行し、最適化目標に収束した場合に、最新に選択された分子構造を所望の分子構造とする。
【0020】
以上のことからわかるように、前記方法の実施形態に記載された技術案では、進化アルゴリズムに基づく分子進化のプロセスを採用しており、ループ反復などの一連の処理により目標に逐次接近して最適化を実現することで、所望の分子構造を自動的に取得することができ、従来方式に比べて実現コストを低減し、処理効率などを向上させた。
【0021】
初期のシードをどのように取得するかは制限されず、たとえばランダムに生成することができる。初期のシードは、初期のシードとしての分子構造である。初期のシードの数は1つであっても良く、複数であっても良い。
【0022】
初期のシードにより、M個の分子構造を生成することができる。Mは1より大きい正の整数であり、具体的な値は実際の需要に応じて決定することができる。本開示の一実施形態では、前記シードにより、隠れ空間(又は暗黙空間と呼ばれる)サンプリングによってM個の分子構造を生成して良い。ここで、隠れ空間とは、元のデータをニューラルネットワークで圧縮したデータ空間であり、一般的にサンプリングを容易にするための標準正規分布である。
【0023】
M個の分子構造をどのように生成するかは制限しない。例えば、任意の隠れ空間サンプリングに基づく生成モデルを用いて、隠れ空間サンプリングによりM個の分子構造を生成することができる。生成形式に限定されることなく、モデル構造は変分自己符号化器(VAE、Variational Auto-Encoder)に基づいても良く、フロー(Flow)などに基づいても良い。モデルデータ構造は、シーケンスに基づいても良く、グラフに基づいても良く、3次元空間構造などに基づいてもよい。
【0024】
生成されたM個の分子構造をそのまま選択対象分子構造として後続の処理を行うことができる。本開示の一実施形態では、生成されたM個の分子構造について、まず要件を満たしていない分子構造をフィルタリングし、さらにフィルタリング後に残った分子構造を選択対象分子構造として後続の処理を行うこともできる。
【0025】
どのように要件を満たしていない分子構造をフィルタリングするかは制限しない。例えば、あらかじめ訓練されたフィルタリングモデルを用いて、要件を満たしていない分子構造をフィルタリングしてもよく、あらかじめ定義されたフィルタリングルールに基づいて、要件を満たしていない分子構造をフィルタリングしてもよい。
【0026】
フィルタリング処理により、後続の処理の手間を軽減することができ、処理効率や処理結果の精度等を向上させることができる。
【0027】
各選択対象分子構造に対して、その中から一部の分子構造を選択して子分子構造とし、すなわち次の進化のプロセスに入る分子構造を選択して良い。
【0028】
本開示の一実施形態では、各選択対象分子構造の評価スコアをそれぞれ取得し、前記評価スコアに基づいて子分子構造を選択することができる。
【0029】
評価スコアを取得するために、本開示の一実施形態では、選択対象分子構造ごとに、当該選択対象分子構造のP個のスコアを取得し、Pは正の整数であり、異なるスコアはそれぞれ異なる最適化目標に対応し、Pが1に等しい場合に、前記スコアを当該選択対象分子構造の評価スコアとし、Pが1より大きい場合に、P個のスコアを総合して当該選択対象分子構造の評価スコアを確定する、という処理をそれぞれ行って良い。
【0030】
本開示に記載の進化プロセスは、任意の計算可能な最適化目標を埋め込むことができ、すなわち、最適化シナリオに限定されることなく、任意の計算可能な目標の最適化を理論的に達成することができる。最適化目標は、1つ又は複数にすることができる。
【0031】
例えば、Pの値を2、すなわち最適化目標を2つとし、それぞれの選択対象分子構造に対して、分子活性予測モデルと油水分配係数予測モデルをそれぞれ用いて1つのスコアを決定でき、すなわち、それぞれの選択対象分子構造に対して2つのスコアを取得できると仮定する。ここで、分子活性予測モデルに対応する最適化シナリオはターゲットに対する分子構造の最適化であり、油水分配係数予測モデルに対応する最適化シナリオは分子親水性又は疎水性に対する結果の最適化である。
【0032】
一般的に、異なる選択対象分子構造に対応するスコア数やスコアタイプなどはすべて同じである。例えば、分子活性予測モデルをそれぞれ用いて異なる選択対象分子構造の1つのスコアを取得したり、分子活性予測モデルと油水分配係数予測モデルをそれぞれ用いて異なる選択対象分子構造の2つのスコアを取得したりすることができる。
【0033】
選択対象分子構造の何れか一つについて、Pが1に等しい場合に、そのスコアをそのまま当該選択対象分子構造の評価スコアとすることができる。Pが1より大きい場合に、P個のスコアを総合して当該選択対象分子構造の評価スコアを特定することができ、例えば、P個のスコアを加重加算し、計算結果を当該選択対象分子構造の評価スコアとすることができる。異なるスコアの対応する重みは同じでも異なってもよい。
【0034】
選択対象分子構造の何れか一つについて、その評価スコアはその分子構造の進化プロセスにおける適応性スコアを指す。
【0035】
評価スコアにより、子分子構造を正確かつ効率的にスクリーニングすることができ、後続の処理のために良好な基礎を築くことができる。
【0036】
本開示の一実施形態において、評価スコアに基づいて子分子構造を選択する具体的な方法は、以下のことを含むことができる。
【0037】
1)評価スコアの高い順に各選択対象分子構造をソートしてから、上位N個の分子構造を子分子構造とし、Nは正の整数であり、かつ、選択対象分子構造の数よりも少ない。
【0038】
2)評価スコアに基づき、行列式点過程(DPP、Determinantal Point Process)方式を用いて、各選択対象分子構造から子分子構造を選択する。
【0039】
このうち、方式1)ではエリート選択の観点から評価スコアが最も高いN個の分子構造を子分子構造として選択し、方式2)ではDPP方式により、各選択対象分子構造の中から評価スコアと分子多様性に配慮したサブセットを1つ選択し、その中の分子構造を子分子構造とすることができる。具体的にどの方式を採用するかは、実際のニーズに応じて決定でき、非常に柔軟で便利である。DPP方式の具体的な実現は、従来技術である。
【0040】
さらに、子分子構造を進化学習することで、次の進化のプロセスでより高い評価スコアが期待できるように、分子構造に突然変異を生じさせることができる。
【0041】
進化学習をどのように行うかは制限しない。例えば、遺伝的アルゴリズムや進化戦略などの方式を用いて進化学習を実現することができる。
【0042】
さらに、進化学習後の子分子構造をシードとして、最適化目標に収束するまで前記第1処理を繰り返し実行してよい。
【0043】
本発明の一実施形態では、進化学習後の子分子構造に対応する隠れ空間を正則化処理し、その後に前記第1処理を繰り返し実行することもできる。
【0044】
正則化処理により、隠れ空間ベクトルと空間原点との距離を縮めることができ、隠れ空間ベクトルが正常な分子データの分布中心から逸脱しすぎないようにすることができるため、最適化された分子構造をより薬物分子に近づけ、過度に奇怪な分子構造などを得ることを避けることができる。どのように正則化処理を行うかは従来技術である。
【0045】
最適化目標に収束した場合には、最新に選択された分子構造を所望の分子構造、すなわち最終的に得られた分子構造とすることができる。
【0046】
上記の説明を総合して、
図2は、本開示に記載の分子構造取得方法の全体的な実現プロセスの概略図である。
【0047】
図2に示すように、初期のシードに対して、M個の分子構造を生成するという生成操作を実行して良い。Mは1より大きい正の整数である。例えば、隠れ空間サンプリングによりM個の分子構造を生成することができる。
【0048】
図2に示すように、その後、生成された分子構造の中から要件を満たしていない分子構造をフィルタリングし、フィルタリング後に残った分子構造を選択対象分子構造とする、というフィルタリング操作を行って良い。
【0049】
図2に示すように、その後、選択対象分子構造ごとに評価スコアを取得する評価操作を行って良い。例えば、選択対象分子構造ごとに、この選択対象分子構造のP個のスコアを取得し、Pは正の整数であり、異なるスコアはそれぞれ異なる最適化目標に対応しており、Pが1に等しい場合に、前記スコアを当該選択対象分子構造の評価スコアとし、Pが1より大きい場合に、P個のスコアを総合して当該選択対象分子構造の評価スコアを決定するという処理をそれぞれ行って良い。
【0050】
図2に示すように、その後、評価スコアに基づいて、各選択対象分子構造の中から一部の分子構造を選択して子分子構造とする選択操作を行って良い。例えば、評価スコアの高い順に各選択対象分子構造をソートしてから、上位N個の分子構造を子分子構造とし、Nは正の整数であり且つ選択対象分子構造の数よりも少ないものとし、あるいは、前記評価スコアに基づいて、DPP方式により各選択対象分子構造から子分子構造を選択してよい。
【0051】
図2に示すように、その後、子分子構造を進化的に学習する進化操作を行って良い。さらに、進化学習後の子分子構造をシードとして、最適化目標に収束するまで上記処理を繰り返し実行し、最適化目標に収束した場合には、最新に選出された分子構造を所望の分子構造として出力して良い。
【0052】
図2に示されるプロセスの具体的な実施は、前述の関連説明を参照でき、これ以上言及しない。
【0053】
要するに、本開示で述べた技術案は自動的に分子構造の最適化を実現すると共に、分子構造の多様性と薬剤類性などに配慮することができ、更に、薬物研究開発プラットフォームにおける他のモデルと効果的かつ柔軟に結合することができ、結合するモデルの形式などに依存しない。
【0054】
なお、前述の方法の実施形態について、説明の簡素化のため、実施例を一連の動作の組み合わせとして表現したが、当業者であればわかるように、本出願による幾らかのステップは他の順序に従って又は同時に実行することができるため、本出願は記述された動作の順序に制限されない。次に、当業者は、明細書に記述された実施例はいずれも好ましい実施例に該当し、関連する動作及びモジュールは必ずしも本出願によって必要とされないことを理解すべきである。
【0055】
以上は、方法の実施形態に関する説明であり、以下で装置の実施形態により本出願に記載された態様をさらに説明する。
【0056】
図3は、本開示に記載の分子構造取得装置の実施形態300の構成構造の概略図である。
図3に示すように、第1処理モジュール301と第2処理モジュール302とを備える。
【0057】
第1処理モジュール301は、初期のシードを取得して第2処理モジュール302に送信する。
【0058】
第2処理モジュール302は、取得されたシードについて第1処理を行う。第1処理は、前記シードからM(1より大きい正の整数である)個の分子構造を生成し、M個の分子構造を選択対象分子構造とし、選択対象分子構造の中から一部の分子構造を選択して子分子構造とし、子分子構造を進化学習し、進化学習された子分子構造をシードとして、最適化目標に収束するまで前記第1処理を繰り返し実行し、最適化目標に収束した場合に、最新に選択された分子構造を所望の分子構造とする。
【0059】
本開示の一実施形態では、第2処理モジュール302は、取得されたシードに基づいて、隠れ空間サンプリングによりM個の分子構造を生成して良い。
【0060】
M個の分子構造をどのように生成するかは制限しない。例えば、任意の隠れ空間サンプリングに基づく生成モデルを用いて、隠れ空間サンプリングによりM個の分子構造を生成することができる。生成形式に限定されることなく、モデル構造はVAEに基づいても良く、Flowなどに基づいても良い。モデルデータ構造は、シーケンスに基づいても良く、グラフに基づいても良く、3次元空間構造などに基づいてもよい。
【0061】
第2処理モジュール302は、生成されたM個の分子構造をそのまま選択対象分子構造として後続の処理を行うことができる。本開示の一実施形態では、生成されたM個の分子構造について、第2処理モジュール302は、まず要件を満たしていない分子構造をフィルタリングし、さらにフィルタリング後に残った分子構造を選択対象分子構造として後続の処理を行うこともできる。
【0062】
どのように要件を満たしていない分子構造をフィルタリングするかは制限しない。例えば、あらかじめ訓練されたフィルタリングモデルを用いて、要件を満たしていない分子構造をフィルタリングしてもよく、あらかじめ定義されたフィルタリングルールに基づいて、要件を満たしていない分子構造をフィルタリングしてもよい。
【0063】
第2処理モジュール302は、各選択対象分子構造に対して、その中から一部の分子構造を選択して子分子構造とし、すなわち次の進化のプロセスに入る分子構造を選択して良い。
【0064】
本開示の一実施形態では、第2処理モジュール302は、各選択対象分子構造の評価スコアをそれぞれ取得し、前記評価スコアに基づいて子分子構造を選択することができる。
【0065】
評価スコアを取得するために、本開示の一実施形態では、第2処理モジュール302は、選択対象分子構造ごとに、当該選択対象分子構造のP個のスコアを取得し、Pは正の整数であり、異なるスコアはそれぞれ異なる最適化目標に対応し、Pが1に等しい場合に、前記スコアを当該選択対象分子構造の評価スコアとし、Pが1より大きい場合に、P個のスコアを総合して当該選択対象分子構造の評価スコアを確定する、という処理をそれぞれ行って良い。
【0066】
本開示に記載の進化プロセスは、任意の計算可能な最適化目標を埋め込むことができ、すなわち、最適化シナリオに限定されることなく、任意の計算可能な目標の最適化を理論的に達成することができる。最適化目標は、1つ又は複数にすることができる。
【0067】
例えば、Pの値を2、すなわち最適化目標を2つとし、それぞれの選択対象分子構造に対して、分子活性予測モデルと油水分配係数予測モデルをそれぞれ用いて1つのスコアを決定でき、すなわち、それぞれの選択対象分子構造に対して2つのスコアを取得できると仮定する。ここで、分子活性予測モデルに対応する最適化シナリオはターゲットに対する分子構造の最適化であり、油水分配係数予測モデルに対応する最適化シナリオは分子親水性又は疎水性に対する結果の最適化である。
【0068】
選択対象分子構造の何れか一つについて、Pが1に等しい場合に、そのスコアをそのまま当該選択対象分子構造の評価スコアとすることができる。Pが1より大きい場合に、P個のスコアを総合して当該選択対象分子構造の評価スコアを特定することができ、例えば、P個のスコアを加重加算し、計算結果を当該選択対象分子構造の評価スコアとすることができる。異なるスコアの対応する重みは同じでも異なってもよい。
【0069】
本開示の一実施形態では、第2処理モジュール302は、評価スコアの高い順に各選択対象分子構造をソートしてから、上位N個の分子構造を子分子構造とし、Nは正の整数であり且つ選択対象分子構造の数よりも少ないものとして良い。或いは、第2処理モジュール302は、評価スコアに基づいて、DPP方式を用いて各選択対象分子構造から子分子構造を選択してよい。
【0070】
さらに、第2処理モジュール302は、子分子構造を進化学習することで、次の進化のプロセスでより高い評価スコアが期待できるように、分子構造に突然変異を生じさせることができる。
【0071】
進化学習をどのように行うかは制限しない。例えば、遺伝的アルゴリズムや進化戦略などの方式を用いて進化学習を実現することができる。
【0072】
さらに、第2処理モジュール302は、進化学習後の子分子構造をシードとして、最適化目標に収束するまで前記第1処理を繰り返し実行してよい。
【0073】
本開示の一実施形態では、第2処理モジュール302は、進化学習後の子分子構造に対応する隠れ空間を正則化処理し、その後に前記第1処理を繰り返し実行することもできる。
【0074】
最適化目標に収束した場合に、第2処理モジュール302は、最新に選択された分子構造を所望の分子構造とし、即ち最終的に取得された分子構造とすることができる。
【0075】
図3に示す装置の実施形態の具体的なワークフローは、前記の方法の実施形態における関連説明を参照することができ、ここでは言及しない。
【0076】
要するに、本開示の装置の実施形態に記載された技術案を採用することにより、ループ反復等の一連の処理により、所望の分子構造を自動的に取得し、すなわち分子構造の最適化を実現することができるため、従来の方式に比べて実現コストの低減、処理効率の向上等を図ることができる。
【0077】
本出願に記載された技術案は、人工知能の分野に適用することができ、特にディープラーニング等の分野に関する。人工知能は、コンピュータが人間の思考過程と知能行為(例えば学習、推理、思考、計画など)をシミュレートすることを研究する学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術の両方がある。人工知能のハードウェア技術には、一般的に、例えばセンサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理等の技術が含まれる。人工知能のソフトウェア技術は、主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習/ディープラーニング、ビッグデータ処理技術、知識マップ技術等のいくつかの方向を含む。
【0078】
本開示の実施形態によれば、本開示は更に電子デバイス、可読記憶媒体、及びコンピュータプログラム製品を提供する。
【0079】
図4は、本開示の実施形態を実施するために使用され得る例示的な電子デバイス400の模式的なブロック図である。電子デバイスは、ラップトップ、デスクトップコンピュータ、ワークベンチ、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような、様々な形態のデジタルコンピュータを表す。電子デバイスは更に、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。本明細書に示す構成要素、それらの接続及び関係、ならびにそれらの機能は、単なる一例であり、本明細書に記載及び/又は要求された本開示の実現を制限することではない。
【0080】
図4に示すように、デバイス400は、読み取り専用メモリ(ROM)402に記憶されたコンピュータプログラム、又は記憶手段408からランダムアクセスメモリ(RAM)403にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる演算手段401を含む。RAM403には、デバイス400の動作に必要な各種のプログラムやデータが記憶されてもよい。演算手段401、ROM402及びRAM403は、バス404を介して接続されている。入出力(I/O)インターフェース405もバス404に接続されている。
【0081】
例えばキーボード、マウス等の入力手段406と、例えば様々なタイプのディスプレイ、スピーカ等の出力手段407と、例えば磁気ディスク、光ディスク等の記憶手段408と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信手段409を含むデバイス400の複数の構成要素は、I/Oインターフェース405に接続される。通信手段409は、デバイス400が例えばインターネットのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
【0082】
演算手段401は、処理能力及び演算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってよい。演算手段401のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用の人工知能(AI)演算チップ、機械学習モデルアルゴリズムを実行する様々な演算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。演算手段401は、上述した様々な方法及び処理、例えば本開示に記載の方法を実行する。例えば、幾つかの実施形態では、本開示に記載の方法は、例えば記憶手段404のような機械可読媒体に物理的に組み込まれたコンピュータソフトウェアプログラムとして実装されてもよい。幾つかの実施形態では、コンピュータプログラムの一部又は全部は、ROM402及び/又は通信手段409を介してデバイス400にロード及び/又はインストールすることができる。コンピュータプログラムがRAM403にロードされ、演算手段401により実行されると、本開示に記載の方法の1つ又は複数のステップを実行することができる。代替的に、他の実施形態では、演算手段401は、本開示に記載の方法を実行するように、他の任意の適切な方法で(例えば、ファームウェアを介する)構成されてもよい。
【0083】
本明細書で前述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含んで良い。当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈することができる。当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであって、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置にデータ及び命令を転送することができる。
【0084】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを用いて記述することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供することにより、プログラムコードがプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図に指定された機能/動作を実行するようにすることができる。プログラムコードは、全てがマシン上で実行されても良く、一部がマシン上で実行されても良く、スタンドアロンパッケージとして一部的にマシン上で実行され且つ一部的にリモートマシン上で実行され、或いは全てがリモートマシン又はサーバ上で実行されても良い。
【0085】
本開示の文脈では、機械可読媒体は、有形の媒体であって、命令実行システム、装置又はデバイスにより使用され、或いは命令実行システム、装置又はデバイスと合わせて使用されるプログラムを含むか記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってよい。機械可読媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体的なシステム、装置又はデバイス、あるいはこれらの任意の適切な組み合わせを含んで良いが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ(登録商標))、光ファイバ、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。
【0086】
ユーザとのインタラクションを提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザにより入力をコンピュータに提供するキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)と備えるコンピュータ上に実施されてよい。他の種類の装置は、ユーザとのインタラクションを提供するためにも使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であって良く、ユーザからの入力を任意の形式(音入力、音声入力、又は触覚入力を含む)で受信して良い。
【0087】
本明細書に記載されたシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、インターネットワークを含む。
【0088】
コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。サーバはクラウドサーバ、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、従来の物理ホストと仮想専用サーバ(VPS)において管理が難しく、ビジネスの拡張性が弱いという欠点を解決するクラウドコンピューティングサービスシステムのホスト製品の1つであって良い。サーバは、分散システムのサーバであっても良く、ブロックチェーンを組み合わせたサーバであってもよい。クラウドコンピューティングとは、ネットワークを介して拡張可能な共有物理又は仮想リソースプールにアクセスするものであって、資源にサーバ、OS、ネットワーク、ソフトウェア、アプリケーション、記憶装置などが含まれ、オンデマンド、セルフサービス方式で資源を配備、管理できる技術システムである。クラウドコンピューティング技術により、人工知能、ブロックチェーンなどの技術応用、モデル訓練に効率的で強力なデータ処理能力を提供できる。
【0089】
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本出願に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本出願で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
【0090】
上記の具体的な実施形態は本出願の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本出願の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本出願の保護範囲内に含まれるべきである。