IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 中国海洋大学の特許一覧

特表2023-531846強化学習及びドッキングに基づく医薬品分子のインテリジェント生成方法
<>
  • 特表-強化学習及びドッキングに基づく医薬品分子のインテリジェント生成方法 図1
  • 特表-強化学習及びドッキングに基づく医薬品分子のインテリジェント生成方法 図2
  • 特表-強化学習及びドッキングに基づく医薬品分子のインテリジェント生成方法 図3
  • 特表-強化学習及びドッキングに基づく医薬品分子のインテリジェント生成方法 図4
  • 特表-強化学習及びドッキングに基づく医薬品分子のインテリジェント生成方法 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-07-26
(54)【発明の名称】強化学習及びドッキングに基づく医薬品分子のインテリジェント生成方法
(51)【国際特許分類】
   G16C 20/50 20190101AFI20230719BHJP
   G16C 20/70 20190101ALI20230719BHJP
【FI】
G16C20/50
G16C20/70
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022543606
(86)(22)【出願日】2021-07-21
(85)【翻訳文提出日】2022-07-15
(86)【国際出願番号】 CN2021107490
(87)【国際公開番号】W WO2023279436
(87)【国際公開日】2023-01-12
(31)【優先権主張番号】202110780433.3
(32)【優先日】2021-07-09
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】515223167
【氏名又は名称】中国海洋大学
(74)【代理人】
【識別番号】110001139
【氏名又は名称】SK弁理士法人
(74)【代理人】
【識別番号】100130328
【弁理士】
【氏名又は名称】奥野 彰彦
(74)【代理人】
【識別番号】100130672
【弁理士】
【氏名又は名称】伊藤 寛之
(72)【発明者】
【氏名】魏志強
(72)【発明者】
【氏名】王茜
(72)【発明者】
【氏名】劉昊
(72)【発明者】
【氏名】李陽陽
(72)【発明者】
【氏名】王卓亜
(57)【要約】
本発明は強化学習及びドッキングに基づく医薬品分子のインテリジェント生成方法に関し、医薬品化学及びコンピュータの技術分野に関し、前記方法は、医薬品設計のための仮想フラグメントコンビネーションライブラリを構築するステップ1)と、フラグメント類似性を計算して分子フラグメントコーディングを行うステップ2)と、強化学習のactor-criticモデルに基づいて分子を生成して最適化するステップ3)とを含む。本発明の方法は、リード化合物を基に、検索対象の化学空間を絞り込む。強化学習のactor-criticモデルにトランスフォーマーによるモデリングが使用されることによって、分子フラグメントの位置情報が導入され、フラグメントの分子での相対位置又は絶対位置の情報が保存され、並行訓練が実現される。また、報酬メカニズムが単層パーセプトロンモデルを作成することで、生成される分子の活性をさらに最適化させる。
【特許請求の範囲】
【請求項1】
強化学習及びドッキングに基づく医薬品分子のインテリジェント生成方法であって、具体的には、
医薬品設計のための仮想フラグメントコンビネーションライブラリを構築するステップ1であって、
医薬品分子仮想フラグメントコンビネーションライブラリは従来のツールキットによって1組の分子をフラグメント化したものであり、分子を分割する際に、フラグメントは分類されず、全て同じものと取り扱われるステップ1と、
フラグメント類似性を計算して分子フラグメントコーディングを行うステップ2であって、
化学類似性を計算する従来の組み合わせ方法によって異なる分子フラグメントの間の類似性を測定し、類似性に基づく平衡二分木を構築することによって、全てのフラグメントを2進文字列にコーディングし、類似するフラグメントについて類似するコーディングを付与するステップ2と、
Actor-critic強化学習モデルに基づいて分子を生成して最適化するステップ3であって、
(1)Actor-critic強化学習モデルに基づくフレームワークの説明
Actor-critic強化学習モデルに基づいて分子を生成して最適化し、分子の単一のフラグメント及び該フラグメント記述における1bitを選択して変更を行い、当該ビットでの値を入れ替えて、すなわち、0であれば、1に変更し、逆の場合にも同様であり、分子に用いられる変化の度合いを追跡することを可能とし、コーディングされるリードビットを一定に維持し、これにより、モデルでは末端でのビット変更のみを許可し、モデルが既知の化合物付近の分子しか検索でいないようにし、
Actor-critic強化学習モデルに基づいてフラグメント化される分子状態、すなわち、現在の状態から始まり、Actorは全てのフラグメントを抽出してチェックし、異なるフラグメントの分子での位置情報を導入し、トランスフォーマーエンコーダメカニズムを利用してそれぞれの分子の各フラグメントのアテンション係数を計算し、次に、DenseNetネットワーク出力確率によって置換対象のフラグメント及び置換用のフラグメントを決定し、全ての制約に対する新しい状態の満足度に従って、新しい状態を採点し、criticは、次に、新しい状態と現在の状態の価値から増加させる報酬の間の差TD-Errorがactorに供給されるか否かを調べて、YESの場合、actorのアクションが強化され、NOの場合、アクションが阻止され、次に、現在の状態を新しい状態で置換し、このプロセスを所定の回数繰り返し、
(2)強化学習モデルの報酬メカニズムの最適化
分子自体の固有属性情報及び分子計算活性情報の2つの特性について最適化された分子を設計し、強化学習モデルの報酬メカニズム部分は訓練と予測の2つの段階を含むパーセプトロンモデルを構築することで報酬結果の予測を行い、訓練過程では、データセットは、従来の文献報告により活性を有するものとして知られている分子由来のデータセットの陽性サンプルと、同じ数量のZINCライブラリからランダムにサンプリングするものに由来するデータセットの陰性サンプルとの2つの由来を含み、陽性サンプル及び陰性サンプルの順序を乱したものを順次ドッキングして得られた計算活性情報及び従来のツールキットによって算出された分子固有属性情報を入力として、複数の訓練によって、モデルは活性計算情報及び属性情報と本当に活性があるか否かとの潜在的な相関関係を学習し、予測過程では、該モデルは、先進的かつ効率的な医薬品ドッキングソフトウェアを用いて生成分子と疾患に関連する標的の従来の関連PDBファイルとについて仮想分子ドッキングを行って得られる生成分子の計算活性情報と、汎用ソフトウェアパッケージを用いて計算された生成分子の固有属性情報とを入力として、生成分子が実際の活性を有するか否かを予測し、生成される分子の活性をさらに最適化させ、強化学習モデルのActorは、有効な分子を生成するごとに報酬が付与され、工夫して予測モデルの期待に合致する分子を取得した場合、より高い報酬が付与されるステップ3とを含む、ことを特徴とするインテリジェント生成方法。
【請求項2】
前記ステップ1において、分子分割において、1つの環原子から延伸している全ての単結合が破壊され、分子を分割する際にフラグメントチェーンリストが作成されて元の分割点を記録して記憶し、後の分子設計における連結点として機能し、
ライゲーションポイントの総数が一定であれば、ライゲーションポイント数の異なるフラグメントの交換を可能とし、
この過程においてオープンソースツールキットRDKitを用いて分子開裂を行い、
重原子が12個を超える断片が捨てられ、4個以上のライゲーションポイントを有する断片も捨てられる、ことを特徴とする請求項1に記載の強化学習及びドッキングに基づく医薬品分子のインテリジェント生成方法。
【請求項3】
前記ステップ2では、フラグメントの間の類似性計算において、「医薬品類似」分子を比較する際には、具体的には、最大共通下部構造Tanimoto-MCSを用いて類似性を比較し、小さなフラグメントの場合、レーベンシュタイン距離を改良したダメラウ・レーベンシュタイン距離を導入し、この場合、2つの文字列の間のダメラウ・レーベンシュタイン距離を以下のように定義し、
2つの分子M1とM2との間のTMCS距離を以下のように定義し、
この場合、2つの分子M1とM2との間の類似性、及び対応するsmiles表記S1及びS2、すなわち
、を測定する、ことを特徴とする請求項1に記載の強化学習及びドッキングに基づく医薬品分子のインテリジェント生成方法。
【請求項4】
前記ステップ2では、分子フラグメントコードにおいて、前記文字列はフラグメント類似性に基づく平衡二分木を構築することにより作成され、次に、該木は各フラグメントごとに2進文字列を生成するものであり、その延伸において分子を表記する2進文字列を生成し、ライゲーションポイントの順序はそれぞれのフラグメントの識別子とされ、
木を集合する際には、全てのフラグメントの間の類似性を計算し、次に、ボトムアップ型貪欲法によってフラグメントペアを形成し、ここでは、まず最も類似する2つのフラグメントをペアとし、次に、この過程を繰り返して、フラグメントが最も類似している2対を連結して4リーフ付き新木を形成し、測定の結果、算出した2つのサブ木の間の類似性はこれらの木のいずれか2つのフラグメントの間の最大類似性であり、
全てのフラグメントが単一の木に連結されるまで連結過程を繰り返し、
全てのフラグメントが二分木に記憶されると、前記二分木を用いて全てのフラグメントについてコードを生成し、ルートからフラグメントを記憶するリーフまでの経路からそれぞれのフラグメントのコードを決定し、木のそれぞれの分岐については、左向きであれば、コードに1を追加し、右向きであれば、0を追加し、このようにして、コードの最右の文字がフラグメントに最も近い分岐に対応するようになる、ことを特徴とする請求項1に記載の強化学習及びドッキングに基づく医薬品分子のインテリジェント生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は医薬品化学及びコンピュータの技術分野に関し、具体的には、強化学習及びドッキングに基づく医薬品分子のインテリジェント生成方法に関する。
【背景技術】
【0002】
医薬品化学の分野では、安全で効果的な化合物の設計や製造は鍵である。これは時間やお金がかかり、複雑で困難であり、複数のパラメータを最適化させるプロセスである。有望の化合物でも臨床試験において失敗していまうリスクが高く(>90%)、その結果、不要な資源浪費をもたらす。現在、1種の新薬を市販するまでには平均コストが10億ドルを遥かに上回っており、発見から市販まで平均で13年がかかる。医薬品の場合は、発見から商業的な生産までは時間がよりかかり、例えば、高エネルギー分子は25年を必要とする。分子を発見するための重要なステップは計算研究又は合成と特徴付け用の候補を生成することである。これは非常に困難なタスクであり、可能な分子の化学空間が巨大であり、すなわち、潜在的な医薬品類似化合物の数が1023~1060種類であり、合成された全ての化合物の数が約10個の桁であるためである。リピンスキーによる薬学における「5つの規則」などヒューリスティック手法が、可能な空間を絞り込むが、大きな課題に直面している。
【0003】
コンピュータ技術の革命により、AIを使った創薬がトレンドになりつつある。従来、この目的を達成するために、定量的構造-活性関係(QSAR)、分子置換、分子シミュレーション、分子ドッキングなど、さまざまな計算モデルの組み合わせが用いられてきた。しかし、従来の方法は本質的に組み合わせられたものであり、多くの分子の不安定性や合成不可能性を招くことが多い。近年、深層学習モデルに基づいて薬物に類似した化合物を設計するための生成モデルが多く登場しており、例えば、変分オートエンコーダによる分子生成法や、生成的敵対的ネットワークによる分子生成法などがある。しかし、現在の方法は候補化合物の生成速度、有効性や分子活性の面でまだ改良の余裕がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は、Actor-critic強化学習モデル及びドッキングシミュレーションに基づいて、最適な性質を有する新しい医薬品分子を生成する、強化学習及びドッキングに基づく医薬品分子のインテリジェント生成方法を提供する。Actorネットワークには双方向トランスフォーマーエンコーダメカニズム及びDenseNetネットワークによるモデリングが使用される。
【課題を解決するための手段】
【0005】
上記の問題を解决するために、本発明は、以下の技術案によって達成される。
強化学習及びドッキングに基づく医薬品分子のインテリジェント生成方法は、具体的には、
医薬品設計のための仮想フラグメントコンビネーションライブラリを構築するステップ1であって、
医薬品分子仮想フラグメントコンビネーションライブラリは従来のツールキットによって1組の分子をフラグメント化したものであり、分子を分割する際に、フラグメントは分類されず、全て同じものと取り扱われるステップ1と、
フラグメント類似性を計算して分子フラグメントコーディングを行うステップ2であって、
化学類似性を計算する従来の組み合わせ方法によって異なる分子フラグメントの間の類似性を測定し、類似性に基づく平衡二分木を構築することによって、全てのフラグメントを2進文字列にコーディングし、類似するフラグメントについて類似するコーディングを付与するステップ2と、
Actor-critic強化学習モデルに基づいて分子を生成して最適化するステップ3であって、
(1)Actor-critic強化学習モデルに基づくフレームワークの説明
Actor-critic強化学習モデルに基づいて分子を生成して最適化し、分子の単一のフラグメント及び該フラグメント記述における1bitを選択して変更を行い、当該ビットでの値を入れ替えて、すなわち、0であれば、1に変更し、逆の場合にも同様であり、分子に用いられる変化の度合いを追跡することを可能とし、コーディングされるリードビットを一定に維持し、これにより、モデルでは末端でのビット変更のみを許可し、モデルが既知の化合物付近の分子しか検索でいないようにし、
Actor-critic強化学習モデルに基づいてフラグメント化される分子状態、すなわち、現在の状態から始まり、Actorは全てのフラグメントを抽出してチェックし、異なるフラグメントの分子での位置情報を導入し、トランスフォーマーエンコーダメカニズムを利用してそれぞれの分子の各フラグメントのアテンション係数を計算し、次に、DenseNetネットワーク出力確率によって置換対象のフラグメント及び置換用のフラグメントを決定し、全ての制約に対する新しい状態の満足度に従って、新しい状態を採点し、criticは、次に、新しい状態と現在の状態の価値から増加させる報酬の間の差TD-Errorがactorに供給されるか否かを調べて、YESの場合、actorのアクションが強化され、NOの場合、アクションが阻止され、次に、現在の状態を新しい状態で置換し、このプロセスを所定の回数繰り返し、
(2)強化学習モデルの報酬メカニズムの最適化
分子自体の固有属性情報及び分子計算活性情報の2つの特性について最適化された分子を設計し、強化学習モデルの報酬メカニズム部分はパーセプトロンモデルを構築することで報酬結果の予測を行い、パーセプトロンモデルは訓練と予測の2つの段階を含み、訓練過程では、データセットは、従来の文献報告により活性を有するものとして知られている分子由来のデータセットの陽性サンプルと、同じ数量のZINCライブラリからランダムにサンプリングしたものに由来するデータセットの陰性サンプルとの2つの由来を含み、陽性サンプル及び陰性サンプルの順序を乱したものを順次ドッキングして得られた計算活性情報及び従来のツールキットによって算出された分子固有属性情報を入力として、複数の訓練によってモデルは活性計算情報及び属性情報と本当に活性があるか否かとの潜在的な相関関係を学習し、予測過程では、該モデルは、先進的かつ効率的な医薬品ドッキングソフトウェアを用いて生成分子と疾患に関連する標的の従来の関連PDBファイルとについて仮想分子ドッキングを行って得られる生成分子の計算活性情報と、汎用ソフトウェアパッケージを用いて計算された生成分子の固有属性情報とを入力として、生成分子が実際の活性を有するか否かを予測し、生成される分子の活性をさらに最適化させ、強化学習モデルのActorは、有効な分子を生成するごとに報酬が付与され、工夫して予測モデルの期待に合致する分子を取得した場合、より高い報酬が付与されるステップ3とを含む。
【0006】
さらに、前記ステップ1では、分子分割において、1つの環原子から延伸している全ての単結合が破壊され、分割を分子するときのフラグメントチェーンリストが作成されて元の分割点を記録して記憶し、後の分子設計における連結点として機能し、ライゲーションポイントの総数が一定であれば、ライゲーションポイント数の異なるフラグメントの交換を可能とし、この過程においてオープンソースツールキットRDKitを用いて分子開裂を行い、重原子が12個を超える断片が捨てられ、4個以上のライゲーションポイントを有する断片も捨てられ、
さらに、前記ステップ2では、フラグメントの間の類似性計算において、「医薬品類似」分子を比較する際には、具体的には、最大共通下部構造Tanimoto-MCS(TMCS)を用いて類似性を比較し、小さなフラグメントの場合、レーベンシュタイン距離を改良したダメラウ・レーベンシュタイン距離を導入し、この場合、2つの文字列の間のダメラウ・レーベンシュタイン距離を以下のように定義し、
2つの分子M1とM2との間のTMCS距離を以下のように定義し、
この場合、2つの分子M1とM2との間の類似性、及び対応するsmiles表記S1及びS2、すなわち
、を測定する。
【0007】
さらに、前記ステップ2では、分子フラグメントコードにおいて、前記文字列はフラグメント類似性に基づく平衡二分木を構築することにより作成され、次に、該木は各フラグメントに2進文字列を生成するものであり、その延伸において分子を表記する2進文字列を生成し、ライゲーションポイントの順序はそれぞれのフラグメントの識別子とされ、木を集合する際には、全てのフラグメントの間の類似性を計算し、次に、ボトムアップ型貪欲法によってフラグメントペアを形成し、ここでは、まず最も類似する2つのフラグメントをペアとし、次に、この過程を繰り返して、フラグメントが最も類似している2対を連結して4リーフ付き新木を形成し、測定の結果、算出した2つのサブ木の間の類似性はこれらの木のいずれか2つのフラグメントの間の最大類似性であり、
全てのフラグメントが単一の木に連結されるまで連結過程を繰り返し、
全てのフラグメントが二分木に記憶されると、前記二分木を用いて全てのフラグメントについてコードを生成し、
ルートからフラグメントを記憶するリーフまでの経路からそれぞれのフラグメントのコードを決定し、木のそれぞれの分岐については、左向きであれば、コードに1を追加し(「1」)、右向きであれば、0を追加し(「0」)、このようにして、コードの最右の文字がフラグメントに最も近い分岐に対応するようになる。
【発明の効果】
【0008】
従来技術に比べて、本発明の有益な効果は以下のとおりである。
本発明は、Actor-critic強化学習モデル及びドッキングシミュレーション方法に基づいて、新規分子を生成する。該モデルは、所望の性質を付与するためにどのように分子を修飾して改良するかを学習する。
(1)従来の強化学習方法と異なり、本発明は、如何にリード化合物のフラグメントを変換することによって、従来の化合物に近い構造の新規化合物を生成し、検索対象の化学空間を絞り込むかに着目する。
(2)本発明は、Actor-critic強化学習モデルに基づいて、Actorネットワークには双方向トランスフォーマーエンコーダメカニズム及びDenseNetネットワークによるモデリングを利用し、様々なフラグメントの分子での位置情報を導入し、トランスフォーマーエンコーダメカニズムを利用してそれぞれの分子の各フラグメントのアテンション係数を計算し、フラグメントの分子での相対位置又は絶対位置情報を保存することで、並行訓練を実現する。
(3)強化学習の報酬メカニズムによって単層パーセプトロンモデルが作成され、該モデルの入力は、分子関連属性情報と活性情報との2つの部分の情報を含み、該活性情報は、ドッキングソフトウェアを用いて生成分子と疾患関連標的とについて分子ドッキングを行うことにより得られ、生成される分子の活性はさらに最適化させる。
(4)本発明の方法では、候補生成物の規模については、特定の疾患に対応する標的に対しては、200万以上の候補生成分子の生成が予測される。
(5)本発明の方法では、分子ドッキング部分によって1000個以上の超高次元パラメータが追加され、分子活性と関連属性情報が融合され、最適化させた80%以上の高品質AI分子が生成され得る。
(6)本発明の方法は大規模なスーパーコンピューティングプラットフォームに依拠し、分子生成速度が顕著に向上する。
【図面の簡単な説明】
【0009】
図1】Mpro関連化合物の仮想分子フラグメントライブラリである。
図2】Mpro関連化合物の全てのフラグメントを含む二分木のサブ部分である。
図3】Actor-critic強化学習モデルのフレームワーク図である。
図4】Actor-critic強化学習モデルにおけるactorの詳細な情報である。
図5】新型コロナウイルスMpro標的に対する活性化合物分子の生成である。
【発明を実施するための形態】
【0010】
以下、実施例によって図面を参照しながら本発明の技術案をさらに説明するが、本発明の特許範囲は実施例を何ら限定するものではない。
【0011】
実施例1
本実施例は、主として、新型コロナウイルスのMpro標的に対する活性化合物の生成を目的とし、1組の出発リード化合物を基にして、これらのフラグメントの一部を置換することでこれらの分子を改良して最適化させ、所望の性質を有するMproを標的とする新規活性化合物を生成する。本実施例では、Actor-critic強化学習モデル及びドッキングシミュレーション方法に基づいて、最適な性質を有する新規医薬品分子を生成する。以下、本実施例の技術案について詳細に説明する。
【0012】
Actor-critic強化学習モデル及びドッキングに基づく医薬品分子のインテリジェント生成方法であって、具体的には、下記のステップ1~ステップ3を含む。
【0013】
ステップ1.医薬品設計のための仮想フラグメントコンビネーションライブラリを構築する。
【0014】
医薬品分子仮想フラグメントコンビネーションライブラリは1組の分子をフラグメント化したものである。本実施例の仮想フラグメントライブラリは、図1に示すように、医薬品化学データベースであるChEMBLデータベースからのMpro標的に関連する10172個の化合物と、実験室において分子ドッキングによりスクリーニングされたMproを標的とする175個のリード化合物とから構成される。分子のフラグメント化の通常の方法は、分子を環構造、側鎖やリーガーなどのものに分けることである。本発明では、フラグメントを分類しない以外、分子分割は略同じ手段に従って行われる。このため、全てのフラグメントは同じものとして取り扱われる。分子を切断するために、1つの環原子から延伸している全ての単結合が破壊される。分子を分割する際に、フラグメントチェーンリストが作成されて元の分割点を記録して記憶し、後の分子設計における連結点として機能する。ライゲーションポイントの総数が一定であれば、ライゲーションポイント数の異なるフラグメントの交換を可能とする。この過程において、分子開裂は従来の化学情報学のオープンソースツールキットRDKitによって行われる。この過程において、重原子が12個を超える断片が捨てられ、4個以上のライゲーションポイントを有する断片も捨てられる。これらの制約は面白い候補対象を多く生成することを維持しながら複雑さを低減させるためである。
【0015】
ステップ2.フラグメント類似性を計算して分子フラグメントコーディングを行う。
【0016】
ステップ2.1 フラグメント間んお類似性の計算
本実施例では、全てのフラグメントは2進文字列としてコーディングされ、なお、コーディングは類似するフラグメントが類似するコードを得ることを目的とする。このため、フラグメントの間の類似性についての測定が行わなければならない。化学類似性を計算する方法が多くある。分子の指紋は直接的な2進コードであり、ここでは、類似する分子は原則的には類似するコードが付与される。ただし、分子フラグメント及びそれに固有のスパース表現の形式を比較した結果、ここでの目的に関しても、分子の指紋の寄与がそれほど大きくない。化学的には、分子の間の類似性を視覚的に測定する方法としては、最大共通下部構造Tanimoto-MCS(TMCS)類似性を利用することである。

【0017】
ここで、mcs(M1,M2)は分子M1及びM2の最大共通下部構造の原子数であり、atoms(M1)及びatoms(M2)はそれぞれ分子M1及びM2の原子数である。
【0018】
Tanimoto-MCS類似性の利点の1つはフラグメントの構造を直接比較するので、他の特定の表記に依存しないことにある。「医薬品類似」分子を比較する際には、通常、このような方法は好適である。しかし、小さなフラグメントの場合、Tanimoto-MCS類似性には欠点がある。このため、本発明では、2つのテキスト文字列の間の類似性を測定する一般的な方法であるレーベンシュタイン距離が導入されている。レーベンシュタイン距離は、2つの文字列を同じとするのに必要な最小の挿入、削除及び置換の回数として定義される。ただし、置換による編集距離への影響を考慮して、本実施例では、レーベンシュタイン距離を改良した的ダメラウ・レーベンシュタイン距離が導入され、すなわち、2つの文字列の間のダメラウ・レーベンシュタイン距離は以下のように定義される。
【0019】
妥協案として、2つの分子M1とM2との間の類似性、及び対応するsmiles表記S1及びS2を測定するようになり、すなわち、以下のとおりである。
【0020】
ステップ2.2 分子フラグメントのコーディング
全てのフラグメントは2進文字列にコーディングされる。前記文字列はフラグメント類似性に基づく平衡二分木を構築することにより作成され。次に、該木は各フラグメントに2進文字列を生成するものであり、その延伸において分子を表記する2進文字列を生成する。ライゲーションポイントの順序はそれぞれのフラグメントの識別子とされる。木を集合する際には、全てのフラグメントの間の類似性を計算する。次に、ボトムアップ型貪欲法によってフラグメントペアを形成し、ここでは、まず最も類似する2つのフラグメントをペアとする。次に、この過程を繰り返して、フラグメントが最も類似している2対を連結して4リーフ付き新木を形成する。測定の結果、算出した2つのサブ木の間の類似性はこれらの木のいずれか2つのフラグメントの間の最大類似性である。全てのフラグメントが単一の木に連結されるまで、連結過程を繰り返す。
【0021】
全てのフラグメントが二分木に記憶されると、前記二分木を用いて全てのフラグメントについてコードを生成する。ルートからフラグメントを記憶するリーフまでの経路からそれぞれのフラグメントのコードを決定する。木のそれぞれの分岐については、図2に示すように、左向きであれば、コードに1を追加し(「1」)、右向きであれば、(「0」)を追加し、このようにして、コードの最右の文字がフラグメントに最も近い分岐に対応するようになる。
【0022】
ステップ3.Actor-critic強化学習モデルに基づいて分子を生成して最適化する。
【0023】
ステップ3.1 Actor-critic強化学習モデルに基づくフレームワークの説明
本発明では、Actor-critic強化学習モデルに基づいて分子を生成して最適化し、最適化は、分子の単一のフラグメント及び該フラグメント記述における1bitを選択して変更を行うことである。当該ビットでの値を入れ替える。すなわち、0であれば、1に変更し、逆の場合にも同様である。こにより、分子に用いられる変化の度合いを追跡することが可能になり、コードの末端でビットを変更することは、非常に類似するフラグメントの変化を表し、開始部位での変化は大幅に異なるタイプのフラグメントの変化を表すためである。図3に示すように、コーディングされるリードビットを一定に維持し、これにより、モデルでは末端でのビット変更のみを許可し、モデルが既知の化合物付近の分子しか検索でいないようにする。
【0024】
Actor-critic強化学習モデルに基づいてフラグメント化される分子状態、すなわち、現在の状態Sから始まる。Actorは全てのフラグメントを抽出してチェックし、双方向トランスフォーマーエンコーダメカニズム及びDenseNetネットワークを利用して置換対象のフラグメント及び置換用のフラグメントを決定し、すなわち、Actorにより採用されるアクションAiは新しい状態Siを取得する。全ての制約に対する新しい状態の満足度に従って、新しい状態Siについて採点Rを行う。次にcriticは、SiとSの価値から増加させる報酬の間の差Td-errorがactorに供給されるか否かを調べる。YESの場合、actorのアクションAiが強化され、NOの場合、アクションが阻止される。次に、現在の状態を新しい状態で置換し、このプロセスを所定の回数繰り返す。ここで、損失関数loss=-log(prob)*td_errorである
【0025】
ステップ3.2 強化学習モデルActorのネットワーク構造
Actorネットワークは、双方向トランスフォーマーエンコーダメカニズム及びDenseNetネットワークによるモデリングを利用して、さまざまなフラグメントの分子での位置情報を導入し、トランスフォーマーエンコーダメカニズムを利用して、各分子のさまざまなフラグメントのアテンション係数を計算し、該構造の一回の読み取りは1分子のコーディングフラグメントを表し、向前き及び後向きに出力して連結し、連結された表記をDenseNetニューラルネットワークを通じて、どのフラグメントを変化するかを計算し、変化後の確率分布の推定を行う。
【0026】
フラグメントの置換概率は分子の前進フラグメントと後続フラグメントに依存する。このため、各分子はフラグメント配列として構成され、この配列はトランスフォーマーエンコーダメカニズムに一括して伝達される。各分子のさまざまなフラグメントのアテンション係数を計算することにより、各フラグメントの重要性が得られる。図4に示すように、次に、フォワード及びバックワードトランスフォーマーエンコーダによって1分子のさまざまなフラグメント相関性を有するベクトル化表記が入力され、最後に、連結の結果はDenseNetネットワークによって分類され、どのフラグメントを変化するかの計算及び変化後の確率分布の推定が行われる。
【0027】
ステップ3.3 強化学習モデルの報酬メカニズムの最適化
創薬では、最も重大な課題は複数の特性を最適化させた分子の設計であり、これらの特性には好適な関連性がない場合がある。提案されている方法では、このような状況に対応できることを確かめるために、2種の異なる特性が選択され、これらの特性は医薬品としての分子のフィージビリティを表し得る。本発明の目的は、実際の活性分子の性質により近い医薬品の分子を生成し、すなわち、所望の「最適位置」で分子を生成することである。前記したとおり、選択された性質は分子自体の固有属性情報(例えば、MW、clogPやPSAなど)及び分子計算活性情報(すなわち、分子と特定の疾患の対応する標的とのドッキング結果の情報)である。なお、本発明では、強化学習モデルの報酬メカニズム部分は単層パーセプトロンモデルを構築することで報酬結果の予測を行う。このモデルは訓練と予測との2つの段階を含む。訓練過程では、データセットは、従来の文献報告により活性を有するものとして知られている分子由来のデータセットの陽性サンプルと、同じ数量のZINCライブラリからランダムにサンプリングするものに由来するデータセットの陰性サンプルとの2つの部分の由来を含み、陽性サンプル及び陰性サンプルの順序を乱したものを順次ドッキングして得られた計算活性情報及び従来のツールキットによって算出された分子固有属性情報を入力として、複数の訓練によって、モデルは活性計算情報及び属性情報と本当に活性があるか否かとの潜在的な相関関係を学習する。予測過程では、該モデルでは、生成分子の計算活性情報は、進的かつ効率的な医薬品ドッキングソフトウェアを用いて生成分子と疾患に関連する標的とについて仮想分子ドッキングを行うことにより得られる。該モデルは、医薬品ドッキングソフトウェア、例えばLedockによって、各epochによって生成される512個以下の分子とMpro新型コロナウイルスに関連する異なるコンフォメーションの380個の標的に関する従来のPDBファイルとについて仮想分子ドッキングを行う。生成分子の固有属性情報は、汎用ソフトウェアパッケージRDKitを用いて計算されるものであり、生成分子の計算活性情報及び分子自体の固有属性情報の合計1143個の超高次元パラメータを単層パーセプトロンの入力として、生成分子が実際の活性を有するか否かを予測し、生成される分子の活性をさらに最適化させる。該強化学習フレームワークのactorは、有効な分子を生成するごとに報酬が付与され、工夫して予測モデルの期待に合致する分子を取得した場合、より高い報酬が付与される。
【0028】
最終的に生成された新型コロナウイルスMpro標的に対する活性化合物分子は図5に示される。
【0029】
なお、以上の本発明の前記実施例は説明的なものに過ぎず、本発明を限定するものではなく、このため、本発明は上記の特定の形態に限定されるものではない。当業者が本発明の原理を逸脱することなく本発明に基づて得る他の形態は全て本発明の特許範囲に属する。
図1
図2
図3
図4
図5
【国際調査報告】