IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社 ディー・エヌ・エーの特許一覧

特許7133534化合物の構造を自動生成するための化合物構造自動生成装置、化合物構造自動生成プログラム及び化合物構造自動生成方法
<>
  • 特許-化合物の構造を自動生成するための化合物構造自動生成装置、化合物構造自動生成プログラム及び化合物構造自動生成方法 図1
  • 特許-化合物の構造を自動生成するための化合物構造自動生成装置、化合物構造自動生成プログラム及び化合物構造自動生成方法 図2
  • 特許-化合物の構造を自動生成するための化合物構造自動生成装置、化合物構造自動生成プログラム及び化合物構造自動生成方法 図3
  • 特許-化合物の構造を自動生成するための化合物構造自動生成装置、化合物構造自動生成プログラム及び化合物構造自動生成方法 図4
  • 特許-化合物の構造を自動生成するための化合物構造自動生成装置、化合物構造自動生成プログラム及び化合物構造自動生成方法 図5
  • 特許-化合物の構造を自動生成するための化合物構造自動生成装置、化合物構造自動生成プログラム及び化合物構造自動生成方法 図6
  • 特許-化合物の構造を自動生成するための化合物構造自動生成装置、化合物構造自動生成プログラム及び化合物構造自動生成方法 図7
  • 特許-化合物の構造を自動生成するための化合物構造自動生成装置、化合物構造自動生成プログラム及び化合物構造自動生成方法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-08-31
(45)【発行日】2022-09-08
(54)【発明の名称】化合物の構造を自動生成するための化合物構造自動生成装置、化合物構造自動生成プログラム及び化合物構造自動生成方法
(51)【国際特許分類】
   G16C 20/50 20190101AFI20220901BHJP
   G06N 3/04 20060101ALI20220901BHJP
【FI】
G16C20/50
G06N3/04
【請求項の数】 5
(21)【出願番号】P 2019206077
(22)【出願日】2019-11-14
(65)【公開番号】P2021081769
(43)【公開日】2021-05-27
【審査請求日】2021-09-07
(73)【特許権者】
【識別番号】599115217
【氏名又は名称】株式会社 ディー・エヌ・エー
(74)【代理人】
【識別番号】110001210
【氏名又は名称】特許業務法人YKI国際特許事務所
(72)【発明者】
【氏名】藤川 和樹
(72)【発明者】
【氏名】中嶋 悠介
【審査官】松野 広一
(56)【参考文献】
【文献】米国特許出願公開第2019/0286791(US,A1)
【文献】特表2004-537085(JP,A)
【文献】米国特許第6904423(US,B1)
【文献】米国特許出願公開第2004/0117164(US,A1)
【文献】新井 直樹 外5名,指向性を持って化合物の特性を進化させる仮想ライブラリの構築システムとそのwebサービス化,情報処理学会研究報告,Vol.2015-BIO-44 No.6,日本,2015年12月07日,pp.1-6
【文献】栗原 聡,人と共生するAI革命,第1版,日本,株式会社エヌ・ティー・エス 吉田 隆,2019年06月10日,pp.229,230,ISBN: 978-4-86043-608-7
【文献】金子 弘昌,化学のためのPythonによるデータ解析・機械学習入門,第1版,日本,株式会社オーム社 村上 和夫,2019年10月25日,pp.134-138,ISBN: 978-4-274-22441-6
(58)【調査した分野】(Int.Cl.,DB名)
G16C 10/00-99/00
G16B 5/00-99/00
G06N 3/04
JSTPlus/JMEDPlus/JST7580(JDreamIII)
PubMed
(57)【特許請求の範囲】
【請求項1】
化合物の構造を自動生成するための化合物構造自動生成装置であって、
化合物の基本構造を構成する原子をノードとして表したノード情報と、前記原子の結合状態を前記ノード間を繋ぐエッジとして表したグラフ構造における隣接行列と、当該基本構造の前記ノードのいずれかに結合することが既知である付加構造と、の組み合わせを含む教師付訓練データを用いて、化合物の基本構造に結合可能な付加構造を自動生成するための機械学習をさせた構造自動生成モデルを構築する自動生成学習手段と、
対象となる化合物の基本構造を前記構造自動生成モデルに入力することによって、前記構造自動生成モデルの出力として当該基本構造に結合可能な付加構造を自動生成する構造自動生成手段と、
を備えることを特徴とする化合物構造自動生成装置。
【請求項2】
請求項1に記載の化合物構造自動生成装置であって、
前記構造自動生成モデルは、グラフニューラルネットワーク(GNN)を用いることを特徴とする化合物構造自動生成装置。
【請求項3】
請求項1又は2に記載の化合物構造自動生成装置であって、
前記構造自動生成手段では、前記基本構造を維持したまま結合可能な付加構造を自動生成することを特徴とする化合物構造自動生成装置。
【請求項4】
化合物の構造を自動生成するための化合物構造自動生成プログラムであって、
コンピュータを、
化合物の基本構造を構成する原子をノードとして表したノード情報と、前記原子の結合状態を前記ノード間を繋ぐエッジとして表したグラフ構造における隣接行列と、当該基本構造の前記ノードのいずれかに結合することが既知である付加構造と、の組み合わせを含む教師付訓練データを用いて、化合物の基本構造に結合可能な付加構造を自動生成するための機械学習をさせた構造自動生成モデルを構築する自動生成学習手段と、
対象となる化合物の基本構造を前記構造自動生成モデルに入力することによって、前記構造自動生成モデルの出力として当該基本構造に結合可能な付加構造を自動生成する構造自動生成手段と、
として機能させることを特徴とする化合物構造自動生成プログラム。
【請求項5】
化合物の構造を自動生成するための化合物構造自動生成方法であって、
コンピュータに、
化合物の基本構造を構成する原子をノードとして表したノード情報と、前記原子の結合状態を前記ノード間を繋ぐエッジとして表したグラフ構造における隣接行列と、当該基本構造の前記ノードのいずれかに結合することが既知である付加構造と、の組み合わせを含む教師付訓練データを用いて、化合物の基本構造に結合可能な付加構造を自動生成するための機械学習をさせた構造自動生成モデルを構築する自動生成学習工程と、
対象となる化合物の基本構造を前記構造自動生成モデルに入力することによって、前記構造自動生成モデルの出力として当該基本構造に結合可能な付加構造を自動生成する構造自動生成工程と、
を実行させることを特徴とする化合物構造自動生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、化合物の構造を自動生成するための化合物構造自動生成装置、化合物構造自動生成プログラム及び化合物構造自動生成方法に関する。
【背景技術】
【0002】
創薬研究では、新薬の候補として見出された新薬候補化合物(以下、リード化合物という)を基準として、リード化合物の構造を変更するように設計、合成及び評価を繰り返すことによって新薬としての化合物の構造を徐々に最適化していく作業(以下、最適化プログラムという)が行われる。
【0003】
最適化プログラムでは、例えば、モンテカルロ木探索(MCTS:Monte Carlo Tree Search)を適用したChemTSという手法を用いてSMILES記法で記述された化合物から派生させた新たな化合物の探索を行う処理が行われている。このとき、リード化合物における医薬としての主活性(薬効)を維持しつつ、人体や動物における吸収(absorption)、分布(distribution)、代謝(metabolism)、排泄(excretion)及び毒性(toxicity)に関する化合物の性質を示すADMET属性を改善するように化合物を探索する。
【先行技術文献】
【非特許文献】
【0004】
【文献】https://arxiv.org/abs/1710.00616
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、ChemTSを用いてSMILES記法で記述された化合物から新たな化合物の探索する場合、SMILES記法では表現できない化合物の構造があり、最適化プログラムでの探索の範囲が限定されてしまうという問題がある。
【課題を解決するための手段】
【0006】
本発明の1つの態様は、化合物の構造を自動生成するための化合物構造自動生成装置であって、化合物の基本構造を構成する原子をノードとして表したノード情報と、前記原子の結合状態を前記ノード間を繋ぐエッジとして表したグラフ構造における隣接行列と、当該基本構造の前記ノードのいずれかに結合することが既知である付加構造と、の組み合わせを含む教師付訓練データを用いて、化合物の基本構造に結合可能な付加構造を自動生成するための機械学習をさせた構造自動生成モデルを構築する自動生成学習手段と、対象となる化合物の基本構造を前記構造自動生成モデルに入力することによって、前記構造自動生成モデルの出力として当該基本構造に結合可能な付加構造を自動生成する構造自動生成手段と、
を備えることを特徴とする化合物構造自動生成装置である。
【0007】
ここで、前記構造自動生成モデルは、グラフニューラルネットワーク(GNN)を用いることが好適である。
【0008】
また、前記構造自動生成手段では、前記基本構造を維持したまま結合可能な付加構造を自動生成することが好適である。
【0009】
本発明の別の態様は、化合物の構造を自動生成するための化合物構造自動生成プログラムであって、コンピュータを、化合物の基本構造を構成する原子をノードとして表したノード情報と、前記原子の結合状態を前記ノード間を繋ぐエッジとして表したグラフ構造における隣接行列と、当該基本構造の前記ノードのいずれかに結合することが既知である付加構造と、の組み合わせを含む教師付訓練データを用いて、化合物の基本構造に結合可能な付加構造を自動生成するための機械学習をさせた構造自動生成モデルを構築する自動生成学習手段と、対象となる化合物の基本構造を前記構造自動生成モデルに入力することによって、前記構造自動生成モデルの出力として当該基本構造に結合可能な付加構造を自動生成する構造自動生成手段と、として機能させることを特徴とする化合物構造自動生成プログラムである。
【0010】
本発明の別の態様は、化合物の構造を自動生成するための化合物構造自動生成方法であって、コンピュータに、化合物の基本構造を構成する原子をノードとして表したノード情報と、前記原子の結合状態を前記ノード間を繋ぐエッジとして表したグラフ構造における隣接行列と、当該基本構造の前記ノードのいずれかに結合することが既知である付加構造と、の組み合わせを含む教師付訓練データを用いて、化合物の基本構造に結合可能な付加構造を自動生成するための機械学習をさせた構造自動生成モデルを構築する自動生成学習工程と、対象となる化合物の基本構造を前記構造自動生成モデルに入力することによって、前記構造自動生成モデルの出力として当該基本構造に結合可能な付加構造を自動生成する構造自動生成工程と、を実行させることを特徴とする化合物構造自動生成方法である。
【発明の効果】
【0011】
本発明の実施の形態は、新たな化合物の構造を自動生成することが可能な化合物構造自動生成装置、化合物構造自動生成プログラム及び化合物構造自動生成方法を提供することを目的の1つとする。本発明の実施の形態の他の目的は、本明細書全体を参照することにより明らかになる。
【図面の簡単な説明】
【0012】
図1】本発明の実施の形態における化合物構造自動生成装置の構成を示す図である。
図2】本発明の実施の形態における化合物構造自動生成方法を示すフローチャートである。
図3】本発明の実施の形態における化合物データベースの例を示す図である。
図4】本発明の実施の形態における化合物の構造例を示す図である。
図5】本発明の実施の形態における化合物をグラフ構造として表したときの隣接行例の例を示す図である。
図6】本発明の実施の形態における化合物をグラフ構造として表したときの隣接行例の例を示す図である。
図7】本発明の実施の形態における化合物の基本構造及び差分構造の例を示す図である。
図8】本発明の実施の形態における化合物構造自動生成モデルの機械学習を説明する図である。
【発明を実施するための形態】
【0013】
本発明の実施の形態における化合物構造自動生成装置100は、図1に示すように、処理部10、記憶部12、入力部14、出力部16及び通信部18を含んで構成される。
【0014】
化合物構造自動生成装置100は、一般的なコンピュータにより構成することができる。処理部10は、CPU等を含んで構成され、化合物構造自動生成装置100における処理を統合的に行う。処理部10は、記憶部12に記憶されている化合物構造自動生成プログラムを実行することにより、本実施の形態における化合物構造自動生成処理を行う。記憶部12は、化合物構造自動生成処理において用いられる化合物構造自動生成モデル(化合物構造自動生成器)、創薬研究において基本となる化合物の構造データ及び自動生成により得られた化合物の構造データ等、化合物構造自動生成処理において必要な情報を記憶する。記憶部12は、例えば、半導体メモリ、ハードディスク等で構成することができる。記憶部12は、化合物構造自動生成装置100の内部に設けてもよいし、無線や有線等の情報網を利用して処理部10からアクセスできるように外部に設けてもよい。入力部14は、化合物構造自動生成装置100に対して情報を入力するための手段を含む。出力部16は、化合物構造自動生成装置100において処理された情報を表示させる手段を含む。通信部18は、外部の装置(サーバ等)との情報交換を行うためのインターフェースを含んで構成される。通信部18は、例えば、インターネット等の情報通信網に接続されることによって、外部の装置との通信を可能にする。
【0015】
[化合物構造自動生成処理]
以下、図2のフローチャートを参照して、本実施の形態における化合物構造自動生成処理について説明する。化合物構造自動生成装置100は、化合物構造自動生成プログラムを実行することによって、自動生成の基礎となる化合物の構造から派生させた化合物の構造を自動生成するための機械学習を行って化合物構造自動生成モデル(化合物構造自動生成器)を生成し、当該化合物構造自動生成モデルを用いて新たな化合物の構造を自動生成する処理を行う。
【0016】
本実施の形態では、一例として、創薬研究において新薬の候補として見出されたリード化合物の構造から派生的な化合物の構造を自動生成する処理について説明する。ただし、本発明の適用範囲は、これに限定されるものではなく、基礎となる化合物の構造から新たな化合物の構造を派生的に生成する処理であれば適用範囲となる。
【0017】
ステップS10では、化合物構造自動生成モデルを機械学習させるための訓練データの読み込み処理が行われる。当該ステップにおける処理によって、化合物構造自動生成装置100はデータ取得手段として機能する。
【0018】
化合物の構造は、グラフ構造として表現することができる。すなわち、化合物を構成する「原子」を“ノード”とし、「原子間の結合」をノードを繋ぐ“エッジ”としたグラフ構造として表現できる。具体的には、グラフ構造の“ノード”に該当する原子の元素種、“エッジ”に該当する原子間の結合関係及び結合状態を示す情報を化合物データベースとして記憶部12に記憶させる。
【0019】
図3は、化合物の構造の例を示す。図3(a)は化合物の構造を示し、図3(b)は当該化合物を構成する原子にノード番号を割り当てたグラフ構造を示す。
【0020】
図4は、化合物データベースとして記憶された当該化合物の構造を示す構造データの例を示す。化合物データベースには、化合物毎に特有に割り当てられた化合物ID、化合物名、ノード毎の元素種、ノード間の結合状態を示す隣接行列データ及び組み合わせ可能な化学構造が関連付けて記憶される。
【0021】
なお、ノード毎の元素種は、ノード毎の特徴ベクトルとして表現することができる。例えば、当該特徴ベクトルを[炭素(C),水素(H),酸素(O),窒素(N)・・・]で表す場合、ノードが炭素(C)である場合には特徴ベクトル[1,0,0,0・・・]、ノードが水素(H)である場合には特徴ベクトル[0,1,0,0・・・]、ノードが酸素(O)である場合には特徴ベクトル[0,0,1,0・・・]、ノードが窒素(N)である場合には特徴ベクトル[0,0,0,1・・・]として表すことができる。
【0022】
隣接行列とは、グラフ構造においてノード間がエッジによってどのように結合されているかを示す行列である。隣接行列は、グラフ構造におけるノードの数の行及び列を有する正方行列である。
【0023】
例えば、図3(a)に示した化合物の構成では、ノード1~ノード7の相互の結合関係を図5に示す隣接行列として表すことができる。すなわち、隣接行列は、ノードNに対応する原子とノードMに対応する原子とが化学結合されている場合には行列要素(N,M)及び行列要素(M,N)の値を“1”とし、化学結合されていない場合には値を“0”とした行列である。対角要素の値は、“0”とする。例えば、ノード1に対応する原子とノード2に対応する原子は化学結合されているので行列要素(1,2)及び行列要素(2,1)は“1”とし、ノード2に対応する原子とノード3に対応する原子は化学結合されていないので行列要素(2,3)及び(3,2)は“0”としている。
【0024】
また、ノード間の結合状態を含めて化合物の自動生成モデルを構築する場合、図6に示すように、化学結合の状態も含めて表した隣接行列を使用してもよい。例えば、隣接行列は、ノードNに対応する原子とノードMに対応する原子とが化学結合されている場合、結合状態が単結合であるときには行列要素(N,M)及び行列要素(M,N)の値を“1”とし、二重結合であるときには“2”とし、三重結合であるときには“3”とし、化学結合されていない場合には値を“0”として表すことができる。対角要素の値は、“0”とする。
【0025】
化合物の構造をグラフ構造として表現するためには、既存のグラフ解析プログラムを適用することができる。
【0026】
本実施の形態では、化合物構造自動生成モデルを機械学習させるために、化合物の構成を示すグラフ構造データと当該化合物において派生的に組み合わせできる化学構造を付加構造として組み合わせて教師付訓練データとして使用する。例えば、図7(b)及び図7(c)に示すように、図7(a)の基本構造を有する化合物に対して、当該基本構造のいずれかの原子(グラフ構造におけるノード)に結合可能な付加構造が存在し得る場合には、基本構造と付加構造である化学構造(CM1,CM2)とを組み合わせて教師付訓練データとして使用する。具体的には、基本構造を訓練データとして、当該基本構造に組み合わせ可能な付加構造を教師データとして関連付けて教師付訓練データとして予め化合物データベースに記憶させておけばよい。
【0027】
ステップS12では、化合物の構造自動生成モデルの機械学習が行われる。当該ステップにおける処理によって、化合物構造自動生成装置100は自動生成学習手段として機能する。
【0028】
処理部10は、図8に示すように、ステップS10において取得された教師付訓練データの化合物の基本構造及び当該化合物に対して派生的に組み合わせ可能な付加構造の組み合わせを教師付訓練データとして、新たな化合物の構造を入力することによって当該化合物に派生的に組み合わせ可能な付加構造が出力されるように化合物構造自動生成モデルを機械学習させる。
【0029】
化合物構造自動生成モデルには、グラフニューラルネットワーク(GNN:Graph Neural Network)を適用することが好適である。GNNは、グラフ構造を扱うニューラルネットワークであり、多くのモデルが提唱されている。機械学習のモデルでは、ニューラルネットワークの層数、活性化関数、損失関数等は適宜選択することが好適である。
【0030】
具体的には、例えば以下のように処理を行う。ステップS10において取得した化合物の基本構造をGNNの入力として、基本構造のノード毎の元素種を示す特徴ベクトル及び隣接行列に対してグラフ畳み込み処理(Convolution)を行い、ノード毎の特徴ベクトルを得る。このようにして得られた基本構造のグラフ構造における各ノードに対する特徴ベクトルを入力として、当該基本構造に対して派生的に組み合わせ可能な付加構造のグラフ構造を出力する化合物構造自動生成モデルが構築されるように機械学習を行う。
【0031】
なお、機械学習では、化合物データベースに含まれるいずれかの基本構造及び当該基本構造に組み合わせ可能な付加構造を検証データ(バリデーションデータ)や評価データ(テストデータ)として使用してもよい。
【0032】
ステップS14では、化合物の構造の自動生成処理が行われる。当該ステップにおける処理によって、化合物構造自動生成装置100は構造自動生成手段として機能する。
【0033】
ユーザは、新たに派生的な構造を自動生成する対象となる化合物の基本構造をステップS12において構築された化合物構造自動生成モデルに入力することによって、当該基本構造に対して組み合わせ可能な付加構造を自動生成させる。具体的には、グラフ解析プログラムを用いて化合物の基本構造についてグラフ構造を求め、当該グラフ構造を化合物構造自動生成モデルへ入力することによって、当該化合物に対して組み合わせ可能な付加構造が自動的に生成されて出力される。
【0034】
以上のように、本実施の形態における化合物構造自動生成装置100では、化合物の骨格となる基本構造を入力することによって、当該骨格である基本構造を維持しつつ、当該基本構造に含まれる原子(グラフ構造におけるノード)に結合可能な付加構造を自動生成することができる。したがって、自動生成された付加構造と基本構造とを組み合わせることによって、基本構造から派生した新たな化合物を自動的に生成することができる。
【0035】
例えば、創薬研究においてリード化合物の基本構造に対して、当該基本構造に組み合わせ可能な付加構造を自動生成することで、リード化合物から派生した化合物を新たな研究の候補として得ることができる。具体的には、例えば、創薬研究の最適化プログラムにおいて、ChemTS等のMCTS法に対して化合物構造自動生成装置100で得られたリード化合物から派生した化合物を適用することによってADMET属性を改善するように化合物を探索することができる。
【0036】
ただし、化合物構造自動生成装置100において自動生成の対象となる化合物は創薬研究における化合物に限定されるものではない。また、化合物構造自動生成装置100において得られた化合物の利用方法も特に限定されるものではない。
【0037】
なお、本実施の形態における化合物構造自動生成装置100では、データ取得手段、自動生成学習手段、構造自動生成手段を1つの装置にて実現する構成としたが、これらの手段を異なる装置や異なる実行主体にて実現するようにしてもよい。例えば、これらの手段のうち幾つかをコンピュータで分担して実現するようにしてもよい。
【符号の説明】
【0038】
10 処理部、12 記憶部、14 入力部、16 出力部、18 通信部、20 処理部、22 記憶部、24 入力部、26 出力部、28 通信部、100 化合物構造自動生成装置。
図1
図2
図3
図4
図5
図6
図7
図8