特許7483244 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 国立大学法人東京工業大学の特許一覧

特許7483244化合物生成装置、化合物生成方法、学習装置、学習方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-05-07

(45)【発行日】2024-05-15

(54)【発明の名称】化合物生成装置、化合物生成方法、学習装置、学習方法及びプログラム

(51)【国際特許分類】

G16C 20/50 20190101AFI20240508BHJP

【ＦＩ】

G16C20/50

【請求項の数】 16

(21)【出願番号】P 2020063193

(22)【出願日】2020-03-31

(65)【公開番号】P2021068410

(43)【公開日】2021-04-30

【審査請求日】2023-01-30

(31)【優先権主張番号】62/923,632

(32)【優先日】2019-10-21

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】304021417

【氏名又は名称】国立大学法人東京工業大学

(74)【代理人】

【識別番号】100095407

【弁理士】

【氏名又は名称】木村満

(74)【代理人】

【識別番号】100174067

【弁理士】

【氏名又は名称】湯浅夏樹

(74)【代理人】

【識別番号】100177149

【弁理士】

【氏名又は名称】佐藤浩義

(74)【代理人】

【識別番号】100209794

【弁理士】

【氏名又は名称】三瓶真弘

(72)【発明者】

【氏名】関嶋政和

(72)【発明者】

【氏名】リコン

(72)【発明者】

【氏名】安尾信明

【審査官】橋沼和樹

(56)【参考文献】

【文献】中国特許出願公開第１１００４６６９２（ＣＮ，Ａ）

【文献】A Computational-Based Method for Predicting Drug-Target Interactions by Using Stacked Autoencoder Deep Neural Network，Journal of Computational Biology，Vol. 25, No. 3，[online]，2018年03月01日，pages. 361～373，インターネット＜URL: https://www.liebertpub.com/doi/10.1089/cmb.2017.0135＞, [検索日:2024年2月5日]

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１６Ｃ１０／００－９９／００

(57)【特許請求の範囲】

【請求項1】

標的となる蛋白質の情報である蛋白質情報を取得する蛋白質情報取得手段と、
条件付き変分自己符号化器のデコーダを備え、前記デコーダに、前記蛋白質情報取得手段で取得した蛋白質情報を条件変数として入力するとともに、ランダムノイズを用いてサンプリングした潜在変数を入力すると、前記蛋白質との結合性が高い化合物の化学構造を生成する化合物生成手段と、
を備える化合物生成装置。

【請求項2】

前記デコーダは、ＬＳＴＭによるデコーダであり、
前記化合物生成手段は、前記デコーダに前記条件変数と前記潜在変数とを繰り返し入力することにより、前記蛋白質との結合性が高い化合物の化学構造を生成する、
請求項１に記載の化合物生成装置。

【請求項3】

前記蛋白質情報取得手段は、前記蛋白質情報として前記蛋白質のアミノ酸配列の分散表現を取得する、
請求項１又は２に記載の化合物生成装置。

【請求項4】

前記蛋白質情報取得手段は、前記蛋白質情報として、前記蛋白質のアミノ酸配列の分散表現であって、前記アミノ酸配列のファミリー毎に類似した分散表現となるように教師ありで学習された分散表現を取得する、
請求項３に記載の化合物生成装置。

【請求項5】

前記蛋白質情報取得手段は、前記蛋白質情報として、前記蛋白質のアミノ酸配列の分散表現であって、前記アミノ酸配列を３－ｇｒａｍ表現に変換してから求めた分散表現を取得する、
請求項３又は４に記載の化合物生成装置。

【請求項6】

標的となる蛋白質の情報である蛋白質情報を取得する蛋白質情報取得ステップと、
条件付き変分自己符号化器のデコーダに、前記蛋白質情報取得ステップで取得した蛋白質情報を条件変数として入力するとともに、ランダムノイズを用いてサンプリングした潜在変数を入力すると、前記蛋白質との結合性が高い化合物の化学構造を生成する化合物生成ステップと、
を備える化合物生成方法。

【請求項7】

コンピュータに、
標的となる蛋白質の情報である蛋白質情報を取得する蛋白質情報取得ステップ、及び、
条件付き変分自己符号化器のデコーダに、前記蛋白質情報取得ステップで取得した蛋白質情報を条件変数として入力するとともに、ランダムノイズを用いてサンプリングした潜在変数を入力すると、前記蛋白質との結合性が高い化合物の化学構造を生成する化合物生成ステップ、
を実行させるためのプログラム。

【請求項8】

標的となる蛋白質の情報である蛋白質情報を取得する蛋白質情報取得手段と、
前記蛋白質との結合性が高い化合物の化学構造の情報である化合物情報を取得する化合物情報取得手段と、
条件付き変分自己符号化器を備える化合物生成手段と、
結合性が高い前記蛋白質と前記化合物との組の集合を用いて前記化合物生成手段が備える条件付き変分自己符号化器を学習させる学習手段と、
を備える学習装置。

【請求項9】

前記条件付き変分自己符号化器は、エンコーダとデコーダとを備え、
前記学習手段は、
前記蛋白質情報取得手段が取得した前記蛋白質の蛋白質情報と、前記化合物情報取得手段が取得した化合物情報であって前記蛋白質との結合性が高い化合物の化合物情報と、を前記エンコーダに入力して、前記エンコーダから潜在変数の平均及び分散を出力させ、
前記出力された平均及び分散とともにランダムノイズを用いてサンプリングした潜在変数と、前記蛋白質情報と、を前記デコーダに入力することによって、前記デコーダから出力される情報と、前記エンコーダに入力された前記化合物情報と、の誤差に基づいて前記エンコーダ及び前記デコーダを学習させる、
請求項８に記載の学習装置。

【請求項10】

前記蛋白質情報取得手段は、前記蛋白質情報として前記蛋白質のアミノ酸配列の分散表現を取得する、
請求項８又は９に記載の学習装置。

【請求項11】

前記蛋白質情報取得手段は、前記蛋白質情報として前記蛋白質のアミノ酸配列の分散表現を取得し、
前記エンコーダは、ＬＳＴＭによるエンコーダであり、
前記デコーダは、ＬＳＴＭによるデコーダであり、
前記化合物情報取得手段は、前記化合物情報として規定文字数の個数の埋め込みベクトルを取得し、
前記学習手段は、
前記化合物情報取得手段が取得した前記規定文字数の個数の前記埋め込みベクトルのそれぞれと前記蛋白質情報取得手段が取得した前記分散表現とを結合した前記規定文字数の個数の第１結合ベクトルを、１つずつ前記規定文字数の回数のステップで前記エンコーダに入力して、前記エンコーダから潜在変数の平均及び分散を取得し、
前記取得した平均及び分散とともにランダムノイズを用いてサンプリングした潜在変数と前記分散表現とを結合させた第２結合ベクトルを、前記規定文字数の回数、前記デコーダに入力することによって、前記化合物生成手段により生成される再現化合物情報と、前記化合物情報取得手段が取得した化合物情報と、の誤差に基づいて前記化合物生成手段のニューラルネットワークを学習させる、
請求項９に記載の学習装置。

【請求項12】

前記蛋白質情報取得手段は、前記蛋白質情報として、前記蛋白質のアミノ酸配列の分散表現であって、前記アミノ酸配列のファミリー毎に類似した分散表現となるように教師ありで学習された分散表現を取得する、
請求項１０又は１１に記載の学習装置。

【請求項13】

前記蛋白質情報取得手段は、前記蛋白質情報として、前記蛋白質のアミノ酸配列の分散表現であって、前記アミノ酸配列を３－ｇｒａｍ表現に変換してから求めた分散表現を取得する、
請求項１０から１２のいずれか１項に記載の学習装置。

【請求項14】

前記化合物情報取得手段は、前記化合物情報として前記化合物の化学構造をＳＭＩＬＥＳ記法で表現した情報を取得する、
請求項８から１３のいずれか１項に記載の学習装置。

【請求項15】

標的となる蛋白質の情報である蛋白質情報を取得する蛋白質情報取得ステップと、
前記蛋白質との結合性が高い化合物の化学構造の情報である化合物情報を取得する化合物情報取得ステップと、
結合性が高い前記蛋白質と前記化合物との組の集合を用いて条件付き変分自己符号化器を学習させる学習ステップと、
を備える学習方法。

【請求項16】

コンピュータに、
標的となる蛋白質の情報である蛋白質情報を取得する蛋白質情報取得ステップ、
前記蛋白質との結合性が高い化合物の化学構造の情報である化合物情報を取得する化合物情報取得ステップ、及び、
結合性が高い前記蛋白質と前記化合物との組の集合を用いて条件付き変分自己符号化器を学習させる学習ステップ、
を実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、化合物生成装置、化合物生成方法、学習装置、学習方法及びプログラムに関する。

【背景技術】

【0002】

創薬の初期段階においては、薬剤の標的となる蛋白質に結合する化合物を発見する必要がある。このような化合物を発見するために、従来から様々なバーチャルスクリーニングの手法が提案されている。しかし、従来から提案されているスクリーニング手法は、既知の化合物の中から標的蛋白質との結合性が高い化合物を発見する手法であるので、全く新しい化合物を発見することはできない。この問題に対し、近年では、例えば、非特許文献１に記載されているような、機械学習を用いて化合物を生成する生成モデルの研究が行われている。

【先行技術文献】

【非特許文献】

【0003】

【文献】ＤａｎｉｅｌＣ．Ｅｌｔｏｎ，ＺｏｉｓＢｏｕｋｏｕｖａｌａｓ，ＭａｒｋＤ．Ｆｕｇｅ，ａｎｄＰｅｔｅｒＷ．Ｃｈｕｎｇ， “Ｄｅｅｐｌｅａｒｎｉｎｇｆｏｒｍｏｌｅｃｕｌａｒｄｅｓｉｇｎ－ａｒｅｖｉｅｗｏｆｔｈｅｓｔａｔｅｏｆｔｈｅａｒｔ．”，Ｍｏｌ．Ｓｙｓｔ．Ｄｅｓ．Ｅｎｇ．，Ｖｏｌ．４，Ｎｏ．４，ｐｐ．８２８－８４９，２０１９．

【発明の概要】

【発明が解決しようとする課題】

【0004】

非特許文献１に記載されている生成モデルの研究では、生成する化合物の新規性、多様性等に関しては考慮されているが、標的蛋白質との結合性は考慮されていない。したがって、これらの生成モデルで化合物を生成しても、生成された化合物の標的蛋白質との結合性が低い場合には、結局その化合物は新薬の候補にはならないことになる。

【0005】

本発明は、上記問題を解決するためになされたものであり、標的蛋白質との結合性が高い化合物を生成する化合物生成装置、化合物生成方法、学習装置、学習方法及びプログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

上記目的を達成するため、本発明の第１の観点に係る化合物生成装置は、
標的となる蛋白質の情報である蛋白質情報を取得する蛋白質情報取得手段と、
条件付き変分自己符号化器のデコーダを備え、前記デコーダに、前記蛋白質情報取得手段で取得した蛋白質情報を条件変数として入力するとともに、ランダムノイズを用いてサンプリングした潜在変数を入力すると、前記蛋白質との結合性が高い化合物の化学構造を生成する化合物生成手段と、
を備える。

【0007】

前記デコーダは、ＬＳＴＭによるデコーダであり、
前記化合物生成手段は、前記デコーダに前記条件変数と前記潜在変数とを繰り返し入力することにより、前記蛋白質との結合性が高い化合物の化学構造を生成する、
ようにしてもよい。

【0008】

前記蛋白質情報取得手段は、前記蛋白質情報として前記蛋白質のアミノ酸配列の分散表現を取得する、
ようにしてもよい。

【0009】

前記蛋白質情報取得手段は、前記蛋白質情報として、前記蛋白質のアミノ酸配列の分散表現であって、前記アミノ酸配列のファミリー毎に類似した分散表現となるように教師ありで学習された分散表現を取得する、
ようにしてもよい。

【0010】

前記蛋白質情報取得手段は、前記蛋白質情報として、前記蛋白質のアミノ酸配列の分散表現であって、前記アミノ酸配列を３－ｇｒａｍ表現に変換してから求めた分散表現を取得する、
ようにしてもよい。

【0011】

また、本発明の第２の観点に係る化合物生成方法は、
標的となる蛋白質の情報である蛋白質情報を取得する蛋白質情報取得ステップと、
条件付き変分自己符号化器のデコーダに、前記蛋白質情報取得ステップで取得した蛋白質情報を条件変数として入力するとともに、ランダムノイズを用いてサンプリングした潜在変数を入力すると、前記蛋白質との結合性が高い化合物の化学構造を生成する化合物生成ステップと、
を備える。

【0012】

また、本発明の第３の観点に係るプログラムは、
コンピュータに、
標的となる蛋白質の情報である蛋白質情報を取得する蛋白質情報取得ステップ、及び、
条件付き変分自己符号化器のデコーダに、前記蛋白質情報取得ステップで取得した蛋白質情報を条件変数として入力するとともに、ランダムノイズを用いてサンプリングした潜在変数を入力すると、前記蛋白質との結合性が高い化合物の化学構造を生成する化合物生成ステップ、
を実行させる。

【0013】

また、本発明の第４の観点に係る学習装置は、
標的となる蛋白質の情報である蛋白質情報を取得する蛋白質情報取得手段と、
前記蛋白質との結合性が高い化合物の化学構造の情報である化合物情報を取得する化合物情報取得手段と、
条件付き変分自己符号化器を備える化合物生成手段と、
結合性が高い前記蛋白質と前記化合物との組の集合を用いて前記化合物生成手段が備える条件付き変分自己符号化器を学習させる学習手段と、
を備える。

【0014】

【0015】

前記蛋白質情報取得手段は、前記蛋白質情報として前記蛋白質のアミノ酸配列の分散表現を取得する、
ようにしてもよい。

【0016】

前記エンコーダは、ＬＳＴＭによるエンコーダであり、
前記デコーダは、ＬＳＴＭによるデコーダであり、
前記化合物情報取得手段は、前記化合物情報として規定文字数の個数の埋め込みベクトルを取得し、
前記学習手段は、
前記化合物情報取得手段が取得した前記規定文字数の個数の前記埋め込みベクトルのそれぞれと前記蛋白質情報取得手段が取得した前記分散表現とを結合した前記規定文字数の個数の第１結合ベクトルを、１つずつ前記規定文字数の回数のステップで前記エンコーダに入力して、前記エンコーダから潜在変数の平均及び分散を取得し、
前記取得した平均及び分散とともにランダムノイズを用いてサンプリングした潜在変数と前記分散表現とを結合させた第２結合ベクトルを、前記規定文字数の回数、前記デコーダに入力することによって、前記化合物生成手段により生成される再現化合物情報と、前記化合物情報取得手段が取得した化合物情報と、の誤差に基づいて前記化合物生成手段のニューラルネットワークを学習させる、
ようにしてもよい。

【0017】

【0018】

【0019】

前記化合物情報取得手段は、前記化合物情報として前記化合物の化学構造をＳＭＩＬＥＳ記法で表現した情報を取得する、
ようにしてもよい。

【0020】

また、本発明の第５の観点に係る学習方法は、
標的となる蛋白質の情報である蛋白質情報を取得する蛋白質情報取得ステップと、
前記蛋白質との結合性が高い化合物の化学構造の情報である化合物情報を取得する化合物情報取得ステップと、
結合性が高い前記蛋白質と前記化合物との組の集合を用いて条件付き変分自己符号化器を学習させる学習ステップと、
を備える。

【0021】

また、本発明の第６の観点に係るプログラムは、
コンピュータに、
標的となる蛋白質の情報である蛋白質情報を取得する蛋白質情報取得ステップ、
前記蛋白質との結合性が高い化合物の化学構造の情報である化合物情報を取得する化合物情報取得ステップ、及び、
結合性が高い前記蛋白質と前記化合物との組の集合を用いて条件付き変分自己符号化器を学習させる学習ステップ、
を実行させる。

【発明の効果】

【0022】

本発明によれば、標的蛋白質との結合性が高い化合物を生成することができる。

【図面の簡単な説明】

【0023】

【図1】実施形態１に係る化合物生成装置による化合物生成方法の処理概要を説明する図である。

【図2】実施形態１に係る化合物生成装置の機能構成を示す図である。

【図3】実施形態１において蛋白質のアミノ酸配列を分散表現に変換するＤｏｃ２ｖｅｃモデルを説明する図である。（ａ）はＰＶ－ＤＭモデルを説明する図であり、（ｂ）はＰＶ－ＤＢＯＷモデルを説明する図である。

【図4】実施形態１において化合物の化学構造をＳＭＩＬＥＳ記法により文字列に変換し、さらに埋め込みベクトルを用いて行列に変換することを説明する図である。

【図5】自己符号化器を説明する図である。

【図6】変分自己符号化器を説明する図である。

【図7】条件付き変分自己符号化器を説明する図である。

【図8】実施形態１に係る条件付き変分自己符号化器を説明する図である。

【図9】実施形態１に係るＬＳＴＭブロックの構造を説明する図である。

【図10】実施形態１に係る４－ｌａｙｅｒ－ＬＳＴＭの構造を説明する図である。

【図11】実施形態１に係るＬＳＴＭにおける重み行列の適用例を説明する図である。

【図12】実施形態１に係る学習処理のフローチャートである。

【図13】実施形態１に係る生成処理のフローチャートである。

【発明を実施するための形態】

【0024】

以下、本発明の実施形態に係る化合物生成装置等について、図表を参照して説明する。なお、図中同一又は相当部分には同一符号を付す。

【0025】

（実施形態１）
実施形態１に係る化合物生成装置は、図１に示すように、結合性が高いことが判明している既知の蛋白質と化合物との組の集合を用いて条件付き変分自己符号化器（ＣＶＡＥ：ＣｏｎｄｉｔｉｏｎａｌＶａｒｉａｔｉｏｎａｌＡｕｔｏ－Ｅｎｃｏｄｅｒ）の学習を行い、学習後の条件付き変分自己符号化器のデコーダに標的蛋白質（分散表現）と潜在変数（ランダムノイズでサンプリング）とを入力することによって、標的蛋白質との結合性が高い化合物を生成する。このような化合物生成装置について、以下に説明する。

【0026】

実施形態１に係る化合物生成装置１００は、図２に示すように、制御部１０、記憶部２０、出力部３１、操作入力部３２、通信部３３、を備える。

【0027】

制御部１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等で構成され、記憶部２０に記憶されたプログラムを実行することにより、後述する各部（蛋白質情報取得部１１、化合物情報取得部１２、化合物生成部１３、学習部１４）の機能を実現する。

【0028】

記憶部２０は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等で構成され、制御部１０のＣＰＵが実行するプログラムや必要なデータを記憶する。また、記憶部２０は、結合性が高い蛋白質と化合物との組の情報が記録された蛋白質ＤＢ（Ｄａｔａｂａｓｅ）を記憶していてもよい。

【0029】

出力部３１は、生成された化合物の化学構造等を出力するためのデバイスである。例えば、出力部３１は、液晶ディスプレイや有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイである。ただし、化合物生成装置１００は、出力部３１としてこれらディスプレイを備えてもよいし、外部のディスプレイを接続するためのインタフェースとしての出力部３１を備えてもよい。化合物生成装置１００は、インタフェースとしての出力部３１を備える場合は、出力部３１を介して接続した外部のディスプレイに化学構造等を表示する。

【0030】

操作入力部３２は、化合物生成装置１００に対するユーザの操作入力を受け付けるデバイスであり、例えば、キーボード、マウス、タッチパネル等である。化合物生成装置１００は、操作入力部３２を介して、ユーザからの指示等を受け付ける。

【0031】

通信部３３は、外部の他の装置（例えば、蛋白質ＤＢが格納されているサーバ等）とデータの送受信を行うためのデバイス（ネットワークインタフェース等）である。化合物生成装置１００は、通信部３３を介して様々なデータを取得することができる。

【0032】

なお、蛋白質ＤＢは、様々な蛋白質について、蛋白質のアミノ酸配列、当該蛋白質に対する活性化合物、その活性値データ等の情報が記録されているＤＢである。本実施形態においては、蛋白質ＤＢは、外部のサーバか、記憶部２０に記憶されているものとする。制御部１０は、通信部３３を介して外部のサーバにアクセスするか、記憶部２０を参照することによって、蛋白質ＤＢに記録されている情報を取得することができる。

【0033】

このような蛋白質ＤＢの例としては、例えば、ＣｈＥＭＢＬで提供されているＧＰＣＲ（Ｇｐｒｏｔｅｉｎ－ｃｏｕｐｌｅｄｒｅｃｅｐｔｏｒ）ファミリーに特化した活性化合物と活性値データとを含むＤＢであるＧＰＣＲＳＡＲｆａｒｉが挙げられる。蛋白質は、蛋白質ファミリーという、進化上の共通祖先に由来すると推定される蛋白質をまとめたグループに分類できるが、ＧＰＣＲファミリーは、８００種類以上の蛋白質を含む最大の蛋白質ファミリーである。

【0034】

なお、薬剤の標的となる蛋白質に対する活性化合物であって、その活性値が所定の基準値を超えるものを、当該蛋白質と結合性が高い化合物というものとする。

【0035】

次に、制御部１０の機能について説明する。制御部１０は、記憶部２０に記憶されているプログラムを実行することにより、蛋白質情報取得部１１、化合物情報取得部１２、化合物生成部１３、学習部１４の機能を実現する。

【0036】

蛋白質情報取得部１１は、標的となる蛋白質の情報である蛋白質情報を取得する。具体的には、蛋白質情報取得部１１は、後述するように、蛋白質ＤＢから当該蛋白質の情報に含まれるアミノ酸配列を取得し、アミノ酸配列の分散表現を取得する。蛋白質情報取得部１１は、蛋白質情報取得手段として機能する。なお、分散表現とは、データ（例えば、単語、文章等）を複数（分散次元数）の数値により分散した形で表現したものである。本実施形態では、アミノ酸配列の分散表現として、２０次元のベクトルを用いている。ただし、この分散次元数は一例に過ぎず、より高次元（例えば３０次元）の分散表現を用いてもよいし、より低次元（例えば１０次元）の分散表現を用いてもよい。

【0037】

化合物情報取得部１２は、標的となる蛋白質との結合性が高い化合物の化学構造の情報である化合物情報を取得する。具体的には、化合物情報取得部１２は、後述するように、蛋白質ＤＢから所定の活性化合物の化学構造を取得し、取得した化学構造をＳＭＩＬＥＳ（ＳｉｍｐｌｉｆｉｅｄＭｏｌｅｃｕｌａｒＩｎｐｕｔＬｉｎｅＥｎｔｒｙＳｙｓｔｅｍ）記法で表現した文字列（ＳＭＩＬＥＳ表現）に変換する。そして、さらに化合物情報取得部１２は、この文字列を構成する各文字を埋め込み辞書を用いてランダムな値を持つ埋め込みベクトルに変換し、この文字列の文字数分の埋め込みベクトルからなる行列を取得する。化合物情報取得部１２は、化合物情報取得手段として機能する。

【0038】

化合物生成部１３は、エンコーダとデコーダとを含む条件付き変分自己符号化器（ＣＶＡＥ）を備える。そして、このＣＶＡＥは、蛋白質情報取得部１１が取得した蛋白質情報（分散表現）と、化合物情報取得部１２が取得した化合物情報（ＳＭＩＬＥＳ表現から得られた行列）と、をエンコーダに入力すると、デコーダから化合物情報（行列）が出力されるように学習部１４で学習される。

【0039】

上記のＣＶＡＥを実現するプログラムを制御部１０が実行することにより、制御部１０は化合物生成部１３として機能する。学習部１４により学習されたＣＶＡＥのデコーダは、後述するように、蛋白質情報取得部１１が取得した標的蛋白質の蛋白質情報（標的となる蛋白質のアミノ酸配列の分散表現）を条件変数として入力するとともに、ランダムノイズを用いてサンプリングした潜在変数を入力すると、標的蛋白質との結合性が高い化合物の化学構造を表現する文字に対応する１－ｈｏｔ－ｖｅｃｔｏｒを出力する。そして、この１－ｈｏｔ－ｖｅｃｔｏｒを、その１－ｈｏｔ－ｖｅｃｔｏｒが表す文字とみなすことにより、化合物生成部１３は、ＳＭＩＬＥＳ記法により表現された、標的蛋白質との結合性が高い化合物の化学構造を生成する。化合物生成部１３は、化合物生成手段として機能する。

【0040】

学習部１４は、蛋白質ＤＢに記録されている、結合性が高い蛋白質と化合物との組（ペア）による学習データを多数集めた学習データセットを用いて化合物生成部１３が備えるＣＶＡＥを機械学習させる。学習部１４は、学習手段として機能する。

【0041】

以上、化合物生成装置１００の機能構成について説明した。次に、蛋白質情報取得部１１が取得するアミノ酸配列の分散表現について説明する。蛋白質は、アミノ酸が鎖状に連結した一次構造を持ち、この一次構造はアミノ酸配列で表すことができる。また、蛋白質を構成するアミノ酸は、２０種類の標準アミノ酸を含めて２２種類あり、これらの各アミノ酸を１文字で一意に表すことができる１文字表記が定義されている。例えばアミノ酸の一種であるグリシン、アラニン、チロシン、それぞれの１文字表記はＧ、Ａ、Ｙである。したがって、１文字表記で表したアミノ酸の配列を用いることで、蛋白質の構造を、連結したアミノ酸の数を文字数とする文字列として表記することができる。

【0042】

文章の分散表現を求める手法として、いわゆるＤｏｃ２ｖｅｃが知られているが、本実施形態では、アミノ酸配列をＤｏｃ２ｖｅｃで分散表現に変換する。このため、まず、アミノ酸配列をｎ文字ずつ分割して、このｎ文字を１つのワードとして扱うｎ－ｇｒａｍ表現を用いて、アミノ酸配列を文章として扱えるようにする。また、その際、分割位置がずれることによる影響を減らすために、分割位置を１文字ずつずらしてｎ個のリストを作成し、それぞれについて分散表現を取得し、それらの平均値を当該アミノ酸配列の分散表現とする。

【0043】

例えば、標的となる蛋白質のアミノ酸配列が「ＰＧＱＹＳＡＧＡＶＡＧＬＡＡＶＶＧＦＬＩＶＦ」である場合を例に説明する。この場合、アミノ酸配列を３－ｇｒａｍで表現すると、以下の３つの３－ｇｒａｍリストが得られる。（末尾の３文字に満たない部分は切り捨てる。）
リスト１：ＰＧＱＹＳＡＧＡＶＡＧＬＡＡＶＶＧＦＬＩＶ
リスト２：ＧＱＹＳＡＧＡＶＡＧＬＡＡＶＶＧＦＬＩＶＦ
リスト３：ＱＹＳＡＧＡＶＡＧＬＡＡＶＶＧＦＬＩ

【0044】

上記リスト中の「ＰＧＱ」、「ＹＳＡ」等がＤｏｃ２ｖｅｃにおいて、それぞれ１つのワードとして扱われる。Ｄｏｃ２ｖｅｃには、ＰＶ－ＤＭ（ＤｉｓｔｒｉｂｕｔｅｄＭｅｍｏｒｙＭｏｄｅｌｏｆＰａｒａｇｒａｐｈＶｅｃｔｏｒｓ）及びＰＶ－ＤＢＯＷ（ＤｉｓｔｒｉｂｕｔｅｄＢａｇｏｆＷｏｒｄｓｖｅｒｓｉｏｎｏｆＰａｒａｇｒａｐｈＶｅｃｔｏｒ）の２種類の方法が存在するが、アミノ酸配列が上記のリスト１だった場合を例に説明する。

【0045】

ＰＶ－ＤＭは、図３（ａ）に示すように、所定のサイズ（例えば４ワード）の窓をスライドさせながら、リスト１の窓内のワードのベクトルとリスト１の分散表現とをニューラルネットワークに入力すると窓の直後のワードのベクトルが出力されるように当該ニューラルネットワークを学習させるタスクを、窓の位置をリスト１の最初の位置から最後の位置まで繰り返すことによって、当該リスト１を最もよく表す分散表現が学習されるというモデルである。

【0046】

また、ＰＶ－ＤＢＯＷは、図３（ｂ）に示すように、所定のサイズ（例えば５ワード）の窓をスライドさせながら、リスト１の分散表現をニューラルネットワークに入力すると窓内に入るワードのベクトルが出力されるように当該ニューラルネットワークを学習させるタスクを、窓の位置をリスト１の最初の位置から最後の位置まで繰り返すことによって、当該リスト１を最もよく表す分散表現が学習されるというモデルである。

【0047】

この２種類の方法を比較すると、ＰＶ－ＤＭでは、ワードのベクトルと、ニューラルネットワークのｓｏｆｔｍａｘ関数における重みと、の両方を保持する必要があるのに対し、ＰＶ－ＤＢＯＷでは、ニューラルネットワークのｓｏｆｔｍａｘ関数における重みのみ保持すればよいので、ＰＶ－ＤＢＯＷは保持が必要なデータ量が少ないという特徴がある。

【0048】

なお、蛋白質（アミノ酸配列）の分散表現の学習においては、各分散表現にラベルを与える必要がある。このラベルに単純にその蛋白質のインデックス（例えば単純な番号）を割り当てる（教師なし）よりも、その蛋白質のファミリーのラベル（例えばＧＰＣＲＳＡＲｆａｒｉデータセットに存在するサブファミリー（Ｌｅｖｅｌ４）情報に基づくファミリーラベル）を割り当てる（教師あり）方が、ファミリー毎に類似した分散表現が得られることが実験で確かめられている。

【0049】

次に、化合物情報取得部１２が取得するＳＭＩＬＥＳ表現及び、埋め込みベクトルからなる行列について説明する。

【0050】

ＳＭＩＬＥＳ表現とは、分子の化学構造を１行の文字列で表記するＳＭＩＬＥＳ記法で表現した文字列である。例えば、図４に示す化合物の化学構造をＳＭＩＬＥＳ記法で表記すると「ＯＣ（＝Ｏ）ｃ１ｃｃｃｃｃ（ＯＣ＝Ｏ）ｃ１」のようになる。

【0051】

本実施形態では、このＳＭＩＬＥＳ表現を構成する各文字を、それぞれランダムな値を規定次元（例えば１００次元）の数だけ持つ埋め込みベクトルに変換する。図４に示す例では、「Ｏ」は、（０．０２３，－０．０９４，０．０１３，－０．０７８，…）で表される１００次元の埋め込みベクトルに変換されている。埋め込みベクトルの各要素はランダム値であるが、各文字と一対一対応するように埋め込み辞書が生成される。また、埋め込み辞書は制御部１０で生成され、記憶部２０に記憶される。図４に示す例では埋め込みベクトルの次元数（規定次元数）を１００次元としているが、規定次元数は任意である。

【0052】

図４には示されていないが、ＳＭＩＬＥＳ記法には複数の文字列によって１つの官能基が表される場合があり、この場合、この複数の文字列をまとめて１文字として扱い、１つの埋め込みベクトルを対応させる。このような複数の文字列の例として、角括弧でくくられて表記される［Ｃ＠＠Ｈ］、［Ｃ＠Ｈ］等が挙げられる。本実施形態では、このような官能基や、後述するパディング文字「＄」も、それぞれ１つの文字として数えた場合、４３種類の文字でＳＭＩＬＥＳ記法による文字列を表現する。なお、この文字種の数（４３種類）は一例に過ぎず、より多い文字種や少ない文字種で、ＳＭＩＬＥＳ記法により、化合物の化学構造を表すことにしてもよい。

【0053】

また、本実施形態では、化合物をＳＭＩＬＥＳ記法で表した時の文字列の最大長（規定文字数）を８０文字としている。ＧＰＣＲＳＡＲｆａｒｉデータセット中の各化合物のＳＭＩＬＥＳ表現の長さの分布を調べると、ほとんどが８０文字以下であるため、規定文字数を８０文字に設定してもあまり問題は生じないと考えられる。しかし、この規定文字数は８０文字に限定されず、より長い文字数に設定することも可能である。なお、化合物をＳＭＩＬＥＳ記法で表現した時の文字列の長さが規定文字数未満である場合は、規定文字数になるまで末尾にパディング文字として「＄」が追加することとする。

【0054】

したがって、本実施形態で扱う全てのＳＭＩＬＥＳ表現は、図４に示すように、１００次元（規定次元数）の埋め込みベクトルが８０（規定文字数）個並んだ１００×８０の行列で表される。そして、化合物情報取得部１２は、標的となる蛋白質との結合性が高い化合物の化学構造の情報として、このような行列を取得する。

【0055】

次に、化合物生成部１３が備えるＣＶＡＥについて説明するが、その前に、まずは単純な自己符号化器（ＡＥ：Ａｕｔｏ－Ｅｎｃｏｄｅｒ）から順を追って説明する。

【0056】

ＡＥとは、図５に示すように、入力データを潜在変数に変換するエンコーダと、潜在変数が入力されるデコーダとを備え、エンコーダに入力されたデータに似たデータがデコーダから出力されるように機械学習されるものである。

【0057】

また、図６に示すように、潜在変数に確率分布を用いたものを変分自己符号化器（ＶＡＥ：ＶａｒｉａｔｉｏｎａｌＡｕｔｏ－Ｅｎｃｏｄｅｒ）という。ＶＡＥでは、エンコーダを用いて潜在変数のμ（平均ベクトル）とσ（分散ベクトル）を求め、これらに基づき、多変量ガウス分布から潜在変数となるベクトルｚをｚ～Ｎ（μ，σ）としてサンプリングする。ただし、潜在変数ｚを直接サンプリングすると誤差の逆伝播ができないため、ＶＡＥの学習時には、以下の式（１）のように、ランダムノイズεを導入して潜在変数ｚを求める（この手法をＲｅｐａｒａｍｅｔｅｒｉｚａｔｉｏｎＴｒｉｃｋという）。

【数1】

【0058】

また、図７に示すように、ＶＡＥに、さらに入力データの正解ラベルとして条件変数を加えたものを条件付き変分自己符号化器（ＣＶＡＥ）という。正解ラベルも入力された上で学習が行われるため、通常のＶＡＥと比較すると、正解ラベルに応じた値を出力しやすくなるという特徴がある。本実施形態に係るＣＶＡＥのエンコーダとデコーダは、図８に示すように、両方とも５００ユニットのＬＳＴＭ（Ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ）が４層結合した４－ｌａｙｅｒ－ＬＳＴＭを含んで構成される。そして、エンコーダは、入力された化合物のＳＭＩＬＥＳ表現（本実施形態ではＳＭＩＬＥＳ表現を規定文字数個の埋め込みベクトルに変換したもの）を潜在変数に変換し、潜在変数が入力されたデコーダは、化合物のＳＭＩＬＥＳ表現を出力する。なお、ＬＳＴＭのユニット数（５００）やｌａｙｅｒ数（４）は一例に過ぎない。例えば１０００ユニットのＬＳＴＭを６層結合したもの等、異なるユニット数やｌａｙｅｒ数のＬＳＴＭを用いてＣＶＡＥを構成してもよい。

【0059】

ＬＳＴＭは、ニューラルネットワークの中間層ユニットにおいて出力を入力に戻すことによって時系列データを扱えるようにした再帰的ニューラルネットワーク（ＲＮＮ：ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）を改良したモデルである。ＲＮＮは時系列データを扱えることから、例えば、文字列が途中まで与えられたときに、次に来る文字を予測するような処理を行うことができる。したがって、化合物のＳＭＩＬＥＳ表現のように文字の前後の関係のルールが存在する文字列を扱うのに適している。しかし、ある程度（例えば１０ステップ）以上長い時系列データを扱えるようにしたＲＮＮにおいては、ＲＮＮを学習する際に用いる誤差逆伝播法において、勾配が指数関数的に消失（又は発散）し、逆伝播計算ができなくなるため、長期的な記憶は期待できないという長期依存性問題が存在する。

【0060】

ＬＳＴＭは、このようなＲＮＮの問題を解決するために、ＲＮＮの中間層ユニットの代わりに、ＬＳＴＭブロックを導入したモデルである。ＬＳＴＭブロックは、図９に示すように、内部状態を記憶するメモリセルユニットａ、外部からの入力を受け取るユニットｂ、出力に関与するユニットｅ、入力ゲートの値を調整するユニットｃ、出力ゲートの値を調整するユニットｄ、忘却ゲートの値を調整するユニットｆから構成されている。メモリセルユニットａは内部状態としてｓ^ｔを保持し、それを次の時刻（ｔ＋１）の自分自身に帰還させることによって記憶を行う。内部状態の帰還は忘却ゲートによって制御されるが、ユニットｆの出力値によって、１つ前の内部状態ｓ^ｔ－１をどの程度引き継ぐか（逆に言えば、どの程度忘却させるか）を決める。また、メモリセルユニットａはユニットｂを通して、外部からの入力値を取得するが、この入力値をどの程度メモリセルユニットａに反映させるかをユニットｃが制御する。そして、メモリセルユニットａの値はユニットｅを通して出力されるが、この値をどの程度出力させるかをユニットｄが制御する。ＬＳＴＭでは、これらにより長期依存性問題が解決され、１０００ステップ以上の記憶を可能にしている。

【0061】

なお、図９において、Ｒは各ユニットの再帰重みを、Ｗは入力重みを、ｓ^ｔは時刻ｔにおける内部状態を、ｘ^ｔは時刻ｔにおけるＬＳＴＭブロックへの入力値を、ｙ^ｔは時刻ｔにおけるＬＳＴＭブロックからの出力値を、それぞれ表している。また、各ユニットａ，ｂ，ｃ，ｄ，ｅ，ｆはそれぞれ５００次元のユニットで構成されており、５００次元の値を持つ。本実施形態に係るＣＶＡＥのエンコーダとデコーダは、図１０に示すように、このようなＬＳＴＭブロックが４層結合し、各層のＬＳＴＭブロックの出力が次の層のＬＳＴＭブロックに入力される構成になっている。図１０では、時刻ｔ＝１からｔ＝ｎまで、内部状態を帰還させながら、各時刻において外部からの入力と外部への出力があることが示されている。

【0062】

本実施形態では化合物の化学構造は、図８に示すように、ＳＭＩＬＥＳ記法で表現した各文字列を埋め込みベクトルに変換することにより、１００次元（規定次元数）の埋め込みベクトルが８０（規定文字数）集まった８０×１００の行列として表される。この行列をＬＳＴＭによるエンコーダに入力する際は、埋め込みベクトル（１００次元）にアミノ酸配列の分散表現（２０次元）を結合して１２０次元（規定次元数＋分散次元数の次元数）にした結合ベクトル（第１結合ベクトル）を各時刻（ステップ）で１つずつ入力し、８０ステップ（規定文字数ステップ）に分けてエンコーダへの入力が行われる。

【0063】

エンコーダの１層目のＬＳＴＭブロックのユニットｂには、ステップ毎に、このように１２０次元の値（ｘ^１）が入力されるが、図１１に示すように、外部からの１２０次元の入力ｘ^１は、（１２０，５００）の重み行列Ｗ_ｉｎにより５００次元の値Ｗ_ｉｎ・ｘ^１になる。また、１つ前の時刻の５００次元の出力ｙ^ｔ－１は、（５００，５００）の重み行列Ｒ_ｉｎによって５００次元の値Ｒ_ｉｎ・ｙ^ｔ－１になる。そして、Ｗ_ｉｎ・ｘ^１とＲ_ｉｎ・ｙ^ｔ－１とが合わさったものがＬＳＴＭブロックのユニットｂの出力となる。ＬＳＴＭブロックの他のユニットについてもこのように、入力ｘ^ｔに入力重み行列Ｗを掛けたもの、１つ前の時刻の出力ｙ^ｔ－１に再帰重み行列Ｒを掛けたもの、内部状態ｓ、に基づいて値が定まる。

【0064】

そして、８０ステップの入力が終わったときの４層目のＬＳＴＭブロックの内部状態（メモリセルユニットａ（５００次元）の値）は、当該化合物の化学構造の特徴（抽象的な表現）として扱われ、図８に示すように、この内部状態を全結合層に通すことにより、１００次元の潜在変数ｚをサンプリングするための平均μ及び分散σ（それぞれ１００次元）が取得される。なお、図８に示されている埋め込みベクトルの各要素の数値や分散表現の各要素の数値は単なる一例である。

【0065】

また、化合物を生成する際は、図８に示すように、ＬＳＴＭによるエンコーダで得られた平均μ及び分散σに基づき、上述の式（１）により、潜在変数ｚ（ここでは１００次元（規定次元数）とする）を算出し、標的となる蛋白質のアミノ酸配列の分散表現（２０次元）と結合した１２０次元（規定次元数＋分散次元数の次元数）の結合ベクトル（第２結合ベクトル）をＬＳＴＭによるデコーダに入力する処理を８０回（規定文字数ステップ）繰り返す。

【0066】

すると、ＬＳＴＭによるデコーダの４層目のＬＳＴＭブロックからは、１ステップごとに５００次元（ＬＳＴＭブロックのユニット数次元）のベクトルが出力される。このベクトルは、全結合層とｓｏｆｔｍａｘ関数によるＳＭＩＬＥＳ変換用全結合層により、ＳＭＩＬＥＳ表現における各文字を表現する４３次元の１－ｈｏｔ－ｖｅｃｔｏｒに変換される。そして、１ステップごとに得られる１－ｈｏｔ－ｖｅｃｔｏｒを、その１－ｈｏｔ－ｖｅｃｔｏｒが表現している文字とみなすことにより、規定文字数（８０）ステップで、８０文字（上述した官能基１つも１文字とみなした場合）が得られる。そして、この８０文字（規定文字数）により、化合物生成装置１００により生成された化合物のＳＭＩＬＥＳ記法による化学構造が表される。

【0067】

次に、化合物生成装置１００の学習処理について、図１２を参照して説明する。学習処理は、操作入力部３２を介して、ユーザにより、化合物生成装置１００に対して学習処理の開始が指示されると開始される。

【0068】

まず、制御部１０は、蛋白質ＤＢに登録されている蛋白質の中から、学習データとして用いたい蛋白質（標的とする蛋白質）を任意の数抽出し、それぞれについて当該蛋白質との結合性が高い化合物を抽出することにより、結合性が高い蛋白質と化合物との組からなる学習データを多数抽出して、学習データセットを準備する（ステップＳ１０１）。

【0069】

次に、制御部１０は、ステップＳ１０１で準備された学習データセットから学習データ（結合性が高い蛋白質と化合物の組）を１つ取り出す（ステップＳ１０２）。

【0070】

次に、蛋白質情報取得部１１は、ステップＳ１０２で取り出した蛋白質のアミノ酸配列の分散表現を取得する（ステップＳ１０３）。具体的には、上述したように、アミノ酸配列を３－ｇｒａｍ表現で表し、Ｄｏｃ２ｖｅｃで分散表現を生成する。ステップＳ１０３は、蛋白質情報取得ステップと呼ばれる。

【0071】

次に、化合物情報取得部１２は、ステップＳ１０２で取り出した化合物の行列を取得する（ステップＳ１０４）。具体的には、上述したように、化合物の化学構造をＳＭＩＬＥＳ記法で表して８０文字（規定文字数）に揃え、各文字（官能基）を、ランダム値を持つ規定次元数の埋め込みベクトルに変換することによって、規定文字数×規定次元数（８０×１００）の行列を取得する。ステップＳ１０４は化合物情報取得ステップと呼ばれる。

【0072】

次に、学習部１４は、化合物生成部１３が備えるＣＶＡＥ（エンコーダ及びデコーダを構成するＬＳＴＭ及び全結合層）を学習させる（ステップＳ１０５）。ステップＳ１０５は学習ステップと呼ばれる。具体的には、図８に示すように、まず、ステップＳ１０４で取得した行列を構成する規定文字数（８０）の個数の埋め込みベクトルのそれぞれと、ステップＳ１０３で取得した分散表現のベクトルと、を結合した規定文字数（８０）の個数のベクトル（第１結合ベクトル）を、１つずつ、規定文字数の回数のステップ（８０ステップ）に分けてＣＶＡＥのエンコーダに入力し、エンコーダから潜在変数をサンプリングするための平均μと分散σを取得する。そして、取得した平均μと分散σを用いて、上述の式（１）を用いて潜在変数をサンプリングする。

【0073】

そして、この潜在変数とステップＳ１０３で取得した分散表現とを結合させたベクトル（第２結合ベクトル）をＣＶＡＥのデコーダに入力すると、４層目のＬＳＴＭブロックの出力値としてＬＳＴＭのユニット数次元（５００次元）のベクトルが得られるが、ＣＶＡＥのデコーダへのこの第２結合ベクトルの入力を規定文字数（８０）回繰り返すことにより、規定文字数（８０）個の出力値（ＬＳＴＭのユニット数次元（５００次元）のベクトル）が得られる。この各ベクトル（５００次元）は、ＳＭＩＬＥＳ変換用全結合層により、ＳＭＩＬＥＳ表現における各文字を表現する１－ｈｏｔ－ｖｅｃｔｏｒに変換され、全部で（上述した官能基１つも１文字とみなした場合）規定文字数（８０文字）の文字列が得られ、これが化合物生成部１３によって再現された化合物の情報（再現化合物情報）となる。

【0074】

この文字列（再現化合物情報）が、エンコーダに入力された分散表現で表現されたアミノ酸配列のＳＭＩＬＥＳ表現に近づくように、学習部１４は、両者の誤差に基づいて誤差逆伝播法により、ＣＶＡＥ（エンコーダ及びデコーダを構成するＬＳＴＭ及び全結合層）を学習させる。

【0075】

次に、制御部１０は、化合物生成部１３が備えるＣＶＡＥの学習を終了させるか否かを判定する（ステップＳ１０６）。例えば、ステップＳ１０１で用意した学習データセットに含まれる学習データを全て取り出して学習させたらＣＶＡＥの学習を終了させることにしてもよい。

【0076】

ＣＶＡＥの学習を終了させないなら（ステップＳ１０６；Ｎｏ）、ステップＳ１０２に戻る。ＣＶＡＥの学習を終了させるなら（ステップＳ１０６；Ｙｅｓ）、制御部１０は、学習処理を終了する。

【0077】

次に、学習処理によって学習された化合物生成装置１００により、化合物を生成する生成処理について、図１３を参照して説明する。生成処理は、操作入力部３２を介して、ユーザにより、化合物生成装置１００に対して生成処理の開始が指示されると開始される。

【0078】

まず、制御部１０は、操作入力部３２を介して、ユーザから標的となる蛋白質を取得する（ステップＳ２０１）。

【0079】

次に、蛋白質情報取得部１１は、ステップＳ２０１で取得した蛋白質のアミノ酸配列の分散表現を取得する（ステップＳ２０２）。具体的には、上述したように、アミノ酸配列を３－ｇｒａｍ表現で表し、Ｄｏｃ２ｖｅｃで分散表現を生成する。ステップＳ２０２も、蛋白質情報取得ステップと呼ばれる。

【0080】

次に、化合物生成部１３は、ＣＶＡＥのデコーダに、ステップＳ２０２で取得した分散表現と、ランダムノイズεから生成される潜在変数と、を入力して化合物の化学構造を生成する（ステップＳ２０３）。ステップＳ２０３は、化合物生成ステップと呼ばれる。具体的には、化合物生成部１３は、まず、ランダムノイズεから生成される潜在変数（例えば平均μ＝０、分散σ＝１で表される標準正規分布にランダムノイズεを適用して上述の式（１）で求めた潜在変数ｚ）と、ステップＳ２０２で取得した分散表現と、を結合したベクトル（第３結合ベクトル）をＣＶＡＥのデコーダに入力することを規定文字数（８０）回繰り返すことにより、規定文字数（８０）個の出力値（ＬＳＴＭのユニット数次元（５００次元）のベクトル）を得る。

【0081】

そして、化合物生成部１３は、この各ベクトル（５００次元）を、ＳＭＩＬＥＳ変換用全結合層により、ＳＭＩＬＥＳ表現における各文字を表現する１－ｈｏｔ－ｖｅｃｔｏｒに変換する。これにより、化合物生成部１３は、規定文字数（８０文字）の文字列（化合物の化学構造を表すＳＭＩＬＥＳ表現）を、生成化合物として生成する。なお、ＳＭＩＬＥＳ表現として生成した文字列の途中でパディング文字「＄」が出現した場合は、化合物生成部１３は、パディング文字「＄」以降の文字を無視し、「＄」より前の部分の文字列を生成化合物として扱う。

【0082】

そして、制御部１０は、ステップＳ２０３で生成された生成化合物（ＳＭＩＬＥＳ記法で表現された化学構造）を出力部３１に出力する（ステップＳ２０４）。なお、ステップＳ２０３で生成された生成化合物の中には、学習データ中に存在する化合物（学習化合物）と同一のもの、以前出力された化合物と重複するもの、ＳＭＩＬＥＳ表現として無効なもの等も含まれるので、それらが生成されていた場合は、制御部１０は出力部３１にそのような生成化合物を出力しなくてもよい。

【0083】

次に、制御部１０は、化合物の生成を終了させるか否かを判定する（ステップＳ２０５）。例えば、ユーザから操作入力部３２を介して、化合物の生成を終了する指示を受けたら、化合物の生成を終了させる。

【0084】

化合物の生成を終了させないなら（ステップＳ２０５；Ｎｏ）、ステップＳ２０３に戻る。化合物の生成を終了させるなら（ステップＳ２０５；Ｙｅｓ）、制御部１０は、生成処理を終了する。

【0085】

以上説明した学習処理（図１２）及び生成処理（図１３）により、化合物生成装置１００は、標的となる蛋白質との結合性が高い化合物を生成することができる。また、化合物生成部１３は、ＬＳＴＭによるデコーダを備えるので、時系列データを扱うことができ、学習時にはＳＭＩＬＥＳ記法による文字列の順序関係も学習される。このため、化合物生成部１３のデコーダは、通常のニューラルネットワークを利用したデコーダよりも、ＳＭＩＬＥＳ表現としてより正しいものを生成することができる。

【0086】

次に化合物生成装置１００の評価指標として、分散表現を取得する際に用いたＤｏｃ２ｖｅｃモデルの評価指標について説明する。Ｄｏｃ２ｖｅｃで取得される分散表現が、アミノ酸配列の特徴をよく表しているかどうかを直接的に評価するのは難しい。そこで、この評価には、ｋ近傍法による分類タスクを用いた。

【0087】

ｋ近傍法は、分類の手法であり、あるオブジェクトを、その近傍のｋ個のオブジェクトを用いて投票し、最も多くの投票数を獲得したクラスのラベルを該当オブジェクトのラベルとする手法である。ＧＰＣＲＳＡＲｆａｒｉデータセットには、各蛋白質のサブファミリー（Ｌｅｖｅｌ４）、ファミリー（Ｌｅｖｅｌ３）、スーパーファミリ（Ｌｅｖｅｌ２）情報が存在するため、それらをラベルとし、ｋ近傍法を用いた時の予測精度により、分散表現を生成する各Ｄｏｃ２ｖｅｃモデルを評価した。

【0088】

分散表現を生成するＤｏｃ２ｖｅｃのモデルは、まずＰＶ－ＤＭとＰＶ－ＤＢＯＷの２種類に分けられるが、それぞれ、分散表現のラベルに蛋白質のインデックスを割り当てるか、蛋白質ファミリーのラベルを割り当てるかにより、教師なしと教師ありに分けられる。また、分散表現を生成するモデルの性能はｇｒａｍサイズ（ｎ－ｇｒａｍにおけるｎの値）にも依存するので、ｎを様々な値に変更して上述のｋ近傍法による予測精度を求める実験を行った。

【0089】

その結果、ｇｒａｍサイズが１だと、上述のいずれのモデルにおいても予測精度が４０％以下と非常に低くなった。教師ありの場合、ｇｒａｍサイズが３と４のところでピークに達しており、１００％近い予測精度が得られた。教師なしの場合、ＰＶ－ＤＢＯＷモデルではｇｒａｍサイズが３から５のところでピーク（約８５％）になり、ＰＶ－ＤＭモデルではｇｒａｍサイズが５と６でピーク（約８０％）に達した。ｇｒａｍサイズが小さい方が計算量は小さくて済むため、Ｄｏｃ２ｖｅｃのモデルとしては、教師ありのモデルを用い、ｇｒａｍサイズとして３を採用するのが望ましいと考えられる。

【0090】

また、生成された化合物と標的蛋白質との結合性の評価指標については、基本的には、標的蛋白質との結合性の高い既知の化合物と、生成された化合物と、の類似度の高さを評価指標とした。具体的には、生成された化合物と、学習データの各蛋白質との結合性が高い化合物（学習化合物）と、の類似度（例えば、各化合物のＥＣＦＰ（Ｅｘｔｅｎｄｅｄ－ＣｏｎｎｅｃｔｉｖｉｔｙＦｉｎｇｅｒＰｒｉｎｔｓ）４フィンガープリントを用いて求めたＴａｎｉｍｏｔｏ係数）を当該蛋白質と結合性の高い全ての学習化合物について求め、求められた類似度の中で最も高い値を、当該蛋白質との結合性の評価指標とした。

【0091】

また、生成化合物の多様性の評価指標として、サブファミリー毎に内部多様性を求め、全サブファミリーに対して平均値を計算し、Ｔａｎｉｍｏｔｏ距離を計算した。なぜなら、サブファミリー内の蛋白質に対応する活性化合物は類似度が高い（つまり多様性が低い）構造を持っているにも関わらず、サブファミリーを無視して類似度を計算すると、この特徴が無視され、実際よりも多様性が高く見えてしまうからである。すなわち、多様性の評価指標として、以下の式（２）で算出されるＴａｎｉｍｏｔｏ距離を用いた。ただし、Ｓは学習データ中のサブファミリーの数、Ｎ_ｋはｋ番目のサブファミリーに対応する生成化合物の数、Ｔ（ｘ，ｙ）は化合物ｘと化合物ｙのＴａｎｉｍｏｔｏ係数、ｉ及びｊはｋ番目のサブファミリーに対応する生成化合物全体の中での化合物のインデックスである。

【数2】

【0092】

実際に実験した結果を以下に示す。この実験では、蛋白質ＤＢとしてＧＰＣＲＳＡＲｆａｒｉを用いた。また、学習データセットとしては、以下のようなフィルタリング条件に適合するデータをＧＰＣＲＳＡＲｆａｒｉから抽出して用いた。
整合性：蛋白質‐化合物ペアの情報欠落がない
アッセイタイプ：ＢｉｎｄｉｎｇとＦｕｎｃｔｉｏｎａｌのみ
活性値：（ＩＣ_５０，ＥＣ_５０，Ｋｉ）≦１０μＭ
（ｌｏｇＩＣ_５０，ｌｏｇＥＣ_５０，ｌｏｇＫｉ）≧５
（Ｉｎｈｉｂｉｔｉｏｎ，Ａｃｔｉｖｉｔｙ）≧５０％
出現頻度：すべてのＳＭＩＬＥＳ記号が１００回以上出現
ＳＭＩＬＥＳの長さ：８０以下
分子量：５００以下

【0093】

化合物生成装置１００による、Ｄｏｃ２ｖｅｃのモデル毎の化合物生成の結果を、表１に示す。ただし、Ｄｏｃ２ｖｅｃモデルの「ｓｕｐ」は「教師あり（ｓｕｐｅｒｖｉｓｅｄ）」を示しており、分散表現の学習の際にラベルとしてｌｅｖｅｌ４サブファミリーを与えたモデルである。また、表中の数値は、生成された化合物のうち、学習化合物と同一の化合物、重複する化合物、無効な化合物（あり得ない化学構造等）を除去した後の結果である。

【0094】

また、表１の各項目の意味は以下のとおりである。
最も類似：全ての学習化合物のそれぞれと標的蛋白質に対して生成した化合物との類似度の中で、生成した化合物と最も類似度の高い学習化合物が、標的蛋白質に対する学習化合物である割合。
Ｔｏｐ５：標的蛋白質に対して生成した化合物を、全蛋白質毎の学習化合物と比較した結果、標的蛋白質に対する学習化合物との類似度が全比較結果の上位５位までに入る割合。
ファミリーに存在：標的蛋白質に対して生成した化合物を、全蛋白質毎の学習化合物と比較した結果、生成した化合物と最も類似度の高い学習化合物が、サブファミリーが標的蛋白質と同一である蛋白質に対する学習化合物である割合。
条件なしより良い：標的蛋白質に対して生成した化合物と標的蛋白質に対する学習化合物との類似度が、全蛋白質毎の学習化合物と比較した場合の類似度の平均より高い割合。
多様性：上述の式（２）で求めた各ファミリー内の化合物同士のＴａｎｉｍｏｔｏ距離の平均値。

【0095】

【表1】

【0096】

表１を見ると、化合物生成装置１００での化合物の生成により、標的蛋白質に対する学習化合物（学習データ中の当該蛋白質との結合性が高い既存の化合物）と比較的類似した化合物が得られていることが確認できる。また、標的蛋白質との結合性が高いだけでなく、多様性に関しても比較的高い値が得られていることが確認できる。この結果から、化合物生成装置１００は、単に標的蛋白質と結合性が高い化合物を生成することができるだけでなく、標的蛋白質と結合性が高い化合物として、似たような化合物だけでなく、多様性に富んだ様々な化合物を生成することができることがわかる。なお、本実施形態では、標的蛋白質の例としてＧＰＣＲファミリーを用いたが、標的蛋白質はＧＰＣＲファミリーに限定されない。例えば、蛋白質ＤＢとしてＧＰＣＲＳＡＲｆａｒｉ以外のものも用いることにより、本発明は、任意の標的蛋白質に適用できる。

【0097】

（変形例１）
上述の実施形態１では、化合物生成部１３は、ＬＳＴＭによるＣＶＡＥを備えるが、化合物生成部１３の備えるＣＶＡＥは、ＬＳＴＭによるものに限定されない。例えば、化合物生成部１３は、通常のニューラルネットワークによるＣＶＡＥを備えてもよい。

【0098】

この場合、化合物情報取得部１２は規定文字数（例えば８０）個の埋め込みベクトルからなる行列を取得するのではなく、ＳＭＩＬＥＳ表現のベクトル（例えばＳＭＩＬＥＳ記法で表した各文字の文字コードを要素とする規定文字数次元のベクトル）を化合物情報として取得する。そして、学習部１４は、ＳＭＩＬＥＳ表現のベクトルと標的蛋白質のアミノ酸配列の分散表現とを結合した結合ベクトル（第１結合ベクトル）を化合物生成部１３のＣＶＡＥのエンコーダに入力してＣＶＡＥを学習させる。

【0099】

また、化合物生成部１３が化合物を生成する際には、ランダムノイズから生成した潜在変数と標的蛋白質のアミノ酸配列の分散表現とを結合したベクトル（第２結合ベクトル）を１回ＣＶＡＥのデコーダに入力するだけで、当該デコーダから標的蛋白質との結合性が高い化合物のＳＭＩＬＥＳ表現のベクトルを出力することができる。

【0100】

（変形例２）
また、上述の実施形態１では、化合物生成装置１００が、学習処理と生成処理の双方を行っているが、化合物生成装置１００はこれに限定されない。例えば、化合物生成装置１００は、生成処理を行わないが、学習処理を行って化合物生成部１３を学習させる学習装置であってもよい。また、化合物生成装置１００は、学習処理を行わないが、他の化合物生成装置１００によって学習された化合物生成部１３を用いて生成処理を行う化合物生成装置であってもよい。

【0101】

（その他の変形例）
上述の実施形態では、化合物情報取得部１２は、化合物の化学構造をＳＭＩＬＥＳ記法で表現して埋め込みベクトルによる行列を取得したが、これに限られない。例えば、化合物情報取得部１２は、ＳＭＩＬＥＳ記法に代えて、他の化合物表現を用いて化学構造を表現し、その表現から埋め込みベクトルによる行列を取得してもよい。

【0102】

また、上述の実施形態では、ｎ－ｇｒａｍ表現を用いてアミノ酸配列の分散表現を求める際に、分割位置を１文字ずつずらしてｎ個のリストを作成し、それぞれについて分散表現を取得し、それらの平均値を当該アミノ酸配列の分散表現とした。しかし、平均値を取らずに、取得したｎ個の分散表現をそのまま用いてもよい。この場合、標的蛋白質にはｎ個の分散表現が存在することになるが、ｎ個の分散表現の１つ１つから、それぞれ結合性が高い化合物を生成すればよい。ただし、今までの実験では、ｋ近傍法での予測精度で評価した場合は、分散表現の平均値を用いた方がよい結果が得られることが確認できている。したがって、分散表現については平均値を用いるのが望ましい。

【0103】

また、上述の実施形態１では、ＣＶＡＥを実現するプログラムを制御部１０が実行することにより、制御部１０は化合物生成部１３として機能することとしていたが、これに限られない。化合物生成装置１００は、制御部１０とは別に（例えば、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）や、専用のＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等の）ＣＶＡＥの機能を実現するデバイスを備えてもよく、そのようなデバイスが化合物生成部１３として機能してもよい。

【0104】

なお、化合物生成装置１００の各機能は、通常のＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）等のコンピュータによっても実施することができる。具体的には、上記実施形態では、化合物生成装置１００が行う学習処理及び生成処理のプログラムが、記憶部２０のＲＯＭに予め記憶されているものとして説明した。しかし、プログラムを、フレキシブルディスク、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ＭＯ（Ｍａｇｎｅｔｏ－ＯｐｔｉｃａｌＤｉｓｃ）、メモリカード、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリ等のコンピュータ読み取り可能な記録媒体に格納して配布し、そのプログラムをコンピュータに読み込んでインストールすることにより、上述の各機能を実現することができるコンピュータを構成してもよい。

【0105】

以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲が含まれる。

【符号の説明】

【0106】

１０…制御部、１１…蛋白質情報取得部、１２…化合物情報取得部、１３…化合物生成部、１４…学習部、２０…記憶部、３１…出力部、３２…操作入力部、３３…通信部、１００…化合物生成装置

【図1】