(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022184048
(43)【公開日】2022-12-13
(54)【発明の名称】相互作用推定方法、相互作用推定装置および相互作用推定プログラム
(51)【国際特許分類】
G16B 15/00 20190101AFI20221206BHJP
G06N 20/00 20190101ALI20221206BHJP
G16B 40/00 20190101ALI20221206BHJP
【FI】
G16B15/00
G06N20/00
G16B40/00
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2021091667
(22)【出願日】2021-05-31
(71)【出願人】
【識別番号】504145342
【氏名又は名称】国立大学法人九州大学
(74)【代理人】
【識別番号】100088155
【弁理士】
【氏名又は名称】長谷川 芳樹
(74)【代理人】
【識別番号】100145012
【弁理士】
【氏名又は名称】石坂 泰紀
(74)【代理人】
【識別番号】100182914
【弁理士】
【氏名又は名称】佐々木 善紀
(72)【発明者】
【氏名】中山 敬一
(72)【発明者】
【氏名】清水 秀幸
(57)【要約】 (修正有)
【課題】タンパク質と化合物との相互作用をより簡単に準備できるデータから高い精度で推定する相互作用推定方法、相互作用推定装置および相互作用推定プログラムを提供する。
【解決手段】相互作用推定方法は、相互作用の程度が既知であるタンパク質および化合物に係る情報に基づいて、機械学習によって、当該タンパク質を記述したアミノ酸の1次元配列から導出される特徴量と、化合物を記述した1次元表現から導出される特徴量と、を用いて、タンパク質と化合物との相互作用評価モデルを準備する第1工程と、相互作用評価モデルを適用することで、相互関係が未知である、推定対象のタンパク質を記述したアミノ酸の1次元配列から特徴量を導出するとともに、推定対象の化合物を記述した1次元表現から特徴量を導出し、これらに基づいて、タンパク質と化合物との相互作用に係る特徴量を算出する第2工程と、を含む。
【選択図】
図7
【特許請求の範囲】
【請求項1】
相互作用の程度が既知であるタンパク質および化合物に係る情報に基づいて、機械学習によって、当該タンパク質を記述したアミノ酸の1次元配列から導出される特徴量と、化合物を記述した1次元表現から導出される特徴量と、を用いて、タンパク質と化合物との相互作用の程度を評価するためのモデルである相互作用評価モデルを準備する第1工程と、
前記相互作用評価モデルを適用することで、相互関係が未知である、推定対象のタンパク質を記述したアミノ酸の1次元配列から特徴量を導出するとともに、推定対象の化合物を記述した1次元表現から特徴量を導出し、これらの特徴量に基づいて、タンパク質と化合物との相互作用に係る特徴量を算出する第2工程と、を含み、
前記アミノ酸の1次元配列からの特徴量の導出と、前記化合物を記述した1次元表現からの特徴量の導出とには、互いに異なるアルゴリズムが使用される、相互作用推定方法。
【請求項2】
前記第1工程において、前記タンパク質を記述したアミノ酸の1次元配列から、互いに異なる複数種類の手法を用いて、複数の特徴量を導出するとともに、前記複数の特徴量のそれぞれと前記化合物を記述した1次元表現から導出される特徴量との関係から、前記相互作用評価モデルを準備し、
前記第2工程において、前記相互作用評価モデルを適用することで、前記推定対象のタンパク質を記述したアミノ酸の1次元配列から、前記複数の手法を用いて、複数の特徴量を導出し、前記複数の特徴量のそれぞれと前記化合物を記述した1次元表現から導出される特徴量とに基づいて、タンパク質と化合物との相互作用に係る特徴量を算出する、請求項1に記載の相互作用推定方法。
【請求項3】
前記第1工程において用いられる、相互作用の程度が既知であるタンパク質および化合物に係る情報とは、相互作用の有無を評価した実験データとは異なる情報にも基づいて、相互作用の程度が評価されている情報である、請求項1または2に記載の相互作用推定方法。
【請求項4】
前記第1工程において用いられる、相互作用の程度が既知であるタンパク質および化合物に係る情報とは、相互作用の程度が互いに異なるデータが略均等に準備されたものである、請求項1~3のいずれか一項に記載の相互作用推定方法。
【請求項5】
相互作用の程度が既知であるタンパク質および化合物に係る情報に基づいて、機械学習によって、当該タンパク質を記述したアミノ酸の1次元配列から導出される特徴量と、化合物を記述した1次元表現から導出される特徴量と、を用いて、タンパク質と化合物との相互作用の程度を評価するためのモデルである相互作用評価モデルを準備するモデル準備部と、
前記相互作用評価モデルを適用することで、相互関係が未知である、推定対象のタンパク質を記述したアミノ酸の1次元配列から特徴量を導出するとともに、推定対象の化合物を記述した1次元表現から特徴量を導出し、これらの特徴量に基づいて、タンパク質と化合物との相互作用に係る特徴量を算出する相互作用特徴量算出部と、を含み、
前記アミノ酸の1次元配列からの特徴量の導出と、前記化合物を記述した1次元表現からの特徴量の導出とには、互いに異なるアルゴリズムが使用される、相互作用推定装置。
【請求項6】
タンパク質と化合物との相互作用を推定する相互作用推定装置としてコンピュータを機能させるための相互作用推定プログラムであって、
相互作用の程度が既知であるタンパク質および化合物に係る情報に基づいて、機械学習によって、当該タンパク質を記述したアミノ酸の1次元配列から導出される特徴量と、化合物を記述した1次元表現から導出される特徴量と、を用いて、タンパク質と化合物との相互作用の程度を評価するためのモデルである相互作用評価モデルを準備するモデル準備機能と、
前記相互作用評価モデルを適用することで、相互関係が未知である、推定対象のタンパク質を記述したアミノ酸の1次元配列から特徴量を導出するとともに、推定対象の化合物を記述した1次元表現から特徴量を導出し、これらの特徴量に基づいて、タンパク質と化合物との相互作用に係る特徴量を算出する相互作用特徴量算出機能と、
を含み、
前記アミノ酸の1次元配列からの特徴量の導出と、前記化合物を記述した1次元表現からの特徴量の導出とには、互いに異なるアルゴリズムが使用される、相互作用推定プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、相互作用推定方法、相互作用推定装置および相互作用推定プログラムに関する。
【背景技術】
【0002】
タンパク質と化合物との相互作用を予測する方法として、特許文献1には、第1の相互作用をする第1のタンパク質と化合物のペア及び第2の相互作用をする第2のタンパク質と化合物のペアに対して、第1のペアが属するクラス及び第2のペアが属するクラスを識別するパターン認識器に係る技術が記載されている。特許文献1では、各化合物について得られたマススペクトルデータの少なくとも1つの因子をベクトル化し、タンパク質のベクトルと結合させてサポートベクターマシン(SVM)を適用して学習させる構成が示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1の手法では、化合物のマススペクトルデータを予め準備する必要があるため、マススペクトルデータが存在しない化合物については相互作用を予測することが難しいという課題があった。
【0005】
本開示は上記を鑑みてなされたものであり、タンパク質と化合物との相互作用を、より簡単に準備できるデータから高い精度で推定することが可能な技術を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するため、本開示の一形態に係る相互作用推定方法は、相互作用の程度が既知であるタンパク質および化合物に係る情報に基づいて、機械学習によって、当該タンパク質を記述したアミノ酸の1次元配列から導出される特徴量と、化合物を記述した1次元表現から導出される特徴量と、を用いて、タンパク質と化合物との相互作用の程度を評価するためのモデルである相互作用評価モデルを準備する第1工程と、前記相互作用評価モデルを適用することで、相互関係が未知である、推定対象のタンパク質を記述したアミノ酸の1次元配列から特徴量を導出するとともに、推定対象の化合物を記述した1次元表現から特徴量を導出し、これらの特徴量に基づいて、タンパク質と化合物との相互作用に係る特徴量を算出する第2工程と、を含み、前記アミノ酸の1次元配列からの特徴量の導出と、前記化合物を記述した1次元表現からの特徴量の導出とには、互いに異なるアルゴリズムが使用される。
【0007】
上記の相互作用推定方法によれば、第1工程では、タンパク質を記述したアミノ酸の1次元配列から導出される特徴量と、化合物を記述した1次元表現から導出される特徴量と、を用いて、タンパク質と化合物との相互作用の程度を評価するためのモデルである相互作用評価モデルが準備される。そして、第2工程では、相互作用評価モデルを適用することで、相互関係が未知である、推定対象のタンパク質を記述したアミノ酸の1次元配列から特徴量を導出するとともに、推定対象の化合物を記述した1次元表現から特徴量を導出し、これらの特徴量に基づいて、タンパク質と化合物との相互作用に係る特徴量が算出される。このように、タンパク質を記述したアミノ酸の1次元配列と化合物を記述した1次元表現とを用いて相互作用を推定することが可能となるため、より簡単に準備できるデータから相互作用を推定することが可能となる。また、アミノ酸の1次元配列からの特徴量の導出と、化合物を記述した1次元表現からの特徴量の導出とには、互いに異なるアルゴリズムが用いられる。この場合、機械学習における学習プロセスが、アミノ酸の1次元配列からの特徴量の導出アルゴリズムと、化合物を記述した1次元表現からの特徴量の導出アルゴリズムと、で互いに異なるため、特定のアルゴリズムに偏らない学習が可能となり、より高い精度での推定が可能なモデルが準備され得る。
【0008】
前記第1工程において、前記タンパク質を記述したアミノ酸の1次元配列から、互いに異なる複数種類の手法を用いて、複数の特徴量を導出するとともに、前記複数の特徴量のそれぞれと前記化合物を記述した1次元表現から導出される特徴量との関係から、前記相互作用評価モデルを準備し、前記第2工程において、前記相互作用評価モデルを適用することで、前記推定対象のタンパク質を記述したアミノ酸の1次元配列から、前記複数の手法を用いて、複数の特徴量を導出し、前記複数の特徴量のそれぞれと前記化合物を記述した1次元表現から導出される特徴量とに基づいて、タンパク質と化合物との相互作用に係る特徴量を算出する態様としてもよい。
【0009】
上記のように、タンパク質を記述したアミノ酸の1次元配列から互いに異なる複数種類の手法を用いて、複数の特徴量を導出し、これらと化合物を記述した1次元表現から導出される特徴量との関係から、相互作用評価モデルを準備する構成とした場合、互いに異なる複数種類の手法を用いて導出された互いに異なる特徴に着目して導出された特徴量を利用した、より多面的な相互作用評価モデルが準備される。さらに、この相互作用評価モデルを用いて推定対象のタンパク質と化合物との相互作用に係る特徴量を算出することができるため、より高い精度で相互作用を推定することができる。
【0010】
前記第1工程において用いられる、相互作用の程度が既知であるタンパク質および化合物に係る情報とは、相互作用の有無を評価した実験データとは異なる情報にも基づいて、相互作用の程度が評価されている情報である態様としてもよい。
【0011】
上記のように、相互作用の程度が既知であるタンパク質および化合物に係る情報として、相互作用の有無を評価した実験データとは異なる情報にも基づいて相互作用の程度が評価されているものである場合、実験データが得られていないようなタンパク質または化合物を含む組み合わせについても相互作用を評価したデータに基づいて相互作用評価モデルを作成することができる。そのため、実験データのしやすさによって精度が偏ることが防がれた相互作用評価モデルを準備することができる。したがって、タンパク質および化合物の組み合わせによらず高い精度での推定が可能となる。
【0012】
前記第1工程において用いられる、相互作用の程度が既知であるタンパク質および化合物に係る情報とは、相互作用の程度が互いに異なるデータが略均等に準備されたものである態様としてもよい。
【0013】
上記のように、相互作用の程度が既知であるタンパク質および化合物に係る情報として、相互作用の程度が互いに異なるデータが略均等に準備されたものである場合、相互作用の程度によって精度が偏ることが防がれた相互作用評価モデルを準備することができる。したがって、タンパク質および化合物の組み合わせによらず高い精度での推定が可能となる。
【0014】
本開示の一形態に係る相互作用推定装置は、相互作用の程度が既知であるタンパク質および化合物に係る情報に基づいて、機械学習によって、当該タンパク質を記述したアミノ酸の1次元配列から導出される特徴量と、化合物を記述した1次元表現から導出される特徴量と、を用いて、タンパク質と化合物との相互作用の程度を評価するためのモデルである相互作用評価モデルを準備するモデル準備部と、前記相互作用評価モデルを適用することで、相互関係が未知である、推定対象のタンパク質を記述したアミノ酸の1次元配列から特徴量を導出するとともに、推定対象の化合物を記述した1次元表現から特徴量を導出し、これらの特徴量に基づいて、タンパク質と化合物との相互作用に係る特徴量を算出する相互作用特徴量算出部と、を含み、前記アミノ酸の1次元配列からの特徴量の導出と、前記化合物を記述した1次元表現からの特徴量の導出とには、互いに異なるアルゴリズムが使用される。
【0015】
上記の相互作用推定装置によれば、モデル準備部では、タンパク質を記述したアミノ酸の1次元配列から導出される特徴量と、化合物を記述した1次元表現から導出される特徴量と、を用いて、タンパク質と化合物との相互作用の程度を評価するためのモデルである相互作用評価モデルが準備される。そして、相互作用特徴量算出部では、相互作用評価モデルを適用することで、相互関係が未知である、推定対象のタンパク質を記述したアミノ酸の1次元配列から特徴量を導出するとともに、推定対象の化合物を記述した1次元表現から特徴量を導出し、これらの特徴量に基づいて、タンパク質と化合物との相互作用に係る特徴量が算出される。このように、タンパク質を記述したアミノ酸の1次元配列と化合物を記述した1次元表現とを用いて相互作用を推定することが可能となるため、より簡単に準備できるデータから相互作用を推定することが可能となる。また、アミノ酸の1次元配列からの特徴量の導出と、化合物を記述した1次元表現からの特徴量の導出とには、互いに異なるアルゴリズムが用いられる。この場合、機械学習における学習プロセスが、アミノ酸の1次元配列からの特徴量の導出アルゴリズムと、化合物を記述した1次元表現からの特徴量の導出アルゴリズムと、で互いに異なるため、特定のアルゴリズムに偏らない学習が可能となり、より高い精度での推定が可能なモデルが準備され得る。
【0016】
本開示の一形態に係る相互作用推定プログラムは、タンパク質と化合物との相互作用を推定する相互作用推定装置としてコンピュータを機能させるための相互作用推定プログラムであって、相互作用の程度が既知であるタンパク質および化合物に係る情報に基づいて、機械学習によって、当該タンパク質を記述したアミノ酸の1次元配列から導出される特徴量と、化合物を記述した1次元表現から導出される特徴量と、を用いて、タンパク質と化合物との相互作用の程度を評価するためのモデルである相互作用評価モデルを準備するモデル準備機能と、前記相互作用評価モデルを適用することで、相互関係が未知である、推定対象のタンパク質を記述したアミノ酸の1次元配列から特徴量を導出するとともに、推定対象の化合物を記述した1次元表現から特徴量を導出し、これらの特徴量に基づいて、タンパク質と化合物との相互作用に係る特徴量を算出する相互作用特徴量算出機能と、を含み、前記アミノ酸の1次元配列からの特徴量の導出と、前記化合物を記述した1次元表現からの特徴量の導出とには、互いに異なるアルゴリズムが使用される。
【0017】
上記の相互作用推定プログラムによれば、モデル準備機能では、タンパク質を記述したアミノ酸の1次元配列から導出される特徴量と、化合物を記述した1次元表現から導出される特徴量と、を用いて、タンパク質と化合物との相互作用の程度を評価するためのモデルである相互作用評価モデルが準備される。そして、相互作用特徴量算出機能では、相互作用評価モデルを適用することで、相互関係が未知である、推定対象のタンパク質を記述したアミノ酸の1次元配列から特徴量を導出するとともに、推定対象の化合物を記述した1次元表現から特徴量を導出し、これらの特徴量に基づいて、タンパク質と化合物との相互作用に係る特徴量が算出される。このように、タンパク質を記述したアミノ酸の1次元配列と化合物を記述した1次元表現とを用いて相互作用を推定することが可能となるため、より簡単に準備できるデータから相互作用を推定することが可能となる。また、アミノ酸の1次元配列からの特徴量の導出と、化合物を記述した1次元表現からの特徴量の導出とには、互いに異なるアルゴリズムが用いられる。この場合、機械学習における学習プロセスが、アミノ酸の1次元配列からの特徴量の導出アルゴリズムと、化合物を記述した1次元表現からの特徴量の導出アルゴリズムと、で互いに異なるため、特定のアルゴリズムに偏らない学習が可能となり、より高い精度での推定が可能なモデルが準備され得る。
【発明の効果】
【0018】
本開示によれば、タンパク質と化合物との相互作用をより簡単に準備できるデータから高い精度で推定することが可能な技術が提供される。
【図面の簡単な説明】
【0019】
【
図1】
図1は、相互作用推定装置の装置構成を説明するブロック図である。
【
図2】
図2は、相互作用推定装置において使用するスコア算出器を説明する図である。
【
図3】
図3は、相互作用推定装置で使用する相互作用評価モデルの構成例を説明する図である。
【
図5】
図5は、相互作用推定プログラムの構成を説明する図である。
【
図6】
図6は、相互作用推定装置のハードウェア構成を説明する図である。
【
図7】
図7は、相互作用推定方法の一例を示す図である。
【
図8】
図8は、相互作用推定方法の一例を示す図である。
【
図9】
図9は、相互作用推定方法の一例を示す図である。
【
図10】
図10(A)および
図10(B)は、相互作用評価モデルの精度の検証結果を示す図である。
【
図11】
図11は、スクリーニングを行う際の処理手順の一例を示す図である。
【発明を実施するための形態】
【0020】
以下、実施形態について、図面を参照しつつ詳細に説明する。説明において、同一要素又は同一機能を有する要素には同一の符号を付し、重複する説明を省略する。
【0021】
(相互作用推定装置)
図1は一実施形態に係る相互作用推定装置1を模式的に示す図である。
図1に示す相互作用推定装置1は、例えば、タンパク質と化合物との相互作用とを推定する装置である。
【0022】
タンパク質と化合物との相互関係の有無は、例えば、創薬シーズの探索におけるスクリーニング等で評価され得る。一般的には、ハイスループットスクリーニングやドッキングシミュレーション等を用いてタンパク質と化合物との相互関係が評価される。しかしながら、上記のいずれの手法についても、創薬シーズの探索においては、十分であるとはいえない場合があった。特にドッキングシミュレーションのような計算的アプローチでは、タンパク質の3次元構造情報が必要となるため、利用可能なタンパク質が限られているという問題もあった。これに対して、相互作用推定装置1は、タンパク質の3次元構造を用いる代わりに、アミノ酸の1次元配列を出発点として相互作用を評価することを特徴としている。また、化合物についても、1次元表現を出発点としている。以下、その詳細について説明する。
【0023】
図1に示すように、相互作用推定装置1は、相互作用評価モデル準備部10、相互作用推定部20(相互作用特徴量算出部)、および記憶部30を有する。また、相互作用評価モデル準備部10は、教師データ取得部11、特徴量算出部12および機械学習部13を含んで構成され、相互作用推定部20は、対象データ取得部21、個別特徴量算出部22、推定スコア算出部23および出力部24を含んで構成される。なお、相互作用推定装置1は、タンパク質および化合物に関するデータベースD1からデータを取得して相互作用を評価するためのモデルを作成する。さらに、相互作用推定装置1は、対象データD2を取得し、対象データD2に係る相互作用を推定する。
【0024】
相互作用評価モデル準備部10は、相互作用推定装置1において相互作用を評価するためのモデルを準備する機能を有する。相互作用を評価するためのモデルとは、対象データD2に係る相互作用を推定する際に利用するモデルであり、データベースD1において保持されるデータに基づく機械学習によって作成される。相互作用推定装置1では、相互作用を推定する際に、タンパク質に関するアミノ酸の1次元配列と、化合物の化学式と、をそれぞれ数値ベクトルに変換する。そして、2つの数値ベクトルから、その関係性を示すスコアを算出する。このスコアが相互作用に対応する。
【0025】
相互作用に係るスコアの算出方法について、
図2を参照しながら説明する。
図2では、タンパク質および化合物に係る数値ベクトルを算出する2つの符号化器X1,符号化器X2と、符号化器X1,符号化器X2で算出された数値ベクトルからスコアを算出する識別器Yと、を示している。符号化器X1は、タンパク質に係る数値ベクトルを算出する符号化器であり、符号化器X2は、化合物に係る数値ベクトルを算出する符号化器である。
【0026】
符号化器X1は、タンパク質のアミノ酸1次元配列から数値ベクトルを算出する。アミノ酸1次元配列から数値ベクトルへの変換は、CNN(Convolution Neural Network)、AAC(Amino Acid Composition)、Transformer等によって行われる。CNN、AAC、Transformerは、いずれも、公知の手法であり、タンパク質の特徴に関連した情報を用いたベクトル変換の方法である。ただし、これらはタンパク質における互いに異なる特徴に着目したものである。例えば、CNNは、タンパク質内の近接するアミノ酸の関係を考慮した数値ベクトルが得られ、AACは、タンパク質の物理化学的性質に着目した数値ベクトルが得られる。さらに、Transformerは、タンパク質内の離れた場所にあるアミノ酸を加味しベクトル表現が得られる。アミノ酸1次元配列の数値ベクトルへの変換を行うことで、数値ベクトルの組み込み表現(Embedded representation)が得られる。
【0027】
上記のCNN、AAC、Transformerについて概略を説明する。
【0028】
CNNは例えば、以下の手順で計算が行われる。アミノ酸配列を、重複を許してn-グラムに分割する。ここではn=3を使ったが、任意のnでよい。例えばMSTAVという配列であれば、”MST”、”STA”、”TAV”となる。i番目のアミノ酸の数値表現(初期値はランダムに定める)をxi、[xi;xi+1;xi+2]をxi,xi+1,xi+2を結合したものとすれば、上述の3-グラムは[x1,x2,x3],[x2,x3,x4],…と表現できる。
【0029】
ここで、CNNで統合するアミノ酸数(カーネルサイズ)をwとしxi:i+w-1を[xi,xi+1,…,xi+w-1]と定義し、これをhi
(0)とする。重みWおよびバイアスb、非線形の活性化関数fとしたとき、最初の畳み込みにより下記の数式(1)に変更される。
【0030】
【0031】
畳み込み演算をT回繰り返すことで、{h1
(T),h2
(T),…,hl
(T)}が得られる。この平均を、そのアミノ酸配列の(CNNによる)埋め込み表現Ep(CNN)と定義する。
【0032】
AACは、昔から使われてきた既知の方法であり、そのアミノ酸位置における(20アミノ酸の)相対的な頻度を指標にした数値変換を行う。この値を、タンパクの埋め込み表現Ep(AAC)と定義する。
【0033】
Transformerは、もともとは自然言語処理(例えば、外国語の翻訳等) を行うためのAIとして開発されたものであり、言語を符号化するencoderと、そこから別の言語に翻訳するdecoderの2つに大きく分かれている。本件の場合、encoderの部分に着想を経てアミノ酸配列を数値化している。
【0034】
具体的には、以下の手順で行う。まず、アミノ酸配列(L残基だとする)の各残基をd次元の埋め込み表現ベクトル(アミノ酸配列全体ではL×dのテンソル)にする。そこに「アミノ酸の位置情報(Position Effect,PE)」を加えるために、posという位置の2iおよび2i+1次元目の情報について以下の2つの数式(2),(3)に示す計算を行い、それぞれ加える。
【0035】
【0036】
このように、「残基の内容+位置」を反映させたテンソルInput1をニューラルネットワークに流すことで計算を行う。
【0037】
(繰り返し手順)
まず、重みWQ1,WK1,およびWV1を定義し、Input1との積をとることで、下記の数式(4)~(6)を計算する。
【0038】
【0039】
上記の数式(4)~(6)の計算結果をそれぞれQ,K,Vと改名し、数式(7)に示すAttentionを定義する。なお、数式(7)におけるsoftmaxとは、機械学習界隈で一般的に使われているsoftmax関数のことである。
【0040】
【0041】
実際には、このAttention計算からなるユニット(headと呼ぶことにする)を任意の数だけ用意し、それぞれの出力値をまとめ(concat)、そこに学習で決定される重み行列Woを乗じる。例えばh個のheadを使用するのであれば、それらを統合したMultiHeadは数式(8)のように記述される。
【0042】
【0043】
ここに、Attentionに通す前に用意していたInput1を加えたものをHidden1と定義する。すなわち以下の数式(9)のように定義される。
Hidden1=Input1+MultiHeadAttention(Q,K,V)
…(9)
【0044】
学習される重みW1, W2, バイアスb1, b2を使って、数式(10)に示す第1段階の出力Output1を算出する。
【0045】
【0046】
上記のOutput1をInput2と置き換え、上述の繰り返し手順、すなわち、数式(4)以降の計算を、繰り返す。
最終的にN回の繰り返し計算を行った時点での出力OutputN(例えば、N=6としてもよい)をそのアミノ酸配列の(Transformerによる)埋め込み表現Ep(Transformer)と定義する。
【0047】
上述のCNN、AAC、Transformerは、互いに異なる手法で特徴量としての埋め込み表現を算出している。そのため、同じアミノ酸1次配列を用いた場合であっても、埋め込み表現を生成するまでの処理内容が互い異なるため、結果として得られる埋め込み表現が互いに異なる。したがって、同一のアミノ酸1次配列を使用しながら、1次配列における異なる特徴に着目した埋め込み表現が複数得られるということになる。そのため、この3種類の手法を組み合わせることによって、1つのタンパク質(アミノ酸1次配列)に係る多様な特徴に着目した特徴量が得られるということがいえる。
【0048】
符号化器X2は、化合物の1次元表現から構造式に変換し、構造式から数値ベクトルを算出する。化合物の1次元表現としては、例えば、SMILES(Simplified Molecular Input Line Entry Specification syntax)記法で記載された化学式を用いることができる。SMILES記法で記載されたデータが準備できていると、3次元構造すなわち構造式への変換が可能である。化合物の数値ベクトルへの変換を行うことで、数値ベクトルの組み込み表現(Embedded representation)が得られる。なお、SMILES記法に限定されず、その他の手法で1次元表現であってもよい。つまり、構造式への変換が可能な1次元表記であれば、その種類は特に限定されない。
【0049】
化合物の構造式から数値ベクトルへの変換は、MPNN(Message Passing Neural Network )等によって行われる。MPNNは公知の手法であるが、その概略について説明する。
【0050】
とある化合物Cについて、その構成元素eをそれぞれ結合bでつながった無向グラフと考える。このとき、それぞれの元素eにランダムに初期化した数値ベクトルを与える。
【0051】
時刻tにおける元素eの数値ベクトルを隠れ状態h
e
t、その元素eに隣接する元素をv,eとvの間の結合をb
evと表記する。このとき、元素eに隣接元素から時刻t+1において渡される情報(message passing)は、任意の関数をM
tとして下記の数式(11)で記述され得る。
【数7】
また、元素eは自身が時刻tにおいてもともと持っていた情報と周りから渡された情報mをもとに時刻t+1において自分自身を数式(12)に示すように更新する。なお、U
tは任意の関数である。
【数8】
上記の情報伝達および更新に係る処理をT回繰り返し、最終的に化合物Cに属するすべての元素eの数値ベクトルを関数Rに代入して、数式(13)に示すように化合物Cの数値表現Ecを読み取る(readout)。なお、数式(13)における関数Rはベクトルの各要素の最大値をとる関数maxや平均をとるmean,中央値を選択するmedian等が使われる。
【数9】
【0052】
符号化器X2で用いられるアルゴリズムは、MPNN(Message Passing Neural Network)とは異なるものであってもよい。ただし、符号化器X1で用いられるアルゴリズム(本実施形態では、CNN、AAC、およびTransformer)とは異なるアルゴリズムが用いられ得る。なお、MPNNは化学式の長さによらず、化合物Cごとに適切な数値表現Ecを導出することができるという点で、他の手法よりも優位である。
【0053】
化合物に対する符号化器において、MPNNがCNNよりも優位である点について説明する。なお、CNNには画像で使われる2次元CNNと、順番に意味があるときに使われる1次元CNNがある。このうち、符号化器X1で用いられているCNN(すなわち、タンパク質のアミノ酸1次元配列の分析に用いられるCNN)とは、1次元CNNである。一方、化合物は元素と化学結合からなるため、それぞれ頂点と辺と考えると数学的なグラフとみなすことができる。グラフはそれぞれの頂点(ノード)に接続する辺(エッジ)の数が違うので、画像のようなグリッド状のデータを処理する2次元CNNは適用できないと考えられる。一方、タンパクと同じく1次元CNNを使って化合物の符号化を行うことは考えられる。ただし、この場合はSMILES記法で記述された化学式を直接学習することが必要となる。この場合、SMILES記法による化学式についてCNNを用いた符号化を行うことで、化合物の形状を推定し、その形からクトル表現を推定する、所謂2段階の推定が発生し得る。これに対して、本実施形態で説明するように、SMILESを翻訳して化合物を2次元の構造式に変換した後にMPNNでベクトル表現を推定するほうが、推定の回数が少ないためより優位となると考えられる。
【0054】
識別器Yは、アミノ酸1次元配列および化合物の数値ベクトル(の組み込み表現)から、その関係性を示すスコアを算出する識別器である。識別器Yは、ニューラルネットワーク(例えば、dense neural network)によって、2つの数値ベクトルを1つのスコアへ変換する。識別器Yによる計算を行うことで、最終的に1つのスコアが算出される。スコアは、例えば、0~1の範囲で設定され得る。
【0055】
ニューラルネットワークは、例えば以下の計算を行う。これまでの符号化器におけるステップにより、化合物の符号化ベクトルEcと、タンパク質の符号化ベクトルEpが得られた。識別器の入力に使うベクトルは、これらを単純に連結してつくる。化合物側がC次元、タンパク質側がP次元なら、この連結によりC+P次元のベクトルができる。このC+P次元のベクトルを任意の階層の全結合層(隠れ層)を通した後、最終的に1つの出力層につなげている。この結果、1つのスコアが得られる。
【0056】
このように、符号化器X1、符号化器X2および識別器Yを組み合わせると、タンパク質のアミノ酸1次配列と化合物の化学式(SMILES記法で記載された化学式)から、タンパク質-化合物間の相互作用に対応するスコアを算出することができる。符号化器X1、符号化器X2および識別器Yの組み合わせを、相互作用を評価するためのスコアを算出するための1つのスコア算出器Zとする。
【0057】
ここで、上述のように、符号化器X1に使用され得るアルゴリズムは複数種類あるため、符号化器X1に使用するアルゴリズムを変更すると、互いに異なるスコア算出器Zが得られることになる。このとき、互いに異なるスコア算出器Zでは、同一のタンパク質および化合物から互いに異なる数値ベクトルが得られ、その結果、互いに異なるスコアが算出され得る。したがって、これらを組み合わせることで相互作用に関する多面的な評価を行ったスコアを算出することができる。
【0058】
図3は、3種類のアルゴリズムを用いて、3種類のスコア算出器Z(符号化器-識別器の組み合わせ)を作成した例を示している。
図3では、符号化器X1においてCNNを利用したスコア算出器Z1と、符号化器X1においてAACを使用したスコア算出器Z2と、符号化器X1においてTransformerを使用したスコア算出器Z3と、を示している。3つのスコア算出器Z(Z1~Z3)では、それぞれスコアが算出される。この3つのスコアから新たな1つのスコアを算出すると、3種類のアルゴリズムが考慮されたスコアが得られる。
図3に示す例では、3つのスコアの調和平均を求めることで、最終的に1つのスコア(相互作用推定スコア;
図3ではAffinity Score)が得られる。このように、符号化器X1に適用できるアルゴリズムが複数種類存在することを利用して、これらを組み合わせることで、相互作用に係るスコアを算出する構成としてもよい。以下の実施形態では、
図3に示す3種類のスコア算出器Z(Z1~Z3)を用いて算出されるスコアを組み合わせて、最終的に1つのスコア(相互作用を推定するスコア)を算出する場合について説明する。すなわち、本実施形態では、
図3に示す構成を相互作用推定に使用するモデルの構成として取り扱う。
【0059】
上述のように、
図2および
図3に示すスコア算出器Zを構成する符号化器X1、符号化器X2および識別器Yでは、いずれも機械学習に係るアルゴリズムを用いた計算が行われる。そのため、相互作用を評価するためのモデルを作成する際には、スコアが既知のタンパク質と化合物とに係るデータ(教師データ)を準備し、スコア算出器Zにおいて符号化器X1、符号化器X2および識別器Yを用いてスコアを算出する。そして、予め得られている正解スコアと、スコア算出器Zによって算出されたスコアとを比較する。そして正解スコアとの差分がより小さくなるように符号化器X1、符号化器X2および識別器Yをそれぞれ訓練される。つまり、スコア算出器Zでは符号化器と識別器との両方について、教師データによる訓練が行われる。また、
図3に示すように3つのスコア算出器Zから1つの相互作用推定スコアが得られる場合、相互作用推定スコアが教師データにおける正解スコアと一致するように、訓練が行われる。
【0060】
スコア算出器Zにおける機械学習(訓練)に使用される教師データは、
図1に示すデータベースD1から提供され得る。データベースD1は、タンパク質のアミノ酸1次元配列と、化合物の化学式(例えば、SMILES記法により記載された化学式)と、タンパク質-化合物間の相互作用に係るスコアと、が対応付けられたデータを格納するデータベースである。データベースD1としては、例えば、STITCH(search tool for interactions of chemicals)を利用することができる。STITCHは、代謝経路、結晶構造、結合実験、および薬物と標的の関係からの相互作用に関する情報を統合するデータベースである。また、STITCHでは、表現型効果、テキストマイニング、および化学構造の類似性から推測される情報を使用して、化学物質間の関係を予測したデータも含まれている。このように、STITCHは、タンパク質および化合物の相互作用の有無を評価した実験データとは異なる情報が含まれたデータベースである。したがって、本実施形態に示すように、タンパク質と化合物との相互作用が既知であるデータを利用したい場合には、STITCHは教師データの抽出に適したデータベースとなり得る。
【0061】
図4に、STITCHから得られた、教師データとして使用され得るデータの一例を示す。
図4では、SMILES記法で記述された化合物データ(SMILES)と、タンパク質のアミノ酸の1次元配列(Target Sequence)と、に対してラベル(Label)が付与されている。ラベルは、相互作用推定スコア(正解スコア)として取り扱うことができる。このようなデータを用いることで、相互作用推定スコアに使用するモデル(本実施形態では、
図3に示す3種類のスコア算出器Z1~Z3から相互作用推定スコアを算出するモデル)の訓練を行うことができる。なお、STITCHに限定されるものではなく、その他のタンパク質と化合物との相互作用が既知であるデータが格納されたデータベースを、教師データ用のデータベースD1として用いてもよい。
【0062】
図1に戻り、相互作用推定装置1の各部について説明する。相互作用推定装置1の相互作用評価モデル準備部10は、上述のように相互作用推定モデルに係る準備、すなわち、機械学習(訓練)によるモデルの準備を行う機能を有する。教師データ取得部11は、上述の教師データを準備する機能を有する。具体的には、
図1に示すデータベースD1から教師データとして使用するデータを取得する。特徴量算出部12は、教師データとして取得したタンパク質のアミノ酸1次配列データと、化合物データとから、符号化器X1、符号化器X2を利用して数値ベクトルを算出し、さらに、識別器Yを用いて特徴量としての相互作用推定スコアを算出する機能を有する。すなわち、特徴量算出部12は、符号化器X1、符号化器X2、識別器Yによる計算を行う。
【0063】
なお、
図3に示すモデルの場合、3種類のスコア算出器Zによるスコアをそれぞれ算出し、さらにこれらの調和平均を算出する処理までが特徴量算出部12によって行われ得る。また、化合物データがSMILES記法で記載されたデータである場合、まず、3次元の構造式に変換した上で、MPNNを適用して数値ベクトルを算出する構成としてもよい。この手順は、使用するアルゴリズムによっても変更され得る。機械学習部13は、特徴量算出部12によって算出されたスコアと、正解スコアとの差分が小さくなるように、モデルに含まれるスコア算出器Z、すなわち、符号化器X1、符号化器X2および識別器Yを訓練する機能を有する。教師データ取得部11が教師データを取得した後は、取得したデータを用いて特徴量算出部12による特徴量(相互作用推定スコア)の算出と、機械学習部13による正解スコアとの差分を小さくするための訓練とを繰り返すことでモデルが作成される。すなわち、特徴量算出部12および機械学習部13は一体的に動作し得る。なお、相互作用評価モデル準備部10において作成されたモデル(学習済みモデル)は記憶部30において記憶される。
【0064】
相互作用推定部20は、記憶部30で記憶されているモデルを利用して、対象データD2についての相互作用の推定に係る計算を行う機能を有する。相互作用推定部20の対象データ取得部21は、対象データD2を取得する機能を有する。対象データD2は、相互作用が未知のタンパク質のアミノ酸1次配列データと、化合物の構造式に係るデータ(SMILES記法による化学式)と、に係る情報を含む。
【0065】
個別特徴量算出部22は、対象データD2について、符号化器X1、符号化器X2を適用して、タンパク質および化合物に対応する特徴量(数値ベクトル)を算出する機能を有する。この際には、記憶部30に記憶されている学習済み(訓練済み)のモデルの符号化器X1,符号化器X2を用いて対象データD2に含まれるタンパク質および化合物に係る数値ベクトルを算出する。このとき、例えば、対象データD2が符号化器X1、符号化器X2の適用に適していないデータ形式である場合には、変換処理等を行ってもよい。
【0066】
推定スコア算出部23は、個別特徴量算出部22において算出された数値ベクトルを用いて、タンパク質-化合物間の相互作用を推定する機能を有する。具体的には、推定スコア算出部23は、個別特徴量算出部22において、符号化器X1、符号化器X2を適用して得られた数値ベクトルから、識別器Yを適用してスコアを算出する。また、
図3に示す構成のモデルの場合には、3つの識別器Yで算出されたスコアの調和平均を求めることによって相互作用推定スコアを算出する。
【0067】
出力部24は、推定スコア算出部23によって推定された結果を出力する機能を有する。結果の出力方式は特に限定されない。タンパク質および化合物の相互作用を推定する理由(目的)に応じて、出力形式を変更してもよい。例えば、探索対象の複数の化合物から、タンパク質に対して相互作用が最も大きい化合物を特定する場合には、探索対象の複数の化合物すべてについて、相互作用推定スコアの算出結果を出力することに代えて、特定の閾値以上のスコアを有する化合物の情報のみを出力部24によって出力する構成としてもよい。また、化合物の特性とタンパク質との相互作用との関係性を評価する分析を行うような場合には、化合物それぞれの特性をふまえて、化合物ごとに相互作用推定スコアを図示する(例えば、マッピングする)等の手法を用いることもできる。このように、出力部24からの出力方法は適宜変更することができる。
【0068】
記憶部30は、相互作用評価モデル準備部10において準備されたモデル(相互作用評価モデル)、相互作用評価モデル準備部10において外部から取得したデータベースD1に含まれる教師データ、相互作用推定部20によって取得された対象データD2等の各種情報を記憶する機能を有する。
【0069】
(相互作用推定プログラム)
コンピュータを、本実施形態の相互作用推定装置1として機能されるための相互作用推定プログラムについて説明する。
図5は、相互作用推定プログラムP1の構成を示す図である。相互作用推定プログラムP1は、相互作用の程度が既知であるタンパク質および化合物に係る情報に含まれる、タンパク質を記述したアミノ酸の1次元配列から導出される特徴量と、化合物を記述した1次元表現から導出される特徴量と、を用いて、機械学習によって、タンパク質と化合物との相互作用の程度を評価するためのモデルである相互作用評価モデルを準備するモデル準備機能と、相互関係が未知である、推定対象のタンパク質を記述したアミノ酸の1次元配列から導出される特徴量、および、推定対象の化合物を記述した1次元表現から導出される特徴量に基づいて、前記相互作用評価モデルを適用することで、タンパク質と化合物との相互作用に係る特徴量を算出する相互作用特徴量算出機能と、を含む。
【0070】
相互作用推定プログラムP1は、相互作用推定装置1における上記の処理を統括的に制御するメインモジュールm10、教師データ取得モジュールm11、特徴量算出モジュールm12、機械学習モジュールm13、対象画像取得モジュールm14、変換モジュールm15、推定スコア算出モジュールm16、結果出力モジュールm17、および、記憶モジュールm18を含んで構成される。そして、各モジュールモジュールm10~m18により、相互作用推定装置1における相互作用評価モデル準備部10、相互作用推定部20、および、記憶部30としての各機能が実現される。なお、相互作用推定プログラムP1は、通信回線等の伝送媒体を介して伝送される態様であってもよいし、
図5に示されるように、記憶媒体M1に記憶される態様であってもよい。
【0071】
(ハードウェア構成)
相互作用推定装置1は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。各機能は、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に接続し、これら複数の装置により実現されてもよい。
【0072】
図6は、相互作用推定装置1のハードウェア構成の一例を示す図である。相互作用推定装置1は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
【0073】
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、中央処理装置(CPU:Central Processing Unit)で構成されてもよい。例えば、相互作用推定装置1の各種処理等は、プロセッサ1001で実現されてもよい。また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュールやデータを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。相互作用推定装置1の各種処理を実行する機能は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。なお、相互作用推定装置1における各種処理は、1つのプロセッサ1001で実行されてもよいが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。
【0074】
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つで構成されてもよい。
【0075】
ストレージ1003は、コンピュータ読み取り可能な記録媒体である。ストレージ1003は、例えば、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク、CD-ROM(Compact Disc ROM)などの光ディスク等の少なくとも1つで構成されてもよい。上述の記憶媒体は、例えば、メモリ1002及び/又はストレージ1003を含むデータベース、サーバその他の適切な媒体であってもよい。
【0076】
通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのデバイスである。例えば、相互作用推定装置1の各種処理の一部は、通信装置1004で実現されてもよい。
【0077】
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード等)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ等)である。
【0078】
上記の各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
【0079】
(相互作用推定方法)次に、
図7~
図9を参照しながら、相互作用推定装置1による相互作用推定方法について説明する。
図7は、相互作用推定装置1による処理の全体を説明する図である。また、
図8および
図9はその一部の詳細手順を説明する図である。
【0080】
図7に示すように、相互作用推定装置1は、まずステップS01を実行する。ステップS01では、相互作用評価モデル準備部10による相互作用評価モデルの準備を行う(第1工程)。次に、相互作用推定装置1はステップS02~ステップS04を実行する。ステップS02~ステップS04は、対象データD2に係る相互作用推定に係る処理である。ステップS02では、相互作用推定部20の対象データ取得部21が外部装置等から対象データD2を取得する。ステップS03では、相互作用推定部20の個別特徴量算出部22および推定スコア算出部23が、記憶部30に記憶される相互作用評価モデルに基づいて相互作用推定スコアを算出する(第2工程)。ステップS04では、相互作用推定部20の出力部24が結果を出力する。
【0081】
次に、
図8を参照しながら、相互作用推定装置1による相互作用推定方法のうち、相互作用評価モデルの作成方法、すなわち、ステップS01に対応する部分の手順について説明する。なお、
図8に示す手順では、相互作用評価モデル準備部10の教師データ取得部11によってデータベースD1に含まれる教師データとして使用されるデータがすでに取得されているとする。
【0082】
図8に示すように、相互作用推定装置1は、まずステップS11およびステップS12を実行する。ステップS11では、相互作用評価モデル準備部10の特徴量算出部12がタンパク質のアミノ酸1次配列データに対して符号化器X1を適用して数値ベクトルを算出する。数値ベクトルはアミノ酸特徴量となる。なお、
図3に示すモデルの場合、3種類の符号化器X1があるため、3つの特徴量が得られる。ステップS12では、相互作用評価モデル準備部10の特徴量算出部12が化合物の化学式に対して符号化器X2を適用して数値ベクトルを算出する。数値ベクトルは化合物特徴量となる。
【0083】
次に、相互作用推定装置1はステップS13およびステップS14を実行する。ステップS13では、相互作用評価モデル準備部10の特徴量算出部12が、識別器Yに対して数値ベクトルを適用することで、スコアを算出する。このスコアはスコア算出器Zごとに算出される。したがって、
図3に示す構成の場合、スコア算出器Z1~スコア算出器Z3に対応したスコアが算出される。ステップS14では、相互作用評価モデル準備部10の特徴量算出部12が、3つのスコア(スコア算出器Z1~スコア算出器Z3に対応するスコア)の調和平均を求めることによって、相互作用評価モデルによる相互作用推定スコア(相互作用特徴量)を算出する。
【0084】
次に、相互作用推定装置1はステップS15を実行する。ステップS15では、相互作用評価モデル準備部10の機械学習部13が、ステップS14で算出された相互作用推定スコアと正解スコアとを比較し、その結果に基づいて、モデルを構成する
図3に示す3つのスコア算出器Zに含まれる符号化器X1、符号化器X2および識別器Yを訓練する。教師データには、相互作用推定スコアが既知である(すなわち正解スコアを有する)タンパク質-化合質の複数の組が含まれる。そのため、例えば、教師データの個数の分だけ上記のステップS11~ステップS15を繰り返すことで、相互作用評価モデルの訓練が進み、より推定精度の高いモデルが得られる。
【0085】
次に、
図9を参照しながら、相互作用推定装置1による相互作用推定方法のうち、対象データに関する相互作用の推定方法、すなわち、ステップS03に対応する部分の手順について説明する。
【0086】
図9に示すように、相互作用推定装置1は、まずステップS21およびステップS22を実行する。ステップS21では、相互作用推定部20の個別特徴量算出部22がタンパク質のアミノ酸1次配列データに対して符号化器X1(訓練後)を適用して数値ベクトルを算出する。数値ベクトルはアミノ酸特徴量となる。なお、
図3に示すモデルの場合、3種類の符号化器X1があるため、3つの特徴量が得られる。ステップS22では、相互作用推定部20の個別特徴量算出部22が化合物の化学式に対して符号化器X2を適用して数値ベクトルを算出する。数値ベクトルは化合物特徴量となる。次に、相互作用推定装置1はステップS23およびステップS24を実行する。ステップS23では、相互作用推定部20の推定スコア算出部23が、識別器Yに対して数値ベクトルを適用することで、スコアを算出する。このスコアはスコア算出器Zごとに算出される。したがって、
図3に示す構成の場合、スコア算出器Z1~スコア算出器Z3に対応したスコアが算出される。ステップS24では、相互作用推定部20の推定スコア算出部23が、3つのスコア(スコア算出器Z1~スコア算出器Z3に対応するスコア)の調和平均を求めることによって、相互作用評価モデルによる対象データD2に係る相互作用推定スコア(相互作用特徴量)を算出する。なお、対象データD2が複数ある場合(例えば、タンパク質-化合物の組が複数ある場合)、データごとに上記のステップS21~ステップS24の処理を行うことで、各データに関する相互作用推定スコア(相互作用特徴量)を得ることができる。
【0087】
(相互作用評価モデルの精度について)上記のように、本実施形態に係る相互作用評価モデルでは、3種類の符号化器X1それぞれを含むスコア算出器Z1~スコア算出器Z3を含み、各スコア算出器でアルゴリズムごとのスコアを算出する。このような相互作用評価モデルを用いた場合の相互作用の推定精度について、以下の通り検証した。
【0088】
STITCHに登録されているhumanのCPIデータ(タンパク質-化合物の相互作用を評価したデータ)の中から、正解スコア(に相当するラベル)が0~1の間で大きく散らばるように130万個のデータを抽出した。正解スコアが分散しているデータの抽出方法としては、0~1を9つのレベルに分け、各レベルにおいて同数のデータを抽出した。抽出された130万個のCPIデータには241,396種類の化合物、および15,971種類のタンパク質の情報が含まれていた。これらの130万個のデータのうちの8割の104万個のデータを教師データとした。また、残りの26万個のデータを2つに分割し、13万個のバリデーションデータおよび13万個のテストデータとした。まず、教師データを用いて機械学習(訓練)を行った。そして、バリデーションデータおよびテストデータを用いて、訓練の成果を検証した。その結果を
図10に示す。
【0089】
図10(A)は、テストデータを用いて、符号化器X1にCNNを用いて符号化器X2にMPNNを用いたスコア算出器Z1においてスコアを算出した際の正解スコアとの差分(誤差)を評価した結果を示す。
図10(A)におけるEpoch数は学習の繰り返し数である。また、縦軸のValidation lossは、テストデータにおける正解スコアとモデルの適用結果(相互作用推定スコア)との誤差(Mean Squared Errot)である。
図10(A)に示すように、Epoch数が増加すると、誤差がどんどん小さくなることが確認された。なお、最終的には、MPNN-CNNに係るスコア算出器Z1では、相関係数が0.8020であり、AUROC(ROC曲線におけるAUC)が0.8082であった。
【0090】
図10(B)は、テストデータを用いて、符号化器X1にAACを用いて符号化器X2にMPNNを用いたスコア算出器Z2においてスコアを算出した際のAUROCを評価した結果を示す。
図10(B)におけるEpoch数は学習の繰り返し数である。また、縦軸のAUROCは、テストデータを用いたAUROCである。
図10(B)に示すように、Epoch数が増加すると、AUROC(ROC曲線におけるAUC)がどんどん大きくなることが確認された。この結果は、Epoch数の増加に応じて精度が高まっていることを示唆している。なお、最終的には、MPNN-AACに係るスコア算出器Z2では、相関係数が0.8151であり、AUROC(ROC曲線におけるAUC)が0.8190であった。
【0091】
図10には図示していないが、MPNN-Transformerに係るスコア算出器Z3についても同様にEpoch数を繰り返した結果、最終的には、相関係数が0.8194であり、AUROCが0.8202となった。これらの結果から、学習後の3つのスコア算出器Zは、いずれも高い精度でスコアを算出できることが確認された。したがって、調和平均を用いて最終的な相互作用推定スコアを算出する
図3の構成のモデルは、高い精度で相互作用を推定できることが確認された。
【0092】
(スクリーニングを行う際の処理の高速化)
図9に示したように、対象データD2についての相互作用を推定する場合、データ毎に
図9に示す手順を行う必要がある。すなわち、3種類のスコア算出器Zに係る計算を行ってスコアを算出し、さらに、調和平均を求めることで、所望の対象データD2に係る相互作用推定スコアが得られる。このような場合に、例えば、相互作用が高い化合物だけでなく相互作用が低い(スコアが小さい)と推定される化合物についても、最終的な相互作用推定スコアを算出することを繰り返していると計算量が増大する。3種類のスコア算出器Zに係る計算を行ったとしても、最終的に調和平均が高い値になることはあまり想定されにくい。つまり、上記実施形態では、タンパク質については、3種類のアルゴリズムを用いて数値ベクトルを算出しているが、特定のアルゴリズムについて数値ベクトルが著しく低い場合には、調和平均を求めた後の相互作用推定スコアが高い値になることは想定されにくい。そこで、大量のデータを対象データとしてスクリーニングを行う場合には、
図9に示した手順をタンパク質-化合物の全ての組み合わせについて行うのではなく、3種類のスコア算出器Zを1つずつ用いることで、スコアが著しく小さいタンパク質-化合物の組み合わせを排除していく手順を採ることもできる。
【0093】
図11は、上記のように、3つのスコア算出器Zを順に使いながら探索対象の化合物の選別を行う場合の処理の手順の一例を示している。この場合、まず、相互作用推定装置1は、ステップS31およびステップS32を実行する。ステップS31およびステップS32では、まず、ステップS31において、3つのスコア算出器Zのうち符号化器X1にCNNが使用されているスコア算出器Z1を用いて、スコア算出を行う。このとき、ステップS32においてスコア算出器Z1によって算出されたスコアが0.5より大きいタンパク質-化合物についてのみ、次のステップS33およびステップS34を実行する。つまり、ステップS32においてスコアが0.5以下であるタンパク質-化合物の組み合わせは探索の対象外と判定し(ステップS41)、ほかのスコア算出器Z2およびスコア算出器Z3を用いた計算を行わない。
【0094】
ステップS33およびステップS34では、まず、ステップS33において3つのスコア算出器Zのうち符号化器X1にAACが使用されているスコア算出器Z2を用いて、スコア算出を行う。このとき、ステップS34においてスコア算出器Z2によって算出されたスコアが0.5より大きいタンパク質-化合物についてのみ、次のステップS35およびステップS36を実行する。つまり、ステップS34においてスコアが0.5以下であるタンパク質-化合物の組み合わせは探索の対象外と判定し(ステップS41)、最後のスコア算出器Z3を用いた計算を行わない。
【0095】
さらに、ステップS35およびステップS36では、まず、ステップS35において3つのスコア算出器Zのうち符号化器X1にTransformerが使用されているスコア算出器Z3を用いて、スコア算出を行う。このとき、ステップS36においてスコア算出器Z3によって算出されたスコアが0.5より大きいタンパク質-化合物についてのみ、次のステップS37を実行する。つまり、ステップS36においてスコアが0.5以下であるタンパク質-化合物の組み合わせは探索の対象外と判定し(ステップS41)、調和平均に関する計算を行わない。
【0096】
最後に、ステップS37において、3つのスコアがいずれも0.5より大きかったタンパク質-化合物の組み合わせについてのみ、調和平均を算出する。このようにして調和平均が算出されたタンパク質-化合物の組み合わせの中から、相互作用が高い組み合わせを抽出する。
【0097】
上記の手順によれば、スコア算出器Z1~スコア算出器Z3のいずれかでスコアが0.5以下である化合物は、探索対象外と判定され(S41)、以降の計算が行われない。そのため、スクリーニングのように、相互作用が高いタンパク質-化合物の組み合わせを特定することが目的である場合には、計算量を抑制しながら、目的となるタンパク質-化合物の組み合わせ、すなわち、相互作用が高いと推定される組み合わせを特定することが可能となる。
【0098】
(実施形態に係る効果)
上記の相互作用推定方法、相互作用推定方法および相互作用推定プログラムによれば、第1工程としてのモデルの準備段階では、タンパク質を記述したアミノ酸の1次元配列から導出される特徴量と、化合物を記述した1次元表現から導出される特徴量と、を用いて、タンパク質と化合物との相互作用の程度を評価するためのモデルである相互作用評価モデルが準備される。そして、第2工程としての相互作用に係る特徴量の算出段階では、第2工程では、相互作用評価モデルを適用することで、相互関係が未知である、推定対象のタンパク質を記述したアミノ酸の1次元配列から特徴量を導出するとともに、推定対象の化合物を記述した1次元表現から特徴量を導出し、これらの特徴量に基づいて、タンパク質と化合物との相互作用に係る特徴量が算出される。このように、タンパク質を記述したアミノ酸の1次元配列と化合物を記述した1次元表現とを用いて相互作用を推定することが可能となるため、より簡単に準備できるデータから相互作用を推定することが可能となる。また、アミノ酸の1次元配列からの特徴量の導出と、化合物を記述した1次元表現からの特徴量の導出とには、互いに異なるアルゴリズムが用いられる。この場合、機械学習における学習プロセスが、アミノ酸の1次元配列からの特徴量の導出アルゴリズムと、化合物を記述した1次元表現からの特徴量の導出アルゴリズムと、で互いに異なるため、特定のアルゴリズムに偏らない学習が可能となり、より高い精度での推定が可能なモデルが準備され得る。
【0099】
また、上記実施形態のように、タンパク質を記述したアミノ酸の1次元配列から互いに異なる複数種類の手法を用いて、複数の特徴量を導出し、これらと化合物を記述した1次元表現から導出される特徴量との関係から、相互作用評価モデルを準備する構成とした場合、互いに異なる複数種類の手法を用いて導出された互いに異なる特徴に着目して導出された特徴量を利用した、より多面的な相互作用評価モデルが準備される。さらに、この相互作用評価モデルを用いて推定対象のタンパク質と化合物との相互作用に係る特徴量を算出することができるため、より高い精度で相互作用を推定することができる。
【0100】
また、相互作用の程度が既知であるタンパク質および化合物に係る情報として、相互作用の有無を評価した実験データとは異なる情報にも基づいて相互作用の程度が評価されているものである場合、実験データが得られていないようなタンパク質または化合物を含む組み合わせについても相互作用を評価したデータに基づいて相互作用評価モデルを作成することができる。そのため、実験データのしやすさによって精度が偏ることが防がれた相互作用評価モデルを準備することができる。したがって、タンパク質および化合物の組み合わせによらず高い精度での推定が可能となる。
【0101】
また、相互作用の程度が既知であるタンパク質および化合物に係る情報として、相互作用の程度が互いに異なるデータが略均等に準備されたものである場合、相互作用の程度によって精度が偏ることが防がれた相互作用評価モデルを準備することができる。したがって、タンパク質および化合物の組み合わせによらず高い精度での推定が可能となる。
【0102】
(変形例)
以上、実施形態について説明したが、本発明は必ずしも例示した実施形態に限定されるものではなく、その要旨を逸脱しない範囲で適宜変更可能である。
【0103】
例えば、相互作用推定装置1の装置構成は一例であり、適宜変更され得る。また、
図1では、相互作用推定装置1の各部が一体的に構成されている例を示したが、この構成は特に限定されない。一例として、記憶部30はクラウド等に設けられていてもよいし、相互作用評価モデル準備部10と相互作用推定部20とは互いに異なる装置であってもよい。
【0104】
また、上記実施形態において使用した機械学習のアルゴリズムは一例であり、上述の方法に限定されない。
【0105】
例えば、上記で説明したTransformerに関連するアルゴリズムとして、Reformer,BERT,GPT-3,BigBird等が知られている。これらは、いずれも上記の数式(7)で示した「Attention」をベースにした自然言語処理法である。このような、「Attention」をベースにした自然言語処理法についても、Transformerと同様にタンパク質のアミノ酸の1次元配列の符号化に適用できると考えられる。なお、上記実施形態で説明したTransformer以外のアルゴリズム(CNN,AAC,MPNN等)についても、上記のように類似の技術思想に基づくアルゴリズムに置換しても、上記実施形態と同様の効果が得られると考えられる。
【符号の説明】
【0106】
1…相互作用推定装置、10…相互作用評価モデル準備部、20…相互作用推定部、30…記憶部、11…教師データ取得部、12…特徴量算出部、13…機械学習部、21…対象データ取得部、22…個別特徴量算出部、23…推定スコア算出部、24…出力部、X1…符号化器、X2…符号化器、Y…識別器。