特開2022-184048 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人九州大学の特許一覧

特開2022-184048相互作用推定方法、相互作用推定装置および相互作用推定プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022184048

(43)【公開日】2022-12-13

(54)【発明の名称】相互作用推定方法、相互作用推定装置および相互作用推定プログラム

(51)【国際特許分類】

G16B 15/00 20190101AFI20221206BHJP

G06N 20/00 20190101ALI20221206BHJP

G16B 40/00 20190101ALI20221206BHJP

【ＦＩ】

G16B15/00

G06N20/00

G16B40/00

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2021091667

(22)【出願日】2021-05-31

(71)【出願人】

【識別番号】504145342

【氏名又は名称】国立大学法人九州大学

(74)【代理人】

【識別番号】100088155

【弁理士】

【氏名又は名称】長谷川芳樹

(74)【代理人】

【識別番号】100145012

【弁理士】

【氏名又は名称】石坂泰紀

(74)【代理人】

【識別番号】100182914

【弁理士】

【氏名又は名称】佐々木善紀

(72)【発明者】

【氏名】中山敬一

(72)【発明者】

【氏名】清水秀幸

(57)【要約】（修正有）

【課題】タンパク質と化合物との相互作用をより簡単に準備できるデータから高い精度で推定する相互作用推定方法、相互作用推定装置および相互作用推定プログラムを提供する。
【解決手段】相互作用推定方法は、相互作用の程度が既知であるタンパク質および化合物に係る情報に基づいて、機械学習によって、当該タンパク質を記述したアミノ酸の１次元配列から導出される特徴量と、化合物を記述した１次元表現から導出される特徴量と、を用いて、タンパク質と化合物との相互作用評価モデルを準備する第１工程と、相互作用評価モデルを適用することで、相互関係が未知である、推定対象のタンパク質を記述したアミノ酸の１次元配列から特徴量を導出するとともに、推定対象の化合物を記述した１次元表現から特徴量を導出し、これらに基づいて、タンパク質と化合物との相互作用に係る特徴量を算出する第２工程と、を含む。
【選択図】図７

【特許請求の範囲】

【請求項1】

相互作用の程度が既知であるタンパク質および化合物に係る情報に基づいて、機械学習によって、当該タンパク質を記述したアミノ酸の１次元配列から導出される特徴量と、化合物を記述した１次元表現から導出される特徴量と、を用いて、タンパク質と化合物との相互作用の程度を評価するためのモデルである相互作用評価モデルを準備する第１工程と、
前記相互作用評価モデルを適用することで、相互関係が未知である、推定対象のタンパク質を記述したアミノ酸の１次元配列から特徴量を導出するとともに、推定対象の化合物を記述した１次元表現から特徴量を導出し、これらの特徴量に基づいて、タンパク質と化合物との相互作用に係る特徴量を算出する第２工程と、を含み、
前記アミノ酸の１次元配列からの特徴量の導出と、前記化合物を記述した１次元表現からの特徴量の導出とには、互いに異なるアルゴリズムが使用される、相互作用推定方法。

【請求項2】

前記第１工程において、前記タンパク質を記述したアミノ酸の１次元配列から、互いに異なる複数種類の手法を用いて、複数の特徴量を導出するとともに、前記複数の特徴量のそれぞれと前記化合物を記述した１次元表現から導出される特徴量との関係から、前記相互作用評価モデルを準備し、
前記第２工程において、前記相互作用評価モデルを適用することで、前記推定対象のタンパク質を記述したアミノ酸の１次元配列から、前記複数の手法を用いて、複数の特徴量を導出し、前記複数の特徴量のそれぞれと前記化合物を記述した１次元表現から導出される特徴量とに基づいて、タンパク質と化合物との相互作用に係る特徴量を算出する、請求項１に記載の相互作用推定方法。

【請求項3】

前記第１工程において用いられる、相互作用の程度が既知であるタンパク質および化合物に係る情報とは、相互作用の有無を評価した実験データとは異なる情報にも基づいて、相互作用の程度が評価されている情報である、請求項１または２に記載の相互作用推定方法。

【請求項4】

前記第１工程において用いられる、相互作用の程度が既知であるタンパク質および化合物に係る情報とは、相互作用の程度が互いに異なるデータが略均等に準備されたものである、請求項１～３のいずれか一項に記載の相互作用推定方法。

【請求項5】

相互作用の程度が既知であるタンパク質および化合物に係る情報に基づいて、機械学習によって、当該タンパク質を記述したアミノ酸の１次元配列から導出される特徴量と、化合物を記述した１次元表現から導出される特徴量と、を用いて、タンパク質と化合物との相互作用の程度を評価するためのモデルである相互作用評価モデルを準備するモデル準備部と、
前記相互作用評価モデルを適用することで、相互関係が未知である、推定対象のタンパク質を記述したアミノ酸の１次元配列から特徴量を導出するとともに、推定対象の化合物を記述した１次元表現から特徴量を導出し、これらの特徴量に基づいて、タンパク質と化合物との相互作用に係る特徴量を算出する相互作用特徴量算出部と、を含み、
前記アミノ酸の１次元配列からの特徴量の導出と、前記化合物を記述した１次元表現からの特徴量の導出とには、互いに異なるアルゴリズムが使用される、相互作用推定装置。

【請求項6】

タンパク質と化合物との相互作用を推定する相互作用推定装置としてコンピュータを機能させるための相互作用推定プログラムであって、
相互作用の程度が既知であるタンパク質および化合物に係る情報に基づいて、機械学習によって、当該タンパク質を記述したアミノ酸の１次元配列から導出される特徴量と、化合物を記述した１次元表現から導出される特徴量と、を用いて、タンパク質と化合物との相互作用の程度を評価するためのモデルである相互作用評価モデルを準備するモデル準備機能と、
前記相互作用評価モデルを適用することで、相互関係が未知である、推定対象のタンパク質を記述したアミノ酸の１次元配列から特徴量を導出するとともに、推定対象の化合物を記述した１次元表現から特徴量を導出し、これらの特徴量に基づいて、タンパク質と化合物との相互作用に係る特徴量を算出する相互作用特徴量算出機能と、
を含み、
前記アミノ酸の１次元配列からの特徴量の導出と、前記化合物を記述した１次元表現からの特徴量の導出とには、互いに異なるアルゴリズムが使用される、相互作用推定プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、相互作用推定方法、相互作用推定装置および相互作用推定プログラムに関する。

【背景技術】

【0002】

タンパク質と化合物との相互作用を予測する方法として、特許文献１には、第１の相互作用をする第１のタンパク質と化合物のペア及び第２の相互作用をする第２のタンパク質と化合物のペアに対して、第１のペアが属するクラス及び第２のペアが属するクラスを識別するパターン認識器に係る技術が記載されている。特許文献１では、各化合物について得られたマススペクトルデータの少なくとも１つの因子をベクトル化し、タンパク質のベクトルと結合させてサポートベクターマシン（ＳＶＭ）を適用して学習させる構成が示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】国際公開第２００８／０５３９２４号

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、特許文献１の手法では、化合物のマススペクトルデータを予め準備する必要があるため、マススペクトルデータが存在しない化合物については相互作用を予測することが難しいという課題があった。

【0005】

本開示は上記を鑑みてなされたものであり、タンパク質と化合物との相互作用を、より簡単に準備できるデータから高い精度で推定することが可能な技術を提供することを目的とする。

【課題を解決するための手段】

【0006】

上記目的を達成するため、本開示の一形態に係る相互作用推定方法は、相互作用の程度が既知であるタンパク質および化合物に係る情報に基づいて、機械学習によって、当該タンパク質を記述したアミノ酸の１次元配列から導出される特徴量と、化合物を記述した１次元表現から導出される特徴量と、を用いて、タンパク質と化合物との相互作用の程度を評価するためのモデルである相互作用評価モデルを準備する第１工程と、前記相互作用評価モデルを適用することで、相互関係が未知である、推定対象のタンパク質を記述したアミノ酸の１次元配列から特徴量を導出するとともに、推定対象の化合物を記述した１次元表現から特徴量を導出し、これらの特徴量に基づいて、タンパク質と化合物との相互作用に係る特徴量を算出する第２工程と、を含み、前記アミノ酸の１次元配列からの特徴量の導出と、前記化合物を記述した１次元表現からの特徴量の導出とには、互いに異なるアルゴリズムが使用される。

【0007】

上記の相互作用推定方法によれば、第１工程では、タンパク質を記述したアミノ酸の１次元配列から導出される特徴量と、化合物を記述した１次元表現から導出される特徴量と、を用いて、タンパク質と化合物との相互作用の程度を評価するためのモデルである相互作用評価モデルが準備される。そして、第２工程では、相互作用評価モデルを適用することで、相互関係が未知である、推定対象のタンパク質を記述したアミノ酸の１次元配列から特徴量を導出するとともに、推定対象の化合物を記述した１次元表現から特徴量を導出し、これらの特徴量に基づいて、タンパク質と化合物との相互作用に係る特徴量が算出される。このように、タンパク質を記述したアミノ酸の１次元配列と化合物を記述した１次元表現とを用いて相互作用を推定することが可能となるため、より簡単に準備できるデータから相互作用を推定することが可能となる。また、アミノ酸の１次元配列からの特徴量の導出と、化合物を記述した１次元表現からの特徴量の導出とには、互いに異なるアルゴリズムが用いられる。この場合、機械学習における学習プロセスが、アミノ酸の１次元配列からの特徴量の導出アルゴリズムと、化合物を記述した１次元表現からの特徴量の導出アルゴリズムと、で互いに異なるため、特定のアルゴリズムに偏らない学習が可能となり、より高い精度での推定が可能なモデルが準備され得る。

【0008】

前記第１工程において、前記タンパク質を記述したアミノ酸の１次元配列から、互いに異なる複数種類の手法を用いて、複数の特徴量を導出するとともに、前記複数の特徴量のそれぞれと前記化合物を記述した１次元表現から導出される特徴量との関係から、前記相互作用評価モデルを準備し、前記第２工程において、前記相互作用評価モデルを適用することで、前記推定対象のタンパク質を記述したアミノ酸の１次元配列から、前記複数の手法を用いて、複数の特徴量を導出し、前記複数の特徴量のそれぞれと前記化合物を記述した１次元表現から導出される特徴量とに基づいて、タンパク質と化合物との相互作用に係る特徴量を算出する態様としてもよい。

【0009】

上記のように、タンパク質を記述したアミノ酸の１次元配列から互いに異なる複数種類の手法を用いて、複数の特徴量を導出し、これらと化合物を記述した１次元表現から導出される特徴量との関係から、相互作用評価モデルを準備する構成とした場合、互いに異なる複数種類の手法を用いて導出された互いに異なる特徴に着目して導出された特徴量を利用した、より多面的な相互作用評価モデルが準備される。さらに、この相互作用評価モデルを用いて推定対象のタンパク質と化合物との相互作用に係る特徴量を算出することができるため、より高い精度で相互作用を推定することができる。

【0010】

前記第１工程において用いられる、相互作用の程度が既知であるタンパク質および化合物に係る情報とは、相互作用の有無を評価した実験データとは異なる情報にも基づいて、相互作用の程度が評価されている情報である態様としてもよい。

【0011】

上記のように、相互作用の程度が既知であるタンパク質および化合物に係る情報として、相互作用の有無を評価した実験データとは異なる情報にも基づいて相互作用の程度が評価されているものである場合、実験データが得られていないようなタンパク質または化合物を含む組み合わせについても相互作用を評価したデータに基づいて相互作用評価モデルを作成することができる。そのため、実験データのしやすさによって精度が偏ることが防がれた相互作用評価モデルを準備することができる。したがって、タンパク質および化合物の組み合わせによらず高い精度での推定が可能となる。

【0012】

前記第１工程において用いられる、相互作用の程度が既知であるタンパク質および化合物に係る情報とは、相互作用の程度が互いに異なるデータが略均等に準備されたものである態様としてもよい。

【0013】

上記のように、相互作用の程度が既知であるタンパク質および化合物に係る情報として、相互作用の程度が互いに異なるデータが略均等に準備されたものである場合、相互作用の程度によって精度が偏ることが防がれた相互作用評価モデルを準備することができる。したがって、タンパク質および化合物の組み合わせによらず高い精度での推定が可能となる。

【0014】

本開示の一形態に係る相互作用推定装置は、相互作用の程度が既知であるタンパク質および化合物に係る情報に基づいて、機械学習によって、当該タンパク質を記述したアミノ酸の１次元配列から導出される特徴量と、化合物を記述した１次元表現から導出される特徴量と、を用いて、タンパク質と化合物との相互作用の程度を評価するためのモデルである相互作用評価モデルを準備するモデル準備部と、前記相互作用評価モデルを適用することで、相互関係が未知である、推定対象のタンパク質を記述したアミノ酸の１次元配列から特徴量を導出するとともに、推定対象の化合物を記述した１次元表現から特徴量を導出し、これらの特徴量に基づいて、タンパク質と化合物との相互作用に係る特徴量を算出する相互作用特徴量算出部と、を含み、前記アミノ酸の１次元配列からの特徴量の導出と、前記化合物を記述した１次元表現からの特徴量の導出とには、互いに異なるアルゴリズムが使用される。

【0015】

上記の相互作用推定装置によれば、モデル準備部では、タンパク質を記述したアミノ酸の１次元配列から導出される特徴量と、化合物を記述した１次元表現から導出される特徴量と、を用いて、タンパク質と化合物との相互作用の程度を評価するためのモデルである相互作用評価モデルが準備される。そして、相互作用特徴量算出部では、相互作用評価モデルを適用することで、相互関係が未知である、推定対象のタンパク質を記述したアミノ酸の１次元配列から特徴量を導出するとともに、推定対象の化合物を記述した１次元表現から特徴量を導出し、これらの特徴量に基づいて、タンパク質と化合物との相互作用に係る特徴量が算出される。このように、タンパク質を記述したアミノ酸の１次元配列と化合物を記述した１次元表現とを用いて相互作用を推定することが可能となるため、より簡単に準備できるデータから相互作用を推定することが可能となる。また、アミノ酸の１次元配列からの特徴量の導出と、化合物を記述した１次元表現からの特徴量の導出とには、互いに異なるアルゴリズムが用いられる。この場合、機械学習における学習プロセスが、アミノ酸の１次元配列からの特徴量の導出アルゴリズムと、化合物を記述した１次元表現からの特徴量の導出アルゴリズムと、で互いに異なるため、特定のアルゴリズムに偏らない学習が可能となり、より高い精度での推定が可能なモデルが準備され得る。

【0016】

本開示の一形態に係る相互作用推定プログラムは、タンパク質と化合物との相互作用を推定する相互作用推定装置としてコンピュータを機能させるための相互作用推定プログラムであって、相互作用の程度が既知であるタンパク質および化合物に係る情報に基づいて、機械学習によって、当該タンパク質を記述したアミノ酸の１次元配列から導出される特徴量と、化合物を記述した１次元表現から導出される特徴量と、を用いて、タンパク質と化合物との相互作用の程度を評価するためのモデルである相互作用評価モデルを準備するモデル準備機能と、前記相互作用評価モデルを適用することで、相互関係が未知である、推定対象のタンパク質を記述したアミノ酸の１次元配列から特徴量を導出するとともに、推定対象の化合物を記述した１次元表現から特徴量を導出し、これらの特徴量に基づいて、タンパク質と化合物との相互作用に係る特徴量を算出する相互作用特徴量算出機能と、を含み、前記アミノ酸の１次元配列からの特徴量の導出と、前記化合物を記述した１次元表現からの特徴量の導出とには、互いに異なるアルゴリズムが使用される。

【0017】

上記の相互作用推定プログラムによれば、モデル準備機能では、タンパク質を記述したアミノ酸の１次元配列から導出される特徴量と、化合物を記述した１次元表現から導出される特徴量と、を用いて、タンパク質と化合物との相互作用の程度を評価するためのモデルである相互作用評価モデルが準備される。そして、相互作用特徴量算出機能では、相互作用評価モデルを適用することで、相互関係が未知である、推定対象のタンパク質を記述したアミノ酸の１次元配列から特徴量を導出するとともに、推定対象の化合物を記述した１次元表現から特徴量を導出し、これらの特徴量に基づいて、タンパク質と化合物との相互作用に係る特徴量が算出される。このように、タンパク質を記述したアミノ酸の１次元配列と化合物を記述した１次元表現とを用いて相互作用を推定することが可能となるため、より簡単に準備できるデータから相互作用を推定することが可能となる。また、アミノ酸の１次元配列からの特徴量の導出と、化合物を記述した１次元表現からの特徴量の導出とには、互いに異なるアルゴリズムが用いられる。この場合、機械学習における学習プロセスが、アミノ酸の１次元配列からの特徴量の導出アルゴリズムと、化合物を記述した１次元表現からの特徴量の導出アルゴリズムと、で互いに異なるため、特定のアルゴリズムに偏らない学習が可能となり、より高い精度での推定が可能なモデルが準備され得る。

【発明の効果】

【0018】

本開示によれば、タンパク質と化合物との相互作用をより簡単に準備できるデータから高い精度で推定することが可能な技術が提供される。

【図面の簡単な説明】

【0019】

【図1】図１は、相互作用推定装置の装置構成を説明するブロック図である。

【図2】図２は、相互作用推定装置において使用するスコア算出器を説明する図である。

【図3】図３は、相互作用推定装置で使用する相互作用評価モデルの構成例を説明する図である。

【図4】図４は、教師データの一例を示す図である。

【図5】図５は、相互作用推定プログラムの構成を説明する図である。

【図6】図６は、相互作用推定装置のハードウェア構成を説明する図である。

【図7】図７は、相互作用推定方法の一例を示す図である。

【図8】図８は、相互作用推定方法の一例を示す図である。

【図9】図９は、相互作用推定方法の一例を示す図である。

【図10】図１０（Ａ）および図１０（Ｂ）は、相互作用評価モデルの精度の検証結果を示す図である。

【図11】図１１は、スクリーニングを行う際の処理手順の一例を示す図である。

【発明を実施するための形態】

【0020】

以下、実施形態について、図面を参照しつつ詳細に説明する。説明において、同一要素又は同一機能を有する要素には同一の符号を付し、重複する説明を省略する。

【0021】

（相互作用推定装置）
図１は一実施形態に係る相互作用推定装置１を模式的に示す図である。図１に示す相互作用推定装置１は、例えば、タンパク質と化合物との相互作用とを推定する装置である。

【0022】

タンパク質と化合物との相互関係の有無は、例えば、創薬シーズの探索におけるスクリーニング等で評価され得る。一般的には、ハイスループットスクリーニングやドッキングシミュレーション等を用いてタンパク質と化合物との相互関係が評価される。しかしながら、上記のいずれの手法についても、創薬シーズの探索においては、十分であるとはいえない場合があった。特にドッキングシミュレーションのような計算的アプローチでは、タンパク質の３次元構造情報が必要となるため、利用可能なタンパク質が限られているという問題もあった。これに対して、相互作用推定装置１は、タンパク質の３次元構造を用いる代わりに、アミノ酸の１次元配列を出発点として相互作用を評価することを特徴としている。また、化合物についても、１次元表現を出発点としている。以下、その詳細について説明する。

【0023】

図１に示すように、相互作用推定装置１は、相互作用評価モデル準備部１０、相互作用推定部２０（相互作用特徴量算出部）、および記憶部３０を有する。また、相互作用評価モデル準備部１０は、教師データ取得部１１、特徴量算出部１２および機械学習部１３を含んで構成され、相互作用推定部２０は、対象データ取得部２１、個別特徴量算出部２２、推定スコア算出部２３および出力部２４を含んで構成される。なお、相互作用推定装置１は、タンパク質および化合物に関するデータベースＤ１からデータを取得して相互作用を評価するためのモデルを作成する。さらに、相互作用推定装置１は、対象データＤ２を取得し、対象データＤ２に係る相互作用を推定する。

【0024】

相互作用評価モデル準備部１０は、相互作用推定装置１において相互作用を評価するためのモデルを準備する機能を有する。相互作用を評価するためのモデルとは、対象データＤ２に係る相互作用を推定する際に利用するモデルであり、データベースＤ１において保持されるデータに基づく機械学習によって作成される。相互作用推定装置１では、相互作用を推定する際に、タンパク質に関するアミノ酸の１次元配列と、化合物の化学式と、をそれぞれ数値ベクトルに変換する。そして、２つの数値ベクトルから、その関係性を示すスコアを算出する。このスコアが相互作用に対応する。

【0025】

相互作用に係るスコアの算出方法について、図２を参照しながら説明する。図２では、タンパク質および化合物に係る数値ベクトルを算出する２つの符号化器Ｘ１，符号化器Ｘ２と、符号化器Ｘ１，符号化器Ｘ２で算出された数値ベクトルからスコアを算出する識別器Ｙと、を示している。符号化器Ｘ１は、タンパク質に係る数値ベクトルを算出する符号化器であり、符号化器Ｘ２は、化合物に係る数値ベクトルを算出する符号化器である。

【0026】

符号化器Ｘ１は、タンパク質のアミノ酸１次元配列から数値ベクトルを算出する。アミノ酸１次元配列から数値ベクトルへの変換は、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＡＡＣ（ＡｍｉｎｏＡｃｉｄＣｏｍｐｏｓｉｔｉｏｎ）、Ｔｒａｎｓｆｏｒｍｅｒ等によって行われる。ＣＮＮ、ＡＡＣ、Ｔｒａｎｓｆｏｒｍｅｒは、いずれも、公知の手法であり、タンパク質の特徴に関連した情報を用いたベクトル変換の方法である。ただし、これらはタンパク質における互いに異なる特徴に着目したものである。例えば、ＣＮＮは、タンパク質内の近接するアミノ酸の関係を考慮した数値ベクトルが得られ、ＡＡＣは、タンパク質の物理化学的性質に着目した数値ベクトルが得られる。さらに、Ｔｒａｎｓｆｏｒｍｅｒは、タンパク質内の離れた場所にあるアミノ酸を加味しベクトル表現が得られる。アミノ酸１次元配列の数値ベクトルへの変換を行うことで、数値ベクトルの組み込み表現（Ｅｍｂｅｄｄｅｄｒｅｐｒｅｓｅｎｔａｔｉｏｎ）が得られる。

【0027】

上記のＣＮＮ、ＡＡＣ、Ｔｒａｎｓｆｏｒｍｅｒについて概略を説明する。

【0028】

ＣＮＮは例えば、以下の手順で計算が行われる。アミノ酸配列を、重複を許してｎ－グラムに分割する。ここではｎ＝３を使ったが、任意のｎでよい。例えばＭＳＴＡＶという配列であれば、”ＭＳＴ”、”ＳＴＡ”、”ＴＡＶ”となる。ｉ番目のアミノ酸の数値表現（初期値はランダムに定める）をｘ_ｉ、［ｘ_ｉ；ｘ_ｉ＋１；ｘ_ｉ＋２］をｘ_ｉ，ｘ_ｉ＋１，ｘ_ｉ＋２を結合したものとすれば、上述の３－グラムは［ｘ_１，ｘ_２，ｘ_３］，［ｘ_２，ｘ_３，ｘ_４］，…と表現できる。

【0029】

ここで、ＣＮＮで統合するアミノ酸数（カーネルサイズ）をｗとしｘ_{ｉ：ｉ＋ｗ－１}を［ｘ_ｉ，ｘ_ｉ＋１，…，ｘ_{ｉ＋ｗ－１}］と定義し、これをｈ_ｉ ^（０）とする。重みＷおよびバイアスｂ、非線形の活性化関数ｆとしたとき、最初の畳み込みにより下記の数式（１）に変更される。

【0030】

【数1】

【0031】

畳み込み演算をＴ回繰り返すことで、｛ｈ_１ ^（Ｔ），ｈ_２ ^（Ｔ），…，ｈ_ｌ ^（Ｔ）｝が得られる。この平均を、そのアミノ酸配列の（ＣＮＮによる）埋め込み表現Ｅ_{ｐ（ＣＮＮ）}と定義する。

【0032】

ＡＡＣは、昔から使われてきた既知の方法であり、そのアミノ酸位置における（２０アミノ酸の）相対的な頻度を指標にした数値変換を行う。この値を、タンパクの埋め込み表現Ｅ_{ｐ（ＡＡＣ）}と定義する。

【0033】

Ｔｒａｎｓｆｏｒｍｅｒは、もともとは自然言語処理（例えば、外国語の翻訳等）を行うためのＡＩとして開発されたものであり、言語を符号化するｅｎｃｏｄｅｒと、そこから別の言語に翻訳するｄｅｃｏｄｅｒの２つに大きく分かれている。本件の場合、ｅｎｃｏｄｅｒの部分に着想を経てアミノ酸配列を数値化している。

【0034】

具体的には、以下の手順で行う。まず、アミノ酸配列（Ｌ残基だとする）の各残基をｄ次元の埋め込み表現ベクトル（アミノ酸配列全体ではＬ×ｄのテンソル）にする。そこに「アミノ酸の位置情報（ＰｏｓｉｔｉｏｎＥｆｆｅｃｔ，ＰＥ）」を加えるために、ｐｏｓという位置の２ｉおよび２ｉ＋１次元目の情報について以下の２つの数式（２），（３）に示す計算を行い、それぞれ加える。

【0035】

【数2】

【0036】

このように、「残基の内容＋位置」を反映させたテンソルＩｎｐｕｔ_１をニューラルネットワークに流すことで計算を行う。

【0037】

（繰り返し手順）
まず、重みＷ_Ｑ１，Ｗ_Ｋ１，およびＷ_Ｖ１を定義し、Ｉｎｐｕｔ_１との積をとることで、下記の数式（４）～（６）を計算する。

【0038】

【数3】

【0039】

上記の数式（４）～（６）の計算結果をそれぞれＱ，Ｋ，Ｖと改名し、数式（７）に示すＡｔｔｅｎｔｉｏｎを定義する。なお、数式（７）におけるｓｏｆｔｍａｘとは、機械学習界隈で一般的に使われているｓｏｆｔｍａｘ関数のことである。

【0040】

【数4】

【0041】

実際には、このＡｔｔｅｎｔｉｏｎ計算からなるユニット（ｈｅａｄと呼ぶことにする）を任意の数だけ用意し、それぞれの出力値をまとめ（ｃｏｎｃａｔ）、そこに学習で決定される重み行列Ｗ_ｏを乗じる。例えばｈ個のｈｅａｄを使用するのであれば、それらを統合したＭｕｌｔｉＨｅａｄは数式（８）のように記述される。

【0042】

【数5】

【0043】

ここに、Ａｔｔｅｎｔｉｏｎに通す前に用意していたＩｎｐｕｔ_１を加えたものをＨｉｄｄｅｎ１と定義する。すなわち以下の数式（９）のように定義される。

Ｈｉｄｄｅｎ_１＝Ｉｎｐｕｔ_１＋ＭｕｌｔｉＨｅａｄＡｔｔｅｎｔｉｏｎ（Ｑ，Ｋ，Ｖ）
…（９）

【0044】

学習される重みＷ_１，Ｗ_２，バイアスｂ_１，ｂ_２を使って、数式（１０）に示す第１段階の出力Ｏｕｔｐｕｔ_１を算出する。

【0045】

【数6】

【0046】

上記のＯｕｔｐｕｔ_１をＩｎｐｕｔ_２と置き換え、上述の繰り返し手順、すなわち、数式（４）以降の計算を、繰り返す。
最終的にＮ回の繰り返し計算を行った時点での出力Ｏｕｔｐｕｔ_Ｎ（例えば、Ｎ＝６としてもよい）をそのアミノ酸配列の（Ｔｒａｎｓｆｏｒｍｅｒによる）埋め込み表現Ｅ_{ｐ（Ｔｒａｎｓｆｏｒｍｅｒ）}と定義する。

【0047】

上述のＣＮＮ、ＡＡＣ、Ｔｒａｎｓｆｏｒｍｅｒは、互いに異なる手法で特徴量としての埋め込み表現を算出している。そのため、同じアミノ酸１次配列を用いた場合であっても、埋め込み表現を生成するまでの処理内容が互い異なるため、結果として得られる埋め込み表現が互いに異なる。したがって、同一のアミノ酸１次配列を使用しながら、１次配列における異なる特徴に着目した埋め込み表現が複数得られるということになる。そのため、この３種類の手法を組み合わせることによって、１つのタンパク質（アミノ酸１次配列）に係る多様な特徴に着目した特徴量が得られるということがいえる。

【0048】

符号化器Ｘ２は、化合物の１次元表現から構造式に変換し、構造式から数値ベクトルを算出する。化合物の１次元表現としては、例えば、ＳＭＩＬＥＳ（ＳｉｍｐｌｉｆｉｅｄＭｏｌｅｃｕｌａｒＩｎｐｕｔＬｉｎｅＥｎｔｒｙＳｐｅｃｉｆｉｃａｔｉｏｎｓｙｎｔａｘ）記法で記載された化学式を用いることができる。ＳＭＩＬＥＳ記法で記載されたデータが準備できていると、３次元構造すなわち構造式への変換が可能である。化合物の数値ベクトルへの変換を行うことで、数値ベクトルの組み込み表現（Ｅｍｂｅｄｄｅｄｒｅｐｒｅｓｅｎｔａｔｉｏｎ）が得られる。なお、ＳＭＩＬＥＳ記法に限定されず、その他の手法で１次元表現であってもよい。つまり、構造式への変換が可能な１次元表記であれば、その種類は特に限定されない。

【0049】

化合物の構造式から数値ベクトルへの変換は、ＭＰＮＮ（ＭｅｓｓａｇｅＰａｓｓｉｎｇＮｅｕｒａｌＮｅｔｗｏｒｋ）等によって行われる。ＭＰＮＮは公知の手法であるが、その概略について説明する。

【0050】

とある化合物Ｃについて、その構成元素ｅをそれぞれ結合ｂでつながった無向グラフと考える。このとき、それぞれの元素ｅにランダムに初期化した数値ベクトルを与える。

【0051】

時刻ｔにおける元素ｅの数値ベクトルを隠れ状態ｈ_ｅ ^ｔ、その元素ｅに隣接する元素をｖ，ｅとｖの間の結合をｂ_ｅｖと表記する。このとき、元素ｅに隣接元素から時刻ｔ＋１において渡される情報（ｍｅｓｓａｇｅｐａｓｓｉｎｇ）は、任意の関数をＭ_ｔとして下記の数式（１１）で記述され得る。

【数7】

また、元素ｅは自身が時刻ｔにおいてもともと持っていた情報と周りから渡された情報ｍをもとに時刻ｔ＋１において自分自身を数式（１２）に示すように更新する。なお、Ｕ_ｔは任意の関数である。

【数8】

上記の情報伝達および更新に係る処理をＴ回繰り返し、最終的に化合物Ｃに属するすべての元素ｅの数値ベクトルを関数Ｒに代入して、数式（１３）に示すように化合物Ｃの数値表現Ｅｃを読み取る（ｒｅａｄｏｕｔ）。なお、数式（１３）における関数Ｒはベクトルの各要素の最大値をとる関数ｍａｘや平均をとるｍｅａｎ，中央値を選択するｍｅｄｉａｎ等が使われる。

【数9】

【0052】

符号化器Ｘ２で用いられるアルゴリズムは、ＭＰＮＮ（ＭｅｓｓａｇｅＰａｓｓｉｎｇＮｅｕｒａｌＮｅｔｗｏｒｋ）とは異なるものであってもよい。ただし、符号化器Ｘ１で用いられるアルゴリズム（本実施形態では、ＣＮＮ、ＡＡＣ、およびＴｒａｎｓｆｏｒｍｅｒ）とは異なるアルゴリズムが用いられ得る。なお、ＭＰＮＮは化学式の長さによらず、化合物Ｃごとに適切な数値表現Ｅｃを導出することができるという点で、他の手法よりも優位である。

【0053】

化合物に対する符号化器において、ＭＰＮＮがＣＮＮよりも優位である点について説明する。なお、ＣＮＮには画像で使われる２次元ＣＮＮと、順番に意味があるときに使われる１次元ＣＮＮがある。このうち、符号化器Ｘ１で用いられているＣＮＮ（すなわち、タンパク質のアミノ酸１次元配列の分析に用いられるＣＮＮ）とは、１次元ＣＮＮである。一方、化合物は元素と化学結合からなるため、それぞれ頂点と辺と考えると数学的なグラフとみなすことができる。グラフはそれぞれの頂点（ノード）に接続する辺（エッジ）の数が違うので、画像のようなグリッド状のデータを処理する２次元ＣＮＮは適用できないと考えられる。一方、タンパクと同じく１次元ＣＮＮを使って化合物の符号化を行うことは考えられる。ただし、この場合はＳＭＩＬＥＳ記法で記述された化学式を直接学習することが必要となる。この場合、ＳＭＩＬＥＳ記法による化学式についてＣＮＮを用いた符号化を行うことで、化合物の形状を推定し、その形からクトル表現を推定する、所謂２段階の推定が発生し得る。これに対して、本実施形態で説明するように、ＳＭＩＬＥＳを翻訳して化合物を２次元の構造式に変換した後にＭＰＮＮでベクトル表現を推定するほうが、推定の回数が少ないためより優位となると考えられる。

【0054】

識別器Ｙは、アミノ酸１次元配列および化合物の数値ベクトル（の組み込み表現）から、その関係性を示すスコアを算出する識別器である。識別器Ｙは、ニューラルネットワーク（例えば、ｄｅｎｓｅｎｅｕｒａｌｎｅｔｗｏｒｋ）によって、２つの数値ベクトルを１つのスコアへ変換する。識別器Ｙによる計算を行うことで、最終的に１つのスコアが算出される。スコアは、例えば、０～１の範囲で設定され得る。

【0055】

ニューラルネットワークは、例えば以下の計算を行う。これまでの符号化器におけるステップにより、化合物の符号化ベクトルＥ_ｃと、タンパク質の符号化ベクトルＥ_ｐが得られた。識別器の入力に使うベクトルは、これらを単純に連結してつくる。化合物側がＣ次元、タンパク質側がＰ次元なら、この連結によりＣ＋Ｐ次元のベクトルができる。このＣ＋Ｐ次元のベクトルを任意の階層の全結合層（隠れ層）を通した後、最終的に１つの出力層につなげている。この結果、１つのスコアが得られる。

【0056】

このように、符号化器Ｘ１、符号化器Ｘ２および識別器Ｙを組み合わせると、タンパク質のアミノ酸１次配列と化合物の化学式（ＳＭＩＬＥＳ記法で記載された化学式）から、タンパク質－化合物間の相互作用に対応するスコアを算出することができる。符号化器Ｘ１、符号化器Ｘ２および識別器Ｙの組み合わせを、相互作用を評価するためのスコアを算出するための１つのスコア算出器Ｚとする。

【0057】

ここで、上述のように、符号化器Ｘ１に使用され得るアルゴリズムは複数種類あるため、符号化器Ｘ１に使用するアルゴリズムを変更すると、互いに異なるスコア算出器Ｚが得られることになる。このとき、互いに異なるスコア算出器Ｚでは、同一のタンパク質および化合物から互いに異なる数値ベクトルが得られ、その結果、互いに異なるスコアが算出され得る。したがって、これらを組み合わせることで相互作用に関する多面的な評価を行ったスコアを算出することができる。

【0058】

図３は、３種類のアルゴリズムを用いて、３種類のスコア算出器Ｚ（符号化器－識別器の組み合わせ）を作成した例を示している。図３では、符号化器Ｘ１においてＣＮＮを利用したスコア算出器Ｚ１と、符号化器Ｘ１においてＡＡＣを使用したスコア算出器Ｚ２と、符号化器Ｘ１においてＴｒａｎｓｆｏｒｍｅｒを使用したスコア算出器Ｚ３と、を示している。３つのスコア算出器Ｚ（Ｚ１～Ｚ３）では、それぞれスコアが算出される。この３つのスコアから新たな１つのスコアを算出すると、３種類のアルゴリズムが考慮されたスコアが得られる。図３に示す例では、３つのスコアの調和平均を求めることで、最終的に１つのスコア（相互作用推定スコア；図３ではＡｆｆｉｎｉｔｙＳｃｏｒｅ）が得られる。このように、符号化器Ｘ１に適用できるアルゴリズムが複数種類存在することを利用して、これらを組み合わせることで、相互作用に係るスコアを算出する構成としてもよい。以下の実施形態では、図３に示す３種類のスコア算出器Ｚ（Ｚ１～Ｚ３）を用いて算出されるスコアを組み合わせて、最終的に１つのスコア（相互作用を推定するスコア）を算出する場合について説明する。すなわち、本実施形態では、図３に示す構成を相互作用推定に使用するモデルの構成として取り扱う。

【0059】

上述のように、図２および図３に示すスコア算出器Ｚを構成する符号化器Ｘ１、符号化器Ｘ２および識別器Ｙでは、いずれも機械学習に係るアルゴリズムを用いた計算が行われる。そのため、相互作用を評価するためのモデルを作成する際には、スコアが既知のタンパク質と化合物とに係るデータ（教師データ）を準備し、スコア算出器Ｚにおいて符号化器Ｘ１、符号化器Ｘ２および識別器Ｙを用いてスコアを算出する。そして、予め得られている正解スコアと、スコア算出器Ｚによって算出されたスコアとを比較する。そして正解スコアとの差分がより小さくなるように符号化器Ｘ１、符号化器Ｘ２および識別器Ｙをそれぞれ訓練される。つまり、スコア算出器Ｚでは符号化器と識別器との両方について、教師データによる訓練が行われる。また、図３に示すように３つのスコア算出器Ｚから１つの相互作用推定スコアが得られる場合、相互作用推定スコアが教師データにおける正解スコアと一致するように、訓練が行われる。

【0060】

スコア算出器Ｚにおける機械学習（訓練）に使用される教師データは、図１に示すデータベースＤ１から提供され得る。データベースＤ１は、タンパク質のアミノ酸１次元配列と、化合物の化学式（例えば、ＳＭＩＬＥＳ記法により記載された化学式）と、タンパク質－化合物間の相互作用に係るスコアと、が対応付けられたデータを格納するデータベースである。データベースＤ１としては、例えば、ＳＴＩＴＣＨ（ｓｅａｒｃｈｔｏｏｌｆｏｒｉｎｔｅｒａｃｔｉｏｎｓｏｆｃｈｅｍｉｃａｌｓ）を利用することができる。ＳＴＩＴＣＨは、代謝経路、結晶構造、結合実験、および薬物と標的の関係からの相互作用に関する情報を統合するデータベースである。また、ＳＴＩＴＣＨでは、表現型効果、テキストマイニング、および化学構造の類似性から推測される情報を使用して、化学物質間の関係を予測したデータも含まれている。このように、ＳＴＩＴＣＨは、タンパク質および化合物の相互作用の有無を評価した実験データとは異なる情報が含まれたデータベースである。したがって、本実施形態に示すように、タンパク質と化合物との相互作用が既知であるデータを利用したい場合には、ＳＴＩＴＣＨは教師データの抽出に適したデータベースとなり得る。

【0061】

図４に、ＳＴＩＴＣＨから得られた、教師データとして使用され得るデータの一例を示す。図４では、ＳＭＩＬＥＳ記法で記述された化合物データ（ＳＭＩＬＥＳ）と、タンパク質のアミノ酸の１次元配列（ＴａｒｇｅｔＳｅｑｕｅｎｃｅ）と、に対してラベル（Ｌａｂｅｌ）が付与されている。ラベルは、相互作用推定スコア（正解スコア）として取り扱うことができる。このようなデータを用いることで、相互作用推定スコアに使用するモデル（本実施形態では、図３に示す３種類のスコア算出器Ｚ１～Ｚ３から相互作用推定スコアを算出するモデル）の訓練を行うことができる。なお、ＳＴＩＴＣＨに限定されるものではなく、その他のタンパク質と化合物との相互作用が既知であるデータが格納されたデータベースを、教師データ用のデータベースＤ１として用いてもよい。

【0062】

図１に戻り、相互作用推定装置１の各部について説明する。相互作用推定装置１の相互作用評価モデル準備部１０は、上述のように相互作用推定モデルに係る準備、すなわち、機械学習（訓練）によるモデルの準備を行う機能を有する。教師データ取得部１１は、上述の教師データを準備する機能を有する。具体的には、図１に示すデータベースＤ１から教師データとして使用するデータを取得する。特徴量算出部１２は、教師データとして取得したタンパク質のアミノ酸１次配列データと、化合物データとから、符号化器Ｘ１、符号化器Ｘ２を利用して数値ベクトルを算出し、さらに、識別器Ｙを用いて特徴量としての相互作用推定スコアを算出する機能を有する。すなわち、特徴量算出部１２は、符号化器Ｘ１、符号化器Ｘ２、識別器Ｙによる計算を行う。

【0063】

なお、図３に示すモデルの場合、３種類のスコア算出器Ｚによるスコアをそれぞれ算出し、さらにこれらの調和平均を算出する処理までが特徴量算出部１２によって行われ得る。また、化合物データがＳＭＩＬＥＳ記法で記載されたデータである場合、まず、３次元の構造式に変換した上で、ＭＰＮＮを適用して数値ベクトルを算出する構成としてもよい。この手順は、使用するアルゴリズムによっても変更され得る。機械学習部１３は、特徴量算出部１２によって算出されたスコアと、正解スコアとの差分が小さくなるように、モデルに含まれるスコア算出器Ｚ、すなわち、符号化器Ｘ１、符号化器Ｘ２および識別器Ｙを訓練する機能を有する。教師データ取得部１１が教師データを取得した後は、取得したデータを用いて特徴量算出部１２による特徴量（相互作用推定スコア）の算出と、機械学習部１３による正解スコアとの差分を小さくするための訓練とを繰り返すことでモデルが作成される。すなわち、特徴量算出部１２および機械学習部１３は一体的に動作し得る。なお、相互作用評価モデル準備部１０において作成されたモデル（学習済みモデル）は記憶部３０において記憶される。

【0064】

相互作用推定部２０は、記憶部３０で記憶されているモデルを利用して、対象データＤ２についての相互作用の推定に係る計算を行う機能を有する。相互作用推定部２０の対象データ取得部２１は、対象データＤ２を取得する機能を有する。対象データＤ２は、相互作用が未知のタンパク質のアミノ酸１次配列データと、化合物の構造式に係るデータ（ＳＭＩＬＥＳ記法による化学式）と、に係る情報を含む。

【0065】

個別特徴量算出部２２は、対象データＤ２について、符号化器Ｘ１、符号化器Ｘ２を適用して、タンパク質および化合物に対応する特徴量（数値ベクトル）を算出する機能を有する。この際には、記憶部３０に記憶されている学習済み（訓練済み）のモデルの符号化器Ｘ１，符号化器Ｘ２を用いて対象データＤ２に含まれるタンパク質および化合物に係る数値ベクトルを算出する。このとき、例えば、対象データＤ２が符号化器Ｘ１、符号化器Ｘ２の適用に適していないデータ形式である場合には、変換処理等を行ってもよい。

【0066】

推定スコア算出部２３は、個別特徴量算出部２２において算出された数値ベクトルを用いて、タンパク質－化合物間の相互作用を推定する機能を有する。具体的には、推定スコア算出部２３は、個別特徴量算出部２２において、符号化器Ｘ１、符号化器Ｘ２を適用して得られた数値ベクトルから、識別器Ｙを適用してスコアを算出する。また、図３に示す構成のモデルの場合には、３つの識別器Ｙで算出されたスコアの調和平均を求めることによって相互作用推定スコアを算出する。

【0067】

出力部２４は、推定スコア算出部２３によって推定された結果を出力する機能を有する。結果の出力方式は特に限定されない。タンパク質および化合物の相互作用を推定する理由（目的）に応じて、出力形式を変更してもよい。例えば、探索対象の複数の化合物から、タンパク質に対して相互作用が最も大きい化合物を特定する場合には、探索対象の複数の化合物すべてについて、相互作用推定スコアの算出結果を出力することに代えて、特定の閾値以上のスコアを有する化合物の情報のみを出力部２４によって出力する構成としてもよい。また、化合物の特性とタンパク質との相互作用との関係性を評価する分析を行うような場合には、化合物それぞれの特性をふまえて、化合物ごとに相互作用推定スコアを図示する（例えば、マッピングする）等の手法を用いることもできる。このように、出力部２４からの出力方法は適宜変更することができる。

【0068】

記憶部３０は、相互作用評価モデル準備部１０において準備されたモデル（相互作用評価モデル）、相互作用評価モデル準備部１０において外部から取得したデータベースＤ１に含まれる教師データ、相互作用推定部２０によって取得された対象データＤ２等の各種情報を記憶する機能を有する。

【0069】

（相互作用推定プログラム）
コンピュータを、本実施形態の相互作用推定装置１として機能されるための相互作用推定プログラムについて説明する。図５は、相互作用推定プログラムＰ１の構成を示す図である。相互作用推定プログラムＰ１は、相互作用の程度が既知であるタンパク質および化合物に係る情報に含まれる、タンパク質を記述したアミノ酸の１次元配列から導出される特徴量と、化合物を記述した１次元表現から導出される特徴量と、を用いて、機械学習によって、タンパク質と化合物との相互作用の程度を評価するためのモデルである相互作用評価モデルを準備するモデル準備機能と、相互関係が未知である、推定対象のタンパク質を記述したアミノ酸の１次元配列から導出される特徴量、および、推定対象の化合物を記述した１次元表現から導出される特徴量に基づいて、前記相互作用評価モデルを適用することで、タンパク質と化合物との相互作用に係る特徴量を算出する相互作用特徴量算出機能と、を含む。

【0070】

相互作用推定プログラムＰ１は、相互作用推定装置１における上記の処理を統括的に制御するメインモジュールｍ１０、教師データ取得モジュールｍ１１、特徴量算出モジュールｍ１２、機械学習モジュールｍ１３、対象画像取得モジュールｍ１４、変換モジュールｍ１５、推定スコア算出モジュールｍ１６、結果出力モジュールｍ１７、および、記憶モジュールｍ１８を含んで構成される。そして、各モジュールモジュールｍ１０～ｍ１８により、相互作用推定装置１における相互作用評価モデル準備部１０、相互作用推定部２０、および、記憶部３０としての各機能が実現される。なお、相互作用推定プログラムＰ１は、通信回線等の伝送媒体を介して伝送される態様であってもよいし、図５に示されるように、記憶媒体Ｍ１に記憶される態様であってもよい。

【0071】

（ハードウェア構成）
相互作用推定装置１は、ハードウェア及び／又はソフトウェアの任意の組み合わせによって実現される。各機能は、物理的及び／又は論理的に結合した１つの装置により実現されてもよいし、物理的及び／又は論理的に分離した２つ以上の装置を直接的及び／又は間接的に接続し、これら複数の装置により実現されてもよい。

【0072】

図６は、相互作用推定装置１のハードウェア構成の一例を示す図である。相互作用推定装置１は、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、バス１００７などを含むコンピュータ装置として構成されてもよい。

【0073】

プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、中央処理装置（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）で構成されてもよい。例えば、相互作用推定装置１の各種処理等は、プロセッサ１００１で実現されてもよい。また、プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュールやデータを、ストレージ１００３及び／又は通信装置１００４からメモリ１００２に読み出し、これらに従って各種の処理を実行する。相互作用推定装置１の各種処理を実行する機能は、メモリ１００２に格納され、プロセッサ１００１で動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。なお、相互作用推定装置１における各種処理は、１つのプロセッサ１００１で実行されてもよいが、２以上のプロセッサ１００１により同時又は逐次に実行されてもよい。

【0074】

メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などの少なくとも１つで構成されてもよい。

【0075】

ストレージ１００３は、コンピュータ読み取り可能な記録媒体である。ストレージ１００３は、例えば、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲＯＭ）などの光ディスク等の少なくとも１つで構成されてもよい。上述の記憶媒体は、例えば、メモリ１００２及び／又はストレージ１００３を含むデータベース、サーバその他の適切な媒体であってもよい。

【0076】

通信装置１００４は、有線及び／又は無線ネットワークを介してコンピュータ間の通信を行うためのデバイスである。例えば、相互作用推定装置１の各種処理の一部は、通信装置１００４で実現されてもよい。

【0077】

入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード等）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ等）である。

【0078】

上記の各装置は、情報を通信するためのバス１００７で接続される。バス１００７は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。

【0079】

（相互作用推定方法）次に、図７～図９を参照しながら、相互作用推定装置１による相互作用推定方法について説明する。図７は、相互作用推定装置１による処理の全体を説明する図である。また、図８および図９はその一部の詳細手順を説明する図である。

【0080】

図７に示すように、相互作用推定装置１は、まずステップＳ０１を実行する。ステップＳ０１では、相互作用評価モデル準備部１０による相互作用評価モデルの準備を行う（第１工程）。次に、相互作用推定装置１はステップＳ０２～ステップＳ０４を実行する。ステップＳ０２～ステップＳ０４は、対象データＤ２に係る相互作用推定に係る処理である。ステップＳ０２では、相互作用推定部２０の対象データ取得部２１が外部装置等から対象データＤ２を取得する。ステップＳ０３では、相互作用推定部２０の個別特徴量算出部２２および推定スコア算出部２３が、記憶部３０に記憶される相互作用評価モデルに基づいて相互作用推定スコアを算出する（第２工程）。ステップＳ０４では、相互作用推定部２０の出力部２４が結果を出力する。

【0081】

次に、図８を参照しながら、相互作用推定装置１による相互作用推定方法のうち、相互作用評価モデルの作成方法、すなわち、ステップＳ０１に対応する部分の手順について説明する。なお、図８に示す手順では、相互作用評価モデル準備部１０の教師データ取得部１１によってデータベースＤ１に含まれる教師データとして使用されるデータがすでに取得されているとする。

【0082】

図８に示すように、相互作用推定装置１は、まずステップＳ１１およびステップＳ１２を実行する。ステップＳ１１では、相互作用評価モデル準備部１０の特徴量算出部１２がタンパク質のアミノ酸１次配列データに対して符号化器Ｘ１を適用して数値ベクトルを算出する。数値ベクトルはアミノ酸特徴量となる。なお、図３に示すモデルの場合、３種類の符号化器Ｘ１があるため、３つの特徴量が得られる。ステップＳ１２では、相互作用評価モデル準備部１０の特徴量算出部１２が化合物の化学式に対して符号化器Ｘ２を適用して数値ベクトルを算出する。数値ベクトルは化合物特徴量となる。

【0083】

次に、相互作用推定装置１はステップＳ１３およびステップＳ１４を実行する。ステップＳ１３では、相互作用評価モデル準備部１０の特徴量算出部１２が、識別器Ｙに対して数値ベクトルを適用することで、スコアを算出する。このスコアはスコア算出器Ｚごとに算出される。したがって、図３に示す構成の場合、スコア算出器Ｚ１～スコア算出器Ｚ３に対応したスコアが算出される。ステップＳ１４では、相互作用評価モデル準備部１０の特徴量算出部１２が、３つのスコア（スコア算出器Ｚ１～スコア算出器Ｚ３に対応するスコア）の調和平均を求めることによって、相互作用評価モデルによる相互作用推定スコア（相互作用特徴量）を算出する。

【0084】

次に、相互作用推定装置１はステップＳ１５を実行する。ステップＳ１５では、相互作用評価モデル準備部１０の機械学習部１３が、ステップＳ１４で算出された相互作用推定スコアと正解スコアとを比較し、その結果に基づいて、モデルを構成する図３に示す３つのスコア算出器Ｚに含まれる符号化器Ｘ１、符号化器Ｘ２および識別器Ｙを訓練する。教師データには、相互作用推定スコアが既知である（すなわち正解スコアを有する）タンパク質－化合質の複数の組が含まれる。そのため、例えば、教師データの個数の分だけ上記のステップＳ１１～ステップＳ１５を繰り返すことで、相互作用評価モデルの訓練が進み、より推定精度の高いモデルが得られる。

【0085】

次に、図９を参照しながら、相互作用推定装置１による相互作用推定方法のうち、対象データに関する相互作用の推定方法、すなわち、ステップＳ０３に対応する部分の手順について説明する。

【0086】

図９に示すように、相互作用推定装置１は、まずステップＳ２１およびステップＳ２２を実行する。ステップＳ２１では、相互作用推定部２０の個別特徴量算出部２２がタンパク質のアミノ酸１次配列データに対して符号化器Ｘ１（訓練後）を適用して数値ベクトルを算出する。数値ベクトルはアミノ酸特徴量となる。なお、図３に示すモデルの場合、３種類の符号化器Ｘ１があるため、３つの特徴量が得られる。ステップＳ２２では、相互作用推定部２０の個別特徴量算出部２２が化合物の化学式に対して符号化器Ｘ２を適用して数値ベクトルを算出する。数値ベクトルは化合物特徴量となる。次に、相互作用推定装置１はステップＳ２３およびステップＳ２４を実行する。ステップＳ２３では、相互作用推定部２０の推定スコア算出部２３が、識別器Ｙに対して数値ベクトルを適用することで、スコアを算出する。このスコアはスコア算出器Ｚごとに算出される。したがって、図３に示す構成の場合、スコア算出器Ｚ１～スコア算出器Ｚ３に対応したスコアが算出される。ステップＳ２４では、相互作用推定部２０の推定スコア算出部２３が、３つのスコア（スコア算出器Ｚ１～スコア算出器Ｚ３に対応するスコア）の調和平均を求めることによって、相互作用評価モデルによる対象データＤ２に係る相互作用推定スコア（相互作用特徴量）を算出する。なお、対象データＤ２が複数ある場合（例えば、タンパク質－化合物の組が複数ある場合）、データごとに上記のステップＳ２１～ステップＳ２４の処理を行うことで、各データに関する相互作用推定スコア（相互作用特徴量）を得ることができる。

【0087】

（相互作用評価モデルの精度について）上記のように、本実施形態に係る相互作用評価モデルでは、３種類の符号化器Ｘ１それぞれを含むスコア算出器Ｚ１～スコア算出器Ｚ３を含み、各スコア算出器でアルゴリズムごとのスコアを算出する。このような相互作用評価モデルを用いた場合の相互作用の推定精度について、以下の通り検証した。

【0088】

ＳＴＩＴＣＨに登録されているｈｕｍａｎのＣＰＩデータ（タンパク質－化合物の相互作用を評価したデータ）の中から、正解スコア（に相当するラベル）が０～１の間で大きく散らばるように１３０万個のデータを抽出した。正解スコアが分散しているデータの抽出方法としては、０～１を９つのレベルに分け、各レベルにおいて同数のデータを抽出した。抽出された１３０万個のＣＰＩデータには２４１，３９６種類の化合物、および１５，９７１種類のタンパク質の情報が含まれていた。これらの１３０万個のデータのうちの８割の１０４万個のデータを教師データとした。また、残りの２６万個のデータを２つに分割し、１３万個のバリデーションデータおよび１３万個のテストデータとした。まず、教師データを用いて機械学習（訓練）を行った。そして、バリデーションデータおよびテストデータを用いて、訓練の成果を検証した。その結果を図１０に示す。

【0089】

図１０（Ａ）は、テストデータを用いて、符号化器Ｘ１にＣＮＮを用いて符号化器Ｘ２にＭＰＮＮを用いたスコア算出器Ｚ１においてスコアを算出した際の正解スコアとの差分（誤差）を評価した結果を示す。図１０（Ａ）におけるＥｐｏｃｈ数は学習の繰り返し数である。また、縦軸のＶａｌｉｄａｔｉｏｎｌｏｓｓは、テストデータにおける正解スコアとモデルの適用結果（相互作用推定スコア）との誤差（ＭｅａｎＳｑｕａｒｅｄＥｒｒｏｔ）である。図１０（Ａ）に示すように、Ｅｐｏｃｈ数が増加すると、誤差がどんどん小さくなることが確認された。なお、最終的には、ＭＰＮＮ－ＣＮＮに係るスコア算出器Ｚ１では、相関係数が０．８０２０であり、ＡＵＲＯＣ（ＲＯＣ曲線におけるＡＵＣ）が０．８０８２であった。

【0090】

図１０（Ｂ）は、テストデータを用いて、符号化器Ｘ１にＡＡＣを用いて符号化器Ｘ２にＭＰＮＮを用いたスコア算出器Ｚ２においてスコアを算出した際のＡＵＲＯＣを評価した結果を示す。図１０（Ｂ）におけるＥｐｏｃｈ数は学習の繰り返し数である。また、縦軸のＡＵＲＯＣは、テストデータを用いたＡＵＲＯＣである。図１０（Ｂ）に示すように、Ｅｐｏｃｈ数が増加すると、ＡＵＲＯＣ（ＲＯＣ曲線におけるＡＵＣ）がどんどん大きくなることが確認された。この結果は、Ｅｐｏｃｈ数の増加に応じて精度が高まっていることを示唆している。なお、最終的には、ＭＰＮＮ－ＡＡＣに係るスコア算出器Ｚ２では、相関係数が０．８１５１であり、ＡＵＲＯＣ（ＲＯＣ曲線におけるＡＵＣ）が０．８１９０であった。

【0091】

図１０には図示していないが、ＭＰＮＮ－Ｔｒａｎｓｆｏｒｍｅｒに係るスコア算出器Ｚ３についても同様にＥｐｏｃｈ数を繰り返した結果、最終的には、相関係数が０．８１９４であり、ＡＵＲＯＣが０．８２０２となった。これらの結果から、学習後の３つのスコア算出器Ｚは、いずれも高い精度でスコアを算出できることが確認された。したがって、調和平均を用いて最終的な相互作用推定スコアを算出する図３の構成のモデルは、高い精度で相互作用を推定できることが確認された。

【0092】

（スクリーニングを行う際の処理の高速化）図９に示したように、対象データＤ２についての相互作用を推定する場合、データ毎に図９に示す手順を行う必要がある。すなわち、３種類のスコア算出器Ｚに係る計算を行ってスコアを算出し、さらに、調和平均を求めることで、所望の対象データＤ２に係る相互作用推定スコアが得られる。このような場合に、例えば、相互作用が高い化合物だけでなく相互作用が低い（スコアが小さい）と推定される化合物についても、最終的な相互作用推定スコアを算出することを繰り返していると計算量が増大する。３種類のスコア算出器Ｚに係る計算を行ったとしても、最終的に調和平均が高い値になることはあまり想定されにくい。つまり、上記実施形態では、タンパク質については、３種類のアルゴリズムを用いて数値ベクトルを算出しているが、特定のアルゴリズムについて数値ベクトルが著しく低い場合には、調和平均を求めた後の相互作用推定スコアが高い値になることは想定されにくい。そこで、大量のデータを対象データとしてスクリーニングを行う場合には、図９に示した手順をタンパク質－化合物の全ての組み合わせについて行うのではなく、３種類のスコア算出器Ｚを１つずつ用いることで、スコアが著しく小さいタンパク質－化合物の組み合わせを排除していく手順を採ることもできる。

【0093】

図１１は、上記のように、３つのスコア算出器Ｚを順に使いながら探索対象の化合物の選別を行う場合の処理の手順の一例を示している。この場合、まず、相互作用推定装置１は、ステップＳ３１およびステップＳ３２を実行する。ステップＳ３１およびステップＳ３２では、まず、ステップＳ３１において、３つのスコア算出器Ｚのうち符号化器Ｘ１にＣＮＮが使用されているスコア算出器Ｚ１を用いて、スコア算出を行う。このとき、ステップＳ３２においてスコア算出器Ｚ１によって算出されたスコアが０．５より大きいタンパク質－化合物についてのみ、次のステップＳ３３およびステップＳ３４を実行する。つまり、ステップＳ３２においてスコアが０．５以下であるタンパク質－化合物の組み合わせは探索の対象外と判定し（ステップＳ４１）、ほかのスコア算出器Ｚ２およびスコア算出器Ｚ３を用いた計算を行わない。

【0094】

ステップＳ３３およびステップＳ３４では、まず、ステップＳ３３において３つのスコア算出器Ｚのうち符号化器Ｘ１にＡＡＣが使用されているスコア算出器Ｚ２を用いて、スコア算出を行う。このとき、ステップＳ３４においてスコア算出器Ｚ２によって算出されたスコアが０．５より大きいタンパク質－化合物についてのみ、次のステップＳ３５およびステップＳ３６を実行する。つまり、ステップＳ３４においてスコアが０．５以下であるタンパク質－化合物の組み合わせは探索の対象外と判定し（ステップＳ４１）、最後のスコア算出器Ｚ３を用いた計算を行わない。

【0095】

さらに、ステップＳ３５およびステップＳ３６では、まず、ステップＳ３５において３つのスコア算出器Ｚのうち符号化器Ｘ１にＴｒａｎｓｆｏｒｍｅｒが使用されているスコア算出器Ｚ３を用いて、スコア算出を行う。このとき、ステップＳ３６においてスコア算出器Ｚ３によって算出されたスコアが０．５より大きいタンパク質－化合物についてのみ、次のステップＳ３７を実行する。つまり、ステップＳ３６においてスコアが０．５以下であるタンパク質－化合物の組み合わせは探索の対象外と判定し（ステップＳ４１）、調和平均に関する計算を行わない。

【0096】

最後に、ステップＳ３７において、３つのスコアがいずれも０．５より大きかったタンパク質－化合物の組み合わせについてのみ、調和平均を算出する。このようにして調和平均が算出されたタンパク質－化合物の組み合わせの中から、相互作用が高い組み合わせを抽出する。

【0097】

上記の手順によれば、スコア算出器Ｚ１～スコア算出器Ｚ３のいずれかでスコアが０．５以下である化合物は、探索対象外と判定され（Ｓ４１）、以降の計算が行われない。そのため、スクリーニングのように、相互作用が高いタンパク質－化合物の組み合わせを特定することが目的である場合には、計算量を抑制しながら、目的となるタンパク質－化合物の組み合わせ、すなわち、相互作用が高いと推定される組み合わせを特定することが可能となる。

【0098】

（実施形態に係る効果）
上記の相互作用推定方法、相互作用推定方法および相互作用推定プログラムによれば、第１工程としてのモデルの準備段階では、タンパク質を記述したアミノ酸の１次元配列から導出される特徴量と、化合物を記述した１次元表現から導出される特徴量と、を用いて、タンパク質と化合物との相互作用の程度を評価するためのモデルである相互作用評価モデルが準備される。そして、第２工程としての相互作用に係る特徴量の算出段階では、第２工程では、相互作用評価モデルを適用することで、相互関係が未知である、推定対象のタンパク質を記述したアミノ酸の１次元配列から特徴量を導出するとともに、推定対象の化合物を記述した１次元表現から特徴量を導出し、これらの特徴量に基づいて、タンパク質と化合物との相互作用に係る特徴量が算出される。このように、タンパク質を記述したアミノ酸の１次元配列と化合物を記述した１次元表現とを用いて相互作用を推定することが可能となるため、より簡単に準備できるデータから相互作用を推定することが可能となる。また、アミノ酸の１次元配列からの特徴量の導出と、化合物を記述した１次元表現からの特徴量の導出とには、互いに異なるアルゴリズムが用いられる。この場合、機械学習における学習プロセスが、アミノ酸の１次元配列からの特徴量の導出アルゴリズムと、化合物を記述した１次元表現からの特徴量の導出アルゴリズムと、で互いに異なるため、特定のアルゴリズムに偏らない学習が可能となり、より高い精度での推定が可能なモデルが準備され得る。

【0099】

また、上記実施形態のように、タンパク質を記述したアミノ酸の１次元配列から互いに異なる複数種類の手法を用いて、複数の特徴量を導出し、これらと化合物を記述した１次元表現から導出される特徴量との関係から、相互作用評価モデルを準備する構成とした場合、互いに異なる複数種類の手法を用いて導出された互いに異なる特徴に着目して導出された特徴量を利用した、より多面的な相互作用評価モデルが準備される。さらに、この相互作用評価モデルを用いて推定対象のタンパク質と化合物との相互作用に係る特徴量を算出することができるため、より高い精度で相互作用を推定することができる。

【0100】

また、相互作用の程度が既知であるタンパク質および化合物に係る情報として、相互作用の有無を評価した実験データとは異なる情報にも基づいて相互作用の程度が評価されているものである場合、実験データが得られていないようなタンパク質または化合物を含む組み合わせについても相互作用を評価したデータに基づいて相互作用評価モデルを作成することができる。そのため、実験データのしやすさによって精度が偏ることが防がれた相互作用評価モデルを準備することができる。したがって、タンパク質および化合物の組み合わせによらず高い精度での推定が可能となる。

【0101】

また、相互作用の程度が既知であるタンパク質および化合物に係る情報として、相互作用の程度が互いに異なるデータが略均等に準備されたものである場合、相互作用の程度によって精度が偏ることが防がれた相互作用評価モデルを準備することができる。したがって、タンパク質および化合物の組み合わせによらず高い精度での推定が可能となる。

【0102】

（変形例）
以上、実施形態について説明したが、本発明は必ずしも例示した実施形態に限定されるものではなく、その要旨を逸脱しない範囲で適宜変更可能である。

【0103】

例えば、相互作用推定装置１の装置構成は一例であり、適宜変更され得る。また、図１では、相互作用推定装置１の各部が一体的に構成されている例を示したが、この構成は特に限定されない。一例として、記憶部３０はクラウド等に設けられていてもよいし、相互作用評価モデル準備部１０と相互作用推定部２０とは互いに異なる装置であってもよい。

【0104】

また、上記実施形態において使用した機械学習のアルゴリズムは一例であり、上述の方法に限定されない。

【0105】

例えば、上記で説明したＴｒａｎｓｆｏｒｍｅｒに関連するアルゴリズムとして、Ｒｅｆｏｒｍｅｒ，ＢＥＲＴ，ＧＰＴ－３，ＢｉｇＢｉｒｄ等が知られている。これらは、いずれも上記の数式（７）で示した「Ａｔｔｅｎｔｉｏｎ」をベースにした自然言語処理法である。このような、「Ａｔｔｅｎｔｉｏｎ」をベースにした自然言語処理法についても、Ｔｒａｎｓｆｏｒｍｅｒと同様にタンパク質のアミノ酸の１次元配列の符号化に適用できると考えられる。なお、上記実施形態で説明したＴｒａｎｓｆｏｒｍｅｒ以外のアルゴリズム（ＣＮＮ，ＡＡＣ，ＭＰＮＮ等）についても、上記のように類似の技術思想に基づくアルゴリズムに置換しても、上記実施形態と同様の効果が得られると考えられる。

【符号の説明】

【0106】

１…相互作用推定装置、１０…相互作用評価モデル準備部、２０…相互作用推定部、３０…記憶部、１１…教師データ取得部、１２…特徴量算出部、１３…機械学習部、２１…対象データ取得部、２２…個別特徴量算出部、２３…推定スコア算出部、２４…出力部、Ｘ１…符号化器、Ｘ２…符号化器、Ｙ…識別器。

【図1】