(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024072890
(43)【公開日】2024-05-29
(54)【発明の名称】推定装置、訓練装置、推定方法、生成方法及びプログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20240522BHJP
G06N 3/08 20230101ALI20240522BHJP
【FI】
G06N20/00 130
G06N3/08
【審査請求】未請求
【請求項の数】23
【出願形態】OL
(21)【出願番号】P 2021012339
(22)【出願日】2021-01-28
(71)【出願人】
【識別番号】515130201
【氏名又は名称】株式会社Preferred Networks
(74)【代理人】
【識別番号】100091487
【弁理士】
【氏名又は名称】中村 行孝
(74)【代理人】
【識別番号】100120031
【弁理士】
【氏名又は名称】宮嶋 学
(74)【代理人】
【識別番号】100118876
【弁理士】
【氏名又は名称】鈴木 順生
(74)【代理人】
【識別番号】100202429
【弁理士】
【氏名又は名称】石原 信人
(72)【発明者】
【氏名】品川 幾
(72)【発明者】
【氏名】山口 大器
(57)【要約】
【課題】精度が高く計算コストが低いHOMOエネルギーの推定を実現する。
【解決手段】推定装置は、1又は複数のメモリと、1又は複数のプロセッサと、を備える。前記1又は複数のプロセッサは、分子に関する第1特徴量を含んだグラフから、第一原理計算に基づいて取得される前記分子を構成する原子に割り当てられるエネルギーに関する第2特徴量を取得し、前記グラフ及び前記第2特徴量に基づいて、前記分子の1以上の所定の種類のエネルギーに関する第3特徴量を取得する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
1又は複数のメモリと、1又は複数のプロセッサと、を備え、
前記1又は複数のプロセッサは、
分子に関する第1特徴量を含んだグラフから、第一原理計算に基づいて取得される前記分子を構成する原子に割り当てられるエネルギーに関する第2特徴量を取得し、
前記グラフ及び前記第2特徴量に基づいて、前記分子の1以上の所定の種類のエネルギーに関する第3特徴量を取得する、
推定装置。
【請求項2】
前記1又は複数のプロセッサは、
前記分子の構造を示す構造グラフを訓練済モデルに入力し、前記グラフを取得する、
請求項1に記載の推定装置。
【請求項3】
前記訓練済モデルは、グラフニューラルネットワークに基づくモデルである、
請求項2に記載の推定装置。
【請求項4】
前記1又は複数のプロセッサは、
前記第2特徴量として、HOAO(Highest Occupied Atomic Orbital)エネルギーの最大値に関する特徴量を取得する、
請求項1から請求項3のいずれかに記載の推定装置。
【請求項5】
第一原理計算に基づいて取得されるエネルギーは、前記分子を構成する原子のHOAO(Highest Occupied Atomic Orbital)エネルギーを含む、
請求項1から請求項4のいずれかに記載の推定装置。
【請求項6】
前記1又は複数のプロセッサは、
前記第3特徴量に基づいて、前記所定の種類のエネルギーとして前記分子のHOMOエネルギーを取得する、
請求項1から請求項5のいずれかに記載の推定装置。
【請求項7】
前記1又は複数のプロセッサは、
前記第3特徴量として前記分子のLUMO(Lowest Unoccupied Molecular Orbital)エネルギーに関する情報をさらに取得する、
請求項1から請求項6のいずれかに記載の推定装置。
【請求項8】
第一原理計算に基づいて取得されるエネルギーは、前記分子を構成する原子のLUAO(Lowest Unoccupied Atomic Orbital)エネルギーを含む、
請求項7に記載の推定装置。
【請求項9】
前記1又は複数のプロセッサは、
前記第2特徴量として、LOAOエネルギーの最小値に関する特徴量を取得する、
請求項8に記載の推定装置。
【請求項10】
第一原理計算に基づいて取得されるエネルギーは、NBO(Natural Bond Orbital)解析により取得されたエネルギーである、
請求項5から請求項9のいずれかに記載の推定装置。
【請求項11】
第一原理計算に基づいて取得されるエネルギーは、波動関数に基づいて取得されたエネルギーである、
請求項5から請求項9のいずれかに記載の推定装置。
【請求項12】
前記1又は複数のプロセッサは、
前記第3特徴量に基づいて、前記所定の種類のエネルギーとして前記分子のLUMOエネルギーを取得する、
請求項1に記載の推定装置。
【請求項13】
1又は複数のメモリと、1又は複数のプロセッサと、を備え、
前記1又は複数のプロセッサは、
分子の構造を示す構造グラフをモデルに入力して前記分子に関する第1特徴量を含んだグラフを取得し、
前記グラフから第一原理計算に基づいて取得される前記分子を構成する原子に割り当てられるエネルギーに関する第2特徴量を取得し、
前記グラフ及び前記第2特徴量に基づいて、前記分子の所定の種類のエネルギーを取得し、
取得した前記原子に割り当てられるエネルギー及び前記所定の種類のエネルギーと、教師データとを比較して前記モデルのパラメータを更新する、
訓練装置。
【請求項14】
前記モデルは、グラフニューラルネットワークに基づくモデルである、
請求項13に記載の訓練装置。
【請求項15】
前記1又は複数のプロセッサは、
取得した前記原子に割り当てられるエネルギー及び前記所定の種類のエネルギーと、教師データとの誤差を逆伝播して前記モデルのパラメータを更新する、
請求項14に記載の訓練装置。
【請求項16】
前記所定の種類のエネルギーは、前記分子のHOMOエネルギーであり、
前記教師データは、HOAOエネルギーのデータを含む、
請求項13から請求項15のいずれかに記載の訓練装置。
【請求項17】
前記教師データは、NBO解析により取得されたデータである、
請求項16に記載の訓練装置。
【請求項18】
前記教師データは、波動関数に基づいて取得されたデータである、
請求項16に記載の訓練装置。
【請求項19】
前記1又は複数のプロセッサは、
前記グラフ及び前記第2特徴量に基づいて前記分子のLUMOエネルギーをさらに取得し、
前記原子に割り当てられるエネルギー及び前記HOMOエネルギーとともに、さらに前記LUMOエネルギーに基づいて、前記モデルのパラメータを更新する、
請求項16に記載の訓練装置。
【請求項20】
請求項13から請求項19のいずれかに記載の訓練装置により生成された訓練済モデル。
【請求項21】
1又は複数のプロセッサにより、
分子に関する第1特徴量を含んだグラフから、第一原理計算に基づいて取得される前記分子を構成する原子に割り当てられるエネルギーに関する第2特徴量を取得し、
前記グラフ及び前記第2特徴量に基づいて、前記分子の1以上の所定の種類のエネルギーに関する第3特徴量を取得する、
推定方法。
【請求項22】
1又は複数のプロセッサにより、
分子の構造を示す構造グラフをモデルに入力して前記分子に関する第1特徴量を含んだグラフを取得し、
前記グラフから第一原理計算に基づいて取得される前記分子を構成する原子に割り当てられるエネルギーに関する第2特徴量を取得し、
前記グラフ及び前記第2特徴量に基づいて、前記分子の1以上の所定の種類のエネルギーを取得し、
取得した前記原子に割り当てられるエネルギー及び前記1以上の所定の種類のエネルギーと、教師データとを比較して前記モデルのパラメータを更新する、
前記モデルの生成方法。
【請求項23】
コンピュータを、請求項1から19のいずれかに記載の装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、推定装置、訓練装置、推定方法、生成方法及びプログラムに関する。
【背景技術】
【0002】
HOMO(Highest Occupied Molecular Orbital)エネルギー、LUMO(Lowest Unoccupied Molecular Orbital)エネルギーは、化合物の反応性の予測等に用いられる物性値である。これらの値は、量子科学計算を用いて計算することができる。しかしながら、この計算時間は、対象となる分子の演算行列の大きさnに対してO(n3)の計算量が必要となり、計算コストが高くなる。近年、ニューラルネットワーク、特に、GNN(Graph Neural Network)を用いて予測使用とする試みがなされているが、計算コストは改善することができるものの、すでに実現されつつある分子の有する全エネルギー等の他の物性値の予測結果と比較して精度が低いことがある。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】K. T. Schutt, et. al., “SchNet: A continuous-filter convolutional neural network for modeling quantum interactions,” arxiv.org, https://arxiv.org/abs/1706.08566v5, Dec. 19, 2017
【非特許文献2】C. Chen, et. al., “Graph Networks as a Universal Machine Learning Framework for Molecules and Crystals,” arxiv.org, https://arxiv.org/abs/1812.05055v2, Feb. 28, 2019
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示においては、HOMOエネルギー、LUMOエネルギー等の分子の所定の種類のエネルギーの計算におけるコストを低くし、精度を高くする技術を提案する。
【課題を解決するための手段】
【0005】
一実施形態によれば、推定装置は、1又は複数のメモリと、1又は複数のプロセッサと、を備える。前記1又は複数のプロセッサは、分子に関する第1特徴量を含んだグラフから、第一原理計算に基づいて取得される前記分子を構成する原子に割り当てられるエネルギーに関する第2特徴量を取得し、前記グラフ及び前記第2特徴量に基づいて、前記分子の1以上の所定の種類のエネルギーに関する第3特徴量を取得する。
【図面の簡単な説明】
【0006】
【
図1】一実施形態に係る推定装置の処理を概略的に示す図。
【
図2】一実施形態に係る推定装置の処理を概略的に示す図。
【
図3】一実施形態に係る推定装置の処理を概略的に示す図。
【
図4】一実施形態に係る訓練装置の処理を概略的に示す図。
【
図5】一実施形態に係る解析の具体例を説明するための図。
【
図6】一実施形態に係る推定装置又は訓練装置の少なくとも一方のハードウェア実装の一例を示すブロック図。
【発明を実施するための形態】
【0007】
以下、図面を参照して本発明の実施形態について説明する。図面及び実施形態の説明は一例として示すものであり、本発明を限定するものではない。
【0008】
(推定装置)
図1は、一実施形態に係る推定装置1の動作について概略的に説明するための図である。推定装置1においては、例えば、分子の構造を示すグラフ(以下、構造グラフとも記載する)に対して処理を実行し、HOMOエネルギーを取得する。
【0009】
構造グラフとは、化合物の構造をグラフで表現したものである。この構造グラフは、例えば、原子をノードとし、接続状態をエッジとして表現したグラフであってもよい。このグラフは、例えば、化合物を構成する原子同士の接続状態が適切に記述された隣接行列等であってもよい。この隣接行列は、例えば、複数存在し、多重結合等を表したものであってもよい。このグラフは、例えば、化合物を構成する原子同士の距離行列等の幾何的な状態を表す行列等を表したものであってもよい。これらの他、化合物における原子の3次元的な状態を適切に表現できるデータであればよい。ノードは、One-hotベクトルなど、原子を一意に特定する特徴ベクトルを有して良い。
【0010】
推定装置1は、訓練済モデル10と、第1読出関数12と、第2読出関数14と、を用いて構造グラフからHOMOエネルギーを推定する。推定装置1は、後述で詳しく説明するように、例えば、処理を実行するプロセッサと、データを格納するメモリ(ストレージ等を含んでもよい)と、を備える。
【0011】
訓練済モデル10は、上記の構造グラフに対応する入力層を備え、分子の構造の情報に、分子全体又は分子構造における原子の特徴量の情報(第1特徴量)を付加したグラフを出力する。すなわち、訓練済モデル10は、分子の構造に関するグラフを、第1特徴量を含んだグラフに変換して出力する。訓練済モデル10は、例えば、グラフニューラルネットワーク、グラフコンボリューションネットワーク等により生成されたモデルである。
【0012】
第1読出関数12は、上記の第2特徴量を含むグラフから、化合物を構成する原子のHOAO(Highest Occupied Atomic Orbital)エネルギーに関連する特徴量(第2特徴量)を取得するreadoutを実行する関数である。この第1読出関数12は、線形な所定の演算の組合せで表現されてもよいし、この読出関数自体がニューラルネットワークとして構成されていてもよい。以下、本開示においてHOAOエネルギーとは、化合物を構成する原子における、分子のHOMOエネルギーに対応するエネルギーのことをいう。
【0013】
この第1読出関数12は、例えば、グラフを入力すると、第2特徴量として原子のHOAOエネルギーを取得する関数であってもよい。化合物がatom 1、atom 2、・・・、atom nから構成される場合に、第1読出関数12は、一例として原子の特徴量としてHOAOエネルギーを出力する。図に示すように、atom 1の原子のHOAOエネルギーとしてEHOAO, atom 1を出力し、atom 2の原子のHOAOエネルギーとしてEHOAO, atom 2を出力し、・・・、atom nの原子のHOAOエネルギーとしてEHOAO, atom nを出力する。
【0014】
別の例としては、第1読出関数12は、HOAOエネルギーに容易に変換することのできる特徴量を第2特徴量として出力してもよい。この場合、必要であれば、第2特徴量からHOAOエネルギーを取得する線形又は非線形の関数を別途備えていてもよい。第2特徴量は、訓練済モデル10が出力したグラフに付加情報として適切な形態であってもよい。すなわち、第2特徴量は、原子のHOAOエネルギーそのものであってもよいし、HOAOエネルギーそのものでは無くてもHOAOエネルギーに関連する特徴量としてグラフに付加できる形態であってもよい。
【0015】
第2読出関数14は、訓練済モデル10が出力した特徴量を表すグラフと、第1読出関数12が取得した第2特徴量とを組み合わせた量についてreadout処理を実現し、分子のHOMOエネルギーに関連する特徴量(第3特徴量)を取得する関数である。第2読出関数14も第1読出関数と同様に、線形又は非線形の関数、一例として、訓練済のニューラルネットワークモデルとして形成されていてもよい。
【0016】
第2読出関数14は、例えば、訓練済モデル10が出力したグラフと、第1読出関数12が出力した第2特徴量とを連結(concatenate)したものを入力とし、分子のHOMOエネルギーが取得可能な第3特徴量を取得する。第2特徴量と同様に、第3特徴量がHOMOエネルギーそのものであってもよいし、HOMOエネルギーに簡単に変換できる特徴量であってもよい。
【0017】
推定装置1は、第2読出関数14が出力するHOMOエネルギー又は第3特徴量から変換されるHOMOエネルギーを出力する。
【0018】
この図を用いて、推定装置1の処理について説明する。
【0019】
推定装置1のプロセッサは、まず、化合物(分子)の構造についての情報を取得し、必要であればこの情報を構造グラフへと変換する(S100)。情報の取得は、入出力インタフェースを介して実現されてもよい。取得した情報が構造グラフであれば、プロセッサは、取得した構造グラフを用いて以下の処理を実行する。
【0020】
取得した情報が構造グラフではない場合には、プロセッサは、化合物の構造についての情報を構造グラフへと変換する。この変換手法は、一般的に用いられている手法で実行されてもよい。プロセッサは、例えば、組成式、分子式として取得した場合には、データベース等を照合することにより構造グラフを取得してもよい。構造式として取得した場合には、この構造式から変換できるツールを用いてもよい。ツリー情報として構造式を取得した場合には、適切にツリー情報を構造グラフへと変換する。
【0021】
次に、プロセッサは、訓練済モデル10に取得した構造グラフを入力して、第1特徴量を含むグラフを取得する(S102)。このグラフは、上述したように、分子の幾何学的な構造を示す構造グラフに、分子の幾何学的な構造から導くことができる第1特徴量を付加したデータを有するグラフである。
【0022】
次に、プロセッサは、第1読出関数12に取得したグラフを入力する(S104)。
【0023】
この第1読出関数12により、プロセッサは、HOAOエネルギーに関する第2特徴量を抽出する(S106)。なお、直接的に第1読出関数12においてHOAOエネルギーを取得してもよい。換言すると、第1読出関数は、第2特徴量としてHOAOエネルギーそのものを取得できる形態であってもよい。
【0024】
次に、プロセッサは、訓練済モデル10から出力されたグラフ及び第2読出関数14から出力された第2特徴量の情報を連結する(S108)。なお、連結することには限られず、適切にグラフの情報として第2特徴量が合成されればよい。第2読出関数14においてこの第2特徴量とグラフとの入力を別々に適切に受け付ける形態としてもよい。
【0025】
プロセッサは、この連結した連結グラフを第2読出関数14に入力し、分子のHOMOエネルギーに関する第3特徴量を取得する(S110)。なお、直接的に第2読出関数14においてHOMOエネルギーを取得してもよい。この場合、次のS112の処理を省略することもできる。換言すると、第2読出関数は、第3特徴量としてHOMOエネルギーそのものを取得する形態であってもよい。
【0026】
次に、プロセッサは、第2読出関数14から出力された第3特徴量に基づいて、分子のHOMOエネルギーを取得する(S112)。
【0027】
このように、推定装置1は、化合物のHOMOエネルギーを、分子の構造と、この構造から推定されたHOAOエネルギーと、から取得する。
【0028】
以上のように、本実施形態によれば、HOAOエネルギーの情報を用いることにより精度の高いHOMOエネルギーの取得をすることが可能となる。推定装置1は、HOAOエネルギーとしてHOMOエネルギーと相関が高いHOAOエネルギーの最大値の情報、又は、HOAOエネルギーの最大値の情報に関する第2特徴量を用いた情報をグラフとともに第2読出関数14に入力する形態であってもよい。このようにHOMOエネルギーと相関が高いHOAOエネルギーを用いることにより、利用する情報量を削減した状態で精度の高い推定を実現することもできる。
【0029】
上記の例においては、HOMOエネルギーを推定するためにHOAOエネルギーを用いる推定装置1について説明したが、LUMOエネルギーでも同様のことを実現することができる。
【0030】
図2は、LUMOエネルギーを推定するための推定装置1の概略を示す。この
図2に示すように、推定装置1は、プロセッサにより、訓練済モデル10に構造グラフを入力して第1特徴量を有するグラフを取得し、このグラフから第1読出関数12を用いてLUAO(Lowest Unoccupied Atomic Orbital)エネルギーに関する第2特徴量を取得し、グラフ及び第2特徴量から第2読出関数14を用いてLUMOエネルギーに関する第3特徴量を取得することができる。上述のHOMOエネルギーの取得と同様に、第2特徴量は、LUAOエネルギーあるいはその最低値であってもよいし、第3特徴量は、LUMOエネルギーそのものであってもよい。以下、本開示においてLUAOエネルギーとは、化合物を構成する原子における、分子のLUMOエネルギーに対応するエネルギーのことをいう。
【0031】
図3は、推定装置1のさらに別の例を示す図である。この
図3に示すように、推定装置1は、プロセッサにより、訓練済モデル10に構造グラフを入力して第1特徴量を有するグラフを取得し、このグラフから第1読出関数12を用いてHOAOエネルギー及びLOAOエネルギーに関する第2特徴量を取得し、グラフ及び第2特徴量から第2読出関数14を用いてHOMOエネルギー及びLUMOエネルギーに関する第3特徴量を並行して取得する形態としてもよい。上述のHOMOエネルギー、LUMOエネルギーの取得と同様に、第2特徴量は、HOAOエネルギー及びLUAOエネルギーそのものであってもよいし、第3特徴量は、HOMOエネルギー及びLUMOエネルギーそのものであってもよい。
【0032】
(訓練装置)
次に、推定装置1において用いられる訓練済モデル10を生成する訓練装置2について説明する。
【0033】
図4は、一実施形態に係る訓練装置2の処理について概略を模式的に示す図である。
図4に示すように、訓練装置2は、モデル20と、第1読出関数22と、第2読出関数24と、を用いてモデル20の最適化を実行する。訓練装置2は、必要に応じて、第1読出関数22、第2読み出し関数24の最適化を併せて実行してもよい。訓練装置2は、推定装置1と同様に、後述で詳しく説明するように、例えば、処理を実行するプロセッサと、データを格納するメモリ(ストレージ等を含んでもよい)と、を備える。
【0034】
訓練装置2により訓練されたモデル20が、前述の推定装置1における訓練済モデル10として用いられる。例えば、訓練装置2により最適化されたモデル20のハイパーパラメータ、最適化されたパラメータ等の情報に基づいて、推定装置1は、訓練済モデル10を生成して推定を実行してもよい。このため、
図4におけるモデル20も、例えば、グラフニューラルネットワークの訓練に基づいたモデルであってもよい。
【0035】
推定装置1と訓練装置2は、同じプロセッサで動作するものであってもよいし、別のプロセッサで動作するものであってもよい。第1読み出し関数22、第2読み出し関数24のうち少なくとも一方が最適化される場合であっても、モデル20と訓練済モデル10と同様の処理が実行される。
【0036】
また、一例として
図1の推定装置1に対応する訓練済モデル10等を訓練する場合について説明するが、
図2又は
図3の推定装置1に対応する訓練済モデル10等を訓練する場合についても同様に実装することが可能である。
【0037】
【0038】
まず、訓練装置2のプロセッサは、前述の
図1に対応する処理(順伝播処理)により、分子の構造に関する情報から、HOAOエネルギー及びHOMOエネルギーを推定する(S200)。
【0039】
次に、プロセッサは、教師データとして与えられるHOAOエネルギー及びHOMOエネルギーと、S200の処理において推定されたHOAOエネルギー及びHOMOエネルギーとのロスを算出する(S202)。教師データとして与えられるHOAOエネルギーは、例えば、NBO解析(Natural Bond Orbital Analysis)を用いてもよい。また、NBO解析には限定されず、ハミルトニアン、シュレディンガー方程式等の波動関数から求めるものであってもよいし、他の適切な手法により取得するものであってもよい。
【0040】
ロスの算出は、例えば、分子を構成する原子のHOAOエネルギー及び分子のHOMOエネルギー値の教師データと推定値との二乗平均誤差(MSE: Mean Square Error)を用いる。使用する誤差は、MSEではなくてもよく例えば二乗平均平方根誤差(RMSE: Root Mean Square Error)、その他のノルム、又は、その他の適切な誤差評価をすることが可能な一般的な機械学習手法におけるロス関数を用いてもよい。
【0041】
次に、プロセッサは、S202の処理において算出されたロスに基づいて、誤差逆伝播処理を実行し、モデル20のパラメータを更新する(S204)。プロセッサは、必要に応じて第1読出関数22又は第2読出関数24の少なくとも一方についてのパラメータを併せて更新してもよい。
【0042】
モデル20に関する誤差逆伝播処理、活性化関数、ロス関数等は、一般的な機械学習の手法により実行されてもよい。
【0043】
以上のように、本実施形態の訓練装置2によれば、HOAOエネルギーの推測を補助的に実行することにより、HOMOエネルギーを推定するための適切な特徴量を有するモデル20の訓練を実行することが可能となる。HOAOエネルギーを補助的に訓練に用いることにより、モデル20の訓練時に逆伝播する変数を増加させることができる。このため、モデル20等の更新を効率的に実現することが可能となる。また、HOAOエネルギーは、HOMOエネルギーと強く関連する物理量であるため、HOAOエネルギーを推定に組み込むことにより、HOMOエネルギーの推定の精度を向上させることができる。推定装置1で記載したように、HOAOエネルギーのうち最大値であるものを逆伝播において用いてもよい。
【0044】
推定装置1において説明したように、モデル20、第1読出関数22、第2読出関数24は、LUAOエネルギー、LUMOエネルギーの推定をしてもよい。この場合、訓練装置2は、モデル20、第1読出関数22、第2読出関数24に対してLUAOエネルギー、LUMOエネルギーのロスを逆伝播させることにより最適化する。同様に、HOAOエネルギー及びLUAOエネルギーをHOMOエネルギー及びLUMOエネルギーとともに推定してもよい。この場合も同様に訓練装置2は、出力に応じた適切な最適化が実行される。
【0045】
HOMOエネルギー、LUMOエネルギーは、化学反応の起こりやすさの一指標となる。このため、このように生成されたモデル20を訓練済モデル10とした推定装置1によるHOMOエネルギー、LUMOエネルギーの推定は、例えば、材料探索、反応探索等の探索にも応用することが可能である。
【0046】
上述したように、HOMOエネルギーは、HOAOエネルギーに基づいて推定され、同様に、LUMOエネルギーは、LUAOエネルギーに基づいて推定される。HOAOエネルギー及びLUAOエネルギーの少なくとも一方は、第一原理計算に基づいて算出された原子に割り当てられる他のエネルギーであってもよい。HOAOエネルギー、LUAOエネルギーが第一原理計算により算出されても良い。
【0047】
すなわち、推定装置1は、第1特徴量を含んだグラフから、第一原理計算に基づいて取得される分子を構成する原子に割り当てられるエネルギーに関する第2特徴量を取得し、このグラフ及び第2特徴量に基づいて、分子のHOMOエネルギー又はLUMOエネルギーの少なくとも一方に関する第3特徴量を取得する、と言い換えることができる。
【0048】
同様に、訓練装置2は、分子の構造を示す構造グラフをモデルに入力して分子に関する第1特徴量を含んだグラフを取得し、このグラフから第一原理計算に基づいて取得される分子を構成する原子に割り当てられるエネルギーに関する第2特徴量を取得し、グラフ及び第2特徴量に基づいて、分子のHOMOエネルギー(又はLUMOエネルギーの少なくとも一方)を取得し、取得した原子に割り当てられるエネルギー及びHOMOエネルギー(又はLUMOエネルギーの少なくとも一方)と、教師データとを比較してモデルのパラメータを更新する、と言い換えても良い。
【0049】
また、このHOAOエネルギー又はLUAOエネルギーの少なくとも一方は、例えば、NBO解析に基づいて計算された各原子に割り当てられるエネルギーである。別の例として、NBO解析ではなく、波動関数に基づいて計算されるエネルギーであってもよい。すなわち、第一原理計算として、NBO解析又は波動関数を用いることができるが、これらに限定されるものではない。
【0050】
以下、具体例を挙げつつ、HOAOエネルギーとLUAOエネルギーの求め方について詳しく説明する。
【0051】
まず、HOAOエネルギーの定義について説明する。NBO解析を行うと、原子の軌道iのエネルギーEiと占有率σiが求まる。軌道iは、原子、又は、2つの原子の結合に割り当てられる。ある原子Xに対するHOAOエネルギーは、以下の各処理により取得することができる。
【0052】
(1) 原子Xに割り当てられた軌道iのみを抽出し、エネルギーEiが高い順に並び替える。並び替えた後の順番を軌道jとする。
【0053】
(2) 結合に対する軌道である結合性軌道又は反結合性軌道の占有率σiは、1 / 2を乗算したものにする。
【0054】
(3) Σ σ
i = 1となるまで、
【数1】
を算出する。
【0055】
(4) (3)において、全ての軌道jに対してΣ σ
i < 1であれば、式(1)の代わりに、
【数2】
として算出する。
【0056】
LUAOエネルギーELUAOについては、上記の(1)においてEiを低い順で並び替え、σjの代わりに(1 - σj)を用いる。
【0057】
例えば、原子A、B、Cに対して、分子の構造がA - B - Cであり、以下のように軌道iのエネルギーEiが取得できたとする。
軌道0: (A - B), E = x [eV], σ = 0.05
軌道1: (B - C), E = y [eV], σ = 0.50
軌道2: B, E = z [eV], σ = 0.98
軌道3: A, E = a [eV], σ = 0.99
ここで、x > y > z > aであるとする。
【0058】
この場合、それぞれの原子のHOAOエネルギーは以下のように算出できる。
A: 0.05 / 2 × x + min(0.99, 1 - 0.05 / 2) × a
B: 0.05 / 2 × x + 0.50 / 2 × y + min(0.98, 1 - (0.05 / 2 + 0.50 / 2)) × z
C: (y × 0.50 / 2) / (0.50 / 2)
【0059】
原子Aにおいては、エネルギーが高い順に、軌道0、軌道3が抽出される。軌道0の占有率が0.05であり、軌道3の占有率が0.99であるので、軌道3において占有率が1を越える。このため、HOAOエネルギーは、0.05 / 2 × x + (1 - 0.05 / 2) × aとなる。上記におけるmin(・) × aの項は、占有率が1を越えない範囲における軌道3のエネルギーを算出するための項である。
【0060】
より詳しくは、占有率が1を越えるのは軌道3であり、式(1)に基づいて、軌道3において占有率が1となる範囲(1 - 0.05 / 2)を軌道3における占有率として、HOAOエネルギーを算出する。2で割っているのは、軌道0が原子A、Bにおける結合に対する軌道であり、上記の(2)に対応させるためである。
【0061】
このように、式(1)は、占有率が1となるまでの各軌道におけるエネルギーの和を算出することを意味する。すなわち、HOAOエネルギーの算出として式(1)を用いる場合には、式(1)における最小のエネルギーを有する軌道が、それまでの軌道における占有率と1との差を占有率とみなして演算を実行する。
【0062】
原子Bについても同様であり、エネルギー型解順に、軌道0、軌道1、軌道2が抽出される。軌道0の占有率(0.05 / 2) + 軌道1の占有率(0.50 / 2)が1よりも小さく、軌道2までの占有率が1よりも大きくなる。このため、軌道2における占有率を(1 - (0.05 / 2 + 0.50 / 2))とみなして計算をする。
【0063】
このBに対する式は、上記の(1)~(3)の条件を合わせて考慮し、0.05 / 2 × x + min(0.50 / 2, 1 - 0.05 / 2) × y + min(0.98, 1 - (0.05 / 2 + 0.50 / 2)) × zのように変形してもよい。
【0064】
原子Cに対しては、σを全て足しても1を越えない。このため、式(2)を適用し、上記のような式により算出できる。
【0065】
以下、水分子(H2O)のNBO解析結果を用いて、具体例を用いて説明する。
【0066】
図5は、水分子のNBO解析結果の必要部分だけ抽出した表である。
【0067】
原子のカラムには、元素に原子インデクスを付与したものが示されている。水分子は、3つの原子から組成され、それぞれの原子の元素は、インデクス順にH、O、Hと定義されている。このため、それぞれの原子がH1、O2、H3と表される。
【0068】
1つの軌道には、原則電子が2個まで入ることが可能である。このため、占有率としては、1つの軌道に電子が2個入った状態を占有率1とするように変換された値が記載されている。
【0069】
軌道番号には、特に規定は存在しないが、上記の(1)~(4)に適合しやすくするため、エネルギーが高い順に軌道の番号を割り当てている。
【0070】
原子O2のHOAOエネルギーの算出について説明する。
【0071】
原子O2が含まれている軌道は、エネルギーの高い順に1から10、13から19である。HOAOエネルギーの算出の仕方に基づいて、占有率σを足していく。上記の順番に占有率の和を算出すると、軌道1から10、13、14までにおいて、Σσj = 0.000020 < 1であり、軌道1から10、13から15までにおいて、Σσj = 1.000020 > 1となる。なお、軌道13、14においては、表の値を(2)に基づいて2で割ったものを加算している。
【0072】
式(1)に基づいて、HOAOエネルギーを算出する。軌道15においては、占有率は、1.000000ではなく、1.000000 - (1.000020 - 1) = 0.999980とみなして演算を実行する。この結果、原子O2のHOAOエネルギーは、-0.37941…[hartree]と算出される。より具体的には、式(3)により表現される。
【数3】
【0073】
原子H1のHOAOエネルギーを同様に算出する。原子H1が含まれる軌道は、軌道11、13、17である。軌道11、13、17の全てを用いても、占有率は、0.5005075 < 1となる。このため、上記の(4)及び式(2)に基づき、原子H1のHOQOエネルギーは、-0.805638…[hartree]となる。より具体的には、式(4)により表現される。
【数4】
【0074】
原子H2についても同様に求めることができる。
【0075】
LUAOエネルギーは、軌道の並び替え(又は逆順にたどること)と、占有率を1 - σとすることにより算出できる。例えば、原子H1のLUAOエネルギーについて考える。原子H1が含まれる軌道は、エネルギーが低い順に軌道17、13、11となる。これに占有率(1 - σ)を考慮してエネルギーを算出する。占有率は、軌道17、13であると、Σ(1 - σ
j) = 0.5001175 < 1であり、軌道11まで含めると、Σ(1 - σ
j) = 1.4994925 > 1となる。軌道17の占有率を上記と同様に演算することにより、以下の式により原子H1のLUAOが取得できる。
【数5】
この結果、原子H1のLUAOエネルギーは、0.61109…[hartree]として取得することができる。
【0076】
上記においては、分子の所定の種類のエネルギーとしてHOMOエネルギー、LUMOエネルギーの推定に言及したが、本開示における実施形態は、他の分野における分子のエネルギーに関する特徴量の推定にも応用することができる。例えば、HOMOエネルギー、LUMOエネルギー以外の示強性変数にも適用することができる。限定されない例としては、分子の分極率(HOMOエネルギーに相当)の予測に対して、原子の帯電量(HOAOエネルギーに相当)を用いることも可能である。これは一例として示したものであり、分子、化合物の示強性変数の推定において、原子に局在させた示強性変数の値を用いて訓練をする手法に、本開示における実施形態を応用することが可能である。
【0077】
なお、本開示における推定装置1又は訓練装置2における訓練済モデル10、モデル20、第1読出関数12、22、第2読出関数14、24は、離散値ではなく連続値としてエネルギー等が定義できるものであってもよい。連続値として定義する場合には、例えば、引用文献として提示したC. Chen, et. al., “Graph Networks as a Universal Machine Learning Framework for Molecules and Crystals,” https://arxiv.org/abs/1812.05055v2の手法を応用して用いることもできるし、他の適切な方法により実装することも可能である。
【0078】
上記の全ての訓練済モデルは、例えば、説明したように訓練した上で、さらに、一般的な手法により蒸留されたモデルを含む概念であってもよい。
【0079】
前述した実施形態における各装置(推定装置1又は訓練装置2)の一部又は全部は、ハードウェアで構成されていてもよいし、CPU(Central Processing Unit)、又はGPU(Graphics Processing Unit)等が実行するソフトウェア(プログラム)の情報処理で構成されてもよい。ソフトウェアの情報処理で構成される場合には、前述した実施形態における各装置の少なくとも一部の機能を実現するソフトウェアを、フレキシブルディスク、CD-ROM(Compact Disc-Read Only Memory)又はUSB(Universal Serial Bus)メモリ等の非一時的な記憶媒体(非一時的なコンピュータ可読媒体)に収納し、コンピュータに読み込ませることにより、ソフトウェアの情報処理を実行してもよい。また、通信ネットワークを介して当該ソフトウェアがダウンロードされてもよい。さらに、ソフトウェアがASIC(Application Specific Integrated Circuit)又はFPGA(Field Programmable Gate Array)等の回路に実装されることにより、情報処理がハードウェアにより実行されてもよい。
【0080】
ソフトウェアを収納する記憶媒体の種類は限定されるものではない。記憶媒体は、磁気ディスク、又は光ディスク等の着脱可能なものに限定されず、ハードディスク、又はメモリ等の固定型の記憶媒体であってもよい。また、記憶媒体は、コンピュータ内部に備えられてもよいし、コンピュータ外部に備えられてもよい。
【0081】
図6は、前述した実施形態における各装置(推定装置1又は訓練装置2)のハードウェア構成の一例を示すブロック図である。各装置は、一例として、プロセッサ71と、主記憶装置72(メモリ)と、補助記憶装置73(メモリ)と、ネットワークインタフェース74と、デバイスインタフェース75と、を備え、これらがバス76を介して接続されたコンピュータ7として実現されてもよい。
【0082】
図6のコンピュータ7は、各構成要素を一つ備えているが、同じ構成要素を複数備えていてもよい。また、
図6では、1台のコンピュータ7が示されているが、ソフトウェアが複数台のコンピュータにインストールされて、当該複数台のコンピュータそれぞれがソフトウェアの同一の又は異なる一部の処理を実行してもよい。この場合、コンピュータそれぞれがネットワークインタフェース74等を介して通信して処理を実行する分散コンピューティングの形態であってもよい。つまり、前述した実施形態における各装置(推定装置1又は訓練装置2)は、7又は複数の記憶装置に記憶された命令を7台又は複数台のコンピュータが実行することで機能を実現するシステムとして構成されてもよい。また、端末から送信された情報をクラウド上に設けられた1台又は複数台のコンピュータで処理し、この処理結果を端末に送信するような構成であってもよい。
【0083】
前述した実施形態における各装置(推定装置1又は訓練装置2)の各種演算は、1又は複数のプロセッサを用いて、又は、ネットワークを介した複数台のコンピュータを用いて、並列処理で実行されてもよい。また、各種演算が、プロセッサ内に複数ある演算コアに振り分けられて、並列処理で実行されてもよい。また、本開示の処理、手段等の一部又は全部は、ネットワークを介してコンピュータ7と通信可能なクラウド上に設けられたプロセッサ及び記憶装置の少なくとも一方により実行されてもよい。このように、前述した実施形態における各装置は、1台又は複数台のコンピュータによる並列コンピューティングの形態であってもよい。
【0084】
プロセッサ71は、コンピュータの制御装置及び演算装置を含む電子回路(処理回路、Processing circuit、Processing circuitry、CPU、GPU、FPGA又はASIC等)であってもよい。また、プロセッサ71は、専用の処理回路を含む半導体装置等であってもよい。プロセッサ71は、電子論理素子を用いた電子回路に限定されるものではなく、光論理素子を用いた光回路により実現されてもよい。また、プロセッサ71は、量子コンピューティングに基づく演算機能を含むものであってもよい。
【0085】
プロセッサ71は、コンピュータ7の内部構成の各装置等から入力されたデータやソフトウェア(プログラム)に基づいて演算処理を行い、演算結果や制御信号を各装置等に出力することができる。プロセッサ71は、コンピュータ7のOS(Operating System)や、アプリケーション等を実行することにより、コンピュータ7を構成する各構成要素を制御してもよい。
【0086】
前述した実施形態における各装置(推定装置1及び/又は訓練装置2)は、1又は複数のプロセッサ71により実現されてもよい。ここで、プロセッサ71は、1チップ上に配置された1又は複数の電子回路を指してもよいし、2つ以上のチップあるいは2つ以上のデバイス上に配置された1又は複数の電子回路を指してもよい。複数の電子回路を用いる場合、各電子回路は有線又は無線により通信してもよい。
【0087】
主記憶装置72は、プロセッサ71が実行する命令及び各種データ等を記憶する記憶装置であり、主記憶装置72に記憶された情報がプロセッサ71により読み出される。補助記憶装置73は、主記憶装置72以外の記憶装置である。なお、これらの記憶装置は、電子情報を格納可能な任意の電子部品を意味するものとし、半導体のメモリでもよい。半導体のメモリは、揮発性メモリ、不揮発性メモリのいずれでもよい。前述した実施形態における各装置(推定装置1又は訓練装置2)において各種データを保存するための記憶装置は、主記憶装置73又は補助記憶装置73により実現されてもよく、プロセッサ71に内蔵される内蔵メモリにより実現されてもよい。例えば、前述した実施形態における記憶部102は、主記憶装置72又は補助記憶装置73により実現されてもよい。
【0088】
記憶装置(メモリ)1つに対して、複数のプロセッサが接続(結合)されてもよいし、単数のプロセッサが接続されてもよい。プロセッサ1つに対して、複数の記憶装置(メモリ)が接続(結合)されてもよい。前述した実施形態における各装置(推定装置1又は訓練装置2)が、少なくとも1つの記憶装置(メモリ)とこの少なくとも1つの記憶装置(メモリ)に接続(結合)される複数のプロセッサで構成される場合、複数のプロセッサのうち少なくとも1つのプロセッサが、少なくとも1つの記憶装置(メモリ)に接続(結合)される構成を含んでもよい。また、複数台のコンピュータに含まれる記憶装置(メモリ))とプロセッサによって、この構成が実現されてもよい。さらに、記憶装置(メモリ)がプロセッサと一体になっている構成(例えば、L1キャッシュ、L2キャッシュを含むキャッシュメモリ)を含んでもよい。
【0089】
ネットワークインタフェース74は、無線又は有線により、通信ネットワーク8に接続するためのインタフェースである。ネットワークインタフェース74は、既存の通信規格に適合したもの等、適切なインタフェースを用いればよい。ネットワークインタフェース74により、通信ネットワーク8を介して接続された外部装置9Aと情報のやり取りが行われてもよい。なお、通信ネットワーク8は、WAN(Wide Area Network)、LAN(Local Area Network)、PAN(Personal Area Network)等のいずれか、又は、それらの組み合わせであってよく、コンピュータ7と外部装置9Aとの間で情報のやりとりが行われるものであればよい。WANの一例としてインターネット等があり、LANの一例としてIEEE802.11やイーサネット(登録商標)等があり、PANの一例としてBluetooth(登録商標)やNFC(Near Field Communication)等がある。
【0090】
デバイスインタフェース75は、外部装置9Bと直接接続するUSB等のインタフェースである。
【0091】
外部装置9Aは、コンピュータ7とネットワークを介して接続されている装置である。外部装置9Bは、コンピュータ7と直接接続されている装置である。
【0092】
外部装置9A又は外部装置9Bは、一例として、入力装置であってもよい。入力装置は、例えば、カメラ、マイクロフォン、モーションキャプチャ、各種センサ等、キーボード、マウス、又は、タッチパネル等のデバイスであり、取得した情報をコンピュータ7に与える。また、パーソナルコンピュータ、タブレット端末、又は、スマートフォン等の入力部とメモリとプロセッサを備えるデバイスであってもよい。
【0093】
また、外部装置9A又は外部装置9Bは、一例として、出力装置でもよい。出力装置は、例えば、LCD(Liquid Crystal Display)、CRT(Cathode Ray Tube)、PDP(Plasma Display Panel)、又は、有機EL(Electro Luminescence)パネル等の表示装置であってもよいし、音声等を出力するスピーカ等であってもよい。また、パーソナルコンピュータ、タブレット端末、又は、スマートフォン等の出力部とメモリとプロセッサを備えるデバイスであってもよい。
【0094】
また、外部装置9A又は外部装置9Bは、記憶装置(メモリ)であってもよい。例えば、外部装置9Aは、ネットワークストレージ等であってもよく、外部装置9Bは、HDD等のストレージであってもよい。
【0095】
また、外部装置9A又は外部装置9Bは、前述した実施形態における各装置(推定装置1又は訓練装置2)の構成要素の一部の機能を有する装置でもよい。つまり、コンピュータ7は、外部装置9A又は外部装置9Bの処理結果の一部又は全部を送信又は受信してもよい。
【0096】
本明細書(請求項を含む)において、「a、b及びcの少なくとも1つ(一方)」又は「a、b又はcの少なくとも1つ(一方)」の表現(同様な表現を含む)が用いられる場合は、a、b、c、a-b、a-c、b-c、又は、a-b-cのいずれかを含む。また、a-a、a-b-b、a-a-b-b-c-c等のように、いずれかの要素について複数のインスタンスを含んでもよい。さらに、a-b-c-dのようにdを有する等、列挙された要素(a、b及びc)以外の他の要素を加えることも含む。
【0097】
本明細書(請求項を含む)において、「データを入力として/データに基づいて/に従って/に応じて」等の表現(同様な表現を含む)が用いられる場合は、特に断りがない場合、各種データそのものを入力として用いる場合や、各種データに何らかの処理を行ったもの(例えば、ノイズ加算したもの、正規化したもの、各種データの中間表現等)を入力として用いる場合を含む。また「データに基づいて/に従って/に応じて」何らかの結果が得られる旨が記載されている場合、当該データのみに基づいて当該結果が得られる場合を含むとともに、当該データ以外の他のデータ、要因、条件、及び/又は状態等にも影響を受けて当該結果が得られる場合をも含み得る。また、「データを出力する」旨が記載されている場合、特に断りがない場合、各種データそのものを出力として用いる場合や、各種データに何らかの処理を行ったもの(例えば、ノイズ加算したもの、正規化したもの、各種データの中間表現等)を出力とする場合も含む。
【0098】
本明細書(請求項を含む)において、「接続される(connected)」及び「結合される(coupled)」との用語が用いられる場合は、直接的な接続/結合、間接的な接続/結合、電気的(electrically)な接続/結合、通信的(communicatively)な接続/結合、機能的(operatively)な接続/結合、物理的(physically)な接続/結合等のいずれをも含む非限定的な用語として意図される。当該用語は、当該用語が用いられた文脈に応じて適宜解釈されるべきであるが、意図的に或いは当然に排除されるのではない接続/結合形態は、当該用語に含まれるものして非限定的に解釈されるべきである。
【0099】
本明細書(請求項を含む)において、「AがBするよう構成される(A configured to B)」との表現が用いられる場合は、要素Aの物理的構造が、動作Bを実行可能な構成を有するとともに、要素Aの恒常的(permanent)又は一時的(temporary)な設定(setting/configuration)が、動作Bを実際に実行するように設定(configured/set)されていることを含んでよい。例えば、要素Aが汎用プロセッサである場合、当該プロセッサが動作Bを実行可能なハードウェア構成を有するとともに、恒常的(permanent)又は一時的(temporary)なプログラム(命令)の設定により、動作Bを実際に実行するように設定(configured)されていればよい。また、要素Aが専用プロセッサ又は専用演算回路等である場合、制御用命令及びデータが実際に付属しているか否かとは無関係に、当該プロセッサの回路的構造が動作Bを実際に実行するように構築(implemented)されていればよい。
【0100】
本明細書(請求項を含む)において、含有又は所有を意味する用語(例えば、「含む(comprising/including)」及び有する「(having)等)」が用いられる場合は、当該用語の目的語により示される対象物以外の物を含有又は所有する場合を含む、open-endedな用語として意図される。これらの含有又は所有を意味する用語の目的語が数量を指定しない又は単数を示唆する表現(a又はanを冠詞とする表現)である場合は、当該表現は特定の数に限定されないものとして解釈されるべきである。
【0101】
本明細書(請求項を含む)において、ある箇所において「1つ又は複数(one or more)」又は「少なくとも1つ(at least one)」等の表現が用いられ、他の箇所において数量を指定しない又は単数を示唆する表現(a又はanを冠詞とする表現)が用いられているとしても、後者の表現が「1つ」を意味することを意図しない。一般に、数量を指定しない又は単数を示唆する表現(a又はanを冠詞とする表現)は、必ずしも特定の数に限定されないものとして解釈されるべきである。
【0102】
本明細書において、ある実施例の有する特定の構成について特定の効果(advantage/result)が得られる旨が記載されている場合、別段の理由がない限り、当該構成を有する他の1つ又は複数の実施例についても当該効果が得られると理解されるべきである。但し当該効果の有無は、一般に種々の要因、条件、及び/又は状態等に依存し、当該構成により必ず当該効果が得られるものではないと理解されるべきである。当該効果は、種々の要因、条件、及び/又は状態等が満たされたときに実施例に記載の当該構成により得られるものに過ぎず、当該構成又は類似の構成を規定したクレームに係る発明において、当該効果が必ずしも得られるものではない。
【0103】
本明細書(請求項を含む)において、「最適化(optimize)」等の用語が用いられる場合は、グローバルな最適値を求めること、グローバルな最適値の近似値を求めること、ローカルな最適値を求めること、及びローカルな最適値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最適値の近似値を確率的又はヒューリスティックに求めることを含む。
【0104】
本明細書(請求項を含む)において、複数のハードウェアが所定の処理を行う場合、各ハードウェアが協働して所定の処理を行ってもよいし、一部のハードウェアが所定の処理の全てを行ってもよい。また、一部のハードウェアが所定の処理の一部を行い、別のハードウェアが所定の処理の残りを行ってもよい。本明細書(請求項を含む)において、「1又は複数のハードウェアが第1の処理を行い、前記1又は複数のハードウェアが第2の処理を行う」等の表現が用いられている場合、第1の処理を行うハードウェアと第2の処理を行うハードウェアは同じものであってもよいし、異なるものであってもよい。つまり、第1の処理を行うハードウェア及び第2の処理を行うハードウェアが、前記1又は複数のハードウェアに含まれていればよい。なお、ハードウェアは、電子回路、又は、電子回路を含む装置等を含んでもよい。
【0105】
以上、本開示の実施形態について詳述したが、本開示は上記した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲において種々の追加、変更、置き換え及び部分的削除等が可能である。例えば、前述した全ての実施形態において、数値又は数式を説明に用いている場合は、一例として示したものであり、これらに限られるものではない。また、実施形態における各動作の順序は、一例として示したものであり、これらに限られるものではない。