(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024168780
(43)【公開日】2024-12-05
(54)【発明の名称】自己教師あり学習プログラム、方法、及び装置
(51)【国際特許分類】
G06N 3/0895 20230101AFI20241128BHJP
G16C 20/70 20190101ALI20241128BHJP
G06N 3/096 20230101ALI20241128BHJP
【FI】
G06N3/0895
G16C20/70
G06N3/096
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2023085717
(22)【出願日】2023-05-24
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】坂井 靖文
(57)【要約】
【課題】自己教師あり学習により訓練されるニューラルネットワークの予測精度を向上させる。
【解決手段】自己教師あり学習装置は、第1の分子に含まれる原子のうちの所定割合の原子それぞれについて、予め定めた複数種類の原子群に含まれるいずれかの原子に置換した第2の分子を示すデータを生成し、第2の分子を示すデータを、分子構造に関する予測を行う機械学習モデルに入力して予測結果を取得し、第1の分子に対応する正解データと、予測結果との比較結果に基づいて、機械学習モデルのパラメータを更新する。
【選択図】
図6
【特許請求の範囲】
【請求項1】
第1の分子に含まれる原子のうちの所定割合の原子それぞれについて、予め定めた複数種類の原子群に含まれるいずれかの原子に置換した第2の分子を示すデータを生成し、
前記第2の分子を示すデータを、分子構造に関する予測を行う機械学習モデルに入力して予測結果を取得し、
前記第1の分子に対応する正解データと、前記予測結果との比較結果に基づいて、前記機械学習モデルのパラメータを更新する、
ことを含む処理をコンピュータに実行させるための自己教師あり学習プログラム。
【請求項2】
前記予測結果は、前記第2の分子に含まれる原子のうち、少なくとも前記第1の分子に含まれる原子から置換された原子が、前記第1の分子に含まれる原子の各々から置換されているか否かを示す情報であり、
前記正解データは、前記第1の分子を示すデータと前記第2の分子を示すデータとの差分を示すデータである、
請求項1に記載の自己教師あり学習プログラム。
【請求項3】
前記予測結果は、前記第2の分子に含まれる原子のうち、少なくとも前記第1の分子に含まれる原子から置換された原子が、前記原子群に含まれるいずれの原子であるかを示す情報であり、
前記正解データは、前記第1の分子を示すデータである、
請求項1に記載の自己教師あり学習プログラム。
【請求項4】
前記予測結果は、前記第2の分子に含まれる全ての原子についての情報を含む請求項2又は請求項3に記載の自己教師あり学習プログラム。
【請求項5】
前記所定割合が0の場合、前記第2の分子を示すデータは、前記第1の分子を示すデータであり、
前記予測結果は、前記第2の分子に含まれる全ての原子についての情報を含む、
請求項1に記載の自己教師あり学習プログラム。
【請求項6】
前記機械学習モデルは、前記第2の分子を示すデータから前記第2の分子の分子構造を示す特徴量を抽出する第1の部分と、前記第1の部分で抽出された特徴量に基づいて、特定のタスクに応じた予測結果を出力する第2の部分とを含み、訓練された機械学習モデルの前記第1の部分は、転移学習に利用される請求項1~請求項3のいずれか1項に記載の自己教師あり学習プログラム。
【請求項7】
前記第2の部分は、前記第2の分子に含まれる原子の各々についての前記第1の部分の出力にそれぞれ対応した異なる出力部を含み、
前記予測結果を取得する処理は、前記第2の分子に含まれる原子の各々についての予測結果を一度に取得することを含む、
請求項6に記載の自己教師あり学習プログラム。
【請求項8】
第1の分子に含まれる原子のうちの所定割合の原子それぞれについて、予め定めた複数種類の原子群に含まれるいずれかの原子に置換した第2の分子を示すデータを生成し、
前記第2の分子を示すデータを、分子構造に関する予測を行う機械学習モデルに入力して予測結果を取得し、
前記第1の分子に対応する正解データと、前記予測結果との比較結果に基づいて、前記機械学習モデルのパラメータを更新する、
ことを含む処理をコンピュータが実行する自己教師あり学習方法。
【請求項9】
第1の分子に含まれる原子のうちの所定割合の原子それぞれについて、予め定めた複数種類の原子群に含まれるいずれかの原子に置換した第2の分子を示すデータを生成する生成部と、
前記第2の分子を示すデータを、分子構造に関する予測を行う機械学習モデルに入力して予測結果を取得する取得部と、
前記第1の分子に対応する正解データと、前記予測結果との比較結果に基づいて、前記機械学習モデルのパラメータを更新する更新部と、
を含む自己教師あり学習装置。
【発明の詳細な説明】
【技術分野】
【0001】
開示の技術は、自己教師あり学習プログラム、自己教師あり学習方法、及び自己教師あり学習装置に関する。
【背景技術】
【0002】
従来、分子の構造データに基づいて、その分子のエネルギーを予測するニューラルネットワークが提案されている。このニューラルネットワークは、「構造」と「エネルギー」とからなるラベル付きデータを用いて教師あり学習により訓練される。この「エネルギー」は、例えば、密度汎関数理論(DFT:Density Functional Theory)と呼ばれる数値計算手法で計算される。DFTによる分子のエネルギーの計算時間は非常に長く、1つの構造のエネルギーの計算に、半日から3日かかる場合もある。そのため、教師あり学習のためのラベル付きデータを大量に集めることが困難である。
【0003】
そこで、ラベルなしデータから、タスクの正解(ラベル)を生成し、生成したラベルを用いて教師あり学習を行う自己教師あり学習と呼ばれる手法が存在する。例えば、文章の一部の単語をマスクして、マスクした単語をニューラルネットワークに予測させることで、自己教師あり学習を行う。分子のエネルギーの予測を行うニューラルネットに向けた自己教師あり学習の手法も提案されている。この手法では、分子を構成する原子及び原子間の結合の一部がマスクされる。
【先行技術文献】
【特許文献】
【0004】
【非特許文献】
【0005】
【非特許文献1】Kristof T. Sch▲u▼tt, Oliver T. Unke, Michael Gastegger, "Equivariant Message Passing for the Prediction of Tensorial Properties and Molecular Spectra," PMLR, 2021.
【非特許文献2】Johannes Gasteiger, Muhammed Shuaibi, Anuroop Sriram, Stephan Gunnemann, Zachary Ulissi, C. Lawrence Zitnick, Abhishek Das, "GemNet-OC: Developing Graph Neural Networks for Large and Diverse Molecular Simulation Datasets," Transactions on Machine Learning Research, 2022.
【非特許文献3】Zaixi Zhang, Qi Liu, Shengyu Zhang, Chang-Yu Hsieh, Liang Shi, Chee-Kong Lee, "Graph Self-Supervised Learning for Optoelectronic Properties of Organic Semiconductors," ICML, 2022.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、従来技術では、実際の原子としては存在しない「マスク」という情報をニューラルネットワークが学習してしまうことになり、無駄な学習が行われ、ニューラルネットワークの予測精度が低下する場合があるという問題がある。
【0007】
一つの側面として、開示の技術は、自己教師あり学習により訓練されるニューラルネットワークの予測精度を向上させることを目的とする。
【課題を解決するための手段】
【0008】
一つの態様として、開示の技術は、第1の分子に含まれる原子のうちの所定割合の原子それぞれについて、予め定めた複数種類の原子群に含まれるいずれかの原子に置換した第2の分子を示すデータを生成する。また、開示の技術は、前記第2の分子を示すデータを、分子構造に関する予測を行う機械学習モデルに入力して予測結果を取得する。そして、開示の技術は、前記第1の分子に対応する正解データと、前記予測結果との比較結果に基づいて、前記機械学習モデルのパラメータを更新する。
【発明の効果】
【0009】
一つの側面として、自己教師あり学習により訓練されるニューラルネットワークの予測精度を向上させることができる、という効果を有する。
【図面の簡単な説明】
【0010】
【
図1】分子のエネルギー予測のNNについて説明するための図である。
【
図3】分子のエネルギー予測のためのNNに向けた自己教師あり学習を説明するための図である。
【
図4】分子のエネルギー予測のためのNNに向けた自己教師あり学習の課題を説明するための図である。
【
図5】自己教師あり学習装置の機能ブロック図である。
【
図6】第1実施形態における自己教師あり学習装置の処理を説明するための図である。
【
図7】自己教師あり学習装置として機能するコンピュータの概略構成を示すブロック図である。
【
図8】自己教師あり学習処理の一例を示すフローチャートである。
【
図9】第2実施形態における自己教師あり学習装置の処理を説明するための図である。
【
図10】NNの構成の一例を説明するための図である。
【
図11】本手法の効果についての検証結果を示す図である。
【
図12】本手法の効果についての検証結果を示す図である。
【
図13】本手法の効果についての検証結果を示す図である。
【発明を実施するための形態】
【0011】
以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。
【0012】
実施形態の詳細を説明する前に、分子のエネルギー予測のためのニューラルネットワークに向けた自己教師あり学習における課題について説明する。
【0013】
図1に示すように、分子の構造データに基づいて、その分子のエネルギーを予測するニューラルネットワーク(以下、「NN」とも表記する)は、「構造」と「エネルギー」とからなるラベル付きデータを用いて教師あり学習により訓練される。すなわち、分子の構造データをNNへ入力し、NNからの出力である予測された分子のエネルギーと、正解のエネルギーとの差を逆伝播することによりNNのパラメータを更新する。この正解となるエネルギーは、例えば、DFTと呼ばれる数値計算手法で計算される。DFTによる分子のエネルギーの計算時間は非常に長いため、教師あり学習のためのラベル付きデータを大量に集めることが困難である。
【0014】
そこで、ラベルなしデータから、タスクの正解(ラベル)を生成し、生成したラベルを用いて教師あり学習を行う自己教師あり学習と呼ばれる手法が存在する。一般的には、自己教師あり学習は、転移学習における事前学習に適用される。
図2に示すように、転移学習は、ラベルなしデータを用いた自己教師あり学習により、NNを事前学習する。NNは、入力されるデータの特徴量を抽出する特徴量抽出部と、タスクに応じた出力部とが含まれる。事前学習時の出力部は事前学習用のものが適用される。
【0015】
そして、事前学習とファインチューニングとでタスクが違う場合は、出力部をファインチューニング用に変更する。例えば、事前学習のタスクは3クラス分類だが、ファインチューニングのタスクは4クラス分類の場合、出力部を4クラス分類の全結合層に変更する。その後、ファインチューニング用のラベル付きデータを用いた教師あり学習によりNNを訓練する。この際の特徴量抽出部は、事前学習されたものをそのまま適用する。事前学習として自己教師あり学習を適用することで、事前学習後のファインチューニング(教師あり学習)に必要となるラベル付きデータが少ない状況でも、NNの高精度化が実現できる。
【0016】
分子のエネルギーの予測を行うニューラルネットに向けた自己教師あり学習の手法も提案されている。この手法では、
図3に示すように、分子を構成する原子及び原子間の結合で表される分子の構造を用意する。
図3の例では、各原子を丸で表し、丸の模様の違いは、原子の種類の違いを表している。分子の構造のうち、所定割合の原子又は結合部分をマスクし、マスクした箇所の原子又は結合をNNに予測させる。分子の構造は既知であるため、マスクした箇所の正解(本当の原子又は結合)は分かっているため、自己教師あり学習が可能となる。
【0017】
また、
図4に示すように、分子の構造は、分子を構成する各原子に、元素等の原子の属性に応じた値(ベクトル)を割り当てた入力データで表される。入力データにおいて、マスクの対象となった原子は、マスクに応じた値(
図4中では「x」と表記)、例えば、ランダムな初期値をXavierの手法で正規化した値に置換される。そして、NNは、マスクされた原子が、予め用意した原子ライブラリ(
図4中では、A、B、C、D)の中のいずれの原子であるかを予測する多値クラス分類の予測を行う。
【0018】
しかし、このように、原子をマスクする自己教師あり学習の場合、実際には存在しない「マスク」という情報を含む分子構造を入力データとして、NNが訓練されてしまう。入力データにおけるマスク箇所の値は、マスクを実現するために入力されたものであり、分子を構成する原子に「マスク」という原子は存在しない。そのため、実際には無い「マスク」という情報をNNが学習するため、無駄な学習が行われ、訓練されるNNの予測精度が低下する場合がある。
【0019】
そこで、以下の各実施形態では、分子に含まれる原子の一部をマスクして、NNの自己教師あり学習を行う場合に、無駄な学習が行われることを抑制し、NNの予測精度を向上させる。以下、各実施形態について詳述する。
【0020】
<第1実施形態>
図5に示すように、自己教師あり学習装置10は、機能的には、生成部12と、取得部14と、更新部16とを含む。また、自己教師あり学習装置10の所定の記憶領域には、原子ライブラリ22と、ニューラルネットワーク(NN)24とが記憶される。NN24は、開示の技術の「機械学習モデル」の一例である。また、本実施形態におけるNN24は、グラフニューラルネットワーク(GNN)である場合について説明する。
【0021】
生成部12は、自己教師あり学習装置10に入力される第1の分子を示す第1の分子データを取得する。第1の分子データは、例えば、第1の分子に含まれる原子をノード、原子間の結合を、ノード間を接続するエッジで表したグラフデータである。各ノードは、そのノードに対応する原子を示す値(ベクトル)を保持する。生成部12は、第1の分子に含まれる原子のうちの所定割合の原子それぞれについて、原子ライブラリ22内のいずれかの原子に置換した第2の分子を示す第2の分子データを生成する。原子ライブラリ22には、予め定めた複数種類の原子群の各原子を示す値が格納されている。原子ライブラリ22に値が格納されている原子は、実際に存在する原子のみであり、従来技術のマスクに相当する値は含まれない。
【0022】
図6を参照して具体的に説明する。生成部12は、第1の分子に含まれる原子のうち、指定された置換率に従った数の原子を置換対象として特定する。置換率は、0~100%の値であり、置換率0%は、置換なしの場合、置換率100%は、分子に含まれる全ての原子を置換する場合である。
図6の例は、置換率40%の場合であり、分子に含まれる5つの原子のうち2つが置換対象(網掛の丸)として特定されている。また、生成部12は、第1の分子データにおける置換対象の原子のノードの値を、原子ライブラリ22からランダムに選択した原子の値で置換することにより、第2の分子データを生成する。
【0023】
NN24は、第2の分子データから第2の分子の分子構造を示す特徴量を抽出する特徴量抽出部と、特徴量抽出部で抽出された特徴量に基づいて、事前学習のタスクに応じた予測結果を出力する出力部とを含む。第1実施形態では、事前学習のタスクは、第2の分子に含まれる原子の各々が、第1の分子に含まれる原子の各々から置換されたか否かの二値分類タスクである。
図6の例では、各原子についての予測結果を[0(置換されていない)]又は[1(置換された)]で表している。
【0024】
取得部14は、生成部12により生成された第2の分子データをNN24に入力し、NN24から出力される予測結果である、第2の分子に含まれる各原子が第1の分子から置換されたか否かを示す情報を取得する。
【0025】
更新部16は、第1の分子に対応する正解データと、取得部14で取得された予測結果との比較結果に基づいて、NN24のパラメータを更新する。具体的には、更新部16は、第1の分子データと第2の分子データとで、対応するノード同士で値が同一のノードに対応する原子については、正解データ[0]を生成する。また、更新部16は、対応するノード同士で値が異なるノードに対応する原子については、正解データ[1]を生成する。そして、更新部16は、予測結果と正解データとの差分をNN24に逆伝播して、NN24のパラメータを更新する。
【0026】
更新部16は、所定の終了条件を満たすまでNN24のパラメータの更新を繰り返す。所定の終了条件は、例えば、繰り返し回数が所定回数に達した場合、予測結果と正解データとの差分が所定値以下になった場合、前回の差分と今回の差分との差が所定値以下となった場合(差分が収束した場合)等としてよい。
【0027】
自己教師あり学習装置10は、例えば
図7に示すコンピュータ40で実現されてよい。コンピュータ40は、CPU(Central Processing Unit)41と、GPU(Graphics Processing Unit)42と、一時記憶領域としてのメモリ43と、不揮発性の記憶装置44とを備える。また、コンピュータ40は、入力装置、表示装置等の入出力装置45と、記憶媒体49に対するデータの読み込み及び書き込みを制御するR/W(Read/Write)装置46とを備える。また、コンピュータ40は、インターネット等のネットワークに接続される通信I/F(Interface)47を備える。CPU41、GPU42、メモリ43、記憶装置44、入出力装置45、R/W装置46、及び通信I/F47は、バス48を介して互いに接続される。
【0028】
記憶装置44は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等である。記憶媒体としての記憶装置44には、コンピュータ40を、自己教師あり学習装置10として機能させるための自己教師あり学習プログラム50が記憶される。自己教師あり学習プログラム50は、生成プロセス制御命令52と、取得プロセス制御命令54と、更新プロセス制御命令56とを有する。また、記憶装置44は、原子ライブラリ22及びNN24の各々を構成する情報が記憶される情報記憶領域60を有する。
【0029】
CPU41は、自己教師あり学習プログラム50を記憶装置44から読み出してメモリ43に展開し、自己教師あり学習プログラム50が有する制御命令を順次実行する。CPU41は、生成プロセス制御命令52を実行することで、
図5に示す生成部12として動作する。また、CPU41は、取得プロセス制御命令54を実行することで、
図5に示す取得部14として動作する。また、CPU41は、更新プロセス制御命令56を実行することで、
図5に示す更新部16として動作する。また、CPU41は、情報記憶領域60から情報を読み出して、原子ライブラリ22及びNN24の各々をメモリ43に展開する。これにより、自己教師あり学習プログラム50を実行したコンピュータ40が、自己教師あり学習装置10として機能することになる。なお、プログラムを実行するCPU41はハードウェアである。また、プログラムの一部は、GPU42により実行されてもよい。
【0030】
なお、自己教師あり学習プログラム50により実現される機能は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等で実現されてもよい。
【0031】
次に、第1実施形態に係る自己教師あり学習装置10の動作について説明する。自己教師あり学習装置10に第1の分子データが入力され、NN24の自己教師あり学習の実行が指示されると、自己教師あり学習装置10において、
図8に示す自己教師あり学習処理が実行される。なお、自己教師あり学習処理は、開示の技術の自己教師あり学習方法の一例である。
【0032】
ステップS10で、生成部12が、自己教師あり学習装置10に入力された第1の分子データを取得する。次に、ステップS12で、生成部12が、第1の分子に含まれる原子のうちの所定割合の原子それぞれについて、原子ライブラリ22内のいずれかの原子に置換した第2の分子を示す第2の分子データを生成する。次に、ステップS14で、取得部14が、生成された第2の分子データをNN24に入力して、第2の分子に含まれる原子の各々が、第1の分子に含まれる原子の各々から置換されたか否かを示す予測結果を取得する。
【0033】
次に、ステップS16で、更新部16が、第1の分子データと第2の分子データとで、対応するノード同士で値が同一か異なるかに応じて、そのノードに対応する原子についての正解データ[0(置換されていない)]又は[1(置換された)]を生成する。次に、ステップS18で、更新部16が、予測結果と正解データとの差分をNN24に逆伝播して、NN24のパラメータを更新する。
【0034】
次に、ステップS20で、更新部16が、パラメータ更新の終了条件を満たしたか否かを判定する。終了条件を満たした場合には、ステップS22へ移行し、満たしていない場合には、ステップS10に戻る。ステップS22では、更新部16が、最終的なパラメータが設定されたNN24を所定の記憶領域に記憶し、自己教師あり学習処理は終了する。
【0035】
以上説明したように、第1実施形態に係る自己教師あり学習装置は、第1の分子に含まれる原子のうちの所定割合の原子それぞれについて、原子ライブラリ内のいずれかの原子に置換した第2の分子データを生成する。そして、自己教師あり学習装置は、第2の分子データを、分子構造に関する予測を行うNNに入力して予測結果を取得し、第1の分子に対応する正解データと予測結果との比較結果に基づいて、NNのパラメータを更新する。このように、置換対象の原子を、ランダムな値ではなく、実際に存在する原子に置換することで、無駄な情報の学習が抑制され、自己教師あり学習により訓練されるニューラルネットワークの予測精度を向上させることができる。
【0036】
<第2実施形態>
次に、第2実施形態について説明する。なお、第2実施形態に係る自己教師あり学習装置において、第1実施形態に係る自己教師あり学習装置10と同様の構成については、同一符号を付して詳細な説明を省略する。
【0037】
図5に示すように、自己教師あり学習装置210は、機能的には、生成部12と、取得部214と、更新部216とを含む。また、自己教師あり学習装置210の所定の記憶領域には、原子ライブラリ22と、NN224とが記憶される。
【0038】
NN224は、第1実施形態のNN24と同様に、第2の分子データから第2の分子の分子構造を示す特徴量を抽出する特徴量抽出部と、特徴量抽出部で抽出された特徴量に基づいて、事前学習のタスクに応じた予測結果を出力する出力部とを含む。第2実施形態では、事前学習のタスクは、
図9に示すように、第2の分子に含まれる原子の各々が、原子ライブラリ22内のいずれの原子であるかを予測する多値分類タスクである。
【0039】
なお、
図10に示すように、NN224は、NN224への入力データとなる第2の分子データを構成する各ノードに対応する特徴量抽出部の出力にそれぞれ接続する、異なる全結合層で出力部を構成してもよい。これにより、第2の分子に含まれる全ての原子の予測を一度に行うことができる。
【0040】
取得部214は、生成部12により生成された第2の分子データをNN224に入力し、NN224から出力される予測結果である、第2の分子に含まれる各原子が原子ライブラリ22内のいずれの原子であるかを示す情報を取得する。
【0041】
更新部216は、第1の分子に対応する正解データと、取得部214で取得された予測結果との比較結果に基づいて、NN224のパラメータを更新する。具体的には、更新部216は、第1の分子に含まれる原子の各々を正解データとし、予測結果と正解データとの差分をNN224に逆伝播して、NN224のパラメータを更新する。更新部216は、所定の終了条件を満たすまでNN224のパラメータの更新を繰り返す。所定の終了条件は、第1実施形態の場合と同様である。
【0042】
自己教師あり学習装置210は、例えば
図7に示すコンピュータ40で実現されてよい。コンピュータ40の記憶装置44には、コンピュータ40を、自己教師あり学習装置210として機能させるための自己教師あり学習プログラム250が記憶される。自己教師あり学習プログラム250は、生成プロセス制御命令52と、取得プロセス制御命令254と、更新プロセス制御命令256とを有する。また、記憶装置44は、原子ライブラリ22及びNN224の各々を構成する情報が記憶される情報記憶領域60を有する。
【0043】
CPU41は、自己教師あり学習プログラム250を記憶装置44から読み出してメモリ43に展開し、自己教師あり学習プログラム250が有する制御命令を順次実行する。CPU41は、生成プロセス制御命令52を実行することで、
図5に示す生成部12として動作する。また、CPU41は、取得プロセス制御命令254を実行することで、
図5に示す取得部214として動作する。また、CPU41は、更新プロセス制御命令256を実行することで、
図5に示す更新部216として動作する。また、CPU41は、情報記憶領域60から情報を読み出して、原子ライブラリ22及びNN224の各々をメモリ43に展開する。これにより、自己教師あり学習プログラム250を実行したコンピュータ40が、自己教師あり学習装置210として機能することになる。
【0044】
なお、自己教師あり学習プログラム250により実現される機能は、例えば半導体集積回路、より詳しくはASIC、FPGA等で実現されてもよい。
【0045】
次に、第2実施形態に係る自己教師あり学習装置210の動作について説明する。自己教師あり学習装置210に第1の分子データが入力され、NN224の自己教師あり学習の実行が指示されると、自己教師あり学習装置10において、
図8に示す自己教師あり学習処理が実行される。以下では、第2実施形態に係る自己教師あり学習処理において、第1実施形態に係る自己教師あり学習処理と異なる点について説明する。
【0046】
ステップS14で、取得部214が、第2の分子データをNN224に入力し、NN224から出力される予測結果である、第2の分子に含まれる各原子が原子ライブラリ内のいずれの原子であるかを示す情報を取得する。次に、ステップS16で、更新部216が、第1の分子に含まれる原子の各々を正解データとする。
【0047】
以上説明したように、第2実施形態に係る自己教師あり学習装置は、NNの予測結果として、第2の分子に含まれる各原子が原子ライブラリ内のいずれの原子であるかを示す情報を取得する。これにより、第1実施形態と同様に、無駄な情報の学習が抑制され、自己教師あり学習により訓練されるニューラルネットワークの予測精度を向上させることができる。
【0048】
また、上記各実施形態に係る自己教師あり学習装置により訓練されたNNは、
図2で説明したように、転移学習に適用することができる。すなわち、自己教師あり学習により訓練されたNNの特徴量抽出部はそのまま用い、出力部を分子のエネルギー予測のタスクに合わせて変更する。そして、例えば、DFTで計算されたエネルギーを正解とするラベル付きデータで上記のNNを教師あり学習により訓練することで、エネルギー予測のタスクのためのNNが構築される。
【0049】
ここで、上記各実施形態の効果の検証結果について説明する。本検証では、以下の各手法について検証を行った。
比較手法1:ラベル付きデータのみでNNを教師あり学習する手法(自己教師あり学習なし)
比較手法2:既存の自己教師あり学習(ランダム値のマスク)により訓練されたNNをラベル付きデータで教師あり学習する手法
本手法1:第1実施形態の手法
本手法2:第2実施形態の手法
【0050】
本検証では、分子の構造と、その構造に対応するエネルギーとの組み合わせであるラベル付きデータを3770個用意し、3770個のデータの内、2870個を訓練用データ、残りの900個を訓練に用いない検証用データとした。また、2870個の訓練用データの全ての構造のデータを、自己教師あり学習に使用し、2870個の訓練用データの全ての構造のデータ及びエネルギーを教師あり学習に使用した。さらに、検証方法として、5-fold交差検証を用いた。
【0051】
図11に、本手法1と、比較手法1及び比較手法2とでNNの予測誤差を比較した結果を示し、
図12に、本手法2と、比較手法1及び比較手法2とでNNの予測誤差を比較した結果を示す。予測誤差は値が小さいほどNNの精度がよいことを表す。本手法1及び本手法2のいずれの場合も、比較手法1及び比較手法2よりも予測誤差が低減しており、精度が向上していることが分かる。
【0052】
また、1660個のラベル付きデータを用いて、本手法の自己教師あり学習を適用することで、ファインチューニング時に用いるラベル付きデータの数が減った場合でも、比較手法と比較してNNの精度が改善するか否かについて検証した。本検証では、ファインチューニング時に使用するラベル付きデータの数を変えた場合の、NNの予測誤差を測定した。上記のラベル付きデータとして、分子の構造と、その構造に対応するエネルギーとの組み合わせのデータを1660個用意し、1660個のデータの内、1360個を訓練用データ、残りの300個を訓練に用いない検証用データとした。また、1360個の訓練用データの、全ての構造のデータ(ラベルなし)を自己教師あり学習に使用した。
【0053】
図13に、本手法2と比較手法1とで、ファインチューニングに用いたラベル付きデータの数に対する予測誤差を比較した結果を示す。比較手法1と比較して、本手法2では、予測誤差が低減していることが分かる。特に、ラベル付きデータの数が少ない状況であるほど、本手法2によるNNの精度改善効果は大きい。
【0054】
なお、上記各実施形態では、第2の分子に含まれる全ての原子についての予測結果を取得する場合について説明したが、第2の分子のうち、少なくとも第1の分子に含まれる原子から置換された原子を予測対象として予測結果を取得するようにしてもよい。ただし、予測対象が多くなるほどタスクが難しくなるため、訓練されるニューラルネットワークの予測精度が向上する。
【0055】
また、上記各実施形態では、自己教師あり学習プログラムが記憶装置に予め記憶(インストール)されているが、これに限定されない。開示の技術に係るプログラムは、CD-ROM、DVD-ROM、USBメモリ等の記憶媒体に記憶された形態で提供されてもよい。
【0056】
以上の各実施形態に関し、さらに以下の付記を開示する。
【0057】
(付記1)
第1の分子に含まれる原子のうちの所定割合の原子それぞれについて、予め定めた複数種類の原子群に含まれるいずれかの原子に置換した第2の分子を示すデータを生成し、
前記第2の分子を示すデータを、分子構造に関する予測を行う機械学習モデルに入力して予測結果を取得し、
前記第1の分子に対応する正解データと、前記予測結果との比較結果に基づいて、前記機械学習モデルのパラメータを更新する、
ことを含む処理をコンピュータに実行させるための自己教師あり学習プログラム。
【0058】
(付記2)
前記予測結果は、前記第2の分子に含まれる原子のうち、少なくとも前記第1の分子に含まれる原子から置換された原子が、前記第1の分子に含まれる原子の各々から置換されているか否かを示す情報であり、
前記正解データは、前記第1の分子を示すデータと前記第2の分子を示すデータとの差分を示すデータである、
付記1に記載の自己教師あり学習プログラム。
【0059】
(付記3)
前記予測結果は、前記第2の分子に含まれる原子のうち、少なくとも前記第1の分子に含まれる原子から置換された原子が、前記原子群に含まれるいずれの原子であるかを示す情報であり、
前記正解データは、前記第1の分子を示すデータである、
付記1に記載の自己教師あり学習プログラム。
【0060】
(付記4)
前記予測結果は、前記第2の分子に含まれる全ての原子についての情報を含む付記2又は付記3に記載の自己教師あり学習プログラム。
【0061】
(付記5)
前記所定割合が0の場合、前記第2の分子を示すデータは、前記第1の分子を示すデータであり、
前記予測結果は、前記第2の分子に含まれる全ての原子についての情報を含む、
付記1に記載の自己教師あり学習プログラム。
【0062】
(付記6)
前記機械学習モデルは、前記第2の分子を示すデータから前記第2の分子の分子構造を示す特徴量を抽出する第1の部分と、前記第1の部分で抽出された特徴量に基づいて、特定のタスクに応じた予測結果を出力する第2の部分とを含み、訓練された機械学習モデルの前記第1の部分は、転移学習に利用される付記1~付記5のいずれか1項に記載の自己教師あり学習プログラム。
【0063】
(付記7)
前記第2の部分は、前記第2の分子に含まれる原子の各々についての前記第1の部分の出力にそれぞれ対応した異なる出力部を含み、
前記予測結果を取得する処理は、前記第2の分子に含まれる原子の各々についての予測結果を一度に取得することを含む、
付記6に記載の自己教師あり学習プログラム。
【0064】
(付記8)
第1の分子に含まれる原子のうちの所定割合の原子それぞれについて、予め定めた複数種類の原子群に含まれるいずれかの原子に置換した第2の分子を示すデータを生成し、
前記第2の分子を示すデータを、分子構造に関する予測を行う機械学習モデルに入力して予測結果を取得し、
前記第1の分子に対応する正解データと、前記予測結果との比較結果に基づいて、前記機械学習モデルのパラメータを更新する、
ことを含む処理をコンピュータが実行する自己教師あり学習方法。
【0065】
(付記9)
前記予測結果は、前記第2の分子に含まれる原子のうち、少なくとも前記第1の分子に含まれる原子から置換された原子が、前記第1の分子に含まれる原子の各々から置換されているか否かを示す情報であり、
前記正解データは、前記第1の分子を示すデータと前記第2の分子を示すデータとの差分を示すデータである、
付記8に記載の自己教師あり学習方法。
【0066】
(付記10)
前記予測結果は、前記第2の分子に含まれる原子のうち、少なくとも前記第1の分子に含まれる原子から置換された原子が、前記原子群に含まれるいずれの原子であるかを示す情報であり、
前記正解データは、前記第1の分子を示すデータである、
付記8に記載の自己教師あり学習方法。
【0067】
(付記11)
前記予測結果は、前記第2の分子に含まれる全ての原子についての情報を含む付記9又は付記10に記載の自己教師あり学習方法。
【0068】
(付記12)
前記所定割合が0の場合、前記第2の分子を示すデータは、前記第1の分子を示すデータであり、
前記予測結果は、前記第2の分子に含まれる全ての原子についての情報を含む、
付記8に記載の自己教師あり学習方法。
【0069】
(付記13)
前記機械学習モデルは、前記第2の分子を示すデータから前記第2の分子の分子構造を示す特徴量を抽出する第1の部分と、前記第1の部分で抽出された特徴量に基づいて、特定のタスクに応じた予測結果を出力する第2の部分とを含み、訓練された機械学習モデルの前記第1の部分は、転移学習に利用される付記8~付記12のいずれか1項に記載の自己教師あり学習方法。
【0070】
(付記14)
前記第2の部分は、前記第2の分子に含まれる原子の各々についての前記第1の部分の出力にそれぞれ対応した異なる出力部を含み、
前記予測結果を取得する処理は、前記第2の分子に含まれる原子の各々についての予測結果を一度に取得することを含む、
付記13に記載の自己教師あり学習方法。
【0071】
(付記15)
第1の分子に含まれる原子のうちの所定割合の原子それぞれについて、予め定めた複数種類の原子群に含まれるいずれかの原子に置換した第2の分子を示すデータを生成する生成部と、
前記第2の分子を示すデータを、分子構造に関する予測を行う機械学習モデルに入力して予測結果を取得する取得部と、
前記第1の分子に対応する正解データと、前記予測結果との比較結果に基づいて、前記機械学習モデルのパラメータを更新する更新部と、
を含む自己教師あり学習装置。
【0072】
(付記16)
前記予測結果は、前記第2の分子に含まれる原子のうち、少なくとも前記第1の分子に含まれる原子から置換された原子が、前記第1の分子に含まれる原子の各々から置換されているか否かを示す情報であり、
前記正解データは、前記第1の分子を示すデータと前記第2の分子を示すデータとの差分を示すデータである、
付記15に記載の自己教師あり学習装置。
【0073】
(付記17)
前記予測結果は、前記第2の分子に含まれる原子のうち、少なくとも前記第1の分子に含まれる原子から置換された原子が、前記原子群に含まれるいずれの原子であるかを示す情報であり、
前記正解データは、前記第1の分子を示すデータである、
付記15に記載の自己教師あり学習装置。
【0074】
(付記18)
前記予測結果は、前記第2の分子に含まれる全ての原子についての情報を含む付記15又は付記16に記載の自己教師あり学習装置。
【0075】
(付記19)
前記所定割合が0の場合、前記第2の分子を示すデータは、前記第1の分子を示すデータであり、
前記予測結果は、前記第2の分子に含まれる全ての原子についての情報を含む、
付記15に記載の自己教師あり学習装置。
【0076】
(付記20)
前記機械学習モデルは、前記第2の分子を示すデータから前記第2の分子の分子構造を示す特徴量を抽出する第1の部分と、前記第1の部分で抽出された特徴量に基づいて、特定のタスクに応じた予測結果を出力する第2の部分とを含み、訓練された機械学習モデルの前記第1の部分は、転移学習に利用される付記15~付記19のいずれか1項に記載の自己教師あり学習装置。
【符号の説明】
【0077】
10、210 自己教師あり学習装置
12 生成部
14、214 取得部
16、216 更新部
22 原子ライブラリ
24、224 ニューラルネットワーク(NN)
40 コンピュータ
41 CPU
42 GPU
43 メモリ
44 記憶装置
45 入出力装置
46 R/W装置
47 通信I/F
48 バス
49 記憶媒体
50、250 自己教師あり学習プログラム
52 生成プロセス制御命令
54、254 取得プロセス制御命令
56、256 更新プロセス制御命令
60 情報記憶領域