特開2024-170949 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-170949機械学習プログラム、機械学習方法および情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024170949

(43)【公開日】2024-12-11

(54)【発明の名称】機械学習プログラム、機械学習方法および情報処理装置

(51)【国際特許分類】

G06N 20/00 20190101AFI20241204BHJP

【ＦＩ】

G06N20/00

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2023087740

(22)【出願日】2023-05-29

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002918

【氏名又は名称】弁理士法人扶桑国際特許事務所

(72)【発明者】

【氏名】ダンタンデュイ

(57)【要約】

【課題】機械学習モデルの予測精度を向上させる。
【解決手段】情報処理装置１０は、データサンプル１４ａ，１４ｂ，１４ｃそれぞれを機械学習モデル１３に入力することで、特徴量１５ａ，１５ｂ，１５ｃを機械学習モデル１３から抽出する。情報処理装置１０は、特徴量１５ａ，１５ｂ，１５ｃを正規化特徴量１６ａ，１６ｂ，１６ｃに正規化する。情報処理装置１０は、正規化特徴量１６ａ，１６ｂ，１６ｃに基づいて、データサンプル１４ａ，１４ｂ，１４ｃの中から、データサンプル１４ａ，１４ｂ，１４ｃの一部である１以上のデータサンプルを選択する。情報処理装置１０は、１以上のデータサンプルを用いて、機械学習モデル１３を訓練する。
【選択図】図１

【特許請求の範囲】

【請求項1】

複数のデータサンプルそれぞれを機械学習モデルに入力することで、前記複数のデータサンプルそれぞれに対応する複数の特徴量を前記機械学習モデルから抽出し、
前記複数の特徴量それぞれを、一定の数値範囲に収まる複数の正規化特徴量に正規化し、
前記複数の正規化特徴量に基づいて、前記複数のデータサンプルの中から、前記複数のデータサンプルの一部である１以上のデータサンプルを選択し、
前記１以上のデータサンプルを用いて、前記機械学習モデルを訓練する、
処理をコンピュータに実行させる機械学習プログラム。

【請求項2】

前記機械学習モデルは、グラフデータが示す複数のノードの接続関係に基づいて前記複数のノードそれぞれの特徴量を更新するグラフニューラルネットワークを含み、前記複数の特徴量は、前記グラフニューラルネットワークを通過した後の特徴量である、
請求項１記載の機械学習プログラム。

【請求項3】

前記１以上のデータサンプルの選択は、主成分分析により、前記複数の正規化特徴量それぞれを複数の主成分特徴量に変換し、前記複数の主成分特徴量の間の距離に基づいて、前記１以上のデータサンプルを選択する処理を含む、
請求項１記載の機械学習プログラム。

【請求項4】

前記機械学習モデルは、複数の原子を含む分子を示す分子データから分子エネルギーを予測し、前記複数の特徴量は、前記複数の原子に対して算出される特徴量である、
請求項１から３の何れか一項に記載の機械学習プログラム。

【請求項5】

【請求項6】

複数のデータサンプルと機械学習モデルとを記憶する記憶部と、
前記複数のデータサンプルそれぞれを前記機械学習モデルに入力することで、前記複数のデータサンプルそれぞれに対応する複数の特徴量を前記機械学習モデルから抽出し、前記複数の特徴量それぞれを、一定の数値範囲に収まる複数の正規化特徴量に正規化し、前記複数の正規化特徴量に基づいて、前記複数のデータサンプルの中から、前記複数のデータサンプルの一部である１以上のデータサンプルを選択し、前記１以上のデータサンプルを用いて、前記機械学習モデルを訓練する処理部と、
を有する情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は機械学習プログラム、機械学習方法および情報処理装置に関する。

【背景技術】

【0002】

コンピュータは、訓練された機械学習モデルを用いて、説明変数に相当する入力データから目的変数に相当する予測データを生成することがある。コンピュータは、説明変数に相当する入力データと目的変数に相当する正解ラベルとをそれぞれ対応付けた複数のデータサンプルを用いて、機械学習によって機械学習モデルを訓練することがある。

【0003】

機械学習モデルは、入力データから、入力データの特徴を表す特徴量を算出することがあり、算出された特徴量を用いて予測データを生成することがある。特徴量の算出には、ニューラルネットワークが用いられることがある。

【0004】

また、機械学習モデルは、計算量が大きいコンピュータシミュレーションのシミュレーション結果を、短時間で予測するために用いられることがある。このような機械学習モデルは、代替モデル（サロゲートモデル）と呼ばれることがある。例えば、グラフ畳み込みニューラルネットワークを用いて、剛性マトリクスと力ベクトルとから変位ベクトルを予測する構造解析シミュレーションが提案されている。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２０２３－９９０４号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

データセットに含まれるデータサンプルが多い場合、全てのデータサンプルを用いて機械学習モデルを訓練することは、コンピュータの負荷を増大させて訓練時間を長くするおそれがある。そこで、コンピュータは、データセットから一部のデータサンプルを選択し、選択されたデータサンプルを用いて機械学習モデルを訓練することが考えられる。

【0007】

このとき、どの様に一部のデータサンプルを選択するかが重要である。データサンプル数が同じであっても、何れのデータサンプルを選択するかによって、訓練された機械学習モデルの予測精度が異なることがある。そこで、１つの側面では、本発明は、機械学習モデルの予測精度を向上させることを目的とする。

【課題を解決するための手段】

【0008】

１つの態様では、以下の処理をコンピュータに実行させる機械学習プログラムが提供される。複数のデータサンプルそれぞれを機械学習モデルに入力することで、複数のデータサンプルそれぞれに対応する複数の特徴量を機械学習モデルから抽出する。複数の特徴量それぞれを、一定の数値範囲に収まる複数の正規化特徴量に正規化する。複数の正規化特徴量に基づいて、複数のデータサンプルの中から、複数のデータサンプルの一部である１以上のデータサンプルを選択する。１以上のデータサンプルを用いて、機械学習モデルを訓練する。

【0009】

また、１つの態様では、コンピュータが実行する機械学習方法が提供される。また、１つの態様では、記憶部と処理部とを有する情報処理装置が提供される。

【発明の効果】

【0010】

１つの側面では、機械学習モデルの予測精度が向上する。

【図面の簡単な説明】

【0011】

【図1】第１の実施の形態の情報処理装置を説明するための図である。

【図2】第２の実施の形態の情報処理装置のハードウェア例を示す図である。

【図3】量子化学計算の結果を予測する機械学習モデルの使用例を示す図である。

【図4】グラフ構造に基づく特徴ベクトルの更新例を示す図である。

【図5】機械学習モデルの構造例を示す図である。

【図6】分子データセットの構造例を示す図である。

【図7】機械学習におけるサンプル選択の例を示す図である。

【図8】特徴ベクトルの正規化例を示す図である。

【図9】機械学習モデルの平均誤差の例を示すグラフである。

【図10】情報処理装置の機能例を示すブロック図である。

【図11】機械学習の手順例を示すフローチャートである。

【図12】サンプル選択の手順例を示すフローチャートである。

【発明を実施するための形態】

【0012】

以下、本実施の形態を図面を参照して説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

【0013】

図１は、第１の実施の形態の情報処理装置を説明するための図である。
第１の実施の形態の情報処理装置１０は、訓練データを用いて機械学習モデルを訓練する機械学習を行う。機械学習モデルは、量子化学計算の結果を予測する代替モデル（サロゲートモデル）でもよい。情報処理装置１０は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１０が、コンピュータまたは機械学習装置と呼ばれてもよい。

【0014】

情報処理装置１０は、記憶部１１および処理部１２を有する。記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性半導体メモリでもよい。また、記憶部１１は、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性ストレージでもよい。

【0015】

処理部１２は、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）などのプロセッサである。ただし、処理部１２が、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの電子回路を含んでもよい。プロセッサは、例えば、ＲＡＭなどのメモリ（記憶部１１でもよい）に記憶されたプログラムを実行する。プロセッサの集合が、マルチプロセッサまたは単に「プロセッサ」と呼ばれてもよい。

【0016】

記憶部１１は、機械学習モデル１３を記憶する。機械学習モデル１３は、入力データから特徴量を算出し、算出された特徴量から予測データを生成する。機械学習モデル１３は、ニューラルネットワークでもよく、グラフニューラルネットワーク（ＧＮＮ：Graph Neural Network）でもよい。グラフニューラルネットワークは、複数のノードおよび複数のエッジを含むグラフデータが示すノード間の接続関係に基づいて、複数のノードそれぞれがもつ特徴量を更新する。あるノードの特徴量は、そのノードに隣接する隣接ノードの特徴量を用いて更新される。このようなグラフニューラルネットワークが、ＭＰＮＮ（Message Passing Neural Network）と呼ばれることがある。

【0017】

機械学習モデル１３は、機械学習を通じてパラメータ値が最適化されるパラメータを含む。パラメータは、例えば、ニューラルネットワークに含まれる重みである。機械学習モデル１３がグラフニューラルネットワークを含む場合、あるノードの特徴量を隣接ノードの特徴量を用いて更新する関数が、このようなパラメータを含むことがある。

【0018】

機械学習モデル１３は、分子構造を示す分子データから、密度汎関数理論（ＤＦＴ：Density Functional Theory）などの量子化学計算によって算出される分子エネルギーを予測する代替モデルであってもよい。密度汎関数理論は、分子の基底エネルギーを電子密度から計算する。密度汎関数理論を純粋に実行する量子化学シミュレーションは、計算量が大きい。代替モデルは、量子化学シミュレーションの計算量を削減する。分子構造は、例えば、原子を表すノードと原子間の接続関係を示すエッジとを含むグラフデータによって規定される。代替モデルは、例えば、原子の核電荷量をノードの特徴量の初期値として与え、グラフ構造に従ってノードの特徴量を更新し、特徴量からエネルギーを算出する。

【0019】

また、記憶部１１は、データサンプル１４ａ，１４ｂ，１４ｃなどの複数のデータサンプルを記憶する。複数のデータサンプルは、機械学習モデル１３の入力に相当する入力データをそれぞれ含む。複数のデータサンプルは、機械学習モデル１３の出力の正解を示す正解ラベルをそれぞれ含んでもよい。例えば、データサンプル１４ａ，１４ｂ，１４ｃは、分子構造と分子エネルギーとをそれぞれ含む。分子構造は、例えば、分子に含まれる原子それぞれの座標および元素によって規定される。

【0020】

処理部１２は、複数のデータサンプルのうちの一部のデータサンプルを用いて、機械学習モデル１３を訓練する。処理部１２は、以下に説明する方法で、機械学習に用いるデータサンプルを選択する。データサンプルの選択は、いわゆる能動学習（アクティブラーニング）の考え方に基づいていてもよい。データサンプルを選択するにあたり、機械学習モデル１３は、仮に訓練されている。例えば、機械学習モデル１３に含まれるパラメータ値が、少数のデータサンプルに基づいて事前に更新されている。

【0021】

処理部１２は、複数のデータサンプルそれぞれを機械学習モデル１３に入力することで、複数のデータサンプルに対応する複数の特徴量を機械学習モデル１３から抽出する。例えば、処理部１２は、データサンプル１４ａ，１４ｂ，１４ｃに対応する特徴量１５ａ，１５ｂ，１５ｃを機械学習モデル１３から抽出する。

【0022】

抽出される特徴量は、例えば、機械学習モデル１３の出力側に近い特徴量であって、機械学習モデル１３が出力する予測データそのものではない特徴量である。機械学習モデル１３がグラフニューラルネットワークを含む場合、抽出される特徴量は、例えば、グラフニューラルネットワークによって更新された各ノードの特徴量であって、これら特徴量を集計して予測データを生成する集計処理の直前における特徴量である。抽出される特徴量は、複数次元の数値を含む数値ベクトルであってもよい。

【0023】

処理部１２は、抽出された複数の特徴量を、一定の数値範囲に収まる複数の正規化特徴量に正規化する。例えば、処理部１２は、特徴量１５ａ，１５ｂ，１５ｃを正規化特徴量１６ａ，１６ｂ，１６ｃに正規化する。一定の数値範囲は、例えば、０以上１以下の範囲である。処理部１２は、複数の特徴量のうちの最小値を０に対応付け、複数の特徴量のうちの最大値を１に対応付けることで、スケール調整を行ってもよい。特徴量がベクトルである場合、処理部１２は、次元単位で正規化を行ってもよい。その場合、次元毎に、正規化前の数値と正規化後の数値との対応関係が決定される。

【0024】

処理部１２は、複数の正規化特徴量に基づいて、複数のデータサンプルの中から一部のデータサンプルを選択する。このとき、処理部１２は、他のデータサンプルと類似しない正規化特徴量をもつデータサンプルを選択することが好ましい。選択する個数は、ユーザから指定されてもよいし、母集合のデータサンプル数から決定されてもよい。

【0025】

例えば、処理部１２は、複数の正規化特徴量に対して主成分分析（ＰＣＡ：Principal Component Analysis）を実行することで、複数の正規化特徴量を複数の主成分特徴量に変換する。主成分特徴量は、正規化特徴量よりも次元数が小さい。処理部１２は、主成分空間における複数の主成分特徴量の分布に基づいて、できる限り主成分特徴量が類似しない一定数のデータサンプルを選択する。

【0026】

処理部１２は、複数の正規化特徴量または複数の主成分特徴量の間の距離を算出してもよく、他のデータサンプルからの距離が遠いデータサンプルを優先的に選択してもよい。また、処理部１２は、ｋ－ｍｅａｎｓ法や階層的クラスタリングなどのクラスタリングアルゴリズムによって複数のデータサンプルをクラスタに分類してもよく、複数のクラスタそれぞれから代表のデータサンプルを選択してもよい。

【0027】

処理部１２は、選択されたデータサンプルを用いて、機械学習モデル１３を訓練する。選択されなかったデータサンプルは、この機械学習に使用されない。例えば、処理部１２は、選択されたデータサンプルを機械学習モデル１３に入力し、機械学習モデル１３の出力と正解ラベルとの間の誤差を算出する。処理部１２は、誤差が小さくなるように、機械学習モデル１３に含まれるパラメータ値を更新する。処理部１２は、誤差逆伝播法によって、ニューラルネットワークに含まれる重みを更新してもよい。

【0028】

なお、選択されたデータサンプルに正解ラベルが未付与である場合、処理部１２は、ユーザに正解ラベルを要求してもよい。また、処理部１２は、機械学習モデル１３の訓練とデータサンプルの選択とを、複数回繰り返してもよい。処理部１２は、訓練された機械学習モデル１３を出力する。処理部１２は、機械学習モデル１３を不揮発性ストレージに保存してもよいし、表示装置に表示してもよいし、他の情報処理装置に送信してもよい。また、処理部１２は、訓練された機械学習モデル１３を使用して予測処理を行ってもよいし、テストデータを用いて機械学習モデル１３の予測精度を測定してもよい。

【0029】

以上説明したように、第１の実施の形態の情報処理装置１０は、複数のデータサンプルそれぞれを機械学習モデル１３に入力することで、複数のデータサンプルに対応する複数の特徴量を機械学習モデル１３から抽出する。情報処理装置１０は、複数の特徴量を、一定の数値範囲に収まる複数の正規化特徴量に正規化する。情報処理装置１０は、複数の正規化特徴量に基づいて、複数のデータサンプルの中から、複数のデータサンプルの一部である１以上のデータサンプルを選択する。情報処理装置１０は、１以上のデータサンプルを用いて、機械学習モデル１３を訓練する。

【0030】

これにより、機械学習に使用されるデータサンプルが絞り込まれる。よって、機械学習の負荷が低下して訓練時間が短縮される。また、雑多なデータサンプルの全てを使用する場合よりも、機械学習モデル１３の予測精度が向上する。

【0031】

また、機械学習モデル１３の中で算出される特徴量を正規化した正規化特徴量を用いて、データサンプルが絞り込まれる。よって、予測精度の向上に寄与する可能性が高いデータサンプルが選択され、機械学習モデル１３の予測精度が向上する。特に、機械学習モデル１３から抽出される特徴量は、データサンプルそのものよりも予測結果に近いため、機械学習モデル１３の予測精度との関連性が高い。また、特徴量を正規化することで、特徴量のスケールが統一され、データサンプルの選別精度が向上する。

【0032】

なお、機械学習モデル１３は、グラフデータが示す複数のノードの接続関係に基づいて複数のノードそれぞれの特徴量を更新するグラフニューラルネットワークを含んでもよい。抽出される特徴量は、グラフニューラルネットワークを通過した後の特徴量でもよい。グラフニューラルネットワークは、入力データと出力データとの間の非線形の変換を規定する。よって、グラフニューラルネットワークを通過した後の特徴量は、通過前の特徴量よりも最終的な予測結果との関連性が高く、データサンプルの選別に好適である。その結果、データサンプルの選別精度が向上し、機械学習モデル１３の予測精度が向上する。

【0033】

また、情報処理装置１０は、主成分分析により、複数の正規化特徴量を複数の主成分特徴量に変換してもよく、複数の主成分特徴量の間の距離に基づいてデータサンプルを選択してもよい。これにより、データサンプルの選別精度が向上する。特に、主成分分析の前に特徴量を正規化することで、特徴量に含まれる一部の次元が支配的となって他の次元が過小評価されるリスクが低下する。

【0034】

また、機械学習モデル１３は、複数の原子を含む分子を示す分子データから分子エネルギーを予測してもよく、複数の特徴量は、複数の原子に対して算出される特徴量であってもよい。これにより、機械学習モデル１３は、密度汎関数理論などの量子化学シミュレーションの結果を、本来のアルゴリズムを実行せずに高精度に予測することができる。その結果、量子化学シミュレーションの負荷が低下してシミュレーション時間が短縮される。また、分子データに相当するデータサンプルの選別精度が向上する。

【0035】

［第２の実施の形態］
次に、第２の実施の形態を説明する。
第２の実施の形態の情報処理装置１００は、訓練データを用いて機械学習モデルを訓練する機械学習を行う。第２の実施の形態の機械学習モデルは、密度汎関数理論を用いた量子化学計算の結果を予測する代替モデルである。情報処理装置１００は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１００が、コンピュータ、機械学習装置またはシミュレーション装置と呼ばれてもよい。情報処理装置１００は、第１の実施の形態の情報処理装置１０に対応する。

【0036】

図２は、第２の実施の形態の情報処理装置のハードウェア例を示す図である。
情報処理装置１００は、バスに接続されたＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、ＧＰＵ１０４、入力インタフェース１０５、媒体リーダ１０６および通信インタフェース１０７を有する。ＣＰＵ１０１は、第１の実施の形態の処理部１２に対応する。ＲＡＭ１０２またはＨＤＤ１０３は、第１の実施の形態の記憶部１１に対応する。

【0037】

ＣＰＵ１０１は、プログラムの命令を実行するプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムおよびデータをＲＡＭ１０２にロードし、プログラムを実行する。情報処理装置１００は、複数のプロセッサを有してもよい。

【0038】

ＲＡＭ１０２は、ＣＰＵ１０１で実行されるプログラムおよびＣＰＵ１０１で演算に使用されるデータを一時的に記憶する揮発性半導体メモリである。情報処理装置１００は、ＲＡＭ以外の種類の揮発性メモリを有してもよい。

【0039】

ＨＤＤ１０３は、オペレーティングシステム（ＯＳ：Operating System）やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラムと、データとを記憶する不揮発性ストレージである。情報処理装置１００は、フラッシュメモリやＳＳＤ（Solid State Drive）などの他の種類の不揮発性ストレージを有してもよい。

【0040】

ＧＰＵ１０４は、ＣＰＵ１０１と連携して画像処理を行い、情報処理装置１００に接続された表示装置１１１に画像を出力する。表示装置１１１は、例えば、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイまたはプロジェクタである。情報処理装置１００に、プリンタなどの他の種類の出力デバイスが接続されてもよい。

【0041】

また、ＧＰＵ１０４は、ＧＰＧＰＵ（General Purpose Computing on Graphics Processing Unit）として使用されてもよい。ＧＰＵ１０４は、ＣＰＵ１０１からの指示に応じてプログラムを実行し得る。情報処理装置１００は、ＲＡＭ１０２以外の揮発性半導体メモリをＧＰＵメモリとして有してもよい。

【0042】

入力インタフェース１０５は、情報処理装置１００に接続された入力デバイス１１２から入力信号を受け付ける。入力デバイス１１２は、例えば、マウス、タッチパネルまたはキーボードである。情報処理装置１００に複数の入力デバイスが接続されてもよい。

【0043】

媒体リーダ１０６は、記録媒体１１３に記録されたプログラムおよびデータを読み取る読み取り装置である。記録媒体１１３は、例えば、磁気ディスク、光ディスクまたは半導体メモリである。磁気ディスクには、フレキシブルディスク（ＦＤ：Flexible Disk）およびＨＤＤが含まれる。光ディスクには、ＣＤ（Compact Disc）およびＤＶＤ（Digital Versatile Disc）が含まれる。媒体リーダ１０６は、記録媒体１１３から読み取られたプログラムおよびデータを、ＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、ＣＰＵ１０１によって実行されることがある。

【0044】

記録媒体１１３は、可搬型記録媒体であってもよい。記録媒体１１３は、プログラムおよびデータの配布に用いられることがある。また、記録媒体１１３およびＨＤＤ１０３が、コンピュータ読み取り可能な記録媒体と呼ばれてもよい。

【0045】

通信インタフェース１０７は、ネットワーク１１４を介して他の情報処理装置と通信する。通信インタフェース１０７は、スイッチやルータなどの有線通信装置に接続される有線通信インタフェースでもよいし、基地局やアクセスポイントなどの無線通信装置に接続される無線通信インタフェースでもよい。

【0046】

なお、第２の実施の形態の機械学習や予測処理は、データセンタの専用サーバに実装されてもよく、アプリケーションサービスとして実装されてもよい。また、第２の実施の形態の機械学習や予測処理は、材料開発や触媒選択などの様々な産業分野に応用され得る。

【0047】

次に、第２の実施の形態の機械学習モデルについて説明する。
図３は、量子化学計算の結果を予測する機械学習モデルの使用例を示す図である。
量子化学計算の結果を予測するにあたり、分子構造を示すグラフデータ１６１が与えられる。グラフデータ１６１は、複数のノードと複数のエッジとを含む。グラフデータ１６１に含まれるノードは、原子を表す。グラフデータ１６１に含まれるエッジは、２つの原子の間の接続を示す。各ノードには、原子が存在する位置の座標と、原子の種類である元素とが指定される。また、各ノードには、特徴ベクトルの初期値を決定するための物理量が付与される。例えば、物理量として、原子の核電荷量が付与される。

【0048】

情報処理装置１００は、グラフデータ１６１を機械学習モデル１６２に入力する。機械学習モデル１６２は、グラフニューラルネットワークである。グラフニューラルネットワークは、ＭＰＮＮと呼ばれることがある。機械学習モデル１６２は、あるノードの特徴ベクトルを、当該ノードと隣接する隣接ノードの特徴ベクトルと、２つのノードの間のエッジに付与されたエッジベクトルとに基づいて更新する。エッジベクトルは、２つのノードの距離や方向を反映している。特徴ベクトルは、隠れ状態と呼ばれることがある。

【0049】

特徴ベクトルを更新する関数は、機械学習を通じて決定されるパラメータ値を含む。機械学習モデル１６２は、隣接ノードの特徴ベクトルに基づいて各ノードの特徴ベクトルを更新することを、複数回繰り返す。機械学習モデル１６２は、全ノードの特徴ベクトルを集計して、スカラ値としての予測結果１６３を生成して出力する。予測結果１６３は、グラフデータ１６１が示す分子の基底状態における分子エネルギーを示す。予測結果１６３は、密度汎関数理論を用いた量子化学計算の結果の予測値に相当する。機械学習モデル１６２を用いることで、負荷の高い量子化学計算を実行せずに、その結果が予測される。

【0050】

図４は、グラフ構造に基づく特徴ベクトルの更新例を示す図である。
ノード１７１，１７２，１７３，１７４は、グラフデータ１６１に含まれるノードであり、それぞれ原子を表す。ノード１７１は、特徴ベクトル１８１をもつ。ノード１７２は、特徴ベクトル１８２をもつ。ノード１７３は、特徴ベクトル１８３をもつ。ノード１７４は、特徴ベクトル１８４をもつ。ノード１７１の隣接ノードは、ノード１７２，１７３，１７４である。ただし、後述する計算において、ノード１７１の隣接ノードに、ノード１７１自身が含まれてもよい。ここでは、特徴ベクトル１８１を更新することを考える。

【0051】

機械学習モデル１６２は、特徴ベクトル１８２と、ノード１７１，１７２の間のエッジのエッジベクトルとから、メッセージ関数を用いてメッセージ１８５を算出する。また、機械学習モデル１６２は、特徴ベクトル１８３と、ノード１７１，１７３の間のエッジのエッジベクトルとから、メッセージ関数を用いてメッセージ１８６を算出する。また、機械学習モデル１６２は、特徴ベクトル１８４と、ノード１７１，１７４の間のエッジのエッジベクトルとから、メッセージ関数を用いてメッセージ１８７を算出する。メッセージ関数は、機械学習を通じて決定されるパラメータ値を含む。

【0052】

機械学習モデル１６２は、メッセージ１８５，１８６，１８７を合算したメッセージを算出する。機械学習モデル１６２は、特徴ベクトル１８１と合算されたメッセージとから、更新関数を用いて、特徴ベクトル１８１を特徴ベクトル１８８に更新する。更新関数は、機械学習を通じて決定されるパラメータ値を含む。機械学習モデル１６２は、メッセージ伝達と特徴ベクトルの更新とを、全てのノードに対して実行する。また、機械学習モデル１６２は、全ノードのメッセージ伝達と特徴ベクトルの更新とを、複数回繰り返す。

【0053】

機械学習モデル１６２は、例えば、分極原子相互作用ニューラルネットワーク（ＰａｉＮＮ：Polarizable Atom Interaction Neural Network）である。ＰａｉＮＮについては、例えば、次の文献に記載されている。Kristof Schutt, Oliver Unke and Michael Gastegger, "Equivariant Message Passing for the Prediction of Tensorial Properties and Molecular Spectra", Proc. of the 38th International Conference on Machine Learning (ICML 2021), Volume 139, pp. 9377-9388, July 2021。

【0054】

機械学習モデル１６２は、各ノードに対して特徴ベクトルｓ，ｖを割り当てる。特徴ベクトルｓ，ｖは、例えば、１２８次元の数値ベクトルである。特徴ベクトルｓ_ｉは、ｉ番目のノードの残差スカラを表す。特徴ベクトルｖ_ｉは、ｉ番目のノードの同変表現を表す。特徴ベクトルｓ_ｉの初期値は、ｉ番目の原子の核電荷量Ｚ_ｉから変換される分散表現（埋め込み表現）である。通常、近い核電荷量は類似する分散表現に変換される。分散表現への変換部分は、事前に訓練されてもよいし、機械学習モデル１６２の他の部分と合わせて訓練されてもよい。特徴ベクトルｖ_ｉの初期値は、ゼロベクトルである。

【0055】

機械学習モデル１６２は、数式（１）に従って、ノードｉの特徴ベクトルｓ_ｉを更新する。数式（１）において、Ｍ_ｓは、特徴ベクトルｓに関するメッセージ関数であり、Ｕ_ｓは、特徴ベクトルｓに関する更新関数である。ｓ_ｊは、ノードｉに隣接するノードｊがもつ特徴ベクトルｓである。ｒ_ｉｊは、ノードｉの座標からノードｊの座標への距離および方向を示すエッジベクトルである。ｍ_ｓ，ｉは、特徴ベクトルｓに関してノードｉが隣接ノードから受け取るメッセージである。

【0056】

【数1】

【0057】

メッセージ関数Ｍ_ｓは、パラメータとして、特徴ベクトルｓ_ｊに作用する係数行列を含んでもよく、エッジベクトルｒ_ｉｊに作用する係数行列を含んでもよい。また、更新関数Ｕ_ｓは、パラメータとして、特徴ベクトルｓ_ｉに作用する係数行列を含んでもよく、メッセージｍ_ｓ，ｉに作用する係数行列を含んでもよい。エッジベクトルｒ_ｉｊやメッセージｍ_ｓ，ｉは、例えば、１２８次元の数値ベクトルである。

【0058】

また、機械学習モデル１６２は、数式（２）に従って、ノードｉの特徴ベクトルｖ_ｉを更新する。数式（２）において、Ｍ_ｖは、特徴ベクトルｖに関するメッセージ関数であり、Ｕ_ｖは、特徴ベクトルｖに関する更新関数である。ｖ_ｊは、ノードｉに隣接するノードｊがもつ特徴ベクトルｖである。ｍ_ｖ，ｉは、特徴ベクトルｖに関してノードｉが隣接ノードから受け取るメッセージである。

【0059】

【数2】

【0060】

メッセージ関数Ｍ_ｖは、パラメータとして、特徴ベクトルｖ_ｊに作用する係数行列を含んでもよく、特徴ベクトルｓ_ｊに作用する係数行列を含んでもよく、エッジベクトルｒ_ｉｊに作用する係数行列を含んでもよい。また、更新関数Ｕ_ｖは、パラメータとして、特徴ベクトルｖ_ｉに作用する係数行列を含んでもよく、メッセージｍ_ｖ，ｉに作用する係数行列を含んでもよい。メッセージｍ_ｖ，ｉは、例えば、１２８次元の数値ベクトルである。

【0061】

機械学習モデル１６２は、数式（１），（２）に従って、各ノードの特徴ベクトルｓ，ｖを複数回更新する。その後、機械学習モデル１６２は、複数のノードそれぞれがもつ特徴ベクトルｓを線形変換する。線形変換には、機械学習を通じて決定されるパラメータ値が用いられる。例えば、線形変換には、特徴ベクトルｓに作用する係数行列が用いられる。そして、機械学習モデル１６２は、全てのノードの線形変換後の特徴ベクトルｓを合算し、エネルギーを示す予測結果１６３に変換する。

【0062】

図５は、機械学習モデルの構造例を示す図である。
機械学習モデル１６２は、埋め込み層１４０、メッセージ層１４１，１４３，１４５、更新層１４２，１４４，１４６、線形層１４７，１４９およびＳｉＬＵ（Sigmoid Linear Unit）層１４８を含む。埋め込み層１４０は、核電荷量Ｚ_ｉを一定次元数の分散表現ベクトルに変換するニューラルネットワークである。この分散表現ベクトルが、特徴ベクトルｓ_ｉの初期値である。特徴ベクトルｖ_ｉの初期値は、ゼロベクトルである。

【0063】

メッセージ層１４１は、特徴ベクトルｓ_ｉの初期値と、特徴ベクトルｖ_ｉの初期値と、グラフデータ１６１が示すエッジベクトルｒ_ｉｊとを受け付ける。メッセージ層１４１は、メッセージ関数Ｍ_ｓ，Ｍ_ｖに相当する処理を行い、特徴ベクトルｓ_ｉ，ｖ_ｉを変換する。ここでの特徴ベクトルｓ_ｉ，ｖ_ｉの変換には、隣接ノードの特徴ベクトルが使用される。特徴ベクトルｓ_ｉに関するメッセージ層１４１の出力には、メッセージ層１４１に入力された特徴ベクトルｓ_ｉが加算される。これにより、メッセージ層１４１は、特徴ベクトルｓ_ｉの適切な差分を算出するように訓練される。

【0064】

更新層１４２は、メッセージ層１４１の後段に位置し、メッセージ層１４１を通じて更新された特徴ベクトルｓ_ｉ，ｖ_ｉを受け付ける。更新層１４２は、更新関数Ｕ_ｓ，Ｕ_ｖに相当する処理を行い、特徴ベクトルｓ_ｉ，ｖ_ｉを変換する。ここでの特徴ベクトルｓ_ｉ，ｖ_ｉの変換は、ノード単位で行われ、隣接ノードの特徴ベクトルは使用されない。特徴ベクトルｓ_ｉに関する更新層１４２の出力には、更新層１４２に入力された特徴ベクトルｓ_ｉが加算される。また、特徴ベクトルｖ_ｉに関する更新層１４２の出力には、更新層１４２に入力された特徴ベクトルｖ_ｉが加算される。これにより、更新層１４２は、特徴ベクトルｓ_ｉ，ｖ_ｉの適切な差分を算出するように訓練される。

【0065】

メッセージ層１４３は、更新層１４２の後段に位置し、更新層１４２を通じて更新された特徴ベクトルｓ_ｉ，ｖ_ｉと、エッジベクトルｒ_ｉｊとを受け付ける。メッセージ層１４３は、メッセージ関数Ｍ_ｓ，Ｍ_ｖに相当する処理を行い、特徴ベクトルｓ_ｉ，ｖ_ｉを変換する。特徴ベクトルｓ_ｉ，ｖ_ｉに関するメッセージ層１４３の出力には、メッセージ層１４３に入力された特徴ベクトルｓ_ｉ，ｖ_ｉがそれぞれ加算される。

【0066】

更新層１４４は、メッセージ層１４３の後段に位置し、メッセージ層１４３を通じて更新された特徴ベクトルｓ_ｉ，ｖ_ｉを受け付ける。更新層１４４は、更新関数Ｕ_ｓ，Ｕ_ｖに相当する処理を行い、特徴ベクトルｓ_ｉ，ｖ_ｉを変換する。特徴ベクトルｓ_ｉ，ｖ_ｉに関する更新層１４４の出力には、更新層１４４に入力された特徴ベクトルｓ_ｉ，ｖ_ｉがそれぞれ加算される。

【0067】

メッセージ層１４５は、更新層１４４の後段に位置し、更新層１４４を通じて更新された特徴ベクトルｓ_ｉ，ｖ_ｉと、エッジベクトルｒ_ｉｊとを受け付ける。メッセージ層１４５は、メッセージ関数Ｍ_ｓ，Ｍ_ｖに相当する処理を行い、特徴ベクトルｓ_ｉ，ｖ_ｉを変換する。特徴ベクトルｓ_ｉ，ｖ_ｉに関するメッセージ層１４５の出力には、メッセージ層１４５に入力された特徴ベクトルｓ_ｉ，ｖ_ｉがそれぞれ加算される。

【0068】

更新層１４６は、メッセージ層１４５の後段に位置し、メッセージ層１４５を通じて更新された特徴ベクトルｓ_ｉ，ｖ_ｉを受け付ける。更新層１４６は、更新関数Ｕ_ｓ，Ｕ_ｖに相当する処理を行い、特徴ベクトルｓ_ｉ，ｖ_ｉを変換する。特徴ベクトルｓ_ｉに関する更新層１４６の出力には、更新層１４６に入力された特徴ベクトルｓ_ｉが加算される。

【0069】

なお、メッセージ関数Ｍ_ｓ，Ｍ_ｖを使用するメッセージ層１４１，１４３，１４５は、同種のパラメータを含むものの、そのパラメータ値は異なるように訓練されてもよい。また、更新関数Ｕ_ｓ，Ｕ_ｖを使用する更新層１４２，１４４，１４６は、同種のパラメータを含むものの、そのパラメータ値は異なるように訓練されてもよい。

【0070】

線形層１４７は、更新層１４６の後段に位置し、更新層１４６を通じて更新された特徴ベクトルｓ_ｉを受け付ける。線形層１４７は、係数行列を用いて特徴ベクトルｓ_ｉを線形変換する。ここでの線形変換は、ノード単位で行われる。

【0071】

ＳｉＬＵ層１４８は、線形層１４７の後段に位置し、線形層１４７から特徴ベクトルを受け付ける。ＳｉＬＵ層１４８は、数式（３）に示すＳｉＬＵを用いて、特徴ベクトルに含まれる各次元の数値を変換する。ＳｉＬＵは、活性化関数の一種であり、スウィッシュ関数と呼ばれることがある。

【0072】

【数3】

【0073】

線形層１４９は、ＳｉＬＵ層１４８の後段に位置し、ＳｉＬＵ層１４８から特徴ベクトルを受け付ける。線形層１４９は、係数行列を用いて特徴ベクトルを線形変換する。ここでの線形変換は、ノード単位で行われる。線形層１４９が出力する複数のノードの特徴ベクトルは合算され、最終的に予測結果１６３に変換される。

【0074】

次に、機械学習モデル１６２を訓練する機械学習について説明する。
図６は、分子データセットの構造例を示す図である。
情報処理装置１００は、分子データセット１３１を記憶する。情報処理装置１００は、機械学習に使用され得る複数のサンプルを含む。各サンプルは、分子構造およびエネルギーを示す。分子構造は、分子に含まれる複数の原子それぞれの位置座標および元素を示す。原子の核電荷量は、元素から算出される。分子構造は、機械学習モデル１６２の説明変数や入力データに相当する。エネルギーは、分子の基底状態におけるエネルギーである。エネルギーは、機械学習モデル１６２の目的変数や正解ラベルに相当する。

【0075】

以下に説明するように、情報処理装置１００は、分子データセット１３１から、機械学習モデル１６２の予測精度の向上に有用な一部のサンプルを選択し、選択されたサンプルを用いて機械学習モデル１６２を訓練する。選択されなかったサンプルは、機械学習モデル１６２の訓練に使用されないことがある。なお、サンプル選択時点で、各サンプルには正解ラベルが既に付与されていてもよいし、正解ラベルがまだ付与されていなくてもよい。後者の場合、情報処理装置１００は、選択されたサンプルについて、正解ラベルを付与するようにユーザに要求してもよい。

【0076】

図７は、機械学習におけるサンプル選択の例を示す図である。
情報処理装置１００は、複数のサンプルを含む分子データセット１５１を取得する。分子データセット１５１は、上記の分子データセット１３１に対応する。情報処理装置１００は、分子データセット１５１に含まれる複数のサンプルそれぞれのエネルギーを、機械学習モデル１５２を用いて予測する。機械学習モデル１５２は、前述の機械学習モデル１６２に対応する。機械学習モデル１５２は、事前に仮に訓練されている。例えば、機械学習モデル１５２は、少数のサンプルを用いて事前に訓練されている。この時点では、機械学習モデル１５２の予測精度は、あまり高くなくてもよい。

【0077】

情報処理装置１００は、サンプル毎に、エネルギーを予測する過程で機械学習モデル１５２の中で算出された特徴ベクトルを、機械学習モデル１５２から抽出する。抽出される特徴ベクトルは、グラフニューラルネットワークを通過した後の特徴ベクトルであって、合算される前の複数の原子の特徴ベクトルである。第２の実施の形態では、情報処理装置１００は、図５に示した線形層１４７に入力される特徴ベクトルを抽出する。

【0078】

情報処理装置１００は、サンプル毎に、複数の原子に対応する複数の特徴ベクトルを連結することで、特徴ベクトル１５３を生成する。分子データセット１３１が対象とする分子が大規模である場合、特徴ベクトル１５３の次元数は数万次元のように大きくなる。

【0079】

情報処理装置１００は、複数のサンプルの間で、特徴ベクトル１５３を正規化特徴ベクトル１５４に正規化する。正規化では、情報処理装置１００は、特徴ベクトル１５３に含まれる次元毎に、その次元の最大値および最小値を特定し、最小値から最大値までの数値範囲を０以上１以下の数値範囲にスケール変換する。この正規化は、数式（４）に従って実行される。ｘは、ある次元を表す変数である。ｍａｘ（ｘ），ｍｉｎ（ｘ）は、複数のサンプルに対応する複数の特徴ベクトルの中での、次元ｘの最大値および最小値である。

【0080】

【数4】

【0081】

情報処理装置１００は、複数のサンプルに対応する複数の正規化特徴ベクトルに対して主成分分析を行い、正規化特徴ベクトル１５４を主成分ベクトル１５５に変換する。これにより、複数のサンプルに対応する複数の主成分ベクトルが生成される。主成分ベクトル１５５は、正規化特徴ベクトル１５４よりも次元が少ない数値ベクトルである。

【0082】

主成分分析では、情報処理装置１００は、複数のサンプルに対応する複数の正規化特徴ベクトルから分散共分散行列を生成し、分散共分散行列に対して固有値分解を行う。固有値分解は、ある行列Ａに対して、Ａｖ＝λｖを満たす固有値λと固有ベクトルｖを求める。この固有ベクトルｖによって、ベクトル空間の新たな座標軸が決定される。この座標軸は、ベクトル空間内での分散が大きい座標軸であり、サンプルの分布の特徴を表す。

【0083】

情報処理装置１００は、異なる２つのサンプルの組毎に、主成分ベクトル１５５のユークリッド距離１５６を算出する。ただし、距離指標として、コサイン類似度などの他の距離指標が使用されてもよい。情報処理装置１００は、ユークリッド距離１５６に基づいて、分子データセット１５１から一部のサンプルを抽出し、抽出された一部のサンプルから形成される分子データサブセット１５７を生成する。

【0084】

抽出されるサンプルの個数は、ユーザから指定されてもよい。また、抽出されるサンプルの個数は、分子データセット１５１のサンプル数の１０分の１のように、分子データセット１５１のサンプル数から決定されてもよい。ここで、情報処理装置１００は、分子データサブセット１５７に含まれるサンプルが、できる限り互いに類似しない主成分ベクトル１５５をもつように、サンプルを選択する。よって、主成分ベクトル１５５が類似するサンプルは、できる限り、分子データサブセット１５７に重複して含まれない。

【0085】

例えば、情報処理装置１００は、複数のサンプルそれぞれについて、他のサンプルとのユークリッド距離１５６のうちの最小値（最も近い他のサンプルとのユークリッド距離１５６）を算出する。情報処理装置１００は、複数のサンプルのうち、この最小値が小さいサンプルから優先的に除外する。情報処理装置１００は、残ったサンプルの個数が目標サンプル数以下になるまで、サンプルの除外を繰り返す。

【0086】

ただし、情報処理装置１００は、小さいユークリッド距離１５６をもつサンプルのペアを検出し、検出されたペアの一方または両方のサンプルを除外してもよい。また、情報処理装置１００は、ユークリッド距離１５６に基づいて、複数のサンプルに対応する複数の主成分ベクトルをクラスタに分類してもよく、各クラスタから代表のサンプルを選択してもよい。クラスタ数は、目標サンプル数と同じでもよい。ｋ－ｍｅａｎｓ法や階層的クラスタリングなどのクラスタリングアルゴリズムが使用されてもよい。

【0087】

情報処理装置１００は、分子データサブセット１５７に含まれるサンプルを用いて、機械学習モデル１５２を更に訓練する。例えば、情報処理装置１００は、サンプルが示す分子構造から入力データを生成し、機械学習モデル１５２に入力する。情報処理装置１００は、機械学習モデル１５２が予測するエネルギーとサンプルが示す正解ラベルとの誤差を算出し、誤差逆伝播法によって、機械学習モデル１５２に含まれるパラメータ値を更新する。これにより、機械学習モデル１５２の予測精度が仮訓練時よりも向上する。

【0088】

なお、情報処理装置１００は、図７に示したサイクルを複数回繰り返してもよい。その場合、情報処理装置１００は、分子データサブセット１５７を用いて訓練された機械学習モデル１５２に、分子データセット１５１に含まれる複数のサンプルをそれぞれ入力する。情報処理装置１００は、特徴ベクトル１５３、正規化特徴ベクトル１５４、主成分ベクトル１５５およびユークリッド距離１５６を算出する。情報処理装置１００は、分子データセット１５１から、新たな分子データサブセット１５７を抽出する。

【0089】

図８は、特徴ベクトルの正規化例を示す図である。
情報処理装置１００は、特徴ベクトルテーブル１３２を生成する。特徴ベクトルテーブル１３２は、複数のサンプルについて、上記の特徴ベクトル１５３に相当する複数の特徴ベクトルを列挙したテーブルである。特徴ベクトルテーブル１３２の１つの行は、１つのサンプルに対応する１つの特徴ベクトルを表す。特徴ベクトルテーブル１３２の複数の列は、特徴ベクトルに含まれる複数の次元に対応する。１つの特徴ベクトルは、サンプルに含まれる複数の原子に対して算出された複数の特徴ベクトルを連結したものである。連結される特徴ベクトルは、図５の線形層１４７の直前から抽出される。

【0090】

情報処理装置１００は、特徴ベクトルテーブル１３２に対して正規化を行うことで、正規化特徴ベクトルテーブル１３３を生成する。情報処理装置１００は、特徴ベクトルテーブル１３２の列毎に、最大値および最小値を特定し、最小値から最大値までの数値範囲を０以上１以下の数値範囲に変換するためのスケール変換関数を決定する。情報処理装置１００は、列毎に、決定したスケール変換関数を用いて正規化を行う。

【0091】

上記のように、情報処理装置１００は、グラフニューラルネットワークを通過した後の各原子の特徴ベクトルを機械学習モデルから抽出する。グラフニューラルネットワークのデータ変換は、非線形変換である。このため、非線形変換後の特徴ベクトルからサンプル間の類似度を判定することで、サンプルの入力データから類似度を判定するよりも、予測精度向上への寄与が小さい冗長なサンプルが特定されやすくなる。

【0092】

また、情報処理装置１００は、機械学習モデルから抽出された特徴ベクトルを、主成分分析を行う前に正規化する。特徴ベクトルを正規化することで、主成分分析において、元の特徴ベクトルに含まれる特定の次元が支配的になることが抑制され、元の特徴ベクトルに含まれる全ての次元が十分に考慮される。よって、類似度の判定精度が向上する。その結果、予測精度向上に有用なサンプルが選択される。

【0093】

図９は、機械学習モデルの平均誤差の例を示すグラフである。
曲線１９１，１９２は、サンプル数と平均誤差との関係を示す。図９の横軸はサンプル数を表し、図９の縦軸は平均誤差を表す。サンプル数は、母集合の中から機械学習用に選択されたサンプルの個数であり、図７の分子データサブセット１５７のサンプル数に相当する。ここでは、サンプル数はユーザから指定される。平均誤差は、選択されたサンプルを用いて機械学習モデルを訓練した場合の、機械学習モデルによって予測されるエネルギーと正解ラベルとの間の予測誤差の平均である。

【0094】

曲線１９１は、母集合からサンプルを選択するにあたり、特徴ベクトルを正規化しない場合の平均誤差を示す。曲線１９２は、母集合からサンプルを選択するにあたり、特徴ベクトルを正規化する場合の平均誤差を示す。曲線１９１，１９２が示すように、サンプル数が同じであれば、特徴ベクトルを正規化した方が、特徴ベクトルを正規化しない場合よりも平均誤差が小さい。よって、特徴ベクトルを正規化することで、機械学習モデルの予測精度の向上に寄与する適切なサンプルが選択され、予測精度が向上する。

【0095】

また、特徴ベクトルを正規化した方が、特徴ベクトルを正規化しない場合よりも、少ないサンプルで所望の予測精度が達成される。よって、選択されたサンプルを用いた機械学習の負荷が低下し、機械学習時間が短縮される。

【0096】

次に、情報処理装置１００の機能および処理手順について説明する。
図１０は、情報処理装置の機能例を示すブロック図である。
情報処理装置１００は、データセット記憶部１２１、モデル記憶部１２２、予測部１２３、特徴抽出部１２４、サンプル選択部１２５および機械学習部１２６を有する。データセット記憶部１２１およびモデル記憶部１２２は、例えば、ＲＡＭ１０２、ＧＰＵメモリまたはＨＤＤ１０３を用いて実装される。予測部１２３、特徴抽出部１２４、サンプル選択部１２５および機械学習部１２６は、例えば、ＣＰＵ１０１、ＧＰＵ１０４およびプログラムを用いて実装される。

【0097】

データセット記憶部１２１は、母集合としての複数のサンプルを記憶する。例えば、データセット記憶部１２１は、前述の分子データセット１３１を記憶する。各サンプルは、分子構造およびエネルギーを含む。エネルギーは、機械学習モデルの出力の正解に相当する正解ラベルである。ただし、正解ラベルは、能動学習のように、機械学習に使用することが決定されてからサンプルに付与されてもよい。

【0098】

モデル記憶部１２２は、機械学習モデルを記憶する。例えば、モデル記憶部１２２は、図５に示した機械学習モデル１６２を記憶する。機械学習モデルは、事前に仮に訓練されている。この機械学習モデルは、データセット記憶部１２１に記憶された複数のサンプルのうちの一部のサンプルを用いて更に訓練される。

【0099】

予測部１２３は、データセット記憶部１２１に記憶された複数のサンプルそれぞれについて、サンプルに規定された分子構造から、機械学習モデルの入力形式に合った入力データを生成する。予測部１２３は、複数のサンプルそれぞれについて、生成された入力データを機械学習モデルに入力して、分子のエネルギーを予測する。

【0100】

特徴抽出部１２４は、複数のサンプルそれぞれについて、予測部１２３がエネルギーを予測する間に算出された特徴ベクトルを機械学習モデルから抽出する。抽出される特徴ベクトルは、分子に含まれる原子それぞれに対して算出される特徴ベクトルであって、原子間のメッセージ伝搬が十分に行われた後の特徴ベクトルである。機械学習モデルがメッセージ層と更新層とを交互に含む場合、抽出される特徴ベクトルは、例えば、最後の更新層によって更新された特徴ベクトルである。特徴抽出部１２４は、複数の原子に対応する複数の特徴ベクトルを連結して、サンプル毎に１つの特徴ベクトルを獲得する。

【0101】

サンプル選択部１２５は、特徴抽出部１２４によって獲得された特徴ベクトルに基づいて、データセット記憶部１２１から一部のサンプルを選択する。まず、サンプル選択部１２５は、複数のサンプルに対応する複数の特徴ベクトルを正規化して、複数のサンプルに対応する複数の正規化特徴ベクトルを生成する。サンプル選択部１２５は、それら複数の正規化特徴ベクトルに対して主成分分析を行い、複数のサンプルに対応する複数の主成分ベクトルを生成する。サンプル選択部１２５は、異なる２つのサンプルの間で、主成分ベクトルの類似度を示すユークリッド距離を算出する。

【0102】

サンプル選択部１２５は、ユークリッド距離に基づいて、データセット記憶部１２１から一部のサンプルを選択する。当該一部のサンプルは、相互のユークリッド距離ができる限り大きくなるように選択される。例えば、サンプル選択部１２５は、ユークリッド距離が小さい２つのサンプルのうちの一方または両方を、サンプルの母集合から除外する。よって、主成分ベクトルが類似する冗長なサンプルが除外される。

【0103】

機械学習部１２６は、サンプル選択部１２５によって選択されたサンプルを用いて、機械学習モデルを訓練する。サンプル選択部１２５によって選択されなかったサンプルは、ここでの機械学習に使用されない。例えば、機械学習部１２６は、サンプルに規定された分子構造から、機械学習モデルの入力形式に合った入力データを生成し、機械学習モデルに入力データを入力する。機械学習部１２６は、機械学習モデルが出力する予測データと正解ラベルとの間の誤差を算出し、誤差が小さくなるようにパラメータ値を更新する。

【0104】

機械学習部１２６は、誤差逆伝播法によって、機械学習モデルに含まれるパラメータ値を更新してもよい。また、機械学習部１２６は、選択された複数のサンプルを複数のミニバッチに分割し、それら複数のミニバッチを用いて、誤差を算出するフォワード処理とパラメータ値を更新するバックワード処理とを繰り返してもよい。

【0105】

なお、情報処理装置１００は、選択されたサンプルに関する情報を出力してもよい。情報処理装置１００は、選択されたサンプルに関する情報を不揮発性ストレージに保存してもよいし、表示装置１１１に表示してもよいし、他の情報処理装置に送信してもよい。また、情報処理装置１００は、訓練された機械学習モデルを不揮発性ストレージに保存してもよいし、表示装置１１１に表示してもよいし、他の情報処理装置に送信してもよい。

【0106】

図１１は、機械学習の手順例を示すフローチャートである。
（Ｓ１０）予測部１２３は、サンプル毎に分子構造から入力データを生成する。
（Ｓ１１）予測部１２３は、サンプル毎に、入力データを機械学習モデルに入力し、予測データを生成するフォワード処理を実行する。特徴抽出部１２４は、サンプル毎に、機械学習モデルから特徴ベクトルを抽出する。抽出される特徴ベクトルは、入力データが予測データに変換される過程の途中で生成される特徴ベクトルである。

【0107】

（Ｓ１２）サンプル選択部１２５は、複数のサンプルの特徴ベクトルを正規化する。正規化では、特徴ベクトルの次元毎に、数値が一定範囲に収まるようスケール調整される。
（Ｓ１３）サンプル選択部１２５は、複数のサンプルの正規化特徴ベクトルに対して主成分分析を行い、正規化特徴ベクトルを主成分ベクトルに変換する。

【0108】

（Ｓ１４）サンプル選択部１２５は、複数のサンプルのうちの異なる２つのサンプルの組毎に、主成分ベクトルのユークリッド距離を算出する。
（Ｓ１５）サンプル選択部１２５は、ステップＳ１４で算出されたユークリッド距離に基づいて、母集団であるデータセットから一定数のサンプルを選択する。選択されるサンプルの個数は、例えば、ユーザから指定される。他のサンプルとのユークリッド距離が大きいサンプルが、優先的に選択される。サンプル選択については後述する。

【0109】

（Ｓ１６）機械学習部１２６は、ステップＳ１５で選択されたサンプルを用いて、機械学習モデルを訓練する。例えば、機械学習部１２６は、サンプル毎に入力データを機械学習モデルに入力し、機械学習モデルが出力する予測データと正解ラベルとの誤差を算出する。機械学習部１２６は、誤差逆伝播法によって、誤差が小さくなるように、機械学習モデルに含まれるパラメータ値を更新する。

【0110】

図１２は、サンプル選択の手順例を示すフローチャートである。
このサンプル選択は、前述のステップＳ１５で実行される。
（Ｓ２０）サンプル選択部１２５は、閾値を、ステップＳ１４で網羅的に算出されたユークリッド距離のうちの最小値に初期化する。

【0111】

（Ｓ２１）サンプル選択部１２５は、選択されたサンプルを示す選択データセットを、母集団としての元の分子データセットに初期化する。よって、初期状態の選択データセットは、全てのサンプルが選択されていることを示す。

【0112】

（Ｓ２２）サンプル選択部１２５は、目標サンプル数を設定する。目標サンプル数は、選択されるサンプルの個数の上限である。目標サンプル数は、ユーザから指定されてもよいし、母集団のサンプル数から決定されてもよい。

【0113】

（Ｓ２３）サンプル選択部１２５は、選択データセットに含まれるサンプルの個数が、目標サンプル数を超えるか判断する。選択データセットのサンプル数が目標サンプル数を超える場合、ステップＳ２４に処理が進む。選択データセットのサンプル数が目標サンプル数以下である場合、ステップＳ２７に処理が進む。

【0114】

（Ｓ２４）サンプル選択部１２５は、選択データセットの中から、ユークリッド距離が閾値以上かつ閾値＋α未満であるサンプルを検索する。例えば、α＝０．０１である。
例えば、サンプル選択部１２５は、最も近い他のサンプルとのユークリッド距離（他のサンプルとのユークリッド距離の最小値）が、上記範囲を満たすサンプルを検索する。その場合、該当するサンプルが、ステップＳ２５の削除対象になる。また、例えば、サンプル選択部１２５は、ユークリッド距離が上記範囲を満たすサンプルのペアを検索する。その場合、該当するペアの一方または両方が、ステップＳ２５の削除対象になる。

【0115】

（Ｓ２５）サンプル選択部１２５は、ステップＳ２４の条件を満たすサンプルがある場合、該当するサンプルを選択データセットから削除する。
（Ｓ２６）サンプル選択部１２５は、閾値を、閾値＋αに更新する。例えば、サンプル選択部１２５は、閾値に０．０１を加算する。そして、ステップＳ２３に処理が戻る。

【0116】

（Ｓ２７）サンプル選択部１２５は、選択データセットに含まれるサンプルを、機械学習に使用するサンプルとして出力する。
以上説明したように、第２の実施の形態の情報処理装置１００は、密度汎関数理論を用いた量子化学計算の代わりに、その結果を機械学習モデルを用いて予測する。これにより、量子化学シミュレーションの負荷が軽減され、シミュレーション時間が短縮される。また、機械学習モデルは、グラフニューラルネットワークを含む。これにより、分子構造を考慮して各原子の特徴ベクトルが算出され、予測精度が向上する。

【0117】

また、母集合に含まれる全てのサンプルではなく、その一部のサンプルが機械学習に使用される。これにより、機械学習の負荷が低下して機械学習時間が短縮される。また、類似する冗長なサンプルを含む雑多なサンプルを全て使用する場合と比べて、サンプルを選別することで、訓練された機械学習モデルの予測精度が向上する。

【0118】

また、情報処理装置１００は、機械学習モデルにサンプルを入力したときに内部で算出される特徴ベクトルを用いて、サンプル間の類似度を判定する。そして、情報処理装置１００は、できる限り類似しないサンプルを選択する。これにより、冗長なサンプルが除外され、機械学習モデルの予測精度の向上への寄与が大きいサンプルが選択される。よって、選択サンプル数を一定とすると、機械学習モデルの予測精度が向上する。また、少ないサンプル数で目標予測精度が達成され、機械学習時間が短縮される。

【0119】

また、情報処理装置１００は、グラフニューラルネットワークによる非線形変換後の特徴ベクトルであって、合算前の各原子の特徴ベクトルを用いて、サンプルの類似度を判定する。これにより、機械学習モデルの予測結果との関連が強い特徴ベクトルから類似度が判定され、サンプル選択の精度が向上する。

【0120】

また、情報処理装置１００は、機械学習モデルから抽出された特徴ベクトルを正規化して正規化特徴ベクトルに変換し、更に主成分分析により主成分ベクトルに変換する。正規化により、特徴ベクトルに含まれる複数の次元の間でスケールが統一される。これにより、一部の次元が支配的となって他の次元が過小評価されるリスクが低下し、各サンプルの特徴を適切に表現した主成分ベクトルが生成される。また、主成分分析により、サンプル間の類似度の判定に適した主成分ベクトルが生成される。

【符号の説明】

【0121】

１０情報処理装置
１１記憶部
１２処理部
１３機械学習モデル
１４ａ，１４ｂ，１４ｃデータサンプル
１５ａ，１５ｂ，１５ｃ特徴量
１６ａ，１６ｂ，１６ｃ正規化特徴量

【図1】