特許7390250 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特許7390250化合物構造表現を生成するシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-11-22

(45)【発行日】2023-12-01

(54)【発明の名称】化合物構造表現を生成するシステム

(51)【国際特許分類】

G16C 20/70 20190101AFI20231124BHJP

G06N 20/00 20190101ALI20231124BHJP

【ＦＩ】

G16C20/70

G06N20/00

【請求項の数】 10

(21)【出願番号】P 2020079790

(22)【出願日】2020-04-28

(65)【公開番号】P2021174401

(43)【公開日】2021-11-01

【審査請求日】2022-11-07

(73)【特許権者】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110001678

【氏名又は名称】藤央弁理士法人

(72)【発明者】

【氏名】刑部好弘

(72)【発明者】

【氏名】淺原彰規

【審査官】塩田徳彦

(56)【参考文献】

【文献】特開２０２０－９２０３（ＪＰ，Ａ）

【文献】米国特許出願公開第２０２０／００５０７３７（ＵＳ，Ａ１）

【文献】特開２００３－１４７２８（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１６Ｃ１０／００－９９／００

Ｇ０６Ｎ２０／００

(57)【特許請求の範囲】

【請求項1】

化合物構造表現を生成するシステムであって、
１以上のプロセッサと、
１以上の記憶装置と、を含み、
前記１以上の記憶装置は、構造モデルと、構造物性関係モデルと、１以上の既知物質の化合物構造表現と、１種以上の物性値それぞれの１以上の目標値と、を格納し、
前記構造モデルは、
化合物構造表現を実数ベクトルに変換する、第１エンコーダと、
前記第１エンコーダにより変換された前記実数ベクトルから前記化合物構造表現を推定する、第１デコーダと、を含み、
前記構造物性関係モデルは、
前記第１エンコーダにより生成された前記実数ベクトルと前記１種以上の物性値の目標値を含む目標値ベクトルとを構成要素として含む入力ベクトルを、実数ベクトルに変換する、第２エンコーダと、
前記第２エンコーダにより生成された前記実数ベクトルから前記入力ベクトルを推定する第２デコーダと、を含み、
前記１以上のプロセッサは、前記１以上の既知物質の化合物構造表現及び前記１種以上の物性値それぞれの１以上の目標値に基づき、前記構造モデルの前記第１エンコーダを使用して、１以上の構造発生ベクトルを生成し、
前記１以上の構造発生ベクトルのそれぞれは、一つの既知物質の化合物構造表現の前記第１エンコーダにより生成された実数ベクトルと、前記１種以上の物性値それぞれの目標値を含む目標値ベクトルとを、構成要素として含み、
前記１以上のプロセッサは、
前記１以上の構造発生ベクトルの各構造発生ベクトルを、前記構造物性関係モデルに入力し、
前記構造物性関係モデルの前記第２デコーダの出力から、化合物構造表現に対応する実数ベクトルを抽出し、
前記抽出した実数ベクトルを前記構造モデルの前記第１デコーダに入力して、新たな化合物構造表現を生成する、システム。

【請求項2】

請求項１に記載のシステムであって、
前記１以上の記憶装置は、
前記１種以上の物性値の測定値と関連づけられた第１化合物構造表現群を格納し、
前記１以上のプロセッサは、前記第１化合物構造表現群によって、前記構造モデルの学習を行い、
前記１種以上の物性値の測定値及び前記構造モデルによる前記第１化合物構造表現群の変換結果を使用して、前記構造物性関係モデルの学習を行う、システム。

【請求項3】

請求項１に記載のシステムであって、
前記１以上の記憶装置は、
前記１種以上の物性値の測定値と関連づけられた第１化合物構造表現群と、
前記１種以上の物性値の測定値と関連付けのない第２化合物構造表現群と、を格納し、
前記１以上のプロセッサは、前記第１化合物構造表現群及び前記第２化合物構造表現群を使用して、前記構造モデルの学習を行い、
前記１種以上の物性値の測定値及び前記第１エンコーダによる前記第１化合物構造表現群の変換結果を使用して、前記構造物性関係モデルの学習を行う、システム。

【請求項4】

請求項１に記載のシステムであって、
前記１以上の記憶装置は、前記１種以上の物性値それぞれの１以上の目標値に加えて、他の１種以上の物性値それぞれの１以上の目標値を含み、
前記構造物性関係モデルは、複数のオートエンコーダを含み、
前記複数のオートエンコーダの第１オートエンコーダは、前記第２エンコーダ及び前記第２デコーダで構成され、
前記複数のオートエンコーダにおいて、前記第１オートエンコーダ以外の各エンコーダは、他の一つのオートエンコーダのエンコーダとデコーダとの間に挟まれており、
前記第１オートエンコーダ以外の各オートエンコーダの入力は、前記他の一つのオートエンコーダのデコーダからの実数ベクトルと、前記他の１種以上の物性値から選択された１種以上の物性値それぞれの目標値を含む目標値ベクトルと、を構成要素として含む、システム。

【請求項5】

請求項４に記載のシステムであって、
前記複数のオートエンコーダの間において、入力される目標値の物性値の種類は異なり、
前記複数のオートエンコーダそれぞれに入力される目標値の数は１である、システム。

【請求項6】

請求項４に記載のシステムであって、
前記複数のオートエンコーダの間において、入力される目標値の物性値の種類は異なり、
前記複数のオートエンコーダは、入力される目標値の数が異なるオートエンコーダを含む、システム。

【請求項7】

請求項４に記載のシステムであって、
前記１以上の記憶装置は、前記構造物性関係モデルの学習データを格納し、
前記１以上のプロセッサは、前記学習データを使用して、前記構造物性関係モデルの学習を行い、
前記学習データは、前記複数のオートエンコーダのそれぞれの学習に使用される複数のグループで構成され、
前記複数のグループの各グループは、複数の化合物構造表現のそれぞれを、１以上の所定の物性値種類の測定値と関連付け、
前記複数のグループの二つのグループの間において、物性値種類数が多いグループは、物性値種類数が少ないグループの全ての物性値種類及び全ての化合物構造表現を含み、
前記物性値種類数が多いグループは、前記構造物性関係モデルにおけるより内側のオートエンコーダの学習に使用される、システム。

【請求項8】

請求項４に記載のシステムであって、
前記複数のオートエンコーダにおいて、より外側のオートエンコーダの学習データ量が、より内側のオートエンコーダの学習データ量より多い、システム。

【請求項9】

請求項１に記載のシステムであって、
前記１以上のプロセッサは、
前記構造モデル及び前記構造物性関係モデルを含むネットワーク構造を表示し、
前記ネットワーク構造に対するユーザ入力に応じて前記ネットワーク構造を修正する、システム。

【請求項10】

システムが化合物構造表現を生成する方法であって、
前記システムは、
１以上のプロセッサと、
１以上の記憶装置と、を含み、
前記１以上の記憶装置は、構造モデルと、構造物性関係モデルと、１以上の既知物質の化合物構造表現と、１種以上の物性値それぞれの１以上の目標値と、を格納し、
前記構造モデルは、
化合物構造表現を実数ベクトルに変換する、第１エンコーダと、
前記第１エンコーダにより変換された前記実数ベクトルから前記化合物構造表現を推定する、第１デコーダと、を含み、
前記構造物性関係モデルは、
前記第１エンコーダにより生成された前記実数ベクトルと前記１種以上の物性値の目標値を含む目標値ベクトルとを構成要素として含む入力ベクトルを、実数ベクトルに変換する、第２エンコーダと、
前記第２エンコーダにより生成された前記実数ベクトルから前記入力ベクトルを推定する第２デコーダと、を含み、
前記方法は、前記１以上のプロセッサが、前記１以上の既知物質の化合物構造表現及び前記１種以上の物性値それぞれの１以上の目標値に基づき、前記構造モデルの前記第１エンコーダを使用して、１以上の構造発生ベクトルを生成する、ことを含み、
前記１以上の構造発生ベクトルのそれぞれは、一つの既知物質の化合物構造表現の前記第１エンコーダにより生成された実数ベクトルと、前記１種以上の物性値それぞれの目標値を含む目標値ベクトルとを、構成要素として含み、
前記方法は、前記１以上のプロセッサが、
前記１以上の構造発生ベクトルの各構造発生ベクトルを、前記構造物性関係モデルに入力し、
前記構造物性関係モデルの前記第２デコーダの出力から、化合物構造表現に対応する実数ベクトルを抽出し、
前記抽出した実数ベクトルを前記構造モデルの前記第１デコーダに入力して、新たな化合物構造表現を生成する、ことを含む、方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、所望の物性値を持つことが期待される化合物構造表現の候補を生成するシステムに関する。

【背景技術】

【0002】

新材料探索タスクに対してバーチャルスクリーニングの手法が利用されている。バーチャルスクリーニングの手法の例は、例えば、非特許文献１に開示されている。バーチャルスクリーニングは、既知の化合物のデータに機械学習モデルを適用し、所定の表現形式で表された化学構造式を入力とした物性値推定モデルを構成する。次に、ランダムに生成した化学構造式に対して、上記物性値推定モデルを適用する。こうして計算された予測値をもとにスクリーニングを行い、閾値を超える物性値を持つと期待される化学構造式を候補として提示する。

【0003】

他の先行技術文献である非特許文献２は、画像分類タスクを実行する、スタックされた半教師あり学習モデルを開示する。非特許文献２は、スタックされたモデルにおける外側のモデルの学習をラベルなし学習データで行い、内側のモデルの学習をラベル付き学習データで行うことを開示する。

【先行技術文献】

【非特許文献】

【0004】

【文献】R. Gomez-Bombarelli et al., “Automatic Chemical Design Using a Data-Driven Continuous Representation of Molecules,” ACS Cent. Sci., vol. 4, no. 2, pp. 268-276, Feb. 2018.

【文献】D. P. Kingma, D. J. Rezende, S. Mohamed, and M. Welling, “Semi-supervised Learning with Deep Generative Models,” NIPS 2014.

【発明の概要】

【発明が解決しようとする課題】

【0005】

従来の物性値推定モデルを使用した探索手法は、学習データの範囲内でしか推定することができない内挿的探索法であるため、既知材料の性能を超える物性値を持つ新材料を発見することを目的とする外挿的探索には不適切である。

【0006】

また、従来のバーチャルスクリーニング手法は、ＳＭＩＬＥＳ（ＳｉｍｐｌｉｆｉｅｄＭｏｌｅｃｕｌａｒＩｎｐｕｔＬｉｎｅＥｎｔｒｙＳｙｓｔｅｍ）のような化学構造式の表現形式と物性値との関係を、ニューラルネットワークのようなモデルによって獲得する。これにより、所望の物性値を持つ化学構造式を生成することを目的とする。しかし、化学構造式の表現形式の文法規則と、化学構造式と物性値との間の関係との双方を学習により獲得するためには、化学構造式と物性値とがセットになった大量のデータが必要となる。しかし、実験データやシミュレーション結果のような、化学構造式と物性値がセットになったデータを大量に用意するのは困難である。

【0007】

したがって、学習データに含まれる物性値よりも良い物性値を持つ化合物の候補を提示することができる学習モデルを、少ない化学構造式と物性値がセットになったデータを使用して生成することができる技術が望まれる。

【課題を解決するための手段】

【0008】

本発明の一態様は、化合物構造表現を生成するシステムであって、１以上のプロセッサと、前記１以上のプロセッサが実行するプログラムを格納する１以上の記憶装置と、を含む。前記記憶装置は、構造モデルと、構造物性関係モデルと、１以上の既知物質の化合物構造表現と、１種以上の物性値それぞれの１以上の目標値と、を格納する。前記構造モデルは、化合物構造表現を実数ベクトルに変換する、第１エンコーダと、前記第１エンコーダにより変換された前記実数ベクトルから前記化合物構造表現を推定する、第１デコーダと、を含む。前記構造物性関係モデルは、前記第１エンコーダにより生成された前記実数ベクトルと前記１種以上の物性値の目標値を含む目標値ベクトルとを構成要素として含む入力ベクトルを、実数ベクトルに変換する、第２エンコーダと、前記第２エンコーダにより生成された前記実数ベクトルから前記入力ベクトルを推定する第２デコーダと、を含む。前記１以上のプロセッサは、前記１以上の既知物質の化合物構造表現及び前記１種以上の物性値それぞれの１以上の目標値に基づき、前記構造モデルの前記第１エンコーダを使用して、１以上の構造発生ベクトルを生成する。前記１以上の構造発生ベクトルのそれぞれは、一つの既知物質の化合物構造表現の前記第１エンコーダにより生成された実数ベクトルと、前記１種以上の物性値それぞれの目標値を含む目標値ベクトルとを、構成要素として含む。前記１以上のプロセッサは、前記１以上の構造発生ベクトルの各構造発生ベクトルを、前記構造物性関係モデルに入力する。前記１以上のプロセッサは、前記構造物性関係モデルの前記第２デコーダの出力から、化合物構造表現に対応する実数ベクトルを抽出する。前記１以上のプロセッサは、前記抽出した実数ベクトルを前記構造モデルの前記第１デコーダに入力して、新たな化合物構造表現を生成する。

【発明の効果】

【0009】

本発明の一態様によれば、学習データに含まれる物性値よりも良い物性値を持つ化合物の候補を提示することができる学習モデルを、少ない化学構造式と物性値がセットになったデータを使用して生成できる。

【図面の簡単な説明】

【0010】

【図1】本明細書の実施例に係る化学構造式生成モデルの構成例を模式的に示す。

【図2】実施例１に係る化学構造式生成システムの構成の一例を示す。

【図3】構造式生成装置のハードウェア構成例を示す。

【図4】カタログデータの構成例を示す。

【図5】実験データの構成例を示す。

【図6】構造式行列データベースに含まれるデータの例を示す。

【図7】学習用データベースに含まれるデータの例を示す。

【図8】初期パラメータに含まれる情報の例を示す。

【図9】表示装置において、表示部がユーザのために表示するネットワーク構造確認画面の例を示す。

【図10】モデルデータに含まれるモデルテーブルの構成例を示す。

【図11】構造式変換部の処理例のフローチャートを示す。

【図12】学習データ生成部の処理例のフローチャートを示す。

【図13】構造発生ベクトル群生成部の処理例のフローチャートを示す。

【図14】ネットワーク構造決定部の処理例のフローチャートを示す。

【図15】構造モデル学習部の処理例のフローチャートを示す。

【図16】構造モデル追加学習部の処理例のフローチャートを示す。

【図17】構造物性関係モデル学習部の処理例のフローチャートを示す。

【図18】新構造式生成部の処理例のフローチャートを示す。

【図19】構造式逆変換部の処理例のフローチャートを示す。

【図20】構造式整形部の処理例のフローチャートを示す。

【図21】実施例２に係る、表示部が表示装置においてユーザのために表示する、ネットワーク構造確認画面の例を示す。

【図22】実施例２に係る、学習用データベースに含まれるデータの例を示す。

【図23】実施例２に係る、モデルデータに含まれるモデルテーブルの構成例を示す。

【図24】実施例３に係る、表示部が表示装置においてユーザのために表示する、ネットワーク構造確認画面の例を示す。

【図25】実施例３に係る、学習用データベースＤＢに含まれるデータの例を示す。

【図26】実施例３に係る、モデルデータＤＢに含まれるモデルテーブルの構成例を示す。

【図27】実験データにおけるレコードが含む物性値（の種類）が満たすべき条件を模式的に示す。

【図28】２種類の実験データで構成される構造物性関係モデル用学習データの例を模式的に示す。

【図29】実施例４に係る、表示部が表示装置においてユーザのために表示する、ネットワーク構造確認画面の例を示す。

【図30】実施例３に係る、モデルデータＤＢに含まれるモデルテーブルの構成例を示す。

【図31】学習データ生成部が、実験データから構造物性関係モデル用学習データを生成する例を示している。

【発明を実施するための形態】

【0011】

以下においては、便宜上その必要があるときは、複数のセクションまたは実施例に分割して説明するが、特に明示した場合を除き、それらは互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。また、以下において、要素の数等（個数、数値、量、範囲等を含む）に言及する場合、特に明示した場合及び原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。

【0012】

本システムは、物理的な計算機システム（一つ以上の物理的な計算機）でもよいし、クラウド基盤のような計算リソース群（複数の計算リソース）上に構築されたシステムでもよい。計算機システムあるいは計算リソース群は、１以上のインタフェース装置（例えば通信装置及び入出力装置を含む）、１以上の記憶装置（例えば、メモリ（主記憶）及び補助記憶装置を含む）、及び、１以上のプロセッサを含む。

【0013】

プログラムがプロセッサによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置及び／またはインタフェース装置等を用いながら行われるため、機能はプロセッサの少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサあるいはそのプロセッサを有するシステムが行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機または計算機が読み取り可能な記憶媒体（例えば計算機読み取り可能な非一過性記憶媒体）であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。

【0014】

〔概略〕
以下において、所望の物性値を有することが期待される化学構造式を推定する技術が開示される。化学構造式は、様々は表現形式で表され得る。化学構造式の表現形式は、例えば、一定の文法規則に従って記述された文字列や、行列であり得る。文法規則の例は、ＳＭＩＬＥＳ（ＳｉｍｐｌｉｆｉｅｄＭｏｌｅｃｕｌａｒＩｎｐｕｔＬｉｎｅＥｎｔｒｙＳｙｓｔｅｍ）である。以下に説明する実施例は、化学構造式を記述する文法規則の一例として、ＳＭＩＬＥＳを使用する。

【0015】

図１は、本明細書の実施例に係る化学構造式生成モデルの構成例を模式的に示す。化学構造式生成モデル１０は、既知の化学構造式を表す表現と目標物性値を入力として受け付け、目標物性値に近い物性値を有することが期待される新たな化学構造式の表現を出力する。

【0016】

化学構造式生成モデル１０は、化学構造式を学習対象とする構造モデル１００と、化学構造式の特徴量と物性値との間の関係を学習する構造物性関係モデル１０４の、２種類のモデルを組み合わせる。構造モデル１００は、一つの変分オートエンコーダ（ＶＡＥ）で構成され、構造物性関係モデル１０４は１以上のＶＡＥで構成される。図１の構成例において、構造物性関係モデル１０４は、単一のＶＡＥで構成されている。

【0017】

ＶＡＥは、オートエンコーダの一種であり、エンコーダとデコーダの二つのニューラルネットワークから構成される深層生成モデルである。エンコーダは、入力（ベクトル）を実数ベクトルに変換する。実数ベクトルが属する空間は潜在空間と呼ばれ、所定の分布、例えば正規分布に従うことが仮定される。デコーダは、その実数ベクトルを逆変換し、入力と等しい次元のベクトルを出力する。

【0018】

エンコーダ及びデコーダは、入力と出力とが等しくなるように訓練される（学習する）。中間出力の実数ベクトルから入力を再構成できることは、入力の十分な特徴が実数ベクトルに反映されていることを意味する。潜在空間の次元は、入力の次元よりも小さくなるように設定される。そのため、エンコーダは、入力の特徴量を抽出すると共に、入力の次元を圧縮することができる。

【0019】

中間出力のベクトルは、潜在変数又は潜在表現と呼ばれ、化学構造式を表す構造式行列から抽出した特徴を表す抽象表現である。構造式行列は、例えば、材料の化学構造式を表す文字列から変換できる。潜在変数は、所定の分布、例えばガウス分布に従うことが仮定される。したがって、デコーダは、ノイズが加えられたベクトルを受け取った場合に、入力の構造式行列を高い精度で復元することができる。このように、ＶＡＥは、生成モデルとして高いロバスト性を有する。

【0020】

図１に示すように、化学構造式生成モデル１０は入れ子構造を有する。具体的には、構造モデル（外側ＶＡＥ）１００のエンコーダ１０１とデコーダ１０２との間に構造物性関係モデル１０４が配置される。図１の例において、構造物性関係モデル１０４は、エンコーダ１０５及びデコーダ１０６で構成される。後述するように、構造物性関係モデル１０４は複数のＶＡＥ（内側ＶＡＥ）を含むことができ、各内側ＶＡＥは、他のＶＡＥのエンコーダとデコーダとの間に配置される。

【0021】

構造モデル１００のエンコーダ１０１は、例えば、複数の１次元畳み込み層と、複数の全結合層で構成できる。エンコーダ１０１は、Ｍ×Ｎ次元の構造行列式（構造表現）を入力として受け取り、Ｌ次元ベクトルに変換する。デコーダ１０２は、例えば、複数の全結合層とＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）で構成できる。デコーダ１０２は、Ｌ次元ベクトルを入力として受け取り、Ｍ×Ｎ次元の構造行列式に逆変換する。

【0022】

構造物性関係モデル１０４の内側ＶＡＥのエンコーダ１０５及びデコーダ１０６は、例えば、複数の全結合層で構成することができる。エンコーダ１０５は、構造モデル１００（外側ＶＡＥ）の潜在変数（変換結果）であるＬ次元ベクトルと、Ｐ個の物性値の配列からなるＰ次元ベクトル（目標値ベクトル）を構成要素として含む、Ｌ＋Ｐ次元ベクトル１０７（拡張ベクトル又は構造発生ベクトルとも呼ぶ）を入力として受け取る。エンコーダ１０５は、ベクトル１０７より小さい次元の中間ベクトル（潜在表現）１０８を出力する。構造物性関係モデル１０４の潜在空間は、構造的特徴と物性値的特徴の組み合わせが抽象化する潜在表現を与える。

【0023】

デコーダ１０６は、中間ベクトル１０８を入力として受け取り、Ｌ＋Ｐ次元ベクトル１０９を出力する。Ｌ＋Ｐ次元ベクトル１０９から抽出されるＰ個の要素は物性値の配列である。デコーダ１０６の出力から抽出されるＬ次元ベクトルは、構造モデル１００のデコーダ１０２に入力され、Ｍ×Ｎ次元の構造行列式が出力される。

【0024】

例えば、システムは、既知化合物の化学構造式（の構造表現）と目標物性値を学習済みの化学構造式生成モデル１０に順次入力する。これにより、目標物性値に近い値を示すと期待される新しい化学構造式を生成することができる。また、システムは、既知化合物のなかの性能上位の化合物の化学構造式それぞれと、所定の物性値及びその近傍の値（これらを目標値とも呼ぶ）それぞれとの組み合わせを、学習済みの化学構造式生成モデル１０に順次入力してもよい。これにより、目標物性値に近い値を示すと新しい化学構造式が生成される蓋然性を高めることができる。

【0025】

本明細書の実施例が実行するタスクにおいて、化学構造式生成モデルが獲得すべき学習対象は、主に二つである。一つの学習対象は、化学構造式を表す表現形式の文法規則であり、もう一つの学習対象は、化学構造（化学構造式）と物性値との間の関係である。ＶＡＥの学習は、エンコーダの入力とデコーダの出力が等しくなるように損失関数を与え、エンコーダ及びデコーダのパラメータを更新（最適化）する。

【0026】

上記二つの学習対象において、物性値は、特徴と物性値との間の関係の学習においてのみ必要となる。物性値の種類は、物理的性質を表す種類と化学的性質を表す種類とを含む。いずれの種類の物性値も、主鎖構造や、末端構造、部分構造などの局所的な構造的特徴に強く影響を受ける。このため、化学構造と物性値との間の関係の学習は、化学構造式そのものに代えて、化学構造式から抽出した特徴量と物性値との間の関係を学習データとして利用することができる。

【0027】

本明細書の実施例は、主に以下のステップを実行する。まず、システムは、ユーザ設定とデータとを受け取って学習モデル（ネットワーク構造）を決定する。次に、システムは、化学構造式生成モデルの学習（訓練）を実行する。化学構造式生成モデルの学習は、構造モデル（外側ＶＡＥ）１００のカタログデータでの学習、構造モデル１００の実験データの化学構造式での学習、そして構造物性関係モデル１０４（１以上の内側ＶＡＥ）の実験データでの学習を含む。システムは、学習済みのＶＡＥから化学構造式生成モデルを構築し、新規構造式を生成する。

【実施例1】

【0028】

図２に実施例１に係る化学構造式生成システムの構成の一例を示す。本システムは、ネットワークを介して互いに通信可能な、パラメータ設定装置Ｍ０１、データ保存装置Ｍ０２、モデル学習装置Ｍ０３、構造式生成装置Ｍ０４、及び表示装置Ｍ０５を含む。

【0029】

パラメータ設定装置Ｍ０１は、化学構造式生成システムの生成（学習を含む）のためのパラメータを含む、種々のデータを設定又は生成する。本例において、パラメータ設定装置Ｍ０１は、構造式変換部Ｐ０１、学習データ生成部Ｐ０２、構造発生ベクトル群生成部Ｐ０３、及びネットワーク構造決定部Ｐ０４を含む。これらはプログラムである。パラメータ設定装置Ｍ０１は、さらに、カタログデータＤＢ１０、実験データＤＢ１１、構造式語彙データＤＢ１２、及び初期パラメータＤＢ１３を格納する。

【0030】

データ保存装置Ｍ０２は、他の装置が生成したデータ（情報）を含む、様々な種類のデータを格納することができる。本例において、データ保存装置Ｍ０２は、構造式行列データベースＤＢ１４、学習用データベースＤＢ１５、構造発生ベクトルデータベースＤＢ１６、モデルデータＤＢ１７、及び候補構造式データベースＤＢ１８を格納している。

【0031】

モデル学習装置Ｍ０３は、化学構造式生成システムに含まれる学習モデルの学習を行う。本例において、モデル学習装置Ｍ０３は、構造モデル学習部Ｐ０５、構造モデル追加学習部Ｐ０６、及び構造物性関係モデル学習部Ｐ０７を含む。これらはプログラムである。

【0032】

構造式生成装置Ｍ０４は、学習済みの化学構造式生成モデルを使用して、所望の物性値を有ることが期待される新たな物質の化学構造式を生成（推定）する。本例において、構造式生成装置Ｍ０４は、新構造式生成部Ｐ０８、構造式逆変換部Ｐ０９、および構造式整形部Ｐ１０を含む。これらはプログラムである。

【0033】

表示装置Ｍ０５は、他の装置から取得した情報をユーザに対して提示すると共に、ユーザから入力データを受け取り、他の装置に送信することができる。表示装置Ｍ０５は、プログラムである、表示部Ｐ１１を含む。

【0034】

図３は、構造式生成装置Ｍ０４のハードウェア構成例を示す。構造式生成装置Ｍ０４は、演算性能を有するプロセッサＵ１１１と、プロセッサＵ１１１が実行するプログラム及びデータを格納する揮発性一時記憶領域を与えるＤＲＡＭＵ１１２と、を含む。

【0035】

構造式生成装置Ｍ０４は、さらに、本システムにおける他の装置を含む他の装置とデータ通信をおこなう通信装置Ｕ１１３と、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やフラッシュメモリなどを利用した永続的な情報記憶領域を与える補助記憶装置Ｕ１１４と、を含む。また、構造式生成装置Ｍ０４は、ユーザからの操作を受け付ける入力装置Ｕ１１５と、各プロセスでの出力結果をユーザに提示するモニタＵ１１６（出力装置の例）と、を含む。

【0036】

例えば、補助記憶装置Ｕ１１４は、新構造式生成部Ｐ０８、構造式逆変換部Ｐ０９、および構造式整形部Ｐ１０等のプログラムを格納する。プロセッサＵ１１１が実行するプログラム及び処理対象のデータは、補助記憶装置Ｕ１１４からＤＲＡＭＵ１１２にロードされる。

【0037】

化学構造式生成システムに含まれる他の装置、具体的には、パラメータ設定装置Ｍ０１、データ保存装置Ｍ０２、モデル学習装置Ｍ０３、及び表示装置Ｍ０５それぞれを構成するハードウェア要素は、構造式生成装置Ｍ０４と同様でよい。また、複数の装置に分かれている機能を一つの装置に統合してもよく、上記複数の装置機能をさらに多くの装置に分散してもよい。このように、化学構造式生成システムは、１以上の記憶装置及び１以上のプロセッサを含む。

【0038】

図４は、カタログデータＤＢ１０の構成例を示す。カタログデータＤＢ１０は、化合物構造式のデータベースであり、大量のレコードを含む。各レコードは、一つの化学構造式の情報を格納している。カタログデータＤＢ１０のデータは、例えば、自由な二次利用が可能な状態で公開された、入手容易なオープンデータを含むことができる。本明細書の実施例において、化学構造式は、ＳＭＩＬＥＳ記法に従った文字列（表現）で表される。

【0039】

図４に示す、カタログデータＤＢ１０の例において、ＴａｂｌｅＩＤカラムＴ０Ｃ１は、そのテーブル（図４に示すテーブル）の識別子を示す。ＴａｂｌｅＴｙｐｅカラムＴ０Ｃ２は、そのテーブルが格納しているデータのタイプを示す。ＴａｂｌｅＴｙｐｅカラムＴ０Ｃ２は、本テーブルが、カタログデータのテーブルであることを示している。ＩＤカラムＴ０Ｃ３は、化学構造式の識別子を示す。ＳＭＩＬＥＳカラムＴ０Ｃ４は、化学構造式のＳＭＩＬＥＳ表現を示す。

【0040】

図５は、実験データＤＢ１１の構成例を示す。実験データＤＢ１１は、化学構造式の注目している１以上の物性値を示す実験データを格納している。各レコードは、注目している１以上の物性値の実験結果と、一つの化学構造式の情報との組を含む。実験データＤＢ１１のレコード数は、カタログデータＤＢ１０のレコード数より少ないことが想定される。

【0041】

図５に示す実験データＤＢ１１の例において、ＴａｂｌｅＩＤカラムＴ１Ｃ１は、そのテーブル（図５に示すテーブル）の識別子を示す。ＴａｂｌｅＴｙｐｅカラムＴ１Ｃ２は、そのテーブルが格納しているデータのタイプを示す。ＴａｂｌｅＴｙｐｅカラムＴ１Ｃ２は、本テーブルが、実験データのテーブルであることを示している。

【0042】

ＩＤカラムＴ１Ｃ３は、化学構造式の識別子を示す。ＳＭＩＬＥＳカラムＴ１Ｃ４は、化学構造式のＳＭＩＬＥＳ表現を示す。ＭＷｔカラムＴ１Ｃ５は、化学構造式で表される化合物の分子量を示す。ｌｏｇＰカラムＴ１Ｃ６は、化学構造式で表される化合物の分配係数を示す。分子量及び分配係数は、化学構造式の物性値の例であり、実験データは、任意の物性値を含むことができる。

【0043】

図６は、構造式行列データベースＤＢ１４に含まれるデータの例を示す。構造式行列データベースＤＢ１４は複数のテーブルを含む。構造式行列データベースＤＢ１４は、カタログデータＤＢ１０や実験データＤＢ１１のテーブルそれぞれに対し、付与した元データＩＤと構造式（ＳＭＩＬＥＳ）を変換した構造式行列のカラムを追加したテーブルをまとめたものである。そのため、実施例１において、構造式行列データベースＤＢ１４は、二つのテーブルを含む。

【0044】

構造式行列データベースＤＢ１４は、構造式変換部Ｐ０１によりＳＭＩＬＥＳ表現から変換された化学構造式の行列を格納している。このように、本明細書の実施例において、化学構造式を表す文字列は、行列に変換される。行列の縦軸は元素記号のような記号種を示し、横軸は出現位置を示す。

【0045】

本明細書において、この行列を構造式行列と呼ぶ。記号種数をＭ、化学構造を表す文字列の長さをＮとすると、構造式列は、Ｍ×Ｎ次元となる。文字列の長さは、構造式に応じて変化し得る。そのため、負数やゼロ値によりパディングを行って、固定長行列を生成する。構造式行列は、どの位置にどの記号が出現するかについての情報を持つため、構造式が一意に決定され、構造式行列の逆変換により構造式を生成することができる。

【0046】

図６に例示するように、構造式行列データベースＤＢ１４は、カタログデータ構造式行列テーブル１４１及び実験データ構造式行列テーブル１４２を含む。カタログデータ構造式行列テーブル１４１は、カタログデータＤＢ１０から生成され、さらに構造式行列が追加されている。実験データ構造式行列テーブル１４２は、実験データＤＢ１１から生成され、さらに構造式行列が追加されている。

【0047】

カタログデータ構造式行列テーブル１４１において、ＴａｂｌｅＩＤカラムＴ３Ｃ１は、そのテーブル（図６に示すテーブル）の識別子を示す。ＴａｂｌｅＴｙｐｅカラムＴ３Ｃ２は、そのテーブルが格納しているデータのタイプを示す。ＴａｂｌｅＴｙｐｅカラムＴ３Ｃ２は、本テーブルが、カタログデータから生成されたテーブルであることを示している。ＩＤカラムＴ３Ｃ３は、化学構造式の識別子を示す。ＳＭＩＬＥＳカラムＴ３Ｃ４は、化学構造式のＳＭＩＬＥＳ表現を示す。構造式行列カラムＴ３Ｃ５は、構造式変換部Ｐ０１によりＳＭＩＬＥＳ表現から変換された化学構造式の構造式行列を示す。

【0048】

実験データ構造式行列テーブル１４２において、ＴａｂｌｅＩＤカラムＴ４Ｃ１は、そのテーブル（図６に示すテーブル）の識別子を示す。ＴａｂｌｅＴｙｐｅカラムＴ４Ｃ２は、そのテーブルが格納しているデータのタイプを示す。ＴａｂｌｅＴｙｐｅカラムＴ４Ｃ２は、本テーブルが、実験データから生成されたテーブルであることを示している。ＩＤカラムＴ４Ｃ３は、化学構造式の識別子を示す。ＳＭＩＬＥＳカラムＴ４Ｃ４は、化学構造式のＳＭＩＬＥＳ表現を示す。ＭＷｔカラムＴ４Ｃ５は、化学構造式で表される化合物の分子量を示す。ｌｏｇＰカラムＴ４Ｃ６は、化学構造式で表される化合物の分配係数を示す。構造式行列カラムＴ４Ｃ７は、構造式変換部Ｐ０１によりＳＭＩＬＥＳ表現から変換された化学構造式の構造式行列を示す。

【0049】

図７は、学習用データベースＤＢ１５に含まれるデータの例を示す。学習用データベースＤＢ１５は、構造式行列データベースＤＢ１４から学習データ生成部Ｐ０２により生成された、化学構造式生成モデルの学習に使用するデータを格納する。本明細書の実施例における化学構造式生成モデルは、構造モデル及び構造物性関係モデルを含む。図６に示すように、学習用データベースＤＢ１５は、構造モデル用テーブル１５１及び構造物性関係モデル用テーブル１５２を含む。構造モデル用テーブル１５１は、物性値の測定値と関連付けのない化合物の構造式行列群（化合物構造表現群）を格納する。構造物性関係モデル用テーブル１５２は、物性値の測定値と関連づけられた化合物の構造式行列群（化合物構造表現群）を格納する。

【0050】

図７に示す構造モデル用テーブル１５１の例は、ＴａｂｌｅＩＤカラムＴ５Ｃ１を除き、カタログデータ構造式行列テーブル１４１と同一の情報を格納している。ＴａｂｌｅＩＤカラムＴ５Ｃ１は、図７に示す構造モデル用テーブル１５１の識別子を示す。カラムＴ５Ｃ２～Ｔ５Ｃ５は、それぞれ、カタログデータ構造式行列テーブル１４１における同名のカラムＴ３Ｃ２～Ｔ３Ｃ５と同様である。

【0051】

図７に示す構造物性関係モデル用テーブル１５２の例は、ＴａｂｌｅＩＤカラムＴ６Ｃ１を除き、実験データ構造式行列テーブル１４２と同一の情報を格納している。ＴａｂｌｅＩＤカラムＴ６Ｃ１は、図６に示す構造物性関係モデル用テーブル１５２の識別子を示す。カラムＴ６Ｃ２～Ｔ６Ｃ７は、それぞれ、実験データ構造式行列テーブル１４２における同名のカラムＴ４Ｃ２～Ｔ４Ｃ７と同様である。

【0052】

図８は、初期パラメータＤＢ１３に含まれる情報の例を示す。初期パラメータＤＢ１３は、ネットワーク構造の定義に必要なパラメータにおける初期値の全てを格納している。例えば、ニューラルネットワークの構造パラメータの初期値、学習用パラメータの初期値、そのほかのユーザ設定データの初期値が格納されている。更新されたパラメータは、モデルデータＤＢ１７に格納される。

【0053】

なお、デフォルト値が事前に与えられている場合は、一部の初期パラメータは省略されていてもよい。例えば、ニューラルネットワークを構成する層の種類、数、順序、次元数、ニューロンの重み、重みの更新率等、ニューラルネットワークのネットワーク定義に一般的に必要とされるパラメータは省略されてもよい。

【0054】

ユーザは、いずれかの装置の入力装置を介して、初期パラメータＤＢ１３を設定することができる。初期パラメータＤＢ１３は、化学構造式生成モデルの構成のために必要な情報を含む。図８に示す例において、「ＣａｔａｌｏｇＤａｔａＴａｂｌｅｓ」は、使用するカタログデータを示す。「ＥｘｐｅｒｉｍｅｎｔＤａｔａＴａｂｌｅｓ」は、使用する実験データを示す。「ＴａｒｇｅｔＰｒｏｐｅｒｔｉｅｓ」は、注目する物性値の種類を示す。「ＴａｒｇｅｔＰｒｏｐｅｒｔｙＶａｌｕｅｓ」は、注目する物性値の種類の目標値を示す。

【0055】

「Ｎｕｍｂｅｒ＿ｏｆ＿ｖａｅ＿ｒｅｌａｔｉｏｎ」は、構造物性関係モデルのＶＡＥ（内側ＶＡＥ）の段数を示す。「ＶＡＥ＿Ｉｎｉｔｉａｌ＿Ｐａｒａｍｓ」は、化学構造式生成モデルのＶＡＥそれぞれのパラメータの初期値を示す。より具体的には、「ｇｒａｍｍａｒ＿ｌａｙｅｒ」は、構造モデルのＶＡＥ（外側ＶＡＥ）層の数や次元数等の構成を示す。「ｖａｅ＿ｒｅｌａｔｉｏｎ＿ｌａｙｅｒｓ」は、構造物性値関係モデルのＶＡＥそれぞれの層の数や次元数等の構成を示す。「ｍｉｄｄｌｅ＿ｄｉｍｓ」は、エンコーダ又はデコーダからの中間出力における次元数のリストを示す。

【0056】

図９は、表示装置Ｍ０５において、表示部Ｐ１１がユーザのために表示するネットワーク構造確認画面２０１の例を示す。表示部Ｐ１１は、ネットワーク構造決定部Ｐ０４から受信した化学構造式生成モデルの構成情報から、化学構造式生成モデルの構成図を生成し、モニタにおいて表示する。

【0057】

図９に示す構成例において、外側ＶＡＥである構造モデルは、外側エンコーダ＃ｅｎｃ＿０１と外側デコーダ＃ｄｅｃ＿０１で構成されている。内側ＶＡＥである構造物性関係モデルは、内側エンコーダ＃ｅｎｃ＿０２と内側デコーダ＃ｄｅｃ＿０２で構成されている。内側ＶＡＥは、外側エンコーダ＃ｅｎｃ＿０１と外側デコーダ＃ｄｅｃ＿０１とに挟まれている。

【0058】

外側エンコーダ＃ｅｎｃ＿０１は、ＳＭＩＬＥＳ表現から生成された構造式行列を入力として受け付け、９次元の中間ベクトル（潜在表現）を出力する。内側エンコーダ＃ｅｎｃ＿０２は、外側エンコーダ＃ｅｎｃ＿０１の出力に二つの物性値（ＭＷｔ及びｌｏｇＰ）を結合した１１次元のベクトルを入力として受け付け、７次元の中間ベクトル（潜在表現）を出力する。

【0059】

内側デコーダ＃ｄｅｃ＿０２は、内側エンコーダ＃ｅｎｃ＿０２の出力を入力として受け付け、１１次元のベクトルを出力する。このベクトルは、化学構造式に対応する９次元のベクトルと、二つの物性値を示す２次元のベクトルの結合である。外側デコーダ＃ｄｅｃ＿０１は、内側デコーダ＃ｄｅｃ＿０２の出力から抽出された９次元ベクトルを入力として受け付け、化学構造行列を示すベクトルを出力する。化学構造行列を逆変換することで、化学構造式のＳＭＩＬＥＳ表現が得られる。

【0060】

ユーザは、ネットワーク構造確認画面２０１を参照することで、構成される化学構造式生成モデルが、所望の構成を有するか確認することができる。化学構造式生成モデルの構成の変更を望む場合、ユーザは、表示装置Ｍ０５の入力装置から、修正のためのデータを入力することができる。

【0061】

表示部Ｐ１１は、ネットワーク構造確認画面２０１の他に、化学構造式生成モデルが新たに生成した化学構造式及びそれに関連する情報を表示する。ユーザは、表示された化学構造式から、実際に実験を行う化学構造式を選択することができる。

【0062】

図１０は、モデルデータＤＢ１７に含まれるモデルテーブル１７１の構成例を示す。モデルデータＤＢ１７は、化学構造式生成モデルのネットワーク構造の定義に必要なパラメータを格納する。初期パラメータには含まれないデフォルト値を含め、全てのパラメータが含まれる。例えば、ニューラルネットワークの構造パラメータ、学習用パラメータ、構造式行列の逆変換に必要な語彙データ、その他ユーザ設定データが含まれる。パラメータは、学習に従い逐次更新される。モデルデータＤＢ１７は、例えば、学習の開始時、学習中、学習終了時などのタイミングで読み書きされる。

【0063】

モデルテーブル１７１は、ネットワーク構造決定部Ｐ０４に生成され、モデルデータＤＢ１７に含められる。図１０のモデルテーブル１７１は、図９に示す化学構造式生成モデルの構成図と対応している。図１０の例において、ＮｅｔｗｏｒｋＩＤカラムＴ７Ｃ１は、化学構造式生成モデルのエンコーダ又はデコーダの識別子を示す。ＮｅｔｗｏｒｋＯｒｄｅｒカラムＴ７Ｃ２は、エンコーダ又はデコーダの、入力からの順番を示す。ＮｅｓｔＯｒｄｅｒカラムＴ７Ｃ３は、入れ子構造を有するＶＡＥの入力からの順番を示す。ＴａｒｇｅｔカラムＴ７Ｃ４は、ＶＡＥの学習に使用するデータの識別子を示す。

【0064】

図１１は、構造式変換部Ｐ０１の処理例のフローチャートを示す。構造式変換部Ｐ０１は、カタログデータ及び実験データに含まれる化学構造式の文字列を、構造式行列に変換する。まず、構造式変換部Ｐ０１は、初期パラメータＤＢ１３から、必要な初期パラメータを読み込む（Ｓ１０１）。構造式変換部Ｐ０１は、さらに、構造式語彙データＤＢ１２を読み込む（Ｓ１０２）。構造式語彙データＤＢ１２は、構造式行列の縦に並ぶ元素の種類とＳＭＩＬＥＳ表現における記号とを対応付ける。構造式行列の縦の次元数と語彙数とは一致する。

【0065】

次に、構造式変換部Ｐ０１は、初期パラメータが示すカタログデータＤＢ１０及び実験データＤＢ１１から元データを読み込む（Ｓ１０３）。構造式変換部Ｐ０１は、読み込んだデータにおける全ての構造式の末尾に、終了トークンを付加する（Ｓ１０４）。構造式変換部Ｐ０１は、構造式語彙データＤＢ１２を参照して、全ての構造式それぞれを、構造式行列に変換する（Ｓ１０５）

【0066】

構造式変換部Ｐ０１は、元データのテーブルそれぞれにカラムを追加し、変換した構造式行列を格納する（Ｓ１０６）。これにより、図６に示す、カタログデータ構造式行列テーブル１４１及び実験データ構造式行列テーブル１４２が生成される。構造式変換部Ｐ０１は、生成したテーブル１４１、１４２を構造式行列データベースＤＢ１４に書出して追加する（Ｓ１０７）。さらに、構造式変換部Ｐ０１は、変換に用いた構造式語彙データを、モデルデータＤＢ１７の一部（構造式語彙辞書）として書き出す（Ｓ１０８）。構造式語彙データは、構造式行列を逆変換して化学構造式のＳＭＩＬＥＳ表現を得るために参照される。

【0067】

図１２は、学習データ生成部Ｐ０２の処理例のフローチャートを示す。学習データ生成部Ｐ０２は、化学構造式生成モデルのＶＡＥそれぞれの学習データを生成する。まず、学習データ生成部Ｐ０２は、初期パラメータＤＢ１３から、必要な初期パラメータを読み込む（Ｓ１５１）。次に、学習データ生成部Ｐ０２は、構造式行列データベースＤＢ１４を読み込む（Ｓ１５２）。学習データ生成部Ｐ０２は、読み込んだデータのレコードそれぞれのＴａｂｌｅＴｙｐｅを判定する（Ｓ１５３）。

【0068】

学習データ生成部Ｐ０２は、ＴａｂｌｅＴｙｐｅに応じて異なる処理を実行する。ＴａｂｌｅＴｙｐｅが「Ｃａｔａｌｏｇ」であるレコード（Ｓ１５３：Ｃａｔａｌｏｇ）に対する処理を説明する。学習データ生成部Ｐ０２は、該当するレコードを抽出し、一つのテーブルに集約する（Ｓ１５４）。

【0069】

次に、ＴａｂｌｅＴｙｐｅが「Ｅｘｐｅｒｉｍｅｎｔ」であるレコード（Ｓ１５３：Ｅｘｐｅｒｉｍｅｎｔ）に対する処理を説明する。学習データ生成部Ｐ０２は、該当するレコードを抽出し（Ｓ１５５）、１つのテーブルに集約する（Ｓ１５６）。レコードが、欠損した物性値を含む場合、学習データ生成部Ｐ０２は、その物性値のフィールドをＮｕｌｌで補完する。欠損した物性値は、他のいずれかのレコードが含み当該レコードに含まれない物性値である。

【0070】

次に、学習データ生成部Ｐ０２は、初期パラメータが示す構造物性関係モデルの段数に従って、テーブルを生成する（Ｓ１５７）。各テーブルは、一つの内側ＶＡＥの学習データを格納する。学習データ生成部Ｐ０２は、生成したテーブルのＮｕｌｌを含むカラムを削除する（Ｓ１５８）。生成されるテーブルの物性値集合は、後述する包含関係を満たす（例えば実施例４を参照）。学習データ生成部Ｐ０２は、生成したテーブルに新しいＴａｂｌｅＩＤを付与し、ＴａｂｌｅＩＤカラムを上書き更新する（Ｓ１５９）。学習データ生成部Ｐ０２は、生成したテーブルを学習用データベースに書き出す（Ｓ１６０）。

【0071】

図１３は、構造発生ベクトル群生成部Ｐ０３の処理例のフローチャートを示す。構造発生ベクトル群生成部Ｐ０３は、化学構造式生成モデルの学習後に、目標の物性値を有すると期待される新たな化学構造式を生成（推定）するための入力データを生成する。

【0072】

まず、構造発生ベクトル群生成部Ｐ０３は、初期パラメータＤＢ１３から、必要な初期パラメータを読み込む（Ｓ２０１）。次に、構造発生ベクトル群生成部Ｐ０３は、学習用データベースＤＢ１５を読み込む（Ｓ２０２）。構造発生ベクトル群生成部Ｐ０３は、学習用データベースから、ＴａｂｌｅＴｙｐｅが「Ｅｘｐｅｒｉｍｅｎｔ」のテーブルを抽出する（Ｓ２０３）。各テーブルは、対応する一つの内側ＶＡＥの学習データを示す。

【0073】

構造発生ベクトル群生成部Ｐ０３は、抽出した各テーブルにおいて、レコードを各物性値でソートして、各テーブルの各物性値の上位Ｓ件を抽出する。Ｓは、初期パラメータが示す自然数である。テーブルが複数種類の物性値を含む場合、各種類の上位Ｓ件が抽出される。構造発生ベクトル群生成部Ｐ０３は、ＩＤカラムと構造式行列カラムのみの上位化合物テーブルとして集約する（Ｓ２０４）。なお、複数の同一ＩＤのレコードが抽出されている場合、それらの一つレコードのみが上位化合物テーブルに格納される。

【0074】

上位化合物テーブルの生成は、上記方法に限定されない。例えば、一部のテーブル、例えば、最も多くの種類の物性値を含むテーブルのみからレコードを抽出してもよく、指定された種類の物性値のみの上位レコードを抽出してもよい。抽出する上位レコードの数は、物性値種類間で異なっていてもよい。

【0075】

次に、構造発生ベクトル群生成部Ｐ０３は、初期パラメータに従って、各物性値目標値リストを生成する（Ｓ２０５）。各目標値リストは、対応する物性値種類の複数の目標値を示す。初期パラメータは、複数の目標値を生成するための情報を示し、例えば、上記複数の目標値を示してもよく、又は、基準目標値、生成目標値数及び基準目標値から他の目標値を生成する式を示してもよい。

【0076】

構造発生ベクトル群生成部Ｐ０３は、物性値種類それぞれの目標値リストの直積により目標値行列を生成する（Ｓ２０６）。さらに、構造発生ベクトル群生成部Ｐ０３は、上位化合物テーブルと目標値行列の直積によって、構造発生ベクトル群を生成する（Ｓ２０７）。構造発生ベクトル群生成部Ｐ０３は、生成した構造発生ベクトル群を、構造発生ベクトルデータベースＤＢ１６に書き出す（Ｓ２０８）。

【0077】

図１４は、ネットワーク構造決定部Ｐ０４の処理例のフローチャートを示す。ネットワーク構造決定部Ｐ０４は、初期パラメータ及び実験データに含まれる考慮対象物性値等ｘから、化学構造式生成モデルの構造を決定する(モデルデータ生成)。

【0078】

まず、ネットワーク構造決定部Ｐ０４は、初期パラメータＤＢ１３から、必要な初期パラメータを読み込む（Ｓ２５１）。読み込まれる初期パラメータは、カタログデータ識別子、実験データ識別子、対象物性のカラム名、次元数リスト等を含む。

【0079】

次に、ネットワーク構造決定部Ｐ０４は、構造モデルを構築して初期パラメータで初期化する（Ｓ２５２）。ネットワーク構造決定部Ｐ０４は、学習用データベースＤＢ１５の構造物性関係モデル用テーブルを読み込む（Ｓ２５３）。ネットワーク構造決定部Ｐ０４は、構造物性関係モデルとして、構造物性関係モデル用テーブルの数だけ、エンコーダ・デコーダペア（内側ＶＡＥ）を構築し、初期パラメータで初期化する（Ｓ２５４）。

【0080】

ネットワーク構造決定部Ｐ０４は、構造モデルのエンコーダ、構造物性関係モデルのエンコーダ群、構造物性関係モデルのデコーダ群、構造モデルのデコーダを順にならべ、各ネットワークに対して入力側から順に連番（ＮｅｔｗｏｒｋＯｒｄｅｒ）を付与する（Ｓ２５５）。

【0081】

ネットワーク構造決定部Ｐ０４は、構造物性関係モデル用テーブルそれぞれの物性値カラム名（物性値種類）を集合化し、包含判定を行う（Ｓ２５６）。任意の二つの構造物性関係モデル用テーブルの間において、物性値カラム名の包含関係が成立する。具体的には、物性値カラム数が多いテーブルは、物性値カラム数が少ないテーブルの全ての物性値カラム名を含む。このような包含関係が成立するように、構造物性関係モデル用テーブルは学習データ生成部Ｐ０２によって用意される。

【0082】

ネットワーク構造決定部Ｐ０４は、含まれる物性値カラム数が少ないテーブル順に、ＴａｂｌｅＩＤを降順にソートする（Ｓ２５８）。ネットワーク構造決定部Ｐ０４は、より上位のＴａｂｌｅＩＤが、構造物性値関係モデルにおけるより外側のエンコーダ・デコーダペアと対応するように、各エンコーダ・デコーダペアと学習用テーブルを対応付ける。ネットワーク構造決定部Ｐ０４は、初期パラメータに応じて、各エンコーダ・デコーダペアの入出力の次元数を決定する（Ｓ２６０）。

【0083】

次に、ネットワーク構造決定部Ｐ０４は、モデル構造を表示する（Ｓ２６１）。具体的には、ネットワーク構造決定部Ｐ０４は、モデル構造の情報を表示部Ｐ１１に送信する。表示部Ｐ１１は、受信した情報に従って、化学構造式生成モデルの構造画像を生成、表示する。

【0084】

ネットワーク構造決定部Ｐ０４は、表示部Ｐ１１を介して、化学構造式生成モデルの構造についてのユーザ入力を受け付け、ネットワーク構造の修正の有無を判定する（Ｓ２６２）。

【0085】

ネットワーク構造の修正のユーザ指示を受信した場合（Ｓ２６２：修正あり）、ネットワーク構造決定部Ｐ０４は、ユーザ入力に従いネットワーク構造修正し（Ｓ２６３）、修正したネットワーク構造を、表示部Ｐ１１を利用して表示する。

【0086】

ネットワーク構造の修正が不要である場合（Ｓ２６２：修正なし）、ネットワーク構造決定部Ｐ０４は、エンコーダの入力とデコーダの出力が一致するエンコーダとデコーダをペアにし、各ペアに対して外側から順に連番（ＮｅｓｔＯｒｄｅｒ）を付与する（Ｓ２６４）。各ペアがＶＡＥを構成する。

【0087】

ネットワーク構造決定部Ｐ０４は、全エンコーダ及びデコーダの全パラメータを、ＤＢ１７の一部としてデータ保存装置Ｍ０２に出力する（Ｓ２６５）。さらに、ネットワーク構造決定部Ｐ０４は、モデルテーブル１７１をモデルデータＤＢ１７の一部としてデータ保存装置Ｍ０２に出力する（Ｓ２６６）。

【0088】

図１５は、構造モデル学習部Ｐ０５の処理例のフローチャートを示す。構造モデル学習部Ｐ０５は、カタログデータから生成した構造モデル用テーブルを使用して、構造モデル（外側ＶＡＥ）の学習（訓練とも呼ぶ）を実行する。カタログデータＤＢ１０は、実験データＤＢ１１より多くのレコード（データ）を格納している。化学構造式のみであれば学習データとしてより多くのデータを用意することができるので、化学構造式生成モデル全体として効果的な学習が可能となる。

【0089】

まず、構造モデル学習部Ｐ０５は、モデルデータＤＢ１７を読み込む（Ｓ３０１）。次に、構造モデル学習部Ｐ０５は、モデルテーブルを参照し、ＮｅｓｔＯｒｄｅｒが１のモデルを特定する（Ｓ３０２）。ＮｅｓｔＯｒｄｅｒが１のモデルは、最も外側の構造モデルである。さらに、構造モデル学習部Ｐ０５は、特定したモデルを構築する（Ｓ３０３）。

【0090】

構造モデル学習部Ｐ０５は、学習用データベースＤＢ１５を参照し、構造モデル用テーブルを読み込む（Ｓ３０４）。構造モデル学習部Ｐ０５は、構造式行列を構造モデルに順次入力して、ニューラルネットワークの学習を行う。構造モデル学習部Ｐ０５は、ネットワークのパラメータを更新、最適化する（Ｓ３０５）。構造モデル学習部Ｐ０５は、学習後のパラメータを書き出し、モデルデータＤＢ１７を更新する（Ｓ３０６）。

【0091】

図１６は、構造モデル追加学習部Ｐ０６の処理例のフローチャートを示す。構造モデル追加学習により、構造モデルの特徴抽出精度を高めることができる。構造モデル追加学習部Ｐ０６は、構造物性関係モデル用テーブルの構造式行列を使用して、構造モデルの追加学習を行う。まず、構造モデル追加学習部Ｐ０６は、モデルデータＤＢ１７を読み込む（Ｓ３５１）。

【0092】

次に、構造モデル追加学習部Ｐ０６は、モデルテーブルを参照し、ＮｅｓｔＯｒｄｅｒが１の学習済み構造モデルを再構築する（Ｓ３５２）。構造モデル追加学習部Ｐ０６は、学習用データベースＤＢ１５を参照し、全ての構造物性関係モデル用テーブルを読み込み（Ｓ３５３）。

【0093】

構造モデル追加学習部Ｐ０６は、構造物性関係モデル用テーブルの構造式行列を構造モデルに順次入力して、学習済み構造モデルの追加学習を行う。構造モデル追加学習部Ｐ０６は、ネットワークのパラメータを更新、最適化する（Ｓ３５４）。構造モデル追加学習部Ｐ０６は、追加学習後の構造モデルパラメータを書き出し、モデルデータＤＢ１７を更新する（Ｓ３５５）。

【0094】

図１７は、構造物性関係モデル学習部Ｐ０７の処理例のフローチャートを示す。構造物性関係モデル学習部Ｐ０７は、構造物性関係モデル内のＶＡＥ（以下モデルとも呼ぶ）それぞれの学習を実行する。内側ＶＡＥの学習のため、そのＶＡＥより外側の全てのエンコーダが再構築及び接続される。

【0095】

まず、構造物性関係モデル学習部Ｐ０７は、モデルデータＤＢ１７を読み込む（Ｓ４０１）。構造物性関係モデル学習部Ｐ０７は、Ｎを初期化して値を２に設定する（Ｓ４０２）。構造物性関係モデル学習部Ｐ０７は、モデルテーブルのＮｅｓｔＯｒｄｅｒの値がＮに等しい行のＮｅｔｗｏｒｋＩＤ列を参照し、学習対象モデルのＶＡＥを構築する（Ｓ４０３）。

【0096】

構造物性関係モデル学習部Ｐ０７は、モデルテーブルのＮｅｓｔＯｒｄｅｒの値がＮに等しい行のＴａｒｇｅｔ列を参照し、学習用データベースＤＢ１５から、対応する学習用のテーブル（構造物性関係モデル用テーブル）を読み込む（Ｓ４０４）。

【0097】

構造物性関係モデル学習部Ｐ０７は、追加学習済み構造モデルの（デコーダを構築することなく）エンコーダのみを再構築する（Ｓ４０５）。さらに、構造物性関係モデル学習部Ｐ０７は、モデルテーブルのＮｅｓｔＯｒｄｅｒの値がＮより小さいＮｅｔｗｏｒｋＩＤ列を参照し、（デコーダを構築することなく）学習済みエンコーダのみを再構築する（Ｓ４０６）。構造物性関係モデル学習部Ｐ０７は、モデルテーブルのＮｅｔｗｏｒｋＯｒｄｅｒ列を参照し、構築した学習済みエンコーダを順番に接続する（Ｓ４０７）。

【0098】

構造物性関係モデル学習部Ｐ０７は、接続したエンコーダそれぞれに、構造式行列と対応する物性値を逐次入力し、学習対象ベクトルに変換する（Ｓ４０８）。構造モデルには、構造式行列のみが入力される。構造物性関係モデル学習部Ｐ０７は、学習対象ベクトルを学習対象モデルであるＶＡＥに入力して、当該モデルの学習を行い、ネットワークのパラメータを最適化する（Ｓ４０９）。Ｎ＝２の場合、学習対象ベクトルは、構造モデルの構造行列の変換結果と物性値ベクトルを結合したベクトルである。構造物性関係モデル学習部Ｐ０７は、学習後の当該モデルのパラメータを書き出し、モデルデータＤＢ１７を更新する（Ｓ４１０）。

【0099】

構造物性関係モデル学習部Ｐ０７は、構造物性関係モデルの全てのモデル（ＶＡＥ）の学習が終了したか判定する（Ｓ４１１）。未学習のモデルが残っている場合（Ｓ４１１：ＮＯ）、構造物性関係モデル学習部Ｐ０７は、ＮｅｓｔＯｒｄｅｒの値Ｎをインクリメントし（Ｓ４１２）、ステップＳ４０３に戻る。構造物性関係モデルの全てのモデルの学習が終了している場合（Ｓ４１１：ＹＥＳ）、本フローは終了する。

【0100】

図１８は、新構造式生成部Ｐ０８の処理例のフローチャートを示す。新構造式生成部Ｐ０８は、学習済みの化学構造式生成モデルを使用して、所望の物性値を有することが期待される新たな化学構造式の候補を生成（推定）する。

【0101】

まず、新構造式生成部Ｐ０８は、モデルデータＤＢ１７を読み込む（Ｓ４５１）。新構造式生成部Ｐ０８は、学習済みの構造モデル及び構造物性値関係モデルを再構築し、化学構造式生成モデル（生成器）を構成する（Ｓ４５２）。新構造式生成部Ｐ０８は、構造発生ベクトルデータベースＤＢ１６から、構造発生ベクトル群を読み込む（Ｓ４５３）。

【0102】

新構造式生成部Ｐ０８は、構造発生ベクトル群を化学構造式生成モデルに入力し、構造式行列を生成する（Ｓ４５４）。新構造式生成部Ｐ０８は、構造式行列をまとめて候補構造式として、候補構造式データベースＤＢ１８に書き出す（Ｓ４５５）。

【0103】

図１９は、構造式逆変換部Ｐ０９の処理例のフローチャートを示す。構造式逆変換部Ｐ０９は、化学構造式生成モデルが出力した構造式行列を、構造式のＳＭＩＬＥＳ表現（文字列）に変換する。

【0104】

まず、構造式逆変換部Ｐ０９は、モデルデータＤＢ１７から構造式語彙辞書を読み込む（Ｓ５０１）。構造式逆変換部Ｐ０９は、候補構造式データベースＤＢ１８を読み込む（Ｓ５０２）。構造式逆変換部Ｐ０９は、構造式行列を構造式（ＳＭＩＬＥＳ表現）に変換する。（Ｓ５０３）。構造式逆変換部Ｐ０９は、末尾の終了トークンを削除する。（Ｓ５０４）。構造式逆変換部Ｐ０９は、構造式を候補構造式データベース１８ＤＢに上書きする。（Ｓ５０５）。

【0105】

図２０は、構造式整形部Ｐ１０の処理例のフローチャートを示す。ＶＡＥの性質から、化学構造式生成モデルが生成した化学構造式は、ＳＭＩＬＥＳの文法に適合しない化学構造式を含み得る。構造式整形部Ｐ１０は、ＳＭＩＬＥＳの文法に適合しない化学構造式を補正し、さらに、補正できない化学構造式を除去する。

【0106】

まず、構造式整形部Ｐ１０は、候補構造式データベース１８ＤＢを読み込む（Ｓ５５１）。構造式整形部Ｐ１０は、各化学構造式について文法整合性判定する。（Ｓ５５２）。構造式整形部Ｐ１０は、化学構造式が文法整合性を満たさない場合、その化学構造式を補正する。（Ｓ５５３）。構造式整形部Ｐ１０は、補正した化学構造式の文法整合性再判定する。（Ｓ５５４）。構造式整形部Ｐ１０は、候補構造式を棄却する。（Ｓ５５５）。
構造式整形部Ｐ１０は、補正した化学構造式を、候補構造式データベース１８ＤＢに上書きする（Ｓ５５６）。

【0107】

以上のように、入れ子構造を有する化学構造生成モデルは、学習データに含まれる物性値よりも良い物性値を持つ化合物の候補を提示することができ、少ない実験データを使用して生成することができる。また、実験データを使用した構造モデルの追加学習により、構造モデルの特徴抽出精度をさらに高めることができる。

【実施例2】

【0108】

以下において、実施例２を説明する。主に、実施例１との相違点を説明する。実施例２に係る構造物性値関係モデルは、複数段のＶＡＥからなる入れ子構造を有している。また、構造物性値関係モデルの各エンコーダ（各ＶＡＥ）への入力は、前段エンコーダからの中間ベクトルと単一物性値とを結合したベクトルである。構造物性値関係モデルが複数段のＶＡＥで構成されることで、例えば、分離することが好ましい物性値を異なるＶＡＥの入力に含めることができる。

【0109】

実施例２において、学習のために使用される実験データの全ての化学構造式（レコード）が、共通の物性値種類（物性値名）の実験データを有しているとする（実験データの欠損なし）。以下において、各化学構造式に対して、ＭＷｔとｌｏｇＰの二つの種類の物性値の実験データが関連付けられている例を説明する。

【0110】

図２１は、実施例２に係る、表示部Ｐ１１が表示装置Ｍ０５においてユーザのために表示する、ネットワーク構造確認画面２０２の例を示す。表示部Ｐ１１は、ネットワーク構造決定部Ｐ０４から受信した化学構造式生成モデルの構成情報から、化学構造式生成モデルの構成図を生成し、モニタにおいて表示する。

【0111】

図２１に示す構成例において、外側ＶＡＥである構造モデルは、外側エンコーダ＃ｅｎｃ＿０１と外側デコーダ＃ｄｅｃ＿０１で構成されている。構造物性関係モデルは、二つの内側ＶＡＥで構成されている。一つの内側ＶＡＥは、内側エンコーダ＃ｅｎｃ＿０２と内側デコーダ＃ｄｅｃ＿０２で構成されている。もう一つの内側ＶＡＥは、内側エンコーダ＃ｅｎｃ＿０３と内側デコーダ＃ｄｅｃ＿０３で構成されている。

【0112】

内側エンコーダ＃ｅｎｃ＿０３と内側デコーダ＃ｄｅｃ＿０３は、内側エンコーダ＃ｅｎｃ＿０２と内側デコーダ＃ｄｅｃ＿０２の間に挟まれている。内側エンコーダ＃ｅｎｃ＿０３及び内側デコーダ＃ｄｅｃ＿０３並びに内側エンコーダ＃ｅｎｃ＿０２及び内側デコーダ＃ｄｅｃ＿０２は、外側エンコーダ＃ｅｎｃ＿０１と外側デコーダ＃ｄｅｃ＿０１とに挟まれている。

【0113】

外側エンコーダ＃ｅｎｃ＿０１は、ＳＭＩＬＥＳ表現から生成された構造式行列を入力として受け付け、中間ベクトル（潜在表現）を出力する。内側エンコーダ＃ｅｎｃ＿０２は、外側エンコーダ＃ｅｎｃ＿０１の出力に一つの物性値（ＭＷｔ）を示す１次元ベクトルを結合したベクトルを入力として受け付け、中間ベクトル（潜在表現）を出力する。内側エンコーダ＃ｅｎｃ＿０３は、内側エンコーダ＃ｅｎｃ＿０２の出力に一つの物性値（ｌｏｇＰ）を示す１次元ベクトルを結合したベクトルを入力として受け付け、中間ベクトル（潜在表現）を出力する。

【0114】

内側デコーダ＃ｄｅｃ＿０３は、内側エンコーダ＃ｅｎｃ＿０３の出力を入力として受け付け、ベクトルを出力する。ベクトルの一部は、内側エンコーダ＃ｅｎｃ＿０３への入力に対応し、他の一部は物性値（ｌｏｇＰ）に対応する。内側デコーダ＃ｄｅｃ＿０３の出力ベクトルから物性値ベクトルを除いたベクトルが、内側デコーダ＃ｄｅｃ＿０２に入力される。内側デコーダ＃ｄｅｃ＿０２からの出力されたベクトルの一部は、内側エンコーダ＃ｅｎｃ＿０２への入力、つまり、化学構造式（構造式行列）の特徴ベクトルであり、他の一部は物性値（ＭＷｔ）の物性値ベクトルである。

【0115】

内側デコーダ＃ｄｅｃ＿０２の出力ベクトルから物性値ベクトルを除いたベクトルが、外側デコーダ＃ｄｅｃ＿０１に入力される。外側デコーダ＃ｄｅｃ＿０１は、化学構造行列を示すベクトルを出力する。化学構造行列を逆変換することで、化学構造式のＳＭＩＬＥＳ表現が得られる。

【0116】

図２２は、実施例２に係る、学習用データベースＤＢ１５に含まれるデータの例を示す。図２２は、構造物性関係モデルの学習用データを示す。構造物性関係モデルの学習用データは、構造物性関係モデル内の外側の第１ＶＡＥ（＃ｅｎｃ＿０２及び＃ｄｅｃ＿０２）用学習テーブル１５３と、構造物性関係モデル内の内側の第２ＶＡＥ（＃ｅｎｃ＿０３及び＃ｄｅｃ＿０３）用学習テーブル１５４と、を格納している。

【0117】

第１ＶＡＥ用学習テーブル１５３は、図７に示す構造物性関係モデル用テーブル１５２からｌｏｇＰカラムＴ６Ｃ６を除いた構造を有している。ＴａｂｌｅＩＤカラムＴ８Ｃ１は、第１ＶＡＥ用学習テーブル１５３の識別子を示す。第１ＶＡＥ用学習テーブル１５３のカラムＴ８Ｃ２～Ｔ８Ｃ５、Ｔ８Ｃ７は、構造物性関係モデル用テーブル１５２のカラムＴ６Ｃ２～Ｔ６Ｃ５、Ｔ６Ｃ７と、同じ情報を格納している。第１ＶＡＥ（＃ｅｎｃ＿０２及び＃ｄｅｃ＿０２）の学習が必要とする物性値は、第１ＶＡＥの入出力に含まれるＭＷｔのみである。

【0118】

第２ＶＡＥ（＃ｅｎｃ＿０３及び＃ｄｅｃ＿０３）用学習テーブル１５４は、図７に示す構造物性関係モデル用テーブル１５２と同様の構造を有している。ＴａｂｌｅＩＤカラムＴ９Ｃ１は、第２ＶＡＥ用学習テーブル１５４の識別子を示す。第２ＶＡＥ用学習テーブル１５４のカラムＴ９Ｃ２～Ｔ９Ｃ７は、構造物性関係モデル用テーブル１５２のカラムＴ６Ｃ２～Ｔ６Ｃ７と、同じ情報を格納している。

【0119】

第２ＶＡＥの学習のためには、より外側の二つのエンコーダ＃ｅｎｃ＿０１、＃ｅｎｃ＿０２を再構築して接続することが必要である。そのため学習データは、第２ＶＡＥの入出力物性値であるｌｏｇＰに加え、エンコーダ＃ｅｎｃ＿０２の入力物性値であるＭＷｔを含む。

【0120】

一例において、第１ＶＡＥのための学習データは、第２ＶＡＥの学習データより多い。第２ＶＡＥより外側に配置された第１ＶＡＥの次元数がより多いため、構造物性関係モデルの学習を効果的に行うことができる。この点は、以下の実施例３及び４において同様である。

【0121】

図２３は、実施例２に係る、モデルデータＤＢ１７に含まれるモデルテーブル１７２の構成例を示す。図２３のモデルテーブル１７２は、図２１に示す化学構造式生成モデルの構成図と対応している。図２３の例において、ＮｅｔｗｏｒｋＩＤカラムＴ１０Ｃ１は、化学構造式生成モデルの三つのエンコーダ及び三つデコーダそれぞれの識別子を示す。ＮｅｔｗｏｒｋＯｒｄｅｒカラムＴ１０Ｃ２は、三つエンコーダ及び三つのデコーダそれぞれの、入力からの順番を示す。ＮｅｓｔＯｒｄｅｒカラムＴ１０Ｃ３は、エンコーダ及びデコーダが含まれる三つのＶＡＥそれぞれの入力から（外側から）の順番を示す。ＴａｒｇｅｔカラムＴ１０Ｃ４は、ＶＡＥの学習に使用するデータの識別子及び対象物性値を示す。

【実施例3】

【0122】

以下において、実施例３を説明する。主に、実施例１及び２との相違点を説明する。実施例３に係る構造物性値関係モデルは、複数段のＶＡＥからなる入れ子構造を有している。また、構造物性値関係モデルの各エンコーダ（各ＶＡＥ）への入力は、前段エンコーダからの中間ベクトルと単一又は複数物性値とを結合したベクトルである。構造物性値関係モデルが複数段のＶＡＥで構成されることで、例えば、結合することが好ましい物性値を同一のＶＡＥの入力に含め、分離することが好ましい物性値を異なるＶＡＥの入力に含めることができる。

【0123】

実施例３において、学習のために使用される実験データの全ての化学構造式（レコード）が、共通の物性値種類（物性値名）の実験データを有しているとする（実験データの欠損なし）。以下において、各化学構造式に対して、Ｐｒｏｐ１、Ｐｒｏｐ２、Ｐｒｏｐ３の、三つの種類の物性値の実験データが関連付けられている例を説明する。

【0124】

図２４は、実施例３に係る、表示部Ｐ１１が表示装置Ｍ０５においてユーザのために表示する、ネットワーク構造確認画面２０３の例を示す。表示部Ｐ１１は、ネットワーク構造決定部Ｐ０４から受信した化学構造式生成モデルの構成情報から、化学構造式生成モデルの構成図を生成し、モニタにおいて表示する。

【0125】

図２４に示すネットワーク構造は、実施例２の図２１に示すネットワーク構造と比較して、最も内側のＶＡＥ（＃ｅｎｃ＿０３及び＃ｄｅｃ＿０３）の物性値数が２である点が異なる。構造物性関係モデルにおけるより外側のＶＡＥ（＃ｅｎｃ＿０２及び＃ｄｅｃ＿０２）の入出力物性値は、Ｐｒｏｐ１であり、最も内側のＶＡＥ（＃ｅｎｃ＿０３及び＃ｄｅｃ＿０３）の入出力物性値は、Ｐｒｏｐ１及びＰｒｏｐ２である。

【0126】

図２５は、実施例３に係る、学習用データベースＤＢ１５に含まれるデータの例を示す。図２５は、構造物性関係モデルの学習用データを示す。構造物性関係モデルの学習用データは、構造物性関係モデル内の第１ＶＡＥ（＃ｅｎｃ＿０２及び＃ｄｅｃ＿０２）用学習テーブル１５５と、構造物性関係モデル内の第２ＶＡＥ（＃ｅｎｃ＿０３及び＃ｄｅｃ＿０３）用学習テーブル１５６と、を格納している。

【0127】

第１ＶＡＥ用学習テーブル１５５は、図２２に示す第１ＶＡＥ用学習テーブル１５３と同様の構造を有している。カラムＴ１１Ｃ１～Ｔ１１Ｃ４、Ｔ１１Ｃ７のカラム名は、第１ＶＡＥ用学習テーブル１５３と同様である。Ｐｒｏｐ１カラムＴ１１Ｃ５は、各化学構造式のＰｒｏｐ１の測定値を示す。第１ＶＡＥ（＃ｅｎｃ＿０２及び＃ｄｅｃ＿０２）の学習が必要とする物性値は、第１ＶＡＥの入出力に含まれるＰｒｏｐ１のみである。

【0128】

第２ＶＡＥ（＃ｅｎｃ＿０３及び＃ｄｅｃ＿０３）用学習テーブル１５６は、図２５に示す第１ＶＡＥ用学習テーブル１５５に対して二つの物性値のカラムを追加した構造を有している。カラムＴ１２Ｃ１～Ｔ１２Ｃ５、Ｔ１２Ｃ８の情報は、第１ＶＡＥ用学習テーブル１５５のカラムＴ１１Ｃ１～Ｔ１１Ｃ５、Ｔ１１Ｃ７と同様である。追加されているＰｒｏｐ２カラムＴ１２Ｃ６、Ｐｒｏｐ３カラムＴ１２Ｃ７は、それぞれ、各化学構造式のＰｒｏｐ２、Ｐｒｏｐ３の実験測定値を示す。

【0129】

第２ＶＡＥの学習のためには、より外側の二つのエンコーダ＃ｅｎｃ＿０１、＃ｅｎｃ＿０２を再構築して接続することが必要である。そのため学習データは、第２ＶＡＥの入出力物性値であるＰｒｏｐ２、Ｐｒｏｐ３に加え、エンコーダ＃ｅｎｃ＿０２の入力物性値であるＰｒｏｐ１を含む。

【0130】

図２６は、実施例３に係る、モデルデータＤＢ１７に含まれるモデルテーブル１７３の構成例を示す。図２６のモデルテーブル１７３は、図２４に示す化学構造式生成モデルの構成図と対応している。カラムＴ１３Ｃ１～Ｔ１３Ｃ３の情報は、実施例２に係るモデルテーブル１７２のカラムＴ１０Ｃ１～Ｔ１０Ｃ３の情報と同様である。ＴａｒｇｅｔカラムＴ１３Ｃ５は、本例においてＶＡＥの学習に使用するデータの識別子及び対象物性値を示す。

【実施例4】

【0131】

以下において、実施例４を説明する。主に、上記他の実施例との相違点を説明する。本実施例の実験データは、実験により得られる物性値の欠損を有する化学構造式を含む。関連付けられている物性値の組み合わせに応じて、入れ子構造内のＶＡＥそれぞれに適用する学習データを実験データから構成することで、より適切な学習が可能となる。

【0132】

図２７は、実験データにおけるレコードが含む物性値（の種類）が満たすべき条件を模式的に示す。図２７に示すように、レコードの物性値種類の組み合わせは、包含関係を満たすことが要求される。具体的には、より多くの物性値（の種類）を含むレコードは、より少ない物性値（の種類）を含むレコードの全ての物性値（の種類）を含む。例えば、３種類の実験データが存在するとする。

【0133】

第１の実験データは１種類の物性値の実験結果を含み、第２の実験データは２種類の物性値の実験結果を含み、第３の実験データは３種類の物性値の実験結果を含むとする。第３の実験データの３種類の物性値種類は、第１の実験データの物性値種類と、第２の実験データの二つの物性値種類で構成される。第２の実験データの物性値種類は、第１の実験データの物性値種類と、他の物性値種類で構成される。

【0134】

第１の実験データの物性値集合（物性値カラム集合又は物性値種類集合）は、第２及び第３の実験データの物性値集合に包含され、第２の実験データの物性値集合は、第３の実験データの物性値集合に包含されている。第１の実験データにおいて２種類の物性値のデータが欠けており、第２の実験データにおいて１種類の物性値のデータが欠けている。構造物性関係モデル用学習データは、上述のような包含関係を満たすように実験データから前処理される。

【0135】

図２８は、２種類の実験データで構成される構造物性関係モデル用学習データの例を模式的に示す。第１の実験データ３１１は、物性値１（Ｐｒｏｐ１）の測定値のみ有している。第２の実験データ３１２は、物性値１（Ｐｒｏｐ１）及び物性値２（Ｐｒｏｐ２）の測定値を有している。つまり、第１の実験データの物性値集合は、第２の実験データの物性値集合に包含されている。

【0136】

図２９は、実施例４に係る、表示部Ｐ１１が表示装置Ｍ０５においてユーザのために表示する、ネットワーク構造確認画面２０４の例を示す。図３０は、実施例３に係る、モデルデータＤＢ１７に含まれるモデルテーブル１７４の構成例を示す。図３０のモデルテーブル１７４は、図２９に示す化学構造式生成モデルの構成図と対応している。

【0137】

図２９に示すネットワーク構造は、実施例２の図２１に示すネットワーク構造と同様である。物性値ＭＷｔが物性値Ｐｒｏｐ１に置き換えられ、物性値ｌｏｇＰが物性値Ｐｒｏｐ２に置き換えられている。図３０のモデルテーブル１７４のカラムＴ１４Ｃ１～Ｔ１４Ｃ３の情報は、実施例２の図２３に示すモデルテーブル１７２のカラムＴ１０Ｃ１～Ｔ１０Ｃ３の情報と同様である。ＴａｒｇｅｔカラムＴ１４Ｃ４は、本実施例のテーブル名及び物性値名（Ｐｒｏｐ１、Ｐｒｏｐ２）を示す。

【0138】

図３１は、学習データ生成部Ｐ０２が、実験データから構造物性関係モデル用学習データを生成する例を示している。初期テーブル１５０は、実験データから生成され、物性値集合が包含関係を満たすように前処理された構造物性関係モデル用学習データを格納している。学習データ生成部Ｐ０２は、初期テーブル１５０から、ＶＡＥそれぞれの学習データを生成する。初期テーブル１５０のカラムＴ１５Ｃ１～Ｔ１５Ｃ４、Ｔ１５Ｃ７は、実施例２の図２２に示す学習テーブル１５４の同名のカラムと同様の種類の情報を示す。カラムＴ１５Ｃ５及びＴ１５Ｃ６は、それぞれ、Ｐｒｏｐ１及びＰｒｏｐ２の測定値を示す。

【0139】

初期テーブル１５０は、物性値集合が異なるレコードを含む。ＴａｂｌｅＩＤが「Ｔｂｌ＿Ｅｘｐ＿０１１」の各レコードは、Ｐｒｏｐ１及びＰｒｏｐ２の測定値を含む。ＴａｂｌｅＩＤが「Ｔｂｌ＿Ｅｘｐ＿０１２」の各レコードは、Ｐｒｏｐ１の測定値にみを含む。ＴａｂｌｅＩＤが「Ｔｂｌ＿Ｅｘｐ＿０１３」のレコードは、Ｐｒｏｐ１及びＰｒｏｐ１の測定値を含むレコードと、Ｐｒｏｐ１の測定値にみを含むレコードを含む。

【0140】

学習データ生成部Ｐ０２は、実験データから、Ｐｒｏｐ１及びＰｒｏｐ２を含むレコードと、Ｐｒｏｐ１のみを含むレコードを抽出し、Ｐｒｏｐ１のみを含むレコードに対して、Ｐｒｏｐ２のフィールドにＮｕｌｌを格納する。学習データ生成部Ｐ０２は、これらレコードを初期テーブル１５０に格納して、Ｎｕｌｌの数に従って（例えば昇順で）レコードをソートする。

【0141】

次に、学習データ生成部Ｐ０２は、初期テーブル１５０から、構造物性関係モデル内第１ＶＡＥ用学習テーブル１５７及び構造物性関係モデル内第２ＶＡＥ用学習テーブル１５８を生成する。

【0142】

構造物性関係モデル内第１ＶＡＥ用学習テーブル１５７は、構造物性関係モデルの外側のＶＡＥ（＃ｅｎｃ＿０２及び＃ｄｅｃ＿０２）の学習データである。第１ＶＡＥ用学習テーブル１５７は、初期テーブル１５０においてＰｒｏｐ１の測定値を含むレコード、つまり全てのレコードを含む。カラムＴ１６Ｃ１～Ｔ１６Ｃ５、Ｔ１６Ｃ７は、初期テーブルの同名のカラムと同種の情報を示す。第１ＶＡＥ用学習テーブル１５７において、初期テーブル１５０のＰｒｏｐ２カラムが削除されている。第１ＶＡＥ（＃ｅｎｃ＿０２及び＃ｄｅｃ＿０２）の学習が必要とする物性値は、第１ＶＡＥの入出力に含まれるＰｒｏｐ１のみである。

【0143】

構造物性関係モデル内第２ＶＡＥ用学習テーブル１５８は、構造物性関係モデルの内側側のＶＡＥ（＃ｅｎｃ＿０３及び＃ｄｅｃ＿０３）の学習データである。第２ＶＡＥ用学習テーブル１５８は、初期テーブル１５０においてＰｒｏｐ１及びＰｒｏｐ２の測定値を含むレコードで構成されている。カラムＴ１７Ｃ１～Ｔ１７Ｃ７は、初期テーブルの同名のカラムと同種の情報を示す。

【0144】

第２ＶＡＥの学習のためには、より外側の二つのエンコーダ＃ｅｎｃ＿０１、＃ｅｎｃ＿０２を再構築して接続することが必要である。そのため学習データは、第２ＶＡＥの入出力物性値であるＰｒｏｐ２に加え、エンコーダ＃ｅｎｃ＿０２の入力物性値であるＰｒｏｐ１を含む。

【0145】

実施例２－４で説明したように、構造物性関係モデルの学習データは、複数のＶＡＥそれぞれの学習に使用される複数の学習テーブル（グループ）で構成される。各学習テーブルは、化合物構造表現のそれぞれを１以上の所定の物性値種類の測定値と関連付ける。任意の二つ学習テーブルの間において、物性値種類数が多い学習テーブルは、物性値種類数が少ない学習テーブルの全ての物性値種類及び全ての化合物構造表現を含む。より物性値種類数が多い学習テーブルは、構造物性関係モデルにおけるより内側のＶＡＥの学習に使用される。

【0146】

本実施例４で説明したように、物性値の欠損を有するレコードを含む実験データから、上記物性値集合の包含関係を有するレコードで、学習データを構成する。これにより、構造物性関係モデル内のＶＡＥのための学習データを、当該ＶＡＥの入出力物性値に加え、より外側のエンコーダに入力される全ての物性値を含むレコードで構成できる。この結果、各ＶＡＥの適切な学習が可能となる。

【0147】

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

【0148】

また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード等の記録媒体に置くことができる。

【0149】

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。

【符号の説明】

【0150】

１０化学構造式生成モデル、１００構造モデル、１０１エンコーダ、１０２デコーダ、１０４構造物性関係モデル、１０５エンコーダ、１０６デコーダ、Ｍ０１パラメータ設定装置、Ｍ０２データ保存装置、Ｍ０３モデル学習装置、Ｍ０４構造式生成装置、Ｍ０５表示装置、Ｐ０１構造式変換部、Ｐ０２学習データ生成部、Ｐ０３構造発生ベクトル群生成部、Ｐ０４ネットワーク構造決定部、Ｐ０５構造モデル学習部、Ｐ０６構造モデル追加学習部、Ｐ０７構造物性関係モデル学習部、Ｐ０８新構造式生成部、Ｐ０９構造式逆変換部、Ｐ１０構造式整形部、ＤＢ１０カタログデータ、ＤＢ１１実験データ、ＤＢ１２構造式語彙データ、ＤＢ１３初期パラメータ、ＤＢ１４構造式行列データベース、ＤＢ１５学習用データベース、ＤＢ１６構造発生ベクトルデータベース、ＤＢ１７モデルデータ、ＤＢ１８候補構造式データベース、Ｕ１１１プロセッサ、Ｕ１１２ＤＲＡＭ、Ｕ１１３通信装置、Ｕ１１４補助記憶装置、Ｕ１１５入力装置

【図1】