IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社カネカの特許一覧 ▶ 大学共同利用機関法人情報・システム研究機構の特許一覧

<>
  • 特開-予測システム 図1
  • 特開-予測システム 図2
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024171479
(43)【公開日】2024-12-12
(54)【発明の名称】予測システム
(51)【国際特許分類】
   G16C 20/70 20190101AFI20241205BHJP
【FI】
G16C20/70
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023088508
(22)【出願日】2023-05-30
(71)【出願人】
【識別番号】000000941
【氏名又は名称】株式会社カネカ
(71)【出願人】
【識別番号】504202472
【氏名又は名称】大学共同利用機関法人情報・システム研究機構
(74)【代理人】
【識別番号】100100480
【弁理士】
【氏名又は名称】藤田 隆
(74)【代理人】
【識別番号】100201455
【弁理士】
【氏名又は名称】横尾 宏治
(72)【発明者】
【氏名】北野 祥平
(72)【発明者】
【氏名】谷川 智子
(72)【発明者】
【氏名】吉田 亮
(57)【要約】
【課題】本発明は、従来に比べて学習モデルの精度を向上できる予測システムを提供する。
【解決手段】少なくとも2種類の単量体が重合した構造単位を繰り返し単位とし、構造単位の数が10以上となる高分子の予測システムであり、構造単位に対応するパラメータを含む第1データと、高分子の物性を含む第2データとのデータセットを教師データとして機械学習し、機械学習モデルを作成する機械学習部と、機械学習モデルを用いて、複数の単量体の中から、物性が所定の範囲に収まる高分子を構成する単量体の組み合わせを予測する構造予測部を有する構成とする。
【選択図】図1
【特許請求の範囲】
【請求項1】
少なくとも2種類の単量体が重合した構造単位を繰り返し単位とし、前記構造単位の数が10以上となる高分子の予測システムであって、
前記構造単位に対応するパラメータを含む第1データと、前記高分子の物性を含む第2データとのデータセットを教師データとして機械学習し、機械学習モデルを作成する機械学習部と、
前記機械学習モデルを用いて、複数の単量体の中から、物性が所定の範囲に収まる高分子を構成する単量体の組み合わせを予測する構造予測部を有する、予測システム。
【請求項2】
少なくとも2種類の単量体が重合した構造単位を繰り返し単位とし、前記構造単位の数が10以上となる高分子の物性を予測する予測システムであって、
前記構造単位に対応するパラメータを含む第1データと、前記高分子の物性を含む第2データとのデータセットを教師データとして機械学習し、機械学習モデルを作成する機械学習部と、
前記機械学習モデルを用いて、予測対象の高分子の第1データから前記予測対象の高分子の物性を予測する物性予測部を有する、予測システム。
【請求項3】
前記第1データは、前記構造単位の理論的分子記述子を含む、請求項1又は2に記載の予測システム。
【請求項4】
前記第1データは、複数の異なる次元の理論的分子記述子を含む、請求項3に記載の予測システム。
【請求項5】
前記構造単位の理論的分子記述子は、前記2種類の単量体の配合比に応じて重み付けして算出する、請求項3に記載の予測システム。
【請求項6】
前記機械学習部は、勾配ブースティング回帰、線形回帰、ランダムフォレスト回帰、及びニューラルネットワークのうち少なくとも一つを用いて機械学習を実行する、請求項1又は2に記載の予測システム。
【請求項7】
前記複数の単量体の重合可能な全ての組み合わせをそれぞれ構造単位とし、各構造単位から前記機械学習モデルを用いて各物性を予測し、物性が所定の範囲に収まる高分子を構成する単量体の組み合わせを抽出する、請求項1に記載の予測システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習を用いた予測システムに関する。
【背景技術】
【0002】
近年、実験データの複雑な関係性を情報科学に基づいた機械学習によって解析し、有望な材料を予測するマテリアルズ・インフォマティックスが注目されている。
例えば、特許文献1の製造装置では、感光性樹脂組成物の組成データと特性データを含む学習データを用いて、目標とする感光性樹脂組成物の特性を示す目標特性データから当該特性を示す感光性樹脂組成物の推奨組成データを出力可能とされている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2021-004933号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、化合物の構造と物性の関係を用いて機械学習する際には、コンピュータで識別可能とするべく、化合物の構造からその特徴を表す記述子を算出し、記述子と物性の間における機械学習モデルを構築する。高分子化合物の構造から記述子を算出する場合には、その最小単位であるモノマーに対して記述子を算出することが考えられる。
【0005】
しかしながら、モノマー単位で分子記述子を割り当てて機械学習を行うと、計算量が多くなるとともに、機械学習モデルによる予測値と実測値の誤差が大きくなりすぎてしまう。予測値と実測値の誤差が大きいと、機械学習モデルを用いた化合物から物性の推定の精度や、機械学習モデルを逆解析による物性から化合物の構造の推定の精度が悪い問題がある。
【0006】
そこで、本発明は、従来に比べて機械学習モデルの精度を向上できる予測システムを提供することを課題とする。
【課題を解決するための手段】
【0007】
上記した課題を解決するための本発明の一つの様相は、少なくとも2種類の単量体が重合した構造単位を繰り返し単位とし、前記構造単位の数が10以上となる高分子の予測システムであって、前記構造単位に対応するパラメータを含む第1データと、前記高分子の物性を含む第2データとのデータセットを教師データとして機械学習し、機械学習モデルを作成する機械学習部と、前記機械学習モデルを用いて、複数の単量体の中から、物性が所定の範囲に収まる高分子を構成する単量体の組み合わせを予測する構造予測部を有する、予測システムである。
【0008】
本様相によれば、2種類以上の単量体が重合した構造単位のデータを第1データとして使用するので、従来に比べて高精度の機械学習モデルを生成でき、高分子の物性が所定の範囲に収まる高分子を予測できる。
【0009】
本発明の一つの様相は、少なくとも2種類の単量体が重合した構造単位を繰り返し単位とし、前記構造単位の数が10以上となる高分子の物性を予測する予測システムであって、前記構造単位に対応するパラメータを含む第1データと、前記高分子の物性を含む第2データとのデータセットを教師データとして機械学習し、機械学習モデルを作成する機械学習部と、前記機械学習モデルを用いて、予測対象の高分子の第1データから前記予測対象の高分子の物性を予測する物性予測部を有する、予測システムである。
【0010】
本様相によれば、2種類以上の単量体が重合した構造単位のデータを第1データとして使用するので、高精度の機械学習モデルを生成でき、従来に比べて物性の予測精度が良好となる。
【0011】
好ましい様相は、前記第1データは、前記構造単位の理論的分子記述子を含む。
【0012】
より好ましい様相は、複数の異なる次元の理論的分子記述子を含む。
【0013】
より好ましい様相は、前記構造単位の理論的分子記述子は、前記2種類の単量体の配合比に応じて重み付けして算出する。
【0014】
好ましい様相は、前記機械学習部は、勾配ブースティング回帰、線形回帰、ランダムフォレスト回帰、及びニューラルネットワークのうち少なくとも一つを用いて機械学習を実行する。
【0015】
好ましい様相は、前記複数の単量体の重合可能な全ての組み合わせをそれぞれ構造単位とし、各構造単位から前記機械学習モデルを用いて各物性を予測し、物性が所定の範囲に収まる高分子を構成する単量体の組み合わせを抽出する。
【発明の効果】
【0016】
本発明の予測システムによれば、従来に比べて機械学習モデルの精度を向上できる。
【図面の簡単な説明】
【0017】
図1】本発明の第1実施形態の予測システム1の構成図である。
図2図1の機械学習部の機械学習モデルの説明図である。
【発明を実施するための形態】
【0018】
以下、本発明の実施形態について詳細に説明する。
【0019】
本発明の第1実施形態の予測システム1は、高分子の物性及び所定の物性を持つ高分子を構成する単量体の組み合わせを予測するものであり、高分子の物性を予測する物性予測動作と、高分子の物性から当該物性を有する高分子を構成する単量体の組み合わせを予測する構造予測動作を実施可能となっている。
【0020】
予測システム1で予測対象となる高分子は、下記一般式(1)で示される2つの単量体Aと単量体Bが重縮合した多量体ABを繰り返し単位とし、多量体ABの数nが10以上となるものである。
【0021】
【化1】
【0022】
予測システム1で予測対象となる高分子は、2つ以上の単量体の縮合体を繰り返し単位とするものであれば、特に限定されるものではないが、単量体Aを酸無水物モノマーが構成し、単量体Bをジアミンモノマーが構成し、ポリイミド結合を有するポリイミドであることが好ましい。
重合度nは、10以上であり、100以上であることが好ましく、10000以下であることが好ましい。
【0023】
予測システム1は、図1のように、第1コンピュータ2と、第2コンピュータ3とが、インターネットやイントラネット等のネットワーク5を介して接続されたものである。
【0024】
(第1コンピュータ2)
第1コンピュータ2は、ハードウェア構成として、各装置を制御する制御装置とデータに対する演算を行う演算装置で構成される中央処理装置と、データを記憶する記憶装置、外部からデータを入力する入力装置、外部にデータを出力する出力装置を備えたコンピュータである。
第1コンピュータ2は、図1のように、主要構成部位として、機械学習部10と、前駆体入力部11と、構造単位作成部12と、記述子作成部13と、データ蓄積部14と、物性予測部15と、物性入力部16と、構造予測部17と、データ取得部18と、第1通信部19を備えている。
【0025】
機械学習部10は、いわゆる教師あり学習で学習する機能があり、後述する勾配ブースティング回帰等の機械学習アルゴリズムに則して教師あり学習を行うことが可能となっている。
ここで、「教師あり学習」とは、教師データ、すなわち、ある入力(説明変数)と結果(目的変数)のデータの組を大量に機械学習部10に与えることで、それらのデータセットにある特徴を学習し、入力から結果を推定するモデル(誤差モデル)、すなわち、入力と結果の関係性を帰納的に獲得するものである。
すなわち、機械学習部10は、図2のように、入力部と、出力部を有しており、教師データをもとに機械学習することによって、入力部に入力された説明変数から出力部から出力される目的変数を算出する機械学習モデルを構築可能となっている。
【0026】
前駆体入力部11は、所望の高分子を構成する前駆体を入力する部位であり、本実施形態では、前駆体として構造単位を構成する単量体を入力する部位である。
ここでいう「前駆体」には、高分子の出発原料だけではなく、高分子の中間体も含む。
【0027】
構造単位作成部12は、複数の単量体を組み合わせて構造単位を作成する部位である。
本実施形態の構造単位作成部12は、データ取得部18が第2コンピュータ3から取得した単量体データ40や多量体データ41を組み合わせて構造単位を作成可能となっている。
【0028】
記述子作成部13は、構造単位作成部12で作成された構造単位を次元の異なる複数種類の理論的分子記述子に変換する部位である。
本実施形態の記述子作成部13は、RDKitやMordredなどの記述子計算ソフトウェアを用いて構造単位から次元の異なる複数種類の理論的分子記述子を作成可能となっている。
すなわち、本実施形態の記述子作成部13は、1次元理論的分子記述子であるフィンガープリントと、トポロジカル記述子(2次元理論的分子記述子)や幾何学記述子(3次元理論的分子記述子)などの1次元記述子とは異なる他の次元の理論的分子記述子を作成可能となっている。
また、記述子作成部13は、上記した記述子の代わりに又は上記した記述子に加えて、原子番号、原子半径、電気陰性度などの組成記述子や、動径分布関数記述子(RDF記述子)などの結晶構造記述子などの記述子を作成してもよい。
【0029】
データ蓄積部14は、過去及び現在に記述子作成部13が作成した記述子や機械学習モデル、予測した高分子の物性や構造式などの各種データを蓄積する部位である。
【0030】
物性予測部15は、機械学習部10が生成した機械学習モデルと、構造単位作成部12が作成した構造単位を用い、構造単位を繰り返し単位とする高分子の物性を予測する部位である。
【0031】
物性入力部16は、希望する高分子の物性の範囲を入力する部位である。
【0032】
構造予測部17は、機械学習部10が生成した機械学習モデルを用いて、物性入力部16に入力された物性の範囲から物性が当該物性の範囲に収まる高分子の構造及びその高分子を構成する単量体の組み合わせを予測する部位である。
【0033】
データ取得部18は、第2コンピュータ3のデータ格納部30からネットワーク5を介して各種データを取得する部位である。
【0034】
第1通信部19は、ネットワーク5と接続し、ネットワーク5を介して第2コンピュータ3と相互通信可能な部位である。
【0035】
(第2コンピュータ3)
第2コンピュータ3は、ハードウェア構成として、各装置を制御する制御装置とデータに対する演算を行う演算装置で構成される中央処理装置と、データを記憶する記憶装置、外部からデータを入力する入力装置、外部にデータを出力する出力装置を備えたコンピュータである。
第2コンピュータ3は、データ格納部30と、第2通信部31を備えている。
【0036】
データ格納部30は、単量体に関する単量体データ40と、多量体に関する多量体データ41と、高分子に関する高分子データ42が格納されている。
【0037】
第2通信部31は、ネットワーク5と接続し、ネットワーク5を介して第1コンピュータ2と相互通信可能な部位である。
【0038】
続いて、本実施形態の予測システム1を用いて構造単位を構成する単量体の組み合わせから高分子の物性を予測する物性予測動作について説明する。
【0039】
物性予測動作は、主に機械学習モデルを生成する学習モデル生成工程と、学習モデル生成工程で生成された機械学習モデルを用いて物性を予測する物性予測工程で構成されている。
【0040】
(学習モデル生成工程)
学習モデル生成工程は、高分子の構造単位に対応するパラメータの第1データと、高分子の物性を含む第2データのデータセットを教師データとして、機械学習部10が機械学習し、予測モデルを構築する工程である。
学習モデル生成工程は、主にデータセット作成工程と、学習工程と、検証工程と、評価工程で構成される。
【0041】
学習モデル生成工程では、まず、構造単位作成部12が複数種類の単量体を組み合わせて複数の構造単位を作成し、データ蓄積部14又はデータ格納部30から高分子の物性に関する物性パラメータ及びその高分子の製造に関する製造パラメータを取得する。
続いて、記述子作成部13が構造単位作成部12で作成した各構造単位を次元が異なる複数の理論的分子記述子にそれぞれ変換する。
そして、各理論的分子記述子と製造パラメータを含む説明データと、物性データを含む目的データをデータセットにし、当該データセットをデータ学習セットと、検証データセットと、評価データセットに分割する(データセット作成工程)。
【0042】
ここで、理論的分子記述子の種類には、0次元理論的分子記述子と、1次元理論的分子記述子と、2次元理論的分子記述子がある。
0次元理論的分子記述子には、例えば、分子量や結合数等の構成記述子又はカウント記述子などがある。
1次元理論的分子記述子には、例えば、特定の部分構造のビットベクトルなどがある。
2次元理論的分子記述子には、例えば、グラフ不変量として計算されるトポロジカル記述子などがある。
【0043】
本実施形態の説明データは、第1理論的分子記述子と、第2理論的分子記述子と、第3理論的分子記述子と、製造パラメータを含んでいる。
第1理論的分子記述子は、構造単位作成部12で作成された構造単位を1次元理論的分子記述子に変換したものである。
本実施形態の第1理論的分子記述子は、原子からある距離にある部分構造を数え上げていくCircular型のフィンガープリントであり、ECFP4フィンガープリントであることが好ましい。
第2理論的分子記述子は、第1理論的分子記述子とは異なる手法により第1理論的分子記述子とは異なる分子記述子に変換したものである。
本実施形態の第2理論的分子記述子は、一定の結合数に相当する原子と結合種類を格納する分子構造記述子であり、0次元理論的分子記述子と、1次元理論的分子記述子と、2次元理論的分子記述子が混在したn成分ベクトルである。
第3理論的分子記述子は、第1理論的分子記述子及び第2理論的分子記述子とは異なる手法により第1理論的分子記述子及び第2理論的分子記述子とは異なる分子記述子に変換したものである。
本実施形態の第3理論的分子記述子は、一定の結合数に相当する原子と結合種類を格納する分子構造記述子であり、0次元理論的分子記述子と、1次元理論的分子記述子と、2次元理論的分子記述子が混在したn成分ベクトルである。
本実施形態の第3理論的分子記述子は、第2理論的分子記述子とは異なるソフトウェアで作成されており、表現される成分nの数が異なる。
各理論的分子記述子は、構造単位を構成する単量体の配合比に応じて重み付けして算出される。
製造パラメータは、高分子の製造に関するパラメータであり、単量体の比率、添加剤量、熱処理温度、熱処理時間などが含まれる。
【0044】
本実施形態の目的データは、物性パラメータを含んでいる。
【0045】
物性パラメータは、構造単位作成部12で作成された構造単位を繰り返し単位とする高分子の物性に関するパラメータであり、例えば、黄色度、内部応力、ガラス転移温度などが含まれる。
【0046】
続いて、データ学習セットを用いて、機械学習部10の入力部に説明データを入力し、出力部から出力された予測データを目的データと比較し、予測データと目的データの差が小さくなるように機械学習モデルを作成する(学習工程)。
【0047】
機械学習モデルの作成手法としては、回帰分析手法であれば、特に限定されるものではなく、例えば、LightGBMなどの勾配ブースティング回帰、ElasticNet回帰などの線形回帰、ニューラルネットワーク、ランダムフォレスト回帰などの決定木アンサンブル等が使用できる。
本実施形態では、機械学習モデルの作成手法として、勾配ブースティング回帰を使用しており、具体的には、LightGBMを使用している。
【0048】
続いて、検証データセットを用いて機械学習モデルに対してK-分割交差検証を行い、二乗平均平方根誤差(RMSE)が最小になるようにハイパーパラメータを設定する(検証工程)。
【0049】
ハイパーパラメータの設定方法は、特に限定されるものではないが、例えば、Optunaなどのハイパーパラメータ自動最適化フレームワークが使用できる。
【0050】
続いて、評価データセットを用いて、機械学習部10の入力部に説明データを入力し、出力部から出力された予測データを目的データと比較して機械学習モデルを評価し(評価工程)、評価結果が所定の範囲となった場合に学習モデル生成工程を終了する。
【0051】
(物性予測工程)
物性予測工程では、物性の予測対象となる高分子を構成する各単量体を前駆体入力部11に入力すると、構造単位作成部12が前駆体入力部11に入力された単量体を縮合させて形成される構造単位を作成する。
そして、記述子作成部13が構造単位作成部12で生成された構造単位を第1理論的分子記述子と、第2理論的分子記述子と、第3理論的分子記述子に変換し、これらの記述子を用いて機械学習モデルから高分子の物性を予測する。
【0052】
続いて、本実施形態の予測システム1を用いて、物性が所定の範囲に収まる高分子を構成するための単量体の組み合わせを予測する構造予測動作について説明する。
【0053】
構造予測動作は、物性予測動作と同様の学習モデル生成工程と、学習モデル生成工程で生成された機械学習モデルを用いて所望の物性を持つ高分子を作成するための単量体の組み合わせを予測する構造予測工程で構成されている。
【0054】
(構造予測工程)
構造予測工程では、データ蓄積部14に蓄積された単量体データ及び/又は第2コンピュータ3のデータ格納部30に格納された単量体データから構造単位作成部12が2種の単量体を組み合わせて生成される全ての構造単位(単量体の組み合わせ)を作成し、構造単位作成部12が作成した構造単位を入力部にそれぞれ入力し、機械学習モデルを経て出力部から出力された各物性の予測値が所定の範囲に収まる単量体の組み合わせを抽出する。
【0055】
第1実施形態の予測システム1によれば、構造単位のパラメータである理論的分子記述子を含む説明データ(第1データ)と、高分子の物性に関する物性パラメータを含む目的データ(第2データ)とのデータセットを用いて機械学習して機械学習モデルを作成するので、高精度の機械学習モデルを作成できる。
そのため、構造予測動作では、物性入力部16に物性を入力することで、物性が所定の範囲に収まる高分子の構造単位を抽出して予測でき、物性予測動作では、前駆体入力部11に前駆体たる単量体を入力することで、高分子の物性を予測できる。
【0056】
第1実施形態の予測システム1によれば、構造単位に対して異なる次元の理論的分子記述子が作成され、説明データとして使用されるため、より高精度の機械学習モデルを生成できる。
【0057】
第1実施形態の予測システム1によれば、構造単位の各分子記述子は、単量体の配合比に応じて重み付けして算出されているため、分子記述子に配合比が反映されやすい。
【0058】
第1実施形態の予測システム1によれば、勾配ブースティング回帰を用いて機械学習を実行しているので、より高精度の機械学習モデルを生成できる。
【0059】
第1実施形態の予測システム1によれば、データ蓄積部14に蓄積された単量体データ及び/又は第2コンピュータ3のデータ格納部30に格納された単量体データを用いて、構造単位作成部12が重合可能な全ての組み合わせをそれぞれ構造単位として作成し、各構造単位から機械学習モデルを用いてそれぞれの構造単位に対応する物性を予測し、物性が所定の範囲に収まる高分子を構成する単量体の組み合わせを抽出する。そのため、漏れなく所定の範囲の物性を有する高分子を構成する単量体の組み合わせを予測できる。
【0060】
上記した実施形態では、予測対象の高分子は、2種類の単量体が重合した2量体を構造単位としたが、本発明はこれに限定されるものではない。予測対象の高分子は、3種類以上の単量体が重合した多量体を構造単位としてもよい。この場合、機械学習モデルを生成する際の説明データとして多量体の構造単位を基準として各種記述子を作成することになる。
【0061】
上記した実施形態では、物性予測工程において、前駆体入力部11に所望の高分子を構成する単量体を入力したが、本発明はこれに限定されるものではない。前駆体入力部11に構造単位を構成する多量体を入力してもよい。
【0062】
上記した実施形態では、データ取得部18は、第2コンピュータ3のデータ格納部30から単量体データ等の各種データを取得していたが、本発明はこれに限定されるものではない。ネットワーク5に接続される他のコンピュータから各種データを取得してもよい。例えば、ネットワーク5に接続される公共施設等の外部機関のサーバーコンピュータから各種データを取得してもよい。
【0063】
上記した実施形態では、データ取得部18が第2コンピュータ3のデータ格納部30内のデータを取得したが、本発明はこれに限定されるものではない。データ蓄積部14内に取得するデータが蓄積されている場合には、データ格納部30からデータを取得しなくてもよい。この場合、第2コンピュータ3は省略できる。
【0064】
上記した実施形態では、前駆体入力部11に単量体が入力され、構造単位作成部12で構造単位が作成されて、記述子作成部13で構造単位を記述子化していたが、本発明はこれに限定されるものではない。前駆体入力部11に構造単位が入力された場合には、構造単位作成部12を介さずに、記述子作成部13で構造単位を記述子化しててもよい。
【0065】
上記した実施形態では、構造予測工程では、全ての単量体の組み合わせを入力し、出力された物性が所定の範囲に収まらない単量体の組み合わせを除去して予測結果としたが、本発明はこれに限定されるものではない。逆解析モデルを生成して物性が所定の範囲に収まる単量体の組み合わせを予測してもよい。具体的には、構造予測工程では、構造単位作成部12が複数の構造単位を作成し、構造単位作成部12が作成した構造単位を入力部にそれぞれ入力し、機械学習モデルを経て出力部から出力された各物性と、入力部に入力した各構造単位の関係から逆解析モデルを生成する。すなわち、モンテカルロ法のようにランダムに構造単位作成部12で構造単位を作成し、機械学習モデルで推定される高分子の物性と、構造単位を構成する単量体との関係を逆解析モデルとして算出する。そして、物性入力部16に所望の物性を入力することで、逆解析モデルを用いて物性が所定の範囲に収まる高分子を構成する単量体の組み合わせを予測してもよい。
【0066】
上記した実施形態は、本発明の技術的範囲に含まれる限り、各実施形態間で各構成部材を自由に置換や付加できる。
【実施例0067】
以下、本発明を実施例及び比較例により具体的に説明するが、本発明はこれらの実施例により限定されるものではない。
【0068】
(実施例1)
JIS K 7373:2006に準ずる黄色度(YI)が30以下であって既知の黄色度をもつ透明ポリイミドワニスのデータの中から、酸二無水物に関するデータ及びジアミンに関するデータと、これらを組み合わせた多量体を繰り返し単位とするポリイミドの黄色度及び内部応力とのデータセットを抽出し、抽出したデータセットを学習用データセットと検証用データセットと評価用データセットに分割した。
酸二無水物に関するデータとして、13種類の酸二無水物のデータを抽出し、ジアミンに関するデータとして、12種類のジアミンデータを抽出した。
繰り返し単位となるビルディングブロックとして、酸二無水物とジアミンをイミド結合させたダイマーを用いた。
ダイマーの配合は、それぞれの説明変数を配合比に応じた重みづけ和として表現し、製造パラメータたる添加剤量と熱処理温度と熱処理時間を説明変数に用いた。
【0069】
学習用データセットにおいて、機械学習ライブラリscikit-learn(https://scikit-learn.org/stable/)を用いて上記したダイマーをビルディングブロックとする記述子計算ソフトウェアRDKit(https://github.com/rdkit/rdkit)を用いて作成した分子記述子(以下、RDKit記述子ともいう)と、Circular型フィンガープリントとして、ECFP4フィンガープリントに相当する半径2のMorganフィンガープリントを作成し、記述子計算ソフトウェアMordred(https://github.com/mordred-descriptor/mordred)を用いて作成した分子記述子(以下、Mordred記述子ともいう)を作成した。
そして、記述子計算ソフトウェアRDKitを用いて、フィンガープリントとRDKit記述子とMordred記述子と製造パラメータを説明変数とし、黄色度(YI)と内部応力を目的変数として、LightGBMアルゴリズムにより機械学習を行って機械学習モデルを作成し、これを実施例1とした。
なお、ハイパーパラメータの調整には、Optunaを利用し、検証用データセットを用いて5分割交差検証における二乗平均平方根誤差(RMSE)が最小となるようにハイパーパラメータを決定した。
【0070】
(実施例2)
実施例1において、黄色度(YI)の実数の代わりに黄色度(YI)の常用対数を目的変数として使用したこと以外は同様にして、これを実施例2とした。
【0071】
(比較例1)
実施例1において、説明変数を構築する際のビルディングブロックとして、酸二無水物のモノマーとジアミンのモノマーを用いたこと以外は同様にして、これを比較例1とする。
すなわち、比較例1は、酸二無水物のモノマーとジアミンのモノマーをそれぞれビルディングブロックとするフィンガープリント、RDKit記述子、Mordred記述子、及び製造パラメータを説明変数とした。
【0072】
(比較例2)
比較例1において、黄色度(YI)の実数の代わりに黄色度(YI)の常用対数を目的変数として使用したこと以外は同様にして、これを比較例2とした。
【0073】
(精度評価)
評価用データセットを用いて、決定係数Rおよび平均二乗誤差の平方根RMSEによって評価した。
各実施例1,2及び比較例1,2の機械学習モデルに対して、検証用データセットの対応する各種パラメータを用いて、以下の数式(2)で示される決定係数(R)と、以下の数式(3)で示される平均絶対値誤差(MAE)と、以下の数式(4)で示される二乗平均平方根誤差(RMSE)をそれぞれ評価した。また、これらの評価結果を表1に示す。
【0074】
【数2】
【0075】
【数3】
【0076】
【数4】
【0077】
【表1】
【0078】
ダイマーをビルディングブロックとした実施例1,2は、モノマーをビルディングブロックとした比較例1,2に比べて、Rが大きくなり、MAEとRMSEが小さくなった。
このことから、ダイマーをビルディングブロックとすることで、イミド結合を表現でき、モノマーが結合したときの構造や電子状態を表現できるようになり、もとの高分子の特性を反映しやすくなったことが示唆された。
【0079】
目的変数を実数とした実施例1と常用対数とした実施例2を比較すると、評価データセットにおけるRMSEの差が0.027と非常に小さくなり、黄色度(YI)が30以下の範囲では、精度にほとんど差がなかった。
【0080】
したがって、目的変数が実数であるか常用対数であるかかかわらず、ダイマーをビルディングブロックとして複数の理論的分子記述子及びフィンガープリントを説明変数として用いることで、モノマーをビルディングブロックとする場合に比べて、高精度の機械学習モデルが構築できることが分かった。
【符号の説明】
【0081】
1 予測システム
10 機械学習部
15 物性予測部
17 構造予測部
図1
図2