(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024147421
(43)【公開日】2024-10-16
(54)【発明の名称】予測モデル構築システム
(51)【国際特許分類】
G16C 20/30 20190101AFI20241008BHJP
G16C 60/00 20190101ALI20241008BHJP
【FI】
G16C20/30
G16C60/00
【審査請求】未請求
【請求項の数】3
【出願形態】OL
(21)【出願番号】P 2023060427
(22)【出願日】2023-04-03
【国等の委託研究の成果に係る記載事項】(出願人による申告)令和4年度、国立研究開発法人科学技術振興機構、未来社会創造事業(研究課題名:超広域材料探索を実現する材料イノベーション創出システム)「材料イノベーション創出システムの開発/材料記述子設計技術の開発と実装」委託研究、産業技術力強化法第17条の適用を受ける特許出願
(71)【出願人】
【識別番号】304024430
【氏名又は名称】国立大学法人北陸先端科学技術大学院大学
(74)【代理人】
【識別番号】110002011
【氏名又は名称】弁理士法人井澤国際特許事務所
(74)【代理人】
【識別番号】100072039
【弁理士】
【氏名又は名称】井澤 洵
(74)【代理人】
【識別番号】100123722
【弁理士】
【氏名又は名称】井澤 幹
(74)【代理人】
【識別番号】100157738
【弁理士】
【氏名又は名称】茂木 康彦
(74)【代理人】
【識別番号】100158377
【弁理士】
【氏名又は名称】三谷 祥子
(72)【発明者】
【氏名】谷池 俊明
(72)【発明者】
【氏名】▲高▼橋 啓介
(57)【要約】 (修正有)
【課題】ハイスループット型材料探索のために優れた予測モデルを構築する予測モデル構築システム及びOCM触媒の探索方法を提供する。
【解決手段】予測モデル構築システム(100)は、特徴量取得部(1),実験データ取得部(2),特徴量付与部(3),特徴量合成部(4),特徴量選択部(5)及び予測モデル生成部(6)を有する。特徴量取得部(1)と実験データ取得部(2)が外部から何らかの通信・送信手法によってデータを取得し、取得したデータを、演算及び予測モデル構築を行う特徴量合成部(4),特徴量選択部(5)及び予測モデル生成部(6)で利用する。特徴量合成部(4),特徴量選択部(5)及び予測モデル生成部(6)は、マテリアルズインフォマティクス型アルゴリズムを搭載したプログラムを実行する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
以下の部位(1),(2),(3),(4),(5),(6)を有する予測モデル構築システム(100)。
特徴量取得部(1):回帰モデル構築システム(100)外のデータベース(7)からn個の特徴量Xを取得し、ライブラリ(11)に格納する部位。
実験データ取得部(2):材料に対して試験を行って得られた実測値を取得し、ライブラリ(21)に格納する部位。
特徴量付与部(3):n個の特徴量Xに対してn0種の可換演算を行って0次特徴量X0を生成し、任意の材料の各々に(n×n0)個の0次特徴量X0を付与する部位。
特徴量合成部(4):0次特徴量X0の各々に対しn1種類の演算を行って(n×n0×n1)個の1次特徴量X1を合成し、任意に、組み合わせ演算を行った2次以上m次以下(mは2以上の整数)の特徴量X2,…,Xmを合成する部位。ここで、i次特徴量(iは2以上かつm以下の整数)の各々の数は、C(n×n0×n1,i)個(「C」は繰返しを許さない組合せ数を表す数学記号)である。
特徴量選択部(5):ライブラリ(21)に格納された性能実測値を参照し、機械学習により回帰的に導かれたモデル:Ye=fe(S)(入力変数S:材料組成に基づく特徴量セット,目的変数Ye:材料の予測性能値,fe:関数演算)の誤差が最小となる特徴量を、特徴量付与部(3)及び特徴量合成部(4)で生成したX0,…,Xmから選択する部位。
予測モデル生成部(6):特徴量選択部(5)で選択された特徴量に基づいて、予測モデル:Y=f(Sselected)(入力変数Sselected:X0,…,Xmから選択された特徴量セット,目的変数Y:材料の予測性能値,f:関数演算)を生成する部位。
【請求項2】
予測モデル生成部(6)で、予測モデル:Y=fOCM(SOCM-selected)(入力変数SOCM-selected:OCM触媒候補の組成に基づき、特徴量付与部(3)及び特徴量合成部(4)で生成されたX0,…,Xmから選択された特徴量セット、目的変数Y:C2収率,fOCM:関数演算)を生成する、請求項1に記載の予測モデル構築システム(100)。
【請求項3】
請求項2に記載の予測モデル構築システム(100)を用いてOCM触媒候補をハイスループットスクリーニングする工程を含む、OCM触媒の探索方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、材料探索に利用可能な予測モデルを構築するシステムに関する。本発明は、具体的には、従来の知見によるバイアスを排除した条件で、物質の特徴量に基づいて対象材料の性能を精度良く予測する回帰モデルを構築するシステムである。
【背景技術】
【0002】
機械学習によって作成された予測モデルを利用して製品の品質を予測する手法はすでに普及している。この予測モデルは、過去に行った製品の品質検査結果に製品の原料データや製造ラインのセンサーデータを関連付けることによって構築されている。この予測モデルを使い、複雑な試験を実際に行うことなく製品の品質を予想し、製造ラインや製品仕様の評価と調整を自動的に行うことができる。このような予測モデルを生産現場の最終工程に導入することによって、製造コストを下げ歩留まりを上げることができる。
【0003】
例えば特許文献1に記載された材料の曲げ破断予測方法は、金属薄板材料がプレス加工時や自動車の衝突時に曲げ破断する危険性を実試験することなく予測評価することができる。
【0004】
例えば特許文献2に記載されたロールツーロール加工過程の張力予測用の連続的な公差解析方法は、ロールツーロール連続製造システムの加工品質評価を間接的に実現する。
【0005】
例えば特許文献3に記載された金属材料の引張圧縮反転負荷挙動予測方法では、材料モデルのモデル定数を決定することで引張圧縮反転負荷挙動を予測する。
一方、製品開発の基礎となる材料探索でも、候補材料を試験して有用性を確認・評価する作業が必要であって、試験の労力は多大である。無機化合物、有機化合物、ポリマー、これらの組成物など有用材料の探索は長年にわたって進められているが、新規な有用材料の報告例は尽きることがない。そこで、新規材料の試作と試験に代わり、計算科学を利用した新規材料の評価方法が提案されている。
【0006】
例えば特許文献4には、リチウムイオン二次電池用正極活物質の置換元素の評価にあたり、候補置換元素毎の正極活物質の層間にリチウムを挿入または脱離させた際の層間距離の変化を、ファンデルワールス密度汎関数を用いた第一原理計算により算出することが記載されている。特許文献5に記載された評価方法では、上記層間距離変化の小さいものをサイクル特性向上効果が高いと評価する。この方法によって、候補元素を使って正極活物質を合成し得られた正極活物質を用いたリチウムイオン電池でサイクル特性試験を行う、という長期に渡る評価作業を簡略化することができる。特許文献4の実施例では、5種類の置換元素:Mg,Co,Na,Al,Mnについて上記層間距離の変化を予測し、サイクル特性を高める効果が最も高い置換元素がMgであると評価した。
【0007】
しかしながら、第一原理計算などの物理法則に基づくシミュレーションは、有機分子や結晶などの分子構造が明確で、かつ、微視的な構造が材料機能に直結する対象に限定される。また、膨大な計算時間を要する。特許文献4に記載された評価方法は、触媒や高分子材料などの実用材料、あるいは、網羅的なスクリーニングには不向きである。
【0008】
機械学習による予測モデルを利用した材料探索も提案されている。
【0009】
例えば特許文献5には、実験を行うことなく凝固した金属の化学組成と当該金属の材料的な特性との関係を出力する材料特性予測プログラム、構造物、材料特性予測装置及び材料特性予測方法が記載されている。この材料特性予測プログラムを用いると、溶接が施された部分が使用される条件に耐え得る溶接金属の化学組成を決定する実験を、膨大な種類の化学組成を有する溶接金属各々について行う必要がなく、実験者の負担が顕著に軽減される。特許文献5には、この材料特性予測プログラムの例として、Fe-20Cr-Ni合金の様々な化学組成についての凝固脆性温度範囲を精度良く予測することができるプログラムが記載されている。この例では教師データとして学術論文から収集した実験データを用いる。
【0010】
しかしながら、学術文献データに掲載された探索対象は偏在する可能性がある。例えば、学術文献から取得されるデータは、一般的には市場、企業、研究者の関心や実績が集まる領域に集中する。このため、学術文献から抽出した教師データを用いるとバイアス下に回帰モデルが構築され、結果的に予想モデルの精度に問題を生じる可能性がある。
【0011】
材料探索を始める者がしばしば意欲抱く「未知の領域」や「前人未到の領域」に、通常は学術文献データが蓄積されていない。このため、学術文献から抽出したデータを教師データとする機械学習が対応できる領域は、理想的な探索領域とは言えない。
【0012】
例えば非特許文献6には、マテリアルズインフォマティクスを材料探索に適用した例として準結晶を形成する組成の予測が記載されている、この予測では、公開データベースと文献データから抽出した多数のデータを学習データに用いて予測モデルを構築し、任意の化学組成について結晶構造を準結晶、近似結晶、通常の周期結晶の3クラスに分類する(順方向の予測)。
【0013】
しかしながら、利用できる既存データが少ない分野では非特許文献6に記載された予測方法は不向きである。しかも、入力変数である材料組成に対して特定の物性値を目的変数として要求する現状の材料探索に、分類結果を出力する非特許文献6の手法をそのまま転用すべきでない。
【0014】
材料設計は、様々な工業製品の開発の基礎となる作業である。材料設計には有用な材料の探索が欠かせない。これまでの人の経験と反復実験に頼っていた材料探索に機械学習やシミュレーション計算を取り入れることによって材料探索の効率は大幅に上昇した。しかしながら、上述のように、実験データが少ない分野で網羅的な探索を行うための予想モデル構築法には、未だ改善の余地がある。
【先行技術文献】
【特許文献】
【0015】
【特許文献1】特許第5445381号公報
【特許文献2】特許第6755320号公報
【特許文献3】特許第7211461号公報
【特許文献4】特開2020-102301号公報
【特許文献5】特開2022-108839号公報
【非特許文献】
【0016】
【非特許文献6】「マテリアルズインフォマティクス」,22-24頁,共立出版,伊藤聡 編,吉田亮ほか 著,2022年8月31日初版1刷発行,ISBN 978-4-320-07202-2
【発明の概要】
【発明が解決しようとする課題】
【0017】
本発明者は、国立研究開発法人科学技術振興機構(JST)が掲げる探索加速型重点公募テーマ:「革新的な知や製品を創出する共通基盤システム・装置の実現」の一環として、「超広域材料探索を実現する材料イノベーション創出システム」の研究を開始した。本研究は、データ科学を道具とした所謂マテリアルズインフォマティクスを活用し、実際の実験データが比較的少ない分野であっても、入力された材料の構造や組成から当該材料の物性を出力する優れた回帰モデルを構築することを目標とする。さらに本研究は、構築した優れた回帰モデルを用いて候補材料をハイスループットスクリーニングし、有用材料の探索作業を加速化させることを目的とする。
【課題を解決するための手段】
【0018】
本発明者は、上述の公募研究の成果から本発明を完成した。本発明は所謂マテリアルズインフォマティクスを活用する。本発明では、高次特徴量の合成と選択によって機械学習に提供する実験データの不足を補い、優れた予測モデルを生成する。すなわち本発明は以下のものである。
【0019】
(発明1)
以下の部位(1),(2),(3),(4),(5),(6)を有する予測モデル構築システム(100)。
特徴量取得部(1):回帰モデル構築システム(100)外のデータベース(7)からn個の特徴量Xを取得し、ライブラリ(11)に格納する部位。
実験データ取得部(2):材料に対して試験を行って得られた実測値を取得し、ライブラリ(21)に格納する部位。
特徴量付与部(3):n個の特徴量Xに対してn0種の可換演算を行って0次特徴量X0を生成し、任意の材料の各々に(n×n0)個の0次特徴量X0を付与する部位。
特徴量合成部(4):0次特徴量X0の各々に対しn1種類の演算を行って(n×n0×n1)個の1次特徴量X1を合成し、任意に、組み合わせ演算を行った2次以上m次以下(mは2以上の整数)の特徴量X2,…,Xmを合成する部位。ここで、i次特徴量(iは2以上かつm以下の整数)の各々の数は、C(n×n0×n1,i)個(「C」は繰返しを許さない組合せ数を表す数学記号)である。
特徴量選択部(5):ライブラリ(21)に格納された性能実測値を参照し、機械学習により回帰的に導かれたモデル:Ye=fe(S)(入力変数S:材料組成に基づく特徴量セット,目的変数Ye:材料の予測性能値,fe:関数演算)の誤差が最小となる特徴量を、特徴量付与部(3)及び特徴量合成部(4)で生成したX0,…,Xmから選択する部位。
予測モデル生成部(6):特徴量選択部(5)で選択された特徴量に基づいて、予測モデル:Y=f(Sselected)(入力変数Sselected:X0,…,Xmから選択された特徴量セット,目的変数Y:材料の予測性能値,f:関数演算)を生成する部位。
(発明2)
予測モデル生成部(6)で、予測モデル:Y=fOCM(SOCM-selected)(入力変数SOCM-selected:OCM触媒候補の組成に基づき、特徴量付与部(3)及び特徴量合成部(4)で生成されたX0,…,Xmから選択された特徴量セット、目的変数Y:C2収率,fOCM:関数演算)を生成する、発明1の予測モデル構築システム(100)。
(発明3)
発明2の予測モデル構築システム(100)を用いてOCM触媒候補をハイスループットスクリーニングする工程を含む、OCM触媒の探索方法。
【発明の効果】
【0020】
本発明は、広大なパラメータ空間から優れた予測モデルを構築する。この予測モデルは、事前知見の多寡に影響されずに材料の物性を精度良く出力する。
【図面の簡単な説明】
【0021】
【
図1】本発明の予測モデル構築システムを理解するための参考図。
【
図2】本発明を適用して構築した予測モデルの1例の精度を示す。
【
図3】本発明を適用して構築した予測モデルの1例の精度を示す。
【
図4】本発明を適用して構築した予測モデルの1例の精度を示す。
【発明を実施するための形態】
【0022】
[予測モデル構築システム(100)]
本発明の予測モデル構築システム(100)(以下、「システム(100)」)は以下の特徴量取得部(1),実験データ取得部(2),特徴量付与部(3),特徴量合成部(4),特徴量選択部(5),予測モデル生成部(6)を有する。
【0023】
図1は、本システム(100)を理解するための参考図である。特徴量取得部(1)と実験データ取得部(2)が外部から何らかの通信・送信手法によってデータを取得する。取得したデータは、演算及び予測モデル構築を行う特徴量合成部(4),特徴量選択部(5),予測モデル生成部(6)で利用される。特徴量合成部(4),特徴量選択部(5),予測モデル生成部(6)は、マテリアルズインフォマティクス型アルゴリズムを搭載したプログラムを実行する。
【0024】
[特徴量取得部(1)]
特徴量取得部(1)(以下「部位(1)」)は、回帰モデル構築システム(100)外のデータベース(7)からn個の特徴量Xを取得し、ライブラリ(11)に格納する部位である。
【0025】
外部のデータベース(7)は特に制限されない。例えば、公開されたデータベース(所謂オープンソースプラットフォーム)の一つであるXenonPyが好ましい。XenonPyは元素、無機・有機化合物、高分子に関する様々な物質の特徴量を定義し、マテリアルズインフォマティクスを適用するための機械学習アルゴリズムを実装している。部位(1)は、好ましくは、本システム(100)がインターネットに接続された状態で、適当なAPI経由でXenonPyの特徴量と訓練済みモデルを取得する。部位(1)にはライブラリ(11)が配置される。ライブラリ(11)には部位(1)が取得したデータが登録される。例えば、部位(1)は、XenonPyに実装された58個の元素特徴量を取得する(n=58)。
【0026】
[実験データ取得部(2)]
実験データ取得部(2)(以下「部位(2)」)は、材料に対して試験を行って得られた実測値を取得し、ライブラリ(21)に格納する部位である。
【0027】
部位(2)は、外部の実験データ格納部(8)から実測値を取得する。取得手法は制限されない。部位(2)は、実験データを蓄積したデータベース(8)からダウンロード形式で実験データを取得してもよく、試験機器のデータ登録部(8)から逐次通信によって実験データを取得してもよい。この場合、適当なAPI経由で本システム(100)に適した形式で実測値データを取得することができる。部位(2)は、ライブラリ(21)のデータを適宜更新する。
【0028】
[特徴量付与部(3)]
特徴量付与部(3)(以下「部位(3)」)は、n個の特徴量Xに対してn0種の可換演算を行って0次特徴量X0を生成し、任意の材料の各々に(n×n0)個の0次特徴量X0を付与する部位である。
【0029】
部位(3)が行う可換演算は、触媒、セラミック、合金などの元素の組み合わせで特定される材料(組成物)にとって都合が良い。例えば、元素Aと元素Bからなる材料はデータ表記上ABともBAとも表現され得る。(ただしこの場合、元素Aと元素Bの量比に選択肢はないものとする。)部位(3)で可換演算を行うと、材料ABと材料BAに同一の0次特徴量X0が付与される。これは元素Aと元素Bからなる材料が示す挙動・性質が一義的であることに整合する。
【0030】
部位(3)が行う可換演算は、典型的には、加重和,加重偏差加重平方和,加重分散,加重乗積,加重幾何平均である。これらの演算は、特に、探索対象の材料が構成元素の組合せと各構成元素の量割合とで特定される組成物である場合に適する。この場合、上記加算演算の結果は各構成元素の両割合を反映する。
【0031】
例えば、組成式:A40B60(A,B:元素,40:構成元素全量の40%、60:構成元素全量の60%)で記述される組成物1と、組成:A60B40で記述される組成物2について、部位(3)が上記典型的な加算演算を行うと、組成物1と組成物2とで異なった0次特徴量X0を生成する。0次特徴量X0にて材料1と材料2は異なる材料として表現され、このことは材料組成に対する現実の認識に整合する。
【0032】
例えば、部位(3)は、可換演算の結果、組成式:A60B20C20(A,B,C:元素、60:構成元素全量の60%、20:構成元素全量の20%)で記述される組成物3と、組成:A60C20B20で記述される組成物4に対して、同じ0次特徴量X0を生成する。この場合、0次特徴量X0にて材料3と材料4は同じ材料として表現され、このことは材料組成に対する現実の認識に整合する。
【0033】
このように、部位(3)は、任意の組成物に対し計算上は、当該組成物が既に試験されたものであっても仮想のものであっても、各材料に固有の特徴量として0次特徴量X0のセットを導くことができる。0次特徴量X0の生成過程で、部位(3)は実験データの結果(性能値)を参照しない。
【0034】
例えば、部位(1)がXenonPyから取得した58個の元素特徴量に対して、部位(3)が8種類の可換演算:最大値,最小値,加重和,加重偏差加重平方和,加重分散,加重乗積,加重幾何平均を行う(n0=8)。この場合、58×8=464個の0次特徴量X0が生成する。上述の通り、最大値や最小値を例外として、X0は構成元素の種類と各元素の割合で特定される組成に特有の特徴値である。
【0035】
[特徴量合成部(4)]
特徴量合成部(4)(以下「部位(4)」は、0次特徴量X0の各々に対しn1種類の演算を行って(n×n0×n1)個の1次特徴量X1を合成し、任意に、組み合わせ演算を行った2次以上m次以下(mは2以上の整数)の特徴量X2,…,Xmを合成する部位である。ここで、i次特徴量(iは2以上かつm以下の整数)の各々の数は、C(n×n0×n1,i)個(「C」は繰返しを許さない組合せ数を表す数学記号)である。部位(4)は例えばC(n×n0×n1,2)個の2次特徴量X2を合成することができる。
【0036】
本システム(100)では、取得済実験データが比較的少ない段階での材料探索にも適用できることを目標としている。しかし、訓練データの規模が大きいほど、機械学習によりより精度の高い回帰モデルに到達する(所謂「表現力が優れる」機械学習モデルが得られる)。つまり、材料探索初期には機械学習モデルの「表現力不足」という問題が懸念される。そこで、本システム(100)では、部位(3)が、部位(2)で生成した0次特徴量X0に基づいて高次の特徴量を新たに合成し、機械学習が利用できる多数多様の特徴量を取得する。
【0037】
0次特徴量X0に対する演算は特に制限されず、演算種数n1も制限されない。立方根、シグモイド関数なども使用することができる。より高次の特徴量として、2次以上m次以下(mは2以上の整数)の組み合わせ特徴量Xmを合成することができる。例えば、特徴量Xmはf1(X0)・f2(X1),f1(X0)・f2(X1)・f3(X2),・・・(f1,f2,f3は関数)として合成される。
【0038】
例えば、部位(1)が58個の元素特徴量を取得し(n=58)、部位(3)が8種類の可換演算を行って0次特徴量X0を生成し(n0=8)、部位(4)が各0次特徴量X0に対して非線形性を考慮した12種類の演算:X0
0.5,X0
1,X0
2,X0
3,exp(X0),ln(X0),1/X0
0.5,1/X0,1/X0
2,1/X0
3,1/exp(X0),1/ln(X0
1)を行う(n1=12)。この場合、部位(4)で58×8×12=5568個の1次特徴量X1が合成される。
【0039】
この場合、さらに、5568個の1次特徴量X1から選ばれる2つ、換言すれば2種の組み合わせ演算で生成する特徴量として、2次特徴量X2を合成することができる。この場合、部位(4)はC(5568,2)個の2次特徴量X2を合成する。特徴量の個数は合計で5568+C(5568,2)=15504096個となる。
【0040】
このように、部位(4)が高次特徴量(X1,・・・Xm)を合成することによって、任意の組成物に対して割り当てられる各材料に多数の固有の特徴量を割り当てることができる。この割当過程で、実験データの結果(性能値)は参照されない。こうして本システム(100)では計算上、1の材料組成を極めて豊富な表現で記述することができる。その結果、本システム(100)では、部位(2)が取得した実験データが比較的少数であっても、後述の特徴量選択部(5)における機械学習に支障がない。
【0041】
[特徴量選択部(5)]
特徴量選択部(5)(以下「部位(5)」)は、ライブラリ(21)に格納された性能実測値を参照し、機械学習により回帰的に導かれたモデル:Ye=fe(S)(入力変数S:材料組成に基づく特徴量セット,目的変数Ye:材料の予測性能値,fe:関数演算)の誤差が最小となる特徴量を、特徴量付与部(3)及び特徴量合成部(4)で生成したX0,…,Xmから選択する部位である。
【0042】
部位(5)が行う特徴量選択のアルゴリズムは制限されない。遺伝的アルゴリズム(GA)などの進化的アルゴリズム、人工ニューラルネットワーク、ディープラーニングなどのニューラルネットベースのアルゴリズム、ランダムサンプルコンセンサスなどのいずれをも用いることができる。
【0043】
部位(5)が行う機械学習における推論部では、各種回帰・分類手法を制限なく使用することができる。例えば、フーバー回帰、ランダムフォレスト回帰(分類)、リッジ回帰、ラッソ回帰、分類木、ロジスティック回帰等の既知又は慣用の手法に基づく。
【0044】
機械学習に交差検証(CV)を導入することができる。交差検証の種類は制限されない。例えば、一つ抜き交差検証(LOOCV)、シャッフル分割交差検証、k分割交差検証などを用いることができる。
【0045】
モデル:Ye=fe(S)の誤差の評価指標は、データ数や材料探索の特徴に応じて適宜選択される。例えば平均絶対誤差(MAE)を用いる。この他に平均二乗誤差(MSE)、二乗平均平方根誤差(RMSE)、決定係数(r2)なども用いることができる。
【0046】
部位(5)は、予め設定された個数の特徴量を選択するようにプログラムされる。例えば、部位(5)で、フーバー回帰によって対応関係を推論し一つ抜き交差検証(LOOCV)を導入した遺伝的アルゴリズムで導かれたモデル:Ye=fe(S)(入力変数S:材料組成に基づく特徴量セット,目的変数Ye:材料の予測性能値,Pe:関数演算)の平均絶対誤差(MAE)が最小となる8つの1次特徴量X1を選択することができる。
【0047】
ライブラリ(21)に登録された実験データが更新されると、特徴量選択部(5)は更新された実験データを参照して、特徴量選択と機械学習を繰り返すことができる。
【0048】
[予測モデル生成部(6)]
予測モデル生成部(6)(以下「部位(6)」)は、特徴量選択部(5)で選択された特徴量に基づいて、予測モデル:Y=f(Sselected)(入力変数Sselected:X0,…,Xmから選択された特徴量セット,目的変数Y:材料の予測性能値,f:関数演算)を生成する部位である。
【0049】
例えば部位(5)で8つの1次特徴量X1を選択するよう学習と検証を行って、部位(6)が8個の1次特徴量X1のセットを入力変数Sselectedとする予測モデル:Y=f(Sselected)を生成することができる。
【0050】
[効果]
本システム(100)では、ライブラリ(11)、ライブラリ(21)、部位(3)の0次特徴量生成、部位(4)の高次特徴量合成、部位(5)の機械学習手法のいずれが更新された場合にも、予測モデル:Y=f(Sselected)が更新され得る。本システム(100)では、ライブラリ(21)に格納される実験データ数だけに頼ることなく、予測モデル:Y=f(Sselected)の精度を向上することができる。このような本システム(100)は、予備的知見の無い材料の探索に好適である。本システム(100)は、いわゆる網羅的な材料探索に有効な予測モデルを構築することができる。
【0051】
[適用例]
本システム(100)の適用分野は限定されない。構成元素の名称(種類)と各構成元素の量割合とにより記述され得る材料であれば、有機化合物、無機化合物、ポリマー類のいずれもが、本システム(100)を用いた探索の対象となり得る。本システム(100)によって、様々な材料探索で候補材料をハイスループットスクリーニングするための予測モデルを構築することができる。
【0052】
例えば、金属複合酸化物型の材料は、本システム(100)を用いた探索対象である。中でも、環境浄化やエネルギー供給の観点で注目されている各種触媒の網羅的探索に本システム(100)を利用することができる。このような触媒として例えばOCM触媒が挙げられる。
【0053】
OCM触媒の探索に本システム(100)を適用する場合は、予測モデル生成部(6)で、予測モデル:Y=fOCM(SOCM-selected)(入力変数SOCM-selected:OCM触媒候補の組成に基づき、特徴量付与部(3)及び特徴量合成部(4)で生成されたX0,…,Xmから選択された特徴量セット、目的変数Y:C2収率,fOCM:関数演算)を生成する。この予測モデルを使って、膨大なOCM触媒候補のC2収率を精度良く予測することができる。このような予測により、OCM触媒候補のハイスループットスクリーニングが可能となる。
【0054】
エタノールからブタジエンを合成する触媒に本システム(100)を適用する場合は、予測モデル生成部(6)で、予測モデル:Y=fC4H6(SC4H6-selected)(入力変数SC4H6-selected:触媒の候補の組成に基づき、特徴量付与部(3)及び特徴量合成部(4)で生成されたX0,…,Xmから選択された特徴量セット、目的変数Y:ブタジエン収率,fC4H6:関数演算)を生成する。この予測モデルを使って、膨大なエタノールからブタジエンを合成する触媒の候補のブタジエン収率を精度良く予測することができる。この場合も触媒候補のハイスループットスクリーニングが可能となる。
【0055】
排ガス浄化触媒に本システム(100)を適用する場合は、予測モデル生成部(6)で、予測モデル:Y=fTWC(STWC-selected)(入力変数STWC-selected:触媒の候補の組成に基づき、特徴量付与部(3)及び特徴量合成部(4)で生成されたX0,…,Xmから選択された特徴量セット、目的変数目的変数Y:NO浄化率が50%となる温度(T50),fTWC:関数演算)を生成する。この予測モデルを使って、膨大な排ガス浄化触媒候補のNO浄化率を精度良く予測することができる。この場合も触媒候補のハイスループットスクリーニングが可能となる。
【実施例0056】
[実施例1]
実施例1は、有用な材料の探索に本システム(100)を適用した例である。実施例1では、探索領域をM1-M2-M3/ZrO2型金属複合酸化物(M1,M2,M3は元素で互いに同じ場合を含む。担体:二酸化ジルコニウム。担持された金属の総量:担体1gに対して0.37mmmol)として、候補材料に対してOCM触媒性能:C2収率を出力する予測モデルを構築した。
【0057】
部位(1)が、XenonPyに実装された58個の元素特徴量を取得し(n=58)ライブラリ(11)に格納した。
【0058】
部位(2)が、開発者によって作成・保存された記録から60個の実験データを取得した。
【0059】
部位(3)が、ライブラリ(11)に登録された58個の元素特徴量に対して8種類の可換演算:最大値,最小値,加重和,加重偏差加重平方和,加重分散,加重乗積,加重幾何平均を行い(n0=8)、58×8=464個の0次特徴量X0を生成した。
【0060】
部位(4)が、部位(3)で付与した0次特徴量X0に対して非線形性を考慮した12種類の演算:X0
0.5,X0
1,X0
2,X0
3,exp(X0),ln(X0),1/X0
0.5,1/X0,1/X0
2,1/X0
3,1/exp(X0),1/ln(X0
1)を行い(n1=12)、58×8×12=5568個の1次特徴量X1を合成した。
【0061】
部位(5)が、部位(4)で合成した5568個の1次特徴量X1と実験データを参照しながら機械学習を実行した。遺伝的アルゴリズムによって、フーバー回帰における一つ抜き交差検証(LOOCV)を行い、モデルYe=feOCM1(S)(入力変数S:候補組成に基づく特徴量X1セット、目的変数Ye:C2収率,feOCM1:関数演算)の平均絶対誤差(MAE)が最小となる8個の特徴量を選択した。
【0062】
その結果、部位(6)がY=fOCM1(SOCM1-selected)(入力変数SOCM1-selected:選択された1次特徴量X1セット、目的変数Y:C2収率,fOCM1:関数演算)を生成した。
【0063】
構築された予測モデルの誤差(MAE)は1.47%であった。
図2に、構築された予測モデルの精度を理解するためのグラフを示す。実施例1では、60個という少ない実験データ個数を参照したにもかかわらず、実用性が期待される予測モデルが得られた。
【0064】
[実施例2]
実施例2では、本システム(100)をエタノールからブタジエンを合成する触媒の探索に適用した。探索領域は、触媒担体として用いられるメソポーラス材料として代表的なMCM担体に重複を許す組み合わせで14種類の元素を配置した金属化合物である。
【0065】
部位(1)が、実施例1と同じにデータを取得した。部位(2)が、開発者によって作成・保存された記録から179個の実験データを取得した。実施例1と同様に、部位(3)が58×8=464個の0次特徴量X0を生成し、部位(4)が5568個の1次特徴量X1を合成した。
【0066】
部位(5)が、実施例1と同様の経路で、モデルYe=feC4H6(S)(入力変数S:候補組成に基づく特徴量X1セット、目的変数Ye:ブタジエン収率,feC4H6:関数演算)の平均絶対誤差(MAE)が最小となる8個の特徴量を選択した。
【0067】
その結果、部位(6)がY=fC4H6(SC4H6-selected)(入力変数SC4H6-selected:選択された1次特徴量X1セット、目的変数Y:ブタジエン収率,fC4H6:関数演算)を生成した。
【0068】
構築された予測モデルの誤差(MAE)は3.25%であった。
図3に、構築された予測モデルの精度を理解するためのグラフを示す。実施例2では、179個という少ない実験データ個数を参照したにもかかわらず、実用性が期待される予測モデルが得られた。
【0069】
[実施例3]
実施例3では、本システム(100)を排ガス浄化触媒の探索に適用した。探索領域はセリウム・ジルコニウム複合酸化物担体(CeO2-ZrO2)に対して0.3重量%の種々の単元・二元・三元合金ナノ粒子を配置した金属化合物である。
【0070】
部位(1)が、実施例1と同じにデータを取得した。部位(2)が、開発者によって作成・保存された記録から39個の実験データを取得した。実施例1と同様に、部位(3)が58×8=464個の0次特徴量X0を生成し、部位(4)が5568個の1次特徴量X1を合成した。
【0071】
部位(5)が、実施例1と同様の経路で、モデルYe=feTWC(S)(入力変数S:候補組成に基づく特徴量X1セット、目的変数Ye:NO浄化率が50%となる温度(T50),feTWC:関数演算)の平均絶対誤差(MAE)が最小となる8個の特徴量を選択した。
【0072】
その結果、部位(6)がY=fTWC(STWC-selected)(入力変数STWC-selected:選択された1次特徴量X1セット、目的変数Y:NO浄化率が50%となる温度(T50),fTWC:関数演算)を生成した。
【0073】
構築された予測モデルの誤差(MAE)は8.55℃であった。
図3に、構築された予測モデルの精度を理解するためのグラフを示す。実施例3では、39個という少ない実験データ個数を参照したにもかかわらず、実用性が期待される予測モデルが得られた。
【0074】
[実施例4,5及び比較例1~6]
実施例4,5と比較例1~6は、本システム(100)の例が、未知の探索領域に対しても優れた予測モデルを構築できることを示す。
これらの例では、探索領域をM1-M2-M3/BaO型金属複合化合物(M1,M2,M3は元素で互いに同じ場合を含む。担体:酸化バリウム。担持された金属の総量:担体1gに対して0.37mmmol)として、候補材料に対してOCM触媒性能:C2収率を出力する予測モデルを構築した。
【0075】
部位(1)が実施例1と同じにデータを取得した。部位(2)が69個の実験データを取得した。部位(3)と部位(4)で表1に示す特徴量を出力した。部位(5)と部位(6)で、表1に示す手法を用いて最終的に部位(6)で予測モデルを出力し評価した。
【0076】
表1中の略記の意味は以下の通り。
GA:遺伝的アルゴリズム
SFS:逐次特徴選択
Huber:フーバー回帰
Huber*:許容損失εを1に設定したフーバー回帰
RFR:ランダムフォレスト回帰
MLR:線形重回帰
-:使用しなかった
【0077】
各例ではサンプルデータセットを90%の訓練データと10%の検証データに分割し、予測を50回繰り返すシャッフルスプリット交差検証法を用いた。検証データを用いた予測の決定係数(r2
CV)を表1に示す。訓練データを用いた予測の決定係数(r2
train)を表1に示す。
【0078】
実施例4,5のr2
CVは、比較例1~6のr2
CVより格段に大きい。実施例4,5では高次特徴量(X1,X2)の利用によって高精度の予測モデルの生成に成功したことが分かる。
【0079】
r2
trainとr2
CVの差は、相対的に実施例4,5で小さく比較例1~6で大きい。実施例グループでは検証データに対して訓練時と同レベルの予測を行い、比較例グループでは訓練時の予測精度が検証時に再現され難いこと(過学習)が分かる。
【0080】
すると、本発明システム(100)で得た予測モデルは未知の材料についても高い精度で予測できると言える。本システム(100)が生成する予測モデルは実験データの蓄積数が少ない探索領域にも有効であること、本システム(100)は予備知見が無い未知の材料のハイスループットスクリーニング手段となり得ることが、理解される。
【0081】
本発明を利用して、実験データが蓄積されていない領域においても優れた予測モデルを構築し、構築された予測モデルを使って材料候補をハイスループットスクリーニングすることができる。見いだされた候補材料は、実用化に向けた次の開発段階で利用される。本発明は結果的に、工業的あるいは商業的に有用な材料の開発を加速することができる。
本発明は「超広域材料探索を実現する材料イノベーション創出システム」をテーマとする助成研究から得られた基本的発明である。本助成研究の進展に従って、研究者及び開発者が本発明の改良と応用に成功することは言うまでもない。さらに、本助成研究が延長する先には、現時点では予想ができないものの、ハイスループット型材料探索における何らかの飛躍的進歩が到来する可能性がある。本発明は材料探索の新しい手法を産業界に提供することによって材料科学の進展に寄与することができる。