IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日立化成株式会社の特許一覧

特許7395974入力データ生成システム、入力データ生成方法、及び入力データ生成プログラム
<>
  • 特許-入力データ生成システム、入力データ生成方法、及び入力データ生成プログラム 図1
  • 特許-入力データ生成システム、入力データ生成方法、及び入力データ生成プログラム 図2
  • 特許-入力データ生成システム、入力データ生成方法、及び入力データ生成プログラム 図3
  • 特許-入力データ生成システム、入力データ生成方法、及び入力データ生成プログラム 図4
  • 特許-入力データ生成システム、入力データ生成方法、及び入力データ生成プログラム 図5
  • 特許-入力データ生成システム、入力データ生成方法、及び入力データ生成プログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-04
(45)【発行日】2023-12-12
(54)【発明の名称】入力データ生成システム、入力データ生成方法、及び入力データ生成プログラム
(51)【国際特許分類】
   G16C 20/30 20190101AFI20231205BHJP
   G06N 3/02 20060101ALI20231205BHJP
   G06N 20/00 20190101ALI20231205BHJP
   G16C 20/70 20190101ALI20231205BHJP
【FI】
G16C20/30
G06N3/02
G06N20/00 130
G16C20/70
【請求項の数】 10
(21)【出願番号】P 2019204472
(22)【出願日】2019-11-12
(65)【公開番号】P2021077187
(43)【公開日】2021-05-20
【審査請求日】2022-09-22
(73)【特許権者】
【識別番号】000004455
【氏名又は名称】株式会社レゾナック
(74)【代理人】
【識別番号】100088155
【弁理士】
【氏名又は名称】長谷川 芳樹
(74)【代理人】
【識別番号】100128381
【弁理士】
【氏名又は名称】清水 義憲
(74)【代理人】
【識別番号】100169454
【弁理士】
【氏名又は名称】平野 裕之
(74)【代理人】
【識別番号】100124800
【弁理士】
【氏名又は名称】諏澤 勇司
(72)【発明者】
【氏名】花岡 恭平
【審査官】渡邉 加寿磨
(56)【参考文献】
【文献】国際公開第2018/168580(WO,A1)
【文献】特開平9-259156(JP,A)
【文献】特開2004-86892(JP,A)
【文献】特開2001-256420(JP,A)
【文献】特開平10-55348(JP,A)
【文献】米国特許出願公開第2019/0286791(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16C 10/00-99/00
G06Q 10/00-99/00
G16Z 99/00
G06N 3/02
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサを備え、
前記少なくとも1つのプロセッサが、
第1の分子に対応した分子グラフを特定する第1の分子グラフデータと、第2の分子に対応した分子グラフを特定する第2の分子グラフデータと、前記第1の分子及び前記第2の分子の混合率を表す混合率データとの入力を少なくとも受け付け、
前記第1の分子グラフデータと第2の分子グラフデータとを少なくとも組み合わせて合成分子グラフデータを生成し、
前記合成分子グラフデータを特徴ベクトルに変換し、
前記特徴ベクトルに前記混合率データを反映することにより機械学習用の入力データを生成する、
入力データ生成システム。
【請求項2】
前記少なくとも1つのプロセッサは、
前記第1の分子グラフデータ及び第2の分子グラフデータとして分子グラフのノードを特定するノード情報を受け付け、
前記第1の分子グラフデータに含まれる前記ノード情報と、前記第2の分子グラフデータに含まれる前記ノード情報とを組み合わせて前記合成分子グラフデータを生成し、
前記特徴ベクトルのうちの前記第1の分子グラフデータのノード情報に対応するベクトルに前記第1の分子の前記混合率を反映し、前記特徴ベクトルのうちの前記第2の分子グラフデータのノード情報に対応するベクトルに前記第2の分子の前記混合率を反映することにより、前記入力データを生成する、
請求項1に記載の入力データ生成システム。
【請求項3】
前記少なくとも1つのプロセッサは、
前記第1及び第2の分子グラフデータのノード情報に対応するベクトルに対して、前記第1及び第2の分子のそれぞれの前記混合率を、乗算、加算、あるいは連結する、
請求項2に記載の入力データ生成システム。
【請求項4】
前記少なくとも1つのプロセッサは、
前記第1の分子グラフデータ及び第2の分子グラフデータとして分子グラフのエッジを特定するエッジ情報をさらに受け付け、
前記第1の分子グラフデータに含まれる前記エッジ情報と、前記第2の分子グラフデータに含まれる前記エッジ情報とを組み合わせて前記合成分子グラフデータを生成し、
前記特徴ベクトルのうちの前記第1の分子グラフデータのエッジ情報に対応するベクトルに前記第1の分子の前記混合率を反映し、前記特徴ベクトルのうちの前記第2の分子グラフデータのエッジ情報に対応するベクトルに前記第2の分子の前記混合率を反映することにより、前記入力データを生成する、
請求項1~3のいずれか1項に記載の入力データ生成システム。
【請求項5】
前記少なくとも1つのプロセッサは、
前記第1及び第2の分子グラフデータのエッジ情報に対応するベクトルに対して、前記第1及び第2の分子のそれぞれの前記混合率を、乗算、加算、あるいは連結する、
請求項4に記載の入力データ生成システム。
【請求項6】
前記少なくとも1つのプロセッサは、
前記第1の分子グラフデータ及び第2の分子グラフデータとして、結合しうる分子グラフのノードを特定する結合ノード情報をさらに受け付け、
前記第1の分子グラフデータに含まれる前記結合ノード情報の示すノード、及び前記第2の分子グラフデータに含まれる前記結合ノード情報の示すノードのうちの2つのノードを結合するエッジに関する追加エッジ情報を生成し、前記追加エッジ情報を追加して前記合成分子グラフデータを生成し、
前記特徴ベクトルのうちの前記追加エッジ情報に対応するベクトルに前記第1の分子及び前記第2の分子の前記混合率を反映することにより、前記入力データを生成する、
請求項1~5のいずれか1項に記載の入力データ生成システム。
【請求項7】
前記機械学習は、グラフを入力とするニューラルネットワークである、
請求項1~6のいずれか1項に記載の入力データ生成システム。
【請求項8】
前記第1の分子及び前記第2の分子は、モノマーであり、
前記混合率データは、第1の分子及び第2の分子を基に生成されるポリマーアロイにおける前記第1の分子及び前記第2の分子の混合率を表す、
請求項1~7のいずれか1項に記載の入力データ生成システム。
【請求項9】
少なくとも1つのプロセッサを備えるコンピュータにより実行される入力データ生成方法であって、
第1の分子に対応した分子グラフを特定する第1の分子グラフデータと、第2の分子に対応した分子グラフを特定する第2の分子グラフデータと、前記第1の分子及び前記第2の分子の混合率を表す混合率データとの入力を少なくとも受け付けるステップと、
前記第1の分子グラフデータと第2の分子グラフデータとを少なくとも組み合わせて合成分子グラフデータを生成するステップと、
前記合成分子グラフデータを特徴ベクトルに変換するステップと、
前記特徴ベクトルに前記混合率データを反映することにより機械学習用の入力データを生成するステップと、
を備える入力データ生成方法。
【請求項10】
コンピュータに、
第1の分子に対応した分子グラフを特定する第1の分子グラフデータと、第2の分子に対応した分子グラフを特定する第2の分子グラフデータと、前記第1の分子及び前記第2の分子の混合率を表す混合率データとの入力を少なくとも受け付けるステップと、
前記第1の分子グラフデータと第2の分子グラフデータとを少なくとも組み合わせて合成分子グラフデータを生成するステップと、
前記合成分子グラフデータを特徴ベクトルに変換するステップと、
前記特徴ベクトルに前記混合率データを反映することにより機械学習用の入力データを生成するステップと、
を実行させる入力データ生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の一側面は、入力データ生成システム、入力データ生成方法、及び入力データ生成プログラムに関する。
【背景技術】
【0002】
従来から、分子の構造を所定のフォーマットで取得しそれをベクトル情報に変換して機械学習アルゴリズムに入力して特性を予測することが行われている。例えば、生体高分子の立体構造と化合物の立体構造との結合性を機械学習を用いて予測する方法が知られている(下記特許文献1参照)。この方法では、生体高分子の立体構造と化合物の立体構造とに基づいて生体高分子と化合物との複合体の予測立体構造を生成し、その予測立体構造を予測立体構造ベクトルに変換し、機械学習アルゴリズムを用いてその予測立体構造ベクトルを判別することによって生体高分子の立体構造と化合物の立体構造との結合性を予測している。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2019-28879号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
近年では、分子グラフを入力としたニューラルネットワークによって物質の特性を予測する技術が知られている。しかしながら、この技術では、複数種類の成分を様々な配合比で混合した多成分物質の特性を効率よく予測することは実現されていない。また、多成分物質に関しては一般に立体構造を予め知ることは難しい傾向にあるため、上記特許文献1の方法を用いて多成分物質の特性を予測することもできない。そこで、複数種類の成分が混合された多成分物質の特性を効率よく予測させるための仕組みが望まれている。
【課題を解決するための手段】
【0005】
本開示の一形態の入力データ生成システムは、少なくとも1つのプロセッサを備え、少なくとも1つのプロセッサが、第1の分子に対応した分子グラフを特定する第1の分子グラフデータと、第2の分子に対応した分子グラフを特定する第2の分子グラフデータと、第1の分子及び第2の分子の混合率を表す混合率データとの入力を少なくとも受け付け、第1の分子グラフデータと第2の分子グラフデータとを少なくとも組み合わせて合成分子グラフデータを生成し、合成分子グラフデータを特徴ベクトルに変換し、特徴ベクトルに混合率データを反映することにより機械学習用の入力データを生成する。
【0006】
あるいは、本開示の他の形態の入力データ生成方法は、少なくとも1つのプロセッサを備えるコンピュータにより実行される入力データ生成方法であって、第1の分子に対応した分子グラフを特定する第1の分子グラフデータと、第2の分子に対応した分子グラフを特定する第2の分子グラフデータと、第1の分子及び第2の分子の混合率を表す混合率データとの入力を少なくとも受け付けるステップと、第1の分子グラフデータと第2の分子グラフデータとを少なくとも組み合わせて合成分子グラフデータを生成するステップと、合成分子グラフデータを特徴ベクトルに変換するステップと、特徴ベクトルに混合率データを反映することにより機械学習用の入力データを生成するステップと、を備える。
【0007】
あるいは、本開示の他の形態の入力データ生成プログラムは、コンピュータに、第1の分子に対応した分子グラフを特定する第1の分子グラフデータと、第2の分子に対応した分子グラフを特定する第2の分子グラフデータと、第1の分子及び第2の分子の混合率を表す混合率データとの入力を少なくとも受け付けるステップと、第1の分子グラフデータと第2の分子グラフデータとを少なくとも組み合わせて合成分子グラフデータを生成するステップと、合成分子グラフデータを特徴ベクトルに変換するステップと、特徴ベクトルに混合率データを反映することにより機械学習用の入力データを生成するステップと、を実行させる。
【0008】
上記形態によれば、第1の分子の分子構造を特定するデータと第2の分子の分子構造を特定するデータとが組み合わされて合成分子グラフデータが生成され、その合成分子グラフデータが特徴ベクトルに変換され、その特徴ベクトルに第1の分子及び第2の分子の混合率を表すデータが反映されて機械学習用の入力データが生成される。このような構成により、分子グラフを入力とするニューラルネットワークに入力させるための多成分物質に関する入力データを効率的に生成することができる。その結果、複数種類の成分を含む多成分物質であっても、ニューラルネットワークによって入力データを処理させることにより、多成分物質の特性を高精度に予測させることができる。
【発明の効果】
【0009】
本開示の側面によれば、複数種類の成分を含む多成分物質の特性を高精度に予測させることができる。
【図面の簡単な説明】
【0010】
図1】実施形態に係る入力データ生成システムを構成するコンピュータのハードウェア構成の一例を示す図である。
図2】実施形態に係る入力データ生成システムの機能構成の一例を示す図である。
図3図2の取得部11が取得する分子グラフデータによって特定される分子グラフの一例を示す図である。
図4図2の合成部12が図3に示す第1の分子グラフ及び第2の分子グラフを組み合わせて生成した多成分物質の分子グラフの一例を示す図である。
図5】実施形態に係る入力データ生成システムの動作の一例を示すフローチャートである。
図6】実施形態に係る入力データ生成システムの動作において扱われる分子データの一例を示す図である。
【発明を実施するための形態】
【0011】
以下、添付図面を参照して、本発明の実施形態について詳細に説明する。なお、説明において、同一要素又は同一機能を有する要素には、同一符号を用いることとし、重複する説明は省略する。
【0012】
[システムの概要]
実施形態に係る入力データ生成システム10は、複数種類の成分を様々な混合比で混合することにより生成される多成分物質を表現する入力データの生成処理を実行するコンピュータシステムである。成分とは、多成分物質を生成するために用いられる特定の分子構造を有する化学物質のことをいい、例えば、モノマー、ポリマー、または、低分子添加剤、溶質分子、ガス分子等の単分子である。1つの成分には複数種類の分子が含まれていてもよい。多成分物質とは、複数の成分を所定の混合比で混合することによって生成される化学物質であり、例えば、成分がモノマーの場合はポリマーアロイ、成分がポリマーの場合はポリマーブレンド、成分が溶質分子あるいは溶媒の場合には混合溶液、成分がガス分子の場合は混合気体である。
【0013】
入力データ生成システム10によって生成された入力データは、機械学習用の入力データとして、多成分物質の特性を予測するために用いられる。多成分物質の特性とは、例えば、多成分物質が樹脂の場合は、ガラス転移温度、融点などの熱物性、機械物性、接着性等である。また、多成分物質の特性は、多成分物質が他の種類の物質の場合は、薬剤の薬効あるいは毒性、可燃物の発火点等の危険性、外観上の特性、特定の用途に対する適正等である。入力データが入力される機械学習とは、与えられた情報に基づいて反復的に学習することで法則またはルールを自律的に見つけ出す手法である。機械学習の具体的な手法は限定されない。例えば、機械学習は、ニューラルネットワークを含んで構成される計算モデルである機械学習モデルを用いた機械学習であってよい。ニューラルネットワークとは、人間の脳神経系の仕組みを模した情報処理のモデルのことをいう。より具体的な例として、機械学習は、グラフを入力とするニューラルネットワーク、グラフを入力とする畳み込みニューラルネットワークのうちの少なくとも一つを用いたものである。
【0014】
[システムの構成]
入力データ生成システム10は1台以上のコンピュータで構成される。複数台のコンピュータを用いる場合には、これらのコンピュータがインターネット、イントラネット等の通信ネットワークを介して接続されることで、論理的に一つの入力データ生成システム10が構築される。
【0015】
図1は、入力データ生成システム10を構成するコンピュータ100の一般的なハードウェア構成の一例を示す図である。例えば、コンピュータ100は、オペレーティングシステム、アプリケーション・プログラム等を実行するプロセッサ(例えばCPU)101と、ROMおよびRAMで構成される主記憶部102と、ハードディスク、フラッシュメモリ等で構成される補助記憶部103と、ネットワークカードまたは無線通信モジュールで構成される通信制御部104と、キーボード、マウス、タッチパネル等の入力装置105と、モニタ、タッチパネルディスプレイ等の出力装置106とを備える。
【0016】
入力データ生成システム10の各機能要素は、プロセッサ101または主記憶部102の上に予め定められたプログラムを読み込ませてプロセッサ101にそのプログラムを実行させることで実現される。プロセッサ101はそのプログラムに従って、通信制御部104、入力装置105、または出力装置106を動作させ、主記憶部102または補助記憶部103におけるデータの読み出しおよび書き込みを行う。処理に必要なデータまたはデータベースは主記憶部102または補助記憶部103内に格納される。
【0017】
図2は入力データ生成システム10の機能構成の一例を示す図である。入力データ生成システム10は機能要素として取得部11、合成部12、追加部13、ベクトル変換部14、および混合率反映部15を備える。
【0018】
取得部11は、複数の成分の分子グラフデータ、及びこれらの複数の成分を混合して混合物を生成することを想定した場合のそれぞれの複数の成分の混合率を表す混合率データとの入力を受け付ける機能要素である。取得部11は、これらのデータを入力データ生成システム10内のデータベースから入力データ生成システム10のユーザによる選択入力に応じて取得してもよいし、外部のコンピュータ等からユーザによる選択に応じて取得してもよい。
【0019】
具体的には、取得部11は、第1の成分に含まれる第1の分子に対応した分子グラフを特定する第1の分子グラフデータと、第2の成分に含まれる第2の分子に対応した分子グラフを特定する第2の分子グラフデータとを少なくとも取得する。これらの分子グラフデータとは、分子構造をノード及びエッジで表現した無向グラフの構造を特定するデータであり、例えば、無向グラフの構造を、数字、英字、テキスト、ベクトル等で特定するデータでもよいし、二次元画像、三次元画像等によって可視化するデータであってもよいし、これらのデータのうちの任意の2以上の組合せのデータであってもよい。分子グラフデータを構成する個々の数値は、十進法で表されてもよいし、二進法、十六進法などの他の表記法によって表されてもよい。より詳細には、取得部11は、第1の成分である第1のモノマーの分子グラフを特定する第1の分子グラフデータと、第2の成分である第2のモノマーの分子グラフを特定する第2の分子グラフデータを少なくとも取得する。
【0020】
図3には、(a)部に第1の分子グラフの構造の一例を示し、(b)部に第2の分子グラフの構造の一例を示す。図3の(a)部に示す第1の分子グラフは、原子“A”のノードN1と原子“B”のノードN2とがエッジE12によって結合され、ノードN2と原子“C”のノードN3とがエッジE23によって結合された構造を有する。第1の分子グラフデータには、各ノードN1~N3を特定するノード情報と、各エッジE12,E23を特定するエッジ情報が含まれている。さらに、第1の分子グラフにおいては、ノードN1及びノードN3が他のノードとさらに確率的に結合しうる性質を有するノードである。例えば、第1の分子グラフが直鎖構造のモノマーである場合は、端部のノードN1,N3が確率的に結合しうる性質を有する。ここでいう「確率的に結合しうる」とは、他のノードと結合が確率的に生じる、言い換えれば、結合する場合と結合しない場合が生じうることを意味する。第1の分子グラフがこのようなノードを有する場合には、第1の分子グラフデータには、さらに結合しうるノード(例えば、ノードN1,N3)を特定する結合ノード情報も含まれる。この結合ノード情報には、そのノードの結合先のノードあるいは結合先のノードの種類(原子等)を限定する限定情報が含まれていてもよい。
【0021】
同様に、図3の(b)部に示す第2の分子グラフは、原子“D”のノードN4と原子“E”のノードN5とがエッジE45によって結合され、ノードN5と原子“F”のノードN6とがエッジE56によって結合された構造を有する。第2の分子グラフデータには、各ノードN4~N6を特定するノード情報と、各エッジE45,E56を特定するエッジ情報が含まれている。さらに、第2の分子グラフにおいては、第1の分子グラフと同様に、ノードN4及びノードN6が他のノードとさらに結合しうる性質を有するノードである。第2の分子グラフがこのようなノードを有する場合には、第2の分子グラフデータには、さらに結合しうるノードを特定する結合ノード情報も含まれる。この結合ノード情報には、そのノードの結合先のノードあるいは結合先のノードの種類を限定する情報が含まれていてもよい。
【0022】
また、取得部11は、複数の成分の混合率rを表す混合率データとして、それぞれの成分の混合率自体を示すデータを取得してもよいし、複数の成分間の混合比を示すデータを取得してもよいし、複数の成分のそれぞれの混合量(重量、体積等)を絶対値あるいは相対値で示すデータを取得してもよい。例えば、第1の成分である第1のモノマーの混合率r=“0.5”と、第2の成分である第2のモノマーの混合率r=“0.5”とを取得する。
【0023】
合成部12は、複数の成分の分子グラフを組み合わせて、多成分物質の分子グラフに対応する合成分子グラフデータを生成する。ここで、合成部12は、少なくとも第1の分子グラフデータと第2の分子グラフデータとを参照して、第1の分子グラフと第2の分子グラフを組み合わせた多成分物質の分子グラフを特定する合成分子グラフデータを生成する。図4には、図3に示す第1の分子グラフ及び第2の分子グラフを組み合わせて生成した多成分物質の分子グラフの一例を示している。このように、合成部12は、第1の分子グラフデータから特定されるノードN1,N2,N3に関するノード情報及びエッジE12,E23に関するエッジ情報と、第2の分子グラフデータから特定されるノードN4,N5,N6に関するノード情報及びエッジE45,E56に関するエッジ情報とを、そのまま組み合わせることによって合成分子グラフデータを生成する。そして、合成部12は、生成した合成分子グラフデータにおけるノードの集合を特定する集合データVと、合成分子グラフデータにおけるエッジの集合を特定する集合データEとを生成する。例えば、合成部12は、図4の例においては、各ノードの分子を識別する識別子を用いて、集合データV={A,B,C,D,E,F}、集合データE={AB,BC,DE,EF}を生成し、これらの集合データV,Eを組み合わせたグラフデータG=(V,E)を合成分子グラフデータを代表するデータとする。
【0024】
追加部13は、合成部12によって生成された合成分子グラフデータに対して、その合成分子グラフデータによって特定される多成分物質の分子グラフ中の2つのノードを結合する追加エッジ情報を追加することにより、合成分子グラフデータを再生成する。詳細には、追加部13は、第1の分子グラフデータに含まれる結合ノード情報と第2の分子グラフデータに含まれる結合ノード情報とを少なくとも参照して、第1の分子グラフ中のさらに結合しうるノードと、第2の分子グラフ中のさらに結合しうるノードとのうちから2つのノードの組み合わせを抽出する。そして、追加部13は、抽出したノードの組み合わせを結合する追加エッジ情報を、合成分子グラフデータに追加する。例えば、図4の例においては、ノードN1,N3,N4,N6がさらに結合しうるノードとして指定されているので、追加部13は、ノードN1とノードN3とを結合するエッジE13、ノードN1とノードN6とを結合するエッジE16、ノードN3とノードN4とを結合するエッジE34、及びノードN4とノードN6とを結合するエッジE46に関する追加エッジ情報を追加する。このとき、追加部13は、ノードの組み合わせを抽出する際には、結合ノード情報に含まれる限定情報を参照して結合しうる組み合わせを限定してもよいし、ノード間で化学結合が起こりうる原子の組み合わせを判断して抽出してもよい。図4に示す分子グラフは、追加部13が限定情報を参照して組み合わせを抽出した例であり、限定情報により、ノードN1の結合先がノードN3,N6に限定され、ノードN3の結合先がノードN1,N4に限定されている例である。そして、追加部13は、合成分子グラフデータにおける集合データEに対して追加エッジ情報の示すエッジを追加して集合データE’を生成し、集合データV,E’を組みわせたグラフデータG’=(V,E’)を合成分子グラフデータを代表するデータとする。例えば、図4の例に従えば、追加部13は、集合データE’={AB,AC,AF,BC,CD,DE,DF,EF}を生成する。
【0025】
ベクトル変換部14は、追加部13によって生成された合成分子グラフデータを代表するグラフデータG’を特徴ベクトルFに変換する。具体的には、ベクトル変換部14は、グラフデータG’に含まれるノードに関する集合データVを変換する際には、集合データVの各元のノードを構成する原子の特徴を表す数値を順番に並べたベクトル要素に変換する。原子の特徴を表す数値とは、原子番号、電気陰性度等である。また、ベクトル変換部14は、グラフデータG’に含まれるエッジに関する集合データE’を変換する際には、集合データE’の各元のエッジの特徴を表す数値を順番に並べたベクトル要素に変換する。エッジの特徴を表す数値とは、結合次数、結合距離等である。ベクトル変換部14は、集合データVを変換したベクトル要素と集合データE’を変換したベクトル要素とを別々のベクトルとして含む特徴ベクトルFを生成する。
【0026】
混合率反映部15は、ベクトル変換部14によって生成された特徴ベクトルFに混合率データを反映し、混合率が反映された特徴ベクトルfを基に機械学習用の入力データを生成する。すなわち、混合率反映部15は、特徴ベクトルFの要素のうち成分の分子グラフのノードに対応する要素に対してはその成分に対応する混合率rを反映する。例えば、混合率反映部15は、第1の分子グラフのノードの原子に対応するベクトル要素に対しては第1の分子によって構成される第1の成分の混合率rを反映し、第2の分子グラフのノードの原子に対応するベクトル要素に対しては第2の分子によって構成される第2の成分の混合率rを反映する。また、混合率反映部15は、特徴ベクトルFの要素のうち成分の分子グラフのエッジに対応する要素に対してはその成分に対応する混合率を反映する。例えば、混合率反映部15は、第1の分子グラフのエッジに対応するベクトル要素に対しては第1の分子によって構成される第1の成分の混合率rを反映し、第2の分子グラフのエッジに対応するベクトル要素に対しては第2の分子によって構成される第2の成分の混合率rを反映する。混合率の反映は、ベクトル要素の各要素に対して混合率rを乗算、加算するか、あるいは、ベクトル要素に混合率rの要素を連結することによって行われる。
【0027】
また、混合率反映部15は、特徴ベクトルFのベクトル要素のうち追加部13によって追加された追加エッジ情報に対応するエッジのベクトル要素に対しては、次のようにして混合率データを反映する。すなわち、混合率反映部15は、エッジによって結合される2つのノードが属する分子グラフに対応する1つあるいは2つの成分の混合率rを、そのエッジのベクトル要素に反映する。すなわち、混合率反映部15は、一方のノードが属する成分の混合率がriであり、他方のノードが属する成分の混合率がrjの場合は、そのエッジのベクトル要素には2つの成分の混合率ri,rjの乗算値ri×rjを反映する。例えば、該当のエッジが1つの分子グラフのノード間を結合するものである場合は、そのエッジのベクトル要素には当該1つの分子グラフに対応する成分の混合率rの2乗の値を反映し、該当のエッジが2つの分子グラフのノード間を結合するものである場合は、そのエッジのベクトル要素には当該2つの分子グラフに対応する2つの成分の混合率rの乗算値を反映する。言い換えれば、該当のエッジが第1の分子グラフ内の2つのノード間を結合するものである場合は、そのエッジのベクトル要素には第1の分子によって構成される成分の混合率rのみを反映し、該当のエッジが第1の分子グラフのノードと第2の分子グラフのノード間を結合するものである場合は、そのエッジのベクトル要素には、第1の分子によって構成される第1の成分の混合率rと、第2の分子によって構成される第2の成分の混合率rとの両方を反映する。混合率の反映は、ベクトル要素の各要素に対して混合率rを乗算、加算するか、あるいは、ベクトル要素に混合率rの要素を連結することによって行われ、2つの成分の混合率r,rの反映は、2つの成分の混合率を乗算した数値r×rを反映することにより行われる。
【0028】
さらに、混合率反映部15は、生成した入力データを外部に出力する。出力された入力データは、入力データ生成システム10の外部に接続されたコンピュータ内のトレーニング部20によって読み込まれる。そして、トレーニング部20において、その入力データが説明変数として任意の教師ラベルとともに機械学習モデルに入力されることにより、学習済みモデルが生成される。さらに、トレーニング部20によって生成された学習済みモデルを基に予測器30内の機械学習モデルが設定される。ただし、トレーニング部20と予測器30は同一の機能部であってもよい。そして、入力データ生成システム10によって生成された入力データが予測器30内の機械学習モデルに入力されることによって、予測器30によって多成分物質の特性の予測結果が生成および出力される。なお、これらのトレーニング部20および予測器30は、入力データ生成システム10を構成するコンピュータ100と同一のコンピュータ内に構成されてもよいし、コンピュータ100と別体のコンピュータ内に構成されてもよい。
【0029】
一例では、トレーニング部20の生成する機械学習モデルは、推定精度が最も高いと期待される学習済みモデルであり、したがって「最良の機械学習モデル」ということができる。しかし、この学習済みモデルは“現実に最良である”とは限らないことに留意されたい。学習済みモデルは、入力データと出力データとの多数の組合せを含む教師データをコンピュータが処理することで生成される。コンピュータは、入力データを機械学習モデルに入力することで出力データを算出し、算出された出力データと、教師データで示される出力データとの誤差(すなわち、推定結果と正解との差)を求める。そして、コンピュータはその誤差に基づいて機械学習モデルであるニューラルネットワークの所与のパラメータを更新する。コンピュータはこのような学習を繰り返すことで学習済みモデルを生成する。学習済みモデルを生成する処理は学習フェーズということができ、その学習済みモデルを利用する予測器30の処理は運用フェーズということができる。
【0030】
[システムの動作]
図5および図6を参照しながら、入力データ生成システム10の動作を説明するとともに本実施形態に係る入力データ生成方法について説明する。図5は入力データ生成システム10の動作の一例を示すフローチャートである。図6は、入力データ生成システム10の動作において扱われる分子データの一例を示す図である。
【0031】
まず、入力データ生成システム10のユーザの指示入力を契機に入力データ生成処理が開始されると、取得部11によって、複数の成分それぞれについての分子グラフデータ、及びそれぞれの複数の成分に関する混合率データが取得される(ステップS1)。この際、取得部11によって、第1の成分に含まれる第1の分子の分子グラフを特定する第1分子グラフデータと、第2の成分に含まれる第2の分子の分子グラフを特定する第2分子グラフデータと、それらの第1の成分及び第2の成分に関する混合率データとが少なくとも取得される。図6の(a)部は、取得部11によって取得される第1の分子グラフデータの示す分子グラフの一例を示し、図6の(b)部は、取得部11によって取得される第2の分子グラフデータの示す分子グラフの一例を示している。この例では、第1の分子としてポリプロピレン、第2の分子としてポリブチレンが例示されている。例えば、混合率データとしては、第1の成分であるポリプロピレンの混合率r=“0.5”、及び第2の成分であるポリブチレンの混合率r=“0.5”が取得される。
【0032】
その後、合成部12によって、複数の成分の分子グラフデータが組み合わせることにより混合物に関する合成分子グラフデータが生成されるとともに、合成分子グラフデータにおけるノードの集合を特定する集合データVが各分子グラフのノードを識別する情報を組み合わせることによって生成される(ステップS2)。加えて、合成部12によって、合成分子グラフデータにおけるエッジの集合を特定する集合データEが各分子グラフのエッジを識別する情報を組み合わせることによって生成され、集合データV,Eを組み合わせた合成分子グラフデータを代表するグラフデータG=(V,E)が生成される(ステップS3)。例えば、図6(a),図6(b)の例においては、第1の分子グラフデータの示すノードの集合データV1={Cα,Cβ,Cγ}と、第2の分子グラフデータの示すノードの集合データV2={Cδ,Cε,Cζ,Cη}とを組み合わせて合成分子グラフデータに関するノードの集合データV={Cα,Cβ,Cγ,Cδ,Cε,Cζ,Cη}が生成される。また、第1の分子グラフデータの示すエッジの集合データE1={Cαβ,Cβγ}と、第2の分子グラフデータの示すエッジの集合データE2={Cδε,Cεζ,Cζη}とを組み合わせて合成分子グラフデータに関するエッジの集合データE={Cαβ,Cβγ,Cδε,Cεζ,Cζη}が生成される。
【0033】
次に、追加部13によって、複数の成分の分子グラフ上でさらに結合しうる2つのエッジ(反応点)が抽出され、それらの2つの反応点を結合する追加エッジ情報が、合成分子グラフデータに追加される(ステップS4)。このとき、追加部13によって、集合データEに対して追加エッジ情報の示すエッジが追加されることにより、合成分子グラフデータにおけるエッジの集合を特定する集合データE’が再生成され、集合データV,E’を組み合わせた合成分子グラフデータを代表するグラフデータG’=(V,E’)が再生成される。例えば、図6(a),図6(b)の例においては、追加エッジ情報の示すエッジ{Cαδ,Cβδ,Cαε,Cβε}が追加されて、集合データE’={Cαβ,Cβγ,Cδε,Cεζ,Cζη,Cαδ,Cβδ,Cαε,Cβε}が再生成される。
【0034】
さらに、ベクトル変換部14により、合成分子グラフデータを代表するグラフデータG’が一定の変換ルールで特徴ベクトルFに変換される(ステップS5)。この変換ルールとしては、集合データVの元に関しては、各元の原子を表す特徴(例えば、電気陰性度、原子番号)をベクトル要素中に並べること、集合データE’の元に関しては、各元のエッジを表す特徴(例えば、結合次数、結合距離)をベクトル要素中に並べることが適用される。特徴ベクトルFは、グラフデータG’の各元から変換されたベクトルが順番に一次元的に連結されることで生成される。例えば、集合データVの元{Cα}が、原子番号及び電気陰性度を並べたベクトル[12,2.55]に変換され、集合データE’の元{Cαβ}が結合次数及び結合距離(オングストローム)を並べたベクトル[1,1.53]に変換される。
【0035】
その後、混合率反映部15により、特徴ベクトルFに混合率データが反映され、反映された特徴ベクトルfと合成分子グラフデータとが組み合わされて入力データが生成され、その入力データがトレーニング部20に出力される(ステップS6)。混合率を反映する際には、特徴ベクトルFの要素のうちある成分の分子グラフのノード及びエッジに対応する要素に対してはその成分の混合率rが反映され、特徴ベクトルFの要素のうち追加エッジ情報に対応するエッジに対応する要素に対しては、エッジによって接続される2つのノードが属する成分の混合率rが反映される。例えば、図6(a),図6(b)の例においては、追加エッジ情報に対応するエッジに対応する要素以外においては、混合率r=r=“0.5”が反映され、追加エッジ情報に対応するエッジに対応する要素においては、そのエッジによって接続される2つのノードが同一の分子グラフに属する場合には混合率r (またはr )=“0.25”が反映され、そのエッジによって接続される2つのノードが別々の分子グラフに属する場合には混合率r×r=“0.25”が反映される。このとき、混合率の反映は、ベクトル要素に対して混合率を、乗算、加算、あるいは連結することによって行われる。例えば、ベクトル要素[12,2.55]に対して混合率r=“0.5”を乗算して反映する場合には、[12×0.5,2.55×0.5]=[6,1.275]と設定される。また、例えば、ベクトル要素[12,2.55]に対して混合率r=“0.5”を連結して反映する場合には、[12,2.55,0.5]と設定される。
【0036】
次に、トレーニング部20において、学習フェーズが実行され、入力データと教師データとを用いてトレーニングを繰り返すことで学習済みモデルが生成される(ステップS7)。そして、生成された学習済みモデルが予測器30に設定され、予測器30により、新たに入力データ生成システム10から取得される入力データを用いて運用フェーズが実行され、多成分物質の特性の予測結果が生成および出力される(ステップS8)。
【0037】
[プログラム]
コンピュータまたはコンピュータシステムを入力データ生成システム10として機能させるための入力データ生成プログラムは、該コンピュータシステムを取得部11、合成部12、追加部13、ベクトル変換部14、および混合率反映部15として機能させるためのプログラムコードを含む。この入力データ生成プログラムは、CD-ROM、DVD-ROM、半導体メモリ等の有形の記録媒体に固定的に記録された上で提供されてもよい。あるいは、入力データ生成プログラムは、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。提供された入力データ生成プログラムは例えば補助記憶部103に記憶される。プロセッサ101が補助記憶部103からその入力データ生成プログラムを読み出して実行することで、上記の各機能要素が実現する。
【0038】
[効果]
以上説明したように、上記実施形態によれば、第1の分子の分子構造を特定するデータと第2の分子の分子構造を特定するデータとが組み合わされて合成分子グラフデータが生成され、その合成分子グラフデータが特徴ベクトルに変換され、その特徴ベクトルに第1の分子及び第2の分子の混合率を表すデータが反映されて機械学習用の入力データが生成される。このような構成により、分子グラフを入力とするニューラルネットワークに入力させるための多成分物質に関する入力データを効率的に生成することができる。その結果、複数種類の成分を含む多成分物質であっても、ニューラルネットワークによって入力データを処理させることにより、多成分物質の特性を高精度に予測させることができる。特にモノマーを混合して生成されるポリマーアロイの特性を高精度に予測させることができる。
【0039】
また、上記実施形態においては、成分の分子を構成する原子の情報であるノード情報にその分子の混合率を反映することにより、多成分物質を表現する入力データを適切に生成できる。その結果、多成分物質の特性をより高精度に予測させることができる。特に、分子グラフデータのノード情報に対応するベクトルに対して、成分の混合率を、乗算、加算、あるいは連結することにより、多成分物質を表現する入力データに混合率を簡易かつ適切に反映させることができる。
【0040】
また、上記実施形態においては、成分の分子を構成する原子間の結合情報であるエッジ情報にその分子の混合率を反映することにより、多成分物質を表現する入力データを適切に生成できる。その結果、多成分物質の特性をより高精度に予測させることができる。特に、分子グラフデータのエッジ情報に対応するベクトルに対して、成分の混合率を、乗算、加算、あるいは連結することにより、多成分物質を表現する入力データに混合率を簡易かつ適切に反映させることができる。
【0041】
さらに、上記実施形態においては、多成分物質において結合しうる原子間の結合情報を追加のエッジ情報として生成することができ、追加のエッジ情報にその分子の混合率を反映することにより、多成分物質を表現する入力データを適切に生成できる。その結果、多成分物質の特性をより高精度に予測させることができる。特に、コポリマーなどのモノマーの並び順にランダム性があるようなポリマーアロイを対象とした場合には、従来のグラフを入力とするニューラルネットワークでは、入力対象の分子グラフを構築することが困難である。本実施形態では、モノマー間の化学結合を分子グラフに取り込んで、「ポリマーアロイ」などの多成分物質をグラフとして表現して、その多成分物質のグラフを効率的にニューラルネットワークに入力することができる。
【0042】
また、上記実施形態では、機械学習のモデルとしてグラフを入力とするニューラルネットワークを採用している。これにより、分子グラフデータを入力として多成分物質の特性を高精度に予測させることができる。
【0043】
[変形例]
以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。
【0044】
上記実施形態では、入力データ生成システム10が2つの成分の分子グラフを組み合わせて分子グラフデータ及びそれに関する特徴ベクトルを生成する例を示したが、3つ以上の成分の分子グラフをそれらの混合率とともに組み合わせるように機能してもよい。
【0045】
また、入力データ生成システム10のベクトル変換部14に具備されている一定の変換ルールは、他のルールであってもよい。例えば、原子あるいは結合の類似性に基づいて、特徴ベクトル自体を機械学習を用いて取得してもよい。例えば、自然言語処理で単語をベクトル化する際に使用されるニューラルネットワークであるWord2Vecと同様な方法を用いて、特徴ベクトルを分散表現として取得してもよい。また、特徴ベクトルの生成がトレーニング部20による学習フェーズとともに実行されてもよい。
【0046】
少なくとも一つのプロセッサにより実行される入力データ生成方法の処理手順は上記実施形態での例に限定されない。例えば、上述したステップ(処理)の一部が省略されてもよいし、別の順序で各ステップが実行されてもよい。また、上述したステップのうちの任意の2以上のステップが組み合わされてもよいし、ステップの一部が修正または削除されてもよい。あるいは、上記の各ステップに加えて他のステップが実行されてもよい。例えばステップS7,S8の処理が省略されてもよい。
【0047】
本開示において、「少なくとも一つのプロセッサが、第1の処理を実行し、第2の処理を実行し、…第nの処理を実行する。」との表現、またはこれに対応する表現は、第1の処理から第nの処理までのn個の処理の実行主体(すなわちプロセッサ)が途中で変わる場合を含む概念を示す。すなわち、この表現は、n個の処理のすべてが同じプロセッサで実行される場合と、n個の処理においてプロセッサが任意の方針で変わる場合との双方を含む概念を示す。
【符号の説明】
【0048】
10…入力データ生成システム、100…コンピュータ、101…プロセッサ、11…取得部、12…合成部、13…追加部、14…ベクトル変換部、15…混合率反映部、20…トレーニング部、30…予測器。
図1
図2
図3
図4
図5
図6