(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-06
(45)【発行日】2023-12-14
(54)【発明の名称】ユーザに提案する材料を決定するシステム
(51)【国際特許分類】
G16C 20/40 20190101AFI20231207BHJP
G06F 16/9032 20190101ALI20231207BHJP
【FI】
G16C20/40
G06F16/9032
(21)【出願番号】P 2020080755
(22)【出願日】2020-04-30
【審査請求日】2022-11-07
(73)【特許権者】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001678
【氏名又は名称】藤央弁理士法人
(72)【発明者】
【氏名】淺原 彰規
(72)【発明者】
【氏名】森田 秀和
(72)【発明者】
【氏名】林 貴之
(72)【発明者】
【氏名】金澤 拓也
(72)【発明者】
【氏名】刑部 好弘
【審査官】甲斐 哲雄
(56)【参考文献】
【文献】特開2020-030638(JP,A)
【文献】特表2004-500614(JP,A)
【文献】国際公開第2020/054839(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16C 10/00-99/00
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
ユーザに提案する材料を決定するシステムであって、
1以上のプロセッサと、
前記1以上のプロセッサが実行するプログラムを格納する1以上の記憶装置と、を含み、
前記1以上のプロセッサは、
複数の材料それぞれの化学式に基づいて、前記複数の材料それぞれのユーザにとっての利用可能性を示す、利用可能性評価値を算出し、
前記複数の材料それぞれの化学式に基づき、前記複数の材料それぞれの物性値を推定し、
前記複数の材料それぞれの物性値の推定結果に基づいて、前記複数の材料それぞれの物性評価値を算出し、
前記複数の材料それぞれの前記利用可能性評価値及び前記物性評価値に基づいて、前記複数の材料それぞれを前記ユーザへ提示する優先度を示す、見落としリスク評価値を算出し、
前記見落としリスク評価値に応じて前記複数の材料から候補材料として提示する材料を選定する、システム。
【請求項2】
請求項1に記載のシステムであって、
前記1以上の記憶装置は、物性値測定済み材料の情報を格納する第1データベースを格納し、
前記1以上のプロセッサは、前記複数の材料それぞれと、前記物性値測定済み材料の化学式との類似性にさらに基づき、前記見落としリスク評価値を算出する、システム。
【請求項3】
請求項1に記載のシステムであって、
前記物性評価値は、前記複数の材料それぞれの物性値が目標値以上となる確率に基づく、システム。
【請求項4】
請求項1に記載のシステムであって、
前記1以上の記憶装置は、利用可能材料と利用不可能材料の情報を格納する第2データベースを格納し、
前記1以上のプロセッサは、前記利用可能材料及び利用不可能材料の化学式と、前記複数の材料それぞれの化学式と、の間の類似性に基づいて、前記複数の材料それぞれの利用可能性評価値を算出する、システム。
【請求項5】
請求項4に記載のシステムであって、
前記1以上のプロセッサは、
提示した候補材料に対するユーザからのフィードバック情報を受け取り、前記フィードバック情報は、前記提示した候補材料の少なくとも一部についての利用可能性の情報を含み、
前記フィードバック情報における前記利用可能性の情報を前記第2データベースに格納する、システム。
【請求項6】
請求項5に記載のシステムであって、
前記1以上の記憶装置は、物性値測定済み材料の情報を格納する第1データベースを格納し、
前記1以上のプロセッサは、前記複数の材料それぞれと、前記物性値測定済み材料の化学式との類似性にさらに基づき、前記見落としリスク評価値を算出し、
前記フィードバック情報は、前記提示した候補材料の少なくとも一部の測定された物性値を含み、
前記1以上のプロセッサは、前記フィードバック情報における前記測定された物性値を前記第1データベースに格納する、システム。
【請求項7】
請求項1に記載のシステムであって、
前記見落としリスク評価値の算出において、前記候補材料の提示回数に応じて、前記物性評価値の優先度が増加する、システム。
【請求項8】
請求項1に記載のシステムであって、
前記見落としリスク評価値の算出は、前記候補材料の提示回数に応じて増加する乱数要素に基づく、システム。
【請求項9】
請求項1に記載のシステムであって、
前記1以上のプロセッサは、前記複数の材料それぞれの、異なる数式による複数の見落としリスク評価値を算出し、
前記複数の見落としリスク評価値に基づき、前記複数の材料から候補材料として提示する材料を選定する、システム。
【請求項10】
請求項1に記載のシステムであって、
前記1以上のプロセッサは、化学式の類似度が閾値を超える材料の一方を、提示する候補材料から除外する、システム。
【請求項11】
システムがユーザに提案する材料を決定する方法であって、
前記システムは、1以上のプロセッサと、前記1以上のプロセッサが実行するプログラムを格納する1以上の記憶装置と、を含み、
前記方法は、
前記1以上のプロセッサが、複数の材料それぞれの化学式に基づいて、前記複数の材料それぞれのユーザにとっての利用可能性を示す、利用可能性評価値を算出し、
前記1以上のプロセッサが、前記複数の材料それぞれの化学式に基づき、前記複数の材料それぞれの物性値を推定し、
前記1以上のプロセッサが、前記複数の材料それぞれの物性値の推定結果に基づいて、前記複数の材料それぞれの物性評価値を算出し、
前記1以上のプロセッサが、前記複数の材料それぞれの前記利用可能性評価値及び前記物性評価値に基づいて、前記複数の材料それぞれを前記ユーザへ提示する優先度を示す、見落としリスク評価値を算出し、
前記1以上のプロセッサが、前記見落としリスク評価値に応じて前記複数の材料から候補材料として提示する材料を選定する、ことを含む方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザに提案する材料を決定するシステムに関する。
【背景技術】
【0002】
新材料探索タスクに対してバーチャルスクリーニングの手法が利用されている。バーチャルスクリーニングは、既知の化合物のデータに機械学習モデルを適用し、化合物の記述子を入力とした物性値推定モデルを構成する。新たに生成した化学式に対して上記物性値推定モデルを適用し、計算された推定値をもとにスクリーニングを行う。これにより、ユーザの目的に合致する新たな化合物の候補が提示できる。
【0003】
本明細書の他の関連技術として、特開2014-92930号公報がある。この文献は、「情報提供装置101は、対象化合物の化合物名を取得する。情報提供装置101は、データベース110から、取得した対象化合物の化合物名に対応する化学式候補を検索する。情報提供装置101は、対象化合物の化合物名から、対象化合物の置換基を表す文字列を抽出する。情報提供装置101は、データベース110に化学式候補と対応付けて記憶された化合物名群のうち、抽出した置換基を表す文字列を含む化合物名の化合物の母核に結合する置換基の結合位置を特定することにより、置換基の結合位置のバリエーション数を算出する。情報提供装置101は、算出した置換基の結合位置のバリエーション数を化学式候補と対応付けて出力する。」ことを開示する(要約)。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
バーチャルスクリーニングにおいて、物性値推定結果のみにより提示される化合物候補が選択される場合、それらがユーザにとって利用不可能である場合がある。ユーザにとって利用不可能な化合物は、例えば、合成不可能である、若しくは、コスト、収率又は安定性等の観点からユーザにとって実用性がない化合物である。このような、化合物は、提示される化合物の候補から除外すべきである。一方で、利用不可能である化合物に類似する化合物が、極めて優れた物性値を有することがある。
【0006】
特開2014-92930号公報は、化合物名から構造式の候補を作成してユーザに提示することを開示するが、ユーザにとって望ましい新規化合物の提示することは開示していない。したがって、ユーザが望む化合物候補をより適切に提示できる技術が望まれる。
【課題を解決するための手段】
【0007】
本発明の一態様は、ユーザに提案する材料を決定するシステムであって、1以上のプロセッサと、前記1以上のプロセッサが実行するプログラムを格納する1以上の記憶装置と、を含む。前記1以上のプロセッサは、複数の材料それぞれの化学式に基づいて、前記複数の材料それぞれのユーザにとっての利用可能性を示す、利用可能性評価値を算出する。前記1以上のプロセッサは、前記複数の材料それぞれの化学式に基づき、前記複数の材料それぞれの物性値を推定する。前記1以上のプロセッサは、前記複数の材料それぞれの物性値の推定結果に基づいて、前記複数の材料それぞれの物性評価値を算出する。前記1以上のプロセッサは、前記複数の材料それぞれの前記利用可能性評価値及び前記物性評価値に基づいて、前記複数の材料それぞれを前記ユーザへ提示する優先度を示す、見落としリスク評価値を算出する。前記1以上のプロセッサは、前記見落としリスク評価値に応じて前記複数の材料から候補材料として提示する材料を選定する。
【発明の効果】
【0008】
本発明の一態様によれば、ユーザが望む化合物候補をより適切に提示できる。
【図面の簡単な説明】
【0009】
【
図1】実施例1に係る、新たに合成する化合物(材料)の実験計画を支援する、実験計画支援システムの構成の一例を示す。
【
図2】実験計画支援装置及びクライアント計算機のハードウェア構成例を示す。
【
図5】実験候補化合物を初回に提示する処理を示す。
【
図6】2回目以降の実験候補化合物提示処理を示す。
【
図7】初回実験候補化合物提示処理の例のフローチャートを示す。
【
図8】候補化合物表示部がクライアント計算機のモニタで表示する、候補提示要求入力画面の例を示す。
【
図10】候補化合物の生成、候補化合物の物性値の推定、及び候補化合物からの提示する化合物の選定、の処理を模式的に示す。
【
図11】2回目以降の実験候補化合物提示処理の例のフローチャートを示す。
【
図12】候補化合物表示部がクライアント計算機のモニタで表示する、候補追加要求入力画面の例を示す。
【
図14】ユーザフィードバックに基づく候補化合物選出処理の例のフローチャートを示す。
【
図15】実施例2に係る候補追加要求の構成例を示す。
【
図16】実施例2に係る利用可能性データベースの構成例を示す。
【
図17】実施例2に係る、ユーザフィードバックに基づく候補化合物選出処理の例のフローチャートを示す。
【発明を実施するための形態】
【0010】
以下においては、便宜上その必要があるときは、複数のセクションまたは実施例に分割して説明するが、特に明示した場合を除き、それらは互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。また、以下において、要素の数等(個数、数値、量、範囲等を含む)に言及する場合、特に明示した場合及び原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。
【0011】
本システムは、物理的な計算機システム(一つ以上の物理的な計算機)でもよいし、クラウド基盤のような計算リソース群(複数の計算リソース)上に構築されたシステムでもよい。計算機システムあるいは計算リソース群は、1以上のインタフェース装置(例えば通信装置及び入出力装置を含む)、1以上の記憶装置(例えば、メモリ(主記憶)及び補助記憶装置を含む)、及び、1以上のプロセッサを含む。
【0012】
プログラムがプロセッサによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置及び/またはインタフェース装置等を用いながら行われるため、機能はプロセッサの少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサあるいはそのプロセッサを有するシステムが行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機または計算機が読み取り可能な記憶媒体(例えば計算機読み取り可能な非一過性記憶媒体)であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。
【0013】
〔概略〕
以下において、ユーザによる新規化合物の開発を支援するシステムを開示する。本明細書の実施例に係るシステムは、実験やシミュレーションの候補となる材料をユーザに提示する。システムは、候補材料の物性及び候補材料の利用可能性の評価を定量化し、それらに基づいて候補材料の評価値(以下において見落とし評価値とも呼ぶ)を算出する。システムは、その評価値に応じて候補材料を順位付けし、上位の候補材料をユーザに提示する。
【0014】
このように、候補材料の物性及び利用可能性それぞれの評価を定量化し、それらを総合した評価値によりユーザに提示する候補材料を選定することで、ユーザにとって利用可能性のない材料を提示する可能性を低減すると共に、利用可能性が低くとも優れた物性を有する材料を提示する可能性を高めることができる。このため、ユーザによる所望の物性を有する新規な材料の探索を効率化することができる。
【実施例1】
【0015】
図1に実施例1に係る、新たに合成する化合物(材料)の実験計画を支援する、実験計画支援システムの構成の一例を示す。なお、ユーザは、本システムの支援により、化合物の実験に加えて又は代えて、シミュレーションの計画を行ってもよい。本システムは、ネットワークを介して互いに通信可能な、実験計画支援装置10及びクライアント計算機20を含む。
【0016】
実験計画支援装置10は、ユーザが新たに実験又はシミュレーションを行う化合物(材料)の候補を提示する。以下において、説明の容易のため、実験計画支援装置10が提示する候補化合物は、新たに合成する実験対象候補であるとする。クライアント計算機20は、実験計画支援装置10が提示した候補化合物をユーザに対して表示する他、ユーザから入力された提示された化合物に対するフィードバックを実験計画支援装置10に送信する。
【0017】
図1の構成例において、実験計画支援装置10は、物性推定部11、候補化合物生成部12、候補化合物選定部13、見落としリスク評価部14、及び表示情報送受信部15を含む。これらはプログラムである。実験計画支援装置10は、さらに、実験データベース(DB)16及び利用可能性データベース17を格納している。
【0018】
クライアント計算機20は、プログラムであるWebブラウザ21を格納し、実行する。Webブラウザ21は、候補化合物表示部23を含む。これは、Webブラウザ21の内部モジュールである。
【0019】
図2は、実験計画支援装置10及びクライアント計算機20のハードウェア構成例を示す。
図2の構成例において、実験計画支援装置10は、演算性能を有するプロセッサ205と、プロセッサ205が実行するプログラム及びデータを格納する揮発性一時記憶領域を与えるDRAM208と、を含む。
【0020】
実験計画支援装置10は、さらに、クライアント計算機20を含む他の装置とデータ通信をおこなう通信装置206と、HDD(Hard Disk Drive)やフラッシュメモリなどを利用した永続的な情報記憶領域を与える補助記憶装置207と、を含む。
【0021】
例えば、補助記憶装置207は、実験計画支援装置10は、物性推定部11、候補化合物生成部12、候補化合物選定部13、見落としリスク評価部14、及び表示情報送受信部15等のプログラムを格納する。補助記憶装置207は、さらに、実験データベース16及び利用可能性データベース17等の各種データを格納する。プロセッサ205が実行するプログラム及び処理対象のデータは、補助記憶装置207からDRAM208にロードされる。
【0022】
また、実験計画支援装置10は、ユーザからの操作を受け付ける入力装置210と、各プロセスでの出力結果をユーザに提示するモニタ209(出力装置の例)と、を含む。
【0023】
クライアント計算機20は実験計画支援装置10と同様のハードウェア構成要素を含み、同一構成要素には同一符号が割り当てられている。なお、複数の装置に分かれている機能を一つの装置に統合してもよく、上記複数の機能をさらに多くの装置に分散してもよい。また、複数の装置の分散した機能を一つの装置にまとめてもよい。このように、実験計画支援装置10、クライアント計算機20及びこれらを含むシステムは、1以上の記憶装置及び1以上のプロセッサを含む。
【0024】
図3は、実験データベース16の構成例を示す。実験データベース16は、化合物の実験結果の情報を格納し、注目されている物性値を測定済みの材料のデータを格納する。実験データベース16に格納されている各レコードは、実験ID161、化学式162、物性識別子163、及び物性値164のフィールドを含む。
【0025】
実験ID161は、実験を一意に示すIDを示す。複数のレコードが、同一の実験ID161を含む。後述するように、実験計画支援装置10は、実験IDで同定される実験データ(レコード群)に対して、新たに合成及び実験する化合物の候補を提示する。化学式162は、実験対象の材料の化学式を示す。化学式は、化学構造式及び組成式を含み、材料によって適切な化学式が割り当てられる。
【0026】
物性識別子163は、測定された物性値の識別子、例えば物性値の種類名を示す。物性値の種類は、物理的性質を表す種類と化学的性質を表す種類のいずれも採用され得る。物性値164は、測定された物性値を示す。なお、実験データベース16は、実験データに加えて又は代えて、シミュレーション結果の情報を含んでもよい。物性値164は、実験による測定値に代えて、シミュレーションによる測定値を示す。
【0027】
図4は、利用可能性データベース17の構成例を示す。利用可能性データベース17は、複数の材料それぞれの、ユーザにとっての利用可否の情報を格納する。後述するように、利用可能性データベース17は、ユーザに提示した候補化合物に対するユーザからのフィードバックの情報を格納する。フィードバックは、候補化合物の利用可能性についての情報を含む。
【0028】
図4の例において、利用可能性データベース17のレコードは、実験ID171、化学式172、及び利用可能性173のフィールドを含む。実験ID171は、実験を一意に示すIDを示し、実験データベース16の実験ID161と共通である。化学式172は、対象材料の化学式を示す。利用可能性173は、対象材料がユーザにとって利用可能であるかを示す。
【0029】
ユーザにとって利用不可能な化合物は、ユーザが利用することがない化合物であり、例えば、合成不可能である、若しくは、コスト、収率又は安定性等の観点からユーザにとって実用性がない化合物である。利用可能な材料は、ユーザが利用する可能性がある材料である。従って、利用可能性データベース17における材料の利用可能/利用不可能は、ユーザにより指定される。
【0030】
以下に説明する例において、各レコードの利用可能性173は、「実験済み」、「利用不可能」、又は「見送り」のいずれかを示す。「実験済み」は、当該材料の実験が実行済みであり、ユーザにとって利用可能であることを示す。「利用不可能」は、ユーザによって利用不可能であることを示す。「見送り」は、ユーザにとって利用可能であるが、実験が見送られたことを示す。なお、これらは一例であり、利用可能性173は、材料がユーザにとって利用可能であるか否かを示す任意のカテゴリを定義できる。例えば、「見送り」を省略し、実験の有無によらず利用可能な材料と利用不可能な材料を示してもよい。
【0031】
図5及び6は、実験計画支援システムの処理の概略を模式的に示す。
図5は、実験候補化合物を初回に提示する処理を示し、
図6は2回目以降の実験候補化合物提示処理を示す。ユーザは、実験計画支援システムが提示する候補化合物から選択した化合物の実験を行い、その実験結果を実験計画支援システムにフィードバックする。
【0032】
実験計画支援システムは、フィードバックを受けて、新たな候補化合物を提示する。実験計画支援システム及びユーザは、候補化合物の提示と実験を繰り返す。これら一連の提示及び実験を含む新規材料探索をプロジェクトとも呼ぶ。これら一連の候補提示に対して同一の提示プロセスIDが付与され、実験IDに紐づけられる。
【0033】
図5を参照して、ユーザはモニタ209の画面を参照ながら入力装置210によりクライアント計算機20を操作する。ユーザは、Webブラウザ21の候補化合物表示部23を介して、候補提示要求31を実験計画支援装置10に送信する。
【0034】
実験計画支援装置10の表示情報送受信部15は、受信した候補提示要求31に応答して、候補化合物選定部13に、ユーザに提示する候補化合物の選定を要求する。候補化合物選定部13は、候補化合物生成部12に候補化合物リストの生成を要求する。候補化合物生成部12は、候補化合物を示す候補化合物リストを生成する。
【0035】
候補化合物生成部12は、実験データベース16内の候補提示要求31に対応する実験データの化合物から、新たな化合物を生成する。本明細書の実施例において、実験データベース16は、候補提示要求31に対応する初期データを予め格納している。候補化合物生成部12は、実験データと異なる化合物のデータ(例えばオープンデータやシステム内に予め設定されている初期データ)を使用してもよい。
【0036】
候補化合物選定部13は、候補化合物生成部12から候補化合物リストを受け取る。さらに、候補化合物選定部13は、物性推定部11に、候補化合物リストが示す候補化合物それぞれの物性値の推定を要求する。物性推定部11は、予め定められた方法により、候補化合物リストに掲載されている化合物それぞれの物性値を推定する。
【0037】
後述するように、例えば、推定される物性値は一つでもよく、物性値の確率分布が推定されてもよい。推定される確率分布も、推定される物性値に相当する。また、推定される物性値種類の数は、一つでもそれより多くともよい。以下においては、推定される物性値種類数が1の例が具体的に説明される。
【0038】
候補化合物選定部13は、候補化合物リストに掲載されている化合物それぞれの物性値を物性推定部11から受け取る。候補化合物選定部13は、利用可能性について考慮することなく、物性値の推定結果に基づき、候補化合物リストからユーザに提示する候補化合物を選定する。
【0039】
候補化合物選定部13は、選定した候補化合物それぞれの情報を表示情報送受信部15に渡す。表示情報送受信部15は、選定された候補化合物それぞれの情報を示す候補提示画面(のデータ)35を生成し、クライアント計算機20に候補提示画面33を送信する。
【0040】
ユーザは、クライアント計算機20においてWebブラウザ21を実行し、候補化合物表示部23が、候補提示画面33をモニタ209において表示する。ユーザは、候補提示画面33を参照して、候補化合物の中から実験を行う化合物を選択する。ユーザは、選択した化合物の実験を行い、それらの物性値を測定する。
【0041】
次に、
図6を参照して、二回目以降の実験候補化合物提示処理を説明する。ユーザは、前回提示された候補化合物から選択した化合物の実験を行った後、そのフィードバックを実験計画支援装置10に送信する。具体的には、ユーザはモニタ209の画面を参照しながら入力装置210によりクライアント計算機20を操作する。ユーザは、Webブラウザ21の候補化合物表示部23を介して、候補追加要求35を実験計画支援装置10に送信する。候補追加要求35は、実験結果を含む前回の提示候補化合物に対するユーザからのフィードバック情報を含む。
【0042】
実験計画支援装置10の表示情報送受信部15は、候補追加要求35に含まれるフィードバック情報を、実験データベース16及び利用可能性データベース17に格納する。候補追加要求35内のフィードバック情報は、前回の提示候補化合物に対する、実験結果の情報及びユーザが指定する利用可能性の情報、を含む。
【0043】
次に、表示情報送受信部15は、候補化合物選定部13に、ユーザに追加提示する候補化合物の選定を要求する。候補化合物選定部13は、候補化合物生成部12に候補化合物リストの生成を要求する。候補化合物生成部12は、候補化合物を示す候補化合物リストを生成する。候補化合物生成部12は、例えば、実験データベース16内の候補追加要求35の実験IDのデータの化合物から、新たな化合物を生成する。
【0044】
候補化合物選定部13は、候補化合物生成部12から候補化合物リストを受け取る。さらに、候補化合物選定部13は、物性推定部11に、候補化合物リストが示す候補化合物それぞれの物性値の推定を要求する。物性推定部11は、予め定められた方法により、候補化合物リストに掲載されている化合物それぞれの物性値を推定する。物性値の推定は、最初の候補化合物提示における物性値の推定と同様である。最初の提示と二回目以降の提示において推定方法が異なっていてもよい。
【0045】
候補化合物選定部13は、候補化合物リストに掲載されている化合物それぞれの物性値を物性推定部11から受け取る。候補化合物選定部13は、さらに、見落としリスク評価部14に、見落としリスクの評価を要求する。見落としリスク評価部14は、候補化合物リスト形成されている候補化合物の、推定物性値及び利用可能性それぞれの評価値に基づいて、候補化合物それぞれの見落としリスク評価値を算出する。見落としリスク評価値は、ユーザに提示する優先度を示す。
【0046】
例えば、見落としリスク評価部14は、利用可能性データベース17の情報に基づいて、候補化合物の利用可能性を評価する。ユーザが指定した利用可能性の情報に基づいて利用可能性評価値を算出することで、ユーザにとっての利用可能性をより適切に算出できる。他の例において、見落としリスク評価部14は、候補化合物の合成困難性を表す評価値(例えばSAスコア)によって、利用可能性を評価してもよい。この場合、利用可能性データベース17は省略できる。
【0047】
候補化合物選定部13は、見落としリスク評価部14から、候補化合物それぞれの見落としリスク評価値を取得する。候補化合物選定部13は、見落としリスク評価値に基づいて候補化合物を順位付けし、ユーザに提示する候補化合物を候補化合物リストから選定する。候補化合物選定部13は、選定した候補化合物それぞれの情報を表示情報送受信部15に渡す。
【0048】
表示情報送受信部15は、選定された候補化合物それぞれの情報を示す候補提示画面(のデータ)35を生成し、クライアント計算機20に候補提示画面33を送信する。ユーザは、クライアント計算機20においてWebブラウザ21を実行し、候補化合物表示部23が、候補提示画面33をモニタ209において表示する。ユーザは、候補提示画面33を参照して、候補化合物の中から実験を行う化合物を選択する。ユーザは、選択した化合物の実験を行い、それらの物性値を測定する。
【0049】
以下において、実験候補化合物提示処理の詳細を説明する。
図7は、初回実験候補化合物提示処理の一例のフローチャートを示す。まず、ステップS101において、クライアント計算機20で実行されている候補化合物表示部23は、候補提示要求を、実験計画支援装置10に送付する。ユーザは、クライアント計算機20でブラウザ21を実行し、候補化合物表示部23が表示する画面において、候補提示要求の情報を入力する。
【0050】
図8は、候補化合物表示部23がクライアント計算機20のモニタ209で表示する、候補提示要求入力画面91の例を示す。候補化合物表示部23は、例えば、実験計画支援装置10から、候補提示要求入力画面91を取得する。候補提示要求入力画面91は、実験名セクション911、物性値種類セクション912、及び物性値条件セクション913を含む。
【0051】
ユーザは、実験名セクション911において、今回のプロジェクトを表す実験名を入力する。実験名は実験IDと紐づけられている。本例において、ユーザは、既に実験データが存在する実験名をプルダウンメニューから選択する。ユーザは、物性値種類セクション912において、値についての要求が存在する目的の物性値種類を入力する。本例において、指定される物性値種類は一つであるが、複数の物性値種類が指定されてもよい。
【0052】
さらに、ユーザは、上記種類の物性値について要求される条件を入力する。
図8の例において、条件は、物性値の最大化、物性値の最小化、又は、物性値の目標値、である。目標値が設定される場合、目標値に近い物性値を持つと推定される化合物が提示される。
【0053】
候補化合物表示部23は、候補提示要求入力画面91に対して入力された情報から、候補提示要求31を生成する。
図9は、候補提示要求31の構成例を示す。候補提示要求31は、候補提示プロセスID311、実験ID312、物性識別子313、及び探索条件314のフィールドを含む。
【0054】
候補提示プロセスID311は、初期状態において空白(例えばNULL値)であり、実験計画支援装置10が候補提示要求31を受信すると、候補提示プロセスID311を付与する。実験ID312は、ユーザに入力された実験名911に予め関連付けられているIDである。物性識別子313は、入力された物性値種類912に予め関連付けられている識別子を示す。探索条件314は、入力された条件913を示す。なお、本明細書において、識別子とIDは対象を識別する値である点で同一である。
【0055】
図7に戻って、ステップS102において、表示情報送受信部15は、候補提示要求31を受け取り、対応する実験候補化合物を、候補化合物選定部13に要求する。表示情報送受信部15は、候補提示要求31に、新たな候補提示プロセスID311を付与する。表示情報送受信部15は、候補提示要求31を不図示のデータベースに格納する。表示情報送受信部15は、候補提示要求31と共に、提示する実験候補化合物を候補化合物選定部13に要求する。
【0056】
次に、ステップS103において、候補化合物生成部12は、候補化合物リストを生成する。具体的には、候補化合物選定部13は、候補提示要求31と共に、候補化合物生成部12に候補化合物の生成を要求する。候補化合物生成部12は、候補化合物を示す候補化合物リストを生成して、候補化合物選定部13に渡す。候補化合物生成部12は、例えば実験データベース16における実験ID312が示す実験データの化合物から、任意の方法で新たな候補化合物を生成することができる。
【0057】
例えば、候補化合物生成部12は、強化学習モデル、変分オートエンコーダ(VAE)、GAN(Generative Adversarial Network)等によって、既存の化合物の記述子から新たな化合物の記述子を生成できる。
【0058】
次に、ステップS104において、物性推定部11は、候補化合物リストのそれぞれの物性値を推定する。具体的には、候補化合物選定部13は、候補化合物リストと共に、物性値の推定を物性推定部11に要求する。物性推定部11は、例えば機械学習モデル又は密度汎関数法を使用して、化合物の記述子から候補化合物リストの化合物それぞれの物性値を推定できる。例えば、物性推定部11は、単一の物性値又は物性値の確率分布を推定する。確率分布からも、一つの期待値(推定値)を決定できる。
【0059】
次に、ステップS105において、候補化合物選定部13は、推定物性値が候補提示要求に規定の理想値に近い化合物を選定する。候補化合物選定部13は、候補提示要求31が指定する条件に基づいて、化合物を選択する。物性値の最大化又は最小化が指定されている場合、理想値は、例えば、推定値における最大値又は最小値である。目標値が指定されている場合、理想値は目標値である。
【0060】
図10は、候補化合物の生成、候補化合物の物性値の推定、及び候補化合物からの提示する化合物の選定、の処理を模式的に示す。上述のように、候補化合物生成部12は、実験データベース16内の化合物から、新たな候補化合物(化学式A~化学式D)を生成する。物性推定部11は、候補化合物それぞれの指定された物性値種類の値を推定する。候補化合物選定部13は、推定物性値が理想値に近い上位Xの化合物を選定する。
図10の例において、推定物性値が最も高い二つの化合物(化学式B及び化学式D)が選定されている。
【0061】
図7に戻って、ステップS106において、表示情報送受信部15は、候補提示画面33を生成して、クライアント計算機20に送付する。候補提示画面33は、候補化合物選定部13により選定された候補化合物の情報を含む。例えば、候補提示画面33は、候補化合物の化学式(化学構造式又は組成式)及び推定物性値を示す。表示情報送受信部15は、候補提示要求と紐づけて、選定された候補化合物の情報を不図示のデータベースに格納する。ステップS107において、候補化合物表示部23は、候補提示画面33をモニタ209において表示する。
【0062】
次に、2回目以降の実験候補化合物提示処理(実験候補化合物追加提示処理)を説明する。実験計画支援装置10は、二回目以降に、ユーザからのフィードバック情報勘案した実験候補化合物選定を行う。
【0063】
図11は、2回目以降の実験候補化合物提示処理の例のフローチャートを示す。まず、ステップS201において、クライアント計算機20で実行されている候補化合物表示部23は、ユーザからのフィードバック情報を含む候補追加要求35を、実験計画支援装置10に送付する。
【0064】
ユーザは、クライアント計算機20でブラウザ21を実行し、候補化合物表示部23が表示する画面において、候補追加要求の情報を入力する。
図12は、候補化合物表示部23がクライアント計算機20のモニタ209で表示する、候補追加要求入力画面92の例を示す。候補追加要求入力画面92は、前回提示された候補化合物の情報と、本画面92においてユーザに入力された候補化合物に対するフィードバック情報と、を示す。候補追加要求入力画面92は、一つのプロジェクトの一連に候補提示に共通の候補提示プロセスIDを示す。
【0065】
例えば、ユーザは実験名や候補提示プロセスIDを指定し、候補化合物表示部23は、指定されたプロジェクトの候補追加要求入力画面92を、実験計画支援装置10から取得する。なお、実験候補化合物提示画面は、
図12の候補追加要求入力画面92からフィードバック情報についてセクションを除いたものであってもよい。
【0066】
候補追加要求入力画面92は、各候補化合物について、化学式セクション921と、推定物性値セクション922とを含む。化学式セクション921は、候補化合物の化学式(
図12において化学構造式)を示し、推定物性値セクション922は実験計画支援装置10による推定物性値を示す。候補追加要求入力画面92は、さらに、ユーザフィードバックセクション923を含む。
【0067】
ユーザフィードバックセクション923において、ユーザは、当該候補化合物の利用可能性の情報を入力する。
図12の例において、「実験済み」、「見送り」、又は「利用不可能」のいずれかを指定することができる。また、実験済みの場合は、測定値を入力できる。上述のように、「実験済み」及び「見送り」は、材料が利用可能(利用可能材料)であることを示す。「実験済み」は、当該材料の実験による物性値の測定が実行済みであることを示し、「見送り」は実験がされていないことを示す。「利用不可能」は、ユーザにとって当該材料が利用不可能であることを示す。「実験済み」を選択する場合、ユーザはその実験による測定値を合わせて入力する。
【0068】
候補化合物表示部23は、入力されたユーザフィードバック情報と、候補追加要求入力画面92と共に実験計画支援装置10(表示情報送受信部15)から取得している情報とから、候補追加要求35を生成する。
図13は、候補追加要求35の構成例を示す。候補追加要求35は、候補提示プロセスID351、実験ID352、物性識別子353、探索条件354、及びフィードバックデータ355のフィールドを含む。
【0069】
候補提示プロセスID351は、以前に実験計画支援装置10に付与されたIDを示す。実験ID352、物性識別子353、及び探索条件354は、同一プロジェクトの候補提示要求31の同一名称のフィールドの情報と同一である。これらの値は、例えば、候補化合物表示部23が表示情報送受信部15から取得する。
【0070】
フィードバックデータ355は、候補追加要求入力画面92においてユーザに入力された、候補化合物それぞれに対するフィードバック情報を示す。
図13の例において、フィードバックデータ355の各レコードは、化学式541、物性値542、及び利用可能性543のフィールドを有する。化学式541は、化合物の化学式を示し、物性値542は、実験により測定された物性値を示す。利用可能性543は、化合物の利用可能性についてのカテゴリ、具体的には、「実験済み」、「見送り」、又は「利用不可能」のいずれかを示す。なお、一部のデータ、例えば実験データは含まれていなくてもよい。
【0071】
図11に戻って、ステップS202において、表示情報送受信部15は、クライアント計算機20から、候補追加要求35を受け取る。表示情報送受信部15は、候補追加要求35が示す実験データを実験データベース16に格納し、利用可能性についての情報を利用可能性データベース17に格納する。これにより、二つのデータベース16、17が格納する情報を増加させることができる。表示情報送受信部15は、不図示のデータベースに、候補追加要求35を格納する。さらに、表示情報送受信部15は、候補追加要求35と共に、提示する追加候補化合物を候補化合物選定部13に要求する。
【0072】
次に、ステップS203において、候補化合物生成部12は、候補化合物リストを生成する。具体的には、候補化合物選定部13は、フィードバックデータ355を除いた候補追加要求35と共に、候補化合物生成部12に候補化合物の生成を要求する。候補化合物生成部12は、候補化合物を示す候補化合物リストを生成して、候補化合物選定部13に渡す。
【0073】
候補化合物生成部12は、例えば、実験データベース16の本プロジェクトのデータの化合物から、新たな候補化合物を生成することができる。また、それに加えて他の用途で用いられている化合物のデータを用いることで、より幅広い種類の候補化合物が生成されるようにしてもよい。候補化合物生成部12は、利用可能性データベース17において、本プロジェクトの利用可能な化合物から新たな候補化合物を生成してもよい。新たな候補化合物としては、利用不可能な化合物が生成されてもよい。候補化合物生成部12は、利用可能性データベース17を参照し、すでに提示済みの化合物を候補化合物リストから除外する。
【0074】
次に、ステップS204において、物性推定部11は、候補化合物リストのそれぞれの物性値を推定する。ステップS204は、
図7に示すステップ104と同様である。次に、ステップS205において、候補化合物選定部13は、ユーザフィードバックに基づく提示候補化合物選出処理を実行する。詳細は
図14を参照して後述する。
【0075】
次に、ステップS206において、表示情報送受信部15は、候補提示画面33を生成して、クライアント計算機20に送付する。候補提示画面33の情報は、化合物が異なる点を除き、
図7のステップS106で送信された候補提示画面33の情報と同様である。表示情報送受信部15は、候補追加要求と紐づけて、選定された候補化合物の情報を不図示のデータベースに格納する。ステップS207において、候補化合物表示部23は、候補提示画面33をモニタ209において表示する。
【0076】
図14は、ユーザフィードバックに基づく候補化合物選出処理S205の例のフローチャートを示す。
図14は、まずステップS301において、候補化合物選定部13は、候補化合物それぞれと、対応する推定物性値(期待値及び分散σ)を対応付ける。ここで説明する例は、化合物の物性値の確率分布を推定する。一例として、推定物性値はガウス分布に従うものとする。このような確率分布は、例えば、ガウス過程回帰モデルにより得られる。
【0077】
次に、候補化合物選定部13からの要求に応じて、見落としリスク評価部14は、ステップS302からS305を、各候補化合物について実行する。まず、ステップS302において、見落としリスク評価部14は、利用可能性データベース17の今回プロジェクトのデータにおいて利用可能(実験済み又は見送り)な化合物それぞれと当該候補化合物との間の類似度を計算する。化合物の類似度の計算は任意の手法を使用できる。見落としリスク評価部14は、類似度の最大値S1を選択する。
【0078】
さらに、ステップS303において、見落としリスク評価部14は、利用可能性データベース17の今回プロジェクトのデータにおいて利用不可能な化合物それぞれと当該候補化合物との間の類似度を計算する。見落としリスク評価部14は、類似度の最大値S2を選択する。
【0079】
さらに、ステップS304において、見落としリスク評価部14は、実験データベース16の今回プロジェクトのデータにおける化合物それぞれと当該候補化合物との間の類似度を計算する。見落としリスク評価部14は、類似度の最大値S3を選択する。
【0080】
次に、ステップS305において、見落としリスク評価部14は、所定の数式に推定物性値、S1、S2、及びS3を代入し、見落としリスク評価値を算出する。見落としリスク評価部14は、候補化合物全ての算出した見落としリスク評価値を候補化合物選定部13に返す。ステップS306において、候補化合物選定部13は、見落としリスク評価値の上位の化合物を提示する実験候補として選定する。
【0081】
見落としリスク評価値の算出方法の例を説明する。例えば、見落としリスク評価部14は、下記数式(1)によって見落としリスク評価値fを算出できる。Nは正規分布を表す。
【0082】
【0083】
上記数式(1)は、物性値の改善条件が最大化の例において使用できる。上記数式(1)において、X0は、実験データにおける最大値から決められる目標値であり、例えば、最大値自体、又はそれより所定値だけ小さい若しくは大きい値である。積分値は、候補化合物の物性値がX0以上となる確率を示し、候補化合物の物性値についての評価値(物性評価値)を示す。
【0084】
類似度S1及びS2の項は、候補化合物の利用可能性についての評価値を示す。利用可能化合物と類似度が高いことは、候補化合物の利用可能である蓋然性が高いこと意味する。また、利用不可能化合物と類似度が高いことは、候補化合物が利用不可能である蓋然性が高いことを意味する。
【0085】
見落としリスク評価値fは、物性値がX0以上となる確率が大きいほど大きくなる。また、利用可能な化合物との類似度S1が大きいほど大きくなり、利用不可能な化合物との類似度S2が大きいほど小さくなる。そして、実験済み化合物との類似度S3が大きいほど小さくなる。
【0086】
見落としリスク評価値fにより、利用可能である蓋然性が高く、良好な物性値を示すと推定される(確率が高い)候補化合物を、ユーザに提示する候補合物リストに含めることができる。また、利用不可能である蓋然性が高い場合でも、極めて良好な物性値を示すと推定される候補化合物を、提示する候補化合物に含めることができる。さらに、実験済み化合物と類似度が高い化合物を提示リストから除外することで、実験の効率化を図ることができる。
【0087】
上記数式(1)を変形することで、他の物性値の条件における見落としリスク評価値を算出できる。物性値の改善条件が最小化である場合、例えば、上記数式(1)おけるX0を実験データにおける最小値から決定し、積分の範囲をX0から-∞とすることで、見落としリスク評価値を算出できる。物性値の改善条件が目標値を指定する場合、例えば、積分範囲を目標値を含む所定範囲とすることで、見落としリスク評価値を算出できる。
【0088】
物性値の評価値の算出は、物性値の確率分布に代えて、推定された物性値の数値を使用してもよい。上記数式(1)における積分が、物性推定部11により推定された数値の関数に置き換えられる。例えば、最大化の条件の関数は推定値が大きくなるほど大きくなり、最小化の条件の関数は推定値が小さくなるほど大きくなり、目標値を指定する条件の関数は目標値に近いほど大きくなる。
【0089】
上記式(1)は一例であって、他の数式により見落としリスク評価値が算出されてもよい。上記例は、実験済み化合物との類似度を参照するが、他の例においては、実験済み化合物との類似度の参照が省略されてもよい。利用可能性の評価値は、類似度S1及びS2に基づく上記方法と異なる方法で算出してもよい。例えば、化合物の化学式から決まる合成困難性の評価値(例えばSAスコア)を使用してもよく、S1又はS2の一方が省略されてもよい。いずれの方法も、利用可能性評価値を、候補化合物の化学式に基づき算出している。
【0090】
見落としリスク評価部14は、異なる数式(異なる基準)による複数の見落としリスク評価値を算出してもよい。候補化合物選定部13は、異なる数式それぞれについて、見落としリスク評価値から上位の候補化合物を選定する。
【0091】
例えば、物性値、利用可能性、実験済み化合物との非類似性の、優先度(寄与度)の異なる数式を用意することができる。優先度が高いことは、その値の変化が見落としリスク評価値のより大きな変化を生じさせることを意味する。
【0092】
例えば、上記数式(1)の積分項の重み係数を大きくすることで、その項の見落としリスク評価値への寄与度が大きくなり、これまでの物性値を超える化合物を得られる可能性を優先できる。利用不可能化合物との類似度の項の寄与度を大きくする、つまり、利用不可能化合物との類似度の増加に対して評価値が大きく減少するように数式を構成することで、利用不可能な化合物の提示をより確実に避けることができる。
【0093】
候補化合物選定部13は、類似する候補化合物の一方を、提示する候補化合物から除外してもよい。例えば、候補化合物選定部13は、見落としリスク評価値に従って選定した化合物の間において類似度を算出し、類似度が閾値を超える化合物において、見落としリスク評価値が低い化合物を除外してもよい。除外した化合物に代えて、より低い見落としリスク評価値の非類似化合物が選定されてよい。これにより、ユーザに提示する化合物候補の幅を広げより効率的か開発が可能となる。
【実施例2】
【0094】
以下において、実施例2を説明する。主に、実施例1との相違点を説明する。実施例2は、見落としリスク評価値の算出において、候補化合物の提示の履歴を使用する。実施例2は、候補化合物の提示回数が増加すると、これまで選定されなかった候補化合物が提示され可能性を高める。これにより、特定の候補化合物が提示されることなく、実験回数が増え続けることを避けることができる。これにより、例えば、利用可能性が低いが良好な物性値を示す化合物を提示することができ、実験を繰り返しても望む化合物が得られない可能性を小さくできる。
【0095】
図15は、実施例2に係る候補追加要求35の構成例を示す。
図13に示す実施例1に係る候補追加要求に対して、フィードバック回数357のフィールドが追加されている。本実施例は、このように、プロジェクトにおけるフィードバック回数、つまり、候補化合物提示回数又は実験回数を管理する。
【0096】
例えば、実験計画支援装置10の表示情報送受信部15は、一連の候補追加要求を管理し、クライアント計算機20に送信する候補追加要求入力画面92のデータに、フィードバック回数の情報を含める。クライアント計算機20の候補化合物表示部23は、その回数を参照して決定した数値を、フィードバック回数357のフィールドに格納する。
【0097】
図16は、実施例2に係る利用可能性データベース17の構成例を示す。
図4に示す実施例1に係る利用可能性データベースに対して、フィードバック回数175のフィールドが追加されている。表示情報送受信部15は、他のデータと共に、フィードバック回数175のフィールドに、受信した候補追加要求35が示すフィードバック回数を格納する。
【0098】
図17は、実施例2に係る、ユーザフィードバックに基づく候補化合物選出処理S205の例のフローチャートを示す。ステップS401~S403は、
図14に示すフローチャートのステップS301~S303と同様である。ステップS404において、見落としリスク評価部14は、利用可能性データベース17において、当該プロジェクトのフィードバック回数の最大値S4を計算する。ステップS405は、
図14に示すフローチャートのステップS304と同様である。
【0099】
ステップS406において、見落としリスク評価部14は、所定の数式に推定物性値、S1、S2、S3、及びS4を代入し、見落としリスク評価値を算出する。見落としリスク評価部14は、候補化合物全ての算出した見落としリスク評価値を候補化合物選定部13に返す。ステップS407において、候補化合物選定部13は、見落としリスク評価値の上位の化合物を実験候補として選定する。
【0100】
見落としリスク評価値の算出方法の例を説明する。例えば、見落としリスク評価部14は、下記数式(2)によって見落としリスク評価値fを算出できる。
【0101】
【0102】
上記数式(2)は、実施例1における数式(1)に、乱数要素S4rand()が追加されている。rand()は乱数を意味する。フィードバック回数S4は、実験回数と共に増加する。従って、実験回数(提示回数又はフィードバック回数)が増加すると、乱数要素S4rand()の大きさが大きくなり、見落としリスク評価値fへの寄与度が大きくなる。
【0103】
つまり、物性値、利用可能性及び実験済み化合物との類似性によらず、ランダムに選択された候補化合物の見落としリスク評価値fが大きくなる。これにより、これまで選定されなかった条件の化合物が提示する化合物として選定されるようになり、実験回数が進むにつれて、その可能性を高くすることができる。
【0104】
見落としリスク評価部14は、上記数式(2)に代えて又は加えて、下記数式(3)によって見落としリスク評価値fを算出できる。
【0105】
【0106】
上記数式(3)は、実施例1における数式(1)に対して、(lnS1-lnS2-lnS3)に対する除数S4が追加されている。フィードバック回数S4は、実験回数と共に増加する。従って、実験回数(提示回数)が増加すると、物性値以外の要素の評価値の見落としリスク評価値fへの寄与度が小さくなる。相対的に見落としリスク評価値fにおける物性値の優先度が高くなる。つまり、利用可能性及び実験済み化合物との類似性によらず、良好な物性値を示す候補化合物が選定される可能性が高くなる。これにより、これまで物性値以外の要因で選定されなかった化合物を提示リストに含めるようにできる。
【0107】
候補化合物選定部13は、例えば、数式(2)又は数式(3)の一方を使用して、提示する候補化合物を選定してもよい。見落としリスク評価値fが高い所定数の候補化合物が選定される。他の例において、候補化合物選定部13は、数式(2)及び数式(3)それぞれの見落としリスク評価値fの上位の所定数の候補化合物を選定してもよい。複数の数式を使用することで、より網羅的な候補化合物の選定が可能となる。
【0108】
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【0109】
また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード等の記録媒体に置くことができる。
【0110】
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。
【符号の説明】
【0111】
10 実験計画支援装置、11 物性推定部、12 候補化合物生成部、13 候補化合物選定部、14 見落としリスク評価部、15 表示情報送受信部、16 実験データベース、17 利用可能性データベース、20 クライアント計算機、21 Webブラウザ、23 候補化合物表示部、205 プロセッサ、206 通信装置、207 補助記憶装置、208 DRAM、209 モニタ、210 入力装置