IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 独立行政法人物質・材料研究機構の特許一覧 ▶ 独立行政法人理化学研究所の特許一覧

特開2022-179079部分構造選択ステップを含む設計データの生成方法、機能性分子の設計データの生成方法、機能性分子の設計プログラム及び機能性分子
<>
  • 特開-部分構造選択ステップを含む設計データの生成方法、機能性分子の設計データの生成方法、機能性分子の設計プログラム及び機能性分子 図1
  • 特開-部分構造選択ステップを含む設計データの生成方法、機能性分子の設計データの生成方法、機能性分子の設計プログラム及び機能性分子 図2
  • 特開-部分構造選択ステップを含む設計データの生成方法、機能性分子の設計データの生成方法、機能性分子の設計プログラム及び機能性分子 図3
  • 特開-部分構造選択ステップを含む設計データの生成方法、機能性分子の設計データの生成方法、機能性分子の設計プログラム及び機能性分子 図4
  • 特開-部分構造選択ステップを含む設計データの生成方法、機能性分子の設計データの生成方法、機能性分子の設計プログラム及び機能性分子 図5
  • 特開-部分構造選択ステップを含む設計データの生成方法、機能性分子の設計データの生成方法、機能性分子の設計プログラム及び機能性分子 図6
  • 特開-部分構造選択ステップを含む設計データの生成方法、機能性分子の設計データの生成方法、機能性分子の設計プログラム及び機能性分子 図7
  • 特開-部分構造選択ステップを含む設計データの生成方法、機能性分子の設計データの生成方法、機能性分子の設計プログラム及び機能性分子 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022179079
(43)【公開日】2022-12-02
(54)【発明の名称】部分構造選択ステップを含む設計データの生成方法、機能性分子の設計データの生成方法、機能性分子の設計プログラム及び機能性分子
(51)【国際特許分類】
   G16C 20/50 20190101AFI20221125BHJP
   G16C 20/70 20190101ALI20221125BHJP
【FI】
G16C20/50
G16C20/70
【審査請求】未請求
【請求項の数】16
【出願形態】OL
(21)【出願番号】P 2021086322
(22)【出願日】2021-05-21
【国等の委託研究の成果に係る記載事項】(出願人による申告)令和元年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業「データ駆動型分子設計を基点とする超複合材料の開発」委託研究、産業技術力強化法第17条の適用を受ける特許出願
(71)【出願人】
【識別番号】301023238
【氏名又は名称】国立研究開発法人物質・材料研究機構
(71)【出願人】
【識別番号】503359821
【氏名又は名称】国立研究開発法人理化学研究所
(74)【代理人】
【識別番号】100149548
【弁理士】
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100163496
【弁理士】
【氏名又は名称】荒 則彦
(74)【代理人】
【識別番号】100161207
【弁理士】
【氏名又は名称】西澤 和純
(72)【発明者】
【氏名】内藤 昌信
(72)【発明者】
【氏名】藤田 健弘
(72)【発明者】
【氏名】中村 泰之
(72)【発明者】
【氏名】田村 亮
(72)【発明者】
【氏名】津田 宏治
(72)【発明者】
【氏名】隅田 真人
(72)【発明者】
【氏名】寺山 慧
(57)【要約】      (修正有)
【課題】機械学習を利用して物の設計データを生成し、部分構造の濃縮度に着目して有望な部分構造を選択することにより、有望な性質を有する物の設計データを生成する方法及び設計プログラム並びに該方法で設計した分子を提供する。
【解決手段】計算機シミュレーションで予測可能な性質を有する物の設計データを生成する方法において、トレーニングデータを用いて、機械学習で、第1生成データを生成する第1生成ステップS1と第1生成データから、計算機シミュレーションで、性質を有する物をスクリーニングして第2生成データを生成する第2生成ステップS2と、第2生成データから、物の部分構造の濃縮度に基づいて、部分構造を選択する部分構造選択ステップS3と、第2生成データから、部分構造選択ステップで選択した部分構造を有する物をスクリーニングして、物の設計データを生成する第3生成ステップS4と、を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
計算機シミュレーションで予測可能な性質を有する物の設計データを生成する方法であって、
トレーニングデータを用いて、機械学習で、第1生成データを生成する第1生成ステップと、
前記第1生成データから、計算機シミュレーションで、前記性質を有する前記物をスクリーニングして第2生成データを生成する第2生成ステップと、
前記第2生成データから、前記物の部分構造の濃縮度に基づいて、部分構造を選択する部分構造選択ステップと、
前記第2生成データから、前記部分構造選択ステップで選択した部分構造を有する前記物をスクリーニングして、前記物の設計データを生成する第3生成ステップと
を含み、
前記部分構造の前記濃縮度は、以下の式(1A)で算出した値であることを特徴とする設計データの生成方法。
濃縮度=第2生成データにおいて部分構造を含む物の割合/トレーニングデータにおいて部分構造を含む物の割合 (1A)
【請求項2】
量子化学計算で算出可能な物性を有する機能性分子の設計データを生成する方法であって、
トレーニングデータを用いて、機械学習で、第1生成データを生成する第1生成ステップと、
前記第1生成データから、量子化学計算で、前記機能性分子をスクリーニングして第2生成データを生成する第2生成ステップと、
前記第2生成データから、前記機能性分子の部分構造の濃縮度を用いて前記部分構造を選択する部分構造選択ステップと、
前記第2生成データから、前記部分構造を有する機能性分子をスクリーニングして、第2生成データを生成する第2生成ステップと
を含み、
前記部分構造の前記濃縮度は、以下の式(1B)で算出した値であることを特徴とする機能性分子の設計データを生成する方法。
濃縮度=第2生成データにおいて部分構造を含む分子の割合/トレーニングデータにおいて部分構造を含む分子の割合 (1B)
【請求項3】
前記物性は、光吸収波長であり、
前記機能性分子は、長波長光吸収能を有する有機分子である請求項2に記載の機能性分子の設計データを生成する方法。
【請求項4】
前記機械学習は、モンテカルロ木探索(MCTS:Monte Carlo Tree Search)アルゴリズムを用いる強化学習であり、
前記モンテカルロ木探索において、ロールアウトは、回帰型ニューラルネットワーク(RNN:Recurrent Neural Network)及び量子化学計算を組み合わせて行う請求項2又は3に記載の機能性分子の設計データを生成する方法。
【請求項5】
前記モンテカルロ木探索は、選択(Selection)手順、展開(Expansion)手順、シミュレーション(Simulation)手順、バックプロパゲーション(Backpropagation)手順を有し、
前記選択手順において、以下の式(2)を用いて、親ノードの子ノードのスコアuiをUCB1(Upper Confidence Bound 1)のアルゴリズムで算出し、
【数1】
(式(2)において、Cが探索パラメータであり、wi/viが子ノードの期待報酬であり、wiが報酬の総和であり、viが子ノードの訪問回数であり、Vparentが親ノードの訪問回数である。)
前の算出したスコアuiに基づいて子ノードを選択し、
前記展開手順において、前記選択した子ノードを展開し、
前記シミュレーション手順で、回帰型ニューラルネットワークを用いて、ロールアウトに基づいて展開された子ノードで表す分子に対して、TD-DFTによって前記物性の値を計算し、以下の式(3)と(4)を用いて、この子ノードの報酬r(I)を計算し、
【数2】
(前記式(3)と(4)において、vがTD-DFTで計算した前記物性値であり、SAが各分子のSAスコア(Synthetic accessibility score)で1~10であり、θが比較対象の前記物性値の基準であり、v=θの時0.5になり、θより大きいと0.5より大きな値になり、無限大の時1になる。)
前記バックプロパゲーション手順で、前記報酬r(I)を根ノードに向かって伝搬させ、モンテカルロ木に報酬情報を反映させる請求項4に記載の機能性分子の設計データを生成する方法。
【請求項6】
前記部分構造選択ステップにおいて、第2生成データから、前記部分構造の濃縮度において最も高い濃縮度を有する部分構造を選択する請求項3~5の何れか1項に記載の機能性分子の設計データを生成する方法。
【請求項7】
前記第2生成データは、前記最も高い濃縮度を有する部分構造を有する分子を含む請求項6に記載の機能性分子の設計データを生成する方法。
【請求項8】
前記第3生成ステップで得られた前記設計データに含まれている分子に対して、それと類似の構造を有する分子を設計し、実際合成して、対象とする物性を測定する最適設計ステップを更に含む請求項2~7の何れか1項に記載の機能性分子の設計データを生成する方法。
【請求項9】
計算機シミュレーションで予測可能な性質を有する物の設計データを生成する方法、をコンピュータに実行させるためのプログラムであって、前記方法は、
トレーニングデータを用いて、機械学習で、第1生成データを生成する第1生成ステップと、
前記第1生成データから、計算機シミュレーションで、前記性質を有する前記物をスクリーニングして第2生成データを生成する第2生成ステップと、
前記第2生成データから、前記物の部分構造の濃縮度に基づいて、部分構造を選択する部分構造選択ステップと、
前記第2生成データから、前記部分構造選択ステップで選択した部分構造を有する前記物をスクリーニングして、前記物の設計データを生成する第3生成ステップと
を含み、
前記部分構造の前記濃縮度は、以下の式(1A)で算出した値であることを特徴とするプログラム。
濃縮度=第2生成データにおいて部分構造を含む物の割合/トレーニングデータにおいて部分構造を含む物の割合 (1A)
【請求項10】
量子化学計算で算出可能な物性を有する機能性分子の設計データを生成する方法、をコンピュータに実行させるためのプログラムであって、前記方法は、
トレーニングデータを用いて、機械学習で、第1生成データを生成する第1生成ステップと、
前記第1生成データから、量子化学計算で、前記機能性分子をスクリーニングして第2生成データを生成する第2生成ステップと、
前記第2生成データから、前記機能性分子の一部である部分構造の濃縮度を用いて前記部分構造を選択する部分構造選択ステップと、
前記第2生成データから、前記部分構造を有する機能性分子をスクリーニングして、第2生成データを生成する第2生成ステップと
を含み、
前記部分構造の前記濃縮度は、以下の式(1B)で算出した値であることを特徴とするプログラム。
濃縮度=第2生成データにおいて部分構造を含む分子の割合/トレーニングデータにおいて部分構造を含む分子の割合 (1B)
【請求項11】
前記物性は、光吸収波長であり、
前記機能性分子は、長波長光吸収能を有する有機分子である請求項10に記載のプログラム。
【請求項12】
計算機シミュレーションで予測可能な性質を有する物の設計データを生成する方法、をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記方法は、
トレーニングデータを用いて、機械学習で、第1生成データを生成する第1生成ステップと、
前記第1生成データから、計算機シミュレーションで、前記性質を有する前記物をスクリーニングして第2生成データを生成する第2生成ステップと、
前記第2生成データから、前記物の部分構造の濃縮度に基づいて、部分構造を選択する部分構造選択ステップと、
前記第2生成データから、前記部分構造選択ステップで選択した部分構造を有する前記物をスクリーニングして、前記物の設計データを生成する第3生成ステップと
を含み、
前記部分構造の前記濃縮度は、以下の式(1A)で算出した値であることを特徴とする記録媒体。
濃縮度=第2生成データにおいて部分構造を含む物の割合/トレーニングデータにおいて部分構造を含む物の割合 (1A)
【請求項13】
量子化学計算で算出可能な物性を有する機能性分子の設計データを生成する方法、をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記方法は、
トレーニングデータを用いて、機械学習で、第1生成データを生成する第1生成ステップと、
前記第1生成データから、量子化学計算で、前記機能性分子をスクリーニングして第2生成データを生成する第2生成ステップと、
前記第2生成データから、前記機能性分子の一部である部分構造の濃縮度を用いて前記部分構造を選択する部分構造選択ステップと、
前記第2生成データから、前記部分構造を有する機能性分子をスクリーニングして、第2生成データを生成する第2生成ステップと
を含み、
前記部分構造の前記濃縮度は、以下の式(1B)で算出した値であることを特徴とする記録媒体。
濃縮度=第2生成データにおいて部分構造を含む分子の割合/トレーニングデータにおいて部分構造を含む分子の割合 (1B)
【請求項14】
前記物性は、光吸収波長であり、
前記機能性分子は、長波長光吸収能を有する有機分子である請求項13に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
【請求項15】
1,2‐ナフトキノン構造を有する以下の式(5-1)~(5-22)で表す分子。
【化1】
【請求項16】
以下の式(6)で表す分子又はその誘導体。
【化2】

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、部分構造選択ステップを含む設計データの生成方法、機能性分子の設計データの生成方法、機能性分子の設計プログラム及び機能性分子に関する。本発明の一実施形態は、長波長光吸収能を有する有機分子の設計データの生成方法、長波長光吸収能を有する有機分子の設計プログラム及び長波長光吸収能を有する有機分子に関する。
【背景技術】
【0002】
古くから、所望の機能を持つ分子を計算機に設計させる技術が注目されてきた。しかしその多くは、分子を構成する化学法則を前もって人が入力しておく必要があり、労力がかかる上に、全ての法則を網羅することは不可能であった。ところが、近年、人工知能(AI)技術において、機械学習から深層学習の発展によって、複雑な有機分子を構成する法則を自動で計算機に学習させることが可能になった。これにより、AIを用いて機能性分子を設計する技術は飛躍的な発展を遂げ、多数の新しい分子が設計された。
【0003】
その機械学習の一種である強化学習において、よく使用されるアルゴリズムの一つとしてモンテカルロ木探索(MCTS:Monte Carlo Tree Search)がある。モンテカルロ木探索は、探索空間を追加的に伸びる木構造(探索木)で表すことで、現在の状態において採るべき最善のアクションを決定するものである。探索木は、状態を表すノードとアクションを表すエッジ(辺)からなる。各ノードはそのノードから先に進む場合における期待報酬(expected reward)を保持している。
【0004】
モンテカルロ木探索は、選択(selection)、展開(expansion)、シミュレーション(ロールアウト(roll-out))及びバックプロパゲーション(backpropagation)の4つの手順に分けられる。選択手順では、まだ十分に展開されていないノードに達するまで根ノードから、葉ノードに到達するまで子ノード選択を繰り返す。展開手順では、選択手順で選択された葉ノードに、1つのノードが追加される。シミュレーション手順では、ロールアウトのデフォルトポリシーに従ってシミュレーションを行い、選択されたノードに対する報酬を得る。バックプロパゲーション手順では、シミュレーションの結果を逆方向、すなわちリーフノードからルートノード方向に伝搬してゆく。上でも述べたように、ノードは、シミュレートされたタスクの状態を表し、辺は、現在のノードの状態から子ノードの状態へ遷移するために実行されたアクションに対応する。ノードの期待報酬は、そのノードを介して進む全シミュレーションの平均的な成果を表している。
【0005】
モンテカルロ木探索を分子設計に用いる例として、非特許文献1では、新規で有用な分子を発見するために、回帰型ニューラルネットワーク(RNN:Recurrent Neural Network)及びモンテカルロ木探索を組み合わせた分子発生器ChemTSを提案した。ChemTSでは、分子はSMILES(Simplified Molecular Input Line Entry System)記法の文字列で表され、SMILES文字列の各要素はモンテカルロ木探索の探索木のノードに対応する。上記4つの手順中の手順2と手順3で現実的な分子を生成するために、不完全なSMILES文字列からのRNNベースSMILES文字予測モデルを利用する。
所望の特性を有する分子を設計するためには、手順3で生成した分子を適切な基準を用いて評価する必要がある。非特許文献1に開示した通り、手順3でlogP値を含むJスコアの(ブラックボックス)評価関数を設定することにより、高いlogP値を持つ設計分子を効率的に生成できることを示した。
【0006】
一方、非特許文献2において、ChemTSと密度汎関数法(DFT)を組み合わせて、目的波長を吸収する分子の設計を行い、自動分子設計の可能性を実験的に検証した。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】Yang, X.; Zhang, J.; Yoshizoe, K.; Terayama, K.; Tsuda, K. ChemTS: an efficient python library for de novo molecular generation. Sci. Technol. Adv. Mater. 2017, 18, 972-976.
【非特許文献2】Sumita, M.; Yang, X.; Ishihara, S.; Tamura, R.; Tsuda, K. Hunting for Organic Molecules with Artificial Intelligence: Molecules Optimized for Desired Excitation Energies. ACS Cent. Sci. 2018, 4, 1126-1133.
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかし、非特許文献1~2に開示される方法で直接に出力した分子構造が多数である場合、全部分子を実際に合成して評価することは、時間と費用がかかる問題があった。所定の物性を有する機能性分子をChemTS計算と密度汎関数法(DFT)計算を組み合わせる機械学習方法で出力した分子から、更に有効な機能性分子を選択することが求められていた。
【0009】
本発明は、上記のような課題を解決するためになされたものであり、機械学習などで直接に生成した物の設計データから、部分構造の濃縮度に着目して有望な部分構造を選択することにより、有望な物をスクリーニングし、物の設計データを生成する方法、設計プログラムを提供することを目的とする。
また、機械学習などで直接に生成した分子データから、有望な分子をスクリーニングし、機能性分子の設計データを生成する方法、設計プログラムを提供することを目的とする。
また、機能性分子の設計データを生成する方法で設計した分子を提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明は以下の態様を含む。
〔1〕 計算機シミュレーションで予測可能な性質を有する物の設計データを生成する方法であって、
トレーニングデータを用いて、機械学習で、第1生成データを生成する第1生成ステップと、
前記第1生成データから、計算機シミュレーションで、前記性質を有する前記物をスクリーニングして第2生成データを生成する第2生成ステップと、
前記第2生成データから、前記物の部分構造の濃縮度に基づいて、部分構造を選択する部分構造選択ステップと、
前記第2生成データから、前記部分構造選択ステップで選択した部分構造を有する前記物をスクリーニングして、前記物の設計データを生成する第3生成ステップと
を含み、
前記部分構造の前記濃縮度は、以下の式(1A)で算出した値であることを特徴とする設計データの生成方法。
濃縮度=第2生成データにおいて部分構造を含む物の割合/トレーニングデータにおいて部分構造を物の割合 (1A)
〔2〕 量子化学計算で算出可能な物性を有する機能性分子の設計データを生成する方法であって、
トレーニングデータを用いて、機械学習で、第1生成データを生成する第1生成ステップと、
前記第1生成データから、量子化学計算で、前記機能性分子をスクリーニングして第2生成データを生成する第2生成ステップと、
前記第2生成データから、前記機能性分子の一部である部分構造の濃縮度を用いて前記部分構造を選択する部分構造選択ステップと、
前記第2生成データから、前記部分構造を有する機能性分子をスクリーニングして、第2生成データを生成する第2生成ステップと
を含み、
前記部分構造の前記濃縮度は、以下の式(1B)で算出した値であることを特徴とする機能性分子の設計データを生成する方法。
濃縮度=第2生成データにおいて部分構造を含む分子の割合/トレーニングデータにおいて部分構造を含む分子の割合 (1B)
〔3〕 前記物性は、光吸収波長であり、
前記機能性分子は、長波長光吸収能を有する有機分子である〔2〕に記載の機能性分子の設計データを生成する方法。
〔4〕 前記機械学習は、モンテカルロ木探索(MCTS:Monte Carlo Tree Search)アルゴリズムを用いる強化学習であり、
前記モンテカルロ木探索において、ロールアウトは、回帰型ニューラルネットワーク(RNN:Recurrent Neural Network)及び量子化学計算を組み合わせて行う〔2〕又は〔3〕に記載の機能性分子の設計データを生成する方法。
〔5〕 前記モンテカルロ木探索は、選択(Selection)手順、展開(Expansion)手順、シミュレーション(Simulation)手順、バックプロパゲーション(Backpropagation)手順を有し、
前記選択手順において、以下の式(2)を用いて、親ノードの子ノードのスコアuiをUCB1(Upper Confidence Bound 1)のアルゴリズムで算出し、
【数1】
(式(2)において、Cが探索パラメータであり、wi/viが子ノードの期待報酬であり、wiが報酬の総和であり、viが子ノードの訪問回数であり、Vparentが親ノードの訪問回数である。)
前の算出したスコアuiに基づいて子ノードを選択し、
前記展開手順において、前記選択した子ノードを展開し、
前記シミュレーション手順で、回帰型ニューラルネットワークを用いて、ロールアウトに基づいて展開された子ノードで表す分子に対して、時間依存密度汎関数法(TD-DFT)によって前記物性の値を計算し、以下の式(3)と(4)を用いて、この子ノードの報酬r(I)を計算し、
【数2】
(前記式(3)と(4)において、vがTD-DFTで計算した前記物性値であり、SAが各分子のSAスコア(synthetic accessibility score)で1~10であり、θが比較対象の前記物性値の基準であり、v=θの時0.5になり、θより大きいと0.5より大きな値になり、無限大の時1になる。)
前記バックプロパゲーション手順で、前記報酬r(I)を根ノードに向かって伝搬させ、モンテカルロ木に報酬情報を反映させる〔4〕に記載の機能性分子の設計データを生成する方法。
〔6〕 前記部分構造選択ステップにおいて、第2生成データから、前記部分構造の濃縮度において最も高い濃縮度を有する部分構造を選択する〔3〕~〔5〕の何れか1項に記載の機能性分子の設計データを生成する方法。
〔7〕 前記第2生成データは、前記最も高い濃縮度を有する部分構造を有する分子を含む〔6〕に記載の機能性分子の設計データを生成する方法。
〔8〕前記第3生成ステップで得られた前記設計データに含まれている分子に対して、それと類似の構造を有する分子を設計し、実際合成して、対象とする物性を測定する最適設計ステップを更に含む〔2〕~〔7〕の何れか1項に記載の機能性分子の設計データを生成する方法。
〔9〕 計算機シミュレーションで予測可能な性質を有する物の設計データを生成する方法、をコンピュータに実行させるためのプログラムであって、前記方法は、
トレーニングデータを用いて、機械学習で、第1生成データを生成する第1生成ステップと、
前記第1生成データから、計算機シミュレーションで、前記性質を有する前記物をスクリーニングして第2生成データを生成する第2生成ステップと、
前記第2生成データから、前記物の部分構造の濃縮度に基づいて、部分構造を選択する部分構造選択ステップと、
前記第2生成データから、前記部分構造選択ステップで選択した部分構造を有する前記物をスクリーニングして、前記物の設計データを生成する第3生成ステップと
前記部分構造の前記濃縮度は、以下の式(1A)で算出した値であることを特徴とするプログラム。
濃縮度=第2生成データにおいて部分構造を含む物の割合/トレーニングデータにおいて部分構造を物の割合 (1A)
〔10〕 量子化学計算で算出可能な物性を有する機能性分子の設計データを生成する方法、をコンピュータに実行させるためのプログラムであって、前記方法は、
トレーニングデータを用いて、機械学習で、第1生成データを生成する第1生成ステップと、
前記第1生成データから、量子化学計算で、前記機能性分子をスクリーニングして第2生成データを生成する第2生成ステップと、
前記第2生成データから、前記機能性分子の一部である部分構造の濃縮度を用いて前記部分構造を選択する部分構造選択ステップと、
前記第2生成データから、前記部分構造を有する機能性分子をスクリーニングして、第2生成データを生成する第2生成ステップと
を含み、
前記部分構造の前記濃縮度は、以下の式(1B)で算出した値であることを特徴とするプログラム。
濃縮度=第2生成データにおいて部分構造を含む分子の割合/トレーニングデータにおいて部分構造を含む分子の割合 (1B)
〔11〕 前記物性は、光吸収波長であり、
前記機能性分子は、長波長光吸収能を有する有機分子である〔10〕に記載のプログラム。
〔12〕 計算機シミュレーションで予測可能な性質を有する物の設計データを生成する方法、をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記方法は、
トレーニングデータを用いて、機械学習で、第1生成データを生成する第1生成ステップと、
前記第1生成データから、計算機シミュレーションで、前記性質を有する前記物をスクリーニングして第2生成データを生成する第2生成ステップと、
前記第2生成データから、前記物の部分構造の濃縮度に基づいて、部分構造を選択する部分構造選択ステップと、
前記第2生成データから、前記部分構造選択ステップで選択した部分構造を有する前記物をスクリーニングして、前記物の設計データを生成する第3生成ステップと
を含み、
前記部分構造の前記濃縮度は、以下の式(1A)で算出した値であることを特徴とする記録媒体。
濃縮度=第2生成データにおいて部分構造を含む物の割合/トレーニングデータにおいて部分構造を物の割合 (1A)
〔13〕 量子化学計算で算出可能な物性を有する機能性分子の設計データを生成する方法、をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記方法は、
トレーニングデータを用いて、機械学習で、第1生成データを生成する第1生成ステップと、
前記第1生成データから、量子化学計算で、前記機能性分子をスクリーニングして第2生成データを生成する第2生成ステップと、
前記第2生成データから、前記機能性分子の一部である部分構造の濃縮度を用いて前記部分構造を選択する部分構造選択ステップと、
前記第2生成データから、前記部分構造を有する機能性分子をスクリーニングして、第2生成データを生成する第2生成ステップと
を含み、
前記部分構造の前記濃縮度は、以下の式(1B)で算出した値であることを特徴とする記録媒体。
濃縮度=第2生成データにおいて部分構造を含む分子の割合/トレーニングデータにおいて部分構造を含む分子の割合 (1B)
〔14〕 前記物性は、光吸収波長であり、
前記機能性分子は、長波長光吸収能を有する有機分子である〔13〕に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
〔15〕 1,2‐ナフトキノン構造を有する以下の式(5-1)~(5-22)で表す分子。
【化1】
〔16〕 以下の式(6)で表す分子又はその誘導体。
【化2】
【発明の効果】
【0011】
本発明によれば、機械学習を利用して物の設計データを生成し、部分構造の濃縮度に着目して有望な部分構造を選択することにより、有望な物をスクリーニングし、物の設計データを生成する方法、設計プログラムを提供することができる。
本発明の一実施形態によれば、機械学習を利用して分子を生成し、所定物性に寄与する部分構造の濃縮度を着目して、有望な機能性分子を設計することができる機能性分子の設計データを生成する方法、機能性分子の設計プログラムを提供することができる。また、機能性分子の設計データを生成する方法で得られた機能性分子を提供することができる。
【図面の簡単な説明】
【0012】
図1】第1実施形態を説明するための図である。
図2】第2実施形態を説明するための図である。
図3】第2実施形態の一例を説明するための図である。
図4】モンテカルロ木探索(MCTS)による分子探索を説明するための図である。
図5】実施例1において得られた第2生成データに含まれている分子(5-17)(分子1a)から合成可能な分子1dを設計することを示す図である。
図6】実施例1において得られた第2生成データに含まれている分子(5-17)(分子1a)から設計した合成可能な分子1dの逆合成解析を示す図である。
図7】分子1dの合成スキームを示す図である。
図8】アセトニトリル溶媒中の分子1d(10-4 mol/L)のUV-vis吸収スペクトル及びTD-DFT計算により得られた分子1dの計算スペクトル(計算レベル:APFD/6-311+++G**)を示す図である。赤線(実線):UV-vis吸収スペクトル、青線(点線):計算スペクトル。
【発明を実施するための形態】
【0013】
以下、本発明の実施形態について詳細に説明する。ただし、本発明は、以下に示す実施形態に限定されるものではない。
【0014】
本発明の用語について、以下の意味を有する。
「機械学習(Machine learning)」:学習により自動で改善するコンピュータアルゴリズムもしくはその研究領域であり、人工知能の一種である。「トレーニングデータ(訓練データ)」もしくは「学習データ」と呼ばれるデータを使って学習し、学習結果を使って何らかのタスクをこなす。
【0015】
「トレーニングデータ(Training data)」:機械学習においてモデルのトレーニングに使うデータのことである。本発明では、下記の回帰型ニューラルネットワークのトレーニングに使うデータも含む。
【0016】
「回帰型ニューラルネットワーク(RNN:Recurrent Neural Network)」:ノード間の結合が配列に沿った有向グラフを形成する人工ニューラルネットワークの1つである。これによって、時系列のための時間的な動的振る舞いを示すことが可能となる。本発明では、例えば、トレーニングを受けた後、直前に出てきた文字から、次の文字を予測することができる深層学習(ディープラーニング)の手法の1つである。
【0017】
「深層学習(ディープラーニング、Deep Learning)」:ニューラルネットワークを多層に結合し表現・学習能力を高めた機械学習の手法である。
【0018】
「モンテカルロ木探索(Monte Carlo Tree Search:MCTS)」囲碁をはじめとするゲームにおいて有力といわれる探索手法の1つである。モンテカルロ法を使った木の探索の方法である。決定過程に対する、ヒューリスティクス(=途中で不要な探索をやめ、ある程度の高確率で良い手を導ける)な探索アルゴリズムである。
【0019】
「計算機シミュレーション(Computer simulation)」:計算科学(Computational science)によるシミュレーション及び機械学習で生成した学習モデルによるシミュレーションを含む。
【0020】
「量子化学」:量子力学に基づいた分子シミュレーション技術。量子力学は原子・分子レベルの粒子の現象を説明する力学である。
【0021】
「密度汎関数法(DFT:Density Functional Theory)」分子や材料の電子の状態を得るための量子力学に基づいたシミュレーションで、量子化学の計算手法の一つである。
【0022】
「スクリーニング(Screening)」:特定の条件などに照らして複数ある対象の中から条件に合致する対象を選別する、という動作を指す。
【0023】
{第1実施形態}
(設計データを生成する方法)
本実施形態の設計データを生成する方法は、計算機シミュレーションで予測可能な性質を有する物の設計データを生成する方法である。図1に示すように、以下の第1生成ステップ(S1)と第2生成ステップ(S2)と部分構造選択ステップ(S3)と第3生成ステップ(S4)を含む。
第1生成ステップ(S1):トレーニングデータを用いて、機械学習で、第1生成データを生成するステップ。
第2生成ステップ(S2):前記第1生成データから、計算機シミュレーションで、前記性質を有する物をスクリーニングして第2生成データを生成する第2生成ステップ(S2)。
部分構造選択ステップ(S3):前記第2生成データから、前記物の部分構造の濃縮度に基づいて、部分構造を選択する部分構造選択ステップ(S3)。
第3生成ステップ(S4):前記第2生成データから、前記部分構造選択ステップ(S3)で選択した部分構造を有する前記物をスクリーニングして、前記物の設計データを生成するステップ。
【0024】
前記濃縮度は、以下の式(1A)で表される。
【0025】
濃縮度=第2生成データにおいて部分構造を含む物の割合/トレーニングデータにおいて部分構造を含む物の割合 (1A)
【0026】
本実施形態の物は、計算機シミュレーションで予測可能な性質を有する物であれば、特に制限されない。本実施形態の物としては、例えば、化学・材料分野において、無機分子、有機分子、複合材料、セラミック材料、金属材料などが挙げられる。本実施形態の物としては、例えば、電気・磁気分野において、電気回路、電気デバイス、磁気センサなどが挙げられる。本実施形態の物としては、例えば、音楽や映像の分野において、作曲、画像、写真、映画作品などが挙げられる。
【0027】
本実施形態の前記「計算機シミュレーションで予測可能な性質」は、前記物の構成で決められる性質であって、前記物の構成のデータを用いて前記計算機シミュレーションで予測可能なものであれば、特に限定されない。その「性質」としては、その物の固有の客観的な特性、その物に対する主観的な評価などが挙げられる。
本実施形態の前記「計算機シミュレーションで予測可能な性質」としては、例えば、前記物が化学分子や材料である場合、それらの物性などが挙げられる。その物性としては、例えば、後述の第2実施形態で説明した吸収波長、誘電特性、酸化還元電位、偏光特性、イオン伝導率、凝集エネルギーなどが挙げられる。
本実施形態の前記「計算機シミュレーションで予測可能な性質」としては、例えば、前記物が電気回路である場合、それらの出力の電気特性などが挙げられる。その電気特性としては、例えば、電流、電圧、周波数などが挙げられる。
本実施形態の前記「計算機シミュレーションで予測可能な性質」としては、例えば、前記物が作曲である場合、その作曲の人気度を評価するランキングやヒット率などが挙げられる。
【0028】
<第1生成ステップ(S1)>
本実施形態の計算機シミュレーションは、コンピュータで前記物の構成を用いて、所定性質を予測することができれば、特に制限がない。例えば、計算科学(Computational Science)で報告された種々のシミュレーション方法を使用することができる。例えば、前記物が化学分子や材料である場合、後述の第2実施形態で説明した量子化学計算が挙げられる。
本実施形態の計算機シミュレーションとしては、計算科学で使用されている量子化学計算などのシミュレーション方法の以外に、予測用学習モデルを用いる機械学習方法も挙げられる。例えば、前記性質を有する前記物の学習データを用いて、機械学習方法で学習モデルを生成し、その学習モデルを用いて、前記物の設計データから前記性質を予測することができる。
【0029】
本実施形態のトレーニングデータ(教師データや、学習データ、訓練データともいうことがある)とは、例えば、少なくとも、その物の構成のデータであって、トレーニングに使うデータである。所定性質を有する物の構成のデータとその物の前記性質のデータを含むデータもトレーニングデータとして利用できる。
例えば、前記物が分子である場合、分子のトレーニングデータとしては、分子の化学構造のデータが挙げられる。後述の第2実施形態で詳細に説明する。
【0030】
本実施形態に係る機械学習(Machine Learning)は、上記トレーニングデータを用いて、所定性質を有する物を設計することができれば、特に限定されなく、例えば、教師あり学習、教師なし学習、強化学習が挙げられる。後述の第2実施形態では、モンテカルロ木探索(Monte Carlo Tree Search:MCTS)などの強化学習を用いる例を説明する。
本実施形態に係る機械学習(Machine Learning)は、ニューラルネットワークを用いることが好ましく、特に、深層学習(Deep learning)を用いることがより好ましい。後述の実施形態では、回帰型ニューラルネットワーク(RNN:Recurrent Neural Network)を用いる例を説明する。その実施形態では、上記トレーニングデータは、回帰型ニューラルネットワーク(RNN)をトレーニングするためのデータである。
【0031】
本実施形態に係る機械学習は、モンテカルロ木探索などの強化学習を用い、前記モンテカルロ木探索において、展開及びロールアウトは、回帰型ニューラルネットワーク及び計算機シミュレーションを組み合わせて行うことが好ましい。計算機シミュレーションにより、葉ノードから、前記トレーニングデータでトレーニングした回帰型ニューラルネットワークで得らえた物の構成に対して前記性質の値を算出することがより好ましい。
前記性質の値が高いほど、性質がよい物を設計する場合、例えば、後述の長波長を有する有機分子を設計する場合、前記計算した性質の値を用いて、前記性質の値の所定の下限値より大きければ大きくなるほど、モンテカルロ木探索の報酬(reward)が高くなるように、設定することがより好ましい。あるいは、前記性質の値が低いほど、性質がよい物を設計する場合、例えば、低誘電率を有する分子を設計する場合、前記計算した値を用いて、前記値の所定の上限値より小さければ小さくなるほど、モンテカルロ木探索の報酬(reward)が高くなるように、設定することがより好ましい。そのように機械学習を設定することで、前記トレーニングデータに含まれている物の制限を超える新規な物を設計することができる。
【0032】
<第2生成ステップ(S2)>
第2生成ステップ(S2)において、前記第1生成ステップ(S1)から得られた第1生成データには、物の構成データと計算機シミュレーションで得られた性質の値データを含む。前記第1生成データかから、一定の値を有する前記物をスクリーニングして第2生成データを生成する。
前記値が高いほど、性質がよい物を設計する場合、所定の値以上の物をスクリーニングし、第2生成データを生成する。例えば、後述の長波長を有する有機分子を設計する場合、所定の光吸収波長以上の有機分子をスクリーニングし、第2生成データを生成する。あるいは、前記値が低いほど、性質がよい物を設計する場合、所定の値以下の物をスクリーニングし、第2生成データを生成する。例えば、低誘電率を有する分子を設計する場合、所定の誘電率以下の分子をスクリーニングし、第2生成データを生成する。
【0033】
第2生成ステップ(S2)において、前記第1生成ステップ(S1)から得られた第1生成データの物の構成のみを用いて、第1生成ステップ(S1)に用いた計算機シミュレーションと異なるシミュレーション方法あるいは同じ計算機シミュレーションであって異なる計算精度で、第1生成データの性質の値を再計算してもよい。そして、その再計算した値を用いて、第1生成データから、一定の値を有する前記物をスクリーニングして第2生成データを生成してもよい。第1生成ステップ(S1)の高速化と第2生成ステップ(S2)の高い精度を両立できる。
【0034】
第2生成ステップ(S2)において、前記第1生成ステップ(S1)から得られた第1生成データの計算機シミュレーションと性質の値のデータを用いて、まず、所定の第1値を有する前記物をスクリーニングして中間データを生成し、第1生成ステップ(S1)に用いた計算機シミュレーションと異なるシミュレーション方法あるいは同じ計算機シミュレーションであって異なる計算精度で、その中間データの物の性質の値を再計算してもよい。そして、その再計算した性質の値を用いて、中間データから、所定の第2値を有する前記物をスクリーニングして第2生成データを生成してもよい。
【0035】
<部分構造の選択ステップ(S3)>
上記「部分構造(substructure)」とは、上記性質に特に寄与する前記物に含まれている一部の構造である。
【0036】
上記部分構造を、1個でも、2個以上の部分構造候補リストを選択してもよい。
前記性質に寄与する部分構造を選定すればよく、その選定する方法には、特に限定ない。例えば、以下の3つの方法が挙げられる。
〔1〕前記性質及び前記トレーニングデータに含まれている物に関する技術常識などから、部分構造を選定する方法;
〔2〕トレーニングデータに含まれる物とその性質を解析し、とりうる部分構造を自動で抽出、選定する方法;
〔3〕部分構造に関するデータベースを利用し、そのデータベースに含まれ、前記性質に寄与するものを選択する方法。
後述実施例では、長波長光吸収に寄与する観点から、表1に示す8個の部分構造を選定し、実施形態の部分構造候補リストを作成した。
【0037】
上記選定した部分構造候補リストに対して、前記トレーニングデータ及び第2生成ステップ(S2)で得らえた第2生成データにおいて、それぞれの割合を計算し、前記式(1A)で各部分構造の濃縮度を算出する。
例えば、前記トレーニングデータに含まれている物の数をNt、部分構造fを含む物の数をNtfとする場合、トレーニングデータにおいて、部分構造fを含む物の割合Pt(f)=Ntf/Ntである。同様に、前記第2生成データに含まれている物の数をNd、部分構造fを含む物の数をNdfとする場合、前記第2生成データにおいて、部分構造fを含む物の割合Pd(f)=Ndf/Ndである。前記式(1A)で、部分構造fの濃縮度として、Pd(f)/Pt(f)を算出する。
【0038】
第2生成データにおいて、濃縮度を用いて部分構造を選択する。濃縮度が高くなる部分構造を選択することができる。濃縮度が高くなる部分構造を有する物は、機械学習によって生成された物のなかで特に重要な物であるためである。例えば、濃縮度の高い順で第1~第3位の濃縮度を有する部分構造を選択することができる。濃縮度が最も高い部分構造を選択することが好ましい。後述実施例では、実施例の表1の部分構造候補リストから、濃縮度が最も高い部分構造を選択した。
【0039】
<第3生成ステップ(S4)>
そして、第2生成データに含まれている物から、前記部分構造の選択ステップ(S3)で選択された部分構造を含む物をスクリーニングし、所定性質を有する物の設計データを生成する。
後述実施例では、第2生成データに含まれている分子から、最も高い濃縮度の部分構造を有する分子22個を含む有機分子の設計データを生成した。
【0040】
<最適設計ステップ>
本実施形態の機能性分子の設計データを生成する方法は、更に、前記第3生成ステップ(S4)で得られた設計データから、最適な物を設計する最適設計ステップを含んでもよい。
最適設計ステップとして、例えば、最適な物を設計するために、第3生成ステップ(S4)で得らえた設計データに対して、前ステップで使用されている計算機シミュレーションと異なるシミュレーションを用いて再度評価する方法、あるいは、前ステップで使用されている計算機シミュレーションと同じ方法だが、より精度の高い(計算時間がかかる)計算方法を用いて再度評価する方法が挙げらえる。最適設計ステップとして、例えば、第3生成ステップ(S4)から得らえた設計データに含まれている物或いはそれと類似する構成を有する物を実際製作し、その製作した物の前記性質を評価してもよい。設計データに含まれている物と類似する構成を有する物とは、前記性質に寄与する構成の観点から、設計データに含まれている物と同じ基本構成を有し、実際製作しにくい部分構造を除きもしくは製作しやすい部分構造で置き換える後の構成を有する物である。
【0041】
(プログラム)
本実施形態の設計プログラムは、計算機シミュレーションで予測可能な性質を有する物の設計データを生成する方法、をコンピュータに実行させるためのプログラムである。前記方法は、
トレーニングデータを用いて、機械学習で、第1生成データを生成する第1生成ステップ(S1)と、
前記第1生成データから、計算機シミュレーションで、前記性質を有する前記物をスクリーニングして第2生成データを生成する第2生成ステップ(S2)と、
前記第2生成データから、前記物の部分構造の濃縮度に基づいて、部分構造を選択する部分構造選択ステップ(S3)と、
前記第2生成データから、前記部分構造選択ステップで選択した部分構造を有する前記物をスクリーニングして、前記物の設計データを生成する第3生成ステップ(S4)と
を含む。
前記部分構造の前記濃縮度は、以下の式(1A)で算出した値である。
【0042】
濃縮度=第2生成データにおいて部分構造を含む物の割合/トレーニングデータにおいて部分構造を含む物の割合 (1A)
【0043】
前述の設計データを生成する方法において、その設計データを生成する方法の好ましい形態が記載されている。他の観点から、本実施形態のプログラムは、上記設計データを生成する方法の好ましい形態の各ステップをコンピュータに実行させるためのプログラムである。
【0044】
(プログラムを記録したコンピュータ読み取り可能な記録媒体)
前述の物の設計データを生成するプログラム及び好ましい実施形態を記録したコンピュータ読み取り可能な記録媒体も本実施形態の範疇に入る。上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD-ROM/MO/MD/DVD/CD-R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM(登録商標)/フラッシュROM等の半導体メモリ系等を用いることができる。
【0045】
{第2実施形態}
(機能性分子の設計データを生成する方法)
本実施形態の機能性分子の設計データを生成する方法は、図2に示すように、以下の第1生成ステップ(S11)と第2生成ステップ(S12)と部分構造選択ステップ(S13)と第3生成ステップ(S14)を含む。
第1生成ステップ(S11):トレーニングデータを用いて、機械学習で、第1生成データを生成するステップ。
第2生成ステップ(S12):前記第1生成データから、量子化学計算で、前記機能性分子をスクリーニングして第2生成データを生成する第2生成ステップ(S12)。
部分構造選択ステップ(S13):前記第2生成データから、前記機能性分子の一部である部分構造の濃縮度を用いて前記部分構造を選択する部分構造選択ステップ(S13)。
第3生成ステップ(S14):前記第2生成データから、前記部分構造を有する分子をスクリーニングして、設計データを生成するステップ。
本実施形態の機能性分子は、量子化学計算で算出可能な物性を有する分子であり、前記物性としては、例えば、吸収波長、誘電特性、酸化還元電位、偏光特性、イオン伝導率、凝集エネルギーから選択される少なくとも1種の物性であることが好ましい。
前記濃縮度は、以下の式(1B)で表される。
【0046】
濃縮度=第2生成データにおいて部分構造を含む分子の割合/トレーニングデータにおいて部分構造を含む分子の割合 (1B)
【0047】
<第1生成ステップ(S11)>
量子化学とは、量子力学に基づいた分子シミュレーション技術であり、量子力学とは、原子・分子レベルで粒子の現象を説明する力学である。後述の第3実施形態では、設計された有機分子の光吸収波長について、密度汎関数法に基づく量子化学計算で、有機分子の電子の状態を得て、光吸収波長を算出する。しかし、使用する量子化学の具体理論は、前記物性、使用するコンピュータの計算能力、制限する計算時間などによって、適宜選択することができる。
【0048】
トレーニングデータ(教師データや、学習データ、訓練データともいうことがある)とは、例えば、少なくとも、化合物の化学構造のデータであり、モデルのトレーニングに使うデータである。所定物性を有する化合物の化学構造のデータとその化合物の前記物性のデータを含むデータもトレーニングデータとして利用できる。
分子の化学構造のデータとしては、SMILES記法、SMARTS記法、InChl記法などの線形表記法で記載されていることが好ましい。後述の実施例では、SMILES記法を用いる例を示す。
【0049】
本実施形態に係る機械学習(Machine Learning)は、上記トレーニングデータを用いて、所定物性を有する分子を設計することができれば、特に制限はない。例えば、教師あり学習、教師なし学習、強化学習が挙げられる。後述の実施形態では、モンテカルロ木探索(Monte Carlo Tree Search:MCTS)などの強化学習を用いる例を説明する。
本実施形態に係る機械学習(Machine Learning)は、ニューラルネットワークを用いることが好ましく、特に、深層学習(Deep learning)を用いることがより好ましい。後述の実施形態では、回帰型ニューラルネットワーク(RNN:Recurrent Neural Network)を用いる例を説明する。その実施形態では、上記トレーニングデータは、回帰型ニューラルネットワーク(RNN)をトレーニングするためのデータである(例えば、図3のS31、S32)。
【0050】
本実施形態に係る機械学習は、図3に示すように、モンテカルロ木探索などの強化学習を用い、前記モンテカルロ木探索において、展開及びロールアウトは、回帰型ニューラルネットワーク及び密度汎関数法などの量子化学計算を組み合わせて行うことが好ましい。密度汎関数法などの量子化学計算により、葉ノードから、前記トレーニングデータでトレーニングした回帰型ニューラルネットワークで得らえた設計分子に対して前記物性値を計算することがより好ましい。
前記物性値が高いほど、物性がよい機能性分子を設計する場合、例えば、後述の長波長を有する有機分子を設計する場合、前記計算した物性値を用いて、前記物性値の所定の下限値より大きければ大きくなるほど、モンテカルロ木探索の報酬(reward)が高くなるように、設定することがより好ましい。あるいは、前記物性値が低いほど、物性がよい機能性分子を設計する場合、例えば、低誘電率を有する分子を設計する場合、前記計算した物性値を用いて、前記物性値の所定の上限値より小さければ小さくなるほど、モンテカルロ木探索の報酬(reward)が高くなるように、設定することがより好ましい。そのように機械学習を設定することで、前記トレーニングデータに含まれている分子の制限を超える新規機能性分子を設計することができる。後述実施形態では、長波長光吸収能を有する有機分子の設計データを生成する方法として、回帰型ニューラルネットワーク及び密度汎関数法などを組み合わせて、モンテカルロ木探索を用いる機械学習を詳細に説明する。
【0051】
前記モンテカルロ木探索のシミュレーション手順で、上記トレーニングを受けた回帰型ニューラルネットワークを用いて、最終端末のノードの文字列を生成し、完全な分子の文字列を生成することが好ましい。例えば、その生成した分子(I)に対して、TD-DFT計算によって光吸収波長を計算し、以下の式(3)と(4)を用いて、この分子(I)の報酬r(I)を計算する(例えば、図3のS33、S34、S35)。
【0052】
【数3】
【0053】
(前記式(3)において、vが密度汎関数法で計算した前記物性値であり、SAがSAスコア(synthetic accessibility score)であり、各分子の構造から以下の非特許文献方法で計算した1-10の実測値である。θは比較対象の物性値の基準であり、F(v)はv=θの時0.5になり、θより大きいと0.5より大きな値になり、無限大の時1になる。)
(非特許文献:Ertl, P., Schuffenhauer, A. Estimation of synthetic accessibility score of drug-like molecules based on molecular complexity and fragment contributions. J Cheminform. 1, 8 (2009).)
【0054】
前記バックプロパゲーション手順で、前記分子(I)の報酬r(I)を根ノードに向かって伝搬させ、モンテカルロ木に報酬情報を反映させることが好ましい(図3、S51)。
【0055】
<第2生成ステップ(S12)>
第2生成ステップ(S12)において、前記第1生成ステップ(S11)から得られた第1生成データには、分子の構造データと量子化学計算で得られた物性値データを含む。前記第1生成データかから、一定の物性値を有する前記機能性分子をスクリーニングして第2生成データを生成する(例えば、図3、S36~S38)。
前記物性値が高いほど、物性がよい機能性分子を設計する場合、所定の物性値以上の分子をスクリーニングし、第2生成データを生成する。例えば、後述の長波長を有する有機分子を設計する場合、所定の光吸収波長以上の有機分子をスクリーニングし、第2生成データを生成する。あるいは、前記物性値が低いほど、物性がよい機能性分子を設計する場合、所定の物性値以下の分子をスクリーニングし、第2生成データを生成する。例えば、低誘電率を有する分子を設計する場合、所定の誘電率以下の分子をスクリーニングし、第2生成データを生成する。
【0056】
第2生成ステップ(S12)において、前記第1生成ステップ(S11)から得られた第1生成データの分子構造のみを用いて、第1生成ステップ(S11)に用いた量子化学計算と異なるシミュレーション方法あるいは同じ量子化学計算であって異なる計算精度(例えば、異なる基底関数)で、第1生成データの物性値を再計算してもよい。そして、その再計算した物性値を用いて、第1生成データから、一定の物性値を有する前記機能性分子をスクリーニングして第2生成データを生成してもよい。第1生成ステップ(S11)の高速化と第2生成ステップ(S12)の高い精度を両立できる。
【0057】
第2生成ステップ(S12)において、前記第1生成ステップ(S11)から得られた第1生成データの分子構造と物性値データを用いて、まず、所定の第1物性値を有する前記機能性分子をスクリーニングして中間データを生成し、第1生成ステップ(S11)に用いた量子化学計算と異なるシミュレーション方法あるいは同じ量子化学計算であって異なる計算精度(例えば、異なる基底関数)で、その中間データの分子の物性値を再計算してもよい。そして、その再計算した物性値を用いて、中間データから、所定の第2物性値を有する前記機能性分子をスクリーニングして第2生成データを生成してもよい。
【0058】
<部分構造の選択ステップ(S13)>
上記「部分構造(substructure)」とは、上記物性に特に寄与する前記分子に含まれている一部の構造である。その部分構造は、分子の分子構造(2次元平面構造、あるいは、3次元立体構造)において、連結した構造である必要がなく、所定距離で離れた2個以上の構造からなってもよい。後述の実施形態では、SMILES記法で表現したトレーニングデータを用いる場合、例えば、長波長光吸収に寄与する発色団を部分構造とし、その発色団をSMILES記法で表記する文字列を部分構造としてもよい。
【0059】
上記部分構造を、1個でも、2個以上の部分構造候補リストを選択してもよい。
前記物性に寄与する部分構造を選定すればよく、その選定方法には、特に制限はない。例えば、以下の3つの方法が挙げられる。
〔1〕前記物性及び前記トレーニングデータに含まれている分子に関する技術常識などから、部分構造を選定する方法;
〔2〕トレーニングデータに含まれる分子とその物性を解析し、とりうる部分構造を自動で抽出、選定する方法;
〔3〕部分構造に関するデータベースを利用し、そのデータベースに含まれ、前記物性に寄与するものを選択する方法。
後述実施例では、長波長光吸収に寄与する観点から、表1に示す8個の部分構造を選定し、実施形態の部分構造候補リストを作成した。
【0060】
上記選定した部分構造候補に対して、前記トレーニングデータ及び第1生成ステップ(S11)で得らえた第2生成データにおいて、それぞれの割合を計算し、前記式(1B)で各部分構造の濃縮度を算出する。
例えば、前記トレーニングデータに含まれている分子の数をNt、部分構造fを含む分子の数をNtfとする場合、トレーニングデータにおいて、部分構造fを含む分子の割合Pt(f)=Ntf/Ntである。同様に、前記第2生成データに含まれている分子の数をNd、部分構造fを含む分子の数をNdfとする場合、前記第1生成データにおいて、部分構造fを含む分子の割合Pd(f)=Ndf/Ndである。前記式(1B)で、部分構造fの濃縮度として、Pd(f)/Pt(f)を算出する。
【0061】
第2生成データにおいて、濃縮度を用いて部分構造を選択する。濃縮度が高くなる部分構造を選択することができる。濃縮度が高くなる部分構造を有する分子は、機械学習によって生成された分子のなかで特に重要な分子であるためである。例えば、濃縮度の高い順で第1~第3位の濃縮度を有する部分構造を選択することができる。濃縮度が最も高い部分構造を選択することが好ましい。後述実施例では、実施例の表1の部分構造候補リストから、濃縮度が最も高い部分構造を選択した(例えば、図3、S39)。
【0062】
<第3生成ステップ(S14)>
そして、第2生成データに含まれている分子において、前記部分構造選択ステップ(S13)で選択された部分構造を含む分子をスクリーニングし、所定物性を有する機能性分子の設計データを生成する(例えば、図3、S40)。
後述実施例では、第2生成データに含まれている分子から、最も高い濃縮度の部分構造を有する分子22個を含む有機分子の設計データを生成した。
【0063】
<最適設計ステップ>
本実施形態の機能性分子の設計データを生成する方法は、更に、設計データから、最適分子を設計する最適設計ステップを含んでもよい。
最適設計ステップとして、例えば、最適分子を設計するために、第3生成ステップ(S14)から得らえた設計データに対して、前ステップで使用されている量子化学計算と異なる量子化学計算方法を用いて再度評価する方法、あるいは、前ステップで使用されている量子化学計算と同じ方法だが、より精度の高い(計算時間がかかる)計算方法を用いて再度評価する方法が挙げらえる。最適設計ステップとして、例えば、第2生成ステップ(S12)から得らえた第2生成データに含まれている分子或いはそれと類似する構造を有する分子を合成し、その合成した分子の前記物性を評価してもよい。設計データに含まれている分子と類似する構造を有する分子とは、前記物性に寄与する構造の観点から、設計データに含まれている分子と同じ基本構造を有し、合成しにくい部分構造を除きもしくは合成しやすい部分構造で置き換える後の構造を有する分子である。
【0064】
(機能性分子の設計プログラム)
本実施形態の機能性分子の設計プログラムは、量子化学計算で算出可能な物性を有する機能性分子の設計データを生成する方法、をコンピュータに実行させるためのプログラムである。前記方法は、
トレーニングデータを用いて、機械学習で、第1生成データを生成する第1生成ステップ(S11)と、
前記第1生成データから、量子化学計算で、前記機能性分子をスクリーニングして第2生成データを生成する第2生成ステップ(S12)と、
前記第2生成データから、前記機能性分子の一部である部分構造の濃縮度を用いて前記部分構造を選択する部分構造選択ステップ(S13)と、
前記第2生成データから、前記部分構造を有する機能性分子をスクリーニングして、設計データを生成する第3生成ステップ(S14)と
を含む。
前記部分構造の前記濃縮度は、以下の式(1B)で算出した値である。
濃縮度=第2生成データにおいて部分構造を含む分子の割合/トレーニングデータにおいて部分構造を含む分子の割合 (1B)
前記物性は、吸収波長、誘電特性、酸化還元電位、偏光特性、イオン伝導率、凝集エネルギーから選択される少なくとも1種の物性であることが好ましい。
【0065】
前述の機能性分子の設計データを生成する方法において、その設計データを生成する方法の好ましい形態が記載されている。他の観点から、本実施形態の設計プログラムは、上記設計データを生成する方法の好ましい形態の各ステップをコンピュータに実行させるためのプログラムである。
【0066】
(機能性分子の設計プログラムを記録したコンピュータ読み取り可能な記録媒体)
前述の機能性分子の設計プログラム及び好ましい実施形態を記録したコンピュータ読み取り可能な記録媒体も本実施形態の範疇に入る。上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD-ROM/MO/MD/DVD/CD-R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM(登録商標)/フラッシュROM等の半導体メモリ系等を用いることができる。
【0067】
{第3実施形態}
(長波長光吸収能を有する有機分子の設計データを生成する方法)
以下、第3実施形態として、機能性分子の設計データを生成する方法として、長波長光吸収能を有する有機分子の設計データを生成する方法(以後、本実施形態の設計データを生成する方法ということがある。)を説明する。
本実施形態の設計データを生成する方法、以下の第1生成ステップと第2生成ステップと部分構造選択ステップと第3生成ステップとを含む。
第1生成ステップ:トレーニングデータを用いて、機械学習で、第1生成データを生成するステップ。
第2生成ステップ:前記第1生成データから、量子化学計算で、前記有機分子をスクリーニングして第2生成データを生成する
部分構造選択ステップ:前記第2生成データから、発色団構造の濃縮度を用いて発色団構造を選択するステップ。
第3生成ステップ:前記第2生成データから、前記発色団構造を有する分子を選択して、設計データを生成するステップ。
前記濃縮度は、以下の式(5)で表される。
【0068】
濃縮度=第2生成データにおいて発色団構造を含む分子の割合/トレーニングデータにおいてに発色団構造を含む分子の割合 (5)
【0069】
<第1生成ステップ>
本実施形態の設計データを生成する方法に係る量子化学計算は、TD-DFTを用いて、有機分子の電子の状態を得て、光吸収波長を算出する。汎関数と基底関数には、B3LYP/6-311+G*などを用いた。
【0070】
本実施形態の設計データを生成する方法に係るトレーニングデータとしては、SMILES記法などの線形表記法で記載した分子データベースから、分子を選択する。その際、ランダムに分子を選択しても良いし、重要な分子を選択しても良い。また、使用する元素を絞って選択するなどしても良い。SMILES記法などの分子データベースとしては、例えば、ZINC15、PUBCHEMなどが挙げられる。線形表記法でない分子データベースを用いる場合、SMILES記法などの線形表記法に変更して、トレーニングデータを形成することができる。例えば、後述の実施例では、SMILES記法で記載したZINC15という分子データベースを用い、元素は、炭素(C)、窒素(N)、酸素(O)に制限してランダムに分子を選択したトレーニングデータの例が挙げられる。元素種の制限の緩和は自由にでき、より様々な元素種の使用を許可することで、より興味深い機能性分子の設計が可能になる。
【0071】
本実施形態の設計データを生成する方法に係る機械学習としては、モンテカルロ木探索などの強化学習を用い、前記モンテカルロ木探索において、ロールアウトは、回帰型ニューラルネットワーク及び密度汎関数法などの量子化学計算を組み合わせて行う。
【0072】
本実施形態の設計データを生成する方法に係る機械学習において、まず、前記トレーニングデータで回帰型ニューラルネットワークをトレーニングする。トレーニングを受けた回帰型ニューラルネットワークは、例えば、SMILES記法で記載した部分構造の文字列を入力した場合、その右側の次の文字を自動的に生成し、それを繰り返して、最終的に完全な分子のSMILES記法の文字列を生成することができる。そのようなトレーニングを受けた回帰型ニューラルネットワークを用いて、後述のモンテカルロ木探索の手順3のシミュレーションでロールアウトを行う。
【0073】
本実施形態の設計データを生成する方法に係る機械学習において、モンテカルロ木探索を用いて第1生成データの分子を生成する。
モンテカルロ木探索は、図4に示すように、選択(Selection)手順1、展開(Expansion)手順2、シミュレーション(Simulation)手順3、バックプロパゲーション(Backpropagation)手順4を有する。
【0074】
選択手順1において、以下の式(2)を用いて、親ノードの子ノードのスコアuiを信頼上限のバージョン1(UCB1: Upper Confidence Bound 1)のアルゴリズムで算出することが好ましい。
【0075】
【数4】
【0076】
(式(2)において、Cが探索パラメータであり、wi/viが子ノードの期待報酬であり、wiが報酬の総和であり、viが子ノードの訪問回数であり、Vparentが親ノードの訪問回数である。)
算出したスコアuiに基づいて子ノードを選択する。
【0077】
展開手順2において、前記選択した子ノードを展開する。
【0078】
前記シミュレーション手順3で、上記トレーニングを受けた回帰型ニューラルネットワークを用いて、最終端末のノードの文字列を生成し、完全な分子の文字列を生成する。その生成した分子(I)に対して、TD-DFT計算によって光吸収波長を計算し、以下の式(3)と(4)を用いて、この分子(I)の報酬r(I)を計算することが好ましい。
【0079】
【数5】
【0080】
(前記式(3)と(4)において、vが密度汎関数法で計算した光吸収波長(単位:nm)であり、SAがSAスコア(synthetic accessibility score)であり、θが比較対象の波長の基準であり、F(v)はv=θの時0.5になり、θより大きいと0.5より大きな値になり、無限大の時1になる。後述の実施例では、θ=400 nmと設定した。)
【0081】
前記バックプロパゲーション手順4で、前記分子(I)の報酬r(I)を根ノードに向かって伝搬させ、モンテカルロ木に報酬情報を反映させる。このとき、以下の式(2A)と(2B)に従い、パラメータを更新する。
【0082】
wi C = wi p + r(I) (2A)
vi = vi +1 (2B)
【0083】
(式(2A)と(2B)において、wi C、wi pがそれぞれ、今回(Current)と前回(Previous)の報酬の総和であり;vi 、vi が今回(Current)と前回(Previous)の子ノードの訪問回数である。
【0084】
<第2生成ステップ>
第2生成ステップにおいて、前記第1生成ステップから得られた第1生成データには、分子の構造データと量子化学計算で得られた光吸収波長データを含む。前記第1生成データから、一定の波長以上の光吸収波長を有する前記有機分子をスクリーニングして第2生成データを生成する。
【0085】
第2生成ステップにおいて、前記第1生成ステップから得られた第1生成データの分子構造のみを用いて、第1生成ステップに用いた量子化学計算と異なるシミュレーション方法あるいは同じ量子化学計算であって異なる計算精度(例えば、異なる基底関数)で、第1生成データの光吸収波長を再計算してもよい。そして、その再計算した光吸収波長を用いて、第1生成データから、一定の光吸収波長以上の波長を有する前記有機分子をスクリーニングして第2生成データを生成してもよい。第1生成ステップの高速化と第2生成ステップの高い精度を両立できる。
【0086】
第2生成ステップにおいて、前記第1生成ステップから得られた第1生成データの分子構造と光吸収波長を用いて、まず、所定の第1光吸収波長以上の波長を有する前記有機分子をスクリーニングして中間データを生成し、第1生成ステップに用いた量子化学計算と異なるシミュレーション方法あるいは同じ量子化学計算であって異なる計算精度(例えば、異なる基底関数)で、その中間データの分子の有機分子を再計算してもよい。そして、その再計算した物性値を用いて、中間データから、所定の第2光吸収波長以上の波長を有する前記有機分子をスクリーニングして第2生成データを生成してもよい。
【0087】
<部分構造の選択ステップ(S13)>
【0088】
本実施形態の設計データを生成する方法に係る部分構造の選択ステップ(S13)は、部分構造として、長波長光吸収に寄与する発色団構造を検討する。これらの発色団構造としては、例えば、ケトン(Ketone)、キノン(Quinone)、ナフトキノン(Naphtoquinone)などが挙げられる。具体例としては、実施例で記載した表1にリストアップした8個の発色団構造が挙げられる。
発色団構造はトレーニングデータに含まれる分子とその光吸収波長を解析し、とりうる部分構造を自動で抽出、選定してもよい。
また、発色団構造に関するデータベースを利用し、そのデータベースから、長波長光吸収に寄与するものを選択してもよい。
また、発色団構造に関するデータベースを利用し、そのデータベース全てを利用してもよい。
【0089】
上記選定した発色団構造に対して、前記トレーニングデータ及び第2生成ステップで得らえた第2生成データにおいて、それぞれの割合を計算し、前記式(1B)で各発色団構造の濃縮度を算出する。
例えば、前記トレーニングデータに含まれている分子の数がNtにおいて、発色団構造fを含む分子の数をNtfとする場合、トレーニングデータにおいて、発色団構造fを含む分子の割合Pt(f)=Ntf/Ntである。同様に、前記第1生成データに含まれている分子の数がNdにおいて、発色団構造fを含む分子の数をNdfとする場合、前記第1生成データにおいて、発色団構造fを含む分子の割合Pd(f)=Ndf/Ndである。前記式(1B)で、発色団構造fの濃縮度として、Pd(f)/Pt(f)を算出する。
例えば、実施例で記載した表1の示した通り、それぞれの発色団構造fの濃縮度が算出された。
【0090】
第2生成データにおいて、濃縮度を用いて発色団構造を選択する。濃縮度が高くなる発色団構造を選択することができる。濃縮度が高くなる発色団構造を有する分子は、機械学習によって生成された分子のなかで特に重要な分子であるためである。例えば、濃縮度の高い順で第1~第3位の濃縮度を有する発色団構造を選択することができる。実施例では、濃縮度が最も高い1,2-ナフトキノンの発色団構造を選択した。
【0091】
<第3生成ステップ>
第2生成データに含まれている分子において、最も高い濃縮度を有する発色団構造を含む分子をスクリーニングし、設計データを生成することが好ましい。例えば、実施例では第2生成データに含まれている分子において、最も高い濃縮度78.5を示した1,2-ナフトキノンの発色団構造を有する分子22個を含む設計データを生成した。
【0092】
<最適設計ステップ>
本実施形態の長波長光吸収能を有する有機分子の設計データを生成する方法は、更に、前記得られた設計データから、最適分子を設計する最適設計ステップを含んでもよい。
最適設計ステップとして、最適分子を設計するために、第3生成ステップから得らえた設計データに含まれている分子、例えば、実施例の1,2-ナフトキノンの発色団構造を有する分子に対して、前記第1生成ステップの機械学習で得られた光吸収波長の量子化学計算値を用いて、お互いに対比する。その中に、最も長波長の分子を選んで、合成の可能性などを検討する。あるいは、その最も長波長の分子と同じ基本分子構造を有しかつ合成が容易になる分子を再設計し、その光吸収波長を、前記と同様な量子化学計算方法で計算し、長波長の吸収が維持されていることを確認する。
そして、第3生成ステップで得られた前記設計データに含まれている最も長波長の分子、あるいは、それと類似する構造を有する分子を合成し、その合成した分子の前記物性を評価してもよい。前記設計データに含まれている分子と類似する構造を有する分子とは、長波長光吸収に寄与する発色団の観点から、前記設計データに含まれている分子と同じ基本構造を有し、合成しにくい部分構造を除きもしくは合成しやすい部分構造で置き換える後の構造を有する分子である。
【0093】
(プログラム)
本実施形態の長波長光吸収能を有する有機分子の設計データを生成するプログラムは、以下の第1生成ステップと第2生成ステップと部分構造選択ステップと第3生成ステップをコンピュータに実行させるためのプログラムである。
第1生成ステップ:トレーニングデータを用いて、機械学習で、第1生成データを生成するステップ。
第2生成ステップ:前記第1生成データから、量子化学計算で、前記有機分子をスクリーニングして第2生成データを生成するステップ。
部分構造選択ステップ:前記第2生成データから、発色団構造の濃縮度を用いて発色団構造を選択するステップ。
第3生成ステップ:前記第2生成データから、前記発色団構造を有する分子を選択して、設計データを生成するステップ。
前記濃縮度は、以下の式(1C)で表される。
【0094】
濃縮度=第2生成データにおいて発色団構造を含む分子の割合/トレーニングデータにおいて発色団構造を含む分子の割合 (1C)
【0095】
前述の長波長光吸収能を有する有機分子の設計データを生成する方法について、その設計データを生成する方法の好ましい形態が記載されている。他の観点から、本実施形態の設計プログラムは、上記各ステップをコンピュータに実行させるためのプログラムである。
【0096】
(プログラムを記録したコンピュータ読み取り可能な記録媒体)
前述の長波長光吸収能を有する有機分子の設計データを生成するプログラム及びその好ましい実施形態を記録したコンピュータ読み取り可能な記録媒体も本実施形態の範疇に入る。上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD-ROM/MO/MD/DVD/CD-R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM(登録商標)/フラッシュROM等の半導体メモリ系等を用いることができる。
【0097】
(設計データに含まれている分子及びその合成検討)
機能性分子の設計データを生成する方法で得られた設計データには、前記物性を有する分子が含まれている。これらの設計分子について、更に他の公知の量子化学の計算方法、あるいは、実験方法から対象の物性を評価してもよい。また、それらの設計分子の合成方法について、検討してもよい。
本実施形態の長波長光吸収能を有する有機分子の設計データを生成する方法で得られた設計データには、特定の発色団構造を有する分子を含む設計データを生成した。これらの設計分子について、更に他の公知の量子化学方法、あるいは、実験方法から光吸収波長を評価してもよい。また、それらの設計分子の合成方法について、合成方法を検討してもよい。
【0098】
(最適分子及びその合成)
本実施形態機能性分子の設計データを生成する方法の好ましい形態は、更に、最適設計ステップを含む場合、最適設計ステップにおいて、得られた最適分子を実際合成する。
本実施形態の長波長光吸収能を有する有機分子の設計データを生成する方法、更に、最適設計ステップを含む場合、最適設計ステップにおいて、得られた最適分子を実際合成する。
具体的には、以下の式(6)で表す分子及びその誘導体が挙げられる。以下の式(6)で表す分子の誘導体としては、例えば、下記の式(6)の右側のフェニル基の5つの水素原子、下記の式(6)の左側のベンゼン環の4つの水素原子、及び1,2-ナフトキノン発色団の4-位の炭素に結合している水素原子の合計10個の水素原子を1~10個の置換基を置換した分子が挙げられる。2以上の置換基の場合は、同じでも異なってもよい。これらの置換の数が5つ以下であるのが好ましく、3つ以下であることがより好ましく、1つであることが最も好ましい。この置換基の種類は、1,2-ナフトキノン発色団の吸収特性に影響しなければ、特に制限がなく、例えば、メチル基、エチル基などのアルキル基が挙げられる。
【0099】
【化3】
【実施例0100】
以下、実施例を参照して本発明を詳細に説明するが、本発明はこれらの実施例により限定されない。
(実施例1)
「長波長光吸収能を有する有機分子の設計」
<第1生成ステップ>
本実施例のトレーニングデータとしては、SMILES記法で記載したZINC15という分子データベースを用いた。ZINC15は7億5000万以上の数からなる無料の分子データベースであり、バーチャルスクリーニングを提供する。本実施例のトレーニングデータでは、具体的には、ZINC15から、使用できる元素C、N、Oに制限した上で、ランダムに153,253個の分子を選んだ。
本実施例の第1生成データを生成する方法は、前述の第3実施形態の「長波長光吸収能を有する有機分子の設計データを生成する方法」に記載した第1生成ステップの方法を用いた。その結果、45,321個分子データを生成した。
本実施例の第1生成ステップにおいて、使用したソフト、ライブラリ及びそれぞれの計算時間と計算環境は以下である。
ソフト、ライブラリ:Python、 RDkit、 keras、 Gaussian16
計算時間(RNN学習):12時間
計算環境(RNN学習):NVIDIA Tesla V100
計算時間(分子生成):120時間
計算環境(分子生成):Intel Xeon 2048 core
【0101】
<第2生成ステップ>
本実施例の第2生成データを生成する方法は、前述の第3実施形態に記載した第2生成ステップの方法を用いた。45,321個の中からさらに、TD-DFTで計算される有機分子の光吸収波長が800 nm以上でかつ0.1以上の振動子強度を持つ分子を380個選択し、本実施例の第2生成データを生成した。
【0102】
<部分構造選択ステップ>
「濃縮度(Enrichment degree)の評価」
生成した第2生成データの分子から濃縮度を評価し、どの発色団構造が長波長光吸収に適しているかを明らかにした。濃縮度は、トレーニングデータにおける特定の発色団構造の比率と、生成された第2生成データにおけるその値との比として定義され、前記式(1C)で算出した。その結果、長波長光吸収を示す分子のうち、1,2‐キノン、1,4‐キノン,アントラキノンなどのキノン構造は、ケトンやジケトンよりも濃縮度が高かった(表1)。1,4‐キノン及びアントラキノン構造を有する分子はB.C.から染料として使用され、1800年代半ばに工業的に生産された。その中で1,2‐ナフトキノンは1,2-ナフトキノンやアントラキノンよりも濃縮度が高く、長波長光吸収を示した。この結果は、1,2‐ナフトキノンが長波長光吸収における重要な因子であることを機械学習が予測したことを示した。アントラキノン及び1,2-ナフトキノン構造を有する染料はよく知られている。しかし、1,2‐ナフトキノンは補因子(Cofactor)として知られ、複素環合成のビルディングブロックとして用いられるが、染料としてはほとんど注目されておらず、機械学習による重要な発見となっている。
【0103】
【表1】
【0104】
表1の各発色団構造を有する分子の一般式は以下の式(7)に示す。
【化4】
【0105】
<第3生成ステップ>
380個の第2生成データから、前記選択された部分構造(発色団)1,2-ナフトキノン構造を含む22種の異なる下記式(5-1)~(5-22)で表す分子を選択した。本実施例の設計データを生成した。
【0106】
【化5】
【0107】
<設計データの分子及びその合成方法>
上記式(5-1)~(5~22)で設計した22個の分子である分子(5-1)~分子(5-22)の中は、分子(5-1)~(5-5)、(5-7)、(5-9)~(5-10)、(5-12)~(5-15)、(5-18)~(5-22)の合成方法について、逆合成解析(Retrosynthetic analysis)を行い、検討した。分子(5-17)については、上記合成例1及び合成例2で実際合成した。
【0108】
分子(5-1)の合成は、下記の逆合成解析式に従って説明される。分子(5-1)を合成できることが分かった。
【化6】
【0109】
分子(5-2)の合成は、下記の逆合成解析式に従って説明される。分子(5-2)を合成できることが分かった。
【化7】
【0110】
分子(5-3)の合成は、下記の逆合成解析式に従って説明される。分子(5-3)を合成できることが分かった。
【化8】
【0111】
分子(5-4)の合成は、下記の逆合成解析式に従って説明される。分子(5-4)を合成できることが分かった。
【化9】
【0112】
分子(5-5)の合成は、下記の逆合成解析式に従って説明される。分子(5-5)を合成できることが分かった。
【化10】
【0113】
分子(5-7)の合成は、下記の逆合成解析式に従って説明される。分子(5-7)を合成できることが分かった。
【化11】
【0114】
分子(5-9)の合成は、下記の逆合成解析式に従って説明される。分子(5-9)を合成できることが分かった。
【化12】
【0115】
分子(5-10)の合成は、下記の逆合成解析式に従って説明される。分子(5-10)を合成できることが分かった。
【化13】
【0116】
分子(5-12)の合成は、下記の逆合成解析式に従って説明される。分子(5-12)を合成できることが分かった。
【化14】
【0117】
分子(5-13)の合成は、下記の逆合成解析式に従って説明される。分子(5-13)を合成できることが分かった。
【化15】
【0118】
分子(5-14)の合成は、下記の逆合成解析式に従って説明される。分子(5-14)を合成できることが分かった。
【化16】
【0119】
分子(5-15)は市販されている。
【化17】
【0120】
分子(5-18)の合成は、下記の逆合成解析式に従って説明される。分子(5-18)を合成できることが分かった。
【化18】
【0121】
分子(5-19)の合成は、下記の逆合成解析式に従って説明される。分子(5-19)を合成できることが分かった。
【化19】
【0122】
分子(5-20)の合成は、下記の逆合成解析式に従って説明される。分子(5-20)を合成できることが分かった。
【化20】
【0123】
分子(5-21)の合成は、下記の逆合成解析式に従って説明される。分子(5-21)を合成できることが分かった。
【化21】
【0124】
分子(5-22)の合成は、下記の逆合成解析式に従って説明される。分子(5-22)を合成できることが分かった。
【化22】
【0125】
<最適分子>
式(5-1)~式(5-22)で表す有機分子その中で、これらの有機分子で最も長い波長吸収を示す式(5-17)で表す分子(5-17)(図5の分子1a)焦点を当てた。図5に示すように、分子1aは1,2‐ナフトキノン骨格に結合したエノールとカルボニル骨格からなる構造を有し、TD‐DFT計算は941 nmの光吸収波長を予測した(図5)。実際の合成ターゲットとして、光吸収波長に影響しない官能基を単純化した分子を選択した。カルボニル骨格は光吸収波長に大きな影響を与えないので水素で置換した(図5、分子1b)。TD‐DFT計算から、分子1bの光吸収波長は分子1aの光吸収波長(λ1b=835 nm)より約100 nm短いと推定された。トリアゾール基の導入が困難なため、分子1bのトリアゾール基も同様にπ共役構造を有するフェニル基に置換した(図5、分子1c)。
【0126】
TD‐DFT計算から、分子1cの光吸収波長は789 nmであり、分子1a及び分子1bの光吸収波長より短いことが分かった。
【0127】
一方、エノール骨格は化学的に単離が困難なため、分子1cのエノール骨格を単純なオレフィンで置換した分子1dを合成標的として選択した(図5)。
【0128】
分子1d(式(5-22)で表す分子)の逆合成解析式を図6に示す。分子1dは分子2の酸化により合成することができ、2は脱離基および金属基を有するナフトールとオレフィンの交差カップリング反応を用いることで合成可能であると考えた。
【0129】
分子3を出発原料として、ビニルボロン酸ピナコールエステルとのSuzuki‐Miyauraカップリング反応により、ナフトール骨格にオレフィン部分が導入された分子2を得た(図7:スキーム1)。分子2を2‐ヨードキシ安息香酸(IBX)で酸化し、標的分子1bを暗紫色固体として95%の収率で得た。分子1dは空気中安定で、CHCl3、CH2Cl2、THF、CH3CN及びアセトンのような多くの一般的溶媒に可溶であった。生成物を各種NMR分光法により同定した。後述の合成例1と合成例2において、詳細に記載した。CH3CN(0.1 mmol/L)中の1d溶液は赤紫色を呈し、550 nmに最も長い波長吸収を示した。APFD/6‐311++G**でのTD-DFT計算結果は、600 nmで吸収を持つ実験結果に近いスペクトルを示した。その結果を図8に示す。
【0130】
以下、合成例1と2で分子1dの合成方法を詳細に説明する。
使用材料:下記の合成例に用いる材料は、特記しない限り、市販品から入手した化学物質は入手したまま使用した。
【0131】
(分析方法)
H-NMR〕
測定条件:
(a)溶媒:重クロロホルム(CDCl3
(b)内部標準:テトラメチルシラン(TMS,0ppm)
(c)測定温度:25 ℃
(d)共鳴周波数:400MHz
(e)測定装置:JEOL ECS-400
【0132】
13C-NMR〕
測定条件:
(a)溶媒:重クロロホルム(CDCl3
(b)内部標準:重クロロホルム(CDCl3,77ppm)
(c)測定温度:25 ℃
(d)共鳴周波数:100 MHz
(e)測定装置:JEOL ECS-400
【0133】
〔UV/visスペクトル〕
(a)溶媒:重クロロホルム(CDCl3
(b)測定温度:25 ℃
(c)雰囲気:空気
(d)測定装置:JASCO V670
【0134】
(合成例1)
図7の分子3の合成>
3-ブロモ-2-ナフトール(1.0 g、4.5 mmol)、トランス-2-フェニルビニルボロン酸ピナコールエステル(1.6 g、6.8 mmol)、Pd(OAc)2(80.8 mg、0.36 mmol)、dppf(0.4 g、0.72 mmol)、リン酸三カリウム(4.8 g、22.5 mmol)、および脱水ジオキサン(20 mL)の溶液を、窒素雰囲気下、110 ℃で24時間加熱した。反応混合物を、溶離液としてジクロロメタンを有するシリカゲルのパッドに通し、減圧下で濃縮して粗混合物を得た。シリカゲルクロマトグラフィー(ジクロロメタン/ヘキサン=8/2)による精製により、分子3(601.9 mg、54%)を得た。上記の測定条件で1H-NMR及び13C-NMRを測定した。その結果は以下に示す。
【0135】
1H-NMR (CDCl3, 400 MHz): δ = 5.15 (s, 1H, OH), 7.14 (s, 1H, ArH), 7.29-7.42 (m, 5H, ArH), 7.32 (d, 1H, J = 16.5 Hz, CH), 7.39 (s, 1H, ArH), 7.51 (d, 1H, J = 16.5 Hz, CH), 7.59 (d, 1H, 7.3 Hz, ArH), 7.59 (d, 1H, 8.2 Hz, ArH), 7.65 (d, 1H, 8.2 Hz, ArH), 7.79 (d, 1H, 7.3 Hz, ArH), 8.01(s, 1H, ArH);
13C-NMR (CDCl3, 100 MHz): δ = 110.1, 123.4, 124.1, 126.0, 126.5, 126.7, 126.8, 127.0, 127.9, 128.0, 128.8, 129.3, 131.4, 134.0, 137.7, 151.7.
【0136】
(合成例2)
図7の分子1dの合成>
合成例1で得られた上記分子3(200.0 mg、0.81 mmol)、IBX(o-iodoxy benzoic acid, purity>39%)(640.0 mg,0.89 mmol)、およびDMF(N,N-dimethylformamide)(5 mL)の溶液を室温で1時間撹拌した。反応混合物を蒸留水でクエンチし、酢酸エチルで抽出した。合わせた有機層を飽和NaCl水溶液で洗浄し、MgSO4上で乾燥し、濾過し、減圧下で濃縮して、粗混合物を得た。シリカゲルクロマトグラフィー(ジクロロメタン/ヘキサン=9/1)による精製により、分子1d(200.8 mg,95%)を得た。上記の測定条件で1H-NMR及び13C-NMRを測定した。その結果は以下に示す。
1H-NMR (CDCl3, 400 MHz): δ =7.05 (d, 1H, J = 16.5 Hz, CH), 7.30 (m, 1H, ArH), 7.37(m, 1H, ArH), 7.40 (m, 2H, ArH), 7.45 (td, 1H, J = 7.6, 1.4 Hz, ArH), 7.47 (d, 1H, J = 16.5 Hz, CH), 7.49 (s, 1H, CH), 7.54 (d, 2H, 7.3 Hz, ArH), 7.64 (td, 1H, J = 7.6, 1.4 Hz, ArH) 8.07 (dd, 1H, J = 7.6, 1.4 Hz, ArH);
13C-NMR (CDCl3, 100 MHz): δ = 121.1, 127.2, 128.8, 128.9, 130.0, 130.3, 130.6, 133.8, 135.1, 135.8, 136.2, 136.8, 138.8
(考察)
これまで、化学者は自然界で発見された、あるいは偶然合成された分子の性質を最適化することによって、機能性分子を合成してきた。しかし、今回提案したAI技術(機械学習)により、所望の特性を持つ分子を計算機に探索させ、濃縮度の高い部分構造を選択し、その部分構造を有する分子を設計することで、今後、これまで全く注目されなかった分子が見つかる可能性や、化学者が考えもしなかった分子が発見される可能性がある。第3実施形態では、モンテカルロ木探索と回帰型ニューラルネットワークと密度汎関数法とを組み合わせた長波長光吸収能を有する有機分子生成方法は、発色団としてほとんど注目されていない1,2‐ナフトキノンを高濃縮度で生成した。さらに、この方法で生成した1,2‐ナフトキノン発色団を有する有機分子の構造を最適化し、550 nmに吸収を持つ新しい赤紫色分子を合成した。
【産業上の利用可能性】
【0137】
本実施形態によれば、機械学習と量子化学計算を有効に利用して分子を生成し、所定物性に寄与する部分構造の濃縮度に着目して、有望な機能性分子を設計することができる機能性分子の設計データを生成する方法、機能性分子の設計プログラムを提供することができる。また、機能性分子の設計データを生成する方法から得られた機能性分子を提供することができる。本実施形態により、例えば、太陽電池の集光材料、電気貯蔵材料、有機EL用の発光・ホスト材料などの有機エレクトロニクス分野における機能性分子の開発が加速すると期待できる。
図1
図2
図3
図4
図5
図6
図7
図8