(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-01-28
(54)【発明の名称】構造解明方法
(51)【国際特許分類】
G16C 20/20 20190101AFI20250121BHJP
G06N 3/04 20230101ALI20250121BHJP
G06N 3/045 20230101ALI20250121BHJP
G06N 3/094 20230101ALI20250121BHJP
G16C 20/70 20190101ALI20250121BHJP
G01N 24/00 20060101ALI20250121BHJP
【FI】
G16C20/20
G06N3/04 100
G06N3/045
G06N3/094
G16C20/70
G01N24/00 530K
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024541806
(86)(22)【出願日】2023-01-10
(85)【翻訳文提出日】2024-07-11
(86)【国際出願番号】 EP2023050395
(87)【国際公開番号】W WO2023135113
(87)【国際公開日】2023-07-20
(32)【優先日】2022-01-12
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】503385923
【氏名又は名称】ベーリンガー インゲルハイム インターナショナル ゲゼルシャフト ミット ベシュレンクテル ハフツング
(74)【代理人】
【識別番号】100103610
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100119013
【氏名又は名称】山崎 一夫
(74)【代理人】
【識別番号】100130937
【氏名又は名称】山本 泰史
(74)【代理人】
【識別番号】100144451
【氏名又は名称】鈴木 博子
(74)【代理人】
【識別番号】100171675
【氏名又は名称】丹澤 一成
(72)【発明者】
【氏名】レディク ティム
(72)【発明者】
【氏名】レキッチ ヴラディミール
(72)【発明者】
【氏名】ロトアッハ フロリアン
(57)【要約】
本発明は、サンプルの測定スペクトルから未知化合物の構造を解明する方法に関する。本方法は、少なくとも1つの機械学習モデル、特に、化合物の構造を生成する第1の機械学習モデル及び/又は構造から予測スペクトルを生成する第2の機械学習モデルを含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
サンプル(4)の測定スペクトル(3)から未知化合物(2)の構造(1)を解明する方法であって、
候補化合物の構造(1)が生成され、前記生成された構造(1)から予測スペクトル(8)が生成され、
前記予測スペクトル(8)が前記測定スペクトル(3)と比較され、
前記予測スペクトル(8)の1つが選択されて、前記選択された予測スペクトル(8)に対応する前記構造(1)が、前記未知化合物(2)の構造(1)として決定され、
a)第1の機械学習モデル(7)が、前記候補化合物の構造(1)を生成し、第2の機械学習モデル(9)が、前記第1の機械学習モデル(7)によって生成された前記構造(1)から前記予測スペクトル(8)を生成し、
及び/又は
b)第1の機械学習モデル(7)が、前記候補化合物の構造(1)を生成し、前記第1の機械学習モデル(7)は、分子式及び/又は実験式(6)から現実的な構造(1)を生成するためにトレーニングされ、
及び/又は
c)第2の機械学習モデル(9)が、前記生成された構造(1)から前記予測スペクトル(8)を生成し、前記第2の機械学習モデル(9)が、残差ニューラルネットワークを有する、
方法。
【請求項2】
前記第1の機械学習モデル(7)が、1又は2以上の人工ニューラルネットワークを、好ましくはグラフニューラルネットワークを、特に敵対的生成ネットワークのペアを有する、請求項1に記載の方法。
【請求項3】
前記第1の機械学習モデル(7)が、第1のトレーニングデータセット(10)を用いて、好ましくは前記現実的な構造(1)の生成のために、特に分子式及び/又は実験式(6)からトレーニングされ、前記第1のトレーニングデータセット(10)は、好ましくは複数の実在の分子の構造(1)を備える、請求項1又は2に記載の方法。
【請求項4】
前記第1の機械学習モデル(7)が、ジェネレータ(11)及びディスクリミネータ(12)を用いてトレーニングされ、好ましくは、前記ジェネレータ(11)及び前記ディスクリミネータ(12)が相互にトレーニングされ、及び/又は前記ディスクリミネータ(12)がトレーニングにおいてのみ使用され、及び/又は実際の構造解明において及び/又は応用段階において使用されない、請求項1~3のうちの1項に記載の方法。
【請求項5】
前記第1の機械学習モデル(7)、特に前記ジェネレータ(11)が、特にランダム変数及び/又はランダムノイズジェネレータを用いて、所与の分子式及び/又は実験式(6)から複数の構造(1)を生成するように生成及び/又はトレーニングされる、請求項1~4のうちの1項に記載の方法。
【請求項6】
前記ディスクリミネータ(12)が、特に前記第1のトレーニングデータセット(10)からの実際の構造(1)と、ジェネレータ(11)によって生成された構造(1)とを区別するようにトレーニングされる、請求項4又は5に記載の方法。
【請求項7】
前記第2の機械学習モデル(9)が、1又は2以上の人工ニューラルネットワーク、好ましくはグラフニューラルネットワーク、グラフアテンションネットワーク及び/又は残差ニューラルネットワークを有する、請求項1~6のうちの1項に記載の方法。
【請求項8】
前記第2の機械学習モデル(9)が、第2のトレーニングデータセット(14)を用いてトレーニングされ、前記第2のトレーニングデータセット(14)は、好ましくは、関連スペクトル特徴(5)、好ましくは化学シフト、特に
1H及び/又は
13C化学シフトでラベル付けされた構造(1)を含む、請求項1~7のうちの1項に記載の方法。
【請求項9】
前記予測スペクトル(8)の各スペクトル特徴(5)、特に化学シフトについて、期待値又は平均値及び対応する分散の尺度、特に標準偏差が計算される、請求項1~8のうちの1項に記載の方法。
【請求項10】
前記測定スペクトル(3)が、NMRスペクトルであり、及び/又は前記サンプル(4)のスペクトル、特にNMRスペクトルが測定される、請求項1~9のうちの1項に記載の方法。
【請求項11】
前記分子式及び/又は前記実験式(6)が、前記サンプル(4)の質量スペクトルを測定することによって決定される、請求項1~10のうちの1項に記載の方法。
【請求項12】
前記方法がコンピュータによって実行される方法である、請求項1~11のうちの1項に記載の方法。
【請求項13】
請求項1~12のうちの1項に記載の方法を実施するための手段を備えるデータ処理装置。
【請求項14】
プログラムがコンピュータによって実行されたときに、前記コンピュータに請求項1から12のうちの1項に記載の方法を実行させる命令を備えるコンピュータプログラム製品。
【請求項15】
コンピュータによって実行されたときに、前記コンピュータに請求項1から12のうちの1項に記載の方法を実行させる命令を備えるコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、サンプルの測定スペクトルから未知化合物の構造又は分子構造を解明する構造解明のための方法、並びにデータ処理装置、コンピュータプログラム製品及びコンピュータ可読記憶媒体に関する。
【背景技術】
【0002】
化学及び薬学において、サンプルの化学組成を分析すること、又はサンプルに含まれる化合物を分析することは、多くの場合で重要である。例えば、サンプルは、潜在的な不純物に関して分析される薬剤であるか、又は薬剤を有することができる。別の例では、サンプルは検証されるべき新たに合成された化合物であるか、又は新たに合成された化合物を有する。サンプルの分析には、核磁気共鳴(以下、NMRと略記する)分光法、質量分析法、赤外分光法、ラマン分光法、及びX線結晶構造解析法など、幾つかの方法が利用可能である。
【0003】
有機化学及び薬学において、NMR分光法は、サンプルの化合物を特定するために最も使用される方法の1つである。この方法は多くの利点を有するが、NMRスペクトルから測定化合物の幾何学的又は分子構造を直接推測することはできない。
【0004】
NMRスペクトルの実験から、有機分子の炭化水素骨格の完全な記述が得られることが一般的であるが、測定スペクトルが既知の化合物の既知のスペクトルと一致しない場合、スペクトルで観測された特徴(特に化学シフト)を調査中のサンプルの個々の原子核に完全に一対一に割り当てることは非常に困難である。
【0005】
例えば、医薬品もしくは薬剤又はその他の化学製品の製造における典型的な作業は、所望の医薬品もしくは薬剤又は化学製品が実際に合成又は製造されていることを確認すること、及び/又はサンプル中に不純物が存在するかどうかを確認すること、及び肯定的な場合には不純物を決定することである。このために、サンプルの測定スペクトル、特にNMRスペクトルを、サンプルに含まれる又は予想される化合物の予想スペクトルと比較する。
【0006】
測定されたスペクトルが、サンプルに含まれる化合物の予想される既知のスペクトルと一致すれば、サンプル中に目的の化合物が存在することを確認するのは極めて容易である。しかしながら、例えば、不純物が存在する場合、又は合成の結果として所望の化合物が得られなかった場合など、サンプル中に未知の化合物が存在する可能性がある。この場合、測定されたスペクトルを化合物に割り当てることは非常に困難な可能性がある。
【0007】
本開示の関連において、「構造解明」という用語は、サンプルの測定スペクトルから、サンプルに含まれる化合物の幾何学的構造又は分子構造を決定するプロセス又は方法を示す。
【0008】
構造解明の課題は、測定されたサンプルのスペクトル、特にNMRスペクトルに最もよく一致する分子構造を見つけることである。しかしながら、構造解明は非常に面倒で時間のかかる作業であり、通常、多くの経験と専門知識を有する専門家を必要とする。
【先行技術文献】
【非特許文献】
【0009】
【非特許文献1】J.Chem.Inf.Model.2012,52,7,1757-1768(2012年5月15日発行)
【非特許文献2】Ian J.Goodfellowらによる論文「Generative Adversarial Nets」、Advances of Neural Information Processing Systems 27 (NIPS 2014)
【非特許文献3】ベリコビッチらによる論文「Graph attention networks」https://arxiv.org/abs/1710.10903
【非特許文献4】Heらによる論文「Deep residual learning for image recognition」、Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp.770-778
【発明の概要】
【発明が解決しようとする課題】
【0010】
従って、構造解明のための完全に自動化された方法が望まれる。
【0011】
本発明の目的は、完全に自動化され、迅速及び/又は信頼性の高い構造解明方法を提供することである。
【課題を解決するための手段】
【0012】
上記目的は、請求項1に記載の方法、請求項13に記載のデータ処理装置、請求項14に記載のコンピュータプログラム製品又は請求項15に記載のコンピュータ可読記憶媒体によって解決される。有利な発展は、従属請求項の主題である。
【0013】
特に、本発明は、サンプルの測定スペクトルから未知の化合物の構造を解明する方法に関する。「構造」という用語は、特に化合物又はその分子の分子構造を示し、以下で更に定義される。
【0014】
本発明による方法では、候補化合物の構造が生成され、これらの生成された構造から予測スペクトルが生成される。予測されたスペクトルは、測定されたスペクトルと比較される。特に比較に基づいて予測スペクトルの1つが選択され、選択された予測スペクトルに対応する構造が未知化合物の構造として決定される。
【0015】
第1の態様によれば、第1の機械学習モデルが化合物の構造を生成し、第2の機械学習モデルが第1の機械学習モデルによって生成された構造から予測スペクトルを生成する。これにより、構造解明が非常に高速で、信頼性が高く、及び効率的に行われる。特に、構造解明の方法を完全に自動化又は少なくとも大部分を自動化することができ、及び構造解明のために専門家に相談することを排除することができる。
【0016】
独立して実施することもできる別の態様によれば、機械学習モデル(以下、第1の機械学習モデルと称する)が、候補化合物の構造を生成し、第1の機械学習モデルは、分子式及び/又は実験式から現実的な構造を生成するためにトレーニングされる。これは、高速で、信頼性が高く、効率的な構造解明に寄与する。特に、構造解明の少なくとも一部を自動化することができる。すなわち、可能性のある化合物又は候補化合物を提供すること、言い換えれば、未知の化合物の候補を特定することができる。
【0017】
独立して実施することもできる別の態様によれば、機械学習モデル(以下、第2の機械学習モデルと称する)が、分子構造から予測スペクトルを生成し、第2の機械学習モデルは、残差ニューラルネットワークを有する。これは、構造解明を高速、高信頼性、及び効率的に行うことに寄与する。特に、構造解明を少なくとも部分的に自動化することができる。特に、候補化合物又は候補化合物のスペクトルを自動的に生成することができる。
【0018】
有利には、第1の機械学習モデルは、1又は2以上の人工ニューラルネットワーク、好ましくは1又は2以上のグラフニューラルネットワーク、特に敵対的生成ネットワークを有する及び/又は使用する。グラフニューラルネットワーク又は敵対的生成ネットワークの使用は、構造を生成するのに特に適しており、及び効率的であることが証明されている。
【0019】
好ましくは、第1の機械学習モデルは、第1のトレーニングデータセットを用いてトレーニングされる。好ましくは、第1の機械学習モデルは、現実的な構造の生成のためにトレーニングされる。特に、第1の機械学習モデルは、分子式及び/又は実験式から現実的な構造を生成するためにトレーニングされる。第1の機械学習モデルは、好ましくは、第1のトレーニングデータセットを備え、及び/又は第1のトレーニングデータセットは、好ましくは、第1の機械学習モデルの一部を形成する。第1のトレーニングデータセットを用いて第1の機械学習モデルをトレーニングすることにより、第1の機械学習モデルが化学的及び/又は物理的に可能な構造のみを生成することを達成することができる。特に、第1のトレーニングデータセットが十分に大きく及び多様である場合、第1の機械学習モデルは、好ましくは、新規構造、すなわち第1のトレーニングデータセットに含まれない構造を生成するように学習することができる。
【0020】
第1のトレーニングデータセットは、好ましくは複数の実在の分子の構造を備える。このようにして、第1の機械学習モデルは、現実的な構造のみを生成するように効率的にトレーニングすることができる。化学的及び/又は物理的に不可能な構造の生成は、好ましくは回避されるか、又は少なくとも著しく低減される。
【0021】
第1の機械学習が、ジェネレータ及び好ましくはディスクリミネータを有する場合、及び/又は、ジェネレータ及び好ましくはディスクリミネータを用いて第1の機械学習モデルをトレーニングすることが有利である。ジェネレータは、特に、分子式及び/又は実験式から構造を生成する及び/又は構造を生成するようにトレーニングされるオブジェクトである。ディスクリミネータは特に、実際の構造、特に第1のトレーニングデータセットからの構造と、他の又は人工的な構造、特にジェネレータによって生成された構造とを区別する、及び/又は区別するようにトレーニングされたオブジェクトである。特にトレーニングの間、ジェネレータはディスクリミネータの結果及び/又は決定を与えられ、及びディスクリミネータは、特に第1のトレーニングデータセットからの構造とジェネレータによって生成された構造の両方を与えられる。このようにして、ジェネレータ及びディスクリミネータは相互にトレーニングされる。
【0022】
このようにして、一方では、現実的及び/又は物理的及び/又は化学的に可能な構造のみを生成するように、ジェネレータをトレーニングすることができる。他方、ディスクリミネータはこのようにして、「実在の」分子がどのように見えるかを学習し、実在の分子とジェネレータによって生成された人工的な分子又は構造を区別するようにトレーニングされる。
【0023】
特に、ジェネレータ及びディスクリミネータは相互にトレーニングされる。これにより、トレーニング後、現実的及び/又は化学的及び/又は物理的に可能な分子又は構造を生成するジェネレータが得られる。
【0024】
ディスクリミネータは、好ましくは、トレーニングにおいてのみ使用され、及び/又は実際の構造解明においては使用されず、及び/又は応用段階においては使用されない。
ここで、「実際の構造解明」という用語は、特に第1の機械学習モデルのトレーニングが完了した後に分子を生成するステップを意味する。
【0025】
第1の機械学習モデル、特にジェネレータは、好ましくは、所与の分子式及び/又は実験式から複数の構造を生成し、及び/又は生成するようにトレーニングされる。これにより、構造解明方法の成功率を向上させることができる。
【0026】
第1の機械学習モデル、特にジェネレータは、ランダムノイズ発生器及び/又はランダム変数を有する及び/又は使用することが好ましい。ランダムノイズ発生器又はランダム変数により、特に、1つの所与の分子式及び/又は実験式から複数の異なる構造が生成されることが達成又は保証することができる。特に、ランダムノイズ発生器又はランダム変数の使用により、生成される構造の多様性が確保される。これは、構造解明の高い成功率に寄与する。
【0027】
ディスクリミネータは、特に第1のトレーニングデータセットからの実際の構造と、ジェネレータによって生成された構造とを区別するようにトレーニングされることが好ましい。このディスクリミネータにより、現実的な構造及び/又は化学的及び/又は物理的に可能な構造の生成のために、ジェネレータを効率的にトレーニングすることができる。
【0028】
第2の機械学習モデルは、好ましくは、1又は2以上の人工ニューラルネットワークを有する及び/又は使用する。特に好ましくは、第2の機械学習モデルは、グラフニューラルネットワーク、グラフアテンションネットワーク及び/又は残差ニューラルネットワークを有する及び/又は使用する。人工ニューラルネットワーク、特にグラフアテンションネットワーク及び/又は残差ニューラルネットワークの使用は、所与の構造からの予測スペクトル、特にNMRスペクトルの生成において有利であることが証明されている。これにより、予測スペクトルの高速生成及び/又は信頼性の高い生成、特に高精度の予測スペクトルが得られる。特に、グラフニューラルネットワーク及び/又は残差ニューラルネットワークを使用することにより、必要な外部トレーニングサンプルの数を減少させることができ、無制限の大きさの分子のスペクトル、特にNMRスペクトルを計算することができる。更に、予測スペクトルの生成は並行処理することができる。驚くべきことに、グラフニューラルネットワーク、グラフアテンションネットワーク及び/又は残差ニューラルネットワークの使用に起因して、本発明の構造解明方法及び/又は第2の機械学習モデルは、NMRスペクトルにおけるジアステレオトピックプロトンの異なる化学シフトを予測することができる。
【0029】
第2の機械学習モデルは、好ましくは、第2のトレーニングデータセットを用いてトレーニングされる。第2のトレーニングデータセットは、好ましくは、第1のトレーニングデータセットとは異なり、及び/又は、第1のトレーニングデータセットからのデータとは異なる構造及び/又は異なる情報を有するデータを含む。
【0030】
特に、第2のトレーニングデータセットは、関連するスペクトル特徴でラベル付けされた構造を含む。換言すれば、第2のトレーニングデータセット内の全ての構造に対して、第2のトレーニングデータセットは(追加的に)、そのスペクトルが測定されたときにこの構造が生じることになる特徴に関する情報を含む。好ましくは、スペクトルはNMRスペクトルであり、及び/又はスペクトル特徴は化学シフト、特に1H及び/又は13Cの化学シフトである。
【0031】
予測スペクトルの生成において、スペクトルの各特徴、特にスペクトルの各化学シフトについて、期待値又は平均値及び対応する分散の尺度、特に標準偏差が計算されることが好ましい。これにより、ジアステレオトピックプロトンの異なるスペクトル特徴、特に化学シフトを予測することも可能である。
【0032】
好ましくは、測定されたスペクトルはNMRスペクトルである。特に、サンプルのスペクトル、特にNMRスペクトルが測定される。しかしながら、スペクトルを測定することは、本方法の本質的な特徴ではない。例えば、サンプルが本方法の前に、及び/又は本方法とは無関係に既に測定されている場合、及び/又は測定されたスペクトルがデータセットとして存在する場合等、サンプルを測定する明示的なステップを伴わずに本方法を実施することも可能である。従って、サンプルのスペクトルを測定するステップは、本発明方法とは別個のものとすることができ、好ましくはこれに先立つステップである。
【0033】
分子式及び又は実験式は、好ましくは、サンプルのマススペクトルを測定することにより決定される。
【0034】
本発明による方法は、好ましくはコンピュータによって実行される方法である。このようにして、本方法は、少なくとも部分的に又は完全に自動化することができる。
【0035】
別の態様によれば、本発明は、本方法を実施するための手段を備えるデータ処理装置に関する。
【0036】
別の態様によれば、本発明は、プログラムがコンピュータによって実行されたときに、コンピュータに本方法を実行させる命令を備えるコンピュータプログラム製品に関する。
【0037】
別の態様によれば、本発明は、コンピュータによって実行されたときに、コンピュータに本方法を実行させる命令を備えるコンピュータ可読記憶媒体に関する。
【0038】
本開示の意味における「分子構造」とは、好ましくは分子の幾何学的構造、特に分子の原子の幾何学的及び/又は3次元配置である。
【0039】
本開示の意味における化合物の「実験式」は、好ましくは、化合物中に存在する原子の最も単純な整数比である。実験式は、原子の配置又は数について言及しない。特に、所与の化合物の原子の総数は、その実験式から推論することはできない。この概念の簡単な例として、一酸化硫黄(SO)の実験式は単にSOであり、二酸化二硫黄(S2O2)の実験式も同様である。従って、一酸化硫黄と二酸化二硫黄は同じ実験式(SO)を有するが、一酸化硫黄は、硫黄原子1個と酸素原子1個のみを有するのに対し、二酸化二硫黄は、硫黄原子2個と酸素原子2個とを有する。
【0040】
本開示の意味での「分子式」は、好ましくは、化合物の分子内の原子の各タイプの数を示す。分子式は、特定のタイプの原子を1つのみ有する分子の実験式と同じである。他の場合では、分子式はより大きな数を有することができる。上記の例では、一酸化硫黄の分子式はSOであり、実験式と同じである。二酸化二硫黄の場合、分子式はS2O2であり、実験式SOとは異なる。
【0041】
実験式及び分子式は、分子の分子構造又は幾何構造に関するいかなる情報も与えない。
【0042】
本開示の意味での「化合物」は、好ましくは、複数の同一分子から構成される化学物質である。
【0043】
本発明の意味における化合物又はその分子の「構造」は、好ましくは、化合物又はその分子の分子構造、言い換えれば、分子の個々の原子の2次元及び/又は3次元配列である。従って、用語「構造」は、特に、化合物又はその分子の原子又は核の配置を示す。構造又は分子構造はまた、幾何学的/分子構造を表す式、特に構造式又は骨格式等として存在するか又は表すことができる。例えば、エタノール(C
2H
6O)の構造式は、
【化1】
と読み取れる。
【0044】
本開示の意味における「候補化合物」とは、好ましくは、構造未知及び/又は解明すべきサンプル中の未知化合物の候補となる化合物である。言い換えれば、候補化合物とは、未知化合物である可能性がある、又はおそらく未知化合物であろう化合物である。特に、候補化合物の実験式及び/又は分子式は、特にサンプル及び/又は未知化合物の質量分析を行う等して有するか又は測定することができる、未知化合物の実験式及び/又は分子式と同じである。
【0045】
本開示の意味における「測定スペクトル」は、好ましくは、例えばNMR分光法、質量分析法、赤外分光法、ラマン分光法、X線結晶構造解析法又はこれらに類する分光学的方法によるサンプルの測定結果である。しかしながら、特に好ましくは、スペクトルはNMRスペクトルである。測定されたスペクトルは、好ましくは、データ又はデータポイントのセット、特にデジタルデータとして存在し、及び/又はデータ又はデータポイントのセット、特にデジタルデータによって表される。測定されたスペクトル」という用語は、特に、測定されたスペクトルを、以下に説明する予測されたスペクトルと区別するために使用される。
【0046】
本開示の意味における「予測スペクトル」は、好ましくは、実際に測定されていない、及び/又は、特に機械学習モデル及び/又は他のコンピュータプログラム、モジュール及び/又はアルゴリズムによって(人為的に)生成されたスペクトルである。特に、予測スペクトルは、第2の機械学習モデルによって生成される。予測スペクトルは、好ましくは、データ又はデータポイントのセット、特にデジタルデータとして存在し、及び/又はデータ又はデータポイントのセット、特にデジタルデータによって表される。特に、予測スペクトルは、測定スペクトルと同じデータタイプ及び/又はデータ構造を有する。
【0047】
本開示の意味における「核磁気共鳴スペクトル」(以下、「NMRスペクトル」と略称される)は、好ましくは、NMR分光法によって測定されたスペクトル、又は測定されたNMRスペクトルと同一のデータタイプもしくはデータ構造を有する予測スペクトルである。特にNMRスペクトルは、複数の特徴を有するか又はこれらからなる。これらの特徴は、特にスペクトル中のピークである。NMRの関連では、スペクトルの特徴及び/又はピークは、特に「化学シフト」と表記される。化学シフトとは、磁場中における核の、基準に対する共鳴周波数のことである。化学シフトは、好ましくはppmで表される。
【0048】
本開示の意味における「機械学習モデル」は、好ましくは、機械学習アルゴリズム及び1又は2以上の(トレーニング)データセットを備える及び/又は使用する。言い換えれば、機械学習モデルは、好ましくは、1又は2以上の(トレーニング)データセット上で実行される機械学習アルゴリズムの出力である。特に、機械学習モデルは、機械学習アルゴリズムによって学習されたものを表す。アルゴリズムとは、特に、機械学習モデルを作成するために1又は2以上の(トレーニング)データセット上で実行される手順である。アルゴリズムは、特に人工ニューラルネットワーク、特に好ましくはグラフニューラルネットワークであってもよい。
【0049】
本開示の意味における「トレーニングデータセット」は、好ましくは、機械学習モデル及び/又は機械学習アルゴリズムをトレーニングするために使用されるデータセットである。
【0050】
本開示の意味における「人工ニューラルネットワーク」は、好ましくは、ある形式のデータ入力を理解し、所望の出力(通常は別の形式)に変換可能な関数のネットワークを使用するコンピュータ学習システムである。ニューラルネットワークは、少なくとも2層、好ましくは3層又はそれ以上の層から構成される。特に、人工ニューラルネットワークは、入力層、出力層、及び1又は2以上の隠れ層、すなわち入力層と出力層の間の層を有する。
各層は「ニューロン」と呼ばれる1又は2以上の単位を有する。人工ニューラルネットワークのコンセプトは、脳及び脳の学習方法から着想を得ている。
【0051】
本開示の意味における「グラフニューラルネットワーク」は、好ましくは、グラフを有する及び/又はグラフを利用する及び/又はグラフに直接適用できる人工ニューラルネットワークである。
【0052】
本開示の意味における「グラフ」は、好ましくは、ノード及びエッジからなるデータ構造である。人工ニューラルネットワークの関連では、グラフのノードは、異なる人々のようなエンティティを表すことができ、グラフのエッジは、人々の間の人的関係のような、ノード間の関係又はリンクを表すことができる。別の例では、ノードは分子の核を表し、エッジは核間の化学結合を表すことができる。機械学習モデルの実装では、グラフを行列、特に隣接行列として表現することができる。
【0053】
本開示の意味における「特徴ベクトル」は、好ましくは、ノードに割り当てられた配列又はベクトルである。特徴ベクトルは、ノードに関する情報を含む1又は2以上の要素を有する。
【0054】
本開示の意味における「埋め込み」は、好ましくは、高次元ベクトルが変換されることが可能な低次元空間又はベクトルである。埋め込みは特に学習することができる。特に、ノード埋め込みは、グラフ中のノードの、特に低次元のベクトル表現である。
【0055】
本発明の上述した態様及び特徴並びに特許請求の範囲及び以下の説明から明らかになる本発明の態様及び特徴は、原則として、互いに独立して実施することができるが、任意の組み合わせ又は順序で実施することもできる。
【0056】
本発明の更なる態様、有利な態様、特徴及び特性は、特許請求の範囲及び
図1が本発明の方法を概略的に示している図面を参照した好ましい実施形態の以下の説明から明らかになるであろう。
【0057】
本発明による構造解明方法を
図1に概略的に示す。本方法は、特に、サンプル4の測定スペクトル3から、未知化合物2の構造1、特に幾何構造及び/又は分子構造1を解明する方法である。
【0058】
本方法は、好ましくは、サンプル4の汚染を発見及び/又は判定するために使用される。この場合、未知化合物2は汚染物質である。この場合のサンプル4は、好ましくは薬剤又は薬剤である。
【0059】
好ましくは、本方法はコンピュータによって実行される方法である。
【0060】
まず、本方法の概要を簡単に説明し、その後、異なる方法ステップの詳細を説明する。
【図面の簡単な説明】
【0061】
【発明を実施するための形態】
【0062】
概要
まず、サンプル4のスペクトル3が好ましくは測定される。以下では、このスペクトル3を測定スペクトル3と表記する。
【0063】
サンプル4の測定スペクトル3の存在は、本方法を実施するために必要な要件であるが、スペクトル3を測定する実際のステップは、本方法の本質的な特徴ではない。特に、サンプル4のスペクトル3を測定するステップは、本方法とは別に、及び特に本方法に先立って行うことができる。
【0064】
測定されたスペクトル3は、特に好ましくは、サンプルのNMRスペクトルであるが、原理的には、NMR以外の他の分光法によって測定されたスペクトル3であってもよい。
【0065】
サンプル4は、好ましくは薬剤又は薬剤であるか又は備えるが、分光法、特にNMRにより分析可能な任意のサンプル4とすることができる。サンプル4は、好ましくは少なくとも1つの有効成分を備える。
【0066】
サンプル4は、好ましくは未知の化合物2を備える。未知化合物2は、測定されたスペクトル3において、サンプル4に含まれる既知又は予想される化合物(仮定)に割り当てられない特徴を生じさせる。従って、既知及び/又は予想される化合物に割り当てられない測定スペクトル3の特徴の存在は、未知の化合物2がサンプル4に含まれていることを示唆する。これは、サンプル4中に不純物が存在するため、及び/又は、合成されるべき期待される化合物又は所望の化合物が得られなかった、又はこれらのみが得られなかった合成に起因する可能性がある。
【0067】
サンプル4は、未知の未知化合物2が単離及び/又は濃縮されたサンプルとすることができる。
【0068】
測定スペクトル3は、好ましくは、1又は2以上のスペクトル特徴5を備える。スペクトル特徴5は、好ましくは、測定スペクトル3中のピークである。特に、NMRスペクトルの場合、スペクトル特徴5は化学シフトである。
【0069】
好ましくは、未知化合物2の分子式及び/又は実験式6が決定される。これは、例えば、サンプル4及び/又は特に単離及び/又は濃縮された未知化合物2の質量分析を行うことによって行うことができる。未知化合物2の分子式及び/又は実験式6を決定するステップは、本発明方法の必須の特徴ではなく、好ましくはそれに先行する。
【0070】
構造解明のために、候補化合物の構造1が好ましくは生成される。特に、候補化合物の複数の異なる構造1が、1つ又は同一の分子式及び/又は実験式6から生成される。これは、好ましくは機械学習モデル7(以下、特に第1の機械学習モデル7と呼ぶ)によって行われる。
【0071】
生成された構造1から、好ましくは予測スペクトル8が生成される。特に、生成された各構造1に対して、正確に1つの予測スペクトル8が生成される。これは、好ましくは機械学習モデル9(以下、特に第2の機械学習モデル9と呼ぶ)によって行われる。
【0072】
用語「第1の」及び「第2の」機械学習モデルは、機械学習モデル7、9の序列を意味するものではなく、機械学習モデルを区別する役割を果たす。従って、接頭辞「第1」及び「第2」は省略することもできる。従って、第1の機械学習モデル7を機械学習モデル7と表記し、及び第2の機械学習モデル9を機械学習モデル9と表記することもできる。
【0073】
特に、本方法が、1つの機械学習モデルのみ、すなわち、(第1の)機械学習モデル7のみ又は(第2の)機械学習モデル9のみを備える/使用することも可能である。
【0074】
第1の機械学習モデル7及び/又は第2の機械学習モデル9は、好ましくは(各々)、アルゴリズム、特に機械学習アルゴリズム、及び/又はトレーニングデータセットを有する。好ましくは、第1の機械学習7は、第2の機械学習モデル9とは異なるアルゴリズムを有する、及び/又は、第1の機械学習モデル7は、第2の機械学習モデル9とは異なるトレーニングデータセットを有する。好ましくは、第1の機械学習モデル7及び/又は第2の機械学習モデル9のアルゴリズムは、人工ニューラルネットワーク、特にグラフニューラルネットワークである。
【0075】
予測スペクトル8は、好ましくは、測定スペクトル3と同じ種類であり、及び/又は測定スペクトル3と同じデータ構造を有する。例えば、測定スペクトル3がNMRスペクトルである場合、予測スペクトル8もNMRスペクトルである。特に、予測スペクトル8と測定スペクトル3との間の(唯一の)違いは、測定スペクトル3がサンプル4を用いて実際に測定されたもの又は有しているのに対し、予測スペクトル8は、特に第2の機械学習モデル9によって人為的に生成及び/又は計算されたものであることである。測定スペクトル3」及び「予測スペクトル8」という異なる用語は、主として、サンプルを用いて測定されたスペクトル3と、人為的に生成及び/又は計算されたスペクトル8とを区別する2つの役割を果たすに過ぎない。
【0076】
構造1は、特に分子構造、又は換言すると分子の幾何学的、2次元及び/又は3次元構造1である。構造1は、好ましくは、分子内の原子又は核の相対的な位置を定義するデータとして存在するか、又はそれによって表されるが、構造式、骨格式、又は他の適切なデータ及び/又は式として存在するか、又はこれらによって表されることもある。
【0077】
構造1は、好ましくは、分子式及び/又は実験式6から出発して計算又は生成される。
【0078】
予測スペクトル8を生成した後、予測スペクトル8は、好ましくは、測定スペクトル3と比較される。これは、好ましくは、自動的に行われ及び/又はコンピュータよって実行される。
【0079】
次に、好ましくは、予測スペクトル8のうちの1つが選択される。これは、好ましくは、予測スペクトル8と測定スペクトル3との比較に基づいて行われる。特に、測定スペクトル3に最もよく一致する予測スペクトル8が選択される。
【0080】
予測スペクトル8の選択は、特に、予測スペクトル8のうちのどれが測定スペクトル3に最もよく一致するかの決定である。選択されなかった予測スペクトル8は、好ましくは廃棄/拒絶される。
【0081】
最後に、選択された予測スペクトル8に対応する構造1、すなわち、特に、選択された予測スペクトル8が生成された構造1が、好ましくは、未知化合物2の構造1として決定される。これは、好ましくは、自動的及び/又はコンピュータにより実施される。
【0082】
特に、本方法の全ステップが自動的に及び/又はコンピュータによって実行され、及び/又は本方法が完全に自動化された及び/又はコンピュータによって実行される方法である。
【0083】
候補化合物の構造1を生成する第1の機械学習モデル7が使用され、第1の機械学習モデル7によって生成された構造1から予測スペクトル8を生成する第2の機械学習モデル9が使用されることが、本発明の好ましい態様である。言い換えれば、構造解明方法は、異なる学習アルゴリズムを有する、及び/又は、異なるトレーニングがなされる、すなわち、異なるトレーニングデータセットを用いてトレーニングされる、及び/又は、異なるタスクのためにトレーニングされる2つの異なる機械学習モデル7、9を利用することが好ましい。特に、構造1又は候補化合物を生成するタスクは、予測スペクトル8を生成するタスクから分離される。これにより、効果的及び/又は効率的なトレーニングが可能となり、(候補)化合物の可能性のある構造1の生成及び予測スペクトル8の生成の両方を、より効率的、迅速又は信頼性の高いものとすることができる。
【0084】
上記態様の一般的な考え方、すなわち、まず候補化合物の構造1を生成し、次にこれらの構造1の予測スペクトル8を生成することによって構造解明を行うことにより、構造解明の基本的な問題、すなわち、測定されたスペクトル3から分子構造を直接推論することが回避され、このようにして、構造解明をより迅速かつ効率的に行うことができる。
【0085】
第1の機械学習モデル
独立して実施することも可能な好ましい態様によれば、候補化合物の構造1の生成は、機械学習モデル、特に第1の機械学習モデル7によって行われる。
【0086】
第1の機械学習モデル7は、好ましくは、現実的な構造1を生成するためにトレーニングされる。この意味での現実的な構造とは、特に、物理的及び/又は化学的に可能な構造である。構造1は、好ましくは、分子式及び/又は実験式6から生成される。
【0087】
特に、第1の機械学習モデル7は、実際の構造解明のために第1の機械学習モデル7を使用する前にトレーニングされる。換言すれば、本発明による方法は、好ましくは、第1の機械学習モデル7のトレーニング又はトレーニング段階及び第1の機械学習モデル7の適用段階を含む。
【0088】
トレーニング又はトレーニング段階において、第1の機械学習モデル7は、好ましくは、特に分子式及び/又は実験式6から出発して、現実的な構造1がどのように生成されるかを学習する。トレーニング後又はトレーニング段階が終了すると、第1の機械学習モデル7は、特に、サンプル4の測定スペクトル3から未知の化合物2の構造1を解明するために、候補化合物の構造1を生成するために使用される又は使用することができる。
【0089】
応用又は適用段階は、好ましくは、トレーニング段階を終了した後の段階、換言すれば、第1の機械学習モデル7が、候補化合物の構造1を生成するため及び/又は実際の構造解明のために使用される段階である。
【0090】
第1の機械学習モデル7は、好ましくは、トレーニングデータセット10(以下、第1のトレーニングデータセット10と称する)を用いてトレーニングされる。好ましくは、第1の機械学習モデル7は、第1のトレーニングデータセット10を備える、及び/又は、第1のトレーニングデータセット10は、第1の機械学習モデル7の一部又は構成要素を形成する。
【0091】
第1の機械学習モデル7は、特に、現実的な構造1を生成するためにトレーニングされる。言い換えれば、第1の機械学習モデル7のトレーニングの目的は、第1の機械学習モデル7によって生成された構造1が物理的及び/又は化学的に可能であることを達成又は保証することである。これは特に、適切な第1のトレーニングデータセット10を選択することによって達成される。
【0092】
第1のトレーニングデータセット10は、好ましくは、複数の実在の分子又は化合物の構造1を備える。構造1は、好ましくは、デジタルデータとして存在し、及び/又はデジタルデータによって表される。実在の分子又は化合物の構造1は、例えば、分子又は化合物の原子又は核の相対的な幾何学的位置を定義又は含むデータとして、及び/又は構造式又は骨格式等の構造1を表す式として存在又は提供することができる。
【0093】
第1のトレーニングデータセット10は、好ましくはデータベース又はデータベースから取得されたものである。第1のトレーニングデータセット10及び又はデータベースの好ましい例は、https://zinc.docking.orgの下で利用可能なZINCデータベースである。ZINCデータベースについては、J.Chem.Inf.Model.2012,52,7,1757-1768(2012年5月15日発行)に詳しく記載されている。
【0094】
第1のトレーニングデータセット10は、好ましくは、実在の分子又は化合物の構造1に加えて、特に分子式及び/又は実験式6を備える。特に好ましくは、第1のトレーニングデータセット10内の全ての分子又は化合物について、第1のトレーニングデータセット10は、それぞれの分子又は化合物の構造1及び分子式及び/又は実験式6を備える。
【0095】
第1の機械学習モデル7は、特に、分子式及び/又は実験式6から構造1を生成するためにトレーニングされる。換言すれば、分子式及び/又は実験式6が、第1の機械学習モデル7の入力として使用される又は第1の機械学習モデル7の入力を構成することが好ましい。次いで、機械学習モデル7は、入力された分子式及び/又は実験式6から1又は2以上の構造1を生成する。生成された構造1は、好ましくは、第1の機械学習モデル7の出力を構成する。これは
図1にも概略的に描かれている。
【0096】
第1の機械学習モデル7によって生成された構造1は、例えば、分子又は化合物の原子又は核のこれらの相対的な幾何学的位置を定義する又は含むデータとして、及び/又は構造式又は骨格式等の構造1を表す式として、存在又は提供することができる。
【0097】
好ましくは、第1の機械学習モデル7は、1又は2以上の人工ニューラルネットワーク、好ましくは1又は2以上のグラフニューラルネットワークを有する及び/又は使用する。特に好ましくは、人工ニューラルネットワーク又はグラフニューラルネットワークは、敵対的生成ネットワークである。このようなネットワークの使用は、構造1の生成に特に有利であることが証明されている。
【0098】
敵対的生成ネットワークは、特に、Ian J.Goodfellowらによる論文「Generative Adversarial Nets」(2014年)に記載されている。この論文は、https://arxiv.org/abs/1406.2661、Advances of Neural Information Processing Systems 27 (NIPS 2014)にも掲載されている。
【0099】
第1の機械学習モデル7、特に人工ニューラルネットワークは、好ましくは、ジェネレータ11及び好ましくはディスクリミネータ12を有する。
【0100】
好ましくは、ジェネレータ11は、機械学習モデルであり、及び/又は人工ニューラルネットワーク、特にグラフニューラルネットワークを有する。好ましくは、ジェネレータ11は、第1のトレーニングデータセット10を備える及び/又は使用する。
【0101】
好ましくは、ディスクリミネータ12は、機械学習モデルであり、及び/又は人工ニューラルネットワーク、特にグラフニューラルネットワークを有する。ディスクリミネータ12は、好ましくは、第1のトレーニングデータセット10を備える及び/又は使用する。
【0102】
第1のトレーニングデータセット10は、好ましくは、ジェネレータ11及びディスクリミネータ12の両方のトレーニングに使用される。換言すれば、トレーニング中、第1のトレーニングデータセット10は、好ましくは、ジェネレータ11の入力として及びディスクリミネータ12の入力として使用される。
【0103】
好ましくは、ジェネレータ11及びディスクリミネータ12は、別個の機械学習モデルである。好ましくは、ジェネレータ11及びディスクリミネータ12は、異なる又は別々の機械学習アルゴリズムを有し、及び/又は同じトレーニングデータセット10を有するか又は使用する。
【0104】
ジェネレータ11及びディスクリミネータ12は、好ましくは、敵対的生成ネットワークのペアを形成する。従って、ジェネレータ11及びディスクリミネータ12は、好ましくは、ゲーム、特に、一方のエージェントの利得が他方のエージェントの損失となるゼロサムゲームの形で、互いに競合する。
【0105】
特に好ましくは、ジェネレータ11は、生成モデルGによって形成され、及び/又は、ディスクリミネータ12は、Goodfellowらによる上記引用論文「Generative Adversarial Nets」に記載されているような識別モデルDによって形成される。
【0106】
第1の機械学習モデル7は、好ましくは、ジェネレータ11及びディスクリミネータ12を用いてトレーニングされる。ジェネレータ11及びディスクリミネータ12は、好ましくは相互にトレーニングする。
【0107】
ジェネレータ11は、好ましくは、特に分子式及び/又は実験式6から出発して、構造1を生成する。
【0108】
トレーニングの間及び/又はトレーニング中、ジェネレータ11によって生成された構造1は、好ましくは、ディスクリミネータ12に提示又は供給される。トレーニング中のディスクリミネータ12のタスクは、ジェネレータ11によって生成された構造1と、実在の分子の構造1とを区別することである。実在の分子の構造1は、好ましくは、第1のトレーニングデータセット10から取り出される。
【0109】
特に、ディスクリミネータ12は、ジェネレータ11によって生成された構造1と実際の構造1との間の違いを学習するようにトレーニングされる。これは特に、ジェネレータ11によって生成された構造1と、特に第1のトレーニングデータセット10から取り出された実際の構造1とを比較し、その判断が矯正された場合にディスクリミネータ12にフィードバックを与えることによって行われる。
【0110】
実構造1は、特に、現実に存在する分子の構造1であり、例えば、以前に合成又は単離された分子の構造1である。実構造1とは、特に、第1のトレーニングデータセット10に含まれる構造1のことである。
【0111】
好ましくは、ディスクリミネータ12の決定は、今度は、ジェネレータ11に提示される。これにより、特にジェネレータ11は、生成された構造体1に関するフィードバックを受け取り、実際の構造体1がどのように「見える」かを学習する。このようにして、ジェネレータ11は、好ましくは、現実的及び/又は物理的及び/又は化学的に可能な構造1を生成するように学習又はトレーニングされる。
【0112】
ジェネレータ11及びディスクリミネータ12の(相互)トレーニングの目標は、ジェネレータ11が構造1を生成するのが非常に上手になり、ジェネレータ11によって生成される全ての構造1が現実的及び/又は物理的及び/又は化学的に可能であるようになることである。換言すれば、ジェネレータ11は、好ましくは、ディスクリミネータ12を「欺く」ことを学習する。
【0113】
トレーニングが完了すると、好ましくは、ジェネレータ11によって生成された構造1を、現実の構造1又は第1のトレーニングデータセット10からの構造1から区別することができなくなる。
【0114】
ディスクリミネータ12は、好ましくは、トレーニング(段階)のみに使用され、及び/又はトレーニング(段階)の後には使用されない。ディスクリミネータ12は、好ましくは、適用段階及び/又は実際の構造解明では使用されず、及び/又は適用段階の前に(のみ)使用される。
【0115】
第1の機械学習モデル7は、好ましくは、1回のアルゴリズム反復で、特に1回のみ又は正確に1回のアルゴリズム反復で、分子式及び/又は実験式6から構造(複数可)1を生成する。
【0116】
第1の機械学習モデル7及び/又はジェネレータ11は、好ましくは、完全連結層を有する及び/又は使用する。
【0117】
第1の機械学習モデル7、特にジェネレータ11は、好ましくは、完全連結入力グラフを使用するか又は有する。第1の機械学習モデル7によって生成される又は生成されるべき構造1は、好ましくは、グラフ、特に完全連結グラフによって表される。
【0118】
好ましくは、第1の機械学習モデル7、特にジェネレータ11は、所与の又は同一の分子式及び/又は実験式6から複数の及び/又は異なる構造1を生成するように生成及び/又はトレーニングされる。これは、特に、ランダム変数及び/又はランダムノイズ発生器を使用することによって行われる。換言すれば、第1の機械学習モデル7、特にジェネレータ11は、好ましくは、ランダムノイズ発生器及び/又はランダム変数を用いて構造1を生成するように生成及び/又はトレーニングされる。これにより、生成される構造1の多様性を確保することができる。
【0119】
好ましくは、構造1の原子又は核はグラフのノードによって表され、原子又は核間の接合又は化学結合はグラフのエッジによって表される。
【0120】
グラフの各ノード又は生成される構造1の各核に、特徴ベクトルが割り当てられることが好ましい。
【0121】
特徴ベクトルは、好ましくは、それぞれのノードによって表される原子又は核を特定するデータを備える。好ましくは、このデータは、それぞれのノードによって表される原子又は核の元素記号(例えば、酸素はO、炭素はC、窒素はN等)及び/又は原子番号(例えば、酸素は8、炭素は6、窒素は7等)である。原子番号は特に、原子核又は原子に含まれる陽子の数である。言い換えれば、特徴ベクトルの1つの要素が、それぞれのノードによって表される元素記号及び/又は原子番号を含むことが好ましい。しかしながら、それぞれのノードによって表される原子又は原子核を特定するための他の適切なデータを使用することもできる。
【0122】
好ましくは、特徴ベクトルは、特に、それぞれのノードによって表される原子又は核を特定するデータに加えて、ランダム変数を備える。言い換えれば、特徴ベクトルの1つの要素がランダム変数を含むことが好ましい。これにより、好ましくはモデルのランダム性が保証される。
【0123】
特徴ベクトルのランダム変数は、好ましくは、ランダムノイズ発生器により、及び/又は確率分布、例えば一様確率分布又はガウス確率分布に従って生成される。
【0124】
従って、各ノードに特徴ベクトルが割り当てられ、各ノードは構造体1の1つの原子又は核を表し、特徴ベクトルは少なくとも又は正確に2つの要素を有し、1つの要素はそれぞれのノードによって表される原子又は核を特定するデータ、特にその原子番号及び/又は元素記号を含み、1つの要素はランダム変数を含むことが特に好ましい。
【0125】
しかしながら、特徴ベクトルは2よりも多い要素を有することもできる。特に、特徴ベクトルは、それぞれのノードによって表される原子又は核を特定するデータ及びランダム変数を含む要素に加えて、特に化学的な、ノード及び/又は分子に関する情報等の更なる特徴を備えることができる。
【0126】
例えば、ノード及び/又は分子に関する特に化学的な情報のような更なる特徴は、分子の和の式及び/又はそれぞれのノードによって表される原子又は核の可能な隣接物に関する情報、それぞれのノードによって表される原子又は核が一部を形成する環及び/又は特定の官能基のような化学構造に関する情報、好ましい結合のタイプ及び/又は好ましい結合パートナーに関する情報、原子価電子の数に関する情報等とすることができる。
【0127】
更なる情報は、好ましくは、特徴ベクトルの1又は2以上の要素によって表され、及び/又は特徴ベクトルの1又は2以上の要素に含まれる。
【0128】
以下の表は、分子式C
4N
2Oを有するジシアノケテン分子のグラフ表現、特に特徴ベクトルを例として示している。
【表1】
【0129】
特に、特徴ベクトルにおけるランダムノイズ発生器及び/又はランダム変数の使用は、モデルのランダム性を保証し、第1の機械学習モデル7及び/又は発生器11が、1つの分子式及び/又は実験式6から、複数及び/又は異なる構造1を生成することを可能にする。更なる特徴、特に化学的な、ノード及び/又は分子に関する情報を提供することは、現実的な構造1の生成に役立ち、及び特に、構造1のトレーニング及び/又は生成をより迅速及び/又はより効率的及び/又はより信頼できるものにすることができる。
【0130】
特に、所与の分子式及び/又は実験式6から、機械学習モデル7又はジェネレータ11を同じ分子式及び/又は実験式6に複数回適用することにより、第1の機械学習モデル7、特にジェネレータ11によって、複数及び/又は異なる構造1が生成され、各インスタンスにおいて、異なるランダム変数、特に特徴ベクトルにおける異なるランダム変数が使用される。特に、特徴ベクトルにおける異なるランダム変数の使用は、好ましくは、分子式及び/又は実験式6が各インスタンスにおいて同じであっても、異なる生成構造1をもたらす。
【0131】
ランダムノイズ発生器及び/又はランダム変数の使用の代替として、モデルのランダム性は、他の方法で確保又は達成することもできる。
【0132】
例えば、特徴ベクトルにおいてランダム変数を使用する代わりに、それぞれのノードによって表される原子又は核を特定するデータを含む1つの要素のみを有する特徴ベクトルを使用し、ノード間のエッジ又は接続をランダム化することも可能である。従って、このようなアプローチでは、入力グラフは完全には連結されない。
【0133】
第2の機械学習モデル
別の好ましい態様によれば、独立して実施することもできるが、構造1から予測スペクトル8を生成することは、機械学習モデル、特に第2の機械学習モデル9によって行われる。
【0134】
第2の機械学習モデル9は、好ましくは人工ニューラルネットワーク、好ましくはグラフニューラルネットワーク、特にグラフアテンションネットワーク及び/又はResNetとしても知られる残差ニューラルネットワークを有する及び/又は使用する。
【0135】
グラフアテンションネットワークは、特に、グラフアテンション層を有する人工ニューラルネットワークである。グラフアテンションネットワークは、特に、ベリコビッチらによる論文「Graph attention networks」(2018年)に記載されている。この論文は、https://arxiv.org/abs/1710.10903で利用可能である。
【0136】
グラフアテンション層は、特に、アテンション係数
【数1】
が計算される層であり、ここでWは、学習可能な重み行列であり、
【数2】
は、グラフアテンション層への入力であり、Nはノードの数、Fは各ノードの特徴の数である。アテンション係数
【数3】
は、好ましくは正規化され、特にソフトマックス関数を使用する。好ましくは正規化されたアテンション係数は、これらに対応する特徴の線形結合を計算するために使用され、グラフアテンション層のあらゆるノードの最終的な出力特徴として機能する。最も単純な形では、出力
【数4】
は次のように計算される。
【数5】
ここで、σは任意の非線形性であり、
【数6】
は学習可能な重み行列であり、
【数7】
は正規化されたアテンション係数であり、詳細には、
【数8】
である。グラフアテンション層に関する更なる数学的詳細は、ベリコビッチらによる上記引用論文「Graph attention networks」(2018)、特に、その2.1節に記載されている。
【0137】
残差ニューラルネットワーク又はResNetsは、特にHeらによる論文「Deep residual learning for image recognition」(2015年)に記載されている。この論文は、https://arxiv.org/abs/1512.03385で入手可能であり、また、Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp.770-778にも掲載されている。
【0138】
残差ニューラルネットワークは、好ましくは、1又は2以上の残差ブロックを有する人工ニューラルネットワークである。残差ブロックは、2つの層を備えるブロックであり、xは、残差ブロック及び/又は残差ブロックの第1の層への入力であり、yは、残差ブロックの出力であり、F(x)は、残差ブロックの第2の層の出力であり、残差ブロックの出力は、y=F(x)+xである。従って、残差ブロックは入力x及び出力y=F(x)+xを有する。このように、残差ブロックは、入力xを出力F(x)に加えることによって実現される。この概念を実装するための更なる数学的詳細は、Heらによる上記引用論文「Deep residual learning for image recognition」(2015)で説明されている。
【0139】
第2の機械学習モデル9は、好ましくは、スペクトルジェネレータ13を有する。スペクトルジェネレータ13は、好ましくは、人工ニューラルネットワーク、特にグラフニューラルネットワーク及び/又は残差ニューラルネットワークを有する又はこれらによって形成される。
【0140】
特に、第2の機械学習モデル9及び/又はスペクトルジェネレータ13は、グラフアテンションネットワークと残差ニューラルネットワークとの組み合わせを有し及び/又は使用する。特に好ましくは、第2の機械学習モデル9、特にスペクトルジェネレータ13は、残差ニューラルネットワークの頭部を有するグラフアテンションネットワークを有する及び/又は使用する。
【0141】
第2の機械学習モデル9及び/又はスペクトルジェネレータ13は、好ましくは、トレーニングデータセット14(以下、特に第2のトレーニングデータセット14と称する)を有する及び/又はトレーニングデータセット14でトレーニングされる。
【0142】
特に、第2の機械学習モデル9は、実際の構造解明のために第2の機械学習モデル9を使用する前にトレーニングされる。換言すれば、本発明による方法は、好ましくは、第2の機械学習モデル9のトレーニング又はトレーニング段階及び第2の機械学習モデル9の適用又は応用段階を含む。
【0143】
トレーニング段階において、第2の機械学習モデル9は、好ましくは、特に所定の構造1から出発して、予測スペクトル8がどのように生成されるかを学習する。トレーニング後、又はトレーニング段階が終了すると、第2の機械学習モデル9は、特にサンプル4の測定スペクトル3から未知の化合物2の構造1を解明するために、構造1から予測スペクトル8を生成するために使用される、又は使用することができる。
【0144】
アプリケーション又は応用段階は、好ましくは、トレーニング段階を終了した後の段階、言い換えれば、候補化合物の予測スペクトル8を生成するために第2の機械学習モデル9を使用する段階である。
【0145】
第2の機械学習モデル9は、好ましくは、スペクトルジェネレータ13及び第2のトレーニングデータセット14を備える及び/又はこれらによって形成される。スペクトルジェネレータ13は、好ましくはアルゴリズム、特に機械学習アルゴリズムであるか又はこれを有する。
【0146】
スペクトル生成部13は、好ましくは、スペクトル8又はスペクトル特徴5、特に化学シフトをワンショットで生成する。
【0147】
第2のトレーニングデータセット14は、好ましくは、関連するスペクトル特徴5でラベル付けされた構造1を備える。
【0148】
スペクトル特徴5は、特に、測定スペクトル3及び/又は予測スペクトル8がNMRスペクトルである場合、好ましくは化学シフトである。特に好ましくは、スペクトル特徴5は1H及び/又は13C化学シフトである。従って、第2のトレーニングデータセット14に含まれる所与の構造1の全ての1H及び/又は13C原子又は核に、関連するスペクトル特徴5又は化学シフトがラベル付けされることが好ましい。
【0149】
第2の機械学習モデル9、特にスペクトルジェネレータ13は、好ましくは、構造1から予測スペクトル8を生成し、及び/又は生成するようにトレーニングされる。特に、スペクトル8は、第1の機械学習モデル7によって生成された構造1から生成され、及び/又は第1の機械学習モデル7によって生成された構造1は、第2の機械学習モデル9、特にスペクトルジェネレータ13の入力として使用される。
【0150】
特に、全ての構造1に対して、1つの、特に正確に又は1つだけの、予測スペクトル8が、第2の機械学習モデル9及び/又はスペクトルジェネレータ13によって計算又は生成される。
【0151】
予測スペクトル8は、好ましくは、第2の機械学習モデル9の出力を構成する。これも
図1に概略的に描かれている。
【0152】
第2の機械学習モデル9及び/又はスペクトルジェネレータ13において、構造1は、好ましくは化学的情報、特に所与の構造1の各原子又は核に関する化学的情報を備える及び/又は化学的情報でラベル付けされる。化学的情報は、特に、原子又は核の化学状態に関する情報、すなわち、特に、原子又は核それ自体及び構造1の他の原子又は核を取り囲む及び/又は他の原子又は核との結合に関する情報である。この化学的情報により、構造体1の予測スペクトル8及び/又はスペクトル特徴5を予測又は生成することが可能となる。
【0153】
原子又は核に関する化学的情報は、好ましくは、以下の特徴の1又は2以上の情報を備える。
(i)原子又は核の原子番号及び/又は原子又は核を特定するための他の適切なデータ;
(ii)原子価又は結合パートナーの数;
(iii)芳香族性、特に、原子又は核が芳香族構造の一部である場合の情報;
(iv)s、sp、sp2、sp3、sp3d又はsp3d2等の混成状態;
(v)形式電荷;
(vi)既定の価数又は価電子数;
(vii)環、特に原子又は核が環のメンバーである場合の情報、及び/又は環のサイズに関する情報、例えば環を形成する原子又は核の数。
【0154】
構造1は、好ましくは、第2の機械学習モデル9及び/又はスペクトルジェネレータ13においてグラフで表される。好ましくは、構造1の原子又は核は、グラフのノードによって表される。
【0155】
好ましくは、各ノード又は原子又は核に、特徴ベクトルが割り当てられる。特徴ベクトルは、好ましくは、ノードによって表される原子又は核の化学的情報を備える。
【0156】
特徴ベクトルは、好ましくは、1又は2以上の特徴を有するベクトルである。特に、特徴ベクトルは、上記の特徴(i)~(vii)の1又は2以上、好ましくは全てを備える。
【0157】
特徴量は、好ましくはワンホットエンコード(one-hot encoded)される。これは、高い計算効率及び/又は予測スペクトル8の迅速な計算又は生成を助長する。
【0158】
第2の機械学習モデル9及び/又はスペクトルジェネレータ13は、好ましくは、グラフアテンションネットワークを用いて予測スペクトル8を生成する。好ましくは、各所与の構造1に対して、第2の機械学習モデル9及び/又はスペクトル生成部13は、構造1の予測スペクトル8及び/又は構造1の予測スペクトル8を計算するのに必要な情報を備えるノード埋め込みを生成する。
【0159】
従って、言い換えれば、予測スペクトル8は、好ましくは、ノード埋め込みによって表され、及び/又はノード埋め込みの形態で符号化される。ノード埋め込みは、特に、予測スペクトル8の抽象的な表現であり、及び/又は人間が読めるものではない。換言すれば、ノード埋め込みは、好ましくは、予測スペクトル8に関する全ての情報及び/又は予測スペクトル8を表示又は計算するのに必要な全ての情報を含むが、情報は、人間が直接理解、読み取り又は解釈できる形態ではノード埋め込みに含まれない。特に、ノード埋め込みにおいて、予測スペクトル8は、測定スペクトル3と同じようには含まれない又は表現されない。
【0160】
好ましくは、更なる機械学習アルゴリズム、特に残差ニューラルネットワークが、ノード埋め込みから予測スペクトル8を生成又は計算するために使用される。特に、更なる機械学習アルゴリズム又は残差ニューラルネットワークは、測定スペクトル3と同じ表現又はデータタイプで予測スペクトル8を出力する。
【0161】
例えば、測定スペクトル3がダイアグラム又はデータテーブルの形態で存在する場合、生成された予測スペクトル8、特に、更なる機械学習アルゴリズム又は残差ニューラルネットワークによって生成又は出力された予測スペクトル8も、それぞれ、ダイアグラム又はデータテーブルの形態で存在する。
【0162】
従って、第2の機械学習モデル9及び/又はスペクトルジェネレータ13が、構造1から予測スペクトル8を生成するためのグラフアテンションネットワーク及び残差ニューラルネットワークを有する及び/又は使用することが特に好ましく、構造1から出発して、グラフアテンションネットワークによってノード埋め込みが生成され、ノード埋め込みは、好ましくは、予測スペクトル8の表現又は符号化であり、次いで、残差ニューラルネットワークによってノード埋め込みから予測スペクトル8が生成される。
【0163】
第2の機械学習モデル9又はスペクトルジェネレータ13は、好ましくは、ジアステレオトピックプロトンの(異なる)スペクトル特徴5、特に化学シフトを予測することができる。
【0164】
特に、各スペクトル特徴5、特に予測スペクトル8の化学シフトについて、特に第2の機械学習モデル9及び/又はスペクトルジェネレータ13によって、期待値又は平均値及び対応する分散の尺度、特に標準偏差が計算される。期待値又は平均値は、好ましくは、予測スペクトル8におけるスペクトル特徴5の位置である。例えば、期待値又は平均値は、化学シフトの位置、換言すれば、化学シフトの「ppm値」である。
【0165】
特に、期待される平均値及び対応する分散の尺度の両方を計算するこの手順は、第2の機械学習モデル9が、ジアステレオトピックプロトンの(異なる)スペクトル特徴5、特に化学シフトを予測する能力につながることが判明した。すなわち、スペクトル特徴5又は化学シフトの平均値又は位置の予測は非常に正確であり、通常、対応する分散の尺度又は標準偏差はゼロであることが判明した。しかしながら、ジアステレオトピックなプロトンの場合、計算された標準偏差はゼロより大きくなる。
【0166】
ジアステレオトピックプロトンのスペクトル特徴5又は化学シフトは、好ましくは、期待値又は平均値に対応する分散の尺度又は標準偏差を加算及び減算することによって計算される。好ましくは、ジアステレオトピックプロトンの一方のスペクトル特徴5又は化学シフトは、期待値又は平均値と対応する分散の尺度との和であり、ジアステレオトピックプロトンの他方のスペクトル特徴5又は化学シフトは、期待値又は平均値と対応する分散の尺度との差である。
【0167】
例えば、2つのジアステレオトピックプロトンの期待値又は平均値が4.42ppmであり、対応する分散の尺度又は標準偏差が0.18ppmである場合、ジアステレオトピックプロトンの一方のスペクトル特徴5又は化学シフトは4.60ppm(=4.42ppm+0.18ppm)と計算され、第2のジアステレオトピックプロトンの計算された位置は4.24ppm(=4.42ppm-0.18ppm)である。
【0168】
本発明の特徴における個々の態様は、互いに独立して実施することができるが、任意の所望の組み合わせ及び/又は順序で実施することもできる。
【符号の説明】
【0169】
1 構造
2 未知化合物
3 測定スペクトル
4 サンプル
5 スペクトルの特徴
6 分子式及び/又は実験式
7 (第1の)機械学習モデル
8 予測スペクトル
9 (第2の)機械学習モデル
10 (第1の)トレーニングデータセット
11 ジェネレータ
12 ディスクリミネータ
13 スペクトルジェネレータ
14(第2の)トレーニングデータセット
【国際調査報告】