特表2025-502880 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ベーリンガー　インゲルハイム　インターナショナル　ゲゼルシャフト　ミット　ベシュレンクテル　ハフツングの特許一覧

特表2025-502880構造解明方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2025-01-28

(54)【発明の名称】構造解明方法

(51)【国際特許分類】

G16C 20/20 20190101AFI20250121BHJP

G06N 3/04 20230101ALI20250121BHJP

G06N 3/045 20230101ALI20250121BHJP

G06N 3/094 20230101ALI20250121BHJP

G16C 20/70 20190101ALI20250121BHJP

G01N 24/00 20060101ALI20250121BHJP

【ＦＩ】

G16C20/20

G06N3/04 100

G06N3/045

G06N3/094

G16C20/70

G01N24/00 530K

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024541806

(86)(22)【出願日】2023-01-10

(85)【翻訳文提出日】2024-07-11

(86)【国際出願番号】 EP2023050395

(87)【国際公開番号】W WO2023135113

(87)【国際公開日】2023-07-20

(31)【優先権主張番号】22151206.4

(32)【優先日】2022-01-12

(33)【優先権主張国・地域又は機関】EP

(81)【指定国・地域】

(71)【出願人】

【識別番号】503385923

【氏名又は名称】ベーリンガーインゲルハイムインターナショナルゲゼルシャフトミットベシュレンクテルハフツング

(74)【代理人】

【識別番号】100103610

【弁理士】

【氏名又は名称】▲吉▼田和彦

(74)【代理人】

【識別番号】100109070

【弁理士】

【氏名又は名称】須田洋之

(74)【代理人】

【識別番号】100119013

【弁理士】

【氏名又は名称】山崎一夫

(74)【代理人】

【識別番号】100130937

【弁理士】

【氏名又は名称】山本泰史

(74)【代理人】

【識別番号】100144451

【弁理士】

【氏名又は名称】鈴木博子

(74)【代理人】

【識別番号】100171675

【弁理士】

【氏名又は名称】丹澤一成

(72)【発明者】

【氏名】レディクティム

(72)【発明者】

【氏名】レキッチヴラディミール

(72)【発明者】

【氏名】ロトアッハフロリアン

(57)【要約】

本発明は、サンプルの測定スペクトルから未知化合物の構造を解明する方法に関する。本方法は、少なくとも１つの機械学習モデル、特に、化合物の構造を生成する第１の機械学習モデル及び／又は構造から予測スペクトルを生成する第２の機械学習モデルを含む。
【選択図】図１

【特許請求の範囲】

【請求項1】

サンプル（４）の測定スペクトル（３）から未知化合物（２）の構造（１）を解明する方法であって、
候補化合物の構造（１）が生成され、前記生成された構造（１）から予測スペクトル（８）が生成され、
前記予測スペクトル（８）が前記測定スペクトル（３）と比較され、
前記予測スペクトル（８）の１つが選択されて、前記選択された予測スペクトル（８）に対応する前記構造（１）が、前記未知化合物（２）の構造（１）として決定され、
ａ）第１の機械学習モデル（７）が、前記候補化合物の構造（１）を生成し、第２の機械学習モデル（９）が、前記第１の機械学習モデル（７）によって生成された前記構造（１）から前記予測スペクトル（８）を生成し、
及び／又は
ｂ）第１の機械学習モデル（７）が、前記候補化合物の構造（１）を生成し、前記第１の機械学習モデル（７）は、分子式及び／又は実験式（６）から現実的な構造（１）を生成するためにトレーニングされ、
及び／又は
ｃ）第２の機械学習モデル（９）が、前記生成された構造（１）から前記予測スペクトル（８）を生成し、前記第２の機械学習モデル（９）が、残差ニューラルネットワークを有する、
方法。

【請求項2】

前記第１の機械学習モデル（７）が、１又は２以上の人工ニューラルネットワークを、好ましくはグラフニューラルネットワークを、特に敵対的生成ネットワークのペアを有する、請求項１に記載の方法。

【請求項3】

前記第１の機械学習モデル（７）が、第１のトレーニングデータセット（１０）を用いて、好ましくは前記現実的な構造（１）の生成のために、特に分子式及び／又は実験式（６）からトレーニングされ、前記第１のトレーニングデータセット（１０）は、好ましくは複数の実在の分子の構造（１）を備える、請求項１又は２に記載の方法。

【請求項4】

前記第１の機械学習モデル（７）が、ジェネレータ（１１）及びディスクリミネータ（１２）を用いてトレーニングされ、好ましくは、前記ジェネレータ（１１）及び前記ディスクリミネータ（１２）が相互にトレーニングされ、及び／又は前記ディスクリミネータ（１２）がトレーニングにおいてのみ使用され、及び／又は実際の構造解明において及び／又は応用段階において使用されない、請求項１～３のうちの１項に記載の方法。

【請求項5】

前記第１の機械学習モデル（７）、特に前記ジェネレータ（１１）が、特にランダム変数及び／又はランダムノイズジェネレータを用いて、所与の分子式及び／又は実験式（６）から複数の構造（１）を生成するように生成及び／又はトレーニングされる、請求項１～４のうちの１項に記載の方法。

【請求項6】

前記ディスクリミネータ（１２）が、特に前記第１のトレーニングデータセット（１０）からの実際の構造（１）と、ジェネレータ（１１）によって生成された構造（１）とを区別するようにトレーニングされる、請求項４又は５に記載の方法。

【請求項7】

前記第２の機械学習モデル（９）が、１又は２以上の人工ニューラルネットワーク、好ましくはグラフニューラルネットワーク、グラフアテンションネットワーク及び／又は残差ニューラルネットワークを有する、請求項１～６のうちの１項に記載の方法。

【請求項8】

前記第２の機械学習モデル（９）が、第２のトレーニングデータセット（１４）を用いてトレーニングされ、前記第２のトレーニングデータセット（１４）は、好ましくは、関連スペクトル特徴（５）、好ましくは化学シフト、特に¹Ｈ及び／又は¹³Ｃ化学シフトでラベル付けされた構造（１）を含む、請求項１～７のうちの１項に記載の方法。

【請求項9】

前記予測スペクトル（８）の各スペクトル特徴（５）、特に化学シフトについて、期待値又は平均値及び対応する分散の尺度、特に標準偏差が計算される、請求項１～８のうちの１項に記載の方法。

【請求項10】

前記測定スペクトル（３）が、ＮＭＲスペクトルであり、及び／又は前記サンプル（４）のスペクトル、特にＮＭＲスペクトルが測定される、請求項１～９のうちの１項に記載の方法。

【請求項11】

前記分子式及び／又は前記実験式（６）が、前記サンプル（４）の質量スペクトルを測定することによって決定される、請求項１～１０のうちの１項に記載の方法。

【請求項12】

前記方法がコンピュータによって実行される方法である、請求項１～１１のうちの１項に記載の方法。

【請求項13】

請求項１～１２のうちの１項に記載の方法を実施するための手段を備えるデータ処理装置。

【請求項14】

プログラムがコンピュータによって実行されたときに、前記コンピュータに請求項１から１２のうちの１項に記載の方法を実行させる命令を備えるコンピュータプログラム製品。

【請求項15】

コンピュータによって実行されたときに、前記コンピュータに請求項１から１２のうちの１項に記載の方法を実行させる命令を備えるコンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、サンプルの測定スペクトルから未知化合物の構造又は分子構造を解明する構造解明のための方法、並びにデータ処理装置、コンピュータプログラム製品及びコンピュータ可読記憶媒体に関する。

【背景技術】

【0002】

化学及び薬学において、サンプルの化学組成を分析すること、又はサンプルに含まれる化合物を分析することは、多くの場合で重要である。例えば、サンプルは、潜在的な不純物に関して分析される薬剤であるか、又は薬剤を有することができる。別の例では、サンプルは検証されるべき新たに合成された化合物であるか、又は新たに合成された化合物を有する。サンプルの分析には、核磁気共鳴（以下、ＮＭＲと略記する）分光法、質量分析法、赤外分光法、ラマン分光法、及びＸ線結晶構造解析法など、幾つかの方法が利用可能である。

【0003】

有機化学及び薬学において、ＮＭＲ分光法は、サンプルの化合物を特定するために最も使用される方法の１つである。この方法は多くの利点を有するが、ＮＭＲスペクトルから測定化合物の幾何学的又は分子構造を直接推測することはできない。

【0004】

ＮＭＲスペクトルの実験から、有機分子の炭化水素骨格の完全な記述が得られることが一般的であるが、測定スペクトルが既知の化合物の既知のスペクトルと一致しない場合、スペクトルで観測された特徴（特に化学シフト）を調査中のサンプルの個々の原子核に完全に一対一に割り当てることは非常に困難である。

【0005】

例えば、医薬品もしくは薬剤又はその他の化学製品の製造における典型的な作業は、所望の医薬品もしくは薬剤又は化学製品が実際に合成又は製造されていることを確認すること、及び／又はサンプル中に不純物が存在するかどうかを確認すること、及び肯定的な場合には不純物を決定することである。このために、サンプルの測定スペクトル、特にＮＭＲスペクトルを、サンプルに含まれる又は予想される化合物の予想スペクトルと比較する。

【0006】

測定されたスペクトルが、サンプルに含まれる化合物の予想される既知のスペクトルと一致すれば、サンプル中に目的の化合物が存在することを確認するのは極めて容易である。しかしながら、例えば、不純物が存在する場合、又は合成の結果として所望の化合物が得られなかった場合など、サンプル中に未知の化合物が存在する可能性がある。この場合、測定されたスペクトルを化合物に割り当てることは非常に困難な可能性がある。

【0007】

本開示の関連において、「構造解明」という用語は、サンプルの測定スペクトルから、サンプルに含まれる化合物の幾何学的構造又は分子構造を決定するプロセス又は方法を示す。

【0008】

構造解明の課題は、測定されたサンプルのスペクトル、特にＮＭＲスペクトルに最もよく一致する分子構造を見つけることである。しかしながら、構造解明は非常に面倒で時間のかかる作業であり、通常、多くの経験と専門知識を有する専門家を必要とする。

【先行技術文献】

【非特許文献】

【0009】

【非特許文献1】Ｊ．Ｃｈｅｍ．Ｉｎｆ．Ｍｏｄｅｌ．２０１２，５２，７，１７５７－１７６８（２０１２年５月１５日発行）

【非特許文献2】ＩａｎＪ．Ｇｏｏｄｆｅｌｌｏｗらによる論文「ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｓ」、ＡｄｖａｎｃｅｓｏｆＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ２７（ＮＩＰＳ２０１４）

【非特許文献3】ベリコビッチらによる論文「Ｇｒａｐｈａｔｔｅｎｔｉｏｎｎｅｔｗｏｒｋｓ」ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１７１０．１０９０３

【非特許文献4】Ｈｅらによる論文「Ｄｅｅｐｒｅｓｉｄｕａｌｌｅａｒｎｉｎｇｆｏｒｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎ」、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），２０１６，ｐｐ．７７０－７７８

【発明の概要】

【発明が解決しようとする課題】

【0010】

従って、構造解明のための完全に自動化された方法が望まれる。

【0011】

本発明の目的は、完全に自動化され、迅速及び／又は信頼性の高い構造解明方法を提供することである。

【課題を解決するための手段】

【0012】

上記目的は、請求項１に記載の方法、請求項１３に記載のデータ処理装置、請求項１４に記載のコンピュータプログラム製品又は請求項１５に記載のコンピュータ可読記憶媒体によって解決される。有利な発展は、従属請求項の主題である。

【0013】

特に、本発明は、サンプルの測定スペクトルから未知の化合物の構造を解明する方法に関する。「構造」という用語は、特に化合物又はその分子の分子構造を示し、以下で更に定義される。

【0014】

本発明による方法では、候補化合物の構造が生成され、これらの生成された構造から予測スペクトルが生成される。予測されたスペクトルは、測定されたスペクトルと比較される。特に比較に基づいて予測スペクトルの１つが選択され、選択された予測スペクトルに対応する構造が未知化合物の構造として決定される。

【0015】

第１の態様によれば、第１の機械学習モデルが化合物の構造を生成し、第２の機械学習モデルが第１の機械学習モデルによって生成された構造から予測スペクトルを生成する。これにより、構造解明が非常に高速で、信頼性が高く、及び効率的に行われる。特に、構造解明の方法を完全に自動化又は少なくとも大部分を自動化することができ、及び構造解明のために専門家に相談することを排除することができる。

【0016】

独立して実施することもできる別の態様によれば、機械学習モデル（以下、第１の機械学習モデルと称する）が、候補化合物の構造を生成し、第１の機械学習モデルは、分子式及び／又は実験式から現実的な構造を生成するためにトレーニングされる。これは、高速で、信頼性が高く、効率的な構造解明に寄与する。特に、構造解明の少なくとも一部を自動化することができる。すなわち、可能性のある化合物又は候補化合物を提供すること、言い換えれば、未知の化合物の候補を特定することができる。

【0017】

独立して実施することもできる別の態様によれば、機械学習モデル（以下、第２の機械学習モデルと称する）が、分子構造から予測スペクトルを生成し、第２の機械学習モデルは、残差ニューラルネットワークを有する。これは、構造解明を高速、高信頼性、及び効率的に行うことに寄与する。特に、構造解明を少なくとも部分的に自動化することができる。特に、候補化合物又は候補化合物のスペクトルを自動的に生成することができる。

【0018】

有利には、第１の機械学習モデルは、１又は２以上の人工ニューラルネットワーク、好ましくは１又は２以上のグラフニューラルネットワーク、特に敵対的生成ネットワークを有する及び／又は使用する。グラフニューラルネットワーク又は敵対的生成ネットワークの使用は、構造を生成するのに特に適しており、及び効率的であることが証明されている。

【0019】

好ましくは、第１の機械学習モデルは、第１のトレーニングデータセットを用いてトレーニングされる。好ましくは、第１の機械学習モデルは、現実的な構造の生成のためにトレーニングされる。特に、第１の機械学習モデルは、分子式及び／又は実験式から現実的な構造を生成するためにトレーニングされる。第１の機械学習モデルは、好ましくは、第１のトレーニングデータセットを備え、及び／又は第１のトレーニングデータセットは、好ましくは、第１の機械学習モデルの一部を形成する。第１のトレーニングデータセットを用いて第１の機械学習モデルをトレーニングすることにより、第１の機械学習モデルが化学的及び／又は物理的に可能な構造のみを生成することを達成することができる。特に、第１のトレーニングデータセットが十分に大きく及び多様である場合、第１の機械学習モデルは、好ましくは、新規構造、すなわち第１のトレーニングデータセットに含まれない構造を生成するように学習することができる。

【0020】

第１のトレーニングデータセットは、好ましくは複数の実在の分子の構造を備える。このようにして、第１の機械学習モデルは、現実的な構造のみを生成するように効率的にトレーニングすることができる。化学的及び／又は物理的に不可能な構造の生成は、好ましくは回避されるか、又は少なくとも著しく低減される。

【0021】

第１の機械学習が、ジェネレータ及び好ましくはディスクリミネータを有する場合、及び／又は、ジェネレータ及び好ましくはディスクリミネータを用いて第１の機械学習モデルをトレーニングすることが有利である。ジェネレータは、特に、分子式及び／又は実験式から構造を生成する及び／又は構造を生成するようにトレーニングされるオブジェクトである。ディスクリミネータは特に、実際の構造、特に第１のトレーニングデータセットからの構造と、他の又は人工的な構造、特にジェネレータによって生成された構造とを区別する、及び／又は区別するようにトレーニングされたオブジェクトである。特にトレーニングの間、ジェネレータはディスクリミネータの結果及び／又は決定を与えられ、及びディスクリミネータは、特に第１のトレーニングデータセットからの構造とジェネレータによって生成された構造の両方を与えられる。このようにして、ジェネレータ及びディスクリミネータは相互にトレーニングされる。

【0022】

このようにして、一方では、現実的及び／又は物理的及び／又は化学的に可能な構造のみを生成するように、ジェネレータをトレーニングすることができる。他方、ディスクリミネータはこのようにして、「実在の」分子がどのように見えるかを学習し、実在の分子とジェネレータによって生成された人工的な分子又は構造を区別するようにトレーニングされる。

【0023】

特に、ジェネレータ及びディスクリミネータは相互にトレーニングされる。これにより、トレーニング後、現実的及び／又は化学的及び／又は物理的に可能な分子又は構造を生成するジェネレータが得られる。

【0024】

ディスクリミネータは、好ましくは、トレーニングにおいてのみ使用され、及び／又は実際の構造解明においては使用されず、及び／又は応用段階においては使用されない。
ここで、「実際の構造解明」という用語は、特に第１の機械学習モデルのトレーニングが完了した後に分子を生成するステップを意味する。

【0025】

第１の機械学習モデル、特にジェネレータは、好ましくは、所与の分子式及び／又は実験式から複数の構造を生成し、及び／又は生成するようにトレーニングされる。これにより、構造解明方法の成功率を向上させることができる。

【0026】

第１の機械学習モデル、特にジェネレータは、ランダムノイズ発生器及び／又はランダム変数を有する及び／又は使用することが好ましい。ランダムノイズ発生器又はランダム変数により、特に、１つの所与の分子式及び／又は実験式から複数の異なる構造が生成されることが達成又は保証することができる。特に、ランダムノイズ発生器又はランダム変数の使用により、生成される構造の多様性が確保される。これは、構造解明の高い成功率に寄与する。

【0027】

ディスクリミネータは、特に第１のトレーニングデータセットからの実際の構造と、ジェネレータによって生成された構造とを区別するようにトレーニングされることが好ましい。このディスクリミネータにより、現実的な構造及び／又は化学的及び／又は物理的に可能な構造の生成のために、ジェネレータを効率的にトレーニングすることができる。

【0028】

第２の機械学習モデルは、好ましくは、１又は２以上の人工ニューラルネットワークを有する及び／又は使用する。特に好ましくは、第２の機械学習モデルは、グラフニューラルネットワーク、グラフアテンションネットワーク及び／又は残差ニューラルネットワークを有する及び／又は使用する。人工ニューラルネットワーク、特にグラフアテンションネットワーク及び／又は残差ニューラルネットワークの使用は、所与の構造からの予測スペクトル、特にＮＭＲスペクトルの生成において有利であることが証明されている。これにより、予測スペクトルの高速生成及び／又は信頼性の高い生成、特に高精度の予測スペクトルが得られる。特に、グラフニューラルネットワーク及び／又は残差ニューラルネットワークを使用することにより、必要な外部トレーニングサンプルの数を減少させることができ、無制限の大きさの分子のスペクトル、特にＮＭＲスペクトルを計算することができる。更に、予測スペクトルの生成は並行処理することができる。驚くべきことに、グラフニューラルネットワーク、グラフアテンションネットワーク及び／又は残差ニューラルネットワークの使用に起因して、本発明の構造解明方法及び／又は第２の機械学習モデルは、ＮＭＲスペクトルにおけるジアステレオトピックプロトンの異なる化学シフトを予測することができる。

【0029】

第２の機械学習モデルは、好ましくは、第２のトレーニングデータセットを用いてトレーニングされる。第２のトレーニングデータセットは、好ましくは、第１のトレーニングデータセットとは異なり、及び／又は、第１のトレーニングデータセットからのデータとは異なる構造及び／又は異なる情報を有するデータを含む。

【0030】

特に、第２のトレーニングデータセットは、関連するスペクトル特徴でラベル付けされた構造を含む。換言すれば、第２のトレーニングデータセット内の全ての構造に対して、第２のトレーニングデータセットは（追加的に）、そのスペクトルが測定されたときにこの構造が生じることになる特徴に関する情報を含む。好ましくは、スペクトルはＮＭＲスペクトルであり、及び／又はスペクトル特徴は化学シフト、特に¹Ｈ及び／又は¹³Ｃの化学シフトである。

【0031】

予測スペクトルの生成において、スペクトルの各特徴、特にスペクトルの各化学シフトについて、期待値又は平均値及び対応する分散の尺度、特に標準偏差が計算されることが好ましい。これにより、ジアステレオトピックプロトンの異なるスペクトル特徴、特に化学シフトを予測することも可能である。

【0032】

好ましくは、測定されたスペクトルはＮＭＲスペクトルである。特に、サンプルのスペクトル、特にＮＭＲスペクトルが測定される。しかしながら、スペクトルを測定することは、本方法の本質的な特徴ではない。例えば、サンプルが本方法の前に、及び／又は本方法とは無関係に既に測定されている場合、及び／又は測定されたスペクトルがデータセットとして存在する場合等、サンプルを測定する明示的なステップを伴わずに本方法を実施することも可能である。従って、サンプルのスペクトルを測定するステップは、本発明方法とは別個のものとすることができ、好ましくはこれに先立つステップである。

【0033】

分子式及び又は実験式は、好ましくは、サンプルのマススペクトルを測定することにより決定される。

【0034】

本発明による方法は、好ましくはコンピュータによって実行される方法である。このようにして、本方法は、少なくとも部分的に又は完全に自動化することができる。

【0035】

別の態様によれば、本発明は、本方法を実施するための手段を備えるデータ処理装置に関する。

【0036】

別の態様によれば、本発明は、プログラムがコンピュータによって実行されたときに、コンピュータに本方法を実行させる命令を備えるコンピュータプログラム製品に関する。

【0037】

別の態様によれば、本発明は、コンピュータによって実行されたときに、コンピュータに本方法を実行させる命令を備えるコンピュータ可読記憶媒体に関する。

【0038】

本開示の意味における「分子構造」とは、好ましくは分子の幾何学的構造、特に分子の原子の幾何学的及び／又は３次元配置である。

【0039】

本開示の意味における化合物の「実験式」は、好ましくは、化合物中に存在する原子の最も単純な整数比である。実験式は、原子の配置又は数について言及しない。特に、所与の化合物の原子の総数は、その実験式から推論することはできない。この概念の簡単な例として、一酸化硫黄（ＳＯ）の実験式は単にＳＯであり、二酸化二硫黄（Ｓ₂Ｏ₂）の実験式も同様である。従って、一酸化硫黄と二酸化二硫黄は同じ実験式（ＳＯ）を有するが、一酸化硫黄は、硫黄原子１個と酸素原子１個のみを有するのに対し、二酸化二硫黄は、硫黄原子２個と酸素原子２個とを有する。

【0040】

本開示の意味での「分子式」は、好ましくは、化合物の分子内の原子の各タイプの数を示す。分子式は、特定のタイプの原子を１つのみ有する分子の実験式と同じである。他の場合では、分子式はより大きな数を有することができる。上記の例では、一酸化硫黄の分子式はＳＯであり、実験式と同じである。二酸化二硫黄の場合、分子式はＳ₂Ｏ₂であり、実験式ＳＯとは異なる。

【0041】

実験式及び分子式は、分子の分子構造又は幾何構造に関するいかなる情報も与えない。

【0042】

本開示の意味での「化合物」は、好ましくは、複数の同一分子から構成される化学物質である。

【0043】

本発明の意味における化合物又はその分子の「構造」は、好ましくは、化合物又はその分子の分子構造、言い換えれば、分子の個々の原子の２次元及び／又は３次元配列である。従って、用語「構造」は、特に、化合物又はその分子の原子又は核の配置を示す。構造又は分子構造はまた、幾何学的／分子構造を表す式、特に構造式又は骨格式等として存在するか又は表すことができる。例えば、エタノール（Ｃ₂Ｈ₆Ｏ）の構造式は、

【化1】

と読み取れる。

【0044】

本開示の意味における「候補化合物」とは、好ましくは、構造未知及び／又は解明すべきサンプル中の未知化合物の候補となる化合物である。言い換えれば、候補化合物とは、未知化合物である可能性がある、又はおそらく未知化合物であろう化合物である。特に、候補化合物の実験式及び／又は分子式は、特にサンプル及び／又は未知化合物の質量分析を行う等して有するか又は測定することができる、未知化合物の実験式及び／又は分子式と同じである。

【0045】

本開示の意味における「測定スペクトル」は、好ましくは、例えばＮＭＲ分光法、質量分析法、赤外分光法、ラマン分光法、Ｘ線結晶構造解析法又はこれらに類する分光学的方法によるサンプルの測定結果である。しかしながら、特に好ましくは、スペクトルはＮＭＲスペクトルである。測定されたスペクトルは、好ましくは、データ又はデータポイントのセット、特にデジタルデータとして存在し、及び／又はデータ又はデータポイントのセット、特にデジタルデータによって表される。測定されたスペクトル」という用語は、特に、測定されたスペクトルを、以下に説明する予測されたスペクトルと区別するために使用される。

【0046】

本開示の意味における「予測スペクトル」は、好ましくは、実際に測定されていない、及び／又は、特に機械学習モデル及び／又は他のコンピュータプログラム、モジュール及び／又はアルゴリズムによって（人為的に）生成されたスペクトルである。特に、予測スペクトルは、第２の機械学習モデルによって生成される。予測スペクトルは、好ましくは、データ又はデータポイントのセット、特にデジタルデータとして存在し、及び／又はデータ又はデータポイントのセット、特にデジタルデータによって表される。特に、予測スペクトルは、測定スペクトルと同じデータタイプ及び／又はデータ構造を有する。

【0047】

本開示の意味における「核磁気共鳴スペクトル」（以下、「ＮＭＲスペクトル」と略称される）は、好ましくは、ＮＭＲ分光法によって測定されたスペクトル、又は測定されたＮＭＲスペクトルと同一のデータタイプもしくはデータ構造を有する予測スペクトルである。特にＮＭＲスペクトルは、複数の特徴を有するか又はこれらからなる。これらの特徴は、特にスペクトル中のピークである。ＮＭＲの関連では、スペクトルの特徴及び／又はピークは、特に「化学シフト」と表記される。化学シフトとは、磁場中における核の、基準に対する共鳴周波数のことである。化学シフトは、好ましくはｐｐｍで表される。

【0048】

本開示の意味における「機械学習モデル」は、好ましくは、機械学習アルゴリズム及び１又は２以上の（トレーニング）データセットを備える及び／又は使用する。言い換えれば、機械学習モデルは、好ましくは、１又は２以上の（トレーニング）データセット上で実行される機械学習アルゴリズムの出力である。特に、機械学習モデルは、機械学習アルゴリズムによって学習されたものを表す。アルゴリズムとは、特に、機械学習モデルを作成するために１又は２以上の（トレーニング）データセット上で実行される手順である。アルゴリズムは、特に人工ニューラルネットワーク、特に好ましくはグラフニューラルネットワークであってもよい。

【0049】

本開示の意味における「トレーニングデータセット」は、好ましくは、機械学習モデル及び／又は機械学習アルゴリズムをトレーニングするために使用されるデータセットである。

【0050】

本開示の意味における「人工ニューラルネットワーク」は、好ましくは、ある形式のデータ入力を理解し、所望の出力（通常は別の形式）に変換可能な関数のネットワークを使用するコンピュータ学習システムである。ニューラルネットワークは、少なくとも２層、好ましくは３層又はそれ以上の層から構成される。特に、人工ニューラルネットワークは、入力層、出力層、及び１又は２以上の隠れ層、すなわち入力層と出力層の間の層を有する。
各層は「ニューロン」と呼ばれる１又は２以上の単位を有する。人工ニューラルネットワークのコンセプトは、脳及び脳の学習方法から着想を得ている。

【0051】

本開示の意味における「グラフニューラルネットワーク」は、好ましくは、グラフを有する及び／又はグラフを利用する及び／又はグラフに直接適用できる人工ニューラルネットワークである。

【0052】

本開示の意味における「グラフ」は、好ましくは、ノード及びエッジからなるデータ構造である。人工ニューラルネットワークの関連では、グラフのノードは、異なる人々のようなエンティティを表すことができ、グラフのエッジは、人々の間の人的関係のような、ノード間の関係又はリンクを表すことができる。別の例では、ノードは分子の核を表し、エッジは核間の化学結合を表すことができる。機械学習モデルの実装では、グラフを行列、特に隣接行列として表現することができる。

【0053】

本開示の意味における「特徴ベクトル」は、好ましくは、ノードに割り当てられた配列又はベクトルである。特徴ベクトルは、ノードに関する情報を含む１又は２以上の要素を有する。

【0054】

本開示の意味における「埋め込み」は、好ましくは、高次元ベクトルが変換されることが可能な低次元空間又はベクトルである。埋め込みは特に学習することができる。特に、ノード埋め込みは、グラフ中のノードの、特に低次元のベクトル表現である。

【0055】

本発明の上述した態様及び特徴並びに特許請求の範囲及び以下の説明から明らかになる本発明の態様及び特徴は、原則として、互いに独立して実施することができるが、任意の組み合わせ又は順序で実施することもできる。

【0056】

本発明の更なる態様、有利な態様、特徴及び特性は、特許請求の範囲及び図１が本発明の方法を概略的に示している図面を参照した好ましい実施形態の以下の説明から明らかになるであろう。

【0057】

本発明による構造解明方法を図１に概略的に示す。本方法は、特に、サンプル４の測定スペクトル３から、未知化合物２の構造１、特に幾何構造及び／又は分子構造１を解明する方法である。

【0058】

本方法は、好ましくは、サンプル４の汚染を発見及び／又は判定するために使用される。この場合、未知化合物２は汚染物質である。この場合のサンプル４は、好ましくは薬剤又は薬剤である。

【0059】

好ましくは、本方法はコンピュータによって実行される方法である。

【0060】

まず、本方法の概要を簡単に説明し、その後、異なる方法ステップの詳細を説明する。

【図面の簡単な説明】

【0061】

【図1】本発明による構造解明方法を概略的に示す。

【発明を実施するための形態】

【0062】

概要
まず、サンプル４のスペクトル３が好ましくは測定される。以下では、このスペクトル３を測定スペクトル３と表記する。

【0063】

サンプル４の測定スペクトル３の存在は、本方法を実施するために必要な要件であるが、スペクトル３を測定する実際のステップは、本方法の本質的な特徴ではない。特に、サンプル４のスペクトル３を測定するステップは、本方法とは別に、及び特に本方法に先立って行うことができる。

【0064】

測定されたスペクトル３は、特に好ましくは、サンプルのＮＭＲスペクトルであるが、原理的には、ＮＭＲ以外の他の分光法によって測定されたスペクトル３であってもよい。

【0065】

サンプル４は、好ましくは薬剤又は薬剤であるか又は備えるが、分光法、特にＮＭＲにより分析可能な任意のサンプル４とすることができる。サンプル４は、好ましくは少なくとも１つの有効成分を備える。

【0066】

サンプル４は、好ましくは未知の化合物２を備える。未知化合物２は、測定されたスペクトル３において、サンプル４に含まれる既知又は予想される化合物（仮定）に割り当てられない特徴を生じさせる。従って、既知及び／又は予想される化合物に割り当てられない測定スペクトル３の特徴の存在は、未知の化合物２がサンプル４に含まれていることを示唆する。これは、サンプル４中に不純物が存在するため、及び／又は、合成されるべき期待される化合物又は所望の化合物が得られなかった、又はこれらのみが得られなかった合成に起因する可能性がある。

【0067】

サンプル４は、未知の未知化合物２が単離及び／又は濃縮されたサンプルとすることができる。

【0068】

測定スペクトル３は、好ましくは、１又は２以上のスペクトル特徴５を備える。スペクトル特徴５は、好ましくは、測定スペクトル３中のピークである。特に、ＮＭＲスペクトルの場合、スペクトル特徴５は化学シフトである。

【0069】

好ましくは、未知化合物２の分子式及び／又は実験式６が決定される。これは、例えば、サンプル４及び／又は特に単離及び／又は濃縮された未知化合物２の質量分析を行うことによって行うことができる。未知化合物２の分子式及び／又は実験式６を決定するステップは、本発明方法の必須の特徴ではなく、好ましくはそれに先行する。

【0070】

構造解明のために、候補化合物の構造１が好ましくは生成される。特に、候補化合物の複数の異なる構造１が、１つ又は同一の分子式及び／又は実験式６から生成される。これは、好ましくは機械学習モデル７（以下、特に第１の機械学習モデル７と呼ぶ）によって行われる。

【0071】

生成された構造１から、好ましくは予測スペクトル８が生成される。特に、生成された各構造１に対して、正確に１つの予測スペクトル８が生成される。これは、好ましくは機械学習モデル９（以下、特に第２の機械学習モデル９と呼ぶ）によって行われる。

【0072】

用語「第１の」及び「第２の」機械学習モデルは、機械学習モデル７、９の序列を意味するものではなく、機械学習モデルを区別する役割を果たす。従って、接頭辞「第１」及び「第２」は省略することもできる。従って、第１の機械学習モデル７を機械学習モデル７と表記し、及び第２の機械学習モデル９を機械学習モデル９と表記することもできる。

【0073】

特に、本方法が、１つの機械学習モデルのみ、すなわち、（第１の）機械学習モデル７のみ又は（第２の）機械学習モデル９のみを備える／使用することも可能である。

【0074】

第１の機械学習モデル７及び／又は第２の機械学習モデル９は、好ましくは（各々）、アルゴリズム、特に機械学習アルゴリズム、及び／又はトレーニングデータセットを有する。好ましくは、第１の機械学習７は、第２の機械学習モデル９とは異なるアルゴリズムを有する、及び／又は、第１の機械学習モデル７は、第２の機械学習モデル９とは異なるトレーニングデータセットを有する。好ましくは、第１の機械学習モデル７及び／又は第２の機械学習モデル９のアルゴリズムは、人工ニューラルネットワーク、特にグラフニューラルネットワークである。

【0075】

予測スペクトル８は、好ましくは、測定スペクトル３と同じ種類であり、及び／又は測定スペクトル３と同じデータ構造を有する。例えば、測定スペクトル３がＮＭＲスペクトルである場合、予測スペクトル８もＮＭＲスペクトルである。特に、予測スペクトル８と測定スペクトル３との間の（唯一の）違いは、測定スペクトル３がサンプル４を用いて実際に測定されたもの又は有しているのに対し、予測スペクトル８は、特に第２の機械学習モデル９によって人為的に生成及び／又は計算されたものであることである。測定スペクトル３」及び「予測スペクトル８」という異なる用語は、主として、サンプルを用いて測定されたスペクトル３と、人為的に生成及び／又は計算されたスペクトル８とを区別する２つの役割を果たすに過ぎない。

【0076】

構造１は、特に分子構造、又は換言すると分子の幾何学的、２次元及び／又は３次元構造１である。構造１は、好ましくは、分子内の原子又は核の相対的な位置を定義するデータとして存在するか、又はそれによって表されるが、構造式、骨格式、又は他の適切なデータ及び／又は式として存在するか、又はこれらによって表されることもある。

【0077】

構造１は、好ましくは、分子式及び／又は実験式６から出発して計算又は生成される。

【0078】

予測スペクトル８を生成した後、予測スペクトル８は、好ましくは、測定スペクトル３と比較される。これは、好ましくは、自動的に行われ及び／又はコンピュータよって実行される。

【0079】

次に、好ましくは、予測スペクトル８のうちの１つが選択される。これは、好ましくは、予測スペクトル８と測定スペクトル３との比較に基づいて行われる。特に、測定スペクトル３に最もよく一致する予測スペクトル８が選択される。

【0080】

予測スペクトル８の選択は、特に、予測スペクトル８のうちのどれが測定スペクトル３に最もよく一致するかの決定である。選択されなかった予測スペクトル８は、好ましくは廃棄／拒絶される。

【0081】

最後に、選択された予測スペクトル８に対応する構造１、すなわち、特に、選択された予測スペクトル８が生成された構造１が、好ましくは、未知化合物２の構造１として決定される。これは、好ましくは、自動的及び／又はコンピュータにより実施される。

【0082】

特に、本方法の全ステップが自動的に及び／又はコンピュータによって実行され、及び／又は本方法が完全に自動化された及び／又はコンピュータによって実行される方法である。

【0083】

候補化合物の構造１を生成する第１の機械学習モデル７が使用され、第１の機械学習モデル７によって生成された構造１から予測スペクトル８を生成する第２の機械学習モデル９が使用されることが、本発明の好ましい態様である。言い換えれば、構造解明方法は、異なる学習アルゴリズムを有する、及び／又は、異なるトレーニングがなされる、すなわち、異なるトレーニングデータセットを用いてトレーニングされる、及び／又は、異なるタスクのためにトレーニングされる２つの異なる機械学習モデル７、９を利用することが好ましい。特に、構造１又は候補化合物を生成するタスクは、予測スペクトル８を生成するタスクから分離される。これにより、効果的及び／又は効率的なトレーニングが可能となり、（候補）化合物の可能性のある構造１の生成及び予測スペクトル８の生成の両方を、より効率的、迅速又は信頼性の高いものとすることができる。

【0084】

上記態様の一般的な考え方、すなわち、まず候補化合物の構造１を生成し、次にこれらの構造１の予測スペクトル８を生成することによって構造解明を行うことにより、構造解明の基本的な問題、すなわち、測定されたスペクトル３から分子構造を直接推論することが回避され、このようにして、構造解明をより迅速かつ効率的に行うことができる。

【0085】

第１の機械学習モデル
独立して実施することも可能な好ましい態様によれば、候補化合物の構造１の生成は、機械学習モデル、特に第１の機械学習モデル７によって行われる。

【0086】

第１の機械学習モデル７は、好ましくは、現実的な構造１を生成するためにトレーニングされる。この意味での現実的な構造とは、特に、物理的及び／又は化学的に可能な構造である。構造１は、好ましくは、分子式及び／又は実験式６から生成される。

【0087】

特に、第１の機械学習モデル７は、実際の構造解明のために第１の機械学習モデル７を使用する前にトレーニングされる。換言すれば、本発明による方法は、好ましくは、第１の機械学習モデル７のトレーニング又はトレーニング段階及び第１の機械学習モデル７の適用段階を含む。

【0088】

トレーニング又はトレーニング段階において、第１の機械学習モデル７は、好ましくは、特に分子式及び／又は実験式６から出発して、現実的な構造１がどのように生成されるかを学習する。トレーニング後又はトレーニング段階が終了すると、第１の機械学習モデル７は、特に、サンプル４の測定スペクトル３から未知の化合物２の構造１を解明するために、候補化合物の構造１を生成するために使用される又は使用することができる。

【0089】

応用又は適用段階は、好ましくは、トレーニング段階を終了した後の段階、換言すれば、第１の機械学習モデル７が、候補化合物の構造１を生成するため及び／又は実際の構造解明のために使用される段階である。

【0090】

第１の機械学習モデル７は、好ましくは、トレーニングデータセット１０（以下、第１のトレーニングデータセット１０と称する）を用いてトレーニングされる。好ましくは、第１の機械学習モデル７は、第１のトレーニングデータセット１０を備える、及び／又は、第１のトレーニングデータセット１０は、第１の機械学習モデル７の一部又は構成要素を形成する。

【0091】

第１の機械学習モデル７は、特に、現実的な構造１を生成するためにトレーニングされる。言い換えれば、第１の機械学習モデル７のトレーニングの目的は、第１の機械学習モデル７によって生成された構造１が物理的及び／又は化学的に可能であることを達成又は保証することである。これは特に、適切な第１のトレーニングデータセット１０を選択することによって達成される。

【0092】

第１のトレーニングデータセット１０は、好ましくは、複数の実在の分子又は化合物の構造１を備える。構造１は、好ましくは、デジタルデータとして存在し、及び／又はデジタルデータによって表される。実在の分子又は化合物の構造１は、例えば、分子又は化合物の原子又は核の相対的な幾何学的位置を定義又は含むデータとして、及び／又は構造式又は骨格式等の構造１を表す式として存在又は提供することができる。

【0093】

第１のトレーニングデータセット１０は、好ましくはデータベース又はデータベースから取得されたものである。第１のトレーニングデータセット１０及び又はデータベースの好ましい例は、ｈｔｔｐｓ：／／ｚｉｎｃ．ｄｏｃｋｉｎｇ．ｏｒｇの下で利用可能なＺＩＮＣデータベースである。ＺＩＮＣデータベースについては、Ｊ．Ｃｈｅｍ．Ｉｎｆ．Ｍｏｄｅｌ．２０１２，５２，７，１７５７－１７６８（２０１２年５月１５日発行）に詳しく記載されている。

【0094】

第１のトレーニングデータセット１０は、好ましくは、実在の分子又は化合物の構造１に加えて、特に分子式及び／又は実験式６を備える。特に好ましくは、第１のトレーニングデータセット１０内の全ての分子又は化合物について、第１のトレーニングデータセット１０は、それぞれの分子又は化合物の構造１及び分子式及び／又は実験式６を備える。

【0095】

第１の機械学習モデル７は、特に、分子式及び／又は実験式６から構造１を生成するためにトレーニングされる。換言すれば、分子式及び／又は実験式６が、第１の機械学習モデル７の入力として使用される又は第１の機械学習モデル７の入力を構成することが好ましい。次いで、機械学習モデル７は、入力された分子式及び／又は実験式６から１又は２以上の構造１を生成する。生成された構造１は、好ましくは、第１の機械学習モデル７の出力を構成する。これは図１にも概略的に描かれている。

【0096】

第１の機械学習モデル７によって生成された構造１は、例えば、分子又は化合物の原子又は核のこれらの相対的な幾何学的位置を定義する又は含むデータとして、及び／又は構造式又は骨格式等の構造１を表す式として、存在又は提供することができる。

【0097】

好ましくは、第１の機械学習モデル７は、１又は２以上の人工ニューラルネットワーク、好ましくは１又は２以上のグラフニューラルネットワークを有する及び／又は使用する。特に好ましくは、人工ニューラルネットワーク又はグラフニューラルネットワークは、敵対的生成ネットワークである。このようなネットワークの使用は、構造１の生成に特に有利であることが証明されている。

【0098】

敵対的生成ネットワークは、特に、ＩａｎＪ．Ｇｏｏｄｆｅｌｌｏｗらによる論文「ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｓ」（２０１４年）に記載されている。この論文は、ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１４０６．２６６１、ＡｄｖａｎｃｅｓｏｆＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ２７（ＮＩＰＳ２０１４）にも掲載されている。

【0099】

第１の機械学習モデル７、特に人工ニューラルネットワークは、好ましくは、ジェネレータ１１及び好ましくはディスクリミネータ１２を有する。

【0100】

好ましくは、ジェネレータ１１は、機械学習モデルであり、及び／又は人工ニューラルネットワーク、特にグラフニューラルネットワークを有する。好ましくは、ジェネレータ１１は、第１のトレーニングデータセット１０を備える及び／又は使用する。

【0101】

好ましくは、ディスクリミネータ１２は、機械学習モデルであり、及び／又は人工ニューラルネットワーク、特にグラフニューラルネットワークを有する。ディスクリミネータ１２は、好ましくは、第１のトレーニングデータセット１０を備える及び／又は使用する。

【0102】

第１のトレーニングデータセット１０は、好ましくは、ジェネレータ１１及びディスクリミネータ１２の両方のトレーニングに使用される。換言すれば、トレーニング中、第１のトレーニングデータセット１０は、好ましくは、ジェネレータ１１の入力として及びディスクリミネータ１２の入力として使用される。

【0103】

好ましくは、ジェネレータ１１及びディスクリミネータ１２は、別個の機械学習モデルである。好ましくは、ジェネレータ１１及びディスクリミネータ１２は、異なる又は別々の機械学習アルゴリズムを有し、及び／又は同じトレーニングデータセット１０を有するか又は使用する。

【0104】

ジェネレータ１１及びディスクリミネータ１２は、好ましくは、敵対的生成ネットワークのペアを形成する。従って、ジェネレータ１１及びディスクリミネータ１２は、好ましくは、ゲーム、特に、一方のエージェントの利得が他方のエージェントの損失となるゼロサムゲームの形で、互いに競合する。

【0105】

特に好ましくは、ジェネレータ１１は、生成モデルＧによって形成され、及び／又は、ディスクリミネータ１２は、Ｇｏｏｄｆｅｌｌｏｗらによる上記引用論文「ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｓ」に記載されているような識別モデルＤによって形成される。

【0106】

第１の機械学習モデル７は、好ましくは、ジェネレータ１１及びディスクリミネータ１２を用いてトレーニングされる。ジェネレータ１１及びディスクリミネータ１２は、好ましくは相互にトレーニングする。

【0107】

ジェネレータ１１は、好ましくは、特に分子式及び／又は実験式６から出発して、構造１を生成する。

【0108】

トレーニングの間及び／又はトレーニング中、ジェネレータ１１によって生成された構造１は、好ましくは、ディスクリミネータ１２に提示又は供給される。トレーニング中のディスクリミネータ１２のタスクは、ジェネレータ１１によって生成された構造１と、実在の分子の構造１とを区別することである。実在の分子の構造１は、好ましくは、第１のトレーニングデータセット１０から取り出される。

【0109】

特に、ディスクリミネータ１２は、ジェネレータ１１によって生成された構造１と実際の構造１との間の違いを学習するようにトレーニングされる。これは特に、ジェネレータ１１によって生成された構造１と、特に第１のトレーニングデータセット１０から取り出された実際の構造１とを比較し、その判断が矯正された場合にディスクリミネータ１２にフィードバックを与えることによって行われる。

【0110】

実構造１は、特に、現実に存在する分子の構造１であり、例えば、以前に合成又は単離された分子の構造１である。実構造１とは、特に、第１のトレーニングデータセット１０に含まれる構造１のことである。

【0111】

好ましくは、ディスクリミネータ１２の決定は、今度は、ジェネレータ１１に提示される。これにより、特にジェネレータ１１は、生成された構造体１に関するフィードバックを受け取り、実際の構造体１がどのように「見える」かを学習する。このようにして、ジェネレータ１１は、好ましくは、現実的及び／又は物理的及び／又は化学的に可能な構造１を生成するように学習又はトレーニングされる。

【0112】

ジェネレータ１１及びディスクリミネータ１２の（相互）トレーニングの目標は、ジェネレータ１１が構造１を生成するのが非常に上手になり、ジェネレータ１１によって生成される全ての構造１が現実的及び／又は物理的及び／又は化学的に可能であるようになることである。換言すれば、ジェネレータ１１は、好ましくは、ディスクリミネータ１２を「欺く」ことを学習する。

【0113】

トレーニングが完了すると、好ましくは、ジェネレータ１１によって生成された構造１を、現実の構造１又は第１のトレーニングデータセット１０からの構造１から区別することができなくなる。

【0114】

ディスクリミネータ１２は、好ましくは、トレーニング（段階）のみに使用され、及び／又はトレーニング（段階）の後には使用されない。ディスクリミネータ１２は、好ましくは、適用段階及び／又は実際の構造解明では使用されず、及び／又は適用段階の前に（のみ）使用される。

【0115】

第１の機械学習モデル７は、好ましくは、１回のアルゴリズム反復で、特に１回のみ又は正確に１回のアルゴリズム反復で、分子式及び／又は実験式６から構造（複数可）１を生成する。

【0116】

第１の機械学習モデル７及び／又はジェネレータ１１は、好ましくは、完全連結層を有する及び／又は使用する。

【0117】

第１の機械学習モデル７、特にジェネレータ１１は、好ましくは、完全連結入力グラフを使用するか又は有する。第１の機械学習モデル７によって生成される又は生成されるべき構造１は、好ましくは、グラフ、特に完全連結グラフによって表される。

【0118】

好ましくは、第１の機械学習モデル７、特にジェネレータ１１は、所与の又は同一の分子式及び／又は実験式６から複数の及び／又は異なる構造１を生成するように生成及び／又はトレーニングされる。これは、特に、ランダム変数及び／又はランダムノイズ発生器を使用することによって行われる。換言すれば、第１の機械学習モデル７、特にジェネレータ１１は、好ましくは、ランダムノイズ発生器及び／又はランダム変数を用いて構造１を生成するように生成及び／又はトレーニングされる。これにより、生成される構造１の多様性を確保することができる。

【0119】

好ましくは、構造１の原子又は核はグラフのノードによって表され、原子又は核間の接合又は化学結合はグラフのエッジによって表される。

【0120】

グラフの各ノード又は生成される構造１の各核に、特徴ベクトルが割り当てられることが好ましい。

【0121】

特徴ベクトルは、好ましくは、それぞれのノードによって表される原子又は核を特定するデータを備える。好ましくは、このデータは、それぞれのノードによって表される原子又は核の元素記号（例えば、酸素はＯ、炭素はＣ、窒素はＮ等）及び／又は原子番号（例えば、酸素は８、炭素は６、窒素は７等）である。原子番号は特に、原子核又は原子に含まれる陽子の数である。言い換えれば、特徴ベクトルの１つの要素が、それぞれのノードによって表される元素記号及び／又は原子番号を含むことが好ましい。しかしながら、それぞれのノードによって表される原子又は原子核を特定するための他の適切なデータを使用することもできる。

【0122】

好ましくは、特徴ベクトルは、特に、それぞれのノードによって表される原子又は核を特定するデータに加えて、ランダム変数を備える。言い換えれば、特徴ベクトルの１つの要素がランダム変数を含むことが好ましい。これにより、好ましくはモデルのランダム性が保証される。

【0123】

特徴ベクトルのランダム変数は、好ましくは、ランダムノイズ発生器により、及び／又は確率分布、例えば一様確率分布又はガウス確率分布に従って生成される。

【0124】

従って、各ノードに特徴ベクトルが割り当てられ、各ノードは構造体１の１つの原子又は核を表し、特徴ベクトルは少なくとも又は正確に２つの要素を有し、１つの要素はそれぞれのノードによって表される原子又は核を特定するデータ、特にその原子番号及び／又は元素記号を含み、１つの要素はランダム変数を含むことが特に好ましい。

【0125】

しかしながら、特徴ベクトルは２よりも多い要素を有することもできる。特に、特徴ベクトルは、それぞれのノードによって表される原子又は核を特定するデータ及びランダム変数を含む要素に加えて、特に化学的な、ノード及び／又は分子に関する情報等の更なる特徴を備えることができる。

【0126】

例えば、ノード及び／又は分子に関する特に化学的な情報のような更なる特徴は、分子の和の式及び／又はそれぞれのノードによって表される原子又は核の可能な隣接物に関する情報、それぞれのノードによって表される原子又は核が一部を形成する環及び／又は特定の官能基のような化学構造に関する情報、好ましい結合のタイプ及び／又は好ましい結合パートナーに関する情報、原子価電子の数に関する情報等とすることができる。

【0127】

更なる情報は、好ましくは、特徴ベクトルの１又は２以上の要素によって表され、及び／又は特徴ベクトルの１又は２以上の要素に含まれる。

【0128】

以下の表は、分子式Ｃ₄Ｎ₂Ｏを有するジシアノケテン分子のグラフ表現、特に特徴ベクトルを例として示している。

【表1】

【0129】

特に、特徴ベクトルにおけるランダムノイズ発生器及び／又はランダム変数の使用は、モデルのランダム性を保証し、第１の機械学習モデル７及び／又は発生器１１が、１つの分子式及び／又は実験式６から、複数及び／又は異なる構造１を生成することを可能にする。更なる特徴、特に化学的な、ノード及び／又は分子に関する情報を提供することは、現実的な構造１の生成に役立ち、及び特に、構造１のトレーニング及び／又は生成をより迅速及び／又はより効率的及び／又はより信頼できるものにすることができる。

【0130】

特に、所与の分子式及び／又は実験式６から、機械学習モデル７又はジェネレータ１１を同じ分子式及び／又は実験式６に複数回適用することにより、第１の機械学習モデル７、特にジェネレータ１１によって、複数及び／又は異なる構造１が生成され、各インスタンスにおいて、異なるランダム変数、特に特徴ベクトルにおける異なるランダム変数が使用される。特に、特徴ベクトルにおける異なるランダム変数の使用は、好ましくは、分子式及び／又は実験式６が各インスタンスにおいて同じであっても、異なる生成構造１をもたらす。

【0131】

ランダムノイズ発生器及び／又はランダム変数の使用の代替として、モデルのランダム性は、他の方法で確保又は達成することもできる。

【0132】

例えば、特徴ベクトルにおいてランダム変数を使用する代わりに、それぞれのノードによって表される原子又は核を特定するデータを含む１つの要素のみを有する特徴ベクトルを使用し、ノード間のエッジ又は接続をランダム化することも可能である。従って、このようなアプローチでは、入力グラフは完全には連結されない。

【0133】

第２の機械学習モデル
別の好ましい態様によれば、独立して実施することもできるが、構造１から予測スペクトル８を生成することは、機械学習モデル、特に第２の機械学習モデル９によって行われる。

【0134】

第２の機械学習モデル９は、好ましくは人工ニューラルネットワーク、好ましくはグラフニューラルネットワーク、特にグラフアテンションネットワーク及び／又はＲｅｓＮｅｔとしても知られる残差ニューラルネットワークを有する及び／又は使用する。

【0135】

グラフアテンションネットワークは、特に、グラフアテンション層を有する人工ニューラルネットワークである。グラフアテンションネットワークは、特に、ベリコビッチらによる論文「Ｇｒａｐｈａｔｔｅｎｔｉｏｎｎｅｔｗｏｒｋｓ」（２０１８年）に記載されている。この論文は、ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１７１０．１０９０３で利用可能である。

【0136】

グラフアテンション層は、特に、アテンション係数

【数1】

が計算される層であり、ここでＷは、学習可能な重み行列であり、

【数2】

は、グラフアテンション層への入力であり、Ｎはノードの数、Ｆは各ノードの特徴の数である。アテンション係数

【数3】

は、好ましくは正規化され、特にソフトマックス関数を使用する。好ましくは正規化されたアテンション係数は、これらに対応する特徴の線形結合を計算するために使用され、グラフアテンション層のあらゆるノードの最終的な出力特徴として機能する。最も単純な形では、出力

【数4】

は次のように計算される。

【数5】

ここで、σは任意の非線形性であり、

【数6】

は学習可能な重み行列であり、

【数7】

は正規化されたアテンション係数であり、詳細には、

【数8】

である。グラフアテンション層に関する更なる数学的詳細は、ベリコビッチらによる上記引用論文「Ｇｒａｐｈａｔｔｅｎｔｉｏｎｎｅｔｗｏｒｋｓ」（２０１８）、特に、その２．１節に記載されている。

【0137】

残差ニューラルネットワーク又はＲｅｓＮｅｔｓは、特にＨｅらによる論文「Ｄｅｅｐｒｅｓｉｄｕａｌｌｅａｒｎｉｎｇｆｏｒｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎ」（２０１５年）に記載されている。この論文は、ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１５１２．０３３８５で入手可能であり、また、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），２０１６，ｐｐ．７７０－７７８にも掲載されている。

【0138】

残差ニューラルネットワークは、好ましくは、１又は２以上の残差ブロックを有する人工ニューラルネットワークである。残差ブロックは、２つの層を備えるブロックであり、ｘは、残差ブロック及び／又は残差ブロックの第１の層への入力であり、ｙは、残差ブロックの出力であり、Ｆ（ｘ）は、残差ブロックの第２の層の出力であり、残差ブロックの出力は、ｙ＝Ｆ（ｘ）＋ｘである。従って、残差ブロックは入力ｘ及び出力ｙ＝Ｆ（ｘ）＋ｘを有する。このように、残差ブロックは、入力ｘを出力Ｆ（ｘ）に加えることによって実現される。この概念を実装するための更なる数学的詳細は、Ｈｅらによる上記引用論文「Ｄｅｅｐｒｅｓｉｄｕａｌｌｅａｒｎｉｎｇｆｏｒｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎ」（２０１５）で説明されている。

【0139】

第２の機械学習モデル９は、好ましくは、スペクトルジェネレータ１３を有する。スペクトルジェネレータ１３は、好ましくは、人工ニューラルネットワーク、特にグラフニューラルネットワーク及び／又は残差ニューラルネットワークを有する又はこれらによって形成される。

【0140】

特に、第２の機械学習モデル９及び／又はスペクトルジェネレータ１３は、グラフアテンションネットワークと残差ニューラルネットワークとの組み合わせを有し及び／又は使用する。特に好ましくは、第２の機械学習モデル９、特にスペクトルジェネレータ１３は、残差ニューラルネットワークの頭部を有するグラフアテンションネットワークを有する及び／又は使用する。

【0141】

第２の機械学習モデル９及び／又はスペクトルジェネレータ１３は、好ましくは、トレーニングデータセット１４（以下、特に第２のトレーニングデータセット１４と称する）を有する及び／又はトレーニングデータセット１４でトレーニングされる。

【0142】

特に、第２の機械学習モデル９は、実際の構造解明のために第２の機械学習モデル９を使用する前にトレーニングされる。換言すれば、本発明による方法は、好ましくは、第２の機械学習モデル９のトレーニング又はトレーニング段階及び第２の機械学習モデル９の適用又は応用段階を含む。

【0143】

トレーニング段階において、第２の機械学習モデル９は、好ましくは、特に所定の構造１から出発して、予測スペクトル８がどのように生成されるかを学習する。トレーニング後、又はトレーニング段階が終了すると、第２の機械学習モデル９は、特にサンプル４の測定スペクトル３から未知の化合物２の構造１を解明するために、構造１から予測スペクトル８を生成するために使用される、又は使用することができる。

【0144】

アプリケーション又は応用段階は、好ましくは、トレーニング段階を終了した後の段階、言い換えれば、候補化合物の予測スペクトル８を生成するために第２の機械学習モデル９を使用する段階である。

【0145】

第２の機械学習モデル９は、好ましくは、スペクトルジェネレータ１３及び第２のトレーニングデータセット１４を備える及び／又はこれらによって形成される。スペクトルジェネレータ１３は、好ましくはアルゴリズム、特に機械学習アルゴリズムであるか又はこれを有する。

【0146】

スペクトル生成部１３は、好ましくは、スペクトル８又はスペクトル特徴５、特に化学シフトをワンショットで生成する。

【0147】

第２のトレーニングデータセット１４は、好ましくは、関連するスペクトル特徴５でラベル付けされた構造１を備える。

【0148】

スペクトル特徴５は、特に、測定スペクトル３及び／又は予測スペクトル８がＮＭＲスペクトルである場合、好ましくは化学シフトである。特に好ましくは、スペクトル特徴５は¹Ｈ及び／又は¹³Ｃ化学シフトである。従って、第２のトレーニングデータセット１４に含まれる所与の構造１の全ての¹Ｈ及び／又は¹³Ｃ原子又は核に、関連するスペクトル特徴５又は化学シフトがラベル付けされることが好ましい。

【0149】

第２の機械学習モデル９、特にスペクトルジェネレータ１３は、好ましくは、構造１から予測スペクトル８を生成し、及び／又は生成するようにトレーニングされる。特に、スペクトル８は、第１の機械学習モデル７によって生成された構造１から生成され、及び／又は第１の機械学習モデル７によって生成された構造１は、第２の機械学習モデル９、特にスペクトルジェネレータ１３の入力として使用される。

【0150】

特に、全ての構造１に対して、１つの、特に正確に又は１つだけの、予測スペクトル８が、第２の機械学習モデル９及び／又はスペクトルジェネレータ１３によって計算又は生成される。

【0151】

予測スペクトル８は、好ましくは、第２の機械学習モデル９の出力を構成する。これも図１に概略的に描かれている。

【0152】

第２の機械学習モデル９及び／又はスペクトルジェネレータ１３において、構造１は、好ましくは化学的情報、特に所与の構造１の各原子又は核に関する化学的情報を備える及び／又は化学的情報でラベル付けされる。化学的情報は、特に、原子又は核の化学状態に関する情報、すなわち、特に、原子又は核それ自体及び構造１の他の原子又は核を取り囲む及び／又は他の原子又は核との結合に関する情報である。この化学的情報により、構造体１の予測スペクトル８及び／又はスペクトル特徴５を予測又は生成することが可能となる。

【0153】

原子又は核に関する化学的情報は、好ましくは、以下の特徴の１又は２以上の情報を備える。
（ｉ）原子又は核の原子番号及び／又は原子又は核を特定するための他の適切なデータ；
（ｉｉ）原子価又は結合パートナーの数；
（ｉｉｉ）芳香族性、特に、原子又は核が芳香族構造の一部である場合の情報；
（ｉｖ）ｓ、ｓｐ、ｓｐ²、ｓｐ³、ｓｐ³ｄ又はｓｐ³ｄ²等の混成状態；
（ｖ）形式電荷；
（ｖｉ）既定の価数又は価電子数；
（ｖｉｉ）環、特に原子又は核が環のメンバーである場合の情報、及び／又は環のサイズに関する情報、例えば環を形成する原子又は核の数。

【0154】

構造１は、好ましくは、第２の機械学習モデル９及び／又はスペクトルジェネレータ１３においてグラフで表される。好ましくは、構造１の原子又は核は、グラフのノードによって表される。

【0155】

好ましくは、各ノード又は原子又は核に、特徴ベクトルが割り当てられる。特徴ベクトルは、好ましくは、ノードによって表される原子又は核の化学的情報を備える。

【0156】

特徴ベクトルは、好ましくは、１又は２以上の特徴を有するベクトルである。特に、特徴ベクトルは、上記の特徴（ｉ）～（ｖｉｉ）の１又は２以上、好ましくは全てを備える。

【0157】

特徴量は、好ましくはワンホットエンコード（one-hot encoded）される。これは、高い計算効率及び／又は予測スペクトル８の迅速な計算又は生成を助長する。

【0158】

第２の機械学習モデル９及び／又はスペクトルジェネレータ１３は、好ましくは、グラフアテンションネットワークを用いて予測スペクトル８を生成する。好ましくは、各所与の構造１に対して、第２の機械学習モデル９及び／又はスペクトル生成部１３は、構造１の予測スペクトル８及び／又は構造１の予測スペクトル８を計算するのに必要な情報を備えるノード埋め込みを生成する。

【0159】

従って、言い換えれば、予測スペクトル８は、好ましくは、ノード埋め込みによって表され、及び／又はノード埋め込みの形態で符号化される。ノード埋め込みは、特に、予測スペクトル８の抽象的な表現であり、及び／又は人間が読めるものではない。換言すれば、ノード埋め込みは、好ましくは、予測スペクトル８に関する全ての情報及び／又は予測スペクトル８を表示又は計算するのに必要な全ての情報を含むが、情報は、人間が直接理解、読み取り又は解釈できる形態ではノード埋め込みに含まれない。特に、ノード埋め込みにおいて、予測スペクトル８は、測定スペクトル３と同じようには含まれない又は表現されない。

【0160】

好ましくは、更なる機械学習アルゴリズム、特に残差ニューラルネットワークが、ノード埋め込みから予測スペクトル８を生成又は計算するために使用される。特に、更なる機械学習アルゴリズム又は残差ニューラルネットワークは、測定スペクトル３と同じ表現又はデータタイプで予測スペクトル８を出力する。

【0161】

例えば、測定スペクトル３がダイアグラム又はデータテーブルの形態で存在する場合、生成された予測スペクトル８、特に、更なる機械学習アルゴリズム又は残差ニューラルネットワークによって生成又は出力された予測スペクトル８も、それぞれ、ダイアグラム又はデータテーブルの形態で存在する。

【0162】

従って、第２の機械学習モデル９及び／又はスペクトルジェネレータ１３が、構造１から予測スペクトル８を生成するためのグラフアテンションネットワーク及び残差ニューラルネットワークを有する及び／又は使用することが特に好ましく、構造１から出発して、グラフアテンションネットワークによってノード埋め込みが生成され、ノード埋め込みは、好ましくは、予測スペクトル８の表現又は符号化であり、次いで、残差ニューラルネットワークによってノード埋め込みから予測スペクトル８が生成される。

【0163】

第２の機械学習モデル９又はスペクトルジェネレータ１３は、好ましくは、ジアステレオトピックプロトンの（異なる）スペクトル特徴５、特に化学シフトを予測することができる。

【0164】

特に、各スペクトル特徴５、特に予測スペクトル８の化学シフトについて、特に第２の機械学習モデル９及び／又はスペクトルジェネレータ１３によって、期待値又は平均値及び対応する分散の尺度、特に標準偏差が計算される。期待値又は平均値は、好ましくは、予測スペクトル８におけるスペクトル特徴５の位置である。例えば、期待値又は平均値は、化学シフトの位置、換言すれば、化学シフトの「ｐｐｍ値」である。

【0165】

特に、期待される平均値及び対応する分散の尺度の両方を計算するこの手順は、第２の機械学習モデル９が、ジアステレオトピックプロトンの（異なる）スペクトル特徴５、特に化学シフトを予測する能力につながることが判明した。すなわち、スペクトル特徴５又は化学シフトの平均値又は位置の予測は非常に正確であり、通常、対応する分散の尺度又は標準偏差はゼロであることが判明した。しかしながら、ジアステレオトピックなプロトンの場合、計算された標準偏差はゼロより大きくなる。

【0166】

ジアステレオトピックプロトンのスペクトル特徴５又は化学シフトは、好ましくは、期待値又は平均値に対応する分散の尺度又は標準偏差を加算及び減算することによって計算される。好ましくは、ジアステレオトピックプロトンの一方のスペクトル特徴５又は化学シフトは、期待値又は平均値と対応する分散の尺度との和であり、ジアステレオトピックプロトンの他方のスペクトル特徴５又は化学シフトは、期待値又は平均値と対応する分散の尺度との差である。

【0167】

例えば、２つのジアステレオトピックプロトンの期待値又は平均値が４．４２ｐｐｍであり、対応する分散の尺度又は標準偏差が０．１８ｐｐｍである場合、ジアステレオトピックプロトンの一方のスペクトル特徴５又は化学シフトは４．６０ｐｐｍ（＝４．４２ｐｐｍ＋０．１８ｐｐｍ）と計算され、第２のジアステレオトピックプロトンの計算された位置は４．２４ｐｐｍ（＝４．４２ｐｐｍ－０．１８ｐｐｍ）である。

【0168】

本発明の特徴における個々の態様は、互いに独立して実施することができるが、任意の所望の組み合わせ及び／又は順序で実施することもできる。

【符号の説明】

【0169】

１構造
２未知化合物
３測定スペクトル
４サンプル
５スペクトルの特徴
６分子式及び／又は実験式
７（第１の）機械学習モデル
８予測スペクトル
９（第２の）機械学習モデル
１０（第１の）トレーニングデータセット
１１ジェネレータ
１２ディスクリミネータ
１３スペクトルジェネレータ
１４（第２の）トレーニングデータセット

【図1】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版