(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-12-26
(54)【発明の名称】トポロジー・ドリブンによる化学データの完成化
(51)【国際特許分類】
C40B 40/14 20060101AFI20231219BHJP
C08G 85/00 20060101ALI20231219BHJP
【FI】
C40B40/14
C08G85/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023524956
(86)(22)【出願日】2021-11-11
(85)【翻訳文提出日】2023-04-24
(86)【国際出願番号】 CN2021129960
(87)【国際公開番号】W WO2022105662
(87)【国際公開日】2022-05-27
(32)【優先日】2020-11-23
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【氏名又は名称】片岡 忠彦
(74)【復代理人】
【識別番号】100091568
【氏名又は名称】市位 嘉宏
(72)【発明者】
【氏名】ズバレフ、ドミトリー
(72)【発明者】
【氏名】リストスキ、ペタル
【テーマコード(参考)】
4J031
【Fターム(参考)】
4J031CA02
4J031CA03
4J031CE10
4J031CG48
(57)【要約】
プロセッサは、複数の分子に対する分子データを受信する。プロセッサは、分子データに対するトポロジー・データ分析を行って、分子トポロジー・マップを生成する。プロセッサは、分子トポロジー・マップにおける1つ以上の欠落を識別する。プロセッサは、1つ以上の欠落のうちの少なくとも1つを埋めるように1つ以上の追加の分子を生成する。
【特許請求の範囲】
【請求項1】
新たな分子を生成するための方法であって、前記方法が、
複数の分子に対する分子データを受信することと、
前記分子データに対してトポロジー・データ分析を行って分子トポロジー・マップを生成することと、
前記分子トポロジー・マップにおける1つ以上の欠落を識別することと、
前記1つ以上の欠落のうちの少なくとも1つを埋めるように1つ以上の追加の分子を生成することと
を含む、方法。
【請求項2】
前記複数の分子が1つ以上の共通の分子特性を有する、請求項1に記載の方法。
【請求項3】
前記複数の分子の各々に対する分子骨格を生成することをさらに含む、請求項1に記載の方法。
【請求項4】
各骨格に対する生成可能性スコアを生成することをさらに含む、請求項3に記載の方法。
【請求項5】
前記複数の分子が分子骨格を共有し、前記1つ以上の追加の分子が前記分子骨格を含有する、請求項1に記載の方法。
【請求項6】
前記1つ以上の追加の分子が変分オートエンコーダを用いて生成される、請求項1に記載の方法。
【請求項7】
骨格調整を介して、前記1つ以上の追加の分子が特定の分子骨格を含有するように前記変分オートエンコーダを調整することをさらに含む、請求項6に記載の方法。
【請求項8】
前記変分オートエンコーダが変分オートエンコーダ損失関数を有し、前記方法が、
前記特定の分子骨格の生成可能性を含むように前記変分オートエンコーダ損失関数を修正することをさらに含む、請求項7に記載の方法。
【請求項9】
新たな分子を生成するシステムであって、前記システムが、
メモリと、
前記メモリと通信するプロセッサとを含み、前記プロセッサが、
複数の分子に対する分子データを受信することと、
前記分子データに対してトポロジー・データ分析を行って分子トポロジー・マップを生成することと、
前記分子トポロジー・マップにおける1つ以上の欠落を識別することと、
前記1つ以上の欠落のうちの少なくとも1つを埋めるように1つ以上の追加の分子を生成することと
を含む動作を行うように構成される、システム。
【請求項10】
前記複数の分子の各々に対する分子骨格を生成することをさらに含む、請求項9に記載のシステム。
【請求項11】
各骨格に対する生成可能性スコアを生成することをさらに含む、請求項10に記載のシステム。
【請求項12】
前記複数の分子が分子骨格を共有し、前記1つ以上の追加の分子が前記分子骨格を含有する、請求項9に記載のシステム。
【請求項13】
前記1つ以上の追加の分子が変分オートエンコーダを用いて生成される、請求項9に記載のシステム。
【請求項14】
骨格調整を介して、前記1つ以上の追加の分子が特定の分子骨格を含有するように前記変分オートエンコーダを調整することをさらに含む、請求項13に記載のシステム。
【請求項15】
前記変分オートエンコーダが変分オートエンコーダ損失関数を有し、前記動作が、
前記特定の分子骨格の生成可能性を含むように前記変分オートエンコーダ損失関数を修正することをさらに含む、請求項14に記載のシステム。
【請求項16】
新たな分子を生成するためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品が、具現化されるプログラム命令を有するコンピュータ可読記憶媒体を含み、前記プログラム命令がプロセッサによって実行可能であることによって前記プロセッサに機能を実行させ、前記機能が、
複数の分子に対する分子データを受信することと、
前記分子データに対してトポロジー・データ分析を行って分子トポロジー・マップを生成することと、
前記分子トポロジー・マップにおける1つ以上の欠落を識別することと、
前記1つ以上の欠落のうちの少なくとも1つを埋めるように1つ以上の追加の分子を生成することと
を含む、コンピュータ・プログラム製品。
【請求項17】
前記複数の分子の各々に対する分子骨格を生成することと、
各骨格に対する生成可能性スコアを生成することと
をさらに含む、請求項16に記載のコンピュータ・プログラム製品。
【請求項18】
前記複数の分子が分子骨格を共有し、前記1つ以上の追加の分子が前記分子骨格を含有する、請求項16に記載のコンピュータ・プログラム製品。
【請求項19】
前記1つ以上の追加の分子が変分オートエンコーダを用いて生成され、
骨格調整を介して、前記1つ以上の追加の分子が特定の分子骨格を含有するように前記変分オートエンコーダを調整することをさらに含む、請求項16に記載のコンピュータ・プログラム製品。
【請求項20】
前記変分オートエンコーダが変分オートエンコーダ損失関数を有し、前記機能が、
前記特定の分子骨格の生成可能性を含むように前記変分オートエンコーダ損失関数を修正することをさらに含む、請求項19に記載のコンピュータ・プログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は一般的に材料科学の分野に関し、より具体的にはポリマーの設計、発見、および合成に関する。
【背景技術】
【0002】
分子の発見、設計、合成、およびテストは、しばしばかなりの時間を要する。さまざまな計算ツールを通じて、このプロセスが加速されることがある。こうしたツールは莫大な数の生成された分子候補を生じることがあり、生成された分子候補は所望の属性を有さないことがよくある。その結果、所望の属性を有する材料のファミリーを適切に探索することができず、実現不可能であるか、または実現可能だが目標要件を満たさない候補をテストするために多くの時間、資金、およびエネルギが無駄に費やされる。
【発明の概要】
【0003】
本開示の実施形態は、新たな分子を生成するためのシステム、方法、およびコンピュータ・プログラム製品を含む。
【0004】
いくつかの実施形態において、プロセッサは複数の分子に対する分子データを受信し得る。プロセッサは、分子データに対するトポロジー・データ分析を行って、分子トポロジー・マップを生成し得る。プロセッサは、分子トポロジー・マップにおける1つ以上の欠落を識別し得る。プロセッサは、欠落のうちの少なくとも1つを埋めるように1つ以上の追加の分子を生成し得る。
【0005】
本開示のいくつかの実施形態において、複数の分子は1つ以上の共通の分子特性を有する。
【0006】
本開示のいくつかの実施形態において、複数の分子の各々に対して分子骨格(scaffold)が生成され得る。いくつかの実施形態において、各骨格に対して生成可能性スコアが生成され得る。
【0007】
本開示のいくつかの実施形態において、複数の分子が分子骨格を共有してもよく、1つ以上の追加の分子がその分子骨格を含有してもよい。
【0008】
本開示のいくつかの実施形態において、1つ以上の追加の分子は、変分オートエンコーダを用いて生成される。いくつかの実施形態において、変分オートエンコーダは、1つ以上の追加の分子が特定の分子骨格を含有するように、骨格調整により調整され得る。いくつかの実施形態において、変分オートエンコーダは、変分オートエンコーダ損失関数を有し、変分オートエンコーダ損失関数は、特定の分子骨格の生成可能性を含むように修正される。
【0009】
上記の概要は、本開示の各々の例示される実施形態またはすべての実装を説明することを意図するものではない。
【0010】
本開示に含まれる図面は、本明細書に組み込まれてその一部を形成する。これらの図面は本開示の実施形態を例示し、記載と共に本開示の原理を説明する働きをする。図面は単に特定の実施形態を例示するものであり、本開示を限定するものではない。
【図面の簡単な説明】
【0011】
【
図1】本開示の実施形態による新たな分子生成のパイプラインを示す図である。
【
図2A】本開示の実施形態による識別子を生成することを示す図である。
【
図2B】本開示の実施形態による識別子を用いてビット・ベクトルを生成することを示す図である。
【
図3】本開示の実施形態によるトポロジー・データ分析を示す図である。
【
図4】本開示の実施形態による分子候補を生成することを示す図である。
【
図5】本開示の実施形態による骨格分析分子生成を示す図である。
【
図6】本開示の実施形態による分子生成パイプラインを示す図である。
【
図7】本開示の実施形態による分子生成パイプラインを示す図である。
【
図8】本開示の実施形態によるクラウド・コンピューティング環境を示す図である。
【
図9】本開示の実施形態による抽象化モデル・レイヤを示す図である。
【
図10】本開示の実施形態による、本明細書に記載される方法、ツール、およびモジュール、ならびに任意の関連機能のうちの1つ以上の実装において使用され得るコンピュータ・システムの例を示す高レベル・ブロック図である。
【発明を実施するための形態】
【0012】
本明細書に記載される実施形態はさまざまな修正および代替形に適しているが、図面においては例としてその特定のものが示されており、それが詳細に説明される。しかし、記載される特定の実施形態は限定的な意味で解釈されるべきではないことが理解されるべきである。反対に、その意図するところは、本開示の思想および範囲内にあるすべての修正、均等物、および代替物を包含することである。
【0013】
本開示の態様は一般的に材料科学の分野に関し、より具体的にはポリマー合成に関する。本明細書において一般的に説明され、図面に示されるここでのコンポーネントは、多様な異なる構成で配置および設計され得ることが容易に理解されるだろう。よって、添付の図面に表された方法、装置、非一時的コンピュータ可読媒体およびシステムのうちの少なくとも1つの実施形態の以下の詳細な説明は、請求される本出願の範囲を限定することは意図されておらず、単に選択された実施形態を表すものである。
【0014】
この明細書全体にわたって記載されるこれらの特性、構造、または特徴は、1つ以上の実施形態において任意の好適な方式で組み合わされたり、省かれたりしてもよい。たとえば、この明細書全体にわたって使用される「実施形態例」、「いくつかの実施形態」という語句、またはその他の類似の言語は、実施形態に関連して記載される特定の特性、構造、または特徴が少なくとも1つの実施形態に含まれてもよいという事実を示す。よって、この明細書全体にわたって出現する「実施形態例」、「いくつかの実施形態において」、「他の実施形態において」という語句、またはその他の類似の言語は、必ずしもすべてが同じグループの実施形態を示しておらず、記載される特性、構造、または特徴は、1つ以上の実施形態において任意の好適な方式で組み合わされたり、除去されたりしてもよい。さらに、図面におけるエレメント間の任意の接続は、たとえ示された接続が1方向または2方向の矢印であっても、1方向もしくは2方向またはその両方の通信を可能にし得る。加えて、図面に示される任意のデバイスは、異なるデバイスであり得る。たとえば、情報を送信するモバイル・デバイスが示されるとき、その情報を送信するために有線デバイスも用いられ得る。
【0015】
分子の発見は、しばしばかなりの時間を要する。たとえば、新たなポリマー材料を市場に導入するには、設計、合成、およびテストに10年より長い時間が必要なことがある。たとえば組み合わせスクリーニング、逆設計、生成モデリング、および強化学習などのツールを用いた分子のコンピュータによる設計を通じて、このプロセスを加速させることができる。こうしたツールは、しばしば10,000,000候補の規模の多数のコンピュータ生成候補を生じることがある。しかし、これらのツールを介して得られた分子候補は、たとえば合成の実現可能性、ロバストな重合、ならびに内部および外部の規制の順守などの所望の属性を有さないことがよくある。その結果、要件を満たさない候補をテストするために多くの時間、資金、およびエネルギが無駄に費やされる。
【0016】
コンピュータによる新たな分子候補の設計および生成を推進する履歴データは、不完全で偏りがある。こうした欠点によって、新規性を欠き、必要な属性を欠き、その他の望ましくない特徴を有する分子候補の増幅がもたらされることがある。さらに、これらの欠点は、材料の未探索ファミリーの識別の失敗、発見効率の低下、ならびにテストおよび実験の遂行のための不必要なコストの増加をもたらすことがある。
【0017】
材料分野、食品科学、保存科学、薬理学、または新たな分子の生成による利益を受ける任意のその他の分野において、実験の遂行は新たな分子の開発に重要である。分子発見の計算段階と実験段階との橋渡しをするデータ取得戦略は、履歴データの不足部分を明らかにし、誘導候補生成を用いて不足セグメントを完成(complete)させて、成功結果のパーセンテージを増加させることによって実験フェーズを強化できる。
【0018】
本開示は、初期データセットの不足部分を埋めて、以前見落とされていた分子でデータセットを完成させることによって、こうしたデータ取得を可能にする。グラフ(たとえばリーブ(Reeb)グラフなど)に基づくトポロジー・データ分析は、効率的な分子発見を妨げる、利用可能なデータ中の欠落を明らかにすることができる。本開示は、この欠落を使用してデータを完成させることができる。
【0019】
本開示は、実行可能な分子候補を見出すための出発点として、既知の分子情報を用い得る。本開示は、マップ上の未知の区域を探索して地形の詳細を発見し、その新たに発見された詳細でマップを埋めることとして説明できる。本開示は既知のもの(例えば、既知の世界のエッジ)を用いて、未知であることが知られたものへの探索を開始することによって、その未知のものに関する詳細を埋める。本開示は、庭師が庭の穴を塞ぐことに例えられてもよい。それは安定した足場から始まって穴の端縁が埋められ、穴が完全に塞がるまで続けられる。本開示は、衣服を当て布で補修することに例えられてもよい。当て布は頑丈であることが既知である材料に取り付けられ、穴の上に広げられ、他方の側で頑丈であることが既知であるさらなる材料に取り付けられる。本開示は、既知のものの境界上の既知の分子データを用いて、新たなデータを発見することができる。
【0020】
任意の化学データセットに対する候補を生成するために本開示を適用できることを当業者は認識するだろう。たとえば、医薬品、ポリマー材料、および未知の有機または無機分子の生成から利益を得ることがあるその他の分野などが、本開示の利益を受ける。ポリマー材料は、たとえば、環状ラクトンの開環重合の生成物(モノマーおよび触媒を含む)、ポリイミドブロックコポリマー、およびポリアクリル酸などを含む。簡潔さおよび明瞭さのために、本開示は、たとえば光酸発生剤(PAG:photoacid generator)分子などのフォトレジストの成分に考察の焦点を合わせる。PAG分子は、化学増幅リソグラフィ、薬、マイクロフルイディクス、および3次元(3D:three-dimensional)印刷等にたびたび用いられる。
【0021】
本開示は、重要でないかまたは望ましくない分子候補を回避するために、データのトポロジー特性によって知らされる制約を生成手順に与え、それによって、さまざまな要件を満たす可能性が高い分子に焦点を合わせることによって実験コストを低減することができる。トポロジー特性は、トポロジー・データ分析グラフによって示され得る。たとえば、リーブ・グラフにおけるループおよびフレア(Flares)は、続行する価値のある未知の分子候補の存在を示し得る。本開示は、新たな分子の生成、および実施の可能性が高いか、さもなければ非常に望ましい候補の促進化のための他のアプローチと適合可能である。たとえば、対象分野の専門家(SME:subject matter expert)にデータを見せ、SMEがデータを評価して、どのデータセットが望ましい結果を生じる可能性が最も高いかを決定することによりループに専門家を含める。
【0022】
本開示は、分子に割り当てられた属性を積極的に使用し得る。属性は多様であり、データセット中の位置、物理的特性、全米防火協会(NFPA:National Fire Protection Association)の危険有害性物質の識別またはその他の標識、およびその他の属性とすることができる。リーブ・グラフを構築するためにこれらの属性が用いられ得る。リーブ・グラフにおいて、(スカラー属性を含む)属性は、初期データ投影のためのフィルタ関数として用いられ得る。
【0023】
本開示は、類似の属性を有する既知の分子を用いて、同じまたは類似の属性を有する分子候補を生成し得る。本開示は、キッチン・アーティストが新たなレシピを開発することに例えられてもよい。チョコレート・チップ・クッキーのレシピを他のデザート(例、ピーナッツ・バター・クッキー、ケーキ、およびブラウニー)のレシピと組み合わせてお菓子を作ることがdえきるが、目標が新たなデザートを設計することであるとき、それをメイン・コースのレシピ(例、ステーキ、豆腐、セイタン、またはマカロニ)と組み合わせる可能性は低い(例、デザート・グループの「骨格」は砂糖、小麦粉、および塩であってもよく、結果として得られるデザートの選択肢の「官能基」は、たとえばバニラ、チョコレート、もしくはシナモン、またはその組み合わせなどの香味料であってもよい)。いくつかの実施形態において、発見プロセスを特定の骨格(例、所望の属性を有することが既知である骨格)に限定することによって、サーチ結果を最も実行可能性が高く望ましい分子候補に限定できる。
【0024】
条件特定的アプローチに対して分子候補を限定する(例えば、候補に特定の骨格を持たせることにより)ことによって、実行不可能な候補を顕著に減少させることができ、審査コストが大幅に減少され得る。以前のアプローチと本開示のアプローチとを比較すると、以前のアプローチは44,000の分子候補を生成したのに対し、本開示のアプローチは137の分子候補を生成し、実験フェーズの効率を大幅に増加させた。この例では、確立アプローチによって生成された44,000の候補は、何らかの意味のあるやり方でデータのトポロジーを変更できなかったのに対し、本開示によって発見された137の分子候補は、最も実行可能性が高い分子候補を解明するために、失敗および成功の内部診断を用いて、データセットに不足データを加えることによって、データのトポロジーを変更した。
【0025】
本開示はデータ・ドリブン・アプローチを使用するため、本開示において入力データセットは出力データを反映する。本開示は、1つのデータセットを用いて1セットの結果に対する1つのグラフを作成してもよいし、複数セットの(おそらく関連する)結果に対する複数のグラフに対して複数のデータセットを用いてもよいし、(例、ハイブリッド品質を有する分子候補を探究して)複数のデータセットを組み合わせて1セットの結果に対する1つのグラフにしてもよいし、その何らかの組み合わせを用いてもよい。
【0026】
初期データセットは、たとえばスルホニウムおよびヨードニウム・ファミリー由来の象徴的PAGのセットなどの分子のセットを含んでもよい。新たな分子は、所望の光化学的挙動、現在到達できないレベルの環境へのやさしさ、およびその他の追求される属性を示すと考えられるPAG様の候補であり得る。本開示は、信号対ノイズ比を改善するという点で制御モジュールの役割をする。
【0027】
図1は、本開示の実施形態による分子生成のパイプライン100を示す。本開示のいくつかの実施形態において、新たな分子を開発するために、データセット生成110と、トポロジー分析120と、骨格ベースのVAE生成130との3つの主要な動作が使用される。データセット生成110からのデータセット118が、トポロジー分析120のために提出されてもよい。次いで、トポロジー分析結果126が骨格ベースのVAE分子生成130のために用いられてもよい。
【0028】
データセット生成110はさまざまなやり方で行うことができる。データセット118は手動112、ブルート・フォース114の使用、もしくは人工知能(AI:artificial intelligence)116の使用、またはその組み合わせによってコンパイル117され得る。データセット118は、トポロジー分析120のために提供119され得る。
【0029】
トポロジー分析120は、データセット118を得て、カーネルを適用121して分子フィンガープリント122を生成することを含むことができる。分子フィンガープリント122は、トポロジー分析結果126を作成125するためのトポロジー・データ分析124のために提供され得る。トポロジー分析結果126は、たとえばトポロジー・グラフまたはリーブ・グラフなどのデータのコンパイルであり得る。
【0030】
トポロジー分析結果126は、骨格ベースの生成130操作の骨格分析132のために提供129され得る。骨格分析132は、分子データセット118内の分子について骨格134を生成131し得る。骨格134は、エンコーダ136に提供133され得る。エンコーダ136は、たとえば骨格調整変分オートエンコーダ(VAE:variational auto-encoder)などの骨格調整されるものであってもよい。エンコーダ136は新たな分子138を作成135する。さらなる学習およびさらなる新たな分子の追加のために、新たな分子138はトポロジー分析120に提供139されてもよい。
【0031】
図2Aおよび
図2Bの考察においてさらに説明されることとなるとおり、分子データセット118はトポロジー分析120のために提供119され得る。
【0032】
図2Aは本開示の実施形態による分子210から識別子230を生成することを示し、
図2Bは本開示の実施形態による識別子230からフィンガープリント250を生成することを示す。
図2Aおよび
図2Bは、
図1の動作121の例示と考えられてもよい。
【0033】
図2Aは、分子210から識別子230を生成することを示す。分子210から派生物220が導出され、この派生物220を用いて識別子230が生成され、この識別子230を用いてバイナリ表現240および最終的な分子フィンガープリント250(
図2B)が生成され得る。本開示に従って識別子230および分子フィンガープリント250を生成するための任意の方法が用いられてもよいことを当業者は認識するだろう。
【0034】
分子派生物220は、分子210から導出され得る。分子210は、導出されてさまざまな直径になる。フラグメントの直径は、フラグメントの中心からの結合の数を示す。0直径フラグメントは、0の結合を有するフラグメントを示す。言い換えると、0の直径を有するフラグメントは、フラグメントの中心原子のみを記述する。より大きいフラグメントは、0直径フラグメントから外向きに構築される。2の直径を有するフラグメントは、フラグメントの中心原子と、それに直接結合された原子とを含む。4の直径を有するフラグメントは、フラグメントの中心原子と、中心原子に直接結合された原子と、中心原子に直接結合された原子に結合された任意の原子とを含む。
【0035】
直径0の派生物222a、222b、222c、222d、および222eは、第1の派生物ブロック222に示される。直径2の派生物224a、224b、224c、224d、224e、および224fは、第2の派生物ブロック224に示される。直径4の派生物226a、226b、226c、226d、および226eは、第3の派生物ブロック226に示される。さまざまな直径222、224、および226の分子派生物220を生成することが有利な場合がある。
【0036】
分子派生物220は、識別子230を生成するために用いられ得る。直径0の派生物の識別子232a、232b、232c、232d、および232eは、第1の識別子ブロック232に示される。直径2の派生物の識別子234a、234b、234c、234d、234e、および234fは、第2の識別子ブロック234に示される。直径4の派生物の識別子236a、236b、236c、236d、および236eは、第3の識別子ブロック236に示される。
【0037】
図2Bは、識別子230を用いて、分子フィンガープリント250を生成するために用いられ得るビット・ベクトル240を生成するところを示す。識別子230はハッシュ239されて、固定長のバイナリ表現240を生じる。個々の識別子234cはハッシュ244cされて、固定長のバイナリ表現240の一部を生じる。次いで、固定長のバイナリ表現240を用いて分子フィンガープリント250を生成する。分子フィンガープリント250は、ビット・ベクトル・フィンガープリント250とも呼ばれることがある。
【0038】
分子フィンガープリント250は、構造モチーフの有無を示す。カーネルは分子の特性を抽出し、その分子特性をハッシュ239し、そのハッシュ(例、バイナリ表現240)を用いて分子フィンガープリント250のビットを決定し得る。いくつかの実施形態において、フィンガープリント、分子フィンガープリント250は1,000~4,000ビットの範囲のサイズである。分子フィンガープリント250は、
図1に示されるトポロジー・データ分析グラフ124を生成123するために用いられ得る。
【0039】
図3は、本開示の実施形態によるトポロジー・データ分析300を示す。
図3は、
図1に示されるトポロジー・データ分析グラフ124を用いてトポロジー・グラフ126を生成125することの例示と考えられてもよい。
【0040】
リーブ・グラフまたはその近似、たとえば隣接グラフ350などは、たとえばポイント・クラウド312などの3次元またはそれより高次元のモデルから得ることができる。トポロジー・データ分析に対してアルゴリズムが用いられてもよい。アルゴリズムは、マッパー(Mapper)アルゴリズムか、あるいはリーブ・グラフもしくはリーブ・グラフ近似またはその両方の構成に用いられる任意のその他の方法であってもよい。アルゴリズムは、リーブ・グラフ近似の構成と、データにおける引き戻しカバーとを組み合わせてもよい。
【0041】
データセット内の各分子は、ビット・ベクトルによって表され、分子トポロジー・フィンガープリントとして生成され得る。たとえば、PAGはモーガン・フィンガープリント(MorganFP:Morgan fingerprint)によって表されてもよい。分子データセットは、ペアワイズ距離を有するポイント・クラウド312として扱われてもよい。ペアワイズ距離は、任意の利用可能な化学情報学的アプローチを用いて定義され得る。マトリクス構成ポイント・クラウド312のさまざまなドットの各々は、分子フィンガープリントを表す。分子データセットは、ビット・ベクトルの空間310におけるポイント・クラウド312として扱われ得る。
【0042】
分子のセットにおけるペアワイズ距離を定義するために、ビット・ベクトルに対してダイス類似度が用いられ得る。トポロジー・データ分析におけるフィルタ関数として、基準点までの距離が用いられ得る。たとえば、基準点はデータセット内の最小数の重原子を有するPAGであってもよく、トポロジー・データ分析グラフにおけるデータのフィルタリングにおいて、そのPAGまでの距離が用いられてもよい。フィルタ関数f320は、ポイント・クラウド312の高さに関して、ポイント・クラウド312を水平に分割してもよい。ポイント・クラウド312を分割するための代替的な配置は本開示による使用に好適であり、それはたとえば、ポイント・クラウドを鉛直に分割すること、またはポイント・クラウド312を分割前に別様に再配向させることなどである。
【0043】
ポイント・クラウド312をさまざまな重複セグメント342a、344a、344b、346a、および348aに分割するために、重複範囲スプリッタ342、344、346、および348が用いられ得る。分子は、フィルタ関数f320の値に基づいてセグメント・セット340に割り当てられ得る。セグメント342a、344a、344b、346a、および348aはレベル342a、344a、344b、346a、および348aとも呼ばれることがあり、セグメント・セット340はレベル・セット340とも呼ばれることがある。
【0044】
アルゴリズムを用いて、グラフの形でデータの簡略化した記述を生成することができる。アルゴリズムは、単体的複体の形で高次元データセットの単純な記述を抽出するための計算方法(例、マッパー)であり得る。グラフは等式G=(C,E)によって記述することができ、ここでGはグラフであり、Cはノードとして表されるクラスタのセットであり、Eはすべてのエッジのセットである。グラフ中の各ノードは分子のクラスタCを表し、クラスタ間のエッジEはクラスタ間の重複を示す。リーブ・グラフの近似の選択に依存して、ノード間の接続を確立するその他の規則が使用されてもよい。
【0045】
アルゴリズムによって生成されたグラフ(例、マッパー・グラフ)は、データ形状のさまざまな態様を直接視覚化することができる。たとえば、データのグラフィカル形状にループ(穴と呼ばれることもある)およびフレア(分岐と呼ばれることもある)が見られることがある。データ中のループもしくはフレアまたはその両方は不足データを示し、新たな分子を探すべき場所を正確に示している。なぜなら、ループを埋め、フレアを閉じる新たな分子は望ましい分子と考えられるからである。
【0046】
接続および切断されたコンポーネントを識別するために、セグメント・セット340は、事前計算されたダイス距離に対する凝集クラスタリングを用いて、ばらばらのセットにクラスタ化され得る。クラスタ342a、344a、344b、346a、および348aは、たとえばマッパー・グラフ350などのグラフ350上のノード352a、354a、354b、356a、および358aとして表されてもよい。ノード352a、354a、354b、356a、および358aは、接続されるノードが共通のメンバを有するときにはリンクを介して互いに接続されてもよい。
【0047】
たとえば、第1のセグメント・クラスタ342aを第2のセグメント・クラスタ344aおよび344bから分割するために用いられる重複範囲スプリッタ342のために、第1のセグメント・クラスタ342aは、第2のセグメント・クラスタ344aおよび344bの両方のメンバと共通のメンバを有する。よって、これらのクラスタは分子フィンガープリントを共有するため、リンクは第1のセグメント・ノード352aを第2のセグメント・ノード354aおよび354bの各々と接続する。なお、2つの第2のセグメント・クラスタ344aおよび344bには重複がないため、第2のセグメント・クラスタ344aおよび344bは共通の分子フィンガープリントを共有しておらず、第2のセグメント・ノード354aおよび354bはリンクされない。
【0048】
分子データベースをこのやり方でマッピングすることによって、たとえばループおよびフレアなどのデータセットの形状の態様が厳密に捕捉される。フレアは分岐とも呼ばれることがある。ループおよびフレアは欠落を示す。欠落は、分子生成のために十分なデータにおける間隙または穴を示す。たとえばマッパー・グラフ350などのグラフは、
図1に示される新たな分子の骨格ベースの生成130のために提出129されてもよい。
【0049】
図4は、本開示の実施形態による分子候補の生成400を示す。骨格ベースの生成のためにトポロジー・データ分析グラフ410が提供されて、より完全なトポロジー・グラフ420を作成することができる。
【0050】
トポロジー・データ分析グラフ410は、ループ412ならびにフレア414および416を有することがある。ループ412ならびにフレア414および416は、このデータセットから新たな分子が導出され得ることを示し得る。トポロジー・グラフ410におけるループ412は、ノード間に1つ以上の追加の独自リンクを可能にし得る空間として説明されてもよい。トポロジー・グラフ410におけるフレア414および416は、分子ポイントがぶら下がっているように見えるトポロジー・グラフ410内の、ただ1つのリンク、解放されたエッジ、または空間を有するノードとして説明されてもよい。
【0051】
入力トポロジー・データ分析グラフ410を骨格ベースの分子生成130(
図1)に提供することによって、出力トポロジー・データ分析グラフ420を得ることができる。骨格ベースの分子生成130を行うことによって、追加の分子が加えられた。具体的には、骨格ベースの分子生成分子の追加によって、ループ412が狭められてより小さいループ422となり、フレア414および416は閉じられてループ424および426となった。出力トポロジー・データ分析グラフ420を、さらなる骨格ベースの分子生成130(
図1に示す)のために提供できる。なぜなら、それによってループ424および426がさらに狭められ、フレアが閉じられるかもしれないからである。
【0052】
トポロジー・データ分析グラフ410および420にノードを追加することは、データセットに分子を追加することを表す。言い換えると、追加されたノードは新たな分子を意味する。本開示を用いて導出または発見された新たな分子は、化学データセットの完成度を改善し、かつ非常に望ましい属性を有する分子の探求に関して続行する価値が比較的高いと考えられる。
【0053】
図5は、本開示の実施形態による骨格分析分子生成500を示す。分子骨格は、分子のコアを表してもよい。分子のコアは、官能基を有さない分子として説明されてもよい。骨格は、分子の形状に対する主要な制約とみなされてもよい。骨格は、分子の基本的な特性に対する主要な制約とみなされてもよい。
【0054】
骨格は、分子の階層的表現を可能にする。分子の表現における異なるレベルの抽象化を提供するために、骨格階層が構築され得る。骨格の分析は、定義および既存の階層ならびにそれらの実装を使用する。骨格分析に有用であり得る情報データベースの例は、化学情報ツールキットである。
【0055】
図5に示される骨格分析分子生成プロセス500において、分子510から官能基が除去518されて、分子510の骨格520が得られる。次いで、生成分子532、534、および536の取り合わせ530を生成528するための基礎として、骨格520が使用されてもよい。
【0056】
生成分子532、534、および536は、骨格520の生成を行った分子510のものと類似しているか、異なるか、それより多いか、またはより少ない官能基を有してもよい。生成分子532、534、および536に共通するのは、分子532、534、および536を生成528するために用いられた骨格520である。ある骨格から生成される分子は、同じ原子に付加された異なる官能基を有することがある。たとえば、2つの分子532および534は、骨格の同じ位置に付加された異なる官能基を有する。ある骨格から生成される分子は、1つ以上の異なる原子に付加された同じまたは異なる官能基を有することがある。たとえば、第1の生成分子532および第3の生成分子536は、各分子532および536の異なる原子に付加された官能基を有する。官能基は、結合を支持する、骨格内の任意の原子に結合されてもよい。
【0057】
骨格分析のために、無向グラフはG=(C,E)のように書くことができる。データセットS={s1,s2,…,sn}のすべての骨格が識別され得る。データセットの各骨格sは1つ以上のクラスタCs={c1,c2,…,cs}に出現することができ、骨格sは、その骨格sがあるクラスタCsの各々において識別され得る。クラスタは分析されてノードになってもよく、クラスタまたはノードのいずれかが分析に用いられ得る。クラスタcのサイクルwの長さlを算出することによって、ホップに関する各クラスタcに対する最短サイクル:wlcを識別する。最短サイクルが存在するとき、cに達するまでの第1のサーチの幅の第1の実行が、そのクラスタに対する最短サイクルを達成するだろう。各骨格に対する生成可能性gsが生成され得る。
【0058】
【0059】
生成可能性gsは、0~1の間で正規化される。高い生成可能性gsは、骨格が大きいサイクル長を有する小さいクラスタに出現することを示す。言い換えると、高い生成可能性gsは、骨格がトポグラフィー分析グラフにおけるより大きいループおよびフレアの一部であり、よって骨格ベースの生成を行ったときに新たな分子を生成する可能性が高いことを示す。
【0060】
VAE損失関数は、分子骨格の生成可能性gsを含むように修正され得る。標準的なVAE損失関数は、次のとおりに表現され得る。
【0061】
L=Lr+LKL
【0062】
分子グラフGおよび対応する骨格Sに対する単一のデータ・ポイント(G;S)に対する損失lは、次のとおりに表現され得る。
【0063】
【0064】
骨格生成可能性gsを損失関数lに組み入れて、以下が得られる。
【0065】
【0066】
ここでgsは入力骨格の生成可能性であり、gsnはグラフG=(C,E)における新たに生成された分子
【0067】
【0068】
の骨格の生成可能性であり、αはハイパーパラメータ[0,1]である。
【0069】
よって、標準的なVAE損失関数は修正された損失関数となってもよい。
【0070】
L=(1-gs)(Lr+LKM+α(gs-gsn))
【0071】
ここでgsは入力骨格の生成可能性であり、gsnはグラフG=(C,E)における新たに生成された分子
【0072】
【0073】
の骨格の生成可能性であり、αはハイパーパラメータ[0,1]であり、Lrは入力sと生成された骨格snとの再構成誤差であり、LKLは事前分布および近似事後分布の間のカルバック・ライブラー・ダイバージェンス(Kullback-Leibler divergence)である。
【0074】
修正された損失関数を用いることによって、モデルが低い生成可能性gsを有する分子を生成するときにモデルを不利にすることによって、低い生成可能性gsを有する骨格の影響を低減させることができる。新たに生成された分子の骨格の生成可能性gsnを算出するために、各反復の後に新たに生成された分子をグラフに含ませることができる。
【0075】
修正された損失関数を用いることによって、データセットにおける最も有望な骨格が識別され得る。グラフ(例、マッパー・グラフ)における大きいループに沿った小さいクラスタ内の骨格が優先されてもよい。なぜなら、こうした骨格は最大の生成可能性gsを有することがあるからである。グラフを用いて、たとえばダイクストラ(Dijkstra)アルゴリズムの任意の変形の使用などのさまざまなやり方で、ホップに関する最小ループを識別してもよい。サイクルの長さwlと等価である、ループの各エッジの長さの総和を算出してもよい。大きいサイクル長は、骨格がより大きなループの一部であることを示す。よって、1つ以上の望ましい候補の可能性が増加する。クラスタの各分子に対して、ベミス-マルコ(Bemis-Murko)骨格S={s1,s2,…,sn}が算出されてもよい。各骨格sに対して、生成可能性gsが算出されてもよい。生成可能性gsは、0~1の間で正規化されてもよい。高い生成可能性gsは、骨格が大きいサイクル長を有する小さいクラスタに出現し、よって新たな分子を生成する可能性が高いことを示す。
【0076】
グラフィカル・データのループを完成させるための新たな分子の生成には、グラフィカル・データのループを完成させるという目的に適合された骨格ベースの分子設計のためのグラフ生成モデルを使用してもよい。いくつかの実施形態において、生成モデリング・プロセスにおいてVAEが用いられてもよい。
【0077】
入力は、原子および結合を順次付加することによって延長されてもよい。このやり方で、分子生成を入力骨格上で調整して、すべての生成分子が入力骨格を含有することを確実にする。VAE損失関数は、骨格の生成可能性gsを考慮するように修正されてもよい。
【0078】
図6は、本開示の実施形態による分子生成パイプライン600を示す。分子データベース610は、分子、分子フラグメント、またはその何らかの組み合わせに対するデータ/情報612、614、および616を含むことができる。分子データベース610は、使用もしくは合成されたか、またはその両方であった基準分子情報を元々含むことができる。分子データベース610は、分子情報、分子フラグメント情報、またはその何らかの組み合わせから始まっていてもよい。分子データベース610は、合成分子、合成分子フラグメント、天然分子、分子フラグメント、またはその何らかの組み合わせに関する情報を含んでもよい。
【0079】
分子フラグメントは、経験則に従って、ランダムに、またはユーザ(例、SME)の決定に従ってフラグメント化されていてもよい。フラグメントは、ユーザが手動で選択および設定した制約に従って組み合わされてもよく、その制約は特に、たとえば組み合わせるフラグメントの数、フラグメント適合性、およびフラグメント接続性などである。ユーザはフラグメント組み合わせに対するアルゴリズム的制約を用いてもよい。たとえば、粒子群最適化および遺伝的アルゴリズム最適化などのメタヒューリスティクスが用いられてもよい。本開示のいくつかの実施形態において、設定された信頼性閾値に基づいてSME決定を複製するために、畳み込みニューラル・ネットワーク(CNN:convolutional neural network)が用いられてもよい。
【0080】
メイン分子データベース610に対する情報は、文献(例、テキストブックおよび化学テーブル)、対象分野の専門家、代替的ソース、またはその何らかの組み合わせによって提供されてもよい。いくつかの実施形態において、本開示が提供するシステムは、自身が作成する新たな分子を分析して、元の分子データベース610を補完するか、または新たに生成された分子の分子データからなる異なる分子データベース610を確立する。
【0081】
分子データ612、614、および616はエンコーダ620に提供618されて、分子フィンガープリント・データベース630に対する分子フィンガープリント・データ632、634、および636が生成628され得る。分子フィンガープリント・データベース630は、1つ以上の分子フィンガープリント632、634、および636を含んでもよい。分子フィンガープリント632、634、および636が骨格調整VAEジェネレータ640に提供638されることで、分子骨格652、654、および656からの分子候補652a、652b、654a、654b、656a、および656bの候補データベース650が作成され得る。
【0082】
分子骨格652、654、および656、ならびに新たな分子652a、652b、654a、654b、656a、および656bに対するデータは、新たに生成された分子のデータセット650とも呼ばれることがある候補データセット650に含まれ得る。新たな分子652a、652b、654a、654b、656a、および656bは、分子骨格652、654、および656から導出されてもよい。骨格652、654、および656、ならびに新たな分子652a、652b、654a、654b、656a、および656bに関する分子データは、メイン分子データベース610に直接提供608されてもよいし、分析のためにアナライザ660に提供658されてもよい。
【0083】
分子データセット610および650は、アナライザ660に提供658され得る。いくつかの実施形態において、アナライザ660は、分子データセット610に提供されようとするデータに関する情報を集めることができる。いくつかの実施形態において、アナライザ660は予め定められた分析閾値を有するシステムであってもよい。いくつかの実施形態において、アナライザ660はSMEであってもよい。アナライザ660は分子データセット610および650を分析し、その分析の結果を分子生成パイプライン600に提供するためにメイン分子データセット610に提出668してもよい。
【0084】
図7は、本開示の実施形態による分子生成パイプライン700を示す。円筒形710はコーパスを表し、ペイン分割された矩形712、714、722、724、732、および734はプロセス、方法、または機能を表し、底部が波形の矩形720、730、および750は目的または結果を表す。
【0085】
分子データセット710によって、分子生成パイプライン700はデータセット710に対するトポロジー・グラフ720および骨格730を生成することで、新たな分子750を生成し得る。新たな分子750に関するデータは、分子データセット710に取り込まれてもよい。新たな分子750の各ラウンドから、データの新たな各セットを分子データセット710に加えることによって、おそらくすべての欠落が識別722されて埋められるまでシステム700を繰り返すことによって、追加の実行可能な候補がそのデータセットから生成される可能性がほぼなくなるところまで、特定の分子データセット710を完成させることができる。
【0086】
本開示のいくつかの実施形態において、新たな分子の生成は、1つ以上の分子データセット710を分子生成システム700に提出することによって開始され得る。システム700は分子を分子フィンガープリントに変換712して、その分子フィンガープリントに対するトポロジー・データ分析714を行うことができる。トポロジー・データ分析714は、分子トポロジー・グラフ720を作成し得る。
【0087】
分子トポロジー・グラフ720は、トポロジー・グラフ中の欠落を識別722するように分析され得る。欠落を識別722することによって、その欠落を埋めるための骨格を算出724し得る。識別された欠落722に対する骨格を算出724した結果として、分子データセット710に対する骨格のセット730が得られる。
【0088】
データセット・骨格730は、骨格のセット730の各骨格に対する生成可能性スコアを算出732するために用いられ得る。生成可能性スコア732によって、骨格調整VAEをトレーニング734することができる。生成可能性スコア732によってトレーニングされた骨格調整VAE734を用いて、1つ以上の新たな分子750が生成され得る。分子データセット710に新たな分子750が追加され得る。分子トポロジー・グラフ720中のすべての欠落が識別722されて、データセットに対する新たな分子750の生成が完了するまで、このプロセスが繰り返され得る。
【0089】
本開示のいくつかの実施形態は、クラウド・コンピューティングを使用してもよい。よって、本開示の態様はクラウド・コンピューティングに関するものであってもよい。クラウド・コンピューティングは、最小限の管理努力またはサービスのプロバイダとの対話によって迅速にプロビジョニングおよびリリースされ得る構成可能なコンピューティング・リソース(例、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス)の共有プールへの便利なオンデマンド・ネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは少なくとも5つの特性と、少なくとも3つのサービス・モデルと、少なくとも4つの展開モデルとを含んでもよい。
【0090】
特性は次のとおりである。
【0091】
オンデマンド・セルフサービス。クラウド消費者は、たとえばサーバ時間およびネットワーク・ストレージなどのコンピューティング機能を、必要に応じて自動的に、サービスのプロバイダとの人的対話を必要とせずに一方的にプロビジョニングできる。
【0092】
広範なネットワーク・アクセス。機能はネットワークを通じて利用可能であり、さまざまなシンまたはシック・クライアント・プラットフォーム(例、携帯電話、ラップトップ、およびPDA)による使用を促進する標準的な機構を通じてアクセスされる。
【0093】
リソース・プール。マルチテナント・モデルを用いて複数の消費者にサービスするために、プロバイダのコンピューティング・リソースはプールされ、要求に従って異なる物理および仮想リソースが動的に割り当ておよび再割り当てされる。消費者は一般的に、提供されるリソースの正確な部分に対する制御も知識も有さないが、より高い抽象化レベルにおける部分(例、国、州、またはデータセンタ)を特定できてもよいという点で、部分独立性の意味が存在する。
【0094】
迅速な弾力性。機能は、素早くスケール・アウトするために場合によっては自動的に、迅速かつ弾力的にプロビジョニングされ、かつ素早くスケール・インするために迅速にリリースされ得る。消費者にとって、プロビジョニングのために利用可能な機能はしばしば無制限にみえ、任意のときに任意の量を購入できる。
【0095】
従量制サービス。クラウド・システムは、サービスのタイプ(例、ストレージ、処理、帯域幅、およびアクティブ・ユーザ・アカウント)に対して適切な何らかの抽象化レベルにおいて計測機能を利用することによって、リソースの使用を自動的に制御および最適化する。リソースの使用をモニタ、制御、および報告して、使用されるサービスのプロバイダおよび消費者の両方に対する透明性を提供できる。
【0096】
サービス・モデルは次のとおりである。
【0097】
サービスとしてのソフトウェア(SaaS:Software as a Service)。消費者に提供される機能は、クラウド・インフラストラクチャにおいて動作するプロバイダのアプリケーションの使用である。アプリケーションは、さまざまなクライアント・デバイスからたとえばウェブ・ブラウザ(例、ウェブ・ベースのeメール)などのシン・クライアント・インターフェースを通じてアクセス可能である。消費者はネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション機能さえも含む基礎的なクラウド・インフラストラクチャを管理または制御することはなく、例外となり得るのは限られたユーザ特有のアプリケーション構成設定である。
【0098】
サービスとしてのプラットフォーム(PaaS:Platform as a Service)。消費者に提供される機能は、プロバイダによってサポートされるプログラミング言語およびツールを用いて作成された、消費者が作成または取得したアプリケーションのクラウド・インフラストラクチャへの展開である。消費者はネットワーク、サーバ、オペレーティング・システム、またはストレージを含む基礎的なクラウド・インフラストラクチャを管理または制御することはないが、消費者は展開されたアプリケーションおよびおそらくはアプリケーション・ホスティング環境構成に対する制御を有する。
【0099】
サービスとしてのインフラストラクチャ(IaaS:Infrastructure as a Service)。消費者に提供される機能は、オペレーティング・システムおよびアプリケーションを含み得る、消費者が任意のソフトウェアを展開および実行することが可能な処理、ストレージ、ネットワーク、およびその他の基本的なコンピューティング・リソースのプロビジョニングである。消費者は基礎的なクラウド・インフラストラクチャを管理または制御することはないが、オペレーティング・システム、ストレージ、展開されたアプリケーションに対する制御を有し、かつ消費者はおそらくはネットワーク形成コンポーネント(例、ホスト・ファイアウォール)の選択に対する限られた制御を有する。
【0100】
展開モデルは次のとおりである。
【0101】
プライベート・クラウド。このクラウド・インフラストラクチャは、ある組織に対してのみ操作される。これはその組織またはサード・パーティによって管理されてもよく、オンプレミスまたはオフプレミスに存在してもよい。
【0102】
コミュニティ・クラウド。このクラウド・インフラストラクチャは複数の組織によって共有され、共通する関心事項(例、任務、セキュリティ要件、ポリシー、もしくはコンプライアンスの検討、またはその組み合わせ)を有する特定のコミュニティをサポートする。これはそれらの組織またはサード・パーティによって管理されてもよく、オンプレミスまたはオフプレミスに存在してもよい。
【0103】
パブリック・クラウド。このクラウド・インフラストラクチャは、一般人または大規模な産業グループに対して利用可能にされ、クラウド・サービスを販売する組織が所有している。
【0104】
ハイブリッド・クラウド。このクラウド・インフラストラクチャは2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)の複合体であり、それらのクラウドは独自のエンティティに留まるが、データおよびアプリケーション・ポータビリティを可能にする標準または独自の技術(例、クラウド間のロード・バランシングのためのクラウド・バースティング)によって共に結合される。
【0105】
クラウド・コンピューティング環境はサービス指向型であり、ステートレス性、低結合性、モジュラリティ、およびセマンティックな相互運用性に焦点を合わせている。クラウド・コンピューティングの中心には、相互接続されたノードのネットワークを含むインフラストラクチャがある。
【0106】
図8は、本開示の実施形態によるクラウド・コンピューティング環境810を示す。示されるとおり、クラウド・コンピューティング環境810は1つ以上のクラウド・コンピューティング・ノード800を含み、たとえばパーソナル・デジタル・アシスタント(PDA:personal digital assistant)もしくは携帯電話800A、デスクトップ・コンピュータ800B、ラップトップ・コンピュータ800C、または自動車のコンピュータ・システム800N、あるいはその組み合わせなどの、クラウド消費者によって用いられるローカル・コンピュータ・デバイスが、このクラウド・コンピューティング・ノード800によって通信してもよい。ノード800は互いに通信してもよい。これらのノードは、たとえば上述したプライベート、コミュニティ、パブリック、もしくはハイブリッド・クラウド、またはその組み合わせなどの1つ以上のネットワークにおいて、物理的または仮想的にグループ化(図示せず)されてもよい。
【0107】
このことは、クラウド・コンピューティング環境810がインフラストラクチャ、プラットフォーム、もしくはソフトウェア、またはその組み合わせを、クラウド消費者がそれに対するリソースをローカル・コンピュータ・デバイスにおいて維持する必要のないサービスとして提供することを可能にする。
図8に示されるコンピュータ・デバイス800A~Nのタイプは単なる例示であることが意図されており、コンピューティング・ノード800およびクラウド・コンピューティング環境810は、任意のタイプのネットワークもしくはネットワーク・アドレス可能接続(例、ウェブ・ブラウザを使用するもの)またはその両方を通じて、任意のタイプのコンピュータ・デバイスと通信できることが理解される。
【0108】
図9は、本開示の実施形態によるクラウド・コンピューティング環境810(
図8)によって提供される抽象化モデル・レイヤ900を示す。
図9に示されるコンポーネント、レイヤ、および機能は単なる例示であることが意図されており、本開示の実施形態はそれらに限定されないことが予め理解されるべきである。以下に示されるとおり、次のレイヤおよび対応する機能が提供される。
【0109】
ハードウェアおよびソフトウェア・レイヤ915は、ハードウェアおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例は、メインフレーム902、RISC(縮小命令セット・コンピュータ(Reduced Instruction Set Computer))アーキテクチャ・ベースのサーバ904、サーバ906、ブレード・サーバ908、ストレージ・デバイス911、ならびにネットワークおよびネットワーク形成コンポーネント912を含む。いくつかの実施形態において、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア914およびデータベース・ソフトウェア916を含む。
【0110】
仮想化レイヤ920は抽象化レイヤを提供し、この抽象化レイヤから仮想エンティティの以下の例が提供されてもよい。仮想サーバ922、仮想ストレージ924、仮想プライベート・ネットワークを含む仮想ネットワーク926、仮想アプリケーションおよびオペレーティング・システム928、ならびに仮想クライアント930。
【0111】
一例において、管理レイヤ940は以下に記載される機能を提供してもよい。リソース・プロビジョニング942は、クラウド・コンピューティング環境内でタスクを行うために使用されるコンピューティング・リソースおよびその他のリソースの動的調達を提供する。計測および価格決定944は、クラウド・コンピューティング環境内でリソースが使用される際のコスト追跡と、これらのリソースの消費に対する課金またはインボイス作成を提供する。一例において、これらのリソースはアプリケーション・ソフトウェア・ライセンスを含んでもよい。セキュリティは、クラウド消費者およびタスクに対するアイデンティティ検証、ならびにデータおよびその他のリソースの保護を提供する。ユーザ・ポータル946は、消費者およびシステム管理者に対するクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理948は、要求されるサービス・レベルが満たされるようにクラウド・コンピューティング・リソースの割り当ておよび管理を提供する。サービス・レベル・アグリーメント(SLA:Service level agreement)計画および実現950は、SLAによって将来の要求が予測されるクラウド・コンピューティング・リソースに対する事前の取り決めおよびその調達を提供する。
【0112】
ワークロード・レイヤ960は、クラウド・コンピューティング環境が使用され得る機能の例を提供する。このレイヤから提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション962、ソフトウェア開発およびライフサイクル管理964、仮想教室の教育配信966、データ分析処理968、トランザクション処理970、および新たな分子を生成するためのツール972を含む。
【0113】
図10は、本開示の実施形態による、(例、コンピュータの1つ以上のプロセッサ回路またはコンピュータ・プロセッサを用いた)本明細書に記載される方法、ツール、およびモジュール、ならびに任意の関連機能のうちの1つ以上の実装において使用され得るコンピュータ・システム例1001の高レベル・ブロック図を示す。いくつかの実施形態において、コンピュータ・システム1001の主要コンポーネントは、1つ以上の中央処理ユニット(CPU:central processing units)1002A、1002B、1002C、および1002Dを有するプロセッサ1002と、メモリ・サブシステム1004と、端末インターフェース1012と、ストレージ・インターフェース1016と、I/O(入力/出力(Input/Output))デバイス・インターフェース1014と、ネットワーク・インターフェース1018とを含んでもよく、これらすべてがメモリ・バス1003、I/Oバス1008、およびI/Oバス・インターフェース・ユニット1010を介したコンポーネント間通信のために、直接的または間接的に通信的に結合されてもよい。
【0114】
コンピュータ・システム1001は、本明細書においてCPU1002と総称される1つ以上の汎用目的プログラマブルCPU1002A、1002B、1002C、および1002Dを含んでもよい。いくつかの実施形態において、コンピュータ・システム1001は比較的大きなシステムに典型的な複数のプロセッサを含んでもよい。しかし、他の実施形態において、コンピュータ・システム1001は代替的に単一CPUシステムであってもよい。各CPU1002は、メモリ・サブシステム1004に記憶された命令を実行してもよく、かつ1つ以上のレベルのオンボード・キャッシュを含んでもよい。
【0115】
システム・メモリ1004は、たとえばランダム・アクセス・メモリ(RAM:random access memory)1022またはキャッシュ・メモリ1024などの揮発性メモリの形のコンピュータ・システム可読媒体を含んでもよい。コンピュータ・システム1001はさらに、その他の取り外し可能/取り外し不可能な、揮発性/不揮発性コンピュータ・システム記憶媒体を含んでもよい。単なる例として、たとえば「ハード・ドライブ」などの取り外し不可能な不揮発性磁気媒体からの読取りおよびそこへの書込みのために、ストレージ・システム1036が提供され得る。示されていないが、取り外し可能な不揮発性磁気ディスク(例、「フレキシブル・ディスク」)からの読取りおよびそこへの書込みのための磁気ディスク・ドライブ、あるいはたとえばCD-ROM、DVD-ROM、またはその他の光媒体などの取り外し可能な不揮発性光ディスクからの読取りまたはそこへの書込みのための光ディスク・ドライブが提供され得る。加えて、メモリ1004はたとえばフラッシュ・メモリ・スティック・ドライブまたはフラッシュ・ドライブなどのフラッシュ・メモリを含み得る。メモリ・デバイスは、1つ以上のデータ媒体インターフェースによってメモリ・バス1003に接続され得る。メモリ1004は、さまざまな実施形態の機能を実行するように構成されたプログラム・モジュールのセット(例、少なくとも1つ)を有する少なくとも1つのプログラム製品を含んでもよい。
【0116】
メモリ1004には、各々が少なくとも1セットのプログラム・モジュール1030を有する1つ以上のプログラム/ユーティリティ1028が記憶されていてもよい。プログラム/ユーティリティ1028は、ハイパーバイザ(仮想マシン・モニタとも呼ばれる)、1つ以上のオペレーティング・システム、1つ以上のアプリケーション・プログラム、その他のプログラム・モジュール、およびプログラム・データを含んでもよい。オペレーティング・システム、1つ以上のアプリケーション・プログラム、その他のプログラム・モジュール、およびプログラム・データの各々、またはその何らかの組み合わせは、ネットワーク形成環境の実装を含んでもよい。プログラム1028もしくはプログラム・モジュール1030またはその両方は、一般的にさまざまな実施形態の機能または方法を実行する。
【0117】
図10において、メモリ・バス1003はCPU1002と、メモリ・サブシステム1004と、I/Oバス・インターフェース1010との間の直接通信経路を提供する単一のバス構造として示されているが、いくつかの実施形態において、メモリ・バス1003は複数の異なるバスまたは通信経路を含んでもよく、それらはたとえば階層、星形、もしくはウェブ構成のポイントツーポイント・リンク、複数の階層的バス、平行および冗長経路、または任意のその他の適切なタイプの構成などの、さまざまな形態のいずれかで配置されてもよい。さらに、I/Oバス・インターフェース1010およびI/Oバス1008はそれぞれ単一のユニットとして示されているが、いくつかの実施形態において、コンピュータ・システム1001は複数のI/Oバス・インターフェース・ユニット1010、複数のI/Oバス1008、またはその両方を含んでもよい。さらに、さまざまなI/Oデバイスに向かうさまざまな通信経路からI/Oバス1008を分離する複数のI/Oインターフェース・ユニット1010が示されているが、他の実施形態において、いくつかまたはすべてのI/Oデバイスが1つ以上のシステムI/Oバス1008に直接接続されてもよい。
【0118】
いくつかの実施形態において、コンピュータ・システム1001は、マルチユーザ・メインフレーム・コンピュータ・システム、単一ユーザ・システム、サーバ・コンピュータ、または直接のユーザ・インターフェースをほとんどもしくはまったく有さないが他のコンピュータ・システム(クライアント)からの要求を受信する類似のデバイスであってもよい。さらに、いくつかの実施形態において、コンピュータ・システム1001はデスクトップ・コンピュータ、ポータブル・コンピュータ、ラップトップもしくはノートブック・コンピュータ、タブレット・コンピュータ、ポケット・コンピュータ、電話、スマートフォン、ネットワーク・スイッチもしくはルータ、または任意のその他の適切なタイプの電子デバイスとして実装されてもよい。
【0119】
なお、
図10は、例示的コンピュータ・システム1001の代表的な主要コンポーネントを示すことが意図されている。しかしいくつかの実施形態において、個々のコンポーネントは
図10に示されるよりも高いかまたは低い複雑さを有してもよく、
図10に示されるもの以外のコンポーネントまたはそれに追加されるコンポーネントが存在してもよく、かつこうしたコンポーネントの数、タイプ、および構成は変動してもよい。
【0120】
本開示はクラウド・コンピューティングの詳細な説明を含むが、本明細書に記述される教示の実装はクラウド・コンピューティング環境に限定されないことが理解されるべきである。むしろ、本開示の実施形態は、現在公知であるか、または後に開発され得る任意のその他のタイプのコンピューティング環境と共に実装され得る。
【0121】
本開示は、任意の可能な技術的詳細レベルの統合におけるシステム、方法、もしくはコンピュータ・プログラム製品、またはその組み合わせであってもよい。コンピュータ・プログラム製品は、プロセッサに本開示の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体(または複数の媒体)を含んでもよい。
【0122】
コンピュータ可読記憶媒体は、命令実行デバイスによって使用するための命令を保持および記憶できる有形デバイスであり得る。コンピュータ可読記憶媒体は、たとえば電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイス、または前述の任意の好適な組み合わせなどであってもよいが、それに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは以下を含む。ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリ・メモリ(ROM:read-only memory)、消去可能プログラマブル・リード・オンリ・メモリ(erasable programmable read-only memory)(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM:static random access memory)、ポータブル・コンパクト・ディスク・リード・オンリ・メモリ(CD-ROM:compact disc read-only memory)、デジタル多用途ディスク(DVD:digital versatile disk)、メモリ・スティック、フレキシブル・ディスク、機械的にコード化されたデバイス、たとえばパンチ・カードまたは記録された命令を有する溝の中の隆起構造体など、および前述の任意の好適な組み合わせ。本明細書において用いられるコンピュータ可読記憶媒体は、たとえば電波もしくはその他の自由に伝播する電磁波、導波路もしくはその他の伝送媒体を通じて伝播する電磁波(例、光ファイバ・ケーブルを通過する光パルス)、またはワイヤを通じて伝送される電気信号など、それ自体が一時的な信号であると解釈されるべきではない。
【0123】
本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスにダウンロードされ得るか、あるいはたとえばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、もしくはワイヤレス・ネットワーク、またはその組み合わせなどのネットワークを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードされ得る。ネットワークは銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジ・サーバ、またはその組み合わせを含んでもよい。各コンピューティング/処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信して、そのコンピュータ可読プログラム命令をそれぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するために転送する。
【0124】
本開示の動作を実行するためのコンピュータ可読プログラム命令はアセンブラ命令、命令セット・アーキテクチャ(ISA:instruction-set-architecture)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路に対する構成データ、または1つ以上のプログラミング言語の任意の組み合わせで書かれたソース・コードもしくはオブジェクト・コードであってもよく、このプログラミング言語はオブジェクト指向プログラミング言語、たとえばSmalltalk、またはC++など、および手続き型プログラミング言語、たとえば「C」プログラミング言語または類似のプログラミング言語などを含む。コンピュータ可読プログラム命令は、すべてがユーザのコンピュータで実行されてもよいし、スタンド・アロン・ソフトウェア・パッケージとして部分的にユーザのコンピュータで実行されてもよいし、一部がユーザのコンピュータで、一部がリモート・コンピュータで実行されてもよいし、すべてがリモート・コンピュータまたはサーバで実行されてもよい。後者のシナリオにおいて、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)または広域ネットワーク(WAN)を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続されてもよいし、(たとえば、インターネット・サービス・プロバイダを用いてインターネットを通じて)外部コンピュータへの接続が行われてもよい。いくつかの実施形態において、たとえばプログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA:field-programmable gate arrays)、またはプログラマブル・ロジック・アレイ(PLA:programmable logic arrays)などを含む電子回路は、本開示の態様を行うために電子回路をパーソナライズするためのコンピュータ可読プログラム命令の状態情報を使用することによって、コンピュータ可読プログラム命令を実行してもよい。
【0125】
本開示は、新たな分子を生成するための方法、システム、およびコンピュータ・プログラム製品を考察する。本開示は、複数の分子に対する分子データを受信すること、分子データに対してトポロジー・データ分析を行って分子トポロジー・マップを生成すること、分子トポロジー・マップにおける1つ以上の欠落を識別すること、および1つ以上の欠落のうちの少なくとも1つを埋めるように1つ以上の追加の分子を生成することを考察する。
【0126】
本開示はさらに、複数の分子が1つ以上の共通の分子特性を有することを考察する。本開示はさらに、複数の分子の各々に対する分子骨格を生成することを考察する。本開示はさらに、各骨格に対する生成可能性スコアを生成することを考察する。本開示はさらに、複数の分子が分子骨格を共有し、1つ以上の追加の分子がその分子骨格を含有することを考察する。
【0127】
本開示はさらに、1つ以上の追加の分子が変分オートエンコーダを用いて生成されることを考察する。本開示はさらに、変分オートエンコーダが骨格調整を介して、1つ以上の追加の分子が特定の分子骨格を含有するように調整されることを考察する。本開示はさらに、変分オートエンコーダが変分オートエンコーダ損失関数を有し、変分オートエンコーダ損失関数が特定の分子骨格の生成可能性を含むように修正されることを考察する。
【0128】
本明細書においては、本開示の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図もしくはブロック図またはその両方を参照して、本開示の態様を説明している。フローチャート図もしくはブロック図またはその両方の各ブロック、およびフローチャート図もしくはブロック図またはその両方におけるブロックの組み合わせは、コンピュータ可読プログラム命令によって実装され得ることが理解されるだろう。
【0129】
これらのコンピュータ可読プログラム命令は、コンピュータか、またはマシンを生成するためのその他のプログラマブル・データ処理装置のプロセッサに提供されることによって、そのコンピュータまたはその他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、フローチャートもしくはブロック図またはその両方の単数または複数のブロックにおいて指定される機能/動作を実装するための手段を生じてもよい。これらのコンピュータ可読プログラム命令は、コンピュータ、プログラマブル・データ処理装置、もしくはその他のデバイス、またはその組み合わせに特定の方式で機能するように指示できるコンピュータ可読記憶媒体にも記憶されることによって、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートもしくはブロック図またはその両方の単数または複数のブロックにおいて指定される機能/動作の態様を実装する命令を含む製造物を含んでもよい。
【0130】
コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにもロードされて、コンピュータに実装されるプロセスを生成するためにコンピュータ、他のプログラマブル装置、または他のデバイスにおいて一連の動作ステップを行わせることによって、そのコンピュータ、他のプログラマブル装置、または他のデバイスにおいて実行される命令が、フローチャートもしくはブロック図またはその両方の単数または複数のブロックにおいて指定される機能/動作を実装してもよい。
【0131】
図面におけるフローチャートおよびブロック図は、本開示のさまざまな実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能、および動作を示すものである。これに関して、フローチャートまたはブロック図の各ブロックは、命令のモジュール、セグメント、または一部分を表してもよく、これは指定される論理機能(単数または複数)を実装するための1つ以上の実行可能命令を含む。いくつかの代替的実装において、ブロック内に示される機能は、図面に示されるものとは異なる順序で起こってもよい。たとえば、連続して示される2つのブロックは、実際には1つのステップとして達成されてもよく、同時に実行されても、部分的もしくは全体的に時間が重複する方式で実質的に同時に実行されてもよく、または関与する機能に依存して、これらのブロックがときには逆の順序で実行されてもよい。加えて、ブロック図もしくはフローチャート図またはその両方の各ブロック、およびブロック図もしくはフローチャート図またはその両方のブロックの組み合わせは、指定された機能もしくは動作を行うか、または特定目的のハードウェアおよびコンピュータ命令の組み合わせを実行する特定目的のハードウェア・ベースのシステムによって実装され得ることが注目されるだろう。
【0132】
本開示のさまざまな実施形態の説明は、例示の目的のために提示されているが、網羅的であること、または開示された実施形態に限定されることは意図されていない。記載された実施形態の範囲および思想から逸脱することなく、多くの修正および変形が当業者に明らかになるだろう。本明細書で使用される用語は、実施形態の原理、実際の適用、または市場で見出される技術に対する技術的改善を最もよく説明するため、または他の当業者が本明細書で開示される実施形態を理解できるようにするために選択されたものである。
【0133】
特定の実施形態によって本開示を説明したが、その変更および修正が当業者に明らかとなることが予測される。したがって、以下の請求項は、こうした変更および修正のすべてを本開示の真の思想および範囲内にあるものとして包含すると解釈されることが意図される。
【手続補正書】
【提出日】2023-05-28
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
新たな分子を生成するための方法であって、前記方法が、
複数の分子に対する分子データを受信することと、
前記分子データに対してトポロジー・データ分析を行って分子トポロジー・マップを生成することと、
前記分子トポロジー・マップにおける1つ以上の欠落を識別することと、
前記1つ以上の欠落のうちの少なくとも1つを埋めるように1つ以上の追加の分子を生成することと
を含む、方法。
【請求項2】
前記複数の分子が1つ以上の共通の分子特性を有する、請求項1に記載の方法。
【請求項3】
前記複数の分子の各々に対する分子骨格を生成することをさらに含む、請求項1に記載の方法。
【請求項4】
各骨格に対する生成可能性スコアを生成することをさらに含む、請求項3に記載の方法。
【請求項5】
前記複数の分子が分子骨格を共有し、前記1つ以上の追加の分子が前記分子骨格を含有する、請求項1に記載の方法。
【請求項6】
前記1つ以上の追加の分子が変分オートエンコーダを用いて生成される、請求項1に記載の方法。
【請求項7】
骨格調整を介して、前記1つ以上の追加の分子が特定の分子骨格を含有するように前記変分オートエンコーダを調整することをさらに含む、請求項6に記載の方法。
【請求項8】
前記変分オートエンコーダが変分オートエンコーダ損失関数を有し、前記方法が、
前記特定の分子骨格の生成可能性を含むように前記変分オートエンコーダ損失関数を修正することをさらに含む、請求項7に記載の方法。
【請求項9】
新たな分子を生成するシステムであって、前記システムが、
メモリと、
前記メモリと通信するプロセッサとを含み、前記プロセッサが、
複数の分子に対する分子データを受信することと、
前記分子データに対してトポロジー・データ分析を行って分子トポロジー・マップを生成することと、
前記分子トポロジー・マップにおける1つ以上の欠落を識別することと、
前記1つ以上の欠落のうちの少なくとも1つを埋めるように1つ以上の追加の分子を生成することと
を含む動作を行うように構成される、システム。
【請求項10】
前記複数の分子の各々に対する分子骨格を生成することをさらに含む、請求項9に記載のシステム。
【請求項11】
各骨格に対する生成可能性スコアを生成することをさらに含む、請求項10に記載のシステム。
【請求項12】
前記複数の分子が分子骨格を共有し、前記1つ以上の追加の分子が前記分子骨格を含有する、請求項9に記載のシステム。
【請求項13】
前記1つ以上の追加の分子が変分オートエンコーダを用いて生成される、請求項9に記載のシステム。
【請求項14】
骨格調整を介して、前記1つ以上の追加の分子が特定の分子骨格を含有するように前記変分オートエンコーダを調整することをさらに含む、請求項13に記載のシステム。
【請求項15】
前記変分オートエンコーダが変分オートエンコーダ損失関数を有し、前記動作が、
前記特定の分子骨格の生成可能性を含むように前記変分オートエンコーダ損失関数を修正することをさらに含む、請求項14に記載のシステム。
【請求項16】
新たな分子を生成するためのコンピュータ・プログラムであって、
プロセッサに、請求項1ないし8のいずれか1項に記載の各手順を実行させるためのコンピュータ・プログラム。
【国際調査報告】