(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-19
(54)【発明の名称】化学配合物の特性を予測するための機械学習
(51)【国際特許分類】
G16C 20/30 20190101AFI20240312BHJP
G06N 3/02 20060101ALI20240312BHJP
G06N 20/00 20190101ALI20240312BHJP
G16C 20/70 20190101ALI20240312BHJP
【FI】
G16C20/30
G06N3/02
G06N20/00
G16C20/70
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023558451
(86)(22)【出願日】2021-12-15
(85)【翻訳文提出日】2023-10-17
(86)【国際出願番号】 US2021063436
(87)【国際公開番号】W WO2022203734
(87)【国際公開日】2022-09-29
(32)【優先日】2021-03-25
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】523174538
【氏名又は名称】オズモ ラブズ, ピービーシー
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】リ, ブライアン キフン
(72)【発明者】
【氏名】ウィルトシュコ, アレクサンダー
(57)【要約】
化学配合物の特性予測は、各分子を個別に、また混合物を全体として理解することを含み得る。機械学習済モデルを利用して、個別及び全体的なデータを抽出し、混合物の特性の正確な予測を生成できる。特性としては、嗅覚特性、味覚特性、色の特性、粘度特性、及び他の商業的、工業的、または薬学的に有益な特性が挙げられるが、これらに限定されない。本開示の1つの例示的な態様は、混合物特性予測のためのコンピュータ実装方法を対象とする。この方法は、1つまたは複数のコンピューティングデバイスを含むコンピューティングシステムによって、複数の分子のそれぞれについてのそれぞれの分子データ、及び複数の分子の混合物に関連する混合物データを取得することを含むことができる。
【選択図】
図6
【特許請求の範囲】
【請求項1】
混合物特性予測をするためのコンピュータ実装方法であって、
1つまたは複数のコンピューティングデバイスを含むコンピューティングシステムによって、複数の分子の各々に対するそれぞれの分子データ、及び前記複数の分子の混合物に関連する混合物データを取得すること、
前記複数の分子の各々に対する前記それぞれの分子データを、前記コンピューティングデバイスによって、各分子にそれぞれの埋め込みを生成するために、機械学習済埋め込みモデルでそれぞれ処理すること、
前記コンピューティングシステムによって、前記埋め込み及び前記混合物データを予測モデルで処理して、前記複数の分子の前記混合物についての1つまたは複数の特性予測を生成することであって、前記1つまたは複数の特性予測は、前記埋め込み及び前記混合物データに少なくとも部分的に基づいている、前記生成すること、及び
前記コンピューティングシステムによって、前記1つまたは複数の特性予測を格納すること、を含む、前記方法。
【請求項2】
前記混合物データが、前記混合物中の各分子のそれぞれの濃度を記述する、いずれかの先行請求項に記載の方法。
【請求項3】
前記混合物データが、前記混合物の組成を記述する、いずれかの先行請求項に記載の方法。
【請求項4】
前記予測モデルはディープニューラルネットワークを含む、いずれかの先行請求項に記載の方法。
【請求項5】
前記機械学習済埋め込みモデルは、機械学習済グラフニューラルネットワークを含む、いずれかの先行請求項に記載の方法。
【請求項6】
前記予測モデルは、特定の特性に関する予測を生成するように構成された特徴的な特有のモデルを含む、いずれかの先行請求項に記載の方法。
【請求項7】
前記1つまたは複数の特性予測は、前記複数の分子のうちの1つ以上の分子の結合エネルギーに少なくとも部分的に基づく、いずれかの先行請求項に記載の方法。
【請求項8】
前記1つまたは複数の特性予測が1つ以上の感覚特性予測を含む、いずれかの先行請求項に記載の方法。
【請求項9】
前記1つまたは複数の特性予測が嗅覚予測を含む、いずれかの先行請求項に記載の方法。
【請求項10】
前記1つまたは複数の特性予測が触媒特性予測を含む、いずれかの先行請求項に記載の方法。
【請求項11】
前記1つまたは複数の特性予測がエネルギー特性予測を含む、いずれかの先行請求項に記載の方法。
【請求項12】
前記1つまたは複数の特性予測がターゲット間の界面活性剤特性予測を含む、いずれかの先行請求項に記載の方法。
【請求項13】
前記1つまたは複数の特性予測が医薬特性予測を含む、いずれかの先行請求項に記載の方法。
【請求項14】
前記1つまたは複数の特性予測が熱特性予測を含む、いずれかの先行請求項に記載の方法。
【請求項15】
前記予測モデルは、前記混合物データに基づいて前記埋め込みを重み付けしてプールするように構成された重み付けモデルを含み、前記混合物データは、前記混合物の前記複数の分子に関連する濃度データを含む、いずれかの先行請求項に記載の方法。
【請求項16】
前記コンピューティングシステムによって、要求元コンピューティングデバイスから、要求された特性を有する化学混合物に対する要求を取得すること、
前記コンピューティングシステムによって、前記1つまたは複数の特性予測が前記要求された特性を満たすことを判定すること、及び
前記コンピューティングシステムによって、前記混合物データを前記要求元コンピューティングデバイスに提供すること、をさらに含む、いずれかの先行請求項に記載の方法。
【請求項17】
前記1つまたは複数の特性予測は、分子の相互作用特性に少なくとも部分的に基づく、いずれかの先行請求項に記載の方法。
【請求項18】
前記1つまたは複数の特性予測は、少なくとも部分的に受容体活性化データに基づく、いずれかの先行請求項に記載の方法。
【請求項19】
コンピューティングシステムであって、
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行されるとき、前記コンピューティングシステムに動作を実行させる命令を集合的に格納する、1つまたは複数の非一時的なコンピュータ可読媒体と、を含み、前記動作が、
複数の分子のそれぞれの分子データ、及び前記複数の分子の混合物に関連する混合物データを取得することであって、前記混合物データは、前記複数の分子の各分子のそれぞれの濃度を含む、前記取得すること、
分子ごとにそれぞれの埋め込みを生成するために、前記複数の分子の各々に対する埋め込みモデルで前記それぞれの分子データをそれぞれ処理すること、
前記埋め込み及び前記混合物データを機械学習済予測モデルで処理して、1つまたは複数の特性予測を生成することであって、前記1つまたは複数の特性予測は、前記埋め込み及び前記混合物データに少なくとも部分的に基づいている、前記生成すること、及び
前記1つまたは複数の特性予測を格納すること、
を含む、前記コンピューティングシステム。
【請求項20】
1つまたは複数のプロセッサによって実行されるとき、コンピューティングシステムに動作を実行させる命令を集合的に格納する、1つまたは複数の非一時的なコンピュータ可読媒体であって、前記動作が、
複数の分子に対するそれぞれの分子データ、及び前記複数の分子の混合物に関連する混合物データを取得すること、
分子ごとにそれぞれの埋め込みを生成するために、前記複数の分子の各々に対する埋め込みモデルで前記それぞれの分子データをそれぞれ処理すること、
前記埋め込み及び前記混合物データを機械学習済予測モデルで処理して、1つまたは複数の特性予測を生成することであって、前記1つまたは複数の特性予測は、前記埋め込み及び前記混合物データに少なくとも部分的に基づいている、前記生成すること、及び
前記1つまたは複数の特性予測を格納すること、
を含む、前記1つまたは複数の非一時的なコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本願は、2021年3月25日に出願された米国仮特許出願第63/165,781号の優先権及び利益を主張する。米国仮特許出願第63/165,781号は、その全体が参照により本明細書に組み込まれる。
【0002】
本開示は、一般に、機械学習を使用して化学配合物の特性を予測することに関する。より具体的には、本開示は、分子、濃度、組成、及び相互作用の特性を使用した特性予測に関する。
【背景技術】
【0003】
化学製品の大部分は単一の分子ではなく、慎重に作られた配合物または混合物である。化学の機械学習の分野は、単一の単離された分子の物理的及び知覚的特性を予測できるように急速に進歩したが、化学配合物はおしなべて無視されている。
【0004】
当技術分野の混合物モデルは、他の要因を無視して、予測のために混合物の知覚的類似性に焦点を当てている。例えば、ある種の既存のアプローチは、人間が味わった混合物などの混合物の特性に関する取得した人間のデータを格納及び提供することに焦点を当てている。格納されたデータは取得した人間のデータに依存しているため、データの取得者に基づいてスケールが異なるなどの、主観的なバイアスが生じる可能性がある。
【発明の概要】
【課題を解決するための手段】
【0005】
本開示の実施形態の態様及び利点は、以下の説明に部分的に記載される、その説明から習得され得る、または実施形態を実施することによって習得することができる。
【0006】
本開示の1つの例示的な態様は、混合物特性予測のためのコンピュータ実装方法を対象とする。この方法は、1つまたは複数のコンピューティングデバイスを含むコンピューティングシステムによって、複数の分子のそれぞれについてのそれぞれの分子データ、及び複数の分子の混合物に関連する混合物データを取得することを含むことができる。方法は、複数の分子の各々に対するそれぞれの分子データを、コンピューティングデバイスによって、各分子にそれぞれの埋め込みを生成するために、機械学習済埋め込みモデルでそれぞれ処理することを含むことができる。方法は、コンピューティングシステムによって、埋め込み及び混合物データを予測モデルで処理して、複数の分子の混合物についての1つまたは複数の特性予測を生成することを含むことができる。いくつかの実施態様では、1つまたは複数の特性予測は、埋め込み及び混合物データに少なくとも部分的に基づくことができる。方法は、コンピューティングシステムによって、1つまたは複数の特性予測を格納することを含むことができる。
【0007】
いくつかの実施態様で、混合物データは、混合物中の各分子のそれぞれの濃度を記述することができる。混合物データは、混合物の組成を記述することができる。予測モデルにはディープニューラルネットワークを含めることができる。いくつかの実施態様では、機械学習済埋め込みモデルは、機械学習済グラフニューラルネットワークを含むことができる。予測モデルは、特定の特性に関する予測を生成するように構成された特徴的な特有のモデルを含むことができる。1つまたは複数の特性予測は、複数の分子のうちの1つまたは複数の分子の結合エネルギーに少なくとも部分的に基づくことができる。いくつかの実施態様では、1つまたは複数の特性予測は、1つまたは複数の感覚特性予測を含むことができる。1つまたは複数の特性予測は、嗅覚予測を含むことができる。1つまたは複数の特性予測は、触媒特性予測を含むことができる。いくつかの実施態様では、1つまたは複数の特性予測は、エネルギー特性予測を含むことができる。1つまたは複数の特性予測は、ターゲット間の界面活性剤特性予測を含むことができる。
【0008】
いくつかの実施態様では、1つまたは複数の特性予測は、医薬特性予測を含むことができる。1つまたは複数の特性予測は、熱特性予測を含むことができる。予測モデルは、混合物データに基づいて埋め込みを重み付けしてプールするように構成された重み付けモデルを含み得、混合物データは、混合物の複数の分子に関連する濃度データを含むことができる。
【0009】
いくつかの実施態様では、方法は、コンピューティングシステムによって、要求された特性を有する化学混合物についての要求元コンピューティングデバイスからの要求を取得すること、コンピューティングシステムによって、1つまたは複数の特性予測が要求された特性を満たすかどうかを判定すること、及びコンピューティングシステムによって、混合物データを要求元コンピューティングデバイスに提供することを含み得る。1つまたは複数の特性予測は、分子相互作用特性に少なくとも部分的に基づくことができる。いくつかの実施態様では、1つまたは複数の特性予測は、受容体活性化データに少なくとも部分的に基づくことができる。
【0010】
本開示の別の例示的な態様は、コンピューティングシステムを対象とする。コンピューティングシステムは、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行されるとき、コンピューティングシステムに動作を実行させる命令を集合的に格納する1つまたは複数の非一時的なコンピュータ可読媒体とを含むことができる。動作は、複数の分子に対するそれぞれの分子データ、及び複数の分子の混合物に関連する混合物データを取得することを含み得る。いくつかの実施態様では、混合物データは、複数の分子の各分子のそれぞれの濃度を含むことができる。動作は、分子ごとにそれぞれの埋め込みを生成するために、複数の分子の各々に対する埋め込みモデルでそれぞれの分子データをそれぞれ処理することを含み得る。動作には、機械学習済予測モデルを使用して埋め込みデータと混合物データを処理して、1つ以上の特性予測を生成することが含まれ得る。1つまたは複数の特性予測は、埋め込み及び混合物データに少なくとも部分的に基づくことができる。動作は、1つまたは複数の特性予測を格納することを含むことができる。
【0011】
本開示の他の例示的態様は、1つまたは複数のプロセッサによって実行されるときコンピューティングシステムに動作を実行させる命令を集合的に格納する、1つまたは複数の非一時的なコンピュータ可読媒体を対象とする。動作は、複数の分子に対するそれぞれの分子データ、及び複数の分子の混合物に関連する混合物データを取得することを含み得る。動作は、分子ごとにそれぞれの埋め込みを生成するために、複数の分子の各々に対する埋め込みモデルでそれぞれの分子データをそれぞれ処理することを含み得る。動作には、機械学習済予測モデルを使用して埋め込みデータと混合物データを処理して、1つ以上の特性予測を生成することが含まれ得る。いくつかの実施態様では、1つまたは複数の特性予測は、埋め込み及び混合物データに少なくとも部分的に基づくことができる。動作は、1つまたは複数の特性予測を格納することを含むことができる。
【0012】
本開示の他の態様は、様々なシステム、装置、非一時的なコンピュータ可読媒体、ユーザインターフェース、及び電子デバイスを対象とする。
【0013】
本発明の様々な実施形態のこれら及び他の特徴、態様及び利点は、以下の説明及び添付の請求項を参照すると、よりよく理解される。この明細書に組み込まれ、この明細書の一部を構成する添付の図面は、本開示の例示的実施形態を示し、説明と併せて、関連する原理を説明する役目を果たす。
【0014】
当業者に向けられた、実施形態の詳細な論考が、添付の図を参照する本明細書に記載されている。
【図面の簡単な説明】
【0015】
【
図1A】本開示の例示的な実施形態に従って混合物特性予測を実行する例示的なコンピューティングシステムのブロック図を示す。
【
図1B】本開示の例示的な実施形態に従って混合物特性予測を実行する例示的なコンピューティングデバイスのブロック図を示す。
【
図1C】本開示の例示的な実施形態に従って混合物特性予測を実行する例示的なコンピューティングデバイスのブロック図を示す。
【
図2】本開示の例示的な実施形態による例示的な機械学習済特性予測モデルのブロック図を示す。
【
図3】本開示の例示的な実施形態による例示的な特性予測モデルシステムのブロック図を示す。
【
図4】本開示の例示的な実施形態による例示的な特性要求システムのブロック図を示す。
【
図5】本開示の例示的な実施形態による例示的な混合物特性プロファイルのブロック図を示す。
【
図6】本開示の例示的な実施形態による、混合物特性予測を実行する例示的な方法のフローチャートの図表を示す。
【
図7】本開示の例示的な実施形態による、特性予測及び取得を実行する例示的な方法のフローチャートの図表を示す。
【
図8】本開示の例示的な実施形態による、特性予測データベースの生成を実行する例示的な方法のフローチャートの図表を示す。
【
図9A】本開示の例示的な実施形態による例示的な進化的アプローチのブロック図を示す。
【
図9B】本開示の例示的な実施形態による例示的な強化学習アプローチプロファイルのブロック図を示す。
【発明を実施するための形態】
【0016】
複数の図にわたって繰り返される参照番号は、様々な実施態様において同じ特徴を識別することを意図している。
【0017】
概要
一般に、本開示は、機械学習を使用して複数の化学分子の混合物の1つまたは複数の特性を予測するためのシステム及び方法を対象とする。このシステム及び方法は、個々の分子、組成物、及び相互作用の既知の特性を利用して、混合物を試験する前に混合物の特性を予測することができる。さらに、機械学習済モデルを使用して人工知能技術を活用し、混合物の特性を迅速かつ効率的に予測できる。このシステム及び方法は、1つまたは複数の分子の分子データ及び1つまたは複数の分子の混合物に関連する混合物データを取得することを含むことができる。分子データは、混合物を構成する複数の分子の各分子のそれぞれの分子データを含むことができる。いくつかの実施態様では、混合物データは、混合物の全体の組成と共に、混合物の各分子の濃度に関連するデータを含むことができる。混合物データは、混合物の配合物を記述することができる。分子データを埋め込みモデルで処理して、複数の埋め込みを生成することができる。各分子のそれぞれに対する各分子データそれぞれは、混合物中の各それぞれの分子に対するそれぞれの埋め込みを生成するために、埋め込みモデルで処理され得る。いくつかの実施態様では、埋め込みは、埋め込みデータの個々の分子特性を記述するデータを含むことができる。一部の実施態様では、埋め込みは数値のベクトルにすることができる。いくつかの場合において、埋め込みはグラフや分子特性の説明を表し得る。埋め込みデータと混合物データは、1つ以上の特性予測を生成する予測モデルにより処理され得る。1つまたは複数の特性予測は、1つ以上の埋め込み及び混合物データに少なくとも部分的に基づくことができる。特性予測には、混合物の味、匂い、色合いなどに関する様々な予測が含まれ得る。いくつかの実施態様では、システム及び方法は、1つまたは複数の特性予測を格納することを含むことができる。一部の実施態様では、モデルの一方または両方に機械学習済モデルを含めることができる。
【0018】
分子データ及び混合物データを取得することは、複数の分子のうちの1つまたは複数の分子を含む混合物の特性予測の要求を受信することを含むことができる。要求にはさらに、1つまたは複数の分子のそれぞれの濃度を含めることができる。要求には、特徴的な特有の特性(例えば、感覚特性)または一般的な混合特性を含めることができる。代替的または追加的に、分子データ及び混合物データの取得には、ランダムサンプリングまたはカテゴリ固有のサンプリングなどのサンプリング形式が含まれ得る。例えば、分子混合物のランダムサンプリングを実行して、様々な混合物の予測をカタログ化することができる。あるいは、カテゴリ固有のサンプリングには、既知の特性のカテゴリ内の分子を取得し、他の既知の特性の別のカテゴリ内の分子を使用してサンプリングすることが含まれ得る。
【0019】
分子データが得られた後、分子データを埋め込みモデルで処理して、複数の埋め込みを生成することができる。複数の分子の各分子は、1つ以上のそれぞれの埋め込みを受け取り得る。埋め込みは、個々の分子の特性に関連する埋め込みデータを含むことができる特性特徴埋め込みであってもよい。例えば、第1の分子の埋め込みには、その分子の嗅覚的特性を説明する埋め込み情報が含まれ得る。いくつかの実施態様では、埋め込みモデルは、それぞれの分子ごとに1つまたは複数の埋め込みを生成するグラフニューラルネットワークを含むことができる。いくつかの実施態様では、埋め込みはベクトルであってもよく、ベクトルは処理されたグラフに基づくことができ、それにおいてグラフは1つまたは複数の分子を記述する。
【0020】
1つまたは複数の埋め込みは、予測モデルによって混合物データと共に処理されて、1つまたは複数の特性予測を生成することができる。予測モデルは、埋め込みが関連付けられている分子の濃度に基づいて、1つまたは複数の埋め込みを重み付けすることを含むことができる。例えば、第1の分子と第2の分子を2対1の濃度の比で含む混合物は、混合物中の第1の分子の濃度が高いほど、第1の分子の埋め込みに対してより大きな重み付けを含み得る。さらに、機械学習済予測モデルは、混合物データに基づいて埋め込みを重み付け及びプールすることを含む重み付けモデルを含むことができ、混合物データは、混合物の複数の分子に関連する濃度データを含むことができる。
【0021】
いくつかの実施態様では、予測モデルは、機械学習済予測モデルであってもよく、機械学習済予測モデルは、特徴的な特有のモデル(例えば、感覚特性予測モデル、エネルギー特性予測モデル、熱特性予測モデルなど)を含むことができる。
【0022】
生成された後、1つ以上の特性予測を格納できる。予測は、特性予測のデータベースに格納することができ、集中サーバに格納することもできる。いくつかの実施態様では、予測は、生成された後にコンピューティングデバイスに供給されてもよい。格納された予測は、混合物特性予測プロファイルに編成することができ、これには、混合物とそのそれぞれの特性予測をわかりやすい形式で含めることができる。
【0023】
格納された予測は、要求に応じて受信できる。いくつかの実施態様では、格納された予測は容易に検索可能である。例えば、システムは、特定の特性に対する要求を特性検索クエリの形式で受信できる。システムは、要求された特性が混合物の特性予測の特性の1つであるかどうかを判断できる。要求された特性が特性予測に含まれる場合、混合物の情報が要求者に提供され得る。
【0024】
いくつかの実施態様では、特性予測は、濃度の関数として単一分子の特性を予測すること、混合物の組成の関数として混合物の特性を予測すること、及び混合物の成分が相互作用するとき(例えば、相乗的または競合的に)、混合物の特性を予測することを含むがこれらに限定されない、1つまたは複数の初期予測に基づくことができる。各予測は、別個のモデルまたは単一のモデルによって生成される場合がある。システム及び方法は、完全に微分可能なアルゴリズムに依存する場合がある。一部の実施態様では、システム及び方法は、予測モデルをトレーニングするために、強力な化学誘導バイアス及び非凸最適化の知識を使用する場合がある。さらに、機械学習済モデルは、勾配降下法と混合物データのデータセットを使用してトレーニングできる。一部の実施態様では、機械学習済予測モデルは、ラベル付きのペアを含むトレーニングデータセットを使用してトレーニングできる。いくつかの実施態様では、トレーニングデータは、既知の受容体活性化データを含むことができる。
【0025】
いくつかの実施態様では、システム及び方法は、混合物の知覚的または物理的特性を予測することができる。この方法及びシステムには、化学的に現実的な平衡及び競合結合ダイナミクスを明示的にモデル化することが含まれ得、アルゴリズム全体が完全に微分可能である。この実施態様では、強力な化学誘導バイアスの使用と、ニューラルネットワーク及び機械学習の分野からの非凸最適化の完全なツールキットの使用を双方許容できる。
【0026】
より具体的には、機械学習済予測モデルは、濃度依存性と、競合的阻害を伴う混合物と非競合的阻害を伴う混合物を含み得る混合物のモデリングについてトレーニングできる。濃度依存性には、個々の分子の特性を理解し、混合物中の各分子の濃度に基づいて個々の分子の特性を考慮して重み付けすることが含まれ得る。
【0027】
競合的阻害を伴う混合物には、混合物の様々な分子が受容体を活性化するために競合する混合物(例えば、臭気受容体を活性化するために競合する分子)が含まれ得る。さらに、システム及び方法は、より高い正規化結合エネルギーを有する分子が、より低い正規化結合エネルギー分子よりも先に受容体を誘発する可能性が高くなり得ることを考慮に入れることができる。一部の実施態様では、競合的阻害のある混合物は、モデルに2番目のヘッドを追加することにより、システムによって考慮され得る。1つのヘッドは正味の結合エネルギーをモデル化でき、他方のヘッドは「適切な基質または競合的阻害剤」傾向スコアをモデル化でき、2つのヘッドを要素ごとに乗算できる。システム及び方法は、注意機構を含むことができる。2つのヘッドのモデルは、どの分子が受容体を活性化するかを考慮に入れることができる。
【0028】
非競合的阻害を伴う混合物には、適切な活性化結合モードと非競合的阻害結合モードに基づく累積的阻害が含まれる場合がある。
【0029】
いくつかの実施態様では、濃度に基づく埋め込みの重み付けは、加重平均とすることができる。重み付けにより、単一の固定された次元の埋め込みを生成できる。いくつかの実施態様では、濃度は非線形性で通過することができる。一部の実施態様では、重み付けモデルは、重み付けされたグラフのセットを生成できる。さらに、いくつかの実施態様では、混合物中の分子のグラフ構造を重み付きセットとしてニューラルネットワークモデルに渡すことができ、可変のサイズの設定入力を処理する機械学習方法を使用して、各分子を整理することができる。例えば、set2vecなどの方法をグラフニューラルネットワーク法と組み合わせることができる。
【0030】
さらに、混合物の分子のグラフ構造は「グラフのグラフ」に埋め込むことができ、各ノードは混合物の分子を表す。エッジは、全対全方式(例えば、すべての分子のタイプが互いに相互作用する可能性があるという仮説)で構築することも、多かれ少なかれ発生する可能性の高い分子間の相互作用を取り除くために化学的な事前知識を使用して構築することもできる。いくつかの実施態様では、エッジは、相互作用の尤度に従って重み付けされ得る。次に、標準的なグラフニューラルネットワーク法を使用して、分子の原子の内部と分子全体の間の両方で、メッセージを交互に受け渡すことができる。
【0031】
いくつかの実施態様では、システム及び方法は、最近傍補間を含むことができる。最近傍補間は、N成分のセットを列挙することを含むことができ、各混合物をN次元ベクトルとして表すことを含むことができる。ベクトルは各成分の割合を表すことができる。新しい混合物の予測には、何らかの距離メトリックに従う最近傍検索と、それに続く最近傍の知覚特性の平均化が含まれ得る。平均化された知覚特性が予測となる可能性がある。
【0032】
代替的または追加的に、いくつかの実施態様では、システム及び方法は、量子力学ベースまたは分子力場ベースのアプローチによる直接的な分子動力学シミュレーションを、含むことができる。例えば、各分子と推定上の匂い受容体または味覚受容体との相互作用は、分子シミュレーション用の専用コンピュータを使用して直接モデル化でき、相互作用の強度は、シミュレーションによって測定できる。混合物の知覚特性は、すべての成分の相互作用の組み合わせに基づいてモデル化できる。
【0033】
特性予測には、感覚特性予測(例えば、嗅覚特性、味覚特性、色の特性など)が含まれ得る。加えて及び/または代わりに、特性予測には、触媒特性予測、エネルギー特性予測、ターゲット間の界面活性剤特性予測、医薬特性予測、臭気性質予測、臭気強度予測、色の予測、粘度予測、潤滑剤特性予測、沸点予測、密着特性予測、着色性予測、安定性予測、及び熱特性予測が含まれ得る。例えば、特性予測には、混合物が電荷を保持する時間、混合物が保持できる電荷の量、放電、レート、劣化率、安定性、全体的な質など、電池の設計に有益となり得る特性に関連する予測を含めることができる。
【0034】
本明細書に開示されるシステム及び方法は、消費者向け包装品、フレーバー及びフレグランス、染料、塗料、潤滑剤などの産業用途、及び電池の設計などのエネルギー用途を含むがこれらに限定されない様々な用途の特性予測を生成するために、適用することができる。
【0035】
いくつかの実施形態では、本明細書に記載のシステム及び方法は、1つまたは複数のコンピューティングデバイスによって実装することができる。コンピューティングデバイス(a)は、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行されるとコンピューティングデバイスに動作を実行させる命令を格納する1つまたは複数の非一時的なコンピュータ可読媒体とを含むことができる。動作には、本明細書で説明される様々な方法のステップが含まれ得る。
【0036】
いくつかの実施態様では、本明細書に開示されるシステム及び方法は、閉ループ開発プロセスに使用することができる。例えば、人間の実践者は、本明細書に開示されるシステム及び方法を利用して、混合物を物理的に作成する前に、混合物の特性を予測することができる。いくつかの実施態様では、システム及び方法を使用して、予測された特性を有する理論上の混合物のデータベースを生成することができる。人間の実践者は、生成されたデータベースを利用して、望ましい効果を得るためにコンピュータ支援の混合物の設計を可能にすることができる。さらに、データベースは、可能なすべての混合物をスクリーニングして、所望の知覚的及び物理的特性を有する混合物を識別するために使用できる検索可能なデータベースであってもよい。
【0037】
例えば、人間の実践者が、新しい強力な花のようなフレグランスを作ることを試みている場合がある。人間の実践者は、理論上の混合物の提案を埋め込みモデル及び機械学習済予測モデルに提供して、理論上の混合物の予測された特性を出力することができる。人間の実践者は、予測を使用して、実際に混合物を製造するか、テスト用に他の混合物の配合を継続するかを判定できる。いくつかの実施態様では、1つまたは複数の混合物が所望の特性を有すると予測されるとの判定に応答して、システムは、物理的試験のために1つまたは複数の混合物を製造するための命令を製造システムまたはユーザコンピューティングシステムに送信することができる。
【0038】
代替的に及び/または追加的に、人間の実践者は、機械学習済モデル(複数可)によってすでに処理された混合物を検索またはスクリーニングして、特性予測を生成することができる。混合物とそのそれぞれの特性予測は、データのスクリーニングや検索を容易にするためにデータベースに格納し得る。人間の実践者は、複数の混合物をスクリーニングして、所望の特性と一致する特性予測の混合物を見つけることができる。例えば、新しい強力な花のようなフレグランスを作ろうとしている人間の実践者は、花のような特色のある強力な香りがすると予測される混合物を、データベースからスクリーニングする場合がある。
【0039】
本明細書に開示されるシステム及び方法の閉ループの開発プロセスの利用は、時間を節約でき、混合物の製造及び物理的試験のコストを節約することができる。人間の実践者は、機械学習済モデルを使用してデータをスクリーニングし、可能な候補のプールから大量の可能な混合物を迅速に除外できる。さらに、機械学習済モデルは、候補の混合物が予期せぬ累積特性を持っているため人間の実践者が見落とす可能性のある候補混合物を示す特性を、予測し得る。
【0040】
いくつかの実施態様では、機械学習を使用して複数の化学分子の混合物の1つまたは複数の特性を予測するためのシステム及び方法は、機械を制御する、及び/または警報をもたらすために使用され得る。このシステム及び方法は、製造機械を制御してより安全な作業環境を設ける、または混合物の組成を変更して所望の生産量をもたらすために使用することができる。さらに、一部の実施態様では、特性予測を処理して、警報をもたらす必要があるかどうかを判定できる。例えば、いくつかの実施態様では、特性予測には、輸送サービスに使用される車両の香りについての嗅覚特性予測が含まれてもよい。システム及び方法は、芳香剤、フレグランス、またはキャンドル代替品の香りプロファイル予測、効力予測、及び香り寿命予測を出力することができる。次いで、予測を処理して、新しい製品を輸送装置にいつ配置すべきか、及び/または輸送装置が洗浄ルーチンを受けるべきかどうかを判定することができる。判定された新製品時刻は、次いでユーザのコンピューティングデバイスに警報として送信され得るか、または自動購入を設定するために使用され得る。別の例では、輸送装置(例えば、自律走行車)は、清掃ルーチンを受けるために施設に自動的に呼び戻されてもよい。別の例では、機械学習済モデルによって生成された特性予測において、空間内に存在する動物または人にとって危険な環境を示す警告をもたらすことができる。例えば、建物にあると感知された化学分子の混合物に対して安全性が欠如しているという予測が生成された場合、建物で音声警報を鳴らすことができる。
【0041】
いくつかの実施態様では、システムは、環境の特性予測を生成するために、埋め込みモデル及び予測モデルに入力されるセンサデータを取り込むことができる。例えば、システムは、環境に分子が存在すること及び/または濃度に関連するデータを取り込むために、1つまたは複数のセンサを利用することができる。システムは、センサデータを処理して埋め込みモデルの入力データを生成し、予測モデルを処理して環境の特性予測を生成できる。これには、環境の匂いまたは環境の他の特性に関する1つまたは複数の予測が含まれ得る。予測に特定の不快な臭気が含まれている場合、システムは、清掃サービスを完了させるようにユーザのコンピューティングデバイスに警告を送信することができる。いくつかの実施態様では、システムは、不快な臭気を判断すると、警告をバイパスし、清掃サービスに予約要求を送信することができる。
【0042】
別の例示的実施態様には、バックグラウンド処理及び/または安全対策のためのアクティブな監視が含まれる場合がある。例えば、このシステムは、ユーザまたは機械が完了した製造ステップを文書化し、作成された混合物の予測された特性を追跡して、メーカーがいずれかの危険性を確実に認識できるようにすることができる。いくつかの実施態様では、進行中の混合物に追加される新しい分子または混合物の選択に応じて、新しい混合物の特性予測を判定するために、新しい潜在的な混合物が埋め込みモデル及び予測モデルによって処理され得る。特性予測には、新しい混合物が可燃性、有毒、不安定、または何らかの形で危険であるかどうかを含めることができる。新しい混合物が何らかの形で危険であると判断された場合、警告が送信され得る。代替的に及び/または追加的に、システムは、いずれかの潜在的な現在または将来の危険から保護するために、1つまたは複数のマシンを制御してプロセスを停止及び/または封じ込めることができる。
【0043】
このシステム及び方法は、他の製造システム、産業システム、または商業システムに適用して、特性予測に応じて自動化された警告または自動化されたアクションを提供することができる。これらの応用には、新しい混合物の作成、レシピの調整、対策、予測された特性の変化に関するリアルタイムの警報が含まれ得る。
【0044】
本開示のシステム及び方法は、多くの技術的効果及び利点を提供する。一例として、このシステム及び方法は、分子の様々な混合物を個別及び物理的に試験する必要なく、混合物の特性予測をもたらすことができる。このシステム及び方法はさらに、予測された特性を有する混合物のデータベースを生成するために使用することができ、これは、予測された特性に基づいて、フレグランス、食品、潤滑剤などに導入される特定の特性を有する混合物を見つけるために、容易に検索可能であり得る。さらに、このシステム及び方法は、個々の分子特性と相互作用特性の両方を考慮することにより、より正確な予測を可能にすることができる。したがって、コンピュータがタスク(例えば、混合物の香りの予測)を実行する能力を向上させることができる。
【0045】
本開示のシステム及び方法の別の技術的利点は、混合物の特性を迅速かつ効率的に予測できることであり、これにより、人間の味覚試験及び他の物理的試験用途で混合物を試験する必要性を回避できる。
【0046】
ここで図面を参照して、本開示の例示的な実施形態をさらに詳細に説明する。
【0047】
デバイスとシステムの例
図1Aは、本開示の例示的な実施形態に従って特性予測を実行する例示的なコンピューティングシステム100のブロック図を示す。システム100は、ネットワーク180を介して通信可能に結合されたユーザコンピューティングデバイス102、サーバコンピューティングシステム130、及びトレーニングコンピューティングシステム150を含む。
【0048】
ユーザコンピューティングデバイス102は、例えば、パーソナルコンピューティングデバイス(例えば、ラップトップまたはデスクトップ)、モバイルコンピューティングデバイス(例えば、スマートフォンまたはタブレット)、ゲームコンソールまたはコントローラ、ウェアラブルコンピューティングデバイス、組み込みコンピューティングデバイス、またはその他のいずれかのタイプのコンピューティングデバイスなどの任意のタイプのコンピューティングデバイスであり得る。
【0049】
ユーザコンピューティングデバイス102は、1つまたは複数のプロセッサ112及びメモリ114を含む。1つまたは複数のプロセッサ112は、任意の適切な処理デバイス(例えば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であり得、1つのプロセッサまたは動作可能に接続されている複数のプロセッサであり得る。メモリ114は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、及びそれらの組み合わせなどの1つまたは複数の非一時的なコンピュータ可読記憶媒体を含むことができる。メモリ114は、ユーザコンピューティングデバイス102に動作を実行させるためにプロセッサ112によって実行されるデータ116及び命令118を格納することができる。
【0050】
いくつかの実施態様では、ユーザコンピューティングデバイス102は、1つまたは複数の予測モデル120を格納または含むことができる。例えば、予測モデル120は、ニューラルネットワーク(例えば、ディープニューラルネットワーク)、または非線形モデル及び/または線形モデルを含む他のタイプの機械学習済モデルなどの様々な機械学習済モデルであってもよいし、そうでなければそれを含むことができる。ニューラルネットワークには、フィードフォワードニューラルネットワーク、リカレントニューラルネットワーク(例えば長期短期記憶リカレントニューラルネットワーク)、畳み込みニューラルネットワーク、または他の形式のニューラルネットワークが含まれ得る。例示的な予測モデル120については、
図2、3、及び6~8を参照して説明する。
【0051】
いくつかの実施態様では、1つまたは複数の予測モデル120は、ネットワーク180を介してサーバコンピューティングシステム130から受信され、ユーザコンピューティングデバイスメモリ114に格納され、その後、1つまたは複数のプロセッサ112によって使用されるか、または別の方法で実装され得る。いくつかの実施態様では、ユーザコンピューティングデバイス102は、単一の予測モデル120の複数の並列インスタンスを実装することができる(例えば、混合物の組成の複数のインスタンスにわたって、並列の混合物特性予測を実行するため)。
【0052】
より具体的には、機械学習済予測モデルは、分子データ及び混合物データを取り込み、混合物データが記述する混合物の特性予測を出力するように、トレーニングすることができる。いくつかの実施態様では、分子データは、予測モデルによって処理される前に、埋め込みモデルで埋め込まれてもよい。
【0053】
加えて、または代わりに、1つ以上の予測モデル140は、クライアント-サーバの関係に従って、ユーザコンピューティングデバイス102と通信するサーバコンピューティングシステム130に含めるか、そうでなければ格納し、実装することができる。例えば、予測モデル140は、ウェブサービス(例えば、混合物特性予測サービス)の一部としてサーバコンピューティングシステム140によって実装することができる。したがって、1つまたは複数のモデル120をユーザコンピューティングデバイス102に格納及び実装することができ、及び/または1つまたは複数のモデル140をサーバコンピューティングシステム130に格納及び実装することができる。
【0054】
ユーザコンピューティングデバイス102はまた、ユーザの入力を受け取る1つまたは複数のユーザ入力コンポーネント122を含むこともできる。例えば、ユーザ入力コンポーネント122は、ユーザ入力オブジェクトのタッチ(例えば、指またはスタイラス)を感知するタッチ感知コンポーネント(例えば、タッチ感知表示画面またはタッチパッド)であり得る。タッチセンサコンポーネントは、仮想キーボードを実装するように機能し得る。他の例示的なユーザ入力コンポーネントには、マイク、従来のキーボード、またはユーザがユーザの入力をもたらせるその他の手段が含まれる。
【0055】
サーバコンピューティングシステム130は、1つまたは複数のプロセッサ132及びメモリ134を含む。1つまたは複数のプロセッサ132は、任意の適切な処理デバイス(例えば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であり得、1つのプロセッサまたは動作可能に接続されている複数のプロセッサであり得る。メモリ134は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、及びそれらの組み合わせなどの1つまたは複数の非一時的なコンピュータ可読記憶媒体を含むことができる。メモリ134は、サーバコンピューティングシステム130に動作を実行させるためにプロセッサ132によって実行されるデータ136及び命令138を格納することができる。
【0056】
いくつかの実施態様では、サーバコンピューティングシステム130は、1つまたは複数のサーバコンピューティングデバイスを含むか、またはそれによって実装される。サーバコンピューティングシステム130が複数のサーバコンピューティングデバイスを含む場合、そのようなサーバコンピューティングデバイスは、逐次コンピューティングアーキテクチャ、並列コンピューティングアーキテクチャ、またはそれらの組み合わせに従って動作することができる。
【0057】
上述したように、サーバコンピューティングシステム130は、1つ以上の機械学習済予測モデル140を格納するか、そうでなければ含むことができる。例えば、モデル140は、様々な機械学習されたモデルであってもよく、あるいはそれを含むことができる。例示的な機械学習済モデルには、ニューラルネットワークやその他の多層非線形モデルが含まれる。例示的なニューラルネットワークは、フィードフォワードニューラルネットワーク、ディープニューラルネットワーク、リカレントニューラルネットワーク、及び畳み込みニューラルネットワークを含む。例示的なモデル140については、
図2、3、及び6~8を参照して説明する。
【0058】
ユーザコンピューティングデバイス102及び/またはサーバコンピューティングシステム130は、ネットワーク180を介して通信可能に結合されたトレーニングコンピューティングシステム150とのインタラクションを介して、モデル120及び/または140をトレーニングすることができる。トレーニングコンピューティングシステム150は、サーバコンピューティングシステム130とは別個であってもよいし、サーバコンピューティングシステム130の一部であってもよい。
【0059】
トレーニングコンピューティングシステム150は、1つまたは複数のプロセッサ152及びメモリ154を含む。1つまたは複数のプロセッサ152は、任意の適切な処理デバイス(例えば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であり得、1つのプロセッサまたは動作可能に接続されている複数のプロセッサであり得る。メモリ154は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、及びそれらの組み合わせなどの1つまたは複数の非一時的なコンピュータ可読記憶媒体を含むことができる。メモリ154は、トレーニングコンピューティングシステム150に動作を実行させるためにプロセッサ152によって実行されるデータ156及び命令158を記憶することができる。いくつかの実施態様では、トレーニングコンピューティングシステム150は、1つまたは複数のサーバコンピューティングデバイスを含むか、またはそれによって実装される。
【0060】
トレーニングコンピューティングシステム150は、例えばエラーの逆方向伝播のような様々なトレーニングまたは学習技術を使用して、ユーザコンピューティングデバイス102及び/またはサーバコンピューティングシステム130に記憶された機械学習済モデル120及び/または140をトレーニングするモデルトレーナー160を含むことができる。例えば、損失関数は、(例えば、損失関数の勾配に基づいて)モデル(複数可)の1つまたは複数のパラメータを更新するために、モデル(複数可)を通して逆伝播され得る。平均二乗誤差、尤度損失、クロスエントロピー損失、ヒンジ損失、及び/または他の様々な損失関数など、様々な損失関数を使用できる。勾配降下法を使用すると、トレーニングを何回も繰り返してパラメータを繰り返し更新できる。
【0061】
いくつかの実施態様では、エラーの逆伝播を実行することは、時間が短縮された逆伝播を実行することを含むことができる。モデルトレーナー160は、トレーニング中のモデルの一般化能力を向上させるために、多くの一般化技術(例えば、重み減衰、ドロップアウトなど)を実行することができる。
【0062】
特に、モデルトレーナー160は、トレーニングデータ162のセットに基づいて予測モデル120及び/または140をトレーニングすることができる。トレーニングデータ162は、例えば、既知の分子特性ラベルを有する分子データ、既知の組成特性ラベルを有する混合物データ、及び既知の相互作用特性ラベルを有する混合物データなどのラベル付きトレーニングデータを含むことができる。
【0063】
いくつかの実施態様では、ユーザが同意した場合、トレーニングの例はユーザコンピューティングデバイス102によって提供され得る。したがって、そのような実施態様では、ユーザコンピューティングデバイス102に提供されるモデル120は、ユーザコンピューティングデバイス102から受信したユーザ固有のデータについて、トレーニングコンピューティングシステム150によって、トレーニングすることができる。場合によっては、このプロセスをモデルのパーソナライズと呼ぶこともある。
【0064】
モデルトレーナー160は、所望の機能をもたらすために利用されるコンピュータロジックを含む。モデルトレーナー160は、ハードウェア、ファームウェア、及び/または汎用プロセッサを制御するソフトウェアで実装することができる。例えば、いくつかの実施態様では、モデルトレーナー160は、記憶装置に記憶され、メモリにロードされ、1つまたは複数のプロセッサによって実行されるプログラムファイルを含む。他の実施態様では、モデルトレーナー160は、RAMハードディスク、光学媒体または磁気媒体などの有形のコンピュータ可読記憶媒体に記憶されるコンピュータ実行可能命令の1つまたは複数のセットを含む。
【0065】
ネットワーク180は、ローカルエリアネットワーク(例えば、イントラネット)、ワイドエリアネットワーク(例えば、インターネット)、またはそれらの何らかの組み合わせなどの任意のタイプの通信ネットワークであり得、任意の数の有線または無線リンクを含み得る。一般に、ネットワーク180上の通信は、多種多様な通信プロトコル(例えば、TCP/IP、HTTP、SMTP、FTP)、エンコーディングまたはフォーマット(例えば、HTML、XML)、及び/または保護スキーム(例えば、VPN、セキュアHTTP、SSLなど)を使用して、任意のタイプの有線及び/または無線接続を介して実行することができる。
【0066】
本明細書で説明されている機械学習済モデルは、様々なタスク、アプリケーション、及び/またはユースケースで使用できる。
【0067】
いくつかの実施態様では、本開示の機械学習済モデル(複数可)への入力は、画像データであり得る。機械学習済モデル(複数可)は画像データを処理して出力を生成できる。例として、機械学習済モデル(複数可)は、画像データを処理して画像認識出力(例えば、画像データの認識、画像データの潜在的な埋め込み、画像データの符号化表現、画像データのハッシュなど)を生成することができる。別の例として、機械学習済モデル(複数可)は、画像データを処理して分子グラフ出力を生成し、それを次いで埋め込みモデルと予測モデルで処理して特性予測を生成できる。
【0068】
いくつかの実施態様では、本開示の機械学習済モデル(複数可)への入力は、テキストまたは自然言語データであり得る。機械学習済モデル(複数可)はテキストまたは自然言語データを処理して出力を生成できる。例として、機械学習済モデル(複数可)は自然言語データを処理して検索クエリ出力を生成し得る。検索クエリの出力は、検索モデルによって処理されて、特定の特性を持つ混合物を検索し、その特定の特性を持つ1つまたは複数の混合物を出力できる。別の例では、機械学習済モデル(複数可)はテキストまたは自然言語データを処理して分類出力を生成できる。分類出力は、1つ以上の予測された特性を持つ混合物を記述することができる。別の例では、機械学習済モデル(複数可)はテキストまたは自然言語データを処理して予測出力を生成できる。
【0069】
いくつかの実施態様では、本開示の機械学習済モデル(複数可)への入力は、潜在符号化データ(例えば、入力の潜在空間表現など)であり得る。機械学習済モデル(複数可)は潜在的な符号化データを処理して出力を生成できる。例として、機械学習済モデル(複数可)は潜在的な符号化データを処理して認識出力を生成できる。別の例として、機械学習済モデル(複数可)は潜在的な符号化データを処理して再構成出力を生成できる。別の例として、機械学習済モデル(複数可)は潜在的な符号化データを処理して検索出力を生成できる。別の例として、機械学習済モデル(複数可)は潜在的な符号化データを処理して再クラスタリング出力を生成できる。別の例として、機械学習済モデル(複数可)は潜在的な符号化データを処理して予測出力を生成できる。
【0070】
いくつかの実施態様では、本開示の機械学習済モデル(複数可)への入力は、統計データであり得る。機械学習済モデル(複数可)は統計データを処理して出力を生成できる。例として、機械学習済モデル(複数可)は統計データを処理して認識出力を生成できる。別の例として、機械学習済モデル(複数可)は統計データを処理して予測出力を生成できる。別の例として、機械学習済モデル(複数可)は統計データを処理して分類出力を生成できる。別の例として、機械学習済モデル(複数可)は統計データを処理して分割出力を生成できる。別の例として、機械学習済モデル(複数可)は統計データを処理して分割出力を生成できる。別の例として、機械学習済モデル(複数可)は統計データを処理して視覚化出力を生成できる。別の例として、機械学習済モデル(複数可)は統計データを処理して診断出力を生成できる。
【0071】
いくつかの実施態様では、本開示の機械学習済モデル(複数可)への入力は、センサデータであり得る。機械学習済モデル(複数可)はセンサデータを処理して出力を生成できる。例として、機械学習済モデル(複数可)はセンサデータを処理して認識出力を生成できる。別の例として、機械学習済モデル(複数可)はセンサデータを処理して予測出力を生成できる。別の例として、機械学習済モデル(複数可)はセンサデータを処理して分類出力を生成できる。別の例として、機械学習済モデル(複数可)はセンサデータを処理して分割出力を生成できる。別の例として、機械学習済モデル(複数可)はセンサデータを処理して分割出力を生成できる。別の例として、機械学習済モデル(複数可)はセンサデータを処理して視覚化出力を生成できる。別の例として、機械学習済モデル(複数可)はセンサデータを処理して診断出力を生成できる。
【0072】
いくつかの場合において、入力に視覚データが含まれており、タスクはコンピュータビジョンタスクである。いくつかの場合において、入力には1つ以上の画像のピクセルデータが含まれており、タスクは画像処理タスクである。例えば、画像処理タスクは画像分類であり得、出力はスコアのセットであり、各スコアは異なるオブジェクトクラスに対応し、1つまたは複数の画像がそのオブジェクトクラスに属するオブジェクトを描写する尤度を表す。画像処理タスクはオブジェクト検出であってもよく、画像処理出力は、1つまたは複数の画像の1つまたは複数の領域、及び領域ごとに、その領域が対象のオブジェクトを表す尤度を識別する。別の例として、画像処理タスクは画像の分割であり得、画像処理出力は、1つまたは複数の画像の各ピクセルについて、所定のカテゴリのセットの各カテゴリに対するそれぞれの尤度を定義する。別の例として、カテゴリのセットをオブジェクトクラスにすることができる。
【0073】
図1Aは、本開示を実装するために使用できるコンピューティングシステムの一例を示す。他のコンピューティングシステムも同様に使用できる。例えば、いくつかの実施態様では、ユーザコンピューティングデバイス102は、モデルトレーナー160及びトレーニングデータセット162を含むことができる。このような実施態様では、モデル120は、ユーザコンピューティングデバイス102においてローカルにトレーニング及び使用することができる。このような実施態様のいくつかでは、ユーザコンピューティングデバイス102は、モデルトレーナー160を実装して、ユーザ固有のデータに基づいてモデル120をパーソナライズすることができる。
【0074】
図1Bは、本開示の例示的な実施形態に従って実行する例示的なコンピューティングデバイス10のブロック図を示す。コンピューティングデバイス10は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスであり得る。
【0075】
コンピューティングデバイス10は、多数のアプリケーション(例えば、アプリケーション1からN)を含む。各アプリケーションには、独自の機械学習ライブラリと機械学習済モデル(複数可)が含まれている。例えば、各アプリケーションには機械学習済モデルを含めることができる。例示的なアプリケーションには、テキストメッセージングアプリケーション、電子メールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどが含まれる。
【0076】
図1Bに示すように、各アプリケーションは、例えば、1つ以上のセンサ、コンテキストマネージャ、デバイス状態コンポーネント、及び/または追加のコンポーネントなど、コンピューティングデバイスの他の多くのコンポーネントと通信することができる。いくつかの実施態様では、各アプリケーションは、API(例えば、パブリックAPI)を使用して各デバイスコンポーネントと通信することができる。一部の実施態様では、各アプリケーションで使用されるAPIは、そのアプリケーションに固有である。
【0077】
図1Cは、本開示の例示的な実施形態に従って実行する例示的なコンピューティングデバイス50のブロック図を示す。コンピューティングデバイス50は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスであり得る。
【0078】
コンピューティングデバイス50は、多数のアプリケーション(例えば、アプリケーション1からN)を含む。各アプリケーションは中央のインテリジェンス層と通信する。例示的なアプリケーションは、テキストメッセージングアプリケーション、電子メールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。一部の実施態様では、各アプリケーションは、API(すべてのアプリケーションにわたる共通APIなど)を使用して中央インテリジェンス層(及びそこに格納されているモデル(複数可))と通信できる。
【0079】
中央インテリジェンス層には、多数の機械学習済モデルが含まれている。例えば、
図1Cに示すように、それぞれの機械学習済モデル(例えば、モデル)をアプリケーションごとに提供し、中央インテリジェンス層によって管理することができる。他の実施態様では、2つ以上のアプリケーションが単一の機械学習済モデルを共有できる。例えば、いくつかの実施態様では、中央インテリジェンス層は、すべてのアプリケーションに対して単一のモデル(例えば、単一のモデル)を提供することができる。いくつかの実施態様では、中央インテリジェンス層は、コンピューティングデバイス50のオペレーティングシステム内に含まれるか、またはさもなければそれによって実装される。
【0080】
中央インテリジェンス層は、中央デバイスデータ層と通信できる。中央デバイスデータ層は、コンピューティングデバイス50のためのデータの集中リポジトリであり得る。
図1Cに示すように、中央デバイスデータ層は、例えば、1つ以上のセンサ、コンテキストマネージャ、デバイス状態コンポーネント、及び/または追加のコンポーネントなど、コンピューティングデバイスの他の多くのコンポーネントと通信することができる。いくつかの実施態様では、中央デバイスデータ層は、API(例えば、プライベートAPI)を使用して各デバイスコンポーネントと通信することができる。
【0081】
例示的なモデルの配置
いくつかの実施態様では、システム及び方法は、データを処理するためにグラフニューラルネットワーク(GNN)及びディープニューラルネットワーク(DNN)を含むことができる。このシステム及び方法は、混合物、及び混合物がどのように作用し得るかをよりよく理解するために、正規化結合エネルギー(NBE)及び混合物中の分子の濃度を考慮に入れることができる。グラフニューラルネットワーク(GNN)、ディープニューラルネットワーク(DNN)、及び正規化結合エネルギー(NBE)は、それぞれの頭字語として表記することもあり、濃度は、Xの濃度を[X]のように表記し得る。
【0082】
いくつかの実施態様では、システムは、予測に濃度依存性を考慮し、その後、全体として混合物をモデル化することを含むことができる。このシステムは、GNNで分子データを処理して分子埋め込みを生成することを含むことができる(すなわち、molecule_embedding=GNN(分子))。次に、分子埋め込みをDNNで処理してNBEデータを生成できる(つまり、NBE=DNN(molecule_embedding))。分子のNBE及び混合物中の分子の濃度は、次いでソフトマックス層を含み得る様々な層によって処理され得、他のすべての処理されたNBE及び混合物中の他の分子の濃度と共にプールされて、受容体活性化データ(例えば、receptor_activations=sum(softmax([NBE+log[M],0])[:-1]))を生成することができる。いくつかの実施態様では、生成された受容体活性化データは、次いで、知覚臭気応答データを生成するためにDNNで処理され得る(すなわち、perceptual_odor_response=DNN(receptor_activations))。代替的に及び/または追加的に、システムは、分子埋め込みを生成するためにGNNで分子データを処理することを含むプロセスを簡素化することができ(すなわち、molecule_embedding=GNN(molecule))、その後、分子埋め込みをDNNで処理して、知覚臭気応答データを生成し得る(すなわち、perceptual_odor_response=DNN(molecule_embedding))。
【0083】
いくつかの実施態様では、システム及び方法は、混合物のモデリング及び特性予測の生成を支援するために、適切な基質スコアを判定し、及び/または特徴ベクトルを生成することができる。いくつかの実施態様では、適切な基質スコアは、DNNで分子埋め込みを処理し、シグモイド活性化関数を適用し、結果を連結することによって判定することができる(例えば、proper_substrate_score=concat(sigmoid(DNN(molecule_embedding)),[0]))。同様に、特徴ベクトルは、分子の濃度、分子の正規化された結合エネルギー、及びソフトマックス活性化関数(例えば、OR_vector=softmax([NBE+log[M],0]))を使用して生成され得る。混合物モデリングでは、その後、適切な基質スコアと特徴ベクトルを使用して、ベクトルをスコアでスケーリングし、次いで結果を合計することによって、受容体活性化データを判定することができる(例えば、receptor_activations=sum(proper_substrate_score*OR_vector))。さらに、次いで受容体活性化データは、知覚臭気応答データを判定するために使用することができる(例えば、perceptual_odor_response=DNN(receptor_activations))。
【0084】
いくつかの実施態様では、分子の阻害を予測に織り込むことができる。例えば、システム及び方法は、分子の正規化結合エネルギーを判定するのと同様のプロセスを通じて、正規化結合エネルギーに関連する阻害データを判定することができる。分子データをGNNで処理して分子埋め込みを生成し、次いでその分子埋め込みをDNNで処理して阻害データを生成できる。このデータは、inhibition_NBE=DNN(molecule_embedding)と表すことができる。次に、阻害データを使用して、ソフトマックス層を含む様々な層で各分子の阻害データと濃度データを処理し、結果を合計することによって、受容体阻害データを判定することができる(例えば、receptor_inhibitions=sum(softmax([inhibition_NBE+log[M],0])[:-1]))。受容体活性化データと受容体阻害データを使用して、正味の受容体活性化データ(例えば、net_receptor_activations=receptor_activations*(1-receptor_inhibitions))を計算できる。これを使用して、DNNで知覚臭気応答データを生成できる(例えば、perceptual_odor_response=DNN(net_receptor_activations))。
【0085】
いくつかの実施態様では、各知覚臭気応答関数及びモデルは、混合物の全体的な特性予測に組み込まれてもよい。例えば、濃度依存性、競合的阻害を伴う混合物、及び非競合的阻害を伴う混合物は、様々な関数、アーキテクチャ、及びモデルを使用して、全体的な機械学習済予測モデルに組み込むことができる。
【0086】
いくつかの実施態様では、システム及び方法は、分子を個別に処理して、埋め込みモデルまたは第1の機械学習済モデルを用いて分子の個々の特性を判定するための特殊なフレームワークを含み得る。これらのシステム及び方法は、分子の1つまたは複数の知覚(例えば、嗅覚、味覚、触覚など)特性を予測するために、分子の化学構造データと併せて機械学習済モデル(例えば、グラフニューラルネットワーク)を含むか、さもなければ利用することができる。特に、このシステム及び方法は、単一分子の嗅覚特性(例えば、「甘い」、「松のような」、「洋ナシ」、「腐った」などのラベルを使用して表現される、人間が知覚する匂い)を、分子の化学構造に基づいて、予測し得る。さらに、いくつかの実施態様では、機械学習済グラフニューラルネットワークをトレーニングし、分子の化学構造をグラフィカルに記述するグラフを処理して、分子の嗅覚特性を予測するために、使用することができる。特に、グラフニューラルネットワークは、分子の化学構造のグラフ表現に直接作用して(例えば、グラフ空間内で畳み込みを実行し)、分子の嗅覚特性を予測することができる。一例として、グラフは、原子に対応するノードと、原子間の化学結合に対応するエッジを含むことができる。したがって、本開示のシステム及び方法は、機械学習済モデルの使用を通じて、これまで評価されていなかった分子の匂いを予測する予測データを提供することができる。個々の分子の機械学習済モデルは、例えば、分子について評価された嗅覚特性の説明(例えば、「甘い」、「松のような」、「洋ナシ」、「腐った」などの匂いのカテゴリのテキストによる説明)でラベル付けされた(例えば、専門家によって手動で)分子の記述(例えば、分子の構造記述、分子の化学構造のグラフベースの記述など)を含むトレーニングデータを使用して、トレーニングすることができる。
【0087】
したがって、第1の機械学習済モデル、つまり埋め込みモデルは、定量的構造-臭気関係(QSOR)モデリングにグラフニューラルネットワークを使用し得る。グラフニューラルネットワークから学習された埋め込みは、構造と匂いの間の基礎的な関係を表す意味のある匂い空間表現をキャプチャする。
【0088】
より具体的には、分子の構造とその嗅覚特性(例えば、人間により観測されるような分子の香り)との間の関係は複雑であり、今日まで、一般に、そのような関係についてほとんど知られていない。したがって、本開示のシステム及び方法は、目に見えない分子の嗅覚知覚特性の予測を取得するための深層学習及び十分に活用されていないデータソースの使用を提供し、それにより、所望の知覚特性を有する分子の識別及び開発の改善を可能にする。例えば、市販のフレーバー、フレグランス、または化粧品に有用な新しい化合物の開発、単一分子からの薬物の精神活性効果の予測において専門知識を向上させることなどを可能にする。
【0089】
より具体的には、本開示の一態様によれば、グラフニューラルネットワークモデルなどの機械学習済モデルをトレーニングして、分子の化学構造の入力グラフに基づく分子の知覚特性(例えば、嗅覚特性、味覚特性、触覚特性など)の予測をもたらすことができる。例えば、機械学習済モデルには、例えば分子の化学構造の標準化された記述(例えば、簡易分子入力ライン入力システム(SMILES)文字列など)に基づいて、分子の化学構造の入力グラフ構造が提供され得る。機械学習済モデルは、例えば分子が人間にとってどのような匂いであるかを説明する嗅覚特性のリストなど、分子の予測された知覚特性の記述を含む出力を提供することができる。例えば、酢酸イソアミルの化学構造を表すSMILES文字列「O=C(OCCC(C)C)C」などのSMILES文字列を提供でき、機械学習済モデルは、出力としてその分子は人間にとってどのような匂いがするだろうかということの説明、例えば「果物、バナナ、リンゴ」などの分子的匂い特性の説明を提供できる。特に、いくつかの実施態様では、SMILES文字列または化学構造の他の記述の受信に応答して、システム及び方法は、その文字列を、分子の二次元構造をグラフィカルに記述するグラフ構造に変換することができ、グラフ構造またはグラフ構造から導出される特徴のいずれかから分子の嗅覚特性を予測できる機械学習済モデル(例えば、トレーニングされたグラフ畳み込みニューラルネットワーク及び/または他のタイプの機械学習済モデル)をグラフ構造に提供することができる。二次元グラフに加えて、または二次元グラフに代えて、システム及び方法は、例えば量子化学計算を使用して、機械学習済モデルへの入力として分子の三次元グラフ表現を作成することを提供することができる。
【0090】
いくつかの例では、予測は、分子が特定の所望の嗅覚知覚性質(例えば、標的の香りの知覚など)を有するか否かを示すことができる。いくつかの実施形態では、予測データは、分子の予測された嗅覚特性に関連する1つまたは複数のタイプの情報を含むことができる。例えば、分子の予測データは、分子を1つの嗅覚特性クラス及び/または複数の嗅覚特性クラスに分類することをもたらすことができる。場合によっては、クラスは人間(例えば、専門家)が提供したテキストラベル(例えば、酸っぱい、チェリー、松のような、など)を含むことができる。場合によっては、クラスには、香りの連続性での位置など、香り/匂いの非テキスト表現が含まれる場合がある。場合によっては、分子の予測データには、予測された香り/匂いの強度を表す強度の値が含まれる場合がある。場合によっては、予測データは、予測された嗅覚知覚特性に関連付けられた信頼値を含むことができる。
【0091】
分子の特定の分類に加えて、またはその代わりに、予測データは、2つ以上の埋め込み間の距離の尺度に基づいて、2つ以上の分子間の類似性検索、クラスタリング、またはその他の比較を可能にする数値埋め込みを含めることができる。例えば、一部の実施態様では、トリプレットトレーニングスキームを使用して機械学習済モデルをトレーニングすることにより、類似性の測定に使用できる埋め込みを出力するように機械学習済モデルをトレーニングできる。このスキームでは、モデルは、類似した化学構造のペア(アンカーの例とポジティブの例など)の埋め込み空間でより近い埋め込みを出力するようにトレーニングされ、異なる化学構造のペア(アンカーとネガティブの例など)の埋め込み空間でより遠くにある埋め込みを出力するようにトレーニングされる。さらに、これらのモデルの出力は、様々なモデルの混合物の特性を予測するために、第2の機械学習済モデルによって処理されるように構成することができる。
【0092】
したがって、いくつかの実施態様では、本開示のシステム及び方法は、機械学習済モデルへの入力のための分子を記述する特徴ベクトルの生成を必要としない場合がある。むしろ、機械学習済モデルに元の化学構造のグラフ値形式の入力を直接提供できるため、嗅覚特性の予測に必要なリソースが削減される。例えば、機械学習済モデルへの入力として分子のグラフ構造を使用できるようにすることで、知覚特性を判定するためにそのような分子構造を実験的に作成する必要がなく、新しい分子構造を概念化して評価できるため、新しい分子構造を評価する能力が大幅に向上し、大幅にリソースが節約される。
【0093】
さらに、いくつかの実施態様では、複数の既知の分子を含むトレーニングデータを取得して、1つまたは複数の機械学習済モデル(例えば、グラフ畳み込みニューラルネットワーク、他のタイプの機械学習済モデル)をトレーニングして分子の嗅覚的性質の予測をもたらすことができる。例えば、いくつかの実施形態では、機械学習済モデルは、分子の1つまたは複数のデータセットを使用してトレーニングすることができ、データセットは、分子ごとに、化学構造及び知覚特性のテキスト記述(例えば、人間の専門家などにより提供される分子の匂いの記述など)を含むことができる。一例として、トレーニングデータは、例えば、化学構造及びそれらに対応する匂いに関する公的に入手可能な香水業界のリストなどの業界のリストから得ることができる。いくつかの実施形態では、一部の知覚特性がまれであるという事実により、機械学習済モデル(複数可)をトレーニングするときに、共通の知覚特性とまれな知覚特性とのバランスを取るためのステップを講じることができる。
【0094】
本開示の別の態様によれば、いくつかの実施形態では、システム及び方法は、分子構造の変化が、予測される知覚特性にどのように影響するかを示すものを提供することができる。これらの変更は、後に第2の機械学習済モデルによって処理されて相互作用特性予測が生成され、これを使用して全体的な混合物特性予測を生成することができる。例えば、システム及び方法は、分子構造の変化が特定の知覚特性の強度にどのように影響し得るか、分子構造の変化が望ましい知覚特性に対してどの程度壊滅的な影響を与えるかなどの指標を提供することができる。いくつかの実施態様では、システム及び方法は、分子の構造から1つまたは複数の原子及び/または原子群を追加及び/または除去して、1つまたは複数の所望の知覚特性に対するそのような追加/除去の効果を判定することを提供し得る。例えば、化学構造に対して様々な変更を繰り返し実行し、次いでその結果を評価して、そのような変更が分子の知覚特性にどのような影響を与えるかを理解することができる。さらに別の例として、機械学習済モデルの分類関数の勾配は、入力グラフの各ノード及び/またはエッジで(例えば、機械学習済モデルを介した逆伝播を介して)評価(例えば、特定のラベルに関して)し、感度マップ(例えば、入力グラフの各ノード及び/またはエッジがそのような特定のラベルの出力にとってどれほど重要かを示す)を生成することができる。さらに、いくつかの実施態様では、対象のグラフを取得することができ、グラフにノイズを追加することによって同様のグラフをサンプリングすることができ、その後、サンプリングされたグラフごとに、結果として得られる感度マップの平均を、対象のグラフの感度マップとして取得することができる。同様の技術を実行して、異なる分子構造間の知覚の違いを判定することができる。
【0095】
いくつかの実施態様では、システム及び方法は、分子の構造のどの側面が予測される匂いの質に最も寄与しているかを解釈及び/または視覚化することを提供することができる。例えば、いくつかの実施態様では、分子の構造のどの部分が分子の知覚特性にとって最も重要であるか、及び/または分子の構造のどの部分が、分子の知覚特性にそれほど重要ではないかの指標を提供する分子構造をオーバーレイするためにヒートマップを生成することができる。いくつかの実施態様では、分子構造の変化が嗅覚にどのような影響を与えるかを示すデータを使用して、その構造が、予測される嗅覚の質にどのように寄与するかの視覚化を生成することができる。例えば、上で説明したように、分子の構造に対する反復的な変更(例えば、ノックダウン技術など)及びそれらの対応する結果を使用して、化学構造のどの部分が嗅覚に最も寄与しているかを評価することができる。別の例として、上述のように、勾配技術を使用して化学構造の感度マップを生成することができ、その後、それを使用して視覚化(例えば、ヒートマップの形式で)を生成することができる。
【0096】
さらに、いくつかの実施態様では、機械学習済モデル(複数可)は、1つまたは複数の所望の知覚特性を提供する分子の化学構造の予測を生成するようにトレーニングされてもよい(例えば、特定の香りの質を生み出す分子の化学構造を生成するなど)。例えば、いくつかの実施態様では、反復的な検索を実行して、1つまたは複数の所望の知覚特性(例えば、標的とする香りの質、強度など)を示すと予測される提案された分子(複数可)を特定することができる。例えば、反復的な検索により、機械学習済モデル(複数可)によって評価できる多数の候補分子の化学構造が提案され得る。一例では、候補分子構造は、進化的または遺伝的プロセスを通じて生成され得る。別の例として、候補分子構造は、生成された候補分子構造が1つ以上の所望の知覚特性を示すかどうかの関数であるリワードを最大化するポリシーを学習しようとする強化学習エージェント(例えばリカレントニューラルネットワーク)によって生成することができる。
【0097】
したがって、いくつかの実施態様では、機械学習済モデルへの入力として使用するために、各候補分子の化学構造を記述する複数の候補分子グラフ構造を生成(例えば、反復生成)することができる。各候補分子のグラフ構造を機械学習済モデルに入力して評価できる。機械学習済モデルは、各候補分子または1つまたは複数の候補分子の1つまたは複数の知覚特性を記述する分子群の予測データを生成することができる。次いで、候補分子予測データを1つ以上の所望の知覚特性と比較して、候補分子(複数可)が所望の知覚特性(例えば、実行可能な分子候補など)を示すかどうかを判定することができる。例えば、比較は、リワードを生成するために(例えば、強化学習スキームにおいて)、または候補分子を保持するか破棄するかを判定するために(例えば、進化学習スキームにおいて)実行することができる。ブルートフォース検索アプローチも使用できる。さらなる実施態様では、上記の進化学習構造または強化学習構造を有する場合も有さない場合もあり、1つまたは複数の所望の知覚特性を示す候補分子の検索は、最適化に対する制約が所望する特性ごとに定義されたマルチパラメータ最適化問題として構造化することができる。
【0098】
このシステム及び方法は、所望の嗅覚特性と共に、分子構造に関連する他の特性を予測、識別、及び/または最適化することを可能にすることができる。例えば、機械学習済モデル(複数可)は、光学特性(例えば、透明度、反射性、色など)、味覚特性(例えば、「バナナ」、「酸っぱい」、「辛い」などの味)保存安定性、特定のpHレベルでの安定性、生分解性、毒性、産業上の利用可能性などの分子構造の特性を予測または識別することができる。
【0099】
本開示の別の態様によれば、本明細書に記載の機械学習済モデルを能動的な学習技術で使用して、広範囲の候補をより小さな分子セットまたは混合物に絞り込み、その後手動で評価することができる。本開示の他の態様によれば、システム及び方法は、反復的な設計-試験-改良プロセスにおいて、特定の特性を有する分子及び/または混合物の合成を可能にすることができる。例えば、機械学習済モデルからの予測データに基づいて、開発用の分子または混合物を提案できる。その後、分子または混合物を合成し、次いで特殊なテストを行うことができる。次いで、テストからのフィードバックは設計段階に戻され、分子を改良して望ましい特性などをより良く達成することができる。
【0100】
分子特性の予測に利用される方法、アーキテクチャ、動機、及び実践は、他の初期予測に採用または利用することができ、全体の混合物特性予測に利用することができる。
【0101】
いくつかの実施態様では、いくつかの特性予測は、最初に判定された特性予測に基づいて判定され得る。二次的に判定される特性予測は、既知の伝達特性及び未学習の汎用記述子(例えば、SMILES文字列、モーガン指紋、ドラゴン記述子など)を利用することによって判定することができる。これらの記述子は通常、複雑な構造の相互関係を伝えるのではなく、分子を「特徴づける」ことを目的としている。例えば、一部の既存のアプローチの中には、モーガン指紋やドラゴン記述子などの汎用のヒューリスティック特徴を備えた分子を特徴づけたり、表現したりするものもある。しかし、汎用の特徴付け戦略では、特定の種の分子の嗅覚やその他の感覚特性の予測など、特定のタスクに関連する重要な情報が強調されていないことがよくある。例えば、モーガンの指紋は通常、類似した分子の「検索」用に設計されている。モーガンの指紋には通常、分子の空間的配置が含まれていない。それでも、この情報は有用である可能性があるが、空間理解から恩恵を受ける可能性のある嗅覚の場合など、一部の設計の場合には、それだけでは不十分な場合がある。それにもかかわらず、利用可能なトレーニングデータの量が少ないスクラッチトレーニングモデルが、モーガンの指紋モデルに勝つ可能性は低い。
【0102】
別の既存のアプローチは、感覚特性の物理ベースのモデリングである。例えば、物理学に基づくモデリングには、感覚(例えば、嗅覚)受容体または感覚関連(例えば、嗅覚関連)タンパク質の計算モデリングが含まれ得る。例えば、嗅覚受容体標的の計算モデルがあれば、高スループットのドッキングスクリーニングを実行して、目的のタスクの分子候補を見つけることが可能である。ただし、すべての候補者に対して考えられるすべての対話をモデル化するには計算コストがかかり得るため、特定のタスクではこれが複雑になる可能性がある。さらに、感覚特性の物理学に基づくモデリングには、受容体の物理的構造、その結合ポケット、及びそのポケットでの化学リガンドの位置など、当面の作業に関する明確な知識が必要になる場合があるが、これらは容易に入手できない場合がある。さらに、分子のいくつかの特性(例えば、薬学的特性、材料特性)は容易に学習できるが、特に感覚特性(例えば、嗅覚特性)などの一部の感覚/知覚特性は、予測することが困難な場合がある。これは、エタノール、プラスチック、シャンプー、石鹸、布地などの特定の香りの化学物質の基剤が、化学物質の知覚される匂いに影響を与える可能性があるという事実によって、さらに複雑になる可能性がある。例えば、同じ化学物質でも、エタノールベースでは、例えば石鹸ベースと比べて、異なって知覚される可能性がある。したがって、ある塩基に大量の利用可能なトレーニングデータがある化学物質であっても、別の塩基には限られた量のデータしか存在しない可能性がある。
【0103】
例えば、防虫剤の分野では、いくつかの潜在的な防虫剤はアンタゴニストまたは二次阻害剤として作用する可能性があり、考えられるそれぞれの相互作用をモデル化するには計算コストが高くなる。さらに、多くの感覚受容体のみ、物理的構造が利用できない可能性があり、そのため従来のドッキングシミュレーションが不可能になる可能性がある。例えば、防虫剤スクリーニングの観点から見ると、化学的特性を予測するために使用される既存の方法には、詳細な分子動力学シミュレーションまたは結合モード予測を介して、受容体ポケットの特定の分子のドッキングをシミュレートすることが含まれる。しかし、これらの方法は、結合する特定の受容体の結晶構造などの新しいドメインで機能するために、高価な、または取得が困難な事前のデータを必要とする。知覚(香り、味など)は何百種類もの受容体が共働的に活性化した結果であり、また化学的知覚に関与するごくわずかな受容体の結晶構造が知られているため、このアプローチは不可能であるか、過度に複雑であることがよくある。
【0104】
本開示の例示的な態様は、これら及び他の課題に対する解決策を提供することができる。本開示の態様によれば、機械学習済感覚予測モデルは、第1の感覚予測タスクでトレーニングされ、第2の感覚予測タスクに関連付けられた予測を出力するために使用され得る。一例として、第1の感覚予測タスクは、第2の感覚予測タスクよりも広範な感覚予測タスクであってもよい。例えば、モデルは広範なタスクでトレーニングされ、狭いタスクに転送され得る。一例として、第1のタスクは広範な特性タスクであってもよく、第2のタスクは特定の特性タスク(例えば、嗅覚)であってもよい。加えて及び/または代わりに、第1の感覚予測タスクは、第2の感覚予測タスクよりも大量のトレーニングデータが利用可能なタスクであってもよい。加えて及び/または代わりに、第1の感覚予測タスクは第1の種に関連付けられ得て、第2の感覚予測タスクは第2の種に関連付けられ得る。一例として、第1の感覚予測タスクは人間の嗅覚タスクであってもよい。さらに、及び/または代わりに、第2の感覚予測タスクは、蚊よけタスクなどの害虫防除タスクであってもよい。
【0105】
一例として、感覚埋め込みモデルをトレーニングして、第1の感覚予測タスク用の感覚埋め込みを生成することができる。感覚埋め込みは、感覚埋め込みが第1の予測タスク(例えば、より広範なタスク)に特有であるように、より大きな利用可能なデータセットなどの第1の感覚予測タスクから学習することができる。しかしながら、第1の予測タスクに関してトレーニングされているにもかかわらず、本開示の例示的な態様によれば、この感覚埋め込みは他の(例えば、より狭い)感覚予測タスクに有用な情報を取得できることが認識される。さらに、この感覚埋め込みは、別様には機械学習または正確な予測が困難及び/または不可能であるタスクなどの第1の感覚予測タスクよりも利用可能なデータが少ない第2の感覚予測タスクの別のドメインで、正確な予測を生成するために、転送、微調整、またはそうでなければ変更することができる。
【0106】
一例として、感覚埋め込みモデルは、第1の予測タスクモデルと並行してトレーニングできる。感覚埋め込みモデル及び第1の予測タスクモデルは、第1の予測タスクの(例えば、ラベル付けされた)第1の予測タスクトレーニングデータを使用してトレーニングすることができる。例として、感覚埋め込みモデルをトレーニングして、第1の予測タスクに対する感覚埋め込みを生成することができる。これらの感覚埋め込みは、第2の予測タスクに役立つ情報を取得できる。第1の予測タスクトレーニングデータに基づいて第1の予測タスクモデルを用いて感覚埋め込みモデルをトレーニングした後、感覚埋め込みモデルを第2の予測タスクモデルと共に使用して、第2の予測タスクに関連付けられた予測を出力することができる。いくつかの場合には、感覚埋め込みモデルは、第2の予測タスクに関連付けられた第2の予測タスクトレーニングデータに関してさらに洗練され、微調整され、またはそうでなければ継続的にトレーニングされ得る。いくつかの実施態様では、第1の予測タスクから学習した情報が直感的に学習されなくなることを防ぐために、モデルは、第1の予測タスクよりも第2の予測タスクで低いトレーニングレートでトレーニングされてもよい。いくつかの実施態様では、第2の予測タスクの利用可能なデータが第1の予測タスクよりも少ない場合など、第2の予測タスクトレーニングデータの量は、第1の予測タスクトレーニングデータの量より少なくてもよい。
【0107】
機械学習済モデルは、例えば、分子について評価された感覚特性の説明(例えば、嗅覚特性)(例えば、「甘い」、「松のような」、「洋ナシ」、「腐った」などの匂いのカテゴリのテキストによる説明)でラベル付けされた(例えば、専門家によって手動で)分子などの第1の感覚予測タスクに対する分子及び/または混合物の記述(例えば、分子の構造記述、分子の化学構造のグラフベースの記述など)を含むトレーニングデータを使用して、トレーニングすることができる。例えば、嗅覚分子に関するこれらの説明は、例えば人間の知覚に関連している可能性がある。そのとき、これらのモデルは、第1の感覚予測タスクとは異なる第2の感覚予測タスクに使用できる。例えば、第2の感覚予測タスクは、人間以外の知覚に関連する場合がある。例えば、いくつかの実施態様では、モデルは、異なる種の分子の知覚特性にわたって転移される。
【0108】
このようにして、高い予測パフォーマンスを依然達成しながら、大規模なデータセットでトレーニングされたモデルを、より小さなデータセットを持つタスクに、転移できる。特に、感覚(例えば、嗅覚)予測タスクのために種を越えて学習を転移する場合、感覚埋め込みは予測の質を大幅に向上させることができることが観察されている。これらの感覚埋め込みは、ドメイン内の転移学習を超えて、異種間の知覚など、さらに異なる性質のパフォーマンスを向上させることができる。これは特に化学分野では予想外である。例えば、感覚埋め込みは、第2の予測タスクモデルの入力として直接取得され得る。次に、感覚埋め込みモデルを微調整して、第2の感覚予測タスクでトレーニングすることができる。予想外なことに、第2の感覚予測タスクと第1の感覚予測タスクは、過度に類似している必要はない。例えば、十分な区別(例えば、異種間、異なるドメインなど)を有する予測タスクであっても、依然、本開示の例示的な態様によれば利点が見出され得る。
【0109】
したがって、本開示のいくつかの例示的な態様は、定量的構造臭気関係(QSOR)モデリングなどの異なるドメインにわたる嗅覚、味覚、及び/または他の感覚モデリングのための、グラフニューラルネットワークなどのニューラルネットワークの使用を提案することを対象とする。グラフニューラルネットワークは、嗅覚やその他の感覚のモデリングにとって重要であり得る空間情報を表現できる。本明細書に記載されるシステム及び方法の例示的実施態様は、嗅覚の専門家によってラベル付けされた新規データセットに対して従来の方法よりも大幅に優れた能力を発揮する。さらに、グラフニューラルネットワークから学習された感覚埋め込みは、構造と匂いの間の基礎的な関係を表す意味のある匂い空間表現を取得する。これらの学習された感覚埋め込みは、感覚埋め込みの生成に使用されるモデルが学習されるドメイン以外のドメインに、予期せず適用される可能性がある。例えば、人間の感覚認識データに基づいてトレーニングされたモデルは、他の種の知覚及び/または他の領域など、人間の感覚知覚領域の外側で予期せず望ましい結果を達成する可能性がある。例えば、グラフニューラルネットワークを使用すると、感覚モデリングアプリケーションに有益な空間的理解をモデルに提供できる。
【0110】
いくつかの実施態様では、第1の予測タスク及び/または第2の予測タスクの予測は、分子が特定の所望の感覚性質(例えば、標的の香りの知覚など)を有するかどうかを示すことができる。いくつかの実施態様では、予測データは、分子の予測された感覚特性(例えば、嗅覚特性)に関連する1つまたは複数のタイプの情報を含むことができる。例えば、分子の予測データは、分子を1つの感覚特性(例えば、嗅覚特性)クラス及び/または複数の感覚特性(例えば、嗅覚特性)クラスに分類することをもたらすことができる。場合によっては、クラスは人間(例えば、専門家)が提供したテキストラベル(例えば、酸っぱい、チェリー、松のような、など)を含むことができる。場合によっては、クラスには、香りの連続性での位置など、香り/匂いの非テキスト表現が含まれる場合がある。場合によっては、分子の予測データには、予測された香り/匂いの強度を表す強度の値が含まれる場合がある。場合によっては、予測データは、予測された嗅覚知覚特性に関連付けられた信頼値を含むことができる。別の例として、いくつかの実施態様では、予測データは、分子が特定のタスク(例えば、害虫防除タスク)でどの程度うまく機能するかを記述し得る。
【0111】
分子の特定の分類に加えて、またはその代わりに、予測データは、2つ以上の感覚埋め込み間の距離の尺度に基づいて、2つ以上の分子間の類似性検索、クラスタリング、またはその他の比較を可能にする数値の感覚埋め込みを含めることができる。例えば、一部の実施態様では、トリプレットトレーニングスキームを使用して機械学習済モデルをトレーニングすることにより、類似性の測定に使用できる埋め込みを出力するように機械学習済モデルをトレーニングできる。このスキームでは、モデルは、類似した化学構造のペア(アンカーの例とポジティブの例など)の感覚埋め込み空間でより近い感覚埋め込みを出力するようにトレーニングされ、異なる化学構造のペア(アンカーとネガティブの例など)の感覚埋め込み空間でより遠くにある感覚埋め込みを出力するようにトレーニングされる。本開示の例示的な態様によれば、これらの出力される感覚埋め込みは、異種タスクなどの異なるタスクにおいても使用することができる。
【0112】
本開示の別の態様では、複数の既知の分子を含むトレーニングデータを取得して、1つまたは複数の機械学習済モデル(例えば、グラフ畳み込みニューラルネットワーク、他のタイプの機械学習済モデル)をトレーニングして分子の感覚特性(例えば、嗅覚特性)の予測をもたらすことができる。例えば、いくつかの実施形態では、機械学習済モデルは、分子の1つまたは複数のデータセットを使用してトレーニングすることができ、データセットは、分子ごとに、化学構造及び知覚特性のテキスト記述(例えば、人間の専門家などにより提供される分子の匂いの記述など)を含む。一例として、トレーニングデータは、例えば、化学構造及びそれらの対応する匂いの公的に入手可能なリストなどの公的に入手可能なデータから得ることができる。いくつかの実施形態では、一部の知覚特性がまれであるという事実により、機械学習済モデル(複数可)をトレーニングするときに、共通の知覚特性とまれな知覚特性とのバランスを取るためのステップを講じることができる。本開示の例示的な態様によれば、トレーニングデータは、第1の感覚予測タスクのために提供されてもよく、トレーニングデータは、モデルの全体的な目的である第2の感覚予測タスクよりも広く利用可能である。次いで、モデルは、第2の感覚予測タスク用の(限定された)量のトレーニングデータで第2の感覚予測タスク用に再トレーニングされてもよく、及び/またはさらなるトレーニングを行わずに第2の感覚予測タスクにそのまま使用されてもよい。
【0113】
さらに、いくつかの実施態様では、システム及び方法は、分子構造の変化が、予測される知覚特性(例えば、第2の予測タスク)にどのように影響し得るかを示すものを提供することができる。例えば、システム及び方法は、分子構造の変化が特定の知覚特性の強度にどのように影響し得るか、分子構造の変化が望ましい知覚特性に対してどの程度壊滅的な影響を与えるかなどの指標を提供することができる。いくつかの実施形態では、システム及び方法は、分子の構造から1つまたは複数の原子及び/または原子群を追加及び/または除去して、1つまたは複数の所望の知覚特性に対するそのような追加/除去の効果を判定することを提供し得る。例えば、化学構造に対して様々な変更を繰り返し実行し、次いでその結果を評価して、そのような変更が分子の知覚特性にどのような影響を与えるかを理解することができる。さらに別の例として、機械学習済モデルの分類関数の勾配は、入力グラフの各ノード及び/またはエッジで(例えば、機械学習済モデルを介した逆伝播を介して)評価(例えば、特定のラベルに関して)し、感度マップ(例えば、入力グラフの各ノード及び/またはエッジがそのような特定のラベルの出力にとってどれほど重要かを示す)を生成することができる。さらに、いくつかの実施態様では、対象のグラフを取得することができ、グラフにノイズを追加することによって同様のグラフをサンプリングすることができ、その後、サンプリングされたグラフごとに、結果として得られる感度マップの平均を、対象のグラフの感度マップとして取得することができる。同様の技術を実行して、異なる分子構造間の知覚の違いを、判定することができる。
【0114】
さらに、本開示のシステム及び方法は、分子構造のどの側面が予測される感覚の質に最も寄与するかを解釈及び/または視覚化することを提供することができる(例えば、第2の予測タスクについて)。例えば、いくつかの実施形態では、分子の構造のどの部分が分子の知覚特性にとって最も重要であるか、及び/または分子の構造のどの部分が、分子の知覚特性にそれほど重要ではないかの指標を提供する分子構造をオーバーレイするためにヒートマップを生成することができる。いくつかの実施態様では、分子構造の変化が嗅覚にどのような影響を与えるかを示すデータを使用して、その構造が、予測される嗅覚の質にどのように寄与するかの視覚化を生成することができる。例えば、上で説明したように、分子の構造に対する反復的な変更(例えば、ノックダウン技術など)及びそれらの対応する結果を使用して、化学構造のどの部分が嗅覚に最も寄与しているかを評価することができる。別の例として、上述のように、勾配技術を使用して化学構造の感度マップを生成することができ、その後、それを使用して視覚化(例えば、ヒートマップの形式で)を生成することができる。
【0115】
機械学習済モデル(複数可)は、1つまたは複数の所望の知覚特性を提供する分子の化学構造または混合物の化学的配合物の予測を生成するようにトレーニングされてもよい(例えば、特定の香りの質を生み出す分子の化学構造を生成するなど)。例えば、いくつかの実施態様では、反復的な検索を実行して、1つまたは複数の所望の知覚特性(例えば、標的とする香りの質、強度など)を示すと予測される提案された分子(複数可)または混合物を特定することができる。例えば、反復的な検索により、機械学習済モデル(複数可)によって評価できる多数の候補分子の化学構造または混合物の化学的配合物が提案され得る。一例では、候補分子構造は、進化的または遺伝的プロセスを通じて生成され得る。別の例として、候補分子構造は、生成された候補分子構造が1つ以上の所望の知覚特性を示すかどうかの関数であるリワードを最大化するポリシーを学習しようとする強化学習エージェント(例えばリカレントニューラルネットワーク)によって生成することができる。本開示の例示的な態様によれば、この知覚特性分析は、第1の感覚予測タスクとは異なる第2の感覚予測タスクに関連することができる。
【0116】
このシステム及び方法は、所望の感覚特性(例えば、嗅覚特性)と共に、分子構造に関連する他の特性を予測、識別、及び/または最適化することを可能にすることができる。例えば、機械学習済モデル(複数可)は、モデル(複数可)が以前にトレーニングされた第1の感覚予測タスクとは異なる第2の感覚予測タスクに対し、光学特性(例えば、透明度、反射性、色など)、嗅覚特性(例えば、果物、花などの香りを思わせる香りなどの香り)、味覚特性(例えば、「バナナ」、「酸っぱい」、「辛い」などの味)保存安定性、特定のpHレベルでの安定性、生分解性、毒性、産業上の利用可能性などの分子構造の特性を予測または識別することができる。
【0117】
いくつかの実施態様では、機械学習済モデルを、能動的な学習技術で使用して、広範囲の候補をより小さな分子セットまたは混合物に絞り込み、その後手動で評価することができる。代替的に及び/または追加的に、システム及び方法は、反復的な設計-試験-改良プロセスにおいて、特定の特性を有する分子及び/または混合物の合成を可能にすることができる。例えば、機械学習済モデルからの予測データに基づいて、開発用の混合物を提案できる。その後、混合物を配合し、次いで特殊なテストを行うことができる。テストからのフィードバックは、次いで設計段階に戻され、混合物を改良して所望の特性などをより適切に達成できる。例えば、テストの結果をトレーニングデータとして使用して、機械学習済モデルを再トレーニングすることができる。再トレーニング後、次いでモデルからの予測を再度使用して、テスト対象の特定の分子または混合物を識別できる。したがって、モデルを使用して候補を選択し、次いで候補のテスト結果を使用してモデルを再トレーニングし得るなどの反復的なパイプラインを評価できる。
【0118】
例えば、本開示の1つの例示的実施態様では、モデルは、トレーニングデータとして容易に利用できる大量の人間の知覚データを使用してトレーニングされる。次に、モデルは、分子または混合物が優れた蚊よけ剤となるかどうかの予測、新しいフレーバー分子の発見など、少なくともある程度関連する化学問題に移行する。モデル(ニューラルネットワークなど)はまた、嗅覚関連の問題に焦点を当てた表現を生成するためのスタンドアロンの分子埋め込みツールにパッケージ化することもできる。これらの表現は、動物に似た匂いを嗅ぐ、または似た行動を引き起こす匂いを検索するために使用できる。本明細書で説明される埋め込み空間は、さらに、電子匂い知覚システム(例えば、「電子鼻」)を設計するためのコーデックとしても有用であり得る。
【0119】
別の例として、動物の誘引及び/または忌避のタスクには、特定の感覚特性が望ましい場合がある。例えば、第1の感覚予測タスクは、分子または混合物の化学構造に基づく人間の嗅覚タスク、人間の味覚タスクなどの人間の感覚タスクであり得る。第1の感覚特性は、人間の嗅覚知覚特性及び/または人間の味覚知覚特性などの人間の知覚特性であり得る。第2の感覚予測タスクは、別の種の関連する感覚タスクなど、人間以外の感覚タスクにすることができる。第2の感覚予測タスクは、追加的に及び/または代替的に、特定の種に対する誘引剤及び/または忌避剤としての分子の能力であるか、またはそれを含むことができる。例えば、特性は、所望の種を誘引する(例えば、動物性食品への組み込みなど)、または望ましくない種を忌避する(例えば、防虫剤)際の分子の能力を示し得る。
【0120】
例えば、これには、蚊よけ、殺虫剤などの害虫防除用途が含まれ得る。例えば、蚊よけは、蚊を忌避し、ウイルスや病気の伝播に寄与する刺咬を防ぐのに役立つ可能性がある。例えば、人間及び/または動物の嗅覚系に関連するサービスまたは技術は、様々な実施態様における例示的な態様によるシステム及び方法に潜在的に使用を見出せる可能性がある。例示的な実施態様には、例えば、蚊よけ、作物の健常性、家畜の健常性、個人の健康、建物/インフラの健常性、及び/または他の適切な害虫に対する忌避剤など、防虫剤または他の害虫駆除に適した臭気を見つけるためのアプローチが含まれ得る。例えば、本明細書に記載されるシステム及び方法は、感覚知覚データがほとんどまたはまったく入手できない動物であっても、標的種の昆虫または他の動物用の忌避剤、殺虫剤、誘引剤などを設計するのに有用であり得る。一例として、第1の感覚予測タスクは、分子構造データに基づいて人間の嗅覚知覚ラベルを予測する人間の嗅覚タスクなど、人間の感覚に関連する感覚予測タスクであり得る。第2の感覚予測タスクには、蚊などの別の種を忌避する際の分子の能力を予測することが含まれる場合がある。
【0121】
別の例として、本開示の例示的な態様によるシステム及び方法は、毒物学及び/または他の安全性研究に応用できる可能性がある。例として、第1の感覚予測タスク及び/または第2の感覚予測タスクは、毒性予測タスクであってもよい。感覚特性は、化学構造に基づいて化学物質の毒性に関連している可能性がある。別の例として、本開示の例示的な態様によるシステム及び方法は、既存の分子と似た匂いを発するが、色などの物理的特性が異なる分子を発見するなど、関連する嗅覚タスクに移行する際に有益であり得る。
【0122】
図2は、本開示の例示的な実施形態による例示的な特性予測システム200のブロック図を示す。いくつかの実施態様では、特性予測システム200は、混合物中の分子を記述する入力データ202、204、206、及び208のセットを受信するようにトレーニングされ、入力データ202、204、206、及び208の受信の結果として、混合物の予測特性を記述する1つまたは複数の特性予測を含む出力データ216を提供する。したがって、いくつかの実施態様では、特性予測システム200は、分子埋め込みを生成するように動作可能な1つまたは複数の埋め込みモデル(複数可)212と、1つまたは複数の特性予測216を生成するように動作可能な機械学習済予測モデル214とを含むことができる。
【0123】
特性予測システム200は、1つまたは複数の特性予測216を生成するための入力データの2段階処理を含むことができる。例えば、図示のシステム200では、入力データは、混合物中の各分子のそれぞれの分子データ202、204、206、及び208を含む分子データを含むことができ、分子データはN個の分子を記述することができ、混合物データ210は、N個の分子の混合物の組成を記述する。システム200は、1つまたは複数の埋め込みモデル(複数可)212を用いて分子データを処理して、機械学習済予測モデル214によって処理される1つまたは複数の埋め込みを生成することができる。いくつかの実施態様では、埋め込みモデル212は、1つまたは複数のグラフを生成するグラフニューラルネットワーク(GNN)を含むことができる。いくつかの実施態様では、各個々の分子に関連するそれぞれの分子データが個別に処理され得、各埋め込みが単一の分子を表すことができるように、分子データを処理することができる。
【0124】
埋め込み及び混合物データ210は、1つ以上の特性予測216を生成する機械学習済予測モデル214により処理され得る。機械学習済予測モデル214は、ディープニューラルネットワーク及び/または他の様々なアーキテクチャを含むことができる。さらに、特性予測216は、混合物に関連する様々な特性に関連する様々な予測を含むことができる。例えば、特性予測216は、後にフレグランスを作成するために使用される嗅覚特性予測などの感覚特性予測を含むことができる。
【0125】
さらに、この実施態様では、第1の分子202、第2の分子204、第3の分子206、...、及び第nの分子208は、理論上の混合物において同じ濃度であっても異なる濃度であってもよい。システムは、分子の濃度に基づいて1つ以上の埋め込みに重み付けをしてもよい。重み付けは、埋め込みモデル212、機械学習済予測モデル214、及び/または第3の別個の重み付けモデルによって完了することができる。
【0126】
図3は、本開示の例示的な実施形態による例示的な特性予測システム300のブロック図を示す。特性予測システム300は、特性予測システム300が3つの初期予測をさらに含むことを除いて、
図2の特性予測システム200と同様である。
【0127】
より具体的には、図示のシステム300は、全体的な特性予測330が生成される前に行われる3つの初期予測を含む。例えば、システム300は、個々の分子予測310、混合物組成特性予測322、及び混合物相互作用特性予測324を行うことができ、これらはすべて全体的な特性予測330に織り込むことができる。
【0128】
システム300は、入力データ310を取得することから始めることができ、それには、分子データ及び一組の分子との混合物を記述する混合物データを含めることができる。入力データは、分子固有の予測310を生成するために第1のモデルによって処理することができ、いくつかの実施態様では、予測310は濃度固有の予測であり得る。濃度予測310は、濃度のレベルに基づいて重み付けされ得、様々な分子の予測がプールされ得る。
【0129】
次に、第1のモデルの出力は、2つのサブモデルを含むことができる第2のモデル320によって処理することができる。第1のサブモデルは、データを処理し、混合物の全体的な組成に関連する組成固有の特性予測322を出力することができる。第2のサブモデルは、データを処理し、混合物の予測された相互作用及び/または予測された外部相互作用に関連する相互作用固有の特性予測324を出力することができる。
【0130】
3つの初期予測を処理して、初期予測のそれぞれに基づいて全体的な特性予測330を生成し、混合物をよりよく理解できるようにすることができる。例えば、各個々の分子はそれぞれ独自の匂いの特性を持っている可能性があるが、特定の組成物では一部の分子特性がより一般的になる可能性がある。さらに、様々な分子及び分子セットの相互作用特性により、特定の臭気特性が変化、増強、または薄まる可能性がある。したがって、各初期予測により、混合物全体の匂いや味などについての洞察が得られる。
【0131】
図4は、本開示の例示的な実施形態による例示的な特性予測要求システム400のブロック図を示す。いくつかの実施態様では、特性予測要求システム400は、個々の分子の既知の特性及び混合物相互作用の既知の特性を記述する一組のトレーニングデータ442及び444を受信するようにトレーニングされ、トレーニングデータ442及び444の受信の結果として、1つ以上の混合物の特性予測を判定して格納する。したがって、いくつかの実施態様では、特性予測要求システム400は、混合物特性を予測し格納するように動作可能な予測コンピューティングシステム402を含むことができる。
【0132】
図4に示される特性予測要求システム400は、システム400全体を構成するために相互に通信することができる予測コンピューティングシステム410、要求元コンピューティングシステム430、及びトレーニングコンピューティングシステム440を含む。
【0133】
いくつかの実施態様では、特性予測要求システムは、後に要求されたら生成する混合物の特性を予測し格納し得る、トレーニングされた予測コンピューティングシステム410に依存することができる。予測コンピューティングシステム410をトレーニングすることは、予測コンピューティングシステム410の機械学習済モデル412及び414をトレーニングするためのトレーニングデータを提供することができるトレーニングコンピューティングシステム440の使用を含むことができる。例えば、トレーニングコンピューティングシステム440は、第1の機械学習済モデル(例えば、埋め込みモデル)412をトレーニングするための分子トレーニングデータ442と、第2の機械学習済モデル(例えば、ディープニューラルネットワーク)414をトレーニングするための混合物トレーニングデータ444とを有し得る。トレーニングデータには、様々な分子、組成、及び相互作用の既知の特性を含めることができ、トレーニングデータを受信すると、後で参照するために予測コンピューティングシステムに格納できる。いくつかの実施態様では、トレーニングデータは、機械学習済モデルのグラウンドトゥルーストレーニングを完了するために、特定の混合物の既知の特性を含むことができる、ラベル付きトレーニングデータセットを含むことができる。
【0134】
さらに、予測コンピューティングシステム410は、参照用、再トレーニング用、またはデータの集中化のために、分子データ416及び混合物データ418を格納することができる。代替的に及び/または追加的に、分子データ416をサンプリングして、混合物特性予測のデータベースを生成することができる。サンプリングはランダムであってもよいし、既知の分子特性、分子カテゴリ、及び/または分子の存在量に基づいてサンプリングに影響され得る。分子データ416及び混合物データ418は、第1の機械学習済モデル410及び第2の機械学習済モデルによって処理されて、予測システムによって格納420される混合物の特性予測を生成することができる。
【0135】
次いで、格納されたデータ420は、予測コンピューティングシステムと要求元コンピューティングシステム430との間の通信を介して検索可能またはアクセス可能であってもよい。要求元コンピューティングシステム430は、ユーザが特定の混合物または特定の特性に関連する検索クエリまたは要求を入力するためのユーザインターフェース434を含むことができる。入力に応答して、要求元コンピューティングシステム430は、予測コンピューティングシステム410に送信して格納されたデータを検索またはスクリーニングして、1つまたは複数の結果を取得及び提供することができる要求432を生成することができる。次いで、1つまたは複数の結果を要求元コンピューティングシステムに返すことができ、それは、ユーザインターフェースを介して1つまたは複数の結果をユーザに表示することができる。いくつかの実施態様では、結果は、検索クエリ/要求に関連付けられた、または検索クエリ/リクエストと一致する特性予測を含む1つまたは複数の混合物である場合がある。いくつかの実施態様では、結果は、混合物及びそれらのそれぞれの特性予測を含む混合物特性プロファイルとして提供され得る。
【0136】
図5は、本開示の例示的な実施形態による例示的な混合物特性プロファイル500のブロック図を示す。いくつかの実施態様では、混合物特性プロファイル500は、特性のスクリーニングまたは検索のために、それぞれの混合物に関する特性予測を受け取り、格納するようにトレーニングされる。したがって、いくつかの実施態様では、混合物特性プロファイル500は、混合物の予測された特性を記述する様々な特性予測を含むことができる。
【0137】
図5の例示的な混合物特性プロファイル500は、特性予測、既知の特性、または既知及び予測された特性の混合で埋めることができる様々な特性カテゴリのグリッドを含む。いくつかの実施態様では、混合物特性プロファイル500は、混合物、予測された特性、混合物または混合物中の分子のグラフィック描写、及び/または混合物中の分子、及び/または混合物内の相互作用混合物の組成に関連する初期予測を含む特性予測の理由を含み得る。
【0138】
混合物特性プロファイル500に表示されるいくつかの例示的な特性は、臭気特性504、味覚特性506、色特性508、粘度特性510、潤滑剤特性512、熱特性514、エネルギー特性516、医薬特性518、安定性特性520、触媒特性522、接着特性524、及びその他雑多の特性526を含み得る。
【0139】
各特性は、要求またはクエリに応じて、所望の特性を備えた混合物を取得するために検索可能であり得る。さらに、各特性は、消費者向け、産業向けなどを含む様々な異なる分野で使用するための望ましい洞察を提供する可能性がある。例えば、臭気特性504には、臭気の質の特性と臭気強度の特性を含めることができ、これらはフレグランス、香水、キャンドルなどを作るために利用することができる。味覚特性506を利用して、キャンディ、ビタミン、または他の消耗品用の人工香料を製造することができる。特性の予測は、予測された受容体の相互作用及び活性化に少なくとも部分的に基づくことができる。混合物の色を予測するために使用することができる、または着色特性を含むことができる色特性508など、他の特性を製品のマーケティングのために使用することができる。着色特性を予測して、混合物が他の製品に着色する可能性があるかどうかを判断できる。粘度特性510は、予測及び格納された別の特性であってもよい。
【0140】
他の特性予測は、機械力学のための潤滑剤特性512をもたらすなどの産業用途に関連することができ、エネルギー特性516はより良い電池を製造するために使用することができる。医薬品はまた、これらの特性予測から得られた知識に基づいて改良または配合され得る。
【0141】
図9Aは、予測された特性を有する新しい混合物のデータベースを生成するために使用できる、例示的な進化的アプローチ900を示す。提案された混合物は、各それぞれの提案された混合物についての分子データ及び混合物データ902を有することができる。分子データ及び混合物データ902は、機械学習特性予測システム904によって処理され得て、提案された混合物の予測特性906を生成することができる。次に、予測特性906は、目的関数908によって処理されて、トップパフォーマーのコーパス910への追加が行われるべきか、それとも破棄されるべきかを決定することができる。ランダムな突然変異が発生し得、プロセスが再び開始される可能性がある。進化的アプローチ900は、様々な製品及び産業で使用するために人間の実践者によるスクリーニングに利用できる有用な混合物の大規模なデータベースを生成するのに役立ち得る。
【0142】
図9Bは、モデルの最適化に使用できる例示的な強化学習アプローチ950を示す。進化的アプローチ900と同様に、強化学習アプローチ950は、機械学習特性予測システムによって処理され、予測特性906を生成する、提案された混合物の分子データ及び混合物データ902から開始することができる。次に、予測特性906は、目的関数912によって処理されて、機械学習コントローラ914への出力をもたらし、システムに提案をすることができる。いくつかの実施態様では、機械学習コントローラはリカレントニューラルネットワークを含むことができる。いくつかの実施態様では、強化学習アプローチ950は、本明細書に開示される機械学習済モデルのパラメータを改良するのに役立ち得る。
【0143】
例示的な方法
図6は、本開示の例示的な実施形態による、実行される例示的な方法のフローチャートの図表を示す。
図6は、例示及び議論の目的で特定の順序で実行されるステップを示しているが、本開示の方法は、特に図示された順序または配置に限定されない。方法600の様々なステップは、本開示の範囲から逸脱することなく、様々な方法で省略、再配置、結合、及び/または適合させることができる。
【0144】
602で、コンピューティングシステムは、分子データ及び混合物データを取得することができる。分子データは、混合物の1つまたは複数の分子を記述するデータであり得、混合物データは混合物を記述することができる。いくつかの実施態様では、分子データは、複数の分子のそれぞれについてのそれぞれの分子データを含むことができ、混合物データは、混合物の化学的配合を記述することができる。データは、手動で入力されたデータまたは自動的にサンプリングされたデータによって取得できる。いくつかの実施態様では、分子データ及び混合物データはサーバから取得され得る。いくつかの実施態様では、混合物データは、混合物の各分子の濃度を含むことができる。
【0145】
604で、コンピューティングシステムは、埋め込みモデルを用いて分子データを処理して、1つまたは複数の埋め込みを生成することができる。複数の分子の各々に対するそれぞれの分子データは、分子ごとにそれぞれの埋め込みを生成するために、埋め込みモデルで処理され得る。いくつかの実施態様では、埋め込みモデルは、1つまたは複数のグラフの埋め込みを生成するグラフニューラルネットワークを含むことができる。埋め込みは、個々の分子特性を記述する埋め込みデータを含むことができる。
【0146】
606で、コンピューティングシステムは、機械学習された予測モデルを用いて埋め込み及び混合物データを処理することができる。機械学習済予測モデルには、ディープニューラルネットワークを含めることができ、それぞれの分子濃度に基づいて、埋め込みを重み付けしてプールできる重み付けモデルを含めることもできる。
【0147】
608で、コンピューティングシステムは、1つまたは複数の特性予測を生成することができる。1つまたは複数の特性予測は、1つ以上の埋め込み及び混合物データに少なくとも部分的に基づくことができる。さらに、予測は個々の分子の特性、混合物中の分子の濃度、混合物の組成、及び混合物の相互作用特性に基づいて行うことができる。いくつかの実施態様では、予測は、感覚予測、エネルギー予測、安定性予測、及び/または熱予測であり得る。
【0148】
610で、コンピューティングシステムは、1つまたは複数の特性予測を格納することができる。特性予測は、混合物と特性を簡単に検索できるように、検索可能なデータベースに格納できる。
【0149】
図7は、本開示の例示的な実施形態による、実行される例示的な方法のフローチャートの図表を示す。
図7は、例示及び議論の目的で特定の順序で実行されるステップを示しているが、本開示の方法は、特に図示された順序または配置に限定されない。方法700の様々なステップは、本開示の範囲から逸脱することなく、様々な方法で省略、再配置、結合、及び/または適合させることができる。
【0150】
702で、コンピューティングシステムは、分子データ及び混合物データを取得することができる。いくつかの実施態様では、分子データは、混合物の複数の分子を記述し得、混合物データは混合物を記述することができる。分子データと混合物データは、別々に取得してもよいし、同時に取得してもよい。
【0151】
704で、コンピューティングシステムは、埋め込みモデルを用いて分子データを処理して、埋め込みを生成することができる。埋め込みモデルはグラフの埋め込みモデルであってもよく、その埋め込みは、グラフの埋め込みであってもよい。いくつかの実施態様では、グラフの埋め込みを重み付けしてプールして、グラフのうちのグラフを生成することができる。いくつかの実施態様では、複数の分子の各々に対するそれぞれの分子データは、分子ごとにそれぞれの埋め込みを生成するために、分子特有セットとして、埋め込みモデルで処理され得る。
【0152】
706で、コンピューティングシステムは、機械学習された予測モデルを使用して埋め込みデータと混合物データを処理して、1つ以上の特性予測を生成することができる。特性予測には、様々な混合物特性に関する予測を含めることができ、様々な分野や業界で使用できる。
【0153】
708で、コンピューティングシステムは、1つまたは複数の特性予測を格納することができる。特性予測は、情報に簡単にアクセスできるように、検索可能なデータベースに格納できる。
【0154】
710で、コンピューティングシステムは、要求された特性との混合物に対する要求を取得し、要求された特性を構成する1つまたは複数の特性予測を判定することができる。要求は正式な要求である場合もあれば、ユーザインターフェースに入力された検索クエリである場合もある。いくつかの実施態様では、判定は、予測特性が要求された特性と一致するか、または検索クエリに関連付けられているかを判定することを含むことができる。
【0155】
712で、コンピューティングシステムは、混合物データを要求元コンピューティングデバイスに提供することができる。要求元コンピューティングデバイスは、テキストデータ、グラフデータなどを含む様々な形式で混合物データを受信することができる。いくつかの実施態様では、混合物データには、それぞれの混合物の特性予測を示す混合物特性プロファイルが提供され得る。
【0156】
図8は、本開示の例示的な実施形態による、実行される例示的な方法のフローチャートの図表を示す。
図8は、例示及び議論の目的で特定の順序で実行されるステップを示しているが、本開示の方法は、特に図示された順序または配置に限定されない。方法800の様々なステップは、本開示の範囲から逸脱することなく、様々な方法で省略、再配置、結合、及び/または適合させることができる。
【0157】
802で、コンピューティングシステムは、分子データ及び混合物データを取得することができる。
【0158】
804で、コンピューティングシステムは、分子データを第1のモデルで処理して、分子特性予測を生成することができる。いくつかの実施態様では、分子特性予測は、第2のモデルによって処理される前に、埋め込まれてもよい。
【0159】
806で、コンピューティングシステムは、分子特性予測と混合物データを第2のモデルで処理して、混合物特性予測を生成することができる。混合物特性予測は、分子特性予測及び1つまたは複数の分子の濃度に少なくとも部分的に基づくことができる。
【0160】
808で、コンピューティングシステムは、混合物の予測特性プロファイルを生成することができる。特性プロファイルは、混合物、混合物の特性予測、及び所望の分野での混合物の適用に必要なその他のデータを含む、組織化されたデータであり得る。
【0161】
810で、コンピューティングシステムは、予測特性プロファイルを検索可能なデータベースに格納することができる。検索可能なデータベースは、他のアプリケーションによって有効にし得、または、専用のインターフェースを備えたスタンドアロンの検索可能なデータベースであってもよい。
【0162】
追加の開示
ここで説明する技術では、サーバ、データベース、ソフトウェアアプリケーション、その他のコンピュータベースのシステム、ならびに実行されるアクション、及びそのようなシステムとの間で送受信される情報について言及する。コンピュータベースのシステムには固有の柔軟性があるため、コンポーネント間でのタスクと機能の多種多様な構成、組み合わせ、分割が可能である。例えば、本明細書で説明するプロセスは、単一のデバイスまたはコンポーネント、または組み合わせて動作する複数のデバイスまたはコンポーネントを使用して実装することができる。データベースとアプリケーションは、単一のシステムに実装することも、複数のシステムに分散して実装することもできる。分散させたコンポーネントは、順次または並行して動作できる。
【0163】
本発明の主題をその様々な特定の例示的な実施形態に関して詳細に説明してきたが、各例は説明のために提供されたものであり、本開示を限定するものではない。当業者は、前述の内容を理解すれば、そのような実施形態に対する変更、変形、及び等価物を容易に生み出すことができる。したがって、本開示は、当業者に容易に明らかなような、本主題に対するそのような修正、変形、及び/または追加を含むことを妨げるものではない。例えば、一実施形態の一部として図示または説明された特徴を別の実施形態と共に使用して、さらに別の実施形態を得ることができる。したがって、本開示はそのような変更、変形、及び均等物を網羅することが意図されている。
【国際調査報告】