(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-12
(45)【発行日】2024-07-23
(54)【発明の名称】相乗的な殺有害生物スクリーニングのためのシステム及び方法
(51)【国際特許分類】
G16C 20/00 20190101AFI20240716BHJP
G16C 20/70 20190101ALI20240716BHJP
G16C 20/30 20190101ALI20240716BHJP
G01N 33/15 20060101ALI20240716BHJP
A01P 3/00 20060101ALI20240716BHJP
A01P 13/00 20060101ALI20240716BHJP
A01P 5/00 20060101ALI20240716BHJP
A01P 7/04 20060101ALI20240716BHJP
A01P 11/00 20060101ALI20240716BHJP
A01P 1/00 20060101ALI20240716BHJP
A01P 7/02 20060101ALI20240716BHJP
A01P 9/00 20060101ALI20240716BHJP
【FI】
G16C20/00
G16C20/70
G16C20/30
G01N33/15 C
A01P3/00
A01P13/00
A01P5/00
A01P7/04
A01P11/00
A01P1/00
A01P7/02
A01P9/00
(21)【出願番号】P 2022519775
(86)(22)【出願日】2020-09-25
(86)【国際出願番号】 CA2020051285
(87)【国際公開番号】W WO2021056116
(87)【国際公開日】2021-04-01
【審査請求日】2023-09-19
(32)【優先日】2019-09-26
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-03-10
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】522123049
【氏名又は名称】テラメラ インコーポレイテッド
【氏名又は名称原語表記】TERRAMERA,INC.
(74)【代理人】
【識別番号】100105957
【氏名又は名称】恩田 誠
(74)【代理人】
【識別番号】100068755
【氏名又は名称】恩田 博宣
(74)【代理人】
【識別番号】100142907
【氏名又は名称】本田 淳
(72)【発明者】
【氏名】ランブリヌディス、コスタンティノス
(72)【発明者】
【氏名】ショカティアン、サデグ
(72)【発明者】
【氏名】ブイ、レ リン
(72)【発明者】
【氏名】スノー、オリバー
【審査官】塩田 徳彦
(56)【参考文献】
【文献】米国特許出願公開第2013/0288897(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16C 10/00 - 99/00
A01P 3/00
A01P 13/00
A01P 5/00
A01P 7/04
A01P 11/00
A01P 1/00
A01P 7/02
A01P 9/00
(57)【特許請求の範囲】
【請求項1】
1つ以上の有害生物に対する2つ以上の化合物間の相乗的相互作用の予測を生成するための方法であって、前記方法が、1つ以上のプロセッサによって実行され、
殺有害生物化合物の第1の表現を受信することと、
相乗的化合物の第2の表現を受信することと、
前記殺有害生物化合物の第1の化学的特徴及び前記相乗的化合物の第2の化学的特徴を前記それぞれの第1及び第2の表現に基づいて符号化することによって、前記殺有害生物化合物及び前記相乗的化合物を含む組成物の符号化された表現を生成することと、
1つ以上の有害生物に対する前記殺有害生物化合物と前記相乗的化合物との間の相乗的相互作用の1つ以上の予測を生成することと、を含み、前記生成することが、
分類器の訓練されたパラメータに基づいて、前記符号化された表現を変換することを含み、前記分類器の前記訓練されたパラメータが、少なくとも1つの訓練用の有害生物に対する少なくとも1つの組成物の化合物間の少なくとも1つの相乗的相互作用にわたって訓練されている、方法。
【請求項2】
相乗的相互作用の前記1つ以上の予測が、複数の予測を含み、前記方法が、前記複数の相乗効果予測を組み合わされた相乗効果に組み合わせることを更に含む、請求項1に記載の方法。
【請求項3】
前記方法が、前記複数の予測に基づいて、信頼区間、標準偏差、及び分散、のうちの少なくとも1つを判定することを更に含む、請求項2に記載の方法。
【請求項4】
前記分類器が、確率的分類器を備え、前記1つ以上の予測を生成することが、複数の反復にわたって、前記分類器の訓練されたパラメータに基づいて、前記符号化された表現を変換することと、各反復について予測を生成することと、を含む、請求項3に記載の方法。
【請求項5】
前記符号化された表現を生成することが、前記殺有害生物化合物の前記第1の化学的特徴に基づいて、第1の符号化された化合物表現を生成することと、前記相乗的化合物の前記第2の化学的特徴に基づいて、第2の符号化された化合物表現を生成することと、を含み、前記1つ以上の予測を生成することが、前記第1及び第2の符号化された化合物表現に基づいて、前記1つ以上の予測を生成することを含む、請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記符号化された表現を生成することが、前記第1及び第2の表現のうちの少なくとも1つよりも低い次元であるように前記符号化された表現を生成することを含む、請求項1~5のいずれか一項に記載の方法。
【請求項7】
前記符号化された表現を生成する前記ことが、エンコーダモデルの訓練されたパラメータに基づいて、前記それぞれの殺有害生物化合物及び相乗的化合物の前記第1及び第2の化学的特徴を前記符号化された表現に変換することを含む、請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記エンコーダモデルが、変分オートエンコーダのエンコーダ部分を備え、前記エンコーダ部分が、前記変分オートエンコーダの入力空間から潜在空間に前記第1及び第2の化学的特徴を変換するように動作可能である、請求項7に記載の方法。
【請求項9】
前記エンコーダモデルの前記訓練されたパラメータが、前記分類器の前記訓練されたパラメータとは異なる訓練セットにわたって訓練されている、請求項6~8のいずれか一項に記載の方法。
【請求項10】
前記1つ以上の有害生物に基づいて、複数の分類器から前記分類器を選択することを更に含む、請求項1~9のいずれか一項に記載の方法。
【請求項11】
前記1つ以上の有害生物の表現を受信することを更に含み、前記分類器を選択することが、前記1つ以上の有害生物の前記表現に基づいて、前記分類器を選択することを含む、請求項10に記載の方法。
【請求項12】
前記分類器が、複数の分類器のうちの第1の分類器であり、前記複数のうちの少なくとも第2の分類器が、前記1つ以上の有害生物とは異なる有害生物に対して訓練されており、前記複数の分類器から前記分類器を選択することが、前記1つ以上の有害生物に基づいて、前記第1及び第2の分類器のうちの1つを選択することを含む、請求項10~11のいずれか一項に記載の方法。
【請求項13】
前記分類器が、複数の成分分類器を備えるアンサンブル分類器を備え、前記複数の成分分類器が、少なくとも第1の成分分類器及び第2の成分分類器を備え、前記第1及び第2の成分分類器のそれぞれの訓練されたパラメータが各々、前記1つ以上の有害生物のうちの少なくとも1つに対する少なくとも1つの組成物の化合物間の少なくとも1つの相乗的相互作用にわたって訓練されている、請求項10~12のいずれか一項に記載の方法。
【請求項14】
1つ以上の予測を生成することが、前記第1の成分分類器に基づいて、第1の予測を生成することと、前記第2の成分分類器に基づいて、第2の予測を生成することと、を含む、請求項13に記載の方法。
【請求項15】
前記殺有害生物化合物及び前記相乗的化合物のうちの少なくとも1つの強調された表現を生成することを含み、前記強調された表現が、前記殺有害生物化合物及び前記相乗的化合物のうちの少なくとも1つの強調された化学的特徴を含み、前記強調された化学的特徴が、前記第1及び第2の表現に含まれない、請求項1~14のいずれか一項に記載の方法。
【請求項16】
前記強調された表現を生成することが、定量的構造-活性関係モデルの訓練されたパラメータに基づいて、前記強調された化学的特徴を判定することを含む、請求項15に記載の方法。
【請求項17】
第3の化合物の第3の表現を受信することと、前記第3の化合物の化学的特徴が除外ルールに一致すること、前記第3の化合物に対応する可用性値が閾値よりも小さいこと、前記第3の化合物と第4の化合物との間の類似性メトリックが閾値よりも大きいこと、前記第3の化合物の毒性指標が毒性基準に一致すること、のうちの少なくとも1つを判定することに基づいて、予測から、前記第3の化合物を含む除外組成物を除外することと、を含む、請求項1~16のいずれか一項に記載の方法。
【請求項18】
前記殺有害生物化合物が、殺真菌剤、除草剤、殺線虫剤、殺昆虫剤、殺細菌剤、殺鼠剤、抗ウイルス剤、殺ダニ剤、殺藻剤、及び殺軟体動物剤、からなる群から選択される、請求項1~17のいずれか一項に記載の方法。
【請求項19】
前記殺有害生物化合物及び相乗的化合物のうちの少なくとも1つの芳香族性の表現、電気陰性度の表現、極性の表現、親水性/疎水性の表現、及びハイブリダイゼーションの表現からなる群からの前記第1及び第2の化学的特徴のうちの少なくとも1つを選択することを含む、請求項1~18のいずれか一項に記載の方法。
【請求項20】
前記1つ以上の有害生物が、前記少なくとも1つの訓練用の有害生物を含み、そのため、分類器の訓練されたパラメータに基づいて、前記符号化された表現を変換することであって、前記分類器の前記訓練されたパラメータが、少なくとも1つの訓練用の有害生物に対する少なくとも1つの組成物の化合物間の少なくとも1つの相乗的相互作用にわたって訓練されている、変換することが、分類器の訓練されたパラメータに基づいて、前記符号化された表現を変換することであって、前記分類器の前記訓練されたパラメータが、前記1つ以上の有害生物のうちの少なくとも1つに対する少なくとも1つの組成物の化合物間の少なくとも1つの相乗的相互作用にわたって訓練されている、変換することを含む、請求項1~19のいずれか一項に記載の方法。
【請求項21】
前記少なくとも1つの訓練用の有害生物が、殺有害生物作用モードを前記1つ以上の有害生物のうちの少なくとも1つと共有し、そのため、分類器の訓練されたパラメータに基づいて、前記符号化された表現を変換することであって、前記分類器の前記訓練されたパラメータが、少なくとも1つの訓練用の有害生物に対する少なくとも1つの組成物の化合物間の少なくとも1つの相乗的相互作用にわたって訓練されている、変換することが、分類器の訓練されたパラメータに基づいて、前記符号化された表現を変換することであって、前記分類器の前記訓練されたパラメータが、殺有害生物作用モードを前記1つ以上の有害生物のうちの少なくとも1つと共有する少なくとも1つの訓練用の有害生物に対する少なくとも1つの組成物の化合物間の少なくとも1つの相乗的相互作用にわたって訓練されている、変換することを含む、請求項1~20のいずれか一項に記載の方法。
【請求項22】
前記分類器の前記訓練されたパラメータが、
複数の訓練用組成物の各々についての重要性メトリックを判定することと、
前記複数の訓練用組成物から、1つ以上の高重要性組成物を、前記1つ以上の高重要性組成物の各々についての前記重要性メトリックに基づいて選択することと、
前記1つ以上の高重要性組成物に基づいて、前記分類された前記訓練されたパラメータを更新することと、によって訓練されている、請求項1~21のいずれか一項に記載の方法。
【請求項23】
所与の組成物の前記重要性メトリックを判定することが、前記訓練用組成物の殺有害生物化合物と前記訓練用組成物の相乗的化合物との間の前記相乗的相互作用の1つ以上の訓練予測の分散に基づいて、前記所与の訓練用組成物の前記重要性メトリックを判定することを含む、請求項22に記載の方法。
【請求項24】
1つ以上の高重要性組成物を選択することが、代表性基準に基づいて、前記1つ以上の高重要性組成物を選択することを含む、請求項22~23のいずれか一項に記載の方法。
【請求項25】
代表性基準に基づいて、前記1つ以上の高重要性組成物を選択することが、前記複数の訓練用組成物の複数のクラスタを判定することと、前記複数のクラスタのうちの少なくとも2つの各々から少なくとも1つの高重要性組成物を選択することと、を含む、請求項24に記載の方法。
【請求項26】
前記複数の訓練用組成物の前記複数のクラスタを判定することが、前記訓練用組成物のうちの第1の訓練用組成物の少なくとも1つの化合物を表す少なくとも1つのグラフと、前記訓練用組成物のうちの第2の訓練用組成物の少なくとも1つの化合物を表す少なくとも1つのグラフとの間のグラフ類似性メトリックを判定することを含む、請求項25に記載の方法。
【請求項27】
コンピュータシステムであって、
1つ以上のプロセッサと、
命令を記憶しているメモリと、を備え、前記命令が、前記1つ以上のプロセッサに、
殺有害生物化合物の第1の表現を受信することと、
相乗的化合物の第2の表現を受信することと、
前記殺有害生物化合物の第1の化学的特徴及び前記相乗的化合物の第2の化学的特徴を前記それぞれの第1及び第2の表現に基づいて符号化することによって、前記殺有害生物化合物及び前記相乗的化合物を含む組成物の符号化された表現を生成することと、
1つ以上の有害生物に対する前記殺有害生物化合物と前記相乗的化合物との間の相乗的相互作用の1つ以上の予測を生成することと、を含む動作を実行させ、前記生成することが、
分類器の訓練されたパラメータに基づいて、前記符号化された表現を変換することを含み、前記分類器の前記訓練されたパラメータが、少なくとも1つの訓練用の有害生物に対する少なくとも1つの組成物の化合物間の少なくとも1つの相乗的相互作用にわたって訓練されている、コンピュータシステム。
【請求項28】
前記動作が、請求項2~26のいずれか一項に記載の行為を実行することを更に含む、請求項27に記載のコンピュータシステム。
【請求項29】
命令を記憶している非一時的な機械可読媒体であって、前記命令が、1つ以上のプロセッサに、
殺有害生物化合物の第1の表現を受信することと、
相乗的化合物の第2の表現を受信することと、
前記殺有害生物化合物の第1の化学的特徴及び前記相乗的化合物の第2の化学的特徴を前記それぞれの第1及び第2の表現に基づいて符号化することによって、前記殺有害生物化合物及び前記相乗的化合物を含む組成物の符号化された表現を生成することと、
1つ以上の有害生物に対する前記殺有害生物化合物と前記相乗的化合物との間の相乗的相互作用の1つ以上の予測を生成することと、を含む動作を実行させ、前記生成することが、
分類器の訓練されたパラメータに基づいて、前記符号化された表現を変換することと、を含み、前記分類器の前記訓練されたパラメータが、少なくとも1つの訓練用の有害生物に対する少なくとも1つの組成物の化合物間の少なくとも1つの相乗的相互作用にわたって訓練されている、非一時的な機械可読媒体。
【請求項30】
前記動作が、請求項2~26のいずれか一項に記載の行為を実行することを更に含む、請求項29に記載の非一時的な機械可読媒体。
【請求項31】
1つ以上の有害生物に対する2つ以上の化合物間の相乗的相互作用の予測を評価する方法であって、前記方法が、
請求項1~26のいずれか一項に記載の方法によって、殺有害生物化合物と相乗的化合物との間の相乗的相互作用の予測を判定することと、
前記殺有害生物化合物と前記相乗的化合物とを組み合わせて、組成物を得ることと、
試験環境において前記1つ以上の有害生物を前記組成物に曝露することと、
殺有害生物としての前記組成物の有効性を評価することと、を含む、方法。
【請求項32】
殺有害生物組成物を調合する方法であって、
請求項1~26のいずれか一項に記載の方法によって、1つ以上の有害生物に対する殺有害生物化合物と相乗的化合物との間の相乗的相互作用の予測を判定することと、
前記相乗的相互作用の前記予測が既定されたレベルの確率を満たすか又は超えると判定することと、
前記殺有害生物化合物及び前記相乗的化合物を含有するように前記殺有害生物組成物を調合することと、を含む、方法。
【請求項33】
殺有害生物組成物を製造する方法であって、
請求項1~26のいずれか一項に記載の方法によって、殺有害生物化合物と相乗的化合物との間の相乗的相互作用の複数の予測を判定することであって、前記複数の予測の各1つが、複数の殺有害生物化合物のうちの1つと、複数の相乗的化合物のうちの対応する1つとの組み合わせに対応する、判定することと、
前記複数の予測を評価して、前記複数の殺有害生物化合物のうちの1つと、(i)既定されたレベルの確率を満たすか若しくは超えるか、又は(ii)殺有害生物化合物及び相乗的化合物の他の組み合わせのうちの少なくともいくつかよりも高い相乗的相互作用の確率を有する前記複数の相乗的化合物のうちの対応する1つとの組み合わせを選択することと、
前記複数の殺有害生物化合物のうちの前記1つと前記複数の相乗的化合物のうちの前記対応する1つとの前記選択された組み合わせを混合して、前記殺有害生物組成物を生成することと、を含む、方法。
【請求項34】
非標的生物に影響を与える1つ以上の有害生物を処置する方法であって、前記方法が、
請求項1~26のいずれか一項に記載の方法によって、殺有害生物化合物と相乗的化合物との間の前記1つ以上の有害生物の相乗的相互作用の予測を判定することと、
前記相乗的相互作用の前記予測が既定されたレベルの確率を満たすか又は超えると判定することと、
前記非標的生物を、前記殺有害生物化合物及び前記相乗的化合物を含有する殺有害生物組成物に曝露することと、を含む、方法。
【請求項35】
非標的生物に影響を与える1つ以上の有害生物を処置する方法であって、前記方法が、
請求項1~26のいずれか一項に記載の方法によって、殺有害生物化合物と相乗的化合物との間の相乗的相互作用の複数の予測を判定することであって、前記複数の予測の各1つが、複数の殺有害生物化合物のうちの1つと、複数の相乗的化合物のうちの対応する1つとの組み合わせに対応する、判定することと、
前記複数の予測を評価して、前記複数の殺有害生物化合物のうちの1つと、(i)既定されたレベルの確率を満たすか若しくは超えるか、又は(ii)殺有害生物化合物及び相乗的化合物の他の組み合わせのうちの少なくともいくつかよりも高い相乗的相互作用の確率を有する前記複数の相乗的化合物のうちの対応する1つとの組み合わせを選択することと、
前記非標的生物を、前記複数の殺有害生物化合物のうちの前記1つと前記複数の相乗的化合物のうちの前記対応する1つとの前記選択された組み合わせを含有する殺有害生物組成物に曝露することと、を含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の参照)
本出願は、2019年9月26日に出願された米国仮特許出願第62/906341号及び2020年3月10日に出願された米国仮特許出願第62/987751号の優先権及び利益を主張し、これらの開示は、参照によりそれらの全体が本明細書に組み込まれる。
【0002】
(発明の分野)
本開示は、概して、殺有害生物組成物に関し、特に、他の活性又は調合関連成分を有する殺有害生物組成物に関する。
【背景技術】
【0003】
殺有害生物(例えば、殺真菌剤、除草剤、殺線虫剤、殺昆虫剤、殺細菌剤、殺鼠剤、抗ウイルス剤、殺ダニ剤、殺藻剤、殺軟体動物剤)は、家庭、農業、産業、及び商業設定で使用される組成物である。殺有害生物は、望ましくない有害生物を制御及び/又は抑制するために使用され、これは、制御されない場合、植物(作物など)、動物、ヒト、及び/又は他の生物に害を及ぼす可能性がある。したがって、有効な殺有害生物組成物に対する必要性が存在する。
【0004】
有害な環境効果を回避するためか、コストを削減するためか、又は他の理由のために、殺有害生物が使用される量を低減することに対する要望も存在する。例えば、化学殺有害生物は、農業設定で使用されることが多く、昆虫、蠕虫、線虫、真菌などの様々な植物有害生物、及びウイルス及び細菌などの植物病原体が、種子、装飾植物、及び作物植物に著しい損傷を引き起こすことが既知である。そのような組成物は、多くの場合、高価であり、(例えば、ヒト、動物、及び/又は環境に対して)潜在的に毒性であり、有害生物の殺有害生物耐性の増大に寄与し、規制制限に従わなくてはならず、及び/又は適用後に長期間存続する。典型的に、農家、消費者、及び周囲環境は、作物の収量を最大化するために有害生物の成長を制御し続けながら、可能な限り最少量の化学殺有害生物を使用することが有益である。
【0005】
そのような懸念に応えて、いくつかの化学殺有害生物の代わりに使用するための、天然の又は生物学的に導出された殺有害生物組成物が提案されている。しかしながら、いくつかの天然の又は生物学的に導出された殺有害生物は、競合する化学殺有害生物と比較して、それらの性能があまり有効でないか、又はあまり一貫性がないことが証明されており、限定的な採用につながっている。
【0006】
改善された殺有害生物及び殺有害生物組成物が、望ましくない有害生物(昆虫、植物、真菌、線虫、軟体動物、ダニ、げっ歯類、ウイルス及び細菌有害生物など)の効果的、経済的で、環境的に安全な制御を可能にすることへの、一般的な要望が存在する。特に、使用中の有害生物の所望の又は許容可能なレベルの制御を得るために必要な殺有害生物剤及び/又は殺有害生物活性成分の量を低減する殺有害生物組成物の必要性が依然として存在する。
【0007】
改善された殺有害生物組成物の識別は、一般に困難である。殺有害生物活性成分の量が、何らかの相乗的添加剤との相乗的有効性を介して低減される、相乗的な殺有害生物組成物は、非常に稀である。例えば、参照リストされた化合物に基づく約120,000個の2成分組み合わせの系統的なスクリーニングは、特定のアゾール農業用殺真菌剤化合物に関連するトリアゾール殺真菌剤化合物である、フルコナゾールを含む2成分対の5%のみが相乗的であった(c.f.Borisy et al.,Systematic discovery of multicomponent therapeutics.Proc.Natl Acad.Sci.100:7977-7982(2003)参照)。特定の使用における潜在的な相乗的有効性のための10^60個を超える可能性のある組成物をスクリーニングすることは、従来の実験技術では実行不可能であり、例えば、10人の化学者の実験室であれば、そのような組成物を1年間に10^4~10^6個程度スクリーニングすることがある。
【0008】
したがって、相乗的有効性のために殺有害生物組成物をスクリーニングするための改善されたシステム及び方法に対する一般的な要望がある。
【0009】
関連技術の前述の例、及びそれに関連する制限は、例示的であり、排他的ではないことを意図している。関連技術の他の制限は、本明細書を読み、図面を検討すれば、当業者には明らかになるであろう。
【発明の概要】
【0010】
以下の実施形態及びその態様は、範囲を限定するものではない、典型的かつ例示的であることを意図されているシステム、ツール、及び方法と併せて説明及び例示される。様々な実施形態では、上述の問題のうちの1つ以上が低減又は排除されており、他の実施形態は、他の改善を対象とする。
【0011】
本発明の一態様は、1つ以上のプロセッサと、1つ以上のプロセッサに方法を実行させる命令を含むメモリ、及び/又はそのような命令を記憶する非一時的な機械可読媒体とを備えるコンピューティングシステムを提供する。方法は、1つ以上の有害生物に対する2つ以上の化合物間の相乗的相互作用の予測を生成するためのものである。方法は、殺有害生物化合物の第1の表現を受信することと、相乗的化合物の第2の表現を受信することと、第1の表現に基づいて、殺有害生物化合物の第1の化学的特徴を識別することと、第2の表現に基づいて、相乗的化合物の第2の化学的特徴を識別することと、第1及び第2の化学的特徴を符号化することによって、殺有害生物化合物及び相乗的化合物を含む組成物の符号化された表現を生成することと、1つ以上の有害生物に対する殺有害生物化合物と相乗的化合物との間の相乗的相互作用の1つ以上の予測を生成することと、を含み、上記生成することは、分類器の訓練されたパラメータに基づいて、符号化された表現を変換することを含み、分類器の訓練されたパラメータは、1つ以上の有害生物のうちの少なくとも1つに対する少なくとも1つの組成物の化合物間の少なくとも1つの相乗的相互作用にわたって訓練されている。
【0012】
いくつかの実施形態では、相乗的相互作用の1つ以上の予測は、複数の予測を含み、方法は、複数の相乗効果予測を組み合わされた相乗効果に組み合わせることを更に含む。いくつかの実装形態では、方法は、複数の予測に基づいて、信頼区間、標準偏差、及び分散、のうちの少なくとも1つを判定することを更に含む。いくつかの実装形態では、分類器は、確率的分類器を備え、1つ以上の予測を生成することは、複数の反復にわたって、分類器の訓練されたパラメータに基づいて、符号化された表現を変換することと、各反復について予測を生成することと、を含む。
【0013】
いくつかの実施形態では、符号化された表現を生成することは、殺有害生物化合物の第1の化学的特徴に基づいて、第1の符号化された化合物表現を生成することと、相乗的化合物の第2の化学的特徴に基づいて、第2の符号化された化合物表現を生成することと、を含み、1つ以上の予測を生成することは、第1及び第2の符号化された化合物表現に基づいて、1つ以上の予測を生成することを含む。
【0014】
いくつかの実施形態では、符号化された表現を生成することは、符号化可能な表現よりも低い次元であるように符号化された表現を生成することを含む。
【0015】
いくつかの実施形態では、符号化された表現を生成することは、エンコーダモデルの訓練されたパラメータに基づいて、殺有害生物化合物及び相乗的化合物のうちの少なくとも1つの符号化可能な表現を、符号化された表現に変換することを含む。いくつかの実装形態では、エンコーダモデルは、変分オートエンコーダのエンコーダ部分を備え、エンコーダ部分は、符号化可能な表現を変分オートエンコーダの入力空間から潜在空間に変換するように動作可能である。いくつかの実装形態では、エンコーダモデルの訓練されたパラメータは、分類器の訓練されたパラメータとは異なる訓練セットにわたって訓練されている。
【0016】
いくつかの実施形態では、方法は、1つ以上の有害生物に基づいて、複数の分類器から分類器を選択することを更に含む。いくつかの実装形態では、方法は、1つ以上の有害生物の表現を受信することを更に含み、分類器を選択することは、1つ以上の有害生物の表現に基づいて、分類器を選択することを含む。いくつかの実装形態では、分類器は、複数の分類器のうちの第1の分類器であり、複数のうちの少なくとも第2の分類器は、1つ以上の有害生物とは異なる有害生物に対して訓練されており、複数の分類器から分類器を選択することは、1つ以上の有害生物に基づいて、第1及び第2の分類器のうちの1つを選択することを含む。いくつかの実装形態では、分類器は、複数の成分分類器を備えるアンサンブル分類器を備え、複数の成分分類器は、少なくとも第1の成分分類器及び第2の成分分類器を備え、第1及び第2の成分分類器のそれぞれの訓練されたパラメータは各々、1つ以上の有害生物のうちの少なくとも1つに対する少なくとも1つの組成物の化合物間の少なくとも1つの相乗的相互作用にわたって訓練されている。いくつかの実装形態では、1つ以上の予測を生成することは、第1の成分分類器に基づいて、第1の予測を生成することと、第2の成分分類器に基づいて、第2の予測を生成することと、を含む。
【0017】
いくつかの実施形態では、強調された表現、殺有害生物化合物及び相乗的化合物のうちの少なくとも1つを生成し、強調された表現は、第1及び第2の化学的特徴のうちの少なくとも1つを含む強調された化学的特徴を含む。いくつかの実装形態では、強調された表現を生成することは、定量的構造-活性関係モデルの訓練されたパラメータに基づいて、強調された化学的特徴を判定することを含む。
【0018】
いくつかの実施形態では、第3の化合物の第3の表現を受信し、第3の化合物の化学的特徴が除外ルールに一致すること、第3の化合物に対応する可用性値が閾値よりも小さいこと、第3の化合物と第4の化合物との間の類似性メトリックが閾値よりも大きいこと、第3の化合物の毒性指標が毒性基準に一致すること、のうちの少なくとも1つを判定することに基づいて、予測から、第3の化合物を含む除外組成物を除外する。
【0019】
いくつかの実施形態では、殺有害生物化合物は、殺真菌剤、除草剤、殺線虫剤、殺昆虫剤、殺細菌剤、殺鼠剤、抗ウイルス剤、殺ダニ剤、及び殺軟体動物剤、からなる群から選択される。
【0020】
いくつかの実施形態では、方法は、殺有害生物化合物及び相乗的化合物のうちの少なくとも1つの芳香族性の表現、電気陰性度の表現、極性の表現、親水性/疎水性の表現、及びハイブリダイゼーションの表現からなる群からの第1及び第2の化学的特徴のうちの少なくとも1つを選択することを含む。
【0021】
いくつかの実施形態では、1つ以上の有害生物は、少なくとも1つの訓練用の有害生物を含む。いくつかの実施形態では、少なくとも1つの訓練用の有害生物は、1つ以上の有害生物に必ずしも含まれることなく、殺有害生物作用モードを1つ以上の有害生物のうちの少なくとも1つと共有する。
【0022】
いくつかの実施形態では、分類器の訓練されたパラメータは、複数の訓練用組成物の各々についての重要性メトリックを判定することと、複数の訓練用組成物から、1つ以上の高重要性組成物を、1つ以上の高重要性組成物の各々についての重要性メトリックに基づいて選択することと、1つ以上の高重要性組成物に基づいて、分類された訓練されたパラメータを更新することと、によって訓練されている。いくつかの実施形態では、所与の組成物の重要性メトリックを判定することは、訓練用組成物の殺有害生物化合物と訓練用組成物の相乗的化合物との間の相乗的相互作用の1つ以上の訓練予測の分散に基づいて、所与の訓練用組成物の重要性メトリックを判定することを含む。
【0023】
いくつかの実施形態では、1つ以上の高重要性組成物を選択することは、代表性基準に基づいて、1つ以上の高重要性組成物を選択することを含む。いくつかの実施形態では、代表性基準に基づいて、1つ以上の高重要性組成物を選択することは、複数の訓練用組成物の複数のクラスタを判定することと、複数のクラスタのうちの少なくとも2つの各々から少なくとも1つの高重要性組成物を選択することと、を含む。いくつかの実施形態では、複数の訓練用組成物の複数のクラスタを判定することは、訓練用組成物のうちの第1の訓練用組成物の少なくとも1つの化合物を表す少なくとも1つのグラフと、訓練用組成物のうちの第2の訓練用組成物の少なくとも1つの化合物を表す少なくとも1つのグラフとの間のグラフ類似性メトリックを判定することを含む。
【0024】
いくつかの実施形態では、相乗的相互作用の予測は、関連する殺有害生物化合物と相乗的化合物とを組み合わせて、組成物を得ることと、試験環境において1つ以上の有害生物を組成物に曝露することと、によって検証又は評価される。いくつかの実施形態では、相乗的相互作用の予測は、関連する殺有害生物化合物及び相乗的化合物を含有するように殺有害生物化合物を調合することによって、殺有害生物組成物を調合するために使用される。いくつかの実施形態では、相乗的相互作用の予測は、関連する殺有害生物化合物と相乗的化合物とを任意の所望の調合成分又は添加剤と一緒に混合して、殺有害生物組成物を得ることによって、殺有害生物組成物を製造するために使用される。いくつかの実施形態では、相乗的相互作用の予測は、非標的生物を、殺有害生物化合物及び相乗的化合物を含有する殺有害生物組成物に曝露することによって、非標的生物に影響を与える1つ以上の有害生物を処置するために使用される。いくつかの実施形態では、非標的生物に影響を与える1つ以上の有害生物を処置するために、相乗的相互作用の複数の予測が判定され、複数の殺有害生物化合物のうちの1つと複数の相乗的化合物のうちの対応する1つとの組み合わせを選択するために評価される。次いで、非標的生物は、複数の殺有害生物化合物のうちの1つと複数の相乗的化合物のうちの対応する1つとの選択された組み合わせを含有する組成物に曝露される。
【0025】
上記の例示的な態様及び実施形態に加えて、更なる態様及び実施形態は、図面を参照し、以下の詳細な説明を検討することによって明らかになるであろう。
【図面の簡単な説明】
【0026】
例示的な実施形態は、図面の参照図に示されている。本明細書に開示される実施形態及び図は、限定的ではなく例示的であると見なされるべきであることが意図される。
【0027】
【
図1】少なくとも1つの有害生物に対する候補殺有害生物組成物の2つ以上の化合物間の相乗的及び/又は拮抗的相互作用を予測するための例示的なシステムを概略的に示す。
【0028】
【
図2】
図1のシステムによる少なくとも1つの有害生物に対する候補殺有害生物組成物の2つ以上の化合物間の相乗的及び/又は拮抗的相互作用の予測を生成するための例示的な方法のフローチャートである。
【0029】
【
図3】
図1のシステムの例示的なセレクタによって、候補殺有害生物組成物をスクリーニングするための例示的な方法のフローチャートである。
【0030】
【
図4】
図1のシステムの例示的なエンコーダによって、候補殺有害生物組成物を符号化するための例示的な方法のフローチャートである。
【0031】
【
図5】
図1のシステムの例示的な分類器によって、候補殺有害生物組成物の化合物間の相乗的及び/又は拮抗的相互作用の1つ以上の予測を生成するための例示的な方法のフローチャートである。
【0032】
【
図6】
図1のシステムの例示的な分類器のパラメータを訓練するための例示的な方法のフローチャートである。
【0033】
【
図7】
図1のシステムの例示的なコンバイナの例示的なデータフローを概略的に示す。
【0034】
【
図8】
図1のシステムを提供するように適合された例示的なコンピュータシステムを示す。
【0035】
【
図9】相乗的相互作用の予測を使用して調製された殺有害生物組成物の有効性を評価する例示的な方法を示す。
【0036】
【
図10】相乗的相互作用の予測を使用して殺有害生物組成物を調合する例示的な方法を示す。
【0037】
【
図11】複数の候補殺有害生物組成物の相乗的相互作用の予測を使用して殺有害生物組成物を製造する例示的な方法を示す。
【0038】
【
図12】相乗的相互作用の予測を使用して、非標的生物に影響を与える1つ以上の有害生物を処置する方法を示す。
【0039】
【
図13】複数の候補殺有害生物組成物の相乗的相互作用の予測を使用して、非標的生物に影響を与える1つ以上の有害生物を処置する方法を示す。
【発明を実施するための形態】
【0040】
以下の説明全体を通して、より徹底的な理解を当業者に提供するために、具体的な詳細が記載される。しかしながら、本開示を不必要に不明瞭にするのを回避するために、周知の要素は、詳細に図示又は説明されていない場合がある。したがって、説明及び図面は、限定的な意味ではなく、例示的な意味で顧慮されるべきである。
概説
【0041】
殺有害生物化合物と他の化合物との間の相乗的(及び/又は拮抗的)相互作用を判定する従来の方法は概して、一連の実験室スクリーニング及び現場試行実験を伴う。実験室スクリーニング段階での初期プレート試験は、相乗的相互作用がないことを見出すことが多い。その後の試験は多くの場合、インプランタであり、かなりのリソースを消費する可能性があり、例えば、農業の文脈においては、そのような試験は、いくつかの成長季節持続し、いくつかのスタッフ並びにかなりの成長空間及びインフラストラクチャを伴う可能性があり、システミックエラーを軽減するために、及び/又は試験中に発生する特定の問題に応答するために、繰り返しを必要する場合がある。
【0042】
本開示は、1つ以上の有害生物に対する相乗的相互作用のために、2つ以上の化合物の候補殺有害生物組成物をスクリーニングするためのシステム及び方法を提供する。記載されたシステム及び方法は、特定の状況において、どの候補殺有害生物組成物が1つ以上の有害生物に対する相乗的相互作用を有する可能性が高いかを効率的かつ正確に予測することができる。記載されたシステム及び方法は、従来の実験室ベースのスクリーニングの追加として(例えば、それの前に及び/若しくはそれと並行して)、又は更にはその代わりとして使用され得る。所望の相乗的相互作用を欠くと予測される組成物のその後の試験は、低減又は排除され得、それによって、相乗的な殺有害生物組成物の発見が潜在的に加速される可能性がある。
【0043】
本明細書に記載のシステム及び方法は、少なくとも1つの殺有害生物活性成分及び少なくとも1つの相乗的化合物を含む組成物における少なくとも1つの有害生物に対する相乗的相互作用(又はその欠如)を予測する。(本明細書で使用される「相乗的化合物」は、化合物が実際に相乗的であることを要求せず、むしろ、化合物が殺有害生物活性成分との相乗的相互作用について評価されるということを指す。)相乗的な殺有害生物組成物スクリーニングシステムは、所望の使用に応じて、いくつかの異なる動作モードで動作するように構成され得る。いくつかの実施形態では、相乗的な殺有害生物組成物スクリーニングシステムは、相乗的相互作用が候補殺有害生物組成物に関する可能性が高いかどうかの確率に関連する予測を生成する。そのような予測は、ユーザが、予測に基づいて(例えば、予測される相乗的相互作用を確認するための)更なる試験ステップに対して相乗的相互作用を有する可能性が高い候補殺有害生物組成物を選択することを可能にし得る。
【0044】
いくつかの実施形態では、相乗的な殺有害生物組成物スクリーニングシステムは、候補殺有害生物組成物によって示される相乗的相互作用(存在する場合)の程度の予測を生成する。そのような予測は、ユーザが、予測に基づく更なる試験のために、相乗的相互作用を示す可能性が最も高いか、又は少なくともある程度の相乗的相互作用を示す可能性が高い候補殺有害生物組成物を選択することを可能にし得る。
【0045】
いくつかの実施形態では、相乗的な殺有害生物組成物スクリーニングシステムは、候補殺有害生物組成物によって示される相乗的相互作用を記述する相乗効果メトリックを予測する。任意の好適な相乗効果メトリックが予測され得る。例えば、システムは、候補殺有害生物組成物の最小阻害濃度(minimum inhibitory concentration、MIC)及び/又は分画阻害濃度インデックス(fractional inhibitory concentration index、FICI)値を予測し得る。システムは、代替的に、又は加えて、例えば、参照により本明細書に組み込まれる、Grecoら、The search for synergy:a critical review from a response surface perspective,Pharmacological Reviews 47,331-85によって記載されたものを含む、利用可能な様々な他の相乗効果メトリックのうちのいずれかを予測し得る。
【0046】
いくつかの実施形態では、相乗的な殺有害生物組成物スクリーニングシステムは、1つ以上の有害生物の生物に対する候補殺有害生物組成物の改善された殺有害生物効果のメトリックを予測する。予測されたメトリックは、フィールドにおける殺有害生物効果に必要な候補殺有害生物組成物の量を予測するために使用され得る。そのような予測は、ユーザが、そのような予測量に基づいて、候補殺有害生物組成物をスクリーニングすることを可能にし得る。例えば、予測量は、(例えば、乗算によって)候補殺有害生物組成物の推定される単位当たりのコストと組み合わせて、有効性の単位当たりの予測コストを判定し得る。候補殺有害生物組成物は、そのような予測量及び/又は有効性の単位当たりの予測コストに基づいて、スクリーニング、ランク付け、ユーザに提示され得るか、又はそうでなければ出力され得る。
【0047】
前述の実施形態のうちの1つ以上は、相乗的な殺有害生物組成物スクリーニングシステムの動作モードとして提供され得る。以下により詳細に記載されるように、相乗的な殺有害生物組成物スクリーニングシステムは、訓練されたパラメータに基づいて予測を生成する。いくつかの実施形態では、訓練されたパラメータは、システムが予測を生成した後に実行される実験室及び/又はフィールド試験の結果に基づいて更に訓練され得る。
【0048】
前述の概要は、概して、相乗的相互作用を指す。拮抗的相互作用がまた、又は代替的に、予測され得る。文脈が別段に要求する場合を除いて、本開示は、相乗的相互作用及び拮抗的相互作用に等しく適用される。
【0049】
以下の説明が添付の図面と併せて読まれるとき、これら及び他の態様及び利点は明らかになるであろう。
定義
【0050】
本明細書で使用される場合、以下の定義が使用される。
【0051】
候補殺有害生物組成物:少なくとも1つの殺有害生物化合物並びに少なくとも1つの潜在的に相乗的及び/又は拮抗的な化合物(全般的に本明細書では便宜上、相乗的化合物と称される)を含む、少なくとも2つの候補化合物の組み合わせであって、定義された混合比を伴うか又は伴わず、かつ任意選択的に、1つ以上の追加の化合物を含む、組み合わせ。候補殺有害生物組成物は、混合物を含み得る。
【0052】
非標的生物:非標的生物は、有害生物がそれに対して有害な効果を及ぼす生物である。非標的生物は、植物、動物、及び任意の他の実施される生物を含み得、特に、作物植物、及び飼育された家畜動物などの産生動物を含む。例えば、非標的生物は、キュウリ及び大豆植物などの作物植物、並びにブタ及びウシなどの産生動物を含む。
【0053】
有害生物:環境内の1つ以上の宿主生物(例えば、作物植物)に有害な影響をしばしば及ぼす、環境内に生息している望ましくない生物。有害生物は、昆虫、植物、真菌、線虫、軟体動物、ダニ、げっ歯類、ウイルス、細菌、及び/又は他の生物であり得る。有害生物の一例は、大豆植物などの様々な作物植物の上で成長する(及びそれに害を及ぼす)ウドンコ病である。
【0054】
MIC:最小阻害濃度は、有害生物の成長を防止する化学物質の最低濃度である。
【0055】
FICI:分画阻害濃度インデックス:相乗効果のメトリック。「相乗効果」(FICI≦0.5)、「拮抗作用」(FICI>4.0)、及び「相互作用なし」(FICI>0.5~4.0)の程度を示す。
【0056】
メトリック:測定のための基準のシステム。メトリック値は、測定の指定されたシステム内の別個の値である。メトリックの例は、FICIであり、計算されたFICIスコアは、メトリック値である。メトリックは、測定から直接生成される必要はなく、(例えば、メトリック値を予測する相乗的な殺有害生物組成物スクリーニングシステムを参照して本明細書に記載されるように)予測され得る。
【0057】
相乗的相互作用:同じ用量でのそれらの個別の効果の合計よりも大きい、2つ以上の化学化合物が一緒になった効果。相乗的相互作用を有する2つ以上の化合物を含む組成物は、相乗効果を有すると言われる。
【0058】
拮抗的相互作用:同じ用量でのそれらの個別の効果の合計よりも少ない、2つ以上の化学化合物が一緒になった効果。拮抗的相互作用を有する2つ以上の化合物を含む組成物は、拮抗作用を有すると言われる。
【0059】
活性成分:少なくとも1つの有害生物の産生又は生物学的活性を阻害、刺激、又は他の方法で変化させる効果を有する1つ以上の化学化合物(例えば、分子、複合体、混合物など)。活性成分の化合物は、「活性化合物」と称されることもある。
【0060】
殺有害生物:1つ以上の有害生物の成長及び/又は生物学的活性を阻害するのに有効である物質。
【0061】
他の全ての語は、化学及び生化学の分野で使用されるときの、それらの通常の意味を有する。
相乗的な殺有害生物組成物スクリーニングシステム及び方法の概要
【0062】
本開示は、相乗的な殺有害生物組成物スクリーニングシステム及びその動作方法を提供する。いくつかの実施形態では、相乗的な殺有害生物組成物スクリーニングシステムは、2つ以上の候補化合物が1つ以上の相乗的(及び/又は拮抗的)相互作用を示す確率を予測する。いくつかの実施形態では、相乗的な殺有害生物組成物スクリーニングシステムは、候補化合物間の相乗的(及び/又は拮抗的)相互作用の程度を予測する。いくつかの実施形態では、相乗的な殺有害生物組成物スクリーニングシステムは、候補殺有害生物組成物のMIC及び/又はFICI値などの相乗的(及び/又は拮抗的)相互作用を記述するメトリック値を予測する。相乗的な殺有害生物組成物スクリーニングシステムは、本明細書でより詳細に説明されるように、訓練されたパラメータのセットに基づいて候補化合物のデジタル表現を変換することによって予測を生成する。システムによって生成された予測は、例えば、候補殺有害生物組成物が相乗的(及び/又は拮抗的)相互作用を有する可能性が高いかどうか、並びに任意選択的に、その相互作用の程度(例えば、強い/弱い)、及び/又はその相互作用を記述するメトリック値(例えば、MIC及び/又はFICI値、ある程度の有効性を得るために必要な組成物の量など)を予測するための工業化学組成物スクリーニングプロセスにおいて使用され得る。
【0063】
殺有害生物組成物の活性成分(したがって殺有害生物組成物自体)は、多くの場合、限られた寿命を有する。有害生物は、活性成分の作用モードに対する耐性を発生させ、したがって、時間と共に殺有害生物組成物があまり有効でなくなるか又は無効になる可能性がある。例えば、特定の有害生物(例えば、昆虫、線虫、真菌、酵母、サビ菌)は、作物場における存在を管理するために使用されている化学化合物に対して耐性が発生している。有害生物が耐性を発生させるにつれて、商業的殺有害生物は、それらを管理するための新しい活性成分を必要とする。相乗的な殺有害生物組成物スクリーニングシステムは、その予測によって、化合物間の以前に不明な相乗的相互作用を識別し、それによって、(システムによって相乗的相互作用を有すると識別されていない組成物と比較して)耐性生物に対してより大きい有効性を有する可能性がより比較的高いそれらの化合物の候補殺有害生物組成物を識別することを試みる。特定の状況では、(例えば、耐性の増加により)以前にあまり有効でなくなるか又は無効になった活性成分は、活性成分との相乗的相互作用を有するようにシステムによって予測される候補化合物と組み合わせることによって、再び有効になり得る。したがって、現在記載されている相乗的な殺有害生物組成物スクリーニングシステムは、計算的に追跡可能な方法で、新しい殺有害生物組成物の識別を行うことができる。
【0064】
図1は、第1の例示的な実施形態では、少なくとも1つの有害生物に対する2つ以上の化合物間の相乗的及び/又は拮抗的相互作用の特性(例えば、存在、程度、及び/又は関連するメトリック値)を予測するためのコンピュータシステムを備える、例示的な相乗的な殺有害生物組成物スクリーニングシステム1000を示す。システム1000及びその動作方法は、本明細書に記載されている。
【0065】
システム1000は、セレクタ200、エンコーダ210、アンサンブル分類器300、及びコンバイナ400を提供するコンピュータシステムである。システム1000は、任意選択的に、データベース250、251、570などの1つ以上のデータストアと通信する。セレクタ200、エンコーダ210、アンサンブル分類器300、及びコンバイナ400は、ハードウェア及び/又はソフトウェアによって提供され得、概して、本明細書では全般的にシステム1000の「モジュール」と称される。高レベルで、セレクタ200は、(例えば、本明細書の他の箇所で説明される方法3000に従って)1つ以上の殺有害生物組成物のデジタル表現を受信し、1つ以上の選択された候補殺有害生物組成物を選択する。エンコーダ210は、(例えば、本明細書の他の箇所で説明される方法4000に従って)1つ以上の選択された候補殺有害生物組成物を受信し、各選択された候補殺有害生物組成物について、分類器300によって分類するための選択された候補殺有害生物組成物の符号化された表現を生成する。分類器300は、(例えば、本明細書の他の箇所で説明される方法5000に従って)各符号化された表現を受信し、訓練されたパラメータの1つ以上のセットに基づいて、各符号化された表現について1つ以上の予測を生成する。描写された実施形態を含むいくつかの実施形態では、分類器300は、予測をそれぞれ生成する複数の訓練された分類器310a...310nを備える、アンサンブル分類器を備える。分類器300が、選択された候補殺有害生物組成物について複数の予測を生成する少なくともいくつかの実施形態では、コンバイナ400は、(例えば、
図7を参照しながらより詳細に説明されるように)複数の予測を受信し、複数の予測に基づいて、組み合わされた予測450を生成する。
【0066】
システム1000は、候補殺有害生物組成物の化合物間の様々な相互作用のいずれかを予測するように訓練され得る。いくつかの実装形態では、システム1000は、候補殺有害生物組成物の化合物と少なくとも1つの有害生物との間の相乗的(及び/若しくは拮抗的)相互作用の存在の予測される可能性、そのような相互作用の予測される程度、並びに/又はそのような相互作用を記述する予測されるメトリック値を予測することによって、予測450を生成する。いくつかの実施形態では、システム1000は、追加的又は代替的に、少なくとも1つの生物(例えば、少なくとも1つの有害生物、少なくとも1つの作物など)に対する候補殺有害生物組成物の毒性を予測することによって、予測450を生成する。いくつかの実施形態では、システム1000は、少なくとも1つの有害生物のうちの1つ以上の有害生物による耐性の緩和を予測するなど、候補殺有害生物組成物の化合物及び/若しくは少なくとも1つの有害生物の間の予測される相乗的及び/若しくは拮抗的相互作用、候補殺有害生物組成物の予測される有効性、並びに/又は(例えば、化合物比として表される)予測される組成物調合から導出された、1つ以上のメトリック及び/若しくは他の属性を判定することによって、予測450を生成する。
【0067】
図2は、候補殺有害生物組成物の2つ以上の化合物間の相乗的及び/又は拮抗的相互作用の予測を生成するための例示的な方法2000を示す。この方法は、コンピュータシステム(例えば、システム1000)によって実行される。2010において、コンピュータシステムは、候補殺有害生物組成物の表現を受信する。行為2010は、例えば、システム1000のセレクタ200によって実行され得、組成物及び/又は構成化合物の表現の強調、組成物のフィルタリング、特徴選択など、方法3000を参照しながら以下に記載される行為のいずれかを含み得る。いくつかの実施形態では、行為2010は、(2012において)殺有害生物化合物の表現を受信することと、(2014において)相乗的化合物の表現を受信することと、を含む。いくつかの実施形態では、行為2010は、1つ以上の有害生物の表現を受信することを含み、これに対して、候補殺有害生物組成物が、相乗的殺有害生物の有効性について評価される。いくつかの実施形態では、行為2010はまた、又は代替的に、混合物比及び/又は混合比の範囲などの混合物情報を受信することを含む。
【0068】
2020において、コンピュータシステムは、2010において受信された表現に基づいて、殺有害生物化合物及び相乗的化合物の化学的特徴を符号化することによって、分類器300によって分類するための候補殺有害生物組成物の符号化された表現を生成する。行為2020は、例えば、(任意選択的に1つの機械学習モデルによって提供され得る)システム1000のエンコーダ210及び/又は分類器300によって実行され得、(例えば、エンコーダ210及び/又は分類器300によって定義される潜在空間に対する)圧縮、特徴選択、及び/又はトランスコーディングなど、方法4000を参照しながら以下に説明される行為のいずれかを含み得る。行為2030は、各未加工表現を、(組成物の単一の潜在ベクトルなどの単一の表現、及び/又は候補殺有害生物組成物の各化合物についての1つなどの複数の表現を含み得る)候補殺有害生物組成物の符号化された表現に変換することを含む。
【0069】
2030において、コンピュータシステムは、2020において生成された符号化された表現と、分類モデルの訓練されたパラメータとに基づいて、1つ以上の有害生物に対する候補殺有害生物組成物の相乗的有効性の予測を生成する。行為2030は、例えば、(例えば、方法6000に従って訓練される)システム1000の分類器300によって実行され得、方法5000を参照しながら以下に記載される行為のいずれかを含み得る。少なくともいくつかの実施形態では、行為2030は、分類器の訓練されたパラメータに基づいて、符号化された表現を変換することを含み、分類器の訓練されたパラメータは、1つ以上の有害生物のうちの少なくとも1つに対する少なくとも1つの組成物の化合物間の少なくとも1つの相乗的相互作用にわたって訓練されている。行為2030は、本明細書の他の箇所でより詳細に説明されるように、例えば確率的分類器を介して、複数の予測を生成することを含み得る。
【0070】
2040において、コンピュータシステムは、任意選択的に、複数の予測を組み合わせて、組み合わされた予測(例えば、予測450)を生成する。行為2040は、例えば、システム1000のコンバイナ400によって実行され得、コンバイナ400及び
図7のデータフロー図を参照しながら以下に説明される行為のいずれかを含み得る。いくつかの実施形態では、行為2040は、本明細書の他の箇所でより詳細に説明されるように、組み合わされた予測の信頼尺度(例えば、信頼区間)を生成することを含む。
候補殺有害生物組成物の選択
【0071】
少なくともいくつかの実施形態では、システム1000の動作は、セレクタ200から開始する。
図3は、システム1000によって候補殺有害生物組成物を選択するための例示的な方法3000のフローチャートである。方法3000は、システム1000のセレクタ200によって全体的又は部分的に実行され得る。方法3000は、システム1000が相乗的潜在性を評価するための候補殺有害生物組成物を選択する。多くの候補殺有害生物組成物が一般に利用可能であるため、少なくともいくつかの実装形態では、方法3000は、更なる評価からの特定の化合物及び/又は組成物を考慮から除去することを含む。
【0072】
3005において、システム1000は(例えば、セレクタ200によって)、1つ以上の化合物の各々の少なくとも部分的デジタル表現を受信する。1つ以上の化合物は、ユーザによって提供され、別のコンピューティングシステムによって、データストアから取り出され、及び/又は他の方法で任意の好適な技術を介して取得され得る。各デジタル表現は、(例えば、有害生物、作物植物などの生物のクラスに対する化合物の既知の効果を含み得る)化合物の化学構造及び/又は化合物の化学的特性の表現を含む。1つ以上の化合物は、天然及び/又は合成化合物を含み得る。システム1000はまた、任意選択的に、少なくとも1つの有害生物の表現を受信し得る。いくつかの実施形態では、システム1000はまた、候補殺有害生物組成物中の化合物のうちの少なくとも1つの組成比及び/又は構成パーセンテージなどの候補殺有害生物組成物調合パラメータを受信する。システム1000によって受信された様々な表現及びパラメータは、本明細書では、候補殺有害生物組成物の受信された表現と総称される。
【0073】
いくつかの実施形態では、システム1000は、例えば、分類器300及び/又はエンコーダ210が殺有害生物化合物との相乗的化合物の相乗的相互作用にわたって訓練される実施形態において、3005において候補殺有害生物組成物の1つの化合物の表現を受信し、この場合、殺有害生物化合物は、殺有害生物化合物の明示的な表現の受信を必ずしも必要とせずに、訓練された分類器300及び/又はエンコーダ210によって暗黙的に表され得る。いくつかの実施形態では、殺有害生物化合物は、既定され、その表現は、方法3000が開始する時間においてシステム1000に利用可能になり、方法3000中に既定された表現にアクセスすることは、そのような表現を「受信すること」の意味に含まれる。
【0074】
任意選択的に、3010において、システム1000は、受信された表現を追加の化学的特性で強調して、強調された表現を生成する。例えば、セレクタ200は、データストア(ローカルメモリ、データベース250、データベース570、若しくは他の好適なデータストアなど)から、複数の化合物の原子及び分子情報(例えば、分子構造、分子量、構成原子、結合タイプ(例えば、単一、二重、三重、芳香族))、原子情報(例えば、原子番号、ハイブリダイゼーション、芳香環メンバ、暗黙的及び明示的な原子価、程度(結合数))並びに/又は他の化学的特性(例えば、特定の場所の官能基、電荷分布)の記述を取得し得る。いくつかの実施形態では、システム1000は、(例えば、セレクタ200の一部として)追加の化学的特性を生成するための訓練されたモデルを備え、訓練されたモデルの訓練されたパラメータに基づいて、そのような追加の化学的特性を生成することによって、受信された表現を強調する。例えば、システム1000は、定量的構造-活性関係(QSAR)モデルを備え得、3005は、QSARモデルによって1つ以上の特性を生成することと、1つ以上の特性のうちの少なくとも1つを、強調された表現に追加することと、を含み得る。
【0075】
いくつかの実施形態では、殺有害生物組成物の化合物の少なくとも部分的デジタル表現は、組成物の識別又は化合物のクラスを含み得る(したがって、化合物の間接的な識別を可能にする)。いくつかの実装形態では、候補殺有害生物組成物が、(例えば、アクセス可能なデータストアにおいて)追加情報がシステム1000に入手可能である組成物を含む場合、システム1000は(例えば、セレクタ200において)、その追加情報の少なくとも一部分を取り出し、取り出された情報を強調された表現に追加することによって、受信された表現を強調する。いくつかの実施形態では、そのような追加情報は、組成物の化学成分及び/又は比を含む。例えば、セレクタ200は、構成化合物と、任意選択的に、それらの関連する濃度とを、候補殺有害生物組成物の強調された表現に追加し得る。化学組成物情報は、参照化学データベース(例えば、
図1のデータベース250及び/又はデータベース570)に記憶され得る。システム1000は、そのような構成化合物を候補殺有害生物組成物に追加し得る。
【0076】
いくつかの実装形態では、システム1000によって受信された少なくとも部分的表現が、候補殺有害生物組成物の成分として1つ以上のクラスの化合物を識別する1つ以上の識別子を含む場合、システム1000は(例えば、セレクタ200によって)、1つ以上のクラスの化合物に基づいて、複数の候補殺有害生物組成物を生成する。例えば、セレクタ200は、各識別されたクラスの化合物について、そのクラス内の化合物のセットを(データベース250及び/又はデータベース570などのデータストア内の情報に基づいて)判定し得る。セレクタ200は、複数の強調された表現を生成することによって、複数の候補殺有害生物組成物を生成し得、各強調された表現は、識別されたクラス内の化合物のうちの異なる1つを含む。(このようにして複数の成分が識別される場合、各強調された表現は、それぞれのクラスから化合物の異なる組み合わせを含み得、所与の化合物を、置換によって表現間で繰り返すことができる。)
【0077】
いくつかの実装形態では、(場合によっては、例えば、抽出物などの天然組成物を伴う)複数の調合を有する候補殺有害生物組成物が選択される場合、システム1000は(例えば、セレクタ200によって)、1つ以上のそのような調合を選択し得る。例えば、セレクタ200は、各々が調合のうちの異なる1つに対応する、候補殺有害生物組成物の複数の強調された表現を生成し得る。セレクタ200は、利用可能な調合の全てを選択すること、ルールを満たす各調合を選択すること(例えば、複雑性メトリックによる最低の複雑性、環境メトリックに基づく最少の環境影響、各調合に関連するコスト情報に基づく最低コストなどを伴う調合を選択すること)、ランク付けアルゴリズムに従って最高ランクを有する複数の調合を選択すること、擬似ランダムに1つ以上の調合を選択すること、ユーザに選択を要求すること、及び/又は任意の適切な方法で1つ以上の調合を別様に選択することを含む、任意の適切な方法で1つ以上の調合を選択し得る。いくつかの実施形態では、システム1000は、利用可能な調合に基づいて(例えば、算術平均、モード、又は他の好適な尺度を介して)平均混合比を判定し、その平均混合比を、候補殺有害生物組成物の強調された表現に加える。
【0078】
いくつかの実施形態では、候補殺有害生物組成物が、2つ以上の異性体を有する化合物を含む場合、システム1000(例えば、セレクタ200によって)、調合に関する上記の選択技術のいずれかを含む、任意の適切な方法で異性体を選択し得る。2つ以上の異性体が選択される場合、システム1000は、各々が異性体のうちの異なる1つに対応する、候補殺有害生物組成物の複数の強調された表現を生成し得る。
【0079】
いくつかの実施形態では、3010は、候補殺有害生物組成物に含まれるべき1つ以上の化合物(並びに/又は適宜に構成組成物及び/若しくは化合物クラス)の混合比及び/又は混合比の範囲を受信することを含む。システム1000が混合比の範囲を受信する場合、システム1000は(例えば、セレクタ200によって)、混合比の範囲内の1つ以上の混合比を選択し、各々が混合比のうちの異なる1つに対応する、候補殺有害生物組成物の複数の強調された表現を生成し得る。システム1000は、例えば、既定されたパラメータ、ユーザ選択、及び/又は任意の他の好適な選択に基づいて、そのような混合比を生成し得る(例えば、システム1000は、何らかのパラメータnについてn個の混合比を生成し得、これらの比は、範囲内で均一に離間し、極値を含む)。
【0080】
いくつかの実施形態では、3010は、各候補化合物について1つ以上のフィンガープリントを判定することを含む。システム1000によって生成された強調された表現は、そのような実施形態では、1つ以上のフィンガープリントを含み得る。いくつかの実施形態では、化合物のフィンガープリントは、候補化合物の追加の特性(例えば、上記の様々な特性)と組み合わせた、化合物のグラフ表現の組み合わせを含む。各化合物のグラフ表現は、分子中の各原子のグラフのノードと、グラフエッジとして表される結合とを用いて、化合物分子の構造を表す。システム1000は、原子番号、ハイブリダイゼーション、原子が芳香環構造の一部であるかどうか、暗黙的な原子価、及び/又はその結合の程度などの原子特性を有する化合物中の各ノード(原子)のグラフ表現を更に強調し得る。システム1000は、追加的又は代替的に、結合のタイプ(例えば、単一、二重、三重、芳香族)などの特性を有する各グラフエッジ(結合)のグラフ表現を強調し得る。
【0081】
様々な実施形態では、正規化クーロン行列(Ruppら)、「結合のバッグ」(Hansenら)を含む、使用され得る異なるタイプのフィンガープリント、及びAtom-Pair、Topological Torsion、Extended Connectivity Footprint(ECFP)、E状態フィンガープリント、Avalonフィンガープリント、ErG、Morgan、MACCSなどのRDKitによって提供されるものなどの他のフィンガープリントアルゴリズム。いくつかの実施形態では、システム1000は、(例えば、本明細書の他の箇所でより詳細に説明されるように、3035における類似性スクリーニングで使用するための)複数のフィンガープリントを判定する。少なくとも1つの実装形態では、システム1000は、各候補化合物についてMorgan及びMACCSフィンガープリントを判定し、そのようなフィンガープリントの両方を強調された表現に追加する。
【0082】
3015において、システム1000は、任意選択的に、1つ以上の有害生物の各々について、有害生物の表現を取得する。表現は、例えば、有害生物の識別子(名称、インデックス、及び/又はカテゴリ変数など)、及び/又は有害生物のゲノムの少なくとも一部分の表現を含み得る。システム1000は、1つ以上の有害生物の表現(及び/若しくはそれから導出された情報、例えば、インデックスは、システム1000によって受信された有害生物の名称から導出され得る)を、組成物の強調された表現に追加し、並びに/又はさもなければ、1つ以上の有害生物の表現(及び/若しくはそれから導出された情報)を、組成物の強調された表現に関連付け得る。1つ以上の有害生物の表現は、事前定義され、ユーザから受信され、データストア及び/若しくは別のコンピュータシステムから受信され、並びに/又はさもなければシステム1000によって受信され得る。
【0083】
いくつかの実施形態では、システム1000は、代替的又は追加的に、1つ以上の非標的生物の各々について、非標的生物の表現を受信する。非標的生物は、例えば、殺有害生物組成物の適用中に有害生物が養うか、存在するか、又はさもなければ近接している宿主植物、動物、又は他の生物を含み得る。表現は、例えば、非標的生物の識別子(名称、インデックス、及び/又はカテゴリ変数など)、及び/又は非標的生物のゲノムの少なくとも一部分の表現を含み得る。システム1000は、1つ以上の非標的生物の表現(及び/若しくはそれから導出された情報、例えば、インデックスは、システム1000によって受信された非標的生物の名称から導出され得る)を、組成物の強調された表現に追加し、並びに/又はさもなければ、1つ以上の非標的生物の表現(及び/若しくはそれから導出された情報)を、組成物の強調された表現に関連付け得る。1つ以上の非標的生物の表現は、事前定義され、ユーザから受信され、データストア及び/若しくは別のコンピュータシステムから受信され、並びに/又はさもなければシステム1000によって受信され得る。
【0084】
いくつかの実装形態では、システム1000は、セレクタ200によって行為3015を実行する。いくつかの実装形態では、システム1000は、エンコーダ210、分類器300において、及び/又は任意の他の好適なモジュールを介して、行為3015を実行する。1つ以上の有害生物及び/又は1つ以上の非標的生物の表現を使用して、分類器300の挙動を調整し得る。例えば、システム1000は、以下により詳細に記載されるように、1つ以上の有害生物の表現に基づいて、分類器300の訓練されたモデル320a、...320nを選択し得る(例えば、どれが1つ以上の有害生物のうちの少なくとも1つにわたって訓練されたかに基づいて、そのようなモデルを選択することによって)。別の例として、システム1000は、1つ以上の有害生物及び/又は1つ以上の非標的生物の表現を分類器300に入力として提供することによって、例えば、候補殺有害生物組成物と非標的生物との間の有害生物及び/又は毒性に対する候補殺有害生物組成物の相乗的有効性の予測を通知することによって、分類器300の挙動を調整し得る。
【0085】
行為3005、3010、及び/若しくは3015において受信、識別、生成、若しくは他の方法で取得された候補殺有害生物組成物は、初期の候補殺有害生物組成物セット(3005において受信された表現、並びに/又は3010及び/又は3015において生成された強調された表現を含み得る)を形成する。いくつかの実施形態では、システム1000は、初期の候補殺有害生物組成物セットに基づいて、最終的な候補殺有害生物組成物セットを判定するために、1つ以上のフィルタリング行為(本明細書に記載の任意選択的なフィルタリング行為3020、3030、3035、3040など)を実行する。行為3010及び/又は3015は、1つ以上のフィルタリング行為の前に、後に、及び/又はそれと並列して実行され得、例えば、システム1000は、1つ以上のフィルタリング行為を実行した後に、上記のように化合物の表現を強調し得る。
【0086】
3020において、システム1000は、任意選択的に、化合物除外基準に基づいて、(例えば、3005において受信された表現、及び/又は3010において生成された強調された表現に基づいて)候補殺有害生物組成物をフィルタリングする。例えば、システム1000は、データストア(例えば、データベース250及び/又は570)から、候補殺有害生物組成物から除外されるべき化合物及び/又は原子のリストを取り出し得る。1つの例示的な例として、例示的な除外基準は、ヒ素と、カルシウムよりも重い金属とを含む組成物を除外し得る。別の例示的な例として、例示的な除外基準を適用することは、化学的複雑性の尺度を判定することと、その化学的複雑性尺度が閾値を超える化合物を含む組成物を除外することと、を含み得る。例えば、そのような除外基準は、閾値よりも大きい鎖長を有するアルカン(又は他の有機非環式)分子を除外し得る。そのような除外基準は、ルール(例えば、原子質量が40.078よりも大きいか又は原子番号33を有する一致する原子)、リスト(例えば、ヒ素と、カルシウムよりも重い全ての金属とのリスト)、それらの組み合わせ、及び/又は任意の他の好適な基準を含み得る。除外基準は、システム1000によって事前定義され、データストア(例えば、データベース250、570、及び/又はパラメータストア(図示せず))から取り出され得る。いくつかの実施形態では、システム1000は、3020において複数の除外基準を取り出す。システム1000は、取り出された除外基準の全てを適用するか、又は適用するサブセットを選択し得る。
【0087】
いくつかの実施形態では、システム1000は、3020において化学的複雑性基準に基づいて、候補殺有害生物組成物をフィルタリングする。化学的複雑性基準は、化合物をそれらの化学構造に基づいて除外することを含み得る。例えば、システム1000は、閾値よりも大きい数の原子を含む化学構造を有する化合物(例えば、50個を超える原子を有する化合物)を除外し得る。閾値は、事前定義され、ユーザによって提供され、システム1000によって生成され(例えば、閾値は、原子数などの複雑性の尺度によってランク付けされた、候補化合物の10、20、30、40、50、若しくは別のパーセンタイルの化学的複雑性の尺度に等しくなるように設定され得)、及び/又は別様にシステム1000によって取得され得る。いくつかの実施形態では、システム1000は、候補殺有害生物組成物を、そのような組成物の構成化合物のサブセットに基づいてフィルタリングする。例えば、システム1000は、候補殺有害生物化合物に対して適用される化学的複雑性基準に基づいてそのような候補殺有害生物組成物を必ずしもフィルタリングすることなく、候補相乗的化合物に対して適用される化学的複雑性基準に基づいて、候補殺有害生物組成物をフィルタリングし得る。
【0088】
いくつかの実施形態では、システム1000は、3020において成分ホワイトリスト基準に基づいて、候補殺有害生物組成物をフィルタリングする。例えば、システム1000は、非除外原子の事前定義されたリストにない原子を有する化合物を含む任意の候補殺有害生物組成物を除外し得る。例えば、システム1000は、選択された候補相乗的化合物が不活性である確率を増加させるように構成され得、候補相乗的化合物が不活性化合物の高い発生率を有する原子リストにない原子を含む候補殺有害生物組成物を除外し得る。そのようなリストは、そのリスト外の原子を有する化合物が、望ましくない及び/又は予測不可能な生物反応性を有する可能性が高い傾向があるので、例えば、C、O、H、N、P、Cl、及びFを含み得る。いくつかの実施形態では、システム1000は、3020において成分ブラックリスト基準に基づいて、候補殺有害生物組成物をフィルタリングする。例えば、システム1000は、除外原子の事前定義されたリスト上の原子を有する化合物を含む任意の候補殺有害生物組成物を除外し得る(例えば、そのようなリストは、As、Sc、Ti、V、Cr、及び原子、例えば、重金属を含み得る)。
【0089】
いくつかの実施形態では、システム1000は、3020において化学的特性基準に基づいて、候補殺有害生物組成物をフィルタリングする。例えば、システム1000は、特定の化学的特性を有する化合物を含む候補殺有害生物組成物を除外し得、例えば、システム1000が、非常に可燃性であり、不安定であり、及び/又は同じ候補殺有害生物組成物において他の化合物との特定の既知の相互作用を有すると識別するもの(例えば、原子カリウムと水との混合物)を除外し得る。システム1000は、例えば、そのような特性の記録を含み得る、行為3010及び/又は3015において生成された化学化合物の強調された表現に基づいて、化合物の化学的特性を判定し得る。システム1000はまた、又は代替的に、データベース250及び/又は570などのデータストアから化学的特性情報を取り出し得る。化学的特性情報は、各候補殺有害生物組成物の化合物の材料安全データシート(material safety data sheets、MSDS)から取り出され得る。
【0090】
いくつかの実施形態では、化学的特性情報は、候補殺有害生物組成物の各化合物について取り出される。いくつかの実施形態では、そのような情報は、候補殺有害生物組成物の化合物のサブセットについて取り出される。例えば、システム1000が、選択された候補相乗的化合物が不活性である確率を増加させるように構成されている実装形態では、システム1000は、(例えば、候補相乗的化合物が不活性であるという高い信頼性がある場合)候補相乗的化合物について必ずしもそのような情報を取り出すことなく、候補殺有害生物化合物についてそのような情報を取り出し得る。別の例として、システム1000が、選択された候補相乗的化合物が不活性である確率を増加させるように構成されている実装形態では、システム1000は、(例えば、候補殺有害生物化合物が事前選択されている、及び/又は他の方法で個別にフィルタリングの対象となっていない場合)候補相乗的化合物の他の組成物について必ずしもそのような情報を取り出す必要なしに、(例えば、本来ならば、候補相乗的化合物が不活性であるという高い信頼性がない場合)候補相乗的化合物を非不活性にさせる可能性が高い化学的特性を有する候補相乗的化合物をフィルタリング除去するために、候補相乗的化合物についてそのような情報を取り出し得る。
【0091】
上記のように、そのような除外は、必ずしも他の化合物ではなく、候補相乗的化合物の原子構成成分及び/又は他の化学的特性に基づいて候補殺有害生物組成物を除外することなどによって、化合物のサブセットに限定され得る。例えば、重金属原子を含む化合物が除外されると仮定する。したがって、重金属を含む候補相乗的化合物を有する組成物は除外され得るが、候補相乗的化合物がいかなる重金属原子も欠いている組成物は、組成物が重金属原子を含む候補殺有害生物化合物をも含む場合であっても受け入れられるであろう。
【0092】
3030において、システム1000は、任意選択的に、1つ以上のデータストア(例えば、データベース570)から1つ以上の化合物の可用性を判定する。そのようなデータストアは、ユーザによって、Sigma-Aldrichなどの商業的化学供給業者によって提供されるものなどの在庫システム、及び/又は備え得る。システム1000は、1つ以上の化合物の可用性について、そのようなデータストアをクエリし得る。化合物が可用ではないと識別され、かつ/又はその可用性が可用性閾値未満である場合、システム1000は、その化合物を含む候補殺有害生物組成物を除外し得る。可用性閾値は、異なる化合物に対して同じであっても異なっていてもよく、既定され、及び/又はユーザによって提供され得る。
【0093】
いくつかの実施形態では、3030において、システム1000は、追加的又は代替的に、1つ以上の化合物に関連付けられた単位ごとのリソース割り当てを記述するリソースメトリックを取り出す。例えば、システム1000は、化合物の量を合成、出荷、及び/若しくは他の方法で調達するために必要とされる時間量、合成複雑性の尺度(例えば、それを合成するために必要とされるリソースに概して対応する傾向がある、化合物内の原子の数)、化合物及び/若しくはその構成要素を調達するために必要とされる資金の量、並びに/又は任意の他の好適なリソースメトリックを含む、リソースメトリックを取り出し得る。システム1000は、リソース閾値を超える関連するリソースメトリックを有する化合物を含む、候補殺有害生物組成物を除外し得る。リソース閾値は、例えば、既定され、ユーザによって提供され、及び/又は別のコンピュータシステムから取り出され得る。いくつかの実装形態では、システム1000は、候補殺有害生物組成物の化合物に関連付けられた1つ以上のリソースメトリックに基づいて、推定された組成物リソースメトリックを生成し、関連する推定された組成物リソースメトリックが(化合物ごとに適用されるリソース閾値と同じであるか又は異なり得る)リソース閾値を超える候補殺有害生物組成物を除外する。システム1000は、例えば、候補殺有害生物組成物の化合物のリソースメトリックの合計及び/又は最大値を判定することに基づいて、候補殺有害生物組成物の推定された組成物リソースメトリックを生成し得る。システム1000は、例えば、その構成成分から候補殺有害生物組成物を調製する際のプロセスオーバーヘッドの既定された及び/又はユーザ供給される推定値に基づいて、推定されたリソースメトリックをスケール化するか、加算するか、又はそうでなければ増加させ得る。いくつかの実装形態では、システム1000は、データストア(例えば、データベース250及び/又は570)に、リソース閾値及び/又は非可用性を超えるために除外された候補殺有害生物組成物を記録する。システム1000は、例えば、そのような候補殺有害生物組成物をユーザに表示し、並びに/又は(例えば、リソースメトリック及び/若しくは可用性によってランク付けされた)提案される将来の試験のリストを生成し得る。
【0094】
3035において、システム1000は、任意選択的に、他の候補殺有害生物組成物に対する各候補殺有害生物組成物の類似性(又は非類似性)の尺度に基づいて、候補殺有害生物組成物をフィルタリングして、例えば、方法3000によって生成された選択された候補殺有害生物組成物を、類似している候補相乗的化合物を有するものに限定する。一実施形態では、フィルタリングは、例えば本明細書の他の箇所で説明されるように、各化合物のフィンガープリントを使用して実行され得る。システム1000は、そのフィンガープリント(例えば、Morgan及び/又はMACCSフィンガープリント)に基づいて、各候補化合物を符号化し得る。例えば、システム1000は、そのフィンガープリントに基づいて、ビットマップ形式で、各候補化合物の分子構造を符号化し得る。システム1000は、組成物内の異なる化合物間の類似性、及び/又は組成物中の化合物と別の化合物(例えば、システム1000によって以前に除外されたか又は含まれた化合物)との間の類似性を、比較される化合物のビットマップ間の類似性尺度を判定することによって判定し得る。類似性尺度は、ビットマップ間の(及び/又は化合物の任意の他の好適な表現間の)Jaccardインデックスを判定することなどによって、任意の好適な類似性技術を介して判定され得る。
【0095】
行為3035を実行する際にシステム1000のいくつかの動作モードがある。いくつかの実施形態では、システム1000は、閾値よりも大きい(又は、いくつかの実施形態では、しきい値未満である)1つ以上の化合物のいずれかに対する類似性尺度を有する化合物を含む組成物を除外する。いくつかの実施形態では、システム1000は、閾値よりも大きい(又は、いくつかの実施形態では、しきい値未満である)1つ以上の化合物の各々に対する類似性尺度を有する化合物を含む組成物を除外する。いくつかの実施形態では、システム1000は、閾値よりも大きい(又は、いくつかの実施形態では、しきい値未満である)1つ以上の化合物のいずれかに対する類似性尺度を有する化合物を含む組成物のみを含む。いくつかの実施形態では、システム1000は、閾値よりも大きい(又は、いくつかの実施形態では、しきい値未満である)1つ以上の化合物の各々に対する類似性尺度を有する化合物を含むそれらの組成物のみを含む。閾値は、例えば、既定され、ユーザによって提供され、及び/又は別のコンピュータシステムから取り出され得る。動作モードは、既定され、及び/又はユーザによって選択され得る。例えば、60%の閾値は、任意選択的に、「除外<=閾値」オプションと共に、パラメータストアに記憶され得る。そのようなシナリオでは、行為3035は、Jaccardインデックスを使用した少なくとも60%の類似性試験を満たさなかった化合物を含む全ての候補殺有害生物組成物を除外することを含み得る。ユーザは、適切な設定を適用することによって、システム1000に、類似しているか又は異なる化合物及び候補殺有害生物組成物を含ませるか、又は除外させ得る。
【0096】
いくつかの実施形態では、システム1000は、各候補殺有害生物組成物の化合物のサブセットの類似性尺度に基づいて、候補殺有害生物組成物を除外する。例えば、システム1000は、候補殺有害生物組成物の他の化合物の類似性尺度を必ずしも判定することなく、参照相乗的化合物に対する候補相乗的化合物の類似性尺度に基づいて、候補殺有害生物組成物を除外し得る。参照相乗的化合物は、ユーザによって提供され、既定され、別のコンピュータシステムから取り出され、及び/又は他の方法で取得される(例えば、候補殺有害生物組成物のバッチを処理しながら、システム1000によって受信された第1の候補相乗的化合物は、参照相乗的化合物として使用され得る)。このように、候補相乗的化合物を、特定の相乗的化合物に類似しているものに制限することは、好適な状況では、既知の安定な化合物(例えば、ギ酸)に対する化学的類似性を有する化合物が、任意の化合物と比較してやはり安定である可能性が高くなる傾向があるため、システム1000によって選択される不安定な又はさもなければ非現実的な化合物の数を制限し得る。
【0097】
いくつかの実施形態では、システム1000は、複数の類似性尺度を判定し、複数の類似性尺度に基づいて、候補殺有害生物組成物を含む及び/又は除外する。例えば、システム1000は、MACCSフィンガープリントなどの第1のフィンガープリントに基づいて、(例えば、参照相乗的化合物に対する)候補相乗的化合物の第1の類似性尺度を判定し得る。システム1000は、Morganフィンガープリントなどの第2のフィンガープリントに基づいて、(例えば、参照相乗的化合物に対する)候補相乗的化合物の第2の類似性尺度を更に判定し得る。システム1000は、例えば、両方の類似性尺度が閾値(例えば、2つのフィンガープリントに対して同じであっても異なっていてもよい、50%、60%、70%、80%、90%、及び/又は何らかの他の好適な閾値)を超える場合、候補殺有害生物組成物を含み、そうでない場合、候補殺有害生物組成物を除外し得る。
【0098】
3040において、システム1000は、任意選択的に、毒性基準及び/又は適合性基準に基づいて、候補化合物をフィルタリングする。システム1000は、例えば化合物の受信された表現、強調された表現から、並びに/又はデータベース250及び/若しくは570などのデータストアから取り出すことによって、例えば、殺有害生物組成物の各化合物について、毒性の表現を取得し得る。次いで、候補殺有害生物組成物の化合物が、毒性基準を満たす毒性の対応する表現を有する場合、システム1000は、候補殺有害生物組成物を除外し得る。例えば、システム1000は、任意の既知の毒性を有する化合物を含む全ての候補殺有害生物組成物を除外し得る。別の例として、システム1000は、特定のタイプの毒性(例えば、Tox21などのデータセットによって識別された1つ以上の毒性)を有する化合物を含む候補殺有害生物組成物を除外し得る。別の例として、システム1000は、少なくとも閾値程度の毒性を有する化合物を含む候補殺有害生物組成物を除外し得る(例えば、5点スケールによって測定された毒性のタイプでは、システム1000は、程度1を有するものを必ずしも除外することなく、程度2以上のそのタイプの毒性を有する化合物を含む候補殺有害生物組成物を除外し得る)。別の例として、システム1000は、リスト上の生物に対する毒性を有する化合物を含む殺有害生物組成物を除外し得、例えば、ヒト及び特定の作物に対する毒性が望ましくないと考えられる場合、リストは、ヒト及びそれらの作物を含み得るが、他の生物(例えば、毒性がそれに対して所望され得る有害生物)を除外し得る。
【0099】
いくつかの実施形態では、行為3040は、任意選択的に、適合性基準に基づいて、候補殺有害生物組成物をフィルタリングすることを含む。例えば、システム1000は、データストア(データベース250及び/又は570など)から、既知の好適な及び/又は既知の不適な化合物のリストを取り出し得る。システム1000は、既知の不適なものであるとリストされている化合物を含む候補殺有害生物組成物を除外し得、及び/又は既知の好適なものとしてリストされていない化合物を含む候補殺有害生物組成物を除外し得る。例えば、システム1000は、殺有害生物として以前に登録された化合物のEPA提供データベースをクエリし、それらが有効であることが既知である有害生物などの以前の登録に関する情報を収集し得る。システム1000は、3015において識別された1つ以上の有害生物に対して有効なものとして登録された少なくとも1つの化合物を含まない任意の候補殺有害生物組成物を除外し、及び/又は特定のクラスの殺有害生物として有効なものであると登録されていない任意の候補殺有害生物組成物を除外し得る(例えば、真菌の文脈においては、概して殺真菌剤として有効であることが既知である化合物を含む組成物のみが含まれ得る)。
【0100】
3045において、システム1000は、任意選択的に、候補殺有害生物組成物の1つ以上の特徴を選択し、候補殺有害生物組成物の低減された表現を生成する。例えば、システム1000は、(例えば、QSARモデルを介して生成されるような)化学的特性などの複数の特徴を含む、3010において強調された表現を生成し得、生成のための特定の特徴を選択し(その場合、3045は、3010の構成行為であり得る)、及び/又は生成後に1つ以上のそのような特徴を除去し得る(その場合、3045は、構成行為又は独立した行為であり得、任意の好適な時間に行われ得る)。
【0101】
相乗的に有効な殺有害生物組成物を識別する際にシステム1000の少なくともいくつかの実施形態の精度に寄与するものとして利用可能な数千個の中から識別された特徴は、芳香族性、電気陰性度、極性、親水性/疎水性、及びハイブリダイゼーションに関連する特徴を含む。いくつかの実施形態では、特徴は、静電化学的特徴(特に、化合物の各原子の電気陰性度、化合物の部分電荷、バランス分子連結度インデックス(例えば、Chiインデックス)、芳香族性、及び局所双極子モーメント)、トポロジー化学的特徴(特に、原子のハイブリダイゼーション、グラフ距離インデックス(例えば、Weinerインデックス)、及び結合の極性数)、立体配座化学的特徴(特に、単結合の数、二重結合の数、三重結合の数、芳香族結合の数、芳香族環の数、官能基の配向、シス-トランス異性体の表現、及び鏡像異性体の表現)、並びに表面関連及び物理化学的特性(特に、分配係数の尺度(例えば、logP)、分布係数の尺度(例えば、logD)、極性表面積の尺度、分子表面積の尺度、不飽和インデックス、親水性インデックス、及び総疎水性表面積)、からなる1つ以上の群から選択される。
【0102】
例えば、少なくとも1つの例示的な実施形態では、多数(例えば、RDKit QSARモデルの場合、約2000)の特徴は、QSARモデルを介して、候補殺有害生物組成物の1つ以上の構成化合物の各々に対して生成可能であり得る。そのような特徴は、例えば、化合物のスカラー特性(例えば、磁気特性)、二次元マトリックス特性(例えば、官能基)、及び/又は三次元マトリックス特性(例えば、幾何学的/立体配座特性)を含み得る。
【0103】
システム1000は、分類器300の予測に寄与すると予想される特徴を選択し得る。例えば、システム1000は、殺有害生物効率と相関する特徴を選択し得、及び/又は殺有害生物効率との低い(若しくは無)相関を有する特徴を除去し得る。例えば、システム1000は、化合物中のヨウ素原子の数のカウント、化合物の分子量、及び/又は化合物中の原子の数のカウントなどの特徴を、(例えば、生成しないようにQSARモデルに命令することによって)強調された表現から除去し、及び/又はQSARモデルに生成させないようにし得る。
【0104】
別の例として、システム1000は、閾値を超える分散を有する化学的特徴を選択し得、及び/又は閾値を下回る分散を有する特徴を除去し得る。(例えば、少なくともいくつかの実施形態では、システム1000によってスクリーニングされた全ての化合物にわたって同一である特徴は、0分散を有するため、省略され得る。)いくつかの実施形態では、1つ以上のカテゴリ特徴は、二値化され、例えば、量0及び1によって支配される化合物によって保有される環の数を記述する特徴は、化合物が環を有するかどうかを記述する特徴に二値化され得る(即ち、0がFALSE/0にマッピングし、かつ全ての他の値がTRUE/1にマッピングするように、特徴を変換する)。3050において、システム1000は、3005、3010、及び/又は3015において得られた候補殺有害生物組成物の表現に基づいて、任意選択的に、3020、3030、3035、及び/又は3040において除外された候補殺有害生物組成物に基づいて、最終的な候補殺有害生物組成物セットを生成する。いくつかの実装形態では、システム1000は、方法3000の行為を非同期的に実行する。システム1000は、非同期的及び/又は他の実施形態では、候補殺有害生物組成物及び/又は構成化合物の記録について、データベース250などのデータストアをクエリし、記録がエンコーダ210による符号化の準備ができているかどうかを判定し得る。システム1000は、そのようなクエリを定期的に実行し得る。システム1000は、(実施形態によって提供されない任意選択的な行為を除く)方法3000の他の行為の各々が、記録の対応する候補殺有害生物組成物に対して実行されたとき、記録が符号化の準備ができていると判定し得る。いくつかの実施形態では、システム1000は、最終的な殺有害生物組成物セットから、エンコーダ210によって以前に符号化された及び/又は分類器300によって予測が生成された任意の殺有害生物組成物を除外する。システム1000は、任意選択的に、そのような候補殺有害生物組成物の記録を、そのような以前の符号化及び/又は予測を反映するようにマークし得、3050において、そのマーキングを取り出し、それに応じて殺有害生物組成物を除外し得る。
【0105】
いくつかの実施形態では、システム1000は、分類器300の訓練されたモデルの訓練セットの一部として使用された任意の候補殺有害生物組成物をフィルタリングする。システム1000は、データベース250などのデータストアに、以前に訓練された化合物及び/又は候補殺有害生物組成物のリストを記憶し得る。
【0106】
行為3050の後、方法3000は完了する。
【0107】
システム1000は、データベース250及び/又は570などのデータストアに、行為3005、3010、3015、及び/又は3050において受信及び/又は生成された候補殺有害生物組成物の表現を記録し得る。データストアは、システム1000の他のモジュールに、ユーザに、及び/又は他のコンピュータシステムに利用可能であり得る。本開示が、このようなデータストアに記憶されるものとして本明細書に記載される情報を受信するシステム1000の他のモジュールを記載する場合、そのような情報を受信することは、そのようなデータストアからそれを取り出すことを含み得る。
【0108】
システム1000は、追加的又は代替的に、データベース250及び/又は570などのデータストア内の1つ以上のフィルタリング行為3020、3030、3035、3040において除外された候補殺有害生物組成物を記録し得る。システム1000は、そのような記録において、候補殺有害生物組成物及び/又は特定の構成化合物が除外されたことを識別し得る。システム1000は、除外される理由を、(例えば、除外リストに、化合物が可用でなかったという指標、若しくは何らかの他の適用可能な理由を記録することによって)明示的に記録し得、並びに/又は(例えば、非可用のために拒絶された化合物が1つのデータストアに記録され、除外リストのために拒絶された化合物が別のデータストアに記録されることなどのように、除外の理由に応じて、異なるデータストアに組成物及び/若しくは化合物を記録することによって)暗黙的に記録し得る。いくつかの実施形態では、システム1000は、そのようなデータストアをクエリし、フィルタリング行為3020、3030、3035、3040を適用する前に、それと並列して、及び/又はその後に、以前に除外された候補殺有害生物組成物を除外する。
候補殺有害生物組成物の符号化
【0109】
システム1000は、エンコーダ210において候補殺有害生物組成物の表現を符号化する。
図4は、エンコーダ210及び/又は任意の好適に構成されたコンピュータシステムによって実行され得る候補殺有害生物組成物の表現を符号化するための例示的な方法4000を示す。4010において、エンコーダ210は、各候補殺有害生物組成物の表現を受信し、これは、候補殺有害生物組成物の化合物、候補殺有害生物組成物調合のパラメータ、化合物のフィンガープリント、化合物のグラフ表現、原子情報、分子情報(例えば、原子カウント、結合タイプ及び結合カウント)、量子機械情報(例えば、電子電荷分布)、並びに/又は本明細書に記載の候補殺有害生物組成物及び/若しくはその構成化合物に関する他の情報の受信及び/若しくは強調された表現を含み得る。少なくともいくつかの実施形態では、エンコーダ210は、方法3000の行為3050において生成された最終的な候補殺有害生物組成物セットにおける各候補殺有害生物組成物についての表現を受信する。エンコーダ210によって受信された候補殺有害生物組成物の表現は、未加工表現としてエンコーダ210を説明する目的で参照される。
【0110】
4030において、システム1000は(例えば、エンコーダ210において)、各未加工表現を、候補殺有害生物組成物の符号化された表現に変換する。候補殺有害生物組成物の符号化された表現は、単一の表現(例えば、単一の潜在ベクトル)、又は複数の表現(例えば、候補殺有害生物組成物の各化合物についての1つ)を含み得る。エンコーダ210によってもたらされる変換は、分類器300による分類に適した候補殺有害生物組成物の符号化された表現を生成するための圧縮、特徴選択、及び/又はトランスコーディングのうちの1つ以上を含み得る。例えば、エンコーダ210は、(例えば、構成化合物の特徴を含む)候補殺有害生物組成物に関する原子、分子、量子ダイナミック、及び/又は他の情報を、分類器300への入力に必要な構造に適合しながらその情報の少なくとも一部分を符号化する規則的に構造化された符号化された表現に変換し得る。例えば、符号化された表現の構造は、ニューラルネットワークを備える分類器300の入力層の構造に対応し得る(例えば、分類器300が数値を有する32変数入力をとる場合、エンコーダは、数値を含む32変数符号化された表現、数値を含む2つの16変数符号化された表現、及び/又は分類器300によって必要とされる入力と整合する別のセットの符号化された表現を生成し得る)。符号化された表現は、任意選択的に、以下により詳細に記載されるように、未加工表現よりも低い次元であり、及び/又は未加工表現によって提供されるよりも少ない特徴を含む。
【0111】
いくつかの実施形態では、エンコーダ210は、候補殺有害生物組成物の未加工表現を圧縮する。それらの構成化合物を含む殺有害生物組成物の未加工表現は、多くのデータポイントを含んで、複雑で高次元になる傾向がある。例えば、QSAR生成された分子情報を含む化合物の強調された表現は、少なくともいくつかのコンピュータシステムにとっては訓練するために扱いにくい多数の変数である、3000を超える変数を提供し得る。エンコーダ210は、そのような表現を、候補殺有害生物組成物のより低い次元の符号化された表現に変換し得る。
【0112】
例えば、エンコーダ210の少なくとも1つの例示的な実施形態は、3000を超える変数を有する未加工表現を、32個の変数を有する符号化された表現に変換する。エンコーダ210は、未加工表現を、任意の数(例えば、10、16、20、25、30、40、50、64、100、128など)の変数を有する符号化された表現に変換するように構成され得る。そのような符号化は、可逆的及び/又は非可逆的であり得る。以下に記載されるような好適なエンコーダは、高度の再構成忠実度(即ち、低い再構成損失)を提供し得、これは、少なくともいくつかの実施形態では、符号化された形態ではあるが、より低い次元の表現が、未加工表現に記憶された全て又はほぼ全ての情報を符号化し得ることを意味する。
【0113】
本発明の範囲から逸脱することなく、いくつかのタイプのエンコーダが使用され得る。例えば、少なくともいくつかの実施形態では、エンコーダ210は、Lempel-Ziv圧縮、部分整合による予測、Huffman圧縮、算術コーディング、Shannon-Fano圧縮などの圧縮技術に従って、未加工表現を圧縮する。
【0114】
任意選択的に、4020において、システム1000は(例えば、エンコーダ210において)、未加工表現に基づいて、特徴選択を実行する。そのような特徴選択は、方法3000の行為3045の特徴選択に加えて、又はその代わりに行われ得る。(行為3045は、任意選択的に、エンコーダ210によって全体的又は部分的に実行され得る。)エンコーダ210は、例えば、未加工表現の部分を廃棄し、未加工表現の他の部分を保持して、保持部分のみを含むより低い次元の符号化された表現を生成し得る。特徴選択は、(通常は非可逆的)圧縮の形態であるが、保持部分は、必ずしも圧縮されていないか、又は別様に符号化されていない(ただし、エンコーダ210は、任意選択的に、本明細書に記載されるように、保持部分を符号化し得る)。
【0115】
いくつかの実装形態では、エンコーダ210による特徴選択は、未加工表現に基づいて、1つ以上の特徴記述子を抽出することを含む。特徴記述子は、候補殺有害生物組成物の特徴(例えば、候補殺有害生物組成物の構成化合物の特徴)を記述し、例えば、原子情報、分子情報(例えば、原子カウント、結合タイプ及び/若しくは結合カウント)、量子機械情報(例えば、電子電荷分布)、並びに/又は候補殺有害生物組成物の(例えば、その構成化合物)他の特徴を含み得る。所与の特徴記述子は、1つ以上の候補殺有害生物組成物に関連付けられ得る。複数の特徴記述子は、複数の特徴記述子が、候補殺有害生物組成物の化合物のフィンガープリント(例えば、グラフ表現)に関連付けられているときなど、互いに関連付けられ得る。
【0116】
いくつかの実装形態では、エンコーダ210は、特徴記述子の明示的表現を含む符号化された表現を生成する。例えば、エンコーダ210は、候補殺有害生物組成物の化合物の未加工表現から原子カウントを抽出し、その原子カウントを明示的に表す値を含む符号化された表現を生成し得る。例えば、候補殺有害生物組成物の未加工表現が、候補殺有害生物組成物の第1の化合物が10個の原子を有することを示す場合、エンコーダ210は、数値スカラー値10を含む符号化された表現を生成し得る。別の例として、特徴記述子は、エンコーダ210が、符号化された表現内の化合物の分子構造を、単純化された分子入力ラインエントリシステム(simplified molecular-input line-entry system、SMILES)ストリングとして符号化する場合など、非スカラー(例えばベクトル)値を含み得る。いくつかの実装形態では、エンコーダ210は、例えば、特徴記述子を1つのスカラー値に組み合わせ、かつ/又は複数のスカラー値にわたって特徴記述子の情報を分配し得る圧縮表現を介して、特徴記述子の暗黙的表現を含む符号化された表現を生成する。変分オートエンコーダのエンコーダ部分を備えるエンコーダ210の実施形態によって生成された潜在空間符号化された表現は、そのような暗黙的な特徴選択の一例である。
【0117】
エンコーダ210によって選択される特徴は、実施形態によって変化し得る。例えば、候補殺有害生物組成物の原子、分子、量子ダイナミック、及び/又は他の特徴(例えば、それらの構成化合物の特徴)は、異なるエンコーダ210によって、及び/又は異なる符号化スキームを提供する単一のエンコーダ210によって、異なって符号化され得る。様々な符号化が、エンコーダ210によって提供され得る。システム1000は、所望される場合、2つ以上の符号化を使用して、化合物の符号化された表現を生成し得、並びに/又は異なるエンコーダ210及び/若しくはエンコーダ210によって提供される異なる符号化を使用して異なる化合物の符号化された表現を生成し得る。いくつかの実装形態では、システム1000は、殺有害生物化合物の未加工表現を変換するための少なくとも第1のエンコーダ、及び相乗的化合物の未加工表現を変換するための少なくとも第2のエンコーダという、少なくとも2つのエンコーダを提供する。そのような第1及び第2のエンコーダは、異なる符号化を提供し得る(例えば、殺有害生物化合物及び相乗的化合物は、エンコーダの異なる訓練されたパラメータに基づいて、異なる選択された特徴を有する異なる数の値で、及び/又は異なるタイプのエンコーダによって符号化され得る)。
【0118】
いくつかの実施形態では、エンコーダ210は、3つ以上の構成化合物を含む(例えば、複数の候補殺有害生物化合物、複数の候補相乗的化合物、及び/又はアジュバント、溶媒などの1つ以上の他の化合物を含む)候補殺有害生物組成物を符号化するように構成される。例えば、エンコーダ210は、3つ、4つ、又はそれ以上の化合物に基づいて、符号化された表現を生成し得る。いくつかの実施形態では、エンコーダ210は、化合物の表現の固定数を受信し(例えば、エンコーダ210は、3つの化合物を受信するように構成され得)、同じ数の化合物を有する殺有害生物組成物の表現を含む訓練データにわたって訓練される。いくつかの実施形態では、エンコーダ210は、符号化されている候補殺有害生物組成物の構成化合物の数に応じて、可変数の化合物を受け取る。エンコーダ210は、任意の適切な方法でそのような組成物を符号化し得、例えば、エンコーダ210は、符号化プロセスの各パスにおいて化合物の表現の固定数(例えば、1つ、2つ、又はそれ以上)を受け取って、中間の符号化された表現(例えば、16、32、64、又は128変数浮動小数点表現)を生成し得、次いで、アテンションメカニズム、点ごとの合計、及び/又は他の好適なアプローチを介して、中間の符号化された表現を組み合わせることによって、(中間の符号化された表現と同じ形態の)最終的な符号化された表現を生成し得る。エンコーダ210は、任意選択的に、候補相乗的化合物及び候補殺有害生物化合物のための別個の符号化された表現を生成し得る。
【0119】
少なくとも1つの例示的な実施形態では、エンコーダ210は、(例えば、アンサンブル分類器を備える分類器300の場合、訓練された分類器310a、...310nによって必要とされる特徴識別子の識別を含み得る)分類器300によって必要とされる特徴記述子の識別のセットを受信し、特徴記述子の識別のセットに基づいて、候補殺有害生物組成物の未加工表現に表される各化合物について特徴抽出を実行する。識別のセットは、分類器300によって受け入れられた化合物の数、及び/又は各化合物について、化合物の特徴記述子のセットの識別を含み得、エンコーダ210は、その化合物について指定された特徴記述子のセットに基づいて、各化合物について特徴抽出を実行し得る。いくつかの実装形態では、エンコーダ210は、候補殺有害生物組成物に関連付けられた(例えば、未加工表現によって表され、及び/又はそれに関連付けられた)混合比情報を、符号化された表現に追加する。例えば、エンコーダ210は、化合物の表現を符号化し、これらを符号化された表現に追加し、混合比情報を、化合物の符号化とは無関係に候補殺有害生物組成物の符号化された表現に追加し得る。別の例として、混合比情報は、例えば、そのような混合比情報を、エンコーダ210によって生成された(以下に記載される)圧縮及び/又は潜在空間表現に組み込むことによって、化合物の表現と共に符号化され得る。例えば、化合物の符号化された表現は、連結、アテンションメカニズム、及び/又は任意の他の好適な組み合わせ技術を介して(任意選択的に、混合比情報と共に)組み合わされ得る。
【0120】
いくつかの実施形態では、分類器300に渡された一部の情報は、符号化されない。例えば、エンコーダ210は、候補化合物の未加工表現のみを符号化し得るが、他の情報(候補殺有害生物組成物調合パラメータ及び/又は1つ以上の有害生物の表現など)は、符号化なしで分類器300に渡され得る。いくつかの実施形態では、システム1000は、化合物の未加工表現の符号化とは別個に、そのような他の情報を符号化する。
【0121】
いくつかの実施形態では、エンコーダ210は、入力として化合物の未加工表現を受信し、エンコーダ210の訓練されたパラメータのセットに基づいて、未加工表現を変換する。いくつかの実施形態では、エンコーダ210は、独立して、候補殺有害生物組成物の各化合物の未加工表現を受信し、符号化し、それによって、各化合物の符号化された表現を生成する。いくつかの実施形態では、システム1000は、複数のエンコーダ210を提供する。システム1000は、第1のエンコーダを用いて候補殺有害生物組成物(例えば、殺有害生物活性成分)の第1の化合物を符号化し、第2のエンコーダを用いて候補殺有害生物組成物(例えば、候補相乗的成分)の第2の化合物を符号化し得る。第1及び第2のエンコーダは、同じ又は異なる訓練セットにわたって訓練され、同じ又は異なる構造及び/又はパラメータを備え得る。例えば、第1のエンコーダは、殺有害生物活性成分の訓練セットにわたって訓練され得、第2のエンコーダは、相乗的(及び/又は拮抗的及び/又は非相乗的)成分の訓練セットにわたって訓練され得る。
【0122】
いくつかの実施形態では、エンコーダ210は、変分オートエンコーダの少なくとも一部分を備える。少なくとも1つの実施形態では、エンコーダ210は、デコーダ部分と一緒に訓練されたが、符号化中にデコーダ部分なしで動作する、変分オートエンコーダのエンコーダ部分を備える。(デコーダ部分は、必ずしもシステム1000の一部を形成しない。)そのようなエンコーダ210は、入力データによって特徴付けられる入力空間X内(比較的疎な)未加工表現xを、事前分布p(z)によって特徴付けられる潜在空間Z内の(比較的密な)符号化された表現zに変換する。特に、エンコーダ210は、p(z|x)を判定して、所与の化合物の潜在空間にわたる分布を生成する。エンコーダ210は、その分布を、任意の好適な方法で符号化された表現に変換し得る。少なくともいくつかの実装形態では、エンコーダ210は、例えば、(例えば、潜在変数にわたって独立して又は一緒に)分布の平均値を判定することによって、分布を、符号化された表現に決定的に変換する。そのようなエンコーダ210は、正確な再構築に最も寄与する(及びいくつかの意味では、化合物の「顕著な」特徴である)特徴を識別する傾向があることによって、暗黙的な特徴圧縮を提供すると考えることができる。
【0123】
いくつかの実施形態では、エンコーダ210は、逆自己回帰フロー変分オートエンコーダのエンコーダを含む。例えば、エンコーダ210は、好適な目的関数を最小化するパラメータを見つけるために、(本明細書の他の箇所で説明されるように)化学組成物の任意の好適な訓練データセットにわたって訓練され得る。例えば、目的関数は、logp(x)によって提供され得(例えば、損失関数は、否定を介してそこから導出され得)、これは、少なくともいくつかの実施形態では、以下に基づいて、下限によって近似され得る。
【数1】
これは、以下の形式で表され得る。
Eq[logp(x│z
T)+logp(z
T)-logq(z
Tx)]
式中、pは、逆自己回帰フロー変分オートエンコーダが訓練される真の分布であり、qは、逆自己回帰フロー変分オートエンコーダが学習する近似分布であり、z
Tは、潜在空間の要素であり、少なくともいくつかの実施形態では、第Tのz
iとして記述され得、式中、z
0~q(z
0│x)であり、いくつかの一連の反転可能な変換f
i(・)についてz
i=f
i(z
i-1,x)であり、xは、入力空間からの要素である。
【0124】
更に、少なくともいくつかの実施形態では、logq(z
T│x)及びlogp(z
T)は、次のように近似され得る。
【数2】
式中、
【数3】
は、好適なノイズベクトルであり
【数4】
σ
t,iは、潜在変数z
tの第iの要素の分散である。
【0125】
いくつかの実施形態では、エンコーダ210は、例えば、訓練セットの入力表現と、(エンコーダ210によって生成された符号化された表現に基づいて)デコーダ部分によって生成された再構築された表現との間の再構築損失を最小限に抑えるために、半教師ありアプローチを介して訓練される。いくつかの実施形態では、エンコーダ210は、分類器300よりも大きい及び/又はより一般的なデータセットにわたって事前訓練及び/又は訓練される。例えば、分類器300は、殺有害生物組成物にわたって(及び/又はそのような組成物のサブクラスにわたって)訓練され得るが、エンコーダ210は、それに限定されない化学データセットにわたって訓練され得、殺有害生物組成物さえ含まない場合がある。いくつかの実施形態では、エンコーダ210及び分類器300は一緒に訓練され、その結果、訓練は、共有データに対して共有目的関数を最小限に抑える(又は適宜に最大化する)ように、エンコーダ210と分類器300の両方のパラメータを更新することを伴う。例えば、訓練データは、分類器関連サブセットを含み得、エンコーダ210及び分類器300の組み合わされた損失関数は、L組み合わせ=LエンコーダαL分類器に基づき得、式中、所与のデータが分類器関連サブセット内にある場合、α=1であり、そうでない場合、α=0である。いくつかの実施形態では、エンコーダ210及び分類器300は、別々に訓練される。エンコーダ210及び分類器300を別々に訓練することに対して、それらを一緒に訓練することの潜在的な利点は、一緒に訓練することにより、より大きい複雑性及び限られた関連訓練データという潜在的な犠牲を払って、エンコーダ210に、分類器300により関連する特徴を選択させる傾向があり得るということである。
【0126】
いくつかの実施形態では、エンコーダ210は、グラフ畳み込みニューラルネットワークなどのニューラルネットワークを備える。ニューラルネットワークは、入力層において、入力として化合物の未加工表現を受信し得(及び/又はその一部分を受信し、例えば、エンコーダ210は、関連する特性を有する化合物のグラフ表現を受信し得)、入力層に対応する訓練されたパラメータのセットに基づいて、かつニューラルネットワークによって提供される活性化関数及び非線形性の形式に基づいて、未加工表現を変換し、それによって、中間表現を生成し得る。エンコーダ210は、対応する構造(例えば、層間入力/出力)、非線形性、及び訓練されたパラメータをそれぞれ有する1つ以上の隠れ層を介して中間表現を更に変換し、最終的に、(それ自体の構造、非線形性、及び訓練されたパラメータを有する)出力層において符号化された表現を生成し得る。少なくともいくつかの実施形態では、出力層の構造は、分類器300によって必要とされる入力の形式に対応する。例えば、分類器300が32変数入力を受信する場合、エンコーダ210は、32変数出力層を介して32変数符号化された表現を生成し得る。(中間表現は、出力層と同じ数の変数又は同じ構造を必ずしも有せず、通常は有しない)。
【0127】
いくつかの実施形態では、分類器300は、エンコーダ210を備える(即ち、符号化及び分類の機能は、1つのモジュールによって提供され得る)。例えば、いくつかの実施形態では、分類器300は、グラフ畳み込みニューラルネットワーク(GCNN)を備え得、これは、(例えば、セレクタ200によって生成される)候補殺有害生物組成物の1つ以上のグラフ表現を受信し、初期段階において、グラフを横断し、それらのノード及び/又はエッジに情報を蓄積し、それによって、候補殺有害生物組成物の中間(即ち、符号化された)表現を判定することによって、それらの表現を平坦化する。GCNNの動作の後の段階では、中間表現は、適切な出力に更に変換される。
【0128】
例えば、システム1000は、候補殺有害生物組成物の各化合物についてのグラフ表現を生成し、GCNNに提供し得る。別の例として、システム1000は、候補殺有害生物組成物についての1つのグラフ表現を生成し、GCNNに提供し得、これは、候補殺有害生物組成物の各化合物を表す独立サブグラフを含み得る。いくつかの実施形態では、システム1000は、そのような独立サブグラフを接続し、それによって、候補殺有害生物組成物の少なくとも一部分を表す接続されたグラフを生成し得る。少なくとも1つの実施形態では、システム1000は、候補殺有害生物組成物の構成化合物のグラフ表現における水素結合部位間の(結合を表す)エッジを追加する。システム1000は、そのようなグラフ表現における結合長さを表し得、水素結合部位間の追加された結合の表現は、単結合及び二重結合とは異なる長さで提供され得る。例えば、結合長さは、カテゴリ的に表され得、その場合、単結合の長さは、1であり得、二重結合の長さは、2であり得、追加された結合の長さは、3であり得る(又は、ワンホット符号化では、それぞれ、(1,0,0)、(0,1,0)、及び(0,0,1)のとおりである)。別の例として、結合長さは、(例えば、物理的な長さに基づいて)連続的に表され得、この場合、追加された結合の長さは、単結合よりも長い(即ち、より弱い)ものとして表され得る(例えば、単結合に対しては1、二重結合に対しては0.5、及び追加された結合に対しては2)。単結合の結合長さとは別個に、追加された結合の結合長さを表すことは、少なくともいくつかの実験的試験では、本明細書に記載のシステム及び方法の改善された性能と相関している。
【0129】
システム1000は、データベース250及び/又は570などのデータストアに、エンコーダ210によって生成された候補殺有害生物組成物の符号化された表現を記録し得る。符号化された表現は、それらの対応する未加工表現(例えば、対応する受信された表現、及び/又は方法3000の行為3050において識別された表現)に関連付けられ得る。符号化された表現はまた、又は代替的に、符号化された表現を生成したエンコーダ(例えば、エンコーダ210)に関連付けられ得る。そのような関連付けは、例えば、符号化された表現の記録に、対応する表現/エンコーダの識別子を記録すること、及び/又は関連する表現/エンコーダの記録に、符号化された表現の識別子を記録することを含み得る。データストアは、システム1000の他のモジュール(例えば、分類器300)に、ユーザに、及び/又は他のコンピュータシステムに利用可能であり得る。本開示が、このようなデータストアに記憶されるものとして本明細書に記載される情報を受信するシステム1000の他のモジュールを記載する場合、そのような情報を受信することは、そのようなデータストアからそれを取り出すことを含み得る。いくつかの実施形態では、エンコーダ210が、(例えば、訓練を介して、その訓練されたパラメータを更新することによって)修正される場合、システム1000は、データストアから未加工表現を取得すること(及び/又は受信された表現に基づいてそのような未加工表現をセレクタ200から取得すること)と、未加工表現を新しい符号化された表現に変換することと、によって、エンコーダ210に関連付けられた符号化された表現を再生成し得る。例えば、システム1000が複数のエンコーダを提供する場合、これは、全てのエンコーダのための全ての符号化された表現を再符号化することに対して、再符号化するための計算要件を低減し得る。
候補殺有害生物組成物の相乗効果予測の生成
【0130】
分類器300は、各候補殺有害生物組成物について、エンコーダ210によって生成された符号化された表現を受信し、この符号化された表現に基づいて、かつ訓練されたパラメータの1つ以上のセットに基づいて、1つ以上の予測を生成する。
図5は、分類器300及び/又は任意の好適に構成されたコンピュータシステムによって実行され得る、1つ以上の有害生物に対する候補殺有害生物組成物の相乗的有効性の予測を生成するための例示的な方法5000を示す。5010において、分類器300は、候補殺有害生物組成物の受信、強調、及び/又は符号化された表現を含み得る(及び組成物の構成化合物のそのような表現を含み得る)各候補殺有害生物組成物の表現を受信する。5040において、分類器300は、そのような表現を、1つ以上の有害生物に対する候補殺有害生物組成物の構成化合物の相乗的相互作用の予測に変換する。分類器300は、1つ以上の有害生物に対する候補殺有害生物組成物の化合物間の相乗的及び/又は拮抗的相互作用の基礎を形成する、候補化合物間の複雑な非線形関係をモデル化する。例えば、活性成分は、実験室では特定の有害生物に対して効果的であり得るが、インプランタ又はインフィールドの文脈においては、有害生物の自然防御のために、有害生物の細胞膜を貫通することができない。2つ以上の化合物(例えば、1つ以上の活性化合物及び1つ以上の相乗的化合物)の相乗的組み合わせは、活性化合物が有害生物の細胞構造にアクセスすることを可能にし、それによって、インプランタ及びフィールドの使用で活性化合物を有効にする。化合物と有害生物との間のそのような相互作用は、主題の予想によってさえも、容易に予測されない。
【0131】
分類器300は、ニューラルネットワーク、決定木、ロジスティック回帰、サポートベクターマシン、スタッキングモデル分類器、及び/又は任意の他の好適な分類器など、任意の好適な分類器を備え得る。
図1の描写された実施形態を含むいくつかの実施形態では、分類器300は、複数の訓練された分類器310a...310n(集合的に及び個別には、「分類器310」)を備えるアンサンブル分類器を備え、それらの各々は、訓練されたパラメータの対応するセット320a...320n(集合的に及び個別には、「訓練されたパラメータ320」)に基づいて、予測を生成する。いくつかの実施形態では、分類器310は、複数の計算層を有するディープニューラルネットワーク(deep neural network、DNN)モデルを備える。各分類器310は、化合物間の相互作用をモデル化し、また、化合物のうちの1つ以上と、1つ以上の有害生物の自然防御との間の相互作用をモデル化する。システム1000は、任意の数の分類器310を備え得る。例えば、システム1000は、8、16、32、64、128、及び/又は任意の他の好適な数の分類器(2のべき乗である必要はない)を備え得る。
【0132】
例えば、分類器300は、複数の訓練されたニューラルネットワーク分類器(例えば、分類器310)を備え得、それらの各々は、訓練されたパラメータ320の対応するセットによってパラメータ化される(例えば、分類器310aは、訓練されたパラメータ320aによってパラメータ化され得、分類器310bは、訓練されたパラメータ320bによってパラメータ化され得、以下同様である)。異なる分類器310(したがって、異なる訓練されたパラメータ320)は、異なる有害生物及び/又は異なる化合物にわたって訓練され得、それによって、異なる相互作用をモデル化し得る。例えば、各分類器310の訓練されたパラメータ320は、相乗的及び/又は拮抗的効果を有すると識別された化合物の組成物(及び、任意選択的に、1つ以上の有害生物)を含む対応する訓練データセットに対して訓練されていてもよい。方法5000のいくつかの実施形態では、システム1000は、例えば、本明細書の他の箇所でより詳細に説明されるように、(5020において)1つ以上の有害生物の1つ以上の表現を受信し、(5030において)1つ以上の有害生物のうちの少なくとも1つにわたって訓練された分類器310を選択する。次いで、選択された分類器310を実行して、5040において予測を生成する。
【0133】
図6は、分類器300のパラメータを訓練するための例示的な方法6000を示す。方法6000は、任意選択的に、(例えば、エンコーダ210及び分類器300を訓練一緒にすることによって、並びに/又は実質的に方法6000の以下の説明に従ってエンコーダ210を訓練することによって)エンコーダ210のパラメータを訓練することを含み得る。いくつかの実施形態では、行為6010は、行為5010に実質的に対応する。いくつかの実施形態では、方法6010は、相乗的相互作用予測(行為5040及び/又は行為6020におけるように生成された相乗的相互作用予測など)に基づいて、候補殺有害生物組成物表現を選択することを含む。例えば、いくつかの実施形態では、方法6000は、アクティブ学習を介して分類器300のパラメータを訓練することを含み、これは、例えば、複数の候補殺有害生物組成物表現(例えば、全ての利用可能な候補殺有害生物組成物表現、バッチ内の候補殺有害生物組成物表現、分散が閾値を超えている対応する相乗的相互関係予測を有する候補殺有害生物組成物表現、又は任意の他の好適な複数)の各々の重要性値を、そのような候補殺有害生物組成物表現ごとに(例えば、行為5040及び/又は6020におけるように)生成された相乗的相互作用予測に基づいて判定することを含み得る。いくつかの実施形態では、候補殺有害生物組成物表現のうちの1つ以上は、対応する重要性値に基づいて、行為6010において選択され、行為6020、6030、6040、及び6050は、選択された候補殺有害生物組成物表現に基づいて実行され、それによって、選択された候補殺有害生物組成物表現に基づいて、分類器300のパラメータを更新する。
【0134】
いくつかの実施形態では、複数の候補殺有害生物組成物表現の重要性値を判定することは、上記複数のうちの各候補殺有害生物組成物表現についての情報性メトリックを判定することを含む。情報性メトリックは、候補殺有害生物組成物表現について(例えば、行為5040及び/又は6020におけるように)分類器300によって生成された1つ以上の相乗的相互作用予測の標準偏差、分散、及び/又は信頼区間に基づき得る(及びいくつかの実施形態では、それらと同じである)。分類器300がアンサンブル分類器を備えるものなどのいくつかの実施形態では、分散は、標準偏差7220、分散、及び/若しくは信頼区間7220)を参照しながら本明細書の他の箇所で説明されるように、並びに/又は任意の他の好適な判定によって判定され得る。少なくとも1つの実施形態では、重要性メトリックは、(例えば、標準偏差7220に基づいて)分散を判定することを含む。超平面ベースの分類器300を備えるものなどのいくつかの実施形態では、情報性メトリックは、最も近い超平面への候補殺有害生物組成物表現の距離に基づき得る。いくつかの実施形態では、他の好適な重要性の尺度が、追加的又は代替的に判定され得る。
【0135】
いくつかの実施形態では、候補殺有害生物組成物表現を選択することは、代表性基準に基づいて、候補殺有害生物組成物表現を選択することを更に含む。例えば、候補殺有害生物組成物表現は、類似性メトリック(例えば、候補殺有害生物組成物表現が候補分子及び/又は他の組成置換基のグラフ表現を含む少なくともいくつかの実施形態では、グラフ類似性)に基づいてクラスタ化され得、1つ以上の候補殺有害生物組成物表現は、複数のクラスタの各々から選択され得る。いくつかの実施形態では、情報性メトリックは、クラスタ内の候補殺有害生物組成物表現のサブセットのみについて判定され、例えば、情報性メトリックは、各クラスタの(クラスタリングメトリックによって定義される)中心における候補殺有害生物組成物表現について判定され得、複数のクラスタからの候補殺有害生物組成物表現は、(例えば、適宜に、最も高い又は最も低い重要性値を有するn個の候補殺有害生物組成物表現を選択することによって、適宜に、閾値を上回るか又は下回る(及び/若しくは、任意選択的に、それに等しい)重要性メトリックを有する候補殺有害生物組成物表現を選択することによって、並びに/又は任意の他の好適な選択基準によって)それらの情報性メトリックに基づいて選択され得る。
【0136】
好適な代表性基準は、選択された候補殺有害生物組成物表現間の相違性を促進することができ、好適な状況では、及び任意選択的に、好適な情報性メトリックと組み合わせて、訓練分類器300が、ランダムサンプリングによって必要とされ得るよりも少ない標識された候補殺有害生物組成物表現を有するモデル収束に到達することを可能にすることができる。標識された候補殺有害生物組成物表現を取得することは、費用がかかり得、例えば、それは、候補殺有害生物組成物の相乗的相互作用を確認するために、実験室実験を行う人間の専門家を必要とし得る。そのような能動学習アプローチは、好適な状況では、モデルを適切に訓練するために必要な又は望ましい実験室実験の量を低減することができる。
【0137】
いくつかの実施形態では、行為6020は、行為5040に実質的に対応する。いくつかの実施形態では、例えば、分類器300が、行為5040においてなく、行為6020において訓練中にドロップアウトで予測を生成する実施形態などでは、分類器300は、行為6020において、行為5040とは異なるモードで動作する。
【0138】
6030において、システム1000は、少なくとも1つの訓練用の有害生物に対する行為6010の候補殺有害生物組成物の相乗的及び/又は拮抗的な有効性の指標を含む実験結果の表現を受信する。いくつかの実施形態では、少なくとも1つの訓練用の有害生物は、分類器300が予測を生成する1つ以上の有害生物のうちの1つである。いくつかの実施形態では、少なくとも1つの訓練用の有害生物は、殺有害生物作用モードを1つ以上の有害生物のうちの少なくとも1つと共有する。例えば、分類器300が予測を生成する1つ以上の有害生物が、(コドリンガなどの)鱗翅類の有害生物を含む場合、分類器300は、(例えば、コドリンガを含む上記の例では、そのような関連する鱗翅類は、ワタキバガ幼虫を含み得る)関連する鱗翅類の有害生物など、殺有害生物作用モードをそのような鱗翅類の有害生物と共有する他の有害生物に対する候補殺有害生物組成物の相乗的及び/又は拮抗的有効性の指標を含む実験結果にわたって訓練され得る。
【0139】
6040において、システム1000は、6020において生成された予測及び6030において受信された実験結果の表現に基づいて、それらの間の差に基づいて、(例えば、損失関数を含み得る)目的関数の値を判定する。6050において、システム1000は、例えばバックプロパゲーションを介して、6040において判定された目的関数値の値に基づいて、分類器300のパラメータを更新する。いくつかの実装形態では、異なる分類器310は、共通の訓練データセットの異なるサブセットにわたって訓練されている。サブセットは、重複しているか、又は独立であり得る。(各分類器は、訓練されていない共通の訓練セットの要素に対して更に検証され得る。)サブセットは、擬似ランダムに、データセットの何らかの順序に基づくサブ範囲を識別することによって、及び/又は任意の他の好適な判定基準によって判定され得る。
【0140】
いくつかの実装形態では、共通の訓練データセットのサブセットは、組成物が相乗的(及び/又は拮抗的)相互作用について試験された有害生物に基づいて判定されていてもよい。例えば、第1の分類器310aは、少なくとも第1の有害生物に対する既知の相乗的相互作用、拮抗的相互作用、又は相互作用なしの組成物を含む訓練データの第1のサブセットにわたって訓練されていてもよい。第2の分類器310bは、少なくとも第2の有害生物に対する既知の相乗的相互作用、拮抗的相互作用、又は相互作用なしの組成物を含む訓練データの第2のサブセットにわたって訓練されていてもよい。分類器310a及び310bは、それぞれ、第1及び第2の有害生物の相互作用に対して訓練されていてもよい。例えば、分類器310aは、訓練データの第1のサブセットにわたる再構築損失(又は他の好適な目的関数)を最小化する少なくとも第1の有害生物に対する組成物の相乗効果の予測を生成するように訓練されていてもよいが、分類器310bは、訓練データの第2のサブセットにわたる再構築損失(又は他の好適な目的関数)を最小化する少なくとも第2の有害生物に対する組成物の相乗効果の予測を生成するように訓練されていてもよい。分類器310aは、本明細書では、第1の有害生物に対して訓練されていると称され、分類器310bは、第2の有害生物に対して訓練されていると称される。いくつかの実装形態では、分類器310は、有害生物のクラスに対して訓練され、例えば、第1の分類器310aは、真菌有害生物のクラスに対して訓練されていてもよく、分類器310bは、細菌有害生物に対して訓練されていてもよい。
【0141】
代替的に、又は追加的に、共通の訓練データセットのサブセットは、構成化合物の化学構造など、共通の訓練データセット内の組成物の化学的特性に基づいて判定されていてもよい。混合物は、例えば、それらの広い化学的クラス(例えば、有機、無機、合成、及び/又は生物学的)、特定の化学官能基(例えば、アリール、アルキル、エチル、メチル、及び/又は他の基を有すること)、類似性(例えば、代表的な化合物及びその置換基、異性体、それが部分を共有する他の化合物、及び他の構造的に関連する化合物)、組成物及び/又はその構成化合物の物理的状態(例えば、燻蒸剤、噴霧、粉塵など)に基づいて、サブセットにグループ化され得る。例えば、第1の分類器310aは、有機殺有害生物活性成分を含む組成物を含む訓練データの第1のサブセットにわたって訓練されていてもよい。第2の分類器310bは、無機殺有害生物活性成分を含む組成物を含む訓練データの第2のサブセットにわたって訓練されていてもよい。分類器310a及び310bは、それぞれ、有機及び無機の殺有害生物活性成分に対して訓練されていてもよい。例えば、分類器310aは、訓練データの第1のサブセットにわたる再構築損失(又は他の好適な目的関数)を最小化する(例えば、1つ以上の有害生物に対する)有機殺有害生物活性成分を含む組成物の相乗効果の予測を生成するように訓練されていてもよいが、分類器310bは、訓練データの第2のサブセットにわたる再構築損失(又は他の好適な目的関数)を最小化する(第1の分類器と同じ又は異なる有害生物に対する)無機殺有害生物活性成分を含む組成物の相乗効果の予測を生成するように訓練されていてもよい。いくつかの実装形態では、分類器310は、有害生物のクラスに対して訓練され、例えば、第1の分類器310aは、真菌有害生物のクラスに対して訓練されていてもよく、分類器310bは、細菌有害生物に対して訓練されていてもよい。
【0142】
システム1000は、各分類器310がどの化合物及び/又は有害生物に対して訓練されているかを示す記録を記憶し、動作中に受信し、及び/又は取り出すように動作可能であり得る。いくつかの実施形態では、分類器300は、(例えば、候補殺有害生物組成物の受信された、強調された、未加工の、及び/又は符号化された表現に基づいて)処理されるべき候補殺有害生物組成物に基づいて、複数の分類器310から1つ以上の分類器310を選択し、それらの関連付けられたパラメータ320に基づいて、及び候補殺有害生物組成物の符号化された表現に基づいて、選択された分類器310を用いて予測を生成する。例えば、分類器300が、バロアダニに対する候補殺有害生物組成物の相乗効果の可能性を予測している場合、かつ分類器310a及び310bが、バロアダニに対して訓練されており、分類器310cが、バロアダニに対して訓練されていない場合、分類器300は、必ずしも分類器310cを用いて予測を選択又は生成することなく、(パラメータ320a及び320bに基づいて)分類器310a及び310bを用いて予測を選択及び生成し得る。別の例として、候補殺有害生物組成物が、分類器310b及び310cがそれに対して訓練されており、かつ分類器310aがそれに対して訓練されていない活性成分(例えば、その化合物及び様々な相乗的化合物を含む組成物)を含む場合、分類器300は、必ずしも分類器310aを用いて予測を選択又は生成することなく、(パラメータ320b及び320cに基づいて)分類器310b及び310cを用いて予測を選択及び生成し得る。
【0143】
いくつかの実施形態では、分類器300は、訓練されたパラメータデータベース251から、訓練されたパラメータ320を選択し、取り出す。各分類器310は、対応する訓練されたパラメータ320に基づいて、相乗的(及び/又は拮抗的)相互作用の予測を独立して生成する。予測は、例えば、そのような相乗的相互作用の確率(及び/若しくは信頼区間)、そのような相乗的相互作用の程度、並びに/又はそのような相乗的相互作用を記述するメトリック値(例えば、MIC及び/若しくはFICI値)を含み得る。分類器310は、予測を生成することに限定されず、追加及び/又は代替の出力を生成し得、例えば、分類器310はまた(又は代替的に)、(例えば、入力として受信された有害生物ゲノムデータに基づいて、及び/又は有害生物の抵抗率に対して分類器310を訓練することによって)候補殺有害生物組成物の(及び/又は任意の構成化合物の)毒性及び/又は揮発性、候補殺有害生物組成物に対する有害生物の抵抗率を予測し得る。各分類器310からの予測(及び/又は他の出力)は、組み合わせのためにコンバイナ400に送信され得る。
【0144】
いくつかの実施形態では、分類器300(例えば、少なくとも1つの分類器310)は確率的であり、1つの符号化された表現に基づいて、実行ごとに異なる予測を生成することができる。いくつかの実装形態では、分類器300は、1つの符号化された表現に基づいて、(例えば、アンサンブル分類器の場合、所与の分類器310によって)2つ以上の予測を生成する。例えば、システム1000は、例えば、推論中に(例えば、少なくとも1つの分類器310のうちの)分類器300のモデルの変数を擬似ランダムに非アクティブにすることによって、分類器300を用いた推論中にドロップアウトを実行し得る。(ドロップアウトは、任意選択的に、訓練においても実行され得る。)したがって、推論の各反復は、異なる結果を生成すると予想され得る。システム1000は、複数のそのような予測を組み合わせて、組み合わされた予測を判定し、例えば、本明細書の他の箇所でより詳細に説明されるように、複数の予測の分散に基づいて、組み合わされた予測に信頼性を割り当て得る。
【0145】
いくつかの実施形態では、分類器300は、(例えば、エンコーダ210から)符号化された表現を受信し、任意選択的に、選択すべき分類器310の数Nを判定し、任意選択的に、各分類器310について生成すべき予測の数Mを判定し(N及びMについては以下に記載される)、(例えば、符号化された表現に基づいて、及び/又は上述のように)適切な場合、N個の分類器310を選択し、符号化された表現、及び選択された分類器310に対応する訓練されたパラメータ320に基づいて、N個の選択された分類器310の各々を用いてM個の予測を生成する。選択すべき分類器310の数N、及び/又は各分類器310について生成すべき予測の数Mは、既定され、ユーザによって提供され、(例えば、利用可能なコンピューティングリソースに基づいて)システム1000によって判定され、及び/又は分類器300によって別様に取得され得る。例えば、Nは、8、16、32、64、128、及び/又は任意の他の好適な数(必ずしも2のべき乗ではない)であり得る。Mは、20、40、100、200、1000、及び/又は任意の他の好適な数(必ずしも10の倍数ではない)であり得る。少なくとも1つの実施形態では、Nは32であり、Mは100である。N及びMという項は、モデルにおいて暗黙的であってもよく、例えば、分類器300は、各分類器310を用いて1つの予測を生成するように構成され得る(即ち、N=n及びM=1)。分類器300は、例えば上述のように、符号化された表現に基づいて、N個の訓練された分類器310(及び、訓練されたパラメータデータベース251からの、対応する訓練されたパラメータ320)を選択し得る。分類器300は、選択された訓練されたパラメータ320を使用して、分類器310をパラメータ化し、選択された訓練されたパラメータ320に基づいて、予測を生成する。
【0146】
システム1000は、データベース250及び/又は570などのデータストアに、分類器310によって生成された予測を記録し得る。予測は、それらの対応する符号化された表現に(例えば、対応する受信された表現、未加工表現、及び/又は符号化された表現に)関連付けられ得る。予測はまた、又は代替的に、予測を生成した分類器300(及び/又は分類器310)に関連付けられ得る。そのような関連付けは、例えば、予測の記録に、対応する表現/分類器の識別子を記録すること、及び/又は関連する表現/分類器300/310の記録に、予測の識別子を記録することを含み得る。データストアは、システム1000の他のモジュール(例えば、コンバイナ400)に、ユーザに、及び/又は他のコンピュータシステムに利用可能であり得る。本開示が、このようなデータストアに記憶されるものとして本明細書に記載される情報を受信するシステム1000の他のモジュールを記載する場合、そのような情報を受信することは、そのようなデータストアからそれを取り出すことを含み得る。いくつかの実施形態では、予測についての対応する符号化された表現並びに/又は分類器300(及び/若しくは分類器310)が、(例えば、訓練を介して訓練されたパラメータ320を更新することによって)修正される場合、システム1000は、データストアから対応する符号化された表現を取得すること(及び/若しくは、例えば、別のモジュールにおいて、そのような符号化された表現を再生成することによることを含む、そのような他のモジュールからそれらを取得すること)と、符号化された表現を分類器310を介して新しい予測に変換することと、によって、予測を再生成し得る。これは、全ての分類器310及び/又は全ての符号化された表現について全ての予測を再生成することに対して、予測を再生成するための計算要件を低減し得る。
相乗効果予測の組み合わせ
【0147】
少なくともいくつかの実施形態では、コンバイナ400は、分類器300によって生成された複数の予測を最終予測450に組み合わせる。いくつかの実装形態では、予測450は、候補殺有害生物組成物及び/又は1つ以上の有害生物の化合物間の相乗的及び/又は拮抗的相互作用の確率の尺度を含む。例えば、予測450は、平均及び信頼区間を含み得る。分類器300が複数の分類器310を備える少なくともいくつかの実装形態では、コンバイナ400は、各分類器310の予測に基づいて、予測450を生成する。
【0148】
コンバイナ400の動作方法を特徴付ける例示的なデータフローを
図7に示す。コンバイナ400は、複数の予測7100を受信し、予測7100に基づいて、組み合わされた予測7300を生成する。少なくとも描写された実施形態では、コンバイナ400は、分類器300の各分類器310によって生成された複数の予測7110を含む複数の予測7100を受信する(これらは、
図7の描写されたデータフローでは、予測7100のマトリックス内の予測7110の行として描写されている)。いくつかの実装形態では、各分類器310は、M回の反復の過程にわたって数Mの予測7110を生成し得る。したがって、予測7100は、各反復について生成された複数の予測7120を含み得る(これらは、
図7の描写されたデータフローでは、予測7100のマトリックス内の予測7120の列として描写されている)。各反復の予測7120の数は、反復ごとに、同じであっても、例えばNであってもよく、又は、例えば、分類器310aが、別の分類器310bよりも多い若しくは少ない反復にわたって予測を生成する実施形態では、反復間で異なってもよい。
【0149】
いくつかの実施形態では、コンバイナ400は、予測7100に基づいて、複数の集計予測7200を生成し、集計予測7200に基づいて、組み合わされた予測7300を生成する。コンバイナ400は、例えば、予測7100の複数のサブセットを識別することと、そのような各サブセットについて、そのサブセットの予測7100に基づいて、集計予測を生成することとによって、集計予測7200を生成し得る。例えば、コンバイナ400は、サブセットとして、分類器310によって生成された各複数の予測7110、及び/又は反復に関連付けられた各複数の予測7120を識別し得、対応する複数の予測7110及び/又は7120に基づいて、集計予測7200の各々を生成し得る。集計予測7200を生成するコンバイナ400は、例えば、コンバイナ400が、選択されたサブセットの確率の平均及び/又は標準偏差(及び/又は分散)を判定することを備え得る。組み合わされた予測7300を生成するコンバイナ400は、集計予測7200の平均及び/又は標準偏差を判定することを備え得る。例えば、コンバイナ400は、各複数の確率7110(及び/又は7120)の平均7210、及び任意選択的に、標準偏差(及び/又は分散)7220を判定して、各集計予測7200を生成し得る。コンバイナ400は、平均7210の平均を更に判定して、組み合わされた予測7310の平均7310を生成し得る。コンバイナ400は、例えば、標準偏差(及び/若しくは分散)7220及び/若しくは平均7210に基づいて、並びに/又は任意の他の好適な方法で、予測7100から直接それを判定することによって、平均7310の標準偏差を更に判定し得る。コンバイナ400はまた、又は代替的に、例えば、予測450が相乗的(及び/又は拮抗的)相互作用の確率を含む実施形態では、予測450の信頼区間7320を判定し得る。信頼区間450は、任意の好適な方法で判定され得、例えば、不確実性の伝播によって、並びに/又は組み合わされた予測7300の平均7310が正規分布していると仮定することによって、及び標準偏差(及び/若しくは分散)7220と、適切な場合、(例えば、事前定義され、ユーザ提供され、及び/若しくはコンバイナ400によって別様に取得され得る)限界値及び/若しくは信頼性レベルとに基づいて、標準偏差及び/若しくは信頼区間7320を判定することによって判定され得る。いくつかの実装形態では、システム1000は、実験検証のために、低信頼性予測(即ち、予測の信頼性が閾値を下回る候補殺有害生物組成物)にフラグを付ける(即ち、ユーザに対して識別する)。システム1000がそのようなフラグ付けを実行するかどうかにかかわらず、いくつかの実施形態では、システム1000は、そのような低信頼性予測の実験結果に対して分類器300を(任意の好適な技術を介して)再訓練するように構成される。
【0150】
いくつかの実装形態では、コンバイナ400は、例えば、各集計予測7200が、上記のように異なる分類器310の予測7110から生成される場合のように、予測7100の独立サブセットに基づいて、集計予測7200を生成し得る。いくつかの実装形態では、コンバイナ400は、予測7100の重複しているサブセットに基づいて、予測7100を生成する。例えば、コンバイナ400は、例えば、(何らかのm<Mについて)反復インデックス1~mで、分類器310の予測7110のサブセットに基づいて、第1の集計予測を生成することと、反復インデックス2~m+1で、同じ分類器310の予測7110に基づいて、第2の集計予測を生成することとによって、畳み込みで集計予測を生成し得る。
【0151】
図7は、コンバイナ400の例示的な実装形態のためのデータフローを示している。コンバイナは、(対応する訓練されたパラメータ320によってパラメータ化された)各分類器310から、M個の予測7100を受信する。予測7100は、N×Mマトリックスとして表され得、式中、Mは、各訓練された分類器310が実行され、各々が、例えば候補化合物及び/又は有害生物間の相乗的相互作用の確率の(潜在的に異なる)予測7100をもたらす反復回数である。Nは、システム1000が使用するように構成されている分類器310の数である。
【0152】
少なくともその例示的な実装形態では、コンバイナ400は、各反復1...Mについて予測7100の平均並びに標準偏差(及び/又は分散)を判定する。これは、
図7では集計予測7200のベクトルとして、特に平均7210並びに標準偏差(及び/又は分散)7220のベクトルとして描写されている。コンバイナ400は、集計予測7200にわたって、特に平均7210にわたって平均を判定して、相乗的(及び/又は拮抗的)相互作用の平均確率を含む、組み合わされた平均7310を生成する。コンバイナ400は、任意選択的に、例えば、標準偏差(及び/又は分散)7220に対する不確実性判定の伝播を実行することによって、組み合わされた平均7310の信頼区間7320を判定する。
相乗効果予測に基づく更なる判定
【0153】
いくつかの実施形態では、システム1000は、上述のように予測7300を生成し、予測7300を予測450として提供することによって、予測450を生成する。いくつかの実施形態(例えば、コンバイナ400を有しないもののうちの少なくともいくつか)では、システム1000は、分類器300によって生成された1つ以上の予測のうちの少なくとも1つ(例えば、予測7100)を予測450として提供することによって、予測450を生成する。いくつかの実施形態では、システム1000は、予測7100、7200、及び/又は7300のうちの1つ以上を更に変換することによって、予測450を生成する。そのような更なる変換は、コンバイナ400及び/又はシステム1000の後処理モジュール(図示せず)によって実行され得る。いくつかの実施形態では、システム1000は、それぞれ前述の方法のいずれかで、複数の予測450を生成する。例えば、システム1000は、予測7300を提供することによって第1の予測450を生成し得、第1の予測450、1つ以上の以前に生成された更なる予測450、並びに/又は予測7100、7200、及び/若しくは7300のうちの1つ以上に基づいて、1つ以上の更なる予測450を生成し得る。便宜上、第1の予測450、1つ以上の以前に生成された更なる予測450、並びに/又は予測7100、7200、及び/若しくは7300のうちの1つ以上に基づいて予測450を生成するシステム1000を考察するとき、(予測450がそれに基づいて生成される)そのような予測を、集合的かつ個別に「未加工予測」と呼ぶ。
【0154】
システム1000は、様々な方法のいずれかで予測450を判定し得る。いくつかの実施形態では、システム1000は、1つ以上の未加工予測が1つ以上の閾値を上回るか又は下回ることに基づいて、離散化された予測(バイナリのYES/NO又はカテゴリ1/2/3/4/5など)を生成する。例えば、システム1000は、(例えば、パラメータストアから)閾値を受信し、閾値を未加工予測と比較し得る。閾値が未加工予測よりも大きい(又は、いくつかの実施形態では、それよりも小さい)場合、システム1000は、TRUEの値を有する離散化された予測を生成し得、そうでない場合、システム1000は、FALSEの値を有する離散化された予測を生成し得る。
【0155】
いくつかの実施形態では、システム1000は、1つ以上の未加工予測に基づいて、候補殺有害生物組成物の化合物間に、及び/又は候補殺有害生物組成物の1つ以上の化合物と1つ以上の有害生物との間に存在する相乗的(及び/又は拮抗的)相互作用の予測される確率を表す予測450を生成する。代替的に、又は追加的に、システム1000は、1つ以上の未加工予測に基づいて、そのような相乗的(及び/又は拮抗的)相互作用の予測される程度を表す予測450を生成する。そのような予測される程度は、候補殺有害生物組成物の予測される相乗的挙動を特徴付ける連続値(例えば、浮動小数点)メトリックを含み得る。そのような予測される程度は、例えば、例えばメトリックの対数(例えば、log2など)に基づいてシステム1000によって判定された、相乗的相互作用のそのようなメトリックの大きさを含み得る。いくつかの実施形態では、システム1000は、分画阻害濃度インデックス(FICI)などの既知の相乗効果メトリック、及び/又はGreco,W.R.,Bravo,G.&Parsons,J.C.(199).The search for synergy:a critical review from a response surface perspective.Pharmacological Reviews 47,331-85によって開示されるものなどの任意の他の好適なメトリックの値を表す予測450を生成する。
【0156】
少なくとも1つの例示的な実施形態では、システム1000は、相乗効果メトリックの大きさを含む相乗的相互作用の予測される程度を表す予測450を生成し、1つ以上の離散化基準に基づいて、大きさを結果にマッピングする。例えば、離散化基準は、構成された効果レベルビン閾値及び対応する結果値(例えば、パラメータストアから取得される)を含み得る。システム1000は、取得された効果レベルビン閾値を大きさの値と比較し、それによって、大きさの値をどの結果値にマッピングするかを判定し得る。例えば、例示的な効果レベルビン閾値及び対応する結果値を以下の表に示す。
【表1】
【0157】
上記の表に示される閾値及び結果値に基づいて、大きさの値が0~2である場合、システム1000は、相乗的相互作用の予測される程度をなしにマッピングする。同様に、大きさの値が、2よりも大きく4以下である場合、システム1000は、相乗的相互作用の予測される程度を「わずか」にマッピングし、大きさの値が4よりも大きい場合、システム1000は、相乗的相互作用の予測される程度を「強い」にマッピングする。(任意選択的に、上限及び下限の一方又は両方、即ち、0及び99.99の境界は、代わりに、それぞれ、2未満であるか又は4よりも大きい任意の値が、システム1000によってビンにマッピングされ得るように、無制限であり得る)。
【0158】
いくつかの実施形態では、システム1000は、1つ以上の有害生物に対する候補殺有害生物組成物の有効性の予測されるメトリックを含む予測450を生成する。システム1000は、インビトロ、インプランタ、及び/又はインフィールドで有効性を提供する候補殺有害生物組成物の量(例えば、必要と予測される最小量)を判定することによって、有効性の予測されるメトリックを判定し得る。殺有害生物文脈における有効性を判定することは、(例えば、所与の量の)組成物が、有害生物集団を閾値内に抑制及び/又は制御することが予測されると判定することを含み得、例示的な閾値は、実験室条件においてトコジラミの集団の少なくとも90%の死亡率を達成することを含む。(80%、95%、又は更には100%などの異なる閾値が使用され得る。)システム1000は、単位ごとのコストなど、(例えば、上述したように、乗算などによって)単位当たりのリソース割り当てを有する候補殺有害生物組成物の量を更に組み合わせて、候補殺有害生物組成物についての有効性メトリックの予測されるコストを判定し得る。
【0159】
システム1000は、予測450が生成される候補殺有害生物組成物の表現を出力し得、これは、本明細書の他の箇所で説明される候補殺有害生物組成物の表現のいずれか、並びに任意選択的にはまた、予測450、7100、7200、及び/又は7300のいずれか、及び/又は候補殺有害生物組成物に関連する他の情報(集合的及び個別には、「出力表現」)を含み得る。システム1000は、例えば、予測450、7100、7200、7300のいずれか、及び/又は候補殺有害生物組成物に関連する他の情報に基づいて、候補殺有害生物組成物の出力表現をフィルタリング、ランク付け、又は他の方法で修正し得る。
【0160】
例えば、システム1000は、上記の有効性メトリックのコストに基づいて、候補殺有害生物組成物をフィルタリング及び/又はランク付けし得る。システム1000は、有効性メトリックの最も低いコストを有する候補殺有害生物組成物、(既定され、ユーザによって提供され、及び/若しくは他の方法で取得され得る何らかの値nについて)有効性メトリックのn個の最も低いコストを有するn個の候補殺有害生物組成物のセット、閾値未満の(又はそれよりも大きい)有効性メトリックのコストを有する候補殺有害生物組成物のセット、並びに/又は有効性のそれらの対応する予測されるメトリックに基づく1つ以上の候補殺有害生物組成物の別のセットを識別し得る。
【0161】
別の例として、システム1000は、予測450の相乗的(及び/又は拮抗的)相互作用の予測される確率及び/又は程度に基づいて、候補殺有害生物組成物をフィルタリング及び/又はランク付けし得る。例えば、システム1000は、所与の殺有害生物組成物についてのそのような相互作用の確率(及び/又は程度)が閾値未満(又はそれよりも大きいか、若しくはそれ以上であるか、若しくはそれ以下)であると判定し得、候補殺有害生物組成物及び関連情報を出力表現から除去し得る。システム1000は、代替的に、又は追加的に、出力表現の候補殺有害生物組成物を、(例えば、最高確率から最低確率までの)そのような確率及び/又は程度によってランク付けし得る。したがって、出力表現は、例えば、更なる試験を保証するために、相乗効果を示す可能性が十分にあると予測される(及び/又は十分な程度の相乗効果を示すと予測される)候補殺有害生物組成物に限定され得る。(ここでの十分であることは、既定され、ユーザによって提供され、及び/又は他の方法で取得され得る閾値によって定義され得る。)
【0162】
例示的な例として、システム1000は、対応する予測450が相乗的(及び/又は拮抗的)相互作用の<20%の確率を示す候補殺有害生物組成物を除去し得る。システム1000は、残りの候補殺有害生物組成物を、最高確率から最低確率までランク付けし得る。代替的に、又は追加的に、システム1000は、対応する予測450が他の候補殺有害生物組成物よりも高く相乗的(及び/又は拮抗的)相互作用の>80%の確率を示す候補殺有害生物組成物をランク付けし得る。それは、相乗的結果の約>80%の確率を有する結果をより高くランク付けする。
【0163】
いくつかの実施形態では、システム1000は、実験室及び/又はフィールド試験の結果に対して予測450を比較することと、(例えば、能動学習、オンライン学習、及び/又は任意の他の好適な技術を介して)そのような比較に基づいてパラメータ320を更新することとによって、パラメータ320を再訓練する。例えば、システム1000は、予測450と試験結果との差に基づいて目的関数を最小化する(又は適宜に、最大化する)ように、パラメータ320を更新し得る。システム1000は、例えば、試験結果に基づいて、目的関数にわたって勾配降下を実行し得る。
コンピュータシステム
【0164】
図8は、システム1000を提供する例示的なコンピュータシステムを示す。各例示的なコンピュータ500は、汎用CPU、及び/又はFPGA若しくはGPUなどの専門プロセッサなどの1つ以上のプロセッサ510a、...、510n(集合的及び個別には、プロセッサ510)を備え、これらのプロセッサは、永続的メモリ530及び/又は一時的メモリ540に動作可能に接続され、これらのメモリは、システム1000によって処理されている情報を記憶し、本明細書に記載の方法を実行するためにプロセッサ510によって実行可能な(本明細書では「プログラム」と総称される)実行可能命令(例えば、参照番号が8000だけ増分された、システム1000の同じ要素に関連する行為を実行するプログラム8200、8210、8300、8400)を記憶し得る。プログラムは、以下でより詳細に説明される。FPGAなどのいくつかの場合には、プログラムは、プロセッサ510を特定の目的のために適合させるために使用される構成情報を含む。1つ以上のプロセッサ510は、展開構成に適切なネットワーク化及び通信インターフェース550に動作可能に接続され得る。コンピュータ500の永続的メモリ530内に記憶されるのは、プログラム(例えば、8200、8210、8300、8400)の制御下で、サーバによって収集及び/又は計算され、プロセッサ510によって読み取られ、処理され、書き込まれる情報の記憶に使用される、1つ以上のデータベース250であり得る。コンピュータ500はまた、又は代替的に、ネットワーク化及び通信インターフェース550を介して外部データベース570に動作可能に接続され得る。
【0165】
永続的メモリ530は、ディスク、PROM、EEPROM、フラッシュストレージ、及びコンピュータ500のオン/オフ電力サイクル間に内容物を保持する能力によって特徴付けられる同様の技術を含み得る。いくつかの永続的メモリ530は、コンピュータ500のファイルシステムの形態を採り得、バックグラウンド及びフォアグラウンドプロセス、並びに定期的に実行されるプロセスのスケジューリングを含む、コンピュータ500が動作する方法を定義する制御及び動作プログラム及び情報を記憶するために使用され得る。ネットワーク取り付けストレージ(network attached storage、NAS)の形態の永続的メモリ530(ネットワークインターフェースを介してアクセス可能なストレージ)もまた、又は代替的に、本開示の範囲から逸脱することなく使用され得る。一時的メモリ540は、ランダムアクセスメモリ(Random Access Memory、RAM)、及び記憶の内容物がシステムのオン/オフ電力サイクル間に保持されないことによって特徴付けられる同様の技術を含み得る。
【0166】
1つ以上のデータベース250、570は、ローカルファイルストレージを含み得、ここで、ファイルシステムは、データストレージ及びインデックススキーム、リレーショナルデータベース、オブジェクト指向データベース、オブジェクトリレーションデータベース、NOSQLデータベース、並びに/又はインデックス付きレコード構造などの他のデータベース構造を備える。そのようなデータベース250及び/又は570は、単一の永続的メモリ530内に記憶され得、1つ以上の永続的メモリ530にわたって記憶され得、及び/又は異なるコンピュータ上の永続的メモリ530に記憶され得る。
【0167】
システム1000は、明確にするために複数の論理データベースで示されている。システム1000は、1つ以上のコンピュータ500及び/若しくは仮想化コンピュータシステム上に実装された1つ以上の物理データベースを使用して展開され得、並びに/又は(例えば、データベースに記憶されたデータの少なくとも一部が、2つ以上のコンピュータ500に物理的に記憶されるように)クラスタリング技術を使用して実装され得る。いくつかの実装形態では、1つ以上の論理及び/又は物理データベースは、リモートデバイス上に実装され、通信ネットワークを介してアクセスされ得る。
【0168】
システム1000は、上記のようないくつかのプログラムを更に備える(例えば、上述のモジュールは、1つ以上のコンピュータ500のプログラムによって提供され得る)。
殺有害生物組成物の予測及び調合の実験評価、並びにそれらの使用
【0169】
予測450が判定されると、任意の所望の方法でその予測の結果を使用することができる。例えば、
図9に示される1つの例示的な方法9000では、予測450は、試験環境において、例えばインビボ又はインプランタで、(例えば、殺有害生物化合物と、相乗的化合物と、溶媒、担体、アジュバント、安定剤などの任意の所望の調合成分とを組み合わせることによって)9010において候補殺有害生物組成物を含有する組成物を調合することと、9020において1つ以上の有害生物を組成物に曝露することとによって、1つ以上の有害生物に対して評価することができる。9030において、殺有害生物としての組成物の有効性は、(例えば、有害生物の死亡率を査定することによって、及び/又はピーク死亡率に達するのに要する時間を査定することによって、1つ以上の有害生物を制御又は死滅させる際の組成物の有効性を評価することによって)判定される。
【0170】
別の例として、
図10に示される方法9100では、予測450を使用して、殺有害生物組成物を調合することができる。9110において、例えば、殺有害生物化合物及び相乗的化合物を含有する候補殺有害生物組成物が1つ以上の有害生物に対して相乗的相互作用を示す可能性があるという高い確率があるかどうかを判定するために、予測450が相乗的相互作用の既定されたレベルの確率を満たすか又は超えるかどうかを判定する。予測450が相乗的相互作用の既定されたレベルの確率を満たすか又はそれを超える場合、9120において、殺有害生物化合物と、相乗的化合物と、溶媒、担体、アジュバント、安定剤などの任意の所望の調合成分と、を含有する、殺有害生物組成物を調合する。
【0171】
別の例として、
図11に示される方法9200では、予測450を使用して、殺有害生物組成物を製造することができる。9210において、複数の殺有害生物化合物と複数の相乗的化合物との間の相乗的相互作用の複数の予測450を判定する。各予測450は、少なくとも1つの殺有害生物化合物及び少なくとも1つの相乗的化合物を含有する、提案される候補殺有害生物組成物に対応する。9220において、複数の予測が評価され、1つの提案される候補殺有害生物組成物が、予測450の所望の特性に基づいて選択される。例えば、相乗的相互作用であるという既定されたレベルの確率を満たすか又は超える予測450を有する提案される候補殺有害生物組成物が、9220において選択され得る。又は、他の提案される殺有害生物組成物の他の予測450のうちの少なくともいくつかよりも高い予測450を有する提案される候補殺有害生物組成物が、9220において選択され得る。9220において選択された候補殺有害生物組成物は、ステップ9230において、例えば、候補殺有害生物組成物を構成する殺有害生物化合物及び相乗的化合物を、例えば、溶媒、担体、アジュバント、安定剤などの任意の所望の調合成分と一緒に混合することによって生成される。
【0172】
別の例として、
図12に示される方法9300では、予測450を使用して、非標的生物に影響を与える1つ以上の有害生物を処置することができる。9310において、例えば、殺有害生物化合物及び相乗的化合物を含有する候補殺有害生物組成物が1つ以上の有害生物に対して相乗的相互作用を示す可能性があるという高い確率があるかどうかを判定するために、予測450が相乗的相互作用の既定されたレベルの確率を満たすか又は超えるかどうかを判定する。予測450が相乗的相互作用の既定されたレベルの確率を満たすか又は超える場合、9320において、非標的生物は、候補殺有害生物組成物を含有する殺有害生物組成物に曝露され得る。これは、殺有害生物組成物に対する、非標的生物に影響を与える1つ以上の有害生物の曝露をもたらして、1つ以上の有害生物が非標的生物に及ぼし得る悪影響を改善又は排除する。
【0173】
別の例として、
図13に示される方法9400では、予測450を使用して、非標的生物に影響を与える1つ以上の有害生物を処置することができる。9410において、複数の殺有害生物化合物と複数の相乗的化合物との間の相乗的相互作用の複数の予測450を判定する。各予測450は、少なくとも1つの殺有害生物化合物及び少なくとも1つの相乗的化合物を含有する、提案される候補殺有害生物組成物に対応する。9420において、複数の予測が評価され、1つの提案される候補殺有害生物組成物が、予測450の所望の特性に基づいて選択される。例えば、相乗的相互作用であるという既定されたレベルの確率を満たすか又は超える予測450を有する提案される候補殺有害生物組成物が、9420において選択され得る。又は、他の提案される殺有害生物組成物の他の予測450のうちの少なくともいくつかよりも高い予測450を有する提案される候補殺有害生物組成物が、9420において選択され得る。ステップ9430において、非標的生物は、9420において選択された候補殺有害生物組成物を含有する殺有害生物組成物に曝露される。これは、殺有害生物組成物に対する、非標的生物に影響を与える1つ以上の有害生物の曝露をもたらして、1つ以上の有害生物が非標的生物に及ぼし得る悪影響を改善又は排除する。
結果の例
【0174】
システム1000の実装形態を使用して、殺有害生物組成物のセット中の化合物対間の相乗的相互作用の存在の確率の予測を生成した。各予測について、システム1000は、殺有害生物活性化合物及び潜在的に相乗的な化合物の表現を受信した。化合物のこれらの表現は、SMILESストリングとして受信され、QSARを介して強調されて、特徴ベクトルが生成された。(いくつかの試験では、強調された表現は、化合物のグラフ表現を含んでいた。)システム1000のこの実装形態による考慮のために選択された特徴は、芳香族性、電気陰性度、極性、親水性/疎水性、及びハイブリダイゼーションを含んでいた。システム1000は、3つの分類器310を備え、各々は、異なる有害生物に対して適用されるとき、殺有害生物組成物の相乗的有効性に関して訓練され、有害生物情報は、推論時間において、分類器310に提供されなかった。エンコーダは、一般的な化学データセット、即ちTox21で訓練された。この実装形態は、混合比に関する情報を受信しなかった。
【0175】
各予測のために(殺有害生物化合物及び潜在的に相乗的な化合物を含む)候補殺有害生物組成物で処置された有害生物のインビトロ試験を含む実験室実験を行って、システム1000の特定の試験された実装形態によって生成された予測の精度を査定した。精度は、潜在的に相乗的な化合物なしの殺有害生物化合物と比較して、対応する有害生物に対する各候補殺有害生物組成物について観察された最小阻害濃度(MIC)の変化を判定することによって査定された。(特定の試験された実装形態は、
図3の例示的な実施形態に従って動作したアンサンブル分類器300及びコンバイナ400を含んでいた。)
【0176】
試験は、6つの殺有害生物活性化合物及び3つの真菌有害生物を包含した。殺有害生物化合物の各々は、3つの有害生物のうちの少なくとも1つに対して殺有害生物効果を有することが既知であるクラスから選択された。それらは、化合物A~Fとして以下に識別され、有害生物は、有害生物A~Cとして以下に識別される。
【0177】
潜在的に相乗的な化合物は、C4-C10不飽和脂肪酸:10-ヒドロキシデカン酸、12-ヒドロキシドデカン酸、2,2-ジエチルブタン酸、2-アミノ酪酸、2-アミノヘキサン酸、2-エチルヘキサン酸、2-ヒドロキシ酪酸、2-ヒドロキシオクタン酸、2-メチルデカン酸、2-メチルオクタン酸、3-アミノ酪酸、3-デセン酸、3-ヘプテン酸、3-ヒドロキシ酪酸、3-ヒドロキシヘキサン酸、3-ヒドロキシオクタン酸、3-メチル酪酸、3-メチルノナン酸、3-ノネン酸、3-オクテン酸、4-ヘキセン酸、4-メチルヘキサン酸、5-ヘキセン酸、7-オクテン酸、8-ヒドロキシオクタン酸、9-デセン酸、デカン酸、ドデカン酸、ヘプタン酸、ノナン酸、オクタン酸、オレイン酸、ソルビン酸、トランス-2-ノネン酸、トランス-2-オクテン酸、トランス-2-ウンデセン酸、トランス-3-ヘキセン酸、からなる群から選択された。
【0178】
システム1000の試験された実装形態は、各候補殺有害生物組成物の化合物と各選択された有害生物との間の相乗的相互作用の存在の確率の予測を生成した。上述のように、システム1000の予測は、0.5以下(即ち50%)の確率が(予測される相乗効果を示さない)0にマッピングされ、0.5を超える確率が(予測される相乗効果を示す)1にマッピングされたように、離散化された。二値化結果を、表1において、「予測」の列の下に示す。表1では、予測列の値は、システム1000の離散化された予測である。「観察」の列の値は、相乗効果の程度(この場合、逆FICI)として表された、上記の実験室実験において観察された結果である。例えば、4の値は、観察されたFICI値が1/4であったことを意味する。1を超える値は、相乗的である。
【表2-1】
【表2-2】
【表2-3】
【表2-4】
【表2-5】
【表2-6】
【表2-7】
【表2-8】
【表2-9】
【表2-10】
【表2-11】
【表2-12】
【表2-13】
【表2-14】
【表2-15】
【表2-16】
【表2-17】
【0179】
全体として、これらの試験の結果は、少なくともいくつかの状況では、本明細書に記載のシステム及び方法が、経験を積んだ人間の化学者に対する予測精度で同等であることを示唆している。
結論
【0180】
いくつかの例示的な態様及び実施形態が上で考察されたが、当業者は、それらの特定の修正、置換、追加、及び部分組み合わせを認識するであろう。したがって、以下の添付の特許請求の範囲、及び今後導入される特許請求の範囲は、それらの真の趣旨及び範囲内にあるように、そのような全ての修正、置換、追加、及び部分組み合わせを含むと解釈されることが意図される。