IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エクセンシア・エイアイ・リミテッドの特許一覧

特表2024-505685アクティブラーニングによる薬剤の最適化
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-07
(54)【発明の名称】アクティブラーニングによる薬剤の最適化
(51)【国際特許分類】
   G16C 20/50 20190101AFI20240131BHJP
   G16C 10/00 20190101ALI20240131BHJP
   G16C 20/70 20190101ALI20240131BHJP
【FI】
G16C20/50
G16C10/00
G16C20/70
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023547434
(86)(22)【出願日】2022-02-08
(85)【翻訳文提出日】2023-08-04
(86)【国際出願番号】 GB2022050332
(87)【国際公開番号】W WO2022167821
(87)【国際公開日】2022-08-11
(31)【優先権主張番号】2101703.3
(32)【優先日】2021-02-08
(33)【優先権主張国・地域又は機関】GB
(81)【指定国・地域】
(71)【出願人】
【識別番号】523152031
【氏名又は名称】エクセンシア・エイアイ・リミテッド
【氏名又は名称原語表記】EXSCIENTIA AI LIMITED
【住所又は居所原語表記】LEVEL 3, DUNDEE ONE RIVER COURT, 5 WEST VICTORIA DOCK ROAD, DUNDEE DD1 3JT, UNITED KINGDOM
(74)【代理人】
【識別番号】110001818
【氏名又は名称】弁理士法人R&C
(72)【発明者】
【氏名】ニキタ,エミール・ニコラ
(57)【要約】
アクティブラーニングによるコンピュータによる薬剤設計の方法を提供する。前記方法は、各々が一つ以上の構造的特徴を有している化合物の集団を定義すること、複数の生物学的特性が知られている前記集団からの化合物のトレーニングセットを定義すること、および、各々が所望の生物学的特性を定義している複数の目的を定義することを含む。前記方法は、前記化合物のトレーニングセットを用いて、ベイズ統計モデルをトレーニングして、前記集団内の化合物の構造的特徴の目的関数として前記集団内の化合物の生物学的特性を近似する確率分布を出力することを含む。前記方法は、前記トレーニングセットに含まれない前記集団から化合物のサブセットを決定することを含んでなり、前記サブセットは、前記トレーニングされたベイズ統計モデルからの前記確率分布に基づくと共に前記定義された目的に基づく獲得関数の最適化に従って決定される。前記方法は、前記決定されたサブセット内の前記化合物の少なくとも一部を合成のために選択することを含む。
【特許請求の範囲】
【請求項1】
コンピュータによる薬剤設計のための方法であって、
各化合物が一つ以上の構造的特徴を有する複数の化合物の集団を定義する工程;
複数の特性が知られている前記集団から化合物のトレーニングセットを定義する工程;
各々が所望の特性を定義している複数の目的を定義する工程;
化合物の前記トレーニングセットを用いて、ベイズ統計モデルをトレーニングして、前記集団内の化合物の構造的特徴の目的関数として前記集団内の前記化合物の特性を近似する確率分布を出力する工程;
前記トレーニングセットに含まれない前記集団から複数の化合物のサブセットを決定する工程であって、前記サブセットが、前記トレーニングされたベイズ統計モデルからの前記確率分布に基づくと共に前記定義された複数の目的に基づく獲得関数の最適化に従って決定されるものである工程;および、
合成のために前記決定されたサブセット内の前記化合物の少なくとも一部を選択する工程;を含む方法。
【請求項2】
前記目的のうちの一つ以上について、それぞれの効用関数を前記ベイズ統計モデルからの前記確率分布に適用することによって、前記それぞれの目的の前記特性に関連する選好をマッピングして、選好修正確率分布を得ることを含み、前記獲得関数の最適化が前記選好修正確率分布に基づくものである、請求項1に記載の方法。
【請求項3】
前記選好が、前記複数の目的のうちの他のものに対する前記それぞれの目的の優先度を示している、請求項2に記載の方法。
【請求項4】
前記化合物のうちの一つの前記特性の一つについて、前記特性についての前記確率分布に関連する不確実性値が低いほど、前記それぞれの特性に関連する前記選好が大きくなる、請求項2または3に記載の方法。
【請求項5】
前記効用関数のうちの一つ以上が区分的関数であり、任意に、前記区分的関数が区分的線形関数である、請求項2~4のいずれか一項に記載の方法。
【請求項6】
前記獲得関数の最適化が、前記集団内の各化合物について前記獲得関数を評価することを含み、任意に、前記トレーニングセット内の前記化合物を除外することを含み、また、前記サブセットが、前記評価された獲得関数値に基づいて決定されるものである、請求項1~5のいずれか一項に記載の方法。
【請求項7】
前記定義された複数の目的に基づく前記獲得関数の前記最適化が、パレート最適化合物セットを提供し、また、前記決定されたサブセットについての前記複数の化合物のうちの一つ以上が、パレート最適セットから選択されるものである、請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記ベイズ統計モデルからの前記確率分布が、前記複数の目的のそれぞれの一つに関連する各特性についての確率分布を含む、請求項1~7のいずれか一項に記載の方法。
【請求項9】
集約関数を複数の確率分布に適用することによって、前記ベイズ統計モデルからの複数の確率分布を一次元集約確率分布にマッピングすることを含み、前記獲得関数の最適化が、前記集約確率分布に基づくものであり、任意に、前記集約関数が、和演算子;平均演算子;および積演算子;のうちの一つ以上を含むものである、請求項8に記載の方法。
【請求項10】
前記獲得関数が、期待改善関数;改善確率関数;および信頼限界関数;のうちの少なくとも一つである、請求項1~9のいずれか一項に記載の方法。
【請求項11】
前記獲得関数が多次元獲得関数であり、各次元が前記複数の目的のうちのそれぞれの目的に対応し;任意に、前記多次元獲得関数がハイパーボリューム期待改善関数である、請求項1~8のいずれか一項に記載の方法。
【請求項12】
前記ベイズ統計モデルをトレーニングすることが、前記ベイズ統計モデルの複数のハイパーパラメータを調整することを含み、前記ハイパーパラメータを調整することが、最大尤度推定技術と交差検証技術との組み合わせの適用を含む、請求項1~11のいずれか一項に記載の方法。
【請求項13】
前記複数の化合物の前記サブセットを決定する工程が、
前記トレーニングされたベイズ統計モデルからの前記確率分布に基づくと共に前記定義された複数の目的に基づいて前記獲得関数を最適化することにより、前記トレーニングセットに含まれない前記集団から一つの化合物を識別することを含み、また、
前記サブセットのために前記複数の化合物が識別されるまで、
前記トレーニングセットの化合物および前記一つ以上の識別された化合物を用いて前記ベイズ統計モデルを再トレーニングする工程と、
前記再トレーニングされたベイズ統計モデルからの前記確率分布に基づくと共に前記定義された複数の目的に基づいて前記獲得関数を最適化することにより、前記トレーニングセットに含まれない前記集団からの一つの化合物であって前記一つ以上の先に識別された化合物ではないものを識別する工程とを、
繰り返すことを含む、請求項1~12のいずれか一項に記載の方法。
【請求項14】
前記ベイズ統計モデルを再トレーニングすることは、前記ベイズ統計モデルにおいて前記一つ以上の識別された化合物に対して一つ以上の偽の特性値を設定することを含み、任意に、前記偽の特性値が、クリギングビリーバーアプローチ;およびコンスタントライアーアプローチ;のうちの一つに従って設定される、請求項13に記載の方法。
【請求項15】
前記ベイズ統計モデルにおいて、各化合物がビットベクトルとして表され、前記ビットベクトルのビットが前記化合物におけるそれぞれの構造的特徴の有無を示している、請求項1~14のいずれか一項に記載の方法。
【請求項16】
前記ベイズ統計モデルがガウス過程モデルである、請求項1~15のいずれか一項に記載の方法。
【請求項17】
前記トレーニングされたベイズ統計モデルからの前記確率分布が、前記集団内の化合物の近似特性値を示す事後平均と、前記集団内の前記近似特性値に関連する不確実性を示す事後分散とを含む、請求項1~16のいずれか一項に記載の方法。
【請求項18】
前記獲得関数の一つ以上の重み付けパラメータが、請求項1~17のいずれか一項に記載の方法を利用する薬剤設計プロセスの所望の戦略に従って修正され;任意に、前記所望の戦略が、事後平均に関連する前記獲得関数の重み付けパラメータに依存する活用戦略と、事後分散に関連する前記獲得関数の重み付けパラメータに依存する探索戦略との間のバランスを含む、請求項1~17のいずれか一項に記載の方法。
【請求項19】
前記ベイズ統計モデルが、前記集団における化合物のペア間の類似性を示すカーネルを使用して前記化合物の前記特性を近似し、前記カーネルがタニモト類似性カーネルである、請求項1~18のいずれか一項に記載の方法。
【請求項20】
前記決定されたサブセットの前記選択された化合物の少なくとも一部を合成して、前記選択された化合物の少なくとも一つの特性を決定することと、前記合成された化合物を前記トレーニングセットに加えて、更新されたトレーニングセットを得ることとを含む、請求項1~19のいずれか一項に記載の方法。
【請求項21】
前記更新された化合物のトレーニングセットを用いて、更新されたベイズ統計モデルをトレーニングして、前記目的関数を近似する前記確率分布を出力する工程;
前記更新されたトレーニングセットに含まれない前記集団からの複数の化合物の新しいサブセットを決定する工程であって、前記新しいサブセットが、前記更新されたベイズ統計モデルからの前記近似特性に基づくと共に前記定義された複数の目的に基づく前記獲得関数の最適化に従って決定されるものである工程;および
前記決定された新しいサブセット内の前記化合物の少なくとも一部を合成のために選択する工程;を含む、請求項20に記載の方法。
【請求項22】
前記決定された新しいサブセットの前記選択された化合物を合成して、前記選択された化合物の少なくとも一つの特性を決定することと、前記合成された化合物を加えることによって前記トレーニングセットを更新することとを含む、請求項21に記載の方法。
【請求項23】
前記更新された化合物のトレーニングセットを用いて、更新されたベイズ統計モデルをトレーニングして、前記目的関数を近似する前記確率分布を出力する工程;
前記更新されたトレーニングセットに含まれない前記集団からの複数の化合物の新しいサブセットを決定する工程であって、前記新しいサブセットが、前記更新されたベイズ統計モデルからの近似生物学的特性に基づくと共に前記定義された複数の目的に基づく前記獲得関数の最適化に従って決定されるものである工程;
前記決定された新しいサブセット内の前記化合物の少なくとも一部を合成のために選択する工程;
前記決定されたサブセットの前記選択された化合物を合成して、前記選択された化合物の少なくとも一つの特性を決定する工程;および、
前記合成された化合物を前記トレーニングセットに加えて更新されたトレーニングセットを得る工程;を、停止条件が満たされるまで、反復的に実行することを含む、請求項20~22のいずれか一項に記載の方法。
【請求項24】
前記停止条件が、合成化合物のうちの一つ以上が前記複数の目的を達成すること;前記合成化合物のうちの一つ以上が前記それぞれの複数の目的の許容閾値内にあること;および、最大回数の反復が実行されたこと;のうちの少なくとも一つを含む、請求項23に記載の方法。
【請求項25】
前記集団内の前記複数の化合物の各々の前記構造的特徴が、前記化合物中に存在するフラグメントに対応し;任意に、前記複数の化合物の各々に存在する前記フラグメントが、分子フィンガープリントとして表され;任意に、前記分子フィンガープリントが拡張接続フィンガープリント(ECFP)であり、任意に、ECFP0,ECFP2,ECFP4,ECFP6,ECFP8,ECFP10またはECFP12である、請求項1~24のいずれか一項に記載の方法。
【請求項26】
前記特性または前記少なくとも一つの特性が、前記化合物の各々の生物学的、生化学的、化学的、生物物理学的、生理学的および/または薬理学的特性であり;任意に、生物学的特性が、活性;選択性;毒性;吸収;分布;代謝;および排泄;のうちの一つ以上を含む、請求項1~25のいずれか一項に記載の方法。
【請求項27】
請求項1~26のいずれか一項に記載の方法により識別された化合物。
【請求項28】
コンピュータプロセッサによって実行されるときに、前記コンピュータプロセッサに請求項1~27のいずれか一項に記載の方法を実行させる命令を記憶する非一時的コンピュータ可読記憶媒体。
【請求項29】
コンピュータによる薬剤設計のためのコンピューティングデバイスであって、
各々の化合物が一つ以上の構造的特徴を有している複数の化合物の集団を示すデータを受け取り、複数の生物学的特性が知られている前記集団からの化合物のトレーニングセットを示すデータを受け取り、および各々が所望の生物学的特性を定義している複数の目的を示すデータを受け取るように構成されているインプット部;
前記化合物のトレーニングセットを用いて、ベイズ統計モデルをトレーニングして、前記集団内の前記化合物の構造的特徴の目的関数として前記集団内の化合物の生物学的特性を近似する確率分布を提供するように構成されると共に、前記トレーニングセットに含まれない前記集団からの複数の化合物のサブセットを決定するように構成されているプロセッサであって、前記サブセットが、前記トレーニングされたベイズ統計モデルからの前記確率分布に基づくと共に前記定義された複数の目的に基づく獲得関数の最適化に従って決定されるものであるプロセッサ;および
前記決定されたサブセットを出力するように構成されているアウトプット部;を含んでなり;任意に、前記決定されたサブセット内の前記化合物の少なくとも一部を合成のために選択するように構成されている、コンピューティングデバイス。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、薬剤などの化合物のコンピュータによる設計のための方法およびシステムに関する。特に、本発明は、選択された標的分子と相互作用する薬剤の設計に使用されるアクティブラーニングによるコンピュータによるモデルの最適化方法、およびこれらのシステムおよび方法を使用して設計された前記薬剤に関する。
【背景技術】
【0002】
発明の背景
創薬は、前臨床試験などの医薬品開発の次の段階に進むための候補化合物を特定するプロセスである。このような候補化合物は、さらなる開発のために特定の基準を満たす必要がある。現代の創薬には、初期のスクリーニングの「ヒット」化合物の特定と最適化が含まれる。特に、このような化合物は、多数の異なる生物学的特性の最適化を含む、必要な基準に対して最適化する必要がある。最適化される特性には、例えば:所望の標的に対する有効性/効力;望ましくない標的に対する選択性;毒性の可能性が低いこと;および、良好な薬剤代謝と薬剤動態特性(ADME)、が含まれる。前記指定された要件を満たす化合物のみが、創薬プロセスに進むことができる候補化合物となる。
【0003】
前記創薬プロセスでは、最初のスクリーニングヒットから候補化合物までの最適化中に、かなりの数の化合物の製造/合成が含まれる場合がある。特に、合成された化合物は、生物学的活性などの特性を決定するために測定される。しかし、特定の創薬プロジェクトの一環として作るべき化合物の数は、合成して試験できる化合物の数をおそらく桁違いに上回る。したがって、合成された化合物の測定の結果は、分析され、候補化合物に必要なさまざまな基準に対してさらに改善された特性を備えた化合物が得られる可能性を最大化するために、次にどの化合物を合成するかの決定を与えるために使用される。
【0004】
特定の段階での一つ以上の化合物の合成とその後の生物学的活性のような生物学的特性の測定は、創薬プロセスの設計サイクル(または反復)と呼ばれる。通常、プロセスの設計サイクルごとに一連の化合物が合成され、試験されるが、これは、一度に一つの化合物を合成して試験するよりも効率的であるからである。しかしながら、利用可能なリソースの特定のレベルは、通常、任意の所定の設計サイクルにおいて合成することができるセット内の化合物の数に上限があることを意味している。
【0005】
ウェットラボベースの創薬プロジェクト中において、通常、候補化合物が見つかるまでに、数百、場合によっては数千の化合物が数回の設計サイクルにわたって合成される。これは、時間と費用がかかり、非効率的なプロセスであり:単一の化合物の合成には数千ポンドの費用がかかり、単一の候補化合物を得るには平均して三~五年かかる場合がある。
【0006】
コンピュータによる手法を使用すると、医薬品化学者が単独で実行できる分析と比較して、すでに合成された化合物に対して実行できる分析のレベルが大幅に向上する。特に、マシンラーニング(ML)、人工知能(Al)、またはその他の数学的手法を使用して、人間の能力を超えたレベルで多数の設計パラメータを並行して評価し、パラメータ(たとえば、化合物の構造的特徴)と生物活性レベルのような望まれる特性との間の関係を特定できる。数学的手法は、これらの特定された関係を使用して、候補化合物の必要な基準と比較して、どの化合物がより多くの/レベルの望ましい特性を示す可能性が高いかについて、より適切な予測を行うことができる。これは、このような数学的手法を使用して設計サイクルの数を減らし、候補化合物に必要な特性の望ましい組み合わせを達成する化合物を得るために合成する必要がある化合物の数を減らすことができることを意味し、それにより創薬プロジェクトにかかるコストと時間の削減を実現する。
【0007】
したがって、多くの所望の特性を持つ候補化合物を見つけるタスクは、以前に合成された化合物から得られた知識を使用して、さまざまな所望の特性を持つ「最適な」化合物を得ることを目的とした最適化問題とみなすことができる。創薬の文脈においてこのようなコンピュータによる最適化問題に直面した場合、対処すべき課題が数多くある。
【0008】
一つの課題は、化合物集団内の化合物間の機能的関係の種類が事前にわかっていないことである。すなわち、たとえば化合物の構造的特徴と生物学的特性の間の関係を記述する目的関数の形式は不明である。これは、関数の形式に関する事前の知識に依存する一部の既知の最適化手法は、創薬の文脈では適切ではない可能性があることを意味している。
【0009】
もう一つの課題は、入力空間の点における目的関数の評価にコストがかかることである。これは、化合物の合成と試験、すなわち評価コストには時間がかかり、高価であるからである。したがって、目的関数の近似元となる評価点のトレーニングセットには比較的少数の点が含まれる可能性があり、短期間でトレーニングセットのサイズを大幅に増やすことはおそらく現実的ではない。これは、目的関数を近似するモデルをどの程度効果的にトレーニングできるかに影響を与える可能性があり、そのようなモデルが正確な予測や近似を行う能力に影響を与える可能性がある。
【0010】
さらなる課題は、多くの既知の最適化手法が、未知の関数を評価する単一点を選択するように設計されていることである。ただし、上で述べたように、創薬プロジェクトでは、効率の理由から、任意の所定の設計サイクルで合成および試験するために複数の化合物が選択されるのが一般的である。すなわち、特定の反復での評価のために、複数の点を同時に最適化および選択する必要がある。
【0011】
また、既知の最適化技術を使用して、目的関数の単一のパラメータを最適化することもできる、すなわち、最適化ルーチンは、最適化する単一の目的を有する。しかしながら、上述したように、適切な候補化合物となるためには、化合物を最適化する必要がある多くの基準が一般に存在する。すなわち、検討中の特定の創薬プロジェクトの候補化合物のさまざまな望ましい生物学的特性に従って、関数の複数のパラメータを並行して最適化する必要がある。
【0012】
最後に、多くの最適化ルーチンは、勾配ベースのアプローチなどの手法が使用できるように、連続的な目的関数の入力空間に依存している。しかし明らかに、創薬の文脈では、入力空間は離散的(各化合物が入力空間内の点を表す)であるため、連続入力空間に依存する技術は利用できない可能性がある。
【発明の概要】
【発明が解決しようとする課題】
【0013】
本発明はこのような背景に基づいて設定される。
【課題を解決するための手段】
【0014】
発明の概要
本発明の一つの態様によれば、コンピュータによる薬剤設計の方法が提供される。前記方法は、各化合物が一つ以上の構造的特徴を有する複数の化合物の集団を定義することを含む。前記方法は、複数の特性が知られている集団からの化合物のトレーニングセットを定義することを含む。前記特性は、化合物の任意の関連する物理的、化学的または生物学的特性であり得、前記化合物の生物学的、生化学的、化学的、生物物理的、生理学的および/または薬理学的特性を包含すると考えられ得る。前記方法は、各々が所望の特性を定義している複数の目的を定義することを含む。前記方法には、化合物のトレーニングセットを使用して、集団内の化合物の構造的特徴の目的関数として前記集団内の前記化合物の特性を近似する確率分布を出力するベイズ統計モデルをトレーニングすることが含まれる。前記方法は、前記トレーニングセットに含まれていない複数の化合物のサブセットを前記集団から決定することを含む。前記サブセットは、前記トレーニングされたベイズ統計モデルからの確率分布に基づくと共に前記定義された複数の目的に基づく獲得関数の最適化に従って決定される。前記方法は、合成のために、および/または(コンピュータによる)分子動力学分析/シミュレーションを実行するために、前記決定されたサブセット内の前記化合物の少なくともいくつかを選択することを含むことができる。この選択は、前記所望の特性を備えた化合物を得る薬剤設計プロセスの一部として行われる場合がある。便宜上、本開示全体を通して、化合物のそのような特性は集合的に「生物学的特性」と呼ばれることがあり、したがって、本明細書で使用される「生物学的特性」は、(化学)化合物の任意の関連特性を包含することができ、より具体的に生物学的、生化学的、化学的、生物物理的、生理学的、および/または薬理学的特性の範囲内に含まれるか、それらと重複すると考えられる特性が含まれる。
【0015】
前記方法は、一つ以上の前記目的について、それぞれの効用関数を前記ベイズ統計モデルからの前記確率分布に適用することにより前記それぞれの目的の前記生物学的特性に関連する選好をマッピングして、選好修正確率分布を得ることを含むことができる。前記獲得関数の最適化は、前記選好修正確率分布に基づいて行うことができる。
【0016】
前記選好は、前記複数の目的のうちの他のものに対する前記それぞれの目的の優先度を示すことができる。
【0017】
いくつかの実施形態において、前記化合物のうちの一つの生物学的特性の一つについて、前記生物学的特性の確率分布に関連するより低い不確実性値が、前記それぞれの生物学的特性に関連するより大きな選好に対応する場合がある。
【0018】
前記選好は、例えば化学者による、ユーザーにより定義された選好であってよい。
【0019】
一つ以上の前記効用関数は区分的関数であってよい。前記区分的関数は区分的線形関数であってよい。
【0020】
いくつかの実施形態において、前記獲得関数の最適化は、前記集団内の各化合物についての前記獲得関数を評価することを含み、任意に、前記トレーニングセット内の前記化合物は除外する。前記サブセットは、前記評価された獲得関数の値に基づいて決定され得る。
【0021】
いくつかの実施形態において、前記定義された複数の目的に基づく前記獲得関数の前記最適化により、パレート最適化合物セットが提供され得る。前記決定されたサブセットについての前記複数の化合物のうちの一つ以上が、前記パレート最適セットから選択され得る。前記パレート最適セットからの選択は、ユーザーにより定義された選好に応じて行われる可能性がある。
【0022】
前記ベイズ統計モデルからの前記確率分布は、前記複数の目的のそれぞれの一つに関連する各生物学的特性の確率分布を含むことができる。
【0023】
前記方法は、前記複数の確率分布に集約関数を適用することによって、前記ベイズ統計モデルからの前記複数の確率分布を一次元集約確率分布にマッピングすることを含むことができる。前記獲得関数の最適化は、前記集約された確率分布に基づいて行うことができる。
【0024】
前記集約関数は:和演算子;平均演算子;および積演算子;のうちの一つ以上を含むことができる。
【0025】
前記獲得関数は:期待改善関数;改善確率関数;および、信頼限界関数;のうちの少なくとも一つであり得る。
【0026】
前記獲得関数は、多次元獲得関数であってよい。いくつかの実施形態において、各次元は、前記複数の目的のそれぞれの目的に対応し得る。任意に、前記多次元獲得関数は、ハイパーボリューム期待改善関数であってよい。
【0027】
いくつかの実施形態において、前記ベイズ統計モデルをトレーニングすることは、前記ベイズ統計モデルの複数のハイパーパラメータを調整することを含み得る。任意に、前記ハイパーパラメータの調整は、最大尤度推定技術と交差検証技術の組み合わせの適用を含むことができる。
【0028】
いくつかの実施形態において、前記複数の化合物の前記サブセットを決定することは、前記トレーニングされたベイズ統計モデルからの前記確率分布に基づくと共に前記定義された複数の目的に基づいて前記獲得関数を最適化することによって、前記トレーニングセットに含まれない前記集団から一つの化合物を識別することを含み得る。前記方法は:化合物の前記トレーニングセットおよび前記一つ以上の識別された化合物を使用して前記ベイズ統計モデルを再トレーニングする工程と;前記再トレーニングされたベイズ統計モデルからの前記確率分布に基づくと共に前記定義された複数の目的に基づいて前記獲得関数を最適化することによって、前記トレーニングセットに含まれない前記集団からの一つの化合物であって、以前に識別された前記一つ以上の化合物ではないものを識別する工程と;を、前記サブセットのために前記複数の化合物が識別されるまで、繰り返すことを含むことができる。
【0029】
いくつかの実施形態において、前記ベイズ統計モデルを再トレーニングすることは、前記ベイズ統計モデル内の前記一つ以上の識別された化合物に対して一つ以上の偽またはダミーの生物学的特性値を設定することを含み得る。
【0030】
前記偽の生物学的特性値は:クリギングビリーバーアプローチ;およびコンスタントライアーアプローチ;のうちの一つに従って設定することができる。
【0031】
前記ベイズ統計モデルにおいて、各化合物はビットベクトルとして表すことができ、当該ビットは、前記化合物内のそれぞれの構造的特徴の有無を示している。
【0032】
前記ベイズ統計モデルはガウス過程モデルであってよい。
【0033】
前記トレーニングされたベイズ統計モデルからの前記確率分布には、前記集団内の化合物の近似された生物学的特性の値を示す事後平均が含まれる場合がある。前記トレーニングされたベイズ統計モデルからの前記確率分布には、前記集団内の前記近似された生物学的特性の値に関連する不確実性を示す事後分散が含まれる場合がある。
【0034】
いくつかの実施形態において、前記獲得関数の一つ以上の重み付けパラメータは、前記記載されたコンピュータによる薬剤設計方法を利用する創薬プロセスまたはプロジェクトの所望の戦略に従って修正され得る。
【0035】
前記所望の戦略は、事後平均に関連する前記獲得関数の重み付けパラメータに依存する活用戦略(exploitation strategy)と、事後分散に関連する前記獲得関数の重み付けパラメータに依存する探索戦略(exploration strategy)との間のバランスを含み得る。
【0036】
前記重み付けパラメータをユーザーが定義して、前記目的の戦略を設定することができる。
【0037】
前記ベイズ統計モデルは、前記集団内の化合物のペア間の類似性を示すカーネルを使用して、前記化合物の前記生物学的特性を近似することができる。
【0038】
前記カーネルは、タニモト類似性カーネルであってよい。
【0039】
前記方法は、前記決定されたサブセットの前記選択された化合物の少なくとも一部を合成して、前記選択された化合物の生物学的特性を決定することを含み得る。
【0040】
前記方法は、前記合成された化合物を前記トレーニングセットに加えて、更新されたトレーニングセットを得ることを含むことができる。
【0041】
前記方法は:前記更新された化合物のトレーニングセットを用いて、更新されたベイズ統計モデルをトレーニングして、前記目的関数を近似する前記確率分布を出力する工程;前記更新されたトレーニングセットに含まれない前記集団からの複数の化合物の新しいサブセットを決定する工程であって、前記新しいサブセットが、前記更新されたベイズ統計モデルからの前記近似生物学的特性に基づくと共に前記定義された複数の目的に基づく前記獲得関数の最適化に従って決定されるものである工程;および、前記決定された新しいサブセット内の前記化合物の少なくとも一部を合成のために選択する工程;を含み得る。
【0042】
前記方法は、前記決定された新しいサブセットの前記選択された化合物を合成して、前記選択された化合物の生物学的特性を決定することを含むことができる。
【0043】
前記方法は、前記合成された化合物を加えることによって前記トレーニングセットを更新することを含むことができる。
【0044】
前記方法は:前記更新された化合物のトレーニングセットを用いて、更新されたベイズ統計モデルをトレーニングして、前記目的関数を近似する前記確率分布を出力する工程;前記更新されたトレーニングセットに含まれない前記集団からの複数の化合物の新しいサブセットを決定する工程であって、前記新しいサブセットが、前記更新されたベイズ統計モデルからの前記近似生物学的特性に基づくと共に前記定義された複数の目的に基づく前記獲得関数の最適化に従って決定されるものである工程;前記決定された新しいサブセット内の前記化合物の少なくとも一部を合成のために選択する工程;前記決定されたサブセットの前記選択された化合物を合成して、前記選択された化合物の生物学的特性を決定する工程;および、前記合成された化合物を前記トレーニングセットに加えて更新されたトレーニングセットを得る工程;を、停止条件が満たされるまで、反復的に実行することを含むことができる。
【0045】
停止条件は:前記合成された化合物のうちの一つ以上が前記複数の目的を達成すること;前記合成された化合物のうちの一つ以上が前記それぞれの複数の目的の許容閾値内にあること;および、最大反復回数が実行されていること;のうちの少なくとも一つを含むことができる。
【0046】
いくつかの実施形態において、前記複数の目的を達成するか、または前記それぞれの複数の目的の許容可能な閾値内にある合成された化合物は、所定の標的分子に対して所望の生物学的、生化学的、生理学的および/または薬理学的活性を有する候補薬剤または治療分子であり得る。
【0047】
前記所定の標的分子は、インビトロおよび/またはインビボの治療、診断、または実験アッセイの標的であり得る。
【0048】
前記候補薬剤または治療分子は、医学において;例えば、ヒトまたはヒト以外の動物などの動物の治療方法において使用するためのものであり得る。
【0049】
前記目的の各々を、たとえば化学者が候補化合物が満たすべき望ましい基準を定義するなど、ユーザーが定義することができる。
【0050】
いくつかの実施形態において、前記目的の各々は:前記それぞれの生物学的特性の所望の値;前記それぞれの生物学的特性の所望の値の範囲;および、最大化または最小化される前記それぞれの生物学的特性の所望の値;のうちの少なくとも一つを含む。
【0051】
前記選択されたサブセット内の化合物の数は、たとえば薬剤設計プロジェクトの各設計サイクルまたは反復において化合物を試験するために利用できるリソースのレベルに基づいて、ユーザーが定義することができる。
【0052】
前記集団内の前記複数の化合物の各々の前記構造的特徴は、前記化合物中に存在するフラグメントに対応し得る。
【0053】
前記複数の化合物の各々に存在する前記フラグメントは、分子フィンガープリントとして表すことができる。任意に、前記分子フィンガープリントは、拡張接続フィンガープリント(ECFP)であり、任意に、ECFP0,ECFP2,ECFP4,ECFP6,ECFP8,ECFP10またはECFP12である。
【0054】
前記生物学的特性には:活性;選択性;毒性;吸収;分布;代謝;および排泄;のうちの一つ以上が含まれ得る。
【0055】
本発明のもう一つの態様によれば、上記の方法によって識別された化合物が提供される。
【0056】
本発明のもう一つの態様によれば、コンピュータプロセッサによって実行されるときに、当該コンピュータプロセッサに上述の方法を実行させる命令を記憶する非一時的コンピュータ可読記憶媒体が提供される。
【0057】
本発明のもう一つの態様によれば、コンピュータによる薬剤設計のためのコンピューティングデバイスが提供される。前記コンピューティングデバイスは、各化合物が一つ以上の構造的特徴を有する複数の化合物の集団を示すデータを受信するように構成されたインプット部を含む。前記インプット部は、複数の生物学的特性が知られている前記集団からの化合物のトレーニングセットを示すデータを受け取るように構成される。前記インプット部は、それぞれが所望の生物学的特性を定義する複数の目的を示すデータを受け取るように構成される。前記コンピューティングデバイスは、化合物の前記トレーニングセットを使用して、ベイズ統計モデルをトレーニングして、集団内の化合物の構造的特徴の目的関数として集団内の化合物の生物学的特性を近似する確率分布を提供するように構成されたプロセッサを含む。前記プロセッサは、前記トレーニングセットに含まれない複数の化合物のサブセットを前記集団から決定するように構成されており、この前記サブセットは、前記トレーニングされたベイズ統計モデルからの前記確率分布に基づくと共に前記定義された複数の目的に基づく獲得関数の最適化に従って決定される。前記コンピューティングデバイスは、前記決定されたサブセットを出力するように構成されたアウトプット部を含む。任意に、前記コンピューティングデバイスは、合成のために、および/または(コンピュータによる)分子動力学分析/シミュレーションを実行するために、前記決定されたサブセット内の前記化合物の少なくとも一部を選択するように構成されている。あるいは、これはユーザーの選択によっても可能である。任意に、前記コンピューティングデバイスは、前記分子動力学分析/シミュレーションを実行するように構成される。
【図面の簡単な説明】
【0058】
添付図面を参照して本発明の実施例をここで説明する。
図1】定義された関数のガウス過程モデル近似を示す図である。
図2】ガウス過程モデルと獲得関数とをどのように使用して、反復プロセスの一部として目的関数を最適化するかを示す図である。
図3】区分的線形関数の一例を示す図である。
図4】化合物の集団を使用してトレーニングされたガウス過程モデルから出力される多次元事後確率分布への、一つ以上の効用関数および/または集約関数の適用を概略的に示す図である。
図5】本発明の一例によるコンピュータによる薬剤設計方法の工程を示す図である。
図6】分子の試験セットの生物学的活性の既知の値と予測された値を比較するプロットを示す図である。特に、図6(a)は、既知の値と図5の方法によって予測された値との比較を示し、図6(b)は、既知の値と従来技術の方法によって予測された値との比較を示し、図6(c)は、従来技術の方法によって予測された値と図5の方法によって予測された値との比較を示している。
図7図6の分子の試験セットの生物学的活性の既知および予測値を、図5の方法において設定された分散閾値と共に比較しているプロットを示す図である。特に、図7(a)は、既知の値と図5の方法による予測された値との比較を示しており、図7(b)は、既知の値と従来技術の方法により予測された値との比較を示している。
図8図6の試験セットについてのモデル確実性に従って、図5の方法の平均二乗誤差(MSE)と分散がどのように変化するかのプロットを示す図である。
図9図5の方法のベンチマーキングを実行するための工程を概略的に示す図である。
図10(a)】分子の試験セットにおける分子の、特定の活性パラメータについての、生物学的活性値の分布を示すプロットを示す図であり、また、図5の方法を実施するための、試験セットからの分子のトレーニングセット、図5の方法によって選択された、試験セットからの分子の選択されたセット、およびトレーニングセットまたは選択されたセットに含まれない試験セット内の分子の残りの(未知の)セットを示している。
図10(b)】図10(a)のトレーニングセットおよび選択セットにおける分子の生物学的活性値の分布を示すプロットを示す図である。
図11(a)】図10(a)の分子の試験セット内の分子の、図10(a)からの異なる活性パラメータについて、生物学的活性値の分布を示すプロットを示す図であり、また、図5の方法を実行するための、試験セットからの分子のトレーニングセット、図5の方法によって選択された、試験セットからの分子の選択されたセット、およびトレーニングセットまたは選択されたセットに含まれない試験セット内の分子の残りのセットを示している。
図11(b)】図11(a)のトレーニングセットおよび選択セットにおける分子の生物学的活性値の分布を示すプロットを示す図である。
図12図10および11の試験セット内の分子の活性パラメータの値を示すプロットを示す図であり、どの分子が図5の方法によって選択されるかを示している。
図13】分子の試験セットにおける分子の相対的自由結合エネルギー値の分布を示すプロットを示す図であり、また、図5の方法を実行するための、試験セットからの分子のトレーニングセット、図5の方法によって選択された、試験セットからの分子の選択されたセット、およびトレーニングセットまたは選択されたセットに含まれない試験セット内の分子の残りの(未知の)セットを示している。
図14(a)】図13の試験セットから選択された分子セットの累積相対自由結合エネルギーが、図5の方法の連続反復によりどのように変化するかを、最適に選択されたセットおよびランダムに選択されたセットと比較してプロットした図である。
図14(b)】相対的自由結合エネルギーの最小化に従う試験セットにおける分子の上位xに入っている図5の方法を30回繰り返した後の図14(a)における選択された分子のパーセンテージのプロットを示す図である。
図15(a)】図14(a)のプロットを示す図である。ただし、図15(a)は、図5の方法で選択されたセットの代わりにランダムフォレストモデルで入念に選択されたセットの結果を示している。
図15(b)】相対自由結合エネルギーの最小化に従う試験セットにおける分子の上位xに入っているランダムフォレストモデルを30回反復した後の図14(a)における選択された分子のパーセンテージのプロットを示す図である。
【発明を実施するための形態】
【0059】
詳細な説明
分子または薬剤の設計は、知識を進歩させるために仮説の生成と実験のサイクルを使用する多次元の最適化問題と考えることができる。それぞれの化合物の設計は、実験によって反証される仮説であると考えることができる。前記実験結果は構造活性関係として表され、どの化学構造が望ましい特性を含む可能性が高いかに関する仮説のランドスケープを構築する。各プロジェクトは所望の特定の属性の製品プロファイル、例えば、目的関数を持って始まるため、薬剤設計の前記プロセスも最適化の問題である。しかし、たとえ前記目的が正確に記述できたとしても、最適なソリューションを見つけることはこれまで費用がかかり、困難な課題であった。このタイプの問題の特に難しい点の一つは、実験結果の比較的限られた知識ベースから、実行可能な解決策の広大な空間にわたる仮説のランドスケープを効果的に構築することである。
【0060】
前記創薬プロセスは通常、設計サイクルとして知られる反復で実行される。各反復で一連の分子または化合物が合成され、それらの生物学的特性が測定される。前記活性が分析され、以前の反復から学んだことに基づいて新しい化合物のセットが提案される。このプロセスは、臨床候補が見つかるまで繰り返される。活性だけでなく、前記測定される生物学的特性には、選択性、毒性、親和性、吸収、分布、代謝、および排泄のうちの一つ以上が含まれ得る。
【0061】
前記プロセスの任意の特定の段階では、一連の化合物が合成または製造されており、その生物学的活性は既知である。前記プロセスの目的は、合成可能であるが、前記集団から化合物のサブセットを合成するためのリソースおよび/または時間しかない化合物の大きな集団またはプールから一つ以上の最適な化合物を見つけることである。
【0062】
自動化またはコンピュータによる薬剤設計プロセスでは、数学的モデル、たとえばマシンラーニング(ML)モデルを使用して、製造される可能性のある化合物の前記集団のうちどの化合物が最適な化合物、例えば、特定の/望ましい生物学的活性を最大化(または最小化)する化合物であるかを予測または仮定する。
【0063】
アクティブラーニングはマシンラーニングの特殊なケースであり、ラーニングアルゴリズムがユーザー(またはその他の情報ソース)に対話形式でクエリを実行して、新しいデータポイントに必要な出力のラベルを付けることができる。この手法の使用例の一つは、ラベルのないデータが豊富にあるものの、手動ラベル付けにはコストがかかる場合であり、これは創薬における一般的なシナリオである。
【0064】
前記MLモデルは、実験結果、すなわちすでに合成および試験された前記集団内の化合物から得られる利用可能な構造-活性関係を用いてトレーニングされる。MLモデルを使用して、考えられる化合物の集団から最も高い予測活性(またはその他の望ましい標的特性)を持つ化合物を合成用に選択する前記戦略またはアプローチは、「活用」と呼ばれる。活用戦略は、前記プロセスの使用フェーズとみなすことができる。さまざまな数学的アプローチを利用して、活用を実行するMLモデルを提供できる。たとえば、サポートベクターマシンアルゴリズム、ニューラルネットワーク、およびデシジョンツリーが含まれる。
【0065】
前記活用アプローチは、MLモデルの予測能力が十分に正確である場合、すなわち前記MLモデルが十分にトレーニングされている場合にのみ成功する。合成および試験された前記集団からの各化合物は、前記MLモデルのトレーニングに使用される化合物のトレーニングセットに加えられる。特定の反復で前記トレーニングセットに加えられる分子または化合物の数は、通常、リソースによって制限される。すなわち、各反復で合成される化合物の前記サブセット内の化合物の数は、通常、所定の最大数で定義される。
【0066】
前記MLモデルの予測機能は、前記トレーニングセットに十分な数の化合物がある場合にのみ十分に正確になる。したがって、MLモデルが十分にトレーニングされる前に、特定の回数の反復または設計サイクルを実行する必要がある場合がある(たとえば、各反復において規定の最大数の化合物が前記トレーニングセットに加えられる)。
【0067】
また、前記MLモデルの予測能力は、前記トレーニングセット内の前記化合物が、合成用に選択できる化合物の集団全体を十分に代表している場合にのみ、十分に正確になる。したがって、前記MLモデルが十分にトレーニングされる前に、前記MLモデルの改善に最も役立つ化合物(すなわち、最も代表的な化合物)が、任意の所定の反復で合成されるサブセットに含まれていることが重要である。これに基づいて合成する化合物を選択することを「探索」と呼ぶ。探索戦略の一環として合成する化合物を選択するためのいくつかのアプローチが知られており、たとえば、集団内の化合物間の距離メトリクスに基づく手法や、化学構造の観点から集団内の化合物の多様性に基づく手法などである。探索戦略は、前記プロセスのラーニングフェーズまたはトレーニングフェーズとみなされる場合がある。
【0068】
したがって、創薬プロセスの特定の反復で合成する化合物のサブセットを選択する場合、活用戦略と探索戦略には競合するニーズがある。実際、どの戦略が適切であるかという選択は、前記創薬プロセスの特定の段階に応じて変わる可能性がある。たとえば、創薬プロジェクトの初期段階では、十分にトレーニングされたモデルがまだ構築されている可能性は低くなる。したがって、探索の報酬は最終的にはよりよくトレーニングされ、したがってより正確なモデルとなるため、この段階での探索戦略は最も適切な戦略である可能性がある。活用戦略は、トレーニングセットの代表性を高めるための特に優れた戦略ではないため、この段階では限られたリソースを最大限に利用することはできない。一方、前記MLモデルがすでに十分にトレーニングされている場合、たとえば、創薬プロジェクトの後期段階において、合成用の前記モデルにより選択された化合物の前記サブセットが、所望の特性、例えば高い生物学的活性レベルに関して最適化合物となる可能性が高いので、この場合において活用は適切な戦略となるであろう。この段階では、探索戦略は、望ましい特性を持つ可能性が高い化合物を選択するための最適な戦略ではないため、限られたリソースを最大限に利用することはできない。
【0069】
前述したように、活用戦略を実行するためのMLモデルは:前記MLモデルのトレーニングに使用される前記セット内に十分な数の化合物があり;このトレーニングセット内の前記化合物が、合成する化合物が選択される化合物のプールを十分に代表している;場合にのみ正確な予測を行う(可能性が高い)ことになる。これらの手段の一つ目は、十分な数の合成化合物を得るために、一定数の設計サイクルを実行する必要がある可能性があることを意味する(十分な数の合成済み化合物に関するデータがすでに利用可能な場合を除く)。これらの手段の二つ目は、創薬プロジェクトの初期段階の初期設計サイクルでは、活用のみを実行することができるMLモデルを使用して(単独で)合成されるセットにどの化合物を含めるかを決定することは望ましくない可能性があることを意味する。これは、このようなMLモデルでは、まだ十分なレベルにトレーニングされていないモデルに従ってどの化合物が高活性であるかを予測するため、前記予測が正確である可能性が低くなるからである。さらに、前記MLモデルの予測は化合物のトレーニングセットからすでに識別されている関係/情報にさらに焦点を当てているため、そのような予測に従って化合物を合成しても、その後の設計サイクルで前記MLモデルを改善するのには役に立たない。特に、純粋に活用を実行するMLモデルからの予測は、次の設計サイクルで前記MLモデルの精度を向上させる目的でどの化合物を合成するかを提案するのには役立たない。
【0070】
創薬プロジェクトに関連する時間とコストを削減するには、前記望ましい特性を持つ候補化合物または最適な化合物を発見するために必要な反復または設計サイクルの数を最小限に抑える必要がある。したがって、前記望ましい特性を持つ化合物を予測するための十分にトレーニングされたモデルをできるだけ早く構築できること、すなわち前記トレーニングセットに必要な化合物をできるだけ少なくすることが重要である。したがって、候補化合物がこのような戦略を採用している反復から出現する可能性は低いため、(少なくともある程度の)探索が必要な反復回数を最小限に抑えるために、プロジェクトの初期段階で最も代表的な化合物を合成用に選択することが重要である。
【0071】
本発明は、創薬プロセスの一部として化合物の集団から候補化合物を識別するためのマシンラーニングモデルを設計および使用するための改良されたコンピュータによる薬剤設計方法を提供するという点で有利である。特に、本発明は、活用戦略と探索戦略の両方を個別にまたは並行して組み込んで実行できるマシンラーニングモデルを有利に提供する。本発明は、有利には、創薬プロジェクトの所与の設計サイクルにおける合成のための複数の化合物の同時最適化および選択を可能にし、また本発明は、有利には、候補化合物の様々な所望の生物学的特性を定義する複数の設計目的に対して化合物の最適化を可能にする。本発明はまた、特定の創薬プロジェクトの候補化合物によって達成または最適化される目的に関して、および/または、どの化合物を合成するかを選択する際に各々が種々の目的を満たす化合物の間の区別に関して、(たとえば化学者の)さまざまな選好を組み込むためのより柔軟な方法も提供する。
【0072】
本発明によれば、コンピュータによる薬剤設計法の工程は、複数の化合物または分子の集団を定義することである。特に、この集団は、特定の創薬プロジェクト中に合成のために選択できる化合物の前記セットである。前記集団は、例えば既知のコンピュータによる方法および/または人間の入力を介して、任意の適切な方法で定義または得ることができる。たとえば、前記集団は、生成または進化設計アルゴリズムから取得された化合物のセットである場合がある。特に、進化的設計アルゴリズムは、この方法が使用されることになる特定のプロジェクトに最適な化合物の望ましい特性の少なくとも一部を有する一つ以上の既知の化合物、例えば既存の薬剤の初期セットに基づいて、多数の新規化合物を生成する可能性がある。あるいは、多数の新規化合物を任意の適切な方法で生成することもできる。少なくともいくつかの所望の特徴を有する生成された新規化合物は、さらなる分析のために保持され得る。一例では、既知の方法を適用して、特定のプロジェクトに少なくともいくつかの所望の特徴を有する特定の化合物を手元に置いておくことによって、出発化合物群(例えば、数百万の化合物を含む)の数を減らすことができる。一つ以上のフィルタを保持された化合物に適用して、望ましくない化合物を除去することができる。フィルタは、望ましくない化合物から望ましい化合物を選択する(またはフィルタリングする)ための任意の適切な基準に従って定義することができる。たとえば、一つの有用なフィルタを適用して、重複した化合物を除去することができる。もう一つのフィルタを適用して、特定のレベルの毒性を持つ化合物を除去することもできる。次いで、前記フィルタリングされた化合物のセットは、合成のための選択が行われる集団を形成することができる。
【0073】
前記集団には、任意の適切な数の化合物が含まれ得る。一般に、前記集団には、例えば利用可能なリソースの理由から、特定の創薬プロジェクトの一部として合成できる化合物の数よりも多くの(おそらくかなり多くの)化合物が含まれることになる。しかしながら、前記集団には、一般に、本発明による前記集団のコンピュータ分析が実行不可能であるほど多くの化合物が含まれることもない。例えば、集団内の化合物の数は通常、数百または数千の化合物のオーダーである可能性があるが、任意の所定のプロジェクトでは前記集団がこれより大きい場合も小さい場合もあることが理解されよう。
【0074】
前記集団内の各化合物には、結合して化学構造を形成する多数の構造的特徴が含まれている。このような構造的特徴は、任意の適切な方法で表現することができる。たとえば、化合物または分子の構造を記述する一つの方法は、フィンガープリンティングによるものである。特に、特定の化合物の前記フィンガープリントは、前記化合物にどの特定の構造的特徴または部分構造(フラグメント)が存在するか存在しないかを反映する数学的オブジェクト、たとえば、一連のビットまたは整数のリストとして表すことができる。
【0075】
フィンガープリントには、トポロジカルフィンガープリント、構造的フィンガープリント、および円形フィンガープリントのような幾つかの異なるクラスがある。一般的な循環フィンガープリント方法は、拡張接続フィンガープリント(ECFP)である。ECFP0,ECFP2,ECFP4,ECFP6,ECFP8,ECFP10およびECFP12のような多くのECFP方法が知られている。当技術分野で知られているように、化合物のフィンガープリントを決定することには、一般に、化合物内の各原子に識別子を割り当てること、隣接する原子に基づいてこれらの識別子を更新すること、重複を除去すること、および識別子のリストからベクトルを形成することが含まれる。
【0076】
前記コンピュータによる薬剤設計法の次の工程は、前記集団から化合物のトレーニングセットを定義することである。前記トレーニングセットには、生物学的特性が既知である集団内の化合物が含まれる。すなわち、前記トレーニングセットには、特定の生物学的特性、例えば生物学的活性を決定するために合成および実験的に試験された集団からの化合物が含まれる。したがって、創薬プロジェクトが進行するにつれて、すなわち反復または設計サイクルが実行されるにつれて、前記トレーニングセット内の化合物の数が増加する。前記創薬プロジェクトの開始時には、トレーニングセットに含まれる化合物は比較的少ない可能性がある。例えば、前記トレーニングセットには、生物学的特性が事前に知られている化合物、例えば、別のプロジェクトの一部として以前に試験され、検討中の前記特定のプロジェクトに応じて最適な化合物の前記望ましい特性の少なくとも一部を有する化合物が含まれてもよい。
【0077】
本発明の前記コンピュータによる設計方法を実行するためには、トレーニングセットに少なくともいくつかの化合物が含まれている必要があることに留意されたい。したがって、創薬プロジェクトの開始時に、前記定義された集団内のどの化合物も合成および試験されていない場合、すなわち、前記集団の生物学的特性が不明な場合、前記トレーニングセットは、本発明によるML方法(以下に説明する)をトレーニングおよび実行する前の最初の工程として、任意の適切な方法で投入され得る。例えば、初期トレーニングセットを提供するために合成された化合物は、既知の探索戦略などの異なる技術に従って選択することも、単に前記集団からランダムに選択することもできる。
【0078】
前記コンピュータによる薬剤設計方法の次のステップは、それぞれが所望の生物学的特性を定義する複数の目的を定義することである。すなわち、複数の目的は、特定の薬剤設計プロジェクトの候補化合物によって示される望ましい生物学的特性の概要を示す。前記目的は、化合物によって示されるさまざまな生物学的特性、たとえば生物学的活性、選択性、毒性、吸収、分布、代謝、および排泄の一つ以上に基づく場合がある。各目的は、任意の適切な方法で特定の生物学的特性に関連して定義することができる。たとえば、目的は単に特定の生物学的特性を最大化または最小化することかもしれない。あるいは、目的は、特定の生物学的特性についての特定の所望の値を達成することである場合もあり、または前記目的は、候補化合物において許容される特定の生物学的特性の所望の値の範囲を可能にすることもあり、または特定の生物学的特性の値が特定のしきい値より大きくなるか、または小さくなるように制約する場合がある。任意の所定の生物学的特性に対して一つ以上の目的を定義できる。純粋に説明目的で、特定の創薬プロジェクトの理想的な分子または化合物のプロファイルの例は、次の目的の点で表現できる:主要な標的Xに対する活性ができるだけ高い;親油性(logP)が2~6の間である;および、望ましくないターゲットYに対する活性(plC50)が厳密に5未満である。
【0079】
説明したコンピュータによる設計法の一部として使用されるMLモデルの(最終的な)目的は、定義された目的を満たす一つ以上の化合物を前記集団から提案または予測することである。前記コンピュータによる薬剤設計法の次の工程は、定義された化合物のトレーニングセットを使用して、このようなMLモデルをトレーニングすることである。特に、前記MLモデルは、前記集団内の前記化合物の構造的特徴の目的関数として、前記集団内の化合物の生物学的特性を近似する確率分布を出力するベイズ統計モデルである。
【0080】
ベイズ最適化は、形式が不明な関数(すなわち、「ブラックボックス関数」)を最適化し、入力空間の点で前記関数を評価するのにコストがかかる場合に便利な方法である。したがって、ベイズ最適化は、コンピュータによる創薬における有用なアプローチであると考えられる。これは、化合物集団内の化合物間の機能的関係の種類が事前にはわからないためであり、また、化合物の合成と試験、すなわち評価コストが時間と費用の両方を要する可能性があるためである。
【0081】
ベイズ最適化は、実現可能なセットまたは検索空間全体で目的関数を最大化/最小化することに重点を置いたMLベースの最適化手法の一種である。ベイズ最適化を使用する問題については、通常、さらに多くの一般的な仮定が作られる、または、これらはベイズ最適化を使用して対処される問題に共通である。たとえば、入力空間の次元は一般にそれほど大きくなく、目的関数は一般に連続関数であり、全体的な最大値/最小値が求められ、関数の評価では勾配情報が与えられないため、勾配降下法やニュートン法などの導関数に基づく最適化手法が妨げられる。創薬の文脈では、これらの一般的な仮定がすべて当てはまるわけではないことは明らかである。たとえば、創薬のためのベイズ最適化は、連続空間ではなく、離散空間(各離散点が集団からの化合物を表す)に基づいてモデル化される。また、創薬の文脈における問題には、比較的高次元の入力空間が存在する場合がある。特に、入力空間の各次元は、所定の化合物に存在するか存在しない特定の構造的特徴またはフラグメントを表す場合があり、モデル内の前記化合物の表現には、各々の場合に存在または不在としてコード化される種々のそのような構造的特徴が何千も含まれる場合がある。したがって、一部の標準的なベイズ最適化手法は、今回の場合のように創薬の文脈におけるコンピュータによる手法には適さない可能性があり、適切な修正が必要な場合があることは明らかである。これについては以下でさらに詳しく説明する。
【0082】
ベイズ最適化は、目的関数のモデル化のために、ベイズ統計モデル、または代理を使用する。この場合、前記目的関数は、前記集団内の化合物の生物学的特性とそれらの化合物の構造的特徴の間の関係を記述する。前記ベイズ統計モデルは、所定の点、たとえば評価の候補である点における目的関数の潜在的な値を記述するベイズ事後確率分布を提供する。前記目的関数が一つ以上の新しい点で評価/観察されるたびに、事後確率分布が更新される。すなわち、生物学的特性を決定するために集団からの化合物が合成されるたびに、この化合物を使用して生物学的特性と構造的特徴の間の関係を近似する前記モデルを更新できる。
【0083】
ベイズ最適化を問題に適用する場合、使用される前記モデルは不確実性の尺度、すなわちモデル自身の予測がどの程度確実であるかを定量化する方法を生成する。前記ベイズ統計モデルは、そのような不確実性の尺度を含むガウス過程モデルであってよい。ガウス過程は、それらの確率変数のすべての有限集合が多変量分布を持つような確率過程(すなわち、時間または空間によってインデックス付けされた確率変数の集合)である。すなわち、前記確率変数のすべての有限線形結合は正規分布する。一般に、ガウス過程モデルは、トレーニングの有無にかかわらず、すべてのデータが同じガウス過程から生成されることを前提としており、これは通常、適切な近似値である。
【0084】
ガウス過程回帰は、関数をモデル化するためのベイズ統計アプローチの一つのタイプである。ベイズ統計に未知の量(たとえば、入力点の有限集合における目的関数の値のベクトル)があるときは常に、それは何らかの事前確率分布(または単に「事前」)のために自然からランダムに抽出されたと想定される。ガウス過程回帰では、この事前分布を特定の平均ベクトルと共分散行列を使用した多変量正規分布とみなす。
【0085】
前記平均ベクトルは、入力点の各々において平均関数を評価することによって構築できる。一つのオプションは前記平均関数を定数値に設定することであるが;前記目的関数がアプリケーション固有の構造を持つと考えられる場合は、多項式関数など、平均関数の他の適切な形式も可能である。前記共分散行列は、点の各ペアで共分散関数またはカーネルを評価することによって構築できる。すなわち、未見の点(すなわち、評価されていないため関数値が不明な点)の値を予測する場合、前記モデルは点間の類似性の尺度を使用し、この類似性の尺度はカーネル関数によって提供される。前記カーネルは、入力空間内で互いに近い点ほど、より大きな正の相関を持つように選択できる。これは、それらの関数値は、入力空間内で互いに離れている点のペアよりも類似しているはずであるという信念をエンコードしている。したがって、未見の点の近傍にあるトレーニングポイント(すなわち、評価され、その関数値が既知である点)は、近傍にないトレーニングポイントと比較して、未見の点の予測に重みを置く。
【0086】
たとえば、前記入力空間内の多数の点が観察されており、新しい点での前記目的関数の値を予測したいとする。前記事前分布は、ガウス過程回帰を使用して決定することができ、次いで、前記新しい点における前記目的関数の条件付き分布を、(当技術分野で知られているように)ベイズ則を使用して観察点を与えて計算することができる。この条件付き分布は、ベイズ統計では事後確率分布と呼ばれる。前記事後平均は、カーネルに依存する重みを備えた、事前の平均と、既知のデータ(すなわち、評価または観察された点)に基づく推定値との間の加重平均とすることができる。前記事後分散(すなわち、不確実性)は、前述の点で前記関数を観察することによって除去された分散に対応する項を差し引いた事前の共分散に等しい可能性がある。
【0087】
上記のアプローチを実施する簡単な例を説明の目的で示す。関数f(x)=xsinxを考慮し、放射基底関数カーネルを使用するガウス過程モデルに6つのトレーニングポイントが提供されると仮定する。次に、前記モデルの予測が区間[0,10]で生成され、図1は、観察された(トレーニング)点、関数f(x)、予測の平均、および95%信頼区間のプロットを示している(標準偏差の二倍、すなわち不確実性の尺度)。観測点から遠く離れた予測に関連する前記不確実性は、前記観測点に近い予測の不確実性よりも大きいことがわかる。
【0088】
上で述べたように、カーネルは通常、前記入力空間内の点が互いに近づくほど、それらの相関がより強くなる、すなわち、より類似するという特性を持っている。ただし、カーネルは、前記入力空間内で点のペアがどの程度「接近している」かを測定する方法を定義する必要がある。通常、カーネルはユークリッド距離に依存する関数である。ただし、そのようなカーネルは、高次元の入力点をうまく扱うことができない。例えば、ユークリッド距離の尺度に基づくカーネルは、前記入力空間が数十次元、例えば20次元までである場合には、十分にうまく機能する可能性がある。ただし、前述したように、MLモデルの一部として分析する場合、分子または化合物は、数千ビット程度の長さのビットベクトル(たとえば2048ビットのフィンガープリント)においてコード化/表現される場合があり、各ビットは、特定の構造的特徴またはフラグメントが化合物に存在するか存在しないかを示す。すなわち、この文脈における前記入力空間は数千の次元を持つものとみなすことができる。たとえば、2048ビットのフィンガープリントの場合、各フィンガープリントは2048次元の単位立方体の頂点と見なすことができる。この文脈ではユークリッド距離に基づくカーネルが使用される可能性があるが、前記入力空間内の点(すなわち、定義された集団内の化合物)の間の差が正確に反映されない可能性があり、これは、ユークリッド距離の尺度に従って、それらの多くが他のすべての点から等しく離れているためである。
【0089】
本発明の文脈では、代わりにタニモト類似度を前記ガウス過程モデルの前記カーネルの基礎として使用することが有益である可能性がある。タニモトの類似性または係数は、サンプルセットの類似性と多様性の尺度であり、セット間の共通部分のサイズをサンプルセットの和集合のサイズで割ったものとして定義できる。前記タニモト係数は、ケモインフォマティクスでフィンガープリント間の類似性を判断するために使用される。有利なことに、ガウス過程モデルのカーネルに前記タニモト係数を適用すると、この創薬ユースケースのような高次元アプリケーションのユークリッド距離ベースのカーネルが経験するであろう上記の問題に悩まされることはない。これは、前記タニモト類似度がコサイン類似度であるとみなされるため、距離ではなく角度の尺度とみなされる可能性があるためである(ユークリッドベースのカーネルの場合と同様)。
【0090】
前記ベイズ最適化モデルには、ハイパーパラメータと呼ばれる前記事前分布のパラメータも含まれている。特に、前記事前分布の平均関数とカーネルにはハイパーパラメータが含まれている。これらのハイパーパラメータの影響は、さまざまな標準サンプルサイズに対して重大であることが多いため、これらのハイパーパラメータの選択/最適化は非常に重要である。創薬の文脈では、ベイズ統計モデルのハイパーパラメータを選択する標準的なアプローチは適切または最適ではない可能性がある。その理由の一つは、創薬分野では一般的にトレーニングデータの量が比較的少ないためである。すなわち、前記トレーニングセットには通常、前記モデルのトレーニングに使用する化合物が比較的少数含まれている。もちろん、まだサンプリングされていない化合物の合成と試験に比較的高価で時間がかかるため、前記トレーニングセットに多くの化合物、または任意の化合物をさらに加えることは必ずしも実現可能ではない。前記モデルのハイパーパラメータを選択するためのいくつかの標準的なアプローチが創薬の文脈では適切ではないもう一つの理由は、いわゆる「アクティビティクリフ」のためである。すなわち、非常に類似した、またはほぼ同一の化学構造を有する一対の分子が、それぞれの活性に関して比較的大きな差異を示すことが比較的一般的である可能性がある。活性におけるこの大きな違いは、比較的少数の重要な原子が化学構造に加えられたまたは化学構造から除去された結果である可能性がある。このような現象は、化合物間の構造活性関係を予測するモデルにおいて明らかに注意を払う必要がある。
【0091】
ベイズ統計モデルのハイパーパラメータを選択する一つの方法は、(タイプII)最大尤度推定(MLE)アプローチを使用することである。特に、目的関数の一連の観察、すなわち、この場合における既知の生物学的特性を持つ化合物の前記トレーニングセットが与えられた場合、事前(ハイパーパラメータに依存する)に基づく、またはそれに従って、これらの観察の尤度が計算される。前記尤度は多変量正規密度であり、前記ハイパーパラメータはこの分布の尤度を最大化する値に設定される。勾配降下法を使用して、事前分布に基づく観測の尤度を最大化する前記ハイパーパラメータを取得できる。これらは両方とも、トレーニングデータがまばらであるか存在しない化学空間の未知の領域でモデルを使用しようとする場合に問題になる。
【0092】
創薬の文脈では、タイプII MLEを使用して前記ハイパーパラメータを選択すると、トレーニングデータの量が少ないため、前記モデルが低い長さのスケールに向けられる可能性があるが、これは、既知のポイントが、望ましいまたは最適な以上に新しいポイントの予測に影響を与える可能性があることを意味している。このようなアプローチでは、前記モデル内に高レベルのノイズが発生する可能性があり、その結果、前記モデルが前記トレーニングデータを過剰適合させる可能性がある。したがって、これらの問題を手動でチェックすることなく、創薬のためのベイズ統計モデルのトレーニングを拡張および自動化するには、より堅牢なハイパーパラメータ最適化アプローチが必要である。
【0093】
ハイパーパラメータを選択するもう一つの方法は、交差検証アプローチを使用することである。ここでの一般的なアプローチは、トレーニングセットをいくつかのサブセットに分けるまたは分割し;前記分割されたサブセットのうち一つを除くすべてを使用してモデルをトレーニングし;残りの(試験)サブセットを使用して前記モデルを試験することである。次に、これを試験サブセットとしてさまざまなサブセットごとに繰り返す。これは、モデルの汎化機能が最適化されるため、MLモデルをトレーニングするためのより堅牢な方法とみなされる場合がある。ただし、交差検証アプローチは比較的計算コストが高くなる傾向があり、たとえばタイプII MLEよりも計算が遅くなる。創薬の文脈で最適化する必要がある前記比較的多数のハイパーパラメータは(前記入力データの次元が高いため)、この場合の純粋な交差検証アプローチが計算コストの点で法外に高価になることを意味する。
【0094】
本発明の実施形態では、前記ベイズ統計モデルのトレーニングは、最大尤度推定技術と交差検証技術の組み合わせを適用することによるモデルのハイパーパラメータの調整またはトレーニングを含むことができる。これら二つのアプローチまたは技術を組み合わせることで、比較的少ない計算コストで前記ハイパーパラメータのトレーニングを改善できる。
【0095】
ある意味では、この組み合わせアプローチは、「早期停止」テクニックにある程度似ていると見なすことができる。「早期停止」はマシンラーニング技術であり、勾配降下法によってモデルが段階的にトレーニングされる。工程ごと、または数工程ごとに、通常は検証セットと呼ばれる保持されているデータのセットに基づいて前記モデルのパフォーマンスが評価される。前回の評価時からパフォーマンスが低下した場合、前記モデルはトレーニングデータの過剰適合を避けるためにトレーニングを停止する。ただし、ほとんどのモデルは、検証データを一度も見たことがない限り、検証データで真に評価することはできない。これは、実際には、(前記モデルの過剰適合を防ぐために)実際に利用可能なデータよりも少ないデータを使用してモデルをトレーニングする必要があることを意味する。
【0096】
創薬(すなわち、分子データの操作)の文脈におけるベイズ統計(ガウス過程)モデルの場合、次のアプローチが役立つ場合がある。前記モデルの初期ハイパーパラメータとそれらのハイパーパラメータの事前分布については、前記データ内のノイズに関する比較的高い事前分布から始めると便利な場合がある。これは、前記分子データの活性クリフ(前述)によって数値誤差やフィッティング不良が発生しないようにするためである。次に、最大尤度推定アプローチの標準的な勾配降下工程が、トレーニングセット全体、すなわち生物学的特性が既知であるすべての化合物に対して前記モデル(たとえば、タニモトカーネルを使用)を通じて実行される。交差検証工程は、勾配降下法の数工程ごとに実行でき、交差検証の間に実行される工程の数を、必要に応じて選択できる。これは、予測の計算に使用される共分散行列がそのハイパーパラメータと初期トレーニングデータのみに依存するというガウス過程モデルの特定の特性により可能になる。したがって、いくつかの行と列が削除された共分散行列は、最初にトレーニングセットから対応するいくつかのデータポイントを削除することによって取得される共分散行列と同じになる。これは、すでに決定されている共分散行列を持つモデルの場合、設定された数(10またはその他の適切な数)の行と列を非表示にすることができるが、モデルは同じハイパーパラメータと、非表示の行と列に対応するトレーニングポイントの数以外のすべてを持つことを意味する。次に、この小さなモデルは、隠れた点を予測して対象となる特定のメトリック(たとえば、回帰の「R二乗」)を得ることによって検証できる。代わりに、このプロセスがk分割で実行される場合(kはトレーニングデータが分割されるサブセットの数である)、すなわち、データの最初の1/kを隠してそれを予測、次にデータの2番目の1/kなどに実行する場合、重要なことに、勾配降下法のトレーニングセット全体を使用しながら、前記モデルの汎化力のより正確な推定値が得られる。薬剤設計では小規模なトレーニングセットが標準であるため、モデルがオーバーフィットしないように前記トレーニングセット内の化合物の一部(たとえば、50個のうち10個、またはその他の適切な数)を使用する余裕はない。上記の方法でガウス過程モデルを調整すると、この問題が回避される。もう一つの利点は、モデルの検証がほとんど計算コストなしで行われることである。
【0097】
ベイズ最適化では、前記ベイズ統計モデル、例えば、ガウス過程モデルが、前記トレーニングセットを使用して前記目的関数をモデル化するようにトレーニングされると、獲得関数を使用して、前記入力空間のどの点で関数を評価、サンプリング、または次に観察すべきかを決定する。特に、獲得関数はベイズ最適化において有用なツールであり、問題を、扱いにくい目的関数の全体的な最大値を見つけることから、連続微分可能で計算の速い関数の全体的な最大値を見つけることに移す。獲得関数は、分布と状態から実際の値へのマップとみなすことができる。前記分布は正規分布であってもよく、状態には、これまでに得られた関数の最大値や評価ポイントの残り量などの値が含まれてもよい。
【0098】
獲得関数は、前記ベイズ統計モデルから前記出力、特に、前記事後確率分布の前記予測平均と分散を使用して、入力空間全体にわたる検索を指示する。ベイズ統計モデルで獲得関数を使用すると、前記MLモデルによって提供される予測に活用アプローチと探索アプローチの間のトレードオフを含めることができる。これは、予測には平均値と分散値の両方が含まれるためである。平均値が高い前記入力空間の領域に焦点を当て、分散値が高くなるとペナルティを与えることで、このモデルの活用が達成される。一方、分散値が高い入力空間の領域に焦点を当てることにより、観測点がたとえあったとしてもほとんどない入力空間の未探索領域に検索が偏り、入力空間の探索が達成される。獲得関数には、特定の設計または反復における前記モデルの活用と探索の間の望ましいバランスまたはトレードオフに従って設定できる調整パラメータがある。
【0099】
獲得関数の一つのタイプは、期待改善関数である。このタイプの獲得関数は、観測点のトレーニングセット内の関数のこの最高値に対して予測または予測される改善が最も高い入力空間内の点を、次の評価点として選択する。もう一つの種類の獲得関数は、改善確率関数である。これにより、評価のための次の点として、トレーニングセット内の関数のこの最高値を超える改善を示す確率が最も高い前記入力空間内の点が選択される。さらなるタイプの獲得関数は、事後平均のこの分散または標準偏差を参照して次の点を選択する、下限または上限の信頼限界関数である。たとえば、下限信頼限界獲得関数は、各点で事後平均より2標準偏差下の曲線を考慮し、目的関数モデルのこの下限信頼限界包絡線が最小化されて、次のサンプル点が決定される。上で述べたように、これらの獲得関数のそれぞれの式には、次の観察点を選択する際の活用アプローチと探索アプローチの間の望ましいバランスに従って調整できる重み付けまたは調整パラメータが含まれる。前記獲得関数は、事後分布の事後平均値と分散値に依存する場合がある。前記獲得関数の事後平均項の重み付けパラメータは、望ましい活用レベルを設定するために使用することができ、前記獲得関数の事後分散項の重み付けパラメータ(平均重み付けパラメータに対する)を使用して、希望する探索レベルを設定することができる。このような重み付けパラメータをユーザーが定義して、前記目的の戦略を設定することができる。
【0100】
図2は、代理関数、例えばガウス過程モデルが、目的関数を最適化するために、サンプル点を使用してどのようにモデル化されるかの例を示している。前記プロセスの反復ごとに、サンプリングまたは評価する次の点を選択するために獲得関数が最適化される。後続の各反復においてより多くのサンプル点が利用できるようになると、代理関数の精度が向上し、前記選択された次のサンプリング点が前記目的関数を最大化する可能性が高くなる。
【0101】
ベイズ最適化手法は通常、未知の目的関数を次に評価する単一点を選択するために使用される。ただし、上で述べたように、創薬プロジェクトでは、効率の理由から、任意の所定の設計サイクルで合成および試験するために複数の化合物が選択されるのが一般的である。すなわち、特定の反復での評価のために複数の点を選択する必要がある。したがって、前記コンピュータによる薬剤設計方法の工程によれば、前記トレーニングセットに含まれない集団からの複数の化合物のサブセットが決定または選択される。特に、前記サブセットは、前記トレーニングされたベイズ統計モデルからの確率分布に基づくと共に前記定義された複数の目的に基づいて獲得関数の最適化に従って決定される。すなわち、前記方法は、所定の反復または設計サイクルでサンプリングされる複数の化合物を自動的に選択する。前記方法がサブセットに含めるために選択する化合物の数は、たとえば、特定の設計サイクルで特定の数の化合物を合成および試験するために利用可能なリソースのレベルに従ってユーザーが定義することができる。前記サブセットのサイズは、要求に応じて、反復ごとに(すなわち、前記コンピュータによる薬剤設計方法が反復されるたびに)同じにすることも、異なる反復ごとに変更することもできる。
【0102】
前記サブセットを決定するために、前記ベイズ統計モデルをトレーニングし、前記獲得関数を最適化して、前記サブセットに必要な数の化合物が選択されるまで、一度に一つの化合物を選択する。特に、前記ベイズ統計モデルが前記トレーニングセットでトレーニングされた後、前記トレーニングセットに含まれていない集団から一つの化合物を、前記トレーニングされたベイズ統計モデルからの前記確率分布に基づくと共に前記定義された複数の目的に基づいて前記獲得関数を最適化することによって識別できる。この最初に選択した化合物は、サブセットの二番目の化合物を見つけるために最適化を繰り返すときに考慮する必要がある。ただし、最初に選択した化合物の生物学的特性が不明であるため、最初に選択した化合物にその生物学的特性の代用としてダミーまたは偽のラベルが適用される可能性がある。前記ダミーラベルのおかげで、前記識別された化合物の前記予測分散は低下する。次に、前記方法には、前記最初に選択した化合物(および化合物のトレーニングセット)の前記ダミーラベルを使用して前記ベイズ統計モデルを再トレーニングすることを含むことができ、その後、前記再トレーニングされたベイズ統計モデルからの前記確率分布に基づくと共に前記定義された複数の目的に基づいて前記獲得関数を最適化することによって、前記トレーニングセットに含まれていない集団から二番目の化合物をサブセットのために識別することができる。次に、前記ベイズ統計モデルをさらに再トレーニングできるように、二番目に選択された化合物にも同様にダミーラベルを与えることができる。特に、前記方法は、化合物の前記トレーニングセットおよびこれまでに識別された一つ以上の化合物を使用して前記ベイズ統計モデルを再トレーニングする工程と;前記再トレーニングされたベイズ統計モデルからの前記確率分布に基づくと共に前記定義された複数の目的に基づいて前記獲得関数を最適化して、前記サブセットのためのもう一つの化合物を識別する工程と;を繰り返すことを含むことができる。具体的には、前記サブセットのために所望の数の化合物が識別されるまで、これらの工程を繰り返すことができる。
【0103】
サブセットについて識別された各化合物の偽りまたはダミーのラベルまたは生物学的特性値は、任意の適切な方法で設定または決定され得る。例えば、前記ダミーラベルは、前記ベイズ統計モデルからの生物学的特性の予測値に基づいてダミー値を設定するクリギングビリーバーアプローチに従って設定することができ、任意に、予測に関して楽観または悲観の程度を反映するために上限と下限を組み込むために変更することもできる。あるいは、前記ダミーラベルは、ポイントに関係なく、関連する値またはラベルが定数になるように設定される、コンスタントライアーアプローチに従って設定することができる。たとえば、前記モデルの平均はそのような適切な定数である可能性がある。
【0104】
(上記のダミーラベルを使用した順次選択のアプローチとは)別のアプローチを使用することもできる。たとえば、化合物のバッチは、多点期待改善(q-EI)アプローチを使用して選択できる。このようなアプローチでは、(単一の点ではなく)一連の点を条件として、現在の最適解からの予測される増加が計算される。離散空間の適切な近似により、多点決定戦略のそのような多点取得機能が実装されることが可能になる。
【0105】
多くのベイズ最適化手法は通常、関数の単一パラメータ、すなわち単一の目的を最適化するために使用される。しかしながら、上述したように、適切な候補化合物となるためには、化合物を最適化する必要がある多くの基準が一般に存在する。すなわち、考慮中の特定の創薬プロジェクトの候補化合物のさまざまな所望の特性に従って関数の複数のパラメータを最適化する必要がある、すなわち、最適化は複数の目的を並行して達成することを目的とする。前記目的が矛盾することもよくある。さらに、創薬の文脈では、目的の選好は単調ではない(他の一部のアプリケーションとは異なる)。
【0106】
したがって、前記ベイズ統計モデルからの確率分布は多次元分布である可能性がある。特に、前記多次元分布は、複数の目的のそれぞれの一つに関連する生物学的特性ごとの(一次元)分布を含むことができる。これらの複数の分布をそれぞれの目的に合わせて並行して最適化する一つのオプションは、多次元獲得関数を使用することである。前記獲得関数の各次元は、それぞれの目的に対応する可能性がある。例えば、そのような場合、前記多次元獲得関数は、ハイパーボリュームの期待改善関数であってよい。
【0107】
異なる次元の複数の目的に対して最適化するもう一つのオプションは、問題を1次元の問題に変換することである。特に、一つ以上の集約関数を使用して、多目的最適化の前記問題を単純化することができる。このような集約関数は、入力として前記ベイズ統計モデルから各次元(すなわち、対応する目的を持つ各生物学的特性)の平均と分散を得る。前記出力は、平均と分散を含む1次元分布になる。すなわち、前記モデルの予測における不確実性は、獲得関数によって利用される集約関数を通じて伝達される。さらに、前記集約関数への入力は、必要な次元数に容易に拡張できる。有利なことに、その後、一次元獲得関数を使用して前記最適化を実行することができ、これは一般に実行がより簡単である。例えば、そのような獲得関数は、上述したように、期待改善、改善確率または信頼限界関数であり得る。次元の各ペア間の統計的独立性は、前記集約関数を適用するために仮定される。前記集約関数には、たとえば以下の結果の一つ以上を使用して、和、平均、幾何平均、および積関数または演算子(個々のコンポーネントよりも選好できるようにそれぞれ重み付けすることができる)の一つ以上を含めることができる。
【0108】
任意の確率変数X、Yについて:
【0109】
【数1】
【0110】
任意の独立確率変数X、Yについて;
【0111】
【数2】
【0112】
これらの結果は、基本的な期待値と分散プロパティを使用して、N個の変数やスカラー乗算に一般化できる。
【0113】
上記の結果が当てはまらない可能性がある一般的な関数と相関入力の場合、たとえば、モンテカルロサンプリング手法を使用することができる。特に、入力間の相関を経験的に決定し、多変量分布からサンプルを取得した後、これらのサンプルのために前記集約関数を決定することができる。次いで、結果から平均および標準偏差を推定することができる。次いで、集約の一次元結果を一次元獲得関数に提供することができる。
【0114】
最適化問題の複数の目的のうちの異なるものが互いに競合する可能性があるため(すなわち、一つの目的に対する最適化が別の目的に悪影響を与える)、定義された複数の目的に基づいて前記獲得関数を最適化すると、パレート最適化合物セットが得られる場合がある。次に、これらの化合物の一つ以上を、前記決定されたサブセットに含めるために選択する必要がある。これは、例えばユーザーにより定義された選好や望ましさに応じて、任意の適切な方法で実行することができる。
【0115】
多目的最適化において矛盾する目的に対処し、化合物間の関係を断つための一つの方法は、最適化に選好をエンコードすることである。これは、それぞれの目的に関連する事後優先度分布に効用関数を適用することによって実現できる。ユーザーが一連の選択肢に対して選好の順位を持っている場合、効用関数を使用して、各選択肢に実数を割り当てることでその選好をエンコードできる。したがって、一つ以上の目的のそれぞれについて、前記方法は、それぞれの効用関数をベイズ統計モデルからの確率分布に適用することによって、それぞれの目的の生物学的特性または分布に関連する選好(ユーザーにより定義された選好であり得る)をマッピングして、選好修正確率分布を得ることを含むことができる。次いで、前記獲得関数の最適化は、選好修正確率分布に基づいて行うことができる。モデルからの予測に関連する不確実性が前記獲得関数の適用に伝播されることが重要であり、効用関数(および上記の集約関数)は、不確実性が出力に保持されるという点で有利である。
【0116】
一部のケースにおいて、前記定義された選好は、例えば候補化合物を得る目的で別の目的と比較してある目的を満たすことがより重要である場合、複数の目的のうちの他の目的に対するそれぞれの目的の優先度を示し得る。
【0117】
モデルの特定の予測に基づいて選好を導入することもできる。たとえば、前記モデルの確実性がより高い予測を優先して選好をエンコードすることができる。すなわち、化合物のうちの一つの生物学的特性の一つについて、その生物学的特性の確率分布に関連する不確実性値が低いほど、それぞれの前記生物学的特性に関連する選好が大きくなる場合がある。このように、モデル予測の不確実性は、効用関数の出力(獲得関数で使用される)としてだけでなく、入力としても役立つ。純粋に説明のための例として、多数の活性目的に対して最適化するために複数の目的が定義されており、親油性(logP)は厳密に0~2の間である必要があるとする(0~2の間の任意の値も同様に望ましい)。前記ベイズ統計モデル予測が、同じ活性予測、同じlogP平均予測、およびそれぞれ0.5と3のlogP標準偏差を持つ二つの化合物XとYを返すケースを考えられたい。この場合、化合物Xは、親油性が0~2の間の所望の範囲にある可能性がより高いため、好ましい化合物である。この場合、予測の不確実性が考慮されていない場合、前記平均効用関数値は同一になり、これは、たとえユーザーが明確な選好を持っていたとしても、前記方法ではXとYを区別できないことを意味する。
【0118】
実際には、一連の選択肢に対する選好の順位では、順序が近い選択肢は同様の選好レベルを持つ傾向がある。また、選択肢が実数の場合、効用関数は連続的になる可能性がある。本方法の効用関数は、区分的関数、特に区分的線形関数として有利にモデル化することができる。すなわち、プロットすると次のように定義される直線セグメントで構成される関数である。
【0119】
【数3】
【0120】
ここで[(a,b),(a,b),...,(a,b)]はN+1線形関数であり、[x,x,...xN-1]は、連続する2本の線の間にある点である。図3は、異なる化合物の予測に対する選好度を含めるために、説明した方法の一部として使用できる区分的線形関数の例を示している。
【0121】
区分的線形関数は正規分布と組み合わせて使用できる。このコンピュータによる薬剤設計方法では、前記ベイズ統計モデルが正規分布として予測を提供し、それを区分的線形効用関数に渡すことができる。上で述べたように、正規分布の不確実性は効用関数を通じて保存する必要がある(後で獲得関数によって使用されるため)。正規分布としての予測と、上で概説した効用関数を考慮すると、平均と標準偏差が決定される。これらの値を決定するには、次の結果が使用される。
【0122】
X~N(μ,σ)とする。Xについての確率密度関数(pdf)は次のとおりである。
【0123】
【数4】
【0124】
任意のランダム変数Xと、pdfpxおよびfとを用いた関数:
【0125】
【数5】
【0126】
誤差関数erfは次のように定義される。
【0127】
【数6】
【0128】
平均μと標準偏差σを持つ正規分布Xの場合、その累積密度関数(cdf)は次のようになる。
【0129】
【数7】
【0130】
Xの標準偏差を、期待値の観点から記載することができる。
【0131】
【数8】
【0132】
期待値
上記のE[f(X)]の式から:
【0133】
【数9】
【0134】
ここで、x-1=-∞およびx=∞
任意のa,b,μ,σ≠0について:
【0135】
【数10】
【0136】
この結果を上記に置き換えると、次のようになる。
【0137】
【数11】
【0138】
標準偏差
任意のa,b,μ,σ≠0について:
【0139】
【数12】
【0140】
上記より:
【0141】
【数13】
【0142】
ここで、x-1=-∞およびx=∞である。操作によって:
【0143】
【数14】
【0144】
上記の平方根を取ると、σ(f(X))の式が得られる。
【0145】
最後の項(E[f(X)])は、上で計算された期待値式の2乗であることに注意されたい。
【0146】
区分的望ましさ関数を通じて平均と不確実性を計算するための分析的解決策が見つかった。重要なのは、方程式をベクトル化できる、すなわち、X個のN次元の正規ベクトル(一つだけではなくN個の正規分布変数)に対して当てはまることである。これは、ベクトル化された演算(例えば、加算、乗算、べき乗など)がハードウェアアクセラレーションの恩恵を受け、計算が非常に高速になるため、重要である。
【0147】
図4は、生物学的特性が既知である集団からの化合物、すなわちトレーニングセット内の化合物を使用してトレーニングされたMLモデル、すなわちベイズ統計モデルに、集団内の化合物または分子がどのように供給されるかを概略的に示している。本発明の多目的の問題では、前記ベイズ統計モデルは、事後確率分布の形式で(それぞれの目的に対応する)複数の予測を出力する可能性がある。次に、生成された予測に関連する不確実性の尺度を維持しながら、たとえば予測に選好を導入するために、効用関数または値をそれぞれの予測に適用することができる。次に、予測に関連する不確実性を維持しながら、予測の次元を単一の次元に削減するために、集約関数または値を前記(選好修正)予測に適用することができる。次に、前記集約された予測は、合成用の化合物を選択するために、一次元獲得関数(任意に、モデルの活用と探索の望ましいバランスに応じたユーザー定義の重み付けを含む)を使用して最適化できる。
【0148】
図5は、本発明によるコンピュータによる薬剤設計方法50の工程を要約したものである。工程51では、複数の化合物の集団が定義され、各化合物は一つ以上の構造的特徴を有する。工程52で、化合物のトレーニングセットが定義される。特に、トレーニングセットには、複数の生物学的特性が知られている集団からのもの、例えば、以前に合成され試験された化合物が含まれる。工程53で、複数の目的が定義される。特に、各目的は、(検討中の特定の創薬プロジェクトについて)理想/候補化合物によって示される生物学的特性を示すか、または定義する。工程54で、ベイズ統計モデル、例えばガウス過程モデルが、化合物のトレーニングセットを使用してトレーニングされる。次に、ベイズ統計モデルが実行され、集団内の化合物の構造的特徴の目的関数として、集団内の化合物の生物学的特性を近似する事後確率分布が出力される。事後確率分布は、複数の事後確率分布、例えば、複数の目的のそれぞれに対応する一つの事後確率分布であってよい。工程55で、複数の化合物のサブセットが決定される。特に、サブセットには、トレーニングセットに含まれていない集団からの化合物が含まれる。具体的には、サブセットは、トレーニングされたベイズ統計モデルからの確率分布と定義された複数の目的に基づく獲得関数の最適化に従って決定される(すなわち、複数の目的を同時に最適化するため)。すなわち、最適化プロファイルに最も適合する化合物(理想的な化合物など)が選択される。サブセットは、モデルの実行と獲得関数の最適化工程を複数回繰り返して、サブセットに対して一度に一つの化合物を連続的に選択し、工程が繰り返されるたびにモデルを再トレーニングすることによって選択できる(トレーニング工程の目的で、これまでに選択された化合物に偽のラベルを使用)。任意に、獲得関数を適用する前に、生成された事後確率分布に一つ以上の効用関数を適用して、目的に関するユーザーの選好をモデル予測に導入することができる。任意に、獲得関数を適用する前に、一つ以上の集約関数を適用して、生成されたモデル予測の次元を削減することができる。次いで、決定されたサブセット内の化合物の少なくともいくつかが、合成および試験のために選択され得る。これらの合成された化合物は、次に、方法50の次の実行のために、例えば検討中の創薬プロジェクトの後続の設計サイクルにおいて、トレーニングセットに加えられ得る。
【0149】
本発明の方法は、例えば一つ以上のコンピュータプロセッサ上に実装された一つ以上の機能ユニットまたはモジュールによって、任意の適切なコンピューティングデバイス上で実装することができる。このような機能ユニットは、従来のまたは顧客のプロセッサおよびメモリを使用する任意の適切なコンピューティング基板上で実行される適切なソフトウェアによって提供され得る。一つ以上の機能ユニットは、共通のコンピューティング基板(たとえば、同じサーバ上で実行することができる)または別個の基板を使用することができ、または一方または両方自体が複数のコンピューティングデバイス間で分散されることもできる。コンピュータメモリは、前記方法を実行するための命令を記憶することができ、プロセッサは、記憶された命令を実行して方法を実行することができる。
【0150】
ここで、説明したガウス過程モデルと標準的なランダムフォレストとの比較を概説し、説明する。既知の生物学的活性PXC50(特にhERG活性)を持つ14620個の分子のセットが定義される。データセットの統計を表1に示す。
【0151】
【表1】
【0152】
データセットの最初の2000個の分子は、モデルをトレーニングするためのトレーニングデータとして使用される(ガウス過程モデルについて上で説明した方法で)。次に、データセット内の残りの分子を使用して、各モデルのパフォーマンスが評価される。ガウス過程モデルに使用されるカーネルはジャッカードカーネルであり、フィンガープリント間のジャッカード(またはタニモト)距離を使用する。
【0153】
図6は、データセット内の分子の実際の既知の生物学的活性を、トレーニングされたガウス過程およびランダムフォレストモデルによって予測された活性と比較している。特に、図6(a)は、各分子のガウス過程モデルによって予測された値に対する実際の活性値の散布図を示している。各ドット(分子を表す)には、ガウス過程モデルの分散に対する依存度が関連付けられている。同様に、図6(b)は、ランダムフォレストモデルによって予測された値に対する実際のアクティビティ値のプロットを示し、図6(c)は、ランダムフォレストモデルとガウス過程モデルから得られた予測アクティビティを比較したプロットを示す。
【0154】
ガウス過程モデルの分散しきい値を調整して、モデルの確実性が正確な予測とどのように相関するかを示すことができる。たとえば、モデルは、分散の異なる上限閾値、たとえば1,0.75,0.6,0.5,0.4またはその他の適切な値を使用して実行できる。図7(a)は、分散しきい値を0.5に設定したガウス過程モデルによって予測された値に対する実際のアクティビティ値の散布図を示している。比較のために、図7(b)は、図7(a)でフィルタリングされた分子のランダムフォレストモデルによって予測された値に対する実際の活性値の散布図を示している。最後に、図8は、ガウス過程モデルの平均二乗誤差(MSE)と分散がモデルの確実性に応じてどのように変化するかをプロットしたものである。
【0155】
既知の分子セットに対して上記のベイズ最適化アプローチを使用して複数の最適化サイクルをシミュレートし、それらをベンチマークするさらなる例について説明する。図9は、ベンチマークを実行するための主な工程またはモジュールを概略的に示している。初期状態または段階では、シミュレーションをカスタマイズするためのパラメータが、たとえばユーザーによって設定される。このようなパラメータには、獲得関数、バッチサイズなどが含まれる。モデルにとって既知の分子と、モデルが選択できる未知の分子が設定される。複数の特性または目的も設定される。バッチ最適化実行ステージでは、分子のバッチを選択するために単一の最適化工程が(前述のように)実行される。次に、さらなる最適化工程を実行する前に、選択したバッチを正しいラベルを持つモデルにフィードすることによってモデルが再トレーニングされる。出力には、選択されたすべての分子、および/またはモデル予測に関連するさまざまなログ/メトリクスを含めることができる。
【0156】
既知の分子の一つのセットは、Pickettらの(2011)「Automated lead optimization of MMP-12 inhibitors using a genetic algorithm」,ACS Medicinal Chemistry Letters,2(1),28-33に示されている2500個の化合物のデータセットである。このデータセットは、2つのRグループを持つコアを選択することによって生成された。コアは固定されており、各Rグループは基本的にプレースホルダーであり、そのコアを含む2500の組み合わせを得るために、それぞれ50の異なる分子構造が対応する。これらの組み合わせのうち、合成に成功し、アッセイで試験され、plC50値が得られたのは1,880分子のみであった。したがって、検出されたplC50値を最大化することを目的として、アクティブ/マシンラーニングモデル(上記のものなど)または化学者によって複数の合成サイクルがシミュレートされる場合がある。
【0157】
一つの実験では、多くの化学者に同じ最初の14化合物とそれに関連するplC50値が与えられた。この情報をもとに、化学者らは14種類の化合物からなる別のバッチを選択する任務を負い、それらについては関連するplC50値が提供される。このプロセスは10バッチ(反復)継続され、合計140個の選択された化合物と14個の初期化合物が得られた。次に、最大のplC50値を持つ化合物が見つかったかどうか、選択した化合物の平均plC50値、および選択した上位N個の化合物に基づいて、各化学者のパフォーマンスが評価された。説明されているガウス過程モデルは、同じ実験をシミュレートするために使用された。特に、前記モデルは、提供されたトレーニングデータ(すなわち、既知のplC50値)に基づいてトレーニングされた。ベイズ最適化アルゴリズムは、目的を最適化する(すなわち、plC50値を最大化する)化合物のバッチを選択した。次に、選択した化合物を含むようにトレーニングセットが更新され、モデルが再トレーニングされ、最適化が再度実行された。このアクティブラーニングアプローチの結果と最も成績の良い化学者の結果との比較を表2に示す。
【0158】
【表2】
【0159】
説明したガウス過程モデルを使用して得られた結果を示すもう一つの例を説明する。前記例は、既知のChEMBLおよびGoStarデータベースの分子を使用して実行される。一般的なアプローチは、比較的小さい初期生成の分子(トレーニングセット)を提供し、このトレーニングセットに基づいてMLモデルを構築することである。次に、記載された方法によるバッチベイズ最適化が実行され、関連する特性の活性データを含むすべての分子のセットから、一連のターゲットに対する活性を最適化する分子のセットが選択される。前記モデルは、選択したセットからの新しいデータを使用して再トレーニングされる。このプロセスは、多数のサイクルまたは反復で繰り返される。
【0160】
この記載された例では、CYP3A4(UniProt ID P08684)およびCYP1A2(UniProt ID P05177)の少なくとも一方についての活性データを含む13403個の分子が上記のデータベースから抽出される。CYP3A4(シトクロムP450 3A4)は体内の酵素で、肝臓や腸によく見られ、毒素を酸化して体から除去する。CYP1A2(シトクロムP450 1A2)も小胞体に局在する体内の酵素である。10個の分子からなるランダムな初期セットが取得され、各CYP(すなわち、各生物学的特性)のモデルが構築/トレーニングされる。次に、図5のベイズ最適化アプローチが10ラウンドまたは反復実行され、各反復で残りの13393個の分子から20個の分子が選択される。各ラウンドの後、選択された各分子の(既知の)データが明らかになり、モデルの再トレーニング/更新に使用される。データベース内の一部の分子には両CYP用のデータがないが、これは、モデルが各ラウンドまたは反復で受け取るデータが少なくなる可能性があることを意味している。
【0161】
図10(a)は、13403個の分子のセットまたは集団におけるCYP3A4活性値の分布を示すプロットを示している。特に、図10(a)は、これらの13403個の分子を、初期トレーニングセットの8個の分子、反復最適化中に選択された127個の分子、および残りのまたは未知の13268個の分子に分類したことを示している。上で述べたように、データベース内の一部の分子は、CYPの一つについてのみ既知のデータを持っている。この場合、最初のトレーニングセットとして10個の分子が選択されているが、そのうち8個だけがCYP3A4データを持っている。図10(b)は、図10(a)よりも明確に見ることができる、図10(a)および上記で説明したトレーニングセットおよび選択セットにおける分子のCYP3A4活性値の分布を示すプロットを示す。
【0162】
図11(a)および11(b)は、それぞれ図10(a)および10(b)に対応するプロットを示しているが、CYP3A4の代わりにCYP1A2活性値の分布を示している。この場合、モデルのトレーニング用に最初に選択された10個の分子のうち4個だけがCYP1A2データを利用できる。利用可能なCYP1A2データを持つ104個の分子が、30回の反復にわたって選択された。
【0163】
全体として、ランダム選択(データ分布の分析)と比較した場合、および本明細書に記載の方法によるアクティブラーニングを使用しないベースラインと比較した場合の両方で、選択された化合物には比較的大きな活性の濃縮が見られる。上で概要を示したターゲットに対して、(10個の初期データポイントから)それぞれ4つと8つの値のみが使用されていることを考えると、これらの結果は特に有望である。
【0164】
図12は、これらの値の両方が利用可能なセット内の分子のCYP3A4およびCYP1A2の活性値のプロットを示している、すなわち、両方がChEMBL+GoStarで測定される。図12は、説明した方法の反復を実行するときにこれらの分子のうちどの分子が選択されたか(「真実(True)」)、残りの分子は選択されていない(「偽り(False)」)ことも示している。パレートフロンティアがプロットの右上にある(活性値が最大化される)ため、集団内の約13000分子のうち約200分子だけが選択されているとしても、選択された分子のセットにおいて、パレートフロンティアに非常に近いことが達成されることが分かり得る。
【0165】
記載された方法を示すさらなる例が、自由エネルギー摂動計算に関して提供される。1921個の分子のデータセットおよび対応する相対結合自由エネルギー(RBFE)の計算は、「Reaction-Based Enumeration, Active Learning, and Free Energy Calculations to Rapidly Explore Synthetically Tractable Chemical Space and Optimize Potency of Cylin-Dependent Kinase 2 Inhibitors」(Konzeら、J.Chem.Inf.Model.,2019,59,9,3782-3793)から抽出される。この例は、引用された参考文献からの935個の分子の初期トレーニングセットから始まり、次に本明細書に記載の方法の30ラウンドまたは反復が実行され、各ラウンドで10個の分子が選択される。この目的は、「Pred dG(kcal/mol)」として測定されるRBFE計算結果を最小化することである。
【0166】
図13は、データセット内の分子のRBFE値の分布を示すプロットを示している。特に、図13は、最初のトレーニングセット内の935個の分子(「トレーニング」)、説明した方法の反復を実行するときに選択された分子(「選択済み」)、およびデータセット内の残りの分子(「不明」)を区別している。各バーの下部セクションは「トレーニング」分子を示し、各バーの中央セクションは「選択された」分子を示し、各バーの上部は「未知」分子を示す。
【0167】
図14(a)は、最適な選択、すなわち、最も低いdG値を有する選択された分子を選択することによる累積RBFE値が、記載された方法の連続反復によってどのように変化するかを示すプロットを示す(「累積Pred dG」)。これは、最適に選択されたセット(「可能な限り最善のPred dG」)およびランダムに選択されたセットと比較される。次に、図14(b)は、説明した方法を30回繰り返した後の図14(a)で選択された分子のうち、RBFE値の最小化に従ってデータセット内の分子の上位xに含まれる分子のパーセンテージをプロットしたものである。たとえば、x=10の場合、最低のdG分子の80%が30回の反復の終了時に見つかった。x=1の場合、100%の結果は、最も低いdG分子が選択されたことを意味する。
【0168】
図15(a)は、図14(a)のプロットを示しているが、ただし、図15(a)は、説明した方法で選択されたセットの代わりに、貪欲に選択されたセットをランダムフォレストモデルで示した結果を示している。図15(b)は、RBFE値の最小化に従って試験セット内の分子の上位xに入るランダムフォレストモデルの30回の反復後の図14(a)で選択された分子のパーセンテージのプロットを示す。
【0169】
上記の例では、説明したベイズ統計アプローチを実行するためのガウス過程モデルの使用について説明しているが、異なるベイズモデルアーキテクチャを使用することもできる。例えば、ベイズニューラルネットワークの形態のベイズ統計モデル、または不確実性推定を提供するドロップアウトを備えたディープニューラルネットワークが、本発明の例で使用され得る。さらに、任意の一般的なアーキテクチャのモデルアンサンブルを使用できることが理解されるであろう。
【0170】
上記の例では、例えば創薬プロセスの一部として、合成のために集団から化合物または分子を選択するためのベイズ統計モデルの使用について説明している。本発明の例では、記載されたベイズ統計的アプローチを使用して選択された化合物または分子は、異なる目的に使用され得る。例えば、記載されたアプローチは、分子動力学解析を実行する分子を集団から選択するために使用され得る。特定の物理ベースのシミュレーションの実行はリソースを大量に消費する場合があり、たとえば、時間がかかる、および/または高いコンピュータ処理能力を必要とするため、コンピューティングリソースを、コンピューティングリソースのレベルが利用可能として、特定の分子動力学に関する洞察を最大化する態様で割り当てる必要がある場合がある。
【0171】
添付の条項および特許請求の範囲を特に参照して本明細書で定義される本発明の精神および範囲から逸脱することなく、上述の例に対して多くの修正を加えることができる。
【0172】
[条項]
(条項1)
コンピュータによる薬剤設計のための方法であって:
各化合物が一つ以上の構造的特徴を有する複数の化合物の集団を定義する工程;
複数の特性が知られている前記集団から化合物のトレーニングセットを定義する工程;
各々が所望の特性を定義している複数の目的を定義する工程;
化合物の前記トレーニングセットを用いて、ベイズ統計モデルをトレーニングして、前記集団内の前記化合物の構造的特徴の目的関数として前記集団内の化合物の特性を近似する確率分布を出力する工程;
前記トレーニングセットに含まれない前記集団から複数の化合物のサブセットを決定する工程であって、前記サブセットが、前記トレーニングされたベイズ統計モデルからの前記確率分布に基づくと共に前記定義された複数の目的に基づく獲得関数の最適化に従って決定されるものである工程;および、
合成のために前記決定されたサブセット内の前記化合物の少なくとも一部を選択する工程;を含んでなる方法。
【0173】
(条項2)
前記目的のうちの一つ以上について、それぞれの効用関数を前記ベイズ統計モデルからの前記確率分布に適用することによって、前記それぞれの目的の前記特性に関連する選好をマッピングして、選好修正確率分布を得ることを含んでなり、前記獲得関数の最適化が前記選好修正確率分布に基づくものである、条項1に記載の方法。
【0174】
(条項3)
前記選好が、前記複数の目的のうちの他のものに対する前記それぞれの目的の優先度を示している、条項2に記載の方法。
【0175】
(条項4)
前記化合物のうちの一つの前記特性の一つについて、前記特性についての前記確率分布に関連する不確実性値が低いほど、前記それぞれの特性に関連する前記選好が大きくなる、条項2または条項3に記載の方法。
【0176】
(条項5)
前記選好が、ユーザーにより定義された選好である、条項2~4のいずれかに記載の方法。
【0177】
(条項6)
前記効用関数のうちの一つ以上が区分的関数である、条項2~5のいずれかに記載の方法。
【0178】
(条項7)
前記区分的関数は区分的線形関数である、条項6に記載の方法。
【0179】
(条項8)
前記獲得関数の最適化が、前記集団内の各化合物について前記獲得関数を評価することを含み、任意に、前記トレーニングセット内の前記化合物を除外することを含み、また、前記サブセットが、前記評価された獲得関数値に基づいて決定されるものである、先の条項のいずれかに記載の方法。
【0180】
(条項9)
前記定義された複数の目的に基づく前記獲得関数の前記最適化が、パレート最適化合物セットを提供し、また、前記決定されたサブセットについての前記複数の化合物のうちの一つ以上が、前記パレート最適セットから選択されるものである、先の条項のいずれかに記載の方法。
【0181】
(条項10)
前記パレート最適セットからの選択が、ユーザーにより定義された選好に従うものである、条項9に記載の方法。
【0182】
(条項11)
前記ベイズ統計モデルからの前記確率分布が、前記複数の目的のそれぞれの一つに関連する各特性についての確率分布を含む、先の条項のいずれかに記載の方法。
【0183】
(条項12)
集約関数を前記複数の確率分布に適用することによって、前記ベイズ統計モデルからの前記複数の確率分布を一次元集約確率分布にマッピングすることを含んでなり、前記獲得関数の最適化が、前記集約確率分布に基づくものである、条項11に記載の方法。
【0184】
(条項13)
前記集約関数が:和演算子;平均演算子;および積演算子;のうちの一つ以上を含む、条項12に記載の方法。
【0185】
(条項14)
前記獲得関数が:期待改善関数;改善確率関数;および信頼限界関数;のうちの少なくとも一つである、先の条項のいずれかに記載の方法。
【0186】
(条項15)
前記獲得関数が多次元獲得関数であり、各次元が前記複数の目的のうちのそれぞれの目的に対応し;任意に、前記多次元獲得関数がハイパーボリューム期待改善関数である、条項1~11のいずれかに記載の方法。
【0187】
(条項16)
前記ベイズ統計モデルをトレーニングすることが、前記ベイズ統計モデルの複数のハイパーパラメータを調整することを含み、前記ハイパーパラメータを調整することが、最大尤度推定技術と交差検証技術との組み合わせの適用を含む、先の条項のいずれかに記載の方法。
【0188】
(条項17)
前記複数の化合物の前記サブセットを決定する工程が:
前記トレーニングされたベイズ統計モデルからの前記確率分布に基づくと共に前記定義された複数の目的に基づいて前記獲得関数を最適化することにより、前記トレーニングセットに含まれない前記集団から一つの化合物を識別することを含み、また、
前記サブセットのために前記複数の化合物が識別されるまで、
前記トレーニングセットの化合物および前記一つ以上の識別された化合物を用いて前記ベイズ統計モデルを再トレーニングする工程と、
前記再トレーニングされたベイズ統計モデルからの前記確率分布に基づくと共に前記定義された複数の目的に基づいて前記獲得関数を最適化することにより、前記トレーニングセットに含まれない前記集団からの一つの化合物であって前記一つ以上の先に識別された化合物ではないものを識別する工程とを、繰り返すことを含んでなる、先の条項のいずれかに記載の方法。
【0189】
(条項18)
前記ベイズ統計モデルを再トレーニングすることが、前記ベイズ統計モデルにおいて前記一つ以上の識別された化合物に対して一つ以上の偽の特性値を設定することを含む、条項17に記載の方法。
【0190】
(条項19)
前記偽の特性値が:クリギングビリーバーアプローチ;およびコンスタントライアーアプローチ;のうちの一つに従って設定される、条項18に記載の方法。
【0191】
(条項20)
前記ベイズ統計モデルにおいて、各化合物がビットベクトルとして表され、前記ビットベクトルのビットが前記化合物におけるそれぞれの構造的特徴の有無を示している、先の条項のいずれかに記載の方法。
【0192】
(条項21)
前記ベイズ統計モデルがガウス過程モデルである、先の条項のいずれかに記載の方法。
【0193】
(条項22)
前記トレーニングされたベイズ統計モデルからの前記確率分布が、前記集団内の化合物の近似特性値を示す事後平均と、前記集団内の前記近似特性値に関連する不確実性を示す事後分散とを含む、先の条項のいずれかに記載の方法。
【0194】
(条項23)
前記獲得関数の一つ以上の重み付けパラメータが、前記概説された方法を利用する薬剤設計プロセスの所望の戦略に従って修正される、先の条項のいずれかに記載の方法。
【0195】
(条項24)
前記所望の戦略が、前記事後平均に関連する前記獲得関数の重み付けパラメータに依存する活用戦略と、前記事後分散に関連する前記獲得関数の重み付けパラメータに依存する探索戦略との間のバランスを含む、条項23に記載の方法。
【0196】
(条項25)
前記重み付けパラメータが、所望の戦略を設定するようにユーザーにより定義される、条項23または条項24に記載の方法。
【0197】
(条項26)
前記ベイズ統計モデルが、前記集団内の化合物の対間の類似性を示すカーネルを使用して前記化合物の前記生物学的特性を近似する、先の条項のいずれかに記載の方法。
【0198】
(条項27)
前記カーネルがタニモト類似性カーネルである、条項27に記載の方法。
【0199】
(条項28)
前記決定されたサブセットの前記選択された化合物の少なくとも一部を合成して、前記選択された化合物の少なくとも一つの特性を決定することを含む、先の条項のいずれかに記載の方法。
【0200】
(条項29)
前記合成された化合物を前記トレーニングセットに加えて、更新されたトレーニングセットを得ることを含む、条項28に記載の方法。
【0201】
(条項30)
前記更新された化合物のトレーニングセットを用いて、更新されたベイズ統計モデルをトレーニングして、前記目的関数を近似する前記確率分布を出力する工程;
前記更新されたトレーニングセットに含まれない前記集団からの複数の化合物の新しいサブセットを決定する工程であって、前記新しいサブセットが、前記更新されたベイズ統計モデルからの前記近似特性に基づくと共に前記定義された複数の目的に基づく前記獲得関数の最適化に従って決定されるものである工程;および
前記決定された新しいサブセット内の前記化合物の少なくとも一部を合成のために選択する工程;を含む、条項29に記載の方法。
【0202】
(条項31)
前記決定された新しいサブセットの前記選択された化合物を合成して、前記選択された化合物の少なくとも一つの特性を決定することを含む、条項30に記載の方法。
【0203】
(条項32)
前記合成された化合物を加えることによって前記トレーニングセットを更新することを含む、条項31に記載の方法。
【0204】
(条項33)
前記更新された化合物のトレーニングセットを用いて、更新されたベイズ統計モデルをトレーニングして、前記目的関数を近似する前記確率分布を出力する工程;
前記更新されたトレーニングセットに含まれない前記集団からの複数の化合物の新しいサブセットを決定する工程であって、前記新しいサブセットが、前記更新されたベイズ統計モデルからの前記近似特性に基づくと共に前記定義された複数の目的に基づく前記獲得関数の最適化に従って決定されるものである工程;
前記決定された新しいサブセット内の前記化合物の少なくとも一部を合成のために選択する工程;
前記決定されたサブセットの前記選択された化合物を合成して、前記選択された化合物の少なくとも一つの特性を決定する工程;および、
前記合成された化合物を前記トレーニングセットに加えて更新されたトレーニングセットを得る工程;を、停止条件が満たされるまで、反復的に実行することを含む、条項29~32のいずれかに記載の方法。
【0205】
(条項34)
前記停止条件が:前記合成化合物のうちの一つ以上が前記複数の目的を達成すること;前記合成化合物のうちの一つ以上が前記それぞれの複数の目的の許容閾値内にあること;および、最大回数の反復が実行されたこと;のうちの少なくとも一つを含む、条項33に記載の方法。
【0206】
(条項35)
前記複数の目的を達成する、または前記それぞれの複数の目的の許容閾値内にある合成された化合物が、所定の標的分子に対する所望の生物学的、生化学的、生理学的および/または薬理学的活性を有する候補薬剤または治療分子である、条項28~34のいずれかに記載の方法。
【0207】
(条項36)
前記所定の標的分子が、インビトロおよび/またはインビボの治療、診断、または実験アッセイ標的である、条項35に記載の方法。
【0208】
(条項37)
前記候補薬剤または治療分子が、医学において使用するためのものである;例えば、ヒトまたは非ヒト動物のような動物の治療のための方法において使用するためのものである、条項35または条項36に記載の方法。
【0209】
(条項38)
前記目的の各々がユーザーにより定義される、先の条項のいずれかに記載の方法。
【0210】
(条項39)
前記目的の各々が:前記それぞれの特性についての所望の値;前記それぞれの特性についての所望の範囲の値;および、最大化または最小化される前記それぞれの特性についての所望の値;のうちの少なくとも一つを含む、先の条項のいずれかに記載の方法。
【0211】
(条項40)
前記選択されたサブセット内の化合物の数がユーザーにより定義される、先の条項のいずれかに記載の方法。
【0212】
(条項41)
前記集団内の前記複数の化合物の各々の前記構造的特徴が、前記化合物中に存在するフラグメント、化学部分または化学基に対応する、先の条項のいずれかに記載の方法。
【0213】
(条項42)
前記複数の化合物の各々に存在する前記フラグメント、化学部分または化学基が、分子フィンガープリントとして表され;任意に、前記分子フィンガープリントが拡張接続フィンガープリント(ECFP)であり、任意に、ECFP0,ECFP2,ECFP4,ECFP6,ECFP8,ECFP10またはECFP12である、条項41に記載の方法。
【0214】
(条項43)
前記特性または少なくとも一つの特性が、前記化合物の各々の生物学的、生化学的、化学的、生物物理学的、生理学的および/または薬理学的特性である、先の条項のいずれかに記載の方法。
【0215】
(条項44)
前記特性が:活性;選択性;毒性;吸収;分布;代謝;および排泄;のうちの一つ以上を含む、先の条項のいずれかに記載の方法。
【0216】
(条項45)
先の条項のいずれかに記載の方法により識別された化合物。
【0217】
(条項46)
コンピュータプロセッサによって実行されるときに、前記コンピュータプロセッサに条項1~44項のいずれかに記載の方法を実行させる命令を記憶する非一時的コンピュータ可読記憶媒体。
【0218】
(条項47)
コンピュータによる薬剤設計のためのコンピューティングデバイスであって:
各々の化合物が一つ以上の構造的特徴を有している複数の化合物の集団を示すデータを受け取り、複数の特性が知られている前記集団からの化合物のトレーニングセットを示すデータを受け取り、および各々が所望の特性を定義している複数の目的を示すデータを受け取るように構成されているインプット部;
前記化合物のトレーニングセットを用いて、ベイズ統計モデルをトレーニングして、前記集団内の前記化合物の構造的特徴の目的関数として前記集団内の化合物の特性を近似する確率分布を提供するように構成されると共に、前記トレーニングセットに含まれない前記集団からの複数の化合物のサブセットを決定するように構成されているプロセッサであって、前記サブセットが、前記トレーニングされたベイズ統計モデルからの前記確率分布に基づくと共に前記定義された複数の目的に基づく獲得関数の最適化に従って決定されるものであるプロセッサ;および
前記決定されたサブセットを出力するように構成されているアウトプット部;を含んでなり、任意に、前記決定されたサブセット内の前記化合物の少なくとも一部を合成のために選択するように構成されているコンピューティングデバイス。
【0219】
(条項48)
前記プロセッサが、条項1~44のいずれかに記載の方法の前記工程の少なくとも一部を実行するようにコンピュータ可読コードを読み取るように構成されている、条項47に記載のコンピューティングデバイス。
【0220】
(条項49)
コンピュータによる薬剤設計のための方法であって:
各化合物が一つ以上の構造的特徴を有する複数の化合物の集団を定義する工程;
複数の特性が知られている前記集団から化合物のトレーニングセットを定義する工程;
各々が所望の特性を定義している複数の目的を定義する工程;
化合物の前記トレーニングセットを用いて、ベイズ統計モデルをトレーニングして、前記集団内の前記化合物の構造的特徴の目的関数として前記集団内の化合物の特性を近似する確率分布を出力する工程;
前記トレーニングセットに含まれない前記集団からの複数の化合物のサブセットを決定する工程であって、前記サブセットが、前記トレーニングされたベイズ統計モデルからの前記確率分布に基づくと共に前記定義された複数の目的に基づく獲得関数の最適化に従って決定されるものである工程;および
前記決定されたサブセット内の前記化合物の少なくとも一部を選択して、分子動力学分析を実行する工程;を含む方法。
【0221】
(条項50)
前記選択された化合物に基づいて前記分子動力学分析を実行することを含む、条項49に記載の方法。
図1
図2-1】
図2-2】
図2-3】
図2-4】
図3
図4
図5
図6(a)】
図6(b)】
図6(c)】
図7(a)】
図7(b)】
図8
図9
図10(a)】
図10(b)】
図11(a)】
図11(b)】
図12
図13
図14(a)】
図14(b)】
図15(a)】
図15(b)】
【国際調査報告】