IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ サノフイの特許一覧 ▶ エコール ノルマル シュペリウールの特許一覧 ▶ ソルボンヌ・ユニヴェルシテの特許一覧 ▶ サーントル・ナショナル・ドゥ・ラ・レシェルシュ・シアンティフィクの特許一覧

<>
  • 特表-局所探索を用いた分子設計 図1
  • 特表-局所探索を用いた分子設計 図2
  • 特表-局所探索を用いた分子設計 図3
  • 特表-局所探索を用いた分子設計 図4
  • 特表-局所探索を用いた分子設計 図5
  • 特表-局所探索を用いた分子設計 図6
  • 特表-局所探索を用いた分子設計 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-01
(54)【発明の名称】局所探索を用いた分子設計
(51)【国際特許分類】
   G16C 20/50 20190101AFI20240125BHJP
【FI】
G16C20/50
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023545227
(86)(22)【出願日】2022-01-27
(85)【翻訳文提出日】2023-09-08
(86)【国際出願番号】 EP2022051953
(87)【国際公開番号】W WO2022162094
(87)【国際公開日】2022-08-04
(31)【優先権主張番号】21315009.7
(32)【優先日】2021-01-27
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】504456798
【氏名又は名称】サノフイ
【氏名又は名称原語表記】SANOFI
(71)【出願人】
【識別番号】512073725
【氏名又は名称】エコール ノルマル シュペリウール
(71)【出願人】
【識別番号】518059934
【氏名又は名称】ソルボンヌ・ユニヴェルシテ
【氏名又は名称原語表記】SORBONNE UNIVERSITE
(71)【出願人】
【識別番号】504077526
【氏名又は名称】サーントル・ナショナル・ドゥ・ラ・レシェルシュ・シアンティフィク
(74)【代理人】
【識別番号】100127926
【弁理士】
【氏名又は名称】結田 純次
(74)【代理人】
【識別番号】100140132
【弁理士】
【氏名又は名称】竹林 則幸
(74)【代理人】
【識別番号】100216105
【弁理士】
【氏名又は名称】守安 智
(72)【発明者】
【氏名】マクシム・ランジュヴァン
(57)【要約】
本明細書は、メモリネットワークを用いて、潜在的な医薬分子を生成するためのシステムおよび方法に関する。本明細書の第1の態様によれば、分子のアナログを生成するコンピュータ実装方法が記載される。この方法は:1つまたはそれ以上の初期分子構造を受信することと;1つまたはそれ以上の初期分子構造の各々について、各トークン列表現が、対応する初期分子構造のアナログに対応する、トークン列表現のうちの1つまたはそれ以上を生成することとを含む。アナログのトークン列表現を生成することは、さらなるトークン列表現ごとに:メモリネットワークを用いて、対応する初期分子構造のサブ構造のトークン列表現を順次処理することと;サブ構造のトークン列表現の処理に後続して、メモリネットワークを用いて、1つまたはそれ以上の追加のトークンをサンプリングすることとを含む。トークン列表現は各々、分子の所定の構造を表す複数のトークンを含む。メモリネットワークは、メモリネットワークの内部状態を用いてトークンにおける順次確率分布を符号化する。
【選択図】図1
【特許請求の範囲】
【請求項1】
分子のアナログを生成するコンピュータ実装方法であって:
1つまたはそれ以上の初期分子構造を受信することと;
1つまたはそれ以上の初期分子構造の各々について、各トークン列表現が、対応する初期分子構造のアナログに対応する、トークン列表現のうちの1つまたはそれ以上を生成することと
を含み、該生成することは、さらなるトークン列表現ごとに;
メモリネットワークを用いて、対応する初期分子構造のサブ構造のトークン列表現を順次処理すること;および
サブ構造のトークン列表現の処理に後続して、メモリネットワークを用いて、1つまたはそれ以上の追加のトークンをサンプリングすること
を含み、
トークン列表現は各々、分子の所定の構造を表す複数のトークンを含み;
メモリネットワークは、該メモリネットワークの内部状態を用いてトークンにおける順次確率分布を符号化する、前記コンピュータ実装方法。
【請求項2】
対応する初期分子構造のサブ構造のトークン列表現を順次処理することは:
対応する初期分子構造における開始位置を選択することと;
トラバース規則を用いて開始位置から対応する初期分子構造をトラバースし、該対応する初期分子構造のトークン列表現を生成することと;
対応する初期分子構造のトークン列表現からトークンのシーケンスを取得することによって、該対応する初期分子構造のサブ構造のトークン列表現を生成することであって、トークンのシーケンスは、開始位置に対応する第1のトークンにおいて開始することと
を含む、請求項1に記載の方法。
【請求項3】
対応する初期分子構造のサブ構造のトークン列表現を順次処理することは:
対応する初期分子構造における開始位置を選択することと;
トラバース規則を用いて、複数のステップの開始位置から対応する初期分子構造をトラバースし、該対応する初期分子構造のサブ構造のトークン列表現に対応するトークンのシーケンスを生成することと
を含む、請求項1または2に記載の方法。
【請求項4】
トークンのシーケンスの長さは、サブ構造サイズにわたる所定の分布から選択され;トラバース規則は、選択規則を用いて、複数の有効なトラバース規則から選択され;および/または開始位置は、第1の分子構造におけるランダムに選択された原子である、請求項2または3に記載の方法。
【請求項5】
対応する初期分子構造のサブ構造のトークン列表現を順次処理することは、サブ構造のトークン列表現をメモリネットワークに順次読み込むことを含み、メモリネットワークの内部状態は、サブ構造のトークン列表現の各トークンが読み込まれた後に更新され;
メモリネットワークを用いて1つまたはそれ以上の追加のトークンをサンプリングすることは、各追加のトークンがサンプリングされた後にメモリネットワークの内部状態を更新することを含む、請求項1~4のいずれか1項に記載の方法。
【請求項6】
1つまたはそれ以上のさらなるトークンは、列トークンの終了がサンプリングされるまで、および/または列サイズ制限に達するまでサンプリングされる、請求項5に記載の方法。
【請求項7】
1つまたはそれ以上の初期分子構造を受信することは、メモリネットワークを用いて初期分子構造の1つまたはそれ以上のトークン列表現を生成することを含む、請求項1~6のいずれか1項に記載の方法。
【請求項8】
潜在的に生物学的または医学的に活性の分子を生成するコンピュータ実装方法であって:
請求項1~7のいずれか1項に記載の方法を用いて、1つまたはそれ以上の初期分子構造および該初期分子構造の複数のアナログを生成することと;
目的関数を用いて、生成された初期分子構造および該初期分子構造のアナログの各々についてスコアを決定することと;
初期分子構造および該初期分子構造のアナログのスコアのうちの1つまたはそれ以上に基づいてメモリネットワークのパラメータを更新することと;
更新されたパラメータを有するメモリネットワークに基づいて、潜在的に生物学的または医学的に活性の分子の1つまたはそれ以上のトークン列表現を出力することと
を含む前記コンピュータ実装方法。
【請求項9】
さらなる分子構造について目的関数の値のうちの1つまたはそれ以上に基づいてメモリネットワークのパラメータを更新することは:
決定されたスコアに基づいて初期分子構造および該初期分子構造のアナログを順序付けすることによって、分子構造の順序付けされたリストを生成することと;
分子構造の順序付けされたリストにおける所定の数の最高スコアの分子構造に基づいて、メモリネットワークのパラメータを更新することと
を含む、請求項8に記載の方法。
【請求項10】
トークン列表現は、SMILES表現であるか、または1文字もしくは3文字アミノ酸表現を含む、請求項1~9のいずれか1項に記載の方法。
【請求項11】
潜在的な生物学的または医学的に活性の分子を合成する方法であって:
請求項1~10のいずれか1項に記載の方法を用いて潜在的な生物学的または医学的に活性の分子の構造を生成することと;
生成された構造に基づいて、潜在的な生物学的または医学的に活性の分子を合成することと
を含む、前記方法。
【請求項12】
請求項1~11のいずれか1項に記載の方法を用いて生成または合成された生物学的または医学的に活性の分子。
【請求項13】
請求項12に記載の少なくとも1つの生物学的または医学的に活性の分子を含む薬物。
【請求項14】
1つまたはそれ以上のプロセッサおよびメモリを含むシステムであって、該メモリは、1つまたはそれ以上のプロセッサによって実行されると、システムに、請求項1~11のいずれか1項に記載の方法を実行させるコンピュータ可読命令を含む、前記システム。
【請求項15】
コンピューティングシステムによって実行されると、該コンピューティングシステムに、請求項1~11のいずれか1項に記載の方法を実行させるコンピュータ可読コードを含むコンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書は、メモリネットワークを用いて、潜在的な医薬分子を生成するためのシステムおよび方法に関する。
【背景技術】
【0002】
新たな薬物を見つけることは、長く、コストがかかる困難な問題であり、薬物発見パイプライン全体に沿って潜在的失敗が存在し、全体的な成功率はわずか4%近くである。医薬品化学が生体活性分子を潜在的薬物に微細化するリード最適化は、発見パイプラインにおける時間およびコストの主要な部分を占める。良好な薬物候補を見つけることは、安全性およびADME(吸収、分布、代謝、排泄)に関するものなどの複数の基準を満たしながら、関心対象の標的において活性である分子を見つけることを必要とする。これに関して、リード最適化は、化学空間における多目的最適化問題とみなすことができる。
【0003】
薬物発見パイプラインにおけるde-novo薬物設計のための生成モデルおよびその適用に対する関心が近年高まっている。生成モデルは、2つのタイプのタスク:分布学習および目標指向学習について研究されてきた。分布学習は、生成モデルをトレーニングするために用いられる初期データセットに類似した分子の大きなライブラリをサンプリングするために、既知のデータセットの分布を再生することを目的とする。他方で、目標指向学習は、スコアリング関数を入力として取り、最も高いスコアを有する分子を見つけることを目的とする。生成モデルをリード最適化に適用することは、実際に、目標指向学習の特殊な事例として理解することができ、ここで、スコアリング関数は、分子の適切性を異なるプロジェクトの目的に反映する。モデルが薬物様分子を生成するために学習したか否か、および目標指向学習の良好な開始点となるか否かを評価するために、分布学習ベンチマークも頻繁に用いられる。
【発明の概要】
【課題を解決するための手段】
【0004】
本明細書の第1の態様によれば、分子のアナログを生成するコンピュータ実装方法が記載される。この方法は:1つまたはそれ以上の初期分子構造を受信することと;1つまたはそれ以上の初期分子構造の各々について、各トークン列表現が、対応する初期分子構造のアナログに対応する、トークン列表現のうちの1つまたはそれ以上を生成することとを含む。アナログのトークン列表現を生成することは、さらなるトークン列表現ごとに:メモリネットワークを用いて、対応する初期分子構造のサブ構造のトークン列表現を順次処理することと;サブ構造のトークン列表現の処理に後続して、メモリネットワークを用いて、1つまたはそれ以上の追加のトークンをサンプリングすることとを含む。トークン列表現は各々、分子の所定の構造を表す複数のトークンを含む。メモリネットワークは、メモリネットワークの内部状態を用いてトークンにおける順次確率分布を符号化する。
【0005】
対応する初期分子構造のサブ構造のトークン列表現を順次処理することは:対応する初期分子構造における開始位置を選択することと;トラバース規則を用いて開始位置から対応する初期分子構造をトラバースし、この対応する初期分子構造のトークン列表現を生成することと;対応する初期分子構造のトークン列表現からトークンのシーケンスを取得することによって、対応する初期分子構造のサブ構造のトークン列表現を生成することであって、トークンのシーケンスは、開始位置に対応する第1のトークンにおいて開始することとを含むことができる。
【0006】
対応する初期分子構造のサブ構造のトークン列表現を順次処理することは:対応する初期分子構造における開始位置を選択することと;トラバース規則を用いて、複数のステップの開始位置から対応する初期分子構造をトラバースし、この対応する初期分子構造のサブ構造のトークン列表現に対応するトークンのシーケンスを生成することとを含むことができる。
【0007】
トークンのシーケンスの長さは、サブ構造サイズにわたる所定の分布から選択することができる。トラバース規則は、選択規則を用いて、複数の有効なトラバース規則から選択することができる。開始位置は、第1の分子構造におけるランダムに選択された原子または構造とすることができる。
【0008】
対応する初期分子構造のサブ構造のトークン列表現を順次処理することは、サブ構造のトークン列表現をメモリネットワークに順次読み込むことを含むことができる。メモリネットワークの内部状態は、サブ構造のトークン列表現の各トークンが読み込まれた後に更新することができる。メモリネットワークを用いて1つまたはそれ以上の追加のトークンをサンプリングすることは、各追加のトークンがサンプリングされた後にメモリネットワークの内部状態を更新することを含むことができる。
【0009】
1つまたはそれ以上のさらなるトークンは、列トークンの終了がサンプリングされるまで、および/または列サイズ制限に達するまでサンプリングすることができる。
【0010】
1つまたはそれ以上の初期分子構造を受信することは、メモリネットワークを用いて初期分子構造の1つまたはそれ以上のトークン列表現を生成することを含むことができる。
【0011】
本明細書のさらなる態様によれば、潜在的に生物学的または医学的に活性の分子を生成するコンピュータ実装方法が記載される。この方法は:本明細書に記載のアナログ生成方法のうちの任意のものを用いて、1つまたはそれ以上の初期分子構造および初期分子構造の複数のアナログを生成することと;目的関数を用いて、生成された初期分子構造および初期分子構造のアナログの各々についてスコアを決定することと;初期分子構造および初期分子構造のアナログのスコアのうちの1つまたはそれ以上に基づいてメモリネットワークのパラメータを更新することと;更新されたパラメータを有するメモリネットワークに基づいて、潜在的に生物学的または医学的に活性の分子の1つまたはそれ以上のトークン列表現を出力することとを含む。
【0012】
さらなる分子構造について目的関数の値のうちの1つまたはそれ以上に基づいてメモリネットワークのパラメータを更新することは:決定されたスコアに基づいて初期分子構造および初期分子構造のアナログを順序付けすることによって、分子構造の順序付けされたリストを生成することと;分子構造の順序付けされたリストにおける所定の数の最高スコアの分子構造に基づいて、メモリネットワークのパラメータを更新することとを含むことができる。
【0013】
トークン列表現は、SMILES表現とすることができる。代替として、トークン列表現は、1文字および/または3文字アミノ酸表現とすることができる。
【0014】
本明細書のさらなる態様によれば、潜在的な生物学的または医学的に活性の分子を合成する方法が記載される。この方法は:本明細書に記載の方法のうちの任意のものを用いて潜在的な生物学的または医学的に活性の分子の構造を生成することと;生成された構造に基づいて、潜在的な生物学的または医学的に活性の分子を合成することとを含む。
【0015】
本明細書のさらなる態様によれば、本明細書に記載の方法のうちの任意のものに基づいて生成または合成された生物学的または医学的に活性の分子が記載される。
【0016】
本明細書のさらなる態様によれば、本明細書に記載の方法のうちの任意のものに基づいて合成される少なくとも1つの生物学的または医学的に活性の分子を含む薬物が記載される。
【0017】
本明細書のさらなる態様によれば、1つまたはそれ以上のプロセッサおよびメモリを含むシステムが記載される。このメモリは、1つまたはそれ以上のプロセッサによって実行されると、このシステムに、本明細書に記載のコンピュータ実装方法のうちの任意の1つまたはそれ以上を実行させるコンピュータ可読命令を含む。
【0018】
本明細書のさらなる態様によれば、コンピューティングシステムによって実行されると、コンピューティングシステムに、本明細書に記載の方法のうちの任意の1つまたはそれ以上を実行させるコンピュータ可読コードを含むコンピュータプログラム製品が記載される。
【0019】
ここで、実施形態が、添付の図面を参照して非限定的例として説明される。
【図面の簡単な説明】
【0020】
図1】初期分子の分子アナログを生成する例示的な方法の概略図である。
図2】既知の分子構造のサブ構造を生成する方法の概略図である。
図3】強化学習を用いて、潜在的な生物学的または医学的に活性の分子を最適化する方法の例を示す図である。
図4】分子のアナログを生成する例示的な方法のフローチャートである。
図5】潜在的に生物学的または医学的に活性の分子を生成する例示的な方法のフローチャートである。
図6】メモリネットワークをトレーニングして分子構造を生成する例示的な方法の概略図である。
図7】本明細書に記載方法のうちの任意のものを実行するためのシステム/装置の概略的な例を示す図である。
【発明を実施するための形態】
【0021】
目標が、複数の計算可能な特性に関して最適化された分子を設計することであるインシリコ分子最適化は、薬物発見におけるその潜在的な用途に起因して、近年大きな関心をかきたててきた。強化学習と結合して、薬物様分子の大きなコーパスに対しトレーニングされた言語モデルは、得られるスコアに関して他の最適化方法に依然としてわずかに遅れをとりながらも、(薬物様性の観点において)高品質の分子をもたらすことが示されてきた。
【0022】
強化学習を用いた言語モデルは、化学空間内の大域検索を行うことが可能でありながら、多くの場合に、局所検索、すなわち、分子に対する微粒子修飾の実行に失敗する。本明細書は、言語モデルが所与の分子の周りを局所的に探索することを可能にするシステムおよび方法を記載する。強化学習プロセス内の言語モデルによる微粒子修飾の可能性を含めることにより、方法が分子最適化ベンチマークの包括的なセットに関する最先端結果に達することが可能になる。本明細書において用いられるとき、「局所検索」という用語は、好ましくは、たとえば以前に特定した分子の近くの分子に対する微粒子編集(fine grained edit)を含めるように用いられる。「局所的に探索する」という用語は、好ましくは、化学空間における所与の確率分布によって誘導されて、初期モデルの構造的アナログを探索することを含めるように用いられる。そのような確率分布は、分子の薬物様性を定量化することができる(たとえば、Segeler他、「Generating Focused Molecule Libraries for Drug Discovery with Recurrent Neural Networks」ACS Cent.Sci.2018,4,1,120-131を参照されたい)。これらは、潜在的な分子構造の全ての可能な/遥かに大きな空間にわたって検索する大域検索と対照を成す。
【0023】
図1は、初期分子の分子アナログを生成する例示的な方法100の概略図を示す。方法は、初期分子のアナログを生成するために、初期分子構造の周りを局所的に探索する。
【0024】
分子グラフによって表される示される例において、1つまたはそれ以上の初期分子構造102が受信される。いくつかの実施形態では、たとえばプロセス1に関連して後述するように、1つまたはそれ以上の初期分子構造の各々は、初期分子構造102(本明細書において、「第1の分子構造」および/または「元の分子構造」とも呼ばれる)に対応するトークン列表現を生成するメモリネットワーク106を用いて生成される。初期分子構造102のサブ構造104のトークン列表現は、初期分子構造102のアナログ108のトークン列表現のうちの1つまたはそれ以上(たとえば複数)を生成するようにメモリネットワーク106によって処理される。初期分子構造102のアナログ108は、本明細書において、「さらなる分子構造」と呼ぶこともできる。
【0025】
さらなる分子構造108のトークン列表現を生成することは、初期分子構造102のサブ構造のトークン列表現をメモリネットワーク106に順次読み込み、次に、メモリネットワーク106を用いてトークン列の追加のトークンをサンプリングすることを含む。このため、アナログ108を表す各トークン列は、サブ構造104のトークン列を含む第1の部分と、サンプリングされたトークンを含む第2の部分とを含む。実際には、メモリネットワーク106を用いて初期分子構造102の局所アナログ108を探索する。
【0026】
分子構造を表すトークン列は、トークン(「文字」とも呼ばれる)の列を含む。各トークンは、原子、構造に対応するか、または(たとえば数を用いることによって)サイクルの開閉および(丸括弧を用いることによって)分岐、立体化学、もしくは(たとえば、二重結合の場合、シンボル「=」を用いること等によってなど)多重結合などの他の構造情報を表すことができる。トークンは、たとえば、原子の原子シンボルを含むことができる。トークンは、分子の分岐の開閉を表すトークン、たとえば、それぞれ分岐の開始および終了を表す開丸括弧および閉丸括弧をさらに含むことができる。トークンは、アミノ酸、ペプチドまたは他の多重原子構造などの分子構築ブロックを表すトークンを含むことができる。可能なトークンのセットは、トークン「アルファベット」と呼ばれる。
【0027】
いくつかの実施形態では、トークン列は、トークン列104の開始を示す「初期化」トークン(たとえば、「GO」)を含む。トークン列は、トークン列104の終了を示す「列終了」トークン(たとえば、「EOS」)をさらに含むことができる。
【0028】
そのような文字列表現の例は、SMILES言語である(たとえば、「SMILES-A Language for Molecules and Reactions」、Weininger D.、 Handbook of Chemoinformatics2008、80-102を参照)。分子グラフから分子のSMILES表現を生成するために、サイクルが分解され、数字でマーキングされ、開始原子が選択される。SMILES列は、選択された原子において開始する深さ優先巡回において遭遇するノードのシンボルをプリントすることによって得られ、丸括弧はグラフ内の分岐点を示す。所与の分子グラフについて、開始原子として、少なくとも可能な限り多くのSMILESが存在する。たとえば、分子グラフの有効トラバース規則数を乗算した開始原子数と同じ数のSMILESが存在することができる。対応する分子グラフは、所与のSMILESから容易に取り出すことができる。
【0029】
そのようなトークン列表現のさらなる例は、1文字および/または3文字アミノ酸表現を含むことができる。トークン列表現の他の例は、当業者になじみ深いであろう。
【0030】
メモリネットワーク106は、メモリネットワーク106の内部状態h(本明細書において、「隠れ状態」とも呼ばれる)に基づいてトークンを生成することができる機械学習モデルである。初期トークンは、出力トークン列の初期トークンを制約するためにメモリネットワーク106に入力する/読み込むことができるが、メモリネットワーク106は、ネットワーク入力を有しないかまたは「初期化」トークンのみを入力して出力列を生成するように構成することもできる。このメモリネットワークは、図6に関して説明される方法を使用するトレーニングされた例である。
【0031】
メモリネットワーク106の内部状態は、トークンがメモリネットワーク106に読み込まれるか、またはメモリネットワーク106によって生成/サンプリングされたかのいずれかの後に更新される。内部状態は、メモリネットワークの学習されたパラメータθに基づいて更新される。メモリネットワーク102の内部状態は、ネットワーク102によってこれまで処理されたトークンに関する情報を記憶する。
【0032】
メモリネットワーク106は、これまでの列内の文字を条件として、列の文字/トークンにわたって条件付き確率分布をモデル化することによって、順次に分子を表す出力トークン列を生成することができる。メモリネットワーク106は、トークン列内の以前のトークン{x,…,xt-1}に関する情報を処理し、次の出力トークンxを生成するために内部状態hに依拠する。メモリネットワーク106は、条件付き確率P(x|x,…,xt-1)をP(x|ht-1)としてモデル化する。すなわち、条件付き確率は隠れ状態を用いて符号化される。
【0033】
メモリネットワーク106はメモリニューラルネットワークとすることができる。そのようなネットワークの例は、長短期記憶(LSTM)ネットワークなどのリカレントニューラルネットワーク(RNN)である。そのような実施形態において、トークン列表現をメモリネットワークに読み込むことは、トークン列をメモリネットワーク106に順次入力することを含むことができる。
【0034】
初期分子構造102を生成するために用いられるとき、メモリネットワーク106は、読み込まれたトークンを有しない(または、等価には、読み込まれた初期化トークンのみを有する)場合がある。このため、メモリネットワーク106は、初期分子構造102に対応するトークン列表現を生成するために、最初からトークンをサンプリングする。いくつかの実施形態では、プロセスは以下のプロセスによって表すことができる。
【化1】
ここで、GOおよびEOSは、それぞれ、列の最初のトークンおよび最後のトークンであり、xiは、トークン列内の位置iにおけるトークンである。
【0035】
初期分子構造102のサブ構造104のトークン列表現からアナログ108のトークン列表現を生成するとき、第1の分子構造102の分子グラフの部分は固定され、分子の残りの部分を決定するためにサンプリングが行われる。初期分子構造102からサブ構造104のトークン列表現を決定する方法の例は、図2に関して説明される。
【0036】
いくつかの実施形態では、アナログ108のトークン列表現を生成することは、サブ構造104のトークン列表現をメモリネットワーク106に順次読み込むことと、各トークンの読み込み後にメモリネットワークの内部状態hを更新することとを含む。サブ構造104のトークンがメモリネットワーク106に読み込まれると、追加のトークンがサンプリングされ、トークン列に加えられ、各トークンが追加された後にメモリネットワーク106の内部状態を更新する。内部状態に対する更新は、サンプリングされたトークンの値に基づく。トークンは、列終了トークンがサンプリングされるまで、または予め定めた数のトークンがサンプリングされるまでサンプリングされる。
【0037】
結果として得られるトークン列は、アナログ108のトークン列表現を初期分子構造102に提供する。
【0038】
いくつかの実施形態では、初期分子構造102のトークン列表現sを所与として、アナログを生成するプロセスは、以下のプロセスによって表すことができる:
【化2】
ここで、P(x|x,…,xt-1)は、たとえばメモリネットワーク106によって符号化されるトークンにわたる条件付き確率分布であり、「~」はサンプリングを示し、stepは、サンプリングが開始する前にsから取られるトークンの数、すなわち、探索されるサブ構造のサイズである。sは、初期分子102のトークン列表現を生成したメモリネットワークによって出力される、そのトークン列表現とすることができるか、またはたとえば図2Aに関して説明されたように生成された、初期分子102の代替的なトークン列表現とすることができる。
【0039】
初期分子102のアナログ108の出力トークン列表現に対応する分子構造を用いて、強化学習プロセスを実行するためのトレーニングデータセットを拡張し、最適化された分子構造を生成することができる。強化学習プロセスのためのトレーニングデータとしてのこれらのアナログの使用は、強化学習プロセスが、既知の分子の周りの潜在的な分子の空間を局所的に探索することを可能にする。この結果として、薬剤または他の医薬品において用いるための改善した/より良好な最適化された分子構造を生成することができる。これらの分子を薬剤または他の医薬品に組み込むことにより、結果として医学的症状の治療を改善することができる。そのようなプロセスの例が図3に関して下記で説明される。代替としてまたはさらに、初期分子102のアナログ108の出力トークン列表現に対応する分子は合成することができる。合成された分子は、それらのうちのいずれが医学的/生物学的に活性であるかを判定するために試験することができる。所望の医学的または生物学的特性を有する分子は、薬物または薬品などの医薬品に組み込むことができる。
【0040】
図2は、既知の分子構造のサブ構造を生成する方法200の概略図を示す。
【0041】
所与の分子構造202について、その分子構造202の複数の有効なトークン列表現が存在する場合がある。異なる有効なトークン列は、分子構造202における異なる原子からのトークン列の開始に対応することができる。代替としてまたはさらに、異なる有効なトークン列は、分子構造202のための異なる有効なトラバース規則に対応することができる。このため、分子構造202を所与として、その分子構造202の異なるトークン列表現は、分子グラフの異なる開始原子およびトラバース規則を用いて生成することができる。トークン列表現のこの特性を利用して、分子の異なるサブ構造のトークン列表現を生成することができる。
【0042】
分子のサブ構造210のトークン列表現を生成するために、分子構造202内のランダム原子204が開始点として選択され、分子構造202がトークン列を生成するようにトラバースされる。分子に対応する分子グラフ202は、トラバース規則206に従ってランダム原子からトラバースすることができる。トラバース規則は、固定のトラバース規則(たとえば、正準トラバース規則)とすることができるか、または有効トークン列表現(「有効トラバース規則」)を生成するトラバース規則のセットからランダムに選択される。ランダム原子204から開始する分子のトークン列表現208は、分子構造がトラバースされる際に生成することができる。異なる開始原子204および/または異なるトラバース規則206に対応する分子のそのようなトークン列表現208は、分子構造202の「代替的なトークン列表現」と呼ぶことができる。既知の分子構造mからのそのようなトークン列208を生成するプロセスは、「RandomiseTokenString(m)」と呼ぶことができる。
【0043】
分子のトークン列表現208が生成されると、その分子のサブ構造210に対応するトークン列は、トークン列内の最初のn個のトークンを取得することによって生成することができる。ここで、nは整数である。分子のサブ構造210の複数のトークン列表現は、nに対する値を変動させることによって、たとえば、初期値からインクリメントすることによって、または、nのサイズにわたって分布Qからランダムにサンプリングすることによって生成することができる。そのような分布の多くの例が可能である。たとえば、分布は、nを1よりも大きいある指数で累乗したもの、たとえばnに比例することができ、このため、より大きなサブ構造に有利に働く。
【0044】
図1に関して説明されるように、分子210のサブ構造のトークン列表現を用いて、元の分子のアナログを探索することができる。所与の分子mのアナログを生成するのに用いることができるプロセスの例は、以下によって与えることができる:
【化3】
このプロセスの出力は、分子mのアナログ、すなわち、サブ構造をmと共有する分子のトークン列表現のセットである。
【0045】
いくつかの実施形態では、既知の分子のサブ構造を生成する代替的な方法を用いることができる。たとえば、サブ構造のトークン列表現は、たとえばランダムに、開始原子を選択し、分子の分子グラフを、整数のステップnstepsのトラバース規則を用いてトラバースすることによって生成することができる。分子のサブ構造210の複数のトークン列表現は、nstepsに対する値を変動させることによって(たとえば、初期値からインクリメントすることによって、またはnstepsのサイズにわたって分布Qからランダムにサンプリングすることによって)、トラバース規則を変動させることによって(たとえば、有効なトラバース規則のセットから選択することによって)、および/または異なる開始原子を用いることによって(たとえば、他の開始原子をランダムに選択することによって)生成することができる。
【0046】
図3は、強化学習を用いて、潜在的な生物学的または医学的に活性の分子を最適化するための方法300の例を示す。方法の使用の結果として、改善されたおよび/もしくはより良好に最適化された生物学的ならびに/または医学的に活性の分子を発見することができる。これらの分子を合成し、医薬品に組み込むことができ、結果として医学的症状をより効果的に治療することができる。
【0047】
1つまたはそれ以上の初期分子構造、および初期分子構造のうちの1つまたはそれ以上の初期分子構造の複数のアナログを含むトレーニングデータセット302を用いて、メモリネットワーク304のパラメータを微調整する。メモリネットワーク304は、初期分子構造からアナログを生成するのに用いられるのと同じメモリネットワーク304(すなわち、図1のメモリネットワーク106)である。メモリネットワーク304の微調整の目標は、メモリネットワーク304をトレーニングして、目的関数306を最適化する分子のトークン列表現を生成することである。
【0048】
トレーニングデータ302のセット内の分子構造の各々は、目的関数306、Score(m)を用いてスコアリングされる。スコア308のうちの1つまたはそれ以上に基づいて、メモリネットワーク304のパラメータ更新値310を決定し、メモリネットワーク304に適用することができる。たとえば、メモリネットワーク304のパラメータに対する更新310、δθを決定するために、確率的勾配上昇などの最適化ルーチンを目的関数306に適用することができる。
【0049】
目的関数306は、生成された構造が1つまたはそれ以上の生物学的または医学的特性を有する可能性がどの程度かを示すスコアを提供する。そのような目的関数の例は、限定ではないが:logP;薬物様性の量的推定値(QED);QSAR/QSPRモデル;分子ドッキングもしくは他の物理学ベースの方法によって提供されるスコア;および/またはGuacamol suiteにおいて提供されるベンチマークのうちの1つもしくはそれ以上を含む。
【0050】
いくつかの実施形態では、トレーニングデータ302のセットは、フィルタリングプロセスを用いて、初期分子構造、および初期分子構造のうちの1つまたはそれ以上のアナログから選択された複数ntrain個の分子構造を含む。複数ntrain個の初期分子構造は、メモリネットワーク304を用いて生成することができる。これらの各々のスコアは、目的関数306を用いて決定される。初期分子の予め定めた数k≦ntrainは、それらのスコアに基づいて選択される。たとえば、上位k個の最良のスコアの分子構造を選択することができる。選択された初期分子は、各々、たとえば図1に関して説明される方法を用いて生成された複数nexplore個のアナログを有する。これらのアナログの各々のスコアは、目的関数306を用いて決定される。トレーニングデータのセットは、複数ntrain個の上位スコアの初期分子構造およびアナログを取得することによって生成される。換言すれば、生成されたアナログのセットは、初期分子構造のセットと組み合わされ、上位ntrain個のスコアの分子構造は、トレーニングデータ302のセットの一部になるように選択される。
【0051】
更新されると、メモリネットワーク304を用いて、図1に関して説明される方法を用いるトレーニングデータの新たなセットを生成することができる。この新たなトレーニングデータセットにおける分子構造は、目的関数を用いてスコアリングされ、スコアのうちの1つまたはそれ以上を用いて、メモリネットワーク304のパラメータのさらなる更新値を決定する。このプロセスは、閾値条件が満たされるまで反復することができる。たとえば、閾値条件は、達成される反復の閾値数nstepである。
【0052】
強化学習を用いて、潜在的な生物学的または医学的に活性の分子を最適化するための方法の例を以下のプロセスによって提供することができる:
【化4】
ここで、nstepsは方法の反復の閾値数であり、nsamplesは、各反復において生成される初期分子構造の数であり、nexploreは、局所探索について選択されるk個の分子の各々について生成されるアナログの数であり、ntrainは、各反復におけるトレーニングデータのセットのサイズであり、Qは、サブ構造サイズにわたる分布であり、「score(m)」は、分子mの目的関数であり、Pは、メモリネットワーク304によって符号化される初期条件付き確率分布である(すなわち、メモリネットワーク304のパラメータによって符号化される)。セット「列」は、分子のトークン列表現のリストであり、セット「トレーニング」は、現在の反復についてのトレーニングデータのセットである。関数「SampleStrings(P,nsamples)」は、たとえば、プロセス1に示す方法を用いて、初期分子構造のnsamples個のトークン列表現を生成する。関数「ExploreStrings(s,Q,nexplore)」は、たとえば、図1に関して説明される方法を用いて、Qに基づいてトークン列分子構造sのnexplore個のアナログを生成する。関数「TrainPolicyOnBatch(P,training)」は、トレーニングデータに基づいて、メモリネットワーク304によって符号化された条件付き確率分布を更新する(すなわち、図3に関して説明されるように、トレーニングデータに基づいてメモリネットワーク304のパラメータに対する更新値を決定する)。
【0053】
図3の方法を用いて、潜在的な生物学的または医学的に活性の分子を生成することができる。たとえば、微調整されると、メモリネットワークを用いて分子のトークン列表現を生成することができる。微調整プロセスに起因して、これらは、目的関数に関して高いスコアの分子に対応する尤度がより高くなる。
【0054】
代替としてまたはさらに、潜在的な生物学的または医学的に活性の分子は、微調整/最適化プロセス自体の間に生成することができる。パラメータ更新プロセスの各反復中、現在の反復のトレーニングデータ、および以前の反復からのトレーニングデータのセットのうちの上位スコアの分子を記憶することができる。次に、これらは、潜在的な生物学的または医学的に活性の分子として方法の終了時に出力される。
【0055】
たとえば、各反復において、トレーニングデータの現在のセットにおける分子、およびトレーニングデータの以前のセットから(すなわち、以前の反復から)記憶された分子を併せたものを順序付けすることによって分子のリストを生成することができる。次に、予め定めた数nstore個の上位スコア分子を記憶することができる。換言すれば、方法においてこれまで生成された全ての分子のうちの上位nstore個の分子が各反復において保持される。
【0056】
微調整/最適化プロセスの終了時に出力される潜在的な生物学的または医学的に活性の分子は、実際に生物学的または医学的に活性であるか否かを判定するために合成することができる。その場合、これらは、薬物などの薬剤/薬品に組み込むことができ、その結果、医学的症状の治療を改善することができる。
【0057】
図4は、潜在的な生物学的または医学的に活性の分子などの分子のアナログを生成する例示的な方法のフローチャートを示す。方法は、図7に関して以下に説明するシステムなどのコンピューティングシステムによって実行することができる。方法は、図1および図2に関して説明される方法に対応することができる。
【0058】
動作4.1において、1つまたはそれ以上の初期分子構造が受信される。1つまたはそれ以上の初期分子構造は、たとえば図1および/またはプロセス1に関して説明されるようにメモリネットワークを用いて生成された初期分子構造のトークン列表現を用いて生成されてきた。
【0059】
動作4.2において、初期分子構造のアナログのトークン列表現のうちの1つまたはそれ以上が生成される。各トークン列表現は、対応する初期分子構造のアナログを表す。
【0060】
初期分子構造のアナログのトークン列表現のうちの1つまたはそれ以上を生成することは、さらなるトークン列表現ごとに:メモリネットワークを用いて対応する初期分子構造のサブ構造のトークン列表現を順次処理することと;サブ構造のトークン列表現の処理に続いて、メモリネットワークを用いて、1つまたはそれ以上の追加のトークンをサンプリングすることとを含む。
【0061】
対応する初期分子構造のサブ構造のトークン列表現を順次処理することは、サブ構造のトークン列表現をメモリネットワークに順次読み込むこと、すなわち、初期トークンから開始して、トークン列をメモリネットワークに入力することを含むことができる。メモリネットワークの内部状態は、サブ構造のトークン列表現の各トークンがメモリネットワークのパラメータに基づいて読み込まれた後に更新される。
【0062】
メモリネットワークを用いて1つまたはそれ以上の追加のトークンをサンプリングすることは、メモリネットワークの現在の内部状態に基づいてトークン列に追加するトークンを選択することを含む。トークンが選択され、トークン列に加えられると、メモリネットワークの内部状態が、メモリネットワークのパラメータに基づいて更新される。トークンは、列終了トークンに達するまで、予め定めた数のトークンがサンプリングされるまで、および/または予め定めたトークン列長さに達するまで、サンプリングされる。
【0063】
初期分子のサブ構造のトークン列表現は、初期分子構造における開始位置を選択し、トラバース規則を用いて前記分子構造をトラバースして、初期分子の代替的トークン列表現を生成することによって、次に代替的なトークン列表現の最初のn個のトークンを取得することによって生成することができる。
【0064】
代替として、初期分子のサブ構造のトークン列表現は、初期分子構造における開始位置を選択し、n個のステップについてトラバース規則を用いて前記分子構造をトラバースして、初期分子の代替的トークン列表現を生成することによって生成することができる。
【0065】
これらの方法のうちのいずれが用いられるかにかかわらず、サブ構造を形成するために取得されるトークンの数nは、分布Qから選択することができる。初期分子構造における開始位置は、ランダムに選択された原子に対応することができる。トラバース規則は、たとえば、正準トラバース規則とすることができるか、または有効トラバース規則のリストから選択することができる。
【0066】
図5は、潜在的に生物学的または医学的に活性の分子を生成する例示的な方法のフローチャートを示す。方法は、図7に関して説明されるシステムなどのコンピューティングシステムによって実行することができる。方法は、プロセス4などの図3に関して説明される方法に対応することができる。
【0067】
動作5.1において、1つまたはそれ以上の初期分子構造、および初期分子構造の複数のアナログを含むトレーニングデータのセットは、たとえば図1図3に関して説明される方法のうちの任意のものを用いて生成される。これらは、メモリネットワークを微調整するためのトレーニングデータのセットとして用いられる。
【0068】
動作5.2において、目的関数を用いて、生成された初期分子構造および初期分子構造のアナログの各々についてスコアが決定される。目的関数は、生成された構造が1つまたはそれ以上の生物学的または医学的特性を有する可能性がどれくらいかを示すスコアを提供する。望ましい医学的および/または生物学的特性は、目的関数にプラスに寄与する場合がある。望ましくない医学的および/または生物学的特性は、目的関数にマイナスに寄与する場合がある。
【0069】
動作5.3において、初期分子構造および初期分子構造のアナログのスコアのうちの1つまたはそれ以上に基づいてメモリネットワークのパラメータが更新される。
【0070】
いくつかの実施形態では、トレーニングデータのセットにおける複数の最良のスコアの分子構造のスコアを用いて更新値を生成し、残りの分子構造は用いられない。最良スコアの分子について最適化ルーチンを目的関数に適用し、更新値を決定することができる。たとえば、勾配上昇などの勾配ベースの最適化ルーチンを適用してパラメータ更新値を決定することができる。用いることができる最適化ルーチンの多くの他の例が当業者に明らかとなろう。
【0071】
動作5.1~5.3は、閾値条件が満たされるまで反復することができる。閾値条件は、閾値数の反復とすることができる。各反復において、閾値条件が満たされると、トレーニングデータの現在のセットおよびトレーニングデータの以前のセットのうち、最も高いスコアの分子を出力のために記憶することができる。
【0072】
動作5.4において、潜在的に生物学的または医学的に活性の分子の1つまたはそれ以上のトークン列表現が出力される。更新されたパラメータを有するメモリネットワークを用いて、潜在的に生物学的にまたは医学的に活性の分子の1つまたはそれ以上のトークン列表現を生成することができる。
【0073】
代替としてまたはさらに、トレーニング反復中に記憶された最高スコアの分子を出力することができる。いくつかの実施形態では、初期分子の最終セットは、最後の反復の後に生成することができ、上位スコアの分子のリストは、これらの最終初期分子のスコアに基づいて更新される。
【0074】
いずれの場合も、潜在的に生物学的または医学的に活性の分子の、出力された1つまたはそれ以上のトークン列表現は、更新されたパラメータを有するメモリネットワークに基づくと言える。
【0075】
図6は、メモリネットワークをトレーニングして分子構造を生成する例示的な方法600の概略図を示す。方法は、図7に関して説明されるシステムなどのコンピューティングシステムによって実行することができる。この方法は、メモリネットワークをトレーニングして分子のトークン列表現を生成する方法であり、図1図5に関して説明される方法の前に、この方法を用いてメモリネットワークを最初にトレーニングすることができる。
【0076】
トレーニング中、メモリネットワーク604は、初期入力602を受信し、分子を表すトークン列606を生成する。目的関数608(本明細書において「損失関数」とも呼ばれる)を用いて、出力トークン列606に基づいてメモリネットワーク604に対するパラメータ更新を決定する。
【0077】
入力602は、たとえば、列開始トークンとすることができる。代替として、入力602は、トレーニングデータセット内の分子に対する既知の開始を表すトークン列とすることができる。
【0078】
メモリネットワーク604は、トークン列、すなわち、メモリネットワーク604内のこれまでのトークン列の開始を条件として、トークンにわたって条件付き確率分布をモデル化することによって、順次に出力トークン列606を生成する。s=x,…,xを、分子列のトークン化されたバージョンとする。ここで、{x}は、SMILESなどの言語からのトークン/文字である。いくつかの実施形態では、xおよびxは、それぞれ、列開始および列終了トークンを表す。メモリネットワーク604は、P(x|x,…,xt-1)、すなわち、列内の前のトークンを所与としたトークンの条件付き確率をモデル化する。
【0079】
メモリネットワーク604は、シーケンスの開始を所与として次のトークンを予測するために薬物様分子のトレーニングデータセットでトレーニングされる。トレーニングデータセット内の分子は、薬物様分子のデータベースから取得することができる。そのようなデータベースの例はChEMBLであるが、代替として他のデータベースを用いることができることが理解されよう。薬物様分子は、データベースにおいてトークン列として表されるか、またはメモリネットワーク604への入力前に1に変換される。メモリネットワーク604を検証するのに用いられる検証データセットも、薬物様分子のデータベースから生成することができる。このデータベースは、薬物様分子のデータベースのサブセットとすることができる。
【0080】
トレーニングデータセットは、多岐にわたる薬物様化合物を含む汎用データセットとすることができる。そのようなデータセットでトレーニングされたメモリネットワーク604は、潜在的に興味深い分子を生成するとき、大きく多様な化学空間を探索することを可能とすることができる。代替として、トレーニングデータセットは、1つまたはそれ以上の所定の化学系統(たとえば、単一の化学系統)からの分子を含む、焦点を絞ったトレーニングデータセットとすることができる。そのようなデータセットでトレーニングされたメモリネットワーク604は、所与の化学系統に密接に類似したものを生成することを可能にすることができる。
【0081】
例として、トレーニングデータセットは、データベース(たとえば、ChEMBL)から所定の数の(たとえば、120万個の)分子を抽出し、これらを1つまたはそれ以上の所定の基準を用いてフィルタリングすることによって、データベースから生成することができる。所定の基準は:サイズ;存在する原子;および/または大員環の存否のうちの1つまたはそれ以上を含むことができる。
【0082】
メモリネットワーク604のパラメータθに対する更新値を決定するために、トレーニングは、損失関数608Lに最適化手順を反復的に適用することによって達成される。最適化手順の目的は、メモリネットワーク604パラメータに対し損失関数608を最小にすることとすることができる。最適化手順は、たとえば、統計勾配降下などの勾配降下法とすることができる。損失関数は、トレーニングセットトークン列の負の対数尤度とすることができ、たとえば、以下のようにすることができる:
【数1】
ここで、xはトークン列の初期トークンであり、トークン列はT個のトークンの総長を有する。メモリネットワーク604は、現在の内部状態hを用いて以前のトークンからの情報を処理し、条件付き確率P(x|x,…,xt-1)をP(x|ht-1)としてモデル化する。ステップtにおけるメモリネットワーク604の内部状態hは、これまでの列内のトークンx,…,xおよびメモリネットワークのパラメータθに依存する。
【0083】
いくつかの実施形態では、トレーニングデータセットは、非正規トークン列を用いてトレーニングデータセットを強化することによって拡張される。これにより、トレーニングされたメモリネットワーク604の性能を改善することができる。
【0084】
図7は、本明細書に記載の方法のうちの任意のものを実行するためのシステム/装置700の概略的な例を示す。示すシステム/装置は、コンピューティングデバイスの例である。代替として、分散コンピューティングシステムなどの他のタイプのコンピューティングデバイス/システムを用いて、本明細書に記載の方法を実施することができることが当業者には理解されよう。
【0085】
装置(またはシステム)700は、1つまたはそれ以上のプロセッサ702を含む。1つまたはそれ以上のプロセッサは、システム/装置700の他の構成要素の動作を制御する。1つまたはそれ以上のプロセッサ702は、たとえば、汎用プロセッサを含むことができる。1つまたはそれ以上のプロセッサ702は、シングルコアデバイスまたはマルチコアデバイスとすることができる。1つまたはそれ以上のプロセッサ702は、中央処理ユニット(CPU)またはグラフィック処理ユニット(GPU)を含むことができる。代替として、1つまたはそれ以上のプロセッサ702は、専用処理ハードウェア、たとえばRISCプロセッサ、または埋め込まれたファームウェアを用いてプログラム可能なハードウェアを含むことができる。複数のプロセッサを含めることができる。
【0086】
システム/装置は作業メモリまたは揮発性メモリ704を含む。1つまたはそれ以上のプロセッサは、データを処理するために揮発性メモリ704にアクセスすることができ、メモリ内のデータの記憶を制御することができる。揮発性メモリ704は、任意のタイプのRAM、たとえば、静的RAM(SRAM)、動的RAM(DRAM)を含むことができるか、またはSDカードなどのフラッシュメモリを含むことができる。
【0087】
システム/装置は不揮発性メモリ706を含む。不揮発性メモリ706は、コンピュータ可読命令の形態でプロセッサ702の動作を制御するための動作命令のセット708を記憶する。不揮発性メモリ706は、リードオンリーメモリ(ROM)、フラッシュメモリまたは磁気ドライブメモリなどの任意の種類のメモリとすることができる。
【0088】
1つまたはそれ以上のプロセッサ702は、システム/装置に、本明細書に記載の方法のうちの任意のものを実行させる動作命令708を実行するように構成される。動作命令708は、システム/装置700のハードウェア構成要素に関するコード(すなわち、ドライバ)、およびシステム/装置700の基本動作に関するコードを含むことができる。一般的に言えば、1つまたはそれ以上のプロセッサ702は、不揮発性メモリ706に恒久的または半恒久的に記憶される動作命令708のうちの1つまたはそれ以上の命令を、前記動作命令708の実行中に生成されるデータを一時的に記憶する揮発性メモリ704を用いて実行する。
【0089】
本明細書に記載の方法の実施は、デジタル電子回路部、集積回路部、特殊設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェアおよび/またはそれらの組合せとして実現することができる。これらは、図5に関して記載したコンピュータなどのコンピュータによって実行されると、コンピュータに、本明細書に記載の方法のうちの1つまたはそれ以上を実行させるコンピュータ可読命令を含む、(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス上に記憶されたソフトウェアなどの)コンピュータプログラム製品を含むことができる。
【0090】
本明細書に記載の任意のシステム機能は、方法機能として提供することもでき、逆もまた同様である。本明細書において用いられるとき、ミーンズプラスファンクション機能は、代替として、それらの対応する構造の観点で表すことができる。特に、方法の態様は、システムの態様に適用することができ、逆もまた同様とすることができる。
【0091】
さらに、1つの態様における任意の、いくつかのおよび/または全ての構成は、任意の適切な組合せで任意の他の態様における任意の、いくつかのおよび/または全ての構成に適用することができる。本発明の任意の態様に記載され定義された様々な構成の特定の組合せは、独立して実施および/または供給および/または使用することができることを理解されたい。
【0092】
いくつかの実施形態を示し記載してきたが、当業者であれば、これらの実施形態において、本開示の原理から逸脱することなく変更を行うことができることを理解するであろう。本開示の範囲は、特許請求の範囲において規定されている、およびその均等物である。
【0093】
「薬物」または「薬剤」という用語は、本明細書では同義的に用いられ、1つもしくはそれ以上の活性医薬成分またはそれらの薬学的に許容可能な塩もしくは溶媒和物と、場合により薬学的に許容可能な担体と、を含む医薬製剤を記述する。活性医薬成分(「API」)とは、最広義には、ヒトまたは動物に対して生物学的効果を有する化学構造体のことである。薬理学では、薬剤または医薬は、疾患の治療、治癒、予防、または診断に使用されるか、さもなければ身体的または精神的なウェルビーイングを向上させるために使用される。薬物または薬剤は、限定された継続期間で、または慢性障害では定期的に使用可能である。
【0094】
以下に記載されるように、薬物または薬剤は、1つもしくはそれ以上の疾患の治療のために各種タイプの製剤中に少なくとも1つのAPIまたはその組合せを含みうる。APIの例としては、500Da以下の分子量を有する低分子、ポリペプチド、ペプチド、およびタンパク質(たとえば、ホルモン、成長因子、抗体、抗体フラグメント、および酵素)、炭水化物および多糖、ならびに核酸、二本鎖または一本鎖DNA(ネイキッドおよびcDNAを含む)、RNA、アンチセンス核酸たとえばアンチセンスDNAおよびRNA、低分子干渉RNA(siRNA)、リボザイム、遺伝子、およびオリゴヌクレオチドが挙げられうる。核酸は、ベクター、プラスミド、またはリポソームなどの分子送達システムに取り込み可能である。1つまたはそれ以上の薬物の混合物も企図される。
【0095】
薬物または薬剤は、薬物送達デバイスでの使用に適合化された一次パッケージまたは「薬物容器」に包含可能である。薬物容器は、たとえば、1つもしくはそれ以上の薬物の収納(たとえば、短期または長期の収納)に好適なチャンバを提供するように構成されたカートリッジ、シリンジ、リザーバ、または他の硬性もしくは可撓性のベッセルでありうる。たとえば、いくつかの場合には、チャンバは、少なくとも1日間(たとえば、1日間~少なくとも30日間)にわたり薬物を収納するように設計可能である。いくつかの場合には、チャンバは、約1カ月~約2年間にわたり薬物を収納するように設計可能である。収納は、室温(たとえば、約20℃)または冷蔵温度(たとえば、約-4℃~約4℃)で行うことが可能である。いくつかの場合には、薬物容器は、投与される医薬製剤の2つ以上の成分(たとえば、APIと希釈剤、または2つの異なる薬物)を各チャンバに1つずつ個別に収納するように構成されたデュアルチャンバカートリッジでありうるか、またはそれを含みうる。かかる場合には、デュアルチャンバカートリッジの2つのチャンバは、人体もしくは動物体への投薬前および/または投薬中に2つ以上の成分間の混合が可能になるように構成可能である。たとえば、2つのチャンバは、互いに流体連通するように(たとえば、2つのチャンバ間の導管を介して)かつ所望により投薬前にユーザによる2つの成分の混合が可能になるように構成可能である。代替的または追加的に、2つのチャンバは、人体または動物体への成分の投薬時に混合が可能になるように構成可能である。
【0096】
本明細書に記載の薬物送達デバイスに含まれる薬物または薬剤は、多くの異なるタイプの医学的障害の治療および/または予防のために使用可能である。障害の例としては、たとえば、糖尿病または糖尿病に伴う合併症たとえば糖尿病性網膜症、血栓塞栓障害たとえば深部静脈血栓塞栓症または肺血栓塞栓症が挙げられる。障害のさらなる例は、急性冠症候群(ACS)、アンギナ、心筋梗塞、癌、黄斑変性、炎症、枯草熱、アテローム硬化症および/または関節リウマチである。APIおよび薬物の例は、ローテリステ2014年(Rote Liste 2014)(たとえば、限定されるものではないがメイングループ12(抗糖尿病薬剤)または86(オンコロジー薬剤))やメルク・インデックス第15版(Merck Index,15th edition)などのハンドブックに記載されているものである。
【0097】
1型もしくは2型糖尿病または1型もしくは2型糖尿病に伴う合併症の治療および/または予防のためのAPIの例としては、インスリン、たとえば、ヒトインスリン、もしくはヒトインスリンアナログもしくは誘導体、グルカゴン様ペプチド(GLP-1)、GLP-1アナログもしくはGLP-1レセプターアゴニスト、はそのアナログもしくは誘導体、ジペプチジルペプチダーゼ-4(DPP4)阻害剤、またはそれらの薬学的に許容可能な塩もしくは溶媒和物、またはそれらのいずれかの混合物が挙げられる。本明細書で用いられる場合、「アナログ」および「誘導体」という用語は、天然に存在するペプチドに存在する少なくとも1つのアミノ酸残基の欠失および/または交換によりおよび/または少なくとも1つのアミノ酸残基の付加により天然に存在するペプチドの構造たとえばヒトインスリンの構造から形式的に誘導可能な分子構造を有するポリペプチドを指す。付加および/または交換アミノ酸残基は、コード可能アミノ酸残基または他の天然に存在する残基または純合成アミノ酸残基のどれかでありうる。インスリンアナログは、「インスリンレセプターリガンド」とも呼ばれる。特に、「誘導体」という用語は、天然に存在するペプチドの構造から形式的に誘導可能な分子構造、たとえば、1つまたはそれ以上の有機置換基(たとえば脂肪酸)がアミノ酸の1つまたはそれ以上に結合したヒトインスリンの分子構造を有するポリペプチドを指す。場合により、天然に存在するペプチドに存在する1つまたはそれ以上のアミノ酸が、欠失し、および/または非コード可能アミノ酸を含めて他のアミノ酸によって置き換えられ、または天然に存在するペプチドに非コード可能なものを含めてアミノ酸が付加される。
【0098】
インスリンアナログの例は、Gly(A21)、Arg(B31)、Arg(B32)ヒトインスリン(インスリングラルギン);Lys(B3)、Glu(B29)ヒトインスリン(インスリングルリジン);Lys(B28)、Pro(B29)ヒトインスリン(インスリンリスプロ);Asp(B28)ヒトインスリン(インスリンアスパルト);位置B28のプロリンがAsp、Lys、Leu、ValまたはAlaに置き換えられたうえに位置B29のLysがProに置き換えられていてもよいヒトインスリン;Ala(B26)ヒトインスリン;Des(B28~B30)ヒトインスリン;Des(B27)ヒトインスリンおよびDes(B30)ヒトインスリンである。
【0099】
インスリン誘導体の例は、たとえば、B29-N-ミリストイル-des(B30)ヒトインスリン、Lys(B29)(N-テトラデカノイル)-des(B30)ヒトインスリン(インスリンデテミル、レベミル(Levemir)(登録商標));B29-N-パルミトイル-des(B30)ヒトインスリン;B29-N-ミリストイルヒトインスリン;B29-N-パルミトイルヒトインスリン;B28-N-ミリストイルLysB28ProB29ヒトインスリン;B28-N-パルミトイル-LysB28ProB29ヒトインスリン;B30-N-ミリストイル-ThrB29LysB30ヒトインスリン;B30-N-パルミトイル-ThrB29LysB30ヒトインスリン;B29-N-(N-パルミトイル-ガンマ-グルタミル)-des(B30)ヒトインスリン、B29-N-オメガ-カルボキシペンタデカノイル-ガンマ-L-グルタミル-des(B30)ヒトインスリン(インスリンデグルデク、トレシーバ(Tresiba)(登録商標));B29-N-(N-リトコリル-ガンマ-グルタミル)-des(B30)ヒトインスリン;B29-N-(ω-カルボキシヘプタデカノイル)-des(B30)ヒトインスリンおよびB29-N-(ω-カルボキシヘプタデカノイル)ヒトインスリンである。
【0100】
GLP-1、GLP-1アナログおよびGLP-1レセプターアゴニストの例は、たとえば、リキシセナチド(リキスミア(Lyxumia)(登録商標))、エキセナチド(エキセンジン-4、バイエッタ(Byetta)(登録商標)、ビデュリオン(Bydureon)(登録商標)、ヒラモンスターの唾液腺により産生される39アミノ酸ペプチド)、リラグルチド(ビクトーザ(Victoza)(登録商標))、セマグルチド、タスポグルチド、アルビグルチド(シンクリア(Syncria)(登録商標))、デュラグルチド(トルリシティ(Trulicity)(登録商標))、rエキセンジン-4、CJC-1134-PC、PB-1023、TTP-054、ラングレナチド/HM-11260C(エフペグレナチド)、HM-15211、CM-3、GLP-1エリゲン、ORMD-0901、NN-9423、NN-9709、NN-9924、NN-9926、NN-9927、ノデキセン、ビアドール-GLP-1、CVX-096、ZYOG-1、ZYD-1、GSK-2374697、DA-3091、MAR-701、MAR709、ZP-2929、ZP-3022、ZP-DI-70、TT-401(ペガパモドチド(Pegapamodtide))、BHM-034、MOD-6030、CAM-2036、DA-15864、ARI-2651、ARI-2255、チルゼパチド(LY3298176)、バマドゥチド(Bamadutide)(SAR425899)、エキセナチド-XTENおよびグルカゴン-Xtenである。
【0101】
オリゴヌクレオチドの例は、たとえば、家族性高コレステロール血症の治療のためのコレステロール低下アンチセンス治療剤ミポメルセンナトリウム(キナムロ(Kynamro)(登録商標))、またはアルポート症候群の治療のためのRG012である。
【0102】
DPP4阻害剤の例は、リナグリプチン、ビダグリプチン、シタグリプチン、デナグリプチン、サキサグリプチン、ベルベリンである。
【0103】
ホルモンの例としては、脳下垂体ホルモンもしくは視床下部ホルモンまたはレギュラトリー活性ペプチドおよびそれらのアンタゴニスト、たとえば、ゴナドトロピン(フォリトロピン、ルトロピン、コリオンゴナドトロピン、メノトロピン)、ソマトロピン(Somatropine)(ソマトロピン(Somatropin))、デスモプレシン、テルリプレシン、ゴナドレリン、トリプトレリン、リュープロレリン、ブセレリン、ナファレリン、およびゴセレリンが挙げられる。
【0104】
多糖の例としては、グルコサミノグリカン、ヒアルロン酸、ヘパリン、低分子量ヘパリンもしくは超低分子量ヘパリンもしくはそれらの誘導体、もしくは硫酸化多糖たとえばポリ硫酸化形の上述した多糖、および/またはそれらの薬学的に許容可能な塩が挙げられる。ポリ硫酸化低分子量ヘパリンの薬学的に許容可能な塩の例は、エノキサパリンナトリウムである。ヒアルロン酸誘導体の例は、ハイランG-F20(シンビスク(Synvisc)(登録商標))、ヒアルロン酸ナトリウムである。
【0105】
本明細書で用いられる「抗体」という用語は、イムノグロブリン分子またはその抗原結合部分を指す。イムノグロブリン分子の抗原結合部分の例としては、抗原への結合能を保持するF(ab)およびF(ab’)2フラグメントが挙げられる。抗体は、ポリクローナル抗体、モノクローナル抗体、組換え抗体、キメラ抗体、脱免疫化もしくはヒト化抗体、完全ヒト抗体、非ヒト(たとえばネズミ)抗体、または一本鎖抗体でありうる。いくつかの実施形態では、抗体は、エフェクター機能を有するとともに補体を固定可能である。いくつかの実施形態では、抗体は、Fcレセプターへの結合能が低減されているか、または結合能がない。たとえば、抗体は、Fcレセプターへの結合を支援しない、たとえば、Fcレセプター結合領域の突然変異もしくは欠失を有するアイソタイプもしくはサブタイプ、抗体フラグメントまたは突然変異体でありうる。抗体という用語は、4価二重特異的タンデムイムノグロブリン(TBTI)および/またはクロスオーバー結合領域配向を有する二重可変領域抗体様結合タンパク質(CODV)に基づく抗原結合分子も含む。
【0106】
「フラグメント」または「抗体フラグメント」という用語は、完全長抗体ポリペプチドを含まないが依然として抗原に結合可能な完全長抗体ポリペプチドの少なくとも一部分を含む抗体ポリペプチド分子由来のポリペプチド(たとえば、抗体重鎖および/または軽鎖ポリペプチド)を指す。抗体フラグメントは、完全長抗体ポリペプチドの切断部分を含みうるが、この用語は、かかる切断フラグメントに限定されるものではない。本発明に有用な抗体フラグメントとしては、たとえば、Fabフラグメント、F(ab’)2フラグメント、scFv(一本鎖Fv)フラグメント、線状抗体、単一特異的または多重特異的な抗体フラグメント、たとえば、二重特異的、三重特異的、四重特異的および多重特異的抗体(たとえば、ダイアボディ、トリアボディ、テトラボディ)、1価または多価抗体フラグメント、たとえば、2価、3価、4価および多価の抗体、ミニボディ、キレート化組換え抗体、トリボディまたはビボディ、イントラボディ、ナノボディ、小モジュール免疫医薬(SMIP)、結合ドメインイムノグロブリン融合タンパク質、ラクダ化抗体、およびVHH含有抗体が挙げられる。抗原結合抗体フラグメントの追加の例は当技術分野で公知である。
【0107】
「相補性決定領域」または「CDR」という用語は、特異的抗原認識を媒介する役割を主に担う、重鎖および軽鎖の両方のポリペプチドの可変領域内の短いポリペプチド配列を指す。「フレームワーク領域」という用語は、CDR配列でないかつ抗原結合が可能になるようにCDR配列の適正配置を維持する役割を主に担う、重鎖および軽鎖の両方のポリペプチドの可変領域内のアミノ酸配列を指す。フレームワーク領域自体は、典型的には抗原結合に直接関与しないが、当技術分野で公知のように、ある特定の抗体のフレームワーク領域内のある特定の残基は、抗原結合に直接関与しうるか、またはCDR内の1つもしくはそれ以上のアミノ酸と抗原との相互作用能に影響を及ぼしうる。
【0108】
抗体の例は、抗PCSK-9 mAb(たとえば、アリロクマブ)、抗IL-6 mAb(たとえば、サリルマブ)、および抗IL-4 mAb(たとえば、デュピルマブ)である。
【0109】
本明細書に記載のいずれのAPIの薬学的に許容可能な塩も、薬物送達デバイスで薬物または薬剤に使用することが企図される。薬学的に許容可能な塩は、たとえば、酸付加塩および塩基性塩である。
【0110】
当業者には、本明細書に記載のAPI、処方、装置、方法、システムおよび実施形態の様々な構成要素の修正(追加および/または除去)が、このような修正、およびありとあらゆるその均等物を包含する本発明の全範囲および趣旨から逸脱せずに加えられることが理解されよう。
【0111】
例示的な薬物送達デバイスは、ISO11608-1:2014(E)のセクション5.2の表1に記載のようなニードルベースの注射システムを含むことができる。ISO11608-1:2014(E)に記載されているように、ニードルベースの注射システムは、広義には、多用量容器システムおよび(部分的または完全な排出を用いた)単容量容器システムに区別することができる。容器は、交換可能な容器または一体化された交換不可能な容器とすることができる。
【0112】
ISO11608-1:2014(E)にさらに記載されているように、多用量容器システムは、交換可能な容器を有するニードルベースの注射デバイスを含むことができる。そのようなシステムにおいて、各容器は複数の用量を保持し、そのサイズは固定または可変とする(ユーザによって予め設定する)ことができる。別の多用量容器システムは、一体化された交換不可能な容器を有するニードルベースの注射デバイスを含むことができる。そのようなシステムにおいて、各容器は複数の用量を保持し、そのサイズは固定または可変とする(ユーザによって予め設定する)ことができる。
【0113】
ISO11608-1:2014(E)にさらに記載されているように、単用量容器システムは、交換可能な容器を有するニードルベースの注射デバイスを含むことができる。そのようなシステムの1つの例において、各容器は単用量を保持し、それによって送達可能な量全体が吐出される(全排出)。さらなる例において、各容器は単用量を保持し、送達可能な量の一部が吐出される(部分的排出)。ISO11608-1:2014(E)にも記載されているように、単用量容器システムは、一体化された交換不可能な容器を有するニードルベースの注射デバイスを含むことができる。そのようなシステムの1つの例において、各容器は単用量を保持し、それによって送達可能な量全体が吐出される(全排出)。さらなる例において、各容器は単用量を保持し、送達可能な量の一部が吐出される(部分的排出)。
図1
図2
図3
図4
図5
図6
図7
【国際調査報告】