(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-09-13
(54)【発明の名称】メモリネットワークを用いた骨格が制約された分子生成
(51)【国際特許分類】
G16C 20/50 20190101AFI20230906BHJP
【FI】
G16C20/50
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023513701
(86)(22)【出願日】2021-08-25
(85)【翻訳文提出日】2023-03-27
(86)【国際出願番号】 EP2021073462
(87)【国際公開番号】W WO2022043362
(87)【国際公開日】2022-03-03
(32)【優先日】2020-08-26
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】504456798
【氏名又は名称】サノフイ
【氏名又は名称原語表記】SANOFI
(71)【出願人】
【識別番号】512073725
【氏名又は名称】エコール ノルマル シュペリウール
(71)【出願人】
【識別番号】518059934
【氏名又は名称】ソルボンヌ・ユニヴェルシテ
【氏名又は名称原語表記】SORBONNE UNIVERSITE
(71)【出願人】
【識別番号】504077526
【氏名又は名称】サーントル・ナショナル・ドゥ・ラ・レシェルシュ・シアンティフィク
(74)【代理人】
【識別番号】100127926
【氏名又は名称】結田 純次
(74)【代理人】
【識別番号】100140132
【氏名又は名称】竹林 則幸
(74)【代理人】
【識別番号】100216105
【氏名又は名称】守安 智
(72)【発明者】
【氏名】マキシム・ランジュヴァン
(57)【要約】
本明細書は、メモリネットワークを用いて、骨格制約下で潜在的な医薬分子を生成するためのシステムおよび方法に関する。本明細書の第1の態様によれば、潜在的に生物学的/医学的に活性の分子を生成するコンピュータ実装方法が記載される。この方法は:メモリネットワークによって、潜在的な分子を生成するために分子骨格のトークン列表現における各トークンを順次処理することであって、トークン列表現は、分子骨格の所定の構造を表す複数のトークンと、分子骨格の開位置を表す1つまたはそれ以上のトークンとを含み、メモリネットワークは、メモリネットワークの内部状態を用いてトークン上の順次確率分布を符号化することと;メモリネットワークから、生成された分子のトークン列表現を出力することとを含む。分子骨格のトークン列表現における各トークンを順次処理することは、以下を含む:処理されている現在のトークンが、分子の開位置を表すトークンであるか否かを判定すること。現在のトークンが分子骨格の開位置を表さない場合、現在のトークンをメモリネットワークに読み込み、現在のトークンに基づいてメモリネットワークの内部状態を更新すること。現在のトークンが分子骨格の開位置を表す場合、終了条件が満たされるまで、メモリネットワークの現在の内部状態に基づいて、開位置について1つまたはそれ以上の候補トークンをサンプリングすること、および、このサンプリングされたトークンに基づいて、各サンプリングされたトークンの後のメモリネットワークの内部状態を更新すること。
【選択図】
図1
【特許請求の範囲】
【請求項1】
潜在的に生物学的/医学的に活性の分子を生成するコンピュータ実装方法であって:
メモリネットワークによって、潜在的な分子を生成するために分子骨格のトークン列表現における各トークンを順次処理することであって、トークン列表現は、分子骨格の所定の構造を表す複数のトークンと、分子骨格の開位置を表す1つまたはそれ以上のトークンとを含み、メモリネットワークは、該メモリネットワークの内部状態を用いてトークン上の順次確率分布を符号化することと;
メモリネットワークから、生成された分子のトークン列表現を出力することと
を含み、
分子骨格のトークン列表現における各トークンを順次処理することは:
処理されている現在のトークンが、分子の開位置を表すトークンであるか否かを判定することと;
現在のトークンが分子骨格の開位置を表さない場合、現在のトークンをメモリネットワークに読み込み、現在のトークンに基づいてメモリネットワークの内部状態を更新することと;
現在のトークンが分子骨格の開位置を表す場合、終了条件が満たされるまで、メモリネットワークの現在の内部状態に基づいて、開位置について1つまたはそれ以上の候補トークンをサンプリングすること、および、前記サンプリングされたトークンに基づいて、各サンプリングされたトークンの後のメモリネットワークの内部状態を更新することと
を含む、前記コンピュータ実装方法。
【請求項2】
開位置を表す1つまたはそれ以上のトークンは、1つまたはそれ以上の異なる開位置タイプを表し、開位置におけるサンプリングの終了条件、および/または開位置におけるサンプリングのために利用可能なトークンは、前記開位置のタイプに依存する、請求項1に記載の方法。
【請求項3】
開位置の終了条件が満たされた後、分子骨格のトークン列表現の順次処理を再開することをさらに含む、請求項1または2に記載の方法。
【請求項4】
分子骨格の開位置を表すトークンのうちの少なくとも1つは、分子骨格の開分岐を表す、請求項1~3のいずれか1項に記載の方法。
【請求項5】
トークン列表現の許可されたトークンのセットは、分岐開放トークンと、分岐閉鎖トークンとを含み、
分子骨格の開分岐を表す開位置において1つまたはそれ以上の候補トークンをサンプリングすることは、サンプリングされた分岐閉鎖トークンの数が、候補トークンにおける分岐開放トークンの数に等しくなるまで候補トークンをサンプリングすることを含む、請求項4に記載の方法。
【請求項6】
分岐の1つまたはそれ以上のトークンは制約され、および/または分岐は線形フラグメントになるように制約される、請求項4または5に記載の方法。
【請求項7】
分子骨格の開位置を表すトークンのうちの少なくとも1つは、分子骨格内の開リンカを表す、請求項1~6のいずれか1項に記載の方法。
【請求項8】
分子骨格の開リンカを表す開位置において1つまたはそれ以上の候補トークンをサンプリングすることは:
所定の確率分布に基づいて、サンプリングされる候補トークンの閾値数を決定することと;
サンプリングされたトークンの数が候補トークンの閾値数に達するまで候補トークンをサンプリングすることと
を含む、請求項7に記載の方法。
【請求項9】
トークン列表現の許可されたトークンのセットは、分岐開放トークンおよび分岐閉鎖トークン、ならびに/または1つもしくはそれ以上のサイクル開放およびサイクル閉鎖トークンを含み;
分子骨格の開リンカを表す開位置において1つまたはそれ以上の候補トークンをサンプリングすることは、全ての分岐が閉じ、全てのサイクルが閉じるまで、サンプリングされるトークンの閾値数を超えて候補トークンのサンプリングを継続することをさらに含む、請求項8に記載の方法。
【請求項10】
トークン列表現は、SMILES表現である、請求項1~9のいずれか1項に記載の方法。
【請求項11】
トークン列表現は、1文字または3文字アミノ酸表現を含む、請求項1~8のいずれか1項に記載の方法。
【請求項12】
リード最適化のコンピュータ実装方法であって、反復的に:
請求項1~11のいずれか1項に記載の方法を用いて所与の骨格を有する1つまたはそれ以上の潜在的な分子構造を生成することと;
分子の1つまたはそれ以上の標的特性を表すスコアリング関数を用いて1つまたはそれ以上の潜在的な分子構造の各々をスコアリングすることと;
スコアリング関数に関する閾値条件が満たされる場合、潜在的な分子構造を、潜在的に生物学的/医学的に活性の分子のセットの一部として記憶することと;
1つまたはそれ以上の潜在的な分子構造の各々のスコアに基づいて、メモリネットワークのパラメータを微調整することと
を含む、前記コンピュータ実装方法。
【請求項13】
潜在的に生物学的/医学的に活性の分子を合成する方法であって:
請求項1~12のいずれか1項に記載の方法を用いて潜在的に生物学的/医学的に活性の分子の構造を生成することと;
生成された構造に基づいて、潜在的に生物学的/医学的に活性の分子を合成することと
を含む、前記方法。
【請求項14】
コンピューティングデバイスによって実行されると、該コンピューティングデバイスに、請求項1~12のいずれか1項に記載の方法を実行させるコンピュータ可読コードを含むコンピュータプログラム製品。
【請求項15】
1つまたはそれ以上のプロセッサおよびメモリを含むシステムであって、該メモリは、1つまたはそれ以上のプロセッサによって実行されると、該システムに、請求項1~12のいずれか1項に記載の方法を実行させるコンピュータ可読命令を含む、前記システム。
【請求項16】
請求項1~13のいずれか1項に記載の方法を用いて生成または合成される少なくとも1つの生物学的/医学的に活性の分子を含む薬物。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書は、メモリネットワークを用いて、骨格制約下で潜在的な医薬分子を生成するためのシステムおよび方法に関する。
【背景技術】
【0002】
新たな薬物を見つけることは、長く、コストがかかる困難な問題であり、薬物発見パイプライン全体に沿って潜在的失敗が存在し、全体的な成功率はわずか4%近くである。医薬品化学が生体活性分子を潜在的薬物に微細化するリード最適化は、発見パイプラインにおける時間およびコストの主要な部分を占める。良好な薬物候補を見つけることは、安全性およびADME(吸収、分布、代謝、排泄)に関するものなどの複数の基準を満たしながら、関心対象の標的において活性である分子を見つけることを必要とする。これに関して、リード最適化は、化学空間における多目的最適化問題とみなすことができる。
【0003】
薬物発見パイプラインにおけるde-novo薬物設計のための生成モデルおよびその適用に対する関心が近年高まっている。生成モデルは、2つのタイプのタスク:分布学習および目標指向学習について研究されてきた。分布学習は、生成モデルをトレーニングするために用いられる初期データセットに類似した分子の大きなライブラリをサンプリングするために、既知のデータセットの分布を再生することを目的とする。他方で、目標指向学習は、スコアリング関数を入力として取り、最も高いスコアを有する分子を見つけることを目的とする。生成モデルをリード最適化に適用することは、実際に、目標指向学習の特殊な事例として理解することができ、ここで、スコアリング関数は、分子の適切性を異なるプロジェクトの目的に反映する。モデルが薬物様分子を生成するために学習したか否か、および目標指向学習の良好な開始点となるか否かを評価するために、分布学習ベンチマークも頻繁に用いられる。
【発明の概要】
【課題を解決するための手段】
【0004】
本明細書の第1の態様によれば、潜在的に生物学的/医学的に活性の分子を生成するコンピュータ実装方法が記載される。この方法は:メモリネットワークによって、潜在的な分子を生成するために分子骨格のトークン列表現における各トークンを順次処理することであって、トークン列表現は、分子骨格の所定の構造を表す複数のトークンと、分子骨格の開位置を表す1つまたはそれ以上のトークンとを含み、メモリネットワークは、メモリネットワークの内部状態を用いてトークン上の順次確率分布を符号化することと;メモリネットワークから、生成された分子のトークン列表現を出力することとを含む。分子骨格のトークン列表現における各トークンを順次処理することは、以下を含む:処理されている現在のトークンが、分子の開位置を表すトークンであるか否かを判定すること。現在のトークンが分子骨格の開位置を表さない場合、現在のトークンをメモリネットワークに読み込み、現在のトークンに基づいてメモリネットワークの内部状態を更新すること。現在のトークンが分子骨格の開位置を表す場合、終了条件が満たされるまで、メモリネットワークの現在の内部状態に基づいて、開位置について1つまたはそれ以上の候補トークンをサンプリングすること、および、前記サンプリングされたトークンに基づいて、各サンプリングされたトークンの後のメモリネットワークの内部状態を更新すること。開位置を表す1つまたはそれ以上のトークンは、1つまたはそれ以上の異なる開位置タイプを表すことができ、開位置におけるサンプリングの終了条件、および/または開位置におけるサンプリングのために利用可能なトークンは、前記開位置のタイプに依存する。
【0005】
方法は、開位置の終了条件が満たされた後、分子骨格のトークン列表現の順次処理を再開することをさらに含むことができる。
【0006】
分子骨格の開位置を表すトークンのうちの少なくとも1つは、分子骨格の開分岐を表すことができる。トークン列表現の許可されたトークンのセットは、分岐開放トークンと、分岐閉鎖トークンとを含むことができる。分子骨格の開分岐を表す開位置において1つまたはそれ以上の候補トークンをサンプリングすることは、サンプリングされた分岐閉鎖トークンの数が、候補トークンにおける分岐開放トークンの数に等しくなるまで候補トークンをサンプリングすることを含むことができる。分岐の1つまたはそれ以上のトークンを制約することができ、および/または分岐は線形フラグメントになるように制約することができる。
【0007】
分子骨格の開位置を表すトークンのうちの少なくとも1つは、分子骨格内の開リンカを表すことができる。分子骨格の開リンカを表す開位置において1つまたはそれ以上の候補トークンをサンプリングすることは:所定の確率分布に基づいて、サンプリングされる候補トークンの閾値数を決定することと;サンプリングされたトークンの数が候補トークンの閾値数に達するまで候補トークンをサンプリングすることとを含むことができる。
【0008】
トークン列表現の許可されたトークンのセットは、分岐開放トークンおよび分岐閉鎖トークン、ならびに/または1つもしくはそれ以上のサイクル開放およびサイクル閉鎖トークンを含むことができる。分子骨格の開リンカを表す開位置において1つまたはそれ以上の候補トークンをサンプリングすることは、全ての分岐が閉じ、全てのサイクルが閉じるまで、サンプリングされるトークンの閾値数を超えて候補トークンのサンプリングを継続することをさらに含むことができる。
【0009】
開位置において1つまたはそれ以上の候補トークンをサンプリングすることは、利用可能なトークンの適切なサブセットである別個のトークン選択肢の所定のセットから、候補トークンをサンプリングすることを含むことができる。
【0010】
メモリネットワークは、リカレントニューラルネットワークを含むことができる。メモリネットワークは、各々が既知の分子構造を表す複数のトークン列を含むトレーニングデータセットでメモリネットワークをトレーニングすることによって決定された、学習されたパラメータのセットを含むことができる。
【0011】
トークン列表現は、SMILES表現とすることができる。代替として、トークン列表現は、1文字または3文字アミノ酸表現を含む。
【0012】
本明細書のさらなる態様によれば、リード最適化のコンピュータ実装方法が記載される。この方法は、反復的に:本明細書に記載の方法のうちの任意のものを用いて所与の骨格を有する1つまたはそれ以上の潜在的な分子構造を生成することと;分子の1つまたはそれ以上の標的特性を表すスコアリング関数を用いて1つまたはそれ以上の潜在的な分子構造の各々をスコアリングすることと;スコアリング関数に関する閾値条件が満たされる場合、潜在的な分子構造を、潜在的に生物学的/医学的に活性の分子のセットの一部として記憶することと;1つまたはそれ以上の潜在的な分子構造の各々のスコアに基づいて、メモリネットワークのパラメータを微調整することとを含む。
【0013】
本明細書のさらなる態様によれば、潜在的に生物学的/医学的に活性の分子を合成する方法が記載される。この方法は:本明細書に記載のコンピュータ実装方法のうちの任意のものを用いて潜在的に生物学的/医学的に活性の分子の構造を生成することと;生成された構造に基づいて、潜在的に生物学的/医学的に活性の分子を合成することとを含む。
【0014】
本明細書のさらなる態様によれば、コンピューティングデバイスによって実行されると、このコンピューティングデバイスに、本明細書に記載のコンピュータ実装方法のうちの任意のものを実行させるコンピュータ可読コードを含むコンピュータプログラム製品が記載される。
【0015】
本明細書のさらなる態様によれば、1つまたはそれ以上のプロセッサおよびメモリを含むシステムが記載される。このメモリは、1つまたはそれ以上のプロセッサによって実行されると、このシステムに、本明細書に記載のコンピュータ実装方法のうちの任意のものを実行させるコンピュータ可読命令を含む。
【0016】
本明細書のさらなる態様によれば、本明細書に記載の方法のうちの任意のものを用いて生成される少なくとも1つの生物学的/医学的に活性の分子を含む薬物が提供される。
【0017】
本明細書のさらなる態様によれば、本明細書に記載の方法のうちの任意のものを用いて合成される少なくとも1つの生物学的/医学的に活性の分子を含む薬物が提供される。
【0018】
ここで、実施形態が、添付の図面を参照して非限定的例として説明される。
【図面の簡単な説明】
【0019】
【
図1】骨格制約下で分子構造を生成する例示的な方法の概略図である。
【
図2】メモリネットワークをトレーニングして分子構造を生成する例示的な方法の概略図である。
【
図3】強化学習を用いて、骨格制約下で分子構造を生成する例示的な方法の概略図である。
【
図4】骨格制約下で分子構造を生成する例示的な方法のフロー図である。
【
図5】本明細書に開示される方法のうちの任意のものを実行するための例示的なシステムの概略図である。
【発明を実施するための形態】
【0020】
現実世界のリード最適化プロジェクトは、多くの場合、設計される分子の骨格に制約を課す。パイプラインのリード識別段階中に興味深い骨格が識別され、多くの場合、パイプラインの残り全体にわたって、わずかな変更または変化のみを伴って保持される。分子の骨格、または「コア」は:(i)パイプラインにおいてより早期に識別された生体活性を保存すること、(ii)収集された事前情報が関連する、化学空間のエリア内に留まり、SAR(構造活性関係)を理解可能なものにすること、および(iii)共通前駆体を用いることによって化合物合成の高いスループットを維持し、設計-作成-試験-分析(DMTA)サイクルを、産業標準によって受容可能なレベルまで加速すること、への鍵である。したがって、リード最適化は、骨格制約下の多目的最適化問題とみなすことができる。
【0021】
本明細書に開示されるシステムおよび方法は、トークンのシーケンスにおいていずれのトークンが各ステップにおいてサンプリングされることを許可されているかを理解することによって、分子に対する骨格制約に依然として順応しながら、分子構造を表すトークンにわたる順次確率分布からサンプリングする。さらに、システムおよび方法は、開位置のサンプリング後に骨格の読み出しを再開し、開位置、およびこの開位置について以前にサンプリングされたトークンの関数として、骨格の読み出しを再開するときを決定することができる。
【0022】
さらに、骨格固有のトレーニングは必要とされず、最適化プロセスのサンプリング段階のみが変更される必要がある。これを行うことにより、薬物様分子の大きく多岐にわたるコーパスを記述するトークン列における汎用的な確率分布を用いて、特定の骨格を有する分子をサンプリングすることができる。このため、同じモデルを様々な骨格のために用いることができ、全ての新たな骨格についてモデルを再トレーニングすることは必要とされない。
【0023】
また、提案される方法は、一度で/トークンのシーケンスの1回の通過で、複数の開位置を完成させることができる。さらに、モデルは、複数の開位置の完了の同時確率分布を表す。これは、同時に複数の開位置における共同最適化を可能にする。これは既存の方法を用いると可能でない。
【0024】
図1は、骨格制約下で分子構造を生成する例示的な方法100の概略図を示す。方法は、1つまたはそれ以上のロケーションにおいて動作している1つまたはそれ以上のコンピューティングシステムによって実行することができる。
【0025】
所定の分子骨格102は、骨格の所定の分子構造および1つまたはそれ以上の「開」位置を含む、分子骨格に関する構造情報を含むトークン列s(本明細書において、「文字列」とも呼ばれる)として表される。分子骨格102を表すトークン列は、メモリネットワーク104に順次入力され、メモリネットワーク104は、入力されたトークンを順次処理して、潜在的な分子の完成した分子構造106を生成する。これは、完成したトークン列{x0,…xn}、すなわち、開位置を含まないトークン列として表すことができる。骨格が制約された生成の場合、メモリネットワーク104は、骨格102を表すトークン列のトークンに従うように制約され、サンプリングは、分子骨格102の開位置に到達したときにのみ有効にされる。
【0026】
分子骨格102を表すトークン列は、トークン(「文字」とも呼ばれる)の列を含む。トークンの列は、各々が、原子、構造に対応するか、または(たとえば数を用いることによって)サイクルの開閉および(丸括弧を用いることによって)分岐、立体化学、もしくは(たとえば、二重結合の場合、シンボル「=」を用いること等によって)多重結合などの他の構造情報を表す複数の「固定」トークンを含む。トークンは、たとえば、原子の原子シンボルを含むことができる。トークンは、分子の分岐の開閉を表すトークン、たとえば、それぞれ分岐の開始および終了を表す開丸括弧および閉丸括弧をさらに含むことができる。トークンは、アミノ酸、ペプチドまたは他の多重原子構造などの分子構築ブロックを表すトークンを含むことができる。
【0027】
分子骨格102を表すトークン列は、追加の分子構造をサンプリングすることができる骨格内の開位置を表す1つまたはそれ以上の「開」トークンをさらに含む。たとえば、トークン「*」の各インスタンスは、分子骨格における開位置を表すことができる。換言すれば、骨格を表すトークン列は、分子全体の未完成のトークン列である。いくつかの実施形態では、開位置は、複数のサブタイプに分割することができる。サブタイプは:骨格102に分岐した装飾を提供する分岐点(これらは、「Rグループ」と呼ばれる場合もあり、文字列において「(*)」として表すことができる);分子の異なるサイクルをリンク付けするリンカ;および/または、開位置においてサンプリングすることができる可能なトークンが、利用可能なトークンの適切なサブセットに限定される、制約された選択肢、のうちの1つまたはそれ以上を含むことができる。制約された選択肢タイプの開位置を、分岐点および/またはリンカと組み合わせて、制約された分岐点および/または制約されたリンカを含む開位置を作成することができることに留意されたい。
【0028】
いくつかの実施形態では、トークン列102は、トークン列102の開始を示す初期化トークンを含む。トークン列は、トークン列102の終了を示す列終了トークンをさらに含むことができる。
【0029】
そのような文字列表現の例は、SMILES言語である(たとえば、「SMILES-A Language for Molecules and Reactions」、Weininger D.、 Handbook of Chemoinformatics2008、80-102を参照)。分子グラフから分子のSMILES表現を生成するために、サイクルが分解され、数字でマーキングされ、開始原子が選択される。SMILES列は、選択された原子において開始する深さ優先巡回において遭遇するノードのシンボルをプリントすることによって得られ、丸括弧はグラフ内の分岐点を示す。所与の分子グラフについて、開始原子として可能な限り多くのSMILESが存在する。正規化アルゴリズムを用いて、開始原子(ibid.)を選び、これにより、分子の正規SMILESをもたらすことができる。対応する分子グラフは、所与のSMILESから容易に取り出すことができる。
【0030】
メモリネットワーク104は、メモリネットワーク104の内部状態h(本明細書において、「隠れ状態」とも呼ばれる)に基づいて入力トークンを順次処理する機械学習モデルである。内部状態は、メモリネットワークの学習されたパラメータθに基づいて、入力トークンのシーケンス内の各トークンの処理後に更新される。メモリネットワーク104の内部状態は、ネットワーク104によってこれまで処理されたトークンに関する情報を記憶する。入力トークンを処理することは、トークンをメモリネットワーク104に読み込み、1つまたはそれ以上の対応する出力トークンを生成することを含む。入力トークンに応じて、出力トークンは単に入力トークンである場合があり、たとえば、入力トークンが固定トークンである場合、対応する出力は固定トークンである。入力トークンが開トークンに対応する場合、メモリネットワーク104は、メモリネットワークの現在の状態に基づいて可能なトークンをサンプリングすることによって、1つまたはそれ以上の出力トークンを生成する。いずれの場合も、メモリネットワーク104の状態は、入力トークンの処理に従って更新される。
【0031】
メモリネットワークはメモリニューラルネットワークとすることができる。そのようなネットワークの例は、長短期記憶(LSTM)ネットワークなどのリカレントニューラルネットワーク(RNN)である。
【0032】
メモリネットワーク104は、これまでの列内の文字を条件として、列の文字/トークンにわたって条件付き確率分布をモデル化することによって、順次に分子106を表す出力トークン列を生成することができる。メモリネットワーク104は、以前のトークン{x
0,…,x
t-1}からの情報を処理し、次の出力トークンx
tを生成するために内部状態hに依拠し、条件付き確率P(x
t|x
0,…,x
t-1)をP(x
t|h
t-1)としてモデル化する。すなわち、条件付き確率は隠れ状態を用いて符号化される。いくつかの実施形態では、プロセスは以下のアルゴリズムによって表すことができる。
【化1】
【0033】
ここで、GOおよびEOSは、それぞれ、列の最初のトークンおよび最後のトークンであり、yは、サンプリングされたトークンy1,…,ykの列の長さkである。サンプリング手順は、サンプリングされている開位置のタイプに依存することができる。
【0034】
開位置におけるサンプリングは、終了条件が満たされるまで継続する。終了条件が満たされると、メモリネットワークは、入力トークン列表現(すなわち、骨格)内の次のトークンの読み出しを再開する。開位置の終了条件は、開位置のタイプ(たとえば、分岐点であるか、リンカ位置であるかまたは何らかの他のタイプの開位置であるか)に依存することができる。代替としてまたはさらに、終了条件は、これまでサンプリングされたトークンに依存することができる。
【0035】
いくつかの実施形態では、開位置が分岐点である場合、メモリネットワーク104は、分岐が開いている限り、トークンをサンプリングする。分岐開放トークンに一致する分岐閉鎖トークンがサンプリングされるとき、分岐は終了し、メモリネットワーク104は、骨格102の残りの部分の読み出しを再開する。いくつかの実施形態では、サンプリング中、メモリネットワーク104は、追加の分岐開放トークン(たとえば、開丸括弧「(」)をサンプリングすることができる。これらの実施形態では、追加の分岐閉鎖トークン(たとえば、閉丸括弧「)」)は、分岐全体が閉じる前にサンプリングされるべきである。したがって、丸括弧の開閉全体がサンプリング中に追跡される。サンプリングは、分岐閉鎖トークンの数が分岐開放トークンの数と同じになったときに終了することができる。
【0036】
分岐点のサンプリング手順は、以下の例示的なアルゴリズムによって与えることができる。
【化2】
【0037】
いくつかの実施形態では、分岐のためのサンプリング手順に追加の制約を課すことができる。たとえば、分岐の初期トークンを指定することができ(たとえば、「(*)」の代わりに「(CN*)」)、および/または分岐は、(たとえば、分岐開放および分岐閉鎖トークンのサンプリングを阻止することによって)新たな分岐/サイクルの開放を禁止することによって線形フラグメントになるように制約することができる。
【0038】
開位置がリンカ(たとえば、サイクル間のリンカ)である場合、分岐位置の場合と対照的に、サンプリングを終了するときに関するインジケーションがない。代わりに、リンカ位置の場合、サンプル/フラグメントの長さの所定の確率分布Psizeを用いて、サンプリングを終了するときを決定する。サンプル/フラグメントの長さの所定の確率分布はユーザが定義することができる。リンカ開位置を用いて分子のコアを変更する能力は、本方法が、単純な骨格装飾以上のものに取り組み、このため、たとえば骨格ホッピングも行うことを可能にする。
【0039】
所定の確率分布を用いて、サンプリングされるトークン/文字の数ncharを定義することができる。
【0040】
いくつかの実施形態では、リンカ開位置のうちの1つまたはそれ以上は、分岐および/またはサイクルを有しないように制約する(たとえば、分岐開放および分岐閉鎖トークンをサンプリングすることを禁止する)ことができる。これらの実施形態において、サンプル/フラグメントの長さの所定の確率分布を用いて、リンカ開位置のサンプリングを停止するときを決定する。
【0041】
いくつかの実施形態では、リンカ開位置のうちの1つまたはそれ以上には、サンプリング中に追加の分岐および/またはサイクルを生成する(たとえば、分岐開放トークンおよび分岐閉鎖トークンをサンプリングする)ことを許可することができる。これらのリンカ開位置について、分岐開放および分岐閉鎖トークンが追跡され、サンプリングが終了する前に、分岐およびサイクルが完成していること、すなわち、フラグメント/サンプルが開サイクルおよび/または開分岐を含まないことが確実にされる。このため、そのようなリンカ開位置の停止基準は、所定の確率分布と、フラグメント/サンプルが開サイクルおよび/または開分岐を含まないという条件との組合せである。
【0042】
リンカ点のサンプリング手順は、以下の例示的なアルゴリズムによって与えることができる。
【化3】
【0043】
いくつかの実施形態では、開位置におけるサンプリングのために利用可能なトークンのシーケンスは、所定の数の別個の選択肢、すなわち、開位置においてサンプリングされうる、可能性のあるトークン列の適切なサブセットに制約することができる。リード最適化キャンペーン中、骨格におけるわずかな変動に多くの場合遭遇するため、選択肢を、この所与の文脈内に存在するいくつかの可能性に制限することが有利でありうる。
【0044】
これを実施するために、トークン列表現のために用いられる言語は、そのような別個の選択肢を扱うように拡張することができる。そのような拡張の例は、別個の選択肢を扱う、SMILESの拡張であるSMARTS言語である。この例において、k個の文字/シーケンス間の別個の選択肢は、[x
1;x
2;…;x
k]として表すことができる。この構文を用いて、別個の選択肢の有限のセットの間でサンプリングを行うことができる。サンプリング手順は、可能性のあるサンプリングされたトークンを、別個の選択肢内に存在するものに制約することによって達成することができる。確率分布を再正規化し、次にサンプリングすることができる。いくつかの例において、P(x
t│h
t-1)から次のトークンを引き出す代わりに、これを以下からサンプリングすることができる。
【数1】
【0045】
強化学習(RL)を方法100に適用して、方策勾配またはヒルクライムのいずれかを通じて最適化された分子を設計することができる。これらは共に、メモリネットワークを微調整して高スコアの分子を生成することによって最高スコアのトークン列の確率を最大にすることを目的としている。ヒルクライムは、様々な目標指向ベンチマークに対する最新技術の結果を達成することが示されている。以下に、
図3に関連して強化学習技法の例がさらに詳細に説明される。
【0046】
方法は、複数の開位置を一度に(たとえば、トークンシーケンスの1回の通過で)完成させることができる。さらに、メモリネットワークは、複数の開位置の完了の同時確率分布を表す。これは、本明細書に記載のRL方法を用いた同時に複数の開位置の共同最適化を可能にすることができる。これは既存の方法を用いると可能でない。
【0047】
図2は、メモリネットワークをトレーニングする方法200の概略図を示す。方法は、1つまたはそれ以上のロケーションにおいて動作している1つまたはそれ以上のコンピューティングシステムによって実行することができる。
【0048】
トレーニング中、メモリネットワーク204は、初期入力202を受信し、分子を表すトークン列206を生成する。目的関数208(本明細書において「損失関数」とも呼ばれる)を用いて、出力トークン列206に基づいてメモリネットワーク204に対するパラメータ更新を決定する。
【0049】
入力202は、たとえば、列開始トークンとすることができる。代替として、入力202は、トレーニングデータセット内の分子に対する既知の開始を表すトークン列とすることができる。
【0050】
メモリネットワーク204は、トークン列、すなわち、メモリネットワーク204内のこれまでのトークン列の開始を条件として、トークンにわたって条件付き確率分布をモデル化することによって、順次に出力トークン列206を生成する。s=x0,…,xnを、分子列のトークン化されたバージョンとする。ここで、{xi}は、SMILESなどの言語からのトークン/文字である。いくつかの実施形態では、x0およびxtは、それぞれ、列開始および列終了トークンを表す。メモリネットワーク204はP(xt│x0,…,xt-1)、すなわち、列内の前のトークンを所与としたトークンの条件付き確率をモデル化する。
【0051】
メモリネットワーク204は、シーケンスの開始を所与として次のトークンを予測するために薬物様分子のトレーニングデータセットでトレーニングされる。トレーニングデータセット内の分子は、薬物様分子のデータベースから取得することができる。そのようなデータベースの例はChEMBL20であるが、代替として他のデータベースを用いることができることが理解されよう。薬物様分子は、データベースにおいてトークン列として表されるか、またはメモリネットワーク204への入力前に1に変換される。メモリネットワーク204を検証するのに用いられる検証データセットも、薬物様分子のデータベースから生成することができる。このデータベースは、薬物様分子のデータベースのサブセットとすることができる。
【0052】
トレーニングデータセットは、多岐にわたる薬物様化合物を含む汎用データセットとすることができる。そのようなデータセットでトレーニングされたメモリネットワーク204は、潜在的に興味深い分子を生成するとき、大きく多様な化学空間を探索することを可能とすることができる。
【0053】
代替として、トレーニングデータセットは、1つまたはそれ以上の所定の化学系統(たとえば、単一の化学系統)からの分子を含む、焦点を絞ったトレーニングデータセットとすることができる。そのようなデータセットでトレーニングされたメモリネットワーク204は、所与の化学系統に密接に類似したものを生成することを可能にすることができる。
【0054】
例として、トレーニングデータセットは、データベース(たとえば、ChEMBL)から所定の数の(たとえば、120万個の)分子を抽出し、これらを1つまたはそれ以上の所定の基準を用いてフィルタリングすることによって、データベースから生成することができる。所定の基準は:サイズ;存在する原子;および/または大員環の存否のうちの1つまたはそれ以上を含むことができる。
【0055】
新たな骨格の周りで分子を生成する能力を検証するために、検証データセットを生成することができる。検証データセットは、特許を取得した分子のデータベースであるSureChEMBL23データベースなどの分子の既知のデータベースから生成することができる。分子は、Bemis-Murcko骨格によってクラスタ化することができ、異なる骨格を有する所定の数(たとえば、18個)の化学系統を抽出することができる。これらの骨格は、トレーニングセット内に存在するのではなく、現実世界の薬物発見プロジェクトからサンプリングされることに基づいて、検証のために選択することができる。代替としてまたはさらに、これらの骨格のうちの1つを有する任意の分子をトレーニングセットから除去することができる。
【0056】
化学空間の焦点を絞った領域を探索し、所与の系統の類似物を設計するために、抽出された化学系統の中から最も大きな分子(たとえば、最も大きな93個の分子)を分離することができる。これにより、検証セットについての複数の骨格(たとえば、17個)と、焦点を絞った学習検証セットのための1つの骨格とが得られる。
【0057】
メモリネットワーク204のパラメータθに対する更新値を決定するために、トレーニングは、損失関数208Lに最適化手順を反復的に適用することによって達成される。最適化手順の目的は、メモリネットワーク204パラメータに対し損失関数208を最小にすることとすることができる。最適化手順は、たとえば、統計勾配降下などの勾配降下法とすることができる。損失関数は、トレーニングセットトークン列の負の対数尤度とすることができ、たとえば、以下のようにすることができる:
【数2】
ここで、x
0はトークン列の初期トークンであり、トークン列はT個のトークンの総長を有する。メモリネットワーク204は、現在の内部状態hを用いて以前のトークンからの情報を処理し、条件付き確率P(x
t│x
0,…,x
t-1)をP(x
t│h
t-1)としてモデル化する。ステップtにおけるメモリネットワーク204の内部状態h
tは、これまでの列内のトークンx
0,…,x
tおよびメモリネットワークのパラメータθに依存する。
【0058】
いくつかの実施形態では、トレーニングデータセットは、非正規トークン列を用いてトレーニングデータセットを強化することによって拡張される。これにより、トレーニングされたメモリネットワーク204の性能を改善することができる。
【0059】
条件付き確率分布P(x
t│x
0,…,x
t-1)が学習されると、トークン列全体のサンプリングは、GOトークンを用いてシーケンスを初期化し、次にトークンを順次サンプリングすることによって達成することができる。この手順は、列終了トークンがサンプリングされると終了し、トークン列をその対応する尤度と共に返す。これは後方伝播を受け入れる。しかしながら、トレーニングされたメモリネットワークは、
図1との関連で上記で説明したように、骨格が制約された生成のためにも用いることができる。
【0060】
図3は、メモリネットワークを用いて潜在的に医学的に活性の分子を生成するための例示的な方法300の概略図を示す。方法は、1つまたはそれ以上のロケーションにおいて動作している1つまたはそれ以上のコンピューティングシステムによって実行することができる。
【0061】
図3の方法は、潜在的に生物学的/医学的に活性の分子を生成するための強化学習方法のサブルーチンとして用いることができる。メモリネットワーク304を用いて、所定の骨格302から潜在的な分子306を表すトークン列を生成する。出力トークン列表現306(またはそれらが表す分子)は、分子の1つまたはそれ以上の標的特性を表すスコアリング関数308を用いてスコアリングされる。メモリネットワーク304のパラメータθは、たとえばスコアを最大にする目的で、生成された分子のスコアに基づいて微調整される。スコアリング関数308に基づいて閾値条件を満たす生成された分子は、潜在的に生物学的/医学的に活性の分子310のセットを生成するように保持される。
【0062】
スコアリング関数308は、たとえば、分子が関心対象の生物学的標的に向けて活性となる可能性が高いか否かを表すことができる。スコアリング関数308は、数学関数とすることができ、および/または分子に対し1つまたはそれ以上の実験を行うことによって生成することができる。スコアリング関数は、分子の予測pIC50スコアに基づくことができる。例として、スコアリング関数は以下によって与えることができる:
f=max(1,1-(7.5-pIC50)/7.5)
【0063】
スコアリング関数の別の例はQSARモデルであるが、標的の特性に応じて、他の関数を用いることができることが理解されよう。
【0064】
メモリネットワーク304のパラメータθは、このスコアリング関数308に基づいて微調整される。たとえば、ヒルクライム方法または方策勾配方法をスコアリング関数に適用することができる。この微調整プロセスは反復することができ、閾値を超えるスコアを有する生成された分子は保持され、閾値未満のスコアを有する分子は破棄される。代替として、反復あたり、上位N個の分子(たとえば、50個)を保持することができる。所定の数の強化学習実行(たとえば、10回)を適用して、潜在的に医学的に活性の分子310のセットを生成することができる。
【0065】
いくつかの実施形態では、潜在的に医学的に活性の分子310のセットにおける上位スコアの分子(たとえば、上位50個)のみが保持され、残りは破棄される。これらの分子は、実際に生物学的/医学的に活性であるか否かを判定するように合成することができる。
【0066】
強化学習方法のための分子を生成するために、骨格が制約された方法を用いることにより、分子の設計要件を満たす生成された分子の割合を改善することができる。さらに、メモリネットワークは、トークンにわたる同時確率分布を符号化するため、強化学習を用いてメモリネットワークを最適化することによって、一度に複数の開位置にわたって共同で最適化することができる。
【0067】
図4は、骨格制約下で潜在的な分子構造を生成する例示的な方法のフロー図を示す。方法は、1つまたはそれ以上のロケーションにおいて動作している1つまたはそれ以上のコンピューティングシステムによって実行することができる。
【0068】
分子骨格を表すトークン列のトークンが、メモリネットワークに順次入力され、メモリネットワークは、これらを処理して、潜在的な医薬分子を生成する。
【0069】
動作4.1において、分子骨格を表すトークン列からのトークンがメモリネットワークに入力される。これは、列の最初のトークンまたはまだ処理されていない列内の次のトークンとすることができる。このトークンは、「現在のトークン」と呼ばれる。トークン列は、SMILES表現とすることができる。メモリネットワークは、LSTMネットワークなどのリカレントニューラルネットワークとすることができる。メモリネットワークは、各々が既知の分子構造を表す複数のトークン列を含むトレーニングデータセットについてメモリネットワークをトレーニングすることによって決定された、学習されたパラメータのセットを含むことができる。メモリネットワークは、上記で説明したように、メモリネットワークの内部状態hを用いてトークン上の順次確率分布を符号化する。
【0070】
動作4.2において、処理されている現在のトークンが分子骨格の開位置を表すか否かが判定される。現在のトークンが分子骨格の開位置を表すと判定される場合、方法は動作4.3に進む。現在のトークンが分子骨格の開位置を表さない(たとえば、分子骨格の固定構造/制約を表す)と判定される場合、方法は動作4.4に進む。
【0071】
動作4.3において、メモリネットワークの現在の内部状態hに基づいて開位置の1つまたはそれ以上の候補トークンがサンプリングされ、サンプリングされたトークンに基づいてメモリネットワークの内部/隠れ状態が更新される。メモリネットワークの隠れ状態を更新することは、メモリネットワークの学習されたパラメータθにさらに基づくことができる。
【0072】
開位置におけるトークンは、1つまたはそれ以上のトークンを含む開位置についてトークン列を生成するために、開位置の終了条件が満たされるまでサンプリングされる(およびトークン列に追加される)。終了条件は、現在ポピュレートされている開位置のタイプ(たとえば、開分岐またはリンカ位置)および/またはこれまでにサンプリングされたトークンに基づくことができる。次に、方法は、動作4.5に進む(すなわち、入力トークン列の読み出しを再開する)。
【0073】
メモリネットワークの内部状態hは、サンプリングされたトークンの各々について更新することができる。換言すれば、サンプリングされ、トークン列に追加される全てのトークンについて、メモリネットワークの内部状態がサンプリングされたトークンに基づいて更新される。このため、複数のトークンがサンプリングされているとき、内部状態は複数回更新される。
【0074】
いくつかの実施形態では、分子骨格の開位置を表すトークンのうちの少なくとも1つが、たとえばトークン「(*)」によって表される分子骨格の開分岐を表す。
【0075】
トークン列表現の許可されたトークンのセットは、分岐開放トークンと、分岐閉鎖トークンとを含むことができる。これらの実施形態において、分子骨格の開分岐を表す開位置において1つまたはそれ以上の候補トークンをサンプリングすることは、サンプリングされた分岐閉鎖トークンの数が、候補トークンにおける分岐開放トークンの数に等しくなるまで候補トークンをサンプリングすることを含む。これにより、分岐(およびその部分分岐)が適切に閉鎖していることが確実にされる。
【0076】
開分岐は制約されていない場合がある。開分岐は制約されている場合がある。たとえば、開分岐は、線形フラグメントであるように(たとえば、部分分岐および/またはサイクルを有しないように)および/または所定の初期構造を有するように制約されている場合がある。
【0077】
いくつかの実施形態では、分子骨格の開位置を表すトークンのうちの少なくとも1つが分子骨格内の開リンカを表す。そのような実施形態では、分子骨格の開リンカを表す開位置において1つまたはそれ以上の候補トークンをサンプリングすることは:所定の(たとえば、ユーザが定義した)確率分布に基づいて、サンプリングされる候補トークンの閾値数を決定することと;サンプリングされたトークンの数が候補トークンの閾値数に達するまで候補トークンをサンプリングすることとを含むことができる。
【0078】
そのような実施形態におけるトークン列表現の許可されたトークンのセットは、分岐開放トークン、分岐閉鎖トークン(たとえば、「(」および「)」)、ならびに/または1つもしくはそれ以上のサイクル開放およびサイクル閉鎖トークン(たとえば、数)を含むことができる。分子骨格の開リンカを表す開位置において1つまたはそれ以上の候補トークンをサンプリングすることは、全ての分岐が閉じ、全てのサイクルが閉じるまで、サンプリングされるトークンの閾値数を超えて候補トークンのサンプリングを継続することをさらに含むことができる。
【0079】
リンカは制約されていない場合がある。代替として、リンカは制約されている場合がある。たとえば、リンカは、線形フラグメントであるように(たとえば、分岐および/またはサイクルを有しないように)および/または所定の初期構造を有するように制約されている場合がある。
【0080】
骨格は、開分岐およびリンカの双方を含むことができることに留意されたい。
【0081】
開位置において1つまたはそれ以上の候補トークンをサンプリングすることは、利用可能なトークン/トークンシーケンスの適切なサブセットである別個のトークン選択肢の所定のセットから、候補トークンをサンプリングすることを含むことができる。
【0082】
動作4.4において、現在のトークンはメモリネットワークに読み込まれ、メモリネットワークの内部状態hは、現在のトークンに基づいて更新される。メモリネットワークの隠れ状態を更新することは、メモリネットワークの学習されたパラメータθにさらに基づくことができる。そのような入力トークンに対応する生成された分子の出力トークンは、その入力トークンに制約され、すなわち、他のトークンはメモリネットワークを用いてサンプリングされない。次に、方法は動作4.5に進む。
【0083】
動作4.5において、トークン列の終了に達したか否かが判定される。列終了トークンに達していない場合、方法は、動作4.1に戻り、シーケンス内の次のトークンがメモリネットワークに入力される(または代替として、これまで生成された分子がメモリネットワークに入力される)。列終了トークンに達した場合、方法は動作4.6に進む。
【0084】
いくつかの実施形態では、動作4.5は、代替として、動作4.2の前に実行することができ、終了トークンに達していない場合、方法は動作4.3に進み、終了トークンに達している場合、動作4.6に進む。
【0085】
動作4.6において、分子の生成されたトークン列表現がメモリネットワークによって出力される。出力分子は、それらが生物学的/医学的に活性であるか否かを判定するように合成することができる。
【0086】
分子を表すトークン列としてSMILESを用いる上記で説明されたこの手法は、ペプチドおよびタンパク質のための1文字または3文字アミノ酸コードなどの分子の他の文字/トークン列表現を用いて適用することもできることに留意されたい。これは、骨格制約下でより大きな分子の生成を可能にする。
【0087】
図5は、本明細書に記載の方法のうちの任意のものを実行するためのシステム/装置の概略的な例を示す。示すシステム/装置は、コンピューティングデバイスの例である。代替として、分散コンピューティングシステムなどの他のタイプのコンピューティングデバイス/システムを用いて、本明細書に記載の方法を実施することができることが当業者には理解されよう。
【0088】
装置(またはシステム)500は、1つまたはそれ以上のプロセッサ502を含む。1つまたはそれ以上のプロセッサは、システム/装置500の他の構成要素の動作を制御する。1つまたはそれ以上のプロセッサ502は、たとえば、汎用プロセッサを含むことができる。1つまたはそれ以上のプロセッサ502は、シングルコアデバイスまたはマルチコアデバイスとすることができる。1つまたはそれ以上のプロセッサ502は、中央処理ユニット(CPU)またはグラフィック処理ユニット(GPU)を含むことができる。代替として、1つまたはそれ以上のプロセッサ502は、専用処理ハードウェア、たとえばRISCプロセッサ、または埋め込まれたファームウェアを用いてプログラム可能なハードウェアを含むことができる。複数のプロセッサを含めることができる。
【0089】
システム/装置は作業メモリまたは揮発性メモリ504を含む。1つまたはそれ以上のプロセッサは、データを処理するために揮発性メモリ504にアクセスすることができ、メモリ内のデータの記憶を制御することができる。揮発性メモリ504は、任意のタイプのRAM、たとえば、静的RAM(SRAM)、動的RAM(DRAM)を含むことができるか、またはSDカードなどのフラッシュメモリを含むことができる。
【0090】
システム/装置は不揮発性メモリ506を含む。不揮発性メモリ506は、コンピュータ可読命令の形態でプロセッサ502の動作を制御するための動作命令のセット808を記憶する。不揮発性メモリ506は、リードオンリーメモリ(ROM)、フラッシュメモリまたは磁気ドライブメモリなどの任意の種類のメモリとすることができる。
【0091】
1つまたはそれ以上のプロセッサ502は、システム/装置に、本明細書に記載の方法のうちの任意のものを実行させる動作命令508を実行するように構成される。動作命令508は、システム/装置500のハードウェア構成要素に関するコード(すなわち、ドライバ)、およびシステム/装置500の基本動作に関するコードを含むことができる。一般的に言えば、1つまたはそれ以上のプロセッサ502は、不揮発性メモリ506に恒久的または半恒久的に記憶される動作命令508のうちの1つまたはそれ以上の命令を、前記動作命令508の実行中に生成されるデータを一時的に記憶する揮発性メモリ504を用いて実行する。
【0092】
本明細書に記載の方法の実施は、デジタル電子回路部、集積回路部、特殊設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェアおよび/またはそれらの組合せとして実現することができる。これらは、
図5に関して記載したコンピュータなどのコンピュータによって実行されると、コンピュータに、本明細書に記載の方法のうちの1つまたはそれ以上を実行させるコンピュータ可読命令を含む、(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス上に記憶されたソフトウェアなどの)コンピュータプログラム製品を含むことができる。
【0093】
本明細書に記載の任意のシステム機能は、方法機能として提供することもでき、逆もまた同様である。本明細書において用いられるとき、ミーンズプラスファンクション機能は、代替として、それらの対応する構造の観点で表すことができる。特に、方法の態様は、システムの態様に適用することができ、逆もまた同様とすることができる。
【0094】
さらに、1つの態様における任意の、いくつかのおよび/または全ての構成は、任意の適切な組合せで任意の他の態様における任意の、いくつかのおよび/または全ての構成に適用することができる。本発明の任意の態様に記載され定義された様々な構成の特定の組合せは、独立して実施および/または供給および/または使用することができることを理解されたい。
【0095】
いくつかの実施形態を示し記載してきたが、当業者であれば、これらの実施形態において、本開示の原理から逸脱することなく変更を行うことができることを理解するであろう。本開示の範囲は、特許請求の範囲において規定されている、およびその均等物である。
【0096】
「薬物」または「薬剤」という用語は、本明細書では同義的に用いられ、1つもしくはそれ以上の活性医薬成分またはそれらの薬学的に許容可能な塩もしくは溶媒和物と、場合により薬学的に許容可能な担体と、を含む医薬製剤を記述する。活性医薬成分(「API」)とは、最広義には、ヒトまたは動物に対して生物学的効果を有する化学構造体のことである。薬理学では、薬剤または医薬は、疾患の治療、治癒、予防、または診断に使用されるか、さもなければ身体的または精神的なウェルビーイングを向上させるために使用される。薬物または薬剤は、限定された継続期間で、または慢性障害では定期的に使用可能である。
【0097】
以下に記載されるように、薬物または薬剤は、1つもしくはそれ以上の疾患の治療のために各種タイプの製剤中に少なくとも1つのAPIまたはその組合せを含みうる。APIの例としては、500Da以下の分子量を有する低分子、ポリペプチド、ペプチド、およびタンパク質(たとえば、ホルモン、成長因子、抗体、抗体フラグメント、および酵素)、炭水化物および多糖、ならびに核酸、二本鎖または一本鎖DNA(ネイキッドおよびcDNAを含む)、RNA、アンチセンス核酸たとえばアンチセンスDNAおよびRNA、低分子干渉RNA(siRNA)、リボザイム、遺伝子、およびオリゴヌクレオチドが挙げられうる。核酸は、ベクター、プラスミド、またはリポソームなどの分子送達システムに取り込み可能である。1つまたはそれ以上の薬物の混合物も企図される。
【0098】
薬物または薬剤は、薬物送達デバイスでの使用に適合化された一次パッケージまたは「薬物容器」に包含可能である。薬物容器は、たとえば、1つもしくはそれ以上の薬物の収納(たとえば、短期または長期の収納)に好適なチャンバを提供するように構成されたカートリッジ、シリンジ、リザーバ、または他の硬性もしくは可撓性のベッセルでありうる。たとえば、いくつかの場合には、チャンバは、少なくとも1日間(たとえば、1日間~少なくとも30日間)にわたり薬物を収納するように設計可能である。いくつかの場合には、チャンバは、約1カ月~約2年間にわたり薬物を収納するように設計可能である。収納は、室温(たとえば、約20℃)または冷蔵温度(たとえば、約-4℃~約4℃)で行うことが可能である。いくつかの場合には、薬物容器は、投与される医薬製剤の2つ以上の成分(たとえば、APIと希釈剤、または2つの異なる薬物)を各チャンバに1つずつ個別に収納するように構成されたデュアルチャンバカートリッジでありうるか、またはそれを含みうる。かかる場合には、デュアルチャンバカートリッジの2つのチャンバは、人体もしくは動物体への投薬前および/または投薬中に2つ以上の成分間の混合が可能になるように構成可能である。たとえば、2つのチャンバは、互いに流体連通するように(たとえば、2つのチャンバ間の導管を介して)かつ所望により投薬前にユーザによる2つの成分の混合が可能になるように構成可能である。代替的または追加的に、2つのチャンバは、人体または動物体への成分の投薬時に混合が可能になるように構成可能である。
【0099】
本明細書に記載の薬物送達デバイスに含まれる薬物または薬剤は、多くの異なるタイプの医学的障害の治療および/または予防のために使用可能である。障害の例としては、たとえば、糖尿病または糖尿病に伴う合併症たとえば糖尿病性網膜症、血栓塞栓障害たとえば深部静脈血栓塞栓症または肺血栓塞栓症が挙げられる。障害のさらなる例は、急性冠症候群(ACS)、アンギナ、心筋梗塞、癌、黄斑変性、炎症、枯草熱、アテローム硬化症および/または関節リウマチである。APIおよび薬物の例は、ローテリステ2014年(Rote Liste 2014)(たとえば、限定されるものではないがメイングループ12(抗糖尿病薬剤)または86(オンコロジー薬剤))やメルク・インデックス第15版(Merck Index,15th edition)などのハンドブックに記載されているものである。
【0100】
1型もしくは2型糖尿病または1型もしくは2型糖尿病に伴う合併症の治療および/または予防のためのAPIの例としては、インスリン、たとえば、ヒトインスリン、もしくはヒトインスリンアナログもしくは誘導体、グルカゴン様ペプチド(GLP-1)、GLP-1アナログもしくはGLP-1レセプターアゴニスト、はそのアナログもしくは誘導体、ジペプチジルペプチダーゼ-4(DPP4)阻害剤、またはそれらの薬学的に許容可能な塩もしくは溶媒和物、またはそれらのいずれかの混合物が挙げられる。本明細書で用いられる場合、「アナログ」および「誘導体」という用語は、天然に存在するペプチドに存在する少なくとも1つのアミノ酸残基の欠失および/または交換によりおよび/または少なくとも1つのアミノ酸残基の付加により天然に存在するペプチドの構造たとえばヒトインスリンの構造から形式的に誘導可能な分子構造を有するポリペプチドを指す。付加および/または交換アミノ酸残基は、コード可能アミノ酸残基または他の天然に存在する残基または純合成アミノ酸残基のどれかでありうる。インスリンアナログは、「インスリンレセプターリガンド」とも呼ばれる。特に、「誘導体」という用語は、天然に存在するペプチドの構造から形式的に誘導可能な分子構造、たとえば、1つまたはそれ以上の有機置換基(たとえば脂肪酸)がアミノ酸の1つまたはそれ以上に結合したヒトインスリンの分子構造を有するポリペプチドを指す。場合により、天然に存在するペプチドに存在する1つまたはそれ以上のアミノ酸が、欠失し、および/または非コード可能アミノ酸を含めて他のアミノ酸によって置き換えられ、または天然に存在するペプチドに非コード可能なものを含めてアミノ酸が付加される。
【0101】
インスリンアナログの例は、Gly(A21)、Arg(B31)、Arg(B32)ヒトインスリン(インスリングラルギン);Lys(B3)、Glu(B29)ヒトインスリン(インスリングルリジン);Lys(B28)、Pro(B29)ヒトインスリン(インスリンリスプロ);Asp(B28)ヒトインスリン(インスリンアスパルト);位置B28のプロリンがAsp、Lys、Leu、ValまたはAlaに置き換えられたうえに位置B29のLysがProに置き換えられていてもよいヒトインスリン;Ala(B26)ヒトインスリン;Des(B28~B30)ヒトインスリン;Des(B27)ヒトインスリンおよびDes(B30)ヒトインスリンである。
【0102】
インスリン誘導体の例は、たとえば、B29-N-ミリストイル-des(B30)ヒトインスリン、Lys(B29)(N-テトラデカノイル)-des(B30)ヒトインスリン(インスリンデテミル、レベミル(Levemir)(登録商標));B29-N-パルミトイル-des(B30)ヒトインスリン;B29-N-ミリストイルヒトインスリン;B29-N-パルミトイルヒトインスリン;B28-N-ミリストイルLysB28ProB29ヒトインスリン;B28-N-パルミトイル-LysB28ProB29ヒトインスリン;B30-N-ミリストイル-ThrB29LysB30ヒトインスリン;B30-N-パルミトイル-ThrB29LysB30ヒトインスリン;B29-N-(N-パルミトイル-ガンマ-グルタミル)-des(B30)ヒトインスリン、B29-N-オメガ-カルボキシペンタデカノイル-ガンマ-L-グルタミル-des(B30)ヒトインスリン(インスリンデグルデク、トレシーバ(Tresiba)(登録商標));B29-N-(N-リトコリル-ガンマ-グルタミル)-des(B30)ヒトインスリン;B29-N-(ω-カルボキシヘプタデカノイル)-des(B30)ヒトインスリンおよびB29-N-(ω-カルボキシヘプタデカノイル)ヒトインスリンである。
【0103】
GLP-1、GLP-1アナログおよびGLP-1レセプターアゴニストの例は、たとえば、リキシセナチド(リキスミア(Lyxumia)(登録商標))、エキセナチド(エキセンジン-4、バイエッタ(Byetta)(登録商標)、ビデュリオン(Bydureon)(登録商標)、ヒラモンスターの唾液腺により産生される39アミノ酸ペプチド)、リラグルチド(ビクトーザ(Victoza)(登録商標))、セマグルチド、タスポグルチド、アルビグルチド(シンクリア(Syncria)(登録商標))、デュラグルチド(トルリシティ(Trulicity)(登録商標))、rエキセンジン-4、CJC-1134-PC、PB-1023、TTP-054、ラングレナチド/HM-11260C(エフペグレナチド)、HM-15211、CM-3、GLP-1エリゲン、ORMD-0901、NN-9423、NN-9709、NN-9924、NN-9926、NN-9927、ノデキセン、ビアドール-GLP-1、CVX-096、ZYOG-1、ZYD-1、GSK-2374697、DA-3091、MAR-701、MAR709、ZP-2929、ZP-3022、ZP-DI-70、TT-401(ペガパモドチド(Pegapamodtide))、BHM-034、MOD-6030、CAM-2036、DA-15864、ARI-2651、ARI-2255、チルゼパチド(LY3298176)、バマドゥチド(Bamadutide)(SAR425899)、エキセナチド-XTENおよびグルカゴン-Xtenである。
【0104】
オリゴヌクレオチドの例は、たとえば、家族性高コレステロール血症の治療のためのコレステロール低下アンチセンス治療剤ミポメルセンナトリウム(キナムロ(Kynamro)(登録商標))、またはアルポート症候群の治療のためのRG012である。
【0105】
DPP4阻害剤の例は、リナグリプチン、ビダグリプチン、シタグリプチン、デナグリプチン、サキサグリプチン、ベルベリンである。
【0106】
ホルモンの例としては、脳下垂体ホルモンもしくは視床下部ホルモンまたはレギュラトリー活性ペプチドおよびそれらのアンタゴニスト、たとえば、ゴナドトロピン(フォリトロピン、ルトロピン、コリオンゴナドトロピン、メノトロピン)、ソマトロピン(Somatropine)(ソマトロピン(Somatropin))、デスモプレシン、テルリプレシン、ゴナドレリン、トリプトレリン、リュープロレリン、ブセレリン、ナファレリン、およびゴセレリンが挙げられる。
【0107】
多糖の例としては、グルコサミノグリカン、ヒアルロン酸、ヘパリン、低分子量ヘパリンもしくは超低分子量ヘパリンもしくはそれらの誘導体、もしくは硫酸化多糖たとえばポリ硫酸化形の上述した多糖、および/またはそれらの薬学的に許容可能な塩が挙げられる。ポリ硫酸化低分子量ヘパリンの薬学的に許容可能な塩の例は、エノキサパリンナトリウムである。ヒアルロン酸誘導体の例は、ハイランG-F20(シンビスク(Synvisc)(登録商標))、ヒアルロン酸ナトリウムである。
【0108】
本明細書で用いられる「抗体」という用語は、イムノグロブリン分子またはその抗原結合部分を指す。イムノグロブリン分子の抗原結合部分の例としては、抗原への結合能を保持するF(ab)およびF(ab’)2フラグメントが挙げられる。抗体は、ポリクローナル抗体、モノクローナル抗体、組換え抗体、キメラ抗体、脱免疫化もしくはヒト化抗体、完全ヒト抗体、非ヒト(たとえばネズミ)抗体、または一本鎖抗体でありうる。いくつかの実施形態では、抗体は、エフェクター機能を有するとともに補体を固定可能である。いくつかの実施形態では、抗体は、Fcレセプターへの結合能が低減されているか、または結合能がない。たとえば、抗体は、Fcレセプターへの結合を支援しない、たとえば、Fcレセプター結合領域の突然変異もしくは欠失を有するアイソタイプもしくはサブタイプ、抗体フラグメントまたは突然変異体でありうる。抗体という用語は、4価二重特異的タンデムイムノグロブリン(TBTI)および/またはクロスオーバー結合領域配向を有する二重可変領域抗体様結合タンパク質(CODV)に基づく抗原結合分子も含む。
【0109】
「フラグメント」または「抗体フラグメント」という用語は、完全長抗体ポリペプチドを含まないが依然として抗原に結合可能な完全長抗体ポリペプチドの少なくとも一部分を含む抗体ポリペプチド分子由来のポリペプチド(たとえば、抗体重鎖および/または軽鎖ポリペプチド)を指す。抗体フラグメントは、完全長抗体ポリペプチドの切断部分を含みうるが、この用語は、かかる切断フラグメントに限定されるものではない。本発明に有用な抗体フラグメントとしては、たとえば、Fabフラグメント、F(ab’)2フラグメント、scFv(一本鎖Fv)フラグメント、線状抗体、単一特異的または多重特異的な抗体フラグメント、たとえば、二重特異的、三重特異的、四重特異的および多重特異的抗体(たとえば、ダイアボディ、トリアボディ、テトラボディ)、1価または多価抗体フラグメント、たとえば、2価、3価、4価および多価の抗体、ミニボディ、キレート化組換え抗体、トリボディまたはビボディ、イントラボディ、ナノボディ、小モジュール免疫医薬(SMIP)、結合ドメインイムノグロブリン融合タンパク質、ラクダ化抗体、およびVHH含有抗体が挙げられる。抗原結合抗体フラグメントの追加の例は当技術分野で公知である。
【0110】
「相補性決定領域」または「CDR」という用語は、特異的抗原認識を媒介する役割を主に担う、重鎖および軽鎖の両方のポリペプチドの可変領域内の短いポリペプチド配列を指す。「フレームワーク領域」という用語は、CDR配列でないかつ抗原結合が可能になるようにCDR配列の適正配置を維持する役割を主に担う、重鎖および軽鎖の両方のポリペプチドの可変領域内のアミノ酸配列を指す。フレームワーク領域自体は、典型的には抗原結合に直接関与しないが、当技術分野で公知のように、ある特定の抗体のフレームワーク領域内のある特定の残基は、抗原結合に直接関与しうるか、またはCDR内の1つもしくはそれ以上のアミノ酸と抗原との相互作用能に影響を及ぼしうる。
【0111】
抗体の例は、抗PCSK-9 mAb(たとえば、アリロクマブ)、抗IL-6 mAb(たとえば、サリルマブ)、および抗IL-4 mAb(たとえば、デュピルマブ)である。
【0112】
本明細書に記載のいずれのAPIの薬学的に許容可能な塩も、薬物送達デバイスで薬物または薬剤に使用することが企図される。薬学的に許容可能な塩は、たとえば、酸付加塩および塩基性塩である。
【0113】
当業者には、本明細書に記載のAPI、処方、装置、方法、システムおよび実施形態の様々な構成要素の修正(追加および/または除去)が、このような修正、およびありとあらゆるその均等物を包含する本発明の全範囲および趣旨から逸脱せずに加えられることが理解されよう。
【0114】
例示的な薬物送達デバイスは、ISO11608-1:2014(E)のセクション5.2の表1に記載のようなニードルベースの注射システムを含むことができる。ISO11608-1:2014(E)に記載されているように、ニードルベースの注射システムは、広義には、多用量容器システムおよび(部分的または完全な排出を用いた)単容量容器システムに区別することができる。容器は、交換可能な容器または一体化された交換不可能な容器とすることができる。
【0115】
ISO11608-1:2014(E)にさらに記載されているように、多用量容器システムは、交換可能な容器を有するニードルベースの注射デバイスを含むことができる。そのようなシステムにおいて、各容器は複数の用量を保持し、そのサイズは固定または可変とする(ユーザによって予め設定する)ことができる。別の多用量容器システムは、一体化された交換不可能な容器を有するニードルベースの注射デバイスを含むことができる。そのようなシステムにおいて、各容器は複数の用量を保持し、そのサイズは固定または可変とする(ユーザによって予め設定する)ことができる。
【0116】
ISO11608-1:2014(E)にさらに記載されているように、単用量容器システムは、交換可能な容器を有するニードルベースの注射デバイスを含むことができる。そのようなシステムの1つの例において、各容器は単用量を保持し、それによって送達可能な量全体が吐出される(全排出)。さらなる例において、各容器は単用量を保持し、送達可能な量の一部が吐出される(部分的排出)。ISO11608-1:2014(E)にも記載されているように、単用量容器システムは、一体化された交換不可能な容器を有するニードルベースの注射デバイスを含むことができる。そのようなシステムの1つの例において、各容器は単用量を保持し、それによって送達可能な量全体が吐出される(全排出)。さらなる例において、各容器は単用量を保持し、送達可能な量の一部が吐出される(部分的排出)。
【国際調査報告】