(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-18
(45)【発行日】2024-12-26
(54)【発明の名称】データ対応の創薬技術
(51)【国際特許分類】
G16C 20/40 20190101AFI20241219BHJP
G06F 16/903 20190101ALI20241219BHJP
【FI】
G16C20/40
G06F16/903
(21)【出願番号】P 2023507274
(86)(22)【出願日】2021-08-17
(86)【国際出願番号】 US2021046209
(87)【国際公開番号】W WO2022040122
(87)【国際公開日】2022-02-24
【審査請求日】2023-03-02
(32)【優先日】2020-08-18
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-11-17
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】517307681
【氏名又は名称】リカージョン ファーマシューティカルズ インコーポレイテッド
(74)【代理人】
【識別番号】100073184
【氏名又は名称】柳田 征史
(74)【代理人】
【識別番号】100175042
【氏名又は名称】高橋 秀明
(72)【発明者】
【氏名】ブレヴィンス,アンドリュー
(72)【発明者】
【氏名】アギレラ-イパラギレ,ホルヘ
(72)【発明者】
【氏名】リンドヴァル,ミカ
【審査官】鈴木 和樹
(56)【参考文献】
【文献】米国特許出願公開第2010/0305930(US,A1)
【文献】特開2013-191068(JP,A)
【文献】特表2021-516330(JP,A)
【文献】特表2018-537653(JP,A)
【文献】米国特許出願公開第2008/0234135(US,A1)
【文献】米国特許出願公開第2012/0009277(US,A1)
【文献】米国特許出願公開第2003/0009298(US,A1)
【文献】中国特許出願公開第109841263(CN,A)
【文献】中国特許出願公開第111415702(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16C 10/00 - 99/00
G06F 16/00 - 16/958
(57)【特許請求の範囲】
【請求項1】
創薬プロセス中に1つ以上の潜在的な医薬品候補を判定するためのコンピュータ実装方法であって、
コンピュータにより、クエリ分子仕様に複数の編集ヒューリスティックに含まれる1つ以上の編集ヒューリスティックを適用して、前記クエリ分子仕様から編集を行った複数の派生分子仕様を生成することと、
前記コンピュータにより、前記複数の派生分子仕様に対して1つ以上のマッピング操作を実行して、前記複数の派生分子仕様の圧縮デジタル表現である、複数のマッピングされた分子仕様を生成することと、
前記コンピュータにより、前記複数のマッピングされた分子仕様に基づいて、取得され得るマッピングされた利用可能な分子カタログに対して1つ以上のハッシュベースの検索操作を実行して、前記1つ以上の潜在的な医薬品候補を判定することと、
前記コンピュータにより、前記1つ以上の潜在的な医薬品候補を含む1つ以上の検索結果を出力させることと
を含む、前記コンピュータ実装方法。
【請求項2】
分子カタログに関連付けられた複数の分子仕様に対して1つ以上のマッピング操作を実行して、前記マッピングされた分子カタログを生成することをさらに含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記複数の派生分子仕様を生成することが、前記複数の編集ヒューリスティックを前記クエリ分子仕様に再帰的に適用して、前記複数の派生分子仕様を含む派生ツリーを生成することを含む、請求項1に記載のコンピュータ実装方法。
【請求項4】
前記複数の派生分子仕様を生成することが、
前記複数の編集ヒューリスティックに含まれる第1の編集ヒューリスティックを前記クエリ分子仕様に適用して、第1の派生分子仕様を生成することと、
前記複数の編集ヒューリスティックに含まれる第2の編集ヒューリスティックを前記第1の派生分子仕様に適用して、第2の派生分子仕様を生成することと、
を含む、請求項1に記載のコンピュータ実装方法。
【請求項5】
前記複数の編集ヒューリスティックが、前記クエリ分子仕様に適用されると、前記クエリ分子仕様に窒素または置換基を追加し、前記クエリ分子仕様から窒素または置換基を除去し、または前記クエリ分子仕様に含まれる置換基を再配置して派生分子仕様を生成する少なくとも1つの編集ヒューリスティックを含む、請求項1に記載のコンピュータ実装方法。
【請求項6】
前記複数の編集ヒューリスティックが、前記クエリ分子仕様に適用されると、前記クエリ分子仕様に含まれる窒素を再配置して、前記クエリ分子仕様に対応するクエリ分子の異性体を表す派生分子仕様を生成する少なくとも1つの編集ヒューリスティックを含む、請求項1に記載のコンピュータ実装方法。
【請求項7】
前記1つ以上のマッピング操作が、ハッシュ関数を前記複数の派生分子仕様に適用して、前記複数のマッピングされた分子仕様に含まれる複数の配列インデックスを生成することを含む、請求項1に記載のコンピュータ実装方法。
【請求項8】
前記1つ以上のハッシュベースの検索操作を実行することが、前記複数のマッピングされた分子仕様に含まれるマッピングされた第1の分子仕様に基づいて、前記マッピングされた分子カタログに対してハッシュベースの検索を実行して、前記複数の派生分子仕様に含まれる第1の派生分子仕様が、前記マッピングされた分子カタログに含まれる第1の分子仕様と一致すると判定することを含む、請求項1に記載のコンピュータ実装方法。
【請求項9】
別のマッピングされた分子カタログに対して別のハッシュベースの検索を実行して、前記第1の派生分子仕様が、前記別のマッピングされた分子カタログに含まれる第2の分子仕様と一致すると判定することと、
前記マッピングされた分子カタログに対応する第1の分子カタログが、前記別のマッピングされた分子カタログに対応する第2の分子カタログよりも低い第1の選好ランキングを有すると判定することと、
前記第1の派生分子仕様に対応する第1の派生分子が第1の潜在的な医薬品候補であり、前記第2の分子カタログに位置することを、グラフィカルユーザインタフェースを介してコンピューティングデバイス上に表示することと、
をさらに含む、請求項8に記載のコンピュータ実装方法。
【請求項10】
前記クエリ分子仕様が、前記創薬プロセスに関連付けられた関心のある医薬品開発候補を表す、請求項1に記載のコンピュータ実装方法。
【請求項11】
1つ以上のプロセッサによって実行されると、創薬プロセス中に1つ以上の潜在的な医薬品候補を判定する方法を実行するプログラムであって、該方法は、
クエリ分子仕様に複数の編集ヒューリスティックに含まれる1つ以上の編集ヒューリスティックを適用して、前記クエリ分子仕様から編集を行った複数の派生分子仕様を生成するステップと、
前記複数の派生分子仕様に対して1つ以上のマッピング操作を実行して、前記複数の派生分子仕様の圧縮デジタル表現である、複数のマッピングされた分子仕様を生成するステップと、
前記複数のマッピングされた分子仕様に基づいて、取得され得るマッピングされた利用可能な分子カタログに対して1つ以上のハッシュベースの検索操作を実行して、1つ以上の潜在的な医薬品候補を判定するステップと、
前記1つ以上の潜在的な医薬品候補を含む1つ以上の検索結果を出力させるステップと
を備えるプログラム。
【請求項12】
システムであって、
命令を記憶する1つ以上のメモリと、
前記1つ以上のメモリに結合された1つ以上のプロセッサと、
を含み、前記命令を実行すると、前記1つ以上のプロセッサが、
クエリ分子仕様に複数の編集ヒューリスティックに含まれる1つ以上の編集ヒューリスティックを適用して、前記クエリ分子仕様から編集を行った複数の派生分子仕様を生成し、
前記複数の派生分子仕様に対して1つ以上のマッピング操作を実行して、前記複数の派生分子仕様の圧縮デジタル表現である、複数のマッピングされた分子仕様を生成し、
前記複数のマッピングされた分子仕様に基づいて、取得され得るマッピングされた利用可能な分子カタログに対して1つ以上のハッシュベースの検索操作を実行して、1つ以上の潜在的な医薬品候補を判定し、
前記1つ以上の潜在的な医薬品候補を含む1つ以上の検索結果を出力させするステップを実行する、前記システム。
【発明の詳細な説明】
【関連出願の相互参照】
【0001】
本願は、「超大規模化合物データベースのリアルタイムSAR検索ツール」と題されて2020年8月18日に出願された米国仮特許出願第63/067,025号の優先権を主張し、「データ対応の創薬技術」と題されて2020年11月17日に出願された米国特許出願第16/950,845号の優先権を主張する。これらの関連出願の主題は、参照により本明細書に組み込まれる。
【技術分野】
【0002】
様々な実施形態は、一般に、コンピュータサイエンス及び生化学分析に関し、より具体的には、データ対応の創薬技術に関する。
【背景技術】
【0003】
創薬とは、病気を治癒、緩和、治療、及び/または予防するための分子を同定して、さらなる研究を行うプロセスである。典型的な創薬プロセスの初期段階では、細胞に望ましい効果をもたらす、関心のある医薬品開発候補(「標的生物活性」を示すと呼ばれる)を判定するために、多くの異なる分子が試験される。たとえば、関心のある医薬品開発候補は、特定の疾患に苦しむ細胞の健康を増進する医薬品であり得る。構造的に類似した分子は、いくつかの類似した生物活性を共有することが多いという原則に基づいて、所与の関心のある医薬品開発候補を同定した後、利用可能な分子の任意の数の分子カタログを検索して、関心のある医薬品開発候補と構造的に類似する分子を探索する。検索結果で特定された分子は、それぞれが関心のある医薬品開発候補と同じ生物活性を持つ追加の医薬品開発候補を同定するように評価される潜在的な医薬品候補となる。一般的に、このプロセスを使用して同定された追加の医薬品開発候補のいずれも、関心のある医薬品開発候補と比較して、物理的、化学的、生物学的、及び/または薬理学的特性が改善されている可能性がある。
【0004】
潜在的な医薬品候補を判定する1つのアプローチでは、類似度ソフトウェアアプリケーションは、関心のある医薬品開発候補と、任意の数の分子カタログで特定された各分子との間の構造的類似度を、類似度測定基準に基づいて定量化する。いくつかの実施態様では、類似度ソフトウェアアプリケーションは、分子構造フラグメントのセットに基づいて2つの分子間の構造的類似度を定量化するタニモト係数の値を計算する。このような実施態様では、検索結果で特定された各分子について、類似度ソフトウェアアプリケーションは、分子と関心のある医薬品開発候補との間で共有される分子構造フラグメントの数と、分子及び関心のある医薬品開発候補のいずれかまたは両方に存在する分子構造フラグメントの数の比率に等しいタニモト係数の値を設定する。その後、類似度ソフトウェアアプリケーションは、最小類似度閾値を超えるタニモト係数の値を持つ分子を特定する検索結果を生成する。最小類似度閾値を超えるタニモト係数を有する分子は、潜在的な医薬品候補であると見なされる。
【0005】
類似度測定基準に基づいて潜在的な医薬品候補を判定することの1つの欠点は、類似度測定基準に従って「類似した」分子構造を有する異なる医薬品が、必ずしも所与の生物活性を共有するとは限らないことである。したがって、特定の創薬プロセスでは、関連する関心のある医薬品開発候補と同じ標的生物活性を持つ、特定の類似度測定基準を使用して同定された潜在的な医薬品候補の割合は、非常に低くなる可能性がある。その結果、多くの場合、最終的に所与の創薬プロセスに関係のない潜在的な医薬品候補を評価するために、かなりの時間と資源が浪費される。
【0006】
類似度測定基準に基づいて潜在的な医薬品候補を判定することのもう1つの欠点は、カタログ検索の計算複雑性が利用可能な分子の総数に比例するため、分子カタログを包括的に検索するために必要な時間と計算資源の量が非常に膨大になる可能性があることである。たとえば、現在の分子カタログに含まれる数億の利用可能な分子を、3次元の形状ベースの類似度測定基準を使用して評価するには、数十年もの計算時間を必要とする可能性がある。多くの場合、時間と計算資源の制約により、現在の分子カタログで特定された分子の一部のみが、所与の創薬プロセス中に検索される。
【発明の概要】
【発明が解決しようとする課題】
【0007】
前述したように、当技術分野で必要とされるのは、創薬プロセス中に潜在的な医薬品候補を判定するためのより効果的な技術である。
【課題を解決するための手段】
【0008】
本発明の一実施形態は、創薬プロセス中に1つ以上の潜在的な医薬品候補を判定するための方法を記載する。この方法は、クエリ分子仕様及び編集ヒューリスティックに基づいて派生分子仕様を生成することと、マッピングアルゴリズムを介して、派生分子仕様に対して1つ以上のマッピング操作を実行して、マッピングされた分子仕様を生成することと、マッピングされた分子仕様に基づいて、マッピングされた分子カタログに対して1つ以上の検索操作を実行して、1つ以上の潜在的な医薬品候補を判定することと、を含む。
【0009】
従来技術に対して開示された技術の少なくとも1つの技術的利点は、開示技術を使用して、創薬プロセス中に追加の医薬品開発候補をより効率的に判定することができることである。その点に関しては、開示された技法を使用して実装された関連する編集ヒューリスティックは、所与の創薬プロセスに合わせて調整されるため、それらの編集ヒューリスティックによって導入された構造変化が標的生物活性を維持する可能性が高まる。その結果、最終的に所与の創薬プロセスに関連する、開示された技術を使用して同定された構造的に類似した医薬品候補の割合は、通常、従来技術のアプローチと比較して増加する。さらに、従来技術とは異なり、開示された技術の計算複雑性は、検索される分子の総数にも関わらず、一定のままであるため、分子カタログを包括的に検索するために必要な時間及び計算資源の量を削減することができる。特に、開示された技術によれば、利用可能な分子のすべてを所与のインタラクティブレートで検索することができる。これらの技術的利点は、従来技術のアプローチに対して1つ以上の技術の改善点を提供する。
【0010】
様々な実施形態の上記の特徴を詳細に理解できるように、上記で簡潔に要約した本発明の概念のより具体的な説明は、一部が添付の図面に示された様々な実施形態を参照することによって行われ得る。しかしながら、添付の図面は、本発明の概念の典型的な実施形態のみを示すため、範囲を限定するものと見なされるべきではなく、他の同等に効果的な実施形態があることを留意されたい。
【図面の簡単な説明】
【0011】
【
図1】様々な実施形態の1つ以上の態様を実装するように構成されたシステムの概念図である。
【
図2】様々な実施形態による、
図1の派生エンジンのより詳細な図である。
【
図3】様々な実施形態による、
図1の検索結果データセットのより詳細な図である。
【
図4】様々な実施形態による、創薬プロセス中に潜在的な医薬品候補を判定するための方法ステップの流れ図である。
【発明を実施するための形態】
【0012】
以下の説明では、様々な実施形態のより完全な理解を提供するために、多くの具体的な詳細が述べられている。しかしながら、本発明の概念がこれらの具体的な詳細の1つ以上なしで実施され得ることは、当業者には明らかであろう。
【0013】
例示的な概要
説明のみを目的として、例示的な実施形態の概要を本明細書に記載する。いくつかの実施形態では、開示された技術を使用して、創薬プロセス中に関心のある医薬品開発候補から潜在的な医薬品候補を効率的に得ることができる。そして、潜在的な医薬品候補を評価して、潜在的な医薬品候補のいずれが追加の医薬品開発候補であるかを判定することができる。所与の創薬プロセスについて、各医薬品開発候補(例えば、関心のある医薬品開発候補または追加の医薬品開発候補)は、創薬プロセスの全体的な目標に沿った、細胞に対する所望の効果をもたらす分子である。細胞に対する所望の効果は、本明細書では「標的生物活性」とも呼ばれる。たとえば、各医薬品開発候補は、特定の疾患に苦しむ細胞の健康を増進する可能性がある。
【0014】
初期化段階では、分子探索アプリケーションは、任意の数の分子カタログにハッシュ関数を適用して、マッピングされたカタログを生成する。各分子カタログには、任意の数の利用可能な分子を表す利用可能な分子仕様が含まれる。ハッシュ関数は、分子仕様(即ち「キー」)を配列インデックスにマッピングする。マッピングされた各カタログは、関連付けられた配列インデックスに基づいて、分子カタログに含まれる利用可能な分子仕様をバケットに記憶する関連付けられた分子カタログのハッシュマップである。
【0015】
その後の検索段階では、分子探索アプリケーションは、クエリ分子仕様と任意の数の編集ヒューリスティックに関連付けられた任意の数の検索要求を受け取る。クエリ分子仕様は、本明細書で「クエリ分子」と呼ばれる分子の表現である。いくつかの実施形態では、クエリ分子は、標的生物活性を有する関心のある医薬品開発候補である。各編集ヒューリスティックは、既存の分子の構造に対する異なるタイプの変更を特定する。編集ヒューリスティックは、通常、1つ以上の創薬プロセスに関連するように設計される。
【0016】
特に、少なくとも1つの編集ヒューリスティックのそれぞれについて、ランダムな構造変更と比較して、経験的証拠は、編集ヒューリスティックによって特定された構造変更が、典型的な創薬プロセスに関連する標的生物活性を維持する可能性が高いことを示している。換言すれば、標的生物活性に関連するクエリ分子仕様に適用される場合、編集ヒューリスティックの少なくとも1つは、標的生物活性にも関連する派生分子仕様を優先的に生成するように設計される。
【0017】
所与の検索要求に応答して、分子探索アプリケーションは、関連付けられた編集ヒューリスティックを関連付けられたクエリ分子仕様に繰り返し適用して、編集ヒューリスティックのすべての可能な組み合わせを表す派生分子仕様を生成する。そして、分子探索アプリケーションは、派生分子仕様にハッシュ関数を適用して、対応する配列インデックスを生成する。マッピングされたカタログのそれぞれについて、分子探索アプリケーションは、対応する配列インデックスに基づいて派生分子仕様のそれぞれを検索して、一致するサブセットを生成する。一致するサブセットのそれぞれは、関連する分子カタログに存在する派生分子仕様を非限定的に特定する。
【0018】
その後、分子探索アプリケーションは、一致するサブセットに基づいて検索結果データセットを生成する。検索結果データセットは、分子カタログの少なくとも1つ及び関連する位置(複数可)(即ち、関連する分子カタログ(複数可))に存在する派生分子仕様のそれぞれを特定する検索レポートを含むが、これに限定されない。検索レポートに含まれる派生分子仕様のそれぞれは、異なる潜在的な医薬品候補を表す。検索結果データセットは、創薬プロセスに関連する任意の量及び/またはタイプの追加データを含み得る。そして、分子探索アプリケーションは、検索結果データセットの任意の部分を、追加の医薬品開発候補を判定する際に使用するために、任意の数の他のソフトウェアアプリケーション及び/またはユーザに記憶及び/または提供する。
【0019】
システム概要
図1は、様々な実施形態の1つ以上の態様を実装するように構成されたシステム100の概念図である。説明の目的で、同様のオブジェクトの複数のインスタンスは、必要に応じてオブジェクトを識別する参照番号と、インスタンスを識別する括弧内の英数字(複数可)で示される。図示するように、システム100は、計算インスタンス110、表示デバイス108、及び分子カタログ102(1)~102(M)を含むが、これらに限定されない。ここで、Mは、任意の正の整数であり得る。
【0020】
いくつかの実施形態では、システム100は、任意の数の計算インスタンス110、任意の数(ゼロを含む)の表示デバイス108、及び任意の数の分子カタログ102を任意の組み合わせで含み得るが、これらに限定されない。システム100の構成要素は、任意の数の共有された地理的位置及び/または任意の数の異なる地理的位置にわたって分散され、及び/または任意の組み合わせで1つ以上のクラウドコンピューティング環境(即ち、カプセル化された共有リソース、ソフトウェア、データなど)に実装され得る。
【0021】
図示するように、計算インスタンス110は、プロセッサ112及びメモリ116を含むが、これらに限定されない。計算インスタンス110は、クラウドコンピューティング環境で実装するか、任意の他の分散コンピューティング環境の一部として実装するか、またはスタンドアロン方式で実装することができる。いくつかの実施形態では、任意の数の計算インスタンス110のそれぞれが、任意の数のプロセッサ112及び任意の数のメモリ116を任意の組み合わせで含み得る。同じまたは他の実施形態では、任意の数(1つを含む)の計算インスタンス110は、任意の技術的に実現可能な方法でマルチプロセッシング環境を提供することができる。計算インスタンス110は、本明細書では「コンピューティングデバイス」とも呼ばれる。
【0022】
プロセッサ112は、命令を実行できる任意の命令実行システム、装置、またはデバイスであり得る。例えば、プロセッサ112は、中央処理装置、グラフィックスプロセッシングユニット、コントローラ、マイクロコントローラ、ステートマシン、またはそれらの任意の組み合わせを含み得る。計算インスタンス110のメモリ116は、計算インスタンス110のプロセッサ112による使用のために、ソフトウェアアプリケーション及びデータなどのコンテンツを記憶する。メモリ116は、ランダムアクセスメモリ、読み出し専用メモリ、フロッピーディスク、ハードディスク、またはローカルまたはリモートの任意の他の形態のデジタル記憶デバイスなど、容易に利用可能なメモリの1つ以上であり得る。
【0023】
いくつかの実施形態では、記憶デバイス(図示せず)は、メモリ116を補足または置換することができる。記憶デバイスは、プロセッサ112にアクセス可能な任意の数及びタイプの外部メモリを含み得る。例えば、記憶デバイスは、セキュアデジタルカード、外部フラッシュメモリ、ポータブルコンパクトディスク読み出し専用メモリ、光記憶デバイス、磁気記憶デバイス、または上記の任意の適切な組み合わせを含み得るが、それらに限定されない。
【0024】
いくつかの実施形態では、計算インスタンス110は、任意の数(ゼロを含む)及び/またはタイプの入力デバイス、出力デバイス、及び/または入出力デバイスの任意の組み合わせに関連付けることができる。入力デバイスは、ユーザからの入力を受け取ることができる任意のデバイスである。入力デバイスの例には、キーボード、マウス、トラックパッド、マイク、ビデオカメラなどが含まれるが、これらに限定されない。出力デバイスは、ユーザに出力を提供できる任意のデバイスである。出力デバイスのいくつかの例には、表示デバイス108、ヘッドホン、スピーカーなどが含まれるが、これらに限定されない。入出力デバイスは、タッチスクリーンなど、ユーザからの入力の受信とユーザへの出力の両方が可能なデバイスである。
【0025】
図示するように、いくつかの実施形態では、計算インスタンス110は、表示デバイス108に関連付けられる。表示デバイス108は、画像及び/または任意の他のタイプの視覚コンテンツを表示できる任意の装置であり得る。例えば、表示デバイス108は、液晶ディスプレイ、発光ダイオードディスプレイ、投影ディスプレイ、プラズマディスプレイパネルなどであり得るが、これらに限定されない。いくつかの実施形態では、表示デバイス108は、視覚コンテンツを表示し、入力(例えば、ユーザからの入力)を受け取ることができるタッチスクリーンである。
【0026】
いくつかの実施形態では、計算インスタンス110は、任意の数及び/またはタイプの他のデバイス(例えば、他の計算インスタンス110、入力デバイス、出力デバイス、入出力デバイスなど)と共に、ユーザデバイスに統合することができる。ユーザデバイスの例には、デスクトップコンピュータ、ラップトップ、スマートフォン、スマートテレビ、ゲームコンソール、タブレットなどが含まれるが、これらに限定されない。
【0027】
一般に、計算インスタンス110は、1つ以上のソフトウェアアプリケーションを実装するように構成される。説明のみを目的として、各ソフトウェアアプリケーションは、計算インスタンス110のメモリ116に常駐し、計算インスタンス110のプロセッサ112上で実行されるものとして説明される。しかしながら、いくつかの実施形態では、各ソフトウェアアプリケーションの機能は、任意の数の計算インスタンス110のメモリ116に常駐し、任意の数の計算インスタンス110のプロセッサ112上で任意の組み合わせで実行される任意の数の他のソフトウェアアプリケーションに分散することができる。さらに、任意の数のソフトウェアアプリケーションの機能を単一のソフトウェアアプリケーションに統合することができる。
【0028】
いくつかの実施形態では、任意の数のソフトウェアアプリケーション及び/またはソフトウェアアプリケーションの一部が、1つ以上の非一時的なコンピュータ可読媒体に記憶される。本明細書で使用される「非一時的」という用語は、データ記憶の永続性に対する制限(例えば、ランダムアクセスメモリに対する読み出し専用メモリ)ではなく、媒体自体(例えば、信号ではなく有形のもの)の制限である。非一時的なコンピュータ可読媒体は、本明細書では「コンピュータ可読媒体」とも呼ばれる。例えば、いくつかの実施形態では、メモリ116はコンピュータ可読媒体であり、任意の数のソフトウェアアプリケーション及び/またはソフトウェアアプリケーションの一部は、メモリ116に記憶される。
【0029】
いくつかの実施形態では、任意の数のソフトウェアアプリケーション及び/またはソフトウェアアプリケーションの一部は、メモリ116に記憶される前に、1つ以上のコンピュータ可読媒体に記憶される。たとえば、いくつかの実施形態では、任意の数のソフトウェアアプリケーション及び/またはソフトウェアアプリケーションの一部は、マシン(例えば、サーバマシン)に記憶され、任意の数のソフトウェアアプリケーション及び/またはソフトウェアアプリケーションの一部は、マシンからメモリ116にダウンロードされる。同じまたは他の実施形態において、任意の数のソフトウェアアプリケーション及び/またはソフトウェアアプリケーションの一部は、何らかの形式のポータブルコンピュータ可読媒体に記憶され、任意の数のアプリケーション及び/またはアプリケーションの一部は、ポータブルコンピュータ可読媒体からメモリ116にダウンロードされる。ポータブルコンピュータ可読媒体の例には、デジタルビデオディスク、メモリディスク、メモリスティックなどが含まれるが、これらに限定されない。
【0030】
いくつかの実施形態では、本開示の態様は、コンピュータ可読プログラムコーデックが具現化された1つ以上のコンピュータ可読媒体で具現化されたコンピュータプログラム製品の形態をとり得る。1つ以上のコンピュータ可読媒体の任意の組み合わせを利用することができる。各コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であり得る。コンピュータ可読記憶媒体は、例えば、電子、磁気、光、電磁気、赤外線、もしくは半導体のシステム、装置、もしくはデバイス、または任意の前述の好適な組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより多くの具体例(非網羅的なリスト)は、1つ以上の通信回線を有する電気的接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ、読み出し専用メモリ、電気的消去可能読み出し専用メモリ、フラッシュメモリ、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ、光学記憶デバイス、磁気記憶デバイス、または前述の任意の好適な組み合わせを含む。本文書の文脈において、コンピュータ可読記憶媒体は、命令実行システム、装置、もしくはデバイスによる使用のために、またはそれらと接続してプログラムを含むまたは記憶することができる任意の有形媒体であり得る。
【0031】
いくつかの実施形態では、計算インスタンス110は、創薬プロセス中に関心のある医薬品開発候補に基づいて潜在的な医薬品候補を同定するように構成され、それによって追加の医薬品開発候補の特定を容易にする。「医薬品開発候補」は、本明細書で「標的生物活性」と呼ばれる細胞に対する標的効果を有する分子である。標的生物活性の一例は、特定の疾患に苦しむ細胞の健康を増進することである。各関心のある医薬品開発候補は、任意の技術的に実現可能な方法で(例えば、実験室試験を介して)同定された任意の医薬品開発候補であり得る。たとえば、細胞の増殖または死滅を測定するアッセイ中に、関心のある医薬品開発候補を同定することができる。別の例では、特定のバイオマーカー(例えば、細胞が排出する特定のサイトカインの量)の存在を探すアッセイ中に、関心のある医薬品開発候補を同定することができる。さらに別の例では、医薬品開発候補は、モデル生物におけるプラス効果を探すアッセイ中に同定することができる。
【0032】
本明細書で言及された「追加の医薬品開発候補」とは、関連する関心のある医薬品開発候補に基づいて判定される医薬品開発候補を指す。各「潜在的な医薬品候補」は、関連する関心のある医薬品開発候補に構造的に類似し、関連する関心のある医薬品開発候補と同じ標的生物活性を有する分子である。いくつかの実施形態では、潜在的な医薬品候補のサブセットは、その後、追加の医薬品開発候補であると判定される。
【0033】
いくつかの実施形態では、追加の医薬品開発候補のそれぞれは、分子カタログ102(1)~102(M)のうちの少なくとも1つにおいて特定される。説明のみを目的として、分子カタログ102(1)~102(M)はまた、本明細書では個別に「分子カタログ102」とも呼ばれ、集合的に「分子カタログ102」とも呼ばれる。分子カタログ102は、本明細書では「分子のカタログ」とも呼ばれる。いくつかの実施形態では、Mは、1に等しく、システム100は、分子カタログ102(1)を含むがこれに限定されない。
【0034】
分子カタログ102のそれぞれは、任意の数の利用可能な分子仕様(図示せず)を含むが、これに限定されない。利用可能な各分子仕様は、任意の技術的に実現可能な方法で取得(例えば、順序付け、生成など)され得る分子の構造表現である。本明細書で言及された分子の構造表現は、どの原子が互いに結合しているか、任意の量の追加の構造情報を非限定的に特定する。たとえば、分子の一部の構造表現には、分子内の原子の近似空間的配置及び/または分子内に存在する可能性のある孤立電子対を特定する追加の構造情報が含まれる。
【0035】
いくつかの実施形態では、所与の分子の構造表現は、簡易分子入力ライン入力仕様(「SMILES」)文字列、国際純正応用化学連合(「IUPAC」)の国際化学物質識別子(「InChI」)、骨格構造などのいずれかであり得る。SMILESは、情報交換用米国標準コード文字を使用して、所与の分子の構造をSMILES文字列として特定する線形表記システムである。InChIは、所与の分子のテキスト識別子である。骨格構造は、分子の原子を3D空間にどのように配置できるかを示すがこれに限定されない2次元(「2D」)グラフィック表現または「構造式」である。
【0036】
斜体で示すように、いくつかの実施形態では、分子カタログ102(1)は、システム100に関連付けられた組織内で利用可能な分子を表す任意の数の利用可能な分子仕様を含むがこれらに限定されないインハウス分子カタログである。同じまたは他の実施形態において、任意の数の分子カタログ102のそれぞれは、分子の関連するプロバイダから注文できる分子を表す任意の数の利用可能な分子仕様を含むが、これらに限定されない。いくつかの実施形態では、任意の数の分子カタログ102のそれぞれは、任意の数及び/またはタイプの分子、及び各分子を取得する方法を記述する任意の量及び/またはタイプの関連データを特定することができる。
【0037】
本明細書で前述したように、潜在的な医薬品候補を判定するいくつかの従来のアプローチでは、従来の類似度ソフトウェアアプリケーションは、類似度測定基準に基づいて潜在的な医薬品候補の分子カタログを検索する。通常、任意の数の分子カタログで特定された任意の数の分子のそれぞれについて、従来の類似度ソフトウェアアプリケーションは、関心のある医薬品開発候補と分子に基づいて類似度測定基準の値を計算する。そして、従来のソフトウェアアプリケーションは、最小類似度閾値を超える類似度測定基準の値に関連する分子が潜在的な医薬品候補であると判定する。
【0038】
類似度測定基準に基づいて潜在的な医薬品候補を判定することの欠点の1つは、特定の創薬プロセスでは、関心のある医薬品開発候補と同じ標的生物活性を持つ、特定の類似度測定基準を使用して同定された潜在的な医薬品候補の割合は、非常に低くなる可能性があることである。その結果、多くの場合、最終的に所与の創薬プロセスに関係のない潜在的な医薬品候補を評価するために、かなりの時間と資源が浪費される。
【0039】
類似度測定基準に基づいて潜在的な医薬品候補を判定することのもう1つの欠点は、従来の類似度ソフトウェアアプリケーションによって実行される操作の計算複雑性が、通常、利用可能な分子の総数に比例することである。その結果、分子カタログから潜在的な医薬品候補を包括的に検索するために必要な時間と計算資源の量は、非常に膨大になる可能性がある。
【0040】
編集ヒューリスティックに基づく潜在的な医薬品候補の判定
上記の問題に対処するために、計算インスタンス110は、クエリ分子仕様150、編集ヒューリスティックセット152、及び分子カタログ102に基づいて潜在的な医薬品候補仕様(
図1に示せず)を自動的に判定する分子探索アプリケーション120を含むが、これに限定されない。図示するように、いくつかの実施形態では、分子探索アプリケーション120は、計算インスタンス110のメモリ116に常駐し、計算インスタンス110のプロセッサ112上で実行される。
【0041】
説明のみを目的として、
図1に示す実施形態では、分子探索アプリケーション120は、初期化段階で最初に動作し、その間、分子探索アプリケーション120は、任意の数及び/またはタイプのロードカタログ要求(複数可)104を受信し、それに応じて、分子カタログ102(1)~102(M)を取得して前処理する。その後、分子探索アプリケーション120は、検索段階で動作し、その間、分子探索アプリケーション120は、検索要求128を受信し、それに応答して検索結果データセット198を生成する。
【0042】
他の実施形態では、分子探索アプリケーション120は、初期化段階で分子カタログ102の(空のセットを含む)任意のサブセットを取得して前処理し、続いて検索段階で残りの分子カタログ102をオンデマンドで取得して前処理する。同じまたは他の実施形態では、分子探索アプリケーション120は、検索段階で任意の数の検索要求128を受信し、それに応答して、任意の数の検索結果データセット198を生成する。
【0043】
図示するように、いくつかの実施形態では、分子探索アプリケーション120は、ワークフローエンジン122、カタログマッピングエンジン130(1)~130(M)、派生エンジン160、分子マッピングエンジン134、検索エンジン180(1)~180(M)、及び統合エンジン190を含むが、これらに限定されない。ワークフローエンジン122は、任意の数及び/またはタイプの入力、出力、変換などの操作を実行し、カタログマッピングエンジン130(1)~130(M)、派生エンジン160、分子マッピングエンジン134、検索エンジン180(1)~180(M)、及び統合エンジン190の入力及び出力との間でデータをルーティングする。ワークフローエンジン122は、任意の技術的に実現可能な方法で入力を受け取り、出力を提供することができる。
【0044】
図示するように、いくつかの実施形態では、ワークフローエンジン122は、表示デバイス108を介してグラフィカルユーザインタフェース(「GUI」)106を表示する。ワークフローエンジン122は、GUI106を介して任意の数及び/またはタイプの入力を受け取り、GUI106を介して任意の数及び/またはタイプの出力を表示することができる。いくつかの実施形態では、ワークフローエンジン122は、GUI106を介してロードカタログ要求(複数可)104及び/または検索要求128を受信する。同じまたは他の実施形態では、ワークフローエンジン122は、GUI106を介して検索結果データセット198の(検索結果データセット無しまたはすべてを含む)一部を表示する。
【0045】
いくつかの実施形態では、ロードカタログ要求(複数可)104に応答して、ワークフローエンジン122は、任意の技術的に実現可能な方法で分子カタログ102を取得する。分子カタログ102を前処理するために、ワークフローエンジン122は、分子カタログ102(1)~102(M)に含まれる利用可能な分子仕様(図示せず)をカタログマッピングエンジン130(1)~130(M)にそれぞれ入力する。これに応じて、カタログマッピングエンジン130(1)~130(M)は、マッピングされたカタログ140(1)~140(M)をそれぞれ出力する。
【0046】
カタログマッピングエンジン130(0)~130(M)は、単一のカタログマッピングエンジン130(明示せず)の異なるインスタンスである。説明のみを目的として、本明細書で使用される「カタログマッピングエンジン130」は、特定のインスタンスがいずれの図に示されるか否かに関わらず、カタログマッピングエンジン130の任意のインスタンスを指す。マッピングされたカタログ140(1)~140(M)はまた、本明細書では個別に「マッピングされたカタログ140」とも呼ばれ、集合的に「マッピングされたカタログ140」とも呼ばれる。マッピングされたカタログ140は、本明細書では「マッピングされた分子カタログ」とも呼ばれる。
【0047】
いくつかの他の実施形態では、分子探索アプリケーション120は、カタログマッピングエンジン130のM個未満のインスタンスを含み、ワークフローエンジン122は、分子カタログ102(1)~102(M)をカタログマッピングエンジン130の任意の数のインスタンスに順次、同時に、またはそれらの任意の組み合わせで入力する。例えば、いくつかの実施形態では、ワークフローエンジン122は、分子カタログ102(1)~102(M)をカタログマッピングエンジン130の単一のインスタンスに順次入力する。これに応じて、カタログマッピングエンジン130の単一のインスタンスは、マッピングされたカタログ140(1)~140(M)を順次出力する。
【0048】
カタログマッピングエンジン130(1)について明示的に示されるように、カタログマッピングエンジン130(1)~130(M)のそれぞれは、マッピングアルゴリズム132を含むが、これに限定されない。カタログマッピングエンジン130(x)は、1からMまでの整数xに対して、マッピングアルゴリズム132に基づいて分子カタログ102(x)に含まれる利用可能な分子仕様のそれぞれに対してマッピング操作を実行して、マッピングされたカタログ140(x)を生成する。マッピングされたカタログ140(x)は、分子カタログ102(x)に含まれる利用可能な分子仕様のそれぞれのマッピングされたバージョンを含むが、これに限定されない。
【0049】
マッピングアルゴリズム132は、分子仕様に適用されると、分子仕様のマッピングされたバージョンを生成する任意のタイプのアルゴリズムであり得る。説明のみを目的として、(利用可能な分子仕様の1つを含む)分子仕様のマッピングされたバージョンは、本明細書では「マッピングされた分子仕様」とも呼ばれる。いくつかの実施形態では、マッピングアルゴリズム132は、マッピングアルゴリズム132が分子仕様に適用されると、分子仕様をマッピングされた分子仕様にマッピングする任意の数のマッピング操作に関連付けられる。マッピングされた分子仕様は、検索操作を容易にする分子仕様の圧縮デジタル表現である。マッピングアルゴリズム132は、少なくとも1つのタイプの分子仕様(例えば、SMILES文字列)との互換性があり、分子仕様の少なくとも1つのタイプの圧縮デジタル表現を生成することができる。
【0050】
いくつかの実施形態では、利用可能な分子を表すために分子カタログ102が使用する分子仕様のタイプは、マッピングアルゴリズム132との互換性がある。いくつかのこのような実施形態では、カタログマッピングエンジン130(x)は、マッピングアルゴリズム132を分子カタログ102(x)に含まれる利用可能な分子仕様のそれぞれに適用して、利用可能な分子仕様のマッピングされたバージョンを生成する。
【0051】
いくつかの他の実施形態では、利用可能な分子を表すために分子カタログ102が使用する分子仕様のタイプは、マッピングアルゴリズム132との互換性がない。いくつかのこのような実施形態では、ワークフローエンジン122及び/またはカタログマッピングエンジン130は、分子カタログ102に含まれる利用可能な分子仕様のそれぞれに対して任意の数及び/またはタイプの変換操作を実行して、分子カタログ102の互換性のあるバージョンを生成する。カタログマッピングエンジン130(x)は、マッピングアルゴリズム132を分子カタログ102(x)の互換性のあるバージョンに含まれる利用可能な分子仕様のそれぞれに適用して、利用可能な分子仕様のマッピングされたバージョンを生成する。
【0052】
いくつかの実施形態では、マッピングアルゴリズム132は、分子カタログ102の特定のタイプの検索を可能にする。例えば、いくつかの実施形態では、マッピングアルゴリズム132は、利用可能な分子仕様をベクトル空間にマッピングして、マッピングアルゴリズム132及びマッピングされたカタログ140を介して分子カタログ102のベクトル類似度検索を可能にする。同じまたは他の実施形態では、マッピングアルゴリズム132は、マッピングアルゴリズム132及びマッピングされたカタログ102を介して分子カタログ102内の分子仕様を検索するのに必要な時間が、マッピングされたカタログ102のサイズに依存しないことを保証する。
【0053】
いくつかの実施形態では、マッピングアルゴリズム132は、創薬プロセスに典型的に望ましい任意の数及び/またはタイプの特性を示す。例えば、いくつかの実施形態では、マッピングアルゴリズム132は互変異性体に優しい。本明細書で言及されるように、マッピングアルゴリズム132が、分子仕様の異なる可能な互変異性形態を検出し、分子仕様の単一のマッピングされたバージョンにマッピングしようとする場合、マッピングアルゴリズム132は「互変異性体に優しい」。
【0054】
斜体で示すように、いくつかの実施形態では、マッピングアルゴリズム132は、ハッシュ関数である。ハッシュ関数は、分子仕様(即ち「キー」)を配列インデックスにマッピングする。したがって、1からMまでの整数xに対して、マッピングされたカタログ140(x)は、分子カタログ102(x)のハッシュマップである。いくつかの実施形態では、マッピングされたカタログ140(x)は、関連付けられた配列インデックスに基づいて、分子カタログ102(x)に含まれる利用可能な分子仕様を記憶する。有利には、当業者が認識するであろうように、ハッシュ関数及びハッシュマップを介してキーを検索する時間は、ハッシュマップのサイズに依存しない。
【0055】
いくつかの実施形態では、分子カタログ102は、利用可能な分子をSMILES文字列として表し、マッピングアルゴリズム132は、InChIまたはSMILES文字列をInChIKeyにマッピングする互変異性体に優しいハッシュ関数である。「InChIKey」は、一般に「ハッシュInChI」とも呼ばれる圧縮された固定長の形式で分子仕様をエンコードする。これにより、いくつかの実施形態では、マッピングされたカタログ140(x)は、1からMまでの整数xに対して、関連するInChIKeyに基づいて分子カタログ102(x)に含まれるSMILES文字列を記憶するハッシュマップである。
【0056】
図示されていないが、いくつかの実施形態では、マッピングされたカタログ140のそれぞれを生成した後、ワークフローエンジン122は、マッピングされたカタログ140を、分子探索アプリケーション120にアクセス可能な任意のメモリに記憶する。このようにして、分子探索アプリケーション120の1つ以上のインスタンスは、マッピングされたカタログ140を生成することができ、分子探索アプリケーション120の他のインスタンスは、マッピングされたカタログ140を再利用することができる。いくつかの実施形態では、ワークフローエンジン122は、任意の数及び/またはタイプの要求に応答してマッピングされたカタログ140をメモリに格納し、任意の数及び/またはタイプの要求に基づいてマッピングされたカタログ140をメモリから検索することができる。
【0057】
検索段階では、ワークフローエンジン122は、クエリ分子に関連付けられた検索要求128を受信し、それに応答して、クエリ分子仕様150及び編集ヒューリスティックセット152を判定する。クエリ分子は、分子カタログ102の検索の起点となる分子である。例えば、いくつかの実施形態では、クエリ分子は、創薬プロセスにおいて関心のある医薬品開発候補であるため、クエリ分子は、関連する標的生物活性を有する。クエリ分子は、任意の技術的に実現可能な方法で記述され、検索要求128に関連付けられ得る。
【0058】
クエリ分子仕様150は、本明細書で前述したマッピングアルゴリズム132によってサポートされる任意のフォーマットでのクエリ分子の構造表現である。例えば、いくつかの実施形態では、マッピングアルゴリズム132への入力は、SMILES文字列であるため、クエリ分子仕様150は、クエリ分子を表すSMILES文字列である。ワークフローエンジン122は、検索要求128に関連付けられたクエリ分子の任意の記述に基づいて、任意の数及び/またはタイプの操作を実行して、クエリ分子仕様150を生成する。
【0059】
例えば、いくつかの実施形態では、検索要求128は、マッピングアルゴリズム132によってサポートされるフォーマットでクエリ分子の構造表現を特定し、ワークフローエンジン122は、クエリ分子仕様150を構造表現に等しく設定する。いくつかの他の実施形態では、検索要求128は、クエリ分子を図式的に表す骨格構造に関連付けられ、ワークフローエンジン122は、骨格構造を、マッピングアルゴリズム132によってサポートされるフォーマットでクエリ分子の構造表現に変換する。
【0060】
編集ヒューリスティックセット152は、任意の数及び/またはタイプの編集ヒューリスティック(
図1に図示せず)を含むが、これらに限定されない。各編集ヒューリスティックは、任意の技術的に実現可能な方法で、既存の分子の構造に対する異なるタイプの変更を特定する。例えば、いくつかの実施形態では、既存の分子に適用される場合、編集ヒューリスティックの1つは、任意の数の窒素を再配置して、窒素の位置のみが異なる既存の分子の任意の数(ゼロを含む)の異性体を生成する。
【0061】
いくつかの実施形態では、編集ヒューリスティックは、1つ以上の創薬プロセスに関連するように設計される。同じまたは他の実施形態では、少なくとも1つの編集ヒューリスティックのそれぞれについて、ランダムな構造変更と比較して、経験的証拠は、編集ヒューリスティックによって特定された構造変更が、典型的な創薬プロセスに関連する標的生物活性を維持する可能性が高いことを示している。いくつかの実施形態では、編集ヒューリスティックの1つ以上は、標的生物活性を改善し、分子からリスクを除去し、分子の特定の部分が標的生物活性に関して重要であるか否かについての洞察を提供し、またはそれらの任意の組み合わせを提供するように設計される。
【0062】
ワークフローエンジン122は、任意の技術的に実行可能な方法で、検索要求128に関連付けられた編集ヒューリスティックセット152を判定することができる。いくつかの実施形態では、ワークフローエンジン122は、初期化段階で任意の技術的に実現可能な方法で(例えば、GUI106から)受け取った任意の数及び/またはタイプのコマンドに基づいて、編集ヒューリスティックセット152を生成する。同じまたは他の実施形態では、ワークフローエンジン122は、検索要求128及び/または検索要求128に関連付けられた任意の数及び/またはタイプのコマンドに基づいて、編集ヒューリスティックセット152に含まれる任意の数の編集ヒューリスティックを追加、削除、及び/または修正することができる。例えば、いくつかの実施形態では、検索要求128は、編集ヒューリスティックをクエリ分子仕様150に適用することでクエリ分子に関連付けられた標的生物活性を維持する可能性を高めるように設計された任意の数及び/またはタイプの編集ヒューリスティックを特定する。
【0063】
図示するように、いくつかの実施形態では、ワークフローエンジン122は、クエリ分子仕様150及び編集ヒューリスティックセット152を派生エンジン160に入力する。これに応じて、派生エンジン160は、派生データセット162を生成する。図示するように、いくつかの実施形態では、派生データセット162は、派生分子仕様168(1)~168(N)及び適用された編集リスト164(1)~164(N)を含むがこれらに限定されず、ここで、Nは、任意の正の整数であり得る。
【0064】
派生分子仕様168(1)~168(N)のそれぞれは、クエリ分子の構造に基づいて派生した異なる分子を表す。説明のみを目的として、派生分子仕様168(1)~168(N)は、本明細書では個別に「派生分子仕様168」とも呼ばれ、集合的に「派生分子仕様168」とも呼ばれる。派生分子仕様168によって表される分子は、本明細書では「派生分子」とも呼ばれる。
【0065】
派生エンジン160は、任意の技術的に実現可能な方法で、クエリ分子仕様150及び編集ヒューリスティックセット152に基づいて、派生分子仕様168を生成することができる。いくつかの実施形態では、派生エンジン160は、編集ヒューリスティックセット152に含まれる任意の数の編集ヒューリスティックを個別に及び/または任意の数の組み合わせでクエリ分子仕様150に適用して、派生分子仕様168(1)~168(N)を生成する。
【0066】
当業者が認識するであろうように、いくつかの実施形態では、所与の編集ヒューリスティックを所与の分子仕様に適用することにより、任意の数(ゼロを含む)の派生分子仕様168を作成することができる。例えば、所与の編集ヒューリスティックは、置換基が除去され、所与の分子がその置換基を含まないことを特定する場合、関連する分子仕様に編集ヒューリスティックを適用しても、派生分子仕様168を作成しない。対照的に、所与の編集ヒューリスティックが所与の分子に追加される置換基のリストを特定する場合、関連する分子仕様に編集ヒューリスティックを適用すると、複数の派生分子仕様168を作成することができる。
【0067】
説明のみを目的として、派生分子のそれぞれは、クエリ分子から離れたいくつかの編集に関連付けられる。所与の派生分子がクエリ分子から離れた編集の回数は、派生エンジン160が派生分子を表す派生分子仕様168を生成するためにクエリ分子仕様150から始めて行うヒューリスティックベースの編集の総回数を指す。本明細書で言及された「ヒューリスティックベースの編集」は、クエリ分子仕様150または派生分子仕様168の1つに対する編集ヒューリスティックの1つの適用である。
【0068】
例えば、いくつかの実施形態では、派生エンジン160は、編集ヒューリスティックの1つをクエリ分子仕様150に適用して、クエリ分子から1回編集だけ離れた派生分子を表す派生分子仕様168(1)を生成する。続いて、派生エンジン160は、同じまたは別の編集ヒューリスティックを派生分子仕様168(1)に適用して、クエリ分子から2回編集だけ離れた派生分子を表す、派生分子仕様168とは異なる仕様を生成する。
【0069】
図2に関連して以下でより詳細に説明するように、いくつかの実施形態では、派生エンジン160は、編集ヒューリスティックセット152に含まれる編集ヒューリスティックをクエリ分子仕様150に再帰的に適用して、派生分子仕様168を生成する。いくつかの実施形態では、最初の反復中に、派生エンジン160は、編集ヒューリスティックのそれぞれをクエリ分子仕様150に適用して、派生分子仕様168の第1のサブセットを生成する。派生分子仕様168の第1のサブセットは、クエリ分子から1回編集だけ離れた分子を表す。
【0070】
第2の反復中に、派生エンジン160は、編集ヒューリスティックのそれぞれを派生分子仕様168の第1のサブセットに適用して、派生分子仕様168の第2のサブセットを生成する。派生分子仕様168の第2のサブセットは、クエリ分子から2回編集だけ離れた分子を表す。いくつかの実施形態では、派生エンジン160は、派生エンジン160が編集ヒューリスティックのそれぞれ及び編集ヒューリスティックの可能な組み合わせのそれぞれをクエリ分子仕様150に徹底的に適用するまで、編集ヒューリスティックを派生分子仕様168の最も新しく生成されたサブセットに適用し続ける。
【0071】
破線の枠及び破線の矢印によって示されるように、いくつかの実施形態では、派生エンジン160は、編集制限154を受け取る。編集制限154は、派生エンジン160が任意の技術的に実現可能な方法で生成する派生分子仕様168の総数を制限できる任意のタイプの制約であり得る。例えば、いくつかの実施形態では、編集制限154は、派生エンジン160が実行できる反復の最大回数を特定する。同じまたは他の実施形態において、編集制限154は、派生分子のいずれかがクエリ分子から離れ得る編集の最大回数を特定する。いくつかの実施形態では、派生エンジン160は、編集制限154のデフォルト値を実装する。
【0072】
いくつかの実施形態では、派生エンジン160が派生分子仕様168(1)~168(N)を生成すると、派生エンジン160は、適用された編集リスト164(1)~164(N)も生成する。適用された編集リスト164(1)~164(N)はまた、本明細書では個別に「適用された編集リスト164」とも呼ばれ、集合的に「適用された編集リスト164」とも呼ばれる。適用された編集リスト164(y)は、1からNまでの整数yに対して、派生エンジン160がクエリ分子仕様150に適用して派生分子仕様168(y)を生成する編集を非限定的に特定する。派生エンジン160は、適用される編集リスト164に含まれる編集を、任意の詳細レベルで、任意の技術的に実現可能な方法で特定することができる。いくつかの他の実施形態では、派生エンジン160は、適用された編集リスト164を生成せず、適用された編集リスト164は、派生データセット162から省略される。
【0073】
図示するように、いくつかの実施形態では、ワークフローエンジン122は、派生分子仕様168(1)~168(N)を分子マッピングエンジン134に入力する。これに応じて、分子マッピングエンジン134は、マッピングされたデータセット170(1)~170(N)を生成する。マッピングされたデータセット170(1)~170(N)はまた、本明細書では個別に「マッピングされたデータセット170」とも呼ばれ、集合的に「マッピングされたデータセット170」とも呼ばれる。
【0074】
図示されていないが、マッピングされたデータセット170(y)は、派生分子仕様168(y)及び派生分子仕様168(y)のマッピングされたバージョンを含むがこれらに限定されなく、ここで、yは、1からNまでの整数である。本明細書で前述したように、(派生分子仕様168の1つを含む)分子仕様のマッピングされたバージョンは、本明細書では「マッピングされた分子仕様」とも呼ばれる。
【0075】
分子マッピングエンジン134は、任意の技術的に実現可能な方法で、カタログマッピングエンジン130によって実行されるマッピング操作と一致する、派生分子仕様168(1)~168(N)のマッピングされたバージョンを生成することができる。図示するように、いくつかの実施形態では、分子マッピングエンジン134は、カタログマッピングエンジン130にも含まれるマッピングアルゴリズム132を含むが、これに限定されない。分子マッピングエンジン134は、派生分子仕様168(1)~168(M)のそれぞれにマッピングアルゴリズム132を適用して、派生分子仕様168(1)~168(M)のマッピングされたバージョンをそれぞれ生成する。
【0076】
本明細書で前述したように、いくつかの実施形態では、マッピングアルゴリズム132は、SMILES文字列をInChIKeyにマッピングするハッシュ関数である。いくつかのこのような実施形態では、派生分子仕様168のそれぞれは、SMILES文字列であり、派生分子仕様168のマッピングされたバージョンのそれぞれは、InChIKeyである。同じまたは他の実施形態では、マッピングされたデータセット170のそれぞれは、両方とも派生分子を表すSMILES文字列及びInChIKeyを含むが、これらに限定されない。
【0077】
図示するように、いくつかの実施形態では、ワークフローエンジン122は、マッピングされたデータセット170(1)~170(N)及びマッピングされたカタログ140(1)~140(M)を検索エンジン180(1)~180(M)にそれぞれ入力する。これに応じて、検索エンジン180(1)~180(M)は、任意の数及び/またはタイプの検索操作を実行して、一致するサブセット188(1)~188(M)をそれぞれ生成する。検索エンジン180(1)~180(M)は、単一の検索エンジン180(明示せず)の異なるインスタンスである。説明のみを目的として、本明細書で使用される「検索エンジン180」は、特定のインスタンスがいずれの図に示されるか否かに関わらず、検索エンジン180の任意のインスタンスを指す。
【0078】
いくつかの他の実施形態では、分子探索アプリケーション120は、検索エンジン180のM個未満のインスタンスを含み、ワークフローエンジン122は、マッピングされたデータセット170(1)~170(N)及びマッピングされたカタログ140(1)~140(M)を、検索エンジン180の任意の数のインスタンスに順次、同時に、またはそれらの任意の組み合わせで入力する。例えば、いくつかの実施形態では、分子探索アプリケーション120は、マッピングされたデータセット170(1)~170(N)を入力し、マッピングされたカタログ140(1)~140(M)を検索エンジン180の単一のインスタンスに順次入力する。これに応じて、検索エンジン180の単一のインスタンスは、一致するサブセット188(1)~188(M)を順次出力する。
【0079】
一致するサブセット188(1)~188(M)は、本明細書では個別に「一致するサブセット188」とも呼ばれ、集合的に「一致するサブセット188」とも呼ばれる。1からMまでの整数xに対して、一致するサブセット188(x)は、分子カタログ102(x)にも含まれる派生分子仕様168(1)~168(N)のそれぞれを含むが、これらに限定されない。本明細書で言及されるように、1からNまでの整数yに対して、派生分子仕様168(y)は、派生分子仕様168(y)が分子カタログ102(x)に含まれる利用可能な分子仕様の1つと一致する場合にのみ、分子カタログ102(x)に含まれる。したがって、一致するサブセット188(x)は、派生分子仕様168(1)~168(N)のセットと、分子カタログ102(x)に含まれる利用可能な分子仕様のセットとの共通部分である。
【0080】
検索エンジン180(x)は、任意の技術的に実現可能な方法で任意の数及び/またはタイプの検索操作(例えば、比較操作など)を実行して、派生分子仕様168のそれぞれが分子カタログ102(x)に含まれる利用可能な分子仕様のいずれかと一致するか否かを判定することができる。有利には、検索操作の効率を高めるために、検索エンジン180(x)は、派生分子仕様168のマッピングされたバージョン及びマッピングされたカタログ140(x)に少なくとも部分的に基づいて検索操作を実行する。
【0081】
当業者が認識するであろうように、いくつかの実施形態では、派生分子仕様168のマッピングされたバージョン及びマッピングされたカタログ140に基づいて検索操作を実行する計算複雑性は、分子カタログ102に含まれる利用可能な分子の総数に関して一定である。同じまたは他の実施形態において、分子カタログ102で派生分子仕様168を検索する計算複雑性は、分子カタログ102に含まれる利用可能な分子の総数に依存しないため、利用可能なすべての分子をインタラクティブレートで検索することができる。本明細書で使用された「インタラクティブレート」とは、通常、ユーザとユーザが認識するアプリケーションとの間の対話のフローを中断しない応答速度(たとえば、1秒未満の速度)を指す。
【0082】
本明細書で前述したように、いくつかの実施形態では、マッピングアルゴリズム132は、ハッシュ関数であり、検索エンジン180(x)は、任意の技術的に実現可能なタイプのハッシュベースの検索を実行して、派生分子仕様168(1)~168(N)のそれぞれが分子カタログ102(x)に含まれるか否かを判定することができる。いくつかのこのような実施形態では、分子カタログ102で派生分子仕様168を検索する計算複雑性は、A^Tのオーダーである。本明細書で使用されるように、記号Aは、クエリ分子に含まれる原子の総数に比例し、記号Tは、派生分子のいずれかがクエリ分子から離れた編集の最大回数である。
【0083】
いくつかの実施形態では、マッピングされたカタログ140(x)は、利用可能な分子仕様のマッピングされたバージョンに基づいて、分子カタログ102(x)に含まれる利用可能な分子仕様を任意の数のバケットに記憶するハッシュマップである。1からNまでの整数yに対して、派生分子仕様168(y)が分子カタログ102(x)に含まれるか否かを判定するために、検索エンジン180(x)は、バケットに基づいてハッシュベースの検索を実装する。
【0084】
いくつかの実施形態では、ハッシュベースの検索を行うために、検索エンジン180(x)は、派生分子仕様168(y)のマッピングされたバージョンに関連付けられたマッピングされたカタログ140(x)に含まれるバケットを識別する。そして、検索エンジン180(x)は、識別されたバケットに記憶された利用可能な分子仕様の検索を実行して、利用可能な分子仕様のいずれかが派生分子仕様168(y)と一致するか否かを判定する。識別されたバケットが空であるか、または識別されたバケットに記憶された利用可能な分子仕様のいずれも派生分子仕様168(y)と一致しない場合、検索エンジン180(x)は、派生分子仕様168(y)を一致するサブセット188(x)に追加しない。そうでない場合、検索エンジン180(x)は、派生分子仕様168(y)を一致するサブセット188(x)に追加する。
【0085】
図示するように、いくつかの実施形態では、ワークフローエンジン122は、派生データセット162及び一致するサブセット188を統合エンジン190に入力する。これに応じて、一致するサブセット188の少なくとも1つにも含まれる派生分子仕様168のそれぞれについて、統合エンジン190は、潜在的な医薬品候補データセット(
図1に図示せず)を生成する。潜在的な医薬品候補データセットのそれぞれは、異なる潜在的な医薬品候補に関連付けられる。いくつかの実施形態では、他の利用可能な分子と比較して、潜在的な医薬品候補は、クエリ分子に関連付けられた創薬プロセスに関連する可能性が高い。
【0086】
潜在的な医薬品候補データセットのそれぞれは、潜在的な医薬品候補仕様(
図1に図示せず)、位置リスト(
図1に示せず)、及び任意の量(量無し含む)及び/またはタイプの追加データを含むが、これらに限定されない。潜在的な医薬品候補仕様は、関連する派生分子仕様168と同じである。位置リストのそれぞれは、関連する潜在的な医薬品候補を含む分子カタログ102のうちの少なくとも1つを非限定的に特定する。いくつかの実施形態では、統合エンジン190は、一致するサブセット188と、分子カタログ102に関連付けられた任意の数及び/またはタイプの選好に基づいて位置リストを生成する。
【0087】
いくつかの実施形態では、分子カタログ102(1)~102(M)は、最高から最低までの選好ランキングにそれぞれ関連付けられる。分子が分子カタログ102(1)に含まれる場合、この分子は、関連するプロバイダから優先的に取得される。いくつかのこのような実施形態では、潜在的な医薬品候補データセットのそれぞれについて、統合エンジン190は、一致するサブセット188に基づいて順序の無いリストを判定する。順序の無いリストのそれぞれは、関連する潜在的な医薬品候補仕様を含む分子カタログ102のサブセットを特定する。潜在的な医薬品候補データセットのそれぞれについて、統合エンジン190は、選好ランキングに基づいて関連する順序の無いリストを順序付けて、位置リストを生成する。
【0088】
同じまたは他の実施形態では、潜在的な医薬品候補データセットのそれぞれは、位置リストの代わりに、または位置リストに加えて、好ましい位置を含む。いくつかのこのような実施形態では、潜在的な医薬品候補データセットのそれぞれについて、統合エンジン190は、好ましい位置を介して、関連する潜在的な医薬品候補仕様を含む分子カタログ102のサブセットの最高の選好ランキングを有する分子カタログ102を特定する。
【0089】
統合エンジン190は、潜在的な医薬品候補データセットと、任意の量(量無し含む)及び/またはタイプの追加データに基づいて、検索結果データセット198を生成する。図示されていないが、いくつかの実施形態では、統合エンジン190は、ワークフローエンジン122、派生エンジン160、検索エンジン180、またはそれらの任意の組み合わせと対話して、検索結果データセット198を生成する。例えば、いくつかの実施形態では、統合エンジン190は、ワークフローエンジン122から、分子カタログ102に関連付けられたクエリ分子仕様150及び/または選好ランキングを受信する。
【0090】
同じまたは他の実施形態では、統合エンジン190は、ワークフローエンジン122と対話して、クエリ分子を図式的に表す骨格構造(
図1に図示せず)を生成する。同じまたは他の実施形態では、潜在的な医薬品候補仕様のそれぞれについて、ワークフローエンジン122は、派生エンジン160と対話して、潜在的な医薬品候補と、潜在的な医薬品候補とクエリ分子との間の構造的差異を図式的に表す注釈付き骨格構造(
図1に図示せず)を生成する。
【0091】
図3に関連して以下でより詳細に説明するように、いくつかの実施形態では、検索結果データセット198は、検索レポート、クエリデータセット、及び検索サマリーを含むが、これらに限定されない。いくつかの実施形態では、検索レポートは、潜在的な医薬品候補データセットを含むが、これに限定されない。同じまたは他の実施形態において、クエリデータセットは、クエリ分子に関連付けられた任意の量及び/またはタイプのデータを含むが、これに限定されない。いくつかの実施形態では、検索サマリーは、マッピングされたカタログ140を介して分子カタログ102に対して実行された検索操作に関連付けられた任意の量及び/またはタイプのデータ(例えば、統計)を含むが、これに限定されない。
【0092】
図示するように、いくつかの実施形態では、ワークフローエンジン122は、GUI106を介して検索結果データセット198の任意の部分(すべてを含む)を表示する。同じまたは他の実施形態では、ワークフローエンジン122は、検索結果データセット198の任意の部分を、GUI106を介して検索結果データセット198の任意の部分を表示する代わりに、またはそれに加えて、任意の数のユーザ及び/または任意の数及び/またはタイプのソフトウェアアプリケーションに提供する。同じまたは他の実施形態では、GUI106は、システム100から省略され、ワークフローエンジン122は、任意の技術的に実現可能な方法で入力データを取得し、出力データを提供することができる。
【0093】
有利には、追加の医薬品開発候補を判定する際に潜在的な医薬品候補を優先的に評価することによって、創薬プロセスの全体的な効率を高めることができる。特に、編集ヒューリスティックセット152は、所与の創薬プロセスに合わせて調整することができるため、創薬プロセスに対する潜在的な医薬品候補の関連性は、類似度測定基準に基づいて判定された従来の潜在的な医薬品候補と比較して高めることができる。結果として、いくつかの実施形態では、追加の医薬品開発候補を判定する際に標的生物活性を持たない分子を評価するために浪費される時間と資源の量を削減することができる。
【0094】
本明細書で説明する技術は、限定ではなく例示的であり、本発明のより広い精神及び範囲から逸脱することなく変更され得ることに留意されたい。分子探索アプリケーション120、ワークフローエンジン122、カタログマッピングエンジン130、派生エンジン160、分子マッピングエンジン134、検索エンジン180、及び統合エンジン190によって提供される機能に関する多くの修正及び変形は、説明された実施形態の範囲及び精神から逸脱することなく当業者にとって明らかであろう。例えば、いくつかの実施形態では、本明細書に記載の分子探索アプリケーション120によって提供される機能は、異なるメモリ116に記憶され、異なるプロセッサ112上で実行される初期化アプリケーション(図示せず)及び検索アプリケーション(図示せず)に分割される。いくつかの実施形態では、
図1の様々な構成要素間の接続トポロジーは、必要に応じて変更され得る。
【0095】
クエリ分子仕様への編集ヒューリスティックの適用
図2は、様々な実施形態による、
図1の派生エンジン160のより詳細な図である。図示するように、いくつかの実施形態では、派生エンジン160は、クエリ分子仕様150と、編集ヒューリスティック210(1)~210(4)を含むがこれらに限定されない編集ヒューリスティックセット152とに基づいて、派生データセット162を生成する。編集ヒューリスティック210(1)~210(4)はまた、本明細書では個別に「編集ヒューリスティック210」とも呼ばれ、集合的に「編集ヒューリスティック210」とも呼ばれる。他の実施形態では、編集ヒューリスティックセット152は、任意の数及び/またはタイプの編集ヒューリスティック210を含み得る。
【0096】
図1に関連して本明細書で前述したように、各編集ヒューリスティック210は、既存の分子の構造に対する異なるタイプの変更を特定する。説明のみを目的として、編集ヒューリスティック210(1)~210(4)に関連付けられた例示的な機能は、斜体で示される。図示するように、編集ヒューリスティック210(1)の機能は、窒素の位置のみが異なる異性体を生成することである。編集ヒューリスティック210(2)の機能は、環から窒素を追加または除去することである。図示するように、編集ヒューリスティック210(3)は、置換基リスト212を含むが、これに限定されない。編集ヒューリスティック210(3)の機能は、置換基リスト212に含まれる任意の数の置換基の1つを追加、削除、または移動(例えば、再配置)することである。置換基の例には、アミノ基(「NH2」)、カルボキシル基(「COOH」)などが含まれるが、これらに限定されない。編集ヒューリスティック210(4)の機能は、硫黄を酸素に、またはその逆に置き換えることである。
【0097】
図示するように、派生エンジン160は、派生ツリー240を増分的に生成する反復エンジン220を含むが、これに限定されない。説明のみを目的として、派生ツリー240の記述には、破線の枠を介して骨格構造250(0)~250(N)で注釈が付けられる。骨格構造250(0)~250(N)はまた、本明細書では個別に「骨格構造250」とも呼ばれ、集合的に「骨格構造250」とも呼ばれる。骨格構造250のそれぞれは、分子の原子を3D空間にどのように配置できるかを示すがこれに限定されない、関連する分子の2D表現である。骨格構造250(0)は、クエリ分子仕様150によって表されるクエリ分子を図式的に示す。骨格構造250(1)~250(N)は、それぞれ派生分子仕様168(1)~168(N)によって表される派生分子を図式的に示す。
【0098】
図2に示す実施形態では、骨格構造250は、単なる例示であり、反復エンジン220によって生成された派生ツリー240に含まれない。いくつかの他の実施形態では、派生エンジン160及び/または反復エンジン220は、任意の技術的に実行可能な方法で骨格構造250(0)~250(N)を取得(例えば、受信、生成など)することができる。いくつかのこのような実施形態では、派生エンジン160及び/または反復エンジン220は、骨格構造250を派生ツリー240及び/または派生データセット162に追加する。同じまたは他の実施形態において、派生エンジン160、反復エンジン220、ワークフローエンジン122、またはそれらの任意の組み合わせは、GUI106を介して、派生ツリー240の任意の部分及び/または派生データセット162の任意の部分を表示することができる。
【0099】
いくつかの実施形態では、反復エンジン220は、深さ242(0)~242(T)を含むがこれらに限定されない派生ツリー240を生成し、ここで、Tは、任意の正の整数であり得る。深さ242(0)~242(T)はまた、本明細書では個別に「深さ242」とも呼ばれ、集合的に「深さ242」とも呼ばれる。説明の目的で、以下で詳細に説明するように、Tは、
図2に示す実施形態では3より大きい整数である。
【0100】
派生エンジン160がクエリ分子仕様150を受信すると、反復エンジン220は、派生ツリー240のルートに対応する深さ252(0)を含むがこれに限定されない派生ツリー240の初期バージョンを生成する。反復エンジン220は、クエリ分子仕様150を深さ252(0)で派生ツリー240に追加する。結果として、深さ252(0)は、クエリ分子仕様150を含むが、これに限定されない。例示のみを目的として、クエリ分子仕様150によって表される例示的なクエリ分子の骨格構造250(0)は、破線の枠によって示される。
【0101】
最初の反復中に、反復エンジン220は、編集ヒューリスティックセット152に含まれる編集ヒューリスティック210のそれぞれをクエリ分子仕様150に個別に適用する。
図1に関連して本明細書で前述したように、いくつかの実施形態では、編集ヒューリスティック210のそれぞれをクエリ分子仕様150に適用することにより、任意の数(ゼロを含む)の派生分子仕様168を作成することができる。
【0102】
図示するように、最初の反復中に、反復エンジン220は、派生分子仕様168(1)~168(a)を生成し、ここで、aは、任意の正の整数であり得る。反復エンジン220は、派生分子仕様168(1)~168(a)を、クエリ分子から1回編集だけ離れた派生分子に関連付けられた深さ252(1)で派生ツリー240に追加する。説明のみを目的として、派生分子仕様168(1)~168(a)によってそれぞれ表される派生分子の骨格構造250(1)~250(a)は、破線の枠によって示される。
【0103】
第2の反復中、反復エンジン220は、編集ヒューリスティック210のそれぞれを、深さ252(1)にある派生分子仕様168(1)~168(a)のそれぞれに個別に適用する。より正確には、図示するように、反復エンジン220は、編集ヒューリスティック210のそれぞれを派生分子仕様168(1)に個別に適用して、派生分子仕様168(a+1)~168(b)を生成し、ここで、bはaより大きい任意の整数であり得る。図示されていないが、反復エンジン220は、編集ヒューリスティック210のそれぞれを派生分子仕様168(2)~168(a-1)のそれぞれに個別に適用して、派生分子仕様168(b+1)~168(c-1)を生成し、ここで、cは、bより大きい任意の整数であり得る。図示するように、反復エンジン220は、編集ヒューリスティック210のそれぞれを派生分子仕様168(a)に個別に適用して、派生分子仕様168(c)~168(d)を生成し、ここで、dは、cより大きい任意の整数であり得る。
【0104】
反復エンジン220は、派生分子仕様168(a+1)~168(d)を、クエリ分子から2回編集だけ離れた派生分子に関連付けられた深さ252(2)で派生ツリー240に追加する。説明のみを目的として、派生分子仕様168(a+1)、168(c)及び168(d)によってそれぞれ表される派生分子の骨格構造250(a+1)、250(c)及び250(d)は、破線の枠によって示される。
【0105】
続いて、明示的に示されていないが、反復エンジン220は、深さ252(3)~252(T-1)にわたって分散する派生分子仕様168(d+1)~168(e-1)を反復的に生成し、ここで、eは、dより大きい任意の整数であり、Tは、3より大きい任意の正の整数である。深さ252(3)~252(T-1)は、それぞれクエリ分子から3~(T-1)回編集だけ離れた派生分子に関連付けられる。
図2に示す実施形態では、反復エンジン220は、深さ252(2)~252(T-2)にある派生分子仕様に基づいて、深さ252(3)~252(T-1)にある派生分子仕様168をそれぞれ生成する。
【0106】
反復エンジン220は、深度252(T-1)にある派生分子仕様168に基づいて、派生分子仕様168(e)~168(N)を生成し、ここで、Nは、eより大きい任意の整数である。反復エンジン220は、派生分子仕様168(e)~168(N)を、クエリ分子からT回編集だけ離れた派生分子に関連付けられた深さ252(T)で派生ツリー240に追加する。そして、反復エンジン220は、反復エンジン220が編集ヒューリスティック210のそれぞれ及び編集ヒューリスティック210の可能な組み合わせのそれぞれをクエリ分子仕様150に徹底的に適用することを判定し、その結果、反復を停止する。
【0107】
反復エンジン220が反復を停止した後、派生ツリー240は、深さ252(0)にあるクエリ分子仕様150、及び深さ252(1)~252(T)にわたって分散する派生分子仕様168(1)~168(N)を含むが、これらに限定されない。派生エンジン160は、派生ツリー240に基づいて派生データセット162を生成する。本明細書で前述したように、いくつかの実施形態では、派生データセット162は、派生分子仕様168(1)~168(N)及び適用された編集リスト164(1)~164(N)を含むが、これらに限定されない。
【0108】
図2に関連して本明細書で前述したように、適用された編集リスト164(y)は、1からNまでの整数yに対して、反復エンジン220がクエリ分子仕様150に適用して派生分子仕様168(y)を生成する編集を非限定的に特定する。派生エンジン160は、適用される編集リスト164に含まれる編集を、任意の詳細レベルで、任意の技術的に実現可能な方法で特定することができる。説明のみを目的として斜体で示されるように、いくつかの実施形態では、派生エンジン160は、適用された編集リスト164(1)を「環に窒素を追加した」に等しく設定する。
【0109】
図3は、様々な実施形態による、
図1の検索結果データセット198のより詳細な図である。
図1に関連して本明細書で前述したように、統合エンジン190は、任意の技術的に実現可能な方法で検索結果データセット198を生成することができる。説明のみを目的として、
図3は、
図2に示した派生データセット162の例に少なくとも部分的に基づいて、統合エンジン190が生成する検索結果データセット198の例を示す。いくつかの他の実施形態では、検索結果データセット198は、任意の技術的に実現可能な方法で、任意の数の潜在的な医薬品候補及び任意の量及び/またはタイプの関連データを特定することができる。
【0110】
図示するように、いくつかの実施形態では、検索結果データセット198は、クエリデータセット302、検索サマリー310、及び検索レポート380を含むが、これらに限定されない。クエリデータセット302は、クエリ分子を記述し、クエリ分子仕様150及び骨格構造250(0)を含むが、これらに限定されない。
図2を再び参照すると、骨格構造250(0)は、分子の原子を3D空間にどのように配置できるかを示すがこれに限定されないクエリ分子の2D表現である。
【0111】
検索サマリー310は、マッピングされたカタログ140を介して検索エンジン180が分子カタログ102に対して実行する検索操作に関連付けられた2Dテーブルを記述する。図示するように、検索サマリーは、行312(1)~312(M)、列314(1)~314(T)、及びマッチカウント320(1,1)~320(M,T)を含むが、これらに限定されない。行312(1)~312(M)は、分子カタログ102(1)~102(M)にそれぞれ対応し、本明細書では個別に「行312」とも呼ばれ、集合的に「行312」とも呼ばれる。列314(1)~314(T)は、深さ252(1)~252(T)にそれぞれ対応し、本明細書では個別に「列314」とも呼ばれ、集合的に「列314」とも呼ばれる。
【0112】
マッチカウント320(1,1)~320(M,T)はまた、本明細書では個別に「マッチカウント320」とも呼ばれ、集合的に「マッチカウント320」とも呼ばれる。
図1及び2を再び参照すると、マッチカウント320(i、j)は、一致するサブセット188(i)に含まれる深さ252(j)に関連付けられた派生分子仕様168の総数であり、ここで、iは、1とMの間の整数であり、jは、1とTの間の整数である。その結果、マッチカウント320(i、j)は、分子カタログ102(i)で特定されたクエリ分子からj回編集だけ離れた派生分子の総数を特定する。
【0113】
説明のみを目的として、マッチカウント320のいくつかの例示的な値は、斜体で示される。図示するように、マッチカウント320(1,1)は、4であり、分子カタログ102(1)が、クエリ分子から1回編集だけ離れた派生分子の4つの表現を含むことを示す。マッチカウント320(2,1)は、17であり、分子カタログ102(2)が、クエリ分子から1回編集だけ離れた派生分子の17の表現を含むことを示す。マッチカウント320(M,1)は、0であり、分子カタログ102(M)が、クエリ分子から1回編集だけ離れた派生分子の表現を含まないことを示す。
【0114】
図示するように、マッチカウント320(1,T)は、10であり、分子カタログ102(1)が、クエリ分子からT回編集だけ離れた派生分子の10の表現を含むことを示す。マッチカウント320(2,1)は、167であり、分子カタログ102(2)が、クエリ分子からT回編集だけ離れた派生分子の167の表現を含むことを示す。マッチカウント320(M,T)は、2であり、分子カタログ102(M)が、クエリ分子からT回編集だけ離れた派生分子の2つの表現を含むことを示す。
【0115】
図示するように、いくつかの実施形態では、検索レポート380は、潜在的な医薬品候補データセット390(1)~390(P)を含むが、これらに限定されない。ここで、Pは、N(派生分子仕様168の総数)以下の整数である。説明のみを目的として、潜在的な医薬品候補データセット390(1)~390(P)は、本明細書では個別に「潜在的な医薬品候補データセット390」とも呼ばれ、集合的に「潜在的な医薬品候補データセット390」とも呼ばれる。潜在的な医薬品候補データセット390のそれぞれは、異なる潜在的な医薬品候補を記述する。
【0116】
図示するように、潜在的な医薬品候補データセット390(1)は、潜在的な医薬品候補仕様392(1)、位置リスト394(1)、注釈付き骨格構造396(1)、及び修正レベル398(1)を含むが、これらに限定されない。図示するように、潜在的な医薬品候補データセット390(P)は、潜在的な医薬品候補仕様392(P)、位置リスト394(P)、注釈付き骨格構造396(P)、及び修正レベル398(P)を含むが、これらに限定されない。明示的に示されていないが、潜在的な医薬品候補データセット390(k)は、潜在的な医薬品候補仕様392(k)、位置リスト394(k)、注釈付き骨格構造396(k)、及び修正レベル398(k)を含むが、これらに限定されなく、ここで、kは、2とP-1との間の整数である。
【0117】
潜在的な医薬品候補仕様392(1)~392(P)のそれぞれは、分子カタログ102のうちの少なくとも1つに含まれる派生分子仕様168の異なる1つに等しい。位置リスト394(1)~394(P)のそれぞれは、潜在的な医薬品候補仕様392(1)~393(P)をそれぞれ含む分子カタログ102のサブセットを非限定的に特定する。いくつかの実施形態では、位置リスト394(1)~394(P)のそれぞれは、分子カタログ102に関連付けられた選好ランキングに基づいて順序付けられる。
【0118】
注釈付き骨格構造396(1)~396(P)は、関連する潜在的な医薬品候補とクエリ分子との間の構造的差異を図式的に示すために、任意の技術的に実現可能な方法で(例えば、着色スキームにより)注釈が付けられた関連する潜在的な分子を表す骨格構造250である。統合エンジン190は、注釈付き骨格構造396(1)~396(P)を任意の技術的に実現可能な方法で取得することができる。いくつかの実施形態では、ワークフローエンジン122、派生エンジン160、統合エンジン190、またはそれらの任意の組み合わせは、注釈付き骨格構造396(1)~396(P)を生成することができる。
【0119】
修正レベル398(1)~398(P)は、それぞれ潜在的な医薬品候補仕様392(1)~392(P)を生成するために、派生エンジン160がクエリ分子仕様150に適用した編集ヒューリスティック210の総数を特定する。
図2を再び参照すると、いくつかの実施形態では、修正レベル398(1)~398(P)のそれぞれは、異なる深さ252であるため、クエリ分子から離れた編集の総数を示す。
【0120】
説明のみを目的として、潜在的な医薬品候補データセット390(1)及び390(P)のいくつかの例示的な値は、斜体で示される。図示するように、潜在的な医薬品候補仕様392(1)は、派生分子仕様168(3)(明示せず)である。位置リスト394(1)は、潜在的な医薬品候補仕様392(1)が分子カタログ102(2)に含まれることを示す。修正レベル398(1)は、潜在的な医薬品候補仕様392(1)によって記述された潜在的な医薬品候補が、クエリ分子から1回編集だけ離れることを示す。
【0121】
いくつかの実施形態では、潜在的な医薬品候補仕様392(P)は、(
図2に示す)派生分子仕様168(e)である。位置リスト394(P)は、潜在的な医薬品候補仕様392(P)が分子カタログ102(1)及び102(M)に含まれることを示す。修正レベル398(1)は、潜在的な医薬品候補仕様392(1)によって記述された潜在的な医薬品候補が、クエリ分子からT回編集だけ離れることを示す。
【0122】
図4は、様々な実施形態による、創薬プロセス中に潜在的な医薬品候補を判定するための方法ステップの流れ図である。方法ステップは、
図1~3のシステムを参照して説明されるが、当業者は、方法ステップを任意の順序で実施するように構成された任意のシステムが本発明の範囲内にあることを理解するであろう。
【0123】
図示するように、方法400は、カタログマッピングエンジン130の任意の数のインスタンスが、分子カタログ102(1)~102(M)及びマッピングアルゴリズム132に基づいて、マッピングされたカタログ140(1)~140(M)を生成するステップ402から開始する。そして、ワークフローエンジン122は、検索要求128を待つ。いくつかの実施形態では、ワークフローエンジン122は、分子探索アプリケーション120にアクセス可能な任意のメモリに任意の数のマッピングされたカタログ140(1)~140(M)を記憶する。
【0124】
ステップ404で、ワークフローエンジン122は、検索要求128に関連付けられたクエリ分子仕様150及び編集ヒューリスティックセット152を判定する。ステップ406で、派生エンジン160は、クエリ分子仕様150及び編集ヒューリスティックセット152に基づいて、派生分子仕様168(1)~168(N)及び任意選択的に適用された編集リスト164(1)~164(N)を計算する。
【0125】
ステップ408で、分子マッピングエンジン134は、マッピングアルゴリズム132に基づいて、派生分子仕様168(1)~168(N)のマッピングされたバージョンを計算する。ステップ410で、検索エンジン180の任意の数のインスタンスは、マッピングされたカタログ140(1)~140(M)及び派生分子仕様168(1)~168(N)のマッピングされたバージョンを介して、分子カタログ102(1)~102(M)のそれぞれで派生分子仕様168(1)~168(N)を検索して、一致するサブセット188(1)~188(M)を生成する。
【0126】
ステップ412で、統合エンジン190は、一致するサブセット188に基づいて潜在的な医薬品候補データセット390を生成する。ステップ414で、統合エンジン190は、潜在的な医薬品候補データセット390、及び任意の数のクエリ分子仕様150、派生分子仕様168、及び適用された編集リスト164に基づいて、検索結果データセット198を生成する。
【0127】
ステップ416で、ワークフローエンジン122は、検索結果データセット198の任意の部分を、追加の医薬品開発候補を判定する際に使用するために、任意の数のユーザ及び/または任意のタイプのソフトウェアアプリケーションに記憶及び/または提供する。ステップ418で、ワークフローエンジン122は、ワークフローエンジン122が新しい検索要求128を受信したか否かを判定する。ステップ418で、ワークフローエンジン122が新しい検索要求128を受信していないとワークフローエンジン122が判断した場合、方法400は、終了する。
【0128】
しかしながら、ステップ418で、ワークフローエンジン122が新しい検索要求128を受信したとワークフローエンジン122が判定した場合、方法400は、ワークフローエンジン122が、検索要求128に関連付けられたクエリ分子仕様150及び編集ヒューリスティックセット152を判定するステップ404に戻る。方法400は、ステップ418で、ワークフローエンジン122が新しい検索要求128を受信していないとワークフローエンジン122が判定するまで、ステップ404~418を循環し続けて、新しい検索結果データセット198を生成する。そして、方法400は、終了する。
【0129】
要するに、開示された技術は、クエリ分子、創薬プロセスに合わせて調整された編集ヒューリスティック、及び任意の数の分子カタログに基づいて、創薬プロセスにおける潜在的な医薬品候補を派生するために使用することができる。いくつかの実施形態では、分子探索アプリケーションは、ワークフローエンジン、カタログマッピングエンジン、派生エンジン、分子マッピングエンジン、検索エンジン、及び統合エンジンを含むが、これらに限定されない。
【0130】
初期化段階では、ワークフローエンジンは、分子カタログをカタログマッピングエンジンの任意の数のインスタンスに入力して、マッピングされたカタログを生成する。分子カタログは、それぞれが異なる既存の分子を表す任意の数の利用可能な分子仕様を含むがこれに限定されない。マッピングされたカタログは、関連する分子カタログに含まれる利用可能な分子仕様のマッピングされたバージョンを含むが、これに限定されない。所与の分子カタログに対応するマッピングされたカタログを生成するために、カタログマッピングエンジンは、マッピングアルゴリズム(例えば、ハッシュ関数)を、分子カタログに含まれる利用可能な分子仕様のそれぞれに適用する。
【0131】
続いて、検索段階では、ワークフローエンジンは、それぞれがクエリ分子に関連付けられた任意の数の検索要求を受け取る。いくつかの実施形態では、クエリ分子は、創薬プロセスにおいて関心のある医薬品開発候補である。所与の検索要求に応答して、ワークフローエンジンは、クエリ分子仕様と編集ヒューリスティックセットを判定する。クエリ分子仕様は、検索要求に関連付けられたクエリ分子を表す。
【0132】
編集ヒューリスティックセットは、それぞれが既存の分子の構造に対する異なるタイプの変更を特定する任意の数及び/またはタイプの編集ヒューリスティックを含むが、これらに限定されない。編集ヒューリスティックは、通常、1つ以上の創薬プロセスに関連するように設計される。特に、少なくとも1つの編集ヒューリスティックのそれぞれについて、ランダムな構造変更と比較して、経験的証拠は、編集ヒューリスティックによって特定された構造変更が、典型的な創薬プロセスに関連する標的生物活性を維持する可能性が高いことを示している。
【0133】
派生エンジンは、編集ヒューリスティックセットに含まれる編集ヒューリスティックを関連するクエリ分子仕様に繰り返し適用して、編集ヒューリスティックのすべての可能な組み合わせに対応する派生分子仕様を生成する。そして、分子マッピングエンジンは、派生分子仕様のそれぞれにマッピングアルゴリズムを適用して、派生分子仕様のマッピングされたバージョンを生成する。重要なことに、分子マッピングエンジンとカタログマッピングエンジンが同じマッピングアルゴリズムを実装することである。
【0134】
検索エンジンは、関連するマッピングされたカタログ及び派生分子仕様のマッピングされたバージョンに基づいて、分子カタログのそれぞれに対して任意の数及び/またはタイプの検索操作を実行して、派生分子仕様の関連付けられた一致するサブセットを生成する。所与の分子カタログに関連付けられた一致するサブセットは、分子カタログに含まれる利用可能な分子仕様と一致する派生分子仕様を非限定的に特定する。
【0135】
一致するサブセットに基づいて、ワークフローエンジンは、任意の数の潜在的な医薬品候補仕様と関連する位置リストを非限定的に特定する検索結果データセットを生成する。潜在的な医薬品候補仕様のそれぞれは、利用可能な分子仕様の少なくとも1つと一致する異なる派生分子仕様である。潜在的な医薬品候補仕様のそれぞれについて、関連する位置リストは、潜在的な医薬品候補仕様を含む分子カタログの少なくとも1つを特定する。そして、ワークフローエンジンは、検索結果データセットの任意の部分を(例えば、GUIを介して)任意の数のユーザに提供し、及び/または検索結果データセットの任意の部分を任意の数の他のソフトウェアアプリケーションに送信する。
【0136】
従来技術に対して開示された技術の少なくとも1つの技術的利点は、分子探索アプリケーションを使用して、創薬プロセス中に追加の医薬品開発候補をより効率的に判定することができることである。特に、編集ヒューリスティックは、創薬プロセスに合わせて調整されるため、派生分子仕様のそれぞれが標的生物活性を有する分子を表す可能性が高くなる。その結果、最終的に追加の医薬品開発候補であると判定される潜在的な医薬品候補の割合は、通常、先行技術のアプローチと比較して増加する。さらに、従来技術とは異なり、検索エンジンによって実行された操作の計算複雑性は、検索される分子の総数にも関わらず、一定のままであるため、分子カタログを包括的に検索するために必要な時間及び計算資源の量を削減することができる。特に、開示された技術によれば、利用可能な分子のすべてを所与のインタラクティブレートで検索することができる。これらの技術的利点は、従来技術のアプローチに対して1つ以上の技術の改善点を提供する。
【0137】
1.いくつかの実施形態では、創薬プロセス中に1つ以上の潜在的な医薬品候補を判定するためのコンピュータ実装方法であって、クエリ分子仕様及び複数の編集ヒューリスティックに基づいて、複数の派生分子仕様を生成することと、マッピングアルゴリズムを介して、前記複数の派生分子仕様に対して1つ以上のマッピング操作を実行して、複数のマッピングされた分子仕様を生成することと、前記マッピングされた分子仕様に基づいて、マッピングされた分子カタログに対して1つ以上の検索操作を実行して、前記1つ以上の潜在的な医薬品候補を判定することと、を含む、前記コンピュータ実装方法。
【0138】
2.前記マッピングアルゴリズムを介して、分子カタログに関連付けられた複数の分子仕様に対して1つ以上のマッピング操作を実行して、前記マッピングされた分子カタログを生成することをさらに含む、条項1に記載のコンピュータ実装方法。
【0139】
3.前記複数の派生分子仕様を生成することが、前記複数の編集ヒューリスティックを前記クエリ分子仕様に再帰的に適用して、前記複数の派生分子仕様を含む派生ツリーを生成することを含む、条項1または2に記載のコンピュータ実装方法。
【0140】
4.前記複数の派生分子仕様を生成することが、前記複数の編集ヒューリスティックに含まれる第1の編集ヒューリスティックを前記クエリ分子仕様に適用して、第1の派生分子仕様を生成することと、前記複数の編集ヒューリスティックに含まれる第2の編集ヒューリスティックを前記第1の派生分子仕様に適用して、第2の派生分子仕様を生成することと、を含む、条項1~3のいずれかに記載のコンピュータ実装方法。
【0141】
5.前記複数の編集ヒューリスティックが、前記クエリ分子仕様に適用されると、前記クエリ分子仕様に窒素または置換基を追加し、前記クエリ分子仕様から窒素または置換基を除去し、または前記クエリ分子仕様に含まれる置換基を再配置して派生分子仕様を生成する少なくとも1つの編集ヒューリスティックを含む、条項1~4のいずれかに記載のコンピュータ実装方法。
【0142】
6.前記複数の編集ヒューリスティックが、前記クエリ分子仕様に適用されると、前記クエリ分子仕様に含まれる窒素を再配置して、前記クエリ分子仕様に対応するクエリ分子の異性体を表す派生分子仕様を生成する少なくとも1つの編集ヒューリスティックを含む、条項1~5のいずれかに記載のコンピュータ実装方法。
【0143】
7.前記マッピングアルゴリズムがハッシュ関数を含み、前記分子のマッピングされたカタログがハッシュマップを含む、条項1~6のいずれかに記載のコンピュータ実装方法。
【0144】
8.前記1つ以上の検索操作を実行することが、前記複数のマッピングされた分子仕様に含まれるマッピングされた第1の分子仕様に基づいて、前記マッピングされた分子カタログに対してハッシュベースの検索を実行して、前記複数の派生分子仕様に含まれる第1の派生分子仕様が、前記マッピングされた分子カタログに含まれる第1の分子仕様と一致すると判定することを含む、条項1~7のいずれかに記載のコンピュータ実装方法。
【0145】
9.別のマッピングされた分子カタログに対して別のハッシュベースの検索を実行して、前記第1の派生分子仕様が、前記別のマッピングされた分子カタログに含まれる第2の分子仕様と一致すると判定することと、前記マッピングされた分子カタログに対応する第1の分子カタログが、前記別のマッピングされた分子カタログに対応する第2の分子カタログよりも低い第1の選好ランキングを有すると判定することと、前記第1の派生分子仕様に対応する第1の派生分子が第1の潜在的な医薬品候補であり、前記第2の分子カタログに位置することを、グラフィカルユーザインタフェースを介してコンピューティングデバイス上に表示することと、をさらに含む、条項1~8のいずれかに記載のコンピュータ実装方法。
【0146】
10.前記クエリ分子仕様が、前記創薬プロセスに関連付けられた関心のある医薬品開発候補を表す、条項1~9のいずれかに記載のコンピュータ実装方法。
【0147】
11.いくつかの実施形態では、1つ以上のプロセッサによって実行されると、クエリ分子仕様及び複数の編集ヒューリスティックに基づいて、複数の派生分子仕様を生成し、マッピングアルゴリズムを介して、前記複数の派生分子仕様に対して1つ以上のマッピング操作を実行して、複数のマッピングされた分子仕様を生成し、前記複数のマッピングされた分子仕様及びマッピングされた分子カタログに基づいて、分子カタログで前記複数の派生分子仕様に含まれる各派生分子仕様を検索して、1つ以上の潜在的な医薬品候補を判定するステップを実行することにより、創薬プロセス中に前記1つ以上の潜在的な医薬品候補を前記1つ以上のプロセッサに判定させる命令を含む、1つ以上の非一時的なコンピュータ可読媒体。
【0148】
12.前記マッピングアルゴリズムを介して、分子カタログに関連付けられた複数の分子仕様に対して1つ以上のマッピング操作を実行して、前記マッピングされた分子カタログを生成することをさらに含む、条項11に記載の1つ以上の非一時的なコンピュータ可読媒体。
【0149】
13.前記複数の派生分子仕様を生成することが、前記複数の編集ヒューリスティックを前記クエリ分子仕様に再帰的に適用して、前記複数の派生分子仕様を含む派生ツリーを生成することを含む、条項11または12に記載の1つ以上の非一時的なコンピュータ可読媒体。
【0150】
14.前記複数の派生分子仕様を生成することが、前記複数の編集ヒューリスティックに含まれる第1の編集ヒューリスティックを前記クエリ分子仕様に適用して、第1の派生分子仕様を生成することと、前記複数の編集ヒューリスティックに含まれる第2の編集ヒューリスティックを前記クエリ分子仕様に適用して、第2の派生分子仕様を生成することと、を含む、条項11~13のいずれかに記載の1つ以上の非一時的なコンピュータ可読媒体。
【0151】
15.前記複数の編集ヒューリスティックが、前記クエリ分子仕様に適用されると、前記クエリ分子仕様に窒素または置換基を追加し、前記クエリ分子仕様から窒素または置換基を除去し、または前記クエリ分子仕様に含まれる置換基を再配置して派生分子仕様を生成する少なくとも1つの編集ヒューリスティックを含む、条項11~14のいずれかに記載の1つ以上の非一時的なコンピュータ可読媒体。
【0152】
16.前記複数の編集ヒューリスティックが、前記クエリ分子仕様に適用されると、前記クエリ分子仕様に含まれる酸素を硫黄に置き換えるか、前記クエリ分子仕様に含まれる硫黄を酸素に置き換える少なくとも1つの編集ヒューリスティックを含む、条項11~15のいずれかに記載の1つ以上の非一時的なコンピュータ可読媒体。
【0153】
17.前記1つ以上のマッピング操作が、前記複数の派生分子仕様をベクトル空間にマッピングして、前記複数のマッピングされた分子仕様を生成する、条項11~16のいずれかに記載の1つ以上の非一時的なコンピュータ可読媒体。
【0154】
18.分子カタログで検索することが、前記複数のマッピングされた分子仕様に含まれるマッピングされた第1の分子仕様に基づいて、前記マッピングされた分子カタログに対してハッシュベースの検索を実行して、前記複数の派生分子仕様に含まれる第1の派生分子仕様が、前記マッピングされた分子カタログに含まれる第1の分子仕様と一致すると判定することを含む、条項11~17のいずれかに記載の1つ以上の非一時的なコンピュータ可読媒体。
【0155】
19.前記クエリ分子仕様が、前記創薬プロセスに関連付けられた関心のある医薬品開発候補を表す、条項11~18のいずれかに記載の1つ以上の非一時的なコンピュータ可読媒体。
【0156】
20.いくつかの実施形態では、システムであって、命令を記憶する1つ以上のメモリと、前記1つ以上のメモリに結合された1つ以上のプロセッサとを含み、前記命令を実行すると、前記1つ以上のプロセッサが、クエリ分子仕様及び複数の編集ヒューリスティックに基づいて、複数の派生分子仕様を生成し、前記複数の派生分子仕様に含まれる各派生分子仕様にマッピングアルゴリズムを適用して、複数のマッピングされた分子仕様を生成し、前記マッピングされた分子仕様に基づいて、マッピングされた分子カタログに対して1つ以上の検索操作を実行して、1つ以上の潜在的な医薬品候補を判定するステップを実行する、前記システム。
【0157】
請求項のいずれかに記載された請求項要素のいずれか及び/または本願に記載された任意の要素の、任意の及びすべての組み合わせは、何らかの形式で、実施形態及び保護の意図された範囲内に入る。
【0158】
様々な実施形態の説明は、例証の目的で提示されているが、包括的に、または開示される実施形態に限定されることが意図されていない。多くの修正及び変形は、説明された実施形態の範囲及び精神から逸脱することなく当業者にとって明らかであろう。
【0159】
本実施形態の態様は、システム、方法、またはコンピュータプログラム製品として具体化され得る。これにより、本開示の態様は、全体的にハードウェア実施形態、(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)全体的にソフトウェア実施形態、または全て一般的に「モジュール」、「システム」、もしくは「コンピュータ」と称され得るソフトウェア及びハードウェア態様を組み合わせる実施形態の形態をとり得る。さらに、本開示に記載の任意のハードウェア及び/またはソフトウェア技術、プロセス、機能、構成要素、エンジン、モジュール、またはシステムは、回路または回路のセットとして実装され得る。
【0160】
本明細書で前述したように、本開示の態様は、コンピュータ可読プログラムコーデックが具現化された1つ以上のコンピュータ可読媒体で具現化されたコンピュータプログラム製品の形態をとり得る。1つ以上のコンピュータ可読媒体の任意の組み合わせを利用し得る。各コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であり得る。コンピュータ可読記憶媒体は、例えば、電子、磁気、光、電磁気、赤外線、もしくは半導体のシステム、装置、もしくはデバイス、または任意の前述の好適な組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより多くの具体例(非網羅的なリスト)は、1つ以上の通信回線を有する電気的接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ、読み出し専用メモリ、電気的消去可能読み出し専用メモリ、フラッシュメモリ、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ、光学記憶デバイス、磁気記憶デバイス、または前述の任意の好適な組み合わせを含む。本文書の文脈において、コンピュータ可読記憶媒体は、命令実行システム、装置、もしくはデバイスによる使用のために、またはそれらと接続してプログラムを含むまたは記憶することができる任意の有形媒体であり得る。
【0161】
本開示の態様は、本開示の実施形態による方法、装置(システム)、及びコンピュータプログラム製品のフローチャート図及び/またはブロック図を参照して上記で説明される。フローチャート図及び/またはブロック図の各ブロック、ならびにフローチャート図及び/またはブロック図におけるブロックの組み合わせは、コンピュータプログラム命令によって実装できることが理解されるであろう。これらのコンピュータプログラム命令は、機械を製造するために、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに提供され得る。命令は、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサによって実行されると、フローチャート及び/またはブロック図のブロックまたは複数のブロックで指定された機能/動作を実装することができる。そのようなプロセッサは、汎用プロセッサ、専用プロセッサ、特定用途向けプロセッサ、またはフィールドプログラマブルゲートアレイであり得るが、これらに限定されない。
【0162】
図中のフローチャート及びブロック図は、本開示の様々な実施態様によるシステム、方法、及びコンピュータプログラム製品の可能な実施態様のアーキテクチャ、機能、及び動作を示す。この点で、フローチャートまたはブロック図の各ブロックは、規定された論理関数(複数可)を実装するための1つ以上の実行可能命令を含むモジュール、セグメント、またはコードの一部を表し得る。また、いくつかの実施態様では、ブロックに記述された機能は、図に記述された順序とは違う順序で起こり得ることを留意されたい。例えば、連続して示される2つのブロックは、実際に、ほぼ同時に実行され得る、または、ブロックは、時々、含有される機能に応じて、逆の順序で実行され得る。また、ブロック図及び/またはフローチャート図の各ブロック、及びブロック図及び/またはフローチャート図のブロックの組み合わせは、特定の機能もしくは行為、または特殊目的ハードウェア及びコンピュータ命令の組み合わせを行う特殊目的ハードウェアベースシステムによって実装され得ることを留意されたい。
【0163】
上記は本開示の実施形態を対象とするが、本開示の他の実施形態及びさらなる実施形態を、その基本的範囲から逸脱することなく考案してもよく、その範囲は以下の特許請求の範囲によって決定される。
以下、本発明の好ましい実施形態を項分け記載する。
実施形態1
創薬プロセス中に1つ以上の潜在的な医薬品候補を判定するためのコンピュータ実装方法であって、
クエリ分子仕様及び複数の編集ヒューリスティックに基づいて、複数の派生分子仕様を生成することと、
マッピングアルゴリズムを介して、前記複数の派生分子仕様に対して1つ以上のマッピング操作を実行して、複数のマッピングされた分子仕様を生成することと、
前記マッピングされた分子仕様に基づいて、マッピングされた分子カタログに対して1つ以上の検索操作を実行して、前記1つ以上の潜在的な医薬品候補を判定することと、
を含む、前記コンピュータ実装方法。
実施形態2
前記マッピングアルゴリズムを介して、分子カタログに関連付けられた複数の分子仕様に対して1つ以上のマッピング操作を実行して、前記マッピングされた分子カタログを生成することをさらに含む、実施形態1に記載のコンピュータ実装方法。
実施形態3
前記複数の派生分子仕様を生成することが、前記複数の編集ヒューリスティックを前記クエリ分子仕様に再帰的に適用して、前記複数の派生分子仕様を含む派生ツリーを生成することを含む、実施形態1に記載のコンピュータ実装方法。
実施形態4
前記複数の派生分子仕様を生成することが、
前記複数の編集ヒューリスティックに含まれる第1の編集ヒューリスティックを前記クエリ分子仕様に適用して、第1の派生分子仕様を生成することと、
前記複数の編集ヒューリスティックに含まれる第2の編集ヒューリスティックを前記第1の派生分子仕様に適用して、第2の派生分子仕様を生成することと、
を含む、実施形態1に記載のコンピュータ実装方法。
実施形態5
前記複数の編集ヒューリスティックが、前記クエリ分子仕様に適用されると、前記クエリ分子仕様に窒素または置換基を追加し、前記クエリ分子仕様から窒素または置換基を除去し、または前記クエリ分子仕様に含まれる置換基を再配置して派生分子仕様を生成する少なくとも1つの編集ヒューリスティックを含む、実施形態1に記載のコンピュータ実装方法。
実施形態6
前記複数の編集ヒューリスティックが、前記クエリ分子仕様に適用されると、前記クエリ分子仕様に含まれる窒素を再配置して、前記クエリ分子仕様に対応するクエリ分子の異性体を表す派生分子仕様を生成する少なくとも1つの編集ヒューリスティックを含む、実施形態1に記載のコンピュータ実装方法。
実施形態7
前記マッピングアルゴリズムがハッシュ関数を含み、前記分子のマッピングされたカタログがハッシュマップを含む、実施形態1に記載のコンピュータ実装方法。
実施形態8
前記1つ以上の検索操作を実行することが、前記複数のマッピングされた分子仕様に含まれるマッピングされた第1の分子仕様に基づいて、前記マッピングされた分子カタログに対してハッシュベースの検索を実行して、前記複数の派生分子仕様に含まれる第1の派生分子仕様が、前記マッピングされた分子カタログに含まれる第1の分子仕様と一致すると判定することを含む、実施形態1に記載のコンピュータ実装方法。
実施形態9
別のマッピングされた分子カタログに対して別のハッシュベースの検索を実行して、前記第1の派生分子仕様が、前記別のマッピングされた分子カタログに含まれる第2の分子仕様と一致すると判定することと、
前記マッピングされた分子カタログに対応する第1の分子カタログが、前記別のマッピングされた分子カタログに対応する第2の分子カタログよりも低い第1の選好ランキングを有すると判定することと、
前記第1の派生分子仕様に対応する第1の派生分子が第1の潜在的な医薬品候補であり、前記第2の分子カタログに位置することを、グラフィカルユーザインタフェースを介してコンピューティングデバイス上に表示することと、
をさらに含む、実施形態8に記載のコンピュータ実装方法。
実施形態10
前記クエリ分子仕様が、前記創薬プロセスに関連付けられた関心のある医薬品開発候補を表す、実施形態1に記載のコンピュータ実装方法。
実施形態11
1つ以上のプロセッサによって実行されると、
クエリ分子仕様及び複数の編集ヒューリスティックに基づいて、複数の派生分子仕様を生成し、
マッピングアルゴリズムを介して、前記複数の派生分子仕様に対して1つ以上のマッピング操作を実行して、複数のマッピングされた分子仕様を生成し、
前記複数のマッピングされた分子仕様及びマッピングされた分子カタログに基づいて、分子カタログで前記複数の派生分子仕様に含まれる各派生分子仕様を検索して、1つ以上の潜在的な医薬品候補を判定するステップを実行することにより、創薬プロセス中に前記1つ以上の潜在的な医薬品候補を前記1つ以上のプロセッサに判定させる命令を含む、1つ以上の非一時的なコンピュータ可読媒体。
実施形態12
前記マッピングアルゴリズムを介して、分子カタログに関連付けられた複数の分子仕様に対して1つ以上のマッピング操作を実行して、前記マッピングされた分子カタログを生成することをさらに含む、実施形態11に記載の1つ以上の非一時的なコンピュータ可読媒体。
実施形態13
前記複数の派生分子仕様を生成することが、前記複数の編集ヒューリスティックを前記クエリ分子仕様に再帰的に適用して、前記複数の派生分子仕様を含む派生ツリーを生成することを含む、実施形態11に記載の1つ以上の非一時的なコンピュータ可読媒体。
実施形態14
前記複数の派生分子仕様を生成することが、
前記複数の編集ヒューリスティックに含まれる第1の編集ヒューリスティックを前記クエリ分子仕様に適用して、第1の派生分子仕様を生成することと、
前記複数の編集ヒューリスティックに含まれる第2の編集ヒューリスティックを前記クエリ分子仕様に適用して、第2の派生分子仕様を生成することと、
を含む、実施形態11に記載の1つ以上の非一時的なコンピュータ可読媒体。
実施形態15
前記複数の編集ヒューリスティックが、前記クエリ分子仕様に適用されると、前記クエリ分子仕様に窒素または置換基を追加し、前記クエリ分子仕様から窒素または置換基を除去し、または前記クエリ分子仕様に含まれる置換基を再配置して派生分子仕様を生成する少なくとも1つの編集ヒューリスティックを含む、実施形態11に記載の1つ以上の非一時的なコンピュータ可読媒体。
実施形態16
前記複数の編集ヒューリスティックが、前記クエリ分子仕様に適用されると、前記クエリ分子仕様に含まれる酸素を硫黄に置き換えるか、前記クエリ分子仕様に含まれる硫黄を酸素に置き換える少なくとも1つの編集ヒューリスティックを含む、実施形態11に記載の1つ以上の非一時的なコンピュータ可読媒体。
実施形態17
前記1つ以上のマッピング操作が、前記複数の派生分子仕様をベクトル空間にマッピングして、前記複数のマッピングされた分子仕様を生成する、実施形態11に記載の1つ以上の非一時的なコンピュータ可読媒体。
実施形態18
前記分子カタログで検索することが、前記複数のマッピングされた分子仕様に含まれるマッピングされた第1の分子仕様に基づいて、前記マッピングされた分子カタログに対してハッシュベースの検索を実行して、前記複数の派生分子仕様に含まれる第1の派生分子仕様が、前記マッピングされた分子カタログに含まれる第1の分子仕様と一致すると判定することを含む、実施形態11に記載の1つ以上の非一時的なコンピュータ可読媒体。
実施形態19
前記クエリ分子仕様が、前記創薬プロセスに関連付けられた関心のある医薬品開発候補を表す、実施形態11に記載の1つ以上の非一時的なコンピュータ可読媒体。
実施形態20
システムであって、
命令を記憶する1つ以上のメモリと、
前記1つ以上のメモリに結合された1つ以上のプロセッサと、
を含み、前記命令を実行すると、前記1つ以上のプロセッサが、
クエリ分子仕様及び複数の編集ヒューリスティックに基づいて、複数の派生分子仕様を生成し、
前記複数の派生分子仕様に含まれる各派生分子仕様にマッピングアルゴリズムを適用して、複数のマッピングされた分子仕様を生成し、
前記複数のマッピングされた分子仕様に基づいて、マッピングされた分子カタログに対して1つ以上の検索操作を実行して、1つ以上の潜在的な医薬品候補を判定するステップを実行する、前記システム。