IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ サノフイの特許一覧

特表2024-516659分子表面特性を使用する分子の識別および分類
<>
  • 特表-分子表面特性を使用する分子の識別および分類 図1
  • 特表-分子表面特性を使用する分子の識別および分類 図2A
  • 特表-分子表面特性を使用する分子の識別および分類 図2B
  • 特表-分子表面特性を使用する分子の識別および分類 図3
  • 特表-分子表面特性を使用する分子の識別および分類 図4
  • 特表-分子表面特性を使用する分子の識別および分類 図5
  • 特表-分子表面特性を使用する分子の識別および分類 図6
  • 特表-分子表面特性を使用する分子の識別および分類 図7
  • 特表-分子表面特性を使用する分子の識別および分類 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-04-16
(54)【発明の名称】分子表面特性を使用する分子の識別および分類
(51)【国際特許分類】
   G16B 15/00 20190101AFI20240409BHJP
【FI】
G16B15/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023566453
(86)(22)【出願日】2022-04-28
(85)【翻訳文提出日】2023-12-07
(86)【国際出願番号】 US2022026761
(87)【国際公開番号】W WO2022232412
(87)【国際公開日】2022-11-03
(31)【優先権主張番号】63/181,772
(32)【優先日】2021-04-29
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】21315150.9
(32)【優先日】2021-08-27
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.BLUETOOTH
2.WCDMA
(71)【出願人】
【識別番号】504456798
【氏名又は名称】サノフイ
【氏名又は名称原語表記】SANOFI
(74)【代理人】
【識別番号】100127926
【弁理士】
【氏名又は名称】結田 純次
(74)【代理人】
【識別番号】100140132
【弁理士】
【氏名又は名称】竹林 則幸
(74)【代理人】
【識別番号】100216105
【弁理士】
【氏名又は名称】守安 智
(72)【発明者】
【氏名】サレー・リアヒ・サマニ
(72)【発明者】
【氏名】シュアイ・ウェイ
(72)【発明者】
【氏名】ユ・チウ
(72)【発明者】
【氏名】ヤンフェン・チョウ
(72)【発明者】
【氏名】ジェー・ヘヨン・リー
(57)【要約】
標的分子の分子表面の領域から標的分子またはその特性を分類または識別するための方法およびシステムが提供される。一実施態様において、システムは、表面のパッチを識別し、パッチの各々について、それぞれの潜在空間IDおよびそれぞれの実空間IDを生成し、潜在空間IDおよび実空間IDを使用して、標的分子の表面領域に似た表面を含む少なくとも1つの候補アイテムを識別し、表面領域は、標的分子の複数の表面パッチにおける複数のパッチを含み、少なくとも1つの候補アイテムを使用して、標的分子の識別または分類を決定する。
【選択図】図1
【特許請求の範囲】
【請求項1】
方法であって:
1つまたはそれ以上のコンピュータのシステムによって、識別または分類されることになる標的分子を受けることと;
システムによって、標的分子の表面を画成する表面メッシュを識別することであって、表面メッシュは複数の頂点を含むことと;
システムによって、表面メッシュの各頂点をそれぞれのパッチと関連付けることにより、複数の表面パッチを識別することと;
システムによって、ニューラルネットワークを使用することにより、表面パッチの各々についてそれぞれの潜在空間IDを生成することと;
システムによって、パッチの1つまたはそれ以上の幾何学的または化学的特徴の径方向分布を使用することにより、表面パッチにおける各パッチについてそれぞれの実空間IDを生成することと;
システムによって、記憶媒体から、既知の表面を有する1つまたはそれ以上の候補アイテムを得ることと;
システムによって、潜在空間IDおよび実空間IDを使用して、標的分子の表面領域に似た表面を含む少なくとも1つの候補アイテムを識別することであって、表面領域は、標的分子の複数の表面パッチにおける複数のパッチを含むことと;
少なくとも1つの候補アイテムを使用して、標的分子の識別または分類を決定することと;
システムによって、ユーザに提示するために標的分子の識別または分類を提供することと、
を含む、前記方法。
【請求項2】
標的分子の表面領域に似た第1の表面を含む第1の候補アイテムを識別することは:
標的分子の頂点を第1の候補アイテムの頂点にマッピングすることであって、標的分子上の第1の頂点は、第1の頂点および第1の候補アイテムの第2の頂点における少なくとも1つの特徴間の差が所定の閾値以内であるとき、第2の頂点にマッピングされることと;
標的分子上のマッピングされた頂点のうちの少なくとも1つから各々所定の閾値距離以内である標的分子上の頂点のクラスタを識別することと;
勾配降下法を使用することによって、標的分子上のクラスタを第1の候補アイテムの複数の頂点と位置合わせすることであって、複数の頂点は第1の候補アイテム上の第1の表面内にあることと;
標的分子上のクラスタの頂点に関連付けられた表面パッチを、表面領域として識別することと;
第1の候補アイテムを、標的分子の表面領域に似た第1の表面を含むアイテムとして提供することと、
を含む、請求項1に記載の方法。
【請求項3】
クラスタの頂点と、第1の候補アイテムの第1の表面上の頂点との間の3D距離に基づいて、クラスタの空間類似度スコアを決定することをさらに含み;
ここで、第1の候補アイテムは、空間類似度スコアが閾値スコア内にあると決定したことに応答して提供される、請求項2に記載の方法。
【請求項4】
1つまたはそれ以上の候補アイテムの頂点にマッピングされた頂点を有する標的分子上の頂点の複数のクラスタを識別することと;
クラスタの各々について方法を実行して、1つまたはそれ以上の候補アイテム上の1つまたはそれ以上の表面を、標的分子のそれぞれの表面領域に似ているものとして識別することと、
をさらに含む、請求項2に記載の方法。
【請求項5】
複数のクラスタから、所定の数未満の頂点を有するクラスタをフィルタリング除去することをさらに含む、請求項4に記載の方法。
【請求項6】
(i)クラスタ内のマッピングされた頂点の数、(ii)クラスタ内の頂点の総数に対するクラスタ内のマッピングされた頂点の数の比率、(iii)クラスタの1つまたはそれ以上の頂点にマッピングされた少なくとも1つの候補アイテム上の頂点の数、および(iv)候補アイテム上の頂点の総数に対するクラスタの1つまたはそれ以上の頂点にマッピングされた少なくとも1つの候補アイテム上の頂点の数の比率、のうちの1つまたはそれ以上に基づいて、複数のクラスタ内の各クラスタをランク付けすることと;
複数のクラスタから、特定の閾値ランクよりも低くランク付けされるクラスタをフィルタリング除去することと、
をさらに含む、請求項4に記載の方法。
【請求項7】
頂点における少なくとも1つの特徴は、その頂点における形状指数、距離に依拠した曲率、ハイドロパシー、連続体静電学、自由電子/陽子の数のうちの1つまたはそれ以上を含む、請求項2に記載の方法。
【請求項8】
標的分子はタンパク質分子であり、候補アイテムは既知のタンパク質分子の一部分である、請求項1に記載の方法。
【請求項9】
標的分子は抗原であり、候補アイテムはエピトープであり、方法は、
抗原の識別または分類を使用して、エピトープに基づいて抗原の抗体を設計または識別することをさらに含む、請求項1に記載の方法。
【請求項10】
ニューラルネットワークは複数の層を含み、潜在空間IDの各々は同じ層を使用して生成される、請求項1に記載の方法。
【請求項11】
コンピュータシステムによって、動作を実行するように実行可能な1つまたはそれ以上の命令を記憶する非一時的コンピュータ可読媒体であって、動作は:
識別または分類されることになる標的分子を受けることと;
標的分子の表面を画成する表面メッシュを識別することであって、表面メッシュは複数の頂点を含むことと;
表面メッシュの各頂点をそれぞれのパッチと関連付けることにより、複数の表面パッチを識別することと;
ニューラルネットワークを使用することにより、表面パッチの各々についてそれぞれの潜在空間IDを生成することと;
パッチの1つまたはそれ以上の幾何学的または化学的特徴の径方向分布を使用することにより、表面パッチにおける各パッチについてそれぞれの実空間IDを生成することと;
記憶媒体から、既知の表面を有する1つまたはそれ以上の候補アイテムを得ることと;
潜在空間IDおよび実空間IDを使用して、標的分子の表面領域に似た表面を含む少なくとも1つの候補アイテムを識別することであって、表面領域は、標的分子の複数の表面パッチにおける複数のパッチを含むことと;
少なくとも1つの候補アイテムを使用して、標的分子の識別または分類を決定することと;
ユーザに提示するために標的分子の識別または分類を提供することと、
を含む、前記非一時的コンピュータ可読媒体。
【請求項12】
標的分子の表面領域に似た第1の表面を含む第1の候補アイテムを識別することは:
標的分子の頂点を第1の候補アイテムの頂点にマッピングすることであって、標的分子上の第1の頂点は、第1の頂点および第1の候補アイテムの第2の頂点における少なくとも1つの特徴間の差が所定の閾値以内であるとき、第2の頂点にマッピングされることと;
標的分子上のマッピングされた頂点のうちの少なくとも1つから各々所定の閾値距離以内である標的分子上の頂点のクラスタを識別することと;
勾配降下法を使用することによって、標的分子上のクラスタを第1の候補アイテムの複数の頂点と位置合わせすることであって、複数の頂点は第1の候補アイテム上の第1の表面内にあることと;
標的分子上のクラスタの頂点に関連付けられた表面パッチを、表面領域として識別することと;
第1の候補アイテムを、標的分子の表面領域に似た第1の表面を含むアイテムとして提供することと、
を含む、請求項11に記載の非一時的コンピュータ可読媒体。
【請求項13】
動作は:
クラスタの頂点と、第1の候補アイテムの第1の表面上の頂点との間の3D距離に基づいて、クラスタの空間類似度スコアを決定することをさらに含み;
第1の候補アイテムは、空間類似度スコアが閾値スコア内にあると決定したことに応答して提供される、請求項12に記載の非一時的コンピュータ可読媒体。
【請求項14】
動作は:
1つまたはそれ以上の候補アイテムの頂点にマッピングされた頂点を有する標的分子上の頂点の複数のクラスタを識別することと;
クラスタの各々について動作を実行して、1つまたはそれ以上の候補アイテム上の1つまたはそれ以上の表面を、標的分子のそれぞれの表面領域に似ているものとして識別することと、
をさらに含む、請求項12に記載の非一時的コンピュータ可読媒体。
【請求項15】
動作は、複数のクラスタから、所定の数未満の頂点を有するクラスタをフィルタリング除去することをさらに含む、請求項14に記載の非一時的コンピュータ可読媒体。
【請求項16】
動作は:
(i)クラスタ内のマッピングされた頂点の数、(ii)クラスタ内の頂点の総数に対するクラスタ内のマッピングされた頂点の数の比率、(iii)クラスタの1つまたはそれ以上の頂点にマッピングされた少なくとも1つの候補アイテム上の頂点の数、および(iv)候補アイテム上の頂点の総数に対するクラスタの1つまたはそれ以上の頂点にマッピングされた少なくとも1つの候補アイテム上の頂点の数の比率、のうちの1つまたはそれ以上に基づいて、複数のクラスタ内の各クラスタをランク付けすることと;
複数のクラスタから、特定の閾値ランクよりも低くランク付けされるクラスタをフィルタリング除去することと、
をさらに含む、請求項13に記載の非一時的コンピュータ可読媒体。
【請求項17】
システムであって:
1つまたはそれ以上のプロセッサと;
該1つまたはそれ以上のプロセッサに結合され、命令が記憶されたコンピュータ可読記憶デバイスと、
を含み、該命令は、1つまたはそれ以上のプロセッサによって実行されると、該1つまたはそれ以上のプロセッサに:
識別または分類されることになる標的分子を受けることと;
標的分子の表面を画成する表面メッシュを識別することであって、表面メッシュは複数の頂点を含むことと;
表面メッシュの各頂点をそれぞれのパッチと関連付けることにより、複数の表面パッチを識別することと;
ニューラルネットワークを使用することにより、表面パッチの各々についてそれぞれの潜在空間IDを生成することと;
パッチの1つまたはそれ以上の幾何学的または化学的特徴の径方向分布を使用することにより、表面パッチにおける各パッチについてそれぞれの実空間IDを生成することと;
記憶媒体から、既知の表面を有する1つまたはそれ以上の候補アイテムを得ることと;
潜在空間IDおよび実空間IDを使用して、標的分子の表面領域に似た表面を含む少なくとも1つの候補アイテムを識別することであって、表面領域は、標的分子の複数の表面パッチにおける複数のパッチを含むことと;
少なくとも1つの候補アイテムを使用して、標的分子の識別または分類を決定することと;
ユーザに提示するために標的分子の識別または分類を提供することと、
を含む動作を実行させる、前記システム。
【請求項18】
標的分子の表面領域に似た第1の表面を含む第1の候補アイテムを識別することは:
標的分子の頂点を第1の候補アイテムの頂点にマッピングすることであって、標的分子上の第1の頂点は、第1の頂点および第1の候補アイテムの第2の頂点における少なくとも1つの特徴間の差が所定の閾値以内であるとき、第2の頂点にマッピングされることと;
標的分子上のマッピングされた頂点のうちの少なくとも1つから各々所定の閾値距離以内である標的分子上の頂点のクラスタを識別することと;
勾配降下法を使用することによって、標的分子上のクラスタを第1の候補アイテムの複数の頂点と位置合わせすることであって、複数の頂点は第1の候補アイテム上の第1の表面内にあることと;
標的分子上のクラスタの頂点に関連付けられた表面パッチを、表面領域として識別することと;
第1の候補アイテムを、標的分子の表面領域に似た第1の表面を含むアイテムとして提供することと、
を含む、請求項17に記載のシステム。
【請求項19】
動作は:
クラスタの頂点と、第1の候補アイテムの第1の表面上の頂点との間の3D距離に基づいて、クラスタの空間類似度スコアを決定することをさらに含み;
ここで、第1の候補アイテムは、空間類似度スコアが閾値スコア内にあると決定したことに応答して提供される、請求項18に記載のシステム。
【請求項20】
動作は:
1つまたはそれ以上の候補アイテムの頂点にマッピングされた頂点を有する標的分子上の頂点の複数のクラスタを識別することと;
クラスタの各々について動作を実行して、1つまたはそれ以上の候補アイテム上の1つまたはそれ以上の表面を、標的分子のそれぞれの表面領域に似ているものとして識別することと、
をさらに含む、請求項17に記載のシステム。
【発明の詳細な説明】
【背景技術】
【0001】
タンパク質は、配列で、3D構造で、またはその分子表面でなど、異なる形態で表すことができる。配列および構造の比較のために、多くの方法が開発されている。配列および構造の比較方法と比べて、分子表面比較方法はまだ広く研究されていない。
【発明の概要】
【課題を解決するための手段】
【0002】
本開示の実施態様は、分子の表面特性を使用することによる、タンパク質分子等の分子の識別および分類のためのコンピュータにより実施される方法およびシステムを含む。実施態様は、標的分子を識別または分類する2つの補完的方法を実行することが可能な、幾何学形状を認識したシステムを説明する。これらの方法は、ディープラーニングおよびビニングされた特徴行列を適用して、表面の幾何学的および化学的特徴からカスタマイズ可能なサイズの分子表現の数値表現を生成する。本明細書において、数値表現は「表面ID」と呼ばれる。次に、方法は、これらの表面IDを使用して、例えば既知の分子の中から、類似の表面を検索する。本明細書において、(i)分子の表面を既知のエピトープの表面と比較することによって標的タンパク質分子を識別し、(ii)抗体をそれらの機能的パラトープによってクラスタリングするための、これらの方法の応用例が提供される。
【0003】
いくつかの実施態様において、本方法は:1つまたはそれ以上のコンピュータのシステムによって、識別または分類されることになる標的分子を受けることと;システムによって、標的分子の表面を画成する表面メッシュを識別することであって、表面メッシュは複数の頂点を含むことと;システムによって、表面メッシュの各頂点をそれぞれのパッチと関連付けることにより、複数の表面パッチを識別することと;システムによって、ニューラルネットワークを使用することにより、表面パッチの各々についてそれぞれの潜在空間IDを生成することと;システムによって、パッチの1つまたはそれ以上の幾何学的または化学的特徴の径方向分布を使用することにより、表面パッチにおける各パッチについてそれぞれの実空間IDを生成することと;システムによって、記憶媒体から、既知の表面を有する1つまたはそれ以上の候補アイテムを得ることと;システムによって、潜在空間IDおよび実空間IDを使用して、標的分子の表面領域に似た表面を含む少なくとも1つの候補アイテムを識別することであって、表面領域は、標的分子の複数の表面パッチにおける複数のパッチを含むことと;少なくとも1つの候補アイテムを使用して、標的分子の識別または分類を決定することと;システムによって、ユーザに提示するために標的分子の識別または分類を提供することとを含む。
【0004】
本開示は、1つまたはそれ以上のプロセッサに結合され、1つまたはそれ以上のプロセッサによって実行されると、1つまたはそれ以上のプロセッサに、本明細書に提供される方法の実施態様による動作を実行させる命令が記憶された1つまたはそれ以上の非一時的コンピュータ可読記憶媒体も提供する。
【0005】
本開示は、本明細書に提供される方法を実施するためのシステムをさらに提供する。システムは、1つまたはそれ以上のプロセッサと、1つまたはそれ以上のプロセッサに結合され、1つまたはそれ以上のプロセッサによって実行されると、1つまたはそれ以上のプロセッサに、本明細書に提供される方法の実施態様による動作を実行させる命令が記憶されたコンピュータ可読記憶媒体とを備える。
【0006】
本開示による方法は、本明細書に記載の態様および構成の任意の組合せを含むことができる。すなわち、本開示による方法は、本明細書に特に記載される態様および構成の組合せに限定されるものではなく、提供される態様および構成の任意の組合せも含む。
【0007】
数ある利点の中でも、本実施態様は以下の利点を提供する。本実施態様は、標的分子を識別または分類するために、幾何学的および化学的特徴等の分子表面特徴に焦点を当てる。分子表面は、タンパク質分子の機能および生体分子間相互作用を識別するのに特に重要である。3次元構造によって、タンパク質の多岐にわたる機能が達成され、そしてこれらは遺伝子的にコード化されたアミノ酸配列によって特定される。タンパク質の全体配列および構造類似性を使用してタンパク質を比較および分類する多くの方法が開発された。これらのタイプの方法は、全体配列および構造類似性が必ずしも機能の類似性に結びつかないことに起因して制限を有する。タンパク質の機能は、全体配列および構造骨格ではなく、生化学的特性および幾何学的形状等の局所的構造要素に直接由来する。本開示は、そのような機能に関連した局所的表面構造特徴を研究し比較する方法を提供する。局所的表面は、本明細書において、表面「パッチ」または「領域」として扱われる。
【0008】
さらに、本開示は、計算効率および速度を改善するための技法を提供し、このため、分子表面の3D解析を実行するのに必要となる場合があるハードウェアを削減する。その重要性に関わらず、配列および構造の比較方法と比べて、分子表面比較方法はまだ広く研究されていない。1つの理由は、構造位置合わせのための二次構造等の署名要素が欠如した3Dオブジェクトをマッチングする自由度である。局所的構造類似性を算出するために、3Dオブジェクトは、様々な局所的位置合わせをサンプリングすることができ、差異を測定することができるように、大規模な回転および並進変換を受けなくてはならない。そのような変換は、計算方法に大きなオーバヘッドを課す。幾何学的ハッシング、フーリエ変換(FT)、3Dゼルニケ記述子および幾何学的不変フィンガープリント記述子等のいくつかのアルゴリズムは、空間自由度の課題および計算複雑性を克服することが報告された。しかしながら、これらの方法は、発見的手法に基づいた、人間が作った記述子およびパラメータに依拠しており、これは、分子表面の完全な複雑性を捉えるのに最適でない場合がある。
【0009】
さらに、本開示は、同じ分子表面を並列にまたは順に研究するのに使用することができる2つの補完的方法を提供する。2つの方法は独立して実行され、それらの結果は、互いを補完するものとして、または互いを検証するために使用することができる。第1の方法は、機械学習アルゴリズムおよびニューラルネットワークを使用して標的分子上の既知の表面領域を識別する潜在空間方法である。第2の方法は、表面特徴の径方向分布および標的分子の特性を使用して、類似の表面特徴および特性を有する既知のアイテム、例えばエピトープまたは分子を識別する。
【0010】
本開示の1つまたはそれ以上の実施態様の詳細が、添付の図面および以下の説明において示される。本開示の他の特徴および利点は、説明および図面から、ならびに特許請求の範囲から明らかとなろう。
【図面の簡単な説明】
【0011】
図1】本開示の実施態様を実行するのに使用することができる例示的なシステムを示す。
図2A】本開示による識別モジュールによって使用される例示的なプロセスを示す。
図2B】本開示による識別モジュールによって使用される例示的なプロセスを示す。
図3】本開示の実施態様に従って実行することができる例示的なプロセスである。
図4】本開示に記載の方法を実行することができる例示的なコンピューティングデバイスおよびモバイルコンピューティングデバイスの概略図を示す。
図5】標的分子およびエピトープの頂点間の例示的な位置合わせである。
図6】既知のエピトープに基づく標的分子の2つの表面領域の識別における例示的な結果を示す。
図7図7Aおよび図7Bは、本開示によるパラトープおよびエピトープの例示的な分類である。
図8図8Aおよび図8Bは、試験分子の識別における本技法の性能を示す。
【発明を実施するための形態】
【0012】
様々な図面における類似の参照符号は類似の要素を示す。
【0013】
本実施態様は、標的分子またはその特性を識別または分類するためのシステムを提供する。システムは、表面の類似性を識別するために、実空間および潜在空間における分子表面を比較する2つの補完的方法を実行することが可能である。実空間比較を使用する方法は、標的分子に「実空間表面ID」を割り当て、潜在空間比較を使用する方法は、標的分子に「潜在空間表面ID」を割り当てる。システムは、これらの表面IDを使用して、表面IDを、既知の分子に関連付けられた既知の表面IDのセットと比較することによって、標的分子を分類または識別する。
【0014】
例示的な用途において、標的分子はタンパク質分子とすることができる。システムは、タンパク質の表面の表面パッチのために1つまたはそれ以上の表面IDを生成および使用することによって未知のタンパク質を識別することができる。例えば、システムは、未知の抗原を受け、抗原の表面領域に類似した表面を有する既知のエピトープを発見し、識別されたエピトープに対し未知の抗原を分類または識別することができる。発見されたエピトープを使用して、抗原の表面に類似した表面領域を通じて未知の抗原に一致するパラトープを識別または操作することができる。
【0015】
実空間および潜在空間方法を使用して、システムは、同じ表的分子の複数の識別または分類を得ることができる。例えば、システムは、標的分子に関連付けられた潜在空間IDおよび実空間IDの各々について1つの識別、または分子の異なる表面領域について1つの識別を発見することができる。タンパク質等の分子の機能および生体分子間相互作用はそれらの局所的表面(すなわち、表面領域)によって定義されることを考えると、システムは、例えば、分子の更なる操作のために、得られた識別および分類の全てをユーザに提示することができる。さらに、または代替的に、システムは、得られた識別および分類を使用して、例えば、識別された分子またはクラス間の重複を比較することによって、標的分子を識別するまたは分類する際の正確度を検証することができる。
【0016】
図1は、本開示の実施態様による例示的なシステム100を示す。システム100は、標的分子102を受け、標的分子を解析し、例えば提示デバイス120のディスプレイ上の提示のために、標的分子の識別または分類を提供する(118)。
【0017】
システム100は、表面ID生成器サブシステム130および1つまたはそれ以上のアプリケーションモジュール116を含む。表面ID生成器サブシステム130は、標的分子102の表面の表面パッチのための潜在空間IDおよび実空間IDを作成することが可能である。アプリケーションモジュール116は、IDを受け、これらのIDに基づいて標的分子102の識別または分類を提供する。アプリケーションモジュール116に関する詳細が、図2Aおよび図2Bに関して以下に説明される。
【0018】
表面ID生成器サブシステム130は、複数のモジュール:表面および特徴生成器モジュール104、パッチ生成器モジュール106、潜在空間モジュール108および実空間モジュール110を含む。標的分子102の表面について、潜在空間モジュール108は潜在空間IDを生成し、実空間モジュール110は実空間IDを生成する。
【0019】
表面および特徴生成器モジュール104は、標的分子102の表面を画成する表面メッシュを計算する。表面メッシュは複数の頂点を含む。モジュール104は、各頂点に関連付けられた分子特徴も計算する。頂点の特徴は、形状指数、距離依存曲率等の幾何学的特徴、または標的分子102上のその頂点の幾何学的位置に関連付けられた任意の他の特徴とすることができる。頂点の特徴は、ハイドロパシー、連続体静電学、自由電子もしくは陽子の数等の化学的特徴、またはその頂点における標的分子102の任意の他の化学的特徴とすることができる。
【0020】
表面および特徴生成器モジュール104は、各頂点に関連付けられた識別された表面(すなわち、識別された頂点)および特徴を、パッチ生成器モジュール106に送信する。パッチ生成器モジュール106は、表面メッシュ上にパッチを生成する。いくつかの実施態様において、パッチ生成器モジュール106は、頂点の各々を取り囲む表面エリアを識別することによってパッチを生成する。いくつかの実施態様において、パッチは、同じ半径を有するか、または同じサイズを有する。例えば、各パッチは、標的分子102の表面上のパッチの中心頂点から或る特定の測地的距離にある対応する境界線によって画成することができる。測地的距離は、所定の値、例えば、5~20オングストローム(Å)の値とすることができる。測地的距離は、用途、例えば標的分類のタイプに基づいて、または標的分子102を識別または分類するのに使用されるトレーニングされたサンプルに基づいて予め選択することができる。いくつかの実施態様において、パッチは、各々パッチの中心頂点からの測地的距離以内にある複数の頂点(例えば、50個の頂点)を含むことができる。いくつかの実施態様において、標的分子102の表面メッシュ上の各頂点は、それぞれのパッチの中心頂点である。2つ以上のパッチは、異なる形状を有することができる。
【0021】
図1は、パッチ生成器モジュール106が標的分子102の表面上に生成した2つのパッチ102aおよび102bを示す。パッチ生成器モジュール106は、生成されたパッチ102a、102bの各々を潜在空間モジュール108および実空間モジュール110に提供する。
【0022】
潜在空間モジュール108は、ニューラルネットワークを使用することによって、生成されたパッチ102a、102bの各々について、それぞれの潜在空間ID112a、112bを生成する。ニューラルネットワークは、パッチサイズについて最適化された複数の層を有することができる。同じサイズのパッチを使用することによって有利には、異なるパッチにおいて同じニューラルネットワーク、すなわち同じレイヤを使用することが可能になり、このため、パッチが異なるサイズを有する場合にレイヤを最適化するのに必要となる場合がある計算複雑性を低減することができる。レイヤは、畳み込みガウス誤差線形ユニット(GeLU)、または表面パッチの識別において有益な任意の他のレイヤを含むことができる。
【0023】
ニューラルネットワークは、教師あり、半教師あり、または教師なしの形式でトレーニングすることができる。トレーニングは、トレーニングデータにおける類似のパッチの距離を最小限にするように行われる。例示的なプロセスにおいて、分子表面メッシュの単一の頂点は、トレーニングの各ミニバッチステップ中にランダムに選択される。表面パッチにおいて、互いに所定の距離以内にある全ての頂点は、「正」の対とみなされる。例えば、選択された頂点に関連付けられた12Å以内の半径の表面パッチまたは領域において、互いに1.5A以内の測地的距離に中心頂点がある全てのパッチ対は、「正」の対とみなされ、5.0Å以上(outside)は「負」の対とみなされ、全ての他の対は除外される。次に、特定の学習率(例えば、5×10-4の学習率)についてのデフォルトパラメータ、および特定のペナルティ(例えば、1×10-2)での分離重み減衰を有するAdamオプティマイザを使用することができる。
【0024】
実空間モジュール110は、表面および特徴生成器モジュール104がパッチのそれぞれの頂点について計算した特徴を使用することによって、生成されたパッチ102a、102bの各々についてそれぞれの実空間ID114a、114bを生成する。実空間モジュール110は、標的分子102のそれぞれのパッチ(例えば、パッチ102a)における特徴の径方向分布を使用することによって、および分布をシステムが実空間IDを作成するのに使用する所定の規則と比較することによって、実空間ID(例えば、実空間ID114a)の各々を生成する。
【0025】
実空間モジュール110は事前にトレーニングされたニューラルネットワークを使用せず、特定のパッチサイズに限定されないため、潜在空間モジュール108と比較して、実空間モジュール110は、特定のタスクについて(例えば、異なる分類について、または特定のエピトープの識別について)別個の特徴または重み付けされた特徴の組合せを使用する際に、より大きな柔軟性をもたらす。一般的に、実空間モジュール110は、以下の3つの主要ステップを実行することによって標的パッチの実空間IDを生成する:ステップ1:標的パッチにおける特徴分布に類似した特徴分布を有する既知の表面において既知のパッチまたは領域を得る、ステップ2:標的パッチの中心頂点の2.5オングストローム以内の頂点に基づいて平均された特徴類似度スコアを得る、ステップ3:ステップ2から得られた上位パッチ(例えば、最も精密な位置合わせを有する上位10%または上位200個のパッチ)を位置合わせし、標的パッチに類似したパッチの位置合わせスコアに基づいて標的パッチを特徴付ける。
【0026】
潜在空間モジュール108および実空間モジュール110は、パッチごとのそれぞれの潜在空間および実空間IDをアプリケーションモジュール116に送信する。アプリケーションモジュール116は、IDを使用して標的分子102を識別または分類する。上記で説明したように、アプリケーションモジュール116は複数のパッチおよびパッチの複数のIDを受けるため、アプリケーションモジュール116は標的分子102について複数の識別またはクラスを提供することができる。
【0027】
アプリケーションモジュール116は、識別モジュール122およびクラスタリングモジュール124を含む。図2Aおよび図2Bは、識別モジュール122が標的分子、例えば102を識別するために実行することができる例示的なプロセスを示すブロック図である。図2Aに示す識別モジュール122は、標的分子102の潜在空間ID112に基づく識別を提供する。図2Bに示す識別モジュール122は、標的分子102の実空間ID114に基づく識別を提供する。
【0028】
図2Aおよび図2Bに示す例において、標的分子102は、未知の特性を有する抗原である。識別モジュール122の出力は、モジュール122が抗原、すなわち標的分子102のそれぞれの表面領域に類似した表面または特性を有するとして識別したエピトープ208kおよび208nである。表面領域は、パッチ102aおよび102bを覆う。エピトープ208kは、エピトープ208nと同じであることも異なることもできる。
【0029】
図2Aを参照すると、識別モジュール122は、パッチ102aおよび102bを覆う標的分子102の表面の標的「表面領域」(すなわち、部分)に類似した表面を有するエピトープ、すなわち、エピトープ208kを識別する。これを行うために、識別モジュール122は、表面ID生成器サブシステム130からパッチ102a、102bの潜在空間ID112a、112bを受け、これらのパッチを、以下の複数のモジュール:マッピングモジュール210、クラスタ識別モジュール212、位置合わせモジュール216、および類似度スコア計算機モジュール218、を通じて解析する。
【0030】
マッピングモジュール210は、潜在空間ID112a、112bを使用して、標的分子上のパッチ102a、102bに似たそれぞれの表面を含む1つまたはそれ以上の候補エピトープを識別する。これを行うために、マッピングモジュール210は記憶デバイス202と通信して、記憶されたエピトープ208を得る。記憶されたエピトープ208は、既知の特性または特徴を有する表面を有することができる。記憶されたエピトープの各々は、それぞれの実空間IDと、エピトープについて計算および記憶されるそれぞれの潜在空間IDとを有する。
【0031】
マッピングモジュール210は、パッチ102a、102bにおける頂点を、記憶されたエピトープ208の表面上のそれぞれの頂点にマッピングすることを試行し、記憶されたエピトープ208の中から、パッチの頂点にマッピング可能な頂点を有する1つまたはそれ以上の候補エピトープを識別する。いくつかの実施態様において、マッピングモジュール210は、記憶されたエピトープ208の中から、それぞれが標的分子102上のパッチ102a、102bのうちの少なくとも1つに類似したそれぞれの表面を有する1つまたはそれ以上のエピトープを識別する。例えばマッピングモジュール210は、パッチ102aおよび102bの頂点222aおよび222bをエピトープ208kの表面上の頂点232aおよび232bにマッピングすることができるため、このモジュールは、エピトープ208kを候補エピトープとして識別する。したがって、エピトープは、標的分子の1つのパッチについてまたは複数のパッチについてマッピングすることができ、標的分子上のパッチは2つ以上のエピトープにマッピングすることができる。
【0032】
いくつかの実施態様において、第1の頂点および第2の頂点におけるIDベクトル距離間の差が指定の閾値以内にあるとき、標的分子のパッチ上の第1の頂点は、エピトープ上の第2の頂点にマッピングされる。頂点におけるIDベクトル距離は、その頂点における全ての特徴について計算された値を含むベクトルである。特徴は、幾何学的または化学的特徴、例えば、上記で論じた特徴のうちの任意のもの、または幾何学的および化学的特徴の組合せを含むことができる。
【0033】
最も有用な用途が高いリコール率を優先する可能性が高いことを仮定して、マッピングモジュール210によって行われる許容閾値との比較により、一般的に、標的分子および候補エピトープ、例えばエピトープ208上の多くの類似していない頂点対が生じる。さらに、多くの用途の場合、関心対象となる2つの異なる頂点を中心とする固定半径(例えば、6Å)の2つの類似のパッチの発見ではなく、代わりに比較的大きな類似の表面領域の発見である。クラスタ識別モジュール212、位置合わせモジュール216および類似度スコア計算機モジュール218は、これらの大きな類似表面領域の存在を発見し検証する。このため、「表面領域」は、複数のパッチを覆うことができ、表面領域が覆うパッチのうちの任意のものよりも大きい。
【0034】
マッピングモジュール210は、エピトープ208k等の識別された候補エピトープをクラスタ識別モジュール212に送信する。クラスタ識別モジュール212は、標的分子102上の頂点のクラスタを識別する。ここで、クラスタにおける各頂点は、パッチ102a、102b上のマッピングされた頂点、すなわち、頂点222a、222bのうちの少なくとも1つから所定の閾値距離以内にある。例えば、クラスタ識別モジュール212は、パッチ102aおよび102bの頂点222aおよび222bのうちの少なくとも1つから所定の距離以内に各々が収まる頂点として、標的分子102上の頂点224、226および228を識別する。頂点222a、222b、224、226および228のクラスタを覆う標的分子102上の表面パッチは、表面領域を画成する。
【0035】
クラスタ識別モジュール212は、頂点の識別されたクラスタを位置合わせモジュール216に送信する。位置合わせモジュール216は、クラスタの頂点を、候補エピトープ208k上の頂点と位置合わせして、候補エピトープ208kの表面上の頂点(例えば、234i、234ii、234iii)への標的分子102の表面領域の3次元(「3D」)位置合わせを検証する。
【0036】
位置合わせモジュール216は、標的表面領域を回転および並進させることによって、ヒットした頂点対の3Dユークリッド距離を最小化する目的でクラスタの頂点に対し勾配降下法を使用することによって位置合わせを行うことができる。位置合わせを初期化するために、位置合わせモジュール216は、頂点から表面領域のそれぞれの幾何学的重心を減算し、単位球において一様にサンプリングされた3D回転を使用する。さらに、位置合わせされた分子は、例えばオペレータによって、正確な位置合わせを検証するために視覚的に調査することができる。例示的な位置合わせが図5に示されている。ここで、標的分子502における頂点は、既知のエピトープ508において頂点と位置合わせされている。
【0037】
候補エピトープ、例えばエピトープ208kの各々について、類似度スコア計算機モジュール218は、標的分子102の表面領域と、(位置合わせ後の)候補エピトープの表面との間の類似度を定量化する。いくつかの実施態様において、類似度スコア計算機モジュール218は、3D距離カットオフ(例えば、1.5Å)以内にある頂点の対間の加重平均入力特徴距離として空間類似度スコア(SSS)を計算し、例えば、以下の式を使用することによって類似度を決定する:
【数1】
ここで、jにわたって、
ij=Softmax(rij /sig) (2)
であり、FiおよびFjは、点iおよびjの特徴ベクトルであり、rijは点iおよびj間の3D距離であり、sigは0.25に固定される。
【0038】
類似度スコア計算機モジュール218は、閾値スコアよりも高い類似度(すなわち、SSS)を有する各候補エピトープを、標的分子102の表面の少なくとも一部分(すなわち、表面領域)に似た表面を有するエピトープとして提供する(118)。
【0039】
上記の説明は、頂点の1つのクラスタに焦点を当てるが、クラスタ識別モジュール212は、同じ候補エピトープ、例えばエピトープ208kの頂点にマッピングされた頂点を有する標的分子102の頂点の複数のクラスタを識別することができる。モジュール216および218は、これらのクラスタの各々に対し同じ手順を実行し、少なくとも標的分子102の表面のそれぞれの表面領域に似た表面を有する候補エピトープを識別することができる。プロセスを効率的に改善し、計算的負荷を低減するために、識別モジュール122は、所定数未満の頂点、例えば40個の頂点を有するクラスタをフィルタリング除去し、残りのクラスタに対し位置合わせを実行することができる。
【0040】
いくつかの実施態様において、クラスタ識別モジュール212は、位置合わせモジュール216において位置合わせされることになる頂点対の数を削減して、計算負荷を低減し、プロセス効率を改善する。例えば、クラスタ識別モジュール212は、識別したクラスタをランク付けし、特定の閾値ランクよりも低くランク付けされたクラスタをフィルタリング除去することができる。クラスタは、例えば、クラスタ内のマッピングされた頂点の数、クラスタ内の頂点の総数に対するクラスタ内のマッピングされた頂点の数の比率、クラスタの1つまたはそれ以上の頂点にマッピングされた候補アイテム上の頂点の数、または候補アイテム上の頂点の総数に対するクラスタの1つまたはそれ以上の頂点にマッピングされた候補アイテム上の頂点の数の比率、等の1つまたはそれ以上のパラメータに基づいてランク付けすることができる。標的分子102および候補エピトープ上の頂点間の良好な一致は、コンパクトな表面領域において多数の頂点を共有することになるため、これらのパラメータは、位置合わせ可能な頂点対の密度を示す。
【0041】
図6は、本開示の実施態様による、既知のエピトープ608に基づいて標的分子602の表面領域を識別する際の例示的な結果を示す。2つの候補表面領域(すなわち、上面および底面領域)が標的分子602において識別される。標的分子602上の底面領域と、エピトープ608の表面との間の類似性に起因して、エピトープ608の既知の特性を使用して、標的分子602のパラメータまたは未知の特徴を認識し、例えば、エピトープ608について既知のパラトープおよび抗体に基づいて標的分子の抗体を操作することができる。
【0042】
識別モジュール122は標的分子102のパッチの潜在空間ID112を使用して図2Aに示すプロセスを実行し、エピトープ208kを識別するが、モジュールは、パッチの実空間ID114を使用して補完的プロセスを実行して、同じまたは異なるエピトープを、標的分子102の表面の少なくとも一部分に似たエピトープとして識別することができる。この補完的プロセスの例が図2Bに示される。
【0043】
ここで図2Bを参照すると、識別モジュール122は、標的分子102の表面上の表面領域に類似した特徴を有する表面を有するエピトープ、すなわちエピトープ208nを識別する。識別モジュール122は、以下のモジュール:距離ビン作成器モジュール250、特徴分布検出器モジュール252、比較器モジュール254、拡張モジュール214、位置合わせモジュール216および出力モジュール256を使用することによって、このプロセスを実行する。図2Bに示すプロセスの根底をなす着想は、選択された特徴の径方向分布が2つのパッチにわたって類似している場合、2つの表面パッチは類似であり、それにより、2つのパッチを適切に位置合わせすることができるというものである。
【0044】
標的分子102の表面上の特徴および記憶されたエピトープ208上の特徴の径方向分布を比較するために、距離ビン作成器モジュール250は、標的分子102の表面上に「ビン」を作成し、特徴分布検出器モジュール252は各ビンにおける1つまたはそれ以上の特徴の分布を決定する。ビンは、全てが同じポイントを中心とするが、変動する測地的半径を有する球の形態をとることができる;例えば、図2Bに示すビン1~4を参照されたい。モジュール250は、実空間ID114を使用して、パッチ102a、102bの各々がビンに対しどこに位置するかの推定を行う。特徴分布検出器モジュール252は、パッチ102a、102bのロケーションに基づいて、ビン1~4における特徴分布を決定する。図2Bに示す例において、特徴分布検出器モジュール252は、行列244の形態で示される、ビンの各々における15個の特徴の分布を決定する。
【0045】
特徴分布検出器モジュール252は、それぞれのビン内の各特徴の分布を決定する。モジュール252は、パッチごとに、および異なる特徴、例えば、上記で説明した幾何学的または化学的特徴ごとにこの決定を行うことができる。パッチの実空間ID114は、標的分子102の表面上の特徴分布に基づいて生成されたため、特徴分布検出器モジュール252は、実空間IDを使用して、標的分子102の表面上の特徴分布を決定することができる。
【0046】
特徴分布検出器モジュール252は、特徴分布を比較器モジュール254に提供する。比較器モジュール254は、標的分子102の径方向特徴分布を、記憶デバイス202から得られた記憶されたエピトープ208上の径方向特徴分布と比較する。この比較は、標的分子およびエピトープ208におけるパッチの正規化された2Dの、すなわち径方向および特徴空間のヒストグラム間のユークリッド距離の計算を通じて実行することができる。ユークリッド距離が特定の閾値よりも小さい場合、パッチは類似の特徴分布を有する。
【0047】
比較プロセスの初期ラウンドにおいて、検索領域は、表面ID生成器サブシステム130によって識別されたパッチ102a、102bに限定される。比較器モジュール254は、記憶されたエピトープ間で検索し、拡張モジュール214に、少なくとも1つのエピトープの表面に類似した特徴分布を有するパッチを提供する。例えば、比較器は、パッチ102aの径方向特徴分布に類似した径方向特徴分布を有するエピトープ、例えばエピトープ208nの発見に応答して、パッチ102aを拡張モジュール214に送信する。
【0048】
その後、拡張モジュール214は、比較プロセスの初期ラウンドにおいて識別されたパッチ、例えばパッチ102aから特定の距離以内にある近傍パッチを識別することによって、検索領域を拡張する。これらの近傍パッチは図2Bに示され、それぞれの中心頂点242aおよび242bによって識別される。これらの近傍パッチは、互いと比較して、またはパッチ102aと比較して、同じサイズまたは異なるサイズを有することができる。近傍パッチは、パッチ102aの頂点222aから指定の距離以内、例えば、2.5Å以内に位置する中心頂点を有する最近傍パッチである。
【0049】
拡張モジュール214は、近傍パッチを特徴分布検出器モジュール252に返送し、比較プロセスの初期ラウンドにおいて処理されたパッチ102a、および拡張モジュール214によって識別されたその近傍パッチから作られた表面領域の径方向の特徴分布を検出する。
【0050】
比較プロセスの後続のラウンドにおいて、比較器モジュール254は、(分離したパッチではなく)表面領域における特徴分布を、記憶されたエピトープ208の特徴分布と比較する。代替的に、比較器モジュール254は、比較プロセスの初期ラウンドにおける1つまたはそれ以上のパッチに対する類似性を有するものとして発見されたエピトープに対してのみ後続の比較プロセスを実行する。比較器モジュール254が、表面領域の径方向特徴分布に類似した径方向特徴分布を有するエピトープ、例えばエピトープ208nを発見する場合、比較器モジュールは、表面領域を位置合わせモジュール216に提供する。いくつかの実施態様において、比較器モジュール254は、後続の比較プロセスを実行して、表面領域上の頂点(のうちの少なくともいくつか)と、エピトープ208n上の頂点(のうちの少なくともいくつか)との間の1対1の対応関係を得る。いくつかの実施態様において、比較器モジュール254は、表面領域の類似の頂点と、エピトープ208nの頂点との間の平均類似度スコアを使用して、エピトープ208nが表面領域と位置合わせ可能な表面を有するか否かを判定する。
【0051】
いくつかの実施態様において、位置合わせモジュール216は、図2Aに関して上記で論じた動作を実行し、候補エピトープ表面、例えば、エピトープ208nの表面上の頂点との表面領域の3次元(「3D」)位置合わせを検証する。代替的に、または加えて、位置合わせモジュール216は、表面領域およびエピトープ208nの表面においてモンテカルロ(MC)ベースの位置合わせを実行することができる。ここで、ペナルティ関数は、リジットボディランダム変換に従って最小化される。ペナルティ関数は、以下の式を使用して候補および標的表面上の各ポイント間の最小距離の二乗に基づいて構築される:
【数2】
ここで、Upenaltyはペナルティ関数であり、
【数3】
は、標的分子上の頂点iと、候補エピトープ上の頂点jとの間の最小距離であり、d-dcut は、非重複頂点のペナルティである。
【0052】
位置合わせモジュール216は、位置合わせ結果、すなわち、位置合わせスコアUpenaltyを出力モジュール256に提供する。出力モジュールは、標的分子102の表面領域に位置合わせ可能であるものとして識別された各候補エピトープ(例えば、エピトープ208n)の位置合わせスコアを使用して、エピトープを、例えば提示デバイス120上の表示のために識別モジュール122の出力として送信するか否かを判定する。出力モジュール256は、最高位置合わせスコアを有する1つまたはそれ以上のエピトープを、出力として送信されるように選択することができる。
【0053】
図2Aおよび図2Bは、識別モジュール122が標的分子102の識別を提供するために使用する例示的なプロセスを示すが、クラスタリングモジュール124は、類似のプロセスを使用して標的分子102の分類を提供することができる。クラスタリングモジュール124は、異なるパッチの表面ID(実空間または潜在空間のいずれか)を比較し、これらを、ペアワイズ位置合わせまたは類似度スコアに基づいてクラスタリングする。例えば、抗体パラトープ領域は、それらの機能に対応する、ペアワイズ位置合わせスコアに基づいてクラスタリングすることができる。例えば、クラスタリングモジュール124は、識別されたエピトープ208k、208nを使用して、標的分子102とインタラクトする可能性が高いパラトープを識別することができる。例えば、標的分子が、インフルエンザのエピトープに一致する未知の疾患のタンパク質である場合、インフルエンザを治療するのに使用されるパラトープ、またはインフルエンザタンパク質に類似して機能する、すなわち、その機能に関して同じクラスにあると分類される他のタンパク質を、未知の疾患の治療のために使用または研究することができる。
【0054】
図7Aおよび図7Bは、既知のパラトープおよびエピトープの例示的な分類を示す。これらのパラトープ(またはエピトープ)のうちの1つが、標的分子の部材と類似の表面を有するものとして識別される場合、識別されたパラトープ(またはエピトープ)と同じクラスにあるパラトープまたはパラトープの特性を使用して標的分子を研究することができる。図7Aは、高いSSS標的類似抗原を有する抗体のグループを示す、抗体パラトープのペアワイズ位置合わせスコアを示す。図7Bは、高い位置合わせスコアを有するエピトープのグループが機能によってクラスタリングされることを示す、抗原エピトープのペアワイズ位置合わせスコアを示す。色合いは、パラトープおよびエピトープの類似度スコアを示し、それぞれのチャートの凡例に説明されるように、より明るい色は、より高い類似度スコアを示す。
【0055】
図3は、本開示の実施態様による例示的なプロセス300を示す。プロセス300は、コンピューティングシステム、例えば図1におけるシステム100によって実行される。
【0056】
システムは、標的分子、例えば図1における標的分子102を受ける(302)。次に、システムは、標的分子の表面上の表面パッチを識別する(304)。例えば、システムは、標的分子の表面上の表面メッシュを生成し、ここで、表面メッシュは複数の頂点を含む。次に、システムは、表面メッシュの各頂点をそれぞれのパッチと関連付けることにより、複数の表面パッチを識別する。
【0057】
システムは、パッチの各々について、それぞれの潜在空間IDおよびそれぞれの実空間IDを生成する(306)。システムは、表面ID生成器システム100に関して説明された方法を実行して、IDを生成することができる。
【0058】
システムは、候補アイテムを取得し(308)、潜在空間および実空間IDを使用して、標的分子の表面領域に似た表面を含む候補アイテムを識別する(310)。例えば、システム100の識別モジュール122(図1を参照)は、記憶デバイス202(図2A図2Bを参照)と通信して、エピトープ208を候補アイテムとして得る。次に、識別モジュール122は、エピトープ208を使用して、エピトープ208k、208nを、各々が標的分子102のそれぞれの表面領域に似た表面を含む候補アイテムとして識別する。表面領域は、306において識別されるパッチの各々よりも大きい。
【0059】
次に、システムは、310において識別された候補アイテムを使用して、標的分子を識別もしくは分類するか(312)、または標的分子の特性を識別する。例えば、図1のシステム100は、識別されたエピトープ208k、208nの特性または分類に基づいて標的分子102の特性または分類を識別する。次に、システムは、例えばディスプレイを通じてユーザに提示するために標的分子の識別または分類を提供する(314)。
【0060】
実験により、本開示に提示される技法が、分子の表面ベースの識別/分類のために産業において使用される最も高性能のもののうちの1つであることが示されている。図8Aは、試験分子の識別における本技法の性能を示す。図は、本技法が使用されるときの、偽陽性、すなわち、試験分子の誤識別と比較した、真陽性率、すなわち、試験分子の正しい識別を示す。示すように、潜在空間および実空間表面IDに基づく識別/分類は、それぞれ0.88および0.8の高さのAUC(曲線下面積を表す)を提供する。そのような高いAUCは、得られる結果における高い正確性を示す。図8Aは、当該技術分野において知られる高度に正確な技術のうちの2つの他の技法、MultiProtおよびPatchBagの性能も示す。示すように、本技法の性能は、MultiProtに匹敵し、PatchBagよりも優れている。本技法はまた、計算的に高速である。例えば、本技法を使用することにより、標的分子を識別するのに数秒またはわずか数分しか要しない場合がある。
【0061】
実験により、表面IDの化学的および幾何学的特徴の選択が、本技法の性能に対するわずかな影響を有しすることが示されている。図8Bは、多岐にわたる特徴について9~12Åのパッチサイズが使用されるときの本技法の性能を示す。示されるように、異なる特徴が使用されるとき、0.8のほぼ一貫したAUCが達成される。図8に示す例示的な特徴は、曲率(「cv」)、電荷(「ch」)、水素結合(「hb」)、ハイドロパシー(「hp」)、ならびにcv、ch、hbおよびhpの組合せである。
【0062】
図4は、コンピューティングデバイス400の例、およびここに記載の技法を実施するのに使用することができるモバイルコンピューティングデバイスの例を示す。例えば、図1におけるシステム100はコンピューティングデバイス400とすることができ、提示デバイス120は、モバイルコンピューティングデバイス480/482とすることができる。コンピューティングデバイス400は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータ等のデジタルコンピュータの様々な形態を表すように意図される。モバイルコンピューティングデバイスは、携帯情報端末、携帯電話、スマートフォンおよび他の類似のコンピューティングデバイス等のモバイルデバイスの様々な形態を表すように意図される。ここに示す構成要素、それらの接続および関係、ならびにそれらの機能は、例示のみを意図し、本明細書に説明されおよび/または特許請求される発明の実施態様を限定するように意図されない。
【0063】
コンピューティングデバイス400は、プロセッサ402と、メモリ404と、記憶デバイス406と、メモリ404および複数の高速拡張ポート410に接続する高速インタフェース408と、低速拡張ポート414および記憶デバイス406に接続する低速インタフェース412とを備える。プロセッサ402、メモリ404、記憶デバイス406、高速インタフェース408、高速拡張ポート410および低速インタフェース412の各々は、様々なバスを使用して相互接続され、共通のマザーボード上に、または適宜他の方式で搭載することができる。プロセッサ402は、メモリ404また記憶デバイス406に記憶された命令を含む、コンピューティングデバイス400内での実行のための命令を処理して、GUIのためのグラフィカル情報を、高速インタフェース408に結合されたディスプレイ416等の外部入力/出力デバイスに表示することができる。他の実施態様において、複数のメモリおよびメモリタイプと共に、適宜複数のプロセッサおよび/または複数のバスを使用することができる。また、複数のコンピューティングデバイスを接続することができ、各デバイスは、(例えば、サーババンク、ブレードサーバグループ、またはマルチプロセッサシステムとして)必要な動作の部分を提供する。
【0064】
メモリ404は、コンピューティングデバイス400内に情報を記憶する。いくつかの実施態様では、メモリ404は揮発性メモリユニットである。いくつかの実施態様では、メモリ404は不揮発性メモリユニットである。メモリ404は、磁気ディスクまたは光ディスク等のコンピュータ可読媒体の別の形態をとることもできる。
【0065】
記憶デバイス406は、コンピューティングデバイス400のための大容量記憶を提供することが可能である。いくつかの実施態様において、記憶デバイス406は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリまたは他の類似の固体メモリデバイス等のコンピュータ可読媒体、または記憶エリアネットワークもしくは他の構成におけるデバイスを含むデバイスのアレイであるか、またはこれらを含むことができる。コンピュータプログラム製品は情報担体内に有形的に具現化することができる。コンピュータプログラム製品は、実行されると上記の方法等の1つまたはそれ以上の方法を実行する命令も含むことができる。コンピュータプログラム製品は、メモリ404、記憶デバイス406またはプロセッサ402上のメモリ等のコンピュータまたは機械可読媒体上に有形に具現化することもできる。
【0066】
高速インタフェース408は、コンピューティングデバイス400のための帯域幅消費型の動作を管理するのに対し、低速インタフェース412は、より少ない帯域幅消費型の動作を管理する。機能のそのような割り当ては例示にすぎない。いくつかの実施態様において、高速インタフェース408はメモリ404、(例えば、グラフィックプロセッサまたはアクセラレータを通じて)ディスプレイ416、および様々な拡張カード(図示せず)を受けることができる高速拡張ポート410とに結合される。実施態様において、低速インタフェース412は、記憶デバイス406および低速拡張ポート414に結合される。様々な通信ポート(例えば、USB、Bluetooth、イーサネット、無線イーサネット)を含むことができる低速拡張ポート414は、キーボード、ポインティングデバイス、スキャナ、またはスイッチもしくはルータ等のネットワーキングデバイスなどの1つまたはそれ以上の入力/出力デバイスに、例えばネットワークアダプタを通じて結合することができる。
【0067】
図に示すように、コンピューティングデバイス400は、複数の異なる形態で実施することができる。例えば、コンピューティングデバイス400は、標準的なサーバ420として、またはそのようなサーバのグループにおいて複数回実施することができる。加えて、コンピューティングデバイス400は、ラップトップコンピュータ422等のパーソナルコンピュータにおいて実施することができる。コンピューティングデバイス400は、ラックサーバシステム424の一部として実施することもできる。代替的に、コンピューティングデバイス400からの構成要素は、モバイルコンピューティングデバイス450等のモバイルデバイス(図示せず)における他の構成要素と組み合わせることができる。そのようなデバイスの各々は、コンピューティングデバイス400およびモバイルコンピューティングデバイス450のうちの1つまたはそれ以上を含むことができ、システム全体を、互いに通信する複数のコンピューティングデバイスから作ることができる。
【0068】
モバイルコンピューティングデバイス450は、他の構成要素の中でも、プロセッサ452、メモリ464、ディスプレイ454等の入力/出力デバイス、通信インタフェース466および送受信機468を含む。モバイルコンピューティングデバイス450には、更なる記憶を提供するために、マイクロドライブまたは他のデバイス等の記憶デバイスを提供することもできる。プロセッサ452、メモリ464、ディスプレイ454、通信インタフェース466および送受信機468の各々は、様々なバスを使用して相互接続され、構成要素のうちのいくつかは、共通のマザーボードに、または適宜他の方式で搭載することができる。
【0069】
プロセッサ452は、メモリ464に記憶された命令を含む、モバイルコンピューティングデバイス450内の命令を実行することができる。プロセッサ452は、別個のおよび複数のアナログおよびデジタルプロセッサを含むチップのチップセットとして実施することができる。プロセッサ452は、例えば、ユーザインタフェースの制御等の、モバイルコンピューティングデバイス450の他の構成要素の協調のために、モバイルコンピューティングデバイス450によって実行されるアプリケーション、およびモバイルコンピューティングデバイス450による無線通信を提供することができる。
【0070】
プロセッサ452は、ディスプレイ454に結合された制御インタフェース458およびディスプレイインタフェース456を通じてユーザと通信することができる。ディスプレイ454は、例えば、TFT(薄膜トランジスタ液晶ディスプレイ)ディスプレイもしくはOLED(有機発光ダイオード)ディスプレイ、またはその他の適切な表示技術とすることができる。ディスプレイインタフェース456は、ユーザに対してグラフィカルな情報および他の情報を提示するようにディスプレイ454を駆動するための適切な回路を含むことができる。制御インタフェース458は、ユーザからコマンドを受け、それらのコマンドを、プロセッサ452に送るために変換することができる。加えて、外部インタフェース462が、他のデバイスとのモバイルコンピューティングデバイス450の近い地域の通信を可能にするために、プロセッサ452との通信を提供することができる。外部インタフェース462は、例えば、いくつかの実施態様においては有線通信を、または他の実施態様においては無線通信を提供することができ、複数のインタフェースも使用することができる。
【0071】
メモリ464は、モバイルコンピューティングデバイス450内に情報を記憶する。メモリ464は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットのうちの1つまたはそれ以上として実施することができる。また、拡張メモリ474を設け、例えば、SIMM(シングルインラインメモリモジュール)カードインタフェースを含むことができる拡張インタフェース472を通じてモバイルコンピューティングデバイス450に接続することができる。拡張メモリ474は、モバイルコンピューティングデバイス450に追加的な記憶空間を提供することができるか、またはモバイルコンピューティングデバイス450に関するアプリケーションまたは他の情報を記憶することもできる。特に、拡張メモリ474は、上述のプロセスを実行または補足する命令を含むことができ、セキュア情報を含むこともできる。したがって、例えば、拡張メモリ474は、モバイルコンピューティングデバイス450のセキュリティモジュールとして設けることができ、モバイルコンピューティングデバイス450のセキュアな使用を可能にする命令を使用してプログラムすることができる。加えて、ハッキングすることができない方式でSIMMカードに識別情報を置く等、追加の情報と共に、セキュアなアプリケーションをSIMMカードにより提供することができる。
【0072】
メモリは、例えば、以下で論じられるように、フラッシュメモリおよび/またはNVRAMメモリ(不揮発性ランダムアクセスメモリ)を含むことができる。いくつかの実施態様において、コンピュータプログラム製品は情報担体内に有形的に具現化される。コンピュータプログラム製品は、実行されると上記の方法等の1つまたはそれ以上の方法を実行する命令を含む。コンピュータプログラム製品は、メモリ464、拡張メモリ474またはプロセッサ452上のメモリ等のコンピュータまたは機械可読媒体とすることができる。いくつかの実施態様において、コンピュータプログラム製品は、例えば、送受信機468または外部インタフェース462を介して伝播信号において受けることができる。
【0073】
モバイルコンピューティングデバイス450は、必要に応じてデジタル信号処理回路を含むことができる通信インタフェース466を通じて無線で通信することができる。通信インタフェース466は、数ある中でも、GSM音声電話(移動体通信用グローバルシステム)、SMS(ショートメッセージサービス)、EMS(拡張メッセージングサービス)、またはMMSメッセージング(マルチメディアメッセージングサービス)、CDMA(符号分割多元接続)、TDMA(時分割多元接続)、PDC(パーソナルデジタルセルラー)、WCDMA(広帯域符号分割多元接続)、CDMA2000、またはGPRS(汎用パケット無線サービス)等の様々なモードまたはプロトコルの下で通信を提供することができる。そのような通信は、例えば、無線周波数を使用する送受信機468を通じて行うことができる。加えて、Bluetooth、WiFi、または他のそのような送受信機(図示せず)を使用するなどして近距離通信を行うことができる。加えて、GPS(全地球測位システム)受信機モジュール470が、モバイルコンピューティングデバイス450において実行されるアプリケーションによって適宜使用することができる更なるナビゲーションおよび位置に関連する無線データをモバイルコンピューティングデバイス450に提供することができる。
【0074】
モバイルコンピューティングデバイス450は、ユーザから発話された情報を受け、その情報を使用可能なデジタル情報に変換することができる音声コーデック460を使用して音声通信することもできる。同じく、音声コーデック460は、例えば、モバイルコンピューティングデバイス450におけるハンドセットのスピーカーを介するなどして、ユーザのための可聴音声を生成することができる。そのような音声は、音声電話呼からの音声を含むことができ、記録された音声(例えば、音声メッセージ、音楽ファイルなど)を含むことができ、モバイルコンピューティングデバイス450上で動作するアプリケーションによって生成された音声も含むことができる。
【0075】
図に示すように、モバイルコンピューティングデバイス450は、複数の異なる形態で実施することができる。例えば、モバイルコンピューティングデバイス450は、携帯電話480として実施することができる。また、モバイルコンピューティングデバイス450は、スマートフォン482、携帯情報端末、または他の同様のモバイルデバイスの一部として実施することもできる。
【0076】
ここに記載のシステムおよび技術の様々な実施態様は、デジタル電子回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはこれらの組合せにおいて実現することができる。これらの様々な実施態様は、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受け、それらにデータおよび命令を送信するために結合された、専用または汎用である可能性がある少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステム上の、実行可能および/または解釈可能な1つまたはそれ以上のコンピュータプログラムにおける実施態様を含むことができる。
【0077】
(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる)これらのコンピュータプログラムは、プログラム可能なプロセッサ用の機械命令を含み、高水準手続き型プログラミング言語および/もしくはオブジェクト指向プログラミング言語、ならびに/またはアセンブリ/機械言語で実施することができる。本明細書において使用されるとき、機械可読媒体、コンピュータ可読媒体という用語は、機械命令を機械可読信号として受ける機械可読媒体を含む、プログラム可能なプロセッサに機械命令および/またはデータを提供するために使用される任意のコンピュータプログラム製品、装置、および/またはデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指す。機械可読信号という用語は、プログラム可能なプロセッサに機械命令および/またはデータを提供するために使用される任意の信号を指す。
【0078】
ユーザとのインタラクションを提供するために、ここに記載のシステムおよび技術は、ユーザに対して情報を表示するためのディスプレイデバイス(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)、ならびにユーザがコンピュータに入力を与えることができるキーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)を有するコンピュータ上に実装することができる。他の種類のデバイスを使用して、ユーザとのインタラクションを提供することもできる;例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)とすることができ;ユーザからの入力は、音響、発話、または触覚による入力を含む任意の形態で受けることができる。
【0079】
ここに記載のシステムおよび技術は、バックエンド構成要素を(例えば、データサーバとして)含むか、またはミドルウェア構成要素(例えば、アプリケーションサーバ)を含むか、またはフロントエンド構成要素(例えば、ユーザがここに記載のシステムおよび技術の実装とインタラクトすることができるグラフィカルユーザインタフェースもしくはウェブブラウザを有するクライアントコンピュータ)を含むか、またはそのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムにおいて実施することができる。システムの構成要素は、デジタルデータ通信(例えば、通信ネットワーク)の任意の形態または媒体によって相互接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、およびインターネットを含む。
【0080】
コンピューティングシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは一般に、互いに離れており、典型的には、通信ネットワークを介してインタラクトする。クライアントとサーバとの関係は、それぞれのコンピュータ上で実行される、互いにクライアント-サーバ関係を有するコンピュータプログラムにより生じる。
【0081】
本開示の複数の実施態様が説明された。それにも関わらず、本開示の趣旨および範囲から逸脱することなく、様々な変更を行うことができることが理解されよう。したがって、他の実施態様は以下の特許請求の範囲の範囲内にある。
図1
図2A
図2B
図3
図4
図5
図6
図7
図8
【国際調査報告】