(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025004073
(43)【公開日】2025-01-14
(54)【発明の名称】合成データを使用して薬物結合を予測するための方法およびシステム
(51)【国際特許分類】
G16B 15/30 20190101AFI20250106BHJP
G16B 40/20 20190101ALI20250106BHJP
【FI】
G16B15/30
G16B40/20
【審査請求】有
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2024170362
(22)【出願日】2024-09-30
(62)【分割の表示】P 2021539344の分割
【原出願日】2020-01-02
(31)【優先権主張番号】62/788,682
(32)【優先日】2019-01-04
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.BLUETOOTH
(71)【出願人】
【識別番号】520178216
【氏名又は名称】サイクリカ インコーポレイテッド
(74)【代理人】
【識別番号】100109210
【弁理士】
【氏名又は名称】新居 広守
(72)【発明者】
【氏名】マッキノン・スティーブン スコット
(72)【発明者】
【氏名】サフィハニ・ジャレ
(72)【発明者】
【氏名】ヴァーノン・ロバート
(72)【発明者】
【氏名】ブレレトン・アンドリュー イー.
(72)【発明者】
【氏名】ウィンデムス・アンドレアス
(57)【要約】
【課題】薬物-標的相互作用の優れた予測を取得する。
【解決手段】合成的に増強されたデータを使用して薬物-標的結合を予測するための方法には、タンパク質構造データベース内の多数のタンパク質に対して多数のゴーストリガンドを生成することと、多数のゴーストリガンドを使用して、DTIデータベース内のタンパク質およびリガンドに対して多数の薬物-標的相互作用(DTI)特徴を生成することと、多数のDTI特徴を使用して機械学習モデルを生成することと、機械学習モデルを使用してクエリタンパク質とクエリリガンドの組み合わせに対する相互作用の可能性を予測することと、が含まれる。
【選択図】
図1A
【特許請求の範囲】
【請求項1】
合成的に増強されたデータを使用して薬物-標的結合を予測するための、コンピュータによって実行される方法であって、
タンパク質構造データベース内の複数のタンパク質に対して複数のゴーストリガンドを生成することと、
前記複数のゴーストリガンドを使用して、DTIデータベース内のタンパク質およびリガンドについての複数の薬物-標的相互作用(DTI)特徴を生成することと、
前記複数のDTI特徴を使用して機械学習モデルを生成することと、
前記機械学習モデルを使用して、クエリタンパク質とクエリリガンドの組み合わせの相互作用の可能性を予測することと、を含む、方法。
【請求項2】
前記複数のゴーストリガンドを生成することが、
前記複数のタンパク質から選択されるタンパク質のクラスタの場合、
前記タンパク質のクラスタ内の前記タンパク質の構造アラインメントを実行することと、
前記構造アラインメント後、前記クラスタ内の前記タンパク質の1つのリガンドを前記クラスタ内の他のすべてのタンパク質に投影することによって前記複数のゴーストリガンドを取得することと、
前記複数のゴーストリガンドのそれぞれについて、信頼度スコアを取得することと、を含む、請求項1に記載の方法。
【請求項3】
前記タンパク質のクラスタが、
配列の類似性、
3次元トポロジーの類似性、および
データベース内の既存のクラスタリングからなる群から選択されるものに基づいて取得される、請求項2に記載の方法。
【請求項4】
前記信頼度スコアが、関連する前記ゴーストリガンドの不確実性を定量化する、請求項2に記載の方法。
【請求項5】
前記複数のDTI特徴を生成することが、
前記DTIデータベース内のリガンドとタンパク質の複数の組み合わせのそれぞれについて、
前記複数のゴーストリガンドから、前記組み合わせについて考慮された前記リガンドに最も類似したゴーストリガンドを選択することと、
前記組み合わせのために考慮された前記タンパク質の特徴を生成することであって、前記生成された特徴が、前記組み合わせのために考慮されたタンパク質を特徴付ける、生成することと、を含む、請求項1に記載の方法。
【請求項6】
前記生成された特徴が、
半径が増加する同心シェルの結合部位特徴を含む少なくとも1つの局所的な特徴、
前記結合部位特徴を超えた少なくとも1つの全体的な特徴、および
少なくとも1つの機能的アノテーションからなる群から選択されるものを含む、請求項5に記載の方法。
【請求項7】
前記最も類似したゴーストリガンドの前記選択が、距離メトリックに基づいて実行される、請求項5に記載の方法。
【請求項8】
前記複数のDTI特徴を生成することが、
前記最も類似したゴーストリガンドに関連する前記DTI特徴の複数の構成要素の信頼度を表す信頼度ベクトルを取得することをさらに含む、請求項5に記載の方法。
【請求項9】
前記複数の構成要素における前記信頼度が、
前記最も類似したゴーストリガンドに関連する不確実性を定量化する第1の信頼度スコア、
前記組み合わせについて考慮された前記リガンドと前記最も類似したゴーストリガンドとの間のフィンガープリントの類似性を定量化する第2の信頼度スコア、および
前記DTI特徴が取得されるソースに応じた第3の信頼度スコアからなる群から選択される少なくとも1つを含む、請求項8に記載の方法。
【請求項10】
前記機械学習モデルを生成することが、
前記タンパク質および前記リガンドの前記複数のDTI特徴に基づいて陽性トレーニングサンプルを取得することと、
前記タンパク質および前記リガンドについて前記複数のDTI特徴を、少なくとも1回、シャッフルすることによって、前記複数のDTI特徴に基づいて陰性トレーニングサンプルを取得することと、
前記陽性トレーニングサンプルと前記陰性トレーニングサンプルを使用して、DTI予測用の前記機械学習モデルをトレーニングすることと、を含む、請求項1に記載の方法。
【請求項11】
前記機械学習モデルを生成することが、前記陽性トレーニングサンプルおよび前記陰性トレーニングサンプルを取得する前に、
前記複数のDTI特徴に関連する信頼度ベクトルに適用される信頼度閾値を使用して、前記タンパク質および前記リガンドの前記複数のDTI特徴をフィルタリングすることを含む、請求項10に記載の方法。
【請求項12】
前記機械学習モデルが、分類子モデルおよび回帰モデルからなる群から選択されるものである、請求項1に記載の方法。
【請求項13】
前記クエリタンパク質と前記クエリリガンドとの前記組み合わせに対する相互作用の前記可能性を予測することが、
前記クエリタンパク質について、前記複数のゴーストリガンドに基づいて可能な結合部位および関連する局所的な特徴を取得することと、
前記局所的な特徴を含む、前記クエリタンパク質についての特徴を生成することと、
リガンドフィンガープリントおよびリガンド記述子を含む、前記クエリリガンドについての特徴を生成することと、
前記機械学習モデルを前記クエリタンパク質についての前記特徴と前記クエリリガンドについての前記特徴に適用して、前記クエリリガンドと前記クエリタンパク質の間の相互作用の可能性を取得することと、を含む、請求項1に記載の方法。
【請求項14】
前記クエリタンパク質についての前記特徴が、全体的な特徴および機能的アノテーションからなる群から選択される少なくとも1つをさらに含む、請求項13に記載の方法。
【請求項15】
合成的に増強されたデータを使用して薬物-標的結合を予測するためのコンピュータ可読プログラムコードを含む非一時的なコンピュータ可読媒体であって、前記コンピュータ可読プログラムコードが、コンピュータシステムに、
タンパク質構造データベース内の複数のタンパク質に対して複数のゴーストリガンドを生成させ、
前記複数のゴーストリガンドを使用して、DTIデータベース内のタンパク質およびリガンドの複数の薬物-標的相互作用(DTI)特徴を生成させ、
前記DTI特徴を使用して機械学習モデルを生成させ、
前記機械学習モデルを使用して、クエリタンパク質とクエリリガンドの組み合わせの相互作用の可能性を予測させる、非一時的なコンピュータ可読媒体。
【請求項16】
特異的創薬のシステムであって、
タンパク質構造データベースと、
前記タンパク質構造データベース内の複数のタンパク質に対して複数のゴーストリガンドを生成するように構成されたゴーストリガンド同定エンジンと、
前記複数のゴーストリガンドを記憶するゴーストリガンドデータベースと、
タンパク質とリガンドを記憶する薬物-標的相互作用(DTI)データベースと、
前記ゴーストリガンドデータベース内の前記複数のゴーストリガンドを使用して、前記DTIデータベース内の前記タンパク質および前記リガンドについて複数のDTI特徴を生成するように構成された特徴生成エンジンと、
前記DTI特徴を使用して機械学習モデルを生成するように構成された機械学習モデルトレーニングエンジンと、
前記機械学習モデルを使用して、クエリタンパク質とクエリリガンドの組み合わせの相互作用の可能性を予測するように構成されたDTI予測エンジンと、を備える、特異的創薬のシステム。
【請求項17】
前記複数のDTI特徴を生成することが、
前記DTIデータベース内のリガンドとタンパク質の複数の組み合わせのそれぞれについて、
前記複数のゴーストリガンドから、前記組み合わせについて考慮された前記リガンドに最も類似したゴーストリガンドを選択することと、
前記組み合わせのために考慮された前記タンパク質の特徴を生成することであって、前記生成された特徴が、前記組み合わせのために考慮されたタンパク質を特徴付ける、生成することと、を含む、請求項16に記載のシステム。
【請求項18】
前記生成された特徴が、
半径が増加する同心シェルの結合部位特徴を含む少なくとも1つの局所的な特徴、
前記結合部位特徴を超えた少なくとも1つの全体的な特徴、および
少なくとも1つの機能的アノテーションからなる群から選択されるものを含む、請求項17に記載の方法。
【請求項19】
前記複数のDTI特徴を生成することが、
前記最も類似したゴーストリガンドに関連する前記DTI特徴の複数の構成要素における信頼度を表す信頼度ベクトルを取得することをさらに含み、
前記複数の構成要素における前記信頼度が、
前記最も類似したゴーストリガンドに関連する不確実性を定量化する第1の信頼度スコア、
前記組み合わせについて考慮された前記リガンドと前記最も類似したゴーストリガンドとの間のフィンガープリントの類似性を定量化する第2の信頼度スコア、および
前記DTI特徴が取得されるソースに応じた第3の信頼度スコアからなる群から選択される少なくとも1つを含む、請求項17に記載のシステム。
【請求項20】
前記クエリタンパク質と前記クエリリガンドとの前記組み合わせに対する相互作用の前記可能性を予測することが、
前記クエリタンパク質について、前記複数のゴーストリガンドに基づいて可能な結合部位および関連する局所的な特徴を取得することと、
前記局所的な特徴を含む、前記クエリタンパク質についての特徴を生成することと、
リガンドフィンガープリントおよびリガンド記述子を含む、前記クエリリガンドについての特徴を生成することと、
前記機械学習モデルを前記クエリタンパク質についての前記特徴と前記クエリリガンドについての前記特徴に適用して、前記クエリリガンドと前記クエリタンパク質の間の相互作用の可能性を取得することと、を含む、請求項16に記載のシステム。
【発明の詳細な説明】
【背景技術】
【0001】
[関連出願の相互参照]
本出願は、2019年1月4日に出願された、本出願と同じ発明者の少なくとも1人を有する「METHOD AND SYSTEM FOR PREDICTING DRUG BINDING USING SYNTHETIC DATA」と題する米国仮出願第62/788,682号に対して、米国特許法第119(e)条に基づく優先権を主張する。米国仮出願第62/788,682号は、参照により本明細書に組み込まれる。
【0002】
リガンドとタンパク質の間の相互作用を予測するための計算方法が存在する。それらは一般に、予測を行うために使用される情報のタイプに応じて、「リガンドベース」または「構造ベース」に分類される。
【0003】
タンパク質ベースの予測は、生物物理学的な互換性を学習する可能性があるため、より普遍的に一般化できる可能性があるが、データに非常に縛られる。具体的には、タンパク質ベースの予測は、タンパク質と共結晶化したリガンドの3D分子構造を使用して、相互作用を評価または予測する。これらの方法は計算量が多く、数百から数千の異なるタンパク質でのみトレーニングされる傾向がある。これらでトレーニングされたニューラルネットワークは、データに対する特徴空間の比率が非常に高い傾向がある。結果として、この方法は、これまでに見られなかったタンパク質系または薬物スキャホールドに適用された場合、ドッキングにおいてかなりの数の偽陰性および/または偽陽性を生成する可能性がある。
【0004】
リガンドベースの予測は、数百万の記録を持つ薬物標的相互作用(DTI)データベースを使用して実行され得る。公的に利用可能なDTIデータベースの例には、ChEMBL、NCBIのバイオアッセイ、およびSTITCHが含まれる。ただし、これらの記録は、20,000のヒトタンパク質のうち約2,000のみを表す傾向がある。リガンドとタンパク質のデータ比率が高い場合、1つの標準的なアプローチは、2,000個のタンパク質のそれぞれについて多くの異なるモデルを導出することである。これらは成功する傾向があり、多くの場合、ハイスループットの実験結果を上回っているが、(1)ヒトタンパク質の約10%しか表しておらず、(2)個々のタンパク質の例の間に化学的多様性があまりない場合、より弱い可能性があり、および(3)個々のモデルは、薬物とタンパク質の互換性の物理的属性を学習せず、他のモデルを生成するために使用されるデータから利益を得ることができない。
【発明の概要】
【0005】
一般に、一態様では、1つ以上の実施形態は、合成的に増強されたデータを使用して薬物-標的結合を予測するための方法であって、タンパク質構造データベース内の複数のタンパク質についての複数のゴーストリガンドを生成することと、複数のゴーストリガンドを使用して、DTIデータベース内のタンパク質およびリガンドについての複数の薬物-標的相互作用(DTI)特徴を生成することと、複数のDTI特徴を使用して機械学習モデルを生成することと、機械学習モデルを使用してクエリタンパク質とクエリリガンドの組み合わせの相互作用についての可能性を予測することと、を含む、方法に関する。
【0006】
一般に、一態様では、1つ以上の実施形態は、合成的に増強されたデータを使用して薬物-標的結合を予測するためのコンピュータ可読プログラムコードを含む非一時的なコンピュータ可読媒体であって、コンピュータ可読プログラムコードが、コンピュータシステムに、タンパク質構造データベース内の複数のタンパク質についての複数のゴーストリガンドを生成させ、複数のゴーストリガンドを使用して、DTIデータベース内のタンパク質およびリガンドについての複数の薬物-標的相互作用(DTI)特徴を生成させ、DTI特徴を使用して機械学習モデルを生成させ、機械学習モデルを使用してクエリタンパク質とクエリリガンドの組み合わせについての相互作用の可能性を予測させる、非一時的なコンピュータ可読媒体に関する。
【0007】
一般に、一態様では、1つ以上の実施形態は、特異的創薬のためのシステムであって、システムが、タンパク質構造データベースと、タンパク質構造データベース内の複数のタンパク質についての複数のゴーストリガンドを生成するように構成されたゴーストリガンド同定エンジンと、複数のゴーストリガンドを記憶するゴーストリガンドデータベースと、タンパク質とリガンドを記憶する薬物-標的相互作用(DTI)データベースと、ゴーストリガンドデータベース内の複数のゴーストリガンドを使用して、DTIデータベース内のタンパク質およびリガンドについての複数のDTI特徴を生成するように構成された特徴生成エンジンと、DTI特徴を使用して機械学習モデルを生成するように構成された機械学習モデルトレーニングエンジンと、機械学習モデルを使用してクエリタンパク質とクエリリガンドの組み合わせについての相互作用の可能性を予測するように構成されたDTI予測エンジンと、を備える、システムに関する。
【図面の簡単な説明】
【0008】
本実施形態は、例として示されており、添付の図面の図によって限定されることを意図していない。
【
図1A】1つ以上の実施形態による薬物結合を予測するためのシステムのブロック図を示す。
【
図1B】1つ以上の実施形態によるタンパク質構造データベースのブロック図を示す。
【
図1C】1つ以上の実施形態によるゴーストリガンドデータベースのブロック図を示す。
【
図1D】1つ以上の実施形態による薬物-標的相互作用データベースのブロック図を示す。
【
図1E】1つ以上の実施形態によるタンパク質アノテーションデータベースのブロック図を示す。
【
図2】1つ以上の実施形態による、薬物-標的相互作用を予測するための機械学習モデルを訓練するための方法を説明するフローチャートを示す。
【
図3】1つ以上の実施形態による、ゴーストリガンドデータベースを生成するための方法を説明するフローチャートを示す。
【
図4】1つ以上の実施形態による、薬物-標的相互作用(DTI)特徴を生成するための方法を説明するフローチャートを示す。
【
図5】1つ以上の実施形態による、DTI予測のための機械学習モデルを生成するための方法を説明するフローチャートを示す。
【
図6】1つ以上の実施形態による、クエリタンパク質とクエリリガンドとの間の相互作用を予測するための方法を説明するフローチャートを示す。
【
図7A】1つ以上の実施形態による、ゴーストリガンドを生成するための例を示す。
【
図7B】1つ以上の実施形態による、結合部位特徴を取得するために使用される同心シェルモデルの図を示す。
【
図8】1つ以上の実施形態による、機械学習モデルのためのトレーニングデータの生成を示す。
【
図9】本開示の一実施形態と従来のアプローチとの性能比較を示す。
【
図10A】1つ以上の実施形態による、コンピューティングシステムを示す。
【
図10B】1つ以上の実施形態による、コンピューティングシステムを示す。
【発明を実施するための形態】
【0009】
本明細書で開示される特定の実施形態について、添付の図面を参照して以下で詳細に説明する。様々な図中の同様の要素は、一貫性を保つために、同様の参照番号および/または同様の名前によって示されてもよい。
【0010】
以下の詳細な説明は、本質的に単なる例示であり、本明細書に開示される実施形態または本明細書に開示される実施形態の用途および使用を限定することを意図するものではない。さらに、上記の技術分野、背景技術、簡単な概要、または以下の詳細な説明で提示されたいかなる明示的または暗示的な理論によっても拘束されることを意図していない。
【0011】
本明細書に開示されたいくつかの実施形態についての以下の詳細な説明では、本明細書に開示された様々な実施形態のより完全な理解を提供するために、多くの特定の詳細が説明される。しかしながら、実施形態がこれらの特定の詳細なしで実施されてもよいことは、当業者には明らかであろう。他の例では、説明を不必要に複雑にすることを避けるために、よく知られている機能について詳細には説明していない。
【0012】
本出願全体を通して、序数(例えば、第1、第2、第3など)を、要素(すなわち、本出願における任意の名詞)の形容詞として使用する場合がある。序数の使用は、「前」、「後」、「単一」などの用語の使用などによって明示的に開示されていない限り、要素の任意の特定の順序を暗示または作成するか、または任意の要素を単一の要素のみであるように限定するものではない。むしろ、序数の使用は要素を区別することである。例として、第1の要素は第2の要素とは異なり、第1の要素は2つ以上の要素を包含し、要素の順序付けにおいて第2の要素に続いても(または先行しても)よい。
【0013】
本発明の1つ以上の実施形態では、タンパク質ベースの予測方法およびリガンドベースの予測方法の要素を組み合わせて、薬物-標的相互作用の優れた予測を取得することができる。本発明の1つ以上の実施形態では、機械学習モデルを使用して、薬物-標的相互作用(DTI)を予測する。
【0014】
DTIデータベース内のタンパク質-リガンド相互作用については、豊富なデータポイントが存在する。例えば、ChEMBLデータベースには、タンパク質とリガンドのペアを結合または非結合として説明する(および親和性または信頼度の尺度を提供することが多い)約15,000,000の記録が含まれる。ただし、これらのDTIデータベースのコンテンツを使用して、タンパク質とリガンドの新しいペアの相互作用を予測するには、ヒトプロテオームのカバレッジが制限されている、個々のタンパク質の例間の多様性が制限されている場合の予測が弱いなど、特定の制限がある。したがって、純粋にDTIデータベース記録で動作する機械学習モデルによる予測の品質が制限される可能性がある。代替案では、機械学習モデルは、タンパク質と共結晶化したリガンドの3D分子構造を操作して、タンパク質とリガンドの間の相互作用の生物物理学を捕えることもできる。タンパク質-リガンド相互作用を捕えるデータベースがいくつか存在するが(例えば、sc-PDB)、これらのデータベースには比較的少数のデータポイントが含まれており、冗長性が高い傾向がある。さらに、これらのデータベースは、タンパク質構造の多様性と化学種の多様性を欠いている傾向がある。したがって、これらのデータポイントで機械学習モデルをトレーニングすることは、データ量が不十分なために困難な場合がある。特に、タンパク質と共結晶化したリガンドの3D分子構造を操作する機械学習モデルは、適切なトレーニングサンプルの限られた可用性と相まって、機械学習モデルを過剰適合に対して脆弱にする、高次元の特徴空間を有する。
【0015】
本開示の1つ以上の実施形態では、局所的な3D特徴およびDTI記録が機械学習モデルによって組み合わせて使用され、上記の従来のタンパク質ベースおよびリガンドベースの予測よりも優れた予測を可能にする。より具体的には、合成データは、他の場合では利用できない局所的なタンパク質特徴を生成するために、既知のタンパク質-リガンド複合体の3D構造モデルにDTI記録を投影することによって生成される。この方法で生成された合成データは、機械学習モデルのトレーニングに使用できる。次に、機械学習モデルを使用して、クエリタンパク質とクエリリガンドのペアについての予測を行うことができる。
【0016】
図1Aに目を向けると、1つ以上の実施形態による、合成データを使用して薬物結合を予測するためのシステムが示されている。システム(100)は、ゴーストリガンド同定エンジン(110)、特徴生成エンジン(120)、機械学習モデルトレーニングエンジン(130)、薬物-標的相互作用予測エンジン(150)、タンパク質構造データベース(160)、ゴーストリガンドデータベース(170)、薬物-標的相互作用データベース(180)、およびタンパク質アノテーションデータベース(190)を含み得る。これらの成分の各々については、後に説明する。
【0017】
ゴーストリガンド同定エンジン(110)は、1つ以上の実施形態によれば、ゴーストリガンドのゴーストリガンドデータベース(170)ゴーストリガンドおよびタンパク質構造データベース(160)内のタンパク質からの関連する信頼度スコアを生成するために、
図2および3に説明されるステップの少なくとも1つを実行するためのコンピュータ可読プログラムコードの形態の命令を含む。ゴーストリガンド同定エンジン(110)は、既知の相同体を構造的にアライメントさせ、これらの既知の相同体のリガンドをタンパク質のアライメントした部位に投射することによって、タンパク質についてのゴーストリガンドを取得することができる。これらのゴーストリガンドはタンパク質と相互作用しない可能性があるが、それらは、ゴーストリガンドとタンパク質のアライメントした部位との間の構造的互換性を示すプレースホルダーとして機能する可能性がある。ゴーストリガンド同定エンジン(110)は、タンパク質構造データベース(160)およびゴーストリガンドデータベース(170)に動作可能に接続されている。
【0018】
特徴生成エンジン(120)は、1つ以上の実施形態によれば、
図2および
図4に説明されるステップの少なくとも1つを実行して、DTI予測のための機械学習モデルのトレーニングに使用される薬物-標的相互作用(DTI)特徴を生成するためのコンピュータ可読プログラムコードの形式の命令を含む。特徴生成エンジン(110)は、ゴーストリガンドデータベース(170)、薬物-標的相互作用データベース(180)、およびタンパク質アノテーションデータベース(190)からのデータを使用して、タンパク質およびリガンドについての特徴を生成することができる。したがって、特徴生成エンジン(120)は、ゴーストリガンドデータベース(170)、薬物-標的相互作用データベース(180)、およびタンパク質アノテーションデータベース(190)に動作可能に接続されている。
【0019】
図1Aに続いて、機械学習モデルトレーニングエンジン(130)は、1つ以上の実施形態によれば、DTI予測のための機械学習モデル(140)をトレーニングするために
図2および
図5に説明されるステップのうちの少なくとも1つを実行するためのコンピュータ可読プログラムコードの形態の命令を含む。機械学習モデルトレーニングエンジン(130)は、トレーニングのために特徴生成エンジン(120)によって生成されたDTI特徴を使用してもよい。したがって、機械学習モデルトレーニングエンジン(130)は、特徴生成エンジン(120)に動作可能に接続されている。結果として得られるDTI予測のための機械学習モデル(140)は、クエリ薬物とクエリタンパク質との間の相互作用を予測することができる任意のタイプの分類子であり得る。1つ以上の実施形態では、DTI予測のための機械学習モデル(140)は、ディープニューラルネットワーク
である。
【0020】
薬物-標的相互作用(DTI)予測エンジン(150)は、1つ以上の実施形態によれば、機械学習モデル(140)を使用して、クエリ薬物とクエリタンパク質についての薬物-標的相互作用を予測するために
図6に説明されるステップのうちの少なくとも1つを実行するためのコンピュータ可読プログラムコードの形態の命令を含む。DTI予測エンジン(150)は、機械学習モデル(140)と互換性のある、クエリ薬物に関連するクエリタンパク質およびクエリリガンドについての特徴を生成し、その後、それらの特徴に基づいて、機械学習モデルトレーニングエンジン(130)によってトレーニングされた同じ機械学習モデル(140)を使用して、相互作用の可能性を計算する。様々な実施形態では、同じおよび/または異なる機械学習モデルのうちの1つ以上を使用してもよい。
【0021】
タンパク質構造データベース(160)は、1つ以上の実施形態によれば、データを記憶するためのいずれかのタイプの記憶ユニットおよび/またはデバイス(例えば、ファイルシステム、データベース、一群の表、またはいずれかの他の記憶メカニズム)であり得る。タンパク質構造データベース(160)は、
図1Bを参照して以下に説明される。
【0022】
ゴーストリガンドデータベース(170)は、1つ以上の実施形態によれば、データを記憶するためのいずれかのタイプの記憶ユニットおよび/またはデバイス(例えば、ファイルシステム、データベース、一群の表、またはいずれかの他の記憶メカニズム)であり得る。ゴーストリガンドデータベース(170)は、
図1Cを参照して以下に説明される。
【0023】
薬物-標的相互作用データベース(180)は、1つ以上の実施形態によれば、データを記憶するためのいずれかのタイプの記憶ユニットおよび/またはデバイス(例えば、ファイルシステム、データベース、一群の表、またはいずれかの他の記憶メカニズム)であり得る。薬物-標的相互作用データベース(180)は、
図1Dを参照して以下に説明される。
【0024】
タンパク質アノテーションデータベース(190)は、1つ以上の実施形態によれば、データを記憶するためのいずれかのタイプの記憶ユニットおよび/またはデバイス(例えば、ファイルシステム、データベース、一群の表、またはいずれかの他の記憶メカニズム)であり得る。タンパク質アノテーションデータベース(190)は、
図1Dを参照して以下に説明される。
【0025】
図1Bに目を向けると、1つ以上の実施形態による、タンパク質構造データベース(160)が示されている。タンパク質構造データベース(160)は、タンパク質(162A、162B、162N)の3Dモデルを記憶することができる。3Dモデルのそれぞれは、ホモロジーモデル(164A、164B、164N)および/または実験モデル(166A、166B、166N)に関連付けられ得る。使用され得る公的に利用可能なタンパク質構造データベース(160)の例には、タンパク質構造データバンク(PDB)およびSWISS-MODELが含まれるが、これらに限定されない。
【0026】
図1Cに目を向けると、1つ以上の実施形態による、ゴーストリガンドデータベース(170)が示されている。ゴーストリガンドデータベース(170)は、タンパク質の複数の3Dモデル(例えば、172A、172B、172N)について、同定されたゴーストリガンド(例えば、174A、174B、174N)を記憶し得る。さらに、同定されたゴーストリガンドごとに、類似性に基づき得る信頼度スコア(例えば、176A、176B、176N)が含まれる。ゴーストリガンドデータベースは、
図3に説明されるように確立することができる。
【0027】
図1Dに目を向けると、1つ以上の実施形態による、薬物-標的相互作用データベース(180)が示されている。薬物-標的相互作用データベース(180)は、薬物(例えば、182A、182B、182N)および標的(例えば、184A、184B、184N)の複数の対について、相互作用の信頼度(例えば、186A、186B、186N)を記憶することができる。使用され得る公的に利用可能な薬物-標的相互作用データベース(180)の例には、STITCHおよびChEMBLが含まれるが、これらに限定されない。これらのデータベースには、多数のデータポイント(約15,000,000のChEMBL)が含まれ得る。
【0028】
図1Eに目を向けると、1つ以上の実施形態による、タンパク質アノテーションデータベース(190)が示されている。タンパク質アノテーションデータベース(190)は、複数のタンパク質(例えば、192A、192B、192N)について、関連するアノテーション(例えば、194A、192B、194N)を記憶することができる。タンパク質に関連するアノテーションには、タンパク質に関する利用可能な情報が含まれ得、タンパク質アノテーションデータベースに手動または計算で追加されている場合がある。例えば、UniProtデータベースを使用してもよい。
【0029】
図2、
図3、
図4、
図5、および
図6は、1つ以上の実施形態によるフローチャートを示している。
図2、
図3、
図4、および
図5のフローチャートは、薬物-標的相互作用を予測するために機械学習モデルを訓練するための方法を示し、
図6のフローチャートは、薬物-標的相互作用を予測するために機械学習モデルを使用するための方法を示す。
図2、
図3、
図4、
図5、および
図6のステップのうちの1つ以上は、
図1Aを参照して上述した、システム(100)の構成要素によって実行されてもよい。1つ以上の実施形態では、
図2、
図3、
図4、
図5、および
図6に示されるステップのうちの1つ以上は、省略され得、繰り返され得、および/または
図2、
図3、
図4、
図5、および
図6に示される順序とは異なる順序で実行され得る。追加のステップをさらに実行することができる。したがって、本発明の範囲は、
図2、
図3、
図4、
図5、および
図6に示されるステップの特定の配置に限定されると見なされるべきではない。
【0030】
図2のフローチャートに目を向けると、薬物-標的相互作用(DTI)を予測するための機械学習モデルを生成するための方法が示されている。
図2は、機械学習モデルの生成に向けた主要なステップを導入することを意図しているが、その後に議論されるフローチャートは、より詳細な説明を提供する。
図2の方法の完了後、結果として得られた機械学習モデルを使用して、
図6に説明されるように、予測を行うことができる。
【0031】
ステップ200では、ゴーストリガンドデータベースを、タンパク質構造データベースから取得したタンパク質から生成する。ステップ200の詳細な説明を
図3に提供する。
【0032】
ステップ202では、リガンド特徴およびタンパク質特徴を含む、薬物-標的相互作用(DTI)特徴を生成する。ステップ202の詳細な説明を
図4に提供する。
【0033】
ステップ204では、DTI予測のための機械学習モデルを生成する。ステップ204の詳細な説明を
図5に提供する。
【0034】
図3のフローチャートに目を向けると、ゴーストリガンドデータベースを生成するための方法が説明されている。続いて説明するステップを使用して、タンパク質間のホモロジー関係を利用して、既知のリガンドを「ゴースト」と呼ばれるそれらの相同体(実験モデルとホモロジーモデルの両方)の構造にマッピングする。
【0035】
ステップ300では、タンパク質をタンパク質構造データベースから取得する。タンパク質ごとに、3Dモデルを検索できる。
【0036】
ステップ302では、取得したタンパク質を配列またはドメインによってクラスタ化する。1つ以上の実施形態では、タンパク質クラスタは、一般にフォールドとして知られる、一次配列または3次元トポロジーにおいて類似性を共有する2つ以上のタンパク質の任意のセットとして定義される。タンパク質のクラスタリングは、例えば、PDB、SCOP、CATH、PFAM、またはUniprotなどの公的に利用可能なデータベースから直接取得できる。タンパク質クラスタは、タンパク質配列アラインメントツール、および例えばBLAST、CD-HIT、またはUCLUSTなどのクラスタリングツールを使用して、配列の類似性に基づいて手動で作成してもよい。あるいは、3次元構造モデルを有するタンパク質は、共通のトポロジーまたはフォールドを共有する無関係のタンパク質をグループ化することによってクラスタ化してもよい。
【0037】
ステップ304では、クラスタの1つをさらなる処理のために選択する。
【0038】
ステップ306では、ペアワイズ構造アラインメントを、選択されたクラスタ内のすべてのタンパク質に対して実行する。
図7Aは、タンパク質の3D構造の構造アラインメントの例を示している。3次元(3d)構造アラインメントは、2つのタンパク質間の位置的同等性を確立しようとする。構造アライメントは、同等の残基間の平均距離を最小化するために、1つのタンパク質の座標に回転および/または並進変換を適用することによって実行することができる。構造アラインメントは、完全なタンパク質構造、または単一ドメインなどの残基のサブセレクション、または例えばリガンド結合部位を取り囲む残基に対して実行され得る。3d構造アラインメントのためのリガンド結合部位残基の選択は、ゴーストリガンドをマッピングするための最適なヒューリスティックアプローチである。
【0039】
ステップ308では、ゴーストリガンドは、各リガンドをクラスタピアに投影することによって取得する。リガンド投影の異なる構成要素に対する信頼度を表す個々のスコアからなる、各投影についての信頼度スコアを取得することができる。リガンドをクラスタピアに投射するための例を
図7Aに提供する。信頼度スコアは、DTI相互作用をモデル化するために選択されたヒューリスティックに定義された構造表現の不確実性を定量化する任意のメトリックに基づくことができる。このステップでは、信頼度スコアには、例えば、パーセンテージ配列同一性、配列類似性、またはQMEANなどのホモロジーモデル品質メトリックを含むことができる。信頼度スコアには、例えば、局所的または全体的なアラインメントの二乗平均平方根偏差などの構造アラインメントの品質を説明するメトリックも含むことができる。複数の信頼度スコアを使用することもできる。
【0040】
ステップ310では、ゴーストリガンドおよび関連する信頼度スコアをゴーストリガンドデータベース内に記憶する。
【0041】
ステップ312では、追加のクラスタが処理のために残っているかどうかについての決定を行う。追加のクラスタが残っている場合、方法の実行は、ステップ306~310で説明されるように、処理するために別のクラスタを選択するためにステップ304に戻ることができる。追加のクラスタが残っていない場合、方法の実行を終了することができる。
図3の方法が終了すると、ゴーストリガンドデータベースは、ゴーストリガンドの包括的な集まりおよび説明したように処理されたすべてのタンパク質についての関連する信頼度スコアを含み得る。
【0042】
図4のフローチャートに目を向けると、薬物-標的相互作用(DTI)特徴を生成するための方法が説明される。生成された特徴には、リガンドについての特徴とタンパク質についての特徴が含まれる。これらの特徴は、その後、薬物-標的相互作用を予測するための機械学習モデルをトレーニングするために使用することができる。十分なトレーニングサンプルの利用可能性を確保するために、タンパク質とリガンドの多数の組み合わせの特徴を生成してもよい。
【0043】
ステップ400では、リガンドとタンパク質の組み合わせに対する薬物-標的相互作用をDTIデータベースから選択する。後続のステップは、リガンドとタンパク質のこの考慮された組み合わせに対して実行される。このステップは、リガンドとタンパク質の他の組み合わせについて後で繰り返してもよい。
【0044】
ステップ402では、特徴は、選択されたリガンドに対して生成される。これらの特徴には、リガンドフィンガープリントおよびリガンド記述子を含むことができる。フィンガープリントは、記述子形式でリガンドの構造を捕えることができ、固定長ベクトルを使用した基になる分子のSMILES表現に基づくことができる。分子フィンガープリント法には、例えば、原子ペア、拡張接続フィンガープリント、グラフベースのフィンガープリント、ねじれフィンガープリント、またはファーマコフォアフィンガープリントを含むことができる。分子量、回転可能な結合の数、水素結合供与体の数、水素結合受容体の数、疎水性、芳香族性、および官能基組成物を、例えば、リガンド記述子として使用してもよい。例えば、楕円率、幾何学的記述子、分岐記述子、またはキラリティー記述子などの分子形状記述子もまた使用してもよい。
【0045】
ステップ404では、ゴーストリガンドを、選択されたタンパク質のゴーストリガンドデータベースから検索する。
【0046】
ステップ406では、各ゴーストリガンドを、薬物、またはより具体的には、選択されたリガンドとの違いに基づいて、スコア付けする。類似性が高いほど、スコアが高くなる。リガンド間の類似性は、例えば、タニモト距離、D氷の距離、または余弦の距離などの
分子フィンガープリントを比較するための距離メトリックを使用してスコア付けできる。
【0047】
ステップ404および406は、選択されたタンパク質に利用可能なすべてのタンパク質モデル(例えば、ホモロジーモデルまたは実験由来モデル)に対して実行され得る。
【0048】
ステップ408では、選択されたリガンドに最も類似するゴーストリガンドを、さらなる処理のために選択する。
【0049】
ステップ410では、信頼度ベクトルを、DTI特徴およびその代表的なゴーストリガンドの異なる構成要素における信頼度を表す個々のスコアから構成されるDTI特徴に対して生成する。信頼度ベクトルは、ステップ308からのゴーストリガンド投影を表す信頼度スコアを含み得る。信頼度ベクトルは、選択されたリガンドとステップ408で選択された最も類似したゴーストリガンドとの間のフィンガープリント類似性についての信頼度スコアをさらに含み得る。さらに、信頼度ベクトルには、選択されたDTIの信頼度についてのスコアが含まれ得る。選択されたDTIの信頼度は、DTIデータのソースに基づいてスコア付けされ得る(例えば、DTIデータがハイスループットスクリーニングまたは低スループットスクリーニングのどちらを使用して取得されたかなどに応じて、異なるスコアが割り当てられる場合がある)。
【0050】
ステップ412では、最も類似したゴーストリガンドを取り囲む選択されたタンパク質についての局所的な特徴を取得する。局所的な特徴は、
図7Bに示されるように、増加する半径の同心シェルに存在する結合部位特徴を含み得る。同心シェルのそれぞれについて、いくつかの記述子、例えば、シェル内の原子の存在を指定する原子タイプ記述子が提供される。例えば、シェル半径ごとに70個の原子タイプ記述子を提供できる。記述子は、シェル領域内の結合部位の柔軟性または剛性、シェル領域内の残基接触、ならびに/または生物物理学および間接的に結合部位の形状を表す他の任意の要因をさらに含み得るが、これらに限定されない。ただし、特徴は、原子の正確な位置または座標を指定しない場合がある。局所的な特徴はまた、ネットワーク形式でリガンド結合部位を取り囲むアミノ酸間の距離を記述する、リガンド結合部位のグラフ記述を含み得る。局所的な特徴はまた、タンパク質残基によって占められていない空隙に対応する、ポケットの形状によって定義され得る。ポケット空隙は、例えば、浸水充填、凹面、または溶媒のアクセス可能性などのポケット検出方法によって決定することができる。ポックされた空隙スペースによって定義される局所的な特徴には、例えば、体積、楕円率、曲率、分岐パターン、または近くの残基のダイナミクスに基づくスペースの安定性を含む、空隙スペースの形状が含まれ得る。ポケット空隙スペースに隣接する残基によって定義される局所的な特徴には、例えば、残基の配向、水素結合供与体および受容体基の幾何学的利用可能性、疎水性、芳香族性、またはパイスタッキング相互作用の幾何学的利用可能性が含まれ得る。局所的な特徴はまた、安定した結合状態でリガンドと直接接触していない、リガンド結合部位の近くの溶媒に曝された残基を含む、リガンド結合チャネルの記述を含み得る。リガンド結合チャネルは、結合および解離の動的プロセスにおいてリガンドとの一時的な相互作用を形成すると予想される。リガンド結合チャネルの特徴には、例えば、残基の配向、アミノ酸組成、水素結合の供与体および受容体の利用可能性など、ポケットを定義するものと同様の特徴が含まれ得る。
【0051】
ステップ414では、選択されたタンパク質の構造および/または配列についての全体的な特徴を、ステップ412で説明したように、大きな半径を有する外側シェルに拡張することによって取得する。局所的な特徴に対応するシェル半径は、例えば、5Å、10Å、または15Åの閾値を含み得る。ドメインレベルの記述または全体的なタンパク質の記述に対応するシェル半径は、例えば、20Å、25Å、または30Åのより大きな距離閾値を持っている場合があり、あるいは距離閾値を持っていない場合もある。全体的な特徴には、ドメインまたはフォールドの記述がさらに含まれる場合があり、例えば、SCOP、CATH、PFAMなどの公的に利用可能なデータベースから抽出することができる。全体的な特徴は、タンパク質配列に由来する特徴をさらに含み得、例えば、共通の配列モチーフの存在を含み得る。全体的な特徴には、例えば、本質的に無秩序な領域、ヒンジ、ループ、秩序化された領域、または調節ドメインの存在および生物物理学的特性などの、タンパク質フォールディング状態の記述が含まれ得る。全体的な特徴はまた、リガンド結合部位からの距離に関連して記述することもできる。
【0052】
ステップ416では、選択されたタンパク質の機能的アノテーションを取得する。機能的アノテーションは、タンパク質アノテーションデータベースから取得することができる。機能的アノテーションには、例えば、酵素委員会(EC)番号、遺伝子オントロジー(GO)アノテーション、またはUniprotキーワードが含まれ得る。機能的アノテーションには、例えば、触媒部位、翻訳後修飾、疾患の関連性、または遺伝的変異などの、タンパク質の位置固有の特性が文書化されているかの有無も含まれる場合がある。
【0053】
ステップ418では、選択されたタンパク質の特徴を生成する。これらの特徴には、局所的な特徴、全体的な特徴、および/または機能的アノテーションが含まれ得る。
【0054】
ステップ420では、追加のDTIが処理のために残っているかどうかについての決定を行う。追加のDTIが残っている場合、方法の実行は、ステップ402~418に説明したように処理するために別のDTIを選択するためにステップ400に戻ることができる。追加のクラスタが残っていない場合、方法の実行を終了することができる。
図4の方法が終了すると、DTIデータベースに列挙されているリガンドとタンパク質についての
特徴の包括的な集まりが利用可能になる。
【0055】
図5のフローチャートに目を向けると、DTI予測のための機械学習モデルを生成するための方法が説明される。
図4に説明されているように取得したDTI特徴に基づいて、タンパク質環境とリガンド属性との間の互換性を反映する機械学習モデルを取得する。
【0056】
ステップ500では、リガンド特徴およびタンパク質特徴を取得する。リガンド特徴およびタンパク質特徴の取得は、
図4のステップ402および418に説明されているように実行することができる。
【0057】
ステップ502では、リガンドおよびタンパク質を、
図4のステップ408で確立された信頼度ベクトルの関数によってフィルタリングする。フィルタリングは、信頼閾値を実装する場合があり、信頼度閾値を超えるサンプルのみが、さらなる処理のために考慮される。信頼度関数は、フィルタリングのために信頼度ベクトルを単一のスコアに変換することができる。信頼度関数は、例えば、信頼度スコアを確率に変換し、ベイズ統計学を適用して、複合確率を評価することができる。信頼度関数は、機械学習での使用に適したサンプルを選択する手段として、信頼度ベクトルの各要素に個別のカットオフ閾値を適用することができる。信頼度関数の閾値または方程式は、機械学習アルゴリズムのハイパーパラメータとしてさまざまな組み合わせを自動的にテストすることで設定することができる。
【0058】
ステップ504では、リガンド特徴とタンパク質特徴を連結して、陽性トレーニングサンプルを生成する。
【0059】
ステップ506では、リガンド特徴およびタンパク質特徴をシャッフルする。シャッフルされたリガンド特徴とタンパク質特徴を連結して、陰性トレーニングサンプルを生成する。このステップを複数回繰り返して、陽性トレーニングサンプルと陰性トレーニングサンプルのさまざまな比率、例えば、1:1、1:5、1:10、1:19、または1:20を評価することができる。
【0060】
ステップ508では、DTI予測のための機械学習モデルを、陽性トレーニングサンプルおよび陰性トレーニングサンプルを使用してトレーニングする。例えば、バックプロパゲーションに基づく学習アルゴリズムを使用してもよい。1つ以上の実施形態では、トレーニングサンプルは、それらに関連する信頼度ベクトルに基づいて、重み付けしてもよい。1つ以上の実施形態では、転移学習を使用して、機械学習モデルをより効果的にトレーニングする。最初に、機械学習モデルは、ステップ502で初期信頼度閾値を適用することによってトレーニングされ得る。後続の再トレーニング段階では、信頼度閾値を上げて、トレーニング例の数を減らし、その品質を高めることができる。追加的または代替的に、後続の再トレーニング段階は、薬物または標的のクラスを選択するための訓練例を制限してもよい。機械学習モデルは、例えば、ランダムフォレスト、サポートベクターマシン、単層パーセプトロン、または多層人工ニューラルネットワークなどの教師あり識別分類または回帰モデルであってもよい。人工ニューラルネットワークは、トレーニングデータポイントの大きさ(100,000~10,000,000)とトレーニングデータ特徴の次元(1000~10,000)を考えると、このタスクに特に適している。一実施形態では、人工ニューラルネットワーク表現は、特徴入力層、例えば、それぞれ512ノードおよび256ノードを有する2つの隠れ層、および相互作用および非相互作用ペアに対応する2つの出力ノードを備えた完全に接続されたネットワークの形態をとる。一実施形態では、複数の隠れ層を有する人工ニューラルネットワークは、リガンドフィンガープリント、全体的なタンパク質特徴、局所的なタンパク質特徴、およびタンパク質の機能的な特徴を表す別個の潜在空間を作成するために、入力タイプ間の接続を省略している。
【0061】
図6のフローチャートに目を向けると、クエリタンパク質とクエリリガンドとの間の相互作用を予測するための方法が説明されている。
図2~5を参照して説明したようにトレーニングされた機械学習モデルを使用して、クエリリガンドおよびクエリタンパク質の少なくとも1つの既知の結合部位に対応するDTI特徴のセットに機械学習モデルを適用することにより、クエリタンパク質とクエリ化合物の「互換性」をテストすることができる。
【0062】
ステップ600では、クエリタンパク質およびクエリリガンドを取得する。クエリタンパク質およびクエリリガンドは、クエリタンパク質とクエリリガンドとの間の相互作用の予測を取得したいユーザから取得することができる。
【0063】
ステップ602では、
図4のステップ404~412で以前に説明したように、可能な結合部位および関連する局所的な特徴をクエリタンパク質について取得する。したがって、1つ以上の結合部位は、1つ以上の実験モデルまたはホモロジーモデルから取得してもよい。あるいは、例えば、ユーザが特定の結合部位を指定することを望む場合、結合部位および関連する局所的な特徴をユーザから取得してもよい。
【0064】
ステップ604では、全体的な特徴およびタンパク質アノテーションをクエリタンパク質について取得する。全体的な特徴およびタンパク質のアノテーションは、
図4のステップ414および416で以前に説明したように取得することができる。
【0065】
ステップ606では、特徴をクエリタンパク質について生成する。これらの特徴には、局所的な特徴、全体的な特徴、および/または機能的アノテーションが含まれ得る。
【0066】
ステップ608では、
図4のステップ402で以前に説明したように、リガンドフィンガープリントおよびリガンド記述子を取得する。
【0067】
ステップ610では、特徴をクエリリガンドについて生成する。これらの特徴には、リガンドフィンガープリントとリガンド記述子が含まれ得る。
【0068】
ステップ612では、DTI予測のための機械学習モデルを、クエリリガンドの特徴およびクエリタンパク質の特徴に適用して、クエリリガンドとクエリタンパク質との間の相互作用の可能性についての数値スコアを取得する。
【0069】
以下の段落は、様々な例に基づく本開示の実施形態をさらに説明する。当業者は、本開示がこれらの例に限定されないことを理解するであろう。
【0070】
(i)ゴーストリガンドのサンプル:
図7Aに目を向けると、ゴーストリガンドを生成するための例(700)が示されている。3つの架空のタンパク質構造が示されている(上の行)。3つの仮想タンパク質構造のうち2つは、リガンドと実際に相互作用している(左と中央の列、上の行)。中央の行は、3つの仮想タンパク質の様々な構造アラインメントを示している。構造アラインメントの結果として、リガンドは他のタンパク質に投射され得る。結合部位の類似性に基づいて、信頼度スコアが割り当てられる。実際のリガンド-タンパク質ペアリングの信頼度スコアは1.0であるが、ゴーストリガンド-タンパク質ペアリングの信頼度スコアは低くなる。下の行は、ゴーストリガンドデータベース内に記憶され得るため、結果として得られるゴーストリガンドとタンパク質のペアを示している。
【0071】
図7Bは、1つ以上の実施形態による、結合部位の特徴を取得するために使用される同心シェルモデル(750)の図を示す。半径(r)が増加する同心シェルは、結合部位の
一部と見なされる中央の化学構造を囲む。内側のシェルは、結合部位に近接する局所的な特徴を主に捕獲しているが、外側シェルは、ますます全体的な特徴を捕獲している。タンパク質を表す特徴は、同心シェルモデルに基づいている可能性があるため、正確な3Dジオメトリ(例えば、原子レベル)を指定せずに、タンパク質の局所的なおよび全体的な特徴を捕獲する。
【0072】
(ii)サンプル信頼度ベクトル:
本開示の実施形態は、想定される3次元構造表現で薬物-標的相互作用(DTI)データを増強するためのヒューリスティックプロセスに依存している。これらの想定されるDTI表現は、機械学習のための情報豊富な特徴を提供し、タンパク質-リガンド相互作用の予測を目的としたモデルを改善することができる。任意の所与のDTIデータポイントについてこれらの近似DTI表現を取得することは、
図2のステップ200および202を通して概説されるいくつかの仮定を必要とする。例えば、DTIを表現するために使用される3次元タンパク質構造は、実験座標から直接ではなく、ホモロジーモデルから供給されてもよい。
【0073】
信頼度ベクトルは、近似されたDTI表現の測定可能な不確実性を説明する複数のメトリックで構成される。これらのメトリックは、ゴーストリガンドデータベースの作成(ステップ200)および既知のDTIデータのゴーストリガンドデータベースへの投影(ステップ202)で発生する。一例では、信頼度ベクトルには、(1)DTIタンパク質を表現するホモロジーモデルとそのソーステンプレートの間の配列同一性のパーセンテージ、(2)ゴーストリガンドのソース構造とDTIタンパク質を表現するホモロジーモデルとの間のアライメントからのRMSD、(3)DTIリガンドのmorgan3フィンガープリントとゴーストリガンドテンプレートの間のタニモト類似性、(4)DTIデータポイントの信頼度を含む、4つの要素が含まれる。
【0074】
この例では、薬物-標的相互作用(DTI)データベースは、リガンドのゲフィチニブがタンパク質オーロラキナーゼAと相互作用することを示している。DTIデータベースは、ソースの生物物理学的実験の精度に基づいて、相互作用の確率を85%に割り当てた。ゲフィチニブとオーロラキナーゼAの間の特定の相互作用は、ソースの3次元構造データベースには存在しない。ゴーストリガンドデータベースの作成では、オーロラキナーゼAタンパク質のホモロジーモデルを、72.5%の配列同一性を共有する密接なホモログであるオーロラキナーゼBから作成した。ホモロジーモデルへのマッピングに成功したゲフィチニブに最も近い分子は、0.372のMorgan3フィンガープリントタニモト類似性を共有するエルロチニブであった。エルロチニブゴーストリガンドの位置は、オーロラキナーゼAホモロジーモデルとエルロチニブ-EGFR共複合体結晶構造の間の構造アラインメントに基づいて概算され、リガンド結合部位のRMSDは2.345Åであった。したがって、対応する信頼度ベクトルは、[85%、72.5%、0.372、2.345Å]であった。
【0075】
(iii)サンプルトレーニングデータおよび陰性シャッフル:
説明される方法論は、一連の決定論的なマッピング可能な関係とヒューリスティックにモデル化された特徴(局所的な構造特徴)を通じて取得された関連特徴の混合物を使用して、DTIデータベースからの薬物-標的相互作用(DTI)ペアの増強に焦点を当てている。DTIデータベースの各行は、
図8に例示されるような特徴ベクトルに変換され得、対応する薬物からのリガンド特徴(「リガンド特徴」とラベル付けされた列)およびタンパク質特徴(「全体的な特徴」、「機能的な特徴」、および「局所的な特徴」とラベル付けされた列)を伴う、トレーニングデータ(800)の生成を示す。タンパク質の全体的な特徴および機能的な特徴は、データベースルックアップおよびタンパク質識別子マッピングの標準的な手法を使用して、任意のタンパク質から取得してもよい。局所的なタンパク質特徴は、本特許で概説されているヒューリスティックに定義されたプロセスの結果である可能性がある。それらはモデル化されているため、不正確になる可能性がある。各データ行には、(上述されているが、図には示されていない)対応する信頼度ベクトルもあり、これは、機械学習モデルをトレーニングするためのハードカットオフまたは重みを暗示するために使用できる。
【0076】
ニューラルネットワークが、薬物-標的相互作用データセットから抽出された真の薬物-標的相互作用の陽性例によってのみトレーニングされる場合、モデルは、モデルに信号を提供しないため、相互作用のコアおよび明らかなパターンを無視することを学習し得る。さらに、薬物-標的相互作用データセットで高度に表現された薬物および標的に対する潜在的に重要なバイアスを制御する必要があり得る。したがって、各薬物とターゲットの相対的な比率で陰性例をサンプリングすることは有益であり得る。その結果、モデルは、陽性例と陰性例に基づいてパターンを学習する可能性がある。
図8では、ランダム化された陰性が、特徴ベクトル(白)のリガンド構成要素を、特徴ベクトル(灰色の3つの陰影)のタンパク質構成要素とシャッフルする。結果として得られる陰性例は、分類エンジンをトレーニングし、個々のリガンド特徴またはタンパク質特徴の存在のバランスをとるために使用できる。陽性および陰性のセットにおける個々のリガンド特徴および/またはタンパク質特徴の同等の使用は、個々の特徴が一般に結合に特に関連しているというネットワーク学習を回避する。
【0077】
本開示の実施形態は、ゴーストリガンドを使用して、タンパク質リガンドデータセットからプロテオケモメトリクス(proteochemometrics、PCM)のための局所的なタンパク質特徴を作成する。より具体的には、薬物-標的相互作用(DTI)データは、タンパク質-リガンド複合体の3D原子モデルにスレッド化され、局所的なタンパク質特徴を導出する。PCMの混合された特徴データセットには、局所的な(ポケット)、領域的な(ドメイン)、および全体的な(タンパク質全体)アノテーションならびに/または機能的なアノテーションが含まれ得る。
【0078】
従来、機械学習のためのトレーニングデータは、信頼度の高い「モデル品質データ」である必要がある。機械学習アルゴリズムのためのトレーニングデータを生成するための、1つ以上の実施形態による、予測(ゴーストリガンド+スレッド化)の使用は、直感に反するように思われる。具体的には、ヒューリスティックアプローチが十分に正確でない場合には、従来の知恵は、ゴーストリガンドとスレッド化の組み合わせから導出した局所的な特徴の導入が追加のノイズを導入する可能性があり、それによって従来のDTI PMCよりも性能が低下することを示唆している。しかしながら、
図9の性能比較(900)が示すように、性能の向上は、本特許に説明されたアプローチによって導出された局所的な特徴の導入によって達成される。このアプローチによって導出した局所的な特徴を省略することは、DTI PMC単独で達成されるであろう性能と同等である。
【0079】
具体的には、
図9は、小分子リガンドおよび8717タンパク質に対する結合の可能性をランク付けするための性能比較を示している。ランク付けをテストするために、100個の分子がトレーニングデータからランダムに削除され、テストに使用される。この図は、これら100個のランダムな薬物の既知の相互作用の予測ランクをプロットしている。例えば、局所的な特徴がない場合、8717の上位300のタンパク質(上位約3.5%)の予測の中で実際の相互作用の約63%しか観察されない(点線)。この手順で推定された局所的な特徴を含めると、同じ閾値で検出率が約75%まで増加した(実線)。
【0080】
本開示の様々な実施形態は、以下の利点のうちの1つ以上を有する。本発明の実施形態は、タンパク質環境とリガンド属性との間の互換性を反映する機械学習モデルを使用して、薬物-標的相互作用(DTI)の予測を可能にする。考慮中の相互作用に利用可能な3D情報がない場合でも、結合部位を表現するために局所化された3D特徴が作成される。
【0081】
既知の薬物-標的相互作用をホモロジーモデルにマッピングすると、豊富なDTIトレーニングデータが高次元の生物物理学的情報で合成的に増強され、ディープニューラルネットワークがトレーニングされる。したがって、このアプローチにより、薬物がタンパク質に結合する場所が必ずしもわかっていない場合でも、DTIデータベースのエントリのために、包括的なDTIデータベースを使用できる。
【0082】
1つ以上の実施形態による方法は、タンパク質-リガンド相互作用の生物物理学の詳細な知識を必要としない。したがって、原子の正確な3D座標は必要なく、これにより、DTIデータベースとホモロジーモデルを使用して、薬物-標的相互作用をタンパク質のポケットにマッピングできる。
【0083】
本開示の実施形態は、縮小された特徴空間を必要とし、3D原子座標に依存する構造ベースの深層学習アプローチと比較して、非常に大きなトレーニングデータを可能にする。さらに、本開示の実施形態は、十分に一般化することが見出された。初期のパフォーマンス評価では、ドッキングシミュレーションと比較して、説明した方法の実行が約1,000,000倍高速であることを示唆している。1つ以上の実施形態による方法は、人間の介入を必要としない。具体的には、最も可能性の高いタンパク質表現と結合部位が自動的に同定される。別紙AおよびBで論じられるように、1つ以上の実施形態による方法は、薬物-標的相互作用を予測するための正確なイン・シリコ代替物または他のイン・シリコおよび/または実験的方法への追加として使用され得る。
【0084】
本開示の実施形態は、様々な用途を有し得る。例えば、実施形態は、プロテオームスクリーニング(例えば、毒性予測または表現型デコンボリューション予測を実行するため)、仮想スクリーニングのために、および一般に創薬および開発のために使用され得る。
【0085】
本開示の実施形態を、コンピューティングシステム上に実装してもよい。モバイル、デスクトップ、サーバ、ルータ、スイッチ、組み込みデバイス、または他のタイプのハードウェアの任意の組み合わせを使用してもよい。例えば、
図10Aに示すように、コンピューティングシステム(1000)は、1つ以上のコンピュータプロセッサ(1002)、非永続的記憶装置(1004)(例えば、ランダムアクセスメモリ(RAM)などの揮発性メモリ、キャッシュメモリ)、永続的記憶装置(1006)(例えば、ハードディスク、コンパクトディスク(CD)ドライブまたはデジタル多用途ディスク(DVD)ドライブなどの光学ドライブ、フラッシュメモリなど)、通信インターフェース(1012)(例えば、Bluetoothインターフェース、赤外線インターフェース、ネットワークインターフェース、光学インターフェースなど)、ならびに多数の他の要素および機能を含んでもよい。
【0086】
コンピュータプロセッサ(1002)は、命令を処理するための集積回路であってもよい。例えば、コンピュータプロセッサは、プロセッサの1つ以上のコアまたはマイクロコアであってもよい。コンピューティングシステム(1000)はまた、タッチスクリーン、キーボード、マウス、マイクロフォン、タッチパッド、電子ペン、またはいずれかの他のタイプの入力デバイスなどの1つ以上の入力デバイス(1010)を含んでもよい。
【0087】
通信インターフェース(1012)は、コンピューティングシステム(1000)をネットワーク(図示せず)(例えば、ローカルエリアネットワーク(LAN)、インターネット、モバイルネットワーク、もしくはいずれかの他のタイプのネットワークなどのワイドエリアネットワーク(WAN))、および/または別のコンピューティングデバイスなどの別のデバイスに接続するための集積回路を含んでもよい。
【0088】
さらに、コンピューティングシステム(1000)は、スクリーン(例えば、液晶ディスプレイ(LCD)、プラズマディスプレイ、タッチスクリーン、陰極線管(CRT)モニタ、プロジェクタ、もしくはその他の表示デバイス)、プリンタ、外部記憶装置、またはいずれかの他の出力デバイスなどの1つ以上の出力デバイス(1008)を含んでもよい。1つ以上の出力デバイスは、入力デバイスと同じでもまたは異なっていてもよい。入力および出力デバイスは、コンピュータプロセッサ(1002)、非永続的記憶装置(1004)、および永続的記憶装置(1006)に局所的にまたはリモートで接続されてもよい。多くの異なるタイプのコンピューティングシステムが存在し、前述の入力デバイスおよび出力デバイスは他の形式をとってもよい。
【0089】
本開示の実施形態を実行するためのコンピュータ可読プログラムコードの形のソフトウェア命令は、全体的または部分的に、一時的または永続的に、CD、DVD、記憶デバイス、ディスケット、テープ、フラッシュメモリ、物理メモリ、または他のコンピュータ可読記憶媒体などの非一時的なコンピュータ可読媒体に記憶されていてもよい。具体的には、ソフトウェア命令は、プロセッサによって実行されるときに、本開示の1つ以上の実施形態を実行するように構成されたコンピュータ可読プログラムコードに対応してもよい。
【0090】
図10Aのコンピューティングシステム(1000)は、ネットワークの一部に接続されるか、またはそれであってもよい。例えば、
図10Bに示すように、ネットワーク(1020)は、複数のノード(例えば、ノードX(1022)、ノードY(1024))を含んでもよい。各ノードは、
図10Aに示すコンピューティングシステムなどのコンピューティングシステムに対応してもよく、または組み合わされたノードの群は、
図10Aに示すコンピューティングシステムに対応してもよい。例として、本開示の実施形態を、他のノードに接続されている分散システムのノード上に実装してもよい。別の例として、本開示の実施形態を、複数のノードを有する分散コンピューティングシステム上に実装してもよく、本開示の各部分は、分散コンピューティングシステム内の異なるノード上に配置してもよい。さらに、前述のコンピューティングシステム(1000)の1つ以上の要素を、離れた場所に配置して、ネットワーク上で他の要素に接続してもよい。
【0091】
図10Bには示していないが、ノードは、バックプレーンを介して他のノードに接続しているサーバシャーシ内のブレードに対応してもよい。別の例として、ノードは、データセンター内のサーバに対応してもよい。別の例として、ノードは、共有メモリおよび/またはリソースを有するコンピュータプロセッサまたはコンピュータプロセッサのマイクロコアに対応してもよい。
【0092】
ネットワーク(1020)内のノード(例えば、ノードX(1022)、ノードY(1024))を、クライアントデバイス(1026)にサービスを提供するように構成してもよい。例えば、ノードはクラウドコンピューティングシステムの一部であってもよい。ノードは、クライアントデバイス(1026)から要求を受信し、クライアントデバイス(1026)に応答を送信する機能を含んでもよい。クライアントデバイス(1026)は、
図10Aに示すコンピューティングシステムなどのコンピューティングシステムであってもよい。さらに、クライアントデバイス(1026)は、本開示の1つ以上の実施形態のすべてもしくは一部分を含んでもよく、および/または実行してもよい。
【0093】
図10Aおよび10Bに説明されるコンピューティングシステムまたはコンピューティングシステムの群は、本明細書に開示している様々な演算を実行する機能を含んでもよい。例えば、コンピューティングシステムは、同じまたは異なるシステム上のプロセス間の通信を実行してもよい。何らかの形のアクティブ通信またはパッシブ通信を用いる様々な機構により、同じデバイス上のプロセス間でのデータ交換が容易になってもよい。これらのプロセス間通信を表す例には、ファイル、信号、ソケット、メッセージキュー、パイプライン、セマフォ、共有メモリ、メッセージパッシング、およびメモリマップファイルの実装が含まれるが、これらに限定されない。これらの非限定的な例のいくつかに関するさらなる詳細を以下に提供する。
【0094】
クライアントサーバネットワーキングモデルに基づいて、ソケットは、インターフェースまたは通信チャネルエンドポイントとして機能して、同じデバイス上のプロセス間の双方向データ転送を可能にし得る。何よりも先ず、クライアントサーバネットワーキングモデルに従って、サーバプロセス(例えば、データを提供するプロセス)が第1のソケットオブジェクトを作成してもよい。次に、サーバプロセスは第1のソケットオブジェクトにバインドし、それによって最初のソケットオブジェクトが一意の名前および/またはアドレスに関連付けられる。第1のソケットオブジェクトを作成してバインドした後、サーバプロセスは1つ以上のクライアントプロセス(例えば、データのシークを行うプロセス)からの着信接続要求を待機してリスニングする。この時点で、クライアントプロセスがサーバプロセスからデータを取得しようとする場合、クライアントプロセスは第2のソケットオブジェクトを作成することによって開始する。次に、クライアントプロセスは、少なくとも第2のソケットオブジェクトならびに第1のソケットオブジェクトに関連付けられた一意の名前および/またはアドレスを含む接続要求の生成に進む。次に、クライアントプロセスは接続要求をサーバプロセスに送信する。可用性に応じて、サーバプロセスは接続要求を受け入れて、クライアントプロセスとの通信チャネルを確立してもよく、または、サーバプロセスは、他の演算の処理でビジー状態で、サーバプロセスの準備ができるまで接続要求をバッファーにキューイングしてもよい。確立された接続は、通信が開始される可能性があることをクライアントプロセスに通知する。それに応じて、クライアントプロセスは、クライアントプロセスが取得しようとするデータを指定するデータ要求を生成してもよい。その後、データ要求はサーバプロセスに送信される。データ要求の受信時に、サーバプロセスは要求を分析し、要求されたデータを収集する。最後に、サーバプロセスは次いで、少なくとも要求されたデータを含む応答を生成し、その応答をクライアントプロセスに送信する。データを、より一般的には、データグラムまたは文字のストリーム(例えば、バイト)として転送してもよい。
【0095】
共有メモリは、データが複数のプロセスによって通信および/またはアクセスされてもよい機構を実証するための仮想メモリ空間の割り当てを指す。共有メモリの実装では、初期化プロセスは先ず、永続的なまたは非永続的な記憶装置において共有可能なセグメントを作成する。作成後、初期化プロセスは共有可能セグメントをマウントし、その後、初期化プロセスに関連付けられたアドレス空間に共有可能セグメントをマッピングする。マウントに続いて、初期化プロセスは、共有可能セグメントにデータを書き込んでもまたは共有可能セグメントからデータを読み出してもよい1つ以上の許可されたプロセスを識別してアクセス許可を付与するために進む。1つのプロセスによって共有可能セグメント内のデータになされた変更は、共有可能セグメントにもリンクされている他のプロセスに即座に影響してもよい。さらに、許可されたプロセスのうちの1つが共有可能セグメントにアクセスするとき、共有可能セグメントはその許可されたプロセスのアドレス空間に対してマッピングされる。多くの場合、1つの許可されたプロセスだけが、初期化プロセス以外で、任意の所与の時間に、共有可能セグメントをマウントしてもよい。
【0096】
他の技法を使用して、本開示の範囲から逸脱することなく、プロセス間で、本出願に記載されている様々なデータなどのデータを共有してもよい。プロセスは、同じまたは異なるアプリケーションの一部であってもよく、同じまたは異なるコンピューティングシステムで実行されてもよい。
【0097】
プロセス間でデータを共有するのではなく、またはプロセス間でデータを共有するのに加えて、本開示の1つ以上の実施形態を実行するコンピューティングシステムは、ユーザからデータを受信する機能を含んでもよい。例えば、1つ以上の実施形態では、ユーザは、ユーザデバイス上のグラフィカルユーザインターフェース(GUI)を介してデータを提出してもよい。1つ以上のグラフィカルユーザインターフェースウィジェットを選択する、または、タッチパッド、キーボード、マウス、もしくは他の入力デバイスを使用してテキストおよび他のデータをグラフィカルユーザインターフェースウィジェットに挿入するユーザにより、データを、グラフィカルユーザインターフェースを介して送信してもよい。特定のアイテムの選択に応答して、特定のアイテムに関する情報を、コンピュータプロセッサによって永続的または非永続的記憶装置から取得してもよい。ユーザによるアイテムの選択時に、特定のアイテムに関して取得されたデータのコンテンツを、ユーザの選択に応答してユーザデバイス上に表示してもよい。
【0098】
別の例として、特定のアイテムに関するデータを取得する要求を、ネットワークを介してユーザデバイスに動作可能に接続されたサーバに送信してもよい。例えば、ユーザは、ユーザデバイスのWebクライアント内のユニフォームリソースロケータ(URL)リンクを選択して、それにより、URLに関連付けられたネットワークホストに送信されるハイパーテキスト転送プロトコル(HTTP)または他のプロトコル要求を開始してもよい。リクエストに応答して、サーバは特定の選択されたアイテムに関するデータを抽出し、要求を開始したデバイスにデータを送信してもよい。ユーザデバイスが特定のアイテムに関するデータを受信すると、特定のアイテムに関する受信されたデータのコンテンツは、ユーザの選択に応答して、ユーザデバイス上に表示されてもよい。上記の例に加えて、URLリンクを選択した後にサーバから受信したデータは、Webクライアントによってレンダリングされ、かつユーザデバイスに表示されてもよいハイパーテキストマークアップ言語(HTML)のWebページを提供してもよい。
【0099】
上述の技法を使用することなどによって、または記憶装置からデータが取得されると、コンピューティングシステムは、本開示の1つ以上の実施形態を実行する際に、取得されたデータから1つ以上のデータアイテムを抽出してもよい。例えば、抽出は、
図10Aのコンピューティングシステムによって以下のように実行されてもよい。先ず、データの編成パターン(例えば、文法、スキーマ、レイアウト)が決定され、これは、位置(例えば、ビットまたは列の位置、データストリーム内のN番目のトークンなど)、属性(属性が1つ以上の値に関連付けられている場合)、または(ネストされたパケットヘッダまたはネストされたドキュメントセクションなどの様々な詳細レベルのノードのレイヤを含む)階層/ツリー構造のうちの1つ以上に基づいてもよい。次に、生で未処理のデータシンボルのストリームが、編成パターンのコンテキストで、トークン(各トークンは、関連付けられたトークンの「タイプ」を有してもよい)のストリーム(または階層構造)に解析される。
【0100】
次に、抽出基準を使用して、トークンストリームまたは構造から1つ以上のデータアイテムを抽出し、抽出基準は、編成パターンに従って処理されて、1つ以上のトークン(または階層構造からノード)を抽出する。位置ベースのデータの場合、抽出基準によって識別された位置のトークンが抽出される。属性/値ベースのデータの場合、抽出基準を満たす属性に関連付けられたトークンおよび/またはノードが抽出される。階層的な/階層化されたデータの場合、抽出基準に一致するノードに関連付けられたトークンが抽出される。抽出基準は、識別子文字列のように単純であってもよく、または構造化データリポジトリに提供されるクエリであってもよい(データリポジトリは、XMLなどのデータベーススキーマまたはデータ形式に従って編成されてもよい)。
【0101】
抽出されたデータは、コンピューティングシステムによるさらなる処理に使用されてもよい。例えば、
図10Aのコンピューティングシステムは、本開示の1つ以上の実施形態を実行しながら、データ比較を実行してもよい。データ比較を使用して、2つ以上のデータ値(例えば、A、B)を比較してもよい。例えば、1つ以上の実施形態は、A>B、A=B、A!=B、A<Bなどであるかどうかを判定してもよい。この比較を、A、B、ならびに算術論理ユニット(ALU)(すなわち、2つのデータ値に関して算術演算および/またはビット毎の論理演算を実行する回路)に対して比較に関する演算を指定する演算コードを提出することによって実行してもよい。ALUは、演算の数値結果および/または数値結果に関連する1つ以上のステータスフラグを出力する。例えば、ステータスフラグは、数値結果が正の数、負の数、ゼロなどであるかどうかを示してもよい。適切な演算コードを選択し、次に数値結果および/またはステータスフラグを読み取ることによって、比較を実行してもよい。例えば、A>Bかどうかを判定するために、BはAから除算(すなわち、A-B)されてもよく、ステータスフラグを読み取って、結果が正かどうかを判定(すなわち、A>Bの場合、A-B>0)してもよい。1つ以上の実施形態では、Bを閾値と見なしてもよく、ALUを使用して判定されるように、A=Bの場合またはA>Bの場合、Aは閾値を満たすと見なされる。本開示の1つ以上の実施形態では、AおよびBはベクトルであってもよく、AをBと比較することは、ベクトルAの第1の要素をベクトルBの第1の要素と比較すること、ベクトルAの第2の要素をベクトルBの第2の要素と比較することなどを必要とする。1つ以上の実施形態では、AおよびBが文字列である場合、文字列の二進値を比較してもよい。
【0102】
図10Aのコンピューティングシステムは、データリポジトリを実装してもよく、および/またはそれに接続してもよい。例えば、データリポジトリの1つのタイプはデータベースである。データベースは、データ検索、修飾、再編成、および削除を容易にするために構成された情報の集まりである。データベース管理システム(DBMS)は、ユーザがデータベースを定義、作成、問い合わせ、更新、または管理するためのインターフェースを提供するソフトウェアアプリケーションである。
【0103】
ユーザまたはソフトウェアアプリケーションは、ステートメントまたはクエリをDBMSに提出してもよい。次に、DBMSは文字列を解釈する。文字列は、情報を要求するselectステートメント、updateステートメント、createステートメント、deleteステートメントなどである。さらに、ステートメントには、データ、またはデータコンテナ(データベース、テーブル、レコード、列、ビューなど)、識別子、条件(比較演算子)、関数(例えば、join、full join、count、averageなど)、ソート(例えば、昇順、降順)などを指定するパラメータを含んでもよい。DBMSはステートメントを実行してもよい。例えば、DBMSは、ステートメントに応答するために、読み取り、書き込み、削除、またはそれらの任意の組み合わせのために、メモリバッファ、参照またはインデックスファイルにアクセスしてもよい。DBMSは、永続的または非永続的なストレージからデータをロードして、クエリに応答するための計算を実行してもよい。DBMSは、結果をユーザまたはソフトウェアアプリケーションに返してもよい。
【0104】
図10Aのコンピューティングシステムは、比較および他の処理の結果など、生のおよび/または処理されたデータを提供する機能を含んでもよい。例えば、データを提供することは、様々な提示方法を通じて達成されてもよい。具体的には、データは、コンピューティングデバイスによって提供されるユーザインターフェースを介して提供されてもよい。ユーザインターフェースは、コンピュータモニタまたはハンドヘルドコンピュータデバイス上のタッチスクリーンなどのディスプレイデバイス上に情報を表示するGUIを含んでもよい。GUIは、どのデータが示されるか、およびどのようにデータがユーザに提供されるかを編成する様々なGUIウィジェットを含んでもよい。さらに、GUIは、データ、例えば、テキストを通じて実際のデータ値として提供されるデータ、またはコンピューティングデバイスによってデータモデルの視覚化などを通じてデータの視覚的表現にレ
ンダリングされるデータをユーザに直接提供してもよい。
【0105】
例えば、GUIは先ず、特定のデータオブジェクトがGUI内に提供されることを要求するソフトウェアアプリケーションから通知を取得してもよい。次に、GUIは、例えば、データオブジェクトタイプを識別するデータオブジェクト内のデータ属性からデータを取得することによって、特定のデータオブジェクトに関連するデータオブジェクトタイプを判定してもよい。次に、GUIは、そのデータオブジェクトタイプを表示するために指定される任意のルール、例えば、データオブジェクトクラスについてのソフトウェアフレームワークによって、またはそのデータオブジェクトタイプを提示するためにGUIによって定義されたローカルパラメータに従って指定されるルールを判定してもよい。最後に、GUIは、特定のデータオブジェクトからデータ値を取得し、そのデータオブジェクトタイプのために指定されるルールに従ってディスプレイデバイス内でデータ値の視覚的表現をレンダリングしてもよい。
【0106】
データはまた、様々なオーディオ方法により提供されてもよい。特に、データは、オーディオフォーマットにレンダリングされ、コンピューティングデバイスに動作可能に接続された1つ以上のスピーカを介して音声として提供されてもよい。
【0107】
データはまた、触覚的方法によりユーザに提供されてもよい。例えば、触覚的方法は、コンピューティングシステムによって生成される振動または他の物理的信号を含んでもよい。例えば、データは、データを通信するために、所定の持続時間および振動の強さで、ハンドヘルドコンピュータデバイスによって生成される振動を使用して、ユーザに提供されてもよい。
【0108】
上記の機能の説明では、
図10Aのコンピューティングシステムおよび
図10Bのノードおよび/またはクライアントデバイスによって実行される機能のほんの数例しか提示していない。本開示の1つ以上の実施形態を使用して他の機能を実行してもよい。
【0109】
本開示では限られた数の実施形態に関して説明しているが、本開示の利益を有する当業者は、本明細書に開示している開示の範囲から逸脱しない他の実施形態が考案され得ることを理解するであろう。したがって、本開示の範囲は、添付の特許請求の範囲によってのみ制限されるべきである。
【0110】
本明細書に記載の実施形態および実施例は、本発明およびその特定の用途を最もよく説明し、それにより当業者が本発明を行いかつ使用することを可能にするために提示された。しかしながら、当業者は、前述の説明および実施例が、例示および例のみの目的で提示されていることを認識するであろう。記載している説明は、網羅的であること、または本発明を開示している正確な形態に限定することを意図していない。
【0111】
本発明を限られた数の実施形態に関して説明しているが、この開示の利益を有する当業者は、本明細書に開示されている本発明の範囲から逸脱しない他の実施形態を考案できることを理解するであろう。したがって、本発明の範囲は、添付の特許請求の範囲によってのみ制限されるべきである。