(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-29
(45)【発行日】2024-09-06
(54)【発明の名称】多様な生物学的実体の間の新たな関係を学習する方法およびシステム
(51)【国際特許分類】
G16B 40/20 20190101AFI20240830BHJP
【FI】
G16B40/20
(21)【出願番号】P 2022552935
(86)(22)【出願日】2020-04-01
(86)【国際出願番号】 EP2020059317
(87)【国際公開番号】W WO2021197602
(87)【国際公開日】2021-10-07
【審査請求日】2023-02-10
(73)【特許権者】
【識別番号】517451940
【氏名又は名称】エヌイーシー ラボラトリーズ ヨーロッパ ゲーエムベーハー
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ティモ・シュティラー
(72)【発明者】
【氏名】ブランドン・マローン
【審査官】橋沼 和樹
(56)【参考文献】
【文献】米国特許出願公開第2019/0370616(US,A1)
【文献】Peng Bo et al.,"CNN-based Dual-Chain Models for Knowledge Graph Learning",arXiv, [online],2019年11月26日,pages 1-16,<URL: https://arxiv.org/abs/1911.06910v2>, [2024年4月12日検索]
【文献】Heng Chung Matthew et al.,"Clinical Knowledge Graph Embedding Representation Bridging the Gap between Electronic Health Records and Prediction Models",2019 18th IEEE International Conference On Machine Learning And Applications,IEEE, [online],2019年12月17日,pages 1448 - 1453,<URL:https://ieeexplore.ieee.org/document/8999107>, [2024年4月12日検索]
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
(57)【特許請求の範囲】
【請求項1】
多様な実体、特に、化学物質、タンパク質、および疾患
のうちの少なくとも1つを含む生物学的実体の間の新たな関係を学習する、コンピュータで実施される方法であって、
知識グラフ(100)を確立するステップであって、前記実体の各々がノード(110)として表され、前記実体の間の各関係がそれぞれの前記ノード(110)の間のエッジ(120)として表される、ステップと、
前記知識グラフ(100)中の実体に、1つまたは複数のデータモダリティのオブジェクト(130)を用いて注釈を付けるステップと、
前記知識グラフ(100)を用いてニューラルネットワークシステム(200)を訓練するステップであって、前記ニューラルネットワークシステム(200)が、前記知識グラフ(100)と、前記データモダリティのうちのそれぞれの1つの前記オブジェクト(130)とを、前記知識グラフ(100)からの前記ノード(110)の埋め込みと、前記データモダリティのうちの前記それぞれの1つの前記オブジェクト(130)の埋め込みとを一緒に学習することによって一体的に扱
い、前記ニューラルネットワークシステム(200)が、ポジティブサンプルの前記知識グラフ(100)からの前記ノード(110)の埋め込みとそれぞれのネガティブサンプルの中心との間の距離と、ポジティブサンプルのデータモダリティのうちの特定のものの前記オブジェクト(130)からの埋め込みとネガティブサンプルの中心との間の距離と、の間のユークリッド距離を計算する損失関数を、特定のポジティブサンプルについて最小限にするように構成される、ステップと、
前記実体の間の新たな関係を特定するために前記学習された埋め込みを使用するステップとを含む、コンピュータで実施される方法。
【請求項2】
前記1つまたは複数のデータモダリティが、前記実体の詳細を記述する生物医学文書(140)の形をした、および/または画像の形をしたオブジェクト(130)を含む、請求項1に記載の方法。
【請求項3】
前記ニューラルネットワークシステム(200)によって保持される機械学習モデルが、一度に単一のサンプルを用いて訓練され、
サンプルが、ヘッド実体、テール実体、および前記ヘッド実体と前記テール実体の間の対応する関係型から成る3つ組として提供され、
特定のヘッド実体および特定の関係型について、前記テール実体は、ポジティブサブセット中のテール実体ごとに、それぞれの3つ組が前記知識グラフ(100)中に存在することが当てはまり、ネガティブサブセット中のテール実体ごとに、それぞれの3つ組が前記知識グラフ(100)中に存在しないことが当てはまるようにして、前記ポジティブサブセットと前記ネガティブサブセットとに分類される、請求項1または2に記載の方法。
【請求項4】
前記損失関数が、利用されるデータモダリティの対ごとに個別に計算される、請求項
1に記載の方法。
【請求項5】
前記ニューラルネットワークシステム(200)が、訓練された機械学習モデルのうちのそれぞれの1つの予測精度を、学習された埋込みの重みに基づいて測定する、請求項1から
4のいずれか一項に記載の方法。
【請求項6】
予測精度と統合埋め込みとの間のトレードオフを制御するためにハイパーパラメータを導入するステップをさらに含む、請求項1から
5のいずれか一項に記載の方法。
【請求項7】
特定の疾患を選択するステップと、
前記ニューラルネットワークシステム(200)を使用して、前記選択された疾患について「疾患に関連する遺伝子」という形の関係を予測するステップと、
前記予測された遺伝子のうちのそれぞれの1つが前記選択された疾患と関連している可能性に応じて、前記予測された遺伝子を順位付けするステップと、
所定の数の上位順位付け遺伝子をノックダウン実験の候補として選択するステップとをさらに含む、請求項1から
6のいずれか一項に記載の方法。
【請求項8】
特定の疾患を選択するステップと、
前記ニューラルネットワークシステムを使用して、前記選択された疾患について「化学物質が疾患を治療する」という形の関係を予測するステップと、
前記予測された化学物質のうちのそれぞれの1つが前記選択された疾患を治療する可能性に応じて、前記予測された化学物質を順位付けするステップと、
所定の数の上位順位付け化学物質を個別化薬物開発の候補として選択するステップとをさらに含む、請求項1から
6のいずれか一項に記載の方法。
【請求項9】
多様な実体、特に、化学物質、タンパク質、および疾患
のうちの少なくとも1つを含む生物学的実体の間の新たな関係を学習するコンピュータシステムであって、前記コンピュータシステムは、メモリおよび1つまたは複数のプロセッサを備え、前記メモリおよびプロセッサは、
知識グラフ(100)を確立するステップであって、前記実体の各々がノード(110)として表され、前記実体の間の各関係がそれぞれの前記ノード(110)の間のエッジ(120)として表される、ステップと、
前記知識グラフ(100)中の実体に、1つまたは複数のデータモダリティのオブジェクト(130)を用いて注釈を付けるステップと、
前記知識グラフ(100)を用いてニューラルネットワークシステム(200)を訓練するステップであって、前記ニューラルネットワークシステム(200)が、前記知識グラフ(100)と、前記データモダリティのうちのそれぞれの1つの前記オブジェクト(130)とを、前記知識グラフ(100)からの前記ノード(110)の埋め込みと、前記データモダリティのうちの前記それぞれの1つの前記オブジェクト(130)の埋め込みとを一緒に学習することによって一体的に扱
い、前記ニューラルネットワークシステム(200)が、ポジティブサンプルの前記知識グラフ(100)からの前記ノード(110)の埋め込みとそれぞれのネガティブサンプルの中心との間の距離と、ポジティブサンプルのデータモダリティのうちの特定のものの前記オブジェクト(130)からの埋め込みとネガティブサンプルの中心との間の距離と、の間のユークリッド距離を計算する損失関数を、特定のポジティブサンプルについて最小限にするように構成される、ステップと、
前記実体の間の新たな関係を特定するために前記学習された埋め込みを使用するステップと
を含む方法を実行するように単独または組合せで構成されている、コンピュータシステム。
【請求項10】
前記損失関数が、利用されるデータモダリティの対ごとに個別に計算される、請求項
9に記載のコンピュータシステム。
【請求項11】
前記ニューラルネットワークシステム(200)が、訓練された機械学習モデルのうちのそれぞれの1つの予測精度を、学習された埋込みの重みに基づいて測定する、請求項
9または10に記載のコンピュータシステム。
【請求項12】
共通の語彙に基づいて生物医学文書を用意するように、かつ生物医学文書のセットを生成するように構成されている生物医学文書マイニングコンポーネント(150)をさらに備え、前記セットの各要素が前記語彙からのトークンのマルチセットである、請求項
9から
11のいずれか一項に記載のコンピュータシステム。
【請求項13】
命令を有する非一時的コンピュータ可読媒体であって、前記命令は、1つまたは複数のプロセッサによって単独または組合せで、かつメモリを使用して実行されたときに、
多様な実体、特に、化学物質、タンパク質、および疾患のうちの少なくとも1つを含む生物学的実体の間の新たな関係を学習する方法であって、
知識グラフ(100)を確立するステップであって、実体のそれぞれがノード(110)として表され、前記実体の間の各関係がそれぞれの前記ノード(110)の間のエッジ(120)として表される、ステップと、
前記知識グラフ(100)中の実体に、1つまたは複数のデータモダリティのオブジェクト(130)を用いて注釈を付けるステップと、
前記知識グラフ(100)を用いてニューラルネットワークシステム(200)を訓練するステップであって、前記ニューラルネットワークシステム(200)が、前記知識グラフ(100)と、前記データモダリティのうちのそれぞれの1つの前記オブジェクト(130)とを、前記知識グラフ(100)からの前記ノード(110)の埋め込みと、前記データモダリティのうちの前記それぞれの1つの前記オブジェクト(130)の埋め込みとを一緒に学習することによって一体的に扱
い、前記ニューラルネットワークシステム(200)が、ポジティブサンプルの前記知識グラフ(100)からの前記ノード(110)の埋め込みとそれぞれのネガティブサンプルの中心との間の距離と、ポジティブサンプルのデータモダリティのうちの特定のものの前記オブジェクト(130)からの埋め込みとネガティブサンプルの中心との間の距離と、の間のユークリッド距離を計算する損失関数を、特定のポジティブサンプルについて最小限にするように構成される、ステップと、
前記実体の間の新たな関係を特定するために前記学習された埋め込みを使用するステップと
を含む方法を
前記1つまたは複数のプロセッサに実行
させる、非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、多様な実体、特に、化学物質、タンパク質、および疾患などの生物学的実体の間の新たな関係を学習するための、コンピュータで実施される方法ならびにコンピュータシステムに関する。
【背景技術】
【0002】
人体内の生物学的プロセスは、DNA、RNA、タンパク質、代謝物、酵素などの、様々な分子間の複雑な相互作用の結果である。疾患表現型は、これらのプロセスが阻害されることから生じ、さらに、効果的な治療では、これらのプロセスをその正常で健康な状態に回復することを目指す。したがって、これらのプロセスに関与する分子、疾患、その他の実体の間の関係を正確かつ完全に特徴付けることが必須である。
【0003】
このような関係を特徴付けるための従来の手法は、費用および時間のかかる生物学的ウェットラボ実験を必要とする。これらの実験の費用の故に、既存のデータセットはきわめて不完全である。したがって、この実験的手法は依然として、そのような関係の真実性を判定するためのゴールドスタンダードではあるが、これらの関係を特徴付けるには、費用対効果がより高い方法を考案することが重要である。
【0004】
ますます多くの証拠が、人工知能(AI)の方法もまた新たな関係を特定するのに非常に有効であることを示している。当然ながら、AI方法によって予測された信頼性の高い関係は、従来のウェットラボの手法でも検証することができる(かつ、検証しなければならない)。
【0005】
この問題に対処するために、ネットワークベースの手法が従来技術においてすでに提案されており、この提案では、各実体はグラフのノードとして表され、各関係はそれぞれの実体の間のエッジとして表される。様々な関係型が様々なエッジ型によって表される。このようなネットワークベースの手法は3つのカテゴリ、すなわち、近傍ベース、拡散ベース、および表現ベースに分類することができる。これらの手法は、新しいエッジを予測するのに、モチーフ、コミュニティ、ハブ、クラスタ、ノード中心性、最短経路、その他など、ネットワークの様々な位相的性質に依拠する。さらに、いくつかの方法ではまた、ノードの生物学的特性を明らかにする。
【0006】
たとえば、本発明に最も類似している表現ベースの手法を考えると、これらの手法では、ニューラルネットワークを使用して、グラフ内で近接していて類似の関係を有する実体もまた類似の埋め込みを有するように、埋め込みまたは実数値ベクトルを学習する。次に、機械学習モデルが、埋め込みに基づいて新たな関係を予測するように訓練される。
【0007】
しかし、上述の知られている解決策は、すべての既存の手法がネットワーク構造によって制限されるために不都合であることが分かっている。
【先行技術文献】
【非特許文献】
【0008】
【文献】Garcia-Duran, Alberto,およびMathias Niepert、「KBlrn: End-to-end learning of knowledge base representations with latent, relational, and numerical features」、Proceedings of the 34th Conference on Uncertainty in Artificial Intelligence (2018)
【文献】Zhou, Y.、Zhu, S.、Cai, Cらの「High-throughput screening of a CRISPR/Cas9 library for functional genomics in human cells」、Nature 509, 487~491頁(2014)、https://doi.org/10.1038/nature13166
【文献】Doench, J.、Fusi, N.、Sullender, M.らの「Optimized sgRNA design to maximize activity and minimize off-target effects of CRISPR-Cas9」、Nat Biotechnol 34、184~191頁(2016)、https://doi.org/10.1038/nbt.3437
【文献】https://www.bioprocessonline.com/doc/benchbot-robot-0001
【文献】Koeffler HP、Golde DW、「Human myeloid leukemia cell lines: a review」、Blood、1980年9月、56(3)、344~350頁、https://www.ncbi.nlm.nih.gov/pubmed/6996765
【文献】https://www.takarabio.com/learning-centers/stem-cell-research/technical-notes/gene-editing-in-hips-cells/generating-clonal-hips-cell-lines-deficient-in-cd81
【文献】Konstantinos Tzelepisらの「A CRISPR Dropout Screen Identifies Genetic Vulnerabilities and Therapeutic Targets in Acute Myeloid Leukemia」、Cell Reports、Volume 17、Issue 4、2016年10月18日、1193~1205頁
【文献】Panda, S. K.およびRavindran, B. (2013)、「Isolation of Human PBMCs」、Bio-protocol 3(3): e323. DOI: 10.21769/BioProtoc.323
【文献】https://www.rndsystems.com/products/dual-color-elispot-kits
【発明の概要】
【発明が解決しようとする課題】
【0009】
したがって、本発明の目的は、多様な実体の間の新たな関係を学習するための、最初に説明したタイプの方法およびシステムを知識グラフのビューが改善されるように改良し、さらに発展させることにある。
【課題を解決するための手段】
【0010】
一実施形態において、本発明は、多様な実体、特に、化学物質、タンパク質、および疾患などの生物学的実体の間の新たな関係を学習する、コンピュータで実施される方法を提示し、この方法は、
知識グラフを確立するステップであって、実体の各々がノードとして表され、実体の間の各関係がそれぞれのノードの間のエッジとして表される、ステップと、
知識グラフ中の実体に、1つまたは複数のデータモダリティのオブジェクトを用いて注釈を付けるステップと、
知識グラフを用いてニューラルネットワークシステムを訓練するステップであって、ニューラルネットワークシステムが、知識グラフと、データモダリティのうちのそれぞれの1つのオブジェクトとを、知識グラフからのノードの埋め込みと、データモダリティのうちのそれぞれの1つのオブジェクトの埋め込みとを一緒に学習することによって一体的に扱う、ステップと、
実体の間の新たな関係を特定するために学習された埋め込みを使用するステップとを含む。
【0011】
本発明によれば、上記の目的は、複数のデータモダリティ、特に、タンパク質および疾患などの生物学的実体の一貫した表現を、知識グラフ、KG、ならびに実体を記述する構造化注釈およびフリーテキストのような任意の追加のデータモダリティに基づいて学習する方法によって達成できることがまず認識される。次に、これらの表現を用いて、新たな関係(たとえば疾患と関連するタンパク質)を特定することができる。この新たな関係を用いて、新薬のタンパク質標的の優先順位を付けることもできる。従来技術の手法とは対照的に、本発明の実施形態では、表現の一貫性を学習プロセスに明示的に組み込む。特に、本発明の実施形態では、KG構造と実体に関する文書とを一体的に考慮する。より具体的には、埋め込みを統合し、真の関係を予測するように学習することは単一のステップで実施される。すなわち、埋め込みと予測モデルは一緒に学習される。これにより、埋め込みが予測に対して最適化されることが確実になる。
【0012】
本発明の実施形態は、各実体がグラフ内のノードとして表され各関係がそれぞれの実体の間のエッジとして表されるネットワークベースの手法を採用して、タンパク質、薬物、および疾患のような多様な生物学的実体の間の新たな関係を学習する方法およびシステムに関し、様々な関係型が様々なエッジ型で表される。本開示の文脈では、このようなネットワークは知識グラフ(KG)と呼ばれる。この場合、新たな関係を学習することは、KGから「欠落している」エッジを予測することと等価である。
【0013】
KG構造と文書を結合するための明白な手法(これは文献に存在する)は、個別のMLモデルをKGおよび文書で訓練し、次に、何らかの事後の方法でこれらを結合することである。ニューラルネットワーク埋め込みの文脈では、このことは、実体ごとに、KG構造から1つの埋め込み、および文書から1つの埋め込みを学習することに対応するが、一緒にエンドツーエンドで訓練された場合でも(以前の研究で行われたように)、これら2つの埋め込みは依然として、実体ごとに全く異なる可能性がある。すなわち、これらの埋め込みは統合されていなく、むしろ完全に独立している。
【0014】
この問題に取り組むために、本発明の実施形態は、KG構造と文書を一体的なフレームワークで結合するニューラルネットワーク学習戦略を実施するリンク予測システムと関連する。「明白な」手法とは対照的に、両埋め込みは類似せざるを得ない。明白な手法と比較した主な利点は、KGでは離れているが文書が類似している実体の埋め込みをこのように「一緒にする」ことである。同様に、この手法では、KGでは近いが文書が非常に異なる遺伝子の埋め込みを「押し分ける」。こうして、新たな関係がKGと文書の一体的なビューを用いて予測される。その結果、これらの実施形態には、ニューラルネットワークシステムが、KG構造と文書からの追加情報とを一体化する実体の埋め込みを学習するという利点が付いてくる。特に、ニューラルネットワークシステムは文書の類似性を、語彙の構文的または意味的な重複に関係なく、関連する実体の文脈に基づいて学習することができる。
【0015】
一実施形態において、本発明は、疾患に関連する遺伝子を予測することによって薬物の新規の候補標的を特定する方法を提供する。
【0016】
別の実施形態では、本発明は、既存の薬物が新規の疾患の治療のために使用される、薬物を別目的に再利用する方法を「薬物--治療--疾患」エッジを予測することによって提供する。この方法は特に、ある疾患には非常に有効であるが、他の疾患には深刻な副作用があることが示されている免疫チェックポイント阻害剤(ICI)に関連している。ICIは通常、ネオ抗原ベースの個別化がんワクチンと組み合わせて使用される。
【0017】
本発明の教示を有利に設計し、さらに発展させるための方法がいくつかある。この目的のために、一方では従属請求項を参照されたく、他方では、図によって示される例としての本発明の好ましい実施形態についての以下の説明を参照されたい。図を援用することによる本発明の好ましい実施形態についての説明に関連して、一般的に好ましい実施形態および教示のさらなる展開について説明する。
【図面の簡単な説明】
【0018】
【
図1】本発明の一実施形態による、多様な生物学的実体の間の新たな関係を学習するためのフレームワークの概念的な概略図である。
【
図2】本発明の一実施形態による、多様な生物学的実体の間の新たな関係を学習するための方法において使用されるニューラルネットワーク構造の概略図である。
【発明を実施するための形態】
【0019】
本発明の好ましい実施形態についての以下の説明では、以下の表記が用いられる。
【0020】
【0021】
図1は、本発明の一実施形態による、多様な生物学的実体の間の新たな関係を学習するシステムの全体的な概念的フレームワークを示す。
図1に示された実施形態によれば、フレームワークは、生物医学文書コンポーネントのマイニング150(パート1に示す)、生物医学知識グラフ、KG 100(パート2に示す)、埋め込み空間160(パート3に示す)、およびニューラルネットワークシステム200(パート4に示す)を含めて、様々な態様およびコンポーネントを含む。具体的な実施形態は、薬物開発プロセスに位置している。しかし、当業者には理解されるように、他の実施形態において、フレームワークは、他のアプリケーションに同様に関連付けることができる。
【0022】
バイオメディカル知識グラフ
本発明の実施形態によれば、本明細書でG=(V,E)と表記される生物医学知識グラフ100は、Vと表記されるノード110のセット、およびEと表記されるエッジ120のセットからなり得る。生物医学知識グラフ100中の各ノードVは、化学物質、タンパク質、または疾患などの1つの実体に対応する。エッジEは、これらの実体の間の既知の関係を特徴付ける。
【0023】
一実施形態において、知識グラフGの構築は、様々な構造化データソースを考慮してグラフを手作業で作ることによって実現することができる。具体的には、一実施形態によれば、実体およびそれらの関係は、以下のように多様なソースから抽出することができる。
- DisGeNETから:“disease -- associated_with -- protein”関係
- SIDERから:“chemical -- treats -- disease”関係
- STITCHから:“chemical -- reacts_with -- chemical”関係
- STITCHから:“chemical -- interacts_with -- protein”関係
- STRINGから“protein -- interacts_with -- protein”関係
【0024】
一実施形態によれば、公表された手法に続けてさらに、“disease -- similar_to -- disease”関係を作成することができる。
【0025】
さらに、いくつかのデータソースがこれらの関係の信頼値を提供すると、これらはすでに予測であるので、これらを考慮に入れて信頼性の低い関係をフィルタリングすることができる。
【0026】
この場合、全体で、説明した実施形態によれば、知識グラフ100は3つの型の実体、すなわち、疾患、遺伝子(タンパク質)、化学物質(薬物)を考慮に入れる。さらに、知識グラフは、6つの関係(エッジ)型を含む。本明細書で使用される表記によれば、etは、エッジ型tを指す。
【0027】
当業者には理解されるように、明示的に上述したもの以外の実体、データソース、および関係抽出戦略もまた、KG 100を構築するために使用することができる。
【0028】
以下では、Gのグラフによって符号化されている事実が、(h、r、t)という形式の3つ組のセットとして表現され、ここで、h∈Vはヘッド実体、t∈Vはテール実体であり、r∈Eは関係型である。
【0029】
一例として、
図1、パート2は、本発明の一実施形態によるKG 100の抜粋を示す。この抜粋は、たとえば、疾患の「喘息」(D1)が「遺伝子108」(P2)および「遺伝子142」(P1)と関連していることを描いている。したがって、上記の形式の3つ組みとして書かれると、KG 100に存在する関係は、(D1,‘is associated with', P2)のように表現することができる。実用的な観点からは、新規の関係を特定するには費用がかかり、その多くは依然として未知である。
【0030】
生物医学文書のマイニング
本発明の実施形態によれば、KG 100中の実体(第1のデータモダリティのオブジェクトとみなすことができる)は、1つまたは複数のさらなるデータモダリティのオブジェクト130によって注釈が付けられる。説明した実施形態では、KG 100中の実体は、1つのさらなるデータモダリティ、すなわち生物医学文書のオブジェクト130によって注釈が付けられる。生物医学文書は、KG 100中の関連する実体をより詳細に記述する。たとえば、タンパク質は、その機能、またはその機能が記載されている学術論文のテキストによって注釈を付けることができる。以下では、この追加情報を簡潔に、それぞれの実体の文書140と呼ぶ。
【0031】
諸実施形態によれば、文書140は、PubMedからの学術論文のような非構造化ソース、または遺伝子オントロジのようなオントロジなどの構造化データソースを含めて、多様なデータソースを手動または自動で巡回することによって取得することができる。文書140で記述される、あり得る詳細は、たとえば、場所(たとえば、どの組織において特定のタンパク質が活性であるか)、生化学的性質(たとえば、薬物の疎水性または分子量)、機能的挙動(たとえば、疾患がある個人の表現型についての記述)、またはより高レベルの記述(特定の薬剤および疾患を含む臨床試験の結果など)である。
【0032】
諸実施形態によれば、すべての文書140は、共通の語彙に基づいてさらに使用できるように用意することができる。一例として、単語セグメンテーションベースまたは頻度ベースの手法を使用することもできる。さらに、トークン化、レンマ化、およびステミングのような標準的な前処理ステップを使用することもできる。
図1、パート1は、生データソースから文書140を作成するための生物医学文書コンポーネントのマイニング150の一実施形態を概略的に示す。
【0033】
加えて、各文書140は、KG 100からの実体のうちの少なくとも1つと関連付けられる。文書140は複数の実体と関連付けることができ、各実体は複数の文書140と関連付けることができる。多くの手法を使用して、文書140を実体に割り当てることができる。構造化データソースに対しては、実体識別子が通常与えられ、非構造化ソースに対しては、テキストから実体識別子を抽出するために、名前付き実体認識のような自然言語処理手法を使用することもできる。本発明は、生データソースから生物医学文書140を作成し実体と突き合わせるために用いられる、厳密な手法に関して制限されない。
【0034】
諸実施形態によれば、生物医学文書コンポーネントのマイニング150の出力は、生物医学文書Dのセットとすることができ、ここで、各d∈Dは、語彙からのトークンのマルチセットである。さらに、∀d∈Dであり、∃(v,d)∈(V,D)が当てはまり、ここで(V,D)は、対のセットである。これはGB=((V,E),(V,D))と表記される。GBは、ニューラルネットワークコンポーネント200の入力として使用される。
【0035】
本発明の実施形態によれば、文書140を作成するために、以下の例示的な情報を様々な公的ソースから抽出することができる。
- 遺伝子オントロジ:細胞内のタンパク質の機能および位置(構造化注釈)
- ヒト表現型オントロジ:疾患と関連する表現型(構造化注釈)
- SIDER、OFFSIDES:化学物質(薬物)副作用(構造化注釈)
- MyGene.info:タンパク質記述(フリーテキスト)
- DrugBank:薬物記述(フリーテキスト)
- DisGeNET:疾患機構および関連変異(フリーテキスト)
【0036】
図1、パート2は、文書140とタンパク質P
iとの間の接続の一実施形態を示す。一般に、すべての実体は、関連付けられた文書140を有することができ、文書140は複数の実体と関連付けることができる。
【0037】
従来技術で知られているすべての現在の手法は、ネットワーク構造によって制限される。特に、これらの手法では、KG 100と実体に関する文書140との構造を一体的に考慮しない。本発明の実施形態ではこの欠点に、以下で詳細に説明するように、一方では知識グラフ、KG、構造100が、他方では文書140が一体的に組み合わされる機械学習ベースの手法を用いて対処する。
【0038】
ニューラルネットワークシステム
図1、パート4に概略的に示されたニューラルネットワークシステム200の一実施形態が、より詳細に
図2に示されている。ニューラルネットワークシステム200は、上述の、提供された生物医学知識グラフG
B、および関連する生物医学文書Dのセットに基づいて新たな関係を予測する役割を担う機械学習モデルを保持する。具体的には、
図2は、以下で詳述するニューラルネットワーク構造を図示している。
【0039】
訓練
説明のために、以下の記述では、例示的に“proteins”をあり得るヘッド実体と呼び、“diseases”をあり得るテール実体と呼び、ここで、対応する関係は、“associated_with”(ed_aw_p)である。対応する関係を持つヘッド実体とテール実体の残りの組合せは、対応する方法で訓練されることに留意されたい。
【0040】
機械学習モデルを訓練するために、特定の疾患(たとえば「心筋症」)および特定の関係rk(たとえば“associated_with”)がそれぞれヘッドhおよび関係型rとして一定に保たれ、タンパク質が
【0041】
【0042】
および
【0043】
【0044】
に分類され、ここで
【0045】
【0046】
であり、(Cardiomyopathy, associated_with,
【0047】
【0048】
)という形式の3つ組がKG中に存在することが当てはまる。
【0049】
【0050】
、
【0051】
【0052】
およびVp⊆Vが当てはまる。
【0053】
同様に、
【0054】
【0055】
および
【0056】
【0057】
は、
【0058】
【0059】
および
【0060】
【0061】
中の要素の対応する生物医学文書を記述する。すなわち、
【0062】
【0063】
のすべてのタンパク質は3つ組の適正なテールであり、
【0064】
【0065】
のすべてのタンパク質は3つ組の不適正なテールである。
【0066】
図2に示すように、機械学習モデルは、概念的には一度に単一のサンプルを用いて訓練される。すなわち、
【0067】
【0068】
および対応する文書
【0069】
【0070】
が選ばれ、第1のステップとして、このサンプルが埋め込まれ、この場合、ノードVについては202に、文書Dについては204に示すように、ノードVおよび文書Dの埋め込みは単独で起こる。
【0071】
一実施形態によれば、ノードVについては206に、文書Dについては208に示すように、埋め込みは、以下の埋め込み関数によって実施することができる。
【0072】
【0073】
ここでU∈{V,D}であり、
【0074】
【0075】
は要素iの埋め込みであり、xjは対応する要素(すなわち、vjまたはdj)であり、i=|xj|である。djの基数は関連文書中の語数によって定義される。vjの基数は常に1であり、グラフ中の実体のインジケータである。
【0076】
次に、ノードVについては210に、文書Dについては212に示すように、ネガティブサンプリングを適用して
【0077】
【0078】
および
【0079】
【0080】
をランダムに選択することができ、ここで
【0081】
【0082】
であり
【0083】
【0084】
である。すなわち、これらのセットは、選択されたヘッドおよび関係に対して不適正なテールを含む。ネガティブサンプリングは、Garcia-Duran, Alberto,およびMathias Niepert、「KBlrn: End-to-end learning of knowledge base representations with latent, relational, and numerical features」、Proceedings of the 34th Conference on Uncertainty in Artificial Intelligence (2018)に記載されている手法に従って実施することができ、同文献は参照することにより本明細書に組み込まれる。
【0085】
ポジティブ要素の埋め込みと同様に、ネガティブ要素のセットは、ノードVについては214に、文書Dについては216に示されるように、以下のように埋め込むことができる。
【0086】
【0087】
ここで、
【0088】
【0089】
はネガティブサンプルのセット(すなわち、
【0090】
【0091】
または
【0092】
【0093】
)である。
【0094】
【0095】
の基数も
【0096】
【0097】
の基数もネガティブサンプルの数に等しい。ネガティブサンプルの数は、本方法のハイパーパラメータである。
【0098】
関係の埋め込みは、218に示すように、以下のように定義される。
【0099】
【0100】
ここで、kは特定の関係型の添字である。(本明細書で説明する例示的な実施形態によれば、6つの関係型がある。)
【0101】
より具体的には、EmbVは、KG中の実体ごとに埋め込みを与えるニューラルネットワークであり、EmbRは、関係型ごとに埋め込みを与えるニューラルネットワークである。加えて、EmbDは、語彙中のトークンごとに埋め込みを与えるニューラルネットワークであり、一文書の埋め込みは単純に、その文書の全トークンの平均的な埋め込みになる。
【0102】
【0103】
は、渡された全実体の平均的な埋め込みを与える単関数である。
【0104】
統合埋め込みの学習
本発明の実施形態によれば、ニューラルネットワークシステム200は、ノードVについては220に、文書Dについては222に示すように、ポジティブサンプルの埋め込みxjとネガティブサンプルの中心
【0105】
【0106】
との間のユークリッド距離を次式で計算するように構成されている。
【0107】
【0108】
さらに、224に示すように、distanceVとdistanceDとの間の距離はLoffsetとして計算される。
【0109】
【0110】
すなわち、
【0111】
【0112】
は、ポジティブサンプルについてのKGからの埋め込みとネガティブサンプルの中心との間の距離を与え、
【0113】
【0114】
は、ポジティブサンプルについての文書からの埋め込みとネガティブサンプルの中心との間の距離を与える。
【0115】
標準的な手法では、これらの距離が大きく異なる可能性があり、そのような場合にはLoffsetが大きくなることに留意することが重要である。対照的に、本発明の実施形態によれば、ニューラルネットワークシステム200は、Loffsetを最小にすることを目指す。したがって、ネガティブ埋め込みサンプル
【0116】
【0117】
および
【0118】
【0119】
それぞれに対するvjとdjの間の埋め込み距離は最小化されることになる。その結果、このモデルでは、文書の埋め込みを学習するときにKGにおける類似性を明示的に説明し、逆もまた同様である。すなわち、モデルは、KG構造の埋め込みと関連する文書の埋め込みとを明示的に統合し、このことが本発明による解決策の、他の知られている従来技術の方法との差異を表す。
【0120】
上記の実施態様に従って、モデルは、学習された実体の埋め込みをKG中の証拠と文書との間のバランスを見つけるように調整するということに留意することが重要である。
図1、パート3は、このことが埋め込み空間にどのように影響を与え得るかの一例を示す。図の左側は、標準的な手法によって学習された埋め込みを示す。すなわち、遺伝子1017は、文書が類似しているために、埋め込み空間において他の喘息関連タンパク質と中程度の近さにある。しかし、
図1、パート2で分かるように、遺伝子1017はKG中の他のものと近接していないので、喘息と関連付けるべきかどうかが明確ではない。しかし、パート3の図の右側では、L
offsetを使用することの影響が分かる。すなわち、上で説明したように、統合学習の故に、文書埋め込みはKG埋め込みを知らせる。その結果、ここで、遺伝子1017もまた喘息と関連付けられるべきことが明らかになる。
【0121】
正確な関係予測の学習
本発明の一実施形態によれば、Loffsetに加えて、ニューラルネットワークコンポーネント200は、モデルの予測精度を追跡することもでき、すなわち、埋め込み関数の学習された重みが正確に関係を予測するのに信頼できるかどうかを測定する。特に、ニューラルネットワークコンポーネント200は、埋め込み層(EmbV、EmbD、およびEmbR)の学習済み重みを使用して、KG 100中にあることが知られている関係を予測することができる。
【0122】
より具体的には、すでに上述のように、本発明の実施形態では、ヘッドおよび関係型が固定である場合に3つ組の真のテールを予測することを目指す。すなわち、たとえば、所与のテール実体hとしての特定の疾患(上記の例によれば「心筋症」など)、および特定の関係型rk(“associated_with”)を仮定すると、目標は、3つ組(h、r、t)に対して適正なテール実体tを予測することである。以下では、ヘッドと関連付けられたノードおよび文書をそれぞれvheadおよびdheadと呼ぶ。予測結果は、Lpredictと表記される関数で計算される。
【0123】
Loffsetとは対照的に、Lpredictは、(
【0124】
【0125】
および
【0126】
【0127】
からの)ネガティブサンプルの埋め込みを平均化するのではなく、埋め込みのすべてを適正なテール(vjおよびdj)と比較して予測性能を測定する。特に、一実施形態によれば、固定ヘッドの埋め込みと固定関係型の埋め込みは結合(要素に関して乗算「・」)して、ノード(226に示す)ならびに文書(228に示す)を埋め込み空間内で関係型によって分類することができる。
GroupU(xhead,rk)=EmbU(xhead)・EmbR(rk)
【0128】
最後に、諸実施形態によれば、各候補テール(すなわち、jならびに各ネガティブサンプル)のスコアが、その埋め込みとGroupU(xhead,rk)とのドット積として以下のように計算される(ノードについては230に、文書については232に示す)。
PredictU(xhead,rk,xj)=GroupU(xhead,rk)・EmbU(xj)
【0129】
各スコアは、それぞれの実体が3つ組(h、r、?)を適正に完成する可能性がどれだけあるかを示す尺度である。最適な場合では、ネガティブサンプルのスコアは0になるはずであり、真のテールのスコアは1になるはずである。
【0130】
図2に示すように、上記のステップが両方のモダリティ、すなわちノードおよび文書について別々に実施され、得られたベクトルは、次式のように結合(要素に関して加算)されてスコアになる(234に示す)。
Predict(head,r
k,j)=Predict
V(v
head,r
k,v
j)+Predict
D(d
head,r
k,d
j)
【0131】
このスコアは、すべてのネガティブサンプルおよび真のテールについて計算される。本明細書で論じられる例示的な実施形態では2つのモダリティを考えるので、真のテールについての結合スコアは2になるはずであり、ネガティブサンプルについての結合スコアは0のままのはずである。より一般的に言えば、すなわち、n個の異なるモダリティを考える場合には、Predict(head,rk,j)についての上式はn個の加数からなり、真のテールのスコアはnになるはずである。Loffsetの計算は、含まれるモダリティの数について指数関数的なものである。
【0132】
2つのモダリティを含む
図2の例示的な実施形態では、結果として得られるスコアを考慮に入れてバイナリクロスエントロピ損失が計算される(236に示す)。
【0133】
【0134】
ここで
【0135】
【0136】
は、i番目のネガティブサンプルである。
【0137】
最後に、本発明の実施形態によれば、両方の損失値を結合して、たとえば次式のように、それぞれの機械学習モデルの性能を測定することができる。
L=∝Lpredict+(1-∝)Loffset
ここで、∝∈[0,1]はハイパーパラメータであり、精度と統合埋め込みとの間のトレードオフを制御する。この場合、標準的なバックプロパゲーションアルゴリズムを用いて、KGと文書埋め込みの統合を依然として尊重しながら予測がより正確になるようにEmbV、EmbR、EmbDのパラメータを更新することができる。すなわち、Lが最小になるようにパラメータが更新される。
【0138】
一例として、
図1、パート2を参照する。グラフ構造および生物医学文書を考慮に入れること、およびこれらの埋め込みを統合することによって、上述の機構は、「遺伝子1017」(P3)もまた疾患D1、すなわち喘息と関連付けられていることを認識する。その結果、本発明では、新たな薬物を開発しながら、より詳細に調査し考慮に入れることができる新たな関係(e
d_aw_p)を特定した。当業者には理解されるように、この関係は1つの特定のエッジ型の一例にすぎず、本発明によってやはり明らかにされるはずの残りの関係でも同様のシナリオが存在する。
【0139】
新たな関係のランク付け
本発明の実施形態によれば、モデルを訓練した後で、埋め込み関数EmbV、EmbRおよびEmbDのパラメータは、真の3つ組が高いPredict(・)値になり、不適正な3つ組が低い値になるように設定される。
【0140】
すなわち、訓練されたモデルは、次の形式の問い合わせ、すなわち、(h、r、?)、(h、?、t)、(?、r、t)に答えることができる。具体的には、要素のうちの2つが与えられると、3つ組のうちの欠落している要素のあり得るすべての値についてPredict(・)が計算される。それぞれのスコアは、3つ組のうちの可能性が最も高い(最高値)完成から可能性が最も低い(最低値)完成までのランキングを与えるために使用される。問い合わせの適正な完了が分かっている場合、このようなランキングは、受信者動作特性曲線下の面積、precision@k、および精度-想起曲線下の面積などの、標準的な情報検索メトリクスを用いて評価することができる。
【0141】
すでに上述のように、
図2に概略的に示されたパイプラインは、ノードと文書の埋め込みを一緒に学習することだけには限定されない。実際、本発明のさらなる実施形態によれば、システムは、画像などの他のデータモダリティの付加オブジェクトを追加することによって容易に拡張することができる。その場合には、損失関数L
offsetは対ごとに計算される。したがって、ノード、文書、および画像を考えると、3つの対、すなわち、(ノード、文書)、(ノード、画像)、および(文書、画像)が生じることになる。したがって、L
offsetは、上に述べたように述べたように、また
図2において対(ノード、文書)について224に示すように、対ごとに個別に計算される。しかし、この手法では依然として、すべてのモダリティが一緒に学習されることが確実になることに留意されたい。このことを一般化すると、全体損失は次式のように計算することができる。
L=xL
predict+y
1L
offset ... +y
nL
offset
ここで、
【0142】
【0143】
であり、mはデータモダリティの数であり、
【0144】
【0145】
である。
【0146】
一実施形態において、本発明は、疾患-遺伝子の関連を特定する方法に関し、この方法は、たとえば、CRISPR-Cas9ノックダウン実験の自動化(たとえば、Zhou, Y.、Zhu, S.、Cai, Cらの「High-throughput screening of a CRISPR/Cas9 library for functional genomics in human cells」、Nature 509, 487~491頁(2014)に記載。https://doi.org/10.1038/nature13166)に関連しており、特定の遺伝子が疾患に及ぼす影響を理解するのに適用することができる。簡単に言えば、CRISPR-Cas9ノックダウン実験では、特定の遺伝子を標的とするガイドRNAを使用し、特定のガイドRNAと共にCRISPR-Cas9化合物を適用した後には、標的遺伝子はもはや機能しなくなる。(標的遺伝子は「ノックダウン」される。)このシステムの目的は、ノックダウン実験の対象の遺伝子に優先順位をつけることによって疾患に最も関連する遺伝子を特定することである。(そうして、おそらく、これらの遺伝子は創薬の好適な候補であるが、その考えを本開示ではこれ以上追求しない。)
【0147】
この場合、知識グラフ中のノードおよびエッジは、すでに説明したように、また
図1、パート2に示したように、遺伝子、化学物質、および疾患に対応する。さらに、既知の特定の遺伝子のガイドRNAのセットは、貯蔵容器入りで物理的に入手可能である。このような配列ライブラリは公開されている(参考として、たとえば、Doench, J.、Fusi, N.、Sullender, M.らの「Optimized sgRNA design to maximize activity and minimize off-target effects of CRISPR-Cas9」、Nat Biotechnol 34、184~191頁(2016)、https://doi.org/10.1038/nbt.3437参照)。ロボットが、特定のガイドRNAを貯蔵場所から取り出し、マイクロタイタープレート内の指定されたウェルのセットに配置することができる。たとえば、Agilent製のBenchBot Robot(参考として、https://www.bioprocessonline.com/doc/benchbot-robot-0001参照)は、次のようなことができる。
【0148】
最初に、対象の疾患が選択される。重要なことには、その疾患に類似している細胞株が入手可能でなければならない。すなわち、たとえば、KG-1およびHL-60が白血病の細胞株である(参考として、Koeffler HP、Golde DW、「Human myeloid leukemia cell lines: a review」、Blood、1980年9月、56(3)、344~350頁を参照。https://www.ncbi.nlm.nih.gov/pubmed/6996765より入手可能)。次に、ロボットがプレートのすべてのウェルの中にCas9を分配する。次に、本発明の実施形態による多様な生物学的実体の間の新たな関係を学習する方法を用いて、疾患と関連する可能性が最も高い遺伝子を特定することができる。すなわち、この方法では、選択された疾患について「疾患と関連する遺伝子」関係を予測し、上位順位付け遺伝子を選ぶ。選択された遺伝子の数は、プレート上のウェルの数によって決定することができる。各遺伝子は、プレート上の1つまたは複数のウェルに割り当てられる。ロボットは、それぞれのガイドRNAを貯蔵場所から自動的に選択し、Cas9と共培養するために既知のウェル内のマイクロタイタープレートに配置する。十分な時間の後、エレクトロポレーション(https://www.takarabio.com/learning-centers/stem-cell-research/technical-notes/gene-editing-in-hips-cells/generating-clonal-hips-cell-lines-deficient-in-cd81)などの適切な技術を用いて、細胞株からの細胞をシステムに結合する。
【0149】
最後に、別のアッセイを用いて、その細胞株においての各遺伝子のノックダウンの効果を評価することができる。たとえば、Konstantinos Tzelepisらの「A CRISPR Dropout Screen Identifies Genetic Vulnerabilities and Therapeutic Targets in Acute Myeloid Leukemia」、Cell Reports、Volume 17、Issue 4、2016年10月18日、1193~1205頁vuse、ノックダウンした細胞において、未変更細胞株と比較して異なって機能する遺伝子経路を特定するためのRNA配列決定。
【0150】
一代替実施形態において、本発明は、疾患-遺伝子関連を特定する方法に関し、この方法は、たとえば、個別化薬物を開発するための個別化医療システムに関連して適用することができる。このようなシステムの目的は、特定の患者の疾患を治療するために最適な化学物質を選択することである。この場合、知識グラフ(KG)中のノードはやはり、
図1、パート2に示すように、遺伝子、化学物質、および疾患に対応する。さらに、KGに含まれる化学物質のサブセットは、貯蔵容器入りで物理的に入手可能である。ロボットが、特定の化学物質を貯蔵場所から取り出し、マイクロタイタープレート内の指定されたウェルのセットに配置することができる。たとえば、Agilent製のBenchBot Robotは、次のようなことができる。
【0151】
最初に、ある患者がある特定の病気と診断される。次に、患者から生検が採取される。疾患の種類に応じて、生検は液体であることも(たとえば、白血病の場合)、固体であることもある(たとえば、卵巣がんの場合)。関連する細胞が生検から標準的な手法を用いて抽出される。たとえば、標準的なプロトコル(参考として、Panda, S. K.およびRavindran, B. (2013)、「Isolation of Human PBMCs」、Bio-protocol 3(3): e323. DOI: 10.21769/BioProtoc.323参照)が、血液から免疫細胞を抽出するのに利用可能である。ロボットは、1つまたは複数のマイクロタイタープレート上のウェルの中に細胞を分配する。次に、本発明の実施形態による多様な生物学的実体の間の新たな関係を学習する方法を用いて、疾患を治療する可能性が最も高い化学物質を特定することができる。すなわち、この方法では、患者の疾患に対して「化学物質が疾患を治療する」関係を予測し、上位順位付け化学物質を選ぶ。選択された化学物質の数は、プレート上のウェルの数によって決定することができる。各化学物質は、プレート上の1つまたは複数のウェルに割り当てられる。ロボットは、これらの化学物質を貯蔵場所から自動的に選択し、既知のウェル内のマイクロタイタープレートに配置する。
【0152】
別のアッセイが、患者細胞に対する各化学物質の効果を判定するために用いられる。一例として、R&D Systemsから入手できるものなどの、高スループットELISpotアッセイ(参考として、https://www.rndsystems.com/products/dual-color-elispot-kits参照)を用いて、どの化学物質が免疫系細胞から応答を引き出すかを判定することができる。スポットの数は、その化学物質が患者に対してどれだけ有効であるかを示している。最後に、特定の患者の症例に最も効果的な化学物質を治療に使用するために選択することができる。
【0153】
当業者には理解されるように、本明細書に記載の方法は、まず第一に、KGおよび文書を構築するのに十分な情報を有することに依存する。領域によっては、このことは問題になる可能性がある。しかし、生物医学領域、特に上述の生物医学応用分野のシナリオでは、十分なデータがすでに利用可能である。
【0154】
本明細書で論述された本発明の多くの修正および他の実施形態は、上記の説明および関連する図面に提示された教示の利益が得られる、本発明が関係する技術分野の当業者には想起されよう。したがって、本発明は開示された特定の実施形態に限定されるものではないこと、ならびに、修正形態および他の実施形態は添付の特許請求の範囲内に含まれるものであることを理解されたい。特定の用語が本明細書に使用されているが、これらは一般的および説明的な意味で使用されているにすぎず、限定を目的とするものではない。
【符号の説明】
【0155】
100 生物医学知識グラフ
108 遺伝子
110 ノード
120 エッジ
130 オブジェクト
140 文書
142 遺伝子
150 生物医学文書コンポーネントのマイニング
160 埋め込み空間
200 ニューラルネットワークシステム
213 遺伝子
1017 遺伝子
D1 疾患
P1 遺伝子
P2 遺伝子