(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-11
(45)【発行日】2023-12-19
(54)【発明の名称】生体エンティティの特性を推測するコンピュータにより実施される方法及び機器
(51)【国際特許分類】
G16B 20/00 20190101AFI20231212BHJP
【FI】
G16B20/00
(21)【出願番号】P 2019186293
(22)【出願日】2019-10-09
【審査請求日】2022-06-09
(32)【優先日】2018-10-18
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】光石 豊
(72)【発明者】
【氏名】ノヴァチェク・ヴィート
(72)【発明者】
【氏名】ヴァンデンブッシェ・ピエール-イヴ
【審査官】山崎 誠也
(56)【参考文献】
【文献】特開2018-206374(JP,A)
【文献】特表2014-527233(JP,A)
【文献】欧州特許出願公開第03089060(EP,A1)
【文献】特開2009-168695(JP,A)
【文献】特表2007-511837(JP,A)
【文献】特表2016-537700(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
(57)【特許請求の範囲】
【請求項1】
生体エンティティの特性を推測する、コンピュータにより実施される方法であって、
頂点及びエッジの形式の、異なるアリティを有する、生体エンティティに関連する2以上の知識グラフを入力するステップであって、前記知識グラフのうちの少なくとも1つは有向であり、前記知識グラフのうちの少なくとも1つはラベル付きである、ステップと、
前記知識グラフの各々を、ユニークなエッジ識別子のリストとして、ハイパーエッジ表現に変換するステップであって、前記ユニークなエッジ識別子の各々はソース及びターゲット頂点を有し、頂点は前記エッジにより無方向接続され、ラベルは前記エッジに関連付けられる、ステップと、
前記ハイパーエッジ表現を、2部グラフに変換するステップであって、前記2部グラフは一方のセットの中に前記頂点及びラベルを有し、他方のセットの中に前記エッジを有し、前記頂点及びラベルは前記ハイパーエッジ表現のとおりに補助エッジAにより前記エッジにリンクされる、ステップと、
前記2部グラフをサンプリングするステップであって、前記2部グラフを、前記頂点、ラベル、及びエッジの特徴行列の中の行列エントリとして埋め込む、ステップと、
前記特徴行列を用いて、前記行列エントリに基づき結合知識グラフの中の生体エンティティの特性を推測するステップと、
を含む方法。
【請求項2】
前記生体エンティティはタンパク質であり、前記知識グラフはタンパク質に関連する、請求項1に記載の方法。
【請求項3】
一方の知識グラフ入力は、タンパク質相互作用データのような2項のみの関係を有する有向ラベルグラフであり、他方の知識グラフ入力は、経路データベースのような3項関係を有する混合有向/一方向ラベルグラフである、請求項1又は2に記載の方法。
【請求項4】
前記2部グラフをサンプリングするステップは、
前記2部グラフをトラバースするステップであって、前記セットの間の前記リンクに沿って可能なシーケンスを提供する、ステップを含み、
前記2部グラフを埋め込むステップは、
前記シーケンスから、前記頂点、ラベル、及びエッジの特徴行列を生成するステップであって、共起スコアが前記特徴行列の各セルの中の行列エントリを形成する、ステップを含み、
前記特徴行列は、前記共起スコアに基づき前記知識グラフの中の生体エンティティの特性を推測するために使用される、請求項1乃至3のいずれか一項に記載の方法。
【請求項5】
前記ハイパーエッジ表現は、2部グラフへの変換の前に、同じ頂点と同じ名称を有する頂点を考慮することにより結合される、請求項1乃至4のいずれか一項に記載の方法。
【請求項6】
同じ頂点の選択的名称を一緒にグループ化するために、マッピングツールが使用される、請求項5に記載の方法。
【請求項7】
各エッジ識別子は、(e,S,T,U)
lの形式を有し、
eはユニークなエッジ識別子であり、S、Tはそれぞれ前記エッジにより有向接続されるソース及びターゲット頂点のセットであり、Uは前記エッジにより無方向接続される頂点のセットであり、lはエッジラベルである、請求項1乃至6のいずれか一項に記載の方法。
【請求項8】
補助エッジAは、各頂点と該頂点の結合されるエッジとの間に形成され、2つの頂点の間の関係は、2つの補助エッジ及び前記エッジを含む、請求項1乃至7のいずれか一項に記載の方法。
【請求項9】
補助エッジが有向エッジと頂点との間にあるとき、前記補助エッジは、前記有向エッジと同じ方向を向いている、請求項8に記載の方法。
【請求項10】
補助エッジは、エッジをラベル付けするラベルと前記エッジとの間に形成される、請求項1乃至9のいずれか一項に記載の方法。
【請求項11】
前記2部グラフのトラバースは、頂点又はエッジラベルと前記ハイパーエッジ表現のエッジとの間で交互に現れるシーケンスを生成する、請求項1乃至10のいずれか一項に記載の方法。
【請求項12】
前記特徴行列は、シーケンスの中の2つのエンティティの間の前記シーケンス内の距離を考慮して共起スコアを生成し、共起スコアを各シーケンスの前記特徴行列に加算することにより入力される、請求項1乃至11のいずれか一項に記載の方法。
【請求項13】
シーケンス内の最後ではない各点で開始するコンテキストウインドウを用いて、コンテキストシーケンスを与えるステップ、を更に含み、
各開始点と前記コンテキストシーケンス内の後のエンティティとの間の前記共起スコアは、前記コンテキストシーケンス内の前記エンティティ間の距離を考慮して計算され、前記特徴行列に追加される、請求項12に記載の方法。
【請求項14】
前記生体エンティティの前記特性は、
コサイン類似性を用いて、2以上の生体エンティティの類似性を計算することにより推測される、請求項1乃至13のいずれか一項に記載の方法。
【請求項15】
コンピュータ機器上で実行すると、該コンピュータ機器に請求項1乃至14のいずれか一項に記載の方法を実行させるコンピュータプログラム。
【請求項16】
タンパク質の特性を推測する機器であって、メモリとプロセッサとを含み、
前記プロセッサは、2部変換器と、グラフサンプラと、分布解析器と、を提供し、
前記2部変換器は、頂点及びエッジの形式の、異なるアリティを有する、タンパク質に関連する2以上の知識グラフを受信し、前記知識グラフのうちの少なくとも1つは有向であり、前記知識グラフのうちの少なくとも1つはラベル付きであり、
前記知識グラフの各々を、ユニークなエッジ識別子のリストとして、ハイパーエッジ表現に変換し、前記ユニークなエッジ識別子の各々はソース及びターゲット頂点を有し、頂点は前記エッジにより無方向接続され、ラベルは前記エッジに関連付けられ、
前記ハイパーエッジ表現を、2部グラフに変換するステップであって、前記2部グラフは一方のセットの中に前記頂点及びラベルを有し、他方のセットの中に前記エッジを有し、前記頂点及びラベルは前記ハイパーエッジ表現のとおりに補助エッジAにより前記エッジにリンクされ、
前記グラフサンプラは、前記2部グラフをサンプリングし、
前記分布解析器は、
前記2部グラフを、前記頂点、ラベル、及びエッジの特徴行列の中の行列エントリとして埋め込み、
前記特徴行列をメモリに格納し、
前記特徴行列を用いて、前記行列エントリに基づき結合知識グラフの中のタンパク質の特性を推測する、機器。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の技術分野は、知識グラフの分析(ノイズの多い不完全な知識の大規模ロバスト表現のためのグラフに基づく手段)である。特定の適用は、タンパク質及びタンパク質相互作用、特に人間及び動物のタンパク質のような生物学又は生物医学的エンティティの説明である。ますます膨大な量の人間の知識が機械可読グラフデータセットとして表現されている。グラフ表現は、現実の知識の便利な且つロバストなモデル化を可能にするが、データ表現の関係型及び多変数の特性に立ち向かう必要のような、特定の計算上の課題をもたらす。大部分の有望な近年のアプローチのうちの1つは、知識グラフ埋め込み-知識グラフエンティティ及び/又は関係の低ランク連続ベクトル表現を計算することであり、これは、広範な知識発見技術の効率的実装のためのプロキシとして使用されてよい。埋め込み(Embeddings)は、グラフトラバースにより生成されてよく、知識グラフ慣性又はパターン発見のようなタスクにおいて効率的な計算を促進し得る。
【背景技術】
【0002】
知識グラフの埋め込みを計算する特定の方法は、つい最近に研究され始めたばかりであり、依然として多くの改良の余地がある。知識グラフ埋め込みの緊急の分野において幾つかの課題がある。近年、2つより多くのノード(ここでは頂点とも呼ばれる)及び該ノードの間のそれらの間の関係/リンクの混合方向性(幾つかは有向関係であり、幾つかは無向関係である)を含み得る、関係/関連(グラフ内のエッジ)を有する知識グラフが、利用可能になっている。従来の埋め込み技術は、このようなグラフを効率的に管理できない。
【0003】
生物情報学では、この問題は特に存在感がある。例えば、タンパク質相互作用(2つのノードのみを接続する無向性2項関係)を表すデータベースと一緒に、経路のコンテキスト内にタンパク質相互作用の指示を有する幾つかのより複雑な経路データベースを置く(2つのタンパク質及びコンテキスト独立変数としてそれらの関係をラベル付けする経路を含む3項関係)。同様に、遺伝的病気(遺伝子と病気とを接続する有向2項関係)のような他のデータベースは、生物医学文献から抽出された来歴(provenance、起源、出所)との共起関係により並置される(科学出版物のコンテキストの中の2つの遺伝子又は1つの遺伝子、及び病気を含む3項無向関係)。この異種(混合アリティ及び混合方向性)情報から知識グラフ埋め込みを計算することが主な課題である。
【発明の概要】
【0004】
本発明の第1の態様の実施形態によると、生体エンティティの特性を推測する、コンピュータにより実施される方法であって、頂点及びエッジの形式の、異なるアリティを有する、生体エンティティに関連する2以上の知識グラフを入力するステップであって、前記知識グラフのうちの少なくとも1つは有向であり、前記知識グラフのうちの少なくとも1つはラベル付きである、ステップと、前記知識グラフの各々を、ユニークなエッジ識別子のリストとして、ハイパーエッジ表現に変換するステップであって、前記ユニークなエッジ識別子の各々はソース及びターゲット頂点(vertices)を有し、頂点は前記エッジにより無向接続され、ラベルは前記エッジに関連付けられる、ステップと、前記ハイパーエッジ表現を、2部グラフに変換するステップであって、前記2部グラフは一方のセットの中に前記頂点及びラベルを有し、他方のセットの中に前記エッジを有し、前記頂点及びラベルは前記ハイパーエッジ表現のとおりに補助エッジAにより前記エッジにリンクされる、ステップと、前記2部グラフをサンプリングして、前記2部グラフを、前記頂点、ラベル、及びエッジの特徴行列の中の行列エントリとして埋め込むステップと、前記特徴行列を用いて、前記行列エントリに基づき結合知識グラフの中の生体エンティティの特性を推定するステップと、を含む方法が提供される。
【0005】
用語「生体エンティティ」は、本願明細書において、物理的生体エンティティ及びそれらの状態、及びモジュレータをカバーするために使用される。それらは、生体分子、細胞、ウイルス、有機的組織体、病状、調合薬、等のようなサブグループに分けられてよい。
【0006】
分子に関し、実施形態は、例えば、物理的生成物のような「変異DNA分子」に、又は抽象概念若しくはDNA分子の特性として「変異株」に関連してよい。
【0007】
生体分子は、例えば、以下を含んでよい:
・核酸(DNA,RNAを含む)
・アミノ酸
・ポリペプチド
・タンパク質(アミノ酸の連鎖である1つ以上のポリペプチドからなる)
有機的組織体は以下を含んでよい:
・バクテリア
・植物
・動物
病状は以下を含んでよい:
・病気
・物理的傷
・生理的状態(妊娠、等)
調合薬は、任意の種類の化学薬品又は背得仏学的薬物を含んでよい。
【0008】
生体エンティティは、代替として、生体プロセスに関連する任意のものとして見られてよい。
【0009】
生体エンティティはタンパク質であってよい。特にタンパク質及び特に人間のタンパク質は、多くの異なる知識グラフの中に現れる。それらは、本発明の実施形態で使用されるグラフの幾つか又は全部の中の頂点及び/又はエッジであってよい。実施形態に従い異なるグラフを結合することは、(代謝、遺伝子発現、又はシグナリング経路のような、同じ生体経路内における相互関係又は存在のような)タンパク質特性を推測するために使用され得るタンパク質相互作用に関する追加情報を提供する埋め込みの生成を可能にする。
【0010】
一方の知識グラフ入力は、例えば、タンパク質相互作用データのような2項のみの関係を有する有向ラベルグラフであってよく、他方の知識グラフ入力は、経路データベースのような3項関係を有する混合有向/一方向ラベルグラフであってよい。
【0011】
任意の適切な埋め込み方法が用いられてよい。したがって、グラフサンプラは、(任意の知られている方法を用いて)グラフをサンプリングし、頂点、ラベル、及びエッジの行列の形式での埋め込みの生成を可能にする。該埋め込みは、タンパク質のような生体エンティティの特性を推測するために使用される。
【0012】
本発明の実施形態では、2部グラフをサンプリングするステップは、セットの間のリンクに沿って可能なシーケンスを提供するために、2部グラフをトラバースするステップを含む。2部グラフを埋め込むステップは、特徴行列の各セル内の行列エントリを形成する共起スコアにより、シーケンスから頂点、ラベル、及びエッジの特徴行列を生成するステップを含んでよい。この場合、特徴行列は、共起スコアに基づき知識グラフ内の生体エンティティの特性を推測するために使用されてよい。
【0013】
(2以上の入力グラフの)ハイパーエッジ表現は、2部グラフへの変換の前に、同じ頂点と同じ名称を有する頂点を考慮することにより、結合されてよい。同じ頂点に対して代替名称が存在する場合、それらは、マッピングツールを用いてグループ化されてよい。
【0014】
各エッジ識別子は、以下の形式を有してよい。
【0015】
(e,S,T,U)l
ここで、eはユニークなエッジ識別子であり、S、Tはそれぞれ前記エッジにより有向接続されるソース及びターゲット頂点のセットであり、Uは前記エッジにより無向接続される頂点のセットであり、lはエッジラベルである。
【0016】
補助エッジAは、(元の入力グラフ内の)各頂点と該頂点が参加するエッジとの間に形成されてよく、2つの補助エッジを含む2つの頂点とエッジとの間の関係を有する。つまり、補助エッジ(これは、エッジが有向か否かに従い、有向又は無向であってよい)は、第1頂点及びエッジ、並びにエッジ及び第2頂点の間にある。
【0017】
補助エッジは、エッジのラベルとエッジ自体の間に形成されてよい。本例では、補助エッジは有向である必要はない。
【0018】
2部グラフのトラバースは、頂点又はエッジラベルと、ハイパーエッジ表現(補助エッジに沿って移動するが、シーケンス内に現れない)のエッジとの間で交互に現れるシーケンスを生成してよい。したがって、元のグラフのエッジ、エッジラベル、及び頂点は、2部グラフ内のエンティティ(頂点)になる。シーケンスは、任意の適切な最大長であってよい。
【0019】
前記特徴行列は、例えば、前記シーケンスの中の2つのエンティティの間のシーケンスにおける距離を考慮して共起スコアを生成し、共起スコアを各シーケンスの前記特徴行列に加算することにより入力される。
【0020】
この手順は、シーケンス内の最後ではない各点で開始するコンテキストウインドウを用いてよく、コンテキストシーケンスを与え、各開始点と前記コンテキストシーケンス内の後のエンティティとの間の前記共起スコアは、前記コンテキストシーケンス内の前記エンティティ間の距離を考慮して計算され、前記特徴行列に追加される。したがって、行列は、シーケンス毎に、累積的に構築されてよい。
【0021】
最後のステップは、特徴行列から情報を推測するステップである。考慮されるタンパク質の特性は、2つ以上のタンパク質の類似性の計算により、例えば(2つのタンパク質についての特徴行列の表の)コサイン類似性を用いて、推測されてよい。
【0022】
本発明の第2の態様の実施形態によると、生体エンティティの特性を推測する機器であって、メモリとプロセッサとを含み、前記プロセッサは、2部変換器と、グラフサンプラと、分布解析器と、を提供し、前記2部変換器は、頂点及びエッジの形式の、異なるアリティを有する、生体エンティティに関連する2以上の知識グラフを受信し、前記知識グラフのうちの少なくとも1つは有向であり、前記知識グラフのうちの少なくとも1つはラベル付きであり、前記知識グラフの各々を、ユニークなエッジ識別子のリストとして、ハイパーエッジ表現に変換し、前記ユニークなエッジ識別子の各々はソース及びターゲット頂点を有し、頂点は前記エッジにより無向接続され、ラベルは前記エッジに関連付けられ、前記ハイパーエッジ表現を、2部グラフに変換するステップであって、前記2部グラフは一方のセットの中に前記頂点及びラベルを有し、他方のセットの中に前記エッジを有し、前記頂点及びラベルは前記ハイパーエッジ表現のとおりに補助エッジAにより前記エッジにリンクされ、前記グラフサンプラは、前記2部グラフをサンプリングし、前記分布解析器は、前記2部グラフを、前記頂点、ラベル、及びエッジの特徴行列の中の行列エントリとして埋め込み、前記特徴行列をメモリに格納し、前記特徴行列を用いて、前記行列エントリに基づき結合知識グラフの中の生体エンティティの特性を推定する、機器が提供される。
【0023】
多くの実施形態で、生体エンティティはタンパク質であり、関係知識グラフは全て直接又は間接的にタンパク質に関連する。
【0024】
読者は、上述のグラフ技術が、他の情報に等しく適用されてよく、生体エンティティ及び情報に限定されないことを理解する。入力グラフは、任意の形式の情報を表してよい。元のグラフの頂点又はエッジにより表現される任意のものの特性が推測されてよい。一般的意味で、アイテム、及びそれらの間の関係は、グラフ内で表現されてよく、該アイテム及び関係は、任意の種類:生体的、化学的、物理的、概念的、数学的、財務的、等であってよい。
【0025】
より一般的な実施形態の態様によると、アイテムの特性を推測する、コンピュータにより実施される方法であって、頂点及びエッジの形式の、異なるアリティを有する、生体エンティティに関連する2以上の知識グラフを入力するステップであって、前記知識グラフのうちの少なくとも1つは有向であり、前記知識グラフのうちの少なくとも1つはラベル付きである、ステップと、前記知識グラフの各々を、ユニークなエッジ識別子のリストとして、ハイパーエッジ表現に変換するステップであって、前記ユニークなエッジ識別子の各々はソース及びターゲット頂点を有し、頂点は前記エッジにより無向接続され、ラベルは前記エッジに関連付けられる、ステップと、前記ハイパーエッジ表現を、2部グラフに変換するステップであって、前記2部グラフは一方のセットの中に前記頂点及びラベルを有し、他方のセットの中に前記エッジを有し、前記頂点及びラベルは前記ハイパーエッジ表現のとおりに補助エッジAにより前記エッジにリンクされる、ステップと、前記2部グラフをサンプリングして、前記2部グラフを、前記頂点、ラベル、及びエッジの特徴行列の中の行列エントリとして埋め込むステップと、前記特徴行列を用いて、前記行列エントリに基づき結合知識グラフの中のアイテムの特性を推定するステップと、を含む方法が提供される。
【0026】
さらに、更により一般的な実施形態の態様によると、アイテムの特性を推測する機器であって、メモリとプロセッサとを含み、前記プロセッサは、2部変換器と、グラフサンプラと、分布解析器と、を提供し、前記2部変換器は、頂点及びエッジの形式の、異なるアリティを有する、アイテムに関連する2以上の知識グラフを受信し、前記知識グラフのうちの少なくとも1つは有向であり、前記知識グラフのうちの少なくとも1つはラベル付きであり、前記知識グラフの各々を、ユニークなエッジ識別子のリストとして、ハイパーエッジ表現に変換し、前記ユニークなエッジ識別子の各々はソース及びターゲット頂点を有し、頂点は前記エッジにより無向接続され、ラベルは前記エッジに関連付けられ、前記ハイパーエッジ表現を、2部グラフに変換するステップであって、前記2部グラフは一方のセットの中に前記頂点及びラベルを有し、他方のセットの中に前記エッジを有し、前記頂点及びラベルは前記ハイパーエッジ表現のとおりに補助エッジAにより前記エッジにリンクされ、前記グラフサンプラは、前記2部グラフをサンプリングし、前記分布解析器は、前記2部グラフを、前記頂点、ラベル、及びエッジの特徴行列の中の行列エントリとして埋め込み、前記特徴行列をメモリに格納し、前記特徴行列を用いて、前記行列エントリに基づき結合知識グラフの中のアイテムの特性を推定する、機器が提供される。
【0027】
より一般的な実施形態の下位態様は、上述の生物学的実施形態の下位態様に対応する。
【0028】
また、本発明の単一グラフの実施形態は、単一グラフが入力され処理され得る状況に関連する。このような実施形態は、ハイパーエッジ表現及び2部グラフへの変更を含むグラフ処理の利点を保持し、必ずしも1つより多くのグラフを入力する必要がない。グラフは、タンパク質のような生体エンティティ、又は他のアイテムに関連してよい。
【0029】
この単一グラフの態様によると、アイテムの特性を推測する、コンピュータにより実施される方法であって、頂点及びエッジの形式のアイテムに関連する1つ以上の知識グラフを入力するステップと、前記1つ以上の知識グラフの各々を、ユニークなエッジ識別子のリストとして、1つ以上のハイパーエッジ表現に変換するステップであって、前記ユニークなエッジ識別子の各々はソース及びターゲット頂点(vertices)を有し、頂点は前記エッジにより無向接続され、ラベルは前記エッジに関連付けられる、ステップと、前記1つ以上のハイパーエッジ表現を、2部グラフに変換するステップであって、前記2部グラフは一方のセットの中に前記頂点及びラベルを有し、他方のセットの中に前記エッジを有し、前記頂点及びラベルは前記1つ以上のハイパーエッジ表現のとおりに補助エッジAにより前記エッジにリンクされる、ステップと、前記2部グラフをサンプリングして、前記2部グラフを、前記頂点、ラベル、及びエッジの特徴行列の中の行列エントリとして埋め込むステップと、前記特徴行列を用いて、前記行列エントリに基づき前記1つ以上の知識グラフの中のアイテムの特性を推定するステップと、を含む方法が提供される。
【0030】
さらに、更なる単一グラフの実施形態の態様によると、アイテムの特性を推測する機器であって、メモリとプロセッサとを含み、前記プロセッサは、2部変換器と、グラフサンプラと、分布解析器と、を提供し、前記2部変換器は、頂点及びエッジの形式のアイテムに関連する1つ以上の知識グラフを受信し、前記1つ以上の知識グラフを、ユニークなエッジ識別子のリストとして、1つ以上のハイパーエッジ表現に変換し、前記ユニークなエッジ識別子の各々はソース及びターゲット頂点を有し、頂点は前記エッジにより無向接続され、ラベルは前記エッジに関連付けられ、前記1つ以上のハイパーエッジ表現を、2部グラフに変換するステップであって、前記2部グラフは一方のセットの中に前記頂点及びラベルを有し、他方のセットの中に前記エッジを有し、前記頂点及びラベルは前記ハイパーエッジ表現のとおりに補助エッジAにより前記エッジにリンクされ、前記グラフサンプラは、前記2部グラフをサンプリングし、前記分布解析器は、前記2部グラフを、前記頂点、ラベル、及びエッジの特徴行列の中の行列エントリとして埋め込み、前記特徴行列をメモリに格納し、前記特徴行列を用いて、前記行列エントリに基づき前記1つ以上の知識グラフの中の生体エンティティの特性を推定する、機器が提供される。
【0031】
本発明の好適な実施形態による機器又はコンピュータプログラムは、方法の態様の任意の組合せを有してよい。同等に、上述の方法のうちの任意のものは、結合されてよい。更なる実施形態による方法又はコンピュータプログラムは、それらが処理及びメモリ容量を必要とする点で、コンピュータにより実施されるとして記載され得る。
【0032】
好適な実施形態による機器は、特定の機能を実行するよう構成され又は配置される、又は単に実行するとして記載される。この構成又は配置は、ハードウェア又はミドルウェア又は任意の他の適切なシステムの使用による。好適な実施形態では、構成又は配置は、ソフトウェアによる。機器は、グラフの処理において実行される異なる機能の間を区別するために、2部変換器、グラフサンプラ、及び分布解析器に分けられてよい。
【0033】
したがって、ある態様によると、少なくとも1つのコンピュータにロードされると、該コンピュータを、前述の機器定義のいずれか又はそれらの任意の組合せに従う機器になるよう構成する、プログラムが提供される。
【0034】
更なる態様によると、少なくとも1つのコンピュータにロードされると、該少なくとも1つのコンピュータを、前述の方法の定義のいずれか又はそれらの任意の組合せに従う方法のステップを実行させるよう構成する、プログラムが提供される。
【0035】
概して、コンピュータは、定められた機能を提供するよう構成される又は配置されるとして列挙された要素を有してよい。例えば、このコンピュータは、メモリ、処理、及び任意で知識グラフを受信するためにネットワークインタフェースを有してよい。
【0036】
本発明は、デジタル電子回路で、又はコンピュータハードウェア、ファームウェア、ソフトウェア又はそれらの組合せで実装されてよい。本発明は、例えば1又は複数のハードウェアモジュールによる実行のための若しくはその動作の制御のための、コンピュータプログラム又はコンピュータプログラム製品、つまり非一時的情報担体に例えば機械可読記憶媒体に有形に若しくは伝搬信号に具現化されたコンピュータプログラムとして実施され得る。
【0037】
コンピュータプログラムは、単独型プログラム、コンピュータプログラム部分又は1より多いコンピュータプログラムの形式であり、コンパイル済み若しくはインタープリット済み言語を含む任意の形式のプログラミング言語で記述されてよく、単独型プログラムとして又はモジュール、コンポーネント、サブルーチン若しくはデータ処理環境で使用するのに適切な他の単位を含む任意の形式で展開されてよい。コンピュータプログラムは、1つのモジュールで又は1箇所若しくは複数箇所に分散して置かれ通信ネットワークにより相互接続される複数のモジュールで実行されるよう配置されてよい。
【0038】
本発明の方法のステップは、入力データに対して作用し出力を生成することにより本発明の機能を実行するためにコンピュータプログラムを実行する1又は複数のプログラマブルプロセッサにより実行されてよい。本発明の装置は、プログラミングされたハードウェアとして実装されてよく、又は特定目的論理回路、例えばFPGA(field programmable gate array)又はASIC(application-specific integrated circuit)を含み得る。
【0039】
コンピュータプログラムの実行に適したプロセッサは、例えば、汎用及び特定目的プロセッサの両方、及び任意の種類のデジタルコンピュータの1又は複数のプロセッサを含む。概して、プロセッサは、命令及びデータを読み出し専用メモリ又はランダムアクセスメモリ又はそれらの両方から受信する。コンピュータの基本要素は、命令及びデータを格納する1又は複数のメモリ装置に結合され命令を実行するプロセッサである。
【0040】
本発明は、特定の実施形態の観点から記載される。他の実施形態も添付の請求の範囲に包含される。例えば、本発明のステップは、異なる順序で実行されてよく、依然として所望の結果を達成する。
【0041】
本発明の要素は、用語「プロセッサ」、「メモリ等を用いて記載される。当業者は、このような機能的用語及びそれらの等価物が、空間的に離れているが定められた機能を提供するために結合するシステムの部分を表し得ることを理解する。同様に、システムの同じ物理的部分は、2以上の定められた機能を提供してよい。例えば、別個に定められた機能は、適切な場合には同じメモリ及び/又はプロセッサを用いて実装されてよい。
【0042】
本発明の好適な特徴は、単なる例として添付の図面を参照して以下に説明される。
【図面の簡単な説明】
【0043】
【
図1】本発明の実施形態の概略フローチャートである。
【
図3】入力及び幾つかの出力を有する方法の概略である。
【
図5】マージのための標準グラフ及び複数グラフの図である。
【
図7】経路Pgを有する標準グラフである(直接且つ2部表現)。
【
図8】経路Phを有するハイパーグラフである(2部表現)。
【
図9】特定の実施形態の概略フローチャートである。
【
図10】グラフ及びリスト形式の標準グラフである。
【
図11】グラフ及びリスト形式のハイパーグラフである。
【
図12】2部グラフへの変換のフローチャートである。
【
図13】グラフ及びリスト形式のハイパーグラフである。
【
図14】グラフ及びリスト形式の、
図13のハイパーグラフの2部バージョンである。
【
図15】グラフサンプリングのフローチャートである。
【
図16】
図13及び14のグラフから生成された全部のシーケンスの表現である。
【
図17】グラフ及びリスト形式の、エッジラベルCoを有しない
図13のハイパーグラフである。
【
図18】グラフ及びリスト形式の、
図17のハイパーグラフの2部バージョンである。
【
図19】
図16及び17のグラフから生成された全部のシーケンスの表現である。
【
図20】グラフ及びリスト形式の、方向を有しない
図13のハイパーグラフである。
【
図21】グラフ及びリスト形式の、
図20のハイパーグラフの2部バージョンである。
【
図22A】
図20及び21のグラフから生成された幾つかのシーケンスの表現である。
【
図22B】
図20及び21のグラフから生成された幾つかのシーケンスの表現である。
【
図23A】
図20及び21のグラフから生成された幾つかのシーケンスの表現である。
【
図23B】
図20及び21のグラフから生成された幾つかのシーケンスの表現である。
【
図24A】
図20及び21のグラフから生成された残りのシーケンスの表現である。
【
図24B】
図20及び21のグラフから生成された残りのシーケンスの表現である。
【
図27】本発明の実施形態による、第1シーケンスが埋め込まれた後の特徴行列である。
【
図28】第2シーケンスが埋め込まれた後の特徴行列である。
【
図29】第3シーケンスが埋め込まれた後の特徴行列である。
【
図31】従来技術に対応する第2の例からの特徴行列である。
【
図32】従来技術に対応する第3の例からの特徴行列である。
【
図33】本発明の実施形態と共に使用するための機器のブロック図である。
【発明を実施するための形態】
【0044】
近年、2つより多くのノード及び該ノード間の混合方向性を含み得る関係を有する知識グラフが利用可能になっている(例は、経路知識グラフ又は来歴(provenance)を有する共起ネットワークである)。従来技術では、任意のアリティ及び方向性のステートメントを有するこれらの知識グラフを処理するためのロバストな方法が欠如している。
【0045】
このような構造のための埋め込みを生成する知られている方法は存在しない。理想的な埋め込み方法は、有向関係と無向関係との間を区別し、1つのハイパーエッジの中の有向接続及び無向接続の両方をサポートすべきである。これは、上述のデータセットにおけるコンテキスト依存有向2項関係のモデル化のために、特に重要である。ここで、コンテキスト独立変数(argument)(例えば、主として関係により接続される、ノードが他のノードに接続できる経路)は、標準的に、主独立変数(ノード)に関して有意義な方向性を有しない。
【0046】
従来技術は、混合アリティ及び方向性のグラフを効率的に解決できない。実施形態は、この問題に対する解決策:他の分野から知られている埋め込み計算技術(例えば、Jeffrey Pennington, Richard Socher,及びChristopher D Manning、「Glove: Global Vectors for Word Representation」、EMNLP. Vol. 14. 2014, pp.1532-43、及びTomas Mikolov et al. 「Distributed representations of words and phrases and their compositionality」、Advances in neural information processing systems、2013, pp.3111-3119)により直ちに処理され得る、様々な複雑性レベルの知識グラフの構造(つまりシーケンス及び特徴行列)への一様な変換のための技術、を提示する。
【0047】
(知識)グラフ埋め込みの既存の方法は、Qiong Yang, Mo Chen,及びXiaoou Tang、「Directed graph embedding」、Proceedings of IJCAI’07、IJCAI, 2007,Node2Vec (Aditya Grover and Jure Leskovec、「Node2Vec: Scalable Feature Learning for Networks」、Proceedings of the 22Nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining、KDD’16、San Francisco, California, USA: ACM, 2016, pp. 855-864、ISBN:978-1-4503-4232-2、DOI:10.1145/2939672.2939754、URL:http://doi.acm.org/10.1145/2939672.2939754)又はRDF2vec (Petar Ristoski and Heiko Paulheim、「RDF2vec: RDF graph embeddings for data mining」、International Semantic Web Conference、Springer. 2016, pp. 498-514)、純粋なグラフ又はラベル付けされた関係を有する複数グラフに焦点を当てている(つまり、RDFにおける主語-述語-目的語ステートメント)、等である。それらは、2方向及び3方向の両方又は更に多くのアリティ関係を表すステートメントを有する知識グラフに立ち向かうことができない。このような場合が多くの領域において共通であるにも拘わらずである(例えば、生命科学では、関連データは、タンパク質相互作用グラフ及び経路ハイパーグラフのような異なるアリティの知識ベースに由来してよい)。
【0048】
非常に最近の方法(Jianfeng Wen etal. 「On the Representation and Embedding of Knowledge Bases Beyond Binary Relations」、Proceedings of IJCAI’16、IJCAI/AAAI Press, 2016, pp.1300-1307)は、任意のアリティの関係を有する知識グラフの埋め込みを計算できるが、全ての可能なn-ary関係のうちの部分集合のみであるFreebaseデータセット内のn-ary関係のセマンティクスのみを対象としているので、限られた表現しか有しない。本発明に関連するJianfeng et alの他の制限は、関係の方向性に関する。これは、基本的には、学習段階で、k方向関係を無方向として扱う。しかしながら、理想的な方法は、有向関係と無向関係との間を区別し、1つのハイパーエッジの中の有向接続及び無向接続の両方をサポートすべきである。
【0049】
この文脈における1つの課題は、ハイパーアリティ構造(例えば、型付き(typed)複数エッジを有するグラフ又はハイパーグラフ)の複雑性である。それらの実装は、表現能力と計算効率とのバランスを慎重にとらなければならない。混合方向のエッジが表現され及び処理される場合、必要なソリューションの技術的複雑性は一層増す。目下、標準的アプローチが存在しないので、数学的基礎は慎重に定められなければならない。また、これらの基礎の技術的実装は、(標準グラフと比べて)素直な自明ではない方法で表現オーバヘッドを処理しなければならない。
【0050】
本発明の実施形態へ、(2項より多くの)より高いアリティ(arity)及び混合方向性知識グラフを以下により一様な方法で表し得る。
【0051】
(a)全ての(任意の)入力知識グラフの、ハイパーグラフ表現への変換。ハイパーグラフ表現は、1より多くの任意の数のノードの間の有向及び無向加重ラベル付けエッジの両方を有してよい。これは、扱うことのある任意の種類の知識グラフに対応し得る最も一般的なグラフ構造である。これは、異なるハイパーエッジ候補も、したがって不均一知識グラフもサポートし、技術的問題の主要点を解決する。
【0052】
(b)部分が頂点及びハイパーエッジにそれぞれ対応する2部グラフのようなハイパーグラフの表現。本発明の実施形態は、共通の明確な基礎構造を用いて異種知識グラフの一様なサンプリングを可能にする表現の主目的を満たすコンピュータプログラムの形式でこの構造の効率的実装を可能にする原理のセットの定義を含み得る。
【0053】
したがって、本発明の実施形態は以下のための方法を提供する。
【0054】
(a)更に詳しく後述するように、トラバース(例えば、横型検索、ランダムウォーク、又はA*検索)を用いる、知識グラフの2部/ハイパーグラフ表現のサンプリング。2部表現は、様々なグラフ様構造(標準グラフ、複数グラフ、又はハイパーグラフ、詳細については後の正式な定義を参照する)に対するトラバースの一様な実装を可能にする。これは、2部表現について定められた特定の原理により可能になり及びそれに依存する。これらの原理は、2部表現に対して実行されるトラバースが元の知識グラフ表現における同じ特性を有する有効なトラバースに対応することを保証する。
【0055】
(b)トラバースからの、頂点及びエッジシーケンスの生成。これは、エンティティ(頂点)及び関係(エッジ)表現がサンプルの中で区別されることを保証する。
【0056】
最後に、本発明の実施形態は、知識グラフの中のエンティティ及び関係のベクトル表現を計算する。これを行うために、シーケンスの中の分布パターンが以下により分析されてよい。
【0057】
a.コンテキストウインドウを被サンプリングシーケンスに渡りスライドし、局所的エンティティ-エンティティ、エンティティ関係、及び関係-関係の共起スコアをウインドウ内の距離に基づき計算する。
【0058】
b.グローバル共起スコアを更新する。
【0059】
c.任意的な頻度に基づく特徴選択。
【0060】
これらのステップは、知識グラフ内の全てのエンティティ及び関係の分布特徴をエンコードする行列を生成する。複数のこのような特徴行列は、サンプリングのために使用されるトラバース方針を単に調整することにより、同じ知識グラフから生成され得る。中間シーケンスセットは、word2vec (Tomas Mikolov etal. 「Distributed representations of words and phrases and their compositionality」、Advances in neural information processing systems. 2013, pp.3111-3119)のようなアルゴリズムにより処理されてよい。分布特徴行列は、埋め込み自体として取り扱われ、又はGloVe (Jeffrey Pennington, Richard Socher, and Christopher D Manning、「Glove: Global Vectors for Word Representation」、EMNLP. Vol. 14. 2014, pp.1532-43)のようなより高度な埋め込み学習モデルにより直接的に処理されてよい。この柔軟性は、究極の効果である本発明の実施形態にとって有用である。つまり、異なる既存の埋め込み技術を、様々なアリティ及び混合方向性を有する知識グラフ構造に容易に調整する能力。
【0061】
計算した特徴行列は、元の知識グラフの複雑な構造がグラフサンプリングの良く理解されたメカニズムに基づくので、それらを明確に表現する。エンティティ及び関係のセマンティクスは、サンプリングプロセスで当然に保存される。行列は、ベクトル空間表現を利用する従来の又は新たに開発される技術を用いて、エンティティ及び/又は関係埋め込みを生成するために直接使用されてよい。
【0062】
図1は、本発明の実施形態の概略フローチャートである。ステップS10は、異なるアリティを有する、頂点及びエッジの形式で、タンパク質に関する2以上の知識グラフを入力する。知識グラフのうちの少なくとも1つは有向であり、知識グラフのうちの少なくとも1つはラベル付きである。1又は複数の有向グラフは、部分的に有向であってよい(幾つかのエッジのみが方向を有する)。同じグラフが有向且つラベル付きの両方であってよい。グラフは、頂点及び関連エッジのリストの形式のような、任意の機械可読形式で入力されてよい。実施形態は、CSV入力、又は代替としてRDFフォーマットのトリプル若しくはクワッド、又は構造化データを表現するフォーマット(GraphMLのような)を使用してよい。
【0063】
ステップS12は、知識グラフの各々をハイパーエッジ表現に変換する。これは、ユニークなエッジ識別子のリストであってよい。ユニークなエッジ識別子の各々は、ソース及びターゲット頂点(vertices)を有し、任意の頂点はエッジにより無方向接続され、任意のラベル若しくは重みはエッジに関連付けられる。ここで、本表現では、各グラフは、リスト内の多くのユニークなエッジ識別子で構成されてよい。
【0064】
ステップS14は、ハイパーエッジ表現を、1つのセットの中のエンティティとして頂点及びラベルを有し且つ抽象的補助エッジAにより他のセットの中のエンティティとしてエッジにリンクされる2部グラフに変換する。各抽象的補助エッジは、頂点又はラベルを、ハイパーエッジ表現に加えられる/適用されるグラフのエッジにリンクする。したがって、2部グラフでは(及び以下の処理では)、各エッジ及びラベル、並びに各頂点は、エッジAにより加えられる、グラフ内のエンティティである。
【0065】
ハイパーエッジ表現は、変換前に1つに結合されてよい。代替として、各ハイパーエッジ表現は、2部グラフ及び後に加えられる2部グラフへと生成されてよい。いずれの場合にも、結合のために、同じ名称を有するノード(又はマッピングツールを用いて同じ名称を有すると考えられるノード)は、同じノードと見なされる。
【0066】
ステップS16は、セット間のリンクに沿って可能なシーケンスを提供するために、2部グラフをトラバースする。例えば、1つの方針は、グラフ内のパスを見付けてよい。この方針は、各ノードで順に(又はランダムノードで)開始し、指定長又はパス全長の2部グラフに沿って可能なパスを探索してよい。様々な知られているメカニズムが、縦型、横型、又は最良優先探索のように、グラフ全体を探索するために使用されてよい。最終結果では、及び重み付けパラメータが存在しないとき、頂点からの2つ以上のエッジが存在する場合、結果として生じたパスは、これらのエッジの間を均等に分けられるべきである。パスは、シーケンスとして使用される。
【0067】
ステップS18は、頂点、ラベル、及びエッジの特徴行列を生成する。特徴行列の各セルには、共起スコアのようなスコアがある。この特徴行列は、ゼロに初期化される全てのエンティティの正方行列であってよい。これは、シーケンスを用いて投入されてよい。例えば、シーケンスから導出された値は、例えば少なくとも部分的にシーケンス内のエンティティ(元の入力グラフからのノード及びエッジ)の近接性に基づき、シーケンス毎に行列に追加されてよい。コンテキストウインドウ(パス長より短い)は、(パスは2つのエンティティを最小値として必要とするので)シーケンス内の最後ではない各点/エンティティで開始して、コンテキストシーケンスを与える。各開始点とコンテキストシーケンス内の後続のエンティティとの間の共起スコアが、次に、コンテキストシーケンス内のエンティティ間の距離を考慮して、計算される。特徴行列は、各シーケンスの共起スコアが追加されるとき、生成される。
【0068】
最後に、ステップS20は、特徴行列を用いて、(共起)スコアに基づき、タンパク質(又は他の生物医学的エンティティ/グラフアイテム)特性又は知識グラフ内のシーケンスを推測する。例えば、(入力グラフの結合の中の全てのノード及び頂点に基づき計算された)2つのタンパク質のコサイン類似性が推測されてよい。
【0069】
図2は、実行される上述の機能のための計算ユニット:2部変換器10、グラフサンプラ20、及び分布解析器30、を示す。これらは、全てプロセッサ及びメモリブロックに示される。2部変換器は、異なるアリティを有する、頂点及びエッジの形式で、タンパク質に関する2以上の知識グラフを(例えば、知識グラフデータベース又はDB40から)受信する。知識グラフのうちの少なくとも1つは有向であり、知識グラフのうちの少なくとも1つはラベル付きである。入力は、任意の適切な形式であってよい。2部変換器は、先ず、知識グラフの各々をハイパーエッジ表現に変換する。これは、ユニークなエッジ識別子のリストであってよい。ユニークなエッジ識別子の各々は、ソース及びターゲット頂点(vertices)を有し、任意の頂点はエッジにより無方向接続され、任意のラベルはエッジに関連付けられる。ハイパーエッジ表現から、一方のセットの中に頂点及びラベルを有し、他方のセットの中にエッジを有する、2部グラフへの変換がある。頂点及びラベルは、補助エッジAにより、ハイパーエッジ表現毎にエッジにリンクされる。この2部グラフは、2部グラフDB50に、及び/又はローカルメモリに保存されてよい。
【0070】
グラフサンプラ20は、更に詳細に後述するように、2部グラフをトラバースして、セット間のリンクに沿って可能なシーケンスを提供する。グラフを探索するために充分なシーケンスが生成される。生成されたシーケンスは、シーケンスDB60に、及び/又はローカルメモリに保存されてよい。
【0071】
分布解析器30は、シーケンスから、頂点、ラベル、及びエッジの特徴行列を生成し、ここで特徴行列の各セルには共起スコアがあり、並びに、特徴行列を用いて、共起スコアに基づき知識グラフ内のタンパク質の特性を推測する。共起行列及び更なる結果は、ローカルメモリに、及び共起行列DB70にも格納されてよい。
【0072】
一実施形態によるシステム全体及びその入力は、
図3に示される。2部変換器10は、(様々なアリティ及び方向性の)知識グラフを取り込み、対応する2部表現を出力する。これは、次に、グラフサンプラ20によりトラバースに基づくサンプリングアルゴリズムを実行するために使用されてよい。このステップの結果は、知識グラフ内のエンティティ及び関係のシーケンスである。これらは、外部ツールにより埋め込みを生成するために使用され、又は内部分布解析モジュール30に渡されてよい。このコンポーネントは、知識グラフ内のエンティティ及び関係のベクトル空間表現(つまり分布特徴行列)を計算する。これは、基本埋め込みとして使用され、又は更に外部埋め込みツールにより処理されてよい。同じモジュールが特性を推測するために使用されてよい。
【0073】
特定の高レベルモジュールの詳細は、以下の章で記載される。
【0074】
<2部変換>
本章は、先ず、拡張可能表現のために使用されるコア構造を紹介し、次に選択されたグラフ構造を普遍表現に変換するためのルールを記載する。最後に、選択されたグラフ構造及びそれらの変換された表現の説明のための例が提供される。
【0075】
<グラフ様構造の2部表現>
グラフ構造の表現のための基礎(特に、標準グラフ、複数グラフ、及びハイパーグラフ)として、発明者等は以下のように定義される2部グラフを選択した。
(V,E,A)
ここで、V、Eは、それぞれ、2部グラフにより表現されるグラフ構造内の頂点及び(ハイパー)エッジに対応するノード部分である。
【0076】
A⊆V×O×Eは、V、E部分の中のノード間の有向又は無向補助エッジのセットである。ここで、O={←,→,<->}は、可能なエッジ方位(それぞれ、VからEへ、EからVへ、又は無方向)のセットである。Aの中のエッジは、実際のエッジ又は表現されているグラフ構造内のハイパーエッジをエミュレートする。
【0077】
基本2部表現の表現力を向上するために、2部グラフノード部分に関連付けられた幾つかのマッピングは、以下のように定義されてよい。
【数1】
ここで、Lv、Leは、それぞれ、頂点及びエッジラベルのセットである。マッピングは、主に、特定頂点及びエッジノードを、汎用の可能なラベル付けされ重み付けされたグラフ構造の適切な表現のために必要な種類及び重みに関連付けることを意味する。特に断りのない場合、ラベルの以下のデフォルト設定が定義される。
【数2】
ここで、Ov、Oeは、それぞれ、実数集合からの頂点及びエッジノードのデフォルト単一ラベル(1つの値のみ)である。2部表現は、異なる表現及び複雑性レベルの様々なグラフ構造の均一な表現を可能にする。しかしながら、2部表現を介して実行される標準グラフ演算の空間及び時間的複雑性を増大するという点で、これに対する対価がある。この増大は、概して線形であり、したがって、別の複雑性クラスへのシフトを意味しないが、線形因子の増大さえも、大規模データについての多くのアプリケーションでは困難な場合がある。したがって、2部表現の以下の特定の最適化が導入されてよい。
・全てのエンティティ及び関係ラベルの整数符号化。その結果、2部グラフの頂点は、より効率的に格納できる(つまり、可変サイズのストリング型ではなく、固定サイズの整数を用いる)。
・疎ブール(sparse Boolean)行列を用いるA内のエッジの表現。これは、最適化行列演算により、後続、先行、及び隣接ノードの効率的検索を可能にする。
【0078】
この分野における主に関心のある3種類のグラフ構造は、標準グラフ、エッジラベル付き複数グラフ、及びハイパーグラフである。これらの各々について、それらの2部表現に対する特定の制限が、以下の段落で概説されるように課され得る。
【0079】
標準グラフ。
(I)全てのe∈Eについて、d(e)は2である。ここで、d(u)は、2部表現の中のノードuの次数である。表現されているグラフが有向性である場合、全てのe∈Eについてdi(e)=do(e)=1である。ここで、di(e)及びdo(e)は、それぞれ、2部表現の中のノードuの入次数(in-degree)及び出次数(out-degree)である(ハイパーエッジは無い;「入り込む(sink)」又は「湧き出る(spring)」ノードは無い)。
(II)(vi,ea),(vj,ea)∈A且つ(vi,eb),(vj,eb)∈Aの場合、ea=ebである(複数エッジは無い)。
(III)Aは集合である(ループは無い)。
【0080】
エッジラベル付け複数グラフ。
(I)全てのe∈Eについて、d(e)は2である。表現されているグラフが有向である場合、全てのe∈Eについて、di(e)=do(e)=1である(ハイパーエッジは無い;「入り込む(sink)」又は「湧き出る(spring)」エッジは無い)。
(II)Aは複数集合であり得る(ループが可能である)。
(III)(vi,ea),(vj,ea)∈A且つ(vi,eb),(vj,eb)∈Aの場合、λe(ea)≠λe(eb)である(同じラベルを共有する複数エッジは無い)。
【0081】
ハイパーグラフ。
(I)全てのe∈Eについて、d(e)>1である。表現されているグラフが有向関係を有する場合、全てのe∈Eについて、di(e)>0,do(e)>0である(「入り込む(sink)」又は「湧き出る(spring)」ハイパーエッジは無い)。
(II)Aは複数集合であり得る(ループが可能である)。
(III)(vi,ea),(vj,ea)∈A且つ(vi,eb),(vj,eb)∈Aの場合、λe(ea)≠λe(eb)である(同じラベルを共有するハイパーエッジは無い)。
【0082】
有向ループはAが集合である場合でも表現できるので、複数グラフ及びハイパーグラフの複数集合の可能性は、無向関係についてのみ意味を成すことに留意する。頂点ノードラベルの解釈はグラフ構造を処理するアルゴリズムに任されるので、これらのラベルとしてのλvラベルマッピングには特定の制限は課されない。
【0083】
<グラフ様構造の2部表現への変換>
変換のための極めて重要な手段は、タプルとして定義される汎用(ハイパー)エッジである。(e,S,T,U)
ここで、eはユニークなエッジ識別子であり、S、Tはそれぞれ、エッジにより有向接続されるソース及びターゲットノードのセットである。Uは、エッジにより無向接続されるノードのセットである。S、T、Uセットは、以下の条件を満たす:
(I)|S∪T∪U|>1(単項又は空配列(nullary)関係は無い)、
(II)
【数3】
(ユニークな頂点の役割)、
(III)
【数4】
(ハイパーグラフのみが混合有向性であり得る)。
【0084】
この定義を説明するために、標準グラフ内のノードa、bを接続する無向エッジeを検討する。このようなエッジは以下のように表現される。
【数5】
aからbへと向かう有向エッジは、以下のように表現され得る。
【数6】
ハイパーエッジは、当然に(_,S,T,U)と表現でき、ここで|S∪T∪U|>2である。重み付けされた型付き(ラベル付けされた)エッジは、対応するマッピングをエッジセット及び/又はユニークなエッジ識別子に導入することにより表現できる。
【0085】
元のグラフ構造表現が頂点Vバー及びエッジEバーで構成されると仮定すると、対応する2部表現(V,E,A)は以下のように構成される。
・VはVバーに等しい。
・全ての(ハイパー)エッジ(e,S,T,U)∈Eバーについて、ノードe∈Eが存在する。
・全ての(ハイパー)エッジ(e,S,T,U)∈Eバーは、A内に以下のエッジに対応する:
【数7】
・元の表現に関連付けられた任意のマッピング(又はラベル/重み)がある場合、それらは相応してλ
v、λ
e、λ
wマッピングに保存される。
【0086】
<例>
図4は、標準無向グラフ、有向複数グラフ、及び混合重み付けハイパーグラフを符号化するステートメントセット、並びに対応する2部表現の単純な例を示す。参考のため、グラフ及び複数グラフの直接グラフ表現が示される。より高次のアリティ関係の描写が比較的複雑なので、例を簡潔且つ分かり易く保つために、ハイパーグラフの直接グラフ表現はここでは与えられない。
【0087】
ステートメントは、グラフ構造の中の関係(つまり、エッジ、複数エッジ、又はハイパーエッジ)に対応し、以前に紹介した表記で表現される。ステートメントは、任意的に、関係種類及び/又は実数重みに関連付けられてよい。これらは、適用可能な対応するエッジ表現のサブスクリプト内で与えられる。
【0088】
例1のステートメントは、無ラベル無向標準グラフに対応する。V、Eノードは、それぞれ{a,b,c,d}及び{e,f,g,h}である。A内のエッジは、E内の1つのノードを通じてV内の2つのノードを接続する2ホップパスにより、V内のノード間にあるエッジをエミュレートする。例えば、元のグラフの中の(a,b)エッジは、(a,e,b)パスに対応する。例2は、2項関係のグラフである、有向複数グラフを表す。ここで、関係はそれらの種類によりラベル付けされ、より多くの異なる種類の関係が同じ2ノード間に存在し得る。前の例と同様に、元の構造の中のエッジは、E内の1つのノードを通じてV内の2つのノードを接続する2ホップパスによりエミュレートされる。違いは、A内のエッジがここでは有向性であり、元の関係の方向の表現を可能にすることである。さらに、Eノードを対応する述語(predicate)ラベル、つまり関係種類に関連付けるλeラベルも存在する。
【0089】
例3は、最も表現力のあるグラフ構造、つまりハイパーグラフを表す。ここで、2より多くのノードが、重み付きエッジにより接続されてよく、ノード及びエッジ種類のラベルの両方が存在する。λe,λwラベルは、2部表現の中でEノード内のエッジマッピングペアにより反映される。例えば、ステートメントeが述語(ラベル/種類)r及び重み0.5を有するという」事実は、対応するEノードラベルの中の(r,0.5)ペアにより反映される。関係の1次独立変数(P)及びコンテキスト独立変数(C)の間を区別するために、ノードも同様に本例でラベル付けされる。1次独立変数は、例えば、文書内の関係において生じる、タンパク質、遺伝子、化学物質、等であってよい。文書自体は、コンテキスト独立変数であってよい。2部表現の方向性が混合される。これは、1次及びコンテキスト独立変数の意味の間の差をモデル化するため(コンテキスト独立変数のような文書は、1次独立変数に対して任意の特定の方向性にほとんど関連付けられない)、並びに、同じモデル内で有向及び無向関係の両方を可能にするためである。
【0090】
異なるアリティ及びエッジの混合方向性を有するグラフ構造をマージすることに関して、
図5に示される2つの構造が仮定される。一方は標準無向グラフであり、他方は種類関係を有する2項複数グラフである。標準グラフ及び複数グラフのハイパーエッジ表現はそれぞれ以下であると仮定する。
【数8】
及び
【数9】
次に、これらの構造のマージ及びその対応するハイパーグラフ表現が、
図6のように示される。
【0091】
<一様なサンプリング>
本章は、先ず、元のグラフ構造の中のパスと2部表現との間の対応を記載する。これは、次に、構造をサンプリングするために使用され得るトラバースを定義するために使用される。サンプリングの例が次に与えられる。
【0092】
<パス(path)>
検討されるグラフ構造のいずれかにおいて(つまり、標準グラフ、複数グラフ、及びハイパーグラフ)、パスは、Adrian Bondy and Uppaluri SR Murty. Graph Theory (Graduate Texts in Mathematics 244) Springer, 2008において紹介された表記を用いて定義されてよい。パスは、2つのノードがシーケンス内で連続する場合にそれらが隣接するように、ノードの線形シーケンスの中で順序付けられてよい単純なグラフ(ループ又は複数エッジを有しない2項グラフ)である。
【0093】
したがって、長さkの(つまりk個のノードを有する)パスは、シーケンスとして表現され得る。
【数10】
ここで、vi,ej,i∈{1,...,k},j∈{1,...,k-1}は、対応するグラフ構造の中のノード及び(ハイパー)エッジである。明らかに、エッジezは、vx,vyがそれぞれezエッジのソース及びターゲットノードである場合且つその場合にのみ、ノードvxとvyとの間のパスシーケンスの中に現れてよい。
【0094】
元のグラフ構造表現の中の長さkの全てのパスは、2部表現の中の長さ2k-1のパスに対応する。以下のパス
【数11】
の2部表現は、以下のシーケンスである:
【数12】
ここで、x∈{1,...,k},y∈{1,...,k-1},z∈{1,...,2k-1}について、vx∈A,ey∈E,az∈Aである。パスシーケンス内の任意のサブパスvi,aj,ek,al,vmについて、以下が満たされなければならない。
aj=(vi,o1,ek),al=(vm,o2,ek),ここで、o1∈{→,<->}且つo2∈{←,<->}
元の構造の中のパスとそれらの2部表現との間の直接対応により、参照は、特に断りのない限り、V,E要素からのみ構成されるより単純な表記に向かう。しかしながら、ノードの特性の観点から、特に断りのない限り、私達は2部表現を参照する。
【0095】
次の段落は、グラフ構造をそれらの2部表現を用いて一様にトラバースするための幾つかの可能なオプションを概説する。提案される特別な2部表現を用いるランダムウォークの実装は正式な仕様を必要とするので、ランダムウォークに特別な注意が払われる。
【0096】
検索に基づくトラバース。縦型、横型、又は最良優先探索に基づくトラバースは、全て、2部表現と独立である特定の発見的問題解決(heuristic)を用いるノード間の遷移に基づく。しかしながら、遷移自体は、以下の方法で影響される。グラフ構造の中の、ノードuからノードvへのエッジeを介する遷移(u,e,v)は、対応する2部表現の中の遷移(u,au,e,e,ae,v,v)に対応する。
【0097】
ここで、au,e、ae,vは、u、vエンティティ及びe関係に対応する2部ノードを接続する補助エッジである。検索に基づくトラバースにより生成されたシーケンスは、検索から生じるパスの隣接サブパスとして直接取得されてよい。
【0098】
ランダムウォーク。ランダムウォークは、グラフデータをサンプリングするための効率的且つ普遍的に適用可能なトラバースに基づく方法として確認されている(Jure Leskovec and Christos Faloutsos、「Sampling from large graphs」、Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and datamining. ACM. 2006, pp.631-636を参照)。検討されるグラフ構造のいずれかにおけるランダムウォークは、好都合なことに、対応する2部表現の中で定義され得る。ランダムウォークは、パス(場合によっては無限)として定義される。該パス内では、シーケンス内の遷移が、現在ノードの特性及び(2部表現内の)それに関連付けられた出エッジに基づき、ランダムに決定される。
【0099】
頂点ノードvxからvx+1へのエッジノードexを介する単一の遷移(vx,ex,vx+1)を検討する。この遷移の確率p[(vx,ex,vx+1)]は、以下の2つのイベントの同時確率である。
1.頂点ノードvxからエッジノードexへの確率p(ex|vx)。
2.エッジノードexから頂点ノードvx+1への確率p(vx+1|ex)。
これら2つのイベントは独立なので、遷移確率はp[(vx,ex,vx+1)]=p(ex|vx)p(vx+1|ex)である。
【0100】
p(ex|vx)確率は、以下の通りである。
【数13】
ここで、
【数14】
はvxに関する出エッジノードの集合である。p(vx+1|ex)確率は以下の場合ゼロである。
【数15】
【数16】
の場合、p(vx+1|ex)確率は以下の通りである。
【数17】
つまり、遷移の開始ノードを除いて、エッジノードexの出次数に比例する。したがって、同時遷移確率は、次の通りである。
【数18】
ランダムウォークトラバースにより生成されたシーケンスは、ランダムウォークの隣接サブパスとして直接取得されてよい。
【0101】
<例>
パス及びトラバースの考えを説明するために、
図4の例#1及び#3及びランダムウォークによるトラバースを取り上げる(おそらく、前の段落で検討された可能性のうち最も自明でないものである)。例#1は、
図7に与えられる直接且つ2部グラフ表現による標準グラフGを表す。
【0102】
グラフG内のパスは例えばシーケンスPg=(b,g,c,f,a,h,d)である。
【0103】
W(u,k,G)は、グラフGのノードuで開始する長さkのランダムウォークであるとする。G内のノードbで開始する長さ4のランダムウォークがパスPgと等価である確率p[Pg=W(b,4,G)]は、以下の通りである。
【数19】
つまり、bで開始した後にランダムにP
gを生成する遷移の確率の積である。定義されたエッジ重みがないので、デフォルト重み1が使用され、したがって、遷移確率はパスに沿った(エッジ)ノードの次数に事実上依存することに留意する。
【0104】
図4の例#3は、
図8に与えられる2部グラフ表現により表現されたハイパーグラフHを表す。
【0105】
H内のパスの一例は、Ph=(a,f,D1,e,b)である。
【0106】
H内のノードaで開始する長さ3のランダムウォークがパスP
hと等価である確率p[Ph=W(a,3,H)]は、以下の通りである。
【数20】
上述の例で生成された全てのランダムウォークは、対応するグラフ構造のサンプルシーケンスとして直接使用されてよい。
【0107】
<分布ベクトル化>
本章は、グラフ構造をサンプリングすることにより生成されたシーケンスが、エンティティ及び関係の分布特徴ベクトルを構成するためにどのように使用され得るかを記載する。サンプルの例が次に与えられる。
【0108】
<シーケンスからベクトルへ>
ノードV及び(ハイパー)エッジEを有するグラフ構造Gに対応する、|E|+|V|の行及び列を有する空の(つまり、ゼロの)特徴行列Fを仮定する。行s∈E∪V及び列s'∈E∪Vに対応する要素を、F(s,s')として示す。
【0109】
各シーケンス内の分布パターンは以下の形式である。
【数21】
これはグラフ構造G(長さsは2k-1である)からサンプリングされ、次に、以下の通り特徴行列Fを更新するために使用される。
・局所的共起重みマッピング
【数22】
を初期化して、鍵値全てについてゼロにする。
・サイズcの各コンテキストウインドウについて、以下の開始位置s
i∈{s
1,s
2,...,s
2k-2}に渡り完全に繰り返す。
【0110】
シーケンスs内で、以下を行う:
-局所的な共起重みが計算される軸(pivot)としてs
iを用いる。
-各j∈{i+1,i+2,...,max(c,2k-1)}について、局所的共起を以下のように更新する:
+j-i≦αの場合、w
cooc(s
i,s
j)←w
cooc(s
i,s
j)+1;
+その他の場合、w
cooc(s
i,s
j)←w
cooc(s
i,s
j)+(j-i-α+1)
-β
各s、s'∈E∪Vついて、特徴行列Fを以下のように更新する:
【数23】
本処理の結果は、サンプリングされたシーケンス内の他のエンティティ及び関係との共起を反映する重みのベクトルとして、各エンティティ及び関係を符号化する対称正方行列である。共起重みが計算される方法は、3つのパラメータにより影響されてよい。
・c:コンテキストウインドウサイズを定めるパラメータであり、非ゼロ共起重みについて、一度にどれだけ多くの連続要素が考慮されるかを定める。これは、自然言語テキストについての共起計算における自然な文の境界の類似体として理解され得る。
・α:直接の近隣を定めるパラメータである。つまり、要素が非常に密接に関連していると考えられる距離範囲である(可能な最も高い1の局所的共起重みを受信する)。これは、主に、2つのエンティティが関係により直接リンクされる場合、(それらの間のリンク関係により)それらがサンプリングされたシーケンス内で2つの離れた位置にある場合でも、直感的に強力に関連付けられるべきであることを反映するためである。
・β:軸(pivot)からの距離の関数として、局所的共起重みのダンピングを定めるパラメータである。これは、更に離れている要素があまり強力に関連付けられるべきでないことを反映するためである。
【0111】
任意的な特徴選択は、伝統的なテキストマイニングと類似の方法で、分布特徴行列を計算し、及びそれらの頻度又は特徴行列に適用可能な他の特徴を格納し、及びそれらの頻度又は特徴選択に適用可能な他の特徴を格納する前に、シーケンスを前処理することにより達成され得る。格納すべき特徴の例は、シーケンス内の要素の相対頻度又はそれらの逆シーケンス頻度(テキスト処理における逆文書頻度に類似する)である。特徴の値は、次に、スライディングコンテキストウインドウの中で遭遇したとき、共起スコアを更新するために特定の要素が考慮されるべきか否かを決定数rために使用されてよい。例えば、全てのシーケンス内で5回より少なく発生する又は全てのシーケンス内で発生する要素との共起を反映しないことと決定してよい。
【0112】
<例>
前の例からの経路Pg=(b,g,c,f,a,h,d)を、サンプリングされたシーケンスと考える。
【0113】
さらに、以下のパラメータ値:c=5、α=2、β=1を仮定する。次に、Pgシーケンスに対応する共起スコアは、以下のように計算される。6個のコンテキストウインドウがある:
(b,g,c,f,a),
(g,c,f,a,h),
(c,f,a,h,d),
(f,a,h,d),
(a,h,d),
(h,d)
シーケンス内の要素間の距離が2以下(αパラメータ)なので、(b,g)、(b,c)のwcooc値は1に等しい。
【0114】
(b,f)、(b,a)の値は、したがって、以下である:
【数24】
全てのコンテキストウインドウからのペアは、以下の通りである:
【数25】
a,b,c,d,e,f,g,h要素に対応する行及び列を仮定すると、結果として生じる共起特徴行列は以下の通りである:
【数26】
【0115】
<具体例>
図4中のエンティティ及び関係の特定のインスタンス化、例#3は以下の通りである。
a:AKT
b:FOX01
c:BIM
d:XIAP
関係r:抑制(Inhibition)
関係s:活性化(activation)
コンテキストD1:アポトーシス(aptoptosis)経路の抑制
コンテキストD2:生存経路の活性化
無向関係は:タンパク質相互作用である。
【0116】
ノードe,f,g,hは、関係を実体化するために2部表現の中で生成されるノードである。
【0117】
本例では、可能なタンパク質の類似性が、関係エンティティ及びコンテキストに基づき発見される。これは、拮抗(antagonist)経路、等のような新しい生体機能の発見をもたらすデータ内の類似シーケンスパターンを発見するためでもあってよい。後述の例で説明されるようにコサイン類似性が使用されてよい。
【0118】
<作業例>
第1作業例は、2段階:
図9のS101に示すような2部グラフへの変換、及び
図9のステップS102に示すようなグラフサンプリング、のうちの第1部分を考える。
【0119】
図10及び11に示す2つのグラフは、開始点である。
【0120】
図10の標準グラフは、タンパク質相互作用のセットとして考えられてよく、例えば「タンパク質u1はタンパク質u5と相互作用する」と読める。
【0121】
タンパク質u1~u8のより良好な埋め込みは、類似タンパク質の識別、次に、入力グラフから失われているが、特定疾病に影響し得る全ての相互作用をモデル化しようとする生物学者に関連のある、幾つかの相互作用、の推測を可能にする。
【0122】
図11のハイパーグラフは、経路コンテキストの中で生じるタンパク質相互作用のセットと考えられてよく、「タンパク質u0は、経路c0のコンテキストの中でタンパク質u1と相互作用する」と読める。
【0123】
タンパク質u0~u4の及び経路c0及びc1のより良好な埋め込みを得ることは、(それらの相互作用コンテキストの追加情報を用いて)類似タンパク質の識別、次に、入力グラフから失われているが、特定疾病に影響し得る全ての相互作用をモデル化しようとする生物学者に関連のある、幾つかの相互作用、の推測を可能にする。
【0124】
【0125】
ステップS111で、
図10a及び
図11aの2つの知識グラフが入力される。
図10aは標準グラフである。本例では、グラフは4つの部分で構成されるが、グラフは接続されてよく、及び1部分のみで構成されてよい。グラフは、任意のフォーマット(例えば、ノードペアのリスト)で表されてよい。これは、次のステップで導入されるハイパーエッジ表現により直接表されてよい。
図11aはハイパーグラフである。各ハイパーエッジは、ソースノード、ターゲットノード、及び追加ノードを無向接続する。例えば、最も左のハイパーエッジは、u0(ソースノード)、u1(ターゲットノード)、及びc0(追加ノード)を接続する。ハイパーグラフは、任意のフォーマットで表現されてよい。これは、次のステップで導入されるハイパーエッジ表現により直接表されてよい。
【0126】
ステップS112で、
図10a及び
図11aは、
図10b及び
図11bにそれぞれ変換される。各線は、ハイパーエッジ表現(e,S,T,U)に対応する。
図10aの最も左のエッジは、u1をソースノードとして及びu5をターゲットノードとして接続するので、S={u1}及びT={u5}である。無向接続されたノードが存在しないので、U={ }である。ハイパーエッジはf15と命名される。結果として、
図10bの(f15,{u1},{u5},{})が得られる。他のタプルは同様に得られる。
【0127】
図11a中の最も左のハイパーエッジはu0をソースノードとして、u1をターゲットノードとして、及びc0を無向接続されたノードとして接続するので(エッジラベルはノードとして考えられる)、S={u0}、T={u1}、及びU={c0}である。ハイパーエッジはf01と命名される。結果として、
図11bの(f01,{u0},{u1},{c0})が得られる。他のタプルは同様に得られる。
【0128】
ステップS113で、
図10b及び
図11b中の2つのハイパーエッジ表現は、
図13bへと結合される。
図13aは、
図13bの視覚的に理解しやすいバージョンである。ここで、異なる表現内の同じ名称を有するノードは、単に同じノードと考えられる。異なる名称を有するノードは、例えばノードマッピングテーブルを用いることにより、同じノードと考えられてよい。結合動作は、ハイパーエッジ表現のために実行される。これは、知識グラフのために実行されてよく、又はステップS114で導入される2部グラフのために実行されてよい。
【0129】
図13のハイパーグラフは、経路コンテキストの中で生じるタンパク質相互作用のセットと考えられてよく、例えば「タンパク質u0は、経路c0のコンテキストの中でタンパク質u1と相互作用する」と読める。
【0130】
タンパク質u0~u4の及び経路c0及びc1のより良好な埋め込みを得ることは、(それらの相互作用コンテキストの追加情報を用いて)類似タンパク質の識別、次に、入力グラフから失われているが、特定疾病に影響し得る全ての相互作用をモデル化しようとする生物学者に関連のある、幾つかの相互作用、の推測を可能にする。
【0131】
図12のS114で、
図13bは
図14bの2部グラフ(V,E,A)へと変換される。
図14aは、視覚的に理解しやすいバージョンである(必ずしも実施形態における機械処理のためではない)。
【0132】
先ず、VをV-(Vバー)と同一にすることによりV-からVが生成される。次に、E-(Eバー)内のエントリの全ての第1要素から、Eが生成される。次に、E-内の各エントリから1つ以上のエッジを生成することにより、Aが生成される。
【0133】
例えば、
図13a内の(f01,{u0},{u1},{c0})から、3つのエッジ(u0,→,f01)、(u1,→,f01)、及び(c0<->,f01)が以下の方法で生成される。
(f01,{u0},{u1},{c0})の第2要素の各メンバについて、該メンバからエッジ「→」が生成され、及び(f01,{u0},{u1},{c0})の第1要素が生成される。第2要素はu0のみであり、第1要素はf01なので、(u0,→,f01)が生成される。
(f01,{u0},{u1},{c0})の第3要素の各メンバについて、該メンバからエッジ「←」が生成され、及び(f01,{u0},{u1},{c0})の第1要素が生成される。第3要素はu1のみであり、第1要素はf01なので、(u0,←,f01)が生成される。
(f01,{u0},{u1},{c0})の第4要素の各メンバについて、該メンバからエッジ「<->」が生成され、及び(f01,{u0},{u1},{c0})の第1要素が生成される。第4要素はc0のみであり、第1要素はf01なので、(u0,<->,f01)が生成される。
【0134】
次の段階は、
図14に示されるようにグラフサンプリングである。
【0135】
ステップS121で、2部グラフが入力される。ここで、私達は、
図14のグラフが入力されると仮定する。所定終了条件が満たされるまで、ステップS122、ステップS123、及びステップS124のループが繰り返される。ステップS122は、終了条件が満たされることを調べる。終了条件は、生成されたシーケンスの数であってよい。ここで、該数は168であると仮定する。ステップS123及びステップS124は、ランダム性を含んでよく、一般的に変動により影響されるが、ここでは、ランダム選択の各候補はその正確な確率により選択されると仮定する。
【0136】
ステップS123で、シードノードが選択される。ここで、シードノードはV内のエントリから選択されると仮定する。シードノードは、V及びE内のエントリから選択されてよい。また、出エッジ(→又は<->)を有しないノードは選択されないと仮定する。
【0137】
V内のU3、u5、u6及びu8の各々は、出エッジを有しないので、V内の他の7個のノード(u0,u1,u2,u4,u7,c0,c1)が候補である。各ノードは、24(=168/7)回、選択される。
【0138】
図15のステップS124で、ランダムウォークが実行される。ランダムウォークは、任意の条件が満たされるとき、停止されてよい。ランダムウォークは、長さが3に達すると、又は次候補が見付からないとき、停止されると仮定する。また、λw(.)=1と仮定する。したがって、p(e
x|v
x)の式は、p(e
x|v
x)=1/|E
o(v
x)|に簡略化される。
【0139】
u0から開始する。つまりv1=u0である。Eo(u0)は、A内の(u0,→,e)又は(u0,<->,e)を満たすエッジノードのセットである。(u0,→,f01)、(u0,→,f02)、(u0,→,f03)及び(u0,→,f04)がA内に存在するので、Eo(u0)={f01,f02,f03,f04}及びp(f01|u0)=p(f02|u0)=p(f03|u0)=p(f04|u0)=1/4である。
【0140】
f03をEo(u0)からe1として選択する。つまりe1=f03である。Vo(f03)は、A内の(v,←,f03)又は(v,<->,f03)を満たす頂点ノードのセットである。A内に(u3,←,f03)及び(c0,<->,f03)が存在するので、Vo(f03)={u3,c0}及びVo(f03)\{u0}={u3,c0}である。したがって、p(u3|f03)=p(c0|f03)=1/2である。
【0141】
第1遷移の確率は、以下の通り計算される。
u3がu2として選択されるとき、p[(u0,f03,u3)]=p(f03|u0)*p(u3|f03)=(1/4)*(1/2)=1/8。
c0がu2として選択されるとき、p[(u0,f03,c0)]=p(f03|u0)*p(c0|f03)=(1/4)*(1/2)=1/8。
【0142】
次に、第2遷移が説明される。
(1)第1遷移は(u0,f03,u3)である。つまりv2=u3である。Eo(u3)は、A内の(u3,→,e)又は(u3,<->,e)を満たすエッジノードのセットである。A内にこのようなeが存在しないので、Eo(u3)は空である。この場合、次候補が見付からないので、ランダムウォークはここで停止する。したがって、経路(u0,f03,u3)が、24*p[(u0,f03,c0)]=24*(1/8)=3回、生成される。
(2)第1遷移は(u0,f03,c0)である。つまりv2=c0である。Eo(c0)は、A内の(u3,→,e)又は(u3,<->,e)を満たすエッジノードのセットである。(c0<->,,f01)、(c0,<->,f02)及び(c0,<->,f03)がA内に存在するので、Eo(c0)={f01,f02,f03}及びp(f01|c0)=p(f02|c0)=p(f03|c0)=1/3である。
f01をEo(c0)からe2として選択する。つまりe2=f01である。
Vo(f01)は、A内の(v,←,f01)又は(v,<->,f01)を満たす頂点ノードのセットである。A内に(u1,←,f01)及び(c0,<->,f01)が存在するので、Vo(f01)={u1,c0}及びVo(f01)\{c0}={u1}である。したがって、p{u1}=1である。u1がv2の候補ではないことに留意する。
【0143】
第2遷移の確率は、以下の通り計算される。
u1のみがv3として選択されるとき、p[(c0,f01,u1)]=p(f01|c0)*p(u3|f03)=(1/3)*1=1/3。
したがって、経路(u0,f03,c0,f01,u1)が、24*p[(u0,f03,c0)]*p[(c0,f01,u1)]=24*(1/8)*(1/3)=1回、生成される。
【0144】
同様に、他の経路が生成される。ループが168回(所定回数)繰り返した後に、処理はステップ122においてYesに出る。
【0145】
図16は、生成された経路の纏めである。長方形は、頂点ノード又はエッジノードを示す。2つの長方形を接続する線に付加された数字は、確率p(e
x|v
x)又はp(v
x+1|e
x)を示す。左から右への接続された長方形のシリーズは、経路に対応する。経路に付加された数字は、経路が生成された回数を示す。これは、168*経路上の全ての確率により計算される。例えば、第1の線は、(u0,f01,u1,f15,u5)が3回生成されることを示す。第2の線は、(u0,f01,c0,f01,u1)が1回生成されることを示す。
【0146】
従来技術では、2つより多くのノードを接続するハイパーエッジは、効率的に処理できない。正規グラフ表現により、
図13aは、c0及びc1を無視することにより、
図17aのように表現できる。このグラフでは、(Grover and Leskovec-2016)及び(Ristoski and Paulheim-2016)のような様々なランダムウォーク技術が適用できる。本発明の実施形態では、このような方法は以下のように模倣され得る。
【0147】
<作業例パート1:比較効果>
先ず、
図17aは、
図13におけるように
図17bのように表現できる。2部変換器は、
図13を
図14に変換するのと同様の方法で、
図17を
図18に変換する。
図18により、グラフサンプラは、生成されたシーケンスの数20で、
図16に示すシーケンスを生成するのと同様の方法で、
図19に示すシーケンスを生成する。
【0148】
明らかに、
図18はc0又はc1を含まないので、c0又はc1を含むパスは、
図19に示すように決して生成されない。これは、本発明の実施形態が、c0又はc1を含むパスを生成するので、優れていることを意味する。
【0149】
「On the Representation and Embedding of Knowledge Bases Beyond Binary Relations」、2013(Wen et al. 2016)のような方向性を無視する方法は、望ましくないパスを生成する。本発明の実施形態では、このような方法はまた以下のように模倣され得る。
【0150】
【0151】
図24で、シーケンス(c0,f03,u3)は更に継続し、(c0,f03,u3,f03,u0)、(c0,f03,u03,f03,c0)、及び(c0,f03,u3,f37,u7)が生成される。その間に、
図16では、シーケンス(c0,f03,u3)はu3で停止し、(c0,f03,u3)のみが生成される。これは、本発明の実施形態が、望ましくないパスの生成を直接考慮し及び防ぐので、優れていることを示す。
【0152】
第2作業例は、
図9のステップS103に示すように、分布解析の追加を考慮する。
【0153】
上述のように、分布解析器への入力は、本発明の実施形態では
図15であり、正規グラフバージョンでは
図19であり、無向性バージョンでは
図22、
図23、及び
図24である。
【0154】
【0155】
ステップS131で、シーケンスのリストが入力される。ここで、
図16のシーケンスが入力される。リスト内のシーケンスが生成される回数は、右側に示された数である。例えば、リストは、(u0,f01,u1,f15,u5)の3個のシーケンスを含む。
【0156】
ステップS132で、共起行列は
図26に示すように初期化される(完全にゼロにされる)。
【0157】
(ステップS133で尋ねられるように)
図16内の全てのシーケンスが処理されるまで、ステップS133、ステップS134、及びステップS135のループが繰り返される。
【0158】
ステップS135で、行列は、例えば「分布ベクトル化」と題された章の式に従い更新される。簡単のために、より複雑さの少ない変形が以下に示される。
【0159】
シーケンス内の2つの要素で構成される各々の可能なペア(s
i,s
j)について(注:s
i=s
jであるペアを除く)、
F(s
i,s
j):=F(s
i,s
j)+1及びF(s
j,s
i):=F(s
j,s
i)+1
(1回目の反復)ステップ134で、3つのうちの第1シーケンス(u0,f01,u1,f15,u5)が選択されると想定する。ステップ135で、可能なペアは(u0,f01)、(u0,u1)、(u0,f15)、(u0,u5)、(f01,u1)、(f01,f15)、(f01,u5)、(u1,f15)、(u1,u5)、及び(f15,u5)なので、各ペアに対応するF内のセルは1だけ増大され、Fは
図27へと更新される(更新された要素は影付きである)。
【0160】
(2回目及び3回目の反復)3つのうちの第2及び第3シーケンス(u0,f01,u1,f15,u5)が選択されると想定する。3回目の反復の後に、Fは同様の計算により
図28へと更新される。
【0161】
(4回目の反復)ステップ134で、(u0,f01,c0,f01,u1)が選択されると想定する。ステップ135で、可能なペアは(u0,f01)、(u0,c0)、(u0,f01)、(u0,u1)、(f01,c0)、(f01,u1)、(c0,f01)、(c0,u1)、及び(f01,u1)なので(注:(f01,f01)は除かれる)、各ペアに対応するF内のセルは1だけ増大され、Fは
図29へと更新される。
【0162】
図16内の他の全てのシーケンスが同様に処理される。
【0163】
【0164】
<作業例パート2:比較効果>
正規グラフ表現を有する方法と比較するために、分布解析器は
図19に適用される。
図16から
図30を生成するのと同様の方法で、
図31の共起行列が得られる。
【0165】
本発明の実施形態(
図30):
u5の埋め込みは、
図30のu5行に対応するベクトルである。つまり、
u5=(3,35,0,0,0,0,0,0,0,8,0,11,0,0,0,35,0,0,0)
同様に、
u6=(3,0,35,0,0,0,0,0,0,8,0,0,11,0,0,0,35,0,0)、
u8=(3,0,0,0,51,0,0,0,0,0,24,0,0,0,27,0,0,0,51)
u5及びu6の、並びにu5及びu8の、コサイン類似性を計算する。
【数27】
正規グラフ表現を有する方法(
図31):
同様に、
u5=(1,5,0,0,0,0,0,0,0,1,0,0,0,5,0,0,0)、
u6=(1,0,5,0,0,0,0,0,0,0,1,0,0,0,5,0,0)、
u8=(1,0,0,0,5,0,0,0,0,0,0,0,1,0,0,0,5)
及び
【数28】
本発明の実施形態では、u5はu8よりもu6に類似し、他の方法では、u5はu6及びu8に同等に類似する。
図13で、u5、u6及びu8は、同様の構造「u0→(別のノード)→(接続されたノード)」を有する。したがって、u5がu8よりu6に類似すると考えることは自然である。これは、本発明の実施形態は示すが、他の方法は示さない。
【0166】
図15及び
図19で生成されたシーケンスを比較する。
図19では、シーケンスはu5、u6及びu8に関して対称である。しかし、
図15では、例えばc0及びc1から開始するシーケンスを探すと、c0はu5を含むシーケンス及びu6を含むシーケンス内に現れ、c1はc8を含むシーケンス内に現れる。これは、u5がu7よりもu6に類似することを示唆する。
【0167】
この観察は、ハイパーエッジを適切に取り扱う効果である。
【0168】
【0169】
本発明の実施形態(
図30):
u5の埋め込みは、
図30のu5行に対応するベクトルである。つまり、
u5=(3,35,0,0,0,0,0,0,0,8,0,11,0,0,0,35,0,0,0)
同様に、
u6=(3,0,35,0,0,0,0,0,0,8,0,0,11,0,0,0,35,0,0)、
u7=(0,0,0,24,0,0,0,0,0,0,0,0,0,0,0,0,0,24,0)
u5及びu6の、並びにu5及びu8の、コサイン類似性を計算する。
【数29】
正規グラフ表現を有する方法(
図F1):
同様に、
u5=(30,254,0,0,0,0,0,0,0,32,0,62,0,0,0,350,0,0,0)、
u6=(30,0,254,0,0,0,0,0,0,32,0,0,62,0,0,0,350,0,0)、
u7=(30,0,0,254,0,0,0,0,0,32,0,0,0,62,0,0,0,350,0)
及び
【数30】
本発明の実施形態では、u5はu7よりもu6に類似し、他の方法では、u5はu6及びu7に同等に類似する。
図13で、u5、u6及びu7は、同様の構造「u0→(別のノード)-?-(接続されたノード)」を有するが、第2エッジはu5及びu6への順方向エッジであり、u7については逆方向エッジである。したがって、u5がu7よりu6に類似すると考えることは自然である。これは、本発明が達成するが、他の方法は達成しない。
【0170】
図15及び
図22~
図24で生成されたシーケンスの比較を試みる。
図22~
図24では、シーケンスはu5、u6及びu7に関して対称である。しかし、
図15では、例えばc0から開始するシーケンスを探すと、u5はc0から開始するシーケンス内に現れ、u6はc0から開始する別のシーケンス内に現れ、一方で、u7はc0から開始するどのシーケンスにも現れない。これは、u5がu7よりもu6に類似することを示唆する。この観察は、方向性を適切に取り扱う効果である。
【0171】
ドメインにおける具体的なインスタンス化は以下の通りである。
【0172】
生物学では、セルアポトーシス(細胞死)を担い、通常、拮抗作用細胞生存及び増殖も引き起こし得るMST/Hippo経路がある。この例では、結合グラフ(例えば
図13に示される)内の各エンティティ及びコンテキストの実際のインスタンス化は、以下の通りであってよい。
【0173】
C0:プロアポトーシス(Pro-apoptotic)
C1:抗アポトーシス(Anti-apoptotic)
U0:LATS1/2
U1:TAZ
U2:FOXO
U3:BAX
U4:YAP
U5:P73
U6:AIF1
U7:PUMA
U8:TEAD
全ての関係(fxx)は、リン酸化反応であり、キナーゼから基質を指す。
【0174】
作業例の効果:パート2は以下の通りである。本発明の実施形態におけるコンテキスト情報(プロ/抗アポトーシス)の使用は、u5(P73)がu8(TEAD)よりもu6(AIF1)に近いという推測を可能にする。実際に、AIF1及びP73の両者は経路のプロアポトーシス部分の一部であり、一方で、TEADは抗アポトーシスに含まれる。これは、癌細胞では増殖しないことが、他の細胞では死ぬことが有利であるので、、癌研究において非常に重要である。
【0175】
また、タンパク質の接続に基づき、幾つかのタンパク質の生物学的機能が推測されてよい(コンテキストC0及びC1、プロ/抗アポトーシスは、生物学的機能として考えられてよい)。特に、この小さな例から、TEADタンパク質(U8)が、抗アポトーシスに、より関連する可能性がある(C0よりもC1に近い)ことが分かる。この情報は、生物学的実験者に新薬ターゲットの開発のためにどの実験を実行すべきかの指示を与えるので、生物学的実験者にとって重要である。
【0176】
GUI(Graphical User Interface)は、ここに記載された方法を用いて結合されるべき知識グラフを選択するために、及び例えば2つのタンパク質の類似性からタンパク質の特性を導出可能にするために、関心のあるタンパク質のようなデータを入力するために、ユーザに提供され及びユーザに表示されてよい。例えば、1つのウインドウは、関心のあるタンパク質を入力又は選択するためのフィールドを表示してよく、同じ又は別のウインドウは、入力についての知識グラフの表示及び/又は選択を可能にしてよい。また、同じ又は別のウインドウは、タンパク質類似性などのような結果を表示してよい。
【0177】
図33は、本発明を実現しタンパク質の特性を推測する方法を実施するために使用され得る、データ記憶サーバのようなコンピューティング装置のブロック図である。コンピューティング装置は、プロセッサ993、及びメモリ994を有する。任意で、コンピューティング装置は、他のコンピューティング装置、例えば本発明の実施形態の他のコンピューティング装置と通信するためのネットワークインタフェース997も有する。
【0178】
例えば、一実施形態は、このようなコンピューティング装置のネットワークで構成されてよい。任意で、コンピューティング装置は、キーボード及びマウスのような1つ以上の入力メカニズム996、及び1つ以上のモニタのようなディスプレイユニット995も有する。コンポーネントは、バス992を介して互いに接続可能である。
【0179】
メモリ994は、コンピュータ実行可能命令を実行する又は格納されたデータ構造を有するよう構成される単一の媒体又は複数の媒体(例えば、集中型又は分散型データベース及び/又は関連するキャッシュ及びサーバ)を表し得るコンピュータ可読媒体を有してよい。コンピュータ実行可能命令は、例えば、汎用コンピュータ、特定目的コンピュータ又は特定目的処理装置(例えば、1又は複数のプロセッサ)によりアクセス可能であり及び1又は複数の機能又は工程を実行させる命令及びデータを有してよい。したがって、用語「コンピュータ可読記憶媒体」は、機械による実行のために命令セットを格納しエンコードし又は持ち運ぶことが可能であり、機械に本開示の方法のうち任意の1又は複数を実行させる任意の媒体も含み得る。用語「コンピュータ可読記憶媒体」は、固体メモリ、光学媒体及び磁気媒体を含むと考えられるが、これらに限定されない。例として且つ限定ではなく、このようなコンピュータ可読媒体は、RAM(Random Access Memory)、ROM(Read-Only Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory)、CD-ROM(Compact Disc Read-Only Memory)又は他の光ディスク記憶装置、磁気ディスク記憶装置又は他の磁気記憶装置を含む非一時的若しくは有形コンピュータ可読記憶媒体、又は他の媒体、フラッシュメモリ装置(例えば、固体メモリ装置)を有し得る。
【0180】
プロセッサ993は、コンピューティング装置を制御し、処理工程を実行し、例えば本願明細書及び請求の範囲に記載される2部変換器、グラフサンプラ、及び分布解析器の様々な異なる機能を実施するためにメモリに格納されたコードを実行するよう構成される。メモリ994は、プロセッサ993によりリード及びライトされるデータを格納する。本願明細書で参照されるとき、プロセッサは、マイクロプロセッサ、中央処理ユニット、等のような1又は複数の汎用処理装置を含み得る。プロセッサは、CISC(complex instruction set computing)マイクロプロセッサ、RISC(reduced instruction set computing)マイクロプロセッサ、VLIW(very long instruction word)マイクロプロセッサ、又は他の命令セットを実施するプロセッサ、若しくは命令セットの組合せを実施するプロセッサを含み得る。プロセッサは、ASIC(application specific integrated circuit)、FPGA(field programmable gate array)、DSP(digital signal processor)、ネットワークプロセッサ、等のような1又は複数の特定目的処理装置も含み得る。1又は複数の実施形態では、プロセッサは、本願明細書で議論する工程又はステップを実行する命令を実行するよう構成される。
【0181】
ディスプレイユニット997は、コンピューティング装置により格納されたデータの提示を表示してよく、ユーザとプログラムとコンピューティング装置に格納されたデータとの間の相互作用を可能にするカーソル及びダイアログボックス及びスクリーンも表示してよい。入力メカニズム996は、ユーザがデータ及び命令をコンピューティング装置に入力することを可能にし得る。例えば、ユーザは、どのグラフを入力し結合するか、及びどの特性を完成した特徴行列に基づき比較するかを、コンピューティング装置に指示してよい。
【0182】
ネットワークインタフェース(ネットワークI/F)997は、インターネットのようなネットワークに接続され、ネットワークを介して他のこのようなコンピューティング装置に接続可能であってよい。例えば、入力は、ネットワークからの知識グラフであってよい。ネットワークI/F997は、ネットワークを介して他の機器からのデータ入力/へのデータ出力を制御してよい。マイクロフォン、スピーカ、プリンタ、電源ユニット、ファン、筐体、スキャナ、トラックボール等のような他の周辺装置は、コンピューティング装置に含まれてもよい。
【0183】
2部変換器は、メモリ994の一部に格納された処理命令、該処理命令を実行するためのプロセッサ993、及び該処理命令の実行中にグラフを格納するためのメモリ994の一部を有してよい。2部変換器の出力は、メモリ994に及び/又は2部グラフDB50のような接続された記憶ユニットに、格納されてよい。
【0184】
グラフサンプラは、メモリ994の一部に格納された処理命令、該処理命令を実行するためのプロセッサ993、及び該処理命令の実行中にシーケンスを格納するためのメモリ994の一部を有してよい。グラフサンプラの出力は、メモリ994に及び/又はシーケンスDB60のような接続された記憶ユニットに、格納されてよい。
【0185】
分布解析器は、メモリ994の一部に格納された処理命令、該処理命令を実行するためのプロセッサ993、及び該処理命令の実行中に特徴行列及びコサイン類似性を格納するためのメモリ994の一部を有してよい。分布解析器の出力は、メモリ994に及び/又は共起行列DB70のような接続された記憶ユニットに、格納されてよい。
【0186】
本発明を実現する方法は、
図33に示されたようなコンピューティング装置で実行されてよい。このようなコンピューティング装置は、
図33に示した全てのコンポーネントを有する必要はなく、これらのコンポーネントのうちの部分集合で構成されてよい。本発明を具現化する方法は、ネットワークを介して1又は複数のデータ記憶サーバと通信する単一のコンピューティング装置により実行されてよい。コンピューティング装置は、グラフ/特徴行列を格納するデータ記憶装置自体であってよい。
【0187】
本発明を実現する方法は、互いに協働して動作する複数のコンピューティング装置により実行されてよい。複数のコンピューティング装置のうちの1つ以上は、グラフ又は行列の少なくとも一部を格納するデータ記憶サーバであってよい。
【0188】
<範囲及び限定>
システムの主な範囲は、生体情報コンテキストに依存する経路ネットワーク又は刊行物から抽出された2項ステートメント、及び生体情報コンテキストに依存する経路ネットワーク又は刊行物及びそれらの出所から抽出された2項ステートメントのようなそれらの出所、の異なるアリティ及び方向の関係を符号化する知識グラフに特に焦点を当てた、グラフ構造の直ぐに使用可能な且つ効率的な表現の生成である。
【0189】
主な正弦波、基礎にある2部表現により引き起こされるオーバヘッドである。これは、任意のグラフ構造の汎用的表現を可能にする一方で、トリプルで構成される標準2項グラフ又は知識グラフの表現は、標準グラフ及び関係データ構造を用いる表現より、本来、効率が劣る。
【0190】
<機能、効果>
本発明の実施形態は、同型ではない知識グラフが一緒に処理されなけれなならない使用例において(例えば、経路データベースの中のコンテキストに依存するn-ary関係と一緒にタンパク質相互作用ネットワークの中の2項関係を分析する)、特に有利である。多様なデータセットを一緒に処理する今までに例のない能力は、基本的に不可能であった自動発見をもたらし得る。
【0191】
システム生物学癌研究は、本発明が特に好ましい効果を有し得る一例である。システム生物学の作業の一態様は、シグナリング経路のモデル化を含む(癌を一緒に説明する1又は複数の経路のコンテキストの中で生じるタンパク質相互作用のセット)。失われたタンパク質相互作用を発見できることは、したがって、非常に重要である。本発明の実施形態により、システムは、タンパク質相互作用の2項関係だけでなく、経路のコンテキスト情報からも計算されたタンパク質埋め込みに基づき、及び2つのエンティティの共起の出所の科学論文を考慮して、このような予測を行い得る。実施形態の例において説明したように、混合アリティ及び混合方向性を処理できることは、システムが、より豊かな情報を利用でき、及び結果としてより正確な埋め込みを構築できるようにする。
【0192】
本アプローチの柔軟性は、また、より少ない計算実施回数をもたらす。本発明の実施形態は、(混合アリティ及び方向性関係を含む)任意の種類及び歩行性のグラフ構造から分布表現を計算することを可能にする。分布表現は、それ自体への埋め込みであり、また、他のより低いランクの埋め込みを計算するために直接使用されてよい。
【0193】
したがって、実施形態は、混合関係アリティ及び方向性を有するグラフ構造の効率的表現及び該グラフ構造からの推測を可能にする以下の実際の効果を有する。利益を得る重要な使用例が存在する場合でも、従来技術は、現在のところ、このような構造を処理できない。
【0194】
実施形態は、以下の有利な特徴のいずれかを提供し得る。
【0195】
エッジの可能な混合方向性を有する任意のグラフ構造(標準グラフ、複数グラフ、ハイパーグラフ)を取り入れ、及びそれをノード及びエッジシーケンスのリスト及び/又は特徴行列に変換し得る、上述のようなシステム/方法。これは、エンティティと関係セマンティックとの間を区別し、並びに、結果としてグラフ構造埋め込みを計算するために使用され、又は埋め込み自体として使用されてよい。
【0196】
変換が、2部グラフに基づくグラフ構造の汎用的表現を利用する、上述のようなシステム/方法。
【0197】
基礎にある汎用的2部グラフ表現が、メモリ効率のためにノード及びエッジの整数符号化を、及び高速グラフ演算のためにブール疎行列を利用する、上述のようなシステム/方法。
【0198】
変換方法が、ノード及びエッジシーケンスを生成するために、トラバースに基づくサンプリング(例えば、縦型、横型、最良優先探索、又はランダムウォーク)を利用する、上述のようなシステム/方法。
【0199】
特徴行列が、分布原理(つまり、共起解析)を用いてノード及びエッジシーケンスから生成される、上述のようなシステム/方法。
【0200】
ノード及びエッジシーケンス内で生じる要素の頻度特性に基づく特徴選択が、特徴行列を構成するときに適用され得る、上述のようなシステム/方法。
【0201】
<用語集>
Arity、アリティ:エッジにより接続されたノードの最大数を示す、グラフの特性。
Knowledge Graph、知識グラフ:(ノード/頂点により表される)アイテムの集合。アイテムのうちの任意のものは、それらの間の(型付き2項関係のような)リンクにより接続され得る。それらは、グラフ構造知識ベースとして理解できる。2つより多くのノードを接続する構造への一般化が可能であり、幾つかの用途で要求される。
Embedding、埋め込み:1つの構造の要素(例えば、グラフ内のノード又は関係、又は自然言語文のセットの中のフレーズ)の、(標準的に低次数の)連続ベクトル空間内のベクトルへのマッピング。主に構造化情報の使い勝手の良い(線形)表現のために使用される。その結果、幾つかの関心パターンがその中で発見できる。
Graph、グラフ:エンティティ(ノード又は頂点)のペアの間の関係(エッジ)を表す数学的構造。有向又は無向グラフは、標準的に区別される(有向グラフでは、ノードAからノードBへのエッジは、ノードBからノードAへのエッジと何かが異なることを意味し、一方で、無向グラフではこれは同じことを意味する)。標準的に、エッジ又はノードラベルは考慮されない。また、同じ2つのノード(複数エッジ)の間の複数の接続、及びループ(ノードをそれ自体に「接続する」エッジ)は、標準グラフでは禁止される。
Labelled Graph、ラベル付きグラフ:ラベルをノード及び/又はエッジに関連付けることのできる、グラフの一般化。
Weighted Graph、重み付きグラフ:重みの相対的重要度を反映するために、重みをそのエッジに関連付けることのできる、グラフの一般化。
Multigraph、複数グラフ:ループ及び複数エッジ(例えば、同じ2個の頂点/ノードの間にある2個のエッジ)を含むことのできる、グラフの一般化。
Hypergraph、ハイパーグラフ:2つより多くのノードをリンクするハイパーエッジを含むことのできる、グラフの一般化。
Bipartite Graph、2部グラフ:ノードのセットU、V内のノードを接続するエッジが存在しないように、U、Vを区別しなければならないグラフ。言い換えると、UからのノードをVからのノードに接続するエッジのみが許可される。
Graph Structure、グラフ構造:グラフ又はその一般化の任意の種類(例えば、複数グラフ又はハイパーグラフ)。
Graph Path、グラフパス:グラフ構造G内の長さ2k-1の、ノードux及びエッジeyのシーケンス(u1,e1,u2,e2,..,ek-1,uk)。ここで、kはパス内のノードの数であり、パス内の任意のui,ei,ui+1について、eiはuiとui+1との間のエッジを符号化する。パス内で生じるノードの数は、無限である可能性がある。
Graph Traversal、グラフトラバース:ノード間の各遷移が特定の原理を用いて選択される、グラフパス。
Depth-First Search、縦型検索:グラフトラバースの種類。グラフの包括的検索を試みるグラフパス(つまり、全てのノードを訪問する)。ノード間の各遷移は、グラフの中へより深く行こうと試みる。訪問できる新しいノードが無い場合、トラバースは最後の訪問されていないノードへ後戻りする。
Breadth-First Search、横型検索:グラフトラバースの種類。グラフの包括的検索を試みるグラフパス(つまり、全てのノードを訪問する)。ノード間の各遷移は、より深く行く前に、前のノードの全ての近隣を包括的に訪問しようと試みる。訪問できる新しいノードが無い場合、トラバースは最後の訪問されていないノードへ後戻りする。
Best-First Search、最良優先探索:グラフトラバースの種類。ノード間の各遷移が、最も効率的な検索のための次ノード候補の「見込み(promise)」を決定する、アプリケーションに依存する経験則(heuristics)に基づき選択される、グラフパス。
Random Walk、ランダムウォーク:グラフトラバースの種類。ノード間の各遷移がランダムに選択される、グラフパス。選択は、利用可能エッジの間で同様である、又は重み付きグラフ構造の中のエッジ重みに基づいてよい。
Distributional Representation、分布表現:頻繁に共起する他の要素に基づく要素の、構造の中の該要素の表現(例えば、グラフ内のノード又は関係、又はテキストコーパスの中のフレーズ)。標準的に、データ内の他の要素に関する特定の共起スコアを反映する連続ベクトルを用いて、符号化される。
【0202】
以上の実施形態に加えて、更に以下の付記を開示する。
(付記1)
生体エンティティの特性を推測する、コンピュータにより実施される方法であって、
頂点及びエッジの形式の、異なるアリティを有する、生体エンティティに関連する2以上の知識グラフを入力するステップであって、前記知識グラフのうちの少なくとも1つは有向であり、前記知識グラフのうちの少なくとも1つはラベル付きである、ステップと、
前記知識グラフの各々を、ユニークなエッジ識別子のリストとして、ハイパーエッジ表現に変換するステップであって、前記ユニークなエッジ識別子の各々はソース及びターゲット頂点を有し、頂点は前記エッジにより無方向接続され、ラベルは前記エッジに関連付けられる、ステップと、
前記ハイパーエッジ表現を、2部グラフに変換するステップであって、前記2部グラフは一方のセットの中に前記頂点及びラベルを有し、他方のセットの中に前記エッジを有し、前記頂点及びラベルは前記ハイパーエッジ表現のとおりに補助エッジAにより前記エッジにリンクされる、ステップと、
前記2部グラフをサンプリングするステップであって、前記2部グラフを、前記頂点、ラベル、及びエッジの特徴行列の中の行列エントリとして埋め込む、ステップと、
前記特徴行列を用いて、前記行列エントリに基づき結合知識グラフの中の生体エンティティの特性を推測するステップと、
を含む方法。
(付記2) 前記生体エンティティはタンパク質であり、前記知識グラフはタンパク質に関連する、付記1に記載の方法。
(付記3) 一方の知識グラフ入力は、タンパク質相互作用データのような2項のみの関係を有する有向ラベルグラフであり、他方の知識グラフ入力は、経路データベースのような3項関係を有する混合有向/一方向ラベルグラフである、付記1又は2に記載の方法。
(付記4) 前記2部グラフをサンプリングするステップは、
前記2部グラフをトラバースするステップであって、前記セットの間の前記リンクに沿って可能なシーケンスを提供する、ステップを含み、
前記2部グラフを埋め込むステップは、
前記シーケンスから、前記頂点、ラベル、及びエッジの特徴行列を生成するステップであって、共起スコアが前記特徴行列の各セルの中の行列エントリを形成する、ステップを含み、
前記特徴行列は、前記共起スコアに基づき前記知識グラフの中の生体エンティティの特性を推測するために使用される、付記1乃至3のいずれか一項に記載の方法。
(付記5) 前記ハイパーエッジ表現は、2部グラフへの変換の前に、同じ頂点と同じ名称を有する頂点を考慮することにより結合される、付記1乃至4のいずれか一項に記載の方法。
(付記6) 同じ頂点の選択的名称を一緒にグループ化するために、マッピングツールが使用される、付記5に記載の方法。
(付記7) 各エッジ識別子は、(e,S,T,U)lの形式を有し、
eはユニークなエッジ識別子であり、S、Tはそれぞれ前記エッジにより有向接続されるソース及びターゲット頂点のセットであり、Uは前記エッジにより無方向接続される頂点のセットであり、lはエッジラベルである、付記1乃至6のいずれか一項に記載の方法。
(付記8) 補助エッジAは、各頂点と該頂点の結合されるエッジとの間に形成され、2つの頂点の間の関係は、2つの補助エッジ及び前記エッジを含む、付記1乃至7のいずれか一項に記載の方法。
(付記9) 補助エッジが有向エッジと頂点との間にあるとき、前記補助エッジは、前記有向エッジと同じ方向を向いている、付記8に記載の方法。
(付記10) 補助エッジは、エッジをラベル付けするラベルと前記エッジとの間に形成される、付記1乃至9のいずれか一項に記載の方法。
(付記11) 前記2部グラフのトラバースは、頂点又はエッジラベルと前記ハイパーエッジ表現のエッジとの間で交互に現れるシーケンスを生成する、付記1乃至10のいずれか一項に記載の方法。
(付記12) 前記特徴行列は、シーケンスの中の2つのエンティティの間の前記シーケンス内の距離を考慮して共起スコアを生成し、共起スコアを各シーケンスの前記特徴行列に加算することにより入力される、付記1乃至11のいずれか一項に記載の方法。
(付記13) シーケンス内の最後ではない各点で開始するコンテキストウインドウを用いて、コンテキストシーケンスを与えるステップ、を更に含み、
各開始点と前記コンテキストシーケンス内の後のエンティティとの間の前記共起スコアは、前記コンテキストシーケンス内の前記エンティティ間の距離を考慮して計算され、前記特徴行列に追加される、付記12に記載の方法。
(付記14) 前記生体エンティティの前記特性は、例えばコサイン類似性を用いて、2以上の生体エンティティの類似性を計算することにより推測される、付記1乃至13のいずれか一項に記載の方法。
(付記15) コンピュータ機器上で実行すると、該コンピュータ機器に付記1乃至14のいずれか一項に記載の方法を実行させるコンピュータプログラム。
(付記16) タンパク質の特性を推測する機器であって、メモリとプロセッサとを含み、
前記プロセッサは、2部変換器と、グラフサンプラと、分布解析器と、を提供し、
前記2部変換器は、頂点及びエッジの形式の、異なるアリティを有する、タンパク質に関連する2以上の知識グラフを受信し、前記知識グラフのうちの少なくとも1つは有向であり、前記知識グラフのうちの少なくとも1つはラベル付きであり、
前記知識グラフの各々を、ユニークなエッジ識別子のリストとして、ハイパーエッジ表現に変換し、前記ユニークなエッジ識別子の各々はソース及びターゲット頂点を有し、頂点は前記エッジにより無方向接続され、ラベルは前記エッジに関連付けられ、
前記ハイパーエッジ表現を、2部グラフに変換するステップであって、前記2部グラフは一方のセットの中に前記頂点及びラベルを有し、他方のセットの中に前記エッジを有し、前記頂点及びラベルは前記ハイパーエッジ表現のとおりに補助エッジAにより前記エッジにリンクされ、
前記グラフサンプラは、前記2部グラフをサンプリングし、
前記分布解析器は、
前記2部グラフを、前記頂点、ラベル、及びエッジの特徴行列の中の行列エントリとして埋め込み、
前記特徴行列をメモリに格納し、
前記特徴行列を用いて、前記行列エントリに基づき結合知識グラフの中のタンパク質の特性を推測する、機器。
【符号の説明】
【0203】
10 2部変換器
20 グラフサンプラ
30 分布解析器
40 知識グラフDB
50 2部グラフDB
60 シーケンスDB
70 共起行列DB