(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-18
(45)【発行日】2023-12-26
(54)【発明の名称】治療薬提示方法、治療薬提示装置、及び治療薬提示プログラム
(51)【国際特許分類】
G06F 16/901 20190101AFI20231219BHJP
G06F 16/28 20190101ALI20231219BHJP
G16H 50/00 20180101ALI20231219BHJP
【FI】
G06F16/901
G06F16/28
G16H50/00
(21)【出願番号】P 2019084188
(22)【出願日】2019-04-25
【審査請求日】2021-12-08
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成30年度、国立研究開発法人日本医療研究開発機構、「臨床ゲノム情報統合データベース整備事業」「ゲノム医療を促進する臨床ゲノム情報知識基盤の構築」委託研究開発、産業技術力強化法第17条の適用を受ける特許出願
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100107515
【氏名又は名称】廣田 浩一
(72)【発明者】
【氏名】小林 健一
(72)【発明者】
【氏名】多湖 真一郎
(72)【発明者】
【氏名】柴田 紘孝
(72)【発明者】
【氏名】上田 晴康
【審査官】三橋 竜太郎
(56)【参考文献】
【文献】特表2019-507444(JP,A)
【文献】特開2002-040913(JP,A)
【文献】特開2018-139111(JP,A)
【文献】特開2003-203078(JP,A)
【文献】特開2010-066814(JP,A)
【文献】特開2014-235474(JP,A)
【文献】特開2005-267282(JP,A)
【文献】特開2009-070096(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G16H 10/00-80/00
(57)【特許請求の範囲】
【請求項1】
プログラムされたコンピュータによって治療薬の関連性を探索して提示する治療薬提示方法であって、
複数のタンパク質の情報と、前記複数のタンパク質における2つのタンパク質間の相互作用を示す相互作用情報とをそれぞれに備える、以下(1)及び(2)の少なくともいずれかを満たす複数のデータベースを結合して、前記タンパク質の情報をノードとし、前記相互作用情報をエッジとするグラフ構造を有する結合データベースを作成し、
(1)前記複数のタンパク質の情報が、変異遺伝子から生成される変異タンパク質の情報と、治療薬が直接作用するターゲットタンパク質の情報とを含み、
前記複数のデータベースが、前記変異タンパク質の情報を有するデータベース、及び前記ターゲットタンパク質の情報を有するデータベースを含む
(2)前記複数のタンパク質の情報が、前記変異タンパク質の情報と、前記治療薬が直接作用する前記ターゲットタンパク質の情報とを含み、
前記複数のデータベースが、前記変異タンパク質の情報と、前記ターゲットタンパク質の情報とを有するデータベースを含む
前記結合データベースを用いて、前記変異タンパク質の情報と、前記ターゲットタンパク質の情報との関係性を探索し、
前記変異タンパク質に対して関係性があると判断されたターゲットタンパク質に作用する治療薬を、前記変異タンパク質に起因する疾患の治療薬として提示することを特徴とする治療薬提示方法。
【請求項2】
前記結合データベースにおける個々の前記相互作用情報が、相互作用の相対的な強さを表す作用確率であり、
前記作用確率が、機械学習により設定される請求項1に記載の治療薬提示方法。
【請求項3】
前記機械学習が、ベイズ推定による機械学習であり、
前記作用確率の初期値を
、作用確率を表す確率分布とし、高い作用確率を与える対象の相互作用情報の作用確率の初期値をベイズ更新した後に、学習データを用いて学習を行う、請求項2に記載の治療薬提示方法。
【請求項4】
前記機械学習の際、更に、高い作用確率を与える対象の前記相互作用情報と類似する相互作用情報の作用確率の初期値に対して、高い作用確率を与える対象の前記相互作用情報の前記作用確率の前記初期値の前記ベイズ更新よりも弱いベイズ更新を行う、請求項3に記載の治療薬提示方法。
【請求項5】
複数のタンパク質の情報と、前記複数のタンパク質における2つのタンパク質間の相互作用を示す相互作用情報とをそれぞれに備える、以下(1)及び(2)の少なくともいずれかを満たす複数のデータベースを結合して、前記タンパク質の情報をノードとし、前記相互作用情報をエッジとするグラフ構造を有する結合データベースを作成する作成部と、
(1)前記複数のタンパク質の情報が、変異遺伝子から生成される変異タンパク質の情報と
、治療薬が直接作用す
るターゲットタンパク質の情報とを含み、
前記複数のデータベースが、前記変異タンパク質の情報を有するデータベース、及び前記ターゲットタンパク質の情報を有するデータベースを含む
(2)前記複数のタンパク質の情報が、前記変異タンパク質の情報と、前記ターゲットタンパク質の情報とを含み、
前記複数のデータベースが、前記変異タンパク質の情報と、前記ターゲットタンパク質の情報とを有するデータベースを含む
前記結合データベースを用いて、前記変異タンパク質の情報と、前記ターゲットタンパク質の情報との関係性を探索する探索部と、
前記変異タンパク質に対して関係性があると判断されたターゲットタンパク質に作用する治療薬を、前記変異タンパク質に起因する疾患の治療薬として提示する提示部と、
を備えることを特徴とする治療薬提示装置。
【請求項6】
コンピュータに、
複数のタンパク質の情報と、前記複数のタンパク質における2つのタンパク質間の相互作用を示す相互作用情報とをそれぞれに備える、以下(1)及び(2)の少なくともいずれかを満たす複数のデータベースを結合して、前記タンパク質の情報をノードとし、前記相互作用情報をエッジとするグラフ構造を有する結合データベースを作成させ、
(1)前記複数のタンパク質の情報が、変異遺伝子から生成される変異タンパク質の情報と、治療薬が直接作用するターゲットタンパク質の情報とを含み、
前記複数のデータベースが、前記変異タンパク質の情報を有するデータベース、及び前記ターゲットタンパク質の情報を有するデータベースを含む
(2)前記複数のタンパク質の情報が、前記変異タンパク質の情報と、前記治療薬が直接作用する前記ターゲットタンパク質の情報とを含み、
前記複数のデータベースが、前記変異タンパク質の情報と、前記ターゲットタンパク質の情報とを有するデータベースを含む
前記結合データベースを用いて、前記変異タンパク質の情報と、前記ターゲットタンパク質の情報との関係性を探索させ、
前記変異タンパク質に対して関係性があると判断されたターゲットタンパク質に作用する治療薬を、前記変異タンパク質に起因する疾患の治療薬として提示させる、
ことを特徴とする治療薬提示プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、関連性探索方法、関連性探索装置、及び関連性探索プログラムに関する。
【背景技術】
【0002】
既知のデータベースでは、通常、データベース内に構築されたネットワークによって、データベース内の情報間の関連性を調べることができる(例えば、特許文献1参照)。
しかし、世の中には、単一のデータベースのみからでは調べることができない情報間の関連性が存在していることが多い。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
本件は、単一のデータベースのみからでは調べることができない要素間の関連性を探索可能な関連性探索方法、関連性探索装置、及び関連性探索プログラムを提供することを目的とする。
【課題を解決するための手段】
【0005】
1つの態様では、本件の関連性探索方法は、
複数の要素と、前記複数の要素における2つの要素間の直接の関連性を示す関連性情報とをそれぞれに備える複数のデータベースを結合して、結合データベースを作成し、
前記結合データベースを用いて、直接に関連性がない2つの要素間の関連性を探索する。
【0006】
他の1つの態様では、本件の関連性探索装置は、
複数の要素と、前記複数の要素における2つの要素間の直接の関連性を示す関連性情報とをそれぞれに備える複数のデータベースを結合して、結合データベースを作成する作成部と、
前記結合データベースを用いて、直接に関連性がない2つの要素間の関連性を探索する探索部と、
を備える。
【0007】
他の1つの態様では、本件の関連性探索プログラムは、
コンピュータに、
複数の要素と、前記複数の要素における2つの要素間の直接の関連性を示す関連性情報とをそれぞれに備える複数のデータベースを結合して、結合データベースを作成させ、
前記結合データベースを用いて、直接に関連性がない2つの要素間の関連性を探索させる。
【発明の効果】
【0008】
一つの側面では、単一のデータベースのみからでは調べることができない要素間の関連性を探索可能な関連性探索方法を提供できる。
また、他の一つの側面では、単一のデータベースのみからでは調べることができない要素間の関連性を探索可能な関連性探索装置を提供できる。
また、他の一つの側面では、単一のデータベースのみからでは調べることができない要素間の関連性を探索可能な関連性探索プログラムを提供できる。
【図面の簡単な説明】
【0009】
【
図1】
図1は、関連性を探索する方法の一例のフローチャートである。
【
図2】
図2は、関連性探索装置の一例の構成図である。
【
図3A】
図3Aは、第1のデータベースのグラフ構造の一例である。
【
図3B】
図3Bは、第2のデータベースのグラフ構造の一例である。
【
図4】
図4は、治療薬を提示する方法の一例のフローチャートである。
【
図5】
図5は、治療薬提示装置の一例の構成図である。
【
図6A】
図6Aは、治療薬と変異遺伝子との関係がリアクションパスウェイによって関係づけられたデータベースの一例である。
【
図6B】
図6Bは、タンパク質-タンパク質相互作用データベースの一例である。
【
図7】
図7は、パス作用確率の計算方法の一例を説明するための図である。
【
図9A】
図9Aは、変異タンパク質の情報と、変異タンパク質と相互作用するタンパク質の情報と、変異タンパク質とタンパク質との相互作用情報とを有するデータベースの一例である。
【
図9B】
図9Bは、タンパク質の情報と、2つのタンパク質間の相互作用情報とを有するデータベースの一例である。
【
図9C】
図9Cは、ターゲットタンパク質の情報と、ターゲットタンパク質と相互作用するタンパク質の情報と、ターゲットタンパク質とタンパク質との相互作用情報とを有するデータベースの一例である。
【
図10】
図10は、作用確率の設定の一例を説明するためのフローチャートである。
【
図11A】
図11Aは、作用確率の設定方法の一例を説明するための図である(その1)。
【
図11B】
図11Bは、作用確率の設定方法の一例を説明するための図である(その2)。
【
図11C】
図11Cは、作用確率の設定方法の一例を説明するための図である(その3)。
【
図11D】
図11Dは、作用確率の設定方法の一例を説明するための図である(その4)。
【
図12】
図12は、学習方法の一例を説明するためのフローチャートである。
【
図13】
図13は、作用確率を反復的に少しずつ変更する理由の一例を説明するための図である。
【
図14】
図14は、友人関係を探索する方法の一例のフローチャートである。
【
図17】
図17は、開示の関連性探索装置の一例のハードウェア構成図である。
【
図18】
図18は、開示の関連性探索装置の他の一例のハードウェア構成図である。
【
図19】
図19は、開示の関連性探索装置の他の一例のハードウェア構成図である。
【発明を実施するための形態】
【0010】
(関連性探索方法、関連性探索装置、及び関連性探索プログラム)
本件の関連性探索方法は、複数の要素と、複数の要素における2つの要素間の直接の関連性を示す関連性情報とをそれぞれに備える複数のデータベースを結合して、結合データベースを作成する。
関連性探索方法は、更に、結合データベースを用いて、直接に関連性がない2つの要素間の関連性を探索する。
関連性探索方法は、例えば、関連性があると判断された、直接に関連性がない2つの要素間の関連性を提示する。
【0011】
本件の関連性探索装置は、作成部と、探索部とを少なくとも備え、更に必要に応じて、提示部を備える。
作成部は、複数の要素と、複数の要素における2つの要素間の直接の関連性を示す関連性情報とをそれぞれに備える複数のデータベースを結合して、結合データベースを作成する。
探索部は、結合データベースを用いて、直接に関連性がない2つの要素間の関連性を探索する。
提示部は、関連性があると判断された、直接に関連性がない2つの要素間の関連性を提示する。
【0012】
本件の関連性探索プログラムは、コンピュータに、複数の要素と、複数の要素における2つの要素間の直接の関連性を示す関連性情報とをそれぞれに備える複数のデータベースを結合して、結合データベースを作成させる。
関連性探索プログラムは、更に、コンピュータに、結合データベースを用いて、直接に関連性がない2つの要素間の関連性を探索させる。
関連性探索プログラムは、例えば、更に、コンピュータに、直接に関連性がない2つの要素間の関連性を提示させる。
【0013】
結合データベースの構造は、例えば、要素をノードとし、関連性情報をエッジとするグラフ構造である。
【0014】
関連性情報は、例えば、2つの要素間の関連性の強さを表す情報である。
【0015】
なお、個々のデータベースには、全ての要素における全ての2つの組み合わせの関連性情報が存在している必要はない。
【0016】
開示の関連性探索方法、関連性探索装置、及び関連性探索プログラムにおいては、例えば、以下のようにして、単一のデータベースのみからでは調べることができない要素間の関連性を探索する。
図1に、関連性を探索する方法の一例のフローチャートを示す。
図2に、関連性探索装置1の構成図を示す。
【0017】
<工程S101>
まず、結合データベースの作成を行う(S101)。結合データベースの作成は、例えば、関連性探索装置1の作成部11において行われる。
工程S101では、例えば、
図3Aに示すグラフ構造を有する第1のデータベースと、
図3Bに示すグラフ構造を有する第2のデータベースとを結合し、
図3Cに示すグラフ構造を有する結合データベースを作成する。
第1のデータベースは、要素e1~要素e3と、2つの要素間の関連性情報k1~関連性情報k3とを有する。
図3Aに示すグラフ構造は、要素e1~要素e3をノードとし、関連性情報k1~関連性情報k3をエッジとするグラフ構造である。
第2のデータベースは、要素e2、要素e3、要素e11、及び要素e12と、2つの要素間の関連性情報k11~関連性情報k14とを有する。
図3Bに示すグラフ構造は、要素e2、要素e3、要素e11、及び要素e12をノードとし、関連性情報k11~関連性情報k14をエッジとするグラフ構造である。
結合データベースの作成では、例えば、重複する要素を一つの要素に統合する。
そうすると、第1のデータベースと第2のデータベースとを結合した結合データベースでは、
図3Cに示すように、要素e1、要素e2、要素e3、要素e11、及び要素e12と、2つの要素間の関連性情報k1、関連性情報k2、及び関連性情報k11~関連性情報k14とを有する。
図3Cに示すグラフ構造は、要素e1、要素e2、要素e3、要素e11、及び要素e12をノードとし、関連性情報k1、関連性情報k2、及び関連性情報k11~関連性情報k14をエッジとするグラフ構造である。
なお、結合データベースを作成する際、2つの要素間に異なる関連性情報がある場合(例えば、要素e2、要素e3との間に、異なる関連性情報k3と関連性情報k11とがある場合)、どちらの関連性情報を用いて結合データベースを作成してもよい。また、関連性情報は、結合データベースを作成した後に、学習データを用いて、更新することが好ましい。
【0018】
また、結合するデータベースの数は、2つに限られず、3つ以上であってもよい。
【0019】
<工程S102>
次に、結合データベースを用いて、直接に関連性がない2つの要素間の関連性を探索する(S102)。2つの要素間の関連性の探索は、例えば、関連性探索装置1の探索部12において行われる。
例えば、
図3Cに示すグラフ構造を有する結合データベースを用いて、直接に関連性がない要素e1と要素e11との関連性を探索する。この関連性は、
図3Aに示すグラフ構造を有する第1のデータベース単独、及び
図3Bに示すグラフ構造を有する第2のデータベース単独では見いだせない関連性である。要素e1と要素e11との関連性の強さは、例えば、要素e1及び要素e11間の一つの経路に存在する複数の関連性情報の合計により算出される。
【0020】
本件の関連性探索方法、関連性探索装置、及び関連性探索プログラムに用いるデータベースとしては、特に制限はなく、目的に応じて適宜選択することができ、例えば、以下のデータベースなどが挙げられる。
・タンパク質と、タンパク質間の相互作用情報とが収録されたデータベース
・人名と、人名間の友人関係とが収録されたデータベース
【0021】
関連性探索方法、関連性探索装置、及び関連性探索プログラムは、例えば、既存の単一のデータベースからは調べることができない、治療薬の探索・推薦、友人関係の探索などに用いることができる。
【0022】
<治療薬の探索・推薦>
関連性探索方法、関連性探索装置、及び関連性探索プログラムは、既存の単一のデータベースからは調べることができない、治療薬の探索・推薦に用いることができる。
【0023】
ガンなど遺伝子の変異が原因となって発症する病気は多い。遺伝子の変異は、患者の遺伝子解析を行うことで調べることができる。遺伝子の変異に起因する病気の治療に関しては、タンパク質に直接作用する分子標的治療薬が、効果を上げている。
【0024】
しかし、病気の原因となる変異のある遺伝子から生成されるタンパク質(以下、「変異タンパク質」と称することがある)と、分子標的治療薬が直接作用するタンパク質(以下、「ターゲットタンパク質」と称することがある)とは等しいとは限らない。そのため、遺伝子の変異に対して有効な分子標的治療薬を割り出すことが、有効な治療のために必要となる。
【0025】
従来、治療薬の探索は、作用が実験により確認されたパスウェイと呼ばれるタンパク質のパスが蓄積されているデータベースを用い、パスウェイの中から変異タンパク質からターゲットタンパク質までのパスを含むものを見つけ、それが有効であるかを精査するといった手順により行われている。パスウェイは作用の有無と種類とを示すものであり、それが直接に薬の有効性を示すものではないため、必ず医療知識保持者の介入が必要となる。
上記手順についてのコンピュータを用いた支援として、パスウェイデータベースからの検索を行うことで列挙を支援する方法、パスウェイの情報を利用して、ペトリネットなどの手法を用いてシミュレーションを行い、判断を支援する方法などが行われている。
しかし、これらの方法では、既知のパスウェイが前提となっている技術であるため、未知の薬効を発見できるものではない。
【0026】
他方、ベイジアンネットなどを用いて統計的にパスウェイを推定する方法も提案されている。
しかし、この方法で得られるものは、パスウェイのグラフ構造のみであり、既知のパスウェイに付随する分岐条件、合流条件など統計的に得られない情報が欠けている。
【0027】
また、タンパク質とタンパク質の1対1関係について、タンパク質の属性を調べることで薬効の有無を推定する方法が提案されている。
しかし、この方法では、複数のタンパク質の関係からなる(すなわち、経路長2以上の)パスについて推定を行うことはできない。
【0028】
開示の関連性探索方法、関連性探索装置、及び関連性探索プログラムの一例を用いることで、疾患に対して薬効のある治療薬を、既知の治療薬のみならず、未知の治療薬についても提示することが可能となる。以下にその方法を説明する。
【0029】
なお、以下において、関連性探索方法を治療薬の提示に用いる場合、治療薬提示方法と称する。関連性探索装置を治療薬の提示に用いる場合、治療薬提示装置と称する。関連性探索プログラムを治療薬の提示に用いる場合、治療薬提示プログラムと称する。
【0030】
開示の治療薬提示方法においては、まず、複数のタンパク質の情報と、複数のタンパク質における2つのタンパク質間の相互作用を示す相互作用情報とを備える複数のデータベースを結合して、結合データベースを作成する。
ここで、複数のデータベースは、以下(1)及び(2)の少なくともいずれかを満たす。
(1)複数のデータベースには、変異遺伝子から生成される変異タンパク質の情報を有するデータベース、及び治療薬が直接作用するターゲットタンパク質の情報を有するデータベースが含まれる。
(2)複数のデータベースには、変異遺伝子から生成される変異タンパク質の情報と、治療薬が直接作用するターゲットタンパク質の情報とを有するデータベースが含まれる。
そのため、結合データベースは、変異遺伝子から生成される変異タンパク質の情報と、治療薬が直接作用するターゲットタンパク質の情報とを有する。
治療薬提示方法においては、更に、結合データベースを用いて、変異タンパク質と、ターゲットタンパク質との関係性を探索する。
治療薬提示方法においては、更に、変異タンパク質に対して関係性があると判断されたターゲットタンパク質に作用する治療薬を、変異タンパク質に起因する疾患の治療薬として提示する。
なお、タンパク質の情報とは、例えば、タンパク質名、アミノ酸配列などが挙げられる。
【0031】
開示の治療薬提示装置においては、複数のタンパク質の情報と、複数のタンパク質における2つのタンパク質間の相互作用を示す相互作用情報とを備える複数のデータベースを結合して、結合データベースを作成する作成部を有する。
治療薬提示装置は、更に、結合データベースを用いて、変異タンパク質と、ターゲットタンパク質との関係性を探索する探索部を有する。
治療薬提示装置は、更に、変異タンパク質に対して関係性があると判断されたターゲットタンパク質に作用する治療薬を、変異タンパク質に起因する疾患の治療薬として提示する提示部を有する。
【0032】
開示の治療薬提示プログラムにおいては、まず、コンピュータに、複数のタンパク質の情報と、複数のタンパク質における2つのタンパク質間の相互作用を示す相互作用情報とを備える複数のデータベースを結合して、結合データベースを作成させる。
治療薬提示プログラムにおいては、更に、コンピュータに、結合データベースを用いて、変異タンパク質と、ターゲットタンパク質との関係性を探索させる。
治療薬提示プログラムにおいては、更に、コンピュータに、治療薬提示方法においては、変異タンパク質に対して関係性があると判断されたターゲットタンパク質に作用する治療薬を、変異タンパク質に起因する疾患の治療薬として提示させる。
【0033】
開示の治療薬提示方法、治療薬提示装置、及び治療薬提示プログラムにおいては、例えば、以下のようにして、疾患に対して薬効のある治療薬を、既知の治療薬のみならず、未知の治療薬についても提示する。
【0034】
図4に、治療薬を提示する方法の一例のフローチャートを示す。
図5に、治療薬提示装置の構成図を示す。
【0035】
<工程S201>
まず、結合データベースの作成を行う(S201)。結合データベースの作成は、例えば、治療薬提示装置2の作成部21において行われる。
工程S201では、例えば、
図6Aに示すデータベースD1と、
図6Bに示すデータベースD2とを結合し、
図6Cに示す結合データベースD3を作成する。
図6Aは、治療薬と変異遺伝子との関係がリアクションパスウェイによって関係づけられたデータベースD1である。
図6Aにおいて、P1~P5、P11~P15、P21~P25は、要素であるタンパク質を表す。
図6Aにおいて、i1~i4、i11~i14、i21~i24は、リアクションパスウェイを構成する個々の関連性情報である、2つのタンパク質間の相互作用を示す相互作用情報(タンパク質-タンパク質相互作用、以下「PPI」と称することがある)を表す。タンパク質P1は、変異遺伝子1から生成される変異タンパク質である。タンパク質P11は、変異遺伝子2から生成される変異タンパク質である。タンパク質P21は、変異遺伝子3から生成される変異タンパク質である。タンパク質P5は、治療薬1が直接作用するターゲットffタンパク質である。タンパク質P15は、治療薬2が直接作用するターゲットタンパク質である。タンパク質P25は、治療薬3が直接作用するターゲットタンパク質である。
図6Bは、タンパク質P3、P13、P23と、PPI(i31、i32)とを有するデータベースD2である。
図6Cに示す結合データベースD3では、データベースD1にデータベースD2を加えたことにより、データベースD1には存在しなかった、以下の6種類の新しいパスが生成されている。
(i)P1-P15間のパス
(ii)P1-P25間のパス
(iii)P11-P5間のパス
(iv)P11-P25間のパス
(v)P21-P5間のパス
(vi)P21-P15間のパス
【0036】
なお、結合するデータベースの数は、2つに限られず、3つ以上であってもよい。
【0037】
結合に使用されるデータベースの一例を以下に示す。
・Reactome:リアクションパスウェイのデータベース
・HiNT:タンパク質-タンパク質相互作用データベース(PPIデータベース)
・INstruct:タンパク質-タンパク質相互作用データベース(PPIデータベース)
・Guide To Pharmacology:治療薬と遺伝子のデータベース(治療薬が直接作用するターゲットタンパク質の情報を含んでいる)
【0038】
<工程S202>
次に、結合データベースを用いて、変異タンパク質と、ターゲットタンパク質との関係性を探索する(S202)。変異タンパク質と、ターゲットタンパク質との関係性の探索は、例えば、治療薬提示装置11の探索部12において行われる。
例えば、
図6Cに示す結合データベースD3を用いて、変異タンパク質とターゲットタンパク質との関係性を探索する。ここでの関係性とは、例えば、ターゲットタンパク質が変異タンパク質に及ぼす影響が挙げられる。そのような影響の強さは、例えば、変異タンパク質とターゲットタンパク質との間の経路に存在する複数の相互作用情報を統合して得られる。
例えば、変異タンパク質であるタンパク質P1と、ターゲットタンパク質であるタンパク質P15との間には、
図7に示すように、5つのPPI(i1、i2、i31、i13、i14)が存在する。そして、例えば、個々の相互作用の相対的な強さを作用確率とし、その作用確率が
図7に示すような確率であった場合、ターゲットタンパク質であるタンパク質P15との間のパスの作用確率は以下のように求められる。
パス作用確率=0.5×0.8×0.9×0.8×0.4=0.1152
変異タンパク質と、ターゲットタンパク質との関係性の探索は、例えば、存在する変異タンパク質-ターゲットタンパク質間の全てのパスについて行われてもよい。また、変異タンパク質と、ターゲットタンパク質との関係性の探索は、特定の変異タンパク質と、ターゲットタンパク質との間の全てのパスについて行われてもよい。
なお、作用確率の設定方法については、後述する。
【0039】
<工程S203>
次に、変異タンパク質に対して関係性があると判断されたターゲットタンパク質に作用する治療薬を、変異タンパク質に起因する疾患の治療薬として提示する(S203)。当該提示は、例えば、治療薬提示装置11の提示部13において行われる。
具体的には、例えば、特定の変異タンパク質-ターゲットタンパク質間の全てのパスについて求められたパス作用確率を一覧として表示することにより行われる。例えば、変異タンパク質1に起因する疾患に有効な治療薬を提示する場合、変異タンパク質1-ターゲットタンパク質(P1、P15、P25)間の全てのパスについて求められた個々のパス作用確率を、
図8に示すように、パス作用確率の数値が大きいものから順に並べた降順リストを作成し、表示する。
なお、特定の変異タンパク質と特定のターゲットタンパク質との間に複数のパスが存在する場合には、複数のパスから求められる複数のパス作用確率のうちで最も大きいパス作用確率を、特定の変異タンパク質と特定のターゲットタンパク質とのパス作用確率を代表するパス作用確率としてもよい(最尤推定)。
【0040】
そして、特定の変異タンパク質からパス作用確率が最も高いターゲットタンパク質を求めることは、以下の変換を与えることにより、変異タンパク質からターゲットタンパク質への最短パスのターゲットタンパク質を求めることと等価となる。すなわち、特定の変異タンパク質からパス作用確率の高いターゲットタンパク質を求めることは、最短経路問題に帰着させることができ、例えば、最短経路問題の古典的な解法であるダイクストラ法で解くことができる。
距離=C0・-log(作用確率)
なお、作用確率の高低を求める目的には定数C0の計算は不要である。
【0041】
<<データベースの結合の変形例>>
以下に、工程S201におけるデータベースの結合の変形例を示す。
図6A~
図6Cを用いた説明では、治療薬と変異遺伝子との関係がリアクションパスウェイによって関係づけられたデータベースD1を用いた。本変形例では、変異遺伝子から生成される変異タンパク質の情報を有するデータベースと、治療薬が直接作用するターゲットタンパク質の情報を有するデータベースと、2つのタンパク質間の相互作用を示す相互作用情報を有するデータベースを用いる。
図9Aに示すデータベースは、変異遺伝子から生成される変異タンパク質の情報と、変異タンパク質と相互作用するタンパク質の情報と、変異タンパク質とタンパク質との相互作用情報とを有するデータベースD4である。
図9Aにおいて、P31、P32、P41、P42、P51、P52は、タンパク質を表す。
図9Aにおいて、i41、i51、i61は、相互作用情報を表す。タンパク質P31は、変異遺伝子4から生成される変異タンパク質である。タンパク質P41は、変異遺伝子5から生成される変異タンパク質である。タンパク質P51は、変異遺伝子6から生成される変異タンパク質である。
図9Bに示すデータベースは、タンパク質の情報と、2つのタンパク質間の相互作用情報とを有するデータベースD5である。
図9Bにおいて、P31、P32、P33、P34、P35、P42、P43、P44、P45、P52、P53は、タンパク質を表す。
図9Bにおいて、i41、i42、i43、i44、i52、i53、i54、i62、i71、i72は、相互作用情報を表す。
図9Cに示すデータベースは、治療薬が直接作用するターゲットタンパク質の情報と、ターゲットタンパク質と相互作用するタンパク質の情報と、ターゲットタンパク質とタンパク質との相互作用情報とを有するデータベースD6である。
図9Cにおいて、P34、P35、P44、P45、P54、P55は、タンパク質を表す。
図9Cにおいて、i44、i54、i64は、相互作用情報を表す。
図9A、
図9B、及び
図9Cのデータベースを結合すると、
図9Dに示す結合データベースが得られる。
【0042】
<<作用確率の設定方法>>
工程202において、結合データベースを用いて、変異タンパク質と、ターゲットタンパク質との関係性を探索する際には、例えば、変異タンパク質とターゲットタンパク質との間の経路に存在する複数の相互作用情報から、変異タンパク質とターゲットタンパク質との相互作用の相対的な強さを求める。その際、個々の相互作用の相対的な強さ(個々の相互作用情報)である作用確率の積から、パス作用確率を求める。
その際の個々の作用確率は、例えば、ベイズ推定による機械学習により設定することができる。その方法の一例を以下に示す。
図10は、作用確率の設定の一例を説明するためのフローチャートである。
【0043】
-工程S301(結合データベースの作成)-
まず、準備段階として、複数のデータベースを結合して、結合データベースを作成する(S301)。
図11Aは、データベースを結合する様子の概念図である。
図11Aにおいては、リアクションパスウェイデータベース(DB)として、Reactomeを用い、PPIデータベースとしてHINT及びINstructを用いる。
結合データベースの構造は、例えば、タンパク質をノードとし、タンパク質-タンパク質相互作用(PPI)をエッジとするグラフ構造であり、グラフ構造の規模としては、例えば、ノード数が数万となり、エッジ数が数十万となる。
【0044】
-工程S302〔学習の準備段階(その1)〕-
作用確率の学習の準備段階(その1)として、結合データベースに対して、タンパク質-タンパク質相互作用(PPI)に作用確率の初期値を設定する(S302)。
この場合、各エッジの真の値は大きく異なる可能性があるため単一の初期値を与えることは危険である。また、作用確率を推定するうえで、訓練データとなる薬や症例ごとの薬効データには大きなバラつきがあるため、訓練データの多寡に応じて推定の精度を制御する必要がある。
そこで、作用確率としては単一の推定値を与えるのではなく、推定値の確率分布を与えることが好ましい。作用自体は有無を表すベルヌーイ分布で記述されるため、作用確率を表す確率分布はベルヌーイ分布の共役事前分布であるベータ分布を採ると利便性が高い(
図11B)。
図11Bは、タンパク質-タンパク質相互作用(PPI)に作用確率の初期値としてベータ分布を付与した状態を表す概念図である。
したがって、PPIの作用確率に事前分布としてベータ分布Be(α
PPI,β
PPI)を割り当てる。α
PPIとβ
PPIは分布のパラメータであり、期待値が0.1などの低い値となるように設定する。その確率密度関数は以下で表される〔ただし、Β(,)はベータ関数〕。
【数1】
【0045】
-工程S303〔学習の準備段階(その2)〕-
次に、作用確率の学習の準備段階(その2)として、既知のリアクションパスウェイ中のPPIの作用確率の事前分布を設定する。これは、既知のリアクションパスウェイは有効な薬効の機序となりえる有用性が高いため、既知のリアクションパスウェイ中のPPIの作用確率には高い事前分布を与えることが好ましいためである。ここで、既知のリアクションパスウェイは、パスウェイDBであるReactomeに収録された情報である。
既知のリアクションパスウェイ中に現れるPPIごとに、その作用確率を、ある程度高い確率、及び適切に設定した試行数で、ベイズ更新を行う(S303)。事前分布がベータ分布の確率密度関数f
prior(x;α,β)で表されるとき、成功率r(例えば、r=0.99)、試行数n(例えば、n=0.1)の試行を経ることによりベイズ更新された事後確率の密度関数はベイズの定理により次式のf
posterior(x;α,β)で求められる。これは閉じた形式で解けるため、計算は容易である。αは、薬効があった数を表し、βは、薬効がなかった数を表す。
【数2】
【0046】
なお、複数のリアクションパスウェイの間でPPIが重複する場合があるため、あるPPIのベイズ更新が複数回起こることがあり得る。
【0047】
-工程S304〔サブステップ(類似PPIへのベイズ更新の適用)〕-
リアクションパスウェイ中のPPIと類似するPPIは、リアクションパスウェイのPPIと同様に振る舞うことが期待される。それが学習データに含まれないPPIであれば、未知の薬効を推定するための手がかりとなりえる。類似するPPIとしては、例えば、リアクションパスウェイ中のPPIと同じドメイン間相互作用を持つPPIが挙げられる。ここでは、「同じドメイン間相互作用を持つPPIは似ている」という仮定を適用している。類似PPIの判定には、例えば、INstructデータベースのタンパク質ドメイン間相互作用の情報を用いる。
そこで、リアクションパスウェイのPPIによるベイズ更新の際には、そのPPIの類似PPIも弱く(=試行数を減じて)ベイズ更新する(S304)。例えば、成功率r(例えば、r=0.99)、試行数n(例えば、n=0.001)の試行を行う。そうすることで、知識の転用を行う。
【0048】
図11Cは、既知のリアクションパスウェイ中に現れるPPIの作用確率をベイズ更新する状態を表す概念図である。
【0049】
-工程S305(学習段階)-
学習段階として、学習データを用いて学習を行う(S305)。
学習は、例えば、以下の方法で行う。
図11Dは、以下の方法により、学習データを用いて学習を行う状態を表す概念図である。
図12は、以下の学習のフローチャートである。以下に、
図12のフローチャートを用いて、学習データを用いた学習の一例を説明する。
【0050】
--工程S401--
DGIdbデータベースとGuideToPharmacologyデータベースを用いて、既知の薬効のある変異タンパク質とターゲットタンパク質のペアの学習データを用意する(S401)。
【0051】
--工程S402--
次に、学習データから1エントリを選び、変異タンパク質とターゲットタンパク質とのパスを最尤推定する(S402)。これは、最短経路問題を解くことと等価である。
【0052】
--工程S403--
最尤推定したパス上のPPIに対し、ある程度高い確率と適切に設定した試行数でベイズ更新を行う(S403)。例えば、成功率r(例えば、r=0.99)、試行数n(例えば、n=0.3)の試行を行う。
【0053】
--工程S404--
工程S304と同様に、類似PPIについても弱くベイズ更新を行う(S404)。
【0054】
--工程S405--
工程S402~工程S404を、全エントリについて繰り返す(S405)。
【0055】
--工程S406--
ある変異タンパク質を選び、全てのターゲットタンパク質へのパス作用確率を列挙し、正例(学習データに存在するターゲットタンパク質)のパス作用確率が非正例のパス作用確率より低い場合、その正例のパスに属するPPIを比較的高い確率でベイズ更新する(S406)。例えば、成功率r(例えば、r=0.99)、試行数n(例えば、n=0.3)の試行を行う。
【0056】
--工程S407--
全ての変異タンパク質について工程S406を繰り返す(S407)。
【0057】
--工程S408--
ある変異タンパク質を選び、全てのターゲットタンパク質へのパス作用確率を列挙し、非正例のパス作用確率が正例のパス作用確率より高い場合、その非正例のパスに属するPPIを比較的低い確率でベイズ更新する(S408)。例えば、成功率r(例えば、r=0.10)、試行数n(例えば、n=0.3)の試行を行う。
【0058】
--工程S409--
全ての変異タンパク質について工程S409を繰り返す(S409)。
【0059】
--工程S410--
評価値(例えば、後述するRecall@kの平均)を求める(S410)。
【0060】
--工程S411--
そして、評価が改善している間、工程S402~工程S410を繰り返す。
ここで、Recall@kはデータ中の全正解のうち、上位k個までに正解の何%が含まれるかを表す性能評価指標である。値が大きいほど正確であることを意味する。
【0061】
ここで、作用確率を反復的に少しずつ変更する理由について述べる。
例えば、
図13のようなPPIがあり、変異タンパクAからターゲットタンパクBという学習データのエントリが現れた場合、最初はA-X-Bというパスが選ばれる
このとき、真のパスがA-Z-Y-Bであった場合、最初に選ばれたパスは誤りである。もし、最初にA-X-BというパスのPPIにあまりにも高い確率を割り当てた場合、A-Z-Y-Bというパスは二度と辿られることは無くなってしまう。
もし、確率の変更が少しであれば、他の学習データから、A-Z,Z-Y,Y-BのPPIが高確率に学習されるチャンスが残る。これは誤った局所解に落ちて脱出できないという状態を避けることを意味する。
【0062】
<友人関係の探索>
関連性探索方法、関連性探索装置、及び関連性探索プログラムは、既存の単一のデータベースからは調べることができない、友人関係の探索にも用いることができる。
【0063】
現代では、インターネット上に多くのSocial networking service(以下、「SNS」と称することがある)が存在している。それらは、独立に、友人関係の探索を行う機能を有する場合がある。
しかし、SNS同士をまたいで友人関係の探索を行うことはできない。
【0064】
開示の関連性探索方法、関連性探索装置、及び関連性探索プログラムの一例を用いることで、既存の単一のデータベースからは調べることができない友人関係を探索することが可能となる。以下にその方法を説明する。
【0065】
なお、以下において、関連性探索方法を友人関係の探索に用いる場合、友人探索方法と称する。関連性探索装置を友人関係の探索に用いる場合、友人探索装置と称する。関連性探索プログラムを友人関係の探索に用いる場合、友人探索プログラムと称する。
【0066】
開示の友人探索方法においては、まず、複数の人の情報と、複数の人における2人の間の直接の関連性を示す関連性情報とをそれぞれに備える複数のデータベースを結合して、結合データベースを作成する。
友人探索方法においては、更に、結合データベースを用いて、直接に関連性がない2人の間の関連性を探索する。
友人探索方法においては、例えば、更に、関連性があると判断された、直接に関連性がない2人の間の関連性を提示する。
【0067】
開示の友人探索装置においては、複数の人の情報と、複数の人における2人の間の直接の関連性を示す関連性情報とをそれぞれに備える複数のデータベースを結合して、結合データベースを作成する作成部を有する。
友人探索装置においては、更に、結合データベースを用いて、直接に関連性がない2人の間の関連性を探索する探索部を有する。
友人探索装置においては、例えば、更に、関連性があると判断された、直接に関連性がない2人の間の関連性を提示する提示部を有する。
【0068】
開示の友人探索プログラムは、コンピュータに、複数の人の情報と、複数の人における2人の間の直接の関連性を示す関連性情報とをそれぞれに備える複数のデータベースを結合して、結合データベースを作成させる。
友人探索プログラムにおいては、更に、結合データベースを用いて、直接に関連性がない2人の間の関連性を探索させる。
友人探索プログラムにおいては、例えば、更に、関連性があると判断された、直接に関連性がない2人の間の関連性を提示させる。
【0069】
結合データベースの構造は、例えば、人の情報をノードとし、関連性情報をエッジとするグラフ構造である。
【0070】
関連性情報は、例えば、2人の間の直接の関連性の強さを表す情報であり、例えば、共通する趣味、共通する友人の数、SNS内での会話の回数などが挙げられる。
【0071】
友人探索方法、友人探索装置、及び友人探索プログラムにおいては、例えば、以下のようにして、単一のデータベースのみからでは調べることができない要素間の関連性を探索する。
図14に、友人関係を探索する方法の一例のフローチャートを示す。
図15に、友人探索装置3の構成図を示す。
【0072】
<工程S501>
まず、結合データベースの作成を行う(S501)。結合データベースの作成は、例えば、友人探索装置3の作成部21において行われる。
工程S501では、例えば、
図16Aに示すグラフ構造を有する第1のデータベースと、
図16Bに示すグラフ構造を有する第2のデータベースとを結合し、
図16Cに示すグラフ構造を有する結合データベースを作成する。
第1のデータベースは、人情報h1~人情報h3と、2人の間の直接の関連性を示す関連性情報y1~関連性情報y3とを有する。
図16Aに示すグラフ構造は、人情報h1~人情報h3をノードとし、関連性情報y1~関連性情報y3をエッジとするグラフ構造である。
第2のデータベースは、人情報h2、人情報h3、人情報h11、及び人情報h12と、2人の間の直接の関連性を示す関連性情報y11~関連性情報y14とを有する。
図16Bに示すグラフ構造は、人情報h2、人情報h3、人情報h11、及び人情報h12をノードとし、2人の間の直接の関連性を示す関連性情報y11~関連性情報y14をエッジとするグラフ構造である。
結合データベースの作成では、例えば、重複する人情報を一つの人情報に統合する。
そうすると、第1のデータベースと第2のデータベースとを結合した結合データベースでは、
図16Cに示すように、人情報h1、人情報h2、人情報h3、人情報h11、及び人情報h12と、2人の間の直接の関連性を示す関連性情報y1、関連性情報y2、及び関連性情報y11~関連性情報y14とを有する。
図16Cに示すグラフ構造は、人情報h1、人情報h2、人情報h3、人情報h11、及び人情報h12をノードとし、関連性情報y1、関連性情報y2、及び関連性情報y11~関連性情報y14をエッジとするグラフ構造である。
なお、結合データベースを作成する際、2人の間の直接の関連性を示す関連性情報がある場合(例えば、人情報h2、人情報h3との間に、異なる関連性情報y3と関連性情報y11とがある場合)、どちらの関連性情報を用いて結合データベースを作成してもよい。
【0073】
また、結合するデータベースの数は、2つに限られず、3つ以上であってもよい。
【0074】
<工程S502>
次に、結合データベースを用いて、直接に関連性がない2人の間の関連性を探索する(S502)。2人の間の関連性の探索は、例えば、友人探索装置3の探索部32において行われる。
例えば、
図16Cに示すグラフ構造を有する結合データベースを用いて、直接に関連性がない人情報h1と人情報h11との関連性を探索する。この関連性は、
図16Aに示すグラフ構造を有する第1のデータベース単独、及び
図16Bに示すグラフ構造を有する第2のデータベース単独では見いだせない関連性である。人情報h1と人情報h11との関連性の強さは、例えば、人情報h1及び人情報h11間の一つの経路に存在する複数の関連性情報の合計により算出される。
【0075】
<工程S503>
次に、関連性があると判断された、直接に関連性がない2人の間の関連性を提示する(S503)。提示は、例えば、友人探索装置3の提示部33において行われる。
例えば、関連性の提示としては、例えば、共通する趣味、共通する友人の数の提示などが挙げられる。
【0076】
開示のプログラムは、使用するコンピュータシステムの構成及びオペレーティングシステムの種類・バージョンなどに応じて、公知の各種のプログラム言語を用いて作成することができる。
【0077】
開示のプログラムは、内蔵ハードディスク、外付けハードディスクなどの記録媒体に記録しておいてもよいし、CD-ROM(Compact Disc Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)、MOディスク(Magneto-Optical disk)、USBメモリ〔USB(Universal Serial Bus) flash drive〕などの記録媒体に記録しておいてもよい。プログラムをCD-ROM、DVD-ROM、MOディスク、USBメモリなどの記録媒体に記録する場合には、必要に応じて随時、コンピュータシステムが有する記録媒体読取装置を通じて、これを直接、又はハードディスクにインストールして使用することができる。また、コンピュータシステムから情報通信ネットワークを通じてアクセス可能な外部記憶領域(他のコンピュータ等)にプログラムを記録しておき、必要に応じて随時、外部記憶領域から情報通信ネットワークを通じてこれを直接、又はハードディスクにインストールして使用することもできる。
プログラムは、複数の記録媒体に、任意の処理毎に分割されて記録されていてもよい。
【0078】
開示のプログラムは、例えば、開示のコンピュータが読み取り可能な記録媒体に記録してなる。
コンピュータが読み取り可能な記録媒体としては、特に制限はなく、目的に応じて適宜選択することができ、例えば、内蔵ハードディスク、外付けハードディスク、CD-ROM、DVD-ROM、MOディスク、USBメモリなどが挙げられる。
記録媒体は、プログラムが任意の処理毎に分割されて記録された複数の記録媒体であってもよい。
【0079】
図17に、開示の関連性探索装置の一例を示す。
関連性探索装置10は、例えば、CPU11、メモリ12、記憶部13、表示部14、入力部15、出力部16、I/Oインターフェース部17等がシステムバス18を介して接続されて構成される。
【0080】
CPU(Central Processing Unit)11は、演算(四則演算、比較演算等)、ハードウエア及びソフトウエアの動作制御などを行う。
【0081】
メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)などのメモリである。RAMは、ROM及び記憶部13から読み出されたOS(Operating System)及びアプリケーションプログラムなどを記憶し、CPU11の主メモリ及びワークエリアとして機能する。
【0082】
記憶部13は、各種プログラム及びデータを記憶する装置であり、例えば、ハードディスクである。記憶部13には、CPU11が実行するプログラム、プログラム実行に必要なデータ、OSなどが格納される。
プログラムは、記憶部13に格納され、メモリ12のRAM(主メモリ)にロードされ、CPU11により実行される。
【0083】
表示部14は、表示装置であり、例えば、CRTモニタ、液晶パネル等のディスプレイ装置である。
入力部15は、各種データの入力装置であり、例えば、キーボード、ポインティングデバイス(例えば、マウス等)などである。
出力部16は、各種データの出力装置であり、例えば、プリンタである。
I/Oインターフェース部17は、各種の外部装置を接続するためのインターフェースである。例えば、CD-ROM、DVD-ROM、MOディスク、USBメモリなどのデータの入出力を可能にする。
【0084】
図18に、開示の関連性探索装置の他の一例を示す。
図18の一例は、クラウド型の構成例であり、CPU11が、記憶部13等とは独立している。この構成例では、ネットワークインターフェース部19、20を介して、記憶部13等を格納するコンピュータ30と、CPU11を格納するコンピュータ40とが接続される。
ネットワークインターフェース部19、20は、インターネットを利用して、通信を行うハードウェアである。
【0085】
図19に、開示の関連性探索装置の他の一例を示す。
図19の一例は、クラウド型の構成例であり、記憶部13が、CPU11等とは独立している。この構成例では、ネットワークインターフェース部19、20を介して、CPU11等を格納するコンピュータ30と、記憶部13を格納するコンピュータ40とが接続される。
【0086】
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
複数の要素と、前記複数の要素における2つの要素間の直接の関連性を示す関連性情報とをそれぞれに備える複数のデータベースを結合して、結合データベースを作成し、
前記結合データベースを用いて、直接に関連性がない2つの要素間の関連性を探索することを特徴とする関連性探索方法。
(付記2)
前記結合データベースの構造が、前記要素をノードとし、前記関連性情報をエッジとするグラフ構造である付記1に記載の関連性探索方法。
(付記3)
前記関連性があると判断された、前記直接に関連性がない2つの要素間の関連性を提示する付記1から2のいずれかに記載の関連性探索方法。
(付記4)
治療薬提示方法であって、
前記複数の要素が、複数のタンパク質の情報であり、
前記関連性情報が、前記複数のタンパク質における2つのタンパク質間の相互作用を示す相互作用情報であり、
前記複数のデータベースが、以下(1)及び(2)の少なくともいずれかを満たし、
前記関連性を探索することが、変異タンパク質と、ターゲットタンパク質との関係性を探索することであり、
更に、変異タンパク質に対して関係性があると判断されたターゲットタンパク質に作用する治療薬を、変異タンパク質に起因する疾患の治療薬として提示することを含む、付記1から2のいずれかに記載の関連性探索方法。
(1)前記複数のデータベースには、変異遺伝子から生成される前記変異タンパク質の情報を有するデータベース、及び治療薬が直接作用する前記ターゲットタンパク質の情報を有するデータベースが含まれる。
(2)前記複数のデータベースには、変異遺伝子から生成される前記変異タンパク質の情報と、治療薬が直接作用する前記ターゲットタンパク質の情報とを有するデータベースが含まれる。
(付記5)
前記結合データベースにおける個々の前記相互作用情報が、相互作用の相対的な強さを表す作用確率であり、
前記作用確率が、機械学習により設定される付記4に記載の関連性探索方法。
(付記6)
前記機械学習が、ベイズ推定による機械学習であり、
前記作用確率の初期値をベータ分布などの確率分布とし、高い作用確率を与える対象の相互作用情報の作用確率の初期値をベイズ更新した後に、学習データを用いて学習を行う、付記5に記載の関連性探索方法。
(付記7)
前記機械学習の際、更に、高い作用確率を与える対象の前記相互作用情報と類似する相互作用情報の作用確率の初期値に対して、高い作用確率を与える対象の前記相互作用情報の前記作用確率の前記初期値の前記ベイズ更新よりも弱いベイズ更新を行う、付記6に記載の関連性探索方法。
(付記8)
友人探索方法であって、
前記複数の要素が、複数の人の情報であり、
前記関連性情報が、前記複数の人における2人の間の直接の関連性を示す関連性情報であり、
前記関連性を探索することが、直接に関連性がない2人の間の関連性を探索することであり、
更に、前記関連性があると判断された、前記直接に関連性がない2人の間の関連性を提示することを含む、付記1に記載の関連性探索方法。
(付記9)
複数の要素と、前記複数の要素における2つの要素間の直接の関連性を示す関連性情報とをそれぞれに備える複数のデータベースを結合して、結合データベースを作成する作成部と、
前記結合データベースを用いて、直接に関連性がない2つの要素間の関連性を探索する探索部と、
を備えることを特徴とする関連性探索装置。
(付記10)
前記結合データベースの構造が、前記要素をノードとし、前記関連性情報をエッジとするグラフ構造である付記9に記載の関連性探索装置。
(付記11)
前記関連性があると判断された、前記直接に関連性がない2つの要素間の関連性を提示する提示部を有する付記9から10のいずれかに記載の関連性探索装置。
(付記12)
治療薬提示装置であって、
前記複数の要素が、複数のタンパク質の情報であり、
前記関連性情報が、複数のタンパク質における2つのタンパク質間の相互作用を示す相互作用情報であり、
前記複数のデータベースが、以下(1)及び(2)の少なくともいずれかを満たし、
前記関連性を探索することが、変異タンパク質と、ターゲットタンパク質との関係性を探索することであり、
更に、変異タンパク質に対して関係性があると判断されたターゲットタンパク質に作用する治療薬を、変異タンパク質に起因する疾患の治療薬として提示する提示部を備える、付記9から10のいずれかに記載の関連性探索装置。
(1)前記複数のデータベースには、変異遺伝子から生成される前記変異タンパク質の情報を有するデータベース、及び治療薬が直接作用する前記ターゲットタンパク質の情報を有するデータベースが含まれる。
(2)前記複数のデータベースには、変異遺伝子から生成される前記変異タンパク質の情報と、治療薬が直接作用する前記ターゲットタンパク質の情報とを有するデータベースが含まれる。
(付記13)
前記結合データベースにおける個々の前記相互作用情報が、相互作用の相対的な強さを表す作用確率であり、
前記作用確率が、機械学習により設定される付記12に記載の関連性探索装置。
(付記14)
前記機械学習が、ベイズ推定による機械学習であり、
前記作用確率の初期値をベータ分布などの確率分布とし、高い作用確率を与える対象の相互作用情報の作用確率の初期値をベイズ更新した後に、学習データを用いて学習を行う、付記13に記載の関連性探索装置。
(付記15)
前記機械学習の際、更に、高い作用確率を与える対象の前記相互作用情報と類似する相互作用情報の作用確率の初期値に対して、高い作用確率を与える対象の前記相互作用情報の前記作用確率の前記初期値の前記ベイズ更新よりも弱いベイズ更新を行う、付記14に記載の関連性探索装置。
(付記16)
友人探索装置であって、
前記複数の要素が、複数の人の情報であり、
前記関連性情報が、前記複数の人における2人の間の直接の関連性を示す関連性情報であり、
前記関連性を探索することが、直接に関連性がない2人の間の関連性を探索することであり、
更に、前記関連性があると判断された、前記直接に関連性がない2人の間の関連性を提示する提示部を備える、付記9に記載の関連性探索装置。
(付記17)
コンピュータに、
複数の要素と、前記複数の要素における2つの要素間の直接の関連性を示す関連性情報とをそれぞれに備える複数のデータベースを結合して、結合データベースを作成させ、
前記結合データベースを用いて、直接に関連性がない2つの要素間の関連性を探索させる、
ことを特徴とする関連性探索プログラム。
(付記18)
前記結合データベースの構造が、前記要素をノードとし、前記関連性情報をエッジとするグラフ構造である付記17に記載の関連性探索プログラム。
(付記19)
前記関連性があると判断された、前記直接に関連性がない2つの要素間の関連性を提示する付記17から18のいずれかに記載の関連性探索プログラム。
(付記20)
治療薬提示プログラムであって、
前記複数の要素が、複数のタンパク質の情報であり、
前記関連性情報が、複数のタンパク質における2つのタンパク質間の相互作用を示す相互作用情報であり、
前記複数のデータベースが、以下(1)及び(2)の少なくともいずれかを満たし、
前記関連性を探索することが、変異タンパク質と、ターゲットタンパク質との関係性を探索することであり、
更に、コンピュータに、変異タンパク質に対して関係性があると判断されたターゲットタンパク質に作用する治療薬を、変異タンパク質に起因する疾患の治療薬として提示させる、付記17から18のいずれかに記載の関連性探索プログラム。
(1)前記複数のデータベースには、変異遺伝子から生成される前記変異タンパク質の情報を有するデータベース、及び治療薬が直接作用する前記ターゲットタンパク質の情報を有するデータベースが含まれる。
(2)前記複数のデータベースには、変異遺伝子から生成される前記変異タンパク質の情報と、治療薬が直接作用する前記ターゲットタンパク質の情報とを有するデータベースが含まれる。
(付記21)
前記結合データベースにおける個々の前記相互作用情報が、相互作用の相対的な強さを表す作用確率であり、
前記作用確率が、機械学習により設定される付記20に記載の関連性探索プログラム。
(付記22)
前記機械学習が、ベイズ推定による機械学習であり、
前記作用確率の初期値をベータ分布などの確率分布とし、高い作用確率を与える対象の相互作用情報の作用確率の初期値をベイズ更新した後に、学習データを用いて学習を行う、付記21に記載の関連性探索プログラム。
(付記23)
前記機械学習の際、更に、高い作用確率を与える対象の前記相互作用情報と類似する相互作用情報の作用確率の初期値に対して、高い作用確率を与える対象の前記相互作用情報の前記作用確率の前記初期値の前記ベイズ更新よりも弱いベイズ更新を行う、付記22に記載の関連性探索プログラム。
(付記24)
友人探索プログラムであって、
前記複数の要素が、複数の人の情報であり、
前記関連性情報が、前記複数の人における2人の間の直接の関連性を示す関連性情報であり、
前記関連性を探索することが、直接に関連性がない2人の間の関連性を探索することであり、
更に、コンピュータに、前記関連性があると判断された、前記直接に関連性がない2人の間の関連性を提示させることを含む、付記17から18のいずれかに記載の関連性探索プログラム。
【符号の説明】
【0087】
1 関連性探索装置
2 治療薬提示装置
3 友人探索装置
11 作成部
21 作成部
31 作成部
12 探索部
22 探索部
23 提示部
33 提示部