(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024059395
(43)【公開日】2024-05-01
(54)【発明の名称】変動パスウェイデータベース生成装置、探索装置、変動パスウェイデータベース生成方法、探索方法、およびプログラム
(51)【国際特許分類】
G16B 50/30 20190101AFI20240423BHJP
G16B 5/20 20190101ALI20240423BHJP
【FI】
G16B50/30
G16B5/20
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022167053
(22)【出願日】2022-10-18
(71)【出願人】
【識別番号】518334060
【氏名又は名称】ソシウム株式会社
(74)【代理人】
【識別番号】100113549
【弁理士】
【氏名又は名称】鈴木 守
(74)【代理人】
【識別番号】100115808
【弁理士】
【氏名又は名称】加藤 真司
(72)【発明者】
【氏名】堀本 勝久
(57)【要約】 (修正有)
【課題】これまでに蓄積されたデータの活用を可能にした変動パスウェイデータベース生成装置及び変動パスウェイデータベース生成方法、探索装置及び探索方法並びにプログラムを提供する。
【解決手段】変動パスウェイデータベース生成装置1は、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するデータ収集部10と、疾患による遺伝子変動を算出する遺伝子変動算出部21と、遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出する変動遺伝子抽出22と、予め定められた複数のパスウェイについて、亢進遺伝子または抑制遺伝子を含有する有意確率を求めるパスウェイ解析部23と、複数のパスウェイのそれぞれが亢進遺伝子または抑制遺伝子を含有する有意確率のデータをデータファイル毎に対応付けた変動パスウェイデータベースを記憶する記憶部30と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するデータ収集部と、
前記データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患または化合物による遺伝子変動を算出する遺伝子変動算出部と、
遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出する変動遺伝子抽出部と、
予め定められた複数のパスウェイについて、前記亢進遺伝子または前記抑制遺伝子を含有する有意確率を求めるパスウェイ解析部と、
前記複数のパスウェイのそれぞれが前記亢進遺伝子または前記抑制遺伝子を含有する有意確率のデータを前記データファイルごとに対応付けた変動パスウェイデータベースを記憶する記憶部と、
を備える変動パスウェイデータベース生成装置。
【請求項2】
前記データファイルは、前記変動データを取得した条件のデータを含んでおり、
前記遺伝子変動算出部、前記変動遺伝子抽出部、前記パスウェイ解析部は、前記条件ごとに遺伝子の変動データを用いて処理を行い、前記記憶部は、前記条件ごと及び前記ファイルごとに前記変動パスウェイおよびその有意確率のデータを対応付ける請求項1に記載の変動パスウェイデータベース生成装置。
【請求項3】
前記変動遺伝子抽出部は、所定割合を複数設定し、複数の所定割合で前記亢進遺伝子および前記抑制遺伝子を抽出する請求項1に記載の変動パスウェイデータベース生成装置。
【請求項4】
請求項1に記載の変動パスウェイデータベース生成装置にて生成された変動パスウェイデータベースと、
遺伝子を特定するデータを入力する入力部と、
予め定められた複数のパスウェイから前記遺伝子を含有するパスウェイを抽出するパスウェイ抽出部と、
前記変動パスウェイデータベースを探索し、前記抽出されたパスウェイのそれぞれと疾患または化合物の有意確率を求め、前記抽出されたパスウェイと疾患または化合物との結合確率を求める結合確率算出部と、
前記結合確率に基づいて選択した疾患または化合物のデータを出力する出力部と、
を備える探索装置。
【請求項5】
前記結合確率の小さい方から順に所定数の疾患または化合物について結合確率を順位付けして隣接する順位の結合確率の差分値を求め、前記差分値の外れ値検定を行って有意結合確率を推定する有意結合確率推定部を備え、
前記出力部は、前記有意結合確率に基づいて選択した疾患または化合物のデータを出力する請求項4に記載の探索装置。
【請求項6】
変動パスウェイデータベース生成装置によって、疾患または化合物の変動パスウェイデータベースを生成する方法であって、
前記変動パスウェイデータベース生成装置が、仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するステップと、
前記変動パスウェイデータベース生成装置が、前記データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患または化合物による遺伝子変動を算出するステップと、
前記変動パスウェイデータベース生成装置が、遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出するステップと、
前記変動パスウェイデータベース生成装置が、予め定められた複数のパスウェイについて、前記亢進遺伝子または前記抑制遺伝子を含有する有意確率を求めるステップと、
前記変動パスウェイデータベース生成装置が、前記複数のパスウェイのそれぞれが前記亢進遺伝子または前記抑制遺伝子を含有する有意確率のデータを前記データファイルごとに対応付けた変動パスウェイデータベースを記憶部に記憶させるステップと、
を備える変動パスウェイデータベース生成方法。
【請求項7】
探索装置によって遺伝子に対応する疾患または化合物を探索する方法であって、
前記探索装置が、遺伝子を特定するデータを入力するステップと、
前記探索装置が、予め定められた複数のパスウェイから前記遺伝子を含有するパスウェイを抽出するステップと、
前記探索装置が、請求項6に記載の変動パスウェイデータベース生成方法にて生成された変動パスウェイデータベースを探索し、前記抽出されたパスウェイのそれぞれと疾患または化合物の有意確率を求め、前記抽出されたパスウェイと疾患または化合物との結合確率を求めるステップと、
前記探索装置が、前記結合確率に基づいて選択した疾患または化合物のデータを出力するステップと、
を備える探索方法。
【請求項8】
疾患または化合物の変動パスウェイデータベースを生成するためのプログラムであって、コンピュータに、
仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するステップと、
前記データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患または化合物による遺伝子変動を算出するステップと、
遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出するステップと、
予め定められた複数のパスウェイについて、前記亢進遺伝子または前記抑制遺伝子を含有する有意確率を求めるステップと、
前記複数のパスウェイのそれぞれが前記亢進遺伝子または前記抑制遺伝子を含有する有意確率のデータを前記データファイルごとに対応付けた変動パスウェイデータベースを記憶部に記憶させるステップと、
を実行させるプログラム。
【請求項9】
遺伝子に対応する疾患または化合物を探索するためのプログラムであって、コンピュータに、
遺伝子を特定するデータを入力するステップと、
予め定められた複数のパスウェイから前記遺伝子を含有するパスウェイを抽出するステップと、
請求項8に記載のプログラムをコンピュータにより実行して生成された変動パスウェイデータベースを探索し、前記抽出されたパスウェイのそれぞれと疾患または化合物の有意確率を求め、前記抽出されたパスウェイと疾患または化合物との結合確率を求めるステップと、
前記結合確率に基づいて選択した疾患または化合物のデータを出力するステップと、
を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、遺伝子の変動データと疾患または化合物との関連を示す知識情報を有効活用する技術に関する。
【背景技術】
【0002】
標的分子/化合物ペアの探索を基礎にする創薬アプローチと異なる、変動遺伝子群を基礎にするアプローチは、Broad InstituteとPfizerとの共同研究による「Connectivity Map」(非特許文献1)に始まる。この論文で、疾患の遺伝子発現とその疾患に薬効を示す化合物の関係性が発見・例証された。すなわち、疾患特異的遺伝子群で亢進する遺伝子群は、薬効を示す化合物の投与前後では抑制され、逆に疾患において抑制される遺伝子群は、化合物投与において亢進する、という「逆パターン」を示す。この関係を利用し、例えば、ある疾患の特異的変動遺伝子群の推定によって、化合物変動遺伝子データセットを準備すれば、当該疾患に薬効を示す化合物が推定できる。また、ある化合物の特異的変動遺伝子群の推定によって、疾患変動遺伝子データセットを準備すれば、その化合物が適応可能な疾患を推定できる。
【0003】
「Connectivity Map」では、多数の化合物投与前後の遺伝子変動データセットに対して、疾患遺伝子発現をqueryにして「逆パターン」を示す化合物を探索するために、全遺伝子の発現量に対して特異的遺伝子群の発現量分布の偏りを指標にして探索するアルゴリズムも搭載されいる(非特許文献1)。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Justin Lamb他「The Connectivity Map: Using Gene-Expression Signatures to Connect Small Molecules, Genes, and Disease」SCIENCE 29 Sep 2006 Vol 313, Issue 5795 pp. 1929-1935
【発明の概要】
【発明が解決しようとする課題】
【0005】
近年、生物機能を連動して発揮する分子群が「パスウェイ」と名付けられ、多数のパスウェイデータベースが構築されている。
【0006】
本発明では、従来の変動遺伝子群の代わりに、これら集積された知識であるパスウェイ情報を利活用する。機能が多様な遺伝子の集団である変動遺伝子群に比べ、明確な生物機能が定義されているパスウェイの変動を利用することで、疾患要因や化合物MoA(mechanism of action 作用機序)を直接的且つ簡潔に推定することが可能になる。例えば、ある化合物に関して推定された責任遺伝子名を入力し、その遺伝子を含有するパスウェイを自動的に選別し、そのパスウェイを利用して、疾患データに基づいて予め作成された疾患変動パスウェイデータセットを参照し、当該パスウェイが亢進または抑制されている疾患名を出力する。
【0007】
ここで、これまでに集積されたパスウェイ情報を利用するに際しての一つの課題は、現在までに蓄積された分子生物学の大量な知識と疾患及び薬剤変動計測データは、データの仕様が異なることである。
【0008】
本発明は、上記背景に鑑み、これまでに蓄積されたデータの活用を可能にした変動パスウェイデータベース生成装置を提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明の変動パスウェイデータベース生成装置は、仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するデータ収集部と、前記データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患または化合物による遺伝子変動を算出する遺伝子変動算出部と、遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出する変動遺伝子抽出部と、予め定められた複数のパスウェイについて、前記亢進遺伝子または前記抑制遺伝子を含有する有意確率を求めるパスウェイ解析部と、前記複数のパスウェイのそれぞれが前記亢進遺伝子または前記抑制遺伝子を含有する有意確率のデータを前記データファイルごとに対応付けた変動パスウェイデータベースを記憶する記憶部とを備える。
【0010】
この構成により、仕様の異なるデータベースから収集したデータを疾患ごとあるいは化合物ごとに丸めてしまうのではなく、収集したデータファイルに対応付けた変動パスウェイデータを有する変動パスウェイデータベースを生成するので、当該変動パスウェイデータベースを利用して適切に疾患または化合物を探索することが可能となる。
【0011】
本発明の変動パスウェイデータベース生成装置において、前記データファイルは、前記変動データを取得した条件のデータを含んでおり、前記遺伝子変動算出部、前記変動遺伝子抽出部、前記パスウェイ解析部は、前記条件ごとに遺伝子の変動データを用いて処理を行い、前記記憶部は、前記条件ごと及び前記ファイルごとに前記変動パスウェイおよびその有意確率のデータを対応付けてもよい。
【0012】
本発明の変動パスウェイデータベース生成装置において、前記変動遺伝子抽出部は、所定割合を複数設定し、複数の所定割合で前記亢進遺伝子および前記抑制遺伝子を抽出してもよい。
【0013】
本発明の探索装置は、上記した変動パスウェイデータベース生成装置にて生成された変動パスウェイデータベースと、遺伝子を特定するデータを入力する入力部と、予め定められた複数のパスウェイから前記遺伝子を含有するパスウェイを抽出するパスウェイ抽出部と、前記変動パスウェイデータベースを探索し、前記抽出されたパスウェイのそれぞれと疾患または化合物の有意確率を求め、前記抽出されたパスウェイと疾患または化合物との結合確率を求める結合確率算出部と、前記結合確率に基づいて選択した疾患または化合物のデータを出力する出力部とを備える。この構成により、入力部より入力された遺伝子を含有する複数のパスウェイの有意確率の結合確率に基づいて、当該遺伝子に関連する疾患または化合物を求めることができる。
【0014】
本発明の探索装置は、前記結合確率の小さい方から順に所定数の疾患または化合物について結合確率を順位付けして隣接する順位の結合確率の差分値を求め、前記差分値の外れ値検定を行って有意結合確率を推定する有意結合確率推定部を備え、前記出力部は、前記有意結合確率および前記有意結合確率に対応する疾患名または化合物名を出力してもよい。
【0015】
本発明の変動パスウェイデータベース生成方法は、変動パスウェイデータベース生成装置によって、疾患または化合物の変動パスウェイデータベースを生成する方法であって、前記変動パスウェイデータベース生成装置が、仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するステップと、前記変動パスウェイデータベース生成装置が、前記データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患または化合物による遺伝子変動を算出するステップと、前記変動パスウェイデータベース生成装置が、遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出するステップと、前記変動パスウェイデータベース生成装置が、予め定められた複数のパスウェイについて、前記亢進遺伝子または前記抑制遺伝子を含有する有意確率を求めるステップと、前記変動パスウェイデータベース生成装置が、前記複数のパスウェイのそれぞれが前記亢進遺伝子または前記抑制遺伝子を含有する有意確率のデータを前記データファイルごとに対応付けた変動パスウェイデータベースを記憶部に記憶させるステップとを備える。
【0016】
本発明の探索方法は、探索装置によって遺伝子に対応する疾患または化合物を探索する方法であって、前記探索装置が、遺伝子を特定するデータを入力するステップと、前記探索装置が、予め定められた複数のパスウェイから前記遺伝子を含有するパスウェイを抽出するステップと、前記探索装置が、上記した変動パスウェイデータベース生成方法にて生成された変動パスウェイデータベースを探索し、前記抽出されたパスウェイのそれぞれと疾患または化合物の有意確率を求め、前記抽出されたパスウェイと疾患または化合物との結合確率を求めるステップと、前記探索装置が、前記結合確率に基づいて選択した疾患または化合物のデータを出力するステップとを備える。
【0017】
本発明のプログラムは、疾患または化合物の変動パスウェイデータベースを生成するためのプログラムであって、コンピュータに、仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するステップと、前記データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患または化合物による遺伝子変動を算出するステップと、遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出するステップと、予め定められた複数のパスウェイについて、前記亢進遺伝子または前記抑制遺伝子を含有する有意確率を求めるステップと、前記複数のパスウェイのそれぞれが前記亢進遺伝子または前記抑制遺伝子を含有する有意確率のデータを前記データファイルごとに対応付けた変動パスウェイデータベースを記憶部に記憶させるステップとを実行させる。
【0018】
本発明のプログラムは、遺伝子に対応する疾患または化合物を探索するためのプログラムであって、コンピュータに、遺伝子を特定するデータを入力するステップと、予め定められた複数のパスウェイから前記遺伝子を含有するパスウェイを抽出するステップと、上記したプログラムをコンピュータにより実行して生成された変動パスウェイデータベースを探索し、前記抽出されたパスウェイのそれぞれと疾患または化合物の有意確率を求め、前記抽出されたパスウェイと疾患または化合物との結合確率を求めるステップと、前記結合確率に基づいて選択した疾患または化合物のデータを出力するステップとを実行させる。
【図面の簡単な説明】
【0019】
【
図1】
図1は、実施の形態の変動パスウェイデータベース生成装置の構成を示す図である。
【
図2】
図2は、実施の形態の変動パスウェイデータベース生成装置のデータ収集部にて整備されたデータを示す図である。
【
図3】
図3は、疾患による遺伝子変動の算出例を示す図である。
【
図4】
図4は、実施の形態の変動パスウェイデータベース生成装置の記憶部に記憶されたデータの例を示す図である。
【
図5】
図5は、実施の形態の変動パスウェイデータベース生成装置の動作を示すにフローチャートである。
【
図6】
図6は、実施の形態の探索装置の構成を示す図である。
【
図7】
図7は、責任遺伝子を含有するパスウェイが3パスウェイであった場合の結合確率の算出例を示す図である。
【
図8】
図8は、責任遺伝子を含有するパスウェイに対応する疾患リストである。
【
図9】
図9は、有意結合確率推定部の処理について説明するための図である。
【
図10】
図10は、実施の形態の探索装置の動作を示すフローチャートである。
【発明を実施するための形態】
【0020】
以下、本発明の実施の形態に係る変動パスウェイデータベース生成装置および探索装置について、図面を参照しながら説明する。以下の説明では、変動パスウェイデータベース生成装置は、疾患に基づく変動パスウェイデータベースを生成する装置を例とする。また、探索装置は、入力された遺伝子のデータに基づき、関連する疾患の候補を探索する装置を例とする。
【0021】
(変動パスウェイデータベース生成装置)
図1は、本実施の形態の変動パスウェイデータベース生成装置1の構成を示す図である。変動パスウェイデータベース生成装置1は、データ収集部10と、演算部20と、記憶部30と、出力部40とを備える。演算部20は、遺伝子変動算出部21と、変動遺伝子抽出部22と、パスウェイ解析部23とを有する。
【0022】
データ収集部10は、既存の仕様の異なる複数のデータベースから、疾患に関連付けられた遺伝子の発現量の変動データを収めたデータファイルを収集する。データ収集部10は、例えば、スクレイピングなどにより半自動的にデータを収集する。データ収集部10は、収集したデータのキュレーションを行い、サンプル名毎の分別を行う。
【0023】
図2は、データ収集部10で収集されたデータの例を示す図である。
図2に示す例では、疾患D1についてデータファイルS1とS2が得られ、疾患D2についてデータS1が得られ、疾患D3についてデータS1が得られている。また、疾患D1のデータファイルS1については、対照データと条件1と条件2のデータが得られ、データファイルS2については対照データと条件1~3のデータが得られている。ここで、対照データは、疾患のないコントロール群から得られた遺伝子の変動データである。条件は、遺伝子の変動データを取得した条件を示している。ここで、条件とは、例えば、疾患データの場合であれば、患者重症度や試料採取部位などであり、後述する薬剤データの場合は、投与薬剤の濃度や投与時点などである。
【0024】
演算部20の遺伝子変動算出部21は、該データファイルごとに、疾患に関連付けられた遺伝子の変動データを対照データと比較して、疾患による遺伝子変動を算出する。
【0025】
図3は、疾患による遺伝子変動の算出例を示す図である。遺伝子変動算出部21は、各疾患のデータファイル毎に、対照データと条件データとを比較し、各遺伝子の発現量の変動を算出する。
図3では、疾患D1のデータファイルS1における条件1データについて変動データを算出した例を示している。gene_1~gene_15694の各遺伝子について、コントロール群に対する変動割合r_1~r_15694を算出している。
【0026】
変動遺伝子抽出部22は、遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出する。本実施の形態では、所定割合として1%、5%、10%の3パターンを用いる。
【0027】
変動遺伝子抽出部22は、遺伝子変動算出部21で求めた変動割合を大きい順に並べ、上位から1%、5%、10%の遺伝子を亢進遺伝子とし、下位から1%、5%、10%の遺伝子を抑制遺伝子として抽出する。1%、5%、10%の3パターンにおいて亢進遺伝子、抑制遺伝子を求めているのは、上位または下位の何%を採用するかによって、次に説明するパスウェイ解析の結果が異なることがあり、変動パスウェイデータベースを利用するユーザがいくつかのパターンで探索を行えると便利だからである。
【0028】
パスウェイ解析部23は、パスウェイに亢進遺伝子または抑制遺伝子を含む有意確率を求める。パスウェイの有意確率は、亢進遺伝子または抑制遺伝子の各パスウェイでの含有割合を超幾何分布に基づいて算出した確率である。パスウェイのデータは、例えば、KEGG Pathway Databaseなどのような既存のデータベースが存在しており、パスウェイが含有する遺伝子のデータは既知である。パスウェイ解析部23は、こうした既存のデータベースを利用して亢進遺伝子または抑制遺伝子が含まれる有意確率を求める。パスウェイ解析部23は、解析した結果を記憶部30に記憶する。記憶部30に記憶されたデータが、変動パスウェイデータベース生成装置1によって生成される変動パスウェイデータベース(以下、「変動パスウェイDB」という。)である。
【0029】
図4は、記憶部30に記憶されたパスウェイ解析結果のデータの例を示す図である。
図4に示すように、パスウェイ解析結果は、疾患のデータファイルごとに、条件、亢進/抑制、割合、遺伝子名セット、パスウェイ、有意確率の項目を有している。すでに説明したところと重複するが、条件は、データファイルの遺伝子変動データを取得した条件を示すデータであり、亢進/抑制と割合は、亢進遺伝子、抑制遺伝子として、遺伝子変動の順位が上位または下位の何%を用いたかを示すデータである。遺伝子名セットは、亢進遺伝子のセット、抑制遺伝子のセットを示し、パスウェイと含有確率は、各パスウェイに亢進遺伝子または抑制遺伝子を含有する有意確率を示す。
【0030】
上述したとおり、記憶部30には、データファイルごとにデータが記憶される。したがって、収納されるファイル数は、(疾患数)×(データファイル数)×(対照データおよび条件データのペア数)×(所定の割合の段階数)×2(亢進・抑制)となる。本実施の形態では、疾患および条件が同じ場合であってもデータファイルごとにパスウェイ解析を行って、その結果を記憶する。疾患および条件が同じであっても、亢進遺伝子または抑制遺伝子の遺伝子名セットが異なり、各パスウェイの有意確率が異なる。このように変動パスウェイデータベースには、収集したデータファイルごとの仕様の違いが残されており、後述する探索装置によって疾患を探索する際に適切にメタ解析を行える。
【0031】
図5は、変動パスウェイデータベース生成装置1の動作を示すフローチャートである。
変動パスウェイデータベース生成装置1のデータ収集部10は、オープンデータから、疾患の変動データを収集し、対照データと所定の条件で取得した変動データを収納したデータファイル(
図2参照)を記憶する(S1)。
【0032】
変動パスウェイデータベース生成装置1の遺伝子変動算出部21は、収集したデータの対照データと条件データの比を算出し、遺伝子変動の算出を行う(S2)。変動パスウェイデータベース生成装置1の変動遺伝子抽出部22は、遺伝子変動データに基づいて、亢進遺伝子と抑制遺伝子を抽出する(S3)。具体的には、遺伝子変動データの大きさに基づいて遺伝子を並び替え、その上位の所定割合の遺伝子を亢進遺伝子、下位の所定割合の遺伝子を抑制遺伝子として求める。本実施の形態では、所定割合については、1%、5%、10%の3段階とし、各割合に対して亢進遺伝子および抑制遺伝子を求めた。
【0033】
変動パスウェイデータベース生成装置1のパスウェイ解析部23は、亢進遺伝子および抑制遺伝子の各遺伝子名セットについて、パスウェイ解析を実行し、全パスウェイについて、当該亢進遺伝子および抑制遺伝子が含まれる有意確率を算出し(S4)、算出した有意確率を記憶部30に記憶する。
【0034】
(探索装置)
図6は、実施の形態の探索装置100の構成を示す図である。探索装置100は、責任遺伝子の入力を受け付けると、その遺伝子を含有するパスウェイを自動的に選別し、そのパスウェイを利用して、変動パスウェイデータベース生成装置1により予め作成された変動パスウェイデータベースを参照し、当該パスウェイが亢進または抑制されている疾患名を出力する。
【0035】
探索装置100は、入力部110と、演算部120と、変動パスウェイDB130と、出力部140と、参照データベース(以下、「参照DB」という。)150とを備える。演算部120は、パスウェイ抽出部121と結合確率算出部122と有意結合確率推定部123とを備えている。
【0036】
探索装置100の入力部110は、対象疾患を求めたい責任遺伝子のデータの入力を受け付ける。変動パスウェイDB130は、上記で述べた変動パスウェイデータベース生成装置1によって生成された変動パスウェイDBを記憶している。参照DB150は、パスウェイとその構成遺伝子とを対応付けて記憶したテーブルである。パスウェイ抽出部121は、参照DB150を参照して、入力部110にて入力された遺伝子を含有する複数のパスウェイを抽出する。
【0037】
結合確率算出部122は、変動パスウェイDB130を探索し、疾患ごとに複数のパスウェイのそれぞれの有意確率を求め、当該有意確率を結合して疾患に対する結合確率を求める。具体的には、結合確率算出部122は、パスウェイ解析に用いるデータの条件(例えば、条件1、条件2等)と、亢進遺伝子または抑制遺伝子として用いる割合(例えば、上位1%等)の設定を受け付ける。結合確率算出部122は、設定された条件および割合のデータの中から、入力された責任遺伝子を含有するパスウェイを探索し、そのパスウェイの有意確率を読み出す。続いて、結合確率算出部122は、各パスウェイの有意確率を結合して、結合確率を算出する。
【0038】
図7は、責任遺伝子を含有するパスウェイが3パスウェイであった場合の結合確率の算出例を示す図である。疾患D1について見ると、パスウェイ1の有意確率がp11,パスウェイ2の有意確率がp12,パスウェイ3の有意確率がp13であり、これらの結合確率がq1である。すなわち、疾患D1の結合確率は、q1である。同様に疾患D2の結合確率はq2である。ここでは疾患D1,D2についてのみ記載しているが、結合確率算出部122は、全疾患について結合確率qを求める。
【0039】
有意結合確率推定部123は、全疾患についての結合確率のうち、統計的に有意な結合確率を推定する。統計的に有意な結合確率を有する疾患が本実施の形態の探索装置100によって探索すべき疾患である。
【0040】
図8は、責任遺伝子を含有するパスウェイに対応する疾患リストであり、各疾患について結合確率が求められている。どの疾患を責任遺伝子と関連のある疾患であるとして探索するかは課題の一つである。疾患を絞り込みすぎると重要な適応疾患が漏れる可能性があり、逆に疾患が多すぎると探索された疾患についての検証に労力がかかる。本実施の形態の探索装置100は、結合確率qの絶対値を用いるのではなく、結合確率qの差分値について外れ値を検定することで、有意結合確率を推定する。
【0041】
図9は、有意結合確率推定部123の処理を説明するための図である。有意結合確率推定部123は、結合確率算出部122にて求めた複数の疾患の結合確率について、小さい方から所定数の疾患の結合確率のlog値(log
10(q))を算出し、log値を小さい順に並べる。log値を用いることにより、極めて小さな値であるq値を適切に扱うことができる。
【0042】
図9に示す例では、log値が小さい方から疾患D1,D2,D3,・・・となっている。例えば、結合確率算出部122は、小さい方から51番目までの結合確率について有意結合確率を推定する。この所定数は、ユーザが任意に設定することができる。
【0043】
次に、有意結合確率推定部123は、隣接する順位の結合確率の差分値を求める。疾患D1の結合確率と疾患D2の結合確率の差分値Δ、疾患D2の結合確率と疾患D3の結合確率の差分値Δ,・・・といった要領である。続いて、有意結合確率推定部123は差分値Δについて外れ値検定を行う。外れ値検定の有意確率はユーザが任意に設定することができる。本実施の形態では、有意確率を0.01とする。
【0044】
有意結合確率推定部123は、外れ値のうち最も大きな外れ値を示した順位を探索し、その(順位-1)までを有意結合確率とする。例えば、順位1位と2位の差分値、順位2位と3位の差分値、順位5位と6位の差分値が、外れ値検定により外れ値であると求められた場合には、順位6位-1=順位5位までを有意結合確率とする。結合確率の絶対値は組み合わせる確率の数に依存するが、本実施の形態では、差分値の外れ値検定を採用するにより、適切な評価を行うことができる。
【0045】
図10は、探索装置100の動作を示すフローチャートである。探索装置100の入力部110は、責任遺伝子の入力を受け付ける(S11)。探索装置100は、参照DB150に格納されている既存のパスウェイ/構成遺伝子名のテーブルを参照して、入力された責任遺伝子を含有するパスウェイを抽出する(S12)。ここで、本実施の形態においてテーブルは参照DB150として格納されているが、インターネットを通じて外部の既存のデータベース(例えば、上述したKEGG Pathway Database等)を参照してもよい。
【0046】
次に、探索装置100は、遺伝子変動データの条件、および、上位何%の変動データを亢進遺伝子/抑制遺伝子とするかの検索条件の設定を受け付ける(S13)。探索装置100は、検索条件にマッチするデータの中から、責任遺伝子を遺伝子セットに一致するパスウェイデータファイルを読み出し、読み出したパスウェイの有意確率を結合して、疾患の結合確率を算出する(S14)。続いて、探索装置100は、抽出された複数の疾患のうち、結合確率が統計的に有意な結合有意確率を推定し(S15)、出力する疾患名を求める。探索装置100は、求めた疾患名を出力する(S16)。ここで、出力部140は、疾患名および結合確率のデータを数値が入力された表として出力してもよいし、対数グラフとして出力してもよい。
【0047】
以上、本実施の形態の変動パスウェイデータベース生成装置1および探索装置100について説明した。本実施の形態の変動データベース生成装置1は、仕様の異なる複数のデータベースから収集したデータを用いて、変動データベースを生成する。この際、データファイルごとに遺伝子名セットおよびパスウェイの有意確率のデータを記憶しておく。すなわち、仕様の異なる複数のデータを無理に統合することなく、複数のデータファイルとして持っておく。そして、探索装置100は、変動パスウェイデータベース生成装置が生成した変動パスウェイDB130を用いて責任遺伝子を含有する複数のパスウェイの結合有意確率を求めることにより、適切なメタ解析により関連疾患を求めることができる。
【0048】
本実施の形態の探索装置100によれば、複数の疾患についての結合確率を考慮して責任遺伝子に対応する関連疾患を適切に求めることができる。
【0049】
なお、上記した実施の形態では、疾患に基づいて変動する遺伝子変動データを用いて変動パスウェイDBを生成し、変動パスウェイDBを用いて責任遺伝子に対応する関連疾患を求める例を挙げたが、本発明は、責任遺伝子に作用する薬剤を求めるためにも適用することが可能である。この場合には、変動パスウェイデータベース生成装置は、化合物に基づいて変動する遺伝子変動データを用いて変動パスウェイDBを生成し、変動パスウェイDBを用いて責任遺伝子に対応する化合物(すなわち薬剤)を求める。
【0050】
この構成により、疾患に有効な薬剤の候補を推定でき、例えば、既存薬剤について別の適応疾患を探索するのにも役立つ。特に、希少疾患においては、有効な薬剤の探索は進んでいないが、本発明によれば、多くの労力をかけることなく希少疾患に有効な薬剤を推定できる。
【実施例0051】
以下、本実施の形態の探索装置の実施例について説明する。探索に使用する変動パスウェイDBは、予め上述した方法を用いて作成した。実施例では、変動パスウェイDBを用いて、HER2B阻害薬の適応疾患を推定する。責任遺伝子としてHER2Bを入力した。疾患の検索条件としては、5%亢進を設定した。
【0052】
探索装置は、HER2Bを含有する次の5つのパスウェイを抽出し、探索を開始した。
【表1】
探索装置は、抽出した5つのパスウェイに対して、次のように疾患名およびその結合確率を推定した。なお、ここでは実際の疾患名は伏せている。
【表2】
【0053】
探索装置は、50位までの差分値群について外れ値検定を実行した。
【表3】
【0054】
外れ値検定の結果、3つの外れ値が検出された。外れ値が検出された順位のうち、最も大きい順位は10位であった。したがって、遺伝子名HER2Bを含有するパスウェイが有意に亢進している疾患は、(10位-1)の9疾患であると推定した。探索装置は、HER2B阻害剤は、これらの9つの疾患群に対し薬効を示す可能性が高いと推定できた。