特開2017-102910(P2017-102910A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 公益財団法人かずさDNA研究所の特許一覧 ▶ 公立大学法人大阪府立大学の特許一覧

<>
  • 特開2017102910-相関ネットワーク解析プログラム 図000011
  • 特開2017102910-相関ネットワーク解析プログラム 図000012
  • 特開2017102910-相関ネットワーク解析プログラム 図000013
  • 特開2017102910-相関ネットワーク解析プログラム 図000014
  • 特開2017102910-相関ネットワーク解析プログラム 図000015
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2017-102910(P2017-102910A)
(43)【公開日】2017年6月8日
(54)【発明の名称】相関ネットワーク解析プログラム
(51)【国際特許分類】
   G06F 19/12 20110101AFI20170512BHJP
【FI】
   G06F19/12
【審査請求】未請求
【請求項の数】11
【出願形態】OL
【全頁数】20
(21)【出願番号】特願2016-207785(P2016-207785)
(22)【出願日】2016年10月24日
(31)【優先権主張番号】特願2015-226403(P2015-226403)
(32)【優先日】2015年11月19日
(33)【優先権主張国】JP
(71)【出願人】
【識別番号】596175810
【氏名又は名称】公益財団法人かずさDNA研究所
(71)【出願人】
【識別番号】505127721
【氏名又は名称】公立大学法人大阪府立大学
(74)【代理人】
【識別番号】100100181
【弁理士】
【氏名又は名称】阿部 正博
(72)【発明者】
【氏名】鈴木 秀幸
(72)【発明者】
【氏名】萬年 一斗
(72)【発明者】
【氏名】柴田 大輔
(72)【発明者】
【氏名】尾形 善之
(57)【要約】      (修正有)
【課題】多変量データの相関ネットワーク解析に於いて、より適切なサイズのモジュールをより多く形成・検出できる新たなプログラム及び方法等を提供する。
【解決手段】多変量データを相関ネットワーク解析するためにコンピュータに、多変量データにおける個々のデータ(要素)間の相関行列に基づき、ネットワークF値(NF)及び要素F値(VF)を用いて、或る要素に対して、一定のサイズ(モジュールに含まれる要素の数)の範囲に於いて最大のネットワークF値(NF)を有するモジュールを形成するステップ1、要素F値(VF)に基づきネットワークを再構築して、ステップ1で形成されたモジュールを統合化するステップ2及び要素特異率(VS)に基づき、ステップ2で統合化されたモジュール群に該モジュールの周縁要素を一定条件下で関連付けて、最終的なモジュール群を形成するステップ3、を実行させるためのプログラム。
【選択図】図2
【特許請求の範囲】
【請求項1】
多変量データを相関ネットワーク解析するためにコンピュータに、
(1)多変量データにおける個々のデータ(要素)間の相関行列に基づき、ネットワークF値(NF)及び要素F値(VF)を用いて、或る要素に対して、一定のサイズ(モジュールに含まれる要素の数)の範囲に於いて最大のネットワークF値(NF)を有するモジュールを形成するステップ、
(2)要素F値(VF)に基づきネットワークを再構築して、ステップ(1)で形成されたモジュールを統合化するステップ、及び
(3)要素特異率(VS)に基づき、ステップ(2)で統合化されたモジュール群に該モジュールの周縁要素を一定条件下で関連付けて、最終的なモジュール群を形成するステップ、
を実行させるためのプログラム。
【請求項2】
多変量データを相関ネットワーク解析するためにコンピュータを、
(1)多変量データにおける個々のデータ(要素)間の相関行列に基づき、ネットワークF値(NF)及び要素F値(VF)を用いて、或る要素に対して、一定のサイズ(モジュールに含まれる要素の数)の範囲に於いて最大のネットワークF値(NF)を有するモジュールを形成する手段、
(2)要素F値(VF)に基づきネットワークを再構築して、手段(1)で形成されたモジュールを統合化する手段、及び
(3)要素特異率(VS)に基づき、手段(2)で統合化されたモジュール群に該モジュールの周縁要素を一定条件下で関連付けて、最終的なモジュール群を形成する手段、
として機能させるためのプログラム。
【請求項3】
更に、(4)コンピュータに、ステップ(3)で得られたモジュール群を含むネットワーク(マップ)を描画(表示処理)するステップを実行させること、又は、(4)コンピュータが、手段(3)で得られたモジュール群を含むネットワーク(マップ)を描画(表示処理)する出力手段として機能させること、を含む請求項1又は2に記載のプログラム。
【請求項4】
ネットワークF値(NF)が以下の式(I)で定義される、ネットワーク密度 (ND)とネットワーク特異率(NS)の調和平均:
【数1】
であり、且つ、
要素F値(VF)が以下の式(II)で定義される、要素密度 (VD)と要素特異率(VS)の調和平均:
【数2】
(上記式中、e(i)は要素iの部分モジュール構造内でのエッジ総数、d(i)は要素iの全ネットワーク中での次数、及び、nはモジュール中の全要素数を表す。)
である、請求項1ないし3のいずれか一項に記載のプログラム。
【請求項5】
ステップ又は手段(1)が以下の処理:
1.初期設定値として、最小のモジュール(コミュニティ)サイズおよび最大のコミュニティサイズが設定される;
2.ひとつの注目する要素SVが選出され、それに対して、他の要素をSVに対する相関係数の降順に並べた要素群を含むモジュールが設定される;及び
3.ネットワークF値(NF)及び要素F値(VF)に基づき、上記1で設定された特定の範囲のサイズ内で、2で設定されたモジュールから最小値を示す要素F値(VF)を順次除去しながら、最大のネットワークF値(NF)を示すモジュールが形成(選択)される;
を含み、相関係数は高いが注目モジュールへの貢献度が低い要素が排除されるFalse-Positive-Out(FPO)解析ステップとして機能する、

ステップ又は手段(2)が以下の処理:
1.すべての取り得るSVに対して、ステップ又は手段(1)で形成されたモジュールの各要素に対するVFの閾値VFtが任意に設定(選択)される;
2.ネットワーク中の任意の要素を含むモジュールに於いて、上記閾値VFt以上を示す要素間をエッジとして繋いだネットワークが構築される;
3.こうしてネットワーク中のすべての要素に対して再構築されたネットワークに関して、同じ要素を含むネットワークを全て連結して統合化モジュール群が形成される;及び
4.こうして選択された各閾値VFtに対して夫々形成された統合化モジュール群の各モジュールのサイズを算出し、その中で上記1で設定された特定の範囲のサイズを有する統合化モジュールの個数が最大となるような、或る閾値VFtに対して形成された統合化モジュール群が選択される;
を含み、全要素に関するモジュール構成メンバーの重複を排除し、設定されたモジュールのサイズ範囲内でモジュールが最適化される、並びに/又は、

ステップ又は手段(3)が以下の処理:
1.ステップ又は手段(2)で選択された統合化モジュール群の夫々のモジュールの周縁要素の当該モジュールに対する要素特異率の閾値sが設定される;及び
2.要素特異率が該閾値s以上である全ての周縁要素を当該モジュールに追加する;
を含み、相関係数は低いが注目モジュールへの貢献度が高い周縁要素が追加され、最終的なモジュール群が形成されるFalse-Negative-In(FNI)解析ステップとして機能する、
請求項1ないし4のいずれか一項に記載のプログラム。
【請求項6】
多変量データがオミックス解析で取得されたものである、請求項1〜5のいずれか一項に記載のプログラム。
【請求項7】
多変量データを相関ネットワーク解析する方法であって、
(1)コンピュータが、入力された多変量データにおける個々のデータ(要素)間の相関行列に基づき、ネットワークF値(NF)及び要素F値(VF)を用いて、或る要素に対して、一定のサイズ(モジュールに含まれる要素の数)の範囲に於いて最大のネットワークF値(NF)を有するモジュールを形成するステップ、
(2)コンピュータが、要素F値(VF)に基づきネットワークを再構築して、ステップ(1)で形成されたモジュールを統合化するステップ、及び
(3)コンピュータが、要素特異率(VS)に基づき、ステップ(2)で統合化されたモジュール群に該モジュールの周縁要素を一定条件下で関連付けて、最終的なモジュール群を形成するステップ
を含む、前記方法
【請求項8】
更に、(4)コンピュータが、ステップ(3)で得られたモジュール群を含むネットワークを描画する出力ステップを含む、請求項7記載の方法。
【請求項9】
ネットワークF値(NF)が以下の式(I)で定義される、ネットワーク密度 (ND)とネットワーク特異率(NS)の調和平均:
【数3】
であり、且つ、
要素F値(VF)が以下の式(II)で定義される、要素密度 (VD)と要素特異率(VS)の調和平均:
【数4】
(上記式中、e(i)は要素iの部分モジュール構造内でのエッジ総数、d(i)は要素iの全ネットワーク中での次数、及び、nはモジュール中の全要素数を表す。)
である、請求項7または8記載の方法。
【請求項10】
多変量データがオミックス解析で取得されたものである、請求項7ないし9のいずれか一項に記載の方法。
【請求項11】
請求項1ないし6のいずれか一項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えば、オミックス解析等で得られた多変量データをボトムアップ手法により相関ネットワーク解析ためのプログラム等に関する。
【背景技術】
【0002】
一般に多変量データを分析する手法として各種の多変量解析がある。例えば、従来、メタボローム解析の分野では、質量分析器等のハイスループット分析により得られた定量値をもとに代謝物間の関係性を解析する際、一般的にはその代表的な手法として、主成分分析(Principal Component Analysis; PCA)及び階層的クラスター解析(HCA)等の統計学的手法が利用されている。これらの解析方法は多変量データ全体の傾向を把握する際に大変有益な手法である。一方で、多変量データの要素をグループ化するための統計的な指標を提示しない。そのため、多変量データの要素をいくつかのグループに分類するために、判別分析等の多重比較法が考案されている。
【0003】
しかしながら、近年のビッグデータのように要素数が非常に大きく得られるグループ数も多い場合には、多重比較法では不十分となる。この場合に、従来からネットワーク解析におけるコミュニティ抽出が用いられてきた。
【0004】
このようなネットワーク解析は、ポスト・ゲノム科学分野のオミックス解析において、重要な役割を担っている。例えば、トランスクリプトーム解析の分野では、遺伝子の共発現関係の探索に相関係数を用いたネットワーク解析が広く利用されており、モデル植物シロイヌナズナを中心に数多くのデータベースが構築されている。このような相関ネットワークによる解析手法は、これまで一般的ではないものの、サンプルに含まれる代謝物の全体像を視覚的に捉える俯瞰図として注目を集めている。
【0005】
ネットワーク解析に於いて、要素間の正の相関行列から要素同士が互いに関連する部分コミュニティ構造を抽出する手法として、トップダウン手法とボトムアップ手法がある。前者はまず相関行列に基づいたネットワーク構造を描き、そのネットワークから部分コミュニティ構造に分類する。DP-Clusツール(非特許文献1)やARACNEツール(非特許文献2)等が代表的である。これらのツールはネットワーク全体で用いられる指標を利用している。例えば、DP-Clusではネットワーク指標として代表的なクラスター係数を活用している。トップダウン手法の長所としては、ネットワーク全体を一つの基準で一度に解析できるため、処理を高速化できる点が挙げられる。一般に、ネットワーク全体をコミュニティに分類するときに有用である。一方で欠点としては、基準が一つであるために、注目要素を設定する解析の場合、その注目要素を含む部分コミュニティ構造のサイズを適切な基準で設定できず、結果としてユーザの希望するサイズで得られるとは限らない。そのため、注目要素が設定され得るネットワーク解析においては、以下に述べるボトムアップ手法が適している。
【0006】
ボトムアップ手法では、相関行列の各注目要素から関連性の強度に基づいて要素間を連結することでその要素を含む部分コミュニティのサイズを徐々にサイズを大きくしていく。トップダウン手法とは異なり、相関行列全体で一度に解析することは困難であるが、注目要素を含むコミュニティのサイズを統計的有意性に基づいて調整できる点が利点である。従来法としては、Newman法(非特許文献3)やLouvain法(非特許文献4)が代表的である。ただし、これらの手法も注目要素を設定した解析に対応していないため(すべての要素を公平に扱うため)、注目要素を含むコミュニティがユーザの希望するサイズで得られるとは限らない。
【0007】
本発明者等は、ネットワーク構造において注目要素の部分コミュニティ構造(「モジュール」とも呼ぶ)をボトムアップ手法によって抽出するアルゴリズム「金平糖アルゴリズム」を既に開発した(非特許文献5)。しかしながら、このアルゴリズムでは、モジュールのサイズを調整できず、更に、ネットワーク中の要素を分類するに必要な機能を有していなかった。
【先行技術文献】
【非特許文献】
【0008】
【非特許文献1】Altaf-Ul-Amin M, Shibo Y, Mihara K, Kurokawa K, Kanaya S. Development and implementation of an algorithm for detection of protein complexes in large interaction networks. BMC Bioinformatics, 7, 207 (2006). [PMID: 16613608]
【非特許文献2】Margolin AA, Nemenman I, Basso K, Wiggins C, Stolovitzky G, Dalla Favera R, Califano A. ARACNE: an algorithm for the reconstruction of gene regulatory networks in a mammalian cellular context. BMC Bioinformatics, 7, Suppl 1: S7 (2006). [PMID: 16723010]
【非特許文献3】Newman ME, Girvan M. Finding and evaluating community structure in networks. Phys Rev E Stat Nonlin Soft Matter Phys, 69: 026113 (2004). [PMID: 14995526]
【非特許文献4】Blondel VD, Guillaume JL, Lambiotte R, Lefebvre E. Fast unfolding of communities in large networks. J Stat Mech, doi:10.1088/1742-5468/2008/10/P10008 (2008).
【非特許文献5】Ogata Y, Sakurai N, Suzuki H, Aoki K, Saito K, Shibata D. The prediction of local modular structures in a co-expression network based on gene expression datasets. Genome Inform, 23: 117-127 (2009). [PMID: 20180267]
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明が解決しようとする課題は、非特許文献5に記載のアルゴリズムが有する上記の問題点を解決し、多変量データの相関ネットワーク解析に於いて、より適切なサイズのモジュールをより多く形成・検出できるプログラム及び方法等を提供することである。
【課題を解決するための手段】
【0010】
本発明者は、相関ネットワーク解析に於いて、一般的に使用される統計指標である相関係数に加え、幾何学の理論を応用した独自の指標を考慮し、初期設定値として、最小及び最大のコミュニティ(モジュール)のサイズを設定し、更に、モジュール形成過程(モジュールの統合化)を追加して解析順序に変更を加えること等によって、遺伝子の共発現関係等のオミックス解析等をより効果的に過不足なく演算することができる新たなプログラム及び方法を開発し、上記課題を解決し、本発明を完成した。
【0011】
即ち、本発明は以下の態様を有する。
[態様1]
多変量データを相関ネットワーク解析するためにコンピュータに、
(1)多変量データにおける個々のデータ(要素)間の相関行列に基づき、ネットワークF値(NF)及び要素F値(VF)を用いて、或る要素に対して、一定のサイズ(モジュールに含まれる要素の数)の範囲に於いて最大のネットワークF値(NF)を有するモジュールを形成するステップ、
(2)要素F値(VF)に基づきネットワークを再構築して、ステップ(1)で形成されたモジュールを統合化するステップ、及び
(3)要素特異率(VS)に基づき、ステップ(2)で統合化されたモジュール群に該統合化モジュール群の夫々のモジュールに含まれていない要素(周縁要素)を一定条件下で関連付けて、最終的なモジュール群を形成するステップ、
を実行させるためのプログラム。
[態様2]
多変量データを相関ネットワーク解析するためにコンピュータを、
(1)多変量データにおける個々のデータ(要素)間の相関行列に基づき、ネットワークF値(NF)及び要素F値(VF)を用いて、或る要素に対して、一定のサイズ(モジュールに含まれる要素の数)の範囲に於いて最大のネットワークF値(NF)を有するモジュールを形成する手段、
(2)要素F値(VF)に基づきネットワークを再構築して、手段(1)で形成されたモジュールを統合化する手段、及び
(3)要素特異率(VS)に基づき、手段(2)で統合化されたモジュール群に該モジュールの周縁要素を一定条件下で関連付けて、最終的なモジュール群を形成する手段、
として機能させるためのプログラム。
[態様3]
多変量データを相関ネットワーク解析する方法であって、
(1)コンピュータが、入力された多変量データにおける個々のデータ(要素)間の相関行列に基づき、ネットワークF値(NF)及び要素F値(VF)を用いて、或る要素に対して、一定のサイズ(モジュールに含まれる要素の数)の範囲に於いて最大のネットワークF値(NF)を有するモジュールを形成するステップ、
(2)コンピュータが、要素F値(VF)に基づきネットワークを再構築して、ステップ(1)で形成されたモジュールを統合化するステップ、及び
(3)コンピュータが、要素特異率(VS)に基づき、ステップ(2)で統合化されたモジュール群に該モジュールの周縁要素を一定条件下で関連付けて、最終的なモジュール群を形成するステップ
を含む、前記方法
[態様4]
本発明のプログラムを記録したコンピュータ読み取り可能な記録媒体。
[態様5]
コンピュータに実装されてなる、多変量データを相関ネットワーク解析するためにシステムであって、
(1)多変量データにおける個々のデータ(要素)間の相関行列に基づき、ネットワークF値(NF)及び要素F値(VF)を用いて、或る要素に対して、一定のサイズ(モジュールに含まれる要素の数)の範囲に於いて最大のネットワークF値(NF)を有するモジュールを形成するための手段、
(2)要素F値(VF)に基づきネットワークを再構築して、手段(1)で形成されたモジュールを統合化する手段、及び
(3)要素特異率(VS)に基づき、手段(2)で統合化されたモジュール群に該モジュールの周縁要素を一定条件下で関連付けて、最終的なモジュール群を形成するための手段、並びに、任意に、(4)手段(3)で得られたモジュール群を含むネットワーク(マップ)を描画(表示処理)するための出力手段を含む前記システム。
【発明の効果】
【0012】
本発明において、ひとつの注目要素に関する部分コミュニティ構造(モジュール)をボトムアップ手法によって抽出する際に、各種の設定値(希望するモジュールサイズの範囲等)を統計的有意性に基づいて調整し、更に、モジュールの統合化を行うことによって、注目要素を含むモジュールのサイズを適切に制御することが可能となった。
【0013】
その結果、本明細書中で示されるように、従来知られている相関ネットワーク解析である、1) 汎用ネットワーク解析ツールPajekに搭載されているLouvain法、2) R統計解析プラットフォームのアドインツールのSimulating annealing法およびFast greedy法と比較して、モジュール形成の精度が高い、即ち、最も適切なサイズのモジュールをより多く形成・検出できることが確認された。
【0014】
このように、本発明プログラムを用いるとあらゆる異なる測定データを自在に組み合わせることがデータ処理上、可能であり、相関係数に加えて、グラフ理論による、関係性を幾何学的に考慮した手法で、目的に合った解析手法を取捨選択(データマインニング)処理ができるので、研究開発期間の極端な短縮化を導くことが可能である。
【図面の簡単な説明】
【0015】
図1】本発明のプログラムを実行することで得られた結果を表示する一例を示す。
図2】本発明のプログラムの一例のアルゴリズムのフローチャートを示す。
図3図2に示したフローチャート中の各ステップに関する捕捉説明を示す。
図4】シロイヌナズナの公開DNAアレイデータ(遺伝子数:22746個 x 実験群数:9942個)を用いて、遺伝子共発現解析を実行し、得られた多変量データを本発明のプログラムでネットワーク解析処理した結果を示す。
図5】モジュール(コミュニティ)と実験群のメンバー構成の類似性を評価する方法を示す。
【発明を実施するための形態】
【0016】
即ち、本発明は、多変量データを相関ネットワーク解析するためにコンピュータに、
(1)多変量データにおける個々のデータ(要素)間の相関行列に基づき、ネットワークF値(NF)及び要素F値(VF)を用いて、或る要素に対して、一定のサイズ(モジュールに含まれる要素の数)の範囲に於いて最大のネットワークF値(NF)を有するモジュールを形成するステップ、
(2)要素F値(VF)に基づきネットワークを再構築して、ステップ(1)で形成されたモジュールを統合化する手段ステップ、及び
(3)要素特異率(VS)に基づき、ステップ(2)で統合化されたモジュール群に該モジュールの周縁要素を一定条件下で関連付けて、最終的なモジュール群を形成するステップ
を実行させるためのプログラム、に係る。
【0017】
或いは、本発明は、多変量データを相関ネットワーク解析するためにコンピュータを、
(1)多変量データにおける個々のデータ(要素)間の相関行列に基づき、ネットワークF値(NF)及び要素F値(VF)を用いて、或る要素に対して、一定のサイズ(モジュールに含まれる要素の数)の範囲に於いて最大のネットワークF値(NF)を有するモジュールを形成する手段、
(2)要素F値(VF)に基づきネットワークを再構築して、手段(1)で形成されたモジュールを統合化する手段、及び
(3)要素特異率(VS)に基づき、手段(2)で統合化されたモジュール群に該モジュールの周縁要素を一定条件下で関連付けて、最終的なモジュール群を形成する手段
として機能させるためのプログラム、に係る。
【0018】
上記プログラムは、更に、(4)コンピュータに、ステップ(3)で得られたモジュール群を含むネットワーク(マップ)を描画(表示処理)するステップを実行させること、又は、(4)コンピュータが、手段(3)で得られたモジュール群を含むネットワーク(マップ)を描画(表示処理)する出力手段として機能させること、を含むことが出来る。
【0019】
更に、本発明は、上記プログラムを記録したコンピュータ読み取り可能な記録媒体にも係るものである。このような記録媒体の種類に特に制限はなく、CD、DVD、テープ、各種のハードディスク、及び、半導体メモリ等の当業者に公知の任意の形態をとり得る。尚、本発明プログラムは、外部に接続されたコンピュータ及び/または分散コンピュータのコンピュータ・サーバまたはネットワークを介して、該プログラムを実行するコンピュータに提供されてもよい。
【0020】
同様に、本発明は、コンピュータに実装されてなる、多変量データを相関ネットワーク解析するためにシステムであって、
(1)多変量データにおける個々のデータ(要素)間の相関行列に基づき、ネットワークF値(NF)及び要素F値(VF)を用いて、或る要素に対して、一定のサイズ(モジュールに含まれる要素の数)の範囲に於いて最大のネットワークF値(NF)を有するモジュールを形成するための手段、
(2)要素F値(VF)に基づきネットワークを再構築して、手段(1)で形成されたモジュールを統合化する手段、及び
(3)要素特異率(VS)に基づき、手段(2)で統合化されたモジュール群に該モジュールの周縁要素を一定条件下で関連付けて、最終的なモジュール群を形成するための手段、並びに、任意に、(4)手段(3)で得られたモジュール群を含むネットワーク(マップ)を描画(表示処理)するための出力手段を含む前記システムに係る。かかるシステムは、本発明のプログラムを実行するための、1つまたは複数のプロセッサ及びメモリを含む。
【0021】
また、本発明は、多変量データを相関ネットワーク解析する方法であって、
(1)コンピュータが、入力された多変量データにおける個々のデータ(要素)間の相関行列に基づき、ネットワークF値(NF)及び要素F値(VF)を用いて、或る要素に対して、一定のサイズ(モジュールに含まれる要素の数)の範囲に於いて最大のネットワークF値(NF)を有するモジュールを形成するステップ、
(2)コンピュータが、要素F値(VF)に基づきネットワークを再構築して、ステップ(1)で形成されたモジュールを統合化するステップ、及び
(3)コンピュータが、要素特異率(VS)に基づき、ステップ(2)で統合化されたモジュール群に該モジュールの周縁要素を一定条件下で関連付けて、最終的なモジュール群を形成するステップ
を含む、前記方法に係る。
【0022】
本発明方法は、更に、(4)コンピュータが、ステップ(3)で得られたモジュール群を含むネットワーク(マップ)を描画(表示処理)するステップを含んでいても良い。本発明方法は、上記プログラムが実装されたコンピュータにおいて実施される。
【0023】
本発明に於いて、多変量データの取得経路・方法・種類・属性等などに特に制限はない。例えば、代表的な例として、オミックス解析で得られた多変量データを挙げることが出来る。「オミックス解析」とは、一般に、個々の網羅的分子情報を統合解析することを意味し、網羅的分子情報の代表的例として遺伝子の転写物に関する網羅的情報であるトランスクリトームデータ、代謝産物に関する網羅的情報であるメタボロームデータ等を挙げることができる。
【0024】
尚、これらの網羅的データは、当業者に公知の任意の方法・手段、例えば、各種遺伝子解析、遺伝子発現解析、並びに、LC-MS, GC-MS及びCE-MS等の各種質量分析等によって取得することが出来る。更に、これら網羅的データの取得源に特に制限はなく、様々な種類の動植物・微生物・細菌由来の、部位、器官、組織及び細胞等を挙げることが出来る。更に、多変量データは或る環境から取得した試料及び人工製造物(例えば、加工食品等)等から任意の方法で取得された情報でも良い。
【0025】
本発明において、上記の各指標は以下の式の通り、定義される。ここで、ネットワーク密度 (ND)及び要素密度 (VD)は、要素同志が互いにどの程度緊密に繋がっているか、を示す指標であり、一方、ネットワーク特異率(NS)及びと要素特異率(VS)は要素同志がどの程度排他的に(他のモジュールから孤立して)繋がっているか、を示す指標である。尚、以下の各式中、e(i)は要素iの部分モジュール構造内でのエッジ総数、d(i)は要素iの全ネットワーク中での次数、及び、nはモジュール中の全要素数を表す。
【0026】
以下の式(I)で定義されるネットワークF値(NF)は各モジュールに関する密度と特異率を同等に評価するための指標であり、ネットワーク密度 (ND)とネットワーク特異率(NS)の調和平均である。ここで、ネットワーク密度 (ND)は「(実際に連結されているエッジの数)/(要素を理想的に全て連結したときのエッジの総数)」であり、ネットワーク特異率(NS)は「(各要素がモジュール内の他の要素と連結されているエッジの総和)/(各要素のネットワーク全体に対する次数の総和)」である。
【数1】
【0027】
以下の式(II)で定義される要素F値(VF)は各要素に関する密度と特異率を同等に評価するための指標であり、要素密度 (VD)と要素特異率(VS)の調和平均である。ここで、要素密度 (VD)は「(各要素がモジュール内の他の要素と連結されているエッジの数)/(各要素を理想的にモジュール内の全ての要素と連結したときのエッジの数)」であり、要素特異率(VS)は「(各要素がモジュール内の他の要素と連結されているエッジの数)/(各要素のネットワーク全体に対する次数)」である。

【数2】
【0028】
以下、本発明プログラムにおける各ステップ又は手段に含まれる処理(工程)を詳しく説明する。
【0029】
ステップ又は手段(1):
多変量データにおける各要素間の相関行列に基づき、ネットワークF値(NF)及び要素F値(VF)を用いて、或る要素に対して、一定のサイズ(モジュールに含まれる要素の数)の範囲に於いて最大のネットワークF値(NF)を有するモジュール(コア部分)を形成するステップであって、相関係数は高いが注目モジュールへの貢献度が低い要素が排除されるFalse-Positive-Out(FPO)解析ステップとして機能する。
【0030】
かかる相関行列は、多変量データの属性等に応じて、各要素に関する様々な情報、例えば、実験群、試料に関する様々なデータ情報(例えば、組織、処理、処理時間、条件等)に基づき、当業者に公知の任意の方法・手段で、例えば、ピアソン、スピアマン、コサイン等の任意の種類の各要素間の相関係数を求めることによって作成することが出来る。各要素間の相関係数は0以上1以下の実数とする。尚、負の相関係数を含んでいる場合は0に置き換える。
【0031】
このステップ又は手段の好適例に於いては、
1.初期設定値として、最小のモジュール(コミュニティ)サイズおよび最大のコミュニティサイズが設定される。
2.ひとつの注目する要素SVが選出され、それに対して、他の要素をSVに対する相関係数の降順に並べた要素群(HV)を含むモジュールが設定される。
3.ネットワークF値(NF)及び要素F値(VF)に基づき、上記1で設定された特定の範囲のサイズ内で、2で設定されたモジュールから最小値を示す要素F値(VF)を順次除去しながら、最大のネットワークF値(NF)を示すモジュールが形成(選択)される。
【0032】
ステップ又は手段(2):
要素F値(VF)に基づきネットワークを再構築して、ステップ又は手段(1)で形成されたモジュールを統合化するステップであって、全要素に関するモジュール構成メンバーの重複を排除し、設定されたモジュールのサイズ範囲内で、モジュールが最適化される。
【0033】
このステップ又は手段の好適例に於いては、
1.すべての取り得るSVに対して、ステップ又は手段(1)で形成されたモジュールの各要素に対するVFの閾値VFtが任意に設定(選択)される。
2.ネットワーク中の任意の要素を含むモジュールに於いて、上記閾値VFt以上を示す要素間をエッジとして繋いだネットワークが構築される。
3.こうしてネットワーク中のすべての要素に対して再構築されたネットワークに関して、同じ要素を含むネットワークを全て連結して統合化モジュール群が形成される。
4.こうして選択された各閾値VFtに対して夫々形成された統合化モジュール群の各モジュールのサイズを算出し、その中で上記1で設定された特定の範囲のサイズを有する統合化モジュールの個数が最大となるような、或る閾値VFtに対して形成された統合化モジュール群が選択される。
【0034】
ステップ又は手段(3):
要素特異率(VS)に基づき、ステップ又は手段(2)で選択された統合化モジュール群に、ステップ又は手段(2)で選択された統合化モジュール群の夫々のモジュールに含まれていない要素、即ち、夫々のモジュールの周縁要素を、例えば、以下に示すような一定条件下で関連付けて(追加して)、最終的なモジュール群が形成されるステップであって、相関係数は低いが注目モジュールへの貢献度が高い周縁要素が追加される(False-Negative-In(FNI)解析ステップ)。
【0035】
このステップ又は手段の好適例に於いては、
1.ステップ又は手段(2)で選択された統合化モジュール群の夫々のモジュールの周縁要素の当該モジュールに対する要素特異率の閾値sが設定される。
2.要素特異率が該閾値s以上である全ての周縁要素を当該モジュールに追加し、最終的なモジュール群が形成される。
【0036】
ステップ又は手段(4):
上記のFalse-Negative-In(FNI)解析ステップ又は手段(3)で最終的に形成されたモジュール群からなるネットワークを描画(表示処理)する出力ステップである。このステップは、当業者に公知の任意の方法・手段によって実施することが出来る。表示形式も任意である。例えば、図4に示すように、モジュールにおける各要素を「○」等の適当な図形で表示し、それらを適当な線で連結した状態で表示することが出来る。例えば、ステップ又は手段(1)のFalse-Positive-Out(FPO)解析で得られたモジュールにおける各要素は実線で連結し、ステップ又は手段(3)のFalse-Negative-In(FNI)解析で得られたモジュールにおける各要素は点線(破線)で連結することによって、それらの性質が視覚的に良いに判別される。その他、任意の表形式(例えば、Excel形式)で出力することも可能である。
【0037】
その際に、各要素に関する情報(物性値等)も併せて画面上に表示させても良い。更に、複数のモジュールを同一の画面で同時に表示させることも可能であり、その際に、モジュールのサイズ等の任意の性質に基づき、各モジュールを適当なアラインメント又はグループに分ける等の処理をすることも可能である。そのような表示の一例を図1に示す。
【0038】
本発明のプログラムをコンピュータで実行させることによって、例えば、遺伝子共発現解析(トランスクリプトーム解析)において、生物が生産する一次代謝産物から派生する二次代謝産物(主に、生理活性成分)の生合成経路における生合成酵素マシナリー(構成部分)の遺伝子群の一括単離がFPO解析で出力され、更に、DNAに結合するタンパク質であるヒストン複合体酵素など、協調的に発現していると思われる酵素複合体の遺伝子群もFPO解析で出力される。一方で、その生合成酵素遺伝子群を転写制御する因子(転写因子)の遺伝子がFNI解析により単離することができる。
【0039】
又、代謝物の網羅的な解析であるメタボローム解析の場合には、変動する代謝物の変動パターンをFPO解析で出力される。また、表現系(生理活性値及び五感などの官能試験データ)のような、メタボローム解析データと異なった異種データを組み合わせて本発明の相関ネットワーク解析を行うことにより、表現系に紐付けた代謝物との関係性がFNI解析により出力される。
【0040】
以下、本発明に関連する用語の説明を以下の表1に示す。
【表1】
【0041】
以下に記載する本発明プログラムに基づくアルゴリズム及び実施例に基づき、本発明のプログラムを更に詳細に説明する。尚、本発明の技術的範囲は以下の記載に限定されるものではなく、これら記載に基づき当業者が適宜変更・修正したものも本発明に含まれる。
【0042】
ステップ又は手段(1):False-Positive-Out (FPO)解析
まず、データセットの準備として、要素間の相関行列データを入力する。各要素間の相関係数は0以上1以下の実数とする。負の相関係数を含んでいる場合は0に置き換える。
【0043】
1.初期設定値として、最小のコミュニティサイズ(自然数pとする)および最大のコミュニティサイズ(自然数qとする)を設定する。これらの数値に関しては使用者が任意に設定することが可能であるが、汎用的な推奨値としてはp=5、q=50である。なお、pおよびqは次項のSeed Vertexを含んでいない。
2.ひとつの注目する要素を選出する。この要素をSeed Vertex (SV)と呼ぶ。
3.SVに対して、他の要素をSVに対する相関係数の降順に並べる。この降順に並べた要素群をHighly-correlated vertices (HV)と呼ぶ。SVに対するHVのi番目の要素をHV(SV,i)と呼ぶ。すなわち、HV(SV,i)はSVに対してi番目に相関係数の高い要素である。また、SVとHV(SV,i)との相関係数をTC(SV,i)と呼ぶ。
4.SVおよびHV(1)からHV(p)までの要素を含むモジュールを設定する。このモジュールをHM(p)と呼ぶ。HM(p)のNFを算出する(NF(p)とする)。初期設定として、NF(p)をNF(SV)とする。また、NF(SV)を示すモジュールをKM(SV)とする。すなわち、KM(SV)はSVに対するFPO過程において、NFの最大値NF(SV)を示すモジュールである。
5.まず、HM(j)をKM(j)とする。ただし、jは自然数で、p<j≦qの範囲とする
6.KM(j)のNFを算出する(NF(j)とする)。
7.NF(j)がNF(SV)より大きければ、NF(j)をNF(SV)に置き換え、KM(j)をKM(SV)と置き換える。
8.次に、KM(j)内の要素をKV(i)とする。KV(i)はHV(i)と同じ要素とする。
9.KV(i)のKM(j)に対するVF(i)を算出する。
10.VF(i)の最小値を示すKV(i)をKM(j)から除きKM(j-1)とする。
11.KM(j-1)に対して、工程6〜10を繰り返す。すなわち、KM(p+1)まで繰り返される。
12.工程5〜11をすべての取り得るjに対して実施し、SVに対してNF(SV)を示すKM(SV)が得られる。KM(SV)に含まれる各要素をkernel vertex (KV)と呼び、KV(l)で表す。KVにはSVも含まれる。KM(SV)の要素数をxとすると、1≦l≦xである。
【0044】
ステップ又は手段(2):Modularize(モジュールの統合化)
1.希望モジュールサイズの最小値と最大値をそれぞれFPO過程のpおよびqとする。
2.FPO過程の変数を引き継ぐ。
3.すべての取り得るSVに対するKM(SV)の各要素KV(l)に対するVFの閾値VFtを設定する。ただし、0.5≦VFt≦0.99の範囲で0.01刻みの数値とする。
4.ネットワーク全体の要素数をmとする。
5.ネットワーク中の任意の要素Vj(ただし、jは1≦j≦mを満たす自然数)のKM(Vj)において、VFt値以上を示すKV間をエッジとして繋いだネットワークを構築し、Mod(Vj,VFt)とする。
6.ネットワーク中のすべてのVjに対して、Mod(Vj,VFt)を得る。
7.すべてのVjに対して得られたMod(Vj,VFt)に関して、同じ要素を含むMod(Vj,VFt)をすべて連結しネットワークを再構築したものをMod(VFt)とする。
8.得られたMod(VFt)における個々の(孤立した)モジュールのサイズNmodを算出する。
9.すべてのNmodのうち、p≦Nmod≦qを満たすNmodの個数をNmod(VFt)とする。
10.Nmod(VFt)をすべてのVFtにおいて算出する。
11.Nmod(VFt)の最大値を示すVFtに対するモジュールのうち、モジュールのサイズがp以上のものを最終的なモジュール群Modとする。
【0045】
ステップ又は手段(3):False-Negative-In (FNI)解析
1.FPO解析過程およびModularize過程の変数を引き継ぐ。
2.初期設定値として、相関係数の下限値c(推奨値はc=0)とする。また、任意の要素Vに対するHV(V)の順位の下限値をr(推奨値はr=1000)とする。
3.Modに含まれる各モジュールをMod(i)(ただし、1≦i≦M(Mod)、M(Mod)はModに含まれるモジュール数)とする。
4.Mod(i)に含まれる要素をMod(i,j)(ただし、1≦j≦N(Mod(i))、N(Mod(i))はMod(i)に含まれる要素数)とする。
5.Modに含まれない要素の集合をRV (residual vertex)、RVに含まれる要素をRV(l)(ただし、1≦l≦N-N(Mod)、Nは全要素数)とする。
6.Mod(i)の要素Mod(i,j)について、HV(Mod(i,j),k)(ただし、1≦k≦r)のうち、RVに含まれる要素の集合をRV(i)とし、RV(i)に含まれる要素をRV(i,x)(ただし、1≦x≦N(RV(i)))とする。
7.RV(i,x)のMod(i)に対するVS値を、HV(RV(i,x))の上位から順に、r位まで、かつTC(RV(i,x),y)>cを満たす範囲で、計算する(y位でのHV(RV(i,x))をHV(RV(i,x),y)とする)。VS(RV(i,x),y)の最大値をVS(RV(i,x))とする。
8.VS(RV(i,x))≧s(ただし、sはRV(i,x)のMod(i)に対するVS(RV(i,x))の下限値(閾値)、推奨値は0.5)であるとき、RV(i,x)をMod(i)のmarginal vertex (MV)と呼び、集合MV(i)の要素とする。
9.ステップ7〜8を、すべてのRV(i,x)に対して実行する。
10.Mod(i)の各要素とMV(i)の各要素を合わせて、confeito vertex (CV)と呼ぶ。CVのサイズをN(CV)とすると、CV(z) ∈CV; 1≦z≦N(CV)とする。
【0046】
以上のFPO、ModularizeおよびFNI過程を通じて、注目要素(SV)に対するconfeito vertices (CV)から構成されるモジュール群が最終的に得られる。CVはSVを含むモジュール内での関連が強く、他のモジュールとの関連が弱い。Modularize過程を通じて、全要素に対して希望モジュールサイズのモジュールを最大限に含んだモジュール群が得られる。
【0047】
更に、上記アルゴリズムのフローチャートの一例を図2に示す。又、このフローチャート中の各ステップに関する捕捉説明を図3に示す。
【実施例1】
【0048】
シロイヌナズナの公開DNAアレイデータ(遺伝子数:22746個 X 実験群数:9942個)を用いて、遺伝子共発現解析を実行し、得られた多変量データを上記のアルゴリズムを有する本発明のプログラムでネットワーク解析処理し、ブロッコリー・ダイコン、などのアブラナ科植物に含まれる発がん物質を解毒する酵素の活性を高める作用がある脂肪族グルコシノレート成分の生合成酵素遺伝子群を制御する転写因子を含むもモジュールの単離を試みた。その結果、Hirai et al, Proc Natl Acad Sci U S A. (2007) 104(15):6478-6483 のfigure1と同様な結果が得られた。即ち、脂肪族グルコシノレート生合成の制御因子(Myb28:AT5G61420)がFPO解析で得られ、もう一つの制御因子(Myb29:AT5G07690)がFNI解析で得られた。得られた結果を図4に示す。
【実施例2】
【0049】
次に、本発明のプログラムを用いたネットワーク解析処理で生成されるモジュールの精度を確かめるために、 NCBIのGene Expression Omnibus (GEO)からマウスのマイクロアレイデータを入手して、 他のコミュニティ抽出ツール(ネットワーク解析処理ツール)との比較解析を行った。
【0050】
GEOについての基礎知識
1.GPL:遺伝子発現データのプラットフォーム、各社のマイクロアレイや次世代シーケンサー等の種類
2.GSE:GPLに含まれる遺伝子発現データの実験群
3.GSM:GSEに属する遺伝子発現データ
4.GSE内の実験は互いにある程度類似している場合が多い。
5.すなわち、実験間での相関ネットワーク上で、同じGSEに属する実験(GSM)は コミュニティ抽出ツールの結果としても同じモジュールに含まれることが期待される。
【0051】
使用するデータと相関係数の算出と相関ネットワークの描画
1.アフィメトリクス社製のマウスのマイクロアレイGPL1261の 遺伝子発現データ37,013枚を用いた。
2.遺伝子発現実験間でコサイン相関係数を算出し、相関行列を作成した。
3.0.50から0.99まで0.01刻みの相関係数を閾値とした相関ネットワークを描画した。
【0052】
比較する他のコミュニティ抽出ツール
1.Louvain (Blondel et al., J Stat Mech, 2008): Pajek上で実行
2.Simulating annealing (Newman and Girvan, Phys Rev E, 2004): R上で実行
3.Fast greedy (Clauset et al., Phys Rev E, 2004): R上で実行
【0053】
比較する方法:モジュール(コミュニティ)と実験群のメンバー構成の類似性を評価(図5を参照)
1.メンバー構成の類似性の評価にはF値(F-measure)を用いる。
2. F-measureは情報科学分野の指標で、precisionとrecallの調和平均である。
3.ここでのprecisionは、あるモジュール(Module)に含まれる実験(1)及び実験(2)の中で 特定の実験群(GSE)に属する実験(2)の割合を表す。
4.ここでのrecallは、該実験群(GSE)に含まれる実験(1)及び実験(3)の中で特定のモジュールに属する実験(1)の割合を表す。
5.下図の例の場合に、precisionは 6 / 8 = 0.75、recallは 6 / 10 = 0.60 となる。
6.すなわち、F-measureは( 6 + 6 ) / ( 8 + 10 ) = 0.67となる。
7. F-measureが大きいほど、モジュールとGSEの実験群が似ていることになる。
8.各閾値の相関ネットワークのすべてのモジュールに対してF-measureを計算した。
9.各相関ネットワークごとに、F-measureの平均値を各ツールの代表値とする。
10.すなわち、この平均値が大きいほど、モジュールの抽出の精度が高いことになる。
【0054】
比較解析の結果
ツールごとのF-measureの平均値を以下の表2に示す。本発明プログラムが最も高い平均F-measure値を示しており、モジュールの精度が高いことを表している。
【表2】
【産業上の利用可能性】
【0055】
本発明プログラムは、相関係数の閾値のみに基づいていた従来のネットワーク解析に比べ、偽陽性を低減しつつ、解析候補の取りこぼしを抑える仕様になっており、その最大の特徴として、あらゆるオミックス解析の定量データを入力ファイルに利用できる汎用性の高さを挙げることが出来る。その結果、解析の種類を問わず、幅広い場面での利用が期待できる。
【0056】
例えば、本発明のプログラムをコンピュータに実行させて、トランスクリプトームデータを相関ネットワーク解析処理することによって、代謝酵素遺伝子及び複合酵素遺伝子等(FPO解析)及び代謝酵素遺伝子の転写(制御)因子等(FNI解析)を容易に一斉単離・同定することが出来る。更に、メタボロームデータを相関ネットワーク解析処理した場合には、注目要素(活性・評価数等)の関連代謝物等(FPO解析)及び中間代謝物及び新規物質マーカー等(FNI解析)を容易に選抜・スクリーニングすることが出来る。
【0057】
更に、本発明プログラムを実施するためのネットワーク解析ソフトでは、このような汎用性を維持しつつもライトユーザーでも安心して利用することが出来るように、入力ファイルのフォーマットを単純化することで、だれでも簡単に入力ファイルを作成ことが出来る。加えて、インターフェースにGraphical User Interface(GUI)を採用することで、マウス操作で簡単に解析を進めることができるユーザーフレンドリーなソフトウェアとなっており、プログラミングの知識やコマンドベースの操作は一切不要である。その結果、高度な統計学的手法である相関ネットワーク解析を多くのライトユーザーが利用できるという、一見矛盾したコンセプトを両立させた他に類を見ないソフトウェアとなった。
【0058】
以上のことから、本発明プログラムは、あらゆる定量測定などのビックデータに関して、要素間及び測定試料間のグループ化(モジュール)を行うことにより、ビックデータの縮小化及び軽量化に繋がることが期待できる。
図1
図2
図3
図4
図5