【文献】
進戸尚樹、外3名,カーネルPLSを用いた時系列データからの蒸留塔製品組成の推定,第51回システム制御情報学会研究発表講演会講演論文集,2007年 5月16日,pp.247-248
(58)【調査した分野】(Int.Cl.,DB名)
前記所定の関係は、前記統計データの内の前記行番号に対応する統計サンプルに関するデータと前記列番号に対応する統計サンプルに関するデータとに基づくカーネル関数で規定される
請求項1又は2に記載のデータ解析装置。
【発明を実施するための形態】
【0011】
以下、添付の図面を参照して本発明に係るデータ解析装置、方法及びプログラムの実施の形態を説明する。なお、以下の各実施形態において、同様の構成要素については同一の符号を付している。
【0012】
(実施形態1)
1.概要
本発明の実施形態1に係るデータ解析方法による統計解析の概要について、
図1〜5を参照して説明する。
図1は、本実施形態に係るデータ解析方法の概要を説明するための図である。以下では、メタボロミクスに対する本データ解析方法の適用例を説明する。
【0013】
メタボロミクスは、生体内の低分子の代謝物(分子量がおよそ1000以下の化合物)を包括的に解析する研究分野である。
図1(a)では、解析対象の統計サンプル(個体)がウサギの例を示している。メタボロミクスでは、動物の組織や微生物の細胞、人間の血液や尿などの生体サンプル(試料)を種々の分析装置で測定し、サンプルに含まれる代謝物の濃度を解析する。測定された種々の代謝物の濃度の値が記録されるメタボロームデータは、例えば下記のようなn行p列のデータ行列Xの形式で表される。
【数1】
【0014】
ここで、nはサンプルサイズ(個体数)であり、pは測定された代謝物の数(測定項目数)である。上式(1)は、1行当たりに、行番号に対応する個体で測定されたp個の代謝物の測定データ(統計データ)を記録している。
図2〜5に、データ行列Xの例を示す。
【0015】
図2〜5は、9個体のウサギからそれぞれ肝臓・心臓・脳・血漿サンプルを分析し、それぞれの代謝物を測定したメタボロームデータの例である。
図2は、肝臓サンプルのデータ行列X
(L)を示す。
図3は、心臓サンプルのデータ行列X
(H)を示す。
図4は、脳サンプルのデータ行列X
(B)を示す。
図5は、血漿サンプルのデータ行列X
(P)を示す。なお、図中の「’」は行列の転置を意味する(以下同様)。
【0016】
図2〜5に例示するメタボロームデータは、9個体それぞれの肝臓・心臓・脳・血漿サンプルについて、キャピラリー電気泳動−飛行時間型質量分析計を用いて測定された。例えば、
図2の「サンプル1」の列のデータは、9個体中1番目のウサギの肝臓の代謝物を測定した測定データx
1(L)を示す。図示を省略しているが、各生体サンプルで検出された代謝物数は、それぞれ肝臓で170、心臓で161、脳で159、血漿で129であった。
【0017】
上記の例のように、メタボロームデータには、数百から数千の代謝物の測定データが含まれている。このため、メタボロームデータ上の各サンプルの挙動(例えば正常マウスと疾患モデルマウスとが解析対象の場合に、それらの肝臓サンプルのメタボロームデータにどのような違いが生じるか)を視覚的に表現することは困難である。そこで、多変量解析によって多変量に基づくスコアを生成し、スコアの散布図を用いてサンプルの挙動を視覚的に表現する。この散布図を用いて、
図1(b)に示すように、サンプル間の関連性(例えば、正常マウスと疾患モデルマウスという2群間の違い等)を確認すること等が行われる。
【0018】
ここで、
図1〜5に示す例では、サンプル番号1〜3番目の個体が野生型のウサギであり、4〜9番目の個体がWHHLウサギ(高脂血症モデルウサギ)であった。また、4〜9番目中で、3〜6番目のWHHLウサギにはスタチンが投与されており、7〜9番目のWHHLウサギにはスタチンが未投与であった。このため、本例では、1〜3番目の個体と、4〜6番目の個体と、7〜9番目の個体とのそれぞれの集まりである3つの群がある。
【0019】
以上のような場合に、3つの群が所定の順序に並ぶようなスコアが得られれば、その順序に関連する生物学的考察やその検証等のために有益である。また、各個体から得られるメタボロームデータは、
図2〜5に示すように、生体サンプルの種類別にデータ管理されるが、これらのデータを統合的に解析することが要求される場合もある。本発明は、以上の要求に鑑みて、個体間の群の順序を考慮しながら多様なデータ解析を可能にするデータ解析方法を提供する。以下、本実施形態にかかるデータ解析方法の理論について説明する。
【0020】
2.理論
まず、メタボロミクスの多変量解析に関する一般論について説明する。メタボロームデータの多変量解析では、主成分分析とPLSとが一般的に用いられている。PLSは、メタボロームデータに加えて、群の情報を併用することで、群間が精度良く分かれたスコアを得やすい。また、群の情報を用いて解析する古典的な多変量解析手法には、例えば正準相関分析があるが、この手法はデータ中の変数(測定項目)の数(p)がサンプルサイズ(n)よりも大きい場合(p≫n)、そのデータに適用することが困難である。これに対して、PLSはp≫nの場合にも適用可能である。
【0021】
PLSを用いることで、群間が分かれたスコアを得ることは可能である。ここで、例えば薬剤の濃度と関連した変動に興味がある場合や、官能評価において美味しさの指標と関連する代謝物に注目する場合等には、群間に所定の順序が想定される。しかし、PLSでは群の順序の情報がスコアに表れず、期待される結果が得られないことがある。そこで、本発明者は、PLSを応用したPLS−ROG(Rank Order of Groups)という手法を提案した(非特許文献2参照)。PLS−ROGを用いると、群に順序があるスコアを得られる。また、PLS−ROGにより、スコアと関連する代謝物を、統計的仮説検定を用いて選択することもできる。
【0022】
また、メタボロミクスでは、1つの個体から複数種類のメタボロームデータが取得されることがある。例えば、特定の薬剤が動物に投与された際、複数の臓器の代謝に影響を及ぼす可能性がある。このような場合、同一個体から複数の臓器、血漿、尿のサンプル(試料)が採取され、それぞれメタボロームデータが取得される。また、メタボロームデータ以外のデータ、例えば遺伝子発現量やタンパク量が、同一個体からメタボロームデータと同時に測定されることも多い。これらの同一個体から得られる複数の測定データを統合し、多変量解析を用いて共通のスコアを計算することで、複数の臓器で共通して変動する代謝物や、同一個体で共通して変動する代謝物と遺伝子を特定することが可能となる。
【0023】
以上の多変量解析において、個体間の群の順序を反映させながら別種の測定データを統合できれば、例えば群の順序に応じて個体中で共通して変動する代謝物等の特定やそれらの因果関係など、より多様なデータ解析が期待される。そこで、本発明者は、上記のPLS−ROGにカーネル法の概念を導入することで、群間の順序を考慮しながら各種の測定データの統合解析や非線形データ解析など、多様な解析を可能にする手法「カーネルPLS−ROG(カーネル順序型部分的最小二乗法)」を考案した。以下、PLS−ROG及びカーネルPLS−ROGについて説明する。
【0024】
2−1.PLS−ROGについて
PLS−ROGは、n行p列のデータ行列X(式(1))と、n行g列のダミー行列Yと、説明変数t及び目的変数s(それぞれn次元ベクトル)とを用いて定式化できる。ここで、nはサンプルサイズであり、pは測定項目(データ項目)数であり、gは群の数である。ダミー行列Yは、群の順序を示す群情報を設定するための行列である(
図8(b)参照)。説明変数tと目的変数sとは、合成変数(t,s)を構成する。
【0025】
また、説明変数tとデータ行列Xとの間には重みベクトルw
x(p次元ベクトル)を用いて、目的変数sとダミー行列Yとの間には重みベクトルw
y(g次元ベクトル)を用いて、それぞれ以下の関係が設定される。
t=Xw
x (2)
s=Yw
y (3)
【0026】
上記のX,Y,t,sを用いて、PLS−ROGは以下の最適化問題(特定の重みベクトルw
x,w
yを求めること)として定式化される。
【数2】
【0027】
上式において、cov(t,s)は説明変数tと目的変数sとの共分散であり、κは個体間の群の順序によるペナルティを示すパラメータ定数である。また、行列Pは、各群に含まれる個体数(サンプル数)n
1,n
2,…,n
gに応じたウェイトを示すg行n列の行列であり、行列Dは、群間のスムージングを行うための(g−1)行g列の行列である。行列P,Dの具体形を下記に示す。
【数3】
【0028】
上式(4)〜(6)によると、PLS−ROGは、式(5),(6)が表す条件下において共分散cov(t,s)を最適化する最適化問題を構成する。条件式(5)は、重みベクトルw
xの大きさを1に設定する条件を表す。条件式(6)は、左辺第2項の罰則項によって定数κ分、重みベクトルw
yの大きさを1からずらす条件を表す。式(6)の左辺第2項は、ダミー行列Yによる群の順序に応じたペナルティを与える罰則項である。
【0029】
PLS−ROGによるスコアは、最適化問題で求めたw
x,w
yと式(2),(3)により対応する合成変数(t,s)で計算される。PLS−ROGでは、条件式(6)の罰則項により、ダミー行列Yで設定される群の順序をスコアに反映させることができる。
【0030】
2−2.カーネルPLS−ROGについて
以下、本実施形態に係る統計データの解析手法であるカーネルPLS−ROGについて説明する。
【0031】
2−2−1.カーネルPLS−ROGの定式化
まず、カーネルPLS−ROGの定式化について説明する。PLS−ROGを定式化した式(2)〜(6)の中で、式(2)に代えて、下記の式(9)を採用する。これと共に、n行n列のカーネル行列K及びn次元ベクトルα
xを導入する(式(10),(11))。
t=Φw
x (9)
w
x=Φ’α
x (10)
K=ΦΦ’ (11)
【0032】
上式において、Φは、データ行列Xに対応する行列(写像)である。なお、Φの具体的な行列表示(n行p列)は特に与えられなくてもよい。カーネル行列Kは、データ行列Xにおけるサンプル毎の測定データx
i(p次元ベクトル)の内の2つを引数とするカーネル関数k(x
i,x
j)を行列要素として構成される行列である。カーネル関数k(x
i,x
j)は、x
i,x
jをΦで写した特徴空間における内積を表す関数であり、1対の測定データx
i,x
jに基づき算出可能な具体形を有する。カーネル行列K及びカーネル関数k(x
i,x
j)の詳細については後述する。ベクトルα
xは、重みベクトルw
xの代わりに用いられるベクトルである。
【0033】
上式(9)〜(11)により、説明変数tは、w
x及びΦを用いることなく、ベクトルα
x及びカーネル行列Kを用いて次式のように表すことができる。
t=Kα
x (12)
【0034】
また、式(5)は、式(10)に基づき、ベクトルα
x及びカーネル行列Kを用いて次式のように表される。
α
x’Kα
x=1 (13)
【0035】
上式(13)は、ベクトルα
x同士のカーネル行列Kを介した内積を1とする条件を表す。これにより、カーネルPLS−ROGは、PLS−ROGを定式化した式(4)〜(6)に対して、式(5)に代えて式(13)の条件が課された最適化問題を構成する。カーネルPLS−ROGは、Φの具体形を用いることなく、重みベクトルw
xを消去して、式(4),(6),(13)により記述される。
【0036】
また、以上のように定式化されたカーネルPLS−ROGは、ラグランジュ乗数法を用いることにより、下記のラグランジュ関数Jの最適化問題として記述できる(λ
x,λ
yはパラメータ)。
【数4】
【0037】
上記の関数Jをα
xとw
yとでそれぞれ偏微分し、得られた2つの方程式を整理することにより、カーネルPLS−ROGは、最終的に、次式の一般化固有値問題(固有値λ及び固有ベクトルα
x,w
yを求めること)に帰着する。
【数5】
【0038】
上式(15),(16)で算出される固有値λ及び固有ベクトルα
x,w
yにおいて、ゼロでない固有値λは(g−1)個である。本実施形態では、各固有値λの固有ベクトルα
xを式(12)に代入することによって得られる説明変数tの値をスコアとする。
【0039】
上式(15),(16)は、本実施形態に係るデータ解析装置50(
図1(b)参照)によって、カーネルPLS−ROG(式(6),(13)の条件下のPLS)の演算を行うための演算式として使用される。データ解析装置50については、後述する。
【0040】
2−2−2.カーネル行列について
以下、カーネル行列及びカーネル関数の詳細について説明する。
【0041】
カーネル行列Kの(i,j)要素は、データ行列Xにおけるi,j番目のサンプルの測定データx
i,x
jに関するカーネル関数k(x
i,x
j)で表される。カーネル関数k(x
i,x
j)の具体形は、種々のものを用いることができる。例えば、カーネル関数k(x
i,x
j)として、下記の線形カーネルk
L(x
i,x
j)(式(17))や、多項式カーネルk
P(x
i,x
j)(式(18))、ガウシアンカーネルk
G(x
i,x
j)(式(19))を用いることができる。
【数6】
【0042】
上式(18)におけるmは任意の実数であり、qは任意の自然数であり、上式(19)におけるσは正の実数である。式(18),(19)などの非線形カーネルに基づきカーネル行列Kを構成することにより、群の順序を考慮しながら非線形のデータ解析を行うことが可能になる。
【0043】
さらに、複数の臓器や生体液由来のメタボロームデータ(
図2〜5参照)のように、個体毎に複数種類の測定データx
i(L),x
i(H),x
i(B),x
i(P)が取得された場合、種類別に管理される測定データの統合解析に用いるためのカーネル行列Kを、以下のように構成できる。
【0044】
個体毎にN種類の測定データが取得された場合、各種類のデータ行列X
(1),X
(2),…,X
(N)では、種類毎の測定項目が記録され、列方向が一致していない。この場合に、各種の測定データx
i(1),x
i(2),…,x
i(N)についてそれぞれ上記のようにカーネル関数に基づくカーネル行列を計算すると、種類別のカーネル行列K
(1),K
(2),…,K
(N)は、全てn行n列となる。統合解析のためのカーネル行列Kは、全種のカーネル行列K
(1),K
(2),…,K
(N)の所定の平均で構成される。所定の平均は、相加平均であってもよいし、適宜重み付けを選択した加重平均や、行列要素毎の相乗平均であってもよい。
【0045】
以上のように構成されるカーネルPLS−ROGの理論は、コンピュータによって、複数の統計サンプルの測定データを示すデータ行列Xに基づきカーネル行列Kを計算し、カーネル行列Kと統計サンプル間の群の順序に関する群情報に基づき式(15),(16)等の演算を行うことで実現できる。これにより、コンピュータ上で統計サンプル間の群の順序を考慮したスコアを得られ、プロット表示で視覚化したり、複数種類のデータ行列X
(1),X
(2),…,X
(N)間の統合解析を行ったりすることができる。以下、カーネルPLS−ROGを実現するデータ解析装置、方法及びプログラムについて説明する。
【0046】
3.データ解析装置、方法及びプログラム
3−1.構成
本実施形態に係るデータ解析装置50の構成について、
図6を用いて説明する。
図6は、データ解析装置50の構成を示すブロック図である。
【0047】
データ解析装置50は、複数の統計サンプルの測定データを示すデータ行列Xに基づき、カーネルPLS−ROG(式(6),(13)の条件下のPLS)による演算を行ってスコア(t)を算出し、スコアのプロット画像等を表示する(
図1(b)参照)。データ解析装置50は、例えばPC(パーソナルコンピュータ)などの情報処理装置で構成される。データ解析装置50は、
図6に示すように、制御部51と、記憶部52と、操作部53と、表示部54と、機器インタフェース55と、ネットワークインタフェース56とを備える。
【0048】
制御部51は、例えばソフトウェアと協働して所定の機能を実現するCPU、MPUで構成され、データ解析装置50の全体動作を制御する。制御部51は、記憶部52に格納されたデータやプログラムを読み出して種々の演算処理を行い、各種の機能を実現する。例えば、制御部51は、上述のカーネルPLS−ROGによるデータ解析が実現されるデータ解析処理を実行する。データ解析処理を実行するためのプログラムは、パッケージソフトウェアであってもよい。また、制御部51は、所定の機能を実現するように設計された専用の電子回路や再構成可能な電子回路などのハードウェア回路であってもよい。制御部51は、CPU,MPU,マイコン、DSP、FPGA、ASIC等の種々の半導体集積回路で構成されてもよい。
【0049】
記憶部52は、データ解析装置50の機能を実現するために必要なプログラム及びデータを記憶する記憶媒体であり、例えばハードディスク(HDD)や半導体記憶装置(SSD)を備える。また、記憶部52は、例えば、DRAMやSRAM等の半導体デバイスを備えてもよく、データを一時的に記憶するとともに制御部51の作業エリアとしても機能する。例えば、記憶部52は、カーネルPLS−ROGの演算式(式(15),(16),)、(統計サンプル毎の複数測定項目の測定データを示す)データ行列Xや(統計サンプル間の群の順序に関する群情報を示す)ダミー行列Y、カーネル行列Kなどを格納する。データ行列Xについては、統計サンプル毎にN種類の測定データが取得された場合、記憶部52は、種類別のデータ行列X
(1),X
(2),…,X
(N)で各種の測定データを管理する。
【0050】
操作部53は、ユーザが操作を行うユーザインタフェースである。操作部53は、例えば、キーボード、タッチパッド、タッチパネル、ボタン、スイッチ、及びこれらの組み合わせで構成される。操作部53は、ユーザによって入力される諸情報を取得する取得部の一例である。
【0051】
表示部54は、例えば、液晶ディスプレイや有機ELディスプレイで構成される。表示部54は、例えば操作部53から入力された情報など、種々の情報を表示する。
【0052】
機器インタフェース55は、データ解析装置50に他の機器を接続するための回路(モジュール)である。機器インタフェース55は、所定の通信規格にしたがい通信を行う。所定の規格には、USB、HDMI(登録商標)、IEEE1395、WiFi、Bluetooth(登録商標)等が含まれる。
【0053】
ネットワークインタフェース56は、無線または有線の通信回線を介してデータ解析装置50をネットワークに接続するための回路(モジュール)である。ネットワークインタフェース56は所定の通信規格に準拠した通信を行う。所定の通信規格には、IEEE802.3,IEEE802.11a/11b/11g/11ac等の通信規格が含まれる。
【0054】
3−2.動作
本実施形態に係るデータ解析装置50の動作について、
図7〜11を用いて説明する。
図7は、データ解析装置50によるデータ解析処理を示すフローチャートである。
図8は、データ解析処理を説明するための図である。
図9は、データ解析処理におけるカーネルPLS−ROG演算処理を示すフローチャートである。
図10は、カーネルPLS−ROG演算処理を説明するための図である。
図11は、データ解析処理による解析データを例示する図である。
【0055】
図7,9に示すフローチャートは、データ解析装置50の制御部51によって実行される。以下では、9個体のウサギが3つの群を成し、各個体からそれぞれ肝臓、心臓、脳、血漿の4種類の生体サンプルに対するメタボロームデータを得た場合(
図1〜5参照)のデータ解析装置50の動作例を説明する。
【0056】
また、以下の動作例では、記憶部52に、あらかじめ肝臓、心臓、脳、血漿の種類毎のメタボロームデータを示す各種のデータ行列X
(L),X
(H),X
(B),X
(P)(
図2〜5参照)、及び個体間の群の順序に関する群情報を示すダミー行列Yが格納されていることとする。
【0057】
図7のフローチャートにおいて、まず、制御部51は、記憶部52から各種のデータ行列X
(L),X
(H),X
(B),X
(P)を取得する(S1)。
図8(a)は、各種のデータ行列X
(L)の一例を示す。
図8(a)に例示するように、データ行列X
(L)の各行は、行毎に各個体の特定の生体サンプルの代謝物を測定した測定データx
(L)iを記録している。
【0058】
図7に戻り、次に、制御部51は、記憶部52からダミー行列Yを取得する(S2)。ダミー行列Yは、例えば、ユーザによってメタボロームデータの入力時等に設定される。
図8(b)に、ダミー行列Yの一例を示す。
図8(b)に例示したダミー行列は、9個体中、1〜3番目のウサギが第1の群(1列目)を成し、4〜6番目のウサギが第2の群(2列目)を成し、7〜9番目のウサギが第3の群(3列目)を成すことを示している。
【0059】
次に、制御部51は、取得したデータ行列X
(L),X
(H),X
(B),X
(P)及びダミー行列Yに基づいて、カーネルPLS−ROG演算処理を行う(S3)。カーネルPLS−ROG演算処理は、上記2−2−2.で説明したカーネルPLS−ROGの式(15),(16)の演算を行う処理である。
図8を用いて説明する。
【0060】
ここで、
図9のフローチャートを用いて、カーネルPLS−ROG演算処理(S3)について説明する。制御部51は、まず、各臓器及び血漿のデータ行列X
(L),X
(H),X
(B),X
(P)において、代謝物毎に個体間の平均が0で且つ分散が1になるように、データのスケーリング(規格化)を行う(S10)。
【0061】
次に、制御部51は、複数種類のデータ行列X
(L),X
(H),X
(B),X
(P)の内のいずれか1つの種類(例えば肝臓サンプル)を選択する(S11)。
【0062】
次に、制御部51は、全9個体中の1対の個体の(肝臓サンプルの)測定データx
i(L),x
j(L)(i,j=1〜9)に基づき、選択した種類のカーネル行列K
(L)の(i,j)要素のカーネル関数k(x
i(L),x
j(L))を計算する(S12)。
【0063】
制御部51は、ステップS12の計算を全9個体の内の1対の組み合わせ全てについて行い、種類別のカーネル行列K
(L)の各行列要素を計算する(S13)。例えば、線形カーネルの場合、
図8(c)に示すように、カーネル行列K
(L)の行列要素はそれぞれ1対の測定データx
i(L),x
j(L)の内積によって計算される。
【0064】
制御部51は、各種類のデータ行列X
(L),X
(H),X
(B),X
(P)に対して、ステップS11〜S13の処理を行い(S14)、全種類のカーネル行列K
(L),K
(H),K
(B),K
(P)を計算する。
【0065】
制御部51は、全種類のカーネル行列X
(L),X
(H),X
(B),X
(P)を計算すると(S14でYes)、例えば
図8(d)に示す演算式によって種類間の平均を行い、カーネル行列Kを計算する(S15)。
【0066】
次に、制御部51は、上記2−2−2.で説明したカーネルPLS−ROGの理論における演算式(15),(16)を記憶部52から読み出して、平均後のカーネル行列Kおよびダミー行列Yを演算式に代入する(S16)。
図8(e),(f)に、本例における行列P,Dを示す。
図8(b),(e),(f)の行列Y,D,Pにより、カーネルPLS−ROGにおける罰則項が計算される。
【0067】
次に、制御部51は、代入した演算式による一般化固有値問題の固有値λ、及び各固有値λに対応する固有ベクトルα
x,w
yを計算する(S17)。
図10(a),(b)に、ステップS17で計算された固有ベクトルα
x,w
yの一例を示す。本例(g=3)では、(g−1)個の固有値λに対応して、
図10(a),(b)に示すように、2つの固有ベクトルが計算されている。
【0068】
次に、制御部51は、計算したカーネル行列Kに基づき、計算した(g−1)個の固有ベクトルそれぞれに対応する説明変数t(n=9次元ベクトル)を計算し(式(12))、各個体のスコアを算出する(S18)。
図10(c)に、ステップS18で計算されたスコアの一例を示す。説明変数tはn(=9)次元ベクトルであり、各ベクトル要素が個体それぞれに対するスコアとなる。各個体のスコアは、(g−1)個の固有ベクトルに応じて第1〜第(g−1)成分を有する。
図10(c)で例示するスコアは、g=3に応じて第1成分及び第2成分を有する。
【0069】
図7に戻り、以上のようにして、カーネルPLS−ROG演算処理を行った後、制御部51は、計算したスコアに基づいて、
図1(b)に示すように、各サンプルのスコアを表示部54にプロット表示する(S4)。
【0070】
次に、制御部51は、操作部53においてユーザの操作を受け付け、ユーザがさらなるデータ解析のため、表示したスコアの成分のいずれかを選択したか否かを判断する(S5)。例えば、ユーザは、表示部54に表示されたスコアのプロット画像により、群の順序が反映されたスコアの成分を選択することができる(
図12(b)参照)。
【0071】
制御部51は、ユーザがスコアの成分を選択しなかったと判断した場合(S5でNo)、本処理を終了する。
【0072】
一方、ユーザがスコアの成分のいずれかを選択したと判断した場合(S5でYes)、制御部51は、各種のデータ行列X
(L),X
(H),X
(B),X
(P)中のそれぞれの代謝物と、選択された成分のスコアとの相関を解析する(S6)。具体的に、制御部51は、全個体に対する代謝物のデータと選択された成分のデータとの相関係数(両データの統計分布の相関を示す係数(
図13(e)参照))及びp値(データ上の相関が偶然、生じる確率)を計算し、計算結果のリスト等を生成し、本処理を終了する。
【0073】
図11(a)〜(d)に、ステップS6の解析結果の例を示す。
図11(a)は、肝臓サンプルのデータ行列X
(L)中の代謝物に対する解析リストLaを示す。
図11(b)は、心臓サンプルのデータ行列X
(H)中の代謝物に対する解析リストLbを示す。
図11(c)は、脳サンプルのデータ行列X
(B)中の代謝物に対する解析リストLcを示す。
図11(d)は、血漿サンプルのデータ行列X
(P)中の代謝物に対する解析リストLdを示す。
【0074】
図11(a)〜(d)に例示する解析リストLa〜Ldは、κ=0.5の場合のスコアの第1成分と、4種のデータ行列X
(L)〜X
(P)中の代謝物との相関を示している。各解析リストLa〜Ldには、代謝物毎に計算された「相関係数」と「p値」とが記録されている。解析リストLa〜Ldによると、肝臓、心臓、脳、血漿サンプルのそれぞれの代謝物について、共通のスコアに対する相関を統合的に解析することができる。解析結果の詳細については後述する。
【0075】
以上のデータ解析処理によると、個体間の群の順序を考慮しながらカーネル行列Kにより種類間の統合解析を可能にするカーネルPLS−ROGを実現することができる。以下、データ解析処理による解析結果について説明する。
【0076】
3−3.解析結果について
生物学的な研究(非特許文献1)によると、肝臓のグリシン生合成経路の代謝中間体(N,N-DimethylglycineとBetaine)やプリン代謝の中間体の代謝物の濃度について、野生型ウサギ(第1の群)、投薬ありのWHHLウサギ(第2の群)、WHHLウサギ(第3の群)の順で上昇/下降することが示唆されている。この観点から、本例では、
図8(b)に示すように、ダミー行列Yにおいて第1、第2及び第3の群の順序を設定して、データ解析処理(
図7)を行った。
【0077】
図12(a),(b)は、データ解析処理(
図7)のステップS4による表示例(κ=0又は0.5)を示す。
図12(a),(b)の各プロットは、それぞれ、野生型ウサギ3個体、投薬ありのWHHLウサギ3個体、WHHLウサギ3個体に対するスコアを示す。
図12(a),(b)の横軸はスコアの第1成分であり、縦軸は第2成分である。
【0078】
図12(a)は、式(6)中の行列D,P,Yに基づく罰則項がない状態(カーネルPLS)で得られたスコアの表示例である。
図12(a)の表示例では、3つの群の各サンプルのスコアは、第1成分及び第2成分のどちらにおいても、ダミー行列Y(
図8b))で設定された第1の群(野生型ウサギ)、第2の群(投薬ありのWHHLウサギ)、第3の群(WHHLウサギ)の順に並んでいない。
【0079】
図12(b)は、式(6)中の罰則項がある状態(カーネルPLS−ROG)で得られたスコアの表示例である。
図12(b)の表示例では、3つの群の各個体のスコアは、第1成分において、ダミー行列Yで設定された第1の群(野生型ウサギ)、第2の群(投薬ありのWHHLウサギ)、第3の群(WHHLウサギ)の順に増加している。このように、カーネルPLS−ROGを実現するデータ解析処理では、行列Yに基づく罰則項によって、スコアに群の順序を反映させることができる。
【0080】
また、データ解析処理(
図7)では、さらに、群の順序が反映された第1成分のスコアに対して、肝臓、心臓、脳、血漿サンプルの各種のメタボロームデータの解析を行った。具体的には、第1成分のスコアと各代謝物との相関係数とp値を計算して(
図7のステップS6)、各相関の仮説検定を行い、有意(仮説検定上肯定的)な代謝物を判定した。
【0081】
図13は、データ解析処理(
図7)のステップS6の処理に基づく仮説検定を説明するための図である。
図13(a),(b),(c),(d)の各表は、それぞれ
図7のステップS6で得られた肝臓、心臓、脳、血漿サンプルの解析リストLa,Lb,Lc,Ld(
図11)に対応している。
【0082】
図13(e)は、スコアと代謝物のデータの相関係数を説明するための図である。
図13(e)に示すように、スコア及び各種の代謝物のデータは、それぞれ全9個体にわたって分布している。相関係数は、このような両データの分布の類似度を、−1〜+1の範囲内の値で表す。スコアと代謝物のデータの類似度が小さいほど相関係数が「0」に近づき、無相関であると考えられる。また、類似度が大きいほど相関係数の絶対値が「1」に近くなり、相関係数が「+1」に近ければ正の相関があり、相関係数が「−1」に近ければ負の相関があると考えられる。
【0083】
また、上記の相関が実際に意味を有し得る(有意)か、データ上の単なる偶然かについて、確率的に判断するために、仮説検定においてp値を用いる。本解析では、
図13(a)〜(d)に示すように、p値のしきい値を「0.05」として、スコアと代謝物のデータの相関の有意性を判定した。
【0084】
図13(a)〜(d)の各表では、カーネルPLS(
図12(a))の場合と、カーネルPLS−ROG(
図12(b))の場合とのそれぞれの場合に得られた解析リストLa〜Ldが示す情報を併記している。また、
図13(a)〜(d)では、仮説検定によってスコアとの相関が認められた代謝物に「*」を付している。
【0085】
図13(a),(b)に示すように、肝臓サンプルと心臓サンプルのBetaine及びN,N-Dimethylglycine(グリシン生合成経路の代謝中間体)は、カーネルPLS−ROGの第1成分のスコアとの相関係数が全て0.6以上であった。また、これらのp値は0.05以下であり、有意(確率的に偶然とは考え難い程度)に正の相関が認められた。
【0086】
また、プリン代謝に関して、
図13(a)に示すようにUrate(尿酸)では、カーネルPLSとカーネルPLS−ROGのいずれのp値も0.05以上であり、有意な相関は認められなかった。しかし、カーネルPLS−ROGの相関係数「0.594」は、カーネルPLSの相関係数「0.0060」から大幅に改善している。また、
図13(a)に示すように、Hypoxanthine,Inosine,Adenosine,Adenineでは、カーネルPLS−ROGについてのみ、第1成分のスコアと負の相関(相関係数−0.6以下)が有意に認められた。
【0087】
また、その他の代謝物に関して、
図13(c),(d)に示すように、血漿サンプルと脳サンプルのN5-Ethylglutamine(テアニン)では、カーネル PLS−ROGについてのみ第1成分のスコアと有意に負の相関が認められた。さらに、
図13(b),(c)に示すように、Citrullineについて、心臓サンプルではカーネルPLSとカーネルPLS−ROGとについて、脳ではカーネルPLS−ROGについてのみに有意に負の相関が認められた。
【0088】
以上のように、本実施形態に係るデータ解析装置50によると、カーネルPLS−ROGに基づき、群の順序を考慮した共通のスコアを生成することで、肝臓、心臓、脳、血漿サンプルの各代謝物を統合的に解析できる。また、データ解析装置50では、κの値の設定を変更することで、上記のようにカーネルPLS−ROGでの相関とカーネルPLSでの相関との比較も行え、多様なデータ解析を行うことができる。
【0089】
4.まとめ
以上のように、本実施形態に係るデータ解析装置50は、複数の統計サンプルに対して統計サンプル毎に複数の測定項目が測定された測定データに基づき、複数の測定項目に関する多変量解析を行う。データ解析装置50は、記憶部52と、制御部51とを備える。記憶部52は、統計サンプル毎に複数の測定項目が測定された測定データで構成されるデータ行列X、及び複数の統計サンプルが成す群に対する所定の順序を示す群情報を示すダミー行列Yを記録する。制御部51は、データ行列X及びダミー行列Yに基づき所定の演算処理を行う。制御部51は、複数の統計サンプルの内の一対の統計サンプルの測定データを引数x
i,x
jとする所定のカーネル関数k(x
i,x
j)を計算する。制御部51は、カーネル関数k(x
i,x
j)の計算結果及び群情報に基づいて、一対の統計サンプル毎のカーネル関数k(x
i,x
j)が行列要素であるカーネル行列Kとダミー行列Yとによって規定される所定条件下の部分的最小二乗法(カーネルPLS−ROG)により、複数の統計サンプルに対するスコアを算出する。
【0090】
本実施形態に係るデータ解析装置50によると、群情報(ダミー行列Y)に基づきスコアに群の順序を反映させながら、カーネル行列Kによって種々の測定データの統合解析や非線形解析を行える。このため、統計サンプル間の群の順序を考慮しながら多様なデータ解析を可能にすることができる。
【0091】
また、本実施形態では、記憶部52は、統計サンプル毎の複数種類の測定データx
(L)i,x
(H)i,x
(B)i,x
(P)iを各種のデータ行列X
(L),X
(H),X
(B),X
(P)で管理する。各種測定データx
(L)i,x
(H)i,x
(B)i,x
(P)iは、例えば生体内の複数の代謝物を測定項目とするメタボロームデータである。制御部51は、種類毎の測定データx
(L)i,x
(H)i,x
(B)i,x
(P)iに関するカーネル関数の平均により、カーネル行列Kを計算する。これにより、別々に管理される複数種類の測定データx
(L)i,x
(H)i,x
(B)i,x
(P)iを統合的に解析することができる。
【0092】
また、本実施形態では、データ解析装置50によって算出されるスコアは、ダミー行列Yが示す群の順序に応じて増大又は減少する。このため、算出されたスコアを用いて、群の順序を考慮したデータ解析が容易になる。例えば、本実施形態では、制御部51は、測定データ中の測定項目毎のデータと、算出したスコアとの相関を解析する。
【0093】
また、本実施形態では、所定条件は、第1の条件と、第2の条件とを含む。第1の条件は、部分的最小二乗法における説明変数t及び目的変数sのうちの説明変数tに関連する第1のベクトルα
xに対して、第1のベクトルα
x同士のカーネル行列Kを介した内積を所定値に設定する条件である(式(13))。第2の条件は、目的変数sに関連する第2のベクトルw
yに対して、群情報に基づく所定の罰則項により、第2のベクトルの大きさを所定値からずらす条件である(式(6))。
【0094】
(実施例)
本発明に係るデータ解析方法(カーネルPLS−ROG)は、サンプルの群間に順序のあるメタゲノムデータ、及びメタゲノムデータとメタボロームデータとの統合解析においても有用である。以下、カーネルPLS−ROGによるメタゲノムデータとメタボロームデータとの統合解析の一実施例について説明する。
【0095】
本実施例では、非特許文献3で開示されたメタゲノムデータ及びメタボロームデータに対して、カーネルPLS−ROGによる統合解析を適用した例を説明する。非特許文献3は、人間の母乳におけるメタゲノムデータ及びメタボロームデータを用いた研究である。従来から、母乳は、乳児の発育のための細菌の重要な発生源であり、新生児の腸内細菌の構成に影響を与えることが知られている。非特許文献3では、ホジキンリンパ腫の化学治療を行っている母親の母乳中の細菌叢と代謝物を解析した結果、化学療法の影響がそのプロファイルに現れていることが示された。
【0096】
非特許文献3は、ホジキンリンパ腫の化学治療を行っている母親に対し、化学療法開始から0週、2週、4週、6週、10週、12週、14週、及び16週後の母乳をそれぞれ2サンプルずつ採取し、各サンプルに対して次世代シーケンサによる16S rRNAメタゲノム解析と、ガスクロマトグラフィ−質量分析計を用いたメタボローム解析とを行っている。さらに、メタゲノム解析の結果のデータに対して公知のUniFrac解析(例えば非特許文献3参照)を行い、類似度行列Dを構成するデータを得ている。類似度行列Dは、各要素がサンプル間の類似度を表す行列であり、サンプルの個数mを用いて次式(20)のように表される。
【数7】
【0097】
上式(20)において、d
i,jは、i番目のサンプルとj番目のサンプルとが類似する度合いである類似度を表す(i,j=1〜m)。d
i,jは、0〜1の範囲内の値を有し、0に近いほどサンプルiとサンプルjとが類似していることを表す。類似度行列D、及び上記メタゲノム解析結果のデータは、それぞれ細菌叢の遺伝子配列に関する情報を示すメタゲノムデータの一例である。
【0098】
また、非特許文献3のメタボローム解析において得られたメタボロームデータは、各行に225物質、各列に16サンプルのデータ行列Xを構成する。
【0099】
上記のような非特許文献3]の統計データは一般に公開されている。本実施例では、この統計データから一部の欠損データを除いたサンプル数14の統計データに対して、データ解析装置50によってカーネルPLS−ROG及びカーネルPLSをそれぞれ適用し、統合解析を行った。
【0100】
データ解析装置50において、メタゲノムデータのカーネル行列K
gは、上記の類似度行列Dに基づき、以下のように生成した。すなわち、カーネル行列K
gの非対角成分には、類似度行列Dにおいて対応する各要素の逆数を設定した。また、カーネル行列K
gの対角成分には、所定値として20を設定した。
【0101】
また、データ解析装置50は、メタボロームデータのカーネル行列K
mを、上記のデータ行列Xの線形カーネルを用いて生成した(K
m=XX’)。また、データ解析装置50は、次式(21)のようなカーネル行列K
g,K
m間の平均に基づき、メタゲノムデータとメタボロームデータとを統合したカーネル行列Kを計算した。
K=(1/2)K
g+(1/2)K
m (21)
【0102】
データ解析装置50は、以上のようなカーネル行列K、及びサンプルの化学療法開始からの期間に対応する2サンプルずつの群の順序を示すダミー行列に基づきカーネルPLS−ROG(κ=0.5)及びカーネルPLS(κ=0)のデータ解析を行い、それぞれのスコアを算出した。
図14及び
図15に、それぞれの解析結果を示す。
【0103】
図14(a)は、カーネルPLSによるメタゲノムデータの解析結果を示す。
図14(b)は、カーネルPLSによるメタボロームデータの解析結果を示す。
図14(c)は、カーネルPLSによるメタゲノムデータとメタボロームデータとの統合解析の結果を示す。
図15(a)は、カーネルPLS−ROGによるメタゲノムデータの解析結果を示す。
図15(b)は、カーネルPLS−ROGによるメタボロームデータの解析結果を示す。
図15(c)は、カーネルPLS−ROGによるメタゲノムデータとメタボロームデータとの統合解析の結果を示す。
図14(a)〜(c)及び
図15(a)〜(c)では、各サンプルのスコアをプロットしており、横軸はスコアの第1成分であり、縦軸はスコアの第2成分である。
【0104】
図14(a)〜(c)に示すように、カーネルPLSによると、サンプル毎のスコアは縦軸においても横軸においても、0〜16週の化学療法の期間の順序に並んでおらず、化学療法の期間の順序はスコアには表れていない。
【0105】
一方、カーネルPLS−ROGによると、例えばメタゲノムデータに関して、
図15(a)に示すようにスコアの第1成分(横軸)において0週のサンプル群と2週のサンプル群とが順番に並んでいる。また、
図15(b)に示すように、メタゲノムデータに関してもスコアの第1成分において、特に6週、10週、12週、16週それぞれのサンプル群における順序が明確に現れている。これらの平均に基づくメタゲノムデータとメタボロームデータとの統合結果においては、
図15(c)に示すように、0週、2週、4週、6週、10週、12週、16週の各週のサンプル群の間の順序を確認することができた。
【0106】
以上のように、本発明に係るカーネルPLS−ROGのデータ解析方法は、母乳中の細菌叢や、腸内細菌の細菌叢の解析などのメタゲノムデータに適用することができる。本発明に係るカーネルPLS−ROGのデータ解析方法によると、メタゲノムデータとメタボロームデータを統合して解析することができる。
【0107】
(他の実施形態)
上記の実施形態1では、データ解析装置50がPCなどの情報処理装置で構成される例について説明したが、これに限らず、例えば、データ解析装置50はASPサーバなどのサーバ装置であってもよい。例えば、データ解析装置50は、ネットワークを介して入力されたデータ行列Xやダミー行列Yを示す情報をネットワークインタフェース(取得部の一例)により取得して、データ解析処理を実行してもよい。また、データ解析装置50は、データ解析処理において生成したスコアを示す情報を、ネットワークを介して送信してもよい。
【0108】
また、上記の実施形態1では、メタボロミクスに対する本データ解析方法の適用例を説明した。本データ解析方法はメタボロミクスに限らず、種々のオミックス解析や計量化学の多変量解析に適用してもよい。この場合、測定データは、同一生体内におけるオミックス解析又は計量化学によって得られるデータであってもよい。
【0109】
また、上記の実施形態1では、複数種類のメタボロームデータの統合解析について説明した。本データ解析方法は、メタボロームデータと遺伝子発現データの統合や、複数の測定プラットフォームから得られた分析データを統合して解析することに用いてもよく、様々な統合解析が必要な場面で適用可能である。
【0110】
また、上記の実施形態1において、
図2〜5に例示するメタボロームデータは、キャピラリー電気泳動−飛行時間型質量分析計を用いて測定された。統計サンプル毎の測定データを測定するための分析装置はこれに限らず、例えば、液体クロマトグラフィ−質量分析計やガスクロマトグラフィ−質量分析計、核磁気共鳴等であってもよい。
【0111】
また、上記の実施形態1において、ユーザが選択したスコアの成分に対する相関を解析したが(
図7のステップS5)、これに限らず、データ解析装置50が解析に用いるスコアの成分を選択してもよい。例えば、データ解析装置50の制御部51がスコアの算出後、ダミー行列Yに基づき群の順序を反映したスコアの成分を判定して、判定した成分に対する相関の解析を行ってもよい。
【0112】
また、上記の実施形態1では、データ解析処理の解析結果により仮説検定を行ったが、データ解析装置50が仮説検定を行ってもよい。例えば、記憶部52に相関係数やp値のしきい値を予め設定しておき、制御部51が、特定のスコアの成分に対する相関の解析において、所定条件(例えば相関係数の絶対値「0.6」以上で且つp値「0.05」以下)を満たす代謝物を抽出してもよい。
【0113】
(態様のまとめ)
本発明に係る各種態様を以下に例示する。
【0114】
本発明に係る第1の態様は、複数の統計サンプルに対して複数のデータ項目に関する多変量解析を行うデータ解析装置である。データ解析装置は、記憶部と、制御部とを備える。記憶部は、上記統計サンプル毎に上記複数のデータ項目を管理する統計データ、及び複数の統計サンプルが成す群が並ぶ順序を示す群情報を記録する。制御部は、上記統計データ及び上記群情報に基づく所定の演算処理を行う。制御部は、上記統計データに基づいて、行列要素が上記複数の統計サンプルの内の行番号に対応する統計サンプルと列番号に対応する統計サンプルとの間の所定の関係を表すカーネル行列を計算する。制御部は、上記カーネル行列と上記群情報とによって規定される所定条件下の部分的最小二乗法に基づく演算処理を行って、上記複数の統計サンプルに対するスコアを算出する。
【0115】
本発明に係る第2の態様は、第1の態様に係るデータ解析装置において、記憶部は、上記統計データにおいて上記統計サンプル毎に複数種類の測定データを管理する。制御部は、上記種類毎の測定データに関するカーネル行列を生成し、上記種類毎のカーネル行列の平均に基づいて、統合されたカーネル行列を計算する。
【0116】
本発明に係る第3の態様は、第1又は第2の態様に係るデータ解析装置において、上記所定の関係は、上記統計データの内の上記行番号に対応する統計サンプルに関するデータと上記列番号に対応する統計サンプルに関するデータとに基づくカーネル関数で規定される。
【0117】
本発明に係る第4の態様は、第1〜第3のいずれか一つの態様に係るデータ解析装置において、上記スコアは、上記群情報が示す群の順序に応じて増大又は減少する。
【0118】
本発明に係る第5の態様は、第1〜第4のいずれか一つの態様に係るデータ解析装置において、制御部は、上記統計データ中のデータ項目毎のデータと、算出したスコアとの相関を解析する。
【0119】
本発明に係る第6の態様は、第1〜第5のいずれか一つの態様に係るデータ解析装置において、上記所定条件は、第1の条件と、第2の条件とを含む。第1の条件は、上記部分的最小二乗法における説明変数及び目的変数のうちの説明変数に関連する第1のベクトルに対して、上記第1のベクトル同士の上記カーネル行列を介した内積を所定値に設定する条件である。第2の条件は、上記目的変数に関連する第2のベクトルに対して、上記群情報に基づく所定の罰則項により、上記第2のベクトルの大きさを所定値からずらす条件である。
【0120】
本発明に係る第7の態様は、第1〜第6のいずれか一つの態様に係るデータ解析装置において、上記統計データは、生体内の複数の代謝物をデータ項目とするメタボロームデータを含む。
【0121】
本発明に係る第8の態様は、第1〜第7のいずれか一つの態様に係るデータ解析装置において、上記統計データは、細菌叢の遺伝子配列に関する情報を示すメタゲノムデータを含む。
【0122】
本発明に係る第9の態様は、第1〜第8のいずれか一つの態様に係るデータ解析装置において、上記統計データは、同一生体内におけるオミックス解析又は計量化学によって得られるデータを含む。
【0123】
本発明に係る第10の態様は、コンピュータが複数の統計サンプルに対して上記複数のデータ項目に関する多変量解析を行うデータ解析方法である。上記コンピュータの記憶部には、上記統計サンプル毎に上記複数のデータ項目を管理する統計データ、及び複数の統計サンプルが成す群が並ぶ順序を示す群情報が記録されている。本方法は、上記コンピュータが、上記統計データに基づいて、行列要素が上記複数の統計サンプルの内の行番号に対応する統計サンプルと列番号に対応する統計サンプルとの間の所定の関係を表すカーネル行列を計算するステップを含む。本方法は、上記コンピュータが、上記カーネル行列と上記群情報とによって規定される所定条件下の部分的最小二乗法に基づく演算処理を行って、上記複数の統計サンプルに対するスコアを算出するステップを含む。
【0124】
本発明に係る第11の態様は、第10の態様に係るデータ解析方法をコンピュータに実行させるためのプログラムである。