(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-14
(45)【発行日】2024-02-22
(54)【発明の名称】データ解析装置および方法
(51)【国際特許分類】
G06F 17/18 20060101AFI20240215BHJP
G06F 17/15 20060101ALI20240215BHJP
【FI】
G06F17/18
G06F17/15
(21)【出願番号】P 2019122748
(22)【出願日】2019-07-01
【審査請求日】2022-05-19
(73)【特許権者】
【識別番号】504059429
【氏名又は名称】ヒューマン・メタボローム・テクノロジーズ株式会社
(74)【代理人】
【識別番号】100106518
【氏名又は名称】松谷 道子
(74)【代理人】
【識別番号】100132241
【氏名又は名称】岡部 博史
(74)【代理人】
【識別番号】100199314
【氏名又は名称】竹内 寛
(72)【発明者】
【氏名】山本 博之
【審査官】坂東 博司
(56)【参考文献】
【文献】特開2016-195974(JP,A)
【文献】国際公開第2017/090566(WO,A1)
【文献】国際公開第2019/203352(WO,A1)
【文献】国際公開第2019/202728(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/18
G06F 17/15
(57)【特許請求の範囲】
【請求項1】
複数の統計サンプルに対して複数のデータ項目に関する多変量解析を行うデータ解析装置であって、
前記統計サンプル毎に前記複数のデータ項目を管理する統計データ、及び前記複数の統計サンプル間の順序を示す順序情報を記録する記憶部と、
前記統計データ及び前記順序情報に基づく所定の演算処理を行う制御部とを備え、
前記制御部は、
前記統計データの主成分分析における説明変数と、前記順序情報に従う制約条件が設定される補助変数との間の共分散を最適化する
最適化問題を行列形式で示す所定の演算式の計算により、前記説明変数に対応する第1のベクトルと、前記補助変数に対応する第2のベクトルとを算出し、
前記第1のベクトルと前記第2のベクトルとの内の少なくとも一方
のベクトルに基づいて、
前記説明変数と前記補助変数との内の当該ベクトルに対応する変数の、前記統計サンプル毎の値を、前記多変量解析による前記複数の統計サンプルに対する
解析結果を示すスコア
として算出する
データ解析装置。
【請求項2】
前記制約条件は、前記順序情報が示す順序において前記統計サンプル毎のデータを平滑化する平滑化項によって規定される
請求項1に記載のデータ解析装置。
【請求項3】
前記スコアは、前記順序情報が示す順序において増大又は減少する
請求項1又は2に記載のデータ解析装置。
【請求項4】
前記順序情報は、複数の統計サンプルが成す群毎に、前記統計サンプル間の順序を示す
請求項1~3のいずれか1項に記載のデータ解析装置。
【請求項5】
前記第1のベクトルは、前記統計データにおける前記データ項目毎のデータと、前記第2のベクトルに基づくスコアとの間の相関係数に比例する複数の成分を有し、
前記制御部は、前記第1のベクトルの各成分に基づいて、前記複数のデータ項目の中から、統計的な有意水準を満たすデータ項目を選出する
請求項1~4のいずれか1項に記載のデータ解析装置。
【請求項6】
前記統計データは、生体内の複数の代謝物を前記複数のデータ項目として、前記データ項目毎に対応する代謝物に関する測定値および計算値の少なくとも一方を含む
請求項1~5のいずれか1項に記載のデータ解析装置。
【請求項7】
コンピュータが複数の統計サンプルに対して複数のデータ項目に関する多変量解析を行うデータ解析方法であって、
前記コンピュータの記憶部には、前記統計サンプル毎に前記複数のデータ項目を管理する統計データ、及び前記複数の統計サンプル間の順序を示す順序情報が記録されており、
前記コンピュータが、
前記統計データの主成分分析における説明変数と、前記順序情報に従う制約条件が設定される補助変数との間の共分散を最適化する
最適化問題を行列形式で示す所定の演算式の計算により、前記説明変数に対応する第1のベクトルと、前記補助変数に対応する第2のベクトルとを算出するステップと、
前記第1のベクトルと前記第2のベクトルとの内の少なくとも一方
のベクトルに基づいて、
前記説明変数と前記補助変数との内の当該ベクトルに対応する変数の、前記統計サンプル毎の値を、前記多変量解析による前記複数の統計サンプルに対する
解析結果を示すスコア
として算出するステップと
を含むデータ解析方法。
【請求項8】
請求項7に記載のデータ解析方法をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、統計的手法でデータ解析を行うデータ解析装置、方法及びプログラムに関する。
【背景技術】
【0002】
従来、例えばメタボロミクスでは多数の代謝物等のデータを解析するための多変量解析手法として、主成分分析(PCA:Principal Component Analysis)と部分的最小二乗法(PLS:Partial Least Squares)が良く用いられている(非特許文献1など参照)。
【0003】
特許文献1は、PLSを応用したPLS-ROG(Rank Order of Groups)に、カーネル法の概念を導入したカーネルPLS-ROGという手法を開示している。カーネルPLS-ROGによると、統計サンプルが成す群の順序をスコアに反映させながら種々の統計データの統合解析等が行え、群の順序を考慮しながら多様なデータ解析を可能にする。
【先行技術文献】
【特許文献】
【0004】
【非特許文献】
【0005】
【文献】Hiroyuki Yamamoto, et al., "Dimensionality reduction for metabolome data using PCA, PLS, OPLS, and RFDA with differential penalties to latent variables", Chemom. Intell. Lab. Syst., 98 (2009) 136-142.
【文献】Yasumune Nakayama, et al., "Novel Strategy for Non-Targeted Isotope-Assisted Metabolomics by Means of Metabolic Turnover and Multivariate Analysis" Metabolites 2014, 4(3), 722-739
【文献】Pongsuwan W, et al., "Prediction of Japanese green tea ranking by gas chromatography/mass spectrometry-based hydrophilic metabolite fingerprinting." J Agric Food Chem. 2007 Jan 24;55(2):231-6.
【発明の概要】
【発明が解決しようとする課題】
【0006】
PLSは教師あり次元削減法の一種である一方、PCAは教師なし手法である。本願発明者は、PCAのような解析手法においてサンプル間の順序をスコアに反映しながら、ローディングの仮説検定といった多様なデータ解析を可能にする方法について、鋭意研究を重ねた。
【0007】
本発明の目的は、統計サンプル間の順序を考慮しながら多様なデータ解析を可能にするデータ解析装置および方法を提供することである。
【課題を解決するための手段】
【0008】
本発明に係るデータ解析装置は、複数の統計サンプルに対して複数のデータ項目に関する多変量解析を行う装置である。データ解析装置は、記憶部と、制御部とを備える。記憶部は、統計サンプル毎に複数のデータ項目を管理する統計データ、及び複数の統計サンプル間の順序を示す順序情報を記録する。制御部は、統計データ及び順序情報に基づく所定の演算処理を行う。制御部は、統計データの主成分分析における説明変数と、順序情報に従う制約条件が設定される補助変数との間の共分散を最適化するように、説明変数に対応する第1のベクトルと、補助変数に対応する第2のベクトルとを算出し、第1のベクトルと第2のベクトルとの内の少なくとも一方に基づいて、複数の統計サンプルに対するスコアを算出する。
【0009】
本発明に係るデータ解析方法は、コンピュータが複数の統計サンプルに対して複数のデータ項目に関する多変量解析を行う方法である。コンピュータの記憶部52には、統計サンプル毎に複数のデータ項目を管理する統計データ、及び複数の統計サンプル間の順序を示す順序情報が記録されている。本方法は、コンピュータが、統計データの主成分分析における説明変数と、順序情報に従う制約条件が設定される補助変数との間の共分散を最適化するように、説明変数に対応する第1のベクトルと、補助変数に対応する第2のベクトルとを算出するステップと、第1のベクトルと第2のベクトルとの内の少なくとも一方に基づいて、複数の統計サンプルに対するスコアを算出するステップとを含む。
【発明の効果】
【0010】
本発明に係るデータ解析装置および方法によると、統計データの主成分分析における説明変数と、順序情報に従う制約条件が設定される補助変数との間の共分散を最適化する理論の適用により、統計サンプル間の順序を考慮しながら多様なデータ解析を可能にすることができる。
【図面の簡単な説明】
【0011】
【
図2】データ解析の事例1におけるPCAの解析結果を示す図
【
図3】データ解析の事例1におけるOS-PCAの解析結果を示す図
【
図4】データ解析の事例1におけるOS-PCAのローディングの仮説検定例を示す図表
【
図5】データ解析の事例2におけるPCAの解析結果を示す図
【
図6】データ解析の事例2におけるOS-PCAの解析結果を示す図
【
図7】実施形態1に係るデータ解析装置の構成を示すブロック図
【
図8】データ解析装置によるデータ解析処理を示すフローチャート
【
図9】データ解析処理におけるOS-PCA演算処理を示すフローチャート
【発明を実施するための形態】
【0012】
以下、添付の図面を参照して本発明に係るデータ解析装置、方法及びプログラムの実施の形態を説明する。なお、以下の各実施形態において、同様の構成要素については同一の符号を付している。
【0013】
(実施形態1)
1.概要
本発明の実施形態1に係るデータ解析方法による統計解析の概要について説明する。以下では、メタボロミクスに対する本データ解析方法の適用例を説明する。
【0014】
メタボロミクスは、生体内の低分子の代謝物を包括的に解析する研究分野である。メタボロミクスでは、例えば、動物の組織や微生物の細胞、人間の血液や尿などの生体サンプル(試料)を種々の分析装置で測定し、サンプルに含まれる代謝物の濃度等を解析する。測定された種々の代謝物の濃度の値等が記録されるメタボロームデータは、例えば下記のようなn行q列のデータ行列Xの形式で表される。
【数1】
【0015】
ここで、nはサンプルの個数であり、qは測定された代謝物の数(即ちデータ項目数)である。上式(1)は、例えばメタボロームデータとして1行当たりに、行番号に対応するサンプルで測定されたq個の代謝物の測定値を記録できる。測定値の代わりに、各種の計算値が記録されてもよい(例えばアイソトポマー比など)。
【0016】
メタボロームデータの解析は、主成分分析を用いると、以下のような手順で行われる。即ち、まずメタボロームデータの主成分分析によるスコアにおいてサンプルのデータ分布を可視化して、所望の表現型、群情報や時系列情報等と関連する主成分を見つけ出す。その後、主成分に対応するローディングの仮説検定に基づき有意な代謝物を選出することにより、選出された代謝物群と代謝パスウェイとの関連性を調べること等が行える。
【0017】
以上のようなメタボロームデータ解析においては、メタボロームデータに加えて、サンプルまたは群同士の関係に関する付加的な情報が、予め与えられていることがある。従来の典型的な多変量解析は、メタボロームデータを解析するために有用である一方で、このような付加情報は解析の際に考慮されない。このため、典型的なPCA等においては、サンプルの可視化に用いられるスコアに付加情報が反映されず、解析を進めることが困難な場合がある。このような問題を回避するために付加情報を組み込んだ解析手法として、「平滑化PCA」が、以前に本発明者らにより提案された(非特許文献1)。
【0018】
平滑化PCAは、経時的に採取されたサンプルのメタボロームデータを解析するためには有用である。例えば、微生物の培養や発酵の研究においては、様々な物質の濃度変化を経時的に見るためにメタボロームデータの解析が行われている。本発明者らの研究によると、酵母の発酵過程を可視化する目的でメタボロームデータに平滑化PCAを適用して、その有効性が確認された(非特許文献1)。ここで、本発明者は、平滑化PCAはローディングの統計的な意味を理論的に説明することができず、統計的な基準でローディングから代謝物を選出することが困難であるという問題に着目した。
【0019】
そこで、本発明者は上記の問題について鋭意検討を重ね、平滑化PCAと同等の計算結果が得られて且つローディングの仮説検定により統計的に有意な代謝物を選出することを可能にする主成分分析の一手法「直交平滑化PCA(OS-PCA:Orthogonal Smoothed PCA)」を考案した。
【0020】
2.理論
以下、本実施形態に係るOS-PCAの理論について説明する。
【0021】
2-1.平滑化PCAについて
OS-PCA及び平滑化PCAといった各種の解析手法において、解析対象とする統計データは、例えば式(1)のデータ行列Xとして表される。以下、データ行列Xにおけるp列目のデータを「xp」とする。データ行列Xは、例えば各列のデータxp(p=1~q)を、n個の成分間(即ちサンプル間)において平均「0」且つ分散「1」にスケーリングして用いられる。
【0022】
データ行列Xに対する主成分分析のスコアには、次式(2)のようなn次元ベクトルの説明変数tを用いることができる。
t=Xwx (2)
【0023】
上式(2)において、重みベクトルwxはq次元ベクトルであり、q個の成分を有する。上式(2)によると、重みベクトルwxの各成分は、データ行列Xにおけるデータ項目毎に説明変数tの重み付けを示す。説明変数tのn個の値が、それぞれ対応するサンプルのスコアを示すこととなる。
【0024】
OS-PCAと平滑化PCAとは、上記の各種変数に加えて、後述する平滑化パラメータκ及びダミー行列Dを共通に用いる。まず、平滑化PCAは、次式(31)~(32)のように定式化される(非特許文献1)。
【数2】
【0025】
上式(31)~(32)において、「’」は行列等の転置を表す(以下同様)。上式(32)の左辺における第2項は、平滑化パラメータκに基づく平滑化項を構成する。
【0026】
上式(31)~(32)によると、平滑化PCAは、次式(33)のように一般化固有値問題に帰着する。なお、Iは単位行列であり、λは固有値である。
【数3】
【0027】
2-2.OS-PCAについて
本実施形態に係るOS-PCAは、以上のような平滑化PCAとは別の定式化で平滑化項を取り入れるべく、次式(3)のような補助変数sを導入する。
s=Xwy (3)
【0028】
補助変数sは、後述する制約条件が設定される補助的な変数である(式(6)参照)。補助変数sは、説明変数tと同様にn次元ベクトルであり、サンプル毎のスコアを構成できる。又、上式(3)において、重みベクトルwyは、説明変数tの重みベクトルwxと同様にq次元ベクトルである。上式(3)によると、重みベクトルwyの各成分は、データ行列Xにおけるデータ項目毎に補助変数sの重み付けを示す。
【0029】
平滑化PCAは、主成分スコアに対応する一変数tの分散を最大化した(式(31)参照)。これに代えて、本実施形態のOS-PCAは、二変数tとsの共分散を最大化することで主成分を求めるように定式化される。具体的に、本手法は次式(4)~(6)のように定式化される。
【数4】
【0030】
上式(4)~(6)において、平滑化パラメータκは0<κ<1の範囲内で設定され、行列Pは次式(7)のように表される。
P=(1-κ)I+κX’D’DX (7)
【0031】
上式(4)において、共分散cov(t,s)の引数に目的変数は含まれない。このように、本手法は、特にPLS等のように目的変数の情報を利用してはおらず、教師無し手法である。又、本手法において、上式(4)の最大化は局所的であってもよく、上記の条件式(5),(6)を満たす範囲で共分散cov(t,s)を最適化するように、複数の固有値に対する固有ベクトルを算出可能である。
【0032】
上記の条件式(5)は、重みベクトルwxの大きさを「1」に設定する条件(即ち正規化条件)を表す。条件式(6)は、平滑化パラメータκの分、重みベクトルwyの大きさを「1」からずらす制約条件を表す。同式(6)の左辺第2項は、ダミー行列Dによってデータ行列X中のサンプル間のデータを平滑化する平滑化項である。
【0033】
ダミー行列Dは、サンプル間の順序に応じた平滑化を設定するための行列である。ダミー行列Dとしては、例えば
図1(A)に示すように一次の差分行列D
(1)又は二次の差分行列D
(2)を採用できる。各差分行列D
(1),D
(2)の行毎に、差分を取る順序のサンプル間で、データの平滑化を実現できる。
【0034】
図1(A),(B)では、サンプル間の群の数が1つの場合の各差分行列D
(1),D
(2)の行数及び列数を例示している。群の個数が複数G個の場合、ダミー行列Dは、群毎のダミー行列D
(1)~D
(G)を用いて、
図1(C)に示すように(ブロック)対角的に設定可能である。群毎のダミー行列D
(1)~D
(G)は、それぞれ同じ群のサンプル間で、
図1(A),(B)と同様の差分行列を採用可能である。
【0035】
上式(4)~(11)のように定式化されたOS-PCAは、ラグランジュ乗数法を用いることにより、下記のラグランジュ関数Jの最適化問題として記述できる(λ
x,λ
yはラグランジュ乗数)。
【数5】
【0036】
上記の関数Jを各ベクトルw
x,w
yで偏微分することで、次式(8),(9)がそれぞれ得られる。
【数6】
【0037】
上式(8),(9)は、各ベクトルw
x,w
yについて、次式(10),(11)のように整理できる。
【数7】
【0038】
上式(10),(11)において、固有値λは、λ=4λxλyを満たす。上式(10)において、右辺は固有値λと重みベクトルwxの積であり、左辺は対称行列と重みベクトルwxとの積となっている。
【0039】
上式(10)によると、本手法は、説明変数tの重みベクトルwxについて固有値問題で記述されている。平滑化PCAは、一般化固有値問題に帰着したことから、固有ベクトルが互いに直交しなかった。これに対して、本実施形態のOS-PCAは、上記の固有値問題から説明変数tの重みベクトルwxに関して、別々の固有値λに対する固有ベクトルが互いに直交することが分かる。
【0040】
以上のOS-PCAによると、式(10),(11)の固有値λ別に、固有ベクトルとしての重みベクトルwx,wyを計算し、式(2),(3)に代入することにより、各変数t,sの成分としてサンプルのスコアを算出することができる。以下、最も大きい固有値λによるスコアを第1主成分といい、次に大きい固有値λによるスコアを第2主成分という場合がある。
【0041】
2-2-1.ローディングの仮説検定について
以上のようなOS-PCAによると、平滑化項によりサンプル間の順序情報をスコアに反映できると共に、重みベクトルwxが、ローディングの仮説検定を可能とする統計的な性質を満たす(式(13))。この点について以下、説明する。
【0042】
まず、データ行列Xにおけるp番目(p=1~q)のデータ項目(代謝物)のデータx
pと、スコアsと相関係数corr(s,x
p)は、次式(12)のように表される。
【数8】
【0043】
データ行列Xのスケーリングによる分散Var(x
p)=1、及び式(3),(8),(12)によると、相関係数corr(s,x
p)は、次式(13)のように表すことができる。
【数9】
【0044】
上式(13)において、wx,pは重みベクトルwxのp番目の成分である。上式(13)右辺の分母は、p番目の変数に影響を与えない。よって、最終的に重みベクトルwxは、p番目のデータxpとスコアsとの相関係数corr(s,xp)に比例するという、統計的な性質を有することが分かる。
【0045】
又、R=corr(s,x
p)とおくと、次式(14)のt統計量(t-statistic)は自由度n-2のt分布に従う。
【数10】
【0046】
以上より、本手法によると、重みベクトルwxの各成分を用いて、代謝物等のデータ項目毎に上記のt統計量に基づくp値等を得ることができる。すなわち、本実施形態のOS-PCAによると、PCA等と同様に、ローディングの統計的仮説検定を行うことができる。
【0047】
2-2-2.平均化操作について
本実施形態のOD-PCAは、1つのサンプルについて繰り返し測定されたことで、繰り返しサンプルによる複数のデータがデータ行列X中にある場合、このようなデータを扱うために、同一サンプル由来のデータに対して平均化の操作を導入することができる。平均化操作を導入したOS-PCAは、次式(15)~(17)のように表される。
【数11】
【0048】
上式(15)~(17)において、平均化のためのダミー行列Mは、次式(18)のようなn行g列の行列で表される。なお、gは、繰り返しの解消後のサンプル数であり、解消前のn個のサンプルにおける(データの繰り返しによる)群の数とも考えることができる。
【数12】
【0049】
上式(18)において、各ベクトルm1~mgは、それぞれ対応するサンプルについてデータの繰り返しの個数分の次元を有する。例えば、1番目のサンプルの平均化のためのベクトルm1は、繰り返しのデータの個数n1に基づき、次式(19)のように表される。
m1’=[1/n1,1/n1,1/n1,…,1/n1] (19)
【0050】
又、式(17)における行列Qは、平均化操作をしない場合の行列Pに対応しており、次式(20)のように表される。
Q=(1-κ)I+X’M’D’DMX (20)
【0051】
上式(15)~(17)によると、平均化行列Mによって繰り返しサンプル毎に平均化操作を実現できる。この場合のOS-PCAも、上述した場合と同様に固有値問題で記述できる。具体的には、次式(21)~(22)のように記述される。
【数13】
【0052】
3.検証事例について
以上のようなOS-PCAの理論について、実際のメタボロームデータを用いた検証を行った。2つの検証事例として、ターンオーバー解析と、緑茶のメタボロームデータとにOS-PCAを適用し、通常の主成分分析の解析結果と比較して、OS-PCAの有用性を確認した。各事例について、以下説明する。
【0053】
3-1.事例1
事例1においては、非特許文献2と同様のターンオーバー解析について、典型的なPCAとOS-PCAとを適用した。
【0054】
本事例では、酵母Saccharomyces cerevisiae BY4742(アミノ酸カクテル)およびX2180株(最小培地とアミノ酸カクテル)について、13Cグルコースで同位体標識したサンプルを用いた。サンプリングは、0秒、10秒、20秒、40秒、80秒、160秒、320秒、640秒、1280秒、及び2560秒という時系列(即ちサンプル間の順序)で行った。各サンプリング結果に対してGC/MSによる代謝物の測定値(メタボロームデータ)から、アイソトポマー比を計算した値を、解析対象の統計データ(即ちデータ行列X)として用いた。
【0055】
上記の統計データに関して、まず通常のPCA(即ちκ=0)を行った結果を
図2に示す。
図2において、横軸は第1主成分のスコアを示し、縦軸は第2主成分のスコア(PC2)を示す。
図2によると、通常のPCAにおいては、第1主成分で時系列の様子が確認できてはいるものの、株間の差は、確認できていない。
【0056】
非特許文献2では、上記のアイソトポマー比について全サンプルの平均を引いたデータを利用して主成分分析を行うことで、株間の差が主成分スコアに現れるように工夫が為されている。又、この結果から、注目すべき代謝物としてLysineの4TMSとIsoleucineの2TMSを挙げている。しかしながら、非特許文献2の方法では時系列の情報が失われている。さらに、アイソトポマー比そのものを直接データとして利用していないので、関連する代謝物を選出する際に、目視で確認する必要が生じてしまう。
【0057】
次に、本実施形態に係るOS-PCAの結果を
図3(A),(B)に示す。本例では、平滑化パラメータκ=0.999においてOS-PCAを上記の統計データに適用した。
【0058】
図3(A)では、OS-PCAにおける説明変数tの第1主成分のスコア(PC1t)を横軸に示し、同変数tの第2成分のスコア(PC2t)を縦軸に示す。
図3(B)では、OS-PCAにおける補助変数sの第1主成分のスコア(PC1s)を横軸に示し、同変数sの第2成分のスコア(PC2s)を縦軸に示す。
【0059】
図3(A),(B)に示す結果より、OS-PCAでは各変数t,sについて、第1主成分で時系列を確認できると共に、第2主成分で株間の差すなわち群間差を確認することができた。第2主成分のスコアPC2sについては、特に培地による違いが現れていることから、対応するローディングに着目した。
図4に、本事例におけるローディングの仮説検定結果を示す。
【0060】
図4に示すように、ローディングとしてLysine_3TMS_Minor::C00047、Lysine_4TMS_Major::C00047、Histidine::C00135+0、及びPeak-63の4つのピーク(代謝物)について、上記スコアPC2sと有意に負の相関が確認された。この結果は、非特許文献2で注目すべき代謝物として挙げているLysineの4TMSを含んでおり、既存の報告とも一致していることが分かる。
【0061】
以上のように、本実施形態に係るOS-PCAを用いることで、時系列の情報および群間差が確認され、ローディングの統計的仮説検定を用いて選出した代謝物についても妥当および結果が得られた。
【0062】
3-2.事例2
本事例では、緑茶の品評会でランク付けされた緑茶の葉のメタボローデータを解析対象として用いた(非特許文献3)。本データは、1位、6位、11位、16位、21位、31位、36位、41位、46位、及び51位といった順序を有する各々の緑茶について、それぞれ3回ずつ測定されたデータである。これにより、3サンプルずつの群が形成され得る。
【0063】
上記の統計データに関して、まずPCAの結果を
図5に示す。
図5では、
図2と同様に第1及び第2主成分のスコアを示している。
図5によると、PCAでは幾つかの群の傾向は確認できるが、品評会のランキングとの関連性は確認できない。
【0064】
次に、本実施形態に係るOS-PCAの結果を
図6に示す。本例では、平滑化パラメータκ=0.1においてOS-PCAを上記の統計データに適用した。
図6(A)では、OS-PCAにおける補助変数sの第1主成分のスコア(PC1os)を横軸に示し、同変数sの第2成分のスコア(PC2os)を縦軸に示す。
【0065】
図6に示す結果より、OS-PCAにおける第1主成分のスコアPC1osでは、(21位のサンプルについては比較的スコアが低いものの)概ねランクの順序に合った関係が確認できる。そこで、第1主成分のスコアPC1osについてのローディングの統計的仮説検定を行った。
【0066】
上記の仮説検定の結果としては、未知のピーク(代謝物)も含めた225物質中、p<0.05で有意なものは73個あり、q<0.05で有意なものは57個あった。その中でも特に上記のスコアPC1osとの相関係数が0.7より高く、名前が既知のものは、下記の5物質であった。
Raffinose(R=-0.8600, p=1.133×10-9, q=2.550×10-7)
threo-3-Hydroxy-L-aspartic acid(R=-0.7912, p=1.941×10-7, q=1.764×10-5)
Arabinose(R=-0.7880, p=2.352×10-7, q=1.764×10-5)
Shikimic acid(R=-0.7334, p=4.023×10-6, q=2.073×10-4)
Galactose(R=-0.7228, p=6.450×10-6, q=2.073×10-4)
【0067】
既存の報告では、品評会でのランクと関連する物質として、糖類、アミノ酸、及びQuinic acidが挙げられている。上記のOS-PCAによる解析結果において、糖類については、Raffinose、Arabinose、GalactoseがスコアPC1osと高い負の相関を有し、ランクの高い緑茶にはこれらの糖類が多く含まれることが確認された。又、アミノ酸については、上記の各糖類に比べると相関は小さいものの、Serine(R=0.5427, p=1.945×10-3, q=1.287×10-2、Glycine(R=0.5385, p=2.140×10-3, q=1.338×10-2)がスコアPC1osと有意な正の相関を有し、この2つのアミノ酸は、ランクの高い緑茶には少ない傾向がある。また、その他いくつかのアミノ酸も統計的に有意な相関が確認できた。なお、Quinic acidについてはスコアPC1osとの統計的な有意な相関は確認されなかった。
【0068】
以上のように、平滑化PCAの問題点を改良したOS-PCAを提案し、ローディングの統計的な性質を理論的に示した。実際のメタボローム解析に適用し、OS-PCスコアに注目すべきパターンを確認できると共に、統計的仮説検定を用いて代謝物を選出し、従来の知見との一致を確認することができた。
【0069】
4.データ解析装置について
以上のようなOS-PCAを実現するデータ解析装置について、以下説明する。
【0070】
4-1.構成
本実施形態に係るデータ解析装置5の構成について、
図7を用いて説明する。
図7は、データ解析装置5の構成を示すブロック図である。
【0071】
データ解析装置5は、例えばPC(パーソナルコンピュータ)などの情報処理装置で構成される。データ解析装置5は、
図7に示すように、制御部51と、記憶部52と、操作部53と、表示部54と、機器インタフェース55と、ネットワークインタフェース56とを備える。
【0072】
制御部51は、例えばソフトウェアと協働して所定の機能を実現するCPUやMPU等を含み、データ解析装置5の全体動作を制御する。制御部51は、記憶部52に格納されたデータやプログラムを読み出して種々の演算処理を行い、各種の機能を実現する。例えば、制御部51は、本実施形態に係るデータ解析方法をデータ解析装置5に行わせるための命令群を含んだプログラムを実行する。上記のプログラムは、インターネット等の通信ネットワークから提供されてもよいし、可搬性を有する記録媒体に格納されていてもよい。
【0073】
また、制御部51は、所定の機能を実現するように設計された専用の電子回路や再構成可能な電子回路などのハードウェア回路であってもよい。制御部51は、CPU、MPU、GPU、マイコン、DSP、FPGA、ASIC等の種々の半導体集積回路で構成されてもよい。
【0074】
記憶部52は、データ解析装置5の機能を実現するために必要なプログラム及びデータを記憶する記録媒体であり、例えばハードディスク(HDD)や半導体記憶装置(SSD)を備える。また、記憶部52は、例えば、DRAMやSRAM等の半導体デバイスを備えてもよく、データを一時的に記憶するとともに制御部51の作業エリアとしても機能する。
【0075】
操作部53は、ユーザが操作を行うユーザインタフェースである。操作部53は、例えば、キーボード、タッチパッド、タッチパネル、ボタン、スイッチ、及びこれらの組み合わせで構成される。操作部53は、ユーザによって入力される諸情報を取得する取得部の一例である。
【0076】
表示部54は、例えば、液晶ディスプレイや有機ELディスプレイで構成される。表示部54は、例えば操作部53から入力された情報など、種々の情報を表示する。
【0077】
機器インタフェース55は、データ解析装置5に他の機器を接続するための回路(モジュール)である。機器インタフェース55は、所定の通信規格にしたがい通信を行う取得部の一例である。所定の規格には、USB、HDMI(登録商標)、IEEE1395、WiFi、Bluetooth(登録商標)等が含まれる。
【0078】
ネットワークインタフェース56は、無線または有線の通信回線を介してデータ解析装置5をネットワークに接続するための回路(モジュール)である。ネットワークインタフェース56は、所定の通信規格に準拠した通信を行う取得部の一例である。所定の通信規格には、IEEE802.3,IEEE802.11a/11b/11g/11ac等の通信規格が含まれる。
【0079】
以上の説明では、PC等で構成されるデータ解析装置5の一例を説明した。データ解析装置5はこれに限定されず、種々の情報処理装置(即ちコンピュータ)であってもよい。例えば、データ解析装置5は、ASPサーバなどの一つ又は複数のサーバ装置であってもよい。また、コンピュータクラスタ或いはクラウドコンピューティングなどにおいて、本開示に係るデータ解析方法が実現されてもよい。
【0080】
例えば、データ解析装置5は、外部から通信ネットワークを介して入力されたメタボロームデータをネットワークインタフェース56により取得して、本実施形態のデータ解析方法を実行してもよい。データ解析装置5は、ネットワークインタフェース56から外部に、データ解析方法の解析結果を送信してもよい。
【0081】
4-2.動作
本実施形態に係るデータ解析装置5の動作について、
図8~
図9を用いて説明する。
図8は、データ解析装置5によるデータ解析処理を示すフローチャートである。
図9は、データ解析処理におけるOS-PCA演算処理を示すフローチャートである。
【0082】
図8に示すフローチャートの各処理は、データ解析装置5の制御部51によって実行される。
【0083】
まず、制御部51は、解析対象の統計データの一例として、データ行列Xを取得する(S1)。例えばメタボロミクスの解析対象の統計データとして、メタボロームデータを示すデータ行列XがステップS1において取得される。データ行列Xにおけるデータは、代謝物の測定値であってもよいし、測定結果に基づく各種の計算値(例えばアイソトポマー比)であってもよい。
【0084】
ステップS1において、制御部51は、例えば記憶部52において予め格納されたデータを作業エリアに読み出して、データ行列Xを取得する。制御部51は、操作部53におけるユーザの操作によりデータを入力してもよいし、制御部51は、外部から各種インタフェース55,56を用いて、データ行列Xを取得してもよい。
【0085】
また、制御部51は、データ行列Xにおけるサンプル間の順序に関する順序情報の一例であるダミー行列Dを取得する(S2)。例えば、ユーザの操作によってメタボロームデータの入力時等に、サンプル間の順序の情報が設定される。
【0086】
ステップS2において、制御部51は、例えば記憶部52に格納された情報を参照して、ダミー行列Dを取得する。例えば、制御部51は、サンプル間に設定された順序において近接する二つ以上のサンプルのデータ間の差分を取るように行列要素の値を決定してダミー行列Dを生成し、記憶部51の作業エリアに保持する。制御部51は、各種インタフェース55,56或いは操作部53を用いて、ダミー行列Dを取得してもよい。
【0087】
さらに、制御部41は、取得したデータ行列Xにおいて平均化操作の対象となるデータすなわち繰り返しサンプルがあるか否かを判断する(S3)。制御部51は、繰り返しサンプルがないと判断した場合(S3でNO)、特にステップS4の処理は行わず、ステップS5に進む。ステップS3,S4の処理は、例えばユーザの操作に応じて実行される。
【0088】
制御部51は、データ行列Xにおいて繰り返しサンプルがあると判断した場合(S3でYES)、繰り返しサンプル間で平均化操作を行うためのダミー行列Mを取得する(S4)。ステップS3,S4の処理は、例えば制御部51が取得したデータ行列Xにおいて行方向に記録されたデータ項目の情報を参照することによって、実行されてもよい。例えば、制御部51は、データ行列X中の繰り返しサンプルの個数に応じて、ダミー行列Mを生成する(式(18)参照)。
【0089】
次に、制御部51は、取得したデータ行列X及びダミー行列D,Mに基づいて、上述したOS-PCAの理論を適用してスコアを算出する処理であるOS-PCA演算処理を行う(S5)。
図9のフローチャートを用いて、OS-PCA演算処理(S5)の一例を説明する。
【0090】
図9の例において、まず、制御部51は、データ行列Xにおいて代謝物などのデータ項目毎にサンプル間の平均が「0」で且つ分散が「1」になるように、データのスケーリング(規格化)を行う(S10)。なお、データのスケーリング(S10)は、データ行列Xの取得時(S1)に行われてもよい。又、取得されたデータ行列Xがスケーリング済みの場合、ステップS10の処理は省略可能である。
【0091】
次に、制御部51は、OS-PCAの理論における演算式に、スケーリングされたデータ行列X及びダミー行列D,Mを代入する(S11)。繰り返しサンプルがない場合(S3でNO)、制御部51は、各行列X,Dに基づきステップS11の演算式として式(10)等を用いる。繰り返しサンプルがある場合(S3でYES)、制御部51は、各行列X,D,Mに基づき演算式として式(21)等を用いる。各演算式は、例えば記憶部52に予め格納されている。
【0092】
次に、制御部51は、代入した演算式による固有値問題における1つ又は複数の固有値λおよび固有ベクトルを計算する(S12)。これにより、共分散cov(t,s)を最適化するように各重みベクトルwx,wyが算出される。
【0093】
ステップS12において、例えば制御部51は、式(10)の各固有値λを算出し、算出した固有値λが大きい順に固有ベクトルとして、1個以上(n-1)個以下の重みベクトルwxを算出する。さらに、制御部51は、算出した重みベクトルwxの固有値λを式(11)に代入して、対応する重みベクトルwyを算出する。なお、重みベクトルwyの算出には、式(8),(9)が用いられてもよい。
【0094】
次に、制御部51は、固有値λ及び固有ベクトルの計算結果に基づいて、対応するスコアを算出する(S13)。制御部51は、スコアの算出(S13)によってOS-PCA演算処理(
図8のS5)を終了し、ステップS5に進む。
【0095】
ステップS13において、例えば制御部51は、別々の固有値λによる固有ベクトル毎に、重みベクトルwx及び式(2)に基づき説明変数tのn個の値を各サンプルのスコアとして算出する。又、補助変数sについても同様に、制御部51は、重みベクトルwy及び式(3)に基づき補助変数sの値をスコアとして算出する。なお、ステップS13では、二変数t,sのうちの一方のみによるスコアが算出されてもよい。スコアの算出は、例えば固有値λが大きい順に、第1主成分、或いは第1及び第2主成分などと制限して行われてもよい。
【0096】
図8に戻り、OS-PCA演算処理(S5)の算出結果に基づいて、制御部51は、算出したスコアを表示するように表示部54を制御する(S6)。例えば、制御部51は、二変数t,sのそれぞれについて、例えば
図3(A),(B)のように、第1及び第2主成分の各スコアをそれぞれサンプル毎のプロットとして表示部54に表示させる。
【0097】
次に、制御部51は、操作部53においてユーザの操作を受け付け、ユーザがさらなるデータ解析のため、表示したスコアの種類(第1又は第2主成分等)のいずれかを選択したか否かを判断する(S7)。例えば、ユーザは、表示部54に表示されたスコアのプロット画像により、サンプル間の順序が反映されたスコアの種類を選択することができる(
図3(A),(B)参照)。ステップS7の選択は、例えば補助変数sによるスコアの種類について受け付けられる。
【0098】
制御部51は、ユーザがスコアの種類を選択しなかったと判断した場合(S6でNO)、本処理を終了する。
【0099】
一方、ユーザがスコアの種類のいずれかを選択したと判断した場合(S6でYES)、制御部51は、選択した主成分に対応する重みベクトルwxに基づいて、ローディングの仮説検定を実施するための処理を実行する(S8~S9)。
【0100】
例えば、制御部51は、選択したスコアの補助変数sと、データ行列Xにおける代謝物などのデータ項目毎のデータxpとの相関係数corr(s,xp)を計算する(S8)。また、制御部51は、例えば式(14)のt統計量に基づき、各データ項目のp値を取得する。
【0101】
さらに、制御部51は、各データ項目のp値と所定のしきい値(「α」とする)とを比較して、しきい値α未満のp値を有するデータ項目を選出する(S9)。しきい値αは、統計的に有意な水準を示し、例えばα=0.05である。ステップS9により、例えばデータ項目が代謝物に関する場合、統計的な有意水準を満たす代謝物が、自動的に選出される。制御部51は、ステップS8,S9の計算結果を示すリスト等(例えば
図4)を生成してもよい。
【0102】
制御部51は、以上のようにローディングの仮説検定の処理(S8,S9)を実行すると、
図8に示すデータ解析処理を終了する。
【0103】
以上のデータ解析処理によると、OS-PCAの理論に基づくデータ解析方法を実施して、サンプル間の順序を反映したスコアが得られる。さらに、当該スコアに対する相関が統計的に有意な代謝物等を選出するようなローディングの仮説検定を実現できる。
【0104】
なお、以上の説明では、ステップS9において統計的に有意なデータ項目が自動的に選出される例を説明したが、当該選出は自動的に行われなくてもよい。例えば、ユーザが、ステップS5の処理結果を用いることにより、仮説検定の計算を適宜行って統計的に有意なデータ項目を選出してもよい。
【0105】
5.まとめ
以上のように、本実施形態のデータ解析装置5は、複数の統計サンプルに対して複数のデータ項目に関する多変量解析を行う。データ解析装置5は、記憶部52と、制御部51とを備える。記憶部52は、統計サンプル毎に複数のデータ項目を管理する統計データの一例であるデータ行列X、及び複数の統計サンプル間の順序を示す順序情報の一例であるダミー行列Dを記録する。制御部51は、統計データ及び順序情報に基づく所定の演算処理(S5)を行う。制御部51は、統計データの主成分分析における説明変数tと、順序情報に従う制約条件(式(6),(17))が設定される補助変数sとの間の共分散を最適化するように、説明変数tに対応する重みベクトルwx(第1のベクトル)と、補助変数sに対応する重みベクトルwy(第2のベクトル)とを算出する(S12)。制御部51は、第1のベクトルと第2のベクトルとの内の少なくとも一方に基づいて、複数の統計サンプルに対するスコアを算出する(S13)。
【0106】
以上のデータ解析装置5によると、OS-PCAの理論に従って、ローディングの仮説検定が可能な重みベクトルwxに基づき、サンプル間の順序を反映したスコアが得られ、統計サンプル間の順序を考慮しながら多様なデータ解析を可能にすることができる。
【0107】
本実施形態において、制約条件は、順序情報が示す順序において統計サンプル毎のデータを平滑化する平滑化項(式(6),(17)の左辺第2項)によって規定される。こうした補助変数sの重みベクトルwyに関する平滑化項により、サンプル間の順序を反映したスコアと、ローディングの仮説検定が可能な重みベクトルwxとを両立することができる。
【0108】
本実施形態において、スコアは、例えば
図3(C)に示すように、ダミー行列Dのような順序情報が示す順序において増大又は減少する。本実施形態のデータ解析装置5によると、このようにスコアにサンプル間の順序を反映できる。
【0109】
本実施形態における順序情報は、例えば
図1(C)に示すダミー行列Dのように、複数の統計サンプルが成す群毎に、統計サンプル間の順序を示してもよい。これにより、サンプル間の群の情報をスコアに反映することも可能である。
【0110】
本実施形態において、重みベクトルwxは、統計データにおけるデータ項目毎のデータxpと、重みベクトルwyに基づくスコアsとの間の相関係数corr(s,xp)に比例する複数q個の成分を有する。制御部51は、重みベクトルwxの各成分に基づいて、複数のデータ項目の中から、統計的な有意水準を満たすデータ項目を選出してもよい(S9)。これにより、ローディングの仮説検定を自動化することもできる。
【0111】
本実施形態において、統計データの一例のデータ行列Xは、生体内の複数の代謝物を複数のデータ項目として、データ項目毎に対応する代謝物に関する測定値および計算値の少なくとも一方を含む。代謝物に関するデータ行列XにOS-PCAを適用することにより、メタボロミクスにおいて統計サンプル間の順序を考慮しながら多様なデータ解析を可能にすることができる。
【0112】
本実施形態のデータ解析方法は、データ解析装置5のようなコンピュータが複数の統計サンプルに対して複数のデータ項目に関する多変量解析を行う方法である。コンピュータの記憶部52には、統計サンプル毎に複数のデータ項目を管理する統計データ、及び複数の統計サンプル間の順序を示す順序情報が記録されている。本方法は、コンピュータが、統計データの主成分分析における説明変数tと、順序情報に従う制約条件が設定される補助変数sとの間の共分散を最適化するように、説明変数tに対応する第1のベクトルと、補助変数sに対応する第2のベクトルとを算出するステップ(S12)と、 第1のベクトルと第2のベクトルとの内の少なくとも一方に基づいて、複数の統計サンプルに対するスコアを算出するステップ(S13)とを含む。
【0113】
本実施形態では、上記のデータ解析方法をコンピュータに実行させるためのプログラムが提供される。このプログラムは、各種のコンピュータ可読で非一時的な記録媒体に格納して提供可能である。上記のデータ解析方法及びプログラムによると、説明変数tと、順序情報に従う制約条件が設定される補助変数sとの間の共分散cov(t,s)を最適化する理論OS-PCAの適用により、統計サンプル間の順序を考慮しながら多様なデータ解析を可能にすることができる。
【0114】
(他の実施形態)
上記の実施形態1では、メタボロミクスに対する本データ解析方法の適用例を説明した。本データ解析方法はメタボロミクスに限らず、種々のオミックス解析や計量化学の多変量解析に適用してもよい。この場合、測定データは、同一生体内におけるオミックス解析又は計量化学によって得られるデータであってもよい。
【符号の説明】
【0115】
5 データ解析装置
51 制御部
52 記憶部