IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社島津製作所の特許一覧 ▶ 学校法人帝京大学の特許一覧

特許7057913ビッグデータ解析方法及び該解析方法を利用した質量分析システム
<図1>
  • 特許-ビッグデータ解析方法及び該解析方法を利用した質量分析システム 図1
  • 特許-ビッグデータ解析方法及び該解析方法を利用した質量分析システム 図2
  • 特許-ビッグデータ解析方法及び該解析方法を利用した質量分析システム 図3
  • 特許-ビッグデータ解析方法及び該解析方法を利用した質量分析システム 図4
  • 特許-ビッグデータ解析方法及び該解析方法を利用した質量分析システム 図5
  • 特許-ビッグデータ解析方法及び該解析方法を利用した質量分析システム 図6
  • 特許-ビッグデータ解析方法及び該解析方法を利用した質量分析システム 図7
  • 特許-ビッグデータ解析方法及び該解析方法を利用した質量分析システム 図8
  • 特許-ビッグデータ解析方法及び該解析方法を利用した質量分析システム 図9
  • 特許-ビッグデータ解析方法及び該解析方法を利用した質量分析システム 図10
  • 特許-ビッグデータ解析方法及び該解析方法を利用した質量分析システム 図11
  • 特許-ビッグデータ解析方法及び該解析方法を利用した質量分析システム 図12
  • 特許-ビッグデータ解析方法及び該解析方法を利用した質量分析システム 図13
  • 特許-ビッグデータ解析方法及び該解析方法を利用した質量分析システム 図14
  • 特許-ビッグデータ解析方法及び該解析方法を利用した質量分析システム 図15
  • 特許-ビッグデータ解析方法及び該解析方法を利用した質量分析システム 図16
  • 特許-ビッグデータ解析方法及び該解析方法を利用した質量分析システム 図17
  • 特許-ビッグデータ解析方法及び該解析方法を利用した質量分析システム 図18
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-04-13
(45)【発行日】2022-04-21
(54)【発明の名称】ビッグデータ解析方法及び該解析方法を利用した質量分析システム
(51)【国際特許分類】
   G06F 16/906 20190101AFI20220414BHJP
   G01N 27/62 20210101ALI20220414BHJP
【FI】
G06F16/906
G01N27/62 D
G01N27/62 V
【請求項の数】 27
(21)【出願番号】P 2017088365
(22)【出願日】2017-04-27
(65)【公開番号】P2017224283
(43)【公開日】2017-12-21
【審査請求日】2020-03-27
(31)【優先権主張番号】P 2016115295
(32)【優先日】2016-06-09
(33)【優先権主張国・地域又は機関】JP
【国等の委託研究の成果に係る記載事項】(出願人による申告)文部科学省、研究種目:基盤研究(B)、課題番号:15H02671、産業技術力強化法第19条の規定の適用を受ける特許出願
(73)【特許権者】
【識別番号】000001993
【氏名又は名称】株式会社島津製作所
(73)【特許権者】
【識別番号】399086263
【氏名又は名称】学校法人帝京大学
(74)【代理人】
【識別番号】110001069
【氏名又は名称】特許業務法人京都国際特許事務所
(72)【発明者】
【氏名】松浦 正明
(72)【発明者】
【氏名】藤田 雄一郎
(72)【発明者】
【氏名】梶原 茂樹
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】米国特許出願公開第2006/0259246(US,A1)
【文献】特表2004-522980(JP,A)
【文献】特表2013-541697(JP,A)
【文献】米国特許出願公開第2015/0232926(US,A1)
【文献】国際公開第2011/086889(WO,A1)
【文献】米国特許出願公開第2013/0066860(US,A1)
【文献】米国特許出願公開第2004/0053317(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G01N 27/62
(57)【特許請求の範囲】
【請求項1】
コンピュータにインストールされたソフトウェアによる処理により、複数のサンプルについて、サンプル毎に複数の変数値に対する定量値を情報としたデータを解析するビッグデータ解析方法であって、
a)全てのサンプルについて、サンプル間でのデータの類似性を判定し、いずれのサンプルとも類似性が相対的に低いと推定されるサンプルを除外しつつ、類似性が相対的に高いと推定されるサンプルをそれぞれ集めた複数のクラスタを決定するクラスタ決定ステップと、
b)前記複数のクラスタのそれぞれにおいて、そのクラスタを特徴付ける一又は複数の変数値をマーカーとして定めるマーカー決定ステップと、
c)前記複数のクラスタのそれぞれにおいて、前記マーカー決定ステップで決定された一又は複数のマーカーに基づいて任意のサンプルが当該クラスタに帰属する否かを判定する判定情報を作成する判定情報作成ステップと、
を有し、前記複数のクラスタにそれぞれ対応する判定情報に基づいて任意のサンプルが帰属する可能性のある一又は複数のクラスタを決定可能としたことを特徴とするビッグデータ解析方法。
【請求項2】
請求項1に記載のビッグデータ解析方法であって、
前記クラスタ決定ステップでは、サンプル間でのデータの類似度が高い確度で以て高いと推定されるサンプルペアを核とし、該サンプルペアの一方のサンプルとの類似性が高いと推定されるサンプルをその核を中心に集約してゆくことで複数のクラスタを決定することを特徴とするビッグデータ解析方法。
【請求項3】
請求項に記載のビッグデータ解析方法であって、
前記クラスタ決定ステップでは、各サンプルにおいて、異なる変数値に対する定量値の類似性を判定することによりサンプル内で類似性の高い変数値を抽出し、サンプル間でその抽出された変数値の類似性に基づいて前記サンプルペアを探索することを特徴とするビッグデータ解析方法。
【請求項4】
請求項3に記載のビッグデータ解析方法であって、
異なる変数値に対する定量値の類似性の高さを測る指標として相関係数を用いることを特徴とするビッグデータ解析方法。
【請求項5】
請求項3に記載のビッグデータ解析方法であって、
サンプル間での変数値の類似性の高さを測る指標として相関係数を用いることを特徴とするビッグデータ解析方法。
【請求項6】
請求項1~5のいずれか1項に記載のビッグデータ解析方法であって、
前記クラスタ決定ステップでは、任意の二つのサンプルを組み合わせた全てのサンプルペアについて類似性を判断し、サンプルペアの類似性が高い順に、すでに核として選択されたクラスタのメンバーのいずれにも含まれないことを条件に核となる代表サンプルペアを定める一方、すでに核として選択されたクラスタに一方のサンプルが含まれるサンプルペアを該代表サンプルペアと同じグループに集約することでクラスタの元となるコアクラスタを形成することを特徴とするビッグデータ解析方法。
【請求項7】
請求項1に記載のビッグデータ解析方法であって、
前記マーカー決定ステップでは、一つのクラスタに含まれるサンプルと該クラスタに含まれないサンプルとの間で同じ変数値に対する定量値について有意差検定を行い、該有意差検定の結果に基づいてマーカーを決定することを特徴とするビッグデータ解析方法。
【請求項8】
請求項6に記載のビッグデータ解析方法であって、
前記コアクラスタのそれぞれにおいて、そのコアクラスタを特徴付ける複数の変数値をマーカーとして定め、複数のコアクラスタで該マーカーが所定割合以上共通している場合に、該複数のコアクラスタを統合して一つのクラスタとすることを特徴とするビッグデータ解析方法。
【請求項9】
請求項1に記載のビッグデータ解析方法であって、
一つのクラスタと他の二つのクラスタとにおいてそれぞれ共通しているマーカーの数に基づいて、該一つのクラスタが該他の二つのクラスタが混合したクラスタであるか否かを判定することを特徴とするビッグデータ解析方法。
【請求項10】
請求項1に記載のビッグデータ解析方法であって、
前記判定情報作成ステップでは、各クラスタにおいて、該クラスタに対し決められた複数のマーカーの定量値にロジスティック回帰分析を適用して、任意のサンプルが当該クラスタに帰属する確率を算出する計算式を前記判定情報として求めることを特徴とするビッグデータ解析方法。
【請求項11】
請求項1に記載のビッグデータ解析方法であって、
前記判定情報作成ステップにより作成された判定情報に基づいて各クラスタに含まれるサンプルの全て又は一部がそれぞれ当該クラスタに帰属するか否かを判定し、帰属の可能性の低いサンプルがある場合には該サンプルを当該クラスタから除外したうえで、該クラスタを特徴付けるマーカーの決定及び該マーカーに基づく判定情報の作成を再度行うことを特徴とするビッグデータ解析方法。
【請求項12】
請求項1に記載のビッグデータ解析方法であって、
全サンプルの中で、最終的な判定情報を求めるまでの段階でいずれのクラスタにも含まれなかったサンプルについて、各クラスタに対する判定情報に基づいていずれかのクラスタへの帰属を決定するサンプル振り分けステップをさらに有することを特徴とするビッグデータ解析方法。
【請求項13】
請求項4に記載のビッグデータ解析方法であって、
異なる変数値に対する全ての定量値間での相関係数をそれぞれ計算する相関係数算出ステップと、
計算により得られた全ての相関係数をその値の大きさの順に並べたときに隣り合う相関係数の差をそれぞれ計算する相関係数差算出ステップと、
相関係数の値の大きさの順に前記相関係数の差をみたときのその変化の大きさに基づいて、定量値の類似性を判断するための閾値を決定する閾値決定ステップと、
をさらに含み、前記クラスタ決定ステップでは、各サンプルにおいて、前記閾値決定ステップで決定された閾値を利用して異なる変数値に対する定量値の類似性を判定し、類似性の高い変数値を抽出することを特徴とするビッグデータ解析方法。
【請求項14】
請求項5に記載のビッグデータ解析方法であって、
全てのサンプル間での変数値の相関係数をそれぞれ計算する相関係数算出ステップと、
計算により得られた全ての相関係数をその値の大きさの順に並べたときに隣り合う相関係数の差をそれぞれ計算する相関係数差算出ステップと、
相関係数の値の大きさの順に前記相関係数の差をみたときのその変化の大きさに基づいて、サンプル間の変数値の類似性を判断するための閾値を決定する閾値決定ステップと、
をさらに含み、前記クラスタ決定ステップでは、前記閾値決定ステップで決定された閾値を利用してサンプル間での変数値の類似性を判定し、類似性の高いサンプルを抽出することを特徴とするビッグデータ解析方法。
【請求項15】
請求項13又は14に記載のビッグデータ解析方法であって、
前記閾値決定ステップでは、相関係数を降順又は昇順にソートしてソート番号を割り当て、互いに直交する一方の軸にソート番号、他方の軸にソート番号が隣り合う二つの相関係数の差をとった相関係数差の分布図において、相関係数差の絶対値が大きい方向に突出する一つの相関係数差を与える相関係数に基づいて前記閾値を決定することを特徴とするビッグデータ解析方法。
【請求項16】
請求項13又は14に記載のビッグデータ解析方法であって、
前記閾値決定ステップでは、相関係数を降順又は昇順にソートしてソート番号を割り当て、互いに直交する一方の軸にソート番号、他方の軸にソート番号が隣り合う二つの相関係数の差をとった相関係数差の分布図において、ソート番号の軸に沿った分布形状が相関係数差の絶対値が大きい方向に凸形状を示すソート番号に対応する相関係数を前記閾値として決定することを特徴とするビッグデータ解析方法。
【請求項17】
請求項16に記載のビッグデータ解析方法であって、
前記閾値決定ステップでは、前記相関係数差の分布図における凸形状部の頂部の位置に対応する相関係数を前記閾値として決定することを特徴とするビッグデータ解析方法。
【請求項18】
請求項16に記載のビッグデータ解析方法であって、
前記閾値決定ステップでは、前記相関係数差の分布図における凸形状部を所定の関数でフィッティングしたときのフィッティングカーブの極値に対応する相関係数を前記閾値として決定することを特徴とするビッグデータ解析方法。
【請求項19】
請求項16に記載のビッグデータ解析方法であって、
前記閾値決定ステップでは、前記相関係数差の分布図において、プロットしたデータ点の密度変化に基づいて凸形状部の有無を判断することを特徴とするビッグデータ解析方法。
【請求項20】
請求項16に記載のビッグデータ解析方法であって、
前記閾値決定ステップでは、前記相関係数差の分布図における凸形状部であってその頂部からずれた位置に対応する相関係数を閾値として決定することを特徴とするビッグデータ解析方法。
【請求項21】
請求項15又は16に記載のビッグデータ解析方法であって、
前記相関係数差の分布図を表示部の画面上に表示することを特徴とするビッグデータ解析方法。
【請求項22】
請求項21に記載のビッグデータ解析方法であって、
前記表示部に表示された相関係数差の分布図上で、前記閾値決定ステップにより決定された閾値を強調表示することを特徴とするビッグデータ解析方法。
【請求項23】
請求項21に記載のビッグデータ解析方法であって、
前記表示部に表示された相関係数差の分布図上でのユーザーの指示に応じて、前記閾値決定ステップにより決定された閾値を変更する又は該閾値を決定することを可能としたことを特徴とするビッグデータ解析方法。
【請求項24】
請求項15又は16に記載のビッグデータ解析方法であって、
前記相関係数差の分布図における分布形状に基づいて、当該解析方法による任意のサンプルのクラスタへの帰属決定の妥当性を判断することを特徴とするビッグデータ解析方法。
【請求項25】
請求項1~24のいずれか1項に記載のビッグデータ解析方法であって、
前記複数の変数値が質量電荷比値、前記定量値は信号強度値である、質量分析によって得られたマススペクトルデータを解析することを特徴とするビッグデータ解析方法。
【請求項26】
請求項25に記載のビッグデータ解析方法であって、
サンプルは生体試料であり、該生体試料を質量分析することで得られたマススペクトルデータを解析することにより特定の癌のサブタイプを判定するものであることを特徴とするビッグデータ解析方法。
【請求項27】
請求項25又は26に記載のビッグデータ解析方法を用いた質量分析システムであって、
目的サンプルに対し質量分析を行ってマススペクトルデータを取得する質量分析実行部と、
前記判定情報作成ステップで求められた判定情報が予め格納された情報記憶部と、
前記質量分析実行部で得られたマススペクトルデータを前記情報記憶部に格納されている判定情報に適用し、該判定情報を用いた結果に基づいて前記目的サンプルが帰属されるクラスタを決定する又はその帰属の決定に有用な情報を出力する判別処理部と、
前記判別処理部により得られた処理結果をユーザーに視覚的に提供する結果出力部と、
を備えることを特徴とする質量分析システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、各種の測定や計測或いは観測など様々な手法によって収集されたビッグデータを解析するビッグデータ解析方法、及び該解析方法を質量分析により得られたデータの解析に利用した質量分析システムに関する。
【背景技術】
【0002】
近年、癌の治療技術は急速に進歩しており、従来よりも治療効果の高い様々な治療薬や治療法が開発されている。しかしながら、高い治療効果を得るためには正確な診断が欠かせないのはいうまでもない。癌は同じ生体部位の癌であっても、いくつかの癌においては、癌細胞の特徴によって複数のサブタイプに分類され得ることが知られている。例えば乳癌では、非特許文献1に開示されているように、ルミナルA型、ルミナルB型、ベッセル型などのサブタイプに分類されることが知られている。また、非特許文献2に開示されているように、腎臓癌でも腎細胞癌に幾つかのサブタイプがあることが分かっている。例えば乳癌ではサブタイプによって適切な治療法や抗ガン剤の種類などが相違することが分かってきており、そうした治療の取り組みも始まっている。こうしたことから、癌の診断においては単に癌であるか否かを診断するだけでなく、癌である場合にどのサブタイプであるのかを正確に診断することが求められるようになってきている。
【0003】
癌であるか否かの判定は、被検者から採取した生体組織の一部を専門の病理医が顕微鏡観察することによって行われる病理診断が一般的である。また、乳癌の場合、マイクロアレイを用いた遺伝子発現プロファイルを基に発見されたサブタイプを簡易的且つ近似的に臨床現場で判定するために、HER2(遺伝子タンパクの一種)、ER(エストロゲン受容体)、PgR(プロゲステロン受容体)などに対する免疫染色法による陽性、陰性の判定結果の組み合わせに基づいて行われているのが現状である。しかしながら、例えば乳癌のようにサブタイプの種類が比較的少ない場合であっても、マイクロアレイの遺伝子発現プロファイルデータに基づく研究成果として発見されたサブタイプと臨床現場で用いられる免疫染色に基づいて判定されるサブタイプとは必ずしも一致しない。こうしたことから、バイオマーカーを用いた、より正確で客観的なサブタイプの判定手法が要望されている。
【0004】
近年、癌の診断をはじめとする生体に関連する解析には質量分析が頻用されている。通常、サンプルに対して質量分析を実施することにより、所定の質量電荷比範囲に亘るマススペクトルデータを取得することができる。そのマススペクトル上には、サンプルに含まれる各種成分由来のピークが観測されるから、そのピークに対する質量電荷比値から成分を特定することができる。また、そのピークの信号強度値から該当成分の定量を行うこともできる。したがって、例えば癌によって生体内で或る特定の成分が生じたりその成分の量が変化したりする場合には、その特定の成分に対応するピークを特異的なマーカーとして捉えることで、癌の発生の有無やその癌のサブタイプの判定が可能となる。
【0005】
一般に、多数のサンプルをサンプル毎のデータに応じて複数のクラスタに分類する解析手法としては様々なものが知られており、いわゆるデータマイニングにおいてもしばしば利用されている。こうした手法として、例えば、階層的クラスタ分析(Hierarchical Cluster Analysis=HCA)、k-means法などの分割最適化クラスタリング、さらにはコンセンサスクラスタリングなどがよく用いられる。例えば非特許文献3には、マイクロアレイ解析つまり癌組織において発現している遺伝子の解析によって、乳癌のサブタイプを判別する技術が開示されているが、この解析ではサンプルを複数のサブタイプに分類するためにHCAが利用されている。また、主成分分析(Principal Component Analysis=PCA)によるスコアプロットを利用して、多数のサンプルを複数のグループに分類する手法もある。PCAのスコアプロット上では類似性の高さは各サンプルに対応するプロット位置の距離で示されるから、そのプロット位置の距離によってサンプルをグループ化することができる。
【0006】
しかしながら、こうした従来の解析手法はいずれも、癌のサブタイプの判定のような用途には必ずしも適さない。その大きな理由の一つは、或るサンプルが一つのみでなく複数のサブタイプに属している場合があるからである。例えば非特許文献4は腎臓癌の例であるが、一つの生体組織中に複数種のサブタイプの癌細胞が混在していることが示されている。また、それ以外の部位の癌においても、複数種のサブタイプの癌細胞の混在が明らかになりつつある。こうしたことから、癌のサブタイプを判定する際には、一つのサンプルに複数のサブタイプの癌が混在していることを想定する必要がある。
【0007】
ところが、上述したHCA等のクラスタ解析の手法は、或るサンプルがいずれか一つのクラスタに分類可能であることを前提としており、複数のクラスタに跨ることを考慮していない。また、PCAのスコアプロットを利用した手法でも、或るサンプルが複数のクラスタに跨るのか、或いは、それらクラスタとは別のクラスタに属するのかを判定することはできない。このように従来の解析手法では、本来は複数のサブタイプに属する(つまりは複数のサブタイプが混在する)サンプルがそうした複数のサブタイプに属しているということ自体を判定することができないし、どのサブタイプが混在しているのかを判定することも当然できない。
【0008】
また、HCAやコンセンサスクラスタリングでは最初にクラスタ数を指定することなく最適なクラスタ数を判定しつつサンプルを分類することができるものの、その最適なクラスタ数の判定には分析者による何らかの指示や設定が必要であり、分析者の主観が入り込む余地がある。そのため、必ずしも正確に且つ常に一定の基準で複数のクラスタに分類できるとは限らない。また、HCA等では各クラスタを特徴付けるマーカー(上述したようにマススペクトルデータを用いる場合には特異的なピーク)の数が多ければ多いほど、またそのマーカーの強度の差が大きければ大きいほど、明確なクラスタ分けが可能である。換言すれば、マーカーの数が少ない場合やマーカーの強度差が小さい場合には、正確なクラスタ分類ができなくなる可能性がある。
【0009】
また、クラスタを定めるために用いた多数のサンプルではなく新たなサンプルがいずれのクラスタに帰属されるのかを判定するには、各クラスタを特徴付けるマーカーを特定する必要がある。しかしながら、当然のことながら、適切なクラスタ分けができないと信頼性の高いマーカーの特定は困難であり、マーカーの信頼性が低いと新たなサンプルを正確にクラスタに振り分けることも難しい。また、クラスタ分けが正確であったとしても、例えば複数のクラスタ間で一部のマーカーが重なっている(例えば或るマーカーはクラスタXでもクラスタYでも特異的に存在量が増加するなど)、或いは、或るクラスタにおける複数のマーカーの存在量が他のクラスタに比べて増加するものと減少するものとが混在している、などマーカーの条件が複雑であったり、クラスタの総数がかなり多かったりすると、適切なマーカーを抽出できなかったり抽出できてもその精度が低かったりする可能性がある。
【0010】
もちろん、上記と同様の問題は癌のサブタイプの判定に留まらない。一般に、多数のサンプルについてそれぞれ測定や計測、観測などを行うことで得られたデータに基づいてそれらサンプルを特徴的な複数のグループに分類したいという要求は様々な分野において生じている。例えば生体試料を対象とする医療や医薬品開発、生命科学の分野では、オミックス(Omics)解析と総称される、ゲノム解析、プロテオーム解析、メタボローム解析、インタラクトーム解析、セローム解析等が行われるが、こうした分野では、質量分析に限らず様々な分析や測定で収集されたデータに基づいて多数のサンプルをグループ分けし、また新たなサンプルがどのグループに帰属するのかを調べることが必要となる。また、質量分析イメージング画像やX線画像、蛍光画像などの様々な画像データの解析でも、多数のサンプルをグループ分けしたいという場合は多い。
【0011】
さらにまた、機器分析とは異なる分野、例えばマーケティングデータ解析、物流データ解析、品質管理や異常検知のためのデータ解析、金融データ解析、気象データ解析など、いわゆるビッグデータ解析と呼ばれる様々なデータ解析、即ちデータマイニングにおいて、同様のデータ解析技術が必要となることがある。
【先行技術文献】
【非特許文献】
【0012】
【文献】「2011年第12回国際乳がん学会での乳癌サブタイプの定義と推奨される全身治療」、[online]、一般財団法人日本バプテスト連盟医療団日本バプテスト病院、[平成28年1月18日検索]、インターネット<URL : http://www.jbh.or.jp/departments/geka/policy/nyugan_chiryo.html>
【文献】「腎臓がん 種類と症状」、[online]、東京女子医科大学病院泌尿器科腎臓病総合医療センター、[平成28年1月18日検索]、インターネット<URL : http://www.twmu.ac.jp/KC/Urology/disease/cancer/kidney/>
【文献】ソーリエ(T. Sorlie)、ほか16名、「ジーン・エクスプレッション・パターンズ・オブ・ブレスト・カーシノマス・ディスティングィッシュ・テューモ・サブクラシズ・ウィズ・クリニカル・インプリケイションズ(Gene expression patterns of breast carcinomas distinguish tumor subclasses with clinical implications)」、プロシーディングス・オブ・ザ・ナショナル・アカデミー・オブ・サイエンス・オブ・ザ・ユナイテッド・ステーツ・オブ・アメリカ(Proceedings of the National Academy of Sciences of the United States of America)、2001年9月11日、Vol.98、No.19、pp.10869-10874
【文献】ガーリンジャー(M. Gerlinger)、ほか、「イントラトゥーモ・ヘテロジーニティ・アンド・ブランチド・エボリューション・リビールド・バイ・マルチリージョン・シーケンシング(Intratumor Heterogeneity and Branched Evolution Revealed by Multiregion Sequencing)」、ザ・ニュー・イングランド・ジャーナル・オブ・メディシン(The New England Journal of Medicine)、2012年3月8日、Vol.366、No.10、pp.883-892
【発明の概要】
【発明が解決しようとする課題】
【0013】
即ち、上述した癌のサブタイプの分類のように多数のサンプルのグループ分けが必要となる場合、次のようなことが要求される。
(1)或るサンプルが複数のクラスタに跨る場合であっても、換言すれば複数のクラスタが混在しているクラスタが存在した場合でも、複数のサンプルの全て又は一部を適切にクラスタ分けすることができること。
(2)分析者の主観や判断によらず、定量的、客観的な指標や基準に基づいたクラスタ数に、サンプルをクラスタ分けすることができること。
(3)仮に真のクラスタ数とは異なる数のクラスタが抽出された場合でも、各クラスタについて信頼性の高いマーカーを抽出できること。
(4)マーカーの条件が複雑であったり、マーカーの数が十分でなかったり、サンプル間でのマーカーの強度差が或る程度小さかったり、さらにはクラスタ数が多かったりする場合でも、適切なクラスタ分けと信頼性の高いマーカーの抽出ができること。
(5)多数のサンプルをクラスタに分けるのみならず、新規に別途取得したサンプルがどのクラスタに帰属するのかを高い信頼性を以て判定できること。
【0014】
本発明は上記課題を解決するためになされたものであり、その目的とするところは、上記のような様々な要求を満たすことができるビッグデータ解析方法を提供することにある。
また、本発明の他の目的は、学習に用いられていないサンプルが予め設定された複数のクラスタのいずれに帰属するのかを高い信頼性を以て簡便に判定することができる質量分析システムを提供することにある。
【課題を解決するための手段】
【0015】
上記課題を解決するために成された本発明に係るビッグデータ解析方法は、コンピュータにインストールされたソフトウェアによる処理により、複数のサンプルについて、サンプル毎に複数の変数値に対する定量値を情報としたデータを解析する方法であって、
a)全てのサンプルについて、サンプル間でのデータの類似性を判定し、いずれのサンプルとも類似性が相対的に低いと推定されるサンプルを除外しつつ、類似性が相対的に高いと推定されるサンプルをそれぞれ集めた複数のクラスタを決定するクラスタ決定ステップと、
b)前記複数のクラスタのそれぞれにおいて、そのクラスタを特徴付ける一又は複数の変数値をマーカーとして定めるマーカー決定ステップと、
c)前記複数のクラスタのそれぞれにおいて、前記マーカー決定ステップで決定された一又は複数のマーカーに基づいて任意のサンプルが当該クラスタに帰属する否かを判定する判定情報を作成する判定情報作成ステップと、
を有し、前記複数のクラスタにそれぞれ対応する判定情報に基づいて任意のサンプルが帰属する可能性のある一又は複数のクラスタを決定可能としたことを特徴としている。
【0016】
ここで、「全てのサンプルについて、サンプル毎に複数の変数値に対する定量値を情報としたデータ」とは、行方向又は列方向の一方に該変数値をパラメータとするとともに、行方向又は列方向の他方にサンプルの識別子(例えばサンプル名やサンプル番号など)をパラメータとし、定量値を行列の要素とした行列で以て表現可能なデータである。
具体的には例えば、サンプルを質量分析することで得られたマススペクトルデータを解析する場合、上記複数の変数値は質量電荷比値、上記定量値は信号強度値である。
また、マイクロアレイ解析においては、上記複数の変数値はマイクロアレイの遺伝子のプローブセット名、上記定量値は発現量である。
【0017】
HCAをはじめとする従来の一般的なクラスタ解析では、対象とする全てのサンプルがいずれかのクラスタに属するように複数のクラスタを決定してゆく。つまり、全てのサンプルを或る境界で分割することで複数にグループ分けする。これに対し本発明に係るビッグデータ解析方法において、クラスタ決定ステップでは、対象とする全てのサンプルの中で、データが類似していることの信頼性が高いサンプルを残す一方、いずれのサンプルとも類似していなさそうなサンプルをクラスタを決める際の作業から除外することによって、その類似性の確度が高いと推定される一部のサンプルに基づきクラスタを決定する。
【0018】
マーカー決定ステップでは、上述のように決定された複数のクラスタのそれぞれにおいて、そのクラスタを特徴付ける一又は複数の変数値がマーカーとして定められる。このマーカー決定ステップでは例えば、一つのクラスタに含まれるサンプルと該クラスタに含まれないサンプルとの間で同じ変数値に対する定量値についてt検定などの有意差検定を行い、その結果、例えばt検定で求まるp値、に基づいてマーカーを決定するとよい。有意差検定には、例えばウェルチ(Welch)のt検定、スチューデント(Student)のt検定、ウィルコクソン(Wilcoxon)の順位和検定などが利用可能である。
【0019】
判定情報作成ステップでは、複数のクラスタのそれぞれにおいて、上記一又は複数のマーカーに基づいて任意のサンプルが当該クラスタに帰属する否かを判定する判定情報が作成される。判定情報は例えば、任意のサンプルのデータ、つまり一又は複数のマーカーの定量値を入力したときにそのサンプルが当該クラスタに帰属される推定確率が出力される判定式である。こうして、対象とする多数のサンプルに基づいて複数のクラスタを決定することができ、その各クラスタを特徴付けるマーカーを抽出することができ、さらにそのマーカーに基づいて任意のサンプルがそのクラスタに帰属するか否かを判定可能な情報を作成することができる。
【0020】
例えば或るクラスタAと別のクラスタBとの両方の特徴を有している、つまり本来はその両方に帰属すると判定されるべきサンプルが複数存在した場合に、従来のクラスタ解析方法では、クラスタリングの過程で、それらサンプルはクラスタAとクラスタBとのいずれにより近いかという観点で、それぞれクラスタA又はクラスタBのいずれかへの帰属が決められる。これに対し本発明に係るビッグデータ解析方法では、クラスタリングの過程で、上記のようなサンプルはクラスタAのみ、クラスタBのみのいずれとも類似しているがその確度は低いと判定され、クラスタA、Bとは別のクラスタが形成される可能性が高い。その結果、複数のクラスタの特徴が混在した別のクラスタを形成することができる。
【0021】
本発明に係るビッグデータ解析方法において、上記クラスタ決定ステップでは例えば、サンプル間でのデータの類似度が高い確度で以て高いと推定されるサンプルペアを核とし、該サンプルペアの一方のサンプルとの類似性が高いと推定されるサンプルをその核を中心に集約してゆくことで複数のクラスタを決定する処理を行うものとすることができる。
また、その際に、各サンプルにおいて、異なる変数値に対する定量値の類似性を判定することによりサンプル内で類似性の高い変数値を抽出し、サンプル間でその抽出された変数値の類似性に基づいてサンプルペアを探索すればよい。
【0022】
異なる変数値に対する定量値の類似性の高さを測る指標やサンプル間での変数値の類似性の高さを測る指標としては定量性があることが望ましいから、典型的には相関係数を用いればよい。その場合、サンプル毎に、異なる変数値に対する定量値の相関係数、具体的には例えば異なる質量電荷比に対するピーク間の相関係数が予め定めた第1閾値以上であるときにその類似性があると判定すればよく、又、サンプル間でその抽出された変数値の相関係数、具体的には例えばサンプル間でのその質量電荷比の相関係数が予め定めた第2閾値以上であるときにそのサンプルをサンプルペアとすればよい。なお、そうした第1、第2閾値は適宜調整可能であることが望ましい。
【0023】
また本発明に係るビッグデータ解析方法において、上記クラスタ決定ステップでは、任意の二つのサンプルを組み合わせた全てのサンプルペアについて類似性を判断し、サンプルペアの類似性が高い順に(例えば上記相関係数が大きい順に)、すでに核として選択されたクラスタのメンバーのいずれにも含まれないことを条件に新規の核となる代表サンプルペアを定める一方、すでに核として選択されたクラスタに一方のサンプルが含まれるサンプルペアを該代表サンプルペアと同じグループに集約することでクラスタの元となるコアクラスタを形成する処理を行うようにしてもよい。
【0024】
さらにまた、上述のようにコアクラスタを形成したあと、コアクラスタのそれぞれにおいて、そのコアクラスタを特徴付ける複数の変数値をマーカーとして定め、複数のコアクラスタで該マーカーが所定割合以上共通している場合に、該複数のコアクラスタを統合して一つのクラスタとするようにしてもよい。
なお、コアクラスタの形成処理が終了した時点で、他のサンプルペアとグループ化されずに残ったサンプルペアに含まれるサンプルは、サンプルペアにならなかったサンプルと同様に、クラスタの決定処理から除外すればよい。
【0025】
このように、まず相関の高いサンプルペアに基づいて信頼度の高いコアクラスタを形成し、さらに複数のコアクラスタを統合してクラスタを形成するという処理を行うことにより、データの類似性が相対的に低いサンプルをふるい落とし、高い確度で以てデータの類似性が高いサンプルのみを含むクラスタを形成することができる。
【0026】
また本発明に係るビッグデータ解析方法では、一つのクラスタと他の二つのクラスタとにおいてそれぞれ共通しているマーカーの数に基づいて、該一つのクラスタが該他の二つのクラスタが混合したクラスタであるか否かを判定するものとすることができる。これにより、複数のクラスタの特徴を併せ持つサンプルをその複数のクラスタとは別のクラスタに適切に分類することができ、いずれのクラスタの特徴を併せ持つのかも特定することができる。
【0027】
また本発明に係るビッグデータ解析方法において、上記判定情報作成ステップでは、各クラスタにおいて、該クラスタに対し決められた複数のマーカーの定量値にロジスティック回帰分析を適用して、任意のサンプルが当該クラスタに帰属する確率を算出する計算式を前記判定情報として求めるものとすることができる。
【0028】
また、判定情報の精度を向上させるには、各クラスタに対して求まった判定情報に基づいてその各クラスタに含まれるサンプルの帰属が正しく判定されるかを評価し、その評価結果に基づいたフィードバックを行うことが望ましい。そこで、本発明に係るビッグデータ解析方法では、上記判定情報作成ステップにより作成された判定情報に基づいて各クラスタに含まれるサンプルの全て又は一部がそれぞれ当該クラスタに帰属するか否かを判定し、帰属の可能性の低いサンプルがある場合には該サンプルを当該クラスタから除外したうえで、該クラスタを特徴付けるマーカーの決定及び該マーカーに基づく判定情報の作成を再度行うようにするとよい。もちろん、こうした処理を複数回繰り返しても構わないが、実用的には1回のみ実行すれば十分である。
【0029】
また上述したようにクラスタ毎の判定情報を求めた時点では、それまでの過程でいずれのクラスタにも含まれないとして除外されたサンプルの帰属は未定である。そこで、本発明に係るビッグデータ解析方法では、全サンプルの中で、最終的な判定情報を求めるまでの段階でいずれのクラスタにも含まれなかったサンプルについて、各クラスタに対する判定情報に基づいていずれかのクラスタへの帰属を決定するサンプル振り分けステップをさらに有するようにしてもよい。これにより、対象とされた全てのサンプルを複数のクラスタのいずれか(異なる複数のクラスタの混合であるクラスタも含む)に分類することができる。
【0030】
また上述したように、異なる変数値に対する定量値の類似性を測る指標として相関係数を用いる場合、本発明に係るビッグデータ解析方法の一態様として、
異なる変数値に対する全ての定量値間での相関係数をそれぞれ計算する相関係数算出ステップと、
計算により得られた全ての相関係数をその値の大きさの順に並べたときに隣り合う相関係数の差をそれぞれ計算する相関係数差算出ステップと、
相関係数の値の大きさの順に前記相関係数の差をみたときのその変化の大きさに基づいて、定量値の類似性を判断するための閾値を決定する閾値決定ステップと、
をさらに含み、前記クラスタ決定ステップでは、各サンプルにおいて、前記閾値決定ステップで決定された閾値を利用して異なる変数値に対する定量値の類似性を判定し、類似性の高い変数値を抽出するものとすることができる。
【0031】
一般に、同じクラスタを特徴付ける、つまりマーカーとなり得る変数値に対する定量値同士の相関性は高く、そうでない変数値に対する定量値同士の相関は低くなると考えられる。そのため、相関係数算出ステップで計算された相関係数はその絶対値が比較的大きく(1に近く)且つ値が互いに近い群と、その絶対値が小さく(0に近く)且つ値が互いに近い群とに大別され、それら二つの群の間の相関係数をとるものは少なくなる傾向にある。それ故に、相関係数差算出ステップにより、全ての相関係数をその値の大きさの順に並べたときに隣り合う相関係数の差をそれぞれ計算すると、上記二つの群の間では隣り合う相関係数の差が大きくなる。そこで、閾値決定ステップでは、相関係数の値の大きさの順に相関係数の差をみたときのその変化が大きい相関係数、つまりは隣り合う相関係数の差が大きな相関係数を見つけることで、定量値の類似性を判断するのに適切な閾値を決定することができる。
【0032】
サンプル間での変数値の類似性を測る指標として相関係数を用いる場合でも同様の手法で閾値を決めることができる。即ち、本発明に係るビッグデータ解析方法の他の態様として、
全てのサンプル間での変数値の相関係数をそれぞれ計算する相関係数算出ステップと、
計算により得られた全ての相関係数をその値の大きさの順に並べたときに隣り合う相関係数の差をそれぞれ計算する相関係数差算出ステップと、
相関係数の値の大きさの順に前記相関係数の差をみたときのその変化の大きさに基づいて、サンプル間の変数値の類似性を判断するための閾値を決定する閾値決定ステップと、
をさらに含み、前記クラスタ決定ステップでは、前記閾値決定ステップで決定された閾値を利用してサンプル間での変数値の類似性を判定し、類似性の高いサンプルを抽出するものとすることができる。
【0033】
これら態様によれば、異なる変数値に対する定量値の間の類似性やサンプル間での変数値の類似度を相関係数に基づいて判断する際の適切な閾値を自動的に決めることができる。
【0034】
本発明に係る上記態様のビッグデータ解析方法において具体的には、前記閾値決定ステップでは、相関係数を降順又は昇順にソートしてソート番号を割り当て、互いに直交する一方の軸にソート番号、他方の軸にソート番号が隣り合う二つの相関係数の差をとった相関係数差の分布図を利用して前記閾値を決定する構成とするとよい。その相関係数差の分布図において、相関係数差の絶対値が大きい方向に一つの相関係数差が突出するのであれば、その一つの相関係数差を与える相関係数に基づいて前記閾値を決定すればよい。
このように或る一つの相関係数差が突出する場合、それは隣接するソート番号間の相関係数が極端に大きいことを示しているから、それにより決められる閾値は定量値の類似性の有無を高い信頼性を以て判定することができると考えられる。
【0035】
一方、こうした突出した相関係数差が見つからない場合には、上記相関係数差の分布図において、ソート番号の軸に沿った分布形状が相関係数差の絶対値が大きい方向に凸形状を示すソート番号に対応する相関係数を前記閾値として決定するとよい。
【0036】
上述したように相関係数差の分布図を用いることで、相関係数の値の大きさの順に相関係数の差をみたときのその変化が最も大きくなる相関係数を容易に見つけることができる。
【0037】
また本発明に係る上記態様のビッグデータ解析方法において、前記閾値決定ステップでは、前記相関係数差の分布図における凸形状部の頂部の位置に対応する相関係数を閾値として決定すればよい。
この凸形状部の頂部の位置は降順又は昇順にソートされた相関係数の変化が最大となる位置であるから、こうして決定される閾値は、上述したようなそれぞれ相関係数の値が近い二つの群の境界として最適な閾値であるといえる。
【0038】
また本発明に係る上記態様のビッグデータ解析方法において、前記閾値決定ステップでは、前記相関係数差の分布図における凸形状部を所定の関数でフィッティングしたときのフィッティングカーブの極値に対応する相関係数を閾値として決定するようにしてもよい。
【0039】
また、本発明に係る上記態様のビッグデータ解析方法において例えば、前記閾値決定ステップでは、前記相関係数差の分布図において、プロットしたデータ点の密度変化に基づいて凸形状部の有無を判断するようにしてもよい。
【0040】
また本発明に係る上記態様のビッグデータ解析方法では、上述したように相関係数差の分布図においてその分布の凸形状部の頂部の位置に対応する相関係数を閾値として決定する以外に、凸形状部であってその頂部からずれた位置に対応する相関係数を閾値として決定するようにしてもよい。これにより、相関係数を判定するための閾値を意図的に高くして、つまりはマーカーやサンプルの選別基準を厳しくして不適切なマーカーやサンプルが紛れ込むのを防止したり、逆に、相関係数を判定するための閾値を意図的に低くして、つまりはマーカーやサンプルの選別基準を緩くしてマーカーやサンプルの取りこぼしを極力回避したりすることができる。即ち、目的に応じて選別されるデータの信頼性を調整することができる。
【0041】
また本発明に係る上記態様のビッグデータ解析方法では、前記相関係数差の分布図を表示部の画面上に表示するようにしてもよい。その場合、前記表示部に表示された相関係数差の分布図上で、前記閾値決定ステップにより決定された閾値を強調表示するとよい。これにより、相関係数がどのように分布している状況の下で閾値が自動的に決定されたのかをユーザーが直感的に把握することができる。
【0042】
また本発明に係る上記態様のビッグデータ解析方法では、前記表示部に表示された相関係数差の分布図上でのユーザーの指示に応じて、前記閾値決定ステップにより決定された閾値を変更する又は該閾値を決定することができるようにしてもよい。これにより、例えば自動的に決定された閾値が適切でないとユーザーが判断した場合等に、ユーザーが簡単に閾値を変更することができる。また、自動ではなく手動で以て簡便に閾値を定めることもできる。
【0043】
また本発明に係る上記態様のビッグデータ解析方法では、例えば解析対象であるデータ中にクラスタを特徴付けるマーカーが十分な数存在しない場合や、マーカーは存在するもののその信号強度が十分でない場合などには、相関係数差の分布図において、突出する一つの相関係数差も凸形状の相関係数差の分布も観測されないことがある。こうした場合、本発明に係るビッグデータ解析方法におけるクラスタ分けや任意のサンプルのクラスタへの帰属の決定等の信頼性が低い可能性が高い。そこで、本発明に係る上記態様のビッグデータ解析方法では、相関係数差の分布図における分布形状に基づいて、当該解析方法による任意のサンプルのクラスタへの帰属決定の妥当性を判断するようにしてもよい。
【0044】
具体的には例えば、相関係数差の分布形状において突出する一つの相関係数差及び凸形状である相関係数差の分布が観測されるか否かをユーザー自身が確認し、そのいずれもが観測されない場合には本発明に係る解析方法の信頼性が低く、逆に観測される場合には本発明に係る解析方法の信頼性が高いとの判断を下せばよい。このようにして、本発明に係るビッグデータ解析方法を利用すること自体の妥当性をユーザーが判断することができる。
【0045】
なお、本発明に係るビッグデータ解析方法は、サンプルが生体試料であり、該生体試料を質量分析することで得られたマススペクトルデータを解析することにより特定の癌のサブタイプを判定する用途に利用することができる。
これにより、従来の解析手法では困難であった、複数のサブタイプが混合した癌についてサブタイプを適切に判定することができる。それによって、サブタイプに応じた適切な治療が可能となる。
【0046】
また本発明に係る質量分析システムは、上記本発明に係るビッグデータ解析方法をデータ解析に用いた質量分析システムであって、
目的サンプルに対し質量分析を行ってマススペクトルデータを取得する質量分析実行部と、
前記判定情報作成ステップで求められた判定情報が予め格納された情報記憶部と、
前記質量分析実行部で得られたマススペクトルデータを前記情報記憶部に格納されている判定情報に適用し、該判定情報を用いた結果に基づいて前記目的サンプルが帰属されるクラスタを決定する又はその帰属の決定に有用な情報を出力する判別処理部と、
前記判別処理部により得られた処理結果をユーザーに視覚的に提供する結果出力部と、
を備えることを特徴としている。
【0047】
本発明に係る質量分析システムにおいて、情報記憶部に格納された判定情報は、例えばこの質量分析システムの製造メーカーが、特定の目的、例えば或る部位の癌の診断用のために求めてメモリなどの記憶部に格納しておくようにすることができる。また、特定の目的のためのデータ処理用アプリケーションソフトウエアの一部として、上記判定情報をシステムの製造メーカーやソフトウエアの開発会社がユーザーに提供するようにすることもできる。上記結果出力部は例えば表示部であり、処理結果を表形式など予め装置で内部的に決められた又はユーザーが予め指定した適宜の形式で以て表示画面上に表示するものとすることができる。
【0048】
本発明に係る質量分析システムを用いることにより、ユーザーは目的サンプルについてそのサンプルが帰属する一又は複数のクラスタの情報を簡便に知ることができる。
【発明の効果】
【0049】
本発明に係るビッグデータ解析方法によれば以下のような効果が得られる。
(1)一つのクラスタに分類可能なサンプルはもちろんのこと、複数のクラスタの特徴を併せ持つサンプルについても、適切にクラスタ分けすることができる。
(2)予めクラスタ数を指定することなく、また、解析者等の主観や判断によらず、定量的及び客観的な指標に基づいた適切な数のクラスタに、サンプルを分類することができる。
【0050】
(3)クラスタ決定の過程で各クラスタに振り分けられたサンプルの類似性は高いので、そのクラスタ数によらず、各クラスタについて信頼性の高いマーカーを抽出することができる。また、マーカーの条件が複雑であったり、マーカーの数が十分でなかったり、サンプル間でのマーカーの強度差が或る程度小さかったり、さらにはクラスタ数が多かったりする場合でも、適切なクラスタ分けと信頼性の高いマーカーを抽出することができる。
(4)予め用意された多数のサンプルを複数のクラスタに分類するだけでなく、新しい任意のサンプルがどのクラスタに帰属するのかを高い信頼性を以て判定することができる。
【0051】
(5)ニューラルネットワークをはじめとする既存のビッグデータ解析手法は、一般に、高性能な科学計算用コンピュータを利用し多大な時間を掛けて解析を行うものが多い。これに対し本発明に係るビッグデータ解析方法は、相関係数の計算やロジスティック回帰分析など計算が容易な統計手法を用いているため、汎用的なパーソナルコンピュータ(PC)で十分に処理が可能であり、解析コストを抑えることができる。また、手元のPCを用いて手軽に解析を試みることができる。
【図面の簡単な説明】
【0052】
図1】本発明の一実施例であるビッグデータ解析方法における解析手順を示すフローチャート。
図2】本実施例のビッグデータ解析方法におけるピークテーブル及びピーク間の相関係数算出処理の説明図。
図3】本実施例のビッグデータ解析方法において相関の高いピークを抽出する方法の一例の説明図。
図4】本実施例のビッグデータ解析方法におけるコアクラスタ形成処理の説明図。
図5】本実施例のビッグデータ解析方法における特定コアクラスタ内の特異的ピークの再評価の処理を説明するための模式図。
図6】本実施例のビッグデータ解析方法におけるコアクラスタの統合可能性を調べる処理の説明図。
図7】本実施例のビッグデータ解析方法におけるクラスタの統合によるクラスタ形成処理の説明図。
図8】本実施例のビッグデータ解析方法における各サンプルのクラスタへの帰属を判定する処理を説明図。
図9】本実施例のビッグデータ解析方法を利用した質量分析システムの概略構成図。
図10】本実施例のビッグデータ解析方法の効果を確認するための演算を行う際のピーク情報の作成条件を示す図。
図11】本実施例のビッグデータ解析方法の効果を確認するための計算を行う際に定めたピークのm/z値の一覧を示す図。
図12】本実施例のビッグデータ解析方法を実施した結果得られた、サブタイプ毎のピークのm/z値の一覧を示す図。
図13】本実施例のビッグデータ解析方法におけるスパース領域法による、相関係数判定用閾値自動決定処理のフローチャート。
図14図13に示した相関係数判定用閾値自動決定処理の説明図。
図15図13に示した相関係数判定用閾値自動決定処理の説明図。
図16図13に示した相関係数判定用閾値自動決定処理の説明図。
図17図13に示した相関係数判定用閾値自動決定処理の説明図。
図18図13に示した相関係数判定用閾値自動決定処理の説明図。
【発明を実施するための形態】
【0053】
[データ解析方法(CCD法)の説明]
まず、本発明の一実施例であるビッグデータ解析方法について、添付図面を参照して説明する。図1は本実施例のビッグデータ解析方法における解析手順を示すフローチャートである。なお、以下の説明では、本実施例のビッグデータ解析方法をCCD(Core Cluster Detection)法と呼ぶこととする。こうした呼称を用いる理由は以下の説明に伴い自ずと明らかになる。
【0054】
ここでは、多数の癌患者及び健常者からそれぞれ採取した生体試料(癌組織など)をサンプルとし、該サンプルを質量分析することによって得られたマススペクトル情報に基づいて、癌を幾つかのサブタイプに分類するとともに各サンプルがいずれのサブタイプに属するのかを判定するために、本実施例のビッグデータ解析方法、即ちCCD法を利用することを想定する。サブタイプの数は未知であることが前提である。なお、以下の説明では、この「サブタイプ」に相当するのは「クラスタ」である。
【0055】
以下のCCD法における解析処理は、通常、専用のアプリケーションソフトウエアがインストールされたPCにおいて実施される。
まず最初に、解析対象であるデータセット、即ち、多数のサンプルに対してそれぞれ得られたマススペクトルのピーク情報が取得される(ステップS1)。一つのサンプルに対するピーク情報は、該サンプルについて得られた所定の質量電荷比範囲のマススペクトルに対し既知のピーク検出処理を実施することで得られたものであり、信号強度値が所定の閾値以上である有意なピークの質量電荷比(m/z)値とその信号強度値との組から成る。通常、マススペクトルには有意なピークが多数現れるから、一つのサンプルに対するピーク情報はm/z値と信号強度値との組を多数含む。
【0056】
こうして収集された各サンプルのピーク情報は、例えば図2に示すような行列状のピークテーブルの形式にまとめることができる。このピークテーブルは、各サンプルについて、同じ質量電荷比値(図2ではm/z1、m/z2等)における信号強度値を縦方向に並べて示したものである。この例では、この質量電荷比値及び信号強度値が本発明における変数値及び定量値に相当する。
【0057】
次いで、全サンプルを対象とし、信号強度値の相関の高いピークが抽出される(ステップS2)。具体的には次のような処理が実施される。
まず、ピークテーブル上に挙げられた二本のピークの全ての組み合わせについて信号強度値の相関係数rij(i、j=1~m、ただしmは質量電荷比値の総数であり、図2に示したピークテーブルの横方向のセルの総数)を計算する。例えば図2に示した例のように、サンプル毎に、m/z1における信号強度値とm/z2における信号強度値との相関係数r12、m/z1における信号強度値とm/z3における信号強度値との相関係数r13、…を全てのピークの組み合わせについて、つまり総当たり的に計算する。そのあと、その相関係数rijに基づいて相関の高い複数のピークを抽出する。例えば、相関係数rijが予め定めた所定閾値以上であるピーク、又は、相関係数の高い順にピークを並べたときにピーク本数全体の所定の割合(例えば10%)に入るピークなどを相関が高いピークとして抽出すればよい。
【0058】
また、図3に示すように、相関係数の高い順にピークを横軸上に並べたときにその相関係数の値が或るところで大きく低下する場合には、その変化点を境界(図3中の点線)として、該境界よりも相関係数が高い範囲に含まれるピークを、相関が高いピークとして抽出してもよい。
【0059】
なお、上述したようにピーク間の相関係数を閾値に基づいて判断する場合、例えば次のようにして閾値を決めることができる。即ち、閾値を相関係数の最大値1から或る程度のステップ幅(例えば0.05幅)で段階的に下げていきつつ、それぞれの閾値を用いた解析を実行する。より適切な閾値付近では、「少しだけ未検出のマーカーがある」、「マーカーがほぼ全て抽出できている」、「マーカーでないピークも少しだけ余計に抽出してまっている」などの状態にある。いずれの場合でも、解析結果である「抽出クラスタ数」は等しく、「各クラスタのマーカー」も殆ど等しくなる。このように解析結果が安定するところを閾値とすればよい。
【0060】
また、スパース領域(Sparse Region)法と名付けた後述する別の手法でピーク間の相関係数を判定する閾値を自動的に決定し、その閾値よりも高い相関係数を示すピークの組を相関が高いピークとして抽出してもよい。
【0061】
次に、上述したように抽出された複数のピークの質量電荷比値を用いることで、相関の高いつまりはデータの類似性が高い二つのサンプル、即ちサンプルペアが抽出される(ステップS3)。同じクラスタに属するサンプルは同じ質量電荷比にピークを有する可能性が高いから、相関の高いピークを見つけることで最終的に同じクラスタに属する可能性の高いサンプルのペアを見つけることができる。具体的には次のような処理が実施される。
【0062】
二つのサンプルの全ての組み合わせについて、複数のピークの質量電荷比値の一致の程度を示す相関係数rkL(k、L=1~n、nはサンプルの総数)を総当たり的に計算する。そのあと、その相関係数rkLが予め定められた所定の閾値以上であるサンプルペアを抽出する。このとき、一つのサンプルが複数のサンプルペアに含まれることを許容する。つまり、サンプルAがサンプルB、サンプルCの両者に対し共に相関が高いと判断される場合には、サンプルAとサンプルBのサンプルペアと、サンプルAとサンプルCのサンプルペアとが別々に抽出される。また逆に、いずれのサンプルとも相関が低ければ、そのサンプルはサンプルペアとして抽出されない。換言すればペアを組むことができない孤立したサンプルも当然存在し、該サンプルはクラスタ候補外としてクラスタの決定処理から除外される。即ち、この時点で、クラスタを形成するのに利用価値が低いと推測されるサンプルはクラスタの決定処理から外される。なお、二つのサンプルの間の相関係数を閾値と比較してサンプルペアを抽出する際に用いる閾値も、ピークの組の抽出時と同様に、後述するスパース領域法により自動的に決定するものとすることができる。
【0063】
続いて、抽出された多数のサンプルペアを結合させていくことでコアクラスタが形成される(ステップS4)。図4はコアクラスタ形成処理を説明する模式図である。
まず上述したように抽出された多数のサンプルペアを相関係数rkLの高い順にソートする。図4(a)の例では、サンプルBとサンプルDのサンプルペア(以下、サンプルペア[B,D]と記す)の相関係数が最も大きく、該サンプルペアから下に向かって、サンプルペア[C,F]、サンプルペア[D,X]、…と順に相関係数が小さくなる。
【0064】
次いで、相関係数rkLが高い順につまり相関が高いものから優先的に、次のような規則に則ってサンプルペアを集約又は結合していくことによりコアクラスタを形成する。
<規則1>それ以前に出現していないサンプルのみから成るサンプルペアを新たなコアクラスタの代表ペア(つまりコアクラスタの核)とする。
<規則2>サンプルペアの片方のみが、それ以前に形成したコアクラスタのサンプルに含まれている場合には、そのサンプルペアの他方のサンプルをそのコアクラスタに割り当てる。
<規則3>それ以前に形成した二つのコアクラスタに跨るサンプルペアについては無視する。
【0065】
図4(a)の例では、<規則1>に従い、サンプルペア[B,D]、サンプルペア[C,F]をそれぞれ異なるコアクラスタ#1、#2の代表ペアとする。次に、3番目のサンプルペア[D,X]に属するサンプルDは既にコアクラスタ#1に属するため、上記<規則2>に従い、サンプルXをコアクラスタ#1に割り当てる。さらに上記<規則1>に従い、4番目のサンプルペア[E,L]を新たなコアクラスタ#3の代表ペアとする。5番目のサンプルペア[F,B]に含まれるサンプルFはコアクラスタ#2に、サンプルBはコアクラスタ#1に既に割り当てられているから、<規則3>に従い、サンプルペア[F,B]については処理を行わない。さらに7番目のサンプルペア[F,H]に属するサンプルFは既にコアクラスタ#2に属するため、上記<規則2>に従い、サンプルHをコアクラスタ#2に割り当てる。こうして、図4(b)に示すように、ステップS3で抽出したサンプルペアに基づき新規にコアクラスタを生成したり、サンプルペアを既存のコアクラスタに割り当てたりする。
【0066】
なお、当然のことながら、上記ステップS3においてサンプルペアとして抽出されなかったサンプル、つまりクラスタ候補外のサンプルについてはクラスタ判定を保留しておく。また、或るコアクラスタが代表ペアのみしか含まない、つまりはサンプル数が2である場合には、そのコアクラスタを解消し、それら2個のサンプルをクラスタ候補外とするとよい。
【0067】
ステップS3で抽出した全てのサンプルペアに対してコアクラスタ(又はコアクラスタに入らないこと)が確定したあと、コアクラスタ毎に、そのコアクラスタに属する複数のサンプルを特徴付ける特異的ピークが抽出される(ステップS5)。ここでは特異的ピークの抽出に有意差検定を利用する。
【0068】
具体的には、コアクラスタ毎に、一つの目的のコアクラスタに属する全てのサンプルにおける或る質量電荷比のピークの信号強度値の平均値と、全サンプルから目的のコアクラスタに含まれるサンプルを除外した集団における同じ質量電荷比のピークの信号強度値の平均値との差について既知のt検定を行う。そして、そのt検定で計算されるp値が小さい順(仮説が正しいらしい順)に上位10個(又はそれ以外の所定個数)のピークを選択し、それをその目的のコアクラスタにおける特異的ピークと定める。この処理によって、コアクラスタ毎にそれぞれ10個の特異的ピークが抽出される。
なお、上記t検定は、一つの目的のコアクラスタに属する全てのサンプルにおける或る質量電荷比のピークの信号強度値の平均値と、全サンプルにおける同じ質量電荷比のピークの信号強度値の平均値との差について行ってもよい。この場合、差の検定としての精度は多少劣るものの、計算時間が短縮できるという利点がある。
【0069】
ただし、ステップS5で定まるのはあくまでも仮の特異的ピークであり、そのあと、その特異的ピークの再評価が行われ不適切な特異的ピークは除外される(ステップS6)。図5は特定コアクラスタ内の特異的ピークの再評価処理の説明図である。ここでは、コアクラスタに共通して三つ以上存在している場合に特異的ピークと判定し、そうでないものを特異的ピークから除外している。
【0070】
或るコアクラスタに対応する特異的ピークはそのコアクラスタを特徴付けるものではあるものの、全てのサンプルは基本的に同種のもの、例えば異なる個体の同じ組織(腎臓など)から採取された試料であることを前提としているため、或るコアクラスタにおいて観測される或る一つの特定のピークが他のコアクラスタにおいて全く観測されないということは考えにくく、そうしたピークは何らかの要因によるノイズの可能性があると推測される。そこで、全てのコアクラスタにおいて、共通する(質量電荷比が同じである)ピークの数が0又は1である場合、つまり或るコアクラスタで観測されるピークが他のコアクラスタで観測されないか或いは他の一つのコアクラスタでのみ観測される場合には、そのピークの信頼度は低いと判断して特異的ピークから除外する。
【0071】
図5に示した例では、m/z=120.1のピークはコアクラスタ#1のみに存在し他のコアクラスタには存在しないから共通ピーク数は0であり、このピークは再評価によって特異的ピークから除外される(図5中、再評価結果が「NG」)。また、m/z=123.5のピークはコアクラスタ#1、#2の二つのみに存在しそれ以外のコアクラスタには存在しないから共通ピーク数は1であり、このピークはやはり再評価によって特異的ピークから除外される。こうして三以上のコアクラスタに共通に存在するピーク(図5中、再評価結果が「OK」)が特異的ピークとして保持される。或るコアクラスタにおいて除外されるピークの数をαとすると、ステップS5で抽出された特異的ピークの数が10である場合、再評価によって特異的ピークとして残るピークの数は10-αである。このαはコアクラスタ毎に相違する。
【0072】
続いて、上述したようにコアクラスタ毎に抽出され再評価された特異的ピークを利用することで、複数のコアクラスタが統合されたクラスタが形成される(ステップS7)。
具体的にはまず、コアクラスタ毎の10-α個の特異的ピークのうち、3個以上の特異的ピークが共通しているつまりは同じ質量電荷比にピークが存在していることを条件として複数のコアクラスタが探索される。そうした見つかった複数のコアクラスタに対応付けて、統合可能性が大であることを示すフラグ(以下、単に「フラグ」という)が付加される。
【0073】
図6はコアクラスタの統合可能性を調べる処理の説明図である。この図6の例では、#1、#2、#3という三つのコアクラスタではp1、p2、p3という三つのピークが共通している。したがって、これら三つのコアクラスタ#1、#2、#3にはフラグが付加される。また、#4、#5という二つのコアクラスタではp4、p5、p6という三つのピークが共通しているから、これら二つのコアクラスタ#4、#5にも上記フラグとは別のフラグが付加される。一方、コアクラスタ#6とコアクラスタ#4、#5とでは二つのピークp4、p5が共通しているだけであるので上記条件に適合せず、フラグは付加されない。
【0074】
そのあと、上記フラグが付加されているコアクラスタに着目し、次のような判定処理を実施する。
いま、統合可能性が大であるとされている二つのコアクラスタがある場合を想定し、そのうちの、相関係数rkLが相対的に高いサンプルペアを含む一方のコアクラスタをα、他方のコアクラスタをβとする。このコアクラスタαの特異的ピークの総数の2/3(又は1/2等の所定の割合)をコアクラスタβが有しているか否かを判定する。また逆に、コアクラスタβの特異的ピークの総数の2/3(又は1/2等の所定の割合)をコアクラスタαが有しているか否かを判定する。そして、これら両方の条件を満たしたとき、その二つのコアクラスタを統合して一つのクラスタを形成する。同様にして、上記条件を満たす複数のコアクラスタがあれば、それを統合することでクラスタを拡大する。なお、他のコアクラスタと全く統合不可能なコアクラスタ、つまり孤立したコアクラスタはコアクラスタとせず、そのコアクラスタに属するサンプルはクラスタ候補外として除外するとよい。
【0075】
こうして、上記ステップS4において形成された全てのコアクラスタについて統合を試みることで複数のクラスタを作成する(もちろん、一つのクラスタに集約されることも原理的にはあり得る)。図7はクラスタの統合によるクラスタ形成処理の説明図である。この例では、クラスタ#1、#4、#kの三つが統合されて一つのクラスタが形成される。なお、以下の説明では、形成されたクラスタの番号をクラスタ[*]として記す。
【0076】
次いで、決定されたクラスタ毎に、特異的ピークが抽出される(ステップS8)。例えば、各クラスタには複数のコアクラスタが含まれ、各コアクラスタは上述したように10-α個の特異的ピークを有している。そこで、各クラスタにおいて、当該クラスタに含まれる複数のコアクラスタのうちの1/2以上の数のコアクラスタが共通に有する質量電荷比における特異的ピークを、そのクラスタの特異的ピークとして抽出するとよい。
【0077】
また、次のような処理によってクラスタ毎に特異的ピークを抽出するようにしてもよい。
即ち、クラスタ毎に、そのクラスタ内のピークの特性値の平均値とそのクラスタ以外のピークの特性値の平均値に対して、2群の平均値の差について既知のt検定を行い、そのt検定で計算されるp値が小さい順にピークを並べ替え、十分に小さいp値を有するピークを特異的ピークとする。ここで、調べるクラスタが単独タイプのクラスタである場合には、比較すべき対照クラスタとしては、調べるべきクラスタを混合として含んでいる混合クラスタのメンバーはt検定の対照群から除外する。また、調べるクラスタが混合クラスタである場合には、混合として含んでいる単独クラスタのメンバーは対照群から除外する。p値が十分に小さなピークか否かを判定するには、p値の変化の仕方が急激に大きく変化する状況を調べればよい。そこで、算出したp値を基にそれぞれY=-log10(p値)を計算する。ここで、調べるピークの個数はp値が小さい30程度までを調べれば、実際のクラスタの特異的ピークはその数に含まれると考えられる。そこで、並べたピークの順に従って三つの連続するYの値の移動平均を計算する。そして、上位30位からp値の小さい上位に向かって、前の移動平均との差が2を超えるピークが探索できた場合は、そのピークよりp値の小さいピークを特異的ピークとして抽出する。
【0078】
そのあと、クラスタ毎に、一つのクラスタの複数の特異的ピークを利用することで、任意のサンプルが該クラスタに属するか否かを判定するためのメンバー判定式が構築される(ステップS9)。ここでは、メンバー判定式を構築するために下記のようなロジスティック回帰モデルを用いるが、その前に、或る一つのクラスタの特異的ピークを別のクラスタが三つ以上特異的ピークとして有しているか否かを判定し、三つ以上有しているクラスタは混合コアクラスタであると推定し、そのクラスタに含まれるサンプルはロジスティック回帰モデルを構築する際のサンプルから除外する。これは、そうしたサンプルを除外しないと2群判別の両群に同じクラスタのサンプルが混じることになり、ロジスティック回帰モデルが正確性を欠くためである。
【0079】
<ロジスティック回帰モデル>
Y=1 :対象とするサンプル(メンバー)が目的のクラスタに属する場合
Y=0 :対象とするサンプル(メンバー)が上記目的のクラスタ以外の他のクラスタに属する場合とする。
ここで、或るクラスタの特異的ピーク集合Xを与えた際にY=1となる確率をPr(Y=1|X)と記述すると、ロジスティック回帰モデルは以下の式で与えられる。
Pr(Y=1|X)=1/[1+exp{-(b0+b11+b22+…+bkk)}]
ここで、Xkはk番目の特異的ピークXの変数値であり、各患者の特性値としてピーク強度の値を取る。また、b0、b1、…、bk(k=1、…、K)は信頼度の高いデータから推定されたパラメータであり、Kはそのクラスタの特異的ピークの個数である。
【0080】
上記ロジスティック回帰に、各患者で観測された特異的ピークの特性値を入力することにより、その患者が該当クラスタに属するか否かを確率値で以て判定することができる。例えば、その判定ルールとしては、クラスタ毎に計算された確率値の最も高いクラスタを割り当てればよい。また、確率値が例えば1/2以上であればそのクラスタに割り当てることもできる。この判定により、一人の患者が複数のクラスタに属することを判定することができる。この判定は、信頼度の高いデータに対してはサンプルの信頼性を再評価することができ、確率の低いサンプルはそのクラスタから除外し、信頼度の低いデータセットに移動させ、後で最終判断することができる。また、この判定は信頼度の低いデータセットのサンプル全てに適用し、各サンプルのクラスタを割り当てることができる。
上述したように構築されたメンバー判定式によれば、或るサンプルが間違いなく特定のクラスタに属している場合に「1」、そのサンプルが間違いなくその特定のクラスタに属していない(別のクラスタに属している)場合に「0」の結果が得られ、Yの値が1に近いほど、そのサンプルが特定のクラスタに属している可能性が高いといえる。
【0081】
次いで、各クラスタに対応したメンバー判定式の的確性をチェックするために、そのクラスタに含まれる各サンプルについてのデータをメンバー判定式に適用し判定結果を算出する。このとき確率が低いとすると、そのサンプルはそのメンバー判定式によってそのクラスタに分類されないことになる。そこで、判定結果(Y値)が0.5以下である場合にはそのサンプルをクラスタから除外する(ステップS10)。
【0082】
一部のサンプルがクラスタから除外された場合、それによって特異的ピークが変わる可能性がある。そこで、クラスタに残ったサンプルについてのデータに基づいて特異的ピークを見直す(ステップS11)。特異的ピークが一部でも変更されると、メンバー判定式自体も変わることになる。そこで、変更された特異的ピークに基づき、ステップS9と同様にメンバー判定式を再構築する(ステップS12)。これにより、メンバー判定式の正確性を高めることができる。なお、ステップS8~S12の処理は複数回繰り返しても構わないが、実用的には、図1のフローチャートに示したように、特異的ピークの抽出とメンバー判定式の構築を1回見直せば十分に信頼性の高い判定式を作成することができる。
【0083】
このようにして、クラスタつまりはサブタイプと、各クラスタの特異的ピークつまりはサブタイプを特徴付けるバイオマーカーと、任意のサンプルがいずれのクラスタに属するのかを判定するためのメンバー判定式とが確定する。複数のクラスタの中には、他の複数のクラスタが混合した状態のクラスタ(以下、こうしたクラスタを混合クラスタという)が含まれる可能性がある。そこで、各クラスタについて、一つのクラスタの特異的ピークが、他の二以上のクラスタの特異的ピークを重複しているか否かを判定し、その結果により、そのクラスタが混合クラスタであるか否か、そして混合クラスタである場合にいずれのクラスタの混合であるのか、を識別する(ステップS13)。
【0084】
そのあと、各クラスタにすでに割り当てられているサンプルを含め、解析対象として与えられた全てのサンプルについて、各クラスタ(混合クラスタを含む)にそれぞれ対応するメンバー判定式を用いて帰属確率を計算し、その結果に基づいて帰属するクラスタを決定する(ステップS14)。そして、その結果を出力する(ステップS15)。
【0085】
具体的には、複数のクラスタに対する帰属確率のうちの一つが所定の閾値以上である場合には、その帰属確率を与えるクラスタに帰属していると結論付ければよい。また、帰属確率が所定の閾値以上であるクラスタが複数ある場合には、該当する複数のクラスタに帰属していると結論付ければよい。一方、複数のクラスタに対する帰属確率のうち所定の閾値以上となるものが一つもない場合には、該サンプルが本来この解析の対象でない誤って混じったサンプルである、或いはサンプルに対する測定の手法や条件等に誤りがある、等の理由が考えられるから、判定不能として結論付ければよい。また、帰属確率を判定する閾値を定めずに帰属確率が最大となるクラスタに帰属させるようにしてもよく、その場合には帰属している一つのクラスタを決定することができる。
【0086】
図8は各サンプルの判定処理を示す模式図である。この例ではクラスタは全部で8個である。例えばサンプルAのデータを各クラスタに対応する八つのメンバー判定式に適用し、クラスタに対する帰属確率を計算した結果、図8右に示すように確率が算出されたものとする。この場合には、クラスタ[2]に対する確率が0.9と最も高く、それ以外のクラスタに対する確率は全て0.2以下と低い。そこで、サンプルAはクラスタ[2]に属すると判断する。上述したようにクラスタは混合クラスタである場合もあり、或るサンプルが混合クラスタに帰属していると判定されたときには、該サンプルはその混合クラスタの元となる複数のクラスタの両方に属すると結論付ければよい。
【0087】
以上のように、このCCD法によれば、同一の部位、生体組織、又は臓器のがんを罹患している多数の患者から採取したサンプルを質量分析することで得られたマススペクトルデータに基づいて、その癌の複数のサブタイプとサブタイプを特定するバイオマーカー(質量電荷比値)とを求めることができる。また、或るサンプルがどのサブタイプであるのかを判定するためのメンバー判定式を求めることもでき、それを利用して任意のサンプルが一又は複数のサブタイプのいずれであるのかを判定することができる。
【0088】
[スパース領域法の説明]
ここで、上記ステップS2及びステップS3において相関係数を判定するための閾値を自動的に決定する際に用いることができるスパース領域法について詳細に説明する。
図13はこのスパース領域法による、相関係数判定用閾値自動決定処理のフローチャートである。また、図14図18はその相関係数判定用閾値自動決定処理を説明するための図である。ここでは、ステップS2で述べたピーク間の相関係数を判定する閾値を決定する場合について説明するが、同様の手順で、サンプル間の相関係数を判定する閾値を決定することが可能であることは明らかである。
【0089】
閾値を決定する際には、まず、図2に示したようなピークテーブル上に挙げられている二つのピークの全ての組み合わせについて信号強度値の相関係数rijを計算する(ステップS21)。次いで、計算された全ての相関係数rijを降順にソートしてソート番号を割り当て、ソート番号が隣り合う二つの相関係数の差をそれぞれ計算する(ステップS22)。もちろん、相関係数rijを降順ではなく昇順にソートしても構わない。そして、その相関係数差の計算結果に基づき、ソート番号を横軸に、ソート番号が隣り合う相関係数の差に-1を乗じた値を縦軸にとった相関係数差グラフを作成する(ステップS23)。もちろん、このグラフ自体をユーザー(解析担当者)に提示する必要はないから、グラフは計算上作成される仮想的なものである。また、ここで、相関係数差に-1を乗じるのは、後述するグラフにおける見易さを優先し、相関係数差が負値になるようにするためであり、必ずしも負値に変換する必要はない。
【0090】
図14は、後述する、実測のマススペクトルデータを元に加工して作成したシミュレーションデータから計算したピーク間の相関係数をソート番号の順に並べたグラフである。ここでは、ピークの総数は1097であり、ピーク間の相関係数の総数は10972=601156である。一般に、同じサブタイプに属するピーク間の相関係数の絶対値は大きく(1に近く)、そうでないピーク間の相関係数の絶対値は小さく(0に近く)なる筈である。そのため、相関係数を降順に並べると、図14に示すように、相関係数の絶対値が大きいデータ点の群、つまり正又は負の相関があるデータ点の群と、相関係数の絶対値が小さいデータ点の群、つまりは相関が小さい又は実質的にないデータ点の群との二つの群が形成され、その群の間にはデータ点が疎にしか存在しないスパース領域が形成される。スパース領域法では、このスパース領域を見つけることで、相関係数を判定するのに適切である、尤もらしい閾値を決定する。
【0091】
図15図18はいずれも図14に示した相関係数に基づいて作成した相関係数差グラフである。いずれも、横軸は相関係数のソート番号、縦軸はソート後に隣り合う二つの相関係数の差を示す。図15ではほぼ全てのピークの組み合わせの相関係数差を示しているのに対し、図16図18ではそれぞれ、ソート番号が1~10000、1~1000、1~100であるピーク間の相関係数差に限って示している。
【0092】
図14に示したように、相関係数の絶対値が大きいデータ点の群ではデータ点のプロット密度は比較的高く、相関係数の絶対値が小さいデータ点の群でもデータ点のプロット密度は比較的高い。そして、それら二つの群の間では、データ点のプロット密度は低い。そのため、相関係数差グラフでは、ソート番号が隣り合う相関係数の差が最大になるソート番号の前後において、データ点の分布は谷形状(つまりは下向きの凸形状)になる。図15図18ではいずれも、谷形状部となる相関係数差の分布の底に位置するデータ点を太線矢印で示している。特に、この例の場合には、図14に示したように、ソート番号が隣り合う相関係数の差が極端に大きくなる箇所があるため、谷形状部の最深部における相関係数差が単独で下方向に突出していることが分かる。したがって、谷形状部の最深部に相当するソート番号対応する相関係数を閾値とすれば、それよりも相関係数が大きい範囲ではピークの相関が高く、それよりも相関係数が小さい範囲ではピークの相関が低い又は実質的にないと高い信頼度を以て判断することができる。なお、相関係数差を負値に変換しない場合には、谷形状部ではなく山形状部(つまりは上向きの凸形状)になる以外は全く同じである。
【0093】
そこで、上述したような相関係数差グラフが得られたならば、相関係数差の分布において、下方向に突出する一つの相関係数差のプロット点が存在するか否かを判定し(ステップS24)。突出しているか否かは例えば相関係数差の値の変化に基づいて判定すればよい。もし一つの突出するプロット点が存在すると判定された場合には、その相関係数差を与える相関係数を閾値として定める(ステップS25)。
【0094】
一方、下方向に突出する一つの相関係数差のプロット点が存在しないと判定された場合には、相関係数差の分布において、下方向の凸形状部つまりは谷形状になる部位が存在するか否かを判定し(ステップS26)、もし存在すれば、その最深の谷底位置を検出して(ステップS27)、その位置のソート番号に対応する相関係数を求める。もし谷形状部が複数存在する場合には、ソート番号が最も小さい(降順ソートの場合)ものを選択すればよい。また、谷形状部は一つであるものの、殆ど同じ深さである底が広がっている場合や殆ど同じ深さの最深部が複数存在する場合には、その最深部の中でソート番号が最も小さいソート番号を検出すればよい。そうして求めた相関係数の値を閾値として決定する(ステップS28)。
【0095】
場合によっては、相関係数差グラフ上の相関係数差の分布において明確な谷形状部が形成されないことがある。そこで、ステップS24、S26で共にNoである場合には、相関係数差グラフ上で相関係数差が最大となるソート番号に対応する相関係数を求め、その値を閾値として決定する(ステップS29)。相関係数差グラフ上で相関係数差が最大となるソート番号が複数存在する場合には、最も小さいソート番号を選択すればよい。
このようにして、ピーク間の相関係数を判定するための適切な閾値を自動的に決定することができる。
【0096】
なお、上記ステップS24~S28の処理は、データ点を適当な関数でフィッティングしたフィッティング関数を求め、その関数の極小点に対応する相関係数を閾値とする処理に置き換えてもよい。また、谷形状部の底の位置に対応する相関係数ではなく、意図的に、それよりもソート番号の小さい側又は逆にソート番号の大きい側にずれた位置に対応する相関係数を閾値に定めてもよい。例えば、多少の取りこぼしを許容しても不適切であるピークの混入を回避したいときには、ソート番号の小さい側にずれた位置に対応する相関係数を閾値に定めることで、閾値を高めにするようにすればよい。逆に、不適切なピークの多少の混入を許容しても適切であるピークの取りこぼしを少なくしたい場合は、ソート番号の大きい側にずれた位置に対応する相関係数を閾値に定めることで、閾値を低めにするようにすればよい。
【0097】
また、上記のように自動的に閾値を決定するのではなく、相関係数差グラフを表示部の画面上に表示し、解析担当者がそのグラフ上で適宜の位置をマウス等のポインティングデバイスでクリック操作すると、そのクリック操作された位置に最も近い位置に対応する相関係数が閾値と設定されるようにしてもよい。この場合には、閾値は自動的に定まらず、閾値を決定するための情報をユーザーに提示し、ユーザー自身が閾値を定めることになる。また、上述したように自動的に決定された閾値を相関係数差グラフ上で適宜変更できるようにしてもよい。
【0098】
また、相関係数差グラフにおいてデータ点の分布において下方向に突出する相関係数差が観測されず且つ明確な谷形状の分布にもならないということは、クラスタに特異的であるピークの群と特異的でないピークの群との信号強度の差異が僅かである、或いは、特異的なピークの本数が少ない、といった状況が想定される。こうした状況では、CCD法による解析の結果得られるサブタイプの分類やそれを特徴付けるマーカーの信頼度が低い可能性がある。そこで、ステップS24及びS26で共にNoと判定されたときに、それをユーザーに報知するようにして、ここで解析対象としているデータがCCD法によって解析不能であるか否かの判断をユーザーが下せるようにしてもよい。
【0099】
[CCD法による解析例]
本発明者らは上記CCD法の有用性を確認するために、実測のマススペクトルデータを元に加工して作成したシミュレーションデータを解析し、その解析結果を評価した。
シミュレーションデータは、5種類のタンパク質消化物(ペプチド)を混合した試料を液体クロマトグラフ-マトリクス支援レーザ脱離イオン化/飛行時間型質量分析計(LC-MALDI/TOFMS)で測定して得られたマススペクトルデータを元に、そのマススペクトル上の各ピークの信号強度をランダムに変化させることで擬似的に多数のマススペクトル(つまりは多数のサンプル)としたものである。このデータは、単一のサブタイプが複数存在するとともに、単一のサブタイプが二つ混合されたサブタイプも複数存在するような、癌に罹患した患者の癌組織に対するマススペクトルのピーク情報を想定したものである。マススペクトル上のピークの質量電荷比範囲は800~2000であり、ピークの総数は1097である。
【0100】
またピークの作成条件は図10に示した通りである。即ち、サブタイプの数は8で、そのうち単一のサブタイプが5種、単一サブタイプが二つ混合した混合サブタイプが2種、また癌を有さないことを想定した健常者のサブタイプが1種である。この場合、サブタイプと上記クラスタとは実質的に同じであるため、以下の説明では、サブタイプの番号は[*]で示し、単一のサブタイプは[1]~[5]、混合サブタイプは[6](=[1]+[3])及び[7](=[2]+[4])、健常者のサブタイプは[8]である。また、一つのサブタイプ当たりのサンプル数は100、つまり全部で合計800サンプルとした。また、バイオマーカーに相当する特異的ピークは各サブタイプにおいてそれぞれ10個ずつとした。
【0101】
サブタイプ毎の特異的ピークのm/z値の一覧を図11に示す。図11中で下線が引いてあるm/z値は、癌を罹患したときにサブタイプに拘わらず健常者に比べて信号強度(具体的にはそのピークに対応する成分の量)が増加するピーク(以下、このピークを「重複ピーク」という)、つまりはサブタイプ間での共通マーカーである。また、そのほかのサブタイプにおいて特異的ピークであり、そのサブタイプに属するサンプルであれば他のサブタイプに属するサンプルよりも信号強度が大きいピークについては、m/z値の右に↑印を記載してある。また、そのサブタイプに属するサンプルであれば他のサブタイプに属するサンプルよりも信号強度が小さいピークについては、m/z値の右に↓印を記載してある。なお、このシミュレーションデータでは、意図的に、サブタイプ間での特異的ピークの信号強度の差が或る程度大きくなるように調整している。具体的には、この例では、健常者検体に比べて特異的に強度が増加する場合には2倍、減少する場合には0.5倍にしている。
【0102】
上記800サンプルのシミュレーションデータに対し上述したCCD法を適用した。まずステップS2の処理として、サンプル毎に、1097個のピークについての全ての組み合わせ、つまり10972=601156通りのピークの組み合わせの相関係数を計算した。そして、その結果を図3に示した方法で判定しピークを抽出した。このときの相関係数の条件は-0.5以下又は0.5以上である。その結果、96個のピークが抽出された。
【0103】
次にステップS3、S4の処理として、800個のサンプルについての全ての組み合わせ、つまり8002=31960通りのサンプルペアの相関係数を計算した。そして、その相関係数が0.9以上であるサンプルペアを抽出して結合させることで、53個のコアクラスタを形成した。このようにして先に説明した処理を順次実行した結果、最終的にクラスタの数は8となった。これは、作成条件として設定した通りのサブタイプ数で、正答である。各クラスタの最終的な特異的ピークと図11に示したピークとを比較し、各クラスタがどのサブタイプに属するのかを示したのが図12である。
【0104】
図12を見れば分かるように、単一サブタイプであるサブタイプ[1]~[5]については、m/z=1073.6、1123.7、1405.8の三つを除き、全てのマーカーが特異的ピークとして抽出されている。これら抽出されなかった三つの特異的ピークは複数のサブタイプに対する重複マーカーであり、いずれかのサブタイプを有していれば(つまり癌検体であれば)健常者に比べて必ず信号強度が高くなるように定められているものである。したがって、サブタイプ間でそのピークの信号強度には実質的に差がなく、サブタイプを特徴付けるものとはいえない。さらにまた、この三つの特異的ピークは健常者に対応するサブタイプ[8]のマーカーとして抽出されているから、これら三つのピークがサブタイプ[1]~[5]におけるマーカーとして抽出されなかったことは妥当な結果であるということができる。
【0105】
また、ここでは、或るサブタイプの特異的ピークが別のサブタイプの特異的ピークを3個以上含み、且つそのような別のサブタイプが二種以上存在したときに、そのサブタイプを混合サブタイプであると判断している。図11及び図12では、サブタイプ[6]、[7]における特的ピークのm/z値のあとの括弧()内に、その特異的ピークを有する別のサブタイプの番号を記載してある。この結果を見ると、サブタイプ[6]はサブタイプ[1]とサブタイプ[3]の特異的ピークをそれぞれ3個以上有しているから、サブタイプ[6]はサブタイプ[1]とサブタイプ[3]との混合サブタイプであることが分かる。また同様に、サブタイプ[7]はサブタイプ[2]とサブタイプ[4]との混合サブタイプであることが分かる。これらはいずれも正答であり、単一サブタイプ、混合サブタイプのいずれとも正しく分類できていることが確認できる。さらにまた、CCD法の結果、8個のサブタイプにそれぞれ振り分けられたサンプルが真に対応するサブタイプに属するサンプルであるのか否かを確認したが、その正答率は100%、つまり、800サンプル全てが適切に割り振られていることが確認できた。
【0106】
なお、健常者と癌患者との間での特異的ピーク(マーカー)の強度の差がより小さい、特異的ピークの数が10よりも少ない(ただし、必ず複数存在する)、或いは、各サブタイプに対応するサンプル数が100よりも少ない、といった解析の上ではより厳しい条件を課した場合についても検証を行ったが、各ステップで適切な閾値を定めることによって、サンプルの振り分けの正答率として90%以上を達成できることが確認できた。これにより、CCD法による複数のサブタイプ(クラスタ)への分類は十分に高い信頼性を以て行えるということができる。
【0107】
[CCD法を用いた質量分析システム]
次に、上述した本実施例のビッグデータ解析方法によるデータ解析を利用した質量分析システムの一実施例の構成と動作について説明する。
図9はこの質量分析システムの要部のブロック構成図である。
【0108】
本実施例の質量分析システムは、質量分析部本体1と、データ解析部2と、操作部3と、表示部4とを備える。質量分析部本体1は例えば、セットされたサンプルに対し所定の質量電荷比範囲に亘る高精度、高感度なマススペクトルデータを取得可能な、MALDI(マトリクス支援レーザ脱離イオン化)イオン源を搭載した飛行時間型質量分析計である。一方、データ解析部2の実体は専用のデータ解析ソフトウエアなどが予めインストールされたPCであり、該ソフトウエアをPC上で動作させることで、スペクトルデータ収集部21、ピーク情報抽出部22、クラスタ判定部23、及びクラスタ判定式記憶部24などの機能ブロックが具現化される。操作部3は通常、上記PCに含まれる(又は接続されている)キーボードやポインティングデバイスであり、表示部4はモニタである。
【0109】
一般的には、上述したCCD法の中で少なくともステップS11までの処理は比較的高性能なコンピュータで行われ、それによって求められたクラスタ毎のメンバー判定式がクラスタ判定式記憶部24に記憶される。即ち、この例では、データ解析部2は上記ステップS1~S11の処理を実施する機能を有さない。なお、或る部位の癌についてサブタイプ毎にメンバー判定式があるから、癌の部位(例えば乳癌、腎臓癌など)毎に1セット(複数)のメンバー判定式をクラスタ判定式記憶部24に記憶させておき、判別したい癌の部位を操作部3から指定すると、その癌の部位に対応するセットのメンバー判定式がクラスタ判定式記憶部24からクラスタ判定部23に読み込まれるようにするとよい。
【0110】
或るサンプルが質量分析部本体1にセットされ、該質量分析部本体1によりそのサンプルに対する質量分析が実行されると、スペクトルデータ収集部21はその分析によって得られたマススペクトルデータを収集し記憶する。ピーク情報抽出部22は記憶されたマススペクトルデータに対しピーク検出を行い、マススペクトル上で観測されるピークの質量電荷比値と信号強度値とをピーク情報として収集する。クラスタ判定部23は、上述したようにクラスタ判定式記憶部24から読み込まれた1セットのメンバー判定式に基づいて、そのサンプルが帰属される可能性のサブタイプを判定する。この処理は上記ステップS14で実施される処理と実質的に同じである。そして、その判定結果が表示部4の画面上に表示され、例えば検査担当者などに知らされる。
【0111】
このようにして本実施例の質量分析システムによれば、癌患者から採取したサンプルに基づいてその癌のサブタイプを簡便に調べることができる。判定結果の出力の態様は様々である。例えば、複数のメンバー判定式に基づいてそれぞれ算出された帰属確率を予め決められた規則に従って判定することでサブタイプを特定し、そのサブタイプのみを表示するようにしてもよい。また、そのときに帰属確率の数値を併せて表示するようにしてもよいし、各サブタイプに対する全ての帰属確率を表示するようにしてもよい。
また、帰属確率を数値ではなくグラフ化して表示することで、異なるサブタイプに対する帰属確率を視覚的に比較し易くすることができる。さらにまた、サブタイプ毎に治療方法等が或る程度確立している場合には、サブタイプに対応した治療方法等を関連付けて表示するようにしてもよい。
【0112】
さらにまた、上述したようにいずれのサブタイプに対しても帰属確率が明らかに低い結果が出ている場合には、サンプル自体が適切でない、分析が適切に行われていない、指定された癌の部位が誤っている、といった可能性があるから、何らかの警告表示を出すようにするとよい。
【0113】
上記実施例は本発明に係るビッグデータ解析方法を癌のサブタイプの判定に利用したものであるが、本発明に係るビッグデータ解析方法はこれに限らず、様々な測定対象、或いは様々な分野におけるデータ解析に利用することができる。
【0114】
本発明に係るビッグデータ解析方法が取り扱うことのできるデータは、多数のサンプルについてそれぞれ得られたデータであり、サンプル毎に所定の変数に対し観測値、測定値、計測値などの定量値を有するデータである。上記例では、変数値は質量電荷比値であり、それに対する定量値は信号強度値である。
【0115】
別の例として、例えば細胞内の全DNAの塩基配列を調べる次世代シーケンサ解析では、変数値はゲノム上の位置情報であり、それに対する定量値は4種の塩基中の変異塩基のリード数である。また、細胞内の全転写産物(mRNA)を調べるマイクロアレイ解析(トランスクリプトーム解析)では、変数値はマイクロアレイの遺伝子のプローブセット名であり、それに対する定量値は蛍光強度値である。
【0116】
また、本発明に係るビッグデータ解析方法は、質量分析イメージング画像やX線画像、蛍光画像などの様々な画像データの解析にも利用可能である。こうした用途では、変数値は画像上の二次元的な位置情報であり、それに対する定量値は例えば所定の質量電荷比、X線波長、蛍光波長などにおける信号強度値である。また、ヒトを含む動物由来の何らかのデータを解析する場合には、性や年齢などの検体情報を変数値として用いることもできる。
【0117】
さらにまた、本発明に係るビッグデータ解析方法は、より一般的なデータ解析の分野、例えばマーケティングデータ解析、物流データ解析、品質管理や異常検知のためのデータ解析、金融データ解析、株価データ解析、気象データ解析など、様々なデータ解析、即ちデータマイニングにおいても利用することができる。
例えば、株価のデータ解析においては、変数値を所定期間における時間、それに対する定量値を株価とし、様々な企業をそれぞれサンプルとして扱うことで、それら企業を複数のクラスタに分けることができる。
【0118】
なお、上記実施例や変形例も本発明の一例であり、本発明の趣旨の範囲で適宜変形、修正、追加を行っても本願特許請求の範囲に包含されることは当然である。
【符号の説明】
【0119】
1…質量分析部本体
2…データ解析部
21…スペクトルデータ収集部
22…ピーク情報抽出部
23…クラスタ判定部
24…クラスタ判定式記憶部
3…操作部
4…表示部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18