【新規性喪失の例外の表示】特許法第30条第2項適用 http://www.//lifescienceglobal.com/journals/journal−of−analytical−oncology/volume−1−number−1#protonmagnetic、平成24年6月24日
【文献】
松井 知子, 田邉 國士,「dPLRMを用いた話者識別」,統計数理,2005年12月,Vol.53, No.2,pp.201-210
(58)【調査した分野】(Int.Cl.,DB名)
a)導電性の探針と、該探針の先端に試料を付着させるべく該探針又は試料の少なくとも一方を移動させる変位手段と、前記探針の先端に試料が付着された状態で該探針に高電圧を印加する高電圧発生手段と、を含み、前記探針に高電圧を印加したときのエレクトロスプレー現象を利用して該探針に付着している微量試料中の成分をイオン化するイオン化手段と、
b)該イオン化手段により生成されたイオンを質量分析しマススペクトルデータを取得する分析手段と、
c)複数の状態のいずれであるかが既知である試料に対して得られたマススペクトルデータに基づく統計的機械学習の手法を、未知試料に対して得られたマススペクトルデータに適用することにより、該未知試料が前記複数の状態のうちのいずれであるかを推定するとともにその確率を算出するデータ解析手段と、
を備え、前記データ解析手段は統計的機械学習の手法としてdPLRM(=dual Penalized Logistic Regression Machine:双対罰金付きロジスティックモデルに基づく帰納的学習機械)を利用したものであることを特徴とする質量分析装置。
【発明の概要】
【発明が解決しようとする課題】
【0007】
即ち、医療現場での癌の診断において求められている要件は次のとおりである。
(1)検査自体が簡便に行え、装置の扱いに習熟していない者であっても操作や作業が容易に行えること。
(2)測定実行から結果が出るまでの所要時間が短いこと(好ましくは数分程度以内)。
(3)被検者から採取すべき生体組織が微量で済み、低侵襲性であること。
(4)判定結果の信頼性が高いこと。
(5)装置自体が安価であること。また、試料に対する煩雑で特殊な前処理が不要であって測定のランニングコストが低いこと。
(6)装置が比較的小型であり、例えば手術室や内視鏡検査室などへの持ち込みが容易であること。
【0008】
本発明は上記課題を解決するためになされたものであり、その主な目的は、生体試料が癌等の病変部位であるか否かの判定や、試料が正常体又は異常体のいずれであるかの判定などを、上述したような様々な要件を満たしながら実施することができる質量分析装置を提供することである。また、本発明の他の目的は、上述したような様々な要件を満たしながら癌の判定を行うことができる癌診断装置を提供することである。
【課題を解決するための手段】
【0009】
上記課題を解決するために成された本発明に係る質量分析装置は、
a)導電性の探針と、該探針の先端に試料を付着させるべく該探針又は試料の少なくとも一方を移動させる変位手段と、前記探針の先端に試料が付着された状態で該探針に高電圧を印加する高電圧発生手段と、を含み、前記探針に高電圧を印加したときのエレクトロスプレー現象を利用して該探針に付着している微量試料中の成分をイオン化するイオン化手段と、
b)該イオン化手段により生成されたイオンを質量分析してマススペクトルデータを取得する分析手段と、
c)複数の状態のいずれであるかが既知である試料に対して得られたマススペクトルデータに基づく統計的機械学習の手法を、未知試料に対して得られたマススペクトルデータに適用することにより、該未知試料が前記複数の状態のうちのいずれであるかを推定するとともにその確率を算出するデータ解析手段と、
を備え
、前記データ解析手段は統計的機械学習の手法としてdPLRM(=dual Penalized Logistic Regression Machine:双対罰金付きロジスティックモデルに基づく帰納的学習機械)を利用したものであることを特徴としている。
【0010】
本発明に係る質量分析装置において、上記イオン化手
段は、特許文献2等に開示された探針エレクトロスプレーイオン化法(PESI=Probe Electrospray Ionization)によるイオン源である
。
【0011】
PESI法によるイオン化手段では、変位手段により探針又は試料の少なくとも一方を移動させて、探針の先端を試料に接触させ又は僅かに刺入させ、探針先端に試料の一部を捕捉する。元の試料表面上で探針先端に捕捉される試料の範囲は探針先端の径(サイズ)に依存する。探針先端をごく細い形状としておけば、元の試料表面上でごく微小の範囲の試料が探針先端に捕捉されるだけであり、その量は非常に微量である。例えば試料が生体組織である場合、数個程度の細胞が探針先端に捕捉されるようにすることができる。その先端に試料が付着した探針に高電圧発生手段から高電圧が印加されると、探針先端の試料に強い電場が作用し、エレクトロスプレー現象により試料分子が離脱しながらイオン化する。
【0012】
一般に、エレクトロスプレー現象を利用したイオン化は他の手法、例えばレーザ光の照射によるイオン化法などに比べて、イオン化効率が高い。そのため、この構成によれば、微量な試料中の分子を効率良くイオン化することができる。また特にPESI法では、例えば被検者から採取したごく微量の生体組織に対し溶解や分散化等を含めた何らの前処理を行うことなく、そのままの状態でイオン化を行うことができる。さらに、探針が接触する試料上の位置を変えることにより、試料上の一次元的な又は二次元的な領域中の複数の部位に対するイオン化を順次実行することができる。それによって、一次元的な又は二次元的な領域の分布分析が可能である。
【0013】
なお、こうしたイオン化手段ではもともと微量の試料をイオン化するため、以前に測定した試料の残滓がごく僅かに探針に付着していても測定精度低下の要因となる。また、特に癌などの疾患の診断を行う際には、コンタミネーションによる誤診断は極力避ける必要がある。そこで、前記イオン化手段はさらに前記試料を保持する試料保持部を含み、該試料保持部及び前記探針はディスポーザブルである構成とするとよい。特に、測定実行毎に探針は必ず汚れるため、ディスポーザブルであることがより望ましい。
【0014】
また、PESI法によるイオン化手段のより好ましい構成としては、探針の先端付近に溶媒を供給する溶媒供給手段を備えるとよい。これにより、探針先端に捕捉された試料は溶媒に溶解し又は湿潤化するので、試料の乾燥を防止しながら脱離及びイオン化を促進することができる。
【0015】
本発明に係る質量分析装置において分析手段は、上記のように微量試料から生成された各種イオンを質量電荷比に応じて分離して検出し、質量電荷比と信号強度との関係を示すマススペクトルデータを取得する。ここで、イオンを質量電荷比に応じて分離する手法は特に限定されないが、好ましくは、四重極マスフィルタ用いた四重極型質量分離器が好ましい。四重極型質量分離器は飛行時間型質量分離器に比べると装置自体が安価であり、また小型でもある。質量分解能や質量精度の点では劣るものの、データ解析手段として後述するdPLRMなどのアルゴリズムを用いる場合には、得られたデータ全体を判定に使用するので、個々の、つまり質量電荷比一つ一つに対するデータの分解能や精度の低さは実質的に問題とならない。
【0016】
本発明に係る質量分析装置においてデータ解析手段は、未知試料、例えば被検者から採取された癌であるか否かの判定対象試料に対して上記イオン化手段及び分析手段により得られたマススペクトルデータに、統計的学習機械による判別手法を適用することによって、その試料が複数の状態のうちのいずれであるかをその確率に基づいて推定する。統計的学習機械ではクラスのラベル付けされた学習データが必要であるが、ここでは、複数の状態のいずれであるかが既知である試料に対して得られたマススペクトルデータを学習用データとする。このマススペクトルデータは、当該装置で収集されたものであっても別の同種の装置で収集されたものであってもよい。
【0017】
上記データ解析手
段は統計的機械学習手法
として、ベイズ推定のアルゴリズムの一つであるdPLRM=dual Penalized Logistic Regression Machine)を利用
している。dPLRMは、本願発明者の一人である田邊によって提案されたものであり(非特許文献1〜3参照)、ごく簡単にいえば「特殊なペナルティ項を伴う罰金付きロジスティックモデルに基づく帰納的学習機械」である。dPLRMの特徴は確率的診断を行うものであり、これに基づいて確定的診断を決定することができる。特許文献3、非特許文献4、5などに開示されているように、dPLRMは従来、音声データを対象とした話者認識、音声認識などに利用され、高い識別性能を有することが確認されているアルゴリズムである。
【0018】
例えば癌であるか否かの判定では、クラスは「癌である」、「癌でない」の二つのみであるから、多数の癌である試料から得られた実測のマススペクトルデータと、多数の癌でない試料から得られた実測のマススペクトルデータとを学習データとし、二つのクラスの予測確率を確率ベクトルを用いた二項(一般には多項)モデルとして求める。この多項分布モデルのパラメータを最尤法により推定するが、学習データの数が有限であることに起因する過学習を回避するために所定の罰金関数を導入した罰金付き尤度関数を用いる。さらに罰金付き尤度関数を最大化するパラメータを求める問題を双対罰金付き尤度関数を最小化する問題に帰着させ、反復法によりパラメータの最適解を計算する。パラメータの最適解が求まれば、未知試料に対するマススペクトルデータについて任意のクラスに属する診断確率の計算が行える。即ち、例えば未知試料が癌であるクラスに属する診断確率が求まる。
【0019】
同様の判定はdPLRMではなく、ニューラルネットワーク、SVM、PLRMなどを用いても可能であるが、dPLRMは学習データの境界が截然と分かれていなくても高い識別能力を示すという特徴がある。特に、マススペクトル上の特定ピークの有無や信号強度の差異などを判定に利用するのではなく、クラス毎の(例えば癌の有無による)マススペクトル全体の特徴の差異に基づいて判定を行っているので、質量分解能や質量精度がそれほど高くなくても識別性能には殆ど影響しない。したがって、dPLRMによるデータ解析は四重極型質量分離器を用いた分析手段に適したデータ解析手法であるということができる。
【0020】
一方、マススペクトルの検出感度が低かったり信号のS/Nが悪かったりすると、クラス毎の特徴が充分に抽出されないために識別性能の低下の一因となる。これに対し、本発明に係る質量分析装置に用いられているイオン化手段では、試料が微量であっても多くのイオンを質量分析に供することができるので、他のイオン化法による手段に比べれば高感度、高S/Nのマススペクトルを得ることができるから、PESI等によるイオン化手段は、dPLRMによるデータ解析に適したイオン化手法であるということができる。
【0021】
逆に、エレクトロスプレー現象を利用したイオン化法では多価イオンが比較的発生し易く、多価イオンは価数が不明である(マススペクトル上では識別できない)ために物質同定を困難にする原因の一つである。これに対し、dPLRMによるデータ解析はマススペクトル全体の特徴を捉えて判定を行うので、再現性さえ良好であれば多価イオンの発生は確率予測の支障とならない。したがって、dPLRMによるデータ解析はPESI等のイオン化手法にも適したデータ解析手法であるということができる。
【0022】
本発明に係る質量分析装置では、上述したデータ解析により試料に対する状態の推定結果とその確率とが得られたならば、それを併せて表示する表示手段をさらに備える構成とするとよい。これにより、解析担当者は例えば試料がどのクラスに属するのかを確率値という定量値で以て知ることができる。
【0023】
本発明における各手段についての上述した特徴から、本発明に係る質量分析装置は特にヒトや動物(例えばペット、家畜、実験動物など)の疾患を診断するのに有効である。つまり、上記データ解析手段により推定される試料の状態の一つはヒト又は動物の疾患であるものとすることができる。
【0024】
さらに本発明の一実施態様である癌診断装置は、本発明に係る質量分析装置を用い、特に各手段として適切な手法を選択したものである。即ち、該実施態様による癌診断装置は、被検者から採取した生体試料について癌の診断を行う癌診断装置であって
、
前記分析手段は質量分離器として四重極マスフィルタを用いたものであり、
前記データ解析手段は、癌であるか否かが既知である試料に対して得られたマススペクトルデータに基づくdPLRMを未知試料に対して得られたマススペクトルデータに適用することにより、該未知試料が癌である確率を算出することを特徴としている。
【発明の効果】
【0025】
本発明に係る質量分析装置によれば、次のような効果を奏する。
(1)本発明に係る質量分析装置によれば、高い信頼性を以て、試料が既知の複数の状態のいずれであるのかをその確率とともに知らせることができる。特に癌の判定を行う場合に、従来の腫瘍マーカーとは異なり癌の種類(部位)による識別性能の大きな差異がなく、様々な癌について高い確度で癌であるか否かを判定することができる。
(2)本発明に係る質量分析装置によれば、煩雑な試料の前処理などを行うことがなく、例えば生体から採取した試料をそのまま分析に供して癌などの異常判定を簡便に行うことができる。また、試料に対する分析自体はごく短時間で終了する上、データ解析に要する時間も短くて済むので、判別結果を迅速に得ることができる。したがって、例えば本発明に係る質量分析装置を手術室や内視鏡検査室などに持ち込み、被検者から採取した生体組織をその場で判定することができる。それにより、被検者に対して負担を掛けずに、より適切な処置を迅速に行うことができる。
【0026】
(3)従来、比較的低侵襲とされている針生検では検体量が少なすぎて的確な病理診断が行えないといった事例がよくあるが、本発明に係る質量分析装置では、実質的に数個程度の細胞の検体から得られる信号強度に基づいて的確な判定が行える。そのため、生体に対する侵襲性が低く、被検者の身体的負担を軽減することができる。
(4)本発明に係る質量分析装置によれば、特に分析手段として四重極型質量分離器を用いることにより、装置自体のコストを抑えることができる。また、煩雑で手間の掛かる試料の前処理が不要であるので、1回の測定毎のコストも抑えることができる。それにより、ユーザにとっては装置の導入が容易になるとともに、例えば癌の手術や大掛かりな検査の際のみならず、健康診断などにおける簡易的な癌の検査などにも導入が容易となる。
【発明を実施するための形態】
【0028】
本発明に係る質量分析装置を用いた癌診断装置の一実施例について、添付図面を参照して説明する。
図1は本実施例の癌診断装置の概略構成図である。
【0029】
本実施例の癌診断装置は、大気圧の下で試料中の成分のイオン化を行うイオン化室1と高真空度の下でイオンの質量分離及び検出を行う分析室4との間に、段階的に真空度が高められた複数(この例では二つ)の中間真空室2、3を備えた差動排気系の構成となっている。なお、
図1では記載を省略しているが、一般に、第1中間真空室2内はロータリーポンプにより真空排気され、第2中間真空室3及び分析室4内はロータリーポンプに加えターボ分子ポンプにより真空排気される。
【0030】
略大気圧に維持されるイオン化室1内には、試料9を保持する試料ステージ8と、試料ステージ8上の空間に配置された導電性の探針10と、所定位置にある探針10の先端付近に溶媒を噴射するノズル7と、が配置されている。探針10は、モータや減速機構或いはアクチュエータなどを含むZ方向駆動部12により、図中のZ軸方向に移動可能となっている。また、高電圧発生部11から探針10には、最大で数kV程度の高電圧を印加できるようになっている。一方、試料ステージ8は、モータや減速機構などを含むX−Y方向駆動部13により、図中のX軸方向及びY軸方向に移動可能となっている。それによって、探針10が降下したときに、該探針10の先端が接触する試料9表面上の位置がX−Y平面内で任意に移動可能となっている。溶媒容器5中には、水、アルコール類、アセトニトリルなど所定の溶媒が貯留され、送液ポンプ6が作動すると該ポンプ6により略一定流量で溶媒容器5中から吸引された溶媒が、ノズル7から微細液滴として噴出するようになっている。
【0031】
イオン化室1内と第1中間真空室2内とは細径の脱溶媒管14を通して連通しており、脱溶媒管14の両端開口の圧力差によって、イオン化室1内のガスは脱溶媒管14を通して第1中間真空室2内へと引き込まれる。第1中間真空室2内には、イオン光軸Cに沿って配列された複数枚の円板状の電極板を一つの仮想的ロッド電極とし、イオン光軸Cの周りに四つの仮想的ロッド電極を配置したQアレイと呼ばれる第1イオンガイド15が設置されている。第1中間真空室2内と第2中間真空室3内とはスキマー16の頂部に形成された小径のオリフィスを通して連通している。第2中間真空室3内には、イオン光軸Cの周りに8本のロッド電極を配置したオクタポール型の第2イオンガイド17が設置されている。最後段の分析室4内には、イオン光軸Cの周りに4本のロッド電極を配置した四重極マスフィルタ18と、到達したイオンの数(量)に応じた信号を出力するイオン検出器19とが配置されている。第1イオンガイド15、第2イオンガイド17、四重極マスフィルタ18、さらには信号線の記載を省略しているものの、脱溶媒管14やイオン検出器19などの各部には、電圧発生部20よりそれぞれ所定の電圧が印加される。
【0032】
分析制御部40は試料9に対する質量分析を実行するために、高電圧発生部11、Z方向駆動部12、X-Y方向駆動部13、電圧発生部20などをそれぞれ制御する。また、イオン検出器19による検出信号はデータ処理部30に入力され、ここでデジタルデータに変換されたあとに所定のデータ処理が実行される。データ処理部30は、A/D変換器、データ記憶装置を含むマススペクトルデータ収集部31と、データ解析部32と、データ解析部32による解析の際に用いられる癌判定用データベース33と、を機能ブロックとして含む。中央制御部41には入力部42や表示部43が接続されており、これらを通したユーザインターフェースを担うとともに、分析制御部40よりも上位のシステム制御を担う。なお、一般に、分析制御部40、中央制御部41、データ処理部30は、パーソナルコンピュータをハードウエア資源とし、パーソナルコンピュータに予めインストールされた専用の制御・処理ソフトウエアをコンピュータ上で動作させることで、それぞれの機能を実現させるようにすることができる。
【0033】
まず、本実施例の癌診断装置において、目的とする試料9に対するマススペクトルデータを取得する際の質量分析動作について説明する。ここで分析対象とする試料9は、被検者から採取された、癌であることが疑われる生体組織の一部である。
【0034】
図1に示すように、試料9が試料ステージ8上に載置された状態で、分析制御部40の制御の下にZ方向駆動部12は探針10を、その先端が試料9の上面に僅かに接触する位置(
図1中の点線の位置)まで降下させ、次いで探針10を所定位置(
図1中の実線の位置)まで上昇させる。これにより、探針10の先端には試料9のごく一部が付着する。説明の都合上、試料ステージ8上の試料を符号9、探針10に付着した試料を符号9aで記す。X-Y方向駆動部13により試料ステージ8を適宜移動させることで、試料9の面上で探針10により試料9aが捕捉される部位を任意に変更することができる。
【0035】
そのあと、高電圧発生部11は探針10に所定の高電圧を印加し、一方、送液ポンプ6の動作によりノズル7から微細化された溶媒液滴を探針10先端に向けて噴射させる。なお、探針10に印加される高電圧の極性は生成したいイオンの極性に依存する。探針10先端に高電圧が印加されると、捕捉されている試料9a中に大きな電場が作用し、クーロン斥力等により試料9aは片寄った電荷を有しながら脱離する(つまりはエレクトロスプレーされる)。その過程で、試料分子がイオン化される。発生したイオンは、上述したように圧力差によって生じているガスの流れに乗って脱溶媒管14中に吸い込まれ、第1中間真空室2内に送られる。
【0036】
こうしたイオン化に際してノズル7からの溶媒の噴霧は必須ではないものの、溶媒の供給にはいくつかの利点がある。即ち、探針10に捕捉された試料9aは乾燥し易いが、溶媒の供給によって探針10の表面で試料9aを溶解させつつ又は適度な湿り気を保持させつつ良好にイオン化することができる。また、溶媒の供給によってエレクトロスプレーを緩慢に行うようにすることができるので、試料9aに複数の成分が含まれる場合でも、イオン化し易い成分のイオン化を遅らせながら複数の成分を漏れなくイオン化することができる。
【0037】
なお、ここで用いているイオン化法は探針エレクトロスプレーイオン化法(PESI=Probe Electrospray Ionization)と呼ばれる方法であり、詳しくは特許文献1などに記載されている。
【0038】
第1中間真空室2に送り込まれた試料9a由来のイオンは第1イオンガイド15により形成される高周波電場で収束されつつ輸送され、スキマー16頂部のオリフィスを経て第2中間真空室3へ送られる。さらに、イオンは第2イオンガイド17により形成される高周波電場で収束されつつ分析室4へと送られる。四重極マスフィルタ18には電圧発生部20から直流電圧に高周波電圧を重畳した電圧が印加され、その電圧に応じた質量電荷比m/zを有するイオンのみが四重極マスフィルタ18の長軸方向の空間を通り抜け、それ以外の質量電荷比のイオンは途中で発散する。電圧発生部20から四重極マスフィルタ18に印加される電圧は所定の範囲で走査され、その走査に伴い四重極マスフィルタ18を通過し得るイオンの質量電荷比は所定範囲で走査される。したがって、1回の電圧走査の間にイオン検出器19に到達するイオンの強度を時間経過に伴って測定することで、所定の質量範囲のイオン強度情報、つまりはマススペクトル情報を得ることができる。
【0039】
マススペクトルデータ収集部31は上記のようなマススペクトルデータを収集し、これをデータ記憶装置に格納する。なお、同じ質量範囲を複数回走査し、各走査でそれぞれ得られたデータを質量電荷比毎に積算してマススペクトルデータとしてもよい。
以上のようにして、試料9上のごく微小な特定部位のマススペクトルデータを得ることができる。同じ試料9において異なる部位のマススペクトルデータを得たい場合には、X-Y方向駆動部13により試料ステージ8を適宜移動させつつ、Z方向駆動部12により探針10を降下させて試料9に接触させ、探針10先端に試料9の一部を捕捉して再度質量分析を行えばよい。ただし、試料9上の異なる部位から捕捉された試料9aのコンタミネーションを避けるためには、1回の測定毎に探針10の先端を洗浄して測定済みの試料9aを除去する作業を加えることが望ましい。或いは、さらに好ましくは、探針10を着脱容易な構造としておき、探針10をディスポーザブルとして1回の測定毎に交換するとよい。また、試料ステージ8上にディスポーザブルの試料載置シート等を載せて、該シート上に試料9が載置されるようにするとよい。
【0040】
現在の精密加工技術によれば、探針10の先端径はμmオーダー或いはさらに小さいnmオーダーとすることができる。また、上記説明から明らかなように、PESIでは探針10の先端に捕捉された試料9aからのみイオンを得ることができる。これは、例えばレーザ光照射を利用したMALDIやLDIにおいてレーザ光を照射した範囲のみならずレーザ光照射範囲の外側で加熱された部分からもイオンが発生してしまうことと対照的である。こうしたことから、本実施例の癌診断装置では、試料9に接触する探針10先端の径とほぼ同程度のごく微小な範囲の試料に対するマススペクトルデータを得ることができる。ヒトの一般的な細胞の大きさは10μm程度であり、癌細胞の大きさも同程度である。本実施例の癌診断装置において試料9から探針10に捕捉される試料の大きさは同程度又はそれよりも小さいため、試料9である生体組織に癌細胞が存在する場合に癌細胞と正常細胞とが多数混在する状態の試料9aに対するマススペクトルデータではなく、癌細胞のみを含む試料9aに対するマススペクトルデータを得ることができる。つまりは、マススペクトルデータに、癌である又は癌でないという特徴が明確に現れるようにすることができる。
【0041】
データ処理部30においてデータ解析部32は、上述したように試料9aに対して取得されたマススペクトルデータを用い、ベイズ推定に基づく統計的機械学習手法によるデータ解析を実行することにより、分析された試料9aが癌であるか否かを判定し、癌である確率値を算出する。統計的機械学習を具現化するアルゴリズムとしては種々のものが知られているが、本実施例の癌診断装置では、本願発明者の一人である田邉が非特許文献1〜3、5などにおいて提案したdPLRMのアルゴリズムを採用している。特許文献3、非特許文献4、5などに開示されているように、dPLRMは短時間での判定が要求される音声認識、話者認識などに実績がある手法であり、クラス毎にラベル付けされた学習用データのみに基づいて、この学習用データ以外の未知のデータがいずれのクラスに属するのかを推定し、その確率を定量的に求めることができる。
【0042】
本実施例の癌診断装置では、測定対象である試料9aが癌である確率値を求めたいので、最も単純化された複数のクラスは、癌
であるクラスと、癌でない(非癌の)クラスと、の二つである。また、例えば同じ組織の癌でも異なる型が存在する場合に、癌であるクラスを、型に応じた複数のクラスに分けることが可能である。例えば、腎細胞癌は、淡明細胞型、顆粒細胞型などの型に分類できることが知られており、それら型をそれぞれ別のクラスとすることができる。
【0043】
クラス毎にラベル付けされた学習用データを与えるために、例えば病理診断等によって癌であることが判明している多数の生体組織と癌でないことが判明している多数の生体組織とを本装置(又は同種の他の装置)でそれぞれ質量分析することで、マススペクトルデータを収集する。これにより、例えば「癌である」クラスのラベル付けがされた多数のマススペクトルデータと、「癌でない」クラスのラベル付けがされた多数のマススペクトルデータとが得られるから、これらマススペクトルデータから求まるベクトルデータをクラス毎に分けて(ラベル付けして)癌判定用データベース33に格納しておくこととする。
【0044】
細胞が癌化すると特異的な物質(分子)が顕著に増加することが知られている。例えば、腎細胞癌では中性脂肪の一種であるトリアシルグリセロール(Triacylglycerol)などが増加することが確認されている。しかしながら、細胞中には多数の成分が含まれるため、マススペクトル上でそうした特異的な分子を特定した上でその信号強度が増加しているか否かを調べるのは必ずしも容易ではない。ただし、癌であるか否かを判定するのであれば、癌であることで顕著に信号強度が増加している成分(分子)自体を特定する必要はなく、マススペクトル全体としてそのスペクトルパターンが「癌である」クラスのマススペクトルと「癌でない」クラスのマススペクトルとのいずれに該当するかを識別すればよい。そこで、本実施例の癌診断装置におけるデータ処理部30では、そうしたマススペクトルの特徴を捉えた識別性能に優れ、しかもその予測確率を定量化可能なdPLRMを利用している。
【0045】
図2は、dPLRMを利用した癌判定解析処理が実施されるデータ解析部32を中心とする機能ブロック図の一例である。既述のように、dPLRMによる基本的な処理は特許文献3、非特許文献1〜5などに開示されたものと同様であるが、音声認識などと比べて癌判定や後述する真贋判定などではクラス数が少なく、また音声認識の場合におけるメルケプストラム係数時系列などの特徴ベクトル時系列の抽出等の処理を行うことなくマススペクトルデータを直接的に入力して処理に供することができるという意味において、より単純であるということができる。
【0046】
図2において、データ解析部32は、マススペクトルデータ収集部31より、学習用マススペクトルデータ310、及び診断対象マススペクトルデータ311を読み込む読み込み部320と、読み込まれた学習用マススペクトルデータ310及び診断対象マススペクトルデータ311をベクトル化するベクトル化処理部321と、ベクトル化処理部321で得られたベクトルに基づいて尤度関数群を計算する確率・尤度計算部326と、ベクトル化処理部321で得られたベクトル(特に学習用マススペクトルデータ310に基づくベクトル)について癌判定用データベース33に既に蓄積されているクラス毎のベクトルデータと確率・尤度計算部326で計算された尤度関数群とを回帰関数kに取り込んでdPLRMのパラメータを学習するスペクトル学習部324と、この尤度関数群を回帰関数kに取り込んで、dPLRMのパラメータを最適化法によりdPLRM罰金付き尤度を最大化することにより学習する罰金付きロジスティック回帰モデル尤度最適化部325と、スペクトル学習部324で最適化されたパラメータを用いて計算された尤度関数群を用いて、ベクトル化処理部321で得られたベクトル(診断対象マススペクトルデータ311に基づくベクトル)が用意されたクラスに入る可能性を計算するスペクトル診断部328と、スペクトル診断部328で求まった確率値に基づいて、この診断対象スペクトルデータ311が該当するクラスとその確率とを決定する確率・決定診断部329と、を備え、この確率・決定診断部329による結果が表示部43に表示される。
【0047】
まず学習時には、癌判定用データベース33に格納されているクラスラベル付きのマススペクトルデータが用いられる。即ち、既知の学習用マススペクトルデータ310が読み込み部320によりデータ解析部32に読み込まれ、処理のためにベクトル化処理部321においてベクトル化される。一般的に、dPLRMでは、有限個数の学習用データセットを{(x
j,c
j)}
j=1,…,Nとする。ここでx
jはn次元の実データ(ベクトル)、c
jはクラスを表すラベルである。いまクラスが二つのみであればc
jは1又は2であり、マススペクトルデータx
jは質量電荷比に対する信号強度を示すn次元データである。
【0048】
上記のようなデータに対し、dPLRM学習部323及び確率・尤度計算部326では以下のような処理が行われる。
ここではクラスの数がKである一般の場合について述べる。x
jをデータを表すn次元の列ベクトルとし、c
jをクラスjを表すラベル(∈{1,2, …,K})とする。dPLRM学習部323は、有限個の学習データセット{(x
j,c
j)}
j=1,…,Nを入力として、ラベル未知のデータx∈R
nがどのクラスに属するかの確率予測方式を、所与のxに対する条件付き多項分布M(p
*(x))の形式で出力する。ここでp
*(x)は予測(診断)確率ベクトルで、その第k要素はデータxがkのクラスに属する確率を示す(なお「*」は最適なものを表す)。数式処理の便宜上、クラスデータc
jを、第j要素が1のK次元の単位ベクトルe
k≡(0, …,1,…,0)
tを用いてコード化することにより、K×Nの定数行列Yを次の(1)式のように定義する。
Y≡[y
1;…;y
N]≡[e
c1;…;e
cN] …(1)
ここで第j列ベクトルy
j≡e
cjはx
jのクラスを表す。
【0049】
いま、次のR
NからR
Kへの写像を導入する。
F(x)≡Vk(x) …(2)
ここでVはK×Nのパラメータ行列で、学習データセットから推定する。k(x)は次のR
nからR
Nへの写像である。
k(x)≡(K(x
1,x),…,K(x
N,x))
t …(3)
ここでK(x,x')は任意の正定値カーネル関数を表す。予測(診断)確率p(x)を次の多項分布モデルで定義する。
p(x)≡(p
1(F(x)),…,p
K(F(x)))
t …(4)
ここでp
k(F(x))≡{exp(F
k(x))}/{Σexp F
i(x)}はロジスティック変換である(ただし、ここでΣはi=1からKまでの総和)。
【0050】
上記モデルを仮定した場合、パラメータVの負の対数尤度関数L(V)は次の(5)式の凸関数で与えられる(ただし、ここではΣはj=1からNまでの総和である)。
L(V)≡−Σlog(p
cj(x
j))=−Σlog(p
cj(Vk(x
j))) …(5)
この目的関数L(V)は識別的な性質を持ち、カーネル関数K(x,x')を適切に選べばF(x)は多様な関数を表せるので、予測(診断)確率p(x)は複雑な判別境界を持つ問題にも柔軟に対応できる。最適パラメータVの値の決定は、一般の統計モデルにおいては、L(V)を最小化する最尤推定量Vを用いるが、本公式においては次項に述べる方法を用いる。
【0051】
学習データの数は有限であるので、最尤推定量Vを用いると過学習の問題が生じる。それを避けるためにペナルティ項を導入し、次の(6)式のペナルティ付きの負の対数尤度関数PL(V)を定義する。
PL(V)≡L(V)+(δ/2)‖Γ
1/2V(K
#)
1/2‖
F2 …(6)
ここで‖…‖
Fはフロベニウスノルムである。このペナルティ項により、過学習を防ぐVの実効的自由度を調整することができる。Γは適切に選んだK×Kの正定値行列である。K
#はN×N定数行列で次の(7)式で与えられる。
K
#=[K(x
i,x
j)]
i,j=1,…,N …(7)
δは非負の値をとるハイパーパラメータで、例えば経験ベイズ法又はクロスバリデーション法、或いは視察によって決定することができる。
【0052】
予測(診断)のための最適パラメータVの値は、PL(V)を最小化するV=V
*を用いる。最適予測(診断)確率p
*(x)は、
p
*(x)≡p(F
*(x))≡p(V
*k(x)) …(8)
と決定される。
【0053】
最適パラメータの値V
*は次の行列(9)の方程式の解として与えられる。
▽PL≡(P(V)−Y+δΓV)K
#=O
K,N …(9)
ここでP(V)は、第j列ベクトルが確率ベクトルp(x
j)≡p(Vk(x
j))のK×N行列である。行列Yは(1)式で与えられる。予測(診断)確率を与えるV
*は、次のアルゴリズムにより繰り返し計算で求める。
【0054】
[アルゴリズム]:初期値をV
0(K×N行列)とする。{V
i}は次の(10)、(11)式又は(10)、(13)式に従って計算する。
V
i+1=V
i−αiΔV
i, i=0,…,∞ …(10)
ここでΔV
iは次の行列の線形方程式(11)又は(12)の解である。
Σ([p(x
j)]−p(x
j)(p(x
j))
t)ΔV
ik(x
j)(k(x
j))
t+δΓV
iK
#={(P(V
i))−Y+δΓV
i)}K
# …(11)
Σ([p(x
j)]−p(x
j)(p(x
j))
t)ΔV
ik(x
j)(e
j)
t+δΓV
i=(P(V
i))−Y+δΓV
i) …(12)
なお、上記アルゴリズムは非特許文献1〜3に詳細に記載されている。ここで、Δv
iは狭義凸関数PL(V)の制約なしの最小化問題を解くことが、(9)式の簡単な行列の非線形方程式を解くことと同義になることに注目する。
【0055】
予測(診断)確率p(x)≡P(V
*k(x))を与えるパラメータV
*は非特許文献1〜3、5などに記載されているように、前述した繰り返しアルゴリズムにより算出可能である。そして、パラメータV
*が収束したと判断した時点で、dPLRM学習部323における学習を終了する。
【0056】
被検者から採取された未知の試料9aに対するマススペクトルデータに基づいて該試料についての癌判定を行うときには、データ解析部32において読み込み部320は実測マススペクトルデータを読み込み、ベクトル化処理部321はデータをベクトル化する。該そうして得られたベクトルデータをdPLRM診断部327に入力させ、スペクトル診断部328及び確率・決定診断部329において該データセットが「癌である」又は「癌でない」クラスのいずれに属するかをその確率を算出しつつ判定する。そして判定結果が得られたならば、中央制御部41を通してその結果を
図3に示すような形式で表示部43の画面上に表示する。即ち、癌であるか確率(又は癌でない確率)が定量的に且つグラフィカルに表示されるので、解析担当者は判定結果を直感的に把握することができる。
【0057】
次に、本実施例の癌診断装置による癌判定実験について説明する。本願発明者らは、腎細胞癌の学習データを386セット、肝細胞癌の学習データを150セット用意して学習させた上で、それらとは別の検体から得られたデータを用いた癌判定を実施した。その結果を表1に示す。
【表1】
全て病理診断の結果と一致するという高い正答率が得られた。
【0058】
上記実施例では、イオン化法としてPESIを用い、質量分離器には四重極マスフィルタを用い、データ解析アルゴリズムにはdPLRMを用いていたが、それらは適宜置き換えることができる。
【0059】
例えば質量分離器には、四重極マスフィルタではなく、飛行時間型質量分離器などを用いてもよい。よく知られているように、飛行時間型質量分離器は四重極マスフィルタに比べて高い質量分解能を達成できる。データ解析アルゴリズムにdPLRMを用いた場合にはマススペクトルの質量分解能があまり良好でなくても高い判定精度が得られるため、質量分解能の高さはそれほど重要ではないものの、マススペクトルの質量分解能や質量精度が高ければそれだけ判定精度の向上には有利である。また、後述するように、dPLRMよりも判定精度の劣る又は劣る可能性があるデータ解析アルゴリズムを用いる場合には、マススペクトルの質量分解能の高さはより一層重要になる。
【0062】
また上記説明では、本発明に係る質量分析装置を癌診断装置に利用していたが、本発明に係る質量分析装置は、試料が複数の状態のいずれかである場合にどの状態であるのかを判定するために利用することができる
。例えば農産物、海産物、畜産物などの産品が特定の産地由来のものであるか否かの検査、或いは、高価な産品が安価な類似品(偽物)でないかどうかの検査に利用可能である。また、医薬品や紙幣などの工業製品についての真贋判定にも利用可能である。
【0063】
上記実施例では、dPLRMを実行する際の判断基準として癌判定用データベース33を用いていたが、このデータベースの内容を判断する試料やその判定内容に応じて適宜に変更しさえすれば、基本的には、それ以外のデータ処理の演算処理内容(具体的には処理のソフトウエア)を全く或いは殆ど変更することなく、上記のような各種の診断や検査、判定を行うようにすることができる。こうした点で、上述した本実施例の質量分析装置はきわめて高い汎用性を有する。
【0064】
また、上記実施例は本発明の一例であり、上記記載以外の点について本発明の趣旨の範囲で適宜変形、修正、追加を行っても本願特許請求の範囲に包含されることは明らかである。