【課題を解決するための手段】
【0017】
一般に、クロマトグラムやスペクトルにおいて、純粋である(つまり他の成分の重なりのない)或る一つの成分に由来して現れるピークの形状は、ガウス関数で以て近似的に表すことができる。したがって、通常、クロマトグラム、スペクトルのいずれにおいても、複数の成分由来のピークが重なっているピークの形状は、複数のガウス関数を線形結合した混合ガウス分布(GMM=Gaussian Mixture Model)であるとみなすことができる。
【0018】
或る信号波形が与えられたとき、尤もらしい混合ガウス分布を導出する手法として、混合ガウス分布の期待値最大化(EM:Expectation Maximization、以下、慣用に従って「EM」と称す)アルゴリズムがよく知られている。
EMアルゴリズムは反復法の一種であり、尤度関数の条件付き確率に関する期待値を計算する期待値(E)ステップと、期待値を最大化する解を求める最大化(M)ステップと、の二つのステップを繰り返すことで最尤推定解を求める手法であり、非特許文献1、2など各種文献に詳細に記載されている。混合ガウス分布のEMアルゴリズムでは、通常、最適なモデル数が予め計算条件の一つとして与えられる。それに対し、ここで問題としているピーク分離処理の場合、3次元クロマトグラムデータのうちの一方の2次元方向はクロマトグラム情報であり別の2次元方向はスペクトル情報であってそれらは全く別の種類の情報であるといったデータ形式上の特徴に加え、混合ガウス分布のモデル数、つまり重なっているピークの数自体が不明であるという特徴があり、一般的な混合ガウス分布のEMアルゴリズムをそのまま適用することはできない。
【0019】
そこで本発明者は、ここで取り扱うデータの特徴や目的に対応するように混合ガウス分布のEMアルゴリズムを改良・変形し、クロマトグラム上で時間的に重なっている複数の成分由来のそれぞれの純粋なクロマトグラムを高い確度で推定し、ピークを良好に分離できるようにした。
【0020】
即ち、上記課題を解決するために成された本発明は、測定対象である試料に対して収集された、時間、信号強度、及び第3のディメンジョンを有する3次元クロマトグラムデータを処理するクロマトグラムデータ処理方法であり、例えば混合ガウス分布のEM(期待値最大化)アルゴリズムのように、ピークモデル関数の当てはめを2段階のステップに分けて行うことにより、時間と信号強度とをそれぞれ軸とするクロマトグラム上で重なっている、前記試料に含まれる複数の成分に由来するピークを分離するクロマトグラムデータ処理方法において、
a)時間と信号強度とをそれぞれ軸とするクロマトグラムの波形形状及び第3のディメンジョンと信号強度とをそれぞれ軸とするスペクトルの波形形状についての、予め与えられた推定結果又は後記当てはめ実行ステップによる推定結果のいずれかである波形形状モデルに基づいて、与えられた3次元クロマトグラムデータを1又は複数の成分に分配し、成分毎の3次元クロマトグラムデータを求めるデータ分配ステップと、
b)前記データ分配ステップにより得られた成分毎の3次元クロマトグラムデータから求まるクロマトグラム及びスペクトルに対し、クロマトグラム波形形状及びスペクトル波形形状の当てはめをそれぞれ行うことで、各成分に対応する波形形状モデルのパラメータを修正する当てはめ実行ステップであって、クロマトグラム波形形状が正しいとの仮定の下にスペクトル波形を最小二乗法により求める第1ステップと、スペクトル波形形状が正しいとの仮定の下にクロマトグラム波形を最小二乗法により求める第2ステップとを繰り返し実行することで当てはめの尤もらしさを高める当てはめ実行ステップと、
c)前記データ分配ステップ及び前記当てはめ実行ステップを規定回数だけ又は解が収束したとみなせるまで繰り返し実行したあと、その時点で得られる各成分に対応するスペクトルと直交するスペクトル成分を抽出する又は強調するように、与えられた3次元クロマトグラムデータをフィルタリング処理し、そのフィルタリング後のデータに現れるピーク状波形の高さに基づいて、さらに別の成分が前記試料に含まれているか否かを判定する含有成分判定ステップと、
を有することを特徴としている。
即ち、本発明に係るクロマトグラムデータ処理方法において、データ分配ステップはEMアルゴリズムにおけるE(期待値)ステップに相当し、当てはめ実行ステップはEMアルゴリズムにおけるM(最大化)ステップに相当する。
【0021】
クロマトグラフのカラムにより時間方向に分離された各種成分を含む試料に対し、PDA検出器などの検出器により吸光スペクトルや蛍光スペクトルなどを繰り返し取得することで3次元クロマトグラムデータを収集する場合には、上記「第3のディメンジョン」とは波長である。
【0022】
クロマトグラフのカラムにより時間方向に分離された各種成分を含む試料に対し、質量分析計によりマススペクトルを繰り返し取得することで3次元クロマトグラムデータを収集する場合には、上記「第3のディメンジョン」とは質量電荷比m/zである。
【0023】
さらにまた、包括的2次元クロマトグラフにより3次元クロマトグラムデータを収集する場合には、上記「第3のディメンジョン」とは時間(保持時間)である。この場合、三つのディメンジョンのうち二つが時間であり、その一方の時間は時間刻みが大きい第1の保持時間であり、他方の時間は第1の保持時間の一つの時間刻みの中の細かい時間刻みを表す第2の保持時間である。
【0024】
また、ここでいう「3次元クロマトグラムデータ」は、クロマトグラフのカラムを経て成分分離された試料の代わりに、フローインジェクション分析(FIA=Flow Injection Analysis)法によって、成分分離されることなく導入された試料に対してPDA検出器などのマルチチャンネル型検出器や質量分析計により得られたデータであってもよい。即ち、単一成分のみが含まれている場合に、時間経過に伴ってガウス関数として近似可能である山形状に成分濃度が変化するデータでありさえすれば、本発明に係るクロマトグラムデータ処理方法及び装置において処理対象とすることができる。
【0025】
本発明に係るクロマトグラムデータ処理方法では、当てはめ実行ステップにおけるピークモデルの推定とデータ分配ステップにおけるピークモデルの混合比の推定とを繰り返し行うことで、入力された3次元クロマトグラムデータに基づいてクロマトグラムピーク形状とスペクトル形状とを共に推定し、その推定結果に基づいてピーク分離を行う。その際に、当てはめ実行ステップにおいて、クロマトグラム波形の推定とスペクトル波形の推定とを交互に繰り返すことで、それぞれの波形形状の精度を向上させることができる。それによって、テーリングを含むショルダーピークも適切にピーク分離することができる。
【0026】
当てはめ実行ステップとデータ分配ステップとの適宜の繰り返しによって、そのときのピークモデルの仮定の下でのピークモデルの混合比が決まると、含有成分判定ステップにおいて、与えられた3次元クロマトグラムデータに対する残渣が得られる。もし、ピークモデル波形の仮定が適切であって入力データの分配も適切であれば、残渣はほぼ一定になる筈である。これに対し、残渣にピーク状波形が観測される場合には、ピークモデル波形の仮定が適切でないと推定され、それはそのときのモデル数の仮定が適切でない可能性が高いとみなせるから、さらに別の成分が含まれていると推断する。そして、ピークモデル数を増やした条件の下で、再び、当てはめ実行ステップにおけるピークモデルの推定とデータ分配ステップにおけるピークモデルの混合比の推定とを繰り返し行う。
【0027】
こうして残渣に基づく判断に応じてピークモデル数を増加させつつEMアルゴリズムを実行することで、ピーク分離についての解を最適解に近づけることができる。その結果、重なっている成分の数が不明であっても、また3以上の多数の成分が重なっている場合でも、適切なピーク分離を行うことが可能となる。
【0028】
また本発明に係るクロマトグラムデータ処理方法において、好ましくは、上記含有成分判定ステップは、別の成分が前記試料に含まれていると判定されたとき、前記フィルタリング後のデータに現れるピーク状波形を、追加すべき該別の成分のクロマトグラム波形形状の初期値として前記データ分配ステップによる処理に供するようにするとよい。
【0029】
これにより、ピークモデル数を増加させて再びEMアルゴリズムを実行するときに、該アルゴリズムをより適切な初期状態から開始することができる。その結果、解の収束性が向上し、より少ない繰り返し回数で以て適切なピーク分離が行える。
【0030】
また、本発明に係るクロマトグラムデータ処理方法において、
上記データ分配ステップでは、上記推定結果である各クロマトグラム波形及び各スペクトル波形に基づいて計算される信号強度の理論値を与えられた3次元クロマトグラムデータから差し引いて求めた残渣信号を各測定点の理論値の強度比に応じて分配する比例分配と、該残渣信号を各成分に等しく分配する均等分配とを、ピーク分離処理のためのステップの繰り返し回数又は解の収束度合いに応じて切り替えるようにするとよい。
具体的には、EMアルゴリズムの繰り返し回数が少ないときには均等分配を用い、繰り返し回数が或る程度大きくなったならば比例分配を用いるとよい。
【0031】
また、本発明に係るクロマトグラムデータ処理方法において、
上記データ分配ステップでは、上記推定結果である各クロマトグラム波形及び各スペクトル波形に基づいて計算される信号強度の理論値を与えられた3次元クロマトグラムデータから差し引いて求めた残渣信号を、各成分に対するスペクトルの線形和による最小二乗近似に応じて分配するようにしてもよい。
なお、最小二乗近似を行う際に、各成分のスペクトルに対して与えられる重みを、残渣信号の大きさ若しくは各成分における前記信号強度の理論値の大きさ、又はその両方を用いて制限するようにしてもよい。
【0032】
この分配方法は上記均等分配や比例分配に比べて精度の高い分配が行える可能性が高いものの、残渣信号の全てが分配されるわけではない。そこで、こうした分配方法を用いる場合でも、上記均等分配や比例分配を併用することが望ましい。
【0033】
また本発明に係るクロマトグラムデータ処理方法では、
各成分のクロマトグラム波形を任意の比率で加算したクロマトグラム波形を求め、該クロマトグラム波形上の強度と前記信号強度の理論値との差異に基づいて、EMアルゴリズムによる解の安定性を推定するようにするとよい。
【0034】
また本発明に係るクロマトグラムデータ処理方法において、当てはめ実行ステップでは、クロマトグラムモデル波形としてごく一般的なEMG(Exponential Modified Gaussian)等のモデル関数を用いてもよいが、より好ましくは、ピーク幅やピーク高さなどを正規化したクロマトグラム波形が収録されたデータベースを利用し、該データベースから最適なクロマトグラム波形を選択して用いるようにするとよい。
【0035】
これにより、より現実的なクロマトグラム波形をピークモデルとして使用することができるので、当てはめの精度が一層向上する。
【0036】
また特にPDA検出器では、成分濃度が高い場合に直線性が低下し、その影響でスペクトル形状が僅かながら変化することがある。この変化のために、実際にはピークモデル数が適切であるにも拘わらず、含有成分判定ステップにおいてピークモデル数が誤判定されることがある。
【0037】
そこで、本発明に係るクロマトグラムデータ処理方法では、
残渣信号にピーク状波形があった場合に、該残渣信号を行列として主成分分析して得られる固有値の各要素の大きさの比率に基づいて、前記ピーク状波形が検出器の直線性劣化に起因するものであるか否かを判定し、直線性劣化に起因するものであると推定されるときには追加すべき成分はないと結論付けるようにするとよい。これによって、過剰なピーク分離を避けることができる。
【0038】
また本発明に係るクロマトグラムデータ処理装置は、上記本発明に係るクロマトグラムデータ処理方法を実施する装置であって、測定対象である試料に対して収集された、時間、信号強度、及び第3のディメンジョンを有する3次元クロマトグラムデータを処理するクロマトグラムデータ処理装置であり、例えば混合ガウス分布のEMアルゴリズムのように、ピークモデル関数の当てはめを2段階のステップに分けて行うことにより、時間と信号強度とをそれぞれ軸とするクロマトグラム上で重なっている、前記試料に含まれる複数の成分に由来するピークを分離するクロマトグラムデータ処理装置において、
a)時間と信号強度とをそれぞれ軸とするクロマトグラムの波形形状及び第3のディメンジョンと信号強度とをそれぞれ軸とするスペクトルの波形形状についての、予め与えられた推定結果又は後記当てはめ実行部による推定結果のいずれかである波形形状モデルに基づいて、与えられた3次元クロマトグラムデータを1又は複数の成分に分配し、成分毎の3次元クロマトグラムデータを求めるデータ分配部と、
b)前記データ分配部により得られた成分毎の3次元クロマトグラムデータから求まるクロマトグラム及びスペクトルに対し、クロマトグラム波形形状及びスペクトル波形形状の当てはめをそれぞれ行うことで、各成分に対応する波形形状モデルのパラメータを修正する当てはめ実行部であって、クロマトグラム波形形状が正しいとの仮定の下にスペクトル波形を最小二乗法により求める第1ステップと、スペクトル波形形状が正しいとの仮定の下にクロマトグラム波形を最小二乗法により求める第2ステップとを繰り返し実行することで当てはめの尤もらしさを高める当てはめ実行部と、
c)前記データ分配部による処理及び前記当てはめ実行部による処理を規定回数だけ又は解が収束したとみなせるまで繰り返し実行したあと、その時点で得られる各成分に対応するスペクトルと直交するスペクトル成分を抽出する又は強調するように、与えられた3次元クロマトグラムデータをフィルタリング処理し、そのフィルタリング後のデータに現れるピーク状波形の高さに基づいて、さらに別の成分が前記試料に含まれているか否かを判定する含有成分判定部と、
を備えることを特徴としている。