特許第5651176号(P5651176)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ スペクトロセンス リミテッドの特許一覧

特許5651176ガスクロマトグラフ分析方法およびシステム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5651176
(24)【登録日】2014年11月21日
(45)【発行日】2015年1月7日
(54)【発明の名称】ガスクロマトグラフ分析方法およびシステム
(51)【国際特許分類】
   G01N 30/86 20060101AFI20141211BHJP
【FI】
   G01N30/86 G
   G01N30/86 D
【請求項の数】40
【全頁数】23
(21)【出願番号】特願2012-525254(P2012-525254)
(86)(22)【出願日】2010年8月18日
(65)【公表番号】特表2013-502575(P2013-502575A)
(43)【公表日】2013年1月24日
(86)【国際出願番号】IL2010000675
(87)【国際公開番号】WO2011021198
(87)【国際公開日】20110224
【審査請求日】2013年7月4日
(31)【優先権主張番号】61/235,457
(32)【優先日】2009年8月20日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】512041344
【氏名又は名称】スペクトロセンス リミテッド
(74)【代理人】
【識別番号】100114775
【弁理士】
【氏名又は名称】高岡 亮一
(72)【発明者】
【氏名】レイスフェルド,ダニエル
(72)【発明者】
【氏名】ルビンステイン,アヴィ
【審査官】 赤坂 祐樹
(56)【参考文献】
【文献】 特開平04−212059(JP,A)
【文献】 VAN STOKKUM I H M,GLOBAL ANALYSIS OF MULTIPLE GAS CHROMATOGRAPHY-MASS SPECTROMETRY(GC/MS) DATA SETS: A METHOD FOR RESOLUTION OF CO-ELUTING COMPONENTS WITH COMPARISON TO MCR-ALS,CHEMOMETRICS AND INTELLIGENT LABORATORY SYSTEMS,NL,ELSEVIER SCIENCE PUBLISHERS B.V.,2009年 2月15日,V95 N2,P150-163
【文献】 KOSKINEN M O et al,Numerical Integration of Complex Chromatograms Using Fitted Gaussian Functions,J Liq Chromatogr,1993年10月,第16巻 第15号,3171-3184
(58)【調査した分野】(Int.Cl.,DB名)
G01N 30/00−30/96
JSTPlus/JMEDPlus/JST7580(JDreamIII)
(57)【特許請求の範囲】
【請求項1】
試料を表すガスクロマトグラフデータと参照ガスクロマトグラフデータとの一致の程度を決定するためにガスクロマトグラフィを利用する独立独行型の方法であって、前記ガスクロマトグラフデータは少なくとも1つのクロマトグラフピークを含み、前記参照ガスクロマトグラフデータは少なくとも1つの参照クロマトグラフピークを含み、前記方法は、
前記ガスクロマトグラフデータを獲得する手順と、
前記少なくとも1つのクロマトグラフピークを前記少なくとも1つの参照クロマトグラフピークに登録する手順と、
前記登録する手順に従って、前記参照ガスクロマトグラフデータに関するその少なくとも1つの一時的帰属により前記少なくとも1つのクロマトグラフピークを分類する手順と、
モデル関数を前記ガスクロマトグラフデータに適合させるように、前記モデル関数における複数のパラメータを決定する手順であって、前記モデル関数は確率分布関数の線形結合の和として画定される、手順と、
前記モデル関数と前記ガスクロマトグラフデータとの適合度に従って、前記一致の程度を評価する手順と、
を含む方法。
【請求項2】
前記獲得する手順は、一次元ガスクロマトグラフ分離技法によって実行される、請求項1に記載の方法。
【請求項3】
前記試料を構成する成分の不均衡な濃度の存在を占めるように、前記獲得する手順において獲得された信号を正規化する手順をさらに含む、請求項に記載の方法。
【請求項4】
データベースを形成するために、メモリデバイス内前記ガスクロマトグラフデータおよび前記参照ガスクロマトグラフデータのうちの少なくとも1つを記憶する手順をさらに含み、前記少なくとも1つの参照クロマトグラフピークは、少なくとも1つの公知の化合物に対応する、請求項に記載の方法。
【請求項5】
前記少なくとも1つの公知の化合物に対応する質量分析データで、前記参照ガスクロマトグラフデータを較正する手順をさらに含む、請求項に記載の方法。
【請求項6】
前記少なくとも1つの公知の化合物の特定のものは、そこから前記試料が獲得される生物の少なくとも1つの生物学的状態で表わされる少なくとも1つのバイオマーカを画定する、請求項に記載の方法。
【請求項7】
前記少なくとも1つの生物学的状態は、癌を含む悪い医学的状態である、請求項6に記載の方法。
【請求項8】
前記登録する手順は、前記少なくとも1つのクロマトグラフピークの保持時間値を、前記少なくとも1つの参照クロマトグラフピークのそれぞれの参照保持時間値と比較することを伴う、請求項に記載の方法。
【請求項9】
前記登録する手順は、s(f(t))が対応する参照ガスクロマトグラフデータr(t)と最大限に一致するように選択された、変換関数f(t)を利用することによって実行され、式中、sは、前記獲得する手順において獲得された信号を表す、請求項に記載の方法。
【請求項10】
前記登録する手順は、少なくとも1つの公知のクロマトグラフピークのうちの対応するものを発生するように、少なくとも1つの公知の保持時間を有する少なくとも1つの参照化学物質を前記試料に追加することをさらに伴い、それによって前記変換関数が前記少なくとも1つの公知のクロマトグラフピークに従って選択される、請求項に記載の方法。
【請求項11】
前記分類する手段に従って、前記少なくとも1つのクロマトグラフピークが、前記確率分布関数のうちの対応するものによってモデル化されるように、前記モデル関数を構築する手順をさらに含む、請求項に記載の方法。
【請求項12】
前記モデル関数は
【数1】
という形を有する和における少なくとも1つの項を含み、
式中、x(t)は時間依存であるモデル関数を表し、式中、前記確率分布関数Vのそれぞれ前記確率分布関数D(t)、H(t)、O(t)およびI(t)のうちの1つによって表わされ、式中、β、η、δおよびι前記確率分布関数のそれぞれとの線形結合におけるそれぞれの係数であり、式中、j、k、l、およびmは正の整数であり、前記確率分布関数のそれぞれ前記複数のパラメータのうちの少なくとも1つによって特徴付けられ、
前記D(t)は、前記少なくとも1つのクロマトグラフピークを、前記少なくとも1つのバイオマーカを表す少なくとも1つのクロマトグラフ参照ピークにモデル化し、前記少なくとも1つのクロマトグラフピークは、少なくとも部分的に前記ガスクロマトグラフデータ内合成物であり、前記少なくとも1つのバイオマーカは、悪い生物学的状態を表し、前記悪い生物学的状態は、そこから前記試料が獲得される生物のものであり、前記H(t)は、少なくとも部分的に前記ガスクロマトグラフデータ内合成物である少なくとも1つのクロマトグラフピークを、前記少なくとも1つのバイオマーカを表すこと前記悪い生物学的状態を表すことが未知であることと、うちのいずれか1つである少なくとも1つの参照クロマトグラフピークにモデル化し、前記I(t)は、分解される少なくとも1つのクロマトグラフピークをモデル化し、前記O(t)は、前記複数の参照ガスクロマトグラフデータに適合しない少なくとも1つのクロマトグラフピークと、前記モデル関数のモデリングからもたらされた剰余項と、うちのいずれか1つを前記ガスクロマトグラフデータにモデル化する、請求項11に記載の方法。
【請求項13】
前記確率分布関数は
指数関数変形ガウス(EMG)関数、
ガンマ確率分布関数、
多項式変形ガウス関数、
非対称正規分布関数、
カイ分布関数、
正規化した分子速度のマクスウェル・ボルツマン分布関数、
保持時間に対して変形されたマクスウェル・ボルツマン分布関数、
ポアソン分布、
レイリー分布関数
から成る一覧から選択され、請求項12に記載の方法。
【請求項14】
前記少なくとも1つのクロマトグラフピークのどれが、前記確率分布関数のどれによってモデル化されることになるかを決定する手順をさらに含む、請求項11に記載の方法。
【請求項15】
記決定する手順は、前記モデル関数と前記信号との差の二乗和が最小化されるように、前記複数のパラメータの候補解を反復して評価する手順を含む、請求項14に記載の方法。
【請求項16】
記少なくとも1つのクロマトグラフピークのどれが合成物であるかを、それに対して時間依存モデルエラーが時間依存モデル閾値パラメータを超える時間値を評価することによって決定する手順であって、前記時間依存モデルエラーは、前記信号と前記モデル関数との差をとることによって計算される、手順、をさらに含む、請求項15に記載の方法。
【請求項17】
成物であるクロマトグラフピークのどれ、前記確率分布関数のうちの少なくとも2つのどれによって再モデル化されることになるかを再決定する手順と、
前記合成物を、前記再決定する手順に従って決定された少なくとも1つのクロマトグラフピークに再モデル化し、それによって、前記合成物を少なくとも1つの分解されたクロマトグラフピークに分解する手順と、
前記時間依存モデルエラーが最小化されるように、前記少なくとも1つの分解されたクロマトグラフピークを占めるために、前記モデル関数を反復して精製する手順と、
をさらに含む、請求項16に記載の方法。
【請求項18】
記少なくとも1つのクロマトグラフピークのうちの対応するものをモデル化する確率分布関数の係数は、前記少なくとも1つのクロマトグラフピークのそれぞれの対応するもの最大値を四分位範囲(IQR)で割ることによって正規化される、請求項17に記載の方法。
【請求項19】
記係数のそれぞれに対する閾値パラメータを画定し、前記少なくとも1つのクロマトグラフピークのそれぞれをモデル化する確率分布関数を表す正規化された係数のどれが、前記閾値パラメータのそれぞれを超えるかを評価することによって、有意なピークを決定する手順をさらに含む、請求項18に記載の方法。
【請求項20】
記評価する手順は、前記少なくとも1つの参照クロマトグラフピークと、前記少なくとも1つの分解されたクロマトグラフピークのうちの対応するもの、および前記有意なピークのうちの対応するもの、のうちのいずれか1つと、の統計的距離測定に従うものである、請求項19に記載の方法。
【請求項21】
ガスクロマトグラフデータ分析ための独立独行型のガスクロマトグラフシステムであって、前記システムは、
試料を複数の成分に分離するためのクロマトグラフ分離カラムであって、前記クロマトグラフ分離カラムはインレットおよびアウトレットを含む、クロマトグラフ分離カラムと、
前記試料を前記クロマトグラフ分離カラムに提供するための、前記クロマトグラフ分離カラムに前記インレットで結合された試料送達デバイスと、
前記複数の成分の少なくとも一部を検出するための、前記クロマトグラフ分離カラムのアウトレットと連通する検出器であって、前記検出器は、前記試料の検出された部分の特徴を表すガスクロマトグラフデータを含む信号を発生し、前記ガスクロマトグラフデータは少なくとも1つのクロマトグラフピークを含む、検出器と、
前記ガスクロマトグラフデータおよび複数の参照ガスクロマトグラフデータを記憶するメモリデバイスであって、前記参照ガスクロマトグラフデータは少なくとも1つの参照クロマトグラフピークを含む、メモリデバイスと、
前記検出器および前記メモリデバイスと結合された処理装置であって、前記処理装置は、前記少なくとも1つのクロマトグラフピークを前記少なくとも1つの参照クロマトグラフピークに登録し、前記処理装置は、前記少なくとも1つのクロマトグラフピークの前記少なくとも1つの参照クロマトグラフピークへの登録に従って、前記参照ガスクロマトグラフデータに関するその少なくとも1つの一時的帰属により前記少なくとも1つのクロマトグラフピークを分類し、前記処理装置は、モデル関数を前記ガスクロマトグラフデータに適合させるように、前記モデル関数における複数のパラメータを決定し、前記モデル関数は、確率分布関数の線形結合の和として画定され、前記処理装置は、前記モデル関数と前記ガスクロマトグラフデータとの適合度に従って、前記ガスクロマトグラフデータと、前記複数の参照ガスクロマトグラフデータとの一致の程度を評価する、処理装置と、
を備えるシステム。
【請求項22】
前記処理装置は、前記試料を構成する成分の不均衡な濃度の存在を占めるように、前記信号を正規化する、請求項21に記載のシステム。
【請求項23】
前記複数の参照ガスクロマトグラフデータはデータベースを形成し、前記少なくとも1つの参照クロマトグラフピークは少なくとも1つの公知の化合物に対応する、請求項21に記載のシステム。
【請求項24】
前記複数の参照ガスクロマトグラフデータは、前記少なくとも1つの公知の化合物に対応する質量分析データ較正される、請求項23に記載のシステム。
【請求項25】
前記少なくとも1つの公知の化合物の特定のものは、そから前記試料が獲得される生物の少なくとも1つの生物学的状態で表わされる、少なくとも1つのバイオマーカを画定する、請求項23に記載のシステム。
【請求項26】
前記少なくとも1つの生物学的状態は、癌を含む悪い医学的状態である、請求項25に記載のシステム。
【請求項27】
前記処理装置は、前記少なくとも1つのクロマトグラフピークの保持時間値を、前記少なくとも1つの参照クロマトグラフピークのそれぞれの参照保持時間値と比較することによって、前記少なくとも1つのクロマトグラフピークを前記少なくとも1つのクロマトグラフ参照ピークに登録する、請求項21に記載のシステム。
【請求項28】
前記処理装置は、s(f(t))が前記複数の参照ガスクロマトグラフデータのうちの対応するものr(t)と最大限に一致するように選択された変換関数f(t)を利用することによって前記登録を実行し、式中、sは前記信号を表す、請求項27に記載のシステム。
【請求項29】
前記処理装置は、少なくとも1つの公知のクロマトグラフピークのそれぞれを発生するように、前記試料に追加され、少なくとも1つの公知の保持時間を有する、少なくとも1つの参照化学物質を登録し、それによって前記変換関数が前記少なくとも1つの公知のクロマトグラフピークに従って選択される、請求項28に記載のシステム。
【請求項30】
前記処理装置は、前記処理装置による分類に従って、前記少なくとも1つのクロマトグラフピークが前記確率分布関数のうちの対応するものによってモデル化されるように、前記モデル関数を構築する、請求項27に記載のシステム。
【請求項31】
前記モデル関数は
【数2】
という形を有する和における少なくとも1つの項を含み、
式中、x(t)は時間依存であるモデル関数を表し、式中、前記確率分布関数Vのそれぞれ前記確率分布関数D(t)、H(t)、O(t)およびI(t)のうちの1つによって表わされ、式中、β、η、δおよびι前記確率分布関数のそれぞれ線形結合におけるそれぞれの係数であり、式中、j、k、l、およびmは正の整数であり、前記確率分布関数のそれぞれ前記複数のパラメータのうちの少なくとも1つによって特徴付けられ、
前記D(t)は前記少なくとも1つのクロマトグラフピークを前記少なくとも1つのバイオマーカを表す少なくとも1つの参照クロマトグラフピークにモデル化し、前記少なくとも1つのクロマトグラフピークは、少なくとも部分的に前記ガスクロマトグラフデータ内合成物であり、前記少なくとも1つのバイオマーカは、悪い生物学的状態を表し、前記悪い生物学的状態は、そこから前記試料が獲得される生物のものであり、前記H(t)は、少なくとも部分的に前記ガスクロマトグラフデータ内合成物である少なくとも1つのクロマトグラフピークを、前記少なくとも1つのバイオマーカを表すことと、前記悪い生物学的状態を表すことが未知であることと、のうちのいずれか1つである少なくとも1つの参照クロマトグラフピークにモデル化し、前記I(t)は、分解され少なくとも1つのクロマトグラフピークをモデル化し、前記O(t)は、前記複数の参照ガスクロマトグラフデータに適合しない少なくとも1つのクロマトグラフピークと、前記モデル関数のモデリングからもたらされた剰余項と、のいずれか1つを、前記ガスクロマトグラフデータにモデル化する、請求項30に記載のシステム。
【請求項32】
前記確率分布関数は
指数関数変形ガウス(EMG)関数、
ガンマ確率分布関数、
多項式変形ガウス関数、
非対称正規分布関数、
カイ分布関数、
正規化した分子速度のマクスウェル・ボルツマン分布関数、
保持時間に対して変形されたマクスウェル・ボルツマン分布関数、
ポアソン分布、
レイリー分布関数
から成る一覧から選択される、請求項31に記載のシステム。
【請求項33】
前記処理装置は、前記少なくとも1つのクロマトグラフピークのどれが、前記確率分布関数のどれによってモデル化されることになるかを決定する、請求項31に記載のシステム。
【請求項34】
前記処理装置は、前記モデル関数と前記信号との差の二乗和が最小化されるように、前記複数のパラメータの候補解を反復して評価することによって、前記複数のパラメータを決定する、請求項33に記載のシステム。
【請求項35】
時間依存モデルエラー閾値パラメータ画定され、前記処理装置は、それに対して時間依存モデルエラーが前記時間依存モデルエラー閾値パラメータを超える時間値を評価することによって、前記少なくとも1つのクロマトグラフピークのどれが合成物であるかを決定し、前記処理装置は、前記信号と前記モデル関数との差をとることによって、前記時間依存モデルエラーを計算する、請求項34に記載のシステム。
【請求項36】
前記処理装置は、合成物であるクロマトグラフピークのどれ、前記確率分布関数のうちの少なくとも2つのどれによって再モデル化されることになるかを再決定する、請求項35に記載のシステム。
【請求項37】
前記処理装置は、前記モデル関数を反復して精製し、それによって、合成物であり、前記確率分布関数のうちの対応するものによって事前にモデル化されている少なくとも1つのクロマトグラフピークが、前記確率分布関数のうちの少なくとも2つによってモデル化され、それによって、前記処理装置は、合成物であるクロマトグラフピークを少なくとも1つの分解されたクロマトグラフピークに分解する、請求項36に記載のシステム。
【請求項38】
記少なくとも1つのクロマトグラフピークのうちの対応するものをモデル化する確率分布関数の係数は、前記少なくとも1つのクロマトグラフピークのそれぞれの対応するものの最大値を四分位範囲(IQR)で割ることにより、前記処理装置によって正規化される、請求項37に記載のシステム。
【請求項39】
少なくとも1つの閾値パラメータが、前記係数のそれぞれに対して画定され、前記処理装置は、前記少なくとも1つのクロマトグラフピークのうちの対応するものをモデル化する確率分布関数を表す正規化された係数のどれ、前記少なくとも1つの閾値パラメータのうちの対応するものを超えるかを評価することによって、有意なクロマトグラフピークを決定する、請求項38に記載のシステム。
【請求項40】
前記処理装置は、前記少なくとも1つの参照クロマトグラフピークと、前記少なくとも1つの分解されたクロマトグラフピークのうちの対応するもの、および前記有意なクロマトグラフピークのうちの対応するもの、のうちのいずれか1つと、の統計的距離測定に従って、前記一致の程度を評価する、請求項39に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
開示された技法は、一般にガスクロマトグラフィに関し、詳細には、ガスクロマトグラフデータを分析する方法およびシステムに関する。
【背景技術】
【0002】
ガス液体分布クロマトグラフィ(GLPC)、気相クロマトグラフィ(VPC)、ガス液体クロマトグラフィ、またより簡略にガスクロマトグラフィ(GC)としても公知であるものは、化学分解なしに気化することが可能な、化学合成液または化合物を分解および分析するために利用される分析化学技法の名前である。GCは、ガス状合成物などの試料をその化合物に分解するために利用され、成分の相対量が決定されることがある。GCはまた、物質の純度の試験のため、化合物同定の支援のため、および合成物から純粋化合物を抽出するために利用されることもある。GCは、概してガスクロマトグラフィまたはガス分離器と呼ばれる機器によって実行される。概して、GC技法は、気化した形(たとえば、直接噴射、パージトラップ(P/T)法を介して)の試料を、異なる固体固定相または液体固定相(すなわち、吸収剤)で覆われた不活性固体支持体を有するように内部で構築された、GCカラム(以下「カラム」と言う)の一端に導入するものである。移動相(すなわち、ヘリウムなどの搬送ガス)は、試料をカラムを介して掃引するために利用される。試料などの固定相と様々な相互作用をする試料の異種成分は、カラムを介して掃引され、それにより各成分が異なる時に溶出される(すなわち、成分の保持時間として公知である)。カラムを通る試料の異なる化合物の割合は、それらの化学的性質および物理的性質ならびに固定相との相互作用に依存する。成分のそれぞれの保持時間に依存して成分がカラムの他端から異なった時に出現するときに、様々な検出技術を利用する検出器によって検出される可能性がある。通常、検出器は、試料内の成分濃度に応答して電気信号を発生する。クロマトグラフデータは通常、時間関数(保持時間)として検出器応答(濃度)のグラフ(たとえば、スペクトル)の形で表わされる(クロマトグラムと呼ばれる)。したがって、各試料に対して、GCは、ピークのスペクトルを有する対応するクロマトグラムを生成し、ピークは、異なった時にカラムから溶出する試料内の被分析物の存在を表す。試料のクロマトグラムにおけるスペクトルパターンの存在を定量的に分析することによって、それらを公知の被分析物濃度を含む一定基準と比較することによって、試料内の被分析物濃度を決定することが可能である。
【0003】
したがって、GCは、生物医学的応用、環境問題への応用、法医学的分析、石油化学の分析などの広い分野で利用される。たとえば、GCは、揮発性有機化合物(VOC)に対して人および動物の呼気の分析に利用される。概してVOCは、様々な材料(たとえば、清掃用品、ペンキ、農薬、建築材料)によって排出される気体または蒸気であり、これらは生物に健康への悪影響をもたらすことがある。人は、吸入、経口、経皮吸収などを通してVOCに必然的に曝されている。人の呼気を検査することによって、それには数百のVOCが必然的に含まれており、体内に有害な化学物質が増大する可能性の示唆を提供することが可能である。したがって人の呼気内に検出されたVOCは、肺癌、乳癌、糖尿病、および統合失調症などの疾患の存在の可能性の試験に生物学的マーカ(すなわち、バイオマーカ)として働く可能性がある。
【0004】
しかし、クロマトグラフデータの分析、具体的には試料を成分に完全分離および完全分解することは、クロマトグラムに存在する重複ピークの現象が発生するため困難であり得ることは公知である。基本的には、この問題が起きるのは、試料の2つ以上の異なる成分が、実質的に同じ割合で溶出し(すなわち、それらは実質的に同様の保持時間を有する)、それらが単一成分であるかのように検出されるときである。
【0005】
様々なタイプの装置およびクロマトグラフ分離方法は、当技術分野に公知である。重複クロマトフラフピークの検出を高めるそのような方法の1つは、多次元ガスクロマトグラフィ(本明細書ではMDGCと略す)を使用するものであり、試料の成分は、異なる特性を有する2つ以上のカラムを使用する2つ以上の分離ステップの影響を受ける。たとえば、二次元(2−D)ガスクロマトグラフィ(本明細書では2D−GCと略す)では、さらなる分析を必要とするクロマトグラム内の領域が強化され(「中間留分」)、第2のカラム上で検査される。別の方法は、総合的に2D−GC(本明細書ではGCxGCと略す)を使用するものであり、これは第1のカラムおよび流出物の一部の周期的な再注入から異なる特性を有する第2のカラムへの流出の収集に基づく。この方法では、第1のカラムからの流出は、試料全体が分離ステップのすべてに影響を及ぼす(すなわち、寸法)一方で、分離をそれぞれの前のステップから保護するように、複数回抽出される。この方法は、第1のカラムと第2のカラムを連結するインターフェースに依拠し、これによって周期的な注入を引き起こすことが可能になる。それにもかかわらず、これらの技法の使用は、追加機器ならびにスペクトルデータの複数のチャネルの分析を伴い、これらは個々の試料を含むすべての成分の完全な同定を最終的に保証しない。
【0006】
ガスクロマトグラフデータを分析する方法およびシステムも、当技術分野では公知である。たとえば、クロマトグラフピークの形状を特徴付ける際に指数関数変形ガウス(EMG)関数を利用することが当技術分野では公知であり、この理論的正当性はクロマトフラフピークが通常非対称の特性を示すという事実にある。他の方法は、デコンボリューション技法、反復ターゲット変換因子分析(ITTFA)、パターン認識およびニューラルネットワーク技法などを含む。「Method and Apparatus for Chromatographic Data Processing」という名称のイトウ(伊藤)らに対する米国特許第7,403,859B2号は、複数の重複ピークを含むクロマトグラムに対して、線形最小二乗法を利用することによって、曲線当てはめを促進するための液体クロマトグラフ分析器を対象とする。液体クロマトグラフ分析器は、カラム、試料供給部、液体ポンプ、制御装置、試料、および検出器を含む。試料供給部は、液体ポンプとカラムとの間に配置される。溶離液は、制御装置からの命令により、液体ポンプを使用してカラムに汲み出される。試料は、制御装置の命令によりサンプラから溶離液に供給される。試料は、カラムによって分離され、検出器によって検出される。検出されたデータのクロマトグラムは、分析されるために制御装置に送信される。
【0007】
制御装置によって処理されるクロマトグラムのデータは、当てはめを実行するための時間間隔の指定、波形関数の選択、重み付けパターンの選択、当てはめ方向の選択、当てはめ実行ボタンのクリック、結果の表示および出力を含む手順によって実行される。最初は、特定の選択されたクロマトグラムに対して、クロマトグラムにおける時間間隔は、開始時刻および終了時刻を入力することによって当てはめのために選択される。したがって、ガウス関数すなわちEMG関数は、当てはめのための波形関数として使用される。重み付け関数の選択は、重み付け関数のグラフ表示をクロマトグラム上にポインティングデバイスを介して重ね合わせるものである。当てはめ方向の選択は、処理がクロマトグラムにおける選択された時間間隔の正面から実行されるか、または背面から実行されるかの方向の設定をするものである。当てはめ処理(実行)は、当てはめのために波形関数を利用し、この波形関数はガウス関数と基線(すなわち、線形一次方程式)の和である。当てはめ処理は、ガウス関数における当てはめパラメータが、計測されたクロマトグラムの信号強度における波形関数とそれぞれの点との差の二乗和を最小化するために決定されるように、最小二乗法を利用する。
【発明の概要】
【課題を解決するための手段】
【0008】
開示された技法の目的は、ガスクロマトグラフィの新規のシステムおよび方法を提供することであり、これは先行技術の不都合を克服する。したがって、開示された技法に従って、それぞれの試料のガスクロマトグラフデータと参照データとの一致の程度を決定する方法が提供される。方法は、ガスクロマトグラフデータを獲得し、モデル関数がガスクロマトグラフデータに実質的に適合するように、モデル関数における複数のパラメータを決定し、モデル関数とガスクロマトグラフデータとの適合度に従って、一致の程度を評価する手順を含む。モデル関数は、確率分布関数の線形結合の和として画定される。
【0009】
したがって、開示された技法の別の態様に従って、ガスクロマトグラフデータの分析システムが提供される。システムは、試料を複数の成分に分離するためのクロマトグラフ分離カラム、試料送達デバイス、検出器、メモリデバイス、および処理装置を含む。クロマトグラフ分離カラムは、インレットおよびアウトレットを含む。試料送達デバイスは、試料をクロマトグラフ分離カラムに提供するために、そのインレットでクロマトグラフ分離カラムと結合される。検出器は、クロマトグラフ分離カラムのアウトレットと連通し、複数の成分の少なくとも一部を検出し、試料の検出された部分の特性のそれぞれのガスクロマトグラフデータを含む信号を発生する。メモリデバイスは、処理装置と結合され、ガスクロマトグラフデータおよび複数の参照データを記憶する。処理装置は、検出器と結合され、モデル関数がガスクロマトグラフデータと実質的に適合するように、モデル関数における複数のパラメータを決定する。モデル関数は、確率分布関数の線形結合の和として画定される。処理装置は、ガスクロマトグラフデータと、モデル関数とガスクロマトグラフデータとの適合度に従った複数の参照データとの一致の程度を評価する。
【0010】
本開示の技法は、図面に関連して以下の詳細な説明から、より完全に理解され認識されよう。
【図面の簡単な説明】
【0011】
図1】開示された技法の実施形態により構築され作動可能なガスクロマトグラフデータの分析システムの概略図である。
図2A図1に示されたシステムによって獲得された、代表的なクロマトグラムの概略図である。
図2B図2Aのクロマトグラムによりモデル化された時間依存モデル関数の最初の評価のグラフの概略図である。
図2C】時間依存モデルエラー閾値関数のグラフと共に描かれた、図2Bの最初に評価されたモデル関数がもたらした、計算された時間依存モデルエラーのグラフの概略図である。
図2D図2Aのクロマトグラムによりモデル化された、図2Bの時間依存モデル関数の精密評価の概略図である。
図3A】その異なる成分が、開示された技法の別の実施形態により構築され作動可能な、所与の試料を構成する重複クロマトグラフピーク内で成分を分解し同定する方法を示す概略構成図である。
図3B図3Aの方法の続きを示す概略構成図である。
【発明を実施するための形態】
【0012】
開示された技法は、その異なる成分が、確率密度関数の線形結合の和として画定されるモデル関数を利用することによって、所与の試料を構成する重複クロマトグラフピーク内で成分を分解し同定する方法およびシステムを提供することによって、先行技術の不都合を克服する。所与の試料を構成する化合物に関連したクロマトグラフデータは、一次元GC(本明細書では1D−GCと略す)ガスクロマトグラフ分離技法(すなわち、MDGCおよび2D−GCなどの多次元ガスクロマトグラフ技法と対照的に)によって獲得される。試料のクロマトグラム内の顕著な特徴(たとえば、クロマトグラフピーク)は、分類され、その後、実施された分類に従った確率密度関数の特定のタイプによって表される(すなわち、モデル化される)可能性があるような方法で数学的に分解される。各確率密度関数を特徴付ける複数のパラメータは、最適化技法によって評価され、その後、確率密度関数の線形結合の和内の複数の線形係数パラメータが、最小二乗法によって決定される。時間依存モデルエラー関数およびモデルエラー閾値パラメータは画定される。合成されたと疑われるクロマトグラフピークは、それに対して時間依存モデルエラー閾値パラメータが時間依存モデルエラーを超える時間値を評価することによって実質的に決定される(すなわち、算定され、評価される)。精製されたモデル関数は、複数の確率密度関数によって合成されたと疑われるピークを再モデル化し、それぞれのピークの対応するモデルエラーを考慮に入れることによって構築され、それによって合成クロマトグラフピークを分解する。最適化技法は、最小二乗法を最小化するように、モデル関数がクロマトグラフデータに実質的に適合するために反復される。各反復で、精製されたモデル関数は、モデルエラーが最小化されるまで、前のモデル関数を置換する。開示された技法は、分析された試料にインタレストの特定のバイオマーカの有無を推測するために、参照ピーク間の一致の程度、データベース内に記憶されたその一致の程度の情報、ならびに試料の新発見され、分解されたピークを含む複数のピークを評価する。概して、開示された技法は通常、特定の悪い医学的状態(たとえば、癌)を有すると疑われる個体から収集された、呼気試料内のマルチ・バイオマーカの存在の確率判定表示を提供するために実施されることがある。
【0013】
発明を実施するための形態、図、および特許請求の範囲の全体を通して使用される用語「確率密度関数」および「確率分布関数」は、交換可能である。ここで、開示された技法の一実施形態により、構築され作動可能なガスクロマトグラフデータ(概ね100を参照)の分析システムの概略図である図1を参照する。システム100は、クロマトグラフ分離カラム102、試料送達デバイス104、検出器106、処理装置108、およびメモリデバイス110を含む。システム100は、恣意的にインレット・チャンバ112およびアウトレット・チャンバ114をさらに含むことがある。クロマトグラフ分離カラム102は、インレット116およびアウトレット118を含む。試料送達デバイス104は、インレット112を介してクロマトグラフ分離カラム102と連結される。あるいは、試料送達デバイス104は、インレット・チャンバ112(図1に示されている)を介してクロマトグラフ分離カラム102と連結されることがある。検出器106は、アウトレット114を介してクロマトグラフ分離カラム102と連結される。あるいは、検出器106は、アウトレット・チャンバ114(図1に示されている)を介してクロマトグラフ分離カラム102と連結される。検出器106は、処理装置108と連結され、次いで処理装置108は、メモリデバイス110と連結される。
【0014】
まず、分析される試料(図示せず)(たとえば、呼気試料)は、試料送達デバイス104の中に提供される。あるいは、試料は、プローブ採取装置(PSD)などの密閉吸着管(図示せず)内にまず収集され(すなわち、試料収集デバイスを介して)、その後試料送達デバイス104に分注される可能性がある。インレット・チャンバ112が利用されない場合は、試料送達デバイス104は、試料をヘリウム、窒素、アルゴン、および風乾などの搬送ガス(図示せず)の連続流の中に導入し、これは試料をクロマトグラフ分離カラム102のインレット116(「オンカラム・インレット」と呼ばれる)に掃引する。インレット116への試料の導入は、当技術分野で公知の自動採取装置および自動インジェクタの使用などを通じて自動的に達成される可能性がある。インレット・チャンバ112が利用される場合は、インレット・チャンバ112は概して、試料の揮発を促進するために、通常S/SL(スプリット/スプリットレス)インジェクタ(すなわち、試料送達デバイスのタイプ)を使用して、蒸発室(すなわち、蒸発室は温度制御されている)として機能する。たとえば、試料送達デバイスの他のタイプおよび技法は、P/T(パージトラップ)システム、ガス源交換システム、SPME(固定相マイクロ抽出)、PTV(プログラマブル温度気化)注入、微量注射器直接注入、熱脱着装置などに利用される。このような実装の一部に対して、システム100は、搬送ガスを供給するための搬送ガスタンク(図示せず)をさらに含むことがあり、流れ制御装置、弁、圧力センサなどの、この目的のために他の様々な関連機器(図示せず)も利用されることがある。
【0015】
試料がクロマトグラフ分離カラム102を通過すると、試料の様々な成分(図示せず)が吸収によって分離され、それらの成分がアウトレット118からアウトレット・チャンバ114の中に出現するのとは異なる割合で溶出する。たとえば、アウトレット・チャンバ114は、溶出ジェット・インターフェース、噴霧化液体導入システムなどを含むことがある。噴霧化液体導入システムでは、溶出ガス混合物が噴霧され(すなわち、エアロゾルとして)、検出器106の中にあるいはアウトレット・チャンバ114の一部の中に直接噴霧され、したがって均一に改善されたエアロゾルを生成する。たとえば、溶出ジェットまたは噴霧化液体導入システムを利用することによって、充填毛管カラムは炎イオン化、無炎熱電子イオン化、測光型検出器などに基づいて、直接検出器に結合されることがある。クロマトグラフ分離カラム102は、毛管型カラムであることが好ましく、概して充填カラム型の感度より比較的高い感度を提供する(すなわち、全体として検出されたクロマトグラフピークはより高くはるかに鋭いので、それによってより良い信号対雑音比が得られる)。しかし、開示された技法は、他のタイプのカラムが利用されることがある(たとえば、充填カラム、内部加熱マイクロFASTカラム、マイクロ充填カラム)ように、特定のタイプのクロマトグラフカラムに限定されない。分子吸着および試料がクロマトグラフ分離カラム102を通じて発達する割合は、温度に依存するので、通常クロマトグラフ分離カラム102の温度を制御する必要がある。このような目的で、炉(図示せず)が通常クロマトグラフ分離カラム102を所望の温度で収納し保持するために利用される。炉の温度は、クロマトグラフ分離カラム102を、実行される各分析に対して特定の等温状態に通常維持するために電子的に制御される。
【0016】
溶出(すなわち、流出物)がクロマトグラフ分離カラム102から現れると、試料を構成する成分の少なくとも画分が(アウトレット118と連通するように配置された)検出器106によって検出される。検出器の多くのタイプはGCに使用され得る。GC検出器は、それらの感度(すなわち、相対的に、他の要素または化合物より特定の要素または化合物に応答するための検出器の可能な測定)、および検出器が濃度依存検出器であるか、または量流検出器であるかなどの他の要因に従って分類され得る。たとえば、選択的検出器は、化学または物理に共通の特性を有する多様な成分に応答するが、非選択的(万能)検出器は、搬送ガスとは別に実質的にすべての成分に応答する。開示された技法によって利用され得る様々なタイプの検出器は、炎イオン化検出器(FID)、熱伝導度検出器(TCD)、電子捕獲型検出器(EDC)、窒素リン検出器、炎光光度検出器(FPD)、光イオン化検出器(PID)、ホール電解伝導度検出器、放電イオン化検出器(DID)、パルス放電イオン化検出器(PDD)、質量選択検出器(MSD)、ヘリウムイオン化検出器(HID)、熱エネルギー(伝導度)分析器/検出器(TEA/TCD)などを含む。TCDは、万能選択性を有する濃度依存検出器の一例である。FPDは、流量タイプの選択検出器の一例であり、その選択性はリン、錫、ゲルマニウム、硫黄、セレンなどに関する。検出器106は、通常、試料内の成分の検出された濃度に応答して電気信号s(t)を時間関数として発生する。この電気信号は、処理および分析のために処理装置108に送信される。あるいは、システム100は、検出器106と処理装置108との間の操作で、検出器106によって発生される電気信号を増幅するために、増幅段階(図示せず)をさらに含むことがある。増幅段階は、前置増幅器、増幅器、電子増幅器(EMA)などによって実施され得る。
【0017】
電気信号は、クロマトグラフデータ(図示せず)の表示であり、処理装置108はクロマトグラフデータを記憶および検索のためにメモリデバイス110に転送する。処理装置108によって分析される電気信号のそれぞれのクロマトグラフデータは、クロマトグラムの形に配置され提供され得る。次にさらに図2Aおよび図2Bを参照する。図2Aは、図1に示されたシステムによって獲得された、代表的クロマトグラム(概ね200を参照)の概略図である。図2Bは、図2Aのクロマトグラムに従って、モデル化された時間依存モデル関数の最初の評価のグラフの概略図である。クロマトグラム200は、特定の試料のクロマトグラフ分離のグラフ記録を表し、デカルト座標系に表され、その垂直軸は検出された溶出物質の濃度の程度(すなわち、検出器応答)を時間関数として表す。クロマトグラム200は、それぞれが出現した異なる成分(すなわち、GCによって分離されなかった)の特定の成分または組合せを表す、複数のクロマトグラフピーク202、204、206、208、210、212、および214を表す。検出された電気信号s(t)は、所与の試料を構成する成分の不均衡な濃度の存在を占める(たとえば、補償する)ために正規化されることが可能であり、たとえばそれは、他の化学物質から、または利用される検出器の特有の事前選択からなどの外的影響に起因することがある。
【0018】
メモリデバイス110は、公知の化合物に対応する複数の参照GCデータのデータベース(図示せず)を記憶する。具体的には、データベースは、ピークのセットD’に対応するデータを記憶し、この場合、このセット内の各要素は、特定の悪い医学的状態(たとえば、疾病、感染症)に関連した公知の化合物のクロマトグラフピークを表す。データベース内の化合物の単一または結合に対応するデータは、バイオマーカ(図示せず)を画定するためにグループ化されることがある。たとえば、サブセット{d8’,d34’,d371’}⊂D’は、特定の疾病のバイオマーカを画定することがある。バイオマーカは概して、試料のクロマトグラフデータにその質的存在および量的存在の有無が、生物(たとえば、人、犬、猫)の特定の生物学的状態の指針である、1つの成分(または複数の成分)を指す。データベースはさらに、バイオマーカのセットM’を記憶し、この場合、各バイオマーカの成分はサブセットD’として画定される。本明細書に準備された指標は、参照データを示す。前述の例を鑑み、バイオマーカm1’⊂M’は、m1’={d8’,d34’,d371’}と画定され得る。同様に、データベースは、ピークのセットH’に対応するデータを記憶し、この場合、このセット内の各要素は、特定の悪い医学的状態(たとえば、通常健康な個体に現れる)に関連すると未知であるか、または特定の悪い医学的状態に関連すると公知であるかのいずれか1つであるが、それにも関わらず検出のためのインタレストではない、化合物のクロマトグラフピークを表す。
【0019】
データベースは、学習段階および較正段階で最初に構築される。この段階では、複数の公知の化合物および恐らく未知の化合物からのクロマトグラフデータ(すなわち、クロマトグラム)が獲得され、最終的にそこからクロマトグラフデータを参照として構成することになる。具体的には、複数のVOCからのクロマトグラフデータ(たとえば、ピーク)は、(すなわち、検出において)インタレストの特定の医学的状態を診断された個体から(たとえば、呼気試料を通して)獲得され、インタレストの医学的状態を特徴付ける(すなわち、バイオマーカ)クロマトグラフデータを同定するためにインタレストの特定の医学的状態を有さないと診断された個体から獲得された複数のVOCと比較する。質量分析法(MS)ならびに分光法は、較正方法としてこの段階に利用されることがあり、この場合、収集された各試料の元素組成は、試料の各成分のそれぞれの保持時間と比較され、それぞれの保持時間に関連する。概して、「健康」な個体および「不健康」な個体の両方からのVOCのクロマトグラフデータが、収集され、分析され、データベースに記憶される。クロマトグラフ参照データの分析は、たとえば主成分分析(PCA)などにより、クロマトグラフピークの検出によって実行され得る。それぞれの検出されたクロマトグラフピークは、本明細書の以下により詳細に説明される方法に従って、特定の確率密度関数によってモデル化される可能性がある。
【0020】
開示された技法は、その異なる成分が、モデル関数を確率密度関数(確率分布関数とも呼ばれる)の線形結合として利用することにより、所与の試料を構成する重複クロマトグラフピーク内で成分を分解し同定する。以下でVは一般形を有する。
【数1】

上式で、αは確率密度関数の係数であり、iは正の整数である。具体的には、開示された技法に従って、式(1)における確率密度関数の線形結合は、以下の形を有する確率密度関数の線形結合に分解され得ると仮定される。
【数2】

上式で、x(t)は検出器106によって獲得された、電気信号s(t)をモデル化するために利用された時間依存モデル関数を表す。電気信号s(t)は、修正(たとえば、増幅、事前処理)を施された可能性があることに留意されたい。D(t)は、セットD’(すなわち、特定の悪い医学的状態に関連した)における特定のクロマトグラフピークに対応する可能性を有する、それぞれのクロマトグラフピーク(すなわち、実質的に分解されなかった)をモデル化する第j番目の時間依存確率密度関数を表す。それぞれの第k番目の時間依存確率密度関数H(t)は、セットH’(すなわち、特定の悪い医学的状態に関連すると未知である、または特定の悪い医学的状態に関連すると公知であるかのいずれか1つであるが、それにも関わらず検出のためのインタレストではない)における特定のクロマトグラフピークに対応する可能性を有する、クロマトグラフピーク(すなわち、概ね部分的に分解された)をモデル化する。分離されたクロマトグラフピーク(すなわち、クロマトグラフピークが概ね分解された)が特定の医学的状態に関連すると公知であろうと未知であろうと、それらは第m番目の時間依存確率密度関数I(t)(すなわち、セットH’またはD’のどちらかにおける特定のクロマトグラフピークに対応する可能性を有する)によってモデル化される。O(t)は、未知のクロマトグラフピーク(すなわち、データベースの一部ではない分類不能なクロマトグラフデータ)、またはモデリング手順から生じた剰余項をそれぞれにモデル化する第l番目の時間依存確率密度関数を表す。スカラー重みβ、η、δおよびιは、それぞれの確率密度関数D(t)、H(t)、O(t)およびI(t)との線形結合における係数である。指数j、k、lおよびmは正の整数である。
【0021】
様々な確率密度関数は、EMG、ガンマ分布(すなわち、その確率密度関数)、多項式変形ガウス分布、非対称正規分布、カイ分布、ポアソン分布、正規化した分子速度のマクスウェル・ボルツマン分布(すなわち、3個の自由度(DOF)を有するカイ分布)、保持時間に対して修正されたマクスウェル・ボルツマン分布、レイリー分布(すなわち、2個のDOFおよび標準偏差σ=1を有するカイ分布)などのD(t)、H(t)、O(t)およびI(t)のために使用される可能性がある。
【0022】
モデル処理は、最初に分離されたクロマトグラフピーク(すなわち、ピーク202および212)をモデル化することがあり、それらはクロマトグラム200に現れる。これらのピークに対して、また概して分離されたピークであると疑われる各ピークmに対して、処理装置108は、それぞれの時間依存確率密度関数I(t)を見出し、I(t)はそのピークに対する数学的モデルとして働く。使用され得る時間依存確率密度関数の具体的なパラメータ・ファミリは、形状パラメータζ≧0、(κ∈R)およびスケール・パラメータθ≧0(θ∈R)を単位としてパラメータ化された、ガンマ確率密度関数であり、以下の一般形を有する。
【数3】

上式で、t≧0であり、Γ(κ)はガンマ関数であり、以下のように表される。
【数4】

したがって、モデル処理は、クロマトグラム200に現れる他のピーク(すなわち、ピーク204、206、210、212、および214)をモデル化するために、ガンマ確率密度関数を利用する。時間軸に沿って各ピーク(たとえば、その最高ピーク高さ)の状態位置を、メモリデバイス110内に記憶されたセットD’およびH’における参照クロマトグラフピークの位置に対応するデータと比較することによって、処理装置106は、クロマトグラム200における各ピークとそれぞれの参照クロマトグラフピークとの一致の可能性を評価する。クロマトグラム200におけるピークは、参照クロマトグラフピークと実質的に一致し、このようにして、それらのタイプに従って分類される。したがって、各クロマトグラフピークは、分離されたピーク、未知のピーク、またはデータベース内に記憶されたセットD’およびH’のいずれかにおいて対応する参照クロマトグラフピークと実質的に一致するピークのいずれかとして分類される。たとえば、処理装置106は、ピーク204および208が、セットD’におけるそれぞれの参照クロマトグラフピークdおよびdと実質的に一致すること、ピーク206が、セットH’における参照クロマトグラフピークhと実質的に一致すること、ならびにピーク210および214が、未知であると分類されることを評価する。モデリング処理における少なくとも予備段階では、それらのクロマトグラフピークは、未知であると分類され、セットD’およびH’における参照クロマトグラフピークに実質的に応答しない。以前の同定不能なクロマトグラフピークが一旦同定されると、それに応じて分類される可能性がある。開示された技法を解明するために、ピーク210は合成されている(すなわち、ある定度重複する少なくとも2つの成分からなる)と想定される。処理装置106は、演繹的知識なしに、最初にピーク210を未知のピークとして分類し、それに応じて、確率密度関数O(t)によってモデル化される。分離されたピークとして分類されたクロマトグラフピークはまた、セットD’またはH’における参照クロマトグラフピークにも応答する可能性があることに留意されたい。この場合、これらの分離されたピークは、上述された分離されたピークに対して時間依存確率密度関数I(t)に従ってモデル化される。たとえば、ピーク212は、分離されたピークとして分類されて、モデル化されるが、このピークは、セットH’における参照クロマトグラフピークに帰属可能である。したがって、それぞれの分類されたクロマトグラフピークは、そのそれぞれの確率密度関数(すなわち、D(t)、H(t)、O(t)およびI(t))に従ってモデル化される。
【0023】
処理装置106は、クロマトグラフピークのタイプに従って(たとえば、各クロマトグラフピークの一時的帰属に従って)、クロマトグラフピークの分類を促進するために、登録手順を利用し得る。具体的には、処理装置106は、データベースに記憶された参照クロマトグラフピークを有する、検出された電気信号s(t)のクロマトグラフデータ内のクロマトグラフピークを、クロマトグラフピークの保持時間値を参照クロマトグラフピークの対応する参照保持時間値と比較することによって登録する。処理装置106は、各クロマトグラフピークの時間領域(時間軸に沿って)における状態(手段)位置を、メモリデバイス110内に記憶された参照クロマトグラフピークの位置に対応するデータと比較し得る。登録は、s(f(t))がデータベース・エントリr(t)に一致するように、単調変換関数f(t)を利用するものである。好ましくは、変換関数は線形(すなわち、f(t)=a・t+bであり、aおよびbはパラメータである)であるが、変換関数はまた、非線形であってもよい。変換関数は、一致得点(すなわち、対応するr(t)’sと一致するs(f(t))から得られる)がaおよびbの既定の範囲内で最大であるように選択される。これは、網羅的な検索技法を利用することによって、または好ましくはガウス・ニュートン法などの最適化手法を使用することによって達成され得る。あるいは、変換関数は、反復的に現れる(たとえば、2メチルウンデカンのクロマトグラフピーク)クロマトグラフピークを考慮に入れた方法で選択される。さらに別法として、登録は、その保持時間がそれぞれの公知の保持時間を有する、公知のクロマトグラフピークを発生するように公知の、特有の化学物質を(インレット112を介して)挿入するものである。変換関数は、登録を促進するために、これらの公知のクロマトグラフピークを占めるように構築される。
【0024】
時間領域内に対応する参照クロマトグラフピークに登録されたクロマトグラフピークは、それらのタイプ(たとえば、分離されたクロマトグラフピーク、参照クロマトグラフピークに実質的に一致するクロマトグラフピーク、未知のクロマトグラフピーク)に従って分類される。それぞれの分類されたクロマトグラフピークをモデル化するガンマ確率密度関数は、時間軸(たとえば、平均値μ=ζθ)、ζ、およびθに関してピークの位置によって特徴付けられる。処理装置106は、最初クロマトグラフピークをモデル化するために使用される各確率密度関数に対してこれらのパラメータを推定評価する。たとえば、セットD’における参照クロマトグラフピークに実質的に対応するクロマトグラフピークとして分類されたクロマトグラフピークは、確率密度関数D(t;ζ,θ)によってモデル化される。最初の推定評価を最適化するために、処理装置106は、クロマトグラム200におけるクロマトグラフピークをモデル化する、各確率密度関数(すなわち、評価関数)におけるパラメータの改善された解を検索するために、最急降下法(すなわち、勾配降下)などの最適化技法を利用する。ピーク位置周辺の重み付け平均を利用することは、確率密度関数が、最初の推定評価において少なくともその近傍で、十分に平滑であること、ならびに確率密度関数に対して方向導関数が存在することを実質的に確実にする。各確率密度関数に対してパラメータ・ベクトルpを実数値パラメータp=(μ、ζ、θ)の設定数のカラムベクトルと画定することによって、新しい解が次の反復規則に従って生成される。

【数5】

上式で「pdf」は確率密度関数r≧1を意味し、∇pdf(p)はpにおける特定の密度関数の勾配であり、sは選択されたステップサイズ・パラメータである。この方法に従って、パラメータ・ベクトルpは、候補解の評価をおそらく低減させるはずであるわずかな方向によって、各確率密度関数におけるモーメント・パラメータに調節される(すなわち、摂動される)。概して、各反復は、モデルエラーを低減するので、勾配降下法によって生成された反復解は、実質的な最適値p=(μ,ζ,θ)を網羅する。勾配降下法によって生成された反復解がローカルミニマムに捕捉される場合は、開示された技法は、シミュレーテッド・アニーリング法などを使用し得ることに留意されたい。あるいは、パラメータ・ベクトルpは、p=(μ,var,γ,κ)であるように、ガンマ分布関数(すなわち、またはその問題のための他の分布関数)の最初の4個のモーメントのカラムベクトルと画定されることがあり、その平均、分散、歪度、および尖度(特に、過剰尖度)は、それぞれμ=ζθ、var=ζθ、γ=2/√ζ、およびκ=6/ζによって与えられる。通常、モーメントの1つ(たとえば、尖度)は、最初の推定評価値に固定される一方で、勾配降下最適化手法は、評価関数におけるその他のモーメントに対して候補解を見出すことに進む。勾配降下最適化手法から獲得された結果p=(μ,var,γ)の良好な定性的測定は、尖度に対する計算値を最適化手法から獲得された値から推定された尖度の値と比較することによって、実質的に検証される可能性がある。あるいは、開示された技法は、ニュートン法、準ニュートン法、ガウス・ニュートン法、レーベンバーグ・マルカート・アルゴリズム(LMA)などの他の最適化法を利用してもよい。たとえば、ニュートン法では、ローカルミニマムへの収束は、勾配降下のローカルミニマムへの収束より大幅に速いが、確率分布関数のヘッシアン行列の逆数を計算する必要があり、これは問題になることが多い(たとえば、曖昧である)。
【0025】
確率密度関数の候補パラメータは、勾配降下最適化手法から獲得され、モデル関数を特徴付けるために利用される。最小二乗法は、モデル関数を実験データ(電気信号の実験データs(t))に適合させるために利用される。具体的には、時間依存モデル関数と、検出された電気信号の実験データs(t)におけるそれぞれの点の任意の整数(たとえば、n>0)との差の二乗和Sが以下のように最小化される。
【数6】
【0026】
処理装置106は、未知数より多い方程式があり得るので、最小二乗法によって、線形係数パラメータ(すなわち、スカラー重み)β、η、δおよびιをn個の方程式から決定する。モデル関数の最初の評価は、線形係数パラメータが実質的に公知であると画定される。時間依存モデル関数x(t)の最初の評価のグラフが、図2Bに示されている。モデル関数の恐らく改善された評価を獲得するために、勾配降下法が、確率密度関数のパラメータ(たとえば、μ、ζ、θ)の値を最適化するために、方程式(5)に従って再度適用され、小摂動はこれらのパラメータに導入される。各確率密度関数に対して以前計算されたパラメータ値p=(μ,ζ,θ)は、推奨されたローカルミニマムに対するそれぞれの候補推測として使用される。
【0027】
モデルエラーに関する定量的評価は、観察されたデータ(すなわち、電気信号)とモデル関数との差を取ることによって(処理装置108を介して)計算される。具体的には以下の通りである。
Δ=x(t)−s(t) (7)
あるいは、モデルエラーは、時間依存モデルエラー関数Δ(t)=x(t)−s(t)として画定される可能性がある。(世界的規模の)モデルエラー閾値パラメータがεに画定されるのは、Δ>εである場合は、モデル関数が観察されたデータに十分に適合しないと言われているためである。概して、モデルエラー閾値パラメータは、時間依存関数ε(t)であり得、その結果、不等式Δ(t)>ε(t)を満たすあらゆる時間価値に対して、モデル関数が観察されたデータにその時間価値において十分に適合しないと言われている。この場合、モデルエラーΔは、分解されなかった重複ピーク(たとえば、ピーク210)の状況などの、分解されなかった成分(たとえば、クロマトグラフピーク、ノイズ)に起因することが仮定される。示されたモデルエラーと分解されなかったクロマトグラフピークとの関係をさらに詳説するために、次にさらに図2Cを参照する。具体的には、図2Cは、時間依存モデルエラー閾値関数のグラフに関連して描かれた、図2Bの最初に評価されたモデル関数に起因する、計算された時間依存モデルエラーのグラフの概略図である。図2Cは、最大のモデルエラーはtとtとの間、特にtで発生し、これはピーク210の一時的近傍に対応することを示す。その近傍におけるモデルエラーが時間依存モデルエラー閾値パラメータに対する値を超えることを考えれば、したがってピーク210は合成物であると疑われる。したがって、このモデルエラーは、最初に評価されたモデル関数において未確認であり不明であった、分解されなかった、または隠蔽されていたクロマトグラフピークによって引き起こされる可能性がある。ピーク210の一時的近傍の分析は、モデルエラーがtおよびtにおいて実質的にごくわずかであり、ピーク210に対するモデル関数の最大値がtで発生することを示す。疑わしい合成ピーク内に隠蔽されたピークの数を評価するために、処理装置106は、たとえば、その二次導関数(たとえば、変曲点)に含まれていた情報などの、時間依存モデルエラー(関数)の曲率を分析してもよい。最初に評価されたモデル関数における単一ピーク(たとえば、確率密度関数
【数7】

によって)として実際にモデル化されたピーク210は、次に合成物(すなわち、複数のピークを含む)であると疑われ、複数qの確率密度関数(たとえば、
【数8】

を使用して剰余モデルエラーを考慮することによって再モデル化される。精製された時間依存モデル関数x(t)は、合成物であると疑われるピーク210(すなわち、または概ねその問題に対する他のピーク)に対して以下のような再モデル化された式を含むことによって画定される。
【数9】
【0028】
次に、精製された時間依存モデル関数が、現行のモデル関数として取られ、モデル処理は、精製されたモデル関数x、x、x…と方程式(7)におけるモデルエラーが最小化されるまで引き続いて取られることによって繰り返される。ピーク210が合成物である仮説の試験は、モデル処理における各反復に精製された時間依存モデル関数を引き続き使用することによって、モデルエラーが徐々に低減し、最小値に収束するかどうかを示すことによって、実質的に支持され得る。実際にモデルエラーが、具体的な数(たとえば、2)の確率密度関数をモデルピーク210に利用することによって、最小値に低減された場合は、ピーク210は合成物であり、また、ピーク210はその具体的な数の重複ピークから構成されていることを示すのにある程度役に立つ。それからピーク210が構成されたと画定される各ピークは、それぞれの確率密度関数によってモデル化される。例示を目的として、次に、図2Aのクロマトグラムに従ってモデル化された、図2Bの時間依存モデル関数の精密評価の概略図である、図2Dをさらに参照する。示された例では、ピーク210(図2B)は、2つの明確なピーク216および218(図2D)に分解され、それらの最大値はそれぞれtおよびt図2Bおよび図2C)で発生する。tおよびtは、モデル処理の開始時では同定されなかった。この時点で、これらの分解されたピークが、後続のモデル関数においてデータベース(すなわち、セットD’およびH’のいずれかにおいて)と比較するとき参照ピークに実質的に一致する場合は、これらのピークは、それらのそれぞれの決定された分類に従って再分類され、再モデル化される。ガンマ確率分布関数に対してカルバック・ライブラー発散(すなわち、情報発散)などの統計距離測定(すなわち、統計発散)は、データベースに記憶された参照ピークと、それぞれの参照ピークに対応すると疑われる新しく同定された分解されたピークとの一致の程度あるいは差の程度を決定するための試験として利用されてもよい。以下の方程式(9)により与えられる。
【数10】

上式で、Γ(ρ,σ)は、(すなわち、データベースに記憶された特定の参照クロマトグラフピークの)参照(R)クロマトグラフデータに関連したガンマ確率密度関数であり、Γ(ρ,σ)は、試験される(たとえば、新しく分解されたクロマトグラフピークに対応する)ガンマ確率密度関数であり、Ψ(ρ)はディガンマ関数である。パラメータρは形状パラメータζであり、σは速度パラメータであり(すなわち、逆目盛りパラメータσ=1/θとして画定される)、下付き文字「R」は参照データのパラメータを意味する。カルバック・ライブラー発散によって戻された最小値は、特定の対の確率分布関数すなわち、データベースに記憶された参照と、参照と実質的に一致する疑いで試験されるものに対する最良に達成した一致を示す。あるいは、カルバック・ライブラー発散は、他の対の参照と観察されたクロマトグラフピークとの差の程度を試験するために利用されてもよい。したがって、カルバック・ライブラー発散は、データベース内の多型マーカ(複数のマーカ)と所与の例(たとえば、多型比較試験など)の複数のそれぞれのピークとの差の程度を試験するために利用されてもよい。概して、多型マーカのライブラリを考えると、最大情報発散を有するマーカは最も検出される可能性がある。さらに別法として、(すなわち、ピークの)分布間の交点を評価するための他の統計距離測定は、カルバック・ライブラー発散基準の代わりに利用されてもよい。
【0029】
一旦モデルエラーが最小化されると、モデル処理が終了し、精製されたモデル関数が再現性の実質的に妥当なレベルで実質的に決定される。精製されたモデル関数におけるそれぞれの決定された係数β、η、δおよびιは、そのそれぞれの確率密度関数に対する重み付けされた項を表し、次いで確率密度関数はそれぞれのクロマトグラフピークをモデル化する。換言すると、各係数は、試料内の特定の化学物質に対する検出された濃度の相対値を表す。通常、所与の試料内の成分の不均衡な濃度の存在を占めるために、方程式(8)の係数は、四分位範囲(IQR)などの統計分散の程度を評価することによって正規化される。IQRは、第3四分位値と第1四分位値の差と定義され(Q3−Q1)、それぞれの検出されたピークを正規化するために計算され使用される(すなわち、(そのそれぞれの検出された最大濃度に対応する)各ピークの最大値をIQRで割る)。
【0030】
それにもかかわらず、その検知された濃度のある種の化合物は、統計的に有意でない可能性があるように、既定値より下回ることがある。たとえば、ある種のバイオマーカを画定する特定の化学物質の検出された低い濃度は、このバイオマーカに起因する特定の疾患が無いことを示す可能性がある。したがって、方程式(8)における各係数に対して、最小値を設定するそれぞれの閾値パラメータ(図示せず)が画定される。これは、その閾値パラメータを越した場合、その係数に対応する確率密度関数が有意であると見なされるからである。したがって、分解されたピークの1つが、たとえば重複ピーク現象に起因して事前に検知されたなった特定のバイオマーカの同定を必要とする化合物に対応する場合は、ここで検出され得る。システム100は、特定の試料が分析不可能(たとえば、モデル化の失敗)である場合に、表示(図示せず)を発生することができることに留意されたい。
【0031】
次に図3Aおよび図3Bを参照する。図3Aは、その異なる成分が、開示された技法の別の実施形態に従って構築され作動可能な、所与の試料(概ね300を参照)を構成する、重複クロマトグラフピーク内で成分を分解し同定する方法を示す概略構成図である。図3Bは、図3Aからの方法の継続を示す概略構成図である。手順302では、それぞれの参照クロマトグラフデータのデータベースを構築するように、複数の化合物からクロマトグラフデータが獲得される。図1に関して、システム100は、メモリ110内に記憶されるそれぞれの参照クロマトグラフデータのデータベースを構築するように、検出器106を介してクロマトグラフデータを複数の化合物(図示せず)から獲得する。
【0032】
手順304では、分析される試料のクロマトグラフデータが獲得される。この場合、クロマトグラフデータは、複数のピークを有するクロマトグラムとして表される。図1および図2Aに関して、システム100(図1)は、検出器106を介して分析される試料のクロマトグラフデータを獲得する。試料の獲得されたクロマトグラフデータは、複数のクロマトグラフピーク202、204、206、208、210、212および214を有するクロマトグラム200(図2A)として表される。
【0033】
手順306では、クロマトグラフデータ内の複数のピークは、データベース内に記憶された参照クロマトグラフデータ内の参照クロマトグラフピークに、各クロマトグラフピークの保持時間値を参照クロマトグラフピークの対応する参照保持時間値と比較することによって登録される。
【0034】
手順308では、獲得されたクロマトグラフデータの各ピークは、対応する参照クロマトグラフデータと比較することによって、少なくともその一時的帰属に従って分類される。
【0035】
手順310では、モデル関数は、各ピークが決定された分類に従ってそれぞれの確率密度関数によってモデル化されるように、確率密度関数の線形結合の和から構築される。ただし、各確率密度関数は少なくとも1つのパラメータによって特徴付けられる。方程式(2)に関して、モデル関数x(t)は、複数の確率密度関数D(t)、H(t)、O(t)およびI(t)を用いてモデル化される。
【0036】
手順312では、各確率密度関数のパラメータは、勾配降下最適化手法によって評価される。方程式(5)に関して、各確率密度関数の実数値パラメータp=(μ、ζ、θ)の既定数のカラムベクトルpが評価される。
【0037】
手順314では、確率密度関数の線形結合における線形係数パラメータは、モデル関数と対応するクロマトグラフデータとの差の二乗和Sを最小化するように決定される。方程式(6)に関して、線形係数パラメータβ、η、δおよびιは、方程式(6)に画定された和Sを最小化するように決定される。各確率密度関数のパラメータは、手順312において勾配降下最適化手法によって再度評価される。手順312および314は、和Sが最小化されるまで旋回される(すなわち、数回にわたって反復されることがある)。
【0038】
手順316では、時間依存モデルエラーは、モデル関数からクロマトグラフデータを引くことによって計算される。図2Cおよび方程式(7)に関して、モデルエラーは、観察されたデータ(すなわち、電気信号)とモデル関数との差を取ることによって計算される。
【0039】
手順318では、時間依存モデルエラー閾値パラメータが画定される。このパラメータは、時間依存関数として画定されてもよい。図2Cに関して、時間依存モデルエラー閾値パラメータεが描かれる。
【0040】
手順320では、合成物であると疑われるピークは、それに対して時間依存モデルエラーが時間依存モデルエラー閾値パラメータを超える時間値を評価することによって決定される。図2Aおよび図2Cに関して、ピーク210に一時的に対応する時間依存モデルエラーは、時間値tとtとの間のモデルエラー閾値パラメータを実質的に超える。
【0041】
手順322では、精製されたモデル関数は、複数の確率密度関数によって合成物であると疑われるピークを再モデル化することによって構築され、それぞれのピークの対応するモデルエラーを考慮に入れ、それによって合成ピークを分解する。引き続き精製されたモデル関数は、手順316におけるモデルエラーが最小化されるまで、反復して手順310におけるモデル関数と置換される。図2Aおよび方程式(8)に関して、ピーク210は、精製された時間依存モデル関数が画定されるように、複数の確率密度関数によって合成されたと疑われ、再モデル化される。精製された時間依存モデル関数は、方程式(2)における現行のモデル関数として取られ、モデル処理は、方程式(7)におけるモデルエラーが最小化されるまで、精製されたモデル関数を引き続いて取ることによって反復的に繰り返される(すなわち、ステップ310から)。
【0042】
手順324では、ピークに関連する線形係数パラメータは、各ピークのそれぞれの最大ピーク値をIQRで割ることによって正規化される。方程式(8)に関して、線形係数パラメータβ、η、δおよびιは、計算されたIQRによって正規化される。
【0043】
手順326では、有意なピークは、それぞれの確率密度関数の正規化された線形係数パラメータが、それぞれの閾値パラメータを超えるかどうかを評価することによって判定される。方程式(8)に関して、有意なピーク(図示せず)は、線形係数パラメータβ、η、δおよびιが、それぞれの閾値パラメータ(図示せず)を超えるかどうかを評価することによって判定される。
【0044】
手順328では、参照ピークと分解されたピークを含む複数のピークとの一致の程度が試験される。図1および図2Dならびに方程式(9)に関して、分解されたピーク216および218は、それらとメモリ110(図1)のデータベース内に記憶されたクロマトグラフ参照ピークとの一致の程度(または差の程度)を試験するために、カルバック・ライブラー発散で試験される。
【0045】
開示された技法は、上記に具体的に示され説明されたことに限定されないことは当業者には理解されよう。そうではなく、開示された技法の範囲は、以下の特許請求の範囲によってのみ画定される。
図1
図2A
図2B
図2C
図2D
図3A
図3B