IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 東ソー株式会社の特許一覧

特許7517036統計的手法によるクロマトグラムの分類方法
<>
  • 特許-統計的手法によるクロマトグラムの分類方法 図1
  • 特許-統計的手法によるクロマトグラムの分類方法 図2
  • 特許-統計的手法によるクロマトグラムの分類方法 図3
  • 特許-統計的手法によるクロマトグラムの分類方法 図4
  • 特許-統計的手法によるクロマトグラムの分類方法 図5
  • 特許-統計的手法によるクロマトグラムの分類方法 図6
  • 特許-統計的手法によるクロマトグラムの分類方法 図7
  • 特許-統計的手法によるクロマトグラムの分類方法 図8
  • 特許-統計的手法によるクロマトグラムの分類方法 図9
  • 特許-統計的手法によるクロマトグラムの分類方法 図10
  • 特許-統計的手法によるクロマトグラムの分類方法 図11
  • 特許-統計的手法によるクロマトグラムの分類方法 図12
  • 特許-統計的手法によるクロマトグラムの分類方法 図13
  • 特許-統計的手法によるクロマトグラムの分類方法 図14
  • 特許-統計的手法によるクロマトグラムの分類方法 図15
  • 特許-統計的手法によるクロマトグラムの分類方法 図16
  • 特許-統計的手法によるクロマトグラムの分類方法 図17
  • 特許-統計的手法によるクロマトグラムの分類方法 図18
  • 特許-統計的手法によるクロマトグラムの分類方法 図19
  • 特許-統計的手法によるクロマトグラムの分類方法 図20
  • 特許-統計的手法によるクロマトグラムの分類方法 図21
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-08
(45)【発行日】2024-07-17
(54)【発明の名称】統計的手法によるクロマトグラムの分類方法
(51)【国際特許分類】
   G01N 30/86 20060101AFI20240709BHJP
   G01N 30/88 20060101ALI20240709BHJP
【FI】
G01N30/86 B
G01N30/88 Q
G01N30/86 E
G01N30/86 H
【請求項の数】 5
(21)【出願番号】P 2020164304
(22)【出願日】2020-09-30
(65)【公開番号】P2022056512
(43)【公開日】2022-04-11
【審査請求日】2023-08-17
(73)【特許権者】
【識別番号】000003300
【氏名又は名称】東ソー株式会社
(72)【発明者】
【氏名】植松 原一
【審査官】倉持 俊輔
(56)【参考文献】
【文献】特開2020-020766(JP,A)
【文献】特開2019-211386(JP,A)
【文献】特表2010-519543(JP,A)
【文献】特表2016-532881(JP,A)
【文献】特開2003-194795(JP,A)
【文献】米国特許出願公開第2012/0096919(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G01N 30/86
(57)【特許請求の範囲】
【請求項1】
液体クロマトグラフィにより得られる糖化ヘモグロビンのクロマトグラムデータに対して、
前記クロマトグラムデータの開始点の出力値が0となるように一次加工を行い、
一次加工されたクロマトグラムの2以上の基準成分ピークの溶出時間が夫々一定となるように2以上の溶出時間範囲に分けて、時間軸の補正する二次加工を行い、
二次加工されたクロマトグラムデータの時間間隔を一定に揃える三次加工を行い、
三次加工されたクロマトグラムデータの特定成分ピークの出力値で任意の値を除算して得られる値を、前記三次加工されたクロマトグラムデータに乗算する四次加工を行い、
四次加工されたクロマトグラムデータの出力値のうち、規定値を超えている点について前記規定値に置き換える五次加工を行い、
得られた五次加工されたクロマトグラムデータのデータ群でクラスター解析を行い、最も類似性の高いクラスターを推定することを特徴とする方法。
【請求項2】
液体クロマトグラフィにより得られる糖化ヘモグロビンのクロマトグラムデータに対して、
前記クロマトグラムの2以上の基準成分ピークの溶出時間が夫々一定となるように2以上の溶出時間範囲に分けて、時間軸の補正する二次加工を行い、
二次加工されたクロマトグラムデータの時間間隔を一定に揃える三次加工を行い、
三次加工されたクロマトグラムデータの開始点の出力値が0となるように一次加工を行い、
一次加工されたクロマトグラムデータの特定成分ピークの出力値で任意の値を除算して得られる値を、前記一次加工されたクロマトグラムデータに乗算する四次加工を行い、
四次加工されたクロマトグラムデータの出力値のうち、規定値を超えている点について前記規定値に置き換える五次加工を行い、
得られた五次加工されたクロマトグラムデータのデータ群でクラスター解析を行い、最も類似性の高いクラスターを推定することを特徴とする方法。
【請求項3】
五次加工されたクロマトグラムデータから、未知検体のヘモグロビン種が正常なヘモグロビン種か異常なヘモグロビン種かを推定する、請求項1又は2に記載の方法。
【請求項4】
五次加工されたクロマトグラムデータから、未知検体のヘモグロビン種の種別を推定する、請求項1又は2に記載の方法。
【請求項5】
五次加工されたクロマトグラムデータから、未知検体が正常な環境で測定されたものか異常な環境で測定されたものかを推定する、請求項1又は2に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、クラスター解析を利用したクロマトグラムのパターン推定を行う方法に関するものである。
【背景技術】
【0002】
糖尿病の指標の1つであるヘモグロビン内の糖化ヘモグロビン量(s-A1c)は、臨床現場で多く使用されている。s-A1c%の測定に用いられる高効率液体クロマトグラフィー(HPLC)は、検体を分離し、定性/定量を行うもので、s-A1c%の値と、その分離パターン(クロマトグラム)を得ることができ、検体の特性等を見極め易いとされている。しかしながら、異常ヘモグロビン(鎌状赤血球症、サラセミア症など)と呼ばれる構成成分が通常とは異なるヘモグロビンはその種類も多く、さまざまな溶出パターンを示すため、正常なヘモグロビンと両者を判別することにはかなりの経験が必要とされる。
【0003】
そこで、過去に蓄積された異常ヘモグロビン検体で得られたクロマトグラムをデータベースとして蓄積し、異常と思われた検体が発生した場合、データベースを検索し、正常か異常か、その種別は何かを推定する方法が提案されている(例えば、非特許文献1参照)。
【0004】
また、サンプルのクロマトグラムと標準クロマトグラムの形状の類似性を定量的に把握するために、同じ保持時間に対応する両者の波形信号の相関係数を求めるという方法(例えば、特許文献1参照)、クロマトグラムの特徴点を事前に指定した上、データベース化し、取得したクロマトグラムとの類似性からヘモグロビン種を特定する方法(例えば、特許文献2参照)が提案されている。
【0005】
しかしながら、上記いずれの方法も操作者に煩雑な目視比較を要求したり、ユーザーの習熟度に依存したりと十分な解決方法となっていなかった。
【先行技術文献】
【特許文献】
【0006】
【文献】特開平9-251016号公報
【文献】特開2016-133486号公報
【非特許文献】
【0007】
【文献】Philippe Joly他,Ann Biol Clin 2010;68(2)254-256.
【発明の概要】
【発明が解決しようとする課題】
【0008】
クロマトグラムのパターン推定から検体の特性を推測することを可能とする方法を提供する。
【課題を解決するための手段】
【0009】
前記課題を解決するために、本発明者らは鋭意検討を重ねた結果、本発明に到達した。
【0010】
すなわち本発明の一態様は、液体クロマトグラフィにより得られる糖化ヘモグロビンのクロマトグラムデータに対して、
前記クロマトグラムデータの開始点の出力値が0となるように一次加工を行い、
一次加工されたクロマトグラムの2以上の基準成分ピークの溶出時間が夫々一定となるように2以上の溶出時間範囲に分けて、時間軸の補正する二次加工を行い、
二次加工されたクロマトグラムデータの時間間隔を一定に揃える三次加工を行い、
三次加工されたクロマトグラムデータの特定成分ピークの出力値で任意の値を除算して得られる値を、前記三次加工されたクロマトグラムデータに乗算する四次加工を行い、
四次加工されたクロマトグラムデータの出力値のうち、規定値を超えている点について前記規定値に置き換える五次加工を行い、
得られた五次加工されたクロマトグラムデータのデータ群でクラスター解析することを特徴とする。
【0011】
これらの工程は、一次加工、二次加工、三次加工、四次加工、五次加工の順で実施されるが、二次加工、三次加工、一次加工、四次加工、五次加工の順で実施しても、同じ計算結果が得られるため、データ加工の順番に限定されるものではない。
【0012】
以下、本発明について詳細に説明する。
【0013】
クロマトグラムデータのベースライン位置の違いは、パターンを比較する場合、障害となることがある。機器間差、カラムロット差、バッファロット差、その他測定環境差等により、ベースラインの位置や成分ピークの溶出時間に違いが生じる。
【0014】
図1のように、同じようなクロマトグラムデータでも、測定開始時点でのベース位置がゼロの場合と、オフセットを持った場合がある。各成分の定性/定量結果には影響がないが、クロマトグラムデータをパターンとして比較する場合、両者は同類と判定され難くなる。測定開始時点でのベース位置は同じ位置であることが望ましい。
【0015】
そこで、図1bのようなクロマトグラムデータについて開始点での出力値(Y1)を全データ点から差し引き、図1aのようなオフセットの無いクロマトグラムデータに統一する。すなわち、クロマトグラムデータに対して一次加工を行う。
【0016】
また、溶出パターンにずれが生じ、異なるパターンとして認識される可能性がある。そこで、2以上の成分を基準ピークとして指定し、溶出時間が夫々一定となるよう、2以上の溶出時間範囲を分けて時間軸の補正を実施する。糖化ヘモグロビンのクロマトグラムのパターンを比較する場合、s-A1cピークとA0ピークが重要視されることから、s-A1cピークとA0ピークを基準ピークとして指定することが好ましく、溶出時間範囲を分ける時間は、この2成分の溶出時間の谷間の時間帯を指定することが好ましい。
【0017】
まず、事前にs-A1c基準溶出時間(Ts0_A)、A0ピークの基準溶出時間(Ts0_B)及び補正係数の切替時間(T0)を決めておく。この基準溶出時間と補正係数切替時間は、日常の検査/測定で得られた溶出時間の平均値を使用したり、標準試料(キャリブレータやコントロール検体)の値を使用しても良く、特に限定は無い。
【0018】
次に、未知クロマトグラムに対して時間軸の補正を行う。得られたs-A1c溶出時間(Tu1_A)、および、A0ピークの溶出時間(Tu1_B)と前記の基準溶出時間との比(補正係数)を算出する。
s-A1cピークの補正係数(k1)=(Ts0_A)/(Tu1_A)
A0ピークの補正係数(k2) =(Ts0_B)/(Tu1_B)
次に、前記2つの補正係数でクロマトグラムの時間軸の補正を行うが、前記切替時間(T0)は、s-A1cピークとA0ピークが最も分離できている時間(谷の部分)に近い値が良い。未知のクロマトグラムに対して、個別に切り替える時間(T0)を指定しても良いが、全ての未知もクロマトグラムに対し同一の時間を使用しても良い。
【0019】
クロマトグラムの開始時間(通常はゼロ分)から、切り替える時間(T0)までは、各クロマトグラムのデータ点の時間の項にs-A1cピークの補正係数(k1)を乗算し、切り替える時間(T0)以降は、各クロマトグラムのデータ点の時間の項にA0ピークの補正係数(k2)を乗算し、s-A1cピークとA0ピークの溶出時間が一定となるクロマトグラムデータとする。すなわち、クロマトグラムデータに対して二次加工を行う(図2参照)。
【0020】
次に、二次加工を行ったクロマトグラムデータに対して、ゼロ分~溶出時間範囲を分ける時間までと、溶出時間範囲を分ける時間以降でサンプリングピッチを揃える補間処理を施す。すなわち、クロマトグラムデータに対して三次加工を行う(図3参照)。
【0021】
次に、三次加工を行ったクロマトグラムデータに対して特定成分ピークを指定し、その出力値で任意の値を除算する。特定成分ピークとしては、A0ピーク以外の基準となるピークを指定することが好ましく、s-A1cピークが特に好ましい。任意の値は特定成分ピークの出力値を統一するための値であり、除算した結果が0.2~0.6となるような値を選択するとよい。任意の値を30.0とした場合、任意の値を特定成分ピークの出力値で除算すると、出力値が15.0の場合には30.0/15.0=2.0、出力値が40.0の場合には30.0/40.0=0.75となる。この除算した結果をクロマトグラムデータの全点に対して乗算する。すなわち、クロマトグラムデータに対して四次加工を行う。
【0022】
次に、四次加工を行ったクロマトグラムデータの出力値のうち、規定値を超えている点について当該規定値に置き換える。規定値は、ピークとして一番大きいA0ピークの値を参考に決めればよく、それ以外のピークが規定値を超えてしまわないように設定することが好ましい。上記のようにして、クロマトグラムデータに対して五次加工を行う。
【0023】
【表1】
【0024】
例えば、表1のようなクロマトグラムデータがあった場合、まず、時間軸方向の補正を実施する。ここでは、s-A1cピークの基準溶出時間を0.657分、A0ピークの基準溶出時間を1.010分、切り替え時間を0.850分とした。各検体の測定結果からs-A1cピークの溶出時間、A0ピークの溶出時間を取得し、前記基準溶出時間との比から2つの補正係数(k1、k2)を算出した。データAのk1は0.9752、k2は0.9902、データBのk1は0.9517、k2は0.9934と夫々算出された(表2参照)。
【0025】
【表2】
【0026】
次に、各クロマトグラムの時間軸方向の補正を行う。ここでは切り替え時間を0.850分と設定したので、0分~0.850分までは第一の補正係数k1、0.850分以降は第二の補正係数k2を用いて補正した。
【0027】
データAでは、生データに対して0分~0.850分まではk1:0.9752を乗じ、0.850分以降はk2:0.9902を乗じて補正時間を算出した。データBでは、生データに対して0分~0.850分まではk1:0.9517を乗じ、0.850分以降はk2:0.9934を乗じて補正時間を算出した(二次加工)。この処理により、データ毎に時間の間隔(ピッチ)が異なるようになり、以降の定量計算等に支障が出るため、補間処理により時間の間隔(ピッチ)を揃える処理を施した(三次加工)。ここでは、クロマトグラムを取得した場合と同じ200msに揃えた。表1からも分かるように、この処理により時間間隔が同じになり、s-A1cの基準時間である0.657分となった。同様に、A0の基準時間である1.010分となった。このようにデータA、Bでs-A1cのピーク、A0のピークの溶出時間が各々の基準時間と合致するようになった。なお、ここでは、オフセット処理も併せて実施した(一次加工)。
【0028】
次に、出力軸の規格化(高さ)を実施した。ここでは、s-A1cピークの高さを30となるように規格化、また、規格化後、100を超えた場合は、全て100とする処理を実施した(四次加工及び五次加工)。
【0029】
【表3】
【0030】
データAでは0.657分のs-A1cピーク高さが7.588であり、高さ規格化の補正係数fは3.954となる。このことから、規格化後の値が25.293を超えた場合は補正出力(高さ)が100となる。データBでは0.657分のs-A1cピーク高さが31.604であり、高さ規格化の補正係数fは0.949となる。このことから、規格化後の値が105.352を超えた場合は補正出力(高さ)が100となる(表3参照)。
【0031】
このようにデータA、Bでs-A1cの出力が30に統一され、A0のピークは100を最大とした台形状の波形となった。
【0032】
クロマトグラムデータについて一次加工、二次加工、三次加工、四次加工、五次加工もしくは、二次加工、三次加工、一次加工、四次加工、五次加工を順次行うことにより、特定成分ピーク(s-A1c、A0ピーク)の溶出時間は一定となり、特定成分ピーク(s-A1cピーク)の出力値は同じとなり、巨大なA0ピーク部は台形状の波形となる(図4b、5b参照)。この処理により、課題であったs-A1cを含め他の微小なピークの強度、形状、溶出位置の変化が僅かでも、クロマトグラムのパターンの違いを識別し易くなる。また、s-A1cピークの強度のみに違いがあるクロマトグラムであっても、異なるクロマトグラムパターンであると認識され難くなる。
【0033】
上述の加工処理を行ったクロマトグラムデータ群に対して、クラスター解析を実施し、クラスター分類及び前記クラスターにおける「クラスター中心」を算出する。クラスター中心はそのクラスターに属するとされたクロマトグラムデータの平均を表す波形となる。
【0034】
クラスター解析の手法及びそのパラメータは、多種存在するが、特に限定するものではない。一例として、「階層的クラスター解析」の手法で下記のパラメータを使用することでクロマトグラムデータの特徴を顕著に反映する結果が得られる。
【0035】
クラスター :観測値
クラスター方法:最長距離
距離タイプ :コサイン距離
クラスター数 :n
未知検体についても、クロマトグラムデータについて上述した一次加工、二次加工、三次加工、四次加工、五次加工もしくは、二次加工、三次加工、一次加工、四次加工、五次加工を順次行った後、クラスター解析を行って、各クラスターのクラスター中心と比較し、どのクラスター分類に最も近いかを判断することが可能となる。
【0036】
クラスターの距離計算方法として「コサイン距離」を選択している場合、最も大きな値(1に近い値)を示したクラスターが、最も類似性が高いと判断することができる。
【0037】
また、正常なクロマトグラムパターンと推測される特定のクラスターとのコサイン距離を算出し、その数値の大小で、未知検体のヘモグロビン種が正常なヘモグロビン種か異常なヘモグロビン種かを推定するという態様も利用可能である。
【0038】
なお、(1)検体に劣化が無い、(2)検体そのものが正常なヘモグロビン種である、(3)装置、測定状態等のコンディションが良好であること、の全てが成立した場合、正常なクロマトグラムデータが得られる可能性が高いため、それらのデータ群が属しているクラスターを特定のクラスターに選択しておくことが好ましい。
【0039】
さらに、クロマトグラムデータ群が多種大量にあり、各クラスターがどのような特性から分類されているかを推測できる情報が十分にあれば、未知検体のヘモグロビン種の種別を推定する、未知検体が正常な環境で測定されたものか異常な環境で測定されたものかを推定するといった態様も利用可能である。
【発明の効果】
【0040】
本発明により、クロマトグラムのパターン推定から検体の特性を推測することが可能となる。
【図面の簡単な説明】
【0041】
図1】クロマトグラムデータの一次加工を模式的に示した図である。
図2】クロマトグラムデータの二次加工を模式的に示した図である。
図3】クロマトグラムデータの三次加工を模式的に示した図である。
図4】クロマトグラムデータの四次加工、五次加工を模式的に示した図である。
図5】クロマトグラムデータの四次加工、五次加工を模式的に示した図である。
図6】実施例で用いたシステム構成を示した図である。
図7】クロマトグラムデータのデータ加工の流れを示した図である。
図8】クロマトグラムデータに対して、データ加工を行う前の状態を示した図である。
図9】クロマトグラムデータに対して、一次加工、二次加工及び三次加工を行う様子を示した図である。
図10】一次加工、二次加工及び三次加工されたクロマトグラムデータに対して、四次加工及び五次加工を行う様子を示した図である。
図11】実施例で得られた樹形図を模式的に示した図である。
図12】本発明の規格化処理にて得られた樹形図を示した図である。
図13】出力軸(高さ)の規格化処理のみにて得られた樹形図を示した図である。
図14】17に分類されたクラスターのうち、1から9に分類されたクラスター中心(群の平均クロマトグラム)を示した図である。
図15】17に分類されたクラスターのうち、10から17に分類されたクラスター中心(群の平均クロマトグラム)を示した図である。
図16】「クラスター解析ツール」により、未知検体を解析した結果の一例を示した図である。
図17】「クラスター解析ツール」により、未知検体を解析した結果の一例を示した図である。
図18】「クラスター解析ツール」により、未知検体を解析した結果の一例を示した図である。
図19】「クラスター解析ツール」により、未知検体を解析した結果の一例を示した図である。
図20】最も近いクラスター種とのコサイン距離とデータ数のヒストグラムである。
図21】各データと夫々の最も近いクラスター種とのコサイン距離をプロットしたものである。
【実施例
【0042】
以下に本発明の実施例を説明するが、本発明はこれら実施例により何ら制限されるものではない。
【0043】
図6に検証に使用したシステム構成を示す。なお、検証には、東ソー(株)製「グリコヘモグロビン分析計HLC-723GX」で得られたクロマトグラムを用いた。データ取得には、全て、東ソー(株)が提供している、同機種/モード用の専用溶離液、専用カラム、標準測定条件で実施した。検証に使用したグリコヘモグロビン分析計は、組成の異なる3種類の溶離液を指定した時間で切り替えるグラジエントを使用したイオン交換クロマトグラフィである。クラスター解析にはOrigin2020(LightStorn社)と、マイクロソフト社の表計算ソフトでEXCELを使用して実施した。
【0044】
まず、データ記憶、管理プログラム「RP+」に保存された多数のクロマトグラムデータ(時間、出力)を抽出し、後述するデータ加工を行った。図7はクロマトグラムの加工の流れを示した図である。
【0045】
図8に示す2つのクロマトグラムを例として手順を示す。まず事前に、s-A1cとA0ピークの溶出時間に範囲内で時間軸の補正式の切替時間と、s-A1cとA0ピークの基準となる溶出時間を指定しておく。更に一次加工としてデータ1、データ2のデータ収集開始点(0.00分)時の出力値を差し引き、ベースライン位置がどのデータでも0.0とした。
【0046】
次に、二次加工としてs-A1cピーク及びA0ピークを同定し、その溶出時間を取得する。s-A1cピークの溶出時間と基準s-A1cピークの溶出時間の比率から時間の補正係数を算出し、A0ピークの溶出時間と基準A0ピークの溶出時間の比率から時間の補正係数を算出し、測定開始から切り替える時間までは、s-A1cピークから得られた前記補正係数にて、切り替える時間から測定終了までは、A0ピークから得られた前記補正係数にて、時間軸を補正した。
【0047】
二次加工を行うことで、時間間隔がデータにより異なってくることから、三次加工として時間間隔が同じになるように補間処理を施した(図9参照)。
【0048】
次に、四次加工としてs-A1cピークのピーク高さを算出し、基準値30との比率を算出し、その比率を出力値に乗じて、出力軸を規格化した。
【0049】
次に、五次加工として100.0を超えたデータ点は、全て100.0とした(図10参照)。
【0050】
データ記憶、管理プログラムに保存された605件のクロマトグラムデータ(時間、出力)に対してデータ加工を行った後、クラスター解析を実施し、クラスター分類及び前記クラスターにおけるクラスター中心(平均的なクロマトグラム)を算出した。なお、特定成分ピークが何らかの理由で特定できない場合は、「エラー」として、データ加工は行わなかった。
【0051】
クラスター解析の条件は以下の通りである。
【0052】
クラスター: 観測値
クラスター方法:最長距離
距離タイプ :コサイン距離
標準化変数 :なし
コサイン距離(Y軸)を0.56とした場合、A1、A2の3つのグループに分けることができた。更に、コサイン距離(Y軸)を0.34とした場合、前記A1のグループは4つ(B1、B2、B3、B4)に分けられ、併せて5つのグループに分けることができた。更に、コサイン距離(Y軸)を0.07とした場合、併せて17個のグループに分けることができた(図11参照)。
【0053】
(実施例1)
異常ヘモグロビン種を含む検体を測定し、クロマトグラム、定量/定性結果を取得しクラスター解析を実施した。また、本発明の効果を明確にするため、時間軸の補正を行わないでクラスター解析を行った場合との比較も同時に実施した。
【0054】
図12に本発明の時間軸の補正および出力軸(高さ)の規格化処理にて得られた樹形図、比較にために、図13に出力軸(高さ)の規格化処理のみにて得られた樹形図を夫々示す。
【0055】
クラスター1~17に分類されたデータ数を表4に示す。このように分類されたデータの平均から「クラスター中心」を算出する。
【0056】
図14及び図15に17に分類された各クラスター中心(群の平均クロマトグラム)を示す。図14a及び図15aは高さ規格化のみで解析した結果であり、図14b及び図15bは本発明の時間補正および高さ規格化を実施した場合の結果を示した図である。図中、クラスター#の右のnは、そのクラスターに属するとされたデータ数を示している。これまでの知見により、高さのみの規格化処理(図14a)ではクラスター4と6が、本発明の処理(図14b)ではクラスター4と5が夫々正常なヘモグロビン種のクロマトグラムであることが分かる。
【0057】
また、高さのみの規格化処理(図14a、15a)の場合と、本発明の処理(図14b、15b)では、分類のされ方が異なった。
【0058】
【表4】
【0059】
次に、ここで結果を用いて、未知の検体のクロマトグラムの分類の検証を行った。検証方法は、前述のクラスター解析で用いた方法で実施した(未知検体数:1166件)。前記で得られた各クラスター中心波形とのコサイン距離を算出し、最も大きな値(1.00に近い)を示すクラスターが、最も類似性が高いと推測した。また、ここでも、高さの規格化処理のみを行った場合と比較を行った。
【0060】
検証に用いたクロマトグラムは、前述のクラスター解析で使用したものとは異なるものを選択している。図16~19に、検証に用いたクロマトグラムと、最も類似性が高いとされたクラスター中心波形(クロマトグラム)を重ね描いた図を示す。いずれも、図のaは高さの規格化処理のみ実施した場合の結果、図のbは、本発明の処理を実施した場合の結果を示している。
【0061】
図16はデータ#31の結果である。高さの規格化処理のみ実施した場合はクラスター5、本発明の処理を実施した場合はクラスター5と夫々判定された。高さの規格化処理のみ実施した場合では、クラスター中心波形(クロマトグラム)と大きな差異が見てとれる。特に、A0ピークの前半部に大きな差があり、コサイン距離は0.90程度であった。一方、本発明の処理を実施した場合では、クラスター中心波形(クロマトグラム)と類似性が非常に高く、コサイン距離は0.99以上であった。
【0062】
図17はデータ#101の結果である。高さの規格化処理のみ実施した場合はクラスター5、本発明の処理を実施した場合はクラスター4と夫々判定された。高さの規格化処理のみ実施した場合では、クラスター中心波形(クロマトグラム)と大きな差異が見てとれる。特に、A0ピークの前半部に大きな差があり、コサイン距離は0.95程度であった。一方、本発明の処理を実施した場合では、クラスター中心波形(クロマトグラム)と類似性が非常に高く、コサイン距離は0.99以上であった。
【0063】
図18はデータ#750の結果である。高さの規格化処理のみ実施した場合はクラスター5、本発明の処理を実施した場合はクラスター5と夫々判定された。高さの規格化処理のみ実施した場合では、クラスター中心波形(クロマトグラム)と大きな差異が見てとれる。特に、A0ピークの前半部に大きな差があり、コサイン距離は0.88程度であった。一方、本発明の処理を実施した場合では、クラスター中心波形(クロマトグラム)と類似性が非常に高く、コサイン距離は0.99以上であった。
【0064】
図19はデータ#990の結果である。高さの規格化処理のみ実施した場合はクラスター5、本発明の処理を実施した場合はクラスター5と夫々判定された。高さの規格化処理のみ実施した場合では、クラスター中心波形(クロマトグラム)と大きな差異が見てとれる。特に、A0ピークの前半部に大きな差があり、コサイン距離は0.91程度であった。一方、本発明の処理を実施した場合では、クラスター中心波形(クロマトグラム)と類似性が非常に高く、コサイン距離は0.99以上であった。
【0065】
実施したケースにおいて、図16(データ#31)、図18(データ#750)、図19(データ#990)ではs-A1cピークの溶出時間と、選択されたクラスター中心波形(クロマトグラム)のs-A1cピークの溶出時間に差異があることから、高さの規格化処理のみでは類似性が低くなっている。一方、本発明の場合、s-A1cピークおよびA0ピーク溶出時間が同じになるように処理されていることから、溶出時間の変動があるようなケースでも1.00に近いコサイン距離が得られるようになる。つまり、類似性の判断がより正確に行えていることを示している。
【0066】
(実施例2)
未知検体数:1166件の全データを用いて集計を行った。図20は、最も近いクラスター種とのコサイン距離とデータ数のヒストグラムである。横軸はコサイン距離(区間)、縦軸は頻度(データ数)をプロットしたものである。図21は、横軸はデータ#、縦軸は最も近いクラスター種とのコサイン距離をプロットしたものである。ここから分かるように、高さの規格化処理のみ実施した場合は、0.85~0.95程度であり、0.985以上となるデータが殆どないのに対して、本発明の処理を実施した場合は、殆どのデータで0.99以上の値となっている。
【0067】
以上説明の通り、本発明の方法を用いることで、施設間差、装置間差、使用環境等に起因する溶出時間の変動をキャンセルでき、その結果、事前に取得した多様なクロマトグラム群で統計計算された複数のクラスター中心波形(クロマトグラム)と、未知検体測定で得られるクロマトグラムとの類似性を的確に、より精度よく類推することが可能となり、自動で、異常ヘモグロビン種の特定等を推測することも容易となった。
【符号の説明】
【0068】
1.グリコヘモグロビン分析計
2.バッファ1
3.バッファ2
4.バッファ3
5.脱気装置
6.バッファ1用流路切り替え替機構
7.バッファ2用流路切り替え替機構
8.バッファ3用流路切り替え替機構
9.送液ポンプ
10.検体希釈/注入機構
11.ラインフィルタ
12.プレヒートコイル
13.分析カラム
14.可視光検出器
15.恒温槽
16.データ処理用PC
17.データ記憶、管理プログラム
18.クラスター解析用PC
19.クラスター解析プログラム
20.クラスター解析ツール
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21