IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 東ソー株式会社の特許一覧

特許7443815統計的手法によるクロマトグラムの分類方法
<>
  • 特許-統計的手法によるクロマトグラムの分類方法 図1
  • 特許-統計的手法によるクロマトグラムの分類方法 図2
  • 特許-統計的手法によるクロマトグラムの分類方法 図3
  • 特許-統計的手法によるクロマトグラムの分類方法 図4
  • 特許-統計的手法によるクロマトグラムの分類方法 図5
  • 特許-統計的手法によるクロマトグラムの分類方法 図6
  • 特許-統計的手法によるクロマトグラムの分類方法 図7
  • 特許-統計的手法によるクロマトグラムの分類方法 図8
  • 特許-統計的手法によるクロマトグラムの分類方法 図9
  • 特許-統計的手法によるクロマトグラムの分類方法 図10
  • 特許-統計的手法によるクロマトグラムの分類方法 図11
  • 特許-統計的手法によるクロマトグラムの分類方法 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-27
(45)【発行日】2024-03-06
(54)【発明の名称】統計的手法によるクロマトグラムの分類方法
(51)【国際特許分類】
   G01N 30/86 20060101AFI20240228BHJP
   G01N 30/88 20060101ALI20240228BHJP
【FI】
G01N30/86 G
G01N30/88 Q
G01N30/86 T
G01N30/86 H
G01N30/86 E
【請求項の数】 5
(21)【出願番号】P 2020029258
(22)【出願日】2020-02-25
(65)【公開番号】P2021135083
(43)【公開日】2021-09-13
【審査請求日】2023-01-18
(73)【特許権者】
【識別番号】000003300
【氏名又は名称】東ソー株式会社
(72)【発明者】
【氏名】植松 原一
【審査官】草川 貴史
(56)【参考文献】
【文献】特許第5948727(JP,B2)
【文献】国際公開第2013/001618(WO,A1)
【文献】特開平02-259421(JP,A)
【文献】特開2002-090299(JP,A)
【文献】特表2008-547025(JP,A)
【文献】米国特許出願公開第2007/0218505(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G01N 30/00-30/96
B01J 20/281-20/292
(57)【特許請求の範囲】
【請求項1】
液体クロマトグラフィにより得られる糖化ヘモグロビンのクロマトグラムデータに対して、
前記クロマトグラムデータの開始点の出力値が0となるように一次加工を行い、
一次加工されたクロマトグラムデータのs-A1cピークの出力値で任意の値を除算して得られる値を、前記一次加工されたクロマトグラムデータに乗算する二次加工を行い、
前記任意の値が前記除算して得られる値が0.2~0.6となる値であり、
二次加工されたクロマトグラムデータの出力値のうち、規定値を超えている点について前記規定値に置き換える三次加工を行い、
得られた三次加工されたクロマトグラムデータのデータ群でクラスター解析することを特徴とする方法。
【請求項2】
液体クロマトグラフィにより得られる未知検体の糖化ヘモグロビンのクロマトグラムデータに対して、請求項1に記載の方法でクラスター解析を行い、最も類似性の高いクラスターを推定する方法。
【請求項3】
三次加工されたクロマトグラムデータから、未知検体のヘモグロビン種が正常なヘモグロビン種か異常なヘモグロビン種かを推定する、請求項2に記載の方法。
【請求項4】
三次加工されたクロマトグラムデータから、未知検体のヘモグロビン種の種別を推定する、請求項2に記載の方法。
【請求項5】
三次加工されたクロマトグラムデータから、未知検体が正常な環境で測定されたものか異常な環境で測定されたものかを推定する、請求項2に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、クラスター解析を利用したクロマトグラムのパターン推定を行う方法に関するものである。
【背景技術】
【0002】
糖尿病の指標の1つであるヘモグロビン内の糖化ヘモグロビン量(s-A1c)は、臨床現場で多く使用されている。s-A1c%の測定に用いられる高効率液体クロマトグラフィー(HPLC)は、検体を分離し、定性/定量を行うもので、s-A1c%の値と、その分離パターン(クロマトグラム)を得ることができ、検体の特性等を見極め易いとされている。しかしながら、異常ヘモグロビン(鎌状赤血球症、サラセミア症など)と呼ばれる構成成分が通常とは異なるヘモグロビンはその種類も多く、さまざまな溶出パターンを示すため、正常なヘモグロビンと両者を判別することにはかなりの経験が必要とされる。
【0003】
そこで、過去に蓄積された異常ヘモグロビン検体で得られたクロマトグラムをデータベースとして蓄積し、異常と思われた検体が発生した場合、データベースを検索し、正常か異常か、その種別は何かを推定する方法が提案されている(例えば、非特許文献1参照)。
また、サンプルのクロマトグラムと標準クロマトグラムの形状の類似性を定量的に把握するために、同じ保持時間に対応する両者の波形信号の相関係数を求めるという方法(例えば、特許文献1参照)、クロマトグラムの特徴点を事前に指定した上、データベース化し、取得したクロマトグラムとの類似性からヘモグロビン種を特定する方法(例えば、特許文献2参照)が提案されている。
【0004】
しかしながら、上記いずれの方法も操作者に煩雑な目視比較を要求したり、ユーザーの習熟度に依存したりと十分な解決方法となっていなかった。
【先行技術文献】
【特許文献】
【0005】
【文献】特開平9-251016号公報
【文献】特開2016-133486号公報
【非特許文献】
【0006】
【文献】Philippe Joly他,Ann Biol Clin 2010;68(2)254-256.
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明の目的は、クロマトグラムのパターン推定から検体の特性を推測することを可能とする方法を提供する。
【課題を解決するための手段】
【0008】
前記課題を解決するために、本発明者らは鋭意検討を重ねた結果、本発明に到達した。
【0009】
すなわち本発明の一態様は、液体クロマトグラフィにより得られる糖化ヘモグロビンのクロマトグラムデータに対して、前記クロマトグラムデータの開始点の出力値が0となるように一次加工を行い、一次加工されたクロマトグラムデータの特定成分ピークの出力値で任意の値を除算して得られる値を、前記一次加工されたクロマトグラムデータに乗算する二次加工を行い、二次加工されたクロマトグラムデータの出力値のうち、規定値を超えている点について前記規定値に置き換える三次加工を行い、得られた三次加工されたクロマトグラムデータのデータ群でクラスター解析することを特徴とする。
【0010】
以下、本発明について詳細に説明する。
【0011】
クロマトグラムデータのベースライン位置の違いは、パターンを比較する場合、障害となることがある。機器間差、バッファロット差、その他測定環境差等により、ベースラインの位置に違いが生じる。図1のように、同じようなクロマトグラムデータでも、測定開始時点でのベース位置がゼロの場合と、オフセットを持った場合がある。各成分の定性/定量結果には影響がないが、クロマトグラムデータをパターンとして比較する場合、両者は同類と判定され難くなる。測定開始時点でのベース位置は同じ位置であることが望ましい。
そこで、図1bのようなクロマトグラムデータについて開始点での出力値(Y1)を全データ点から差し引き、図1aのようなオフセットの無いクロマトグラムデータに統一する。すなわち、クロマトグラムデータに対して一次加工を行う。
【0012】
次に、一次加工を行ったクロマトグラムデータに対して特定成分ピークを指定し、その出力値で任意の値を除算する。特定成分ピークとしては、A0ピーク以外の基準となるピークを指定することが好ましく、s-A1cピークが特に好ましい。任意の値は特定成分ピークの出力値を統一するための値であり、除算した結果が0.2~0.6となるような値を選択するとよい。除算した結果をクロマトグラムデータの全データ点に対して乗算する。すなわち、クロマトグラムデータに対して二次加工を行う。
【0013】
次に、二次加工を行ったクロマトグラムデータの出力値のうち、規定値を超えている点について当該規定値に置き換える。規定値は、ピークとして一番大きいs-A1cピークの値を参考に決めればよく、それ以外のピークが規定値を超えてしまわないように設定することが好ましい。上記のようにして、クロマトグラムデータに対して三次加工を行う。
【0014】
【表1】
【0015】
例えば、表1のようなクロマトグラムデータがあった場合、まず0.0分(#1)の出力値が0.0となるように、#1の出力値を#1~22から減ずる(一次加工)。次に、特定成分ピークを4.5分(#10)に現れるs-A1cピークとし、任意の値を30.0とした場合、任意の値を特定成分ピークの出力値で除算すると、データ1は30.0/15.0=2.0、データ2の場合30.0/40.0=0.75となる。この比率を、#1~22の出力値に乗算する(二次加工)。次に、規定値を100.0として、二次加工後の出力値が100.0を超えた場合、当該出力値は100.0に置き換える。データ1の場合、#15~19が100.0を超えるため、これらの出力値はすべて100.0とする。データ2の場合、#16~18が100.0を超えるため、これらの出力値はすべて100.0とする(三次加工)。
【0016】
クロマトグラムデータについて一次加工、二次加工、三次加工を順次行う(以下、「規格化」と表現することがある)ことにより、特定成分ピーク(s-A1cピーク)の出力値は同じとなり、巨大なA0ピーク部は台形状の波形となる(図2b、3b参照)。この処理により、課題であったs-A1cを含め他の微小なピークの強度、形状、溶出位置の変化が僅かでも、クロマトグラムのパターンの違いを識別し易くなる。また、s-A1cピークの強度のみに違いがあるクロマトグラムであっても、異なるクロマトグラムパターンであると認識され難くなる。
【0017】
上述の加工処理を行ったクロマトグラムデータ群に対して、クラスター解析を実施し、クラスター分類及び前記クラスターにおける「クラスター中心」を算出する。クラスター中心はそのクラスターに属するとされたクロマトグラムデータの平均を表す波形となる。
【0018】
クラスター解析の手法及びそのパラメータは、多種存在するが、特に限定するものではない。一例として、「階層的クラスター解析」の手法で下記のパラメータを使用することでクロマトグラムデータの特徴を顕著に反映する結果が得られる。
クラスター :観測値
クラスター方法:最長距離
距離タイプ :コサイン距離
クラスター数 :n
【0019】
未知検体についても、クロマトグラムデータを規格化することにより、クラスター解析を行って、各クラスターのクラスター中心と比較し、どのクラスター分類に最も近いかを判断することが可能となる。
クラスターの距離計算方法として「コサイン距離」を選択している場合、最も大きな値(1に近い値)を示したクラスターが、最も類似性が高いと判断することができる。
【0020】
また、正常なクロマトグラムパターンと推測される特定のクラスターとのコサイン距離を算出し、その数値の大小で、未知検体のヘモグロビン種が正常なヘモグロビン種か異常なヘモグロビン種かを推定するという態様も利用可能である。
なお、(1)検体に劣化が無い、(2)検体そのものが正常なヘモグロビン種である、(3)装置、測定状態等のコンディションが良好であること、の全てが成立した場合、正常なクロマトグラムデータが得られる可能性が高いため、それらのデータ群が属しているクラスターを特定のクラスターに選択しておくことが好ましい。
【0021】
さらに、クロマトグラムデータ群が多種大量にあり、各クラスターがどのような特性から分類されているかを推測できる情報が十分にあれば、未知検体のヘモグロビン種の種別を推定する、未知検体が正常な環境で測定されたものか異常な環境で測定されたものかを推定するといった態様も利用可能である。
【発明の効果】
【0022】
本発明により、クロマトグラムのパターン推定から検体の特性を推測することが可能となる。
【図面の簡単な説明】
【0023】
図1】クロマトグラムデータの1次加工を模式的に示した図である。
図2】クロマトグラムデータの2次加工、3次加工を模式的に示した図である。
図3】クロマトグラムデータの2次加工、3次加工を模式的に示した図である。
図4】実施例で用いたシステム構成を示した図である。
図5】クロマトグラムデータの規格化の流れを示した図である。
図6】クロマトグラムデータに対して、規格化を行う様子を示した図である。
図7】実施例で得られた樹形図を模式的に示した図である。
図8】実施例で得られたクラスター解析により得られた複数のクラスター中心を基に、未知検体がどのクラスターに属するかを計算する「クラスター解析ツール」の画面構成を示した図である。
図9】「クラスター解析ツール」により、未知検体を解析した結果の一例を示した図である。
図10】「クラスター解析ツール」により、未知検体を解析した結果の一例を示した図である。
図11】「クラスター解析ツール」により、未知検体を解析し、「正常なクロマトグラムパターン」と推定された結果の一例を示した図である。
図12】「クラスター解析ツール」により、未知検体を解析し、「異常なクロマトグラムパターン」と推定された結果の一例を示した図である。
【実施例
【0024】
以下に本発明の実施例を説明するが、本発明はこれら実施例により何ら制限されるものではない。
【0025】
図4に検証に使用したシステム構成を示す。なお、検証には、東ソー(株)製「グリコヘモグロビン分析計GHbVIII」バリアント測定モードで得られたクロマトグラムを用いた。データ取得には、全て、東ソー(株)が提供している、同機種/モード用の専用溶離液、専用カラム、標準測定条件で実施した。クラスター解析にはOrigin2020(LightStorn社)と、独自に開発したクラスター解析ツールを使用した。
【0026】
まず、データ記憶、管理プログラム「RP+」に保存された約4000件のクロマトグラムデータ(時間、出力)を無作為に抽出し、後述するデータ加工を行った。図5は規格化の流れを示した図である。
【0027】
図6に示す2つのクロマトグラムを例として規格化の手順を示す。
一次加工としてデータ1、データ2のベースライン位置は約200となっている。データ収集開始点(0.00分)時の出力値を差し引き、ベースライン位置がどのデータでも0.0とした。
次に、二次加工として0.9分付近に溶出するs-A1cピークを同定し、その溶出時間での出力値を取得し(データ1:21.142、データ2:14.004)、任意の値を30.0として比率(データ1:1.419、データ2:2.142)を計算し、この比率を各々の一次加工後の出力値に乗じてs-A1cピークが30となるように調整した。
次に、三次加工として100.0を超えたデータ点は、全て100.0とした。
【0028】
データ記憶、管理プログラムに保存された4000件のクロマトグラムデータ(時間、出力)に対して規格化を行った後、クラスター解析を実施し、クラスター分類及び前記クラスターにおけるクラスター中心(平均的なクロマトグラム)を算出した。なお、特定成分ピークが何らかの理由で特定できない場合は、「エラー」として、データ加工は行わなかった。
【0029】
クラスター解析の条件は以下の通りである。
クラスター :観測値
クラスター方法:最長距離
距離タイプ :コサイン距離
標準化変数 :なし
【0030】
コサイン距離(Y軸)を0.66とした場合、A1、A2、A3の3つのグループに分けることができた。更に、コサイン距離(Y軸)を0.52とした場合、前記A1のグループは3つ(B1、B2、B3)に分けられ、前記A3のグループは2つ(B5、B6)に分けられ、併せて6つのグループに分けることができた。更に、コサイン距離(Y軸)を0.18とした場合、併せて33個のグループに分けることができた(図7参照)。
【0031】
(実施例1)
クラスター数を33として、クラスター中心による、未知検体#10159004のクラスター分けが正確に行われるか、クラスター解析ツール20を作成して検証を行った。
クラスター解析ツール20について説明する。
【0032】
図8に「クラスター解析ツール」のメイン画面を示す。
(1)にて、クラスター中心を登録する。本例では、前述の33に分類されたクラスター中心を指定する。
(2)にて、「規格化処理」を行うか否かを指示する。
(3)にて、検査対象の未知データを指定する。
(4)にて、解析が実行される。
(5)指定された未知検体のクロマトグラムと各クラスター中心とのコサイン距離が1.00に近い順に、クラスター名、コサイン距離及び値が反映される棒グラフを表示する。
(6)指定された未知検体の定性/定量結果を表示する。
(7)コサイン距離が最も1.00に近い、クラスター名、コサイン距離を表示する。
(8)、(9)指定された未知検体のクロマトグラムとコサイン距離が最も1.00に近いクラスター中心を表示する。
【0033】
解析の結果、第一位としてコサイン距離0.988でクラスター21が最も類似性があるとされた。クラスター21のクラスター中心と未知検体#10159004の加工後クロマトグラムデータを比べると、類似性が高いことが確認できた。
【0034】
同様に、未知検体データ#11210017についても解析を実施した。解析の結果、コサイン距離0.933でクラスター22が最も類似性があるとされた(図9a参照)。また、比較として未知検体データ#11210017について1次加工のみを行ったクロマトグラムデータでもクラスター解析を実施した。この場合、コサイン距離0.994でクラスター4が最も類似性があるとされたが、クロマトグラムの前半部分(A1B~Fの領域)で明らかな差異が確認できた(図9b参照)。
【0035】
同様に、未知検体データ#10180013についても解析を実施した。解析の結果、コサイン距離0.983でクラスター31が最も類似性があるとされた(図10a参照)。また、比較として未知検体データ#10180013について1次加工のみを行ったクロマトグラムデータにでもクラスター解析を実施した。この場合、コサイン距離0.987でクラスター4が最も類似性があるとされたが、0.4分付近のFピーク領域でパターンが異なることが確認できた(図10b参照)。
【0036】
(実施例2)
正常クロマトグラム波形と推測されるクラスター1と未知検体とのコサイン距離の大きさから、測定したデータが「正常な波形(クロマトグラム)」と「異常な波形(クロマトグラム)」とに分けることが可能か検証を行った。基準は、以下の通りとした。
コサイン距離≧0.90:正常なクロマト波形と推測
コサイン距離<0.90:正常クロマト波形とは異なると推測
【0037】
図11はコサイン距離が0.90以上とされた未知検体のクロマトグラムデータの一部を示した図である。また、図12はコサイン距離が0.90未満とされた未知検体のクロマトグラムデータの一部を示した図である
図11から分かるように、コサイン距離が0.90以上とされたクロマトグラムと、指定のクラスター中心を比較すると、類似性が高いことが確認できた。
図12から分かるように、コサイン距離が0.90未満とされたクロマトグラムと、指定のクラスター中心を比較すると、明らかな差異が確認できた。
【符号の説明】
【0038】
1.グリコヘモグロビン分析計
2.バッファ1
3.バッファ2
4.バッファ3
5.脱気装置
6.バッファ1用流路切り替え替機構
7.バッファ2用流路切り替え替機構
8.バッファ3用流路切り替え替機構
9.送液ポンプ
10.検体希釈/注入機構
11.ラインフィルタ
12.プレヒートコイル
13.分析カラム
14.可視光検出器
15.恒温槽
16.データ処理用PC
17.データ記憶、管理プログラム
18.クラスター解析用PC
19.クラスター解析プログラム
20.クラスター解析ツール
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12