IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社島津製作所の特許一覧

特許7616350学習用データ作成方法及び学習用データ作成装置
<>
  • 特許-学習用データ作成方法及び学習用データ作成装置 図1
  • 特許-学習用データ作成方法及び学習用データ作成装置 図2
  • 特許-学習用データ作成方法及び学習用データ作成装置 図3
  • 特許-学習用データ作成方法及び学習用データ作成装置 図4
  • 特許-学習用データ作成方法及び学習用データ作成装置 図5
  • 特許-学習用データ作成方法及び学習用データ作成装置 図6
  • 特許-学習用データ作成方法及び学習用データ作成装置 図7
  • 特許-学習用データ作成方法及び学習用データ作成装置 図8
  • 特許-学習用データ作成方法及び学習用データ作成装置 図9
  • 特許-学習用データ作成方法及び学習用データ作成装置 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-01-08
(45)【発行日】2025-01-17
(54)【発明の名称】学習用データ作成方法及び学習用データ作成装置
(51)【国際特許分類】
   G01N 30/86 20060101AFI20250109BHJP
【FI】
G01N30/86 E
【請求項の数】 8
(21)【出願番号】P 2023506724
(86)(22)【出願日】2021-10-05
(86)【国際出願番号】 JP2021036791
(87)【国際公開番号】W WO2022195935
(87)【国際公開日】2022-09-22
【審査請求日】2023-05-19
(31)【優先権主張番号】63/163,205
(32)【優先日】2021-03-19
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】000001993
【氏名又は名称】株式会社島津製作所
(74)【代理人】
【識別番号】110001069
【氏名又は名称】弁理士法人京都国際特許事務所
(72)【発明者】
【氏名】坂井 健朗
【審査官】高田 亜希
(56)【参考文献】
【文献】国際公開第2020/070786(WO,A1)
【文献】特開2019-056664(JP,A)
【文献】特開2017-122677(JP,A)
【文献】特開2020-165847(JP,A)
【文献】特開2019-086475(JP,A)
【文献】特開2009-204397(JP,A)
【文献】波形処理の原理-解析シーケンス,エルシーデザイン株式会社 [オンライン],日本,2015年03月20日,P1-20,[検索日 2021.12.08],インターネット:<URL: http://www.lcdez.com/_userdata/Support/ChromatoStage/Help/%E6%B3%A2%E5%BD%A2%E5%87%A6%E7%90%86%E3%81%AE%E5%8E%9F%E7%90%86%EF%BC%8D%E8%A7%A3%E6%9E%90%E3%82%B7%E3%83%BC%E3%82%B1%E3%83%B3%E3%82%B9.htm>
(58)【調査した分野】(Int.Cl.,DB名)
G01N 30/00 -30/96
B01J 20/281-20/292
JSTPlus/JMEDPlus/JST7580(JDreamIII)
(57)【特許請求の範囲】
【請求項1】
互いに属性が異なる複数の目的試料を識別する識別器を作成するために使用する学習用データを作成する方法であって
属性が既知である複数の参照試料のそれぞれについて、所定のパラメータに対する複数の測定強度のピークを含む測定データを取得し、
前記複数の参照試料の測定データのそれぞれについて、予め用意された第1メソッドを用いて前記複数のピークに関するピーク情報を抽出し、
前記第1メソッドにより抽出されたピーク情報を、予め用意された、同じ属性の基準試料のピーク情報と照合することによりピークの欠損の有無を判定し、
前記ピークが欠損していると判定された参照試料の測定データについて、前記第1メソッドとはピークを抽出するためのアルゴリズム又は/及びパラメータが異なる第2メソッドを用いて前記複数のピークに関するピーク情報を抽出し、
前記第2メソッドにより抽出されたピーク情報を、前記基準試料のピーク情報と照合することによりピークの欠損の有無を判定し、
前記第1メソッド又は前記第2メソッドにより抽出されたピークに欠損がないと判定された測定データから、前記複数のピークのそれぞれに対応する特徴量を取得して学習用データを作成する
ものである、学習用データ作成方法。
【請求項2】
前記第1メソッド又は前記第2メソッドにより抽出されたピーク情報にピークの欠損があると判定された測定データを画面表示する、請求項1に記載の学習用データ作成方法。
【請求項3】
前記画面表示された測定データのうち、使用者により指定されたものについて前記第2メソッドによりピーク情報を抽出する、請求項2に記載の学習用データ作成方法。
【請求項4】
属性が同一である複数の参照試料のそれぞれについて前記測定データを取得し、
前記属性が同一である複数の参照試料の測定データを積算して積算測定データを作成し、
前記基準試料のピーク情報として、前記第1メソッドを用いて前記積算測定データに含まれる複数のピークに関するピーク情報を抽出したものを使用する
ものである、請求項1に記載の学習用データ作成方法。
【請求項5】
アルゴリズム又は/及びパラメータが異なるメソッドを用いて前記複数のピークに関するピーク情報を抽出し、前記ピークの欠損の有無を判定する処理を、該ピークの欠損がないと判定されるまで所定回数繰り返す、請求項1に記載の学習用データ作成方法。
【請求項6】
前記第1メソッド及び/又は前記第2メソッドが、前記測定データを構成する複数の測定点のうち、当該測定点の測定強度が両隣の測定点の測定強度のいずれよりも低いものを極小測定点として抽出し、
前記極小測定点を用いて前記複数の測定点におけるベースラインを決定し、
前記複数の測定点のそれぞれにおいて、該測定点の測定強度から前記ベースラインを差し引いた値が予め決められた閾値を超えていることに基づいてピークを抽出する
ものである、請求項1に記載の学習用データ作成方法。
【請求項7】
前記第1メソッドと前記第2メソッドがいずれも前記極小測定点を用いてベースラインを決定してピークを抽出するものであり、前記第1メソッドと前記第2メソッドにおいて前記閾値が異なる、請求項6に記載の学習用データ作成方法。
【請求項8】
互いに属性が異なる複数の目的試料を識別する識別器を作成するために使用する学習用データを作成する装置であって、
属性が既知である複数の参照試料のそれぞれについて、クロマトグラフ質量分析装置を用いた測定によりマスクロマトグラムデータを取得する測定データ取得部と、
前記参照試料と同じ属性の基準試料のマスクロマトグラムに含まれるピーク情報が保存された基準試料情報記憶部と、
前記マスクロマトグラムデータからピークを抽出するための第1メソッド、及び該第1メソッドとはピークを抽出するためのアルゴリズム又は/及びパラメータが異なる第2メソッドの情報が保存されたメソッド情報記憶部と、
前記複数の参照試料のマスクロマトグラムデータのそれぞれについて、前記第1メソッドを用いて前記複数のピークに関するピーク情報を抽出する第1ピーク抽出部と、
前記第1ピーク抽出部により抽出されたピーク情報を、同じ属性の前記基準試料のピーク情報と照合することによりピークの欠損の有無を判定する第1判定部と、
前記第1判定部によりピークが欠損していると判定された参照試料のマスクロマトグラムデータについて、前記第2メソッドを用いて前記複数のピークに関するピーク情報を抽出する第2ピーク抽出部と、
前記第2メソッドにより抽出されたピーク情報を、前記基準試料のピーク情報と照合することによりピークの欠損の有無を判定する第2判定部と、
前記第1判定部又は前記第2判定部によりピークに欠損がないと判定されたマスクロマトグラムデータから、前記複数のピークのそれぞれに対応する特徴量を取得して学習用データを作成する学習用データ作成部と
を備える、学習用データ作成装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、クロマトグラフ質量分析装置等の分析装置を用いて試料を測定することにより得られた測定データから学習用データを作成する技術に関する。
【背景技術】
【0002】
食品の生産、加工、流通等の各過程においては高いレベルの品質管理が求められており、近年、その要請は一層高まっている。従来、食品の製造や加工の現場での品質の劣化の評価は、色、臭い、味などの人間の主観的な評価に基づくものが一般的であった。これに対し、より客観的で且つ効率的な評価を行うために分析装置を用いた品質評価が試みられている。例えば特許文献1には、魚肉が腐敗する際に発生する不揮発性生体アミン類を定量分析することにより魚肉の鮮度を評価することが記載されている。
【0003】
しかし、食品試料には多種多様な物質が含まれており、指標物質の濃度を解析するのみでは品質の変化を十分に捉えることができない場合がある。また、多くの場合、同一種類かつ同一鮮度の食品であっても物質の含有量は個別に異なり、特に食品の劣化の進行度合いが低いときに誤判定が生じたり見逃しが生じたりし易いという問題がある。
【0004】
そこで、対象物の属性を示すラベル情報(鮮度等)が既知である複数の参照試料(食品試料等)のそれぞれを特定の分析装置で測定することにより得られた測定データを学習用データとし、それらの学習用データを用いた機械学習により学習モデルを構築することが試みられている。この方法では、多数の参照試料の測定データを機械学習させることにより、予め決められた基準以上の精度で目的試料の鮮度を識別できる水準まで学習モデルのパラメータを収束させたものを識別器として使用する。こうして作成された識別器は、同じラベル情報を持つ学習用データに共通する特徴量(例えば、同じラベル情報を持つ(同じ鮮度の)参照試料に特徴的な複数の物質に由来する測定強度のピークの位置や強度)の相関を判別して目的試料の鮮度を識別する。従って、単一又は特定の種類の指標物質のみに基づく解析に比べて誤判定や見逃しが生じにくい。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2017-122677号公報
【文献】特開2020-165847号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
目的試料の鮮度を精度良く識別する識別器を作成するためには、参照試料の測定データに含まれている特徴量が正しく抽出された、多数の学習用データを用いた機械学習によって学習モデルを構築する必要がある。例えば、ガスクロマトグラフ質量分析により得られた測定データ(マスクロマトグラム)を用いる場合には、参照試料に含まれる各物質に由来する全てのピークのそれぞれに対応する特徴量(保持時間、質量電荷比、及び測定強度)を抽出して学習データを作成する。
【0007】
マスクロマトグラムからピークを抽出する(ピークピッキングを行う)際には、予め用意された複数のメソッド(ピークを抽出するアルゴリズムと、ピーク高さに関する閾値等のパラメータを組み合わせたもの)の中から、クロマトグラムのベースラインの形状に適したメソッドを使用者が選択する。ラベル情報が同じ参照試料であっても各参照試料に含まれている物質の量は同一ではない。また、多数の参照試料を複数回に分けて測定したり複数台の装置で測定したりすることもあるが、この場合、各参照試料に含まれている物質の量が同じであっても測定データにおけるベースラインの形状やピークの高さが試料毎に少しずつ異なる。これらのため、同じメソッド及びパラメータを用いてピークピッキングを行っても、一部の参照試料の測定データに含まれる小さなピークを抽出することができない場合があり、抽出されなかったピークに対応する特徴量が欠損した学習用データが作成されることになる。特徴量が欠損した学習用データを使用すると、学習モデルのパラメータを収束させることが困難になる。また、学習モデルのパラメータが収束したとしても、そのような学習モデルを識別器として用いると識別の精度が低下する可能性がある。ピークの一部が抽出されなかった測定データを排除し、全てのピークが抽出された測定データのみから学習用データを作成することも考えられるが、その場合、排除した測定データの数だけ学習用データの数が少なくなるため、やはり学習モデルのパラメータを収束させることが困難になったり、識別器の精度が低下したりする可能性がある。
【0008】
本発明が解決しようとする課題は、試料の属性が既知である参照試料を分析することにより得られる測定データからピークを抽出して学習用データを作成する際に、特徴量の欠損を抑えた学習用データを作成することができる技術を提供することである。
【課題を解決するための手段】
【0009】
上記課題を解決するために成された本発明は、互いに属性が異なる複数の目的試料を識別する識別器を作成するために使用する学習用データを作成する方法であって、
属性が既知である複数の参照試料のそれぞれについて、所定のパラメータに対する複数の測定強度のピークを含む測定データを取得し、
前記複数の参照試料の測定データのそれぞれについて、予め用意された第1メソッドを用いて前記複数のピークに関するピーク情報を抽出し、
前記第1メソッドにより抽出されたピーク情報を、予め用意された、同じ属性の基準試料のピーク情報と照合することによりピークの欠損の有無を判定し、
前記ピークが欠損していると判定された参照試料の測定データについて、前記第1メソッドとはピークを抽出するためのアルゴリズム又は/及びパラメータが異なる第2メソッドを用いて前記複数のピークに関するピーク情報を抽出し、
前記第2メソッドにより抽出されたピーク情報を、前記基準試料のピーク情報と照合することによりピークの欠損の有無を判定し、
前記第1メソッド又は前記第2メソッドにより抽出されたピークに欠損がないと判定された測定データから、前記複数のピークのそれぞれに対応する特徴量を取得して学習用データを作成する
ものである。
【0010】
また、上記課題を解決するために成された本発明の別の態様は、互いに属性が異なる複数の目的試料を識別する識別器を作成するために使用する学習用データを作成する装置であって、
属性が既知である複数の参照試料のそれぞれについて、クロマトグラフ質量分析装置を用いた測定によりマスクロマトグラムデータを取得する測定データ取得部と、
前記参照試料と同じ属性の基準試料のマスクロマトグラムに含まれるピーク情報が保存された基準試料情報記憶部と、
前記マスクロマトグラムデータからピークを抽出するための第1メソッド、及び該第1メソッドとはピークを抽出するためのアルゴリズム又は/及びパラメータが異なる第2メソッドの情報が保存されたメソッド情報記憶部と、
前記複数の参照試料のマスクロマトグラムデータのそれぞれについて、前記第1メソッドを用いて前記複数のピークに関するピーク情報を抽出する第1ピーク抽出部と、
前記第1ピーク抽出部により抽出されたピーク情報を、同じ属性の前記基準試料のピーク情報と照合することによりピークの欠損の有無を判定する第1判定部と、
前記第1判定部によりピークが欠損していると判定された参照試料のマスクロマトグラムデータについて、前記第2メソッドを用いて前記複数のピークに関するピーク情報を抽出する第2ピーク抽出部と、
前記第2メソッドにより抽出されたピーク情報を、前記基準試料のピーク情報と照合することによりピークの欠損の有無を判定する第2判定部と、
前記第1判定部又は前記第2判定部によりピークに欠損がないと判定されたマスクロマトグラムデータから、前記複数のピークのそれぞれに対応する特徴量を取得して学習用データを作成する学習用データ作成部と
を備える。
【発明の効果】
【0011】
上記属性とは、例えば参照試料が食品試料の場合には鮮度や産地であり、例えば参照試料が生体試料の場合は特定の疾病の有無である。
【0012】
本発明に係る学習用データ作成方法では、まず、属性が既知である複数の試料のそれぞれについて、所定のパラメータに対する複数の測定強度のピークを含む測定データを取得する。また、本発明に係る学習用データ作成装置では、属性が既知である複数の参照試料のそれぞれについて、クロマトグラフ質量分析装置を用いた測定によりマスクロマトグラムデータを測定データとして取得する。測定データの取得は、実際に試料を分析装置で測定することにより行ってもよく、あるいは事前の測定で得られた測定データを読み出すことにより行ってもよい。
【0013】
次に、複数の試料の測定データのそれぞれについて、予め用意された第1メソッドを用いて測定強度のピークを抽出する。そして、抽出されたピークを、予め用意された、同じ属性の基準試料のピーク情報と照合することにより全てのピークが抽出されているか(ピークの欠損の有無)を判定する。基準試料のピーク情報には、例えばライブラリに登録されているものを用いることができる。あるいは、属性が同じ複数の参照試料の測定データを積算して積算測定データを作成し、その積算測定データから第1メソッドにより抽出したピークの情報を、基準試料のピーク情報として用いることもできる。第1メソッド及び第2メソッドは、ピークを抽出するアルゴリズムと、ピーク高さに関する閾値等のパラメータの組み合わせを含むものである。ピークを抽出するアルゴリズムには、従来用いられているものを用いてもよく、あるいは後記の実施例において説明する特徴的なアルゴリズムを用いてもよい。
【0014】
ピークが欠損していると判定された試料の測定データについては、第1メソッドとはピークを抽出するアルゴリズム又はパラメータが異なる第2メソッドを用いて測定強度のピークを抽出する。そして、第2メソッドにより抽出されたピークを、予め用意された、同じ属性の基準試料のピーク情報と照合することによりピークの欠損の有無を判定する。最後に、第1メソッド又は第2メソッドにより抽出されたピークに欠損がないと判定された測定データから、該測定データの複数のピークのそれぞれに対応する特徴量を取得して学習用データを作成する。
【0015】
本発明に係る学習用データ作成方法及び装置では、ピークに欠損がないと判定された測定データから、該測定データの測定強度のピークに対応する特徴量を取得して学習用データを作成するため、特徴量の欠損を抑えた学習用データを作成することができる。また、第1メソッドでは全てのピークを抽出することができない測定データであっても、第2メソッドを用いて全てのピークを抽出することができた測定データから特徴量を取得して学習用データを作成するため、学習用データの数の減少を抑えることもできる。
【図面の簡単な説明】
【0016】
図1】本発明に係る学習用データ作成装置の一実施例を含む試料評価システムの要部構成図。
図2】本発明に係る学習用データ作成方法の一実施例に係るフローチャート。
図3】本実施例で取得される測定データであるマスクロマトグラムデータの模式図。
図4】従来のピーク抽出方法に関する模式図。
図5】従来のピーク抽出方法によりマスクロマトグラムからピークを抽出した結果の例。
図6】従来のピーク抽出方法によりマスクロマトグラムからピークを抽出した結果の別の例。
図7】従来のピーク抽出方法によりマスクロマトグラムからピークを抽出した結果のさらに別の例。
図8】本実施例におけるピーク抽出方法によるベースラインの画定に関する模式図。
図9】本実施例のピーク抽出方法を用いてマスクロマトグラムのベースラインを画定した例。
図10】本実施例のピーク抽出方法を用いてマスクロマトグラムのピークを抽出した結果の例。
【発明を実施するための形態】
【0017】
本発明の学習用データ作成方法及び装置の一実施例について、以下、図面を参照して説明する。
【0018】
本実施例の試料評価システム1は、目的試料の属性を推定するために用いられる。具体的には、例えば食品である目的試料の鮮度や産地を推定したり、生体試料に基づいて被検者が特定の疾病を有するか否かを判定したりするために用いられる。
【0019】
図1に、本実施形態の学習用データ作成装置を含む、試料評価システム1の要部構成を示す。本実施例の試料評価システム1は、大別して、ガスクロマトグラフ質量分析装置(GC-MS)2と制御・処理部3から構成される。
【0020】
制御・処理部3は、記憶部31を備えている。記憶部31には、メソッド情報記憶部311と基準試料情報記憶部312が設けられている。メソッド情報記憶部311には、ガスクロマトグラフ質量分析装置2を用いた試料の測定により得られたマスクロマトグラムデータからピークを抽出するために用いるメソッドの情報が保存されている。メソッドの情報には、ピークを抽出するアルゴリズムと、ピーク高さに関する閾値等のパラメータの組み合わせに関する情報が含まれている。ピークを抽出するアルゴリズムには、従来用いられているリンク点法、水平法、新ベースライン法や、本実施例における特徴的な、極小測定点を用いる手法(後記)が含まれうる。
【0021】
基準試料情報記憶部312には、種々の試料について、属性が異なる複数の基準試料のマスクロマトグラムデータ及び該マスクロマトグラムに現れる複数のピークに関するピーク情報(保持時間、質量電荷比、及び測定強度)が保存されている。記憶部312には、その他、各種の試料をガスクロマトグラフ質量分析装置2で測定する際の測定条件などが保存されている。
【0022】
制御・処理部3は、さらに、機能ブロックとして、測定データ取得部32、基準試料データ作成部33、第1ピーク抽出部34、第2ピーク抽出部35、判定部36、測定データ表示部37、学習用データ作成部38、学習モデル構築部39、及び識別器作成部40を備えている。制御・処理部3の実体は、パーソナルコンピュータ又はより高性能なワークステーションと呼ばれるコンピュータであり、該コンピュータに予めインストールされた試料評価システム用プログラムを該コンピュータのプロセッサで実行ことにより上記の各機能ブロックが具現化される。また、制御・処理部3には、キーボードやマウスといった入力部4と、液晶ディスプレイ等の表示部5が接続されている。
【0023】
制御・処理部3の構成要素のうち、メソッド情報記憶部311及び基準試料情報記憶部312と、測定データ取得部32、基準試料データ作成部33、第1ピーク抽出部34、第2ピーク抽出部35、判定部36、測定データ表示部36、及び学習用データ作成部38の機能ブロックとが本実施例の学習用データ作成装置10を構成する。本実施例では学習用データ作成装置10を制御・処理部3の一部に組み込んでいるが、学習用データ作成装置10を制御・処理部3から独立した装置として構成してもよい。
【0024】
次に、本実施例の試料評価システム1の動作について、図2のフローチャートを参照しつつ説明する。この例では、目的試料の属性を推定するための識別器を作成する。
【0025】
使用者は、識別器の作成に先立ち、ガスクロマトグラフ質量分析装置2に接続されたオートサンプラ(図示略)に参照試料をセットしておく。参照試料は、目的試料と同種のものであって、その属性が既知のものである。また、属性毎に複数の参照試料をセットしておく。
【0026】
使用者が、識別器の作成開始を指示すると、測定データ取得部32は、オートサンプラにセットされた参照試料を所定の順にガスクロマトグラフ質量分析装置2に導入する。ガスクロマトグラフ質量分析装置2では、ガスクロマトグラフのカラム内で成分毎に分離されたあと、質量分析装置に導入されて電子イオン化源等のイオン化源により各成分がイオン化され、質量分離されたあとイオン検出器で検出される。イオン検出器からの出力信号は順次、制御・処理部3に送られ、各参照試料の測定データ(マスクロマトグラムデータ)が記憶部31に保存される。こうして、全ての参照試料についてマスクロマトグラムデータが取得される(ステップ1)。マスクロマトグラムデータは、図3に模式的に示すように、時間及び質量電荷比という2つのパラメータに対するイオンの測定強度を表したものであり、試料に含まれる成分がガスクロマトグラムのカラムから流出する時間(t1を中心とする保持時間)に、当該成分から生成されるイオンの質量電荷比のピークを有する。
【0027】
全ての参照試料の測定が終了してマスクロマトグラムデータが保存されると、基準試料データ作成部33は、参照試料を属性毎にグループ化する。そして属性が同じである参照試料のマスクロマトグラムデータを積算して積算マスクロマトグラムデータを作成する(ステップ2)。基準試料データ作成部33は、続いて、第1ピーク抽出部34を機能させ、積算マスクロマトグラムデータから、抽出イオン電流クロマトグラム(特定の質量電荷比のイオンの測定強度のクロマトグラム)を作成し、メソッド情報記憶部311に保存されているアルゴリズム及びパラメータを用いてピークを抽出する(ステップ3)。
【0028】
ここで、第1ピーク抽出部34により抽出イオン電流クロマトグラムからピークを抽出する処理について説明する。抽出イオン電流クロマトグラムや、全イオンの強度を示す全イオン電流クロマトグラムからピークを抽出する方法として、従来、例えばリンク点法、水平法などが用いられている(図4)。図4ではそれぞれの方法により抽出されるピークにハッチングを付している。リンク点法では、クロマトグラムの波形の傾きが予め決められた値を上回った点をピーク開始点S、その後、波形の傾きが予め決められた値を下回った点をピーク終了点Eとする。そして、ピーク開始点Sとピーク終了点Eを結んでベースラインを画定してピークを抽出する。また、水平法では、上記同様にピーク開始点S及びピーク終了点Eを画定したあと、これら2点のうち測定強度が小さい方の点を通る水平線を引き、他方の点からの垂線との交点をベースラインとして画定してピークを抽出する。さらに、複数のピークが重畳したものを分離する際には、例えば新ベースライン法が用いられる。新ベースライン法では、上記同様にピーク開始点S及びピーク終了点Eを画定し、2つのピーク間に位置する極小点をピーク分離点Mとしてピークを分離する。
【0029】
ベースラインの変動が少ない測定データの場合、リンク点法と水平法のいずれを用いてもピーク抽出の精度に大きな差が生じることはない。しかし、ガスクロマトグラフを用いた測定で得られる測定データの場合、カラムブリードと呼ばれる現象によって、クロマトグラムの後半部分でベースラインが時間とともに増大することがある。従来、リンク点法や水平法、新ベースライン法などの予め設定されたアルゴリズムを用いてクロマトグラムデータから自動的にピークを抽出しているが、設定されているアルゴリズムやパラメータが適切でないと、図5に示すように、クロマトグラムの後半部分のドリフトによるベースラインの上昇がピークとして抽出されてしまう。
【0030】
このようなドリフトに対応するために、ドリフトによるベースラインの上昇を考慮するパラメータを設定することができるようになっている場合がある。図6は、このパラメータを50という値に設定したものであるが、このパラメータ値を設定しても、依然としてドリフトによるベースラインの上昇がピークとして抽出されている。一方、図7はこのパラメータを100という値に設定したものである。図7では、ドリフトがピークとして抽出されておらず、この点においては適切であるといえる。しかし、クロマトグラムの前半部分でベースラインの傾きが大きくなりすぎており、ピークの高さや面積を正しく取得することが困難になっている。
【0031】
そこで、本実施例では、クロマトグラム波形の極小点を結んでベースラインを画定してピークを抽出する。図8上部に模式的に示すように、クロマトグラムは多数の測定点を結んだものである。本実施例のアルゴリズムでは、クロマトグラムを構成する測定点のうち、隣接する2つの測定点のいずれよりも測定強度が小さいものを極小測定点として抽出する。そして、抽出した極小測定点を線形補間することにより、図8下部に示すようなベースラインを画定する。なお、極小測定点からベースラインを画定する方法は線形補間に限らず、これらの極小測定点を結ぶ近似曲線等としてもよい。そして、このベースラインからの高さが予め決められた閾値を超えるものをピークとして抽出する。
【0032】
抽出イオン電流クロマトグラムでは、保持時間と質量電荷比という2つのパラメータのいずれもが共通しない限りピークが重畳することはないため、線形補間によりベースラインを画定すればよいが、測定強度に対するパラメータが1つであるクロマトグラム(全イオン電流クロマトグラム等)では、重畳ピークが現れることがあり、その場合、2つのピーク間に極小点が現れうる。こうした場合にピーク間の極小点を含む極小測定点を線形補間するとベースラインを正しく画定することができない。そうした場合には、極小測定点を線形補間する代わりに、例えば全ての極小測定点に対する近似曲線を求めることで、重畳ピーク内の極小点等の外れ値の影響を低減して正しくベースラインを画定するとよい。あるいは、ピーク間の極小点等の外れ値を分析者が削除し、それ以外の極小測定点を線形補間してベースラインを画定してもよい。
【0033】
図9は、図5~7に示したクロマトグラムと同様に後半部分に大きなドリフトが存在するマスクロマトグラムデータについてベースラインを画定した結果、図10はこのベースラインを基準として、それよりも予め決められた閾値より高いピーク(図中の丸印がピークトップを示す)を抽出した結果を示す図である。この結果から分かるように、クロマトグラムの後半に大きなドリフトが存在している場合でも、本実施例の方法を用いることにより正しくピークを抽出することができる。
【0034】
属性が同じである複数の参照試料のマスクロマトグラムデータのうちのいずれかに抽出が困難なピークが含まれている場合でも、それらを積算すると他の参照試料の測定強度によって補われ、ピークの抽出が容易になる。従って、積算マスクロマトグラムデータを用いれば、全てのピークを容易に抽出することができる。そこで、本実施例では、積算マスクロマトグラムデータから抽出した複数のピークの位置情報を、基準試料のピーク情報として用いる。基準試料データ作成部33は、属性毎に基準試料のピーク情報を基準試料情報記憶部312に保存する。
【0035】
次に、第1ピーク抽出部34は、各参照試料のマスクロマトグラムデータから上記同様に、メソッド情報記憶部311に保存されているアルゴリズム及びパラメータを用いてピークを抽出する(ステップ5)。
【0036】
第1ピーク抽出部34によりピークが抽出されると、判定部36は、当該参照試料と同じ属性の基準試料のピーク情報を基準試料情報記憶部312から読み出す。そして、参照試料のピーク情報と基準試料のピーク情報を比較する(ステップ6)。
【0037】
判定部36が、参照試料のピーク情報が基準試料のピーク情報と一致している(即ちピークの欠損がない)と判定すると(ステップ7でNO)、その参照試料のマスクロマトグラムデータから抽出されたピークに対応する特徴量を取得して学習用データを作成する(ステップ11)。ここで抽出する特徴量には、各ピークのピークトップに対応する保持時間と質量電荷比の組が含まれる。また、これらに加えて当該ピークの高さ又は面積値を特徴量に含めてもよい。つまり、学習用データとして、ピークリストに相当するものが作成される
【0038】
判定部36は、参照試料のピーク情報が基準試料のピーク情報と一致しない(抽出されるべき複数のうちのピークの一部が抽出されていない)と判定すると(ステップ7でYES)、当該参照試料についてピークが欠損していることを通知する画面を表示する。また、測定データ表示部37は、その参照試料のマスクロマトグラムデータから、欠損したピークの質量電荷比に対応する抽出イオン電流クロマトグラムを作成して表示部5の画面に表示する。画面に表示されるマスクロマトグラムには、本来、抽出されるべきピークであるにもかかわらず第1ピーク抽出部34ではピークが抽出されなかった位置(即ち、基準試料のピーク情報に含まれているが、参照試料のピーク情報に含まれなかったピークの保持時間及び質量電荷比の位置)に目印を重畳表示する。使用者は、目印が表示された位置の抽出イオン電流クロマトグラムの波形を確認して、アルゴリズム又はパラメータの変更によって第2ピーク抽出部35がピークを抽出することが可能であるか否かを判断することができる。
【0039】
また、判定部36は、当該参照試料に対してピークを抽出する処理を行った回数が、予め決められた回数(所定回数)に達しているか否かを判定する。この回数は、例えば5回に設定される。この段階では、未だ第1ピーク抽出部34によるピークの抽出を行っただけである(ピーク抽出処理回数は1回である)ため、所定回数には達していない(ステップ8でNO)と判定される。
【0040】
ステップ8でNOと判定されると、第2ピーク抽出部35は、先に行ったピーク抽出時のアルゴリズム及び/又はパラメータを変更する(ステップ9)。本例では、アルゴリズムは変更せず、ピークとして判断する閾値(ベースラインの高さ)を下げる。具体的には、例えば、ピーク抽出時の閾値(パラメータ)を第1ピーク抽出部34によるピーク抽出時の閾値の90%に変更する(閾値を10%下げる)。
【0041】
続いて、第2ピーク抽出部35は、変更後の閾値を用いて、再び当該参照試料のマスクロマトグラムデータからピークを抽出する(ステップ5)。そして、再び基準試料のピーク情報と比較し(ステップ6)、ピークの欠損がないと判定されると(ステップ7でNO)、抽出した複数のピークのそれぞれに対応する特徴量を取得して学習用データを作成する(ステップ11)。学習用データを作成すると、全ての参照試料のマスクロマトグラムデータについての処理が終わっているか否かを判定する(ステップ12)。そして、未処理のデータがある場合には、次の参照試料のマスクロマトグラムデータについて、上記同様の手順でステップ5以降の処理を行う。
【0042】
一方、再びピークの欠損があると判定されると(ステップ7でYES)、ピーク抽出処理の回数が所定回数に達しているか否かを判定し(ステップ8)、所定回数に達していない場合には、再びアルゴリズム及び/又はパラメータを変更する(ステップ9)。本例では、第1ピーク抽出部34によるピーク抽出処理時の閾値を100として、閾値を10ずつ下げていく。あるいは、前回のピーク抽出処理時を基準として閾値を10%下げるようにしてもよい。
【0043】
所定回数、ピークを抽出する処理を行ってもピークの欠損が解消されない場合(ステップ8でYES)には、当該参照試料のマスクロマトグラムデータに関する処理を終了し、次の参照試料のマスクロマトグラムデータについて、上記同様の手順でステップ5以降の処理を行う。
【0044】
全ての参照試料のマスクロマトグラムデータの処理を完了すると(ステップ12でYES)、学習モデル構築部39は、上記手順で作成された学習用データを用いた機械学習により学習モデルを構築する(ステップ13)。機械学習の手法としては、例えば教師有り学習と呼ばれるものを用いることができる。具体的には、サポートベクタマシン、ニューラルネットワーク、ランダムフォレストなどの代表的な機械学習の手法のほか、ロジスティック回帰、直交部分的最小二乗法、k-近傍法などの多変量解析の手法を用いることができる。機械学習により学習モデルが構築されると、識別器作成部40は、その学習モデルにより識別器を作成し、記憶部31に保存する(ステップ14)。
【0045】
従来、学習用データを作成する際には、属性が既知である参照試料のマスクロマトグラムデータから抽出されたピークに欠損がある場合に、例えば、そのマスクロマトグラムデータを除外し、全てのピークが抽出されたもののみを用いて学習用データを作成していた。その結果、除外したマスクロマトグラムデータの数だけ学習用データの数が少なくなり、学習モデルのパラメータを収束させることが困難になったり、識別器の精度が低下したりする場合があった。あるいは、特許文献2では、全ての学習用データに共通に現れていない(いずれかの学習用データにおいて欠損がある)ピークの情報を全て削除して学習用データを作成している。この場合、ピークが属性の判断に有用である可能性があるピークの情報を削除した学習用データが作成されるため、やはり、学習モデルのパラメータを収束させることが困難になったり、識別器の精度が低下したりする可能性がある。
【0046】
これに対し、本実施例では、第1ピーク抽出部34によるピーク抽出処理でピークが欠損している場合でも、アルゴリズム又はパラメータを変更しつつ、第2ピーク抽出部35によって所定回数、ピークの抽出を試みる。そのため、学習用データの数の減少を抑えることができる。また、基準試料のピーク情報との比較によって全てのピークが抽出されていることを確認したうえで学習用データを作成するため、特徴量の欠損がない学習用データを作成することができる。
【0047】
上記実施例は一例であって、本発明の趣旨に沿って適宜に変更することができる。上記実施例において挙げた数値はあくまでも一例に過ぎず、目的試料や測定データの特性等に応じて適宜に変更することができる。
【0048】
また、上記実施例において、ピークの欠損があると判定されたマスクロマトグラムを使用者が表示部5の画面で確認し、欠損しているピーク位置にピークを確認することができた場合にのみ、使用者が第2ピーク抽出部35によるピークの抽出を指示するようにしてもよい。このように構成すれば、ピークの抽出が不可能である(あるいは極めて困難な)マスクロマトグラムデータの処理に時間をかけることなく、効率よく学習用データを作成することができる。
【0049】
上記実施例では、極小測定点からベースラインを画定してピークを抽出するというアルゴリズムのみを用い、第2ピーク抽出部35によりピークを抽出する際には閾値のみを変更する構成としたが、第2ピーク抽出部35によりピークを抽出する際に、ピークを抽出するアルゴリズムを変更するようにしてもよい。
【0050】
上記実施例では、ガスクロマトグラフ質量分析装置2により参照試料を測定して得たマスクロマトグラムデータを処理したが、所定のパラメータに対する複数の測定強度のピークを含む、様々な測定データに対して本実施例と同様の構成を適用することができる。なお、ここでいうピークには、吸光スペクトルなどに現れる下向きのピークも含まれうる。
【0051】
[態様]
上述した複数の例示的な実施形態は、以下の態様の具体例であることが当業者により理解される。
【0052】
(第1項)
本発明の一態様は、互いに属性が異なる複数の目的試料を識別する識別器を作成するために使用する学習用データを作成する方法であって
属性が既知である複数の参照試料のそれぞれについて、所定のパラメータに対する複数の測定強度のピークを含む測定データを取得し、
前記複数の参照試料の測定データのそれぞれについて、予め用意された第1メソッドを用いて前記複数のピークに関するピーク情報を抽出し、
前記第1メソッドにより抽出されたピーク情報を、予め用意された、同じ属性の基準試料のピーク情報と照合することによりピークの欠損の有無を判定し、
前記ピークが欠損していると判定された参照試料の測定データについて、前記第1メソッドとはピークを抽出するためのアルゴリズム又は/及びパラメータが異なる第2メソッドを用いて前記複数のピークに関するピーク情報を抽出し、
前記第2メソッドにより抽出されたピーク情報を、前記基準試料のピーク情報と照合することによりピークの欠損の有無を判定し、
前記第1メソッド又は前記第2メソッドにより抽出されたピークに欠損がないと判定された測定データから、前記複数のピークのそれぞれに対応する特徴量を取得して学習用データを作成する
ものである。
【0053】
(第8項)
本発明の別の一態様は、互いに属性が異なる複数の目的試料を識別する識別器を構成する学習モデルを作成するための機械学習において使用する学習モデルを作成する装置であって、
属性が既知である複数の参照試料のそれぞれについて、クロマトグラフ質量分析装置を用いた測定によりマスクロマトグラムデータを取得する測定データ取得部と、
前記参照試料と同じ属性の基準試料のマスクロマトグラムに含まれるピーク情報が保存された基準試料情報記憶部と、
前記マスクロマトグラムデータからピークを抽出するための第1メソッド、及び該第1メソッドとはピークを抽出するためのアルゴリズム又は/及びパラメータが異なる第2メソッドの情報が保存されたメソッド情報記憶部と、
前記複数の参照試料のマスクロマトグラムデータのそれぞれについて、前記第1メソッドを用いて前記複数のピークに関するピーク情報を抽出する第1ピーク抽出部と、
前記第1ピーク抽出部により抽出されたピーク情報を、同じ属性の前記基準試料のピーク情報と照合することによりピークの欠損の有無を判定する第1判定部と、
前記第1判定部によりピークが欠損していると判定された参照試料のマスクロマトグラムデータについて、前記第2メソッドを用いて前記複数のピークに関するピーク情報を抽出する第2ピーク抽出部と、
前記第2メソッドにより抽出されたピーク情報を、前記基準試料のピーク情報と照合することによりピークの欠損の有無を判定する第2判定部と、
前記第1判定部又は前記第2判定部によりピークに欠損がないと判定されたマスクロマトグラムデータから、前記複数のピークのそれぞれに対応する特徴量を取得して学習用データを作成する学習用データ作成部と
を備える。
【0054】
第1項の学習用データ作成方法では、まず、属性が既知である複数の参照試料のそれぞれについて、所定のパラメータに対する複数の測定強度のピークを含む測定データを取得する。また、第8項の学習用データ作成装置では、属性が既知である複数の参照試料のそれぞれについて、クロマトグラフ質量分析装置を用いた測定によりマスクロマトグラムデータを測定データとして取得する。測定データの取得は、実際に試料を分析装置で測定することにより行ってもよく、あるいは事前の測定で得られた測定データを読み出すことにより行ってもよい。
【0055】
次に、複数の試料の測定データのそれぞれについて、予め用意された第1メソッドを用いて測定強度のピークを抽出する。そして、抽出されたピークを、予め用意された、同じ属性の基準試料のピーク情報と照合することにより全てのピークが抽出されているか(ピークの欠損の有無)を判定する。基準試料のピーク情報には、例えばライブラリに登録されているものを用いることができる。
【0056】
ピークが欠損していると判定された試料の測定データについては、第1メソッドとはピークを抽出するアルゴリズム又はパラメータが異なる第2メソッドを用いて測定強度のピークを抽出する。そして、第2メソッドにより抽出されたピークを、予め用意された、同じ属性の基準試料のピーク情報と照合することによりピークの欠損の有無を判定する。最後に、第1メソッド又は第2メソッドにより抽出されたピークに欠損がないと判定された測定データから、該測定データの複数のピークのそれぞれに対応する特徴量を取得して学習用データを作成する。
【0057】
第1項の学習用データ作成方法及び第8項の学習用データ作成装置では、ピークに欠損がないと判定された測定データから、該測定データの測定強度のピークに対応する特徴量を取得して学習用データを作成するため、特徴量の欠損を抑えた学習用データを作成することができる。また、第1メソッドでは全てのピークを抽出することができない測定データであっても、第2メソッドを用いて全てのピークを抽出することができた測定データから特徴量を取得して学習用データを作成するため、学習用データの数の減少を抑えることができる。
【0058】
(第2項)
第1項に記載の学習用データ作成方法において、
前記第1メソッド又は前記第2メソッドにより抽出されたピーク情報にピークの欠損があると判定された測定データを画面表示する。
【0059】
(第3項)
第2項に記載の学習用データ作成方法において、
前記画面表示された測定データのうち、使用者により指定されたものについて前記第2メソッドによりピーク情報を抽出する。
【0060】
第2項の学習用データ作成方法では、ピークが欠損していると判定された測定データを画面上で使用者が確認することにより、抽出可能な強度のピークが存在しているか否かを確認することができる。また、第3項の学習用データ作成方法では、抽出可能な強度のピークが存在している測定データのみを使用者が指定することにより、第2メソッドによるピーク情報の抽出に係る処理の負荷を軽減することができる。
【0061】
(第4項)
第1項から第3項のいずれかに記載の学習用データ作成方法において、
属性が同一である複数の参照試料のそれぞれについて前記測定データを取得し、
前記属性が同一である複数の参照試料の測定データを積算して積算測定データを作成し、
前記基準試料のピーク情報として、前記第1メソッドを用いて前記積算測定データに含まれる複数のピークに関するピーク情報を抽出したものを使用する。
【0062】
第4項の学習用データ作成方法では、過去に十分な数の測定が行われていない試料や、未知試料のように、データベース等に測定データが収録されていない試料についても基準試料のピーク情報を使用することができる。
【0063】
(第5項)
第1項から第4項のいずれかに記載の学習用データ作成方法において、
アルゴリズム又は/及びパラメータが異なるメソッドを用いて前記複数のピークに関するピーク情報を抽出し、前記ピークの欠損の有無を判定する処理を、該ピークの欠損がないと判定されるまで所定回数繰り返す。
【0064】
第5項の学習用データ作成方法では、自動的に学習用データを作成する処理が所定回数繰り返し行われるため、使用者がピーク情報を収集する処理の要否を都度、判断する必要がなく、使用者の負担が軽減される。
【0065】
(第6項)
第1項から第5項のいずれかに記載の学習用データ作成方法において、
前記第1メソッド及び/又は前記第2メソッドが、前記測定データを構成する複数の測定点のうち、当該測定点の測定強度が両隣の測定点の測定強度のいずれよりも低いものを極小測定点として抽出し、
前記極小測定点を用いて前記複数の測定点におけるベースラインを決定し、
前記複数の測定点のそれぞれにおいて、該測定点の測定強度から前記ベースラインを差し引いた値が予め決められた閾値を超えていることに基づいてピークを抽出する。
【0066】
(第7項)
第6項に記載の学習用データ作成方法において、
前記第1メソッドと前記第2メソッドがいずれも前記極小測定点を用いてベースラインを決定してピークを抽出するものであり、前記第1メソッドと前記第2メソッドにおいて前記閾値が異なる。
【0067】
ガスクロマトグラフ質量分析により得られるマスクロマトグラムデータでは、時間とともにベースラインの大きさも変化する。第6項の学習用データ作成方法では極小測定点を用いてベースラインを決定するため、パラメータに対して測定強度だけでなくベースラインも変化するような測定データからピークを抽出するために好適に用いることができる。また、こうした測定データからピークを抽出する際には、第7項に記載の学習用データ作成方法のように、ピークであるか否かを判断するために用いる閾値のみを第1メソッドから変更したものを第2メソッドとして用いることができる。
【符号の説明】
【0068】
1…試料評価システム
10…学習用データ作成装置
2…ガスクロマトグラフ質量分析装置
3…制御・処理部
31…記憶部
311…メソッド情報記憶部
312…基準試料情報記憶部
2…測定データ取得部
33…基準試料データ作成部
34…第1ピーク抽出部
35…第2ピーク抽出部
36…判定部
37…測定データ表示部
38…学習用データ作成部
39…学習モデル構築部
39…識別器作成部
4…入力部
5…表示部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10