(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-13
(45)【発行日】2024-08-21
(54)【発明の名称】学習用データの生成装置、モデル学習装置、試料の特性推定装置、及びクロマトグラフ質量分析装置
(51)【国際特許分類】
G01N 30/86 20060101AFI20240814BHJP
G01N 27/62 20210101ALI20240814BHJP
G01N 30/72 20060101ALI20240814BHJP
【FI】
G01N30/86 G
G01N27/62 D
G01N27/62 C
G01N27/62 X
G01N30/86 B
G01N30/72 A
G01N30/72 C
(21)【出願番号】P 2020158367
(22)【出願日】2020-09-23
【審査請求日】2023-01-04
【新規性喪失の例外の表示】特許法第30条第2項適用 令和元年9月24日 株式会社島津製作所のホームページにて公開(https://solutions.shimadzu.co.jp/solnavi/n/search/a-gcms.htm,https://solutions.shimadzu.co.jp/solnavi/n/apl/a-news/m/m282.htm) 令和元年11月26日 株式会社島津製作所のホームページにて公開(https://solutions.shimadzu.co.jp/solnavi/n/search/a-gcms.htm,https://solutions.shimadzu.co.jp/solnavi/n/apl/a-news/m/m285.htm)
(73)【特許権者】
【識別番号】000001993
【氏名又は名称】株式会社島津製作所
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】坂井 健朗
【審査官】草川 貴史
(56)【参考文献】
【文献】特開2012-027683(JP,A)
【文献】国際公開第2020/070786(WO,A1)
【文献】機械学習的解析手法を利用した食品の品質判別,SHIMADZU Application News ,日本,2019年02月04日,https://solutions.shimadzu.co.jp/cgi/ac?cmd=1&url=/solnavi/s/apl/a-news/1/m/pdf/m276.pdf
(58)【調査した分野】(Int.Cl.,DB名)
G01N 30/00-30/96
B01J 20/281-20/292
G06Q 20/00
(57)【特許請求の範囲】
【請求項1】
機械学習の学習モデルの生成に用いられる学習用データの生成装置であって、前記学習モデルは、
試料に対して、質量分析装置から得られるクロマトグラムのピークデータであるピーク情報と、前記試料の所定の特性を示す特性情報とが関連付けられたデータを用いて機械学習処理により生成され、
複数の試料から試料毎の前記ピーク情報及び前記特性情報を取得する取得部と、
前記取得部によって取得された複数のピーク情報を加工して前記学習用データを生成する処理を実行する処理部とを備え、
前記処理部は、
前記複数のピーク情報のいずれかにおいて欠損しているピークのデータを前記複数のピーク情報の各々から削除し、
残余のピークについてピーク同士のデータの相関係数が所定値以上である場合に、一方のピークのデータを前記複数のピーク情報の各々からさらに削除し、
残余のピークのデータによって構成されるピーク情報を教師データの入力データとする、学習用データの生成装置。
【請求項2】
前記処理部は、前記複数の試料のデータ分布において外れ値を有するピークのデータを前記複数のピーク情報の各々からさらに削除し、
前記外れ値は、ボックスプロットで示される前記データ分布において所定の上限値又は下限値を外れる値、又は前記データ分布の統計的な中央値との差が所定のしきい値を超える値である、請求項1に記載の学習用データの生成装置。
【請求項3】
請求項1又は請求項2に記載の学習用データの生成装置によって生成された学習用データを用いて、機械学習処理を実行することにより前記学習モデルを生成するモデル生成部と、
前記モデル生成部により生成された学習済モデルを記憶するモデル記憶部とを備える、モデル学習装置。
【請求項4】
試料に対して、質量分析装置から得られるクロマトグラムのピークデータであるピーク情報を取得する取得部と、
前記ピーク情報を学習済モデルに入力することによって前記試料の所定の特性を推定する推定部とを備え、
前記学習済モデルは、複数の試料から得られる複数のピーク情報に前処理を実行して生成される学習用データを用いて、機械学習処理を実行することにより生成されたものであり、
前記前処理は、
前記複数のピーク情報のいずれかにおいて欠損しているピークのデータを前記複数のピーク情報の各々から削除する処理と、
残余のピークについてピーク同士のデータの相関係数が所定値以上である場合に、一方のピークのデータを前記複数のピーク情報の各々からさらに削除する処理と、
残余のピークのデータによって構成されるピーク情報を教師データの入力データとする処理とを含む、試料の特性推定装置。
【請求項5】
クロマトグラフと、
前記クロマトグラフの分析結果に基づいて質量分析を行なう質量分析器と、
前記質量分析器による質量分析の結果
得られるクロマトグラムのピークデータであるピーク情報に基づいて試料の所定の特性を推定する、請求項4に記載の試料の特性推定装置とを備える、クロマトグラフ質量分析装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、学習用データの生成装置、モデル学習装置、試料の特性推定装置、及びクロマトグラフ質量分析装置に関する。
【背景技術】
【0002】
GC(Gas Chromatograph;ガスクロマトグラフ)、LC(Liquid Chromatograph;液体クロマトグラフ)、GCMS(Gas Chromatograph Mass Spectrometer;ガスクロマトグラフ質量分析装置)、LCMS(Liquid Chromatograph Mass Spectrometer;液体クロマトグラフ質量分析装置)等の各種分析装置で得られたデータをソフトウェアにより解析するシステムが知られている。例えば、特許文献1には、GCMSを用いて、試料中の多くの成分(化合物や元素)を同時に定量する多成分一斉分析を行なうのに好適なデータ解析装置が開示されている(特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
GCMS等の分析装置から得られるクロマトグラムのピーク情報から、ピークのピッキングを行ない、特定物質の有無の検出、或いは検出されたピークに基づく各種判別を行なうことが可能である。近年、機械学習の進展に伴ない、複数の試料から得られる上記ピーク情報を学習用データ(教師データ)として機械学習処理によりモデルの学習を行ない、生成された学習済モデルを用いて未知試料に対する各種判別を行なう手法が検討されている。
【0005】
この手法では、試料毎の各ピーク(特徴量)の値と試料毎の所定の特性(例えば、食品の鮮度良否や産地情報等)とが関連付けられた学習用データセットを用いて、機械学習処理によりモデルの学習が行なわれる。しかしながら、学習用データセットの内容によっては、生成される学習済モデルの精度及び学習効率が低下する可能性がある。
【0006】
本開示は、かかる問題を解決するためになされたものであり、本開示の目的は、複数の試料から得られるピーク情報を用いて機械学習処理によりモデルの学習を行なう場合に、生成される学習済モデルの精度及び学習効率を向上可能な学習用データを生成することである。
【課題を解決するための手段】
【0007】
本開示の学習用データの生成装置は、学習モデルの生成に用いられる学習用データの生成装置である。学習モデルは、試料に対する質量分析の結果を示すピーク情報と、試料の所定の特性を示す特性情報とが関連付けられたデータを用いて機械学習処理により生成される。学習用データの生成装置は、複数の試料から試料毎のピーク情報及び特性情報を取得する取得部と、取得部によって取得された複数のピーク情報を加工して学習用データを生成する処理を実行する処理部とを備える。処理部は、複数のピーク情報のいずれかにおいて欠損しているピークのデータを複数のピーク情報の各々から削除し、残余のピークについてピーク同士のデータの相関係数が所定値以上である場合に、一方のピークのデータを複数のピーク情報の各々からさらに削除し、残余のピークのデータによって構成されるピーク情報を教師データの入力データとする。
【発明の効果】
【0008】
本開示の学習用データの生成装置によれば、不要なピーク(特徴量)のデータを削除した学習用データが生成されるので、生成される学習済モデルの精度が向上するとともに、モデルの学習効率も向上する。
【図面の簡単な説明】
【0009】
【
図1】本開示の実施の形態に従う学習用データ生成装置の構成を示すブロック図である。
【
図2】
図1に示す学習用データ生成装置によって生成される学習用データを用いてモデルの学習を行なう学習装置の構成を示すブロック図である。
【
図3】試料についてのピーク情報を生成する装置の一例として示されるGCMSの概略構成を示すブロック図である。
【
図4】
図1に示す学習用データ生成装置において実行される前処理の手順の一例を示すフローチャートである。
【
図5】
図2に示す学習装置において実行される学習処理の手順の一例を示すフローチャートである。
【
図6】本実施の形態に従う推定装置の構成を示すブロック図である。
【
図7】
図6に示す推定装置において実行される推定処理の手順の一例を示すフローチャートである。
【
図8】SPME法による分析の結果得られたクロマトグラムの一例を示す図である。
【
図9】実施例1において、
図4のステップS30で生成される特徴量データマップの一例を示す図である。
【
図10】実施例1において、
図4のステップS40で算出される特徴量同士の相関係数を示す相関係数行列のヒートマップの一例を示す図である。
【
図11】実施例1において、
図4のステップS60で算出される特徴量毎のヒストグラムの一例を示す図である。
【
図12】特徴量毎にデータをスケーリングした上でラベル毎にボックスプロットで示す図である。
【
図13】ロジスティック回帰モデルの一例を示す図である。
【
図14】各特徴量のPermutation Importanceの値を示した図である。
【
図15】実施例1において、選択されたピークと、対応の化合物のライブラリ検索結果とを示す図である。
【
図16】実施例1において作成された学習済モデルの評価結果を示す混同行列を示す図である。
【
図17】ルール1及びルール2を説明するための第1の図である。
【
図18】ルール1及びルール2を説明するための第2の図である。
【
図19】ルール1及びルール2を説明するための第3の図である。
【
図20】ルール3を説明するための第1の図である。
【
図21】ルール3を説明するための第2の図である。
【
図22】ルール3を説明するための第3の図である。
【
図23】ランダムフォレストの学習アルゴリズムを説明する図である。
【
図24】実施例2において作成されたモデルの評価結果を示す混同行列を示す図である。
【発明を実施するための形態】
【0010】
以下、本開示の実施の形態について、図面を参照しながら詳細に説明する。なお、図中同一又は相当部分には同一符号を付してその説明は繰り返さない。
【0011】
図1は、本開示の実施の形態に従う学習用データ生成装置の構成を示すブロック図である。本開示では、GCMSやLCMS等から得られるピーク情報と、試料の所定の特性(例えば、食品の鮮度良否や産地情報等)とが関連付けられた学習用データを用いて、機械学習処理によりモデルを学習する学習装置が示される。また、本開示では、GCMSやLCMS等から得られる未知試料のピーク情報を学習済モデルに入力することによって未知試料の特性を推定する推定装置が示される。
【0012】
そして、
図1に示される学習用データ生成装置は、学習装置におけるモデルの生成に用いられる学習用データ(教師データ)を生成する装置である。学習用データは、学習装置により生成されるモデルの精度(未知試料の特性の推定精度)に大きな影響を与えるため、本実施の形態では、モデル学習用に取得される複数の試料のピーク情報に対して特定の前処理(後述)を実行することにより学習用データを生成し、その学習用データを用いてモデルの学習が行なわれる。すなわち、この学習用データ生成装置は、複数の試料のピーク情報から学習用データを生成するための前処理を実行する装置である。
【0013】
図1を参照して、学習用データ生成装置10は、データ取得部12と、処理部14と、学習用データ記憶部16とを備える。データ取得部12は、モデルの学習に用いる複数の試料のピーク情報を取得する。本実施の形態では、複数の試料について、試料毎のピーク情報及び対応する試料の特性をセットで取得する。
【0014】
ピーク情報は、GCMSやLCMS等から得られるクロマトグラムのピークデータである。なお、ピーク情報は、デコンボリューション等のソフトウェア波形処理によりピーク分離したピークデータでもよい。試料の特性は、例えば、食品の鮮度が劣化しているか否か(後述の実施例1)、或いは、食品の産地が国産か外国産か(後述の実施例2)等である。なお、試料の特性は、必ずしもこれらに限定されるものではない。
【0015】
処理部14は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等を含んで構成される(いずれも図示せず)。CPUは、ROMに格納されているプログラムをRAM等に展開して実行する。ROMに格納されるプログラムは、処理部14の処理手順が記されたプログラムである。処理部14は、これらのプログラムに従って、以下に示す処理を実行する。
【0016】
処理部14は、データ取得部12によって取得された試料毎のピーク情報を加工して、学習装置で用いられる学習用データを生成する処理(前処理)を実行する。具体的には、本実施の形態では、処理部14は、データ取得部12によって取得された試料毎のピーク情報に対して、以下の(1)から(5)に示される処理を実行する。
【0017】
(1)あるピーク(特徴量)について、少なくとも1つのサンプルでピーク強度のデータ(特徴量値)が欠損している場合に、全サンプルにおいて、当該ピーク(特徴量)についてのデータ(特徴量値)を削除(欠損値処理)
学習用データに欠損値(特徴量値が0)が含まれる場合、モデル学習のアルゴリズムが制限されたり、モデルの学習精度が低下したりする可能性がある。例えば、決定木を用いるランダムフォレストについては、学習用データに欠損値が含まれていてもモデルの生成が可能であるが、ロジスティック回帰については、学習用データに欠損値が含まれている場合は、モデル化は不可能である。また、学習用データに欠損値が含まれている場合に、欠損値を埋める手法もあるが、データの信頼性低下やモデルの精度低下を招く可能性がある。
【0018】
そこで、本実施の形態に従う学習用データ生成装置10では、あるピークについて、いずれかのサンプルでピーク強度のデータが欠損している場合には、当該ピークについてのデータを全サンプルから削除している。すなわち、この欠損値処理では、所謂リストワイズ法による処理が行なわれる。これにより、種々の学習モデルを採用して精度の高い学習を実現することが可能となる。なお、ピークが欠損しているか否かは、例えば、ピーク強度が所定のしきい値を下回るか否かによって判断される。
【0019】
(2)データ取得部12によって取得された試料毎に、残余のピーク(特徴量)についてのピーク強度(特徴量値)と試料の特性を示す情報(ラベル)とを表にした特徴量データマップを生成
例えば、データ取得部12によってN個の試料のデータが取得され、欠損値処理後の残余のピーク数がM個である場合は、試料毎の特性情報(食品の鮮度良否や産地情報等)を加えて、N×(M+1)の大きさの特徴量データマップが生成される。なお、特徴量データマップを生成してから(1)の欠損値処理を実行してもよい。
【0020】
(3)相関が認められるピーク(特徴量)同士について、一方のピークのデータを特徴量データマップから削除(相関処理)
特徴量同士に強い相関があると、多重共線性の問題が発生し、学習用データに用いた場合にモデルの精度を低下させる可能性があるため、本実施の形態では、相関係数がしきい値(例えば0.8)以上のピーク同士については、一方のピークのデータが削除される。なお、このしきい値については、生成されたモデルの正答率(精度)に応じて変更してもよい。例えば、正答率が低い場合には、しきい値を下げてもよい。これにより、特徴量同士の相関をより低減することができ、モデルの正答率向上が期待できる。
【0021】
(4)ピーク(特徴量)毎のピーク強度(特徴量値)の分布において外れ値を有するピークのデータを特徴量データマップからさらに削除(外れ値処理)
外れ値のような特異なデータも、学習用データに用いた場合にモデルの精度を低下させる可能性があるため、本実施の形態では、外れ値を有するピークについても削除される。なお、データが外れ値であるか否かは、例えば、統計的な中央値との差が所定のしきい値を超えるか否かによって判断される。また、その場合、しきい値について、生成されたモデルの正答率(精度)に応じて変更してもよい。例えば、正答率が低い場合には、しきい値を小さくしてもよい。なお、この処理は省略してもよい。
【0022】
(5)特徴量データマップに残っている各ピーク(特徴量)及び各ピークの試料毎のピーク強度(特徴量値)を入力データとし、試料毎の特性情報(ラベル)を正解データとする学習用データを学習用データ記憶部16に記憶
このような前処理を行なった学習用データを教師データとして機械学習を行なうことにより、学習モデルの精度を向上させることができる。
【0023】
学習用データ記憶部16は、処理部14によって生成された学習用データを記憶する。後述のように、この学習用データ記憶部16に記憶された学習用データを教師データとして用いて、後述の学習装置によってモデルの学習が行なわれる。学習用データ記憶部16は、例えば、ハードディスクドライブ(HDD(Hard Disk Drive))やソリッドステートドライブ(SSD(Solid State Drive))等の記憶装置である。
【0024】
図2は、
図1に示した学習用データ生成装置10によって生成される学習用データを用いてモデルの学習を行なう学習装置の構成を示すブロック図である。
図2を参照して、学習装置20は、学習用データ記憶部22と、モデル生成部24と、モデル記憶部26とを備える。
【0025】
学習用データ記憶部22は、学習用データ生成装置10において生成された学習用データを記憶する。学習用データ記憶部22は、例えば、HDDやSSD等の記憶装置である。学習用データ生成装置10と学習装置20とが同一の計算機上で構成される場合には、学習用データ記憶部22に学習用データ記憶部16を用いてもよい。
【0026】
モデル生成部24は、CPU、ROM、RAM等を含んで構成される(いずれも図示せず)。ROMに格納されるプログラムは、モデル生成部24の処理手順が記されたプログラムである。モデル生成部24は、これらのプログラムに従って、以下に示す処理を実行する。
【0027】
モデル生成部24は、学習用データ記憶部22から学習用データを取得する。学習用データは、複数のピーク(特徴量)及び各ピークの試料毎のピーク強度(特徴量値)を入力データとし、試料毎の特性情報(ラベル)を正解データとするデータセットである。そして、モデル生成部24は、取得された学習用データを用いて、機械学習処理を実行することにより学習モデルを生成する。
【0028】
学習アルゴリズムには、各種の教師あり学習のアルゴリズムを採用可能である。後述の実施例1では、ロジスティック回帰の学習アルゴリズムが採用されており、後述の実施例2では、ランダムフォレストの学習アルゴリズムが採用されている。なお、学習アルゴリズムは、これらに限定されるものではなく、例えば、ニューラルネットワークを用いた深層学習(Deep Learning)アルゴリズムや、サポートベクタマシン(SVM(Support Vector Machine))のアルゴリズムを採用することも可能である。
【0029】
モデル記憶部26は、モデル生成部24によって生成された学習済モデルを記憶する。後述のように、このモデル記憶部26に記憶された学習済モデルを用いて、後述の推定装置によって未知試料の特性(食品の鮮度や産地等)を推定することができる。モデル記憶部26も、例えば、HDDやSSD等の記憶装置である。
【0030】
図3は、試料についてのピーク情報を生成する装置の一例として示されるGCMSの概略構成を示すブロック図である。
図3を参照して、GCMS30は、GC部32と、MS(Mass Spectrometer)部34と、データ処理部36と、記憶部38とを備える。
【0031】
GC部32は、分析対象の混合物試料を成分(化合物)毎に分離する(クロマト分離)。GC部32は、例えば、キャリアガス(移動相)を供給するガス供給装置、試料を加熱して気化するための試料気化室、試料を化合物毎に分離するためのカラム等を含んで構成される(いずれも図示せず)。GC部32からは、化合物固有の保持時間(RT(Retention Time))を有し、かつ、試料中の含有量に応じたピーク強度(ピーク高さ又はピーク面積)を有する各化合物が順次出力される(クロマトグラフのピーク列)。
【0032】
MS部34は、GC部32から順次出力される各化合物の質量分析を行なう。MS部34は、例えば、GC部32から出力される化合物をイオン化するためのイオン源、イオン化された化合物の質量mと電荷zの比m/zに応じて質量分離を行なう質量分析器、質量分析部から出力されるイオンを検出する検出器等を含んで構成される(いずれも図示せず)。イオン源には、種々のものを用いることができ、例えば、EI(Electron Ionization)イオン源、PCI(Positive Chemical Ionization)イオン源、NCI(Negative Chemical Ionization)イオン源等を採用可能である。質量分析器には、代表的には、四重極(QP)型の質量分析計が用いられる。検出器には、代表的には、二次電子増倍管が用いられる。
【0033】
データ処理部36は、GC部32によって検出される化合物毎の保持時間と、MS部34による質量分析の結果得られるマススペクトルとから、化合物の同定を行なう同定処理を実行する。具体的には、データ処理部36は、多数の化合物のマススペクトルを有するMSライブラリを記憶部38から取得し、そのMSライブラリを参照して、GC部32及びMS部34によって得られた保持時間及びマススペクトルとから化合物を同定する。また、データ処理部36は、同定された化合物に対応するマスクロマトグラムのピーク強度を算出することによって、当該化合物の定量を行なう定量処理を実行する。このようにして同定・定量された各化合物の保持時間及びピーク強度が、分析試料のピーク情報として取得される。
【0034】
図4は、
図1に示した学習用データ生成装置10において実行される前処理の手順の一例を示すフローチャートである。
図4とともに
図1を参照して、学習用データ生成装置10の処理部14は、複数の試料について、データ取得部12によって取得された試料毎のピーク情報(ピーク毎の強度及び保持時間(RT))をデータ取得部12から受ける(ステップS10)。なお、ピーク情報における保持時間(RT)は、分析試料を特徴付ける「特徴量」に相当し、ピーク強度は、特徴量のデータに相当する。
【0035】
次いで、処理部14は、取得された試料毎のピーク情報について、あるピークにおいていずれかの試料でピーク強度のデータが欠損している場合に、当該ピークについてのデータを全ての試料のピーク情報から削除する(ステップS20)。言い換えると、処理部14は、取得された全てのピーク情報において、欠損していないピーク(特徴量)のデータを残し、欠損値を有するピーク(特徴量)のデータを削除する。学習用データに欠損値(特徴量値が0)が含まれる場合、モデル学習のアルゴリズムが制限されたり、モデルの学習精度が低下したりする可能性があるため、欠損値を含む特徴量のデータを削除するものである。
【0036】
次いで、処理部14は、残余のピーク(特徴量)についての試料毎のピーク強度と特性情報(ラベル)とを、取得された複数の試料について表にした特徴量データマップを生成する(ステップS30)。すなわち、特徴量データマップは、複数の試料について、ステップS20の処理の結果残っているピーク(特徴量)毎の各試料の強度(特徴量データ)と特性情報(ラベル)とを表に纏めたものである。
【0037】
続いて、処理部14は、特徴量データマップを参照して、全てのピーク(特徴量)について、ピーク同士の相関係数を総当たりで算出する(ステップS40)。そして、処理部14は、相関係数が例えば0.8以上となるピーク同士については、一方のピークのデータを削除する(ステップS50)。特徴量間で相関係数が高い場合に生じる多重共線性を解消して、学習精度の低下抑制を図るものである。
【0038】
次いで、処理部14は、ピーク(特徴量)毎に各試料のピーク強度(特徴量データ)のヒストグラムを算出する(ステップS60)。そして、処理部14は、外れ値を有するピークのデータを特徴量データマップからさらに削除する(ステップS70)。例えば、あるピークのデータをボックスプロットにて示した場合に、ひげの下端(第一四分位数-1.5×IQR(四分位範囲))又はひげの上端(第三四分位数+1.5×IQR)からさらに所定量外れたデータは外れ値とされ、外れ値が存在するピークのデータは削除される。或いは、統計的な中央値との差が所定のしきい値を超えるデータを外れ値としてもよい。
【0039】
そして、処理部14は、ステップS70の処理の実行後における特徴量データマップのデータを、学習用データセットとして学習用データ記憶部16に記憶する(ステップS80)。以上により、学習用データセットとして、データの欠損がなく、ピーク(特徴量)同士が独立しており、データに外れ値のない学習用データを準備することができる。このような前処理を施した学習用データを教師データとして学習装置20により機械学習を行なうことにより、学習モデルの精度を向上させることができる。
【0040】
図5は、
図2に示した学習装置20において実行される学習処理の手順の一例を示すフローチャートである。
図5とともに
図2を参照して、学習装置20のモデル生成部24は、学習用データ生成装置10(
図1)により生成された学習用データセットを学習用データ記憶部22から取得する(ステップS110)。
【0041】
学習用データセットは、複数の試料について、上記の前処理によって抽出された複数のピーク(特徴量)及び各ピークの試料毎のピーク強度(特徴量データ)を入力データとし、試料毎の特性情報(ラベル)を正解データとするデータセットである。
【0042】
次いで、モデル生成部24は、取得された学習用データセットに含まれる上記入力データ及び正解データを教師データとする機械学習処理を実行することにより、学習モデルを生成する(ステップS120)。上述のように、この機械学習処理には、各種の教師あり学習のアルゴリズムを用いることができる。
【0043】
そして、モデル生成部24は、モデル生成部24により生成されたモデルを、いわゆる「学習済モデル」としてモデル記憶部26に記憶する(ステップS130)。
【0044】
上記のようにして生成された学習済モデルは、未知の試料の特性を推定するのに用いられる。
【0045】
図6は、本実施の形態に従う推定装置の構成を示すブロック図である。
図6を参照して、この推定装置は、GCMS30から得られる未知試料のピーク情報を、学習装置20により生成された学習済モデルに入力することによって、当該未知試料の特性を推定する装置である。
【0046】
図6を参照して、推定装置40は、データ取得部42と、モデル記憶部44と、推定部46とを備える。データ取得部42は、調査対象の未知試料についてのピーク情報を取得する。本実施の形態では、
図3に示したGCMS30によって、未知試料についての質量分析が行なわれ、その分析結果であるピーク情報がGCMS30から取得される。
【0047】
モデル記憶部44は、学習装置20(
図2)により生成された学習済モデルを記憶している。モデル記憶部44は、例えば、HDDやSSD等の記憶装置である。学習装置20と推定装置40とが同一の計算機上で構成される場合には、モデル記憶部44にモデル記憶部26(
図2)を用いてもよい。
【0048】
推定部46は、CPU、ROM、RAM等を含んで構成される(いずれも図示せず)。ROMに格納されるプログラムは、推定部46の処理手順が記されたプログラムである。推定部46は、これらのプログラムに従って、以下に示す処理を実行する。
【0049】
すなわち、推定部46は、データ取得部42によって取得された未知試料のピーク情報をデータ取得部42から受ける。また、推定部46は、モデル記憶部44から学習済モデルを取得する。そして、推定部46は、データ取得部42から受ける未知試料のピーク情報を学習済モデルに入力することにより、当該未知試料の特性を推定する。すなわち、推定部46は、学習装置20により学習された学習済モデルを用いて、データ取得部42によって取得される未知試料の特性を推定する。
【0050】
図7は、
図6に示した推定装置40において実行される推定処理の手順の一例を示すフローチャートである。
図7とともに
図6を参照して、推定装置40の推定部46は、未知の試料について、データ取得部42によって取得されたピーク情報(ピーク毎の保持時間(RT)及びピーク強度)をデータ取得部42から受ける(ステップS210)。また、推定部46は、モデル記憶部44から学習済モデルを取得する(ステップS220)。
【0051】
次いで、推定部46は、ステップS210において取得された未知試料のピーク情報に含まれるピーク(特徴量)のうち、学習用データ生成装置10(
図1)において抽出されたピークのデータ(学習用データセットに含まれているピークのデータ)を、学習済モデルに入力する(ステップS230)。そして、推定部46は、学習済モデルの出力を、当該未知試料の特性の推定結果として出力する(ステップS240)。
【0052】
以上のように、この実施の形態によれば、不要なピーク(特徴量)のデータを削除した学習用データが生成されるので、生成される学習済モデルの精度が向上するとともに、モデルの学習効率も向上する。
【0053】
[実施例1]
食品サンプルのGCMSデータから、食品の鮮度を判別する判別マーカを探索する実施例について説明する。
【0054】
この例では、食品サンプルとして牛肉のデータセットを用いた。牛肉の様々な部位の赤身について、適切に冷蔵保存されているサンプル(例えば4℃で保存されており、以下「4℃サンプル」と称する。)と、40℃環境に3時間暴露され劣化が進んだと考えられるサンプル(以下「40℃サンプル」と称する。)とを準備した。なお、サンプルの外観からは、両者を判別することは不可能であった。
【0055】
これらのサンプルについて、20mgを測定用バイアルに採取したものを116本準備し(4℃サンプル58本、40℃サンプル58本)、各サンプルについて、200℃で加熱したときに発生するガス成分をSPME(Solid Phase Micro Extraction)法を用いて分析した。
【0056】
図8は、SPME法による分析の結果得られたトータルイオンクロマトグラム(TIC(Total Ion Chromatogram))の一例を示した図である。
図8を参照して、このクロマトグラムの外観からは、4℃サンプルと40℃サンプルとを判別することは不可能であった。
【0057】
そこで、市販の解析ソフトウェアを用いて、クロマトグラムデータのデコンボリューション、ピークのピッキング及びアラインメントを行なった。この実施例1では、データは、波形処理の影響を受けづらいピーク高さとした。全サンプルについてのデータセットは、116サンプル×9318ピーク(特徴量)という非常に横長のデータであり、この初期データセットに対して、上記の実施の形態で説明した学習用データ生成装置10(
図1)により前処理(
図4)を実行することで、不要なピーク(特徴量)を削減した学習用データセットを生成した。以下、本実施例1におけるデータセットの前処理について詳しく説明する。
【0058】
再び
図4を参照して、ステップS20において欠損値を含むピークのデータの削除が行なわれた結果、ピーク(特徴量)の数は200まで絞られた。
【0059】
図9は、本実施例1において、
図4のステップS30で生成される特徴量データマップの一例を示した図である。
図9を参照して、「データ名」は、サンプル毎に付与される名称である。「ラベル」は、各サンプルが4℃サンプルであるか40℃サンプルであるかを示すデータであり、「1」は4℃サンプルであることを示し、「0」は40℃サンプルであることを示す。このラベルデータは、学習用データの正解データとして用いられる。
【0060】
「RT1.32_001」等は、特徴量としてのピークを示す。例えば「RT1.32_001」について、「RT1.32」は、保持時間(RT)1.32分のピークのデータであることを示し、「001」は、ピーク毎に付与される通し番号である。したがって、「RT22.52_199」は、保持時間(RT)22.52分のピーク(通し番号199)のデータであり、「RT23.48_200」は、保持時間(RT)23.48分のピーク(通し番号200)のデータであることを示す。なお、上述のように、各データ(特徴量データ)はピーク高さである。
【0061】
本実施例1では、この116のデータを92の訓練データと24のテストデータとに分割し、訓練データを用いてモデルの学習を行ない、テストデータを用いて学習済モデルの評価を行なった。なお、データの分割は、ラベルデータの偏りが生じないようにStratified Shuffle Splitを用いた。
【0062】
図10は、本実施例1において、
図4のステップS40で算出される特徴量同士の相関係数を示す相関係数行列のヒートマップのイメージ図である。
図10を参照して、図の左上又は右下から縦方向及び横方向に、保持時間順にデータが並んでおり、ピーク同士の相関係数が行列で示されている。実際は、200×200の行列であるが、図示の関係上、ヒートマップのイメージを示している。
【0063】
色の濃い部分は、相関係数が大きいことを示す。図から、互いに保持時間が近いピーク同士に、相関係数の大きい組み合わせが多いことが分かる。
【0064】
再び
図4を参照して、本実施例1では、ステップS50において、相関係数が0.8以上となるピーク同士について一方のピークのデータを削除した結果、ピーク(特徴量)の数は30まで絞られた。
【0065】
図11は、本実施例1において、
図4のステップS60で算出される特徴量毎のヒストグラムの一例を示した図である。
図11を参照して、ここでは一例として、保持時間(RT)1.32分のピークのデータ(
図9の特徴量データマップにおける「RT1.32_001」のデータ)のヒストグラムが示されている。この段階で、大きな外れ値を有するピーク、或いは分布の広がりが著しく小さいピークについてのデータを削除してもよい。
【0066】
図12は、特徴量毎にデータをスケーリングした上でラベル毎にボックスプロットで示した図である。
図12を参照して、ひげの下端又はひげの上端から大きく外れたデータ、或いは中央値との差がしきい値を超えるデータを外れ値として、外れ値を有するピークのデータを削除してもよい。或いは、分布の広がりが著しく小さいピークのデータについても削除してもよい。
【0067】
なお、このボックスプロットにおいて、ラベル毎にデータの分布に違いがみられるピークは、サンプルを的確に判別するための主要な特徴量となり得るものである。
【0068】
本実施例1では、この段階ではピーク(特徴量)の削除は行なわずに、30個のピークのデータから一旦モデルを作成した。そして、作成されたモデルの正答率が低い場合に、外れ値を有するピークのデータを削除するようにしてもよい。或いは、モデルの正答率が低い場合に、外れ値を判定するしきい値を小さくしたり、さらには、正答率に応じてしきい値を自動で設定するようにしてもよい。
【0069】
4℃サンプルと40℃サンプルの二値判別モデルについて、目的は、サンプルの判別に対して寄与の高いマーカ化合物を探索することであるため、この例では、学習アルゴリズムとしてロジスティック回帰を採用した。
【0070】
図13は、ロジスティック回帰モデルの一例を示した図である。
図13を参照して、x1~xnの入力層50にn個の特徴量のデータが入力される。入力層50から入力された入力値には、それぞれ重みw1~wnが掛けられ、加算層52において加算される。加算層52の出力は、シグモイド関数54に入力され、シグモイド関数54の出力に基づいて、勾配降下法による重みw1~wnの学習が行なわれる。量子化器56は、シグモイド関数54の出力を二値化して出力する。
【0071】
このようなロジスティック回帰であれば、各特徴量の係数(重み)の絶対値を寄与の大きさと考えることができる。特に図示しないが、この段階で作成された学習済モデルに対して、テストデータを用いて評価した結果、サンプルの判別精度は約75%であった。そこで、本実施例1では、サンプルの判別に対して寄与の高い特徴量をさらに絞り込むために、より汎用性の高いPermutation Importanceを用いた。
【0072】
図14は、各特徴量のPermutation Importanceの値を示した図である。
図14を参照して、今回は、サンプル数が多くないため、訓練データ内の分割の試行によって大きなばらつきが生じることが考えられる。そこで、本実施例1では、分割のパターンをいくつか試し、その平均をとった。その結果、図示のように、標準偏差が大きくなったが、全体的な傾向は捉えることができている。この結果から、本実施例1では、最終的に以下に示される10個の特徴量を選択した。
【0073】
図15は、本実施例1において選択されたピークと、対応の化合物のライブラリ検索結果とを示した図である。
図15を参照して、今回のデータはGCMSのスキャンデータであるため、選択された10個の各ピークについて、ライブラリ検索や標準品を用いて、マーカ化合物の定性分析を行なうことが可能である。
【0074】
この10個に絞られた特徴量のデータを用いて、再度モデルの生成を行なった。最終的に生成された学習済モデルに対して、テストデータを用いて評価した結果、91.67%の精度で判別することができた。生成された学習済モデルの評価結果を示す混同行列を
図16に示す。
【0075】
[実施例2]
実施例2では、農作物の産地判別への適用例が示される。農作物の産地偽装は、農業・食品業界における普遍的な問題であり、産地判別のための様々な手法が開発されてきている。一般的に、遺伝情報等の農作物が先天的に持つ生体情報に基づいて判別を行なうことは難しく、後天的に農作物の体内に発生する物質の情報を用いて判別することが行なわれる。中でも、農作物が体外から取り入れる元素の情報に基づいて判別を行なう手法は、安定性に優れており、長年研究されてきている。
【0076】
農作物体内に後天的に発生する物質の中には、体外から取り入れられる物質のほか、アミノ酸、有機酸、脂肪酸、糖等、体内で産生される物質が存在する。これらは総称して「代謝物」と称され、多くの農作物に共通して含まれている。農作物体内に存在する代謝物の濃度は、同じ品種の農作物であっても周囲の環境に応じてダイナミックに変化するため、農作物内に存在する代謝物を網羅的に測定して、特定の農作物品種について産地毎の代謝物の存在比パターンを見出すことができれば、代謝物の存在比パターンを農作物の産地判別に利用することができる。
【0077】
この実施例2では、親水性の代謝物377成分を同時測定可能な島津製作所製のSmart Metabolites Database(登録商標)を用いて、国産及び外国産のアスパラガス計106サンプル中の代謝物を測定し、国産と外国産とを判別するモデル(学習済モデル)を機械学習処理により作成した。
【0078】
アスパラガスは、国産58サンプル、外国産48サンプルを準備した。適度な大きさにカットしたアスパラガスを縮分し、凍結乾燥後、粉砕処理を行なって粉末にし、得られた粉末に対して、Bligh&Dyerの方法をベースとする前処理プロトコルによって抽出・誘導体化を行なった。試料に添加する内部標準物質には、Ribitolを用いた。そして、誘導体化後のサンプル溶液をGCMS/MSで測定した。分析条件は、Smart Metabolites Databaseの内容に準拠した。
【0079】
次いで、島津製作所製の解析ソフトウェアLabSolutions Insight(登録商標)を用いて、ピークの検出作業を行なった。ピーク検出については、下記のルールを設定した。
【0080】
ルール1:保持指標から予測される保持時間±0.08分以内に、定量トランジションと確認トランジションとが同時にピークを形成しており、かつ、定量イオンの高さが1000以上のものを「検出」とする。
【0081】
ルール2:半数以上のデータで「検出」となっている化合物については、いくつかのデータでルール1を満たさない場合でも、予測される保持時間付近のピークをもって「検出」とする(「非検出」のデータが欠損値又は0となることを回避するため)。
【0082】
ルール3:予測される保持時間付近に2本以上の「検出」とされ得るピークが存在する場合には、基本的には、予測される保持時間に近い方のピークを「検出」とする一方で、それがサンプルによって異なる場合には、半数以上のサンプルで「検出」とされたピークの方を「検出」とする(サンプルによって異なるピークが「検出」とされるのを回避するため)。
【0083】
図17から
図19は、ルール1及びルール2を説明するための図である。
図17から
図19には、それぞれサンプル1からサンプル3のクロマトグラムにおいて、予測される保持時間t1の近傍のピークデータが示されている。各図中、線L1,L2は、それぞれ定量イオン及び確認イオンのデータを示し、領域Sは、定量イオンのピーク面積を示す。
【0084】
図17を参照して、サンプル1は、ルール1を満たしているため、当該ピークが保持時間t1に対応するピークとして検出される。
図18を参照して、サンプル2も、ルール1を満たしているため、当該ピークが保持時間t1に対応するピークとして検出される。
【0085】
図19を参照して、サンプル3は、ルール1を満たしていない。しかしながら、サンプル1及びサンプル2で保持時間t1に対応するピークが検出されているため、サンプル3については、予測される保持時間t1に近いピークが検出されている。
【0086】
図20から
図22は、ルール3を説明するための図である。
図20から
図22には、それぞれサンプル1からサンプル3のクロマトグラムにおいて、予測される保持時間t2の近傍のピークデータが示されている。各図中、線L1,L2は、それぞれ定量イオン及び確認イオンのデータを示し、領域Sは、定量イオンのピーク面積を示す。
【0087】
図20を参照して、サンプル1では、予測される保持時間t2±0.08分以内に2つのピークが存在するところ、保持時間t2よりも右側のピークの方が左側のピークよりも保持時間t2に近いため、右側のピークが保持時間t2に対応するピークとして検出される(ルール3)。
【0088】
図21を参照して、サンプル2でも、予測される保持時間t2±0.08分以内に2つのピークが存在するところ、保持時間t2よりも右側のピークの方が左側のピークよりも保持時間t2に近いため、右側のピークが保持時間t2に対応するピークとして検出される(ルール3)。
【0089】
図22を参照して、サンプル3についても、予測される保持時間t2±0.08分以内に2つのピークが存在するが、保持時間t2よりも左側のピークの方が右側のピークよりも保持時間t2に近い。しかしながら、サンプル1及びサンプル2で保持時間t2よりも右側のピークを保持時間t2に対応するピークとして検出したため、サンプル3についても、右側のピークが保持時間t2に対応するピークとして検出される(ルール3)。
【0090】
今回は、GCMS/MSで測定したことにより、形状の安定したピークが多く、結果として多くのピークを検出することができた(計217成分)。
【0091】
上記のルールに従って各サンプルについてピークの検出作業を行ない、全サンプルについてのデータセットとして、106サンプル×217ピーク(特徴量)の初期データセットを準備した。そして、この初期データセットに対して、上記の実施の形態で説明した学習用データ生成装置10(
図1)により前処理(
図4)を実行することにより、学習用データセットを生成した。なお、上記のルールに従うピーク検出処理も、学習用データを生成するための前処理であるといえる。
【0092】
なお、上記のルールに従ってピーク検出を行なうことにより、初期データセットには欠損値を含むデータ列は存在しないため、欠損値処理(
図4のステップS20)において削除されるデータはない。
【0093】
内部標準物質のピークが基準値以下となったサンプルについては、誘導体化工程で不具合があったものとみなして特徴量データマップから削除した。その他のサンプルについては、各ピークの面積値を内部標準物質のピーク面積値で除算し、その演算結果をz-スコアにより標準化したものをデータとして使用した。
【0094】
そして、残余のサンプルのデータをランダムに訓練データとテストデータとに分割した上で、ピークが検出された217成分(特徴量)について、学習用データ生成装置10により前処理を実行し、判別に有効な13成分(特徴量)を抽出した。
【0095】
本実施例2では、この13個の特徴量で、学習アルゴリズムにランダムフォレストを用いて、アスパラガスの産地判別モデルを作成した。
【0096】
図23は、ランダムフォレストの学習アルゴリズムを説明する図である。
図23を参照して、ランダムフォレストでは、元のデータセット60からランダムにデータをサンプリングしてN個のサブデータセット62-1~62-Nが作成される。そして、サブデータセット62-1~62-Nについて、それぞれ決定木モデル64-1~64-Nが作成され、作成された決定木モデル64-1~64-Nの各々において予測が行なわれる。
【0097】
決定木モデル64-1~64-Nの各々の予測結果は、統合部66で纏められ、各決定木モデルの予測結果について多数決をとることにより、最終的な予測が行なわれる。
【0098】
この実施例2では、サンプル内の訓練データとテストデータとをランダムに入れ替える操作を50回行ない、50個のサブデータセットを作成してランダムフォレストによるモデルを生成した。
【0099】
最終的に生成されたモデル(学習済モデル)を適用して予測精度を計算したところ、モデル精度の平均は91.7%となった。生成された学習済モデルの評価結果を示す混同行列を
図24に示し、ROC曲線を
図25に示す。
図25を参照して、この例では、ROC曲線のAUC(Area Under Curve)は0.95であり、アスパラガスの産地を良好に判別できている。
【0100】
なお、上記の実施例1,2に他にも、本開示に記載の前処理は、例えば、米国特許出願公開第2007/0176088号明細書、米国特許出願公開第2008/0095428号明細書、米国特許出願公開第2010/0070438号明細書、米国特許出願公開第2016/0321561号明細書、米国特許出願公開第2017/0213000号明細書、米国特許出願公開第2019/0130994号明細書等に記載の機械学習の前処理にも適用可能である。
【0101】
[態様]
上述した例示的な実施の形態は、以下の態様の具体例であることが当業者により理解される。
【0102】
(第1項)一態様に係る学習用データの生成装置は、学習モデルの生成に用いられる学習用データの生成装置である。学習モデルは、試料に対する質量分析の結果を示すピーク情報と、試料の所定の特性を示す特性情報とが関連付けられたデータを用いて機械学習処理により生成される。学習用データの生成装置は、複数の試料から試料毎のピーク情報及び特性情報を取得する取得部と、取得部によって取得された複数のピーク情報を加工して学習用データを生成する処理を実行する処理部とを備える。処理部は、複数のピーク情報のいずれかにおいて欠損しているピークのデータを複数のピーク情報の各々から削除し、残余のピークについてピーク同士のデータの相関係数が所定値以上である場合に、一方のピークのデータを複数のピーク情報の各々からさらに削除し、残余のピークのデータによって構成されるピーク情報を教師データの入力データとする。
【0103】
この学習用データの生成装置によれば、不要なピーク(特徴量)を削減した学習用データが生成されるので、生成される学習済モデルの精度が向上するとともに、モデルの学習効率も向上する。
【0104】
(第2項)第1項に記載の学習用データの生成装置において、処理部は、複数の試料のデータ分布において外れ値を有するピークのデータを複数のピーク情報の各々からさらに削除する。
【0105】
このような構成とすることにより、学習済モデルの精度及びモデルの学習効率のさらなる向上を図ることができる。
【0106】
(第3項)一態様に係るモデル学習装置は、上記第1項又は第2項に記載の学習用データの生成装置によって生成された学習用データを用いて、機械学習処理を実行することにより学習モデルを生成するモデル生成部と、モデル生成部により生成された学習済モデルを記憶するモデル記憶部とを備える。
【0107】
このモデル学習装置によれば、上記の学習用データの生成装置により生成された学習用データを用いて機械学習処理を実行するので、生成される学習済モデルの精度が向上するとともに、モデルの学習効率も向上する。
【0108】
(第4項)一態様に係る試料の特性推定装置は、試料に対する質量分析の結果を示すピーク情報を取得する取得部と、ピーク情報を学習済モデルに入力することによって試料の所定の特性を推定する推定部とを備える。学習済モデルは、複数の試料から得られる複数のピーク情報に前処理を実行して生成される学習用データを用いて、機械学習処理を実行することにより生成されたものである。前処理は、複数のピーク情報のいずれかにおいて欠損しているピークのデータを複数のピーク情報の各々から削除する処理と、残余のピークについてピーク同士のデータの相関係数が所定値以上である場合に、一方のピークのデータを複数のピーク情報の各々からさらに削除する処理と、残余のピークのデータによって構成されるピーク情報を教師データの入力データとする処理とを含む。
【0109】
この試料の特性推定装置によれば、不要なピーク(特徴量)を削減した学習用データを用いて生成されたモデル(学習済モデル)によって試料の特性を推定するので、試料の特性を高精度に推定することができる。
【0110】
(第5項)一態様に係るクロマトグラフ質量分析装置は、クロマトグラフと、クロマトグラフの分析結果に基づいて質量分析を行なう質量分析器と、質量分析器による質量分析の結果を示すピーク情報に基づいて試料の所定の特性を推定する、上記第4項に記載の特性推定装置とを備える。
【0111】
このクロマトグラフ質量分析装置によれば、上述の特性推定装置を備えているので、試料の特性を高精度に推定することができる。
【0112】
今回開示された実施の形態は、全ての点で例示であって制限的なものではないと考えられるべきである。本開示により示される技術的範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内での全ての変更が含まれることが意図される。
【符号の説明】
【0113】
10 学習用データ生成装置、12,42 データ取得部、14 処理部、16,22 学習用データ記憶部、20 学習装置、24 モデル生成部、26,44 モデル記憶部、30 GCMS、32 GC部、34 MS部、36 データ処理部、38 記憶部、40 推定装置、46 推定部、50 入力層、52 加算層、54 シグモイド関数、56 量子化器、60 データセット、62-1~62-N サブデータセット、64-1~64-N 決定木モデル、66 統合部。