(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-26
(45)【発行日】2024-03-05
(54)【発明の名称】情報処理装置およびデータベース生成方法
(51)【国際特許分類】
G01N 21/27 20060101AFI20240227BHJP
【FI】
G01N21/27 Z
(21)【出願番号】P 2020066861
(22)【出願日】2020-04-02
【審査請求日】2023-02-14
(73)【特許権者】
【識別番号】390000686
【氏名又は名称】株式会社住化分析センター
(74)【代理人】
【識別番号】110000338
【氏名又は名称】弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】姫野 博史
【審査官】嶋田 行志
(56)【参考文献】
【文献】特開2006-038511(JP,A)
【文献】特開2017-096872(JP,A)
【文献】特開2004-325135(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G01N 21/00-G01N 21/61
JSTPlus/JST7580/JSTChina(JDreamIII)
(57)【特許請求の範囲】
【請求項1】
対象成分の濃度が既知である複数の既知試料のスペクトルを多変量解析した結果に基づいて各既知試料のスペクトルの特徴を表した既知試料特徴データを生成する特徴データ生成部と、
上記既知試料のスペクトルと
上記対象成分の濃度との関係を示す
検量線を
算出する性状導出データ生成部と、
上記既知試料特徴データと、該既知試料特徴データに対応する上記
検量線とを対応付けてデータベース化するデータベース生成部と
、
既知試料のスペクトルに対して行う前処理の最適条件の探索を、探索精度を段階的に上げながら詳細まで行う最適化部と、を備え、
上記性状導出データ生成部は、
上記最適化部が検出した最適条件での前処理後のスペクトルを用いて、スペクトルの特徴が類似した上記既知試料の
クラスタごとの検量線を算出し、
上記最適化部がより精度の高い探索で最適条件を検出したときには、当該最適条件での前処理後のスペクトルを用いて上記クラスタの上記検量線を算出し、上記データベースにおける該検量線を更新させる、情報処理装置。
【請求項2】
上記既知試料特徴データに基づいて、スペクトルの特徴が類似した上記既知試料をクラスタ化するクラスタリング部を備え、
上記性状導出データ生成部は、上記既知試料のクラスタごとにスペクトルの多変量解析を行うことにより上記
検量線を生成する、請求項
1に記載の情報処理装置。
【請求項3】
新たな既知試料のスペクトルと
当該新たな既知試料における上記対象成分の濃度を示すデータとの入力を受け付けた場合、
上記特徴データ生成部は、入力された上記スペクトルおよび
濃度を示す上記データに基づいて既知試料特徴データを生成し、
上記クラスタリング部は、新たな上記既知試料の上記既知試料特徴データに基づいて上記クラスタの更新を行い、
上記性状導出データ生成部は、更新後の上記クラスタの上記
検量線を生成し、
上記データベース生成部は、新たな上記既知試料の上記既知試料特徴デー
タを上記データベースに追加すると共に、更新された上記クラスタに属する各既知試料に対応付ける検量線を更新する、請求項2に記載の情報処理装置。
【請求項4】
上記性状導出データ生成部は、
上記最適化部が検出した最適条件での前処理後のスペクトルを用いて更新後の上記クラスタの上記
検量線を生成し、
上記最適化部がより精度の高い探索で最適条件を検出したときには、当該最適条件での前処理後のスペクトルを用いて更新後の上記クラスタの上記
検量線を生成し、上記データベースにおける該
検量線を更新させる、請求項
3に記載の情報処理装置。
【請求項5】
1または複数の情報処理装置を用いたデータベース生成方法であって、
対象成分の濃度が既知である複数の既知試料のスペクトルを多変量解析した結果に基づいて各既知試料のスペクトルの特徴を表した既知試料特徴データを生成する特徴データ生成ステップと、
上記既知試料のスペクトルと
上記対象成分の濃度との関係を示す
検量線を生成する性状導出データ生成ステップと、
上記既知試料特徴データと、該既知試料特徴データに対応する上記
検量線とを対応付けてデータベース化するデータベース生成ステップと、
既知試料のスペクトルに対して行う前処理の最適条件の探索を、探索精度を段階的に上げながら詳細まで行う最適化ステップと、を含み、
上記最適化ステップでは、
検出した最適条件での前処理後のスペクトルを用いて、スペクトルの特徴が類似した上記既知試料のクラスタごとの検量線を生成し、
より精度の高い探索で最適条件を検出したときには、当該最適条件での前処理後のスペクトルを用いて上記クラスタの上記検量線を生成し、上記データベースにおける該検量線を更新させる、データベース生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対象試料のスペクトルを解析して当該対象試料の性状を特定する情報処理装置等に関する。
【背景技術】
【0002】
対象試料のスペクトルを解析して当該対象試料の性状を特定する技術が従来から知られている。例えば、下記の特許文献1には、土壌の光スペクトルから土壌の成分等を推定する土壌分析方法が開示されている。より詳細には、上記土壌分析方法では、土壌の新規スペクトルと、全圃場の全土壌スペクトルをその形状で分類した各クラスタの平均スペクトルとの類似度を比較する。そして、検出スペクトルが属するクラスタのキャリブレーション式を使って土壌成分を推定する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述のような従来技術における、スペクトルの形状の類似度に基づいて検出スペクトルが属するクラスタの特定を行うという手法には、クラスタの特定方法を改良し、これにより、土壌成分の推定精度を改善する余地がある。また、特許文献1の技術は、土壌成分の推定に限られず、任意の試料について、任意の方法で測定されたスペクトルを解析して、当該試料の任意の性状を特定する場合にも適用できるが、このような適用においても同様の改善の余地が生じる。
【0005】
本発明の一態様は、試料のスペクトルからその試料の性状を高精度に特定することが可能な情報処理装置等を実現することを目的とする。
【課題を解決するための手段】
【0006】
上記の課題を解決するために、本発明の一態様に係る情報処理装置は、性状が既知である複数の既知試料のスペクトルを多変量解析した結果に基づいて各既知試料のスペクトルの特徴を表した既知試料特徴データの中から、対象試料のスペクトルの特徴データと類似したものを特定する類似データ特定部と、上記類似データ特定部が特定した既知試料特徴データに対応する上記既知試料についてのスペクトルと性状との関係を示す性状導出データを用いて、上記対象試料のスペクトルから当該対象試料の性状を特定する性状特定部と、を備えている。
【0007】
上記の課題を解決するために、本発明の一態様に係るスペクトル解析方法は、1または複数の情報処理装置を用いたスペクトル解析方法であって、性状が既知である複数の既知試料のスペクトルを多変量解析した結果に基づいて各既知試料のスペクトルの特徴を表した既知試料特徴データの中から、対象試料のスペクトルの特徴データと類似したものを特定する類似データ特定ステップと、上記類似データ特定ステップで特定された既知試料特徴データに対応する上記既知試料についてのスペクトルと性状との関係を示す性状導出データを用いて、上記対象試料のスペクトルから当該対象試料の性状を特定する性状特定ステップと、を含む。
【0008】
上記の課題を解決するために、本発明の一態様に係る情報処理装置は、性状が既知である複数の既知試料のスペクトルを多変量解析した結果に基づいて各既知試料のスペクトルの特徴を表した既知試料特徴データを生成する特徴データ生成部と、上記既知試料のスペクトルと性状との関係を示す性状導出データを生成する性状導出データ生成部と、上記既知試料特徴データと、該既知試料特徴データに対応する上記性状導出データとを対応付けてデータベース化するデータベース生成部と、を備えている。
【0009】
上記の課題を解決するために、本発明の一態様に係るデータベース生成方法は、1または複数の情報処理装置を用いたデータベース生成方法であって、性状が既知である複数の既知試料のスペクトルを多変量解析した結果に基づいて各既知試料のスペクトルの特徴を表した既知試料特徴データを生成する特徴データ生成ステップと、上記既知試料のスペクトルと性状との関係を示す性状導出データを生成する性状導出データ生成ステップと、上記既知試料特徴データと、該既知試料特徴データに対応する上記性状導出データと、を対応付けてデータベース化するデータベース生成ステップと、を含む。
【発明の効果】
【0010】
本発明の一態様によれば、対象試料のスペクトルから、当該対象試料の性状を高精度に特定することが可能になる。
【図面の簡単な説明】
【0011】
【
図1】本発明の一実施形態に係る情報処理装置の要部構成の一例を示すブロック図である。
【
図2】上記情報処理装置が構築し、使用するデータベースの構成例を示す図である。
【
図3】特徴データを座標平面上にプロットした例を示す図である。
【
図5】対象試料のスペクトルの特徴データと類似した特徴データを特定した例を示す図である。
【
図6】上記データベースを構築する処理の一例を示すフローチャートである。
【
図7】前処理条件と因子数を決定する処理の一例を示すフローチャートである。
【
図8】対象試料の性状を特定する処理の一例を示すフローチャートである。
【
図9】上記データベースを更新する処理の一例を示すフローチャートである。
【
図10】前処理条件を段階的に更新する処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0012】
〔装置構成〕
本発明の一実施形態に係る情報処理装置1の構成を
図1に基づいて説明する。
図1は、情報処理装置1の要部構成の一例を示すブロック図である。情報処理装置1は、(1)性状が未知の対象試料について測定されたスペクトルから、その対象試料の性状を特定する機能、(2)対象試料の性状の特定に用いるデータベースを構築する機能、および(3)上記データベースを更新する機能を備えている。各機能の詳細は以下で順次説明する。
【0013】
なお、以下では、対象試料が土壌試料であり、スペクトルは所定の光源から照射された光が土壌試料で反射した反射光を集光して測定したものである例を説明する。また、以下では、対象試料の性状として、対象試料に含まれる対象成分の濃度を特定する例を説明する。対象成分は、当該成分の濃度がスペクトルに反映されるものであればよい。
【0014】
図1に示すように、情報処理装置1は、情報処理装置1の各部を統括して制御する制御部10、情報処理装置1が使用する各種データを記憶する記憶部20、情報処理装置1に対する入力を受け付ける入力部30、およびデータを出力する出力部40を備えている。なお、記憶部20、入力部30、および出力部40は、情報処理装置1に外付けされた、情報処理装置1とは別体の装置であってもよい。
【0015】
また、制御部10には、入力受付部101、最適化部102、前処理部103、性状導出データ生成部104、評価部105、クラスタリング部106、およびデータベース生成部107が含まれている。また、制御部10には、特徴データ生成部108、類似データ特定部109、および性状特定部110が含まれている。
【0016】
また、記憶部20にはデータベース201が記憶されている。データベース201は、情報処理装置1により構築および更新されるデータベースである。そして、データベース201は、情報処理装置1が対象試料の性状特定に用いるデータベースである。
【0017】
入力受付部101は、入力部30に入力されたデータを制御部10の各部に受け渡す。具体的には、入力受付部101は、データベース201の構築時には、入力部30に入力されたデータベース構築用の各データを最適化部102に渡す。一方、入力受付部101は、対象試料の性状判定時には、入力部30に入力された対象試料のスペクトルを前処理部103に渡す。また、データベース201に新たに追加するデータが入力部30に入力された場合にも、入力受付部101は、そのデータを前処理部103に渡す。
【0018】
最適化部102は、スペクトルから試料の性状を精度よく特定するために当該スペクトルに対して行う前処理の最適条件の探索を行う。詳細は
図10に基づいて後述するが、最適化部102は、最適条件の探索を、その精度を段階的に上げながら詳細まで行ってもよい。また、最適化部102は、後述する多変量解析における最適な説明変数の数(以下、因子数とも呼ぶ)の決定も行う。
【0019】
前処理部103は、上述の前処理をスペクトルに対して行う。例えば、上記前処理は、スペクトルの微分、移動平均の算出、および波長範囲の絞り込み等であってもよい。スペクトルを微分する前処理の最適化は、最適な微分次数の算出であり、スペクトルの移動平均を算出する前処理の最適化は、移動平均を算出する対象とする波長範囲(測定点の範囲)の最適化であり、波長範囲の絞り込みは最適な波長範囲の特定である。
【0020】
性状導出データ生成部104は、性状が既知である既知試料のスペクトルと性状との関係を示す性状導出データを生成する。より詳細には、性状導出データ生成部104は、複数の既知試料のスペクトルを多変量解析して、スペクトルと性状との関係を示す性状導出データを生成する。性状が既知の既知試料とは、具体的には対象成分の濃度が既知の土壌試料である。また、上記性状導出データは、具体的には対象成分の濃度を算出するための検量線である。既知試料の対象成分の濃度は例えば化学分析等によって特定されたものであってもよい。
【0021】
多変量解析の具体的な手法は特に限定されず、例えばPCA(Principal Component Analysis:主成分分析)を行ってもよいし、PLS(Partial Least Squares)による解析を行ってもよい。PLSでは、目的変数の情報も使って解析を行うため、目的変数と関連性の高い説明変数(因子)を特定し、この説明変数に基づく検量線を算出することができる。目的変数の情報としては、スペクトルに対応する既知試料の性状を示すデータ、すなわち既知試料に含まれる対象成分の濃度を示すデータを用いればよい。
【0022】
PLSを適用する場合、性状導出データ生成部104は、PLSR(Partial Least Squares Regression:部分的最小二乗回帰)により、下記の数式で表される検量線を算出する。
Y=a0+a1X1+a2X2+a3X3+…+anXn
なお、上記数式において、Yは対象成分の濃度、a0は切片の値、X1~Xnは移動平均および微分された波長の吸光度の値、a1~anは重み(回帰係数)であり、nは移動平均化後の波長の数に等しい。性状導出データ生成部104は、複数の既知試料のスペクトルデータと、その対象成分濃度から、上記数式のa1~anの値を算出して、検量線を生成する。
【0023】
評価部105は、性状導出データ生成部104が生成した性状導出データの妥当性を評価する。具体的には、評価部105は、上述の検量線の妥当性を示す評価値として、当該検量線で算出した濃度と、化学分析等により測定した濃度との相関係数を算出する。
【0024】
クラスタリング部106は、スペクトルの特徴が類似した既知試料をクラスタ化する。詳細は後述するが、クラスタ化は、特徴データ生成部108が生成する特徴データに基づいて行われる。
【0025】
データベース生成部107は、既知試料について特徴データ生成部108が生成する特徴データと、該特徴データに対応する性状導出データである検量線とを対応付けてデータベース化する。このようにして生成されたデータベースがデータベース201である。
【0026】
特徴データ生成部108は、複数の既知試料のスペクトルを多変量解析した結果に基づいて各既知試料のスペクトルの特徴を表した特徴データを生成する。具体的には、特徴データ生成部108は、各既知試料のスペクトルから、性状導出データ生成部104による多変量解析で特定された説明変数(因子)の値を特定して、それを各既知試料の特徴データとする。例えば、多変量解析にPCAを適用した場合に、第1~第n主成分の各値がそれぞれa1~anであったとすれば、特徴データは(a1,…,an)となる。多変量解析にPLSを適用した場合にも同様にして特徴データを生成することができる。なお、PLSRで算出した検量線の重みa1~anを特徴データとしてもよい。これらの特徴データもデータベース201に記録される。
【0027】
類似データ特定部109は、データベース201に記録されている複数の既知試料の特徴データの中から、対象試料のスペクトルの特徴データと類似したものを特定する。例えば、類似データ特定部109は、特徴データを構成する因子の値を、当該特徴データの位置を示す値とみなして、対象試料のスペクトルの特徴データと、各既知試料の特徴データとの間の距離をそれぞれ算出してもよい。そして、類似データ特定部109は、当該距離が最も短かった既知試料の特徴データを、対象試料のスペクトルの特徴データと類似した特徴データであると特定してもよい。
【0028】
性状特定部110は、類似データ特定部109が特定した特徴データに対応する検量線を用いて、対象試料のスペクトルから当該対象試料に含まれる対象成分の濃度を算出する。
【0029】
以上のように、情報処理装置1は、複数の既知試料の特徴データの中から対象試料のスペクトルの特徴データと類似したものを特定する類似データ特定部109と、類似データ特定部109が特定した特徴データに対応する性状導出データを用いて、対象試料のスペクトルから当該対象試料の性状を特定する性状特定部110と、を備えている。
【0030】
上記の構成によれば、スペクトルを多変量解析した結果に基づいて各既知試料のスペクトルの特徴を表した既知試料特徴データの中から、対象試料のスペクトルの特徴データと類似したものを特定する。これにより、スペクトルの特徴が類似した既知試料特徴データを精度よく特定することができる。
【0031】
そして、上記の構成によれば、類似データ特定部が特定した既知試料特徴データに対応する既知試料の性状導出データを用いて、対象試料の性状を特定する。これにより、対象試料用の性状導出データを作成することなく、対象試料の性状を速やかに特定することができる。
【0032】
また、以上のように、情報処理装置1は、各既知試料のスペクトルの特徴データを生成する特徴データ生成部108と、既知試料のスペクトルと性状との関係を示す性状導出データを生成する性状導出データ生成部104と、既知試料の特徴データと、該特徴データに対応する性状導出データとを対応付けてデータベース化するデータベース生成部107と、を備えている。
【0033】
上記の構成によれば、既知試料の特徴データと、該特徴データに対応する性状導出データとが対応付けられたデータベース201を構築することができる。上述のように、このデータベース201を用いることにより、対象試料のスペクトルの特徴データから、その特徴データと類似した特徴データを特定することができる。そして、特定した特徴データに対応する性状導出データを用いて、対象試料のスペクトルから当該対象試料の性状を特定することができる。
【0034】
〔データベースの構成例〕
データベース201の構成例を
図2に基づいて説明する。
図2は、データベース201の構成例を示す図である。図示のデータベース201は、試料ID、測定成分、特徴データ、検量線、相関係数、因子数、更新日時、および前処理条件が対応付けられたデータ構造である。
【0035】
試料IDは、各既知試料を識別する識別情報であり、1つの既知試料に対して固有のIDが1つ付与される。また、測定成分は、濃度を測定する対象となる対象成分を示す。
図2の例ではFe
2O
3である。
【0036】
特徴データは、既知試料のスペクトルの特徴を示すデータであり、特徴データ生成部108が生成する。具体的には、特徴データは、多変量解析で特定された説明変数(因子)の値で構成される。また、検量線は、スペクトルから対象成分の濃度を算出するための数式であり、性状導出データ生成部104が算出する。クラスタリング部106が決定したクラスタが同じである既知試料については、同一の検量線が対応付けられる。
【0037】
相関係数は、性状導出データ生成部104が生成した検量線を用いて算出した濃度と、化学分析等により測定した濃度との相関の程度を表した数値であり、評価部105が算出する。また、因子数は、性状導出データ生成部104が行った多変量解析における説明変数の数である。因子数は最適化部102が決定する。
【0038】
更新日時は、各既知試料に関するデータが更新された日時を示す。具体的には、検量線、相関係数、因子数、および前処理条件は更新の対象となっているので、これらのデータの少なくとも何れかが更新されると、その日時が更新日時としてデータベース201に記録される。また、前処理条件は、スペクトルに対して行う前処理の条件を示す。前処理条件は最適化部102が決定する。
【0039】
〔特徴データの分布〕
特徴データ生成部108が生成する特徴データを座標平面上にプロットすることにより、特徴データ間の関連性を視覚的に分かりやすく表現することができる。
図3は、特徴データ生成部108が生成した特徴データを座標平面上にプロットした例を示す図である。なお、
図3では、特徴データを構成する複数の因子のうち因子1と因子2の値に基づいてプロットしている。特徴データを構成する因子の数は3以上であってもよい。
【0040】
図3に示す特徴データは、5つの圃場から採取した土壌試料のスペクトル測定結果に基づいて生成されたものである。
図3では、同じ圃場から採取した土壌試料の特徴データのプロットが分布するエリアをA1~A5で示している。
【0041】
この結果から、同じ圃場から採取した土壌試料の特徴データのプロットは、ある程度近い範囲にまとまっていることが分かる。ただし、同じ圃場から採取した土壌試料であっても、特徴データのプロット位置に大きな幅があるものも見られ、同じ圃場から採取した土壌試料であっても、必ずしも同様の特徴を有しているとはいえないことが分かる。
【0042】
〔土壌試料のクラスタリング〕
クラスタリング部106は、特徴データの類似性に基づいて土壌試料をクラスタ化する。すなわち、クラスタリング部106は、上記のプロット位置が近いものが同じクラスタに分類されるようにクラスタ化する。
【0043】
図4は、クラスタ化の結果の例を示す図である。同図では、圃場については考慮せず、特徴データのプロット位置が近い所定数のプロットを特定し、それらのプロットに対応する土壌試料を1つのクラスタとしており、このクラスタ化の結果を円Cで示している。クラスタの作成においては、クラスタの中心とするプロットからの距離と、1つのクラスタに含めるプロットの個数を任意に設定してもよい。この場合、クラスタリング部106は、当該設定に従ってクラスタ化を行う。
【0044】
図示のように、1つの圃場から得られた土壌試料であっても、特徴データのプロット位置が離れていれば異なるクラスタに分類されている。また、異なる圃場から得られた土壌試料であっても、特徴データのプロット位置が近接していれば同じクラスタに分類されている。
【0045】
〔類似データの特定〕
図3および
図4のように特徴データをプロットした場合、類似した特徴データは近い位置にプロットされる。したがって、類似データ特定部109は、対象試料のスペクトルの特徴データと類似した特徴データを特定する際には、対象試料のスペクトルの特徴データとプロット位置が近い特徴データを類似データであると特定すればよい。
【0046】
図5は、対象試料のスペクトルの特徴データと類似した特徴データを特定した例を示す図である。
図5に示す座標平面には、上述の5つの圃場から採取した土壌試料のスペクトル測定結果に基づいて生成された特徴データをプロットすると共に、対象試料のスペクトルの特徴データについてもプロットしている(点P)。
【0047】
図示のように、点Pから最も近い位置にある点はQである。よって、この例では、類似データ特定部109は、対象試料のスペクトルの特徴データと最も類似した特徴データは、点Qの特徴データであると特定すればよい。具体的には、類似データ特定部109は、対象試料のスペクトルの特徴データのプロット位置と、各既知試料のスペクトルの特徴データのプロット位置との距離を算出し、その距離が最も短いものを類似データと特定する。
【0048】
〔処理の流れ(データベース構築)〕
情報処理装置1がデータベース201を構築する処理(データベース生成方法)の流れを
図6に基づいて説明する。
図6は、データベース201を構築する処理の一例を示すフローチャートである。なお、以下では、土壌試料のスペクトルから、その土壌試料に含まれる対象成分の濃度を算出するためのデータベース201を構築する例を説明する。
【0049】
S11では、入力受付部101が、複数の既知試料について、そのスペクトルと化学分析結果の入力を受け付ける。なお、化学分析結果は、既知試料に含まれる対象成分の濃度を示すデータである。また、既知試料は、できるだけ多様なものとすることが好ましい。例えば、既知試料として、
図3~
図5の例のように複数の圃場の複数個所で採取された土壌試料を用意してもよい。この場合、S11では、それらの既知試料について測定されたスペクトルと化学分析結果の入力を受け付ける。
【0050】
S12では、最適化部102等により、S11で入力を受け付けた各スペクトルと対応する化学分析結果(濃度)に対する前処理条件と、PLSR解析の因子数とが決定される。S12の処理の詳細は
図7に基づいて後述する。
【0051】
S13では、前処理部103が、S12で決定された前処理条件を適用して、S11で入力を受け付けた各スペクトルの前処理を行う。そして、S14では、性状導出データ生成部104が、S13で前処理された各スペクトルについて、S11で入力を受け付けた化学分析結果を目的変数としてPLSR解析を行い、対象成分の濃度を算出するための検量線を算出する。
【0052】
S15(特徴データ生成ステップ)では、特徴データ生成部108が、S14のPLSR解析結果に基づいて、各既知試料の特徴データを生成する。具体的には、特徴データ生成部108は、S13で前処理された各スペクトルについて、PLSR解析によって特定された説明変数の値を算出し、それらを各既知試料の特徴データとする。
【0053】
S16では、クラスタリング部106が、S15で生成された特徴データに基づいて既知試料をクラスタ化する。例えば、クラスタリング部106は、クラスタの中心とする特徴データを選択して、その特徴データからの距離が近いものから順に当該クラスタに分類してもよい。この処理は、上記クラスタに分類した特徴データが所定数に達するまで行う。そして、クラスタの中心とする特徴データを変更しながら、上述の処理を繰り返すことにより、各既知試料のクラスタを決定してもよい。
【0054】
S17では、最適化部102等により、S16で設定されたクラスタのそれぞれについて、スペクトルに対する前処理条件とPLSR解析の因子数とが決定される。S17の処理は、前処理条件と因子数の決定がクラスタ単位で行われることを除けばS12の処理と同様である。
【0055】
S18では、前処理部103が、S17で決定された前処理条件を適用して、各クラスタのスペクトルの前処理を行う。つまり、S18では、クラスタごとに決定された前処理条件で当該クラスタに対応する各スペクトルの前処理が行われる。
【0056】
S19(性状導出データ生成ステップ)では、性状導出データ生成部104が、S16で設定された各クラスタについて、S18で前処理されたスペクトルから検量線を得る処理を行う。具体的には、性状導出データ生成部104は、クラスタごとに前処理したスペクトルを対象として、S11で入力を受け付けた化学分析結果を目的変数としたPLSR解析を行って、クラスタごとの検量線を算出する。
【0057】
S20(データベース生成ステップ)では、データベース生成部107が、各既知試料のデータをデータベース201に記録し、
図6の処理は終了する。なお、既知試料のデータとは、既知試料のID、測定成分、特徴データ、検量線、クラスタ等、データベース201に記録する各種データである(
図2参照)。以上の処理により、対象試料のスペクトルから当該対象試料に含まれる対象成分の濃度を算出するためのデータベース201が構築される。
【0058】
以上のように、クラスタリング部106は、既知試料の特徴データに基づいて、スペクトルの特徴が類似した既知試料をクラスタ化する(S16)。そして、性状導出データ生成部104は、既知試料のクラスタごとにスペクトルの多変量解析を行うことにより性状導出データである検量線を算出する(S19)。
【0059】
上記の構成によれば、スペクトルの特徴が類似した既知試料のクラスタごとにスペクトルの多変量解析を行って検量線を算出するので、確度の高い検量線を算出することが可能になる。
【0060】
〔処理の流れ(前処理条件と因子数の決定)〕
図6のS12処理の詳細を
図7に基づいて説明する。
図7は、前処理条件と因子数を決定する処理の一例を示すフローチャートである。また、
図7には、前処理条件の評価基準の例も併せて示している。
【0061】
S121では、最適化部102が、前処理条件を初期値に設定し、S122では、前処理部103が、S121で設定された前処理条件で各スペクトルの前処理を行う。そして、S123では、性状導出データ生成部104が、S122で前処理されたスペクトルから検量線を得る。具体的には、性状導出データ生成部104は、
図6のS11で入力を受け付けた化学分析結果を目的変数としたPLSR解析を行って検量線を算出する。
【0062】
S124では、評価部105が、S123で算出された検量線について相関係数を算出する。具体的には、評価部105は、S121で設定された前処理条件で前処理したスペクトルとS123で算出された検量線とを用いて算出した対象成分の濃度と、
図6のS11で入力を受け付けた当該成分の濃度とに基づいて相関係数を算出する。
【0063】
また、S124では、最適化部102が、PLSR解析における因子数を算出する。最適化部102は、例えばクロスバリデーションによる予測値を用いて算出した分散の値を指標として因子数を算出してもよい。この場合、最適化部102は、分散値が最大となる因子数を算出してもよい。ただし、検量線の汎用性を考慮すれば、因子数は少ないほど好ましいため、分散値が大きく下がらない範囲で(例えば最大値から1%以内の範囲で)最小の因子数を算出してもよい。
【0064】
また、上記のとおり、因子数は少ないほど好ましいため、因子数に上限(例えば10個)を設定してもよい。この場合、最適化部102は、算出した因子数が上限を超えていた場合には、上限の個数を因子数とする。なお、因子数の算出方法は、ここに挙げた例に限られない。
【0065】
S125では、最適化部102が、S124で算出された相関関数と因子数を一時的に記録する。そして、S126では、最適化部102は、最適化のための試行、すなわちS122~S127の処理の繰り返しを終了するか否かを判定する。具体的には、最適化部102は、試行すべき全ての前処理条件を用いた相関係数と因子数の算出および記録が終了していれば、試行を終了すると判定する。
【0066】
S126で試行を終了する(S126でYES)と判定された場合にはS128の処理に進む。一方、試行を継続する(S126でNO)と判定された場合にはS127の処理に進む。そして、S127では、最適化部102が前処理条件を変更して、処理はS122に戻る。
【0067】
S128では、最適化部102は、S125で一時的に記録した相関係数と因子数の組み合わせの中で、因子数が小さく、相関係数が高い前処理条件を選択する。因子数が小さいものを選択する理由は、因子数が多いほど相関係数は高くなる傾向があるが、因子数が多いほど汎用性が下がるためである。
【0068】
例えば、最適化部102は、所定の評価基準に従って因子数と前処理条件の組み合わせを評価し、評価結果が最良であった因子数と前処理条件の組み合わせを、最適な因子数と前処理条件として選択してもよい。上記評価基準は、因子数が少ないほど、また、相関係数が高いほど高評価となるような基準とすればよい。
【0069】
〔処理の流れ(対象試料の性状特定)〕
情報処理装置1が対象試料の性状を特定する処理(スペクトル解析方法)の流れを
図8に基づいて説明する。
図8は、対象試料の性状を特定する処理の一例を示すフローチャートである。なお、以下では、対象試料が土壌試料であり、上記性状として対象試料に含まれる対象成分の濃度を特定する例を説明する。
【0070】
S31では、入力受付部101が対象試料のスペクトルの入力を受け付ける。対象試料は対象成分の濃度が未知である土壌試料である。そして、S32では、前処理部103が、
図6のS12で決定された前処理条件を適用して、S31で入力を受け付けたスペクトルを前処理する。
【0071】
S33では、特徴データ生成部108が、対象試料の特徴データを生成する。具体的には、特徴データ生成部108は、S32で前処理されたスペクトルについて、
図6のS14の検量線算出の際に行われたPLSR解析によって特定された説明変数の値を算出し、その値を対象試料の特徴データとする。
【0072】
S34(類似データ特定ステップ)では、類似データ特定部109が、
図6のS15で生成された既知試料の特徴データの中から、対象試料のスペクトルの特徴データと類似したものを特定する。
【0073】
S35では、性状特定部110が、S34で特定された特徴データに対応する検量線を特定する。より詳細には、性状特定部110は、データベース201において、S34で特定された特徴データに対応付けられている検量線を特定する。この検量線は、
図6のS19でクラスタごとに算出されたものである。つまり、S35では、対象試料と類似した特徴データの既知試料が属するクラスタについて算出された検量線が取得される。
【0074】
S36(性状特定ステップ)では、性状特定部110は、S35で特定された検量線を用いて、S31で入力を受け付けた対象試料のスペクトルから当該対象試料における対象成分の濃度を算出する。これにより、
図8の処理は終了する。なお、性状特定部110は、算出した濃度を出力部40に出力させてもよい。
【0075】
〔処理の流れ(データベース更新)〕
情報処理装置1がデータベース201を更新する処理の流れを
図9に基づいて説明する。
図9は、データベース201を更新する処理の一例を示すフローチャートである。
【0076】
S51では、入力受付部101が新たな既知試料のスペクトルと対象成分の濃度を示すデータの入力を受け付ける。新たな既知試料も、データベース201を構築する際に用いた既知試料と同様に土壌試料である。なお、S51では、データベース201を構築するにあたり必要な他のデータの入力についても受け付けてもよい。例えば、
図2のようなデータベース201を構築する場合には、測定成分を示すデータ等の入力についても受け付けてもよい。
【0077】
S52では、前処理部103が、
図6のS12で決定された前処理条件を適用して、S51で入力を受け付けたスペクトルを前処理する。そして、S53では、特徴データ生成部108が、新たな既知試料の特徴データを生成する。具体的には、特徴データ生成部108は、S52で前処理されたスペクトルについて、
図6のS14で行われたPLSR解析によって特定された説明変数の値を算出し、その値を新たな既知試料の特徴データとする。
【0078】
S54では、クラスタリング部106が、新たな既知試料の追加に伴うクラスタの更新を行う。具体的には、クラスタリング部106は、S53で生成された特徴データと、
図6のS15で生成済みの各特徴データとを含む全特徴データを対象として、再度クラスタ化を行う。なお、S54におけるクラスタの更新態様はこの例に限られない。例えば、新たな既知試料の特徴データと最も類似した特徴データが属するクラスタを、新たな既知試料の特徴データのクラスタに設定し、他の特徴データのクラスタは変更しないようにしてもよい。
【0079】
S55では、S54で更新されたクラスタのそれぞれについて、最適化部102等により、スペクトルに対する前処理条件と、PLSR解析の因子数とが決定される。S55の処理の詳細は
図10に基づいて後述する。
【0080】
S56では、前処理部103が、S55で決定された前処理条件を適用して、更新後の各クラスタのスペクトルの前処理を行う。このように、S56では
図6のS18と同様にクラスタごとに決定された前処理条件で当該クラスタに対応する各スペクトルの前処理が行われる。
【0081】
S57では、性状導出データ生成部104が、S54の更新後のクラスタごとに、S56で前処理されたスペクトルのPLSR解析を行って、更新後の各クラスタの検量線を算出する。PLSR解析における目的変数は、S51で入力を受け付けた化学分析結果と、
図6のS11で入力を受け付けた化学分析結果である。
【0082】
S58では、データベース生成部107が、新たな既知試料のデータをデータベース201に追加すると共に、クラスタの更新を反映させ、これにより
図9の処理は終了する。新たな既知試料のデータとは、新たな既知試料のID、特徴データ、および検量線等のデータベース201に記録する各種データである(
図2参照)。また、クラスタに更新があった既知試料については、検量線、相関係数、因子数、前処理条件、および更新日時を更新する。また、
図2の例のように、データベース201に更新日時を記録する構成となっている場合、データベース生成部107は更新日時についても記録する。
【0083】
以上のように、新たな既知試料のスペクトルと化学分析結果の入力を受け付けた場合、特徴データ生成部108は、入力されたスペクトルおよび化学分析結果に基づいて既知試料の特徴データを生成する。また、クラスタリング部106は、新たな既知試料の特徴データに基づいてクラスタの更新を行う。そして、性状導出データ生成部104は、更新後のクラスタの検量線を算出し、データベース生成部107は、新たな既知試料の特徴データをデータベース201に追加すると共に、更新されたクラスタに属する各既知試料に対応付ける検量線を更新する。
【0084】
上記の構成によれば、新たな既知試料のスペクトルと、当該新たな既知試料の性状を示す化学分析結果との入力を受け付けた場合に、新たな既知試料の特徴データがデータベース201に追加される。また、上記の構成によれば、クラスタとクラスタに対応する性状導出データが更新され、これに伴って、更新後のクラスタに属する各既知試料に対応付ける検量線も更新される。これにより、性状が未知の対象試料に対して、より類似性の高い既知試料を特定できる可能性を高めて、性状の特定結果の確度を高めることができる。
【0085】
〔処理の流れ(前処理条件の段階的な更新)〕
図9のS55の処理の詳細を
図10に基づいて説明する。
図10は、前処理条件を段階的に更新する処理の一例を示すフローチャートである。なお、
図10のS551~S558は、
図7のS121~S128と概ね同様である。以下では、
図7との相違点を中心に説明する。
【0086】
図10の処理では、初回に最適な前処理条件を決定する際には粗い探索を行い、その後、探索精度を段階的に高めて前処理条件をより最適なものに更新する。このため、S557の前処理条件の変更において、最初にS558で前処理条件と因子数が選択されるまでの期間は、最適化部102は、予め設定された複数段階の探索精度のうち、最も粗いものを適用して前処理条件を変更する。
【0087】
S558において、最も粗い探索精度での探索の結果に基づき、最適な因子数と前処理条件が選択されると、
図9のS56で当該前処理条件での前処理が行われ、S57でPLSR解析と検量線の算出が行われる。そして、S58でこれらの算出結果がデータベース201に反映される。
【0088】
図9のS56以降の処理と並行して、あるいはそれらの処理の後に、最適化部102がS559の処理を行う。S559では、最適化部102は、直近の最適化における探索精度が最大であるか否かを判定する。ここで最大ではないと判定された場合(S559でNO)にはS560の処理に進む。S560では、最適化部102は、直近の最適化における探索精度を一段階上げて前処理条件を変更する。この後、処理はS552に戻る。一方、S559で探索精度が最大であると判定された場合(S559でYES)には、
図10の処理は終了する。
【0089】
以上のように、最適化部102は、前処理の最適条件の探索を、探索精度を段階的に上げながら詳細まで行う。そして、性状導出データ生成部104は、最適化部102が検出した最適条件での前処理後のスペクトルを用いて、更新後のクラスタの検量線を算出する。そして、性状導出データ生成部104は、最適化部102がより精度の高い探索で最適条件を検出したときには、当該最適条件での前処理後のスペクトルを用いて、更新後のクラスタの検量線を算出し、データベース201における検量線を更新させる。
【0090】
上記の構成によれば、最初は相対的に粗い探索精度で最適条件を探索するので、この最適条件を適用して速やかに検量線を算出し、データベース201を使用可能な状態とすることができる。そして、データベース201が使用可能な状態となった後、より高い探索精度で探索された最適条件に基づいてデータベース201における検量線を更新するので、検量線の精度を段階的に高めることができる。
【0091】
例えば、10~40の範囲で最適な移動平均を求める場合、S557で移動平均を10ずつ変化させれば4回の変更(S552~S557の処理の4回の繰り返し)で10~40の範囲における最適な移動平均を求めることができる。そして、S558で因子数と前処理条件の選択が行われた後のS560で探索精度が上げられる。例えば、移動平均の変更幅を上記より小さい5にすれば、7回の変更で10~40の範囲における最適な移動平均を求めることができる。この場合、S552~S557の繰り返し回数は多くなるが、移動平均を10ずつ変化させた場合と比べてより妥当な移動平均を求めることができる可能性が高くなる。
【0092】
〔変形例〕
対象試料は土壌試料に限られない。対象試料は、その性状を示すスペクトルを測定可能な試料であればよく、固体、液体、および気体の何れであってもよい。また、情報処理装置1が特定する性状は対象成分の濃度に限られず、スペクトルの測定に用いる光および測定方法も特に限定されない。特定したい性状に応じた方法で測定したスペクトルを用いればよい。
【0093】
例えば、対象試料をICP(inductively coupled plasma)分析により得られるスペクトルを用いて当該対象試料の性状を特定する構成とすることもできる。この他にも、例えば、ガスクロマトグラフィー、GC/MS(ガスクロマトグラフ質量分析)、あるいは液体クロマトグラフィー等によって得られるチャートを用いて当該対象試料の性状を特定する構成とすることもできる。
【0094】
また、特定する性状としては任意のものを適用可能である。例えば、土壌試料であれば、上記実施形態の例のように土壌に含まれる各種成分の定量を行うこともできるし、土壌のpH等を特定することも可能である。また、スペクトルと土壌成分との関係をモデル化しておくことにより、土壌成分の定性分析を行うことや、土壌の分類を行うことも可能でなる。
【0095】
情報処理装置1は、データベース201の構築、更新、並びにデータベース201を用いた特性予測を行う構成であるが、これらを個別の情報処理装置で行う構成としてもよい。例えば、データベースの構築を行うが特性予測は行わない情報処理装置や、特性予測を行うがデータベースの構築は行わない情報処理装置等も本発明の範疇に含まれる。また、上記実施形態で説明した各処理は、複数の情報処理装置で実行してもよい。つまり、上記実施形態で説明した各処理は、1または複数の情報処理装置に実行させることができる。
【0096】
〔ソフトウェアによる実現例〕
情報処理装置1の制御ブロック(特に制御部10に含まれる各部)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。
【0097】
後者の場合、情報処理装置1は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば1つ以上のプロセッサを備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばCPU(Central Processing Unit)を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ROM(Read Only Memory)等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するRAM(Random Access Memory)などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
【0098】
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【符号の説明】
【0099】
1 情報処理装置
102 最適化部
103 前処理部
104 性状導出データ生成部
106 クラスタリング部
107 データベース生成部
108 特徴データ生成部
109 類似データ特定部
110 性状特定部
201 データベース