(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-11
(45)【発行日】2024-03-19
(54)【発明の名称】データ解析装置、データ解析方法、学習済みモデルの生成方法、システム、及びプログラム
(51)【国際特許分類】
G01N 21/3563 20140101AFI20240312BHJP
G06N 20/00 20190101ALI20240312BHJP
【FI】
G01N21/3563
G06N20/00
(21)【出願番号】P 2022543285
(86)(22)【出願日】2021-05-21
(86)【国際出願番号】 JP2021019425
(87)【国際公開番号】W WO2022038852
(87)【国際公開日】2022-02-24
【審査請求日】2023-02-15
(31)【優先権主張番号】P 2020138104
(32)【優先日】2020-08-18
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000001993
【氏名又は名称】株式会社島津製作所
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】裘 浩棟
(72)【発明者】
【氏名】永井 詩織
【審査官】伊藤 裕美
(56)【参考文献】
【文献】特開2019-039773(JP,A)
【文献】特表2020-515841(JP,A)
【文献】国際公開第2019/028004(WO,A1)
【文献】米国特許出願公開第2019/0272449(US,A1)
【文献】特表2010-520471(JP,A)
【文献】田辺和俊 ほか,コンピュータによる赤外スペクトルからの構造推定,Journal of Computer Chemistry, Japan,2005年03月15日,Vol.4, No.1,Page.1-24,APPENDIX.1-APPENDIX.36
(58)【調査した分野】(Int.Cl.,DB名)
G01N 21/00-G01N 21/83
G06N 20/00-G06N 20/20
G01J 3/00-G01J 3/52
(57)【特許請求の範囲】
【請求項1】
FT-IRスペクトルである解析対象を取得する取得部と、
FT-IRスペクトル
と、学習済み原子団に含まれる1つの原子団を指定する指定情報とが入力されると、前記入力されたFT-IRスペクトルが
、前記入力された指定情報が指定する原子団に由来するピークを含むか否かを示す情報を出力するように機械学習された学習済みモデルと、
選択肢の中から1以上の原子団を選ぶことをユーザに対して要求する要求部と、
前記解析対象を前記学習済みモデルへ入力する解析部とを備え、
前記学習済み原子団は、3原子以上の原子団を含
み、
前記選択肢は、前記3原子以上の原子団を含み、
前記解析部は、
前記要求部からの要求に対して選ばれた前記1以上の原子団の中に前記3原子以上の原子団が含まれるか否かを判断し、
選ばれた前記1以上の原子団の中に前記3原子以上の原子団が含まれる場合には、前記取得部により取得された前記解析対象と、前記ユーザによって選ばれた前記3原子以上の原子団を指定する前記指定情報とを前記学習済みモデルに入力することにより、前記解析対象の解析を行ない、
選ばれた前記1以上の原子団の中に前記3原子以上の原子団が含まれない場合には、前記学習済みモデルによる前記解析対象の解析を行なわない
ように構成される、データ解析装置。
【請求項2】
前記取得部は、前記解析対象の格納場所の入力を受け付ける第1入力画面を報知装置に表示させ、前記第1入力画面に対して前記ユーザが入力した前記格納場所から前記解析対象を取得するように構成され、
前記要求部は、第2入力画面を前記報知装置に表示させるように構成され、
前記第2入力画面は、前記選択肢の中から1以上の原子団を選ぶことを前記ユーザに対して要求するメッセージを表示し、前記ユーザによる前記1以上の原子団の入力を受け付ける、請求項1に記載のデータ解析装置。
【請求項3】
前記データ解析装置は、前記ユーザに対する報知を
前記報知装置に行なわせる報知
部をさらに備え、
前記解析部は、前記
要求部からの要求に対して選ばれた1以上の原子団の各々について、当該原子団由来のピークが前記解析対象に含まれるか否かを示す解析結果を取得するように構成され、
前記報知部は、前記報知装置を通じて
前記ユーザに前記解析結果を報知するように構成される、請求項
2に記載のデータ解析装置。
【請求項4】
前記データ解析装置は、FT-IRスペクトルが与えられたときに、前記与えられたFT-IRスペクトルが所定の原子団に由来するピークを含むか否かをルールベースで解析する解析ソフトウェアをさらに備え、
前記選択肢は、
前記学習済み原子団に含まれず、かつ、前記所定の原子団に含まれる3原子未満の原子団
をさらに含み、
前記解析部は、
前記
要求部からの要求に対して選ばれた1以上の原子団の中に前記3原子以上の原子団が含まれる場合には、前記学習済みモデルにより、当該選ばれた3原子以上の原子団に関する前記解析結果を取得し、
前記
要求部からの要求に対して選ばれた1以上の原子団の中に前記3原子未満の原子団が含まれる場合には、前記解析ソフトウェアにより、当該選ばれた3原子未満の原子団に関する前記解析結果を取得するように構成され
、
前記報知部は、前記要求部からの要求に対して選ばれた前記1以上の原子団の全ての解析が終了した場合に、報知画面を前記報知装置に表示させるように構成され、
前記報知画面は、前記取得部により取得された前記解析対象と、前記ユーザによって選ばれた前記1以上の原子団の各々について当該原子団に由来するピークが前記解析対象に含まれるか否かを示す解析結果とを表示する、請求項3に記載のデータ解析装置。
【請求項5】
前記データ解析装置は、FT-IRスペクトルが与えられたときに、前記与えられたFT-IRスペクトルが所定の原子団に由来するピークを含むか否かをルールベースで解析する解析ソフトウェアをさらに備え、
前記選択肢は、
前記学習済み原子団に含まれず、かつ、前記所定の原子団に含まれる3原子未満の原子団
をさらに含み、
前記解析部は、
前記
要求部からの要求に対して選ばれた1以上の原子団の中に前記3原子以上の原子団が含まれる場合には、前記学習済みモデルにより、
前記解析対象について、当該選ばれた3原子以上の原子団に関する
解析を行ない、
前記
要求部からの要求に対して選ばれた1以上の原子団の中に前記3原子未満の原子団が含まれる場合には、前記解析ソフトウェアにより、
前記解析対象について、当該選ばれた3原子未満の原子団に関する
解析を行なうように構成される、請求項
1~3のいずれか1項に記載のデータ解析装置。
【請求項6】
前記学習済み原子団は、ニトロ基、エステル基、アクリル酸構造、トルエン構造、チオフェン構造、ピリミジン構造、トルイジン構造、芳香族カルボン酸構造、ベンズアミド構造、サリチル酸構造、ベンズイミダゾール構造、及びベンズチアゾール構造からなる群より選択される1以上の原子団を含
み、
前記所定の原子団は、フルオロ基、クロロ基、ブロモ基、ヨード基、ヒドロキシ基、アミノ基、及びシアノ基からなる群より選択される1以上の原子団を含む、請求項
5に記載のデータ解析装置。
【請求項7】
分子構造が未知の化合物のFT-IRスペクトルを取得する取得ステップと、
3原子以上の原子団を含む選択肢の中から1以上の原子団を選ぶことをユーザに対して要求する要求ステップと、
選ばれた前記1以上の原子団の中に前記3原子以上の原子団が含まれるか否かを判断する判断ステップと、
選ばれた前記1以上の原子団の中に前記3原子以上の原子団が含まれる場合には、前記取得されたFT-IRスペクトルと、
前記ユーザによって選ばれた前記3原子以上の原子団を指定する指定情報とを学習済みモデルへ入力する入力ステップとを含み、
前記学習済みモデルは、前記FT-IRスペクトルと
、前記3原子以上の原子団を指定する前記指定情報とが入力されると、前記入力されたFT-IRスペクトルが、前記入力された指定情報によって指定される
前記3原子以上の原子団に由来するピークを含むか否かを示す情報を出力するように機械学習された数理モデルである、データ解析方法。
【請求項8】
分析装置及び制御装置を含むフーリエ変換赤外分光光度計が、分子構造が既知の化合物
を分析してFT-IRスペクトルを取得する分析ステップと、
前記制御装置が、前記取得されたFT-IRスペクトルと、前記分析された化合物の原子団情報とを紐付けて保存する保存ステップと、
前記制御装置と通信可能なコンピュータが、前記保存されたFT-IRスペクトル及び原子団情報を教師データとして、FT-IRスペクトルに所定の原子団に由来するピークが含まれるか否かを解析可能な学習済みモデルを生成するための機械学習を行なう学習ステップとを含み、
前記所定の原子団は、
3原子未満の原子団を含まず、かつ、3原子以上の原子団を含み、
前記所定の原子団を有する化合物の前記原子団情報は、当該化合物が有する前記所定の原子団を示し、前記所定の原子団を有しない化合物の前記原子団情報は、当該化合物が前記所定の原子団を有しないことを示す、学習済みモデルの生成方法。
【請求項9】
請求項
7に記載の方法を実行する1以上のコンピュータを備えるシステム。
【請求項10】
コンピュータに請求項
7に記載の方法を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、データ解析装置、データ解析方法、学習済みモデルの生成方法、システム、及びプログラムに関する。
【背景技術】
【0002】
フーリエ変換赤外分光光度計(以下、「FT-IR光度計」とも称する)は、サンプルに赤外干渉光を照射し、反射光又は透過光を検出する。そして、FT-IR光度計は、その検出信号を記録したグラフ(インターフェログラム)をフーリエ変換することにより、横軸に波長又は波数、縦軸に強度(たとえば、吸収度又は透過率)をとったスペクトル(以下、「FT-IRスペクトル」とも称する)を取得する。FT-IRスペクトルはサンプルの分子構造に応じたパターンを示すため、ユーザは、FT-IRスペクトルを用いて定性分析を行なうことができる。また、FT-IRスペクトルの縦軸が示す強度はサンプルの濃度又は厚みに概ね比例することから、ユーザは、FT-IRスペクトルにおけるピークの高さ又は面積に基づいて定量分析を行なうことができる。国際公開第2018/193499号(特許文献1)には、FT-IR光度計の一例が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
ユーザは、FT-IRスペクトルを解析することによって上述の定性分析及び/又は定量分析を行なうことができる。一般に、FT-IRスペクトルの解析には、ライブラリ(たとえば、化合物ごと又は原子団ごとのスペクトルパターンを示すデータベース)が利用される。ユーザは、FT-IRスペクトルを目で見て、ライブラリが示すスペクトルパターンと比較しながらFT-IRスペクトルの解析を行なう。しかしながら、FT-IRスペクトルの解析は、こうした解析に不慣れなユーザにとって必ずしも容易ではない。また、複雑な構造を有する化合物のFT-IRスペクトルは、複雑なスペクトルパターンを示すため、豊富な経験と知識を有するユーザといえども、正確な解析を行なうことは困難である。
【0005】
本開示は、上記課題を解決するためになされたものであり、本開示の目的は、FT-IRスペクトルの解析を高精度かつ容易に行なうことができるデータ解析装置、データ解析方法、学習済みモデルの生成方法、システム、及びプログラムを提供することである。
【課題を解決するための手段】
【0006】
本開示の第1の態様に係るデータ解析装置は、FT-IRスペクトルである解析対象を取得する取得部と、学習済みモデルと、解析対象を学習済みモデルへ入力する解析部とを備える。学習済みモデルは、FT-IRスペクトルが入力されると、入力されたFT-IRスペクトルが学習済み原子団に由来するピークを含むか否かを示す情報を出力するように機械学習されている。学習済み原子団は、3原子以上の原子団を含む。
【0007】
本開示の第2の態様に係るデータ解析方法は、以下に説明する取得ステップ及び入力ステップを含む。
【0008】
取得ステップでは、分子構造が未知の化合物のFT-IRスペクトルを取得する。入力ステップでは、取得ステップにより取得されたFT-IRスペクトルと、3原子以上で構成される1つの原子団を指定する指定情報とを学習済みモデルへ入力する。学習済みモデルは、FT-IRスペクトルと指定情報とが入力されると、入力されたFT-IRスペクトルが、入力された指定情報によって指定される3原子以上の原子団に由来するピークを含むか否かを示す情報を出力するように機械学習された数理モデルである。
【0009】
本開示の第3の態様に係る学習済みモデルの生成方法は、以下に説明する分析ステップ、保存ステップ、及び学習ステップを含む。
【0010】
分析ステップでは、分子構造が既知の化合物をフーリエ変換赤外分光光度計により分析してFT-IRスペクトルを取得する。保存ステップでは、分析ステップにより取得されたFT-IRスペクトルと、分析ステップにおいて分析された化合物の原子団情報とを紐付けて保存する。学習ステップでは、保存ステップにより保存されたFT-IRスペクトル及び原子団情報を教師データとして、FT-IRスペクトルに所定の原子団に由来するピークが含まれるか否かを解析可能な学習済みモデルを生成するための機械学習を行なう。所定の原子団は、3原子以上の原子団を含む。所定の原子団を有する化合物の原子団情報は、当該化合物が有する所定の原子団を示す。所定の原子団を有しない化合物の原子団情報は、当該化合物が所定の原子団を有しないことを示す。
【0011】
本開示の第4の態様に係るシステムは、上述したデータ解析方法又は学習済みモデルの生成方法を実行する1以上のコンピュータを備えるシステムである。
【0012】
本開示の第5の態様に係るプログラムは、コンピュータに上述したデータ解析方法又は学習済みモデルの生成方法を実行させるプログラムである。
【発明の効果】
【0013】
本願発明者は、3原子以上の原子団について機械学習を行なうことで、学習済み原子団(3原子以上の原子団)に由来するピークをFT-IRスペクトル(当該学習済みモデルに入力される解析対象)が含むか否かを高い精度で解析可能な学習済みモデルを生成することに成功した。3原子以上の原子団を有する化合物のFT-IRスペクトルは、複雑なスペクトルパターンを示しやすい。しかし、上述したデータ解析装置及びデータ解析方法では、上記のような学習済みモデルを用いることで、こうしたFT-IRスペクトルの解析を高精度かつ容易に行なうことが可能になる。また、上述した学習済みモデルの生成方法によれば、上記のような学習済みモデルを好適に生成することができる。
【図面の簡単な説明】
【0014】
【
図1】本開示の実施の形態に係るフーリエ変換赤外分光光度計の構成を示す図である。
【
図2】FT-IRスペクトルの一例を示す図である。
【
図3】ユーザがルールベースでFT-IRスペクトルを解析する方法の一例について説明するための図である。
【
図4】
図1に示した制御装置の構成の詳細を示す図である。
【
図5】本開示の実施の形態に係る学習済みモデルの生成方法における学習用データの一例を示す図である。
【
図6】
図4に示したサーバの構成の詳細を示す図である。
【
図7】本開示の実施の形態に係るデータ解析装置に搭載される学習済みモデルについて説明するための図である。
【
図8】
図7に示した学習済みモデルの各学習済み原子団の平均AUCを示す図である。
【
図9】指定原子団をベンズアミド構造とした場合の学習済みモデルの評価結果の一例を示す図である。
【
図10】指定原子団をニトロ基とした場合の学習済みモデルの評価結果の一例を示す図である。
【
図11】指定原子団をブロモ基とした場合の学習済みモデルの評価結果の一例を示す図である。
【
図12】本開示の実施の形態に係る学習済みモデルの生成方法における損失関数の値と分類の正答率との各々の推移の一例を示す図である。
【
図13】
図7に示したデータ解析装置の構成の詳細を示す図である。
【
図14】本開示の実施の形態に係るデータ解析方法を示すフローチャートである。
【
図15】
図14に示した処理においてFT-IRスペクトルの格納場所の入力を受け付ける画面の一例を示す図である。
【
図16】
図14に示した処理において原子団の入力を受け付ける画面の一例を示す図である。
【
図17】
図14に示した処理において解析結果をユーザに報知する画面の一例を示す図である。
【発明を実施するための形態】
【0015】
以下、本開示の実施の形態について、図面を参照しながら詳細に説明する。なお、図中同一又は相当部分には同一符号を付してその説明は繰り返さない。
【0016】
図1は、この実施の形態に係るFT-IR光度計(フーリエ変換赤外分光光度計)の構成を示す図である。
【0017】
図1を参照して、この実施の形態に係るFT-IR光度計は、分析装置100と、分析装置100を制御する制御装置200とを備える。分析装置100は、干渉波生成部110と、照射部120と、検出器130とを備える。干渉波生成部110は、赤外干渉光を生成する。照射部120は、干渉波生成部110で生成された赤外干渉光をサンプルMに照射する。赤外干渉光はサンプルMで反射される。そして、サンプルMで反射された赤外干渉光は、照射部120から検出器130へ出射される。検出器130は、照射部120から入射した赤外干渉光を検出する。
【0018】
干渉波生成部110は、光源111と、集光ミラー112と、コリメータミラー113と、ビームスプリッタ114と、固定ミラー115と、可動ミラー116と、ミラーアクチュエータ117とを含む。照射部120は、集光ミラー121と、プリズム122と、集光ミラー123と、押圧機構124とを備える。干渉波生成部110及び照射部120に含まれる各種アクチュエータは、制御装置200によって制御される。
【0019】
光源111は、赤外光を出射するように構成される。光源111としては、たとえばセラミック光源及びタングステンランプの少なくとも1つを採用できる。
図1では、赤外光の光路が二点鎖線で示されている。
【0020】
光源111から出射された赤外光は、集光ミラー112及びコリメータミラー113により反射され、平行光となり、ビームスプリッタ114に入射する。ビームスプリッタ114では、赤外光の一部が固定ミラー115に向けて反射される。赤外光の残りの部分は、ビームスプリッタ114を透過し、可動ミラー116に向かう。固定ミラー115及び可動ミラー116の各々で反射された赤外光は、ビームスプリッタ114に入射して合波される。
【0021】
可動ミラー116は、光軸方向に移動可能に構成される。可動ミラー116は、ミラーアクチュエータ117によって駆動されることにより、光軸方向に移動する。制御装置200は、ミラーアクチュエータ117により可動ミラー116を動かして、可動ミラー116の反射面を制御する。コリメータミラー113、ビームスプリッタ114、固定ミラー115、可動ミラー116、及びミラーアクチュエータ117は、マイケルソン干渉計を構成する。このマイケルソン干渉計は、光源111から出射された赤外光を用いて赤外干渉光を生成するように構成される。マイケルソン干渉計によって生成された赤外干渉光は、ビームスプリッタ114から照射部120へ出射される。
【0022】
この実施の形態に係るFT-IR光度計では、ATR(Attenuated Total Reflection)法によりサンプルMのFT-IRスペクトルが測定される。サンプルMをプリズム122に接触させ、赤外光をプリズム122を通じてサンプルMに照射すると、プリズム122の内部を透過した赤外光が、サンプルMとプリズム122との界面で全反射される。この全反射の際に、サンプルM側へわずかに赤外光が潜り込むため、全反射光を検出することで、サンプルMの表面のFT-IRスペクトルを取得することができる。プリズム122としては、たとえばダイヤモンドプリズムを採用できる。ただしこれに限られず、ダイヤモンドプリズムに代えて、Geプリズム又はZnSeプリズムを採用してもよい。押圧機構124は、プリズム122の表面にサンプルMを押圧した状態で固定するように構成される。
【0023】
干渉波生成部110から照射部120に入射した赤外干渉光は、集光ミラー121により反射され、プリズム122に集光される。プリズム122に入射した赤外干渉光は、プリズム122の内部を透過してサンプルMとプリズム122との界面で全反射された後、集光ミラー123により反射され、検出器130に入射する。
【0024】
検出器130は、赤外検出器であり、照射部120から入射した赤外干渉光に応じた検出信号を出力するように構成される。検出器130としては、たとえばDLATGS(deuterated L-alanine doped triglycine sulfate)検出器、MCT(HgCdTe)検出器、及びInGaAs検出器の少なくとも1つを採用できる。検出器130は、温度調節機構を備えてもよい。検出器130は、上記検出信号を制御装置200へ出力する。
【0025】
この実施の形態では、プロセッサ201、RAM(Random Access Memory)202、記憶装置203、及び通信装置204を備えるコンピュータを、制御装置200として採用する。通信装置204の通信方式は任意であり、無線通信/有線通信のいずれであってもよい。プロセッサ201としては、たとえばCPU(Central Processing Unit)を採用できる。制御装置200が備えるプロセッサの数は任意であり、1つでも複数でもよい。RAM202は、プロセッサ201によって処理されるデータを一時的に記憶する作業用メモリとして機能する。記憶装置203は、格納された情報を保存可能に構成される。記憶装置203には、プログラムのほか、プログラムで使用される情報(たとえば、マップ、数式、及び各種パラメータ)が記憶されている。
【0026】
制御装置200は、検出器130から入力される検出信号をA/D(アナログ/デジタル)変換し、デジタル信号に変換された検出信号を記憶装置203に記録する。これにより、制御装置200の記憶装置203内にインターフェログラムが記録される。そして、制御装置200は、フーリエ変換により、インターフェログラムが示す干渉波の合成波形スペクトルを各波数成分の光強度に分離することで、FT-IRスペクトルを取得する。この実施の形態では、横軸に波数、縦軸に吸収度をとったFT-IRスペクトルを採用する。なお、制御装置200の機能の詳細については後述する(
図4参照)。
【0027】
上記のように、この実施の形態に係るFT-IR光度計は、サンプルMを分析してサンプルMのFT-IRスペクトルを取得することができる。サンプルMは、分子構造が未知の化合物であってもよい。
図2は、FT-IRスペクトルの一例を示す図である。
図2に示されるFT-IRスペクトルは、メタノールのFT-IRスペクトルであり、ヒドロキシ基(-OH)に由来するピークを含む。
図2を参照して、FT-IRスペクトルにおいて、ヒドロキシ基由来のピークは、波数3200~3600cm
-1の領域に現れる。この領域に現れるピークが示す赤外吸収は、ヒドロキシ基に特有の赤外吸収である。
【0028】
化合物に含まれる原子団(すなわち、化合物の部分構造)によって、その化合物のFT-IRスペクトルに現れるピークの位置、強度、及び幅が変わる。ユーザは、化合物のFT-IRスペクトルを解析することによって、その化合物に含まれる原子団を知ることができる。FT-IRスペクトルの解析には、ライブラリ(たとえば、化合物ごと又は原子団ごとのスペクトルパターンを示すデータベース)を利用できる。ユーザは、FT-IRスペクトルを目で見て、ライブラリが示すスペクトルパターンと比較することで、FT-IRスペクトルの解析を行なうことができる。
【0029】
図3は、ユーザがルールベースでFT-IRスペクトルを解析する方法の一例について説明するための図である。
図3を参照して、FT-IRスペクトルが波数1650~1780cm
-1の領域に強いピーク(以下、「C=Oピーク」とも称する)を含む場合には、カルボニル基の存在が推定される。FT-IRスペクトルが、C=Oピークに加えて、波数2500~3300cm
-1付近にブロードで弱いピークをさらに含む場合には、上記カルボニル基がカルボン酸のC=Oであると推定される。また、FT-IRスペクトルが、C=Oピークに加えて、波数1000~1150cm
-1及び波数1200~1300cm
-1の各々の領域に強いピークをさらに含む場合には、上記カルボニル基がエステルのC=Oであると推定される。また、FT-IRスペクトルが、C=Oピークに加えて、波数1025~1250cm
-1の領域に強いピークをさらに含む場合には、上記カルボニル基が脂肪族ケトンのC=Oであると推定される。また、FT-IRスペクトルが、C=Oピークに加えて、波数1215~1325cm
-1の領域に強いピークをさらに含む場合には、上記カルボニル基が芳香族ケトンのC=Oであると推定される。また、FT-IRスペクトルが、C=Oピークに加えて、波数2720cm
-1付近に弱いピークをさらに含む場合には、上記カルボニル基がアルデヒドのC=Oであると推定される。
【0030】
上記のような方法によっても、FT-IRスペクトルを解析することは可能である。しかしながら、上記のような方法でFT-IRスペクトルを解析することは、こうした解析に不慣れなユーザにとっては必ずしも容易ではない。また、複雑な構造を有する化合物のFT-IRスペクトルは、複雑なスペクトルパターンを示すため、豊富な経験と知識を有するユーザといえども、正確な解析を行なうことは困難である。
【0031】
そこで、この実施の形態に係るデータ解析方法では、学習済みモデルが実装されたデータ解析装置を用いてFT-IRスペクトルを解析することで、FT-IRスペクトルの解析を高精度かつ容易に行なうことを可能にする。上記学習済みモデルは、FT-IRスペクトルが入力されると、入力されたFT-IRスペクトルが学習済み原子団に由来するピークを含むか否かを示す情報を出力するように機械学習された数理モデルである。本願発明者は、3原子以上の原子団について機械学習を行なうことで、学習済み原子団(3原子以上の原子団)に由来するピークをFT-IRスペクトル(当該学習済みモデルに入力される解析対象)が含むか否かを高い精度で解析可能な学習済みモデルを生成することに成功した。以下、上記学習済みモデルの生成方法について説明する。
【0032】
図4は、制御装置200の構成の詳細を示す図である。
図1とともに
図4を参照して、制御装置200は、分析制御部210と、データ処理部220と、データ作成部230とを含む。この実施の形態では、記憶装置203に記憶されているプログラムをプロセッサ201(
図1)が実行することで、分析制御部210、データ処理部220、及びデータ作成部230が具現化される。ただしこれに限られず、これら各部は、専用のハードウェア(電子回路)によって具現化されてもよい。
【0033】
分析制御部210は、分析装置100を制御するように構成される。データ処理部220は、分析装置100に設けられた各種センサ(検出器130を含む)の出力に基づいて、分析装置100の状態を示す信号を作成し、作成された信号を分析制御部210へ出力する。分析制御部210は、データ処理部220から受信した信号に基づいて分析装置100を制御することにより、サンプルMを分析する。これにより、サンプルMの特性を示す赤外干渉光が、検出器130によって検出される。
【0034】
データ処理部220は、検出器130から入力される検出信号をA/D変換し、デジタル信号に変換された検出信号を記憶装置203に記録する。これにより、記憶装置203内にインターフェログラムが記録される。データ処理部220は、インターフェログラムの記録が完了すると、データ作成部230にその旨を伝える。データ作成部230は、データ処理部220が記録したインターフェログラムをフーリエ変換することによりFT-IRスペクトルを作成する。
【0035】
分子構造が未知の化合物(以下、「未知の化合物」とも称する)の定性分析を行なうためのFT-IRスペクトルを取得する場合には、ユーザは、サンプルMとして未知の化合物を分析装置100にセットする。セットされた未知の化合物は、分析装置100によって分析される。この分析により記憶装置203にインターフェログラムが記録される。データ作成部230は、そのインターフェログラムを用いて、未知の化合物のFT-IRスペクトルを作成して記憶装置203に保存する。このFT-IRスペクトルは、後述する学習用データとは区別されて記憶装置203に保存される。
【0036】
上記のように取得された未知の化合物のFT-IRスペクトルは、後述するデータ解析装置500(
図13参照)によって解析される。詳細は後述するが、ユーザは、持運び可能な記憶媒体600(たとえば、メモリカード、メモリスティック、又はメモリディスク)を用いて、記憶装置203内のデータをデータ解析装置500に渡すことができる。制御装置200は、記憶媒体600を着脱可能に構成されるとともに、装着された記憶媒体600とデータ通信可能に構成される。ユーザは、図示しない入力装置により制御装置200を操作して、記憶装置203内のFT-IRスペクトルデータを記憶媒体600にコピー又は移動することができる。
【0037】
他方、分子構造が既知の化合物(以下、「既知の化合物」とも称する)を分析装置100によって分析して、機械学習に用いられるデータ(以下、「学習用データ」とも称する)を取得する場合には、ユーザは、サンプルMとして既知の化合物を分析装置100にセットする。セットされた既知の化合物は、分析装置100によって分析される。この分析により記憶装置203にインターフェログラムが記録される。データ作成部230は、そのインターフェログラムを用いて、既知の化合物のFT-IRスペクトルを作成する。そして、データ作成部230は、得られたFT-IRスペクトルを用いて学習用データを作成して記憶装置203に保存する。以下、この実施の形態に係る学習用データについて詳述する。
【0038】
この実施の形態では、サーバ300が機械学習(たとえば、教師あり学習)を行なう。サーバ300は、制御装置200と通信可能に構成され、通信によって制御装置200から学習用データを取得する。ただしこれに限られず、ユーザは、前述した記憶媒体600を用いて、制御装置200からサーバ300に学習用データを移すことも可能である。
【0039】
サーバ300は、制御装置200から取得した学習用データを教師データとして、FT-IRスペクトルに所定の原子団(以下、「対象原子団」とも称する)に由来するピークが含まれるか否かを解析可能な学習済みモデルを生成するための機械学習を行なう。この実施の形態では、学習用データとして、ラベル(正解)付きデータが採用される。対象原子団に含まれる原子団の数は任意であるが、対象原子団は、3原子以上の原子団を少なくとも1つ含む。この実施の形態では、後述する原子団No.1~No.19(
図8参照)を、対象原子団とする。学習に先立ち、たとえばユーザによって対象原子団がデータ作成部230に設定される。
【0040】
データ作成部230は、分析装置100による上記の分析に先立ち、サンプル情報(すなわち、サンプルMに関する情報)を取得する。たとえば、ユーザが図示しない入力装置を通じて入力したサンプル情報が、データ作成部230に入力される。また、サンプルMの容器に取り付けられたタグから図示しないリーダが読み取ったサンプル情報が、データ作成部230に入力されてもよい。データ作成部230は、上記の分析により記憶装置203に記録されるインターフェログラムを用いて、既知の化合物のFT-IRスペクトルを作成して記憶装置203に保存する。この際、データ作成部230は、FT-IRスペクトルをサンプルMの原子団情報と紐付けて保存する。この実施の形態において、既知の化合物のFT-IRスペクトルを作成するステップ、作成されたFT-IRスペクトルをサンプルMの原子団情報と紐付けて記憶装置203に保存するステップは、それぞれ本開示に係る学習済みモデルの生成方法における「分析ステップ」、「保存ステップ」の一例に相当する。
【0041】
サンプルM(既知の化合物)が対象原子団の少なくとも1つを有する場合には、サンプルMの原子団情報は、サンプルMがいずれの対象原子団を有するかを示す。原子団情報は、原子団番号で対象原子団を示してもよい。たとえば、サンプルMが原子団No.3(
図8)を有する場合には、原子団情報の内容が「3」となり、サンプルMが原子団No.7及び原子団No.16(
図8)を有する場合には、原子団情報の内容が「7,16」となってもよい。他方、サンプルMが対象原子団を有しない場合には、サンプルMの原子団情報は、サンプルMが対象原子団を有しないことを示す。原子団情報は、上記原子団番号以外の数字(たとえば、「0」)で、サンプルMが対象原子団を有しないことを示してもよい。
【0042】
この実施の形態では、上述したサンプル情報がサンプルMの化合物名を含む。データ作成部230は、サンプルMの化合物名に基づいてサンプルMの原子団情報を取得する。データ作成部230は、化合物DB(データベース)400と通信可能に構成される。化合物DB400は、各種化合物の情報を検索可能に保有する。データ作成部230は、化合物DB400にアクセスし、サンプルMの化合物名で検索することによって、サンプルMの原子団情報を取得することができる。データ作成部230は、サンプル情報が示す化合物名を、化合物DB400が採用する命名法に従う名称に変換可能に構成される。このため、サンプル情報が化合物DB400とは異なる命名法で化合物名を示していても、データ作成部230は、化合物DB400に合わせて化合物名を変換して上記の検索を行なうことができる。なお、データ作成部230が原子団情報を取得する方法は上記に限られない。たとえば、データ作成部230に入力されるサンプル情報に原子団情報が含まれていてもよい。
【0043】
学習用データは、たとえば、含まれる原子団が既知の物質を測定した結果であるFT-IRスペクトルを入力データとし、その含まれている原子団の有無が正解データとなる一対のデータであって、今回は、既存の化合物DBを利用した。
図5は、学習用データの一例を示す図である。
図5を参照して、学習用データは、FT-IRスペクトルと原子団情報とを含む。各対象原子団の有無を示す原子団情報は、たとえばサンプル情報から得られる。この実施の形態では、前述のように数値化されたデータを、原子団情報として採用する。FT-IRスペクトルは、分析装置100による分析結果として得られる。この実施の形態では、FT-IRスペクトルも数値化される。学習用データに含まれるFT-IRスペクトルは、波数ごとの吸光度を数値で示すデータであってもよい。たとえば、所定の波数範囲において所定の間隔(たとえば、4cm
-1刻み)で、「0.15,0.18,0.25,・・・」のように吸光度が示されてもよい。上記のように、この実施の形態では、FT-IRスペクトル及び原子団情報の各々の数値化データを、学習用データとする。
【0044】
図6は、サーバ300の構成の詳細を示す図である。
図4とともに
図6を参照して、この実施の形態では、プロセッサ301、RAM302、記憶装置303、及び通信装置304を備えるコンピュータ(
図4)を、サーバ300として採用する。サーバ300は、データ取得部310と、学習実行部320とを含む。この実施の形態では、記憶装置303に記憶されているプログラムをプロセッサ301が実行することで、データ取得部310及び学習実行部320が具現化される。ただしこれに限られず、これら各部は、専用のハードウェア(電子回路)によって具現化されてもよい。
【0045】
データ取得部310は、制御装置200から学習用データを取得する。また、データ取得部310は、FT-IRスペクトルDB(データベース)410及びOpenライブラリ420の各々と通信可能に構成される。FT-IRスペクトルDB410及びOpenライブラリ420の各々は、化合物ごとのFT-IRスペクトルを保有する。データ取得部310は、FT-IRスペクトルDB410及びOpenライブラリ420の各々から取得したデータを、前述した学習用データ(
図5参照)と同じデータ形式に変換する。
【0046】
学習前においては、未学習の数理モデルM1(たとえば、ニューラルネットワーク)が記憶装置303に記憶されている。ニューラルネットワークは、脳の神経回路の仕組みを模した数理モデルである。学習実行部320は、データ取得部310が取得した学習用データを用いて、数理モデルM1の機械学習を実行する。これにより、たとえば
図7に示すような学習済みモデルM2が生成される。上記の機械学習により、前述した対象原子団が学習される。すなわち、対象原子団が、学習済みモデルM2における学習済み原子団となる。この実施の形態において、数理モデルM1を機械学習するステップは、本開示に係る学習済みモデルの生成方法における「学習ステップ」の一例に相当する。
【0047】
図7は、学習済みモデルM2について説明するための図である。
図7を参照して、学習済みモデルM2に、FT-IRスペクトルと、学習済み原子団に含まれる1つの原子団(たとえば、
図8に示す原子団No.1~No.19のいずれか)を指定する指定情報(たとえば、原子団の名称)とが入力されると、学習済みモデルM2は、入力されたFT-IRスペクトル(以下、「入力スペクトル」とも称する)が、入力された指定情報によって指定される原子団(以下、「指定原子団」とも称する)に由来するピークを含むか否かを示す情報を出力する。すなわち、学習済みモデルM2は、分類器として機能する。以下、学習済みモデルM2から出力される情報を、「モデル解析結果」とも称する。また、入力スペクトルが指定原子団に由来するピークを含むことを「原子団有り」、入力スペクトルが指定原子団に由来するピークを含まないことを「原子団無し」とも称する。学習済みモデルM2は、原子団有りの場合に「1」を、原子団無しの場合に「0」を、モデル解析結果として出力してもよい。
【0048】
本願発明者は、実際に学習済みモデルM2を生成し、生成された学習済みモデルM2の分類精度を評価した。未学習の数理モデルM1としては、畳み込み層(Convolution Layer)とプーリング層(Pooling Layer)と全結合層(Dense Layer)とを備えるCNN(畳み込みニューラルネットワーク)を用いた。具体的には、3層の畳み込み層と1層のプーリング層とが交互に2回積み重なった後に2層の全結合層で全結合されたCNNを採用した。活性化関数(Activation)としてReLU関数を採用し、出力層(Final Activation)にはソフトマックス関数を採用した。5276個の学習用データを含むデータセットを用いて、バックプロパゲーションによる機械学習(より特定的には、ディープラーニング)を数理モデルM1に対して行なうことにより、学習済みモデルM2を生成した。学習回数を示すエポック数(Epochs)を30とした。
【0049】
対象原子団(学習済み原子団)は、
図8に示す原子団No.1~No.19であった。対象原子団(学習済み原子団)は、3原子未満の原子団(以下、「小原子団」とも称する)と、3原子以上の原子団(以下、「大原子団」とも称する)とを含んでいた。具体的には、原子団No.1~No.7が小原子団に相当し、原子団No.8~No.19が大原子団に相当する。原子団No.1~No.7はそれぞれ、フルオロ基、クロロ基、ブロモ基、ヨード基、ヒドロキシ基、アミノ基、シアノ基である。原子団No.8~No.19はそれぞれ、ニトロ基、エステル基、アクリル酸構造、トルエン構造、チオフェン構造、ピリミジン構造、トルイジン構造(より特定的には、o-トルイジン構造)、安息香酸構造(芳香族カルボン酸構造の一種)、ベンズアミド構造、サリチル酸構造、ベンズイミダゾール構造、ベンズチアゾール構造である。原子団No.11及びNo.14~No.19の各々は、炭素環を含む原子団であり、原子団No.12,13,18,19の各々は、複素環を含む原子団である。
【0050】
本願発明者は、500個程度のバリデーションデータを用意し、これらのバリデーションデータを用いて、上記のように生成された学習済みモデルM2を評価した。本願発明者は、学習済みモデルM2に対する指定原子団を変えながら、学習済みモデルM2が原子団有り(陽性)/原子団無し(陰性)を正しく判定する精度を評価した。本願発明者は、ROC(Receiver Operating Characteristic)曲線を取得し、ROC曲線からAUC(Area Under the Curve)を求めた。ROC曲線は、閾値(カットオフポイント)を変えながら判定した結果を、縦軸に真陽性率(TPR:True Positive Rate)、横軸に偽陽性率(FPR:False Positive Rate)をとった平面にプロットし、プロットされた各データを結んだ線である。AUCは、ROC曲線下の面積に相当し、0から1までの値をとる。AUCが高い分類器ほど分類の精度が高いことを意味する。
【0051】
AUCは、学習済み原子団ごとに算出された。
図8は、学習済みモデルM2の各学習済み原子団の平均AUC(すなわち、全ての評価結果の平均値)を示す図である。
図8を参照して、大原子団(原子団No.8~No.19)については、0.900以上のAUCが得られた。小原子団(原子団No.1~No.7)のAUCは大原子団のAUCと比べて低かった。
【0052】
図9は、指定原子団を原子団No.16(ベンズアミド構造)とした場合の学習済みモデルM2の評価結果の一例を示す図である。
図10は、指定原子団を原子団No.8(ニトロ基)とした場合の学習済みモデルM2の評価結果の一例を示す図である。
図11は、指定原子団を原子団No.3(ブロモ基)とした場合の学習済みモデルM2の評価結果の一例を示す図である。
図9及び
図10に示されるように、大原子団に相当するベンズアミド構造及びニトロ基に関しては、FPRが低い段階でTPRが1に近い値まで上昇するROC曲線が描かれ、高いAUCが得られた。他方、小原子団に相当するブロモ基に関しては、
図11に示されるように、なだらかに上昇するROC曲線が描かれ、AUCが低かった。
【0053】
図12は、数理モデルM1の機械学習における損失関数の値と分類の正答率との各々の推移を示す図である。
図12において、線L11は、学習用データに対する分類の正答率(train accuracy)を示し、線L12は、バリデーションデータに対する分類の正答率(validation accuracy)を示す。線L21は、学習用データに対する損失関数の値(train loss)を示し、線L22は、バリデーションデータに対する損失関数の値(validation loss)を示す。
図12を参照して、このグラフに示されるように、学習済みモデルM2の生成においては、損失関数の値が概ね収束するまで学習が行なわれた。
【0054】
再び
図7を参照して、この実施の形態では、上述した学習済みモデルM2がデータ解析装置500に実装される。この実施の形態では、プロセッサ501、RAM502、記憶装置503、及び通信装置504を備えるコンピュータを、データ解析装置500として採用する。学習済みモデルM2は、記憶装置503に格納される。
【0055】
図13は、データ解析装置500の構成の詳細を示す図である。
図7とともに
図13を参照して、データ解析装置500は、分析アプリケーション511と、解析ソフトウェア512と、データ取得部520とを含む。分析アプリケーション511及び解析ソフトウェア512は、学習済みモデルM2とともに、記憶装置503(
図7)に記憶されている。この実施の形態では、記憶装置503に記憶されているプログラムをプロセッサ501(
図7)が実行することで、データ取得部520が具現化される。また、分析アプリケーション511は、アプリケーションプログラムであり、本開示に係る「要求部」、「解析部」、及び「報知部」として機能する。記憶装置503に記憶されている分析アプリケーション511をプロセッサ501(
図7)が実行することで、これら各部が具現化される。なお、この実施の形態においてソフトウェアによって具現化される各機能は、専用のハードウェア(電子回路)によって具現化されてもよい。
【0056】
データ解析装置500は、入力装置710及び報知装置720の各々と情報のやり取りを行なうように構成される。入力装置710は、ユーザからの入力を受け付けるように構成される。入力装置710は、ユーザからの入力に対応する信号をデータ解析装置500へ出力する。入力装置710の例としては、各種ポインティングデバイス(マウス、タッチパッド等)、キーボード、タッチパネルが挙げられる。また、入力装置710は、音声入力を受け付けるスマートスピーカを含んでもよい。報知装置720は、ユーザに対する報知を行なうように構成される。データ解析装置500は、報知装置720を通じてユーザへ情報を報知することができる。報知装置720の例としては、各種ディスプレイが挙げられる。報知装置720は、スピーカ機能を備えていてもよい。この実施の形態では、入力装置710及び報知装置720として、これら両方の機能を兼ね備えるタッチパネルディスプレイを採用する。入力装置710及び報知装置720は、タブレット端末、スマートフォン、又はウェアラブルデバイスのような携帯機器(すなわち、ユーザによって携帯可能な電子機器)に搭載されてもよい。
【0057】
データ解析装置500は、記憶媒体600を着脱可能に構成されるとともに、装着された記憶媒体600とデータ通信可能に構成される。データ解析装置500は、装着された記憶媒体600内のデータを読み取ることができる。データ解析装置500は、記憶媒体600内のデータを読み取るためのリーダ、ドライブ、又はポートを備えてもよい。ユーザは、たとえば、以下に示す手順で、FT-IRスペクトルである解析対象を取得して、取得された解析対象をデータ解析装置500が利用できるようにする。
【0058】
ユーザは、
図1及び
図4に示したFT-IR光度計により未知の化合物を分析してFT-IRスペクトルを取得する。取得されたFT-IRスペクトルは、記憶装置203(
図4)に保存される。ユーザは、記憶装置203内のFT-IRスペクトルデータを記憶媒体600にコピーした後、記憶媒体600をデータ解析装置500に装着する。これにより、データ解析装置500が記憶媒体600内のFT-IRスペクトルデータを読み取り可能な状態になる。この実施の形態では、記憶媒体600内のFT-IRスペクトルが、解析対象に相当する。
【0059】
分析アプリケーション511は、解析対象(FT-IRスペクトル)の格納場所(たとえば、データパス)の入力をユーザに対して要求するように構成される。この要求に応じてユーザが入力装置710を通じて記憶媒体600における解析対象の格納場所を入力すると、データ取得部520は、ユーザが入力した格納場所から解析対象を取得する。
【0060】
分析アプリケーション511は、学習済み原子団(この実施の形態では、
図8に示した原子団No.1~No.19)の全部を含む選択肢の中から1以上の原子団を選ぶことをユーザに対して要求するように構成される。ユーザは、入力装置710を通じて選択肢の中から任意の原子団を選ぶことができる。ユーザが選んだ原子団は、分析アプリケーション511に入力される。
【0061】
分析アプリケーション511は、上記要求に対してユーザが選んだ各原子団について、当該原子団由来のピークが解析対象に含まれるか否かを示す解析結果を取得するように構成される。詳しくは、分析アプリケーション511は、以下に説明するモデル解析結果とルールベース解析結果との少なくとも一方を取得する。
【0062】
分析アプリケーション511は、ユーザが選んだ原子団の中に大原子団が含まれる場合には、学習済みモデルM2により、当該選ばれた大原子団に関する解析結果を取得する。分析アプリケーション511は、ユーザによって指定されたFT-IRスペクトル(解析対象)と、ユーザによって選択された大原子団(指定原子団)を指定する指定情報とを学習済みモデルM2へ入力することにより、モデル解析結果を取得する。
【0063】
分析アプリケーション511は、ユーザが選んだ原子団の中に小原子団が含まれる場合には、解析ソフトウェア512により、当該選ばれた小原子団に関する解析結果を取得する。解析ソフトウェア512は、FT-IRスペクトルが与えられたときに、与えられたFT-IRスペクトルが所定の原子団(以下、「登録原子団」とも称する)に由来するピークを含むか否かをルールベースで解析するように構成される。この実施の形態では、登録原子団が、
図8に示した原子団No.1~No.7を含む。分析アプリケーション511が、ユーザによって指定されたFT-IRスペクトル(解析対象)と、ユーザによって選ばれた小原子団(より特定的には、
図8に示した原子団No.1~No.7のいずれか)を示す情報とを、解析ソフトウェア512に入力する。これにより、解析ソフトウェア512によりルールベースに基づくFT-IRスペクトルの解析が行なわれる。そして、解析ソフトウェア512による解析結果として、解析対象が上記小原子団(すなわち、入力された情報が示す登録原子団)に由来するピークを含むか否かを示す情報(以下、「ルールベース解析結果」とも称する)が得られる。ルールベースに基づくFT-IRスペクトルの解析は、たとえば
図3に示した手順に準ずる手順で行なわれる。
【0064】
分析アプリケーション511は、ユーザに対する報知を報知装置720に行なわせるように、報知装置720を制御する。分析アプリケーション511は、上記解析結果を取得したときには、報知装置720を通じてユーザに解析結果(すなわち、モデル解析結果及び/又はルールベース解析結果)を報知する。
【0065】
図14は、この実施の形態に係るデータ解析装置500により実行されるデータ解析処理を示すフローチャートである。このフローチャートに示される処理は、たとえば分析アプリケーション511が起動すると、開始される。ユーザは、入力装置710を操作して分析アプリケーション511を起動させることができる。
【0066】
図13とともに
図14を参照して、ステップ(以下、単に「S」とも表記する)11では、分析アプリケーション511が、ユーザに対して、解析対象(FT-IRスペクトル)の格納場所の入力と、原子団の入力とを要求する。まず、分析アプリケーション511は、以下に説明する第1入力画面を報知装置720に表示させる。
【0067】
図15は、ユーザによる解析対象の格納場所の入力を受け付ける画面(すなわち、第1入力画面)の一例を示す図である。
図15を参照して、第1入力画面は、メッセージM110と、テキストボックスM121と、ファイル選択ダイアログを表示するためのボタンM122と、決定ボタンM130とを表示する。報知装置720は、タッチパネルディスプレイであるため、ユーザの指又はペンが画面に触れたときに、触れられた画面位置を感知することができる。ユーザは、画面に触れることによって、画面操作を行なうことができる。
【0068】
メッセージM110は、ユーザに対してFT-IRスペクトル(解析対象)の格納場所の入力を要求する。ユーザは、図示しないスクリーンキーボード(仮想キーボード)を利用して、テキストボックスM121に直接、FT-IRスペクトルの格納場所(たとえば、データパス)を入力することができる。また、ユーザによってボタンM122が押されると、ファイル選択ダイアログが表示される。ユーザは、ファイル選択ダイアログを利用して、FT-IRスペクトルデータ(ファイル)を選択することもできる。ファイル選択ダイアログによりFT-IRスペクトルデータ(ファイル)が選択されると、FT-IRスペクトルの格納場所がテキストボックスM121に返される。FT-IRスペクトルの格納場所がテキストボックスM121に入力された状態で、ユーザによって決定ボタンM130が押されると、データ取得部520は、ユーザが入力した格納場所からFT-IRスペクトルを取得する。この実施の形態において、データ取得部520がFT-IRスペクトルを取得するステップは、本開示に係るデータ解析方法における「取得ステップ」の一例に相当する。その後、分析アプリケーション511は、以下に説明する第2入力画面を報知装置720に表示させる。
【0069】
図16は、ユーザによる原子団の入力を受け付ける画面(すなわち、第2入力画面)の一例を示す図である。
図16を参照して、第2入力画面は、メッセージM210と、選択肢の中から大原子団を選択するためのチェックボックスCB1と、各チェックボックスCB1の説明欄M221と、選択肢の中から小原子団を選択するためのチェックボックスCB2と、各チェックボックスCB2の説明欄M222と、全選択ボタンM230と、決定ボタンM240とを表示する。
【0070】
メッセージM210は、ユーザに対して原子団の選択を要求する。ユーザは、チェックボックスCB1によって、説明欄M221に示される大原子団を選択することができる。また、ユーザは、チェックボックスCB2によって、説明欄M222に示される小原子団を選択することができる。ユーザは、全選択ボタンM230を押すことによって、全ての選択肢を選択することができる。説明欄M221,M222に示される選択肢(この実施の形態では、
図8に示した原子団No.1~No.19)の中から1以上の原子団が選択された状態で、ユーザによって決定ボタンM240が押されると、処理は
図14のS12に進む。
図16に示す例では、ヒドロキシ基と、ニトロ基と、トルエン構造とが選択されている。
【0071】
再び
図13とともに
図14を参照して、分析アプリケーション511は、S12において、S11でユーザが選んだ原子団の中に大原子団が含まれるか否かを判断する。そして、ユーザによって選ばれた原子団の中に大原子団が含まれる場合(S12にてYES)には、分析アプリケーション511は、S13において、S11でユーザによって指定されたFT-IRスペクトル(解析対象)と、S11でユーザによって選択された大原子団のいずれか1つ(指定原子団)を指定する指定情報とを学習済みモデルM2へ入力することにより、モデル解析結果を取得する。この実施の形態に係るS13は、本開示に係るデータ解析方法における「入力ステップ」の一例に相当する。その後、分析アプリケーション511は、S14において、ユーザによって選択された全ての大原子団についてFT-IRスペクトルの解析が終了したか否かを判断する。
【0072】
S11において2つ以上の大原子団が選択された場合には、各大原子団について順番にFT-IRスペクトルの解析が行なわれる。ユーザによって選択されたにもかかわらず未解析の大原子団があるうちは、S14においてNOと判断され、処理がS13に戻る。分析アプリケーション511は、S13において指定原子団を未解析の大原子団に変更して、学習済みモデルM2によって再びFT-IRスペクトル(解析対象)の解析を行なう。S11でユーザが選んだ大原子団の数と同じ回数だけS13の処理が実行される。そして、ユーザによって選択された全ての大原子団についてFT-IRスペクトルの解析が終了すると(S14にてYES)、処理はS15に進む。他方、ユーザによって選ばれた原子団の中に大原子団が含まれない場合(S12にてNO)には、S13及びS14の処理が実行されることなく、処理はS15に進む。
【0073】
S15では、分析アプリケーション511が、S11でユーザが選んだ原子団の中に小原子団が含まれるか否かを判断する。そして、ユーザによって選ばれた原子団の中に小原子団が含まれる場合(S15にてYES)には、分析アプリケーション511は、S16において、S11でユーザによって指定されたFT-IRスペクトル(解析対象)と、S11でユーザによって選ばれた小原子団(登録原子団)のいずれか1つを示す情報とを解析ソフトウェア512に入力することにより、ルールベース解析結果を取得する。その後、分析アプリケーション511は、S17において、ユーザによって選択された全ての小原子団についてFT-IRスペクトルの解析が終了したか否かを判断する。
【0074】
S11において2つ以上の小原子団が選択された場合には、各小原子団について順番にFT-IRスペクトルの解析が行なわれる。ユーザによって選択されたにもかかわらず未解析の小原子団があるうちは、S17においてNOと判断され、処理がS16に戻る。分析アプリケーション511は、S16において未解析の小原子団(登録原子団)を解析ソフトウェア512に入力して、解析ソフトウェア512によって再びFT-IRスペクトル(解析対象)の解析を行なう。S11でユーザが選んだ小原子団の数と同じ回数だけS16の処理が実行される。そして、ユーザによって選択された全ての小原子団についてFT-IRスペクトルの解析が終了すると(S17にてYES)、処理はS18に進む。他方、ユーザによって選ばれた原子団の中に小原子団が含まれない場合(S15にてNO)には、S16及びS17の処理が実行されることなく、処理はS18に進む。
【0075】
S18では、分析アプリケーション511が、報知装置720を制御することにより、S13及びS16の少なくとも一方で取得した解析結果(すなわち、モデル解析結果及び/又はルールベース解析結果)をユーザに報知する。分析アプリケーション511は、たとえば、以下に説明する報知画面を報知装置720に表示させる。
【0076】
図17は、解析結果をユーザに報知する画面(すなわち、報知画面)の一例を示す図である。
図17を参照して、報知画面は、表示部M310と、メッセージM320,M340と、解析結果M330と、追加ボタンM350と、終了ボタンM360とを表示する。
【0077】
表示部M310は、FT-IRスペクトルである解析対象を示している。メッセージM320は、解析結果M330に関する説明を示している。解析結果M330は、
図14のS11でユーザが選んだ各原子団について、当該原子団由来のピークが解析対象に含まれるか否かを示す解析結果を示している。
図17に示す例では、ユーザによってヒドロキシ基とニトロ基とトルエン構造とが選択された場合の解析結果を示している。メッセージM340は、追加ボタンM350及び終了ボタンM360に関する説明を示している。ユーザによって追加ボタンM350及び終了ボタンM360のいずれかが押されると、処理は
図14のS19に進む。
【0078】
図17とともに
図14を参照して、S19では、ユーザが原子団の追加を希望したか否かを、分析アプリケーション511が判断する。前述の報知画面(
図17)において追加ボタンM350が押された場合には、ユーザが原子団の追加を希望した(S19にてYES)と判断され、処理はS11に戻る。前述の報知画面(
図17)において終了ボタンM360が押された場合には、ユーザが原子団の追加を希望しなかった(S19にてNO)と判断され、
図14に示す一連の処理は終了する。
【0079】
[変形例]
上記実施の形態では、ユーザが選択可能な選択肢(
図16参照)に学習済み原子団の全部を含ませているが、選択肢が学習済み原子団の一部のみを含むようにしてもよい。
【0080】
機械学習の対象となる原子団(対象原子団)は、
図8に示した原子団に限られず適宜変更可能である。たとえば、o-トルイジン構造に代えて又は加えて、その異性体(m-トルイジン構造、p-トルイジン構造)を採用してもよい。また、安息香酸構造に代えて又は加えて、他の芳香族カルボン酸構造(フタル酸構造、イソフタル酸構造、テレフタル酸構造)を採用してもよい。上記実施の形態では、学習済みモデルM2に関する小原子団と大原子団との評価結果を対比するために、対象原子団(学習済み原子団)に小原子団を含ませているが、対象原子団(学習済み原子団)が大原子団のみを含むようにしてもよい。
【0081】
上記実施の形態では、ユーザが選択可能な選択肢(
図16参照)が、登録原子団に含まれる小原子団(
図8に示した原子団No.1~No.7)と、学習済み原子団に含まれる大原子団(
図8に示した原子団No.8~No.19)とを含み、分析アプリケーション511は、選択された小原子団については解析ソフトウェア512により解析結果を取得し、選択された大原子団については学習済みモデルM2により解析結果を取得するように構成される。しかし、データ解析装置500が解析ソフトウェア512を備えることは必須ではない。たとえば、
図14のS16において、ユーザが、解析ソフトウェア512を用いず、目視でデータ解析を行なうようにしてもよい。あるいは、分析アプリケーション511が原子団の選択をユーザに要求したときにユーザが選択可能な選択肢を大原子団のみにしてもよい。そして、分析アプリケーション511が、選択された大原子団について学習済みモデルM2により解析結果を取得するように構成されてもよい。
【0082】
図18は、
図16に示した画面の変形例を示す図である。
図18を参照して、この画面は、小原子団を選択するためのチェックボックスCB2と、各チェックボックスCB2の説明欄M222とが割愛されたこと以外は、
図16に示した画面と同じである。
【0083】
図19は、
図14に示した処理の変形例を示す図である。
図19に示す処理では、
図14に示したS12及びS15~S17が割愛されている。また、
図19に示す処理では、S11において、
図16に示した画面に代えて
図18に示す画面が採用される。これにより、S11においてユーザが選択可能な原子団の中に小原子団が含まれなくなる。S11においては、常に大原子団(たとえば、
図8に示した原子団No.8~No.19)が選択される。
図19のS13,S14,S18,S19は、前述した
図14のS13,S14,S18,S19と同じである。
図19に示す処理では、解析ソフトウェア512による解析が行なわれない。よって、データ解析装置500は解析ソフトウェア512を備えなくてもよい。
【0084】
機械学習の方法は、上記実施の形態で採用した方法に限られず任意である。また、学習済みモデルは、複数の分類器によって構成されてもよい。
【0085】
FT-IRスペクトルを取得するフーリエ変換赤外分光光度計の構成は、
図1に示した構成に限られず、適宜変更可能である。たとえば、
図1に示した構成では、サンプルMで反射された赤外干渉光が検出されるが、サンプルMを透過した赤外干渉光が検出されるように、フーリエ変換赤外分光光度計の構成を変更してもよい。
【0086】
サーバ300及びデータ解析装置500がフーリエ変換赤外分光光度計に搭載されてもよい。また、制御装置200が、サーバ300及びデータ解析装置500の機能を有してもよい。
【0087】
上記では、横軸に波数、縦軸に吸収度をとったFT-IRスペクトルを例示したが、FT-IRスペクトルの横軸は波長であってもよい。また、FT-IRスペクトルの縦軸は透過率であってもよい。
【0088】
[態様]
上述した複数の例示的な実施の形態及びその変形例は、以下の態様の具体例であることが当業者により理解される。
【0089】
(第1項)一態様に係るデータ解析装置は、FT-IRスペクトルである解析対象を取得する取得部と、学習済みモデルと、解析対象を学習済みモデルへ入力する解析部とを備える。学習済みモデルは、FT-IRスペクトルが入力されると、入力されたFT-IRスペクトルが学習済み原子団に由来するピークを含むか否かを示す情報を出力するように機械学習されている。学習済み原子団は、3原子以上の原子団を含む。
【0090】
第1項に記載のデータ解析装置は、上記の学習済みモデルを利用することにより、3原子以上の原子団についてFT-IRスペクトルの解析を高精度かつ容易に行なうことができる。本願発明者は、3原子以上の原子団について機械学習を行なうことで、学習済み原子団(3原子以上の原子団)に由来するピークをFT-IRスペクトル(当該学習済みモデルに入力される解析対象)が含むか否かを高い精度で解析可能な学習済みモデルを生成することに成功している(
図8参照)。
【0091】
(第2項)第1項に記載のデータ解析装置において、学習済み原子団は複数の原子団を含んでもよい。学習済みモデルは、FT-IRスペクトルと、学習済みモデルに含まれる1つの原子団を指定する情報とが入力されると、入力されたFT-IRスペクトルが、入力された情報が指定する原子団に由来するピークを含むか否かを示す情報を出力するように構成されてもよい。
【0092】
第2項に記載のデータ解析装置によれば、複数の原子団についてFT-IRスペクトルの解析を高精度かつ容易に行なうことが可能になる。
【0093】
(第3項)第1項又は第2項に記載のデータ解析装置は、学習済み原子団の少なくとも一部を含む選択肢の中から1以上の原子団を選ぶことをユーザに対して要求する要求部と、ユーザに対する報知を報知装置に行なわせる報知部とをさらに備えてもよい。解析部は、上記要求に対して選ばれた1以上の原子団の各々について、当該原子団由来のピークが解析対象に含まれるか否かを示す解析結果を取得するように構成されてもよい。報知部は、報知装置を通じてユーザに解析結果を報知するように構成されてもよい。
【0094】
第3項に記載のデータ解析装置によれば、ユーザが選んだ各原子団についてFT-IRスペクトルの解析を行なうことと、その解析結果をユーザに報知することとが可能になる。
【0095】
(第4項)第3項に記載のデータ解析装置は、FT-IRスペクトルが与えられたときに、与えられたFT-IRスペクトルが所定の原子団(登録原子団)に由来するピークを含むか否かをルールベースで解析する解析ソフトウェアをさらに備えてもよい。上記の選択肢は、学習済み原子団に含まれる3原子以上の原子団と、登録原子団に含まれる3原子未満の原子団とを含んでもよい。解析部は、上記要求に対して選ばれた1以上の原子団の中に3原子以上の原子団が含まれる場合には、学習済みモデルにより、当該選ばれた3原子以上の原子団に関する解析結果を取得するように構成されてもよい。解析部は、上記要求に対して選ばれた1以上の原子団の中に3原子未満の原子団が含まれる場合には、解析ソフトウェアにより、当該選ばれた3原子未満の原子団に関する解析結果を取得するように構成されてもよい。
【0096】
第4項に記載のデータ解析装置は、学習済みモデルと解析ソフトウェアとにより、FT-IRスペクトルの解析を行なう。学習済みモデルは、3原子以上の原子団についてのみ、FT-IRスペクトルの解析を行なう。学習済みモデルは、3原子以上の原子団についてのみ学習されればよいため、学習負荷が軽減される。
【0097】
(第5項)第1項から第4項のいずれか1項に記載のデータ解析装置において、学習済み原子団は、炭素環を含む原子団と、複素環を含む原子団との少なくとも一方を含んでもよい。
【0098】
上記構成によれば、FT-IRスペクトルを高精度で解析可能な学習済みモデルを、機械学習によって得られやすくなる。
【0099】
(第6項)第1項から第4項のいずれか1項に記載のデータ解析装置において、学習済み原子団は、ニトロ基、エステル基、アクリル酸構造、トルエン構造、チオフェン構造、ピリミジン構造、トルイジン構造、芳香族カルボン酸構造、ベンズアミド構造、サリチル酸構造、ベンズイミダゾール構造、及びベンズチアゾール構造からなる群より選択される1以上の原子団を含んでもよい。
【0100】
上記構成によれば、FT-IRスペクトルを高精度で解析可能な学習済みモデルを、機械学習によって得られやすくなる。
【0101】
(第7項)一態様に係るデータ解析方法は、以下に説明する取得ステップ及び入力ステップを含む。
【0102】
取得ステップでは、分子構造が未知の化合物のFT-IRスペクトルを取得する。入力ステップでは、取得ステップにより取得されたFT-IRスペクトルと、3原子以上で構成される1つの原子団を指定する指定情報とを学習済みモデルへ入力する。学習済みモデルは、FT-IRスペクトルと指定情報とが入力されると、入力されたFT-IRスペクトルが、入力された指定情報によって指定される3原子以上の原子団に由来するピークを含むか否かを示す情報を出力するように機械学習された数理モデルである。
【0103】
第7項に記載のデータ解析方法は、上記の学習済みモデルを利用することにより、3原子以上の原子団についてFT-IRスペクトルの解析を高精度かつ容易に行なうことができる。
【0104】
(第8項)一態様に係る学習済みモデルの生成方法は、以下に説明する分析ステップ、保存ステップ、及び学習ステップを含む。
【0105】
分析ステップでは、分子構造が既知の化合物をフーリエ変換赤外分光光度計により分析してFT-IRスペクトルを取得する。保存ステップでは、分析ステップにより取得されたFT-IRスペクトルと、分析ステップにおいて分析された化合物の原子団情報とを紐付けて保存する。学習ステップでは、保存ステップにより保存されたFT-IRスペクトル及び原子団情報を教師データとして、FT-IRスペクトルに所定の原子団(対象原子団)に由来するピークが含まれるか否かを解析可能な学習済みモデルを生成するための機械学習を行なう。対象原子団は、3原子以上の原子団を含む。対象原子団を有する化合物の原子団情報は、当該化合物が有する対象原子団を示す。対象原子団を有しない化合物の原子団情報は、当該化合物が対象原子団を有しないことを示す。
【0106】
第8項に記載の学習済みモデルの生成方法によれば、機械学習のための学習用データを容易に取得することが可能になる。また、取得した学習用データで機械学習を行なうことにより、FT-IRスペクトルを高精度で解析可能な学習済みモデルを生成することができる。
【0107】
(第9項)一態様に係るシステムは、第7項に記載のデータ解析方法又は第8項に記載の学習済みモデルの生成方法を実行する1以上のコンピュータを備えるシステムである。
【0108】
(第10項)一態様に係るプログラムは、コンピュータに第7項に記載のデータ解析方法又は第8項に記載の学習済みモデルの生成方法を実行させるプログラムである。プログラムは、非一時的コンピュータ可読媒体に記憶されてもよい。
【0109】
今回開示された実施の形態は、全ての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味及び範囲内での全ての変更が含まれることが意図される。
【符号の説明】
【0110】
100 分析装置、110 干渉波生成部、111 光源、112 集光ミラー、113 コリメータミラー、114 ビームスプリッタ、115 固定ミラー、116 可動ミラー、117 ミラーアクチュエータ、120 照射部、121,123 集光ミラー、122 プリズム、124 押圧機構、130 検出器、200 制御装置、201,301,501 プロセッサ、202,302,502 RAM、203,303,503 記憶装置、204,304,504 通信装置、210 分析制御部、220 データ処理部、230 データ作成部、300 サーバ、310 データ取得部、320 学習実行部、400 化合物DB、410 FT-IRスペクトルDB、420 Openライブラリ、500 データ解析装置、511 分析アプリケーション、512 解析ソフトウェア、520 データ取得部、600 記憶媒体、710 入力装置、720 報知装置、M1 数理モデル、M2 学習済みモデル。