(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022139873
(43)【公開日】2022-09-26
(54)【発明の名称】化合物が2クラスのいずれに属するかを予測するモデルの作成方法、作成プログラム、作成システム、および、予測方法
(51)【国際特許分類】
G16C 20/70 20190101AFI20220915BHJP
G06N 20/00 20190101ALI20220915BHJP
G16C 20/30 20190101ALI20220915BHJP
【FI】
G16C20/70
G06N20/00 130
G16C20/30
【審査請求】未請求
【請求項の数】18
【出願形態】OL
(21)【出願番号】P 2021040438
(22)【出願日】2021-03-12
(71)【出願人】
【識別番号】000004466
【氏名又は名称】三菱瓦斯化学株式会社
(74)【代理人】
【識別番号】110000109
【氏名又は名称】特許業務法人特許事務所サイクス
(72)【発明者】
【氏名】村山 智寿
(72)【発明者】
【氏名】大野 雄磨
(72)【発明者】
【氏名】河野 和起
(57)【要約】 (修正有)
【課題】化合物を精度高く2クラスのいずれかに分類する方法を提供する。
【解決手段】方法は、a)2クラスのいずれに属するかが既知の複数の化合物について、ベース化合物と予測対象となる化合物に近似する化合物とに分類し、化合物の構造から求められる分子記述子の値から、2クラスのいずれに属するかを予測するための教師データ源を準備する。方法はさらに、ベース化合物か近似化合物かを確率的に分類するモデルを準備し、分類されたベース化合物および近似化合物を、近似化合物である確率が高い順に並び替え選択し、各2クラスに属する化合物群を決定し元教師データとし、元教師データの一部を候補教師データとして選択し教師データ源として、前記準備及び選択を行い、ベース化合物及び近似化合物の数を増やし教師データとし、増やした結果として得られた教師データを、2クラスのいずれに属するかを予測するモデルとして記憶、作成する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
a)2クラスのいずれに属するかが既知の複数の化合物について、ベース化合物と予測対象となる化合物に近似する近似化合物とに分類すること、
b)前記ベース化合物および近似化合物について、該化合物の構造から求められる分子記述子の値から、2クラスのいずれに属するかを予測するための教師データ源を準備すること、
c)前記教師データ源について、ベース化合物か近似化合物かを確率的に分類するモデルを準備すること、
d)前記分類されたベース化合物および近似化合物を、近似化合物である確率が高い順に並び替え、前記近似化合物である確率が高い順から選択して、前記2クラスのそれぞれに属する化合物群を決定し、元教師データとすること
e)前記元教師データの一部を候補教師データとして選択し、該候補教師データを前記教師データ源として、前記c)~前記d)を行い、前記ベース化合物および近似化合物の数を増やし、教師データとすること、
f)前記増やした結果として得られた教師データを、2クラスのいずれに属するかを予測するモデルとして記憶することを含む、
化合物が2クラスのいずれに属するかを予測するモデルの作成方法。
【請求項2】
前記2クラスは、皮膚感作性を有するものと、皮膚感作性を有さないものである、請求項1に記載のモデルの作成方法。
【請求項3】
前記2クラスのいずれに属するかが既知の複数の化合物がアミン化合物である、請求項1に記載のモデルの作成方法。
【請求項4】
前記2クラスは、皮膚感作性を有するものと、皮膚感作性を有さないものであり、前記2クラスのいずれに属するかが既知の複数の化合物がアミン化合物である、請求項1に記載のモデルの作成方法。
【請求項5】
さらに、前記モデルを構築する上での教師データの数を調整することを含む、請求項1~4のいずれか1項に記載のモデルの作成方法。
【請求項6】
さらに、交差検証によって、予測精度を評価することを含む、請求項1~5のいずれか1に記載のモデルの作成方法。
【請求項7】
a)2クラスのいずれに属するかが既知の複数の化合物について、ベース化合物と予測対象となる化合物に近似する近似化合物とに分類すること、
b)前記ベース化合物および近似化合物について、該化合物の構造から求められる分子記述子の値から、2クラスのいずれに属するかを予測するための教師データ源を準備すること、
c)前記教師データ源について、ベース化合物か近似化合物かを確率的に分類するモデルを準備すること、
d)前記分類されたベース化合物および近似化合物を、近似化合物である確率が高い順に並び替え、前記近似化合物である確率が高い順から選択して、前記2クラスのそれぞれに属する化合物群を決定し、元教師データとすること、
e)前記d)元教師データの一部を候補教師データとして選択し、該候補教師データを前記教師データ源として、前記c)~前記d)を行い、前記ベース化合物および近似化合物の数を増やし、教師データとすること、
をコンピューターに実行させるための、化合物が2クラスのいずれに属するかを予測するモデルの作成プログラム。
【請求項8】
前記2クラスは、皮膚感作性を有するものと、皮膚感作性を有さないものである、請求項7に記載のモデルの作成プログラム。
【請求項9】
前記2クラスのいずれに属するかが既知の複数の化合物がアミン化合物である、請求項7に記載のモデルの作成プログラム。
【請求項10】
前記2クラスは、皮膚感作性を有するものと、皮膚感作性を有さないものであり、前記2クラスのいずれに属するかが既知の複数の化合物がアミン化合物である、請求項7に記載のモデルの作成プログラム。
【請求項11】
さらに、交差検証によって、予測精度を評価することを含む、請求項7~10のいずれか1項に記載のモデルの作成プログラム。
【請求項12】
2クラスのいずれに属するかが既知の複数のベース化合物および2クラスのいずれに属するかが既知の複数の近似化合物について、該化合物の構造から求められる分子記述子の値から、2クラスのいずれに属するかを予測するための教師データ源を準備する第一の準備装置と、
前記教師データ源について、ベース化合物か近似化合物かを確率的に分類するモデルを準備する第二の準備装置と、
前記分類されたベース化合物および近似化合物を、近似化合物である確率が高い順に並び替え、前記近似化合物である確率が高い順から選択して、前記2クラスのそれぞれに属する化合物群を決定し、元教師データとする第三の準備装置と
前記元教師データの一部を候補教師データとして選択し、該候補教師データを前記教師データ源として、前記第二の準備装置、および、前記第三の準備装置を繰り返し動作させる制御装置と、
前記繰り返し動作させた結果として得られた教師データを、2クラスのいずれに属するかを予測するモデルとして記憶する記憶装置とを含む、
化合物が2クラスのいずれに属するかを予測するモデルの作成システム。
【請求項13】
前記2クラスは、皮膚感作性を有するものと、皮膚感作性を有さないものである、請求項12に記載のモデルの作成システム。
【請求項14】
前記2クラスのいずれに属するかが既知の複数の化合物がアミン化合物である、請求項12に記載のモデルの作成システム。
【請求項15】
前記2クラスは、皮膚感作性を有するものと、皮膚感作性を有さないものであり、前記2クラスのいずれに属するかが既知の複数の化合物がアミン化合物である、請求項12に記載のモデルの作成システム。
【請求項16】
前記第三の準備装置において、交差検証させることを含む、請求項12~15のいずれか1項に記載のモデルの作成システム。
【請求項17】
請求項1~6のいずれか1項に記載のモデルの作成方法を用いてモデルを作成し、
前記モデルを用いて、2クラスのいずれに属するかが未知の化合物が、前記2クラスのいずれに属するかを予測することを含む、未知の化合物が2クラスのいずれに属するかを予測する方法。
【請求項18】
さらに、前記未知の化合物が2クラスのいずれに属するかを予測するモデルのデータに基づき、前記未知の化合物の周辺の化合物の、前記未知の化合物が2クラスのいずれに属するかを予測するモデルのデータの存在密度を算出し、前記データの密度から算出されるモデルの適用範囲を出力することを含む、請求項17に記載の未知の化合物が2クラスのいずれに属するかを予測する方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、化合物が2クラスのいずれに属するかを予測するモデルの作成方法に関する。本発明は、また、化合物が2クラスのいずれに属するかを予測するモデルの作成プログラムに関する。本発明は、さらに、化合物が2クラスのいずれに属するかを予測するモデルの作成システムに関する。加えて、本発明は、未知の化合物が2クラスのいずれに属するかを予測する方法に関する。
【背景技術】
【0002】
化合物のクラス分類問題とは、化合物の2つのクラスのうちどのクラスに属するかが既知であるサンプルの集団から、そのクラスを分類するための規則を学習し、学習した規則を予測モデルとして使用し、いずれのクラスに属するかが未知の化合物サンプルについてそれが属するクラスを予測することである。このように、化合物群を2つのクラスに分類ことは、分類問題中でも最も基本的なものであり、長年にわたって構造-活性相関や構造-物性相関研究に活用され、最近では、化合物毒性等の有無を評価する有用な手法として注目されている。規則を学習するための手法、即ち分類手法には、線形学習機械、判別分析、Bayes線形判別分析、SVM(サポートベクターマシン)、AdaBoost等の線形判別分析法、および、Bayes非線形判別分析、SVM(サポートベクターマシン+カーネル)、ニューラルネットワーク、KNN法(最近隣法)、決定木等の非線形判別分析法がある。
【0003】
また、任意の毒性を有する化合物のクラスと前記毒性を有さない化合物のクラスである、2クラス分類予測モデルの作成方法について、特許文献1に記載がある。
【0004】
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
ここで、本発明者が、皮膚感作性の有無のデータに基づいて、皮膚感作性が未知の化合物の皮膚感作性の有無を評価したところ、化合物の構造が近似しているにも関わらず、皮膚感作性の有無が異なる場合があることが分かった。特に、化合物は無数にあり、皮膚感作性の評価が難しい。
【0007】
化合物について、皮膚感作性の有無等の2クラスのいずれに属するかを予測する場合、100%の確実性で分類することが極めて困難である。上述の通り、化合物の2クラス分類の場合、構造の近似性に基づいて分類することが考えられる。しかしながら、上述の通り、例えば、皮膚感作性の有無を分類する場合、構造が近似していても、皮膚感作性が必ずしも相関しているとは言えない。
本発明は、かかる課題を解決することを目的とするものであって、化合物が2クラスのいずれに属するかを高い正答率で予測するモデルの作成方法、ならびに、モデルの作成プログラム、および、作成システムを提供することを目的とする。さらに、未知の化合物が2クラスのいずれに属するかを高い正答率で予測する方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
上記課題のもと、本発明者が検討を行った結果、下記手段により、上記課題は解決された。
<1>a)2クラスのいずれに属するかが既知の複数の化合物について、ベース化合物と予測対象となる化合物に近似する近似化合物とに分類すること、
b)前記ベース化合物および近似化合物について、該化合物の構造から求められる分子記述子の値から、2クラスのいずれに属するかを予測するための教師データ源を準備すること、
c)前記教師データ源について、ベース化合物か近似化合物かを確率的に分類するモデルを準備すること、
d)前記分類されたベース化合物および近似化合物を、近似化合物である確率が高い順に並び替え、前記近似化合物である確率が高い順から選択して、前記2クラスのそれぞれに属する化合物群を決定し、元教師データとすること、
e)前記元教師データの一部を候補教師データとして選択し、該候補教師データを前記教師データ源として、前記c)~前記d)を行い、前記ベース化合物および近似化合物の数を増やし、教師データとすること、
f)前記増やした結果として得られた教師データを、2クラスのいずれに属するかを予測するモデルとして記憶することを含む、
化合物が2クラスのいずれに属するかを予測するモデルの作成方法。
<2>前記2クラスは、皮膚感作性を有するものと、皮膚感作性を有さないものである、<1>に記載のモデルの作成方法。
<3>前記2クラスのいずれに属するかが既知の複数の化合物がアミン化合物である、<1>に記載のモデルの作成方法。
<4>前記2クラスは、皮膚感作性を有するものと、皮膚感作性を有さないものであり、前記2クラスのいずれに属するかが既知の複数の化合物がアミン化合物である、<1>に記載のモデルの作成方法。
<5>さらに、前記モデルを構築する上での教師データの数を調整することを含む、<1>~<4>のいずれか1つに記載のモデルの作成方法。
<6>さらに、交差検証によって、予測精度を評価することを含む、<1>~<5>のいずれか1に記載のモデルの作成方法。
<7>a)2クラスのいずれに属するかが既知の複数の化合物について、ベース化合物と予測対象となる化合物に近似する近似化合物とに分類すること、
b)前記ベース化合物および近似化合物について、該化合物の構造から求められる分子記述子の値から、2クラスのいずれに属するかを予測するための教師データ源を準備すること、
c)前記教師データ源について、ベース化合物か近似化合物かを確率的に分類するモデルを準備すること、
d)前記分類されたベース化合物および近似化合物を、近似化合物である確率が高い順に並び替え、前記近似化合物である確率が高い順から選択して、前記2クラスのそれぞれに属する化合物群を決定し、元教師データとすること、
e)前記d)元教師データの一部を候補教師データとして選択し、該候補教師データを前記教師データ源として、前記c)~前記d)を行い、前記ベース化合物および近似化合物の数を増やし、教師データとすること、
をコンピューターに実行させるための、化合物が2クラスのいずれに属するかを予測するモデルの作成プログラム。
<8>前記2クラスは、皮膚感作性を有するものと、皮膚感作性を有さないものである、<7>に記載のモデルの作成プログラム。
<9>前記2クラスのいずれに属するかが既知の複数の化合物がアミン化合物である、<7>に記載のモデルの作成プログラム。
<10>前記2クラスは、皮膚感作性を有するものと、皮膚感作性を有さないものであり、前記2クラスのいずれに属するかが既知の複数の化合物がアミン化合物である、<7>に記載のモデルの作成プログラム。
<11>さらに、交差検証によって、予測精度を評価することを含む、<7>~<10>のいずれか1つに記載のモデルの作成プログラム。
<12>2クラスのいずれに属するかが既知の複数のベース化合物および2クラスのいずれに属するかが既知の複数の近似化合物について、該化合物の構造から求められる分子記述子の値から、2クラスのいずれに属するかを予測するための教師データ源を準備する第一の準備装置と、
前記教師データ源について、ベース化合物か近似化合物かを確率的に分類するモデルを準備する第二の準備装置と、
前記分類されたベース化合物および近似化合物を、近似化合物である確率が高い順に並び替え、前記近似化合物である確率が高い順から選択して、前記2クラスのそれぞれに属する化合物群を決定し、元教師データとする第三の準備装置と
前記元教師データの一部を候補教師データとして選択し、該候補教師データを前記教師データ源として、前記第二の準備装置、および、前記第三の準備装置を繰り返し動作させる制御装置と、
前記繰り返し動作させた結果として得られた教師データを、2クラスのいずれに属するかを予測するモデルとして記憶する記憶装置とを含む、
化合物が2クラスのいずれに属するかを予測するモデルの作成システム。
<13>前記2クラスは、皮膚感作性を有するものと、皮膚感作性を有さないものである、<12>に記載のモデルの作成システム。
<14>前記2クラスのいずれに属するかが既知の複数の化合物がアミン化合物である、<12>に記載のモデルの作成システム。
<15>前記2クラスは、皮膚感作性を有するものと、皮膚感作性を有さないものであり、前記2クラスのいずれに属するかが既知の複数の化合物がアミン化合物である、<12>に記載のモデルの作成システム。
<16>前記第三の準備装置において、交差検証させることを含む、<12>~<15>のいずれか1つに記載のモデルの作成システム。
<17><1>~<6>のいずれか1つに記載のモデルの作成方法を用いてモデルを作成し、
前記モデルを用いて、2クラスのいずれに属するかが未知の化合物が、前記2クラスのいずれに属するかを予測することを含む、未知の化合物が2クラスのいずれに属するかを予測する方法。
<18>さらに、前記未知の化合物が2クラスのいずれに属するかを予測するモデルのデータに基づき、前記未知の化合物の周辺の化合物の、前記未知の化合物が2クラスのいずれに属するかを予測するモデルのデータの存在密度を算出し、前記データの密度から算出されるモデルの適用範囲を出力することを含む、<17>に記載の未知の化合物が2クラスのいずれに属するかを予測する方法。
【発明の効果】
【0009】
化合物が2クラスのいずれに属するかを高い正答率で予測するモデルの作成方法、ならびに、モデルの作成プログラム、および、作成システムを提供可能になった。さらに、未知の化合物が2クラスのいずれに属するかを高い正答率で予測する方法を提供可能になった。
【図面の簡単な説明】
【0010】
【
図1】
図1は、本実施形態における、ベース化合物か近似化合物かのいずれに近いかを確率的に分類するモデルの作成方法のフローチャートである。
【
図2】
図2は、本実施形態における、2クラスのいずれかに属するかを予測するモデルに必要な元教師データの作成方法のフローチャートである。
【
図3】
図3は、本実施形態における、2クラスのいずれかに属するかを予測するモデルの作成方法のフローチャートである。
【
図4】
図4は、本実施形態における、2クラスのいずれかに属するかを予測する方法のフローチャートである。
【発明を実施するための形態】
【0011】
以下、本発明を実施するための形態(以下、単に「本実施形態」という)について詳細に説明する。なお、以下の本実施形態は、本発明を説明するための例示であり、本発明は本実施形態のみに限定されない。
なお、本明細書において「~」とはその前後に記載される数値を下限値および上限値として含む意味で使用される。
【0012】
本実施形態の化合物が2クラスのいずれに属するかを予測するモデルの作成方法は、
a)2クラスのいずれに属するかが既知の複数の化合物について、ベース化合物と予測対象となる化合物に近似する近似化合物とに分類すること、
b)前記ベース化合物および近似化合物について、該化合物の構造から求められる分子記述子の値から、2クラスのいずれに属するかを予測するための教師データ源を準備すること、
c)前記教師データ源について、ベース化合物か近似化合物かを確率的に分類するモデルを準備すること、
d)前記分類されたベース化合物および近似化合物を、近似化合物である確率が高い順に並び替え、前記近似化合物である確率が高い順から選択して、前記2クラスのそれぞれに属する化合物群を決定し、元教師データとすること、
e)前記元教師データの一部を候補教師データとして選択し、該候補教師データを前記教師データ源として、前記c)~前記d)を行い、前記ベース化合物および近似化合物の数を増やし、教師データとすること、
f)前記増やした結果として得られた教師データを、2クラスのいずれに属するかを予測するモデルとして記憶することを含む、
ことを特徴とする。
このような構成とすることにより、化合物が2クラスのいずれに属するかを高い正答率で予測するモデルを作成することが可能になる。
【0013】
本実施形態の予測モデルにおいては、2つのクラスは、皮膚感作性を有するものと、皮膚感作性を有さないものであることが好ましい。また、これ以外にも、化合物の毒性の有無など種々のクラスの分類の予測に用いることができる。
本実施形態の予測モデルにおいては、2クラスのいずれに属するかが既知の複数の化合物は、どのような化合物であってもよいが、アミン化合物であることが好ましい。アミン化合物は低分子化合物(例えば、分子量1000以下)であっても、高分子化合物(例えば、分子量1000超)であってもいが、低分子化合物の方がより精度高く予測可能である。低分子量化合物の分子量は、30以上であることが好ましく、また、800以下であることが好ましく、500以下であることがより好ましい。
【0014】
特に、本実施形態における予測モデルは、2クラスは、皮膚感作性を有するものと、皮膚感作性を有さないものであり、2クラスのいずれに属するかが既知の複数の化合物がアミン化合物であることが好ましい。アミン化合物の皮膚感作性の有無は、構造が近似していても、皮膚感作性の有無の特性が異なる場合があるため、本実施形態の予測モデルが効果的に用いられる。
【0015】
また、前記モデルを構築する上での教師データの数を調整することを含むことが好ましい。教師データの数は多い方が必ずしもわけではなく、適度な教師データ数とすることにより、より精度高く2クラスのいずれに属するかを予測することができる。
さらに、本実施形態では、交差検証によって、予測精度を評価することを含むことが好ましい。交差検証により、より精度高く評価することができる。交差検証は、工程e)で行うことが好ましく、工程e)で候補教師データを分割して、交差検証を行うことがより好ましい。
【0016】
本実施形態によれば、使用者(ユーザー)が入力した化合物の構造情報を特有の処理に供することにより、予測精度を最も高めるデータ数に基づいて予測モデルを構築することができるため、予測精度を向上させることができる。予測結果は、詳細を後述するとおり、2クラスのいずれに属するかがモデル予測で出力されるとともに、モデルの適用範囲の内か外かも判定することができる。従って、予測結果の評価がよりし易いものとすることができる。例えば、皮膚感作性なしの化合物を欲している場合に、本実施形態を実施し、モデル予測での皮膚感作性が無と出力され、モデルの適用範囲内である化合物が見いだされれば、有力な候補化合物として選出することが可能となる。
【0017】
本実施形態の原理について、2クラスが皮膚感作性の有無であり、化合物がアミン化合物である場合を例にとって説明する。しかしながら、本実施形態は、アミン化合物の皮膚感作性の有無の分類に限らず、化合物が2クラスのいずれに属するかを予測するモデルに広く用いることができることは言うまでもない。
【0018】
本実施形態においては、皮膚感作性の有無が既知の複数のアミン化合物について、ベース化合物と予測対象となる化合物に近似する近似化合物とに分類したものを用いている。ここで、近似化合物は、本実施形態におけるモデルで予測する予測対象となる化合物と構造が相対的に似ている化合物が分類され、ベース化合物は、本実施形態におけるモデルで予測する予測対象となる化合物と構造が相対的に似ていない化合物が分類される。例えば、化合物Aが予測対象の化合物である場合、通常は、
化合物A
【化1】
下記化合物Bは、近似化合物となり、
化合物B
【化2】
下記化合物Cは、ベース化合物となる。
化合物C
【化3】
【0019】
ここで、本実施形態においては、ベース化合物および近似化合物のいずれについても、皮膚感作性のある化合物と、皮膚感作性のない化合物が含まれるように教師データ源を準備している。そして、本実施形態においては、ベース化合物および近似化合物を、近似化合物である確率が高い順に並び替え、近似化合物である確率が高い順に、皮膚感作性の有り、無しに属する化合物群を決定して教師データ源を調整し、近似化合物である確率が高いものを優先的に選択し、元教師データとする。このように近似化合物のデータの情報が優先して考慮されるように調整することによって、精度高くアミン化合物の皮膚感作性を評価できる。
特に、本実施形態では、近似化合物について、皮膚感作性有りと、皮膚感作性なしが含まれるように調整している。これは、アミン化合物、例えば、上記化合物Aの皮膚感作性は弱いが、前記化合物に置換基が結合した化合物A’は強い皮膚感作性を示すように、構造の近似性だけでは、皮膚感作性の有無は精度高く分類できないためである。
【0020】
【0021】
つまり、アミン化合物の皮膚感作性の有無のように、構造が近似していても分類が分かれうる場合に、ベース化合物および近似化合物のいずれについても、皮膚感作性のある化合物と、皮膚感作性のない化合物が含まれるように元教師データを調整し、近似化合物のデータが優先的に考慮されるように調整することによって、確率高く化合物を2クラスのいずれに属するか判別することが可能になる。
さらに、本実施形態では、上記のとおり元教師データを調整した後、さらに、元教師データの一部を候補教師データとして選択し、段階的に教師データを増やすことによって、より精度高くアミン化合物が皮膚感作性の有無のいずれに該当するかを分類することができる。
【0022】
以下、本実施形態の詳細について、
図1~
図4に従って説明する。本実施形態が、
図1~
図4に記載の形態に限定されるものでは無いことは言うまでもない。
本実施形態にかかるベース化合物か近似化合物に近いかを確率的に分類するモデルの作成方法について、
図1を参照しながら説明する。以下の実施形態は、上述の工程a)およびb)に相当する工程を必須とするものであり、他の工程については、当業者が適宜調整することができることは言うまでもない。
確率的に分類するモデルの作成方法は、例えば、ベース化合物か予測対象となる化合物に近似する近似化合物か規定する工程(ステップS1)と、説明変数の生成工程(ステップS2)と、説明変数の正則化処理工程(ステップS3)と、説明変数のなかで同じ値を含む割合が多いものを削除する工程(ステップS4)と、各説明変数同士の相関係数を算出する工程(ステップS5)と、各説明同士の相関係数が大きい値を示したものを削除する工程(ステップS6)と、属するラベルと説明変数を組み合わせて教師データ源を作成する工程(ステップS7)と、教師データ源より確率的に分類するモデルを作成する工程(ステップS8)と、をこの順で行うことが挙げられる。
【0023】
ベース化合物と近似化合物を規定する工程(ステップS1)では、属するクラスが既知である化合物であって、予測対象となる化合物や開発候補の類縁体となる化合物を近似化合物とする。属するクラスが既知であり、近似化合物以外の化合物をベース化合物とする。これらのデータは、これまでの実験結果の知見により得られるものであり、予測対象となる化合物に相対的に近似する化合物も、相対的に近似しない化合物も含まれている。本実施形態においては、ベース化合物に属する場合はラベルを1とし近似化合物に属する場合はラベルを0とする。
【0024】
続いて、説明変数の生成工程では、化合物の構造から求められる分子記述子の値を求め説明変数とする(ステップS2)。分子記述子の値は一般的な分子記述子なものでよく、原子数、芳香族原子数、芳香族結合水素数、結合数、回転可能結合数、水素結合数、分子量、精密分子量、環数、立体中心数などの構成記述子、分極・水素ドナー/アクセプター数などの電子的記述子、原子間距離などの構造記述子、C、H、O、N等の原子数、アミノ基等、特定の部分構造のカウント数や有無、トポロジカル記述子、幾何学記述子、相互作用エネルギーなどが例示される。分子記述子の値は、例えばソフトウェアRDkitを使用して算出することができる。
【0025】
続いて、変数の正規化処理工程では、各変数の正規化処理を行う(ステップS3)。正規化処理の方法は一般的な正規化方法でよく、例えば、各変数(ex.変数x)の平均値(xの平均μ)、標準偏差(xの標準偏差σ)を算出し、正規化変数x’を、「x’=(x-μ)/σ」により算出することができる。
【0026】
続いて、説明変数のなかで同じ値を含む割合が多いものを削除することが好ましい。すなわち、前述した分子記述子の値のうちユニークな要素のカウント数とサンプル数の割合を探索し、同じ値を含む割合が多いものを削除する(ステップS4)。同じ値を含む割合が多い分子記述子ほど、各サンプルを特徴付ける分子記述子として適さない傾向にあるためである。例えば、ユニークな要素のカウント数とサンプル数の割合が1%を下回る場合、すなわちどのサンプルにおいても分子記述子が同じ値を示している変数を削除することができる。
【0027】
続いて、各変数同士の相関係数を算出する工程では、すべての説明変数における組み合わせから2変数間の相関係数を算出する(ステップS5)。相関係数は一般的なものでよく、例えばPearsonの相関係数より各変数同士の相関係数を算出することができる。
【0028】
続いて、説明変数のなかで相関係数の値が大きいものを削除する工程では、追加で変数削除処理を行う(ステップS6)。相関係数は強い正の相関がある、または強い負の相関がある値を示したものを削除すればよく、例えば、2変数同士の相関係数の値が0.95以上、または-0.95以下を示したものを抽出し、第3の変数間同士の相関係数の値に関しても0.95以上、または-0.95以下を示したものを優先的に削除することができる。
【0029】
続いて、属するラベルと説明変数を組み合わせて教師データ源を作成する工程では、変数削除処理後の説明変数とベース化合物か近似化合物かをラベリングした値を統合し教師データ源を作成する(ステップS7)。
【0030】
続いて、教師データ源より確率的に分類するモデルを作成する(ステップS8)。
本実施形態では、一連のモデルの作成において、2クラスのいずれに属するかが既知の複数の化合物であって、ベース化合物および近似化合物について、教師データを作製できる。
【0031】
モデル生成工程で生成する分類モデルとしては、例えば、線形判別分析、決定木、k最近傍法、Linerカーネルを用いたサポートベクターマシン、RBFカーネルを用いたサポートベクターマシン、ランダムフォレスト、ナイーブベイズ分類器、LightGBM(Light Gradient Boosting Machine)、XGBoost(勾配ブースティング)、Gradient Boosting DT(Decision Tree、勾配ブースティング)、CatBoost(勾配ブースティング)等が挙げられる。
【0032】
次に、本実施形態にかかる2クラスのいずれかに属するかを予測するモデルに必要な元教師データの作成方法について、
図2を参照しながら説明する。元教師データとは、2クラス分類されたベース化合物および近似化合物を、近似化合物である確率が高い順に並び替え、前記近似化合物である確率が高い順から選択して、前記2クラスのそれぞれに属する化合物群を決定したデータを意味し、上述e)を行う前の状態のデータである。
以下の実施形態は、上述の工程c)およびd)のみを必須とするものであり、他の工程については、当業者が適宜調整することができることは言うまでもない。
【0033】
2クラスのいずれかに属するかを予測するモデルに必要な元教師データの作成方法は、例えば、ベース化合物か近似化合物かの予測確率を算出する工程(ステップS9)と、近似化合物に近い確率が高い順に化合物を並べ替える工程(ステップS10)と、2クラスのいずれかに属するかを考慮しクラスごとに近似化合物に近い確率が高い順に並び替える工程(ステップS11)と、図示しないベース化合物か近似化合物かをラベルした変数を削除する工程と、属するクラスと説明変数を組み合わせて元教師データを作成する工程(ステップS12)とを、この順で行う。
【0034】
ベース化合物か近似化合物かの予測確率を算出する工程では、前述の属するラベルを確率的に分類するモデルから、属するラベルを確率的に予測算出することができる(ステップS9)。
【0035】
近似化合物に近い確率が高い順に化合物を並べ替える工程では、前述のステップS9で得られた予測算出結果から近似化合物に近い確率が高い順に並び替える(ステップS10)。
【0036】
2クラスのいずれかに属するかを考慮しクラスごとに近似化合物に近い確率が高い順に並び替える工程では、クラス1とクラス2においてそれぞれ近似化合物に近い確率が高い順に並び替える(ステップS11)。ステップS11では、並び替えた後のサンプルが属するクラスに偏りが生じている可能性があり、このステップS11で属するクラスごとに近似化合物に近い確率が高い順に並び替えられたデータを取得することができる。
【0037】
属するクラスと説明変数を組み合わせて元教師データを作成する工程では、ベース化合物か近似化合物かをラベルした変数、すなわちベース化合物に属する場合はラベルを1とし近似化合物に属する場合はラベルを0とした変数が削除され、ステップS4およびステップS6で変数削除処理された後の説明変数と、属するクラスを統合し元教師データを作成する(ステップS12)。
【0038】
2クラスのいずれかに属するかを予測するモデルの作成方法について、
図3を参照しながら説明する。以下の実施形態は、上述の工程e)およびf)のみを必須とするものであり、他の工程については、当業者が適宜調整することができることは言うまでもない。
2クラスのいずれかに属するかを予測するモデルの作成方法は、例えば、元教師データから取り出すサンプル数を属するクラスを考慮しx個選択し候補教師データとする工程(ステップS13)と、候補教師データより2クラス分類モデルを作成する工程(ステップS14)と、交差検証によって予測精度を評価する工程(ステップS15)と、候補教師データのサンプル数を増やす工程(ステップS16)と、予測精度の高かった候補教師データを2クラス分類用の教師データとしてモデルに記憶する工程(ステップS17)とを、この順で行う。
【0039】
元教師データから取り出すサンプル数を属するクラスを考慮しx個選択し候補教師データとする工程では、例えば、クラス1から近似化合物に近い確率が高い順に概ねx/2個(例えば0.3x~0.7x個、さらには0.4x~0.6x個)、クラス2から近似化合物に近い確率が高い順に概ねx/2個(例えば0.3x~0.7x個、さらには0.4x~0.6x個)選択する(ステップS13)。このように、2つクラスのそれぞれに属する化合物、例えば、皮膚感作性有に属する化合物と、皮膚感作性無に属する化合物であって、近似化合物である確率が高い化合物を含む教師データとすることにより、精度高く、化合物がいずれのクラスに属するか予測することができる。すなわち、2つのクラスについて、偏りなく学習し、かつ、近似化合物と2つのクラスの分類を紐づける因子が効率的に学習させることができる。
【0040】
続いて、候補教師データより2クラス分類モデルを作成する(ステップS14)。モデル生成工程で生成するクラス分類モデルとしては、前述のステップS8と同様のものが挙げられる。
【0041】
続いて、生成したモデルを評価する指標を用いて、交差検証による予測精度の評価を行うことが好ましい(ステップS15)。交差検証の方法としては、あらかじめ候補教師データを内部で分割し、モデル生成のための候補教師データと、もともと候補教師データであったものを外部の検証用として取り扱う検証用データに分ける。そして、抜き出した検証用データのクラスを生成したモデルで予測算出する。あらかじめ分割しておくことで、モデル生成のための候補教師データから得られるモデルは、検証用データのクラスが未知の状態で予測算出することになり、属するクラスが未知の化合物を予測する精度、すなわち汎化性能を図ることができる。例えば、層化k分割交差検証を行うことで、あらかじめ候補教師データを内部で分割する際に、モデル生成のための候補教師データと検証用データに含まれるクラス1およびクラス2の全体比率が概ね半々(例えば30~70:70~30、さらには40~60:60~40、特には約50:50)となるよう分割し検証することができ、より信頼できる汎化性能の推定ができる。また、この方法以外にも交差検証の方法は存在し、どの方法を用いても構わない。
【0042】
生成したモデルを評価する指標としては、正解率、再現率、適合率、真陰性率、偽陰性率、偽陽性率、F値、AUC、などの評価関数が挙げられる。例えば、F値を生成したモデルを評価する指標とすることで、生成されたモデルの汎化性能を誤認識することなく評価することができる。また、この方法以外にも生成したモデルを評価する方法は存在し、どの方法を用いても構わない。
【0043】
続いて、候補教師データのサンプル数を増やす工程では、交差検証による予測精度の評価が悪かった場合にサンプル数を増やすことが好ましい(S16)。また、交差検証による予測精度が良かった場合、一度サンプルを増やした場合の候補教師データを用いたときの、得られたモデルを交差検証し、先の候補教師データ数のほうが予測精度良好との調整をすることが好ましい。いずれの場合においても、交差検証により、予測精度をより効果的に高くすることができる。
【0044】
予測精度の高かった候補教師データを2クラス分類用の教師データとして決定し、最終的に2クラスのいずれかに属するかを予測するモデルとして記憶させる(ステップS17)。
【0045】
次に、未知の化合物が2クラスのいずれに属するかを予測する方法について、説明する。未知の化合物が2クラスのいずれに属するかは、モデルの作成方法を用いてモデルを作成し、前記モデルを用いて行う。特に、さらに、前記未知の化合物が2クラスのいずれに属するかを予測するモデルのデータに基づき、前記未知の化合物の周辺の化合物の、前記未知の化合物が2クラスのいずれに属するかを予測するモデルのデータの存在密度を算出し、前記データの密度から算出されるモデルの適用範囲を出力することを含むことが好ましい。モデルの適応範囲であるかを判定することにより、より精度よく化合物のクラスを予測可能になる。
以下、
図4を参照しながら説明する。
【0046】
モデルの適用範囲の出力方法は、例えば、生成した2クラス分類用モデルからある化合物のクラスを予測算出する工程(ステップS18)と、2クラス分類用モデルの説明変数からデータ密度を算出する工程(ステップS19)と、モデルの適用範囲外を判定する工程(ステップS20)と、2クラス分類用モデルの予測結果と合わせてモデルの適用範囲内であることを判定する工程(ステップS21)とを、この順で行うことができる。
【0047】
生成した2クラス分類用モデルからある化合物のクラスを予測算出する工程では、前述のステップS17で生成されたモデルを用いて、ステップS2で得られる説明変数と、図示しない変数削除処理を行いステップS17で生成されたモデルの説明変数の種類と同一のものにし、化合物のクラスを予測算出する(ステップS18)。
【0048】
続いて、2クラス分類用モデルの説明変数からモデル構築用データの平均までの距離を算出する(ステップS19)。
【0049】
説明変数からモデル構築用データの平均までの距離を算出する方法としては、k最近傍法による算出やOne-Class Support Vector Machine (OCSVM)による算出などが挙げられる。例えば、2クラス分類用モデルのすべての説明変数を用いたときの、k最近傍法によるモデル構築用データの平均までの距離をサンプルごとに算出する。モデル構築用データの平均までの距離が短い場合、サンプルはモデル構築用データが密に存在する領域に存在していると判断することができ、モデル構築用データの密度を見積もることができる。また、この方法以外にも説明変数からデータ密度を算出する方法は存在し、どの方法を用いても構わない。
【0050】
モデル構築用データの密度の範囲内外を判定する基準として、モデル構築用データの平均までの距離のしきい値を決めることが挙げられる。例えばモデル構築用データの平均までの距離を小さい順に並び替え、全体の割合のうち68%が含まれる距離の最小値をしきい値とすることで、モデル構築用データが十分に存在する領域を見積もることができ、予測精度がより向上する傾向にある。また、この基準以外にもデータ密度の範囲内外を判定する基準は存在し、どの基準を用いても構わない。
【0051】
モデルの適用範囲外を出力する工程では、前述のステップS19で算出されたモデル構築用データの平均までの距離に基づき、その距離がしきい値を超えた長いものをモデルの適用範囲外と出力する(ステップS20)。
【0052】
2クラス分類用モデルの予測結果と合わせてモデルの適用範囲内であることを出力する工程では、前述のステップS19で算出されたモデル構築用データの平均までの距離に基づき、その距離がしきい値以内である短いものをモデルの適用範囲内と出力する(ステップS21)。
【0053】
以上説明したような確率的に分類するモデルの作成方法、2クラスのいずれかに属するかを予測するモデルに必要な元教師データの作成方法、2クラスのいずれかに属するかを予測するモデルの作成方法、モデルの適用範囲の出力方法によれば、予測精度を最も高めるデータ数に基づいて予測モデルを構築することができるため、予測精度を向上させることができる。予測結果は、皮膚感作性の有無がモデル予測での有無として出力されるとともに、モデルの適用範囲の内か外かが判定される。従って、予測結果の評価がし易い。得られた結果をモデルとして記憶することによって、予測モデルとして用いることができる。
【0054】
本実施形態では、また、化合物が2クラスのいずれに属するかを予測するモデルの作成プログラムを開示する。
具体的には、a)2クラスのいずれに属するかが既知の複数の化合物について、ベース化合物と予測対象となる化合物に近似する近似化合物とに分類すること、
b)前記ベース化合物および近似化合物について、該化合物の構造から求められる分子記述子の値から、2クラスのいずれに属するかを予測するための教師データ源を準備すること、
c)前記教師データ源について、ベース化合物か近似化合物かを確率的に分類するモデルを準備すること、
d)前記分類されたベース化合物および近似化合物を、近似化合物である確率が高い順に並び替え、前記近似化合物である確率が高い順から選択して、前記2クラスのそれぞれに属する化合物群を決定し、元教師データとすること、
e)前記d)元教師データの一部を候補教師データとして選択し、該候補教師データを前記教師データ源として、前記c)~前記d)を行い、前記ベース化合物および近似化合物の数を増やし、教師データとすること、
をコンピューターに実行させるための、化合物が2クラスのいずれに属するかを予測するモデルの作成プログラムである。
【0055】
本実施形態では、さらに、化合物が2クラスのいずれに属するかを予測するモデルの作成システムを開示する。
具体的には、2クラスのいずれに属するかが既知の複数のベース化合物および2クラスのいずれに属するかが既知の複数の近似化合物について、該化合物の構造から求められる分子記述子の値から、2クラスのいずれに属するかを予測するための教師データ源を準備する第一の準備装置と、
前記教師データ源について、ベース化合物か近似化合物かを確率的に分類するモデルを準備する第二の準備装置と、
前記分類されたベース化合物および近似化合物を、近似化合物である確率が高い順に並び替え、前記近似化合物である確率が高い順から選択して、前記2クラスのそれぞれに属する化合物群を決定し、元教師データとする第三の準備装置と
前記元教師データの一部を候補教師データとして選択し、該候補教師データを前記教師データ源として、前記第二の準備装置、および、前記第三の準備装置を繰り返し動作させる制御装置と、
前記繰り返し動作させた結果として得られた教師データを、2クラスのいずれに属するかを予測するモデルとして記憶する記憶装置とを含む、
化合物が2クラスのいずれに属するかを予測するモデルの作成システムを開示する。
【0056】
モデルの作成プログラムおよびモデルの作成システムの詳細は、上述のモデルの作成方法の記載を参酌できる。
【実施例0057】
以下に実施例を挙げて本発明をさらに具体的に説明する。本発明の範囲は以下に示す具体例に限定されるものではない。
実施例で用いた測定機器等が廃番等により入手困難な場合、他の同等の性能を有する機器を用いて測定することができる。
【0058】
評価の仕方
1.実際の結果と機械学習が推定した結果の分類とその定義
・実際に感作性があり、機械学習のモデルにおいても感作性があると推定できている状態をTP(True Positive)と定義した。
・実際に感作性があるが、機械学習のモデルにおいて誤って感作性がないと推定してしまった状態をFN(False Negative)と定義した。
・実際に感作性がなく、機械学習のモデルにおいても感作性がないと推定できている状態をTN(True Negative)と定義した。
・実際には感作性がないが、機械学習のモデルにおいて誤って感作性があると推定してしまった状態をFP(False Positive)と定義した。
【0059】
2.モデルの評価指標
モデルを評価する指標として、評価関数の定義は次の通りとした。
・正解率を(TP+TN) / (TP+FP+FN+TN)と定義した。
・再現率をTP / (TP+FN)と定義した。
・適合率をTP / (TP+FP)と定義した。
・F値を(2×再現率×適合率) / (再現率+適合率)と定義した。
【0060】
3.実施例および比較例
<実施例1>
以下の手順に従って、予測モデルの作成方法およびこの予測モデルを用いた予測方法を用いて、皮膚感作性の予測方法を実行した。
ステップS1のベース化合物は有機化合物777種類、近似化合物は特定のアミン化合物16種類とした。
ステップS2の説明変数はSMILES形式の構造情報から得た1次元分子記述子および2次元分子記述子を、ソフトウェアRDkitを使用して分子記述子の値を算出した。
ステップS3、S4、S5、S6より変数削除処理を行い得られた説明変数は計102種類であった。
ステップS7、S8により、ベース化合物か近似化合物かを確率的に分類するモデル生成工程で生成する分類モデルとして、LightGBMを用いた。
ステップS8により得られた、確率的に分類するモデルを利用し、ステップS9、S10、S11、S12より2クラスと説明変数を組み合わせた元教師データを作成した。
ステップS12により得られた元教師データを用いて、ステップS13で選択するサンプル数を300個とした。
ステップS14により、2クラスのいずれかに属するかを予測するモデル生成過程で生成する分類モデルとして、CatBoostを用いた。
ステップS15の交差検証によって予測精度を評価した。モデルを評価する指標としてF値を用いた。
【0061】
<実施例2>
実施例1と同様の手順で、ステップS12により得られた元教師データを用いて、ステップS13で選択するサンプル数を380個とし、ステップS15の交差検証によって予測精度を評価した。モデルを評価する指標としてF値を用いた。
【0062】
<実施例3>
実施例1と同様の手順で、ステップS12により得られた元教師データを用いて、ステップS13で選択するサンプル数を390個とし、ステップS15の交差検証によって予測精度を評価した。モデルを評価する指標としてF値を用いた。
【0063】
<実施例4>
実施例1と同様の手順で、ステップS12により得られた元教師データを用いて、ステップS13で選択するサンプル数を400個とし、ステップS15の交差検証によって予測精度を評価した。モデルを評価する指標としてF値を用いた。
【0064】
<実施例5>
実施例1と同様の手順で、ステップS12により得られた元教師データを用いて、ステップS13で選択するサンプル数を410個とし、ステップS15の交差検証によって予測精度を評価した。モデルを評価する指標としてF値を用いた。
【0065】
<実施例6>
実施例1と同様の手順で、ステップS12により得られた元教師データを用いて、ステップS13で選択するサンプル数を420個とし、ステップS15の交差検証によって予測精度を評価した。モデルを評価する指標としてF値を用いた。
【0066】
<実施例7>
実施例1と同様の手順で、ステップS12により得られた元教師データを用いて、ステップS13で選択するサンプル数を500個とし、ステップS15の交差検証によって予測精度を評価した。モデルを評価する指標としてF値を用いた。
【0067】
<実施例8>
実施例1と同様の手順で、ステップS12により得られた元教師データを用いて、ステップS13で選択するサンプル数を600個とし、ステップS15の交差検証によって予測精度を評価した。モデルを評価する指標としてF値を用いた。
【0068】
実施例1、2、3、4、5、6、7、8により予測精度を評価した結果を表1に示す。このように、本発明では、予測精度を最も高めるデータ数に基づいて予測モデルを構築することができるため、予測精度を向上させることができる。
【0069】
【0070】
実施例1、2、3、4、5、6、7、8によれば、特に属するクラスが未知の化合物を予測する精度、すなわち汎化性能が優れていたモデルは実施例4、5,6であることから、ステップS17で候補教師データの数400、410、420としたときを、2クラス分類用の教師データとしてモデルに記憶させることにした。
【0071】
<実施例9>
実施例4にて得られたモデル構築用データを2クラス分類用の教師データと、ステップS18にて属するクラスが既知のデータを外部検証用データとし予測算出させた。外部検証用データの化合物は13種類とした。その後、ステップS19、S20、S21にてモデルの適用範囲をあわせて出力させた。
【0072】
<実施例10>
実施例5にて得られたモデル構築用データを2クラス分類用の教師データと、ステップS18にて属するクラスが既知のデータを外部検証用データとし予測算出させた。外部検証用データの化合物は実施例9と同様、20種類とした。その後、ステップS19、S20、S21にてモデルの適用範囲をあわせて出力させた。
<実施例11>
実施例5にて得られたモデル構築用データを2クラス分類用の教師データと、ステップS18にて属するクラスが既知のデータを外部検証用データとし予測算出させた。外部検証用データの化合物は実施例9と同様、20種類とした。その後、ステップS19、S20、S21にてモデルの適用範囲をあわせて出力させた。
【0073】
実施例9、10、11により予測精度を評価した結果を表2~表4に、ぞれぞれ、示す。このように、本実施例では、皮膚感作性の有無がモデル予測での有無として出力されるとともに、モデルの適用範囲の内か外かが判定される。従って、予測結果の評価がし易い。
【0074】
【0075】
上記結果から明らかなとおり、本発明の化合物が2クラスのいずれに属するかを予測するモデルの作成プログラムを用いた場合、高い精度で化合物が2クラスのいずれに属するかを予測することができた。