(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024002794
(43)【公開日】2024-01-11
(54)【発明の名称】ムスク様の匂いの有無の予測モデルの構築方法
(51)【国際特許分類】
G01N 33/00 20060101AFI20231228BHJP
G06N 20/00 20190101ALI20231228BHJP
C12N 15/12 20060101ALN20231228BHJP
【FI】
G01N33/00 C
G06N20/00
C12N15/12 ZNA
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022102212
(22)【出願日】2022-06-24
(71)【出願人】
【識別番号】000000918
【氏名又は名称】花王株式会社
(74)【代理人】
【識別番号】110000084
【氏名又は名称】弁理士法人アルガ特許事務所
(72)【発明者】
【氏名】吉川 敬一
(72)【発明者】
【氏名】出口 潤
(72)【発明者】
【氏名】胡 捷瑩
(57)【要約】
【課題】試験物質がムスク様の匂いを呈するか否かを高精度に予測できる予測モデルの構築方法の提供。
【解決手段】試験物質がムスク様の匂いを有するか否かを予測する予測モデルの構築方法であって、コンセンサスOR5A2のアゴニストの情報及び非アゴニストの情報を訓練用データとした機械学習を行うこと、を含む、方法。
【選択図】なし
【特許請求の範囲】
【請求項1】
試験物質がムスク様の匂いを有するか否かを予測する予測モデルの構築方法であって、
コンセンサスOR5A2のアゴニストの情報及び非アゴニストの情報を訓練用データとした機械学習を行うこと、
を含む、方法。
【請求項2】
前記情報が化学構造情報及び前記コンセンサスOR5A2のアゴニストであるか否かについての情報である、請求項1記載の方法。
【請求項3】
前記化学構造情報を説明変数とし、前記コンセンサスOR5A2のアゴニストであるか否かについての情報を目的変数とする、請求項2記載の方法。
【請求項4】
前記アゴニストがムスクケトン、ムスクキシロール、シベトン、(E)-cyclohexadec-8-en-1-one、シクロペンタデカノン、(E)-3-methylcyclopentadec-5-en-1-one、ムスコン、(E)-3-methylcyclotetradec-5-en-1-one、シクロペンタデカノール、エチレンブラシレート、アンブレットリド、(E)-1-oxacyclohexadec-12-en-2-one、16-oxacyclohexadecan-1-one、ガラクソリド、テンタローム、セレストリド、4-(3',3'-dimethyl-1'-cyclohexyl)-2,2-dimethyl-3-oxapentyl propanoate、[2-[1-(3,3-dimethylcyclohexyl)ethoxy]-2-oxoethyl] propanoate、ω-ドデカノラクタム及び2,2,6,6,7,8,8-heptamethyl-3,3a,4,5,5a,7,8a,8b-octahydrocyclopenta[g][1]benzofuranからなる20種の分子群より選択される少なくとも1種である、請求項1~3のいずれか1項記載の方法。
【請求項5】
前記アゴニストが前記20種の分子群である、請求項4記載の方法。
【請求項6】
前記非アゴニストがβ-イオノン、アンブリノール、(2'S-(2',4'a,8'a.a))-hexahydro-1'1'5'5'-tetramethyl spiro(1,3-dioxolane-2,8'(5'h)-(2H-2,4a)-methanonaphthalene)、p-クレジルフェニルアセテート、アンバーケタール、δ-ドデカラクトン、シクロペンタデカン、2-ペンタデカノン、8-methyl-1,5-benzodioxepin-3-one、ヘリオトロピルアセテート、8-ペンタデカノン、9-ethylidene-3-oxatricyclo(6.2.1.02,7)undecane-4-one、スチラリルアセテート、β-ダマスコン、(3aR,5aS,9aS,9bR)-3a,6,6,9a-tetramethyl-2,4,5,5a,7,8,9,9b-octahydro-1H-benzo[e][1]benzofuran、イソロンギホラノン、メチルセドリルケトン、6-メチルキノリン、ラズベリーケトン、p-tert-ブチルシクロヘキサノン、ケファリス、1-(2-tert-butylcyclohexyl)oxybutan-2-ol、(R)-(+)-スクラレオリド、イソEスーパー、ethoxymethoxycyclododecane、(E)-2-methyl-4-(2,2,3-trimethyl-1-cyclopent-3-enyl)but-2-en-1-ol及びβ-ナフチルメチルケトンからなる27種の分子群より選択される少なくとも1種である、請求項1~5のいずれか1項記載の方法。
【請求項7】
前記非アゴニストが前記27種の分子群である、請求項6記載の方法。
【請求項8】
前記機械学習に用いるアルゴリズムがナイーブベイズ(Naive Bayes;NB)、サポートベクターマシン(Support Vector Machine;SVM)、ガウス過程(Gaussian Process;GP)、k近傍法(k-Nearest Neighbor;KNN)、潜在的ディリクレ配分法(Latent Dirichlet Allocation;LDA)、ロジスティック回帰(Logistic Regression;LR)、Extreme Gradient Boosting with Linear Booster(XGBL)又はランダムフォレスト(Random Forest;RF)である、請求項1~7のいずれか1項記載の方法。
【請求項9】
試験物質がムスク様の匂いを有するか否かを予測する方法であって、
請求項1~8のいずれか1項記載の方法で構築された予測モデルを用いること、
を含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ムスク様の匂いの有無の予測モデルの構築方法に関する。
【背景技術】
【0002】
多々ある香りの成分の中でも、ムスク(麝香)は、甘く複雑な香りを有し、古くから高貴な香料として香粧品に広く用いられている重要な香料である。ムスクは、ジャコウジカの雄の生殖腺嚢(香嚢)の分泌物を乾燥することにより得られてきたが、現在、ジャコウジカの捕獲はワシントン条約で禁止され、天然のムスクの入手は極めて困難である。
一方で、ムスクの主要香気成分として、ムスコンが単離され、化学構造が決定された。また、ムスクと類似したムスク様の香りを有する天然には存在しない有機化合物である合成ムスクが開発され、天然ムスクの代替品として使用されている。合成ムスクは、その化学構造の違いから、大環状ムスク、ニトロムスク、多環状ムスク、脂環・鎖状ムスクに大別される。ムスクはその特徴的な甘い香りや香りの保留性から需要が高く、新たなムスク系香料の開発が望まれている。
【0003】
従来、香料物質の開発においては、候補物質の匂いの評価は専門家による官能試験によって行われてきた。しかし、官能試験には、匂いを評価できる専門家の育成が必要なことや、スループット性が低いなどの問題があった。そこで近年では、候補物質に対する嗅覚受容体を培養細胞に発現させ、候補物質に対する細胞応答を指標にした香料物質の探索方法が開発されている(例えば特許文献1)。特許文献1には、OR5AN1嗅覚受容体が大環状ケトンムスク及び特定のニトロムスクに属する化合物に選択的に応答を示すことが開示されている。ただし、OR5AN1は大環状ケトンムスク及び特定のニトロムスクと同様にムスク様の匂いを呈する他のムスク系香料(大環状ラクトン、大環状ジエステル、多環状ムスク、脂環式ムスク)を認識しないことも同時に開示されていることから、一連のムスク系香料に共通したムスク様の匂いを生み出す原因受容体はOR5AN1だけではない可能性も考えられた。そのような状況の中で、一連のムスク系香料を認識しうる嗅覚受容体として新たにOR5A2が特定されている(特許文献2)。
【0004】
しかし、一般的に嗅覚受容体の大多数は、培養細胞に発現させても効率よく細胞膜上に移行せず、小胞体などにとどまってしまう。そのために、嗅覚受容体の応答測定を効率よく実施することは困難とされ、実際に全ヒト受容体の12%程度しか解析に成功していない(非特許文献1)。特許文献2で示されたOR5A2についても、他の研究グループでは応答測定に成功しなかったことが報告されている(非特許文献2)。
【0005】
一方、これまでに、ムスク系香料を認識する嗅覚受容体ではないが、OR1A1及びOR2W1について、そのアゴニスト及び非アゴニストの情報を用いた機械学習により、これら嗅覚受容体のアゴニストを予測するモデルを構築したことが報告されている(非特許文献3)。しかし、クロスバリデーションの際のF1スコアが0.8未満であり、予測性能が十分ではない。また、匂い分子の分子構造とムスク様の匂いの有無の情報を用いた機械学習により、ある分子がムスク様の匂いを呈するか否かを予測するモデルを構築したことも報告されているが(非特許文献4)、F1スコアが0.7程度であり、ある分子がムスク様の匂いを呈するか否かを予測するモデルの構築の難しさを示している。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特許第6449157号公報
【特許文献2】特表2021-505566号公報
【非特許文献】
【0007】
【非特許文献1】Trimmer C et al. PNAS 116:9475-9480(2019)
【非特許文献2】Li M et al. PLoS Genet 18(2):e1009564(2022)
【非特許文献3】Jabeen A. et al. Int. J. Mol. Sci. 22, 11546 (2021)
【非特許文献4】Chacko R. et al. Scientific Reports 10, 17136 (2020)
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明は、試験物質がムスク様の匂いを呈するか否かを高精度に予測できる予測モデルの構築方法を提供する。
【課題を解決するための手段】
【0009】
本発明者は、嗅覚受容体のアミノ酸配列を、該嗅覚受容体のアミノ酸配列と該嗅覚受容体の特定のオルソログ又は特定のオルソログ及びパラログにコードされる嗅覚受容体のアミノ酸配列のアラインメントから導き出されるコンセンサスアミノ酸配列に基づいて改変してコンセンサス化することにより、嗅覚受容体の応答測定効率を向上できる方法を見出し、先に特許出願した(特願2021-103675、特願2022-21606)。
【0010】
また本発明者は、OR5A2に斯かるコンセンサス化を適用したコンセンサスOR5A2によりムスク系香料に対する応答を高感度に評価でき、コンセンサスOR5A2の応答を指標とすることでムスク様の匂いを呈する香料素材を効率よく評価又は選択することができることを見出し、先に特許出願した(特願2022-42962、特願2022-101810)。
【0011】
本発明者は、コンセンサスOR5A2のアゴニストの情報及び非アゴニストの情報を訓練用データとした機械学習を行うことで試験物質がムスク様の匂いを呈するか否かを高精度に予測する予測モデルを構築できることを見出した。
【0012】
したがって、本発明は、以下の1)及び2)を提供する。
1)試験物質がムスク様の匂いを呈するか否かを予測する予測モデルの構築方法であって、
コンセンサスOR5A2のアゴニストの情報及び非アゴニストの情報を訓練用データとした機械学習を行うこと、
を含む、方法。
2)試験物質がムスク様の匂いを呈するか否かを予測する方法であって、
1)記載の方法で構築された予測モデルを用いること、
を含む、方法。
【発明の効果】
【0013】
本発明によれば、試験物質がムスク様の匂いを呈するか否かを高精度に予測する予測モデルを構築でき、試験物質がムスク様の匂いを呈するか否かを予測して、ムスク様の匂いを呈する試験物質を効率よく評価又は選択することが可能になる。
【図面の簡単な説明】
【0014】
【
図1】コンセンサスOR5A2の物質#1~47に対する応答。横軸は物質の濃度、縦軸は受容体応答強度を示す(n=3)。
【
図2】NBモデルによるパブリックデータベースからのムスク系香料の予測の流れ。
【
図3】(A)NBモデルの予測パフォーマンス、(B)NBモデルのROCカーブ。
【
図4】(A)、(B)NBモデルが意思決定する際に重要とする化学構造的特徴。中心原子を黒丸、芳香族原子は白丸、環状の脂肪族原子は灰色丸でそれぞれ示す。意思決定に用いるフィンガープリントには含まれないが、原子の結合環境を表す原子および結合を薄い灰色で示す。
【発明を実施するための形態】
【0015】
本明細書中で引用された全ての特許文献、非特許文献、及びその他の刊行物は、その全体が本明細書中において参考として援用される。
【0016】
本明細書において、「嗅覚受容体ポリペプチド」とは、嗅覚受容体又はそれと同等の機能を有するポリペプチドをいい、「嗅覚受容体と同等の機能を有するポリペプチド」とは、嗅覚受容体と同様に、細胞膜上に発現することができ、匂い分子の結合によって活性化し、かつ活性化されると、細胞内のGαsと共役してアデニル酸シクラーゼを活性化することで細胞内cAMP量を増加させる機能を有するポリペプチドをいう(Nat.Neurosci.,2004,5:263-278)。
【0017】
本明細書において、ヌクレオチド配列及びアミノ酸配列の同一性は、リップマン-パーソン法(Lipman-Pearson法;Science,1985,227:1435-41)によって計算される。具体的には、遺伝情報処理ソフトウェアGenetyx-Win(Ver.5.1.1;ソフトウェア開発)のホモロジー解析(Search homology)プログラムを用いて、Unit size to compare(ktup)を2として解析を行うことにより算出される。
【0018】
本明細書において、ヌクレオチド配列及びアミノ酸配列に関する「少なくとも95%の同一性」とは、95%以上、好ましくは97%以上、より好ましくは98%以上、さらに好ましくは99%以上の同一性をいう。
【0019】
本明細書において、「アミノ酸残基」とは、タンパク質を構成する20種のアミノ酸残基、アラニン(Ala又はA)、アルギニン(Arg又はR)、アスパラギン(Asn又はN)、アスパラギン酸(Asp又はD)、システイン(Cys又はC)、グルタミン(Gln又はQ)、グルタミン酸(Glu又はE)、グリシン(Gly又はG)、ヒスチジン(His又はH)、イソロイシン(Ile又はI)、ロイシン(Leu又はL)、リシン(Lys又はK)、メチオニン(Met又はM)、フェニルアラニン(Phe又はF)、プロリン(Pro又はP)、セリン(Ser又はS)、トレオニン(Thr又はT)、トリプトファン(Trp又はW)、チロシン(Tyr又はY)及びバリン(Val又はV)を意味する。
【0020】
本明細書において、アミノ酸配列上の「相当する位置」は、目的配列と基準配列(本発明においては配列番号1で示されるアミノ酸配列)とを、最大の相同性を与えるように整列(アラインメント)させることにより決定することができる。アミノ酸配列のアラインメントは、公知のアルゴリズムを用いて実行することができ、その手順は当業者に公知である。例えば、アラインメントは、Clustal Wマルチプルアラインメントプログラム(Thompson,J.D.et al,1994,Nucleic Acids Res.22:4673-4680)をデフォルト設定で用いることにより、行うことができる。あるいは、Clustal Wの改訂版であるClustal W2やClustal omegaを使用することもできる。Clustal W、Clustal W2及びClustal omegaは、例えば、University College Dublinが運営するClustalのウェブサイト[www.clustal.org]、欧州バイオインフォマティクス研究所(European Bioinformatics Institute:EBI[www.ebi.ac.uk/index.html])や、国立遺伝学研究所が運営する日本DNAデータバンク(DDBJ[www.ddbj.nig.ac.jp/searches-j.html])のウェブサイト上で利用することができる。上述のアラインメントにより基準配列の任意の位置にアラインされた目的配列の位置は、当該任意の位置に「相当する位置」とみなされる。
【0021】
本明細書において、「ムスク系香料」は、ジャコウジカより採取されるムスクに類似した匂いを有している物質を指し、天然に存在する物質であっても、化学的もしくは生物学的方法等で人工的に合成した物質であってもよく、又は化合物であっても、組成物もしくは混合物であってもよい。該化合物には、天然ムスク化合物及び合成ムスク化合物を包含し、例えば、大環状ムスク、ニトロムスク、多環状ムスク、脂環・鎖状ムスクなどが挙げられるが、これらに限定されるものではない。
【0022】
大環状ムスクは、炭素数14~20の環構造を有し、さらに大環状ケトン、大環状アルコール、大環状ラクトンなどに分類される。大環状ケトンとしては、例えば、シベトン(civetone; (Z)-cycloheptadec-9-en-1-one)、グロバノン(globanone(登録商標); (E)-cyclohexadec-8-en-1-one)、シクロペンタデカノン(cyclopentadecanone; cyclopentadecan-1-one)、ムセノン(muscenone(登録商標); (E)-3-methylcyclopentadec-5-en-1-one)、ムスコン(muscone; 3-methylcyclopentadecan-1-one)、コスモン(cosmone(登録商標); (E)-3-methylcyclotetradec-5-en-1-one)、アンブレトン(ambretone(登録商標); 5-cyclohexadecen-1-one)、エグザルテノン(exaltenone; (4Z)-4-cyclopentadecen-1-one)などが挙げられる。大環状アルコールとしては、シクロペンタデカノール(cyclopentadecanol; cyclopentadecan-1-ol)などが挙げられる。大環状ラクトンとしては、エチレンブラシレート(ethylene brassylate; 1,4-dioxacycloheptadecane-5,17-dione)、アンブレットリド(ambrettolide; 17-oxacycloheptadec-6-en-1-one)、ハバノライド(habanolide(登録商標); (E)-1-oxacyclohexadec-12-en-2-one)、ペンタリド(pentalide(登録商標); 16-oxacyclohexadecan-1-one)、エグザルトリド(exaltolide(登録商標); oxacyclohexadecan-2-one)、オキサリド(oxalide(登録商標); 1,8-dioxacycloheptadecan-9-one)、セルボライド(cervolide; 1,6-dioxacycloheptadecan-7-one)などが挙げられる。
【0023】
ニトロムスクは、ベンゼン環にニトロ基が結合した構造を有する。ニトロムスクとしては、ムスクケトン(musk ketone; 1-(4-tert-butyl-2,6-dimethyl-3,5-dinitrophenyl)ethanone)、ムスクキシロール(musk xylol; 1-tert-butyl-3,5-dimethyl-2,4,6-trinitrobenzene)、ムスクアンブレット(musk ambrette; 1-tert-butyl-2-methoxy-4-methyl-3,5-dinitrobenzene)、モスケン(moskene; 1,1,3,3,5-pentamethyl-4,6-dinitro-2H-indene)、ムスクチベテン(musk tibetene; 1-tert-butyl-3,4,5-trimethyl-2,6-dinitrobenzene)などが挙げられる。
【0024】
多環状ムスクは、複数の環を含む構造を有する。多環状ムスクとしては、ガラクソリド(galaxolide; 1,3,4,6,7,8-hexahydro-4,6,6,7,8,8-hexamethylcyclopenta(g)-2-benzopyran)、テンタローム(tentarome; 1-(3,5,5,6,8,8-hexamethyl-6,7-dihydronaphthalen-2-yl)ethanone)、セレストリド(celestolide; 1-(6-tert-butyl-1,1-dimethyl-2,3-dihydroinden-4-yl)ethanone)、ファントリド(phantolid; 1-(1,1,2,3,3,6-hexamethyl-2H-inden-5-yl)ethanone)、トラセオリド(traseolide; 1-(1,1,2,6-tetramethyl-3-propan-2-yl-2,3-dihydroinden-5-yl)ethenone)などが挙げられる。
【0025】
脂環・鎖状ムスクは、環と炭素鎖を含む構造を有する。脂環・鎖状ムスクとしては、ヘルベトライド(helvetolide(登録商標); 4-(3',3'-dimethyl-1'-cyclohexyl)-2,2-dimethyl-3-oxapentyl propanoate)、ロマンドライド(romandolide(登録商標); [2-[1-(3,3-dimethylcyclohexyl)ethoxy]-2-oxoethyl] propanoate)、アップルライド(applelide; 1-[1-(3,3-dimethylcyclohexyl)ethyl] 3-ethyl propanedioate)などが挙げられる。
【0026】
本明細書において、「ムスク様の匂いを呈する物質」とは、ムスク系香料に類似した匂いを有する物質を指し、ムスクの匂いを想起させる物質とも言い換えることができる。ムスク様の匂いを呈する物質には、ムスク様の匂いを主香調とする物質、及びその香調にムスク様の匂いを含む物質を包含する。
【0027】
本発明者は、これまでに、目的の嗅覚受容体のアミノ酸配列を、該目的の嗅覚受容体のアミノ酸配列と該目的の嗅覚受容体の特定のオルソログ又は特定のオルソログ及びパラログにコードされる嗅覚受容体のアミノ酸配列のアラインメントから導き出されるコンセンサスアミノ酸配列に基づいて改変することにより、嗅覚受容体のにおい応答性を向上できること、また、改変された嗅覚受容体が改変前の嗅覚受容体のリガンド選択性をよく維持できること、改変された嗅覚受容体によりもたらされる解析結果はヒトの嗅覚をよく反映するものであることを見出し、先に特許出願した(特願2021-103675、特願2022-21606)。本明細書において、改変前の嗅覚受容体を「オリジナルの嗅覚受容体」と称し、嗅覚受容体のアミノ酸配列をコンセンサスアミノ酸配列に基づいて改変することを「コンセンサス化する」と称し、コンセンサス化された嗅覚受容体を「コンセンサス嗅覚受容体」と称することがある。
【0028】
ここで、「コンセンサスアミノ酸配列」とは、目的の嗅覚受容体のアミノ酸配列及び該目的の嗅覚受容体の特定のオルソログ又は特定のオルソログ及びパラログにコードされる嗅覚受容体のアミノ酸配列のアラインメントから以下の(i)~(iii)の基準に従い同定したコンセンサス残基からなるアミノ酸配列である。
(i)該アラインメントの各アミノ酸位置において、
(i-i)該目的の嗅覚受容体のアミノ酸残基と異なり且つ出現頻度50%以上のアミノ酸残基が1種存在する場合、該アミノ酸残基をコンセンサス残基と同定する、
(i-ii)出現頻度50%のアミノ酸残基が2種存在する場合、該目的の嗅覚受容体のアミノ酸残基をコンセンサス残基と同定する、
(i-iii)該目的の嗅覚受容体にアミノ酸残基が存在し且つ出現頻度40%以上でアミノ酸残基が存在しない場合、コンセンサス残基なしと同定する、
(i-iv)該目的の嗅覚受容体にアミノ酸残基が存在せず且つ出現頻度60%以上でアミノ酸残基が存在する場合、最も出現頻度が高いアミノ酸残基をコンセンサス残基と同定し、最も出現頻度が高いアミノ酸残基が2種以上存在する場合は、該アミノ酸残基のうち最も分子量が小さいアミノ酸残基をコンセンサス残基と同定する、
(i-v)上記(i-i)~(i-iv)のいずれにも該当しない場合、該目的の嗅覚受容体のアミノ酸残基をコンセンサス残基と同定する、
(ii)上記(i)の基準に従いコンセンサス残基を同定したときに、最もN末端側のコンセンサス残基が該目的の嗅覚受容体のN末端又はそれよりもC末端側に相当する位置のコンセンサス残基であり且つメチオニン残基でない場合、最もN末端に近い位置のメチオニン残基からなるコンセンサス残基よりN末端側のコンセンサス残基をコンセンサス残基なしに変更する、
(iii)上記(i)の基準に従いコンセンサス残基を同定したときに、最もN末端側のコンセンサス残基が該目的の嗅覚受容体のN末端よりもN末端側に相当する位置のコンセンサス残基であり且つメチオニン残基でない場合、該アラインメントの該コンセンサス残基の位置よりN末端側にアミノ酸位置を1つずつ遡り、メチオニン残基が出現するまで、最も出現頻度が高いアミノ酸残基をコンセンサス残基と同定し、最も出現頻度が高いアミノ酸残基が2種以上存在する場合は、該アミノ酸残基のうち最も分子量が小さいアミノ酸残基をコンセンサス残基と同定する。
またここで、「嗅覚受容体のアミノ酸配列をコンセンサスアミノ酸配列に基づいて改変する」、すなわち「コンセンサス化する」とは、目的の嗅覚受容体のアミノ酸配列においてコンセンサスアミノ酸配列と異なるアミノ酸残基の少なくとも1個をこれに相当する位置の該コンセンサスアミノ酸配列のアミノ酸残基に改変することをいう。
【0029】
また本発明者は、大環状ムスク、多環式ムスク、ニトロムスク及び直鎖状ムスクに応答することが報告されていたOR5A2(特許文献2)について、オリジナルOR5A2を用いた場合に、非特許文献2における結果同様にムスク系香料に対する応答は検出されなかったのに対し、これをコンセンサス化したコンセンサスOR5A2を用いた場合に、ニトロムスクであるムスクケトン及びムスクキシロール、大環状ケトンであるシベトン、グロバノン、シクロペンタデカノン、ムセノン、ムスコン及びコスモン、大環状アルコールであるシクロペンタデカノール、大環状ラクトンであるエチレンブラシレート、アンブレットリド、ハバノライド及びペンタリド、多環式ムスクであるガラクソリド、テンタローム及びセレストリド、並びに脂環・鎖状ムスクであるヘルベトライド及びロマンドライド、さらに、アンバーエクストリーム(amber xtreme(登録商標); 2,2,6,6,7,8,8-heptamethyl-3,3a,4,5,5a,7,8a,8b-octahydrocyclopenta[g][1]benzofuran、2,2,7,7,8,9,9-heptamethyl-3a,4,5,6,6a,8-hexahydro-1H-cyclopenta[d][1]benzofuran)及びω-ドデカノラクタム(omega-dodecanolactam; azacyclotridecan-2-one)に対する応答を高感度に評価できること、よって、コンセンサスOR5A2の応答を指標とすることにより、ムスク様の匂いを呈する香料素材を効率よく評価又は選択することができることを見出した(特願2022-42962、特願2022-101810、下記参考例1)。
【0030】
本発明は、試験物質がムスク様の匂いを呈するか否かを予測する予測モデルの構築方法であって、コンセンサスOR5A2のアゴニストの情報及び非アゴニストの情報を訓練用データとした機械学習を行うこと、を含む、方法を提供する。
【0031】
本発明における試験物質としては、ムスク様の匂いを呈するかどうか評価したい化合物、又はムスク様の匂いを呈する香料素材として使用することを所望する化合物であればよく、特に制限されない。試験物質は、天然に存在する化合物であっても、化学的もしくは生物学的方法等で人工的に合成した化合物であってもよい。
【0032】
本発明において、「コンセンサスOR5A2」とは、配列番号1で示されるヒトOR5A2(NP_001001954.1)のアミノ酸配列とOR5A2のオルソログにコードされる嗅覚受容体111種のアミノ酸配列のアラインメントから上記の手法により導き出される配列番号3で示されるコンセンサスアミノ酸配列からなるポリペプチド、又はこれと同様の応答選択性を有するポリペプチドである。配列番号3で示されるアミノ酸配列からなるポリペプチドと同様の応答選択性を有するポリペプチドの例としては、配列番号1で示されるアミノ酸配列又はこれと少なくとも95%の同一性を有するアミノ酸配列において、配列番号3で示されるコンセンサスアミノ酸配列と異なるアミノ酸残基の少なくとも1個、好ましくは少なくとも5個、より好ましくは少なくとも10個、さらに好ましくは少なくとも15個、さらにより好ましくは全てがこれに相当する位置の該コンセンサスアミノ酸配列のアミノ酸残基に置換されたアミノ酸配列からなり、かつムスクケトン、ムスクキシロール、シベトン、グロバノン、シクロペンタデカノン、ムセノン、ムスコン、コスモン、シクロペンタデカノール、エチレンブラシレート、アンブレットリド、ハバノライド、ペンタリド、ガラクソリド、テンタローム、セレストリド、ヘルベトライド、ロマンドライド、ω-ドデカノラクタム及びアンバーエクストリームからなる群より選択される少なくとも1種に応答性を有するポリペプチド、及び配列番号3で示されるアミノ酸配列と少なくとも95%の同一性を有するアミノ酸配列からなり、かつ該群より選択される少なくとも1種に応答性を有するポリペプチドが挙げられる。好ましくは、コンセンサスOR5A2は、配列番号3で示されるアミノ酸配列からなる嗅覚受容体ポリペプチドである。
【0033】
あるポリペプチドが「ある香料に対する応答性を有する」とは、該ポリペプチドの該香料に対する応答強度が、該香料非存在下の120%以上、好ましくは150%以上、より好ましくは200%以上であるか、又は、該ポリペプチドの該香料に対する応答強度が、配列番号3で示されるアミノ酸配列からなるポリペプチドの応答強度の10%以上、好ましくは30%以上、より好ましくは50%以上であることをいう。
【0034】
本発明において、「コンセンサスOR5A2のアゴニスト」とは、コンセンサスOR5A2に結合し、活性化させる分子をいう。コンセンサスOR5A2のアゴニストとしては、ムスクケトン、ムスクキシロール、シベトン、グロバノン、シクロペンタデカノン、ムセノン、ムスコン、コスモン、シクロペンタデカノール、エチレンブラシレート、アンブレットリド、ハバノライド、ペンタリド、ガラクソリド、テンタローム、セレストリド、ヘルベトライド、ロマンドライド、ω-ドデカノラクタム及びアンバーエクストリームからなる20種の分子群より選択される少なくとも1種であればよく、アンバーエクストリームとしては、2,2,6,6,7,8,8-heptamethyl-3,3a,4,5,5a,7,8a,8b-octahydrocyclopenta[g][1]benzofuranが好ましい。好ましくは、該アゴニストは、ムセノン、コスモン、シクロペンタデカノール、ロマンドライド、ω-ドデカノラクタム及びアンバーエクストリームからなる6種の分子群より選択される少なくとも1種を含む。該6種の分子群は、前記特許文献2においてOR5A2のアゴニストとして記載されておらず、本発明者によってコンセンサスOR5A2のアゴニストとして初めて見出された分子群である。より好ましくは、該アゴニストは、該6種の分子群より選択される少なくとも1種を含む該20種の分子群より選択される少なくとも10種の分子群である。さらに好ましくは、該アゴニストは、該20種の分子群である。コンセンサスOR5A2のアゴニストには、さらに新たに見出されたコンセンサスOR5A2に結合し、活性化させる分子をも含み得る。新たなアゴニストは、例えば、後記参考例に詳述する方法により見出すことができる。
【0035】
本発明において、「コンセンサスOR5A2の非アゴニスト」とは、コンセンサスOR5A2のアゴニストではない分子を指し、コンセンサスOR5A2に結合しないか、コンセンサスOR5A2に結合するがコンセンサスOR5A2を活性化しない分子をいう。コンセンサスOR5A2の非アゴニストとしては、β-イオノン(beta-ionone; 4-(2,6,6-trimethylcyclohexen-1-yl)but-3-en-2-one)、アンブリノール(ambrinol; 2,5,5-trimethyl-1,3,4,4a,6,7-hexahydronaphthalen-2-ol)、イサンベルK(Ysamber(登録商標)K; (2'S-(2',4'a,8'a.a))-hexahydro-1'1'5'5'-tetramethyl spiro(1,3-dioxolane-2,8'(5'h)-(2H-2,4a)-methanonaphthalene))、p-クレジルフェニルアセテート(para-cresyl phenyl acetate; (4-methylphenyl) 2-phenylacetate)、アンバーケタール(amberketal; 5,5,9,13-tetramethyl-14,16-dioxatetracyclo[11.2.1.01,10.04,9]hexadecane)、δ-ドデカラクトン(delta-dodecalactone; 6-heptyloxan-2-one)、シクロペンタデカン(cyclopentadecane)、2-ペンタデカノン(2-pentadecanone; pentadecan-2-one)、カロン(calone(登録商標); 8-methyl-1,5-benzodioxepin-3-one)、ヘリオトロピルアセテート(heliotropyl acetone; 4-(1,3-benzodioxol-5-yl)butan-2-one)、8-ペンタデカノン(8-pentadecanone; pentadecan-8-one)、フロレックス(florex(登録商標); 9-ethylidene-3-oxatricyclo(6.2.1.02,7)undecane-4-one)、スチラリルアセテート(styralyl acetate; 1-phenylethyl acetate)、β-ダマスコン(beta-damascone; 1-(2,6,6-trimethyl-1-cyclohexenyl)but-2-en-1-one)、アンブロキサン(ambroxan(登録商標); (3aR,5aS,9aS,9bR)-3a,6,6,9a-tetramethyl-2,4,5,5a,7,8,9,9b-octahydro-1H-benzo[e][1]benzofuran)、イソロンギホラノン(isolongifolanone; 2,2,7,7-tetramethyltricyclo[6.2.1.01,6]undecan-5-one)、メチルセドリルケトン(methyl cedryl ketone; 1-[(1R,2R,5S,7R)-2,6,6,8-tetramethyl-9-tricyclo[5.3.1.01,5]undec-8-enyl]ethanone)、6-メチルキノリン(6-methyl quinoline; 6-methylquinoline)、ラズベリーケトン(raspberry ketone; 4-(4-hydroxyphenyl)butan-2-one)、p-tert-ブチルシクロヘキサノン(para-tert-butyl cyclohexanone; 4-(1,1-dimethylethyl)-cyclohexanone)、ケファリス(kephalis; 4-(1-ethoxyethenyl)-3,3,5,5-tetramethylcyclohexan-1-one)、アンバーコア(amber core(登録商標); 1-(2-tert-butylcyclohexyl)oxybutan-2-ol)、(R)-(+)-スクラレオリド((R)-(+)-sclareolide; (3aR,5aS,9aS,9bR)-3a,6,6,9a-tetramethyl-1,4,5,5a,7,8,9,9b-octahydrobenzo[e][1]benzofuran-2-one)、イソEスーパー(iso e super; 1-(2,3,8,8-tetramethyl-1,3,4,5,6,7-hexahydronaphthalen-2-yl)ethanone)、ボアザンブレンフォルテ(boisambrene(登録商標)forte; ethoxymethoxycyclododecane)、サンダルマイソールコア(sandalmysore core(登録商標); (E)-2-methyl-4-(2,2,3-trimethyl-1-cyclopent-3-enyl)but-2-en-1-ol)及びβ-ナフチルメチルケトン(beta-naphthyl methyl ketone; 1-naphthalen-2-ylethanone)からなる27種の分子群より選択される少なくとも1種であればよい。好ましくは、該非アゴニストは、該27種の分子群より選択される少なくとも10種の分子群である。より好ましくは、該非アゴニストは、該27種の分子群である。コンセンサスOR5A2の非アゴニストには、新たに見出されたコンセンサスOR5A2に結合しないか、コンセンサスOR5A2に結合するがコンセンサスOR5A2を活性化しない分子をも含み得る。新たな非アゴニストは、例えば、後記参考例に詳述する方法により見出すことができる。
【0036】
本発明において、「コンセンサスOR5A2のアゴニストの情報及び非アゴニストの情報」には、アゴニスト及び非アゴニストの化学構造の情報及び該アゴニスト及び非アゴニストがコンセンサスOR5A2のアゴニストであるか否かについての情報が包含される。
ここで、化学構造情報とは、数値化した化学構造情報を指し、具体的には、分子の化学構造を数値化した特徴量(分子記述子)をいう。分子記述子には、分子量、原子数、結合数、特定の部分構造の有無又はカウント数、化学構造のトポロジーなどがあり、特に限定されない。なかでも、分子の特定の部分構造の有無をバイナリベクトル(有無が1又は0に対応)として表現した分子記述子、あるいは分子の特定の部分構造の数をカウントベクトルで表現した分子記述子をフィンガープリントと称し、本発明の方法に好ましく用いられる。フィンガープリントとしては、Morganフィンガープリント、MACCS Keys、RDFkitフィンガープリントなどが挙げられ、それぞれ異なる部分構造に対応している各bitのバイナリデータ又はカウントデータが使用される。分子記述子は、例えば、分子についてSimplified Molecular Imput Line Entry Systems(SMILES)又はMOL fileで表現された化学構造に基づき、PythonのRDKit、mordredなどのライブラリを用いて計算することができる。特徴量は、平均が0、標準偏差が1となるようにオートスケーリングして標準化することが好ましい。
コンセンサスOR5A2のアゴニストであるか否かについての情報とは、具体的には、コンセンサスOR5A2のアゴニストである(正例、例えば1で表す)、又はコンセンサスOR5A2のアゴニストではない、すなわち非アゴニストである(負例、例えば-1で表す)ことを表す変数である。
【0037】
本発明の方法においては、コンセンサスOR5A2のアゴニストの情報及び非アゴニストの情報を訓練用データ(トレーニングデータ)として用いる。該訓練用データを機械学習に供することにより、好ましくは、コンセンサスOR5A2のアゴニストの化学構造情報及び非アゴニストの化学構造情報を説明変数とし、該アゴニスト及び非アゴニストがコンセンサスOR5A2のアゴニストであるか否かについての情報を目的変数とした機械学習により、試験物質がコンセンサスOR5A2のアゴニストであるか否かを予測するための予測モデル(例えば、判別式)を構築することができる。コンセンサスOR5A2は、種々のムスク系香料に応答することから、コンセンサスOR5A2のアゴニストであるということはムスク様の匂いを呈する分子であることを示し、コンセンサスOR5A2のアゴニストではない、すなわち非アゴニストであるということはムスク様の匂いを呈さない分子であることを示している。したがって、該予測モデルは、試験物質がムスク様の匂いを呈するか否かを予測するための予測モデルである。
【0038】
訓練用データとして目的変数の各クラスのデータ数が異なる不均衡データを扱う場合、データ数が少ないクラスに属するデータをオーバーサンプリングして、データ数の偏りを補正してもよい。オーバーサンプリングの手法としては、データ数が少ないクラスに属するデータをランダムに複製するover sampling technique、k近傍法のアルゴリズムを利用して近傍のデータを生成するsynthetic minority over-sampling technique(SMOTE)などの公知の手法を用いることができる。
【0039】
説明変数は、モデルの精度向上のため、目的変数との相関性を指標として、該目的変数と相関性の高いものを複数選択して用いることができる。選択にあたっては、公知の回帰モデルを使用することができ、回帰モデルとしては、ラッソ回帰(Least Absolute Shrinkage and Selection Operator;LASSO)、リッジ回帰(Ridge Regression;RR)、Stepwise LASSO、ランダムフォレスト(Random Forest;RF)などが挙げられる。選択基準は、適宜設定すればよく、例えば、相互相関係数0.9を基準として、それよりも高い説明変数を選択することができる。
【0040】
予測モデルの構築におけるアルゴリズムは、機械学習に用いるアルゴリズムなどの公知のものを利用することができる。機械学習アルゴリズムの例としては、これらに限定されるものではないが、ナイーブベイズ(Naive Bayes;NB)、サポートベクターマシン(Support Vector Machine;SVM)、ガウス過程(Gaussian Process;GP)、k近傍法(k-Nearest Neighbor;KNN)、潜在的ディリクレ配分法(Latent Dirichlet Allocation;LDA)、ロジスティック回帰(Logistic Regression;LR)、Extreme Gradient Boosting with Linear Booster(XGBL)、RFなどが挙げられる。このうち、本発明で用いるアルゴリズムとしては、NBが好ましい。
【0041】
機械学習では、構築したモデルの性能をホールドアウト検証、交差検証などにより検証することができる。交差検証の手法としては公知のものを利用することができ、例えば、k-分割交差検証(k-fold cross validation)、1つ抜き交差検証(leave-one-out cross validation;LOOCV)、層化k-分割交差検証(stratified k-fold cross validation)などが利用できる。本発明の方法では、データ数が比較的小さいため、LOOCVを用いることが好ましい。
【0042】
構築した予測モデルに検証用データ(テストデータ)を入力して予測値を算出し、該予測値が実測値と最も適合するモデル、例えば、該予測値の実測値に対する正解率(Accurary)が最も大きいモデル、縦軸に真陽性率を、横軸に偽陽性率をプロットしたROC曲線(Receiver Operating Characteristic curve;ROC)の曲線下領域面積(Area under curve;AUC)が最も大きいモデル、又は予測値が正のもののうち実測値が正であるものの割合を示す適合率(Precision)と実測値が正であるもののうち予測値が正であるものの割合を示す再現率(Recall)の調和平均であるF1スコア(F1 score)が最も大きいモデルを、最適モデルとして選択することができる。
【0043】
構築した予測モデルに基づいて、試験物質がコンセンサスOR5A2のアゴニストか否か、すなわち、試験物質がムスク様の匂いを呈するか否かを予測するためのカットオフ値を求めることができる。次いで、ムスク様の匂いを呈するか否かを調べたい試験物質の化学構造情報を該予測モデルに代入し、該予測モデルから得られた結果を該カットオフ値と比較することによって、該試験物質がムスク様の匂いを呈するか否かを予測することができる。試験物質の化学構造情報については、上記のコンセンサスOR5A2のアゴニスト又は非アゴニストの化学構造情報と同様のものが挙げられる。コンセンサスOR5A2のアゴニストである、すなわち、ムスク様の匂いを呈するとの評価を受けた試験物質は、ムスク様の匂いを呈する物質として選択することができる。
【0044】
以下に、コンセンサスOR5A2の上記20分子のアゴニストの情報及び上記27分子の非アゴニストの情報を訓練用データとして機械学習を行うことで、試験物質がムスク様の匂いを呈するか否かを予測する予測モデルを構築し、その性能を検証した結果を示す。
【0045】
(1)予測モデルの構築
コンセンサスOR5A2の上記20分子のアゴニスト及び上記27分子の非アゴニストの各分子について、化学構造情報として、count-based Morgan fingerprint(CMF) in radius 2によりCMFを計算した。算出された2048のCMF bitからコンセンサスOR5A2のアゴニストであるか否かとの目的変数と相関性の低いbitを除く特徴量選択を行い、14bitを選択した(
図4(A))。該14bit特徴量を標準化した上でNB、SVM、GP、KNN、LDA、LR、XGBL又はRMの8つのアルゴリズムによる機械学習に供し、試験物質がムスク様の匂いを呈するか否かを予測する予測モデルを構築した。CMFの計算にはPython RDKit libraryを、特徴量選択とデータ処理にはPython package scikit-learn、pandas及びnumpyを、機械学習にはPython package scikit-learnを利用した。
【0046】
(2)予測モデルの検証
構築した8つの予測モデルについて、LOOCVの手法でクロスバリデーションを行い、予測性能を検証した結果、いずれの予測モデルも高い正解率及びF1スコアを示した(表3)。いずれの予測モデルも、既存の特定の嗅覚受容体のアゴニスト及び非アゴニストの情報を用いる該特定の嗅覚受容体のアゴニストを予測するモデル(前記非特許文献3)や、匂い分子の構造とムスク様の匂いの有無の情報を用いたある分子のムスク様の匂いの有無を予測するモデル(非特許文献4)に比して性能の点で優れており、なかでも、NBモデルは、正解率が1.00、F1スコアが0.97であり、その性能の高さが顕著であった。該NBモデルを用い、モデル構築に関与していない匂いの質が公知の匂い分子について、その中からムスク香を呈する分子を判別できるかを検証したところ、該NBモデルは優れた成績を示した(
図3)。したがって、コンセンサスOR5A2のアゴニストの情報及び非アゴニストの情報に基づき構築した試験物質がムスク様の匂いを呈するか否かを予測する予測モデルの有用性が証明された。尚、該NBモデルでは、モデル構築に用いた14bit特徴量のうち、特に10bit特徴量(
図4(B))がモデルの意思決定において貢献度が高かった。よって、好ましくは、少なくとも該10bit特徴量を用いてモデルが構築される。
【実施例0047】
以下、実施例を示し、本発明をより具体的に説明する。
【0048】
参考例1 嗅覚受容体のコンセンサス化
コンセンサス嗅覚受容体を、特願2021-103675の実施例に記載の方法と同様にしてデザインした。具体的には、ヒトOR5A2(NP_001001954.1)のアミノ酸配列(配列番号1)をquery配列とし、NCBI BLASTにより検索された相同性上位の250遺伝子の中から、名称にOR5A2を含む109遺伝子を選択した。加えて異なる嗅覚受容体名称体系が用いられているMus musculusおよびRattus norvegicusの遺伝子に関しては、該検索結果上位250遺伝子に含まれていた遺伝子のうち、最も相同性が高い遺伝子を1つずつ選択した。これら111遺伝子をOR5A2オルソログとして特定した。これら111遺伝子にヒトOR5A2を加えた計112遺伝子のアミノ酸配列について以下に述べるようにアラインメント解析及びコンセンサスアミノ酸の特定を行った。
【0049】
特定した遺伝子群についてのアラインメント解析はClustalWを用いて行い、嗅覚受容体間で高度に保存されたアミノ酸もしくはアミノ酸モチーフを基準に、最適化するようにさらに調整した。アラインメント結果に基づき、Jalviewを用いてコンセンサス嗅覚受容体の設計を行った。該アラインメントにおいて、基準となるオリジナルのヒト嗅覚受容体アミノ酸配列の各アミノ酸位置に相当する位置に該基準アミノ酸配列のアミノ酸残基と異なり且つ出現頻度が50%以上のアミノ酸残基が1種存在する場合に該基準アミノ酸配列のアミノ酸残基を該アミノ酸残基に改変した。尚、基準となるオリジナルのヒト嗅覚受容体アミノ酸配列の各アミノ酸位置に相当する位置に該基準アミノ酸配列のアミノ酸残基と異なり且つ出現頻度が50%のアミノ酸残基が1種存在する場合であっても、該基準アミノ酸配列のアミノ酸残基の出現頻度も50%の場合には該基準アミノ酸配列のアミノ酸残基を改変しなかった。該アラインメントにおいて、基準となるオリジナルのヒト嗅覚受容体アミノ酸配列の各アミノ酸位置に相当する位置に出現頻度が40%以上で欠失が存在する場合に該基準アミノ酸配列のアミノ酸残基を欠失に改変した。設計における嗅覚受容体のトポロジーの確認は、TMHMM(Transmembrane Hidden Markov Model)を使用した。
デザインしたコンセンサスOR5A2(配列番号3)をコードするDNA配列は、そのアミノ酸配列に対応する塩基配列コドンをヒト培養細胞での発現用に最適化した上でDNA合成により獲得した(配列番号2)。この塩基配列の両末端にはEcoRI、XhoIサイトを付加しており、pME18Sベクター上のFlag-Rhoタグ配列の下流に作製したEcoRI、XhoIサイトへと組換えた。また、培養細胞内で作られた嗅覚受容体タンパク質を細胞膜上へ移行するヒトRTP1S(配列番号4)をコードする遺伝子(配列番号5)を、別のpME18SベクターのEcoRI、XhoIサイトへ組込み、pME18S-RTP1Sベクターを作製した。
【0050】
参考例2 嗅覚受容体の応答解析
1)嗅覚受容体発現細胞の作製
表1に示す組成の反応液を調製し、クリーンベンチ内で20分静置した後、96ウェルプレート(BD)の各ウェルに添加した。次いで、DMEM(Nacalai)で懸濁させたHEK293細胞を100μLずつ各ウェルに2×105細胞/cm2で播種し、37℃、5%CO2を保持したインキュベータ内で24時間培養した。対照として、嗅覚受容体を発現させない細胞(mock)を用意した。
【0051】
【0052】
2)ルシフェラーゼアッセイ
HEK293細胞に発現させた嗅覚受容体は、細胞内在性のGαsと共役しアデニル酸シクラーゼを活性化することで、細胞内cAMP量を増加させる。匂い応答測定には、細胞内cAMP量の増加をホタルルシフェラーゼ遺伝子(fluc2P-CRE-hygro)由来の発光値としてモニターするルシフェラーゼレポータージーンアッセイを用いた。また、CMVプロモータ下流にウミシイタケルシフェラーゼ遺伝子を融合させたもの(hRluc-CMV)を同時に遺伝子導入し、遺伝子導入効率や細胞数の誤差を補正する内部標準として用いた。
上記1)で作製した培養物から、培地を取り除き、新しい培地で調製した下記物質溶液(100μM)を75μL添加した。細胞をCO2インキュベータ内で4時間培養し、ルシフェラーゼ遺伝子を細胞内で十分に発現させた。ルシフェラーゼ活性は、Dual-GloTMluciferase assay system(Promega)を用いて、製品の操作マニュアルに従って測定した。96ウェルプレートの各ウェルにおいて、匂い刺激により誘導されたホタルルシフェラーゼ由来の発光値をウミシイタケルシフェラーゼ由来の発光値で除した値をシグナルとして算出し解析に用いた。各トランスフェクション条件でのシグナルに対して、刺激を行わない条件のシグナルを0%、30μMホルスコリンで刺激した時のシグナルを100%として基準化を行い、Response(%)として解析に用いた。
【0053】
本参考例で用いた物質#1~47を下記表2-1~2-3に示す。#1~18がムスク系香料、#20がパブリックデータベース(The Good Scents Company)にムスクの香調を呈すると登録されている香料、#21~47が非ムスク系香料である。
【0054】
【0055】
【0056】
【0057】
3)結果
非特許文献2と同様に、オリジナルのOR5A2の配列では応答は検出されないことが確認された。しかし、コンセンサスOR5A2の配列の使用により、#1~20の香料に対する明確な応答を検出することが可能となった(
図1)。一方、コンセンサスOR5A2は、#21~47の香料には応答性が認められなかった(
図1)。
よって、#1~20はコンセンサスOR5A2のアゴニストであり、#21~47はコンセンサスOR5A2の非アゴニストであることが明らかとなった。
【0058】
実施例1 機械学習モデルの構築とバリデーション
1)方法
コンセンサスOR5A2に対して同定した20個のアゴニスト(表2の#1~20、#20については2,2,6,6,7,8,8-heptamethyl-3,3a,4,5,5a,7,8a,8b-octahydrocyclopenta[g][1]benzofuranを使用)と27個の非アゴニスト(表2の#21~47)を由来とする情報を機械学習モデルの学習とクロスバリデーションに使用した。非アゴニストに比べてアゴニストのデータ数が少ない課題に対して、アゴニストデータ数をランダムに複製するover sampling techniqueを実施した。アゴニストと非アゴニストの構造情報として、count-based Morgan fingerprint(CMF) in radius 2を利用した。CMFの計算はRDKit library(version 2020.03.2)で行い、複数の部分構造が共通のbitに割り当てられてしまうbit衝突問題が生じていないことを手作業で確認した。全体として、2048bitが算出された。ここから、コンセンサスOR5A2のアゴニストであるか否かという目的変数と相関性の低いbitを除く特徴量選択を行うべく、4つの回帰モデル、ラッソ回帰(Least Absolute Shrinkage and Selection Operator;LASSO)、リッジ回帰(Ridge Regression;RR)、Stepwise LASSO、ランダムフォレスト(Random Forest;RF)を用いて相互相関係数0.9を基準に選択を行った。結果として得られた14のbit特徴量(
図4(A))を、平均が0、標準偏差が1になるように標準化を行い、学習モデルに適用した。全てのデータ処理と特徴量選択はオープンソースPython package scikit-learn(version 0.23.2)、pandas(version 1.2.1)、およびnumpy(version 1.19.5)を用いて行った。特定の化合物がコンセンサスOR5A2のアゴニストとなるか否かを判別する機械学習モデルを構築するために、広く用いられている線形・非線形の判別モデル、ナイーブベイズ(Naive Bayes;NB)、サポートベクターマシン(Support Vector Machine;SVM)、ガウス過程(Gaussian Process;GP)、k近傍法(k-Nearest Neighbor;KNN)、潜在的ディリクレ配分法(Latent Dirichlet Allocation;LDA)、ロジスティック回帰(Logistic Regression;LR)、Extreme Gradient Boosting with Linear Booster(XGBL)、RFの8種類を使用した。クロスバリデーションの手法は、leave-one-out cross validation(LOOCV)を選択した。機械学習モデルはいずれもPython package scikit-learn(version 0.23.2)を用いて行った。いずれの学習モデルについても、ハイパーパラメータセッティングはscikit-learn package(version 0.23.2)でのデフォルトに設定した。
【0059】
2)結果と考察
8つの機械学習アルゴリズムについて、学習を行い、クロスバリデーションの成績を比較した(表3)結果、8つのモデル全てが高い成績を示したが、なかでもNBモデルが最も高い成績を示した。
【0060】
【0061】
次に、NBモデルがより幅広いムスク系香料の判別に有効であるかを検証するために、パブリックデータベース(The Good Scents Company)に登録される匂い物質について予測を行った。このデータベースには構造記述子(the simplified molecular input line entry system(smiles))と匂いの記述子が記載された3924の匂い物質が登録されており、その中にはムスク香を呈するとされるものが79含まれる。一般に機械学習モデルは、学習に使用した物質と構造的に類似した物質について、その判別能力を発揮する。そのため、これら3924物質の中から、Tanimoto Similarity(TS)scoreが0.5を超える244物質だけを抽出した。さらに、学習に使用した20物質を除いた224物質について、その中に含まれる27個のムスク系香料を予測できるか否かを検証した(
図2)。その結果、
図3(A)、(B)に示す通り、開発したNBモデルは優れた成績を示した。
【0062】
SHapley Additive exPlanations(SHAP)およびLogistic Regression Coefficient(LRC) analysisを行うことで、当該NBモデルがどのような意思決定を行っているのかを調べた。その結果、学習モデル構築に用いた14bit特徴量の意思決定への貢献度の高さがSHAPから明らかになり、それら記述子がいずれも目的変数と正の相関を示すことをLRC analysisから明らかにした(
図4(A))。モデル構築に用いた14bit特徴量のうち、特に10bit特徴量(
図4(A)、(B))がモデルの意思決定において貢献度が高かった。
【0063】
本発明の機械学習モデルは本来、ある物質がコンセンサスOR5A2のアゴニストになるか否かを予測するモデルである。そうした観点からも本モデルは優れていることがうかがえる。特定の嗅覚受容体のアゴニストを予測する機械学習モデルは報告がある(前記非特許文献3)。しかし、クロスバリデーションの際のF1スコアを比較すると、先行知見では0.8未満であるのに対して、本実施例のNBモデルは0.97のF1スコアを記録した。
また、先行知見としてムスク香料を予測する機械学習モデルの報告はあった(前記非特許文献4)。その機械学習モデルはF1スコアとして0.7付近の値を示しており、パフォーマンスの低さが課題とされた。本発明のNBモデルは0.97のF1スコアを記録し、ある物質がムスクの香りをもつか否かを予測する機械学習モデルとして優れたパフォーマンスを証明した。