(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025078464
(43)【公開日】2025-05-20
(54)【発明の名称】予測モデルの学習方法
(51)【国際特許分類】
G06N 20/20 20190101AFI20250513BHJP
【FI】
G06N20/20
【審査請求】未請求
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2023191058
(22)【出願日】2023-11-08
(71)【出願人】
【識別番号】000113470
【氏名又は名称】ポーラ化成工業株式会社
(74)【代理人】
【識別番号】110000800
【氏名又は名称】デロイトトーマツ弁理士法人
(72)【発明者】
【氏名】大久保 堅三郎
(72)【発明者】
【氏名】荒井 俊博
(72)【発明者】
【氏名】藤山 一平
(72)【発明者】
【氏名】松原 恵理子
(72)【発明者】
【氏名】高原 佳奈
(72)【発明者】
【氏名】サティヤナンタヴェル マユリ
(72)【発明者】
【氏名】長谷 武志
(72)【発明者】
【氏名】松岡 由季子
(72)【発明者】
【氏名】谷内 江綾子
(57)【要約】
【課題】予測モデルにより化粧品の人体へのリスクの高低を予測する際の予測精度を向上させることができる予測モデルの学習方法を提供する。
【解決手段】情報処理装置1では、複数の化粧品の処方における原料カテゴリ毎の総配合量を特徴量とし、複数の化粧品の処方における人体へのリスクの高低を目的変数とする未処理データに対して、高相関性チェック処理及びsparse性チェック処理を施すことにより、学習データが取得され、学習データを用いて、Balanced Random Forestなどにより、分類モデルタイプである予測モデルの学習が実行される。
【選択図】
図3
【特許請求の範囲】
【請求項1】
複数の化粧品を使用した際の皮膚への刺激性の有無を含む人体へのリスクの高低を予測する予測モデルの学習を情報処理装置によって実行する予測モデルの学習方法であって、
前記情報処理装置は、
前記複数の化粧品の処方における原料の配合状態を表す原料配合データを特徴量とし、前記複数の化粧品の処方における前記リスクの高低を目的変数とする未処理データに対して所定処理を施すことにより、学習データを取得する学習データ取得ステップと、
前記学習データを用いて、所定のアンサンブル学習法、One-Class Support Vector Machine、Local Outlier Factor及びIsolation Forestのいずれか1つにより、分類モデルである前記予測モデルの学習を実行する学習ステップと、
を実行することを特徴とする予測モデルの学習方法。
【請求項2】
請求項1に記載の予測モデルの学習方法において、
前記所定処理は、前記原料配合データのうち、値0であるデータが前記複数の化粧品の処方の全てにおいて所定割合以上含まれている場合には、当該値0であるデータを前記未処理データから削除する第1削除処理を含むことを特徴とする予測モデルの学習方法。
【請求項3】
請求項1又は2に記載の予測モデルの学習方法において、
前記所定処理は、前記原料配合データ間の相関係数が所定値以上の複数のデータが存在する場合には、当該複数のデータのうちの一つ以外のデータを前記未処理データから削除する第2削除処理をさらに含むことを特徴とする予測モデルの学習方法。
【請求項4】
請求項1又は2に記載の予測モデルの学習方法において、
前記所定のアンサンブル学習法は、Balanced Random Forestを含むことを特徴とする予測モデルの学習方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、化粧品の人体へのリスクの高低を予測する予測モデルの学習を実行する予測モデルの学習方法に関する。
【背景技術】
【0002】
化粧品の原料配合を決定する決定方法として、特許文献1に記載されたものが知られている。この決定方法では、教師データを用いた教師あり機械学習により、化粧品の原料の原料分類毎の配合比率を特徴量とし、揮発後の残存質量などの評価項目を目的変数とする予測モデル(機械学習モデル)の学習が実行される。そして、この予測モデルを用いて、揮発後の残存質量などの化粧品の評価項目が判定(予測)され、その判定結果に基づいて、化粧品の原料配合が決定される。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
近年、化粧品においては、使用した際の皮膚への刺激性の有無などの人体へのリスクの高低を予測することが望まれている。例えば、上記従来の予測モデルを用いて、化粧品の評価項目に代えて化粧品の人体へのリスクの高低を予測した場合、これを適切に予測できないという問題がある。すなわち、化粧品の場合、その原料数が非常に多い関係上、リスクの高い化粧品の原料データと、リスクの低い化粧品の原料データとをバランスよく取得することが困難である。したがって、そのような原料データを用いて、予測モデルの学習を実行した場合、予測モデルの学習において過学習が発生したり、学習不足が発生したりするおそれがある。
【0005】
本発明は、上記課題を解決するためになされたもので、予測モデルにより化粧品の人体へのリスクの高低を予測する際の予測精度を向上させることができる予測モデルの学習方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、請求項1に係る発明は、複数の化粧品使用した際の皮膚への刺激性の有無を含む人体へのリスクの高低を予測する予測モデルの学習を情報処理装置によって実行する予測モデルの学習方法であって、情報処理装置は、複数の化粧品の処方における原料の配合状態を表す原料配合データを特徴量とし、複数の化粧品の処方におけるリスクの高低を目的変数とする未処理データに対して所定処理を施すことにより、学習データを取得する学習データ取得ステップと、学習データを用いて、所定のアンサンブル学習法、One-Class Support Vector Machine、Local Outlier Factor及びIsolation Forestのいずれか1つにより、分類モデルである予測モデルの学習を実行する学習ステップと、を実行することを特徴とする。
【0007】
この予測モデルの学習方法によれば、複数の化粧品の処方における原料の配合状態を表す原料配合データを特徴量とし、複数の化粧品の処方におけるリスクの高低を目的変数とする未処理データに対して所定処理を施すことにより、学習データが取得され、そのような学習データを用いて、所定のアンサンブル学習法、One-Class Support Vector Machine、Local Outlier Factor及びIsolation Forestのいずれか1つにより、分類モデルである予測モデルの学習が実行される。
【0008】
化粧品の処方データの場合、幅のある人体へのリスクの数値データを表現できる状態でデータを蓄積することは困難であり、それに起因して、化粧品を使用した際の人体へのリスクの高低を予測する予測モデルの学習において、回帰モデルタイプの予測モデルを用いた場合、過学習が発生したり、学習不足が発生したりするおそれがある。これに対して、本発明のようにリスクの高低を目的変数とする分類モデルである予測モデルを用いた場合、目的変数が2値であることに起因して、回帰モデルタイプの予測モデルを用いた場合と比べて、予測モデルの学習において過学習が発生したり、学習不足が発生したりするのを抑制することができる。これに加えて、分類モデルの学習において、所定のアンサンブル学習法を用いることにより、単一モデルの学習を実行する学習法と比べて、過学習及び学習不足の発生を抑制することができる。
【0009】
また、異常検知アルゴリズムであるOne-Class Support Vector Machine、Local Outlier Factor及びIsolation Forestは、偏りが非常に大きい2値の学習データに対して、多数の正常データの特性を精緻に学習することにより、異常データを適切に判別できるという特性を有している。したがって、本発明のように、One-Class Support Vector Machine、Local Outlier Factor及びIsolation Forestのいずれかを予測モデルの学習で用いた場合、上記の特性により、学習データが化粧品の処方データのようなリスクの低いデータとリスクの高いデータが不均衡な状態の不均衡データになっているときでも予測モデルの予測精度を向上させることができる。なお、本明細書における「予測モデルの学習」は、予測モデルのモデルパラメータを学習することを意味する。
【0010】
本発明において、所定処理は、原料配合データのうち、値0であるデータが複数の化粧品の処方の全てにおいて所定割合以上含まれている場合には、値0であるデータを未処理データから削除する第1削除処理を含むことが好ましい。
【0011】
この予測モデルの学習方法によれば、未処理データから学習データが取得される際、第1削除処理が施されることにより、原料配合データのうち、値0であるデータが複数の化粧品の処方の全てにおいて所定割合以上含まれている場合には、この値0であるデータが未処理データから削除される。それにより、学習に適した情報を備えた学習データを取得することができ、学習データを予測モデルの予測精度を向上可能なものとすることができる。
【0012】
本発明において、所定処理は、原料配合データ間の相関係数が所定値以上の複数のデータが存在する場合には、複数のデータのうちの一つ以外のデータを未処理データから削除する第2削除処理を含むことを特徴とする。
【0013】
この予測モデルの学習方法によれば、学習データが取得される際、原料配合データ間の相関係数が所定値以上の複数のデータが存在する場合には、複数のデータのうちの1つのみが特徴量として取得されることにより、学習時にノイズとなる高相関のデータを削除することができ、予測モデルの予測精度をさらに向上させることができる。
【0014】
本発明において、所定のアンサンブル学習法は、Balanced Random Forestを含むことが好ましい。
【0015】
化粧品の場合、使用した際の人体へのリスクの高低及び国際規制を考慮して処方を設計する必要があり、それに起因して、多くの化粧品の処方データにおいてリスクの低い処方設計がなされている。そのため、必然的に、蓄積される化粧品の処方データはリスクの低いデータとリスクの高いデータが不均衡な状態の不均衡データになってしまう。これに対して、本発明のように、学習法として、Balanced Random Forest を用いた場合、リスクの低い学習データとリスクの高い学習データを同数にサンプリングした状態で、予測モデルが構築されることになる。それより、一般的なRandom Forest を用いた場合と比べて、過学習が発生したり、学習不足が発生したりするのをさらに抑制することができ、予測モデルの学習精度をさらに向上させることができる。
【図面の簡単な説明】
【0016】
【
図1】本発明の一実施形態に係る予測モデルの学習方法を実行する情報処理装置を示す図である。
【
図3】学習データの作成処理を示すフローチャートである。
【
図6】学習済みの予測モデルの予測精度を示す図である。
【発明を実施するための形態】
【0017】
以下、図面を参照しながら、本発明の一実施形態に係る予測モデルの学習方法について説明する。本実施形態では、後述する学習手法により、複数の化粧品を使用した際の皮膚への刺激性の有無などの人体へのリスクの高低を予測する予測モデル(分類モデル)の学習を実行するものである。
【0018】
本実施形態の学習方法は、具体的には、
図1に示す情報処理装置1によって実行される。この情報処理装置1は、パーソナルコンピュータタイプのものであり、ディスプレイ1a、装置本体1b及び入力インターフェース1cなどを備えている。装置本体1bは、HDDなどのストレージ、プロセッサ及びメモリ(RAM、E2PROM、ROMなど)などを備えている(いずれも図示せず)。
【0019】
この装置本体1bのメモリ内には、
図2に示す学習データと、これらの学習データの元になる未処理データ(図示せず)とが記憶されている。ここで、未処理データは、本出願人の実験により取得されたものであり、学習データは、未処理データに対して、後述するチェック処理を施すことによって作成されたものである。
【0020】
図2に示す学習データは、n個(nは数百)の化粧品の処方データにおけるリスクの高低(すなわちリスクの高低)を表すデータであり、特徴量として、m個(mは数十)の原料カテゴリ毎の総配合量(
図2では「総量」と表記)を含むように構成されている。同図に示すように、原料カテゴリとしては、保湿成分、油及び界面活性剤などが含まれている。なお、本実施形態では、原料カテゴリ毎の総配合量が原料配合データに相当する。
【0021】
さらに、学習データでは、目的変数(ラベル)として、5種類のリスク1~5に対して値1及び値0がそれぞれ設定されている。この場合、値1は、5種類のリスク1~5のいずれかが高いことを示しており、値0は、5種類のリスク1~5のいずれかが低いことを示している。
【0022】
また、リスク1は、眼刺激性を表しており、リスク2は、化粧品による皮膚一次刺激性を表しており、リスク3は、化粧品使用時の他覚症状を表している。さらに、リスク4は、化粧品使用時の自覚症状を表しており、リスク5は、化粧品使用時の軽微な肌トラブルを表している。なお、本実施形態では、リスク1~5がリスクに相当する。
【0023】
一方、この装置本体1bのストレージには、後述する学習データ取得処理などを実行するためのアプリケーションソフトがインストールされている。また、入力インターフェース1cは、情報処理装置1を操作するためのキーボード及びマウスなどで構成されている。
【0024】
次に、
図3を参照しながら、学習データ取得処理について説明する。この処理は、以下に述べるように、未処理データから学習データを取得するものである。
【0025】
図3に示すように、この学習データ取得処理では、まず、未処理データの読出処理が実行される(
図3/STEP1)。この読出処理では、情報処理装置1のメモリ内に記憶されている未処理データ(図示せず)が読み出される。この未処理データには、化粧品の多数の処方の原料配合データとして、原料カテゴリ毎の総配合量が含まれている。
【0026】
次いで、高相関性チェック処理が実行される(
図3/STEP2)。この高相関性チェック処理では、原料配合データ間の相関係数が算出される。そして、原料配合データ間の相関係数が所定値(例えば0.99)以上の場合には、1つの原料配合データが残され、それ以外の原料配合データが未処理データから削除される。これは、多重共線性の発生を回避することで、予測モデルの予測精度を向上させるためである。
【0027】
次に、sparse性チェック処理が実行される(
図3/STEP3)。このsparse性チェック処理では、上記の高相関性チェック処理を実行済みの未処理データにおいて、値0である原料配合データが全処方データにおいて所定割合R以上含まれている場合には、当該原料配合データが削除される。この場合、所定割合Rは、80~100%の間の適切な値に設定される。
【0028】
以上のように、高相関性チェック処理及びsparse性チェック処理が未処理データに対して実行されることにより、前述した
図2の学習データが取得される。そして、以上のように取得された学習データが、情報処理装置1のメモリ内に記憶される(
図3/STEP4)。
【0029】
なお、本実施形態では、高相関性チェック処理及びsparse性チェック処理が所定処理及び学習データ取得ステップに相当し、高相関性チェック処理が第2削除処理に相当し、sparse性チェック処理が第1削除処理に相当する。
【0030】
次に、
図4を参照しながら、第1学習処理について説明する。この第1学習処理は、以下に述べるように、前述した学習データを用いて、Balanced Random Forestにより、予測モデル(分類モデル)のモデルパラメータの学習を実行するものである。
【0031】
図4に示すように、この第1学習処理では、まず、データ設定処理が実行される(
図4/STEP10)。このデータ設定処理では、情報処理装置1のメモリに記憶されている学習データにおいて、前述したリスク2~4、後述するリスク2_3,4_5及び後述する総リスクの各々において、リスクの高い化粧品の処方データの数と、リスクの低い化粧品の処方データの数が同一になるように、学習データが設定される。
【0032】
ここで、情報処理装置1のメモリに記憶されている学習データにおいては、リスクの高い化粧品の処方データの数の方が、リスクの低い化粧品の処方データの数よりも少ない関係上、リスクの低い化粧品の処方データを間引きすることにより、両者の数が同一になるように、学習データが設定される。
【0033】
次いで、モデルパラメータ学習処理が実行される(
図4/STEP11)。このモデルパラメータ学習処理では、Balanced Random Forestにより、予測モデルのモデルパラメータの学習が実行される。具体的には、上記のように設定された学習データからランダムにサンプリングしたデータを使用し、決定木の成長(分岐)を繰り返し実行することにより、複数の学習器(予測モデル)が構築される。そして、以上の決定木の構築を繰り返し実行することにより、予測モデルのモデルパラメータの学習が実行される。
【0034】
次に、
図5を参照しながら、第2学習処理について説明する。この第2学習処理は、以下に述べるように、前述した学習データを用いて、One-Class Support Vector Machine、Local Outlier Factor及びIsolation Forestにより、予測モデル(分類モデル)のモデルパラメータの学習を実行するものである。
【0035】
この第2学習処理では、モデルパラメータ学習処理が実行される(
図5/STEP20)。このモデルパラメータ学習処理では、前述した学習データを用いて、One-Class Support Vector Machineにより、予測モデルのモデルパラメータの学習が実行される。
【0036】
さらに、前述した学習データを用いて、Local Outlier Factorにより、予測モデルのモデルパラメータの学習が実行される。また、前述した学習データを用いて、Isolation Forestにより、予測モデルのモデルパラメータの学習が実行される。
【0037】
なお、本実施形態では、STEP11,20のモデルパラメータ学習処理が学習ステップに相当する。
【0038】
次に、
図5を参照しながら、以上のように、学習処理を実行することにより、モデルパラメータの学習が終了した予測モデル(
図5では「学習モデル」と表記)の予測精度について説明する。同図のデータは、Balanced Random Forest、One-Class Support Vector Machine(
図5ではOne-Class SVMと表記)、Local Outlier Factor及びIsolation Forestで学習した予測モデルによって、各リスクを予測した際に、最良の予測精度を示した予測モデルのデータである。
【0039】
また、これらの予測精度は、具体的には、数百の処方データを用いて、5-Fold cross-validation により検証した結果である。すなわち、数百の処方データを5つのグループに分割したうちのいずれか1つのグループのデータをテストデータとし、残りのグループのデータを学習データとして、予測モデルの予測精度を導出する作業を実施し、この作業をテストデータを入れ替えて計5回実施した後、5個の予測精度の平均化することにより、予測モデルの予測精度が導出されている。
【0040】
さらに、リスク2_3のデータは、リスク2のデータ数が少ない関係上、リスク2とリスク3のデータを併合したデータの検証結果を表しており、リスク4_5のデータは、リスク5のデータ数が少ない関係上、リスク4とリスク5のデータを併合したデータの検証結果を表している。さらに、総合リスクのデータは、リスク1~5のデータを併合したデータの検証結果を表している。
【0041】
図5を参照すると明らかなように、すべてのデータにおいて、再現率(Recall)及び正解率(Accuracy)が良好であることが判る。さらに、リスク1及び総合リスクのデータの場合、再現率(Recall)及び正解率(Accuracy)に加えて、Kappa係数(Kappa Coefficient)が良好であることが判る。
【0042】
以上のように、本実施形態の予測モデルの学習方法によれば、未処理データから学習データが取得される際、高相関性チェック処理及びsparse性チェック処理が実行される。この高相関性チェック処理では、原料配合データ間の相関係数が算出され、複数の原料配合データの相関係数が所定値(例えば0.99)以上の場合には、1つの原料配合データが残され、それ以外の原料配合データが未処理データから削除される。それにより、学習時にノイズとなる高相関のデータを学習データから削除することができ、学習データを学習に適した情報を備えたものとして作成することができる。
【0043】
また、sparse性チェック処理では、原料配合データが値0である原料カテゴリのデータが複数の化粧品の処方の全てにおいて所定割合R以上含まれている場合には、この原料カテゴリのデータが未処理データから削除される。それにより、学習データを、さらに学習に適した情報を備えたものとして作成することができる。
【0044】
さらに、以上のような学習データを用いて、Balanced Random Forest、One-Class Support Vector Machine、Local Outlier Factor及びIsolation Forestの学習法により、分類モデルタイプの予測モデルの学習が実行される。このように、学習法として、Balanced Random Forest を用いた場合、リスクの低いデータとリスクの高い学習データとを同数に設定した状態で、予測モデルが構築されることになる。それより、不均衡データとなりやすい化粧品の処方データを用いた場合でも、一般的なRandom Forest の場合と比べて、過学習が発生したり、学習不足が発生したりするのをさらに抑制することができ、学習精度をさらに向上させることができる。
【0045】
また、学習法として、One-Class Support Vector Machine、Local Outlier Factor及びIsolation Forestのいずれかを用いた場合、これらの前述した特性により、不均衡データとなりやすい化粧品の処方データを用いた場合でも、過学習が発生したり、学習不足が発生したりするのをさらに抑制することができる。その結果、予測モデルの学習精度を向上させることができる。
【0046】
なお、実施形態は、複数の化粧品の処方における原料配合データとして、原料カテゴリ毎の総配合量を用いた例であるが、これに代えて、原料配合データとして、原料カテゴリ毎の原料配合率又は各原料の配合率などを用いてもよい。
【0047】
また、実施形態は、化粧品の人体へのリスクとして、リスク1~5を用いた例であるが、これらをさらに症状別に細分化したリスク項目等を用いてもよい。
【0048】
さらに、実施形態は、情報処理装置として、パーソナルコンピュータタイプのものを用いた例であるが、本発明の情報処理装置は、これに限らず、予測モデルの学習を実行可能なものであればよい。例えば、情報処理装置として、1つのサーバ又は複数のサーバを組み合わせて用いてもよい。さらに、情報処理装置として、複数のパーソナルコンピュータを組み合わせて用いてもよく、パーソナルコンピュータとサーバを組み合わせて用いてもよい。
【0049】
また、実施形態は、
図4の学習データ取得処理において、高相関性チェック処理及びsparse性チェック処理の双方を実行した例であるが、これに代えて、高相関性チェック処理及びsparse性チェック処理の一方のみを実行することにより、学習データを取得するように構成してもよい。
【0050】
さらに、実施形態は、所定のアンサンブル学習法として、Balanced Random Forestを用いた例であるが、これに代えて又はこれに加えて、所定のアンサンブル学習法として、XGBoostを用いてよい。また、所定のアンサンブル学習法として、Random Forest、勾配ブースティング、AdaBoost、LightGBM、CatBoost 又は Stacked Ensemble などを用いてもよい。
【符号の説明】
【0051】
1 情報処理装置
R 所定割合