(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025005511
(43)【公開日】2025-01-17
(54)【発明の名称】情報処理システム、情報処理方法及びプログラム
(51)【国際特許分類】
G06Q 10/04 20230101AFI20250109BHJP
G06F 40/216 20200101ALI20250109BHJP
【FI】
G06Q10/04
G06F40/216
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023105699
(22)【出願日】2023-06-28
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.PYTHON
(71)【出願人】
【識別番号】000000918
【氏名又は名称】花王株式会社
(74)【代理人】
【識別番号】110003339
【氏名又は名称】弁理士法人南青山国際特許事務所
(72)【発明者】
【氏名】津田 弘貴
【テーマコード(参考)】
5L010
5L049
【Fターム(参考)】
5L010AA04
5L049AA04
(57)【要約】
【課題】化粧品等の製品に対して消費者が感じる特定の感覚に寄与する当該製品の科学的特性を明らかにすること。
【解決手段】情報処理システムは、取得部と制御部とを有する。前記取得部は、消費者が身体または衣類に使用する複数の製品に対して消費者が感じた感覚について前記消費者が自由記述した文章を示す文章データと、前記製品の所定の科学的特性に関する計測結果を示す計測データとを取得する。前記制御部は、前記計測データを前記製品ごとに数値または画像に変換した計測変換データと、前記文章データから抽出した語句を前記製品ごとに数値に変換した語句変換データとを生成する。さらに制御部は、前記計測変換データから前記語句変換データを予測する学習モデルを生成し、前記計測変換データのうち、前記学習モデルによる前記語句変換データの予測における寄与度の高いデータを解析することで、前記感覚に寄与する前記製品の科学的特性を推定する。
【選択図】
図4
【特許請求の範囲】
【請求項1】
消費者が身体または衣類に使用する複数の製品に対して消費者が感じた感覚について前記消費者が自由記述した文章を示す文章データと、前記製品の所定の科学的特性に関する計測結果を示す計測データとを取得する取得部と、
前記計測データを前記製品ごとに数値または画像に変換した計測変換データと、前記文章データから抽出した語句を前記製品ごとに数値に変換した語句変換データとを生成し、前記計測変換データから前記語句変換データを予測する学習モデルを生成し、前記計測変換データのうち、前記学習モデルによる前記語句変換データの予測における寄与度の高いデータを解析することで、前記感覚に寄与する前記製品の科学的特性を推定する制御部と
を具備する情報処理システム。
【請求項2】
請求項1に記載の情報処理システムであって、
前記取得部は、前記文章データに対応する前記製品の評価値を示す評価値データを取得し、
前記制御部は、前記文章データから、前記評価値との相関が高い語句を抽出する
情報処理システム。
【請求項3】
請求項1または2に記載の情報処理システムであって、
前記制御部は、前記文章データから、連続する2つ以上の単語を前記語句として抽出する
情報処理システム。
【請求項4】
請求項1乃至3のいずれかに記載の情報処理システムであって、
前記制御部は、前記製品を示す情報と、前記抽出された語句を示す情報と、前記推定された科学的特性を示す情報とを対応付けて記憶する
情報処理システム。
【請求項5】
消費者が身体または衣類に使用する複数の製品に対して消費者が感じた感覚について前記消費者が自由記述した文章を示す文章データと、前記製品の所定の科学的特性に関する計測結果を示す計測データとを取得し、
前記計測データを前記製品ごとに数値または画像に変換した計測変換データと、前記文章データから抽出した語句を前記製品ごとに数値に変換した語句変換データとを生成し、
前記計測変換データから前記語句変換データを予測する学習モデルを生成し、
前記計測変換データのうち、前記学習モデルによる前記語句変換データの予測における寄与度の高いデータを解析することで、前記感覚に寄与する前記製品の科学的特性を推定する
情報処理方法。
【請求項6】
消費者が身体または衣類に使用する複数の製品に対して消費者が感じた感覚について前記消費者が自由記述した文章を示す文章データと、前記製品の所定の科学的特性に関する計測結果を示す計測データとを取得するステップと、
前記計測データを前記製品ごとに数値または画像に変換した計測変換データと、前記文章データから抽出した語句を前記製品ごとに数値に変換した語句変換データとを生成するステップと、
前記計測変換データから前記語句変換データを予測する学習モデルを生成するステップと、
前記計測変換データのうち、前記学習モデルによる前記語句変換データの予測における寄与度の高いデータを解析することで、前記感覚に寄与する前記製品の科学的特性を推定するステップと
を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えば化粧品または医薬部外品等の消費者が身体に使用する製品、あるいは衣類に使用する製品に対して消費者が感じる感覚に寄与する科学的特性を推定するための情報処理を実行可能な情報処理システム、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
従来から、例えば化粧品等の製品のユーザによる使用感を推測するためのシステムが知られている。例えば下記特許文献1には、皮膚に塗布する化粧品や医薬品(皮膚外用剤)等の感性評価対象物における使用性等の感性評価において、ニューラルネットワークを用いて、感性評価対象物の基剤物性情報等からユーザが感性評価対象物を使用した時の感性を推測するシステムが開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記特許文献1の技術では、化粧品等の製品の基剤物性情報等から当該製品を使用した時の消費者の感性を推測することはできるものの、逆に、当該感性をユーザに感じさせる要因となった物質や物性等の科学的特性を推測することはできない。
【0005】
本発明の課題は、化粧品等の製品に対して消費者が感じる特定の感覚に寄与する当該製品の科学的特性を明らかにすることが可能な情報処理システム、情報処理方法及びプログラムを提供することに関する。
【課題を解決するための手段】
【0006】
本発明の一形態に係る情報処理システムは、取得部と制御部とを有する。前記取得部は、消費者が身体または衣類に使用する複数の製品に対して消費者が感じた感覚について前記消費者が自由記述した文章を示す文章データと、前記製品の所定の科学的特性に関する計測結果を示す計測データとを取得する。前記制御部は、前記計測データを前記製品ごとに数値または画像に変換した計測変換データと、前記文章データから抽出した語句を前記製品ごとに数値に変換した語句変換データとを生成する。さらに制御部は、前記計測変換データから前記語句変換データを予測する学習モデルを生成し、前記計測変換データのうち、前記学習モデルによる前記語句変換データの予測における寄与度の高いデータを解析することで、前記感覚に寄与する前記製品の科学的特性を推定する。
【0007】
本発明の他の形態に係る情報処理方法は、
消費者が身体または衣類に使用する複数の製品に対して消費者が感じた感覚について前記消費者が自由記述した文章を示す文章データと、前記製品の所定の科学的特性に関する計測結果を示す計測データとを取得し、
前記計測データを前記製品ごとに数値または画像に変換した計測変換データと、前記文章データから抽出した語句を前記製品ごとに数値に変換した語句変換データとを生成し、
前記計測変換データから前記語句変換データを予測する学習モデルを生成し、
前記計測変換データのうち、前記学習モデルによる前記語句変換データの予測における寄与度の高いデータを解析することで、前記感覚に寄与する前記製品の科学的特性を推定することを含む。
【0008】
本発明の他の形態に係るプログラムは、情報処理装置に、
消費者が身体または衣類に使用する複数の製品に対して消費者が感じた感覚について前記消費者が自由記述した文章を示す文章データと、前記製品の所定の科学的特性に関する計測結果を示す計測データとを取得するステップと、
前記計測データを前記製品ごとに数値または画像に変換した計測変換データと、前記文章データから抽出した語句を前記製品ごとに数値に変換した語句変換データとを生成するステップと、
前記計測変換データから前記語句変換データを予測する学習モデルを生成するステップと、
前記計測変換データのうち、前記学習モデルによる前記語句変換データの予測における寄与度の高いデータを解析することで、前記感覚に寄与する前記製品の科学的特性を推定するステップと、を実行させる。
【発明の効果】
【0009】
本発明の情報処理システムによれば、化粧品等の製品に対して消費者が感じる特定の感覚に寄与する当該製品の科学的特性を明らかにすることが可能である。
【図面の簡単な説明】
【0010】
【
図1】本発明の一実施形態に係る化粧品情報提供システムの構成を示した図である。
【
図2】本発明の一実施形態に係る製品特性解析サーバのハードウェア構成を示した図である。
【
図3】本発明の一実施形態に係る製品特性解析サーバが有するデータベースの構成を示した図である。
【
図4】本発明の一実施形態に係る製品特性解析サーバによる、製品の感覚に寄与する科学的特性の特定処理の流れを示したフローチャートである。
【
図5】本発明の一実施形態における複数の製品の評価値と口コミにおけるあるワードの出現率との関係を示したグラフである。
【
図6】本発明の一実施形態における製品の計測の流れを示した図である。
【
図7】本発明の一実施形態における機械学習モデルの生成処理を概念的に示した図である。
【
図8】本発明の一実施形態における説明変数の寄与度を示したグラフである。
【
図9】本発明の一実施形態において寄与度の大きい説明変数をNMRスペクトル上に転写して示したグラフである。
【発明を実施するための形態】
【0011】
以下、図面を参照しながら、本発明の実施形態を説明する。
【0012】
[システムの構成]
図1に示すように、このシステムは、製品特性解析サーバ100と、複数のユーザ端末200とを含む。
【0013】
製品特性解析サーバ100は、複数のユーザ端末200と例えばインターネット50を介して接続されている。製品特性解析サーバ100は、化粧品、医薬部外品(口腔ケア製品などの日用品も含む)、医薬品(皮膚用製剤等)、汗拭きシート、化粧用シート、洗濯用洗剤、柔軟剤といった、消費者が身体または衣類に使用する複数の製品に関する解析情報を提供する。具体的には、製品特性解析サーバ100は、上記製品に関する文章データ及び計測データを基に生成された学習モデルを用いて、当該製品に関して消費者が感じた感覚に寄与する当該製品の科学的特性を推定する。
【0014】
ユーザ端末200(200A,200B,200C...)は、ユーザ(上記化粧品や医薬部外品等の製品を製造する企業等の研究者等の本システムの利用者)により使用される端末であり、例えばスマートフォン、携帯電話、タブレットPC(Personal Computer)、ノートブックPC、デスクトップPC等である。ユーザ端末200は、製品特性解析サーバ100へアクセスし、上記学習モデルや科学的特性等に関するウェブページやその他の情報を受信してブラウザやその他のアプリケーション等により画面に表示する。
【0015】
上記学習モデルは、上記製品に対して消費者が感じた感覚について消費者が自由記述した文章を示す文章データから抽出した語句と、上記製品の所定の科学的特性に関する計測結果を示す計測データとを基に生成され、上記計測データから上記語句を予測するものである。
【0016】
文章データは例えば口コミデータであるが、SNS上のコメントやアンケートの回答等であっても構わない。科学的特性とは、例えばある製品機能に対して寄与する、製品中に含まれる成分あるいはその組み合わせ、製品の物性値(粘度・弾性率・接触角等)、製品中の物質の空間分布(無機粒子の分散状態等)、肌に塗布した際の塗膜状態(高分子の相溶様式など)など様々な化学的・物質的特性を指す。
【0017】
消費者が感じた感覚とは、例えば、製品または製品を用いた衣類の肌等への触感や着心地、視覚、聴覚、味覚、嗅覚その他の実感(具体的には、こっくり感、しっとり感、伸び感、防御実感、持続感、保湿感、塗布簡便さ、ふんわり感、さらさら感等)である。
【0018】
上記学習モデルの生成処理及びそれを用いた科学的特性情報の特定処理の詳細については後述する。
【0019】
[製品特性解析サーバのハードウェア構成]
図2に示すように、製品特性解析サーバ100は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、入出力インタフェース15、及び、これらを互いに接続するバス14を備える。
【0020】
CPU11は、必要に応じてRAM13等に適宜アクセスし、各種演算処理を行いながら製品特性解析サーバ100の各ブロック全体を統括的に制御する。ROM12は、CPU11に実行させるOS、プログラムや各種パラメータ等のファームウェアが固定的に記憶されている不揮発性のメモリである。RAM13は、CPU11の作業用領域等として用いられ、OS、実行中の各種アプリケーション、処理中の各種データを一時的に保持する。
【0021】
入出力インタフェース15には、表示部16、操作受付部17、記憶部18、通信部19等が接続される。
【0022】
表示部16は、例えばLCD(Liquid Crystal Display)、OELD(Organic ElectroLuminescence Display)、CRT(Cathode Ray Tube)等を用いた表示デバイスである。
【0023】
操作受付部17は、例えばマウス等のポインティングデバイス、キーボード、タッチパネル、その他の入力装置である。操作受付部17がタッチパネルである場合、そのタッチパネルは表示部16と一体となり得る。
【0024】
記憶部18は、例えばHDD(Hard Disk Drive)や、フラッシュメモリ(SSD;Solid State Drive)、その他の固体メモリ等の不揮発性メモリである。当該記憶部18には、上記OSや各種アプリケーション、各種データが記憶される。
【0025】
後述するが、特に本実施形態において、記憶部18は、後述する学習モデルの生成処理及びそれを用いた科学的特性の特定処理に必要なアプリケーション等のプログラムの他、消費者情報データベース、製品文章情報データベース、製品計測情報データベース、製品特性情報データベースを有している。
【0026】
通信部19は、例えばEthernet用のNIC(Network Interface Card)や無線LAN等の無線通信用の各種モジュールであり、上記ユーザ端末200との間の通信処理を担う。
【0027】
なお、図示しないが、ユーザ端末200の基本的なハードウェア構成も上記製品特性解析サーバ100のハードウェア構成と略同様である。
【0028】
[製品特性解析サーバのデータベース構成]
【0029】
図3に示すように、製品特性解析サーバ100は、記憶部18に、消費者情報データベース31、製品文章情報データベース32、製品計測情報データベース33、製品特性情報データベース34を有している。なお当該各データベースは記憶部18ではなく製品特性解析サーバ100に外部接続された記憶装置やサーバに記憶されていてもよい。
【0030】
消費者情報データベース31は、製品に関する上記文章データ情報を提供した消費者(モニター)の属性情報を消費者毎に記憶している。消費者の属性情報としては、氏名、ユーザを識別するためのユーザID、年齢(年代)、職業、住所(居住エリア)、性別、メールアドレス、といった一般的な情報のほか、化粧品等の製品の好みや購入履歴、製品に対して付与した評価値(例えば星の数や数値)、肌質等の肌に関する情報等も含まれてもよい。
【0031】
製品文章情報データベース32は、上記製品に対して消費者が感じた感覚について消費者が自由記述した文章を示す文章データ(口コミデータ等)、当該文章データから抽出した、上記感覚を示す語句、及び、当該抽出した語句を数値に変換したデータ(語句変換データ;後述)を製品ごとに記憶している。
【0032】
製品計測情報データベース33は、計測機器による製品サンプルの計測結果を示す計測データ及び当該計測データを数値に変換したデータ(計測変換データ;後述)を製品ごとに記憶している。計測手法等しては、製品サンプルの科学的特性を計測できる手法であれば特に限定されないが、例えば核磁気共鳴法(NMR)が用いられる。
【0033】
製品特性情報データベース34は、上記文章データ及び計測データを基に生成された学習モデルに基づいて特定された、消費者の感覚に寄与する製品の科学的特性に関する情報を製品ごとに記憶している。
【0034】
これら各データベースは、後述する製品特性解析サーバ100による学習モデル生成処理及び科学的特性特定処理において、必要に応じて相互に参照されて用いられる。
【0035】
[製品特性解析サーバの動作]
次に、以上のように構成された製品特性解析サーバ100の動作について説明する。当該動作は、製品特性解析サーバ100のCPU11及び通信部19等のハードウェアと、記憶部18に記憶されたソフトウェアとの協働により実行される。以下の説明では、便宜上、CPU11を動作主体とする。
【0036】
図4は、本実施形態に係る製品特性解析サーバ100の動作の流れを示したフローチャートである。
【0037】
同図に示すように、製品特性解析サーバ100のCPU11はまず、対象製品に関する文章データとして口コミデータを入力し、上記製品文章情報データベース32に記憶する(ステップ41)。例えばCPU11は、製品が化粧品である場合、化粧品レビューサイトから当該口コミデータのテキストデータを取得する。当該データは上記製品文章情報データベース32に記憶される。
【0038】
当該化粧品レビューサイトの口コミは、対象製品に対して当該サイトのユーザ(消費者)が感想を自由記述して投稿したものであり、例えば消費者が製品に対して複数段階(例えば0~7の8段階;数値が大きい方が高評価)で付与した評価値を示す評価値データを含む。本実施形態では6万件以上の口コミを使用した。
【0039】
なお入力する文章データは口コミデータに限られず、例えばアンケートやSNSなど、任意の消費者が自由記述した文章であればどのようなものでもよい。
【0040】
本実施形態では、約100の市販のUV製剤(SPF, PA表記のある化粧品および医薬部外品)について上記口コミデータを入力したが、製品はその他の化粧品、医薬部外品であってもよい。また製品は市販品でなくてもよく、例えば開発中のプロトタイプ品など、製品に対する感想を自由記述文章として取得できる製品であればよい。
【0041】
続いてCPU11は、上記入力された口コミデータについて自然言語処理を実行する(ステップ42)。
【0042】
具体的には、CPU11は、口コミデータの文章を、自然言語処理用のツールを用いて形態素解析(単語分割)する。自然言語処理用のツールとしては、例えばGiNZA(Python言語にて駆動する自然言語処理ライブラリ)、MeCab、Janomeなど様々な日本語自然言語処理ツールを自由に用いることができる。また解析の際に採用する品詞、解析アルゴリズム、N-gram等のパラメータについても任意のものを自由に選択・設定できる。また自然言語処理の対象となる言語は日本語に限られず、例えば英語や中国語であってもよく、英語であればspacy、中国語であればjiebaなどの自然言語処理ライブラリが用いられてもよい。
【0043】
続いてCPU11は、上記自然言語処理した文章から、消費者の感覚を示す語句を抽出する(ステップ43)。具体的には、以下の(1)~(5)の手順により語句を抽出する。
【0044】
(1)上記ツールにより単語にタグ付けされた品詞の中から、口コミの文意に影響の大きい名詞、動詞、形容詞、副詞を抽出する。さらに当該抽出した品詞を、当該ツールの登録辞書に基づいて、単語原形表現に変換する(例えば「高く」は「高い」に変換される)。
【0045】
(2)例えばPythonライブラリCountVectorizer等のツールを用いて、上記口コミ文章中の各単語の頻度情報を取得する。さらにそこから、95%以上、5%以下の製品に登場する解析のノイズとなる単語を除外してBag-of-Wordsベクトルを生成する。この際、口コミの意味を反映した表現を取得するため、連続する2単語を1単語とみなした場合の単語頻度情報を取得する(N-gram=2)。なお取得する単語の数は2単語に限られず、3単語以上であってもよい。
【0046】
(3)上記生成したBag-of-Wordsベクトルをもとに、各製品の口コミ中に出現した各単語の割合term frequency(tf, %)を以下の式により計算する。
tf (t,d) = nt,d / Σk nk,d
ここでnt,dは、文書d(今回の場合は製品の口コミ)における任意単語tの出現回数を示し、Σk nk,dは、文書dにおいて検出された全単語の出現回数を示す。
【0047】
(4)一方で、各口コミに付与されている評価値(例えば0~7)の平均値を製品ごとに算出し、製品ごとの平均評価値を求める。なお評価値が記入されていない口コミについては、評価値の平均値の算出からは除外する。
【0048】
(5)評価値とtfのPearsonやSpearman等の相関係数を総当たりで計算し、評価値との相関係数が高い単語ペアを抽出する。これにより抽出された単語が、製品について消費者が評価したポイントに関連するキーワードと推定できる。当該キーワードの中から、消費者の製品に関する感覚に関するキーワードを選択して特定単語として設定する。
【0049】
続いてCPU11は、上記抽出した語句を数値データ(語句変換データ)に変換する(ステップ44)。具体的には、特定単語の上記tf値を数値情報として得る。
図5のグラフに示すように、本実施形態では、製剤の感触機能を表す重要表現として、評価値との正の相関係数が最も高い「こっくり する」という単語ペアのtf値を語句変換データとした。なお同図右側は上記「こっくり する」という単語ペアの次に評価値との正の相関が高かった「しっとり 潤う」に関するグラフを示す。
【0050】
ここで、上記数値データの設定手法は上記に限られず、自由に設定できる。例えば解析者が望む任意のキーワードのtf値をそのまま製品機能の指標値としてもよい。またその他の言語解析、データ解析によって計算された、キーワードに関連する任意の数値情報を設定してもよい(例えばトピックモデル解析、次元削減、クラスター解析など)。
【0051】
続いてCPU11は、対象製品の計測データを入力する(ステップ45)。当該計測データは、上記製品計測情報データベース33に記憶される。ここで、製品の計測処理の流れについて説明する。
図6は当該計測の流れを示した図である。
【0052】
同図に示すように、製品(UV製剤)サンプルを計測に供するため前処理を行ったうえで、計測機器(核磁気共鳴装置)により計測を行う。具体的には、以下の(1)~(3)の手順で実行する。
【0053】
(1)約0.2gの製品サンプルを秤量し、凍結乾燥機を用いて一昼夜凍結乾燥させる。
【0054】
(2)内部標準物質(1,4ジニトロベンゼン)を含む規定量の重クロロホルム溶液に試料を懸濁する。懸濁の際は超音波破砕装置を用いる。内部標準物質としてトリメチルシリルプロパン酸(TSP)等、溶液として重メタノール溶液等、他の物質や溶液が用いられてもよい。
【0055】
(3)PTFEフィルターを用いて溶液をろ過した後、1次元の1H-NMR測定を行い、計測データ(NMRスペクトル)を取得する。
【0056】
なお計測機器による製品サンプルの分析手法は、核磁気共鳴法(NMR)に留まらず自由に設定できる。計測機器としては、例えば赤外分光法、ラマン分光法、ガスクロマトグラフィー、液体クロマトグラフィー、質量分析、レオロジー解析、元素分析、ゲルろ過クロマトグラフィー等、様々な計測機器が利用できる。利用する計測機器に応じて、適切な前処理方法も適宜変更される。
【0057】
続いてCPU11は、上記計測データを数値データ(計測数値データ)に変換する(ステップ46)。具体的には、以下の(1)(2)の手順を、例えばDelta(JEOL社、ver5.3.1)等のソフトウェアを用いて行う。
【0058】
(1)獲得したNMRスペクトルに対して、内部標準物質を基準として位相およびケミカルシフトを調整する。
【0059】
(2)
図7(B)下段に示すように、調整したNMRスペクトルのBucket Integration(バケット積分)を0~12ppmの範囲で行う。バケット積分においては総積分値が一定となるように標準化を行う。0.005ppm間隔でNMRスペクトルを横軸方向に分割し、各区間における積分値を得る。この値を機械学習に入力する計測数値データとする。
【0060】
なお、計測データの数値化の手法はBucket Integrationに限らず自由に設定できる。例えば計測データの各ポイントのtxtおよびcsv出力データ、計測データから得られた情報を何らかのアルゴリズムを用いて数値化したデータであってもよい。また数値データに代えて、計測データの画像化したデータ等の画像データが用いられてもよい。
【0061】
続いてCPU11は、上記生成した語句変換データと計測変換データを基に、機械学習モデルを生成する(ステップ47)。
【0062】
具体的には、
図7(A)に示すように、上記語句変換データとして、上記「こっくり する」のtf値の中央値で製品を2群に分割し、高出現群と低出現群を定義する。
【0063】
そして同図(B)に示すように、上記定義した2群を機械学習(分類問題)の目的変数とし、上記計測変換データ(NMRスペクトルのバケット積分値)を機械学習の説明変数として、機械学習モデルを構築する。
【0064】
続いてCPU11は、上記のように生成された機械学習モデルについて、交差検証による予測精度を算出して当該予測精度が十分に高いか否かを判断する(ステップ48)。具体的には、以下の(1)~(3)の手順により予測精度を分析する。
【0065】
(1)上記計測変換データの変数を適切に選択する。本実施形態ではlinearSVMを学習器とするRecursive Feature Eliminationを用いて30個まで説明変数を選択する。Python言語を用いて実装を行う。
【0066】
NMRスペクトルを数値化した計測変換データは変数が多く(2467変数)、判別予測精度の高い機械学習モデルの構築には適切な手法による変数選択が必要である。本実施形態では種々のFilter method, Embedded method, Wrapper method等による変数選択を検討した。その結果、linearSVMを機械学習器とするRecursive Feature Elimination(RFE;任意の機械学習モデルの回帰係数や重要度に基づいて再帰的に変数を選択する方法)により30個まで変数を削減する手法が最も高い精度となった。
【0067】
(2)選択した説明変数と目的変数を用いて機械学習モデルを構築する。本実施形態ではmultilayer perceptron(多層パーセプトロン)を採用する。Python言語を用いて実装を行う。
【0068】
本実施形態では、5種類の非線形機械学習手法(k近傍法、rbfカーネルサポートベクターマシン、ランダムフォレスト、XGBoost、多層パーセプトロン)による判別予測を検討した。その結果、多層パーセプトロンによる判別予測において最も高い予測精度となった。モデルのハイパーパラメータチューニングは行わず、scikit-learn等のデフォルトのパラメータを用いた。
【0069】
(3)種々変数選択手法や機械学習モデルの組み合わせによるクラス判別予測精度を、5-fold stratified cross-validation(層化5分割交差検証)により算出する。当該手法は交差検証時の目的変数の偏りを平均化することが可能な手法であり、5回の判別精度の平均値が高い機械学習手法を採用する。
【0070】
各手法における判別精度を算出・比較することで、説明変数と目的変数間の関係を表現する最適な機械学習モデルを選択・生成する。Python言語を用いて実装を行う。
【0071】
上述したように、上記目的変数としては、様々な値を用いることができる。上述したようにtf値をそのまま回帰予測に供してもよいし、tf値をもとに新たに算出した値を予測してもよい。例えば本実施形態のようにtf値をもとに製品のクラス分けを行い、クラスを判別する機械学習モデルを構築してもよい。
【0072】
本実施形態における変数の選択(削減)手法、機械学習アルゴリズムの種類、精度判定の手法はあくまで一例であり、上述したものに限られず自由に選択・設定することができる。例えば説明変数間の相関係数に基づいて選択する方法、赤池情報量規準(AIC)を用いて変数選択する方法、主成分分析を用いて変数の次元を削減する方法などを自由に選択できる。
【0073】
また機械学習アルゴリズムとしては、例えばロジスティック回帰、Lasso回帰、Ridge回帰、決定木、ガウス過程回帰、勾配ブースティング木、LightGBM、ディープニューラルネットワークなど、様々な回帰・分類手法を目的に応じて自由に選択できる。
【0074】
予測精度の判別方法としても、例えば層化を行わない交差検証手法、leave-one-out交差検証などを自由に選択できる。また最適な機械学習モデルの判別指標は予測精度(Accuracy)に留まらず自由に選択できる。例えば平均絶対誤差(MAE)、平均二乗誤差(MSE)、二乗平均平方根誤差(RMSE)などの誤差指標、感度(Sensitivity)、特異度(Specificity)などの混同行列における精度指標を自由に選択できる。
【0075】
上述の検証により予測精度が十分に高いと判断した場合(ステップ48のYes)、CPU11は、上記機械学習モデルの解釈処理を実行する(ステップ49)。
【0076】
すなわちCPU11は、機械学習モデルによる予測における変数重要度を算出する。選択・生成した機械学習モデルを例えばSHAPにより解釈し、説明変数の重要度を意味するSHAP valueを算出する。
【0077】
ここで、SHAPにおけるShapley value(シャープレイ値)は協力ゲーム理論に基づいて算出される、各プレイヤーの貢献度を数値化した値である。
【0078】
Shapley valueを機械学習モデルに適用し、各説明変数をゲームのプレイヤーと見立てて予測出力値に対する貢献度を算出する手法がSHAPである。求められたShapley valueは近似値であり、SHAP valueと称する。SHAP valueにはマイナス方向とプラス方向の寄与が反映される。このSHAP valueの序列に基づいて判別予測に重要な(貢献する)説明変数を抽出する。
【0079】
なお、用いることのできる変数重要度はSHAP valueに限らない。例えば決定木系モデルのfeature importance, permutation importance, 線形モデルの回帰係数, integrated gradientsなど自由に選択できる。
【0080】
そしてCPU11は、上記抽出した説明変数に基づいて、製品について感じた消費者の感覚に寄与する科学的特性情報を推定する(ステップ50)。具体的には、以下の(1)~(5)の手順を実行する。
【0081】
(1)SHAP valueの絶対値の大きい順に説明変数を並び替える(
図8参照)。
【0082】
(2)SHAP valueの絶対値の大きな説明変数のうち、計測データとして意味のある説明変数を抽出する(例えばノイズなどの情報であれば除く)。
【0083】
(3)抽出された説明変数を計測データと照合することで、取得した計測データにおける重要な計測領域をマッピングする。本実施形態においては、NMRスペクトル上のケミカルシフトを指標としてマッピングする(
図9参照)。
【0084】
(4)マッピングされた情報を解釈し、重要な科学的特性情報を獲得する。本実施形態では、NMRのケミカルシフトから、製品中に含まれる成分の情報を獲得する。解析の結果、2種類の紫外線吸収剤とシリコーン類の成分情報が獲得された。
【0085】
(5)特定した科学的特性情報の妥当性を検証する。本実施形態では上述の語句「こっくり する」の高低をNMRスペクトルから予測する機械学習モデルを構築し、モデルをSHAPにより解釈し、SHAP valueの情報から重要な成分情報を抽出した結果、2種類の紫外線吸収剤(メトキシケイヒ酸エチルヘキシルとジエチルアミノヒドロキシベンゾイル安息香酸ヘキシル)とシリコーン類が抽出された。抽出された成分の配合傾向を製品の全成分表示から確認した結果、「こっくり する」のtf値(出現頻度)によって配合傾向に違いが確認できた。
【0086】
UV製剤の感触には、シリコーンや紫外線吸収剤が寄与することが従来から知られていることから、上記語句から上記の科学的特性が特定されたのは妥当と考えられる。
【0087】
このように、言語データ、計測データを用いた機械学習解析により、製品機能と製品の科学的特性に関する従来の知見を人間の思考作業にほとんど依存することなく機械的・体系的・効率的に導き出すことができた。
【0088】
CPU11は、上記特定した科学的特性情報を、上記製品を示す情報と、上記抽出された語句データと対応付けて、上記製品特性情報データベース34に記憶し、ユーザの要求に応じて適宜出力する。これにより、ある製品の感覚について文章データから抽出された語句と、当該感覚に寄与する科学的特性との対応関係を製品開発者等のユーザに容易に把握させることができる。
【0089】
以上説明したように、本実施形態によれば、製品特性解析サーバ100は、化粧品等の製品に対して消費者が感じる特定の感覚に寄与する当該製品の科学的特性を明らかにすることで上記研究者等の製品開発に寄与することができる。
【0090】
[変形例]
以上、本発明の実施形態について説明したが、本発明は上述の実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。
【0091】
上述の実施形態においては、特定の製品群(UV製剤群)に関する口コミデータから抽出された「こっくり する」という単語ペアと当該製品の計測データを基に機械学習モデルが生成されたが、本発明者は、以下に示す通り、同じ製品(UV製剤)に関する口コミデータから抽出された他の単語ペアを用いて上記と同様に機械学習モデルを生成し、解析を行った。
【0092】
同じ製品の上記口コミデータから上記「こっくり する」とは別に抽出された「しっとり 潤う」という単語ペア及び計測データについて、生成した機械学習モデルをSHAPにより解釈し、SHAP valueの情報から重要な成分情報を抽出した結果、UV吸収剤、長鎖アルキルを有するエーテル、アルコール等の成分が抽出された。
【0093】
長鎖アルコールやPOEアルキルエーテルは、乳化や乳化安定化・粘度調整に一般に利用されることが従来から知られており、UV吸収剤等の油剤の乳化制御・製剤粘度調整に利用されることで、ユーザのしっとり感、潤い感の感触向上に寄与しているものと考えられることから、解析結果は妥当と考えられる。
【0094】
同様に、同じ製品の口コミデータから別途抽出された「とても 伸び」という単語ペア及び計測データについて生成した機械学習モデルを解析した結果、ポリエーテル(PE)変性シリコーン、乳化剤、無機粒子表面改質剤、エステル油等の成分が抽出された。
【0095】
PE変性シリコーンは感触改良剤(滑り性の向上や滑らかでしっとりとした感触を付与する)や乳化剤として一般に使用されており、エステル油はエモリエント効果を有することが従来から知られていることから、ユーザの伸び感(よく伸びる感触)に寄与していると考えられ、解析結果は妥当と考えられる。
【0096】
同様に、同じ製品の口コミデータから別途抽出された「紫外線 守る」という単語ペア及び計測データについて生成した機械学習モデルを解析した結果、トリエステル油及びPE変性シリコーンの成分が抽出された。
【0097】
トリエステル油は紫外線吸収剤の溶解性向上効果があり、PE変性シリコーンは皮膜形成・感触向上効果があることが従来から知られており、それらがユーザが製品から感じた防御実感に寄与していると考えられることから、上記解析結果は妥当と考えられる。
【0098】
このように、同じ製品に関する口コミデータから抽出された他の語句及び当該他の製品の計測結果についても上記と同様に機械学習モデルを生成し解析することによって、製品に対して消費者が感じる特定の感覚に寄与する当該製品の科学的特性を明らかにすることができる。
【0099】
上述の実施形態では、本発明の対象となる製品としてUV製剤が例に挙げられたが、その他の化粧品、医薬部外品(口腔ケア製品などの日用品も含む)、医薬品(皮膚用製剤等)、汗拭きシート、化粧用シート、洗濯用洗剤、柔軟剤といった、消費者が身体または衣類に使用するその他の製品が対象とされてもよい。
【0100】
上述の実施形態では、上記製品特性解析サーバ100は1台のみ示したが、上記製品特性解析サーバ100が実行する処理は、複数のサーバで分散して実行されても構わない。例えば、口コミデータ等の文章データの自然言語処理と機械学習モデルの生成処理とが別個のサーバで実行されても構わない。
【0101】
本願の特許請求の範囲に記載された発明のうち、「情報処理方法」と記載された発明は、その各ステップを、ソフトウェアによる情報処理によりコンピュータ等の少なくとも1つの装置が自動的に行うものであり、人間がコンピュータ等の装置を用いて行うものではない。すなわち、当該「情報処理方法」は、コンピュータ・ソフトウェアによる情報処理方法であって、コンピュータという計算道具を人間が操作する方法ではない。
【符号の説明】
【0102】
11…CPU
18…記憶部
19…通信部
31…消費者情報データベース
32…製品文章情報データベース
33…製品計測情報データベース
34…製品特性情報データベース
100…製品特性解析サーバ
200…ユーザ端末