(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-11-20
(45)【発行日】2023-11-29
(54)【発明の名称】予測方法、情報処理装置、及びプログラム
(51)【国際特許分類】
G06N 3/048 20230101AFI20231121BHJP
C08L 101/00 20060101ALI20231121BHJP
G06N 3/09 20230101ALI20231121BHJP
G16C 20/70 20190101ALI20231121BHJP
【FI】
G06N3/048
C08L101/00
G06N3/09
G16C20/70
(21)【出願番号】P 2023559850
(86)(22)【出願日】2023-05-22
(86)【国際出願番号】 JP2023019011
【審査請求日】2023-09-27
(31)【優先権主張番号】P 2022212704
(32)【優先日】2022-12-28
(33)【優先権主張国・地域又は機関】JP
【早期審査対象出願】
(73)【特許権者】
【識別番号】000002886
【氏名又は名称】DIC株式会社
(74)【代理人】
【識別番号】100177426
【氏名又は名称】粟野 晴夫
(74)【代理人】
【識別番号】100141601
【氏名又は名称】貴志 浩充
(74)【代理人】
【識別番号】100164471
【氏名又は名称】岡野 大和
(72)【発明者】
【氏名】長尾 敦
【審査官】行田 悦資
(56)【参考文献】
【文献】特開平02-287861(JP,A)
【文献】特開平04-266153(JP,A)
【文献】特開平11-232244(JP,A)
【文献】特開平09-091264(JP,A)
【文献】渡邊 栄治 ほか,講演における聴講者の動作の分析(第3報),電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会 The Institute of Ele,2019年01月17日,vol. 118, no. 420, LOIS2018-45,pp.21-26
【文献】岸田 悟 ほか,階層型ニューラルネットワークのボタン選定問題への適用,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,1993年03月19日,vol. 92, no. 522,pp.97-102
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/048
C08L 101/00
G06N 3/09
G16C 20/70
(57)【特許請求の範囲】
【請求項1】
情報処理装置が実行する予測方法であって、
予測対象に係る実績データに基づきニューラルネットワークモデルを訓練するステップと、
前記ニューラルネットワークモデルにより、前記予測対象に係る複数の説明因子に基づき、前記予測対象に係る目的因子を予測するステップと、
を含み、
前記ニューラルネットワークモデルは、入力層と中間層と出力層とを含み、前記中間層に係る活性化関数の係数は、前記出力層に係る活性化関数の係数よりも大きい、方法。
【請求項2】
【数1】
【請求項3】
請求項1又は2に記載の予測方法であって、前記予測対象は、重縮合反応及び付加重合反応を含む予測方法。
【請求項4】
請求項1又は2に記載の予測方法であって、前記中間層の素子数は、前記説明因子の数の1.1倍以上6倍未満である予測方法。
【請求項5】
請求項1又は2に記載の予測方法であって、前記入力層に入力される説明因子の数値範囲は、0以上かつ1以下であり、前記出力層から出力される目的因子の数値範囲は0.2以上かつ0.8以下である予測方法。
【請求項6】
制御部を備える情報処理装置であって、
前記制御部は、
予測対象に係る実績データに基づきニューラルネットワークモデルを訓練し、
前記ニューラルネットワークモデルにより、前記予測対象に係る複数の説明因子に基づき、前記予測対象に係る目的因子を予測し、
前記ニューラルネットワークモデルは、入力層と中間層と出力層とを含み、前記中間層に係る活性化関数の係数は、前記出力層に係る活性化関数の係数よりも大きい、情報処理装置。
【請求項7】
情報処理装置が実行するプログラムであって、コンピュータに、
予測対象に係る実績データに基づきニューラルネットワークモデルを訓練することと、
前記ニューラルネットワークモデルにより、前記予測対象に係る複数の説明因子に基づき、前記予測対象に係る目的因子を予測することと、
を実行させ、
前記ニューラルネットワークモデルは、入力層と中間層と出力層とを含み、前記中間層に係る活性化関数の係数は、前記出力層に係る活性化関数の係数よりも大きい、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、予測方法、情報処理装置、及びプログラムに関する。本願は、2022年12月28日に、日本に出願された特願2022―212704に基づき優先権を主張し、その内容をここに援用する。
【背景技術】
【0002】
従来から、化学反応等の物理・化学現象に係る予測を行う手法が提案されている(例えば特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に記載の技術では、反応器システムの制御を最適化するために、ニューラルネットワーク、部分最小二乗法、主成分回帰等のモデリング技術を用いられることが記載されている。しかしながら、予測を行う際におけるニューラルネットワークモデルの具体的な設計方法及び最適化については考慮されておらず、合成樹脂の化学反応等の予測対象に係る予測技術には改善の余地があった。
【0005】
かかる事情に鑑みてなされた本開示の目的は、予測対象に係る予測技術を改善することにある。
【課題を解決するための手段】
【0006】
(1)本開示の一実施形態における予測方法は、情報処理装置が実行する予測方法であって、
予測対象に係る実績データに基づきニューラルネットワークモデルを訓練するステップと、
前記ニューラルネットワークモデルにより、前記予測対象に係る複数の説明因子に基づき、前記予測対象に係る目的因子を予測するステップと、
を含み、
前記ニューラルネットワークモデルは、入力層と中間層と出力層とを含み、前記中間層に係る活性化関数の係数は、前記出力層に係る活性化関数の係数よりも大きい。
【0007】
【0008】
(3)本開示の一実施形態における予測方法は、(1)又は(2)に記載の予測方法であって、前記予測対象は、重縮合反応及び付加重合反応を含む。
【0009】
(4)本開示の一実施形態における予測方法は、(1)から(3)のいずれかに記載の予測方法であって、前記中間素子の素子数は、前記説明因子の数の1.1倍以上6倍未満である。
【0010】
(5)本開示の一実施形態における予測方法は、(1)から(4)のいずれかに記載の予測方法であって、前記入力層に入力される説明因子の数値範囲は、0以上かつ1以下であり、前記出力層から出力される目的因子の数値範囲は0.2以上かつ0.8以下である。
【0011】
(6)本開示の一実施形態における情報処理装置は、制御部を備え、
前記制御部は、
予測対象に係る実績データに基づきニューラルネットワークモデルを訓練し、
前記ニューラルネットワークモデルにより、前記予測対象に係る複数の説明因子に基づき、前記予測対象に係る目的因子を予測し、
前記ニューラルネットワークモデルは、入力層と中間層と出力層とを含み、前記中間層に係る活性化関数の係数は、前記出力層に係る活性化関数の係数よりも大きい。
【0012】
(7)本開示の一実施形態における非一時的なコンピュータ読取可能記録媒体は、
命令を記憶した非一時的なコンピュータ読取可能記録媒体であって、前記命令は、プロセッサによって実行された時に、プロセッサに、
予測対象に係る実績データに基づきニューラルネットワークモデルを訓練することと、
前記ニューラルネットワークモデルにより、前記予測対象に係る複数の説明因子に基づき、前記予測対象に係る目的因子を予測することと、
を実行させ、
前記ニューラルネットワークモデルは、入力層と中間層と出力層とを含み、前記中間層に係る活性化関数の係数は、前記出力層に係る活性化関数の係数よりも大きい。
【発明の効果】
【0013】
本開示の一実施形態における予測方法、情報処理装置、及びプログラムによれば、予測対象に係る予測技術を改善することができる。
【図面の簡単な説明】
【0014】
【
図1】本実施形態における合成樹脂の化学反応に係る予測を行う情報処理装置の概略構成を示すブロック図である。
【
図2】本実施形態における合成樹脂の化学反応に係る予測を行う情報処理装置の動作を示すフローチャートである。
【
図3】本実施形態におけるニューラルネットワークモデルの概念図である。
【
図4】本実施形態におけるニューラルネットワークモデルの学習収束結果を示すグラフである。
【
図5】比較例に係るニューラルネットワークモデルの学習収束結果を示すグラフである。
【
図6】比較例に係るニューラルネットワークモデルの学習収束結果を示すグラフである。
【
図7】比較例に係るニューラルネットワークモデルの学習収束結果を示すグラフである。
【発明を実施するための形態】
【0015】
以下、本開示の実施形態における予測対象に係る予測を行う方法について、図面を参照して説明する。本実施形態に係る予測対象は、合成樹脂の化学反応を含む。以下、本実施形態では、予測対象が合成樹脂の化学反応である場合を一例として説明する。ここで合成樹脂の化学反応は、重縮合反応及び付加重合反応を含む。重縮合反応で合成される主な高分子材料はポリエステル、ポリアミド、ポリエチレンテレフタレート、尿素樹脂、フェノール樹脂、シリコーン樹脂、アルキド樹脂、アルキド樹脂ポリエーテル、ポリグルコシド、メラミン樹脂、ポリカーボネート等である。付加重合反応で合成される主な高分子材料はポリ(メタ)アクリル酸エステル、ポリエチレン、ポリプロピレン、ポリスチレン、ポリ塩化ビニル、ポリ酢酸ビニル、ポリ塩化ビニリデン、ポリアクリロニトリル、ポリテトラフルオロエチレン等である。
【0016】
各図中、同一又は相当する部分には、同一符号を付している。本実施形態の説明において、同一又は相当する部分については、説明を適宜省略又は簡略化する。
【0017】
まず、本実施形態の概要について説明する。本実施形態における合成樹脂の化学反応に係る予測を行う方法では、合成樹脂の化学反応に係る実績データに基づきニューラルネットワークモデルが訓練される。また、訓練されたニューラルネットワークモデルにより、合成樹脂の化学反応に係る複数の説明因子に基づき、合成樹脂の化学反応に係る目的因子を予測する。ここで本実施形態に係るニューラルネットワークモデルは、入力層と中間層と出力層とを含み、中間層に係る活性化関数の係数が、出力層に係る活性化関数の係数よりも大きいことを特徴とする。
【0018】
このように本実施形態によれば、ニューラルネットワークモデルが入力層と中間層と出力層とを含み、中間層に係る活性化関数の係数が、出力層に係る活性化関数の係数よりも大きいことを特徴とする。合成樹脂の化学反応にかかる予測を行う場合には、後述するように中間層に係る活性化関数の係数を出力層に係る活性化関数の係数よりも大きく設定することで学習過程が最適化され、また予測精度が向上する。したがって本実施形態によれば合成樹脂の化学反応に係る予測技術を改善することができる。
【0019】
(情報処理装置の構成)
次に
図1を参照して、情報処理装置10の各構成について詳細に説明する。情報処理装置10は、ユーザによって使用される任意の装置である。例えばパーソナルコンピュータ、サーバコンピュータ、汎用の電子機器、又は専用の電子機器が、情報処理装置10として採用可能である。
【0020】
図1に示されるように、情報処理装置10は、制御部11と、記憶部12と、入力部13と、出力部14とを備える。
【0021】
制御部11には、少なくとも1つのプロセッサ、少なくとも1つの専用回路、又はこれらの組み合わせが含まれる。プロセッサは、CPU(central processing unit)若しくはGPU(graphics processing unit)などの汎用プロセッサ、又は特定の処理に特化した専用プロセッサである。専用回路は、例えば、FPGA(field-programmable gate array)又はASIC(application specific integrated circuit)である。制御部11は、情報処理装置10の各部を制御しながら、情報処理装置10の動作に関わる処理を実行する。
【0022】
記憶部12には、少なくとも1つの半導体メモリ、少なくとも1つの磁気メモリ、少なくとも1つの光メモリ、又はこれらのうち少なくとも2種類の組み合わせが含まれる。半導体メモリは、例えば、RAM(random access memory)又はROM(read only memory)である。RAMは、例えば、SRAM(static random access memory)又はDRAM(dynamic random access memory)である。ROMは、例えば、EEPROM(electrically erasable programmable read only memory)である。記憶部12は、例えば、主記憶装置、補助記憶装置、又はキャッシュメモリとして機能する。記憶部12には、情報処理装置10の動作に用いられるデータと、情報処理装置10の動作によって得られたデータとが記憶される。
【0023】
入力部13には、少なくとも1つの入力用インタフェースが含まれる。入力用インタフェースは、例えば、物理キー、静電容量キー、ポインティングデバイス、ディスプレイと一体的に設けられたタッチスクリーンである。また入力用インタフェースは、例えば、音声入力を受け付けるマイクロフォン、又はジェスチャー入力を受け付けるカメラ等であってもよい。入力部13は、情報処理装置10の動作に用いられるデータを入力する操作を受け付ける。入力部13は、情報処理装置10に備えられる代わりに、外部の入力機器として情報処理装置10に接続されてもよい。接続方式としては、例えば、USB(Universal Serial Bus)、HDMI(登録商標)(High-Definition Multimedia Interface)、又はBluetooth(登録商標)などの任意の方式を用いることができる。
【0024】
出力部14には、少なくとも1つの出力用インタフェースが含まれる。出力用インタフェースは、例えば、情報を映像で出力するディスプレイ等である。ディスプレイは、例えば、LCD(liquid crystal display)又は有機EL(electro luminescence)ディスプレイである。出力部14は、情報処理装置10の動作によって得られるデータを表示出力する。出力部14は、情報処理装置10に備えられる代わりに、外部の出力機器として情報処理装置10に接続されてもよい。接続方式としては、例えば、USB、HDMI(登録商標)、又はBluetooth(登録商標)などの任意の方式を用いることができる。
【0025】
情報処理装置10の機能は、本実施形態に係るプログラムを、情報処理装置10に相当するプロセッサで実行することにより実現される。すなわち、情報処理装置10の機能は、ソフトウェアにより実現される。プログラムは、情報処理装置10の動作をコンピュータに実行させることで、コンピュータを情報処理装置10として機能させる。すなわち、コンピュータは、プログラムに従って情報処理装置10の動作を実行することにより情報処理装置10として機能する。
【0026】
本実施形態においてプログラムは、コンピュータで読取り可能な記録媒体に記録しておくことができる。コンピュータで読取り可能な記録媒体は、非一時的なコンピュータ読取可能な媒体を含み、例えば、磁気記録装置、光ディスク、光磁気記録媒体、又は半導体メモリである。プログラムの流通は、例えば、プログラムを記録したDVD(digital versatile disc)又はCD-ROM(compact disc read only memory)などの可搬型記録媒体を販売、譲渡、又は貸与することによって行う。またプログラムの流通は、プログラムを外部サーバのストレージに格納しておき、外部サーバから他のコンピュータにプログラムを送信することにより行ってもよい。またプログラムはプログラムプロダクトとして提供されてもよい。
【0027】
情報処理装置10の一部又は全ての機能が、制御部11に相当する専用回路により実現されてもよい。すなわち、情報処理装置10の一部又は全ての機能が、ハードウェアにより実現されてもよい。
【0028】
本実施形態において記憶部12は、例えば実績データ及び予測モデルを記憶する。なお実績データ及び予測モデルは、情報処理装置10とは別の外部装置に記憶されていてもよい。その場合、情報処理装置10は、外部通信用インタフェースを備えていてもよい。通信用インタフェースは、有線通信又は無線通信のいずれのインタフェースであってよい。有線通信の場合、通信用インタフェースは例えばLANインタフェース、USBである。無線通信の場合、通信用インタフェースは例えば、LTE、4G、若しくは5Gなどの移動通信規格に対応したインタフェース、Bluetooth(登録商標)などの近距離無線通信に対応したインタフェースである。通信用インタフェースは、情報処理装置10の動作に用いられるデータを受信し、また情報処理装置10の動作によって得られるデータを送信可能である。
【0029】
(情報処理装置の動作)
次に
図2を参照して、本実施形態に係る情報処理装置10の動作について説明する。
【0030】
ステップS101:情報処理装置10の制御部11は、合成樹脂の化学反応に係る実績データに基づきニューラルネットワークモデルを訓練する。実績データには、合成樹脂の化学反応に係る説明因子及び目的因子が含まれる。かかる説明因子及び目的因子は予測する対象の合成樹脂の化学反応に応じて適宜選択される。予測対象の合成樹脂の化学反応は、例えば重縮合反応及び付加重合反応を含む。重縮合反応は脱水縮合反応を含む。例えば脱水縮合反応にかかる予測を行う場合、実験データは脱水縮合反応に係る複数の説明因子及び目的因子を含む。例えば複数の説明因子は脱水昇温工程に係る特徴量等を含んでもよい。また、目的因子は、水酸基価、酸価等を含んでもよい。換言すると制御部11は、実績データに含まれるこれらの説明因子及び目的因子を教師データとして、ニューラルネットワークモデルを訓練する。
【0031】
実績データの取得には、任意の手法が採用可能である。例えば制御部11は、記憶部12から実績データを取得する。また制御部11は、ユーザからの実績データの入力を入力部13により受け付けることで、実績データを取得してもよい。あるいは制御部11は、実績データを記憶した外部装置から通信用インタフェースを介して、かかる実績データを取得してもよい。
【0032】
教師データに基づき訓練されたニューラルネットワークモデルは、既知データに基づき交差検証が行われる。かかる交差検証の結果、精度が実用範囲内である場合には、当該ニューラルネットワークモデルを用いた合成樹脂の化学反応に係る予測が行われる。
【0033】
ステップS102:制御部11は、合成樹脂の化学反応に係る複数の説明因子に基づき、合成樹脂の化学反応に係る目的因子を予測する。例えば制御部11は、ユーザからの説明因子の入力を入力部13により受け付けることで、目的因子を取得してもよい。
【0034】
ステップS103:制御部11は、ステップS102により得られた予測結果を出力部14により出力する。
【0035】
ここで本実施形態では、活性化関数の係数が中間層と出力層とで異なることを特徴としている。具体的には、本実施形態において中間層に係る活性化関数の係数は、出力層に係る活性化関数の係数よりも大きいことを特徴としている。
【0036】
図3に、本実施形態に係るニューラルネットワークモデルの概念図を示す。本実施形態に係るニューラルネットワークモデルは、入力層100と、中間層200と、出力層300とを含む。本実施形態におけるニューラルネットワークモデルは全結合である。本実施形態において、ニューラルネットワークモデルの階層数は例えば2である。かかる階層数は入力層を除く層の数である。ニューラルネットワークモデルの階層数を2とすることで、合成樹脂の化学反応における物理現象にそぐわないモデル形状となることを防ぐことができる。換言すると、ニューラルネットワークモデルの階層数を必要最低限に抑えることで、合成樹脂の化学反応における物理現象に適したモデル形状を実現することができる。なお本実施形態にかかるニューラルネットワークモデルの階層数はこれに限られず、3層以上であってもよい。ニューラルネットワークモデルの階層数が3層以上である場合、ニューラルネットワークモデルの前層ほど活性化関数の係数が大きくなるように設定されてもよい。
【0037】
入力層100は、複数の素子101―104(入力素子101―104ともいう)を含む。
図3に示すニューラルネットワークモデルでは入力素子数は4である。入力素子101―104は、それぞれ1番目―4番目の素子ともよばれる。入力素子101―104には、それぞれ説明因子が入力される。なお入力素子の数はこれに限られない。
【0038】
中間層200は、複数の素子201―206(中間素子201―206ともいう)を含む。
図3に示すニューラルネットワークモデルでは中間素子数は6である。中間素子201―206は、それぞれ1番目―6番目の素子ともよばれる。なお中間素子の数はこれに限られない。
【0039】
出力層300は、複数の素子301―302(出力素子301―302ともいう)を含む。
図3に示すニューラルネットワークモデルでは出力素子数は2である。出力素子301及び302は、それぞれ1番目及び2番目の素子ともよばれる。なお出力素子の数はこれに限られない。
【0040】
入力層100の入力素子101―104から中間層200の中間素子201―206に入力される値は、中間層200において中間層200に係る活性化関数に基づき変換される。また変換された値は、出力層300の素子301―302に出力される。中間層200に係る活性化関数は、例えばシグモイド関数である。グラフ210は、中間層200に係る活性化関数の一例を示す。中間層200の中間素子201―206から出力層300の出力素子301―302に入力される値は、出力層300において、出力層300に係る活性化関数に基づき変換されて出力される。出力層300に係る活性化関数は、例えばシグモイド関数である。グラフ310は、出力層300に係る活性化関数の一例を示す。具体的には中間層及び前記出力層に係る活性化関数は、例えばそれぞれ以下の数式(1)(2)により定められるシグモイド関数である。
【0041】
【0042】
本実施形態にかかるニューラルネットワークモデルでは、中間層に係る活性化関数の係数が、出力層に係る活性化関数の係数よりも大きい。これにより、合成樹脂の化学反応に係る予測を行う際のニューラルネットワークモデルの構成を最適化できる。具体的には、合成樹脂の化学反応に係る予測を行うニューラルネットワークモデルにおいては、説明因子の変化は、明確な変化として捉えられることが望ましい。そのため中間層に係る活性化関数の係数を出力層に係る活性化関数の係数よりも大きくすることにより、中間層への入力値の変化を明確な変化として出力層に伝えることができる。他方で、合成樹脂の化学反応に係る予測を行うニューラルネットワークモデルの出力層においては、教師データと目的因子の値を収束させる必要がある。そこで、出力層に係る活性化関数の係数は、中間層に係る活性化関数の係数よりも小さく設定される。このようにすることで、出力層から出力される目的因子の値は微調整される。
【0043】
また活性化関数の係数を中間層と出力層とで異ならせることにより、ニューラルネットワークモデルの学習過程が最適化される。具体的には、活性化関数の係数を変更することにより、学習過程における出力層と中間層における重み変数の更新量を調整することができる。また重み変数の更新は学習過程に大きな影響がある。そのため学習過程は、更新量の調整に基づき最適化され得る。以下、L層のニューラルネットワークモデルにおける重み変数の更新量について説明する。
【0044】
まずL番目の層(出力層)の重み変数の更新量について説明する。かかる重み変数の更新量は、損失関数の偏微分に基づき以下の数式(3)により定められる。
【0045】
【0046】
数式(3)における右辺の損失関数の偏微分は微分の連鎖律に基づき以下のように変形できる。
【数4】
【0047】
【0048】
【0049】
【0050】
【0051】
また、数式(7)は以下のように変形できる。
【0052】
【0053】
損失関数が二乗誤差関数である場合、損失関数は以下のように表される。
【0054】
【0055】
損失関数が二乗誤差関数である場合、数式(8)は以下のように変形できる。
【数10】
【0056】
第L層の活性化関数がシグモイド関数の場合、活性化関数は以下のように表される。
【数11】
【0057】
数式(10)の右辺の第2項は、数式(11)に基づき以下のように式変形できる。
【0058】
【0059】
さらに数式(12)は以下のように変形できる。
【0060】
【0061】
数式(5)から数式(13)に基づき、数式(4)は以下のように変形できる。
【0062】
【0063】
数式(14)の右辺の各変数はすべて数値計算により得られる値である。したがって、左辺の値は数値計算により確定できる。したがって、数式(3)に示す出力層の各重み変数の更新量は、数値計算に基づき求めることができる。
【0064】
次に、ニューラルネットワークモデルの学習過程における中間層の更新量について説明する。中間層の重み変数の更新量は、損失関数の偏微分に基づき以下の数式(15)により定められる。
【0065】
【0066】
数式(15)における右辺の損失関数の偏微分は微分の連鎖律に基づき以下のように変形できる。
【0067】
【0068】
【0069】
【0070】
【0071】
【0072】
【0073】
数式(19)の右辺はさらに以下のように変形できる。
【0074】
【0075】
第l層の活性化関数がシグモイド関数の場合、活性化関数は以下のように表される。
【0076】
【0077】
第l層の活性化関数が上記のシグモイド関数の場合、数式(20)の右辺は以下のように変形できる。
【0078】
【0079】
数式(22)は、さらに以下のように式変形できる。
【0080】
【0081】
数式(17)から数式(23)に基づき、数式(16)は、以下のように変形できる。
【数24】
【0082】
【0083】
数式(14)及び数式(24)に示されるように、各重み変数の更新量の算出過程において、活性化関数の係数が関係する。具体的には、中間層及び出力層の活性化関数がシグモイド関数である場合、更新量は活性化関数のal及びaLにそれぞれ比例する。換言するとシグモイド関数の係数al及びaLを変更することにより、重み変数の更新量を調整することができ、ニューラルネットワークモデルの学習過程を最適化することができる。
【0084】
具体的には、合成樹脂の化学反応に係る予測を行う際のニューラルネットワークモデルにおいては、中間層に係る重み変数の更新量は比較的大きくすることが好ましい。これにより、中間層における重み変数が学習過程においてより大きく変動し、中間層への入力値の変化を明確な変化として出力層に伝えることができる。他方で、出力層に係る重み変数の更新量は比較的小さくすることが好ましい。これにより、出力層における重み変数が学習過程においてより小さく変動し、教師データと目的因子の値が収束しやすくなる。また、al>aLを満たすことにより、任意の滑らかな関数を十分な精度で近似することが可能となるため、不用意に中間層の層数を増やす必要がなくなる。これにより中間層が1層でも十分な精度を得ることができる。中間層を少なく取ることは過学習の発生を抑制する事に直結するため、学習処理の安定性、更にはモデルのロバスト性についても副次的な効果がある。
【0085】
本実施形態に係るニューラルネットワークモデルにおいて、中間層におけるシグモイド関数の係数は例えば0.75であり、出力層におけるシグモイド関数の係数は例えば0.1である。
図4は、中間層のシグモイド関数の係数を0.75とし、出力層のシグモイド関数の係数を0.1とした場合のニューラルネットワークモデルの、合成樹脂の化学反応にかかる予測の学習収束結果を示す。なお学習終了誤差は0.003、学習回数は20万回、入力因子数は13、中間素子数は20、出力因子数は1としている。
図4に示すように、教師データとAI収束値との値はほとんど一致しており、ほぼ限界値まで収束している。このように、合成樹脂の化学反応に係る予測を行う際のニューラルネットワークモデルにおいて、中間層におけるシグモイド関数の係数を出力層におけるシグモイド関数の係数より大きくすることで、高精度の予測モデルが得られる。
【0086】
図5は、比較例として、中間層のシグモイド関数の係数を0.75とし、出力層のシグモイド関数の係数を0.75とした場合のニューラルネットワークモデルの学習収束結果を示す。なお学習誤差、学習回数、入力因子数、中間素子数、出力因子数は
図4の学習条件と同一である。
図5に示すように、教師データとAI収束値との値が一部で相違しており、
図4に示すニューラルネットワークモデルよりも精度が悪い。
【0087】
図6は、比較例として、中間層のシグモイド関数の係数を0.1とし、出力層のシグモイド関数の係数を0.1とした場合のニューラルネットワークモデルの学習収束結果を示す。なお学習誤差、学習回数、入力因子数、中間素子数、出力因子数は
図4の学習条件と同一である。
図6に示すように、教師データとAI収束値との値が一部で相違しており、
図4に示すニューラルネットワークモデルよりも精度が悪い。
【0088】
図7は、比較例として、中間層のシグモイド関数の係数を0.4とし、出力層のシグモイド関数の係数を0.4とした場合のニューラルネットワークモデルの学習収束結果を示す。なお学習誤差、学習回数、入力因子数、中間素子数、出力因子数は
図4の学習条件と同一である。
図7に示すように、教師データとAI収束値との値が一部で相違しており、
図4に示すニューラルネットワークモデルよりも精度が悪い。
【0089】
以上の
図4―7の各モデルの学習収束結果から示されるように、合成樹脂の化学反応を予測するニューラルネットワークモデルにおいては、中間層のシグモイド関数の係数が、出力層のシグモイド関数の係数よりも大きい場合に、最も精度が高くなることがわかる。このように、本実施形態によれば合成樹脂の化学反応に係る予測技術を改善することができる。
【0090】
また本実施形態において、ニューラルネットワークモデルのハイパーパラメータは適宜調整されてよい。例えば学習定数は微分動作による重みの修正動作が行える最小の値であれば任意の値であってよい。また例えば本実施形態においてニューラルネットワークモデルの中間素子数は、説明因子数(入力層の素子数)の1.1倍以上6倍未満であってもよい。中間素子数は、出力層の素子数に基づき設定されてもよい。具体的には例えば中間素子数、シグモイド関数の係数、及び学習回数は、例えば以下のように調整できる。
1.中間素子数
・出力素子数が1の場合、1.1倍―3倍
・出力素子数が2の場合、1.1倍―4.5倍
・出力素子数が3の場合、1.1倍―6倍
2.シグモイド関数の係数
中間層:0.70―0.80
出力層:0.095―0.15
3.学習回数
10万回―20万回(学習データが50―100組程度の場合)
【0091】
また本実施形態において、各説明因子の数値範囲及び各目的因子の数値範囲は適宜調整されてよい。例えば入力層に入力される説明因子の数値範囲は、0以上かつ1以下であり、出力層から出力される目的因子の数値範囲は0.2以上かつ0.8以下であるようにしてもよい。このように説明因子側は、ニューラルネットワークが扱える0以上かつ1以下のフルスケールとしてよい。他方で、目的因子側は、0.2以上かつ0.8以下に限定することで、数値としての探索範囲を狭め、数値計算における探索を容易化することができる。
【0092】
なお本実施形態において、中間層及び出力層の活性化関数がシグモイド関数である場合を説明したが、活性化関数はシグモイド関数に限られない。例えば中間層及び出力層の活性化関数は、双曲線正接関数(tanh関数)、ランプ関数(ReLU)等の関数であってもよい。
【0093】
なお本実施形態では、予測対象が合成樹脂の化学反応である場合を一例として説明したが、予測対象はこれに限られない。予測対象は例えば、任意の物質の化学反応等の物理・化学現象の予測であってよい。また予測対象は、物理・化学現象等でなくてもよい。つまり、本実施形態に係る技術は、ニューラルネットワーク等を用いたモデリング全般において用いることができる。
【0094】
本開示を諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形及び修正を行うことが容易であることに注意されたい。したがって、これらの変形及び修正は本開示の範囲に含まれることに留意されたい。例えば、各手段又は各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段又はステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。
【符号の説明】
【0095】
10 情報処理装置
11 制御部
12 記憶部
13 入力部
14 出力部
入力層 100
中間層 200
出力層 300
素子 101―104、201―206、301―302
グラフ 210、310
【要約】
予測対象に係る予測技術を改善する。
情報処理装置10が実行する予測方法であって、予測対象に係る実績データに基づきニューラルネットワークモデルを訓練するステップと、ニューラルネットワークモデルにより、予測対象に係る複数の説明因子に基づき、予測対象に係る目的因子を予測するステップと、を含み、ニューラルネットワークモデルは、入力層と中間層と出力層とを含み、中間層に係る活性化関数の係数は、出力層に係る活性化関数の係数よりも大きい。