IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ DIC株式会社の特許一覧

特許7388607予測モデルの学習過程の評価を支援する方法、情報処理装置、及びプログラム
<>
  • 特許-予測モデルの学習過程の評価を支援する方法、情報処理装置、及びプログラム 図1
  • 特許-予測モデルの学習過程の評価を支援する方法、情報処理装置、及びプログラム 図2
  • 特許-予測モデルの学習過程の評価を支援する方法、情報処理装置、及びプログラム 図3
  • 特許-予測モデルの学習過程の評価を支援する方法、情報処理装置、及びプログラム 図4
  • 特許-予測モデルの学習過程の評価を支援する方法、情報処理装置、及びプログラム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-11-20
(45)【発行日】2023-11-29
(54)【発明の名称】予測モデルの学習過程の評価を支援する方法、情報処理装置、及びプログラム
(51)【国際特許分類】
   G06N 3/09 20230101AFI20231121BHJP
   G06N 3/048 20230101ALI20231121BHJP
【FI】
G06N3/09
G06N3/048
【請求項の数】 9
(21)【出願番号】P 2023559851
(86)(22)【出願日】2023-05-22
(86)【国際出願番号】 JP2023019012
【審査請求日】2023-09-27
(31)【優先権主張番号】P 2023017144
(32)【優先日】2023-02-07
(33)【優先権主張国・地域又は機関】JP
【早期審査対象出願】
(73)【特許権者】
【識別番号】000002886
【氏名又は名称】DIC株式会社
(74)【代理人】
【識別番号】100177426
【弁理士】
【氏名又は名称】粟野 晴夫
(74)【代理人】
【識別番号】100141601
【弁理士】
【氏名又は名称】貴志 浩充
(74)【代理人】
【識別番号】100164471
【弁理士】
【氏名又は名称】岡野 大和
(72)【発明者】
【氏名】長尾 敦
【審査官】行田 悦資
(56)【参考文献】
【文献】特開平03-118657(JP,A)
【文献】特開2019-070950(JP,A)
【文献】国際公開第2020/158760(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/09
G06N 3/048
(57)【特許請求の範囲】
【請求項1】
情報処理装置が実行する、予測モデルの学習過程の評価を支援する方法であって、
説明因子及び目的因子を含む実績データに基づき、入力層と中間層と出力層とを含むニューラルネットワークモデルを訓練するステップと、
前記ニューラルネットワークモデルの前記中間層及び前記出力層に入力される入力値に係る統計情報を出力するステップと、
を含む方法。
【請求項2】
請求項1に記載の方法であって、
前記統計情報は、前記中間層に入力される入力値に係る第1頻度分布と、前記出力層に入力される入力値に係る第2頻度分布とを含む方法。
【請求項3】
請求項2に記載の方法であって、さらに、
前記第1頻度分布を前記中間層に係る活性化関数とともに表示するステップと、
前記第2頻度分布を前記出力層に係る活性化関数とともに表示するステップと、
を含む方法。
【請求項4】
請求項2に記載の方法であって、さらに
前記第1頻度分布に基づき定まる第1ピークが前記中間層に係る活性化関数に基づき定められる第1所定範囲内であるか否かを判定するステップと、
前記第2頻度分布に基づき定まる第2ピークが前記出力層に係る活性化関数に基づき定められる第2所定範囲内であるか否かを判定するステップと、
を含む方法。
【請求項5】
請求項4に記載の方法であって、
前記第1所定範囲は、前記中間層に係る活性化関数の出力値が0.01以上0.99未満である範囲又は前記中間層に係る活性化関数の微分値が0より大きい範囲であり、前記第2所定範囲は、前記出力層に係る活性化関数の出力値が0.01以上0.99未満である範囲又は前記出力層に係る活性化関数の微分値が0より大きい範囲である方法。
【請求項6】
請求項5に記載の方法であって、
前記活性化関数はシグモイド関数である方法。
【請求項7】
請求項1に記載の方法であって、さらに、
前記ニューラルネットワークモデルの重み係数の初期値は、前記中間層に係る活性化関数に基づき定められる第1所定範囲と、前記出力層に係る活性化関数に基づき定められる第2所定範囲とに基づき定められる、方法。
【請求項8】
制御部を備え、予測モデルの学習過程の評価を支援する情報処理装置であって、
前記制御部は、
説明因子及び目的因子を含む実績データに基づき、入力層と中間層と出力層とを含むニューラルネットワークモデルを訓練し、
前記ニューラルネットワークモデルの前記中間層及び前記出力層に入力される入力値に係る統計情報を出力する情報処理装置。
【請求項9】
情報処理装置が実行する予測モデルの学習過程の評価を支援するプログラムであって、コンピュータに、
説明因子及び目的因子を含む実績データに基づき、入力層と中間層と出力層とを含むニューラルネットワークモデルを訓練することと、
前記ニューラルネットワークモデルの前記中間層及び前記出力層に入力される入力値に係る統計情報を出力することと、
を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、予測モデルの学習過程の評価を支援する方法、情報処理装置、及びプログラムに関する。本願は、2023年2月7日に、日本に出願された特願2023―017144に基づき優先権を主張し、その内容をここに援用する。
【背景技術】
【0002】
従来から、化学反応等の物理・化学現象に係る予測を行う手法が提案されている(例えば特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【文献】国際公開第2003/026791号
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に記載の技術では、反応器システムの制御を最適化するために、ニューラルネットワーク、部分最小二乗法、主成分回帰等のモデリング技術を用いられることが記載されている。しかしながら、特許文献1では予測モデルの学習過程の評価方法については考慮されておらず、予測モデルの評価支援技術には改善の余地があった。
【0005】
かかる事情に鑑みてなされた本開示の目的は、予測モデルの評価支援技術を改善することにある。
【課題を解決するための手段】
【0006】
(1)本開示の一実施形態に係る方法は、情報処理装置が実行する、予測モデルの学習過程の評価を支援する方法であって、
説明因子及び目的因子を含む実績データに基づき、入力層と中間層と出力層とを含むニューラルネットワークモデルを訓練するステップと、
前記ニューラルネットワークモデルの前記中間層及び前記出力層に入力される入力値に係る統計情報を出力するステップと、
を含む。
【0007】
(2)本開示の一実施形態に係る予測モデルの学習過程の評価を支援する方法は、(1)に記載の方法であって、前記統計情報は、前記中間層に入力される入力値に係る第1頻度分布と、前記出力層に入力される入力値に係る第2頻度分布とを含む。
【0008】
(3)本開示の一実施形態に係る予測モデルの学習過程の評価を支援する方法は、(2)に記載の方法であって、
前記第1頻度分布を前記中間層に係る活性化関数とともに表示するステップと、
前記第2頻度分布を前記出力層に係る活性化関数とともに表示するステップと、
を含む。
【0009】
(4)本開示の一実施形態に係る予測モデルの学習過程の評価を支援する方法は、(2)又は(3)に記載の方法であって、
前記第1頻度分布に基づき定まる第1ピークが前記中間層に係る活性化関数に基づき定められる第1所定範囲内であるか否かを判定するステップと、
前記第2頻度分布に基づき定まる第2ピークが前記出力層に係る活性化関数に基づき定められる第2所定範囲内であるか否かを判定するステップと、
を含む。
【0010】
(5)本開示の一実施形態に係る予測モデルの学習過程の評価を支援する方法は、(4)に記載の方法であって、
前記第1所定範囲は、前記中間層に係る活性化関数の出力値が0.01以上0.99未満である範囲又は前記中間層に係る活性化関数の微分値が0より大きい範囲であり、前記第2所定範囲は、前記出力層に係る活性化関数の出力値が0.01以上0.99未満である範囲又は前記出力層に係る活性化関数の微分値が0より大きい範囲である。
【0011】
(6)本開示の一実施形態に係る予測モデルの学習過程の評価を支援する方法は、(5)に記載の方法であって、
前記活性化関数はシグモイド関数である。
【0012】
(7)本開示の一実施形態に係る予測モデルの学習過程の評価を支援する方法は、(1)乃至(3)のいずれかに記載の方法であって、
前記ニューラルネットワークモデルの重み係数の初期値は、前記中間層に係る活性化関数に基づき定められる第1所定範囲と、前記出力層に係る活性化関数に基づき定められる第2所定範囲とに基づき定められる。
【0013】
(8)本開示の一実施形態に係る情報処理装置は、制御部を備え、予測モデルの学習過程の評価を支援する情報処理装置であって、
前記制御部は、
説明因子及び目的因子を含む実績データに基づき、入力層と中間層と出力層とを含むニューラルネットワークモデルを訓練し、
前記ニューラルネットワークモデルの前記中間層及び前記出力層に入力される入力値に係る統計情報を出力する。
【0014】
(9)本開示の一実施形態に係る非一時的なコンピュータ読取可能記録媒体は、
命令を記憶した非一時的なコンピュータ読取可能記録媒体であって、前記命令は、プロセッサによって実行された時に、プロセッサに、
説明因子及び目的因子を含む実績データに基づき、入力層と中間層と出力層とを含むニューラルネットワークモデルを訓練することと、
前記ニューラルネットワークモデルの前記中間層及び前記出力層に入力される入力値に係る統計情報を出力することと、
を実行させる。
【発明の効果】
【0015】
本開示の一実施形態に係る方法、情報処理装置、及びプログラムによれば、予測モデルの評価支援技術を改善することができる。
【図面の簡単な説明】
【0016】
図1】本実施形態に係る情報処理装置の概略構成を示すブロック図である。
図2】本実施形態に係る情報処理装置の動作を示すフローチャートである。
図3】本実施形態に係るニューラルネットワークモデルの概念図である。
図4】本実施形態に係るニューラルネットワークモデルの中間層に入力される入力値に係る統計情報の一例である。
図5】本実施形態に係るニューラルネットワークモデルの出力層に入力される入力値に係る統計情報の一例である。
【発明を実施するための形態】
【0017】
以下、本開示の実施形態に係る予測モデルの学習過程の評価を支援する方法、情報処理装置、及びプログラムについて、図面を参照して説明する。本実施形態に係る予測モデルの予測対象は任意のものであってよい。つまり本実施形態に係る技術は、ニューラルネットワーク等を用いたモデリング全般において用いることができる。例えば本実施形態に係る予測モデルの予測対象は合成樹脂の化学反応等を含む。合成樹脂の化学反応は、例えば重縮合反応及び付加重合反応を含む。重縮合反応は、脱水縮合反応を含む。本実施形態に係る予測モデルの予測対象の化学反応はこれらに限られず、予測対象は合成樹脂以外の化学反応であってもよい。以下、本実施の形態では、予測モデルの予測対象が合成樹脂等の化学反応である例について説明するが、これに限られない。
【0018】
各図中、同一又は相当する部分には、同一符号を付している。本実施形態の説明において、同一又は相当する部分については、説明を適宜省略又は簡略化する。
【0019】
まず、本実施形態の概要について説明する。本実施形態に係る方法は、情報処理装置10により実行される。情報処理装置10は、化学反応に係る説明因子及び目的因子を含む実績データに基づき、入力層と中間層と出力層とを含むニューラルネットワークモデルを訓練する。すなわち本実施形態に係る方法で評価する対象の予測モデルは、ニューラルネットワークモデルである。また本実施形態に係る方法において、情報処理装置10は、ニューラルネットワークモデルの中間層及び出力層に入力される入力値に係る統計情報を出力する。
【0020】
このように本実施形態に係る方法では、ニューラルネットワークモデルの中間層及び出力層に入力される入力値に係る統計情報が出力されることを特徴とする。後述するように、当該統計情報が出力されることにより、化学反応を予測する予測モデルの学習過程の妥当性をユーザが客観的に評価することができる。したがって本実施形態に係る評価支援技術は、一般的なモデル評価手法である交差検証だけで測ることができない、将来の未知データに対しても予測結果にロバスト性を保証する評価方法として用いることができる。したがって本実施形態によれば、化学反応を予測する予測モデルの評価支援技術を改善することができる。
【0021】
(情報処理装置の構成)
次に図1を参照して、情報処理装置10の各構成について詳細に説明する。情報処理装置10は、ユーザによって使用される任意の装置である。例えばパーソナルコンピュータ、サーバコンピュータ、汎用の電子機器、又は専用の電子機器が、情報処理装置10として採用可能である。
【0022】
図1に示されるように、情報処理装置10は、制御部11と、記憶部12と、入力部13と、出力部14とを備える。
【0023】
制御部11には、少なくとも1つのプロセッサ、少なくとも1つの専用回路、又はこれらの組み合わせが含まれる。プロセッサは、CPU(central processing unit)若しくはGPU(graphics processing unit)などの汎用プロセッサ、又は特定の処理に特化した専用プロセッサである。専用回路は、例えば、FPGA(field-programmable gate array)又はASIC(application specific integrated circuit)である。制御部11は、情報処理装置10の各部を制御しながら、情報処理装置10の動作に関わる処理を実行する。
【0024】
記憶部12には、少なくとも1つの半導体メモリ、少なくとも1つの磁気メモリ、少なくとも1つの光メモリ、又はこれらのうち少なくとも2種類の組み合わせが含まれる。半導体メモリは、例えば、RAM(random access memory)又はROM(read only memory)である。RAMは、例えば、SRAM(static random access memory)又はDRAM(dynamic random access memory)である。ROMは、例えば、EEPROM(electrically erasable programmable read only memory)である。記憶部12は、例えば、主記憶装置、補助記憶装置、又はキャッシュメモリとして機能する。記憶部12には、情報処理装置10の動作に用いられるデータと、情報処理装置10の動作によって得られたデータとが記憶される。
【0025】
入力部13には、少なくとも1つの入力用インタフェースが含まれる。入力用インタフェースは、例えば、物理キー、静電容量キー、ポインティングデバイス、ディスプレイと一体的に設けられたタッチスクリーンである。また入力用インタフェースは、例えば、音声入力を受け付けるマイクロフォン、又はジェスチャー入力を受け付けるカメラ等であってもよい。入力部13は、情報処理装置10の動作に用いられるデータを入力する操作を受け付ける。入力部13は、情報処理装置10に備えられる代わりに、外部の入力機器として情報処理装置10に接続されてもよい。接続方式としては、例えば、USB(Universal Serial Bus)、HDMI(登録商標)(High-Definition Multimedia Interface)、又はBluetooth(登録商標)などの任意の方式を用いることができる。
【0026】
出力部14には、少なくとも1つの出力用インタフェースが含まれる。出力用インタフェースは、例えば、情報を映像で出力するディスプレイ等である。ディスプレイは、例えば、LCD(liquid crystal display)又は有機EL(electro luminescence)ディスプレイである。出力部14は、情報処理装置10の動作によって得られるデータを表示出力する。出力部14は、情報処理装置10に備えられる代わりに、外部の出力機器として情報処理装置10に接続されてもよい。接続方式としては、例えば、USB、HDMI(登録商標)、又はBluetooth(登録商標)などの任意の方式を用いることができる。
【0027】
情報処理装置10の機能は、本実施形態に係るプログラムを、情報処理装置10に相当するプロセッサで実行することにより実現される。すなわち、情報処理装置10の機能は、ソフトウェアにより実現される。プログラムは、情報処理装置10の動作をコンピュータに実行させることで、コンピュータを情報処理装置10として機能させる。すなわち、コンピュータは、プログラムに従って情報処理装置10の動作を実行することにより情報処理装置10として機能する。
【0028】
本実施形態においてプログラムは、コンピュータで読取り可能な記録媒体に記録しておくことができる。コンピュータで読取り可能な記録媒体は、非一時的なコンピュータ読取可能な媒体を含み、例えば、磁気記録装置、光ディスク、光磁気記録媒体、又は半導体メモリである。プログラムの流通は、例えば、プログラムを記録したDVD(digital versatile disc)又はCD-ROM(compact disc read only memory)などの可搬型記録媒体を販売、譲渡、又は貸与することによって行う。またプログラムの流通は、プログラムを外部サーバのストレージに格納しておき、外部サーバから他のコンピュータにプログラムを送信することにより行ってもよい。またプログラムはプログラムプロダクトとして提供されてもよい。
【0029】
情報処理装置10の一部又は全ての機能が、制御部11に相当する専用回路により実現されてもよい。すなわち、情報処理装置10の一部又は全ての機能が、ハードウェアにより実現されてもよい。
【0030】
本実施形態において記憶部12は、例えば実績データ及び予測モデルを記憶する。なお実績データ及び予測モデルは、情報処理装置10とは別の外部装置に記憶されていてもよい。その場合、情報処理装置10は、外部通信用インタフェースを備えていてもよい。通信用インタフェースは、有線通信又は無線通信のいずれのインタフェースであってよい。有線通信の場合、通信用インタフェースは例えばLANインタフェース、USBである。無線通信の場合、通信用インタフェースは例えば、LTE、4G、若しくは5Gなどの移動通信規格に対応したインタフェース、Bluetooth(登録商標)などの近距離無線通信に対応したインタフェースである。通信用インタフェースは、情報処理装置10の動作に用いられるデータを受信し、また情報処理装置10の動作によって得られるデータを送信可能である。
【0031】
(情報処理装置の動作)
次に図2を参照して、本実施形態に係る情報処理装置10の動作について説明する。
【0032】
ステップS101:情報処理装置10の制御部11は、化学反応に係る実績データに基づきニューラルネットワークモデルを訓練する。実績データには、化学反応に係る説明因子及び目的因子が含まれる。かかる説明因子及び目的因子は予測する対象の化学反応に応じて適宜選択される。例えば脱水縮合反応にかかる予測を行う場合、実験データは脱水縮合反応に係る複数の説明因子及び目的因子を含む。例えば複数の説明因子は脱水昇温工程に係る特徴量等を含んでもよい。また、目的因子は、水酸基価、酸価等を含んでもよい。換言すると制御部11は、実績データに含まれるこれらの説明因子及び目的因子を学習データとして、ニューラルネットワークモデルを訓練する。
【0033】
実績データの取得には、任意の手法が採用可能である。例えば制御部11は、記憶部12から実績データを取得する。また制御部11は、ユーザからの実績データの入力を入力部13により受け付けることで、実績データを取得してもよい。あるいは制御部11は、実績データを記憶した外部装置から通信用インタフェースを介して、かかる実績データを取得してもよい。
【0034】
学習データに基づき訓練されたニューラルネットワークモデルは、交差検証が行われる。かかる交差検証の結果、精度が実用範囲内である場合には、当該ニューラルネットワークモデルを用いて、化学反応に係る予測が行われる。
【0035】
ステップS102:制御部11は、ニューラルネットワークモデルの中間層及び出力層に入力される入力値に係る統計情報を出力部14により出力する。
【0036】
ステップS103:制御部11は、化学反応に係る複数の説明因子に基づき、化学反応に係る目的因子を予測する。例えば制御部11は、ユーザからの説明因子の入力を入力部13により受け付けることで、説明因子を取得してもよい。制御部11は、を予測された目的因子を予測結果として出力部14により出力してもよい。
【0037】
図3に、本実施形態に係るニューラルネットワークモデルの概念図を示す。本実施形態に係るニューラルネットワークモデルは、入力層100と、中間層200と、出力層300とを含む。本実施形態におけるニューラルネットワークモデルは全結合である。本実施形態において、ニューラルネットワークモデルの階層数は例えば2である。かかる階層数は入力層を除く層の数である。なお本実施形態にかかるニューラルネットワークモデルの階層数はこれに限られず、3層以上であってもよい。
【0038】
入力層100は、複数の素子101―104(入力素子101―104ともいう)を含む。図3に示すニューラルネットワークモデルでは入力素子数は4である。入力素子101―104は、それぞれ1番目―4番目の素子ともよばれる。入力素子101―104には、それぞれ説明因子が入力される。なお入力素子の数はこれに限られず、4未満であってもよく、5以上であってもよい。
【0039】
中間層200は、複数の素子201―214(中間素子201―214ともいう)を含む。図3に示すニューラルネットワークモデルでは中間素子数は14である。中間素子201―214は、それぞれ1番目―14番目の素子ともよばれる。なお中間素子の数はこれに限られず、14未満であってもよく、15以上であってもよい。
【0040】
出力層300は、素子301(出力素子301)を含む。図3に示すニューラルネットワークモデルでは出力素子数は1である。出力素子301は、1番目の素子ともよばれる。なお出力素子の数はこれに限られず、2以上であってもよい。
【0041】
入力層100の入力素子101―104から中間層200の中間素子201―214に入力される値は、中間層200において、中間層200に係る活性化関数に基づき変換される。また変換された値は、出力層300の素子301に出力される。中間層200に係る活性化関数は、例えばシグモイド関数である。中間層200の中間素子201―214から出力層300の出力素子301に入力される値は、出力層300において、出力層300に係る活性化関数に基づき変換されて出力される。出力層300に係る活性化関数は、例えばシグモイド関数である。具体的には中間層及び出力層に係る活性化関数は、例えばそれぞれ以下の数式(1)(2)により定められるシグモイド関数である。
【0042】
【数1】
【0043】
図4及び図5は、出力部14により出力される統計情報を含む情報(以下、出力情報ともいう。)の具体的な例を示す。図4は、中間層に入力される入力値に係る統計情報を含む出力情報の一例である。かかる統計情報は、中間層に入力される入力値に係る第1頻度分布401を含む。第1頻度分布は、各中間素子にそれぞれ入力される入力値の頻度に係る情報である。本実施形態のニューラルネットワークは14個の中間素子201―214を含む。したがって本実施形態の第1頻度分布は、各中間素子に関するそれぞれの頻度の情報を含む。図4に示すように、出力情報が第1頻度分布を含むことにより、各中間素子201―214に入力される入力値のピークの値が可視化される。
【0044】
ここで出力情報は、中間層に係る活性化関数の情報を含んでもよい。つまり例えば第1頻度分布401は、中間層に係る活性化関数とともに表示されてもよい。図4の出力情報は、例えば中間層に係る活性化関数を示すグラフ402を含む。ここで、本実施形態においては、14個の中間素子の活性化関数はすべて同一である。したがって、中間層に係る活性化関数はグラフ402のみにより表されている。出力情報が中間層に係る活性化関数の情報を含むことにより、中間層に係る活性化関数と、第1頻度分布との関係が可視化される。より具体的には、中間層に係る活性化関数のうちのどの領域が用いられているかが可視化される。例えば活性化関数がシグモイド関数である場合において、入力値が関数の両端の直線部分に集中している場合は、バックプロパゲーション(誤差逆伝播法)を用いた学習過程(以下、単に学習過程ともいう。)が妥当ではないと評価できる。換言すると、関数の両端の直線部分に入力値が集中している場合は、学習過程における非線形性の獲得に失敗している可能性があると評価できる。他方で、シグモイド関数の中央部分(曲線部分)に入力値が集中している場合には、学習過程が妥当であると評価できる。
【0045】
出力情報は、第1所定範囲に係る情報を含んでもよい。第1所定範囲は、中間層に係る活性化関数の出力値が0.01以上0.99未満である範囲である。第1所定範囲は、中間層に係る活性化関数の微分値が0より大きい範囲であってもよい。あるいは第1所定範囲は、中間層に係る活性化関数の微分値が0.001より大きい範囲であってもよい。図4の出力情報は、第1所定範囲を示す矩形枠403を含む。このように出力情報が第1所定範囲に係る情報を含むことにより、第1所定範囲と第1頻度分布との関係が可視化される。例えば図4に示されるように、第1頻度分布で示される入力値の大部分が第1所定範囲内である場合には、学習過程が妥当であると評価できる。他方、第1頻度分布で示される入力値の一部が第1所定範囲内ではない場合には、学習過程が妥当でないと評価できる。
【0046】
図5は、出力層に入力される入力値に係る統計情報を含む出力情報の一例である。かかる統計情報は、出力層に入力される入力値に係る第2頻度分布501を含む。第2頻度分布は、各出力素子にそれぞれ入力される入力値の頻度に係る情報である。本実施形態のニューラルネットワークは1個の出力素子301を含む。したがって本実施形態の第2頻度分布は、出力素子301に関する頻度の情報を含む。図5に示すように、出力情報が第2頻度分布を含むことにより、出力素子301に入力される入力値のピークの値が可視化される。
【0047】
ここで出力情報は、出力層に係る活性化関数の情報を含んでもよい。つまり例えば第2頻度分布501は、出力層に係る活性化関数とともに表示されてもよい。図5の出力情報は、例えば出力層に係る活性化関数を示すグラフ502を含む。出力情報が出力層に係る活性化関数の情報を含むことにより、出力層に係る活性化関数と、第2頻度分布との関係が可視化される。より具体的には、出力層に係る活性化関数のうちのどの領域が用いられているかが可視化される。例えば活性化関数がシグモイド関数である場合において、入力値が関数の両端の直線部分に集中している場合は、学習過程が妥当ではないと評価できる。換言すると、関数の両端の直線部分に入力値が集中している場合は、学習過程における非線形性の獲得に失敗している可能性があると評価できる。他方で、シグモイド関数の中央部分(曲線部分)に入力値が集中している場合には、学習過程が妥当であると評価できる。
【0048】
また出力情報は、第2所定範囲に係る情報を含んでもよい。第2所定範囲は、出力層に係る活性化関数の出力値が0.01以上0.99未満である範囲である。第2所定範囲は、出力層に係る活性化関数の微分値が0より大きい範囲であってもよい。あるいは第2所定範囲は、出力層に係る活性化関数の微分値が0.001より大きい範囲であってもよい。図5の出力情報は、第2所定範囲を示す矩形枠503を含む。このように出力情報が第2所定範囲に係る情報を含むことにより、第2所定範囲と第2頻度分布との関係が可視化される。例えば図5に示されるように、第2頻度分布で示される入力値の大部分が第2所定範囲内である場合には、学習過程が妥当であると評価できる。他方、第2頻度分布で示される入力値の一部が第2所定範囲内でない場合には、学習過程が妥当でないと評価できる。
【0049】
このように本実施形態にかかる方法によれば、学習過程に関連する統計情報を出力することにより、予測モデルの学習過程の妥当性を客観的に評価することができる。具体的には、例えば第1頻度分布、及び第2頻度分布と活性化関数を表示することでこれらの関係を可視化し、学習過程の妥当性を評価することができる。したがって本実施形態によれば、予測モデルの評価支援技術を改善することができる。
【0050】
ここで本実施形態において、学習過程を更に最適化するために、ハイパーパラメータが調整されてもよい。例えば本実施形態において、重み係数の初期値の設定が調整されてもよい。例えば重み係数の初期値は、中間層に係る活性化関数に基づき定められる第1所定範囲と、出力層に係る活性化関数に基づき定められる第2所定範囲とに基づき定められてもよい。上述したように第1所定範囲は、例えば中間層に係る活性化関数の出力値が0.01以上0.99未満である範囲である。また第2所定範囲は、例えば出力層に係る活性化関数の出力値が0.01以上0.99未満である範囲である。具体的には例えば入力層と中間層との間の重み係数は、0以上0.1未満の乱数により設定されてもよい。また中間層と出力層との間の重み変数は、0以上0.2未満の乱数により設定されてもよい。このように設定することで、学習のスタート地点が、それぞれ第1所定範囲及び第2所定範囲になるように調整される。仮にスタート地点が範囲外の場合は再度重み係数の初期値となる乱数のレンジ範囲(入力層と中間層との間の重み変数は、0以上0.1未満等)を調整する事が望ましい。
【0051】
なお、本実施形態では、中間層が1層である場合について説明したが、中間層が2層以上である場合には、各中間層に係る統計情報が出力されてよい。
【0052】
なお、図4において、各中間素子に入力される入力値のピークのプロットが強調表示されてもよい。かかるピークのプロットが強調表示されることにより、第1所定範囲と第1頻度分布との関係の把握がより容易になる。同様に、図5において、出力素子に入力される入力値のピークのプロットが強調表示されてもよい。かかるピークのプロットが強調表示されることにより、第2所定範囲と第2頻度分布との関係の把握がより容易になる。
【0053】
なお、第1頻度分布に基づく学習過程の妥当性の判定は自動化されてもよい。例えば制御部11は、第1頻度分布に基づき定まる第1ピークが第1所定範囲内であるか否かを判定してもよい。また制御部11は、かかる判定結果を出力部14により出力してもよい。当該第1ピークは、第1頻度分布に基づき適宜決定される。例えば第1ピークは、各中間素子の入力値の頻度分布のピークの平均値、中央値等であってもよい。あるいは第1ピークは、全中間素子の入力値に係る頻度分布のピークの集合であってもよい。すなわち、全中間素子の入力値に係る頻度分布のピークが第1所定範囲内であるか否かが判定されてもよい。
【0054】
同様に、第1頻度分布に基づく学習過程の妥当性の判定は自動化されてもよい。例えば制御部11は、第2頻度分布に基づき定まる第2ピークが第2所定範囲内であるか否かを判定してもよい。また制御部11は、かかる判定結果を出力部14により出力してもよい。第2ピークは、第2頻度分布に基づき適宜決定される。例えば第2ピークは、各出力素子の入力値の頻度分布のピーク値の平均値、中央値等であってもよい。あるいは第2ピークは、全出力素子の入力値に係る頻度分布のピークの集合であってもよい。すなわち、全出力素子の入力値に係る頻度分布のピークが第2所定範囲内であるか否かが判定されてもよい。
【0055】
なお本実施形態において、中間層及び出力層の活性化関数がシグモイド関数である場合を説明したが、活性化関数はシグモイド関数に限られない。例えば中間層及び出力層の活性化関数は、双曲線正接関数(tanh関数)、ランプ関数(ReLU)等の関数であってもよい。
【0056】
なお本実施形態では、予測対象が合成樹脂等の化学反応である場合を一例として説明したが、予測対象はこれに限られない。予測対象は例えば、任意の物質の化学反応等の物理・化学現象の予測であってよい。また予測対象は、物理・化学現象等でなくてもよい。つまり、本実施形態に係る技術は、ニューラルネットワーク等を用いたモデリング全般において用いることができる。
【0057】
本開示を諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形及び修正を行うことが容易であることに注意されたい。したがって、これらの変形及び修正は本開示の範囲に含まれることに留意されたい。例えば、各手段又は各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段又はステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。
【符号の説明】
【0058】
10 情報処理装置
11 制御部
12 記憶部
13 入力部
14 出力部
入力層 100
中間層 200
出力層 300
素子 101―104、201―214、301
第1頻度分布 401
第2頻度分布 501
グラフ 402、502
矩形枠 403、503
【要約】
予測モデルの評価支援技術を改善する。
情報処理装置10が実行する、予測モデルの学習過程の評価を支援する方法であって、説明因子及び目的因子を含む実績データに基づき、入力層と中間層と出力層とを含むニューラルネットワークモデルを訓練するステップと、ニューラルネットワークモデルの中間層及び出力層に入力される入力値に係る統計情報を出力するステップと、を含む。
図1
図2
図3
図4
図5