特許7558622 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日揮プラントイノベーション株式会社の特許一覧

特許7558622機械学習装置、反応槽運転支援装置、及び、推論装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-20

(45)【発行日】2024-10-01

(54)【発明の名称】機械学習装置、反応槽運転支援装置、及び、推論装置

(51)【国際特許分類】

C08F 2/01 20060101AFI20240924BHJP

G05B 23/02 20060101ALI20240924BHJP

G06N 20/00 20190101ALI20240924BHJP

G06N 3/08 20230101ALI20240924BHJP

【ＦＩ】

C08F2/01

G05B23/02 E

G06N20/00 130

G06N3/08

【請求項の数】 13

(21)【出願番号】P 2020193066

(22)【出願日】2020-11-20

(65)【公開番号】P2022081866

(43)【公開日】2022-06-01

【審査請求日】2023-08-18

(73)【特許権者】

【識別番号】502040041

【氏名又は名称】日揮株式会社

(74)【代理人】

【識別番号】100214248

【弁理士】

【氏名又は名称】青山純

(74)【代理人】

【識別番号】100214260

【弁理士】

【氏名又は名称】相羽昌孝

(72)【発明者】

【氏名】横山岳志

【審査官】佐藤貴浩

(56)【参考文献】

【文献】特開平０６－００３２４３（ＪＰ，Ａ）

【文献】特開２０２２－０８０７００（ＪＰ，Ａ）

【文献】特開２００２－２４８３４０（ＪＰ，Ａ）

【文献】特開２０１９－１７５４０９（ＪＰ，Ａ）

【文献】特開２０１６－１８９１６６（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｃ０８Ｆ２／００－２／６０

Ｇ０５Ｂ２３／０２

Ｇ０６Ｎ２０／００

Ｇ０６Ｎ３／０８

(57)【特許請求の範囲】

【請求項1】

反応槽内に投入された原材料を撹拌機で攪拌して所定の反応プロセスを行う反応装置の運転パラメータを設定する反応槽運転支援装置にて用いられる学習モデルを生成する機械学習装置であって、
前記反応槽に係る反応槽状態変数、及び、前記撹拌機に係る撹拌機状態変数を入力データとして少なくとも含む学習用データを複数組記憶する学習用データ記憶部と、
前記学習モデルに前記学習用データを複数組入力することで、前記入力データと前記運転パラメータとの相関関係を前記学習モデルに学習させる機械学習部と、
前記機械学習部により学習させた前記学習モデルを記憶する学習済みモデル記憶部と、を備え、
前記入力データに含まれる前記反応槽状態変数は、
前記反応槽の加熱又は徐熱に係る熱量を示す熱量状態変数を少なくとも含み、
前記入力データに含まれる前記撹拌機状態変数は、
攪拌翼を回転する駆動源としてのモータに加わるトルクを示す撹拌機トルクを少なくとも含み、
前記運転パラメータは、
前記反応槽を加熱又は徐熱するときの指令値を示す反応槽運転パラメータ、及び、
前記撹拌機を駆動するときの指令値を示す撹拌機運転パラメータの少なくとも１つを含む、
機械学習装置。

【請求項2】

前記入力データに含まれる前記熱量状態変数は、
前記反応槽の外周に設けられたジャケットに流通される熱媒の温度を示すジャケット熱媒温度、及び、
前記ジャケットに流通される前記熱媒の流量を示すジャケット熱媒流量を少なくとも含む、
請求項１に記載の機械学習装置。

【請求項3】

前記入力データに含まれる前記撹拌機状態変数は、
前記モータの回転数を示すモータ回転数、及び、
前記モータに供給される電流値を示すモータ電流値の少なくとも１つをさらに含む、
請求項１又は請求項２に記載の機械学習装置。

【請求項4】

前記入力データに含まれる前記反応槽状態変数は、
前記反応槽内の温度を示す反応槽温度、
前記反応槽内の圧力を示す反応槽圧力、及び、
前記反応槽の重量を示す反応槽重量の少なくとも１つをさらに含む、
請求項１乃至請求項３のいずれか一項に記載の機械学習装置。

【請求項5】

前記反応槽運転パラメータは、
前記反応槽の外周に設けられたジャケットに流通される熱媒の温度を示すジャケット熱媒温度に関する指令値、及び、
前記ジャケットに流通される前記熱媒の流量を示すジャケット熱媒流量に関する指令値を少なくとも含む、
請求項１乃至請求項４のいずれか一項に記載の機械学習装置。

【請求項6】

前記撹拌機運転パラメータは、
前記モータの回転数を示すモータ回転数に関する指令値、及び、
前記モータに供給される電流値を示すモータ電流値に関する指令値の少なくとも１つを含む、
請求項１乃至請求項５のいずれか一項に記載の機械学習装置。

【請求項7】

前記入力データは、
前記反応槽が設置された外部環境に係る外部環境状態変数をさらに含み、
前記入力データに含まれる前記外部環境状態変数は、
前記外部環境の温度を示す外部環境温度、及び、
前記外部環境の湿度を示す外部環境湿度の少なくとも１つを含む、
請求項１乃至請求項６のいずれか一項に記載の機械学習装置。

【請求項8】

前記学習用データは、
前記運転パラメータを出力データとしてさらに含み、前記入力データ及び前記出力データが対応付けられたものであり、
前記機械学習部は、
前記入力データと前記出力データとの相関関係を教師あり学習により前記学習モデルに学習させる、
請求項１乃至請求項７のいずれか一項に記載の機械学習装置。

【請求項9】

前記入力データに含まれる前記反応槽状態変数及び前記撹拌機状態変数は、
前記反応プロセスが進行する所定期間における時系列データであり、
前記運転パラメータは、
前記所定期間における時系列データである、
請求項８に記載の機械学習装置。

【請求項10】

前記機械学習部は、
前記入力データと前記運転パラメータとの相関関係を強化学習により前記学習モデルに学習させる、
請求項１乃至請求項７のいずれか一項に記載の機械学習装置。

【請求項11】

前記機械学習部は、
前記入力データに基づく前記反応槽内の前記原材料の反応状態に対して前記運転パラ
メータに基づく前記反応装置の運転が行われた後の前記反応状態と、前記反応プロセスの進行に伴って推移する前記反応状態の目標値を示す目標推移との差に基づいて、前記入力データと前記運転パラメータとの相関関係を前記学習モデルに学習させる、
請求項１０に記載の機械学習装置。

【請求項12】

請求項１乃至請求項１１のいずれか一項に記載の機械学習装置により生成された学習モデルを用いて、反応槽内に投入された原材料を撹拌機で攪拌して所定の反応プロセスを行う反応装置の運転パラメータを設定する反応槽運転支援装置であって、
前記反応槽に係る反応槽状態変数、及び、前記撹拌機に係る撹拌機状態変数を少なくとも含む入力データを取得する入力データ取得部と、
前記入力データ取得部により取得された前記入力データを前記学習モデルに入力し、前記運転パラメータを推論する推論部と、を備える、
反応槽運転支援装置。

【請求項13】

反応槽内に投入された原材料を撹拌機で攪拌して所定の反応プロセスを行う反応装置の運転パラメータを設定するために用いられる推論装置であって、
前記推論装置は、メモリと、プロセッサとを備え、
前記プロセッサは、
前記反応槽に係る反応槽状態変数、及び、前記撹拌機に係る撹拌機状態変数を少なくとも含む入力データを取得する入力データ取得処理と、
前記入力データ取得処理にて前記入力データを取得すると、前記運転パラメータを推論する推論処理と、を実行し、
前記入力データに含まれる前記反応槽状態変数は、
前記反応槽の加熱又は徐熱に係る熱量を示す熱量状態変数を少なくとも含み、
前記入力データに含まれる前記撹拌機状態変数は、
攪拌翼を回転する駆動源としてのモータに加わるトルクを示す撹拌機トルクを少なくとも含み、
前記運転パラメータは、
前記反応槽を加熱又は徐熱するときの指令値を示す反応槽運転パラメータ、及び、
前記撹拌機を駆動するときの指令値を示す撹拌機運転パラメータの少なくとも１つを含む、
推論装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、機械学習装置、反応槽運転支援装置、及び、推論装置に関する。

【背景技術】

【0002】

重合プロセスにより合成樹脂を製造する製造設備として、反応槽を備える反応装置が広く使用されている。例えば、特許文献１には、反応槽と、反応槽の外周に設けられたジャケットと、反応槽の内部に配置された攪拌翼と、攪拌翼の動力源となる撹拌動力とを備える反応装置が開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０００－２６４９０９号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

特許文献１には、重合温度の調整方法や撹拌機（攪拌翼）による撹拌方法についての具体的な反応装置の運転方法が開示されておらず、どのように反応装置の運転パラメータが設定されるのかが不明である。

【0005】

また、重合プロセスに限られず、反応槽内に投入された原材料を撹拌機で攪拌して所定の反応プロセスにより生成物を製造する際、作業者が反応装置の各部を手動で操作する場合もあれば、反応装置が反応装置の各部を自動で制御する制御部を備え、制御部が自動で制御する場合もある。

【0006】

前者の場合には、作業者の経験（暗黙知を含む）に依存した判断に基づいて反応装置が操作されるため、担当する作業者によって運転パラメータを設定するときの判断や基準が異なり、製造品質や製造時間に差が生じる。経験豊富な熟練の作業者によれば、製造品質の向上や製造時間の短縮が見込まれるが、そのような結果が常に得られるとは限らない。後者の場合には、時々刻々と変化する反応装置の様々な状況に応じて運転パラメータを自動で設定するための制御アルゴリズムを開発することが必要となり、制御アルゴリズムにより製造品質や製造時間を担保することは非常に困難である。

【0007】

本発明は、上記の課題に鑑みてなされたものであり、反応装置の運転パラメータの設定を支援することを可能とする機械学習装置、反応槽運転支援装置、及び、推論装置を提供することを目的とする。

【課題を解決するための手段】

【0008】

上記目的を達成するために、本発明の一態様に係る機械学習装置は、
反応槽内に投入された原材料を撹拌機で攪拌して所定の反応プロセスを行う反応装置の運転パラメータを設定する反応槽運転支援装置にて用いられる学習モデルを生成する機械学習装置であって、
前記反応槽に係る反応槽状態変数、及び、前記撹拌機に係る撹拌機状態変数を入力データとして少なくとも含む学習用データを複数組記憶する学習用データ記憶部と、
前記学習モデルに前記学習用データを複数組入力することで、前記入力データと前記運転パラメータとの相関関係を前記学習モデルに学習させる機械学習部と、
前記機械学習部により学習させた前記学習モデルを記憶する学習済みモデル記憶部と、備える。

【発明の効果】

【0009】

本発明の機械学習装置によれば、反応槽状態変数及び撹拌機状態変数に基づいて反応装置の運転パラメータを推論可能な学習モデルを提供することができる。よって、この学習モデルを利用することにより、作業者の経験に依存することなく、製造品質の向上及び製造時間の短縮を図ることができる。

【0010】

上記以外の課題、構成及び効果は、後述する発明を実施するための形態にて明らかにされる。

【図面の簡単な説明】

【0011】

【図1】第１の実施形態に係る反応装置１の一例を示す全体構成図である。

【図2】第１の実施形態に係る反応装置１の一例を示すブロック図である。

【図3】反応槽制御装置５（主に反応槽運転支援装置７の部分）及び機械学習装置６を構成するコンピュータ２００の一例を示すハードウエア構成図である。

【図4】第１の実施形態に係る機械学習装置６の一例を示すブロック図である。

【図5】第１の実施形態に係る機械学習装置６で使用されるデータ（教師あり学習）の一例を示すデータ構成図である。

【図6】第１の実施形態に係る機械学習装置６で使用される学習用データにおける入力データ（状態変数）と出力データ（運転パラメータ）との関係を示す説明図である。

【図7】第１の実施形態に係る機械学習装置６で使用されるニューラルネットワークモデルの一例を示す模式図である。

【図8】第１の実施形態に係る機械学習装置６による機械学習方法の一例を示すフローチャートである。

【図9】第１の実施形態に係る反応槽運転支援装置７（運転支援部５００）の一例を示すブロック図である。

【図10】第１の実施形態に係る反応槽運転支援装置７（反応槽制御装置５の運転支援部５００）による反応槽運転支援方法の一例を示すフローチャートである。

【図11】第２の実施形態に係る機械学習装置６で使用されるデータ（強化学習）の一例と、強化学習の仕組みを示す概略図である。

【図12】第２の実施形態に係る機械学習装置６で使用されるニューラルネットワークモデルの一例を示す模式図である。

【図13】第２の実施形態に係る機械学習装置６による機械学習方法の一例を示すフローチャートである。

【図14】第２の実施形態に係る反応槽運転支援装置７（反応槽制御装置５の運転支援部５００）による反応槽運転支援方法の一例を示すフローチャートである。

【発明を実施するための形態】

【0012】

以下、図面を参照して本発明を実施するための実施形態について説明する。以下では、本発明の目的を達成するための説明に必要な範囲を模式的に示し、本発明の該当部分の説明に必要な範囲を主に説明することとし、説明を省略する箇所については公知技術によるものとする。

【0013】

（第１の実施形態）
図１は、第１の実施形態に係る反応装置１の一例を示す全体構成図である。図２は、第１の実施形態に係る反応装置１の一例を示すブロック図である。

【0014】

反応装置１は、原材料に対して所定の反応プロセスを行うことで所定の生成物を生成する装置である。反応装置１は、例えば、合成樹脂等を重合プロセスにて生成する化学分野や、酒や醤油等を醸造プロセスにて生成する食品分野にて利用可能である。なお、反応装
置１は、上記の例に限定されず、任意の生成物を生成する各種の分野で利用されるものでよい。

【0015】

本実施形態では、反応装置１は、１又は複数種のモノマー、溶媒、重合開始剤、添加剤等を原材料として重合プロセス（反応プロセスの一形態）を行うことで合成樹脂（例えば、ポリプロピレン、ポリエチレン、ポリ塩化ビニル、メラミン樹脂、エポキシ樹脂、ウレタン樹脂、アクリル樹脂及びシリコン樹脂等）を生成物として生成する装置である場合を中心に説明する。

【0016】

反応装置１は、主要な構成として、反応槽３と、撹拌機４と、反応槽制御装置５とを備える。反応装置１の各部には、商用電源（不図示）からの電力が供給される。なお、本実施形態では、反応装置１は、バッチ方式の反応プロセスを行うものとして説明するが、連続方式の反応プロセスを行うものでもよい。

【0017】

反応槽３は、略縦長円筒状の反応槽本体３０と、反応槽本体３０の上面部に形成された原材料投入口３１と、反応槽本体３０の底面部に形成された生成物排出口３２と、反応槽本体３０の外周に設けられたジャケット３３と、熱媒としての冷水及び温水を循環させる熱媒循環流路３４と、反応槽３の各部の物理量や状態量を反応槽状態変数として測定する反応槽センサ群３５と、反応槽３の各部を制御する反応槽制御機器群３６と、反応槽３が設置された外部環境の物理量や状態量を外部環境状態変数として測定する外部環境センサ群３７を備える。

【0018】

原材料投入口３１は、原材料が自動投入又は手動投入される部分である。原材料投入口３１は、複数設けられていてもよい。生成物排出口３２は、生成物が排出される部分である。生成物排出口３２には、生成物の粘度を測定する粘度計や生成物の密度を測定する密度計が設けられていてもよい。

【0019】

ジャケット３３は、反応槽本体３０の外周側面を覆うように形成され、その内部に冷水及び温水を流通させるためのジャケット流路（不図示）を有する。冷水が流通されるジャケット流路と温水が流通されるジャケット流路とは、別々でもよいし、兼用されてもよい。なお、熱媒は、水以外の物質でもよい。

【0020】

熱媒循環流路３４は、ジャケット流路の流入口及び流出口にそれぞれ連通される。熱媒循環流路３４は、冷水を循環させる冷水循環流路３４０と、温水を循環させる温水循環流路３４１とを備える。なお、冷水循環流路３４０及び温水循環流路３４１は兼用されてもよい。

【0021】

反応槽センサ群３５は、熱量状態変数を測定するセンサとして、ジャケット３３に流通される熱媒（冷水及び温水）の温度を示すジャケット熱媒温度Ｔ４を測定するジャケット熱媒温度センサ３５０と、ジャケット３３に流通される熱媒（冷水及び温水）の流量を示すジャケット熱媒流量Ｆ１を測定するジャケット熱媒流量センサ３５３を備える。なお、ジャケット熱媒温度センサ３５０は、ジャケット流路に設けられていてもよいし、ジャケット３３に埋め込まれていてもよい。

【0022】

反応槽センサ群３５は、熱量状態変数を測定するセンサとして、ジャケット熱媒温度センサ３５０に加えて又は代えて、冷水温度Ｔ５を測定する冷水温度センサ３５１と、温水温度Ｔ６を測定する温水温度センサ３５２とを備える。反応槽センサ群３５は、熱量状態変数を取得するセンサとして、ジャケット熱媒流量センサ３５３に加えて又は代えて、冷水流量Ｆ２を測定する冷水流量センサ３５４と、温水流量Ｆ３を測定する温水流量センサ３５５とを備える。冷水温度センサ３５１及び冷水流量センサ３５４は、冷水循環流路３
４０に設けられる。温水温度センサ３５２及び温水流量センサ３５５は、温水循環流路３４１に設けられる。

【0023】

反応槽センサ群３５は、反応槽本体３０の内部の温度を示す反応槽温度Ｔ１、Ｔ２、Ｔ３をそれぞれ測定する３つの反応槽温度センサ３５６Ａ、３５６Ｂ、３５６Ｃと、反応槽本体３０の内部の圧力を示す反応槽圧力Ｐ１を測定する反応槽圧力センサ３５７と、反応槽本体３０の内部の原材料の重量を示す反応槽重量Ｗ１を測定する反応槽重量センサ３５８とをさらに備える。

【0024】

反応槽温度センサ３５６Ａ、３５６Ｂ、３５６Ｃは、例えば、反応槽本体３０を上下方向に３分割したときの上段、中段、下段にそれぞれ設けられる。なお、反応槽温度センサ３５６Ａ、３５６Ｂ、３５６Ｃの数や配置は、上記の例に限定されず、例えば、反応槽本体３０の大きさや生成物の種類等に応じて適宜変更してもよい。反応槽重量センサ３５８は、例えば、ロードセルで構成され、反応槽３及び撹拌機４の自重をキャンセルすることで反応槽重量Ｗ１を測定する。

【0025】

反応槽制御機器群３６は、反応槽３を加熱又は徐熱するときの指令値を示す反応槽運転パラメータに従って動作する複数の制御機器で構成される。本実施形態では、反応槽制御機器群３６は、自動で制御される自動運転モードと、手動で操作される手動運転モードとが切替可能であるものとして説明する。

【0026】

反応槽制御機器群３６は、ジャケット熱媒温度Ｔ４を制御する制御機器として、冷水温度Ｔ５を制御する冷却機器３６０と、温水温度Ｔ６を制御する加熱機器３６１とを備える。冷却機器３６０は、冷水循環流路３４０に設けられる。加熱機器３６１は、温水循環流路３４１に設けられる。

【0027】

反応槽制御機器群３６は、ジャケット熱媒流量Ｆ１を制御する制御機器として、冷水流量Ｆ２を制御する冷水流量調整弁３６２及び冷水ポンプ３６３と、温水流量Ｆ３を制御する温水流量調整弁３６４及び温水ポンプ３６５とを備える。冷水流量調整弁３６２及び冷水ポンプ３６３は、冷水循環流路３４０に設けられる。温水流量調整弁３６４及び温水ポンプ３６５は、温水循環流路３４１に設けられる。

【0028】

外部環境センサ群３７は、外部環境状態変数を測定するセンサとして、外部環境の温度を示す外部環境温度Ｔ７を測定する外部環境温度センサ３７０と、外部環境の湿度を示す外部環境湿度Ｈ１を測定する外部環境湿度センサ３７１とを備える。

【0029】

撹拌機４は、反応槽本体３０の内部に配置されたプロペラ状の攪拌翼４０と、反応槽本体３０の上方に配置されて、攪拌翼４０を回転する駆動源としてのモータ４１と、攪拌翼４０及びモータ４１の間を連結するシャフト状の回転軸４２と、撹拌機４の各部の物理量や状態量を撹拌機状態変数として測定する撹拌機センサ群４３と、撹拌機４の攪拌状態を制御する撹拌機制御機器４４とを備える。

【0030】

撹拌機センサ群４３は、撹拌機状態変数を測定するセンサとして、モータ４１に加わるトルクを示す撹拌機トルクＳＴ１を測定する撹拌機トルクセンサ４３０と、モータ４１の回転数を示すモータ回転数Ｒ１を測定するモータ回転数センサ４３１と、モータ４１に供給されるモータ電流値Ｉ１を測定するモータ電流センサ４３２と、撹拌機４が動作したときの振動値Ｏ１を測定する振動センサ４３３と、撹拌機４が動作したときの音響値Ｎ１を測定する音響センサ４３４とを備える。

【0031】

撹拌機トルクセンサ４３０は、回転軸４２に取り付けられる。撹拌機トルクセンサ４３
０は、モータ４１が攪拌翼４０を回転させたときに、モータ４１が原材料から受ける負荷を撹拌機トルクＳＴ１として測定する。原材料は、反応プロセスの進行状態に応じて粘度が変化するため、撹拌機トルクＳＴ１は、反応プロセスが進行するのに従って変化する。

【0032】

モータ回転数センサ４３１は、例えば、モータ４１に設けられたロータリエンコーダ等の回転角検出器で構成される。モータ電流センサ４３２は、モータ４１、撹拌機制御機器４４、又は、モータ４１及び撹拌機制御機器４４を接続する電力線に取り付けられる。振動センサ４３３及び音響センサ４３４は、例えば、反応槽本体３０又はモータ４１のケース等に取り付けられる。

【0033】

撹拌機制御機器４４は、撹拌機４を駆動するときの指令値を示す撹拌機運転パラメータに従って動作する制御機器で構成される。撹拌機制御機器４４は、例えば、インバータで構成され、モータ４１に駆動電力を供給し、モータ４１の回転状態（オン又はオフ、回転数等）を制御する。本実施形態では、撹拌機制御機器４４は、自動で制御される自動運転モードと、手動で操作される手動運転モードとが切替可能であるものとして説明する。

【0034】

反応槽制御装置５は、例えば、汎用又は専用のコンピュータ（後述の図３参照）で構成される。反応槽制御装置５は、図２に示すように、主要な構成として、反応装置１の各部に接続される制御盤５０と、作業者の操作を受け付けるとともに各種の情報を表示する操作表示盤５１とを備える。

【0035】

制御盤５０には、反応槽状態変数を測定する反応槽センサ群３５と、反応槽３の各部を動作させる反応槽制御機器群３６と、外部環境状態変数を測定する外部環境センサ群３７と、撹拌機状態変数を測定する撹拌機センサ群４３と、撹拌機４の各部を動作させる撹拌機制御機器４４とが電気的に接続される。

【0036】

制御盤５０は、反応装置１の運転支援を行う運転支援部５００と、反応装置１の自動運転モードを実行する自動運転モード部５０１と、反応装置１の手動運転モードを実行する手動運転モード部５０２とを備える。制御盤５０は、例えば、作業者の操作を操作表示盤５１により受け付けることで自動運転モード及び手動運転モードを切り替える。

【0037】

運転支援部５００は、反応槽センサ群３５、外部環境センサ群３７及び撹拌機センサ群４３により測定された各種の測定値を示す状態変数を所定の測定周期で取得する。運転支援部５００は、その取得した状態変数に応じて反応槽制御機器群３６及び撹拌機制御機器４４に対する指令値を設定し、その指令値を示す反応装置１の運転パラメータ（反応槽運転パラメータ及び撹拌機運転パラメータ）を所定の指令周期で出力する。

【0038】

反応装置１の運転パラメータによる指令値は、設定値（目標値）で指定するものでもよいし、状態変数（現在値）と設定値との差に基づいて計算される制御量で指定するものでもよい。指令値は、絶対値（例えば、モータ回転数であれば、１０００ｒｐｍ）で指定するものでよいし、相対値（例えば、モータ回転数であれば、最大回転数の５０％）で指定するものでよい。指令値は、現在の指令値に対する変化量（例えば、モータ回転数であれば、５０ｒｐｍ増加、５％増加）で指定するものでよい。なお、状態変数及び運転パラメータは、アナログ信号及びデジタル信号のいずれでもよい。また、測定周期及び指令周期は、同一でもよいし、異なるものでもよい。

【0039】

運転支援部５００は、自動運転モードが選択されている場合には、運転パラメータを自動運転モード部５０１に出力する。自動運転モード部５０１は、その運転パラメータを反応槽制御機器群３６及び撹拌機制御機器４４に送信することで、反応槽制御機器群３６及び撹拌機制御機器４４を自動で制御する。運転支援部５００は、自動運転モード部５０１
が反応槽制御機器群３６及び撹拌機制御機器４４を自動で制御したときの自動制御量と、そのときに所定の測定周期で取得した状態変数とを自動運転履歴データ５２として記録する。

【0040】

運転支援部５００は、手動運転モードが選択されている場合には、運転パラメータを手動運転モード部５０２に出力する。手動運転モード部５０２は、その運転パラメータを操作表示盤５１に送信し、その運転パラメータの内容を操作表示盤５１に表示させることで、作業者がその表示された内容に従って反応槽制御機器群３６及び撹拌機制御機器４４を手動で操作する。運転支援部５００は、作業者により反応槽制御機器群３６及び撹拌機制御機器４４が操作されたときの作業者操作量と、そのときに所定の測定周期で取得した状態変数とを手動運転履歴データ５３として記録する。

【0041】

なお、自動運転履歴データ５２及び手動運転履歴データ５３には、反応プロセスが終了したときに、粘度計や密度計で生成物の粘度や密度を測定した結果や、作業者又は検査装置（不図示）により検査された結果が、完成後の検査結果として記録されてもよい。

【0042】

本実施形態では、運転支援部５００の一態様として、機械学習による学習モデル２を用いて反応装置１の運転パラメータを設定する反応槽運転支援装置７が制御盤５０に組み込まれた場合について説明する。制御盤５０（運転支援部５００）は、機械学習の推論フェーズの主体として動作する。

【0043】

機械学習装置６は、機械学習の学習フェーズの主体として動作し、反応槽運転支援装置７にて用いられる学習モデル２を機械学習により生成する。学習済みの学習モデル２は、任意の通信網や記録媒体等を介して制御盤５０に提供される。機械学習装置６は、機械学習の手法として、「教師あり学習」及び「強化教師」のいずれかを採用する。本実施形態では、「教師あり学習」を採用し、後述する第２の実施形態では、「強化学習」を採用する場合について説明する。

【0044】

反応槽センサ群３５、外部環境センサ群３７及び撹拌機センサ群４３は、機械学習の学習フェーズでは、学習用のデータ取得に用いられ、機械学習の推論フェーズでは、推論用のデータ取得に用いられる。なお、反応槽センサ群３５、外部環境センサ群３７及び撹拌機センサ群４３に含まれるセンサの各々における測定周期は同一でもよいし、異なるものでもよい。また、センサの各々は、上記のように、測定周期が経過する毎に離散的な測定値を出力することに代えて、アナログ信号のように連続的な測定値を出力してもよい。

【0045】

図３は、反応槽制御装置５（主に反応槽運転支援装置７の部分）及び機械学習装置６を構成するコンピュータ２００の一例を示すハードウエア構成図である。

【0046】

反応槽制御装置５（主に反応槽運転支援装置７の部分）及び機械学習装置６のそれぞれは、汎用又は専用のコンピュータ２００により構成される。コンピュータ２００は、図３に示すように、その主要な構成要素として、バス２１０、プロセッサ２１２、メモリ２１４、入力デバイス２１６、表示デバイス２１８、ストレージ装置２２０、通信Ｉ／Ｆ（インターフェース）部２２２、外部機器Ｉ／Ｆ部２２４、Ｉ／Ｏ（入出力）デバイスＩ／Ｆ部２２６、及び、メディア入出力部２２８を備える。なお、上記の構成要素は、コンピュータ２００が使用される用途に応じて適宜省略されてもよい。

【0047】

プロセッサ２１２は、１つ又は複数の演算処理装置（ＣＰＵ、ＭＰＵ、ＧＰＵ、ＤＳＰ等）で構成され、コンピュータ２００全体を統括する制御部として動作する。メモリ２１４は、各種のデータ及びプログラム２３０を記憶し、例えば、メインメモリとして機能する揮発性メモリ（ＤＲＡＭ、ＳＲＡＭ等）と、不揮発性メモリ（ＲＯＭ、フラッシュメモ
リ等）とで構成される。

【0048】

入力デバイス２１６は、例えば、キーボード、マウス、テンキー、電子ペン等で構成される。表示デバイス２１８は、例えば、液晶ディスプレイ、有機ＥＬディスプレイ、電子ペーパー、プロジェクタ等で構成される。入力デバイス２１６及び表示デバイス２１８は、タッチパネルディスプレイのように、一体的に構成されていてもよい。ストレージ装置２２０は、例えば、ＨＤＤ、ＳＳＤ等で構成され、オペレーティングシステムやプログラム２３０の実行に必要な各種のデータを記憶する。

【0049】

通信Ｉ／Ｆ部２２２は、インターネットやイントラネット等のネットワーク２４０に有線又は無線により接続され、所定の通信規格に従って他のコンピュータとの間でデータの送受信を行う。外部機器Ｉ／Ｆ部２２４は、プリンタ、スキャナ等の外部機器２５０に有線又は無線により接続され、所定の通信規格に従って外部機器２５０との間でデータの送受信を行う。Ｉ／ＯデバイスＩ／Ｆ部２２６は、各種のセンサ、アクチュエータ等のＩ／Ｏデバイス２６０に接続され、Ｉ／Ｏデバイス２６０との間で、例えば、センサによる検出信号やアクチュエータへの制御信号等の各種の信号やデータの送受信を行う。メディア入出力部２２８は、例えば、ＤＶＤドライブ、ＣＤドライブ等のドライブ装置で構成され、ＤＶＤ、ＣＤ等のメディア２７０に対してデータの読み書きを行う。

【0050】

上記構成を有するコンピュータ２００において、プロセッサ２１２は、プログラム２３０をメモリ２１４のワークメモリ領域に呼び出して実行し、バス２１０を介してコンピュータ２００の各部を制御する。なお、プログラム２３０は、メモリ２１４の代わりに、ストレージ装置２２０に記憶されていてもよい。プログラム２３０は、インストール可能なファイル形式又は実行可能なファイル形式でＣＤ、ＤＶＤ等の非一時的な記録媒体に記録され、メディア入出力部２２８を介してコンピュータ２００に提供されてもよい。プログラム２３０は、通信Ｉ／Ｆ部２２２を介してネットワーク２４０経由でダウンロードすることによりコンピュータ２００に提供されてもよい。また、コンピュータ２００は、プロセッサ２１２がプログラム２３０を実行することで実現する各種の機能を、例えば、ＦＰＧＡ、ＡＳＩＣ等のハードウエアで実現するものでもよい。

【0051】

コンピュータ２００は、例えば、据置型コンピュータや携帯型コンピュータで構成され、任意の形態の電子機器である。コンピュータ２００は、クライアント型コンピュータでもよいし、サーバ型コンピュータやクラウド型コンピュータでもよい。コンピュータ２００は、反応槽制御装置５及び機械学習装置６以外の他の装置に適用されてもよい。

【0052】

（機械学習装置６）
図４は、第１の実施形態に係る機械学習装置６の一例を示すブロック図である。

【0053】

機械学習装置６は、学習用データ取得部６０と、学習用データ記憶部６１と、機械学習部６２と、学習済みモデル記憶部６３とを備える。機械学習装置６は、例えば、図３に示すコンピュータ２００で構成される。その場合、学習用データ取得部６０は、通信Ｉ／Ｆ部２２２又はＩ／ＯデバイスＩ／Ｆ部２２６で構成され、機械学習部６２は、プロセッサ２１２で構成され、学習用データ記憶部６１及び学習済みモデル記憶部６３は、ストレージ装置２２０で構成される。

【0054】

学習用データ取得部６０は、各種の外部装置と通信網を介して接続され、入力データを少なくとも含む学習用データを取得するインタフェースユニットである。外部装置は、反応装置１、試験装置８、反応シミュレーション装置９、及び、作業者が使用する作業者用端末１０等である。なお、外部装置は、これらの一部でもよいし、他の装置がさらに接続されてもよい。

【0055】

試験装置８は、反応装置１と同様の構成を有し、反応プロセスの試験運転を実行可能に構成される。反応シミュレーション装置９は、反応プロセスをモデル化し、数値計算により反応プロセスを解析可能に構成される。反応シミュレーション装置９は、例えば、所定の状態変数と運転パラメータ等からなるシミュレーション条件に基づいて、その状態変数で特定される反応装置１においてその運転パラメータに基づく反応装置１の運転が行われた場合に、その運転後の状態変数や原材料の反応状態を数値計算により算出する。

【0056】

学習用データ記憶部６１は、学習用データ取得部６０で取得した学習用データを複数組記憶するデータベースである。なお、学習用データ記憶部６１を構成するデータベースの具体的な構成は適宜設計すればよい。

【0057】

機械学習部６２は、学習用データ記憶部６１に記憶された学習用データを用いて機械学習を実施する。すなわち、機械学習部６２は、学習モデル２に学習用データを複数組入力することで、学習用データに含まれる入力データと反応装置１の運転パラメータとの相関関係を学習モデル２に学習させることで、学習済みの学習モデル２を生成する。本実施形態では、機械学習部６２による教師あり学習の具体的な手法として、ニューラルネットワークを採用する場合について説明する。

【0058】

学習済みモデル記憶部６３は、機械学習部６２により生成された学習済みの学習モデル２を記憶するデータベースである。学習済みモデル記憶部６３に記憶された学習済みの学習モデル２は、任意の通信網や記録媒体等を介して実システム（例えば、反応槽制御装置５の制御盤５０）に提供される。なお、図４では、学習用データ記憶部６１と、学習済みモデル記憶部６３とが別々の記憶部として示されているが、これらは単一の記憶部で構成されてもよい。

【0059】

図５は、第１の実施形態に係る機械学習装置６で使用されるデータ（教師あり学習）の一例を示すデータ構成図である。図６は、第１の実施形態に係る機械学習装置６で使用される学習用データにおける入力データ（状態変数）と出力データ（運転パラメータ）との関係を示す説明図である。

【0060】

学習用データは、反応槽状態変数、及び、撹拌機状態変数を入力データとして少なくとも含む。入力データに含まれる反応槽状態変数は、反応槽センサ群３５に含まれる各センサにて取得される。入力データに含まれる撹拌機状態変数は、撹拌機センサ群４３に含まれる各センサにて取得される。

【0061】

反応槽状態変数は、反応槽３の加熱又は徐熱に係る熱量を示す熱量状態変数を少なくとも含む。熱量状態変数は、ジャケット熱媒温度Ｔ４、及び、ジャケット熱媒流量Ｆ１を少なくとも含む。熱量状態変数は、ジャケット熱媒温度Ｔ４の他に、冷水温度Ｔ５、及び、温水温度Ｔ６をさらに含むものでもよいし、ジャケット熱媒流量Ｆ１の他に、冷水流量Ｆ２、及び、温水流量Ｆ３をさらに含むものでもよい。

【0062】

反応槽状態変数は、熱量状態変数の他に、反応槽温度Ｔ１、Ｔ２、Ｔ３、反応槽圧力Ｐ１、及び、反応槽重量Ｗ１の少なくとも１つをさらに含むものでもよい。

【0063】

撹拌機状態変数は、撹拌機トルクＳＴ１を少なくとも含む。なお、撹拌機状態変数は、撹拌機トルクＳＴ１の他に、モータ回転数Ｒ１及びモータ電流値Ｉ１の少なくとも１つをさらに含むものでもよい。

【0064】

入力データは、反応槽状態変数、及び、撹拌機状態変数の他に、外部環境状態変数をさ
らに含むものでもよく、外部環境状態変数は、外部環境温度Ｔ７、及び、外部環境湿度Ｈ１の少なくとも１つを含む。入力データに含まれる外部環境状態変数は、外部環境センサ群３７に含まれる各センサにて取得される。なお、入力データは、上記以外に他のデータをさらに含むものでもよい。

【0065】

入力データに含まれる状態変数の各々は、反応プロセスが進行する所定期間である状態変数取得期間において測定周期毎に測定された時系列データである。状態変数の時系列データは、例えば、状態変数としての各測定値が測定時点を示す測定時刻順に並べられた配列のデータであり、状態変数の経時変化を示すデータとして構成される。

【0066】

状態変数取得期間は、反応プロセスが開始されてから終了するまでのプロセス実行期間以下の期間に設定される。状態変数取得期間が短く設定されるほど、状態変数の時系列データを構成する配列の数（図６の例では「３」）は少なくなるが、状態変数取得期間は、反応プロセスの特性や学習モデル２に求められる推論精度を考慮して設定すればよい。状態変数取得期間がプロセス実行期間よりも短く設定された場合、状態変数取得期間の開始時点及び終了時点は、開始時点及び終了時点の時間間隔が固定されたまま状態変数取得期間内で任意に設定される。

【0067】

機械学習として、教師あり学習を採用する場合、学習用データは、入力データに対応付けられた出力データとして、反応装置１の運転パラメータをさらに含む。出力データは、教師あり学習において、例えば、教師データや正解ラベルと称される。

【0068】

運転パラメータは、反応槽３を加熱又は徐熱するときの指令値を示す反応槽運転パラメータ、及び、撹拌機４を駆動するときの指令値を示す撹拌機運転パラメータの少なくとも１つを含む。

【0069】

反応槽運転パラメータは、ジャケット熱媒温度Ｔ４に関する指令値、及び、ジャケット熱媒流量Ｆ１に関する指令値を少なくとも含む。なお、反応槽運転パラメータは、ジャケット熱媒温度Ｔ４に関する指令値の他に、冷水温度Ｔ５に関する指令値、及び、温水温度Ｔ６に関する指令値をさらに含むものでもよいし、ジャケット熱媒流量Ｆ１に関する指令値の他に、冷水流量Ｆ２に関する指令値、及び、温水流量Ｆ３に関する指令値をさらに含むものでもよい。

【0070】

撹拌機運転パラメータは、モータ回転数Ｒ１に関する指令値、及び、モータ電流値Ｉ１に関する指令値の少なくとも１つを含む。

【0071】

運転パラメータは、入力データに含まれる状態変数の状態変数取得期間における終了時点以降の時点データ又は時系列データである。運転パラメータの時点データは、状態変数取得期間の終了時点以降に次の指令周期が到来したときに出力される指令値である。運転パラメータの時系列データは、状態変数取得期間の終了時点以降に出力される各指令値が指令時点を示す指令時刻順に並べられた配列のデータであり、指令値の経時変化を示すデータとして構成される。

【0072】

本実施形態に係る学習用データは、図５、図６に示すように、入力データと出力データとを含み、入力データ及び出力データが対応付けられて構成される。なお、図６では、ジャケット熱媒流量Ｆ１を示すグラフと、ジャケット熱媒流量Ｆ１に関する指令値を示すグラフを省略している。学習用データに含まれる入力データは、状態変数取得期間におけるジャケット熱媒温度Ｔ４の時系列データ、ジャケット熱媒流量Ｆ１の時系列データ、及び、撹拌機トルクＳＴ１の時系列データで構成される。学習用データに含まれる出力データは、ジャケット熱媒温度Ｔ４に関する指令値の時点データ、ジャケット熱媒流量Ｆ１に関
する指令値の時点データ、及び、モータ回転数Ｒ１に関する指令値の時点データからなる運転パラメータで構成される。図６では、２つの学習用データとして、一点鎖線で囲まれた学習用データＡと、二点鎖線で囲まれた学習用データＢとが示されている。

【0073】

したがって、学習用データに含まれる入力データは、反応プロセスの進行度合いに影響を与える熱量を表す代表値として、ジャケット熱媒温度Ｔ４及びジャケット熱媒流量Ｆ１を含むとともに、反応プロセスの進行に従って変化する原材料の反応状態を表す代表値として、撹拌機トルクＳＴ１を含む。そのため、これらの入力データが示す様々な反応プロセスの進行状況に対して過去の運転時に採用された運転パラメータの特徴量を機械学習により学習モデル２に学習させることで、例えば、熟練の作業者と同様の運転を再現することが可能となる。

【0074】

図７は、第１の実施形態に係る機械学習装置６で使用されるニューラルネットワークモデルの一例を示す模式図である。

【0075】

学習モデル２は、図７に示すニューラルネットワークモデルとして構成される。ニューラルネットワークモデルは、入力層にあるｍ個のニューロン（ｘ１～ｘｍ）、第１中間層にあるｐ個のニューロン（ｙ１１～ｙ１ｐ）、第２中間層にあるｑ個のニューロン（ｙ２１～ｙ２ｑ）、及び、出力層にあるｎ個のニューロン（ｚ１～ｚｎ）から構成される。

【0076】

入力層の各ニューロンには、学習用データに含まれる入力データのそれぞれが対応付けられる。出力層の各ニューロンには、学習用データに含まれる出力データのそれぞれが対応付けられる。なお、入力層に入力する前の入力データに対して所定の前処理（正規化、標準化、ワンホットエンコーディング等）を施してもよいし、出力層から出力された後の出力データに対して所定の後処理を施してもよい。

【0077】

第１中間層及び第２中間層は、隠れ層とも呼ばれており、ニューラルネットワークとしては、第１中間層及び第２中間層の他に、さらに複数の隠れ層を有するものでもよいし、第１中間層のみを隠れ層とするものでもよい。また、入力層と第１中間層との間、第１中間層と第２中間層との間、第２中間層と出力層との間には、各層のニューロンの間を接続するシナプスが張られており、それぞれのシナプスには、重みｗｉ（ｉは自然数）が対応付けられる。

【0078】

ニューラルネットワークモデルは、学習用データを用いて、当該学習用データに含まれる入力データを入力層に入力し、その推論結果として出力層から出力された出力データと、当該学習用データに含まれる出力データ（教師データ）とを比較することで、入力データと出力データとの相関関係を学習する。

【0079】

具体的には、入力層の各ニューロンには、学習用データに含まれる入力データのそれぞれが入力される。そして、出力層の各ニューロンの値は、当該ニューロンに接続される入力側のニューロンの値と、出力側のニューロンと入力側のニューロンとを接続するシナプスに対応付けられた重みｗｉとの乗算値の数列の和として算出する処理を、入力層以外の全てのニューロンに対して行うことで算出される。

【0080】

そして、推論結果として出力層の各ニューロンに出力された値（ｚ１～ｚｎ）と、学習用データに含まれる出力データのそれぞれに対応する教師データの値（ｔ１～ｔｎ）とをそれぞれ比較して誤差を求め、その誤差が小さくなるように、各シナプスに対応付けられた重みｗｉを調整する処理（バックプロバケーション）が実施される。

【0081】

上記の一連の工程を所定回数反復実施すること、又は、上記の誤差が許容値より小さく
なること等の所定の学習終了条件が満たされた場合には、機械学習を終了する。これにより、学習済みのニューラルネットワークモデル（シナプスのそれぞれに対応付けられた全ての重みｗｉ）が生成される。

【0082】

（機械学習方法）
図８は、第１の実施形態に係る機械学習装置６による機械学習方法の一例を示すフローチャートである。機械学習方法は、学習フェーズに該当する。

【0083】

まず、ステップＳ１００において、学習用データ取得部６０は、機械学習を開始するための事前準備として、所望の数の学習用データを準備し、その準備した学習用データを学習用データ記憶部６１に記憶する。ここで準備する学習用データの数については、最終的に得られる学習モデル２に求められる推論精度を考慮して設定すればよい。

【0084】

学習用データを準備する方法には、いくつかの方法を採用することができる。例えば、手動運転モードにて作業者が反応槽制御機器群３６及び撹拌機制御機器４４を操作したときの手動運転履歴データ５３を利用してもよく、学習用データ取得部６０は、手動運転履歴データ５３に記録された状態変数及び手動操作量を、学習用データの入力データ及び出力データとして取得する。その際、手動運転履歴データ５３は、プロセス実行期間における時系列データとして記録されているため、状態変数取得期間がプロセス実行期間よりも短く設定された場合には、図６に示すように、プロセス実行期間に対して状態変数取得期間を測定周期単位でシフトさせることで、１つの手動運転履歴データ５３から複数の学習用データが取得される。

【0085】

また、手動運転履歴データ５３に完成後の検査結果が記録されている場合には、学習用データ取得部６０は、その検査結果が所定の合格基準を満たす手動運転履歴データ５３を抽出し、その抽出した手動運転履歴データ５３に基づいて学習用データを取得してもよい。手動運転履歴データ５３に完成後の検査結果が記録されていない場合には、学習用データ取得部６０は、例えば、作業者用端末１０を用いて作業者が指定した手動運転履歴データ５３に基づいて学習用データを取得してもよい。

【0086】

さらに、自動運転モードにて自動運転モード部５０１が反応槽制御機器群３６及び撹拌機制御機器４４を制御したときの自動運転履歴データ５２を利用してもよく、学習用データ取得部６０は、手動運転履歴データ５３と同様にして、自動運転履歴データ５２に記録された状態変数及び手動操作量を、学習用データの入力データ及び出力データとして取得してもよい。

【0087】

なお、自動運転履歴データ５２及び手動運転履歴データ５３は、反応装置１で反応プロセスを行った場合に反応装置１により記録されたものだけでなく、試験装置８で反応プロセスを試験的に行った場合に、反応装置１と同様にして、試験装置８により記録されたものでもよい。また、学習用データ取得部６０は、自動運転履歴データ５２及び手動運転履歴データ５３として記録されたものではなく、反応装置１が備える反応槽センサ群３５、外部環境センサ群３７及び撹拌機センサ群４３から各センサの測定値（状態変数）を直接取得するとともに、反応槽制御機器群３６及び撹拌機制御機器４４からそのときの自動制御量や手動操作量を直接取得するようにしてもよい。

【0088】

次に、ステップＳ１１０において、機械学習部６２は、機械学習を開始すべく、学習前の学習モデル２を準備する。ここで準備する学習前の学習モデル２は、図７に例示したニューラルネットワークモデルで構成されており、各シナプスの重みが初期値に設定されている。

【0089】

入力層の各ニューロンには、学習用データに含まれる入力データとしてのジャケット熱媒温度Ｔ４の時系列データ、ジャケット熱媒流量Ｆ１の時系列データ、及び、撹拌機トルクＳＴ１の時系列データのそれぞれが対応付けられる。そのため、例えば、状態変数取得期間（例えば、１０分間）に含まれる測定回数（例えば、測定周期１０秒）が、６０回である場合には、上記の３つの時系列データは６０点のデータをそれぞれ含むため、入力層は１８０個のニューロンを有する。

【0090】

出力層の各ニューロンには、学習用データに含まれる出力データとしてのジャケット熱媒温度Ｔ４に関する指令値の時点データ、ジャケット熱媒流量Ｆ１に関する指令値の時点データ、及び、モータ回転数Ｒ１に関する指令値の時点データのそれぞれが対応付けられる。そのため、出力層は３個のニューロンを有する。なお、指令値が、時点データではなく時系列データで構成される場合には、出力層は、その時系列データの配列の数に応じた数のニューロンを有する。

【0091】

次に、ステップＳ１２０において、機械学習部６２は、学習用データ記憶部６１に記憶された複数組の学習用データから、例えば、ランダムに一の学習用データを取得する。

【0092】

次に、ステップＳ１３０において、機械学習部６２は、一の学習用データに含まれる入力データを、準備された学習前（又は学習中）の学習モデル２の入力層に入力する。その結果、学習モデル２の出力層から推論結果として出力データが出力されるが、当該出力データは、学習前（又は学習中）の学習モデル２によって生成されたものである。そのため、学習前（又は学習中）の状態では、推論結果として出力された出力データは、学習用データに含まれる出力データ（教師データ）とは異なる情報を示す。

【0093】

次に、ステップＳ１４０において、機械学習部６２は、ステップＳ１２０において取得された一の学習用データに含まれる出力データ（教師データ）と、ステップＳ１３０において出力層から推論結果として出力された出力データとを比較し、各シナプスの重みを調整することで、機械学習を実施する。これにより、機械学習部６２は、入力データと出力データとの相関関係を学習モデル２に学習させる。

【0094】

次に、ステップＳ１５０において、機械学習部６２は、機械学習を継続する必要があるか否かを、例えば、出力データと教師データとの誤差や、学習用データ記憶部６１内に記憶された未学習の学習用データの残数に基づいて判定する。

【0095】

ステップＳ１５０において、機械学習部６２が機械学習を継続すると判定した場合（ステップＳ１５０でＮｏ）、ステップＳ１２０に戻り、学習中の学習モデル２に対してステップＳ１２０～Ｓ１４０の工程を未学習の学習用データを用いて複数回実施する。一方、ステップＳ１５０において、機械学習部６２が機械学習を終了すると判定した場合（ステップＳ１５０でＹｅｓ）、ステップＳ１６０に進む。

【0096】

そして、ステップＳ１６０において、機械学習部６２は、各シナプスに対応付けられた重みが調整されることで生成された学習済みの学習モデル２を学習済みモデル記憶部６３に記憶し、図８に示す一連の機械学習方法を終了する。機械学習方法において、ステップＳ１００が学習用データ記憶工程、ステップＳ１１０～Ｓ１５０が機械学習工程、ステップＳ１６０が学習済みモデル記憶工程に相当する。

【0097】

以上のように、本実施形態に係る機械学習装置６及び機械学習方法によれば、反応槽３に係る反応槽状態変数及び撹拌機４に係る撹拌機状態変数に基づいて反応装置１の運転パラメータの設定を支援することが可能な学習モデル２を提供することができる。

【0098】

（反応槽運転支援装置７）
図９は、第１の実施形態に係る反応槽運転支援装置７（運転支援部５００）の一例を示すブロック図である。

【0099】

反応槽運転支援装置７は、入力データ取得部７０と、推論部７１と、学習済みモデル記憶部７２と、出力処理部７３とを備える。反応槽運転支援装置７は、例えば、図３に示すコンピュータ２００で構成される。その場合、入力データ取得部７０は、通信Ｉ／Ｆ部２２２又はＩ／ＯデバイスＩ／Ｆ部２２６で構成され、推論部７１及び出力処理部７３は、プロセッサ２１２で構成され、学習済みモデル記憶部７２は、ストレージ装置２２０で構成される。本実施形態では、反応槽運転支援装置７は、反応槽制御装置５の制御盤５０に組み込まれたものであるが、反応槽制御装置５とは別体の装置として、例えば、汎用又は専用のコンピュータ（図３参照）で構成されてもよい。

【0100】

入力データ取得部７０は、反応装置１が備える反応槽センサ群３５、外部環境センサ群３７及び撹拌機センサ群４３に接続され、各センサにより測定された測定値（状態変数）に基づく入力データを取得するインタフェースユニットである。本実施形態に係る入力データは、図５に示すように、状態変数取得期間（所定期間）におけるジャケット熱媒温度Ｔ４の時系列データ、状態変数取得期間におけるジャケット熱媒流量Ｆ１の時系列データ、及び、状態変数取得期間における撹拌機トルクＳＴ１の時系列データで構成される。

【0101】

推論部７１は、入力データ取得部７０により取得された入力データを学習モデル２に入力し、反応装置１の運転パラメータを推論する推論処理を行う。推論処理には、機械学習装置６及び機械学習方法にて教師あり学習が実施された学習済みの学習モデル２が用いられる。

【0102】

推論部７１は、学習モデル２を用いた推論処理を行う機能のみならず、推論処理の前処理として、入力データ取得部７０により取得された入力データを所望の形式等に調整して学習モデル２に入力する前処理機能や、推論処理の後処理として、学習モデル２から出力された出力データの値に所定の論理式や計算式を適用することで、反応装置１の運転パラメータを所望の形式等に調整する後処理機能をも含んでいる。なお、推論部７１の推論結果は、学習済みモデル記憶部７２や他の記憶装置（不図示）に記憶することが好ましく、過去の推論結果は、例えば、学習モデル２の推論精度の更なる向上のため、オンライン学習や再学習に用いられる学習用データとして利用することが可能である。

【0103】

学習済みモデル記憶部７２は、推論部７１の推論処理にて用いられる学習済みの学習モデル２を記憶するデータベースである。なお、学習済みモデル記憶部７２には、複数の学習済モデルが格納されて、推論部７１により選択的に用いられてもよい。複数の学習済モデルは、例えば、入力データ及び出力データの数や種類、学習手法、反応装置１を構成する反応槽３及び撹拌機４の各部の仕様、反応プロセスにおける原材料及び生成物の種類や量等が異なる毎に生成されたものである。

【0104】

出力処理部７３は、推論部７１の推論結果、すなわち、反応装置１の運転パラメータを出力する出力処理を行う。具体的な出力手段は、種々の手段を採用することが可能である。例えば、出力処理部７３は、自動運転モードが選択されている場合には、運転パラメータを自動運転モード部５０１に出力することにより、運転パラメータに従って反応槽制御機器群３６及び撹拌機制御機器４４が自動で制御される。また、出力処理部７３は、手動運転モードが選択されている場合には、運転パラメータを手動運転モード部５０２に出力することにより、運転パラメータに応じた運転支援情報が操作表示盤５１を介して表示や音で作業者に報知される。

【0105】

（反応槽運転支援方法）
図１０は、第１の実施形態に係る反応槽運転支援装置７（反応槽制御装置５の運転支援部５００）による反応槽運転支援方法の一例を示すフローチャートである。反応槽運転支援方法は、推論フェーズに該当する。

【0106】

作業者が、操作表示盤５１により反応プロセスの開始を指示する開始操作を行うと、反応槽制御装置５は、その開始操作を受け付けて、図１０に示す一連の反応槽運転支援方法を実行する。

【0107】

まず、ステップＳ２００において、反応装置１が備える反応槽センサ群３５、外部環境センサ群３７及び撹拌機センサ群４３が、各種の測定値（状態変数）を測定周期毎に測定する。

【0108】

次に、ステップＳ２１０において、運転支援部５００（入力データ取得部７０）は、反応槽センサ群３５、外部環境センサ群３７及び撹拌機センサ群４３の各センサにより測定周期毎に測定された状態変数に基づいて入力データを取得する。

【0109】

本実施形態では、入力データは、図５に示すように、状態変数取得期間（所定期間）におけるジャケット熱媒温度Ｔ４の時系列データ、状態変数取得期間におけるジャケット熱媒流量Ｆ１の時系列データ、及び、状態変数取得期間における撹拌機トルクＳＴ１の時系列データである。そのため、状態変数取得期間が経過するまでは、例えば、初期設定値により自動で制御されるか、作業者により手動で操作される。そして、状態変数取得期間が経過した時点で、上記の時系列データが状態変数として測定されることで、運転支援部５００は入力データを取得する。

【0110】

次に、ステップＳ２２０において、運転支援部５００（推論部７１）は、入力データに前処理を施して学習モデル２の入力層に入力し、反応装置１の運転パラメータを推論し、その学習モデル２の出力層から出力された出力データを取得する。

【0111】

次に、ステップＳ２３０～Ｓ２３４において、運転支援部５００（出力処理部７３）は、推論部７１の推論結果である運転パラメータを出力することで、運転パラメータの設定を支援する。

【0112】

具体的には、ステップＳ２３０において、自動運転モードか手動運転モードかを判定する。そして、ステップＳ２３０において、運転支援部５００が自動運転モードと判定した場合には、運転パラメータを自動運転モード部５０１に出力し、ステップＳ２３２において、運転パラメータに従って反応槽制御機器群３６及び撹拌機制御機器４４が自動で制御される。

【0113】

一方、ステップＳ２３０において、運転支援部５００が手動運転モードと判定した場合には、ステップＳ２３３において、運転パラメータを手動運転モード部５０２に出力し、ステップＳ２３４において、運転パラメータに応じた運転支援情報が操作表示盤５１を介して作業者に報知され、反応槽制御機器群３６及び撹拌機制御機器４４が手動で操作される。

【0114】

次に、ステップＳ２４０において、運転支援部５００は、反応プロセスが終了したか否かを判定する。その結果、反応プロセスが終了していないと判定した場合には（ステップＳ２４０でＮｏ）、ステップＳ２００に戻り、上記のステップＳ２００～Ｓ２３４の工程を実行することで、次の指令周期が到来したタイミングで新たな運転パラメータの設定を支援する。

【0115】

一方、ステップＳ２４０において、運転支援部５００が、反応プロセスが終了したと判定した場合には（ステップＳ２４０でＹｅｓ）、図１０に示す一連の反応槽運転支援方法を終了する。反応槽運転支援方法において、ステップＳ２１０が入力データ取得工程、ステップＳ２２０が推論工程、ステップＳ２３０～Ｓ２３４が出力処理工程に相当する。

【0116】

以上のように、本実施形態に係る反応槽運転支援装置７及び反応槽運転支援方法によれば、学習モデル２を利用することにより、反応槽３に係る反応槽状態変数及び撹拌機４に係る撹拌機状態変数に基づいて反応装置１の運転パラメータの設定を支援することができる。よって、作業者の経験に依存することなく、製造品質の向上及び製造時間の短縮を図ることができる。

【0117】

（第２の実施形態）
第１の実施形態では、機械学習の手法として、「教師あり学習」を採用した場合について説明したが、本実施形態では、「強化学習」を採用した場合について説明する。なお、第２の実施形態に係る反応装置１、機械学習装置６及び反応槽運転支援装置７（運転支援部５００）の基本的な構成や動作は、第１の実施形態と同様であるため、以下では第１の実施形態との相違点を中心に説明する。

【0118】

（機械学習装置６）
機械学習装置６は、第１の実施形態（図４参照）と同様に、学習用データ取得部６０と、学習用データ記憶部６１と、機械学習部６２と、学習済みモデル記憶部６３とを備える。

【0119】

機械学習部６２は、強化学習のエージェントとして機能する。強化学習の基本的な仕組みにおいて、エージェントは、所定の条件下において環境の状態を観測し、その観測された状態に対して所定の方策に従って行動を選択する。そして、その選択した行動により環境の状態が変化したとき、その状態の変化に応じた報酬を受け取り、その選択した行動の価値を評価する。このような一連の処理として、状態の観測、行動の選択、価値の評価を繰り返すことで、報酬を最も多く獲得できるように行動を選択するための方策を学習モデル２に学習させる。

【0120】

図１１は、第２の実施形態に係る機械学習装置６で使用されるデータ（強化学習）の一例と、強化学習の関係を示す概略図である。

【0121】

機械学習部６２による強化学習を、上記の強化学習の基本的な仕組みに対応させた場合、環境は、反応装置１や反応装置１で行われる反応プロセスである。

【0122】

状態ｓは、反応槽センサ群３５、外部環境センサ群３７及び撹拌機センサ群４３により測定される各種の状態変数や、反応槽本体３０の内部の原材料の反応状態である。原材料の反応状態は、例えば、反応槽センサ群３５、外部環境センサ群３７及び撹拌機センサ群４３により測定される各種の状態変数に基づいて反応指標値として算出される。反応指標値は、例えば、反応開始時を０％とし、反応終了時を１００％として、０～１００％の範囲で表される。本実施形態に係る状態ｓは、図１１に示すように、ジャケット熱媒温度Ｔ４の時系列データ、ジャケット熱媒流量Ｆ１の時系列データ、及び、撹拌機トルクＳＴ１の時系列データで構成される。

【0123】

行動ａは、反応装置１の運転パラメータとして取り得る複数の運転パラメータである。本実施形態に係る行動ａは、図１１に示すように、反応装置１が取り得る６つの運転パラメータ（行動ａ_１～ａ_６）として、ジャケット熱媒温度Ｔ４の増加量に関する指令値（ａ
_１）及び減少量に関する指令値（ａ_２）、ジャケット熱媒流量Ｆ１の増加量に関する指令値（ａ_３）及び減少量に関する指令値（ａ_４）、並びに、モータ回転数Ｒ１の増加量に関する指令値（ａ_５）及び減少量に関する指令値（ａ_６）である。なお、増加量及び減少量の大きさは適宜設定すればよく、複数段階で設定されてもよい。

【0124】

報酬ｒは、変化前の原材料の反応状態に対して運転パラメータに基づく反応装置１の運転が行動ａとして行われた後（変化後）の原材料の反応状態と、反応プロセスの進行に伴って推移する反応状態の目標値を示す目標推移ＴＧとの差Ｄに基づいて算出される。報酬ｒは、上記の差Ｄが小さいほど大きくなるように算出されるものとして定義される。

【0125】

図１１の例では、時刻ｔ１の状態ｓ１対して異なる２つの行動ａ_１、ａ_２を取った後の時刻ｔ２の状態ｓ２（ａ_１）、ｓ２（ａ_２）を比較した場合、目標推移ＴＧとの差Ｄは、Ｄ（ａ_１）＜Ｄ（ａ_２）となるため、行動ａ_１に対する報酬ｒは、行動ａ_２に対する報酬ｒよりも大きく算出される。なお、報酬ｒの定義は、適宜変更してもよく、例えば、複数の観点をさらに考慮してもよく、運転パラメータの変化量が小さいほど大きくなるように算出されるようにしてもよいし、製造時間が短いほど大きくなるように算出されるようにしてもよい。

【0126】

目標推移ＴＧは、検査結果が所定の合格基準を満たす手動運転履歴データ５３又は自動運転履歴データ５２に基づいて、これらに含まれる状態変数の時間推移から反応指標値の時間推移を算出することで取得される。なお、手動運転履歴データ５３又は自動運転履歴データ５２は、反応槽制御装置５により運転パラメータの設定が支援された状態で記録されたものでもよいし、運転パラメータの設定が支援されていない状態で記録されたものでもよい。

【0127】

また、目標推移ＴＧは、複数の手動運転履歴データ５３又は自動運転履歴データ５２からも取得可能であり、その場合には、複数の反応指標値の時間推移から、例えば、回帰曲線等を統計的に算出することで取得される。そのため、目標推移ＴＧは、時間ｔと、状態変数（例えば、ジャケット熱媒温度Ｔ４、ジャケット熱媒流量Ｆ１、及び、撹拌機トルクＳＴ１）を変数とする関数で近似されるものでもよい。また、目標推移ＴＧは、各時点において下限値及び上限値により定められる所定の幅を有するものでもよい。

【0128】

機械学習として、強化学習を採用する場合、学習データは、状態ｓに対応する入力データのみを含む。すなわち、学習データは、出力データを含まない構成としてもよく、機械学習装置６が採用する機械学習の手法に応じて出力データの有無や出力データの形式を適宜選択することができる。本実施形態に係る学習用データに含まれる入力データは、図１１に示すように、状態変数取得期間におけるジャケット熱媒温度Ｔ４の時系列データ、ジャケット熱媒流量Ｆ１の時系列データ、及び、撹拌機トルクＳＴ１の時系列データで構成される。

【0129】

本実施形態では、状態ｓに対して所定の行動ａを取ったときの評価は、Ｑ学習法の行動価値関数Ｑ（ｓ，ａ）を用いて行うものとして説明する。行動価値関数Ｑ（ｓ，ａ）は、状態ｓにおいて行動ａを取った場合において将来に亘って獲得することができる報酬ｒの期待値である。

【0130】

行動価値関数Ｑ（ｓ，ａ）は、例えば、ＤＱＮ（ＤｅｅｐＱ－Ｎｅｔｗｏｒｋ）と呼ばれる手法により、状態ｓを入力変数とし、状態ｓにおいて各行動ａ_ｋ（ｋ＝１，２，…，ｎ）をそれぞれ取ったときの行動価値関数Ｑ（ｓ，ａ_ｋ）を出力変数とするニューラルネットワークモデルで近似的に算出することができる。この場合、機械学習部６２は、例えば、報酬ｒ、学習率α、割引率γを変数として含む誤差関数（例えば、ＴＤ誤差）が最
小になるように、ニューラルネットワークモデルの重みｗｉを調整することで行動価値関数Ｑ（ｓ，ａ_ｋ）を更新し、入力データ（状態ｓ）と運転パラメータ（行動ａ_ｋ）との相関関係を学習モデル２に学習させる。なお、強化学習の手法としては、任意の手法を採用すればよく、Ｑ学習法の他に、例えば、ＳＡＲＳＡ法、モンテカルロ法等を採用してもよい。

【0131】

図１２は、第２の実施形態に係る機械学習装置６で使用されるニューラルネットワークモデルの一例を示す模式図である。

【0132】

学習モデル２は、行動価値関数Ｑ（ｓ，ａ_ｋ）を近似的に算出するために、図１２に示すニューラルネットワークモデルとして構成される。図１２に示すニューラルネットワークモデルは、図７に示すものと同様に構成される。

【0133】

入力層の各ニューロンには、学習用データに含まれる入力データ（状態ｓ）のそれぞれが対応付けられる。出力層の各ニューロンには、状態ｓに対して各行動ａ_ｋ（ｋ＝１，２，…，ｎ）を取ったときの行動価値関数Ｑ（ｓ，ａ_ｋ）のそれぞれが対応付けられる。

【0134】

（機械学習方法）
図１３は、第２の実施形態に係る機械学習装置６による機械学習方法の一例を示すフローチャートである。

【0135】

まず、ステップＳ３００において、学習用データ取得部６０は、機械学習を開始するための事前準備として、所望の数の学習用データを準備し、その準備した学習用データを学習用データ記憶部６１に記憶する。

【0136】

学習用データを準備する方法には、いくつかの方法を採用することができる。例えば、学習用データ取得部６０は、第１と実施形態と同様に、手動運転履歴データ５３又は自動運転履歴データ５２に記録された状態変数を、学習用データの入力データ（状態ｓ）として取得すればよい。

【0137】

次に、ステップＳ３１０において、機械学習部６２は、機械学習を開始すべく、学習前の学習モデル２を準備する。ここで準備する学習前の学習モデル２は、図１２に例示したニューラルネットワークモデルで構成されており、各シナプスの重みが初期値に設定されている。

【0138】

入力層の各ニューロンには、学習用データに含まれる入力データ（状態ｓ）としてのジャケット熱媒温度Ｔ４の時系列データ、ジャケット熱媒流量Ｆ１の時系列データ、及び、撹拌機トルクＳＴ１の時系列データのそれぞれが対応付けられる。

【0139】

出力層の各ニューロンには、反応装置１が取り得る運転パラメータ（行動ａ_ｋ）として、ジャケット熱媒温度Ｔ４の増加量に関する指令値（ａ_１）及び減少量に関する指令値（ａ_２）、ジャケット熱媒流量Ｆ１の増加量に関する指令値（ａ_３）及び減少量に関する指令値（ａ_４）、並びに、モータ回転数Ｒ１の増加量に関する指令値（ａ_５）及び減少量に関する指令値（ａ_６）のそれぞれが対応付けられる。出力層の各ニューロンは、各行動ａ_ｋの行動価値関数Ｑ（ｓ，ａ_ｋ）の値をそれぞれ出力する。

【0140】

次に、ステップＳ３１１において、機械学習部６２は、反応プロセスの進行に伴って推移する反応状態の目標値を示す目標推移ＴＧを算出する。

【0141】

次に、ステップＳ３２０において、機械学習部６２は、学習用データ記憶部６１に記憶
された複数組の学習用データから、例えば、ランダムに一の学習用データを取得する。

【0142】

次に、ステップＳ３３０において、機械学習部６２は、ステップＳ３２０で取得した一の学習用データに含まれる入力データ（状態ｓ１）を、準備された学習前（又は学習中）の学習モデル２の入力層に入力する。その結果、学習モデル２の出力層から推論結果として、各行動ａ_ｋの価値（行動価値関数Ｑ（ｓ，ａ_ｋ）の値）が出力される。

【0143】

次に、ステップＳ３４０において、機械学習部６２は、ステップＳ３３０において出力層から推論結果として出力された各行動ａ_ｋの行動価値関数Ｑ（ｓ，ａ_ｋ）の値に基づいて、例えば、最大値に対応する特定の一の行動ａを選択する。特定の一の行動ａを選択する手法としては、例えば、ｇｒｅｅｄｙ法、ε－ｇｒｅｅｄｙ法等を採用すればよい。

【0144】

次に、ステップＳ３５０において、機械学習部６２は、状態ｓ１に対してステップＳ３５０で選択した行動ａを取った後の状態ｓ２を取得する。具体的には、機械学習部６２は、状態ｓ１が示すジャケット熱媒温度Ｔ４の時系列データ、ジャケット熱媒流量Ｆ１の時系列データ、及び、撹拌機トルクＳＴ１の時系列データに基づく原材料の反応状態に対して、行動ａに対応する運転パラメータに基づく反応装置１の運転が行われ、その運転が行われた後の時点におけるジャケット熱媒温度Ｔ４、ジャケット熱媒流量Ｆ１、及び、撹拌機トルクＳＴ１を状態ｓ２として取得する。ここでの反応装置１の運転は、例えば、機械学習の初期段階では、反応シミュレーション装置９を用いて行われるものであり、機械学習の最終段階では、反応装置１にて実際に行われるようにしてもよい。

【0145】

次に、ステップＳ３６０において、機械学習部６２は、ステップＳ３５０で取得した状態ｓ２と、ステップＳ３１１で取得した目標推移ＴＧとに基づいて報酬ｒを算出する。具体的には、機械学習部６２は、状態ｓ２が示すジャケット熱媒温度Ｔ４、ジャケット熱媒流量Ｆ１、及び、撹拌機トルクＳＴ１に基づく原材料の反応状態と、目標推移ＴＧとの差Ｄに基づいて算出される。

【0146】

次に、ステップＳ３７０において、機械学習部６２は、ステップＳ３６０で算出した報酬ｒに基づいて、誤差関数が最小になるように、ニューラルネットワークモデルの重みｗｉを調整することで行動価値関数Ｑ（ｓ，ａ_ｋ）を更新する。これより、機械学習部６２は、入力データ（状態ｓ）と運転パラメータ（行動ａ_ｋ）との相関関係を学習モデル２に学習させる。なお、行動価値関数Ｑ（ｓ，ａ_ｋ）の更新は、毎回行わなくてもよく、例えば、所定の条件を満たす場合にだけ行うようにしてもよい。

【0147】

次に、ステップＳ３８０において、機械学習部６２は、別の学習用データを用いて機械学習を実施するか否かを判定する。その結果、機械学習部６２は、ステップＳ３２０で取得した学習用データを用いて機械学習を継続すると判定した場合（ステップＳ３８０でＮｏ）、ステップＳ３３０に戻り、ステップＳ３５０で取得した状態ｓ２をステップＳ３３０での状態ｓ１として扱うことにより、学習中の学習モデル２に対してステップＳ３３０～Ｓ３７０の工程を実施する。一方、機械学習部６２は、別の学習用データを用いると判定した場合（ステップＳ３８０でＹｅｓ）、ステップＳ３８１に進む。

【0148】

次に、ステップＳ３８１において、機械学習部６２は、機械学習を継続する必要があるか否かを判定する。その結果、継続すると判定した場合（ステップＳ３８１でＮｏ）、ステップＳ３２０に戻り、学習中の学習モデル２に対してステップＳ３２０～Ｓ３８０の工程を実施し、機械学習を終了すると判定した場合（ステップＳ３８１でＹｅｓ）、ステップＳ３９０に進む。

【0149】

そして、ステップＳ３９０において、機械学習部６２は、各シナプスに対応付けられた
重みが調整されることで生成された学習済みの学習モデル２を学習済みモデル記憶部６３に記憶し、図１３に示す一連の機械学習方法を終了する。機械学習方法において、ステップＳ３００が学習用データ記憶工程、ステップＳ３１０～Ｓ３８１が機械学習工程、ステップＳ３９０が学習済みモデル記憶工程に相当する。

【0150】

【0151】

（反応槽運転支援装置７）
反応槽運転支援装置７は、第１の実施形態（図９参照）と同様に、入力データ取得部７０と、推論部７１と、学習済みモデル記憶部７２と、出力処理部７３とを備える。

【0152】

推論部７１は、入力データ取得部７０により取得された入力データを学習モデル２に入力し、反応装置１の運転パラメータを推論する推論処理を行う。推論処理には、機械学習装置６及び機械学習方法にて強化学習が実施された学習済みの学習モデル２が用いられる。

【0153】

（反応槽運転支援方法）
図１４は、第２の実施形態に係る反応槽運転支援装置７（反応槽制御装置５の運転支援部５００）による反応槽運転支援方法の一例を示すフローチャートである。

【0154】

まず、ステップＳ４００において、反応装置１が備える反応槽センサ群３５、外部環境センサ群３７及び撹拌機センサ群４３が、各種の測定値（状態変数）を測定周期毎に測定する。

【0155】

次に、ステップＳ４１０において、運転支援部５００（入力データ取得部７０）は、各センサにより測定周期毎に測定された状態変数に基づいて入力データ（状態ｓ）を取得する。

【0156】

ステップＳ４２０において、運転支援部５００（推論部７１）は、入力データ（状態ｓ）に前処理を施して学習モデル２の入力層に入力し、反応装置１の運転パラメータを推論し、その学習モデル２の出力層から出力された出力データ（各行動ａ_ｋの行動価値関数Ｑ（ｓ，ａ_ｋ）の値）を取得する。

【0157】

次に、ステップＳ４２１において、運転支援部５００（推論部７１）は、強化学習の後処理の一例として、出力データとして出力層の各ニューロンから出力された各行動ａ_ｋの行動価値関数Ｑ（ｓ，ａ_ｋ）の値に基づいて、その中で最大値を与える行動ａを選択する。

【0158】

次に、ステップＳ４３０～Ｓ４３４において、運転支援部５００（出力処理部７３）は、ステップＳ４２１で選択した行動ａに対応する運転パラメータを出力することで、運転パラメータの設定を支援する。なお、ステップＳ４３０～Ｓ４３４は、図１０のステップＳ２３０～Ｓ２３４と同様であるため、詳細な説明は省略する。

【0159】

次に、ステップＳ４４０において、運転支援部５００は、反応プロセスが終了したか否かを判定する。その結果、反応プロセスが終了していないと判定した場合には（ステップＳ４４０でＮｏ）、ステップＳ４００に戻り、上記のステップＳ４００～Ｓ４３４の工程を実行することで、次の指令周期が到来したタイミングで新たな運転パラメータの設定を支援する。

【0160】

一方、ステップＳ４４０において、運転支援部５００が、反応プロセスが終了したと判定した場合には（ステップＳ４４０でＹｅｓ）、図１４に示す一連の反応槽運転支援方法を終了する。反応槽運転支援方法において、反応槽運転支援方法において、ステップＳ４１０が入力データ取得工程、ステップＳ４２０、Ｓ４２１が推論工程、ステップＳ４３０～Ｓ４３４が出力処理工程に相当する。

【0161】

【0162】

（他の実施形態）
本発明は上述した実施形態に制約されるものではなく、本発明の主旨を逸脱しない範囲内で種々変更して実施することが可能である。そして、それらはすべて、本発明の技術思想に含まれるものである。

【0163】

上記実施形態では、反応槽運転支援装置７は、自動運転モードと手動運転モードとが切替可能な反応装置１に適用されたものとして説明した。これに対し、反応槽運転支援装置７は、自動運転モード及び手動運転モードのいずかを実行する反応装置１に適用されてもよい。また、反応槽運転支援装置７は、例えば、反応装置１の製造工場にて反応槽制御装置５に組み込まれた状態で出荷されてもよいし、工場出荷後の既設の反応槽制御装置５に後付けされてもよい。

【0164】

上記実施形態では、学習データが入力データとして含む状態変数の各々は、時系列データであるものとして説明した。これに対し、学習データが入力データとして含む状態変数の各々は、特定の時点における時点データとしてもよい。

【0165】

上記実施形態では、機械学習部６２による機械学習の具体的な手法として、ニューラルネットワークを採用した場合について説明した。これに対し、機械学習部６２は、任意の他の機械学習の手法を採用してもよい。他の機械学習の手法としては、例えば、決定木、回帰木等のツリー型、バギング、ブースティング等のアンサンブル学習、再帰型ニューラルネットワーク、畳み込みニューラルネットワーク、ＬＳＴＭ等のニューラルネット型(
ディープラーニングを含む)、階層型クラスタリング、非階層型クラスタリング、ｋ近傍
法、ｋ平均法等のクラスタリング型、主成分分析、因子分析、ロジスティク回帰等の多変量解析、サポートベクターマシン等が挙げられる。

【0166】

（機械学習プログラム）
本発明は、図３に示すコンピュータ２００に、上記実施形態に係る機械学習方法が備える各工程を実行させるためのプログラム（機械学習プログラム）２３０の態様で提供することもできる。

【0167】

（反応槽運転支援プログラム）
本発明は、図３に示すコンピュータ２００に、上記実施形態に係る反応槽運転支援方法が備える各工程を実行させるためのプログラム（反応槽運転支援プログラム）２３０の態様で提供することもできる。

【0168】

（推論装置、推論方法及び推論プログラム）
本発明は、上記実施形態に係る反応槽運転支援装置７（反応槽運転支援方法又は反応槽
運転支援プログラム）の態様によるもののみならず、反応装置１の運転パラメータを設定するために用いられる推論装置（推論方法又は推論プログラム）の態様で提供することもできる。その場合、推論装置（推論方法又は推論プログラム）としては、メモリと、プロセッサとを含み、このうちのプロセッサが、一連の処理を実行するものとすることができる。当該一連の処理とは、反応槽３に係る反応槽状態変数、及び、撹拌機４に係る撹拌機状態変数を少なくとも含む入力データを取得する入力データ取得処理（入力データ取得工程）と、入力データ取得処理にて入力データを取得すると、反応装置１の運転パラメータを推論する推論処理（推論工程）とを含む。

【0169】

推論装置（推論方法又は推論プログラム）の態様で提供することで、反応槽運転支援装置７を実装する場合に比して簡単に種々の装置への適用が可能となる。推論装置（推論方法又は推論プログラム）が反応装置１の運転パラメータを推論する際、上記実施形態に係る機械学習装置６及び機械学習方法により生成された学習済みの学習モデル２を用いて、反応槽運転支援装置７の推論部７１が実施する推論手法を適用してもよいことは、当業者にとって当然に理解され得るものである。

【符号の説明】

【0170】

１…反応装置、２…学習モデル、３…反応槽、４…撹拌機、５…反応槽制御装置、
６…機械学習装置、７…反応槽運転支援装置、８…試験装置、
９…反応シミュレーション装置、１０…作業者用端末、
３０…反応槽本体、３１…原材料投入口、３２…生成物排出口、
３３…ジャケット、３４…熱媒循環流路、３５…反応槽センサ群、
３６…反応槽制御機器群、３７…外部環境センサ群、
４０…攪拌翼、４１…モータ、４２…回転軸、
４３…撹拌機センサ群、４４…撹拌機制御機器、
５０…制御盤、５１…操作表示盤、
５２…自動運転履歴データ、５３…手動運転履歴データ、
６０…学習用データ取得部、６１…学習用データ記憶部、
６２…機械学習部、６３…学習済みモデル記憶部、
７０…入力データ取得部、７１…推論部、
７２…学習済みモデル記憶部、７３…出力処理部、
２００…コンピュータ、
３４０…冷水循環流路、３４１…温水循環流路、３５０…ジャケット熱媒温度センサ、
３５１…冷水温度センサ、３５２…温水温度センサ、
３５３…ジャケット熱媒流量センサ、３５４…冷水流量センサ、
３５５…温水流量センサ、３５６Ａ～３５６Ｃ…反応槽温度センサ、
３５７…反応槽圧力センサ、３５８…反応槽重量センサ、
３６０…冷却機器、３６１…加熱機器、３６２…冷水流量調整弁、
３６３…冷水ポンプ、３６４…温水流量調整弁、３６５…温水ポンプ、
３７０…外部環境温度センサ、３７１…外部環境湿度センサ、
４３０…撹拌機トルクセンサ、４３１…モータ回転数センサ、
４３２…モータ電流センサ、４３３…振動センサ、４３４…音響センサ、
５００…運転支援部、５０１…自動運転モード部、５０２…手動運転モード部、
Ｆ１…ジャケット熱媒流量、Ｆ２…冷水流量、Ｆ３…温水流量、
Ｔ１～Ｔ３…反応槽温度、Ｔ４…ジャケット熱媒温度、Ｔ５…冷水温度、
Ｔ６…温水温度、Ｐ１…反応槽圧力、Ｗ１…反応槽重量、
ＳＴ１…撹拌機トルク、Ｉ１…モータ電流値、Ｒ１…モータ回転数、
Ｎ１…音響値、Ｏ１…振動値、Ｔ７…外部環境温度、Ｈ１…外部環境湿度

【図1】