IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社明電舎の特許一覧

<>
  • 特許-水処理施設の運転支援装置 図1
  • 特許-水処理施設の運転支援装置 図2
  • 特許-水処理施設の運転支援装置 図3
  • 特許-水処理施設の運転支援装置 図4
  • 特許-水処理施設の運転支援装置 図5
  • 特許-水処理施設の運転支援装置 図6
  • 特許-水処理施設の運転支援装置 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-27
(45)【発行日】2024-06-04
(54)【発明の名称】水処理施設の運転支援装置
(51)【国際特許分類】
   C02F 3/12 20230101AFI20240528BHJP
   C02F 1/00 20230101ALI20240528BHJP
   G05B 23/02 20060101ALI20240528BHJP
【FI】
C02F3/12 H
C02F1/00 T
G05B23/02 G
G05B23/02 T
【請求項の数】 3
(21)【出願番号】P 2020128997
(22)【出願日】2020-07-30
(65)【公開番号】P2022025859
(43)【公開日】2022-02-10
【審査請求日】2023-02-21
(73)【特許権者】
【識別番号】000006105
【氏名又は名称】株式会社明電舎
(74)【代理人】
【識別番号】110002077
【氏名又は名称】園田・小林弁理士法人
(72)【発明者】
【氏名】高▲瀬▼ 信彰
(72)【発明者】
【氏名】木村 雄喜
(72)【発明者】
【氏名】鮫島 正一
(72)【発明者】
【氏名】▲高▼倉 正佳
(72)【発明者】
【氏名】三宅 雄貴
【審査官】田中 雅之
(56)【参考文献】
【文献】国際公開第2020/021688(WO,A1)
【文献】特開2011-197714(JP,A)
【文献】国際公開第2020/021687(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G05B 23/00-23/02
C02F 1/00- 3/34
(57)【特許請求の範囲】
【請求項1】
対象となる系の水質データを保存する水質データ保存部と、
前記対象となる系の物理的特性及び前記水質データを入力として学習を行い、学習済みの運転操作モデルを出力する学習部と、
前記対象となる系の水質及び運転コストの目標値である設定値が入力されて保存される設定部と、
前記水質データ及び前記設定値を入力として前記学習済みの運転操作モデルにより前記対象となる系を制御する運転操作値を出力する運転操作部と、を備え、
前記設定部は、
前記対象となる系の水質及び運転コストのどちらを優先するかに関する入力を受け付け、
前記運転操作部は、
前記設定部によって受け付けられる入力に応じて前記水質データを変化させて前記学習済みの運転操作モデルに入力し、
前記学習部は、
対象となる系のプロセスをモデル化したシミュレータであるプラントモデルと、
前記プラントモデル及び前記水質データを用いて強化学習によって前記運転操作モデルを学習させる運転操作モデル学習部と、
前記運転操作モデル学習部によって学習された運転操作モデルパラメータを保存する運転操作モデル保存部と、を備える水処理施設の運転支援装置。
【請求項2】
前記水質データ保存部からの前記水質データが入力されて、将来の流入水質推定値を出力する推定部を備え、
前記推定部は、
前記水質データに基づいて、将来流入する水量及び水質を推定する学習モデルを構築して学習する流入水質推定モデル学習部と、
前記流入水質推定モデル学習部によって得られた流入水質推定モデルのパラメータを保存する流入水質推定モデル保存部と、
前記流入水質推定モデルを用いて前記水質データから将来の流入水質を推定して流入水質推定値を出力する流入水質推定部と、を備える請求項1に記載の水処理施設の運転支援装置。
【請求項3】
過去の運転操作情報を保存する運転操作保存部と、
前記プラントモデル及び前記過去の運転操作情報を用いて、強化学習により運転操作モデルを学習させる運転操作モデル模倣学習部と、を備える請求項2に記載の水処理施設の運転支援装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、水処理施設の運転支援装置に関する。
【背景技術】
【0002】
従来、水処理施設における水質の制御は、水処理施設の様々な状況を考慮して熟練の技術を有する運転員の操作により行われており、運転員の高齢化及び当該技術の習熟に長期間を要することから、人工知能を用いた自動化の要請がある。
【0003】
従来技術の一例である特許文献1には、制御ノウハウに相当する制御ロジックを自動的に作成する、上下水道施設に適用可能なプロセス制御システムとして、制御対象のプラントのプロセスを、プラント側から入力される各種の状態信号や状態量に基づき、予め設定した制御目標値を満足すべく制御するプロセスコントローラと、前記プロセスを制御するための、プラント側で生じる各種の状態信号や状態量、プロセスへの制御目標値、及び制御量を含むプロセスデータを蓄積するデータ保存部と、このデータ保存部に蓄積されたプロセスデータから、プロセスの状態量に応じて制御目標値を満足する制御量及び制御結果に関するデータを用い、これらデータ相互の関係から制御ノウハウに相当する好適な制御ロジックを作成する制御ロジック作成装置と、プロセスコントローラを模擬する制御シミュレーション機能、及び制御対象プロセスを模擬するプロセスシミュレーション機能を有し、作成された制御ロジックをシミュレートするシミュレータとを備え、このシミュレータにより検証された制御ロジックがプロセスコントローラの制御ロジックとして適用されるプロセス制御システムが開示されている。ここで、プロセスコントローラに設定される制御目標値は、浄水プラント側から入力されるプロセスの状態量に応じて、運転員の経験等に基づくノウハウにより各種パラメータを設定して決定される。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2011-197714号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記の従来技術では、運転員のノウハウによる設定を越えて、更に高効率化された運転を行うことは困難である、という問題があった。
【0006】
本発明は、上記に鑑みてなされたものであって、過去の運転員の操作に依存しない、より効率化された運転操作値を導出可能な技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
上述の課題を解決して目的を達成する本発明は、対象となる系の水質データを保存する水質データ保存部と、前記対象となる系の物理的特性及び前記水質データを入力として学習を行い、学習済みの運転操作モデルを出力する学習部と、前記対象となる系の水質及び運転コストの目標値である設定値が入力されて保存される設定部と、前記水質データ及び前記設定値を入力として前記学習済みの運転操作モデルにより前記対象となる系を制御する運転操作値を出力する運転操作部と、を備え、前記学習部は、対象となる系のプロセスをモデル化したシミュレータであるプラントモデルと、前記プラントモデル及び前記水質データを用いて強化学習によって前記運転操作モデルを学習させる運転操作モデル学習部と、前記運転操作モデル学習部によって学習された運転操作モデルパラメータを保存する運転操作モデル保存部と、を備える水処理施設の運転支援装置である。
【0008】
上記構成の本発明に係る水処理施設の運転支援装置は、前記水質データ保存部からの前記水質データが入力されて、将来の流入水質推定値を出力する推定部を備え、前記推定部は、前記水質データに基づいて、将来流入する水量及び水質を推定する学習モデルを構築して学習する流入水質推定モデル学習部と、前記流入水質推定モデル学習部によって得られた流入水質推定モデルのパラメータを保存する流入水質推定モデル保存部と、前記流入水質推定モデルを用いて前記水質データから将来の流入水質を推定して流入水質推定値を出力する流入水質推定部と、を備えることが好ましい。
【0009】
上記構成の本発明に係る水処理施設の運転支援装置は、過去の運転操作情報を保存する運転操作保存部と、前記プラントモデル及び前記過去の運転操作情報を用いて、強化学習により運転操作モデルを学習させる運転操作モデル模倣学習部と、を備えることが好ましい。
【発明の効果】
【0010】
本発明によれば、過去の運転員の操作に依存しない、より効率化された運転操作値を導出することができる。
【図面の簡単な説明】
【0011】
図1図1は、実施形態1に係る運転支援装置を適用可能な水処理施設の構成を示す図である。
図2図2は、実施形態1に係る運転支援装置の構成を示すブロック図である。
図3図3は、強化学習モデルの一例であるマルコフ決定過程を示す図である。
図4図4は、実施形態2に係る運転支援装置の構成を示すブロック図である。
図5図5は、LSTMによって構築した流入水質推定モデルの例を示す図である。
図6図6は、図5に示す特徴量抽出レイヤを示す図である。
図7図7は、実施形態3に係る運転支援装置の構成を示すブロック図である。
【発明を実施するための形態】
【0012】
以下、添付図面を参照して、本発明を実施するための形態について説明する。
ただし、本発明は、以下の実施形態の記載によって限定解釈されるものではない。
【0013】
(実施形態1)
図1は、本実施形態に係る運転支援装置100を適用可能な水処理施設200の構成を示す図である。
図1に示す水処理施設200は、最初沈殿池1と、反応槽2と、最終沈殿池3と、送風機4と、風量調整バルブ5と、散気装置6と、第1のポンプ7と、第2のポンプ8と、計測器9と、重力濃縮槽10と、機械濃縮槽11と、消化槽12と、脱水槽13と、配管21,22,23,24とを備える。
【0014】
最初沈殿池1は、原水が導入される沈殿池である。
この原水は、有機物を含む排水である。
最初沈殿池1では、原水の固液分離が行われ、最初沈殿池1からの流出水は、配管21を通して反応槽2に送られる。
最初沈殿池1に沈殿した汚泥である生汚泥は、配管24を通して重力濃縮槽10に送られる。
【0015】
反応槽2は、微生物を含み、該微生物によって最初沈殿池1からの流出水を浄化する槽である。
反応槽2では、該微生物が最初沈殿池1からの流出水に含まれる有機物を資化することで増殖し、該微生物を用いた生物処理により活性汚泥が形成される。
反応槽2からの流出水は、配管22を通して最終沈殿池3に送られる。
【0016】
最終沈殿池3は、反応槽2からの流出水に含まれる活性汚泥を沈殿させる沈殿池である。
最終沈殿池3の上澄みは、処理水として水処理施設200の外へ放出される。
最終沈殿池3で沈殿した汚泥の一部は、第1のポンプ7によって配管23を通して反応槽2に戻されて再利用される。
最終沈殿池3で沈殿した残りの汚泥は、余剰汚泥として第2のポンプ8によって機械濃縮槽11に送られる。
【0017】
送風機4は、複数の散気装置6に空気を供給する。
風量調整バルブ5は、複数の散気装置6の各々に通した配管に設けられており、開閉により送風量を調整する。
複数の散気装置6は、反応槽2の下部に設けられており、風量調整バルブ5に通された配管に接続されて、風量調整バルブ5によって送風量が調整された空気を反応槽2内に供給する。
このように反応槽2への送風量が調整されると、反応槽2内の溶存酸素量であるDO(Dissolved Oxygen)値が調整され、生物処理の進行が調整される。
【0018】
第1のポンプ7は、最終沈殿池3で沈殿した汚泥の一部を、配管23を通して反応槽2に送る返送汚泥ポンプである。
第2のポンプ8は、最終沈殿池3で沈殿した残りの汚泥を余剰汚泥として機械濃縮槽11に送る余剰汚泥引抜ポンプである。
【0019】
計測器9は、反応槽2の水質を示す各パラメータを計測する計測器であり、計測したパラメータである計測値データは運転支援装置100に送られる。
ここで、水質を示す各パラメータとしては、溶存酸素量であるDO値及び浮遊物質濃度であるMLSS(Mixed Liquor Suspended Solids)値を例示することができる。
水処理施設200の運転員は、計測器9によって計測された水質を示す各パラメータを参照することで制御対象の操作量を決定している。
ここで、制御対象の操作量としては、水処理施設200の最終沈殿池3からの返送汚泥量を調整する第1のポンプ7の回転数、水処理施設200の最終沈殿池3の余剰汚泥引抜量を調整する第2のポンプ8の単位時間あたりの引抜量又は余剰汚泥の引抜時間、及び水処理施設200の脱水槽13への高分子凝集剤の注入率を例示することができる。
【0020】
重力濃縮槽10は、最初沈殿池1に沈殿した生汚泥を濃縮処理する槽である。
機械濃縮槽11は、第2のポンプ8によって最終沈殿池3から引き抜かれた余剰汚泥を濃縮処理する槽である。
重力濃縮槽10及び機械濃縮槽11において濃縮された汚泥は、消化槽12に送られる。
【0021】
消化槽12は、濃縮された汚泥の消化処理を行う槽である。
ここで、消化処理は、例えば嫌気性消化処理方式によって行われるとよい。
嫌気性消化処理方式では、嫌気性微生物によって有機性の汚泥が分解される。
消化処理によって分解された汚泥は、脱水槽13に送られる。
【0022】
脱水槽13は、消化処理によって分解された汚泥を脱水することで、汚泥の含水率を低下させて減容化を行う槽である。
【0023】
配管21は、最初沈殿池1と反応槽2との間に配置され、最初沈殿池1からの流出水を反応槽2に送る配管である。
配管22は、反応槽2と最終沈殿池3との間に配置され、反応槽2からの流出水を最終沈殿池3に送る配管である。
配管23は、第1のポンプ7と反応槽2との間に配置され、最終沈殿池3の汚泥の一部を反応槽2に送る配管である。
配管24は、最初沈殿池1と重力濃縮槽10との間に配置され、最初沈殿池1の生汚泥を重力濃縮槽10に送る配管である。
【0024】
図1に示す水処理施設200において、主な操作項目は、最初沈殿池1から反応槽2への水量である流入量、反応槽2内に供給される空気量である送風量、第1のポンプ7によって反応槽2に返送される汚泥の量である返送汚泥量、第2のポンプ8によって最終沈殿池3から引き抜かれる汚泥の量である余剰汚泥引抜量、及び凝集剤注入率である。
これらの操作項目の各々は、水処理施設によって設定が異なる。
【0025】
反応槽2の制御は、例えば、送風量一定制御、比率一定制御及びDO一定制御によって行うことが可能である。
ここで、送風量一定制御は、目標送風量値として設定された一定の送風量となるように行う制御である。
また、比率一定制御は、最初沈殿池1から反応槽2への流入量に応じた送風量となるように、すなわち流入量と送風量との比率が一定となるように行う制御である。
また、DO一定制御は、反応槽2のDO値が設定された一定の目標DO値となるように行う制御である。
【0026】
また、主な操作項目は、返送汚泥量の調整では第1のポンプ7の回転数であり、余剰汚泥引抜量の調整では単位時間あたりの引抜量又は余剰汚泥の引抜時間であり、脱水処理では高分子凝集剤の注入率である。
本実施形態に係る運転支援装置100は、これらの操作項目を導出対象とする。
そして、運転員は、運転支援装置100によって導出された操作項目に基づいて制御対象の操作量を決定する。
このように運転支援装置100によって制御対象の操作量が決定されることで、勘、経験及びノウハウを有していない者を運転員とすることが可能となる。
【0027】
図2は、本実施形態に係る運転支援装置100の構成を示すブロック図である。
図2に示す運転支援装置100は、水質データ保存部101と、運転操作部102と、学習部110と、設定部120と、を備え、水処理プラント30の運転を支援する。
水処理プラント30は、水処理施設200内のシミュレーションの対象となる系であり、最初沈殿池1、反応槽2及び最終沈殿池3等を含む。
また、当該シミュレーションにおいては、第1のポンプ7によって反応槽2に返送される汚泥の量である返送汚泥量等も考慮される。
【0028】
水質データ保存部101は、水処理プラント30の運転によって得られた各種水質データを保存するデータベースである。
ここで、水質データとしては、浮遊物質(SS)、活性汚泥沈殿率(SV)、活性汚泥浮遊物質(MLSS)、全リン、全窒素、生物化学的酸素要求量(BOD)、化学的酸素要求量(COD)、pH値及び溶存酸素量(DO)を例示することができる。
また、水質データ保存部101には、各種水質データの他に、天候情報及び季節情報も保存されている。
【0029】
学習部110は、プラントモデル111と、運転操作モデル学習部112と、運転操作モデル保存部113と、を備える。
プラントモデル111は、水処理プラント30のプロセスをモデル化したシミュレータであり、水処理プラント30の物理的特性と、水質データ保存部101に蓄積された水質データによる較正と、によって構築される。
運転操作モデル学習部112は、プラントモデル111を用いて、強化学習によって運転操作モデルを学習させることで最適な運転操作を学習する。
運転操作モデル学習部112の運転操作モデルが出力する運転操作値がプラントモデル111に入力され、プラントモデル111におけるシミュレーションによって得られた水質データが運転操作モデルに入力される。
運転操作モデルは、運転操作モデルに入力された水質データ及び当該運転操作モデルによる運転コストに応じて予め定義された報酬を得ることで、最適な運転操作を獲得する。
運転操作モデル保存部113は、獲得された最適な運転操作のパラメータを保存する。
【0030】
設定部120は、設定入力部121と、設定保存部122と、を備える。
設定入力部121には、運転員により設定値が入力される。
ここで、設定値は、運転員によって設定された水質及び運転コストの目標値である。
水質としては、活性汚泥沈殿率(SV)及び生物化学的酸素要求量(BOD)を例示することができる。
設定保存部122は、この設定値を保存する。
【0031】
運転操作部102は、実際の運転操作値を決定する。
最初に、運転操作部102は、運転操作モデル保存部113に保存された、学習済みの運転操作モデルを読み込み、水質データ保存部101から入力される過去から現在までの水質データと、設定保存部122に保存された設定値と、を入力として運転操作モデルを動作させ、最適な運転操作値を出力して水処理プラント30の制御を行う際の運転操作値を決定する。
運転員又は運転操作機能を有する装置は、該運転操作値に従って運転操作を行う。
【0032】
ここで、運転操作部102における運転操作モデルの動作の詳細を説明する。
運転操作モデルは、強化学習モデルで構築される。
図3は、強化学習モデルの一例であるマルコフ決定過程を示す図である。
マルコフ決定過程においては、時刻tにおける環境は状態sをとり、エージェントは状態sにおいて利用可能な行動aを選択する。
その後、環境は新しい状態st+1へ遷移し、その際にエージェントは状態遷移に対応した報酬r又は報酬rt+1を受け取る。
【0033】
ここで、図3に示す環境は水処理プラント30であり、エージェントは運転員又は運転操作機能を有する装置であり、行動は運転操作であり、状態は水処理プラント30の水質であり、報酬は水質に応じて定義された値である。
図3に示すマルコフ決定過程の1ステップ、すなわち1回のループは、水処理プラント30の制御周期又は運転操作値の設定周期に応じて決定すればよく、その周期は1時間であってもよいし、1日でもあってもよい。
図3に示す状態である水処理プラント30の水質は、現在時刻の流入水質であってもよいし、現在時刻の流入水質に過去の流入水質又は将来の流入水質の予測値を含んでもよいし、必要に応じて天候情報又は季節情報を対象となる系の状態として含んでもよい。
図3に示すエージェントの方策である行動指針及び行動ルールは、Q学習であればQテーブルによって決定され、深層強化学習であればニューラルネットワークによって決定される。
エージェントの方策は、マルコフ決定過程を繰り返すことによって獲得される。
【0034】
図3に示す行動は、図1に示す水処理施設200における主な操作項目であり、最初沈殿池1から反応槽2への水量である流入量、反応槽2内に供給される空気量である送風量又はDO目標値、第1のポンプ7によって反応槽2に返送される汚泥の量である返送汚泥量、第2のポンプ8によって最終沈殿池3から引き抜かれる汚泥の量である余剰汚泥引抜量、及び凝集剤注入率等である。
図3に示す報酬は、水質及び運転コストに応じて適切に設定される。
例えば、水質に関しては、全窒素、全リン、SV及びBOD等を報酬として設定し、指定水質が予め設定された範囲内に収まっていれば正の報酬を与え、予め設定された範囲から逸脱していれば負の報酬を与えるものとする。
また、例えば、運転コストに関しては、運転で生じる消費電力の逆数を報酬として設定すると、消費電力が小さいほど大きな正の報酬が与えられることになる。
また、水質のために反応槽2の生物処理を促進する場合には送風機4の送風量を増加させることになるため運転コストが増大するが、送風機の送風量を減じると運転コストを抑えることはできるものの、生物処理が抑制されることになる。
このように、水質と運転コストとは、トレードオフの関係であり、どちらを優先して強化学習を行うかは報酬設計次第である。
【0035】
運転員は、設定入力部121に対して、水質及び運転コストのどちらを優先するかを決定することができる。
しかしながら、運転員は、設定入力部121に対して報酬設計を直接的に入力しない。
これは、運転員の判断によって報酬設計が入力されると、運転操作モデル学習部112における強化学習を再度行わなければならず、計算コストが増加するからである。
そこで、本実施形態に係る運転支援装置100は、運転操作部102において水処理プラント30の水質を仮想的に変化させて運転操作モデルに入力する。
運転員の意思決定に基づく設定値は設定入力部121に入力され、入力された設定値は設定保存部122に保存され、保存された設定値は運転操作部102に入力される。
運転操作部102は、運転操作部102において水質を状態として与える際に、運転員の判断が水質優先である場合には、報酬として設定された水質を予め改悪方向に変化させる。
このように水質が実際よりも悪化していると見せかけると、強化学習の運転操作を水質優先にすることができる。
逆に、運転員の判断が運転コスト優先である場合には、報酬として設定された水質を予め改善方向に変化させる。
このように水質が実際よりも改善していると見せかけると、強化学習の運転操作を運転コスト優先にすることができる。
水質を仮想的に変化させる方法では、厳密な最適方策を得ることはできないが、強化学習の再学習を待たずに運転員による水質優先であるか又は運転コスト優先であるかの意思決定を即座に反映することができる。
【0036】
本実施形態によれば、プラントモデル111によるシミュレーションを用いた強化学習によって、過去の運転員の操作に依存しない、最適な運転操作値を導出することができる。
また、プラントモデル111が正しく較正できるだけのデータがあればよいので、工事等によりプロセスに変化が生じた場合であっても、データ蓄積の時間を大幅に短縮することができる。
【0037】
(実施形態2)
図4は、本実施形態に係る運転支援装置100aの構成を示すブロック図である。
図4に示す運転支援装置100aは、図2に示す運転支援装置100に対して推定部130が追加され、運転操作部102に代えて運転操作部102aを備える構成である。
【0038】
推定部130は、流入水質推定モデル学習部131と、流入水質推定モデル保存部132と、流入水質推定部133と、を備える。
【0039】
流入水質推定モデル学習部131は、水質データ保存部101に保存された各種水質データのうち、過去から現在を経て将来に至るまでの天候情報と、季節情報と、過去の流入水質データと、に基づいて、水処理施設に将来流入する水量及び水質を推定する学習モデルを構築して学習する。
ここで、学習は、水質データ保存部101に保存されている過去の運転データによって行われる。
【0040】
流入水質推定モデル保存部132は、流入水質推定モデル学習部131の学習によって得られた流入水質推定モデルの学習済みパラメータを保存する。
【0041】
流入水質推定部133は、流入水質推定モデル保存部132に保存されたパラメータにより構築された流入水質推定モデルを用いて、水質データ保存部101に保存された各種水質データに基づいて将来流入する水量及び水質を推定し、推定部130の出力として流入水質推定値を出力する。
運転操作部102aは、実施形態1における運転操作部102に対して、推定部130が出力する流入水質推定値を入力として追加した運転操作モデルにより、運転操作値を出力して水処理プラント30の制御を行う。
【0042】
流入水質推定部133の流入水質推定モデルは、機械学習手法によって構築される。
ここで、機械学習手法としては、ニューラルネットワーク、長・短期記憶(LSTM:Long Short-Term Memory)、サポートベクターマシン及びランダムフォレストを例示することができる。
【0043】
図5は、LSTMによって構築された流入水質推定モデルの例を示す図である。
図5において、処理フローは矢印で示され、現在の時刻をtとし、現在の時刻tより前がエンコーダ部であり、現在の時刻t以降がデコーダ部である。
図5に示す流入水質推定モデルは、特徴量抽出レイヤ、LSTMレイヤ及び出力レイヤを備える。
【0044】
図6は、図5に示す特徴量抽出レイヤを示す図である。
図6に示す特徴量抽出レイヤには、当該時刻の気象情報及び流入水質データが入力される。
ここで、気象情報には天候情報及び季節情報が含まれ、気象情報としては、図6に示すような縦軸に緯度、横軸に経度をもつメッシュ気象データを例示することができる。
また、当該時刻が時刻t以降の将来である場合には、気象情報として気象予報データが用いられる。
特徴量抽出レイヤは、畳み込みレイヤによってこのメッシュ気象データの特徴量を抽出して流入水質データと併せて全結合層に入力することで、最終的な特徴量を出力する。
特徴量抽出レイヤの出力は、LSTMレイヤに入力される。
【0045】
LSTMレイヤは、エンコーダ部の情報を保持し、デコーダ部の出力に反映させる。
デコーダ部の出力レイヤは、全結合層等の処理を行い、次時刻の流入水質を推定する。
推定された流入水質は、次時刻の特徴量抽出レイヤに入力される。
なお、デコーダ部は、予測する時刻分だけ連なって設けられる。
例えば、時刻の1ステップが1時間であり、24時間先までの流入水質を予測したい場合には、デコーダ部は、現在の時刻tから24時間後の時刻t+24までを含む25個が連なって設けられる。
【0046】
本実施形態によれば、過去から現在までの蓄積されたデータのみならず、蓄積されたデータから推定された将来の流入水質も運転操作部に入力されるため、さらに現実に即した、高効率な運転操作が可能となる。
【0047】
(実施形態3)
図7は、本実施形態に係る運転支援装置100bの構成を示すブロック図である。
図7に示す運転支援装置100bは、図4に示す運転支援装置100aに対して運転操作情報保存部103が追加され、学習部110に代えて運転操作モデル模倣学習部110bを備える構成である。
【0048】
運転操作情報保存部103は、水処理プラント30において行われた過去の運転操作情報を保存する。
運転操作情報保存部103に保存された過去の運転操作情報は、運転操作モデル模倣学習部110bに入力される。
運転操作モデル模倣学習部110bは、実施形態1,2における運転操作モデル学習部110と同様に、強化学習によって最適な運転操作を学習する処理を行うとともに、模倣学習によって過去の運転操作を模倣する。
一般に、強化学習では、予め報酬の設計が必要であり、具体的には、全窒素、全リン、活性汚泥沈殿率(SV)、生物化学的酸素要求量(BOD)等の指定水質の制御に対して、いずれの項目の変化に対してどの程度の報酬を与えるか、予め設計することを要する。
すなわち、熟練の運転員が、いずれの項目をどの程度重視するのかを、報酬という形で定量化しなければならないが、これは熟練の運転員本人にも困難であるものの、模倣学習によってこの定量化が可能になる。
【0049】
模倣学習は、熟練の運転員のようなエキスパートによって与えられた行動軌跡、すなわちエキスパート軌跡を模倣することによって、より良い方策を獲得する強化学習手法である。
エキスパート軌跡を模倣する方法としては、逆強化学習を例示することができる。
以下に説明する逆強化学習によれば、複雑な報酬設計を行うことなく、強化学習の報酬をエキスパート軌跡から習得することができる。
【0050】
模倣学習において、報酬関数Rは、状態sを表現する特徴ベクトルφ(s)と、パラメータθを用いた関数fとして、下記の式(1)で表現される。
【0051】
【数1】
【0052】
逆強化学習では、エキスパート軌跡によって与えられる状態sとエキスパートの行動aの組に対して、尤もらしい報酬関数Rとなるように、上記の式(1)のパラメータθを求める。
最大エントロピー逆強化学習(Maximum Entropy IRL(Inverse Reinforcement Learning))では、エキスパート軌跡ζ=[(s0,a0),(s1,a1),…]と、その集合であるエキスパート軌跡集合Z=[ζ1,ζ2,…]に対して、下記の式(2)に示すように、エキスパートの行動確率Pのエントロピーを最大化するようなパラメータθを決定する問題に帰着される。
【0053】
【数2】
【0054】
上記の式(2)の問題は、対数尤度関数の最大化問題に変換され、勾配法によって最適なパラメータθが決定される。
【0055】
本実施形態によれば、過去の行動軌跡から、適切な行動を決定する模倣学習を用いることで、複雑な報酬設計が不要となり、より高効率な運転操作が可能となる。
【0056】
また、本発明は、上述の実施形態に限定されるものではなく、上述の構成に対して、構成要素の付加、削除又は転換を行った様々な変形例も含むものとする。
【符号の説明】
【0057】
1 最初沈殿池
2 反応槽
3 最終沈殿池
4 送風機
5 調整バルブ
6 散気装置
7 第1のポンプ
8 第2のポンプ
9 計測器
10 重力濃縮槽
11 機械濃縮槽
12 消化槽
13 脱水槽
21,22,23,24 配管
30 水処理プラント
100,100a,100b 水処理施設の運転支援装置
101 水質データ保存部
102,102a 運転操作部
103 運転操作情報保存部
110,110b 学習部
111 プラントモデル
112 運転操作モデル学習部
112b 運転操作モデル模倣学習部
113 運転操作モデル保存部
120 設定部
121 設定入力部
122 設定保存部
130 推定部
131 流入水質推定モデル学習部
132 流入水質推定モデル保存部
133 流入水質推定部
200 水処理施設
図1
図2
図3
図4
図5
図6
図7