IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社DeTwinの特許一覧

<>
  • 特開-社会インフラ制御システム 図1
  • 特開-社会インフラ制御システム 図2
  • 特開-社会インフラ制御システム 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024153964
(43)【公開日】2024-10-30
(54)【発明の名称】社会インフラ制御システム
(51)【国際特許分類】
   G06N 3/092 20230101AFI20241023BHJP
   G06Q 10/06 20230101ALI20241023BHJP
   G06Q 30/0202 20230101ALI20241023BHJP
【FI】
G06N3/092
G06Q10/06
G06Q30/0202
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023067503
(22)【出願日】2023-04-18
(71)【出願人】
【識別番号】523145273
【氏名又は名称】株式会社DeTwin
(74)【代理人】
【識別番号】100187104
【弁理士】
【氏名又は名称】乾 智彦
(72)【発明者】
【氏名】馬越 龍太郎
【テーマコード(参考)】
5L010
5L030
5L049
【Fターム(参考)】
5L010AA06
5L030BB02
5L049AA06
5L049BB02
(57)【要約】
【課題】自律的に最適制御を行うことができる社会インフラ制御システムを提供する。
【解決手段】社会インフラ制御システム10は、状態および報酬を用いて深層強化学習アルゴリズムを実行し、得られた制御値を社会インフラ50に出力するデータ学習部24を備える。データ学習部24は、第1深層強化学習エージェント30および第2深層強化学習エージェント40を有する。第1深層強化学習エージェント30は、深層学習により状態の価値とリスクと制御値とを予測する。第1深層強化学習エージェント30の学習は、社会インフラ50の目標指標を予測するモデルが作成されて、当該モデルの振る舞いを学習するモデルベースの学習と、データ保存部で蓄積された社会インフラの現実世界のデータからサンプリングにより深層学習の重み量を調整するモデルフリーの学習とを含む。
【選択図】図3
【特許請求の範囲】
【請求項1】
社会インフラを制御する社会インフラ制御システムであって、
前記社会インフラに関係するデータであって、少なくとも、前記社会インフラに設けられる各種センサからのセンサデータを収集するデータ収集部と、
前記データ収集部により収集されたデータの質的な制御である前処理を行うデータ処理部と、
前記収集されたデータおよび前記前処理されたデータを保存するデータ保存部と、
前記前処理されたデータであって、前記社会インフラの現状を示すデータに相当する状態に基づいて報酬を決定する報酬決定部と、
前記状態および前記報酬を用いて深層強化学習アルゴリズムを実行し、得られた制御値を前記社会インフラに出力するデータ学習部と、
を備え、
前記データ学習部は、第1深層強化学習エージェントおよび第2深層強化学習エージェントを有し、
前記第1深層強化学習エージェントは、深層学習により前記状態の価値とリスクと前記制御値とを予測し、
前記第1深層強化学習エージェントの学習は、前記社会インフラの目標指標を予測するモデルが作成されて、当該モデルの振る舞いを学習するモデルベースの学習と、前記データ保存部で蓄積された前記社会インフラの現実世界のデータからサンプリングにより深層学習の重み量を調整するモデルフリーの学習とを含み、
前記第1深層強化学習エージェントは、新しく収集されたデータを用いて前記モデルベースの学習アルゴリズムおよび前記モデルフリーの学習アルゴリズムを共に再学習させ、さらに、前記モデルフリーの学習アルゴリズムに前記モデルベースの学習アルゴリズムの入出力関係を学習させ、
前記第2深層強化学習エージェントは、状態空間に設計される報酬関数に従い前記状態に基づいて第2の報酬を出力し、当該第2の報酬に基づいて深層学習により異常スコアを予測し、
前記異常スコアは、前記データ保存部で蓄積された過去データのパターンと異なるデータパターンが入力されると上げられ、
前記第1深層強化学習エージェントが深層学習により前記リスクを予測するネットワーク部には、前記第2深層強化学習エージェントからの前記異常スコアが入力され、
前記第2深層強化学習エージェントは、前記異常スコアの予測性能が低下した場合、過去のデータと比較して前記社会インフラの運転範囲の境界を越えているのか、あるいは入力データのパターンが変化しているのかの原因を、前記入力データに基づき予測するアルゴリズム管理部を有し、
前記アルゴリズム管理部による、前記入力データのパターンが変化しているかどうかの検定は、統計的な検定を用いて行われ、
前記第2深層強化学習エージェントは、前記アルゴリズム管理部により前記社会インフラの運転範囲の境界を越えていると判定された場合、新しいデータを用いて再学習を行う、社会インフラ制御システム。
【請求項2】
前記データ処理部は、前記収集されたデータから物理法則の式を用いて他の新たな情報を取得し、当該新たな情報を前記前処理されたデータとして追加する、請求項1に記載の社会インフラ制御システム。
【請求項3】
前記第1深層強化学習エージェントが複数設けられ、当該複数の第1深層強化学習エージェントが前記第2深層強化学習エージェントの出力に並列に配置され、互いに連携して学習する、請求項1に記載の社会インフラ制御システム。
【請求項4】
前記複数の第1深層強化学習エージェントからなるマルチエージェントは、リスクの高い行動が検出されると、当該行動に基づく制御に関連したデータを削除して前記データ保存部に保存しない、請求項3に記載の社会インフラ制御システム。
【請求項5】
前記第2深層強化学習エージェントは、人間の専門家であるエキスパートの知識がリアルタイムで入力できるように、データを可視化する表示部を用いて、前記エキスパートに向けてリアルタイムにデータ変動範囲、許容境界、データセット基準を表示させる協調部を有し、
前記第2深層強化学習エージェントは、前記アルゴリズム管理部により前記社会インフラの運転範囲の境界を越えていると判定された場合、前記運転範囲の境界を超えた入力データに対して、前記協調部によって前記エキスパートから知識を得て、前記運転範囲およびデータの基準値を見直して再学習を行う、請求項1に記載の社会インフラ制御システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、社会インフラを制御する社会インフラ制御システムに関する。
【背景技術】
【0002】
従来、現実空間にある多様なデータを収集し、それらのデータを基に仮想空間で各対象をモデル化して予測分析し、その結果として得られた最適化制御を現実空間に対して行う技術が知られている。特許文献1には、産業の主要業績評価指標を最適化するために1つ以上の産業処理ユニットからの複数のデータを分析するシステムが提案されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2018-195308号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
例えば多くの機器から構成されるプラントなどの社会インフラを制御する際、従来のように仮装空間のモデルで学習して得られた最適化制御を現実空間の社会インフラに対して行うことが考えられる。しかし上記のようなモデルベースの学習の場合、仮装空間のモデルでは最適化された制御であっても、現実空間の社会インフラでは必ずしも最適化されているとは限らない。より良い制御動作(最適運転点)を見つけるべく、モデルを改良することも考えられるが、未知の環境を完全に再現するのは難しい。現実に既に存在しているデータは偏っている場合が多く存在し、社会インフラの安全を確実に守りつつ、自律的にデータ探索とその大局的な最適点を求めることは困難となっている。
【0005】
本発明の目的は、自律的に安全な最適制御を行うことができる社会インフラ制御システムを提供することにある。
【課題を解決するための手段】
【0006】
上記目的を達成するために、本発明に係る社会インフラ制御システムは、社会インフラに関係するデータ(センサーデータ、テキスト記録データなどを含む)であって、少なくとも、社会インフラに設けられる各種センサからのセンサデータを収集するデータ収集部と、データ収集部により収集されたデータの質的な制御である前処理を行うデータ処理部と、収集されたデータおよび前処理されたデータを保存するデータ保存部と、前処理されたデータであって、社会インフラの現状を示すデータに相当する状態に基づいて報酬を決定する報酬決定部と、状態および報酬を用いて深層強化学習アルゴリズムを実行し、得られた制御値を社会インフラに出力するデータ学習部と、を備える。
【0007】
データ学習部は、第1深層強化学習エージェントおよび第2深層強化学習エージェントを有する。
第1深層強化学習エージェントは、深層学習により状態の価値とリスクと制御値とを予測する。第1深層強化学習エージェントの学習は、社会インフラの目標指標を予測するモデルが作成されて、当該モデルの振る舞いを学習するモデルベースの学習と、データ保存部で蓄積された社会インフラの現実世界のデータからサンプリングにより深層学習の重み量を調整するモデルフリーの学習とを含む。第1深層強化学習エージェントは、新しく収集されたデータを用いてモデルベースの学習アルゴリズムおよびモデルフリーの学習アルゴリズムを共に再学習させ、さらに、モデルフリーの学習アルゴリズムにモデルベースの学習アルゴリズムの入出力関係を学習させる。
第2深層強化学習エージェントは、状態空間に設計される報酬関数に従い状態に基づいて第2の報酬を出力し、当該第2の報酬に基づいて深層学習により異常スコアを予測する。異常スコアは、データ保存部で蓄積された過去データのパターンと異なるデータパターンが入力されると、上げられる。第1深層強化学習エージェントが深層学習によりリスクを予測するネットワーク部には、第2深層強化学習エージェントからの異常スコアが入力される。
第2深層強化学習エージェントは、異常スコアの予測性能が低下した場合、過去のデータと比較して社会インフラの運転範囲の境界を越えているのか、あるいは入力データのパターンが変化しているのかの原因を、入力データに基づき予測するアルゴリズム管理部を有する。アルゴリズム管理部による、入力データのパターンが変化しているかどうかの検定は、統計的な検定を用いて行われる。第2深層強化学習エージェントは、アルゴリズム管理部により社会インフラの運転範囲の境界を越えていると判定された場合、新しいデータを用いて再学習を行う。
【0008】
これにより、社会インフラを制御しながらリアルタイムに最適な制御動作(最適運転点)を自律的に探索することができる。深層強化学習エージェントの深層学習の出力にはランダム性があり、最適解の近傍で新たなデータが収集されて探索が行われる。その新たなデータに従い、精度と感度表現を満足するモデルベースの学習アルゴリズムが修正され、工学的、物理的な振る舞いが確認される(人間によって確認できる)。そのモデルを学習する深層学習は、人間が直接意味付けすることはむずかしいが、上述のような学習により精度及び感度が比較的早く取得され、第1深層強化学習エージェントによる最適解の安全性が確保され、精度と感度と信頼度が向上する。また、第1および第2深層強化学習エージェントの連携により安全な制御が実現する。
【図面の簡単な説明】
【0009】
図1】一実施形態に係る社会インフラ制御システムおよび社会インフラの全体構成を示す図である。
図2】一実施形態に係る社会インフラ制御システムの機能ブロック図である。
図3】一実施形態に係るデータ学習部の機能ブロック図である。
【発明を実施するための形態】
【0010】
以下、本発明の一実施形態について図面を参照して説明する。本実施形態は、エキスパート(人間の専門家)の知識をリアルタイムに学習し、社会インフラを目標指標(KPI)とすることで、社会インフラを安全に自律運用できる社会インフラ制御システムを構築するという提案である。社会インフラは、例えば多くの機器から構成されるプラントなどである。目標指標は、パフォーマンス、生産性、品質などの社会インフラの有益な指標として設定される。
【0011】
<社会インフラ制御システムおよび社会インフラの全体構成>
図1を参照して、本実施形態に係る社会インフラ制御システム10および社会インフラ50の全体構成について説明する。社会インフラ制御システム10は、深層強化学習を用いて社会インフラ50を制御するシステムである。
【0012】
機器部51は、社会インフラ50を構成する各種機器からなる。
機器制御部52は、社会インフラ制御システム10により決定された制御値に基づき機器部51の作動を制御する。
【0013】
センサ部53は、社会インフラ50に備えられる各種センサであり、機器部51に関するセンサデータを出力する。
通信部12は、図示しない通信網を介して外部のサーバ等の通信機器と通信し、社会インフラ50に関する環境データを受信して出力する。
【0014】
表示部13は、制御装置11が扱う各種データをエキスパート(人間の専門家)60が確認できるように、例えばグラフやダッシュボードなどを用いてグラフィカルに表示する(データを可視化する)。
操作部14は、エキスパート60が自身の知識を制御装置11に入力するために操作するものであり、例えばキーボードやタッチパネルなどを含む。
【0015】
データ保存部15は、例えばデータベースやクラウドストレージなどが用いられ、センサ部53および通信部12から出力されたデータ、および、制御装置11で処理されたデータを保存する。データ保存部15に保存されたデータは、ブーストストラップなどの手法でサンプリングされ、学習ステージで利用される。
【0016】
制御装置11は、センサ部53および通信部12からのデータを取得して社会インフラ制御処理を実行する。制御装置11は、図示しないCPU、RAM、ROMおよび入出力インタフェース等を備えたコンピュータを含み、CPUがRAMの一時記憶機能を利用しつつROMに予め記憶されたプログラムを実行することにより、データ収集部21、データ処理部22、報酬決定部23、データ学習部24の機能を実現させる。以下、社会インフラ制御処理に用いられるセンサデータおよび環境データのことを適宜「フィードバックデータ」と記載する。
【0017】
データ収集部21は、社会インフラ50に関係するすべてのデータ、すなわちセンサ部53からのセンサデータおよび通信部12からの環境データをフィードバックデータとして収集する。
【0018】
データ処理部22は、収集されたフィードバックデータの前処理を行う。この前処理では、深層強化学習アルゴリズムが処理しやすいようにフィードバックデータに種々の加工処理が行われる。例えば精度上で意味のないデータは外れ値として取り除かれる。また、データ処理部22は、物理法則の式を用いてフィードバックデータを他の新たな情報を取得し、その新たな情報をフィードバックデータに追加する。社会インフラ50は多くの機器で構成されている。フィードバックデータの前処理を通して、各機器に関するデータの線形相関性あるいは非線形相関性が分析され、機器ごとにデータタグがグルーピングされる。1変数以上の多変数が選定される場合は、データは数学的および統計的に正規化され、多変数の距離(ノルム)や分散共分散値が定義される。上記正規化には統計量のz値、t値、標準偏差、最大値・最大値差などが使われる。
【0019】
報酬決定部23は、フィードバックデータに基づいて、深層強化学習アルゴリズムで用いられる報酬を決定し、データ学習部24に出力する。
【0020】
データ学習部24は、データ処理部22からのフィードバックデータと報酬決定部23からの報酬とを用いて深層強化学習アルゴリズムを実行し、得られた制御値を機器制御部52に出力する。データ学習部24は、深層強化学習アルゴリズムの実行を通して内部のパラメータを調整(すなわち学習)することで、フィードバックデータに対して最適な制御値を決定する。
【0021】
<社会インフラ制御処理の概要>
次に図2を参照して、深層強化学習を用いた社会インフラ制御処理の概要について説明する。
【0022】
データ学習部24は、ある時刻tにおけるフィードバックデータを用いて深層強化学習アルゴリズムを実行し、得られた制御値を機器制御部52に出力する。強化学習では、上記フィードバックデータは環境の状態sに相当し、制御値は環境に対する行動aに相当する。機器制御部52は、データ学習部24からの制御値に基づき機器部51の作動制御を行う。
【0023】
データ収集部21は、センサ部53および通信部12から時刻t+1におけるフィードバックデータを収集する。データ処理部22は、収集されたフィードバックデータの前処理を行う。強化学習では、この前処理されたフィードバックデータは、環境における状態st+1に相当する。報酬決定部23は、上記フィードバックデータに基づいて、強化学習における報酬rt+1を決定する。
【0024】
データ学習部24は、時刻t+1におけるフィードバックデータ(状態st+1)および報酬rt+1を取得すると、後述する方策等を更新し、時刻t+1におけるフィードバックデータを用いて深層強化学習アルゴリズムを実行して新たな制御値(行動at+1)を機器制御部52に出力する。
【0025】
<データ学習部の構成>
次に図2および図3を参照して、データ学習部24の構成について説明する。
【0026】
データ学習部24は、深層強化学習を行う機能部であって、2つの部分に分かれている。一方の部分である第1深層強化学習エージェント30は、報酬rおよび状態sに基づいて、行動aとして制御値を学習して出力する。他方の部分である第2深層強化学習エージェント40は、行動として異常スコアを学習して出力する。
【0027】
第1深層強化学習エージェント30は、アクターネットワーク31、クリティックネットワーク32、およびリスクネットワーク33を含む。
【0028】
アクターネットワーク31は、状態sに基づき方策π(s,a)に従って行動aを選択するモデルである。方策π(s,a)は、ある状態sにおいて行動aを選択する確率p(s,a)を用いた関数で定義される。
【0029】
クリティックネットワーク32は、アクターネットワーク31が選択した行動aを評価するモデルであり、その評価を表す価値Q(s,a)を持っている。クリティックネットワーク32には状態sおよび報酬rが入力され、クリティックネットワーク32は価値Q(s,a)を予測する。
【0030】
リスクネットワーク33は、アクターネットワーク31が選択する行動aに制約を設けるモデルであり、その制約を表すリスクQ ~(s,a)を持っている。リスクネットワーク33には状態sおよび第2深層強化学習エージェント40からの異常スコアが入力され、リスクネットワーク33はリスクQ ~(s,a)を予測する。
アクターネットワーク31は、クリティックネットワーク32による評価およびリスクネットワーク33による制約を基に方策π(s,a)を更新する。
【0031】
アクターネットワーク31、クリティックネットワーク32、およびリスクネットワーク33は、再帰型のニューラルネットワークを用いた深層学習により、制御値、価値Q(s,a)、リスクQ ~(s,a)を予測する。なお、他の実施形態では、再帰型以外のニューラルネットワークが用いられてもよい。深層学習を最適化するためには、重み量を調整する必要がある。重み量は、データ保存部15に蓄積された過去のデータからサンプリングにより調整される。状態価値と得られた報酬値との偏差の指標を用い、その偏差が小さくなるように重み量が調整される。この調整は、制御値を出力するループとは別ループで実行され、定期的に行われる。
【0032】
制御値、価値Q(s,a)、およびリスクQ ~(s,a)は、統計的な確率分布で表現され(強化学習では方策と称され)、この確率分布からサンプリングされる。深層学習の出力はランダム性が有り、この確率分布からのサンプリングによって、リスクQ ~(s,a)の方策は、適切に確立分布を拘束する手法が統計的に(例えばカリバックライブラー情報量等を用いて)取られ、リスクを安全に回避することができる。本実施形態では、第2深層強化学習エージェント40からの異常スコアがリスクネットワーク33に入力される。これによりリスクネットワーク33の予測精度と感度が向上する。
【0033】
第2深層強化学習エージェント40は、報酬関数部41、異常検知ネットワーク42、協調部43、およびアルゴリズム管理部44を含む。
【0034】
異常検知ネットワーク42は、報酬関数部41から出力される報酬rに基づいて、行動aとして異常スコアを出力するモデルである。異常検知ネットワーク42は、深層学習(再帰型ニューラルネットワークを用いた深層学習を含む)により異常スコアを予測する。異常検知ネットワーク42の学習データは、データ処理部22で生成される距離(ノルム)や分散共分散値やそれらの潜在的変数となる固有値群が用いられる。
【0035】
異常検知ネットワーク42での予測の精度と感度は制御値を出力する重要な指標となる。上記精度と感度の向上には、状態空間に設計される報酬関数部41の報酬関数の設定が大きく作用する。報酬関数は、正規化された状態空間値と、最適行動として定義される異常スコアとによる微分可能な回帰式で設定される。
【0036】
第1深層強化学習エージェント30は、社会インフラ50の目標指標を予測するモデルを作成して、そのモデルの振る舞いを学習することが初期学習となる。モデルの精度は過去のデータを学習しテストをして確認されるが、精度のみならず感度を評価する必要がある。感度は、社会インフラ50の振る舞いが物理的、工学的、経済的に正しいかどうかを判断する上で重要である。したがって、報酬関数は、制御する変数に対する傾向がモデルに一致した場合、目標指標のターゲットに状態があるときに高くなるように設定をする。初期段階において複数のモデルで構成される場合は、重要なモデルを選定して報酬関数の設定対象とする。
【0037】
異常検知ネットワーク42は、深層学習が過去データの特徴を学習する。過去データのパターンと異なるデータパターンが入力されると、異常スコアが上げられる。この場合、データ処理部22で設定された各機器の分散共分散値からどの機器が過去のパターンから大きな偏差を生じているかわかるようになる。この性質を使って、原因分析(FMEA)を実施することができる。分散共分散値は、正規化されたデータとデータの目標指標の基準となるデータセットから構成される。協調部43は、表示部13を用いて、エキスパート60に向けてリアルタイムにデータ変動範囲、許容境界、データセット基準を表示させる。エキスパート60は、データセット基準点と許容境界を見直し、報酬関数部41の報酬関数を修正することができる。異常検知ネットワーク42の深層学習が修正された報酬関数で再学習することで、異常スコアが見直される。原因の事象などがさらに深掘りされれば、その知識も記憶することができる。
【0038】
アルゴリズム管理部44は、異常スコアの予測性能が低下した場合、過去のデータと比較して社会インフラ50の運転範囲の境界を越えているのか、あるいは入力データのパターンが変化しているのかの原因を、入力データに基づき予測する。アルゴリズム管理部44による、入力データのパターンが変化しているかどうかの検定は、統計的な検定(例えばコモログロフ-スミロノフ検定、マハラノビス距離、カリバック-ライブラー情報量など)を用いて行われる。第2深層強化学習エージェント40は、アルゴリズム管理部44により社会インフラ50の運転範囲の境界を越えていると判定された場合、新しいデータを用いて再学習を行う。第2深層強化学習エージェント40は、アルゴリズム管理部44により社会インフラ50の運転範囲の境界を越えていると判定された場合、運転範囲の境界を超えた入力データに対して、協調部43によってエキスパート60から知識を得て、運転範囲およびデータの基準値を見直して再学習を行う。
【0039】
本実施形態では、図示しないが第1深層強化学習エージェント30が複数設けられ、それら複数の第1深層強化学習エージェント30が第2深層強化学習エージェント40の出力に並列に配置され、互いに連携して学習する。これにより、最適な行動を実行することができる。
【0040】
複数の第1深層強化学習エージェント30からなるマルチエージェントは、リスクの高い行動が検出されると、その行動に基づく制御に関連したデータを削除し、データ保存部15に保存しない。このデータ保存部15で蓄積された過去データからサンプリングにより第1深層強化学習エージェント30の深層学習の重み量が調整されるため、制約内で安全な操作が保証される。
【0041】
<本実施形態のまとめ>
以上説明したように、社会インフラ制御システム10は、社会インフラ50の実世界のデータから学習し、最適に自律的に動作するように設計されている。深層強化学習とモデルベースの最適化技術を組み合わせて、安全な自律運転を実現する。社会インフラ制御システム10では、「深層強化学習を行う機能部」が2つの部分に分かれている。一方の部分である第1深層強化学習エージェント30は、報酬rおよび状態sに基づいて、行動aとして最適な制御値を学習して出力する。他方の部分である第2深層強化学習エージェント40は、行動として異常スコアを学習して出力する。両者が連携して安全性を正確に予測し、高精度と制約で自律的な最適制御を行う。
【0042】
社会インフラ50は多くの機器で構成されており、第2深層強化学習エージェント40はそれぞれの報酬rや状態sから最適な行動aを学習する。この場合、行動aは異常スコアになる。機器ごとに個別のモデルを作成する必要のないモデルフリー方式を用いることで、異常を検知するシステムを構築することができる。異常部品も同時に分析され、エキスパート60にはベースラインデータ(評価基準データセット)と動作範囲情報がすぐに通知される。これらの情報に基づいて、エキスパート60はベースラインと動作範囲を確認し、報酬システムを反映し、深層強化学習アルゴリズムはエキスパート60の専門知識をリアルタイムで学習できる。
【0043】
第1深層強化学習エージェント30は、まず事前に、モデルベースで構築された運転の目標指標を学習する。モデルベースは教師あり機械学習により、社会インフラ50の制御変数と影響変数に基づき目標指標が関数表示される。その目標指標には、安全を守るための境界値が含まれる。社会インフラ50の制御変数に対するこのモデルの振る舞いを再現できるように(感度が合うように)第1深層強化学習エージェント30が学習する。第1深層強化学習エージェント30の深層学習では状態の価値と制御値とリスクとを予測する。リスクは、状態と、第2深層強化学習エージェント40からの出力である異常スコアとに基づいて、出力される。リスクは確率分布によって方策(Policy)として出力される。方策に対して、様々な統計的な確率分布の拘束を設けることによって、制御値が境界値を越えないように安全を確保するように守られる。
【0044】
第1深層強化学習エージェント30は複数設けられ、データに基づいて構築されたモデルによって評価され、リスクと制約が評価される。リスクの高い行動が検出されると、その行動に基づく制御は削除され、データ保存部15に保存されない。このデータ保存部15で蓄積された過去データからサンプリングにより第1深層強化学習エージェント30の深層学習の重み量が調整される。これにより制約内で安全な操作が保証される。学習のサンプリングは復元抽出法が用いられ、リスクの高いデータセットは学習データから除外される。モデルフリーとモデルベースのハイブリッドで安全に対して最適運転が保障される。
【0045】
つまり、第1深層強化学習エージェント30の学習は、社会インフラ50の目標指標を予測するモデルが作成されて、当該モデルの振る舞いを学習するモデルベースの学習と、データ保存部15で蓄積された社会インフラ50の現実世界のデータからサンプリングにより深層学習の重み量を調整するモデルフリーの学習とを含む。第1深層強化学習エージェント30は、新しく収集されたデータを用いてモデルベースの学習アルゴリズムおよびモデルフリーの学習アルゴリズムを共に再学習させ、さらに、モデルフリーの学習アルゴリズムにモデルベースの学習アルゴリズムの入出力関係を学習させる。結果、第1深層強化学習エージェント30の深層学習の出力にはランダム性があり、最適解の近傍で新たなデータが収集されて探索が行われる。その新たなデータに従い、精度と感度表現を満足するモデルベースの学習アルゴリズムが修正され、工学的、物理的な振る舞いが確認される(人間によって確認できる)。そのモデルを学習する深層学習は、人間が直接意味付けすることはむずかしいが、上述のような学習により精度及び感度が比較的早く取得され、第1深層強化学習エージェント30による最適解の安全性が確保され、精度と感度と信頼度が向上する。
【0046】
その他、一々例示はしないが、本発明は、その趣旨を逸脱しない範囲内において、種々の変更が加えられて実施されるものである。
【符号の説明】
【0047】
10 社会インフラ制御システム、15 データ保存部、21 データ収集部、22 データ処理部、23 報酬決定部、24 データ学習部、30 第1深層強化学習エージェント、40 第2深層強化学習エージェント、44 アルゴリズム管理部、50 社会インフラ。
図1
図2
図3