(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-08
(45)【発行日】2023-12-18
(54)【発明の名称】情報処理装置、情報処理方法、およびプログラム
(51)【国際特許分類】
G06Q 10/20 20230101AFI20231211BHJP
G06Q 50/06 20120101ALI20231211BHJP
【FI】
G06Q10/20
G06Q50/06
(21)【出願番号】P 2020007585
(22)【出願日】2020-01-21
【審査請求日】2022-09-20
(73)【特許権者】
【識別番号】317015294
【氏名又は名称】東芝エネルギーシステムズ株式会社
(73)【特許権者】
【識別番号】301063496
【氏名又は名称】東芝デジタルソリューションズ株式会社
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】釜谷 幸男
(72)【発明者】
【氏名】伊藤 秀将
(72)【発明者】
【氏名】鳥羽 廣次
(72)【発明者】
【氏名】渋谷 真人
(72)【発明者】
【氏名】坂内 容子
【審査官】関 博文
(56)【参考文献】
【文献】特開2018-153004(JP,A)
【文献】国際公開第2020/003374(WO,A1)
【文献】特開2019-179518(JP,A)
【文献】特開2014-229001(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00ー99/00
(57)【特許請求の範囲】
【請求項1】
グラフ構造を持つシステムの設備変更に対する確率モデルである方策関数
に対して、前記システムのシステム状態を入力することにより、設備変更の行動選択の確率分布を求め、求められた前記確率分布に基づいて設備変更計画候補を生成する生成部と、
前記生成部が生成した設備変更計画候補
における前記システムの信頼度を
算出し、算出された前記信頼度と、あらかじめ設定された閾値との比較結果に基づいて前記設備変更計画候補を評価する策定部と、
を備える情報処理装置。
【請求項2】
前記システムは、電力システムであって、
前記信頼度は、SAIFI(System Average Interrupt Frequency Index)値である、
請求項1に記載の情報処理装置。
【請求項3】
前記方策関数は、強化学習を行って前記システムの構造変化を最適化する際に求められたものであり、
前記策定部は、前記設備変更計画候補の前記信頼度
が前記閾値以下となるように前記システムにおいて設備変更計画の策定を行う、
請求項1または請求項2に記載の情報処理装置。
【請求項4】
前記方策関数は、強化学習を行って前記システムの構造変化を最適化する際に求められたものであり、
前記策定部は、前記強化学習で学習済みの前記方策関数に制約を付加し、前記設備変更計画候補の前記信頼度を改善するように前記システムにおいて設備変更計画の策定を行う、
請求項1または請求項2に記載の情報処理装置。
【請求項5】
前記方策関数は、強化学習を行って前記システムの構造変化を最適化する際に求められたものであり、
前記策定部は、前記設備変更計画候補の前記信頼度が予め定めた基準を満たす前記設備変更計画候補に限定し、前記基準を満たす前記設備変更計画候補の中から設備変更計画案を抽出して、前記システムにおいて設備変更計画の策定を行う、
請求項1または請求項2に記載の情報処理装置。
【請求項6】
前記方策関数は、強化学習を行って前記システムの構造変化を最適化する際に求められたものであり、
前記策定部は、
前記設備変更計画候補毎の前記信頼度を算出し、算出した前記信頼度の中で、前記信頼度の劣化の影響が大きな前記システムへの設備変更を選択し、
選択した前記設備変更の選択を制約するように前記方策関数に制約
を付加し、前記設備変更計画候補の前記信頼度を改善するように前記システムにおいて設備変更計画の策定を行う、
請求項1または請求項2に記載の情報処理装置。
【請求項7】
コンピュータが、
グラフ構造を持つシステムの設備変更に対する確率モデルである方策関数
に対して、前記システムのシステム状態を入力することにより、設備変更の行動選択の確率分布を求め、求められた前記確率分布に基づいて設備変更計画候補を生成し、
前記生成された設備変更計画候補
における前記システムの信頼度を
算出し、算出された前記信頼度と、あらかじめ設定された閾値との比較結果に基づいて前記設備変更計画候補を評価する、
情報処理方法。
【請求項8】
コンピュータに、
グラフ構造を持つシステムの設備変更に対する確率モデルである方策関数
に対して、前記システムのシステム状態を入力することにより、設備変更の行動選択の確率分布を求めさせ、求められた前記確率分布に基づいて設備変更計画候補を生成させ、
前記生成された設備変更計画候補
における前記システムの信頼度を
算出させ、算出された前記信頼度と、あらかじめ設定された閾値との比較結果に基づいて前記設備変更計画候補を評価させる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、情報処理装置、情報処理方法、およびプログラムに関する。
【背景技術】
【0002】
近年、社会インフラシステムの大きな課題として老朽化問題があげられる。例えば、電力系統においては、世界的に変電所設備の老朽化が迫ってきており、設備投資計画の立案が重要である。このような設備投資計画問題に対しては、各領域で専門家によるソリューション開発が行われてきた。その際には、大規模化に対応できるスケーラビリティ、システムを構成する多様な設備機器種類を設定できる多様性、設備構成変更に柔軟に対応できる変動性、といった要件をみたすことが望まれるが、これらの3つの条件を同時に満たすことは困難であった。
【先行技術文献】
【特許文献】
【0003】
【非特許文献】
【0004】
【文献】永田真幸、竹原有紗、供給信頼度制約を考慮した電力流通設備更新の平準化支援ツール-プロトタイプの開発-、研究報告R08001、財団法人電力中央研究所、平成21年2月
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明が解決しようとする課題は、社会インフラの変更案を策定することができる情報処理装置、情報処理方法、およびプログラムを提供することである。
【課題を解決するための手段】
【0006】
実施形態の情報処理装置は、生成部と、策定部を持つ。生成部は、グラフ構造を持つシステムの設備変更に対する確率モデルである方策関数を用いて設備変更計画候補を生成する。策定部は、前記生成部が生成した設備変更計画候補毎に、前記システムの信頼度を評価する。
【図面の簡単な説明】
【0007】
【
図1】実施形態に係る情報処理装置の構成例を示す図。
【
図4】実施形態に係る処理の概要を説明するための図。
【
図5】
図4に示した回路図の構成の評価例を説明するための図。
【
図6】実施形態に係る設備変更計画案の策定手順のフローチャートの図。
【
図7】第1実施例に係るSAIFI改善更新の例を説明するための図。
【
図8】第1実施例に係る情報処理装置の構成例を示す図。
【
図9】第1実施例に係る設備変更計画案の策定手順のフローチャートの図。
【
図10】第2実施例に係る情報処理装置の構成例を示す図。
【
図11】第2実施例に係る設備変更計画案の策定手順のフローチャートの図。
【
図12】第3実施例に係る情報処理装置の構成例を示す図。
【
図13】第3実施例に係る設備変更計画案の策定手順のフローチャートの図。
【
図16】想定ノードANの種別の定義の一例を示す図。
【
図17】
図16のグラフ構造のデータから生成されたニューラルネットワークを示す図。
【
図18】グラフ構造のデータからニューラルネットワークを生成する様子を示す図。
【
図19】ニューラルネットワークの生成において係数α
i,jを決定する手法について説明するための図。
【
図20】コンボリューション処理とアテンション処理のマッピング例を示す図。
【発明を実施するための形態】
【0008】
以下、実施形態の情報処理装置、情報処理方法、およびプログラムを、図面を参照して説明する。以下、以下の説明では、情報処理装置が扱う処理として設備変更計画を例として説明する。なお、本実施形態は、社会インフラシステム向けの設備変更計画問題に限るものではない。また、以下の例では、社会インフラシステムの一例として電力系統システムを例に説明するが、社会インフラシステムはこれに限らない。社会インフラシステムは、水道、ガス、道路、通信等のシステムであってもよい。
【0009】
まず、情報処理装置1の構成例を説明する。
図1は、本実施形態に係る情報処理装置1の構成例を示す図である。
図1のように、情報処理装置1は、策定部10、および生成部20を備える。
策定部10は、評価部101、および出力部102を備える。
生成部20は、環境部201、方策関数部202、およびサンプリング部203を備える。
【0010】
評価部101は、信頼度の評価と、修正変更案を作成する。評価部101は、作成した修正変更案を環境部201に出力する。また、評価部101は、修正変更案の修正変更が収束した場合、修正変更案を出力部102に出力する。
【0011】
出力部102は、評価部101が出力する修正変更案を外部装置(例えば表示装置3)に出力する。
【0012】
環境部201は、例えば、対象システム、対象システムのモデル、シミュレータ等である。環境部201は、評価部101が出力する修正変更案を取得し、取得した修正変更案を、例えば対象システムのモデルに入力して、時刻kにおけるシステム状態(φk)を生成する。環境部201は、生成したシステム状態(φk)を方策関数部202に出力する。また、環境部201は、サンプリング部203が出力する変更案akを取得し、取得した変更案akを、例えば対象システムのモデルに入力して、k+1回目におけるシステム状態(φk+1)を生成する。環境部201は、生成したk+1回目におけるシステム状態(φk+1)を策定部10に出力する。
【0013】
方策関数部202は、確率モデルである方策関数を記憶する。方策関数部202は、環境部201が出力するシステム状態を方策関数に入力して設備変更修正の行動選択の確率分布を求める。方策関数部202は、求めた行動選択の確率分布をサンプリング部203に出力する。
【0014】
サンプリング部203は、方策関数部202が出力する行動選択の確率分布を取得する。サンプリング部203は、確率分布に基づいて変更案akをサンプリングし、サンプリングした変更案akを環境部201に出力する。方策関数とは状態φkにおける行動選択肢一つ一つに選択される確率を対応付ける関数である。この確率に従って選択肢が決定される。サンプリングでは、例えば、0から1までの実数を、選択肢毎の確率値に対応する長さの線分に分割し、線分番号(index)を付しておき、0から1までの一様乱数関数により発生した乱数がどの区間に入っているかによって、対応する線分の番号で選択肢を選ぶ。
【0015】
次に、方策関数について、
図2と
図3を参照して説明する。
図2と
図3は、方策関数を説明するための図である。
図2のように、方策関数は、現在(k回目)のシステム状態が入力されると、次(k+1回目)の行動選択の確率分布を出力する関数である。
また、方策関数では、
図3に示すように、状態φにおいて、次の時刻の変更案(次の状態)の候補をA(φ)とする。その候補の各変更案a(∈A(φ))を、次の時刻の変更案として抽出する確率がπ(a|φ)である。方策関数では、変更案aを選択すると、結果としてシステム状態がφ’に移る。このため、方策関数としては、
図3のような遷移確率が求まっていればよい。
【0016】
ここで、本実施形態における処理の概要を説明する。
本実施形態では、方策関数を用いて、設備変更計画を策定しながら、停電の発生率であるSAIFI(System Average Interrupt Frequency Index)を信頼度として評価する。なお、SAIFI値は、国際的な電力システムの供給信頼度指標であり、Σ(停電負荷数)×(停電発生率)/(全負荷数)の式によって求められる指標である。よって、SAIFI値は小さいほど停電の少ない高信頼システムであることを示している。そして、本実施形態では、評価の際に潮流などの物理シミュレータの状態計算結果を反映し、潮流に依存する故障率も考慮可能とする。なお、潮流に依存する故障率は、例えば潮流シミュレータによって算出する。潮流シミュレータは、外部装置であってもよく、例えば環境部201が備えていてもよい。
【0017】
また、本実施形態では、SAIFIが向上する設備変更計画候補を設備変更計画案として選択する。なお、設備変更計画は、所定の変更期間における設備の変更であるとする。なお、以下の各実施形態では、信頼度の例としてSAIFIを用いる例を説明するが、信頼度は社会インフラシステムに応じたものであればよい。例えば、社会インフラシステムが通信の場合、信頼度は通信ネットワークの切断率等であってもよい。また。社会インフラシステム道路の場合、信頼度は道路の不通率等であってもよい。また、用いる信頼度は1つに限らず2つ以上であってもよい。また、強化学習において、後述するようにシステムの累積設備投資コストを重視して学習してもよい。これにより、実施形態によれば、累積コストと信頼性を両立して、設備変更計画案を策定することができる。
【0018】
本実施形態の設備変更計画は、所定の変更期間における設備の変更であるとする。本実施形態では、設備変更計画案の策定の過程でSAIFIを評価しながら信頼度の高い計画を策定する。なお、条件は、回路図に対するSAIFIを定義できるものとする。
【0019】
図4は、本実施形態に係る処理の概要を説明するための図である。
図4において、符号g11は、評価対象の回路図を表す。符号g12は、符号g11の回路図をメタグラフで表したものである。符号g13は、符号g12のメタグラフ、あるいはその系列に対して信頼度評価値を求めて評価することを表している。
【0020】
図4の符号g11とg12において、G1、G2は、発電機である。X1~X4は、送電線を表している。B1~B3は、バスを表している。λ1~λ4は、送電線X1からX4それぞれの故障率を表している。また、Load1~Load3それぞれは、需要家を表している。
【0021】
本実施形態では、故障率λ1~λ4を用いて、この回路のSAIFIを計算する。回路とメタグラフは対応するので、このメタグラフに対応してSAIFIが定まる。ここで、回路構成が時刻1,時刻2,…,時刻Tというタイミングで変更されるとすると、対応してメタグラフ系列Φ=(φ1,φ2,…,φT)が定まる。なお、メタグラフは、時系列的に、設備の構成、状態によって変化する。
【0022】
次に、SATIFIについて説明する。
図5は、
図4に示した符号g11の回路図の構成の評価例を説明するための図である。X1からX4において、“0”は切断されている状態を表し、“1”は接続されている状態を表す。L1からL3において、“0”は停電状態を表し、“1”は通電状態を表す。
【0023】
SAIFI計算は、
図5のように、与えられたシステム構成と各設備故障確率に対して、負荷戸当たりの電力供給停止確率を求めることで行う。そして、
図5のように、システムのグラフ構造と故障率が分かれば、需要家毎のSAIFIは計算することができる。そして、設備を変更した場合は、グラフ構造が変化したことによってSAIFI値が変化することになる。このため、本実施形態では、SAIFI値を評価することで設備変更計画候補を評価し、SAIFI値が改善される設備変更計画候補を設備変更計画案として策定する。
【0024】
ここで、電力システムにおける国毎のSAIFI値の例を説明する。
例えば、A国の年間停電の頻度に関する指標(0~3)が1であり、平均停電回数指標(SAIFI値)が8.2である。なお、年間停電の頻度に関する指標は、スコアが大きいほど停電回数が少なく継続時間が短いことを表している。また、B国の年間停電の頻度に関する指標が2であり、SAIFI値が0.6である。また、C国の年間停電の頻度に関する指標が3であり、SAIFI値が0.0である。このように、SAIFI値は国や地域によって異なるため、基準値や閾値も国や地域によって設定される。
【0025】
次に、設備変更計画案の策定手順を説明する。この例では、変更計画において、システムのSAIFI値が常にあらかじめ設定された閾値SAIFI_thよりもよい、すなわち、小となるように計画する方針で説明する。この閾値の設定としては、例えば、電力提供サービスの提供品質として設定された停電発生率上限などである。
図6は、本実施形態に係る設備変更計画案の策定手順のフローチャートの図である。
【0026】
(ステップS11)策定部10、生成部20は、評価するシステム状態φ0(初期状態)を取得する。生成部20は、方策関数、環境条件を取得する。なお、方策関数は、例えば強化学習によって獲得されたものである。また、初期状態φ0は、学習済みニューラルネットと同じ構成であってもよい。また、環境条件とは、例えば、システムの構成設備の仕様、特性モデル(コストモデルなど)、設備変更計画の立案に関わるシステムの外部環境、例えば、電力システムであれば需要パターン(予測値でもよい)、発電パターンなどである。続けて、策定部10は、初期状態φ0に相当するSAIFI(φ0)を求めて記憶する。
【0027】
策定部10と生成部20は、ステップS12~S17の処理をT回繰り返して、設備変更計画を変更修正して策定する。
【0028】
(ステップS12)策定部10は修正変更案を策定する。なお、策定部10は、一回目の処理で初期状態φ0に基づいて修正変更案として策定し、二回目の処理でシステム状態φ1(=0+1)に基づいて修正変更案として策定する。このようにk回目の処理で、生成部20は、策定部10が策定した修正変更案を環境部201に入力してシステム状態φk+1を求める。続けて、生成部20は、システム状態φk+1を方策関数部202に入力して確率分布を求める。続けて、生成部20は、求めた確率分布に基づいて変更案akをサンプリングして求める。生成部20は、変更案akを環境部201に入力して、システム状態φk+1を求める。
【0029】
(ステップS13)策定部10は、システム状態φkに相当するSAIFI(φk)を求める。なお、策定部10は、一回目の処理で初期状態φ0に相当するSAIFI(φ0)を、二回目の処理でシステム状態φ1(=0+1)に相当するSAIFI(φ1)を求める。
【0030】
(ステップS14)策定部10は、あらかじめ設定された閾値SAIFI_thとステップS13で求めたSAIFI(φk)と比較し、SAIFI(φk)が閾値SAIFI_thより改善できているか否かを判別する。策定部10は、例えば、SAIFI(φk)が閾値SAIFI_th以下の場合、またはSAIFI(φk)と閾値SAIFI_thの比が1以下の場合に改善されていると判別する。策定部10は、改善されていると判別した場合(ステップS14;YES)、ステップS16の処理に進める。策定部10は、改善されていないと判別した場合(ステップS14;NO)、ステップS15の処理に進める。
【0031】
(ステップS15)改善されていないと判別されたため、策定部10は、設備変更計画候補のSAIFI(Φ)の改善策の策定を行う。具体的には、策定部10は、システム状態φkにSAIFI改善更新Δφを反映する。このように、改善されていない場合は、k回目の処理において、システム状態φkを置き換える。続けて、策定部10は、kにk+1を代入し、ステップS12の処理に戻す。なお、SAIFI改善更新Δφについては、実施例1で説明する。
【0032】
(ステップS16)策定部10は、ステップS12~S16の処理をT回繰り返したか否かを判別する。策定部10は、ステップS12~S16の処理をT回繰り返したと判別した場合(ステップS16;YES)、ステップS18の処理に進める。策定部10は、ステップS12~S16の処理をT回繰り返していないと判別した場合(ステップS16;NO)、ステップS17の処理に進める。
【0033】
(ステップS17)策定部10は、kにk+1を代入し、ステップS12の処理に戻す。
【0034】
(ステップS18)策定部10は、系列Φ=(φ1,φ2,…,φT)を設備変更計画案として出力する。
【0035】
なお、ステップS12~S16の処理をT回の処理を行った場合でも改善されなかった場合、策定部10は、改善されなかったことを示す情報を生成部20に出力するようにしてもよい。このような場合、例えば利用者が他の条件を策定部10、生成部20に与え、策定部10は与えられた他の条件に基づいて、再度修正変更案を策定するようにしてもよい。または、このような場合、生成部20は、変更しないことを計画案として策定するようにしてもよい。
【0036】
ここで、二巡目までの処理について具体的な処理例を説明する。
策定部10は、まず初期状態を修正変更案として出力する。また、策定部10は、初期状態φ0に相当するSAIFI(φ0)を求めて記憶する。
【0037】
次に、生成部20は、システム状態φ0を方策関数部202に入力して、次(1回目)の行動選択の確率分布を求める。続けて、生成部20は、行動選択の確率分布からサンプリングして変更案a1を求める。続けて、生成部20は、環境部201に変更案a1を入力して、次のシステム状態φ1を求める。生成部20は、求めた次のシステム状態φ1を策定部10に出力する。
【0038】
策定部10は、システム状態φ1に相当するSAIFI(φ1)を求める。次に、策定部10は、閾値SAIFI_thとSAIFI(φ1)を比較して改善されているか否かを判別する。改善されていないと判別された場合、策定部10は、システム状態φ1にSAIFI改善更新Δφを反映する。続けて、策定部10は、SAIFI改善更新Δφを反映した結果に基づいて、修正変更案を策定する。
【0039】
次に、生成部20は、修正変更案を環境部201に入力して、k=1回目のシステム状態φ’1を求める。なお、システム状態がφk+1ではなくφ’k+1の理由は、SAIFI改善更新Δφを反映されているためである。
続けて、生成部20は、システム状態φ’1を方策関数部202に入力して次(k=2(=k+1)回目)の行動選択の確率分布を求める。続けて、生成部20は、行動選択の確率分布からサンプリングして変更案a2を求める。続けて、生成部20は、環境部201に変更案a2を入力して、2回目のシステム状態φ2(=1+1)を求める。生成部20は、求めた2回目におけるシステム状態φ2を策定部10に出力する。
【0040】
策定部10は、システム状態φ2に相当するSAIFI(φ2)を求める。次に、策定部10は、閾値SAIFI_thとSAIFI(φ2)を比較して改善されているか否かを判別する。改善されていないと判別された場合、策定部10は、システム状態φ2にSAIFI改善更新Δφを反映する。続けて、策定部10は、SAIFI改善更新Δφを反映した結果に基づいて、修正変更案を策定する。
【0041】
ここで、SAIFI改善更新Δφの例を説明する。
図7は、本実施形態に係るSAIFI改善更新の例を説明するための図である。生成部20は、方策関数に基づいてφ
kとしてリンクX3を削除する設備変更計画を生成する場合を説明する。符号g101は、リンクX3を削除する設備変更計画候補のメタグラフである。策定部10は、変更後の値を算出する。策定部10は、変更後のSATIFI値と閾値SATIFI_thとを比較した結果が、変更後のSATIFI値が変更前のSATIFI値より悪化したとする。一般的に、変更対象設備設置位置の近傍で冗長設備を追加すればSAIFIは改善する。このため、符号g102のように、情報処理装置1は、例えば、リンクX3の両端ノードに対するリンクパスの補強として、リンクX5を追加する。
【0042】
このように本実施形態では、方策関数に基づいて選択した設備変更計画候補のSATIFI値が予め設定された閾値SAIFI_thより悪化する場合、選択した設備変更計画修正を加える。
【0043】
なお、
図6のステップS15におけるSAIFI改善更新Δφは、例えば
図7の符号g102のように削除したリンクの周辺に別にリンクを接続したり、削除回避あるいは強化等の条件を加えることを示している。
【0044】
また、このような改善案は一通りではない。許容条件に合わせて設定する。あるいは、修正更新案φ
kによりSAIFIが悪化する場合は、その案に対応する設備の削除や仕様の劣化(信頼度の劣化)がSAIFI値の劣化を引き起こしていると考えられる。このため、情報処理装置1は、修正更新案φ
kは採用しない(受け付けない)、すなわちΦ
kを変更無しに置き換えるという選択肢を選択するようにしてもよい。このことは、
図7においては、修正更新案φ
kに対して、リンクx3の削除を取りやめることに相当する。
【0045】
以上のように、本実施形態では、方策関数を使うようにした。また、本実施形態では、設備計画立案しながら、SAIFIを評価するようにした。さらに、本実施形態では、 SAIFI向上の設備変更を条件として加味して計画立案を策定するようにした。具体的には、計画変更計画の立案(推論)中に、改善されていない場合、SAIFI許容範囲でのSAIFI値の良い条件追加(Δφ)を追加するようにした。
これにより、本実施形態によれば、設備変更におけるコストをある程度満たし、かつSAIFIの条件も満たす設備変更計画を立案することができる。
【0046】
(第1実施例)
実施形態において、SAIFI改善更新施策としてSAIFIを劣化させる修正更新案については方策関数に制約を加えてもよい。本実施例では、設備変更計画の立案の条件を方策関数の条件とする例を説明する。本実施例では、例えば、修正更新案に対する方策関数の出力確率を0にすることで、その修正更新案を今後、生起しないようにする。
【0047】
まず、情報処理装置1Aの構成例を説明する。
図8は、本実施例に係る情報処理装置1Aの構成例を示す図である。
図8のように、情報処理装置1Aは、策定部10A、および生成部20Aを備える。
策定部10Aは、評価部101A、および出力部102を備える。
生成部20Aは、環境部201、方策関数部202A、およびサンプリング部203を備える。
なお、情報処理装置1と同様の動作をする機能部には、同じ符号を用いて説明を省略する。
【0048】
評価部101Aは、評価部101の動作に加えて、方策関数への制約を生成する。評価部101Aは、生成した制約を方策関数部202Aに出力する。なお、制約は、例えば修正更新案に対する方策関数の出力確率を0にすることで、その修正更新案を今後、生起しないようにする。
【0049】
方策関数部202Aは、評価部101Aが出力する制約を反映して、環境部201が出力するシステム状態を方策関数に入力して設備変更修正の行動選択の確率分布を求める。方策関数部202Aは、求めた行動選択の確率分布をサンプリング部203に出力する。
【0050】
次に、本実施形態で用いる方策関数の制約について説明する。
本実施形態は、第1の実施形態と同様にT回処理を行って設備変更計画を選択する。方策関数として、k-1回目でのシステムの状態φk-1における次のk回目の処理の行動候補の生起確率として定義される場合、確率分布π(・)からの生起として次式((1)のように表現する。
【0051】
【0052】
ここで、行動空間の中の更新行動案akの生起に制約を加えることは、以下のように考えられる。k回目の処理の更新行動案akがk-1回目の処理での状態φk-1の関数値として生起されSAIFI劣化を引き起こしたのであるから、このk-1回目の処理におけるシステムの特定の状態(φk-1)に対する行動に制約を加えるものであり、異なる状態に対しては、制約を加えない。
【0053】
次に、設備変更計画案の策定手順を説明する。
図9は、本実施例に係る設備変更計画案の策定手順のフローチャートの図である。なお、
図6の実施形態のフローチャートと同様の処理については、同じ符号を用いて説明を省略する。
【0054】
(ステップS11~S14)策定部10Aと生成部20Aは、実施形態と同様にステップS11~S14の処理を行う。策定部10Aは、改善されていると判別した場合(ステップS14;YES)、ステップS16の処理に進める。策定部10Aは、改善されていないと判別した場合(ステップS14;NO)、ステップS21の処理に進める。なお、生成部20Aは、各システム状態を生成する。
【0055】
(ステップS21)改善されていないと判別されたため、策定部10Aは、方策関数に関して制約を付加して、設備変更計画候補のSAIFI(Φ)の改善策の策定を行う。具体的には、策定部10Aは、方策関数に関して制約を付加して、修正更新案φkにSAIFI改善更新Δφを反映する。この意味合いは、方策関数は行動を起こさせる確率であるので、この値に制約を付加する、またはその行動に対する確率分布を0にすることで、その候補を起こさせない、すなわち選ばないようにしている。続けて、策定部10Aは、kにk+1を代入し、ステップS12の処理に戻す。
【0056】
以上のように、本実施例では、計画変更計画の立案(推論)中に、改善されていない場合、方策関数に関して制約を付加して、SAIFI許容範囲でのSAIFI値の良い条件(Δφ)を追加するようにした。
これにより、本実施例によれば、例えば、修正更新案に対する方策関数の出力確率を0にすることで、システム状態に応じて、その修正更新案を今後、生起しないようにすることで、実施形態より効率的に設備変更計画を立案することができる。
【0057】
(第2実施例)
本実施例では、設備変更計画候補それぞれのSAIFIを先に算出し、SAIFIに対する条件を満たす設備変更計画候補に限定して計画案策定する例を説明する。本実施例に示す方法のように設備変更計画候補に限定することは、第2の実施形態で行った方策関数に制約を付加する方式の拡張である。つまり、方策関数生成の基本ポリシー、例えば、ここでは累積投資コスト最小化と、信頼度確保という2つの指標のバランスを考慮できる方式である。任意の時刻kにおける行動の決定過程は、基本的には2つの過程から構成される。すなわち、第1過程(i)が時刻kでの各行動候補に対する各SAIFI値の計算過程、第2過程(ii)がそのSAIFI値に基づいて方策関数に制約を加え、その制約付方策関数からサンプリングして行動案を決定する過程、である。
【0058】
まず、情報処理装置1Bの構成例を説明する。
図10は、本実施例に係る情報処理装置1Bの構成例を示す図である。
図10のように、情報処理装置1Bは、策定部10B、および生成部20Bを備える。
策定部10Bは、評価部101B、および出力部102を備える。評価部101Bは、SAIFI関数部1011、およびリスト部1012を備える。
生成部20Bは、環境部201B、方策関数部202B、サンプリング部203、および候補案リスト部204を備える。
なお、情報処理装置1と同様の動作をする機能部には、同じ符号を用いて説明を省略する。
【0059】
以下に、情報処理装置1Bの各機能部の動作と処理を説明する。なお、以下の説明において、任意の時刻kにおけるシステムの状態がφkであるとする。
生成部20Bは、その状態に対して次の状態の候補をすべて抽出する。方策関数部202Bは、状態φkに対する次の行動候補の生成を行う。なぜなら、行動候補に対して選択確率が定義できているので、方策関数部202Bは、確率が0より大きい行動候補{ak
1,ak
2,…,ak
mk}(mkは候補数)を抽出して環境部201Bに送る。環境部201Bは、各行動候補ak
iに対する状態φk+1
iを求める。環境部201Bは、求めた各行動候補ak
iに対する状態φk+1
iを評価部101Bに出力する(i)。
【0060】
評価部101Bは、信頼度の評価と、修正変更案を作成する。評価部101Bは、時刻kでの処理における修正更新案を方策関数から生起する前に、あらかじめ、SAIFI関数部1011にて修正更新案の候補の各々の構成案に対するSAIFI値を評価しておく。評価部101Bは、修正更新案を決定する時点で、これらのSAIFI値が基準を満たす案の集合から選択する。評価部101Bは、リスト部1012にて方策関数の修正変更情報を作成して保存し、方策関数部202Bに出力する。また、評価部101Bは、修正変更案の修正変更が収束した場合、修正変更案を出力部102に出力する。
【0061】
SAIFI関数部1011は、SAIFI関数を記憶する。SAIFI関数部1011は、環境部201Bが出力する次のシステム状態φk+1を取得し、取得したシステム状態φk+1をSAIFI関数に入力してSAIFI(φk+1)を求める。SAIFI関数部1011は、求めたSAIFI(φk+1)のリスト部1012に出力する。また、SAIFI関数部1011は、時刻kでの処理における行動候補ak
iと引き起こされる状態φk+1
iに応じたSAIFI列{(ak
i,φk+1
i、SAIFI(φk+1
i))}i=1,2,…,mk,を計算する。ここで、mkはステップk回目の行動候補数である。
【0062】
リスト部1012は、SAIFI列{(ak
i,φk+1
i、SAIFI(φk+1
i))}(i=1,2,…,mk)を記憶する。リスト部1012は、SAIFI関数部1011が出力するSAIFI(φk+1)を取得する。リスト部1012は、取得した候補リストを示す候補リスト情報{(ak
i,φk+1
i、SAIFI(φk+1
i))}(i=1,2,…,mk)を方策関数部202Bに出力する。これにより、リスト部1012は、方策関数部202Bに対して、方策関数の生起に対して制約を加える。
【0063】
なお、
図10において、符号iiは、変更案候補のリスト結果を用いて変更案を決定する第2過程である。この第2過程に基づき説明する。
環境部201Bは、修正された方策関数に基づき(ii)、サンプリング部203が出力する時刻kでの変更行動案(ii)を取得し、時刻k+1におけるシステム状態(φ
k+1)を生成する。環境部201は、生成した時刻t+1におけるシステム状態(φ
k+1)を評価部101Bに出力する(ii)。SAIFI関数部1011は、SAIFI(φ
k+1)を求めて出力部102を介して出力する。あるいは、SAIFI列{(a
k
i,φ
k+1
i、SAIFI(φ
k+1
i))}(i=1,2,…,m
k)がすでに、リスト部1012に蓄積されている場合、環境部201Bは、サンプリング部203が選択された行動a
k情報を、直接、策定部10Bに入力するようにしてもよい。この場合、評価部101Bは、リスト部1012から対応する状態φ
k+1、それに対応するSAIFI(φ
k+1)値を参照して出力してもよい。
【0064】
方策関数部202Bは、方策関数を記憶する。方策関数部202Bは、リスト部1012が出力する候補リスト情報によって修正変更案の選択肢に制約をかけることで方策関数の生起にたいして制約をかける。方策関数部202Bは、環境部201Bが出力するシステム状態を方策関数に入力して設備変更修正の行動選択の確率分布を求める。方策関数部202Bは、求めた行動選択の確率分布をサンプリング部203に出力する。
【0065】
実施例1で示した方策関数への制約は、行動akにより引き起こされる状態φk+1がSAIFI条件を満たさない、つまり、SAIFI_thよりもSAIFI(φk+1)が大きくなるときに、その行動を選択しない、というルールであった。これは、その他の行動候補について、元々の方策関数の確率分布比で選択される、ということであり、方策関数の元になったSAIFI評価と異なる、例えば、累積コスト最小化に基づく行動選択ということになる。
一方、本実施例のように各行動候補に対するSAIFI値が得られている場合は、SAIFI値の良い、つまり小さい値の行動を選びやすくもできる。これは、信頼度を重視した行動選択に相当する。あるいは、方策関数で表現される選択確率のSAIFI値との商(割り算)の比率で確率を設定すれば、信頼度向上とコスト最小化のバランスのよい行動を選択することになる。これらの評価は、評価部101Bのリスト部に追加してもよい。この評価部101BでのSAIFI評価により方策関数部202Bが制約される。
【0066】
本実施形態の設備変更計画案の策定手順を説明する。
図11は、本実施例に係る設備変更計画案の策定手順のフローチャートの図である。なお、
図11において、k回目の処理(時刻kでの処理)での設備変更計画候補数をm
kとし、k回目の処理での設備変更計画候補をφ
k
i(i=1,…,m
k)とする。
【0067】
(ステップS31)策定部10Bは、評価するシステム状態φ0(初期状態)を取得する。生成部20Bは、方策関数、環境条件を取得する。
【0068】
策定部10Bと生成部20Bは、ステップS32~S35の処理をT回繰り返して、設備変更計画を策定する。なお、生成部20Bは、各システム状態を生成する。
【0069】
(ステップS32)策定部10Bは、修正更新案を方策関数から生起する前に、予め修正更新案の候補{φk
i}の各々の構成案に対するSAIFI値(φk
i)を評価する。
【0070】
(ステップS33)策定部10Bは、予め修正更新案の候補{φk
i}の各々の構成案に対するSAIFI値(φk
i)に基づいてSAIFI条件を満たす更新案のみに制約する。例えば、策定部10Bは、ステップS32で計算された各SAIFI値(φk
i)をあらかじめ設定された閾値SAIFI_thと比較して評価する。そして、策定部10Bは、評価した結果としてek
i=true(閾値より小さい)、false(閾値以上)、i=1,…,mkという制約変数を定義、追加すれば、この変数によりtrueの行動のみ選択候補とするようにしてもよい。そして、策定部10Bは、その条件を加えた方策関数部202Bにおいてk回目の処理での設備変更行動akを選択する。なお、策定部10Bは、上記したように、信頼度向上とコスト最小化のバランスを想定して選択確率を設定してもよい。
【0071】
(ステップS34)策定部10Bは、kがT以上であるか否かを判別する。策定部10Bは、kがT以上であると判別した場合(ステップS34;YES)、ステップS36の処理に進める。策定部10Bは、kがT未満であると判別した場合(ステップS34;NO)、ステップS35の処理に進める。
【0072】
(ステップS35)策定部10Bは、kにk+1を代入し、ステップS32の処理に戻す。
【0073】
(ステップS36)策定部10Bは、系列Φ=(φ1,φ2,…,φT)を計画変更計画案として出力する。
【0074】
なお、上述した処理において、各k回目の処理での候補は、その前の時点でのシステムの状態に応じて変動することもある。よって、設備変更計画候補の候補数mkも状態に応じて変わる可能性もある。
【0075】
なお、上述した例では、SAIFIが基準を満たす設備変更計画候補を設備変更計画案として抽出する例を説明したが、これに限らない。策定部10Bは、例えば上記処理においてSAIFIの値順にソートし、良い順に抽出する(または悪い候補を除外する)、または値が上位の設備変更計画候補を抽出するようにしてもよい。
【0076】
以上のように、本実施例では、方策関数を生起させる前に、あらかじめ修正更新案の候補の各々の構成案に対するSAIFI値を評価して方策関数の生起に対して制約を加えるようにした。これにより、本実施例によれば、条件を満たす修正更新案に対して方策関数を生起させることができる。この結果、本実施例によれば、効率よく設備変更計画を策定することができる。
【0077】
(第3実施例)
第1実施例では、計画期間の中でk回目の処理毎に改善策を方策関数への制約設定として設備変更計画立案を継続する手順として示した。
本実施例では、方策関数に基づく計画策定が、確率過程であることから、十分な数の計画案を生成すれば、その中に、SAIFI条件を満たす計画が存在する可能性があり、その案を計画案とすればよい。その場合は、記載してきた変更案の修正や方策関数の制約などの手続きをすることなく効率的に信頼度の高い計画を策定することができるというメリットがある。以降は、その複数の計画案の中にSAIFI条件を満たす案が存在しない場合の過程を中心に説明する。
本実施形態では、計画期間に亘って設備更新計画の候補の系列を策定し、その系列に対応するSAIFIの系列を複数生成する。そして、本実施例では、複数の計画系列から、SAIFI条件、コスト条件を満たす計画案が存在すれば、それを結果として計画案とする。SAIFI条件が満たされていない場合は、算出した中で最も大きな劣化を生じる、あるいは策定部が記憶する所定の基準のもとに修正更新案としての選択肢生起確率を制約するように方策関数に制約を加えて、計画系列全体を作り直す。なお、SAIFIの系列は、SAIFI(φ0),SAIFI(φ1),…,SAIFI(φT)である。
【0078】
まず、情報処理装置1Cの構成例を説明する。
図10は、本実施例に係る情報処理装置1Cの構成例を示す図である。
図12のように、情報処理装置1Cは、策定部10C、および生成部20Cを備える。
策定部10Cは、評価部101C、および出力部102を備える。評価部101Cは、変更案策定部1013、SAIFI関数部1014、制約生成部1015を備える。
生成部20Cは、環境部201、方策関数部202C、およびサンプリング部203を備える。
なお、情報処理装置1と同様の動作をする機能部には、同じ符号を用いて説明を省略する。
【0079】
評価部101Cは、計画期間に亘る複数の設備更新計画案の系列に対応するSAIFIの系列を算出し、SAIFI条件含め、計画案として条件を満たす場合はその計画を出力とする。そうでない場合は、その中でSAIFI条件を満たさない行動の生成を制約するように、方策関数に対する選択肢生起確率の制約を生成する。評価部101Cは、例えば、第2実施例のステップS33の機能説明で導入した制約変数ek
iを制約として使ってもよい。ただし、一般的には、制約はその時点の状態φkに依存するので、状態がφkの場合、ek
iの条件で選択候補を制約する。
【0080】
変更案策定部1013は、計画期間に亘って設備更新計画案の系列Φ=(φ0,φ1,…,φT)を複数保存する。
【0081】
SAIFI関数部1014は、SAIFI関数を記憶する。SAIFI関数部1014は、変更案策定部1013が作成した設備更新計画案の系列ΦのSAIFIを求める。
【0082】
制約生成部1015は、SAIFI関数部1014が求めた設備更新計画案の系列Φに対応するSAIFIの系列に基づき方策関数に対する制約を算出する。制約生成部1015は、SAIFI系列の中で条件をみたさない変更案を抽出しその変更案を選択候補から削除するように、方策関数に対する選択肢生起確率の制約を生成し、生成した制約情報を方策関数部202Cに出力する。
【0083】
方策関数部202Cは、方策関数を記憶する。方策関数部202Cは、制約生成部1015が出力する制約情報によって修正変更案の選択肢に制約をかけることで方策関数の生起にたいして制約をかける。方策関数部202Cは、環境部201が出力するシステム状態を方策関数に入力して設備変更修正の行動選択の確率分布を求める。方策関数部202Cは、求めた行動選択の確率分布をサンプリング部203に出力する。
【0084】
次に、設備変更計画案の策定手順を説明する。
図13は、本実施例に係る設備変更計画案の策定手順のフローチャートの図である。
【0085】
(ステップS41)生成部20Cは、評価するシステム状態φ0(初期状態)、方策関数、環境条件を取得する。
【0086】
策定部10Cと生成部20Cは、ステップS42~S46の処理を繰り返して、設備変更計画を策定する。なお、生成部20Cは、各システム状態を生成する。
【0087】
(ステップS42)生成部20Cは、ステップS41で取得した情報を用いて、全ての設備変更計画候補φk(k=0,…,T)を生成する。設備更新計画案の系列を複数生成する。
【0088】
(ステップS43)策定部10Cは、設備変更計画候補のSAIFI系列SAIFI(Φ)を評価する。これにより、策定部10Cは、計画案としての条件を満たす計画系列が存在するか否かを評価する。
【0089】
(ステップS44)策定部10Cは、自部が記憶する所定の基準に基づいて、処理を終了するか否か判別する。なお、所定の基準は、ステップS43で評価されたように、計画案として条件を満たす計画案が存在すれば、その案を結果の計画とし、終了条件を満たすものとする。または、所定の基準は、すべての系列が条件未達であれば、終了条件を満たさない。策定部10Cは、処理を終了すると判別した場合(ステップS44;YES)、ステップS46の処理に進める。策定部10Cは、処理を終了しないと判別した場合(ステップS44;NO)、ステップS45の処理に進める。
【0090】
(ステップS45)策定部10Cは、SAIFI(Φ)劣化を生じる行動の選択を制約する。なお、策定部10Cは、SAIFI(Φ)劣化を生じる行動選択の制約を、方策関数に対して該当行動を制約、すなわち非選択候補とすることで行う。策定部10Cは、ステップS42の処理に戻す。
【0091】
(ステップS46)策定部10Cは、系列Φ=(φ1,φ2,…,φT)を設備変更計画案として出力する。
【0092】
なお、ステップS45の別の実施例として、SAIFI値が劣化した場合は、例えばSAIFI値の劣化が大きい設備変更計画候補に対して、変更した箇所を強化する。強化とは、例えば、
図7のg102において、リンクX3を外さず、さらに近傍設備(例えばリンクX5)を追加して強化する。または、処理後との構成に対して、N-1系(リンクやノードを1つがダウンした状態)のSAIFI値を求め、劣化したSAIFI(または一番悪いSAIFI等)に対応する設備箇所を強化する。このような特定状態に対する修正案が、評価部101Cから環境部201に設定される。
【0093】
以上のように、本実施形態では、設備変更計画の立案(推論)中に、SAIFI(Φ)の系列からSAIFIに影響のある変更箇所を特定し、影響度の大きな行動に制約を加える(方策関数に制約付加)ようにした。
これにより、本実施形態によれば、複数の計画案を策定した中に条件を満たす案が存在しない場合にのみ、制約を加えることで効率的に設備変更計画案を策定することができる。
また、本実施例では、ステップS45として、変更計画案単位で修正する方法を説明したが、この部分は第1実施例のような変更ステップ毎に修正する方法を採用することもできる。
【0094】
なお、上述した情報処理装置1(または1A、1B、1C)の機能部の全てまたは一部は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。
【0095】
次に、出力される表示装置3上に表示される画像例を説明する。
図14は、表示装置3上に表示される画像例を示す図である。出力部102は、
図14のように、ステップ毎(時刻毎、処理毎)のシステムの構成図(回路図またはメタグラフ)とSAIFI等の画像を生成し、生成した画像を表示装置3に表示させる。なお、
図14に示した表示画像は一例であり、表示画像は、これに限らない。
【0096】
次に、実システムをグラフ構造で表現する手法例を説明する。
なお、実施形態、各実施例で用いる、メタグラフ、グラフニューラルネット等の詳細については、特開2019-204294を参照。
図15は、実システムの構造例を示す図である。図示する構造例は、バス1~バス4を含む。バス1とバス2の間には、220[kV]を110[kV]に変圧する変圧器が設けられている。バス2には、60[MW]の需要家が接続されている。バス2とバス3の間は、70[km]の電力線で接続されている。バス3には、発電機と、70[MW]の需要家が接続されている。バス2とバス4の間は、40[km]の電力線で接続されており、バス3とバス4の間は、50[km]の電力線で接続されている。バス4には、発電機と、10[MW]の需要家が接続されている。
【0097】
図15のような構成において、バスを実ノード、変圧器を種別「T」の実エッジ、電力線を種別「L」の実エッジと考えると、
図16のように表すことができる。
図16は、想定ノードANの種別の定義の一例を示す図である。符号g201は、グラフ構造のデータの内容の一例を示し、符号g202は、実ノードRNと実エッジREを想定ノードANに変換した様子を模式的に示している。符号g201において、RN(Bx)(xは1から4の整数)は実ノードを示し、RE(Ly)(yは1から3の整数)とRE(T1)は実エッジを示している。
【0098】
実システムをグラフ構造で表現する際は、符号g201のグラフ構造のデータを、符号g202のように想定ノードメタグラフに変換する(符号g203)。なお、グラフ構造のデータから想定ノードメタグラフへの変換方法については後述する。符号g202において、AN(Bx)とAN(T1)とAN(Ly)は実ノードを示している。なお、符号g202のようなグラフをメタグラフという。
【0099】
図16のメタグラフをニューラルネット構造で表すと
図17のように表すことができる。
図17は、
図16のグラフ構造のデータから生成されたニューラルネットワークを示す図である。
図17において、W
L
(1)とW
B
(1)は、第1中間層の伝播行列であり、W
L
(2)とW
B
(2)は、第2中間層の伝播行列である。伝播行列W
Lは、ノードLの想定ノードからの伝播行列である。伝播行列W
Bは、ノードBの想定ノードからの伝播行列である。また、例えばB4’は第1中間層の想定ノードを示し、B4’’は第2中間層の想定ノードを示す。
【0100】
設備の変更は、設備に相当するコンボリューション関数の変更に相当する(局所処理)。設備の増設は、コンボリューション関数の追加に相当する。設備の廃棄は、コンボリューション関数の削除に相当する。
【0101】
次に、グラフ構造のデータからニューラルネットワークを生成する方法について説明する。
図18は、グラフ構造のデータからニューラルネットワークを生成する様子を示す図である。
図18において、符号g251は、グラフ構造を表す。符号g252は、ニューラルネットワークを表す。
【0102】
ニューラルネットワークの生成では、実ノードRNだけでなく、実エッジREを含めた想定ノードANを設定し、想定ノードANの第k-1層の特徴量を、接続関係にある他の想定ノードAN、およびその想定ノードAN自身の第k層の特徴量に伝播させるニューラルネットワークを生成する。kは1以上の自然数であり、k=0の層は、例えば入力層を意味する。なお、ニューラルネットワークの生成は、例えば外部装置が行ってもよく、情報処理装置が行ってもよい。
【0103】
ニューラルネットワークの生成では、例えば、次式(2)に基づいて第1中間層の特徴量を決定する。なお、式(2)は、想定ノード(RN1)の第1中間層の特徴量h1#の計算手法に該当する。
一例としてα1,12は、想定ノード(RN1)と想定ノード(RE12)の間の伝播度合いを示す係数である。想定ノード(RN1)の第2中間層の特徴量h1##は、次式(3)で表される。第3中間層以降も順次、同様の規則で特徴量が決定される。
【0104】
【0105】
【0106】
ニューラルネットワークの生成では、例えば、グラフアテンションネットワークに基づく規則で係数α
i,jを決定する。
図19は、ニューラルネットワークの生成において係数α
i,jを決定する手法について説明するための図である。ニューラルネットワーク生成装置100は、伝播元の想定ノードRNiの特徴量h
iに伝播行列Wを乗算して得られるベクトルWh
iと、伝播先の想定ノードRNjの特徴量h
jに伝播行列Wを乗算して得られるベクトルWh
jとを結合したベクトル(Wh
i,Wh
j)を個別ニューラルネットワークa(アテンション)に入力し、出力層のベクトルをシグモイド関数、ReLU、softmax関数などの活性化関数に入力して正規化し、足し合わせることで、係数α
i,jを導出する。個別ニューラルネットワークaは、解析対象となる事象について予めパラメータ等が求められたものである。
【0107】
ニューラルネットワークの生成では、上記の規則に従いつつ、ニューラルネットワークの目的に沿うようにニューラルネットワークのパラメータ(W、αi,j)を決定する。ニューラルネットワークの目的とは、想定ノードANを現在の状態とした場合に将来の状態を出力することであり、または状態を評価するための指標を出力することであり、あるいは現在の状態を分類することである。
【0108】
次に、設備のアテンション、コンボリューションモデルに基づいて、設備の変更計画系列の定式化する手順例を説明する。
図20は、コンボリューション処理とアテンション処理のマッピング例を示す図である。
まず、実システムをグラフ構造で表す(S101)。次にグラフ構造からエッジ種別、関数属性を設定する(S102)。次に、メタグラフで表す(S103)。次に、ネットワークマッピングを行う(S104)。
【0109】
符号g300は、ネットワークマッピングの例である。符号g301は、エッジコンボリューションモジュールである。符号g3022は、グラフアテンションモジュールである。符号g303は、時系列認識モジュールである。符号g304は、状態価値関数V(s)推定モジュールである。符号g305は、行動確率p(a|s)算出モジュールである。
【0110】
ここで、設備変更計画問題は、強化学習の問題として定義できる。すなわち、設備変更計画問題は、グラフ構造と各ノード、エッジ(設備)のパラメータを状態、設備の追加や削除を行動、得られる収益や費用を報酬とすることで、強化学習問題として定義することができる。
【0111】
変更の選択例を説明する。
図21は、変更の選択例を説明するための図である。
【0112】
ここでは、初期(t=0)状態として、符号g401のような4ノードのグラフ構造を考える。
この状態から、次の時刻t=1の変更候補としては、中段の符号g411,g412,…,g41nのようにn(nは1以上の整数)個の選択肢が考えられる。
それらの選択肢毎に、次時刻t=2の選択肢が派生する。符号g421,g422,g423…は、のグラフ構造からの選択肢例を表す。
【0113】
このように選択系列は、変更を反映したメタグラフの系列、つまりノード変更の系列として表現される。実施形態では、このような系列の中からポリシーに適合するものを抽出する手段として強化学習を用いる。
【0114】
このように、構成されたグラフニューラルネットは、環境側のシステム構成に常に対応づいている。そして、ニューラルネットワークの生成では、環境側の評価結果として、新たな状態S、それに基づいて求められる報酬値、とニューラルネット側で推定される価値関数、および、方策関数によって強化学習を進める。
【0115】
次に、方策関数を学習によって得る例を説明する。ここでは、学習方式としてA3C(Asynchronous Advantage Actor-Critic)を用いる例を説明するが、学習方式は、これに限らない。なお、実施形態では、選択系列の中から報酬に適合するものを抽出する手段として強化学習を用いる。また、強化学習は、例えば深層強化学習であってもよい。なお、強化学習は、例えば
図21に示すような学習装置500が行う。
【0116】
図22は、学習方法例における情報の流れを示す図である。
図22のように、学習装置500は、外部環境DB(データベース)501、システム環境502、処理部503、および強化学習部504を備える、
システム環境502は、物理モデル・シミュレータ5021、報酬算出部5022、および出力部5023を備える。
処理部503は、生成部5031を備える。
【0117】
外部環境DB501が格納するデータは、外部環境データ等である。環境データは、例えば設備ノードの仕様、電力システムなどでの需要データ、グラフ構造に関する情報等であり、環境状態、行動の影響を受けず、かつ、行動の決定に影響するパラメータである。
【0118】
物理モデル・シミュレータ5021は、例えば潮流シミュレータ、トラヒックシミュレータ、物理モデル、関数、方程式、エミュレータ、実機などを備える。物理モデル・シミュレータ5021は、必要に応じて外部環境DB501が格納するデータを取得し、取得したデータと物理モデルを用いて、シミュレーションを行う。物理モデル・シミュレータ5021は、シミュレーション結果(S,A,S’)を報酬算出部5022に出力する。Sはシステムの状態(Last State)であり、Aは抽出された行動であり、S’はシステムの新たな状態である。
【0119】
報酬算出部5022は、物理モデル・シミュレータ5021から取得したシミュレーション結果(S,A,S’)を用いて報酬値Rを算出する。なお、報酬値Rの算出方法については後述する。また、報酬値Rは、例えば{(R1,a1),…,(RT,aT)}である。ここで、Tは、設備計画検討期間である。また、ap(pは1からTの整数)は、各ノードであり、例えばa1は1番目のノードであり、apはp番目のノードである。
【0120】
出力部5023は、システムの新たな状態S’をシステムの状態Sとし、システムの状態Sと報酬値Rを処理部503に出力する。
【0121】
生成部5031は、システム環境502が出力するシステムの状態Sを、処理部503が記憶するニューラルネットに入力して方策関数π(・|S,θ)と状態価値関数V(S,w)を求める。ここで、wは、ノードが持つ属性次元に対応する重み係数行列(コンボリューション項ともいう)である。生成部5031は、次式(4)を用いて次のステップでの行動(設備変更)Aを決定する。
【0122】
【0123】
なお、式(4)は、式(3)においてaがAに相当し、φがSに相当する。
生成部5031は、決定した次のステップでの行動(設備変更)Aをシステム環境502に出力する。すなわち、方策関数π(・|S,θ)は、検討対象のシステムの状態Sが入力され、行動を出力する。また、生成部5031は、求めた状態価値関数V(S,w)を強化学習部504に出力する。なお、行動を選択する方策関数π(・|S,θ)はメタグラフ構造変更の行動候補の確率分布として与えられる。
【0124】
このように、生成部5031は、ニューラルネットワークに対してシステムの状態を入力し、ニューラルネットに対して時間ステップ毎に想定し得る構造変化を生じさせた一以上の変更後モデルの体系について、時間ステップ毎に方策関数と強化学習に必要な状態価値関数とを求め、方策関数に基づいてシステムの構造変化を評価する。
【0125】
強化学習部504には、生成部5031が出力する状態価値関数V(S,w)と、システム環境502が出力する報酬値Rが入力される。強化学習部504は、入力された状態価値関数V(S,w)と報酬値Rを用いて、例えばA3C等の機械学習方法によって強化機械学習を、行動の系列を設備計画検討期間(T)に相当する回数繰り返す。強化学習部504は、強化機械学習した結果得られたパラメータ<ΔW>π,<Δθ>πを生成部5031に出力する。
【0126】
生成部5031は、強化学習部504が出力するパラメータに基づいて、コンボリューション関数のパラメータを更新する。生成部5031は、更新されたパラメータ<ΔW>π,<Δθ>πをニューラルネットワークに反映して、パラメータを反映したニューラルネットワークに対して評価を行う。
【0127】
次に、生成部5031の機能と動作についてさらに説明する。
生成部5031は、システム環境502からの「状態信号」、その一部として設備変更を反映した変更情報信号を取得する。生成部5031は、変更情報信号を取得した際、対応する新たなシステム構成に対応するメタグラフ構造を定義し、対応するニューラルネットワーク構造を生成する。この際、生成部5031は、変更案の必要な価値関数や方策関数の評価値推定計算を効率よく処理するニューラルネット構造を策定する。また、生成部5031は、変更箇所に対応する自部が記憶するコンボリューション関数を参照し、コンボリューション関数集合から実際のシステム構成に相当するメタグラフを構成する。そして、生成部5031は、設備変更に相当するメタグラフ構造の変更(行動に対応して、グラフ構造更新、”候補ノード”設定等)を行う。生成部5031は、ノードとエッジに属性を対応付けて定義、管理する。
【0128】
生成部5031は、設備種に対応するコンボリューション関数の定義機能と、コンボリューション関数のパラメータ更新機能とを備える。生成部5031は、部分メタグラフ構造と対応するコンボリューションモジュール、あるいはアテンションモジュールを管理する。生成部5031は、システムの構造を表すグラフ構造のデータに基づいて、グラフ構造のデータを表すモデルに関するコンボリューション関数を定義する。なお、部分メタグラフ構造は、各設備種別ノード、あるいはエッジに対応する個別のコンボリューション関数のライブラリー機能である。生成部5031は、学習過程において、個々のコンボリューション関数のパラメータを更新していく。
【0129】
生成部5031は、策定したニューラルネットワーク構造と、管理する部分メタグラフ構造と対応するコンボリューションモジュールあるいはアテンションモジュールを取得する。生成部5031は、メタグラフを多層ニューラルネットワークに変換する機能、強化学習に必要な関数のニューラルネットの出力関数定義機能、および上記コンボリューション関数あるいはニューラルネットワークのパラメータセットの更新機能を備える。なお、強化学習に必要な関数は、例えば、報酬関数、方策関数等である。また、出力関数定義とは、例えば、コンボリューション関数の出力を入力とするフルコネクト・多層ニューラルネットワーク等である。なお、フルコネクトとは、各入力が他のすべての入力と接続している形態である。
【0130】
次に、報酬関数の例を説明する。
報酬関数は、例えば(バイアス)-(設備設置、廃棄、運営、保守コスト)である。報酬関数は、設備毎にコストをモデル化(関数)にして、バイアスから引くことで正の報酬値として定義するようにしてもよい。なお、バイアスとは、報酬関数値が正値になるように適宜一定の正値として設定されるパラメータである。
【0131】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0132】
1,1A,1B,1C…情報処理装置、10,10A,10B,10C…策定部、20,20A,20B,20C…生成部、101,101A,101B,101C…評価部、102…出力部、201,201B…環境部、202,202A,202B…方策関数部、203…サンプリング部、204…候補案リスト部、1011,1014…SAIFI関数部、1012…リスト部、1013…変更案策定部、1015…制約生成部