特許第6895440号(P6895440)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヴィート エヌブイの特許一覧

特許6895440ニューラルネットワークアーキテクチャを用いた分配システムの制御のための方法、制御装置およびシステム
<>
  • 特許6895440-ニューラルネットワークアーキテクチャを用いた分配システムの制御のための方法、制御装置およびシステム 図000040
  • 特許6895440-ニューラルネットワークアーキテクチャを用いた分配システムの制御のための方法、制御装置およびシステム 図000041
  • 特許6895440-ニューラルネットワークアーキテクチャを用いた分配システムの制御のための方法、制御装置およびシステム 図000042
  • 特許6895440-ニューラルネットワークアーキテクチャを用いた分配システムの制御のための方法、制御装置およびシステム 図000043
  • 特許6895440-ニューラルネットワークアーキテクチャを用いた分配システムの制御のための方法、制御装置およびシステム 図000044
  • 特許6895440-ニューラルネットワークアーキテクチャを用いた分配システムの制御のための方法、制御装置およびシステム 図000045
  • 特許6895440-ニューラルネットワークアーキテクチャを用いた分配システムの制御のための方法、制御装置およびシステム 図000046
  • 特許6895440-ニューラルネットワークアーキテクチャを用いた分配システムの制御のための方法、制御装置およびシステム 図000047
  • 特許6895440-ニューラルネットワークアーキテクチャを用いた分配システムの制御のための方法、制御装置およびシステム 図000048
  • 特許6895440-ニューラルネットワークアーキテクチャを用いた分配システムの制御のための方法、制御装置およびシステム 図000049
  • 特許6895440-ニューラルネットワークアーキテクチャを用いた分配システムの制御のための方法、制御装置およびシステム 図000050
  • 特許6895440-ニューラルネットワークアーキテクチャを用いた分配システムの制御のための方法、制御装置およびシステム 図000051
  • 特許6895440-ニューラルネットワークアーキテクチャを用いた分配システムの制御のための方法、制御装置およびシステム 図000052
  • 特許6895440-ニューラルネットワークアーキテクチャを用いた分配システムの制御のための方法、制御装置およびシステム 図000053
  • 特許6895440-ニューラルネットワークアーキテクチャを用いた分配システムの制御のための方法、制御装置およびシステム 図000054
  • 特許6895440-ニューラルネットワークアーキテクチャを用いた分配システムの制御のための方法、制御装置およびシステム 図000055
  • 特許6895440-ニューラルネットワークアーキテクチャを用いた分配システムの制御のための方法、制御装置およびシステム 図000056
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6895440
(24)【登録日】2021年6月9日
(45)【発行日】2021年6月30日
(54)【発明の名称】ニューラルネットワークアーキテクチャを用いた分配システムの制御のための方法、制御装置およびシステム
(51)【国際特許分類】
   G06N 3/04 20060101AFI20210621BHJP
   G06N 3/08 20060101ALI20210621BHJP
   G05B 13/02 20060101ALI20210621BHJP
   H02J 3/14 20060101ALN20210621BHJP
【FI】
   G06N3/04
   G06N3/08
   G05B13/02 L
   !H02J3/14
【請求項の数】18
【全頁数】44
(21)【出願番号】特願2018-534532(P2018-534532)
(86)(22)【出願日】2016年12月26日
(65)【公表番号】特表2019-512757(P2019-512757A)
(43)【公表日】2019年5月16日
(86)【国際出願番号】EP2016082676
(87)【国際公開番号】WO2017114810
(87)【国際公開日】20170706
【審査請求日】2019年12月19日
(31)【優先権主張番号】15203252.0
(32)【優先日】2015年12月31日
(33)【優先権主張国】EP
(31)【優先権主張番号】16167240.7
(32)【優先日】2016年4月27日
(33)【優先権主張国】EP
(73)【特許権者】
【識別番号】510054027
【氏名又は名称】ヴィート エヌブイ
(74)【代理人】
【識別番号】110001195
【氏名又は名称】特許業務法人深見特許事務所
(72)【発明者】
【氏名】クレサン,ベール
(72)【発明者】
【氏名】ブランクス,ペーテル
【審査官】 杉浦 孝光
(56)【参考文献】
【文献】 特開2011−022902(JP,A)
【文献】 特表2014−512052(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00−99/00
G05B 13/02
H02J 3/14
(57)【特許請求の範囲】
【請求項1】
需要応答システム内のクラスタにグループ化された制約付きクラスタ要素に分配されるべき物理生産物の需要を制御するコンピュータベースの方法であって、
強化学習(RL)の形態の制御技法を使用して次の制御ステップ中に前記制約付きクラスタ要素に分配されるべき前記物理生産物の量を決定するステップであって、結果、前記制御技法が、制御されるべき前記需要応答システムとの相互作用から学習する、決定するステップを含み、前記方法は、
畳み込みニューラルネットワークに、1つもしくは複数の2D(二次元)グリッド構造に集約された、前記需要応答システムの少なくとも1つのクラスタの履歴観測値、または、履歴観測値の派生物を入力する、2D特徴抽出動作を含み、2Dグリッド構造の1つの次元は複数の時間ステップを表し、他方の次元は前記複数の時間ステップにおけるクラスタ状態を捕捉し、前記クラスタ状態は、各時間ステップについて前記少なくとも1つのクラスタ内のクラスタ要素のローカル状態を集約することによって表され、前記畳み込みニューラルネットワークは、2D畳み込みを実行し、ローカル時間と、前記2Dグリッド構造における前記クラスタ要素の集約されたローカル状態変化との組み合わせから、ローカル畳み込み特徴を抽出することを学習し、
前記方法は、
第1のニューラルネットワークに、少なくとも抽出されているローカル畳み込み特徴を入力するステップであって、前記第1のニューラルネットワークは、前記少なくとも1つのクラスタがある状態にあることと、ある行動をとることとの各組み合わせに関連する前記少なくとも1つのクラスタの値を提供する状態−行動価値関数の少なくとも近似値を出力する、入力するステップと、
制御行動を決定または計算するステップであって、前記制御行動は、ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせであるか、または、ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせから導出される、決定または計算するステップと、
前記制御行動に従って次の制御ステップ中に前記クラスタ要素によって消費または解放されるべき前記物理生産物の目標量を分配するステップとをさらに含む、方法。
【請求項2】
前記制御技法がモデルなしである、請求項1に記載の方法。
【請求項3】
前記状態−行動価値関数がQ関数(Q(x,u))である、請求項1または2に記載の方法。
【請求項4】
前記生産物が、熱エネルギーまたは電力またはエネルギーである、請求項1〜3のいずれか一項に記載の方法。
【請求項5】
前記制御行動および外因性状態情報は、前記第1のニューラルネットワークへの入力として結合された第2のニューラルネットワークに入力される、請求項1〜4のいずれか一項に記載の方法。
【請求項6】
外因性状態情報および前記制御行動を、前記畳み込みニューラルネットワークの前記抽出された畳み込みローカル特徴とマージするステップをさらに含む、請求項5に記載の方法。
【請求項7】
外因性状態情報および前記制御行動を前記畳み込みニューラルネットワークの前記抽出された畳み込みローカル特徴とマージする前に、別個の特徴抽出が実行され、前記外因性状態情報および前記制御行動が最初に前記第2のニューラルネットワークに供給され、該第2のニューラルネットワークは、前記外因性状態情報および前記制御行動を、次の隠れ層において前記抽出された畳み込みローカル特徴と組み合わされる学習された内部表現にマッピングする、請求項6に記載の方法。
【請求項8】
前記外因性状態情報にネットワーク不均衡値が含まれる、請求項5〜7のいずれか一項に記載の方法。
【請求項9】
1つの時間ステップについて決定された前記制御行動が、次の時間ステップの前記外因性情報に含まれる、請求項5〜8のいずれか一項に記載の方法。
【請求項10】
レガシ装置をエミュレートするステップをさらに含む、請求項1〜9のいずれか一項に記載の方法。
【請求項11】
前記畳み込みニューラルネットワークは、最初に、前記2Dグリッド構造におけるパターンを捕捉し、前記畳み込みニューラルネットワークならびに前記第1のニューラルネットワークおよび前記第2のニューラルネットワークは、前記集約されたクラスタ状態および外因性データならびに前記制御行動から前記目標量へのマッピングを学習するか、または、ともに訓練される、請求項5〜9のいずれか一項に記載の方法。
【請求項12】
前記2Dグリッド構造は、固定された時間ステップでのクラスタ状態のすべての観測値を表す1つの次元を有し、第2の次元は、すべての時間ステップにおけるクラスタ要素の複数の状態変数の各々の値の時間変化に対応し、前記2D特徴抽出動作は、時間および空間にわたって適用され、結果として前記クラスタ状態の状態情報および前記履歴においてローカル構造を識別する時空間特徴が識別される、請求項1〜11のいずれか一項に記載の方法。
【請求項13】
複数の時間ステップにわたって生じる状態値の変化を表す特徴が学習される、請求項12に記載の方法。
【請求項14】
学習された前記特徴は、少なくとも前記第1のニューラルネットワークのより上位のネットワーク層によって入力として使用される、請求項13に記載の方法。
【請求項15】
需要応答システム内のクラスタにグループ化された制約付きクラスタ要素に分配されるべき物理生産物の需要を制御するためのコンピュータベースのシステムであって、
強化学習(RL)の形態の制御技法を使用して次の制御ステップ中に前記制約付きクラスタ要素に分配されるべき物理生産物の量を決定するための手段であって、結果、前記制御技法が、制御されるべき前記需要応答システムとの相互作用から学習する、決定するための手段と、
特徴を抽出するための手段であって、
1つもしくは複数の2Dグリッド構造に集約された、前記需要応答システムの少なくとも1つのクラスタの履歴観測値、または、前記履歴観測値の派生物を入力するように適合されている、畳み込みニューラルネットワークへの入力であり、2Dグリッド構造の1つの次元は複数の時間ステップを表し、他方の次元は前記複数の時間ステップにおけるクラスタ状態を捕捉し、前記クラスタ状態は、各時間ステップについて前記少なくとも1つのクラスタ内のクラスタ要素のローカル状態を集約することによって表され、前記畳み込みニューラルネットワークは、2D畳み込みを実行するように適合されており、ローカル時間と、前記2Dグリッド構造における前記クラスタ要素の集約されたローカル状態変化との組み合わせから、ローカル畳み込み特徴を抽出することを学習する、入力と、
前記畳み込みニューラルネットワークから第1のニューラルネットワークへの、少なくとも抽出されているローカル畳み込み特徴の入力であって、
前記第1のニューラルネットワークは、少なくとも1つのクラスタがある状態にあることと、ある行動をとることとの各組み合わせに関連する前記少なくとも1つのクラスタの値を提供する状態−行動価値関数の少なくとも近似値を出力するように適合されているローカル畳み込み特徴の入力とを備える、特徴を抽出するための手段と、
ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせであるか、または、ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせから導出される制御行動を決定または計算するための手段と、
前記制御行動に従って次の制御ステップ中に前記クラスタ要素によって消費または解放されるべき前記物理生産物の目標量を分配するための手段とを備える、コンピュータベースのシステム。
【請求項16】
需要応答システム内のクラスタにグループ化された制約付きクラスタ要素に分配されるべき物理生産物の需要を制御するための制御装置であって、
強化学習(RL)の形態の制御技法を使用して次の制御ステップ中に前記制約付きクラスタ要素に分配されるべき前記物理生産物の量を決定するための手段であって、結果、前記制御技法が、制御されるべき前記需要応答システムとの相互作用から学習する、決定するための手段と、
特徴を抽出するための手段であって、
1つもしくは複数の2Dグリッド構造に集約された、前記需要応答システムの少なくとも1つのクラスタの履歴観測値、または、前記履歴観測値の派生物を入力するように適合されている、畳み込みニューラルネットワークへの入力であり、2Dグリッド構造の1つの次元は複数の時間ステップを表し、他方の次元は前記複数の時間ステップにおけるクラスタ状態を捕捉し、前記クラスタ状態は、各時間ステップについて前記少なくとも1つのクラスタ内のクラスタ要素のローカル状態を集約することによって表され、前記畳み込みニューラルネットワークは、2D畳み込みを実行するように適合されており、ローカル時間と、前記2Dグリッド構造における前記クラスタ要素の集約されたローカル状態変化との組み合わせから、ローカル畳み込み特徴を抽出することを学習する、入力と、
前記畳み込みニューラルネットワークから第1のニューラルネットワークへの、少なくとも抽出されているローカル畳み込み特徴の入力であって、
前記第1のニューラルネットワークは、少なくとも1つのクラスタがある状態にあることと、ある行動をとることとの各組み合わせに関連する前記少なくとも1つのクラスタの値を提供する状態−行動価値関数の少なくとも近似値を出力するように適合されているローカル畳み込み特徴の入力とを備える、特徴を抽出するための手段と、
ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせであるか、または、ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせから導出される制御行動を決定または計算するための手段と、
前記制御行動に従って次の制御ステップ中に前記クラスタ要素によって消費または解放されるべき前記物理生産物の目標量を分配するための手段とを備える、制御装置。
【請求項17】
処理エンジン上で実行されると、請求項1〜14のいずれか一項に記載の方法のいずれかを実行するように適合されているコンピュータプログラム。
【請求項18】
非一時的機械可読信号記憶手段上に記憶されている、請求項17に記載のコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えば、熱または電力分配などのエネルギー分配システムのような分配システムの制御のための方法、制御装置およびシステム、ならびに、処理エンジン上で実行されるときにそのような方法のいずれかを実行することができるソフトウェアに関する。
【背景技術】
【0002】
背景
電気自動車、ヒートポンプ、またはHVACシステムなどのエネルギー制約付き柔軟性(ECF)ソースの需要柔軟性を制御することは、モデル予測制御[1]または完全にモデルなしの強化学習[2]に基づいて知られている。
【0003】
需要応答設定において適用される場合、そのような制御技法の望ましい結果は、提案されている電力および/またはエネルギーが、次の制御ステップ中に任意の数の装置によって消費されることである。
【0004】
システムに過負荷をかけないこと、少なくとも最小限のエネルギー要件を満たすこと、および、例えば、エネルギーオークションからエネルギーが得られるときに価格が時間によって変動するにもかかわらず経済的な方法で動作することなどの、ネットワーク制約を含む様々な目的を考慮する必要がある。
【0005】
モデルベースの制御を考慮する場合、制御されるソースの柔軟性のモデル、すなわち、装置がそのエネルギー要件をどれだけ修正できるか、またはその需要にどれだけ柔軟性があるかというモデルを構築する必要がある。これは困難な技術課題であり、モデルベースの制御装置の経済的価値に応じて、そのようなモデルは場合によって経済的に興味深いか否かであり得る。
【0006】
モデルベースの技法の典型的な利点は、ドメイン知識をモデルに直接組み込むことができることである。主な欠点は、モデルが正確であり、調整され、維持される必要があることである。後者の2つの態様は、例えば化学業界において制御装置が人間の専門家によって継続的に監視される非常に特定的な領域にMPCが好ましく適用される理由である。
【0007】
この実用性は、モデルなし制御[2]によって少なくとも部分的に緩和することができる。しかし、MDP(マルコフ決定過程)または部分観測マルコフ決定過程(POMDP)の形で問題を投げかけるのが標準的な作業方法である。これにより、制御行動の価値を捕捉するQ関数などの概念を扱うことができる。しかし、ここでの主な問題は、MDPには次元性およびスケーラビリティについて問題があることである。すなわち、大きな状態次元(例えば、>5/>10の可能な状態)について、ほとんどの従来技法は、各状態の値が理解されなければならず、そのような網羅的な技法は明らかに状態次元性に指数関数的に拡大するため、ほとんどの従来の技法は非実際的になる。
【0008】
システムまたは装置レベルのセンサデータは、現在利用可能であるか、または将来のシステムにおいて提供され得る。このセンサデータは、システムの状態の指標を与える。例えば、建造物内の1つのセンサによって室温を測定することができ、または、温水槽内では、1つまたは複数の層の水温を測定することができる。この情報は部分状態情報として、例えば、定義によれば、直接測定する必要はないが、履歴情報に基づいて識別することができるこの動態を表す「特徴」であり得る、建造物温度または壁面家具の温度として見ることができる。これは、履歴状態情報を追加することによって利用可能な状態情報を拡張する。
【0009】
より大きいシステムの場合、異なるセンサによって測定された特徴間の動態は、状態空間に結合される。この情報は、すべての状態情報を含む必要がある。例えば、異なる温度センサまたは「センサのクラスタ」を備えた温水槽内では、動態はクラスタ化され、したがって、例えば、エネルギーオークションベースのディスパッチメカニズムを使用してECFの大きなクラスタを制御するとき、制御はクラスタ制御になる。
【0010】
例えば、温水貯蔵槽または建造物に10個のセンサがあり、最後の10個の時間ステップ(例えば、15分分解能)にわたる測定値が状態のマトリクス表現に取り込まれた場合、これは100次元の状態空間をもたらす。
【0011】
再びクラスタ制御を参照すると、クラスタ内の異なるECFが特定の状態(例えば、状態)について集約される場合、集約ステップを使用して次元を減少させることができ、例えば、0.2と0.3との間のSoC(充電状態)を有するすべての電池がともにグループ化される場合、例えば、ビニング手法を選択することができ、SoCが0.2〜0.3のすべての電池を1つのビン内に配置することができる。
【0012】
先行技術文献:
【0013】
【表1-1】
【0014】
【表1-2】
【0015】
[11] Frederik Ruelens他は、需要応答システムを制御するためのバッチ強化学習について説明している。これには、履歴観測値のシーケンスに基づいて学習する能力はない。この文献は、現在の観測値を所与として、プロセスの履歴に依存しない、すなわち、所与の時刻tにおいて、現在の観測値Xtが目標システムを最適に制御するためのすべての関連情報を含むと仮定している。これは、観測および行動のプロセスが無記憶であり、マルコフ性に従うことを要求することによって述べることができる。しかし、多くの現実世界のシステムは、このマルコフ性を有しない。このようなシステムでは、現在の観測値では最適な制御行動を決定するには十分ではない。これは、システムが部分的にのみ観測可能であり、履歴観測値から推測することしかできない隠れた状態を有することを意味する。これらの方法は、そのようなシステムを制御することはできない。
【0016】
[10] V.Menih他は、「Human level control through deep reinforcement learning」(Nature,vol 518,no 7540,25 February 2015,pages 529 to 533)において、状態−行動価値関数を表す畳み込みニューラルアーキテクチャを開示している。この設定では、マルコフ性は適用されない。V.Menih他は、経時的に特徴を学習することを考慮していない。履歴情報のシーケンスが記憶されるが、このシーケンスは、他の入力とは異なる方法で処理される別個の画像チャネル次元を使用して記憶される。チャネル次元は、ネットワークの畳み込みフィルタによって処理されない。これは、時間次元を除くすべての入力次元にわたるローカル相関を学習し、次にすべての時間ステップを単純に合計することになる。履歴観測値のシーケンス全体が、この合計によって平坦化される。これは、上位のネットワーク層が履歴情報にアクセスできなくなり、その情報をその出力の条件とすることができないことを意味する。この方法は、隣接する観察間の変化の検出(例えば、一連の画像内の動く物体の検出)には十分であるが、より複雑な時間依存パターンを学習することはできない。
【発明の概要】
【発明が解決しようとする課題】
【0017】
発明の概要
本発明の目的は、例えば、熱または電力分配などのエネルギー分配システムのような生産物分配システムの制御のための方法、制御装置およびシステム、ならびに、処理エンジン上で実行されるときにそのような方法のいずれかを実行することができるソフトウェアを提供することである。特に、システムモデルに基づいてエネルギー分配システムのような生産物分配システムを制御することには、異なる各設備に対して適切なシステムモデルを開発しなければならないという問題がある。システムが変更された場合、モデルはその変更に適合する必要がある。本発明の目標は、システムモデルを開発する必要性を回避することである。
【課題を解決するための手段】
【0018】
需要応答システムは、従来、ページングを使用してリモートスイッチを制御している。本発明の実施形態は、装置または装置のクラスタとネットワークの制御機能との間の双方向通信を提供する。この制御機能は、中央制御装置および/またはクラスタ制御装置および/または装置制御装置および/またはレガシ装置制御装置を含むことができる。
【0019】
したがって、一態様では、本発明は、需要応答システム内のクラスタにグループ化された制約付きクラスタ要素に分配されるべき物理生産物の需要を制御するコンピュータベースの方法を提供し、方法は、
強化学習(RL)の形態の制御技法を使用して次の制御ステップ中に制約付きクラスタ要素に分配されるべき物理生産物の量を決定するステップであって、結果、制御技法が、制御されるべき需要応答システムとの相互作用から学習する、決定するステップを含み、
方法は、畳み込みニューラルネットワークに、需要応答システムの少なくとも1つのクラスタの履歴観測値、または、1つもしくは複数の2D(二次元)グリッド構造に集約された履歴観測値の派生物を入力する、特徴抽出ステップを含み、2Dグリッド構造の1つの次元は複数の時間ステップを表し、他方の次元は複数の時間ステップにおけるクラスタ状態を捕捉し、クラスタ状態は、各時間ステップについて少なくとも1つのクラスタ内のクラスタ要素のローカル状態を集約することによって表され、畳み込みニューラルネットワークは、2D畳み込みを実行し、ローカル時間と、2Dグリッド構造におけるクラスタ要素の集約されたローカル状態変化との組み合わせから、ローカル畳み込み特徴を抽出することを学習し、
方法は、
第1のニューラルネットワークに、少なくとも抽出されているローカル畳み込み特徴を入力するステップであって、第1のニューラルネットワークは、少なくとも1つのクラスタがある状態にあることと、ある行動をとることとの各組み合わせに関連する少なくとも1つのクラスタの値を提供する状態−行動価値関数の少なくとも近似値を出力する、入力するステップと、
制御行動を決定または計算するステップであって、制御行動は、ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせであるか、または、ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせから導出される、決定または計算するステップと、
制御行動に従って次の制御ステップ中にクラスタ要素によって消費または解放されるべき物理生産物の目標量を分配するステップとをさらに含む。第1のニューラルネットワークは、完全結合ニューラルネットワークとすることができる。
【0020】
集約された入力データの使用は、制御問題の次元を減少させる。畳み込みネットワークの使用は、入力データにおける相関に依拠し、必要とされる演算強度を低下させ、訓練時間を短縮する。第1の完全結合ニューラルネットワークを、畳み込みニューラルネットワークの前もって処理された出力を引き継ぐ第2のニューラルネットワークに限定することによっても、必要とされる演算強度が低下し、訓練時間が短縮する。
【0021】
本発明の実施形態は、ネットワークの外観を可能にする。個々の消費者装置または装置のクラスタとエネルギー分配ネットワークとの間の双方向通信を使用して、ネットワークはエンドツーエンドの可視性を有し、消費者施設からヘッドエンドまでのインフラストラクチャの完全な絵図を有するだけでなく、畳み込みニューラルネットワークによって抽出される時間パターンの完全な絵図をも有する。
【0022】
制御技法は好ましくはモデルなしである。これにより、複雑なシステムモデルを調査し構築する必要がなくなり、実際、システムモデルが知られていない場合にも本発明を使用することが可能になる。
【0023】
状態−行動価値関数は、Q関数(Q(x,u))とすることができる。このアルゴリズムは迅速に収束することが分かっている。
【0024】
制御行動および外因性状態情報は、好ましくは、第1のニューラルネットワークへの入力として結合された第2のニューラルネットワークに入力される。この方法はまた、外因性状態情報および制御行動を、畳み込みニューラルネットワークの抽出された畳み込みローカル特徴とマージするステップを含むことができる。これは、外因性情報が外部温度および時刻などの関連する値を含むだけでなく、制御行動も含むため、有利である。これにより、制御装置はQ関数の近似値を出力として学習することができる。
【0025】
外因性状態情報および制御行動を畳み込みニューラルネットワークの抽出された畳み込みローカル特徴とマージする前に、別個の特徴抽出を実行することができ、外因性状態情報および制御行動が最初に第2のニューラルネットワークに供給され、この第2のニューラルネットワークは、外因性状態情報および制御行動を、次の隠れ層において抽出された畳み込みローカル特徴と組み合わされる学習された内部表現にマッピングする。これは、制御行動を含む外因性情報が、制御装置がQ関数の近似値を出力として学習することを可能にする方法のさらなる発展として有利である。
【0026】
第2のニューラルネットワークは完全結合とすることができる。外因性データの次元は通常低いため、第2ニューラルネットワークは、計算時間または訓練時間を実質的に増加させることなく、完全結合とすることができる。
【0027】
隠れた層は完全結合とされる。これは上位層であるため、計算時間または訓練時間を実質的に増加させることなく、完全結合とすることができる。
【0028】
畳み込みニューラルネットワークは、最初に、2Dグリッド構造におけるパターンを捕捉し、畳み込みニューラルネットワークならびに第1のニューラルネットワークおよび第2のニューラルネットワークは、集約されたクラスタ状態および制御行動を含む外因性データから目標量へのマッピングを学習する。異なるタイプのニューラルネットワークを組み合わせることで、このステップが効率的になる。
【0029】
2Dグリッド構造は、固定された時間ステップでのクラスタ状態のすべての観測値を表す1つの次元を有し、第2の次元は、すべての時間ステップにおけるクラスタ要素の複数の状態変数の各々の値の時間変化に対応し、2D特徴抽出動作は、時間および空間にわたって適用され、結果として状態情報および履歴においてローカル構造を識別する時空間特徴が識別される。時間にわたって良好に動作する必要のある需要応答制御システムでは、時空間特徴の識別が重要である。
【0030】
この方法では、複数の時間ステップにわたって生じる状態値の変化を表す特徴を学習することができる。学習された特徴は、第1の完全結合ニューラルネットワークの両方のより上位のネットワーク層によって入力として使用される。これにより、1つの入力からは見つけられない相関を決定することができる。
【0031】
畳み込みネットワークならびに第1のニューラルネットワークおよび第2のニューラルネットワークはともに訓練される。これは効率的な訓練方法である。
【0032】
本発明は、需要応答システム内のクラスタにグループ化された制約付きクラスタ要素に分配されるべき物理生産物の需要を制御するための制御装置またはコンピュータネットワークアーキテクチャをも提供し、制御装置またはアーキテクチャは、
強化学習(RL)の形態の制御技法を使用して次の制御ステップ中に制約付きクラスタ要素に分配されるべき物理生産物の量を決定するための手段であって、結果、制御技法が、制御されるべき需要応答システムとの相互作用から学習する、決定するための手段と、
畳み込みニューラルネットワークに、需要応答システムの少なくとも1つのクラスタの履歴観測値、または、1つもしくは複数の2Dグリッド構造に集約された履歴観測値の派生物を入力するように適合されている、特徴を抽出するための手段であって、2Dグリッド構造の1つの次元は複数の時間ステップを表し、他方の次元は複数の時間ステップにおけるクラスタ状態を捕捉し、クラスタ状態は、各時間ステップについて少なくとも1つのクラスタ内のクラスタ要素のローカル状態を集約することによって表され、畳み込みニューラルネットワークは、2D畳み込みを実行するように適合されており、ローカル時間と、2Dグリッド構造におけるクラスタ要素の集約されたローカル状態変化との組み合わせから、ローカル畳み込み特徴を抽出することを学習し、
畳み込みニューラルネットワークは、
第1のニューラルネットワークに、抽出されているローカル畳み込み特徴を出力するように適合されており、
第1のニューラルネットワークは、少なくとも1つのクラスタがある状態にあることと、ある行動をとることとの各組み合わせに関連する少なくとも1つのクラスタの値を提供する状態−行動価値関数の少なくとも近似値を出力するように適合されている、特徴を抽出するための手段と、
ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせであるか、または、ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせから導出される制御行動を決定または計算するための手段と、
制御行動に従って次の制御ステップ中にクラスタ要素によって消費または解放されるべき物理生産物の目標量を分配するための手段とを備える。
【0033】
第1のニューラルネットワークは、完全結合ニューラルネットワークとすることができる。制御技法はモデルなしとすることができる。
【0034】
好ましくは、状態−行動価値関数は、Q関数(Q(x,u))である。
分配されるべき生産物は、熱エネルギーまたは電力であり得る。
【0035】
好ましくは、第2のニューラルネットワークは、制御行動および外因性状態情報を、第1のニューラルネットワークへの入力として結合された第2のニューラルネットワークに入力することを可能にするように適合されている。
【0036】
好ましくは、外因性状態情報および制御行動を、畳み込みニューラルネットワークの抽出された畳み込みローカル特徴とマージすることができる。
【0037】
好ましくは、外因性状態情報および制御行動を畳み込みニューラルネットワークの抽出された畳み込みローカル特徴とマージする前に、別個の特徴抽出が実行され、外因性状態情報および制御行動が最初に第2のニューラルネットワークに供給され、この第2のニューラルネットワークは、外因性状態情報および制御行動を、次の隠れ層において抽出された畳み込みローカル特徴と組み合わされる学習された内部表現にマッピングする。
【0038】
好ましくは、第2のニューラルネットワークおよび隠れた層は完全結合とされる。
畳み込みニューラルネットワークは好ましくは、最初に、2Dグリッド構造におけるパターンを捕捉するように適合されており、畳み込みニューラルネットワークならびに第1のニューラルネットワークおよび第2のニューラルネットワークは、集約されたクラスタ状態ならびに外因性データおよび制御行動から目標量へのマッピングを学習するように適合されている。
【0039】
好ましくは、2Dグリッド構造は、固定された時間ステップでのクラスタ状態のすべての観測値を表す1つの次元を有し、第2の次元は、すべての時間ステップにおけるクラスタ要素の複数の状態変数の各々の値の時間変化に対応し、2D特徴抽出動作は、時間および空間にわたって適用され、結果として状態情報および履歴においてローカル構造を識別する時空間特徴が識別される。
【0040】
好ましくは、学習されている特徴は、複数の時間ステップにわたって生じる状態値の変化を表す。学習されている特徴は、好ましくは、少なくとも第1の完全結合ニューラルネットワークおよびまた随意選択的に第2のニューラルネットワークの上位ネットワーク層によって入力として使用される。
【0041】
畳み込みネットワークならびに第1のニューラルネットワークおよび第2のニューラルネットワークは、それらが同時に訓練され得るように適合されることが好ましい。
【0042】
本発明は、需要応答システム内のクラスタにグループ化された制約付きクラスタ要素に分配されるべき物理生産物の需要を制御するための制御装置をも提供し、制御装置は、
強化学習(RL)の形態の制御技法を使用して次の制御ステップ中に制約付きクラスタ要素に分配されるべき物理生産物の量を決定するための手段であって、結果、制御技法が、制御されるべき需要応答システムとの相互作用から学習する、決定するための手段と、
畳み込みニューラルネットワークに、需要応答システムの少なくとも1つのクラスタの履歴観測値、または、1つもしくは複数の2Dグリッド構造に集約された履歴観測値の派生物を入力するように適合されている、特徴を抽出するための手段であって、ステップを含み、2Dグリッド構造の1つの次元は複数の時間ステップを表し、他方の次元は前記複数の時間ステップにおけるクラスタ状態を捕捉し、クラスタ状態は、各時間ステップについて少なくとも1つのクラスタ内のクラスタ要素のローカル状態を集約することによって表され、畳み込みニューラルネットワークは、2D畳み込みを実行するように適合されており、ローカル時間と、2Dグリッド構造におけるクラスタ要素の集約されたローカル状態変化との組み合わせから、ローカル畳み込み特徴を抽出することを学習し、
畳み込みニューラルネットワークは、
1のニューラルネットワークに、抽出されているローカル畳み込み特徴を出力するように適合されており、
第1のニューラルネットワークは、少なくとも1つのクラスタがある状態にあることと、ある行動をとることとの各組み合わせに関連する少なくとも1つのクラスタの値を提供する状態−行動価値関数の少なくとも近似値を出力するように適合されている、特徴を抽出するための手段と、
ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせであるか、または、ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせから導出される制御行動を決定または計算するための手段と、
制御行動に従って次の制御ステップ中にクラスタ要素によって消費または解放されるべき物理生産物の目標量を分配するための手段とを備える。
【0043】
本発明はまた、処理エンジン上で実行されると、本発明の方法のいずれかを実行するように適合されているコードを備えるコンピュータプログラム製品をも提供する。非一時的機械可読信号記憶手段が、コンピュータプログラム製品を格納することができる。
【0044】
本発明の実施形態は、需要応答アプリケーションのための目に見えない状態にわたってデータを外挿する効率的な方法である深近似アーキテクチャを使用して、例えば熱または電力配分がその一例である、エネルギー分配システムなどの生産物分配システムのような分配システムの制御のための方法、制御装置またはシステム、および、処理エンジン上で実行されると、そのような方法のいずれかを実行することができるソフトウェアを提供する。
【0045】
本発明の実施形態は、例えば熱または電力配分がその一例である、エネルギー分配システムなどの生産物分配システムのような分配システムの制御のための方法、制御装置またはシステム、および、処理エンジン上で実行されると、そのような方法のいずれかを実行することができるソフトウェアを提供するために、制御装置が制御されるべきシステムとの相互作用から学習するために、従来技術の問題を少なくとも部分的に緩和する、主に強化学習(RL)の形態のモデルなし制御技法を提供する。
【0046】
本発明の実施形態は、以下の2つの問題の少なくとも1つに対処する方法、システムまたは制御装置を提供する。
【0047】
1.部分的な情報:モデルなし制御装置は直接測定に基づいて行動をとるため、ECFなどの装置クラスタの動態に関連する隠れた観測値を考慮する必要がある。本発明の実施形態は、直前に測定された現在の時点「t」の状態値だけでなく、時点「t−2T」,「t−T」,…t」などにおいて以前に測定された状態をも含む状態の入力に完全情報ベクトルを加えることによってこれを是正する。
【0048】
2.次元性
本発明の実施形態は、高次元性の状態記述を回避するという問題に対処する。集約されたレベルにおいて、集約された状態次元は減少することができるが、異種成分からなるクラスタについては、例えば10の時間ステップにおいて履歴情報を考慮しながら、依然として、典型的には10の状態次元(例えば10のエネルギー状態)を必要とする。これにより、状態次元は少なくとも100になり、これは、それらがMDP形式に基づいて構築される場合、典型的なRLアルゴリズムの範囲外である。単一のECFシステムであっても、同じ問題が生じる。履歴情報、例えば10の時間ステップを考慮に入れる10個の温度センサを備える温水貯蔵槽は同じ問題を抱えている。
【0049】
すなわち、状態次元が100であり、各次元が例えば10個の値を有し得る場合、これによって、目に見える宇宙にある原子よりも多い10100の可能な状態が生じる。このような状態次元は、計算するのが容易でない。
【0050】
浅いニューラルネットワークは一般的な機能近似能力を提供するが、本発明の実施形態は、ディープアーキテクチャを使用することによって、非常に複雑な機能を効率的に表す問題に対処する。ディープニューラルネットワークは、入力のますます抽象的な表現を生成する複数の非線形変換を含む。これらの変換により、ネットワークは所望の機能をより容易に表すことができる。さらに、本発明の実施形態で使用されるより深いアーキテクチャと比較して、浅いアーキテクチャが指数関数的により大きな容量を必要とする機能が存在することが示され得る。
【0051】
本発明の実施形態は、深近似アーキテクチャを使用して制約付き柔軟性ソースのクラスタの需要応答を決定するために隠れ状態情報および外因性情報を組み込む。外因性情報は必ずしも含まれるとは限らず、好ましくは、装置の状態情報と同様にシステムに含まれない。深近似アーキテクチャは、好ましくは、畳み込みニューラルネットワーク(CNN)に基づく深回帰アーキテクチャである。畳み込みニューラルネットワークは、2D入力グリッドを有し、本発明の実施形態は、状態定義内に、測定されている状態の履歴またはこの派生物を含む。このデータに畳み込みニューラルネットワークアーキテクチャを適用するために、追加の特徴抽出ステップが含まれることが好ましい。システムの履歴観測値は、1つの次元が時間ステップを表し、他方の次元が、クラスタ状態として参照される、クラスタ要素にわたるエネルギー状態などのパラメータの状態の分布を捕捉する2次元グリッド構造において集約される。クラスタ状態の次元は、データを集約することによって低減することができる。例えば、集約方法は、ローカルエネルギー状態(温度、電池容量、充電状態(SoC)、健康状態(SoH)など)のようなローカルパラメータに従ってクラスタ要素をビニングすることであり得る。複数の2Dグリッドを同時に入力することができる。例えば、クラスタ挙動が相関する可能性が高い場合、各々がN個のクラスタからなるクラスタのための複数の2Dグリッドを並列に入力することができる。例えば、1つの2DグリッドはEVのクラスタに対応してもよく、別の2Dグリッドはサーモスタット制御負荷(TCL)のクラスタに対応してもよく、また別の2Dグリッドは原子力発電所のクラスタに対応してもよく、これらのクラスタはすべて電力を消費する。
【0052】
本発明の実施形態は、畳み込みネットワークを使用して、時空間特徴を識別または抽出することを可能にするデータ内のローカル構造を探す。入力データの集約方法は、この特徴抽出をサポートするように設計されることが好ましい。
【0053】
時間ステップデータおよび集約データは、畳み込みニューラルネットワークへの入力として使用される2Dグリッドを構成する。ネットワークにおいて、2D入力グリッドは、ローカル時間および状態変動にわたって特徴を抽出することを学習する畳み込みニューラルネットワークの2D畳み込み演算によって動作される。開発されるアルゴリズムは、例えば、http://xxx.lanl.gov/abs/1507.03638で論じられているような、Fitted Q−iteration(FQI)とすることができる。CNNの出力は、第1の完全結合ニューラルネットワークに供給される。後者のニューラルネットワークの出力は、好ましくは、状態にあること「x」および行動「u」を取ることの価値を提供する、Q関数(Q(x,u))のような状態−行動価値関数の近似である。この情報はその後、次の時間ステップのための提案されている制御行動である制御行動を決定、例えば計算するために使用する。制御行動は、外因性データとともにフィードバックされ、第2の完全結合ネットワークに入力され、そのネットワークの出力は、第1の完全結合ニューラルネットワークに供給され、そこで、畳み込みニューラルネットワークの出力とマージされる。
【0054】
畳み込みニューラルネットワークは、学習可能な重みおよびバイアスを有するニューロンから構成されている。各ニューロンは、いくつかの入力を受け取り、ドット積を実行し、随意選択的に、それを非線形的に追跡する。ネットワーク全体は、依然として1つの微分可能なスコア関数を表現している。入力は1つまたは複数の2Dグリッドであり、出力は、好ましい結果に基づいて次の制御行動を計算するために使用することができるクラススコアである。
【0055】
畳み込みニューラルネットワークは、2次元グリッドを入力として使用し、フォワード機能をより効率的に実行し、ネットワーク内のパラメータの量を大幅に削減する。特に、畳み込みニューラルネットワークの層は、3次元、すなわち幅、高さ、深さに配列されたニューロンを有する。ある層のニューロンは、完全結合方法でのようにすべてのニューロンの代わりに、その前の層の小さな領域にのみ結合される。さらに、畳み込みニューラルネットワークの最終出力層は、深さ次元に沿って配置されたクラススコアの単一のベクトルである。
【0056】
本発明の実施形態は、第1の畳み込みネットワークと、それに続く第2の完全結合ニューラルネットワークとを利用する。完全結合ニューラルネットワークは、第1の畳み込みニューラルネットワークからの入力を受け取り、それを一連の隠れ層を通して変換する。各隠れ層はニューロンのセットから構成されており、各ニューロンは前の層のすべてのニューロンに完全結合されており、単一の層内のニューロンは完全に独立して機能し、いかなる結合も共有しない。最後の完全結合層は「出力層」と呼ばれ、クラススコアを出力する。
【0057】
畳み込みニューラルネットワークのすべての層は、1つのボリュームの活性化を、微分可能な関数を介して別のボリュームに変換する。本発明の実施形態によって使用することができる畳み込みニューラルネットワークアーキテクチャを構築するために、3つの主要なタイプの層、すなわち、
畳み込み層、ReLU層、および完全結合層を使用することができ、結果、外因性データの入力に追加の小さな完全結合層が使用される。これらの層のスタックは、本発明の実施形態において使用される畳み込みニューラルネットワークアーキテクチャを形成する。入力は2Dグリッドデータを保持する。
【0058】
畳み込み層は、2Dグリッドにおいて特徴認識を行う。この層のパラメータは、学習可能なフィルタのセットからなる。すべてのフィルタは幅と高さに沿って小さいが、入力ボリュームの深さ全体を通じて延伸する。各フィルタは、入力ボリュームの幅および高さにわたって畳み込まれ、そのフィルタの2次元活性化マップが作成される。ドット積が、フィルタのエントリと入力との間で計算されることができる。各ニューロンは、入力ボリュームのローカル領域にのみ結合されている。この結合の空間的範囲は、ニューロンの受容野と呼ばれるハイパーパラメータである。深さ軸に沿った結合の範囲は、常に入力ボリュームの深さに等しい。ネットワークは、入力内のある空間/時間位置において何らかの特定の種類の特徴を確認すると活性化するフィルタを学習する。これらの活性化マップを深さ次元に沿ってすべてのフィルタについて積み重ねると、出力ボリューム全体が形成される。したがって、出力ボリューム内の各エントリは、入力内の小さな領域のみを調べ、同じ活性化マップ内のニューロンとパラメータを共有するニューロンの出力として解釈することもできる。
【0059】
ReLU層は、使用されるべき活性化機能として作用する。しかしながら、本発明はこれに限定されず、当業者は、シグモイド、線形、双極正接、ラジアル基底関数、ソフトプラスおよびソフトマックス、および異なる方言のような他の層を使用することができる。プーリング層は、安定性を高めるのに役立ち得る随意選択の層である。
【0060】
本発明の実施形態で使用するための畳み込みニューラルネットワークアーキテクチャが、図1および図4に示されており、これは、1つまたは複数の2Dグリッド12と、畳み込み層、ReLU層、ならびに第1のニューラルネットワーク15および第2のニューラルネットワーク17内の完全結合層を有する畳み込みニューラルネットワーク14を有する畳み込みニューラルネットワークアーキテクチャ20とを有する。畳み込み層は、入力内のローカル領域13aに結合されたニューロン13bの出力を計算し、各ニューロンはそれらの重みと、入力ボリューム内でそれらが結合されている領域との間のドット積を計算する。ReLU層は、要素単位の活性化関数を適用する。完全結合層はクラススコアを計算する。
【0061】
プーリング層をネットワークに追加することができる。プーリングは変換不変性を導入し、物体検出には良好に機能するが、引き換えに位置情報を失うことになる。1つの選択肢は、時間次元にわたってプーリングを拡張することである。
【0062】
LSTM(長短期記憶)層も使用できる。このとき、LSTMは時間依存性を学習する役割を担う。
【0063】
本発明の実施形態は、システムの動態がモデル化することが困難または面倒である分配システムに適用することができる。隣接する状態は相関性を有する。すなわち、状態N+1は、畳み込みニューラルネットワークが時空間特徴を抽出するためにこれを利用するとき、状態Nの動態にいくらかの影響を及ぼさなければならない。
【0064】
本発明の実施形態は、隠れ情報がある場合に有利に機能する。言い換えれば、現在の状態を観察することによって直接そのような情報を特定することは不可能である。本発明の実施形態は、隠れ状態情報が長期の時間依存性を有する場合に有利に機能する。本発明の実施形態のニューラルアーキテクチャ20は、隠れ状態を通じて現在の行動に影響を及ぼすが、現在の観察ではもはや見ることができない、履歴内のイベントを検出することができる。
【0065】
本発明の実施形態で使用されるものとしては、状態情報には、履歴クラスタ状態だけでなく、温度、時刻、太陽照射、適用されている制御行動もある。すべてが同等に関連することができ、好ましくは同じレベルで統合される。外因性情報がアーキテクチャのより深くに追加される。本発明の実施形態は、例えば、外部温度または曜日などの追加の状態情報を使用する。この外因性情報は、好ましくは、例えば連結された集約の形で入力される状態−時間特徴とは異なる方法で処理される。外因性情報は状態−時間行列に加えられるのではなく、代わりに畳み込み層の後の高次のニューラルネットワークアーキテクチャにマージされる。
【0066】
外因性状態情報およびまた任意の制御行動は、最初に1つの特徴抽出層自体を通過した後、アーキテクチャ内でより高次に追加される。典型的には、次元はかなり小さく、例えば4から5の次数であり、ローカル相関を仮定することは妥当ではないため、畳み込みを適用する必要はない。その代わりに、完全結合ニューラルネットワーク15内の畳み込みニューラルネットワーク14の出力とマージする前に、標準的な、むしろ密集した小さなニューラルネットワーク17がいくつかの特徴を抽出するために使用される。
【0067】
したがって、本発明の実施形態は、ニューラルネットワークアーキテクチャ20を使用し、後に最上位層にマージされる2つの別個のネットワーク構成要素から構成される。外因性情報を畳み込み特徴抽出とマージする前に、この情報を処理するために別個の特徴抽出が使用される。履歴クラスタ状態−時間情報が畳み込みネットワーク14によって処理されている間に、外因性状態情報が最初に標準的な完全結合フィードフォワードネットワーク17に供給される。このネットワーク17は、外因性状態情報を学習されている内部表現にマッピングし、次にそれを次の完全結合隠れ層内の畳み込み特徴と組み合わせることができる。表現を履歴クラスタ状態とマージする前に、具体的に学習することにより、ネットワークが、最初に別々のデータ入力におけるパターンを捕捉し、結合クラスタ状態および外因性データから目標出力へのマッピングをより容易に学習することができる。
【0068】
時間情報の組み込み
履歴状態観測値は、1つの次元が固定された時間ステップにおけるシステムまたは装置状態を表し、第2の次元が経時的な変化に対応する2Dグリッド12として表される。すなわち、グリッドの列cは、時点cにおけるシステム状態のすべての観測値を与え、行rは、すべての時間ステップにおけるr番目の状態変数の値を与える。得られる2Dグリッドは、状態情報の履歴を値にマッピングする畳み込みニューラルネットワーク(CNN)14への入力として使用される。時間および状態の次元は同じ方法で扱われ、2D畳み込み演算は時間および空間にわたって適用される。これは、入力状態情報および履歴におけるローカル構造を識別する時空間特徴の識別をもたらす。これにより、複数の時間ステップにわたって発生するイベント(例えば、状態値の変化)を表す特徴を容易に学習することができる。これらの機能は、その後、上位のネットワーク層によって入力として使用できる。本発明の実施形態の特定の態様は、状態および時間の次元が同じように扱われ、ネットワークが状態および時間の次元にわたって畳み込み演算を適用することである。これは、ネットワークが、状態と時間にわたってローカル機能を識別することを学習することを意味する。
【0069】
経時的なシステム状態の展開11が正弦波形状をしている、図1の例を考える。時間次元をCNN14に対する別の画像入力次元として扱うことにより、経時的なローカル展開を捕捉し、曲線の形状を容易に識別する特徴を学習することができる。
【発明の効果】
【0070】
本発明の実施形態におけるディープアーキテクチャを使用する利点は、動態に関連する観察不可能な特徴を「学習」するために、履歴情報を含むように状態記述を拡張することを可能にすることである。さらに、異種成分からなるクラスタに関連する完全な状態分布を含めることができる。
【0071】
本発明の1つの態様は、畳み込みニューラルネットワークによって処理されるべきグリッド構造内に前処理された履歴情報を格納することである。履歴情報をグリッド構造へと前処理することにより、方法またはシステムは、時間次元にわたってローカル相関を学習することができる。これは、このグリッドを畳み込みニューラルネットワークに渡すことによって実装され、畳み込みニューラルネットワークは、この時点で、経時的なローカル相関(すなわち特徴)を抽出することができる。最終的なニューラルネットワークは、畳み込みネットの出力を処理して、明示的に、抽出された履歴特徴を制御行動の条件とする。したがって、時間次元は、他の入力信号と同じように扱われ、別個のチャネル次元に追加されない。ローカル相関は、この時点で、時間と他のすべての入力次元の両方で学習されている。これは、経時的なパターンを表す特徴を抽出することを学習する効果を有する。これにはいくつかの利点がある。
【0072】
本発明による方法またはシステムは、経時的に入力がどのように変化するかのパターンを示す履歴情報の特徴を抽出することができる。
【0073】
本発明による方法またはシステムは、単に時間次元にわたって特徴を合計することによって検出することができないパターンを示すことができる。
【0074】
本発明による方法またはシステムは、より長い時間シーケンスからより多くの情報を抽出することができる。
【0075】
本発明による方法またはシステムは、時間関連情報を明示的に扱い、この情報はニューラルネットワークアーキテクチャを通過し、制御装置がこの情報を制御出力の条件とすることを可能にする。
【0076】
本発明による方法またはシステムは、最新の観測ではもはや見ることができない関連する履歴情報を抽出することができる。
【図面の簡単な説明】
【0077】
図1】本発明の一実施形態によるニューラルネットワークアーキテクチャの概略図である。
図2】本発明の一実施形態による3段階プロセスの概略フロー図である。
図3A】本発明の一実施形態によるニューラルネットワークアーキテクチャを適用したときの時間に対するTCL母集団の分布の展開を示す図である。
図3B図3のTCL母集団の経時的な集約電力を示す図である。
図4】本発明の一実施形態による別のニューラルネットワークアーキテクチャの概略図である。
図5】本発明の実施形態と共に使用するアルゴリズム1のフローを示す図である。
図6】本発明の実施形態と共に使用するアルゴリズム2のフローを示す図である。
図7】本発明の実施形態とともに使用するための学習プロセスを示す図である。一番上の行には、選択されたいくつかの日の隠れ特徴を考慮してポリシによって計算される状態−時間特徴から導き出される制御行動がある。中央の行は、状態特徴のみがあり、状態−時間特徴がないことを除いて同じである。下側のグラフは、外部気温(外因性的データ)を示している。
図8】本発明の一実施形態によるニューラルネットワークアーキテクチャを適用するときの履歴情報を含むか否かを問わない、累積コストを示す図である。グラフは、数回の実行にわたって計算された上限値および下限値を示す。
図9】本発明の一実施形態による供給ネットワークを示す図である。
図10】本発明の実施形態のいずれかと共に使用する消費者装置を示す図である。
図11】本発明の実施形態のいずれかと共に使用する消費者装置を示す図である。
図12】本発明の実施形態のいずれかと共に使用する消費者装置を示す図である。
図13】本発明の実施形態のいずれかと共に使用する消費者装置を示す図である。
図14】本発明の一実施形態によるシステムの状態に基づく電気需要の操作を示す図である。
図15】本発明の一実施形態によるレガシ装置をどのように含むかを示す図である。
図16】本発明の一実施形態によるネットワークの操作を示す図である。
【発明を実施するための形態】
【0078】
定義
本発明で使用される「生産物」または「物理生産物」は、市場の要望または必要性を満足する品目の消費または送達を含むよう広く解釈されるべきである(https://en.wikipedia.org/wiki/Product)。このような生産物は、液体、気体もしくは固体の物質、ならびに光もしくは他の形態の放射、熱もしくは電気エネルギーなどのエネルギー、または電気通信ネットワークにおける通話などの信号のいずれかとすることができる。本文に記載された例は、電力または加熱力の供給を含む。他の例は次のとおりである。
【0079】
本発明は、地球温暖化をモデル化するために使用することができ、それにより、状態観測変数は、異なる地理的領域における平均日中温度および/または平均夜間温度、日照時間などであり得る。クラスタは地球自体であってもよい。集約は、異なる(理想的には関連する)地理的領域からの観測データを結合するために適用される。報酬関数は、氷河の損失を遅らせること、または、海水面の上昇を低減することであり得る。分配されるべき項目は、地理的領域の二酸化炭素排出量である。
【0080】
本出願は、照明レーザ光が、例えば、レンズ特性などの光路内の材料の特性を時間とともに変化させる液浸リソグラフィに適用することができる。瞳形状は、例えば、数時間などの短い時間にわたって発生する光学的劣化などの、リソグラフィスキャナ内の動態に影響を与える。したがって、瞳面を集約し、1軸に時間を有する2Dグリッドとして入力することができ、レンズ特性などの材料特性の劣化に関連して時空間時間−状態特徴が抽出される。レンズの熱力学動態は遅く、時間−状態特徴が学習され、システムは、一時的であり、したがって瞳形状が正しく適合されれば時間とともに再び回復することができる、レーザ光によって誘発される伝送損失を補償するようにレーザエネルギーを制御する。制御行動は、レーザ光源を制御する。
【0081】
本発明は、例えば、補給所からの物品の送達などの物流に適用することができる。物品はクラスタ化することができ、例えば、医薬品のみが考慮される。種々の医薬品は、補給所に貯蔵された複数の治療単位を有する医薬品の数をビニングすることによって集約される。理想的には在庫を低く保つべきであるが、これは納期を悪化させる。治療単位は、制御行動に従って搬送される。
【0082】
本文中で使用される「可用性関数」という用語は、装置が消費することを所望するかまたは生産することができる電力またはエネルギーが、(2つだけを挙げると)消費されるべきまたは生産されるべき電力またはエネルギーの各レベルに割り当てられる優先度(すなわち、消費または供給する必要性)または充電状態のようなヒューリスティック変数の関数として定義される入札関数の形態に関する。各消費または製造装置について、優先度または充電状態などのヒューリスティック変数の値は、各電力もしくはエネルギー消費レベルごとまたは各電力もしくはエネルギー生成レベルに割り当てることができる。可用性関数は、エネルギーまたは電力消費または生成と、それらのエネルギーまたは電力消費または生成の優先度または充電状態の値などのヒューリスティック変数の値との間の関係を記述する。したがって、エネルギーフローを分配するために、優先度または充電状態の値などのヒューリスティック変数の値が割り当てられる。各装置の各電力またはエネルギー生成レベルの優先度または充電レベルのようなヒューリスティックの各値の割り当ては、装置上のインターフェースを使用して消費者が手動で割り当てることができ、またはエネルギー分配ネットワークオペレータによって割り当てることができ、またはこれらの任意の組み合わせとすることができる。
【0083】
例えば、エネルギーまたは電力を受け取り使用するユーザおよびユーザ装置は、好ましくは、優先度に関してエネルギーまたは電力の減少関数を割り当てることが必要とされる。多くのユーザ装置が大量のエネルギーまたは電力に高い優先度を割り当てることができると不均衡を引き起こす可能性があるため、高い優先度の割り当ては、少量のエネルギーまたは電力が供給されることに関連するべきである。したがって、ユーザ装置に供給されるべき電力またはエネルギーは、好ましくは、優先度のようなヒューリスティック変数に対する段階的減少関数または段階的単調減少関数のような減少関数である。同様に、ユーザ装置の充電状態が低いほど、ユーザ装置を充電する必要性が高くなるため、充電状態が低い場合は優先度が高く、充電状態が高い場合は優先度が低い。したがって、ユーザ装置に供給されるべき電力またはエネルギーは、好ましくは、ユーザ装置の充電状態のレベルに対する段階的減少関数または単調減少関数のような減少関数である。
【0084】
例示的な実施形態の説明
本明細書で使用される場合、単数形「a」、「an」および「the」は、文脈がそうでないことを明確に示さない限り、複数形も含むことが意図される。本明細書において使用される場合、用語「備える(comprises)」および/または「備えている(comprising)」は、記載された特徴、整数、ステップ、動作、要素および/または構成要素の存在を指定するが、1つまたは複数の他の特徴、整数、ステップ、動作、要素、構成要素、および/またはそれらのグループの存在または追加を除外しないことがさらに理解されよう。
【0085】
本発明の説明は、例示および説明のために提示されているが、網羅的であることは意図されておらず、または開示された形態の本発明に限定されるものではない。本発明の範囲および精神から逸脱することなく、多くの変更および変形が当業者には明らかであろう。以下に記載される実施形態は、本発明の原理および実際の適用を最も良く説明し、当業者が本発明、および、企図される特定の使用に適するような様々な修正を伴った他の実施形態についてのその適用を理解することを可能にするために選択され、記載されている。
【0086】
実施形態
本発明の実施形態について、図1図8を参照して説明する。図16は、本発明の実施形態によるネットワークの概観を示す。
【0087】
この実施形態の一例として、随意選択の集約状態表現に加えて、意思決定のために、従来のq学習[7]とは対照的に、fitted q iteration[8,9]−「FQI」が適用される。例えば、以下のような他の強化学習アルゴリズムの使用は、本発明の範囲内に含まれる。
【0088】
時間差学習ファミリー:
Q学習、SARSAおよび勾配TDアルゴリズムを含む価値関数のオンライン学習、
これらのうちのいくつかはシステムを制御しながら学習することができるが、学習は低速であり得る。
【0089】
そのような強化学習アルゴリズムは、Dyna(モデル学習)、シェーピング(ヒューリスティック知識)、経験再生、または優先掃き出し(サンプル再利用)などの技法と組み合わせて学習を加速することができる。
【0090】
ポリシ勾配ファミリー:
勾配降下を使用してパラメータ化されたポリシを最適化する。これは、(可能なポリシのセット内で)ローカル最適ポリシを学習する。例:ポリシ勾配、自然ポリシ勾配、PGPE(パラメータベースの探索を有するポリシ勾配)、REINFORCE。
【0091】
Actor−critic:価値関数とポリシの両方を学習する。例えば、自然actor−criticなど、TD習得とポリシ勾配アルゴリズムとの組み合わせであり得る。
【0092】
バッチ学習は、よりサンプル効率的であり得るが、オンラインでは学習しない。代わりにデータが収集され、新しいポリシが定期的に学習される。その間、現在のポリシが使用される。
【0093】
LSPI(最小二乗ポリシ反復):価値関数のシーケンスを得るための反復最小二乗フィッティング。これは高次元にスケーリングしない。
【0094】
FQI:この実施形態で使用されるもの。
PILCO:学習制御のための確率論的推論−ガウス過程を有するモデルを学習する。非常にサンプル効率的であるが、計算上非常に高価である。
【0095】
強化学習の目的は、ニューラルネットワークのより従来的な使用のような、教師なし学習における生の入力データから、教師あり学習または構造学習において入力サンプルから出力サンプルへのマッピングを学習するのとは対照的に、状態、行動、報酬サンプルの軌跡を使って逐次的意志決定を最適化することである。強化学習アルゴリズムは、必要な訓練の速度および必要な出力を提供するその能力に適したものであるように選択される必要がある。例えば、標準的なQ学習は文献に記載されることが多いが、収束特性は非常に貧弱である。例えば、Q学習の収束とFitted Q−iterationの収束との比較は、FQIがQ学習よりも約30倍速く最適解に達することを示している。
【0096】
本発明のこの実施形態による孤立したニューラルネットワークの訓練は教師あり問題として見ることができるが、標準的な教師あり設定と比較したこの実施形態で開示される主な相違点は、
ニューラルネットワークのシーケンスがともに訓練されること、例えば、畳み込みニューラルネットワークおよび完全結合ニューラルネットワークが一単位として訓練されることであり、ネットワークの目標出力はそれ自体、強化学習を使用して学習され、各ニューラルネットワークの目標は以前の反復で訓練された以前のネットワークの出力に依存する。
【0097】
したがって、訓練の監督は外部強化学習ループ内の内部ループと考えることができる。
本発明のこの実施形態は、図1図8を参照して以下の詳細な例で説明される。意思決定問題は、例えば、マルコフ決定過程(MDP)として形式化される。高次元状態表現11は、好ましくは、2D集約状態分布12の単一の(図1の参照符号12を参照)または並列系列(図4の参照符号12a〜12d参照)の時間ステップ化された一連の集約状態分布[6]を含む入力として使用することができる。好ましくは需要応答アプリケーションのためにカスタマイズされた畳み込みニューラルネットワークアーキテクチャ20[10]は、FQIにおいて回帰アルゴリズムを実行するために使用される。
【0098】
MDPは、その状態空間X、その行動空間U、および遷移関数fによって定義される。
【0099】
【数1】
【0100】
これは、制御行動u∈Uの下での、確率分布p(.,x)を有するランダム過程wk∈Wの影響を受ける、x∈Xからxk+1までの動態を記述する。
【0101】
各状態遷移に伴う報酬rは、以下のとおりである。
【0102】
【数2】
【0103】
通常、需要応答アプリケーションでは、特記しない限り、報酬の代わりにコスト(肯定的な報酬の逆数)があり、別途記述しない限り、ρがコストである。
【0104】
この実施形態の目的は、第1の状態xから始まるT段階(Tは時間)コストを最小化する制御ポリシh:X→Uを見出すことであり、このポリシはJ(x)によって表される。
【0105】
【数3】
【0106】
ここで、
【0107】
【数4】
【0108】
例えば、最適な制御ポリシh*は、ベルマン方程式を満たすことができる。
【0109】
【数5】
【0110】
状態空間Xは、例えば、複数のデータセット[6]、例えば、時間依存状態情報X、制御可能状態情報Xphys、および外因性(制御不能)状態情報Xexを含む。
【0111】
【数6】
【0112】
時間依存情報構成要素Xは、時間に関連する、すなわち、例えば、ナノ秒、マイクロ秒、ミリ秒、秒、分、日、月などの用途に適するような時間ステップにおける情報11を含む。本実施形態では、一日のうちの時間を使用することができる。
【0113】
【数7】
【0114】
時間ステップの大きさの選択は、入力データにおける関連する時空間的挙動パターンの識別を可能にすることと、演算密度の低減との間の妥協である。平日または休日または全国ストライキまたは大規模停電など、時間に関するより多くの特徴を追加することができる。
【0115】
【数8】
【0116】
【数9】
【0117】
【数10】
【0118】
外因性(例えば、制御不能および/または外部から課される)情報xex,kは、制御行動uに対して不変であり得るが、制御されるべきシステムの動態に影響を及ぼし得る。本発明では、外因性情報は、外部温度Tおよび/もしくは例えば内部加熱q(ただし、この実施形態では後者は利用できないと仮定される)のような温度、または、例えば、例として窓を通じた放射加熱をもたらす太陽放射照度S、または、制御されるべきシステムの動態に影響を及ぼす他の同様の外因性情報を含むか、または、それらから構成され得る。上記リストは、以下に示すように限定的でも網羅的でもない。
【0119】
【数11】
【0120】
少なくとも、例えば関連する外部温度などの温度または太陽放射照度、または内部加熱のようなこのまたはこれらの外因性情報は、ポリシhを構築するときに利用可能であると仮定される。曲折アクセント記号^は、予測を表すために使用される。
【0121】
この実施形態では、TCLがオフ/オン状態にあるかを示すバイナリ値として、各TCLに対する制御行動が示されている。
【0122】
【数12】
【0123】
予備的状態ベクトルは、(例えば、少なくとも少なくとも)以下のように定義することができる。
【0124】
【数13】
【0125】
この状態ベクトルは、例えば、動作温度T、または太陽放射照度などの観測可能な状態情報のみを含むため、状態ベクトルは、図1または図4の11からの観測されている履歴状態サンプルを追加することによって拡張することができる。
【0126】
【数14】
【0127】
【数15】
【0128】
ここで、θiは、安全性(熱水によってスケーリングされない)および/または快適性設定(温水が快適なシャワー体験を提供するために十分に熱い)または動作に関連し制御行動の範囲を制限するための他のパラメータなどの重要なパラメータに関するローカル情報の上限および下限に関する情報を含む。
【0129】
【数16】
【0130】
【数17】
【0131】
適切な報酬モデルは、畳み込みニューラルネットワークを訓練するために、すなわち上首尾の制御行動を定義するために定義されるべきである。TCLのような大規模なクラスタの装置を制御する場合、例えば、平衡信号またはエネルギー裁定取引を追跡することを考慮することができる。この実施形態では、エネルギー裁定取引が考慮される。上記で定義したように、各状態遷移に伴う報酬rは、以下のとおりである。
【0132】
【数18】
【0133】
【数19】
【0134】
この実施形態では、TClなどの装置のクラスタが外部コストまたは価格ベクトルλに応答すると仮定される。コストまたは価格への言及は、必ずしも実際の請求可能金額に関連するものではなく、むしろ制御機能を評価する目的のためのコストの値を割り当てる。例えば、この「コスト」は、行動によって生じる二酸化炭素の影響であってもよい。したがって、これは制御パラメータである。たとえば、コスト関数は次のように定義することができる。
【0135】
【数20】
【0136】
ここで、Pは、時間間隔Δtの間の、例えば空調装置などのTCLのような装置の平均電力消費量である。
【0137】
ここまでで最も重要な関係を定義したため、制御装置を含む本発明の実施形態である実施態様について説明する。図2に示すように、3つのステップ手法2,4,6、すなわち、第1のステップである集約2、第2のステップである最適化および特徴抽出4、ならびに第3のステップであるディスパッチまたは送達ステップ6が好ましい。
【0138】
ステップ1:問題の次元を減らすために、第1のステップ2が実行される。これが問題ではない場合、このステップを欠落させることができ、図1または図4の入力2Dグリッド12に実際の値を入力することができる。入力データのサイズを低減するために、TCL7a〜7d(図2)などのクラスタ要素の状態値11(図1および図4)を集約することが好ましい。第1のステップでは、すでに説明した状態情報xが、監視されるべきシステムから取り出される。
【0139】
【数21】
【0140】
【数22】
【0141】
したがって、予備的な最終集約状態ベクトルは、以下のとおりである。
【0142】
【数23】
【0143】
後の第3のステップ、すなわちディスパッチまたは送達ステップ6を容易にするために、TCL7a〜7dのようなすべての装置に対して可用性関数が定義される。図2に示すような第2のステップ4に見られる、または、図1もしくは図4の出力18から得られる制御行動5は、理想的な状況においてシステムによって完全に満たされ得る。しかし、これは要求されているすべての電力が供給され得ることを必要とする。実際の状況では、これは必ずしも当てはまるわけではないため、例えば電力などの要求された量の生産物を供給するための実際の能力を考慮に入れた、例えば電力などの送達可能な生産物の可用性関数を許容する必要がある。したがって、装置の可用性関数は、TCLのような装置がどのようにして容易に、例えば市場からの電力のようなパワーなどの送達可能な生産物を得ることができるかに関する。この可用性関数は、例えば、TCL iのような各装置について以下の式に従って、消費される、例えば電力のようなパワーなどの送達可能な生産物対ヒューリスティック(p)として表すことができる。
【0144】
【数24】
【0145】
Hはヘビサイド関数に対応し、Pは、例えば、電源投入時にTCLなどの各装置によって消費される電力などの送達可能な生産物に対応する。
【0146】
【数25】
【0147】
【数26】
【0148】
【数27】
【0149】
【数28】
【0150】
【数29】
【0151】
回帰ステップを実行するために、以下のアルゴリズムが使用される。各制御ステップの間、制御行動uは、以下により定義される確率によって選択される。
【0152】
【数30】
【0153】
【数31】
【0154】
【数32】
【0155】
ここでは2D畳み込み演算を表し、xは層入力であり、bはバイアス項であり、σ(シグマ)は非線形活性化関数である。ディープアーキテクチャを得るために、複数の層を積み重ねることができる。畳み込み層は随意選択的に、入力をダウンサンプリングして一定量の変換不変性をネットワークに導入するプーリング層と交互にすることができる。畳み込みニューラルネットワーク14は、b個のビンに対応する入力グリッド12の1つの次元と、N個の前の時間ステップにおける観測値を表す他の次元とを有する2Dグリッドの形態のビニングされた
【0156】
【数33】
【0157】
を処理する。時間および状態の次元は等しく扱われ、2D畳み込み演算は両方の次元にわたって適用される。これは、入力グリッドが2Dグリッド内に時間次元を一切有しない2D画像である畳み込みニューラルネットワークの以前のアプリケーションとは異なる。一連の時間ステップにおいて量子化された時間次元である1つの軸を有する2Dグリッドを導入することによって、状態情報およびその履歴においてローカル構造を識別する時空間的特徴を識別することができるようになる。これにより、ネットワーク20は、複数の時間ステップにわたって発生するイベントに対応する特徴を識別することが可能になる。畳み込みニューラルネットワーク14において抽出されたこれらの特徴は、その後、完全結合ニューラルネットワーク15内の上位ネットワーク層によって入力として使用される。追加の外因性入力値xex,kおよび制御行動uは、入力16として別個の完全結合フィードフォワードアーキテクチャ17に供給される。多層パーセプトロン17は、最初に、入力を中間表現にマッピングする。この隠れ表現は、次いで、畳み込みニューラルネットワーク14の出力と組み合わされ、両方のネットワーク14,17の出力は、完全結合層15にマージされる。最後の線形出力層19は、結合された隠れ特徴を入力状態−行動対の予測されるQ値18にマッピングする。
【0158】
ステップ3:ステップ3は、上記のポリシhから生じる制御行動を、TCLなどの異なる装置7a〜7dにディスパッチされるべきエネルギーのようなディスパッチされるべき生産物に変換するリアルタイム制御を含む。制御行動uは、例えば、市場ベースのマルチエージェントシステムを使用するTCLのような異なる装置7a〜7dにわたってディスパッチすることができる。上述のように、TCLへのエネルギー供給は、可用性関数bによって表される。クリア過程の後、例えばTCLsのような監視されているクラスタ内の異なる装置7a〜7dに、クリア優先度p*,kが送り返される。
【0159】
【数34】
【0160】
装置はb(p*,k)に従って電力を消費する。
例えば、図2を参照すると、例えば電力などの送達すべき生産物と、例えば充電状態などの集約されるべき各観測クラスタ状態入力パラメータ値との間の関係9a〜9dが決定される。図2に示すように、これらの関係を集約、例えば合計して、クラスタ関係3を生成することができる。この関係では、クラスタ状態値がゼロに近いとき、すなわちSoCが非常に低いときに、送達されるべき生産物、例えば、消費されるべき電力は最大である。クラスタ状態値が最大値に近いとき、すなわちSoCが非常に高いとき、クラスタがそれ自体の蓄積された電荷から次の時間ステップにわたって要求を満たすことができるべきであるため、送達されるべき生産物、例えば、消費されるべき電力は最小である。ステップ6では、関係3が34として示されている。ステップ4で決定された最適化された値は、次の期間においてクラスタに送達されるべき電力32である。関係34から、この電力値32は、次の時間ステップの需要を満たすべきである場合、クラスタに対する所望のSoC値36として読み出される。関係9a〜9dは、関係39a〜39dとして引き継がれ、SoC36のクラスタ値は関係39a〜39dへの入力として使用されて、これらの装置のうちのいずれが、クラスタのSoCレベル36にするために充電され(すなわち、送達される生産物を受け取ら)なければならないかが分かる。例えば電力値38a〜38dなどのこれらの送達可能な生産物が、TCL7a〜7dに送達される。
【0161】
実施例
深回帰アーキテクチャの具体例として、ビニングされたクラスタ状態xは、最後の28個の時間ステップにわたるクラスタメンバのビニングを記述する28×28の2次元グリッドによって表される。この入力は、畳み込みニューラルネットワーク14の2つの2D畳み込み層を用いて処理される。畳み込みニューラルネットワーク14の第1の層は、4つの7×7フィルタからなり、一方、第2の層は、8つの5×5フィルタを使用する。畳み込みニューラルネットワーク14の畳み込み層の後には、特徴マップを32個の隠れノードにマッピングする、完全結合ニューラルネットワーク15の単一の完全結合層が続く。各層の後に、整流された線形(ReLU)活性化層が続いている。プーリング層は使用しなかった。xex,kおよび行動uを含む外因性データ16が、完全結合ニューラルネットワーク17内の単位の単一の完全結合隠れ層を使用して処理される。畳み込みニューラルネットワーク14とフィードフォワードネットワーク17との結合された出力は、各々が完全結合ニューラルネットワーク15の24単位からなる2つの完全結合層を使用して処理される。すべての層がReLU活性化を使用した。最終的な隠れ表現は、図1および図4に示すように、完全結合線形出力層19を使用して単一の出力18にマッピングされる。ネットワークアーキテクチャ20は、rmspropアルゴリズムを使用して単位として訓練された。本発明によれば、ネットワークアーキテクチャ20全体が同時に訓練されることが好ましい。
【0162】
この実施形態では、環境はモデルによってシミュレートされる。例えば、これは、TCLが収容されている建造物7a〜7dの熱特性のモデルである。これは、この実施形態では測定データが利用できなかったために行われる。動作中、このシミュレートされたデータは好ましくは使用されず、むしろ実際の測定値が使用される。したがって、単に本発明の説明のために、図2に示されている(7a〜7d)のような各建造物の動態を記述するために二次モデルを使用することができる。
【0163】
【数35】
【0164】
【数36】
【0165】
図7は、一番上の行のタイトル内に示されている異なる日数、すなわち21,41,61,67および71日後のポリシの結果の選択を示す。これは、一番上の行に状態−時間の特徴を含み、一方で、中間の行においては状態特徴のみを考慮しているものとして示されている。一番下の行は、想定される外部温度を示している。40日後には、状態−時間特徴を考慮に入れるときにより円滑である有意義なポリシが得られることが分かる。61日目および67日目について、価格信号は同じであるが、外部温度はそうではなく、アルゴリズムが実際にこれらの予測を考慮に入れることを学習したことが分かる。図8では、時間特徴の有無によるより定量的な比較を見ることができ、ここで、いくつかのシミュレーション実行のコストの上限および下限の累積値が、状態−時間特徴を考慮に入れて24、および、考慮に入れずに25提示されている。差は5%程度である。
【0166】
上述の本発明の実施形態は、図9に概略的に示される電力システム40に適用することができる。この図において、電気エネルギーを生成または消費し、電力供給ネットワーク41を介して結合される異なる生産者42,43および消費者装置7(図2、装置7a〜7d参照)または消費者装置7のクラスタ45が存在する。この電力供給ネットワーク41は、電気エネルギーの生成、ならびに、消費者装置7、装置のクラスタ45および生産者42,43の間の伝送を可能にし、電力供給ネットワーク41の動作を制御するための中央制御装置46を含むことができる。消費者装置7またはクラスタ45内の消費者装置7の一部を制御するローカル制御装置47も存在し得る。
【0167】
理想的には、このような電力システム40の動作中は常時、生産と消費との間の平衡が必要である。現在、主な制御パラダイムは、生産が消費に後続することである。これは、主に2つの理由でもはや効率的ではない。再生可能エネルギーの継続的な統合により、これらの平衡化要件は、エネルギー、電力、ランプ速度、または少なくともランプアップ/ダウンの点でより要求が厳しくなる。これに対処することは、主にエネルギー効率が悪いガス燃焼発電所(一次エネルギーから実用エネルギー)のランピング(アップ/ダウン)を必要とするため、非効率的である。これは、過度のエネルギー消費および汚染をもたらす。第2の重要な点は、平衡化資産が主に高電圧ネットワークに結合され、一方、再生可能エネルギー発生器43が多くの場合、低電圧および中電圧レベルに配置され、ローカル電圧および輻輳の問題が引き起こされ、これらを解決するためのローカル柔軟性が要求されることである。両方の問題について、生産の代わりに電気消費に応じて動作することによって、需要柔軟性がエネルギーおよび汚染に関して冗長かつ効率的であり、さらに高電圧レベルと低電圧レベルの両方に結合されるため、解決策の一部を提供することができる。本発明の実施形態は、いくらかの柔軟性を示す、すなわち経時的なエネルギーの使用を調整する自由を有する消費装置の大きな異種成分からなるクラスタの電気などのエネルギーの消費の制御または操作に使用することができる。
【0168】
消費装置7の一例は、図10に概略的に示されている蓄熱器、すなわち電力−熱貯蔵タンク50である。貯蔵タンク50は、参照により本明細書に組み込まれる国際公開第2012164102号パンフレットによるボイラまたは熱緩衝器とすることができる。温水貯蔵タンク50は、例えば、浸漬された電気ヒータ52を使用して電気エネルギーを熱エネルギーに変換することができる。生成された温水は、例えば、シャワーまたは一般的な家庭用途に使用することができる。一般に、温水が使用されない、例えば夜間などの特定の時間があり、したがって、温水貯蔵タンクが加熱され、したがって電力を消費する時間の選択にある程度の柔軟性があるため、夜間の電気消費に関していくらかの柔軟性がある。必要なのは、次のシャワーに利用できる十分な温水があることだけである。典型的には、ボイラの加熱は、夜間に作動する単純なタイマスイッチを使用して設定されるため、ボイラが加熱される夜間の柔軟性は現在使用されていない。
【0169】
上部54から温水を抽出することができ、底部56において冷水が注入される。水を加熱するために、水体中に電気ヒータ52が存在する。水を加熱する他の方法も本発明の範囲に含まれる。操作上の観点から、ヒータが配置された電気回路を閉鎖または開放する制御可能なリレー58を設けることができる。この開閉は、例えばデジタル制御システムを用いて行うことができる。例えば、リレー58は、リレー58をオンおよびオフに切り換えるためのデジタル信号を受信することができる通信ポートおよびマイクロプロセッサまたはマイクロコントローラを含むことができる。例えば、例として中央制御装置46またはローカル制御装置47からリレーに0または1の信号を送ることによって、リレーはそれに応じて閉じるかまたは開く。さらに、温水タンクのパラメータに関する情報を、中央制御装置46またはローカル制御装置47に自動的に通信することができ、例えば、1つの場所で測定される水の温度が、規則的な時間間隔で通信される。水の温度は、充電状態(SoC)に関連し、変換することができ、すなわち、最大温度、したがって装置50が貯蔵することができる最大エネルギーに関連する。水温およびSoCは、ボイラのエネルギー状態値であり、例えば、水温(複数可)、平均水温、水温の中央値、スケーリングされた尺度としての1−SoC(これは最大水温に達する前にボイラにどれくらいのエネルギーを供給できるかの尺度である)、1/SoC、1/1−SoC、すなわちSoCの関数などの多くの異なる方法で表現することができる。これらの値は、関連する値を計算するために保存した履歴レコードを使用するローカルインテリジェンスによって導出することもできる。
【0170】
図10に示す蓄熱タンク50は、図1または図4の2Dグリッド12に導入されるデータを準備するために、ローカル制御装置47または中央制御装置46に関連データを送信する。状態値は、一定の時間間隔で送信されるべきである。蓄熱装置50内の水の温度またはSoC値は、装置内の熱エネルギーの量を表し、したがって、この装置の状態値である。使用可能な他の状態値は、SoC、1−SoC、1/SoC、1/1−SoC、SoCの関数などである。この状態値は、他のそのような装置50からの値、またはそのような装置のクラスタ内の異種装置からの値と集約することができ、その後、図2のヒストグラム8のビンの範囲内でビニングされることができる。例えば、S.Koch,J.L.Mathieu,およびD.S.Callaway「Modeling and control of aggregated heterogeneous thermostatically controlled loads for ancillary services」(in Proc. 17th IEEE Power Sys.Comput.Conf.(PSCC),Stockholm,Sweden,Aug.2011,pp.1−7)を参照されたい。ビニングされた値は、上述の2Dグリッド12のY軸を形成する。2Dグリッド12の水平軸は時間であるため、状態値、例えば、水温またはSoC、1−SoCなどは、一定の時間間隔でローカル制御装置47または中央制御装置46に通信される。
【0171】
図4に示すように、2Dグリッドの2つ以上のシーケンスを畳み込みニューラルネットワーク14,15,19に入力することができる。平行な2Dグリッド12の状態値は、例えば、水温、平均水温、水温の中央値、SoC、1−SoC、1/SoC、1/1−SoC、SoCの関数などから選択することができる。
【0172】
例えば、図2を参照すると、関係3は、1−Socの関数としての電力またはエネルギーであり得る。1−SoCが値1に近づくほど、ボイラが使い尽くされ、ボイラが電気エネルギーを緊急に受け取る必要性が高くなる。したがって、エネルギーを受け取る必要性は、装置の1−SoCの値に関連する優先度である。したがって、任意の時刻におけるクラスタの装置の優先度をステップ2において集約することができる。したがって、関係3は、優先度(X軸)およびその優先度において供給されるべき電力またはエネルギー(Y軸)を示すことができる。安定性を維持するために、優先度と供給可能なエネルギーまたは電力との間の関係が、高い優先度において少量のエネルギーまたは電力を可能にし、低い優先度においてのみ多量のエネルギー量を可能にすることが好ましい。したがって、任意の装置によって消費され得るエネルギーまたは電力は、好ましくは優先度の減少関数、例えば、段階的減少関数である。
【0173】
図2に関して、3ステップ手順における第2のステップ4は、制御行動uをクラスタに送達する。この制御行動「uk」は、装置50のクラスタ全体が次の時間フレームで消費する平均電力またはエネルギーの決定を可能にするように設計されなければならず、したがって、クラスタの装置50のうちのどれを充電しなければならないかを案内する。集約は、これがエネルギーの準最適案配分をもたらすことが説明されている米国特許出願公開第2009/228324号明細書に説明されているように、情報の損失および表現の不正確さを伴う。米国特許出願公開第US2009/228324号明細書は、制御ネットワークにおける利用可能な通信および処理帯域幅ならびにエネルギー分配の所望の正確度に基づいて所望の正確度を調整するための調整可能パラメータの提供を提案している。本発明のディスパッチステップ6は、「u」の値だけがクラスタに送信されなければならないため、低帯域幅通信を利用することができるため、一切のこのような問題を回避する。この値「u」は、ステップ6において関係34として示される関係3を使用して、クリアされた優先度に関連づけることができる。値「u」が入力として使用されるときに、関係34から得られるクリアされた優先度よりも高い優先度を有する装置は、次の時間フレームにおいて電気エネルギーを消費することができる。クリアされた優先度の代わりに、クリアされた1−SoC値などの状態値のクリアされた値も使用できる。その場合、値「u」が入力として使用されるときに、関係34から得られるクリアされた1−SoCの値よりも高い1−SoC値を有する装置は、次の時間フレームにおいて電気を消費することができる。一般に、装置は、上記の式22に関して説明したように、可用性関数b(p*,k)に従って電力を消費する。本発明の実施形態では、オン/オフ装置以外の他の装置を使用することができる。
【0174】
これらのディスパッチ方法を要約すると、ステップ4は、装置50のクラスタが消費することができるエネルギーまたは電力を決定することができる値「u」を提供する。この「u」の値は、好ましくは、クラスタによって消費されるべき電力またはエネルギーの現在の必要性に関連する値に変換され、すなわち優先度に関連する。クラスタ内の各装置は、その後、消費電力の必要性が現在の必要性よりも高いすべてのアプリケーションで電気を消費することを可能にされる。値uは、クラスタ全体によって消費されるべき電力であり、関連するエネルギーまたは電力へのアクセスを得るために、エネルギーオークションなどの任意の適切なオークション機構に送信することができる。その時点の市場状況に応じて、次の時間フレームのために、非常に多くの電力またはエネルギーが利用可能となる。このエネルギー量は、uによって指定された量よりも少ない場合があり、すなわち、実際的かつ経済的に正当化された量のエネルギーは、u未満であり得る。しかしながら、実際にどのエネルギー値が得られているかには無関係に、取得された量を使用して、消費されるべき電力またはエネルギーを各装置について計算することができるクリアされた優先度を決定することができる。この計算は、クラウドにおいてまたはローカルに実行できる。本発明の実施形態は、制御行動をローカルに無効にすることができることを排除するものではない。例えば、手動オーバーライドによって貯蔵タンクを加熱または冷却することができる。経時的に、畳み込みニューラルネットワークは、計画された動作におけるそのような中断を満たすために、その動作を学習し、適応させることができる。
【0175】
以下では、さらなる実施例が記載されており、各々は上記のように制御されることが可能である。
【0176】
蓄熱装置を含む消費者装置7の別の例は、図11に示すように部屋または部屋の集合60を加熱することである。蓄熱は、建造物の熱質量、すなわち空気自体、壁、家具および/または蓄熱装置から直接得られる。電気ヒータ62であり得るヒータから生じる熱エネルギーは、部屋または部屋の集合60の空気中に放出される。これは、電気ヒータ62から直接に、または水などの媒体を含む放熱器回路を介して行うことができる。制御可能なリレー68は、加熱をオンおよびオフに切り替えるように適合することができる。このオンおよびオフの切り替えは、例えばデジタル制御システムを用いて行うことができる。例えば、リレー68は、リレー68をオンおよびオフに切り換えるためのデジタル信号を受信することができる通信ポートおよびマイクロプロセッサまたはマイクロコントローラを含むことができる。例えば、0または1の信号をリレーに送ることによって、リレー68はそれに応じて閉じるかまたは開く。さらに、部屋60のパラメータに関する情報は、制御装置46またはローカル制御装置47に通信することができ、例えば、空気の温度は、センサ64によって1つの場所で測定される。家具または壁または空気の温度、またはそのような値の組み合わせは、充電状態(SoC)に変換することができ、すなわち、最高温度、したがって部屋または部屋60の集合が有する可能性がある最大エネルギーに関連するが、典型的には動作空気温度のみが利用可能であり、家具/壁等の温度は観測されず、これは状態の履歴データから正確に推測される必要がある。
【0177】
図11に示す蓄熱装置60は、図1または図4の2Dグリッド12に導入されるデータを準備するために、ローカル制御装置47または中央制御装置46に関連データを送信する。蓄熱装置60内の空気の温度またはSoC値は、部屋または部屋の集合内の熱エネルギーの量を表し、したがって、この装置の状態値である。この状態値は、そのような装置のクラスタ内の他のそのような装置60からの値と集約することができ、次いで、2Dグリッド12のY軸を形成するビンのうちの1つのビンの範囲内でビニングすることができる。2Dグリッド12の水平軸は時間であるため、空気温度の状態値は、一定の時間間隔でローカル制御装置47または中央制御装置46に通信される。図2に関して、3ステップ手順における第2のステップ4は、制御行動「u」をクラスタに送達する。この制御行動uは、次の時間フレームにおいて部屋または部屋の集合60のクラスタが消費することができる電力またはエネルギーとすることができ、したがって、次の時間フレームにおいて部屋または部屋の集合60のうちのいずれが電気エネルギーを消費することができ、加熱され得るか、および、それがどのくらい長いかを案内する。本発明の実施形態は、制御行動をローカルに無効にすることができることを排除するものではない。例えば、手動オーバーライドによって部屋を加熱または冷却することができる。経時的に、畳み込みニューラルネットワークは、計画された動作におけるそのような中断を満たすために、その動作を学習し、適応させることができる。
【0178】
別の消費者装置7は、例えば、ハイブリッド車または電気自動車を駆動するために使用される電池またはウルトラキャパシタのような、図12に示される蓄電装置70とすることができる。蓄電装置70は、電気エネルギー/電力を消費/生成することができる。中央制御装置46またはローカル制御装置47に送ることができる電池の状態値は、電池の充電状態(SoC)またはこの値を表す他の任意の値である。
【0179】
図11に示す蓄電装置70は、図1または図4の2Dグリッド12に導入されるデータを準備するために、ローカル制御装置47または中央制御装置46に関連状態データを送信する。蓄電装置70のSoC値は、装置内の熱エネルギーの量を表し、したがって、この装置の適切な状態値である。この状態値は、そのような装置のクラスタ内の他のそのような装置70からの値と集約することができ、次いで、2Dグリッド12のY軸を形成するビンのうちの1つのビンの範囲内でビニングすることができる。2Dグリッド12の水平軸は時間であるため、SoC状態値は、一定の時間間隔でローカル制御装置47または中央制御装置46に通信される。図2に関して、3ステップ手順における第2のステップ4は、制御行動uをクラスタに送達する。この制御行動uは、装置クラスタ70が次の時間フレームにおいて消費することができる電力またはエネルギーとすることができ、したがって、いずれの装置70を充電できるかを案内する。本発明の実施形態は、制御行動をローカルに無効にすることができることを排除するものではない。例えば、手動オーバーライドによって電池を充電することができる。経時的に、畳み込みニューラルネットワークは、計画された動作におけるそのような中断を満たすために、その動作を学習し、適応させることができる。
【0180】
本発明は、オンオフ制御に限定されない。電力−熱蓄積装置の別の一般的な実施態様が図13に示されており、これは上記の説明と非常に類似しているが、温度設定点は、オン/オフスイッチによって制御されず、この設定点は好ましくは(人間のオペレータの制約内で)遠隔で変更することができ、それに応じてローカル制御装置47が動作する。例えば、ローカル制御装置47は、温度設定点、ヒステリシス制御装置などを追跡するローカルPID制御装置とすることができる。
【0181】
加熱システムの運転管理を妨害しないために、ローカル制御装置47は、人間のオペレータが有するのと同じ利用可能な行動を有する。設定点は、ローカル再生可能エネルギーがあるときに増加させることができ、その結果、ローカル制御装置47は、空気および建造物の熱質量に一時的に蓄えられるより多くのエネルギーの消費を許容し始める。したがって、実施形態のいずれかにおける制御行動uに対する反応は、オン/オフ制御以外であり得るが、例えば、ローカル制御装置の設定値を変更することによって電力またはエネルギーの消費に影響を及ぼす任意の変化を含むことができる。この実施形態では、制御すべきシステムの状態値(例えば、上述の温度、SoCなど)および電力システムの状態、例えば需要と供給との間の平衡、例えば電圧などによって表されるグリッド状態に応じて、動作点(オン/オフ状態、電力、温度など)が制御される。本発明の実施形態は、ネットワーク41のエネルギー生成と消費とを平衡させることができる。ネットワークを動作状態に保つために、中央制御装置46および/またはローカル制御装置47は、電力システムの状態すなわち、バランス、電圧など)、および、エネルギー源の結合された柔軟性の状態に基づいて、すべての関連するリレーを開きもしくは閉じ、スイッチを変更し、または、設定点、動作電力などを変更するように適合することができる。これは、図14に概略的に示されており、システムの不均衡はネットワーク全体の状態値として扱われる。例えば、不平衡信号は、MWhで表される現在および予想されるネットワーク内の不均衡として表すことができる。この状態値は、図2または図4に示すように、その出力が完全結合ニューラルネットワーク15に渡される第2の完全結合ネットワーク17への入力16としての、外因性状態情報xexとして含まれ得る。これにより、畳み込みニューラルネットワークがシステムの不均衡を学習し、適応することが可能になる。代替的に、不均衡情報が、将来発生する可能性のある高次元表現である場合には、状態値11の1つとして含めることができる(図1および図4参照)。TLCのクラスタ内の各要素のスイッチまたはリレーは、ネットワークの状況およびネットワークの予測される状況に基づいて開閉される。
【0182】
リレーの開閉を判断するために、クラスタ全体の状態を考慮することができる。状態は、例えば各TCLでローカルに測定される温度のような、利用可能な測定された情報によって表される。測定される温度は必ずしもシステムの全状態を保持するとは限らない。過去の観測値のシーケンスを使用して、システムの状態を表現することができる。状態の次元性を実用的に保つために、上記のような集約を用いることができる。ネットワークの状態の過去の観測値および状態の予測から、各TCLに対する制御行動が決定される、すなわちTCLがオンまたはオフに切り替えられるかが決定される、制御ポリシが決定される。
【0183】
分散制御システムの1つの問題は、レガシ装置が、通常、需要応答配電ネットワーク41との通信手段を有しないことである。図15に概略的に示すように、レガシ装置50、例えば異種装置は、本発明の実施形態によって制御することができる。
【0184】
需要応答配電ネットワーク41は、産業施設および消費者施設に電力を供給する。例えば、図15に概略的に示されている家屋53には部屋があり、各部屋またはいくつかの部屋の中には、装置50および制御可能なスイッチ52、例えば、参照により本明細書に組み込まれるEP−A−2 618 445に開示されているような需要応答アダプタがある。ローカルインテリジェンスを有するローカル制御装置47が、このような家屋に設置することができ、電力を受信するためのケーブルまたは他の遠隔通信手段を介して需要応答配電システム41にリンクされ、少なくとも電流搬送ケーブル54(例えば、電力通信によるデータを使用する)および/またはLANケーブルまたはワイヤレス接続によって各制御可能スイッチ52および装置50にリンクされる。ローカル制御装置47は、例えば、夜間のボイラ、平日の毎朝7:00のティーメーカーなど、各装置50が電気を必要とするときの優先度および時間によって(例えば手作業で)プログラムされる。ローカル制御装置47は、各スイッチ52をオンまたはオフにするように制御するように適合されている。したがって、ローカル制御装置47は、制御可能なスイッチ52と組み合わせて、ネットワーク41に向かってレガシ装置をエミュレートする。需要応答システム41との通信は、家屋内でも行われ得るように、電力ケーブルを介した信号伝達を介してもよい。例えば、ローカル制御装置47は、図1または図4の2Dグリッド12に対する入力を提供する。例えば、この入力は、クラスタ制御装置49に提供することができる。クラスタ制御装置49への入力は、家屋内の各装置50の充電状態、および/または次の期間にわたる各装置50による予想される需要とすることができる。そのようなデータは、ユーザによってローカル制御装置47に入力することができ、制御装置47は、この情報をクラスタ制御装置49に提供する。充電状態は、参照により本明細書に組み込まれる国際公開第2012164102号パンフレットに説明されているように決定することができる。ローカル制御装置47は、参照により本明細書に組み込まれるEP−A−2 608 123に開示されているようなPID制御装置を含むことができる。
【0185】
クラスタ制御装置49は、例えば、図2のステップ4からブロードキャスト制御行動uを受信することができる。この値uから、制御装置47は、例えば家屋53の優先度を決定し、これをローカル制御装置47に送信し、その優先度からローカル制御装置47は、装置50が電気をどのくらい、および、いつ消費することが許可されるかを直接的または間接的に決定することができる。制御装置47および/またはクラスタ制御装置49内のローカルインテリジェンスを使用することにより、多くの消費者施設内に一般に見られるような異種装置、特に異種レガシ装置を本発明の実施形態によって制御することができる。
【0186】
図16は、本発明の実施形態によるネットワークの概観を示す。現在利用可能な需要応答システムは、電力需要のピーク時または緊急供給条件の期間中、民生機器の遠隔制御スイッチが電力をオフにする直接負荷制御を使用することが多い。これらのシステムは、典型的には、一方向ページング通信に依存して、リモートスイッチに制御信号を送る。図16に示すように、本発明の実施形態は、個々の装置7または装置のクラスタ45と、例えば央制御装置46を含む分配ネットワーク41との間の双方向通信を有する。したがって、ネットワーク41はエンドツーエンドの可視性を有し、消費者施設からヘッドエンドまでのインフラストラクチャの完全な絵図を有するだけでなく、畳み込みニューラルネットワークによって抽出される時間パターンの完全な絵図をも有する。
【0187】
本発明の実施形態は、需要応答システム内のクラスタにグループ分けされた制約付きクラスタ要素に分配されるべき物理生産物の需要を制御する方法、およびこの方法を実行するための制御装置に関する。本発明は、各ニューロンが相互結合ネットワークに関連付けられ、それによってニューロンと少なくとも別のニューロンとの間の重み付けされた結合が存在するように、複数のデジタルニューロンを含む1つまたは複数のニューラルネットワークの実施態様を提供する。
【0188】
物理生産物は、例えば、熱または電気エネルギーであり得る。
そのような方法は、1つまたは複数のマイクロプロセッサ、FPGA、または中央処理装置(CPU)および/またはグラフィックス処理装置(GPU)によって提供されるような処理能力を有し、ソフトウェア、すなわち1つまたは複数のコンピュータプログラムによってプログラムされることによってそれぞれの機能を実行するように適合される制御装置(例えば、中央処理装置46、および/またはクラスタ制御装置49および/またはローカル制御装置47)によって実施することができる。ソフトウェアへの参照は、コンパイラ型または翻訳言語を介して、プロセッサによって直接的または間接的に実行可能な任意の言語の、任意の種類のプログラムを包含することができる。本発明の方法のいずれかの実施態様は、論理回路、電子ハードウェア、プロセッサまたは回路によって実施することができ、これらは、汎用プロセッサ、デジタル信号プロセッサ、ASIC、FPGA、ディスクリートコンポーネントまたはトランジスタ論理ゲートなどに限定されない、任意の度合いまで集積されている、任意の種類の論理またはアナログ回路を含むことができる。
【0189】
そのような制御装置は、メモリ(非一時的コンピュータ可読媒体、RAMおよび/またはROMなど)、オペレーティングシステム、随意選択的に固定フォーマットディスプレイのようなディスプレイ、キーボードのようなデータ入力装置、「マウス」などのポインタ装置、他の装置と通信するためのシリアルまたはパラレルポート、任意のネットワークに接続するためのネットワークカードおよび接続を有することができる。
【0190】
ソフトウェアは、例えば、制御装置内の処理エンジン上で実行されるときに、需要応答システム内のクラスタにグループ分けされた制約付きクラスタ要素に分配されるべき物理生産物の需要を制御する方法を実施するように適合することができる。ソフトウェアは、ソフトウェアが制御装置にロードされ、マイクロプロセッサ、ASIC、FPGAなどの1つまたは複数の処理エンジン上で実行されるとき、以下に箇条書きされる機能を実行するように適合されるコンピュータプログラム製品内に具現化することができる。したがって、本発明の実施形態のいずれかと共に使用する制御装置は、コンピュータソフトウェアの形態で1つまたは複数のコンピュータアプリケーションを実行することができるコンピュータシステムを組み込むことができる。
【0191】
この方法および制御装置は、強化学習(RL)の形態の制御技法を使用して次の制御ステップ中に制約付きクラスタ要素に分配されるべき物理生産物の量を決定するように適合させることができ、これにより、制御技法は、制御されるべき需要応答システムとの相互作用から学習し、畳み込みニューラルネットワークに、1つまたは複数の2Dグリッド構造に集約されることが好ましい、需要応答システムの少なくとも1つのクラスタの履歴観測値または履歴観測値の派生物を入力することによって特徴を抽出し、2Dグリッド構造の1つの次元は複数の時間ステップを表し、他の次元は前記複数の時間ステップにおけるクラスタ状態を捕捉し、クラスタ状態は、各時間ステップについて少なくとも1つのクラスタ内のクラスタ要素のローカル状態を集約することによって表され、畳み込みニューラルネットワークは、2D畳み込みを実行し、ローカル時間と2Dグリッド構造内のクラスタ要素の集約ローカル状態変動との組み合わせからローカル畳み込み特徴を抽出することを学習する。
【0192】
上記の方法は、メモリにロードされ、米国マイクロソフト社によって供給されるWindows(登録商標)、Linux(登録商標)、アンドロイド等のようなオペレーティングシステム上で実行されることによってコンピュータシステム上で動作する1つまたは複数のコンピュータアプリケーションプログラムによって実行することができる。コンピュータシステムは、メインメモリ、好ましくはランダムアクセスメモリ(RAM)を含むことができ、また、非一時的ハードディスクドライブおよび/またはリムーバブル非一時メモリ、および/または非一時的ソリッドステートメモリを含むことができる。非一時的リムーバブルメモリは、コンパクトディスクなどの光ディスク(CD−ROMまたはDVD−ROM)、磁気テープであってもよく、これは適切な読み取り装置によって読み取られ、それによって書き込まれる。取り外し可能な非一時的メモリは、コンピュータソフトウェアおよび/またはデータを記憶されているコンピュータ可読媒体であってもよい。
【0193】
不揮発性記憶メモリは、コンピュータシステムの電源が切られても失われてはならない永続的な情報を記憶するために使用することができる。アプリケーションプログラムは、不揮発性メモリ内の情報を使用して記憶することができる。他のアプリケーションをメモリにロードし、コンピューティングシステム上で実行することができる。コンピュータシステムはまた、2次元グリッドデータを畳み込みニューラルネットワークへの入力として受け取るためのインターフェースを含むことができる。インターフェースは、ローカルソースから、例えば、キーボードによる入力によって、または、周辺メモリ装置から、例えば、コンパクトディスクのような光ディスク(CD−ROMまたはDVD−ROM)から、または適切な読み取り装置によって読み取られ、それによって書き込まれる磁気テープから、または、フラッシュドライブのようなソリッドステートメモリから、またはセンサから直接的にデータを受信するためのものであってもよい。コンピュータシステムは、本明細書で開示される1つまたは複数の実施形態を実行することができる。さらに、本明細書で説明される実施形態および機能は、分散システム(例えば、クラウドベースのコンピューティングシステム)にわたって動作することができ、ここで、アプリケーション機能、メモリ、データ記憶および取り出しならびに様々な処理機能が、インターネットまたはイントラネットなどの分散コンピューティングネットワークを介して互いに遠隔操作され得る。したがって、2Dグリッドデータは、データ伝送ネットワークを介して遠隔で得ることができる。したがって、コンピュータシステムは、通信インターフェースを含むことができる。通信インターフェースは、コンピュータシステムと、ネットワークまたは「クラウド」を含む外部装置との間でソフトウェアおよびデータを転送することを可能にする。通信インターフェースの例としては、モデム、Ethernet(登録商標)カードなどのネットワークインターフェース、通信ポート、またはPCMCIAスロットおよびカードなどが挙げられ得る。通信インターフェースを介して転送されるソフトウェアおよびデータは、例えば、通信インターフェースによって受信可能な電子、電磁気、光学、または他の信号であってもよい信号の形態である。これらの信号は、ローカルまたはリモートの通信チャネルを介して通信インターフェースに供給される。この通信チャネルは、信号を搬送し、ワイヤまたはケーブル、光ファイバ、電話回線、携帯電話リンク、RFリンク、および/または他の通信チャネルを使用して実装することができる。
【0194】
非一時的信号記憶装置は、少なくとも1つのプロセッサによって実行されると、本発明の方法のうちのいずれかを実行するコンピュータ実行可能命令を格納することができる。コンピュータプログラム製品(コンピュータ制御論理とも呼ばれる)は、メインメモリおよび/または二次メモリに格納することができる。コンピュータプログラム製品は、通信インターフェースを介して受信することもできる。そのようなコンピュータプログラム製品は、実行されると、本明細書で説明する本発明の特徴をコンピュータシステムが実行することを可能にする。したがって、そのようなコンピュータプログラムは、コンピュータシステムの制御装置を表す。
【0195】
コンピュータプログラム製品に組み込まれたソフトウェアは、ソフトウェアがそれぞれの1つまたは複数の装置にロードされ、マイクロプロセッサ、ASIC、FPGAなどのような1つまたは複数の処理エンジン上で実行されるとき、以下の機能を実行するように適合される。
【0196】
需要応答システムにおいてクラスタにグループ化された制約付きクラスタ要素に分配されるべき物理生産物の需要を制御すること。
【0197】
強化学習(RL)の形態の制御技法を用いて次の制御ステップ中に制約付きクラスタ要素に分配されるべき物理生産物の量を決定すること。結果、制御技法が、制御されるべき需要応答システムとの相互作用から学習する。
【0198】
コンピュータプログラム製品に組み込まれたソフトウェアは、ソフトウェアがそれぞれの1つまたは複数の装置にロードされ、マイクロプロセッサ、ASIC、FPGAなどのような1つまたは複数の処理エンジン上で実行されるとき、以下の機能を実行するように適合される。
【0199】
畳み込みニューラルネットワークに、1つまたは複数の2Dグリッド構造に集約される、需要応答システムの少なくとも1つのクラスタの履歴観測値または履歴観測値の派生物を入力することを可能にすること。2Dグリッド構造の1つの次元は複数の時間ステップを表し、他の次元は前記複数の時間ステップにおけるクラスタ状態を捕捉し、クラスタ状態は、各時間ステップについて少なくとも1つのクラスタ内のクラスタ要素のローカル状態を集約することによって表され、畳み込みニューラルネットワークは、2D畳み込みを実行し、ローカル時間と2Dグリッド構造内のクラスタ要素の集約ローカル状態変動との組み合わせからローカル畳み込み特徴を抽出することを学習する。
【0200】
コンピュータプログラム製品に組み込まれたソフトウェアは、ソフトウェアがそれぞれの1つまたは複数の装置にロードされ、マイクロプロセッサ、ASIC、FPGAなどのような1つまたは複数の処理エンジン上で実行されるとき、以下の機能を実行するように適合される。
【0201】
畳み込みニューラルネットワークから第1のニューラルネットワークに、少なくとも抽出されているローカル畳み込み特徴を入力すること。第1のニューラルネットワークは、少なくとも1つのクラスタがある状態にあることと、ある行動をとることとの各組み合わせに関連する少なくとも1つのクラスタの値を提供する状態−行動価値関数の少なくとも近似値を出力する。
【0202】
制御行動を決定または計算すること。制御行動は、ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせであるか、または、ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせから導出される。および、
制御行動に従って次の制御ステップ中にクラスタ要素によって消費または解放されるべき物理生産物の目標量を分配すること。
【0203】
コンピュータシステムは、上述したような通信インターフェースとすることができる適切な出力インターフェースを設けられる。
【0204】
コンピュータプログラム製品内に具現化されたソフトウェアは、ソフトウェアがそれぞれの1つまたは複数の装置にロードされ、マイクロプロセッサ、ASIC、FPGAなどの1つまたは複数の処理エンジン上で実行されるとき、以下の機能を実行するように適合される。
【0205】
第1のニューラルネットワークを、好ましくは完全結合ニューラルネットワークとして提供すること、および/または、
制御技法を、モデルなし制御技法として提供すること。
【0206】
コンピュータプログラム製品内に具現化されたソフトウェアは、ソフトウェアがそれぞれの1つまたは複数の装置にロードされ、マイクロプロセッサ、ASIC、FPGAなどの1つまたは複数の処理エンジン上で実行されるとき、以下の機能を実行するように適合される。
【0207】
状態−行動価値関数を、Q関数(Q(x,u))として実施すること。
コンピュータプログラム製品に組み込まれたソフトウェアは、ソフトウェアがそれぞれの1つまたは複数の装置にロードされ、マイクロプロセッサ、ASIC、FPGAなどのような1つまたは複数の処理エンジン上で実行されるとき、以下の機能を実行するように適合される。
【0208】
第1のニューラルネットワークへの入力として結合された第2のニューラルネットワークに制御行動および外因性状態情報を入力すること。
【0209】
外因性状態情報および制御行動を、畳み込みニューラルネットワークの抽出された畳み込みローカル特徴とマージすること。外因性状態情報および制御行動を畳み込みニューラルネットワークの抽出された畳み込みローカル特徴とマージする前に、別個の特徴抽出が実行され、外因性状態情報および制御行動は最初に第2のニューラルネットワークに供給され、この第2のニューラルネットワークは、外因性状態情報および制御行動を、次の隠れ層において抽出された畳み込みローカル特徴と組み合わされる学習された内部表現にマッピングする。
【0210】
コンピュータプログラム製品内に具現化されたソフトウェアは、ソフトウェアがそれぞれの1つまたは複数の装置にロードされ、マイクロプロセッサ、ASIC、FPGAなどの1つまたは複数の処理エンジン上で実行されるとき、以下の機能を実行するように適合される。
【0211】
第2のニューラルネットワークを、好ましくは完全結合ニューラルネットワークとして提供すること、および/または、
隠れ層を、好ましくは完全結合層として提供すること。
【0212】
コンピュータプログラム製品に組み込まれたソフトウェアは、ソフトウェアがそれぞれの1つまたは複数の装置にロードされ、マイクロプロセッサ、ASIC、FPGAなどのような1つまたは複数の処理エンジン上で実行されるとき、以下の機能を実行するように適合される。
【0213】
畳み込みニューラルネットワークが、最初に2Dグリッド構造内のパターンを捕捉すること、および、畳み込みニューラルネットワークならびに第1のニューラルネットワークおよび第2のニューラルネットワークが、集約されたクラスタ状態および外因性データから目標量へのマッピングを学習すること。
【0214】
コンピュータプログラム製品に組み込まれたソフトウェアは、ソフトウェアがそれぞれの1つまたは複数の装置にロードされ、マイクロプロセッサ、ASIC、FPGAなどのような1つまたは複数の処理エンジン上で実行されるとき、以下の機能を実行するように適合される。
【0215】
固定された時間ステップでのクラスタ状態のすべての観測値を表す1つの次元を有する2Dグリッド構造を入力すること。第2の次元は、すべての時間ステップにおけるクラスタ要素の複数の状態変数の各々の値の時間変化に対応し、2D特徴抽出動作は、時間および空間にわたって適用され、結果として状態情報および履歴においてローカル構造を識別する時空間特徴が識別される。
【0216】
コンピュータプログラム製品内に具現化されたソフトウェアは、ソフトウェアがそれぞれの1つまたは複数の装置にロードされ、マイクロプロセッサ、ASIC、FPGAなどの1つまたは複数の処理エンジン上で実行されるとき、以下の機能を実行するように適合される。
【0217】
複数の時間ステップにわたって発生する状態値の変化を表す特徴を学習すること。
学習された特徴を、第1の完全結合ニューラルネットワークおよび随意選択的に第2の完全結合ニューラルネットワークの上位ネットワーク層に入力すること。
【0218】
コンピュータプログラム製品内に具現化されたソフトウェアは、ソフトウェアがそれぞれの1つまたは複数の装置にロードされ、マイクロプロセッサ、ASIC、FPGAなどの1つまたは複数の処理エンジン上で実行されるとき、以下の機能を実行するように適合される。
【0219】
畳み込みネットワークならびに第1のネットワークおよび第2のネットワークを同時に訓練すること。
【0220】
上記のソフトウェアのいずれも、ネットワークのサーバまたはノードのいずれかの処理エンジン用にコンパイルされたコンピュータプログラム製品として実装されてもよい。コンピュータプログラム製品は、光ディスク(CD−ROMまたはDVD−ROM)、デジタル磁気テープ、磁気ディスク、USBフラッシュメモリ、ROMなどのソリッドステートメモリなどの非一時的信号記憶媒体に記憶することができる。
図1
図2
図3A
図3B
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16