(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0025】
以下に、本発明を実施するための最良の形態について図面を参照しながら説明する。
【0026】
図1は、本発明の実施形態に係る空調制御方法が適用された空調制御装置10の一例を示す基本構成図である。
【0027】
空調制御装置10は、環境観測部11、制約入力部12、制御学習部13、人流予測部14、制御効果評価部15、制御出力部16、GUI機能部17、および記憶装置18を備える。ただし、記憶装置18を設けず、上記各機能部11〜17が、直接通信を行うことでデータのやりとりをしても良い。
【0028】
空調制御装置10は、環境観測部11、制約入力部12、制御学習部13、人流予測部14、制御効果評価部15、制御出力部16、およびGUI機能部17は、例えばFPGA(field-programmable gate array)もしくはCPU(Central Processing Unit)もしくはこれらの組合せおよびプログラムメモリ(例えばSSD(Solid State Drive)やHDD(Hard Disk Drive)等の随時書き込みおよび読み出しが可能な不揮発性メモリ)を有するコンピュータによって実現され、本実施形態を実施するために必要な制御機能を実現する。これら制御機能は何れも上記プログラムメモリに格納されたプログラムを上記FPGAやCPUに実行させることにより実現される。記憶装置18は、プログラムメモリ(例えばSSD(Solid State Drive)やHDD(Hard Disk Drive)等の随時書き込みおよび読み出しが可能な不揮発性メモリ)により実現される。
【0029】
空調制御装置10はまた、本実施形態においては、1つ以上の外部センサ20またはこれらを統括する統括装置22(以降、これら両方を合わせて「センサ」と称する)、BEMS装置30および空調システム40と、ネットワーク50を介して接続しており、外部センサ20、統括装置22、BEMS装置30、および空調システム40のそれぞれからネットワーク50を介して送信された環境データAを、環境観測部11において受信したり、制御出力部16から、ネットワーク50を介して空調システム40へ、制御指示を送信することができる。
【0030】
さらに空調制御装置10は、GUI機能部17を用いることによって、ユーザから制約データを受け取って制約入力部12に伝え、ユーザからニューラルネットワーク(以下、「NN」と称する)の更新または制御シナリオデータBの作成を行うための指示を受け取って制御学習部13に伝える。
【0031】
なお、空調制御装置10と空調システム40とをネットワーク50を経由して接続する代わりに、空調制御装置10を、空調システム40内の一部の装置として構成しても良い。
【0032】
また、空調制御装置10は、GUI機能部17を有することなく、制約入力部12や制御学習部13が、ユーザからの入力を、ネットワーク50を経由して受け取ったり、空調制御装置10の外部で生成されたデータを入力として受け取ったりしても良い。
【0033】
さらに、空調制御装置10は、制御学習部13の起動を、一定時間毎に、または、環境データAの記憶装置18への保存をトリガーとして実施して良い。あるいは、空調制御装置10が、環境データAのうちの1つである人流データの保存を検出した際に、人流予測部14が予測した値との乖離が一定の閾値よりも大きい場合に実施しても良い。
【0034】
記憶装置18は、前述した環境データAおよび制御シナリオデータBの他に、ポリシデータC、およびニューラルネットワーク構成データ(以下、「NN構成データ」と称する)Dを保存する。
【0035】
環境データAは、温度データA1、人流データA2、およびBEMSデータA3を含む。
【0036】
図2は、環境データAのうち温度データA1の一例を示す概念図である。
【0037】
温度データA1は、時刻t、ID、および温度pの各フィールドからなり、時刻tは、センサ20が物理現象を測定した時刻を、IDは、センサ20の設置者が設定した対象空間および対象区画を表す識別番号を、温度pは、測定した温度をそれぞれ表す。しかしながら、温度データA1のフィールドの項目は、これらに限定されるものではない。例えば、時刻tは、統括装置22がセンサ20からデータを受信した時刻でもよく、センサ20の精度を示す値である精度のフィールドを新たに設けてもよく、計測点が1点の場合、IDを省略しても良い。
【0038】
図3は、環境データAのうち人流データA2の一例を示す概念図である。
【0039】
人流データA2は、2つの時間t
s、t
eに加え、ID、および人数nの各フィールドからなり、時間t
sは、センサ20が物理現象を測定開始した時刻と、時間t
eは、センサ20が物理現象の測定を終了した時刻と、IDは、センサ20の設置者が設定した対象空間および対象区画を表す識別番号を、人数nは、対象区画に存在した人の数をそれぞれ表す。しかしながら、人流データA2のフィールドの項目は、これらに限定されるものではない。例えば、人数nとして、単位時間当たりの任意測定区間(例えば1秒間隔の1m
2メッシュ)に存在した人の数としても良い。
【0040】
図4は、環境データAのうちBEMSデータA3の一例を示す概念図である。
【0041】
BEMSデータA3は、時刻t、ID、モードm、状態sの各フィールドからなり、時刻tは、空調システム40の動作状態を観測した時刻を、IDは、空調システム40の設置者が設定した対象空間および対象区画を表す識別番号を、モードmは、空調システム40の動作モードである暖房または冷房を、状態sは、空調システム40の動作状態であるONまたはOFFをそれぞれ表す。しかしながら、BEMSデータA3のフィールドの項目は、これらに限定されるものではない。例えば、モードmのフィールドの代わりに設定温度というフィールドがあっても良い。
【0042】
なお、
図2乃至
図4における時刻tや時間t
s、t
eのフィールドでは、「年−月−日 時:分:秒」というフォーマットで記載しているが、これに限定されるものではなく、例えば、「年−月−日 時:分:秒:ミリ秒」というフォーマットで記載しても良い。
【0043】
図5は、GUI機能部17における制約データ入力画面70の一例を示す概念図である。
【0044】
制約データ入力画面70は、入力データ、制御対象、中長期的評価、短期的評価、制限事項を入力する各テキストボックス70a、70b、70c、70d、70eと、NNの中間層の構造情報、および変数の初期化方針を入力する各テキストボックス70f、70gと、入力を終了する送信ボタンhとを有するが、これらに限定されるものではない。
【0045】
入力データのテキストボックス70aは、環境データAのうち、制御シナリオを最適化する上でどの種類のデータを入力として利用するかを入力する欄である。
図5では、温度と人流との2種類のデータを利用するように例示されているが、入力データは、これらに限定されず、例えば曜日や外気温といった情報を利用しても良い。
【0046】
制御対象のテキストボックス70bは、空調システム40における操作対象を入力する欄である。
図5では、冷房と暖房を制御すること、およびファンコイルユニット(以下、「FCU」と称する)の電源状態であるON/OFFを操作対象とする例が示されている。
【0047】
制御効果評価部15は、
図1には図示されていないが、中長期的評価機能部と短期的評価機能部とを備えている。
【0048】
中長期的評価および短期的評価のテキストボックス70c、70dはそれぞれ、制御効果評価部15の中長期的評価機能部および短期的評価機能部において、制御シナリオを評価するための条件を入力する欄である。
図5では、中長期的評価は「運転時間削減量」に基づいて評価する例が示されている。また、短期的評価のために「norm(PV
i)*clip(1−TV
i/24.0,0,1)」という条件式が使用されることが例示されている。
【0049】
制限事項のテキストボックス70eは、評価中に発生してはならない状態を条件式として入力するための欄である。
図5では、「if 暖房時 and TV
i>=21」と「if 冷房時 and TV
i<=28」という2つの条件が入力された例が示されている。
【0050】
中間層のテキストボックス70fは、中間層の数だけ変数情報を入力する欄である。変数情報としては、例えば、層番号h、層種類i、ニューロン数j、および活性化関数kの4種類の情報があり、
図5に示す例は、中間層の数が4つであり、各中間層毎に層番号h、層種類i、ニューロン数j、および活性化関数kの4種類の情報gが記載されている。例えば、非特許文献4および非特許文献5に具体的に記載されている層種類や活性化関数を、層種類iおよび活性化関数kとして中間層のテキストボックス70fに入力しても良い。
【0051】
初期化方針のテキストボックス70gは、例えばゼロ埋め、一様分布乱数、正規分布乱数といった、ニューラルネットワークの各変数の初期化方針を入力する欄である。
【0052】
送信ボタン70hが押下され入力が完了すると、GUI機能部17は、上記の各テキストボックス70a〜70gに入力された情報からなる制約データEを、制約入力部12へ出力する。
【0053】
なお、制約データEの修正や新規作成を行う場合も、GUI機能部17において制約データ入力画面70を開き、テキストボックス70a〜70gへデータを入力することによって行う。
【0054】
図6は、ポリシデータCの一例を示す概念図である。
【0055】
図6に例示されるポリシデータCは、中長期的評価欄、短期的評価欄、および制限事項欄の3つの要素を有し、
図5に例示するように、制約データEにおけるテキストボックス70c、70d、70eに入力されたものと同じ値が記載されている。しかしながら、ポリシデータCが有する要素は、これら3つの要素に限定されるものではない。
【0056】
図7は、NN構成データDの一例を示す概念図である。
【0057】
図7に例示されるNN構成データDは、INPUT、OUTPUT、HIDDEN、Variableからなる4つの要素を有している。INPUTは、NNの入力層の次元数および対応したラベル名であり、OUTPUTは、NNの出力層の次元および対応したラベル名であり、HIDDENは、NNの中間層の数だけ層番号h、層種類i、ニューロン数j、および活性化関数kからなる4種類の情報を列挙し、Variableは各変数値である。しかしながら、NN構成データDが有する要素は、これら4つの要素に限定されるものではない。
【0058】
図8は、GUI機能部17における、制御学習部指示画面80の一例を示す概念図である。
【0059】
図8に例示される制御学習部指示画面80は、開始日および終了日をそれぞれ直接入力するためのテキストボックス80a、80bと、NN更新または制御シナリオデータ算出を指定するためのラジオボタン80c、80dと、制約データE、NN構成データD、ポリシデータCを選択するためのテキストボックス80e、80f、80gと、入力を終了する送信ボタンhとを有するが、これらに限定されるものではない。
【0060】
送信ボタン80hが押下され入力が完了すると、GUI機能部17は、制御学習部指示画面80から入力された上記各データからなる指示データFを、制御学習部13へ出力する。
【0061】
NN更新や制御シナリオデータBの作成を再度行う場合も上記と同様の手順で行う。
【0062】
次に、本発明の実施形態に係る空調制御方法が適用された空調制御装置10によってなされる各処理について、フローチャートを参照しながら説明する。
【0063】
まず、環境データAを保存する処理について説明する。
【0064】
図9は、環境観測部11が環境データAを保存する処理を示すフローチャートである。
【0065】
環境データAを保存するために、環境観測部11は、外部センサ20またはBEMS装置30から環境データAを受信し(S1)、記憶装置18に該環境データAを保存する(S2)。
【0066】
次に、人流データA2を予測して保存する処理について説明する。
【0067】
図10は、人流予測部14が人流データA2を予測して保存する処理を示すフローチャートである。
【0068】
本実施形態において、人流予測部14は1日経過ごとに起動する。そして、まず、記憶装置18から、環境データAのうち最近1日分の人流データA2を読み出す(S11)。次に、読み出した人流データA2の時間t
s、t
eのフィールドのうち「年−月−日」に該当する部分の数値を、予測したい「年−月−日」に変更し、記憶装置18に保存する(S12)ことで処理が完了する。すなわち、本実施形態では、当日の日に最も近い日の人流データA2に等しいと予測する。しかし本発明は、これに限定されるものではない。
【0069】
なお、本実施形態においては人流予測部14が、将来の人流を予測して記憶装置18に保存することとしたが、本発明は、これに限定されるものでははく、空調制御装置10の外部で予測された将来の人流データA2を、環境観測部11が環境データAとして受け取り、記憶装置18に保存しても良い。
【0070】
次に、制約データEからポリシデータCとNN構成データDを生成する処理について説明する。
【0071】
図11は、制約入力部12が、制約データEから、ポリシデータCとNN構成データDを生成する処理を示すフローチャートである。
【0072】
ポリシデータCとNN構成データDを生成する場合、制約入力部12が、制約データEを受け取り(S21)、制約データEから中長期的評価欄、短期的評価欄、制限事項欄を抽出してポリシデータCを生成する(S22)。
【0073】
次に 制約入力部12は以下のようにNN構成データDを作成する(S23)。
【0074】
本実施形態では、
図5に例示する制約データ入力画面70に示すように、制約データEでは、入力データ欄が「温度」、「人流」の2要素となっているので、
図7に示すようにNN構成データDのINPUTに「2、温度、人流」を設定する(S23a)。
【0075】
次に、制約データEの制御対象欄の要素数をカウントしてOUTPUTに設定する(S23b)。ここで、制約データ入力画面70に示すように、制御対象欄は「冷房/暖房」、「ON/OFF」の2要素なので、その組み合わせである「冷房かつON」、「冷房かつOFF」、「暖房かつON」、「暖房かつOFF」の4種類が制御に関するアクションであるので、
図7に示すようにNN構成データDのOUTPUTに、「4、冷房かつOFF、冷房かつON、暖房かつOFF、暖房かつON」を設定する。
【0076】
さらに、制約データEから中間層欄の内容を抽出して、NN構成データDのHIDDENに設定し(S23c)、制約データEの初期化方針欄の内容に沿って初期化した各変数情報を、NN構成データDのVariableに設定する(S23d)。
【0077】
最後に上記のように作成したポリシデータCと、NN構成データDとを記憶装置18に保存する(S24)ことで処理が完了する。
【0078】
次に、NN構成データDの読取処理について説明する。
【0079】
図12は、NN構成データDの読取処理を示すフローチャートである。
【0080】
NN構成データDを読み取る場合は、制御学習部13が、記憶装置18からNN構成データDを読み出し(S31)、NN構成データDのINPUT、OUTPUT、HIDDEN欄の記述に従ったニューラルネットワークNN Gを構成し、NN構成データDのVariable欄の記述に従って各種変数設定を行い、記憶装置18に保存する(S32)。なお、記憶装置18の代わりに、空調制御装置10のメモリ領域(図示せず)に保存しても良い。
【0081】
図13は、このようにして構成されたNNの一例を示す図である。
【0082】
次に、環境データAの予測モデルと報酬関数を作成する処理について説明する。
【0083】
図14は、制御効果評価部15が、環境データAの予測モデルと報酬関数を作成する処理を示すフローチャートおよび予測モデルにおける8つのパターンを表すテーブルである。
【0084】
予測モデルと報酬関数を作成する場合、先ず、制御効果評価部15が、記憶装置18から環境データAとポリシデータCを読み出し(S41)、該環境データAのうち人流データA2をそのまま保持する(S42)。
【0085】
次に、制御効果評価部15が、該環境データAのうちBEMSデータA3のモードmと状態sと人流データA2を説明変数、温度データA1を目的変数として曲線モデルのパラメータ最尤推定により温度データA1の予測モデルを作成する(S43)。
【0086】
具体的には、本実施形態においては、
図14(b)に示すように、
図4に例示するようなBEMSデータA3のモードmから「冷房」、「暖房」、状態sから「FCUがON」、「FCUがOFF」、人流データA2から、例えば図示しない設定ファイル等を介して指定された閾値を比較して判定される「混雑時」、「非混雑時」の計8パターンに分類する。そして、該パターン毎に、BEMSデータA3の状態sを元に算出した状態維持時間を説明変数とし、温度データA1を目的変数とする予測モデルを作成する。
【0087】
モデル化に当たっては、一般的によく知られているGaussianモデル、Linearモデルや、非特許文献6に記載されているようなSphericalモデル等の曲線モデルのパラメータを最尤推定し、実際の温度データを最もよく表している(例えば、誤差最小)曲線モデルを外挿モデルとして選択する。
【0088】
なお、本実施形態においては上記のようにパターン分けを行った例を説明したが、本発明は、これに限定されるものではない。例えば、人流データA2をそのまま説明変数に追加したり、外気温等の他の環境データを説明変数に追加したり、あるいは曲線モデルによる近似ではなく深層学習を用いたモデルを利用しても良い。
【0089】
制御効果評価部15は次に、該ポリシデータCと該NN構成データDと該予測モデルから報酬関数Qを作成する(S44)ことで処理を完了する。
【0090】
次に、報酬関数Qの作成処理について説明する。
【0091】
図15は、制御効果評価部15における報酬関数Qの作成処理の一例を示すフローチャートである。
【0092】
制御効果評価部15は、報酬関数Qの入力として時刻tとアクションaを受け取り(S44a)、記憶装置18から時刻tの環境データAとNN構成データDを読み出し、NN構成データDのINPUTに記載されている変数を環境データAから抽出し、状態sを作成する(S44b)。そして、前回記憶した温度予測値が残っていた場合(S44c:Yes)、状態sに含まれる温度データA1を前回の温度予測値に上書きする(S44d)。
【0093】
制御効果評価部15は次に、予測モデルにより時刻tにアクションaをとった時の翌単位時間t+1の温度予測値を算出し、空調制御装置10内の図示しないメモリ領域上に記憶し(S44e)、状態sに含まれる温度データA1を、温度予測値で上書きする(S44f)。なお、ステップS44eにおいて、温度予測値は記憶装置18に保存しても良い。
制御効果評価部15は次に、ポリシデータCの制限事項欄の条件が満たされているか否かを判定し(S44g)、違反しているのであれば(S44g:Yes)、ペナルティ値(−1)を報酬rとする(S44k)。
【0094】
本実施形態においては、一例として、「冷房かつFCUがON」、「冷房かつFCUがOFF」、「暖房かつFCUがON」、「暖房かつFCUがOFF」の4パターンのうち何れか1つをアクションaとして受け取り、該入力として受け取ったアクションaのモードが暖房であり、外挿による温度予測値が21℃未満、または該入力として受け取ったアクションaのモードが冷房であり、外挿による温度予測値が28℃を超えていた場合にペナルティ値として−1を報酬rとする。しかしながら、本発明において、ペナルティ値は−1に限定されるものではない。
【0095】
一方、ステップS44gにおいて、ポリシデータCの制限事項欄の条件が満たされており、違反していないのであれば(S44g:No)、該入力として受け取った時刻tが1日の最後かどうか(例えば、時刻が22:00よりも後かどうか)を確認する(S44h)。ここでは、一例として、1日の最後を22:00としたがこれに限定されない。
【0096】
ステップS44hにおいて、該入力として受け取った時刻tが1日の最後ではない場合(S44h:No)、制御効果評価部15は、ポリシデータCの短期的評価欄にしたがって 報酬rを決定する(S44i)。本実施形態では、
図6に例示されるように、ポリシデータCの短期的評価欄には「norm(PV
i)*clip(1−TV
i/24.0,0,1)」という式が記載されているので、この式に従って計算する。ここで「norm(PV
i)」は「(人流データA2)/(人流データA2の最大値)」、「clip(1−TV
i/24.0,0,1)」は(1−温度/24)を計算し、計算値が0と1の間に収まる場合はその値を、計算値が0を下回る場合は0を、計算値が1を上回る場合は1をそれぞれ採用することを表す。
【0097】
ステップS44hにおいて、該入力として受け取った時刻tが1日の最後である場合、すなわち本例において、22:00以降である場合(S44h:Yes)、制御効果評価部15は、ポリシデータCの中長期的評価欄にしたがって報酬rを決定する(S44j)。本実施形態では、
図6に例示されるように、ポリシデータCの中長期的評価欄には「運転時間削減量」と記載されているので、「(1日のOFFの回数)/(1日のONとOFFの回数の合計)」を計算する。なお「1日のOFFの回数」は「冷房かつOFF」と「暖房かつOFF」の合計値である。
【0098】
1日分の評価が終了した際、つまり中長期的評価(S44j)の終了時、または制限事項違反によるペナルティ値が報酬とされた(S44k)後、制御効果評価部15は、メモリ領域または記憶装置18に記憶していた温度予測値を削除する(S44m)。
【0099】
そして、ステップS44iおよびステップS44mの後、制御効果評価部15は、報酬rと状態sとを返す(S44n)。
【0100】
制御効果評価部15は、このようにして報酬関数Qの作成処理を完了する。なお、報酬関数Qに時刻tしか入力されなかった場合、報酬関数Qは、環境データAとNN構成データDを元にした状態sの作成のみを行い、ステップS44nでは、状態sのみを返して処理を終了する。
【0101】
次に、NNの更新処理について説明する。
【0102】
図16は、NNの更新処理の流れの一例を示すフローチャートである。
【0103】
制御学習部13は、GUI機能部17から受け取った
図8に例示する指示データFから開始日と終了日を抽出し(S51)、記憶装置18からNN構成データDを読み込み、NN読込処理にしたがってNNを構築する(S52)。
【0104】
制御学習部13は次に、次に開始日から終了日の間の何れかの日を選択し、その日の最初の時刻を時刻tに代入する(S53)。本実施形態では、例として1日の最初の時刻を10:00とするが、本発明は、これに限定されない。
【0105】
そして、制御学習部13は、制御効果評価部15へ時刻tのみを送り、報酬関数Qの処理結果として状態sを取得し(S54)、NNに状態sを入力してアクションaを得る(S55)。なおNNの出力層からは、状態sにおいてアクションを行った際の報酬期待値が全パターン分だけ得られるため、その中で最大なものをアクションaとして採用する。
【0106】
次に、制御学習部13は、制御効果評価部15へ該時刻tと該アクションaとを送り、報酬関数Qの処理結果として報酬rと時刻t+1の状態s’(次状態s’)を取得する(S56)。さらに、状態sの時にアクションaを行った際の報酬rという3種類の情報を用いて、非特許文献7に記載されているような公知技術を用いてNNを更新し、記憶装置18に保存する(S57)。その後、次状態s’を状態sに代入する(S58)。
【0107】
次に制御学習部13は、指定時刻が1日の最後の時間より後であるか否かを判定する(S59)。本実施形態においては、一例として、1日の最後の時間を22:00とするが、これに限定されない。
【0108】
もしも指定時刻が一日の最後の時間(例えば、22:00)より後ではない場合(S59:No)は、指定時刻を単位時間進め(S60)、ステップS55以降の処理を繰り返す。本実施形態では、一例として、単位時間を10分とするが、これに限定されるものではない。
【0109】
ステップS59において、指定時刻が22:00よりも後である場合(S59:Yes)には、制御学習部13はさらに、終了条件が満たされているか否かを確認する(S61)。本実施形態においては、終了条件の一例として、NNの更新差分が閾値以上であることとしているが、本発明は、これに限定されない。
【0110】
制御学習部13は、ステップS61において、NNの更新差分が閾値未満であれば、処理を完了し(S61:No)、閾値以上であれば(S61:Yes)、ステップS53以降の処理を繰り返す。
【0111】
次に、NN構成データDの保存処理について説明する。
【0112】
図17は、NN構成データDの保存処理の一例を示すフローチャートである。
【0113】
制御学習部13が、自身の持つNNから各層(INPUT、OUTPUT、HIDDEN)の構造情報と変数情報を抽出し(S71)、NN構成データDのフォーマットに合わせて整形し、記憶装置18に保存する(S72)。
【0114】
次に、制御シナリオデータBを生成する処理について説明する。
【0115】
図18は、制御学習部13が制御シナリオデータBを生成する処理の一例を示すフローチャートである。
【0116】
この処理は、基本的には
図16に示すNNの更新処理と類似しているので、
図18では、
図16と同一の処理をするステップについては、同一のステップ番号を付している。
図18では、
図16におけるステップS53、S57、S61の処理の代わりに、ステップS53’、S57’、S61’が実施される。また、ステップS62が追加される。
【0117】
したがって、以下では、
図18における処理のうち、
図16と同一のステップ番号を有する処理については、重複説明を避け、異なる処理について説明する。
【0118】
すなわち、
図18におけるステップS53’では、
図16におけるステップS53とは異なり、制御学習部13は、時刻tとして開始日から終了日の間の何れかの月ではなく、開始日から終了日までの日を順次選択する。
【0119】
また、同ステップS57’では、同ステップS57とは異なり、制御学習部13は、受け取った報酬rを用いてNNを更新せずに、指定時刻tとアクションaの組を履歴として記憶装置18に記憶する。
【0120】
さらに、同ステップS61’では、同ステップS61とは異なり、制御学習部13は、NN更新差分ではなく終了日かどうかを確認する。
【0121】
そして、終了日まで到達している場合(S61’:Yes)には、ステップS53’以降の処理が繰り返され、到達していない場合(S61’:No)には、制御学習部13は、指定時刻tとアクションaの組の履歴を、制御シナリオデータBとして記憶装置18に保存する(S62)。
【0122】
図19は、このようにして生成された制御シナリオデータBの一例を示す概念図である。
【0123】
次に、制御シナリオデータBを出力する処理について説明する。
【0124】
図20は、制御出力部16が制御シナリオデータBを出力する処理の一例を示すフローチャートである。
【0125】
制御出力部16は記憶装置18から制御シナリオデータBを読み出し(S81)、制御シナリオデータBを空調システム40へ送信する(S82)ことで処理を完了する。なお、制御出力部16は記憶装置18から読み出した制御シナリオデータBをそのままの形で、もしくは表形式や文字変換等の加工をした後に、図示しない表示装置等を通じて外部に表示しても良い。
【0126】
以上述べたように、本実施形態によれば、制御学習部13が生成して記憶装置18に保存した、任意期間中の時刻tとアクションaの組の履歴である制御シナリオデータBを、制御出力部16が、記憶装置18から読み出して空調システム40へ送信することで、制御シナリオを外部の装置へ提示することが可能となる。
【0127】
また、制御効果評価部15が生成した報酬関数は、制限事項違反をしてない場合、1日の終わりでなければ短期的報酬を、1日の終わりであれば中長期的報酬を返すため、中長期的に最適な制御シナリオを提示することが可能となる。
【0128】
さらに、制御効果評価部15は、BEMSデータA3のモードmと状態sと人流データA2を説明変数、温度データを目的変数とする予測モデルを生成し、生成した予測モデルを利用して将来の温度を予測して報酬関数の値を計算するため、人流データA2が温度の変化に影響を与える場合でも適切に報酬を評価し、制御シナリオを最適化することができる。
【0129】
なお、本実施形態では、温度データA1を対象区画の代表点として扱ってきたが、代表点ではなく対象区画内の温度ヒートマップとして扱っても良い。その際、代表点と対象区画内の各点との関係性を学習することにより温度ヒートマップデータを算出する温度予測機能部(図示せず)を制御効果評価部15にさらに備え、制御学習部13のNNへ2次元配列の形で温度データA1を入力する。これによって、外気流入口があるエリアにおいて代表点が外気にさらされて過剰に制御したり、代表点が外気に当たらないため制御が行き渡らない点ができたりといったことを防ぎ、エリア特性を加味した評価が可能となる。
【0130】
さらにまた、本実施形態では、制御学習部13が制御シナリオデータBを生成する際に、1つのNNを元に生成していたが、複数のNNに基づいて生成するようにしても良い。この場合、少なくとも入力層と出力層の構成が一致している複数の更新済みNN構成データDから複数のNNを作成し、例えばそれぞれの多数決を取ってアクションaを選択する。これにより、複数の制約データを統合した制御シナリオデータBの生成が可能となる。なお、各NN構成データDの更新は、
図16に示すようなNNの更新処理により予め行っておくものとする。
【0131】
さらに、本実施形態では制御効果評価部15は、一例として、
図15に示すような処理に従って報酬関数を生成するが、本発明は、これに限定されない。
【0132】
例えば、予め1ヶ月の間に、空調をONにしても良い最大回数αを定めておき、中長期的評価結果を返す際に1ヶ月の累積のONの回数がαを超えた場合には、報酬関数が報酬rとして−1を返すようにしても良い。これにより、例えば契約電力を遵守することを制約条件として考慮することが可能となる。
【0133】
また、例えば、ONとなるエリアの個数が、ある閾値を上回る場合に報酬関数が報酬rとして−1を返すようにしても良い。これにより、施設全体の電力使用のピークを抑制することを制約条件として考慮することが可能となる。
【0134】
さらに、例えば、短期的評価の条件式として「norm(PV
i)*clip(1−TV
i/24.0,0,1)」ではなく「PV
i>=th?norm(PV
i):0」*clip(1−TV
i/24.0,0,1)」としても良い。式中の「th」は閾値を表しており、人流データA2が閾値thを超えない場合はどのアクションaを選んでも報酬rは0というような補正をしている。
【0135】
一方で、長期的評価は「1日のOFFの回数」が多いと報酬rが高くなるため、自然と上記区間は「冷房かつOFF」または「暖房かつOFF」が採用される可能性が高くなる。これにより、突発的な人流増加時の過剰制御を防ぐことが可能となる。
【0136】
上述したように、本実施形態に係る空調制御方法が適用された空調制御装置によれば、上記のような作用により、対象空間の温度データA1、人流データA2、およびBEMSデータA3を含む環境データAを利用し、NNを構成・更新することで最適な空調システム40の動作を算出することができ、もって、最適な空調システム40の動作を単位時間ごとに列挙した制御シナリオを提示することが可能となる。
【0137】
また、環境データAから生成する報酬関数が単位時間の短期的報酬と、一日単位の中長期的報酬との両方を返すことにより、今後の人流の増減を折り込んだ中長期的に最適な制御シナリオを提示することが可能となる。
【0138】
さらに、過去の環境データから未来の環境データを予測するモデルを生成し、生成した予測モデルを利用して報酬関数を生成することで、環境データの変動に頑強な制御シナリオの最適化を実現でき、別の場所や時間帯や条件に適用した場合にも正確に制御シナリオを最適化することができる。
【0139】
この発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。