特許6983020 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 株式会社日建設計総合研究所の特許一覧

特許6983020空調制御装置、空調制御方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6983020

(24)【登録日】2021年11月25日

(45)【発行日】2021年12月17日

(54)【発明の名称】空調制御装置、空調制御方法、およびプログラム

(51)【国際特許分類】

F24F 11/62 20180101AFI20211206BHJP

F24F 11/46 20180101ALI20211206BHJP

F24F 11/54 20180101ALI20211206BHJP

【ＦＩ】

F24F11/62

F24F11/46

F24F11/54

【請求項の数】4

【全頁数】21

(21)【出願番号】特願2017-183766(P2017-183766)

(22)【出願日】2017年9月25日

(65)【公開番号】特開2019-60514(P2019-60514A)

(43)【公開日】2019年4月18日

【審査請求日】2019年7月18日

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(73)【特許権者】

【識別番号】509221135

【氏名又は名称】株式会社日建設計総合研究所

(74)【代理人】

【識別番号】100108855

【弁理士】

【氏名又は名称】蔵田昌俊

(74)【代理人】

【識別番号】100103034

【弁理士】

【氏名又は名称】野河信久

(74)【代理人】

【識別番号】100075672

【弁理士】

【氏名又は名称】峰隆司

(74)【代理人】

【識別番号】100179062

【弁理士】

【氏名又は名称】井上正

(72)【発明者】

【氏名】松浦伸彦

(72)【発明者】

【氏名】秦崇洋

(72)【発明者】

【氏名】中村元紀

(72)【発明者】

【氏名】社家一平

(72)【発明者】

【氏名】進藤宏行

(72)【発明者】

【氏名】吉田雄史

(72)【発明者】

【氏名】鈴木義康

【審査官】村山美保

(56)【参考文献】

【文献】特開平０５−２６４０８６（ＪＰ，Ａ）

【文献】特開平０５−１４１２００（ＪＰ，Ａ）

【文献】特開２０１６−０８５０１４（ＪＰ，Ａ）

【文献】特開２０１１−２３１９４６（ＪＰ，Ａ）

【文献】特表２００６−５０４９１９（ＪＰ，Ａ）

【文献】特開２００７−０６０８４８（ＪＰ，Ａ）

【文献】国際公開第２０１７／２１６８３３（ＷＯ，Ａ１）

【文献】特開２０１８−０７１８５３（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｆ２４Ｆ１１／６２

Ｆ２４Ｆ１１／４６

Ｆ２４Ｆ１１／５４

(57)【特許請求の範囲】

【請求項1】

施設における空調システムの制御アクションを導くよう学習する装置であって、
前記施設の管理運用方針に基づく制約データの入力を受け付ける制約入力部と、
前記空調システムが空調を行う前記施設において、前記施設内に存在する１つ以上の対象区画をそれぞれ観測することで得られる環境データの入力を受け付ける環境観測部と、
前記空調システムの制御アクションを導くよう学習する制御学習部とを備え、
前記制約入力部は、前記制約データから、前記空調システムの制御ポリシを記載したポリシデータと、ニューラルネットワークの構成を定義したニューラルネットワーク構成データとを作成し、
前記制御学習部は、前記ニューラルネットワーク構成データを基に前記ニューラルネットワークを生成し、
前記ニューラルネットワークは、状態sのときに制御アクションaを行った際の報酬rを用いて更新され、
前記状態sは、所定の時刻tにおける報酬関数Ｑの処理結果として得られたものである、
装置。

【請求項2】

前記報酬関数Ｑは、単位時間の短期的報酬と、一日単位の中長期的報酬との両方を返すよう設計される、請求項１に記載の装置。

【請求項3】

施設における空調システムの制御アクションを導くよう学習する方法であって、
前記施設の管理運用方針に基づく制約データの入力を受け付ける第１の工程と、
前記空調システムが空調を行う前記施設において、前記施設内に存在する１つ以上の対象区画をそれぞれ観測することで得られる環境データの入力を受け付ける第２の工程と、
前記空調システムの制御アクションを導くよう学習する第３の工程とを備え、
前記第１の工程は、前記制約データから、前記空調システムの制御ポリシを記載したポリシデータと、ニューラルネットワークの構成を定義したニューラルネットワーク構成データとを作成し、
前記第３の工程は、前記ニューラルネットワーク構成データを基に前記ニューラルネットワークを生成し、
前記ニューラルネットワークは、状態sのときに制御アクションaを行った際の報酬rを用いて更新され、
前記状態sは、所定の時刻tにおける報酬関数Ｑの処理結果として得られたものである、
方法。

【請求項4】

請求項１または２の何れかに記載の装置が備える各部として、前記装置が備えるコンピュータを機能させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、人流を用いて空調を制御する空調制御装置、空調制御方法、およびプログラムに関する。

【背景技術】

【0002】

従来、ビル内で稼動する、空調を始めとした機器が消費するエネルギーを把握するために、例えば非特許文献１のように、これらデータを集計および可視化し、制御やエネルギー削減に利用するための管理システムであるビルエネルギーマネジメントシステム（以下、「ＢＥＭＳ」と称する）が利用されている。

【0003】

また、近年はビル施設内部の人の流れ（以下、「人流」と称する）を把握し、上記制御に活用しようという試みも成されており、人流の計測手段には、非特許文献２のようにレーザレンジファインダ（例えば、レンジスキャナやレーザスキャナ。以下、これらを総称し「ＬＲＦ」と称する）を用いる方法、カメラ映像から人の検出を行なう方法、ＲＦＩＤ等の無線タグを人に配布する方法等がある他、非特許文献３のように赤外線センサを用いる方法も提案されている。

【0004】

さらに、特許文献２のように、対象空間の人流と相関がある他の空間の人流をもって対象空間の人流の予測に代えかつ時間的な距離をリソース割り当ての重みとするような人流予測と制御を組み合わせた提案も成されている。

【0005】

さらにまた、特許文献１のように、空調の制御にあたり空調の停止時または稼動時の温度変化の勾配を直線近似することで温度変化の予測に代える技術も提案されている。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特許第４２２８８６２号明細書

【特許文献2】特開２０１１−２３１９４６号公報

【非特許文献】

【0007】

【非特許文献1】朝妻智裕著、「ビルの快適性と省エネを両立させ安全・安心を支えるスマートＢＥＭＳ」、東芝レビュー、６８（１２）、２６−２９、２０１３

【非特許文献2】和田悠佑、中村嘉隆、東野輝夫著、「障害物の存在する空間におけるレンジスキャナを用いた人流モデル化手法の提案」、マルチメディア、分散、強調とモバイル（ＤＩＣＯＭＯ２０１１）シンポジウム、ｐｐ．１１８３−１１９２、２０１１

【非特許文献3】秦淑彦、赤田紘基、吉川尚志、角知昭著、「焦電型赤外線センサによる廊下での通行判定方式」、情報処理学会研究報告ユビキタスコンピューティングシステム（ＵＢＩ）、Ｖｏｌ．２０１６−ＵＢＩ−４、ｐｐ．１−６、２０１６

【非特許文献4】斎藤康毅著、「ゼロから作るDeep Learning」、オライリージャパン、２０１６

【非特許文献5】巣籠悠輔著、「詳解ディープラーニング」、マイナビ出版、２０１７

【非特許文献6】Hans Wackernagel著、「地球統計学」、森北出版（２００３）

【非特許文献7】V. Mnih et al.、「Playing atari with deep reinforcement learning」、NIPS Deep Learning Workshop、２０１３

【発明の概要】

【発明が解決しようとする課題】

【0008】

しかしながら、これら従来技術では、以下のような問題がある。

【0009】

すなわち、非特許文献１、非特許文献２、非特許文献３に記載された技術を用いただけでは、例えばエネルギー消費量を削減するための、空調等を制御するための制御パターンの信号列（以下、「制御シナリオ」と称する）を提示することはできない。

【0010】

また、既存の商業施設に導入されている空調システムは、予め設定されたスケジュールに従い運転する機能のみを有する空調システムが多く、この種のシステムは外部システムと接続されていないため、制御シナリオが提示できないと、人流を空調システムの制御に生かすことができない。

【0011】

さらに特許文献１、２に記載された技術は人流の増減に単純に追随するものに過ぎないため、継続的に人流が多い状態が維持されるのか、あるいは、すぐに人流が減少するのか等、中長期的な人流の増減を考慮した制御シナリオを生成することができない。このため、（ａ）人流の増加が別の区域への通過動線に過ぎない場合、（ｂ）昼食・夕食時間帯等の店舗への移動等、極一時的な混雑である場合、（ｃ）間もなく閉店する場合、等に過剰に空調制御を適合させてしまい、その恩恵を受ける利用者の数が少ないにも関わらずエネルギーを必要以上に消費してしまい、最適な制御シナリオを提示することができない。

【0012】

さらに特許文献１に記載された技術では、空調システムの停止時または稼動時の温度変化の勾配による直線近似において、空間の広さや通行および滞留する人数、建物の構造、材質等が考慮されず、近似モデルを別の場所や時間帯や条件に適用した場合に、制御シナリオを正確に最適化することができない。

【0013】

本発明はこのような事情に鑑みてなされたものであり、動的に変化する対象空間に係る環境データを利用することによって、空調システムのための最適な制御シナリオを提示することが可能な空調制御装置、空調制御方法、およびプログラムを提供することを目的とする。

【課題を解決するための手段】

【0014】

上記目的を達成するためのこの発明の第１の観点は、人の通行がある施設の空調システムの動作を制御する空調制御装置であって、前記施設の管理運用方針に基づく制約データの入力を受け付ける制約入力部と、前記空調システムが空調を行う対象空間において、前記対象空間内に存在する１つ以上の対象区画をそれぞれ観測することで得られる環境データの入力を受け付ける環境観測部と、ニューラルネットワークを用いて前記空調システムの動作を単位時間ごとに記述した制御シナリオデータを生成する制御学習部と、前記空調システムの動作の評価を行う制御効果評価部とを備える。前記制約入力部は、前記制約データから、前記空調システムの制御ポリシを記載したポリシデータと、前記ニューラルネットワークの構成を定義したニューラルネットワーク構成データとを作成する。前記制御学習部は、前記ニューラルネットワーク構成データを基に前記ニューラルネットワークを生成し、前記制御効果評価部と連携して、前記ニューラルネットワークを更新し、前記更新されたニューラルネットワークを用いて前記制御シナリオデータを生成する。前記制御効果評価部は、前記環境データを利用して当該環境データの予測モデルを生成し、前記環境データと、前記ポリシデータと、前記ニューラルネットワーク構成データと、前記予測モデルとを利用して、予め決定された単位時間の短期的報酬と一日単位の中長期的報酬との両方を考慮して報酬を決定する報酬関数を生成し、前記報酬関数を利用して前記空調システムの動作の評価を行う。

【0015】

この発明の第２の観点では、第１の観点にさらに、前記環境データが、前記施設における人の流れに関するデータである人流データを含む。そして、前記環境観測部によって受け付けられた過去の人流データに基づいて、前記施設における人の流れを予測する人流予測部をさらに備える。

【0016】

この発明の第３の観点では、第１または第２の観点にさらに、前記環境観測部が、前記空調制御装置の外部から前記対象空間の利用状態に影響を与える外部データの入力を受け付け、前記制御効果評価部は、前記空調システムの動作の評価を行う際に、さらに前記外部データを考慮する。

【0017】

この発明の第４の観点では、第１乃至３のうち何れかの観点にさらに、前記制御効果評価部は、前記対象区画における１箇所以上の代表点の温度データから、前記代表点と前記対象区画内の各点との関係性を学習することにより、前記対象区画内の温度ヒートマップデータを算出する温度予測機能部を備える。

【0018】

この発明の第５の観点では、第１乃至４のうち何れかの観点にさらに、前記制御学習部は、前記制御シナリオデータを生成する際に、少なくとも前記ニューラルネットワークの入力層と出力層の構成が同じである、複数の更新済みニューラルネットワーク構成データを用いる。

【0019】

この発明の第６の観点では、第１乃至５のうち何れかの観点にさらに、前記制御効果評価部が生成する報酬関数は、前記空調システムに対する空調制御効果による予測消費電力量と契約電力量との差または比が、予め決定された第１の閾値よりも大きくなった場合に、前記予測消費電力量が前記契約電力量を超えるのであれば、前記空調システムの動作の制御を弱め、前記予測消費電力量が前記契約電力量を下回るのであれば、前記空調システムの動作の制御を強めるような補正を行うことによって前記報酬を決定する処理と、複数の前記対象区画の制御シナリオにおいて、前記空調システムによる消費電力のピークが重ならないように、複数の前記対象区画の制御シナリオを統合し、前記空調制御効果とあわせて前記ピークの時間が重ならないような補正を行うことによって前記報酬を決定する処理と、前記施設における人流または前記人流の変動比率が、予め決定された第２の閾値よりも大きくなる混雑時間を算出し、前記混雑時間または前記混雑時間の変動比率が、前記第２の閾値よりも小さい場合、前記空調システムの動作を制御しないような補正を行うことによって前記報酬を決定する処理とのうちの何れかの処理を行う。

【0020】

また、上記各観点は、装置に対応するが、同様に、方法、プログラムとすることもできる。

【発明の効果】

【0021】

本発明の空調制御装置、空調制御方法、およびプログラムによれば、動的に変化する対象空間に係る環境データを利用し、ニューラルネットワークを構成・更新することで最適な空調システムの動作を算出することができ、もって、最適な空調システムの動作を単位時間ごとに列挙した制御シナリオを提示することが可能となる。

【0022】

また、環境データから生成する報酬関数が、単位時間の短期的報酬と、一日単位の中長期的報酬との両方を返すことにより、今後の人流の増減を折り込んだ中長期的に最適な制御シナリオを提示することも可能となる。

【0023】

さらに、過去の環境データから未来の環境データを予測するモデルを生成し、生成した予測モデルを利用して報酬関数を生成することで、環境データの変動に頑強な制御シナリオの最適化を実現でき、別の場所や時間帯や条件に適用した場合にも正確に制御シナリオを最適化することが可能となる。

【図面の簡単な説明】

【0024】

【図1】本発明の実施形態に係る空調制御方法が適用された空調制御装置の一例を示す基本構成図である。

【図2】環境データのうち温度データの一例を示す概念図である。

【図3】環境データのうち人流データの一例を示す概念図である。

【図4】環境データのうちＢＥＭＳデータの一例を示す概念図である。

【図5】ＧＵＩ機能部における制約データ入力画面の一例を示す概念図である。

【図6】ポリシデータの一例を示す概念図である。

【図7】ニューラルネットワーク構成データの一例を示す概念図である。

【図8】ＧＵＩ機能部における制御学習部指示画面の一例を示す概念図である。

【図9】環境データを保存する処理を示すフローチャートである。

【図10】人流データを予測して保存する処理を示すフローチャートである。

【図11】ポリシデータとニューラルネットワーク構成データを生成する処理を示すフローチャートである。

【図12】ニューラルネットワーク構成データの読取処理を示すフローチャートである。

【図13】ニューラルネットワークの一例を示す図である。

【図14】環境データの予測モデルと報酬関数を作成する処理を示すフローチャートおよび予測モデルにおける８パターンを表すテーブルである。

【図15】報酬関数の作成処理の一例を示すフローチャートである。

【図16】ニューラルネットワークの更新処理の流れの一例を示すフローチャートである。

【図17】ニューラルネットワーク構成データの保存処理の一例を示すフローチャートである。

【図18】制御シナリオデータを生成する処理の一例を示すフローチャートである。

【図19】制御シナリオデータの一例を示す概念図である。

【図20】制御シナリオデータを出力する処理の一例を示すフローチャートである。

【発明を実施するための形態】

【0025】

以下に、本発明を実施するための最良の形態について図面を参照しながら説明する。

【0026】

図１は、本発明の実施形態に係る空調制御方法が適用された空調制御装置１０の一例を示す基本構成図である。

【0027】

空調制御装置１０は、環境観測部１１、制約入力部１２、制御学習部１３、人流予測部１４、制御効果評価部１５、制御出力部１６、ＧＵＩ機能部１７、および記憶装置１８を備える。ただし、記憶装置１８を設けず、上記各機能部１１〜１７が、直接通信を行うことでデータのやりとりをしても良い。

【0028】

空調制御装置１０は、環境観測部１１、制約入力部１２、制御学習部１３、人流予測部１４、制御効果評価部１５、制御出力部１６、およびＧＵＩ機能部１７は、例えばＦＰＧＡ（field-programmable gate array）もしくはＣＰＵ（Central Processing Unit）もしくはこれらの組合せおよびプログラムメモリ（例えばＳＳＤ（Solid State Drive）やＨＤＤ（Hard Disk Drive）等の随時書き込みおよび読み出しが可能な不揮発性メモリ）を有するコンピュータによって実現され、本実施形態を実施するために必要な制御機能を実現する。これら制御機能は何れも上記プログラムメモリに格納されたプログラムを上記ＦＰＧＡやＣＰＵに実行させることにより実現される。記憶装置１８は、プログラムメモリ（例えばＳＳＤ（Solid State Drive）やＨＤＤ（Hard Disk Drive）等の随時書き込みおよび読み出しが可能な不揮発性メモリ）により実現される。

【0029】

空調制御装置１０はまた、本実施形態においては、１つ以上の外部センサ２０またはこれらを統括する統括装置２２（以降、これら両方を合わせて「センサ」と称する）、ＢＥＭＳ装置３０および空調システム４０と、ネットワーク５０を介して接続しており、外部センサ２０、統括装置２２、ＢＥＭＳ装置３０、および空調システム４０のそれぞれからネットワーク５０を介して送信された環境データＡを、環境観測部１１において受信したり、制御出力部１６から、ネットワーク５０を介して空調システム４０へ、制御指示を送信することができる。

【0030】

さらに空調制御装置１０は、ＧＵＩ機能部１７を用いることによって、ユーザから制約データを受け取って制約入力部１２に伝え、ユーザからニューラルネットワーク（以下、「ＮＮ」と称する）の更新または制御シナリオデータＢの作成を行うための指示を受け取って制御学習部１３に伝える。

【0031】

なお、空調制御装置１０と空調システム４０とをネットワーク５０を経由して接続する代わりに、空調制御装置１０を、空調システム４０内の一部の装置として構成しても良い。

【0032】

また、空調制御装置１０は、ＧＵＩ機能部１７を有することなく、制約入力部１２や制御学習部１３が、ユーザからの入力を、ネットワーク５０を経由して受け取ったり、空調制御装置１０の外部で生成されたデータを入力として受け取ったりしても良い。

【0033】

さらに、空調制御装置１０は、制御学習部１３の起動を、一定時間毎に、または、環境データＡの記憶装置１８への保存をトリガーとして実施して良い。あるいは、空調制御装置１０が、環境データＡのうちの１つである人流データの保存を検出した際に、人流予測部１４が予測した値との乖離が一定の閾値よりも大きい場合に実施しても良い。

【0034】

記憶装置１８は、前述した環境データＡおよび制御シナリオデータＢの他に、ポリシデータＣ、およびニューラルネットワーク構成データ（以下、「ＮＮ構成データ」と称する）Ｄを保存する。

【0035】

環境データＡは、温度データＡ１、人流データＡ２、およびＢＥＭＳデータＡ３を含む。

【0036】

図２は、環境データＡのうち温度データＡ１の一例を示す概念図である。

【0037】

温度データＡ１は、時刻ｔ、ＩＤ、および温度ｐの各フィールドからなり、時刻ｔは、センサ２０が物理現象を測定した時刻を、ＩＤは、センサ２０の設置者が設定した対象空間および対象区画を表す識別番号を、温度ｐは、測定した温度をそれぞれ表す。しかしながら、温度データＡ１のフィールドの項目は、これらに限定されるものではない。例えば、時刻ｔは、統括装置２２がセンサ２０からデータを受信した時刻でもよく、センサ２０の精度を示す値である精度のフィールドを新たに設けてもよく、計測点が１点の場合、ＩＤを省略しても良い。

【0038】

図３は、環境データＡのうち人流データＡ２の一例を示す概念図である。

【0039】

人流データＡ２は、２つの時間ｔ_ｓ、ｔ_ｅに加え、ＩＤ、および人数ｎの各フィールドからなり、時間ｔ_ｓは、センサ２０が物理現象を測定開始した時刻と、時間ｔ_ｅは、センサ２０が物理現象の測定を終了した時刻と、ＩＤは、センサ２０の設置者が設定した対象空間および対象区画を表す識別番号を、人数ｎは、対象区画に存在した人の数をそれぞれ表す。しかしながら、人流データＡ２のフィールドの項目は、これらに限定されるものではない。例えば、人数ｎとして、単位時間当たりの任意測定区間（例えば１秒間隔の１ｍ^２メッシュ）に存在した人の数としても良い。

【0040】

図４は、環境データＡのうちＢＥＭＳデータＡ３の一例を示す概念図である。

【0041】

ＢＥＭＳデータＡ３は、時刻ｔ、ＩＤ、モードｍ、状態ｓの各フィールドからなり、時刻ｔは、空調システム４０の動作状態を観測した時刻を、ＩＤは、空調システム４０の設置者が設定した対象空間および対象区画を表す識別番号を、モードｍは、空調システム４０の動作モードである暖房または冷房を、状態ｓは、空調システム４０の動作状態であるＯＮまたはＯＦＦをそれぞれ表す。しかしながら、ＢＥＭＳデータＡ３のフィールドの項目は、これらに限定されるものではない。例えば、モードｍのフィールドの代わりに設定温度というフィールドがあっても良い。

【0042】

なお、図２乃至図４における時刻ｔや時間ｔ_ｓ、ｔ_ｅのフィールドでは、「年−月−日時：分：秒」というフォーマットで記載しているが、これに限定されるものではなく、例えば、「年−月−日時：分：秒：ミリ秒」というフォーマットで記載しても良い。

【0043】

図５は、ＧＵＩ機能部１７における制約データ入力画面７０の一例を示す概念図である。

【0044】

制約データ入力画面７０は、入力データ、制御対象、中長期的評価、短期的評価、制限事項を入力する各テキストボックス７０ａ、７０ｂ、７０ｃ、７０ｄ、７０ｅと、ＮＮの中間層の構造情報、および変数の初期化方針を入力する各テキストボックス７０ｆ、７０ｇと、入力を終了する送信ボタンｈとを有するが、これらに限定されるものではない。

【0045】

入力データのテキストボックス７０ａは、環境データＡのうち、制御シナリオを最適化する上でどの種類のデータを入力として利用するかを入力する欄である。図５では、温度と人流との２種類のデータを利用するように例示されているが、入力データは、これらに限定されず、例えば曜日や外気温といった情報を利用しても良い。

【0046】

制御対象のテキストボックス７０ｂは、空調システム４０における操作対象を入力する欄である。図５では、冷房と暖房を制御すること、およびファンコイルユニット（以下、「ＦＣＵ」と称する）の電源状態であるＯＮ／ＯＦＦを操作対象とする例が示されている。

【0047】

制御効果評価部１５は、図１には図示されていないが、中長期的評価機能部と短期的評価機能部とを備えている。

【0048】

中長期的評価および短期的評価のテキストボックス７０ｃ、７０ｄはそれぞれ、制御効果評価部１５の中長期的評価機能部および短期的評価機能部において、制御シナリオを評価するための条件を入力する欄である。図５では、中長期的評価は「運転時間削減量」に基づいて評価する例が示されている。また、短期的評価のために「ｎｏｒｍ（ＰＶ_ｉ）＊ｃｌｉｐ（１−ＴＶ_ｉ／２４．０，０，１）」という条件式が使用されることが例示されている。

【0049】

制限事項のテキストボックス７０ｅは、評価中に発生してはならない状態を条件式として入力するための欄である。図５では、「ｉｆ暖房時ａｎｄＴＶ_ｉ＞＝２１」と「ｉｆ冷房時ａｎｄＴＶ_ｉ＜＝２８」という２つの条件が入力された例が示されている。

【0050】

中間層のテキストボックス７０ｆは、中間層の数だけ変数情報を入力する欄である。変数情報としては、例えば、層番号ｈ、層種類ｉ、ニューロン数ｊ、および活性化関数ｋの４種類の情報があり、図５に示す例は、中間層の数が４つであり、各中間層毎に層番号ｈ、層種類ｉ、ニューロン数ｊ、および活性化関数ｋの４種類の情報ｇが記載されている。例えば、非特許文献４および非特許文献５に具体的に記載されている層種類や活性化関数を、層種類ｉおよび活性化関数ｋとして中間層のテキストボックス７０ｆに入力しても良い。

【0051】

初期化方針のテキストボックス７０ｇは、例えばゼロ埋め、一様分布乱数、正規分布乱数といった、ニューラルネットワークの各変数の初期化方針を入力する欄である。

【0052】

送信ボタン７０ｈが押下され入力が完了すると、ＧＵＩ機能部１７は、上記の各テキストボックス７０ａ〜７０ｇに入力された情報からなる制約データＥを、制約入力部１２へ出力する。

【0053】

なお、制約データＥの修正や新規作成を行う場合も、ＧＵＩ機能部１７において制約データ入力画面７０を開き、テキストボックス７０ａ〜７０ｇへデータを入力することによって行う。

【0054】

図６は、ポリシデータＣの一例を示す概念図である。

【0055】

図６に例示されるポリシデータＣは、中長期的評価欄、短期的評価欄、および制限事項欄の３つの要素を有し、図５に例示するように、制約データＥにおけるテキストボックス７０ｃ、７０ｄ、７０ｅに入力されたものと同じ値が記載されている。しかしながら、ポリシデータＣが有する要素は、これら３つの要素に限定されるものではない。

【0056】

図７は、ＮＮ構成データＤの一例を示す概念図である。

【0057】

図７に例示されるＮＮ構成データＤは、ＩＮＰＵＴ、ＯＵＴＰＵＴ、ＨＩＤＤＥＮ、Ｖａｒｉａｂｌｅからなる４つの要素を有している。ＩＮＰＵＴは、ＮＮの入力層の次元数および対応したラベル名であり、ＯＵＴＰＵＴは、ＮＮの出力層の次元および対応したラベル名であり、ＨＩＤＤＥＮは、ＮＮの中間層の数だけ層番号ｈ、層種類ｉ、ニューロン数ｊ、および活性化関数ｋからなる４種類の情報を列挙し、Ｖａｒｉａｂｌｅは各変数値である。しかしながら、ＮＮ構成データＤが有する要素は、これら４つの要素に限定されるものではない。

【0058】

図８は、ＧＵＩ機能部１７における、制御学習部指示画面８０の一例を示す概念図である。

【0059】

図８に例示される制御学習部指示画面８０は、開始日および終了日をそれぞれ直接入力するためのテキストボックス８０ａ、８０ｂと、ＮＮ更新または制御シナリオデータ算出を指定するためのラジオボタン８０ｃ、８０ｄと、制約データＥ、ＮＮ構成データＤ、ポリシデータＣを選択するためのテキストボックス８０ｅ、８０ｆ、８０ｇと、入力を終了する送信ボタンｈとを有するが、これらに限定されるものではない。

【0060】

送信ボタン８０ｈが押下され入力が完了すると、ＧＵＩ機能部１７は、制御学習部指示画面８０から入力された上記各データからなる指示データＦを、制御学習部１３へ出力する。

【0061】

ＮＮ更新や制御シナリオデータＢの作成を再度行う場合も上記と同様の手順で行う。

【0062】

次に、本発明の実施形態に係る空調制御方法が適用された空調制御装置１０によってなされる各処理について、フローチャートを参照しながら説明する。

【0063】

まず、環境データＡを保存する処理について説明する。

【0064】

図９は、環境観測部１１が環境データＡを保存する処理を示すフローチャートである。

【0065】

環境データＡを保存するために、環境観測部１１は、外部センサ２０またはＢＥＭＳ装置３０から環境データＡを受信し（Ｓ１）、記憶装置１８に該環境データＡを保存する（Ｓ２）。

【0066】

次に、人流データＡ２を予測して保存する処理について説明する。

【0067】

図１０は、人流予測部１４が人流データＡ２を予測して保存する処理を示すフローチャートである。

【0068】

本実施形態において、人流予測部１４は１日経過ごとに起動する。そして、まず、記憶装置１８から、環境データＡのうち最近１日分の人流データＡ２を読み出す（Ｓ１１）。次に、読み出した人流データＡ２の時間ｔ_ｓ、ｔ_ｅのフィールドのうち「年−月−日」に該当する部分の数値を、予測したい「年−月−日」に変更し、記憶装置１８に保存する（Ｓ１２）ことで処理が完了する。すなわち、本実施形態では、当日の日に最も近い日の人流データＡ２に等しいと予測する。しかし本発明は、これに限定されるものではない。

【0069】

なお、本実施形態においては人流予測部１４が、将来の人流を予測して記憶装置１８に保存することとしたが、本発明は、これに限定されるものでははく、空調制御装置１０の外部で予測された将来の人流データＡ２を、環境観測部１１が環境データＡとして受け取り、記憶装置１８に保存しても良い。

【0070】

次に、制約データＥからポリシデータＣとＮＮ構成データＤを生成する処理について説明する。

【0071】

図１１は、制約入力部１２が、制約データＥから、ポリシデータＣとＮＮ構成データＤを生成する処理を示すフローチャートである。

【0072】

ポリシデータＣとＮＮ構成データＤを生成する場合、制約入力部１２が、制約データＥを受け取り（Ｓ２１）、制約データＥから中長期的評価欄、短期的評価欄、制限事項欄を抽出してポリシデータＣを生成する（Ｓ２２）。

【0073】

次に制約入力部１２は以下のようにＮＮ構成データＤを作成する（Ｓ２３）。

【0074】

本実施形態では、図５に例示する制約データ入力画面７０に示すように、制約データＥでは、入力データ欄が「温度」、「人流」の２要素となっているので、図７に示すようにＮＮ構成データＤのＩＮＰＵＴに「２、温度、人流」を設定する（Ｓ２３ａ）。

【0075】

次に、制約データＥの制御対象欄の要素数をカウントしてＯＵＴＰＵＴに設定する（Ｓ２３ｂ）。ここで、制約データ入力画面７０に示すように、制御対象欄は「冷房／暖房」、「ＯＮ／ＯＦＦ」の２要素なので、その組み合わせである「冷房かつＯＮ」、「冷房かつＯＦＦ」、「暖房かつＯＮ」、「暖房かつＯＦＦ」の４種類が制御に関するアクションであるので、図７に示すようにＮＮ構成データＤのＯＵＴＰＵＴに、「４、冷房かつＯＦＦ、冷房かつＯＮ、暖房かつＯＦＦ、暖房かつＯＮ」を設定する。

【0076】

さらに、制約データＥから中間層欄の内容を抽出して、ＮＮ構成データＤのＨＩＤＤＥＮに設定し（Ｓ２３ｃ）、制約データＥの初期化方針欄の内容に沿って初期化した各変数情報を、ＮＮ構成データＤのＶａｒｉａｂｌｅに設定する（Ｓ２３ｄ）。

【0077】

最後に上記のように作成したポリシデータＣと、ＮＮ構成データＤとを記憶装置１８に保存する（Ｓ２４）ことで処理が完了する。

【0078】

次に、ＮＮ構成データＤの読取処理について説明する。

【0079】

図１２は、ＮＮ構成データＤの読取処理を示すフローチャートである。

【0080】

ＮＮ構成データＤを読み取る場合は、制御学習部１３が、記憶装置１８からＮＮ構成データＤを読み出し（Ｓ３１）、ＮＮ構成データＤのＩＮＰＵＴ、ＯＵＴＰＵＴ、ＨＩＤＤＥＮ欄の記述に従ったニューラルネットワークＮＮＧを構成し、ＮＮ構成データＤのＶａｒｉａｂｌｅ欄の記述に従って各種変数設定を行い、記憶装置１８に保存する（Ｓ３２）。なお、記憶装置１８の代わりに、空調制御装置１０のメモリ領域（図示せず）に保存しても良い。

【0081】

図１３は、このようにして構成されたＮＮの一例を示す図である。

【0082】

次に、環境データＡの予測モデルと報酬関数を作成する処理について説明する。

【0083】

図１４は、制御効果評価部１５が、環境データＡの予測モデルと報酬関数を作成する処理を示すフローチャートおよび予測モデルにおける８つのパターンを表すテーブルである。

【0084】

予測モデルと報酬関数を作成する場合、先ず、制御効果評価部１５が、記憶装置１８から環境データＡとポリシデータＣを読み出し（Ｓ４１）、該環境データＡのうち人流データＡ２をそのまま保持する（Ｓ４２）。

【0085】

次に、制御効果評価部１５が、該環境データＡのうちＢＥＭＳデータＡ３のモードｍと状態ｓと人流データＡ２を説明変数、温度データＡ１を目的変数として曲線モデルのパラメータ最尤推定により温度データＡ１の予測モデルを作成する（Ｓ４３）。

【0086】

具体的には、本実施形態においては、図１４（ｂ）に示すように、図４に例示するようなＢＥＭＳデータＡ３のモードｍから「冷房」、「暖房」、状態ｓから「ＦＣＵがＯＮ」、「ＦＣＵがＯＦＦ」、人流データＡ２から、例えば図示しない設定ファイル等を介して指定された閾値を比較して判定される「混雑時」、「非混雑時」の計８パターンに分類する。そして、該パターン毎に、ＢＥＭＳデータＡ３の状態ｓを元に算出した状態維持時間を説明変数とし、温度データＡ１を目的変数とする予測モデルを作成する。

【0087】

モデル化に当たっては、一般的によく知られているＧａｕｓｓｉａｎモデル、Ｌｉｎｅａｒモデルや、非特許文献６に記載されているようなＳｐｈｅｒｉｃａｌモデル等の曲線モデルのパラメータを最尤推定し、実際の温度データを最もよく表している（例えば、誤差最小）曲線モデルを外挿モデルとして選択する。

【0088】

なお、本実施形態においては上記のようにパターン分けを行った例を説明したが、本発明は、これに限定されるものではない。例えば、人流データＡ２をそのまま説明変数に追加したり、外気温等の他の環境データを説明変数に追加したり、あるいは曲線モデルによる近似ではなく深層学習を用いたモデルを利用しても良い。

【0089】

制御効果評価部１５は次に、該ポリシデータＣと該ＮＮ構成データＤと該予測モデルから報酬関数Ｑを作成する（Ｓ４４）ことで処理を完了する。

【0090】

次に、報酬関数Ｑの作成処理について説明する。

【0091】

図１５は、制御効果評価部１５における報酬関数Ｑの作成処理の一例を示すフローチャートである。

【0092】

制御効果評価部１５は、報酬関数Ｑの入力として時刻ｔとアクションａを受け取り（Ｓ４４ａ）、記憶装置１８から時刻ｔの環境データＡとＮＮ構成データＤを読み出し、ＮＮ構成データＤのＩＮＰＵＴに記載されている変数を環境データＡから抽出し、状態ｓを作成する（Ｓ４４ｂ）。そして、前回記憶した温度予測値が残っていた場合（Ｓ４４ｃ：Ｙｅｓ）、状態ｓに含まれる温度データＡ１を前回の温度予測値に上書きする（Ｓ４４ｄ）。

【0093】

制御効果評価部１５は次に、予測モデルにより時刻ｔにアクションａをとった時の翌単位時間ｔ＋１の温度予測値を算出し、空調制御装置１０内の図示しないメモリ領域上に記憶し（Ｓ４４ｅ）、状態ｓに含まれる温度データＡ１を、温度予測値で上書きする（Ｓ４４ｆ）。なお、ステップＳ４４ｅにおいて、温度予測値は記憶装置１８に保存しても良い。
制御効果評価部１５は次に、ポリシデータＣの制限事項欄の条件が満たされているか否かを判定し（Ｓ４４ｇ）、違反しているのであれば（Ｓ４４ｇ：Ｙｅｓ）、ペナルティ値（−１）を報酬ｒとする（Ｓ４４ｋ）。

【0094】

本実施形態においては、一例として、「冷房かつＦＣＵがＯＮ」、「冷房かつＦＣＵがＯＦＦ」、「暖房かつＦＣＵがＯＮ」、「暖房かつＦＣＵがＯＦＦ」の４パターンのうち何れか１つをアクションａとして受け取り、該入力として受け取ったアクションａのモードが暖房であり、外挿による温度予測値が２１℃未満、または該入力として受け取ったアクションａのモードが冷房であり、外挿による温度予測値が２８℃を超えていた場合にペナルティ値として−１を報酬ｒとする。しかしながら、本発明において、ペナルティ値は−１に限定されるものではない。

【0095】

一方、ステップＳ４４ｇにおいて、ポリシデータＣの制限事項欄の条件が満たされており、違反していないのであれば（Ｓ４４ｇ：Ｎｏ）、該入力として受け取った時刻ｔが１日の最後かどうか（例えば、時刻が２２：００よりも後かどうか）を確認する（Ｓ４４ｈ）。ここでは、一例として、１日の最後を２２：００としたがこれに限定されない。

【0096】

ステップＳ４４ｈにおいて、該入力として受け取った時刻ｔが１日の最後ではない場合（Ｓ４４ｈ：Ｎｏ）、制御効果評価部１５は、ポリシデータＣの短期的評価欄にしたがって報酬ｒを決定する（Ｓ４４ｉ）。本実施形態では、図６に例示されるように、ポリシデータＣの短期的評価欄には「ｎｏｒｍ（ＰＶ_ｉ）＊ｃｌｉｐ（１−ＴＶ_ｉ／２４．０，０，１）」という式が記載されているので、この式に従って計算する。ここで「ｎｏｒｍ（ＰＶ_ｉ）」は「（人流データＡ２）／（人流データＡ２の最大値）」、「ｃｌｉｐ（１−ＴＶ_ｉ／２４．０，０，１）」は（１−温度／２４）を計算し、計算値が０と１の間に収まる場合はその値を、計算値が０を下回る場合は０を、計算値が１を上回る場合は１をそれぞれ採用することを表す。

【0097】

ステップＳ４４ｈにおいて、該入力として受け取った時刻ｔが１日の最後である場合、すなわち本例において、２２：００以降である場合（Ｓ４４ｈ：Ｙｅｓ）、制御効果評価部１５は、ポリシデータＣの中長期的評価欄にしたがって報酬ｒを決定する（Ｓ４４ｊ）。本実施形態では、図６に例示されるように、ポリシデータＣの中長期的評価欄には「運転時間削減量」と記載されているので、「（１日のＯＦＦの回数）／（１日のＯＮとＯＦＦの回数の合計）」を計算する。なお「１日のＯＦＦの回数」は「冷房かつＯＦＦ」と「暖房かつＯＦＦ」の合計値である。

【0098】

１日分の評価が終了した際、つまり中長期的評価（Ｓ４４ｊ）の終了時、または制限事項違反によるペナルティ値が報酬とされた（Ｓ４４ｋ）後、制御効果評価部１５は、メモリ領域または記憶装置１８に記憶していた温度予測値を削除する（Ｓ４４ｍ）。

【0099】

そして、ステップＳ４４ｉおよびステップＳ４４ｍの後、制御効果評価部１５は、報酬ｒと状態ｓとを返す（Ｓ４４ｎ）。

【0100】

制御効果評価部１５は、このようにして報酬関数Ｑの作成処理を完了する。なお、報酬関数Ｑに時刻ｔしか入力されなかった場合、報酬関数Ｑは、環境データＡとＮＮ構成データＤを元にした状態ｓの作成のみを行い、ステップＳ４４ｎでは、状態ｓのみを返して処理を終了する。

【0101】

次に、ＮＮの更新処理について説明する。

【0102】

図１６は、ＮＮの更新処理の流れの一例を示すフローチャートである。

【0103】

制御学習部１３は、ＧＵＩ機能部１７から受け取った図８に例示する指示データＦから開始日と終了日を抽出し（Ｓ５１）、記憶装置１８からＮＮ構成データＤを読み込み、ＮＮ読込処理にしたがってＮＮを構築する（Ｓ５２）。

【0104】

制御学習部１３は次に、次に開始日から終了日の間の何れかの日を選択し、その日の最初の時刻を時刻ｔに代入する（Ｓ５３）。本実施形態では、例として１日の最初の時刻を１０：００とするが、本発明は、これに限定されない。

【0105】

そして、制御学習部１３は、制御効果評価部１５へ時刻ｔのみを送り、報酬関数Ｑの処理結果として状態ｓを取得し（Ｓ５４）、ＮＮに状態ｓを入力してアクションａを得る（Ｓ５５）。なおＮＮの出力層からは、状態ｓにおいてアクションを行った際の報酬期待値が全パターン分だけ得られるため、その中で最大なものをアクションａとして採用する。

【0106】

次に、制御学習部１３は、制御効果評価部１５へ該時刻ｔと該アクションａとを送り、報酬関数Ｑの処理結果として報酬ｒと時刻ｔ＋１の状態ｓ’（次状態ｓ’）を取得する（Ｓ５６）。さらに、状態ｓの時にアクションａを行った際の報酬ｒという３種類の情報を用いて、非特許文献７に記載されているような公知技術を用いてＮＮを更新し、記憶装置１８に保存する（Ｓ５７）。その後、次状態ｓ’を状態ｓに代入する（Ｓ５８）。

【0107】

次に制御学習部１３は、指定時刻が１日の最後の時間より後であるか否かを判定する（Ｓ５９）。本実施形態においては、一例として、１日の最後の時間を２２：００とするが、これに限定されない。

【0108】

もしも指定時刻が一日の最後の時間（例えば、２２：００）より後ではない場合（Ｓ５９：Ｎｏ）は、指定時刻を単位時間進め（Ｓ６０）、ステップＳ５５以降の処理を繰り返す。本実施形態では、一例として、単位時間を１０分とするが、これに限定されるものではない。

【0109】

ステップＳ５９において、指定時刻が２２：００よりも後である場合（Ｓ５９：Ｙｅｓ）には、制御学習部１３はさらに、終了条件が満たされているか否かを確認する（Ｓ６１）。本実施形態においては、終了条件の一例として、ＮＮの更新差分が閾値以上であることとしているが、本発明は、これに限定されない。

【0110】

制御学習部１３は、ステップＳ６１において、ＮＮの更新差分が閾値未満であれば、処理を完了し（Ｓ６１：Ｎｏ）、閾値以上であれば（Ｓ６１：Ｙｅｓ）、ステップＳ５３以降の処理を繰り返す。

【0111】

次に、ＮＮ構成データＤの保存処理について説明する。

【0112】

図１７は、ＮＮ構成データＤの保存処理の一例を示すフローチャートである。

【0113】

制御学習部１３が、自身の持つＮＮから各層（ＩＮＰＵＴ、ＯＵＴＰＵＴ、ＨＩＤＤＥＮ）の構造情報と変数情報を抽出し（Ｓ７１）、ＮＮ構成データＤのフォーマットに合わせて整形し、記憶装置１８に保存する（Ｓ７２）。

【0114】

次に、制御シナリオデータＢを生成する処理について説明する。

【0115】

図１８は、制御学習部１３が制御シナリオデータＢを生成する処理の一例を示すフローチャートである。

【0116】

この処理は、基本的には図１６に示すＮＮの更新処理と類似しているので、図１８では、図１６と同一の処理をするステップについては、同一のステップ番号を付している。図１８では、図１６におけるステップＳ５３、Ｓ５７、Ｓ６１の処理の代わりに、ステップＳ５３’、Ｓ５７’、Ｓ６１’が実施される。また、ステップＳ６２が追加される。

【0117】

したがって、以下では、図１８における処理のうち、図１６と同一のステップ番号を有する処理については、重複説明を避け、異なる処理について説明する。

【0118】

すなわち、図１８におけるステップＳ５３’では、図１６におけるステップＳ５３とは異なり、制御学習部１３は、時刻ｔとして開始日から終了日の間の何れかの月ではなく、開始日から終了日までの日を順次選択する。

【0119】

また、同ステップＳ５７’では、同ステップＳ５７とは異なり、制御学習部１３は、受け取った報酬ｒを用いてＮＮを更新せずに、指定時刻ｔとアクションａの組を履歴として記憶装置１８に記憶する。

【0120】

さらに、同ステップＳ６１’では、同ステップＳ６１とは異なり、制御学習部１３は、ＮＮ更新差分ではなく終了日かどうかを確認する。

【0121】

そして、終了日まで到達している場合（Ｓ６１’：Ｙｅｓ）には、ステップＳ５３’以降の処理が繰り返され、到達していない場合（Ｓ６１’：Ｎｏ）には、制御学習部１３は、指定時刻ｔとアクションａの組の履歴を、制御シナリオデータＢとして記憶装置１８に保存する（Ｓ６２）。

【0122】

図１９は、このようにして生成された制御シナリオデータＢの一例を示す概念図である。

【0123】

次に、制御シナリオデータＢを出力する処理について説明する。

【0124】

図２０は、制御出力部１６が制御シナリオデータＢを出力する処理の一例を示すフローチャートである。

【0125】

制御出力部１６は記憶装置１８から制御シナリオデータＢを読み出し（Ｓ８１）、制御シナリオデータＢを空調システム４０へ送信する（Ｓ８２）ことで処理を完了する。なお、制御出力部１６は記憶装置１８から読み出した制御シナリオデータＢをそのままの形で、もしくは表形式や文字変換等の加工をした後に、図示しない表示装置等を通じて外部に表示しても良い。

【0126】

以上述べたように、本実施形態によれば、制御学習部１３が生成して記憶装置１８に保存した、任意期間中の時刻ｔとアクションａの組の履歴である制御シナリオデータＢを、制御出力部１６が、記憶装置１８から読み出して空調システム４０へ送信することで、制御シナリオを外部の装置へ提示することが可能となる。

【0127】

また、制御効果評価部１５が生成した報酬関数は、制限事項違反をしてない場合、１日の終わりでなければ短期的報酬を、１日の終わりであれば中長期的報酬を返すため、中長期的に最適な制御シナリオを提示することが可能となる。

【0128】

さらに、制御効果評価部１５は、ＢＥＭＳデータＡ３のモードｍと状態ｓと人流データＡ２を説明変数、温度データを目的変数とする予測モデルを生成し、生成した予測モデルを利用して将来の温度を予測して報酬関数の値を計算するため、人流データＡ２が温度の変化に影響を与える場合でも適切に報酬を評価し、制御シナリオを最適化することができる。

【0129】

なお、本実施形態では、温度データＡ１を対象区画の代表点として扱ってきたが、代表点ではなく対象区画内の温度ヒートマップとして扱っても良い。その際、代表点と対象区画内の各点との関係性を学習することにより温度ヒートマップデータを算出する温度予測機能部（図示せず）を制御効果評価部１５にさらに備え、制御学習部１３のＮＮへ２次元配列の形で温度データＡ１を入力する。これによって、外気流入口があるエリアにおいて代表点が外気にさらされて過剰に制御したり、代表点が外気に当たらないため制御が行き渡らない点ができたりといったことを防ぎ、エリア特性を加味した評価が可能となる。

【0130】

さらにまた、本実施形態では、制御学習部１３が制御シナリオデータＢを生成する際に、１つのＮＮを元に生成していたが、複数のＮＮに基づいて生成するようにしても良い。この場合、少なくとも入力層と出力層の構成が一致している複数の更新済みＮＮ構成データＤから複数のＮＮを作成し、例えばそれぞれの多数決を取ってアクションａを選択する。これにより、複数の制約データを統合した制御シナリオデータＢの生成が可能となる。なお、各ＮＮ構成データＤの更新は、図１６に示すようなＮＮの更新処理により予め行っておくものとする。

【0131】

さらに、本実施形態では制御効果評価部１５は、一例として、図１５に示すような処理に従って報酬関数を生成するが、本発明は、これに限定されない。

【0132】

例えば、予め１ヶ月の間に、空調をＯＮにしても良い最大回数αを定めておき、中長期的評価結果を返す際に１ヶ月の累積のＯＮの回数がαを超えた場合には、報酬関数が報酬ｒとして−１を返すようにしても良い。これにより、例えば契約電力を遵守することを制約条件として考慮することが可能となる。

【0133】

また、例えば、ＯＮとなるエリアの個数が、ある閾値を上回る場合に報酬関数が報酬ｒとして−１を返すようにしても良い。これにより、施設全体の電力使用のピークを抑制することを制約条件として考慮することが可能となる。

【0134】

さらに、例えば、短期的評価の条件式として「ｎｏｒｍ（ＰＶ_ｉ）＊ｃｌｉｐ（１−ＴＶ_ｉ／２４．０，０，１）」ではなく「ＰＶ_ｉ＞＝ｔｈ？ｎｏｒｍ（ＰＶ_ｉ）：０」＊ｃｌｉｐ（１−ＴＶ_ｉ／２４．０，０，１）」としても良い。式中の「ｔｈ」は閾値を表しており、人流データＡ２が閾値ｔｈを超えない場合はどのアクションａを選んでも報酬ｒは０というような補正をしている。

【0135】

一方で、長期的評価は「１日のＯＦＦの回数」が多いと報酬ｒが高くなるため、自然と上記区間は「冷房かつＯＦＦ」または「暖房かつＯＦＦ」が採用される可能性が高くなる。これにより、突発的な人流増加時の過剰制御を防ぐことが可能となる。

【0136】

上述したように、本実施形態に係る空調制御方法が適用された空調制御装置によれば、上記のような作用により、対象空間の温度データＡ１、人流データＡ２、およびＢＥＭＳデータＡ３を含む環境データＡを利用し、ＮＮを構成・更新することで最適な空調システム４０の動作を算出することができ、もって、最適な空調システム４０の動作を単位時間ごとに列挙した制御シナリオを提示することが可能となる。

【0137】

また、環境データＡから生成する報酬関数が単位時間の短期的報酬と、一日単位の中長期的報酬との両方を返すことにより、今後の人流の増減を折り込んだ中長期的に最適な制御シナリオを提示することが可能となる。

【0138】

さらに、過去の環境データから未来の環境データを予測するモデルを生成し、生成した予測モデルを利用して報酬関数を生成することで、環境データの変動に頑強な制御シナリオの最適化を実現でき、別の場所や時間帯や条件に適用した場合にも正確に制御シナリオを最適化することができる。

【0139】

この発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

【符号の説明】

【0140】

１０・・空調制御装置、１１・・環境観測部、１２・・制約入力部、１３・・制御学習部、１４・・人流予測部、１５・・制御効果評価部、１６・・制御出力部、１７・・ＧＵＩ機能部、１８・・記憶装置、２０・・外部センサ、２２・・統括装置、３０・・ＢＥＭＳ装置、４０・・空調システム、５０・・ネットワーク、７０・・制約データ入力画面、７０ａ〜７０ｇ・・テキストボックス、７０ｈ・・送信ボタン、８０・・制御学習部指示画面、８０ａ〜８０ｂ・・テキストボックス、８０ｃ〜８０ｄ・・ラジオボタン、８０ｅ〜８０ｇ・・テキストボックス、８０ｈ・・送信ボタン。

【図1】