IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 東京瓦斯株式会社の特許一覧

<>
  • 特開-熱源システム 図1
  • 特開-熱源システム 図2
  • 特開-熱源システム 図3
  • 特開-熱源システム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024035841
(43)【公開日】2024-03-15
(54)【発明の名称】熱源システム
(51)【国際特許分類】
   F24F 11/46 20180101AFI20240308BHJP
   F24F 11/83 20180101ALI20240308BHJP
   F24F 11/63 20180101ALI20240308BHJP
   F24F 5/00 20060101ALI20240308BHJP
   G05D 23/00 20060101ALI20240308BHJP
   G05B 11/36 20060101ALI20240308BHJP
   F24F 140/00 20180101ALN20240308BHJP
   F24F 140/60 20180101ALN20240308BHJP
【FI】
F24F11/46
F24F11/83
F24F11/63
F24F5/00 101Z
G05D23/00 D
G05B11/36 K
F24F140:00
F24F140:60
【審査請求】有
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2022133073
(22)【出願日】2022-08-24
(11)【特許番号】
(45)【特許公報発行日】2024-03-07
(71)【出願人】
【識別番号】000220262
【氏名又は名称】東京瓦斯株式会社
(74)【代理人】
【識別番号】110000936
【氏名又は名称】弁理士法人青海国際特許事務所
(72)【発明者】
【氏名】鈴木 雄仁
【テーマコード(参考)】
3L054
3L260
5H004
5H323
【Fターム(参考)】
3L054BF01
3L054BF02
3L260AB06
3L260BA41
3L260CB32
3L260CB37
3L260CB38
3L260CB46
3L260EA07
3L260EA22
3L260FA10
3L260FB23
3L260FB32
3L260FB33
5H004GA05
5H004HA01
5H004HB01
5H004JA01
5H004KA24
5H004KD35
5H323AA11
5H323BB03
5H323CA03
5H323CA05
5H323CB22
5H323CB25
5H323CB43
5H323DA01
5H323DB13
5H323FF04
5H323FF06
5H323GG01
5H323KK05
5H323LL29
5H323MM08
(57)【要約】
【課題】熱源システムを構成する機器を適切に制御する。
【解決手段】熱源システムの制御装置は、熱源機補機の運転条件に関する複数種類の状態変数Stを取得する取得部と、複数種類の状態変数Stを学習モデルに入力することで、熱源機補機に関する複数種類の行動のうち1つの行動を決定する行動決定部と、決定された行動を実行するように熱源機補機の運転条件を制御する制御部と、制御された運転条件で熱源機補機を運転させた場合における、熱源機および熱源機補機を含む熱源システム全体の消費エネルギーに対する熱負荷を示すシステムCOPを計算するシステムCOP計算部と、システムCOPの今回値が前回値以上である場合、今回実行された行動が選択され易くなるような報酬に基づいて学習モデルを更新し、システムCOPの今回値が前回値未満である場合、今回実行された行動が選択され難くなるような報酬に基づいて学習モデルを更新する更新部とを有する。
【選択図】図1
【特許請求の範囲】
【請求項1】
第2熱媒体を用いて第1熱媒体を冷却または加熱して熱負荷設備に供給する熱源機と、
前記熱源機と前記熱負荷設備との間で前記第1熱媒体を循環させる第1ポンプと、前記第2熱媒体の熱交換を行う熱交換器と、前記熱源機と前記熱交換器との間で前記第2熱媒体を循環させる第2ポンプとを含む熱源機補機と、
強化学習を用いて前記熱源機補機の運転を制御する制御装置と、
を備え、
前記制御装置は、
前記熱源機補機の運転条件に関する複数種類の状態変数Stを取得する取得部と、
前記複数種類の状態変数Stを学習モデルに入力することで、前記熱源機補機に関する複数種類の行動のうち1つの行動を決定する行動決定部と、
前記決定された行動を実行するように前記熱源機補機の運転条件を制御する制御部と、
前記制御された運転条件で前記熱源機補機を運転させた場合における、前記熱源機および前記熱源機補機を含む熱源システム全体の消費エネルギーに対する熱負荷を示すシステムCOPを計算するシステムCOP計算部と、
前記システムCOPの今回値が前回値以上である場合、今回実行された行動が選択され易くなるような報酬に基づいて前記学習モデルを更新し、前記システムCOPの今回値が前回値未満である場合、今回実行された行動が選択され難くなるような報酬に基づいて前記学習モデルを更新する更新部と、
を有し、
前記複数種類の状態変数Stは、
前記第1ポンプを駆動させるモータに電力を供給するインバータの周波数である第1ポンプ周波数と、
前記第2ポンプを駆動させるモータに電力を供給するインバータの周波数である第2ポンプ周波数と、
を少なくとも含み、
前記複数種類の行動は、
前記第1ポンプ周波数を増加させる行動と、
前記第1ポンプ周波数を減少させる行動と、
前記第2ポンプ周波数を増加させる行動と、
前記第2ポンプ周波数を減少させる行動と、
を少なくとも含む、熱源システム。
【請求項2】
前記強化学習は、深層強化学習であり、
前記深層強化学習の入力である前記複数種類の状態変数Stと、前記深層強化学習の出力である、前記複数種類の行動にそれぞれ対応する複数種類のQ値との間には、ニューラルネットワークが形成されており、
前記行動決定部は、
前記複数種類の状態変数Stに、前記ニューラルネットワークにおける重みWを乗算することで、前記複数種類のQ値をそれぞれ計算するQ値計算部と、
前記複数種類の行動の中から、前記計算されたQ値のうち最も大きいQ値に対応する行動を選択する行動選択部と、
を含み、
前記更新部は、
前記システムCOPの今回値が前回値以上である場合、前記Q値計算部における重みWを、今回実行した行動に対応するQ値が今回値よりも大きくなるような重みWに更新し、
前記システムCOPの今回値が前回値未満である場合、前記Q値計算部における重みWを、今回実行した行動に対応するQ値が今回値よりも小さくなるような重みWに更新する、
請求項1に記載の熱源システム。
【請求項3】
前記複数種類の状態変数Stは、
前記第1ポンプ周波数と、
前記第2ポンプ周波数と、
前記第2熱媒体が前記熱交換器から送出される出口における前記第2熱媒体の温度である第2熱媒体温度と、
を少なくとも含み、
前記複数種類の行動は、
前記第1ポンプ周波数を増加させる行動と、
前記第1ポンプ周波数を減少させる行動と、
前記第2ポンプ周波数を増加させる行動と、
前記第2ポンプ周波数を減少させる行動と、
前記第2熱媒体温度を上昇させる行動と、
前記第2熱媒体温度を低下させる行動と、
を少なくとも含む、請求項1または2に記載の熱源システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、熱源システムを構成する機器を適切に制御することが可能な熱源システムに関する。
【背景技術】
【0002】
例えば、特許文献1には、冷却塔を含む熱源システムが開示されている。かかる技術では、強化学習を利用して冷却塔の運転台数が制御されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2020-183816号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
熱源システムでは、熱源機と熱負荷設備との間で冷水が冷水ポンプによって循環しており、冷水を冷却する冷却水が熱源機と冷却塔との間で冷却水ポンプによって循環している。熱源システム全体の消費エネルギーを抑制することが望まれているが、熱源システム全体の消費エネルギーを抑制するには、冷水ポンプや冷却水ポンプを適切に制御する必要がある。
【0005】
本発明は、このような課題に鑑み、熱源システムを構成する機器を適切に制御することが可能な熱源システムを提供することを目的としている。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明の熱源システムは、第2熱媒体を用いて第1熱媒体を冷却または加熱して熱負荷設備に供給する熱源機と、熱源機と熱負荷設備との間で第1熱媒体を循環させる第1ポンプと、第2熱媒体の熱交換を行う熱交換器と、熱源機と熱交換器との間で第2熱媒体を循環させる第2ポンプとを含む熱源機補機と、強化学習を用いて熱源機補機の運転を制御する制御装置と、を備え、制御装置は、熱源機補機の運転条件に関する複数種類の状態変数Stを取得する取得部と、複数種類の状態変数Stを学習モデルに入力することで、熱源機補機に関する複数種類の行動のうち1つの行動を決定する行動決定部と、決定された行動を実行するように熱源機補機の運転条件を制御する制御部と、制御された運転条件で熱源機補機を運転させた場合における、熱源機および熱源機補機を含む熱源システム全体の消費エネルギーに対する熱負荷を示すシステムCOPを計算するシステムCOP計算部と、システムCOPの今回値が前回値以上である場合、今回実行された行動が選択され易くなるような報酬に基づいて学習モデルを更新し、システムCOPの今回値が前回値未満である場合、今回実行された行動が選択され難くなるような報酬に基づいて学習モデルを更新する更新部と、を有し、複数種類の状態変数Stは、第1ポンプを駆動させるモータに電力を供給するインバータの周波数である第1ポンプ周波数と、第2ポンプを駆動させるモータに電力を供給するインバータの周波数である第2ポンプ周波数と、を少なくとも含み、複数種類の行動は、第1ポンプ周波数を増加させる行動と、第1ポンプ周波数を減少させる行動と、第2ポンプ周波数を増加させる行動と、第2ポンプ周波数を減少させる行動と、を少なくとも含む。
【0007】
強化学習は、深層強化学習であり、深層強化学習の入力である複数種類の状態変数Stと、深層強化学習の出力である、複数種類の行動にそれぞれ対応する複数種類のQ値との間には、ニューラルネットワークが形成されており、行動決定部は、複数種類の状態変数Stに、ニューラルネットワークにおける重みWを乗算することで、複数種類のQ値をそれぞれ計算するQ値計算部と、複数種類の行動の中から、計算されたQ値のうち最も大きいQ値に対応する行動を選択する行動選択部と、を含み、更新部は、システムCOPの今回値が前回値以上である場合、Q値計算部における重みWを、今回実行した行動に対応するQ値が今回値よりも大きくなるような重みWに更新し、システムCOPの今回値が前回値未満である場合、Q値計算部における重みWを、今回実行した行動に対応するQ値が今回値よりも小さくなるような重みWに更新するようにしてもよい。
【0008】
複数種類の状態変数Stは、第1ポンプ周波数と、第2ポンプ周波数と、第2熱媒体が熱交換器から送出される出口における第2熱媒体の温度である第2熱媒体温度と、を少なくとも含み、複数種類の行動は、第1ポンプ周波数を増加させる行動と、第1ポンプ周波数を減少させる行動と、第2ポンプ周波数を増加させる行動と、第2ポンプ周波数を減少させる行動と、第2熱媒体温度を上昇させる行動と、第2熱媒体温度を低下させる行動と、を少なくとも含むようにしてもよい。
【発明の効果】
【0009】
本発明によれば、熱源システムを構成する機器を適切に制御することが可能となる。
【図面の簡単な説明】
【0010】
図1図1は、本実施形態の熱源システムの概要を説明する図である。
図2図2は、深層強化学習について説明する図である。
図3図3は、演算部の動作の流れを説明するフローチャートである。
図4図4は、実験結果の一例を示す図である。
【発明を実施するための形態】
【0011】
以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。かかる実施形態に示す寸法、材料、その他具体的な数値等は、発明の理解を容易にするための例示にすぎず、特に断る場合を除き、本発明を限定するものではない。なお、本明細書および図面において、実質的に同一の機能、構成を有する要素については、同一の符号を付することにより重複説明を省略し、また本発明に直接関係のない要素は図示を省略する。
【0012】
図1は、本実施形態の熱源システム1の概要を説明する図である。本実施形態の熱源システム1は、熱源機10、熱負荷設備12、熱源機補機14および制御装置16を備える。熱源機補機14は、冷水ポンプ20、冷却塔22および冷却水ポンプ24を含む。
【0013】
熱源機10は、例えば、冷凍機である。熱源機10は、第1熱媒体である冷水が流通する冷水流路30を通じて熱負荷設備12に接続される。冷水ポンプ20は、冷水流路30の途中に設けられる。冷水ポンプ20は、熱源機10と熱負荷設備12との間で冷水(第1熱媒体)を循環させる第1ポンプである。
【0014】
冷却塔22は、第2熱媒体である冷却水が流通する冷却水流路32を通じて熱源機10に接続される。冷却水ポンプ24は、冷却水流路32の途中に設けられる。冷却水ポンプ24は、冷却塔22と熱源機10との間で冷却水(第2熱媒体)を循環させる第2ポンプである。
【0015】
冷却塔22は、冷却塔ファン40およびファンインバータ42を有する。冷却塔22は、冷却塔ファン40の回転に従った冷却水の気化熱によって冷却水を冷却する。ファンインバータ42は、冷却塔ファン40に供給する電力の周波数に対応する回転数で冷却塔ファン40を駆動させる。冷却塔22は、冷却後の冷却水を、冷却水流路32を通じて熱源機10に供給する。つまり、冷却塔22は、電力を消費して第2熱媒体の熱交換を行う熱交換器である。
【0016】
以後、冷却水(第2熱媒体)が冷却塔22(熱交換器)から送出される出口における冷却水(第2熱媒体)の温度を、冷却水温度(第2熱媒体温度)という場合がある。換言すると、冷却水温度は、冷却塔22から熱源機10に供給する冷却水の温度である。
【0017】
冷却塔22は、冷却水温度が、制御装置16から指示された指令値になるように動作する。これを実現するために、ファンインバータ42は、冷却水温度の指令値を制御装置16から受信し、冷却水温度が指令値となるような回転数で冷却塔ファン40を駆動させる。
【0018】
熱源機10は、冷却塔22から供給される冷却水を用いて冷水を冷却する。熱源機10において使用された冷却水は、冷却水流路32を通じて冷却塔22に送られ、冷却塔22により再び冷却される。
【0019】
熱源機10は、冷却後の冷水を、冷水流路30を通じて熱負荷設備12に供給する。熱負荷設備12は、熱源機10から供給される冷水と冷却対象との間で熱交換を行って冷却対象を冷却する。熱負荷設備12において使用された冷水は、冷水流路30を通じて熱源機10に送られ、熱源機10により再び冷却される。
【0020】
熱負荷設備12は、例えば、空調設備などであるが、冷水と冷却対象との間で熱交換が適切に行われる任意の設備であってもよい。熱負荷である冷凍負荷は、冷水が冷却対象と熱交換することにより消費される熱量を示す。
【0021】
冷水ポンプ20には、冷水ポンプインバータ44が電気的に接続される。冷水ポンプインバータ44は、冷水ポンプ20を駆動するモータに電力を供給し、供給する電力の周波数に対応する回転数で冷水ポンプ20を駆動させる。以後、冷水ポンプ20(第1ポンプ)を駆動するモータに電力を供給する冷水ポンプインバータ44の周波数を、冷水ポンプ周波数(第1ポンプ周波数)という場合がある。
【0022】
冷却水ポンプ24には、冷却水ポンプインバータ46が電気的に接続される。冷却水ポンプインバータ46は、冷却水ポンプ24を駆動するモータに電力を供給し、供給する電力の周波数に対応する回転数で冷却水ポンプ24を駆動させる。以後、冷却水ポンプ24(第2ポンプ)を駆動するモータに電力を供給する冷却水ポンプインバータ46の周波数を、冷却水ポンプ周波数(第2ポンプ周波数)という場合がある。
【0023】
熱源システム1において、冷水ポンプ20(第1ポンプ)、冷却塔22(熱交換器)および冷却水ポンプ24(第2ポンプ)は、熱源機10による熱負荷設備12への冷水(第1熱媒体)の供給に関与する熱源機補機14であり、熱源機10に付帯して設けられる。
【0024】
熱源機10には、冷水入口50および冷水出口52が形成されている。冷水は、冷水入口50を通じて熱源機10に送入され、冷水出口52を通じて熱源機10から送出される。
【0025】
以後、冷水入口50における冷水の温度を、冷水入口温度(第1熱媒体入口温度)という場合がある。また、冷水出口52における冷水の温度を、冷水出口温度(第1熱媒体出口温度)という場合がある。また、冷水入口温度と冷水出口温度との温度差を、冷水温度差(第1熱媒体温度差)という場合がある。また、冷水流路30を流通する冷水の流量を、冷水流量(第1熱媒体流量)という場合がある。熱負荷設備12における熱負荷は、冷水温度差と冷水流量とを乗算した値に相当する。また、熱負荷は、熱源機10の冷凍能力と等しい。
【0026】
熱源システム1は、入口温度センサ60、出口温度センサ62および流量センサ64を備える。入口温度センサ60は、冷水入口温度を検出する。出口温度センサ62は、冷水出口温度を検出する。流量センサ64は、冷水流量を検出する。
【0027】
熱源システム1は、熱源機電力計70、冷水ポンプ電力計72、冷却水ポンプ電力計74、冷却塔電力計76を備える。熱源機電力計70は、熱源機10の消費エネルギー(例えば、消費電力)を測定する。冷水ポンプ電力計72は、冷水ポンプ20の消費エネルギー(例えば、消費電力)を測定する。冷却水ポンプ電力計74は、冷却水ポンプ24の消費エネルギー(例えば、消費電力)を測定する。冷却塔電力計76は、冷却塔22の消費エネルギー(例えば、消費電力)を測定する。
【0028】
制御装置16は、熱源機10および熱源機補機14を制御する。例えば、制御装置16は、熱源機10の設定温度に相当する冷水出口温度の指令値により熱源機10の運転を制御する。
【0029】
後述するが、制御装置16は、強化学習(より詳細には、深層強化学習)を用いて熱源機10補機の運転を制御する。例えば、制御装置16は、冷水ポンプ周波数の指令値により冷水ポンプ20の運転を制御し、冷却水ポンプ周波数の指令値により冷却水ポンプ24の運転を制御し、冷却水温度の指令値により冷却塔22を制御する。このことから、熱源機補機14の運転条件は、例えば、冷水ポンプ周波数、冷却水ポンプ周波数および冷却水温度がある。
【0030】
制御装置16は、演算部80を含む。演算部80は、中央処理装置およびメモリを含む半導体集積回路から構成されるコンピュータである。メモリは、プログラムが格納されたROMおよびワークエリアとしてのRAMを含む。演算部80は、プログラムを実行することで、取得部90、行動決定部92、制御部94、システムCOP計算部96および更新部98としても機能する。また、行動決定部92は、Q値計算部100および行動選択部102を含む。各機能部については、後に詳述する。
【0031】
図2は、深層強化学習について説明する図である。演算部80の各機能部は、強化学習の一種である深層強化学習(DQN:Deep Q Network)を利用した処理を行う。以下では、まず、深層強化学習の概要を説明し、その後、深層強化学習を本実施形態の熱源システム1に適用した場合について説明する。
【0032】
深層強化学習の入力は、複数種類の状態変数(St)である。図2では、第1状態変数、第2状態変数、第3状態変数、第4状態変数、第5状態変数および第6状態変数の6種類の状態変数(St)を例示している。なお、複数種類の状態変数(St)の数は、6種類に限らず、任意の複数としてもよい。
【0033】
深層強化学習の出力は、複数種類のQ値である。図2では、第1Q値、第2Q値、第3Q値、第4Q値、第5Q値および第6Q値の6種類のQ値を例示している。なお、複数種類のQ値の数は、6種類に限らず、任意の複数としてもよい。
【0034】
複数種類のQ値は、複数種類の行動(At)にそれぞれ対応する。図2では、第1Q値に対応する第1行動、第2Q値に対応する第2行動、第3Q値に対応する第3行動、第4Q値に対応する第4行動、第5Q値に対応する第5行動、および、第6Q値に対応する第6行動の6種類を例示している。なお、Q値は、行動価値関数(Q(St,At))と呼ばれることもある。行動価値関数(Q(St,At))は、状態変数(St)および行動(At)の関数である。
【0035】
深層強化学習の入力である複数種類の状態変数(St)と、深層強化学習の出力である複数種類のQ値との間には、ニューラルネットワークが形成されている。ニューラルネットワークは、入力を線形変換する処理単位がネットワーク状に結合した数理モデルである。
【0036】
深層強化学習では、ニューラルネットワークにおける経路ごとに「重み(W)」が設定される。後述するが、深層強化学習では、学習が進むに従って重み(W)が更新されるため、重み(W)は、学習モデルに相当する。
【0037】
深層強化学習では、以下の4つのステップが繰り返し行われる。第1ステップでは、現在の状態変数(St)に重みを乗算してそれぞれのQ値が計算される。第2ステップでは、第1ステップで計算されたQ値のうち最も大きいQ値に対応する行動(At)が選択され、選択された行動(At)が実行される。第3ステップでは、第2ステップで行動(At)を行ったことによる結果が評価される。第4ステップでは、第3ステップの評価を受けて重み(W)が更新される。
【0038】
本実施形態において、入力である複数種類の状態変数(St)は、熱源機補機14の運転条件に関連して設定される。例えば、第1状態変数は、冷水ポンプ周波数に設定され、第2状態変数は、冷水ポンプ周波数差に設定され、第3状態変数は、冷却水ポンプ周波数に設定され、第4状態変数は、冷却水ポンプ周波数差に設定され、第5状態変数は、冷却水温度に設定され、第6状態変数は、冷却水温度差に設定される。
【0039】
なお、例示した6つの運転条件の全てが、複数種類の状態変数(St)として設定される態様に限らない。例えば、冷水ポンプ周波数差、冷却水ポンプ周波数差および冷却水温度差が省略され、冷水ポンプ周波数、冷却水ポンプ周波数および冷却水温度が、複数種類の状態変数(St)に設定されてもよい。また、例えば、冷却水温度、冷水ポンプ周波数差、冷却水ポンプ周波数差および冷却水温度差が省略され、冷水ポンプ周波数および冷却水ポンプ周波数が、複数種類の状態変数(St)に設定されてもよい。また、例示した運転条件以外の他の運転条件を、複数種類の状態変数(St)として含むように設定されてもよい。
【0040】
冷水ポンプ周波数差は、今回の冷水ポンプ周波数と前回の冷水ポンプ周波数との差分値である。冷却水ポンプ周波数差は、今回の冷却水ポンプ周波数と前回の冷却水ポンプ周波数との差分値である。冷却水温度差は、今回の冷却水温度と前回の冷却水温度との差分値である。
【0041】
また、複数種類の行動(At)は、熱源機補機14に関する行動、すなわち、熱源機補機14の運転条件の少なくともいずれかを変更させる行動に設定される。例えば、第1行動は、「冷水ポンプ周波数を増加させる行動」に設定される。第2行動は、「冷水ポンプ周波数を減少させる行動」に設定される。第3行動は、「冷却水ポンプ周波数を増加させる行動」に設定される。第4行動は、「冷却水ポンプ周波数を減少させる行動」に設定される。第5行動は、「冷却水温度を上昇させる行動」に設定される。第6行動は、「冷却水温度を低下させる行動」に設定される。
【0042】
これらより、第1Q値は、「冷水ポンプ周波数を増加させる行動」に対応するQ値である。第2Q値は、「冷水ポンプ周波数を減少させる行動」に対応するQ値である。第3Q値は、「冷却水ポンプ周波数を増加させる行動」に対応するQ値である。第4Q値は、「冷却水ポンプ周波数を減少させる行動」に対応するQ値である。第5Q値は、「冷却水温度を上昇させる行動」に対応するQ値である。第6Q値は、「冷却水温度を低下させる行動」に対応するQ値である。
【0043】
なお、例示した6つの行動の全てが、複数種類の行動(At)として設定される態様に限らない。例えば、「冷却水温度を上昇させる行動」および「冷却水温度を低下させる行動」が省略され、「冷水ポンプ周波数を増加させる行動」、「冷水ポンプ周波数を減少させる行動」、「冷却水ポンプ周波数を増加させる行動」および「冷却水ポンプ周波数を減少させる行動」が複数種類のQ値にそれぞれ対応付けられてもよい。また、例示した行動以外の他の行動が、複数種類のQ値に対応付けられるようにしてもよい。
【0044】
「冷水ポンプ周波数を増加させる行動」における冷水ポンプ周波数の増加量、および、「冷水ポンプ周波数を減少させる行動」における冷水ポンプ周波数の減少量は、予め設定される。「冷却水ポンプ周波数を増加させる行動」における冷却水ポンプ周波数の増加量、および、「冷却水ポンプ周波数を減少させる行動」における冷却水ポンプ周波数の減少量は、予め設定される。「冷却水温度を上昇させる行動」における冷却水温度の上昇量、および、「冷却水温度を低下させる行動」における冷却水温度の低下量は、予め設定される。
【0045】
取得部90は、熱源機補機14の運転条件に関する複数種類の状態変数(St)の今回値を取得する。例えば、取得部90は、冷水ポンプ周波数の今回値、冷却水ポンプ周波数の今回値、冷却水温度の今回値、冷水ポンプ周波数差の今回値、冷却水ポンプ周波数差の今回値および冷却水温度差の今回値を取得する。
【0046】
行動決定部92は、複数種類の状態変数(St)の今回値を学習モデルに入力することで、熱源機補機14に関する複数種類の行動(At)のうち1つの行動を決定する。
【0047】
より詳細には、行動決定部92のQ値計算部100は、例えば、多層パーセプトロンのように構成されており、複数種類の状態変数(St)に、ニューラルネットワークにおける重み(W)を乗算することで、複数種類のQ値をそれぞれ計算する。なお、多層パーセプトロンは、複数の入力にそれぞれ重みを乗算し、それらを加算し、クラスを判定するという流れの識別器のことである。
【0048】
例えば、図2のように、入力層と出力層との間に、第1中間層から第n中間層までの複数の中間層があるとする。なお、nは、任意の正の整数とする。各中間層には、図2中の丸印で示すように、複数のノードがあるとする。
【0049】
Q値計算部100は、第1状態変数に、第1状態変数と第1中間層の第1ノードとの間の重みを乗算する。Q値計算部100は、第2状態変数に、第2状態変数と第1中間層の第1ノードとの間の重みを乗算する。同様に、Q値計算部100は、第3状態変数、第4状態変数、第5状態変数および第6状態変数についても、それらの状態変数と第1中間層の第1ノードとの間の重みを乗算する。Q値計算部100は、各状態変数に重みを乗算した結果を合計して、第1中間層の第1ノードに対応する値を導出する。Q値計算部100は、この計算を第1中間層の他のノードについても行うことで、第1中間層の各ノードに対応する値を導出する。
【0050】
Q値計算部100は、第1中間層の各ノードの値を入力とみなして、第1中間層のときと同様にして、次の中間層の各ノードに対応する値を導出する。Q値計算部100は、これを第n中間層まで順に行う。
【0051】
Q値計算部100は、第n中間層の各ノードの値を入力とみなして、第n中間層の第1ノードの値に、第n中間層の第1ノードと第1Q値との間の重みを乗算する。Q値計算部100は、第n中間層の第2ノードの値に、第n中間層の第2ノードと第1Q値との間の重みを乗算する。同様に、Q値計算部100は、第n中間層の他のノードについても、それら第n中間層の他のノードと第1Q値との間の重みを乗算する。Q値計算部100は、第n中間層の各ノードの値に重みを乗算した結果を合計して、第1Q値を導出する。Q値計算部100は、第1Q値と同様の計算を他のQ値についても行う。これにより、複数種類のQ値が導出される。
【0052】
行動決定部92の行動選択部102は、複数種類の行動の中から、Q値計算部100で計算された複数種類のQ値のうち最も大きいQ値に対応する行動を選択する。以後、複数種類のQ値のうち最も大きいQ値を、最大Q値という場合がある。
【0053】
制御部94は、選択された行動を実行するように熱源機補機14の運転条件を制御する。
【0054】
例えば、Q値計算部100は、第1Q値が「1」であり、他のQ値が「0」であるような結果を導出したとする。この場合、第1Q値が最大Q値となる。行動選択部102は、最大Q値である第1Q値に対応する第1行動を選択する。第1行動は、「冷水ポンプ周波数を増加させる行動」であるため、制御部94は、「冷水ポンプ周波数を増加させる行動」を実行するように熱源機補機14の運転条件を制御する。例えば、制御部94は、冷水ポンプ周波数の指令値を、現在の冷水ポンプ周波数から所定周波数分だけ増加させた値に更新し、更新した指令値を冷水ポンプインバータ44に送信する。冷水ポンプインバータ44は、更新された指令値に従って、冷水ポンプ20のモータに供給する電力の周波数を変更する。これにより、冷水ポンプ20の回転数が増加され、熱負荷設備12に供給される冷水の流量が多くなる。
【0055】
システムCOP計算部96は、制御された運転条件で熱源機10および熱源機補機14を運転させた場合におけるシステムCOPを計算する。システムCOPの計算は、深層強化学習における第3ステップの結果の評価に対応する。なお、COP(Coefficient Of Performance)は、成績係数を示す。
【0056】
ここで、システムCOPは、以下の式(1)で示すように、熱源機10および熱源機補機14を含む熱源システム1全体の消費エネルギー(消費電力(kW))に対する、熱負荷設備12における熱負荷(kW)の比率である。熱源システム1全体の消費エネルギー(消費電力)は、熱源機10の消費エネルギー(消費電力)と熱源機補機14の消費エネルギー(消費電力)とを加算したエネルギー(電力)である。
システムCOP=熱負荷/(熱源機の消費エネルギー+熱源機補機の消費エネルギー)
・・・(1)
【0057】
また、熱源機補機14の消費エネルギー(消費電力)は、熱源機補機14を構成する個々の機器の消費電力を合計したエネルギー(電力)である。例えば、熱源機補機14の消費電力は、冷水ポンプ20の消費電力と、冷却水ポンプ24の消費電力と、冷却塔22の消費電力とを合計した電力である。
【0058】
システムCOP計算部96は、入口温度センサ60により検出された冷水入口温度を取得し、出口温度センサ62により検出された冷水出口温度を取得し、流量センサにより検出された冷水流量を取得する。システムCOP計算部96は、冷水入口温度から冷水出口温度を減算して冷水温度差を導出する。システムCOP計算部96は、冷水温度差と冷水流量とを乗算して熱負荷を導出する。
【0059】
システムCOP計算部96は、熱源機電力計70により測定された熱源機10の消費エネルギーを取得する。システムCOP計算部96は、冷水ポンプ電力計72により測定された冷水ポンプ20の消費電力を取得し、冷却水ポンプ電力計74により測定された冷却水ポンプ24の消費電力を取得し、冷却塔電力計76により測定された冷却塔22の消費電力を取得する。システムCOP計算部96は、熱源機10の消費エネルギー、冷水ポンプ20の消費電力、冷却水ポンプ24の消費電力および冷却塔22の消費電力を合計して熱源システム1全体の消費電を導出する。システムCOP計算部96は、熱負荷を熱源システム1全体の消費電力で除算してシステムCOPを導出する。
【0060】
更新部98は、システムCOPの今回値が前回値以上である場合、Q値計算部における重み(W)を、今回実行した行動に対応するQ値が今回値よりも大きくなるような重み(W)に更新する。これは、今回の行動が選択され易くなるような報酬に基づいて学習モデルを更新することに相当する。
【0061】
例えば、上述のように、第1Q値が「1」となって最大Q値となり、制御部94により第1行動である「冷水ポンプ周波数を増加させる行動」が実行されたとする。この場合、更新部98は、次回の重み(W)を、今回実行した「冷水ポンプ周波数を増加させる行動」に対応する第1Q値が今回の「1」よりも大きい、例えば、「1.2」などになるような重み(W)に更新する。つまり、この例において、更新部98は、第1Q値を「1」から「1.2」に変更した場合に、第1Q値に関して、「状態変数(St)の今回値×重み(W)=1.2」が成り立つような重み(W)に変更する。また、この例において、報酬は、「+0.2」である。
【0062】
なお、Q値に加点する値が「0.2」(換言すると、報酬の量が「+0.2」)である例を説明したが、Q値に加点する値は、この例に限らない。Q値に加点する値は、深層強化学習の特定のパラメータを予め設定することで、任意の値に設定することができる。
【0063】
一方、更新部98は、システムCOPの今回値が前回値未満である場合、Q値計算部100における重み(W)を、今回実行した行動に対応するQ値が今回値よりも小さくなるような重み(W)に更新する。これは、今回の行動が選択され難くなるような報酬に基づいて学習モデルを更新することに相当する。
【0064】
例えば、上述のように、第1Q値が「1」となって最大Q値となり、制御部94により第1行動である「冷水ポンプ周波数を増加させる行動」が実行されたとする。この場合、更新部98は、次回の重み(W)を、今回実行した「冷水ポンプ周波数を増加させる行動」に対応する第1Q値が今回の「1」よりも小さい、例えば、「0.8」などになるような重み(W)に更新する。つまり、この例において、更新部98は、第1Q値を「1」から「0.8」に変更した場合に、第1Q値に関して、「状態変数(St)の今回値×重み(W)=0.8」が成り立つような重み(W)に変更する。また、この例において、報酬は、「-0.2」である。
【0065】
なお、Q値から減点する値が「0.2」(換言すると、報酬の量が「-0.2」)である例を説明したが、Q値から減点する値は、この例に限らない。Q値から減点する値は、深層強化学習の特定のパラメータを予め設定することで、任意の値に設定することができる。
【0066】
図3は、演算部80の動作の流れを説明するフローチャートである。演算部80は、所定周期で訪れる所定の割込みタイミングが到来するごとに、図3の一連の処理を繰り返し実行する。所定周期は、例えば、10分などであるが、この例に限らず、任意の時間に設定されてもよい。
【0067】
なお、「今回」は、所定周期で繰り返し訪れる所定の割込みタイミングのうち最新の所定の割込みタイミングの到来により実行される一連の処理の実行タイミングを示す。「前回」は、「今回」の実行タイミングよりも1つ前の所定の割込みタイミングの到来により実行された一連の処理の実行タイミングを示す。「次回」は、「今回」の実行タイミングの1つ次の所定の割込みタイミングの到来により実行される一連の処理の実行タイミングを示す。
【0068】
所定の割込みタイミングが到来すると、取得部90は、それぞれの状態変数(St)の今回値を取得する(S10)。次に、取得部90は、ニューラルネットワークにおける現在の重み(W)を取得する(S11)。
【0069】
次に、Q値計算部100は、取得したそれぞれの状態変数(St)の今回値と重み(W)とに基づいて、それぞれのQ値を計算する(S12)。
【0070】
次に、行動選択部102は、Q値計算部100により計算された複数種類のQ値のうち最大Q値を選定する(S13)。行動選択部102は、選定した最大Q値に対応する行動を選択する(S14)。制御部94は、行動選択部102により決定された行動を実行する(S15)。
【0071】
制御部94により行動が実行された後、システムCOP計算部96は、システムCOPを計算する(S16)。
【0072】
次に、更新部98は、システムCOP計算部96により計算された今回のシステムCOPが、前回のシステムCOP以上であるか否かを判定する(S17)。
【0073】
今回のシステムCOPが前回のシステムCOP以上である場合(S17におけるYES)、更新部98は、最大Q値として今回選定されたQ値が大きくなるように重み(W)を更新し(S18)、今回の一連の処理を終了する。
【0074】
今回のシステムCOPが前回のシステムCOP未満である場合(S17におけるNO)、更新部98は、最大Q値として今回選定されたQ値が小さくなるように重み(W)を更新し(S19)、今回の一連の処理を終了する。
【0075】
熱源システム1では、重み(W)が更新されることで、次回のQ値の計算において、更新された重み(W)に基づいてQ値が計算されることになる。
【0076】
例えば、「冷水ポンプ周波数を増加させる行動」に対応する第1Q値が加点されるような重み(W)に更新された場合、次回のQ値の計算において、「冷水ポンプ周波数を増加させる行動」に対応する第1Q値が最大Q値になる確率が上昇する。逆に、「冷水ポンプ周波数を増加させる行動」に対応する第1Q値が減点されるような重み(W)に更新された場合、次回のQ値の計算において、「冷水ポンプ周波数を増加させる行動」に対応する第1Q値が最大Q値になる確率が低下する。
【0077】
このようにして、制御装置16は、熱源機補機14の運転と、熱源機補機14の運転条件の学習の進行とを並行して行う。そして、制御装置16は、システムCOPが過去の値よりも高くなるように、熱源機補機14の運転条件をリアルタイムに更新する。なお、制御装置16は、熱源機補機の運転条件を更新するに伴って熱源機10の運転条件を変更してもよい。
【0078】
図4は、実験結果の一例を示す図である。図4の一点鎖線A10は、熱負荷(冷凍負荷)を一定とし、熱源機10の消費電力の時間推移を測定した一例を示す。図4の実線A12は、熱負荷(冷凍負荷)を一定とし、熱源機10の消費電力と熱源機補機14の消費電力とを合計したシステム全体の消費電力の時間推移を測定した一例を示す。図4の横軸は、熱源機補機14の運転条件の学習を開始した時点を0とし、当該学習の開始時点からの経過時間を示す。
【0079】
図4で示すように、熱源機10の消費電力およびシステム全体の消費電力の両方において、時間が経過するに従って、消費電力が徐々に低下していき、消費電力が比較的低い状態で維持されている。すなわち、熱源システム1では、システムCOPが高くなるように熱源機補機14の運転条件を学習しつつ熱源機補機14を運転させることで、熱源システム1全体の消費電力を抑制することができる。
【0080】
以上のように、本実施形態の熱源システム1では、複数種類の状態変数(St)を学習モデルに入力することで、複数種類の行動のうち1つの行動が決定される。本実施形態の熱源システム1では、決定された行動を実行するように熱源機補機14が運転され、その場合におけるシステムCOPが計算される。本実施形態の熱源システム1では、システムCOPの今回値が前回値以上である場合、今回実行された行動が選択され易くなるような報酬に基づいて学習モデルが更新され、システムCOPの今回値が前回値未満である場合、今回実行された行動が選択され難くなるような報酬に基づいて学習モデルが更新される。
【0081】
このように、本実施形態の熱源システム1では、システムCOPが過去の値よりも高くなるように学習モデルが更新されることで、更新された学習モデルに従って、熱源機補機14の運転条件が、熱源システム1全体の消費電力が最も低くなるような運転条件に更新される。
【0082】
したがって、本実施形態の熱源システム1によれば、熱源システム1を構成する機器を適切に制御することが可能となり、熱源システム1全体の消費電力を抑制することができる。
【0083】
また、例えば、教師データを必要とする一般的な機械学習を熱源システムに適用した場合、熱源システムをあらゆる運転条件で運転させて教師データを取得することが行われる。このような教師データの取得には、時間を要するため、機械学習を適用した最適な運転を行える期間が短くなってしまう。
【0084】
これに対し、本実施形態の熱源システム1では、教師データが必要ない強化学習(より詳細には、深層強化学習)を利用しているため、教師データを取得するために熱源システム1の運転を行わなくてもよく、システムCOPが高い最適な運転を、早期に、かつ、長期間実現することができる。
【0085】
また、本実施形態の熱源システム1では、深層強化学習が用いられている。本実施形態の熱源システム1では、システムCOPの今回値が前回値以上である場合、重み(W)が、今回実行した行動に対応するQ値が今回値よりも大きくなるような重み(W)に更新され、システムCOPの今回値が前回値未満である場合、重み(W)が、今回実行した行動に対応するQ値が今回値よりも小さくなるような重み(W)に更新される。
【0086】
これにより、本実施形態の熱源システム1では、熱源システム1を構成する機器を、より適切に制御することが可能となり、熱源システム1全体の消費電力を、より抑制することができる。
【0087】
また、本実施形態の熱源システム1において、複数種類の状態変数(St)は、第1ポンプ周波数と、第2ポンプ周波数と、第2熱媒体温度とを少なくとも含む。本実施形態の熱源システム1において、複数種類の行動は、第1ポンプ周波数を増加させる行動と、第1ポンプ周波数を減少させる行動と、第2ポンプ周波数を増加させる行動と、第2ポンプ周波数を減少させる行動と、第2熱媒体温度を上昇させる行動と、第2熱媒体温度を低下させる行動とを少なくとも含む。
【0088】
これにより、本実施形態の熱源システム1では、熱源システム1を構成する機器を、より適切に制御することが可能となり、熱源システム1全体の消費電力を、より抑制することができる。
【0089】
以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明はかかる実施形態に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
【0090】
例えば、上記実施形態の熱源システム1では、冷水流路30に冷水ポンプ20が1つだけ設けられていた。しかし、例えば、熱源機10で冷却された冷水を熱負荷設備12に供給する冷水1次ポンプ(1次第1ポンプ)と、熱負荷設備12で使用された冷水を熱源機10に供給する冷水2次ポンプ(2次第1ポンプ)との2つの冷水ポンプ20が設けられてもよい。この場合、冷水1次ポンプを駆動させるモータに電力を供給するインバータの周波数である冷水1次ポンプ周波数(1次第1ポンプ周波数)と、冷水2次ポンプを駆動させるモータに電力を供給するインバータの周波数である冷水2次ポンプ周波数(2次第1ポンプ周波数)とを別々に取り扱ってもよい。例えば、状態変数(St)として、冷水1次ポンプ周波数と、冷水2次ポンプ周波数とを含んでもよい。また、行動(At)として、冷水1次ポンプ周波数を増加させる行動と、冷水1次ポンプ周波数を減少させる行動と、冷水2次ポンプ周波数を増加させる行動と、冷水2次ポンプ周波数を減少させる行動とを含んでもよい。
【0091】
上記実施形態において、熱源機10は、ターボ冷凍機、スクリューチラー、吸収式冷凍機など、各種の冷凍機であってもよい。
【0092】
また、第1熱媒体は、冷水に限らず、第2熱媒体は、冷却水に限らない。例えば、第1熱媒体および第2熱媒体は、それぞれ温水や熱水などであってもよい。
【0093】
また、熱源機10は、各種の冷凍機に限らず、例えば、第2熱媒体を用いて第1熱媒体を加熱して(温水や熱水を生成して)熱負荷設備に供給する熱源機であってもよい。このような熱源機としては、例えば、熱回収ヒートポンプや吸収式で温水を生成する熱源機などが挙げられる。
【符号の説明】
【0094】
1 熱源システム
10 熱源機
12 熱負荷設備
14 熱源機補機
16 制御装置
20 冷水ポンプ
22 冷却塔
24 冷却水ポンプ
90 取得部
92 行動決定部
94 制御部
96 システムCOP計算部
98 更新部
100 Q値計算部
102 行動選択部
図1
図2
図3
図4
【手続補正書】
【提出日】2023-11-01
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
第2熱媒体を用いて第1熱媒体を冷却または加熱して熱負荷設備に供給する熱源機と、
前記熱源機と前記熱負荷設備との間で前記第1熱媒体を循環させる第1ポンプと、前記第2熱媒体の熱交換を行う熱交換器と、前記熱源機と前記熱交換器との間で前記第2熱媒体を循環させる第2ポンプとを含む熱源機補機と、
深層強化学習を用いて前記熱源機補機の運転を制御する制御装置と、
を備え、
前記深層強化学習の入力である、前記熱源機補機の運転条件に関する複数種類の状態変数Stと、前記深層強化学習の出力である、前記熱源機補機に関する複数種類の行動にそれぞれ対応する複数種類のQ値との間には、ニューラルネットワークが形成されており、
前記制御装置は、
記複数種類の状態変数Stを取得する取得部と、
前記複数種類の状態変数Stを学習モデルに入力することで、前記複数種類の行動のうち1つの行動を決定する行動決定部と、
前記決定された行動を実行するように前記熱源機補機の運転条件を制御する制御部と、
前記制御された運転条件で前記熱源機補機を運転させた場合における、前記熱源機および前記熱源機補機を含む熱源システム全体の消費エネルギーに対する熱負荷を示すシステムCOPを計算するシステムCOP計算部と、
新部と、
を有し、
前記行動決定部は、
前記複数種類の状態変数Stに、前記ニューラルネットワークにおける重みWを乗算することで、前記複数種類のQ値をそれぞれ計算するQ値計算部と、
前記複数種類の行動の中から、前記計算されたQ値のうち最も大きいQ値に対応する行動を選択する行動選択部と、
を含み、
前記更新部は、
前記システムCOPの今回値が前回値以上である場合、前記Q値計算部における重みWを、今回実行された行動が選択され易くなるような報酬に基づく重みWであって、今回実行された行動に対応するQ値が今回値よりも大きくなるような重みWに更新することで前記学習モデルを更新し、
前記システムCOPの今回値が前回値未満である場合、前記Q値計算部における重みWを、今回実行された行動が選択され難くなるような報酬に基づく重みWであって、今回実行された行動に対応するQ値が今回値よりも小さくなるような重みWに更新することで前記学習モデルを更新し、
前記複数種類の状態変数Stは、
前記第1ポンプを駆動させるモータに電力を供給するインバータの周波数である第1ポンプ周波数と、
前記第2ポンプを駆動させるモータに電力を供給するインバータの周波数である第2ポンプ周波数と、
を少なくとも含み、
前記複数種類の行動は、
前記第1ポンプ周波数を増加させる行動と、
前記第1ポンプ周波数を減少させる行動と、
前記第2ポンプ周波数を増加させる行動と、
前記第2ポンプ周波数を減少させる行動と、
を少なくとも含む、熱源システム。
【請求項2】
第2熱媒体を用いて第1熱媒体を冷却または加熱して熱負荷設備に供給する熱源機と、
前記熱源機と前記熱負荷設備との間で前記第1熱媒体を循環させる第1ポンプと、前記第2熱媒体の熱交換を行う熱交換器と、前記熱源機と前記熱交換器との間で前記第2熱媒体を循環させる第2ポンプとを含む熱源機補機と、
強化学習を用いて前記熱源機補機の運転を制御する制御装置と、
を備え、
前記制御装置は、
前記熱源機補機の運転条件に関する複数種類の状態変数Stを取得する取得部と、
前記複数種類の状態変数Stを学習モデルに入力することで、前記熱源機補機に関する複数種類の行動のうち1つの行動を決定する行動決定部と、
前記決定された行動を実行するように前記熱源機補機の運転条件を制御する制御部と、
前記制御された運転条件で前記熱源機補機を運転させた場合における、前記熱源機および前記熱源機補機を含む熱源システム全体の消費エネルギーに対する熱負荷を示すシステムCOPを計算するシステムCOP計算部と、
前記システムCOPの今回値が前回値以上である場合、今回実行された行動が選択され易くなるような報酬に基づいて前記学習モデルを更新し、前記システムCOPの今回値が前回値未満である場合、今回実行された行動が選択され難くなるような報酬に基づいて前記学習モデルを更新する更新部と、
を有し、
前記複数種類の状態変数Stは、
前記第1ポンプを駆動させるモータに電力を供給するインバータの周波数である第1ポンプ周波数と、
前記第2ポンプを駆動させるモータに電力を供給するインバータの周波数である第2ポンプ周波数と、
を少なくとも含み、
前記複数種類の行動は、
前記第1ポンプ周波数を増加させる行動と、
前記第1ポンプ周波数を減少させる行動と、
前記第2ポンプ周波数を増加させる行動と、
前記第2ポンプ周波数を減少させる行動と、
を少なくとも含む、熱源システム。
【請求項3】
前記強化学習は、深層強化学習であり、
前記深層強化学習の入力である前記複数種類の状態変数Stと、前記深層強化学習の出力である、前記複数種類の行動にそれぞれ対応する複数種類のQ値との間には、ニューラルネットワークが形成されており、
前記行動決定部は、
前記複数種類の状態変数Stに、前記ニューラルネットワークにおける重みWを乗算することで、前記複数種類のQ値をそれぞれ計算するQ値計算部と、
前記複数種類の行動の中から、前記計算されたQ値のうち最も大きいQ値に対応する行動を選択する行動選択部と、
を含み、
前記更新部は、
前記システムCOPの今回値が前回値以上である場合、前記Q値計算部における重みWを、今回実行した行動に対応するQ値が今回値よりも大きくなるような重みWに更新し、
前記システムCOPの今回値が前回値未満である場合、前記Q値計算部における重みWを、今回実行した行動に対応するQ値が今回値よりも小さくなるような重みWに更新する、
請求項に記載の熱源システム。
【請求項4】
前記複数種類の状態変数Stは、
前記第1ポンプ周波数と、
前記第2ポンプ周波数と、
前記第2熱媒体が前記熱交換器から送出される出口における前記第2熱媒体の温度である第2熱媒体温度と、
を少なくとも含み、
前記複数種類の行動は、
前記第1ポンプ周波数を増加させる行動と、
前記第1ポンプ周波数を減少させる行動と、
前記第2ポンプ周波数を増加させる行動と、
前記第2ポンプ周波数を減少させる行動と、
前記第2熱媒体温度を上昇させる行動と、
前記第2熱媒体温度を低下させる行動と、
を少なくとも含む、請求項1から3のいずれか1項に記載の熱源システム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0006
【補正方法】変更
【補正の内容】
【0006】
上記課題を解決するために、本発明の熱源システムは、第2熱媒体を用いて第1熱媒体を冷却または加熱して熱負荷設備に供給する熱源機と、熱源機と熱負荷設備との間で第1熱媒体を循環させる第1ポンプと、第2熱媒体の熱交換を行う熱交換器と、熱源機と熱交換器との間で第2熱媒体を循環させる第2ポンプとを含む熱源機補機と、深層強化学習を用いて熱源機補機の運転を制御する制御装置と、を備え、深層強化学習の入力である、熱源機補機の運転条件に関する複数種類の状態変数Stと、深層強化学習の出力である、熱源機補機に関する複数種類の行動にそれぞれ対応する複数種類のQ値との間には、ニューラルネットワークが形成されており、制御装置は、複数種類の状態変数Stを取得する取得部と、複数種類の状態変数Stを学習モデルに入力することで、複数種類の行動のうち1つの行動を決定する行動決定部と、決定された行動を実行するように熱源機補機の運転条件を制御する制御部と、制御された運転条件で熱源機補機を運転させた場合における、熱源機および熱源機補機を含む熱源システム全体の消費エネルギーに対する熱負荷を示すシステムCOPを計算するシステムCOP計算部と、更新部と、を有し、行動決定部は、複数種類の状態変数Stに、ニューラルネットワークにおける重みWを乗算することで、複数種類のQ値をそれぞれ計算するQ値計算部と、複数種類の行動の中から、計算されたQ値のうち最も大きいQ値に対応する行動を選択する行動選択部と、を含み、更新部は、システムCOPの今回値が前回値以上である場合、Q値計算部における重みWを、今回実行された行動が選択され易くなるような報酬に基づく重みWであって、今回実行された行動に対応するQ値が今回値よりも大きくなるような重みWに更新することで学習モデルを更新し、システムCOPの今回値が前回値未満である場合、Q値計算部における重みWを、今回実行された行動が選択され難くなるような報酬に基づく重みWであって、今回実行された行動に対応するQ値が今回値よりも小さくなるような重みWに更新することで学習モデルを更新し、複数種類の状態変数Stは、第1ポンプを駆動させるモータに電力を供給するインバータの周波数である第1ポンプ周波数と、第2ポンプを駆動させるモータに電力を供給するインバータの周波数である第2ポンプ周波数と、を少なくとも含み、複数種類の行動は、第1ポンプ周波数を増加させる行動と、第1ポンプ周波数を減少させる行動と、第2ポンプ周波数を増加させる行動と、第2ポンプ周波数を減少させる行動と、を少なくとも含む。
上記課題を解決するために、本発明の熱源システムは、第2熱媒体を用いて第1熱媒体を冷却または加熱して熱負荷設備に供給する熱源機と、熱源機と熱負荷設備との間で第1熱媒体を循環させる第1ポンプと、第2熱媒体の熱交換を行う熱交換器と、熱源機と熱交換器との間で第2熱媒体を循環させる第2ポンプとを含む熱源機補機と、強化学習を用いて熱源機補機の運転を制御する制御装置と、を備え、制御装置は、熱源機補機の運転条件に関する複数種類の状態変数Stを取得する取得部と、複数種類の状態変数Stを学習モデルに入力することで、熱源機補機に関する複数種類の行動のうち1つの行動を決定する行動決定部と、決定された行動を実行するように熱源機補機の運転条件を制御する制御部と、制御された運転条件で熱源機補機を運転させた場合における、熱源機および熱源機補機を含む熱源システム全体の消費エネルギーに対する熱負荷を示すシステムCOPを計算するシステムCOP計算部と、システムCOPの今回値が前回値以上である場合、今回実行された行動が選択され易くなるような報酬に基づいて学習モデルを更新し、システムCOPの今回値が前回値未満である場合、今回実行された行動が選択され難くなるような報酬に基づいて学習モデルを更新する更新部と、を有し、複数種類の状態変数Stは、第1ポンプを駆動させるモータに電力を供給するインバータの周波数である第1ポンプ周波数と、第2ポンプを駆動させるモータに電力を供給するインバータの周波数である第2ポンプ周波数と、を少なくとも含み、複数種類の行動は、第1ポンプ周波数を増加させる行動と、第1ポンプ周波数を減少させる行動と、第2ポンプ周波数を増加させる行動と、第2ポンプ周波数を減少させる行動と、を少なくとも含む。