(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024176898
(43)【公開日】2024-12-19
(54)【発明の名称】制御システム、制御方法および制御サービス提供システム
(51)【国際特許分類】
G06F 11/20 20060101AFI20241212BHJP
【FI】
G06F11/20 623
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2023095759
(22)【出願日】2023-06-09
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110002365
【氏名又は名称】弁理士法人サンネクスト国際特許事務所
(72)【発明者】
【氏名】水川 秀
(72)【発明者】
【氏名】河合 英宏
(72)【発明者】
【氏名】野村 祐貴
(72)【発明者】
【氏名】福嶋 開人
(72)【発明者】
【氏名】染谷 朋秀
(72)【発明者】
【氏名】濱崎 良行
【テーマコード(参考)】
5B034
【Fターム(参考)】
5B034BB02
5B034CC01
(57)【要約】
【課題】計算機資源の管理を厳密にできない場合でも、アプリケーションが求める定時性要件を満たすことができる制御システム、制御方法、制御サービス提供システムを提供することができる。
【解決手段】制御対象120に対し制御を行うために使用している計算機資源のメトリクスを取得する診断部32と、メトリクスを基に計算機資源の障害を検知し、障害が生じた計算機資源の代替候補を複数準備するとともに、複数の代替候補についてのメトリクスを基に、代替候補の中から、障害が生じた計算機資源の替わりとなる計算機資源を選択し、さらに、障害が生じた計算機資源から、選択された計算機資源に切り替える装置管理部31と、を備える制御システム110。
【選択図】
図1
【特許請求の範囲】
【請求項1】
制御対象に対し制御を行うために使用している計算機資源のメトリクスを取得するメトリクス取得部と、
前記メトリクスを基に計算機資源の障害を検知し、障害が生じた計算機資源の代替候補を複数準備するとともに、複数の前記代替候補についてのメトリクスを基に、前記代替候補の中から、障害が生じた計算機資源の替わりとなる計算機資源を選択する準備部と、
障害が生じた計算機資源から、選択された計算機資源に切り替える切替部と、
を備える制御システム。
【請求項2】
前記準備部は、前記障害として第1の段階を検知したときに、障害が生じた計算機資源の替わりとなる計算機資源を選択し、
前記切替部は、前記障害として前記第1の段階より前記メトリクスが低下した第2の段階を検知したときに、選択された計算機資源に切り替える請求項1に記載の制御システム。
【請求項3】
前記準備部は、前記第1の段階を検知したときに、障害が発生した計算機資源から選択された計算機資源に内部の状態をコピーし、双方の状態を一致化させる請求項2に記載の制御システム。
【請求項4】
前記準備部は、状態を一致化させた後に、障害が発生した計算機資源に入力される情報を取得し、状態の一致化を維持する請求項3に記載の制御システム。
【請求項5】
前記障害は、時計遅れおよび通信遅れの少なくとも一方である請求項2に記載の制御システム。
【請求項6】
前記準備部は、障害が生じた計算機資源の替わりとなる計算機資源を選択した後に、前記第1の段階の障害が解消したときは、選択された計算機資源の用意を解除する請求項2に記載の制御システム。
【請求項7】
前記メトリクスは、計算機資源同士の通信性能であり、
前記準備部は、前記通信性能が最も良好な前記代替候補を、障害が生じた計算機資源の替わりとなる計算機資源として選択する請求項1に記載の制御システム。
【請求項8】
前記メトリクスは、時計の補正量であり、
前記準備部は、前記時計の補正量が障害が生じた計算機資源のセカンダリと近い前記代替候補を、障害が生じた計算機資源の替わりとなる計算機資源として選択する請求項1に記載の制御システム。
【請求項9】
前記準備部は、前記代替候補についてのメトリクスに加え、計算機資源が設置されるエリアに基づき、障害が生じた計算機資源の替わりとなる計算機資源を選択する請求項1に記載の制御システム。
【請求項10】
前記準備部は、前記エリアとして、同じデータセンタ内の計算機資源を選択する請求項9に記載の制御システム。
【請求項11】
前記準備部は、前記エリアとして、障害が生じた計算機資源のセカンダリが存在しないデータセンタ内の計算機資源を選択する請求項9に記載の制御システム。
【請求項12】
前記準備部は、前記代替候補を準備するエリアを予め定められた期間毎に予め選定する請求項1に記載の制御システム。
【請求項13】
前記切替部は、障害が生じた計算機資源のセカンダリとなっていた計算機資源をプライマリとし、選択された計算機資源をセカンダリとする請求項1に記載の制御システム。
【請求項14】
プロセッサがメモリに記録されたプログラムを実行することにより、
制御対象に対し制御を行うために使用している計算機資源のメトリクスを取得し、
前記メトリクスを基に計算機資源の障害を検知し、障害が生じた計算機資源の代替候補を複数準備するとともに、複数の前記代替候補についてのメトリクスを基に、前記代替候補の中から、障害が生じた計算機資源の替わりとなる計算機資源を選択し、
障害が生じた計算機資源から、選択された計算機資源に切り替える、
制御方法。
【請求項15】
制御対象と、前記制御対象を制御する制御システムと、
を備え、
前記制御システムは、
前記制御対象に対し制御を行うために使用している計算機資源のメトリクスを取得するメトリクス取得部と、
前記メトリクスを基に計算機資源の障害を検知し、障害が生じた計算機資源の代替候補を複数準備するとともに、複数の前記代替候補についてのメトリクスを基に、前記代替候補の中から、障害が生じた計算機資源の替わりとなる計算機資源を選択する準備部と、
障害が生じた計算機資源から、選択された計算機資源に切り替える切替部と、
を備える制御サービス提供システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、制御システム、制御方法、制御サービス提供システムに関する。本発明は、特に、制御対象を制御する際に定時性が求められる場合に好適に使用できる制御システム、制御方法、制御サービス提供システムに関する。
【背景技術】
【0002】
制御対象を制御する制御システムとして、例えば、パブリッククラウド上で動作する仮想マシン(VM:Virtual Machine)を利用する場合、作成した仮想マシンがデプロイされるハードウェアはクラウドベンダに委ねられる。
【0003】
特許文献1には、サクラウドサービス制御装置は、プラントを制御するプラント制御機能を提供するクラウドサービスとの通信を制御する第1通信部と、クラウドサービスに係るサービス情報を利用する利用装置との通信を制御する第2通信部と、クラウドサービスの動作状態を検証する検証部と、検証された動作状態に基づき、クラウドサービスを選択する選択部と、サービス情報を、選択されたクラウドサービスと利用装置との間で伝達する情報伝達部とを備えることが記載されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
制御システムが、制御対象を制御する際に遅れが生じると、適切な制御が困難になることがある。この場合、制御システムに定時性が求められる。これまでの制御システムについて定時性を確保するには、管理下の計算機資源の管理を厳密に行うことで実現してきた。
しかしながら、制御システムとして、例えば、仮想マシンを使用する場合、計算機資源の管理を厳密にできず、仮想マシンのデプロイ先によっては、アプリケーションが求める定時性の要件を満たせないことがある。
本発明は、計算機資源の管理を厳密にできない場合でも、アプリケーションが求める定時性要件を満たすことができる制御システム、制御方法、制御サービス提供システムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記の課題を解決するため本発明は、制御対象に対し制御を行うために使用している計算機資源のメトリクスを取得するメトリクス取得部と、メトリクスを基に計算機資源の障害を検知し、障害が生じた計算機資源の代替候補を複数準備するとともに、複数の代替候補についてのメトリクスを基に、代替候補の中から、障害が生じた計算機資源の替わりとなる計算機資源を選択する準備部と、障害が生じた計算機資源から、選択された計算機資源に切り替える切替部と、を備える制御システムを提供する。この場合、計算機資源の管理を厳密にできない場合でも、アプリケーションが求める定時性要件を満たすことができる制御システムを提供できる。
【0007】
ここで、準備部は、障害として第1の段階を検知したときに、障害が生じた計算機資源の替わりとなる計算機資源を選択し、切替部は、障害として第1の段階よりメトリクスが低下した第2の段階を検知したときに、選択された計算機資源に切り替えるようにできる。この場合、第1の段階で予め替わりとなる計算機資源を準備することができ、第2の段階で迅速に切り替えを行うことができる。
また、準備部は、第1の段階を検知したときに、障害が発生した計算機資源から選択された計算機資源に内部の状態をコピーし、双方の状態を一致化させるようにできる。この場合、第2の段階で系切替を行った後、即座にメトリクスのよい計算機資源をセカンダリ等として利用することができる。
さらに、準備部は、状態を一致化させた後に、障害が発生した計算機資源に入力される情報を取得し、状態の一致化を維持するようにできる。この場合、メトリクスのよい計算機資源をさらに迅速に利用することができる。
またさらに、障害は、時計遅れおよび通信遅れの少なくとも一方とすることができる。この場合、制御対象を制御するのに問題が生じやすい事象に対し対応することができる。
また、準備部は、障害が生じた計算機資源の替わりとなる計算機資源を選択した後に、第1の段階の障害が解消したときは、選択された計算機資源の用意を解除するようにできる。この場合、メトリクスが回復したときは、選択された計算機資源の用意を解除できる。
さらに、メトリクスは、計算機資源同士の通信性能であり、準備部は、通信性能が最も良好な代替候補を、障害が生じた計算機資源の替わりとなる計算機資源として選択するようにできる。この場合、制御システムに求められる定時性を確保しやすくなる。
そして、メトリクスは、時計の補正量であり、準備部は、時計の補正量が障害が生じた計算機資源のセカンダリと近い代替候補を、障害が生じた計算機資源の替わりとなる計算機資源として選択するようにできる。この場合、セカンダリから昇格したプライマリと、セカンダリとなる代替系との間で時刻のずれが起きにくくなる。
また、準備部は、代替候補についてのメトリクスに加え、計算機資源が設置されるエリアに基づき、障害が生じた計算機資源の替わりとなる計算機資源を選択するようにできる。この場合、可用性を高めることができる。
さらに、エリアとして、同じデータセンタ内の計算機資源を選択するようにできる。この場合、予め設計された装置配置の分散度合いを維持でき、可用性を高めることができる。
またさらに、準備部は、エリアとして、障害が生じた計算機資源のセカンダリが存在しないデータセンタ内の計算機資源を選択するようにできる。この場合、計算機資源が分散配置でき、可用性を高めることができる。
また、準備部は、代替候補を準備するエリアを予め定められた期間毎に予め選定するようにできる。この場合、メトリクスがよいエリアに配される計算機資源を予め選定しておくことができる。
さらに、切替部は、障害が生じた計算機資源のセカンダリとなっていた計算機資源をプライマリとし、選択された計算機資源をセカンダリとするようにできる。この場合、メトリクスがよい計算機資源をセカンダリとして割り当てることができる。
【0008】
また、本発明は、プロセッサがメモリに記録されたプログラムを実行することにより、制御対象に対し制御を行うために使用している計算機資源のメトリクスを取得し、メトリクスを基に計算機資源の障害を検知し、障害が生じた計算機資源の代替候補を複数準備するとともに、複数の代替候補についてのメトリクスを基に、代替候補の中から、障害が生じた計算機資源の替わりとなる計算機資源を選択し、障害が生じた計算機資源から、選択された計算機資源に切り替える、制御方法を提供できる。この場合、計算機資源の管理を厳密にできない場合でも、アプリケーションが求める定時性要件を満たすことができる制御方法を提供できる。
【0009】
さらに、本発明は、制御対象と、制御対象を制御する制御システムと、を備え、制御システムは、制御対象に対し制御を行うために使用している計算機資源のメトリクスを取得するメトリクス取得部と、メトリクスを基に計算機資源の障害を検知し、障害が生じた計算機資源の代替候補を複数準備するとともに、複数の代替候補についてのメトリクスを基に、代替候補の中から、障害が生じた計算機資源の替わりとなる計算機資源を選択する準備部と、障害が生じた計算機資源から、選択された計算機資源に切り替える切替部と、を備える制御サービス提供システムを提供できる。この場合、計算機資源の管理を厳密にできない場合でも、アプリケーションが求める定時性要件を満たすことができる制御サービス提供システムを提供できる。
【発明の効果】
【0010】
本発明によれば、計算機資源の管理を厳密にできない場合でも、アプリケーションが求める定時性要件を満たすことができる制御システム、制御方法、制御サービス提供システムを提供することができる。
【図面の簡単な説明】
【0011】
【
図1】本実施の形態が適用される制御サービス提供システムの全体構成例を示した図である。
【
図5B】代替系メトリクス情報について示した図である。
【
図7】装置管理部が代替系を作成する処理フローについて示した図である。
【
図8】制御装置が警告状態になる前の状態であり、制御システムが正常に稼働している状態(正常状態)のシステム管理画面を示した図である。
【
図9】制御装置が警告状態になったときのシステム管理画面を示した図である。
【
図10】代替系が選択されたときのシステム管理画面を示した図である。
【
図11】制御装置が異常状態になったときのシステム管理画面を示した図である。
【
図12】代替系に切り替えたときのシステム管理画面を示した図である。
【発明を実施するための形態】
【0012】
以下、添付図面を参照し、本発明の実施の形態について、詳細に説明する。
<制御サービス提供システム100の全体説明>
図1は、本実施の形態が適用される制御サービス提供システム100の全体構成例を示した図である。
制御サービス提供システム100では、制御システム110が制御対象120を制御する。制御システム110は、例えば、クラウド上のサービスとして提供される。そして、ネットワークNを介して、制御情報等のやりとりを行い、制御対象120を制御する。
【0013】
制御対象120は、例えば、産業プラントである。産業プラントとしては、特に限られるものではなく、製鉄プラント、化学プラント等の工業プラントが挙げられる。また、産業プラントとしては、火力、水力、原子力、太陽光、風力等により発電する発電プラントが挙げられる。さらに、産業プラントとしては、原油を油井から取り出す石油生産プラント、天然ガス(LNG:Liquified Natural Gas)をガス田から取り出すLNGプラント、原油を精製する石油精製プラントが挙げられる。例えば、制御対象120が石油精製プラントの場合、制御システム110は、石油精製プラントを構成する原油加熱炉、蒸留塔、触媒・水素添加脱硫塔などの機器に備えられた温度センサ、圧力センサ、流量計等からの検知信号を受け取る。そして、検知信号に基づき、これらの機器の温度、圧力、流量、弁の開閉などを制御する制御信号を送信する。また、制御システム110は、このような産業プラントに限られるものではなく、鉄道の設備の制御を行う鉄道制御システムであってもよい。この場合、制御対象120は、例えば、鉄道の信号、転轍機(ポイント)、踏切などが該当する。また、
図1では、制御対象120は、1つだけ記載しているが、複数の制御対象120を制御するようにしてもよい。
【0014】
制御システム110は、地域1に設置されるデータセンタ1,2を備える。なお、ここで、「地域」は、データセンタ1,2のそれぞれが設置される地理的な場所である。
データセンタ1は、システム管理装置1、制御装置1およびゲートウェイ装置1を備える。さらに、データセンタ2は、システム管理装置2、制御装置2およびゲートウェイ装置2を備える。また、地域2には、システム管理装置3が設置される。システム管理装置1~3、制御装置1,2、ゲートウェイ装置1,2は、制御システム110を構成する構成要素であり、計算機資源(計算機リソース)の一例である。これらは、それぞれ仮想マシン(VM: Virtual Machine)である。ただし、これらは物理マシンであってもよい。また、仮想マシンと物理マシンとが混在していてもよい。さらに、仮想マシンの代わりにコンテナを使用してもよい。
【0015】
システム管理装置1~3は、制御システム110の構成要素を管理する。システム管理装置1~3のそれぞれは、制御装置1,2、ゲートウェイ装置1,2のそれぞれを管理することができる。つまり、システム管理装置1~3は、地域やデータセンタの枠組みを超えて、制御装置1,2、ゲートウェイ装置1,2を管理することができる。
制御装置1,2は、制御対象120に対する制御判断を行う。また、ゲートウェイ装置1,2は、制御対象120との通信を行う。制御装置1,2は、ゲートウェイ装置1,2を介して、検知信号や制御信号等のやりとりを行い、制御対象120を制御する。
【0016】
システム管理装置1は、装置管理部11、診断部12、システム構成情報13、動作要件情報14、装置状態情報15および代替系管理情報16を備える。同様に、システム管理装置2は、装置管理部21、診断部22、システム構成情報23、動作要件情報24、装置状態情報25および代替系管理情報26を備える。さらに同様に、システム管理装置2は、装置管理部31、診断部32、システム構成情報33、動作要件情報34、装置状態情報35および代替系管理情報36を備える。
制御装置1は、診断部17を備え、制御装置2は、診断部27を備える。
ゲートウェイ装置1は、診断部18を備え、制御装置2は、診断部28を備える。
【0017】
装置管理部11,21,31は、それぞれが属するシステム管理装置1~3の動作を管理する。詳しくは後述するが、装置管理部11,21,31は、メトリクスを基に制御システム110の構成要素の障害を検知し、障害が生じた構成要素の代替候補を複数準備するとともに、複数の代替候補についてのメトリクスを予め定められた要件により比較し、障害が生じた構成要素の替わりとなる構成要素として選択する準備部として機能する。この場合、障害は、第1の段階の一例である警告状態である。また選択された代替候補を、以後、代替系と言うことがある。
このとき装置管理部11,21,31は、例えば、予め定められた要件によりそれぞれの代替候補のメトリクスを比較し、最も良好なものを選択する。また、装置管理部11,21,31は、障害の程度が低下し、異常が生じた場合、障害が生じた構成要素から、選択された構成要素に切り替える切替部として機能する。この場合、障害は、第2の段階の一例である異常状態である。また、障害の程度が悪化とは、メトリクスが警告状態のときよりもさらに低下した状態になった場合である。
【0018】
診断部12,22,32は、メトリクスの診断を行う。メトリクスは、制御システム110のパフォーマンスを数値化したものである。本実施の形態でメトリクスは、制御システム110の中の構成要素の中で、単一の構成要素に閉じるものと、複数の構成要素にまたがるものとが存在する。前者は、例えば、CPU(Central Processing Unit)性能やクロックの精度である。クロックの精度としては、時計遅れにより評価することができる。そして、診断部12は、時計遅れが大きいほど、クロックの精度が低下していると判断することができる。また、後者は、それぞれの構成要素間の通信性能が該当する。通信性能は、例えば、構成要素間の協調動作にかかる動作所要時間により評価することができる。そして、診断部12は、この時間が長いほど、通信遅れが大きく、通信性能が低下していると判断することができる。なお、診断部17,27、診断部18,28についても同様の機能を有する。これらの診断部は、制御対象120に対し制御を行うために使用している計算機資源のメトリクスを取得するメトリクス取得部として機能する。
【0019】
図2は、システム構成情報13,23,33について示した図である。
システム構成情報13,23,33は、制御システム110を構成する構成要素についての情報である。
図示するシステム構成情報13,23,33は、構成要素、系の構成、通信先の項目からなる。構成要素は、構成要素の種別であり、システム管理装置、制御装置およびゲートウェイ装置の何れか1つになる。系の構成は、冗長構成の情報である。主従系は、主系(現用機)と従系(予備機)とからなることを示し、3台系は、主系(現用機)と2つの従系(予備機)とからなることを示す。通信先は、それぞれの構成要素が通信を行う相手を示す情報である。
【0020】
図3は、動作要件情報14,24,34について示した図である。
動作要件情報14,24,34は、それぞれの構成要素に求められるメトリクスの要件についての情報である。
図示する動作要件情報14,24,34は、構成要素、メトリクス、異常判定手段、異常判定閾値、警告判定閾値の各項目からなる。構成要素は、構成要素の種別であり、システム管理装置、制御装置およびゲートウェイ装置の何れか1つになる。そして、構成要素毎に、メトリクス、異常判定手段、異常判定閾値、警告判定閾値が定められる。このうち、メトリクスは、構成要素毎に求められるメトリクスの項目である。また、異常判定手段は、各構成要素が異常状態であるか否かを判定する方法、警告状態であるか否かを判定する方法である。これが、例えば、「閾値超過」であれば、予め定められた閾値を超えたときに、異常状態あるいは警告状態であると判定することを意味する。即ち、診断部12,22,32は、異常判定閾値を超えたときに異常状態であると判定する。また、診断部12,22,32は、警告判定閾値を超えたときに警告状態であると判定する。なお、異常状態あるいは警告状態であると判定する際に、1回閾値を超えたときにこれらの状態になったと判定してもよいが、一定回数連続して閾値を超えたときにこれらの状態になったと判定することもできる。
【0021】
メトリクスの項目についてより詳しく説明すると、データセンタ内装置間通信は、同じデータセンタ内の構成要素間の協調動作にかかる動作所要時間である。例えば、システム管理装置1と制御装置1との間の動作所要時間、システム管理装置1とゲートウェイ装置1との間の動作所要時間が該当する。データセンタ間装置間通信は、異なるデータセンタ間における構成要素間の協調動作にかかる動作所要時間である。例えば、システム管理装置1とシステム管理装置2との間の動作所要時間が該当する。地域間装置間通信は、異なる地域間における構成要素間の動作所要時間である。例えば、地域1にあるシステム管理装置1と地域2にあるシステム管理装置3との間の動作所要時間が該当する。同期元クロックからのホップ数は、クロックの同期元となる装置からのホップ数である。時計の補正量は、クロックの補正量である。
【0022】
図4は、装置状態情報15,25,35について示した図である。
装置状態情報15,25,35は、それぞれの構成要素の動作状態についての情報である。
図示する装置状態情報15,25,35は、装置名、地域、データセンタ、役割、装置状態の各項目からなる。装置名は、構成要素の装置名であり、上述したシステム管理装置1~3、ゲートウェイ装置1,2、ゲートウェイ装置1,2である。地域は、データセンタが設置される地理的な場所である。データセンタは、各構成要素が設置されるデータセンタの名称であり、データセンタ1~3の何れかである。役割は、各構成要素の動作状態が、プライマリであるか、セカンダリであるかについて示す。装置状態は、装置の動作状態が、正常であるか、異常であるかについて示す。
図4では、全ての構成要素が正常であることを示している。
【0023】
図5Aは、代替系管理情報16,26,36について示した図である。
代替系管理情報16,26,36は、代替候補となる構成要素についての情報である。
図示する代替系管理情報16,26,36は、装置名、地域、データセンタ、役割、代替先装置の各項目からなる。装置名は、代替候補となる構成要素の装置名である。ここでは、代替候補となる構成要素が、制御装置代替1~3であることを意味する。地域は、データセンタが設置される地理的な場所である。データセンタは、代替候補となる各構成要素が設置されるデータセンタの名称であり、データセンタ1~3の何れかである。役割は、これらの構成要素の役割であり、代替候補であることを示している。代替先装置は、
図4に示した場合のように、各構成要素に障害が生じていない初期状態では空欄であるが、何れかの構成要素に障害が生じたときに、障害が生じた構成要素の装置名が入る。この場合、制御装置1に障害が発生した場合を示す。
【0024】
図5Bは、代替系メトリクス情報について示した図である。
代替系メトリクス情報は、代替候補となる構成要素のメトリクス情報である。
図示する代替系メトリクス情報は、装置名、メトリクス、異常判定手段、最新値、メトリクス更新日時の各項目からなる。装置名は、代替候補となる構成要素の装置名であり、
図5Aの制御装置代替1~3である。メトリクスは、代替候補となる構成要素毎に求められるメトリクスの項目である。異常判定手段は、代替候補となる構成要素が異常であるか否かを判定する方法である。最新値は、代替候補となる構成要素に対する最新のメトリクスである。メトリクス更新日時は、メトリクスの最新値を取得した日時である。
【0025】
<装置管理部11の動作の説明>
図6は、装置管理部11の処理フローを示した図である。
なお、
図6では、装置管理部11がプライマリであり、装置管理部11が、一連の処理を行う場合について示している。
まず、診断部12が、システム管理装置1内の各装置(各構成要素)のメトリクスの診断を行い、装置管理部11は、診断部12から各装置のメトリクスを取得する(S101)。
次に、装置管理部11は、各装置のメトリクスを基に、各装置に異常があるか否かを判定する(S102)。これは、以下のようなフローで装置毎に実行する(S103)。
【0026】
まず、装置管理部11は、一の装置に異常または警告が生じているか否かを判断する(S104)。
そして、異常または警告が生じている場合(S104でY(Yes))、装置管理部11は、装置状態情報15を参照し、異常または警告が生じている当該装置に代替系があるか否かを判断する(S105)。
その結果、代替系がない場合(S105でN(No))、装置管理部11は、代替系を作成する(S106)。
S104で代替系がある場合(S105でY)、およびS106の後は、装置管理部11は、異常があるか否かを判断する(S107)。
その結果、異常がない場合(S107でN)、装置管理部11は、当該装置における処理を終了する。
対して、異常がある場合(S107でY)、装置管理部11は、異常系の停止および削除を行う(S108)。
さらに、装置管理部11は、既存のセカンダリをプライマリに昇格させる(S109)。即ち、異常が生じた当該装置のセカンダリであった装置をプライマリにする。
そして、装置管理部11は、代替系をセカンダリとして復帰させる(S110)。
【0027】
また、S103で、異常または警告が生じていない場合(S104でN)、装置管理部11は、装置状態情報に当該装置の代替系があるか否かを判断する(S111)。
そして、当該装置の代替系があった場合(S111でY)、代替系を削除する(S112)。この場合は、例えば、当該装置のメトリクスが低下し、いったん警告が生じたが、その後、メトリクスが回復して、警告が解除された場合が該当する。
一方、当該装置の代替系がない場合(S111でN)、当該装置に対する処理を終了する。
【0028】
この場合、S106で説明したように、装置管理部11は、障害として第1の段階を検知したときに、障害が生じた計算機資源の替わりとなる計算機資源を選択する、と言うことができる。第1の段階は、警告状態となる段階である。
また、S107~S110で説明したように、装置管理部11は、障害として第1の段階よりメトリクスが低下した第2の段階を検知したときに、選択された装置に切り替える、と言うことができる。第2の段階は、異常状態となる段階である。
さらに、S112で説明したように、装置管理部11は、障害が生じた装置の替わりとなる装置を選択した後に、警告状態が解消したときは、選択された装置の用意を解除する、と言うことができる。
またさらに、S109~S110で説明したように、装置管理部11は、障害が生じた装置のセカンダリとなっていた装置をプライマリとし、選択された代替系をセカンダリとする、と言うことができる。
【0029】
図7は、装置管理部11が代替系を作成する処理フローについて示した図である。つまり、
図7は、
図6のS105を詳細に説明した図である。
まず、装置管理部11は、対象系(異常または警告が生じている構成要素)と同等の装置を複数作成する(S201)。即ち、装置管理部11は、複数の代替候補を準備する。
次に、装置管理部11は、S201で作成した各系のメトリクスを取得する(S202)。即ち、複数の代替候補のそれぞれのメトリクスを取得する。具体的には、装置管理部11は、クロックの精度として時計遅れや、通信性能として、装置間の協調動作にかかる動作所要時間等を取得する。
次に、装置管理部11は、最もメトリクスがよい装置を代替系に選定し、残りの装置を削除する(S203)。即ち、装置管理部11は、代替候補の中から最もメトリクスがよいものを、障害が生じた計算機資源の替わりとなる代替系として選択する。
さらに、装置管理部11は、当該構成要素のプライマリ系と状態を一致化させる(S204)。この場合、プライマリ系が持つメモリ情報をコピーし、内部状態を一致化させる。警告の段階で内部状態を一致化することで、異常が生じたときの系切替後、即座に素性の良い装置をセカンダリ系として復帰させることができる。また、内部状態を一致化した後、プライマリ(orセカンダリ)に入力されるデータを取得し、代替系とプライマリ(orセカンダリ)の内部状態の一致化を維持する。制御系だと、ブロードキャスト/マルチキャストによる通信が多用される。この場合は、ネットワークNに接続しただけで情報を横抜きできる。ユニキャストで通信が行われている場合は、プライマリ(orセカンダリ)から情報を流してもらうことで状態を一致化する。
【0030】
また、装置管理部11は、代替候補を準備するエリアを予め定められた期間毎に予め選定するようにしてもよい。協調動作にかかる動作所要時間は、例えば、地域間、通信を行う時間等により、変化する。よって、装置管理部11は、診断部12から予め定められた期間毎にメトリクスを取得し、代替候補を準備するエリアを予め定めておく。これにより、代替候補としてメトリクスがよいものを予め選定しておくことができる。
【0031】
<代替系の選択方法>
以下、代替候補の中から代替系を選択する方法を、
図5A、
図5Bを参照しつつ、(1)~(4)により説明する。なおここでは、データセンタ1の制御装置1が警告状態となったときに、制御装置1の替わりとなる代替系を選択する場合について説明する。
【0032】
(1)単純にメトリクスがよいものを選ぶ。
(1)は、
図7のS203で行った方法である。
図5Bの例では、制御装置代替1と制御装置代替2とを比較した場合、同期元クロックからのホップ数、時計の補正量、地域間装置間通信は、同等である。一方、データセンタ内装置間、データセンタ間装置間は、制御装置代替2よりも制御装置代替1の方がよい。よって、制御装置代替1を選択する。この選択方法によれば、よりリアルタイム性の高い装置を採用することができる。
なお、制御装置代替3は、同期元クロックからのホップ数が大きすぎ、
図5Bの異常判定手段の要件を満たさないため、メトリクスの比較の対象とはならない。
(1)の方法では、メトリクスは、装置同士の通信性能であり、装置管理部11は、通信性能が最も良好な代替候補を、障害が生じた装置の替わりとなる代替系として選択する、と言うこともできる。
【0033】
(2)メトリクスの要件を満たし、できるだけ代替先装置と同じデータセンタを優先する。
図5Aの例では、制御装置代替1と制御装置代替2とを比較した場合、制御装置代替1は、制御装置1と同じデータセンタ1内にあるが、制御装置代替2は、制御装置1と異なるデータセンタ2内にある。よって制御装置代替1を選択する。この選択方法によれば、予め設計された装置配置の分散度合いを維持でき、可用性を高めることができる。
【0034】
(3)メトリクスの要件を満たし、障害が生じた装置のセカンダリが存在していないデータセンタを優先する。
例えば、制御装置1のセカンダリが制御装置2だったとすると、制御装置2が属するデータセンタ2以外のデータセンタであるデータセンタ1,3に属するものを選択する。この場合、データセンタ1に属する制御装置代替1やデータセンタ3に属する制御装置代替3を選択する。
この場合、装置が分散配置でき、可用性を高めることができる。
【0035】
(2)、(3)の方法では、装置管理部11は、代替候補についてのメトリクスに加え、計算機資源が設置されるエリアに基づき、障害が生じた装置の替わりとなる代替系を選択する、と言うこともできる。また、(2)の方法では、装置管理部11は、エリアとして、同じデータセンタ内の装置を代替系として選択する、と言うこともできる。さらに、(3)の方法では、装置管理部11は、エリアとして、障害が生じた計算機資源のセカンダリが存在しないデータセンタ内の装置を代替系として選択する、と言うこともできる。
【0036】
(4)メトリクスの要件を満たし、かつ、時計の補正量が、障害が生じた装置のセカンダリと近いものを選ぶ。
例えば、制御装置1のセカンダリが制御装置2だったとすると、制御装置2の時計の補正量が近いものを、制御装置代替1~3の中から選択する。
この場合、セカンダリから昇格したプライマリと、セカンダリとなる代替系との間で時刻のずれが起きにくくなる。これにより周期実行するプログラムの実行タイミングと入力データの受信タイミングのずれによる状態の不一致が起きにくくなる。
(4)の方法では、メトリクスは、時計の補正量であり、装置管理部11は、時計の補正量が障害が生じた装置のセカンダリと近い代替候補を、障害が生じた装置の替わりとなる代替系として選択する、と言うこともできる。
【0037】
<システム管理画面の説明>
図8~12は、システム管理画面について示した図である。なおここでは、制御装置1のメトリクスが低下して警告状態となり、さらにメトリクスが低下することで異常状態になることで、制御装置代替1が代替系として選択された場合を例に取り説明を行う。
【0038】
図8は、制御装置1が警告状態になる前の状態であり、制御システム110が正常に稼働している状態(正常状態)のシステム管理画面を示した図である。
図示するシステム管理画面では、上段部にシステム稼働状態が表示される。これによれば、地域1のデータセンタ1に設置される、システム管理装置1、制御装置1、ゲートウェイ装置1がプライマリであることを示す。また地域1のデータセンタ2に設置される、システム管理装置2、システム管理装置3、制御装置2、ゲートウェイ装置2がセカンダリであることを示す。
また、図示するシステム管理画面では、中段部に装置一覧が表示される。装置一覧は、
図4と同様であり、装置名、地域、データセンタ、役割、装置状態が、システム管理装置1~3、制御装置1,2、ゲートウェイ装置1,2のそれぞれの構成要素毎に表示される。
図8では、全ての構成要素が正常であることを示す。
さらに、図示するシステム管理画面では、下段部に代替系管理の情報が表示される。
図8では、全ての構成要素が正常であるので、代替系は作成されておらず、「代替系が必要な装置はありません。」のメッセージが表示されている。
【0039】
図9は、制御装置1が警告状態になったときのシステム管理画面を示した図である。
図示するシステム管理画面では、上段部のシステム稼働状態で、代替候補が準備されたことを示す。この場合、制御装置代替1~3が、データセンタ1~3にそれぞれ代替候補として準備されたことを示す。
また、図示するシステム管理画面では、中段部の装置一覧で、制御装置1の装置状態が、警告になったことを示す。
さらに、図示するシステム管理画面では、下段部の代替系管理で、制御装置代替1~3の、装置名、地域、データセンタ、役割、メトリクスが表示される。なお、この代替系管理の画面中に選択ボタンを設け、システム管理者が代替系を選択してもよい。
【0040】
図10は、代替系が選択されたときのシステム管理画面を示した図である。
図示するシステム管理画面では、上段部のシステム稼働状態で、制御装置代替1が代替系として選択されたことを示す。この場合、制御装置代替1~3の中で、メトリクスが最もよいものを代替系として選択している。
また、図示するシステム管理画面では、中段部の装置一覧で、制御装置1の装置状態が、警告のままであることを示す。
さらに、図示するシステム管理画面では、下段部の代替系管理で、選択された制御装置代替1の、装置名、地域、データセンタ、役割、メトリクスが表示される。
【0041】
図11は、制御装置1が異常状態になったときのシステム管理画面を示した図である。
図示するシステム管理画面では、中段部の装置一覧で、制御装置1の装置状態が、警告から異常に移行したことを示す。なお、他の画面は、
図10と同様である。
【0042】
図12は、代替系に切り替えたときのシステム管理画面を示した図である。
図示するシステム管理画面では、上段部のシステム稼働状態で、制御装置2が、プライマリに昇格したことを示す。また、制御装置代替1が、制御装置3としてセカンダリになったことを示す。
また、図示するシステム管理画面では、中段部の装置一覧で、制御装置1の替わりに制御装置3が入ったことを示す。なお、制御装置3の装置状態は、正常である。
さらに、図示するシステム管理画面では、下段部の代替系管理で、全ての構成要素が正常であるので、「代替系が必要な装置はありません。」のメッセージが表示されている。
【0043】
以上説明した制御システム110によれば、計算機資源の一例である構成要素の管理を厳密にできない場合でも、アプリケーションが求める定時性要件を満たすことができる。
【0044】
なお上述した形態によれば、計算機資源の一例である構成要素の種別は、システム管理装置、制御装置およびゲートウェイ装置であったが、これに限られるものではなく、制御対象120を制御でき、冗長性を有する構成であれば、構成要素の種別、数についての設定は、自由である。また、上述した形態によれば、制御システム110は、パブリッククラウド上で動作する仮想マシン等を例示したが、これに限られるものではなく、クラウド上で動作するものでなくてもよい。
【0045】
<制御方法の説明>
以上説明を行った制御システム110が行う処理は、ソフトウェアとハードウェア資源とが協働することにより実現される。即ち、制御システム110を構成するコンピュータ内部のプロセッサが、上述した各機能を実現するソフトウェアを主記憶装置にロードして実行し、これらの各機能を実現させる。
よって、制御システム110が行う処理は、プロセッサがメモリに記録されたプログラムを実行することにより、制御対象120に対し制御を行うために使用している構成要素のメトリクスを取得し、メトリクスを基に構成要素の障害を検知し、障害が生じた構成要素の代替候補を複数準備するとともに、複数の代替候補についてのメトリクスを基に、代替候補の中から、障害が生じた構成要素の替わりとなる構成要素を選択し、障害が生じた構成要素から、選択された構成要素に切り替える、制御方法と捉えることができる。
この場合、1台のコンピュータ装置によりこの処理を行う必要はなく、複数台のコンピュータ装置により実現してもよい。
【0046】
以上、本実施の形態について説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、種々の変更または改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。
【符号の説明】
【0047】
11,21,31…装置管理部、12,22,32…診断部、100…制御サービス提供システム、110…制御システム、120…制御対象