【国等の委託研究の成果に係る記載事項】(出願人による申告)平成29年度、総務省、「IoT共通基盤技術の確立・実証 II効率的かつ安定的なIoTデバイス接続・エリアネットワーク運用管理技術の確立」研究開発委託契約に基づく開発項目「エリアネットワーク運用管理技術に関する研究開発」委託研究、産業技術力強化法第19条の適用を受ける特許出願
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0010】
以下、本件を実施するための形態について図面を参照して説明する。
【0011】
(第1実施形態)
図1は異常検出システムSTの一例を説明するための図である。異常検出システムSTは管理対象装置としての複数のエンドデバイス100P,100P´,100Q,100Q´,100R,100R´を構成要素として含んでいる。また、異常検出システムSTは無線中継器130P,130Q、有線中継器150、及び異常検出装置としてのゲートウェイ200を構成要素として含んでいる。さらに、異常検出システムSTは複数のサーバ300を備えるデータセンタDCを構成要素として含んでいる。このように、サーバ300はクラウドCL上に構築されている。尚、無線中継器130P,130Q、有線中継器150、データセンタDCの少なくとも1つを異常検出システムSTの構成要素から除外してもよい。また、無線中継器130P,130Q、有線中継器150、及びゲートウェイ200の少なくとも1つを管理対象装置に含めてもよい。
【0012】
エンドデバイス100Pは様々な場所に設置される。例えばエンドデバイス100Pは製造工場内の製造設備に設置され、製造設備内又は製造設備周辺の温度や湿度を定期的に計測したり、製造設備の振動を定期的に計測したりする。例えば、エンドデバイス100Pをマンホールの蓋の裏面に設置してもよい。この場合、エンドデバイス100Pはマンホール下の温度や湿度を定期的に計測したり、マンホール下に流れる下水の水位やマンホール下に存在するガスのガス濃度を定期的に計測したりする。
【0013】
また、エンドデバイス100Pは通信状態又は通信品質(以下、単に通信状態という)を特定できる様々な通信パフォーマンス(以下、通信性能という)を定期的に計測する。通信性能としては、例えばReceived Signal Strength Indicator(RSSI、受信電波強度)、Packet Error Rate(PER、パケットエラー率)、Link Quality(LQ、リンク品質)、応答時間、再送回数、チャネル利用率、アクティブノード数などがある。さらに、エンドデバイス100Pは自身のハードウェアやソフトウェアの稼働状態又は稼働状況(以下、単に稼働状態という)を特定できる様々な稼働パフォーマンス(以下、端末性能という)を定期的に計測する。端末性能としては、例えばCentral Processing Unit(CPU)使用率、メモリ使用率、Hard Disk Drive(HDD)使用率、バッテリ残量、デバイス内温度、デバイス内湿度、内部処理時間などがある。
【0014】
エンドデバイス100Pは無線中継器130PとリンクL−Rにより直接的に接続されている。無線中継器130Pとしては例えばWi−Fi(登録商標)ルータやアクセスポイントなどがある。したがって、リンクL−Rは無線であって、Wi−Fi(登録商標)やBluetooth(登録商標)といった近距離無線通信が該当する。これにより、エンドデバイス100Pと無線中継器130Pは互いに各種の情報を送信したり受信したりすることができる。すなわち、エンドデバイス100Pは無線中継器130Pと通信を行うことができる。したがって、例えばエンドデバイス100Pは通信性能及び端末性能を計測すると、計測した通信性能及び端末性能を含む性能情報を無線中継器130Pに定期的に送信する。エンドデバイス100Pは通信性能を含み、端末性能を含まない性能情報を送信してもよい。尚、エンドデバイス100P´,100R,100R´の詳細はエンドデバイス100Pと共通するため、説明を省略する。また、無線中継器130Qの詳細は無線中継器130Pと共通するため、説明を省略する。したがって、リンクL−Tも無線であり、Wi−Fi(登録商標)やBluetooth(登録商標)といった近距離無線通信が該当する。
【0015】
ここで、無線中継器130Pは有線中継器150とリンクL−Qにより直接的に接続されている。同様に、無線中継器130Qは有線中継器150とリンクL−Sにより直接的に接続されている。有線中継器150としては例えばブロードバンドルータやスイッチングハブなどがある。リンクL−Q,L−Sはいずれも有線であって、例えば電気通信ケーブルや光通信ケーブルといった通信ケーブルが該当する。これにより、無線中継器130Pと有線中継器150は互いに各種の情報を送信したり受信したりすることができる。同様に、無線中継器130Qと有線中継器150は互いに各種の情報を送信したり受信したりすることができる。
【0016】
一方、エンドデバイス100Qもエンドデバイス100Pと同様に様々な場所に設置され、通信性能及び端末性能などを定期的に計測する。エンドデバイス100Qは有線中継器150とリンクL−Pにより直接的に接続されている。リンクL−Pも有線であって、上述した電気通信ケーブルや光通信ケーブルといった通信ケーブルが該当する。これにより、エンドデバイス100Qと有線中継器150は互いに各種の情報を送信したり受信したりすることができる。したがって、エンドデバイス100Qは通信性能及び端末性能を計測すると、計測した通信性能及び端末性能を含む性能情報を有線中継器150に定期的に送信する。尚、エンドデバイス100Q´の詳細はエンドデバイス100Qと共通するため、説明を省略する。
【0017】
有線中継器150はゲートウェイ200と直接的に接続されている。したがって、上述した複数のエンドデバイス100P,100P´はいずれも無線中継器130P及び有線中継器150を介してゲートウェイ200と間接的に接続されている。同様に、上述した複数のエンドデバイス100R,100R´はいずれも無線中継器130Q及び有線中継器150を介してゲートウェイ200と間接的に接続されている。一方、上述した複数のエンドデバイス100Q,100Q´はいずれも有線中継器150を介してゲートウェイ200と間接的に接続されている。これにより、複数のエンドデバイス100P,100P´,100Q,100Q´,100R,100R´とゲートウェイ200は互いに各種の情報を送信したり受信したりすることができる。
【0018】
尚、ゲートウェイ200は、複数のエンドデバイス100P,100P´,100Q,100Q´,100R,100R´が複数の製造設備のそれぞれに設置されている場合には、製造工場内又は製造工場外のいずれかの場所に設置される。一方、複数のエンドデバイス100P,100P´,100Q,100Q´,100R,100R´がマンホールの蓋の裏面に設置されている場合には、ゲートウェイ200は電柱などに設置される。
【0019】
ゲートウェイ200はエンドデバイス100P,100P´,100Q,100Q´,100R,100R´の各々から収集した各種の情報に基づいて、エンドデバイス100P,100P´,100Q,100Q´,100R,100R´の各々の異常を検出する。また、ゲートウェイ200はエンドデバイス100P,100P´,100Q,100Q´,100R,100R´の各々から収集した各種の情報に基づいて、リンクL−P,L−Q,L−R,L−S,L−Tの各々の異常を検出する。ここで、ゲートウェイ200は通信ネットワークNWを介して複数のサーバ300の少なくとも1つと接続されている。このため、ゲートウェイ200は異常を検出すると、障害の発生とその障害の障害種別又は障害原因(以下、単に障害種別という)をサーバ300に送信することができる。この結果、運用管理者はサーバ300にアクセス可能な端末装置である運用管理端末(不図示)を操作することで、障害の発生とその障害種別を確認し、対応判断を行うことができる。
【0020】
尚、このような運用管理端末は通信ネットワークNWに接続されていてもよいし、サーバ300に接続されていてもよい。運用管理端末が通信ネットワークNWに接続されている場合、運用管理端末は通信ネットワークNWを介して間接的にゲートウェイ200に接続される。一方、運用管理端末がサーバ300に接続されている場合、サーバ300及び通信ネットワークNWを介して間接的にゲートウェイ200に接続される。
【0021】
以下、エンドデバイス100P,100P´,100Q,100Q´,100R,100R´及びゲートウェイ200のそれぞれについて詳しく説明する。
【0022】
図2はエンドデバイス100Pのハードウェア構成の一例である。尚、エンドデバイス100P´,100Q,100Q´,100R,100R´については、エンドデバイス100Pと同様のハードウェア構成であるため、説明を省略する。
図2に示すように、エンドデバイス100Pは、CPU100A、Random Access Memory(RAM)100B、及びRead Only Memory(ROM)100C、Non-Volatile Memory(NVM)100Dを含んでいる。また、エンドデバイス100Pは、HDD100E、近距離通信回路100F、及びAnalogue/Digital(AD)コンバータ100Gを含んでいる。近距離通信回路100Fにはアンテナ100F´が接続されている。近距離通信回路100Fに代えて無線通信機能を実現するCPUが利用されてもよい。ADコンバータ100Gには複数のセンサ100G´が接続されている。センサ100G´としては、例えば温度センサ、湿度センサ、濃度センサ、加速度センサなどがある。CPU100A乃至ADコンバータ100Gは、内部バス100Hによって互いに接続されている。
【0023】
上述したRAM100Bには、ROM100C、NVM100D、HDD100Eの少なくとも1つに記憶されたプログラムがCPU100Aによって一時的に格納される。当該プログラムとしては通信性能及び端末性能を計測して送信するプログラムがある。格納されたプログラムをCPU100Aが実行することにより、エンドデバイス100Pは通信性能及び端末性能を計測し、通信性能及び端末性能を含む性能情報を送信することができる。尚、エンドデバイス100Pは複数のセンサ100G´を備えているため、センサノードと言い換えてもよい。
【0024】
図3はゲートウェイ200のハードウェア構成の一例である。
図3に示すように、ゲートウェイ200は、少なくともハードウェアプロセッサとしてのCPU200A、RAM200B、ROM200C及びネットワークI/F(インタフェース)200Dを含んでいる。ゲートウェイ200は、必要に応じて、HDD200E、入力I/F200F、出力I/F200G、入出力I/F200H、ドライブ装置200Iの少なくとも1つを含んでいてもよい。CPU200Aからドライブ装置200Iまでは、内部バス200Jによって互いに接続されている。すなわち、ゲートウェイ200はコンピュータによって実現することができる。尚、CPU200Aに代えてMicro Processing Unit(MPU)をハードウェアプロセッサとして利用してもよい。
【0025】
入力I/F200Fには、入力装置710が接続される。入力装置710としては、例えばキーボードやマウスなどがある。出力I/F200Gには、表示装置720が接続される。表示装置720としては、例えば液晶ディスプレイがある。入出力I/F200Hには、半導体メモリ730が接続される。半導体メモリ730としては、例えばUniversal Serial Bus(USB)メモリやフラッシュメモリなどがある。入出力I/F200Hは、半導体メモリ730に記憶されたプログラムやデータを読み取る。入力I/F200F及び入出力I/F200Hは、例えばUSBポートを備えている。出力I/F200Gは、例えばディスプレイポートを備えている。
【0026】
ドライブ装置200Iには、可搬型記録媒体740が挿入される。可搬型記録媒体740としては、例えばCompact Disc(CD)−ROM、Digital Versatile Disc(DVD)といったリムーバブルディスクがある。ドライブ装置200Iは、可搬型記録媒体740に記録されたプログラムやデータを読み込む。ネットワークI/F200Dは、例えばLANポートを備えている。ネットワークI/F200Dは上述した有線中継器150及び通信ネットワークNWと接続される。
【0027】
上述したRAM200Bには、ROM200CやHDD200Eに記憶されたプログラムがCPU200Aによって一時的に格納される。RAM200Bには、可搬型記録媒体740に記録されたプログラムがCPU200Aによって一時的に格納される。格納されたプログラムをCPU200Aが実行することにより、CPU200Aは後述する各種の機能を実現し、また、後述する各種の処理を実行する。尚、プログラムは後述するフローチャートに応じたものとすればよい。
【0028】
次に、
図4から
図11までを参照して、ゲートウェイ200の各機能について説明する。
【0029】
図4(a)はゲートウェイ200のブロック図の一例である。
図4(b)は性能情報記憶部202の一例である。
図4(c)は関連情報記憶部206の一例である。
図4(d)は要件情報記憶部208の一例である。
図5は性能情報管理テーブルT1の一例である。
図6は性能情報管理テーブルT1の他の一例である。
図7は性能の異常を表す複数の識別子の組み合わせ毎に障害の種別を対応付けた対応関係の一例である。
【0030】
図8は関連情報管理テーブルT3の一例である。
図9は要件情報管理テーブルT4の一例である。
図10(a)はインシデント重要度を決定する重要度決定因子の一例を説明するための図である。
図10(b)はインシデント重要度を決定する重要度決定因子の一例を説明するための別の図である。
図11は付加係数を説明するための図である。
【0031】
ここで、
図4(a)に示すように、ゲートウェイ200は、性能情報取得部201、性能情報記憶部202、異常有無判断部203、及び障害種別特定部204を含んでいる。また、ゲートウェイ200は、関連情報管理部205、関連情報記憶部206、要件情報管理部207、要件情報記憶部208、及び重要度決定部209を含んでいる。尚、性能情報取得部201、異常有無判断部203、障害種別特定部204、及び重要度決定部209は後述する処理部の一例であって、上述したCPU200Aによって実現することができる。関連情報管理部205及び要件情報管理部207を処理部に含めてもよい。性能情報取得部201を上述したネットワークI/F200Dによって実現してもよい。一方、性能情報記憶部202、関連情報記憶部206、及び要件情報記憶部208は上述したRAM200BやHDD200Eによって実現することができる。
【0032】
性能情報取得部201は、
図4(a)に示すように、有線中継器150を介して通信性能及び端末性能を含む性能情報を取得する。より詳しくは、性能情報取得部201は通信性能と端末性能のサンプリング間隔を複数のエンドデバイス100P,100P´,100Q,100Q´,100R,100R´のそれぞれに通知する。必要に応じて、性能情報取得部201は性能情報の送信間隔を複数のエンドデバイス100P,100P´,100Q,100Q´,100R,100R´のそれぞれに通知してもよい。また、性能情報取得部201は温度や湿度、振動やガス濃度といった環境値のサンプリング間隔や環境値を含む環境情報の送信間隔を複数のエンドデバイス100P,100P´,100Q,100Q´,100R,100R´のそれぞれに通知してもよい。
【0033】
例えば、性能情報取得部201が複数のエンドデバイス100P,100P´,100Q,100Q´,100R,100R´のそれぞれから自ら性能情報を取得する取得方式の場合、性能情報取得部201は送信間隔を通知しないでもよい。この場合、性能情報の取得間隔は同じであってもよいし、異なっていてもよい。また、通信性能に変化が発生した際にのみ性能情報を送信する送信方式や端末性能に変化が発生した際にのみ性能情報を送信する送信方式の場合にも、性能情報取得部201は送信間隔を通知しないでもよい。一方、性能情報を定期的に送信する送信方式の場合には、性能情報取得部201は送信間隔を通知する。
【0034】
性能情報取得部201は、このような各種の送信方式に基づいて、複数のエンドデバイス100P,100P´,100Q,100Q´,100R,100R´のそれぞれから送信された性能情報を受信する。これにより、性能情報取得部201は性能情報を取得する。性能情報取得部201は性能情報を取得すると、取得した性能情報を性能情報記憶部202に格納する。性能情報取得部201は性能情報を格納すると、異常有無判断部203及び要件情報管理部207に性能情報記憶部202の更新を通知する。
【0035】
尚、性能情報取得部201はエンドデバイス100P,100P´,100Q,100Q´,100R,100R´だけでなく、無線中継器130P,130Qのそれぞれの性能情報を取得してもよい。同様に、性能情報取得部201は有線中継器150及びゲートウェイ200のそれぞれの性能情報を取得してもよい。
【0036】
性能情報記憶部202は上述した性能情報を記憶する。性能情報は、
図4(b)に示すように、複数の性能情報管理テーブルT1によって送信元毎に管理される。性能情報管理テーブルT1は、
図5及び
図6に示すように、いずれも、送信元IDフィールドとタイムスタンプフィールドと通信性能をそれぞれ表す複数の通信性能フィールドと端末性能をそれぞれ表す複数の端末性能フィールドとを含んでいる。
【0037】
送信元IDフィールドには、性能情報を送信した送信元を識別する識別情報が登録される。例えば、
図5に示す送信元ID「ED1001」はエンドデバイス100Pの識別情報を表している。一方、
図6に示す送信元ID「AP1234」は無線中継器130Pの識別情報を表している。タイムスタンプフィールドには性能情報取得部201が性能情報を取得した日時がミリ秒単位で時系列に登録される。
【0038】
複数の通信性能フィールドのそれぞれにはRSSIや応答時間などの計測値が登録される。詳細は後述するが、通信障害などにより、
図5に示すように、予め定めた閾値を超えた計測値が登録されたり、
図6に示すように、取得失敗によって計測値が登録されなかったりする場合がある。一方、複数の端末性能フィールドのそれぞれにはバッテリ残量やCPU使用率などの計測値が登録される。尚、
図5及び
図6に示すように、本実施形態では、性能情報取得部201は通信性能を含み、端末性能を含まない性能情報をミリ秒単位の間隔で取得し、通信性能と端末性能の両方を含む性能情報をミリ秒単位と異なる間隔で取得している。
【0039】
異常有無判断部203は性能情報記憶部202から直近の複数の性能情報を取得し、取得した複数の性能情報の中に異常な性能情報があるか否かを判断する。異常有無判断部203は、性能情報取得部201から性能情報記憶部202の更新が通知されると、通信性能や端末性能の異常を判断する判断条件に基づいて、異常な性能情報の有無を判断する。判断条件は、
図5に示すように、計測値が予め定めた閾値を超えているかどうかや、
図6に示すように、計測値の取得に失敗して、計測値が欠落しているかどうかなどの条件ある。異常有無判断部203はエンドデバイス100Pや無線中継器130Pなどから送信されるエラーメッセージの受信の有無を判断条件として利用してもよい。
【0040】
異常有無判断部203は、計測値が予め定めた閾値を超えていたり、計測値が欠落していたり、エラーメッセージを受信したりした場合には、異常な性能情報があると判断する。尚、性能情報記憶部202から直近の複数の性能情報を取得し、計測値の平均値や分散値といった特徴量を算出し、算出した特徴量が閾値を超えるか否かにより、異常の有無の判断を実行してもよい。
【0041】
異常有無判断部203は、異常な性能情報があると判断すると、異常な性能情報が通信性能に関する異常である場合、その性能情報の送信元ID、タイムスタンプ、通信性能の名称(例えばRSSIやLQなど)、及び当該通信性能の計測値を含む異常発生通知を障害種別特定部204に送信する。一方、異常有無判断部203は、異常な性能情報があると判断し、異常な性能情報が端末性能に関する異常である場合、その性能情報の送信元ID、タイムスタンプ、端末性能の名称(例えばバッテリ残量やCPU使用率など)、及び当該端末性能の計測値を含む異常発生通知を障害種別特定部204に送信する。
【0042】
障害種別特定部204は異常発生通知を受信すると、異常発生通知に含まれる送信元IDとタイムスタンプとに基づいて、性能情報記憶部202から送信元IDとタイムスタンプとに応じた直近の性能情報の少なくとも1つを取得する。障害種別特定部204は性能情報を取得すると、性能情報に含まれる通信性能や端末性能の計測値などを利用して、障害の障害種別を特定する。ここで、障害種別特定部204は、
図7に示すような、通信性能及び端末性能の異常を表す複数の識別子と通信性能及び端末性能の正常を表す複数の識別子の組み合わせ毎に障害の障害種別を対応付けた対応関係を保持している。したがって、障害種別特定部204は、この対応関係と異常発生通知に含まれる通信性能や端末性能の名称及び計測値とに基づいて、障害種別を特定する。
【0043】
例えば、RSSIに異常があるが、LQ、応答時間、及び再送回数には異常がない異常発生通知を障害種別特定部204が受信した場合、障害種別特定部204は対応関係に基づいて障害種別を干渉と判断する。一方、RSSI、LQ、及び応答時間に異常がある異常発生通知を障害種別特定部204が受信した場合、障害種別特定部204は対応関係に基づいて障害種別を遮蔽と判断する。障害種別特定部204は障害種別を特定すると、特定した障害種別と、判断日時又は特定日時を表す障害発生日時と、送信元IDとを含む障害内容通知を関連情報管理部205に送信する。
【0044】
尚、障害種別特定部204は直近の性能情報の少なくとも1つを取得するが、取得対象は直近の数個であってもよいし、異常があると判断した性能情報のタイムスタンプの前後数個であってもよい。また、性能情報の計測値の変化の周期や変化量などに応じて、取得個数を変えてもよい。例えば、通信性能の場合、無秩序に又は非線形的に大きく変化する可能性が高いため、数十個といった多くの性能情報を取得する。一方、端末性能の場合、線形的に変化する可能性が高いため、十数個といった少ない性能情報を取得する。このように、異常が通信性能にあるのか、端末性能にあるのかによって取得個数を変えてもよい。また、障害種別特定部204は障害種別を特定する際に対応関係を利用したが、公知の様々な分析手法を利用してもよい。当該分析手法としては、クラスタ分析やトレンド分析、正常時の学習パターンとクラスタとの比較などがある。
【0045】
関連情報管理部205は、障害種別特定部204から障害内容通知を受信すると、受信した障害内容通知に基づいて、障害種別特定部204が特定した障害種別に関連する各種の関連情報を関連情報記憶部206により管理する。ここで、関連情報は、
図4(c)に示すように、関連情報管理テーブルT3によって管理される。関連情報管理テーブルT3は、
図8に示すように、発生箇所フィールド、障害種別フィールド、時間帯フィールド、発生回数フィールド、及び自動復旧平均時間フィールドを構成要素として含んでいる。
【0046】
発生箇所フィールドには障害が発生した箇所を特定する情報が登録される。例えば、発生箇所「L−P」はリンクL−P(
図1参照)を表している。例えば、発生箇所「L−R」はリンクL−R(
図1参照)を表している。例えば、発生箇所「D−P」はエンドデバイス100P(
図1参照)を表している。特に、障害種別が干渉や遮蔽といった無線通信の通信障害である場合、関連情報管理部205は通信障害を表す性能情報を送信したエンドデバイス100Pなどの上位(即ちクラウドCL側)のリンクL−Rを発生箇所として特定し、これを発生箇所フィールドに登録する。尚、発生箇所としてリンクL−RやリンクL−Pなどを区別せずに、発生箇所の全てを送信元IDによって管理してもよい。
【0047】
障害種別フィールドには障害内容通知に含まれる障害種別が登録される。例えば、障害内容通知に障害種別として通信ケーブルの切断が含まれていると、障害種別フィールドに切断が登録される。障害内容通知に障害種別として無線通信の干渉が含まれていると、障害種別フィールドに干渉が登録される。時間帯フィールドには1時間刻みの時間帯が登録される。時間帯は予め登録されている。平日と休日の区分を利用して時間帯を更に細かく区分してもよい。一方で、時間帯フィールドを設けないようにしてもよい。
【0048】
発生回数フィールドにはその時間帯に発生した障害の発生回数が計測結果として登録される。平日と休日のそれぞれの時間帯毎に発生回数を登録してもよい。また、時間帯フィールドがない場合には、時間帯毎に分けられていない発生回数の総数を登録してもよい。自動復旧平均時間フィールドには、対象の障害が自然に復旧した時間の平均秒数が計測結果として登録される。例えば、電池切れに対して光発電が行われた場合なども障害が自然に復旧した事象に含めてもよい。一方、通信ケーブルの切断に対して行われた作業員による通信ケーブルの交換は障害が自然に復旧した事象に含まれないため、予め定めた最大値(例えば3600秒)が計測結果として登録される。
【0049】
ここで、関連情報管理部205は、障害種別特定部204から障害種別と送信元IDが同一である同一種の障害内容通知を受信し続けている間には、送信元IDによって識別される送信元において、その障害種別の障害が発生し続けていると判断する。一方、関連情報管理部205は、同一種の障害内容通知を受信しなくなった際に、送信元IDによって識別される送信元において、その障害種別の障害が自然に復旧したと判断する。そして、関連情報管理部205は、同一種の障害内容通知を受信し始めてから、同一種の障害内容通知を受信し終えるまでの時間を表す自動復旧時間を算出する。関連情報管理部205は、自動復旧時間を時間帯毎に管理し、その時間帯に自動復旧しない場合には、自動復旧時間を最大値(3600秒)に設定する。尚、関連情報管理部205は、自動復旧時間を時間帯毎に平均値を算出してもよいし、自動復旧時間の最大値を利用してもよい。
図8では、自動復旧時間の平均が自動復旧平均時間として示されている。
【0050】
要件情報管理部207は、性能情報取得部201から性能情報記憶部202の更新が通知されると、性能情報記憶部202から直近複数個の性能情報を取得して性能情報に対応する送信元IDを特定する。要件情報管理部207は、送信元IDを特定すると、特定した送信元ID毎にサンプリング間隔や送信間隔を算出して、要件情報として管理する。また、要件情報管理部207は、サーバ300から、クラウドCLが提供するサービス又はそのサービスを実現するアプリケーションソフトウェア(以下、単にアプリという)毎に、そのサービスに関する各種の情報を取得し、取得した情報を要件情報として管理する。サービスに関する各種の情報としては、例えばサービスの名称やサーバ300が上述した環境情報を要求する要求時間、サービスの主要な運用時間などがある。尚、要件情報管理部207は、更新が通知されなくても、性能情報取得部201が通知したサンプリング間隔や送信間隔を取得して、要件情報として管理してもよい。また、要件情報管理部207は、更新が通知されなくても、性能情報記憶部202が記憶する性能情報の全てに基づいて、定期的(例えば1回/1日など)にサンプリング間隔や送信間隔を算出して、要件情報として管理してもよい。
【0051】
ここで、要件情報は、
図4(d)に示すように、複数の要件情報管理テーブルT4によってサービス毎に管理される。要件情報管理テーブルT4は、
図9に示すように、サービスフィールド、運用時間フィールド、送信元IDフィールド、計測対象フィールド、サンプリング間隔フィールド、及び送信間隔フィールドを含んでいる。
【0052】
サービスフィールドには、要件情報管理部207が取得したサービスの名称が登録される。サービスの名称によって上述した要求時間を特定することができる。運用時間フィールドには要件情報管理部207が取得したサービスの運用時間が登録される。送信元IDにはエンドデバイス100P,100Rや無線中継器130Pなどの識別情報が登録される。計測対象フィールドには、エンドデバイス100Pが計測する温度や湿度、エンドデバイス100Rが計測する振動やガス濃度などが登録される。サンプリング間隔フィールドには要件情報管理部207が取得したサンプリング間隔が登録される。送信間隔フィールドには要件情報管理部207が取得した送信間隔が登録される。このように、要件情報管理部207は、各サービスの運用時間や、各サービスが送信元ID毎に要求する計測対象のサンプリング間隔や送信間隔を要件情報として要件情報記憶部208により管理する。
【0053】
重要度決定部209は、関連情報管理部205が管理する関連情報に基づいて、障害種別に対する対応の重要度をインシデント重要度として決定する。重要度決定部209は、関連情報に加え、要件情報管理部207が管理する要件情報にも基づいて、インシデント重要度を決定してもよい。これにより、高精度なインシデント重要度を決定することができる。尚、本実施形態におけるインシデントとは、障害種別特定部204が特定した障害種別をいい、障害種別を特定する際に障害種別特定部204によって行われる各種の処理はインシデントに含まれない。このため、関連情報管理部205は障害種別特定部204が特定したインシデントに基づいて、インシデントに関連する関連情報を管理しているということができる。そして、重要度決定部209は当該管理情報に基づいて、インシデントに対する対応の重要度をインシデント重要度として決定するということができる。
【0054】
特に、重要度決定部209は以下の算出式(1)によりインシデント重要度を決定する。
インシデント重要度=a×A+b×B+c×C+付加係数・・・(1)
ここで、a×A+b×B+c×Cは上述した関連情報に基づいて重要度決定部209が生成した重要度主要情報を表している。算出式(1)では演算の一例として乗算と加算を記載しているが、乗算及び加算に限定されず、減算及び除算の少なくとも一方を利用してもよい。重要度主要情報は種別が異なる複数種類の重要度個別情報a×A,b×B,c×Cの少なくとも1つを含んでいればよい。尚、本実施形態では一例として3種類を説明するが、2種類であってもよいし、4種類であってもよい。ここで、
図10(a)及び(b)に示すように、a,b,cはいずれも軸間係数を表している。3つの軸間係数a,b,cは、第1軸、第2軸、及び第3軸の3つの軸間で平均値が所定値(例えば1.0や10.0など)になるように動的に調整されて特定された係数である。第1軸は復旧時間に関する重要度に応じた値を表す重要度値Aの大きさが刻まれた軸である。第2軸は発生頻度に関する重要度に応じた値を表す重要度値Bの大きさが刻まれた軸である。第3軸は発生箇所に関する重要度に応じた値を表す重要度値Cの大きさが刻まれた軸である。これにより、インシデント重要度が第1軸、第2軸及び第3軸のそれぞれで定義される重要度値A,B,Cのいずれかに偏ることが回避される。一方、
図10(a)及び(b)に示すように、重要度値A,B,Cは、それぞれ第1軸、第2軸、及び第3軸の中で0.0〜1.0の範囲内で動的に刻まれた数値である。重要度決定部209は
図10(a)及び(b)に示す各種の情報を予め保持している。
【0055】
例えば、
図10(a)に示すように、復旧時間には、∞、数時間、数分、数秒、1秒以内といった復旧時間の長さを表す複数の項目が予め設定される。尚、∞は自然復旧がなかったことを表している。障害種別毎に復旧時間の正規分布を作成し、最頻値が0.5になるように複数の項目が設定されてもよい。また、
図10(a)に示すように、発生頻度には、予め設定された閾値に基づいて、多い、やや多い、やや少ない、少ない、初めてといった発生頻度を表す複数の項目が設定される。障害種別毎に発生頻度の正規分布を作成し、最頻値が0.5になるように複数の項目が設定されてもよい。さらに、
図10(a)に示すように、発生箇所には、ゲートウェイ、無線通信、有線通信、中継器、エンドデバイスといった複数の項目が予め設定される。特に、ゲートウェイには重要度値として1.0が設定され、順に小さな重要度値が設定されているが、これは障害発生時に異常検出システムSTが影響を受ける大きさを表している。尚、障害種別毎に影響のあるエンドデバイス100Pや無線中継器130Pなどの数の正規分布を作成し、最頻値が0.5になるように複数の項目が設定されてもよい。
【0056】
一方、重要度決定部209は、算出式(1)における付加係数を、要件情報に基づいてサービス毎に生成する。重要度決定部209は、生成したサービス毎の付加係数の少なくとも1つを重要度主要情報に加算してインシデント重要度を決定する。例えば、
図11に示すように、送信間隔(
図9参照)より復旧時間が長い場合には、サービスαの運用に弊害や支障があるので、付加係数に1.0を計上する。また、サービスαの運用時間内に障害が発生した場合にも同様に、サービスαの運用に弊害や支障があるので、付加係数に1.0を計上する。重要度決定部209はこのような付加係数を重要度主要情報に加算する。尚、付加係数は最大1.0とし、付加係数が複数ある場合には、付加係数の全てを1.0としてもよい。また、各付加係数の合計が1.0となるように、1.0を付加係数の個数で除算した数値を個々の付加係数としてもよい。尚、重要度決定部209は
図11に示す各種の情報を予め保持している。
【0057】
図12はゲートウェイ200の動作の一例を示すフローチャートである。
図12に示すように、ゲートウェイ200の性能情報取得部201は性能情報を取得する(ステップS101)。性能情報は通信性能及び端末性能を含んでいる。性能情報取得部201は性能情報を取得すると、次いで、取得した性能情報を性能情報記憶部202に格納する(ステップS102)。
【0058】
ステップS102の処理が完了すると、異常有無判断部203は複数の性能情報を抽出し(ステップS103)、異常な性能情報の有無を判断する(ステップS104)。異常有無判断部203は異常な性能情報がないと判断した場合(ステップS105:NO)、処理を終了する。一方、異常有無判断部203は異常な性能情報があると判断した場合(ステップS105:YES)、障害種別特定部204は障害種別を特定する(ステップS106)。
【0059】
ステップS106の処理が完了すると、次いで、関連情報管理部205は関連情報を管理し(ステップS107)、要件情報管理部207は要件情報を管理する(ステップS108)。尚、ステップS108の処理はステップS102の処理より後であってステップS109の処理より前であれば、どの段階で実行されてもよい。また、ステップS108の処理が実行されなくてもよい。ステップS107又はステップS108の処理が完了すると、重要度決定部209はインシデント重要度を決定し(ステップS109)、処理を終了する。
【0060】
以上、第1実施形態によれば、ゲートウェイ200は性能情報取得部201と異常有無判断部203と障害種別特定部204と重要度決定部209とを備えている。性能情報取得部201はエンドデバイス100Pなどの性能をそれぞれ含む複数の性能情報を取得する。異常有無判断部203は、性能の異常を判断する判断条件に基づいて、複数の性能情報の中に異常な性能情報があるか否かを判断する。障害種別特定部204は異常な性能情報がある場合、性能の異常を表す複数の識別子の組み合わせ毎に障害の種別を対応付けた対応関係に基づいて、異常な性能情報に応じた障害の障害種別を特定する。重要度決定部209は特定した障害種別に関連する関連情報に基づいて、インシデント重要度を決定する。これにより、障害に対する運用管理者の対応判断を支援することができる。
【0061】
特に、製造工場の製造ラインは製造対象に応じて変更されるため、有線通信を利用するエンドデバイス100Qなどより、無線通信が可能なエンドデバイス100Pなどを利用する方が好ましい。無線通信を利用する場合、製造設備の大きさによっては遮蔽といった通信障害が発生したり、周囲に存在する他の無線通信により干渉といった通信障害が発生したりするおそれがある。しかしながら、本実施形態によれば、これらの通信障害が発生しても、運用管理者はインシデント重要度によって適切な対応判断を行うことができ、通信障害に起因するサービスの運用遅延を抑えることができる。
【0062】
また、エンドデバイス100Pやゲートウェイ200などのハードウェアのスペックが不十分であったり、ソフトウェアが脆弱であったりすると、自身の性能を十分に発揮できずに、計測値を取得できなくなるといった端末障害が発生するおそれがある。しかしながら、本実施形態によれば、このような端末障害が発生しても、運用管理者はインシデント重要度によって適切な対応判断を行うことができ、端末障害に起因するサービスの運用遅延を抑えることができる。
【0063】
(第2実施形態)
続いて、
図13を参照して、本件の第2実施形態について説明する。
図13は重要度決定因子設定画面の一例である。重要度決定因子設定画面は運用管理者による操作に基づいて運用管理端末に表示される。尚、重要度決定因子設定画面を表示するアプリは例えばサーバ300にインストールすればよい。サーバ300は重要度決定因子設定画面で設定された各種の情報をゲートウェイ200に送信する。サーバ300がゲートウェイ200に送信する各種の情報としては、後述する軸間係数、各種の項目、重要度値、付加係数などがある。特に、サーバ300は軸間係数、各種の項目、及び重要度値を重要度決定部209に送信し、付加係数や付加係数の付加条件を要件情報管理部207に送信する。これにより、重要度決定部209は軸間係数、各種の項目、及び重要度値を保持し、要件情報管理部207は付加係数及び付加条件を保持する。
【0064】
第1実施形態で説明した3つの軸間係数はいずれも重要度決定因子設定画面により設定することができる。具体的には、重要度決定因子設定画面における軸間係数の列に表示された数値のいずれかをポインタPtにより選択し、数値を直接入力し、設定完了ボタンBT1を押下することにより軸間係数を設定することができる。入力された数値により、ある特定の軸の重要度値に偏らないよう、平均値が1.0になるようにサーバ300の処理部(不図示)が動的に調整してもよい。
【0065】
また、第1実施形態で説明した復旧時間の長さを表す複数の項目、発生頻度を表す複数の項目、及び発生箇所を表す複数の項目はいずれも重要度決定因子設定画面により設定することができる。例えば、重要度決定因子設定画面における発生頻度の行に表示された文字列のいずれかをポインタPtにより選択し、文字列を直接入力し、設定完了ボタンBT1を押下することにより複数の項目を設定することができる。その際、不等号を使用した数式などを入力してもよい。
【0066】
さらに、第1実施形態で説明した3つの重要度値はいずれも重要度決定因子設定画面により設定することができる。具体的には、重要度決定因子設定画面における重要度値の行に表示された数値のいずれかをポインタPtにより選択し、数値を直接入力し、設定完了ボタンBT1を押下することにより重要度値を設定することができる。入力された数値に基づいて、サーバ300の処理部が1つの軸内で0.0〜1.0の範囲内で残りの数値を調整してもよい。
【0067】
さらに、第1実施形態で説明した重要度主要情報を重要度決定因子設定画面により追加してもよい。具体的には、重要度決定因子設定画面における項目追加ボタンBT2をポインタPtにより押下することにより、軸間係数及び重要度値の各入力欄が出現する。これにより、新たな軸間係数や新たな重要度値を設定することができ、高精度なインシデント重要度を決定することができる。
【0068】
さらに、第1実施形態で説明した付加係数はいずれも重要度決定因子設定画面により設定することができる。具体的には、重要度決定因子設定画面における付加係数の列に表示された数値のいずれかをポインタPtにより選択し、数値を直接入力し、設定完了ボタンBT3を押下することにより付加係数を設定することができる。サービス切替ボタンBT4をポインタPtにより押下することにより、付加係数を設定する対象のサービスを切り替えてもよい。
【0069】
さらに、上述した付加係数を重要度決定因子設定画面により追加してもよい。具体的には、重要度決定因子設定画面における項目追加ボタンBT5をポインタPtにより押下することにより、付加係数を追加するための入力欄が出現する。これにより、新たな付加係数を設定することができ、高精度なインシデント重要度を決定することができる。
【0070】
以上、本発明の好ましい実施形態について詳述したが、本発明に係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。例えば、実施形態では、
図12に示すフローチャートに応じた処理をゲートウェイ200が実行したが、ゲートウェイ200に代えて、サーバ300が実行してもよい。
【0071】
なお、以上の説明に関して更に以下の付記を開示する。
(付記1)管理対象装置の性能をそれぞれ含む複数の性能情報を取得し、前記性能の異常を判断する判断条件に基づいて、前記複数の性能情報の中に異常な性能情報があるか否かを判断し、前記異常な性能情報がある場合、前記性能の異常を表す複数の識別子の組み合わせ毎に障害の種別を対応付けた対応関係に基づいて、前記異常な性能情報に応じた障害の障害種別を特定し、特定した前記障害種別に関連する関連情報に基づいて、障害対応の重要度を決定する、処理をコンピュータが実行する異常検出方法。
(付記2)前記処理は、前記関連情報に含まれる要素に応じた係数と前記要素に対する計測結果に応じた値との演算結果に基づいて、前記重要度を決定する、ことを特徴とする付記1に記載の異常検出方法。
(付記3)前記処理は、特定した前記障害種別の障害から復旧する復旧時間の重要度に応じた値を表す第1の重要度値、特定した前記障害種別の障害の発生頻度の重要度に応じた値を表す第2の重要度値、特定した前記障害種別の障害の発生箇所の重要度に応じた値を表す第3の重要度値、の少なくとも1つに基づいて、前記重要度を決定する、ことを特徴とする付記1又は2に記載の異常検出方法。
(付記4)前記処理は、前記第1の重要度値の大きさが刻まれた第1の軸、前記第2の重要度値の大きさが刻まれた第2の軸、前記第3の重要度値の大きさが刻まれた第3の軸の軸間で平均値が所定値になる複数の係数を利用して、前記重要度を決定する、ことを特徴とする付記3に記載の異常検出方法。
(付記5)前記管理対象装置が計測する環境値を含む環境情報の送信間隔を管理する処理を含み、前記処理は、前記関連情報と、特定した前記障害種別の障害から復旧する復旧時間と前記送信間隔との関係に応じて定められた係数と、に基づいて、前記重要度を決定する、ことを特徴とする付記1から4のいずれか1項に記載の異常検出方法。
(付記6)前記管理対象装置が計測する環境値に基づいて提供されるサービスの運用時間を管理する処理を含み、前記処理は、前記関連情報と、前記運用時間と前記障害が発生した時間帯との関係に応じて定められた係数と、に基づいて、前記重要度を決定する、ことを特徴とする付記1から5のいずれか1項に記載の異常検出方法。
(付記7)前記関連情報に含まれる要素に応じた係数と前記要素に対する計測結果に応じた値は、前記コンピュータと間接的に接続された端末装置から設定される、ことを特徴とする付記1に記載の異常検出方法。
(付記8)前記性能は、前記管理対象装置の通信状態を特定できる通信パフォーマンスと前記管理対象装置の稼働状態を特定できる稼働パフォーマンスとを有する、ことを特徴とする付記1から7のいずれか1項に記載の異常検出方法。
(付記9)管理対象装置の性能をそれぞれ含む複数の性能情報を取得し、前記性能の異常を判断する判断条件に基づいて、前記複数の性能情報の中に異常な性能情報があるか否かを判断し、前記異常な性能情報がある場合、前記性能の異常を表す複数の識別子の組み合わせ毎に障害の種別を対応付けた対応関係に基づいて、前記異常な性能情報に応じた障害の障害種別を特定し、特定した前記障害種別に関連する関連情報に基づいて、障害対応の重要度を決定する、処理をコンピュータに実行させる異常検出プログラム。
(付記10)管理対象装置の性能をそれぞれ含む複数の性能情報を取得し、前記性能の異常を判断する判断条件に基づいて、前記複数の性能情報の中に異常な性能情報があるか否かを判断し、前記異常な性能情報がある場合、前記性能の異常を表す複数の識別子の組み合わせ毎に障害の種別を対応付けた対応関係に基づいて、前記異常な性能情報に応じた障害の障害種別を特定し、特定した前記障害種別に関連する関連情報に基づいて、障害対応の重要度を決定する、処理を実行する処理部を有する異常検出装置。
(付記11)前記処理部は、前記関連情報に含まれる要素に応じた係数と前記要素に対する計測結果に応じた値との演算結果に基づいて、前記重要度を決定する、ことを特徴とする付記10に記載の異常検出装置。
(付記12)前記処理部は、特定した前記障害種別の障害から復旧する復旧時間の重要度に応じた値を表す第1の重要度値、特定した前記障害種別の障害の発生頻度の重要度に応じた値を表す第2の重要度値、特定した前記障害種別の障害の発生箇所の重要度に応じた値を表す第3の重要度値、の少なくとも1つに基づいて、前記重要度を決定する、ことを特徴とする付記10又は11に記載の異常検出装置。
(付記13)前記処理部は、前記第1の重要度値の大きさが刻まれた第1の軸、前記第2の重要度値の大きさが刻まれた第2の軸、前記第3の重要度値の大きさが刻まれた第3の軸の軸間で平均値が所定値になる複数の係数を利用して、前記重要度を決定する、ことを特徴とする付記12に記載の異常検出装置。
(付記14)前記処理部は、前記管理対象装置が計測する環境値を含む環境情報の送信間隔を管理し、前記関連情報と、特定した前記障害種別の障害から復旧する復旧時間と前記送信間隔との関係に応じて定められた係数と、に基づいて、前記重要度を決定する、ことを特徴とする付記10から13のいずれか1項に記載の異常検出装置。
(付記15)前記処理部は、前記管理対象装置が計測する環境値に基づいて提供されるサービスの運用時間を管理し、前記関連情報と、前記運用時間と前記障害が発生した時間帯との関係に応じて定められた係数と、に基づいて、前記重要度を決定する、ことを特徴とする付記10から14のいずれか1項に記載の異常検出装置。
(付記16)前記関連情報に含まれる要素に応じた係数と前記要素に対する計測結果に応じた値は、前記異常検出装置と間接的に接続された端末装置から設定される、ことを特徴とする付記10に記載の異常検出装置。
(付記17)前記性能は、前記管理対象装置の通信状態を特定できる通信パフォーマンスと前記管理対象装置の稼働状態を特定できる稼働パフォーマンスとを有する、ことを特徴とする付記10から16のいずれか1項に記載の異常検出装置。