(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-08
(45)【発行日】2023-09-19
(54)【発明の名称】データ系列の異常検出におけるビン分割された四分位数間範囲の分析のためのシステム及び方法
(51)【国際特許分類】
G06F 11/07 20060101AFI20230911BHJP
G06F 17/18 20060101ALI20230911BHJP
【FI】
G06F11/07 151
G06F17/18 Z
G06F11/07 193
G06F11/07 140A
(21)【出願番号】P 2019160779
(22)【出願日】2019-09-04
【審査請求日】2022-09-02
(32)【優先日】2018-09-26
(33)【優先権主張国・地域又は機関】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】504407000
【氏名又は名称】パロ アルト リサーチ センター インコーポレイテッド
(74)【代理人】
【識別番号】100094569
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100109070
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100086771
【氏名又は名称】西島 孝喜
(74)【代理人】
【識別番号】100109335
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【氏名又は名称】那須 威夫
(72)【発明者】
【氏名】アジャイ・ラガバン
(72)【発明者】
【氏名】ライアン・エイ・ロッシ
(72)【発明者】
【氏名】ジュンホ・パク
【審査官】今城 朋彬
(56)【参考文献】
【文献】米国特許出願公開第2013/0080375(US,A1)
【文献】米国特許出願公開第2015/0341246(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 11/07
G06F 11/28-11/34
G06F 17/18
(57)【特許請求の範囲】
【請求項1】
異常検出を容易にするためのコンピュータ実装方法であって、前記方法が、
第1の変数を監視する第1のセンサからの第1のデータ系列と、1つ以上の第2の変数を監視する第2のセンサからの第2のデータ系列と、を取得することであって、前記第1のセンサ及び前記第2のセンサが、物理的物体に関連付けられたデータを記録する物理センサであり、監視された前記第1の変数および監視された前記第2の変数が、前記物理的物体の物理的特徴である、取得することと、
コンピューティングデバイスによって、複数のデータ点を含む試験データのセットを判定することであって、前記セットが、前記第1の変数を監視する前記第1のセンサから取得される前記第1のデータ系列を含むとともに、前記1つ以上の第2の変数を監視する前記第2のセンサから取得される前記第2のデータ系列をさらに含み、前記1つ以上の第2の変数が、前記第1の変数に依存する、判定することと、
前記判定された試験データのセットを、少なくとも前記第1及び第2のデータ系列、前記第1のセンサ及び前記第2のセンサの解像度、及び前記第1のセンサ及び前記第2のセンサの第1の物理的構成要素のタイプに基づいていくつかの群に分割することと、
それぞれの群の四分位数間範囲を判定することと、
前記それぞれの群の前記四分位数間範囲に基づいて、前記それぞれの群内の第1の試験データ点を異常として分類することと、
前記分類された異常に基づいて、前記コンピューティングデバイスによって、前記第1のセンサ及び前記第2のセンサに関連する物理的ユニットを自動的に調節することにより、所定の規則を実行することと、
前記コンピューティングデバイスのユーザによって、前記第1のデータ系列又は前記第2のデータ系列が取得されるデバイスの第2の物理的構成要素を調節することにより、前記分類された異常に対処するための措置を実施することと、
それによって、複数の変数の前記第1及び第2のデータ系列についてのデータマイニング及び外れ値検出を強化することと、を含む、方法。
【請求項2】
前記ユーザによって実行される前記措置には、
前記分類された異常がもはや発生しないことを確実にするための改善措置又は是正措置、及び
前記第1の変数又は前記1つ以上の第2の変数に影響を及ぼす物理的パラメータを調節すること、のうちの1つ以上が更に含まれる、請求項1に記載の方法。
【請求項3】
前記コンピューティングデバイスによって、試験データの新しいセットの異常を検出するための要求を受信することであって、前記新しいセットが、前記第1の変数を監視する前記第1のセンサから取得される新しい第1のデータ系列を含むとともに前記1つ以上の第2の変数を監視する前記第2のセンサから取得される新しい第2のデータ系列を更に含み、
前記試験データの新しいセットは、前記ユーザが前記分類された異常に対処するために前記措置を実施した後に、前記コンピューティングデバイスによって取得される、受信することと、
前記試験データの新しいセットを、前記試験データのセットの前記いくつかの群と同じ数の新しい群に分割することと、
内部の前記第1の試験データ点が異常として分類された前記それぞれの群に対応する、それぞれの新しい群の四分位数間範囲を判定することと、
前記それぞれの群内の前記第1の試験データ点が、前記それぞれの新しい群内で依然として発生しているかどうかを判定することであって、前記判定が、前記分類された異常に対処するために前記ユーザによって実施された前記措置が成功しているかどうかを示す、判定することと、を更に含む、請求項2に記載の方法。
【請求項4】
前記試験データのセットを前記いくつかの群に分割することが、
アルゴリズムに基づく自動プロセス、
前記試験データのセットを取得することに関与する機械の解像度、
前記試験データのセットに関連する以前の又は履歴データであって、前記コンピューティングデバイスによって取得される、以前の又は履歴データ、
前記コンピューティングデバイスのユーザの事前又は過去の知識であって、前記試験データのセットに関連し、かつ前記コンピューティングデバイスの前記ユーザによって取得される、事前又は過去の知識、並びに
より高い次元のデータセットの重要な変数を表す構成要素に基づいて、前記試験データのセットのデータ分布を分解することであって、前記構成要素が、主要構成要素、導出された構成要素の結合、及び構成要素の線形結合のうちの1つ以上を含む、分解すること、のうちの1つ以上に基づいており、
前記それぞれの群の前記四分位数間範囲を判定することが、前記構成要素に基づいて、四分位数分析を実施することを更に含む、請求項1に記載の方法。
【請求項5】
前記試験データのセットを分割すること、及び前記それぞれの群の前記四分位数間範囲を判定することが、
異常として分類される試験データ点の存在を含む、前記試験データのセット内の前記分割された群にわたる複数の従属変数に基づいて、前記試験データのセット内の正規分布を自動的に分類することを更に含む、請求項1に記載の方法。
【請求項6】
前記第1のデータ系列が、前記第1の変数の時系列データを含むとともに、前記第2のデータ系列が、前記1つ以上の第2の変数の時系列データを含み、
前記第1の変数の前記第1の時系列データが、前記異常検出の対象であり、
前記1つ以上の第2の変数の前記第2の時系列データが、前記第1の変数の前記時系列データに影響を及ぼす、請求項1に記載の方法。
【請求項7】
前記それぞれの群の前記四分位数間範囲を判定することが、
前記それぞれの群内の第2の試験データのセットを、前記第2の試験データのセットの中央値に基づいて4つの部分に分割することであって、
前記4つの部分を分離する3つの値が、第1の四分位数、第2の四分位数、及び第3の四分位数であり、
前記四分位数間範囲が、前記第1の四分位数と前記第3の四分位数との間の差である、分割することと、
前記第1の四分位数から、所定の値によってスケーリングされた前記四分位数間範囲に等しい第1の量を減算することによって、前記第2の試験データのセットの下限を特定することと、
前記第3の四分位数に、前記所定の値によってスケーリングされた前記四分位数間範囲に等しい第2の量を加算することによって、前記第2の試験データのセットの上限を特定することと、を更に含む、請求項1に記載の方法。
【請求項8】
前記それぞれの群内の前記第1の試験データ点を異常として分類することが、前記第1の試験データ点が前記下限と前記上限との間に含まれないと判定することに更に基づく、請求項7に記載の方法。
【請求項9】
前記第2の試験データのセット内のデータ点の数が偶数2n個であると判定することに応答して、前記方法が、
前記第1の四分位数を、前記第2の
試験データのセット内のn個の最小データ点の中央値として設定することと、
前記第3の四分位数を、前記第2の
試験データのセット内のn個の最大データ点の中央値として設定することと、を更に含み、
前記第2の試験データのセット内のデータ点の数が奇数2m+1個であると判定することに応答して、前記方法が、
前記第1の四分位数を、前記第2の
試験データのセット内のm個の最小データ点の中央値として設定することと、
前記第3の四分位数を、前記第2の
試験データのセット内のm個の最大データ点の中央値として設定することと、
前記第2の四分位数を、前記第2の
試験データのセット内のデータ点の通常の中央値として設定することと、を更に含む、請求項7に記載の方法。
【請求項10】
異常検出を容易にするためのコンピュータシステムであって、
プロセッサと、
前記プロセッサによって実行されると、前記プロセッサにある方法を実施させる命令を記憶する記憶デバイスと、を備え、前記方法が、
第1の変数を監視する第1のセンサからの第1のデータ系列と、1つ以上の第2の変数を監視する第2のセンサからの第2のデータ系列と、を取得することであって、前記第1のセンサ及び前記第2のセンサが、物理的物体に関連付けられたデータを記録する物理センサであり、監視された前記第1の変数および監視された前記第2の変数が、前記物理的物体の物理的特徴である、取得することと、
前記コンピュータシステムによって、複数のデータ点を含む試験データのセットを判定することであって、前記セットが、前記第1の変数を監視する前記第1のセンサから取得される前記第1のデータ系列を含むとともに、前記1つ以上の第2の変数を監視する前記第2のデータ系列をさらに含み、前記1つ以上の第2の変数が、前記第1の変数に依存する、判定することと、
前記判定された試験データのセットを、少なくとも前記第1及び第2のデータ系列、前記第1のセンサ及び前記第2のセンサの解像度、及び前記第1のセンサ及び前記第2のセンサの第1の物理的構成要素のタイプに基づいていくつかの群に分割することと、
それぞれの群の四分位数間範囲を判定することと、
前記それぞれの群の前記四分位数間範囲に基づいて、前記それぞれの群内の第1の試験データ点を異常として分類することと、
前記分類された異常に基づいて、前記コンピュータシステムによって、前記第1のセンサ及び前記第2のセンサに関連する物理的ユニットを自動的に調節することにより、所定の規則を実行することと、
前記コンピュータシステムのユーザによって、前記第1のデータ系列又は前記第2のデータ系列が取得されるデバイスの第2の物理的構成要素を調節することにより、前記分類された異常に対処するための措置を実施することと、
それによって、複数の変数の前記データ系列についてのデータマイニング及び外れ値検出を強化することと、を含む、コンピュータシステム。
【請求項11】
前記ユーザによって実行される前記措置には、
前記分類された異常がもはや発生しないことを確実にするための改善措置又は是正措置、及び
前記第1の変数又は前記1つ以上の第2の変数に影響を及ぼす物理的パラメータを調節すること、のうちの1つ以上が更に含まれる、請求項10に記載のコンピュータシステム。
【請求項12】
前記方法が、
前記コンピュータシステムによって、試験データの新しいセットの異常を検出するための要求を受信することであって、前記新しいセットが、前記第1の変数を監視する前記第1のセンサから取得される新しい第1のデータ系列を含むとともに前記1つ以上の第2の変数を監視する前記第2のセンサから取得される新しい第2のデータ系列を更に含み、
前記試験データの新しいセットは、前記ユーザが前記分類された異常に対処するために前記措置を実施した後に、前記コンピュータシステムによって取得される、受信することと、
前記試験データの新しいセットを、前記試験データのセットのいくつかの群と同じ数の新しい群に分割することと、
内部の前記第1の試験データ点が異常として分類された前記それぞれの群に対応する、それぞれの新しい群の四分位数間範囲を判定することと、
前記それぞれの群内の前記第1の試験データ点が、前記それぞれの新しい群内で依然として発生しているかどうかを判定することであって、前記判定が、前記分類された異常に対処するために前記ユーザによって実施された前記措置が成功しているかどうかを示す、判定することと、を更に含む、請求項11に記載のコンピュータシステム。
【請求項13】
前記試験データのセットを前記いくつかの群に分割することが、
アルゴリズムに基づく自動プロセス、
前記試験データのセットを取得することに関与する機械の解像度、
前記試験データのセットに関連する以前の又は履歴データであって、前記コンピュータシステムによって取得される、以前の又は履歴データ、
前記コンピュータシステムのユーザの事前又は過去の知識であって、前記試験データのセットに関連し、かつ前記コンピュータシステムの前記ユーザによって取得される、事前又は過去の知識、並びに
より高い次元のデータセットの重要な変数を表す構成要素に基づいて、前記試験データのセットのデータ分布を分解することであって、前記構成要素が、主要構成要素、導出された構成要素の結合、及び構成要素の線形結合のうちの1つ以上を含む、分解すること、のうちの1つ以上に基づいており、
前記それぞれの群の前記四分位数間範囲を判定することが、前記構成要素に基づいて、四分位数分析を実施することを更に含む、請求項10に記載のコンピュータシステム。
【請求項14】
前記試験データのセットを分割し、前記それぞれの群の前記四分位数間範囲を判定することが、
異常として分類される試験データ点の存在を含む、前記試験データのセット内の前記分割された群にわたる複数の従属変数に基づいて、前記試験データのセット内の正規分布を自動的に分類することを更に含む、請求項10に記載のコンピュータシステム。
【請求項15】
前記第1のデータ系列が、前記第1の変数の時系列データを含むとともに、前記第2のデータ系列が、前記1つ以上の第2の変数の時系列データを含み、
前記第1の変数の前記第1の時系列データが、前記異常検出の対象であり、
前記1つ以上の第2の変数の前記第2の時系列データが、前記第1の変数の前記時系列データに影響を及ぼす、請求項10に記載のコンピュータシステム。
【請求項16】
前記それぞれの群の前記四分位数間範囲を判定することが、
前記それぞれの群内の第2の試験データのセットを、前記第2の試験データのセットの中央値に基づいて4つの部分に分割することであって、
前記4つの部分を分離する3つの値が、第1の四分位数、第2の四分位数、及び第3の四分位数であり、
前記四分位数間範囲が、前記第1の四分位数と前記第3の四分位数との間の差である、分割することと、
前記第1の四分位数から、所定の値によってスケーリングされた前記四分位数間範囲に等しい第1の量を減算することによって、前記第2の試験データのセットの下限を特定することと、
前記第3の四分位数に、前記所定の値によってスケーリングされた前記四分位数間範囲に等しい第2の量を加算することによって、前記第2の試験データのセットの上限を特定することと、を更に含む、請求項10に記載のコンピュータシステム。
【請求項17】
前記それぞれの群内の前記第1の試験データ点を異常として分類することが、前記第1の試験データ点が前記下限と前記上限との間に含まれないと判定することに更に基づく、請求項16に記載のコンピュータシステム。
【請求項18】
前記第2の試験データのセット内のデータ点の数が偶数2n個であると判定することに応答して、前記方法が、
前記第1の四分位数を、前記第2の
試験データのセット内のn個の最小データ点の中央値として設定することと、
前記第3の四分位数を、前記第2の
試験データのセット内のn個の最大データ点の中央値として設定することと、を更に含み、
前記第2の試験データのセット内のデータ点の数が奇数2m+1個であると判定することに応答して、前記方法が、
前記第1の四分位数を、前記第2の
試験データのセット内のm個の最小データ点の中央値として設定することと、
前記第3の四分位数を、前記第2の
試験データのセット内のm個の最大データ点の中央値として設定することと、
前記第2の四分位数を、前記第2の
試験データのセット内のデータ点の通常の中央値として設定することと、を更に含む、請求項16に記載のコンピュータシステム。
【請求項19】
コンピュータによって実行されると、前記コンピュータにある方法を実施させる命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記方法が、
第1の変数を監視する第1のセンサからの第1のデータ系列と、1つ以上の第2の変数を監視する第2のセンサからの第2のデータ系列と、を取得することであって、前記第1のセンサ及び前記第2のセンサが、物理的物体に関連付けられたデータを記録する物理センサであり、監視された前記第1の変数および監視された前記第2の変数が、前記物理的物体の物理的特徴である、取得することと、
前記コンピュータによって、複数のデータ点を含む試験データのセットを判定することであって、前記セットが、前記第1の変数を監視する前記第1のセンサから取得される前記第1のデータ系列を含むとともに、前記1つ以上の第2の変数を監視する前記第2のセンサから取得される前記第2のデータ系列をさらに含み、前記1つ以上の第2の変数が、前記第1の変数に依存する、判定することと、
前記判定された試験データのセットを、少なくとも前記第1及び第2のデータ系列、前記第1のセンサ及び前記第2のセンサの解像度、及び前記第1のセンサ及び前記第2のセンサの第1の物理的構成要素のタイプに基づいていくつかの群に分割することと、
それぞれの群の四分位数間範囲を判定することと、
前記それぞれの群の前記四分位数間範囲に基づいて、前記それぞれの群内の第1の試験データ点を異常として分類することと、
前記分類された異常に基づいて、前記コンピュータによって、前記第1のセンサ及び前記第2のセンサに関連する物理的ユニットを自動的に調節することにより、所定の規則を実行することと、
前記コンピュータのユーザによって、前記第1のデータ系列又は前記第2のデータ系列が取得されるデバイスの第2の物理的構成要素を調節することにより、前記分類された異常に対処するための措置を実施することと、
それによって、複数の変数の前記第1及び第2のデータ系列についてのデータマイニング及び外れ値検出を強化することと、を含む、非一時的コンピュータ可読記憶媒体。
【請求項20】
前記ユーザによって実行される前記措置が、
前記分類された異常がもはや発生しないことを確実にするための改善措置又は是正措置、及び
前記第1の変数又は前記第2の変数に影響を及ぼす物理的パラメータを調節すること、のうちの1つ以上を含み、
前記方法が、
前記コンピュータによって、試験データの新しいセットの異常を検出するための要求を受信することであって、前記新しいセットが、前記第1の変数を監視する前記第1のセンサから取得される新しい第1のデータ系列を含むとともに、前記1つ以上の第2の変数を監視する前記第2のセンサから取得される新しい第2のデータ系列を更に含み、
前記試験データの新しいセットは、前記ユーザが前記分類された異常に対処するために前記措置を実施した後に、前記コンピュータによって取得される、受信することと、
前記試験データの新しいセットを、前記試験データのセットのいくつかの群と同じ数の新しい群に分割することと、
内部の前記第1の試験データ点が異常として分類された前記それぞれの群に対応する、それぞれの新しい群の四分位数間範囲を判定することと、
前記それぞれの群内の前記第1の試験データ点が、前記それぞれの新しい群内で依然として発生しているかどうかを判定することであって、前記判定が、前記分類された異常に対処するために前記ユーザによって実施された前記措置が成功しているかどうかを示す、判定することと、を更に含む、請求項19に記載の記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、概して、異常を検出することに関する。より具体的には、本開示は、データ系列の異常検出におけるビン分割された四分位数間範囲の分析のためのシステム及び方法に関する。
【0002】
異常検出又は外れ値検出は、データセット内の予期されるパターン又は他のものに適合しない項目又は事象を特定するデータマイニング方法である。異常検出は、様々な分野、例えば、製造、医療領域、及びエネルギー関連分野に関連する。例えば、製造では、エネルギー使用は、機械を有する工場又は多くの機械を有するデータセンタを運営する際などに、かなりのコストを損なう可能性がある。この目的のために、異常を特定することは、より効率的な製造システムを提供することができ、次にこれは、コストを低減し、システム及びその組成構成要素又は部品の全体的な効率を向上させることができる。
【0003】
使用される異常検出方法のタイプは、必要とされる分類のタイプに基づいて異なり得る。1つの方法は、四分位数間範囲(Inter-quartile Range、IQR)方法である。IQRは、データセットを、3つの「四分位数」によって分離された4つの部分に分割することに基づくばらつきの尺度である。IQRは、第3の四分位数から減算された第1の四分位数であり、「ミッドスプレッド」又は「ミドル50%」とも呼ばれる。IQR分析又は方法は、異常又は外れ値を特定するために使用されることがあり、典型的には、1つのクラスのみの所与のデータ、すなわち、一次元データに使用される。
【0004】
しかしながら、他の要因又は従属変数に基づいて異なる挙動を示す二次元又はより高い次元のデータセット(時系列データの2つのセットなど)では、IQR分析は、それ自体では十分に実施されないことがある。したがって、標準的なIQR分析は、スケーリングのロバストな尺度を提供し、一次元のデータセット内の外れ値を特定することができるが、二次元のデータセットでは標準的なIQR分析は、スケーリングの正確な尺度を提供しないことがある。更に、二次元又はより高い次元のデータセットでは、標準的なIQR分析は、外れ値を特定することを潜在的に損ね得るか、又は正常なデータ点を外れ値として誤って特定することがある。これは、データマイニング及び異常検出のための非効率的なシステムをもたらし得る。
【0005】
一実施形態は、異常検出を容易にするためのシステムを提供する。動作中、本システムは、コンピューティングデバイスによって、複数のデータ点を含む試験データのセットを判定し、そのセットは、第1の変数及び1つ以上の第2の変数のデータ系列を含み、1つ以上の第2の変数は、第1の変数に依存する。本システムは、試験データのセットをデータ系列のタイプに基づいていくつかの群に分割する。本システムは、それぞれの群の四分位数間範囲を判定する。本システムは、それぞれの群の四分位数間範囲に基づいて、それぞれの群内の第1の試験データ点を異常として分類し、それによって、複数の変数のデータ系列についてのデータマイニング及び外れ値検出を強化する。
【0006】
いくつかの実施形態では、本システムは、コンピューティングデバイスのユーザによって、分類された異常に対処するための措置を実施する。措置には、分類された異常がもはや発生しないことを確実にするための改善措置又は是正措置、第1の変数又は1つ以上の第2の変数に影響を及ぼす物理的パラメータを調節すること、及び内部からデータ系列が取得されるデバイスの物理的構成要素を調節することのうちの1つ以上が含まれる。
【0007】
いくつかの実施形態では、本システムは、コンピューティングデバイスによって、試験データの新しいセットの異常を検出するための要求を受信し、新しいセットは、第1の変数及び1つ以上の第2の変数の新しいデータ系列を含み、試験データの新しいセットは、ユーザが分類された異常に対処するために措置を実施した後に、コンピューティングデバイスによって取得される。本システムは、試験データの新しいセットを、試験データのセットのいくつか群と同じ数の新しい群に分割する。本システムは、内部の第1の試験データ点が異常として分類されたそれぞれの群に対応する、それぞれの新しい群の四分位数間範囲を判定する。本システムは、それぞれの群内の第1の試験データ点が、それぞれの新しい群内で依然として発生しているかどうかを判定し、その判定は、分類された異常に対処するためにユーザによって実施された措置が成功しているかどうかを示す。
【0008】
いくつかの実施形態では、試験データのセットをいくつかの群に分割することは、アルゴリズムに基づく自動プロセス、試験データのセットを取得することに関与するセンサ又は機械の解像度、試験データのセットに関連する以前の又は履歴データであって、コンピューティングデバイスによって取得される、以前の又は履歴データ、コンピューティングデバイスのユーザの事前又は過去の知識であって、試験データのセットに関連し、かつコンピューティングデバイスのユーザによって取得される、事前又は過去の知識、並びにより高い次元のデータセットの重要な変数を表す構成要素に基づいて、試験データのセットのデータ分布を分解することであって、構成要素が、主要構成要素、導出された構成要素の結合、及び構成要素の線形結合のうちの1つ以上を含む、分解することのうちの1つ以上に基づいており、それぞれの群の四分位数間範囲を判定することは、構成要素に基づいて、四分位数分析を実施することを更に含む。
【0009】
いくつかの実施形態では、試験データのセットを分割し、それぞれの群の四分位数間範囲を判定することは、異常として分類される試験データ点の存在を含む、試験データのセット内の分割された群にわたる複数の従属変数に基づいて、試験データのセット内の正規分布を自動的に分類することを更に含む。
【0010】
いくつかの実施形態では、データ系列は、第1の変数及び1つ以上の第2の変数の時系列データを含み、第1の変数の時系列データは、異常検出の対象であり、1つ以上の第2の変数の時系列データは、第1の変数の時系列データに影響を及ぼす。
【0011】
いくつかの実施形態では、それぞれの群の四分位数間範囲を判定することは、それぞれの群内の第2の試験データのセットを、第2の試験データのセットの中央値に基づいて4つの部分に分割することを更に含み、4つの部分を分離する3つの値は、第1の四分位数、第2の四分位数、及び第3の四分位数であり、四分位数間範囲は、第1の四分位数と第3の四分位数との間の差である。それぞれの群の四分位数間範囲を判定することは、第1の四分位数から、所定の値によってスケーリングされた四分位数間範囲に等しい第1の量を減算することによって、第2の試験データのセットの下限を特定することと、第3の四分位数に、所定の値によってスケーリングされた四分位数間範囲に等しい第2の量を加算することによって、第2の試験データのセットの上限を特定することとを更に含む。
【0012】
いくつかの実施形態では、それぞれの群内の第1の試験データ点を異常として分類することは、第1の試験データ点が下限と上限との間に収まらないと判定することに更に基づく。
【0013】
いくつかの実施形態では、第2の試験データのセット内のデータ点の数が偶数2n個であると判定することに応答して、本システムは、第1の四分位数を、第2のセット内のn個の最小データ点の中央値として設定し、第3の四分位数を、第2のセット内のn個の最大データ点の中央値として設定する。第2の試験データのセット内のデータ点の数が奇数2m+1個であると判定することに応答して、本システムは、第1の四分位数を、第2のセット内のm個の最小データ点の中央値として設定し、第3の四分位数を、第2のセット内のm個の最大データ点の中央値として設定し、第2の四分位数を、第2のセット内のデータ点の通常の中央値として設定する。
【図面の簡単な説明】
【0014】
【
図1】本発明の一実施形態による、異常検出を容易にするための例示的な環境を例示している。
【
図2A】従来技術による、四分位数間範囲を判定するための例示的なダイアグラムを例示している。
【
図2B】従来技術による、四分位数間範囲の分析に基づいて異常をうまく検出することができなかった例示的な結果を例示している。
【
図3】本発明の一実施形態による、異常検出を容易にするための方法を例示するフローチャートを提示している。
【
図4A】本発明の一実施形態による、元の一次元データのセットの例示的な確率密度を提示している。
【
図4B】本発明の一実施形態による、別の変数を追加した、
図4Aの一次元データの例示的な試験データを提示している。
【
図4C】本発明の一実施形態による、例示的な試験データをビン又は群に分割することを含む、
図4Bの例示的な試験データを提示している。
【
図4D】本発明の一実施形態による、分割されたビン又は群の試験データに対して四分位数間範囲の分析を実施することを含む、
図4Cの例示的な試験データを提示している。
【
図5】本発明の一実施形態による、異常検出を容易にするための方法を例示するフローチャートを提示している。
【
図6A】本発明の一実施形態による、異常検出を容易にするための方法を例示するフローチャートを提示している。
【
図6B】本発明の一実施形態による、異常検出を容易にするための方法を例示するフローチャートを提示している。
【
図7】本発明の一実施形態による、異常検出を容易にする例示的な分散コンピュータ及び通信システムを例示している。
【
図8】本発明の一実施形態による、異常検出を容易にする例示的な装置を例示している。
【発明を実施するための形態】
【0015】
本明細書に記載される実施形態は、データを「ビン」に分割し、各ビンに対してIQR分析を実施することに基づいて、少なくとも2つの相互依存変数のデータ系列における異常を効率的かつ正確に特定するという問題を解決する。
【0016】
上に論じられるように、異常を特定することは、多くの領域(例えば、製造、医療分野、及びエネルギー関連分野)においてより効率的なシステムを提供することができ、次に、コストを低減し、システム及びその組成構成要素又は部品の全体的な効率を向上させることができる。使用される異常検出方法のタイプは、必要とされる分類のタイプに基づいて異なり得る。1つの方法は、四分位数間範囲(IQR)方法である。IQRは、データセットを、3つの「四分位数」によって分離された4つの部分に分割することに基づくばらつきの尺度である。IQRは、第3の四分位数から減算された第1の四分位数であり、「ミッドスプレッド」又は「ミドル50%」とも呼ばれる。IQR分析又は方法は、異常又は外れ値を特定するために使用されることがあり、典型的には、1つのクラスのみの所与のデータ、すなわち、一次元データに使用される。
【0017】
しかしながら、他の要因又は従属変数に基づいて異なる挙動を示す二次元又はより高い次元のデータセット(時系列データの2つのセットなど)では、IQR分析は、それ自体では十分に実施されないことがある。したがって、標準的なIQR分析は、スケーリングのロバストな尺度を提供し、一次元のデータセット内の外れ値を特定することができるが、二次元のデータセットでは標準的なIQR分析は、スケーリングの正確な尺度を提供しないことがある。更に、二次元又はより高い次元のデータセットでは、標準的なIQR分析は、外れ値を特定することを潜在的に損ね得るか、又は正常なデータ点を外れ値として誤って特定することがある。これは、データマイニング及び異常検出のための非効率的なシステムをもたらし得る。
【0018】
図3に関連して以下に記載されるように、本明細書に記載される実施形態は、この課題を、最初に(各セットが相互依存変数のデータを表す)データ系列の複数のセットをいくつかの別個の群又は「ビン」に分割し、その後各ビン内のデータに対してIQR分析を実施してデータ系列内の異常を検出するシステムを提供することによって対処する。つまり、本システムは、データの少なくとも1つの他の次元又は従属変数の範囲にわたってIQR分析を実施する。
【0019】
したがって、本明細書に記載される実施形態は、「ビン分割された」IQR分析を使用して、少なくとも2つの次元又は変数にわたってデータ系列内の異常を検出する効率を向上させるコンピュータシステムを提供する。データ系列は、例えば、時系列データを含み得るか、又は周波数スペクトルを網羅し得る。本システムは、複数の相互依存変数又は次元のデータ系列におけるデータマイニング及び外れ値検出を強化及び改善し、改善は基本的に技術的である。改善は、異常をより効率的に特定することによって、より効率的な製造システム又は他の物理的システムをもたらし得る。システム管理者又は他のユーザは、特定された異常に基づいて改善措置、是正措置、又は他の措置をとって、製造又は他の物理的システムの全体的な効率を向上させることができる。例えば、後で取得された時系列データは、以前に検出された異常(複数可)がもはや発生しないことをユーザに示すことができる。
【0020】
更に、本明細書に記載される実施形態は、技術的課題(検出された異常に基づいて、ユーザが、例えば、異常を除去するか又はそれらに対処するための措置をとることを可能にすることによって、製造又は他の物理的システムの効率を向上させること)に対して、技術的解決策(例えば、複数の相互依存変数又は次元にわたる時系列データのセットをビンに分割してから、各ビンに対してIQR分析を実施して異常を分類すること)を提供する。
【0021】
「ビン」及び「群」という用語は、本開示において互換的に使用され、試験データの(より大きい又は親)セットを分割することによって作成される複数のデータセットを指す。試験データのセット(又は分割された/ビン分割された試験データのセット)は、複数のデータ点を含み得る。
【0022】
試験データのセットは、試験データのセットの「タイプ」に基づいて、いくつかのビン又は群に分割され得る。試験データのセットのタイプは、例えば、測定される物理的パラメータ、内部から測定値が取得される物理的デバイス若しくはセンサ、かかるデバイス若しくはセンサの物理的成分、又はユーザ若しくはシステムによって判定されるカテゴリに依存し得る。
【0023】
「IQR方法」及び「IQR分析」という用語は、本開示において互換的に使用され、四分位数間範囲を検出し、中央値、下限、及び上限を判定し、並びに下限及び上限を含む四分位数間範囲に基づいて外れ値を分類するか若しくは異常を検出するプロセスを指す。
【0024】
図1は、本発明の一実施形態による、異常検出を容易にするための例示的な環境100を例示している。環境100は、デバイス102及び関連付けられたユーザ112、デバイス104及び関連付けられたユーザ114、並びにデバイス106を含み得る。デバイス102、104、及び106は、ネットワーク120を介して互いに通信し得る。環境100はまた、ある期間及び周期的な間隔にわたってデータを記録することができるセンサを有する物理的物体を含み得る。例えば、環境100は、デバイス132.1~132.m及びセンサ134.1~134.nを含み得る部屋130と、外部温度センサ136とを含み得る。センサ134.1~134.nは、部屋130内で消費される加熱、換気、及び空調(heating,ventilation,and air conditioning、HVAC)エネルギーの量、又は部屋130内の特定のデバイスによって消費若しくは使用されるHVACエネルギーの量など、部屋の物理的特徴を監視し得る。外部温度センサ136は、同じ建物の内部であるか又は内部に部屋130が存在する建物の外部であるかに関わらず、部屋の外部の空気の温度を監視し得る。
【0025】
動作中、センサは、それらのそれぞれの測定された試験データをデバイス104に送信し得る。例えば、デバイス104は、センサ134.1から試験データ142を取得することができ、センサ136から試験データ144を取得することもできる。試験データ142及び144は、時系列データを含むことができ、周波数スペクトルを網羅することもできる。同じ又は異なる時間において、ユーザ112は、部屋130のセンサ134.1~134.n及び外部温度センサ136に関連するある特定の試験データに関する異常152を要求するためのコマンドを送信することができ、これは、試験データ154入手コマンドをデバイス104に送信することをもたらし得る。
【0026】
デバイス104は、試験データ142及び144を取得し得、試験データ142及び144を結合し得る。デバイス104は、ネットワーク120を介して、結合された試験データ146をデバイス106に送信し得る。結合された試験データ146と共に異常152要求コマンドを受信すると、デバイス106は、結合された試験データ146をいくつかのビンに分割し得る(関数154)。その後、デバイス106は、各ビン内のデータに対してIQR分析を実施し得る(関数156)。IQR分析中、デバイス106は、結合された試験データ146から(及び具体的には、分割された試験データの各ビン又は群内の試験データ点から)試験データ点を特定することができ、これらの試験データ点は、下限及び上限がIQR分析に基づいて判定されるそれぞれのビンの下限及び上限によって定義される範囲内にはない。デバイス106は、ネットワーク120を介して、試験データ内のデータ点の分類(複数可)158をデバイス102に送信し返すことができる。
【0027】
分類(複数可)158を受信すると、デバイス102は、分類(複数可)に基づいて所定の規則を実行することを含み得る措置160を実施し得る。例えば、所定の規則は、試験データを取得することに関与するセンサ又はデバイスに関連する物理的構成要素又はユニットを自動的に調節することを含み得る。ユーザ112はまた、他の履歴データを考慮して、分類された異常を再検討することを含み得る措置162を実施し得る。ユーザ112はまた、分類された異常の原因を改善又は発見することをもたらす措置を実施することができ、かかる異常が再び発生するのを防止するための手段をとることができる。
【0028】
つまり、分類(複数可)158により、デバイス102及びユーザ112の両方が、別個のビン又は群に対して実施されるIQR分析に基づいて、強化されたデータマイニング及び外れ値検出の結果を使用することを可能にする。例えば、異常152要求コマンドへの応答(すなわち、分類(複数可)158)に基づいて、ユーザ112は、部屋130及び部屋130内のデバイス132.1~132.mに関連付けられた製造システム又は他の物理的システムの動作及び性能に影響を及ぼし、その動作及び性能を向上させ得る措置を実施するか又はとることができる。措置は、分類された異常がもはや発生しないことを確実にするための改善措置又は是正措置であり得る。ユーザ112はまた、ユーザ112の措置が任意の以前に検出された異常の除去又は削除を含む意図された効果を有するかどうかを判定するために、その後の試験データを監視、観察、及び分類することもできる。
【0029】
つまり、ユーザ112は、センサから取得された新しい結合された試験データと共にデバイス106によって受信され得る新しい異常要求コマンドを送信することができる。デバイス106は、データをビンに分割し、新たにビン分割されたデータに対してIQR分析を実施することができる。デバイス106は、デバイス102及びユーザ112に新しい分類を送信し返すことができ、これにより、デバイス102及びユーザ112が、以前に実施された措置(すなわち、それぞれ措置160及び162)が意図された効果を有するかどうか(すなわち、以前に検出された異常がもはや発生しないかどうか)を判定することを可能にする。
【0030】
したがって、本明細書に記載される実施形態は、少なくとも2つの変数又は次元にわたって時系列データ内の異常検出を向上させ強化し、かつデータマイニング及び外れ値検出のためのシステム全体の効率を更に向上させるシステムを提供する。
【0031】
図2Aは、従来技術による、四分位数間範囲を判定するための例示的なダイアグラム200を例示している。ダイアグラム200は、青い破線によって示されるように、水平状態に表されるデータを含み得る。本システムは、表わされたデータセットを「四分位数」に分割することができ、この場合、四分位数は、ランク順序付けされたデータセットを4つの等しい部分に分割する。四分位数は、これらの部分を分離する値である。第1、第2、及び第3の四分位数は、それぞれ「Q1」、「Q2」、及び「Q3」と呼ぶことができる。本システムは、中央値202を判定することができ、かつ第1の四分位数(「Q1」)204及び第3の四分位数(「Q3」)206を更に判定することができる。四分位数間範囲(「IQR」)210は、Q3とQ1との間の差として定義され得る。IQR(「ミッドスプレッド」又は「ミドル50%」と呼ばれる場合もある)は、75位の百分位数と25位の百分位数との間、又は上位四分位数Q3と下位四分位数Q1との間の差に等しい。
【0032】
更に、本システムは、第1の四分位数Q1から、1.5などの所定の値によってスケーリングされた四分位数間範囲に等しい第1の量を減算(すなわち、Q1-1.5×IQR)することによって、下限212を判定し得る。本システムはまた、第3の四分位数に、所定の値によってスケーリングされた四分位数間範囲に等しい第2の量を加算(すなわち、Q3+1.5×IQR)することによって、上限214を判定し得る。下限212及び上限214によって定義される範囲の外側に収まる任意のデータは、異常又は外れ値と考慮され得る。つまり、下限212と上限214との間に収まらない任意のデータ点は、異常又は外れ値として分類され得る。例えば、外れ値222は、上限214よりも大きい(すなわち、下限212と上限214との間に収まらない)データ点である。したがって、データ点222は、外れ値として分類される。
【0033】
上で論じられるように、IQR方法は、典型的には、1つのクラスのみの所与のデータ、すなわち、一次元データに使用される。しかしながら、他の要因又は従属変数に基づいて異なる挙動を示す二次元のデータセットでは、IQR方法は、それ自体では十分に実施されないことがある。
図2Bは、従来技術による、四分位数間範囲の分析に基づいて異常をうまく検出することができなかった結果の例示的なダイアグラム230を例示している。指標に示されるように、検出された異常292は小さい黒丸で示され、一次元データに対してIQR分析を使用して検出されなかった異常294は黒丸を囲む太字の楕円形で示される。
【0034】
ダイアグラム230に示されるように、一次元データyは、他の要因又は変数xによる効果に基づいて、y|x=x1、y|x=x2、y|x=x3、及びy|x=x4の合計として構成されると仮定する。各行は、他の従属変数xの1つの値(例えばxi)に基づいて、一次元データyに対する個々のIQR分析を表すことができる。例えば、本システムは、データy|x=x1(240)に対してIQR241分析を実施し得る。IQR241は、下限242及び上限244を含むことができ、この場合、これらの限度の外側に収まるデータは異常と考慮され得る。同様に、本システムは、データy|x=x2(250)に対してIQR251分析を実施して、そのデータセットの異常を判定すること、データy|x=x3(260)に対してIQR261分析を実施して、そのデータセットの異常を判定すること、及びデータy|x=x4(270)に対してIQR271を実施して、そのデータセットの異常を判定することができる。本システムは、これらの4つのIQR分析の合計281を判定することができ、これは、二次元のデータセット全体の下限及び上限を判定することを含む。個々のIQR241、251、261、及び271による検出された異常のうちのいくつかは検出された異常としても合計281内に現れるが、合計281内に現れない個々のIQRによるいくつかの検出された異常が依然として存在することに留意されたい。例えば、IQR251による検出された異常252及びIQR261による異常262は、検出された異常として合計281内にもはや現れない。代わりに、これらの以前に検出された異常はここで、データ263及びデータ253として合計281の下限と上限との間に現れる。
【0035】
したがって、IQR方法を二次元データに対して直接使用することは、異常の不正確な特定、例えば、(以前に検出された)異常252及び262を見落とすか又は正しく検出することができないことをもたらすことがある。これは、不正確な結果につながる可能性があり、効率の悪い全体システムを更にもたらし得る。
【0036】
図3は、本発明の一実施形態による、異常検出を容易にするための方法を例示するフローチャート300を提示している。動作中、本システムは、第1の変数及び1つ以上の第2の変数のデータ系列(例えば、2つの時系列データy及びx、式中、yは異常検出の対象である)を含む試験データのセットを判定する(動作302)。第2のデータxは、第1のデータyの挙動に影響を及ぼすことが知られている。第2のデータxについて、本システムは、データをn個のビンに分割する(動作304)。本システムは、i番目のビン内のデータの指標をとり(動作306)(式中、iは0~nの値である)、その指標を次の動作に渡す。第1のデータyについて、本システムは、選択された指標(y|x=x
i)を有するデータを判定する(動作312)。本システムは、選択された指標を有するデータ(すなわち、i番目のビン内のデータ)に対してIQR分析を実施する(動作314)。選択された指標(すなわち、i番目のビン内のデータ)に対するIQR分析に基づいて、本システムは、i番目のビン内の異常を判定する(動作316)。本システムは、判定された異常を保存することもできる。
【0037】
残っているビンが存在しない(すなわち、現在の指標iがビンの数n以上である)場合(決定318)、動作は戻る。残っているビンが存在する(すなわち、現在の指標iがビンの数n未満である)場合(決定320)、本システムは、(iをi+1に設定することによって)iを増分し、動作は動作306に戻る。
【0038】
図4Aは、本発明の一実施形態による、元の一次元データのセットの例示的な確率密度のグラフ400を提示している。グラフ400は、確率密度を示すx軸と、(キロワット時(Kilowatt hour、kWh)で測定した場合の)「部屋1」の中で消費されたACエネルギーの合計を示すy軸とを含み得る。グラフ400内の赤色は、一次元データを示す。
【0039】
図4Bは、本発明の一実施形態による、別の変数を追加した、
図4Aの一次元データの例示的な試験データのグラフ420を提示している。グラフ420は、(温度センサによってセルシウス度で測定した場合の)外部温度を示すx軸と、(複数のセンサによってkWhで測定した場合の)部屋1の中で消費されたACエネルギーの合計を示すy軸とを含み得る。グラフ420では、別の次元又は変数のデータがグラフ400の一次元データに追加されている。グラフ420内の赤色は、二次元データを示す。
【0040】
図4Cは、本発明の一実施形態による、例示的な試験データをビン又は群に分割することを含む、
図4Bの例示的な試験データのグラフ440を提示している。グラフ440は、(温度センサによってセルシウス度で測定した場合の)外部温度を示すx軸と、(複数のセンサによってkWhで測定した場合の)部屋1の中で消費されたACエネルギーの合計を示すy軸とを含み得る。グラフ440では、垂直の青い破線は、ビン又は群間の分離を示す。つまり、本システムは、ビンの数nを判定し、これは、例えば、自動プロセス、アルゴリズム、データを取得することに関与するセンサ若しくは機械の解像度、又はデータに関連し、コンピューティングデバイス若しくはユーザによって取得された履歴データ若しくは知識に基づき得る。グラフ440では、各ビンの測定単位又はサイズは2℃である。例えば、ビン442は、6~8℃の外部温度に基づいて、部屋のACエネルギーの合計に関するグラフ440からのデータを含む。
【0041】
図4Dは、本発明の一実施形態による、分割されたビン又は群の試験データに対して四分位数間範囲の分析を実施することを含む、
図4Cの例示的な試験データのグラフ460を提示している。グラフ460は、(温度センサによってセルシウス度で測定した場合の)外部温度を示すx軸と、(複数のセンサによってkWhで測定した場合の)部屋1の中で消費されたACエネルギーの合計を示すy軸とを含み得る。グラフ460では、垂直の青い破線は、ビン又は群間の分離を示す。本システムは、各ビンに対してIQR分析を実施し得る。各ビンにおいて、黒い実線は上限及び下限を示し、緑の「+」記号はそれぞれのビンの中央値を示す。グラフ460内の赤色は、それぞれのビンに対するIQR分析に基づいて、正常として分類されているか、又は異常若しくは外れ値としては分類されていない二次元データを示す。グラフ460内の青色は、それぞれのビンに対するIQR分析に基づいて、異常若しくは外れ値としては分類されている二次元データを示す。
【0042】
例えば、(グラフ440のビン442に対応する)ビン462では、上限と下限との間(すなわち、黒い実線)に収まる赤色のデータは正常なデータ点と考慮され得る一方、上限を超えて(又は上限と下限との間の範囲の外側に)収まる青色のデータは異常なデータ点又は外れ値として考慮され得る。
【0043】
図5は、本発明の一実施形態による、異常検出を容易にするための方法を例示するフローチャート500を提示している。動作中、本システムは、コンピューティングデバイスによって、複数のデータ点を含む試験データのセットを判定し、そのセットは、第1の変数及び1つ以上の第2の変数のデータ系列を含み、1つ以上の第2の変数は、第1の変数に依存する(動作502)。データ系列は、時系列データを含み得るか、又は周波数スペクトルを網羅し得る。本システムは、試験データのセットをデータ系列のタイプに基づいていくつかの群に分割する(動作504)。本システムは、それぞれの群の四分位数間範囲を判定する(動作506)。本システムは、それぞれの群の四分位数間範囲に基づいて、それぞれの群内の第1の試験データ点を異常として分類し(動作508)、それによって、複数の変数のデータ系列についてのデータマイニング及び外れ値検出を強化する。
【0044】
図6Aは、本発明の一実施形態による、異常検出を容易にするための方法を例示するフローチャート600を提示している。動作中、本システムは、コンピューティングデバイスによって、複数のデータ点を含む試験データのセットを判定し、そのセットは、第1の変数及び1つ以上の第2の変数のデータ系列を含む(動作602)。1つ以上の第2の変数は、第1の変数に依存する。本システムは、試験データのセットをデータ系列のタイプに基づいていくつかの群に分割する(動作604)。本システムは、それぞれの群内の第2の試験データのセットを、第2の試験データのセットの中央値に基づいて4つの部分に分割し、4つの部分を分離する3つの値は、第1の四分位数、第2の四分位数、及び第3の四分位数であり、四分位数間範囲は、第1の四分位数と第3の四分位数との間の差である(動作606)。本システムは、それぞれの群について、第2の試験データのセットの中央値に基づいて、第1の四分位数、第2の四分位数、第3の四分位数、及び四分位数間範囲を判定する(動作608)。本システムは、第1の四分位数から、所定の値によってスケーリングされた四分位数間範囲に等しい第1の量を減算することによって、第2の試験データのセットの下限を特定する(動作610)。本システムはまた、第3の四分位数に、所定の値によってスケーリングされた四分位数間範囲に等しい第2の量を加算することによって、第2の試験データのセットの上限を特定する(動作612)。本システムは、第2の試験データのセット内のそれぞれのデータ点について、それぞれの試験データ点が下限と上限との間に収まるかどうかを判定する(動作614)。
図6AのラベルAに記載されるように、この動作は継続する。
【0045】
図6Bは、本発明の一実施形態による、異常検出を容易にするための方法を例示するフローチャート620を提示している。動作中、それぞれの試験データ点が下限と上限との間に収まると本システムが判定(決定622)した場合、本システムは、それぞれの試験データ点を正常として分類し(決定632)、動作は決定628に留まる。
【0046】
それぞれの試験データ点が下限と上限との間に収まらないと本システムが判定(決定622)した場合、本システムは、それぞれの試験データ点を異常として分類する(動作624)。本システムは、コンピューティングデバイスのユーザによって、分類された異常に対処するための措置を(例えば、分類された異常がもはや発生しないことを確実にするための改善措置又は是正措置を介して、第1の変数又は第2の変数に影響を及ぼす物理的パラメータを調節することによって、及び内部からデータ系列(例えば、時系列データ)が取得されるデバイスの物理的構成要素を調節することによって)実施する(動作626)。動作626は、それぞれの群について、すべての異常が分類された後(例えば、それぞれの群内の第2の試験データのセットについて、決定628が「いいえ」という応答を返した後)、又は試験データのセット全体について、すべての異常が分類された後(例えば、決定630が「いいえ」という応答を返した後)に行われ得ることに留意されたい。
【0047】
第2の試験データのセット内にいずれかの残っているデータ点が存在する場合(決定628)、動作は
図6Aの動作614に戻る。第2の試験データのセット内に残っているデータ点が存在しない場合(決定628)、本システムは、試験データのセット内にいずれかの残っている群が存在するかどうかを判定する(決定630)。存在する場合には、動作が
図6Aの動作606に戻る。試験データのセット内に残っている群が存在しない場合(決定630)、動作は戻る。
【0048】
図7は、本発明の一実施形態による、異常検出を容易にする例示的な分散コンピュータ及び通信システム702を例示している。コンピュータシステム702は、プロセッサ704、メモリ706、記憶デバイス708を含む。メモリ706は、管理されたメモリとして機能する揮発性メモリ(例えば、RAM)を含むことができ、1つ以上のメモリプールを記憶するために使用され得る。更に、コンピュータシステム702は、ディスプレイデバイス710、キーボード712、及びポインティングデバイス714に連結され得る。記憶デバイス708は、オペレーティングシステム716、コンテンツ処理システム718、及びデータ732を記憶し得る。
【0049】
コンテンツ処理システム718は、命令を含むことができ、これらの命令は、コンピュータシステム702によって実行されると、コンピュータシステム702に本開示に記載される方法及び/又はプロセスを実施させ得る。具体的には、コンテンツ処理システム718は、コンピュータネットワーク(通信モジュール720)を介して他のネットワークノードとの間でデータパケットを送受信するための命令を含み得る。データパケットは、データ、データ系列、時系列データ、試験データ、データのセット、データ点、要求、コマンド、及び応答を含み得る。
【0050】
コンテンツ処理システム718は、コンピューティングデバイスによって、複数のデータ点を含む試験データのセットを判定する(通信モジュール720及びデータ取得モジュール722)ための命令を更に含むことができ、そのセットは、第1の変数及び1つ以上の第2の変数のデータ系列を含み、1つ以上の第2の変数は、第1の変数に依存する。コンテンツ処理システム718は、試験データのセットをデータ系列のタイプに基づいていくつかの群に分割する(データ分割モジュール724)ための命令を更に含み得る。コンテンツ処理システム718は、それぞれの群の四分位数間範囲を判定する(IQR実施モジュール726)ための命令を更に含み得る。コンテンツ処理システム718は、それぞれの群の四分位数間範囲に基づいて、それぞれの群内の第1の試験データ点を異常として分類し(データ分類モジュール728)、それによって、複数の変数のデータ系列についてのデータマイニング及び外れ値検出を強化する(データ分類モジュール728)ための命令を更に含み得る。
【0051】
コンテンツ処理システム718はまた、コンピューティングデバイスのユーザによって、分類された異常に対処するための措置を実施する(措置実施モジュール730)ための命令を含むことができ、措置には、分類された異常がもはや発生しないことを確実にするための改善措置又は是正措置、第1の変数又は1つ以上の第2の変数に影響を及ぼす物理的パラメータを調節すること、及び内部からデータ系列が取得されるデバイスの物理的構成要素を調節することのうちの1つ以上が含まれる。
【0052】
データ732は、入力として必要とされるか、又は本開示に記載される方法及び/又はプロセスによって出力されるときに生成される任意のデータを含み得る。具体的には、データ732は少なくとも、データと、試験データのセットと、複数のデータ点と、第1の変数と、1つ以上の第2の変数と、第1及び第2の変数の時系列データ又は周波数スペクトルと、いくつかの群又はビンと、時系列データのタイプと、四分位数間範囲と、試験データ点の分類と、異常として分類される試験データ点と、正常なデータ点として分類される試験データ点と、複数の変数の時系列データの強化されたデータマイニング及び外れ値検出のインジケータと、措置のインジケータと、改善措置又は是正措置と、第1の変数又は第2の変数に影響を及ぼす物理的パラメータのインジケータと、内部から時系列データが取得されるデバイスの物理的構成要素のインジケータと、異常検出の対象と、自動プロセスと、アルゴリズムと、アルゴリズムに基づく自動プロセスと、センサ又は機械の解像度と、以前の又は履歴データと、事前又は過去の知識と、中央値と、第1の四分位数と、第2の四分位数と、第3の四分位数と、4つの部分のインジケータと、下限と、上限と、偶数と、奇数とを記憶し得る。
【0053】
図8は、本発明の一実施形態による、異常検出を容易にする例示的な装置800を例示している。装置800は、有線、無線、量子光、又は電気通信チャネルを介して互いに通信し得る複数のユニット又は装置を備え得る。装置800は、1つ以上の集積回路を使用して実現することができ、
図8に示されるものよりも少ないか又は多くのユニット若しくは装置を含み得る。更に、装置800は、コンピュータシステムに統合され得るか、又は他のコンピュータシステム及び/若しくはデバイスと通信することができる別個のデバイスとして実現され得る。具体的には、装置800は、
図7のコンピュータシステム702のモジュール720~730と同様の機能又は動作を実施するユニット802~812を備えることができ、通信ユニット802、データ取得ユニット804、データ分割ユニット806、IQR実施ユニット808、データ分類ユニット810、及び措置実施ユニット812を含む。
【0054】
発明を実施するための形態に記載されるデータ構造及びコードは、典型的には、コンピュータ可読記憶媒体に記憶され、コンピュータ可読記憶媒体は、コンピュータシステムが使用するためのコード及び/又はデータを記憶することができる任意のデバイス又は媒体であり得る。コンピュータ可読記憶媒体としては、揮発性メモリ、不揮発性メモリ、非一時的コンピュータ可読記憶媒体、ディスクドライブ、磁気テープ、CD(コンパクトディスク)、DVD(デジタル多用途ディスク若しくはデジタルビデオディスク)などの磁気及び光学記憶デバイス、又は現在知られているか若しくは今後開発されるコンピュータ可読媒体を記憶することができる他の媒体が挙げられるが、これらに限定されない。
【0055】
発明を実施するための形態の節に記載される方法及びプロセスは、上に論じられるようなコンピュータ可読記憶媒体内に記憶され得るコード及び/又はデータとして具体化され得る。コンピュータシステムが、コンピュータ可読記憶媒体上に記憶されたコード及び/又はデータを読み取り、実行するとき、コンピュータシステムは、データ構造及びコードとして具体化され、コンピュータ可読記憶媒体内に記憶された方法及びプロセスを実施する。
【0056】
更に、上に記載される方法及びプロセスは、ハードウェアモジュール又は装置内に含まれ得る。ハードウェアモジュール又は装置としては、特定用途向け集積回路(application-specific integrated circuit、ASIC)チップ、フィールドプログラマブルゲートアレイ(field-programmable gate array、FPGA)、特定の時間に特定のソフトウェアモジュール又はコード片を実行する専用の若しくは共有プロセッサ、及び現在知られている若しくは今後開発される他のプログラム可能論理デバイスが挙げられ得るが、これらに限定されない。ハードウェアモジュール又は装置は、起動されると、それらの内部に含まれる方法及びプロセスを実施する。