IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 横河電機株式会社の特許一覧

特開2024-157539機械学習ベースの画像処理ならびに上限値および下限値を考慮することによる構成要素の異常検出
<>
  • 特開-機械学習ベースの画像処理ならびに上限値および下限値を考慮することによる構成要素の異常検出 図1
  • 特開-機械学習ベースの画像処理ならびに上限値および下限値を考慮することによる構成要素の異常検出 図2
  • 特開-機械学習ベースの画像処理ならびに上限値および下限値を考慮することによる構成要素の異常検出 図3
  • 特開-機械学習ベースの画像処理ならびに上限値および下限値を考慮することによる構成要素の異常検出 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024157539
(43)【公開日】2024-11-07
(54)【発明の名称】機械学習ベースの画像処理ならびに上限値および下限値を考慮することによる構成要素の異常検出
(51)【国際特許分類】
   G06V 10/70 20220101AFI20241030BHJP
   G06T 7/00 20170101ALI20241030BHJP
   G08B 25/00 20060101ALI20241030BHJP
   G05B 23/02 20060101ALI20241030BHJP
【FI】
G06V10/70
G06T7/00 350B
G08B25/00 510M
G08B25/00 510F
G05B23/02 302R
【審査請求】有
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024069796
(22)【出願日】2024-04-23
(31)【優先権主張番号】18/139,132
(32)【優先日】2023-04-25
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】000006507
【氏名又は名称】横河電機株式会社
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100206081
【弁理士】
【氏名又は名称】片岡 央
(74)【代理人】
【識別番号】100167553
【弁理士】
【氏名又は名称】高橋 久典
(74)【代理人】
【識別番号】100181124
【弁理士】
【氏名又は名称】沖田 壮男
(72)【発明者】
【氏名】ダコタ・マハン
【テーマコード(参考)】
3C223
5C087
5L096
【Fターム(参考)】
3C223AA01
3C223AA05
3C223AA12
3C223BA03
3C223BB02
3C223BB05
3C223BB08
3C223BB12
3C223CC02
3C223DD03
3C223EB05
3C223FF02
3C223FF12
3C223FF26
3C223FF35
3C223FF42
3C223FF44
3C223FF52
3C223GG01
3C223HH06
3C223HH07
3C223HH29
5C087AA02
5C087AA03
5C087AA07
5C087AA31
5C087BB20
5C087BB74
5C087DD03
5C087DD21
5C087EE14
5C087FF01
5C087FF02
5C087FF04
5C087FF16
5C087GG02
5C087GG08
5C087GG66
5C087GG83
5L096BA02
5L096BA05
5L096CA02
5L096DA03
5L096GA30
5L096GA51
5L096KA04
(57)【要約】      (修正有)
【課題】機械学習ベースの画像処理ならびに上限値および下限値を考慮することによる構成要素の異常検出方法を提供する。
【解決手段】方法は、削減された次元の機械学修(ML)で力を生成するために、MLモデルを使用して画像を処理する。画像は、環境(たとえば、産業用自動化施設)の構成要素をキャプチャし、環境内のモバイルロボットの視覚構成要素を介してキャプチャされる302。ML出力は、異常が画像のN個の領域のそれぞれの領域内に存在するかどうかを示す対応する異常検出確率を、画像のN個の領域の各々に対して示す304。方法はまた、各々がしきい値を満足する異常検出確率の数量を、ML出力に基づいて決定し、数量が下限値よりも大きくかつ上限値よりも小さいかどうかをさらに決定し308、そうである場合、異常が構成要素に対して存在することを示す警報を表示させることなどの修正行動を実行させる。
【選択図】図3
【特許請求の範囲】
【請求項1】
1つまたは複数のプロセッサによって実装される方法であって、
モバイルロボットのカメラが第1のポーズにおけるときに前記カメラによってキャプチャされる画像を識別するステップであって、
前記画像は、前記モバイルロボットの環境内で1つまたは複数の特定の構成要素をキャプチャする、ステップと、
異常が前記画像のN個の領域のそれぞれの領域内に存在するかどうかを示す対応する異常検出確率を前記画像の前記N個の領域の各々に対して示す、削減された次元の出力を生成するために、機械学習(ML)モデルを使用して前記画像を処理するステップと、
各々がしきい値を満足する異常検出確率の数量を、前記削減された次元の出力に基づいて決定するステップと、
前記数量が下限値よりも大きくかつ上限値よりも小さいかどうかを決定するステップと、
前記数量が前記下限値よりも大きくかつ前記上限値よりも小さいと決定することに応答して、
異常が前記1つまたは複数の特定の構成要素に対して存在することを示す警報を表示させるステップと
を含む、方法。
【請求項2】
前記画像を処理するために複数の候補MLモデルから前記MLモデルを選択するステップをさらに含み、前記画像を処理するために前記MLモデルを選択するステップは、前記1つまたは複数の特定の構成要素をキャプチャする前記画像に応答し、前記MLモデルは、前記1つまたは複数の特定の構成要素に対応する画像に基づいて訓練される、請求項1に記載の方法。
【請求項3】
前記画像を処理するために複数の候補MLモデルから前記MLモデルを選択するステップをさらに含み、前記画像を処理するために前記MLモデルを選択するステップは、前記画像が前記第1のポーズにおいてキャプチャされることおよび前記MLモデルが前記第1のポーズに対応する画像に基づいて訓練されることに応答する、請求項1に記載の方法。
【請求項4】
Nは9よりも大きい、請求項1に記載の方法。
【請求項5】
前記下限値は、Nの20%以下である、請求項4に記載の方法。
【請求項6】
前記上限値は、Nの50%以上である、請求項4に記載の方法。
【請求項7】
前記下限値は、前記1つまたは複数の特定の構成要素の1つまたは複数のタイプに基づいて決定される、請求項1に記載の方法。
【請求項8】
前記上限値は、前記1つまたは複数の特定の構成要素の1つまたは複数のタイプに基づいて決定される、請求項1に記載の方法。
【請求項9】
前記下限値と前記上限値の一方または両方が、前記画像がキャプチャされる時刻に基づいて、および/または前記環境の光レベルに基づいて選択される、請求項1に記載の方法。
【請求項10】
前記カメラは、モノグラフカメラ、ステレオカメラ、紫外線カメラ、または熱カメラである、請求項1に記載の方法。
【請求項11】
前記モバイルロボットは、車輪付きロボット、無人航空機、または四足ロボットである、請求項1に記載の方法。
【請求項12】
前記数量が前記下限値以下であると決定することに応答して、
異常が、前記1つまたは複数の特定の構成要素に対して検出されないと決定するステップをさらに含む、請求項1に記載の方法。
【請求項13】
異常が存在しないことを示すディスプレイを介して選択可能な要素を表示させるステップをさらに含み、前記選択可能な要素は、選択されると、前記画像へのアクセス、および/または前記画像に関連するメタデータへのアクセスを提供する、請求項12に記載の方法。
【請求項14】
前記1つまたは複数の特定の構成要素は、液体タンクおよび/または前記液体タンクが搬送する液体を含む、請求項1に記載の方法。
【請求項15】
前記MLモデルが、(1)対応する画像と、(2)異常が前記対応する画像の前記N個の領域のうちの対応する1つに対して存在するかどうかを各々が示すN個のグラウンドトゥルースラベルとを各々が含む1つまたは複数の訓練インスタンスに基づいて訓練される、請求項1に記載の方法。
【請求項16】
システムであって、
カメラを含み、環境内に配備されたモバイルロボットと少なくとも選択的にネットワーク通信する1つまたは複数のコンピューティングデバイスを含み、前記1つまたは複数のコンピューティングデバイスは、
前記カメラによってキャプチャされた画像を前記モバイルロボットから受信することであって、前記画像は前記環境内の1つまたは複数の特定の構成要素をキャプチャする、前記受信することと、
異常が前記画像のN個の領域のそれぞれの領域内に存在する対応する確率を前記画像の前記N個の領域の各々に対して示す、削減された次元の出力を生成するために、訓練済み機械学習(ML)モデルを使用して前記画像を処理することと、
各々がしきい値を満足する対応する確率の数量を、前記削減された次元の出力に基づいて決定することと、
前記数量が下限値よりも大きくかつ上限値よりも小さいかどうかを決定することと、
前記数量が前記下限値よりも大きくかつ前記上限値よりも小さいと決定することに応答して、
異常が前記1つまたは複数の特定の構成要素に対して存在することを示す警報を表示させることと
を行う、システム。
【請求項17】
前記1つまたは複数のコンピューティングデバイスは、さらに、
前記画像が所与のポーズにおいて前記カメラによってキャプチャされると決定することに基づいて、および前記訓練済みMLモデルが前記所与のポーズに対応する画像に基づいて訓練されることに基づいて、前記画像を処理するために複数の候補MLモデルから前記訓練済みMLモデルを選択する、請求項16に記載のシステム。
【請求項18】
Nは9よりも大きい、請求項16に記載のシステム。
【請求項19】
前記下限値はNの20%以下であり、前記上限値はNの50%以上である、請求項16に記載のシステム。
【請求項20】
モバイルロボットであって、
カメラと、
命令を記憶し、訓練済み機械学習(ML)モデルを記憶するメモリと、
1つまたは複数のプロセッサとを含み、前記1つまたは複数のプロセッサは前記命令を実行して、
前記モバイルロボットが配備される環境の1つまたは複数の特定の構成要素をキャプチャする画像を前記カメラから受信することと、
異常が前記画像のN個の領域のそれぞれの領域内に存在するかどうかを示す対応する確率を前記画像の前記N個の領域の各々に対して示す、削減された次元の出力をローカルに生成するために、前記訓練済みMLモデルを使用して前記画像を処理することと、
各々がしきい値を満足する前記対応する確率の数量を、前記削減された次元の出力に基づいて決定することと、
前記数量が下限値よりも大きくかつ上限値よりも小さいかどうかを決定することと、
前記数量が前記下限値よりも大きくかつ前記上限値よりも小さいと決定することに応答して、
異常が前記1つまたは複数の特定の構成要素に対して存在することを示す警報を表示させるように、1つまたは複数の追加のコンピューティングデバイスと通信することと
を行うように動作可能である、モバイルロボット。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習ベースの画像処理ならびに上限値および下限値を考慮することによる構成要素の異常検出に関する。
【背景技術】
【0002】
石油化学精製所、化学プラントなどの複雑な産業施設は、産業施設の産業プロセスに関する液体、気体および/または他の物質の処理に利用される多数の構成要素を含むことができる。産業プロセスに関する構成要素が目的通りに動作していることを確保すること、および/または産業プロセスに関する物質がそれらの意図された状態にあることを確保することが重要である。
【0003】
そのような構成要素および/または物質における異常をモニタするために、様々なセンサが、産業施設内で利用されてきた。そのようなセンサには、構成要素および/または物質における温度異常をモニタするために利用される温度センサ、物質の組成における異常をモニタするために利用される光センサ(たとえば、それらの物質を光源で励起することに基づく)などが含まれる。
【0004】
様々なセンサが様々な異常をモニタするために産業施設内で利用され得るが、そのようなセンサはそれぞれ、一般的に、産業施設内の対応する固定ロケーションに配備される。したがって、大量のセンサが、産業施設を効果的にモニタするために必要とされ得る。さらに、センサの各々に電力および/または情報を供給することは、産業施設の至る所で大規模な配線を必要とする可能性がある。またさらに、大量のセンサはそれぞれ、故障または機能不良を生じ易く、それが生じたときに補修および/または交換されなければならず、そのことは、大量の固定されたセンサを含む大規模な産業施設においては困難であり得る。
【発明の概要】
【課題を解決するための手段】
【0005】
本開示の実装形態は、産業施設または他の環境の中などの環境内の構成要素および/または物質の画像を、モバイルロボットのカメラを介して所与のポーズにおいてキャプチャするためにモバイルロボットを使用することを対象とする。それらの実装形態はさらに、機械学習(ML)出力を生成するためにMLモデルを使用して、キャプチャされた画像を処理することを対象とする。機械学習モデルは、1つまたは複数の畳み込み層を含む畳み込みニューラルネットワーク(CNN)モデルなどのニューラルネットワークモデルであり得る。それらの実装形態はさらに、画像によってキャプチャされる構成要素および/または物質に伴う異常が存在するかどうかを、生成されたML出力に基づいて決定することを対象とし、存在する場合、1つまたは複数の修正行動を実行させる。修正行動を実行させることは、たとえば、警報を表示させること、プロセスを停止させること、および/または他の修正行動を実行させることを含むことができる。
【0006】
多くの実装形態では、利用されるMLモデルは、処理された画像と比べて削減された次元のものである削減された次元のML出力を生成するように画像を処理するために使用されるように訓練されたモデルであり得る。削減された次元のML出力内の各値は、画像の対応する領域が異常を含む確率を直接的または間接的に反映することができる。たとえば、各値は、0から1の対応する値であり得、各値は、画像の複数のピクセル(たとえば、画像の対応する64×64ピクセル部)を包含する画像の対応する部分に対応することができる。それらの実装形態では、異常が存在するかどうかの決定は、しきい値(たとえば、0.7などのしきい値)を満足する値の数量を決定すること、および数量が(a)下限値よりも大きくかつ(b)上限値よりも小さいときのみ異常が存在すると決定することに基づくことができる。たとえば、ML出力が16個の値を含むと仮定する。異常は、しきい値を満足する値の数量が、1または2(または、他の下限値)よりも大きいが、8または9(または、他の上限値)よりも小さいときのみ検出され得る。
【0007】
擬陽性および/または偽陰性の異常検出の発生は、数量が(a)下限値よりも大きくかつ(b)上限値よりも小さいときのみ存在すると決定することによって軽減され得る。たとえば、異常を検出することにおける擬陽性の発生は、下限値に加えて上限値を考慮することによって防止され得る。たとえば、擬陽性の発生は、しきい値を満足する値の数量が上限値よりも大きいときは、異常が存在すると決定しないことによって防止され得る。たとえば、しきい値を満足する値の数量が上限値よりも大きいとき、本明細書で開示される実装形態は、それが、異常に起因するのではなく、過剰な光(たとえば、太陽および/または照明デバイスから)、人もしくは他の移動体が画像内に存在すること、および/または画像をキャプチャしたカメラの問題点など、環境の他の外部要因に起因する可能性があるものと認識する。擬陽性の発生を軽減することは、たとえば、擬陽性警報を表示させることなど、修正行動を誤って実行させることにおいてネットワークおよび/またはコンピューティングデバイスの資源を利用することを防止することができる。偽陰性の発生を軽減することは、産業施設における安全ではない状態、ならびに/または産業施設の構成要素および/もしくは物質に対する損傷の発生を防止することができる。
【0008】
いくつかの実装形態では、同じ下限値および/または同じ上限値が、異常が存在するかどうかを、環境内の複数の全く異なる構成要素および/または物質の各々に対して決定することにおいて使用され得る。たとえば、同じ下限値(たとえば、2)および同じ上限値(たとえば、11)が、(a)MLモデルを使用して(環境の第1のエリア内の)タンクの第1の画像を処理することに基づいて生成された第1のML出力と、(b)(環境の第2のエリア内の)配管の第2の画像を処理することに基づいて生成された第2のML出力の両方を分析することにおいて利用され得る。
【0009】
いくつかの追加または代替の実装形態では、第1の構成要素に使用される下限値および/または上限値は、第2の構成要素に使用される下限値および/または上限値と異なり得る。たとえば、第1の構成要素をキャプチャするために(たとえば、第1の画像のメタデータに基づいて)決定される第1の画像が、第1のML出力を生成するためにMLモデルを使用して処理され得、しきい値を満足する第1のML出力の値の第1の数量が決定され得、第1の構成要素に対する異常が、第1の数量が2から9である場合にのみ決定される。例を続けると、(たとえば、第2の画像のメタデータに基づいて)第2の構成要素をキャプチャするために決定された第2の画像が、第2のML出力を生成するためにMLモデルを使用して処理され得、しきい値を満足する第2のML出力の値の第2の数量が決定され得、第2の構成要素に対する異常が、第1の数量が3から8にある場合のみ決定され、それは、第1の構成要素をキャプチャするために決定された第1の画像に利用される範囲より制限された範囲である。より制限された範囲は、異常が決定されることにつながる可能性がより低くなる。それらの実装形態のいくつかでは、より制限的でない範囲および/またはより制限的な範囲が、随意に、ユーザインターフェース入力に基づいて明示的に手動で指定され得る。手動指定は、それぞれの構成要素の重要度(たとえば、第1の構成要素は第2の構成要素よりも重要であり得る)を反映することができ、および/または構成要素が位置するエリアがどの程度動的であると予期されるかなど、追加または代替の考慮に基づくことができる。それらの実装形態の他のいくつかでは、より制限的でない範囲および/またはより制限的な範囲が、随意に、黙示的なユーザインターフェース入力に依存して設定され得る。たとえば、第2の構成要素に対する範囲が最初は2から9であったとしても、2から9の範囲に基づいて決定された異常が実際には異常でなかったことを示すユーザフィードバックの前例に基づいて、より制限的な3から8に自動的に調整され得る。たとえば、ユーザフィードバックの前例は、第1の構成要素の画像を精査した後、および/または第1の構成要素をオペレータ自ら点検した後、オペレータによって提供されている可能性がある(たとえば、前の異常検出は間違いであったことを示すフィードバック)。
【0010】
いくつかの実装形態では、同じ下限値および/または同じ上限値が常に、環境内の所与の構成要素および/または所与の物質に対して、異常が存在するかどうかを決定することにおいて使用され得る。
【0011】
いくつかの代替実装形態では、所与の構成要素および/または所与の物質に使用される下限値および/または上限値は、経時的に非常に動的に変化することができる。たとえば、より制限的な範囲は、一定の時間的条件(たとえば、曜日、時刻、年月日)の間に使用され得、より制限的でない範囲は、一定の他の時間的条件の間に使用され得る。別の例として、第1の範囲が第1の持続時間に対して使用され、その後、上記で説明したような明示的または黙示的ユーザ入力に基づいてより制限的なまたはより制限的でない範囲に調整され得る。
【0012】
キャプチャされた画像は、m×n×cピクセルの画像寸法(時には「ピクセル寸法」と呼ばれる)を有する高解像度画像であり得、mは幅寸法であり、nは高さ寸法であり、cはチャネル寸法である。たとえば、cは、画像が赤、緑、青(RGB)画像であるときに3であり得、cは、画像がグレースケール画像であるときに1であり得る。m×n値は、たとえば、1024×1024、1024×768、2048×2048、または他の値であり得る。複数の確率を含む削減された次元のML出力は、たとえば、q1×q2行列内に配列され得、q1×q2の次元は、m×nの次元よりも小さい。たとえば、削減された次元のML出力は、4つの異なる確率(p1、p2、p3、p4)を規定する2×2行列であり得、p1は異常が画像の第1の領域内に存在することを示す確率であり、p2は異常が画像の第2の領域内に存在することを示す確率であり、p3は異常が画像の第3の領域内に存在することを示す確率であり、p4は異常が画像の第4の領域内に存在することを示す確率である。第1、第2、第3および第4の領域は、共同で、画像のすべての領域に対応することができる。第1、第2、第3および第4の領域は、画像の全く固有の領域に対応することができるか、または領域のうちの1つまたは複数が、領域のうちの他の領域と部分的に重複することができる。
【0013】
本明細書で開示される技法による、異常のモニタにおいて処理される画像のキャプチャリングに利用されるモバイルロボットは、四足ロボット、車輪付きロボット、無人航空機、軌道誘導ロボット、または環境内を自力で移動する任意の他のロボットであり得る。画像は、モバイルロボットの視覚構成要素を介してキャプチャされる。各画像は、視覚構成要素が対応するポーズ(すなわち、所与の位置および方位)にあるときにキャプチャされる。画像が所与の時刻においてキャプチャされるときの視覚構成要素のポーズは、所与の時刻におけるロボットのポーズの関数である。視覚構成要素がロボットに対して固定されたポーズにあるとき、視覚構成要素のポーズは、完全にロボットのポーズの関数である。視覚構成要素のポーズがロボットに対して独立して調整可能であるとき、視覚構成要素のポーズは、ロボットのポーズとロボットに対する視覚構成要素のポーズとの関数である。本明細書で利用される画像は、たとえば、赤チャネル、緑チャネル、および青チャネルを含み、モノグラフRGBカメラによってキャプチャされるRGB画像、赤、緑、および青のチャネルに加えて深度チャネルを含み、ステレオカメラによってキャプチャされるRGB-D画像、紫外線(UV)チャネルを含み、UVカメラによってキャプチャされるUV画像、あるいは1つまたは複数の熱チャネルを含み、温度カメラによってキャプチャされる熱画像を含むことができる。
【0014】
視覚構成要素を含み、産業環境の中を動き回って異常モニタリング/検出に関心のある構成要素および/または物質の画像をキャプチャするモバイルロボットを利用することによって、産業環境をモニタするセンサの数が低減され得、および/またはそのようなセンサに必要な大規模な配線が回避され得る。その上、複数の値を有するML出力を生成するためにMLモデルを使用してキャプチャされた画像を処理すること、およびしきい値を満足するそれらの値の数量が(a)下限値よりも大きくかつ(b)上限値よりも小さいときのみ異常が存在すると決定することによって、異常検出の精度が改善され得る。これは、異常検出が、よりロバストであることおよび/またはより正確であることを可能にする。
【0015】
本明細書で非常に詳細に説明する前述の概念と追加の概念とのすべての組合せは、本明細書で開示する主題の一部であるとして企図されていることを諒解されたい。たとえば、本開示の最後に現れる特許請求される主題のすべての組合せは、本明細書で開示する主題の一部であるとして意図されている。
【図面の簡単な説明】
【0016】
図1】様々な実装形態による、本開示の選択された態様が実装され得る環境を概略的に示す図である。
図2】様々な実装形態による、本明細書で説明される技法がどのように実装され得るかの一例を概略的に示す図である。
図3】本開示の選択された態様を実行するための例示的な方法を示す図である。
図4】本開示の選択された態様が実装され得る例示的なコンピュータアーキテクチャを概略的に示す図である。
【発明を実施するための形態】
【0017】
本明細書で説明される実装形態は、訓練済みMLモデル(たとえば、訓練済みニューラルネットワークモデル)を使用して、構成要素をキャプチャした画像を処理することによって生成されたML出力(たとえば、削減された次元の出力)に基づいて、環境(たとえば、産業用自動化施設)内の構成要素(たとえば、液体タンク、配管、配線)に関連する異常をモニタし、かつ検出することに関する。様々な実装形態では、構成要素の画像は、環境内を移動可能なモバイルロボットによって搬送されるかまたはそのロボットに一体化された視覚構成要素(たとえば、カメラ)によってキャプチャされる。削減された次元のML出力は、異常が画像のそれぞれの領域内に存在する対応する確率を、画像のN個の領域の各々に対して示すことができる。異常が存在するかどうかを決定することは、削減された次元のML出力を分析することに基づくことができる。たとえば、削減された次元のML出力内の各値は、画像の対応する領域が異常を含む確率を反映することができ、異常は、しきい値を満足する値の数量が下限値よりも大きくかつ上限値よりも小さいときのみ存在すると決定され得る。実装形態はさらに、異常が環境内に存在することを検出することに応答して、1つまたは複数の修正行動を実行させることに関する。上記のように、削減された次元の出力内の各値は、画像の対応する領域が異常を含む確率を反映することができる。いくつかの実装形態では、値は、確率を直接反映することができる。たとえば、各値は、0から1の対応する値であり得、確率を直接反映することができる。たとえば、0.18の値は、18%の確率を反映することができる。いくつかの実装形態では、値は、確率を間接的に反映することができる。たとえば、各値は、0から8の対応する値であり得、確率を間接的に反映することができる。たとえば、2の値は、25パーセントの確率を反映することができる。
【0018】
次に図1を参照すると、本開示の様々な態様が実装され得る例示的な環境100が、概略的に示される。いくつかの実装形態では、例示的な環境100は、産業用自動化施設であり得るか、またはそれを含むことができる。産業施設は、多数の形態を取ることができ、任意の数の少なくとも部分的に自動化されたプロセスを実装するように設計され得る。産業用自動化施設は、化学処理プラント、石油または天然ガス精製所、触媒工場、製造施設、海上石油プラットフォームなどの形態を取ることができる。
【0019】
例示的な環境100は、産業用自動化施設内のプロセス自動化ネットワーク106と動作可能に結合された1つまたは複数のクライアントデバイス(たとえば、ローカルクライアントデバイス103-Aおよび103-B)を含むことができる。クライアントデバイス103-Aまたは103-Bは、コンピュータ(たとえば、ラップトップ、デスクトップ、ノートブック)、タブレット、ロボット、スマートアプライアンス(たとえば、スマートフォン)、メッセージングデバイス、装着型デバイス(たとえば、時計)、または任意の他の適用可能なデバイスとして実装され得る。プロセス自動化ネットワーク106は、限定はしないが、米国電気電子技術者協会(IEEE)802.3規格(イーサネット)、IEEE802.11(Wi-Fi)、3GPP(登録商標)ロングタームエボリューション(「LTE」)もしくは3G、4G、5Gおよびそれ以後として説明される他のワイヤレスプロトコル、ならびに/または様々なタイプのトポロジー(たとえば、メッシュ)の他のタイプの通信ネットワークを含む様々なワイヤードおよび/もしくはワイヤレス通信技術を使用して実装され得る。
【0020】
例示的な環境100は、視覚構成要素1011を有するかまたは搬送するモバイルロボット101をさらに含むことができる。モバイルロボット101は、四足ロボット(たとえば、ロボット犬)、車輪付きロボット、無人航空機、環境内を高架および/または非高架の軌道に沿って移動するロボット、あるいは産業施設内を移動可能な任意の他の適用可能なロボットであり得る。視覚構成要素1011は、産業用自動化施設の1つまたは複数の特定の構成要素(たとえば、液体物質を貯蔵または輸送する液体タンクTまたはチューブ102)の1つまたは複数の画像をキャプチャするための、モノグラフカメラ、ステレオカメラ、熱カメラ、または任意の他の適用可能な視覚センサであり得る。視覚構成要素1011は、モバイルロボット101に取り外し可能に結合され得るか、またはモバイルロボット101の取り外し不可能な密着部品として一体化され得る。いくつかの実装形態では、視覚構成要素1011は、ロケーションおよび/または方位を、たとえば視覚構成要素1011を単独で制御するアクチュエータを介して回転または他の運動によって、モバイルロボット101のロボットフレームに対して独立して変化させることができる。モバイルロボット101は、視覚構成要素1011に加えて、産業施設を通してナビゲートすること、静的もしくは動的な物体を感知すること、および/または画像をキャプチャすることを行うために、1つまたは複数の追加の視覚構成要素を含むことができる。
【0021】
例示的な環境100は、サーバコンピューティングデバイス105をさらに含むことができる。サーバコンピューティングデバイス105は、機械学習(ML)エンジン1051と異常検出エンジン1052とを含むことができる。サーバコンピューティングデバイス105は、処理された画像のN個の領域のそれぞれの領域に対して異常が存在する尤度を示す確率の各々を用いて、複数の確率を示す出力を生成するようにそれぞれ訓練された1つまたは複数の訓練済み機械学習(ML)モデル1053をさらに含むことができるか、または別の方法でそれにアクセスすることができる。サーバコンピューティングデバイス105は、複数のクライアントデバイスに接続され得る。サーバコンピューティングデバイス105は、1つまたは複数のローカルクライアントデバイス(たとえば、122-Aおよび122-B)と通信すること、および/または1つまたは複数のリモートクライアントデバイス(図示せず)と通信することができる。ローカルクライアントデバイス122-Aまたは122-Bは、1つまたは複数のローカルエリアネットワーク(たとえば、プロセス自動化ネットワーク106)を介してサーバコンピューティングデバイス105に接続され得、リモートクライアントデバイスは、1つまたは複数のワイドエリアネットワーク(たとえば、インターネット)を介してサーバコンピューティングデバイス105に接続され得る。ローカルクライアントデバイスおよびリモートクライアントデバイスは、例示的な環境100の様々な態様を用いて構成するために、および/またはそれらと相互に作用するために、システムインテグレータなどの要員によって動作可能であり得る。
【0022】
いくつかの実装形態では、サーバコンピューティングデバイス105は、MLエンジン1051および異常検出エンジン1052に加えて、本開示の選択された態様を実行するために、MLエンジン1051および/または異常検出エンジン1052によって使用される情報を記憶するデータベース(図示せず)を含むことができる。いくつかの実装形態では、サーバコンピューティングデバイス105は、MLエンジン1051および異常検出エンジン1052に加えて、異なる画像を同じ画像寸法を有するように処理する画像前処理エンジン1055を含み得る。MLエンジン1051、異常検出エンジン1052、および/または画像前処理エンジン1055などのサーバコンピューティングデバイス105の様々な態様は、ハードウェアとソフトウェアとの任意の組合せを使用して実装され得る。いくつかの実装形態では、MLエンジン1051、異常検出エンジン1052、画像前処理エンジン1055、または訓練済みMLモデル1053は、しばしば「クラウドインフラストラクチャ」または単に「クラウド」と呼ばれるものの一部として複数のコンピュータシステムにわたって実装され得る。しかしながら、これは必要ではなく、図1では、たとえば、MLエンジン1051は、たとえば、単一の建物の中の産業施設、または複数の建物の単一の構内もしくは他の産業インフラストラクチャにわたる産業施設の中に実装される。そのような実装形態では、MLエンジン1051は、1つまたは複数のローカルサーバコンピュータなど、1つまたは複数のローカルコンピューティングシステム上に実装され得る。
【0023】
いくつかの実装形態では、モバイルロボット101は、産業施設を通してナビゲートすることができ、1つまたは複数の指定されたスポットまたはウェイポイントに到着することができる。モバイルロボット101の視覚構成要素1011は、所与のポーズにおける液体チューブ102の画像をキャプチャするために、所与のポーズにおいて構成され得る(が、必ずしも構成される必要があるとは限らない)。視覚構成要素1011は、モバイルロボット101が対応するポーズにある結果として、および/または(視覚構成要素1011が、モバイルロボット101のロボットフレームに対して独立して調整可能であるとき)視覚構成要素1011が独立して調整された結果として、所与のポーズにおいて構成され得る。視覚構成要素1011によってキャプチャされた画像は、キャプチャするピクセルまたは他のデータを含むことができ、関心のあるエリアまたは構成要素、たとえば液体タンクTおよびその中に含まれる液体物質(図1に示される)に対応することができる。
【0024】
キャプチャされた画像は、ML出力を生成するために、訓練済みMLモデルへの入力としてMLエンジン1051によって処理され得る。ML出力は、異常がN個の領域のそれぞれの領域内に存在する対応する確率を画像のN個の領域の各々に対して示す、削減された次元の出力であり得る。異常検出エンジン1052は、異常が構成要素に対して存在するかどうかを決定することにおいてML出力を処理することができ、異常が存在すると決定された場合、1つまたは複数の修正行動を実行させて、検出された異常に対処することができる。たとえば、異常検出エンジン1052は、クライアントデバイス103-Aにおいて視覚的に表示される視覚警報107など、聴覚および/または視覚警報をコンピューティングデバイスにおいて表示させることができる。
【0025】
単一のモバイルロボット101のみが図1に示されているが、複数のモバイルロボットが産業環境内に配置されて、本明細書で開示される実装形態において利用され得ることが理解される。たとえば、複数のモバイルロボットの各々は、画像をキャプチャするために使用される対応する視覚構成要素を含むことができ、複数のモバイルロボットからの画像は、MLエンジン1051および異常検出エンジン1052によって処理するためにサーバデバイス105に送信される。同じく、MLエンジン1051、MLモデル1053、異常検出エンジン1052、および画像前処理エンジン1055は、図1において、モバイルロボット101から分離して実装されているように示されるが、いくつかの実装形態では、すべての態様が、モバイルロボット101によって実装され得る。たとえば、モバイルロボット101は、MLエンジン1051と、異常検出エンジン1052と、MLモデル1053の少なくとも1つのサブセットとを含むことができる。たとえば、モバイルロボット101は、MLモデル1053のサブセットが構成要素に対応することに基づいて、そのサブセットを所与の時刻において含むことができ、その構成要素の画像を、モバイルロボット101が、所与の時刻においてモバイルロボット101によって実行されるべき任務を負ってキャプチャする。
【0026】
図2は、様々な実装形態による、本明細書で説明される技法がどのように実装され得るかの一例を概略的に示す。図2に示すように、モバイルロボット101の視覚構成要素1011は、画像201をキャプチャすることができる。画像201は、産業用自動化施設内の特定の構成要素(たとえば、液体タンクTおよび液体タンクによって搬送される液体)をキャプチャする。視覚センサは、所与のポーズにおいて画像201をキャプチャする。画像201は、m×nピクセル(およびcチャネル)の画像寸法を有することができ、図1のMLモデル1053のうちの1つ(たとえば、1つのみ、または複数のうちの1つ)であり得る訓練済みMLモデル211を使用して処理され得る。訓練済みMLモデル211は、異常が領域内に存在する対応する確率を、画像の複数の領域の各々に対して示すML出力を生成するために画像を処理することにおいて使用するために訓練され得る。
【0027】
いくつかの実装形態では、訓練済みMLモデル211が、画像201を処理するためにMLモデル1053の複数の候補から選択される。それらの実装形態のうちのいくつかでは、訓練済みMLモデル211は、特定の構成要素(たとえば、液体タンクT)をキャプチャする画像201に基づいて画像201を処理するために選択され、MLモデル211は、同じく特定の構成要素(たとえば、液体タンクT)をキャプチャする画像の訓練インスタンス入力と、グラウンドトゥルース確率の訓練インスタンス出力とを含む、訓練インスタンスに基づいて訓練される。たとえば、訓練済みMLモデル211は、そのような訓練インスタンスに基づいて微調整され得る。それらの実装形態のうちのいくつかでは、画像201の中に組み込まれるか、または含まれるメタデータは、特定の構成要素を直接的または間接的に示すことができ、そのようなメタデータは、訓練済みMLモデル211を選択することにおいて使用され得る。たとえば、メタデータは、画像がキャプチャされたロケーションを示すことができ、そのようなロケーションは、特定の構成要素および/または訓練済みMLモデル211と相関があり得る。
【0028】
いくつかの追加または代替実装形態では、訓練済みMLモデル211は、画像201の所与のポーズにおける、またはそれに近い対応する視覚構成要素を用いて特定の構成要素(たとえば、液体タンクT)を同じくキャプチャする画像の訓練インスタンス入力と、グラウンドトゥルース確率の訓練インスタンス出力とをそれぞれ含む、訓練インスタンスに基づいて訓練されるモデルである。たとえば、訓練済みMLモデル211は、そのような訓練インスタンスに基づいて微調整され得る。それらの実装形態のうちのいくつかでは、訓練済みMLモデル211は、画像201が所与のポーズにおいて特定の構成要素をキャプチャすると決定すること、および訓練済みMLモデル211が特定の構成要素に対するおよび所与のポーズに対する訓練インスタンスに基づいて微調整されたモデルであると決定することに基づいて選択される。たとえば、画像201に組み込まれるかまたは含まれるメタデータは、所与のポーズを直接的または間接的に示すことができ、そのようなメタデータは、訓練済みMLモデル211を選択することにおいて使用され得る。たとえば、メタデータは、画像がキャプチャされたときの視覚構成要素の所与のポーズを示すことができ、所与のポーズは、訓練済みMLモデル211と相関することができる。
【0029】
いくつかの追加または代替実装形態では、訓練済みMLモデル211は、画像201の画像寸法に基づいて複数の訓練済みMLモデルから選択され得る。
【0030】
画像201は、MLモデル211のML出力221を生成するために、MLモデル211を使用して処理され得る。ML出力221は、異常がN個の領域のそれぞれの領域内に存在する対応する確率(本明細書では「異常検出確率」とも呼ばれる)を画像201のN個の領域の各々に対して示す、削減された次元の出力であり得る。ML出力221は、行列(たとえば、ベクトルまたは多次元行列)内に配列された複数の異常検出確率を示すかまたは含むことができ、行列内のi番目の異常検出確率の位置は、画像201内のi番目(0<i<N)の領域のロケーションに対応する。
【0031】
非限定的な例として、図2を参照すると、削減された次元の出力は、同じく以下で示される行列M1内に配列される第1、第2、...、および第16の確率を含むことができる。行列M1では、確率のロケーション(たとえば、p13)は、画像201内のそれぞれの領域(たとえば、図2に示される13番目の領域)のロケーションに対応することができ、それぞれの領域に対して確率(たとえば、p13)が予測される。
【0032】
【数1】
【0033】
ML出力221(すなわち、削減された次元の出力)に基づいて、異常が特定の構成要素に対して検出されるかどうかが決定され得る。たとえば、ML出力221によって示される複数の異常検出確率に基づいて、異常が特定の構成要素に対して検出されるかどうかが決定され得る。いくつかの実装形態では、しきい値(たとえば、0.7または他のしきい値)を満足する異常検出確率の数量が、N個の異常検出確率から決定され得る。図2を参照すると、p1、p2、p4、p5、p8およびp9が、しきい値(たとえば、0.7)を満足するとして識別され得、その結果、しきい値を満足する異常検出確率の数量は、「6」であると決定され得る。それらの実装形態では、しきい値(たとえば、0.7)を満足する異常検出確率の数量(たとえば、6)が、下限値(たとえば、「1」)よりも大きくかつ上限値(たとえば、「11」)よりも小さい場合、特定の構成要素の画像201が、特定の構成要素に関連する異常をキャプチャするために決定され得る。本明細書で説明されるように、下限値および/または上限値は、随意に、キャプチャされた特定の構成要素(たとえば、画像201のメタデータによって示される)、時間的条件、および/または他の要因によって決まる可能性がある。別の言い方をすると、いくつかの実装形態では、下限値および/または上限値は、所与の構成要素に対して動的であり得、および/または構成要素ベースであり得る。
【0034】
画像201が異常をキャプチャしたと決定することに応答して、1つまたは複数の修正行動が実行され得る。1つまたは複数の修正行動は、警報を視覚的および/または聴覚的に表示させることを含むことができる。代替または追加として、1つまたは複数の修正行動は、特定の構成要素を伴う1つまたは複数のプロセスなど、1つまたは複数のプロセスを休止させることを含むことができる。代替または追加として、1つまたは複数の修正行動は、一人または複数のオペレータに、特定の構成要素を検査するように告知することを含むことができる。
【0035】
図3は、本明細書で開示される実装形態による、本開示の選択された態様を実行することの例示的な方法300を示すフローチャートである。便宜上、フローチャートの動作は、動作を実行するシステムを参照しながら説明される。このシステムは、MLエンジン1051および/または異常検出エンジン1052を含むサーバコンピューティングデバイス105(および/またはモバイルロボット101またはクライアントデバイス103-Aなどの追加のコンピューティングデバイス)の1つまたは複数の構成要素など、様々なコンピューティングデバイスの様々な構成要素を含むことができる。その上、方法300の動作は特定の順序で示されているが、これは限定を意味するものではない。1つまたは複数の動作は並び替えられても、省略されても、または追加されてもよい。
【0036】
ブロック302において、システムは、モバイルロボットの視覚構成要素(たとえば、カメラ)によってキャプチャされた画像を識別し、画像は、産業用自動化施設の1つまたは複数の特定の構成要素をキャプチャする。産業用自動化施設は、化学処理プラント、石油もしくは天然ガス精製所、触媒工場、製造施設、海上石油プラットフォーム、あるいは1つまたは複数の少なくとも部分的に自動化されたプロセスを実装する任意の他の適用可能な施設であり得る。1つまたは複数の特定の構成要素は、非限定的な例として、液体タンクおよび/または液体タンクが搬送する液体を含むことができる。モバイルロボットは、四足ロボット(たとえば、ロボット犬)、車輪付きロボット、無人航空機、または産業用自動化施設内を移動可能な任意の他の適用可能なロボットであり得る。
【0037】
視覚構成要素は、モノグラフRGBカメラ、ステレオカメラ、熱カメラ、UVカメラ、または任意の他の適用可能な視覚構成要素であり得る。視覚構成要素によってキャプチャされた画像は、それに応じて、RGB画像、RGB-D画像、UV画像、熱画像、または任意の他の適用可能な画像であり得る。いくつかの実装形態では、視覚センサは、モバイルロボットと一体化され得るか、またはモバイルロボットに取り外し可能に結合され得る。
【0038】
ブロック304において、システムは、異常がN個の領域のそれぞれの領域内に存在するかどうかを示す異常検出確率(単に「確率」と呼ばれるときもある)を画像のN個の領域の各々に対して示すかまたは予測する、削減された次元の出力を生成するために、MLモデル(たとえば、CNNまたは他のニューラルネットワークモデル)を使用して画像を処理する。「N」の値は、たとえば、9以上であり得るが、これは、限定することを意図するものではない。たとえば、値Nは、4、6、25、36、または任意の他の適用可能な正の整数と等しくてもよい。
【0039】
画像の処理におけるブロック304においてシステムによって使用されるMLモデルは、1つまたは複数の訓練インスタンスに基づいて訓練され得、各訓練インスタンスは、対応する画像の訓練インスタンス入力と、N個の対応するグラウンドトゥルースラベルの訓練インスタンス出力とを含み、各グラウンドトゥルースラベルは、異常がそれぞれの画像のN個の領域のそれぞれの領域内に存在するかどうかを示す。たとえば、グラウンドトゥルースラベルの各々は、「異常存在」ラベル(たとえば、「1」)か、または「異常不存在」ラベル(たとえば、0)のいずれかであり得る。「異常存在」ラベルは、存在する場合、異常を含む対応する画像の領域に対応するラベルに適用され得、「異常不存在」ラベルは、存在する場合、異常を含まない対応する画像の領域に対応するラベルに適用され得る。たとえば、異常が腐食であり、腐食が画像の16個の領域のうち2つのみに存在する場合、グラウンドトゥルースラベルは、画像の2つの異常領域に対応する2つの「異常存在」ラベルと、画像の14個の非異常領域に対応する14個の「異常不存在」ラベルとを含むことができる。
【0040】
いくつかの実装形態では、システムは、随意に、ブロック3041において、複数の訓練済みMLモデルから画像を処理するためのMLモデルを選択する。それらの実装形態のいくつかでは、システムは、1つまたは複数の特定の構成要素をキャプチャする画像に基づいて画像を処理するためにMLモデルを選択し、MLモデルは、1つまたは複数の特定の構成要素に対応する画像に基づいて訓練される。それらの実装形態のいくつかの追加または代替実装形態では、システムは、画像が所与のポーズ(たとえば、視覚構成要素の第1の位置および/または第1の方位に対応する第1のポーズ)においてキャプチャされることに基づいて複数の訓練済みMLモデルからMLモデルを選択し、MLモデルは、所与のポーズに対応する画像に基づいて訓練される。それらの実装形態のいくつかの追加または代替実装形態では、システムは、画像のタイプ(たとえば、熱、RGB、RGB-D)および/または画像寸法(たとえば、1024×768ピクセル)に基づく画像に基づいて複数の訓練済みMLモデルからMLモデルを選択する。
【0041】
非限定的な例として、複数の訓練済みMLモデルは、第1のポーズにおける視覚センサによってキャプチャされた画像を使用して訓練された第1のMLモデルを含むことができ、第1のMLモデルは、第1のポーズにおいてキャプチャされた第1の画像のN_1個の領域の総数に対する異常検出確率の第1の数量(「N_1」)を出力するために、第1のポーズにおける視覚センサによってキャプチャされた第1の画像を処理するように訓練される。複数の訓練済みMLモデルは、第2のポーズにおける視覚センサによってキャプチャされた画像を使用して訓練された第2のMLモデルを含むことができ、第2のMLモデルは、第2のポーズにおいてキャプチャされた第2の画像のN_2個の領域の総数に対する異常検出確率の第2の数量(「N_2」)を出力するために、第2のポーズにおける視覚センサによってキャプチャされた第2の画像を処理するように訓練される。第2の数量(「N_2」)は、随意に、第1の数量(「N_1」)と異なってもよく、第1のポーズは第2のポーズと異なる。複数の訓練済みMLモデルは、第3のポーズにおいてキャプチャされた画像に基づいて訓練された第3のモデルなど、追加のMLモデルを含むことができる。
【0042】
ブロック306において、システムは、各々がしきい値を満足する異常検出確率の数量を、削減された次元の出力に基づいて決定することができる。いくつかの実装形態では、システムは、ブロック3061において、しきい値を満足する異常検出確率を、削減された次元の出力から識別する。システムは、ブロック3063において、しきい値を満足する識別された異常検出確率のカウントに基づいて数量を決定することができる。たとえば、しきい値が0.7であると仮定すると、削減された次元の出力は、総数16個の異常検出確率、0.65、0.72、0.65、0.45、0.55、0.78、0.85、0.8、0.85、0.55、0.45、0.82、0.78、0.48、0.58、0.63を示す。そのような例では、しきい値(0.7)を満足する異常検出確率は、0.72、0.78、0.85、0.8、0.85、0.82、0.78を含むことを識別され得る。この例では、しきい値を満足するとして識別された異常検出確率の数量は、「7」であると決定され得る。
【0043】
ブロック308において、システムは、異常が存在するかどうかを、下限値と上限値の両方に対して数量を比較することに基づいて決定する。たとえば、システムは、数量が下限値よりも高くかつ上限値よりも低いときにのみ、異常が存在すると決定することができる。いくつかの実装形態では、下限値および/または上限値は静的である。いくつかの実装形態では、下限値および上限値は、「N」の値(すなわち、削減された次元の出力内で反映される領域の数量)に基づいて決定され得る。たとえば、下限値は、「N」の値の約10%など、Nの20%以下であり得る。また、たとえば、上限値は、「N」の値の約90パーセントなど、Nの50パーセント以上であり得る。
【0044】
代替または追加として、いくつかの実装形態では、下限値および/または上限値は動的であり得る。たとえば、一方または両方は、画像によってキャプチャされた構成要素のタイプもしくは他の特性、現在の時間的条件、産業用自動化施設内の検出されたもしくは推測された光レベル、および/または他の要因に基づいて決定され得る。たとえば、昼間時間の間および/またはより高い光レベルの期間の間に利用される下限値は、夜間時間の間および/またはより低い光レベルの期間の間に利用される下限値とは異なり得る。
【0045】
非限定的な例として、「N」は16個の値を有することができる。この例では、下限値は「1」または「2」であるように事前に規定され得、上限値は「7」または「8」であるように事前に規定され得る。しきい値を満足するとして識別された異常検出確率の数量が、下限値よりも大きくかつ上限値よりも小さい「5」であると決定されるとき、異常検出確率が予測される画像は、1つまたは複数の特定の構成要素に対する異常をキャプチャするように決定され得る。
【0046】
加えて、いくつかの実装形態では、システムは、数量が下限値よりも大きくかつ上限値よりも小さいと決定することに応答して、異常が1つまたは複数の特定の構成要素に対して存在することを示す警報を表示させることができる。代替または追加として、システムは、数量が下限値よりも大きくかつ上限値よりも小さいと決定することに応答して、1つまたは複数のプロセスを休止させ得る。
【0047】
いくつかの実装形態では、システムは、数量が下限値以下であると決定することができる。それらの実装形態では、システムは、数量が下限値以下であると決定することに応答して、1つまたは複数の特定の構成要素に対して異常が検出されないと決定することができる。
【0048】
いくつかの実装形態では、システムは、数量が上限値以上であると決定することができる。これらの実装形態では、システムは、画像が1つまたは複数の特定の構成要素に対して異常を検出するのに適切であるかどうかを決定するために、画像の手動点検を推奨する通知を生成することができる。たとえば、視覚センサが過剰な光にさらされている間に画像がキャプチャされる場合、または画像が1つまたは複数の特定の構成要素の代わりに移動物体をキャプチャする場合、画像は、1つまたは複数の特定の構成要素に対する異常を含まないとして識別され得る。そのような画像は、随意に、N個の領域のいずれに対しても異常を示さない管理されたラベル付き出力とともに、MLモデルをさらに訓練するために使用され得る。随意に、システムは、視覚センサを介して追加の画像をキャプチャするために、モバイルロボットをさらに制御することができる。随意に、追加の画像が、異常検出に対して処理された画像と異なるポーズにおいてキャプチャされ得、異なるMLモデルが、異常が検出されるかどうかを確認するために、追加の画像を処理するために選択され得る。
【0049】
警報を表示させることを決定する代わりに、またはそれに加えて、システムは、1つまたは複数の他の修正行動を実行することができる。1つまたは複数の他の修正行動は、異常が検出される1つまたは複数の特定の構成要素を伴う産業プロセスなど、1つまたは複数の産業プロセス(たとえば、自動化プロセス)を休止または停止することを含むことができる。たとえば、システムは、第1の出力と第2の出力の両方に基づいて、産業用自動化施設内で、1つまたは複数の特定の構成要素を伴うプロセスを休止させることを決定することができる。
【0050】
いくつかの実装形態では、本明細書で説明される方法の少なくともいくつかの態様は、モバイルロボットから分離され、モバイルロボットに取り付けられない1つまたは複数のコンピューティングデバイスの1つまたは複数のプロセッサによって実行される。それらの実装形態のいくつかでは、画像は、モバイルロボットによってコンピューティングデバイスに送信され、モバイルロボットによって送信された後、コンピューティングデバイスによって識別される。
【0051】
図4は、本明細書で説明する技法の1つまたは複数の態様を実行するために随意に利用され得る例示的なコンピューティングデバイス410のブロック図である。コンピューティングデバイス410は、一般的に、バスサブシステム412を介していくつかの周辺デバイスと通信する少なくとも1つのプロセッサ414を含む。これらの周辺デバイスは、たとえば、メモリサブシステム425およびファイル記憶サブシステム426と、ユーザインターフェース出力デバイス420と、ユーザインターフェース入力デバイス422と、ネットワークインターフェースサブシステム416とを含む記憶サブシステム424を含むことができる。入力および出力デバイスは、コンピューティングデバイス410とのユーザ相互作用を可能にする。ネットワークインターフェースサブシステム416は、外部ネットワークへのインターフェースを提供し、他のコンピューティングデバイス内の対応するインターフェースデバイスに結合される。
【0052】
ユーザインターフェース出力デバイス422は、キーボード、マウス、トラックボール、タッチパッドまたはグラフィックタブレットなどのポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システム、マイクロフォンなどのオーディオ入力デバイス、および/または他のタイプの入力デバイスを含むことができる。一般に、「入力デバイス」という用語の使用は、情報をコンピューティングデバイス410内または通信ネットワーク上に入力するための、すべての可能なタイプのデバイスおよび方法を含むことが意図されている。
【0053】
ユーザインターフェース出力デバイス420は、ディスプレイサブシステム、プリンタ、ファックスマシン、またはオーディオ出力デバイスなどの非視覚的ディスプレイを含むことができる。ディスプレイサブシステムは、陰極線管(CRT)、液晶ディスプレイ(LCD)などのフラットパネルデバイス、投影デバイス、または可視画像を生成するためのいくつかの他のメカニズムを含むことができる。ディスプレイサブシステムは、オーディオ出力デバイスを介するなど、非視覚的ディスプレイも提供することができる。一般に、「出力デバイス」という用語の使用は、情報をコンピューティングデバイス410からユーザに、または別のマシンもしくはコンピューティングデバイスに出力するための、すべての可能なタイプのデバイスおよび方法を含むことが意図されている。
【0054】
記憶サブシステム424は、本明細書で説明するモジュールの一部または全部の機能を提供するプログラム構造およびデータ構造を記憶する。たとえば、記憶サブシステム424は、図1および図2に示される様々な構成要素を実装するためだけでなく、図3の方法の選択された態様を実行するための論理を含むことができる。
【0055】
これらのソフトウェアモジュールは、一般に、プロセッサ414によって単独で、または他のプロセッサとの組合せによって実行される。記憶サブシステム424内で使用されるメモリ425は、プログラム実行の間に命令およびデータを記憶するための主ランダムアクセスメモリ(RAM)430と、固定命令が記憶されるリードオンリーメモリ(ROM)432とを含むいくつかのメモリを含むことができる。ファイル記憶サブシステム426は、プログラムおよびデータファイルのための永続記憶装置を提供することができ、ハードディスクドライブ、関連する取り外し可能媒体を伴うフロッピーディスクドライブ、CD-ROMドライブ、光学式ドライブ、または取り外し可能媒体カートリッジを含むことができる。いくつかの実装形態の機能を実装するモジュールは、記憶サブシステム424内、またはプロセッサ414によってアクセス可能な他のマシン内のファイル記憶サブシステム426によって記憶され得る。
【0056】
バスサブシステム412は、コンピューティングデバイス410の様々な構成要素およびサブシステムが意図通りに互いに通信することを許容するためのメカニズムを提供する。バスシステム412は、単一のバスとして概略的に示されているが、バスサブシステムの代替実装形態は、複数のバスを使用することができる。
【0057】
コンピューティングデバイス410は、ワークステーション、サーバ、コンピューティングクラスタ、ブレードサーバ、サーバファーム、または任意の他のデータ処理システムもしくはコンピューティングデバイスを含む様々なタイプであり得る。コンピュータおよびネットワークの常に変化している性質に起因して、図4に示すコンピューティングデバイス410の説明は、いくつかの実装形態を示すための特定の例としてのみ意図されている。コンピューティングデバイス410の多くの他の構成は、図4に示すコンピューティングデバイスよりも多いまたは少ない構成要素を有することが可能である。
【0058】
いくつかの実装形態が本明細書において説明され、図示されたが、機能を実行するため、ならびに/あるいは結果および/または本明細書で説明する利点のうちの1つまたは複数を取得するための多様な他の手段および/または構造が利用され得、そのような変化形態および/または変更形態の各々は、本明細書で説明する実装形態の範囲内にあるものと見なされる。より一般的には、本明細書で説明するすべてのパラメータ、寸法、材料および構成は、模範例であること、ならびに実際のパラメータ、寸法、材料、および/または構成は、本教示が使用される特定の1つまたは複数の特定のアプリケーションに依存することを意図している。当業者は、ただの通常の実験を使用して、本明細書で説明する特定の実装形態に対する多くの同等物を認識するか、または究明することができるであろう。それゆえ、前述の実装形態は例としてのみ提示されていること、ならびに添付の特許請求の範囲およびその同等物の範囲内で、実装形態は、具体的に説明され、特許請求されるものと異なって実行され得ることを理解されたい。本開示の実装形態は、本明細書で説明するそれぞれの個々の特徴、システム、品目、材料、道具、および/または方法を対象とする。加えて、そのような特徴、システム、品目、材料、道具、および/または方法の2つ以上の任意の組合せは、そのような特徴、システム、品目、材料、道具、および/または方法が互いに矛盾していないならば、本開示の範囲内に含まれる。
【0059】
様々な実装形態では、方法は、1つまたは複数のプロセッサを使用して実装され得、モバイルロボットのカメラによってキャプチャされる画像を識別するステップを含むことができ、画像は、環境の1つまたは複数の特定の構成要素をキャプチャする。環境は、随意に、化学処理プラント、石油もしくは天然ガス精製所、触媒工場、製造施設、海上石油プラットフォーム、または任意の他の適用可能な産業環境など、任意の数の少なくとも部分的に自動化されたプロセスを実装する産業用自動化施設であり得る。モバイルロボットは、四足ロボット(たとえば、ロボット犬)、車輪付きロボット、無人航空機、または産業用自動化施設内を移動可能な任意の他の適用可能なロボットであり得る。カメラは、モノグラフRGBカメラ、ステレオカメラ、熱カメラ、または任意の他の適用可能な視覚センサであり得る。それに応じて、画像は、RGB画像、RGB-D画像、熱画像、またはm×n×c(m、n、cは1以上の正の整数である)の画像寸法を有する任意の他の適用可能な画像であり得る。
【0060】
様々な実装形態では、方法は、異常が領域内に存在する対応する確率を画像のN個の領域の各々に対して示す、削減された次元の出力を生成するために、訓練済み機械学習(ML)モデルを使用して画像を処理するステップをさらに含むことができ、Nは(m×n)よりも小さい正の整数である。非限定的な例として、画像は1024×768 RGB画像であり得、削減された次元の出力は、異常が9個の領域のそれぞれの領域内に存在する対応する確率を、画像の3×3 (=9)個の領域の各々に対して示すことができる。この非限定的な例では、削減された次元の出力は、たとえば、画像の第1の領域に対して検出される1つまたは複数の異常に対する第1の確率p1、画像の第2の領域に対して検出される1つまたは複数の異常に対する第2の確率p2、...、および画像の第16の領域に対して検出される1つまたは複数の異常に対する第16の確率p16を示すことができ、第1、第2、...、第16の領域は、ともに画像を形成する。
【0061】
非限定的な例として、削減された次元の出力は、行列内に配列される、第1、第2、...、および第16の確率を含むことができる。行列内の確率(たとえば、p2)のロケーションは、画像内のそれぞれの領域(たとえば、第2の領域)のロケーションに対応することができ、確率(たとえば、p2)が予測される。
【0062】
様々な実装形態では、方法は、削減された次元の出力に基づいて、各々がしきい値を満足する対応する確率の数量を決定するステップをさらに含むことができる。様々な実装形態では、方法は、数量が下限値よりも大きくかつ上限値よりも小さいかどうかを決定するステップをさらに含むことができる。上記の非限定的な例を継続すると、しきい値は約0.7であり得、削減された次元の出力は、p1=0.6、p2=0.8、p3=0.5、p4=0.75、p5=0.77、p6=0.82、p7=0.85、p8=0.5、p9=0.9、p10=0.65、p11=0.77、p12=0.58、p13=0.83、p14=0.3、p15=0.48、およびp16=0.28を示すことができる。この例では、各々がしきい値(たとえば、0.7)を満足する確率の数量は、8個(p2=0.8、p4=0.75、p5=0.77、p6=0.82、p7=0.85、p9=0.9、p11=0.77、およびp13=0.83)として決定され得る。下限値が「2」であるように事前に定義され、かつ上限値が「10」であるように事前に定義される場合、しきい値を満足する確率の数量(たとえば、8)は、下限値(たとえば、2)よりも大きいだけでなく、上限値(たとえば、10)よりも小さいと決定され得る。
【0063】
様々な実装形態では、方法は、数量が下限値よりも大きくかつ上限値よりも小さいと決定することに応答して、異常が1つまたは複数の特定の構成要素に対して存在することを示す警報を表示させるステップをさらに含むことができる。上記の非限定的な例を継続すると、16個の確率のうちの8個、2(「下限値」)<8<10(「上限値」)、がしきい値を満足すると決定することに応答して、1つまたは複数の特定の構成要素には異常があることを警告する警報が表示され得る。警報は、異常に直面する1つまたは複数の特定の構成要素を示すテキストメッセージ(たとえば、電子メール、テキストなど)、1つまたは複数の特定の構成要素に対する異常の存在/検出の信頼レベル、および/または異常が検出された時刻などであり得る。警報は、また、1つまたは複数の特定の構成要素に対して起こり得る異常の存在を通知するオーディオメッセージであり得る。数量が上限値よりも大きいかまたは下限値よもり小さい場合、警報は生成され得ない。たとえば、数量が上限値よりも大きい場合、画像がカメラによってキャプチャされているときに移動物体(たとえば、人)が存在して1つまたは複数の特定の構成要素を遮ること、あるいは画像がキャプチャされるときに過剰な光にさらされることなどの理由によって、画像が1つまたは複数の特定の構成要素を正確にまたは完全に反映しないなどの可能性が高い。数量が下限値よりも低い場合、異常が、1つまたは複数の特定の構成要素に対して存在しないと決定され得る。
【0064】
いくつかの実装形態では、警報を表示させると決定する代わりにもしくはそれに加えて、方法は、数量が下限値よりも大きくかつ上限値よりも小さいと決定することに応答して、環境内で1つまたは複数の特定の構成要素に関わる1つまたは複数のプロセスを休止させるステップを含むことができる。
【0065】
加えて、いくつかの実装形態は、モバイルロボットおよび/または1つまたは複数のコンピューティングデバイスの1つまたは複数のプロセッサを含み、1つまたは複数のプロセッサは、関連するメモリに記憶された命令を実行するように動作可能であり、命令は、本明細書で開示される方法のいずれかを実行させるように構成される。いくつかの実装形態は、追加または代替として、本明細書で開示される方法のいずれかを実行するために、1つまたは複数のプロセッサによって実行可能なコンピュータ命令を記憶する1つまたは複数の一時的もしくは非一時的コンピュータ可読記憶媒体を含む。
【0066】
いくつかの実装形態では、1つまたは複数のプロセッサと、命令を記憶するメモリとを含むシステムが提供され、命令は、1つまたは複数のプロセッサによる実行に応答して、1つまたは複数のプロセッサに、カメラが第1のポーズにおけるときにモバイルロボットのカメラによってキャプチャされる画像を識別することであって、画像はモバイルロボットの環境内で1つまたは複数の特定の構成要素をキャプチャする、ことと、異常が領域内に存在する対応する確率を画像のN個の領域の各々に対して示す、削減された次元の出力を生成するために、機械学習(ML)モデルを使用して画像を処理することと、各々がしきい値を満足する対応する確率の数量を、削減された次元の出力に基づいて決定することと、数量が下限値よりも大きくかつ上限値よりも小さいかどうかを決定することとを行わせる。
【0067】
様々な実装形態では、システムは、数量が下限値よりも大きくかつ上限値よりも小さいと決定することに応答して、異常が1つまたは複数の特定の構成要素に対して存在することを示す警報を表示させる命令をさらに含むことができる。様々な実装形態では、システムは、数量が下限値よりも大きくかつ上限値よりも小さいと決定することに応答して、1つまたは複数の特定の構成要素を利用する1つまたは複数のプロセスを休止させる命令をさらに含むことができる。
【0068】
いくつかの実装形態では、カメラと、命令を記憶し、かつ訓練済み機械学習(ML)モデルを記憶するメモリと、1つまたは複数のプロセッサとを含むモバイルロボットが提供される。プロセッサは、モバイルロボットが配備される環境の1つまたは複数の特定の構成要素をキャプチャする画像をカメラから受信することと、異常が画像のN個の領域のそれぞれの領域内に存在するかどうかを示す対応する確率を画像のN個の領域の各々に対して示す、削減された次元の出力をローカルに生成するために、訓練済みMLモデルを使用して画像を処理することと、各々がしきい値を満足する対応する確率の数量を削減された次元の出力に基づいて決定することと、数量が下限値よりも大きくかつ上限値よりも小さいかどうかを決定することと、数量が下限値よりも大きくかつ上限値よりも小さいと決定することに応答して、異常が1つまたは複数の特定の構成要素に対して存在することを示す警報を表示させるように、1つまたは複数の追加のコンピューティングデバイスと通信することとを行う命令を実行するように動作可能である。
【符号の説明】
【0069】
100 例示的な環境
101 モバイルロボット
102 チューブ
103-A クライアントデバイス、ローカルクライアントデバイス
103-B クライアントデバイス、ローカルクライアントデバイス
105 サーバコンピューティングデバイス
106 プロセス自動化ネットワーク
107 視覚警報
122-A ローカルクライアントデバイス
122-B ローカルクライアントデバイス
201 画像
211 訓練済みMLモデル
221 ML出力
410 コンピューティングデバイス
412 バスサブシステム
414 プロセッサ
416 ネットワークインターフェースサブシステム
420 ユーザインターフェース出力デバイス
422 ユーザインターフェース入力デバイス
424 記憶サブシステム
425 メモリサブシステム、メモリ
426 ファイル記憶サブシステム
430 主ランダムアクセスメモリ(RAM)
432 リードオンリーメモリ(ROM)
1011 視覚構成要素
1051 機械学習(ML)エンジン
1052 異常検出エンジン
1053 訓練済み機械学習(ML)モデル、MLモデル
1055 画像前処理エンジン
図1
図2
図3
図4
【外国語明細書】