特表2023-549632 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ユーアイパス，インコーポレイテッドの特許一覧

特表2023-549632人工知能／機械学習によるロボティックプロセスオートメーションのための異常検出および自己修復

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-11-29

(54)【発明の名称】人工知能／機械学習によるロボティックプロセスオートメーションのための異常検出および自己修復

(51)【国際特許分類】

G06F 16/903 20190101AFI20231121BHJP

G06N 20/00 20190101ALI20231121BHJP

G06N 3/08 20230101ALI20231121BHJP

G06T 7/00 20170101ALI20231121BHJP

G06F 3/048 20130101ALI20231121BHJP

【ＦＩ】

G06F16/903

G06N20/00

G06N3/08

G06T7/00 350B

G06T7/00 300F

G06F3/048

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023518987

(86)(22)【出願日】2021-10-05

(85)【翻訳文提出日】2023-05-15

(86)【国際出願番号】 US2021053504

(87)【国際公開番号】W WO2022081381

(87)【国際公開日】2022-04-21

(31)【優先権主張番号】17/070,250

(32)【優先日】2020-10-14

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＺＩＧＢＥＥ

２．ＢＬＵＥＴＯＯＴＨ

３．ＷＣＤＭＡ

(71)【出願人】

【識別番号】520262319

【氏名又は名称】ユーアイパス，インコーポレイテッド

【氏名又は名称原語表記】ＵｉＰａｔｈ，Ｉｎｃ．

【住所又は居所原語表記】１ＶａｎｄｅｒｂｉｌｔＡｖｅｎｕｅ，６０ｔｈＦｌｏｏｒ，ＮｅｗＹｏｒｋ，ＮＹ１００１７，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】110003487

【氏名又は名称】弁理士法人東海特許事務所

(72)【発明者】

【氏名】シング，プラブディープ

【テーマコード（参考）】

5B175

5E555

5L096

【Ｆターム（参考）】

5B175DA10

5B175HA01

5B175HB03

5E555AA67

5E555BA01

5E555BB01

5E555BC04

5E555CA02

5E555CA18

5E555CB02

5E555CB20

5E555CB33

5E555CC01

5E555CC05

5E555DB03

5E555DB41

5E555DC13

5E555DD01

5E555DD06

5E555EA02

5E555EA11

5E555EA19

5E555EA27

5E555FA00

5L096AA06

5L096BA05

5L096CA01

5L096DA01

5L096GA41

5L096HA11

(57)【要約】

人工知能（ＡＩ）／機械学習（ＭＬ）を介したロボティックプロセスオートメーション（ＲＰＡ）のための異常検出および自己修復が開示される。ＡＩ／ＭＬモデルおよびコンピュータビジョン（ＣＶ）を利用するＲＰＡロボットは、通常の学習されたインタラクションを介して、ほとんどの遭遇したグラフィカル要素を解釈および／またはインタラクションし得る。しかし、そのようなＲＰＡロボットは、グラフィカル要素を特定できないおよび／または通常のインタラクションが機能しない、新しい、取り扱いできない異常に時折遭遇し得る。そのような異常は、異常ハンドラによって処理され得る。ＲＰＡロボットは、異常に対処する情報を自動的に見つけようとする自己修復機能を有し得る。

【特許請求の範囲】

【請求項1】

ＲＰＡロボットによって、人工知能（ＡＩ）／機械学習（ＭＬ）モデルを使用してユーザーインターフェース（ＵＩ）オートメーションを実行するロボティックプロセスオートメーション（ＲＰＡ）ワークフローを遂行することと、
前記ＲＰＡロボットによって、前記ＡＩ／ＭＬモデルを使用して、前記ＲＰＡワークフローのアクティビティによってインタラクションされる前記ＵＩ内のターゲットグラフィカル要素を検索することと、
前記ＡＩ／ＭＬモデルによって前記ターゲットグラフィカル要素が一意に見つからない場合またはそれとインタラクションできない場合、前記ＲＰＡロボットまたは前記ＡＩ／ＭＬモデルによって、異常の修正を自動的に試みることと、を有する、コンピュータ実装方法。

【請求項2】

前記異常を修正する自動的な試みは、１または複数の特徴が、前記ターゲットグラフィカル要素を他の同様のグラフィカル要素と区別するかどうかを決定することを含む、請求項１に記載のコンピュータ実装方法。

【請求項3】

前記１または複数の特徴が前記ターゲットグラフィカル要素を前記他の同様のグラフィカル要素から区別するかどうかを決定することは、半径内で前記ターゲットグラフィカル要素を囲むグラフィカル要素を分析すること、前記ＵＩ内の前記グラフィカル要素の順序を利用すること、前記ターゲットグラフィカル要素が１または複数の異なる視覚特性を有するかどうかを決定すること、あるいはそれらの組み合わせを含む、請求項２に記載のコンピュータ実装方法。

【請求項4】

前記異常を修正する自動的な試みは、前記ＵＩの視覚的特性を変更すること、および変更された前記視覚的特性を使用して前記ＵＩ内の前記ターゲットグラフィカル要素を検索することを含む、請求項１に記載のコンピュータ実装方法。

【請求項5】

前記異常を修正する自動的な試みは、デフォルトのアクションを取ることを含む、請求項１に記載のコンピュータ実装方法。

【請求項6】

前記デフォルトのアクションは、前記ターゲットグラフィカル要素とのインタラクションを可能にする１または複数のＵＩ記述子についてＵＩオブジェクトライブラリまたはＵＩオブジェクトリポジトリを検索することを含む、請求項５に記載のコンピュータ実装方法。

【請求項7】

前記異常を修正する自動的な試みが成功したとき、前記方法はさらに、
前記ＲＰＡロボットによって、前記ＡＩ／ＭＬモデルのその後の再訓練のための自動修正に関連するデータを提供することを含む、請求項１に記載のコンピュータ実装方法。

【請求項8】

前記異常を修正する自動的な試みが成功しなかったとき、前記方法はさらに、
前記ＲＰＡロボットによって、前記ターゲットグラフィカル要素を特定するソリューション、前記ターゲットグラフィカル要素とインタラクションする方法、またはその両方をユーザーに促すことを含む、請求項１に記載のコンピュータ実装方法。

【請求項9】

前記ユーザーによって提供されたガイダンスが、前記ＲＰＡロボットが前記ターゲットグラフィカル要素とインタラクションすることを可能にすることに成功したとき、前記方法はさらに、
前記ＲＰＡロボットによって、前記ＡＩ／ＭＬモデルのその後の再訓練のためのユーザーソリューションに関するデータを提供することを含む、請求項８に記載のコンピュータ実装方法。

【請求項10】

前記ユーザーによって提供されたガイダンスが、前記ＲＰＡロボットが前記ターゲットグラフィカル要素とインタラクションすることを可能にすることに成功しておらず、かつ前記ターゲットグラフィカル要素が前記ＲＰＡワークフローの全体タスクを完了するために必要でない場合、前記方法はさらに、
前記ＲＰＡロボットによって、前記ＲＰＡワークフローの遂行を継続することを試みることを含む、請求項８に記載のコンピュータ実装方法。

【請求項11】

前記異常を修正する自動的な試みは、
前記ＲＰＡロボットまたは前記ＡＩ／ＭＬモデルによって、ユーザー入力なしで欠損データを補完する自己修復プロセスを試みることを含む、請求項１に記載のコンピュータ実装方法。

【請求項12】

前記ＲＰＡロボットまたは前記ＡＩ／ＭＬモデルは、１または複数のパフォーマンスメトリックスが前記自己修復プロセスに応答して改善するかどうかを監視することによって、前記自己修復プロセスが成功したかどうかを決定するように構成される、請求項１１に記載のコンピュータ実装方法。

【請求項13】

前記自己修復プロセスが成功しなかったとき、前記方法はさらに、
１または複数の異なる技術を試み、前記１または複数の異なる技術が前記１または複数のパフォーマンスメトリックを改善するかどうかを監視することを含む、請求項１１に記載のコンピュータ実装方法。

【請求項14】

前記自己修復プロセスは、
前記異常に対する提案されたソリューションを提供するために複数のユーザーにポーリングすることと、
１または複数のパフォーマンスメトリックスに基づく前記提案されたソリューションのうち最も最適なソリューションを選択することとを含む、請求項１１に記載のコンピュータ実装方法。

【請求項15】

ユーザー入力なしに前記欠損データを補完する前記自己修復プロセスの前記試みは、強化学習における探索段階を使用することを含む、請求項１１に記載のコンピュータ実装方法。

【請求項16】

コンピュータプログラムを格納した非一時的なコンピュータ読み取り可能な媒体であって、前記コンピュータプログラムは、少なくとも１つのプロセッサが、
人工知能（ＡＩ）／機械学習（ＭＬ）モデルを使用してユーザーインターフェース（ＵＩ）オートメーションを実行するロボティックプロセスオートメーション（ＲＰＡ）ワークフローを遂行し、
前記ＡＩ／ＭＬモデルを使用して前記ＲＰＡワークフローのアクティビティによってインタラクションされる前記ＵＩ内のターゲットグラフィカル要素を検索し、
前記ＡＩ／ＭＬモデルによって前記ターゲットグラフィカル要素が一意に見つからない場合またはそれとインタラクションできない場合、異常の修正を自動的に試みるように構成される、非一時的なコンピュータ読み取り可能な媒体。

【請求項17】

前記異常を修正する自動的な試みは、半径内で前記ターゲットグラフィカル要素を取り囲むグラフィカル要素を分析すること、前記ＵＩにおける前記グラフィカル要素の順序を利用すること、前記ターゲットグラフィカル要素が１または複数の異なる視覚特性を有するかどうかを決定すること、前記ＵＩの視覚特性を変更し、変更した前記視覚特性を用いて前記ＵＩにおいて前記ターゲットグラフィカル要素を検索すること、あるいはこれらの組み合わせを含む、請求項１６に記載の非一時的なコンピュータ読み取り可能な媒体。

【請求項18】

前記異常を修正する自動的な試みが成功したとき、前記コンピュータプログラムは、前記少なくとも１つのプロセッサが、前記ＡＩ／ＭＬモデルのその後の再訓練のために自動修正に関するデータを提供させるようにさらに構成され、
前記異常を修正する自動的な試みが成功しない場合、前記コンピュータプログラムは、前記少なくとも１つのプロセッサが、前記ターゲットグラフィカル要素を特定するためのソリューション、前記ターゲットグラフィカル要素とインタラクションする方法、またはその両方をユーザーに促すようにさらに構成される、請求項１６に記載の非一時的なコンピュータ読み取り可能な媒体。

【請求項19】

前記ユーザーによって提供されたガイダンスが、前記コンピュータプログラムが前記ターゲットグラフィカル要素とインタラクションすることを可能にすることに成功したとき、前記コンピュータプログラムは、前記少なくとも１つのプロセッサが、前記ＡＩ／ＭＬモデルのその後の再訓練のためのユーザーソリューションに関するデータを提供するようにさらに構成され、
前記ユーザーによって提供された前記ガイダンスが、前記コンピュータプログラムが前記ターゲットグラフィカル要素とインタラクションすることを可能にすることに成功せず、前記ターゲットグラフィカル要素が前記ＲＰＡワークフローの全体タスクを完了するのに必要でないとき、前記コンピュータプログラムは、前記少なくとも１つのプロセッサが、前記ＲＰＡワークフローの遂行を継続しようと試みるようにさらに構成される、請求項１８に記載の非一時的なコンピュータ読み取り可能な媒体。

【請求項20】

前記異常を修正する自動的な試みは、ユーザー入力なしに欠損したデータを補完する自己修復プロセスを試みることを含む、請求項１６に記載の非一時的なコンピュータ読み取り可能な媒体。

【請求項21】

コンピュータプログラム命令を格納するメモリと、
前記コンピュータプログラム命令を遂行するように構成された少なくとも１つのプロセッサとを含むシステムであって、前記コンピュータプログラム命令は、前記少なくとも１つのプロセッサが、
ＲＰＡロボットによって、人工知能（ＡＩ）／機械学習（ＭＬ）モデルを使用してユーザーインターフェース（ＵＩ）オートメーションを実行するロボティックプロセスオートメーション（ＲＰＡ）ワークフローを遂行し、
前記ＲＰＡロボットによって、前記ＡＩ／ＭＬモデルを使用して、前記ＲＰＡワークフローのアクティビティによってインタラクションされる前記ＵＩ内のターゲットグラフィカル要素を検索し、
前記ＡＩ／ＭＬモデルによって前記ターゲットグラフィカル要素が一意に見つからない場合またはそれとインタラクションできない場合、前記ＲＰＡロボットまたは前記ＡＩ／ＭＬモデルによって、異常の修正を自動的に試みるように構成され、
前記異常を修正する自動的な試みは、１または複数の特徴が前記ターゲットグラフィカル要素を他の同様のグラフィカル要素から区別するかどうかを決定すること、ユーザー入力なしで欠損データを補完する自己修復プロセスを試みること、あるいはその両方を含む、コンピューティングシステム。

【請求項22】

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願への相互参照）
これは、２０２０年１０月１４日に出願された米国特許出願第１７／０７０，２５０号の利益およびその優先権を主張する国際出願である。先に提出された本出願の主題は、その全体を参照することにより、本明細書に組み込まれる。

【0002】

本発明は概して、ユーザーインターフェース（ＵＩ）オートメーションに関し、より具体的には、人工知能（ＡＩ）／機械学習（ＭＬ）を介したロボティックプロセスオートメーション（ＲＰＡ）の異常検出および自己修復に関する。

【背景技術】

【0003】

現在、ＲＰＡでは実行時（例えば、本番環境など）に異常が発生した場合、問題の原因を分析し、ＲＰＡ開発者が分析に基づきプログラムによるソリューションを提供する。しかし、このプロセスは時間とコストがかかる傾向がある。したがって、改良されたアプローチが有益であり得る。

【発明の概要】

【0004】

本発明の特定の実施形態は、現在のＵＩオートメーション技術によってまだ十分に特定されていない、評価されていない、または解決されていない本分野における問題およびニーズのソリューションを提供し得る。例えば、本発明のいくつかの実施形態は、ＡＩ／ＭＬを介したＲＰＡの異常検出および自己修復に関する。

【0005】

実施形態では、コンピュータ実装方法は、ＲＰＡロボットによって、ＡＩ／ＭＬモデルを使用して、ＵＩオートメーションを実行するＲＰＡワークフローを遂行することを含む。コンピュータ実装方法はまた、ＲＰＡロボットによって、ＡＩ／ＭＬモデルを使用して、ＲＰＡワークフローのアクティビティによってインタラクションされるＵＩ内のターゲットグラフィカル要素を検索することを含む。ＡＩ／ＭＬモデルによってターゲットグラフィカル要素が一意に見つからない場合またはそれとインタラクションできない場合、コンピュータ実装方法はさらに、ＲＰＡロボットまたはＡＩ／ＭＬモデルによって、異常の修正を自動的に試みることを含む。

【0006】

別の実施形態では、非一時的なコンピュータ読み取り可能な媒体は、コンピュータプログラムを格納する。コンピュータプログラムは、少なくとも１つのプロセッサが、ＡＩ／ＭＬモデルを使用して、ＵＩオートメーションを実行するＲＰＡワークフローを遂行するように構成される。ＡＩ／ＭＬモデルを使用して、コンピュータプログラムはまた、少なくとも１つのプロセッサが、ＲＰＡワークフローのアクティビティによってインタラクションされるＵＩ内のターゲットグラフィカル要素を検索するように構成される。ＡＩ／ＭＬモデルによってターゲットグラフィカル要素が一意に見つからない場合またはそれとインタラクションできない場合、コンピュータプログラムは、少なくとも１つのプロセッサが、異常の修正を自動的に試みるようにさらに構成される。

【0007】

さらに別の実施形態では、コンピューティングシステムは、コンピュータプログラム命令を格納するメモリと、コンピュータプログラム命令を遂行するように構成された少なくとも１つのプロセッサとを含む。コンピュータプログラム命令は、少なくとも１つのプロセッサが、ＲＰＡロボットによって、ＡＩ／ＭＬモデルを使用してＵＩオートメーションを実行するＲＰＡワークフローを遂行するように構成される。ＡＩ／ＭＬモデルを使用して、コンピュータプログラム命令はまた、少なくとも１つのプロセッサが、ＲＰＡロボットによって、ＲＰＡワークフローのアクティビティによってインタラクションされるＵＩ内のターゲットグラフィカル要素を検索するように構成される。ＡＩ／ＭＬモデルによってターゲットグラフィカル要素が一意に見つからない場合またはそれとインタラクションできない場合、コンピュータプログラム命令はさらに、少なくとも１つのプロセッサが、ＲＰＡロボットまたはＡＩ／ＭＬモデルによって、異常の修正を自動的に試みるように構成される。異常を修正する自動的な試みは、１または複数の特徴がターゲットグラフィカル要素を他の同様のグラフィカル要素から区別するかどうかを決定すること、ユーザー入力なしで欠損データを補完する自己修復プロセスを試みること、あるいはその両方を含む。

【図面の簡単な説明】

【0008】

本発明の特定の実施形態の利点が容易に理解されるように、上記で簡単に説明した本発明のより特定の説明は、添付の図面に図示されている特定の実施形態を参照して描写される。これらの図面は、本発明の典型的な実施形態のみを描いており、したがって、その範囲を限定するものとは考えられないことが理解されるべきであるが、本発明は、以下の添付の図面を使用することにより、さらなる特定および詳細をもって描写され、説明されるであろう。

【0009】

【図1】本発明の実施形態による、ロボティックプロセスオートメーション（ＲＰＡ）システムを示すアーキテクチャ図である。

【0010】

【図2】本発明の実施形態による、展開したＲＰＡシステムを示すアーキテクチャ図である。

【0011】

【図3】本発明の実施形態による、デザイナ、アクティビティ、およびドライバの間の関係を示すアーキテクチャ図である。

【0012】

【図4】本発明の実施形態による、ＲＰＡシステムを示すアーキテクチャ図である。

【0013】

【図5】本発明の実施形態による、ＡＩ／ＭＬを介してＲＰＡの異常検出および自己修復を実行するように構成されたコンピューティングシステムを示すアーキテクチャ図である。

【0014】

【図6】本発明の実施形態による、ＡＩ／ＭＬを介してＲＰＡの異常検出および自己修復を実行するように構成されたシステムを示すアーキテクチャ図である。

【0015】

【図7】本発明の実施形態による、ＡＩ／ＭＬを介してＲＰＡの異常検出および自己修復を実行するためのプロセスを示すフローチャートである。

【発明を実施するための形態】

【0016】

別段の記載がない限り、類似の参照文字は、添付の図面全体で一貫して対応する特徴を示す。

【0017】

（実施形態の詳細な説明）
いくつかの実施形態は、ＡＩ／ＭＬを介したＲＰＡの異常検出および自己修復に関する。ＡＩ／ＭＬモデルおよびコンピュータビジョン（ＣＶ）を利用するＲＰＡロボットは、通常の学習されたインタラクションを介して、ＵＩにおけるほとんどの遭遇したグラフィカル要素を解釈および／またはインタラクションし得る。しかし、そのようなＲＰＡロボットは、グラフィカル要素を特定できないおよび／または通常のインタラクションが機能しない、新しい、取り扱いできない異常に時折遭遇し得る。そのような異常は、いくつかの実施形態では、ＲＰＡロボットまたはＡＩ／ＭＬモデルの異常ハンドラによって処理され得る。

【0018】

画面上に複数の送信ボタンが表示され、ＡＩ／ＭＬモデルがそれ自体でどのボタンをクリックすればいいのか決定できないなどの異常が発生した場合、異常ハンドラはこれらのグラフィカル要素を互いに区別する何かがあるかどうかを決定しようとし得る。これは、ある半径内でターゲットグラフィカル要素（複数可）を囲むグラフィカル要素を見る、画面上のグラフィカル要素の順序を見る、ターゲットグラフィカル要素を他の同様のグラフィカル要素から視覚的に区別するものがあるかどうかを決定しようとするなどを含み得るが、これらに限定されない。いくつかの実施形態では、画面の上部または下部に最も近い位置に現れるグラフィカル要素を自動的に選択するなど、デフォルトのアクションが取られ得る。

【0019】

いくつかの実施形態では、デフォルトのアクションは、ＲＰＡロボットまたはＡＩ／ＭＬモデルがターゲットグラフィカル要素とインタラクションすることを可能にするＵＩ記述子を、ＵＩオブジェクトを含むＵＩオブジェクトライブラリまたはＵＩオブジェクトライブラリのＵＩオブジェクトリポジトリで検索することであり得る。画面上のＵＩ要素（例えば、テキストフィールド、ボタン、ラベル、メニュー、チェックボックスなど）は、アプリケーション、アプリケーションバージョン、アプリケーション画面、およびＵＩ要素の収集によってグループ化され得、各画面は複数のＵＩ要素を有する。本明細書で使用されるように、「画面」とは、ある時点でのアプリケーションＵＩまたはアプリケーションＵＩの一部の画像である（例えば、スクリーンショット）。実行中のＵＩオートメーションの場合、画面は、コンピューティングシステムの現在のＵＩであってもよい。「アプリケーション」または所定のアプリケーションのバージョンは、このコンテキストにおける画面の結合であってもよいし、または実行時の実行中のアプリケーションであってもよい。各ＵＩ要素は、いくつかの実施形態では、１または複数のＵＩ記述子によって記述され得る。ＵＩ要素、ＵＩ記述子、アプリケーション、およびアプリケーション画面は、ＵＩオブジェクトである。いくつかの実施形態では、ＵＩ要素および画面は、特定のタイプのＵＩ要素（例えば、ボタン、チェックボックス、テキストフィールドなど）および画面（例えば、トップウィンドウ、モーダルウィンドウ、ポップアップウィンドウなど）にさらに区別されてもよい。

【0020】

ＵＩオブジェクトライブラリは、いくつかの実施形態では、ＵＩオブジェクトリポジトリに格納されてもよい。本明細書で使用される場合、ＵＩオブジェクトリポジトリは、ＵＩオブジェクトライブラリの収集である。いくつかの実施形態では、ＵＩオブジェクトリポジトリは、ＮｕＧｅｔ（商標）フィード、ウェブサービスなどであってもよい。いくつかの実施形態におけるＵＩオブジェクトライブラリのＵＩオブジェクトリポジトリは、プロジェクトにおけるＵＩ記述子の管理、再利用、および信頼性の向上を容易にし得る。いくつかの実施形態では、ＵＩ記述子はＵＩライブラリに追加され、ＵＩオブジェクトリポジトリでグローバルに再利用するために公開または再公開され得る。

【0021】

ＵＩオブジェクトを再利用可能にするために、ＲＰＡ処理で参照可能なＵＩオブジェクトライブラリに抽出され得る。例えば、アプリケーションの新しいバージョンが原因でセレクタまたは他のＵＩ記述子が修正された場合、ＵＩオブジェクトライブラリは、修正されたＵＩ記述子を含めるために再作製（または再公開）され得る。次いで、ＵＩオブジェクトライブラリを使用するＲＰＡプロセスは、修正されたＵＩ記述子のバージョンを呼び出し得る。新しいライブラリに関連する新しいアプリケーションプログラミングインターフェース（ＡＰＩ）への参照は、開発者がＲＰＡプロセスのために手動で修正することも、ソフトウェアツール（例えば、ＲＰＡプロセスを経て、セレクタまたはその他のコンポーネントが変更されたときにＵＩ記述子参照を更新するツール）を介して修正することも、またはいくつかの実施形態では自動的に修正することもできる。

【0022】

いくつかの実施形態では、ＵＩオブジェクトのパッケージが依存関係として添付され得る（例えば、ＮｕＧｅｔ（商標）パッケージ）。しかしながら、特定の実施形態では、ＵＩオブジェクトは、ウェブサービスへの１または複数のＡＰＩ呼び出しを介して取得され得る。これにより、ＵＩオブジェクトをリモートで格納し、自動化の間に取得して使用し得る。

【0023】

ＵＩオブジェクトライブラリに追加されたＵＩ要素は、ＲＰＡワークフローで使用するセレクタを表し得る。ＵＩでの特定のアクションを自動化するために、ＲＰＡロボットは、さまざまなウィンドウ、ボタン、ドロップダウンリスト、および／またはその他のグラフィカル要素とインタラクションし得る。従来、これは、ＵＩ要素の予想される画面位置を使用して行われる。しかし、これは信頼できない。

【0024】

いくつかの実施形態は、ＵＩ要素およびその親の属性をＸＭＬフラグメントに格納することで、固定座標特定に関連する問題を克服するセレクタを使用する。ＵＩが静的であるいくつかの実施形態では、セレクタは自動的に生成されてもよいが、いくつかのウェブアプリケーションなどのいくつかのソフトウェアプログラムでは、レイアウトが変化し、揮発性値を有する属性ノードが存在する。これらの変更は容易に予測できない場合があり、これは以前はいくつかのセレクタを手動で生成することを要求した。しかし、いくつかの実施形態では、例えば、他のタイプのＵＩ記述子を使用することによって、この問題を克服し得る。

【0025】

セレクタは、いくつかの実施形態においてＵＩ要素を検出するために使用され得るＵＩ記述子のタイプである。セレクタは、いくつかの実施形態では、以下の構造を有する。
＜ｎｏｄｅ＿１／＞＜ｎｏｄｅ＿２／＞．．．＜ｎｏｄｅ＿Ｎ／＞

【0026】

最後のノードは対象のＧＵＩ要素を表し、それ以前の全てのノードはその要素の親を表す。＜ｎｏｄｅ＿１＞は通常ルートノードと呼ばれアプリケーションのトップウィンドウを表す。

【0027】

各ノードは、選択されたアプリケーションの特定のレベルの正しい特定を支援する１または複数の属性を有してもよい。各ノードは、いくつかの実施形態では、以下の形式を有する。
＜ｕｉ＿ｓｙｓｔｅｍａｔｔｒ＿ｎａｍｅ＿１＝’ａｔｔｒ＿ｖａｌｕｅ＿１’．．．ａｔｔｒ＿ｎａｍｅ＿Ｎ＝’ａｔｔｒ＿ｖａｌｕｅ＿Ｎ’／＞

【0028】

全ての属性は、割り当てられた値を有し得、一定の値を有する属性が選択され得る。これは、アプリケーションが起動するたびに属性の値を変更すると、セレクタが関連する要素を正しく特定できなくなる可能性があるからである。

【0029】

ＵＩオブジェクトライブラリ記述子は、ＲＰＡワークフローアクティビティに直接追加され得、さもなくばアクティビティ用のカスタムセレクタを作製するために必要とされ得る開発者の時間を節約する。オブジェクトライブラリは、アプリケーションの特定のバージョンから１または複数の画面に対応するＵＩ記述子の収集として本明細書で定義される。ＵＩ記述子とは、ＵＩ要素を見つけるための命令のセットである。いくつかの実施形態におけるＵＩ記述子は、ＵＩ要素セレクタ（複数可）、アンカーセレクタ（複数可）、コンピュータビジョン（ＣＶ）記述子（複数可）、統合されたターゲット記述子（複数可）、画面イメージキャプチャ（コンテキスト）、要素イメージキャプチャ、他のメタデータ（例えば、アプリケーションおよびアプリケーションバージョン）、それらの組み合わせなどを含むカプセル化されたデータ／構造フォーマットである。カプセル化されたデータ／構造フォーマットは、プラットフォームへの将来のアップデートによって拡張可能であってもよく、上記の定義に限定されるものではない。画面上のＵＩ要素を特定するためのＵＩ記述子としては、本発明の範囲を逸脱することなく、任意の好適なものを使用することができる。統合されたターゲット記述子は、複数のタイプのＵＩ記述子を連結する。統合されたターゲット記述子は、有限状態機械（ＦＳＭ）のように機能し得、第１のコンテキストでは、第１のＵＩ記述子メカニズムが適用され、第２のコンテキストでは、第２のＵＩ記述子が適用される、などである。

【0030】

従来、セレクタを信頼できるものにするためには、テスト、固有のセレクタの詳細の理解などが必要である。これにより、技術的な知識のない個人にとって、セレクタの作成／改良は困難または不可能になる。一般的なＵＩ要素およびタスクのための作業セレクタのライブラリを提供することによって、いくつかの実施形態は、非技術者個人による生産で機能する自動化の開発を可能にする。ユーザーは、自動化するアプリケーションのバージョンの画面を指定でき、ＲＰＡ開発アプリケーションはその画面をフェッチし得る。次に、ユーザーは画面とインタラクションして、彼または彼女がしたいことを定義し得る。

【0031】

いくつかの実施形態では、新しいＵＩ記述子が作成され、および／または既存のＵＩ記述子が修正されると、共有可能で、共同的で、かつ潜在的にオープンソースであるＵＩオブジェクトライブラリのグローバルデータベースが構築され得る。特定の実施形態では、タクソノミおよびオントロジーが使用され得る。アプリケーション、バージョン、画面、ＵＩ要素、記述子などは、サブカテゴリの階層構造であるタクソノミとして定義され得る。

【0032】

しかし、現実世界の概念の多くは、タクソノミ的組織化には容易に役立たない。むしろ、それらは数学的オントロジーの概念に近いかもしれない。オントロジーでは、カテゴリ間の関係は必ずしも階層的ではない。例えば、画面上のボタンをクリックするとユーザーが別の画面に移動する場合、次の画面は階層にないため、その画面のタクソノミでは容易にキャプチャでされ得ない。いくつかの実施形態では、同じ画面または異なる画面上のＵＩ要素間のインタラクションが収容され得、ＵＩ要素が、潜在的に異なる画面上で互いにどのように関係するかに関する情報が提供され得る。

【0033】

ＯＫボタンをクリックすると従業員画面が表示される例を考えてみる。オントロジー構造により、デザイナアプリケーションは、ユーザーが次の画面で従業員をフィルタリングすることを提案し得る。ＯＫボタンを介したこれらの画面間の関係のオントロジー情報により、デザイナアプリケーションはこれを行うことができる。必ずしもツリーではなく、アプリケーションが実際に行っていることに関連するグラフィカル構造を定義することで、より複雑で豊富な関係が捉えられ得る。

【0034】

ＲＰＡワークフロー内のアクティビティからＵＩ記述子が抽出され、ＵＩアプリケーション、画面、およびＵＩ要素ごとにＵＩ記述子をグループ化する構造化スキーマに追加され得る。ＵＩ記述子は、いくつかの実施形態では、広く再利用するための１つのプロジェクトの一部、テスト目的のためのグローバルリポジトリの一部、またはグローバルなプロジェクト間共有のためのＵＩオブジェクトライブラリの一部とし得る。いくつかの実施形態におけるオブジェクトライブラリは、アプリケーション、アプリケーションバージョン、および画面によってグループ化されたＵＩ記述子のカプセル化である。ＵＩ記述子が定義され、オブジェクトライブラリに追加され得、これは、いくつかの実施形態では、公開後に依存物として他のプロジェクトにインストールされ得る。これにより、ＵＩ記述子のオブジェクトライブラリは、再利用が可能になる。いくつかの実施形態におけるＵＩアプリケーションは、各バージョンが複数の画面を有する複数のバージョンを有するターゲットアプリケーションである。

【0035】

ＵＩオブジェクトリポジトリとＵＩ記述子の再利用は、さまざまな理由で有益であり得る。例えば、アプリケーション内のＵＩ要素の位置、外観、および／または機能が変更された場合、ＵＩ記述子が変更され得、その変更は、次いでＵＩ記述子を使用するアクティビティに伝搬され得る。このように、再利用性は、ＵＩにおけるグラフィカル要素の特定のレベルで提供され得る。

【0036】

これは、アプリケーションの新しいバージョンに対応するために、特に有益であり得る。新バージョンの場合、ソフトウェア開発者は、ＵＩ記述子を更新し、および／または少数の新しいセレクタを一から開発する必要があるだけでよく、開発時間を大幅に短縮することができる。例えば、ウェブページの場合、ハイパーテキストマークアップ言語（ＨＴＭＬ）が検査されて、対応するセレクタのためのＵＩ要素へのパスを取得し得る。対応するＵＩ要素のセレクタは、異なるウェブブラウザおよび／または同じウェブブラウザの異なるバージョンで異なる場合がある。この概念はまた、ビジュアルデスクトップ、サーバー、スマートフォン、およびタブレットのアプリケーションに適用されてもよい。ＵＩオブジェクトライブラリは、アプリケーションのための実際のセレクタを含むことができ、これは、上記のとおり、ＵＩ記述子の１つのタイプに過ぎない。ＵＩオブジェクトライブラリは、１または複数のアプリケーションのために、異なるタイプの複数のＵＩ記述子を持ち得る。ＵＩ記述子は、アプリケーションが構築された異なる技術を参照し得る。例えば、スタンドアロンのデスクトップ、ウェブ、およびモバイルアプリケーションのために、異なるＵＩ記述子が作製され、使用され得る。ある技術では、あなたはセレクタを使用したい場合があり、別ではあなたはＣＶ記述子を使用したい場合などがある。

【0037】

ＵＩ記述子は、いくつかの実施形態では、画像の検出および定義が実行される全てのＵＩ検出メカニズムを包含する統合されたターゲットと協働してもよい。統合されたターゲットは、ＵＩ要素を特定して自動化する複数の技術を、単一のまとまりのあるアプローチに併合してもよい。統合されたターゲットは、セレクタベースおよびドライバベースのＵＩ検出メカニズムを優先し、ＣＶにフォールバックして、最初の２つのメカニズムが成功しない場合に画像を見つけ得る。いくつかの実施形態では、統合されたターゲットを支持するようにセレクタエディタおよびＵＩエクスプローラが構成され得る。

【0038】

オブジェクトライブラリの構造例を以下に示す。
・ＳＡＰ
・バージョン１
・画面１
・オブジェクト１
・オブジェクト２
・…
・画面２…
・…
・バージョン２…
・…
・セールスフォース…
・…

【0039】

上記の階層は、例としてのみ提供されていることに留意されたい。本発明の範囲から逸脱することなく、階層内の任意の所望の数のレベルおよび各レベルに関連する要素が使用され得る。特定の実施形態では、ユーザーは、アプリケーションマップを彼または彼女が所望するように定義し得る。さらに、ツリー内のいくつかのノードは、いくつかの実施形態では、管理的な役割のみを果たし、機能的な役割は果たさないかもしれない。例えば、ＵＩ要素は、ＵＩ記述子を持たないコンテナに一緒にグループ化され得る。コンテナは、いくつかの実施形態では、グループ化の目的だけのために存在し得る。

【0040】

ＵＩオブジェクトライブラリおよび／またはＵＩオブジェクトリポジトリを利用するために、ターゲットグラフィカル要素を特定できない場合、いくつかの実施形態のＲＰＡロボットまたはＡＩ／ＭＬモデルは、ターゲットグラフィカル要素とインタラクションできるかもしれないＵＩ記述子についてＵＩオブジェクトライブラリまたはＵＩオブジェクトライブラリのリポジトリを検索することをデフォルトとする。例えば、ＲＰＡロボットまたはＡＩ／ＭＬモデルは、同じ名前を持つＵＩ記述子、同じまたは類似の属性を持つＵＩ記述子、同じターゲットアプリケーションであるが異なるバージョンを持つＵＩ記述子などを探すことができる。そのようなＵＩ記述子（複数可）が見つかった場合、それらは自動的にＲＰＡロボットまたはＡＩ／ＭＬモデルによって試行され得る。ターゲットグラフィカル要素とのインタラクションに成功した場合、ＲＰＡロボットまたはＡＩ／ＭＬモデルは、以前に試されたＵＩ記述子に加えまたは代わりに、成功したＵＩ記述子を将来使用するように修正され得る。ＵＩオブジェクトライブラリまたはＵＩオブジェクトリポジトリは、それらを検索するＲＰＡロボットまたはＡＩ／ＭＬモデルに対してローカルまたはリモートであり得る。

【0041】

異常ハンドラによってターゲットグラフィカル要素を特定できない場合、および／またはデフォルトのアクションが失敗する場合、ＲＰＡロボットは例外を体良く処理し得る。例えば、ターゲットグラフィカル要素が十分な精度でタスク全体を完了するために必要でない場合、異常ハンドラは、ＲＰＡロボットにそのワークフローの遂行を継続させ、進めるかどうかに関してユーザーに促し、将来的に異常に対処するために使用するラベル付き訓練データを要求するなどさせ得る。このような異常ハンドリングは、ＡＩ／ＭＬモデルを、実行時の現実世界の差異および変化に対してより頑健にし得る。これは、アプリケーションの新しいバージョンがリリースされたとき、異なるブラウザの設定に遭遇したときなどに発生し得る。

【0042】

いくつかの実施形態では、ＲＰＡロボットおよび／またはＡＩ／ＭＬモデルが、ユーザー入力なしに異常からの欠損データを補完しようとするような自己修復機能が提供され得る。ＲＰＡ開発者は、ＡＩ／ＭＬモデルの変数に特定の入力を行う、データベースからデータを引き出す、などしてもよい。いくつかの実施形態では、ＡＩツールが、人間の設計時間なしにこのコードを生成するために使用され得る。

【0043】

自己修復は、いくつかの実施形態では、様々な技術を採用し得る。文書理解または他のアプリケーションでは、例えば、人間の検証が頻繁に必要な場合、ＡＩ／ＭＬモデルが十分でないと推論することができる。ＡＩ／ＭＬモデルは、「自己修復」手段として、自身のパフォーマンスを向上させようとする様々な技術を採用することができる。例えば、ＡＩ／ＭＬモデルは、異なる光学式文字認識（ＯＣＲ）エンジンを試したり、画像の特性を修正したり（例えば、明るさ、色相、コントラスト、グレースケールへの変換など）、類似して見える画像を検索して、それらの画像に対して適用された技術（複数可）および／または結果をチェックするなどし得る。ＡＩ／ＭＬモデルは、ＡＩ／ＭＬモデルの自己修復努力が機能しているかどうかを決定するために、人間の検証労力が減少するか、実行速度および／または効率が向上するか（例えば、プロセスがより速く実行するおよび／またはＲＰＡワークフローのステップがスピードアップされ得るもしくは排除され得る）、あるいは投資収益率（ＲＯＩ）が向上するかを監視し得る。そうでない場合、ＡＩ／ＭＬモデルは、異なる技術を試し、および／または異なる情報を使用することができる。その後、ＡＩ／ＭＬモデルは、この自己修復アプローチに基づいて、実行時に欠落、不正確、および／または不完全なデータを補完する方法を学習することができる。

【0044】

いくつかの実施形態では、強化学習が使用され得る。強化学習では、探索段階と利用段階とがある。探索段階では、システムは、状態空間の探索を導くために、短期および長期の報酬の両方を有する中間遷移およびステップを探索する報酬関数を使用して、開始状態から終了状態までのソリューションをランダムに見つけようとし得る。例えば、異常が、ターゲットグラフィカル要素がＵＩで見つからない、またはそれとのインタラクションが失敗したという場合、勝利状態は、ＲＰＡワークフロー内のアクティビティが達成すべきターゲットグラフィカル要素との正しいインタラクションであり得る。ソリューションが見つかった場合、ＲＰＡロボットまたはＡＩ／ＭＬモデルは、以前のアプローチに加えてまたは代わりに、このソリューションを試みるように修正され得る。

【0045】

完全にランダムな探索を行うのではなく、いくつかの実施形態は、ポリシーネットワークを介して、ポリシーがどうあるべきかを決定する。これは、勝利状態を達成するために必要なシミュレーションの数を劇的に減らすことができ、強化学習を介して訓練されたＡＩ／ＭＬモデルがより迅速に開発および展開されること、より少ないコンピューティングハードウェア資源を用いて訓練されること、またはその両方が可能になる。実際、いくつかの実施形態では、強化学習は、デスクトップコンピュータ、ラップトップコンピュータ、スマートフォンなどのユーザー自身のコンピューティングシステム上で実行されてもよく、これは典型的に従来不可能である。

【0046】

ユーザーインターフェースとのインタラクションのコンテキストでは、例えば、ロボットがランダムに画面をクリックして、何がクリック可能かを決定し得る。その後、強化学習を使用して、所望の自動化を進めることができる。例えば、電子メールアドレスおよび所望の電子メールテキストのスプレッドシートが与えられた場合、強化学習は、どのクリック可能なボタンが電子メールアプリケーションを開くかを発見し、電子メールで異なるテキストが入力されるべき場所を発見し、そして電子メールを送信するためにクリックするボタンを発見するために使用され得る。この例では、ポリシーネットワークは、まず、電子メールを送信することがいっそう可能であるかまたは望ましいかを決定するために使用され得る。この決定がなされると、ポリシーネットワークは、次に、スプレッドシートからの電子メールアドレスおよび電子メール本文が、送信前に電子メールにコピーされ得るかどうかを決定することができる。

【0047】

特定の実施形態は、ロボティックプロセスオートメーション（ＲＰＡ）に採用されてもよい。図１は、本発明の実施形態による、ＲＰＡシステム１００を示すアーキテクチャ図である。ＲＰＡシステム１００は、開発者がワークフローを設計して実装することを可能にするデザイナ１１０を含む。デザイナ１１０は、アプリケーション統合のためのソリューションを提供するとともに、サードパーティアプリケーション、管理情報技術（ＩＴ）タスク、およびビジネスＩＴプロセスを自動化する。デザイナ１１０は、ビジネスプロセスのグラフィック表現である自動化プロジェクトの開発を容易にし得る。簡単に言えば、デザイナ１１０は、ワークフローおよびロボットの開発および展開を容易にする。

【0048】

自動化プロジェクトは、本明細書で「アクティビティ」と定義されるワークフローで開発されたステップのカスタムセット間の遂行順序および関係の制御を開発者に与えることにより、ルールベースのプロセスの自動化を可能にする。デザイナ１１０の実施形態の商業的な一例は、ＵｉＰａｔｈＳｔｕｄｉｏ（商標）である。各アクティビティは、ボタンをクリックする、ファイルを読む、ログパネルに書き込むなどのアクションを含み得る。いくつかの実施形態では、ワークフローは入れ子になっているか、または埋め込まれ得る。

【0049】

ワークフローのタイプには、シーケンス、フローチャート、ＦＳＭ、および／またはグローバル例外ハンドラなどを含み得るが、これらに限定されない。シーケンスは、ワークフローを乱雑にすることなく、あるアクティビティから別のアクティビティへのフローを可能にする、線形プロセスに特に適し得る。フローチャートは、特により複雑なビジネスロジックに適し得、複数の分岐ロジックオペレータを介して、より多様な方法で意思決定の統合およびアクティビティの接続を可能にする。ＦＳＭは、大規模なワークフローに特に適し得る。ＦＳＭは、条件（すなわち、遷移）またはアクティビティによりトリガされる有限の数の状態をそれらの遂行中に使用し得る。グローバル例外ハンドラは、遂行エラーに遭遇したときのワークフローの挙動を決定したり、プロセスをデバッグしたりするのに特に適し得る。

【0050】

ワークフローがデザイナ１１０内で開発されると、ビジネスプロセスの遂行は、コンダクタ１２０によって調整され、デザイナ１１０内で開発されたワークフローを遂行する１または複数のロボット１３０を調整する。コンダクタ１２０の実施形態の商業的な一例は、ＵｉＰａｔｈＯｒｃｈｅｓｔｒａｔｏｒ（商標）である。コンダクタ１２０は、環境におけるリソースの生成、監視、および展開の管理を容易にする。コンダクタ１２０は、サードパーティのソリューションおよびアプリケーションとの統合ポイント、または統合ポイントの１つとして動作し得る。

【0051】

コンダクタ１２０は、全てのロボット１３０を管理し得、ロボット１３０を集中ポイントから接続して遂行する。管理され得るロボット１３０のタイプには、アテンディッドロボット１３２、アンアテンディッドロボット１３４、開発ロボット（アンアテンディッドロボット１３４と同様であるが、開発およびテストの目的で使用される）、および非生産ロボット（アテンディッドロボット１３２と同様であるが、開発およびテストの目的で使用される）が含まれるが、これらに限定されない。アテンディッドロボット１３２は、ユーザーイベントによってトリガされ、同じコンピューティングシステム上で人と並んで動作する。アテンディッドロボット１３２は、集中プロセスデプロイメントおよびロギング媒体のためのコンダクタ１２０とともに使用され得る。アテンディッドロボット１３２は、人のユーザーが様々なタスクを達成するのを支援してもよく、ユーザーイベントによってトリガされてもよい。いくつかの実施形態では、プロセスは、このタイプのロボット上でコンダクタ１２０から開始することができず、および／またはそれらはロックされた画面の下で実行することができない。特定の実施形態では、アテンディッドロボット１３２は、ロボットトレイからまたはコマンドプロンプトからのみ起動され得る。アテンディッドロボット１３２は、いくつかの実施形態では、人の監督下で動作することが好ましい。

【0052】

アンアテンディッドロボット１３４は、仮想環境で無人で動作し、多くのプロセスを自動化し得る。アンアテンディッドロボット１３４は、リモート遂行、監視、スケジューリング、および作業キューのサポートの提供を担当し得る。全てのロボットタイプのためのデバッグは、いくつかの実施形態では、デザイナ１１０で実行され得る。アテンディッドロボットおよびアンアテンディッドロボットの両方は、メインフレーム、ウェブアプリケーション、ＶＭ、エンタープライズアプリケーション（例えば、ＳＡＰ（登録商標）、ＳａｌｅｓＦｏｒｃｅ（登録商標）、Ｏｒａｃｌｅ（登録商標）などにより生成されたもの）、およびコンピューティングシステムアプリケーション（例えば、デスクトップおよびラップトップアプリケーション、モバイルデバイスアプリケーション、ウェアラブルコンピュータアプリケーションなど）を含むが、これらに限定されない様々なシステムおよびアプリケーションを自動化し得る。

【0053】

コンダクタ１２０は、プロビジョニング、展開、バージョニング、構成、キューイング、監視、ロギング、および／または相互接続性の提供を含むがこれらに限定されない様々な能力を有し得る。プロビジョニングは、ロボット１３０とコンダクタ１２０（例えば、ウェブアプリケーション）との間の接続を作成し、維持することを含み得る。展開は、遂行のために割り当てられたロボット１３０へのパッケージバージョンの正しい配信を保証することを含み得る。バージョニングは、いくつかの実施形態では、いくつかのプロセスまたは構成の固有のインスタンスの管理を含んでもよい。構成は、ロボット環境およびプロセス構成の維持および配信を含み得る。キューイングは、キューおよびキュー項目の管理を提供することを含み得る。監視は、ロボットの特定データを追跡し、ユーザーの権限を維持することを含み得る。ロギングは、データベース（例えば、ＳＱＬデータベース）および／または別のストレージメカニズム（例えば、大規模なデータセットを格納し、迅速にクエリを実行する能力を提供するＥｌａｓｔｉｃＳｅａｒｃｈ（登録商標））へのログの保存およびインデックス作成を含み得る。コンダクタ１２０は、サードパーティのソリューションおよび／またはアプリケーションのための通信の集中点として操作することにより、相互接続性を提供し得る。

【0054】

ロボット１３０は、デザイナ１１０で構築されたワークフローを実行する遂行エージェントである。ロボット（複数可）１３０のいくつかの実施形態の１つの商業的な例は、ＵｉＰａｔｈＲｏｂｏｔｓ（商標）である。いくつかの実施形態では、ロボット１３０は、デフォルトで、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）ＳｅｒｖｉｃｅＣｏｎｔｒｏｌＭａｎａｇｅｒ（ＳＣＭ）管理サービスをインストールする。その結果、このようなロボット１３０は、ローカルシステムアカウントの下でインタラクティブなＷｉｎｄｏｗｓ（登録商標）セッションを開くことができ、Ｗｉｎｄｏｗｓ（登録商標）サービスの権利を有し得る。

【0055】

いくつかの実施形態では、ロボット１３０は、ユーザーモードで設置され得る。このようなロボット１３０については、所定のロボット１３０が設置されているユーザーと同じ権利を有することを意味する。この特色はまた、各マシンを最大限に全活用することを保証する高密度（ＨＤ）ロボットにも利用可能であり得る。いくつかの実施形態では、いずれかのタイプのロボット１３０は、ＨＤ環境で構成され得る。

【0056】

いくつかの実施形態におけるロボット１３０は、複数のコンポーネントに分割され、それぞれが特定の自動化タスクに特化されている。いくつかの実施形態におけるロボットコンポーネントは、ＳＣＭ管理ロボットサービス、ユーザーモードロボットサービス、エグゼキュータ、エージェント、およびコマンドラインを含むが、これらに限定されない。ＳＣＭ管理ロボットサービスは、Ｗｉｎｄｏｗｓ（登録商標）セッションを管理および監視し、コンダクタ１２０と遂行ホスト（すなわち、ロボット１３０が遂行されるコンピューティングシステム）との間のプロキシとして動作する。これらのサービスは、ロボット１３０の資格情報を任されて管理する。コンソールアプリケーションは、ローカルシステム下のＳＣＭにより起動される。

【0057】

いくつかの実施形態におけるユーザーモードロボットサービスは、Ｗｉｎｄｏｗｓ（登録商標）セッションを管理および監視し、コンダクタ１２０と遂行ホストとの間のプロキシとして動作する。ユーザーモードロボットサービスは、ロボット１３０の資格情報を任されて管理し得る。ＳＣＭ管理ロボットサービスがインストールされていない場合、Ｗｉｎｄｏｗｓ（登録商標）アプリケーションが自動的に起動され得る。

【0058】

エグゼキュータは、Ｗｉｎｄｏｗｓ（登録商標）セッションの下で与えられたジョブを遂行し得る（つまり、ワークフローを遂行し得る）。エグゼキュータは、モニタ毎のドットパーインチ（ＤＰＩ）設定を認識し得る。エージェントは、システムトレイウィンドウに利用可能なジョブを表示するＷｉｎｄｏｗｓ（登録商標）ＰｒｅｓｅｎｔａｔｉｏｎＦｏｕｎｄａｔｉｏｎ（ＷＰＦ）アプリケーションであり得る。エージェントはサービスのクライアントであり得る。エージェントは、ジョブの開始または停止、設定の変更を依頼し得る。コマンドラインはサービスのクライアントである。コマンドラインは、ジョブの開始を要求し、その出力を待つことができるコンソールアプリケーションである。

【0059】

上で説明したように、ロボット１３０のコンポーネントが分割されていることは、開発者、サポートユーザー、およびコンピューティングシステムが、各コンポーネントが遂行していることをより容易に実行し、特定し、および追跡するのに役立つ。この方法では、エグゼキュータとサービスに異なるファイアウォールルールを設定するなど、コンポーネントごとに特別な挙動を構成し得る。エグゼキュータは常に、いくつかの実施形態では、モニタごとのＤＰＩ設定を認識し得る。その結果、ワークフローは、ワークフローが作成されたコンピューティングシステムの構成に関係なく、いずれかのＤＰＩで遂行し得る。また、いくつかの実施形態では、デザイナ１１０からのプロジェクトは、ブラウザのズームレベルに依存しないようにし得る。ＤＰＩを認識していないまたは意図的に認識していないとマークされているアプリケーションの場合、いくつかの実施形態ではＤＰＩを無効にし得る。

【0060】

図２は、本発明の実施形態による、展開したＲＰＡシステム２００を示すアーキテクチャ図である。いくつかの実施形態では、ＲＰＡシステム２００は、図１のＲＰＡシステム１００であってもよく、またはその一部であってもよい。クライアント側、サーバー側、またはその両方が、本発明の範囲から逸脱することなく、いずれかの所望の数のコンピューティングシステムを含むことができることに留意すべきである。クライアント側では、ロボットアプリケーション２１０は、エグゼキュータ２１２、エージェント２１４、およびデザイナ２１６を含む。しかし、いくつかの実施形態では、デザイナ２１６は、コンピューティングシステム２１０上で実行されていなくてもよい。エグゼキュータ２１２はプロセスを実行している。図２に示すように、複数のビジネスプロジェクトが同時に実行され得る。エージェント２１４（例えば、Ｗｉｎｄｏｗｓ（登録商標）サービス）は、本実施形態では、全てのエグゼキュータ２１２のための単一の接続ポイントである。この実施形態における全てのメッセージは、コンダクタ２３０に記録され、それは、データベースサーバー２４０、インデクササーバー２５０、またはその両方を介して、それらをさらに処理する。図１に関して上述したように、エグゼキュータ２１２は、ロボットコンポーネントであり得る。

【0061】

いくつかの実施形態では、ロボットは、マシン名とユーザー名との間の関連付けを表す。ロボットは、複数のエグゼキュータを同時に管理し得る。同時に実行される複数のインタラクティブセッションをサポートするコンピューティングシステム（Ｗｉｎｄｏｗｓ（登録商標）Ｓｅｒｖｅｒ２０１２など）では、複数のロボットが同時に実行され得、それぞれが一意のユーザー名を使用して別々のＷｉｎｄｏｗｓ（登録商標）セッションで実行され得る。これは、上記のＨＤロボットと呼ばれる。

【0062】

エージェント２１４はまた、ロボットの状態を送信し（例えば、ロボットがまだ機能していることを示す「ハートビート」メッセージを定期的に送信する）、遂行されるパッケージの要求されるバージョンをダウンロードすることにも責任を負う。エージェント２１４とコンダクタ２３０との間の通信は、いくつかの実施形態では、常にエージェント２１４によって開始される。通知シナリオでは、エージェント２１４は、後にコンダクタ２３０によってロボットにコマンド（例えば、開始、停止など）を送信するために使用されるＷｅｂＳｏｃｋｅｔチャネルを開いてもよい。

【0063】

サーバー側には、プレゼンテーション層（ウェブアプリケーション２３２、オープンデータプロトコル（ＯＤａｔａ）代表状態転送（ＲＥＳＴ）アプリケーションプログラミングインターフェース（ＡＰＩ）エンドポイント２３４、通知および監視２３６）、サービス層（ＡＰＩ実装／ビジネスロジック２３８）、永続層（データベースサーバー２４０、インデクササーバー２５０）が含まれる。コンダクタ２３０は、ウェブアプリケーション２３２、ＯＤａｔａＲＥＳＴＡＰＩエンドポイント２３４、通知および監視２３６、ならびにＡＰＩ実装／ビジネスロジック２３８を含む。いくつかの実施形態では、ユーザーがコンダクタ２３０のインターフェース（例えば、ブラウザ２２０を介して）で実行するほとんどのアクションは、様々なＡＰＩを呼び出すことによって実行される。このような動作は、本発明の範囲を逸脱することなく、ロボット上でのジョブの起動、キュー内のデータの追加／削除、無人で実行するジョブのスケジューリングなどを含み得るが、これらに限定されない。ウェブアプリケーション２３２は、サーバープラットフォームのビジュアル層である。この実施形態では、ウェブアプリケーション２３２は、ハイパーテキストマークアップ言語（ＨＴＭＬ）およびジャバスクリプト（ＪＳ）を使用する。しかし、本発明の範囲を逸脱することなく、いずれかの所望のマークアップ言語、スクリプト言語、または他のいずれかのフォーマットを使用し得る。ユーザーは、コンダクタ２３０を制御するための様々な動作を実行するために、本実施形態ではブラウザ２２０を介してウェブアプリケーション２３２からのウェブページとインタラクションする。例えば、ユーザーは、ロボットグループを作成し、ロボットへのパッケージの割り当てを行い、ロボット毎および／またはプロセス毎のログを解析し、ロボットを起動および停止などし得る。

【0064】

ウェブアプリケーション２３２に加えて、コンダクタ２３０は、ＯＤａｔａＲＥＳＴＡＰＩエンドポイント２３４を公開するサービス層も含む。しかし、本発明の範囲を逸脱することなく、他のエンドポイントが含まれていてもよい。ＲＥＳＴＡＰＩは、ウェブアプリケーション２３２とエージェント２１４の両方により消費される。エージェント２１４は、本実施形態では、クライアントコンピュータ上の１または複数のロボットのスーパーバイザである。

【0065】

本実施形態のＲＥＳＴＡＰＩは、構成、ロギング、監視、およびキューイング機能をカバーする。構成エンドポイントは、いくつかの実施形態では、アプリケーションのユーザー、権限、ロボット、アセット、リリース、および環境を定義し、構成するために使用されてもよい。ロギングＲＥＳＴエンドポイントは、例えば、エラー、ロボットによって送信された明示的なメッセージ、およびその他の環境固有の情報など、様々な情報をログに記録するために使用され得る。デプロイメントＲＥＳＴエンドポイントは、コンダクタ２３０においてジョブ開始コマンドが使用された場合に遂行されるべきパッケージのバージョンを問い合わせるためにロボットにより使用されてもよい。キューイングＲＥＳＴエンドポイントは、キューへのデータの追加、キューからのトランザクションの取得、トランザクションのステータスの設定など、キューおよびキューアイテムの管理を担ってもよい。

【0066】

ＲＥＳＴエンドポイントの監視は、ウェブアプリケーション２３２およびエージェント２１４を監視してもよい。通知および監視ＡＰＩ２３６は、エージェント２１４の登録、エージェント２１４への構成設定の配信、ならびにサーバーおよびエージェント２１４からの通知の送受信に使用されるＲＥＳＴエンドポイントであってもよい。通知および監視ＡＰＩ２３６は、いくつかの実施形態では、ＷｅｂＳｏｃｋｅｔ通信を使用してもよい。

【0067】

永続層は、本実施形態では、一対のサーバー－データベースサーバー２４０（例えば、ＳＱＬサーバー）およびインデクササーバー２５０を含む。本実施形態におけるデータベースサーバー２４０は、ロボット、ロボットグループ、関連するプロセス、ユーザー、役割、スケジュールなどの構成を格納する。この情報は、いくつかの実施形態では、ウェブアプリケーション２３２を介して管理される。データベースサーバー２４０は、キューおよびキューアイテムを管理してもよい。いくつかの実施形態では、データベースサーバー２４０は、ロボットにより記録されたメッセージを（インデクササーバー２５０に加えて、またはそれに代えて）格納してもよい。

【0068】

いくつかの実施形態では任意であるが、インデクササーバー２５０は、ロボットにより記録された情報を保存し、インデックスを作成する。特定の実施形態では、インデクササーバー２５０は、構成設定を介して無効化されてもよい。いくつかの実施形態では、インデクササーバー２５０は、オープンソースプロジェクトの全文検索エンジンであるＥｌａｓｔｉｃＳｅａｒｃｈ（登録商標）を使用する。ロボットにより記録されたメッセージ（例えば、ログメッセージまたはライン書き込みのようなアクティビティを使用して）は、ロギングＲＥＳＴエンドポイント（複数可）を介してインデクササーバー２５０に送信されてもよく、そこで将来の利用のためにそれらはインデックス化される。

【0069】

図３は、本発明の実施形態による、デザイナ３１０、アクティビティ３２０、３３０、ドライバ３４０、およびＡＩ／ＭＬモデル３５０の間の関係３００を示すアーキテクチャ図である。以上のように、開発者は、デザイナ３１０を用いて、ロボットによって遂行されるワークフローを開発する。ワークフローは、ユーザー定義のアクティビティ３２０およびＵＩオートメーションアクティビティ３３０を含んでもよい。ユーザー定義アクティビティ３２０および／またはＵＩオートメーションアクティビティ３３０は、いくつかの実施形態では、ロボットが動作しているコンピューティングシステムに対してローカルに、および／またはそれに対してリモートに位置され得、１または複数のＡＩ／ＭＬモデル３５０を呼び出し得る。いくつかの実施形態では、画像中の非テキストの視覚的コンポーネントを特定することができ、これは、本明細書ではコンピュータビジョン（ＣＶ）と呼ばれる。このようなコンポーネントに関連するいくつかのＣＶアクティビティは、クリック、タイプ、テキストを取得、ホバー、要素の有無を検出、スコープの更新、ハイライトなどを含み得るが、これらに限定されない。いくつかの実施形態では、クリックは、例えば、ＣＶ、光学的文字認識（ＯＣＲ）、ファジーテキストマッチング、およびマルチアンカーを使用して要素を特定し、それをクリックする。タイプは、上記および要素内のタイプを用いて要素を特定してもよい。テキストの取得は、特定のテキストの場所を特定し、ＯＣＲを使用してそれをスキャンし得る。ホバーは、要素を特定し、その上にホバーし得る。要素の有無の検出は、上述した技法を用いて、画面上に要素の有無を検出するかどうかを確認し得る。いくつかの実施形態では、デザイナ３１０に実装され得る数百または数千ものアクティビティが存在してもよい。しかし、本発明の範囲を逸脱することなく、いずれかの数および／またはアクティビティのタイプを利用することができる。

【0070】

ＵＩオートメーションアクティビティ３３０は、低レベルのコード（例えば、ＣＶアクティビティ）で記述され、画面とのインタラクションを促進する特別な低レベルのアクティビティのサブセットである。ＵＩオートメーションアクティビティ３３０は、ロボットが所望のソフトウェアとインタラクションすることを可能にするドライバ３４０および／またはＡＩ／ＭＬモデル３５０を介して、これらのインタラクションを促進する。例えば、ドライバ３４０は、ＯＳドライバ３４２、ブラウザドライバ３４４、ＶＭドライバ３４６、エンタープライズアプリケーションドライバ３４８などを含み得る。コンピューティングシステムとのインタラクションの実行を決定するために、１または複数のＡＩ／ＭＬモデル３５０はＵＩオートメーションアクティビティ３３０によって使用され得る。いくつかの実施形態では、ＡＩ／ＭＬモデル３５０は、ドライバ３４０を増強するか、またはそれらを完全に置き換え得る。実際、特定の実施形態では、ドライバ３４０は含まれない。

【0071】

ドライバ３４０は、フックを探したり、キーを監視したりするなど、低レベルでＯＳとインタラクションしてもよい。それらは、Ｃｈｒｏｍｅ（登録商標）、ＩＥ（登録商標）、Ｃｉｔｒｉｘ（登録商標）、ＳＡＰ（登録商標）などとの統合を促進してもよい。例えば、「クリック」アクティビティは、ドライバ３４０を介して、これらの異なるアプリケーションにおいて同じ役割を果たす。

【0072】

図４は、本発明の実施形態による、ＲＰＡシステム４００を示すアーキテクチャ図である。いくつかの実施形態では、ＲＰＡシステム４００は、図１および／または図２のＲＰＡシステム１００および／または２００であってもよいし、それを含んでもよい。ＲＰＡシステム４００は、ロボットを実行する複数のクライアントコンピューティングシステム４１０を含む。コンピューティングシステム４１０は、その上で実行されるウェブアプリケーションを介してコンダクタコンピューティングシステム４２０と通信することができる。コンダクタコンピューティングシステム４２０は、順番に、データベースサーバー４３０および任意のインデクササーバー４４０と通信することができる。

【0073】

図１および図３に関して、これらの実施形態ではウェブアプリケーションが使用されているが、本発明の範囲から逸脱することなく、任意の適切なクライアント／サーバーソフトウェアを使用することができることに留意すべきである。例えば、コンダクタは、クライアントコンピューティングシステム上で、非ウェブベースのクライアントソフトウェアアプリケーションと通信するサーバーサイドアプリケーションを実行してもよい。

【0074】

図５は、本発明の実施形態による、ＡＩ／ＭＬを介してＲＰＡの異常検出および自己修復を実行するように構成されたコンピューティングシステム５００を示すアーキテクチャ図である。いくつかの実施形態では、コンピューティングシステム５００は、本明細書に描かれたおよび／または記載された１または複数のコンピューティングシステムであってもよい。コンピューティングシステム５００は、情報を通信するためのバス５０５または他の通信機構と、情報を処理するためのバス５０５に結合されたプロセッサ（複数可）５１０とを含む。プロセッサ（複数可）５１０は、中央処理ユニット（ＣＰＵ）、特定用途集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、グラフィックスプロセッシングユニット（ＧＰＵ）、それらの複数のインスタンス、および／またはそれらのいずれかの組み合わせを含む、いずれかのタイプの一般的または特定用途向けプロセッサであり得る。プロセッサ（複数可）５１０はまた、複数の処理コアを有してもよく、コアの少なくとも一部は、特定の機能を実行するように構成され得る。いくつかの実施形態では、複数並列処理が使用されてもよい。特定の実施形態では、少なくとも１つのプロセッサ（複数可）５１０は、生物学的ニューロンを模倣する処理要素を含むニューロモーフィック回路であり得る。いくつかの実施形態では、ニューロモーフィック回路は、フォンノイマンコンピューティングアーキテクチャの典型的なコンポーネントを必要としない場合がある。

【0075】

コンピューティングシステム５００は、プロセッサ（複数可）５１０によって遂行される情報および命令を格納するためのメモリ５１５をさらに含む。メモリ５１５は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、フラッシュメモリ、キャッシュ、磁気ディスクもしくは光ディスクなどの静的記憶装置、または他のタイプの非一時的なコンピュータ読み取り可能な媒体、あるいはそれらのいずれかの組み合わせで構成され得る。非一時的なコンピュータ読み取り可能な媒体は、プロセッサ（複数可）５１０によりアクセス可能ないずれかの利用可能な媒体であってもよく、揮発性媒体、不揮発性媒体または両方などを含み得る。また、媒体は、取り外し可能なもの、取り外し不可能なもの、または両方であってもよい。

【0076】

さらに、コンピューティングシステム５００は、無線および／または有線接続を介して通信ネットワークへのアクセスを提供するために、トランシーバなどの通信デバイス５２０を含む。いくつかの実施形態では、通信デバイス５２０は、周波数分割多元接続（ＦＤＭＡ）、シングルキャリアＦＤＭＡ（ＳＣ－ＦＤＭＡ）、時分割多元接続（ＴＤＭＡ）、符号分割多元接続（ＣＤＭＡ）、直交周波数分割多重方式（ＯＦＤＭ）、直交周波数分割多元接続（ＯＦＤＭＡ）、移動体用グローバルシステム（ＧＳＭ：ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅ）通信、汎用パケット無線サービス（ＧＰＲＳ：ＧｅｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅ）、ユニバーサル移動体通信システム（ＵＭＴＳ：ＵｎｉｖｅｒｓａｌＭｏｂｉｌｅＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｙｓｔｅｍ）、ｃｄｍａ２０００、広帯域ＣＤＭＡ（Ｗ－ＣＤＭＡ：ＷｉｄｅｂａｎｄＣＤＭＡ）、高速ダウンリンクパケットアクセス（ＨＳＤＰＡ：Ｈｉｇｈ－ＳｐｅｅｄＤｏｗｎｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ）、高速アップリンクパケットアクセス（ＨＳＵＰＡ：Ｈｉｇｈ－ＳｐｅｅｄＵｐｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ）、高速パケットアクセス（ＨＳＰＡ：Ｈｉｇｈ－ＳｐｅｅｄＰａｃｋｅｔＡｃｃｅｓｓ）、ロングタームエボリューション（ＬＴＥ：ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、ＬＴＥアドバンスト（ＬＴＥ－Ａ：ＬＴＥＡｄｖａｎｃｅｄ）、８０２．１１ｘ、Ｗｉ－Ｆｉ、Ｚｉｇｂｅｅ、超広帯域無線（ＵＷＢ：Ｕｌｔｒａ－ＷｉｄｅＢａｎｄ）、８０２．１６ｘ、８０２．１５、ＨｏｍｅＮｏｄｅ－Ｂ（ＨｎＢ）、Ｂｌｕｅｔｏｏｔｈ、無線ＩＤタグ（ＲＦＩＤ：ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩｄｅｎｔｉｆｉｃａｔｉｏｎ）、ＩｒＤＡ（ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ）、近距離無線通信（ＮＦＣ：Ｎｅａｒ－ＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎｓ）、第５世代（５Ｇ）、ＮｅｗＲａｄｉｏ（ＮＲ）、それらのいずれかの組み合わせ、および／または本発明の範囲から逸脱することなく、いずれかの他の現在存在するまたは将来実装される通信標準および／またはプロトコルを使用するように構成され得る。いくつかの実施形態では、通信デバイス５２０は、本発明の範囲から逸脱することなく、単数のアンテナ、アレイ状のアンテナ、フェーズドアンテナ、スイッチドアンテナ、ビームフォーミングアンテナ、ビームステアリングアンテナ、それらの組み合わせ、および／またはいずれかの他のアンテナ構成である１または複数のアンテナを含み得る。

【0077】

プロセッサ（複数可）５１０は、バス５０５を介して、プラズマディスプレイ、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、電界放出ディスプレイ（ＦＥＤ）、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、フレキシブルＯＬＥＤディスプレイ、フレキシブル基板ディスプレイ、プロジェクションディスプレイ、４Ｋディスプレイ、高精細ディスプレイ、Ｒｅｔｉｎａ（登録商標）ディスプレイ、ＩＰＳ（Ｉｎ－ＰｌａｎｅＳｗｉｔｃｈｉｎｇ）ディスプレイ、またはユーザーに情報を表示するためのいずれかの他の適切なディスプレイなどのディスプレイ５２５にさらに結合されている。ディスプレイ５２５は、抵抗方式、静電容量方式、表面弾性波（ＳＡＷ）静電容量方式、赤外線方式、光学イメージング方式、分散信号方式、音響パルス認識方式、フラストレート全内部反射方式などを用いて、タッチ（ハプティック）ディスプレイ、３次元（３Ｄ）タッチディスプレイ、マルチ入力タッチディスプレイ、マルチタッチディスプレイなどとして構成されていてもよい。本発明の範囲を逸脱することなく、いずれかの好適な表示デバイスおよびハプティックＩ／Ｏを使用することができる。

【0078】

コンピュータマウス、タッチパッドなどのようなキーボード５３０およびカーソル制御デバイス５３５は、ユーザーがコンピューティングシステム５００とインターフェースすることを可能にするために、バス５０５にさらに結合されている。しかしながら、特定の実施形態では、物理的なキーボードおよびマウスが存在しない場合があり、ユーザーは、ディスプレイ５２５および／またはタッチパッド（図示せず）のみを介してデバイスとインタラクションすることができる。任意の入力デバイスの種類および組み合わせは、設計の選択の問題として使用され得る。特定の実施形態では、物理的な入力デバイスおよび／またはディスプレイは存在しない。例えば、ユーザーは、コンピューティングシステム５００と通信している別のコンピューティングシステムを介してリモートでそれとインタラクションしてもよいし、コンピューティングシステム５００は自律的に動作してもよい。

【0079】

メモリ５１５は、プロセッサ（複数可）５１０により遂行されたときに機能を提供するソフトウェアモジュールを格納する。モジュールは、コンピューティングシステム５００のためのオペレーティングシステム５４０を含む。モジュールは、本明細書に記載されたプロセスの全部もしくは一部またはその派生物を実行するように構成された異常検出および自己修復モジュール５４５をさらに含む。コンピューティングシステム５００は、付加的な機能を含む１または複数の付加的な機能モジュール５５０を含み得る。

【0080】

当業者であれば、「システム」は、本発明の範囲から逸脱することなく、サーバー、組み込みコンピューティングシステム、パーソナルコンピュータ、コンソール、パーソナルデジタルアシスタント（ＰＤＡ）、携帯電話、タブレットコンピューティングデバイス、量子コンピューティングシステム、または他のいずれかの適切なコンピューティングデバイス、またはデバイスの組み合わせとして具現化され得ることを理解するであろう。上述した機能を「システム」により実行されるものとして提示することは、何ら本発明の範囲を限定することを意図するものではなく、本発明の多くの実施形態の一例を提供することを意図するものである。実際、本明細書に開示された方法、システム、および装置は、クラウドコンピューティングシステムを含むコンピューティング技法と整合性のあるローカライズされた形態および分配された形態で実装されてもよい。コンピューティングシステムは、ローカルエリアネットワーク（ＬＡＮ）、モバイル通信ネットワーク、衛星通信ネットワーク、インターネット、パブリッククラウドまたはプライベートクラウド、ハイブリッドクラウド、サーバーファーム、それらのいずれかの組み合わせなどの一部またはその他の方法でアクセス可能であり得る。本発明の範囲から逸脱することなく、任意の局所または分散アーキテクチャが使用され得る。

【0081】

本明細書で説明するシステム特色のいくつかは、実装の独立性をより強調するために、モジュールとして提示されていることに留意すべきである。例えば、モジュールは、カスタムの非常に大規模な集積（ＶＬＳＩ）回路またはゲートアレイ、ロジックチップ、トランジスタ、または他の個別部品のような既製の半導体を含むハードウェア回路として実装され得る。また、モジュールは、フィールドプログラマブルゲートアレイ、プログラマブルアレイロジック、プログラマブルロジックデバイス、グラフィックス処理ユニットなどのプログラマブルハードウェアデバイスに実装され得る。

【0082】

モジュールはまた、様々なタイプのプロセッサにより遂行されるためのソフトウェアに少なくとも部分的に実装され得る。例えば、遂行可能コードの特定された単位は、例えば、オブジェクト、プロシージャ、または関数として編成されていてもよいコンピュータ命令の１または複数の物理的または論理的なブロックを含み得る。それにもかかわらず、遂行可能な特定されたモジュールは、物理的に一緒に配置されている必要はなく、論理的に結合されたときにモジュールを含み、モジュールのために述べられた目的を達成するために、異なる場所に格納された別々の命令を含んでいてもよい。さらに、モジュールは、例えば、ハードディスクドライブ、フラッシュデバイス、ＲＡＭ、テープのような非一時的なコンピュータ読み取り可能な媒体、および／または本発明の範囲から逸脱することなくデータを格納するために使用される他のいずれかの非一時的なコンピュータ読み取り可能な媒体に格納されていてもよい。

【0083】

実際、遂行可能コードのモジュールは、単一の命令であってもよいし、多数の命令であってもよいし、さらには、複数の異なるコードセグメント、異なるプログラム間、および複数のメモリデバイス間に分散されていてもよい。同様に、動作データは、モジュール内で特定され、ここで示されてもよく、いずれかの適切なタイプのデータ構造体内でいずれかの適切な形態で具現化され、組織化され得る。動作データは、単一のデータセットとして収集されてもよいし、または異なる記憶デバイスにわたり異なる場所に分散されていてもよく、少なくとも部分的には、単にシステムまたはネットワーク上の電子信号として存在していてもよい。

【0084】

図６は、本発明の実施形態による、ＡＩ／ＭＬを介してＲＰＡの異常検出および自己修復を実行するように構成されたシステム６００を示すアーキテクチャ図である。システム６００は、デスクトップコンピュータ６０２、６０３、タブレット６０４、スマートフォン６０６などのユーザーコンピューティングシステムを含む。しかしながら、スマートウォッチ、ラップトップコンピュータなどを含むが、これらに限定されない、任意の所望のコンピューティングシステムが本発明の範囲から逸脱せずに使用され得る。また、図６には３つのユーザーコンピューティングシステムが示されているが、本発明の範囲から逸脱することなく、任意の適切な数のコンピューティングシステムが使用され得る。例えば、いくつかの実施形態では、数十、数百、数千、または数百万のコンピューティングシステムが使用されてもよい。

【0085】

各コンピューティングシステム６０２、６０４、６０６は、ＡＩ／ＭＬモデル６３２などのＡＩ／ＭＬモデルを使用して特定のタスクを実行する、ＡＩ／ＭＬ対応ＲＰＡロボット６１０を有する。例えば、ＲＰＡロボット６１０は、それぞれのコンピューティングシステム上でユーザーがしていることを認識するためにＣＶを使用するように訓練されたＡＩ／ＭＬモデルを使用し得る。コンピューティングシステム６０２、６０４、６０６は、ネットワーク６２０（例えば、ローカルエリアネットワーク（ＬＡＮ）、移動通信ネットワーク、衛星通信ネットワーク、インターネット、それらの任意の組み合わせなど）を介して、サーバー６３０に情報を送信する。いくつかの実施形態では、サーバー６３０は、パブリッククラウドアーキテクチャ、プライベートクラウドアーキテクチャ、ハイブリッドクラウドアーキテクチャなどの一部であってもよい。特定の実施形態では、サーバー６３０は、単一のコンピューティングシステム６３０上で複数のソフトウェアベースのサーバーをホストしてもよい。サーバー６３０は、本実施形態では、ＲＰＡロボット６１０によって呼び出されて動作を実行するＡＩ／ＭＬモデル６３２を含む。

【0086】

ＲＰＡロボット６１０は、異常を自動的に検出し修正しようとする異常処理および／または自己修復ロジックを含む。このロジックは、ＲＰＡロボット６１０自体、ＡＩ／ＭＬモデル６３２、またはそれらの組み合わせに組み込まれ得る。ＡＩ／ＭＬモデル６３２の一部として異常処理および／または自己修復ロジックを含めることは、複数のまたは多くのコンピューティングシステムからの情報を利用することを可能にし、より多くの例、ユーザーがどのように問題を克服したかの例などを提供する可能性がある。

【0087】

ＲＰＡロボット６１０は、グラフィカル要素を特定できないおよび／または通常のインタラクションが機能しない、新しい、取り扱いできない異常に時折遭遇し得る。そのような異常は、異常を自動的に処理しようとする異常ハンドラ（例えば、ＲＰＡロボット６１０のワークフロー（複数可）内のアクティビティのサブセットまたはＡＩ／ＭＬモデル６３２内のロジック）により処理され得る。ターゲットグラフィカル要素が依然として異常ハンドラによって特定できない場合、ＲＰＡロボット６１０は、例外を処理することができる。ＲＰＡロボット６１０および／またはＡＩ／ＭＬモデル６３２は、いくつかの実施形態では、ユーザー入力なしに異常から欠損したデータを補完しようとする自己修復機能を有し得る。

【0088】

いくつかの実施形態では、異常に関するデータは、ユーザーが、ＲＰＡロボット６１０による自己修正の試みを処理することができなかった異常に係る画面をラベル付けし、および／または修正することができる訓練コンピューティングシステム６５０のアプリケーション６５２によるレビューのためにデータベース６４０に格納され得る。例えば、ＡＩ／ＭＬモデルに認識されない新しいコントロールなど、これまで見たことのないシナリオが発生した場合、ユーザーにガイダンスを促すことができる。次いで、ユーザーは、画面上のコントロールをラベルし得、コントロールがＡＩ／ＭＬモデルが認識するように訓練された以前のコントロールとは異なる動作をする場合に取るべきアクションを提供する可能性がある。この訓練データを使用して、ＡＩ／ＭＬモデル６３２は、精度を高めるために再訓練され得る。いくつかの実施形態では、ＲＰＡロボット６１０によって呼び出されるＡＩ／ＭＬモデルは、統計的モデリング（例えば、隠れマルコフモデル（ＨＭＭ））などのさまざまな機能を実行する複数の層を有し得、深層学習技術（例えば、長短期記憶（ＬＳＴＭ）深層学習、以前の隠れ状態のエンコードなど）を利用してユーザーインタラクションのシーケンスを特定し得る。

【0089】

ＡＩ層

【0090】

いくつかの実施形態では、複数のＡＩ層が使用され得る。各ＡＩ層は、データ上で実行されるアルゴリズム（またはモデル）であり、ＡＩモデル自体は、訓練データで訓練された人工「ニューロン」の深層学習ニューラルネットワーク（ＤＬＮＮ）であり得る。層は、直列、並列、またはそれらの組み合わせで実行され得る。

【0091】

Ａｌ層は、限定されないが、シーケンス抽出層、クラスタリング検出層、視覚成分検出層、テキスト認識層（例えば、ＯＣＲ）、音声－テキスト翻訳層、またはそれらのいずれかの組み合わせを含み得る。しかしながら、本発明の範囲を逸脱することなく、いずれかの所望の数およびタイプ（複数可）の層を使用し得る。複数の層を使用することで、システムが画面で何が起こっているのかのグローバルな画像を展開し得る。例えば、あるＡＩ層はＯＣＲを実行し得、別のＡＩ層はボタンを検出し得、別のＡＩ層はシーケンスを比較し得るなど。パターンは、１つのＡＩ層によって個別に決定されてもよいし、複数のＡＩ層によってまとめて決定されてもよい。

【0092】

図７は、本発明の実施形態による、ＡＩ／ＭＬを介してＲＰＡの異常検出および自己修復を実行するためのプロセス７００を示すフローチャートである。プロセスは、７０５において、ＡＩ／ＭＬモデルを使用してＵＩオートメーションを実行するＲＰＡロボット（および、したがってＲＰＡワークフロー）を遂行することから始まる。ＡＩ／ＭＬモデルを使用して、ＲＰＡロボットは、７１０において、ＲＰＡワークフローのアクティビティによってインタラクションされるＵＩ内のターゲットグラフィカル要素を検索する。７１５でＡＩ／ＭＬモデルによってターゲットグラフィカル要素が一意に見つかると、ＲＰＡロボットは、７２０でＲＰＡワークフローの１または複数のＲＰＡアクティビティに従ってターゲットグラフィカル要素にインタラクションする。その後、ＲＰＡロボットは、次のグラフィカル要素とのインタラクションが必要になるまで、７２５においてＲＰＡワークフローロジックの遂行を継続する。その後、プロセスはステップ７１０に戻る

【0093】

しかし、７１５でターゲットグラフィカル要素がＡＩ／ＭＬモデルによって一意に見つからないか、またはインタラクションできない場合、ＲＰＡロボットまたはＡＩ／ＭＬモデルは、７３０で自動的に異常の修正を試みる。いくつかの実施形態では、異常を修正する自動的な試みは、１または複数の特徴が、ターゲットグラフィカル要素を他の同様のグラフィカル要素と区別するかどうかを決定することを含む。特定の実施形態では、１または複数の特徴がターゲットグラフィカル要素を他の同様のグラフィカル要素から区別するかどうかを決定することは、半径内でターゲットグラフィカル要素を囲むグラフィカル要素を分析すること、ＵＩ内のグラフィカル要素の順序を利用すること、ターゲットグラフィカル要素が１または複数の異なる視覚特性を有するかどうかを決定すること、あるいはそれらの組み合わせを含む。いくつかの実施形態では、異常を修正する自動的な試みは、ＵＩの視覚的特性を変更すること、および変更された視覚的特性を使用してＵＩ内の前記ターゲットグラフィカル要素を検索することを含む。特定の実施形態では、異常を修正する自動的な試みは、デフォルトのアクションを取ることを含む。いくつかの実施形態では、デフォルトのアクションは、ターゲットグラフィカル要素との所望のインタラクションを可能にする１または複数のＵＩ記述子についてＵＩオブジェクトライブラリまたはＵＩオブジェクトリポジトリを検索することであってもよいしまたはそれを含み得る。

【0094】

いくつかの実施形態では、異常を修正する自動的な試みは、ＲＰＡロボットまたはＡＩ／ＭＬモデルによって、ユーザー入力なしで欠損データを補完する自己修復プロセスを試みることを含む。これは、例えば、強化学習における探索段階を介して達成され得る。特定の実施形態では、ＲＰＡロボットまたはＡＩ／ＭＬモデルは、１または複数のパフォーマンスメトリックスが自己修復プロセスに応答して改善するかどうかを監視することによって、自己修復プロセスが成功したかどうかを決定するように構成される。いくつかの実施形態では、自己修復プロセスがうまくいかなかった場合、異常を修正する自動的な試みは、１または複数の異なる技術を試み、１または複数の異なる技術が１または複数のパフォーマンスメトリックを改善するかどうかを監視することを含む。特定の実施形態では、自己修復プロセスは、異常に対する提案されたソリューションを提供するために複数のユーザーにポーリングすることと、１または複数のパフォーマンスメトリックスに基づく提案されたソリューションのうち最も最適なソリューションを選択することとを含む。例えば、速度、収益の増加、より多くの顧客アカウントの作成、それらの組み合わせなどに基づいて、最も最適なソリューションが選択され得る。

【0095】

７３５において異常を修正する自動的な試みが成功した場合、７４０においてＡＩ／ＭＬモデルのその後の再訓練のために、自動修正に関するデータが提供され（例えば、図６のサーバー６３０およびデータベース６４０などのリモートサーバーおよびデータベースに送られ）、そしてプロセスはステップ７２０に進み、上述のように継続する。しかし、７４５において、異常を修正する自動的な試みが成功しない場合、ターゲットグラフィカル要素を特定するためのソリューション、ターゲットグラフィカル要素とインタラクションする方法、またはその両方について、ユーザーが促される。例えば、ＡＩ／ＭＬモデルに認識されない新しいコントロールなど、これまで見たことのないシナリオが発生した場合、ユーザーにガイダンスを促すことができる。次いで、ユーザーは、画面上のコントロールをラベルし得、コントロールがＡＩ／ＭＬモデルが認識するように訓練された以前のコントロールとは異なる動作をする場合に取るべきアクションを提供する可能性がある。ユーザーによって提供されたガイダンスが、ＲＰＡロボットがターゲットグラフィカル要素とインタラクションすることを可能にすることに成功した場合、７４０においてＡＩ／ＭＬモデルのその後の再訓練のためのユーザーソリューションに関するデータが提供され、プロセスはステップ７２０に進み、上述のように継続する。

【0096】

ユーザーによって提供されたガイダンスが、７５０においてＲＰＡロボットがターゲットグラフィカル要素とインタラクションすることを可能にすることに成功せず、７５５においてターゲットグラフィカル要素がＲＰＡワークフローの全体タスクを完了するために必要ではなく、継続した動作が可能な場合、ＲＰＡロボットは７２５においてＲＰＡワークフローの遂行を継続し得る。これは、例えば、ターゲットグラフィカル要素が、十分な精度でタスク全体を完了するために必要でない場合に可能であり得る。しかし、７５５で動作の継続が不可能な場合、７６０で例外が投げられ、プロセスは終了する。

【0097】

図７で実行されるプロセスステップは、本発明の実施形態に従って、図７で説明したプロセス（複数可）の少なくとも一部を実行するようにプロセッサ（複数可）への命令をエンコードするコンピュータプログラムによって実行されてもよい。コンピュータプログラムは、非一時的なコンピュータ読み取り可能な媒体に格納されていてもよい。コンピュータ読み取り可能な媒体は、ハードディスクドライブ、フラッシュデバイス、ＲＡＭ、テープ、および／またはデータを格納するために使用される他のそのような媒体または媒体の組み合わせであってもよいが、これらに限定されるものではない。コンピュータプログラムは、図７に記載されたプロセスステップの全部または一部を実装するために、コンピューティングシステム（例えば、図５のコンピューティングシステム５００のプロセッサ（複数可）５１０）のプロセッサ（複数可）を制御するためのコード化された命令を含んでもよく、これはまた、コンピュータ読み取り可能な媒体に格納されてもよい。

【0098】

コンピュータプログラムは、ハードウェア、ソフトウェア、またはハイブリッド実装で実装され得る。コンピュータプログラムは、互いに動作可能な通信を行うモジュールで構成され得、情報または指示をディスプレイに送るように設計されている。コンピュータプログラムは、汎用コンピュータ、ＡＳＩＣ、またはいずれかの他の好適なデバイスで動作するように構成され得る。

【0099】

本発明の様々な実施形態のコンポーネントは、本明細書に一般的に記載され、図示されているように、様々な異なる構成で配置され、設計されてもよいことが、容易に理解されるであろう。したがって、添付の図に表されるような本発明の実施形態の詳細な説明は、特許請求されるような本発明の範囲を限定することを意図するものではなく、本発明の選択された実施形態を代表するものにすぎない。

【0100】

本明細書を通して記載された本発明の特色、構造、または特徴は、１または複数の実施形態では、いずれかの好適な方法で組み合わせられ得る。例えば、本明細書全体を通して「特定の実施形態」、「いくつかの実施形態」、または類似の言語を参照することは、実施形態に関連して記載された特定の特色、構造、または特徴が、本発明の少なくとも１つの実施形態に含まれていることを意味する。したがって、本明細書全体を通して「特定の実施形態では」、「いくつかの実施形態では」、「他の実施形態では」、または類似の言語の出現は、必ずしも全ての実施形態の同じグループを指すものではなく、記載された特色、構造、または特徴は、１または複数の実施形態ではいずれかの好適な方法で組み合わせられ得る。

【0101】

本明細書全体を通して特色、利点、または類似の言語への参照は、本発明で実現され得る特色および利点の全てが、本発明のいずれかの単一の実施形態にあるべきであること、または本発明のいずれかの実施形態であることを意味するものではないことに留意すべきである。むしろ、特色および利点に言及する言語は、実施形態に関連して記載された特定の特色、利点、または特徴が、本発明の少なくとも１つの実施形態に含まれることを意味すると理解される。したがって、本明細書全体での特色および利点の議論、ならびに類似の言語は、同じ実施形態を参照することができるが、必ずしもその必要性はない。

【0102】

さらに、本発明の記載された特色、利点、および特徴は、１または複数の実施形態では、いずれかの好適な方法で組み合わせることができる。関連する技術の当業者は、本発明が、１または複数の特定の実施形態の特定の特徴または利点なしに実施され得ることを認識するであろう。他の例では、追加の特徴および利点は、本発明の全ての実施形態には存在しないかもしれないが特定の実施形態では認識され得る。

【0103】

本分野における通常の技術を有する者は、上述したような本発明を、異なる順序でのステップを用いて、および／または開示されているものとは異なる構成のハードウェア要素を用いて実施することができることを容易に理解するであろう。したがって、本発明は、これらの好ましい実施形態に基づいて説明されてきたが、本発明の精神および範囲内にとどまりながら、特定の変更、変形、および代替的な構成が明らかになることは、当業者には明らかであろう。したがって、本発明の範囲を決定するためには、添付の特許請求の範囲を参照すべきである。

【図1】