特許7540003 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ブルー　プリズム　リミテッドの特許一覧

特許7540003ＲＰＡロボットを訓練する方法、装置、コンピュータプログラム、コンピュータ可読媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3a
3b
4
5
6
7
8
9a
9b

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-08-16

(45)【発行日】2024-08-26

(54)【発明の名称】ＲＰＡロボットを訓練する方法、装置、コンピュータプログラム、コンピュータ可読媒体

(51)【国際特許分類】

G05B 19/042 20060101AFI20240819BHJP

G06F 3/0481 20220101ALI20240819BHJP

G06F 11/34 20060101ALI20240819BHJP

B25J 9/22 20060101ALI20240819BHJP

【ＦＩ】

G05B19/042

G06F3/0481

G06F11/34 176

B25J9/22 A

【請求項の数】 27

(21)【出願番号】P 2022566618

(86)(22)【出願日】2020-05-01

(65)【公表番号】

(43)【公表日】2023-07-11

(86)【国際出願番号】 EP2020062199

(87)【国際公開番号】W WO2021219234

(87)【国際公開日】2021-11-04

【審査請求日】2023-04-10

(73)【特許権者】

【識別番号】516005083

【氏名又は名称】ブループリズムリミテッド

(74)【代理人】

【識別番号】110002572

【氏名又は名称】弁理士法人平木国際特許事務所

(72)【発明者】

【氏名】カリ，ジャック

(72)【発明者】

【氏名】ドゥバ，クリシュナ

(72)【発明者】

【氏名】カー，ベン

(72)【発明者】

【氏名】ククルル，ギエム

(72)【発明者】

【氏名】アクタス，ウミトルセン

【審査官】影山直洋

(56)【参考文献】

【文献】特表２０１８－５３５４５９（ＪＰ，Ａ）

【文献】特開２０１９－１６８９４５（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０５Ｂ１９／０４２

Ｇ０６Ｆ３／０４８１

Ｇ０６Ｆ１１／３４

Ｂ２５Ｊ９／２２

(57)【特許請求の範囲】

【請求項1】

ＧＵＩを使用するためにＲＰＡロボットを訓練する方法であって、
オペレータが前記ＧＵＩを使用してプロセスを実施すると前記ＧＵＩのビデオをキャプチャするステップ；
前記オペレータが前記プロセスを実行するために前記ＧＵＩを使用するときにトリガされる一連のイベントをキャプチャするステップ；
前記ビデオおよび前記一連のイベントを分析することにより、ＲＰＡロボットによって実行されたとき前記ＧＵＩを使用して前記プロセスを前記ＲＰＡロボットに実行させるワークフローを生成するステップ；
を有し、
前記分析することは、
前記ビデオから前記ＧＵＩの１つ以上の対話型要素を識別するステップ；
前記対話型要素のうちの少なくとも１つに対応するものとして、前記イベントのシーケンス内の前記イベントのうちの少なくとも１つをマッチングするステップ；
を有し、
前記１つ以上の対話型要素のうち所与の対話型要素を識別することは、
前記所与の対話型要素について前記ＧＵＩ内の１つ以上のアンカー要素を識別するステップ、
前記１つ以上のアンカー要素を前記所与の対話型要素と関連付けるステップ、
を含む、
方法。

【請求項2】

前記１つ以上のアンカー要素のうち所与のアンカー要素は、予想される同時発生ＧＵＩ要素に基づいて、前記所与の対話型要素について識別される、
請求項１記載の方法。

【請求項3】

前記１つ以上のアンカー要素のうち所与のアンカー要素は、前記所与のアンカー要素から前記所与の対話型要素に対する近接度に基づいて、前記所与の対話型要素について識別される、
請求項１または２記載の方法。

【請求項4】

前記１つ以上のアンカー要素のうち所与のアンカー要素は、前記所与のアンカー要素のタイプおよび前記所与の対話型要素のタイプに基づいて、前記所与の対話型要素について識別される、
請求項１から３のいずれか１項記載の方法。

【請求項5】

前記１つ以上のアンカー要素のうち所与のアンカー要素は、
ｋ－最近傍アプローチを用いて、前記所与の対話型要素に最も近い所定数のＧＵＩ要素を前記１つ以上のアンカー要素として識別するステップ、および／または、
前記所与の対話型要素から見て１つ以上の所定方向にある最も近い所定数のＧＵＩ要素を前記１つ以上のアンカー要素として識別するステップ、および／または、
前記所与の対話型要素から所定領域内の全てのＧＵＩ要素を前記１つ以上のアンカー要素として識別するステップ、
に基づいて、前記所与の対話型要素について識別される、
請求項１記載の方法。

【請求項6】

前記１つ以上のアンカー要素それぞれは、重みを有する
請求項１から５のいずれか１項記載の方法。

【請求項7】

前記１つ以上の対話型要素を識別するステップは、トレーニングされた機械学習アルゴリズムを前記ビデオの少なくとも一部に対して適用することによって実行される、請求項１記載の方法。

【請求項8】

前記１つ以上の対話型要素を識別するステップは、前記所与の対話型要素に対する前記ＧＵＩ内の前記１つ以上のアンカー要素の位置を識別することを含む、請求項１から７のいずれか１項記載の方法。

【請求項9】

１つ以上の所定の特徴値に基づいて前記１つ以上のアンカー要素を識別するために機械学習アルゴリズムが使用される、請求項８記載の方法。

【請求項10】

前記特徴値は、前記機械学習アルゴリズムのトレーニングを介して決定される、請求項９記載の方法。

【請求項11】

前記特徴値は、
第１ＧＵＩ要素と第２ＧＵＩ要素との間の距離；
第１ＧＵＩ要素の第２ＧＵＩ要素に対する向き；
第１ＧＵＩ要素が第２ＧＵＩ要素と同じアプリケーションウィンドウ内にあるかどうか；
のうちいずれか１つ以上を含む、請求項９または１０記載の方法。

【請求項12】

前記イベントのシーケンスは、
キープレスイベント；
ホバリングイベント；
クリックイベント；
ドラッグイベント；
ジェスチャイベント；
のうちいずれか１つまたは複数を含む、請求項１から１１のいずれか１項記載の方法。

【請求項13】

前記方法はさらに、前記ビデオに基づいて、前記イベントのシーケンス中の１つ以上の推定されたイベントを含めるステップを有する、請求項１から１２のいずれか１項記載の方法。

【請求項14】

ホバリングイベントは、前記ＧＵＩにおいて可視になる１つ以上のインターフェース要素に基づいて推測される、請求項１２記載の方法。

【請求項15】

前記分析することは、前記プロセスのサブプロセスのシーケンスを識別するステップを有する、請求項１から１４のいずれか１項記載の方法。

【請求項16】

前記シーケンスのサブプロセスのうちの１つのプロセス出力が、前記シーケンスの別のサブプロセスへのプロセス入力として前記ＲＰＡロボットによって使用される、請求項１５記載の方法。

【請求項17】

前記方法はさらに、前記生成されたワークフローを編集して、別サブプロセスに対応する以前に生成されたワークフローの一部分を含めることにより、前記編集されたワークフローがＲＰＡロボットによって実行されると、前記ＲＰＡロボットに、前記ＧＵＩを使用して前記プロセスのバージョンを実行させるステップを有し、前記プロセスのバージョンは前記別サブプロセスを含む、請求項１５または請求項１６記載の方法。

【請求項18】

前記プロセスのバージョンが、前記プロセスの既存のサブプロセスの代わりに前記別サブプロセスを含む、請求項１７記載の方法。

【請求項19】

前記ビデオおよび／または前記イベントのシーケンスは、リモートデスクトップシステムを使用してキャプチャされる、請求項１から１８のいずれか１項記載の方法。

【請求項20】

請求項１に記載の方法によって訓練されたＲＰＡロボットを使用して、ＧＵＩを使用してプロセスを実行する方法。

【請求項21】

前記ＲＰＡロボットが、ワークフローにおいて指定されたそれぞれのアンカー要素に基づいて、前記ＧＵＩ内の１つ以上の対話型要素を再識別する、請求項２０記載の方法。

【請求項22】

機械学習アルゴリズムを使用して、１つ以上の所定の特徴値に基づいて前記１つ以上の対話型要素を再識別する、請求項２１記載の方法。

【請求項23】

前記特徴値は、前記機械学習アルゴリズムのトレーニングを介して決定される、請求項２２記載の方法。

【請求項24】

前記特徴値は、
第１ＧＵＩ要素と第２ＧＵＩ要素との間の距離；
第１ＧＵＩ要素の第２ＧＵＩ要素に対する向き；
第１ＧＵＩ要素が第２ＧＵＩ要素と同じアプリケーションウィンドウ内にあるかどうか；
のうちいずれか１つ以上である、請求項２２または２３記載の方法。

【請求項25】

請求項１から２４のいずれか１項記載の方法を実行するように構成された装置。

【請求項26】

プロセッサによって実行されると、前記プロセッサに、請求項１から２４のいずれか１項記載の方法を実行させるコンピュータプログラム。

【請求項27】

請求項２６記載のコンピュータプログラムを記録したコンピュータ可読媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ロボットによるプロセス自動化のためのシステムおよび方法に関し、特に、ロボットによるプロセス自動化のロボットの自動トレーニングに関する。

【背景技術】

【0002】

人間が誘導するコンピュータプロセスは、多くの技術および努力の分野にわたって至る所に存在する。現代のグラフィカルユーザインターフェース（ＧＵＩ）は、人間のオペレータがコンピュータシステムを使用して、しばしば複雑なデータ処理および／またはシステム制御タスクを実行することを可能にすることにおいて、非常に貴重であることが証明されている。しかし、ＧＵＩは多くの場合、人間のオペレータが新しいタスクの実行にすぐに慣れることを可能にするが、ＧＵＩはタスクの任意のさらなる自動化に対する高い壁がある。

【0003】

従来のワークフロー自動化は、通常はＧＵＩを使用してオペレータによって実行されるタスクを取得し、それらを自動化することにより、コンピュータシステムが、タスクを実行するために使用される基礎となるソフトウェアの大幅な再設計をすることなく、同じタスクを実行できるようにすることを目的とする。最初の時点において、これは、ソフトウェアのアプリケーションプログラミングインターフェース（ＡＰＩ）を公開することにより、必要なタスクを実行するためにスクリプトがソフトウェアの必要な機能を実行するように手動で考案されるようにすることを必要とした。

【0004】

ロボットによるプロセス自動化（ＲＰＡ）システムはこのアプローチの進化を表し、ソフトウェアエージェント（ＲＰＡロボットと呼ばれる）を使用して、既存のグラフィカルユーザインタフェース（ＧＵＩ）を介してコンピュータシステムと対話する。ＲＰＡロボットは、ＧＵＩのための適切な入力コマンドを生成して、コンピュータシステムによって所与のプロセスを実行させることができる。これにより、プロセスの自動化が可能になり、参加したプロセスが無人プロセスになる。そのようなアプローチの利点は多数であり、複数のＲＰＡロボットが複数のコンピュータシステムにわたって同じタスクを実行することを可能にするより大きなスケーラビリティと、所与のプロセスにおけるヒューマンエラーの可能性が低減されるかまたは排除されることによるより大きな再現性とを有する。

【0005】

しかしながら、特定のタスクを実行するためにＲＰＡロボットを訓練するプロセスは煩雑である可能性があり、ＲＰＡシステムを使用して個々の各ステップを具体的に識別する特定のプロセスにおいてプログラムするために、人間のオペレータがＲＰＡシステム自体を使用することを必要とする。また、人間のオペレータは対話されるべきＧＵＩの特定の部分を識別し、ＲＰＡロボットが使用するためのワークフローを構築することも要求される。

【発明の概要】

【0006】

本発明は、ＧＵＩを使用するオペレータのビデオの分析およびプロセスを実行するときにオペレータによってトリガされるイベント（または入力）のみに基づいて、ＧＵＩを使用してタスクを実行するようにＲＰＡロボットを訓練する方法を提供する。このようにして、ＲＰＡロボットの訓練に関する従来技術の上記の問題を回避することができる。

【0007】

第１態様では、ＧＵＩを使用するためにＲＰＡロボット（またはスクリプトまたはシステム）をトレーニングする方法が提供される。この方法は、オペレータ（またはユーザ）がＧＵＩを使用してプロセス（またはタスク）を実行するときにＧＵＩのビデオをキャプチャするステップ；オペレータがＧＵＩを使用して前記プロセスを実行するときにトリガされるイベントのシーケンスをキャプチャし、前記ビデオおよび前記イベントのシーケンスを分析してワークフローを生成するステップ；を含む。ワークフローはＲＰＡロボットによって実行されると、ＲＰＡロボットに、ＧＵＩを使用して前記プロセスを実行させるようになっている。キャプチャするステップは、リモートデスクトップシステムによって実行することができる。

【0008】

分析するステップは、前記ビデオからＧＵＩの１つまたは複数の対話型要素を識別するステップと、対話型要素のうちの少なくとも１つに対応するものとして、イベントのシーケンス内のイベントのうちの少なくとも１つを照合するステップとをさらに含み得る。対話型要素は、テキストボックス、ボタン、コンテキストメニュー、タブ、ラジオボタン（またはそのアレイ）、チェックボックス（またはそのアレイ）など（ただし、これらに限定されない）、任意の典型的なＧＵＩ要素であり得る。対話型要素を識別するステップは、トレーニングされた機械学習アルゴリズムをビデオの少なくとも一部に対して適用することによって実行され得る。

【0009】

対話型要素を識別するステップは、前記対話型要素に対するＧＵＩ内の１つまたは複数のアンカー要素の位置を識別することを含み得る。たとえば、機械学習アルゴリズム（グラフニューラルネットワークなど）を使用して、１つまたは複数の所定の特徴値に基づいて１つまたは複数のアンカー要素を識別することができる。前記特徴値はまた、機械学習アルゴリズムの訓練を介して決定されてもよい。

【0010】

前記特徴値は、要素間の距離、要素の向き、要素が同じウィンドウ内にあるかどうか、のうちの任意の１つまたは複数を含み得る。

【0011】

イベントのシーケンスは、キープレスイベント、クリックイベント（例えば、シングルクリック、またはその倍数）、ドラッグイベント、ジェスチャイベント、のうちの任意の１つまたは複数を含み得る。ビデオに基づく推論されたイベント（ホバリングイベントなど）も、イベントのシーケンスに含まれ得る。典型的には、ＧＵＩにおいて見えるようになる１つまたは複数のインターフェース要素に基づいて、ホバリングイベントが推測され得る。

【0012】

分析するステップは、前記プロセスのサブプロセスのシーケンスを識別することをさらに含むことができる。サブプロセスのシーケンスにおいては、シーケンスのサブプロセスのうちの１つのプロセス出力がシーケンスの別のサブプロセスへのプロセス入力としてＲＰＡロボットによって使用され得る。

【0013】

生成されたワークフローは、別のサブプロセスに対応する以前生成されたワークフローの一部を含めることを可能にするようにユーザが編集可能であり、これにより、編集されたワークフローがＲＰＡロボットによって実行されたとき、ＲＰＡロボットにＧＵＩを用いてプロセスのあるバージョンを実施させ、このプロセスバージョンは別のサブプロセスを含む。前記プロセスのバージョンは、前記プロセスの既存のサブプロセスの代わりに、別のサブプロセスを含むことができる。

【0014】

第２態様では、上記の第１態様による方法によって訓練されたＲＰＡロボットを使用して、ＧＵＩを使用してプロセスを実行する方法が提供される。特に、前記方法は、ワークフローにおいて指定されたそれぞれのアンカー要素に基づいて、ＲＰＡロボットがＧＵＩ内の１つまたは複数の対話型要素を再識別することを含んでもよい。機械学習アルゴリズム（グラフニューラルネットワークなど）は、１つまたは複数の所定の特徴値（第１態様の方法の一部として決定されたものなど）に基づいて１つまたは複数の対話型要素を再識別するために使用され得る。

【0015】

上記の方法のいずれかを実行するように構成されたシステムおよび装置も提供される。例えば、ＧＵＩを使用するためにＲＰＡロボット（またはスクリプトまたはシステム）を訓練するためのシステムが提供される。システムは、オペレータ（またはユーザ）がＧＵＩを使用してプロセス（またはタスク）を実行するときＧＵＩのビデオをキャプチャし、オペレータがＧＵＩを使用して前記プロセスを実行するときにトリガされる一連のイベントをキャプチャするように構成される。システムは、前記ビデオおよび前記イベントのシーケンスを分析して、それによってワークフローを生成するように構成されたワークフロー生成モジュールをさらに備える。

【0016】

また、本発明は１つまたは複数のプロセッサによる実行に適した１つまたは複数のコンピュータプログラムを提供し、そのようなコンピュータプログラムは、上で概説され、本明細書で説明される方法を実施するように構成される。本発明はまた、そのような１つまたは複数のコンピュータプログラムを含む（またはその上に記憶する）１つまたは複数のコンピュータ可読媒体、および／またはネットワークを介して搬送されるデータ信号を提供する。

【図面の簡単な説明】

【0017】

本発明の実施形態を、添付の図面を参照して、例として説明する：

【図1】コンピュータシステムの１例を概略的に示す；

【図2】ロボットによるプロセス自動化（ＲＰＡ）のためのシステムを概略的に示す；

【図3a】ＲＰＡロボットを訓練するための例示的な方法を概略的に示す流れ図である；

【図3b】プロセスを実施するためにワークフローを実行するＲＰＡシステムのＲＰＡロボットの例示的な方法を概略的に示すフロー図である；

【図4】図２のＲＰＡシステムなどのようなＲＰＡシステムの例示的なワークフロー分析モジュールを概略的に図示する；

【図5】図２および図４のＲＰＡシステムとともに使用され得るようなコンピュータビジョンモジュールを概略的に図示する；

【図6】図２および図４のＲＰＡシステムとともに使用され得るようなアクション識別モジュールを概略的に図示する；

【図7】ワークフローの例と、ワークフローの編集されたバージョンとを概略的に示す；

【図8】図２に記載されるＲＰＡシステムなどのようなＲＰＡシステムの例示的な実行モジュールを概略的に示す。

【図9a】ＧＵＩのビデオからの画像を示す；

【図9b】再識別プロセスを経たＧＵＩのビデオからのさらなる画像を示す。

【発明を実施するための形態】

【0018】

以下の説明および図面において、本発明の特定の実施形態を説明する。しかしながら、本発明は説明される実施形態に限定されず、いくつかの実施形態は以下に説明される特徴の全てを含まなくてもよいことが理解されよう。しかしながら、添付の特許請求の範囲に記載される本発明のより広い趣旨および範囲から逸脱することなく、様々な修正および変更を本明細書でなすことができることは明らかであろう。

【0019】

図１は、コンピュータシステム１００の１例を概略的に示す。システム１００は、コンピュータ１０２を備える。コンピュータ１０２は、記憶媒体１０４、メモリ１０６、プロセッサ１０８、インターフェース１１０、ユーザ出力インターフェース１１２、ユーザ入力インターフェース１１４、ネットワークインターフェース１１６を備え、これらはすべて、１つまたは複数の通信バス１１８を介して互いにリンクされる。

【0020】

記憶媒体１０４は、ハードディスクドライブ、磁気ディスク、光ディスク、ＲＯＭなどのうちの１つまたは複数など、任意の形態の不揮発性データ記憶デバイスである。記憶媒体１０４は、コンピュータ１０２が機能するためにプロセッサ１０８が実行するオペレーティングシステムを記憶することができる。記憶媒体１０４はまた、１つまたは複数のコンピュータプログラム（またはソフトウェアもしくは命令またはコード）を記憶することができる。

【0021】

メモリ１０６は、データおよび／またはコンピュータプログラム（またはソフトウェアもしくは命令もしくはコード）を記憶するのに適した任意のランダムアクセスメモリ（記憶ユニットまたは揮発性記憶媒体）である。

【0022】

プロセッサ１０８は１つまたは複数のコンピュータプログラム（記憶媒体１０４および／またはメモリ１０６に記憶されたものなど）を実行するのに適した任意のデータ処理ユニットであってもよく、そのうちのいくつかは本発明の実施形態によるコンピュータプログラムであり、または、プロセッサ１０８によって実行されたときにプロセッサ１０８に本発明の実施形態による方法を実行させ、システム１００を本発明の実施形態によるシステムに構成させるコンピュータプログラムであってもよい。プロセッサ１０８は並列に、または互いに協働して動作する、単一のデータ処理ユニットまたは複数のデータ処理ユニットを備えてもよい。プロセッサ１０８は本発明の実施形態のためのデータ処理動作を実行する際に、記憶媒体１０４および／またはメモリ１０６にデータを記憶し、および／またはそこからデータを読み出すことができる。

【0023】

インターフェース１１０は、コンピュータ１０２の外部にある、またはそこから取り外し可能な、デバイス１２２へのインターフェースを提供するための任意のユニットである。デバイス１２２はデータ記憶デバイス、たとえば、光ディスク、磁気ディスク、ソリッドステート記憶デバイスなどのうちの１つまたは複数である。デバイス１２２は処理能力を有してもよく、例えば、デバイスは、スマートカードであってもよい。したがって、インターフェース１１０はプロセッサ１０８から受信する１つまたは複数のコマンドに従って、デバイス１２２からデータにアクセスし、またはデバイス１２２にデータを提供し、またはデバイス１２２と対話することができる。

【0024】

ユーザ入力インターフェース１１４は、システム１００のユーザまたはオペレータからの入力を受信するように構成される。ユーザは、ユーザ入力インターフェース１１４に接続されているか、またはそれと通信しているマウス（または他のポインティングデバイス）１２６および／またはキーボード１２４などのシステム１００の１つまたは複数の入力デバイスを介して、この入力を提供することができる。しかし、ユーザは、１つまたは複数の追加のまたは代替の入力デバイス（タッチスクリーンなど）を介してコンピュータ１０２に対して入力を提供し得ることが理解されよう。コンピュータ１０２は、ユーザ入力インターフェース１１４を介して入力デバイスから受信された入力を、プロセッサ１０８が後でアクセスおよび処理するためにメモリ１０６に記憶することができ、またはプロセッサ１０８がそれに応じてユーザ入力に応答することができるように、それをプロセッサ１０８に直接渡すことができる。

【0025】

ユーザ出力インターフェース１１２は、システム１００のユーザまたはオペレータにグラフィカル／ビジュアルおよび／またはオーディオ出力を提供するように構成される。したがって、プロセッサ１０８は所望のグラフィカル出力を表す画像／ビデオ信号を形成するようにユーザ出力インターフェース１１２に命令し、この信号を、ユーザ出力インターフェース１１２に接続されたシステム１００のモニタ（またはスクリーンまたはディスプレイユニット）１２０に提供するように構成することができる。これに加えて、または代替として、プロセッサ１０８は所望のオーディオ出力を表すオーディオ信号を形成するようにユーザ出力インターフェース１１２に命令し、この信号を、ユーザ出力インターフェース１１２に接続されたシステム１００の１つまたは複数のスピーカ１２１に提供するように構成することができる。

【0026】

最後に、ネットワークインターフェース１１６は、コンピュータ１０２が１つまたは複数のデータ通信ネットワークからデータをダウンロードおよび／またはアップロードするための機能を提供する。

【0027】

図１に示され、上記で説明されたシステム１００のアーキテクチャは単なる例示であり、異なるアーキテクチャ（例えば、図１に示されたものよりも少ない構成要素を有するか、または図１に示されたものよりも追加のおよび／もしくは代替の構成要素を有する）を有する他のコンピュータシステム１００が、本発明の実施形態において使用され得ることが理解されよう。例として、コンピュータシステム１００は、パーソナルコンピュータ、サーバコンピュータ、携帯電話、タブレット、ラップトップ、テレビセット、セットトップボックス、ゲームコンソール、他のモバイルデバイスまたは家電デバイスなどのうちの１つまたは複数を含むことができる。

【0028】

図２は、ロボットによるプロセス自動化（ＲＰＡ）のためのシステムを概略的に示す。図２に示すように、オペレータ（またはユーザ）２０１によって操作されるコンピュータシステム２００（上述のコンピュータシステム１００など）がある。コンピュータシステム２００は、ＲＰＡシステム２３０に対して通信可能に結合される。

【0029】

オペレータ２０１は、コンピュータシステム２００と対話して、コンピュータシステム２００にプロセス（または機能または活動）を実行させる。典型的には、コンピュータシステム２００上で実行されるプロセスは、１つまたは複数のアプリケーション（またはプログラムまたは他のソフトウェア）によって実行される。そのようなプログラムは、システム２００上で直接実施または実行されてもよく、または他の場所（リモートまたはクラウドコンピューティングプラットフォーム上など）で実行されてもよく、コンピュータシステム２００によって制御および／またはトリガされてもよい。オペレータ２０１は、１つまたは複数の対話型要素をオペレータ２０１に表示するグラフィカルユーザインタフェース（ＧＵＩ）２１０を介してコンピュータシステム２００と対話する。オペレータ２０１は、コンピュータシステム２００のユーザ入力インターフェース（上述のユーザ入力インターフェース１１４など）を介して、対話型要素と対話することができる。オペレータ２０１が、オペレータ２０１に表示されるＧＵＩ２１０と対話すると、オペレータ対話を反映するように通常変化することが理解されるであろう。例えば、オペレータがテキストをＧＵＩ２１０内のテキストボックスに入力すると、ＧＵＩ２１０は、テキストボックスに入力されたテキストを表示する。同様に、オペレータがポインティングデバイス（マウス１２６など）を使用してＧＵＩ２１０を横切ってカーソルを移動させると、ポインタはＧＵＩ２１０内を移動するように示される。

【0030】

ＲＰＡシステム２３０は、ＧＵＩ２１０のビデオ２１５を受信するように構成される。ＧＵＩ２１０のビデオ２１５は、オペレータ２０１がＧＵＩ２１０を使用して処理を実行する際に、オペレータ２０１に対して表示されるＧＵＩ２１０を示す（または視覚的に描写または記録する）。ＲＰＡシステム２３０はまた、プロセスを実行するためにＧＵＩを使用するオペレータによってＧＵＩに関連してトリガされる一連のイベント２１７を受信（またはキャプチャ）するように構成される。そのようなイベントは、オペレータ２０１によって実施される個々のキー押下、オペレータ２０１によって実施されるクリック（または他のポインタ相互作用イベント）、ＧＵＩ自体によって生成されるイベント（特定の要素に関するクリックイベント、ＧＵＩ内の特定のウィンドウのフォーカスの変更など）を含むことができる。

【0031】

ＲＰＡシステム２３０のワークフロー分析モジュール２４０は、ＧＵＩ２１０のビデオおよびイベントシーケンス２１７を分析し、それによって、ＧＵＩ２１０を使用して前記プロセスを実行するためのワークフロー（またはスクリプト）を生成するように構成される。ワークフローについては、以下でさらに詳細に説明する。しかしながら、ワークフロー２５０は、典型的にはＧＵＩ２１０との一連のインタラクション（またはアクション）を定義することが理解されよう。インタラクションは、ＧＵＩの特定の識別された要素上で、またはそれに関連して実行される入力であってもよく、これにより、インタラクションのシーケンスがＧＵＩ上で実行されるとき、ＧＵＩが動作しているシステム２００が前記プロセスを実行する。したがって、ワークフロー２５０は、ＧＵＩを使用してプロセスを実行するための命令のセットである（または表す）と考えることができる。

【0032】

ＲＰＡシステム２３０の実行モジュール２７０は、ワークフロー２５０を、１つまたは複数のさらなるコンピュータシステム２００－１；２００－２；．．．のそれぞれのＧＵＩ２１０－１；２１０－２；．．．上で実行させるように構成される。特に、実行モジュール２７０は、さらなるコンピューティングシステム２００－１；２００－２；．．．上で、それぞれのＧＵＩ２１０－１；２１０－２；．．．のビデオを受信するように構成される。実行モジュール２７０はまた、オペレータ２０１が提供する入力をエミュレートするコンピュータシステム２００－１；２００－２；．．に対して、入力２７５を提供するように構成される。それぞれのＧＵＩのビデオを分析することによって、実行モジュールはワークフロー２５０に存在するＧＵＩ要素を識別（または再識別）し、ワークフロー２５０に従ってさらなるＧＵＩに入力を提供することができる。このようにして、実行モジュールは、プロセスを実行するためにそれぞれのＧＵＩ２１０－１を介してシステム２００－１を動作させるＲＰＡロボット（またはソフトウェアエージェント）であると見なすことができる。さらなるシステム２００－１；２００－２；．．．は、上述のコンピュータシステム１００などのシステム２００などのシステムであってもよいことが理解されるであろう。代替として、さらなるコンピューティングシステム２００－１；２００－２；．．のうちの１つまたは複数は、仮想化されたコンピュータシステムであってもよい。実行モジュール２７０（またはＲＰＡロボット）の複数のインスタンスは、ＲＰＡシステム２３０によって並列に（または実質的に並列に）インスタンス化することができ、これによりプロセスの複数のインスタンスがそれぞれのさらなるコンピューティングシステム２００－１；２００－２；．．．上で実質的に同時に実施できる。

【0033】

図３ａは、図２のＲＰＡシステム２３０に従ってＲＰＡロボットを訓練するための例示的な方法３００を概略的に示す流れ図である。

【0034】

ステップ３１０において、オペレータ２０１がＧＵＩ２１０を使用して処理を実行すると、ＧＵＩ２１０のビデオ２１５がキャプチャされる。

【0035】

ステップ３２０において、オペレータ２０１がＧＵＩ２１０を使用して前記プロセスを実行する際にトリガされる一連のイベント２１７がキャプチャされる。

【0036】

ステップ３３０において、ビデオ２１５およびイベントシーケンス２１７に基づいてワークフローが生成される。特に、分析されることによりワークフローを生成するビデオ２１５および一連のイベント２１７は、ＲＰＡロボットによって実行されると、ＲＰＡロボットに、ＧＵＩを使用して前記プロセスを実行させる。ビデオ２１５およびイベントのシーケンス２１７は、１つまたは複数の訓練された機械学習アルゴリズムを使用して分析される。ステップ３３０は、前記ビデオからＧＵＩの１つまたは複数の対話型要素を識別するステップと、対話型要素のうちの少なくとも１つに対応するものとしてイベントのシーケンス内のイベントのうちの少なくとも１つをマッチングするステップとを有することができる。このようにして、ステップ３３０は、ワークフローのためのインタラクションのシーケンスを識別するステップを有することができる。

【0037】

図３ｂは、プロセスを実行するためにワークフロー２５０を実行するＲＰＡシステム２３０のＲＰＡロボットの例示的な方法３５０を概略的に示すフロー図である。ＲＰＡシステム２３０は、図２に関連して上述したようなＲＰＡシステム２３０であってもよい。

【0038】

ステップ３６０において、コンピューティングシステム２００－１上のＧＵＩ２１０－１のビデオが受信される。

【0039】

ステップ３７０において、コンピューティングシステム２００－１上のＧＵＩ２１０－１のビデオが受信される。

【0040】

ステップ３８０において、入力２７５が、ワークフロー２５０に基づいてコンピュータシステム２００－１に対して提供される。ステップ３８０は、ＧＵＩのビデオを分析してワークフロー２５０内に存在するＧＵＩ要素を再識別し、ワークフロー２５０に従ってＧＵＩに対して入力を提供するステップを有することができる。このようにして、ステップ３８０は、ＧＵＩを介してさらなるシステム２００－１を動作させて、プロセスを実行することができる。

【0041】

図４は、図２に関連して上述したＲＰＡシステム２３０などのＲＰＡシステムの例示的なワークフロー分析モジュールを概略的に示す。

【0042】

図４に示されるワークフロー分析モジュール２４０は、ビデオ受信器モジュール４１０と、イベント受信器モジュール４２０、コンピュータビジョンモジュール４３０、アクション識別モジュール４４０、ワークフロー生成モジュール４５０を備える。図４には、図２に関連して上述したように、ＧＵＩ２１０を介してコンピュータシステム２００と対話するオペレータ２０１も示されている。

【0043】

ビデオ受信器モジュール４１０は、ＧＵＩ２１０のビデオ２１５を受信（またはキャプチャ、または他の方法で取得）するように構成される。ＧＵＩ２１０のビデオ２１５は、コンピュータシステム２００上で（またはコンピュータシステムによって）生成さる。結果として得られるビデオ２１５は、次いで、適切なデータ接続を介してＲＰＡシステム２３０に対して（したがって、ビデオ受信器モジュール４１０に対して）送信される。

【0044】

コンピュータシステム２００は、データ接続によってＲＰＡシステム２３０に対して接続できることが理解されよう。データ接続は、コンピュータシステム２００とＲＰＡシステム２３０との間でデータを通信または転送するのに適した任意のデータ通信ネットワークを利用することができる。データ通信ネットワークは、ワイドエリアネットワーク、メトロポリタンエリアネットワーク、インターネット、ワイヤレス通信ネットワーク、有線またはケーブル通信ネットワーク、衛星通信ネットワーク、電話ネットワークなどのうちの１つまたは複数を含み得る。コンピュータシステム２００およびＲＰＡシステム２３０は、任意の適切なデータ通信プロトコルを介してデータ通信ネットワークを介して互いに通信するように構成され得る。たとえば、ネットワークデータ通信がインターネットを含むとき、データ通信プロトコルは、ＴＣＰ／ＩＰ、ＵＤＰ、ＳＣＴＰなどであり得る。

【0045】

同様に、コンピュータシステム２００は、ＧＵＩ２１０の視覚的表示をビデオ受信器モジュール４１０に対して転送する（または他の方法で送信する）ように構成される。ビデオ受信器モジュールは、転送されたＧＵＩの視覚表示からビデオ２１５を生成（またはキャプチャ）するように構成される。ＧＵＩの視覚表示を転送することは周知であり、本明細書ではこれ以上説明しない。そのような転送の例には、Ｘ１１ウィンドウシステムにおいて利用可能なＸ１１転送システム、Ｗｉｎｄｏｗｓオペレーティングシステムにおいて利用可能なＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎのリモートデスクトップサービスなどがある。リモートフレームバッファプロトコルを使用するようなフレームバッファタイプの転送システムも適している。そのようなシステムの例には、オープンソース仮想ネットワークコンピューティング（ＶＮＣ）およびその変形が含まれる。

【0046】

これに加えて、または代替として、ビデオ受信器モジュール４１０は、出力インターフェース１１２によって生成された画像／ビデオ信号を受信するように構成される。画像／信号は、コンピュータシステム２００のユーザ出力インターフェース１１２とコンピュータシステム２００のモニタ１２０との間の画像／信号経路内のハードウェアデバイスから受信される。ビデオ受信器モジュール４１０は、受信された画像／ビデオ信号からビデオ２１５を生成（またはキャプチャ）するように構成される。

【0047】

ビデオ受信器モジュール４１０の機能の一部は、コンピュータシステム２００上で（またはコンピュータシステムによって）実行できることが理解されよう。特に、コンピュータシステム２００は、ＧＵＩ２１０のビデオ２１５を生成するように構成されたソフトウェア（またはソフトウェアエージェント）を実行することができる。

【0048】

イベント受信モジュール４２０は、ＧＵＩを使用して処理を実行するオペレータによってＧＵＩに関連してトリガされた一連のイベント２１７を受信（またはキャプチャ）するように構成される。イベントは、コンピュータシステム２００への入力である場合がある（またはそれを含み得る）。特に、イベントは、（マウスポインタなどの）ポインタクリック、ポインタドラッグ、ポインタ移動、（キーボード、またはディスプレイベースのソフトキーボードなどを介した）キー押下、スクロールホイール移動、（ドラッグまたはクリックまたはジェスチャなどの）タッチスクリーン（またはパッド）イベント、ジョイスティック（またはｄパッド）移動、などのいずれかを含むことができる。

【0049】

イベントは、２つ以上の入力を含み得ることが理解されよう。例えば、複数の同時キー押下（制御キーおよび／または代替キー、または他の修飾キーの使用など）が、単一のイベントとして記録されてもよい。同様に、閾値時間内にグループ化された入力（例えば、ダブルクリックまたはトリプルクリック）は、単一のイベントとして記録され得る。イベントは、通常、メタデータも含む。イベントのメタデータは、イベント時の画面上のポインタ（またはカーソル）位置、キー（キー押下の場合）、などを含むことができる。

【0050】

ビデオ受信器モジュール４１０と同様に、コンピュータシステム２００は、ＧＵＩ２１０に関してオペレータによってトリガされたイベントをイベント受信器モジュール４２０に対して転送する（または他の方法で送信する）ように構成される。イベント受信器モジュール４２０は、受信されたイベントを順に生成（またはキャプチャ）するように構成される。入力イベントの転送は周知であり、本明細書ではこれ以上説明しない。そのような転送の例には、Ｘ１１ウィンドウシステムにおいて利用可能なＸ１１転送システム、Ｗｉｎｄｏｗｓオペレーティングシステムにおいて利用可能なＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎのリモートデスクトップサービス、オープンソース仮想ネットワークコンピューティング（ＶＮＣ）およびその変形が含まれる。典型的には、そのような転送システムは、オペレーティングシステムレベルでイベントをキャプチャするソフトウェアエージェント（またはヘルパープログラム）をコンピュータシステム２００上で実行することを伴う。ＭｉｃｒｏｓｏｆｔＲｅｍｏｔｅＤｅｓｋｔｏｐＳｅｒｖｉｃｅｓやＸ１１転送システムなど、転送システムがオペレーティングシステムの一部である場合もある。

【0051】

これに加えて、または代替として、イベント受信器モジュール４２０は、１つまたは複数の入力デバイス１２４、１２６によって生成された入力信号を受信するように構成される。入力信号は、１つまたは複数の入力デバイス１２４、１２６とコンピュータシステム２００のユーザ入力インターフェース１１４との間の入力信号経路内のハードウェアデバイスから受信される。そのようなハードウェアデバイス（キーロガーなど）は周知であり、本明細書ではこれ以上説明しない。イベント受信器モジュール４２０は、受信された入力信号からイベント２１７のシーケンスを生成（またはキャプチャ）するように構成される。

【0052】

コンピュータビジョンモジュール４３０は、ＧＵＩのビデオ２１５からＧＵＩ２１０の要素（一般にグラフィカルユーザインタフェース要素と呼ばれる）を識別するように構成される。コンピュータビジョンモジュール４３０は、特徴検出などの画像分析技法を使用して、予想されるＧＵＩ要素の既知の構成（または外観）に基づいてＧＵＩ要素を識別するように構成される。これに加えて、または代替として、コンピュータビジョンモジュール４３０は、特定のＧＵＩ要素を識別するように訓練された機械学習アルゴリズムを使用するように構成することができる。コンピュータビジョンモジュール４３０は、識別されたＧＵＩ要素のテキスト構成要素を識別するために光学文字認識技法を使用するように構成することができる。このような識別においては、標準的な物体検出技術を用いることができる。例えば、"Mask R-CNN"、Kaiming He、Georgia Gkioxari、Piotr Dollar、Ross Girshick、IEEE Transactions on Pattern Analysis and Machine Intelligence 2020、DOI：10.1109/TPAMI.2018.2844175に記載されているように、Ｍａｓｋ－ＲＣＮＮアプローチを使用することができ、その全内容は参照により本明細書に組み込まれる。

【0053】

追加または代替として、そのような技法はＧＵＩ要素を検出するために、深層学習モデルなどの機械学習を使用することができる。そのようなディープラーニングモデルは、ＧＵＩ要素の注釈付きスクリーンショット（またはその一部）を含むトレーニングデータを使用してトレーニングすることができる。特に、注釈は、所与のスクリーンショット内の既知のＧＵＩ要素を識別するために使用されるバウンディングボックスを含むことができる。

【0054】

コンピュータビジョンモジュール４３０は、所与の識別されたＧＵＩ要素のための１つまたは複数のアンカーＧＵＩ要素を識別するようにさらに構成される。コンピュータビジョンモジュール４３０はまた、１つまたは複数のアンカー要素を所与の識別されたＧＵＩ要素と関連付けるように構成される。以下で簡単に説明するように、アンカー要素は、予想される同時発生ＧＵＩ要素に基づいて所与の要素について識別することができる。アンカー要素は、典型的には所与のＧＵＩ要素について識別され、これにより、ＧＵＩの変化に起因して所与のＧＵＩ要素の位置（または配置）が変化した場合にコンピュータビジョンモジュール４３０が所与の要素を再識別することを可能にする。

【0055】

アクション識別モジュール４４０は、ＧＵＩ２１０上でオペレータ２０１によって実行される１つまたは複数の動作を識別するように構成される。特に、アクション識別モジュール４４０は、イベント２１７のシーケンスと、コンピュータビジョンモジュール４３０によって識別されたＧＵＩ要素とに基づいて、動作を識別するように構成される。通常、アクションは、１つまたは複数のＧＵＩ要素に対して適用される入力を含む。例えば、アクションは、ＧＵＩ要素（ボタンまたは他のクリック可能な要素など）上のポインタクリック、テキストボックスへのテキスト入力、ドラッグイベントによる１つまたは複数のＧＵＩ要素の選択、などのうちのいずれかであり得る。

【0056】

アクション識別モジュール４４０は、典型的にはイベント２１７のシーケンス内の１つまたは複数のイベントを１つまたは複数の識別されたＧＵＩ要素と照合することによって、アクションを識別するように構成される。例えば、クリック可能なＧＵＩ要素（ボタンなど）と一致するポインタ位置を有するポインタクリックは、ＧＵＩ要素がクリックされたアクションとして識別され得る。同様に、識別されたテキストボックスにカーソルが存在するときに発生する１つまたは複数のキープレスイベントは、テキストがテキストボックスに入力されるアクションとして識別され得る。これに加えて、または代替として、ＧＵＩ要素内で発生しないクリックイベントなどのイベントは無視され得る。

【0057】

ワークフロー生成モジュール４５０は、アクション識別モジュール４４０によって識別されたアクションに基づいてワークフロー２５０を生成するように構成される。上述のように、ワークフロー２５０は、ＧＵＩ２１０との一連の対話を定義する。ワークフローの各対話（またはステップ）は、典型的には、トリガされる入力（または複数の入力）と、作用されるＧＵＩ要素とを定義する。例えば、対話はボタンのクリックであってもよく、対話はクリックされるボタン（すなわち、ＧＵＩ要素）およびクリックのタイプ（例えば、右または左）を指定してもよい。対話（またはステップ）はまた、作用を受けるＧＵＩ要素のためのアンカー要素を指定（または定義する、または示す）し、これにより、以下で簡単に説明するように、ワークフローが実行されるときにＧＵＩ要素の再識別を可能にする。

【0058】

このようにして、生成されたワークフロー２５０は以下で簡単に説明するように、実行システム（またはＲＰＡロボット）がＧＵＩを使用してプロセスを実行することを可能にすることが理解されよう。言い換えれば、ワークフロー分析モジュールは、生成されたワークフロー２５０によって、所与のＲＰＡロボットを訓練して、ＧＵＩ２１０を使用して前記プロセスを実行する人間オペレータ２０１の観察に基づくプロセスを実行するように構成される。

【0059】

図５は、図４に関連して上述したコンピュータビジョンモジュールなどのコンピュータビソンモジュール４３０を概略的に示す。

【0060】

コンピュータビジョンモジュール４３０は、代表フレーム識別モジュール５１０、ＧＵＩ要素識別モジュール５２０、イベント識別モジュール５３０を備える。

【0061】

代表フレーム識別モジュール５１０は、ＧＵＩのビデオ２１５内の代表フレーム（または画像）を識別するように構成される。代表フレームは、特定の状態にあるＧＵＩを描写するフレームとして識別され得る。オペレータ２０１がＧＵＩ２１０と対話するとき、通常、ＧＵＩ２１０は、新しい状態を反映するようにＧＵＩの表示が変化することによって状態を変化させることが理解されよう。例えば、新しいウィンドウは新しいＧＵＩ(またはインターフェース）要素とともに表示されてもよく、ダイアログボックスが表示されてもよい、などである。同様に、ＧＵＩ(またはインターフェース）要素を除去することができ、例えば、オペレータがそれらと対話すると、ダイアログボックスを消すことができ、古いタブの表示を新しいタブに置き換える新しいタブを選択することができる、などである。このようにして、表示されたＧＵＩに対する変更に基づいて、代表的なフレームが識別され得ることが理解されるであろう。

【0062】

代表フレーム識別モジュール５１０は、ビデオ分析技法を適用して、それらに先行するフレーム（または複数のフレーム）に対する視覚差の閾値レベルを上回る、ビデオ内のフレームまたは画像を識別することによって、代表フレームを識別するように構成され得る。これに加えて、または代替として、代表フレーム識別モジュール５１０は、前のフレームに存在しなかった所与のフレームに存在する新しいインターフェース要素を識別することに基づいて、代表フレームを識別するように構成される。ＧＵＩ要素の識別は、以下で簡単に説明するＧＵＩ要素識別モジュール５２０によって実行することができる。

【0063】

代表フレーム識別モジュール５１０は、適切な訓練された機械学習アルゴリズム（またはシステム）を使用して、代表フレームを識別するように構成される。ここで、機械学習アルゴリズムは、ＧＵＩのビデオに基づいてＧＵＩ状態変化を識別するように訓練される。特に、機械学習アルゴリズムは、ＧＵＩのビデオからのフレーム（または画像）を、ビデオ内の隣接する（または近くの）フレームに対するフレームの視覚的外観の変化に基づいて代表的なフレームとして分類することができる。そのような分類はまた、視覚的外観のそのような変化と入力イベントとの間の相関（または共起）に基づく場合があり、これにより、ユーザインタラクションに起因する外観の変化と、そうではない変化とを区別することができる。

【0064】

ＧＵＩ要素識別モジュール５２０は、ＧＵＩ内の１つまたは複数のＧＵＩ(またはインターフェース）要素を識別するように構成される。特に、ＧＵＩ要素識別モジュール５２０は、代表フレーム識別モジュール５１０によって識別される代表フレームなどのＧＵＩのビデオ２１５のフレームの画像からＧＵＩ要素を識別するように構成される。ＧＵＩ要素識別モジュール５２０は、特徴検出などの画像分析技法を使用して、予想されるＧＵＩ要素の既知の構成（または外観）に基づいてＧＵＩ要素を識別するように構成することができる。これに加えて、または代替として、ＧＵＩ要素識別モジュール５２０は、特定のＧＵＩ要素を識別するように訓練された機械学習アルゴリズムを使用するように構成される。

【0065】

さらに、ＧＵＩ要素識別モジュール５２０は１つまたは複数のアンカー要素を識別し、および／または所与の識別されたＧＵＩ要素に関連付けるように構成される。所与のＧＵＩ要素のためのアンカーＧＵＩ要素は、所与の識別された要素への近接度（または距離）に基づいて識別される。特に、ＧＵＩ要素は、所与のＧＵＩ要素の所定の距離内に配置される場合、アンカー要素として識別され得る。これに加えて、または代替として、アンカー要素は、アンカー要素のタイプおよび所与の要素に基づいてアンカー要素として識別され得る。例えば、所与のＧＵＩ要素がテキストボックスである場合、テキストラベルは、テキストボックスの近くに存在することが期待される。このように、ラベルＧＵＩ要素は、テキストボックスＧＵＩ要素のためのアンカー要素として識別され得る。同様に、所与のＧＵＩ要素がラジオボタン要素である場合、識別されたラジオボタンの近くにさらなるラジオボタン要素が存在することが予期される。アンカー要素を識別するための他の方法も、上述のものの代わりに、または上述のものに加えて、使用され得ることが理解されよう。そのような方法は、所定の数の最近傍要素をアンカー要素として識別すること（ｋ－最近傍アプローチ）、１つまたは複数の所定の方向における最近傍要素をアンカー要素として識別すること、所与の識別された要素のある所定の領域内のすべての要素をアンカー要素として識別することなどの任意の組み合わせを含み得る。

【0066】

ＧＵＩ要素識別モジュール５２０はさらに、ＧＵＩのビデオ２１５（またはさらなるビデオ）の別画像（またはフレーム）において識別されたＧＵＩ要素（ＧＵＩ要素識別モジュール５２０によって以前に識別されたＧＵＩ要素など）を再識別するように構成される。特に、ＧＵＩ要素識別モジュール５２０は、以前に識別されたＧＵＩ要素に関連するアンカー要素に基づき、以前の画像から、別画像において識別されたＧＵＩ要素が以前に識別されたＧＵＩ要素に対応することを決定するように構成される。別画像中のＧＵＩ要素は、以前に識別されたＧＵＩ要素の同じアンカー要素に対応する別画像中のＧＵＩ要素のアンカー要素を識別することに基づいて、再識別される。アンカー要素は、それぞれの識別されたＧＵＩ要素に対するアンカー要素の相対位置が所定の閾値内にある場合、別のアンカー要素に対応すると見なすことができる。同様に、識別されたＧＵＩ要素が複数（またはセット）のアンカー要素に関連付けられている場合、アンカー要素のセットの、それぞれの識別されたＧＵＩ要素に対する相対位置が所定の閾値内で一致する場合、アンカー要素のセットは、別のアンカー要素のセットに対応すると見なされる。アンカー要素は、相対的位置に関連する重み（または重要度）を有することができ、より高い重み付けされたアンカー要素は、より小さい所定の閾値を白色化することに合意するために必要とされることが理解されよう。

【0067】

このようにして、ＧＵＩ要素識別モジュールは、ＧＵＩの後続インスタンスのビデオにおいて、ＧＵＩ内の特定の入力フィールドなどの同じＧＵＩ入力要素を再識別できることが理解されよう。アンカー要素の使用により、ＧＵＩ要素が位置を変更するようにＧＵＩが修正されても、この再識別は依然として実施可能である。これは、移動された可能性が高いテキストボックスのラベルなどの共起ＧＵＩ要素（アンカー要素）を使用して、ＧＵＩ要素を再識別できるからである。

【0068】

ＧＵＩ要素識別モジュール５２０は、適切な訓練された機械学習アルゴリズム（またはシステム）を使用して、それぞれのアンカー要素に基づいてＧＵＩ要素を再識別するように構成される。例えば、グラフニューラルネットワークは、機械学習アルゴリズムの一部として使用され得る。ここで、ＧＵＩ要素は、グラフ内のノードによってマッピングされる（または表される）。ノード間の接続は、２つのノードに依存する異なる特徴値を有する。そのような特徴値は、２つのノード間の距離、ノードの向き（または姿勢）、ノードがアプリケーションウィンドウ内の同じパネルに属するかどうか、などのうちの任意の１つまたは複数を含み得る。グラフニューラルネットワークは、ノードを再識別することを最適化することによって訓練され得る。事実上、グラフニューラルネットワークは、トレーニングプロセスを通して、どの特徴値が再識別に重要であるかを学習する。このようにして、ＧＵＩ要素識別モジュールは、アンカー要素を最初に識別するときにこれを考慮することができ、再識別のためにより効果的なアンカー要素を選択する。

【0069】

ＧＵＩ要素識別モジュール５２０は、機械学習アルゴリズムの一部としてグラフニューラルネットワークを使用して、同じように所与の要素について最初にアンカー要素を識別するように構成できることが理解されよう。特に、要素は、上述した特徴値に基づいてアンカー要素として識別されてもよい。

【0070】

イベント識別モジュール５３０は、ＧＵＩのビデオ２１５に基づいてさらなるイベントを識別するように構成される。本明細書で上述したイベントは、オペレータ２０１からの入力によってトリガされる（または他の形で関与する）イベントに関するが、他のイベントはオペレータの非活動に基づいて、または外部トリガに基づいて発生し得ることが理解されよう。例えば、対話型要素の上にポインタをホバリングすることは、１つ以上のさらなるＧＵＩ要素（コンテキストメニューなど）の表示をトリガすることができるホバリングイベントと考えることができる。これは非アクティビティによって引き起こされるので、すなわち、オペレータは所定の期間、ポインタを動かさないので、そのようなイベントはイベント受信器モジュール４２０によってキャプチャされたイベント２１７のシーケンスに現れないことがある。これに加えて、または代替として、非アクティビティは、広告などの動的コンテンツ（または要素）を識別するために使用され得る。これは、ウェブページがロードを終了したときなどのページロードイベントを決定することに基づいて実施できる。イベント識別モジュール５３０は、イベント受信器モジュール４２０によってキャプチャされたイベント２１７のシーケンス中に対応するイベントがないポイントにおいて、ＧＵＩ中の１つまたは複数の別ＧＵＩ要素の外観（またはマテリアライゼーションまたは表示）を識別することに基づいて、さらなるイベントを識別するように構成することができる。イベント識別モジュール５３０は、適切な訓練された機械学習アルゴリズム（またはシステム）を使用して、ＧＵＩのビデオ２１５に基づいてさらなるイベントを識別するように構成することができる。イベント識別モジュール５３０は、同様のユーザ入力を有するイベントを区別するように構成されてもよい。例えば、マウスをドラッグするユーザ入力は、いくつかの異なる対話に関連し得る。これらの対話は、識別されたＧＵＩ要素（または複数の要素）に依存し得る。例えば、マウスをドラッグするユーザ入力は、スライダをドラッグすること、要素をドラッグアンドドロップすること、ドラッグすることによって作成された領域内の要素を選択すること（投げ縄ツールとして知られる）に関連することができる。これらはすべて、マウス左ボタン押下、マウス移動、およびマウス左ボタンのリリースという類似の入力イベントキャプチャであるが、意味的に異なる機能を有する。イベント識別モジュール５３０は、識別されたＧＵＩ要素との照合入力に基づいて、これらのイベントを区別するように構成され得る。特に、イベント識別モジュール５３０は、ヒューリスティックまたは訓練された機械学習分類モデルを使用することができる。

【0071】

イベント識別モジュール５３０は典型的には、アクション識別モジュール４４０によるさらなる処理のために、イベントのシーケンス２１７内に識別されたさらなるイベントを含むように構成される。

【0072】

図６は、図４に関連して上述したアクション識別モジュール４４０などのアクション識別モジュール４４０を概略的に示す。

【0073】

アクション識別モジュール４４０は、イベント照合モジュール６１０、サブプロセス識別モジュール６２０、入力／出力識別モジュール６３０を備える。

【0074】

イベント照合モジュール６１０は上述のように、イベント２１７のシーケンス内の１つまたは複数のイベントを１つまたは複数の識別されたＧＵＩ要素と照合することによって、アクションを識別するように構成される。例えば、イベントマッチングモジュール６１０は、イベントと、アクションを受けた対応する識別されたＧＵＩ要素とをペアにすることができる。これは、イベントの空間座標（マウスクリックなど）と、画面上のその位置のＧＵＩ要素とをマッチングすることによって実施できる。空間座標（キーボードアクションなど）を持たないイベントの場合、マウスクリックなどの空間座標を有する以前のイベントを使用して、ＧＵＩ要素とイベントとをペアリングすることができる。これに加えて、または代替的に、テキストカーソル（または他の入力マーカ）などの特定の識別されたＧＵＩ要素の位置を使用して、イベント（キー押下など）をそれぞれのＧＵＩ要素（テキストボックスなど）とペアにすることができる。

【0075】

サブプロセス識別モジュール６２０は、１つまたは複数のサブプロセスを識別するように構成される。ＧＵＩ２１０を使用してオペレータ２０１によって実行される所与のプロセスは、別々のサブプロセスに分解され得ることが理解されよう。典型的にはプロセスが２つ以上の別個のタスクを含むことができ、各々は１つ以上のアプリケーションのセットによって実行される。例えば、経費請求書を提出するプロセスの場合、第１アプリケーションを使用して必要な請求書を取得する第１サブプロセスがあり、第２サブプロセスとして、請求書はその後、内部会計プラットフォームにアップロードされる必要があり、最後に、第３サブプロセスとして、経費アプリケーションが、請求書自体を生成するために使用される。したがって、サブプロセス識別モジュール６２０は、特定のアプリケーションに対応する一連のイベント２１７としてサブプロセスを識別するように構成することができる。アプリケーション（およびアプリケーションの使用）は、コンピュータビジョンモジュール４３０によって識別されるＧＵＩ要素に基づいて識別され得る。例えば、特定のアプリケーションのウィンドウがフォーカスされていた期間中にトリガされたイベントは、サブプロセスとして識別され得る。１例において、サブプロセスは、フォーカスされているときに特定のウィンドウ上でトリガされるすべてのイベント、および／またはウィンドウ上でトリガされるすべてのイベントとして識別され得るが、そのウィンドウのＧＵＩ要素は所定のしきい値を超えて変化しない。ウィンドウ上でトリガされたイベントを識別することによって、そのウィンドウのＧＵＩ要素が所定の閾値を超えて変化しない間に、例えば、タブ付きウィンドウ上の特定のタブに関連してサブプロセスを識別することができる。ここで、タブ間を移動すると、要素のしきい値数（またはそれ以上）が変化する（例えば、位置をシフトする、追加する、または除去する）可能性がある。他のそのようなヒューリスティックアプローチ（または基準）も使用され得ることが理解されよう。

【0076】

入力／出力識別モジュール６３０は、１つまたは複数のプロセス入力を識別するように構成される。所与のプロセスを実行する際に、オペレータ２０１は、データを入力する（または入力を処理する）ためにＧＵＩを用いることができることが理解されよう。例えば、オペレータ２０１は、プロセスの一部としてＧＵＩにユーザ名および／またはパスワードを投入（または入力）することができる。入力／出力識別モジュール６３０は、以下で簡単に説明するデータ記憶装置８１０（上述したデータ記憶装置１２２など）に入力データを記憶するように構成することができる。

【0077】

入力／出力識別モジュール６３０は、プロセス入力を、入力データが記憶装置８１０から取り出されることを必要とする動作として識別するように構成される。

【0078】

入力／出力識別モジュール６３０は、サブプロセスのための１つまたは複数のプロセス入力および／またはプロセス出力を識別するように構成される。サブプロセスは、別サブプロセスへのプロセス入力として使用され得る出力（またはプロセス出力）を提供できることが理解されよう。プロセス出力は、ＧＵＩを介して表示されるデータを含むことができる。例えば、上述の第１サブプロセスでは、取り出された請求書を閲覧することにより、請求書番号をクリップボードにコピーできるようにすることを含んでもよい。次に、第３サブプロセスは、この請求書番号を経費請求書フォームに貼り付けることを含むことができる。このようにして、第１サブステップのプロセス出力は、クリップボードにコピーされた請求書番号となる。クリップボードのこの請求書番号は、第３サブステップのプロセス入力として使用される。

【0079】

言い換えれば、サブプロセスに対する入力がある場合（ユーザ名および／またはパスワードなど）、ユーザは、入力のために使用されるソース（データストア、クリップボード、ファイルなど）を指定するための入力のためのオプションを与えられる場合がある。

【0080】

図７は、例示的なワークフロー７００を概略的に示す。図７には、ワークフローの編集済みバージョン７５０も示されている。

【0081】

ワークフロー７００は、上述のようなプロセス入力およびプロセス出力を有する４つのサブプロセス１、２、３、４を含む。サブプロセス１は、２つのプロセス出力１－１；１－２を有する。第１プロセス出力１－１は、サブプロセス２に対するプロセス入力である。第２プロセス出力１－２は、サブプロセス３に対するプロセス入力である。サブプロセス２は、サブプロセス３のためのプロセス入力であるプロセス出力２－１を有する。同様に、サブプロセス３は、サブプロセス４のためのプロセス入力であるプロセス出力３－１を有する。

【0082】

サブプロセスによって実行されるタスクは、同じように異なるサブプロセスで実行されてもよいことが理解されるであろう。異なるサブプロセスは、異なるワークフローの一部を形成するものであってもよい。例えば、上述の経費請求を提出するプロセスについては、内部会計プラットフォームの変更があり得る。これは、新しいプラットフォームを使用するために、第２サブプロセスが変更されることを必要とする場合がある。これは、ワークフローの編集されたバージョンを生成するために既存のワークフロー内の新しい会計プラットフォームを使用する新しいサブプロセスを代わりに置き換えることによって、ワークフローを再記録（または再生成）することなく達成することができる。

【0083】

ワークフローの編集されたバージョン７５０は、ワークフロー７００のサブプロセス１、２、４を含むが、第２サブプロセス２は別サブプロセス５に置き換えられる。これは、別サブプロセスが第２サブプロセスと同じプロセス入力およびプロセス出力を有するので、可能であった。図から分かるように、第１プロセス出力１－１は、ここでは別サブプロセスのためのプロセス入力である。別サブプロセス５は、サブプロセス３のためのプロセス入力であるプロセス出力５－１を有する。

【0084】

このようにして、ワークフローは、新しいプロセスがオペレータ２０１によって実行されることなく、新しいプロセスを実行して、新しいワークフローを形成するように変更および／または組み合わされ得ることが理解されよう。

【0085】

図８は、図２に関連して上述したＲＰＡシステム２３０などのＲＰＡシステムの例示的な実行モジュール２７０を概略的に示す。

【0086】

図８に示される実行モジュール２７０は、ビデオ受信器モジュール４１０、コンピュータビジョンモジュール４３０、（上述のデータ記憶デバイス１２２などの）データ記憶装置８１０、入力トリガモジュール８２０を備える。図８には、ＧＵＩ２１０－１を有するコンピュータシステム２００－１も示されている。

【0087】

ビデオ受信器モジュール４１０およびコンピュータビジョンモジュール４３０の上記の説明は、図８に示されるビデオ受信器モジュール４１０およびコンピュータビジョンモジュール４３０に対して等しく適用されることが理解されよう。特に、コンピュータビジョンモジュール４３０は、ビデオ受信器モジュール４１０からＧＵＩ２１０のビデオ２１５を受信するように構成されることが理解されよう。

【0088】

図８に示されるように、実行モジュール２７０は、前述のようにワークフロー２５０を受信する（またはロードする）。これは、実行モジュール２７０がコンピュータシステム２００－１のＧＵＩを使用してワークフロー２５０のプロセスを実行するように訓練する（または他の方法で可能にする）のに役立つ。

【0089】

入力トリガモジュール８２０は、コンピュータシステム２００への入力信号を生成して、ワークフローにおいて指定された対話を実行するように構成される。特に、所与の対話について、入力トリガモジュール８２０は、コンピュータビジョンモジュール４３０を使用して、対話において指定されたＧＵＩ要素を再識別するように構成される。入力トリガモジュールは、再識別されたＧＵＩ要素に基づいて対話を実行するための入力を生成するように構成される。例えば、特定のボタン上のポインタクリックを指定するための対話である場合、入力トリガモジュールはポインタ移動およびクリックを生成し、これにより、ボタンの位置でクリックが発生してコンピュータビジョンモジュールによって再識別されるようにする。したがって、ワークフローが生成されたときのボタンの位置に対するＧＵＩ内のボタンの任意の変位が考慮される。

【0090】

入力トリガモジュール８２０はまた、データストレージ８１０などの外部ソースから対話のための特定のテキスト入力を取り出すように構成され得る。データ記憶装置は、ワークフローの特定のステップ（またはインタラクション）のための特定のテキスト入力を記憶するように構成されてもよい。そのような特定のテキスト入力の例は、ユーザ名および／またはパスワード、事前定義されたＩＤ番号またはコードなどを含むことができる。データ記憶装置は、そこに記憶されたデータの機密性を保証するために保護されてもよい。このようにして、（ユーザ名およびパスワードなどの）機密入力は、必要に応じて、プロセスの将来の実行のために保護および／または変更され得る。

【0091】

したがって、ワークフローにおける対話を反復することによって、実行モジュール２７０は、ＧＵＩを介してワークフローのプロセスを実行できることが理解されよう。このようにして、実行モジュール２７０は、プロセスを実行するように訓練されたＲＰＡロボットであると理解される。

【0092】

図９ａは、ＧＵＩのビデオ２１５からの画像９００（またはフレーム）を示す。いくつかのＧＵＩ要素は前述のように、ＧＵＩ要素識別モジュール５２０によって識別されている。識別されたＧＵＩ要素は図の目的のために、ボックスを用いて図に示される。図９ａから分かるように、識別されたＧＵＩ要素は、アイコン、テキストラベル、タブ、メニュー項目（ボタン）などを含む。

【0093】

特に、特定のＧＵＩ要素９１０（図９ａのメニュー項目「コンピュータ」）が識別され、４つの関連するアンカー要素９２０も識別されている。アンカー要素の識別は前述の通りであり、特定のＧＵＩ要素９１０の再識別を可能にするためである。この例では、アンカー要素がｋ個の最近傍に基づいてＧＵＩ要素識別モジュールによって選択されている。この場合、ｋはここでは４に等しい。これは、近接性を特徴値として優先することを理解することができる。しかしながら、互いに対するアンカー要素および／または識別された要素の向きも使用されてもよく、すなわち、アンカーボックスは、候補のすぐ近くであるだけでなく、同じ向き／方向でもある。

【0094】

図９ｂは、図９ａのＧＵＩのさらなるビデオ２１５からの画像９５０（またはフレーム）を示す。画像９５０において、ＧＵＩのいくつかの要素は図９に示される画像９００に関して異なる。ここでも、前述のように、ＧＵＩ要素識別モジュール５２０によって、いくつかのＧＵＩ要素が識別されている。識別されたＧＵＩ要素は、図中にボックスで示されている。図９ａから分かるように、識別されたＧＵＩ要素は、アイコン、テキストラベル、タブなどを含む。

【0095】

画像９５０において、図９ａにおいて識別された特定のＧＵＩ要素９１０は識別されたアンカー要素９２０に基づいて、前述のように、ＧＵＩ要素識別モジュール５２０によって再識別されている。このようにして、特定の要素９１０は、ＧＵＩに対する変更にもかかわらず、再識別される。

【0096】

記載された方法は、特定の順序で実行される個々のステップとして示されていることが理解されるであろう。しかしながら、当業者は、これらのステップが所望の結果を依然として達成しながら、異なる順序で組み合わされ、または実行され得ることを理解するであろう。

【0097】

本発明の実施形態は、様々な異なる情報処理システムを使用して実装され得ることが理解されよう。特に、図およびその説明は例示的なコンピューティングシステムおよび方法を提供するが、これらは単に、本発明の様々な態様を説明する際に有用な標準を提供するために提示される。本発明の実施形態は、パーソナルコンピュータ、ラップトップ、パーソナルデジタルアシスタント、携帯電話、セットトップボックス、テレビ、サーバコンピュータなどの任意の適切なデータ処理デバイス上で実行され得る。もちろん、システムおよび方法の説明は議論の目的のために簡略化されており、それらは、本発明の実施形態のために使用され得る多くの異なるタイプのシステムおよび方法のうちの１つにすぎない。論理ブロック間の境界は単なる例示であり、代替実施形態は論理ブロックまたは要素をマージすることができ、または様々な論理ブロックまたは要素に機能の代替分解を課すことができることが理解されよう。

【0098】

上述の機能は、ハードウェアおよび／またはソフトウェアとして１つまたは複数の対応するモジュールとして実装され得ることが理解されよう。たとえば、上述の機能は、システムのプロセッサによって実行されるための１つまたは複数のソフトウェア構成要素として実装され得る。代替として、上述の機能は、１つまたは複数のフィールドプログラマブルゲートアレイ（ＦＰＧＡ）、および／または１つまたは複数の特定用途向け集積回路（ＡＳＩＣ）、および／または１つまたは複数のデジタル信号プロセッサ（ＤＳＰ）、および／または他のハードウェア構成上などのハードウェアとして実装され得る。本明細書に含まれるフローチャートに実装される方法ステップ、または上述の方法ステップはそれぞれ対応するそれぞれのモジュールによって実装されてもよく、本明細書に含まれるフローチャートに実装されるか、または上述のように、複数の方法ステップは、単一のモジュールによって一緒に実装されてもよい。

【0099】

本発明の実施形態がコンピュータプログラムによって実施される限り、コンピュータプログラムを担持する記憶媒体および伝送媒体は、本発明の態様を形成することが理解されよう。コンピュータプログラムは、コンピュータによって実行されると、本発明の実施形態を実行する、１つまたは複数のプログラム命令またはプログラムコードを有する可能性がある。本明細書で使用される「プログラム」という用語は、コンピュータシステム上で実行するために設計された命令のシーケンスであってもよく、サブルーチン、関数、プロシージャ、モジュール、オブジェクトメソッド、オブジェクト実装、実行可能アプリケーション、アプレット、サーブレット、ソースコード、オブジェクトコード、共有ライブラリ、動的リンクライブラリ、および／またはコンピュータシステム上で実行するために設計された他の命令のシーケンスを含んでもよい。記憶媒体は、磁気ディスク（ハードドライブまたはフロッピーディスクなど）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭまたはＢｌｕＲａｙディスクなど）、またはメモリ（ＲＯＭ、ＲＡＭ、ＥＥＰＲＯＭ、ＥＰＲＯＭ、フラッシュメモリ、またはポータブル／リムーバブルメモリデバイスなど）などであり得る。伝送媒体は、通信信号、データブロードキャスト、２つ以上のコンピュータ間の通信リンクなどであり得る。

【図1】