特開2024-96684 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ユーアイパス，インコーポレイテッドの特許一覧

特開2024-96684タスクマイニングを使用した、ソースおよびターゲット間の人工知能主導のセマンティック自動データ転送

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6A
6B
7
8A
8B
8C
8D
8E
8F
8G
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024096684

(43)【公開日】2024-07-17

(54)【発明の名称】タスクマイニングを使用した、ソースおよびターゲット間の人工知能主導のセマンティック自動データ転送

(51)【国際特許分類】

G06N 5/047 20230101AFI20240709BHJP

G06F 18/22 20230101ALI20240709BHJP

G06N 20/00 20190101ALI20240709BHJP

G06F 8/71 20180101ALI20240709BHJP

G06Q 10/10 20230101ALI20240709BHJP

【ＦＩ】

G06N5/047

G06F18/22

G06N20/00

G06F8/71

G06Q10/10 310

【審査請求】未請求

【請求項の数】28

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2024000084

(22)【出願日】2024-01-04

(31)【優先権主張番号】18/149,873

(32)【優先日】2023-01-04

(33)【優先権主張国・地域又は機関】US

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＺＩＧＢＥＥ

２．ＢＬＵＥＴＯＯＴＨ

３．ＷＣＤＭＡ

(71)【出願人】

【識別番号】520262319

【氏名又は名称】ユーアイパス，インコーポレイテッド

【氏名又は名称原語表記】ＵｉＰａｔｈ，Ｉｎｃ．

【住所又は居所原語表記】１ＶａｎｄｅｒｂｉｌｔＡｖｅｎｕｅ，６０ｔｈＦｌｏｏｒ，ＮｅｗＹｏｒｋ，ＮＹ１００１７，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】110003487

【氏名又は名称】弁理士法人東海特許事務所

(72)【発明者】

【氏名】ダニエルダインズ

(72)【発明者】

【氏名】コスミンヴォイク

(72)【発明者】

【氏名】マイケルレオナード

【テーマコード（参考）】

5B376

【Ｆターム（参考）】

5B376AC07

(57)【要約】（修正有）

【課題】タスクマイニングを使用した、ソースおよびターゲット間の人工知能（ＡＩ）主導のセマンティック自動データ転送を提供する。
【解決手段】コンピュータプログラムは、少なくとも１つのプロセッサが、コンピューティングシステムとのユーザーインタラクションに関する記録されたデータを使用して、ユーザーインターフェース（ＵＩ）のソースおよびターゲットの値の間の一致をチェックし、少なくとも１つのプロセッサが、ソースおよびターゲットの値を含むフィールドに関連付けられたラベルを特定し、ソースおよびターゲットからのラベルをセマンティックマッチングＡＩ／ＭＬモデルに入力として提供することによって一致を検証し、セマンティックマッチングＡＩ／ＭＬモデルから出力としてマッチングスコアを受信し、そしてマッチングスコアをマッチングしきい値に対してチェックする。
【選択図】図１１

【特許請求の範囲】

【請求項1】

コンピュータプログラムを格納した非一時的なコンピュータ読み取り可能な媒体であって、前記コンピュータプログラムは、少なくとも１つのプロセッサが、
コンピューティングシステムとのユーザーインタラクションに関する記録されたデータを使用して、ユーザーインターフェース（ＵＩ）のソースおよびターゲットの値の間の一致をチェックし、かつ
以下によって、前記一致を検証するように構成されている、非一時的なコンピュータ読み取り可能な媒体。
前記ソースおよび前記ターゲットの前記値を含むフィールドに関連付けられたラベルを特定し、
前記ソースおよび前記ターゲットからの前記ラベルをセマンティックマッチング人工知能（ＡＩ）／機械学習（ＭＬ）モデルに入力として提供し、
前記セマンティックマッチングＡＩ／ＭＬモデルから出力としてマッチングスコアを受信し、そして
前記マッチングスコアをマッチングしきい値に対してチェックする。

【請求項2】

前記マッチングスコアが前記マッチングしきい値を超えると、前記コンピュータプログラムはさらに、前記少なくとも１つのプロセッサが、
それぞれのラベルに関連付けられた値を、前記ソースから前記ターゲット内の対応する意味的に一致したラベルに関連付けられたフィールドに自動的にコピーするように構成されている、請求項１に記載の非一時的なコンピュータ読み取り可能な媒体。

【請求項3】

前記コンピュータプログラムはさらに、前記少なくとも１つのプロセッサが、
前記ソースおよび前記ターゲットから前記一致したラベルを送信し、前記セマンティックマッチングＡＩ／ＭＬモデルの再訓練のために格納および使用されるように構成されている、請求項２に記載の非一時的なコンピュータ読み取り可能な媒体。

【請求項4】

前記コンピュータプログラムはさらに、前記少なくとも１つのプロセッサが、
前記ソースおよび前記ターゲットからの前記一致したラベルを部分的に使用して、再訓練された前記セマンティックマッチングＡＩ／ＭＬモデルの再訓練されたバージョンを受信し、そして
前記セマンティックマッチングＡＩ／ＭＬモデルの前記再訓練されたバージョンを展開するように構成されている、請求項３に記載の非一時的なコンピュータ読み取り可能な媒体。

【請求項5】

前記コンピュータプログラムはさらに、前記少なくとも１つのプロセッサが、
前記ソースから前記ターゲット内の前記対応する意味的に一致したラベルに関連付けられた前記フィールドへ、前記それぞれのラベルに関連付けられた前記値の自動コピーを実行するロボティックプロセスオートメーション（ＲＰＡ）ワークフローを生成するように構成されている、請求項２に記載の非一時的なコンピュータ読み取り可能な媒体。

【請求項6】

前記コンピュータプログラムはさらに、前記少なくとも１つのプロセッサが、
前記ＲＰＡワークフローのための自動化を生成し、そして
前記自動化を前記コンピューティングシステムに展開するように構成されている、請求項５に記載の非一時的なコンピュータ読み取り可能な媒体。

【請求項7】

前記マッチングスコアが前記マッチングしきい値を超えると、前記コンピュータプログラムはさらに、前記少なくとも１つのプロセッサが、
対応する値を持ち、かつまだ前記ターゲット内のラベルと一致していない前記ソース内のラベルを特定し、
空のフィールドに関連付けられた前記ターゲット内のラベルを特定し、そして
対応する値を持つ前記ソース内の一致しないラベルごとに、
前記ソース内の前記一致しないラベルと、前記セマンティックマッチングＡＩ／ＭＬモデルを介して前記ターゲットからの各一致しないラベルとをペアで実行し、
前記セマンティックマッチングＡＩ／ＭＬモデルによって出力された最も高いマッチングスコアを選択し、そして
前記最も高いマッチングスコアが前記マッチングしきい値以上の場合、
前記最も高いマッチングスコアに関連付けられた前記ペアの前記ソースからのラベルに対応する値を、前記ターゲットからの前記ペアの関連付けられたラベルに関連付けられたフィールドに入力するように構成されている、請求項１に記載の非一時的なコンピュータ読み取り可能な媒体。

【請求項8】

前記マッチングスコアが前記マッチングしきい値を超えると、前記コンピュータプログラムはさらに、前記少なくとも１つのプロセッサが、
対応する値を持ち、かつまだ前記ターゲット内のラベルと一致していない前記ソース内のラベルを特定し、
空のフィールドに関連付けられた前記ターゲット内のラベルを特定し、そして
対応する値を持つ前記ソース内の一致しないラベルごとに、
前記セマンティックマッチングＡＩ／ＭＬモデルが自動特定しきい値以上のマッチングスコアを出力するまで、前記ソース内の前記一致しないラベルと、前記セマンティックマッチングＡＩ／ＭＬモデルを介して前記ターゲットからの各一致しないラベルとをペアで実行し、
前記マッチングスコアに関連付けられた前記ペアの前記ソースからのラベルに対応する値を、前記ターゲットからの前記ペアの関連付けられたラベルに関連付けられたフィールドに入力するように構成されている、請求項１に記載の非一時的なコンピュータ読み取り可能な媒体。

【請求項9】

前記自動特定しきい値は、前記マッチングしきい値よりも高い、請求項８に記載の非一時的なコンピュータ読み取り可能な媒体。

【請求項10】

前記検証は、少なくとも１つのさらなる一致の前記マッチングスコアが前記マッチングしきい値以上になるまで繰り返される、請求項１に記載の非一時的なコンピュータ読み取り可能な媒体。

【請求項11】

コンピュータ実装方法であって、
コンピューティングシステムによって、コンピューティングシステムとのユーザーインタラクションに関する記録されたデータを使用して、ユーザーインターフェース（ＵＩ）のソースおよびターゲットの値の間の一致をチェックすることと、
前記コンピューティングシステムによって、前記ソースおよび前記ターゲットの一致した値を含むフィールドに関連付けられたラベルを入力としてセマンティックマッチング人工知能（ＡＩ）／機械学習（ＭＬ）モデルに提供し、出力として前記セマンティックマッチングＡＩ／ＭＬモデルからマッチングスコアを受信し、そして前記マッチングスコアをマッチングしきい値に対してチェックすることによって、前記一致を検証することと、
前記コンピューティングシステムによって、前記マッチングスコアが前記マッチングしきい値を超える場合に、それぞれのラベルに関連付けられた値を、前記ソースから前記ターゲット内の対応する意味的に一致したラベルに関連付けられたフィールドに自動的にコピーすることと、を含む、コンピュータ実装方法。

【請求項12】

さらに、前記コンピューティングシステムによって、前記ソースおよび前記ターゲットから前記一致したラベルを送信し、前記セマンティックマッチングＡＩ／ＭＬモデルの再訓練のために格納および使用されることを含む、請求項１１に記載のコンピュータ実装方法。

【請求項13】

さらに、前記コンピューティングシステムによって、前記ソースおよび前記ターゲットからの前記一致したラベルを部分的に使用して、再訓練された前記セマンティックマッチングＡＩ／ＭＬモデルの再訓練されたバージョンを受信することと、
前記コンピューティングシステムによって、前記セマンティックマッチングＡＩ／ＭＬモデルの前記再訓練されたバージョンを展開することとを含む、請求項１２に記載のコンピュータ実装方法。

【請求項14】

さらに、前記ソースから前記ターゲット内の前記対応する意味的に一致したラベルに関連付けられた前記フィールドへ、前記それぞれのラベルに関連付けられた前記値の自動コピーを実行するロボティックプロセスオートメーション（ＲＰＡ）ワークフローを生成することを含む、請求項１１に記載のコンピュータ実装方法。

【請求項15】

さらに、前記ＲＰＡワークフローのための自動化を生成することと、
前記自動化を前記コンピューティングシステムに展開することとを含む、請求項１４に記載のコンピュータ実装方法。

【請求項16】

前記マッチングスコアが前記マッチングしきい値を超える場合、前記方法はさらに、
前記コンピューティングシステムによって、対応する値を持ち、かつまだ前記ターゲット内のラベルと一致していない前記ソース内のラベルを特定することと、
前記コンピューティングシステムによって、空のフィールドに関連付けられた前記ターゲット内のラベルを特定することと、
対応する値を持つ前記ソース内の一致しないラベルごとに、
前記コンピューティングシステムによって、前記ソース内の前記一致しないラベルと、前記セマンティックマッチングＡＩ／ＭＬモデルを介して前記ターゲットからの各一致しないラベルとをペアで実行することと、
前記コンピューティングシステムによって、前記セマンティックマッチングＡＩ／ＭＬモデルによって出力された最も高いマッチングスコアを選択することと、
前記最も高いマッチングスコアが前記マッチングしきい値以上の場合、
前記コンピューティングシステムによって、前記最も高いマッチングスコアに関連付けられた前記ペアの前記ソースからのラベルに対応する値を、前記ターゲットからの前記ペアの関連付けられたラベルに関連付けられたフィールドに入力することとを含む、請求項１１に記載のコンピュータ実装方法。

【請求項17】

前記マッチングスコアが前記マッチングしきい値を超える場合、前記方法はさらに、
前記コンピューティングシステムによって、対応する値を持ち、かつまだ前記ターゲット内のラベルと一致していない前記ソース内のラベルを特定することと、
前記コンピューティングシステムによって、空のフィールドに関連付けられた前記ターゲット内のラベルを特定することと、
対応する値を持つ前記ソース内の一致しないラベルごとに、
前記コンピューティングシステムによって、前記セマンティックマッチングＡＩ／ＭＬモデルが自動特定しきい値以上のマッチングスコアを出力するまで、前記ソース内の前記一致しないラベルと、前記セマンティックマッチングＡＩ／ＭＬモデルを介して前記ターゲットからの各一致しないラベルとをペアで実行することと、
前記コンピューティングシステムによって、前記マッチングスコアに関連付けられた前記ペアの前記ソースからのラベルに対応する値を、前記ターゲットからの前記ペアの関連付けられたラベルに関連付けられたフィールドに入力することとを含む、請求項１１に記載のコンピュータ実装方法。

【請求項18】

前記自動特定しきい値は、前記マッチングしきい値よりも高い、請求項１７に記載のコンピュータ実装方法。

【請求項19】

前記検証は、少なくとも１つのさらなる一致の前記マッチングスコアが前記マッチングしきい値以上になるまで繰り返される、請求項１１に記載のコンピュータ実装方法。

【請求項20】

コンピューティングシステムであって、
コンピュータプログラム命令を格納するメモリと、
前記コンピュータプログラム命令を遂行するように構成された少なくとも１つのプロセッサとを含むシステムであって、前記コンピュータプログラム命令は、前記少なくとも１つのプロセッサが、
ソースおよびターゲットの一致した値を含むフィールドに関連付けられたラベルを入力としてセマンティックマッチング人工知能（ＡＩ）／機械学習（ＭＬ）モデルに提供し、出力として前記セマンティックマッチングＡＩ／ＭＬモデルからマッチングスコアを受信し、そして前記マッチングスコアをマッチングしきい値に対してチェックすることによって、ユーザーインターフェース（ＵＩ）とのユーザーインタラクションに関する記録されたデータを使用して、前記ＵＩ内の前記ソースおよび前記ターゲットの値の間の一致を検証し、そして
前記マッチングスコアが前記マッチングしきい値を超える場合に、それぞれのラベルに関連付けられた値を、前記ソースから前記ターゲット内の対応する意味的に一致したラベルに関連付けられたフィールドに自動的にコピーするように構成されている、コンピューティングシステム。

【請求項21】

前記コンピュータプログラム命令はさらに、前記少なくとも１つのプロセッサが、
前記ソースおよび前記ターゲットから前記一致したラベルを送信し、前記セマンティックマッチングＡＩ／ＭＬモデルの再訓練のために格納および使用されるように構成されている、請求項２０に記載のコンピューティングシステム。

【請求項22】

前記コンピュータプログラム命令はさらに、前記少なくとも１つのプロセッサが、
前記ソースおよび前記ターゲットからの前記一致したラベルを部分的に使用して、再訓練された前記セマンティックマッチングＡＩ／ＭＬモデルの再訓練されたバージョンを受信し、そして
前記セマンティックマッチングＡＩ／ＭＬモデルの前記再訓練されたバージョンを展開するように構成されている、請求項２１に記載のコンピューティングシステム。

【請求項23】

前記コンピュータプログラム命令はさらに、前記少なくとも１つのプロセッサが、
前記ソースから前記ターゲット内の前記対応する意味的に一致したラベルに関連付けられた前記フィールドへ、前記それぞれのラベルに関連付けられた前記値の自動コピーを実行するロボティックプロセスオートメーション（ＲＰＡ）ワークフローを生成するように構成されている、請求項２０に記載のコンピューティングシステム。

【請求項24】

前記コンピュータプログラム命令はさらに、前記少なくとも１つのプロセッサが、
前記ＲＰＡワークフローのための自動化を生成し、
前記自動化を前記コンピューティングシステムに展開するように構成されている、請求項２３に記載のコンピューティングシステム。

【請求項25】

前記マッチングスコアが前記マッチングしきい値を超えると、前記コンピュータプログラム命令はさらに、前記少なくとも１つのプロセッサが、
対応する値を持ち、かつまだ前記ターゲット内のラベルと一致していない前記ソース内のラベルを特定し、
空のフィールドに関連付けられた前記ターゲット内のラベルを特定し、そして
対応する値を持つ前記ソース内の一致しないラベルごとに、
前記ソース内の前記一致しないラベルと、前記セマンティックマッチングＡＩ／ＭＬモデルを介して前記ターゲットからの各一致しないラベルとをペアで実行し、
前記セマンティックマッチングＡＩ／ＭＬモデルによって出力された最も高いマッチングスコアを選択し、そして
前記最も高いマッチングスコアが前記マッチングしきい値以上の場合、
前記最も高いマッチングスコアに関連付けられた前記ペアの前記ソースからのラベルに対応する値を、前記ターゲットからの前記ペアの関連付けられたラベルに関連付けられたフィールドに入力するように構成されている、請求項２０に記載のコンピューティングシステム。

【請求項26】

前記マッチングスコアが前記マッチングしきい値を超えると、前記コンピュータプログラム命令はさらに、前記少なくとも１つのプロセッサが、
対応する値を持ち、かつまだ前記ターゲット内のラベルと一致していない前記ソース内のラベルを特定し、
空のフィールドに関連付けられた前記ターゲット内のラベルを特定し、そして
対応する値を持つ前記ソース内の一致しないラベルごとに、
前記セマンティックマッチングＡＩ／ＭＬモデルが自動特定しきい値以上のマッチングスコアを出力するまで、前記ソース内の前記一致しないラベルと、前記セマンティックマッチングＡＩ／ＭＬモデルを介して前記ターゲットからの各一致しないラベルとをペアで実行し、
前記マッチングスコアに関連付けられた前記ペアの前記ソースからのラベルに対応する値を、前記ターゲットからの前記ペアの関連付けられたラベルに関連付けられたフィールドに入力するように構成されている、請求項２０に記載のコンピューティングシステム。

【請求項27】

前記自動特定しきい値は、前記マッチングしきい値よりも高い、請求項２６に記載のコンピューティングシステム。

【請求項28】

前記検証は、少なくとも１つのさらなる一致の前記マッチングスコアが前記マッチングしきい値以上になるまで繰り返される、請求項２０に記載のコンピューティングシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は概して、自動化に関し、より具体的には、タスクマイニングを使用したソースおよびターゲット間の人工知能（ＡＩ）主導のセマンティック自動データ転送に関する。

【背景技術】

【0002】

現在、ユーザーがアンアテンディッドオートメーションを実行してソースからターゲットに情報をコピーしたい場合、彼または彼女は情報の送信先フィールドと情報のコピー先フィールドを指定する必要がある。しかし、ユーザーは画面間のこのデータ操作を常に理解しているわけではない。既存のタスクマイニング技術は、ユーザーが実行しているタスクを特定する目的で、ユーザーの低レベルのアクションを追跡する。しかし、この情報を評価し、意味を理解することを提供し、そして根底にある相関関係を理解することは困難である。実際、現在のタスクマイニング技術ではそのようなことはできない。

【0003】

現在、ソースからターゲットにデータをコピーするプロセスには、次の３つの一般的な手順がある：（１）データソースからの情報の抽出（例えば、スクリーンキャプチャ、キー押下およびマウスクリックの記録など）、（２）変換と検証（つまり、ユーザーインタラクション情報を変換し、抽出された内容を検証する）、そして（３）ターゲットアプリケーションに情報を入力する。しかし、このプロセスは最適ではなく、多くの場合、ユーザーおよび／または開発者からの入力と確認が必要になる。したがって、改善されたおよび／または代替のアプローチが有益であり得る。

【発明の概要】

【0004】

本発明の特定の実施形態は、現在のソフトウェアオートメーション技術によってまだ十分に特定されていない、評価されていない、または解決されていない本分野における問題およびニーズのソリューションを提供し、および／あるいはそこへの有用な代替手段を提供し得る。例えば、本発明のいくつかの実施形態は、タスクマイニングを使用した、ソースおよびターゲットの間の人工知能（ＡＩ）主導のセマンティック自動データ転送に関する。特定の実施形態は、例えば、ロボティックプロセスオートメーション（ＲＰＡ）に採用されてもよい。

【0005】

実施形態では、非一時的なコンピュータ読み取り可能な媒体は、コンピュータプログラムを格納する。コンピュータプログラムは、少なくとも１つのプロセッサが、コンピューティングシステムとのユーザーインタラクションに関する記録されたデータを使用して、ユーザーインターフェース（ＵＩ）のソースおよびターゲットの値の間の一致をチェックするように構成される。コンピュータプログラムはまた、少なくとも１つのプロセッサが、ソースおよびターゲットの値を含むフィールドに関連付けられたラベルを特定し、ソースおよびターゲットからのラベルをセマンティックマッチングＡＩ／ＭＬモデルに入力として提供することによって一致を検証し、セマンティックマッチングＡＩ／ＭＬモデルから出力としてマッチングスコアを受信し、そしてマッチングスコアをマッチングしきい値に対してチェックするように構成される。

【0006】

別の実施形態では、コンピュータ実装方法は、コンピューティングシステムによって、コンピューティングシステムとのユーザーインタラクションに関する記録されたデータを使用して、ＵＩのソースおよびターゲットの値の間の一致をチェックすることを含む。コンピュータ実装方法はまた、コンピューティングシステムによって、ソースおよびターゲットの一致した値を含むフィールドに関連付けられたラベルを入力としてセマンティックマッチングＡＩ／ＭＬモデルに提供し、出力としてセマンティックマッチングＡＩ／ＭＬモデルからマッチングスコアを受信し、そしてマッチングスコアをマッチングしきい値に対してチェックすることによって、一致を検証することを検証することを含む。コンピュータ実装方法はさらに、コンピューティングシステムによって、マッチングスコアがマッチングしきい値を超える場合に、それぞれのラベルに関連付けられた値を、ソースからターゲット内の対応する意味的に一致したラベルに関連付けられたフィールドに自動的にコピーすることを含む。

【0007】

さらに別の実施形態では、コンピューティングシステムは、コンピュータプログラム命令を格納するメモリと、コンピュータプログラム命令を遂行するように構成された少なくとも１つのプロセッサとを含む。コンピュータプログラム命令は、少なくとも１つのプロセッサが、ソースおよびターゲットの一致した値を含むフィールドに関連付けられたラベルを入力としてセマンティックマッチングＡＩ／ＭＬモデルに提供し、出力としてセマンティックマッチングＡＩ／ＭＬモデルからマッチングスコアを受信し、そしてマッチングスコアをマッチングしきい値に対してチェックすることによって、ＵＩとのユーザーインタラクションに関する記録されたデータを使用して、ＵＩ内のソースおよびターゲットの値の間の一致を検証するように構成される。コンピュータプログラム命令は、少なくとも１つのプロセッサが、マッチングスコアがマッチングしきい値を超える場合に、それぞれのラベルに関連付けられた値を、ソースからターゲット内の対応する意味的に一致したラベルに関連付けられたフィールドに自動的にコピーするように構成される。

【図面の簡単な説明】

【0008】

本発明の特定の実施形態の利点が容易に理解されるように、上記で簡単に説明した本発明のより特定の説明は、添付の図面に図示されている特定の実施形態を参照して描写される。これらの図面は、本発明の典型的な実施形態のみを描いており、したがって、その範囲を限定するものとは考えられないことが理解されるべきであるが、本発明は、以下の添付の図面を使用することにより、さらなる特定および詳細をもって描写され、説明されるであろう。

【0009】

【図1】本発明の実施形態による、ハイパーオートメーションシステムを示すアーキテクチャ図である。

【0010】

【図2】本発明の実施形態による、ＲＰＡシステムを示すアーキテクチャ図である。

【0011】

【図3】本発明の実施形態による、展開したＲＰＡシステムを示すアーキテクチャ図である。

【0012】

【図4】本発明の実施形態による、デザイナ、アクティビティ、およびドライバの間の関係を示すアーキテクチャ図である。

【0013】

【図5】本発明の実施形態による、タスクマイニングを使用したソースおよびターゲットの間でＡＩ主導のセマンティック自動データ転送を実行するように構成されたコンピューティングシステムを示すアーキテクチャ図である。

【0014】

【図6A】本発明の実施形態による、画像内のグラフィカル要素を認識するように訓練されたニューラルネットワークの例を示す。

【0015】

【図6B】本発明の実施形態によるニューロンの例を示す。

【0016】

【図7】本発明の実施形態による、ＡＩ／ＭＬモデル（複数可）を訓練するためのプロセスを示すフローチャートである。

【0017】

【図8A】本発明の実施形態による、ソースフォームからターゲットフォームへ実行されるセマンティックコピーアンドペースト動作および自動ＲＰＡ自動生成を示す。

【図8B】本発明の実施形態による、ソースフォームからターゲットフォームへ実行されるセマンティックコピーアンドペースト動作および自動ＲＰＡ自動生成を示す。

【図8C】本発明の実施形態による、ソースフォームからターゲットフォームへ実行されるセマンティックコピーアンドペースト動作および自動ＲＰＡ自動生成を示す。

【図8D】本発明の実施形態による、ソースフォームからターゲットフォームへ実行されるセマンティックコピーアンドペースト動作および自動ＲＰＡ自動生成を示す。

【図8E】本発明の実施形態による、ソースフォームからターゲットフォームへ実行されるセマンティックコピーアンドペースト動作および自動ＲＰＡ自動生成を示す。

【図8F】本発明の実施形態による、ソースフォームからターゲットフォームへ実行されるセマンティックコピーアンドペースト動作および自動ＲＰＡ自動生成を示す。

【図8G】本発明の実施形態による、ソースフォームからターゲットフォームへ実行されるセマンティックコピーアンドペースト動作および自動ＲＰＡ自動生成を示す。

【0018】

【図9】本発明の実施形態による、自動生成されたＲＰＡワークフローを有するＲＰＡデザイナアプリケーションを示す。

【0019】

【図10】本発明の実施形態による、タスクマイニングを使用したソースおよびターゲットの間でＡＩ主導のセマンティック自動データ転送を実行するためのモジュールを概して示す。

【0020】

【図11】本発明の実施形態による、タスクマイニングデータをソースとして使用して、ソースおよびターゲットの間でＡＩ主導のセマンティック自動データ転送を実行するためのプロセスを示すフローチャートである。

【発明を実施するための形態】

【0021】

別段の記載がない限り、類似の参照文字は、添付の図面全体で一貫して対応する特徴を示す。

【0022】

（実施形態の詳細な説明）
いくつかの実施形態は、ソースとしてタスクマイニングデータを使用する、ソースおよびターゲットの間のＡＩ主導のセマンティック自動データ転送に関する。既存のタスクマイニング技術は、画面および／またはフォーム、ならびにそこに存在するフィールドおよび要素に関連するすべてのデータを収集する。しかしながら、いくつかの実施形態はさらに進んで、セマンティックな意味を導き出し、画面上のフィールド／要素間の相関関係を自動的に提供する。これには、自動的に変換することおよび検証が含まれる場合があり、ユーザーがこれらのステップを指定しなくても、ソースおよびターゲットの間でデータのコピーアンドペースト機能を実行するユーザー向けに、ＲＰＡワークフロー／自動化を自動的に生成し得る。また、この機能は、ソースおよびターゲットのラベルが正確に同じでない場合にも提供され得る。

【0023】

特定の実施形態では、ある画面またはフォームから別の画面またはフォームに情報をコピーするための要素ごとの入力の代わりに、データソースおよびターゲット画面が入力として提供される。ＡＩを使用して、いくつかの実施形態は、ソース画面、フォーム、または文書とターゲット画面、フォーム、または文書との間の意味的関係を示すことができ、ユーザーは、提案された変換ツールを使用して、提案された自動化を完了することができる。特定の実施形態では、１または複数のフィールドに対して意味的な一致が見つからない場合、ユーザーは、一致しないフィールドを手動で入力するように促されてもよい。ユーザーがこの情報を提供すると、変換（複数可）が次いで学習され、将来これらの関連付け（復数可）を理解できるようにＡＩ／ＭＬモデルが訓練される。

【0024】

意味理解技術をタスクマイニングデータに適用することで、収集されたデータとソースおよびターゲットラベル間の関連性を学習し得る。このような技術は、ソースフィールドとターゲットフィールドの間のマッピング、およびソースからのデータをターゲットと互換性を持たせるために実行する必要がある潜在的なデータ変換を学習し得る。例えば、ターゲットが予期している場合、データは別の形式に変更され得る（例えば、「Ｏｃｔｏｂｅｒ１４，２０２２」を「１４Ｏｃｔｏｂｅｒ２０２２」に変更すること）。

【0025】

ユーザーがソース画面またはフォームからターゲット画面またはフォームに情報をコピーする場合を考えてみる。ユーザーがタスクを一度だけ実行するか、またはめったに実行しない場合、このタスクの自動化は特に有益ではない場合がある。しかし、ユーザーがある程度の頻度でタスクを実行する場合（例えば、毎月、毎週、毎日、毎日複数回など）、この情報は、適切に訓練されたＡＩ／ＭＬモデル（復数可）を使用したタスクマイニングデータから決定され得る。

【0026】

タスクの順序および／またはステップは毎回同じではないかもしれないが、プロセスの結果は同じである場合がある。例えば、ユーザーは、ソースからターゲットのフィールドに、異なる順序でデータをコピーまたは入力し得る。また、特定の条件下では、異なるソースまたは異なるターゲットが使用され得る。完了したタスクが同じかどうかを理解すること、および／またはソースまたはターゲットを変更するための条件が何であるかを理解することは、ＲＰＡプロセスなど、最終的にユーザーに提案されるプロセスまたは自動的に実装されるプロセスにさらなる利点をもたらし得る。

【0027】

コピーアンドペーストのタスクが同じかどうかを理解するには、結果を調べることができる。例えば、ユーザーが「送信」ボタンを押す前のターゲットの最後の画面（復数可）では、ほとんどまたはすべてのフィールドに値が関連付けられている場合があるが、ラベルは同じままである。この「完了」状態は、ユーザーがフィールドに入力した順序に関係なく、手動のコピーアンドペースト動作が完了したことを示し得る。ソースまたはターゲットを変更する必要があるかどうかの理解について、これは、ソースデータから決定され得る。例えば、ソースデータに言語フィールドがある場合、これは、その言語に関連付けられたターゲットを使用する必要があることを示し得る。他にも多くのシナリオが考えられる。

【0028】

場合によっては、コピーアンドペースト動作には、ソース、ターゲット、またはその両方からの複数の画面が関与し得ることに留意されたい。また、複数のアプリケーションの画面を使用してターゲットアプリケーションから画面（復数可）に入ることができ、またその逆も可能である。ＡＩ／ＭＬモデル（復数可）は、コピーアンドペーストタスク全体に（例えば、提出など、同じ最終状態に到達したことを認識することによって）完了のための複数の画面が含まれることを認識するように訓練され得る。このような場合、永続的なデータ構造を使用して、ソースからターゲットにコピーするデータを格納し得る。実際、最初の画面の対応するラベルと値に対応するラベルとフィールドは、ターゲットの２番目の画面まで表示されない場合があり、ターゲットには、ターゲットの複数の画面のラベル／値に対応するほとんどまたはすべてのラベル／フィールドが１つの画面などに含まれ得る。カスタムクラスまたはプログラミング言語によって提供される既存のデータ構造（例えば、構造体、配列（単一または多次元）、辞書など）を使用して、永続的なストレージを提供し得る。

【0029】

さらなるコンテキストを提供するために、いくつかの実施形態は、１または複数のアプリケーション（例えば、Ｏｕｔｌｏｏｋ（登録商標）、Ｅｘｃｅｌ（登録商標）など）のＡＰＩスタックにフックすることによって追加情報を取得し、これらのアプリケーションとのユーザーのインタラクションによって行われるＡＰＩ呼び出しから情報を取得する。ＡＰＩが提供し得る情報の一例としては、Ｅｘｃｅｌ（登録商標）からより多くのコンテキストを取得することである。ＡＰＩを介して、ユーザーがどのワークブックを使用しているか、そのワークブック内のどのシートを使用しているか、そのシート内のどのセル（復数可）が変更されているかなどを特定し得る。これらのＡＰＩは、特定のアプリケーションでユーザーが行ったことの「アクション」ログを提供する。この情報は、タスクのアトミックインスタンスおよび／またはタスクの終了状態を特定するのに役立ち得る。

【0030】

タスクマイニングの記録中にキャプチャされた画像と、関連するＡＰＩ呼び出し情報は時間同期することができ、そしてＡＰＩ情報を使用して、ユーザーが画面で何を行っているかをさらに理解することを提供し得る。これにより、画像比較技術などを介してユーザーのアクションのセットをアクティビティにマッチングすることで、より良い理解が促進され得る。例えば、ＣＶ（ＯＣＲを含む）を使用して特定の画面に関する情報を抽出し、次いでクラスタリングアルゴリズムを使用して抽出された情報を類似の画面と一致させることができる。これにより、ユーザーのアクションの種類をより正確に特定できるようになる。

【0031】

画像分析とＡＰＩ情報収集を組み合わせることで、ユーザーが行っていることの全体像をさらに把握し得る。スクリーンショット、ユーザーインタラクションイベント、ＡＰＩイベント、オペレーティングシステム（ＯＳ）／ドキュメントオブジェクトモデル（ＤＯＭ）イベント、ユーザーインタラクション／入力タイプ（例えば、マウスクリック対タイピング）、位置データ（例えば、マウスがクリックされた場所、または画面上のテキストが入力された場所）、どのマウスボタンが押されたか、アプリケーション／プロセス名（例えば、画面のユニバーサルリソースロケーター（ＵＲＬ）またはウィンドウで現在実行中でアクティブなアプリケーション）、ＵＩ記述子、それらの任意の組み合わせなどが収集され得る。これは、画像分析だけでは得られない、さらなるコンテキストを提供する。例えば、ＡＰＩは、Ｅｘｃｅｌ（登録商標）スプレッドシートのどのシートとセルが変更されたのか、そのセルのフォーマット（例えば、通貨、文字列）、そしてその他ＡＰＩが促進する様々な情報を提供することができる。

【0032】

ある人が、ある画面から別の画面へ情報を手動でコピーするが、１または復数のフィールドを変更する場合、その人は、それらのフィールドについて、ソースからターゲットへのデータの変換と検証を本質的に実行すると考えられ得る。また、変更なくコピーされたフィールドは正確であると推測され得る。言い換えれば、変換と検証はこの情報の中に本質的に存在すると考えられ得る。タスクマイニングデータは、ソース／宛先フィールド、コピーされたデータ、および推論変換を含み得る。この洞察は、マッピングＡＩ／ＭＬモデルをよりよく訓練するために使用することができ、その結果、そのような情報を自動的に発見することができる。次いで、マッピングＡＩ／ＭＬモデルが十分に正確であれば、ＲＰＡワークフロー／オートメーションが自動的に作成され得る。

【0033】

タスクマイニングデータは、既存のＡＩ／ＭＬモデルの改良にも利用され得る。例えば、タスクマイニングデータに含まれるソースラベル／フィールドからターゲットラベル／フィールドへのユーザーマッピングを収集し、既存のＡＩ／ＭＬモデルの改良バージョンを訓練して提供するために使用され得る。そのような訓練／改良されたＡＩ／ＭＬモデルバージョンは、以前に遭遇したことのないシナリオに適用することができ、適切に訓練されれば、マッピングを正確かつ自動的に実行することができる。このような機能は、情報がある場所から別の場所へ（つまり、ソースからターゲットへ）頻繁にコピーされるが、ソースおよびターゲットのラベルが同じとは限らない実世界で役に立つ。いくつかの実施形態では、ＡＩ／ＭＬモデルは、ユーザーが最初に自動化を提案する必要がないように、訓練され得る。むしろ、ＲＰＡソフトウェアは、ユーザーからの明示的な要求がなくても、それを提案することができる。

【0034】

上記のように、ＡＩ／ＭＬモデルはまず訓練され、次にＲＰＡワークフローの提案に使用される。訓練は、タスクマイニングデータが収集され続けるにつれて、繰り返し実行され得る。十分な精度があれば、ユーザーの確認なしに自動化を作成し、使用することもできる。ユーザーはコピーアンドペースト処理を実行することを開始することができ、ソフトウェアによってそのように認識されると、コピーアンドペーストタスクは自動的に完了し得る。その後、ユーザーは、いくつかの実施形態では、これが望ましいかどうかを確認することができる。

【0035】

いくつかの実施形態では、高次元ベクトル空間における意味的意味に基づくフィールドの類似性をマッピングする大規模な意味言語モデルを使用する。例えば、ｗｏｒｄ２ｖｅｃのような自然言語処理（ＮＬＰ）モデルまたは、ＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ）もしくはＧＰＴ－３（ＧｅｎｅｒａｔｉｖｅＰｒｅ－ｔｒａｉｎｅｄＴｒａｎｓｆｏｒｍｅｒ３）のような、より高度なセマンティックＮＬＰモデルを使用することができる。このようなモデルは画面のベクトル表現を構築し、学習された言語理解を使って２つの異なるラベルが類似していることを学習することができる。

【0036】

意味理解を提供するために、ソースからのラベルとターゲットからのラベルが訓練されたセマンティックＮＬモデルに提供されることがあり、このモデルはラベルを比較し、類似度スコア（例えば、０％と１００％の間、０と１の間、－１と１の間など）を提供する。類似度スコアにパーセンテージが使用される場合、７５％、９０％、９９％など、２つのラベルを一致とみなすために類似度しきい値が必要となる場合がある。

【0037】

いくつかの実施形態では、ラベル比較だけでなく、２つの文の意味することが互いにどれだけ似ているかを決定し得る。前段落の例と同様に、ソースからの文とターゲットからの文が、入力としてＢＥＲＴモデルまたはＧＰＴ－３モデルに提供される場合がある。類似度スコアはモデルによって提供され、これは類似度しきい値と比較される。いくつかの実施形態では、単語またはフレーズラベルの類似度スコアおよび／または類似度しきい値は、文のものとは異なる場合がある。

【0038】

タスクマイニングデータは、いくつかの実施形態では、ＮＬＰモデルの微調整に役立つ。このようなモデルは通常、大量のオープンソーステキストを入力として消費することに基づいて初期訓練される。あるラベルが別のラベルに似ていることを示す情報を追加することで、このようなモデルはさらに正確な関連付けを学習する。このような追加の「適用された（ａｐｐｌｉｅｄ）」訓練情報は、単にインターネットからのランダムなデータに基づくものではなく、セマンティックマッピングを目的とした高品質の訓練データを提供する。

【0039】

ある種の目的、例えば契約学習は、画面画像の内容のベクトル表現を構築するために、人間によってラベル付けされていない大規模なデータセット（例えば画面画像）に適用することができる。次に、ｋ－ｍｅａｎｓクラスタリングまたはＤｅｎｓｉｔｙ－ＢａｓｅｄＳｐａｔｉａｌＣｌｕｓｔｅｒｉｎｇｏｆＡｐｐｌｉｃａｔｉｏｎｓｗｉｔｈＮｏｉｓｅ（ＤＢＳＣＡＮ）などのクラスタリングアプローチを使用して、入力としてのベクトル表現からクラスタ化された表現を得ることができる。このようなクラスタ化された表現は、コピーアンドペースト動作を他の動作と区別するのに有用であり得る。

【0040】

特定の実施形態では、ＡＩ／ＭＬモデルは、コピーアンドペースト動作が進行中である可能性が高いことを検出することができる。例えば、ＡＩ／ＭＬモデルまたは決定論的ロジックは、ソース画面とターゲット画面の個々のフィールド間で複数のコピーアンドペースト動作が発生したことを検出し、次いでその動作を自動的に試みるかどうかをユーザーに尋ねることができる。いくつかの実施形態では、ＡＩ／ＭＬモデルまたは決定論的ロジックは、まず、疑わしいソース／ターゲットのインターフェースがフィールド／ラベルベースのインターフェースであることを検証することができる。

【0041】

ユーザーがこのオプションを選択すると、セマンティックマッチングモデルは動作を完了しようとする。いくつかの実施形態では、セマンティックマッチングモデルを使用して動作を自動完了し、次いで動作が正しく行われたかどうかについてユーザーに潜在的にプロンプトを表示し得る。１または複数のフィールドが正しく一致されていない場合、ユーザーは修正を加えることができる。

【0042】

図１は、本発明の実施形態による、ハイパーオートメーションシステム１００を示すアーキテクチャ図である。本明細書で使用される「ハイパーオートメーション」は、プロセスオートメーションのコンポーネント、統合ツール、および作業を自動化する能力を増幅する技術をまとめたオートメーションシステムを指す。例えば、いくつかの実施形態では、ＲＰＡがハイパーオートメーションシステムのコアで使用され、特定の実施形態では、人工知能（ＡＩ）／機械学習（ＭＬ）、プロセスマイニング、分析、および／または他の高度なツールによって自動化能力が拡張され得る。ハイパーオートメーションシステムがプロセスを学習し、ＡＩ／ＭＬモデルを訓練し、そして分析を採用すると、例えば、より多くの知識作業が自動化され得、組織内のコンピューティングシステム、例えば、個人によって使用されるものと自律的に動作するものの両方は、すべてハイパーオートメーションプロセスの参加者として従事され得る。いくつかの実施形態のハイパーオートメーションシステムは、ユーザーおよび組織が効率的かつ効果的にオートメーションを発見し、理解し、そして拡張することを可能にする。

【0043】

ハイパーオートメーションシステム１００は、デスクトップコンピュータ１０２、タブレット１０４、およびスマートフォン１０６などのユーザーコンピューティングシステムを含む。しかしながら、スマートウォッチ、ラップトップコンピュータ、サーバー、インターネットオブシングス（ＩｏＴ）デバイスなどを含むが、これらに限定されない、任意の所望のユーザーコンピューティングシステムが本発明の範囲から逸脱せずに使用され得る。また、図１には３つのユーザーコンピューティングシステムが示されているが、本発明の範囲から逸脱することなく、任意の適切な数のユーザーコンピューティングシステムが使用され得る。例えば、いくつかの実施形態では、数十、数百、数千、または数百万のユーザーコンピューティングシステムが使用され得る。ユーザーコンピューティングシステムは、ユーザーによって積極的に使用されてもよいし、または多くのもしくは任意のユーザー入力なしに自動的に実行され得る。

【0044】

各ユーザーコンピューティングシステム１０２、１０４、１０６は、そこで実行しているそれぞれのオートメーションプロセス（複数可）１１０、１１２、１１４を有する。オートメーションプロセス（複数可）１１０、１１２、１１４は、限定されないが、本発明の範囲から逸脱することなく、ＲＰＡロボット、オペレーティングシステムの一部、それぞれのコンピューティングシステム用のダウンロード可能なアプリケーション（複数可）、他の任意の適切なソフトウェアおよび／またはハードウェア、またはこれらの任意の組み合わせを含み得る。いくつかの実施形態では、１または複数のプロセス（複数可）１１０、１１２、１１４は、リスナーであり得る。リスナーは、本発明の範囲から逸脱することなく、ＲＰＡロボット、オペレーティングシステムの一部、それぞれのコンピューティングシステム用のダウンロード可能なアプリケーション、または他の任意のソフトウェアおよび／もしくはハードウェアであり得る。実際、いくつかの実施形態では、リスナー（複数可）のロジックは、物理的なハードウェアを介して部分的または完全に実装される。

【0045】

リスナーは、それぞれのコンピューティングシステムとのユーザーインタラクションおよび／またはアンアテンディッドコンピューティングシステムの動作に関連するデータを監視および記録し、ネットワーク（例えば、ローカルエリアネットワーク（ＬＡＮ）、モバイル通信ネットワーク、衛星通信ネットワーク、インターネット、それらのいずれかの組み合わせ等）を介してコアハイパーオートメーションシステム１２０にデータを送信する。リスナーは、その用途に応じて、アテンドする（ａｔｔｅｎｄｅｄ）場合もあればアテンドしない（ｕｎａｔｔｅｎｄｅｄ）場合もある。リスナーデータは、限定されないが、どのボタンがクリックされたか、マウスがどこに移動したか、フィールドに入力されたテキスト、１つのウィンドウが最小化されそして別のウィンドウが開かれたこと、ウィンドウに関連するアプリケーション、実行されていたタスクのユーザーからの説明、画面またはフォーム内のラベル、フィールド、および値、オペレーティングシステムからの情報、アプリケーションＡＰＩ（複数可）からの情報などを含み得る。特定の実施形態では、リスナーからのデータは、ハートビートメッセージの一部として定期的に送信され得る。いくつかの実施形態では、データは、所定量のデータが収集されると、所定期間が経過した後、またはその両方で、コアハイパーオートメーションシステム１２０に送信され得る。サーバー１３０などの１または複数のサーバーは、リスナーからデータを受信し、データベース１４０などのデータベースに格納する。

【0046】

オートメーションプロセスは、設計時間中にワークフローで開発されたロジックを遂行し得る。ＲＰＡの場合、ワークフローは、本明細書において「アクティビティ」として定義される、シーケンスまたは他の何らかのロジックフローで遂行されるステップのセットを含み得る。各アクティビティは、ボタンをクリックする、ファイルを読む、ログパネルに書き込むなどのアクションを含み得る。いくつかの実施形態では、ワークフローは入れ子になっているか、または埋め込まれ得る。

【0047】

いくつかの実施形態におけるＲＰＡのための長時間実行ワークフローは、サービスオーケストレーション、人間の介入、およびアンアテンディッド環境における長時間実行トランザクションをサポートするマスタープロジェクトである。例えば、米国特許第１０，８６０，９０５号を参照。人間の介入は、特定のプロセスが、アクティビティの次のステップに進む前に、例外処理、承認、または検証のために人間の入力を必要とする場合に登場する。この場合、プロセスの遂行は一時停止され、人間のタスクが完了するまでＲＰＡロボットを開放する。

【0048】

長時間実行ワークフローは、永続化アクティビティを介してワークフローの断片化をサポートしてもよく、呼び出しプロセスおよび非ユーザーインタラクションアクティビティと組み合わされ、人間のタスクをＲＰＡロボットタスクでオーケストレーションし得る。いくつかの実施形態では、複数または多数のコンピューティングシステムが、長時間実行ワークフローのロジックの遂行に参加し得る。長時間実行ワークフローは、迅速な遂行を促進するためにセッションで実行し得る。いくつかの実施形態では、長時間実行ワークフローは、ＡＰＩ呼び出しを実行し、かつ長時間実行ワークフローセッションで実行するアクティビティを含み得るバックグラウンドプロセスをオーケストレーションしてもよい。これらのアクティビティは、いくつかの実施形態では、呼び出しプロセスアクティビティによって呼び出され得る。ユーザーセッションで実行するユーザーインタラクションアクティビティを有するプロセスは、コンダクタアクティビティからジョブを開始することによって呼び出され得る（コンダクタは、本明細書で後により詳細に説明する）。ユーザーは、いくつかの実施形態では、コンダクタでフォームを完成させる必要があるタスクを通じてインタラクションし得る。ＲＰＡロボットにフォームタスクが完了するのを待たせ、その後、長時間実行ワークフローを再開させるアクティビティが含まれ得る。

【0049】

１または複数のオートメーションプロセス（複数可）１１０、１１２、１１４は、コアハイパーオートメーションシステム１２０と通信している。いくつかの実施形態では、コアハイパーオートメーションシステム１２０は、サーバー１３０などの１または複数のサーバー上でコンダクタアプリケーションを実行し得る。例示のために１つのサーバー１３０が示されているが、本発明の範囲から逸脱することなく、互いに近接する、または分散アーキテクチャの複数または多数のサーバーが採用され得る。例えば、１または複数のサーバーが、本発明の範囲から逸脱することなく、コンダクタ機能、ＡＩ／ＭＬモデル提供、認証、ガバナンス、および／または他の任意の適切な機能のために提供され得る。いくつかの実施形態では、コアハイパーオートメーションシステム１２０は、パブリッククラウドアーキテクチャ、プライベートクラウドアーキテクチャ、ハイブリッドクラウドアーキテクチャなどを組み込んでよく、またはその一部であってよい。特定の実施形態では、コアハイパーオートメーションシステム１２０は、サーバー１３０などの１または複数のコンピューティングシステム上で複数のソフトウェアベースのサーバーをホストし得る。いくつかの実施形態では、サーバー１３０などのコアハイパーオートメーションシステム１２０の１または複数のサーバーは、１または複数の仮想マシン（ＶＭ）を介して実装され得る。

【0050】

いくつかの実施形態では、１または複数のオートメーションプロセス（複数可）１１０、１１２、１１４は、コアハイパーオートメーションシステム１２０上に展開されたまたはコアハイパーオートメーションシステム１２０によってアクセス可能な１または複数のＡＩ／ＭＬモデル１３２を呼び出してもよい。ＡＩ／ＭＬモデル１３２は、本明細書で後により詳細に議論されるように、本発明の範囲から逸脱することなく、任意の適切な目的のために訓練され得る。２または複数のＡＩ／ＭＬモデル１３２は、それらが集合的に協働出力（複数可）を提供するように、いくつかの実施形態では連鎖されてもよい（例えば、直列、並列、またはそれらの組合せ）。ＡＩ／ＭＬモデル１３２は、（ＯＣＲを含む）ＣＶ、文書処理および／または理解、意味学習および／または分析、分析予測、プロセス発見、タスクマイニング、テスト、自動ＲＰＡワークフロー生成、シーケンス抽出、クラスタリング検出、音声－テキスト翻訳、これらのいずれかの組み合わせなどを実行または支援してもよい。しかしながら、本発明の範囲から逸脱することなく、ＡＩ／ＭＬモデルの任意の所望の数および／またはタイプ（複数可）が使用され得る。複数のＡＩ／ＭＬモデルを使用することで、例えば、与えられたコンピューティングシステム上で何が起こっているかについての全体像をシステムが開発し得る。例えば、あるＡＩ／ＭＬモデルはＯＣＲを実行することができ、別のものはボタンを検出することができ、別のものはシーケンスを比較することができる、などである。パターンは、ＡＩ／ＭＬモデルによって個別に決定されてもよいし、または複数のＡＩ／ＭＬモデルによって集合的に決定されてもよい。特定の実施形態では、１または複数のＡＩ／ＭＬモデルは、少なくとも１つのコンピューティングシステム１０２、１０４、１０６上にローカルに展開される。

【0051】

いくつかの実施形態では、複数のＡＩ／ＭＬモデル１３２は、場合によっては直列、並列、またはそれらの組み合わせで使用され得る。各ＡＩ／ＭＬモデル１３２は、データ上で実行するアルゴリズム（またはモデル）であり、ＡＩ／ＭＬモデル自体は、例えば、訓練データ上で訓練された、人工「ニューロン」の深層学習ニューラルネットワーク（ＤＬＮＮ）であり得る。いくつかの実施形態では、ＡＩ／ＭＬモデル１３２は、統計的モデリング（例えば、隠れマルコフモデル（ＨＭＭ））などの様々な機能を実行する複数の層を有してよく、深層学習技術（例えば、長短期記憶（ＬＳＴＭ）深層学習、以前の隠れ状態のエンコーディングなど）を利用して所望の機能を実行し得る。

【0052】

ハイパーオートメーションシステム１００は、いくつかの実施形態では、４つの主要な機能群を提供し得る：（１）発見、（２）自動化の構築、（３）管理、および（４）エンゲージメント。オートメーション（例えば、ユーザーコンピューティングシステム、サーバーなどで実行する）は、いくつかの実施形態では、ＲＰＡロボットなどのソフトウェアロボットによって実行され得る。例えば、アテンディッドロボット、アンアテンディッドロボット、および／またはテストロボットが使用され得る。アテンディッドロボットは、タスク（例えば、ＵｉＰａｔｈＡｓｓｉｓｔａｎｔ（商標）を介して）でユーザーを支援するためにユーザーと協働する。アンアテンディッドロボットはユーザーから独立して動作し、潜在的に、ユーザーが知らない間にバックグラウンドで実行し得る。テストロボットは、アプリケーションまたはＲＰＡワークフローに対してテストケースを実行するアンアテンディッドロボットである。テストロボットは、いくつかの実施形態では、複数のコンピューティングシステム上で並行して実行され得る。

【0053】

発見機能は、ビジネスプロセスの自動化の様々な機会のための、その自動的な推奨を発見し提供し得る。そのような機能は、サーバー１３０などの１または複数のサーバーによって実装され得る。発見機能は、いくつかの実施形態では、オートメーションハブ、プロセスマイニング、タスクマイニング、および／またはタスクキャプチャを提供することを含み得る。オートメーションハブ（例えば、ＵｉＰａｔｈＡｕｔｏｍａｔｉｏｎＨｕｂ（商標））は、可視性および制御性を有するオートメーションロールアウトを管理するためのメカニズムを提供し得る。オートメーションアイデアは、例えば、提出フォームを介して従業員からクラウドソーシングされ得る。これらのアイデアを自動化するための実現可能性と投資収益率（ＲＯＩ）の計算が提供され、将来の自動化のための文書が収集され、そして自動化の発見から構築までを迅速に行うためのコラボレーションが提供され得る。

【0054】

（例えば、ＵｉＰａｔｈＡｕｔｏｍａｔｉｏｎＣｌｏｕｄ（商標）および／またはＵｉＰａｔｈＡＩＣｅｎｔｅｒ（商標）を介した）プロセスマイニングとは、アプリケーション（企業資源計画（ＥＲＰ）アプリケーション、顧客関係管理（ＣＲＭ）アプリケーション、メールアプリケーション、コールセンターアプリケーションなど）からデータを収集して分析し、組織にどんなエンドツーエンドのプロセスが存在するか、それらを効果的に自動化するにはどうすればよいか、また自動化がもたらす影響についてを特定するプロセスを指す。このデータは、例えば、リスナーによってユーザーコンピューティングシステム１０２、１０４、１０６から取得され、サーバー１３０などのサーバーによって処理され得る。いくつかの実施形態では、１または複数のＡＩ／ＭＬモデル１３２がこの目的のために採用され得る。この情報は、実装を迅速化し、手動での情報転送を回避するために、オートメーションハブにエクスポートされ得る。プロセスマイニングの目標は、組織内のプロセスを自動化することによって、ビジネス価値を高めることであり得る。プロセスマイニングの目標のいくつかの例は、限定されないが、利益の増加、顧客満足度の向上、規制および／または契約遵守、従業員の効率の向上などを含む。

【0055】

（例えば、ＵｉＰａｔｈＡｕｔｏｍａｔｉｏｎＣｌｏｕｄ（商標）および／またはＵｉＰａｔｈＡＩＣｅｎｔｅｒ（商標）を介した）タスクマイニングは、ワークフロー（例えば、従業員のワークフロー）を特定および集約し、次にＡＩを適用して日常的なタスクのパターンおよびバリエーションを明らかにし、自動化の容易性および節約の可能性について（例えば、時間および／またはコストの節約）そのようなタスクをスコアリングする。１または複数のＡＩ／ＭＬモデル１３２は、データ内の反復タスクパターンを明らかにするために採用され得る。自動化の機が熟した反復タスクは、その後、特定され得る。この情報は、最初、リスナーによって提供され得、いくつかの実施形態では、サーバー１３０などのコアハイパーオートメーションシステム１２０のサーバー上で分析され得る。タスクマイニングからの発見（例えば、ＥｘｔｅｎｓｉｂｌｅＡｐｐｌｉｃａｔｉｏｎＭａｒｋｕｐＬａｎｇｕａｇｅ（ＸＡＭＬ）プロセスデータ）は、プロセス文書またはＵｉＰａｔｈＳｔｕｄｉｏ（商標）などのデザイナアプリケーションにエクスポートされて、自動化をより迅速に作成および展開し得る。いくつかの実施形態におけるタスクマイニングは、ユーザーアクション（例えば、マウスクリック位置、キーボード入力、ユーザーがインタラクションしていたアプリケーションウィンドウおよびグラフィカル要素、インタラクションのためのタイムスタンプなど）を伴うスクリーンショットの撮影、統計データ（例えば、遂行時間、アクション数、テキスト入力など）の収集、スクリーンショットの編集および注釈、記録されるアクションのタイプの指定、などを含み得る。

【0056】

（ＵｉＰａｔｈＡｕｔｏｍａｔｉｏｎＣｌｏｕｄ（商標）および／またはＵｉＰａｔｈＡＩＣｅｎｔｅｒ（商標）を介した）タスクキャプチャは、ユーザーが作業しているときにアテンディッドプロセスを自動的に文書化する、またはアンアテンディッドプロセスのためのフレームワークを提供する。このような文書化は、プロセス定義文書（ＰＤＤ）、スケルトンワークフロー、プロセスの各部分のアクションのキャプチャ、ユーザーのアクションの記録および各ステップに関する詳細を含む包括的なワークフロー図の自動生成、ＭｉｃｒｏｓｏｆｔＷｏｒｄ（登録商標）文書、ＸＡＭＬファイルなどのような形式で自動化することが望ましいタスクを含み得る。構築可能なワークフローは、ＵｉＰａｔｈＳｔｕｄｉｏ（商標）などのデザイナアプリケーションに直接エクスポートされ得る。タスクキャプチャは、プロセスを説明するサブジェクトマターエキスパートと、プロダクショングレードオートメーションを提供するセンターオブエクセレンス（ＣｏＥ）メンバーとの両方にとって、要件収集プロセスを簡素化し得る。

【0057】

オートメーションの構築は、デザイナアプリケーション（例えば、ＵｉＰａｔｈＳｔｕｄｉｏ（商標）、ＵｉＰａｔｈＳｔｕｄｉｏＸ（商標）、ＵｉＰａｔｈＷｅｂ（商標）など）を介して達成され得る。例えば、ＲＰＡ開発施設１５０のＲＰＡ開発者は、コンピューティングシステム１５２のＲＰＡデザイナアプリケーション１５４を使用して、ウェブ、モバイル、ＳＡＰ（登録商標）、および仮想デスクトップなどのさまざまなアプリケーションおよび環境用のオートメーションを構築およびテストし得る。ＡＰＩ統合は、さまざまなアプリケーション、技術、およびプラットフォームに対して提供され得る。事前定義されたアクティビティ、ドラッグアンドドロップモデリング、およびワークフローレコーダーは、最小限のコーディングで自動化を容易にし得る。文書理解機能は、１または複数ＡＩ／ＭＬモデル１３２を呼び出すデータ抽出および解釈のためのドラッグアンドドロップＡＩスキルを介して提供され得る。このような自動化は、表、チェックボックス、署名、および手書きを含む、事実上任意の文書タイプおよびフォーマットを処理し得る。データが検証されるか、または例外が処理されるとき、この情報は、それぞれのＡＩ／ＭＬモデルを再訓練するために使用されてよく、時間とともにそれらの精度が改善される。

【0058】

統合サービスにより、開発者は、例えば、ユーザーインターフェース（ＵＩ）の自動化とＡＰＩの自動化をシームレスに組み合わせ得る。ＡＰＩを必要とする、またはＡＰＩと非ＡＰＩアプリケーションおよびシステムの両方を横断する自動化が構築され得る。開発者が多種多様なプロセスをより迅速に自動化できるように、あらかじめ建築されたＲＰＡおよびＡＩテンプレートとソリューションのためのリポジトリ（例えば、ＵｉＰａｔｈＯｂｊｅｃｔＲｅｐｏｓｉｔｏｒｙ（商標））またはマーケットプレイス（例えば、ＵｉＰａｔｈＭａｒｋｅｔｐｌａｃｅ（商標））が提供され得る。したがって、自動化を構築する場合、ハイパーオートメーションシステム１００は、ユーザーインターフェース、開発環境、ＡＰＩ統合、あらかじめ建築されたおよび／またはカスタムビルドのＡＩ／ＭＬモデル、開発テンプレート、統合開発環境（ＩＤＥ）、および高度なＡＩ能力を提供し得る。ハイパーオートメーションシステム１００は、いくつかの実施形態では、ＲＰＡロボットの開発、展開、管理、構成、監視、デバッグ、および保守を可能にし、それはハイパーオートメーションシステム１００のための自動化を提供し得る。

【0059】

いくつかの実施形態では、デザイナアプリケーション（複数可）および／または外部ルールエンジンなどのハイパーオートメーションシステム１００のコンポーネントは、ハイパーオートメーションシステム１００によって提供されるさまざまな機能を制御するためのガバナンスポリシーを管理および施行するためのサポートを提供する。ガバナンスとは、組織がポリシーを導入して、ＥＵ一般データ保護規則（ＧｅｎｅｒａｌＤａｔａＰｒｏｔｅｃｔｉｏｎＲｅｇｕｌａｔｉｏｎ：ＧＤＰＲ）、米国医療保険の携行性と責任に関する法律（ｔｈｅＵ．Ｓ．ＨｅａｌｔｈＩｎｓｕｒａｎｃｅＰｏｒｔａｂｉｌｉｔｙａｎｄＡｃｃｏｕｎｔａｂｉｌｉｔｙＡｃｔ：ＨＩＰＡＡ）、サードパーティアプリケーションの利用規約などに違反するような、ユーザーが組織に害を及ぼし得る行動を実行できる自動化（ＲＰＡロボットなど）を開発できないようにする能力である。そうでなければ、開発者は、彼らの自動化の実行中にプライバシー法、利用規約などに違反する自動化を作成し得るため、いくつかの実施形態は、ロボットおよび／またはロボット設計アプリケーションレベルでアクセス制御およびガバナンス制限を実装する。これは、開発者が、セキュリティリスクをもたらすか、またはポリシー、規制、プライバシー法、および／もしくはプライバシーポリシーに違反する方法で動作し得る未承認ソフトウェアライブラリへの依存を取ることを防止することによって、いくつかの実施形態ではオートメーションプロセス開発パイプラインにセキュリティおよびコンプライアンスの追加レベルを提供し得る。例えば、米国特許出願公開第２０２２／００１１７３２号を参照。

【0060】

管理機能は、組織全体にわたるオートメーションの管理、展開、および最適化を提供し得る。管理機能は、いくつかの実施形態では、オーケストレーション、テスト管理、ＡＩ機能、および／または洞察力を含み得る。ハイパーオートメーションシステム１００の管理機能はまた、自動化アプリケーションおよび／またはＲＰＡロボットのためのサードパーティソリューションおよびアプリケーションとの統合ポイントとして作動し得る。ハイパーオートメーションシステム１００の管理機能は、とりわけ、限定されないが、ＲＰＡロボットのプロビジョニング、展開、構成、キューイング、監視、ロギング、および相互接続を容易にすることを含み得る。

【0061】

ＵｉＰａｔｈＯｒｃｈｅｓｔｒａｔｏｒ（商標）（いくつかの実施形態ではＵｉＰａｔｈＡｕｔｏｍａｔｉｏｎＣｌｏｕｄ（商標）の一部として提供されてもよく、またはオンプレミス、ＶＭ、プライベートもしくはパブリッククラウドで、Ｌｉｎｕｘ（商標）ＶＭで、またはＵｉＰａｔｈＡｕｔｏｍａｔｉｏｎＳｕｉｔｅ（商標）を介してクラウドネイティブシングルコンテナスイートとして提供されてもよい）などのコンダクタアプリケーションは、ＲＰＡロボットデプロイメントのセキュリティを展開、監視、最適化、拡大縮小、および確保するオーケストレーション能力を提供する。テストスイート（例えば、ＵｉＰａｔｈＴｅｓｔＳｕｉｔｅ（商標））は、展開された自動化の品質を監視するためのテスト管理を提供し得る。テストスイートは、テストの計画および遂行、要件の充足、および欠陥のトレーサビリティを促進し得る。テストスイートは、包括的なテストレポートを含み得る。

【0062】

分析ソフトウェア（例えば、ＵｉＰａｔｈＩｎｓｉｇｈｔｓ（商標））は、展開された自動化の性能を追跡、測定、および管理し得る。分析ソフトウェアは、自動化動作を組織の特定の重要業績評価指標（ＫＰＩ）および戦略的成果と整合させ得る。分析ソフトウェアは、人間のユーザーがより理解しやすいように、ダッシュボード形式で結果を提示し得る。

【0063】

データサービス（例えば、ＵｉＰａｔｈＤａｔａＳｅｒｖｉｃｅ（商標））は、例えば、データベース１４０に格納され、ドラッグアンドドロップのストレージインターフェースを用いて、データを単一の、拡張可能な、安全な場所に持ち込むことができる。いくつかの実施形態は、データのシームレスなアクセス、エンタープライズグレードのセキュリティ、およびスケーラビリティを確保しながら、ローコードまたはノーコードのデータモデリングおよびストレージを自動化に提供してもよい。ＡＩ機能は、ＡＩセンター（例えば、ＵｉＰａｔｈＡＩＣｅｎｔｅｒ（商標））によって提供されてもよく、これはＡＩ／ＭＬモデルの自動化への組み込みを容易にする。あらかじめ建築されたＡＩ／ＭＬモデル、モデルテンプレート、およびさまざまな展開オプションにより、データ科学者でない人でもこのような機能にアクセスできるようにし得る。展開された自動化（例えば、ＲＰＡロボット）は、ＡＩ／ＭＬモデル１３２などのＡＩセンターからＡＩ／ＭＬモデルを呼び出し得る。ＡＩ／ＭＬモデルの性能は、監視され、データレビューセンター１６０によって提供されるような、人間が検証したデータを使用してＡＩ／ＭＬモデルが訓練され、改善され得る。人間のレビューアは、コンピューティングシステム１５４上のレビューアプリケーション１５２を介して、ラベル付けされたデータをコアハイパーオートメーションシステム１２０に提供してもよい。例えば、人間のレビューアは、ＡＩ／ＭＬモデル１３２による予測が正確であることを検証してもよいし、そうでなければ修正を提供してもよい。この動的入力は、その後、ＡＩ／ＭＬモデル１３２を再訓練するためのトレーニングデータとして保存されてもよく、例えば、データベース１４０のようなデータベースに格納されてもよい。ＡＩセンターは、次に、訓練データを使用してＡＩ／ＭＬモデルの新バージョンを訓練するための訓練ジョブをスケジュールし、遂行し得る。肯定的な例と否定的な例の両方が、ＡＩ／ＭＬモデル１３２の再訓練のために格納され、使用され得る。

【0064】

エンゲージメント機能は、所望のプロセスに関するシームレスなコラボレーションのために、人間および自動化を１つのチームとして関与させる。ローコードアプリケーションは、ブラウザタブとレガシーソフトウェアを接続するために、いくつかの実施形態ではＡＰＩを欠いているものであっても、（例えば、ＵｉＰａｔｈＡｐｐｓ（商標）を介して）構築され得る。アプリケーションは、例えば、ドラッグアンドドロップ制御の豊富なライブラリを通じて、ウェブブラウザを使用して迅速に作成され得る。アプリケーションは、１つのオートメーションまたは複数のオートメーションに接続され得る。

【0065】

アクションセンター（例えば、ＵｉＰａｔｈＡｃｔｉｏｎＣｅｎｔｅｒ（商標））は、オートメーションから人間へ、またはその逆へ、プロセスを引き渡すための簡単で効率的なメカニズムを提供する。人間は、承認またはエスカレーションを提供し、例外処理などを行い得る。その後、オートメーションは、所定のワークフローの自動機能を実行し得る。

【0066】

ローカルアシスタントは、ユーザーがオートメーション（例えば、ＵｉＰａｔｈＡｓｓｉｓｔａｎｔ（商標））を起動するための起動パッドとして提供され得る。この機能は、例えばオペレーティングシステムによって提供されるトレイで提供されてもよく、ユーザーが彼らのコンピューティングシステム上でＲＰＡロボットおよびＲＰＡロボット搭載アプリケーションとインタラクションすることを可能にし得る。インターフェースは、所定のユーザーに対して承認されたオートメーションをリストにし、ユーザーがそれらを実行することを可能にし得る。これらは、オートメーションマーケットプレイス、オートメーションハブの内部オートメーションストアなどからのすぐに使えるオートメーションを含んでもよい。オートメーションが実行しているとき、オートメーションがそのアクションを実行する間、ユーザーがコンピューティングシステムを使用できるように、それらは、コンピューティングシステム上の他のプロセスと並行してローカルインスタンスとして実行し得る。特定の実施形態では、アシスタントは、ユーザーがアシスタントの起動パッドからそれらのもうすぐ自動化されるプロセスを文書化できるように、タスクキャプチャ機能と統合される。

【0067】

チャットボット（例えば、ＵｉＰａｔｈＣｈａｔｂｏｔｓ（商標））、ソーシャルメッセージングアプリケーション、および／または音声コマンドは、ユーザーがオートメーションを実行することを可能にし得る。これにより、顧客とのやり取りまたは他のアクティビティを行うために必要な情報、ツール、およびリソースへのアクセスを簡素化し得る。人と人との会話は、他のプロセスと同様に容易に自動化され得る。このようにして起動されたトリガＲＰＡロボットは、注文状況の確認、ＣＲＭへのデータ投稿などの動作を、平易な言語コマンドを用いて実行できる可能性がある。

【0068】

任意の規模での自動化プログラムのエンドツーエンドの測定およびガバメントは、いくつかの実施形態ではハイパーオートメーションシステム１００によって提供され得る。上記により、自動化の性能を理解するために、（例えば、ＵｉＰａｔｈＩｎｓｉｇｈｔｓ（商標）を介した）分析が採用されてもよい。利用可能なビジネスメトリクスおよび運用上の洞察のいずれかの組み合わせを使用するデータモデリングおよび分析は、さまざまな自動化プロセスに使用され得る。カスタム設計およびあらかじめ構築されたダッシュボードにより、所望の測定基準にわたりデータが視覚化され、新しい分析的洞察が発見され、性能指標が追跡され、オートメーションについてＲＯＩが発見され、ユーザーのコンピューティングシステム上で遠隔測定モニタリングが実行され、エラーと異常が検出され、およびオートメーションがデバッグされ得る。自動化のライフサイクルを通じてオートメーションを管理するために、自動化管理コンソール（例えば、ＵｉＰａｔｈＡｕｔｏｍａｔｉｏｎＯｐｓ（商標））が提供され得る。組織は、オートメーションの構築方法、ユーザーがそれらとともにできること、およびユーザーがどのオートメーションにアクセスできるかを統治し得る。

【0069】

ハイパーオートメーションシステム１００は、いくつかの実施形態では、反復的なプラットフォームを提供する。プロセスが発見され得、オートメーションが構築され得、テストされ得、そして展開され得、性能が測定され得、オートメーションの使用がユーザーに容易に提供され得、フィードバックが得られ得、ＡＩ／ＭＬモデルが訓練され、再訓練され得、そしてプロセス自体が繰り返され得る。これにより、より堅牢で効果的な一連の自動化を促進する。

【0070】

図２は、本発明の実施形態による、ＲＰＡシステム２００を示すアーキテクチャ図である。いくつかの実施形態では、ＲＰＡシステム２００は、図１のハイパーオートメーションシステム１００の一部である。ＲＰＡシステム２００は、開発者がワークフローを設計して実装することを可能にするデザイナ２１０を含む。デザイナ２１０は、アプリケーション統合のためのソリューションを提供するとともに、サードパーティアプリケーション、管理情報技術（ＩＴ）タスク、およびビジネスＩＴプロセスを自動化する。デザイナ２１０は、ビジネスプロセスのグラフィック表現である自動化プロジェクトの開発を容易にし得る。簡単に言えば、デザイナ２１０は、ワークフローおよびロボットの開発および展開を容易にする。いくつかの実施形態では、デザイナ２１０は、ユーザーのデスクトップ上で実行するアプリケーション、ＶＭでリモートで実行するアプリケーション、ウェブアプリケーションなどであってもよい。

【0071】

自動化プロジェクトは、上記のように本明細書で「アクティビティ」と定義されるワークフローで開発されたカスタムセットのステップ間の遂行順序および関係の制御を開発者に与えることにより、ルールベースのプロセスの自動化を可能にする。デザイナ２１０の実施形態の商業的な一例は、ＵｉＰａｔｈＳｔｕｄｉｏ（商標）である。各アクティビティは、ボタンをクリックする、ファイルを読む、ログパネルに書き込むなどのアクションを含み得る。いくつかの実施形態では、ワークフローは入れ子になっているか、または埋め込まれ得る。

【0072】

ワークフローのいくつかのタイプには、シーケンス、フローチャート、有限状態機械（ＦＳＭ）、および／またはグローバル例外ハンドラなどを含み得るが、これらに限定されない。シーケンスは、ワークフローを乱雑にすることなく、あるアクティビティから別のアクティビティへのフローを可能にする、線形プロセスに特に適し得る。フローチャートは、特により複雑なビジネスロジックに適し得、複数の分岐ロジックオペレータを介して、より多様な方法で意思決定の統合およびアクティビティの接続を可能にする。ＦＳＭは、大規模なワークフローに特に適し得る。ＦＳＭは、条件（すなわち、遷移）またはアクティビティによりトリガされる有限の数の状態をそれらの遂行中に使用し得る。グローバル例外ハンドラは、遂行エラーに遭遇したときのワークフローの挙動を決定したり、プロセスをデバッグしたりするのに特に適し得る。

【0073】

ワークフローがデザイナ２１０内で開発されると、ビジネスプロセスの遂行は、コンダクタ２２０によって調整され、デザイナ２１０内で開発されたワークフローを遂行する１または複数のロボット２３０を調整する。コンダクタ２２０の実施形態の商業的な一例は、ＵｉＰａｔｈＯｒｃｈｅｓｔｒａｔｏｒ（商標）である。コンダクタ２２０は、環境におけるリソースの生成、監視、および展開の管理を容易にする。コンダクタ２２０は、サードパーティのソリューションおよびアプリケーションとの統合ポイントとして動作し得る。上記により、いくつかの実施形態では、コンダクタ２２０は、図１のコアハイパーオートメーションシステム１２０の一部であり得る。

【0074】

コンダクタ２２０は、全てのロボット２３０を管理し得、ロボット２３０を集中ポイントから接続して遂行する。管理され得るロボット２３０のタイプには、アテンディッドロボット２３２、アンアテンディッドロボット２３４、開発ロボット（アンアテンディッドロボット２３４と同様であるが、開発およびテストの目的で使用される）、および非生産ロボット（アテンディッドロボット２３２と同様であるが、開発およびテストの目的で使用される）が含まれるが、これらに限定されない。アテンディッドロボット２３２は、ユーザーイベントによってトリガされ、同じコンピューティングシステム上で人と並んで動作する。アテンディッドロボット２３２は、集中プロセスデプロイメントおよびロギング媒体のためのコンダクタ２２０とともに使用され得る。アテンディッドロボット２３２は、人のユーザーが様々なタスクを達成するのを支援してもよく、ユーザーイベントによってトリガされてもよい。いくつかの実施形態では、プロセスは、このタイプのロボット上でコンダクタ２２０から開始することができず、および／またはそれらはロックされた画面の下で実行することができない。特定の実施形態では、アテンディッドロボット２３２は、ロボットトレイからまたはコマンドプロンプトからのみ起動され得る。アテンディッドロボット２３２は、いくつかの実施形態では、人の監督下で動作することが好ましい。

【0075】

アンアテンディッドロボット２３４は、仮想環境で無人で動作し、多くのプロセスを自動化し得る。アンアテンディッドロボット２３４は、リモート遂行、監視、スケジューリング、および作業キューのサポートの提供を担当し得る。全てのロボットタイプのためのデバッグは、いくつかの実施形態では、デザイナ２１０で実行され得る。アテンディッドロボットおよびアンアテンディッドロボットの両方は、メインフレーム、ウェブアプリケーション、ＶＭ、エンタープライズアプリケーション（例えば、ＳＡＰ（登録商標）、ＳａｌｅｓＦｏｒｃｅ（登録商標）、Ｏｒａｃｌｅ（登録商標）などにより生成されたもの）、およびコンピューティングシステムアプリケーション（例えば、デスクトップおよびラップトップアプリケーション、モバイルデバイスアプリケーション、ウェアラブルコンピュータアプリケーションなど）を含むが、これらに限定されない様々なシステムおよびアプリケーションを自動化し得る。

【0076】

コンダクタ２２０は、プロビジョニング、展開、構成、キューイング、監視、ロギング、および／または相互接続性の提供を含むがこれらに限定されない様々な能力を有し得る。プロビジョニングは、ロボット２３０とコンダクタ２２０（例えば、ウェブアプリケーション）との間の接続を作成し、維持することを含み得る。展開は、遂行のために割り当てられたロボット２３０へのパッケージバージョンの正しい配信を保証することを含み得る。構成は、ロボット環境およびプロセス構成の維持および配信を含み得る。キューイングは、キューおよびキュー項目の管理を提供することを含み得る。監視は、ロボットの特定データを追跡し、ユーザーの権限を維持することを含み得る。ロギングは、データベース（例えば、構造化照会言語（ＳＱＬ）データベースまたは「ｎｏｔｏｎｌｙ」ＳＱＬ（ＮｏＳＱＬ）データベース）および／または別のストレージメカニズム（例えば、大規模なデータセットを格納し、迅速にクエリを実行する能力を提供するＥｌａｓｔｉｃＳｅａｒｃｈ（登録商標））へのログの保存およびインデックス作成を含み得る。コンダクタ２２０は、サードパーティのソリューションおよび／またはアプリケーションのための通信の集中点として操作することにより、相互接続性を提供し得る。

【0077】

ロボット２３０は、デザイナ２１０で構築されたワークフローを実装する遂行エージェントである。ロボット（複数可）２３０のいくつかの実施形態の１つの商業的な例は、ＵｉＰａｔｈＲｏｂｏｔｓ（商標）である。いくつかの実施形態では、ロボット２３０は、デフォルトで、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）ＳｅｒｖｉｃｅＣｏｎｔｒｏｌＭａｎａｇｅｒ（ＳＣＭ）管理サービスをインストールする。その結果、このようなロボット２３０は、ローカルシステムアカウントの下でインタラクティブなＷｉｎｄｏｗｓ（登録商標）セッションを開くことができ、Ｗｉｎｄｏｗｓ（登録商標）サービスの権利を有し得る。

【0078】

いくつかの実施形態では、ロボット２３０は、ユーザーモードで設置され得る。このようなロボット２３０については、所定のロボット２３０が設置されているユーザーと同じ権利を有することを意味する。この特色はまた、各マシンを最大限に全活用することを保証する高密度（ＨＤ）ロボットにも利用可能であり得る。いくつかの実施形態では、いずれかのタイプのロボット２３０は、ＨＤ環境で構成され得る。

【0079】

いくつかの実施形態におけるロボット２３０は、複数のコンポーネントに分割され、それぞれが特定の自動化タスクに特化されている。いくつかの実施形態におけるロボットコンポーネントは、ＳＣＭ管理ロボットサービス、ユーザーモードロボットサービス、エグゼキュータ、エージェント、およびコマンドラインを含むが、これらに限定されない。ＳＣＭ管理ロボットサービスは、Ｗｉｎｄｏｗｓ（登録商標）セッションを管理および監視し、コンダクタ２２０と遂行ホスト（すなわち、ロボット２３０が遂行されるコンピューティングシステム）との間のプロキシとして動作する。これらのサービスは、ロボット２３０の資格情報を任されて管理する。コンソールアプリケーションは、ローカルシステム下のＳＣＭにより起動される。

【0080】

いくつかの実施形態におけるユーザーモードロボットサービスは、Ｗｉｎｄｏｗｓ（登録商標）セッションを管理および監視し、コンダクタ２２０と遂行ホストとの間のプロキシとして動作する。ユーザーモードロボットサービスは、ロボット２３０の資格情報を任されて管理し得る。ＳＣＭ管理ロボットサービスがインストールされていない場合、Ｗｉｎｄｏｗｓ（登録商標）アプリケーションが自動的に起動され得る。

【0081】

エグゼキュータは、Ｗｉｎｄｏｗｓ（登録商標）セッションの下で与えられたジョブを遂行し得る（つまり、ワークフローを遂行し得る）。エグゼキュータは、モニタ毎のドットパーインチ（ＤＰＩ）設定を認識し得る。エージェントは、システムトレイウィンドウに利用可能なジョブを表示するＷｉｎｄｏｗｓ（登録商標）ＰｒｅｓｅｎｔａｔｉｏｎＦｏｕｎｄａｔｉｏｎ（ＷＰＦ）アプリケーションであり得る。エージェントはサービスのクライアントであり得る。エージェントは、ジョブの開始または停止、設定の変更を依頼し得る。コマンドラインはサービスのクライアントである。コマンドラインは、ジョブの開始を要求し、その出力を待つことができるコンソールアプリケーションである。

【0082】

上で説明したように、ロボット２３０のコンポーネントが分割されていることは、開発者、サポートユーザー、およびコンピューティングシステムが、各コンポーネントが遂行していることをより容易に実行し、特定し、および追跡するのに役立つ。この方法では、エグゼキュータとサービスに異なるファイアウォールルールを設定するなど、コンポーネントごとに特別な挙動を構成し得る。エグゼキュータは常に、いくつかの実施形態では、モニタごとのＤＰＩ設定を認識し得る。その結果、ワークフローは、ワークフローが作成されたコンピューティングシステムの構成に関係なく、いずれかのＤＰＩで遂行し得る。また、いくつかの実施形態では、デザイナ２１０からのプロジェクトは、ブラウザのズームレベルに依存しないようにし得る。ＤＰＩを認識していないまたは意図的に認識していないとマークされているアプリケーションの場合、いくつかの実施形態ではＤＰＩを無効にし得る。

【0083】

本実施形態におけるＲＰＡシステム２００は、ハイパーオートメーションシステムの一部である。開発者は、デザイナ２１０を使用して、（例えば、そのＡＩセンターの一部として）コアハイパーオートメーションシステム２４０に展開されたＡＩ／ＭＬモデルを利用するＲＰＡロボットを構築かつテストし得る。そのようなＲＰＡロボットは、ＡＩ／ＭＬモデル（複数可）の遂行のための入力を送信し、コアハイパーオートメーションシステム２４０を介してそこからの出力を受信し得る。

【0084】

１または複数のロボット２３０は、上述したように、リスナーであってもよい。これらのリスナーは、ユーザーが彼らのコンピューティングシステムを使用するときに彼らがしていることに関する情報をコアハイパーオートメーションシステム２４０に提供し得る。この情報は、その後、プロセスマイニング、タスクマイニング、タスクキャプチャなどのためにコアハイパーオートメーションシステムによって使用され得る。

【0085】

アシスタント／チャットボット２５０は、ユーザーがＲＰＡローカルロボットを起動することを可能にするために、ユーザーコンピューティングシステム上に提供され得る。アシスタントは、例えば、システムトレイに配置され得る。チャットボットは、ユーザーがチャットボットのテキストを見ることができるように、ユーザーインターフェースを有し得る。あるいは、チャットボットは、ユーザーインターフェースを持たず、バックグラウンドで実行し、ユーザーの発話に対してコンピューティングシステムのマイクを使用して聞くことができる。

【0086】

いくつかの実施形態では、データラベリングは、ロボットが実行しているコンピューティングシステムのユーザーによって、またはロボットが情報を提供する別のコンピューティングシステム上で実行され得る。例えば、ロボットがＶＭユーザーのために画像にＣＶを行うＡＩ／ＭＬモデルを呼び出すが、ＡＩ／ＭＬモデルが画面上のボタンを正しく特定しない場合、ユーザーは、誤特定または非特定コンポーネントの周りに矩形を描き、正しい特定を有するテキストを潜在的に提供し得る。この情報は、コアハイパーオートメーションシステム２４０に提供され得、その後、ＡＩ／ＭＬモデルの新バージョンの訓練のために後で使用され得る。

【0087】

図３は、本発明の実施形態による、展開したＲＰＡシステム３００を示すアーキテクチャ図である。いくつかの実施形態では、ＲＰＡシステム３００は、図２のＲＰＡシステム２００および／または図１のハイパーオートメーションシステム１００の一部であり得る。展開されたＲＰＡシステム３００は、異なるコンピューティングプロセスの自動化のためのエンタープライズレベル、ユーザーレベル、またはデバイスレベルの自動化ソリューションなどを提供する、クラウドベースのシステム、オンプレミスシステム、デスクトップベースのシステムであり得る。

【0088】

クライアント側、サーバー側、またはその両方が、本発明の範囲から逸脱することなく、いずれかの所望の数のコンピューティングシステムを含むことができることに留意すべきである。クライアント側では、ロボットアプリケーション３１０は、エグゼキュータ３１２、エージェント３１４、およびデザイナ３１６を含む。しかし、いくつかの実施形態では、デザイナ３１６は、エグゼキュータ３１２およびエージェント３１４と同じコンピューティングシステム上で実行していない場合がある。エグゼキュータ３１２はプロセスを実行している。図３に示すように、複数のビジネスプロジェクトが同時に実行され得る。エージェント３１４（例えば、Ｗｉｎｄｏｗｓ（登録商標）サービス）は、本実施形態では、全てのエグゼキュータ３１２のための単一の接続ポイントである。本実施形態における全てのメッセージはコンダクタ３４０にログインされ、それはデータベースサーバー３５０、ＡＩ／ＭＬサーバー３６０、インデクササーバー３７０、またはそれらの任意の組み合わせを介してそれらをさらに処理する。図２に関して上述したように、エグゼキュータ３１２は、ロボットコンポーネントであり得る。

【0089】

いくつかの実施形態では、ロボットは、マシン名とユーザー名との間の関連付けを表す。ロボットは、複数のエグゼキュータを同時に管理し得る。同時に実行される複数のインタラクティブセッションをサポートするコンピューティングシステム（Ｗｉｎｄｏｗｓ（登録商標）Ｓｅｒｖｅｒ２０１２など）では、複数のロボットが同時に実行され得、それぞれが一意のユーザー名を使用して別々のＷｉｎｄｏｗｓ（登録商標）セッションで実行され得る。これは、上記のＨＤロボットと呼ばれる。

【0090】

エージェント３１４はまた、ロボットの状態を送信し（例えば、ロボットがまだ機能していることを示す「ハートビート」メッセージを定期的に送信する）、遂行されるパッケージの要求されるバージョンをダウンロードすることにも責任を負う。エージェント３１４とコンダクタ３４０との間の通信は、いくつかの実施形態では、常にエージェント３１４によって開始される。通知シナリオでは、エージェント３１４は、後にコンダクタ３３０によってロボットにコマンド（例えば、開始、停止など）を送信するために使用されるＷｅｂＳｏｃｋｅｔチャネルを開いてもよい。

【0091】

リスナー３３０は、リスナー３３０が常駐するアテンディッドコンピューティングシステムおよび／またはアンアテンディッドコンピューティングシステムの動作とのユーザーインタラクションに係るデータを監視し記録する。リスナー３３０は、本発明の範囲から逸脱することなく、ＲＰＡロボット、オペレーティングシステムの一部、それぞれのコンピューティングシステム用のダウンロード可能なアプリケーション、または他の任意のソフトウェアおよび／もしくはハードウェアであり得る。実際、いくつかの実施形態では、リスナーのロジックは、物理的なハードウェアを介して部分的または完全に実装される。

【0092】

サーバー側には、プレゼンテーション層（ウェブアプリケーション３４２、オープンデータプロトコル（ＯＤａｔａ）代表状態転送（ＲＥＳＴ）アプリケーションプログラミングインターフェース（ＡＰＩ）エンドポイント３４４、通知および監視３４６）、サービス層（ＡＰＩ実装／ビジネスロジック３４８）、永続層（データベースサーバー３５０、ＡＩ／ＭＬサーバー３６０、インデクササーバー３７０）が含まれる。コンダクタ３４０は、ウェブアプリケーション３４２、ＯＤａｔａＲＥＳＴＡＰＩエンドポイント３４４、通知および監視３４６、ならびにＡＰＩ実装／ビジネスロジック３４８を含む。いくつかの実施形態では、ユーザーがコンダクタ３４０のインターフェース（例えば、ブラウザ３２０を介して）で実行するほとんどのアクションは、様々なＡＰＩを呼び出すことによって実行される。このような動作は、本発明の範囲を逸脱することなく、ロボット上でのジョブの起動、キュー内のデータの追加／削除、無人で実行するジョブのスケジューリングなどを含み得るが、これらに限定されない。ウェブアプリケーション３４２は、サーバープラットフォームのビジュアル層である。この実施形態では、ウェブアプリケーション３４２は、ハイパーテキストマークアップ言語（ＨＴＭＬ）およびジャバスクリプト（ＪＳ）を使用する。しかし、本発明の範囲を逸脱することなく、いずれかの所望のマークアップ言語、スクリプト言語、または他のいずれかのフォーマットを使用し得る。ユーザーは、コンダクタ３４０を制御するための様々な動作を実行するために、本実施形態ではブラウザ３２０を介してウェブアプリケーション３４２からのウェブページとインタラクションする。例えば、ユーザーは、ロボットグループを作成し、ロボットへのパッケージの割り当てを行い、ロボット毎および／またはプロセス毎のログを解析し、ロボットを起動および停止などし得る。

【0093】

ウェブアプリケーション３４２に加えて、コンダクタ３４０は、ＯＤａｔａＲＥＳＴＡＰＩエンドポイント３４４を公開するサービス層も含む。しかし、本発明の範囲を逸脱することなく、他のエンドポイントが含まれていてもよい。ＲＥＳＴＡＰＩは、ウェブアプリケーション３４２とエージェント３１４の両方により消費される。エージェント３１４は、本実施形態では、クライアントコンピュータ上の１または複数のロボットのスーパーバイザである。

【0094】

本実施形態のＲＥＳＴＡＰＩは、構成、ロギング、監視、およびキューイング機能をカバーする。構成エンドポイントは、いくつかの実施形態では、アプリケーションのユーザー、権限、ロボット、アセット、リリース、および環境を定義し、構成するために使用されてもよい。ロギングＲＥＳＴエンドポイントは、例えば、エラー、ロボットによって送信された明示的なメッセージ、およびその他の環境固有の情報など、様々な情報をログに記録するために使用され得る。デプロイメントＲＥＳＴエンドポイントは、コンダクタ３４０においてジョブ開始コマンドが使用された場合に遂行されるべきパッケージのバージョンを問い合わせるためにロボットにより使用されてもよい。キューイングＲＥＳＴエンドポイントは、キューへのデータの追加、キューからのトランザクションの取得、トランザクションのステータスの設定など、キューおよびキューアイテムの管理を担ってもよい。

【0095】

ＲＥＳＴエンドポイントの監視は、ウェブアプリケーション３４２およびエージェント３１４を監視してもよい。通知および監視ＡＰＩ３４６は、エージェント３１４の登録、エージェント３１４への構成設定の配信、ならびにサーバーおよびエージェント３１４からの通知の送受信に使用されるＲＥＳＴエンドポイントであってもよい。通知および監視ＡＰＩ３４６は、いくつかの実施形態では、ＷｅｂＳｏｃｋｅｔ通信を使用してもよい。

【0096】

サービス層のＡＰＩは、いくつかの実施形態では、適切なＡＰＩアクセスパスの構成を通じて、例えば、コンダクタ３４０および全体的なハイパーオートメーションシステムがオンプレミス展開タイプまたはクラウドベース展開タイプを有するかどうかに基づいて、アクセスされ得る。コンダクタ３４０のためのＡＰＩは、コンダクタ３４０に登録されたさまざまなエンティティに関する統計を照会するためのカスタムメソッドを提供し得る。各論理リソースは、いくつかの実施形態では、ＯＤａｔａエンティティであってもよい。そのようなエンティティにおいて、ロボット、プロセス、キューなどのコンポーネントは、プロパティ、関係、および動作を有してよい。コンダクタ３４０のＡＰＩは、いくつかの実施形態では、以下の２つの方法でウェブアプリケーション３４２および／またはエージェント３１４によって消費され得る：コンダクタ３４０からＡＰＩアクセス情報を得ることによって、またはＯＡｕｔｈフローを使用するために外部アプリケーションを登録することによって。

【0097】

永続層は、本実施形態では、データベースサーバー３５０（例えば、ＳＱＬサーバー）、ＡＩ／ＭＬサーバー３６０（例えば、ＡＩセンター機能などのＡＩ／ＭＬモデル提供サービスを提供するサーバー）、およびインデクササーバー３７０の３つのサーバーを含む。本実施形態におけるデータベースサーバー３５０は、ロボット、ロボットグループ、関連するプロセス、ユーザー、役割、スケジュールなどの構成を格納する。この情報は、いくつかの実施形態では、ウェブアプリケーション３４２を介して管理される。データベースサーバー３５０は、キューおよびキューアイテムを管理してもよい。いくつかの実施形態では、データベースサーバー３５０は、ロボットにより記録されたメッセージを（インデクササーバー３７０に加えて、またはそれに代えて）格納してもよい。データベースサーバー３５０は、例えば、クライアント側にインストールされたリスナー３３０から受信した、プロセスマイニング、タスクマイニング、および／またはタスクキャプチャ関連データも格納し得る。リスナー３３０およびデータベース３５０の間に矢印は示されていないが、リスナー３３０は、いくつかの実施形態では、データベース３５０と通信することができ、逆もまた同様であることが理解されるべきである。このデータは、ＰＤＤ、画像、ＸＡＭＬファイルなどの形態で格納され得る。リスナー３３０は、リスナー３３０が常駐するそれぞれのコンピューティングシステム上のユーザーアクション、プロセス、タスク、およびパフォーマンスメトリクスを傍受するように構成され得る。例えば、リスナー３３０は、そのそれぞれのコンピューティングシステム上のユーザーアクション（例えば、クリック、タイプされた文字、ロケーション、アプリケーション、アクティブ要素、時間など）を記録し得、次にこれらをデータベースサーバー３５０に提供し格納されるのに適した形式に変換し得る。

【0098】

ＡＩ／ＭＬサーバー３６０は、ＡＩ／ＭＬモデルの自動化への組み込みを容易にする。あらかじめ建築されたＡＩ／ＭＬモデル、モデルテンプレート、およびさまざまな展開オプションにより、データ科学者でない人でもこのような機能にアクセスできるようにし得る。展開されたオートメーション（例えば、ＲＰＡロボット）は、ＡＩ／ＭＬサーバー３６０からＡＩ／ＭＬモデルを呼び出し得る。ＡＩ／ＭＬモデルの性能は、監視され、そして人間が検証したデータを使用して訓練され、改善され得る。ＡＩ／ＭＬサーバー３６０は、ＡＩ／ＭＬモデルの新しいバージョンを訓練するために、訓練ジョブをスケジュールし、遂行し得る。

【0099】

ＡＩ／ＭＬサーバー３６０は、開発時にユーザーのためのさまざまなＭＬスキルを構成するためのＡＩ／ＭＬモデルおよびＭＬパッケージに係るデータを格納し得る。本明細書で使用されるＭＬスキルは、例えば、オートメーションによって使用され得る、プロセスのためのあらかじめ構築され訓練されたＭＬモデルである。ＡＩ／ＭＬサーバー３６０はまた、限定されないが、意図分析、自然言語処理（ＮＬＰ）、音声分析、異なるタイプのＡＩ／ＭＬモデルなどを含む、さまざまなＡＩ／ＭＬ能力のための文書理解技術およびフレームワーク、アルゴリズムおよびソフトウェアパッケージに係るデータを格納し得る。

【0100】

いくつかの実施形態では任意であるが、インデクササーバー３７０は、ロボットにより記録された情報を保存し、インデックスを作成する。特定の実施形態では、インデクササーバー３７０は、構成設定を介して無効化されてもよい。いくつかの実施形態では、インデクササーバー３７０は、オープンソースプロジェクトの全文検索エンジンであるＥｌａｓｔｉｃＳｅａｒｃｈ（登録商標）を使用する。ロボットにより記録されたメッセージ（例えば、ログメッセージまたはライン書き込みのようなアクティビティを使用して）は、ロギングＲＥＳＴエンドポイント（複数可）を介してインデクササーバー３７０に送信されてもよく、そこで将来の利用のためにそれらはインデックス化される。

【0101】

図４は、本発明の実施形態による、デザイナ４１０、アクティビティ４２０、４３０、４４０、４５０、ドライバ４６０、ＡＰＩ４７０、およびＡＩ／ＭＬモデル４８０間の関係４００を説明するアーキテクチャ図である。以上のように、開発者は、デザイナ４１０を用いて、ロボットによって遂行されるワークフローを開発する。様々なタイプのアクティビティは、いくつかの実施形態では、開発者に表示され得る。デザイナ４１０は、ユーザーのコンピューティングシステムに対してローカルであっても、またはそれに対してリモートであってもよい（例えば、ＶＭまたはリモートウェブサーバーとインタラクションするローカルウェブブラウザーを介してアクセスされる）。ワークフローは、ユーザー定義アクティビティ４２０、ＡＰＩ駆動アクティビティ４３０、ＡＩ／ＭＬアクティビティ４４０、および／または、ＵＩオートメーションアクティビティ４５０を含み得る。ユーザー定義アクティビティ４２０およびＡＰＩ駆動アクティビティ４４０は、それらのＡＰＩを介してアプリケーションとインタラクションする。ユーザー定義アクティビティ４２０および／またはＡＩ／ＭＬアクティビティ４４０は、いくつかの実施形態では、ロボットが動作しているコンピューティングシステムに対してローカルに、および／またはそれに対してリモートに位置され得る、１または複数のＡＩ／ＭＬモデル４８０を呼び出し得る。

【0102】

いくつかの実施形態は、画像中の非テキストの視覚的コンポーネントを特定することができる。ＣＶは、ＡＩ／ＭＬモデル（複数可）４８０によって少なくとも部分的に実行され得る。そのようなコンポーネントに係るいくつかのＣＶアクティビティは、限定されないが、ＯＣＲを用いたセグメント化されたラベルデータからのテキストの抽出、ファジーテキストマッチング、ＭＬを用いたセグメント化されたラベルデータのクロッピング、ラベルデータにおける抽出されたテキストとグランドトゥルースデータとの比較等を含み得る。いくつかの実施形態では、ユーザー定義のアクティビティ４２０に実装され得るアクティビティの数は、数百または数千であってもよい。しかし、本発明の範囲を逸脱することなく、任意の数および／またはアクティビティのタイプが使用され得る。

【0103】

ＵＩオートメーションアクティビティ４５０は、低レベルのコードで記述され、画面とのインタラクションを促進する特別な低レベルのアクティビティのサブセットである。ＵＩオートメーションアクティビティ４５０は、ロボットが所望のソフトウェアとインタラクションすることを可能にするドライバ４６０を介して、これらのインタラクションを促進する。例えば、ドライバ４６０は、オペレーティングシステム（ＯＳ）ドライバ４６２、ブラウザドライバ４６４、ＶＭドライバ４６６、エンタープライズアプリケーションドライバ４６８などを含み得る。いくつかの実施形態では、コンピューティングシステムとのインタラクションを実行するために、１または複数のＡＩ／ＭＬモデル４８０はＵＩオートメーションアクティビティ４５０によって使用され得る。特定の実施形態では、ＡＩ／ＭＬモデル４８０は、ドライバ４６０を増強するか、またはそれらを完全に置き換え得る。実際、特定の実施形態では、ドライバ４６０は含まれない。

【0104】

ドライバ４６０は、ＯＳドライバ４６２を介して、フックを探したり、キーを監視したりするなど、低レベルでＯＳとインタラクションし得る。ドライバ４６０は、Ｃｈｒｏｍｅ（登録商標）、ＩＥ（登録商標）、Ｃｉｔｒｉｘ（登録商標）、ＳＡＰ（登録商標）などとの統合を促進してもよい。例えば、「クリック」アクティビティは、ドライバ４６０を介して、これらの異なるアプリケーションにおいて同じ役割を果たす。

【0105】

図５は、本発明の実施形態による、ソースとしてタスクマイニングデータを使用したソースおよびターゲットの間でＡＩ主導のセマンティック自動データ転送を実行するように構成されたコンピューティングシステム５００を示すアーキテクチャ図である。いくつかの実施形態では、コンピューティングシステム５００は、本明細書に描かれたおよび／または記載された１または複数のコンピューティングシステムであってもよい。特定の実施形態では、コンピューティングシステム５００は、図１および図２に示されるようなハイパーオートメーションシステムの一部であり得る。コンピューティングシステム５００は、情報を通信するためのバス５０５または他の通信機構と、情報を処理するためのバス５０５に結合されたプロセッサ（複数可）５１０とを含む。プロセッサ（複数可）５１０は、中央処理ユニット（ＣＰＵ）、特定用途集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、グラフィックスプロセッシングユニット（ＧＰＵ）、それらの複数のインスタンス、および／またはそれらのいずれかの組み合わせを含む、いずれかのタイプの一般的または特定用途向けプロセッサであり得る。プロセッサ（複数可）５１０はまた、複数の処理コアを有してもよく、コアの少なくとも一部は、特定の機能を実行するように構成され得る。いくつかの実施形態では、複数並列処理が使用されてもよい。特定の実施形態では、少なくとも１つのプロセッサ（複数可）５１０は、生物学的ニューロンを模倣する処理要素を含むニューロモーフィック回路であり得る。いくつかの実施形態では、ニューロモーフィック回路は、フォンノイマンコンピューティングアーキテクチャの典型的なコンポーネントを必要としない場合がある。

【0106】

コンピューティングシステム５００は、プロセッサ（複数可）５１０によって遂行される情報および命令を格納するためのメモリ５１５をさらに含む。メモリ５１５は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、フラッシュメモリ、キャッシュ、磁気ディスクもしくは光ディスクなどの静的記憶装置、または他のタイプの非一時的なコンピュータ読み取り可能な媒体、あるいはそれらのいずれかの組み合わせで構成され得る。非一時的なコンピュータ読み取り可能な媒体は、プロセッサ（複数可）５１０によりアクセス可能ないずれかの利用可能な媒体であってもよく、揮発性媒体、不揮発性媒体または両方などを含み得る。また、媒体は、取り外し可能なもの、取り外し不可能なもの、または両方であってもよい。

【0107】

さらに、コンピューティングシステム５００は、無線および／または有線接続を介して通信ネットワークへのアクセスを提供するために、トランシーバなどの通信デバイス５２０を含む。いくつかの実施形態では、通信デバイス５２０は、周波数分割多元接続（ＦＤＭＡ）、シングルキャリアＦＤＭＡ（ＳＣ－ＦＤＭＡ）、時分割多元接続（ＴＤＭＡ）、符号分割多元接続（ＣＤＭＡ）、直交周波数分割多重方式（ＯＦＤＭ）、直交周波数分割多元接続（ＯＦＤＭＡ）、移動体用グローバルシステム（ＧＳＭ：ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅ）通信、汎用パケット無線サービス（ＧＰＲＳ：ＧｅｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅ）、ユニバーサル移動体通信システム（ＵＭＴＳ：ＵｎｉｖｅｒｓａｌＭｏｂｉｌｅＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｙｓｔｅｍ）、ｃｄｍａ２０００、広帯域ＣＤＭＡ（Ｗ－ＣＤＭＡ：ＷｉｄｅｂａｎｄＣＤＭＡ）、高速ダウンリンクパケットアクセス（ＨＳＤＰＡ：Ｈｉｇｈ－ＳｐｅｅｄＤｏｗｎｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ）、高速アップリンクパケットアクセス（ＨＳＵＰＡ：Ｈｉｇｈ－ＳｐｅｅｄＵｐｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ）、高速パケットアクセス（ＨＳＰＡ：Ｈｉｇｈ－ＳｐｅｅｄＰａｃｋｅｔＡｃｃｅｓｓ）、ロングタームエボリューション（ＬＴＥ：ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、ＬＴＥアドバンスト（ＬＴＥ－Ａ：ＬＴＥＡｄｖａｎｃｅｄ）、８０２．１１ｘ、Ｗｉ－Ｆｉ、Ｚｉｇｂｅｅ、超広帯域無線（ＵＷＢ：Ｕｌｔｒａ－ＷｉｄｅＢａｎｄ）、８０２．１６ｘ、８０２．１５、ＨｏｍｅＮｏｄｅ－Ｂ（ＨｎＢ）、Ｂｌｕｅｔｏｏｔｈ、無線ＩＤタグ（ＲＦＩＤ：ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩｄｅｎｔｉｆｉｃａｔｉｏｎ）、ＩｒＤＡ（ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ）、近距離無線通信（ＮＦＣ：Ｎｅａｒ－ＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎｓ）、第５世代（５Ｇ）、ＮｅｗＲａｄｉｏ（ＮＲ）、それらのいずれかの組み合わせ、および／または本発明の範囲から逸脱することなく、いずれかの他の現在存在するまたは将来実装される通信標準および／またはプロトコルを使用するように構成され得る。いくつかの実施形態では、通信デバイス５２０は、本発明の範囲から逸脱することなく、単数のアンテナ、アレイ状のアンテナ、フェーズドアンテナ、スイッチドアンテナ、ビームフォーミングアンテナ、ビームステアリングアンテナ、それらの組み合わせ、および／またはいずれかの他のアンテナ構成である１または複数のアンテナを含み得る。

【0108】

プロセッサ（複数可）５１０は、バス５０５を介して、プラズマディスプレイ、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、電界放出ディスプレイ（ＦＥＤ）、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、フレキシブルＯＬＥＤディスプレイ、フレキシブル基板ディスプレイ、プロジェクションディスプレイ、４Ｋディスプレイ、高精細ディスプレイ、Ｒｅｔｉｎａ（登録商標）ディスプレイ、ＩＰＳ（Ｉｎ－ＰｌａｎｅＳｗｉｔｃｈｉｎｇ）ディスプレイ、またはユーザーに情報を表示するためのいずれかの他の適切なディスプレイなどのディスプレイ５２５にさらに結合されている。ディスプレイ５２５は、抵抗方式、静電容量方式、表面弾性波（ＳＡＷ）静電容量方式、赤外線方式、光学イメージング方式、分散信号方式、音響パルス認識方式、フラストレート全内部反射方式などを用いて、タッチ（ハプティック）ディスプレイ、３次元（３Ｄ）タッチディスプレイ、マルチ入力タッチディスプレイ、マルチタッチディスプレイなどとして構成されていてもよい。本発明の範囲を逸脱することなく、いずれかの好適な表示デバイスおよびハプティックＩ／Ｏを使用することができる。

【0109】

コンピュータマウス、タッチパッドなどのようなキーボード５３０およびカーソル制御デバイス５３５は、ユーザーがコンピューティングシステム５００とインターフェースすることを可能にするために、バス５０５にさらに結合されている。しかしながら、特定の実施形態では、物理的なキーボードおよびマウスが存在しない場合があり、ユーザーは、ディスプレイ５２５および／またはタッチパッド（図示せず）のみを介してデバイスとインタラクションすることができる。任意の入力デバイスの種類および組み合わせは、設計の選択の問題として使用され得る。特定の実施形態では、物理的な入力デバイスおよび／またはディスプレイは存在しない。例えば、ユーザーは、コンピューティングシステム５００と通信している別のコンピューティングシステムを介してリモートでそれとインタラクションしてもよいし、コンピューティングシステム５００は自律的に動作してもよい。

【0110】

メモリ５１５は、プロセッサ（複数可）５１０により遂行されたときに機能を提供するソフトウェアモジュールを格納する。モジュールは、コンピューティングシステム５００のためのオペレーティングシステム５４０を含む。モジュールはさらに、本明細書に記載されたプロセスの全部もしくは一部またはその派生物を実行するように構成されたオートメーションモジュール５４５を含む。コンピューティングシステム５００は、付加的な機能を含む１または複数の付加的な機能モジュール５５０を含み得る。

【0111】

当業者であれば、「コンピューティングシステム」は、本発明の範囲から逸脱することなく、サーバー、組み込みコンピューティングシステム、パーソナルコンピュータ、コンソール、パーソナルデジタルアシスタント（ＰＤＡ）、携帯電話、タブレットコンピューティングデバイス、量子コンピューティングシステム、または他のいずれかの適切なコンピューティングデバイス、またはデバイスの組み合わせとして具現化され得ることを理解するであろう。上述した機能を「システム」により実行されるものとして提示することは、何ら本発明の範囲を限定することを意図するものではなく、本発明の多くの実施形態の一例を提供することを意図するものである。実際、本明細書に開示された方法、システム、および装置は、クラウドコンピューティングシステムを含むコンピューティング技法と整合性のあるローカライズされた形態および分配された形態で実装されてもよい。コンピューティングシステムは、ローカルエリアネットワーク（ＬＡＮ）、モバイル通信ネットワーク、衛星通信ネットワーク、インターネット、パブリッククラウドまたはプライベートクラウド、ハイブリッドクラウド、サーバーファーム、それらのいずれかの組み合わせなどの一部であり得、そうでない場合はそれらによりアクセス可能であり得る。本発明の範囲から逸脱することなく、任意の局所または分散アーキテクチャが使用され得る。

【0112】

本明細書で説明するシステム特色のいくつかは、実装の独立性をより強調するために、モジュールとして提示されていることに留意すべきである。例えば、モジュールは、カスタムの非常に大規模な集積（ＶＬＳＩ）回路またはゲートアレイ、ロジックチップ、トランジスタ、または他の個別部品のような既製の半導体を含むハードウェア回路として実装され得る。また、モジュールは、フィールドプログラマブルゲートアレイ、プログラマブルアレイロジック、プログラマブルロジックデバイス、グラフィックス処理ユニットなどのプログラマブルハードウェアデバイスに実装され得る。

【0113】

モジュールはまた、様々なタイプのプロセッサにより遂行されるためのソフトウェアに少なくとも部分的に実装され得る。例えば、遂行可能コードの特定された単位は、例えば、オブジェクト、プロシージャ、または関数として編成されていてもよいコンピュータ命令の１または複数の物理的または論理的なブロックを含み得る。それにもかかわらず、遂行可能な特定されたモジュールは、物理的に一緒に配置されている必要はなく、論理的に結合されたときにモジュールを含み、モジュールのために述べられた目的を達成するために、異なる場所に格納された別々の命令を含んでいてもよい。さらに、モジュールは、例えば、ハードディスクドライブ、フラッシュデバイス、ＲＡＭ、テープのような非一時的なコンピュータ読み取り可能な媒体、および／または本発明の範囲から逸脱することなくデータを格納するために使用される他のいずれかの非一時的なコンピュータ読み取り可能な媒体に格納されていてもよい。

【0114】

実際、遂行可能コードのモジュールは、単一の命令であってもよいし、多数の命令であってもよいし、さらには、複数の異なるコードセグメント、異なるプログラム間、および複数のメモリデバイス間に分散されていてもよい。同様に、動作データは、モジュール内で特定され、ここで示されてもよく、いずれかの適切な形態で具現化され、いずれかの適切なタイプのデータ構造体内で組織化され得る。動作データは、単一のデータセットとして収集されてもよいし、または異なる記憶デバイスにわたり異なる場所に分散されていてもよく、少なくとも部分的には、単にシステムまたはネットワーク上の電子信号として存在していてもよい。

【0115】

本発明の範囲から逸脱することなく、さまざまなタイプのＡＩ／ＭＬモデルが訓練され、展開され得る。例えば、図６Ａは、本発明の実施形態による、画像内のグラフィカル要素を認識するように訓練されたニューラルネットワーク６００の例を示す。ここで、ニューラルネットワーク６００は、入力層の入力「ニューロン」１～Ｉに関する入力として、１９２０×１０８０の画面のスクリーンショット画像のピクセルを受信する。この場合、Ｉは、スクリーンショット画像のピクセルの総数である２，０７３，６００である。

【0116】

ニューラルネットワーク６００はまた、多数の隠れ層を含む。ＤＬＮＮと浅い学習ニューラルネットワーク（ＳＬＮＮ）はどちらも通常複数の層を有するが、ＳＬＮＮは場合によっては１または２つの層しか持たず、通常はＤＬＮＮよりも少ない場合がある。典型的に、ニューラルネットワークのアーキテクチャは、ニューラルネットワーク６００の場合のように、入力層、複数の中間層、および出力層を含む。

【0117】

多くの場合、ＤＬＮＮは多くの層（１０、５０、２００など）を有し、後続の層は通常、前の層からの機能を再利用して、より複雑で一般的な関数を計算する。一方、ＳＬＮＮは少数のレイヤーしか有さず、生データサンプルからエキスパート機能が事前に作成されるため、比較的迅速に訓練する傾向がある。ただし、特徴抽出は面倒である。一方、ＤＬＮＮは通常、エキスパート機能を必要としないが、訓練に時間がかかり、より多くの層を有する傾向がある。

【0118】

どちらのアプローチでも、層は訓練セットで同時に訓練され、通常は分離された交差検証セットでオーバーフィッティングをチェックする。両方の技法でも優れた結果が得られ、両方のアプローチにかなりの熱意がある。個々の層の最適なサイズ、形状、および数は、それぞれのニューラルネットワークによって対処される問題に依存する。

【0119】

図６Ａに戻ると、入力層として提供されるピクセルは、隠れ層１のＪ個のニューロンへの入力として供給される。この例では、すべてのピクセルが各ニューロンに供給されるが、限定されないが、フィードフォワードネットワーク、ラジアルベーシスネットワーク、ディープフィードフォワードネットワーク、ディープコンボリューションインバースグラフィックスネットワーク、コンボリューションニューラルネットワーク、リカレントニューラルネットワーク、人工ニューラルネットワーク、長期／短期記憶ネットワーク、ゲーテッドリカレントユニットネットワーク、生成的敵対ネットワーク、リキッドステートマシン、オートエンコーダ、変分オートエンコーダ、ノイズ除去オートエンコーダ、スパースオートエンコーダ、エクストリームラーニングマシン、エコー状態ネットワーク、マルコフ連鎖、ホップフィールドネットワーク、ボルツマンマシン、制限付きボルツマンマシン、深層残差ネットワーク、コホーネンネットワーク、ディープビリーフネットワーク、ディープコンボリューションネットワーク、サポートベクターマシン、ニューラルチューリングマシン、または本発明の範囲から逸脱しない任意の他の適切なタイプまたは組み合わせのニューラルネットワークを含む、個々にまたは組み合わせて使用され得るさまざまなアーキテクチャが可能である。

【0120】

隠れ層２は隠れ層１から入力を受信し、隠れ層３は隠れ層２から入力を受信し、最後の隠れ層がその出力を出力層の入力として提供するまで、全ての隠れ層について同じように行われる。ニューロンＩ、Ｊ、Ｋ、およびＬの数は必ずしも等しくなく、したがって、本発明の範囲から逸脱することなく、ニューラルネットワーク６００の所定の層に対して任意の所望の数の層を使用することができることに留意されたい。実際、特定の実施形態では、所与の層におけるニューロンのタイプは、すべて同じでなくてもよい。

【0121】

ニューラルネットワーク６００は、画像内で発見されたと考えられるグラフィカル要素に信頼スコアを割り当てるように訓練される。許容できないほど低い尤度を有するマッチングを減らすために、いくつかの実施形態では、信頼しきい値以上の信頼スコアを有するそれらの結果のみが提供され得る。例えば、信頼しきい値が８０％である場合、この量を超える信頼スコアを有する出力が使用され、残りは無視されてもよい。この場合、出力層は、２つのテキストフィールド、テキストラベル、およびサブミットボタンが見つけられたことを示す。ニューラルネットワーク６００は、本発明の範囲から逸脱することなく、これらの要素の位置、寸法、画像、および／または信頼スコアを提供してもよく、これは、この出力を所定の目的のために使用するＲＰＡロボットまたは別のプロセスによってその後使用され得る。

【0122】

ニューラルネットワークは、典型的には信頼スコアを有する確率的構築物であることに留意されたい。これは、ＡＩ／ＭＬモデルが、訓練中に類似の入力が正しく特定された頻度に基づいて学習したスコアであり得る。例えば、テキストフィールドは、しばしば長方形の形状と白い背景を有する。ニューラルネットワークは、これらの特徴を有するグラフィカル要素を高い信頼度で特定することを学習し得る。信頼スコアの一般的なタイプは、０と１の間の１０進数（信頼度のパーセンテージとして解釈可能）、負の∞と正の∞の間の数、または表現のセット（例えば、「低」、「中」、および「高」）を含む。また、より正確な信頼スコアを得る試みとして、温度スケーリング、バッチ正規化、重み減衰、負対数尤度（ＮＬＬ）など、さまざまな後処理較正技法が採用され得る。

【0123】

ニューラルネットワークの「ニューロン」は、通常、生体ニューロンの機能に基づく数学的関数である。ニューロンは、重み付けされた入力を受信し、それらが出力を次の層に渡すかどうかを統治する和および活性化関数を有する。この活性化関数は、値がしきい値を下回っている場合は何も起こらない非線形のしきい値付きアクティビティ関数であり得、関数がしきい値を超えると線形に応答する（つまり、正規化線形単位（ＲｅＬＵ）非線形性）。実際のニューロンはほぼ同様のアクティビティ関数を有し得るため、深層学習では合計関数およびＲｅＬＵ関数が使用される。線形変換を介して、情報が差し引かれたり、追加されたりするなどされ得る。本質的に、ニューロンは、それらの基礎となる数学的関数によって統治される次の層に出力を渡すゲーティング関数として機能する。いくつかの実施形態では、少なくともいくつかのニューロンに対して異なる関数が使用され得る。

【0124】

【0125】

【0126】

【0127】

この場合、ニューロン６１０は単層パーセプトロンである。しかしながら、本発明の範囲から逸脱することなく、任意の適切なニューロンタイプまたはニューロンタイプの組み合わせが使用され得る。アクティベーション関数の重みおよび／または出力値（複数可）の値の範囲は、本発明の範囲から逸脱することなく、いくつかの実施形態では異なり得ることにも留意されたい。

【0128】

例えば、画像内のグラフィカル要素の特定が成功するこの場合について、目標、または「報酬関数」がよく使用される。報酬関数は、状態空間の検索を導き、目標（例えば、グラフィカル要素の成功した特定、ＲＰＡワークフローのアクティビティの次のシーケンスの成功した特定、など）の達成を試みるために、短期および長期の両方の報酬を使用して中間遷移およびステップを探索する。

【0129】

訓練中、さまざまなラベル付きデータ（この場合は画像）がニューラルネットワーク６００を介して供給される。特定に成功すると、ニューロンへの入力の重みが強化されるが、特定に失敗すると、それらの重みが弱まる。平均二乗誤差（ＭＳＥ）または勾配降下などのコスト関数を使用して、わずかに間違っている予測を、大きく間違っている予測よりもはるかに少ない罰で済むようにし得る。ＡＩ／ＭＬモデルの性能が一定回数の訓練反復後に改善されない場合、データサイエンティストは報酬関数を変更し、特定されていないグラフィカル要素がどこにあるかを示し、誤特定されたグラフィカル要素の修正を提供するなどし得る。

【0130】

バックプロパゲーションは、フィードフォワードニューラルネットワークでシナプスの重みを最適化するための手法である。バックプロパゲーションは、ニューラルネットワークの隠れ層を「ポップアップ」して、各ノードがどれだけの損失を負担しているかを確認し、その後、誤差率の高いノードに低い重みを与え、逆もまた同様、損失を最小化するように重みを更新するために使用され得る。つまり、バックプロパゲーションは、データサイエンティストが実際の出力と所望の出力との差を最小にするように、重みを繰り返し調整することを可能にする。

【0131】

バックプロパゲーションのアルゴリズムは、数学的に最適化理論に基づいている。教師あり学習では、出力が既知の訓練データをニューラルネットワークに通し、既知の目標出力からコスト関数を用いて誤差を計算し、これがバックプロパゲーションの誤差を与える。誤差は出力で計算され、この誤差は、誤差を最小化するネットワークの重みの修正に変換される。

【0132】

【0133】

【0134】

【0135】

【0136】

【0137】

ＡＩ／ＭＬモデルは、それが良好な精度のレベル（例えば、検出のためのＦ２またはＦ４しきい値を使用して９７％以上、約２０００エポック）に達するまで、複数のエポックにわたって訓練され得る。この精度レベルは、いくつかの実施形態では、Ｆ１スコア、Ｆ２スコア、Ｆ４スコア、または本発明の範囲から逸脱しない任意の他の適切な技法を使用して決定され得る。訓練データで一旦訓練されると、ＡＩ／ＭＬモデルは、ＡＩ／ＭＬモデルが以前に遭遇したことのない評価データのセットでテストされ得る。これは、ＡＩ／ＭＬモデルが、訓練データ中のグラフィカル要素をよく特定するが、他の画像にうまく一般化しないような「過剰適合」をしないことを保証するのに役立つ。

【0138】

いくつかの実施形態では、ＡＩ／ＭＬモデルがどのような精度レベルを達成することが可能であるかは、知られていない場合がある。したがって、評価データを分析する際にＡＩ／ＭＬモデルの精度が下がり始めている場合（すなわち、モデルは訓練データでは良好に実行しているが、評価データでは性能が低下し始めている）、ＡＩ／ＭＬモデルは、訓練データ（および／または新しい訓練データ）におけるさらなる訓練のエポックを経ることができる。いくつかの実施形態では、ＡＩ／ＭＬモデルは、精度が特定のレベルに達した場合、または訓練されたＡＩ／ＭＬモデルの精度が既存の展開されたＡＩ／ＭＬモデルより優れている場合にのみ展開される。

【0139】

特定の実施形態では、訓練されたＡＩ／ＭＬモデルの収集は、対象グラフィカル要素のタイプごとにＡＩ／ＭＬモデルを採用する、ＡＩ／ＭＬモデルを採用してＯＣＲを実行する、さらに別のＡＩ／ＭＬモデルを展開してグラフィカル要素間の近接関係を認識する、さらに別のＡＩ／ＭＬモデルを採用して他のＡＩ／ＭＬモデルからの出力に基づいてＲＰＡワークフローを生成するなど、タスクを実現するために使用され得る。例えば、これにより、ＡＩ／ＭＬモデルが集合的にセマンティックオートメーションを可能にし得る。

【0140】

いくつかの実施形態では、最先端の文、テキスト、および画像埋め込み用のＰｙｔｈｏｎ（商標）フレームワークであるＳｅｎｔｅｎｃｅＴｒａｎｓｆｏｒｍｅｒｓ（商標）などのトランスフォーマーネットワークを使用することができる。このようなトランスフォーマーネットワークは、高いスコアと低いスコアの両方を持つ単語およびフレーズの関連付けを学習する。これは、ＡＩ／ＭＬモデルを訓練して、何が入力に近く、何がそうでないかをそれぞれ決定する。単語／フレーズの対だけを使用するのではなく、トランスフォーマーネットワークは、フィールド長およびフィールドタイプも使用してもよい。

【0141】

図７は、本発明の実施形態による、ＡＩ／ＭＬモデル（複数可）を訓練するためのプロセス７００を示すフローチャートである。プロセスは、例えば、図７に示すような（例えば、特定されたグラフィカル要素およびテキストを伴う）ラベル付けされた画面、単語およびフレーズ、所定の単語またはフレーズに対する類似の単語およびフレーズが特定され得るような単語およびフレーズ間の意味的関連性の「シソーラス」などの訓練データを７１０で提供することから開始する。提供される訓練データの性質は、ＡＩ／ＭＬモデルが達成しようとする目的に依存する。ＡＩ／ＭＬモデルは、次に、７２０で複数のエポックにわたって訓練され、結果は、７３０においてレビューされる。

【0142】

ＡＩ／ＭＬモデルが７４０で所望の信頼しきい値を満たさない場合、７５０でＡＩ／ＭＬモデルがその目的をよりよく達成するのを助けるために、訓練データが補充され、および／または報酬関数が修正され、プロセスはステップ７２０に戻る。ＡＩ／ＭＬモデルが７４０で信頼しきい値を満たす場合、ＡＩ／ＭＬモデルは、７６０で評価データに対してテストされ、ＡＩ／ＭＬモデルがよく一般化し、ＡＩ／ＭＬモデルが訓練データに関して過剰に適合しないことを確認する。評価データは、ＡＩ／ＭＬモデルが以前に処理したことのない画面、ソースデータなどを含んでもよい。評価データについて７７０で信頼しきい値が満たされる場合、ＡＩ／ＭＬモデルは７８０で展開される。そうでない場合、プロセスはステップ７５０に戻り、ＡＩ／ＭＬモデルはさらに訓練される。

【0143】

図８Ａ～Ｇは、本発明の実施形態による、ユーザーがコンピューティングシステムのユーザーインターフェース８００上で２つのフォーム８１０、８２０の間でデータ入力（「コピーアンドペースト」）動作を手動で実行し、コピーアンドペーストタスクが認識され、自動的に完了し、そして関連する自動化が自動的に生成される例を示す。図８Ａおよび図８Ｂを参照すると、ロボットトレイ８３０により、ユーザーはＲＰＡロボットによる遂行のための自動化を選択することができる。この実施形態では、ＲＰＡロボット８４０がリスナー機能を実行している。しかしながら、いくつかの実施形態では、この自動化は、ユーザーがロボットトレイ８３０からそれを手動で選択することなく、自動的に実行されてもよい。特定の実施形態では、リスナー機能は、オペレーティングシステムの一部、それぞれのコンピューティングシステム用のダウンロード可能なアプリケーションなど、ＲＰＡロボット以外の他のソフトウェアによって実行される。いくつかの実施形態では、リスナーは、例えば、図１のリスナー１１０であってもよい。

【0144】

ＲＰＡロボット８４０は、リスナーとしての機能において、時間順に並んだスクリーンショット、ＵＩ８００内のグラフィカル要素、ユーザーによって行われたキーの押下、マウスクリックの時間および位置、ユーザーが所与の時間に選択したＵＩ内のアクティブ要素、カーソルの位置、現在実行中のアプリケーション、ウィンドウ、アクティブウィンドウなどを記録することができる。例えば、米国特許第１１，０８０，５４８号を参照。いくつかの実施形態では、情報は、オペレーティングシステムおよび／または現在実行中のアプリケーション（復数可）からＡＰＩを介して取得され得る。情報は、ユーザーのアクションをその場で処理できるように、いくつかの実施形態では、リアルタイムまたはほぼリアルタイムで取得され得る。しかしながら、特定の実施形態では、情報は、その後の使用のために、図１のデータベース１４０のようなデータベースに保存される。

【0145】

ＵＩ８００は、請求書受領者の作成／編集フォーム（ｃｒｅａｔｅ／ｅｄｉｔｉｎｖｏｉｃｅｒｅｃｉｐｉｅｎｔｓｆｏｒｍ）８１０と請求システムフォーム（ｂｉｌｌｉｎｇｓｙｓｔｅｍｆｏｒｍ）８２０を含む。この実施形態では、どちらもそれらの「窓」として示されている。ユーザーは、請求書受領者の作成／編集フォーム８１０の値と一致する値を請求システムフォーム８２０に手入力するか、請求書受領者の作成／編集フォーム８１０から請求システムフォーム８２０に値をコピーアンドペースト（例えば、ＣＴＲＬ＋Ｃの後にＣＴＲＬ＋Ｖを使用）するか、またはその両方を行う。ＲＰＡロボット８４０は、これらのアクションが発生する際に、画面画像と基礎となるシステム情報を記録している。

【0146】

時間の経過とともに、ユーザーとコンピューティングシステムとのインタラクションに関する情報が収集される。他のユーザーとそれらのそれぞれのコンピューティングシステムとのインタラクションからの情報も収集され得る。この情報を分析して、コピーアンドペースト動作を検索し得る。例えば、収集したデータに対してクラウドベースの分析を実行し、１または複数の画面またはフォームの値が、１または複数の他の画面またはフォームに出現したインスタンスを検索することができる。関係は１対複数、複数対１、複数対複数のいずれでもよい。このような場合、集合ソースの情報および／または集合ターゲットの情報を取得するために、１または複数のデータ構造を使用することができる。タスクマイニングデータで特定されたコピーアンドペーストタスクは、上記の通り、正確なものとして扱われ得る。この情報は、次いで、マップするマッピングモデルを訓練するために使用される。

【0147】

情報をコピーする際に、ユーザーが常に正しいとは限らない可能性があり（例えば、ユーザーは間違ったフィールドにコピーしたり、間違った値を入力したりする可能性がある）、そのため、いくつかの実施形態では、ユーザーのコピーアンドペースト動作が１００％正確であるとはみなさない。これを考慮するために、そのような実施形態は、タスクマイニングデータまたはランタイム展開された動作において、コピーアンドペースト動作が２回目、３回目など観察されるまで待ち、これらの複数の動作のフィールドのコピーアンドペースト値をチェックし、その後、最も一般的なアクションを正しいものとして取ることができる。このようなアプローチの確実性レベルは、観測されたインスタンスの数が多いほど高くなる。コピーアンドペーストの自動化をユーザーに提案するまでの最短時間のしきい値は、いくつかの実施形態で要求され得る。

【0148】

いくつかの実施形態では、精度を高めるためにコピーアンドペーストタスクを特定し、自動化するために、セマンティックマッチングＡＩ／ＭＬモデルの訓練および展開の前に、タスクマイニングを実行することができる。ただし、いくつかの実施形態では、大規模なインターネットコーパスから訓練されたＢＥＲＴまたはＧＰＴ－３など、他のデータで訓練されたセマンティックマッチングＡＩ／ＭＬモデルの初期バージョンが展開される。リスナーオートメーション、別のプロセスとしてＲＰＡロボット８４０によって遂行される別のオートメーション、別のＲＰＡロボットによって遂行されるオートメーション、またはいくつかの他のプロセスは、画面またはフォームにユーザーによって入力された値が、別の画面またはフォームの別の値と一致することを検出することができる。これは、開いているアプリケーションから可視値を取得するＡＰＩを使用するか、ＣＶを使用することで実現され得る。しかし、前者は後者よりもかなり速い可能性がある。

【0149】

検出された１つのフィールド値の一致は、いくつかの実施形態では、コピーアンドペースト動作が進行中であり得ることを示す証拠として扱われ得る。そうでなければ、２つのフィールド値の一致、３つのフィールド値の一致などが、検出しきい値として要求され得る。セマンティックマッチングＡＩ／ＭＬモデルの初期バージョンは、その後、疑わしいソースから疑わしいターゲットへの値を持つそれぞれのフィールドの対応するラベルを一致させるために使用され得る。これは、いくつかの実施形態において、米国特許第１０，９３６，３５１号および同第１１，２００，０７３号に開示されているような技術を用いて行うことができる。

【0150】

ソースおよびターゲットの一致する値（復数可）の対応するラベルは、セマンティックマッチングＮＰＬモデルに入力され、類似度スコアが生成される。ソースおよびターゲットの一致した値（復数可）の類似度スコア（復数可）が類似度しきい値以上、または一致する値の過半数、７５％、９０％などである場合、図８Ｃのプロンプト８５０を介するなどして、自動補完を希望するかどうかをユーザーに促すことができる。ユーザーがこの動作を望む場合、ソース（１つの画面／フォームまたは複数の画面／フォームかを問わない）内のフィールド値に関連付けられたラベルは、ターゲット（同じく１つの画面／フォームか複数の画面／フォームかを問わない）内の空のフィールドに関連付けられたラベルと比較され、ターゲット内で一致が見つかるかどうかを決定し得る。例えば、ターゲット内の現在一致しないラベルは、ソースラベルとのペアとしてセマンティックマッチングＡＩ／ＭＬモデルに供給され、最も高いマッチングスコアを持つターゲットラベルが選択され得る。あるいは、ターゲットラベルは、あるしきい値、潜在的にはセマンティックマッチングのしきい値または別のしきい値（例えば、他をチェックせずにラベルを関連付けるには、より高いしきい値が必要であり得る）が満たされるまでチェックされ得る。次いで、ターゲット内の一致するラベルに関連するフィールドには、ソースからの関連値が入力される。これは、（例えば、そのフィールド上でのマウスクリックをシミュレートすることによって）ターゲット内の関連フィールドをアクティブ要素に設定し、（例えば、値の数字、文字、および／または記号のキー押下イベントをシミュレートすることによって）フィールドに値を入力することによって達成され得る。

【0151】

ソースおよびターゲットのすべてのラベルのスコアが、セマンティックマッチングのしきい値を満たさない可能性がある。この例では、ソース内のラベル「Ｉｎｖｏｉｃｅ＃」はターゲット内のラベル「Ｉｎｖ．Ｎｕｍ．」に一致せず、フィールドはハイライト８１２されている。図８Ｄを参照。ユーザーには、プロンプト８６０のような、ユーザーがターゲット内の一致するフィールドを示すことを要求するプロンプトが提供され得る。その後、ユーザーはターゲット内の適切なフィールドをクリックすれば、値が自動的に入力される。ソースおよびターゲットのマッチングラベルなど、修正に関連する情報は、セマンティックマッチングＡＩ／ＭＬモデルの再訓練のために収集され得る。ソース内に値を持つすべてのラベルに一致が見つかった場合、またはユーザーがターゲット内で一致するフィールド（復数可）を指定すると、コピーアンドペースト動作が完了する。図８Ｅを参照。

【0152】

コピーアンドペーストタスクは、ユーザーが定期的に行うことができる。したがって、いくつかの実施形態では、自動化を自動的に生成させるオプションをユーザーに提供することができる。このようなシナリオは図８Ｆに示されており、自動化を自動的に生成するかどうかに関するプロンプト８７０がユーザーに提供される。ユーザーが自動化を作成させることを選択した場合、ＲＰＡワークフローおよび関連する実行時オートメーションが生成され得、自動化がユーザーのコンピューティングシステムに展開されるか、または他の方法でユーザーが利用できるようになり得る。次にユーザーがコピーアンドペースト動作を実行したい場合、ユーザーはロボットトレイ８３０をクリックし、自動化リスト８８０から関連する自動化８８２を選択することができる。図８Ｇを参照。

【0153】

コピーアンドペーストタスクのＲＰＡワークフローを作成するための情報は、タスクマイニングとセマンティックマッチングＡＩ／ＭＬモデルから得ることができる。ユーザーが入力するフィールドと、セマンティックマッチングＡＩ／ＭＬモデルからの一致を見ることによって、ソースおよびターゲットの一致するフィールドが決定され得、ターゲットの適切なフィールドに必要な情報を入力するアクティビティが自動的に作成され得る。この機能は、例えば、ＵｉＰａｔｈＳｔｕｄｉｏ（商標）のようなＲＰＡデザイナアプリケーションによって提供されるものと似ている場合がある。ＲＰＡデザイナアプリケーションを起動し、ワークフローを生成し、そこでユーザーがレビューすることができる。あるいは、ワークフローは自動的に生成され、関連する自動化は、ＲＰＡデザイナアプリケーションの基本的な機能を使用して、ユーザーのためのグラフィカルな表示なしで作成され得る。いくつかの実施形態では、ワークフローおよび自動化は、ユーザーのものとは異なるコンピューティングシステムによって生成され得る。特定の実施形態では、ワークフローは、自動化の生成および展開の前に、検証のためにＲＰＡ開発者に提供され得る。しかしながら、セマンティックマッチングＡＩ／ＭＬモデルの精度がさらなる訓練時間の経過とともにさらに向上すると、提案されたＲＰＡワークフローは、開発者のレビューなしにＲＰＡロボットが自動的に遂行する自動化として展開できるほど精度が向上し得る。

【0154】

タスクマイニングからのコピーアンドペースト動作に関するデータは、セマンティックマッチングＡＩ／ＭＬモデルの訓練または再訓練するために使用され得る。データは、ソースおよびターゲットからのフィールドに対応するラベルを含み得る。いくつかの実施形態では、ＵＩ記述子／セレクタ情報は、正確なフィールド、フィールドのラベル、スクリーンショットなどを取得するのに有用であり得る。仮想環境では、ユーザーのコンピューティングシステムがサーバーから画像のストリームを受信しているため、記述子／セレクタは存在しない場合がある。しかしながら、フィールドおよびラベルは、ＣＶとその記述子を使っても得ることができる。これは、ソースおよび宛先の特定のフィールドの実際のデータを取得し、どのデータがどこに行ったかのマッピングを得ることができるためにも有用であり得る。ある実施形態では、これは理論的にはアクションそれ自体にのみ基づいて行うことができるが、これは別の確実性の層を追加する可能性がある。この情報は訓練データセットの一部となり得る。情報は、その情報を入力したユーザー（複数可）によって検証されたと考えられ得るため、いくつかの実施形態では、人間によるラベル付けは必要ない場合がある。

【0155】

次いで、図７と類似したプロセスを経て、セマンティックマッチングＡＩ／ＭＬモデルを訓練または再訓練することができる。ＡＩ／ＭＬモデルは、１または復数のエポックにわたって訓練／再訓練され、所望の平均信頼度が達成されると、ＡＩ／ＭＬモデルが以前に見たことのない評価データセットを使用して、ＡＩ／ＭＬモデルがうまく機能するか、または再訓練の場合は、再訓練されたＡＩ／ＭＬモデルがその前のものよりもうまく機能するかを検証することができる。次いで、訓練されたまたは再訓練されたＡＩ／ＭＬモデルは、実行時に使用するためにユーザーのコンピューティングシステムに展開され得る。再訓練プロセスは、一定時間が経過した後、一定量のタスクマイニングデータが収集された後などに定期的に行われ得る。

【0156】

図９は、本発明の実施形態による、自動生成されたＲＰＡワークフロー９１０を有するＲＰＡデザイナアプリケーション９００を示す。この例では、ＲＰＡワークフロー９１０は、上述したタスクマイニングとセマンティックマッチングに基づいて自動的に生成される。ＲＰＡワークフロー９１０には、ソース値をターゲットに入力するアクティビティが入力される。例えば、ワークフローは、「請求システム（ＢｉｌｌｉｎｇＳｙｓｔｅｍ）」ターゲットフォームをクリックする、「Ｃｕｓｔ．Ｎｕｍ．」フィールドをクリックする、「Ｃｕｓｔ．Ｎｕｍ．」フィールドに適切な値を入力するなどのアクティビティを含み得る。

【0157】

スクリーンショット、システム情報、および／またはセマンティックマッチングＡＩ／ＭＬモデル（複数可）からの情報は、いくつかの実施形態では、以前に特定されなかったタスクの新しいアクティビティを自動的に生成するために使用され得る。例えば、このような情報は、ワークフローアクションを遂行するＲＰＡロボットが画面上のＵＩ要素（例えば、テキストフィールド、ボタン、ラベル、メニュー、チェックボックスなど）とインタラクションすることを可能にするアクティビティ用のＵＩ記述子を作成するために使用され得る。

【0158】

いくつかの実施形態は、アクティビティのセレクタを作成するために上記の情報を使用する。セレクタは、いくつかの実施形態においてＵＩ要素を検出するために使用され得るＵＩ記述子のタイプである。セレクタは、いくつかの実施形態では、以下の構造を有する。
＜ｎｏｄｅ＿１／＞＜ｎｏｄｅ＿２／＞．．．＜ｎｏｄｅ＿Ｎ／＞

【0159】

最後のノードは対象のＧＵＩ要素を表し、それ以前の全てのノードはその要素の親を表す。＜ｎｏｄｅ＿１＞は通常ルートノードと呼ばれアプリケーションのトップウィンドウを表す。

【0160】

各ノードは、選択されたアプリケーションの特定のレベルの正しい特定を支援する１または複数の属性を有してもよい。各ノードは、いくつかの実施形態では、以下の形式を有する。
＜ｕｉ＿ｓｙｓｔｅｍａｔｔｒ＿ｎａｍｅ＿１＝’ａｔｔｒ＿ｖａｌｕｅ＿１’．．．ａｔｔｒ＿ｎａｍｅ＿Ｎ＝’ａｔｔｒ＿ｖａｌｕｅ＿Ｎ’／＞

【0161】

全ての属性は、割り当てられた値を有し得、一定の値を有する属性が選択され得る。これは、アプリケーションが起動するたびに属性の値を変更すると、セレクタが関連する要素を正しく特定できなくなる可能性があるからである。

【0162】

いくつかの実施形態におけるＵＩ記述子は、ＵＩ要素セレクタ（複数可）、アンカーセレクタ（複数可）、ＣＶ記述子（複数可）、統合されたターゲット記述子（複数可）、画面イメージキャプチャ（コンテキスト）、要素イメージキャプチャ、他のメタデータ（例えば、アプリケーションおよびアプリケーションバージョン）、それらの組み合わせなどを含むカプセル化されたデータ／構造フォーマットである。カプセル化されたデータ／構造フォーマットは、プラットフォームへの将来のアップデートによって拡張可能であってもよく、上記の定義に限定されるものではない。画面上のＵＩ要素を特定するためのＵＩ記述子としては、本発明の範囲を逸脱することなく、任意の好適なものを使用することができる。統合されたターゲット記述子は、複数のタイプのＵＩ記述子を連結する。統合されたターゲット記述子は、有限状態機械（ＦＳＭ）のように機能し得、第１のコンテキストでは、第１のＵＩ記述子メカニズムが適用され、第２のコンテキストでは、第２のＵＩ記述子が適用される、などである。

【0163】

いくつかの実施形態では、ファジーマッチングが採用されてもよく、ここでは、文字列メトリック（例えば、レーベンシュタイン距離、ハミング距離、ジャロ・ウィンクラー距離など）、それらの組み合わせなどを使用して、１または複数の属性が、一定の範囲内で、一定の精度（例えば、７０％一致、８０％一致、９９％一致など）で一致しなければならない。当業者であれば、類似度測定は、類似度の量だけでなく、２つの属性値の間の不一致の量を定量化することができることを理解するであろう。さらに、様々な実施形態では、類似度しきい値は、不一致の最大量または一致に要求される類似度の最小量を表してもよい。

【0164】

類似度測定値を計算する選択された方法に応じて、類似度しきい値は様々な解釈を有し得る。例えば、類似度しきい値は、２つの文字列の間で異なり得る文字の最大カウント数を示してもよいし、文字の合計カウント数（例えば、結合された文字列の長さ）の割合として計算された不一致の分数の程度を示してもよい。いくつかの実施形態では、類似度しきい値は、０と１の間、０と１００の間、７と３４の間などの所定の間隔に再スケーリングされてもよい。１つの非限定的な例では、比較的高い類似度しきい値（例えば、１または１００％に近い）は、ほぼ完全一致の要件、すなわち、実行時間ターゲットにおけるファジー属性の値が、設計時間ターゲットにおける各属性の値から非常にわずかに逸脱することしか許されないことを示す。一方、類似度しきい値が比較的低い（例えば、０に近い）場合には、それぞれのファジー属性のほぼ全ての値が一致するとみなされる。

【0165】

特定の実施形態では、マッチング許容差は属性の基準ごとに異なっていてもよい。例えば、１または複数の属性に対して完全一致が要求されてもよく（例えば、特定の正確な名前を見つけることが望まれてもよい）、１または複数の他の属性に対してファジーマッチングが実行されてもよい。各グラフィカル要素検出技術から使用される属性の数および／またはタイプは、いくつかの実施形態では、ＲＰＡ開発者によってカスタム指定されてもよい。

【0166】

いくつかの実施形態では、属性は、属性－値のペアおよび／または属性－値－許容差のペア（例えば、ファジーマッチング）として格納されてもよい。属性－値のペアは、いくつかの実施形態では、それぞれのノードによって表されるＵＩ要素の名前とタイプを示し得る。しかしながら、当業者は、本発明の範囲から逸脱することなく、属性－値のペアのリスト以外に、ＵＩツリー内の特定のノードの位置を表現する複数の方法があり得ることを理解するであろう。

【0167】

これらの属性－値のペアおよび／または属性－値－許容差のペアは、いくつかの実施形態ではタグに格納されてもよく、各タグは、実装固有の区切り文字（例えば、「＜」で始まり「／＞」で終わる）によってブックエンドされたシーケンスを有する文字の列を含み得る。属性－値のペアは、いくつかの実施形態では、それぞれのノードによって表されるＵＩ要素の名前とタイプを示し得る。しかしながら、当業者は、本発明の範囲から逸脱することなく、属性－値のペアのリスト以外に、ＵＩツリー内の特定のノードの位置を表現する複数の方法があり得ることを理解するであろう。

【0168】

ＲＰＡロボットによる成功的かつ理想的に曖昧さのない特定を可能にするために、いくつかの実施形態では、それぞれのＵＩ要素を特徴づける要素ＩＤを使用して各ＵＩ要素を表現する。いくつかの実施形態では、要素ＩＤは、ＵＩツリー内のターゲットノードの位置を示し、ここで、ターゲットノードはそれぞれのＵＩ要素を表す。例えば、要素ＩＤは、ターゲットノード／ＵＩ要素を、選択されたノードのサブセットのメンバーとして特定してもよい。選択されたノードのサブセットは、系図、すなわち、各ノードが別のノードの先祖または子孫のいずれかであるＵＩツリーを介した下降線を形成することができる。

【0169】

いくつかの実施形態では、要素ＩＤは、ノードインジケータの順序付けされたシーケンスを含み、シーケンスはＵＩツリーを介して系図的な経路を追跡し、経路はそれぞれのターゲットノード／ＵＩ要素で終わる。各ノードインジケータは、それぞれのＵＩのオブジェクト階層のメンバーと、それぞれの階層と一致するシーケンス内のその位置を表してもよい。例えば、シーケンスの各メンバーは、前のメンバーの子孫（例えば、子ノード）を表し、次のメンバーを子孫（例えば、子ノード）としてもよい。１つのハイパーテキストマークアップ言語（ＨＴＭＬ）の例では、個々のフォームフィールドを表す要素ＩＤは、それぞれのフォームフィールドがＨＴＭＬフォームの子であることを示してもよく、その子は、順番にウェブページの特定のセクションなどの子である。系図は、いくつかの実施形態では完全である必要はない。

【0170】

いくつかの実施形態では、１または複数のマルチアンカーマッチング属性を使用してもよい。アンカーは、ターゲットＵＩ要素を一意に特定するのを助けるために使用され得る他のＵＩ要素である。例えば、ＵＩに複数のテキストフィールドが含まれている場合、テキストフィールドを検索するだけでは、与えられたテキストフィールドを一意に特定するには不十分である。したがって、いくつかの実施形態では、与えられたＵＩ要素を一意に特定するために、追加の情報を探す。テキストフィールドの例を使用すると、「ファーストネーム（ＦｉｒｓｔＮａｍｅ）」というラベルの右側に、ファーストネームを入力するためのテキストフィールドが表示される場合があり得る。このファーストネームラベルは、「ターゲット」であるテキストフィールドを一意に特定するのに役立つように、「アンカー」として設定してもよい。

【0171】

いくつかの実施形態では、ターゲットとアンカーの間の様々な位置および／または幾何学的な関連付けが、ターゲットを一意に特定するために、潜在的に１または複数の許容差内で使用される可能性がある。例えば、アンカーとターゲットのバウンディングボックスの中心が線セグメントを定義するために使用されてもよい。次いで、この線セグメントは、ターゲット／アンカーペアを使用してターゲットを一意に特定するために、許容差内の特定の長さおよび／または許容差内の傾きを有することが要求され得る。しかしながら、ターゲットおよび／またはアンカーに関連付けられた位置の任意の所望の位置は、本発明の範囲から逸脱することなく、いくつかの実施形態において使用され得る。例えば、線セグメントを描画するための点は、バウンディングボックス特性に関連して特定される、バウンディングボックスの境界上の中央、左上隅、右上隅、左下隅、右下隅、他の任意の位置、バウンディングボックス内の任意の位置、バウンディングボックスの外側の位置内などにあり得る。特定の実施形態では、ターゲットおよび１または複数のアンカーは、幾何学的マッチングのために使用されるそれらのバウンディングボックス内またはバウンディングボックス外の異なる位置を有してもよい。

【0172】

以上のように、画面上のターゲット要素を一定の信頼性をもって一意に特定するためには、単一のアンカーだけでは必ずしも十分ではない場合がある。例えば、画面上の異なる位置にある「ファーストネーム」というラベルのそれぞれの右側に、ファーストネームを入力するための２つのテキストフィールドが表示されているウェブフォームを考えてみる。この例では、１または複数の追加のアンカーは、所与のターゲットを一意に特定するのに有用であり得る。アンカーとターゲットとの間の幾何学的特性（例えば、許容差を有する線セグメントの長さ、角度、および／または相対位置）は、ターゲットを一意に特定するために使用されてもよい。ユーザーは、ターゲットに対する一致強度がしきい値を超えるまでアンカーを追加し続けることが要求されてもよい。

【0173】

図１０は、本発明の実施形態による、タスクマイニングを使用したソースおよびターゲットの間でＡＩ主導のセマンティック自動データ転送を実行するためのモジュール１０００を概して示す。タスクマイニングモジュール１０１０は、コンピューティングシステムとのユーザーインタラクションを監視し、コピーアンドペースト動作が進行中であることを特定しようとする検出モジュール１０２０に情報を提供する。タスクマイニング情報には、画面またはフォームのラベル、フィールド、および値、関連するアプリケーションおよびウィンドウ、オペレーティングシステムからの情報、アプリケーションＡＰＩ（復数可）からの情報などが含まれ得るが、これらに限定されない。

【0174】

検出モジュール１０２０は、ＵＩ内の画面またはフォームの値が一致するかどうかをチェックし、最小化されているまたは別のウィンドウによってブロックされているために現在表示されていないものも潜在的に含む。一致が見つかると、検出モジュール１０２０は、値が見つかったそれぞれのソース画面またはターゲット画面またはフォーム内の関連ラベルを決定し、これらをセマンティックマッチングＡＩ／ＭＬモデル１０３０に供給する。セマンティックマッチングＡＩ／ＭＬモデル１０３０によって出力されたスコアがマッチングしきい値以上の場合、検出モジュール１０２０は、一致が検出されたとみなす。ある実施形態では１回の一致で十分であるが、このプロセスは、しきい値数の一致が見つかるまで繰り返され得る。

【0175】

検出モジュール１０２０によってしきい値数の一致が検出された後、自動補完モジュール１０４０が、自動補完を所望するか、またはターゲット内の残りのフィールドの自動補完を自動的に実行するかに関して、ユーザーにプロンプトを表示する。検出モジュール１０２０と同様に、自動補完モジュール１０４０は、ソースフィールドラベルとのセマンティックマッチングＡＩ／ＭＬモデル１０３０を提供する。しかしながら、ペアの２番目の値に対して、自動補完モジュール１０４０は、空のフィールドを有するターゲットからの一致しないラベルをセマンティックマッチングＡＩ／ＭＬモデル１０３０に提供する。自動補完モデルは、そのペアについてセマンティックマッチングＡＩ／ＭＬモデル１０３０からスコアを受信し、すべてのペアがチェックされるまで（もしあれば、マッチングしきい値を満たす最も高いスコアを選択する）、またはスコアが自動一致検出しきい値を満たすまで、プロセスを繰り返す。これは、一致が存在することを検出するためのしきい値であり得る、または他のペアのチェックをスキップするほど結果に確信を持つためのより高いしき値であり得る。

【0176】

ターゲットが自動的に入力された後、関連するＲＰＡオートメーションがオートメーションモジュール１０５０によって作成され得る。これは、ユーザーの承認に応じて行われる場合もあれば、ユーザーの関与なしで自動的に行われる場合もある。自動化はユーザーのコンピューティングシステムに展開されるか、またはそうでなければユーザーが利用できるようになり、将来同じコピーアンドペーストタスクが自動的に実行されるようになる。

【0177】

図１１は、本発明の実施形態による、タスクマイニングを使用したソースおよびターゲットの間でＡＩ主導のセマンティック自動データ転送を実行するためのプロセス１１００を示すフローチャートである。プロセスは、１１０５で（例えば、リスナーによって）ユーザーコンピューティングシステム上でタスクマイニングを実行することから始まる。タスクマイニングには、ユーザーとコンピューティングシステムのインタラクション、どのアプリケーションが実行されているか、どのウィンドウが開いているか、どのＵＩ要素がアクティブな要素であるかなどの監視が含まれ得る。しかしながら、いくつかの実施形態では、タスクマイニングは、初期セマンティックマッチングＡＩ／ＭＬモデルの訓練および展開の前には実行されない。

【0178】

初期セマンティックマッチングＡＩ／ＭＬモデルは、１１１０で訓練および展開される。例えば、タスクマイニングデータは数週間、数か月などにわたって記録され、その後ＡＩ／ＭＬモデルがこのデータに基づいて訓練される。初期セマンティックＡＩ／ＭＬモデルは、インターネットおよび／または他のテキストソース（書籍、文書など）からのデータのコーパスを使用して訓練され得る。いくつかの実施形態では、初期ＡＩ／ＭＬモデルは、互いに異なるが一致する（すなわち、それらが意味的に類似する）ソースおよびターゲットのラベルなどのタスクマイニングデータを使用しても訓練され得る。特定の実施形態では、ＡＩ／ＭＬモデルは、タスクマイニングデータのみを使用して訓練される場合があり、そのようなマッピングモデルの訓練は自動的に行われる場合がある。

【0179】

いくつかの実施形態では、ソース、ターゲット、またはその両方は、構造化されているか非構造化されているかを問わず、本発明の範囲から逸脱することなく、ウェブフォーム、デジタルまたはスキャンされた文書（請求書、領収書、報告書、手書き情報など）、画像、アプリケーションＧＵＩ、スプレッドシート、または他の任意の適切な情報フォーマットであり得る。ＯＣＲは、セマンティックコピーアンドペースト機能を実行する前に、ソースおよび／またはターゲットに対して実行され得る。特定の実施形態では、ソースおよびターゲットは異なるタイプであってもよい。例えば、ソースはウェブフォームであり得、ターゲットはスプレッドシートであり得る。

【0180】

初期の訓練されたＡＩ／ＭＬモデルの展開後、１１１５において、それぞれのコンピューティングシステムとのユーザーインタラクションが観察される。ソースおよびターゲットの値が一致する場合、ソースおよびターゲットからの関連ラベルは、１１２０で、ラベルを入力として初期セマンティックマッチングＡＩ／ＭＬモデルに通し、ＡＩ／ＭＬモデルから出力されるマッチングスコアをマッチングしきい値に対してチェックすることによって比較される。ソースおよびターゲットで値が一致しても、一方または両方に関連するラベルがない可能性があることに留意すべきである。その場合、一致は無視され得る。このマッチング動作は、コピーアンドペーストタスクが発生していると確信できる必要な数の一致（例えば、１つの一致、２つの一致、５つの一致など）が見つかるまで実行され得る。

【0181】

マッチングしきい値が１１２５で所望の数の確認一致で満たされない場合、プロセスは１１１５でコンピューティングシステムとのユーザーインタラクションの観察に戻る。しかし、ソースおよびターゲットのラベルが一致する場合、１１３０でセマンティックコピーアンドペースト動作が実行される。最初にユーザーにプロンプトを表示してもよいし、またはこの動作を自動的に実行してもよい。ソース内の各ラベル－値のペアについて、ターゲットは、以前に一致されたことのない、関連するラベルおよびフィールドを検索し得る。ラベルの一致を決定するために、セマンティックＡＩ／ＭＬモデルが使用され、ラベルの比較は、すべてのペアがチェックされるまで（もしあれば、マッチングしきい値を満たす最も高いスコアを選択する）、またはスコアが自動一致検出しきい値を満たすまで、続く。これは、一致が存在することを検出するためのしきい値であり得る、または他のペアのチェックをスキップするほど結果に確信を持つためのより高いしき値であり得る。

【0182】

ターゲットが自動的に入力された後、関連するＲＰＡオートメーションが生成され、ユーザープロンプトから確認を受け取った後、または自動的に、１１３５で展開される。ユーザーは自動化を将来使用できるようになる。セマンティックマッチングＡＩ／ＭＬモデルを再訓練するための訓練データは１１４０で格納され、セマンティックマッチングＡＩ／ＭＬモデルの新しいバージョンは１１１０で再訓練され、展開される。

【0183】

図１１で実行されるプロセスステップは、本発明の実施形態に従って、図１１で説明したプロセス（複数可）の少なくとも一部を実行するようにプロセッサ（複数可）への命令をエンコードするコンピュータプログラムによって実行されてもよい。コンピュータプログラムは、非一時的なコンピュータ読み取り可能な媒体に格納されていてもよい。コンピュータ読み取り可能な媒体は、ハードディスクドライブ、フラッシュデバイス、ＲＡＭ、テープ、および／またはデータを格納するために使用される他のそのような媒体または媒体の組み合わせであってもよいが、これらに限定されるものではない。コンピュータプログラムは、図１１に記載されたプロセスステップの全部または一部を実装するために、コンピューティングシステム（例えば、図５のコンピューティングシステム５００のプロセッサ（複数可）５１０）のプロセッサ（複数可）を制御するためのコード化された命令を含んでもよく、これはまた、コンピュータ読み取り可能な媒体に格納されてもよい。

【0184】

コンピュータプログラムは、ハードウェア、ソフトウェア、またはハイブリッド実装で実装され得る。コンピュータプログラムは、互いに動作可能な通信を行うモジュールで構成され得、情報または指示をディスプレイに送るように設計されている。コンピュータプログラムは、汎用コンピュータ、ＡＳＩＣ、またはいずれかの他の好適なデバイスで動作するように構成され得る。

【0185】

本発明の様々な実施形態のコンポーネントは、本明細書に一般的に記載され、図示されているように、様々な異なる構成で配置され、設計されてもよいことが、容易に理解されるであろう。したがって、添付の図に表されるような本発明の実施形態の詳細な説明は、特許請求されるような本発明の範囲を限定することを意図するものではなく、本発明の選択された実施形態を代表するものにすぎない。

【0186】

本明細書を通して記載された本発明の特色、構造、または特徴は、１または複数の実施形態では、いずれかの好適な方法で組み合わせられ得る。例えば、本明細書全体を通して「特定の実施形態」、「いくつかの実施形態」、または類似の言語を参照することは、実施形態に関連して記載された特定の特色、構造、または特徴が、本発明の少なくとも１つの実施形態に含まれていることを意味する。したがって、本明細書全体を通して「特定の実施形態では」、「いくつかの実施形態では」、「他の実施形態では」、または類似の言語の出現は、必ずしも全ての実施形態の同じグループを指すものではなく、記載された特色、構造、または特徴は、１または複数の実施形態ではいずれかの好適な方法で組み合わせられ得る。

【0187】

本明細書全体を通して特色、利点、または類似の言語への参照は、本発明で実現され得る特色および利点の全てが、本発明のいずれかの単一の実施形態にあるべきであること、または本発明のいずれかの実施形態であることを意味するものではないことに留意すべきである。むしろ、特色および利点に言及する言語は、実施形態に関連して記載された特定の特色、利点、または特徴が、本発明の少なくとも１つの実施形態に含まれることを意味すると理解される。したがって、本明細書全体での特色および利点の議論、ならびに類似の言語は、同じ実施形態を参照することができるが、必ずしもその必要性はない。

【0188】

さらに、本発明の記載された特色、利点、および特徴は、１または複数の実施形態では、いずれかの好適な方法で組み合わせることができる。関連する技術の当業者は、本発明が、１または複数の特定の実施形態の特定の特徴または利点なしに実施され得ることを認識するであろう。他の例では、追加の特徴および利点は、本発明の全ての実施形態には存在しないかもしれないが特定の実施形態では認識され得る。

【0189】

本分野における通常の技術を有する者は、上述したような本発明を、異なる順序でのステップを用いて、および／または開示されているものとは異なる構成のハードウェア要素を用いて実施することができることを容易に理解するであろう。したがって、本発明は、これらの好ましい実施形態に基づいて説明されてきたが、本発明の精神および範囲内にとどまりながら、特定の変更、変形、および代替的な構成が明らかになることは、当業者には明らかであろう。したがって、本発明の範囲を決定するためには、添付の特許請求の範囲を参照すべきである。

【図1】