(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024096684
(43)【公開日】2024-07-17
(54)【発明の名称】タスクマイニングを使用した、ソースおよびターゲット間の人工知能主導のセマンティック自動データ転送
(51)【国際特許分類】
G06N 5/047 20230101AFI20240709BHJP
G06F 18/22 20230101ALI20240709BHJP
G06N 20/00 20190101ALI20240709BHJP
G06F 8/71 20180101ALI20240709BHJP
G06Q 10/10 20230101ALI20240709BHJP
【FI】
G06N5/047
G06F18/22
G06N20/00
G06F8/71
G06Q10/10 310
【審査請求】未請求
【請求項の数】28
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024000084
(22)【出願日】2024-01-04
(31)【優先権主張番号】18/149,873
(32)【優先日】2023-01-04
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ZIGBEE
2.BLUETOOTH
3.WCDMA
(71)【出願人】
【識別番号】520262319
【氏名又は名称】ユーアイパス,インコーポレイテッド
【氏名又は名称原語表記】UiPath,Inc.
【住所又は居所原語表記】1 Vanderbilt Avenue, 60th Floor, New York, NY 10017, United States of America
(74)【代理人】
【識別番号】110003487
【氏名又は名称】弁理士法人東海特許事務所
(72)【発明者】
【氏名】ダニエル ダインズ
(72)【発明者】
【氏名】コスミン ヴォイク
(72)【発明者】
【氏名】マイケル レオナード
【テーマコード(参考)】
5B376
【Fターム(参考)】
5B376AC07
(57)【要約】 (修正有)
【課題】タスクマイニングを使用した、ソースおよびターゲット間の人工知能(AI)主導のセマンティック自動データ転送を提供する。
【解決手段】コンピュータプログラムは、少なくとも1つのプロセッサが、コンピューティングシステムとのユーザーインタラクションに関する記録されたデータを使用して、ユーザーインターフェース(UI)のソースおよびターゲットの値の間の一致をチェックし、少なくとも1つのプロセッサが、ソースおよびターゲットの値を含むフィールドに関連付けられたラベルを特定し、ソースおよびターゲットからのラベルをセマンティックマッチングAI/MLモデルに入力として提供することによって一致を検証し、セマンティックマッチングAI/MLモデルから出力としてマッチングスコアを受信し、そしてマッチングスコアをマッチングしきい値に対してチェックする。
【選択図】
図11
【特許請求の範囲】
【請求項1】
コンピュータプログラムを格納した非一時的なコンピュータ読み取り可能な媒体であって、前記コンピュータプログラムは、少なくとも1つのプロセッサが、
コンピューティングシステムとのユーザーインタラクションに関する記録されたデータを使用して、ユーザーインターフェース(UI)のソースおよびターゲットの値の間の一致をチェックし、かつ
以下によって、前記一致を検証するように構成されている、非一時的なコンピュータ読み取り可能な媒体。
前記ソースおよび前記ターゲットの前記値を含むフィールドに関連付けられたラベルを特定し、
前記ソースおよび前記ターゲットからの前記ラベルをセマンティックマッチング人工知能(AI)/機械学習(ML)モデルに入力として提供し、
前記セマンティックマッチングAI/MLモデルから出力としてマッチングスコアを受信し、そして
前記マッチングスコアをマッチングしきい値に対してチェックする。
【請求項2】
前記マッチングスコアが前記マッチングしきい値を超えると、前記コンピュータプログラムはさらに、前記少なくとも1つのプロセッサが、
それぞれのラベルに関連付けられた値を、前記ソースから前記ターゲット内の対応する意味的に一致したラベルに関連付けられたフィールドに自動的にコピーするように構成されている、請求項1に記載の非一時的なコンピュータ読み取り可能な媒体。
【請求項3】
前記コンピュータプログラムはさらに、前記少なくとも1つのプロセッサが、
前記ソースおよび前記ターゲットから前記一致したラベルを送信し、前記セマンティックマッチングAI/MLモデルの再訓練のために格納および使用されるように構成されている、請求項2に記載の非一時的なコンピュータ読み取り可能な媒体。
【請求項4】
前記コンピュータプログラムはさらに、前記少なくとも1つのプロセッサが、
前記ソースおよび前記ターゲットからの前記一致したラベルを部分的に使用して、再訓練された前記セマンティックマッチングAI/MLモデルの再訓練されたバージョンを受信し、そして
前記セマンティックマッチングAI/MLモデルの前記再訓練されたバージョンを展開するように構成されている、請求項3に記載の非一時的なコンピュータ読み取り可能な媒体。
【請求項5】
前記コンピュータプログラムはさらに、前記少なくとも1つのプロセッサが、
前記ソースから前記ターゲット内の前記対応する意味的に一致したラベルに関連付けられた前記フィールドへ、前記それぞれのラベルに関連付けられた前記値の自動コピーを実行するロボティックプロセスオートメーション(RPA)ワークフローを生成するように構成されている、請求項2に記載の非一時的なコンピュータ読み取り可能な媒体。
【請求項6】
前記コンピュータプログラムはさらに、前記少なくとも1つのプロセッサが、
前記RPAワークフローのための自動化を生成し、そして
前記自動化を前記コンピューティングシステムに展開するように構成されている、請求項5に記載の非一時的なコンピュータ読み取り可能な媒体。
【請求項7】
前記マッチングスコアが前記マッチングしきい値を超えると、前記コンピュータプログラムはさらに、前記少なくとも1つのプロセッサが、
対応する値を持ち、かつまだ前記ターゲット内のラベルと一致していない前記ソース内のラベルを特定し、
空のフィールドに関連付けられた前記ターゲット内のラベルを特定し、そして
対応する値を持つ前記ソース内の一致しないラベルごとに、
前記ソース内の前記一致しないラベルと、前記セマンティックマッチングAI/MLモデルを介して前記ターゲットからの各一致しないラベルとをペアで実行し、
前記セマンティックマッチングAI/MLモデルによって出力された最も高いマッチングスコアを選択し、そして
前記最も高いマッチングスコアが前記マッチングしきい値以上の場合、
前記最も高いマッチングスコアに関連付けられた前記ペアの前記ソースからのラベルに対応する値を、前記ターゲットからの前記ペアの関連付けられたラベルに関連付けられたフィールドに入力するように構成されている、請求項1に記載の非一時的なコンピュータ読み取り可能な媒体。
【請求項8】
前記マッチングスコアが前記マッチングしきい値を超えると、前記コンピュータプログラムはさらに、前記少なくとも1つのプロセッサが、
対応する値を持ち、かつまだ前記ターゲット内のラベルと一致していない前記ソース内のラベルを特定し、
空のフィールドに関連付けられた前記ターゲット内のラベルを特定し、そして
対応する値を持つ前記ソース内の一致しないラベルごとに、
前記セマンティックマッチングAI/MLモデルが自動特定しきい値以上のマッチングスコアを出力するまで、前記ソース内の前記一致しないラベルと、前記セマンティックマッチングAI/MLモデルを介して前記ターゲットからの各一致しないラベルとをペアで実行し、
前記マッチングスコアに関連付けられた前記ペアの前記ソースからのラベルに対応する値を、前記ターゲットからの前記ペアの関連付けられたラベルに関連付けられたフィールドに入力するように構成されている、請求項1に記載の非一時的なコンピュータ読み取り可能な媒体。
【請求項9】
前記自動特定しきい値は、前記マッチングしきい値よりも高い、請求項8に記載の非一時的なコンピュータ読み取り可能な媒体。
【請求項10】
前記検証は、少なくとも1つのさらなる一致の前記マッチングスコアが前記マッチングしきい値以上になるまで繰り返される、請求項1に記載の非一時的なコンピュータ読み取り可能な媒体。
【請求項11】
コンピュータ実装方法であって、
コンピューティングシステムによって、コンピューティングシステムとのユーザーインタラクションに関する記録されたデータを使用して、ユーザーインターフェース(UI)のソースおよびターゲットの値の間の一致をチェックすることと、
前記コンピューティングシステムによって、前記ソースおよび前記ターゲットの一致した値を含むフィールドに関連付けられたラベルを入力としてセマンティックマッチング人工知能(AI)/機械学習(ML)モデルに提供し、出力として前記セマンティックマッチングAI/MLモデルからマッチングスコアを受信し、そして前記マッチングスコアをマッチングしきい値に対してチェックすることによって、前記一致を検証することと、
前記コンピューティングシステムによって、前記マッチングスコアが前記マッチングしきい値を超える場合に、それぞれのラベルに関連付けられた値を、前記ソースから前記ターゲット内の対応する意味的に一致したラベルに関連付けられたフィールドに自動的にコピーすることと、を含む、コンピュータ実装方法。
【請求項12】
さらに、前記コンピューティングシステムによって、前記ソースおよび前記ターゲットから前記一致したラベルを送信し、前記セマンティックマッチングAI/MLモデルの再訓練のために格納および使用されることを含む、請求項11に記載のコンピュータ実装方法。
【請求項13】
さらに、前記コンピューティングシステムによって、前記ソースおよび前記ターゲットからの前記一致したラベルを部分的に使用して、再訓練された前記セマンティックマッチングAI/MLモデルの再訓練されたバージョンを受信することと、
前記コンピューティングシステムによって、前記セマンティックマッチングAI/MLモデルの前記再訓練されたバージョンを展開することとを含む、請求項12に記載のコンピュータ実装方法。
【請求項14】
さらに、前記ソースから前記ターゲット内の前記対応する意味的に一致したラベルに関連付けられた前記フィールドへ、前記それぞれのラベルに関連付けられた前記値の自動コピーを実行するロボティックプロセスオートメーション(RPA)ワークフローを生成することを含む、請求項11に記載のコンピュータ実装方法。
【請求項15】
さらに、前記RPAワークフローのための自動化を生成することと、
前記自動化を前記コンピューティングシステムに展開することとを含む、請求項14に記載のコンピュータ実装方法。
【請求項16】
前記マッチングスコアが前記マッチングしきい値を超える場合、前記方法はさらに、
前記コンピューティングシステムによって、対応する値を持ち、かつまだ前記ターゲット内のラベルと一致していない前記ソース内のラベルを特定することと、
前記コンピューティングシステムによって、空のフィールドに関連付けられた前記ターゲット内のラベルを特定することと、
対応する値を持つ前記ソース内の一致しないラベルごとに、
前記コンピューティングシステムによって、前記ソース内の前記一致しないラベルと、前記セマンティックマッチングAI/MLモデルを介して前記ターゲットからの各一致しないラベルとをペアで実行することと、
前記コンピューティングシステムによって、前記セマンティックマッチングAI/MLモデルによって出力された最も高いマッチングスコアを選択することと、
前記最も高いマッチングスコアが前記マッチングしきい値以上の場合、
前記コンピューティングシステムによって、前記最も高いマッチングスコアに関連付けられた前記ペアの前記ソースからのラベルに対応する値を、前記ターゲットからの前記ペアの関連付けられたラベルに関連付けられたフィールドに入力することとを含む、請求項11に記載のコンピュータ実装方法。
【請求項17】
前記マッチングスコアが前記マッチングしきい値を超える場合、前記方法はさらに、
前記コンピューティングシステムによって、対応する値を持ち、かつまだ前記ターゲット内のラベルと一致していない前記ソース内のラベルを特定することと、
前記コンピューティングシステムによって、空のフィールドに関連付けられた前記ターゲット内のラベルを特定することと、
対応する値を持つ前記ソース内の一致しないラベルごとに、
前記コンピューティングシステムによって、前記セマンティックマッチングAI/MLモデルが自動特定しきい値以上のマッチングスコアを出力するまで、前記ソース内の前記一致しないラベルと、前記セマンティックマッチングAI/MLモデルを介して前記ターゲットからの各一致しないラベルとをペアで実行することと、
前記コンピューティングシステムによって、前記マッチングスコアに関連付けられた前記ペアの前記ソースからのラベルに対応する値を、前記ターゲットからの前記ペアの関連付けられたラベルに関連付けられたフィールドに入力することとを含む、請求項11に記載のコンピュータ実装方法。
【請求項18】
前記自動特定しきい値は、前記マッチングしきい値よりも高い、請求項17に記載のコンピュータ実装方法。
【請求項19】
前記検証は、少なくとも1つのさらなる一致の前記マッチングスコアが前記マッチングしきい値以上になるまで繰り返される、請求項11に記載のコンピュータ実装方法。
【請求項20】
コンピューティングシステムであって、
コンピュータプログラム命令を格納するメモリと、
前記コンピュータプログラム命令を遂行するように構成された少なくとも1つのプロセッサとを含むシステムであって、前記コンピュータプログラム命令は、前記少なくとも1つのプロセッサが、
ソースおよびターゲットの一致した値を含むフィールドに関連付けられたラベルを入力としてセマンティックマッチング人工知能(AI)/機械学習(ML)モデルに提供し、出力として前記セマンティックマッチングAI/MLモデルからマッチングスコアを受信し、そして前記マッチングスコアをマッチングしきい値に対してチェックすることによって、ユーザーインターフェース(UI)とのユーザーインタラクションに関する記録されたデータを使用して、前記UI内の前記ソースおよび前記ターゲットの値の間の一致を検証し、そして
前記マッチングスコアが前記マッチングしきい値を超える場合に、それぞれのラベルに関連付けられた値を、前記ソースから前記ターゲット内の対応する意味的に一致したラベルに関連付けられたフィールドに自動的にコピーするように構成されている、コンピューティングシステム。
【請求項21】
前記コンピュータプログラム命令はさらに、前記少なくとも1つのプロセッサが、
前記ソースおよび前記ターゲットから前記一致したラベルを送信し、前記セマンティックマッチングAI/MLモデルの再訓練のために格納および使用されるように構成されている、請求項20に記載のコンピューティングシステム。
【請求項22】
前記コンピュータプログラム命令はさらに、前記少なくとも1つのプロセッサが、
前記ソースおよび前記ターゲットからの前記一致したラベルを部分的に使用して、再訓練された前記セマンティックマッチングAI/MLモデルの再訓練されたバージョンを受信し、そして
前記セマンティックマッチングAI/MLモデルの前記再訓練されたバージョンを展開するように構成されている、請求項21に記載のコンピューティングシステム。
【請求項23】
前記コンピュータプログラム命令はさらに、前記少なくとも1つのプロセッサが、
前記ソースから前記ターゲット内の前記対応する意味的に一致したラベルに関連付けられた前記フィールドへ、前記それぞれのラベルに関連付けられた前記値の自動コピーを実行するロボティックプロセスオートメーション(RPA)ワークフローを生成するように構成されている、請求項20に記載のコンピューティングシステム。
【請求項24】
前記コンピュータプログラム命令はさらに、前記少なくとも1つのプロセッサが、
前記RPAワークフローのための自動化を生成し、
前記自動化を前記コンピューティングシステムに展開するように構成されている、請求項23に記載のコンピューティングシステム。
【請求項25】
前記マッチングスコアが前記マッチングしきい値を超えると、前記コンピュータプログラム命令はさらに、前記少なくとも1つのプロセッサが、
対応する値を持ち、かつまだ前記ターゲット内のラベルと一致していない前記ソース内のラベルを特定し、
空のフィールドに関連付けられた前記ターゲット内のラベルを特定し、そして
対応する値を持つ前記ソース内の一致しないラベルごとに、
前記ソース内の前記一致しないラベルと、前記セマンティックマッチングAI/MLモデルを介して前記ターゲットからの各一致しないラベルとをペアで実行し、
前記セマンティックマッチングAI/MLモデルによって出力された最も高いマッチングスコアを選択し、そして
前記最も高いマッチングスコアが前記マッチングしきい値以上の場合、
前記最も高いマッチングスコアに関連付けられた前記ペアの前記ソースからのラベルに対応する値を、前記ターゲットからの前記ペアの関連付けられたラベルに関連付けられたフィールドに入力するように構成されている、請求項20に記載のコンピューティングシステム。
【請求項26】
前記マッチングスコアが前記マッチングしきい値を超えると、前記コンピュータプログラム命令はさらに、前記少なくとも1つのプロセッサが、
対応する値を持ち、かつまだ前記ターゲット内のラベルと一致していない前記ソース内のラベルを特定し、
空のフィールドに関連付けられた前記ターゲット内のラベルを特定し、そして
対応する値を持つ前記ソース内の一致しないラベルごとに、
前記セマンティックマッチングAI/MLモデルが自動特定しきい値以上のマッチングスコアを出力するまで、前記ソース内の前記一致しないラベルと、前記セマンティックマッチングAI/MLモデルを介して前記ターゲットからの各一致しないラベルとをペアで実行し、
前記マッチングスコアに関連付けられた前記ペアの前記ソースからのラベルに対応する値を、前記ターゲットからの前記ペアの関連付けられたラベルに関連付けられたフィールドに入力するように構成されている、請求項20に記載のコンピューティングシステム。
【請求項27】
前記自動特定しきい値は、前記マッチングしきい値よりも高い、請求項26に記載のコンピューティングシステム。
【請求項28】
前記検証は、少なくとも1つのさらなる一致の前記マッチングスコアが前記マッチングしきい値以上になるまで繰り返される、請求項20に記載のコンピューティングシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は概して、自動化に関し、より具体的には、タスクマイニングを使用したソースおよびターゲット間の人工知能(AI)主導のセマンティック自動データ転送に関する。
【背景技術】
【0002】
現在、ユーザーがアンアテンディッドオートメーションを実行してソースからターゲットに情報をコピーしたい場合、彼または彼女は情報の送信先フィールドと情報のコピー先フィールドを指定する必要がある。しかし、ユーザーは画面間のこのデータ操作を常に理解しているわけではない。既存のタスクマイニング技術は、ユーザーが実行しているタスクを特定する目的で、ユーザーの低レベルのアクションを追跡する。しかし、この情報を評価し、意味を理解することを提供し、そして根底にある相関関係を理解することは困難である。実際、現在のタスクマイニング技術ではそのようなことはできない。
【0003】
現在、ソースからターゲットにデータをコピーするプロセスには、次の3つの一般的な手順がある:(1)データソースからの情報の抽出(例えば、スクリーンキャプチャ、キー押下およびマウスクリックの記録など)、(2)変換と検証(つまり、ユーザーインタラクション情報を変換し、抽出された内容を検証する)、そして(3)ターゲットアプリケーションに情報を入力する。しかし、このプロセスは最適ではなく、多くの場合、ユーザーおよび/または開発者からの入力と確認が必要になる。したがって、改善されたおよび/または代替のアプローチが有益であり得る。
【発明の概要】
【0004】
本発明の特定の実施形態は、現在のソフトウェアオートメーション技術によってまだ十分に特定されていない、評価されていない、または解決されていない本分野における問題およびニーズのソリューションを提供し、および/あるいはそこへの有用な代替手段を提供し得る。例えば、本発明のいくつかの実施形態は、タスクマイニングを使用した、ソースおよびターゲットの間の人工知能(AI)主導のセマンティック自動データ転送に関する。特定の実施形態は、例えば、ロボティックプロセスオートメーション(RPA)に採用されてもよい。
【0005】
実施形態では、非一時的なコンピュータ読み取り可能な媒体は、コンピュータプログラムを格納する。コンピュータプログラムは、少なくとも1つのプロセッサが、コンピューティングシステムとのユーザーインタラクションに関する記録されたデータを使用して、ユーザーインターフェース(UI)のソースおよびターゲットの値の間の一致をチェックするように構成される。コンピュータプログラムはまた、少なくとも1つのプロセッサが、ソースおよびターゲットの値を含むフィールドに関連付けられたラベルを特定し、ソースおよびターゲットからのラベルをセマンティックマッチングAI/MLモデルに入力として提供することによって一致を検証し、セマンティックマッチングAI/MLモデルから出力としてマッチングスコアを受信し、そしてマッチングスコアをマッチングしきい値に対してチェックするように構成される。
【0006】
別の実施形態では、コンピュータ実装方法は、コンピューティングシステムによって、コンピューティングシステムとのユーザーインタラクションに関する記録されたデータを使用して、UIのソースおよびターゲットの値の間の一致をチェックすることを含む。コンピュータ実装方法はまた、コンピューティングシステムによって、ソースおよびターゲットの一致した値を含むフィールドに関連付けられたラベルを入力としてセマンティックマッチングAI/MLモデルに提供し、出力としてセマンティックマッチングAI/MLモデルからマッチングスコアを受信し、そしてマッチングスコアをマッチングしきい値に対してチェックすることによって、一致を検証することを検証することを含む。コンピュータ実装方法はさらに、コンピューティングシステムによって、マッチングスコアがマッチングしきい値を超える場合に、それぞれのラベルに関連付けられた値を、ソースからターゲット内の対応する意味的に一致したラベルに関連付けられたフィールドに自動的にコピーすることを含む。
【0007】
さらに別の実施形態では、コンピューティングシステムは、コンピュータプログラム命令を格納するメモリと、コンピュータプログラム命令を遂行するように構成された少なくとも1つのプロセッサとを含む。コンピュータプログラム命令は、少なくとも1つのプロセッサが、ソースおよびターゲットの一致した値を含むフィールドに関連付けられたラベルを入力としてセマンティックマッチングAI/MLモデルに提供し、出力としてセマンティックマッチングAI/MLモデルからマッチングスコアを受信し、そしてマッチングスコアをマッチングしきい値に対してチェックすることによって、UIとのユーザーインタラクションに関する記録されたデータを使用して、UI内のソースおよびターゲットの値の間の一致を検証するように構成される。コンピュータプログラム命令は、少なくとも1つのプロセッサが、マッチングスコアがマッチングしきい値を超える場合に、それぞれのラベルに関連付けられた値を、ソースからターゲット内の対応する意味的に一致したラベルに関連付けられたフィールドに自動的にコピーするように構成される。
【図面の簡単な説明】
【0008】
本発明の特定の実施形態の利点が容易に理解されるように、上記で簡単に説明した本発明のより特定の説明は、添付の図面に図示されている特定の実施形態を参照して描写される。これらの図面は、本発明の典型的な実施形態のみを描いており、したがって、その範囲を限定するものとは考えられないことが理解されるべきであるが、本発明は、以下の添付の図面を使用することにより、さらなる特定および詳細をもって描写され、説明されるであろう。
【0009】
【
図1】本発明の実施形態による、ハイパーオートメーションシステムを示すアーキテクチャ図である。
【0010】
【
図2】本発明の実施形態による、RPAシステムを示すアーキテクチャ図である。
【0011】
【
図3】本発明の実施形態による、展開したRPAシステムを示すアーキテクチャ図である。
【0012】
【
図4】本発明の実施形態による、デザイナ、アクティビティ、およびドライバの間の関係を示すアーキテクチャ図である。
【0013】
【
図5】本発明の実施形態による、タスクマイニングを使用したソースおよびターゲットの間でAI主導のセマンティック自動データ転送を実行するように構成されたコンピューティングシステムを示すアーキテクチャ図である。
【0014】
【
図6A】本発明の実施形態による、画像内のグラフィカル要素を認識するように訓練されたニューラルネットワークの例を示す。
【0015】
【
図6B】本発明の実施形態によるニューロンの例を示す。
【0016】
【
図7】本発明の実施形態による、AI/MLモデル(複数可)を訓練するためのプロセスを示すフローチャートである。
【0017】
【
図8A】本発明の実施形態による、ソースフォームからターゲットフォームへ実行されるセマンティックコピーアンドペースト動作および自動RPA自動生成を示す。
【
図8B】本発明の実施形態による、ソースフォームからターゲットフォームへ実行されるセマンティックコピーアンドペースト動作および自動RPA自動生成を示す。
【
図8C】本発明の実施形態による、ソースフォームからターゲットフォームへ実行されるセマンティックコピーアンドペースト動作および自動RPA自動生成を示す。
【
図8D】本発明の実施形態による、ソースフォームからターゲットフォームへ実行されるセマンティックコピーアンドペースト動作および自動RPA自動生成を示す。
【
図8E】本発明の実施形態による、ソースフォームからターゲットフォームへ実行されるセマンティックコピーアンドペースト動作および自動RPA自動生成を示す。
【
図8F】本発明の実施形態による、ソースフォームからターゲットフォームへ実行されるセマンティックコピーアンドペースト動作および自動RPA自動生成を示す。
【
図8G】本発明の実施形態による、ソースフォームからターゲットフォームへ実行されるセマンティックコピーアンドペースト動作および自動RPA自動生成を示す。
【0018】
【
図9】本発明の実施形態による、自動生成されたRPAワークフローを有するRPAデザイナアプリケーションを示す。
【0019】
【
図10】本発明の実施形態による、タスクマイニングを使用したソースおよびターゲットの間でAI主導のセマンティック自動データ転送を実行するためのモジュールを概して示す。
【0020】
【
図11】本発明の実施形態による、タスクマイニングデータをソースとして使用して、ソースおよびターゲットの間でAI主導のセマンティック自動データ転送を実行するためのプロセスを示すフローチャートである。
【発明を実施するための形態】
【0021】
別段の記載がない限り、類似の参照文字は、添付の図面全体で一貫して対応する特徴を示す。
【0022】
(実施形態の詳細な説明)
いくつかの実施形態は、ソースとしてタスクマイニングデータを使用する、ソースおよびターゲットの間のAI主導のセマンティック自動データ転送に関する。既存のタスクマイニング技術は、画面および/またはフォーム、ならびにそこに存在するフィールドおよび要素に関連するすべてのデータを収集する。しかしながら、いくつかの実施形態はさらに進んで、セマンティックな意味を導き出し、画面上のフィールド/要素間の相関関係を自動的に提供する。これには、自動的に変換することおよび検証が含まれる場合があり、ユーザーがこれらのステップを指定しなくても、ソースおよびターゲットの間でデータのコピーアンドペースト機能を実行するユーザー向けに、RPAワークフロー/自動化を自動的に生成し得る。また、この機能は、ソースおよびターゲットのラベルが正確に同じでない場合にも提供され得る。
【0023】
特定の実施形態では、ある画面またはフォームから別の画面またはフォームに情報をコピーするための要素ごとの入力の代わりに、データソースおよびターゲット画面が入力として提供される。AIを使用して、いくつかの実施形態は、ソース画面、フォーム、または文書とターゲット画面、フォーム、または文書との間の意味的関係を示すことができ、ユーザーは、提案された変換ツールを使用して、提案された自動化を完了することができる。特定の実施形態では、1または複数のフィールドに対して意味的な一致が見つからない場合、ユーザーは、一致しないフィールドを手動で入力するように促されてもよい。ユーザーがこの情報を提供すると、変換(複数可)が次いで学習され、将来これらの関連付け(復数可)を理解できるようにAI/MLモデルが訓練される。
【0024】
意味理解技術をタスクマイニングデータに適用することで、収集されたデータとソースおよびターゲットラベル間の関連性を学習し得る。このような技術は、ソースフィールドとターゲットフィールドの間のマッピング、およびソースからのデータをターゲットと互換性を持たせるために実行する必要がある潜在的なデータ変換を学習し得る。例えば、ターゲットが予期している場合、データは別の形式に変更され得る(例えば、「October 14, 2022」を「14 October 2022」に変更すること)。
【0025】
ユーザーがソース画面またはフォームからターゲット画面またはフォームに情報をコピーする場合を考えてみる。ユーザーがタスクを一度だけ実行するか、またはめったに実行しない場合、このタスクの自動化は特に有益ではない場合がある。しかし、ユーザーがある程度の頻度でタスクを実行する場合(例えば、毎月、毎週、毎日、毎日複数回など)、この情報は、適切に訓練されたAI/MLモデル(復数可)を使用したタスクマイニングデータから決定され得る。
【0026】
タスクの順序および/またはステップは毎回同じではないかもしれないが、プロセスの結果は同じである場合がある。例えば、ユーザーは、ソースからターゲットのフィールドに、異なる順序でデータをコピーまたは入力し得る。また、特定の条件下では、異なるソースまたは異なるターゲットが使用され得る。完了したタスクが同じかどうかを理解すること、および/またはソースまたはターゲットを変更するための条件が何であるかを理解することは、RPAプロセスなど、最終的にユーザーに提案されるプロセスまたは自動的に実装されるプロセスにさらなる利点をもたらし得る。
【0027】
コピーアンドペーストのタスクが同じかどうかを理解するには、結果を調べることができる。例えば、ユーザーが「送信」ボタンを押す前のターゲットの最後の画面(復数可)では、ほとんどまたはすべてのフィールドに値が関連付けられている場合があるが、ラベルは同じままである。この「完了」状態は、ユーザーがフィールドに入力した順序に関係なく、手動のコピーアンドペースト動作が完了したことを示し得る。ソースまたはターゲットを変更する必要があるかどうかの理解について、これは、ソースデータから決定され得る。例えば、ソースデータに言語フィールドがある場合、これは、その言語に関連付けられたターゲットを使用する必要があることを示し得る。他にも多くのシナリオが考えられる。
【0028】
場合によっては、コピーアンドペースト動作には、ソース、ターゲット、またはその両方からの複数の画面が関与し得ることに留意されたい。また、複数のアプリケーションの画面を使用してターゲットアプリケーションから画面(復数可)に入ることができ、またその逆も可能である。AI/MLモデル(復数可)は、コピーアンドペーストタスク全体に(例えば、提出など、同じ最終状態に到達したことを認識することによって)完了のための複数の画面が含まれることを認識するように訓練され得る。このような場合、永続的なデータ構造を使用して、ソースからターゲットにコピーするデータを格納し得る。実際、最初の画面の対応するラベルと値に対応するラベルとフィールドは、ターゲットの2番目の画面まで表示されない場合があり、ターゲットには、ターゲットの複数の画面のラベル/値に対応するほとんどまたはすべてのラベル/フィールドが1つの画面などに含まれ得る。カスタムクラスまたはプログラミング言語によって提供される既存のデータ構造(例えば、構造体、配列(単一または多次元)、辞書など)を使用して、永続的なストレージを提供し得る。
【0029】
さらなるコンテキストを提供するために、いくつかの実施形態は、1または複数のアプリケーション(例えば、Outlook(登録商標)、Excel(登録商標)など)のAPIスタックにフックすることによって追加情報を取得し、これらのアプリケーションとのユーザーのインタラクションによって行われるAPI呼び出しから情報を取得する。APIが提供し得る情報の一例としては、Excel(登録商標)からより多くのコンテキストを取得することである。APIを介して、ユーザーがどのワークブックを使用しているか、そのワークブック内のどのシートを使用しているか、そのシート内のどのセル(復数可)が変更されているかなどを特定し得る。これらのAPIは、特定のアプリケーションでユーザーが行ったことの「アクション」ログを提供する。この情報は、タスクのアトミックインスタンスおよび/またはタスクの終了状態を特定するのに役立ち得る。
【0030】
タスクマイニングの記録中にキャプチャされた画像と、関連するAPI呼び出し情報は時間同期することができ、そしてAPI情報を使用して、ユーザーが画面で何を行っているかをさらに理解することを提供し得る。これにより、画像比較技術などを介してユーザーのアクションのセットをアクティビティにマッチングすることで、より良い理解が促進され得る。例えば、CV(OCRを含む)を使用して特定の画面に関する情報を抽出し、次いでクラスタリングアルゴリズムを使用して抽出された情報を類似の画面と一致させることができる。これにより、ユーザーのアクションの種類をより正確に特定できるようになる。
【0031】
画像分析とAPI情報収集を組み合わせることで、ユーザーが行っていることの全体像をさらに把握し得る。スクリーンショット、ユーザーインタラクションイベント、APIイベント、オペレーティングシステム(OS)/ドキュメントオブジェクトモデル(DOM)イベント、ユーザーインタラクション/入力タイプ(例えば、マウスクリック対タイピング)、位置データ(例えば、マウスがクリックされた場所、または画面上のテキストが入力された場所)、どのマウスボタンが押されたか、アプリケーション/プロセス名(例えば、画面のユニバーサルリソースロケーター(URL)またはウィンドウで現在実行中でアクティブなアプリケーション)、UI記述子、それらの任意の組み合わせなどが収集され得る。これは、画像分析だけでは得られない、さらなるコンテキストを提供する。例えば、APIは、Excel(登録商標)スプレッドシートのどのシートとセルが変更されたのか、そのセルのフォーマット(例えば、通貨、文字列)、そしてその他APIが促進する様々な情報を提供することができる。
【0032】
ある人が、ある画面から別の画面へ情報を手動でコピーするが、1または復数のフィールドを変更する場合、その人は、それらのフィールドについて、ソースからターゲットへのデータの変換と検証を本質的に実行すると考えられ得る。また、変更なくコピーされたフィールドは正確であると推測され得る。言い換えれば、変換と検証はこの情報の中に本質的に存在すると考えられ得る。タスクマイニングデータは、ソース/宛先フィールド、コピーされたデータ、および推論変換を含み得る。この洞察は、マッピングAI/MLモデルをよりよく訓練するために使用することができ、その結果、そのような情報を自動的に発見することができる。次いで、マッピングAI/MLモデルが十分に正確であれば、RPAワークフロー/オートメーションが自動的に作成され得る。
【0033】
タスクマイニングデータは、既存のAI/MLモデルの改良にも利用され得る。例えば、タスクマイニングデータに含まれるソースラベル/フィールドからターゲットラベル/フィールドへのユーザーマッピングを収集し、既存のAI/MLモデルの改良バージョンを訓練して提供するために使用され得る。そのような訓練/改良されたAI/MLモデルバージョンは、以前に遭遇したことのないシナリオに適用することができ、適切に訓練されれば、マッピングを正確かつ自動的に実行することができる。このような機能は、情報がある場所から別の場所へ(つまり、ソースからターゲットへ)頻繁にコピーされるが、ソースおよびターゲットのラベルが同じとは限らない実世界で役に立つ。いくつかの実施形態では、AI/MLモデルは、ユーザーが最初に自動化を提案する必要がないように、訓練され得る。むしろ、RPAソフトウェアは、ユーザーからの明示的な要求がなくても、それを提案することができる。
【0034】
上記のように、AI/MLモデルはまず訓練され、次にRPAワークフローの提案に使用される。訓練は、タスクマイニングデータが収集され続けるにつれて、繰り返し実行され得る。十分な精度があれば、ユーザーの確認なしに自動化を作成し、使用することもできる。ユーザーはコピーアンドペースト処理を実行することを開始することができ、ソフトウェアによってそのように認識されると、コピーアンドペーストタスクは自動的に完了し得る。その後、ユーザーは、いくつかの実施形態では、これが望ましいかどうかを確認することができる。
【0035】
いくつかの実施形態では、高次元ベクトル空間における意味的意味に基づくフィールドの類似性をマッピングする大規模な意味言語モデルを使用する。例えば、word2vecのような自然言語処理(NLP)モデルまたは、BERT(Bidirectional Encoder Representations from Transformers)もしくはGPT-3(Generative Pre-trained Transformer 3)のような、より高度なセマンティックNLPモデルを使用することができる。このようなモデルは画面のベクトル表現を構築し、学習された言語理解を使って2つの異なるラベルが類似していることを学習することができる。
【0036】
意味理解を提供するために、ソースからのラベルとターゲットからのラベルが訓練されたセマンティックNLモデルに提供されることがあり、このモデルはラベルを比較し、類似度スコア(例えば、0%と100%の間、0と1の間、-1と1の間など)を提供する。類似度スコアにパーセンテージが使用される場合、75%、90%、99%など、2つのラベルを一致とみなすために類似度しきい値が必要となる場合がある。
【0037】
いくつかの実施形態では、ラベル比較だけでなく、2つの文の意味することが互いにどれだけ似ているかを決定し得る。前段落の例と同様に、ソースからの文とターゲットからの文が、入力としてBERTモデルまたはGPT-3モデルに提供される場合がある。類似度スコアはモデルによって提供され、これは類似度しきい値と比較される。いくつかの実施形態では、単語またはフレーズラベルの類似度スコアおよび/または類似度しきい値は、文のものとは異なる場合がある。
【0038】
タスクマイニングデータは、いくつかの実施形態では、NLPモデルの微調整に役立つ。このようなモデルは通常、大量のオープンソーステキストを入力として消費することに基づいて初期訓練される。あるラベルが別のラベルに似ていることを示す情報を追加することで、このようなモデルはさらに正確な関連付けを学習する。このような追加の「適用された(applied)」訓練情報は、単にインターネットからのランダムなデータに基づくものではなく、セマンティックマッピングを目的とした高品質の訓練データを提供する。
【0039】
ある種の目的、例えば契約学習は、画面画像の内容のベクトル表現を構築するために、人間によってラベル付けされていない大規模なデータセット(例えば画面画像)に適用することができる。次に、k-meansクラスタリングまたはDensity-Based Spatial Clustering of Applications with Noise(DBSCAN)などのクラスタリングアプローチを使用して、入力としてのベクトル表現からクラスタ化された表現を得ることができる。このようなクラスタ化された表現は、コピーアンドペースト動作を他の動作と区別するのに有用であり得る。
【0040】
特定の実施形態では、AI/MLモデルは、コピーアンドペースト動作が進行中である可能性が高いことを検出することができる。例えば、AI/MLモデルまたは決定論的ロジックは、ソース画面とターゲット画面の個々のフィールド間で複数のコピーアンドペースト動作が発生したことを検出し、次いでその動作を自動的に試みるかどうかをユーザーに尋ねることができる。いくつかの実施形態では、AI/MLモデルまたは決定論的ロジックは、まず、疑わしいソース/ターゲットのインターフェースがフィールド/ラベルベースのインターフェースであることを検証することができる。
【0041】
ユーザーがこのオプションを選択すると、セマンティックマッチングモデルは動作を完了しようとする。いくつかの実施形態では、セマンティックマッチングモデルを使用して動作を自動完了し、次いで動作が正しく行われたかどうかについてユーザーに潜在的にプロンプトを表示し得る。1または複数のフィールドが正しく一致されていない場合、ユーザーは修正を加えることができる。
【0042】
図1は、本発明の実施形態による、ハイパーオートメーションシステム100を示すアーキテクチャ図である。本明細書で使用される「ハイパーオートメーション」は、プロセスオートメーションのコンポーネント、統合ツール、および作業を自動化する能力を増幅する技術をまとめたオートメーションシステムを指す。例えば、いくつかの実施形態では、RPAがハイパーオートメーションシステムのコアで使用され、特定の実施形態では、人工知能(AI)/機械学習(ML)、プロセスマイニング、分析、および/または他の高度なツールによって自動化能力が拡張され得る。ハイパーオートメーションシステムがプロセスを学習し、AI/MLモデルを訓練し、そして分析を採用すると、例えば、より多くの知識作業が自動化され得、組織内のコンピューティングシステム、例えば、個人によって使用されるものと自律的に動作するものの両方は、すべてハイパーオートメーションプロセスの参加者として従事され得る。いくつかの実施形態のハイパーオートメーションシステムは、ユーザーおよび組織が効率的かつ効果的にオートメーションを発見し、理解し、そして拡張することを可能にする。
【0043】
ハイパーオートメーションシステム100は、デスクトップコンピュータ102、タブレット104、およびスマートフォン106などのユーザーコンピューティングシステムを含む。しかしながら、スマートウォッチ、ラップトップコンピュータ、サーバー、インターネットオブシングス(IoT)デバイスなどを含むが、これらに限定されない、任意の所望のユーザーコンピューティングシステムが本発明の範囲から逸脱せずに使用され得る。また、
図1には3つのユーザーコンピューティングシステムが示されているが、本発明の範囲から逸脱することなく、任意の適切な数のユーザーコンピューティングシステムが使用され得る。例えば、いくつかの実施形態では、数十、数百、数千、または数百万のユーザーコンピューティングシステムが使用され得る。ユーザーコンピューティングシステムは、ユーザーによって積極的に使用されてもよいし、または多くのもしくは任意のユーザー入力なしに自動的に実行され得る。
【0044】
各ユーザーコンピューティングシステム102、104、106は、そこで実行しているそれぞれのオートメーションプロセス(複数可)110、112、114を有する。オートメーションプロセス(複数可)110、112、114は、限定されないが、本発明の範囲から逸脱することなく、RPAロボット、オペレーティングシステムの一部、それぞれのコンピューティングシステム用のダウンロード可能なアプリケーション(複数可)、他の任意の適切なソフトウェアおよび/またはハードウェア、またはこれらの任意の組み合わせを含み得る。いくつかの実施形態では、1または複数のプロセス(複数可)110、112、114は、リスナーであり得る。リスナーは、本発明の範囲から逸脱することなく、RPAロボット、オペレーティングシステムの一部、それぞれのコンピューティングシステム用のダウンロード可能なアプリケーション、または他の任意のソフトウェアおよび/もしくはハードウェアであり得る。実際、いくつかの実施形態では、リスナー(複数可)のロジックは、物理的なハードウェアを介して部分的または完全に実装される。
【0045】
リスナーは、それぞれのコンピューティングシステムとのユーザーインタラクションおよび/またはアンアテンディッドコンピューティングシステムの動作に関連するデータを監視および記録し、ネットワーク(例えば、ローカルエリアネットワーク(LAN)、モバイル通信ネットワーク、衛星通信ネットワーク、インターネット、それらのいずれかの組み合わせ等)を介してコアハイパーオートメーションシステム120にデータを送信する。リスナーは、その用途に応じて、アテンドする(attended)場合もあればアテンドしない(unattended)場合もある。リスナーデータは、限定されないが、どのボタンがクリックされたか、マウスがどこに移動したか、フィールドに入力されたテキスト、1つのウィンドウが最小化されそして別のウィンドウが開かれたこと、ウィンドウに関連するアプリケーション、実行されていたタスクのユーザーからの説明、画面またはフォーム内のラベル、フィールド、および値、オペレーティングシステムからの情報、アプリケーションAPI(複数可)からの情報などを含み得る。特定の実施形態では、リスナーからのデータは、ハートビートメッセージの一部として定期的に送信され得る。いくつかの実施形態では、データは、所定量のデータが収集されると、所定期間が経過した後、またはその両方で、コアハイパーオートメーションシステム120に送信され得る。サーバー130などの1または複数のサーバーは、リスナーからデータを受信し、データベース140などのデータベースに格納する。
【0046】
オートメーションプロセスは、設計時間中にワークフローで開発されたロジックを遂行し得る。RPAの場合、ワークフローは、本明細書において「アクティビティ」として定義される、シーケンスまたは他の何らかのロジックフローで遂行されるステップのセットを含み得る。各アクティビティは、ボタンをクリックする、ファイルを読む、ログパネルに書き込むなどのアクションを含み得る。いくつかの実施形態では、ワークフローは入れ子になっているか、または埋め込まれ得る。
【0047】
いくつかの実施形態におけるRPAのための長時間実行ワークフローは、サービスオーケストレーション、人間の介入、およびアンアテンディッド環境における長時間実行トランザクションをサポートするマスタープロジェクトである。例えば、米国特許第10,860,905号を参照。人間の介入は、特定のプロセスが、アクティビティの次のステップに進む前に、例外処理、承認、または検証のために人間の入力を必要とする場合に登場する。この場合、プロセスの遂行は一時停止され、人間のタスクが完了するまでRPAロボットを開放する。
【0048】
長時間実行ワークフローは、永続化アクティビティを介してワークフローの断片化をサポートしてもよく、呼び出しプロセスおよび非ユーザーインタラクションアクティビティと組み合わされ、人間のタスクをRPAロボットタスクでオーケストレーションし得る。いくつかの実施形態では、複数または多数のコンピューティングシステムが、長時間実行ワークフローのロジックの遂行に参加し得る。長時間実行ワークフローは、迅速な遂行を促進するためにセッションで実行し得る。いくつかの実施形態では、長時間実行ワークフローは、API呼び出しを実行し、かつ長時間実行ワークフローセッションで実行するアクティビティを含み得るバックグラウンドプロセスをオーケストレーションしてもよい。これらのアクティビティは、いくつかの実施形態では、呼び出しプロセスアクティビティによって呼び出され得る。ユーザーセッションで実行するユーザーインタラクションアクティビティを有するプロセスは、コンダクタアクティビティからジョブを開始することによって呼び出され得る(コンダクタは、本明細書で後により詳細に説明する)。ユーザーは、いくつかの実施形態では、コンダクタでフォームを完成させる必要があるタスクを通じてインタラクションし得る。RPAロボットにフォームタスクが完了するのを待たせ、その後、長時間実行ワークフローを再開させるアクティビティが含まれ得る。
【0049】
1または複数のオートメーションプロセス(複数可)110、112、114は、コアハイパーオートメーションシステム120と通信している。いくつかの実施形態では、コアハイパーオートメーションシステム120は、サーバー130などの1または複数のサーバー上でコンダクタアプリケーションを実行し得る。例示のために1つのサーバー130が示されているが、本発明の範囲から逸脱することなく、互いに近接する、または分散アーキテクチャの複数または多数のサーバーが採用され得る。例えば、1または複数のサーバーが、本発明の範囲から逸脱することなく、コンダクタ機能、AI/MLモデル提供、認証、ガバナンス、および/または他の任意の適切な機能のために提供され得る。いくつかの実施形態では、コアハイパーオートメーションシステム120は、パブリッククラウドアーキテクチャ、プライベートクラウドアーキテクチャ、ハイブリッドクラウドアーキテクチャなどを組み込んでよく、またはその一部であってよい。特定の実施形態では、コアハイパーオートメーションシステム120は、サーバー130などの1または複数のコンピューティングシステム上で複数のソフトウェアベースのサーバーをホストし得る。いくつかの実施形態では、サーバー130などのコアハイパーオートメーションシステム120の1または複数のサーバーは、1または複数の仮想マシン(VM)を介して実装され得る。
【0050】
いくつかの実施形態では、1または複数のオートメーションプロセス(複数可)110、112、114は、コアハイパーオートメーションシステム120上に展開されたまたはコアハイパーオートメーションシステム120によってアクセス可能な1または複数のAI/MLモデル132を呼び出してもよい。AI/MLモデル132は、本明細書で後により詳細に議論されるように、本発明の範囲から逸脱することなく、任意の適切な目的のために訓練され得る。2または複数のAI/MLモデル132は、それらが集合的に協働出力(複数可)を提供するように、いくつかの実施形態では連鎖されてもよい(例えば、直列、並列、またはそれらの組合せ)。AI/MLモデル132は、(OCRを含む)CV、文書処理および/または理解、意味学習および/または分析、分析予測、プロセス発見、タスクマイニング、テスト、自動RPAワークフロー生成、シーケンス抽出、クラスタリング検出、音声-テキスト翻訳、これらのいずれかの組み合わせなどを実行または支援してもよい。しかしながら、本発明の範囲から逸脱することなく、AI/MLモデルの任意の所望の数および/またはタイプ(複数可)が使用され得る。複数のAI/MLモデルを使用することで、例えば、与えられたコンピューティングシステム上で何が起こっているかについての全体像をシステムが開発し得る。例えば、あるAI/MLモデルはOCRを実行することができ、別のものはボタンを検出することができ、別のものはシーケンスを比較することができる、などである。パターンは、AI/MLモデルによって個別に決定されてもよいし、または複数のAI/MLモデルによって集合的に決定されてもよい。特定の実施形態では、1または複数のAI/MLモデルは、少なくとも1つのコンピューティングシステム102、104、106上にローカルに展開される。
【0051】
いくつかの実施形態では、複数のAI/MLモデル132は、場合によっては直列、並列、またはそれらの組み合わせで使用され得る。各AI/MLモデル132は、データ上で実行するアルゴリズム(またはモデル)であり、AI/MLモデル自体は、例えば、訓練データ上で訓練された、人工「ニューロン」の深層学習ニューラルネットワーク(DLNN)であり得る。いくつかの実施形態では、AI/MLモデル132は、統計的モデリング(例えば、隠れマルコフモデル(HMM))などの様々な機能を実行する複数の層を有してよく、深層学習技術(例えば、長短期記憶(LSTM)深層学習、以前の隠れ状態のエンコーディングなど)を利用して所望の機能を実行し得る。
【0052】
ハイパーオートメーションシステム100は、いくつかの実施形態では、4つの主要な機能群を提供し得る:(1)発見、(2)自動化の構築、(3)管理、および(4)エンゲージメント。オートメーション(例えば、ユーザーコンピューティングシステム、サーバーなどで実行する)は、いくつかの実施形態では、RPAロボットなどのソフトウェアロボットによって実行され得る。例えば、アテンディッドロボット、アンアテンディッドロボット、および/またはテストロボットが使用され得る。アテンディッドロボットは、タスク(例えば、UiPath Assistant(商標)を介して)でユーザーを支援するためにユーザーと協働する。アンアテンディッドロボットはユーザーから独立して動作し、潜在的に、ユーザーが知らない間にバックグラウンドで実行し得る。テストロボットは、アプリケーションまたはRPAワークフローに対してテストケースを実行するアンアテンディッドロボットである。テストロボットは、いくつかの実施形態では、複数のコンピューティングシステム上で並行して実行され得る。
【0053】
発見機能は、ビジネスプロセスの自動化の様々な機会のための、その自動的な推奨を発見し提供し得る。そのような機能は、サーバー130などの1または複数のサーバーによって実装され得る。発見機能は、いくつかの実施形態では、オートメーションハブ、プロセスマイニング、タスクマイニング、および/またはタスクキャプチャを提供することを含み得る。オートメーションハブ(例えば、UiPath Automation Hub(商標))は、可視性および制御性を有するオートメーションロールアウトを管理するためのメカニズムを提供し得る。オートメーションアイデアは、例えば、提出フォームを介して従業員からクラウドソーシングされ得る。これらのアイデアを自動化するための実現可能性と投資収益率(ROI)の計算が提供され、将来の自動化のための文書が収集され、そして自動化の発見から構築までを迅速に行うためのコラボレーションが提供され得る。
【0054】
(例えば、UiPath Automation Cloud(商標)および/またはUiPath AI Center(商標)を介した)プロセスマイニングとは、アプリケーション(企業資源計画(ERP)アプリケーション、顧客関係管理(CRM)アプリケーション、メールアプリケーション、コールセンターアプリケーションなど)からデータを収集して分析し、組織にどんなエンドツーエンドのプロセスが存在するか、それらを効果的に自動化するにはどうすればよいか、また自動化がもたらす影響についてを特定するプロセスを指す。このデータは、例えば、リスナーによってユーザーコンピューティングシステム102、104、106から取得され、サーバー130などのサーバーによって処理され得る。いくつかの実施形態では、1または複数のAI/MLモデル132がこの目的のために採用され得る。この情報は、実装を迅速化し、手動での情報転送を回避するために、オートメーションハブにエクスポートされ得る。プロセスマイニングの目標は、組織内のプロセスを自動化することによって、ビジネス価値を高めることであり得る。プロセスマイニングの目標のいくつかの例は、限定されないが、利益の増加、顧客満足度の向上、規制および/または契約遵守、従業員の効率の向上などを含む。
【0055】
(例えば、UiPath Automation Cloud(商標)および/またはUiPath AI Center(商標)を介した)タスクマイニングは、ワークフロー(例えば、従業員のワークフロー)を特定および集約し、次にAIを適用して日常的なタスクのパターンおよびバリエーションを明らかにし、自動化の容易性および節約の可能性について(例えば、時間および/またはコストの節約)そのようなタスクをスコアリングする。1または複数のAI/MLモデル132は、データ内の反復タスクパターンを明らかにするために採用され得る。自動化の機が熟した反復タスクは、その後、特定され得る。この情報は、最初、リスナーによって提供され得、いくつかの実施形態では、サーバー130などのコアハイパーオートメーションシステム120のサーバー上で分析され得る。タスクマイニングからの発見(例えば、Extensible Application Markup Language (XAML)プロセスデータ)は、プロセス文書またはUiPath Studio(商標)などのデザイナアプリケーションにエクスポートされて、自動化をより迅速に作成および展開し得る。いくつかの実施形態におけるタスクマイニングは、ユーザーアクション(例えば、マウスクリック位置、キーボード入力、ユーザーがインタラクションしていたアプリケーションウィンドウおよびグラフィカル要素、インタラクションのためのタイムスタンプなど)を伴うスクリーンショットの撮影、統計データ(例えば、遂行時間、アクション数、テキスト入力など)の収集、スクリーンショットの編集および注釈、記録されるアクションのタイプの指定、などを含み得る。
【0056】
(UiPath Automation Cloud(商標)および/またはUiPath AI Center(商標)を介した)タスクキャプチャは、ユーザーが作業しているときにアテンディッドプロセスを自動的に文書化する、またはアンアテンディッドプロセスのためのフレームワークを提供する。このような文書化は、プロセス定義文書(PDD)、スケルトンワークフロー、プロセスの各部分のアクションのキャプチャ、ユーザーのアクションの記録および各ステップに関する詳細を含む包括的なワークフロー図の自動生成、Microsoft Word(登録商標)文書、XAMLファイルなどのような形式で自動化することが望ましいタスクを含み得る。構築可能なワークフローは、UiPath Studio(商標)などのデザイナアプリケーションに直接エクスポートされ得る。タスクキャプチャは、プロセスを説明するサブジェクトマターエキスパートと、プロダクショングレードオートメーションを提供するセンターオブエクセレンス(CoE)メンバーとの両方にとって、要件収集プロセスを簡素化し得る。
【0057】
オートメーションの構築は、デザイナアプリケーション(例えば、UiPath Studio(商標)、UiPath StudioX(商標)、UiPath Web(商標)など)を介して達成され得る。例えば、RPA開発施設150のRPA開発者は、コンピューティングシステム152のRPAデザイナアプリケーション154を使用して、ウェブ、モバイル、SAP(登録商標)、および仮想デスクトップなどのさまざまなアプリケーションおよび環境用のオートメーションを構築およびテストし得る。API統合は、さまざまなアプリケーション、技術、およびプラットフォームに対して提供され得る。事前定義されたアクティビティ、ドラッグアンドドロップモデリング、およびワークフローレコーダーは、最小限のコーディングで自動化を容易にし得る。文書理解機能は、1または複数AI/MLモデル132を呼び出すデータ抽出および解釈のためのドラッグアンドドロップAIスキルを介して提供され得る。このような自動化は、表、チェックボックス、署名、および手書きを含む、事実上任意の文書タイプおよびフォーマットを処理し得る。データが検証されるか、または例外が処理されるとき、この情報は、それぞれのAI/MLモデルを再訓練するために使用されてよく、時間とともにそれらの精度が改善される。
【0058】
統合サービスにより、開発者は、例えば、ユーザーインターフェース(UI)の自動化とAPIの自動化をシームレスに組み合わせ得る。APIを必要とする、またはAPIと非APIアプリケーションおよびシステムの両方を横断する自動化が構築され得る。開発者が多種多様なプロセスをより迅速に自動化できるように、あらかじめ建築されたRPAおよびAIテンプレートとソリューションのためのリポジトリ(例えば、UiPath Object Repository(商標))またはマーケットプレイス(例えば、UiPath Marketplace(商標))が提供され得る。したがって、自動化を構築する場合、ハイパーオートメーションシステム100は、ユーザーインターフェース、開発環境、API統合、あらかじめ建築されたおよび/またはカスタムビルドのAI/MLモデル、開発テンプレート、統合開発環境(IDE)、および高度なAI能力を提供し得る。ハイパーオートメーションシステム100は、いくつかの実施形態では、RPAロボットの開発、展開、管理、構成、監視、デバッグ、および保守を可能にし、それはハイパーオートメーションシステム100のための自動化を提供し得る。
【0059】
いくつかの実施形態では、デザイナアプリケーション(複数可)および/または外部ルールエンジンなどのハイパーオートメーションシステム100のコンポーネントは、ハイパーオートメーションシステム100によって提供されるさまざまな機能を制御するためのガバナンスポリシーを管理および施行するためのサポートを提供する。ガバナンスとは、組織がポリシーを導入して、EU一般データ保護規則(General Data Protection Regulation:GDPR)、米国医療保険の携行性と責任に関する法律(the U.S. Health Insurance Portability and Accountability Act:HIPAA)、サードパーティアプリケーションの利用規約などに違反するような、ユーザーが組織に害を及ぼし得る行動を実行できる自動化(RPAロボットなど)を開発できないようにする能力である。そうでなければ、開発者は、彼らの自動化の実行中にプライバシー法、利用規約などに違反する自動化を作成し得るため、いくつかの実施形態は、ロボットおよび/またはロボット設計アプリケーションレベルでアクセス制御およびガバナンス制限を実装する。これは、開発者が、セキュリティリスクをもたらすか、またはポリシー、規制、プライバシー法、および/もしくはプライバシーポリシーに違反する方法で動作し得る未承認ソフトウェアライブラリへの依存を取ることを防止することによって、いくつかの実施形態ではオートメーションプロセス開発パイプラインにセキュリティおよびコンプライアンスの追加レベルを提供し得る。例えば、米国特許出願公開第2022/0011732号を参照。
【0060】
管理機能は、組織全体にわたるオートメーションの管理、展開、および最適化を提供し得る。管理機能は、いくつかの実施形態では、オーケストレーション、テスト管理、AI機能、および/または洞察力を含み得る。ハイパーオートメーションシステム100の管理機能はまた、自動化アプリケーションおよび/またはRPAロボットのためのサードパーティソリューションおよびアプリケーションとの統合ポイントとして作動し得る。ハイパーオートメーションシステム100の管理機能は、とりわけ、限定されないが、RPAロボットのプロビジョニング、展開、構成、キューイング、監視、ロギング、および相互接続を容易にすることを含み得る。
【0061】
UiPath Orchestrator(商標)(いくつかの実施形態ではUiPath Automation Cloud(商標)の一部として提供されてもよく、またはオンプレミス、VM、プライベートもしくはパブリッククラウドで、Linux(商標) VMで、またはUiPath Automation Suite(商標)を介してクラウドネイティブシングルコンテナスイートとして提供されてもよい)などのコンダクタアプリケーションは、RPAロボットデプロイメントのセキュリティを展開、監視、最適化、拡大縮小、および確保するオーケストレーション能力を提供する。テストスイート(例えば、UiPath Test Suite(商標))は、展開された自動化の品質を監視するためのテスト管理を提供し得る。テストスイートは、テストの計画および遂行、要件の充足、および欠陥のトレーサビリティを促進し得る。テストスイートは、包括的なテストレポートを含み得る。
【0062】
分析ソフトウェア(例えば、UiPath Insights(商標))は、展開された自動化の性能を追跡、測定、および管理し得る。分析ソフトウェアは、自動化動作を組織の特定の重要業績評価指標(KPI)および戦略的成果と整合させ得る。分析ソフトウェアは、人間のユーザーがより理解しやすいように、ダッシュボード形式で結果を提示し得る。
【0063】
データサービス(例えば、UiPath Data Service(商標))は、例えば、データベース140に格納され、ドラッグアンドドロップのストレージインターフェースを用いて、データを単一の、拡張可能な、安全な場所に持ち込むことができる。いくつかの実施形態は、データのシームレスなアクセス、エンタープライズグレードのセキュリティ、およびスケーラビリティを確保しながら、ローコードまたはノーコードのデータモデリングおよびストレージを自動化に提供してもよい。AI機能は、AIセンター(例えば、UiPath AI Center(商標))によって提供されてもよく、これはAI/MLモデルの自動化への組み込みを容易にする。あらかじめ建築されたAI/MLモデル、モデルテンプレート、およびさまざまな展開オプションにより、データ科学者でない人でもこのような機能にアクセスできるようにし得る。展開された自動化(例えば、RPAロボット)は、AI/MLモデル132などのAIセンターからAI/MLモデルを呼び出し得る。AI/MLモデルの性能は、監視され、データレビューセンター160によって提供されるような、人間が検証したデータを使用してAI/MLモデルが訓練され、改善され得る。人間のレビューアは、コンピューティングシステム154上のレビューアプリケーション152を介して、ラベル付けされたデータをコアハイパーオートメーションシステム120に提供してもよい。例えば、人間のレビューアは、AI/MLモデル132による予測が正確であることを検証してもよいし、そうでなければ修正を提供してもよい。この動的入力は、その後、AI/MLモデル132を再訓練するためのトレーニングデータとして保存されてもよく、例えば、データベース140のようなデータベースに格納されてもよい。AIセンターは、次に、訓練データを使用してAI/MLモデルの新バージョンを訓練するための訓練ジョブをスケジュールし、遂行し得る。肯定的な例と否定的な例の両方が、AI/MLモデル132の再訓練のために格納され、使用され得る。
【0064】
エンゲージメント機能は、所望のプロセスに関するシームレスなコラボレーションのために、人間および自動化を1つのチームとして関与させる。ローコードアプリケーションは、ブラウザタブとレガシーソフトウェアを接続するために、いくつかの実施形態ではAPIを欠いているものであっても、(例えば、UiPath Apps(商標)を介して)構築され得る。アプリケーションは、例えば、ドラッグアンドドロップ制御の豊富なライブラリを通じて、ウェブブラウザを使用して迅速に作成され得る。アプリケーションは、1つのオートメーションまたは複数のオートメーションに接続され得る。
【0065】
アクションセンター(例えば、UiPath Action Center(商標))は、オートメーションから人間へ、またはその逆へ、プロセスを引き渡すための簡単で効率的なメカニズムを提供する。人間は、承認またはエスカレーションを提供し、例外処理などを行い得る。その後、オートメーションは、所定のワークフローの自動機能を実行し得る。
【0066】
ローカルアシスタントは、ユーザーがオートメーション(例えば、UiPath Assistant(商標))を起動するための起動パッドとして提供され得る。この機能は、例えばオペレーティングシステムによって提供されるトレイで提供されてもよく、ユーザーが彼らのコンピューティングシステム上でRPAロボットおよびRPAロボット搭載アプリケーションとインタラクションすることを可能にし得る。インターフェースは、所定のユーザーに対して承認されたオートメーションをリストにし、ユーザーがそれらを実行することを可能にし得る。これらは、オートメーションマーケットプレイス、オートメーションハブの内部オートメーションストアなどからのすぐに使えるオートメーションを含んでもよい。オートメーションが実行しているとき、オートメーションがそのアクションを実行する間、ユーザーがコンピューティングシステムを使用できるように、それらは、コンピューティングシステム上の他のプロセスと並行してローカルインスタンスとして実行し得る。特定の実施形態では、アシスタントは、ユーザーがアシスタントの起動パッドからそれらのもうすぐ自動化されるプロセスを文書化できるように、タスクキャプチャ機能と統合される。
【0067】
チャットボット(例えば、UiPath Chatbots(商標))、ソーシャルメッセージングアプリケーション、および/または音声コマンドは、ユーザーがオートメーションを実行することを可能にし得る。これにより、顧客とのやり取りまたは他のアクティビティを行うために必要な情報、ツール、およびリソースへのアクセスを簡素化し得る。人と人との会話は、他のプロセスと同様に容易に自動化され得る。このようにして起動されたトリガRPAロボットは、注文状況の確認、CRMへのデータ投稿などの動作を、平易な言語コマンドを用いて実行できる可能性がある。
【0068】
任意の規模での自動化プログラムのエンドツーエンドの測定およびガバメントは、いくつかの実施形態ではハイパーオートメーションシステム100によって提供され得る。上記により、自動化の性能を理解するために、(例えば、UiPath Insights(商標)を介した)分析が採用されてもよい。利用可能なビジネスメトリクスおよび運用上の洞察のいずれかの組み合わせを使用するデータモデリングおよび分析は、さまざまな自動化プロセスに使用され得る。カスタム設計およびあらかじめ構築されたダッシュボードにより、所望の測定基準にわたりデータが視覚化され、新しい分析的洞察が発見され、性能指標が追跡され、オートメーションについてROIが発見され、ユーザーのコンピューティングシステム上で遠隔測定モニタリングが実行され、エラーと異常が検出され、およびオートメーションがデバッグされ得る。自動化のライフサイクルを通じてオートメーションを管理するために、自動化管理コンソール(例えば、UiPath Automation Ops(商標))が提供され得る。組織は、オートメーションの構築方法、ユーザーがそれらとともにできること、およびユーザーがどのオートメーションにアクセスできるかを統治し得る。
【0069】
ハイパーオートメーションシステム100は、いくつかの実施形態では、反復的なプラットフォームを提供する。プロセスが発見され得、オートメーションが構築され得、テストされ得、そして展開され得、性能が測定され得、オートメーションの使用がユーザーに容易に提供され得、フィードバックが得られ得、AI/MLモデルが訓練され、再訓練され得、そしてプロセス自体が繰り返され得る。これにより、より堅牢で効果的な一連の自動化を促進する。
【0070】
図2は、本発明の実施形態による、RPAシステム200を示すアーキテクチャ図である。いくつかの実施形態では、RPAシステム200は、
図1のハイパーオートメーションシステム100の一部である。RPAシステム200は、開発者がワークフローを設計して実装することを可能にするデザイナ210を含む。デザイナ210は、アプリケーション統合のためのソリューションを提供するとともに、サードパーティアプリケーション、管理情報技術(IT)タスク、およびビジネスITプロセスを自動化する。デザイナ210は、ビジネスプロセスのグラフィック表現である自動化プロジェクトの開発を容易にし得る。簡単に言えば、デザイナ210は、ワークフローおよびロボットの開発および展開を容易にする。いくつかの実施形態では、デザイナ210は、ユーザーのデスクトップ上で実行するアプリケーション、VMでリモートで実行するアプリケーション、ウェブアプリケーションなどであってもよい。
【0071】
自動化プロジェクトは、上記のように本明細書で「アクティビティ」と定義されるワークフローで開発されたカスタムセットのステップ間の遂行順序および関係の制御を開発者に与えることにより、ルールベースのプロセスの自動化を可能にする。デザイナ210の実施形態の商業的な一例は、UiPath Studio(商標)である。各アクティビティは、ボタンをクリックする、ファイルを読む、ログパネルに書き込むなどのアクションを含み得る。いくつかの実施形態では、ワークフローは入れ子になっているか、または埋め込まれ得る。
【0072】
ワークフローのいくつかのタイプには、シーケンス、フローチャート、有限状態機械(FSM)、および/またはグローバル例外ハンドラなどを含み得るが、これらに限定されない。シーケンスは、ワークフローを乱雑にすることなく、あるアクティビティから別のアクティビティへのフローを可能にする、線形プロセスに特に適し得る。フローチャートは、特により複雑なビジネスロジックに適し得、複数の分岐ロジックオペレータを介して、より多様な方法で意思決定の統合およびアクティビティの接続を可能にする。FSMは、大規模なワークフローに特に適し得る。FSMは、条件(すなわち、遷移)またはアクティビティによりトリガされる有限の数の状態をそれらの遂行中に使用し得る。グローバル例外ハンドラは、遂行エラーに遭遇したときのワークフローの挙動を決定したり、プロセスをデバッグしたりするのに特に適し得る。
【0073】
ワークフローがデザイナ210内で開発されると、ビジネスプロセスの遂行は、コンダクタ220によって調整され、デザイナ210内で開発されたワークフローを遂行する1または複数のロボット230を調整する。コンダクタ220の実施形態の商業的な一例は、UiPath Orchestrator(商標)である。コンダクタ220は、環境におけるリソースの生成、監視、および展開の管理を容易にする。コンダクタ220は、サードパーティのソリューションおよびアプリケーションとの統合ポイントとして動作し得る。上記により、いくつかの実施形態では、コンダクタ220は、
図1のコアハイパーオートメーションシステム120の一部であり得る。
【0074】
コンダクタ220は、全てのロボット230を管理し得、ロボット230を集中ポイントから接続して遂行する。管理され得るロボット230のタイプには、アテンディッドロボット232、アンアテンディッドロボット234、開発ロボット(アンアテンディッドロボット234と同様であるが、開発およびテストの目的で使用される)、および非生産ロボット(アテンディッドロボット232と同様であるが、開発およびテストの目的で使用される)が含まれるが、これらに限定されない。アテンディッドロボット232は、ユーザーイベントによってトリガされ、同じコンピューティングシステム上で人と並んで動作する。アテンディッドロボット232は、集中プロセスデプロイメントおよびロギング媒体のためのコンダクタ220とともに使用され得る。アテンディッドロボット232は、人のユーザーが様々なタスクを達成するのを支援してもよく、ユーザーイベントによってトリガされてもよい。いくつかの実施形態では、プロセスは、このタイプのロボット上でコンダクタ220から開始することができず、および/またはそれらはロックされた画面の下で実行することができない。特定の実施形態では、アテンディッドロボット232は、ロボットトレイからまたはコマンドプロンプトからのみ起動され得る。アテンディッドロボット232は、いくつかの実施形態では、人の監督下で動作することが好ましい。
【0075】
アンアテンディッドロボット234は、仮想環境で無人で動作し、多くのプロセスを自動化し得る。アンアテンディッドロボット234は、リモート遂行、監視、スケジューリング、および作業キューのサポートの提供を担当し得る。全てのロボットタイプのためのデバッグは、いくつかの実施形態では、デザイナ210で実行され得る。アテンディッドロボットおよびアンアテンディッドロボットの両方は、メインフレーム、ウェブアプリケーション、VM、エンタープライズアプリケーション(例えば、SAP(登録商標)、SalesForce(登録商標)、Oracle(登録商標)などにより生成されたもの)、およびコンピューティングシステムアプリケーション(例えば、デスクトップおよびラップトップアプリケーション、モバイルデバイスアプリケーション、ウェアラブルコンピュータアプリケーションなど)を含むが、これらに限定されない様々なシステムおよびアプリケーションを自動化し得る。
【0076】
コンダクタ220は、プロビジョニング、展開、構成、キューイング、監視、ロギング、および/または相互接続性の提供を含むがこれらに限定されない様々な能力を有し得る。プロビジョニングは、ロボット230とコンダクタ220(例えば、ウェブアプリケーション)との間の接続を作成し、維持することを含み得る。展開は、遂行のために割り当てられたロボット230へのパッケージバージョンの正しい配信を保証することを含み得る。構成は、ロボット環境およびプロセス構成の維持および配信を含み得る。キューイングは、キューおよびキュー項目の管理を提供することを含み得る。監視は、ロボットの特定データを追跡し、ユーザーの権限を維持することを含み得る。ロギングは、データベース(例えば、構造化照会言語(SQL)データベースまたは「not only」SQL(NoSQL)データベース)および/または別のストレージメカニズム(例えば、大規模なデータセットを格納し、迅速にクエリを実行する能力を提供するElasticSearch(登録商標))へのログの保存およびインデックス作成を含み得る。コンダクタ220は、サードパーティのソリューションおよび/またはアプリケーションのための通信の集中点として操作することにより、相互接続性を提供し得る。
【0077】
ロボット230は、デザイナ210で構築されたワークフローを実装する遂行エージェントである。ロボット(複数可)230のいくつかの実施形態の1つの商業的な例は、UiPath Robots(商標)である。いくつかの実施形態では、ロボット230は、デフォルトで、Microsoft Windows(登録商標)Service Control Manager(SCM)管理サービスをインストールする。その結果、このようなロボット230は、ローカルシステムアカウントの下でインタラクティブなWindows(登録商標)セッションを開くことができ、Windows(登録商標)サービスの権利を有し得る。
【0078】
いくつかの実施形態では、ロボット230は、ユーザーモードで設置され得る。このようなロボット230については、所定のロボット230が設置されているユーザーと同じ権利を有することを意味する。この特色はまた、各マシンを最大限に全活用することを保証する高密度(HD)ロボットにも利用可能であり得る。いくつかの実施形態では、いずれかのタイプのロボット230は、HD環境で構成され得る。
【0079】
いくつかの実施形態におけるロボット230は、複数のコンポーネントに分割され、それぞれが特定の自動化タスクに特化されている。いくつかの実施形態におけるロボットコンポーネントは、SCM管理ロボットサービス、ユーザーモードロボットサービス、エグゼキュータ、エージェント、およびコマンドラインを含むが、これらに限定されない。SCM管理ロボットサービスは、Windows(登録商標)セッションを管理および監視し、コンダクタ220と遂行ホスト(すなわち、ロボット230が遂行されるコンピューティングシステム)との間のプロキシとして動作する。これらのサービスは、ロボット230の資格情報を任されて管理する。コンソールアプリケーションは、ローカルシステム下のSCMにより起動される。
【0080】
いくつかの実施形態におけるユーザーモードロボットサービスは、Windows(登録商標)セッションを管理および監視し、コンダクタ220と遂行ホストとの間のプロキシとして動作する。ユーザーモードロボットサービスは、ロボット230の資格情報を任されて管理し得る。SCM管理ロボットサービスがインストールされていない場合、Windows(登録商標)アプリケーションが自動的に起動され得る。
【0081】
エグゼキュータは、Windows(登録商標)セッションの下で与えられたジョブを遂行し得る(つまり、ワークフローを遂行し得る)。エグゼキュータは、モニタ毎のドットパーインチ(DPI)設定を認識し得る。エージェントは、システムトレイウィンドウに利用可能なジョブを表示するWindows(登録商標) Presentation Foundation(WPF)アプリケーションであり得る。エージェントはサービスのクライアントであり得る。エージェントは、ジョブの開始または停止、設定の変更を依頼し得る。コマンドラインはサービスのクライアントである。コマンドラインは、ジョブの開始を要求し、その出力を待つことができるコンソールアプリケーションである。
【0082】
上で説明したように、ロボット230のコンポーネントが分割されていることは、開発者、サポートユーザー、およびコンピューティングシステムが、各コンポーネントが遂行していることをより容易に実行し、特定し、および追跡するのに役立つ。この方法では、エグゼキュータとサービスに異なるファイアウォールルールを設定するなど、コンポーネントごとに特別な挙動を構成し得る。エグゼキュータは常に、いくつかの実施形態では、モニタごとのDPI設定を認識し得る。その結果、ワークフローは、ワークフローが作成されたコンピューティングシステムの構成に関係なく、いずれかのDPIで遂行し得る。また、いくつかの実施形態では、デザイナ210からのプロジェクトは、ブラウザのズームレベルに依存しないようにし得る。DPIを認識していないまたは意図的に認識していないとマークされているアプリケーションの場合、いくつかの実施形態ではDPIを無効にし得る。
【0083】
本実施形態におけるRPAシステム200は、ハイパーオートメーションシステムの一部である。開発者は、デザイナ210を使用して、(例えば、そのAIセンターの一部として)コアハイパーオートメーションシステム240に展開されたAI/MLモデルを利用するRPAロボットを構築かつテストし得る。そのようなRPAロボットは、AI/MLモデル(複数可)の遂行のための入力を送信し、コアハイパーオートメーションシステム240を介してそこからの出力を受信し得る。
【0084】
1または複数のロボット230は、上述したように、リスナーであってもよい。これらのリスナーは、ユーザーが彼らのコンピューティングシステムを使用するときに彼らがしていることに関する情報をコアハイパーオートメーションシステム240に提供し得る。この情報は、その後、プロセスマイニング、タスクマイニング、タスクキャプチャなどのためにコアハイパーオートメーションシステムによって使用され得る。
【0085】
アシスタント/チャットボット250は、ユーザーがRPAローカルロボットを起動することを可能にするために、ユーザーコンピューティングシステム上に提供され得る。アシスタントは、例えば、システムトレイに配置され得る。チャットボットは、ユーザーがチャットボットのテキストを見ることができるように、ユーザーインターフェースを有し得る。あるいは、チャットボットは、ユーザーインターフェースを持たず、バックグラウンドで実行し、ユーザーの発話に対してコンピューティングシステムのマイクを使用して聞くことができる。
【0086】
いくつかの実施形態では、データラベリングは、ロボットが実行しているコンピューティングシステムのユーザーによって、またはロボットが情報を提供する別のコンピューティングシステム上で実行され得る。例えば、ロボットがVMユーザーのために画像にCVを行うAI/MLモデルを呼び出すが、AI/MLモデルが画面上のボタンを正しく特定しない場合、ユーザーは、誤特定または非特定コンポーネントの周りに矩形を描き、正しい特定を有するテキストを潜在的に提供し得る。この情報は、コアハイパーオートメーションシステム240に提供され得、その後、AI/MLモデルの新バージョンの訓練のために後で使用され得る。
【0087】
図3は、本発明の実施形態による、展開したRPAシステム300を示すアーキテクチャ図である。いくつかの実施形態では、RPAシステム300は、
図2のRPAシステム200および/または
図1のハイパーオートメーションシステム100の一部であり得る。展開されたRPAシステム300は、異なるコンピューティングプロセスの自動化のためのエンタープライズレベル、ユーザーレベル、またはデバイスレベルの自動化ソリューションなどを提供する、クラウドベースのシステム、オンプレミスシステム、デスクトップベースのシステムであり得る。
【0088】
クライアント側、サーバー側、またはその両方が、本発明の範囲から逸脱することなく、いずれかの所望の数のコンピューティングシステムを含むことができることに留意すべきである。クライアント側では、ロボットアプリケーション310は、エグゼキュータ312、エージェント314、およびデザイナ316を含む。しかし、いくつかの実施形態では、デザイナ316は、エグゼキュータ312およびエージェント314と同じコンピューティングシステム上で実行していない場合がある。エグゼキュータ312はプロセスを実行している。
図3に示すように、複数のビジネスプロジェクトが同時に実行され得る。エージェント314(例えば、Windows(登録商標)サービス)は、本実施形態では、全てのエグゼキュータ312のための単一の接続ポイントである。本実施形態における全てのメッセージはコンダクタ340にログインされ、それはデータベースサーバー350、AI/MLサーバー360、インデクササーバー370、またはそれらの任意の組み合わせを介してそれらをさらに処理する。
図2に関して上述したように、エグゼキュータ312は、ロボットコンポーネントであり得る。
【0089】
いくつかの実施形態では、ロボットは、マシン名とユーザー名との間の関連付けを表す。ロボットは、複数のエグゼキュータを同時に管理し得る。同時に実行される複数のインタラクティブセッションをサポートするコンピューティングシステム(Windows(登録商標)Server 2012など)では、複数のロボットが同時に実行され得、それぞれが一意のユーザー名を使用して別々のWindows(登録商標)セッションで実行され得る。これは、上記のHDロボットと呼ばれる。
【0090】
エージェント314はまた、ロボットの状態を送信し(例えば、ロボットがまだ機能していることを示す「ハートビート」メッセージを定期的に送信する)、遂行されるパッケージの要求されるバージョンをダウンロードすることにも責任を負う。エージェント314とコンダクタ340との間の通信は、いくつかの実施形態では、常にエージェント314によって開始される。通知シナリオでは、エージェント314は、後にコンダクタ330によってロボットにコマンド(例えば、開始、停止など)を送信するために使用されるWebSocketチャネルを開いてもよい。
【0091】
リスナー330は、リスナー330が常駐するアテンディッドコンピューティングシステムおよび/またはアンアテンディッドコンピューティングシステムの動作とのユーザーインタラクションに係るデータを監視し記録する。リスナー330は、本発明の範囲から逸脱することなく、RPAロボット、オペレーティングシステムの一部、それぞれのコンピューティングシステム用のダウンロード可能なアプリケーション、または他の任意のソフトウェアおよび/もしくはハードウェアであり得る。実際、いくつかの実施形態では、リスナーのロジックは、物理的なハードウェアを介して部分的または完全に実装される。
【0092】
サーバー側には、プレゼンテーション層(ウェブアプリケーション342、オープンデータプロトコル(OData)代表状態転送(REST)アプリケーションプログラミングインターフェース(API)エンドポイント344、通知および監視346)、サービス層(API実装/ビジネスロジック348)、永続層(データベースサーバー350、AI/MLサーバー360、インデクササーバー370)が含まれる。コンダクタ340は、ウェブアプリケーション342、OData REST APIエンドポイント344、通知および監視346、ならびにAPI実装/ビジネスロジック348を含む。いくつかの実施形態では、ユーザーがコンダクタ340のインターフェース(例えば、ブラウザ320を介して)で実行するほとんどのアクションは、様々なAPIを呼び出すことによって実行される。このような動作は、本発明の範囲を逸脱することなく、ロボット上でのジョブの起動、キュー内のデータの追加/削除、無人で実行するジョブのスケジューリングなどを含み得るが、これらに限定されない。ウェブアプリケーション342は、サーバープラットフォームのビジュアル層である。この実施形態では、ウェブアプリケーション342は、ハイパーテキストマークアップ言語(HTML)およびジャバスクリプト(JS)を使用する。しかし、本発明の範囲を逸脱することなく、いずれかの所望のマークアップ言語、スクリプト言語、または他のいずれかのフォーマットを使用し得る。ユーザーは、コンダクタ340を制御するための様々な動作を実行するために、本実施形態ではブラウザ320を介してウェブアプリケーション342からのウェブページとインタラクションする。例えば、ユーザーは、ロボットグループを作成し、ロボットへのパッケージの割り当てを行い、ロボット毎および/またはプロセス毎のログを解析し、ロボットを起動および停止などし得る。
【0093】
ウェブアプリケーション342に加えて、コンダクタ340は、OData REST APIエンドポイント344を公開するサービス層も含む。しかし、本発明の範囲を逸脱することなく、他のエンドポイントが含まれていてもよい。REST APIは、ウェブアプリケーション342とエージェント314の両方により消費される。エージェント314は、本実施形態では、クライアントコンピュータ上の1または複数のロボットのスーパーバイザである。
【0094】
本実施形態のREST APIは、構成、ロギング、監視、およびキューイング機能をカバーする。構成エンドポイントは、いくつかの実施形態では、アプリケーションのユーザー、権限、ロボット、アセット、リリース、および環境を定義し、構成するために使用されてもよい。ロギングRESTエンドポイントは、例えば、エラー、ロボットによって送信された明示的なメッセージ、およびその他の環境固有の情報など、様々な情報をログに記録するために使用され得る。デプロイメントRESTエンドポイントは、コンダクタ340においてジョブ開始コマンドが使用された場合に遂行されるべきパッケージのバージョンを問い合わせるためにロボットにより使用されてもよい。キューイングRESTエンドポイントは、キューへのデータの追加、キューからのトランザクションの取得、トランザクションのステータスの設定など、キューおよびキューアイテムの管理を担ってもよい。
【0095】
RESTエンドポイントの監視は、ウェブアプリケーション342およびエージェント314を監視してもよい。通知および監視API346は、エージェント314の登録、エージェント314への構成設定の配信、ならびにサーバーおよびエージェント314からの通知の送受信に使用されるRESTエンドポイントであってもよい。通知および監視API346は、いくつかの実施形態では、WebSocket通信を使用してもよい。
【0096】
サービス層のAPIは、いくつかの実施形態では、適切なAPIアクセスパスの構成を通じて、例えば、コンダクタ340および全体的なハイパーオートメーションシステムがオンプレミス展開タイプまたはクラウドベース展開タイプを有するかどうかに基づいて、アクセスされ得る。コンダクタ340のためのAPIは、コンダクタ340に登録されたさまざまなエンティティに関する統計を照会するためのカスタムメソッドを提供し得る。各論理リソースは、いくつかの実施形態では、ODataエンティティであってもよい。そのようなエンティティにおいて、ロボット、プロセス、キューなどのコンポーネントは、プロパティ、関係、および動作を有してよい。コンダクタ340のAPIは、いくつかの実施形態では、以下の2つの方法でウェブアプリケーション342および/またはエージェント314によって消費され得る:コンダクタ340からAPIアクセス情報を得ることによって、またはOAuthフローを使用するために外部アプリケーションを登録することによって。
【0097】
永続層は、本実施形態では、データベースサーバー350(例えば、SQLサーバー)、AI/MLサーバー360(例えば、AIセンター機能などのAI/MLモデル提供サービスを提供するサーバー)、およびインデクササーバー370の3つのサーバーを含む。本実施形態におけるデータベースサーバー350は、ロボット、ロボットグループ、関連するプロセス、ユーザー、役割、スケジュールなどの構成を格納する。この情報は、いくつかの実施形態では、ウェブアプリケーション342を介して管理される。データベースサーバー350は、キューおよびキューアイテムを管理してもよい。いくつかの実施形態では、データベースサーバー350は、ロボットにより記録されたメッセージを(インデクササーバー370に加えて、またはそれに代えて)格納してもよい。データベースサーバー350は、例えば、クライアント側にインストールされたリスナー330から受信した、プロセスマイニング、タスクマイニング、および/またはタスクキャプチャ関連データも格納し得る。リスナー330およびデータベース350の間に矢印は示されていないが、リスナー330は、いくつかの実施形態では、データベース350と通信することができ、逆もまた同様であることが理解されるべきである。このデータは、PDD、画像、XAMLファイルなどの形態で格納され得る。リスナー330は、リスナー330が常駐するそれぞれのコンピューティングシステム上のユーザーアクション、プロセス、タスク、およびパフォーマンスメトリクスを傍受するように構成され得る。例えば、リスナー330は、そのそれぞれのコンピューティングシステム上のユーザーアクション(例えば、クリック、タイプされた文字、ロケーション、アプリケーション、アクティブ要素、時間など)を記録し得、次にこれらをデータベースサーバー350に提供し格納されるのに適した形式に変換し得る。
【0098】
AI/MLサーバー360は、AI/MLモデルの自動化への組み込みを容易にする。あらかじめ建築されたAI/MLモデル、モデルテンプレート、およびさまざまな展開オプションにより、データ科学者でない人でもこのような機能にアクセスできるようにし得る。展開されたオートメーション(例えば、RPAロボット)は、AI/MLサーバー360からAI/MLモデルを呼び出し得る。AI/MLモデルの性能は、監視され、そして人間が検証したデータを使用して訓練され、改善され得る。AI/MLサーバー360は、AI/MLモデルの新しいバージョンを訓練するために、訓練ジョブをスケジュールし、遂行し得る。
【0099】
AI/MLサーバー360は、開発時にユーザーのためのさまざまなMLスキルを構成するためのAI/MLモデルおよびMLパッケージに係るデータを格納し得る。本明細書で使用されるMLスキルは、例えば、オートメーションによって使用され得る、プロセスのためのあらかじめ構築され訓練されたMLモデルである。AI/MLサーバー360はまた、限定されないが、意図分析、自然言語処理(NLP)、音声分析、異なるタイプのAI/MLモデルなどを含む、さまざまなAI/ML能力のための文書理解技術およびフレームワーク、アルゴリズムおよびソフトウェアパッケージに係るデータを格納し得る。
【0100】
いくつかの実施形態では任意であるが、インデクササーバー370は、ロボットにより記録された情報を保存し、インデックスを作成する。特定の実施形態では、インデクササーバー370は、構成設定を介して無効化されてもよい。いくつかの実施形態では、インデクササーバー370は、オープンソースプロジェクトの全文検索エンジンであるElasticSearch(登録商標)を使用する。ロボットにより記録されたメッセージ(例えば、ログメッセージまたはライン書き込みのようなアクティビティを使用して)は、ロギングRESTエンドポイント(複数可)を介してインデクササーバー370に送信されてもよく、そこで将来の利用のためにそれらはインデックス化される。
【0101】
図4は、本発明の実施形態による、デザイナ410、アクティビティ420、430、440、450、ドライバ460、API470、およびAI/MLモデル480間の関係400を説明するアーキテクチャ図である。以上のように、開発者は、デザイナ410を用いて、ロボットによって遂行されるワークフローを開発する。様々なタイプのアクティビティは、いくつかの実施形態では、開発者に表示され得る。デザイナ410は、ユーザーのコンピューティングシステムに対してローカルであっても、またはそれに対してリモートであってもよい(例えば、VMまたはリモートウェブサーバーとインタラクションするローカルウェブブラウザーを介してアクセスされる)。ワークフローは、ユーザー定義アクティビティ420、API駆動アクティビティ430、AI/MLアクティビティ440、および/または、UIオートメーションアクティビティ450を含み得る。ユーザー定義アクティビティ420およびAPI駆動アクティビティ440は、それらのAPIを介してアプリケーションとインタラクションする。ユーザー定義アクティビティ420および/またはAI/MLアクティビティ440は、いくつかの実施形態では、ロボットが動作しているコンピューティングシステムに対してローカルに、および/またはそれに対してリモートに位置され得る、1または複数のAI/MLモデル480を呼び出し得る。
【0102】
いくつかの実施形態は、画像中の非テキストの視覚的コンポーネントを特定することができる。CVは、AI/MLモデル(複数可)480によって少なくとも部分的に実行され得る。そのようなコンポーネントに係るいくつかのCVアクティビティは、限定されないが、OCRを用いたセグメント化されたラベルデータからのテキストの抽出、ファジーテキストマッチング、MLを用いたセグメント化されたラベルデータのクロッピング、ラベルデータにおける抽出されたテキストとグランドトゥルースデータとの比較等を含み得る。いくつかの実施形態では、ユーザー定義のアクティビティ420に実装され得るアクティビティの数は、数百または数千であってもよい。しかし、本発明の範囲を逸脱することなく、任意の数および/またはアクティビティのタイプが使用され得る。
【0103】
UIオートメーションアクティビティ450は、低レベルのコードで記述され、画面とのインタラクションを促進する特別な低レベルのアクティビティのサブセットである。UIオートメーションアクティビティ450は、ロボットが所望のソフトウェアとインタラクションすることを可能にするドライバ460を介して、これらのインタラクションを促進する。例えば、ドライバ460は、オペレーティングシステム(OS)ドライバ462、ブラウザドライバ464、VMドライバ466、エンタープライズアプリケーションドライバ468などを含み得る。いくつかの実施形態では、コンピューティングシステムとのインタラクションを実行するために、1または複数のAI/MLモデル480はUIオートメーションアクティビティ450によって使用され得る。特定の実施形態では、AI/MLモデル480は、ドライバ460を増強するか、またはそれらを完全に置き換え得る。実際、特定の実施形態では、ドライバ460は含まれない。
【0104】
ドライバ460は、OSドライバ462を介して、フックを探したり、キーを監視したりするなど、低レベルでOSとインタラクションし得る。ドライバ460は、Chrome(登録商標)、IE(登録商標)、Citrix(登録商標)、SAP(登録商標)などとの統合を促進してもよい。例えば、「クリック」アクティビティは、ドライバ460を介して、これらの異なるアプリケーションにおいて同じ役割を果たす。
【0105】
図5は、本発明の実施形態による、ソースとしてタスクマイニングデータを使用したソースおよびターゲットの間でAI主導のセマンティック自動データ転送を実行するように構成されたコンピューティングシステム500を示すアーキテクチャ図である。いくつかの実施形態では、コンピューティングシステム500は、本明細書に描かれたおよび/または記載された1または複数のコンピューティングシステムであってもよい。特定の実施形態では、コンピューティングシステム500は、
図1および
図2に示されるようなハイパーオートメーションシステムの一部であり得る。コンピューティングシステム500は、情報を通信するためのバス505または他の通信機構と、情報を処理するためのバス505に結合されたプロセッサ(複数可)510とを含む。プロセッサ(複数可)510は、中央処理ユニット(CPU)、特定用途集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、グラフィックスプロセッシングユニット(GPU)、それらの複数のインスタンス、および/またはそれらのいずれかの組み合わせを含む、いずれかのタイプの一般的または特定用途向けプロセッサであり得る。プロセッサ(複数可)510はまた、複数の処理コアを有してもよく、コアの少なくとも一部は、特定の機能を実行するように構成され得る。いくつかの実施形態では、複数並列処理が使用されてもよい。特定の実施形態では、少なくとも1つのプロセッサ(複数可)510は、生物学的ニューロンを模倣する処理要素を含むニューロモーフィック回路であり得る。いくつかの実施形態では、ニューロモーフィック回路は、フォンノイマンコンピューティングアーキテクチャの典型的なコンポーネントを必要としない場合がある。
【0106】
コンピューティングシステム500は、プロセッサ(複数可)510によって遂行される情報および命令を格納するためのメモリ515をさらに含む。メモリ515は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、フラッシュメモリ、キャッシュ、磁気ディスクもしくは光ディスクなどの静的記憶装置、または他のタイプの非一時的なコンピュータ読み取り可能な媒体、あるいはそれらのいずれかの組み合わせで構成され得る。非一時的なコンピュータ読み取り可能な媒体は、プロセッサ(複数可)510によりアクセス可能ないずれかの利用可能な媒体であってもよく、揮発性媒体、不揮発性媒体または両方などを含み得る。また、媒体は、取り外し可能なもの、取り外し不可能なもの、または両方であってもよい。
【0107】
さらに、コンピューティングシステム500は、無線および/または有線接続を介して通信ネットワークへのアクセスを提供するために、トランシーバなどの通信デバイス520を含む。いくつかの実施形態では、通信デバイス520は、周波数分割多元接続(FDMA)、シングルキャリアFDMA(SC-FDMA)、時分割多元接続(TDMA)、符号分割多元接続(CDMA)、直交周波数分割多重方式(OFDM)、直交周波数分割多元接続(OFDMA)、移動体用グローバルシステム(GSM:Global System for Mobile)通信、汎用パケット無線サービス(GPRS:General Packet Radio Service)、ユニバーサル移動体通信システム(UMTS:Universal Mobile Telecommunications System)、cdma2000、広帯域CDMA(W-CDMA:Wideband CDMA)、高速ダウンリンクパケットアクセス(HSDPA:High-Speed Downlink Packet Access)、高速アップリンクパケットアクセス(HSUPA:High-Speed Uplink Packet Access)、高速パケットアクセス(HSPA:High-Speed Packet Access)、ロングタームエボリューション(LTE:Long Term Evolution)、LTEアドバンスト(LTE-A:LTE Advanced)、802.11x、Wi-Fi、Zigbee、超広帯域無線(UWB:Ultra-WideBand)、802.16x、802.15、Home Node-B(HnB)、Bluetooth、無線IDタグ(RFID:Radio Frequency Identification)、IrDA(Infrared Data Association)、近距離無線通信(NFC:Near-Field Communications)、第5世代(5G)、New Radio(NR)、それらのいずれかの組み合わせ、および/または本発明の範囲から逸脱することなく、いずれかの他の現在存在するまたは将来実装される通信標準および/またはプロトコルを使用するように構成され得る。いくつかの実施形態では、通信デバイス520は、本発明の範囲から逸脱することなく、単数のアンテナ、アレイ状のアンテナ、フェーズドアンテナ、スイッチドアンテナ、ビームフォーミングアンテナ、ビームステアリングアンテナ、それらの組み合わせ、および/またはいずれかの他のアンテナ構成である1または複数のアンテナを含み得る。
【0108】
プロセッサ(複数可)510は、バス505を介して、プラズマディスプレイ、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、電界放出ディスプレイ(FED)、有機発光ダイオード(OLED)ディスプレイ、フレキシブルOLEDディスプレイ、フレキシブル基板ディスプレイ、プロジェクションディスプレイ、4Kディスプレイ、高精細ディスプレイ、Retina(登録商標)ディスプレイ、IPS(In-Plane Switching)ディスプレイ、またはユーザーに情報を表示するためのいずれかの他の適切なディスプレイなどのディスプレイ525にさらに結合されている。ディスプレイ525は、抵抗方式、静電容量方式、表面弾性波(SAW)静電容量方式、赤外線方式、光学イメージング方式、分散信号方式、音響パルス認識方式、フラストレート全内部反射方式などを用いて、タッチ(ハプティック)ディスプレイ、3次元(3D)タッチディスプレイ、マルチ入力タッチディスプレイ、マルチタッチディスプレイなどとして構成されていてもよい。本発明の範囲を逸脱することなく、いずれかの好適な表示デバイスおよびハプティックI/Oを使用することができる。
【0109】
コンピュータマウス、タッチパッドなどのようなキーボード530およびカーソル制御デバイス535は、ユーザーがコンピューティングシステム500とインターフェースすることを可能にするために、バス505にさらに結合されている。しかしながら、特定の実施形態では、物理的なキーボードおよびマウスが存在しない場合があり、ユーザーは、ディスプレイ525および/またはタッチパッド(図示せず)のみを介してデバイスとインタラクションすることができる。任意の入力デバイスの種類および組み合わせは、設計の選択の問題として使用され得る。特定の実施形態では、物理的な入力デバイスおよび/またはディスプレイは存在しない。例えば、ユーザーは、コンピューティングシステム500と通信している別のコンピューティングシステムを介してリモートでそれとインタラクションしてもよいし、コンピューティングシステム500は自律的に動作してもよい。
【0110】
メモリ515は、プロセッサ(複数可)510により遂行されたときに機能を提供するソフトウェアモジュールを格納する。モジュールは、コンピューティングシステム500のためのオペレーティングシステム540を含む。モジュールはさらに、本明細書に記載されたプロセスの全部もしくは一部またはその派生物を実行するように構成されたオートメーションモジュール545を含む。コンピューティングシステム500は、付加的な機能を含む1または複数の付加的な機能モジュール550を含み得る。
【0111】
当業者であれば、「コンピューティングシステム」は、本発明の範囲から逸脱することなく、サーバー、組み込みコンピューティングシステム、パーソナルコンピュータ、コンソール、パーソナルデジタルアシスタント(PDA)、携帯電話、タブレットコンピューティングデバイス、量子コンピューティングシステム、または他のいずれかの適切なコンピューティングデバイス、またはデバイスの組み合わせとして具現化され得ることを理解するであろう。上述した機能を「システム」により実行されるものとして提示することは、何ら本発明の範囲を限定することを意図するものではなく、本発明の多くの実施形態の一例を提供することを意図するものである。実際、本明細書に開示された方法、システム、および装置は、クラウドコンピューティングシステムを含むコンピューティング技法と整合性のあるローカライズされた形態および分配された形態で実装されてもよい。コンピューティングシステムは、ローカルエリアネットワーク(LAN)、モバイル通信ネットワーク、衛星通信ネットワーク、インターネット、パブリッククラウドまたはプライベートクラウド、ハイブリッドクラウド、サーバーファーム、それらのいずれかの組み合わせなどの一部であり得、そうでない場合はそれらによりアクセス可能であり得る。本発明の範囲から逸脱することなく、任意の局所または分散アーキテクチャが使用され得る。
【0112】
本明細書で説明するシステム特色のいくつかは、実装の独立性をより強調するために、モジュールとして提示されていることに留意すべきである。例えば、モジュールは、カスタムの非常に大規模な集積(VLSI)回路またはゲートアレイ、ロジックチップ、トランジスタ、または他の個別部品のような既製の半導体を含むハードウェア回路として実装され得る。また、モジュールは、フィールドプログラマブルゲートアレイ、プログラマブルアレイロジック、プログラマブルロジックデバイス、グラフィックス処理ユニットなどのプログラマブルハードウェアデバイスに実装され得る。
【0113】
モジュールはまた、様々なタイプのプロセッサにより遂行されるためのソフトウェアに少なくとも部分的に実装され得る。例えば、遂行可能コードの特定された単位は、例えば、オブジェクト、プロシージャ、または関数として編成されていてもよいコンピュータ命令の1または複数の物理的または論理的なブロックを含み得る。それにもかかわらず、遂行可能な特定されたモジュールは、物理的に一緒に配置されている必要はなく、論理的に結合されたときにモジュールを含み、モジュールのために述べられた目的を達成するために、異なる場所に格納された別々の命令を含んでいてもよい。さらに、モジュールは、例えば、ハードディスクドライブ、フラッシュデバイス、RAM、テープのような非一時的なコンピュータ読み取り可能な媒体、および/または本発明の範囲から逸脱することなくデータを格納するために使用される他のいずれかの非一時的なコンピュータ読み取り可能な媒体に格納されていてもよい。
【0114】
実際、遂行可能コードのモジュールは、単一の命令であってもよいし、多数の命令であってもよいし、さらには、複数の異なるコードセグメント、異なるプログラム間、および複数のメモリデバイス間に分散されていてもよい。同様に、動作データは、モジュール内で特定され、ここで示されてもよく、いずれかの適切な形態で具現化され、いずれかの適切なタイプのデータ構造体内で組織化され得る。動作データは、単一のデータセットとして収集されてもよいし、または異なる記憶デバイスにわたり異なる場所に分散されていてもよく、少なくとも部分的には、単にシステムまたはネットワーク上の電子信号として存在していてもよい。
【0115】
本発明の範囲から逸脱することなく、さまざまなタイプのAI/MLモデルが訓練され、展開され得る。例えば、
図6Aは、本発明の実施形態による、画像内のグラフィカル要素を認識するように訓練されたニューラルネットワーク600の例を示す。ここで、ニューラルネットワーク600は、入力層の入力「ニューロン」1~Iに関する入力として、1920×1080の画面のスクリーンショット画像のピクセルを受信する。この場合、Iは、スクリーンショット画像のピクセルの総数である2,073,600である。
【0116】
ニューラルネットワーク600はまた、多数の隠れ層を含む。DLNNと浅い学習ニューラルネットワーク(SLNN)はどちらも通常複数の層を有するが、SLNNは場合によっては1または2つの層しか持たず、通常はDLNNよりも少ない場合がある。典型的に、ニューラルネットワークのアーキテクチャは、ニューラルネットワーク600の場合のように、入力層、複数の中間層、および出力層を含む。
【0117】
多くの場合、DLNNは多くの層(10、50、200など)を有し、後続の層は通常、前の層からの機能を再利用して、より複雑で一般的な関数を計算する。一方、SLNNは少数のレイヤーしか有さず、生データサンプルからエキスパート機能が事前に作成されるため、比較的迅速に訓練する傾向がある。ただし、特徴抽出は面倒である。一方、DLNNは通常、エキスパート機能を必要としないが、訓練に時間がかかり、より多くの層を有する傾向がある。
【0118】
どちらのアプローチでも、層は訓練セットで同時に訓練され、通常は分離された交差検証セットでオーバーフィッティングをチェックする。両方の技法でも優れた結果が得られ、両方のアプローチにかなりの熱意がある。個々の層の最適なサイズ、形状、および数は、それぞれのニューラルネットワークによって対処される問題に依存する。
【0119】
図6Aに戻ると、入力層として提供されるピクセルは、隠れ層1のJ個のニューロンへの入力として供給される。この例では、すべてのピクセルが各ニューロンに供給されるが、限定されないが、フィードフォワードネットワーク、ラジアルベーシスネットワーク、ディープフィードフォワードネットワーク、ディープコンボリューションインバースグラフィックスネットワーク、コンボリューションニューラルネットワーク、リカレントニューラルネットワーク、人工ニューラルネットワーク、長期/短期記憶ネットワーク、ゲーテッドリカレントユニットネットワーク、生成的敵対ネットワーク、リキッドステートマシン、オートエンコーダ、変分オートエンコーダ、ノイズ除去オートエンコーダ、スパースオートエンコーダ、エクストリームラーニングマシン、エコー状態ネットワーク、マルコフ連鎖、ホップフィールドネットワーク、ボルツマンマシン、制限付きボルツマンマシン、深層残差ネットワーク、コホーネンネットワーク、ディープビリーフネットワーク、ディープコンボリューションネットワーク、サポートベクターマシン、ニューラルチューリングマシン、または本発明の範囲から逸脱しない任意の他の適切なタイプまたは組み合わせのニューラルネットワークを含む、個々にまたは組み合わせて使用され得るさまざまなアーキテクチャが可能である。
【0120】
隠れ層2は隠れ層1から入力を受信し、隠れ層3は隠れ層2から入力を受信し、最後の隠れ層がその出力を出力層の入力として提供するまで、全ての隠れ層について同じように行われる。ニューロンI、J、K、およびLの数は必ずしも等しくなく、したがって、本発明の範囲から逸脱することなく、ニューラルネットワーク600の所定の層に対して任意の所望の数の層を使用することができることに留意されたい。実際、特定の実施形態では、所与の層におけるニューロンのタイプは、すべて同じでなくてもよい。
【0121】
ニューラルネットワーク600は、画像内で発見されたと考えられるグラフィカル要素に信頼スコアを割り当てるように訓練される。許容できないほど低い尤度を有するマッチングを減らすために、いくつかの実施形態では、信頼しきい値以上の信頼スコアを有するそれらの結果のみが提供され得る。例えば、信頼しきい値が80%である場合、この量を超える信頼スコアを有する出力が使用され、残りは無視されてもよい。この場合、出力層は、2つのテキストフィールド、テキストラベル、およびサブミットボタンが見つけられたことを示す。ニューラルネットワーク600は、本発明の範囲から逸脱することなく、これらの要素の位置、寸法、画像、および/または信頼スコアを提供してもよく、これは、この出力を所定の目的のために使用するRPAロボットまたは別のプロセスによってその後使用され得る。
【0122】
ニューラルネットワークは、典型的には信頼スコアを有する確率的構築物であることに留意されたい。これは、AI/MLモデルが、訓練中に類似の入力が正しく特定された頻度に基づいて学習したスコアであり得る。例えば、テキストフィールドは、しばしば長方形の形状と白い背景を有する。ニューラルネットワークは、これらの特徴を有するグラフィカル要素を高い信頼度で特定することを学習し得る。信頼スコアの一般的なタイプは、0と1の間の10進数(信頼度のパーセンテージとして解釈可能)、負の∞と正の∞の間の数、または表現のセット(例えば、「低」、「中」、および「高」)を含む。また、より正確な信頼スコアを得る試みとして、温度スケーリング、バッチ正規化、重み減衰、負対数尤度(NLL)など、さまざまな後処理較正技法が採用され得る。
【0123】
ニューラルネットワークの「ニューロン」は、通常、生体ニューロンの機能に基づく数学的関数である。ニューロンは、重み付けされた入力を受信し、それらが出力を次の層に渡すかどうかを統治する和および活性化関数を有する。この活性化関数は、値がしきい値を下回っている場合は何も起こらない非線形のしきい値付きアクティビティ関数であり得、関数がしきい値を超えると線形に応答する(つまり、正規化線形単位(ReLU)非線形性)。実際のニューロンはほぼ同様のアクティビティ関数を有し得るため、深層学習では合計関数およびReLU関数が使用される。線形変換を介して、情報が差し引かれたり、追加されたりするなどされ得る。本質的に、ニューロンは、それらの基礎となる数学的関数によって統治される次の層に出力を渡すゲーティング関数として機能する。いくつかの実施形態では、少なくともいくつかのニューロンに対して異なる関数が使用され得る。
【0124】
【0125】
【0126】
【0127】
この場合、ニューロン610は単層パーセプトロンである。しかしながら、本発明の範囲から逸脱することなく、任意の適切なニューロンタイプまたはニューロンタイプの組み合わせが使用され得る。アクティベーション関数の重みおよび/または出力値(複数可)の値の範囲は、本発明の範囲から逸脱することなく、いくつかの実施形態では異なり得ることにも留意されたい。
【0128】
例えば、画像内のグラフィカル要素の特定が成功するこの場合について、目標、または「報酬関数」がよく使用される。報酬関数は、状態空間の検索を導き、目標(例えば、グラフィカル要素の成功した特定、RPAワークフローのアクティビティの次のシーケンスの成功した特定、など)の達成を試みるために、短期および長期の両方の報酬を使用して中間遷移およびステップを探索する。
【0129】
訓練中、さまざまなラベル付きデータ(この場合は画像)がニューラルネットワーク600を介して供給される。特定に成功すると、ニューロンへの入力の重みが強化されるが、特定に失敗すると、それらの重みが弱まる。平均二乗誤差(MSE)または勾配降下などのコスト関数を使用して、わずかに間違っている予測を、大きく間違っている予測よりもはるかに少ない罰で済むようにし得る。AI/MLモデルの性能が一定回数の訓練反復後に改善されない場合、データサイエンティストは報酬関数を変更し、特定されていないグラフィカル要素がどこにあるかを示し、誤特定されたグラフィカル要素の修正を提供するなどし得る。
【0130】
バックプロパゲーションは、フィードフォワードニューラルネットワークでシナプスの重みを最適化するための手法である。バックプロパゲーションは、ニューラルネットワークの隠れ層を「ポップアップ」して、各ノードがどれだけの損失を負担しているかを確認し、その後、誤差率の高いノードに低い重みを与え、逆もまた同様、損失を最小化するように重みを更新するために使用され得る。つまり、バックプロパゲーションは、データサイエンティストが実際の出力と所望の出力との差を最小にするように、重みを繰り返し調整することを可能にする。
【0131】
バックプロパゲーションのアルゴリズムは、数学的に最適化理論に基づいている。教師あり学習では、出力が既知の訓練データをニューラルネットワークに通し、既知の目標出力からコスト関数を用いて誤差を計算し、これがバックプロパゲーションの誤差を与える。誤差は出力で計算され、この誤差は、誤差を最小化するネットワークの重みの修正に変換される。
【0132】
【0133】
【0134】
【0135】
【0136】
【0137】
AI/MLモデルは、それが良好な精度のレベル(例えば、検出のためのF2またはF4しきい値を使用して97%以上、約2000エポック)に達するまで、複数のエポックにわたって訓練され得る。この精度レベルは、いくつかの実施形態では、F1スコア、F2スコア、F4スコア、または本発明の範囲から逸脱しない任意の他の適切な技法を使用して決定され得る。訓練データで一旦訓練されると、AI/MLモデルは、AI/MLモデルが以前に遭遇したことのない評価データのセットでテストされ得る。これは、AI/MLモデルが、訓練データ中のグラフィカル要素をよく特定するが、他の画像にうまく一般化しないような「過剰適合」をしないことを保証するのに役立つ。
【0138】
いくつかの実施形態では、AI/MLモデルがどのような精度レベルを達成することが可能であるかは、知られていない場合がある。したがって、評価データを分析する際にAI/MLモデルの精度が下がり始めている場合(すなわち、モデルは訓練データでは良好に実行しているが、評価データでは性能が低下し始めている)、AI/MLモデルは、訓練データ(および/または新しい訓練データ)におけるさらなる訓練のエポックを経ることができる。いくつかの実施形態では、AI/MLモデルは、精度が特定のレベルに達した場合、または訓練されたAI/MLモデルの精度が既存の展開されたAI/MLモデルより優れている場合にのみ展開される。
【0139】
特定の実施形態では、訓練されたAI/MLモデルの収集は、対象グラフィカル要素のタイプごとにAI/MLモデルを採用する、AI/MLモデルを採用してOCRを実行する、さらに別のAI/MLモデルを展開してグラフィカル要素間の近接関係を認識する、さらに別のAI/MLモデルを採用して他のAI/MLモデルからの出力に基づいてRPAワークフローを生成するなど、タスクを実現するために使用され得る。例えば、これにより、AI/MLモデルが集合的にセマンティックオートメーションを可能にし得る。
【0140】
いくつかの実施形態では、最先端の文、テキスト、および画像埋め込み用のPython(商標)フレームワークであるSentenceTransformers(商標)などのトランスフォーマーネットワークを使用することができる。このようなトランスフォーマーネットワークは、高いスコアと低いスコアの両方を持つ単語およびフレーズの関連付けを学習する。これは、AI/MLモデルを訓練して、何が入力に近く、何がそうでないかをそれぞれ決定する。単語/フレーズの対だけを使用するのではなく、トランスフォーマーネットワークは、フィールド長およびフィールドタイプも使用してもよい。
【0141】
図7は、本発明の実施形態による、AI/MLモデル(複数可)を訓練するためのプロセス700を示すフローチャートである。プロセスは、例えば、
図7に示すような(例えば、特定されたグラフィカル要素およびテキストを伴う)ラベル付けされた画面、単語およびフレーズ、所定の単語またはフレーズに対する類似の単語およびフレーズが特定され得るような単語およびフレーズ間の意味的関連性の「シソーラス」などの訓練データを710で提供することから開始する。提供される訓練データの性質は、AI/MLモデルが達成しようとする目的に依存する。AI/MLモデルは、次に、720で複数のエポックにわたって訓練され、結果は、730においてレビューされる。
【0142】
AI/MLモデルが740で所望の信頼しきい値を満たさない場合、750でAI/MLモデルがその目的をよりよく達成するのを助けるために、訓練データが補充され、および/または報酬関数が修正され、プロセスはステップ720に戻る。AI/MLモデルが740で信頼しきい値を満たす場合、AI/MLモデルは、760で評価データに対してテストされ、AI/MLモデルがよく一般化し、AI/MLモデルが訓練データに関して過剰に適合しないことを確認する。評価データは、AI/MLモデルが以前に処理したことのない画面、ソースデータなどを含んでもよい。評価データについて770で信頼しきい値が満たされる場合、AI/MLモデルは780で展開される。そうでない場合、プロセスはステップ750に戻り、AI/MLモデルはさらに訓練される。
【0143】
図8A~Gは、本発明の実施形態による、ユーザーがコンピューティングシステムのユーザーインターフェース800上で2つのフォーム810、820の間でデータ入力(「コピーアンドペースト」)動作を手動で実行し、コピーアンドペーストタスクが認識され、自動的に完了し、そして関連する自動化が自動的に生成される例を示す。
図8Aおよび
図8Bを参照すると、ロボットトレイ830により、ユーザーはRPAロボットによる遂行のための自動化を選択することができる。この実施形態では、RPAロボット840がリスナー機能を実行している。しかしながら、いくつかの実施形態では、この自動化は、ユーザーがロボットトレイ830からそれを手動で選択することなく、自動的に実行されてもよい。特定の実施形態では、リスナー機能は、オペレーティングシステムの一部、それぞれのコンピューティングシステム用のダウンロード可能なアプリケーションなど、RPAロボット以外の他のソフトウェアによって実行される。いくつかの実施形態では、リスナーは、例えば、
図1のリスナー110であってもよい。
【0144】
RPAロボット840は、リスナーとしての機能において、時間順に並んだスクリーンショット、UI800内のグラフィカル要素、ユーザーによって行われたキーの押下、マウスクリックの時間および位置、ユーザーが所与の時間に選択したUI内のアクティブ要素、カーソルの位置、現在実行中のアプリケーション、ウィンドウ、アクティブウィンドウなどを記録することができる。例えば、米国特許第11,080,548号を参照。いくつかの実施形態では、情報は、オペレーティングシステムおよび/または現在実行中のアプリケーション(復数可)からAPIを介して取得され得る。情報は、ユーザーのアクションをその場で処理できるように、いくつかの実施形態では、リアルタイムまたはほぼリアルタイムで取得され得る。しかしながら、特定の実施形態では、情報は、その後の使用のために、
図1のデータベース140のようなデータベースに保存される。
【0145】
UI800は、請求書受領者の作成/編集フォーム(create/edit invoice recipients form)810と請求システムフォーム(billing system form)820を含む。この実施形態では、どちらもそれらの「窓」として示されている。ユーザーは、請求書受領者の作成/編集フォーム810の値と一致する値を請求システムフォーム820に手入力するか、請求書受領者の作成/編集フォーム810から請求システムフォーム820に値をコピーアンドペースト(例えば、CTRL+Cの後にCTRL+Vを使用)するか、またはその両方を行う。RPAロボット840は、これらのアクションが発生する際に、画面画像と基礎となるシステム情報を記録している。
【0146】
時間の経過とともに、ユーザーとコンピューティングシステムとのインタラクションに関する情報が収集される。他のユーザーとそれらのそれぞれのコンピューティングシステムとのインタラクションからの情報も収集され得る。この情報を分析して、コピーアンドペースト動作を検索し得る。例えば、収集したデータに対してクラウドベースの分析を実行し、1または複数の画面またはフォームの値が、1または複数の他の画面またはフォームに出現したインスタンスを検索することができる。関係は1対複数、複数対1、複数対複数のいずれでもよい。このような場合、集合ソースの情報および/または集合ターゲットの情報を取得するために、1または複数のデータ構造を使用することができる。タスクマイニングデータで特定されたコピーアンドペーストタスクは、上記の通り、正確なものとして扱われ得る。この情報は、次いで、マップするマッピングモデルを訓練するために使用される。
【0147】
情報をコピーする際に、ユーザーが常に正しいとは限らない可能性があり(例えば、ユーザーは間違ったフィールドにコピーしたり、間違った値を入力したりする可能性がある)、そのため、いくつかの実施形態では、ユーザーのコピーアンドペースト動作が100%正確であるとはみなさない。これを考慮するために、そのような実施形態は、タスクマイニングデータまたはランタイム展開された動作において、コピーアンドペースト動作が2回目、3回目など観察されるまで待ち、これらの複数の動作のフィールドのコピーアンドペースト値をチェックし、その後、最も一般的なアクションを正しいものとして取ることができる。このようなアプローチの確実性レベルは、観測されたインスタンスの数が多いほど高くなる。コピーアンドペーストの自動化をユーザーに提案するまでの最短時間のしきい値は、いくつかの実施形態で要求され得る。
【0148】
いくつかの実施形態では、精度を高めるためにコピーアンドペーストタスクを特定し、自動化するために、セマンティックマッチングAI/MLモデルの訓練および展開の前に、タスクマイニングを実行することができる。ただし、いくつかの実施形態では、大規模なインターネットコーパスから訓練されたBERTまたはGPT-3など、他のデータで訓練されたセマンティックマッチングAI/MLモデルの初期バージョンが展開される。リスナーオートメーション、別のプロセスとしてRPAロボット840によって遂行される別のオートメーション、別のRPAロボットによって遂行されるオートメーション、またはいくつかの他のプロセスは、画面またはフォームにユーザーによって入力された値が、別の画面またはフォームの別の値と一致することを検出することができる。これは、開いているアプリケーションから可視値を取得するAPIを使用するか、CVを使用することで実現され得る。しかし、前者は後者よりもかなり速い可能性がある。
【0149】
検出された1つのフィールド値の一致は、いくつかの実施形態では、コピーアンドペースト動作が進行中であり得ることを示す証拠として扱われ得る。そうでなければ、2つのフィールド値の一致、3つのフィールド値の一致などが、検出しきい値として要求され得る。セマンティックマッチングAI/MLモデルの初期バージョンは、その後、疑わしいソースから疑わしいターゲットへの値を持つそれぞれのフィールドの対応するラベルを一致させるために使用され得る。これは、いくつかの実施形態において、米国特許第10,936,351号および同第11,200,073号に開示されているような技術を用いて行うことができる。
【0150】
ソースおよびターゲットの一致する値(復数可)の対応するラベルは、セマンティックマッチングNPLモデルに入力され、類似度スコアが生成される。ソースおよびターゲットの一致した値(復数可)の類似度スコア(復数可)が類似度しきい値以上、または一致する値の過半数、75%、90%などである場合、
図8Cのプロンプト850を介するなどして、自動補完を希望するかどうかをユーザーに促すことができる。ユーザーがこの動作を望む場合、ソース(1つの画面/フォームまたは複数の画面/フォームかを問わない)内のフィールド値に関連付けられたラベルは、ターゲット(同じく1つの画面/フォームか複数の画面/フォームかを問わない)内の空のフィールドに関連付けられたラベルと比較され、ターゲット内で一致が見つかるかどうかを決定し得る。例えば、ターゲット内の現在一致しないラベルは、ソースラベルとのペアとしてセマンティックマッチングAI/MLモデルに供給され、最も高いマッチングスコアを持つターゲットラベルが選択され得る。あるいは、ターゲットラベルは、あるしきい値、潜在的にはセマンティックマッチングのしきい値または別のしきい値(例えば、他をチェックせずにラベルを関連付けるには、より高いしきい値が必要であり得る)が満たされるまでチェックされ得る。次いで、ターゲット内の一致するラベルに関連するフィールドには、ソースからの関連値が入力される。これは、(例えば、そのフィールド上でのマウスクリックをシミュレートすることによって)ターゲット内の関連フィールドをアクティブ要素に設定し、(例えば、値の数字、文字、および/または記号のキー押下イベントをシミュレートすることによって)フィールドに値を入力することによって達成され得る。
【0151】
ソースおよびターゲットのすべてのラベルのスコアが、セマンティックマッチングのしきい値を満たさない可能性がある。この例では、ソース内のラベル「Invoice #」はターゲット内のラベル「Inv. Num.」に一致せず、フィールドはハイライト812されている。
図8Dを参照。ユーザーには、プロンプト860のような、ユーザーがターゲット内の一致するフィールドを示すことを要求するプロンプトが提供され得る。その後、ユーザーはターゲット内の適切なフィールドをクリックすれば、値が自動的に入力される。ソースおよびターゲットのマッチングラベルなど、修正に関連する情報は、セマンティックマッチングAI/MLモデルの再訓練のために収集され得る。ソース内に値を持つすべてのラベルに一致が見つかった場合、またはユーザーがターゲット内で一致するフィールド(復数可)を指定すると、コピーアンドペースト動作が完了する。
図8Eを参照。
【0152】
コピーアンドペーストタスクは、ユーザーが定期的に行うことができる。したがって、いくつかの実施形態では、自動化を自動的に生成させるオプションをユーザーに提供することができる。このようなシナリオは
図8Fに示されており、自動化を自動的に生成するかどうかに関するプロンプト870がユーザーに提供される。ユーザーが自動化を作成させることを選択した場合、RPAワークフローおよび関連する実行時オートメーションが生成され得、自動化がユーザーのコンピューティングシステムに展開されるか、または他の方法でユーザーが利用できるようになり得る。次にユーザーがコピーアンドペースト動作を実行したい場合、ユーザーはロボットトレイ830をクリックし、自動化リスト880から関連する自動化882を選択することができる。
図8Gを参照。
【0153】
コピーアンドペーストタスクのRPAワークフローを作成するための情報は、タスクマイニングとセマンティックマッチングAI/MLモデルから得ることができる。ユーザーが入力するフィールドと、セマンティックマッチングAI/MLモデルからの一致を見ることによって、ソースおよびターゲットの一致するフィールドが決定され得、ターゲットの適切なフィールドに必要な情報を入力するアクティビティが自動的に作成され得る。この機能は、例えば、UiPath Studio(商標)のようなRPAデザイナアプリケーションによって提供されるものと似ている場合がある。RPAデザイナアプリケーションを起動し、ワークフローを生成し、そこでユーザーがレビューすることができる。あるいは、ワークフローは自動的に生成され、関連する自動化は、RPAデザイナアプリケーションの基本的な機能を使用して、ユーザーのためのグラフィカルな表示なしで作成され得る。いくつかの実施形態では、ワークフローおよび自動化は、ユーザーのものとは異なるコンピューティングシステムによって生成され得る。特定の実施形態では、ワークフローは、自動化の生成および展開の前に、検証のためにRPA開発者に提供され得る。しかしながら、セマンティックマッチングAI/MLモデルの精度がさらなる訓練時間の経過とともにさらに向上すると、提案されたRPAワークフローは、開発者のレビューなしにRPAロボットが自動的に遂行する自動化として展開できるほど精度が向上し得る。
【0154】
タスクマイニングからのコピーアンドペースト動作に関するデータは、セマンティックマッチングAI/MLモデルの訓練または再訓練するために使用され得る。データは、ソースおよびターゲットからのフィールドに対応するラベルを含み得る。いくつかの実施形態では、UI記述子/セレクタ情報は、正確なフィールド、フィールドのラベル、スクリーンショットなどを取得するのに有用であり得る。仮想環境では、ユーザーのコンピューティングシステムがサーバーから画像のストリームを受信しているため、記述子/セレクタは存在しない場合がある。しかしながら、フィールドおよびラベルは、CVとその記述子を使っても得ることができる。これは、ソースおよび宛先の特定のフィールドの実際のデータを取得し、どのデータがどこに行ったかのマッピングを得ることができるためにも有用であり得る。ある実施形態では、これは理論的にはアクションそれ自体にのみ基づいて行うことができるが、これは別の確実性の層を追加する可能性がある。この情報は訓練データセットの一部となり得る。情報は、その情報を入力したユーザー(複数可)によって検証されたと考えられ得るため、いくつかの実施形態では、人間によるラベル付けは必要ない場合がある。
【0155】
次いで、
図7と類似したプロセスを経て、セマンティックマッチングAI/MLモデルを訓練または再訓練することができる。AI/MLモデルは、1または復数のエポックにわたって訓練/再訓練され、所望の平均信頼度が達成されると、AI/MLモデルが以前に見たことのない評価データセットを使用して、AI/MLモデルがうまく機能するか、または再訓練の場合は、再訓練されたAI/MLモデルがその前のものよりもうまく機能するかを検証することができる。次いで、訓練されたまたは再訓練されたAI/MLモデルは、実行時に使用するためにユーザーのコンピューティングシステムに展開され得る。再訓練プロセスは、一定時間が経過した後、一定量のタスクマイニングデータが収集された後などに定期的に行われ得る。
【0156】
図9は、本発明の実施形態による、自動生成されたRPAワークフロー910を有するRPAデザイナアプリケーション900を示す。この例では、RPAワークフロー910は、上述したタスクマイニングとセマンティックマッチングに基づいて自動的に生成される。RPAワークフロー910には、ソース値をターゲットに入力するアクティビティが入力される。例えば、ワークフローは、「請求システム(Billing System)」ターゲットフォームをクリックする、「Cust. Num.」フィールドをクリックする、「Cust.Num.」フィールドに適切な値を入力するなどのアクティビティを含み得る。
【0157】
スクリーンショット、システム情報、および/またはセマンティックマッチングAI/MLモデル(複数可)からの情報は、いくつかの実施形態では、以前に特定されなかったタスクの新しいアクティビティを自動的に生成するために使用され得る。例えば、このような情報は、ワークフローアクションを遂行するRPAロボットが画面上のUI要素(例えば、テキストフィールド、ボタン、ラベル、メニュー、チェックボックスなど)とインタラクションすることを可能にするアクティビティ用のUI記述子を作成するために使用され得る。
【0158】
いくつかの実施形態は、アクティビティのセレクタを作成するために上記の情報を使用する。セレクタは、いくつかの実施形態においてUI要素を検出するために使用され得るUI記述子のタイプである。セレクタは、いくつかの実施形態では、以下の構造を有する。
<node_1/><node_2/>...<node_N/>
【0159】
最後のノードは対象のGUI要素を表し、それ以前の全てのノードはその要素の親を表す。<node_1>は通常ルートノードと呼ばれアプリケーションのトップウィンドウを表す。
【0160】
各ノードは、選択されたアプリケーションの特定のレベルの正しい特定を支援する1または複数の属性を有してもよい。各ノードは、いくつかの実施形態では、以下の形式を有する。
<ui_system attr_name_1=’attr_value_1’...attr_name_N=’attr_value_N’/>
【0161】
全ての属性は、割り当てられた値を有し得、一定の値を有する属性が選択され得る。これは、アプリケーションが起動するたびに属性の値を変更すると、セレクタが関連する要素を正しく特定できなくなる可能性があるからである。
【0162】
いくつかの実施形態におけるUI記述子は、UI要素セレクタ(複数可)、アンカーセレクタ(複数可)、CV記述子(複数可)、統合されたターゲット記述子(複数可)、画面イメージキャプチャ(コンテキスト)、要素イメージキャプチャ、他のメタデータ(例えば、アプリケーションおよびアプリケーションバージョン)、それらの組み合わせなどを含むカプセル化されたデータ/構造フォーマットである。カプセル化されたデータ/構造フォーマットは、プラットフォームへの将来のアップデートによって拡張可能であってもよく、上記の定義に限定されるものではない。画面上のUI要素を特定するためのUI記述子としては、本発明の範囲を逸脱することなく、任意の好適なものを使用することができる。統合されたターゲット記述子は、複数のタイプのUI記述子を連結する。統合されたターゲット記述子は、有限状態機械(FSM)のように機能し得、第1のコンテキストでは、第1のUI記述子メカニズムが適用され、第2のコンテキストでは、第2のUI記述子が適用される、などである。
【0163】
いくつかの実施形態では、ファジーマッチングが採用されてもよく、ここでは、文字列メトリック(例えば、レーベンシュタイン距離、ハミング距離、ジャロ・ウィンクラー距離など)、それらの組み合わせなどを使用して、1または複数の属性が、一定の範囲内で、一定の精度(例えば、70%一致、80%一致、99%一致など)で一致しなければならない。当業者であれば、類似度測定は、類似度の量だけでなく、2つの属性値の間の不一致の量を定量化することができることを理解するであろう。さらに、様々な実施形態では、類似度しきい値は、不一致の最大量または一致に要求される類似度の最小量を表してもよい。
【0164】
類似度測定値を計算する選択された方法に応じて、類似度しきい値は様々な解釈を有し得る。例えば、類似度しきい値は、2つの文字列の間で異なり得る文字の最大カウント数を示してもよいし、文字の合計カウント数(例えば、結合された文字列の長さ)の割合として計算された不一致の分数の程度を示してもよい。いくつかの実施形態では、類似度しきい値は、0と1の間、0と100の間、7と34の間などの所定の間隔に再スケーリングされてもよい。1つの非限定的な例では、比較的高い類似度しきい値(例えば、1または100%に近い)は、ほぼ完全一致の要件、すなわち、実行時間ターゲットにおけるファジー属性の値が、設計時間ターゲットにおける各属性の値から非常にわずかに逸脱することしか許されないことを示す。一方、類似度しきい値が比較的低い(例えば、0に近い)場合には、それぞれのファジー 属性のほぼ全ての値が一致するとみなされる。
【0165】
特定の実施形態では、マッチング許容差は属性の基準ごとに異なっていてもよい。例えば、1または複数の属性に対して完全一致が要求されてもよく(例えば、特定の正確な名前を見つけることが望まれてもよい)、1または複数の他の属性に対してファジーマッチングが実行されてもよい。各グラフィカル要素検出技術から使用される属性の数および/またはタイプは、いくつかの実施形態では、RPA開発者によってカスタム指定されてもよい。
【0166】
いくつかの実施形態では、属性は、属性-値のペアおよび/または属性-値-許容差のペア(例えば、ファジーマッチング)として格納されてもよい。属性-値のペアは、いくつかの実施形態では、それぞれのノードによって表されるUI要素の名前とタイプを示し得る。しかしながら、当業者は、本発明の範囲から逸脱することなく、属性-値のペアのリスト以外に、UIツリー内の特定のノードの位置を表現する複数の方法があり得ることを理解するであろう。
【0167】
これらの属性-値のペアおよび/または属性-値-許容差のペアは、いくつかの実施形態ではタグに格納されてもよく、各タグは、実装固有の区切り文字(例えば、「<」で始まり「/>」で終わる)によってブックエンドされたシーケンスを有する文字の列を含み得る。属性-値のペアは、いくつかの実施形態では、それぞれのノードによって表されるUI要素の名前とタイプを示し得る。しかしながら、当業者は、本発明の範囲から逸脱することなく、属性-値のペアのリスト以外に、UIツリー内の特定のノードの位置を表現する複数の方法があり得ることを理解するであろう。
【0168】
RPAロボットによる成功的かつ理想的に曖昧さのない特定を可能にするために、いくつかの実施形態では、それぞれのUI要素を特徴づける要素IDを使用して各UI要素を表現する。いくつかの実施形態では、要素IDは、UIツリー内のターゲットノードの位置を示し、ここで、ターゲットノードはそれぞれのUI要素を表す。例えば、要素IDは、ターゲットノード/UI要素を、選択されたノードのサブセットのメンバーとして特定してもよい。選択されたノードのサブセットは、系図、すなわち、各ノードが別のノードの先祖または子孫のいずれかであるUIツリーを介した下降線を形成することができる。
【0169】
いくつかの実施形態では、要素IDは、ノードインジケータの順序付けされたシーケンスを含み、シーケンスはUIツリーを介して系図的な経路を追跡し、経路はそれぞれのターゲットノード/UI要素で終わる。各ノードインジケータは、それぞれのUIのオブジェクト階層のメンバーと、それぞれの階層と一致するシーケンス内のその位置を表してもよい。例えば、シーケンスの各メンバーは、前のメンバーの子孫(例えば、子ノード)を表し、次のメンバーを子孫(例えば、子ノード)としてもよい。1つのハイパーテキストマークアップ言語(HTML)の例では、個々のフォームフィールドを表す要素IDは、それぞれのフォームフィールドがHTMLフォームの子であることを示してもよく、その子は、順番にウェブページの特定のセクションなどの子である。系図は、いくつかの実施形態では完全である必要はない。
【0170】
いくつかの実施形態では、1または複数のマルチアンカーマッチング属性を使用してもよい。アンカーは、ターゲットUI要素を一意に特定するのを助けるために使用され得る他のUI要素である。例えば、UIに複数のテキストフィールドが含まれている場合、テキストフィールドを検索するだけでは、与えられたテキストフィールドを一意に特定するには不十分である。したがって、いくつかの実施形態では、与えられたUI要素を一意に特定するために、追加の情報を探す。テキストフィールドの例を使用すると、「ファーストネーム(First Name)」というラベルの右側に、ファーストネームを入力するためのテキストフィールドが表示される場合があり得る。このファーストネームラベルは、「ターゲット」であるテキストフィールドを一意に特定するのに役立つように、「アンカー」として設定してもよい。
【0171】
いくつかの実施形態では、ターゲットとアンカーの間の様々な位置および/または幾何学的な関連付けが、ターゲットを一意に特定するために、潜在的に1または複数の許容差内で使用される可能性がある。例えば、アンカーとターゲットのバウンディングボックスの中心が線セグメントを定義するために使用されてもよい。次いで、この線セグメントは、ターゲット/アンカーペアを使用してターゲットを一意に特定するために、許容差内の特定の長さおよび/または許容差内の傾きを有することが要求され得る。しかしながら、ターゲットおよび/またはアンカーに関連付けられた位置の任意の所望の位置は、本発明の範囲から逸脱することなく、いくつかの実施形態において使用され得る。例えば、線セグメントを描画するための点は、バウンディングボックス特性に関連して特定される、バウンディングボックスの境界上の中央、左上隅、右上隅、左下隅、右下隅、他の任意の位置、バウンディングボックス内の任意の位置、バウンディングボックスの外側の位置内などにあり得る。特定の実施形態では、ターゲットおよび1または複数のアンカーは、幾何学的マッチングのために使用されるそれらのバウンディングボックス内またはバウンディングボックス外の異なる位置を有してもよい。
【0172】
以上のように、画面上のターゲット要素を一定の信頼性をもって一意に特定するためには、単一のアンカーだけでは必ずしも十分ではない場合がある。例えば、画面上の異なる位置にある「ファーストネーム」というラベルのそれぞれの右側に、ファーストネームを入力するための2つのテキストフィールドが表示されているウェブフォームを考えてみる。この例では、1または複数の追加のアンカーは、所与のターゲットを一意に特定するのに有用であり得る。アンカーとターゲットとの間の幾何学的特性(例えば、許容差を有する線セグメントの長さ、角度、および/または相対位置)は、ターゲットを一意に特定するために使用されてもよい。ユーザーは、ターゲットに対する一致強度がしきい値を超えるまでアンカーを追加し続けることが要求されてもよい。
【0173】
図10は、本発明の実施形態による、タスクマイニングを使用したソースおよびターゲットの間でAI主導のセマンティック自動データ転送を実行するためのモジュール1000を概して示す。タスクマイニングモジュール1010は、コンピューティングシステムとのユーザーインタラクションを監視し、コピーアンドペースト動作が進行中であることを特定しようとする検出モジュール1020に情報を提供する。タスクマイニング情報には、画面またはフォームのラベル、フィールド、および値、関連するアプリケーションおよびウィンドウ、オペレーティングシステムからの情報、アプリケーションAPI(復数可)からの情報などが含まれ得るが、これらに限定されない。
【0174】
検出モジュール1020は、UI内の画面またはフォームの値が一致するかどうかをチェックし、最小化されているまたは別のウィンドウによってブロックされているために現在表示されていないものも潜在的に含む。一致が見つかると、検出モジュール1020は、値が見つかったそれぞれのソース画面またはターゲット画面またはフォーム内の関連ラベルを決定し、これらをセマンティックマッチングAI/MLモデル1030に供給する。セマンティックマッチングAI/MLモデル1030によって出力されたスコアがマッチングしきい値以上の場合、検出モジュール1020は、一致が検出されたとみなす。ある実施形態では1回の一致で十分であるが、このプロセスは、しきい値数の一致が見つかるまで繰り返され得る。
【0175】
検出モジュール1020によってしきい値数の一致が検出された後、自動補完モジュール1040が、自動補完を所望するか、またはターゲット内の残りのフィールドの自動補完を自動的に実行するかに関して、ユーザーにプロンプトを表示する。検出モジュール1020と同様に、自動補完モジュール1040は、ソースフィールドラベルとのセマンティックマッチングAI/MLモデル1030を提供する。しかしながら、ペアの2番目の値に対して、自動補完モジュール1040は、空のフィールドを有するターゲットからの一致しないラベルをセマンティックマッチングAI/MLモデル1030に提供する。自動補完モデルは、そのペアについてセマンティックマッチングAI/MLモデル1030からスコアを受信し、すべてのペアがチェックされるまで(もしあれば、マッチングしきい値を満たす最も高いスコアを選択する)、またはスコアが自動一致検出しきい値を満たすまで、プロセスを繰り返す。これは、一致が存在することを検出するためのしきい値であり得る、または他のペアのチェックをスキップするほど結果に確信を持つためのより高いしき値であり得る。
【0176】
ターゲットが自動的に入力された後、関連するRPAオートメーションがオートメーションモジュール1050によって作成され得る。これは、ユーザーの承認に応じて行われる場合もあれば、ユーザーの関与なしで自動的に行われる場合もある。自動化はユーザーのコンピューティングシステムに展開されるか、またはそうでなければユーザーが利用できるようになり、将来同じコピーアンドペーストタスクが自動的に実行されるようになる。
【0177】
図11は、本発明の実施形態による、タスクマイニングを使用したソースおよびターゲットの間でAI主導のセマンティック自動データ転送を実行するためのプロセス1100を示すフローチャートである。プロセスは、1105で(例えば、リスナーによって)ユーザーコンピューティングシステム上でタスクマイニングを実行することから始まる。タスクマイニングには、ユーザーとコンピューティングシステムのインタラクション、どのアプリケーションが実行されているか、どのウィンドウが開いているか、どのUI要素がアクティブな要素であるかなどの監視が含まれ得る。しかしながら、いくつかの実施形態では、タスクマイニングは、初期セマンティックマッチングAI/MLモデルの訓練および展開の前には実行されない。
【0178】
初期セマンティックマッチングAI/MLモデルは、1110で訓練および展開される。例えば、タスクマイニングデータは数週間、数か月などにわたって記録され、その後AI/MLモデルがこのデータに基づいて訓練される。初期セマンティックAI/MLモデルは、インターネットおよび/または他のテキストソース(書籍、文書など)からのデータのコーパスを使用して訓練され得る。いくつかの実施形態では、初期AI/MLモデルは、互いに異なるが一致する(すなわち、それらが意味的に類似する)ソースおよびターゲットのラベルなどのタスクマイニングデータを使用しても訓練され得る。特定の実施形態では、AI/MLモデルは、タスクマイニングデータのみを使用して訓練される場合があり、そのようなマッピングモデルの訓練は自動的に行われる場合がある。
【0179】
いくつかの実施形態では、ソース、ターゲット、またはその両方は、構造化されているか非構造化されているかを問わず、本発明の範囲から逸脱することなく、ウェブフォーム、デジタルまたはスキャンされた文書(請求書、領収書、報告書、手書き情報など)、画像、アプリケーションGUI、スプレッドシート、または他の任意の適切な情報フォーマットであり得る。OCRは、セマンティックコピーアンドペースト機能を実行する前に、ソースおよび/またはターゲットに対して実行され得る。特定の実施形態では、ソースおよびターゲットは異なるタイプであってもよい。例えば、ソースはウェブフォームであり得、ターゲットはスプレッドシートであり得る。
【0180】
初期の訓練されたAI/MLモデルの展開後、1115において、それぞれのコンピューティングシステムとのユーザーインタラクションが観察される。ソースおよびターゲットの値が一致する場合、ソースおよびターゲットからの関連ラベルは、1120で、ラベルを入力として初期セマンティックマッチングAI/MLモデルに通し、AI/MLモデルから出力されるマッチングスコアをマッチングしきい値に対してチェックすることによって比較される。ソースおよびターゲットで値が一致しても、一方または両方に関連するラベルがない可能性があることに留意すべきである。その場合、一致は無視され得る。このマッチング動作は、コピーアンドペーストタスクが発生していると確信できる必要な数の一致(例えば、1つの一致、2つの一致、5つの一致など)が見つかるまで実行され得る。
【0181】
マッチングしきい値が1125で所望の数の確認一致で満たされない場合、プロセスは1115でコンピューティングシステムとのユーザーインタラクションの観察に戻る。しかし、ソースおよびターゲットのラベルが一致する場合、1130でセマンティックコピーアンドペースト動作が実行される。最初にユーザーにプロンプトを表示してもよいし、またはこの動作を自動的に実行してもよい。ソース内の各ラベル-値のペアについて、ターゲットは、以前に一致されたことのない、関連するラベルおよびフィールドを検索し得る。ラベルの一致を決定するために、セマンティックAI/MLモデルが使用され、ラベルの比較は、すべてのペアがチェックされるまで(もしあれば、マッチングしきい値を満たす最も高いスコアを選択する)、またはスコアが自動一致検出しきい値を満たすまで、続く。これは、一致が存在することを検出するためのしきい値であり得る、または他のペアのチェックをスキップするほど結果に確信を持つためのより高いしき値であり得る。
【0182】
ターゲットが自動的に入力された後、関連するRPAオートメーションが生成され、ユーザープロンプトから確認を受け取った後、または自動的に、1135で展開される。ユーザーは自動化を将来使用できるようになる。セマンティックマッチングAI/MLモデルを再訓練するための訓練データは1140で格納され、セマンティックマッチングAI/MLモデルの新しいバージョンは1110で再訓練され、展開される。
【0183】
図11で実行されるプロセスステップは、本発明の実施形態に従って、
図11で説明したプロセス(複数可)の少なくとも一部を実行するようにプロセッサ(複数可)への命令をエンコードするコンピュータプログラムによって実行されてもよい。コンピュータプログラムは、非一時的なコンピュータ読み取り可能な媒体に格納されていてもよい。コンピュータ読み取り可能な媒体は、ハードディスクドライブ、フラッシュデバイス、RAM、テープ、および/またはデータを格納するために使用される他のそのような媒体または媒体の組み合わせであってもよいが、これらに限定されるものではない。コンピュータプログラムは、
図11に記載されたプロセスステップの全部または一部を実装するために、コンピューティングシステム(例えば、
図5のコンピューティングシステム500のプロセッサ(複数可)510)のプロセッサ(複数可)を制御するためのコード化された命令を含んでもよく、これはまた、コンピュータ読み取り可能な媒体に格納されてもよい。
【0184】
コンピュータプログラムは、ハードウェア、ソフトウェア、またはハイブリッド実装で実装され得る。コンピュータプログラムは、互いに動作可能な通信を行うモジュールで構成され得、情報または指示をディスプレイに送るように設計されている。コンピュータプログラムは、汎用コンピュータ、ASIC、またはいずれかの他の好適なデバイスで動作するように構成され得る。
【0185】
本発明の様々な実施形態のコンポーネントは、本明細書に一般的に記載され、図示されているように、様々な異なる構成で配置され、設計されてもよいことが、容易に理解されるであろう。したがって、添付の図に表されるような本発明の実施形態の詳細な説明は、特許請求されるような本発明の範囲を限定することを意図するものではなく、本発明の選択された実施形態を代表するものにすぎない。
【0186】
本明細書を通して記載された本発明の特色、構造、または特徴は、1または複数の実施形態では、いずれかの好適な方法で組み合わせられ得る。例えば、本明細書全体を通して「特定の実施形態」、「いくつかの実施形態」、または類似の言語を参照することは、実施形態に関連して記載された特定の特色、構造、または特徴が、本発明の少なくとも1つの実施形態に含まれていることを意味する。したがって、本明細書全体を通して「特定の実施形態では」、「いくつかの実施形態では」、「他の実施形態では」、または類似の言語の出現は、必ずしも全ての実施形態の同じグループを指すものではなく、記載された特色、構造、または特徴は、1または複数の実施形態ではいずれかの好適な方法で組み合わせられ得る。
【0187】
本明細書全体を通して特色、利点、または類似の言語への参照は、本発明で実現され得る特色および利点の全てが、本発明のいずれかの単一の実施形態にあるべきであること、または本発明のいずれかの実施形態であることを意味するものではないことに留意すべきである。むしろ、特色および利点に言及する言語は、実施形態に関連して記載された特定の特色、利点、または特徴が、本発明の少なくとも1つの実施形態に含まれることを意味すると理解される。したがって、本明細書全体での特色および利点の議論、ならびに類似の言語は、同じ実施形態を参照することができるが、必ずしもその必要性はない。
【0188】
さらに、本発明の記載された特色、利点、および特徴は、1または複数の実施形態では、いずれかの好適な方法で組み合わせることができる。関連する技術の当業者は、本発明が、1または複数の特定の実施形態の特定の特徴または利点なしに実施され得ることを認識するであろう。他の例では、追加の特徴および利点は、本発明の全ての実施形態には存在しないかもしれないが特定の実施形態では認識され得る。
【0189】
本分野における通常の技術を有する者は、上述したような本発明を、異なる順序でのステップを用いて、および/または開示されているものとは異なる構成のハードウェア要素を用いて実施することができることを容易に理解するであろう。したがって、本発明は、これらの好ましい実施形態に基づいて説明されてきたが、本発明の精神および範囲内にとどまりながら、特定の変更、変形、および代替的な構成が明らかになることは、当業者には明らかであろう。したがって、本発明の範囲を決定するためには、添付の特許請求の範囲を参照すべきである。
【外国語明細書】