(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-09-02
(45)【発行日】2025-09-10
(54)【発明の名称】ロボティックプロセスオートメーション用のユーザーインターフェース(UI)記述子、UIオブジェクトライブラリ、UIオブジェクトリポジトリ、およびUIオブジェクトブラウザ
(51)【国際特許分類】
G06F 9/451 20180101AFI20250903BHJP
G06F 8/34 20180101ALI20250903BHJP
【FI】
G06F9/451
G06F8/34
(21)【出願番号】P 2023501012
(86)(22)【出願日】2020-09-24
(86)【国際出願番号】 US2020052429
(87)【国際公開番号】W WO2022010516
(87)【国際公開日】2022-01-13
【審査請求日】2023-09-14
(32)【優先日】2020-07-07
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】520262319
【氏名又は名称】ユーアイパス,インコーポレイテッド
【氏名又は名称原語表記】UiPath,Inc.
【住所又は居所原語表記】1 Vanderbilt Avenue, 60th Floor, New York, NY 10017, United States of America
(74)【代理人】
【識別番号】110003487
【氏名又は名称】弁理士法人東海特許事務所
(72)【発明者】
【氏名】グリゴーレ,ミルシア
【審査官】児玉 崇晶
(56)【参考文献】
【文献】特表2018-535459(JP,A)
【文献】米国特許出願公開第2020/0050983(US,A1)
【文献】吉岡 豊,はじめてのRPA UiPath入門,日本,株式会社秀和システム,2020年02月15日,pp.37-38, 42-50, 53, 61-66, 104, 165-166, 205
(58)【調査した分野】(Int.Cl.,DB名)
G06F 9/451
G06F 8/34
(57)【特許請求の範囲】
【請求項1】
非一時的なコンピュータ読み取り可能な媒体上に格納されたロボティックプロセスオートメーション(RPA)のためのユーザーインターフェース(UI)オブジェクトライブラリを作成するためのコンピュータプログラムであって、前記プログラムは、少なくとも1つのプロセッサが、
UIの画面に関連付けられたアプリケーションを検出し、
前記画面上のUI要素を検出し、
ターゲットUI要素の選択を受信し、
選択された前記UI要素のためのUI記述子を生成し、ここで、生成された前記UI記述子は、前記画面上の前記ターゲットUI要素を見つけるための命令のセットを含み、
前記UI記述子は、UI要素セレクタ、アンカーセレクタ、コンピュータビジョン(CV)記述子、統合されたターゲット記述子、画面イメージキャプチャ、要素イメージキャプチャ、またはそれらの組み合わせを含み、
選択された前記UI要素のための生成された前記UI記述子をそれぞれのRPAワークフローアクティビティに追加し、
UIオブジェクトリポジトリにおける前記UI記述子を含むUIオブジェクトライブラリを作成して公開するように構成される、コンピュータプログラム。
【請求項2】
前記UI記述子は、ドライバを使用してベストマッチに基づいて生成されたセレクタであるかまたはそれを含む、請求項1に記載のコンピュータプログラム。
【請求項3】
前記RPAワークフローアクティビティは、セレクタベースの特定アクティビティ、コンピュータビジョン(CV)ベースの特定アクティビティ、統合されたターゲット特定アクティビティ、画像マッチング特定アクティビティ、またはセレクタおよび光学的文字認識(OCR)ベースの特定アクティビティであるかまたはそれを含む、請求項1に記載のコンピュータプログラム。
【請求項4】
前記UIの前記画面に関連付けられた前記アプリケーションの検出は、前記アプリケーションと前記アプリケーションのバージョンを自動的に検出することを含み、
検出された前記アプリケーションおよび前記アプリケーションのバージョンが前記RPAワークフローアクティビティのために追加される、請求項1に記載のコンピュータプログラム。
【請求項5】
前記プログラムはさらに、前記少なくとも1つのプロセッサが、
前記RPAワークフローアクティビティを含むRPAワークフローにおけるアクティビティからUI記述子を抽出し、
抽出された前記UI記述子を、UIアプリケーション、バージョン、画面、およびUI要素ごとに前記UI記述子をグループ化する構造化スキーマに追加するように構成される、請求項1に記載のコンピュータプログラム。
【請求項6】
前記構造化スキーマは、異なる画面においてUI要素間の関係を含むオントロジーに配置される、請求項5に記載のコンピュータプログラム。
【請求項7】
検出された前記アプリケーションは、ウェブアプリケーションであり、前記UI記述子は、対応するセレクタのためのそれぞれのUI要素へのハイパーテキストマークアップ言語(HTML)パスを含む、請求項1に記載のコンピュータプログラム。
【請求項8】
前記プログラムは、RPA開発者アプリケーションであるまたはそれを含む、請求項1に記載のコンピュータプログラム。
【請求項9】
前記プログラムはさらに、前記少なくとも1つのプロセッサが、
UIオブジェクトリポジトリから1または複数の他のオブジェクトライブラリを受信し、
作成された前記UIオブジェクトライブラリおよび前記1または複数の他のオブジェクトライブラリを表示するように構成される、請求項1に記載のコンピュータプログラム。
【請求項10】
前記プログラムは、UIオブジェクトリポジトリの1または複数のUIオブジェクトライブラリにおけるUI記述子を表示するUIオブジェクトブラウザであるかまたはそれを含み、前記1または複数のUIオブジェクトライブラリは、アプリケーションおよびバージョンによって編成される、請求項1に記載のコンピュータプログラム。
【請求項11】
前記RPAワークフローアクティビティは、コンピュータビジョン(CV)ベースのアクティビティであるかまたはそれを含み、前記プログラムはさらに、前記少なくとも1つのプロセッサが、
前記UIの前記画面上でCVを実行して、前記画面上のUI要素を特定し、
前記CVによって特定される選択可能なコンポーネントを含む前記UIの前記画面を表示し、
前記ターゲットUI要素を一意に特定するのに役立つ1または複数のアンカーUI要素の選択を受信し、
前記1または複数のアンカーを前記RPAワークフローアクティビティに追加して、前記ターゲットUI要素の特定を支援するように構成される、請求項1に記載のコンピュータプログラム。
【請求項12】
前記RPAワークフローアクティビティは、統合されたターゲットベースのアクティビティであるかまたはそれを含み、前記ターゲットUI要素を一意に特定できない場合、前記プログラムはさらに、前記少なくとも1つのプロセッサが、
前記ターゲットUI要素を一意に特定するのに役立つ1または複数のアンカーUI要素の選択を受信し、
選択された前記1または複数のアンカーUI要素が、少なくとも最小の検証スコアで前記ターゲットUI要素を一意に特定することを検証し、
選択された前記1または複数のアンカーUI要素が、少なくとも前記最小の検証スコアで前記ターゲットUI要素を一意に特定する場合、
前記1または複数のアンカーを前記RPAワークフローアクティビティに追加して、前記ターゲットUI要素の特定を支援するように構成される、請求項1に記載のコンピュータプログラム。
【請求項13】
前記RPAワークフローアクティビティは、画像マッチング技術を使用してユーザーによって指定された前記画面上の画像を検索する画像マッチングベースのアクティビティであるかまたはそれを含む、請求項1に記載のコンピュータプログラム。
【請求項14】
前記RPAワークフローアクティビティは、ドライバを使用してベストマッチに基づいて生成されたセレクタと前記ターゲットUI要素に関連付けられたテキストのOCRとの組み合わせを使用して、前記ターゲットUI要素を特定するセレクタおよび光学的文字認識(OCR)ベースのアクティビティであるかまたはそれを含む、請求項1に記載のコンピュータプログラム。
【請求項15】
前記プログラムはさらに、前記少なくとも1つのプロセッサが、
前記RPAワークフローアクティビティを含む複数のRPAワークフローアクティビティを論理関係に構成する、請求項1に記載のコンピュータプログラム。
【請求項16】
前記プログラムはさらに、前記少なくとも1つのプロセッサが、
前記RPAワークフローアクティビティを含むRPAワークフローを実装するRPAロボットを生成するように構成される、請求項1に記載のコンピュータプログラム。
【請求項17】
生成された前記UI記述子は、検出された前記アプリケーションの新しいバージョン用である、請求項1に記載のコンピュータプログラム。
【請求項18】
非一時的なコンピュータ読み取り可能な媒体上に格納されたコンピュータプログラムであって、前記プログラムは、少なくとも1つのプロセッサが、
アプリケーションの画面上のターゲットユーザーインターフェース(UI)要素の選択を受信し、
選択された前記UI要素のためのUI記述子を生成し、ここで、生成された前記UI記述子は、前記画面上の前記ターゲットUI要素を見つけるための命令のセットを含み、
前記UI記述子は、UI要素セレクタ、アンカーセレクタ、コンピュータビジョン(CV)記述子、統合されたターゲット記述子、画面イメージキャプチャ、要素イメージキャプチャ、またはそれらの組み合わせを含み、
選択された前記UI要素のための生成された前記UI記述子を、それぞれのロボティックプロセスオートメーション(RPA)ワークフローアクティビティに追加するように構成され、
前記RPAワークフローアクティビティは、コンピュータビジョン(CV)ベースの特定アクティビティまたは統合されたターゲット特定アクティビティであるかまたはこれを含む、コンピュータプログラム。
【請求項19】
前記プログラムはさらに、前記少なくとも1つのプロセッサが、
前記RPAワークフローアクティビティを含むRPAワークフローにおけるアクティビティからUI記述子を抽出し、
抽出された前記UI記述子を、UIアプリケーション、バージョン、画面、およびUI要素ごとに前記UI記述子をグループ化する構造化スキーマに追加するように構成される、請求項18に記載のコンピュータプログラム。
【請求項20】
前記構造化スキーマは、異なる画面においてUI要素間の関係を含むオントロジーに配置される、請求項19に記載のコンピュータプログラム。
【請求項21】
前記プログラムはさらに、前記少なくとも1つのプロセッサが、
UIオブジェクトリポジトリにおける前記UI記述子を含むUIオブジェクトライブラリを作成して公開するように構成される、請求項18に記載のコンピュータプログラム。
【請求項22】
前記プログラムは、UIオブジェクトリポジトリの1または複数のUIオブジェクトライブラリにおけるUI記述子を表示するUIオブジェクトブラウザであるかまたはそれを含み、前記1または複数のUIオブジェクトライブラリは、アプリケーションおよびバージョンによって編成される、請求項18に記載のコンピュータプログラム。
【請求項23】
前記RPAワークフローアクティビティはCVベースのアクティビティであるかまたはそれを含み、前記プログラムはさらに、前記少なくとも1つのプロセッサが、
前記UIの前記画面上でCVを実行して、前記画面上のUI要素を特定し、
前記CVによって特定される選択可能なコンポーネントを含む前記UIの前記画面を表示し、
前記ターゲットUI要素を一意に特定するのに役立つ1または複数のアンカーUI要素の選択を受信し、
前記1または複数のアンカーを前記RPAワークフローアクティビティに追加して、前記ターゲットUI要素の特定を支援するように構成される、請求項18に記載のコンピュータプログラム。
【請求項24】
前記RPAワークフローアクティビティは、統合されたターゲットベースのアクティビティであるかまたはそれを含み、前記ターゲットUI要素を一意に特定できない場合、前記プログラムはさらに、前記少なくとも1つのプロセッサが、
前記ターゲットUI要素を一意に特定するのに役立つ1または複数のアンカーUI要素の選択を受信し、
選択された前記1または複数のアンカーUI要素が、少なくとも最小の検証スコアで前記ターゲットUI要素を一意に特定することを検証し、
選択された前記1または複数のアンカーUI要素が、少なくとも前記最小の検証スコアで前記ターゲットUI要素を一意に特定する場合、
前記1または複数のアンカーを前記RPAワークフローアクティビティに追加して、前記ターゲットUI要素の特定を支援するように構成される、請求項18に記載のコンピュータプログラム。
【請求項25】
非一時的なコンピュータ読み取り可能な媒体上に格納されたロボティックプロセスオートメーション(RPA)開発者アプリケーションであって、前記RPA開発者アプリケーションは、少なくとも1つのプロセッサが、
ユーザーインターフェース(UI)の画面に関連付けられたアプリケーションを検出し、
前記画面上のUI要素を検出し、
ターゲットUI要素の選択を受信し、
選択された前記UI要素のためのUI記述子を生成し、ここで、生成された前記UI記述子は、前記画面上の前記ターゲットUI要素を見つけるための命令のセットを含み、
前記UI記述子は、UI要素セレクタ、アンカーセレクタ、コンピュータビジョン(CV)記述子、統合されたターゲット記述子、画面イメージキャプチャ、要素イメージキャプチャ、またはそれらの組み合わせを含み、
選択された前記UI要素のための生成された前記UI記述子をそれぞれのRPAワークフローアクティビティに追加するように構成され、
前記RPAワークフローアクティビティは、セレクタベースの特定アクティビティ、コンピュータビジョン(CV)ベースの特定アクティビティ、統合されたターゲット特定アクティビティ、画像マッチング特定アクティビティ、またはセレクタおよび光学的文字認識(OCR)ベースの特定アクティビティであるかまたはそれを含み、
前記RPAアプリケーションは、UIオブジェクトリポジトリの1または複数のUIオブジェクトライブラリにおけるUI記述子を表示するUIオブジェクトブラウザを含み、前記1または複数のUIオブジェクトライブラリは、アプリケーションおよびバージョンによって編成される、RPA開発者アプリケーション。
【請求項26】
前記RPA開発者アプリケーションはさらに、前記少なくとも1つのプロセッサが、
前記UIオブジェクトリポジトリにおける前記UI記述子を含むUIオブジェクトライブラリを作成して公開するように構成され、
生成された前記UI記述子は、検出された前記アプリケーションの新しいバージョン用である、請求項25に記載のRPA開発者アプリケーション。
【請求項27】
前記RPA開発者アプリケーションはさらに、前記少なくとも1つのプロセッサが、
前記RPAワークフローアクティビティを含むRPAワークフローにおけるアクティビティからUI記述子を抽出し、
抽出された前記UI記述子を、UIアプリケーション、バージョン、画面、およびUI要素ごとに前記UI記述子をグループ化する構造化スキーマに追加するように構成され、
前記構造化スキーマは、異なる画面においてUI要素間の関係を含むオントロジーに配置される、請求項25に記載のRPA開発者アプリケーション。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願への相互参照)
本出願は、2020年7月7日に出願された米国非仮特許出願第16/922,289号の利益を主張する。先に提出された本出願の主題は、その全体を参照することにより、本明細書に組み込まれる。
【0002】
本発明は概して、ロボティックプロセスオートメーション(RPA)に関し、より具体的には、RPA用のユーザーインターフェース(UI)オブジェクト記述子、UIオブジェクトライブラリ、UIオブジェクトリポジトリ、および/またはUIオブジェクトブラウザに関する。
【背景技術】
【0003】
ユーザーインターフェース(UI)でのRPAオートメーションの場合、開発者は通常、UIアクションごとに記述子(例えば、セレクタ)を構築する。通常、デフォルトの記述子が生成される。ただし、信頼できる記述子を構築すると、トラブルシューティングおよび試行錯誤の開発に開発者の時間がかかり得、効率的ではない場合がある。また、同じ記述子が必要な場合の記述子の再利用性も欠如する。さらに、システムおよびアプリケーションが変更またはアップグレードされる場合、プロセスのアップグレードパスは単純ではない場合がある。したがって、改良されたアプローチが有益であり得る。
【発明の概要】
【0004】
本発明の特定の実施形態は、現在のRPA技術によってまだ十分に特定されていない、評価されていない、または解決されていない本分野における問題およびニーズのソリューションを提供し得る。例えば、本発明のいくつかの実施形態は、RPA用のUI記述子、UIオブジェクトライブラリ、UIオブジェクトリポジトリ、および/またはUIオブジェクトブラウザに関する。
【0005】
実施形態では、RPA用のユーザーインターフェース(UI)オブジェクトライブラリを作成するためのコンピュータプログラムが、非一時的なコンピュータ読み取り可能な媒体上に格納される。プログラムは、少なくとも1つのプロセッサが、UIの画面に関連付けられたアプリケーションを検出し、画面上のUI要素を検出するように構成される。プログラムはまた、少なくとも1つのプロセッサが、ターゲットUI要素の選択を受信し、選択されたUI要素のためのUI記述子を生成し、選択されたUI要素のための生成されたUI記述子をそれぞれのRPAワークフローアクティビティに追加するように構成される。プログラムはさらに、少なくとも1つのプロセッサが、UIオブジェクトリポジトリにおけるUI記述子を含むUIオブジェクトライブラリを作成し公開するように構成される。
【0006】
別の実施形態では、コンピュータプログラムは、非一時的なコンピュータ読み取り可能な媒体上に格納される。プログラムは、少なくとも1つのプロセッサが、アプリケーションの画面上のターゲットUI要素の選択を受信し、選択されたUI要素のためのUI記述子を生成するように構成される。プログラムはまた、少なくとも1つのプロセッサが、選択されたUI要素のための生成されたUI記述子をそれぞれのRPAワークフローアクティビティに追加するように構成される。RPAワークフローアクティビティは、CVベースの特定アクティビティまたは統合されたターゲット特定アクティビティであるかまたはそれを含む。
【0007】
さらに別の実施形態では、RPA開発者アプリケーションは、非一時的なコンピュータ読み取り可能な媒体上に格納される。RPA開発者アプリケーションは、少なくとも1つのプロセッサが、UIの画面に関連付けられたアプリケーションを検出し、画面上のUI要素を検出するように構成される。RPA開発者アプリケーションはまた、少なくとも1つのプロセッサが、ターゲットUI要素の選択を受信し、選択されたUI要素のためのUI記述子を生成するように構成される。RPA開発者アプリケーションはさらに、少なくとも1つのプロセッサが、選択されたUI要素のための生成されたUI記述子をそれぞれのRPAワークフローアクティビティに追加するように構成される。RPAワークフローアクティビティは、セレクタベースの特定アクティビティ、CVベースの特定アクティビティ、統合されたターゲット特定アクティビティ、画像マッチング特定アクティビティ、またはセレクタおよびOCRベースの特定アクティビティであるかまたはそれを含む。RPAアプリケーションは、UIオブジェクトリポジトリの1または複数のUIオブジェクトライブラリにおけるUI記述子を表示するUIオブジェクトブラウザを含み、1または複数のUIオブジェクトライブラリは、アプリケーションおよびバージョンによって編成される。
【図面の簡単な説明】
【0008】
本発明の特定の実施形態の利点が容易に理解されるように、上記で簡単に説明した本発明のより特定の説明は、添付の図面に図示されている特定の実施形態を参照して描写される。これらの図面は、本発明の典型的な実施形態のみを描いており、したがって、その範囲を限定するものとは考えられないことが理解されるべきであるが、本発明は、以下の添付の図面を使用することにより、さらなる特定および詳細をもって描写され、説明されるであろう。
【0009】
【
図1】本発明の実施形態による、ロボティックプロセスオートメーション(RPA)システムを示すアーキテクチャ図である。
【0010】
【
図2】本発明の実施形態による、展開したRPAシステムを示すアーキテクチャ図である。
【0011】
【
図3】本発明の実施形態による、デザイナ、アクティビティ、およびドライバの間の関係を示すアーキテクチャ図である。
【0012】
【
図4】本発明の実施形態による、RPAシステムを示すアーキテクチャ図である。
【0013】
【
図5】本発明の実施形態による、RPA用のUI記述子、オブジェクトライブラリ、UIオブジェクトリポジトリ、および/またはオブジェクトブラウザを提供するように構成されたコンピューティングシステムを示すアーキテクチャ図である。
【0014】
【
図6A】本発明の実施形態による、RPAデザイナアプリケーションを示すスクリーンショットである。
【0015】
【
図6B】Windows(登録商標)7の計算機標準ビュー画面およびビューセレクタタブを示すスクリーンショットである。
【0016】
【
図6C】本発明の実施形態による、
図6Aに示すRPA開発アプリケーションのアウトラインペインにおけるシーケンスを示す拡大されたスクリーンショットビューである。
【0017】
【
図6D】本発明の実施形態による、
図6Aに示すRPA開発アプリケーションのスニペットペインを示す拡大されたスクリーンショットビューである。
【0018】
【
図6E】本発明の実施形態による、各アクティビティのためのそれぞれのUI要素のスクリーンショットを有するRPAワークフローのアクティビティを示すスクリーンショットである。
【
図6F】本発明の実施形態による、各アクティビティのためのそれぞれのUI要素のスクリーンショットを有するRPAワークフローのアクティビティを示すスクリーンショットである。
【0019】
【
図6G】本発明の実施形態による、ワークフローアクティビティのためのオプションのメニューを示すスクリーンショットである。
【0020】
【
図6H】本発明の実施形態による、プロパティペインに示されるクリックアクティビティのためのプロパティを有するRPAデザイナアプリケーションを示すスクリーンショットである。
【0021】
【
図6I】本発明の実施形態による、
図6Hに示すRPA開発アプリケーションのプロパティペインを示す拡大されたスクリーンショットである。
【0022】
【
図6J】本発明の実施形態による、UIオブジェクトブラウザペインを有するRPAデザイナアプリケーションを示すスクリーンショットである。
【0023】
【
図6K】本発明の実施形態による、
図6Jに示すRPA開発アプリケーションのUIオブジェクトブラウザペインのUI記述子ビューを示す拡大されたスクリーンショットである。
【0024】
【
図6L】本発明の実施形態による、
図6Jに示すRPA開発アプリケーションのUIオブジェクトブラウザペインのUI記述子ビューを示す拡大されたスクリーンショットである。
【0025】
【
図6M】本発明の実施形態による、UIオブジェクトブラウザペインのUIアクティビティビューを示すクリーンショットである。
【0026】
【
図6N】本発明の実施形態による、セレクタをRPAワークフローの所望のアクティビティにドロップするためのドラッグアンドドロップ機能を示すスクリーンショットである。
【0027】
【
図6O】Windows(登録商標)10計算機を示すスクリーンショットである。
【0028】
【
図6P】本発明の実施形態による、Windows(登録商標)10計算機セレクタを有するUIオブジェクトブラウザペインのUIアクティビティビューを示すスクリーンショットである。
【0029】
【
図6Q】本発明の実施形態による、Windows(登録商標)10計算機のための各アクティビティのそれぞれのUI要素の更新されたスクリーンショットを含む、RPAワークフローのアクティビティの一部を示すスクリーンショットである。
【0030】
【
図6R】本発明の実施形態による、公開UIオブジェクトライブラリウィンドウを示すスクリーンショットである。
【0031】
【
図6S】本発明の実施形態による、管理パッケージウィンドウを示すスクリーンショットである。
【0032】
【
図6T】本発明の実施形態による、UIオブジェクトライブラリに追加されたWindows(登録商標)10計算機セレクタを有するUIオブジェクトブラウザペインのUIアクティビティビューを示すスクリーンショットである。
【0033】
【
図7A】本発明の実施形態による、RPAデザイナアプリケーションを示すスクリーンショットである。
【0034】
【
図7B】本発明の実施形態による、3つの異なるUI要素検出技術を使用するように構成され得るRPAワークフローを示すスクリーンショットである。
【0035】
【
図7C】本発明の実施形態による、開発者が「画面上に表示(indicate on screen)」を選択した後にUiPath Studio(商標)によって変更されたWindows(登録商標)10計算機を示すスクリーンショットである。
【0036】
【
図7D】本発明の実施形態による、Windows(登録商標)10計算機から選択されたUI要素のスクリーンショットを含む
図7BのRPAワークフローを示すスクリーンショットである。
【0037】
【
図7E】本発明の実施形態による、アクティビティオプションメニューを示すスクリーンショットである。
【0038】
【
図7F】本発明の実施形態による、セレクタエディタを示すスクリーンショットである。
【0039】
【
図7G】本発明の実施形態による、UIオブジェクトライブラリ機能への追加を示すスクリーンショットである。
【0040】
【
図7H】本発明の実施形態による、UI記述子ペインを示すスクリーンショットである。
【0041】
【
図7I】本発明の実施形態による、画面要素およびラベルメッセージを検出することを含むRPAワークフローを示すスクリーンショットである。
【0042】
【
図7J】本発明の実施形態による、検索インターフェースを示すスクリーンショットである。
【0043】
【
図7K】本発明の実施形態による、CVベースの特定アクティビティを示すスクリーンショットである。
【0044】
【
図7L】本発明の実施形態による、開発者がCVクリックインターフェースで「範囲を表示(indicate on scope)」を選択した後にUiPath Studio(商標)によって変更されたWindows(登録商標)10計算機を示すスクリーンショットである。
【0045】
【
図7M】本発明の実施形態による、UiPath Studio(商標)によって変更されたWindows(登録商標)10計算機と、開発者がターゲットを選択した後のCVクリックインターフェースとを示すスクリーンショットである。
【0046】
【
図7N】本発明の実施形態による、UiPath Studio(商標)によって変更されたWindows(登録商標)10計算機と、開発者がターゲットの選択およびアンカーの選択を行った後のCVクリックインターフェースとを示すスクリーンショットである。
【0047】
【
図7O】本発明の実施形態による、CVベースの特定アクティビティがターゲットおよびアンカーで構成された後のワークフローにおけるCVベースの特定アクティビティを示すスクリーンショットである。
【0048】
【
図7P】本発明の実施形態による、記述子プロパティを伴うCVクリックを伴うプロパティタブを示すスクリーンショットである。
【0049】
【
図7Q】本発明の実施形態による、統合されたターゲットベースの特定アクティビティを示すスクリーンショットである。
【0050】
【
図7R】本発明の実施形態による、統合されたターゲットクリックアクティビティが強調された検索インターフェースを示すスクリーンショットである。
【0051】
【
図7S】本発明の実施形態による、入れ子になった(nested)クリックアクティビティを伴う統合されたターゲットベースの特定アクティビティを示すスクリーンショットである。
【0052】
【
図7T】本発明の実施形態による、UiPath Studio(商標)によって変更されたWindows(登録商標)10計算機および統合されたターゲット選択オプションウィンドウを示すスクリーンショットである。
【0053】
【
図7U】本発明の実施形態による、選択されたターゲットを伴うUiPath Studio(商標)によって変更されたWindows(登録商標)10計算機および統合されたターゲット選択オプションウィンドウを示すスクリーンショットである。
【0054】
【
図7V】本発明の実施形態による、選択されたターゲットおよび選択されたアンカーを伴うUiPath Studio(商標)によって変更されたWindows(登録商標)10計算機ならびに統合されたターゲット選択オプションウィンドウを示すスクリーンショットである。
【0055】
【
図7W】本発明の実施形態による、統合されたターゲット選択オプションウィンドウを介して検証された、選択されたターゲットおよび選択されたアンカーを伴うUiPath Studio(商標)によって変更されたWindows(登録商標)10計算機を示すスクリーンショットである。
【0056】
【
図7X】本発明の実施形態による、入れ子になった(nested)クリックアクティビティにおけるターゲットおよびアンカーのスクリーンショットを伴う統合されたターゲットベースの特定アクティビティを示すスクリーンショットである。
【0057】
【
図7Y】本発明の実施形態による、ワークフローに追加されたクリック画像アクティビティを示すスクリーンショットである。
【0058】
【
図7Z】本発明の実施形態による、クリックされる画像の周りに描かれたボックスを伴うUiPath Studio(商標)によって変更されたWindows(登録商標)10計算機のスクリーンショットおよびクリック画像アクティビティにおける選択ボックスからの画像のスクリーンショットを示す。
【0059】
【
図7a】本発明の実施形態による、クリック画像アクティビティプロパティを含むプロパティタブを示すスクリーンショットである。
【0060】
【
図7b】本発明の実施形態による、クリックされる画像のためのセレクタのセレクタエディタを示すスクリーンショットである。
【0061】
【
図7c】本発明の実施形態による、ワークフローにおけるクリックOCRテキストアクティビティを示すスクリーンショットである。
【0062】
【
図7d】本発明の実施形態による、クリックされるボタンのスクリーンショットを含むクリックOCRテキストアクティビティを示すスクリーンショットである。
【0063】
【
図8】本発明の実施形態による、セレクタベースのアクティビティを生成するためのプロセスを示すフローチャートである。
【0064】
【
図9】本発明の実施形態による、CV記述子ベースのアクティビティを生成するためのプロセスを示すフローチャートである。
【0065】
【
図10】本発明の実施形態による、統合されたターゲットベースのアクティビティを生成するためのプロセスを示すフローチャートである。
【0066】
【
図11】本発明の実施形態による、画像マッチングアクティビティを生成するためのプロセスを示すフローチャートである。
【0067】
【
図12】本発明の実施形態による、セレクタおよびOCRベースのアクティビティを生成するためのプロセスを示すフローチャートである。
【0068】
【
図13】本発明の実施形態による、複数の特定技法を使用するRPAワークフローを生成するためのプロセスを示すフローチャートである。
【0069】
【
図14】本発明の実施形態による、UIオブジェクトライブラリを作成し、アプリケーションの新しいバージョンと連携するプロジェクトを構成するためのプロセスを示すフローチャートである。
【発明を実施するための形態】
【0070】
別段の記載がない限り、類似の参照文字は、添付の図面全体で一貫して対応する特徴を示す。
【0071】
(実施形態の詳細な説明)
いくつかの実施形態は、RPA用のUI記述子、UIオブジェクトライブラリ、UIオブジェクトリポジトリ、および/またはUIオブジェクトブラウザに関する。画面上のUI要素(例えば、テキストフィールド、ボタン、ラベル、メニュー、チェックボックスなど)は、アプリケーション、アプリケーションバージョン、アプリケーション画面、およびUI要素の収集によってグループ化され得、各画面は複数のUI要素を有する。本明細書で使用されるように、「画面」とは、ある時点でのアプリケーションUIまたはアプリケーションUIの一部の画像である。「アプリケーション」または所定のアプリケーションのバージョンは、このコンテキストでは画面の組み合わせであってもよい。各UI要素は、いくつかの実施形態では、1または複数のUI記述子によって記述され得る。UI要素、UI記述子、アプリケーション、およびアプリケーション画面は、UIオブジェクトである。いくつかの実施形態では、UI要素および画面は、特定のタイプのUI要素(例えば、ボタン、チェックボックス、テキストフィールドなど)および画面(例えば、トップウィンドウ、モーダルウィンドウ、ポップアップウィンドウなど)にさらに区別されてもよい。
【0072】
UIオブジェクトブラウザは、アプリケーション、アプリケーションバージョン、アプリケーション画面、UI要素の収集、それらの組み合わせなどによってグループ化され得るUIオブジェクトのライブラリにアクセスし得る。いくつかの実施形態では、UIオブジェクトライブラリは、UIオブジェクトリポジトリに格納され得る。本明細書で使用される場合、UIオブジェクトリポジトリは、UIオブジェクトライブラリの収集である。いくつかの実施形態では、UIオブジェクトリポジトリは、NuGet(商標)フィード、ウェブサービスなどであり得る。
【0073】
オブジェクトブラウザは、いくつかの実施形態では、UIオブジェクトリポジトリにおけるUIオブジェクトライブラリを案内、管理、および編集するために使用され得る。いくつかの実施形態におけるUIオブジェクトライブラリのUIオブジェクトリポジトリは、プロジェクトにおけるUI記述子の管理、再利用、および信頼性の向上を容易にし得る。いくつかの実施形態では、UI記述子はUIライブラリに追加され、UIオブジェクトリポジトリでグローバルに再利用するために公開または再公開され得る。UIオブジェクトブラウザは、UIオブジェクトリポジトリおよびそのUIオブジェクトライブラリへのアクセスを提供することにより、UI要素特定フレームワークおよびその派生物の再利用を容易にし得る。
【0074】
UIオブジェクトを再利用可能にするために、RPA処理で参照可能なUIオブジェクトライブラリに抽出され得る。例えば、アプリケーションの新しいバージョンが原因でセレクタまたは他のUI記述子が変更された場合、ライブラリは、変更されたUI記述子を含めるために再作製(または再公開)され得る。次いで、UIオブジェクトライブラリを使用するRPAプロセスは、変更されたUI記述子のバージョンを呼び出し得る。新しいライブラリに関連する新しいアプリケーションプログラミングインターフェース(API)への参照は、開発者がRPAプロセスのために手動で変更することも、ソフトウェアツール(例えば、RPAプロセスを経て、セレクタまたはその他のコンポーネントが変更されたときにUI記述子参照を更新するツール)を介して変更することも、またはいくつかの実施形態では自動的に変更することもできる。
【0075】
いくつかの実施形態では、UIオブジェクトのパッケージが依存関係として添付され得る(例えば、NuGet(商標)パッケージ)。しかしながら、特定の実施形態では、UIオブジェクトは、ウェブサービスへの1または複数のAPI呼び出しを介して取得され得る。これにより、UIオブジェクトをリモートで格納し、自動化の間に取得して使用し得る。
【0076】
以前は、UI記述子の初期構築には、UI記述子の背後で何が起こっているかについて技術的な知識を持つ開発者が必要であった。しかし、多くのRPAプロセスは、ソフトウェア開発者によって構築されなくなった。これらの個人は、例えば、UiPath StudioX(商標)を使用してRPAワークフローを作成し得、これには、プログラミングに関する深い知識は必要ない。いくつかの実施形態は、RPAワークフローを作成する個人が記述子を再利用することを可能にし、これは、RPAワークフローを作成する個人が適切なUI記述子を利用できる場合、ソフトウェア開発者が新しいUI記述子を一から構築する必要がないため、時間を節約する。
【0077】
UIオブジェクトライブラリに追加されたUI要素は、RPAワークフローで使用するセレクタを表し得る。UIでの特定のアクションを自動化するために、RPAロボットは、さまざまなウィンドウ、ボタン、ドロップダウンリスト、および/またはその他のグラフィカル要素とインタラクションし得る。通常、これは、UI要素の予想される画面位置を使用して行われる。しかし、これは信頼できない。
【0078】
いくつかの実施形態は、UI要素およびその親の属性をXMLフラグメントに格納することで、固定座標特定に関連する問題を克服するセレクタを使用する。UIが静的であるいくつかの実施形態では、セレクタは自動的に生成されてもよいが、いくつかのウェブアプリケーションなどのいくつかのソフトウェアプログラムでは、レイアウトが変化し、揮発性値を有する属性ノードが存在する。これらの変更は容易に予測できない場合があり、これは以前はいくつかのセレクタを手動で生成することを要求した。しかし、いくつかの実施形態のオブジェクトブラウザは、この問題を克服し得る。
【0079】
セレクタは、いくつかの実施形態においてUI要素を検出するために使用され得るUI記述子のタイプである。セレクタは、いくつかの実施形態では、以下の構造を有する。
<node_1/><node_2/>...<node_N/>
【0080】
最後のノードは対象のGUI要素を表し、それ以前の全てのノードはその要素の親を表す。<node_1>は通常ルートノードと呼ばれ、アプリケーションのトップウィンドウを表す。
【0081】
各ノードは、選択されたアプリケーションの特定のレベルの正しい特定を支援する1または複数の属性を有してもよい。各ノードは、いくつかの実施形態では、以下の形式を有する。
<ui_system attr_name_1=’attr_value_1’...attr_name_N=’attr_value_N’/>
【0082】
全ての属性は、割り当てられた値を有し得、一定の値を有する属性が選択され得る。これは、アプリケーションが起動するたびに属性の値を変更すると、セレクタが関連する要素を正しく特定できなくなる可能性があるからである。
【0083】
UIオブジェクトライブラリ記述子は、RPAワークフローアクティビティに直接追加され得、さもなくばアクティビティ用のカスタムセレクタを作製するために必要とされ得る開発者の時間を節約する。オブジェクトブラウザは、作成されたセレクタをオブジェクトライブラリに格納するデータベースを提供して、UI記述子の再利用を可能にすることができます。オブジェクトライブラリは、アプリケーションの特定のバージョンから1または複数の画面に対応するUI記述子の収集として本明細書で定義される。UI記述子とは、UI要素を見つけるための命令のセットである。いくつかの実施形態におけるUI記述子は、UI要素セレクタ(複数可)、アンカーセレクタ(複数可)、コンピュータビジョン(CV)記述子(複数可)、統合されたターゲット記述子(複数可)、画面イメージキャプチャ(コンテキスト)、要素イメージキャプチャ、他のメタデータ(例えば、アプリケーションおよびアプリケーションバージョン)、それらの組み合わせなどを含むカプセル化されたデータ/構造フォーマットである。カプセル化されたデータ/構造フォーマットは、プラットフォームへの将来のアップデートによって拡張可能であってもよく、上記の定義に限定されるものではない。画面上のUI要素を特定するためのUI記述子としては、本発明の範囲を逸脱することなく、任意の好適なものを使用することができる。統合されたターゲット記述子は、複数のタイプのUI記述子を連結する。統合されたターゲット記述子は、有限状態機械(FSM)のように機能し得、第1のコンテキストでは、第1のUI記述子メカニズムが適用され、第2のコンテキストでは、第2のUI記述子が適用される、などである。
【0084】
いくつかの実施形態では、RPAデザイナアプリケーションは、ユーザーが自動化を計画しているアプリケーションのタイプ(複数可)をユーザーに尋ね得る。例えば、ユーザーはExcel(登録商標)、Workday(登録商標)、SAP(登録商標)などを指定し得る。RPAアプリケーションには、これらのアプリケーションのためのUIオブジェクトライブラリに画面記述子が既に含まれているため、これらのアプリケーションを自動化する方法に関するロジックでアプリケーションがプログラムされ得る。これらのアプリケーションのさまざまなバージョンのすぐに使えるセレクタが利用可能であり、ユーザーは自動化するバージョン(複数可)を指定することができ得る。
【0085】
本明細書で使用されるように、用語「ユーザー」および「開発者」は互換的に使用される。ユーザー/開発者は、プログラミングおよび/または技術的な知識を持っている場合と持っていない場合がある。例えば、いくつかの実施形態では、ユーザー/開発者は、手動でコーディングすることなく、RPAワークフロー内のアクティビティを構成することにより、RPAワークフローを作成し得る。特定の実施形態では、これは、例えば、様々な機能をクリックしてドラッグアンドドロップすることによって行われてもよい。
【0086】
従来、セレクタを信頼できるものにするためには、テスト、固有のセレクタの詳細の理解などが必要である。これにより、技術的な知識のない個人にとって、セレクタの作成/改良は困難または不可能になる。一般的なUI要素およびタスクのための作業セレクタのライブラリを提供することによって、いくつかの実施形態は、非技術者個人による生産で機能する自動化の開発を可能にする。ユーザーは、自動化するアプリケーションのバージョンの画面を指定でき、RPA開発アプリケーションはその画面をフェッチし得る。次に、ユーザーは画面とインタラクションして、彼または彼女が何をしたいかを定義し得る。
【0087】
いくつかの実施形態では、新しいUI記述子が作成され、および/または既存のUI記述子が変更されると、共有可能で、共同的で、かつ潜在的にオープンソースであるUIオブジェクトライブラリのグローバルデータベースが構築され得る。特定の実施形態では、タクソノミおよびオントロジーが使用され得る。アプリケーション、バージョン、画面、UI要素、記述子などは、サブカテゴリの階層構造であるタクソノミとして定義され得る。
【0088】
しかし、現実世界の概念の多くは、タクソノミ的組織化には容易に役立たない。むしろ、それらは数学的オントロジーの概念に近いかもしれない。オントロジーでは、カテゴリ間の関係は必ずしも階層的ではない。例えば、画面上のボタンをクリックするとユーザーが別の画面に移動する場合、次の画面は階層にないため、その画面のタクソノミでは容易にキャプチャでされ得ない。このようなケースを表すグラフを作成する場合、アプリケーションのオブジェクトブラウザは、同じ画面または異なる画面上のUI要素間のインタラクションの作成を可能にし、UI要素が互いにどのように関連しているかについてのより詳細な情報を提供するオントロジーとしてモデル化され得る。
【0089】
OKボタンをクリックすると従業員画面が表示される例を考えてみる。オントロジー構造により、デザイナアプリケーションは、ユーザーが次の画面で従業員をフィルタリングすることを提案し得る。OKボタンを介したこれらの画面間の関係のオントロジー情報により、デザイナアプリケーションはこれを行うことができる。必ずしもツリーではなく、アプリケーションが実際に行っていることに関連するグラフィカル構造を定義することで、より複雑で豊富な関係が捉えられ得る。
【0090】
いくつかの実施形態は、アプリケーションから画面およびUI要素をより高速にフェッチすることを可能にするレコーダに関係するかまたはそれを含む。例えば、特定の画面に250の異なるUI要素がある場合、それらを1つずつフェッチするには時間がかかり得る。画面ポインターを使用して、次いで編集可能なすべてのUI要素をフェッチし得る。これは、ツリーまたはオントロジーの最初のバージョンを作成するのに役立ち得る。
【0091】
いくつかの実施形態では、オブジェクトブラウザはウェブサービスとして公開され得る。ユーザーが、セレクタまたはその他のUI記述子を実行時に更新すると、適切に構成されていれば、RPAロボットはサービスの最新バージョンを呼び出し得る。これにより、RPAロボットは常に最新バージョンのUI記述子を使用できる。
【0092】
RPAワークフロー内のアクティビティからUI記述子が抽出され、UIアプリケーション、画面、およびUI要素ごとにUI記述子をグループ化する構造化スキーマに追加され得る。UI記述子は、いくつかの実施形態では、広く再利用するための1つのプロジェクトの一部、テスト目的のためのグローバルリポジトリの一部、またはグローバルなプロジェクト間共有のためのUIオブジェクトライブラリの一部とし得る。いくつかの実施形態におけるオブジェクトライブラリは、アプリケーション、アプリケーションバージョン、および画面によってグループ化されたUI記述子のカプセル化である。UI記述子が定義され、オブジェクトライブラリに追加され得、これは、いくつかの実施形態では、公開後に依存物として他のプロジェクトにインストールされ得る。これにより、UI記述子のオブジェクトライブラリは、再利用が可能になる。いくつかの実施形態におけるUIアプリケーションは、各バージョンが複数の画面を有する複数のバージョンを有するターゲットアプリケーションである。
【0093】
UIオブジェクトリポジトリとUI記述子の再利用は、さまざまな理由で有益であり得る。例えば、アプリケーション内のUI要素の位置、外観、および/または機能が変更された場合、UI記述子が変更され得、その変更は、次いでUI記述子を使用するアクティビティに伝搬され得る。このように、再利用性は、UIにおけるグラフィカル要素の特定のレベルで提供され得る。
【0094】
これは、アプリケーションの新しいバージョンに対応するために、特に有益であり得る。新バージョンの場合、ソフトウェア開発者は、UI記述子を更新し、および/または少数の新しいセレクタを一から開発する必要があるだけでよく、開発時間を大幅に短縮することができる。例えば、ウェブページの場合、ハイパーテキストマークアップ言語(HTML)が検査されて、対応するセレクタのためのUI要素へのパスを取得し得る。対応するUI要素のセレクタは、異なるウェブブラウザおよび/または同じウェブブラウザの異なるバージョンで異なる場合がある。この概念はまた、ビジュアルデスクトップ、サーバー、スマートフォン、およびタブレットのアプリケーションに適用されてもよい。UIオブジェクトライブラリは、アプリケーションのための実際のセレクタを含むことができ、これは、上記のとおり、UI記述子の1つのタイプに過ぎない。UIオブジェクトライブラリは、1または複数のアプリケーションのために、異なるタイプの複数のUI記述子を持ち得る。UI記述子は、アプリケーションが構築された異なる技術を参照し得る。例えば、スタンドアロンのデスクトップ、ウェブ、およびモバイルアプリケーションのために、異なるUI記述子が作製され、使用され得る。ある技術では、あなたはセレクタを使用したい場合があり、別ではあなたはCV記述子を使用したい場合などがある。
【0095】
UI記述子は、いくつかの実施形態では、画像の検出および定義が実行される全てのUI検出メカニズムを包含する統合されたターゲットと協働してもよい。統合されたターゲットは、UI要素を特定して自動化する複数の技術を、単一のまとまりのあるアプローチに併合してもよい。統合されたターゲットは、セレクタベースおよびドライバベースのUI検出メカニズムを優先し、CVにフォールバックして、最初の2つのメカニズムが成功しない場合に画像を見つけ得る。いくつかの実施形態では、統合されたターゲットを支持するようにセレクタエディタおよびUIエクスプローラが構成され得る。
【0096】
いくつかの実施形態では、デザイナアプリケーションは、1または複数のソースからオブジェクトライブラリをロードする「オブジェクトブラウザ」としてセクションまたはパネルを含む。このオブジェクトブラウザを使用すると、ユーザーはUIオブジェクトセット全体を視覚化し、ドラッグアンドドロップ、およびウィザード、またはコンテキストアクションを介して任意のUI記述子を使用し得る。これにより、ユーザーは、クリック、テキストの取得、入力など、RPAワークフローアクティビティで実行されるアクションを選択できるようになり得る。
【0097】
オブジェクトライブラリの構造例を以下に示す。
・SAP
・バージョン1
・画面1
・オブジェクト1
・オブジェクト2
・…
・画面2…
・…
・バージョン2…
・…
・セールスフォース…
・…
【0098】
上記の階層は、例としてのみ提供されていることに留意されたい。本発明の範囲から逸脱することなく、階層内の任意の所望の数のレベルおよび各レベルに関連する要素が使用され得る。特定の実施形態では、ユーザーは、アプリケーションマップを彼または彼女が所望するように定義し得る。さらに、ツリー内のいくつかのノードは、いくつかの実施形態では、管理的な役割のみを果たし、機能的な役割は果たさないかもしれない。例えば、UI要素は、UI記述子を持たないコンテナに一緒にグループ化され得る。コンテナは、いくつかの実施形態では、グループ化の目的だけのために存在し得る。
【0099】
範囲は、いくつかの実施形態では、オブジェクトライブラリで利用可能な画面のセットからの選択を通じて、ユーザーによってデザイナアプリケーションで定義され得る。範囲が特定の画面に1対1で結びつけられるとき、ユーザーは、UIアクション(例えば、クリック、テキスト取得など)を追加し、次に、潜在的候補オプションのインテリジェントセンシングを使用して、それらのアクションをUIオブジェクトにマッピングし得る。オブジェクトのセットは、いくつかの実施形態では、UIオブジェクトリポジトリ(例えば、UIオブジェクトライブラリのデータベース)内部の画面に対して定義されるリストに限定され得る。
【0100】
例えば、アプリケーション画面、UI要素などの構造が決定されると、特定されたアプリケーションのリストが提供され得る。特定の実施形態では、ユーザーは、次いで自動化するアプリケーションを選択し、選択したアプリケーションをキャンバスにドラッグし、「SAP」と書き、「.」を押すと、すべてのSAP(登録商標)画面がリストされ得る。画面を選択すると、追加の候補要素、機能などが表示され得る。これにより、ユーザーは予測されたUI要素、機能、アプリケーション、および画面を選択できる。
【0101】
いくつかの実施形態では、OLDBがUiPath Studio(商標)で構成される場合、例えば、「画面上に表示(indicate on screen)」は、OLDBを調べて、利用可能であればUI記述子をピックアップし得る。UI記述子が利用できない場合、UI記述子は、欠落しているUI要素を示すことによってユーザーにより定義され得る。次に、UI記述子が生成され、UIオブジェクトライブラリで公開され得る。
【0102】
いくつかの実施形態におけるUI記述子およびUIオブジェクトリポジトリの使用は、さらに拡張され得る関係およびデータを作成する。いくつかの実施形態では、自動化プロセスからのUIステップが単一の画面にマッピングされ得る。例えば、ユーザーがいくつかのデータを追加および取得してから送信を押すフォームを含む画面は、画面キャプチャとその画面で実行される各UIステップを含む1つのスクリーンショットで文書化され得る。例えば、次のようになる:(1)コピーされた量;(2)コピーされた番号;(3)追加された名前;(4)クリックされた「OK」。
【0103】
システムおよびアプリケーションのアップグレードによって影響を受けるアップグレードプロセスの場合、「参照検索」サービスが実装され得る。参照検索サービスは、リポジトリから一連のプロジェクトをスキャンし、特定のアプリケーションバージョンに属するUI記述子を使用しているプロセスを検出する機能を提供し得る。いくつかの実施形態では、アプリケーションバージョンは、UI記述子の対応する画面に基づいて決定され得る。さらに、アプリケーションの2つの異なるバージョンからの一致する要素を有するUI記述子間の差異を検出するためのサービスが実装され得る。検出されたプロセスとUI記述子の違いは、アプリケーションまたはシステムのアップグレード時に中断し得るプロセスに関する情報を提供する。これらのプロセスは、新しいアプリケーションバージョンからのUI記述子を使用するように自動的に更新され得る。
【0104】
いくつかの実施形態では、OLDB分析を使用してOLDB UIオブジェクトリポジトリが強化され得る。UI記述子を抽出するメカニズムが実装され得る。抽出されたUI記述子データは、作成/定義時間の前または後にOLDB分析を介して送信され得る。さらに、いくつかの実施形態では、人工知能(AI)および機械学習(ML)技術を使用して、抽出されたUI記述子データは、任意のアプリケーションの任意のバージョンの任意の画面からの各UI要素のUI記述子の強度を向上させるために使用され得る新しいデータのセットを提供し得る。
【0105】
特定の実施形態は、ロボティックプロセスオートメーション(RPA)に採用されてもよい。
図1は、本発明の実施形態による、RPAシステム100を示すアーキテクチャ図である。RPAシステム100は、開発者がワークフローを設計して実装することを可能にするデザイナ110を含む。デザイナ110は、アプリケーション統合のためのソリューションを提供するとともに、サードパーティアプリケーション、管理情報技術(IT)タスク、およびビジネスITプロセスを自動化する。デザイナ110は、ビジネスプロセスのグラフィック表現である自動化プロジェクトの開発を容易にし得る。簡単に言えば、デザイナ110は、ワークフローおよびロボットの開発および展開を容易にする。
【0106】
自動化プロジェクトは、本明細書で「アクティビティ」と定義されるワークフローで開発されたステップのカスタムセット間の遂行順序および関係の制御を開発者に与えることにより、ルールベースのプロセスの自動化を可能にする。デザイナ110の実施形態の商業的な一例は、UiPath Studio(商標)である。各アクティビティは、ボタンをクリックする、ファイルを読む、ログパネルに書き込むなどのアクションを含み得る。いくつかの実施形態では、ワークフローは入れ子になっているか、または埋め込まれ得る。
【0107】
ワークフローのタイプには、シーケンス、フローチャート、FSM、および/またはグローバル例外ハンドラなどを含み得るが、これらに限定されない。シーケンスは、ワークフローを乱雑にすることなく、あるアクティビティから別のアクティビティへのフローを可能にする、線形プロセスに特に適し得る。フローチャートは、特により複雑なビジネスロジックに適し得、複数の分岐ロジックオペレータを介して、より多様な方法で意思決定の統合およびアクティビティの接続を可能にする。FSMは、大規模なワークフローに特に適し得る。FSMは、条件(すなわち、遷移)またはアクティビティによりトリガされる有限の数の状態をそれらの遂行中に使用し得る。グローバル例外ハンドラは、遂行エラーに遭遇したときのワークフローの挙動を決定したり、プロセスをデバッグしたりするのに特に適し得る。
【0108】
ワークフローがデザイナ110内で開発されると、ビジネスプロセスの遂行は、コンダクタ120によって調整され、デザイナ110内で開発されたワークフローを遂行する1または複数のロボット130を調整する。コンダクタ120の実施形態の商業的な一例は、UiPath Orchestrator(商標)である。コンダクタ120は、環境におけるリソースの生成、監視、および展開の管理を容易にする。コンダクタ120は、サードパーティのソリューションおよびアプリケーションとの統合ポイント、または統合ポイントの1つとして動作し得る。
【0109】
コンダクタ120は、全てのロボット130を管理し得、ロボット130を集中ポイントから接続して遂行する。管理され得るロボット130のタイプには、アテンディッドロボット132、アンアテンディッドロボット134、開発ロボット(アンアテンディッドロボット134と同様であるが、開発およびテストの目的で使用される)、および非生産ロボット(アテンディッドロボット132と同様であるが、開発およびテストの目的で使用される)が含まれるが、これらに限定されない。アテンディッドロボット132は、ユーザーイベントによってトリガされてもよいし、自動的に発生するようにスケジュールされてもよく、同じコンピューティングシステム上で人と並んで動作し得る。アテンディッドロボット132は、集中プロセスデプロイメントおよびロギング媒体のためのコンダクタ120とともに使用され得る。アテンディッドロボット132は、人のユーザーが様々なタスクを達成するのを支援してもよく、ユーザーイベントによってトリガされてもよい。いくつかの実施形態では、プロセスは、このタイプのロボット上でコンダクタ120から開始することができず、および/またはそれらはロックされた画面の下で実行することができない。特定の実施形態では、アテンディッドロボット132は、ロボットトレイからまたはコマンドプロンプトからのみ起動され得る。アテンディッドロボット132は、いくつかの実施形態では、人の監督下で動作することが好ましい。
【0110】
アンアテンディッドロボット134は、仮想環境または物理マシン上で無人で動作し、多くのプロセスを自動化することができる。アンアテンディッドロボット134は、リモート遂行、監視、スケジューリング、および作業キューのサポートの提供を担当し得る。全てのロボットタイプのためのデバッグは、いくつかの実施形態では、デザイナ110から実行され得る。アテンディッドロボットおよびアンアテンディッドロボットの両方は、メインフレーム、ウェブアプリケーション、VM、エンタープライズアプリケーション(例えば、SAP(登録商標)、SalesForce(登録商標)、Oracle(登録商標)などにより生成されたもの)、およびコンピューティングシステムアプリケーション(例えば、デスクトップおよびラップトップアプリケーション、モバイルデバイスアプリケーション、ウェアラブルコンピュータアプリケーションなど)を含むが、これらに限定されない様々なシステムおよびアプリケーションを自動化し得る。
【0111】
コンダクタ120は、プロビジョニング、展開、バージョニング、構成、キューイング、監視、ロギング、および/または相互接続性の提供を含むがこれらに限定されない様々な能力を有し得る。プロビジョニングは、ロボット130とコンダクタ120(例えば、ウェブアプリケーション)との間の接続を作成し、維持することを含み得る。展開は、遂行のために割り当てられたロボット130へのパッケージバージョンの正しい配信を保証することを含み得る。バージョニングは、いくつかの実施形態では、いくつかのプロセスまたは構成の固有のインスタンスの管理を含んでもよい。構成は、ロボット環境およびプロセス構成の維持および配信を含み得る。キューイングは、キューおよびキュー項目の管理を提供することを含み得る。監視は、ロボットの特定データを追跡し、ユーザーの権限を維持することを含み得る。ロギングは、データベース(例えば、SQLデータベース)および/または別のストレージメカニズム(例えば、大規模なデータセットを格納し、迅速にクエリを実行する能力を提供するElasticSearch(登録商標))へのログの保存およびインデックス作成を含み得る。コンダクタ120は、サードパーティのソリューションおよび/またはアプリケーションのための通信の集中点として操作することにより、相互接続性を提供し得る。
【0112】
ロボット130は、デザイナ110で構築されたワークフローを実行する遂行エージェントである。ロボット(複数可)130のいくつかの実施形態の1つの商業的な例は、UiPath Robots(商標)である。いくつかの実施形態では、ロボット130は、デフォルトで、Microsoft Windows(登録商標)Service Control Manager(SCM)管理サービスをインストールする。その結果、このようなロボット130は、ローカルシステムアカウントの下でインタラクティブなWindows(登録商標)セッションを開くことができ、Windows(登録商標)サービスの権利を有し得る。
【0113】
いくつかの実施形態では、ロボット130は、ユーザーモードで設置され得る。このようなロボット130については、所定のロボット130が設置されているユーザーと同じ権利を有することを意味する。この特色はまた、各マシンを最大限に全活用することを保証する高密度(HD)ロボットにも利用可能であり得る。いくつかの実施形態では、いずれかのタイプのロボット130は、HD環境で構成され得る。
【0114】
いくつかの実施形態におけるロボット130は、複数のコンポーネントに分割され、それぞれが特定の自動化タスクに特化されている。いくつかの実施形態におけるロボットコンポーネントは、SCM管理ロボットサービス、ユーザーモードロボットサービス、エグゼキュータ、エージェント、およびコマンドラインを含むが、これらに限定されない。SCM管理ロボットサービスは、Windows(登録商標)セッションを管理および監視し、コンダクタ120と遂行ホスト(すなわち、ロボット130が遂行されるコンピューティングシステム)との間のプロキシとして動作する。これらのサービスは、ロボット130の資格情報を任されて管理する。コンソールアプリケーションは、ローカルシステム下のSCMにより起動される。
【0115】
いくつかの実施形態におけるユーザーモードロボットサービスは、Windows(登録商標)セッションを管理および監視し、コンダクタ120と遂行ホストとの間のプロキシとして動作する。ユーザーモードロボットサービスは、ロボット130の資格情報を任されて管理し得る。SCM管理ロボットサービスがインストールされていない場合、Windows(登録商標)アプリケーションが自動的に起動され得る。
【0116】
エグゼキュータは、Windows(登録商標)セッションの下で与えられたジョブを遂行し得る(つまり、ワークフローを遂行し得る。エグゼキュータは、モニタ毎のドットパーインチ(DPI)設定を認識し得る。エージェントは、システムトレイウィンドウに利用可能なジョブを表示するWindows(登録商標) Presentation Foundation(WPF)アプリケーションであり得る。エージェントはサービスのクライアントであり得る。エージェントは、ジョブの開始または停止、設定の変更を依頼し得る。コマンドラインはサービスのクライアントである。コマンドラインは、ジョブの開始を要求し、その出力を待つことができるコンソールアプリケーションである。
【0117】
上で説明したように、ロボット130のコンポーネントが分割されていることは、開発者、サポートユーザー、およびコンピューティングシステムが、各コンポーネントが何を遂行しているかをより容易に実行し、特定し、および追跡するのに役立つ。この方法では、エグゼキュータとサービスに異なるファイアウォールルールを設定するなど、コンポーネントごとに特別な挙動を構成し得る。エグゼキュータは常に、いくつかの実施形態では、モニタごとのDPI設定を認識し得る。その結果、ワークフローは、ワークフローが作成されたコンピューティングシステムの構成に関係なく、いずれかのDPIで遂行し得る。また、いくつかの実施形態では、デザイナ110からのプロジェクトは、ブラウザのズームレベルに依存しないようにし得る。DPIを認識していないまたは意図的に認識していないとマークされているアプリケーションの場合、いくつかの実施形態ではDPIを無効にし得る。
【0118】
図2は、本発明の実施形態による、展開したRPAシステム200を示すアーキテクチャ図である。いくつかの実施形態では、RPAシステム200は、
図1のRPAシステム100であってもよく、またはその一部であってもよい。クライアント側、サーバー側、またはその両方が、本発明の範囲から逸脱することなく、いずれかの所望の数のコンピューティングシステムを含むことができることに留意すべきである。クライアント側では、ロボットアプリケーション210は、エグゼキュータ212、エージェント214、およびデザイナ216を含む。しかし、いくつかの実施形態では、デザイナ216は、コンピューティングシステム210上で実行されていなくてもよい。エグゼキュータ212はプロセスを実行している。
図2に示すように、複数のビジネスプロジェクトが同時に実行され得る。エージェント214(例えば、Windows(登録商標)サービス)は、本実施形態では、全てのエグゼキュータ212のための単一の接続ポイントである。この実施形態における全てのメッセージは、コンダクタ230に記録され、それは、データベースサーバー240、インデクササーバー250、またはその両方を介して、それらをさらに処理する。
図1に関して上述したように、エグゼキュータ212は、ロボットコンポーネントであり得る。
【0119】
いくつかの実施形態では、ロボットは、マシン名とユーザー名との間の関連付けを表す。ロボットは、複数のエグゼキュータを同時に管理し得る。同時に実行される複数のインタラクティブセッションをサポートするコンピューティングシステム(Windows(登録商標)Server 2012など)では、複数のロボットが同時に実行され得、それぞれが一意のユーザー名を使用して別々のWindows(登録商標)セッションで実行され得る。これは、上記のHDロボットと呼ばれる。
【0120】
エージェント214はまた、ロボットの状態を送信し(例えば、ロボットがまだ機能していることを示す「ハートビート」メッセージを定期的に送信する)、遂行されるパッケージの要求されるバージョンをダウンロードすることにも責任を負う。エージェント214とコンダクタ230との間の通信は、いくつかの実施形態では、常にエージェント214によって開始される。通知シナリオでは、エージェント214は、後にコンダクタ230によってロボットにコマンド(例えば、開始、停止など)を送信するために使用されるWebSocketチャネルを開いてもよい。
【0121】
サーバー側には、プレゼンテーション層(ウェブアプリケーション232、オープンデータプロトコル(OData)代表状態転送(REST)アプリケーションプログラミングインターフェース(API)エンドポイント234、通知および監視236)、サービス層(API実装/ビジネスロジック238)、永続層(データベースサーバー240、インデクササーバー250)が含まれる。コンダクタ230は、ウェブアプリケーション232、OData REST APIエンドポイント234、通知および監視236、ならびにAPI実装/ビジネスロジック238を含む。いくつかの実施形態では、ユーザーがコンダクタ230のインターフェース(例えば、ブラウザ220を介して)で実行するほとんどのアクションは、様々なAPIを呼び出すことによって実行される。このような動作は、本発明の範囲を逸脱することなく、ロボット上でのジョブの起動、キュー内のデータの追加/削除、無人で実行するジョブのスケジューリングなどを含み得るが、これらに限定されない。ウェブアプリケーション232は、サーバープラットフォームのビジュアル層である。この実施形態では、ウェブアプリケーション232は、ハイパーテキストマークアップ言語(HTML)およびジャバスクリプト(JS)を使用する。しかし、本発明の範囲を逸脱することなく、いずれかの所望のマークアップ言語、スクリプト言語、または他のいずれかのフォーマットを使用し得る。ユーザーは、コンダクタ230を制御するための様々な動作を実行するために、本実施形態ではブラウザ220を介してウェブアプリケーション232からのウェブページとインタラクションする。例えば、ユーザーは、ロボットグループを作成し、ロボットへのパッケージの割り当てを行い、ロボット毎および/またはプロセス毎のログを解析し、ロボットを起動しおよび停止などし得る。
【0122】
ウェブアプリケーション232に加えて、コンダクタ230は、OData REST APIエンドポイント234を公開するサービス層も含む。しかし、本発明の範囲を逸脱することなく、他のエンドポイントが含まれていてもよい。REST APIは、ウェブアプリケーション232とエージェント214の両方により消費される。エージェント214は、本実施形態では、クライアントコンピュータ上の1または複数のロボットのスーパーバイザである。
【0123】
本実施形態のREST APIは、構成、ロギング、監視、およびキューイング機能をカバーする。構成エンドポイントは、いくつかの実施形態では、アプリケーションのユーザー、権限、ロボット、アセット、リリース、および環境を定義し、構成するために使用されてもよい。ロギングRESTエンドポイントは、例えば、エラー、ロボットによって送信された明示的なメッセージ、およびその他の環境固有の情報など、様々な情報をログに記録するために使用され得る。デプロイメントRESTエンドポイントは、コンダクタ230においてジョブ開始コマンドが使用された場合に遂行されるべきパッケージのバージョンを問い合わせるためにロボットにより使用されてもよい。キューイングRESTエンドポイントは、キューへのデータの追加、キューからのトランザクションの取得、トランザクションのステータスの設定など、キューおよびキューアイテムの管理を担ってもよい。
【0124】
RESTエンドポイントの監視は、ウェブアプリケーション232およびエージェント214を監視してもよい。通知および監視API236は、エージェント214の登録、エージェント214への構成設定の配信、ならびにサーバーおよびエージェント214からの通知の送受信に使用されるRESTエンドポイントであってもよい。通知および監視API236は、いくつかの実施形態では、WebSocket通信を使用してもよい。
【0125】
永続層は、本実施形態では、一対のサーバー-データベースサーバー240(例えば、SQLサーバー)およびインデクササーバー250を含む。本実施形態におけるデータベースサーバー240は、ロボット、ロボットグループ、関連するプロセス、ユーザー、役割、スケジュールなどの構成を格納する。この情報は、いくつかの実施形態では、ウェブアプリケーション232を介して管理される。データベースサーバー240は、キューおよびキューアイテムを管理してもよい。いくつかの実施形態では、データベースサーバー240は、ロボットにより記録されたメッセージを(インデクササーバー250に加えて、またはそれに代えて)格納してもよい。
【0126】
いくつかの実施形態では任意であるが、インデクササーバー250は、ロボットにより記録された情報を保存し、インデックスを作成する。特定の実施形態では、インデクササーバー250は、構成設定を介して無効化されてもよい。いくつかの実施形態では、インデクササーバー250は、オープンソースプロジェクトの全文検索エンジンであるElasticSearch(登録商標)を使用する。ロボットにより記録されたメッセージ(例えば、ログメッセージまたはライン書き込みのようなアクティビティを使用して)は、ロギングRESTエンドポイント(複数可)を介してインデクササーバー250に送信されてもよく、そこで将来の利用のためにそれらはインデックス化される。
【0127】
図3は、本発明の実施形態による、デザイナ310、アクティビティ320、330、およびドライバ340の間の関係300を示すアーキテクチャ図である。以上のように、開発者は、デザイナ310を用いて、ロボットによって遂行されるワークフローを開発する。ワークフローは、ユーザー定義のアクティビティ320およびUIオートメーションアクティビティ330を含んでもよい。いくつかの実施形態では、画像中の非テキストの視覚的コンポーネントを特定することができ、これは、本明細書ではコンピュータビジョン(CV)と呼ばれる。このようなコンポーネントに関連するいくつかのCVアクティビティは、クリック、タイプ、テキストを取得、ホバー、要素の有無を検出、スコープの更新、ハイライトなどを含み得るが、これらに限定されない。いくつかの実施形態では、クリックは、例えば、CV、光学的文字認識(OCR)、ファジーテキストマッチング、およびマルチアンカーを使用して要素を特定し、それをクリックする。タイプは、上記および要素内のタイプを用いて要素を特定してもよい。テキストの取得は、特定のテキストの場所を特定し、OCRを使用してそれをスキャンし得る。ホバーは、要素を特定し、その上にホバーし得る。要素の有無の検出は、上述した技法を用いて、画面上に要素の有無を検出するかどうかを確認し得る。いくつかの実施形態では、デザイナ310に実装され得る数百または数千でさえのアクティビティが存在してもよい。しかし、本発明の範囲を逸脱することなく、いずれかの数および/またはアクティビティのタイプを利用することができる。
【0128】
UIオートメーションアクティビティ330は、低レベルのコード(例えば、CVアクティビティ)で記述され、UI層を介したアプリケーションとのインタラクションを促進する特別な低レベルのアクティビティのサブセットである。特定の実施形態では、UIオートメーションアクティビティ300は、例えば、ウィンドウメッセージなどを介したユーザー入力をシミュレートしてもよい。UIオートメーションアクティビティ330は、ロボットが所望のソフトウェアとインタラクションすることを可能にするドライバ340を介して、これらのインタラクションを促進する。例えば、ドライバ340は、OSドライバ342、ブラウザドライバ344、VMドライバ346、エンタープライズアプリケーションドライバ348などを含んでもよい。
【0129】
ドライバ340は、フックを探したり、キーを監視したりするなど、低レベルでOSとインタラクションしてもよい。それらは、Chrome(登録商標)、IE(登録商標)、Citrix(登録商標)、SAP(登録商標)などとの統合を促進してもよい。例えば、「クリック」アクティビティは、ドライバ340を介して、これらの異なるアプリケーションにおいて同じ役割を果たす。
【0130】
図4は、本発明の実施形態による、RPAシステム400を示すアーキテクチャ図である。いくつかの実施形態では、RPAシステム400は、
図1および/または
図2のRPAシステム100および/または200であってもよいし、それを含んでもよい。RPAシステム400は、ロボットを実行する複数のクライアントコンピューティングシステム410を含む。コンピューティングシステム410は、その上で実行されるウェブアプリケーションを介してコンダクタコンピューティングシステム420と通信することができる。コンダクタコンピューティングシステム420は、順番に、データベースサーバー430および任意のインデクササーバー440と通信することができる。
【0131】
図1および
図3に関して、これらの実施形態ではウェブアプリケーションが使用されているが、本発明の範囲から逸脱することなく、いずれかの適切なクライアントおよび/またはサーバーソフトウェアを使用することができることに留意すべきである。例えば、コンダクタは、クライアントコンピューティングシステム上で、非ウェブベースのクライアントソフトウェアアプリケーションと通信するサーバーサイドアプリケーションを実行してもよい。
【0132】
図5は、本発明の実施形態による、RPA用のUI記述子、オブジェクトライブラリ、UIオブジェクトリポジトリ、および/またはオブジェクトブラウザを提供するように構成されたコンピューティングシステム500を示すアーキテクチャ図である。いくつかの実施形態では、コンピューティングシステム500は、本明細書に描かれたおよび/または記載された1または複数のコンピューティングシステムであってもよい。コンピューティングシステム500は、情報を通信するためのバス505または他の通信機構と、情報を処理するためのバス505に結合されたプロセッサ(複数可)510とを含む。プロセッサ(複数可)510は、中央処理ユニット(CPU)、特定用途集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、グラフィックスプロセッシングユニット(GPU)、それらの複数のインスタンス、および/またはそれらのいずれかの組み合わせを含む、いずれかのタイプの一般的または特定用途向けプロセッサであり得る。プロセッサ(複数可)510はまた、複数の処理コアを有してもよく、コアの少なくとも一部は、特定の機能を実行するように構成され得る。いくつかの実施形態では、複数並列処理が使用されてもよい。特定の実施形態では、少なくとも1つのプロセッサ(複数可)510は、生物学的ニューロンを模倣する処理要素を含むニューロモーフィック回路であり得る。いくつかの実施形態では、ニューロモーフィック回路は、フォンノイマンコンピューティングアーキテクチャの典型的なコンポーネントを必要としない場合がある。
【0133】
コンピューティングシステム500は、プロセッサ(複数可)510によって遂行される情報および命令を格納するためのメモリ515をさらに含む。メモリ515は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、フラッシュメモリ、キャッシュ、磁気ディスクもしくは光ディスクなどの静的記憶装置、または他のタイプの非一時的なコンピュータ読み取り可能な媒体、あるいはそれらのいずれかの組み合わせで構成され得る。非一時的なコンピュータ読み取り可能な媒体は、プロセッサ(複数可)510によりアクセス可能ないずれかの利用可能な媒体であってもよく、揮発性媒体、不揮発性媒体または両方などを含み得る。また、媒体は、取り外し可能なもの、取り外し不可能なもの、または両方であってもよい。
【0134】
さらに、コンピューティングシステム500は、無線および/または有線接続を介して通信ネットワークへのアクセスを提供するために、トランシーバなどの通信デバイス520を含む。いくつかの実施形態では、通信デバイス520は、周波数分割多元接続(FDMA)、シングルキャリアFDMA(SC-FDMA)、時分割多元接続(TDMA)、符号分割多元接続(CDMA)、直交周波数分割多重方式(OFDM)、直交周波数分割多元接続(OFDMA)、移動体用グローバルシステム(GSM:Global System for Mobile)通信、汎用パケット無線サービス(GPRS:General Packet Radio Service)、ユニバーサル移動体通信システム(UMTS:Universal Mobile Telecommunications System)、cdma2000、広帯域CDMA(W-CDMA:Wideband CDMA)、高速ダウンリンクパケットアクセス(HSDPA:High-Speed Downlink Packet Access)、高速アップリンクパケットアクセス(HSUPA:High-Speed Uplink Packet Access)、高速パケットアクセス(HSPA:High-Speed Packet Access)、ロングタームエボリューション(LTE:Long Term Evolution)、LTEアドバンスト(LTE-A:LTE Advanced)、802.11x、Wi-Fi、Zigbee、超広帯域無線(UWB:Ultra-WideBand)、802.16x、802.15、Home Node-B(HnB)、Bluetooth、無線IDタグ(RFID:Radio Frequency Identification)、IrDA(Infrared Data Association)、近距離無線通信(NFC:Near-Field Communications)、第5世代(5G)、New Radio(NR)、それらのいずれかの組み合わせ、および/または本発明の範囲から逸脱することなく、いずれかの他の現在存在するまたは将来実装される通信標準および/またはプロトコルを使用するように構成され得る。いくつかの実施形態では、通信デバイス520は、本発明の範囲から逸脱することなく、単数のアンテナ、アレイ状のアンテナ、フェーズドアンテナ、スイッチドアンテナ、ビームフォーミングアンテナ、ビームステアリングアンテナ、それらの組み合わせ、および/またはいずれかの他のアンテナ構成である1または複数のアンテナを含み得る。
【0135】
プロセッサ(複数可)510は、バス505を介して、プラズマディスプレイ、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、電界放出ディスプレイ(FED)、有機発光ダイオード(OLED)ディスプレイ、フレキシブルOLEDディスプレイ、フレキシブル基板ディスプレイ、プロジェクションディスプレイ、4Kディスプレイ、高精細ディスプレイ、Retina(登録商標)ディスプレイ、IPS(In-Plane Switching)ディスプレイ、またはユーザーに情報を表示するためのいずれかの他の適切なディスプレイなどのディスプレイ525にさらに結合されている。ディスプレイ525は、抵抗方式、静電容量方式、表面弾性波(SAW)静電容量方式、赤外線方式、光学イメージング方式、分散信号方式、音響パルス認識方式、フラストレート全内部反射方式などを用いて、タッチ(ハプティック)ディスプレイ、3次元(3D)タッチディスプレイ、マルチ入力タッチディスプレイ、マルチタッチディスプレイなどとして構成されていてもよい。本発明の範囲を逸脱することなく、いずれかの好適な表示デバイスおよびハプティックI/Oを使用することができる。
【0136】
コンピュータマウス、タッチパッドなどのようなキーボード530およびカーソル制御デバイス535は、ユーザーがコンピューティングシステム500とインターフェースすることを可能にするために、バス505にさらに結合されている。しかしながら、特定の実施形態では、物理的なキーボードおよびマウスが存在しない場合があり、ユーザーは、ディスプレイ525および/またはタッチパッド(図示せず)のみを介してデバイスとインタラクションすることができる。任意の入力デバイスの種類および組み合わせは、設計の選択の問題として使用され得る。特定の実施形態では、物理的な入力デバイスおよび/またはディスプレイは存在しない。例えば、ユーザーは、コンピューティングシステム500と通信している別のコンピューティングシステムを介してリモートでそれとインタラクションしてもよいし、コンピューティングシステム500は自律的に動作してもよい。
【0137】
メモリ515は、プロセッサ(複数可)510により遂行されたときに機能を提供するソフトウェアモジュールを格納する。モジュールは、コンピューティングシステム500のためのオペレーティングシステム540を含む。モジュールはさらに、本明細書に記載されたプロセスの全部もしくは一部またはその派生物を実行するように構成されたUIオブジェクト動作モジュール545を含む。コンピューティングシステム500は、付加的な機能を含む1または複数の付加的な機能モジュール550を含み得る。
【0138】
当業者であれば、「システム」は、本発明の範囲から逸脱することなく、サーバー、組み込みコンピューティングシステム、パーソナルコンピュータ、コンソール、パーソナルデジタルアシスタント(PDA)、携帯電話、タブレットコンピューティングデバイス、量子コンピューティングシステム、または他のいずれかの適切なコンピューティングデバイス、またはデバイスの組み合わせとして具現化され得ることを理解するであろう。上述した機能を「システム」により実行されるものとして提示することは、何ら本発明の範囲を限定することを意図するものではなく、本発明の多くの実施形態の一例を提供することを意図するものである。実際、本明細書に開示された方法、システム、および装置は、クラウドコンピューティングシステムを含むコンピューティング技法と整合性のあるローカライズされた形態および分配された形態で実装されてもよい。
【0139】
本明細書で説明するシステム特色のいくつかは、実装の独立性をより強調するために、モジュールとして提示されていることに留意すべきである。例えば、モジュールは、カスタムの非常に大規模な集積(VLSI)回路またはゲートアレイ、ロジックチップ、トランジスタ、または他の個別部品のような既製の半導体を含むハードウェア回路として実装され得る。また、モジュールは、フィールドプログラマブルゲートアレイ、プログラマブルアレイロジック、プログラマブルロジックデバイス、グラフィックス処理ユニットなどのプログラマブルハードウェアデバイスに実装され得る。
【0140】
モジュールはまた、様々なタイプのプロセッサにより遂行されるためのソフトウェアに少なくとも部分的に実装され得る。例えば、遂行可能コードの特定された単位は、例えば、オブジェクト、プロシージャ、または関数として編成されていてもよいコンピュータ命令の1または複数の物理的または論理的なブロックを含み得る。それにもかかわらず、遂行可能な特定されたモジュールは、物理的に一緒に配置されている必要はなく、論理的に結合されたときにモジュールを含み、モジュールのために述べられた目的を達成するために、異なる場所に格納された別々の命令を含んでいてもよい。さらに、モジュールは、例えば、ハードディスクドライブ、フラッシュデバイス、RAM、テープのようなコンピュータ読み取り可能な媒体、および/または本発明の範囲から逸脱することなくデータを格納するために使用される他のいずれかの非一時的なコンピュータ読み取り可能な媒体に格納されていてもよい。
【0141】
実際、遂行可能コードのモジュールは、単一の命令であってもよいし、多数の命令であってもよいし、さらには、複数の異なるコードセグメント、異なるプログラム間、および複数のメモリデバイス間に分散されていてもよい。同様に、動作データは、モジュール内で特定され、ここで示されてもよく、いずれかの適切なタイプのデータ構造体内でいずれかの適切な形態で具現化され、組織化され得る。動作データは、単一のデータセットとして収集されてもよいし、または異なる記憶デバイスにわたり異なる場所に分散されていてもよく、少なくとも部分的には、単にシステムまたはネットワーク上の電子信号として存在していてもよい。
【0142】
いくつかの実施形態は、アプリケーションの特定のバージョンからの画面に対応するUI記述子の収集のオブジェクトライブラリをデータベースに格納する。オブジェクトライブラリは、ユーザーがRPA UI自動化を開発しているときに、RPAデザイナアプリケーション(UiPath Studio(商標)など)によって作成され得る。これは、新しいバージョンのアプリケーションなど、設計後の変更に対応するために使用され得る、よりよい拡張性と適応性の高いUIオブジェクトの収集を作成するのに役立ち得る。
【0143】
従業員が1または複数のRPAロボットを使用して、彼または彼女のコンピュータで実行されているソフトウェアアプリケーションでタスクを実行する場合を考えてみる。次に、情報技術(IT)部門が、RPAロボットがインタラクションするソフトウェアアプリケーションをアップグレードする。会社のRPAチームが、RPAロボットワークフローと呼ばれる変更されたUI記述子に事前に変更を加えていなかった場合、新しいバージョンでの変更により(例えば、UI要素の機能および/または外観の変更、UI要素の完全な削除または新しい画面への移動など)、RPAロボットがアプリケーション内の特定のUI要素を見つけることができなくなったため、一部のRPAプロセスが壊れている可能性がある。両方のバージョンのためのUI要素のUI記述子が既に存在する場合、新しいバージョンのためのUI記述子は、RPAワークフローの適切なアクティビティで以前のバージョンのためのUI記述子と交換され得、次いでRPAロボットは新しいバージョンで作業する必要がある。
【0144】
図6Aは、本発明の実施形態による、RPAデザイナアプリケーション600を示すスクリーンショットである。RPAデザイナアプリケーション600は、RPAワークフロー612(この例ではシーケンス)を含むメインのRPA開発ペイン610を含む。「スニペット(snippets)」ペイン620は、再利用可能で複数のワークフローに適用可能な再利用可能なコンポーネントまたは共通の自動化アイテムを含む。プロパティペイン640は、RPAワークフロー612の選択されたアクティビティ614のプロパティを示す。
【0145】
この実施形態では、RPAワークフロー612は、Windows(登録商標)7計算機の標準画面(またはウィンドウ)670上でアクションのシーケンスを実行する。
図6Bを参照。ユーザーは、ビュータブ672を使用して、さまざまな計算機設定をさまざまな画面から選択し得る。RPAワークフロー612におけるアクションのシーケンスは、ボタン2をクリックし、プラスボタンをクリックし、ボタン3をクリックし、等号ボタンをクリックし、結果のテキストを取得し、クリアボタンをクリックし、そして「行書き込み(write line)」動作によって結果を書き込むことである。アウトラインペイン630内のシーケンスの拡大したビューが
図6Cに示される。
【0146】
スニペットペイン620の拡大したビューが
図6Dに示される。スニペットペイン620はワークフロースニペットを含み、これは開発者がRPAデザイナアプリケーション600で彼または彼女自身のワークフロー(例えば、RPAワークフロー612)に呼び出す/含めることができる既製のワークフローであり得る。いくつかの実施形態では、スニペットペイン620は、チーム、企業、対象のすべての開発者、または開発者の他のグループが、自動化される要素のためのUI記述子を保存し得るサンドボックスを提供し得る。スニペットペイン620は、アプリケーションごとに配置されるUI記述子621を含む。計算機アプリケーション(calculator application)622の下で、Windows(登録商標)10セレクタは、Windows(登録商標)10バージョン623、標準ウィンドウ(standard window)624、ターゲットUI要素625、およびそれぞれのUI要素セレクタ626の下に編成される。Windows(登録商標)7セレクタは、Windows(登録商標)7バージョン623A、標準ウィンドウ624A、ターゲットUI要素625A、およびそれぞれのUI要素セレクタ626Aの下に編成される。この実施形態では、セレクタが使用されるが、いくつかの実施形態では、UI要素セレクタに加えてまたはその代わりに、CV記述子、統合されたターゲット記述子、またはその両方が含められ得る。
【0147】
図6Eおよび
図6Fは、RPAワークフロー612のシーケンスのアクティビティを示す。各アクティビティに対応するWindows 7(登録商標)標準計算機画面の部分の画面キャプチャが、該当する場合は、そのアクティビティについて示され、強調表示される。アクティビティのためのそれぞれのUI要素は、例えばUiPath Studio(商標)の「表示」機能を使用して選択され得、これについては、アクティビティに複数のUI記述子タイプを使用することに関して本明細書で後で詳しく説明する。このようにして、ユーザーは、RPAワークフローが所望のUI要素とインタラクションする必要があることを視覚的に確認し得る。UI要素とインタラクションするアクティビティのためのボタン615をクリックすることにより、メニュー616が現れる。
図6Gを参照。ユーザーは、UIオブジェクトに追加オプション618を選択することによって、それぞれのUIオブジェクトをオブジェクトブラウザに追加し得る。
【0148】
図6Hは、プロパティペイン640に示されたクリックアクティビティに対するプロパティを有するRPAデザイナアプリケーション600を示す図である。
図6Iは、プロパティペイン640の拡大したビューである。プロパティペイン640の下部では、ユーザーは、UIオブジェクトブラウザタブ(UI object browser tab)652を介してUIオブジェクトブラウザを選択し得る。
【0149】
図6Jは、UIオブジェクトブラウザペイン650のUI記述子ビューを有するRPAデザイナアプリケーション600を示し、
図6Kは、UI記述子ビューを有するUIオブジェクトブラウザペイン650を拡大したビューを示す。UI記述子ビューは、プロジェクトUI記述子654AおよびUIオブジェクトライブラリ656Aを含む。
図6Kでは、プロジェクトに対してまだUI記述子が選択されていない。
【0150】
UI記述子を追加するために、開発者はスニペットペイン620を使用してこれらを追加し得る。例えば、開発者がスニペットペイン620でWindows(登録商標)7バージョン623Aを右クリックすると、メニュー627が表示され得る。開発者は、これらのUI記述子をプロジェクトに追加することを選択することができ、これにより、それらがUIオブジェクトブラウザペイン650のプロジェクトUI記述子654Aの下に表示され、UI記述子658Aとしてそれらを示す。
図6Lを参照。
図6Mに示されるUIオブジェクトブラウザペイン650のUIアクティビティビューには、プロジェクト654BとUIアクティビティ656Bが表示される。RPAワークフローはさまざまなタイプのさまざまなアクティビティを含み得、UIアクティビティビューは、UIアクティビティ656Bを一覧表示するため、開発者はそれらを簡単に視認し得る。UIアクティビティ656Bが抽出され得、スニペットペイン620に示されるものと同様の構造を有し得る。特定の実施形態では、開発され、ライブラリで共有されているすべてのUI記述子をスニペットペイン620に表示することができるが、UIアクティビティによって使用されるUI記述子のみがUIオブジェクトブラウザペイン650のUIアクティビティビューに表示される。
【0151】
セレクタがオブジェクトブラウザペイン650にあると、ユーザーは、
図6Nに示すように、所定のセレクタを所望のアクティビティにドラッグアンドドロップし得る。これにより、プロジェクトレベルでの再利用を提供する。いくつかの実施形態では、CV記述子、統合されたターゲット記述子などの他のUI記述子が、セレクタに加えてまたはセレクタの代わりに、所望のアクティビティにドラッグアンドドロップされ得る。セレクタがそれぞれのアクティビティにドロップされると、RPAワークフロー612は、それぞれのUI要素とインタラクションするために、RPAロボットによって遂行される準備が整う。
【0152】
開発者が、Windows(登録商標)10計算機(
図6OのWindows(登録商標)10計算機680を参照)に対して同じRPAプロセスを実行したい場合を考える。Windows(登録商標)10計算機のUI要素は、Windows(登録商標)7計算機のUI要素とは大幅に異なるため、Windows(登録商標)7計算機用に設計されたRPAプロセスを実行すると、さまざまなUI要素とインタラクションするアクティビティで失敗する可能性がある。
図6Bを参照。この例のように、セレクタがWindows(登録商標)10計算機用に既に開発されており、スニペットペイン620のUI記述子の公開ライブラリで利用できる場合、ユーザーは、Windows(登録商標)7計算機のセレクタを削除し、Windows(登録商標)10計算機用のセレクタを追加することができ、そして、これらは、UIオブジェクトブラウザペイン650のUIアクティビティビューに表示される。図を参照すると、本発明の実施形態によれば、Windows(登録商標)10計算機セレクタを使用する。
【0153】
ターゲットアプリケーションがWindows(登録商標)10計算機に設定されると、各アクティビティのためのスクリーンショット部分とそれぞれのセレクタがRPAワークフロー612で更新される。
図6Qを参照。RPAワークフロー612は、Windows(登録商標)10計算機では正しく遂行されないだろう。これにより、プロジェクトレベルでの再利用を提供する。しかし、セレクタは特にこのプロジェクト内にあり、UIオブジェクトライブラリとしてグローバルに使用することはまだできない。
【0154】
計算機アプリケーションを「更新」するために、UI要素のためのUI記述子は、アプリケーションの新しいバージョンのためのものに変更される。例えば、これらのUI記述子を含むNuGet(商標)パッケージが作成され、アップロードされてから取得され得る。したがって、UI要素の依存関係が変更されると、UI記述子が更新されるだろう。
【0155】
すべてのプロセスがUI記述子を使用できるようにグローバルレベルで再利用性を提供するために、UIオブジェクトライブラリ656Aが使用され得る。この実施形態において公開ボタン658をクリックすることによって(
図6Pを参照)、公開UIオブジェクトライブラリウィンドウ660が現れる。
図6Rを参照。これにより、プロジェクトからのセレクタおよび/または他のUI記述子は、管理パッケージウィンドウ(manage packages window)662を介して公開した後、他のRPAプロセスのために他の開発者がアクセスして利用できるパッケージ(例えば、NuGet(商標)パッケージ)に公開され得る。
図6Sを参照。この計算機記述子のパッケージをプロジェクトの依存関係としてインストールすると、UIオブジェクトブラウザペイン650のライブラリ656Aの下にセレクタ/UI記述子が表示される。
図6Tを参照。その後、UIオブジェクトライブラリが特定のプロジェクトに使用され得る。ベストプラクティスとして、UI要素とインタラクションするためのセレクタおよび/または他のUI記述子は、再利用が所望される場合にのみ、UIオブジェクトライブラリから依存関係としてインポートされ得る。しかし、特定のセレクタまたは他のUI記述子が特定のプロジェクトに固有であり、再利用される可能性が低い場合、特定のセレクタ/UI記述子はプロジェクト用にローカルで作成され、その他はUIオブジェクトライブラリからインポートされ得る。
【0156】
図7Aは、本発明の実施形態による、RPAデザイナアプリケーション700を示すスクリーンショットである。RPAデザイナアプリケーション700は、RPAワークフロー710(この例では、さまざまなUI要素特定アクティビティを含むシーケンス)を含むメインのRPA開発ペイン702を含む。プロジェクトペイン704は、現在のプロジェクトの依存関係を含む。UI記述子ペイン706は、現在、プロジェクトUI記述子およびUIオブジェクトライブラリの選択を含まない。
【0157】
図7Bは、RPAワークフロー710を示す拡大したビューである。アクティビティ720はセレクタベースの特定を使用し、アクティビティ730はCVベースの特定を使用し、アクティビティ740は統合されたターゲットベースの特定を使用するだろう。この例のアクティビティ720、730、740の構成を以下に説明する。
【0158】
図7Cは、UiPath Studio(商標)によって変更可能なものとしてWindows(登録商標)10計算機(calculator)750を示す。ユーザーがセレクタベースの特定アクティビティ720(
図7B参照)に対して「画面上に表示(indicate on screen)」721を選択すると、開発者がマウスを動かしたUIの認識された要素が強調表示される。例えば、
図7Cでは、9ボタン752が強調表示されている。ユーザーが9ボタン752をクリックすると、選択されたUI要素を含むスクリーンショット722がセレクタベースの特定アクティビティ720に表示される。
図7Dを参照。
【0159】
セレクタベースの特定アクティビティ720のボタン724をクリックすると、メニュー725が現れる。
図7Eを参照。「エディットセレクタ(Edit Selector)」オプションを選択すると、セレクタエディタ(selector editor)726が開く。
図7Fを参照。セレクタエディタ726により、開発者はセレクタの属性を編集し、セレクタがWindows(登録商標)10計算機750(つまり、9ボタン752)内のそれぞれのUI要素を見つけることを検証し得る。「ハイライト(Highlight)」を選択すると、Windows(登録商標)10計算機750でそれぞれのUI要素が強調表示される。セレクタが作成された後、開発者は、セレクタベースの特定アクティビティ720のボタン724をクリックして、メニュー725の「UIオブジェクトに追加(Add to UI Objects)」オプションを選択でき、これにより、UIオブジェクトライブラリウィンドウに追加(add to UI objects library window)728が表示される。
図7Gを参照。開発者は、次いで、9ボタン用に作成されたセレクタをプロジェクトのためのUIオブジェクトライブラリに追加し得る。セレクタは、今度UI記述子ペイン706に表示される。
図7Hを参照。
【0160】
CVベースの特定アクティビティ730を構成するために、ユーザーは、最初に、この実施形態でCVが実行される画面を示す必要がある。ユーザーが「画面上に表示(indicate on screen)」731(
図7B参照)を選択すると、ユーザーは、Windows(登録商標)10計算機750のUIをクリックし、これにより、UiPath Studio(商標)は要素(CVを使用)とラベル(選択したOCRエンジン732-この場合は Microsoft(登録商標)OCRを使用)を検出し、メッセージ733が表示される。
図7Iを参照。Windows(登録商標)10計算機750のUIの要素およびラベルが検出されると、検出されたUI要素のスクリーンショット734がCVベースの特定アクティビティ730に表示される。
図7Kを参照。CVを使用して9ボタンを特定するように構成され得るCVクリックアクティビティ735が使用され得る。このアクティビティは、検索インターフェース708を使用して、CVベースの特定アクティビティ730内に入れ子にされたアクティビティとして追加され得、これは、開発者が特定のアクティビティのプラスアイコンをクリックすると表示され得る。
図7Jを参照。
【0161】
開発者が、CVクリックアクティビティ735のスコープ(scope)736をクリックして示すと、Windows(登録商標)10計算機750がCVクリックインターフェース754と共に表示される。
図7Lを参照。しかし、ユーザーが9ボタン752をクリックすると、このボタンはCVを使用して一意に認識されない。
図7Mを参照。CVクリックインターフェース754は、重複一致が見つかったというメッセージを開発者に表示し、開発者にアンカーを追加するように求める。次に、9ボタン752が、Windows(登録商標)10計算機750内の他のアンカーUI要素との関係に基づいて、ターゲットUI要素として一意に特定されるまで、開発者は、9ボタン752のアンカーを追加する(例えば、アンカー選択機能を使用した、選択されたアンカー756、757および候補アンカー758)。9ボタン752のためのCV記述子がターゲットおよびアンカー(複数可)を使用してそれを一意に特定した後、スクリーンショット737がCVクリックアクティビティ735に表示される。
図7Oを参照。
図7Oにおいて、スクリーンショット737は、ターゲットおよびアンカーが適切に選択されていないバージョンを示しているが、これは単なる例として示されている。特定の実施形態では、CV記述子は、ターゲットUI要素を一意に特定するようにそれを構成せずに保存され得る。
【0162】
開発者は、プロパティタブ(properties tab)760を使用して、記述子プロパティでCVクリックを表示し得る。
図7Pを参照。これは、CV記述子のさまざまな変数を提供する。しかし、セレクタとは異なり、CV記述子のセレクタの基になる属性は複雑であり得、画像へのAI/MLモデルの適用に関連し得る。したがって、CVセレクタが提供されるが、いくつかの実施形態では、それは開発者により容易にアクセスまたは修正でき得ない。代わりに、開発者は、CV記述子/セレクタを編集するために、ターゲットUI要素を再度指定し得る。これはまた、いくつかの実施形態では、技術者ではないユーザーでもターゲット/アンカーを示すことができることを意味する。画面上のUI要素の収集および開発者がクリックしたいUI要素は、CVベースの特定アクティビティ730の一部として保存され得る。
【0163】
統合されたターゲットベースの特定アクティビティ740に関して、開発者が「アプリケーションを表示(Indicate Application)」741(
図7Bを参照)を選択すると、ユーザーはWindows(登録商標)10計算機750のUIクリックし、これにより、UiPath Studio(商標)はUIのスクリーンショット743をキャプチャし、統合されたターゲットベースの特定アクティビティ740でスクリーンショット743を表示する。
図7Qを参照。スクリーンショット743に関連付けられたアプリケーションのためのアプリケーションパス(application path)744も示され、開発者は必要に応じてアプリケーション引数(application arguments)745を追加し得る。ドゥーアクティビティ(do activity)742は、統合されたターゲットベースの特定アクティビティ740に入れ子(nested)にされている。開発者がプラスアイコンをクリックすると、検索インターフェース708が表示される。
図7Rを参照。その後、開発者は所望のクリック機能を検索し得る。
【0164】
選択されたクリックオプションにより、入れ子にされたクリックアクティビティ746がドゥーアクティビティ742内に表示される。
図7Sを参照。クリックアクティビティ746は、開発者が画面上で選択およびクリックされるターゲットを示すことを可能にする画面上に表示ボタン(indicate on screen button)747を含む。開発者は、クリックのタイプおよびクリックするマウスボタンを指定することもできる。この場合、シングル左クリックが指定される。
【0165】
画面上に表示ボタン747をクリックすると、統合されたターゲット選択オプションウィンドウ770が現れる。
図7Tを参照。統合されたターゲットは、画像に基づいてターゲットおよび/またはアンカーを追加し、舞台裏でセレクタベースのフレームワークを使用する。マウスを9ボタンの上に置くと、ターゲットUI要素のアウトライン772が表示される。ユーザーが9ボタンをクリックすると、それがターゲットとして選択され、このステータスがターゲットUI要素のアウトライン772に示される。
図7Uを参照。アンカー指定アイコン774を含む、さまざまなオプションアイコンも表示される。この実施形態では、UiPath Studio(商標)は適切なアンカーを自動的に見つけようと試みたが、そうすることができなかった。
【0166】
開発者はアンカー776(この場合は、8ボタン)を指定し、これらの要素の組み合わせにより、統合されたターゲットロジックはターゲットとアンカー8ボタンとの組み合わせを使用してターゲット9ボタンを一意に特定し得る。
図7Vを参照。これにより、統合されたターゲット選択オプションウィンドウ770は、ターゲットおよびアンカーがOKであることを確認し、デザイナはターゲットおよびアンカーのセレクタを検証し、選択を確認し、またはキャンセルし得る。ここで、開発者は、ターゲットおよびアンカーセレクタを検証することを選択し、統合されたターゲット選択オプションウィンドウ770は、検証スコア通知778に示される100%の検証精度スコアで検証が成功したことを確認する。
図7Wを参照。ターゲットおよびアンカーのセレクタがOKであることを示した後、ターゲットおよびアンカーのスクリーンショット748が表示される。
図7Xを参照。特定の実施形態では、統合されたターゲットフレームワーク内でCV技法が使用され得る。
【0167】
いくつかの実施形態では、UI要素を見つけるために画像マッチングが使用され得る。例えば、クリック画像アクティビティ780が
図7Yに追加された。開発者が「画面上に画像を表示(indicate image on screen)」782を選択すると、開発者は画像検索用の画像を定義し得る。
図7Zでは、開発者がボックス784を9ボタンの周りにドラッグすると、9ボタンのスクリーンショット786がクリック画像アクティビティ780に現れる。クリック画像アクティビティのプロパティは、プロパティタブ760に表示される。
図7aを参照。
図7bのセレクタエディタ726に示すように、画像のためのセレクタも生成される。セレクタは、開発者がスナップショットを取得したアプリケーションをキャプチャする。
【0168】
特定の実施形態では、セレクタおよびOCRの組み合わせが使用され得る。
図7cは、開発者が検索するテキストを手動で入力できるフィールド794と、OCRエンジン796とを含むクリックOCRテキストアクティビティ790を示す。この実施形態では、ユーザーが「画面上に表示(Indicate on screen)」792をクリックすると、ユーザーは、セレクタベースのアプローチと同様の方法でUI要素を選択する(
図7Cを参照)。UI要素の選択後、選択されたUI要素のスクリーンショット798がクリックOCRテキストアクティビティ790に表示される。
図7dを参照。しかし、セレクタベースのアプローチとは異なり、セレクタおよびOCRのアプローチでは、さらにOCRを使用してUI要素を特定する。たとえば、計算機ボタンの多くは同じ形を有するが、それぞれの数字を持つボタンは1つだけである。
【0169】
図8は、本発明の実施形態による、セレクタベースのアクティビティを生成するためのプロセス800を示すフローチャートである。プロセスは、810でセレクタベースのアクティビティを生成することから始まる。アクティビティは、ボタンをクリックする、テキストを入力する、メニューを開き、そしてオプションを選択する、などを行うことができる。820で画面上に表示コマンドが受信され、830でアプリケーションが検出される。これは、いくつかの実施形態では、アプリケーションの自動検出、アプリケーションのバージョンの検出、および/またはアプリケーション内の画面の検出を含み得る。アプリケーションが自動検出されない場合、アプリケーションの検出は、ユーザーにアプリケーション名およびバージョンの提供を要求することを含み得る。例えば、複数のアプリケーションが検出された場合、および/またはユーザーがこの情報を手動で入力できる場合、ドロップダウンリストをユーザーに提供して、アプリケーション名およびアプリケーションバージョンを提供し得る。
【0170】
開発者が所望のRPAプロセスを作成できるようにする一連のアクティビティが提供され得る。いくつかのアクティビティは、ユーザーが使用して画面/アプリケーションを示すことを可能にし得る。ユーザーが自動化を実行したい場合、ユーザーは、アクティビティがインタラクションする必要がある画面、画面上のUI要素などを示し得る。特定のアクティビティはアプリケーションを開き得る。これは、デスクトップアプリケーションを開く、URLを使用して案内するなどを含み得る。
【0171】
アプリケーション画面上のUI要素は840で検出される。いくつの実施形態では、検出された要素は、ユーザーがUIモデルを生成するために強調表示され得る。検出されたUI要素は、画面のモデルとして、タクソノミまたはツリーとして編成され得る。しかし、特定の実施形態では、オントロジーなどの非タクソノミ的手法が使用され得る。オントロジーは、画面間の特定の構造的および論理関係を定義し得る。例えば、ある画面で「送信」ボタンがクリックされると、これにより少なくともいくつかの異なるUI要素を含む別の画面が表示され得る。また、特定のUI要素および/または画面の一部は、複数の画面に共通し得る。例えば、Microsoft Outlook(登録商標)では、通常、左側のレールナビゲーションサブスクリーンは変化せず、スクリーン間で再利用できる。変更されないサブスクリーンおよび/またはUI要素を把握することで、処理時間を短縮し得る。
【0172】
850で、アクティビティのためのUI要素の表示がユーザーから受信される。これは、いくつかの実施形態では、所望のUI要素をクリックすることを含み得る。860において、UI要素に対するベストマッチに基づいたドライバ(例えば、ドライバ340)を使用して、指示されたUI要素に対して独創的なセレクタが生成され、それに応じてアクティビティが構成される。
【0173】
図9は、本発明の実施形態による、CV記述子ベースのアクティビティを生成するためのプロセス900を示すフローチャートである。プロセスは、910でCV記述子ベースのアクティビティを生成することから始まる。920で、画面上に表示コマンドと、自動化する画面のユーザー選択が受信される。例えば、いくつかの実施形態では、ユーザーはアプリケーションインターフェース全体を選択し得る。930でアプリケーションが検出され、940でCVを使用してアプリケーション画面上のUI要素が検出される。
【0174】
インタラクション用のUI要素を指定するコマンドが受信され、インターフェースは、950でCVによって検出された選択可能なUI要素とともに表示される。次いで、960で、ターゲットUI要素の選択がユーザーから受信される。970でターゲットが一意に特定され得る場合、CV記述子が生成され、それに応じて980でアクティビティが構成される。しかし、970でターゲットが一意に特定され得ない場合、990でターゲットが一意に特定され得るまで、アンカー指定が必要であり、かつユーザーから受信される。次に、プロセスはステップ980に進み、CV記述子を生成し、アクティビティを構成する。
【0175】
図10は、本発明の実施形態による、統合されたターゲットベースのアクティビティを生成するためのプロセス1000を示すフローチャートである。1020で、アプリケーション表示コマンドと、自動化する画面のユーザー選択が受信される。例えば、いくつかの実施形態では、ユーザーはアプリケーションインターフェース全体を選択し得る。例えば、1030でアプリケーションが検出され、1040でドライバを使用してアプリケーション画面上のUI要素が検出される。
【0176】
インタラクション用のUI要素を指定するコマンドが受信され、インターフェースは、1050でドライバによって検出された選択可能なUI要素とともに表示される。次いで、1060で、ターゲットUI要素の選択がユーザーから受信される。1070で、その要素のためだけのセレクタを使用してターゲットが一意に特定され得る場合、統合されたターゲット記述子が生成され(例えばセレクタ)、1080でそれに応じてアクティビティが構成される。しかし、1070でターゲットが一意に特定され得ない場合、1090でターゲットが一意に特定され得るまで、アンカー指定が必要であり、かつユーザーから受信される。いくつかの実施形態では、これは、検証スコアを決定することによってターゲットおよびアンカー(複数可)を検証することを含み得る。次に、プロセスはステップ1080に進み、統合されたターゲット記述子(例えば、ターゲットおよびアンカー(複数可)のためのセレクタ、およびそれらの間の位置的/幾何学的関係)を生成し、アクティビティを構成する。
【0177】
UI要素が一意に特定されるかどうかを判断するために、強度計算(検証スコアなど)が使用されて、統合されたターゲットUI記述子に基づいて、ターゲットUI要素がどの程度一致すると考えられるかを判断し得る。強度計算がしきい値未満(例えば、97%未満、95%未満など)である場合、実行時にUI要素が所望のように正確に決定され得ない可能性がある。許容可能な精度は、RPAワークフローで達成されるタスク(複数可)によって異なり得る。しきい値を下回るUI要素ターゲットでは、一意の特定のためにアンカーが必要になる場合がある。これらのアンカーは、自動的に決定されてユーザーに表示され得る、またはユーザーがUI要素にマウスを合わせてアンカーを選択し得る。いくつかの実施形態では、所定のアンカーを追加することによる統合されたターゲット記述子の強度がユーザーに示され得る。アンカーを追加した後もしきい値を満たさない場合、ユーザーは、ターゲットUI要素のしきい値を満たすまでさらなるアンカーを追加し続ける必要があり得る。
【0178】
アンカーは、画面上のターゲットUI要素を一意に特定するのを助けるために使用され得る画面上の他のUI要素である。例えば、画面上に複数のテキストフィールドが含まれている場合、テキストフィールドを検索するだけでは、与えられたテキストフィールドを一意に特定するには不十分である。したがって、いくつかの実施形態では、与えられたUI要素を一意に特定するために、追加の情報を探す。テキストフィールドの例を使用すると、「ファーストネーム(First Name)」というラベルの右側に、ファーストネームを入力するためのテキストフィールドが表示される場合があり得る。このファーストネームラベルは、「ターゲット」であるセレクタのためのテキストフィールドを一意に特定するのに役立つように、「アンカー」として設定してもよい。
【0179】
いくつかの実施形態では、ターゲットとアンカーの間の様々な位置および/または幾何学的な関連付けが、ターゲットを一意に特定するために、潜在的に許容差内で使用される可能性がある。例えば、アンカーとターゲットのバウンディングボックスの中心が線セグメントを定義するために使用されてもよい。次いで、この線セグメントは、ターゲット/アンカーペアを使用してターゲットを一意に特定するために、許容差内の特定の長さおよび/または許容差内の傾きを有することが要求され得る。
【0180】
いくつかの場合は、画面上のターゲット要素を一意に特定するには、単一のアンカーでは不十分な場合がある。例えば、画面上の異なる位置にある「ファーストネーム」というラベルのそれぞれの右側に、ファーストネームを入力するための2つのテキストフィールドが表示されている場合を考えてみる。この場合では、1または複数の追加のアンカーは、所与のターゲットを一意に特定するのに有用であり得る。アンカーとターゲットとの間の幾何学的特性(例えば、許容差を有する線セグメントの長さ、角度、および/または相対位置)は、ターゲットを一意に特定するために使用されてもよい。ユーザーは、ターゲットに対する一致強度がしきい値を超えるまでアンカーを追加し続けることが要求されてもよい。
【0181】
いくつかの実施形態では、UI要素およびアンカー候補をマークしてユーザーに表示するのではなく、強度計算がしきい値を超えるまで、1または複数のアンカーが自動的に割り当てられてもよい。例えば、しきい値が97%で、特定のUI要素の一致強度が90%の場合、システムは、一致強度がしきい値以上になるまでアンカーを追加し続け得る。これは、いくつかの実施形態では、セレクタの一致強度を最も高めるアンカーを決定し、このアンカーを追加し、まだしきい値を下回っている場合は、アンカーを追加した後に他の要素の一致強度が増加することを決定し、一致強度の最大の増加を引き起こすアンカーを追加し、そしてしきい値が満たされるまで繰り返すことによって達成され得る。
【0182】
図11は、本発明の実施形態による、画像マッチングアクティビティを生成するためのプロセス1100を示すフローチャートである。プロセスは、1110で画像マッチングアクティビティを生成することから始まる。アクティビティは、ボタンをクリックする、テキストを入力する、メニューを開いてオプションを選択するなど、画像マッチング技術に基づいて行うことができる。1120で画面上に表示コマンドが受信され、1130でアプリケーションが検出される。
【0183】
画像マッチングが実行されるアプリケーションの領域の選択は、1140で受信される。これは、ユーザーが対象のUI要素の周りにボックスを描くこと、なげなわツールを使用すること、フリーフォーム選択を描くこと、または本発明の範囲から逸脱することなく他の選択メカニズムを含む。次いで、選択された画像に対して画像マッチングセレクタが生成され、1150において、それに応じてアクティビティが構成される。
【0184】
図12は、本発明の実施形態による、セレクタおよびOCRベースのアクティビティを生成するためのプロセス1200を示すフローチャートである。プロセスは、1210でセレクタおよびOCRベースのアクティビティを生成することから始まる。アクティビティは、ボタンをクリックする、テキストを入力する、メニューを開き、そしてオプションを選択する、などを行うことができる。1220で画面上に表示コマンドが受信され、1230でアプリケーションが検出される。アプリケーション画面上のUI要素も1240で検出される。
【0185】
1250で、アクティビティのためのUI要素の指示がユーザーから受信される。これは、いくつかの実施形態では、所望のUI要素をクリックすることを含み得る。1260において、UI要素に対するベストマッチに基づいたドライバを使用して、指示されたUI要素に対して独創的なセレクタが生成され、それに応じてアクティビティが構成される。1270で、OCRエンジンの選択が受信され、それに応じてアクティビティが構成される。RPAプロセスの一部として遂行されると、セレクタのみを検索するのではなく、セレクタおよびOCRベースのアクティビティは、UI要素のセレクタが見つかったことと、UI要素のテキストがOCRを使用してアクティビティで指定されたテキストと一致することの両方を確認する。
【0186】
図13は、本発明の実施形態による、複数の特定技法を使用するRPAワークフローを生成するためのプロセス1300を示すフローチャートである。プロセスは、1310でUI要素特定およびインタラクションアクティビティを生成することから始まります。アクティビティは、1または複数のセレクタベースの特定アクティビティ、CVベースの特定アクティビティ、統合されたターゲット特定アクティビティ、画像マッチング特定アクティビティ、セレクタおよびOCRベースの特定アクティビティ、任意の他の適切な特定アクティビティ、それらの任意の組み合わせなどであり得る。
【0187】
次いで、1320で、UI要素特定およびインタラクションアクティビティが論理関係に構成される。論理関係は、順次的、条件付き(例えば、最初のアクティビティでUI要素が一意に検出されない場合は、UI要素が一意に特定されるかまたはすべてのアクティビティが試行されるまで、2番目、次いで3番目などを使用する)、パラレルなどの場合があり得る。1330で、UI要素特定およびインタラクションアクティビティを含むワークフローを実装するRPAロボットが生成され、1340で、UI要素を検出してインタラクションするためにRPAロボットが遂行される。
【0188】
図14は、本発明の実施形態による、UIオブジェクトライブラリを作成し、アプリケーションの新しいバージョンと連携するプロジェクトを構成するためのプロセス1400を示すフローチャートである。プロセスは、1または複数のUIオブジェクトライブラリが1410で以前に作成されている場合、UIオブジェクトリポジトリからそれらをロードすることから開始し得る。次いで、1420で、変更されたUIを有するアプリケーションの新しいバージョンとインタラクションするために、1または複数のUIオブジェクトライブラリから、アクティビティのそれぞれのUI要素とインタラクションするためのUI記述子が作成および/または追加される。
【0189】
適切なUI記述子が更新されると、1430で、UI記述子を含むUIオブジェクトライブラリがUIオブジェクトリポジトリで公開される。UIオブジェクトライブラリはまた、アプリケーション、画面、およびアクティビティがインタラクションするアプリケーションからの少なくとも一部のUI要素を含み得る。しかし、特定の実施形態では、RPAワークフローで特に使用されない他のUI要素および/またはUI記述子が含められ得る。その後、UIオブジェクトライブラリは、1440で、他のRPAワークフローおよび/または他の開発者による使用のために、UIオブジェクトリポジトリで公開または再公開される。
【0190】
UIオブジェクトライブラリにUIオブジェクトがない場合、またはアクティビティのためのUI記述子がアプリケーションの新しいバージョンで機能しなくなった場合、ユーザーはこれらを追加し得る。作成されたUIオブジェクトライブラリ、およびもしかするとUIオブジェクトリポジトリ内の他のUIオブジェクトライブラリは、デザイナアプリケーションでユーザーに表示され得る。オブジェクトライブラリの公開は、いくつかの実施形態では、グローバルオブジェクトライブラリデータベース(OLDB)またはローカルOLDBの一部として実行され得る。例えば、グローバルOLDB UIオブジェクトリポジトリは、グローバルに共有されたデータベース(センターオブエクセレンス(CoE)レベル)であり得る。ローカルのOLDB UIオブジェクトリポジトリは、ローカルに共有されたデータベース(ローカルマシンレベル)であり得る。いくつかの実施形態では、UIオブジェクトライブラリは、UiPath(商標)サービスまたはGo!サービスなどのサービスにプッシュされて公開され得る。これにより、必要に応じて、一連のUIオブジェクトライブラリを世界と共有できる。UIオブジェクトリポジトリ(OLDBなど)の格納形式は、アーキテクチャ/技術レベルで決定される必要がある。
【0191】
図8~
図14で実行されるプロセスステップは、本発明の実施形態に従って、
図8~
図14で説明したプロセス(複数可)の少なくとも一部を実行するようにプロセッサ(複数可)への命令をエンコードするコンピュータプログラムによって実行されてもよい。コンピュータプログラムは、非一時的なコンピュータ読み取り可能な媒体に格納されていてもよい。コンピュータ読み取り可能な媒体は、ハードディスクドライブ、フラッシュデバイス、RAM、テープ、および/またはデータを格納するために使用される他のそのような媒体または媒体の組み合わせであってもよいが、これらに限定されるものではない。コンピュータプログラムは、
図8~
図14に記載されたプロセスステップの全部または一部を実装するために、コンピューティングシステム(例えば、
図5のコンピューティングシステム500のプロセッサ(複数可)510)のプロセッサ(複数可)を制御するためのコード化された命令を含んでもよく、これはまた、コンピュータ読み取り可能な媒体に格納されてもよい。
【0192】
コンピュータプログラムは、ハードウェア、ソフトウェア、またはハイブリッド実装で実装され得る。コンピュータプログラムは、互いに動作可能な通信を行うモジュールで構成され得、情報または指示をディスプレイに送るように設計されている。コンピュータプログラムは、汎用コンピュータ、ASIC、またはいずれかの他の好適なデバイスで動作するように構成され得る。
【0193】
本発明の様々な実施形態のコンポーネントは、本明細書に一般的に記載され、図示されているように、様々な異なる構成で配置され、設計されてもよいことが、容易に理解されるであろう。したがって、添付の図に表されるような本発明の実施形態の詳細な説明は、特許請求されるような本発明の範囲を限定することを意図するものではなく、本発明の選択された実施形態を代表するものにすぎない。
【0194】
本明細書を通して記載された本発明の特色、構造、または特徴は、1または複数の実施形態では、いずれかの好適な方法で組み合わせられ得る。例えば、本明細書全体を通して「特定の実施形態」、「いくつかの実施形態」、または類似の言語を参照することは、実施形態に関連して記載された特定の特色、構造、または特徴が、本発明の少なくとも1つの実施形態に含まれていることを意味する。したがって、本明細書全体を通して「特定の実施形態では」、「いくつかの実施形態では」、「他の実施形態では」、または類似の言語の出現は、必ずしも全ての実施形態の同じグループを指すものではなく、記載された特色、構造、または特徴は、1または複数の実施形態ではいずれかの好適な方法で組み合わせられ得る。
【0195】
本明細書全体を通して特色、利点、または類似の言語への参照は、本発明で実現され得る特色および利点の全てが、本発明のいずれかの単一の実施形態にあるべきであること、または本発明のいずれかの実施形態であることを意味するものではないことに留意すべきである。むしろ、特色および利点に言及する言語は、実施形態に関連して記載された特定の特色、利点、または特徴が、本発明の少なくとも1つの実施形態に含まれることを意味すると理解される。したがって、本明細書全体での特色および利点の議論、ならびに類似の言語は、同じ実施形態を参照することができるが、必ずしもその必要性はない。
【0196】
さらに、本発明の記載された特色、利点、および特徴は、1または複数の実施形態では、いずれかの好適な方法で組み合わせることができる。関連する技術の当業者は、本発明が、1または複数の特定の実施形態の特定の特徴または利点なしに実施され得ることを認識するであろう。他の例では、追加の特徴および利点は、本発明の全ての実施形態には存在しないかもしれないが特定の実施形態では認識され得る。
【0197】
本分野における通常の技術を有する者は、上述したような本発明を、異なる順序でのステップを用いて、および/または開示されているものとは異なる構成のハードウェア要素を用いて実施することができることを容易に理解するであろう。したがって、本発明は、これらの好ましい実施形態に基づいて説明されてきたが、本発明の精神および範囲内にとどまりながら、特定の変更、変形、および代替的な構成が明らかになることは、当業者には明らかであろう。したがって、本発明の範囲を決定するためには、添付の特許請求の範囲を参照すべきである。