IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ユーアイパス,インコーポレイテッドの特許一覧

特表2022-552133畳み込みニューラルネットワークを使用したロボティック・プロセス・オートメーションにおけるユーザーインターフェース要素の検出
<>
  • 特表-畳み込みニューラルネットワークを使用したロボティック・プロセス・オートメーションにおけるユーザーインターフェース要素の検出 図1
  • 特表-畳み込みニューラルネットワークを使用したロボティック・プロセス・オートメーションにおけるユーザーインターフェース要素の検出 図2
  • 特表-畳み込みニューラルネットワークを使用したロボティック・プロセス・オートメーションにおけるユーザーインターフェース要素の検出 図3
  • 特表-畳み込みニューラルネットワークを使用したロボティック・プロセス・オートメーションにおけるユーザーインターフェース要素の検出 図4
  • 特表-畳み込みニューラルネットワークを使用したロボティック・プロセス・オートメーションにおけるユーザーインターフェース要素の検出 図5
  • 特表-畳み込みニューラルネットワークを使用したロボティック・プロセス・オートメーションにおけるユーザーインターフェース要素の検出 図6
  • 特表-畳み込みニューラルネットワークを使用したロボティック・プロセス・オートメーションにおけるユーザーインターフェース要素の検出 図7
  • 特表-畳み込みニューラルネットワークを使用したロボティック・プロセス・オートメーションにおけるユーザーインターフェース要素の検出 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-12-15
(54)【発明の名称】畳み込みニューラルネットワークを使用したロボティック・プロセス・オートメーションにおけるユーザーインターフェース要素の検出
(51)【国際特許分類】
   G06N 3/02 20060101AFI20221208BHJP
   G06N 20/00 20190101ALI20221208BHJP
【FI】
G06N3/02
G06N20/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022520189
(86)(22)【出願日】2020-08-12
(85)【翻訳文提出日】2022-05-30
(86)【国際出願番号】 US2020045830
(87)【国際公開番号】W WO2021071579
(87)【国際公開日】2021-04-15
(31)【優先権主張番号】16/595,727
(32)【優先日】2019-10-08
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVASCRIPT
2.BLUETOOTH
3.TENSORFLOW
(71)【出願人】
【識別番号】520262319
【氏名又は名称】ユーアイパス,インコーポレイテッド
【氏名又は名称原語表記】UiPath,Inc.
【住所又は居所原語表記】1 Vanderbilt Avenue, 60th Floor, New York, NY 10017, United States of America
(74)【代理人】
【識別番号】100180781
【弁理士】
【氏名又は名称】安達 友和
(74)【代理人】
【識別番号】100182903
【弁理士】
【氏名又は名称】福田 武慶
(72)【発明者】
【氏名】ネアゴヴィチ,ミルシア
(72)【発明者】
【氏名】アダム,ステファン
(72)【発明者】
【氏名】チューダー,ヴァージル
(72)【発明者】
【氏名】ボボリー,ドラゴス
(57)【要約】
ユーザーインターフェース(UI)内のグラフィカル要素は、畳み込みニューラルネットワーク(CNN)を使用するロボティック・プロセス・オートメーション(RPA)において検出され得る。そのようなプロセスは、従来の技術を使用して検出するには小さすぎるグラフィカル要素を検出するために特に好適であり得る。グラフィカル要素(例えば、制御オブジェクト)を検出する精度は、例えば、異なる解像度、異なるオペレーティングシステム(OS)スケーリング係数、異なるドットパーインチ(DPI)設定などの様々なUI係数の変更、並びにアプリケーション及びウェブサイトのUIカスタマイズによる変更に対して堅牢なニューラルネットワークベースの処理を提供することによって、高められ得る。
【特許請求の範囲】
【請求項1】
非一時的コンピュータ可読媒体に格納されたコンピュータプログラムであって、前記プログラムが、少なくとも1つのプロセッサに、
畳み込みニューラルネットワーク(CNN)が動作する環境から直接的に画像を収集することによって生のデータセットを作成させ、
前記生のデータセットを拡張して拡張データセットを生成させ、
前記拡張データセットを使用して前記CNNをトレーニングさせ、
前記トレーニングさせたCNNを使用してユーザーインターフェース(UI)内のグラフィカル要素を検出させる
ように構成される、コンピュータプログラム。
【請求項2】
前記生のデータセットが、実際のスクリーンショットを模倣する合成データから作成される、請求項1に記載のコンピュータプログラム。
【請求項3】
前記生のデータセットの前記拡張が、画像を水平方向に裏返すことと、色を変更することと、ノイズを人工的に追加することと、照明を人工的に追加することと、それらの任意の組合せと、を含む、請求項1に記載のコンピュータプログラム。
【請求項4】
前記生のデータの前記拡張が、チャネルランダム化、色相シフト、色反転、ランダムクロッピング、ランダムスケーリング、画像のぼかし、又はそれらの任意の組合せを使用することを含む、請求項1に記載のコンピュータプログラム。
【請求項5】
ランダムクロッピングが、クロップされた画像を生成するために使用され、前記プログラムが、前記少なくとも1つのプロセッサに、
前記生成したクロップされた画像のうちの1つのクロップされた画像上にグリッドとして矩形をオーバーレイさせ、
前記オーバーレイさせた矩形を実際のラベルに照合させ、
照合するものがあった場合、肯定的な例として前記クロップされた画像を使用して前記CNNをトレーニングさせ、
照合するものがない場合、否定的な例として前記クロップされた画像を使用して前記CNNをトレーニングさせる、ように更に構成される、請求項4に記載のコンピュータプログラム。
【請求項6】
前記プログラムが、前記少なくとも1つのプロセッサに、
前記グリッド内の矩形ごとに提案を提供させるように更に構成され、
前記提案が、スケール及びストライド距離を備え、前記ストライド距離が、前記矩形間の距離を画定し、
2つの矩形が比較されるたびに、重なり具合又は最小重なり具合が、所与の矩形の面積に依存する所与の適応閾値と共に使用される、請求項5に記載のコンピュータプログラム。
【請求項7】
異なるクロップ技法が、少なくとも2つの異なるグラフィカル要素タイプを識別するために使用される、請求項5に記載のコンピュータプログラム。
【請求項8】
前記CNNが、領域提案ネットワーク(RPN)を有する高速領域ベースの畳み込みニューラルネットワーク(R-CNN)アーキテクチャを備える、請求項1に記載のコンピュータプログラム。
【請求項9】
前記拡張データセットが並進を備える、請求項1に記載のコンピュータプログラム。
【請求項10】
前記グラフィカル要素の前記検出が、グラフィカル要素ごとに固定数の提案を提供することを含み、
前記提案が、設計時及び実行時に対して異なる閾値でフィルタリングされ、前記実行時閾値が、前記設計時閾値よりも高い検出確率を有する、請求項1に記載のコンピュータプログラム。
【請求項11】
コンピューティングシステムによって、チャネルランダム化、色相シフト、色反転、ランダムクロッピング、ランダムスケーリング、画像のぼかし、又はそれらの任意の組合せを使用して生のデータセットを拡張して、拡張データセットを生成することと、
前記コンピューティングシステムによって、前記拡張データセットを使用して、畳み込みニューラルネットワーク(CNN)をトレーニングすることと、
前記コンピューティングシステムによって、前記トレーニングしたCNNを使用して、ユーザーインターフェース(UI)内のグラフィカル要素を検出することと
を含む、コンピュータ実装方法。
【請求項12】
ランダムクロッピングが、クロップされた画像を生成するために使用され、前記方法が、
前記コンピューティングシステムによって、前記生成したクロップされた画像のうちの1つのクロップされた画像上にグリッドとして矩形をオーバーレイすることと、
前記コンピューティングシステムによって、前記オーバーレイした矩形を実際のラベルに照合することと、
前記コンピューティングシステムによって、前記グリッド内の矩形ごとに提案を提供することと、
前記コンピューティングシステムによって、照合するものがあった場合、肯定的な例として前記クロップされた画像を使用して前記CNNをトレーニングすることと、
前記コンピューティングシステムによって、照合するものがない場合、否定的な例として前記クロップされた画像を使用して前記CNNをトレーニングすることと
を更に含む、請求項11に記載のコンピュータ実装方法。
【請求項13】
異なるクロップ技法が、少なくとも2つの異なるグラフィカル要素タイプを識別するために使用される、請求項12に記載のコンピュータ実装方法。
【請求項14】
2つの矩形が比較されるたびに、重なり具合又は最小重なり具合が、所与の閾値と共に使用され、
前記閾値が、所与の矩形の面積に依存する適応閾値である、請求項12に記載のコンピュータ実装方法。
【請求項15】
前記コンピューティングシステムによって、前記CNNが動作する環境から直接的に画像を収集することによって前記生のデータセットを作成することを更に含み、
前記生のデータセットが、実際のスクリーンショットを模倣する合成データから作成され、
前記生のデータセットの前記拡張が、画像を水平方向に裏返すことと、色を変更することと、ノイズを人工的に追加することと、照明を人工的に追加することと、それらの任意の組合せと、を含む、請求項11に記載のコンピュータ実装方法。
【請求項16】
前記グラフィカル要素を前記検出することが、グラフィカル要素ごとに固定数の提案を提供することを含み、
前記提案が、設計時及び実行時に対して異なる閾値でフィルタリングされ、前記実行時閾値が、前記設計時閾値よりも高い検出確率を有する、請求項11に記載のコンピュータ実装方法。
【請求項17】
コンピュータプログラム命令を記憶するメモリと、
前記コンピュータプログラム命令を遂行するように構成された少なくとも1つのプロセッサと
を備える、システムであって、
前記少なくとも1つのプロセッサが、領域提案ネットワーク(RPN)バックボーンを有する高速領域ベースの畳み込みニューラルネットワーク(R-CNN)アーキテクチャを使用してユーザーインターフェース(UI)内のグラフィカル要素を検出するように構成され、
前記検出が、画像上にグリッドとして矩形をオーバーレイすることと、前記グリッド内の矩形ごとに所定数の提案を提供することと、を含み、
前記提案が、スケール及びストライド距離を備え、前記ストライド距離が、前記矩形間の距離を画定し、
2つの矩形が比較されるたびに、重なり具合又は最小重なり具合が所与の閾値と共に使用され、
前記閾値が、所与の矩形の面積に依存する適応閾値である、システム。
【請求項18】
前記提案が、設計時及び実行時に対して異なる閾値でフィルタリングされ、前記実行時閾値が、前記設計時閾値よりも高い検出確率を有する、請求項17に記載のシステム。
【請求項19】
前記少なくとも1つのプロセッサが、
前記高速R-CNNが動作する環境から直接的に画像を収集することによって生のデータセットを作成し、
前記生のデータセットを拡張して拡張データセットを生成する、ように更に構成され、
前記生のデータセットが、実際のスクリーンショットを模倣する合成データから作成され、
前記生のデータセットの前記拡張が、画像を水平方向に裏返すことと、色を変更することと、ノイズを人工的に追加することと、照明を人工的に追加することと、それらの任意の組合せと、を含む、請求項17に記載のシステム。
【請求項20】
前記生のデータの前記拡張が、チャネルランダム化、色相シフト、色反転、ランダムクロッピング、ランダムスケーリング、画像のぼかし、又はそれらの任意の組合せを使用することを含み、
ランダムクロッピングが、クロップされた画像を生成するために使用され、
前記少なくとも1つのプロセッサが、
前記生成したクロップされた画像のうちの1つのクロップされた画像上にグリッドとして矩形をオーバーレイし、
前記オーバーレイした矩形を実際のラベルと照合し、
照合するものがあった場合、肯定的な例として前記クロップされた画像を使用して前記CNNをトレーニングし、
照合するものがない場合、否定的な例として前記クロップされた画像を使用して前記CNNをトレーニングする、ように更に構成される、請求項19に記載のシステム。

【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、2019年10月8日に出願された米国非仮特許出願第16/595,727号の利益を主張する。この先に出願された出願の主題は、その全体が参照により本明細書に組み込まれる。
【0002】
本発明は、一般に、ロボティック・プロセス・オートメーション(RPA)に関し、より具体的には、畳み込みニューラルネットワーク(CNN)を使用してRPA内のユーザーインターフェース(UI)要素を検出することに関する。
【背景技術】
【0003】
ロボティック・プロセス・オートメーション(RPA)は、反復的で、手動で集約的なアクティビティの遂行のオートメーション化を可能にする。RPAは、例えば、人間がアプリケーションとインタラクトする方法と同様に、ユーザーインターフェース(UI)を介してソフトウェアアプリケーションとインタラクトするために使用され得る。UIとのインタラクションは通常、座標のセット(すなわち、「セレクタ」)を返す関数へのアプリケーション・プログラミング・インターフェース(API)呼出しを使用して、RPAアプリケーションによって実施された。そして、RPAアプリケーションは、この情報を使用して、例えば、ユーザーがボタンを手動でクリックしたかのように、ターゲットアプリケーションを作用させるボタンのマウスクリックをシミュレートし得る。
【0004】
以上のように、ネイティブ・コンピューティング・システムの典型的なRPA実装では、セレクタは、UIのグラフィカル要素の基礎となるプロパティを使用して作業して、アプリケーション内のグラフィカル要素(例えば、ボタン、テキストフィールドなど)を識別する。しかしながら、この技術は、シトリックス(登録商標)、VMWare(登録商標)、VNC(登録商標)、及びWindows(登録商標)(Windows(登録商標)リモートデスクトップ)によって提供されるものなど、VDEで同じソフトウェアをオートメーション化しようとすると、機能停止する。機能停止の理由は、VDEがビデオ・ストリーミング・サービスのやり方と同様のやり方で、リモートデスクトップの画像をストリーミングするからである。ビデオの画像(すなわち、「フレーム」)には、単に識別されるセレクタが存在しない。したがって、RPAアプリケーションは、例えば、アプリケーションに提供されるグラフィカル要素の位置を判定するためにAPI呼出しを行うことができない。VDEシナリオの光学文字認識(OCR)及び画像マッチングを使用して、この課題を解決する試みがなされてきた。しかしながら、これらの技術は、UIのわずかな変更でさえオートメーション化を中断する傾向があるため、信頼性が不十分であることが証明されており、保守問題を引き起こしている。
【0005】
例えば、UiPath(登録商標)によるComputer Vision(商標)(CV)は、人工知能(AI)、OCR、テキストファジーマッチング、及びアンカーシステムの組合せを使用することによってこの問題を解決する。CVモデルは、画像内の特定のグラフィカル要素を識別する。これは、テキストフィールド、ボタン、チェックボックス、アイコンなどのグラフィカル要素の正確な識別を提供する。
【0006】
グラフィカル要素を認識するために、高速領域ベース(Faster Region-based)の畳み込みニューラルネットワーク(R-CNN)などのAIアルゴリズムを使用し得る。例えば、Shaoqing Ren他、「Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks」、arXiv:1506.01497 v 3(2015年6月4日提出)を参照されたい。高速R-CNNは、特徴マップ又はテンソル(すなわち、2048チャネルの小さい画像)を出力するダイレイト(dilated)畳み込み(アトロス(atrous)畳み込みとも呼ばれる)を有するResNetを介してターゲット・アプリケーション・インターフェースの画像を渡す。これらの特徴マップは、関心のあるグラフィカル要素が潜在的に見つかったと考えられる何千もの可能な矩形、並びにどの領域がグラフィカル要素であると考えられるかに関する推測を座標のリストとして提案する領域提案ネットワーク(RPN:region proposal network)という別のニューラルネットワークを更に通過する。特徴マップはグリッドであり、グリッド上の正方形ごとに提案(proposal、アンカーとも呼ばれる)がある。各アンカーについて、RPNは分類を提供する。更に、0と1との間のグラフィカル要素照合スコアと、特定のグラフィカル要素に照合するためにアンカーをどれだけ移動させる必要があるかを示す回帰部分とがある。言い換えれば、RPNは、それがグラフィカル要素を発見したと考える領域、並びにこれらのグラフィカル要素が潜在的に存在すると考えられるもの及び関連する確率を出力する。
【0007】
これらの提案により、バックボーンResNetから出力される特徴テンソルから多くのクロップ(crop)が作製される。これらの大きな特徴テンソルでは、特徴寸法がクロップされる。クロップされたボックスは、その後、CNNのいくつかの層を再び通過し、より正確な位置及びクラス分布を出力し得る。グラフィカル要素検出のためのそのような高速R-CNN100を図1に示している。
【0008】
しかしながら、この繰り返しのクロップに起因して、特定の小さいグラフィカル要素は、プロセスの終わりまでに代表画素を有さない場合がある。例えば、2048×1024の入力画像を、寸法性を毎回2倍減少させる32の標準ストライドを有する2048個のチャネルを有する特徴マップを生成するResNetバックボーンに通すと、例えば、10×10のチェックボックスは、ResNetプロセスの終わりまでに代表画素を有さない。また、例えば、解像度、オペレーティングシステム(OS)のスケーリング係数、ドットパーインチ(DPI)設定の変更、及びアプリケーション及びウェブサイトのUIカスタマイズなどによる変更は、現在の技術を使用して対応することが困難である。したがって、改善されたUI要素検出手法が有益であり得る。
【発明の概要】
【0009】
本発明の特定の実施形態は、現在の画像分析技術によってまだ完全に識別され、認識され、又は解決されていない当技術分野の問題及び必要性に対するソリューションを提供し得る。例えば、本発明のいくつかの実施形態は、CNNを使用してRPA内のUI要素を検出することに関する。いくつかの実施形態は、例えば、異なる解像度、異なるOSスケーリング係数、異なるDPI設定などの様々なUI係数の変更、並びにアプリケーション及びウェブサイトのUIカスタマイズによる変更に対して堅牢なニューラルネットワークベースの処理を提供することによって、グラフィカル要素(例えば、制御オブジェクト)を検出する精度を高める。
【0010】
一実施形態では、コンピュータプログラムは非一時的コンピュータ可読媒体上に格納され、そのプログラムは、少なくとも1つのプロセッサに、CNNが動作する環境から直接的に画像を収集することによって生のデータセットを作成させ、生のデータセットを拡張して、拡張データセットを生成させるように構成される。そのプログラムはまた、少なくとも1つのプロセッサに、拡張データセットを使用してCNNをトレーニングさせ、トレーニングさせたCNNを使用してUI内のグラフィカル要素を検出させるように構成される。
【0011】
別の実施形態では、コンピュータ実装方法は、コンピューティングシステムによって、チャネルランダム化、色相シフト、色反転、ランダムクロッピング、ランダムスケーリング、画像のぼかし、又はそれらの任意の組合せを使用して生のデータセットを拡張して、拡張データセットを生成することを含む。コンピュータ実装方法はまた、コンピューティングシステムによって、拡張データセットを使用して、CNNをトレーニングすることを含む。コンピュータ実装方法は、コンピューティングシステムによって、トレーニングしたCNNを使用して、UI内のグラフィカル要素を検出することを更に含む。
【0012】
更に別の実施形態では、システムは、コンピュータプログラム命令を記憶するメモリと、コンピュータプログラム命令を遂行するように構成された少なくとも1つのプロセッサと、を含む。少なくとも1つのプロセッサは、高速R-CNNネットワークを使用してUI内のグラフィカル要素を検出するように構成される。検出は、画像上にグリッドとして矩形をオーバーレイすることと、グリッド内の矩形ごとに所定数の提案を提供することと、を含む。提案は、スケール及びストライド距離を含む。ストライド距離は、矩形間の距離を画定する。2つの矩形が比較されるたびに、重なり具合又は最小重なり具合が所与の閾値と共に使用される。閾値は、所与の矩形の面積に依存する適応閾値である。
【図面の簡単な説明】
【0013】
本発明の特定の実施形態の利点が容易に理解されるように、上記で簡単に記載した本発明の具体的な説明は、添付の図面に示している特定の実施形態を参照することによって提供される。これらの図面は、本発明の典型的な実施形態のみを示しており、したがってその範囲を限定するものと見なされるべきではないことを理解されたい、本発明は、添付の図面を使用することによって追加の具体性及び詳細を伴って記載し、説明する。
【0014】
図1】高速R-CNNの実装形態を示す図である。
【0015】
図2】本発明の一実施形態による、RPAシステムを示すアーキテクチャ図である。
【0016】
図3】本発明の一実施形態による、デプロイメントされたRPAシステムを示すアーキテクチャ図である。
【0017】
図4】本発明の一実施形態による、デザイナと、アクティビティと、ドライバとの間の関係を示すアーキテクチャ図である。
【0018】
図5】本発明の一実施形態による、RPAシステムを示すアーキテクチャ図である。
【0019】
図6】本発明の一実施形態による、CNNを使用してRPAシステム内のUI要素を検出するように構成されたコンピューティングシステムを示すアーキテクチャ図である。
【0020】
図7】本発明の一実施形態による、ニューラルネットワークをトレーニングするためのプロセスを示すフローチャートの図である。
【0021】
図8】本発明の一実施形態による、ニューラルネットワークをトレーニングするためのプロセスを示すフローチャートの図である。
【発明を実施するための形態】
【0022】
いくつかの実施形態は、CNNを使用してRPA内のUI要素を検出することに関する。このプロセスは、従来の技術を使用して検出するには小さすぎるグラフィカル要素を検出するために特に好適であり得る。例えば、いくつかのUIでは、チェックボックスは、例えば、8×8画素と32×32画素との間でサイズが異なる可能性があり、編集ボックスは、20×10画素と3500×32画素との間で異なる可能性ある。しかしながら、いくつかの実施形態では、本発明の範囲から逸脱することなく、任意のサイズのグラフィカル要素を検出し得る。実際、いくつかの実施形態は、例えば、異なる解像度(例えば、800×600~3840×2160以上)、異なるOSスケーリング係数(例えば、75%~200%)、異なるDPI設定などの様々なUI係数の変更、並びにアプリケーション及びウェブサイトのUIカスタマイズによる変更に対して堅牢なニューラルネットワークベースの処理を提供することによって、グラフィカル要素(例えば、制御オブジェクト)を検出する精度を高める。
【0023】
上記のように、いくつかの実施形態では、ビデオ画像は、VDEサーバから来てもよく、ビジュアルディスプレイ又はその一部であってもよい。いくつかの例示的なVMは、限定しないが、シトリックス(登録商標)、VMWare(登録商標)、VNC(登録商標)、Windows(登録商標)リモートデスクトップなどによって提供されるものを含む。しかしながら、画像はまた、限定しないが、フラッシュ、シルバーライト、又はPDF文書、様々なフォーマットの画像ファイル(例えば、JPG、BMP、PNGなど)、又は本発明の範囲から逸脱することなく任意の他の適切な画像ソースを含む他のソースから来たものであってもよい。そのような画像は、限定しないが、ウィンドウ、文書、金融領収書、請求書などを含んでもよい。
【0024】
図2は、本発明の一実施形態による、RPAシステム200を示すアーキテクチャ図である。RPAシステム200は、開発者がワークフローを設計し、及び実装することを可能にし得るデザイナ210を含む。デザイナ210は、アプリケーション統合のためのソリューション、並びにサードパーティのアプリケーション、管理情報技術(IT)タスク、及びビジネスITプロセスをオートメーション化することを提供し得る。デザイナ210は、ビジネスプロセスのグラフィカル表現であるオートメーションプロジェクトの開発を容易にし得る。簡単に言えば、デザイナ210は、ワークフロー及びロボットの開発及びデプロイメントを容易にする。
【0025】
オートメーションプロジェクトにより、本明細書で「アクティビティ」と定義する、ワークフローで開発されたステップのカスタムセット間の遂行順序及び関係の制御を開発者に与えることによって、ルールベースのプロセスのオートメーション化を可能にする。デザイナ210の実施形態の一商用例は、UiPath Studio(商標)である。各アクティビティは、ボタンのクリック、ファイルの読み取り、ログパネルへの書き込みなど、アクションを含んでもよい。いくつかの実施形態では、ワークフローを、ネストしても、又は埋め込んでもよい。
【0026】
いくつかのタイプのワークフローは、限定しないが、シーケンス、フローチャート、有限状態機械(FSM)、及び/又はグローバル例外ハンドラを含んでもよい。シーケンスは、ワークフローを乱すことなく、1つのアクティビティから別のアクティビティへの流れを可能にする線形プロセスに特に適している場合がある。フローチャートは、複雑なビジネスロジックに特に適しており、複数の分岐論理演算子を介して多様な方法で、判定の統合、及びアクティビティの接続を可能にする。FSMは、大規模なワークフローに特に適している場合がある。FSMは、条件(すなわち、遷移)又はアクティビティによってトリガされるワークフローの遂行において有限数の状態を使用し得る。グローバル例外ハンドラは、遂行エラーに遭遇したときのワークフローの挙動を判定し、プロセスをデバッグするために特に適している場合がある。
【0027】
ワークフローがデザイナ210で開発されると、ビジネスプロセスの遂行は、コンダクタ220によって編成され、コンダクタ220は、デザイナ210で開発されたワークフローを遂行する1つ又は複数のロボット230を編成する。コンダクタ220の実施形態の一市販例は、UiPath Orchestrator(商標)である。コンダクタ220は、環境内のリソースの作成、監視、及びデプロイメントの管理を容易にする。コンダクタ220は、サードパーティのソリューション及びアプリケーションとの統合ポイントとして作用し得る。
【0028】
コンダクタ220は、すべてのロボット230を管理し、集中ポイントからロボット230を接続し、及び遂行し得る。管理され得るロボット230のタイプは、限定しないが、アテンディッドロボット232、アンアテンディッドロボット234、開発ロボット(アンアテンディッドロボット234と同様であるが、開発及びテストの目的で使用される)、及び非生産ロボット(アテンディッドロボット232と同様であるが、開発及びテストの目的で使用される)を含む。アテンディッドロボット232は、ユーザーイベントによってトリガされ、同じコンピューティングシステム上で人間と一緒に動作する。アテンディッドロボット232は、集中プロセスデプロイメント及びログ記録媒体のために、コンダクタ220と共に使用され得る。アテンディッドロボット232は、人間のユーザーが達成する様々なタスクを助け、ユーザーイベントによってトリガされ得る。いくつかの実施形態では、プロセスを、このタイプのロボットのコンダクタ220から開始できず、及び/又はロックされた画面の下で実行できない。特定の実施形態では、アテンディッドロボット232は、ロボットトレイ又はコマンドプロンプトからのみ起動され得る。いくつかの実施形態では、アテンディッドロボット232は人間の監督下で実行するべきである。
【0029】
アンアテンディッドロボット234は、仮想環境で無人で実行し、多くのプロセスをオートメーション化し得る。アンアテンディッドロボット234は、リモート遂行、監視、スケジューリング、及び作業キューのサポートの提供を担当し得る。いくつかの実施形態では、すべてのロボットタイプのデバッグを、デザイナ210で実行してもよい。アテンディッドロボット及びアンアテンディッドロボットの両方は、限定しないが、メインフレーム、ウェブアプリケーション、VM、エンタープライズアプリケーション(例えば、SAP(登録商標)、SalesForce(登録商標)、Oracle(登録商標)などによって製造されたもの)、及びコンピューティング・システム・アプリケーション(例えば、デスクトップ及びラップトップアプリケーション、モバイル・デバイス・アプリケーション、ウェアラブル・コンピュータ・アプリケーションなど)を含む、様々なシステム及びアプリケーションをオートメーション化し得る。
【0030】
コンダクタ220は、限定しないが、プロビジョニング、デプロイメント、構成、キューイング、監視、ログ記録、及び/又は相互接続性の提供を含む、様々な機能を有し得る。プロビジョニングは、ロボット230とコンダクタ220(例えば、ウェブアプリケーション)との間の接続の作成及び保守を含み得る。デプロイメントは、遂行のために、割り当てられたロボット230へのパッケージバージョンの正しい送達を保証することを含み得る。構成は、ロボット環境及びプロセス構成の維持及び送達を含み得る。キューイングは、キュー及びキュー項目の管理を提供することを含み得る。監視は、ロボット識別データを追跡し続け、ユーザー権限を維持することを含み得る。ログ記録は、データベース(例えば、SQLデータベース)及び/又は別のストレージ機構(例えば、大規模なデータセットを記憶し、迅速に照会する能力を提供するElasticSearch(登録商標))に、ログを記憶し、及びインデックス付けすることを含み得る。コンダクタ220は、サードパーティのソリューション及び/又はアプリケーションのための通信の集中ポイントとして作用することによって、相互接続性を提供し得る。
【0031】
ロボット230は、デザイナ210に構築されたワークフローを実行する遂行エージェントである。ロボット230のいくつかの実施形態の一商用例は、UiPath Robots(商標)である。いくつかの実施形態では、ロボット230は、デフォルトで、Microsoft Windows(登録商標)Service Control Manager(SCM)管理サービスをインストールする。結果として、そのようなロボット230は、ローカル・システム・アカウントの下でインタラクティブなWindows(登録商標)セッションを開き、Windows(登録商標)サービスの権利を有し得る。
【0032】
いくつかの実施形態では、ロボット230は、ユーザーモードでインストールされてもよい。このようなロボット230の場合、これは、所与のロボット230がインストールされているユーザーと同じ権利を有することを意味する。この特徴は、その最大の可能性で各機械の完全な利用を保証する高密度(HD)ロボットにも利用可能であり得る。いくつかの実施形態では、任意のタイプのロボット230をHD環境で構成してもよい。
【0033】
いくつかの実施形態におけるロボット230は、いくつかのコンポーネントに分割され、その各々は、特定のオートメーションタスクに専用である。いくつかの実施形態におけるロボットコンポーネントは、限定しないが、SCM管理ロボットサービス、ユーザー・モード・ロボット・サービス、エグゼキュータ、エージェント、及びコマンドラインを含む。SCM管理ロボットサービスは、Windows(登録商標)セッションを管理し、及び監視し、コンダクタ220と遂行ホスト(すなわち、ロボット230が遂行されるコンピューティングシステム)との間のプロキシとして作用する。これらのサービスは、ロボット230の資格情報で信頼され、資格情報を管理する。コンソールアプリケーションは、ローカルシステムの下でSCMによって起動される。
【0034】
いくつかの実施形態におけるユーザー・モード・ロボット・サービスは、Windows(登録商標)セッションを管理し、及び監視し、コンダクタ220と遂行ホストとの間のプロキシとして作用する。ユーザー・モード・ロボット・サービスは、ロボット230のための資格情報で信頼され、資格情報を管理し得る。SCM管理ロボットサービスがインストールされていない場合、Windows(登録商標)アプリケーションが、自動的に起動されてもよい。
【0035】
エグゼキュータは、Windows(登録商標)セッション下で所与のジョブを実行し得る(すなわち、エグゼキュータはワークフローを遂行し得る。エグゼキュータは、パ-モニタ・ドット・パー・インチ(DPI)設定を認識していてもよい。エージェントは、システム・トレイ・ウィンドウに利用可能なジョブを表示するWindows(登録商標)Presentation Foundation(WPF)アプリケーションであってもよい。エージェントは、サービスのクライアントであってもよい。エージェントは、ジョブの開始又は停止、及び設定の変更を要求し得る。コマンドラインは、サービスのクライアントである。コマンドラインは、コンソールアプリケーションであり、コンソールアプリケーションは、ジョブの開始を要求し、その出力を待つことができる。
【0036】
上記で説明したようにロボット230のコンポーネントを分割することは、各コンポーネントが遂行していることについて、開発者、サポートユーザー、及びコンピューティングシステムによる、容易な実行、識別、及び追跡に役立つ。このようにして、エグゼキュータ及びサービスに対して異なるファイアウォールルールを設定するなど、特別な挙動をコンポーネントごとに構成し得る。エグゼキュータは、いくつかの実施形態では、モニタごとにDPI設定を常に認識し得る。結果として、ワークフローは、それらが作成されたコンピューティングシステムの構成にかかわらず、任意のDPIで遂行され得る。いくつかの実施形態では、デザイナ210からのプロジェクトは、ブラウザのズームレベルとは無関係であってもよい。DPIを認識していない、又は意図的に認識していないとマークされたアプリケーションの場合、いくつかの実施形態では、DPIを無効にし得る。
【0037】
図3は、本発明の一実施形態による、デプロイメントされたRPAシステム300を示すアーキテクチャ図である。いくつかの実施形態では、RPAシステム300は、図2のRPAシステム200であってもよいし、その一部であってもよい。クライアントサイド、サーバサイド、又はその両方は、本発明の範囲から逸脱することなく、任意の所望の数のコンピューティングシステムを含み得ることに留意されたい。クライアントサイドでは、ロボットアプリケーション310は、エグゼキュータ312と、エージェント314と、デザイナ316と、を含む。しかしながら、いくつかの実施形態では、デザイナ316は、コンピューティングシステム310上で実行されていなくてもよい。エグゼキュータ312は、実行中のプロセスである。図3に示すように、いくつかのビジネスプロジェクトが同時に実行されてもよい。エージェント314(例えば、Windows(登録商標)サービス)は、本実施形態ではすべてのエグゼキュータ312に対する単一の接続ポイントである。本実施形態におけるすべてのメッセージは、コンダクタ330にログ記録され、コンダクタ330は、データベースサーバ340、インデクササーバ350、又はその両方を介してログ記録したものを更に処理する。図2に関して上述したように、エグゼキュータ312は、ロボットコンポーネントであってもよい。
【0038】
いくつかの実施形態では、ロボットは、機械名とユーザー名との間の関連付けを表す。ロボットは、複数のエグゼキュータを同時に管理し得る。同時に実行される複数のインタラクティブなセッション(例えば、Windows(登録商標)Server 2012)をサポートするコンピューティングシステムでは、複数のロボットが同時に実行され、それぞれが一意のユーザー名を使用して別々のWindows(登録商標)セッションで実行されてもよい。これは、上記ではHDロボットと呼ばれる。
【0039】
エージェント314はまた、ロボットのステータス(例えば、ロボットがまだ機能していることを示す「ハートビート」メッセージを定期的に送信する)を送信し、遂行されるパッケージの必要なバージョンをダウンロードする役割も担う。エージェント314とコンダクタ330との間の通信は、いくつかの実施形態では、常にエージェント314によって開始される。通知シナリオでは、エージェント314は、ロボットにコマンド(例えば、始動、停止など)を送信するために、コンダクタ330によって後で使用されるWebSocketチャネルを開き得る。
【0040】
サーバサイドには、プレゼンテーション層(ウェブアプリケーション332、オープン・データ・プロトコル(OData)代表状態転送(REST)アプリケーション・プログラミング・インターフェース(API)エンドポイント334、並びに通知監視336)、サービス層(API実装/ビジネスロジック338)、及び永続層(データベースサーバ340、インデクササーバ350)が含まれる。コンダクタ330は、ウェブアプリケーション332と、OData REST APIエンドポイント334と、通知監視336と、API実装/ビジネスロジック338と、を含む。いくつかの実施形態では、ユーザーがコンダクタ320のインターフェース(例えば、ブラウザ320を介して)内で実施するほとんどのアクションは、様々なAPIを呼び出すことによって実施される。そのようなアクションは、限定しないが、本発明の範囲から逸脱することなく、ロボットでのジョブの開始、キュー内のデータの追加/削除、無人で実行するためのジョブのスケジューリングなどを含んでもよい。ウェブアプリケーション332は、サーバプラットフォームのビジュアル層である。本実施形態では、ウェブアプリケーション332は、ハイパーテキストマークアップ言語(HTML)及びJavaScript(JS)を使用する。しかしながら、本発明の範囲から逸脱することなく、任意の所望のマークアップ言語、スクリプト言語、又は任意の他のフォーマットを使用してもよい。ユーザーは、コンダクタ330を制御する様々なアクションを実施するために、本実施形態では、ブラウザ320を介してウェブアプリケーション332からのウェブページとインタラクトする。例えば、ユーザーは、ロボットグループを作成し、ロボットにパッケージを割り当て、ロボットごと及び/又はプロセスごとにログを分析し、ロボットを起動し、及び停止するなどしてもよい。
【0041】
ウェブアプリケーション332に加えて、コンダクタ330はまた、OData REST APIエンドポイント334を公開するサービス層を含む。しかしながら、本発明の範囲から逸脱することなく、他のエンドポイントを含んでもよい。REST APIは、ウェブアプリケーション332とエージェント314の両方によって消費される。エージェント314は、本実施形態ではクライアントコンピュータ上の1つ又は複数のロボットの管理者である。
【0042】
本実施形態におけるREST APIは、構成、ログ記録、監視、及びキューイング機能をカバーする。構成エンドポイントは、いくつかの実施形態では、アプリケーションユーザー、権限、ロボット、アセット、リリース及び環境を、定義し、及び構成するために使用されてもよい。例えば、エラー、ロボットによって送信された明示的なメッセージ、及び他の環境固有の情報など、様々な情報をログに記録するために、RESTエンドポイントをログ記録することが使用されてもよい。開始ジョブコマンドがコンダクタ330内で使用される場合に遂行されるべきパッケージバージョンを照会するために、デプロイメントRESTエンドポイントがロボットによって使用され得る。RESTエンドポイントをキューイングすることは、キューにデータを追加すること、キューからトランザクションを取得すること、トランザクションのステータスを設定することなど、キュー及びキュー項目管理を担当し得る。
【0043】
RESTエンドポイントの監視により、ウェブアプリケーション332及びエージェント314を監視する。通知監視API336は、エージェント314の登録、エージェント314への構成設定の送達、並びにサーバ及びエージェント314からの通知の送信/受信のために使用されるRESTエンドポイントであってもよい。通知監視API336はまた、いくつかの実施形態では、WebSocket通信を使用してもよい。
【0044】
永続層は、本実施形態におけるサーバのペア、すなわちデータベースサーバ340(例えば、SQLサーバ)及びインデクササーバ350を含む。本実施形態におけるデータベースサーバ340は、ロボット、ロボットグループ、関連するプロセス、ユーザー、役割、スケジュールなどの構成を記憶する。この情報は、いくつかの実施形態では、ウェブアプリケーション332を介して管理される。データベースサーバ340は、キュー及びキュー項目を管理し得る。いくつかの実施形態では、データベースサーバ340は、(インデクササーバ350に加えて、又はその代わりに)ロボットによってログ記録されたメッセージを記憶してもよい。
【0045】
インデクササーバ350は、いくつかの実施形態では任意選択であり、ロボットによってログ記録された情報を記憶し、及びインデックス付けする。特定の実施形態では、インデクササーバ350は、構成設定を介して無効にされてもよい。いくつかの実施形態では、インデクササーバ350は、オープン・ソース・プロジェクトのフルテキスト検索エンジンであるElasticSearch(登録商標)を使用する。(例えば、ログメッセージ又は行書き込みのようなアクティビティを使用する)ロボットによってログ記録されたメッセージは、ログ記録RESTエンドポイントを介してインデクササーバ350に送信されてもよく、そこでそれらは将来の利用のためにインデックス付けされる。
【0046】
図4は、本発明の一実施形態による、デザイナ410と、アクティビティ420,430と、ドライバ440との間の関係400を示すアーキテクチャ図である。上記により、開発者は、デザイナ410を使用して、ロボットによって遂行されるワークフローを開発する。ワークフローは、ユーザー定義のアクティビティ420及びUIオートメーションアクティビティ430を含み得る。いくつかのCVアクティビティは、限定しないが、クリック、タイプ、テキストを取得、ホバー、要素存在、リフレッシュ範囲、ハイライトなどを含み得る。いくつかの実施形態では、クリックは、例えば、CV、OCR、ファジー文字マッチング、及びマルチアンカーを使用して要素を識別し、それをクリックする。タイプは、上記及び要素内のタイプを使用して要素を識別し得る。テキストを取得は、OCRを使用して特定のテキストの位置を識別し、それをスキャンし得る。ホバーは、要素を識別し、それをホバーし得る。要素存在は、上述した技術を使用して、画面上に要素が存在するか否かをチェックし得る。いくつかの実施形態では、デザイナ410に実装され得るアクティビティは、数百又は数千であってもよい。しかしながら、本発明の範囲から逸脱することなく、アクティビティの任意の数及び/又はタイプが利用可能である。
【0047】
UIオートメーションアクティビティ430は、特別な下位レベルのアクティビティのサブセットであり、それは、下位レベルコード(例えば、CVアクティビティ)に書き込まれ、画面とのインタラクションを容易にする。UIオートメーションアクティビティ430は、ロボットが、所望のソフトウェアとインタラクトし得るドライバ440を介して、これらのインタラクションを容易にする。例えば、ドライバ440は、OSドライバ442、ブラウザドライバ444、VMドライバ446、エンタープライズ・アプリケーション・ドライバ448などを含んでもよい。
【0048】
ドライバ440は、フックを探し、キーを監視するなど、低レベルでOSとインタラクトし得る。それらは、Chrome(登録商標)、IE(登録商標)、シトリックス(登録商標)、SAP(登録商標)などとの統合を容易にし得る。例えば、「クリック」アクティビティは、ドライバ440を介してこれらの異なるアプリケーションで同じ役割を実施する。
【0049】
図5は、本発明の一実施形態による、RPAシステム500を示すアーキテクチャ図である。いくつかの実施形態では、RPAシステム500は、図2及び/又は図3のRPAシステム200及び/又は300であり得るか、それらを含み得る。RPAシステム500は、ロボットを実行する複数のクライアント・コンピューティング・システム510を含む。コンピューティングシステム510は、その上で実行されるウェブアプリケーションを介してコンダクタ・コンピューティング・システム520と通信し得る。次に、コンダクタ・コンピューティング・システム520は、データベースサーバ530及び任意選択のインデクササーバ540と通信し得る。
【0050】
図3及び図5に関して、これらの実施形態ではウェブアプリケーションが使用されているが、本発明の範囲から逸脱することなく、任意の適切なクライアント/サーバソフトウェアを使用し得ることに留意されたい。例えば、コンダクタは、クライアント・コンピューティング・システム上の非ウェブベースのクライアント・ソフトウェア・アプリケーションと通信するサーバサイドアプリケーションを実行してもよい。
【0051】
図6は、本発明の一実施形態による、CNNを使用してRPAシステム内のUI要素を検出するように構成されたコンピューティングシステム600を示すアーキテクチャ図である。いくつかの実施形態では、コンピューティングシステム600は、本明細書に図示及び/又は記載したコンピューティングシステムのうちの1つ又は複数であってもよい。コンピューティングシステム600は、情報を通信するためのバス605又は他の通信機構と、情報を処理するためにバス605に結合されたプロセッサ610と、を含む。プロセッサ610は、中央処理装置(CPU)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、グラフィックス・プロセッシング・ユニット(GPU)、それらの複数のインスタンス、及び/又はそれらの任意の組合せを含む、任意のタイプの汎用又は専用プロセッサであってもよい。プロセッサ610はまた、複数の処理コアを有してもよく、コアの少なくともいくつかは、特定の機能を実施するように構成されてもよい。いくつかの実施形態では、複数並列処理を使用してもよい。特定の実施形態では、プロセッサ610の少なくとも1つは、生体ニューロンを模倣する処理要素を含むニューロモーフィック回路であってもよい。いくつかの実施形態では、ニューロモーフィック回路は、フォン・ノイマン・コンピューティング・アーキテクチャの典型的なコンポーネントを必要としなくてもよい。
【0052】
コンピューティングシステム600は、情報、及びプロセッサ610によって遂行される命令を記憶するメモリ615を更に含む。メモリ615は、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、フラッシュメモリ、キャッシュ、磁気若しくは光ディスクなどの静的ストレージ、又は任意の他のタイプの非一時的コンピュータ可読媒体、又はそれらの組合せのうちの任意の組合せから構成されてもよい。非一時的コンピュータ可読媒体は、プロセッサ610によってアクセスされ得る任意の利用可能な媒体であってもよく、揮発性媒体、不揮発性媒体、又はその両方を含んでもよい。媒体はまた、取り外し可能、取り外し不能、又はその両方であってもよい。
【0053】
更に、コンピューティングシステム600は、無線及び/又は有線接続を介して通信ネットワークへのアクセスを提供するためのトランシーバなどの通信デバイス620を含む。いくつかの実施形態では、通信デバイス620は、周波数分割多元接続(FDMA)、シングルキャリアFDMA(SC-FDMA)、時分割多元接続(TDMA)、符号分割多元接続(CDMA)、直交周波数分割多重方式(OFDM)、直交周波数分割多元接続(OFDMA)、移動体用グローバルシステム(GSM)通信、汎用パケット無線サービス(GPRS)、ユニバーサル移動体通信システム(UMTS)、cdma 2000、広帯域CDMA(W-CDMA)、高速ダウンリンク・パケット・アクセス(HSDPA)、高速アップリンク・パケット・アクセス(HSUPA)、高速パケットアクセス(HSPA)、ロング・ターム・エボリューション(LTE)、LTEアドバンスト(LTE-A)、802.11 x、Wi-Fi、ジグビー、超広帯域無線(UWB)、802.16 x、802.15、ホームノードB(HnB)、Bluetooth、無線周波数識別(RFID)、赤外線データ協会(IrDA)、近距離無線通信(NFC)、第5世代(5G)、エヌアール(NR)、それらの任意の組合せ、並びに/あるいは本発明の範囲から逸脱しない任意の他の現在存在する、又は将来実施される通信規格及び/若しくはプロトコルを使用するように構成される。いくつかの実施形態では、通信デバイス620は、1つ又は複数のアンテナを含んでもよく、そのアンテナは、本発明の範囲から逸脱することなく、単数、アレイ、位相、切り替え、ビームフォーミング、ビームステア、それらの組合せ、及び又は任意の他のアンテナ構成である。
【0054】
プロセッサ610は、バス605を介して、ディスプレイ625に更に結合され、そのディスプレイは、プラズマディスプレイ、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、電界放出ディスプレイ(FED)、有機発光ダイオード(OLED)ディスプレイ、フレキシブルOLEDディスプレイ、フレキシブル基板ディスプレイ、プロジェクションディスプレイ、4Kディスプレイ、高精細ディスプレイ、Retina(登録商標)ディスプレイ、インプレーンスイッチング(IPS)ディスプレイ、又はユーザーに情報を表示するための任意の他の適切なディスプレイである。ディスプレイ625は、抵抗性、容量性、表面弾性波(SAW)容量性、赤外線、光学イメージング、分散信号技術、音響パルス認識、フラストレート全内部反射などを使用して、タッチ(触覚)ディスプレイ、3次元(3D)タッチディスプレイ、マルチ入力タッチディスプレイ、マルチタッチディスプレイなどとして構成され得る。本発明の範囲から逸脱することなく、任意の適切なディスプレイデバイス及び触覚I/Oが使用され得る。
【0055】
キーボード630、及びコンピュータマウス、タッチパッドなどのカーソル制御デバイス635は、ユーザーがコンピューティングシステムとインターフェースすることを可能にするために、バス605に更に結合される。しかしながら、特定の実施形態では、物理的なキーボード及びマウスが存在しなくてもよく、ユーザーは、ディスプレイ625及び/又はタッチパッド(図示せず)のみを介してデバイスとインタラクトしてもよい。入力デバイスの任意のタイプ及び組合せを、設計上の選択事項として使用し得る。特定の実施形態では、物理的入力デバイス及び/又はディスプレイは存在しない。例えば、ユーザーは、コンピューティングシステム600と通信する別のコンピューティングシステムを介して、コンピューティングシステム600と遠隔にインタラクトしてもよく、又はコンピューティングシステム600は、自律的に動作してもよい。
【0056】
メモリ615は、プロセッサ610によって遂行された場合、機能を提供するソフトウェアモジュールを記憶する。モジュールは、コンピューティングシステム600のためのオペレーティングシステム640を含む。モジュールは、本明細書に記載のプロセス又はその派生物の全部又は一部を実施するように構成されたグラフィカル要素検出モジュール645を更に含む。コンピューティングシステム600は、追加の機能を含む1つ又は複数の追加の機能モジュール650を含み得る。
【0057】
当業者であれば、「システム」が、本発明の範囲から逸脱することなく、サーバ、組込みコンピューティングシステム、パーソナルコンピュータ、コンソール、パーソナル・デジタル・アシスタント(PDA)、携帯電話、タブレット・コンピューティング・デバイス、量子コンピューティングシステム、又は任意の他の適切なコンピューティングデバイス、又はデバイスの組合せとして具現化され得ることを理解するであろう。上記の機能を「システム」によって実施されるものとして提示することは、本発明の範囲を限定することを決して意図するものではなく、本発明の多くの実施形態の一例を提供することを意図している。実際、本明細書に開示した方法、システム、及び装置は、クラウド・コンピューティング・システムを含むコンピューティング技術と一致する局所化された形態及び分散された形態で実装され得る。
【0058】
本明細書に記載されたシステム特徴のいくつかは、それらの実装の独立性をより具体的に強調するために、モジュールとして提示されていることに留意されたい。例えば、モジュールは、カスタムの超大規模集積(VLSI)回路又はゲートアレイ、既製の半導体、例えばロジックチップ、トランジスタ、又は他のディスクリートコンポーネントなどを含むハードウェア回路として実装されてもよい。モジュールはまた、フィールド・プログラマブル・ゲート・アレイ、プログラマブル・アレイ・ロジック、プログラマブル・ロジック・デバイス、グラフィックス・プロセッシング・ユニットなどのプログラマブル・ハードウェア・デバイスに実装されてもよい。
【0059】
モジュールはまた、様々なタイプのプロセッサによって遂行するためのソフトウェアに少なくとも部分的に実装されてもよい。遂行可能コードの識別されたユニットは、例えば、オブジェクト、手順、又は機能として編成され得るコンピュータ命令の1つ又は複数の物理ブロック又は論理ブロックを含んでもよい。それにもかかわらず、識別されたモジュールの遂行可能なものは、物理的に共に配置される必要はないが、論理的に共に結合されたときに、異なる場所に記憶され、モジュールを含み、モジュールの記載された目的を達成する異なる命令を含み得る。更に、モジュールは、例えば、ハード・ディスク・ドライブ、フラッシュデバイス、RAM、テープ、及び/又は本発明の範囲から逸脱することなくデータを記憶するために使用される任意の他のそのような非一時的コンピュータ可読媒体であり得るコンピュータ可読媒体に記憶されてもよい。
【0060】
実際、モジュールの遂行可能コードは、単一の命令、又は多くの命令であってもよく、いくつかの異なるコードセグメントにわたって、異なるプログラム中に、及びいくつかのメモリデバイスの間に、分散されてもよい。同様に、操作データは、本明細書ではモジュール内で識別され、及び図示され、任意の適切な形態で具現化され、任意の適切なタイプのデータ構造内に編成されてもよい。操作データは、単一のデータセットとして収集されてもよく、又は異なるストレージデバイスを含む異なる場所にわたって分散されてもよく、少なくとも部分的に、システム又はネットワーク上の電子信号としてのみ存在してもよい。
【0061】
図7は、本発明の一実施形態による、ニューラルネットワークをトレーニングするためのプロセス700を示すフローチャートである。プロセスは、710において、グラフィカル要素検出問題として問題をフレーミングすることから始まる。次に、720において、生のデータセットを作成する。生のデータセットは、いくつかの実施形態では、CNNが動作する環境から直接的に画像(すなわち、異なるアプリケーション・ユーザー・インターフェースのスクリーンショット)を収集することによって作成される。いくつかの実施形態では、生のデータセットは、トレーニングしたアルゴリズムを堅牢にする試みにおいて、広く変化するアプリケーションからのスクリーンショットを含む。生のデータセットはまた、実際のスクリーンショットからの画像と同様の画像を提供する合成データから作成されてもよい。
【0062】
いくつかの実施形態では、合成データは、他のプログラムを生成するプログラムによって作成されてもよい。次いで、生成されたプログラムのインターフェースを切り取って、「スクリーンショット」を取得してもよい。いくつかの実施形態では、インターフェースは、エンタープライズ・リソース・プランニング(ERP)システムなどの所望のソフトウェアアプリケーションと同様に見える場合がある。
【0063】
次いで、730において、生のデータセットは、拡張され、拡張データセットを作成する。拡張データセットは、ニューラルネットワークをトレーニングするために生のデータポイントに加えて、追加のデータポイントを作成するために、生のデータセットから作成され、生のデータセットも含み得る。視覚化目的の非限定的な例として、猫の5つの画像を生のデータとして収集するシナリオを考える。拡張データは、限定しないが、画像を水平方向に裏返すことと、色を変更することと、ノイズを人工的に追加することと、照明を人工的に追加することと、それらの任意の組合せと、を含む様々な方法で、猫の画像を改良することによって作成され得る。これは、現実世界で起こり得るシナリオのシミュレートに役立つ。したがって、拡張データセットは、ニューラルネットワークのために多くのデータポイントを提供し、トレーニングされると、現実世界のシナリオに対してより堅牢になる。
【0064】
いくつかの実施形態では、データセットは、チャネルランダム化、色相シフト、色反転、ランダムクロッピング、ランダムスケーリング、画像のぼかし、又はそれらの任意の組合せを使用して拡張される。チャネルランダム化は、CNNを異なる色スキームに対して堅牢にする。チャネルランダム化は、チャネル順序(例えば、赤色を青色に変換する)を変更することと、新規の画像をもたらすことと、ネットワークが色を理解することを助けることと、を含む。色相シフト及び色反転はまた、ネットワークを異なる色スキームに対してより堅牢にする。後者は、ほとんどのUIがホワイトテーマ又はダークテーマを有するため、特に有益であり得る。
【0065】
ランダムクロッピングは、アンカストライド及びネットワーク畳み込みストライドによる並進効果の達成に役立つ。これは、アーキテクチャにおけるストライドの固有の問題を解決することを支援する。ランダムクロッピングは、通常はグリッドとして配置され、次いで実際のラベルと照合される、かなりの数の矩形(例えば、数十の矩形)をオーバーレイすることによって実施され得る。照合するものがあった場合、クロップされた画像は、ネットワークをトレーニングするための肯定的な例とみなされる。しかしながら、照合するものがない場合、クロップされた画像は、ネットワークをトレーニングするための否定的な例として使用される。
【0066】
アンカーは、ボックス間の粒度(スケール)及びストライド距離を有する。したがって、例えば2つのテキストボックス間にチェックボックスがある場合、いくつかの実施形態におけるアルゴリズムは、それを見落とすことはないであろう。提案したネットワークは、小さな並進(例えば、4画素並進)に対してさえも反応するようにされ得る。
【0067】
いくつかの実装形態では、異なる対照に異なるクロップ技法を使用してもよい。例えば、画像であるグラフィカル要素を識別するために、それは底部をクロップされてもよい。同様に、いくつかの実施形態では、テーブルは、サイズによって調整されてもよく、他の一般的なテキストは、途中でクロップされてもよい。いくつかの実施形態では、異なるクロップ技術を使用すると、良好な結果が得られる場合があるが、これは事前に知られない可能性がある。
【0068】
ランダムスケーリングは、異なるシステム及びアプリケーションの現実の分布の広い部分をカバーし得る。例えば、800×600の解像度でレンダリングされたボタンは、16×16画素を有してもよい。しかしながら、同じボタンが4kモニタでレンダリングされる場合、ボタン領域の画素数はかなり高くなる。ニューラルネットワークは、この手法を使用して異なるスケールについてトレーニングされてもよい。画像のぼかしを使用して、実際の実装で発生し得る異なる圧縮及びサイズ変更ぼけに対してネットワークを堅牢にすることができる。
【0069】
拡張データセットが生成された後、740において、グラフィカル要素検出のために設計された高速R-CNNアーキテクチャを使用して、グラフィカル要素を検出する。いくつかの実施形態では、高速R-CNNアーキテクチャは、UIの変化に対してアルゴリズムを堅牢にすることによって、小さいUIグラフィカル要素を検出すること、及び/又はグラフィカル要素の検出精度を改善することのために、好適に改良される。例えば、画像サイズ変更はバイパスされてもよい。従来の高速R-CNNは、固定形状にサイズ変更するが、いくつかの実施形態はこれを行わない。アトロス畳み込みを使用して、大きいUI要素の発見を支援し、多くのコンテキストを考慮に入れることができる。また、可変の提案サイズを使用してもよい。例えば、通常、小さいスクリーンショットよりも大きいスクリーンショットで多くのグラフィカル要素を見つけることが期待される。
【0070】
高速R-CNNは、他のアーキテクチャとの比較テスト中に最も効果的なアーキテクチャであることが判明した。しかしながら、SSD、RetinaNet、YOLOなどの任意の他の適切なアーキテクチャは、本発明の範囲から逸脱することなく改良され得る。また、いくつかの実施形態のRPNバックボーンが、最も速い性能及びテスト中の最良のwmAPを有するResNet-101であるが、本発明の範囲から逸脱することなく、任意の所望のRPNバックボーンを使用してもよい。
【0071】
いくつかの実施形態の高速R-CNN実装は、Tensorflowオブジェクト検出APIであってもよい。そのような実施形態では、指数関数的減衰規則に概ね従う学習速度を有する運動量オプティマイザを使用してもよい。オブジェクトサイズの範囲に起因して、本発明者らは、実際の実装に関して以下の決定を行った。モデル・サイズ・ペナルティを招くことなく、受容野を増加させるために、ResNet-101バックボーンにダイレイト畳み込みを使用することを決定した。このために、first_stage_atrous_rateを2に設定した。以下のアンカー設定も使用した:
(1)幅=64及び高さ=64の基本サイズ、(2)幅=8及び高さ=8のストライド、(3)0.25、0.5、1.0、2.0のスケール、並びに(4)0.5、1.0、2.0のアスペクト比。両ステージの提案数は400に設定した。提案は、2ステージ検出ネットワークのハイパーパラメータである。
【0072】
CNNアーキテクチャは、すべてのストライドが1に等しい場合にのみ、本質的に並進不変である。そうでなければ、違いが現れ始める。更に、アンカーのストライドに起因して、並進に関して更に大きな問題が生じる。したがって、データセットは、並進を含むように拡張されるべきである。
【0073】
いくつかの実施形態では、2つのボックスが比較されるたびに、重なり具合又は最小重なり具合が所与の閾値と共に使用される。いくつかの実施形態では、ボックスの面積に依存する適応閾値を使用してもよい。小さいグラフィカル要素の場合、小さい閾値が好適に作業する。しかしながら、大きいグラフィカル要素の場合、大きい閾値が好ましい場合がある。
【0074】
いくつかの実施形態における各予測は、その予測に関してネットワークが有する「信頼度」がある。閾値は、その予測を考慮に入れる最小信頼度であり得る。例えば、最小信頼度が70%である場合、いくつかの実施形態では、少なくともその信頼度値を有する予測のみが使用される。特定の実施形態では、信頼度は、適合率(precision)/再現率(recall)の関数として動的に計算される。
【0075】
いくつかの実施形態におけるモデルは、固定数の検出された対照を提供する。適合率/再現率のトレードオフに基づいて、これらの提案は、設計時(すなわち、開発者がオートメーション化を定義しているとき)及び実行時(すなわち、ロボットがそれ自体でオートメーション化を実行するとき)の異なる閾値でフィルタリングされ得る。設計時に、適合率を最大化する閾値を使用してもよい(すなわち、高い確度で正確に識別されると考えられるグラフィカル要素のみが示される)。例えば、いくつかの実施形態では、確実性の高さとして90%を超える信頼度が必要とされ得る。しかしながら、本発明の範囲から逸脱することなく、任意の所望の高い信頼度を使用することができる。このようにして、実行時にグラフィカル要素が見つかる可能性が高くなる。
【0076】
しかしながら、実行時に、再現率を最大化する低い閾値を使用してもよい。したがって、多くの潜在的なグラフィカル要素を識別することができる。次いで、米国特許出願第16/517,225号明細書に記載されているようなマルチアンカー後処理を使用して、低適合率(高ノイズ)検出であっても所望の対照の識別を助けることができる。
【0077】
いくつかの実施形態は、既存の画像認識技術を超える様々な利点を実現する。例えば、いくつかの実施形態は、正確な再現率(すなわち、極少数のUI要素だけが見落とされたり、誤って識別されたりする)をもたらす。いくつかの実施形態は、UIテーマの変更及びUIスケーリングに対して堅牢である。特定の実施形態は、多くのデータを追加することによって、並びにアーキテクチャの変更(例えば、ニューラルネットワークの内部機構を変更するが、依然として同じ入力/出力を有する)を追加することによって、徐々に改善され得る。
【0078】
図8は、本発明の一実施形態による、ニューラルネットワークをトレーニングするためのプロセス800を示すフローチャートである。プロセスは、810において、CNNが動作する環境から直接的に画像を収集することによって生のデータセットを作成することから始まる。いくつかの実施形態では、生のデータセットは、実際のスクリーンショットを模倣する合成データから作成される。
【0079】
次に、820において、生のデータセットを拡張して、拡張データセットを生成する。いくつかの実施形態では、生のデータセットの拡張は、画像を水平方向に裏返すことと、色を変更することと、ノイズを人工的に追加することと、照明を人工的に追加することと、それらの任意の組合せと、を含む。特定の実施形態では、生のデータの拡張は、チャネルランダム化、色相シフト、色反転、ランダムクロッピング、ランダムスケーリング、画像のぼかし、又はそれらの任意の組合せを使用することを含む。いくつかの実施形態では、拡張データセットは、並進を含む。
【0080】
ランダムクロッピングが、クロップされた画像を生成するために使用される実施形態では、生のデータセットの拡張は、クロップされた画像上にグリッドとして矩形をオーバーレイすることと、オーバーレイした矩形を実際のラベルと照合することと、照合するものがあった場合、肯定的な例としてクロップされた画像を使用してCNNをトレーニングすることと、照合するものがない場合、否定的な例としてクロップされた画像を使用してCNNをトレーニングすることと、を含んでもよい。特定の実施形態では、グリッド内の矩形ごとに提案が提供される。提案は、スケール及びストライド距離を含み、ストライド距離は、矩形間の距離を画定する。いくつかの実施形態では、2つの矩形が比較されるたびに、重なり具合又は最小重なり具合が所与の閾値と共に使用される。特定の実施形態では、閾値は、所与の矩形の面積に依存する適応閾値である。いくつかの実施形態では、異なるクロップ技法が、少なくとも2つの異なるグラフィカル要素タイプを識別するために使用される。
【0081】
次いで、830において、CNNを、拡張データセットを使用してトレーニングする。いくつかの実施形態では、CNNは、高速R-CNNアーキテクチャを含む。特定の実施形態では、ダイレイト畳み込みが2つのステージを有するRPNバックボーンで使用され、異なるスケールが使用され、異なるアスペクト比が使用される。
【0082】
次いで、840において、グラフィカル要素は、トレーニングしたCNNを使用してUI内で検出される。いくつかの実施形態では、グラフィカル要素の検出は、グラフィカル要素ごとに固定数の提案を提供することを含む。特定の実施形態では、提案は、設計時及び実行時に対して異なる閾値でフィルタリングされ、実行時閾値は、設計時閾値よりも高い検出確率を必要とする。
【0083】
図7及び図8で実施されるプロセスステップは、本発明の実施形態に従って、プロセッサが図7及び図8に記載したプロセスの少なくとも一部を実施するために、命令を符号化するコンピュータプログラムによって実施されてもよい。コンピュータプログラムは、非一時的コンピュータ可読媒体に格納されてもよい。コンピュータ可読媒体は、限定しないが、ハード・ディスク・ドライブ、フラッシュデバイス、RAM、テープ、及び/あるいはデータを記憶するために使用される任意の他のそのような媒体又は媒体の組合せであってもよい。コンピュータプログラムは、コンピュータ可読媒体に記憶され得る、図7及び図8に記載したプロセスステップの全部又は一部を実装するように、コンピューティングシステムのプロセッサ(例えば、図6のコンピューティングシステム600のプロセッサ610)を制御するための符号化された命令を含んでもよい。
【0084】
コンピュータプログラムは、ハードウェア、ソフトウェア、又はハイブリッド実装で実装してもよい。コンピュータプログラムは、互いに動作可能に通信し、情報又は命令を表示のために渡すように設計されたモジュールから構成してもよい。コンピュータプログラムは、汎用コンピュータ、ASIC、又は任意の他の適切なデバイス上で動作するように構成してもよい。
【0085】
本発明の様々な実施形態のコンポーネントは、本明細書の図に一般的に記載及び図示されているように、多種多様な異なる構成で配置及び設計されてもよいことが容易に理解されよう。したがって、添付の図面に表すように、本発明の実施形態の詳細な説明は、特許請求される本発明の範囲を限定することを意図するものではなく、本発明の選択された実施形態を単に代表するものである。
【0086】
本明細書を通して記載した本発明の特徴、構造、又は特性は、1つ又は複数の実施形態において任意の適切な方法で組み合わせられ得る。例えば、本明細書全体を通して「特定の実施形態」、「いくつかの実施形態」、又は同様の文言への言及は、実施形態に関連して記載した特定の特徴、構造、又は特性が本発明の少なくとも1つの実施形態に含まれることを意味する。したがって、本明細書全体を通して、「特定の実施形態では」、「いくつかの実施形態では」、「他の実施形態では」、又は同様の文言の出現は、必ずしもすべてが同じ実施形態のグループを指すわけではなく、記載した特徴、構造、又は特性は、1つ又は複数の実施形態において任意の適切な方法で組み合わせられ得る。
【0087】
本明細書を通して特徴、利点、又は同様の文言への言及は、本発明で実現され得る特徴及び利点のすべてが本発明の任意の単一の実施形態であるべきであること、又は本発明の任意の単一の実施形態であることを意味するものではないことに留意されたい。むしろ、特徴及び利点に言及する文言は、実施形態に関連して記載した特定の特徴、利点、又は特性が本発明の少なくとも1つの実施形態に含まれることを意味すると理解される。したがって、本明細書を通して、特徴及び利点、並びに同様の文言の説明は、必ずしもそうとは限らないが、同じ実施形態を参照し得る。
【0088】
更に、本発明の記載した特徴、利点、及び特性は、1つ又は複数の実施形態において任意の適切な方法で組み合わせられてもよい。当業者は、特定の実施形態の特定の特徴又は利点のうちの1つ又は複数なしに、本発明を実施し得ることを認識するであろう。他の例では、本発明のすべての実施形態には存在しない可能性がある特定の実施形態において、追加の特徴及び利点が認識され得る。
【0089】
当業者であれば、上記のような本発明は、異なる順序のステップで、及び/又は開示されているものとは異なる構成のハードウェア要素で実施され得ることを容易に理解するであろう。したがって、本発明を、これらの好ましい実施形態に基づいて記載しているが、本発明の精神及び範囲内に留まりながら、特定の改良、変形、及び代替構造が明らかであることは、当業者には明らかであろう。したがって、本発明の範囲を決定するために、添付の特許請求の範囲を参照すべきである。

図1
図2
図3
図4
図5
図6
図7
図8
【国際調査報告】