特表2022-552133 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ユーアイパス，インコーポレイテッドの特許一覧

特表2022-552133畳み込みニューラルネットワークを使用したロボティック・プロセス・オートメーションにおけるユーザーインターフェース要素の検出

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-12-15

(54)【発明の名称】畳み込みニューラルネットワークを使用したロボティック・プロセス・オートメーションにおけるユーザーインターフェース要素の検出

(51)【国際特許分類】

G06N 3/02 20060101AFI20221208BHJP

G06N 20/00 20190101ALI20221208BHJP

【ＦＩ】

G06N3/02

G06N20/00

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2022520189

(86)(22)【出願日】2020-08-12

(85)【翻訳文提出日】2022-05-30

(86)【国際出願番号】 US2020045830

(87)【国際公開番号】W WO2021071579

(87)【国際公開日】2021-04-15

(31)【優先権主張番号】16/595,727

(32)【優先日】2019-10-08

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＪＡＶＡＳＣＲＩＰＴ

２．ＢＬＵＥＴＯＯＴＨ

３．ＴＥＮＳＯＲＦＬＯＷ

(71)【出願人】

【識別番号】520262319

【氏名又は名称】ユーアイパス，インコーポレイテッド

【氏名又は名称原語表記】ＵｉＰａｔｈ，Ｉｎｃ．

【住所又は居所原語表記】１ＶａｎｄｅｒｂｉｌｔＡｖｅｎｕｅ，６０ｔｈＦｌｏｏｒ，ＮｅｗＹｏｒｋ，ＮＹ１００１７，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100180781

【弁理士】

【氏名又は名称】安達友和

(74)【代理人】

【識別番号】100182903

【弁理士】

【氏名又は名称】福田武慶

(72)【発明者】

【氏名】ネアゴヴィチ，ミルシア

(72)【発明者】

【氏名】アダム，ステファン

(72)【発明者】

【氏名】チューダー，ヴァージル

(72)【発明者】

【氏名】ボボリー，ドラゴス

(57)【要約】

ユーザーインターフェース（ＵＩ）内のグラフィカル要素は、畳み込みニューラルネットワーク（ＣＮＮ）を使用するロボティック・プロセス・オートメーション（ＲＰＡ）において検出され得る。そのようなプロセスは、従来の技術を使用して検出するには小さすぎるグラフィカル要素を検出するために特に好適であり得る。グラフィカル要素（例えば、制御オブジェクト）を検出する精度は、例えば、異なる解像度、異なるオペレーティングシステム（ＯＳ）スケーリング係数、異なるドットパーインチ（ＤＰＩ）設定などの様々なＵＩ係数の変更、並びにアプリケーション及びウェブサイトのＵＩカスタマイズによる変更に対して堅牢なニューラルネットワークベースの処理を提供することによって、高められ得る。

【特許請求の範囲】

【請求項1】

非一時的コンピュータ可読媒体に格納されたコンピュータプログラムであって、前記プログラムが、少なくとも１つのプロセッサに、
畳み込みニューラルネットワーク（ＣＮＮ）が動作する環境から直接的に画像を収集することによって生のデータセットを作成させ、
前記生のデータセットを拡張して拡張データセットを生成させ、
前記拡張データセットを使用して前記ＣＮＮをトレーニングさせ、
前記トレーニングさせたＣＮＮを使用してユーザーインターフェース（ＵＩ）内のグラフィカル要素を検出させる
ように構成される、コンピュータプログラム。

【請求項2】

前記生のデータセットが、実際のスクリーンショットを模倣する合成データから作成される、請求項１に記載のコンピュータプログラム。

【請求項3】

前記生のデータセットの前記拡張が、画像を水平方向に裏返すことと、色を変更することと、ノイズを人工的に追加することと、照明を人工的に追加することと、それらの任意の組合せと、を含む、請求項１に記載のコンピュータプログラム。

【請求項4】

前記生のデータの前記拡張が、チャネルランダム化、色相シフト、色反転、ランダムクロッピング、ランダムスケーリング、画像のぼかし、又はそれらの任意の組合せを使用することを含む、請求項１に記載のコンピュータプログラム。

【請求項5】

ランダムクロッピングが、クロップされた画像を生成するために使用され、前記プログラムが、前記少なくとも１つのプロセッサに、
前記生成したクロップされた画像のうちの１つのクロップされた画像上にグリッドとして矩形をオーバーレイさせ、
前記オーバーレイさせた矩形を実際のラベルに照合させ、
照合するものがあった場合、肯定的な例として前記クロップされた画像を使用して前記ＣＮＮをトレーニングさせ、
照合するものがない場合、否定的な例として前記クロップされた画像を使用して前記ＣＮＮをトレーニングさせる、ように更に構成される、請求項４に記載のコンピュータプログラム。

【請求項6】

前記プログラムが、前記少なくとも１つのプロセッサに、
前記グリッド内の矩形ごとに提案を提供させるように更に構成され、
前記提案が、スケール及びストライド距離を備え、前記ストライド距離が、前記矩形間の距離を画定し、
２つの矩形が比較されるたびに、重なり具合又は最小重なり具合が、所与の矩形の面積に依存する所与の適応閾値と共に使用される、請求項５に記載のコンピュータプログラム。

【請求項7】

異なるクロップ技法が、少なくとも２つの異なるグラフィカル要素タイプを識別するために使用される、請求項５に記載のコンピュータプログラム。

【請求項8】

前記ＣＮＮが、領域提案ネットワーク（ＲＰＮ）を有する高速領域ベースの畳み込みニューラルネットワーク（Ｒ－ＣＮＮ）アーキテクチャを備える、請求項１に記載のコンピュータプログラム。

【請求項9】

前記拡張データセットが並進を備える、請求項１に記載のコンピュータプログラム。

【請求項10】

前記グラフィカル要素の前記検出が、グラフィカル要素ごとに固定数の提案を提供することを含み、
前記提案が、設計時及び実行時に対して異なる閾値でフィルタリングされ、前記実行時閾値が、前記設計時閾値よりも高い検出確率を有する、請求項１に記載のコンピュータプログラム。

【請求項11】

コンピューティングシステムによって、チャネルランダム化、色相シフト、色反転、ランダムクロッピング、ランダムスケーリング、画像のぼかし、又はそれらの任意の組合せを使用して生のデータセットを拡張して、拡張データセットを生成することと、
前記コンピューティングシステムによって、前記拡張データセットを使用して、畳み込みニューラルネットワーク（ＣＮＮ）をトレーニングすることと、
前記コンピューティングシステムによって、前記トレーニングしたＣＮＮを使用して、ユーザーインターフェース（ＵＩ）内のグラフィカル要素を検出することと
を含む、コンピュータ実装方法。

【請求項12】

ランダムクロッピングが、クロップされた画像を生成するために使用され、前記方法が、
前記コンピューティングシステムによって、前記生成したクロップされた画像のうちの１つのクロップされた画像上にグリッドとして矩形をオーバーレイすることと、
前記コンピューティングシステムによって、前記オーバーレイした矩形を実際のラベルに照合することと、
前記コンピューティングシステムによって、前記グリッド内の矩形ごとに提案を提供することと、
前記コンピューティングシステムによって、照合するものがあった場合、肯定的な例として前記クロップされた画像を使用して前記ＣＮＮをトレーニングすることと、
前記コンピューティングシステムによって、照合するものがない場合、否定的な例として前記クロップされた画像を使用して前記ＣＮＮをトレーニングすることと
を更に含む、請求項１１に記載のコンピュータ実装方法。

【請求項13】

異なるクロップ技法が、少なくとも２つの異なるグラフィカル要素タイプを識別するために使用される、請求項１２に記載のコンピュータ実装方法。

【請求項14】

２つの矩形が比較されるたびに、重なり具合又は最小重なり具合が、所与の閾値と共に使用され、
前記閾値が、所与の矩形の面積に依存する適応閾値である、請求項１２に記載のコンピュータ実装方法。

【請求項15】

前記コンピューティングシステムによって、前記ＣＮＮが動作する環境から直接的に画像を収集することによって前記生のデータセットを作成することを更に含み、
前記生のデータセットが、実際のスクリーンショットを模倣する合成データから作成され、
前記生のデータセットの前記拡張が、画像を水平方向に裏返すことと、色を変更することと、ノイズを人工的に追加することと、照明を人工的に追加することと、それらの任意の組合せと、を含む、請求項１１に記載のコンピュータ実装方法。

【請求項16】

前記グラフィカル要素を前記検出することが、グラフィカル要素ごとに固定数の提案を提供することを含み、
前記提案が、設計時及び実行時に対して異なる閾値でフィルタリングされ、前記実行時閾値が、前記設計時閾値よりも高い検出確率を有する、請求項１１に記載のコンピュータ実装方法。

【請求項17】

コンピュータプログラム命令を記憶するメモリと、
前記コンピュータプログラム命令を遂行するように構成された少なくとも１つのプロセッサと
を備える、システムであって、
前記少なくとも１つのプロセッサが、領域提案ネットワーク（ＲＰＮ）バックボーンを有する高速領域ベースの畳み込みニューラルネットワーク（Ｒ－ＣＮＮ）アーキテクチャを使用してユーザーインターフェース（ＵＩ）内のグラフィカル要素を検出するように構成され、
前記検出が、画像上にグリッドとして矩形をオーバーレイすることと、前記グリッド内の矩形ごとに所定数の提案を提供することと、を含み、
前記提案が、スケール及びストライド距離を備え、前記ストライド距離が、前記矩形間の距離を画定し、
２つの矩形が比較されるたびに、重なり具合又は最小重なり具合が所与の閾値と共に使用され、
前記閾値が、所与の矩形の面積に依存する適応閾値である、システム。

【請求項18】

前記提案が、設計時及び実行時に対して異なる閾値でフィルタリングされ、前記実行時閾値が、前記設計時閾値よりも高い検出確率を有する、請求項１７に記載のシステム。

【請求項19】

前記少なくとも１つのプロセッサが、
前記高速Ｒ－ＣＮＮが動作する環境から直接的に画像を収集することによって生のデータセットを作成し、
前記生のデータセットを拡張して拡張データセットを生成する、ように更に構成され、
前記生のデータセットが、実際のスクリーンショットを模倣する合成データから作成され、
前記生のデータセットの前記拡張が、画像を水平方向に裏返すことと、色を変更することと、ノイズを人工的に追加することと、照明を人工的に追加することと、それらの任意の組合せと、を含む、請求項１７に記載のシステム。

【請求項20】

前記生のデータの前記拡張が、チャネルランダム化、色相シフト、色反転、ランダムクロッピング、ランダムスケーリング、画像のぼかし、又はそれらの任意の組合せを使用することを含み、
ランダムクロッピングが、クロップされた画像を生成するために使用され、
前記少なくとも１つのプロセッサが、
前記生成したクロップされた画像のうちの１つのクロップされた画像上にグリッドとして矩形をオーバーレイし、
前記オーバーレイした矩形を実際のラベルと照合し、
照合するものがあった場合、肯定的な例として前記クロップされた画像を使用して前記ＣＮＮをトレーニングし、
照合するものがない場合、否定的な例として前記クロップされた画像を使用して前記ＣＮＮをトレーニングする、ように更に構成される、請求項１９に記載のシステム。

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願の相互参照）
本出願は、２０１９年１０月８日に出願された米国非仮特許出願第１６／５９５，７２７号の利益を主張する。この先に出願された出願の主題は、その全体が参照により本明細書に組み込まれる。

【0002】

本発明は、一般に、ロボティック・プロセス・オートメーション（ＲＰＡ）に関し、より具体的には、畳み込みニューラルネットワーク（ＣＮＮ）を使用してＲＰＡ内のユーザーインターフェース（ＵＩ）要素を検出することに関する。

【背景技術】

【0003】

ロボティック・プロセス・オートメーション（ＲＰＡ）は、反復的で、手動で集約的なアクティビティの遂行のオートメーション化を可能にする。ＲＰＡは、例えば、人間がアプリケーションとインタラクトする方法と同様に、ユーザーインターフェース（ＵＩ）を介してソフトウェアアプリケーションとインタラクトするために使用され得る。ＵＩとのインタラクションは通常、座標のセット（すなわち、「セレクタ」）を返す関数へのアプリケーション・プログラミング・インターフェース（ＡＰＩ）呼出しを使用して、ＲＰＡアプリケーションによって実施された。そして、ＲＰＡアプリケーションは、この情報を使用して、例えば、ユーザーがボタンを手動でクリックしたかのように、ターゲットアプリケーションを作用させるボタンのマウスクリックをシミュレートし得る。

【0004】

以上のように、ネイティブ・コンピューティング・システムの典型的なＲＰＡ実装では、セレクタは、ＵＩのグラフィカル要素の基礎となるプロパティを使用して作業して、アプリケーション内のグラフィカル要素（例えば、ボタン、テキストフィールドなど）を識別する。しかしながら、この技術は、シトリックス（登録商標）、ＶＭＷａｒｅ（登録商標）、ＶＮＣ（登録商標）、及びＷｉｎｄｏｗｓ（登録商標）（Ｗｉｎｄｏｗｓ（登録商標）リモートデスクトップ）によって提供されるものなど、ＶＤＥで同じソフトウェアをオートメーション化しようとすると、機能停止する。機能停止の理由は、ＶＤＥがビデオ・ストリーミング・サービスのやり方と同様のやり方で、リモートデスクトップの画像をストリーミングするからである。ビデオの画像（すなわち、「フレーム」）には、単に識別されるセレクタが存在しない。したがって、ＲＰＡアプリケーションは、例えば、アプリケーションに提供されるグラフィカル要素の位置を判定するためにＡＰＩ呼出しを行うことができない。ＶＤＥシナリオの光学文字認識（ＯＣＲ）及び画像マッチングを使用して、この課題を解決する試みがなされてきた。しかしながら、これらの技術は、ＵＩのわずかな変更でさえオートメーション化を中断する傾向があるため、信頼性が不十分であることが証明されており、保守問題を引き起こしている。

【0005】

例えば、ＵｉＰａｔｈ（登録商標）によるＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（商標）（ＣＶ）は、人工知能（ＡＩ）、ＯＣＲ、テキストファジーマッチング、及びアンカーシステムの組合せを使用することによってこの問題を解決する。ＣＶモデルは、画像内の特定のグラフィカル要素を識別する。これは、テキストフィールド、ボタン、チェックボックス、アイコンなどのグラフィカル要素の正確な識別を提供する。

【0006】

グラフィカル要素を認識するために、高速領域ベース（ＦａｓｔｅｒＲｅｇｉｏｎ－ｂａｓｅｄ）の畳み込みニューラルネットワーク（Ｒ－ＣＮＮ）などのＡＩアルゴリズムを使用し得る。例えば、ＳｈａｏｑｉｎｇＲｅｎ他、「ＦａｓｔｅｒＲ－ＣＮＮ：ＴｏｗａｒｄｓＲｅａｌ－ＴｉｍｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎｗｉｔｈＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋｓ」、ａｒＸｉｖ：１５０６．０１４９７ｖ３（２０１５年６月４日提出）を参照されたい。高速Ｒ－ＣＮＮは、特徴マップ又はテンソル（すなわち、２０４８チャネルの小さい画像）を出力するダイレイト（ｄｉｌａｔｅｄ）畳み込み（アトロス（ａｔｒｏｕｓ）畳み込みとも呼ばれる）を有するＲｅｓＮｅｔを介してターゲット・アプリケーション・インターフェースの画像を渡す。これらの特徴マップは、関心のあるグラフィカル要素が潜在的に見つかったと考えられる何千もの可能な矩形、並びにどの領域がグラフィカル要素であると考えられるかに関する推測を座標のリストとして提案する領域提案ネットワーク（ＲＰＮ：ｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋ）という別のニューラルネットワークを更に通過する。特徴マップはグリッドであり、グリッド上の正方形ごとに提案（ｐｒｏｐｏｓａｌ、アンカーとも呼ばれる）がある。各アンカーについて、ＲＰＮは分類を提供する。更に、０と１との間のグラフィカル要素照合スコアと、特定のグラフィカル要素に照合するためにアンカーをどれだけ移動させる必要があるかを示す回帰部分とがある。言い換えれば、ＲＰＮは、それがグラフィカル要素を発見したと考える領域、並びにこれらのグラフィカル要素が潜在的に存在すると考えられるもの及び関連する確率を出力する。

【0007】

これらの提案により、バックボーンＲｅｓＮｅｔから出力される特徴テンソルから多くのクロップ（ｃｒｏｐ）が作製される。これらの大きな特徴テンソルでは、特徴寸法がクロップされる。クロップされたボックスは、その後、ＣＮＮのいくつかの層を再び通過し、より正確な位置及びクラス分布を出力し得る。グラフィカル要素検出のためのそのような高速Ｒ－ＣＮＮ１００を図１に示している。

【0008】

しかしながら、この繰り返しのクロップに起因して、特定の小さいグラフィカル要素は、プロセスの終わりまでに代表画素を有さない場合がある。例えば、２０４８×１０２４の入力画像を、寸法性を毎回２倍減少させる３２の標準ストライドを有する２０４８個のチャネルを有する特徴マップを生成するＲｅｓＮｅｔバックボーンに通すと、例えば、１０×１０のチェックボックスは、ＲｅｓＮｅｔプロセスの終わりまでに代表画素を有さない。また、例えば、解像度、オペレーティングシステム（ＯＳ）のスケーリング係数、ドットパーインチ（ＤＰＩ）設定の変更、及びアプリケーション及びウェブサイトのＵＩカスタマイズなどによる変更は、現在の技術を使用して対応することが困難である。したがって、改善されたＵＩ要素検出手法が有益であり得る。

【発明の概要】

【0009】

本発明の特定の実施形態は、現在の画像分析技術によってまだ完全に識別され、認識され、又は解決されていない当技術分野の問題及び必要性に対するソリューションを提供し得る。例えば、本発明のいくつかの実施形態は、ＣＮＮを使用してＲＰＡ内のＵＩ要素を検出することに関する。いくつかの実施形態は、例えば、異なる解像度、異なるＯＳスケーリング係数、異なるＤＰＩ設定などの様々なＵＩ係数の変更、並びにアプリケーション及びウェブサイトのＵＩカスタマイズによる変更に対して堅牢なニューラルネットワークベースの処理を提供することによって、グラフィカル要素（例えば、制御オブジェクト）を検出する精度を高める。

【0010】

一実施形態では、コンピュータプログラムは非一時的コンピュータ可読媒体上に格納され、そのプログラムは、少なくとも１つのプロセッサに、ＣＮＮが動作する環境から直接的に画像を収集することによって生のデータセットを作成させ、生のデータセットを拡張して、拡張データセットを生成させるように構成される。そのプログラムはまた、少なくとも１つのプロセッサに、拡張データセットを使用してＣＮＮをトレーニングさせ、トレーニングさせたＣＮＮを使用してＵＩ内のグラフィカル要素を検出させるように構成される。

【0011】

別の実施形態では、コンピュータ実装方法は、コンピューティングシステムによって、チャネルランダム化、色相シフト、色反転、ランダムクロッピング、ランダムスケーリング、画像のぼかし、又はそれらの任意の組合せを使用して生のデータセットを拡張して、拡張データセットを生成することを含む。コンピュータ実装方法はまた、コンピューティングシステムによって、拡張データセットを使用して、ＣＮＮをトレーニングすることを含む。コンピュータ実装方法は、コンピューティングシステムによって、トレーニングしたＣＮＮを使用して、ＵＩ内のグラフィカル要素を検出することを更に含む。

【0012】

更に別の実施形態では、システムは、コンピュータプログラム命令を記憶するメモリと、コンピュータプログラム命令を遂行するように構成された少なくとも１つのプロセッサと、を含む。少なくとも１つのプロセッサは、高速Ｒ－ＣＮＮネットワークを使用してＵＩ内のグラフィカル要素を検出するように構成される。検出は、画像上にグリッドとして矩形をオーバーレイすることと、グリッド内の矩形ごとに所定数の提案を提供することと、を含む。提案は、スケール及びストライド距離を含む。ストライド距離は、矩形間の距離を画定する。２つの矩形が比較されるたびに、重なり具合又は最小重なり具合が所与の閾値と共に使用される。閾値は、所与の矩形の面積に依存する適応閾値である。

【図面の簡単な説明】

【0013】

本発明の特定の実施形態の利点が容易に理解されるように、上記で簡単に記載した本発明の具体的な説明は、添付の図面に示している特定の実施形態を参照することによって提供される。これらの図面は、本発明の典型的な実施形態のみを示しており、したがってその範囲を限定するものと見なされるべきではないことを理解されたい、本発明は、添付の図面を使用することによって追加の具体性及び詳細を伴って記載し、説明する。

【0014】

【図1】高速Ｒ－ＣＮＮの実装形態を示す図である。

【0015】

【図2】本発明の一実施形態による、ＲＰＡシステムを示すアーキテクチャ図である。

【0016】

【図3】本発明の一実施形態による、デプロイメントされたＲＰＡシステムを示すアーキテクチャ図である。

【0017】

【図4】本発明の一実施形態による、デザイナと、アクティビティと、ドライバとの間の関係を示すアーキテクチャ図である。

【0018】

【図5】本発明の一実施形態による、ＲＰＡシステムを示すアーキテクチャ図である。

【0019】

【図6】本発明の一実施形態による、ＣＮＮを使用してＲＰＡシステム内のＵＩ要素を検出するように構成されたコンピューティングシステムを示すアーキテクチャ図である。

【0020】

【図7】本発明の一実施形態による、ニューラルネットワークをトレーニングするためのプロセスを示すフローチャートの図である。

【0021】

【図8】本発明の一実施形態による、ニューラルネットワークをトレーニングするためのプロセスを示すフローチャートの図である。

【発明を実施するための形態】

【0022】

いくつかの実施形態は、ＣＮＮを使用してＲＰＡ内のＵＩ要素を検出することに関する。このプロセスは、従来の技術を使用して検出するには小さすぎるグラフィカル要素を検出するために特に好適であり得る。例えば、いくつかのＵＩでは、チェックボックスは、例えば、８×８画素と３２×３２画素との間でサイズが異なる可能性があり、編集ボックスは、２０×１０画素と３５００×３２画素との間で異なる可能性ある。しかしながら、いくつかの実施形態では、本発明の範囲から逸脱することなく、任意のサイズのグラフィカル要素を検出し得る。実際、いくつかの実施形態は、例えば、異なる解像度（例えば、８００×６００～３８４０×２１６０以上）、異なるＯＳスケーリング係数（例えば、７５％～２００％）、異なるＤＰＩ設定などの様々なＵＩ係数の変更、並びにアプリケーション及びウェブサイトのＵＩカスタマイズによる変更に対して堅牢なニューラルネットワークベースの処理を提供することによって、グラフィカル要素（例えば、制御オブジェクト）を検出する精度を高める。

【0023】

上記のように、いくつかの実施形態では、ビデオ画像は、ＶＤＥサーバから来てもよく、ビジュアルディスプレイ又はその一部であってもよい。いくつかの例示的なＶＭは、限定しないが、シトリックス（登録商標）、ＶＭＷａｒｅ（登録商標）、ＶＮＣ（登録商標）、Ｗｉｎｄｏｗｓ（登録商標）リモートデスクトップなどによって提供されるものを含む。しかしながら、画像はまた、限定しないが、フラッシュ、シルバーライト、又はＰＤＦ文書、様々なフォーマットの画像ファイル（例えば、ＪＰＧ、ＢＭＰ、ＰＮＧなど）、又は本発明の範囲から逸脱することなく任意の他の適切な画像ソースを含む他のソースから来たものであってもよい。そのような画像は、限定しないが、ウィンドウ、文書、金融領収書、請求書などを含んでもよい。

【0024】

図２は、本発明の一実施形態による、ＲＰＡシステム２００を示すアーキテクチャ図である。ＲＰＡシステム２００は、開発者がワークフローを設計し、及び実装することを可能にし得るデザイナ２１０を含む。デザイナ２１０は、アプリケーション統合のためのソリューション、並びにサードパーティのアプリケーション、管理情報技術（ＩＴ）タスク、及びビジネスＩＴプロセスをオートメーション化することを提供し得る。デザイナ２１０は、ビジネスプロセスのグラフィカル表現であるオートメーションプロジェクトの開発を容易にし得る。簡単に言えば、デザイナ２１０は、ワークフロー及びロボットの開発及びデプロイメントを容易にする。

【0025】

オートメーションプロジェクトにより、本明細書で「アクティビティ」と定義する、ワークフローで開発されたステップのカスタムセット間の遂行順序及び関係の制御を開発者に与えることによって、ルールベースのプロセスのオートメーション化を可能にする。デザイナ２１０の実施形態の一商用例は、ＵｉＰａｔｈＳｔｕｄｉｏ（商標）である。各アクティビティは、ボタンのクリック、ファイルの読み取り、ログパネルへの書き込みなど、アクションを含んでもよい。いくつかの実施形態では、ワークフローを、ネストしても、又は埋め込んでもよい。

【0026】

いくつかのタイプのワークフローは、限定しないが、シーケンス、フローチャート、有限状態機械（ＦＳＭ）、及び／又はグローバル例外ハンドラを含んでもよい。シーケンスは、ワークフローを乱すことなく、１つのアクティビティから別のアクティビティへの流れを可能にする線形プロセスに特に適している場合がある。フローチャートは、複雑なビジネスロジックに特に適しており、複数の分岐論理演算子を介して多様な方法で、判定の統合、及びアクティビティの接続を可能にする。ＦＳＭは、大規模なワークフローに特に適している場合がある。ＦＳＭは、条件（すなわち、遷移）又はアクティビティによってトリガされるワークフローの遂行において有限数の状態を使用し得る。グローバル例外ハンドラは、遂行エラーに遭遇したときのワークフローの挙動を判定し、プロセスをデバッグするために特に適している場合がある。

【0027】

ワークフローがデザイナ２１０で開発されると、ビジネスプロセスの遂行は、コンダクタ２２０によって編成され、コンダクタ２２０は、デザイナ２１０で開発されたワークフローを遂行する１つ又は複数のロボット２３０を編成する。コンダクタ２２０の実施形態の一市販例は、ＵｉＰａｔｈＯｒｃｈｅｓｔｒａｔｏｒ（商標）である。コンダクタ２２０は、環境内のリソースの作成、監視、及びデプロイメントの管理を容易にする。コンダクタ２２０は、サードパーティのソリューション及びアプリケーションとの統合ポイントとして作用し得る。

【0028】

コンダクタ２２０は、すべてのロボット２３０を管理し、集中ポイントからロボット２３０を接続し、及び遂行し得る。管理され得るロボット２３０のタイプは、限定しないが、アテンディッドロボット２３２、アンアテンディッドロボット２３４、開発ロボット（アンアテンディッドロボット２３４と同様であるが、開発及びテストの目的で使用される）、及び非生産ロボット（アテンディッドロボット２３２と同様であるが、開発及びテストの目的で使用される）を含む。アテンディッドロボット２３２は、ユーザーイベントによってトリガされ、同じコンピューティングシステム上で人間と一緒に動作する。アテンディッドロボット２３２は、集中プロセスデプロイメント及びログ記録媒体のために、コンダクタ２２０と共に使用され得る。アテンディッドロボット２３２は、人間のユーザーが達成する様々なタスクを助け、ユーザーイベントによってトリガされ得る。いくつかの実施形態では、プロセスを、このタイプのロボットのコンダクタ２２０から開始できず、及び／又はロックされた画面の下で実行できない。特定の実施形態では、アテンディッドロボット２３２は、ロボットトレイ又はコマンドプロンプトからのみ起動され得る。いくつかの実施形態では、アテンディッドロボット２３２は人間の監督下で実行するべきである。

【0029】

アンアテンディッドロボット２３４は、仮想環境で無人で実行し、多くのプロセスをオートメーション化し得る。アンアテンディッドロボット２３４は、リモート遂行、監視、スケジューリング、及び作業キューのサポートの提供を担当し得る。いくつかの実施形態では、すべてのロボットタイプのデバッグを、デザイナ２１０で実行してもよい。アテンディッドロボット及びアンアテンディッドロボットの両方は、限定しないが、メインフレーム、ウェブアプリケーション、ＶＭ、エンタープライズアプリケーション（例えば、ＳＡＰ（登録商標）、ＳａｌｅｓＦｏｒｃｅ（登録商標）、Ｏｒａｃｌｅ（登録商標）などによって製造されたもの）、及びコンピューティング・システム・アプリケーション（例えば、デスクトップ及びラップトップアプリケーション、モバイル・デバイス・アプリケーション、ウェアラブル・コンピュータ・アプリケーションなど）を含む、様々なシステム及びアプリケーションをオートメーション化し得る。

【0030】

コンダクタ２２０は、限定しないが、プロビジョニング、デプロイメント、構成、キューイング、監視、ログ記録、及び／又は相互接続性の提供を含む、様々な機能を有し得る。プロビジョニングは、ロボット２３０とコンダクタ２２０（例えば、ウェブアプリケーション）との間の接続の作成及び保守を含み得る。デプロイメントは、遂行のために、割り当てられたロボット２３０へのパッケージバージョンの正しい送達を保証することを含み得る。構成は、ロボット環境及びプロセス構成の維持及び送達を含み得る。キューイングは、キュー及びキュー項目の管理を提供することを含み得る。監視は、ロボット識別データを追跡し続け、ユーザー権限を維持することを含み得る。ログ記録は、データベース（例えば、ＳＱＬデータベース）及び／又は別のストレージ機構（例えば、大規模なデータセットを記憶し、迅速に照会する能力を提供するＥｌａｓｔｉｃＳｅａｒｃｈ（登録商標））に、ログを記憶し、及びインデックス付けすることを含み得る。コンダクタ２２０は、サードパーティのソリューション及び／又はアプリケーションのための通信の集中ポイントとして作用することによって、相互接続性を提供し得る。

【0031】

ロボット２３０は、デザイナ２１０に構築されたワークフローを実行する遂行エージェントである。ロボット２３０のいくつかの実施形態の一商用例は、ＵｉＰａｔｈＲｏｂｏｔｓ（商標）である。いくつかの実施形態では、ロボット２３０は、デフォルトで、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）ＳｅｒｖｉｃｅＣｏｎｔｒｏｌＭａｎａｇｅｒ（ＳＣＭ）管理サービスをインストールする。結果として、そのようなロボット２３０は、ローカル・システム・アカウントの下でインタラクティブなＷｉｎｄｏｗｓ（登録商標）セッションを開き、Ｗｉｎｄｏｗｓ（登録商標）サービスの権利を有し得る。

【0032】

いくつかの実施形態では、ロボット２３０は、ユーザーモードでインストールされてもよい。このようなロボット２３０の場合、これは、所与のロボット２３０がインストールされているユーザーと同じ権利を有することを意味する。この特徴は、その最大の可能性で各機械の完全な利用を保証する高密度（ＨＤ）ロボットにも利用可能であり得る。いくつかの実施形態では、任意のタイプのロボット２３０をＨＤ環境で構成してもよい。

【0033】

いくつかの実施形態におけるロボット２３０は、いくつかのコンポーネントに分割され、その各々は、特定のオートメーションタスクに専用である。いくつかの実施形態におけるロボットコンポーネントは、限定しないが、ＳＣＭ管理ロボットサービス、ユーザー・モード・ロボット・サービス、エグゼキュータ、エージェント、及びコマンドラインを含む。ＳＣＭ管理ロボットサービスは、Ｗｉｎｄｏｗｓ（登録商標）セッションを管理し、及び監視し、コンダクタ２２０と遂行ホスト（すなわち、ロボット２３０が遂行されるコンピューティングシステム）との間のプロキシとして作用する。これらのサービスは、ロボット２３０の資格情報で信頼され、資格情報を管理する。コンソールアプリケーションは、ローカルシステムの下でＳＣＭによって起動される。

【0034】

いくつかの実施形態におけるユーザー・モード・ロボット・サービスは、Ｗｉｎｄｏｗｓ（登録商標）セッションを管理し、及び監視し、コンダクタ２２０と遂行ホストとの間のプロキシとして作用する。ユーザー・モード・ロボット・サービスは、ロボット２３０のための資格情報で信頼され、資格情報を管理し得る。ＳＣＭ管理ロボットサービスがインストールされていない場合、Ｗｉｎｄｏｗｓ（登録商標）アプリケーションが、自動的に起動されてもよい。

【0035】

エグゼキュータは、Ｗｉｎｄｏｗｓ（登録商標）セッション下で所与のジョブを実行し得る（すなわち、エグゼキュータはワークフローを遂行し得る。エグゼキュータは、パ－モニタ・ドット・パー・インチ（ＤＰＩ）設定を認識していてもよい。エージェントは、システム・トレイ・ウィンドウに利用可能なジョブを表示するＷｉｎｄｏｗｓ（登録商標）ＰｒｅｓｅｎｔａｔｉｏｎＦｏｕｎｄａｔｉｏｎ（ＷＰＦ）アプリケーションであってもよい。エージェントは、サービスのクライアントであってもよい。エージェントは、ジョブの開始又は停止、及び設定の変更を要求し得る。コマンドラインは、サービスのクライアントである。コマンドラインは、コンソールアプリケーションであり、コンソールアプリケーションは、ジョブの開始を要求し、その出力を待つことができる。

【0036】

上記で説明したようにロボット２３０のコンポーネントを分割することは、各コンポーネントが遂行していることについて、開発者、サポートユーザー、及びコンピューティングシステムによる、容易な実行、識別、及び追跡に役立つ。このようにして、エグゼキュータ及びサービスに対して異なるファイアウォールルールを設定するなど、特別な挙動をコンポーネントごとに構成し得る。エグゼキュータは、いくつかの実施形態では、モニタごとにＤＰＩ設定を常に認識し得る。結果として、ワークフローは、それらが作成されたコンピューティングシステムの構成にかかわらず、任意のＤＰＩで遂行され得る。いくつかの実施形態では、デザイナ２１０からのプロジェクトは、ブラウザのズームレベルとは無関係であってもよい。ＤＰＩを認識していない、又は意図的に認識していないとマークされたアプリケーションの場合、いくつかの実施形態では、ＤＰＩを無効にし得る。

【0037】

図３は、本発明の一実施形態による、デプロイメントされたＲＰＡシステム３００を示すアーキテクチャ図である。いくつかの実施形態では、ＲＰＡシステム３００は、図２のＲＰＡシステム２００であってもよいし、その一部であってもよい。クライアントサイド、サーバサイド、又はその両方は、本発明の範囲から逸脱することなく、任意の所望の数のコンピューティングシステムを含み得ることに留意されたい。クライアントサイドでは、ロボットアプリケーション３１０は、エグゼキュータ３１２と、エージェント３１４と、デザイナ３１６と、を含む。しかしながら、いくつかの実施形態では、デザイナ３１６は、コンピューティングシステム３１０上で実行されていなくてもよい。エグゼキュータ３１２は、実行中のプロセスである。図３に示すように、いくつかのビジネスプロジェクトが同時に実行されてもよい。エージェント３１４（例えば、Ｗｉｎｄｏｗｓ（登録商標）サービス）は、本実施形態ではすべてのエグゼキュータ３１２に対する単一の接続ポイントである。本実施形態におけるすべてのメッセージは、コンダクタ３３０にログ記録され、コンダクタ３３０は、データベースサーバ３４０、インデクササーバ３５０、又はその両方を介してログ記録したものを更に処理する。図２に関して上述したように、エグゼキュータ３１２は、ロボットコンポーネントであってもよい。

【0038】

いくつかの実施形態では、ロボットは、機械名とユーザー名との間の関連付けを表す。ロボットは、複数のエグゼキュータを同時に管理し得る。同時に実行される複数のインタラクティブなセッション（例えば、Ｗｉｎｄｏｗｓ（登録商標）Ｓｅｒｖｅｒ２０１２）をサポートするコンピューティングシステムでは、複数のロボットが同時に実行され、それぞれが一意のユーザー名を使用して別々のＷｉｎｄｏｗｓ（登録商標）セッションで実行されてもよい。これは、上記ではＨＤロボットと呼ばれる。

【0039】

エージェント３１４はまた、ロボットのステータス（例えば、ロボットがまだ機能していることを示す「ハートビート」メッセージを定期的に送信する）を送信し、遂行されるパッケージの必要なバージョンをダウンロードする役割も担う。エージェント３１４とコンダクタ３３０との間の通信は、いくつかの実施形態では、常にエージェント３１４によって開始される。通知シナリオでは、エージェント３１４は、ロボットにコマンド（例えば、始動、停止など）を送信するために、コンダクタ３３０によって後で使用されるＷｅｂＳｏｃｋｅｔチャネルを開き得る。

【0040】

サーバサイドには、プレゼンテーション層（ウェブアプリケーション３３２、オープン・データ・プロトコル（ＯＤａｔａ）代表状態転送（ＲＥＳＴ）アプリケーション・プログラミング・インターフェース（ＡＰＩ）エンドポイント３３４、並びに通知監視３３６）、サービス層（ＡＰＩ実装／ビジネスロジック３３８）、及び永続層（データベースサーバ３４０、インデクササーバ３５０）が含まれる。コンダクタ３３０は、ウェブアプリケーション３３２と、ＯＤａｔａＲＥＳＴＡＰＩエンドポイント３３４と、通知監視３３６と、ＡＰＩ実装／ビジネスロジック３３８と、を含む。いくつかの実施形態では、ユーザーがコンダクタ３２０のインターフェース（例えば、ブラウザ３２０を介して）内で実施するほとんどのアクションは、様々なＡＰＩを呼び出すことによって実施される。そのようなアクションは、限定しないが、本発明の範囲から逸脱することなく、ロボットでのジョブの開始、キュー内のデータの追加／削除、無人で実行するためのジョブのスケジューリングなどを含んでもよい。ウェブアプリケーション３３２は、サーバプラットフォームのビジュアル層である。本実施形態では、ウェブアプリケーション３３２は、ハイパーテキストマークアップ言語（ＨＴＭＬ）及びＪａｖａＳｃｒｉｐｔ（ＪＳ）を使用する。しかしながら、本発明の範囲から逸脱することなく、任意の所望のマークアップ言語、スクリプト言語、又は任意の他のフォーマットを使用してもよい。ユーザーは、コンダクタ３３０を制御する様々なアクションを実施するために、本実施形態では、ブラウザ３２０を介してウェブアプリケーション３３２からのウェブページとインタラクトする。例えば、ユーザーは、ロボットグループを作成し、ロボットにパッケージを割り当て、ロボットごと及び／又はプロセスごとにログを分析し、ロボットを起動し、及び停止するなどしてもよい。

【0041】

ウェブアプリケーション３３２に加えて、コンダクタ３３０はまた、ＯＤａｔａＲＥＳＴＡＰＩエンドポイント３３４を公開するサービス層を含む。しかしながら、本発明の範囲から逸脱することなく、他のエンドポイントを含んでもよい。ＲＥＳＴＡＰＩは、ウェブアプリケーション３３２とエージェント３１４の両方によって消費される。エージェント３１４は、本実施形態ではクライアントコンピュータ上の１つ又は複数のロボットの管理者である。

【0042】

本実施形態におけるＲＥＳＴＡＰＩは、構成、ログ記録、監視、及びキューイング機能をカバーする。構成エンドポイントは、いくつかの実施形態では、アプリケーションユーザー、権限、ロボット、アセット、リリース及び環境を、定義し、及び構成するために使用されてもよい。例えば、エラー、ロボットによって送信された明示的なメッセージ、及び他の環境固有の情報など、様々な情報をログに記録するために、ＲＥＳＴエンドポイントをログ記録することが使用されてもよい。開始ジョブコマンドがコンダクタ３３０内で使用される場合に遂行されるべきパッケージバージョンを照会するために、デプロイメントＲＥＳＴエンドポイントがロボットによって使用され得る。ＲＥＳＴエンドポイントをキューイングすることは、キューにデータを追加すること、キューからトランザクションを取得すること、トランザクションのステータスを設定することなど、キュー及びキュー項目管理を担当し得る。

【0043】

ＲＥＳＴエンドポイントの監視により、ウェブアプリケーション３３２及びエージェント３１４を監視する。通知監視ＡＰＩ３３６は、エージェント３１４の登録、エージェント３１４への構成設定の送達、並びにサーバ及びエージェント３１４からの通知の送信／受信のために使用されるＲＥＳＴエンドポイントであってもよい。通知監視ＡＰＩ３３６はまた、いくつかの実施形態では、ＷｅｂＳｏｃｋｅｔ通信を使用してもよい。

【0044】

永続層は、本実施形態におけるサーバのペア、すなわちデータベースサーバ３４０（例えば、ＳＱＬサーバ）及びインデクササーバ３５０を含む。本実施形態におけるデータベースサーバ３４０は、ロボット、ロボットグループ、関連するプロセス、ユーザー、役割、スケジュールなどの構成を記憶する。この情報は、いくつかの実施形態では、ウェブアプリケーション３３２を介して管理される。データベースサーバ３４０は、キュー及びキュー項目を管理し得る。いくつかの実施形態では、データベースサーバ３４０は、（インデクササーバ３５０に加えて、又はその代わりに）ロボットによってログ記録されたメッセージを記憶してもよい。

【0045】

インデクササーバ３５０は、いくつかの実施形態では任意選択であり、ロボットによってログ記録された情報を記憶し、及びインデックス付けする。特定の実施形態では、インデクササーバ３５０は、構成設定を介して無効にされてもよい。いくつかの実施形態では、インデクササーバ３５０は、オープン・ソース・プロジェクトのフルテキスト検索エンジンであるＥｌａｓｔｉｃＳｅａｒｃｈ（登録商標）を使用する。（例えば、ログメッセージ又は行書き込みのようなアクティビティを使用する）ロボットによってログ記録されたメッセージは、ログ記録ＲＥＳＴエンドポイントを介してインデクササーバ３５０に送信されてもよく、そこでそれらは将来の利用のためにインデックス付けされる。

【0046】

図４は、本発明の一実施形態による、デザイナ４１０と、アクティビティ４２０，４３０と、ドライバ４４０との間の関係４００を示すアーキテクチャ図である。上記により、開発者は、デザイナ４１０を使用して、ロボットによって遂行されるワークフローを開発する。ワークフローは、ユーザー定義のアクティビティ４２０及びＵＩオートメーションアクティビティ４３０を含み得る。いくつかのＣＶアクティビティは、限定しないが、クリック、タイプ、テキストを取得、ホバー、要素存在、リフレッシュ範囲、ハイライトなどを含み得る。いくつかの実施形態では、クリックは、例えば、ＣＶ、ＯＣＲ、ファジー文字マッチング、及びマルチアンカーを使用して要素を識別し、それをクリックする。タイプは、上記及び要素内のタイプを使用して要素を識別し得る。テキストを取得は、ＯＣＲを使用して特定のテキストの位置を識別し、それをスキャンし得る。ホバーは、要素を識別し、それをホバーし得る。要素存在は、上述した技術を使用して、画面上に要素が存在するか否かをチェックし得る。いくつかの実施形態では、デザイナ４１０に実装され得るアクティビティは、数百又は数千であってもよい。しかしながら、本発明の範囲から逸脱することなく、アクティビティの任意の数及び／又はタイプが利用可能である。

【0047】

ＵＩオートメーションアクティビティ４３０は、特別な下位レベルのアクティビティのサブセットであり、それは、下位レベルコード（例えば、ＣＶアクティビティ）に書き込まれ、画面とのインタラクションを容易にする。ＵＩオートメーションアクティビティ４３０は、ロボットが、所望のソフトウェアとインタラクトし得るドライバ４４０を介して、これらのインタラクションを容易にする。例えば、ドライバ４４０は、ＯＳドライバ４４２、ブラウザドライバ４４４、ＶＭドライバ４４６、エンタープライズ・アプリケーション・ドライバ４４８などを含んでもよい。

【0048】

ドライバ４４０は、フックを探し、キーを監視するなど、低レベルでＯＳとインタラクトし得る。それらは、Ｃｈｒｏｍｅ（登録商標）、ＩＥ（登録商標）、シトリックス（登録商標）、ＳＡＰ（登録商標）などとの統合を容易にし得る。例えば、「クリック」アクティビティは、ドライバ４４０を介してこれらの異なるアプリケーションで同じ役割を実施する。

【0049】

図５は、本発明の一実施形態による、ＲＰＡシステム５００を示すアーキテクチャ図である。いくつかの実施形態では、ＲＰＡシステム５００は、図２及び／又は図３のＲＰＡシステム２００及び／又は３００であり得るか、それらを含み得る。ＲＰＡシステム５００は、ロボットを実行する複数のクライアント・コンピューティング・システム５１０を含む。コンピューティングシステム５１０は、その上で実行されるウェブアプリケーションを介してコンダクタ・コンピューティング・システム５２０と通信し得る。次に、コンダクタ・コンピューティング・システム５２０は、データベースサーバ５３０及び任意選択のインデクササーバ５４０と通信し得る。

【0050】

図３及び図５に関して、これらの実施形態ではウェブアプリケーションが使用されているが、本発明の範囲から逸脱することなく、任意の適切なクライアント／サーバソフトウェアを使用し得ることに留意されたい。例えば、コンダクタは、クライアント・コンピューティング・システム上の非ウェブベースのクライアント・ソフトウェア・アプリケーションと通信するサーバサイドアプリケーションを実行してもよい。

【0051】

図６は、本発明の一実施形態による、ＣＮＮを使用してＲＰＡシステム内のＵＩ要素を検出するように構成されたコンピューティングシステム６００を示すアーキテクチャ図である。いくつかの実施形態では、コンピューティングシステム６００は、本明細書に図示及び／又は記載したコンピューティングシステムのうちの１つ又は複数であってもよい。コンピューティングシステム６００は、情報を通信するためのバス６０５又は他の通信機構と、情報を処理するためにバス６０５に結合されたプロセッサ６１０と、を含む。プロセッサ６１０は、中央処理装置（ＣＰＵ）、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、グラフィックス・プロセッシング・ユニット（ＧＰＵ）、それらの複数のインスタンス、及び／又はそれらの任意の組合せを含む、任意のタイプの汎用又は専用プロセッサであってもよい。プロセッサ６１０はまた、複数の処理コアを有してもよく、コアの少なくともいくつかは、特定の機能を実施するように構成されてもよい。いくつかの実施形態では、複数並列処理を使用してもよい。特定の実施形態では、プロセッサ６１０の少なくとも１つは、生体ニューロンを模倣する処理要素を含むニューロモーフィック回路であってもよい。いくつかの実施形態では、ニューロモーフィック回路は、フォン・ノイマン・コンピューティング・アーキテクチャの典型的なコンポーネントを必要としなくてもよい。

【0052】

コンピューティングシステム６００は、情報、及びプロセッサ６１０によって遂行される命令を記憶するメモリ６１５を更に含む。メモリ６１５は、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、フラッシュメモリ、キャッシュ、磁気若しくは光ディスクなどの静的ストレージ、又は任意の他のタイプの非一時的コンピュータ可読媒体、又はそれらの組合せのうちの任意の組合せから構成されてもよい。非一時的コンピュータ可読媒体は、プロセッサ６１０によってアクセスされ得る任意の利用可能な媒体であってもよく、揮発性媒体、不揮発性媒体、又はその両方を含んでもよい。媒体はまた、取り外し可能、取り外し不能、又はその両方であってもよい。

【0053】

更に、コンピューティングシステム６００は、無線及び／又は有線接続を介して通信ネットワークへのアクセスを提供するためのトランシーバなどの通信デバイス６２０を含む。いくつかの実施形態では、通信デバイス６２０は、周波数分割多元接続（ＦＤＭＡ）、シングルキャリアＦＤＭＡ（ＳＣ－ＦＤＭＡ）、時分割多元接続（ＴＤＭＡ）、符号分割多元接続（ＣＤＭＡ）、直交周波数分割多重方式（ＯＦＤＭ）、直交周波数分割多元接続（ＯＦＤＭＡ）、移動体用グローバルシステム（ＧＳＭ）通信、汎用パケット無線サービス（ＧＰＲＳ）、ユニバーサル移動体通信システム（ＵＭＴＳ）、ｃｄｍａ２０００、広帯域ＣＤＭＡ（Ｗ－ＣＤＭＡ）、高速ダウンリンク・パケット・アクセス（ＨＳＤＰＡ）、高速アップリンク・パケット・アクセス（ＨＳＵＰＡ）、高速パケットアクセス（ＨＳＰＡ）、ロング・ターム・エボリューション（ＬＴＥ）、ＬＴＥアドバンスト（ＬＴＥ－Ａ）、８０２．１１ｘ、Ｗｉ－Ｆｉ、ジグビー、超広帯域無線（ＵＷＢ）、８０２．１６ｘ、８０２．１５、ホームノードＢ（ＨｎＢ）、Ｂｌｕｅｔｏｏｔｈ、無線周波数識別（ＲＦＩＤ）、赤外線データ協会（ＩｒＤＡ）、近距離無線通信（ＮＦＣ）、第５世代（５Ｇ）、エヌアール（ＮＲ）、それらの任意の組合せ、並びに／あるいは本発明の範囲から逸脱しない任意の他の現在存在する、又は将来実施される通信規格及び／若しくはプロトコルを使用するように構成される。いくつかの実施形態では、通信デバイス６２０は、１つ又は複数のアンテナを含んでもよく、そのアンテナは、本発明の範囲から逸脱することなく、単数、アレイ、位相、切り替え、ビームフォーミング、ビームステア、それらの組合せ、及び又は任意の他のアンテナ構成である。

【0054】

プロセッサ６１０は、バス６０５を介して、ディスプレイ６２５に更に結合され、そのディスプレイは、プラズマディスプレイ、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、電界放出ディスプレイ（ＦＥＤ）、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、フレキシブルＯＬＥＤディスプレイ、フレキシブル基板ディスプレイ、プロジェクションディスプレイ、４Ｋディスプレイ、高精細ディスプレイ、Ｒｅｔｉｎａ（登録商標）ディスプレイ、インプレーンスイッチング（ＩＰＳ）ディスプレイ、又はユーザーに情報を表示するための任意の他の適切なディスプレイである。ディスプレイ６２５は、抵抗性、容量性、表面弾性波（ＳＡＷ）容量性、赤外線、光学イメージング、分散信号技術、音響パルス認識、フラストレート全内部反射などを使用して、タッチ（触覚）ディスプレイ、３次元（３Ｄ）タッチディスプレイ、マルチ入力タッチディスプレイ、マルチタッチディスプレイなどとして構成され得る。本発明の範囲から逸脱することなく、任意の適切なディスプレイデバイス及び触覚Ｉ／Ｏが使用され得る。

【0055】

キーボード６３０、及びコンピュータマウス、タッチパッドなどのカーソル制御デバイス６３５は、ユーザーがコンピューティングシステムとインターフェースすることを可能にするために、バス６０５に更に結合される。しかしながら、特定の実施形態では、物理的なキーボード及びマウスが存在しなくてもよく、ユーザーは、ディスプレイ６２５及び／又はタッチパッド（図示せず）のみを介してデバイスとインタラクトしてもよい。入力デバイスの任意のタイプ及び組合せを、設計上の選択事項として使用し得る。特定の実施形態では、物理的入力デバイス及び／又はディスプレイは存在しない。例えば、ユーザーは、コンピューティングシステム６００と通信する別のコンピューティングシステムを介して、コンピューティングシステム６００と遠隔にインタラクトしてもよく、又はコンピューティングシステム６００は、自律的に動作してもよい。

【0056】

メモリ６１５は、プロセッサ６１０によって遂行された場合、機能を提供するソフトウェアモジュールを記憶する。モジュールは、コンピューティングシステム６００のためのオペレーティングシステム６４０を含む。モジュールは、本明細書に記載のプロセス又はその派生物の全部又は一部を実施するように構成されたグラフィカル要素検出モジュール６４５を更に含む。コンピューティングシステム６００は、追加の機能を含む１つ又は複数の追加の機能モジュール６５０を含み得る。

【0057】

当業者であれば、「システム」が、本発明の範囲から逸脱することなく、サーバ、組込みコンピューティングシステム、パーソナルコンピュータ、コンソール、パーソナル・デジタル・アシスタント（ＰＤＡ）、携帯電話、タブレット・コンピューティング・デバイス、量子コンピューティングシステム、又は任意の他の適切なコンピューティングデバイス、又はデバイスの組合せとして具現化され得ることを理解するであろう。上記の機能を「システム」によって実施されるものとして提示することは、本発明の範囲を限定することを決して意図するものではなく、本発明の多くの実施形態の一例を提供することを意図している。実際、本明細書に開示した方法、システム、及び装置は、クラウド・コンピューティング・システムを含むコンピューティング技術と一致する局所化された形態及び分散された形態で実装され得る。

【0058】

本明細書に記載されたシステム特徴のいくつかは、それらの実装の独立性をより具体的に強調するために、モジュールとして提示されていることに留意されたい。例えば、モジュールは、カスタムの超大規模集積（ＶＬＳＩ）回路又はゲートアレイ、既製の半導体、例えばロジックチップ、トランジスタ、又は他のディスクリートコンポーネントなどを含むハードウェア回路として実装されてもよい。モジュールはまた、フィールド・プログラマブル・ゲート・アレイ、プログラマブル・アレイ・ロジック、プログラマブル・ロジック・デバイス、グラフィックス・プロセッシング・ユニットなどのプログラマブル・ハードウェア・デバイスに実装されてもよい。

【0059】

モジュールはまた、様々なタイプのプロセッサによって遂行するためのソフトウェアに少なくとも部分的に実装されてもよい。遂行可能コードの識別されたユニットは、例えば、オブジェクト、手順、又は機能として編成され得るコンピュータ命令の１つ又は複数の物理ブロック又は論理ブロックを含んでもよい。それにもかかわらず、識別されたモジュールの遂行可能なものは、物理的に共に配置される必要はないが、論理的に共に結合されたときに、異なる場所に記憶され、モジュールを含み、モジュールの記載された目的を達成する異なる命令を含み得る。更に、モジュールは、例えば、ハード・ディスク・ドライブ、フラッシュデバイス、ＲＡＭ、テープ、及び／又は本発明の範囲から逸脱することなくデータを記憶するために使用される任意の他のそのような非一時的コンピュータ可読媒体であり得るコンピュータ可読媒体に記憶されてもよい。

【0060】

実際、モジュールの遂行可能コードは、単一の命令、又は多くの命令であってもよく、いくつかの異なるコードセグメントにわたって、異なるプログラム中に、及びいくつかのメモリデバイスの間に、分散されてもよい。同様に、操作データは、本明細書ではモジュール内で識別され、及び図示され、任意の適切な形態で具現化され、任意の適切なタイプのデータ構造内に編成されてもよい。操作データは、単一のデータセットとして収集されてもよく、又は異なるストレージデバイスを含む異なる場所にわたって分散されてもよく、少なくとも部分的に、システム又はネットワーク上の電子信号としてのみ存在してもよい。

【0061】

図７は、本発明の一実施形態による、ニューラルネットワークをトレーニングするためのプロセス７００を示すフローチャートである。プロセスは、７１０において、グラフィカル要素検出問題として問題をフレーミングすることから始まる。次に、７２０において、生のデータセットを作成する。生のデータセットは、いくつかの実施形態では、ＣＮＮが動作する環境から直接的に画像（すなわち、異なるアプリケーション・ユーザー・インターフェースのスクリーンショット）を収集することによって作成される。いくつかの実施形態では、生のデータセットは、トレーニングしたアルゴリズムを堅牢にする試みにおいて、広く変化するアプリケーションからのスクリーンショットを含む。生のデータセットはまた、実際のスクリーンショットからの画像と同様の画像を提供する合成データから作成されてもよい。

【0062】

いくつかの実施形態では、合成データは、他のプログラムを生成するプログラムによって作成されてもよい。次いで、生成されたプログラムのインターフェースを切り取って、「スクリーンショット」を取得してもよい。いくつかの実施形態では、インターフェースは、エンタープライズ・リソース・プランニング（ＥＲＰ）システムなどの所望のソフトウェアアプリケーションと同様に見える場合がある。

【0063】

次いで、７３０において、生のデータセットは、拡張され、拡張データセットを作成する。拡張データセットは、ニューラルネットワークをトレーニングするために生のデータポイントに加えて、追加のデータポイントを作成するために、生のデータセットから作成され、生のデータセットも含み得る。視覚化目的の非限定的な例として、猫の５つの画像を生のデータとして収集するシナリオを考える。拡張データは、限定しないが、画像を水平方向に裏返すことと、色を変更することと、ノイズを人工的に追加することと、照明を人工的に追加することと、それらの任意の組合せと、を含む様々な方法で、猫の画像を改良することによって作成され得る。これは、現実世界で起こり得るシナリオのシミュレートに役立つ。したがって、拡張データセットは、ニューラルネットワークのために多くのデータポイントを提供し、トレーニングされると、現実世界のシナリオに対してより堅牢になる。

【0064】

いくつかの実施形態では、データセットは、チャネルランダム化、色相シフト、色反転、ランダムクロッピング、ランダムスケーリング、画像のぼかし、又はそれらの任意の組合せを使用して拡張される。チャネルランダム化は、ＣＮＮを異なる色スキームに対して堅牢にする。チャネルランダム化は、チャネル順序（例えば、赤色を青色に変換する）を変更することと、新規の画像をもたらすことと、ネットワークが色を理解することを助けることと、を含む。色相シフト及び色反転はまた、ネットワークを異なる色スキームに対してより堅牢にする。後者は、ほとんどのＵＩがホワイトテーマ又はダークテーマを有するため、特に有益であり得る。

【0065】

ランダムクロッピングは、アンカストライド及びネットワーク畳み込みストライドによる並進効果の達成に役立つ。これは、アーキテクチャにおけるストライドの固有の問題を解決することを支援する。ランダムクロッピングは、通常はグリッドとして配置され、次いで実際のラベルと照合される、かなりの数の矩形（例えば、数十の矩形）をオーバーレイすることによって実施され得る。照合するものがあった場合、クロップされた画像は、ネットワークをトレーニングするための肯定的な例とみなされる。しかしながら、照合するものがない場合、クロップされた画像は、ネットワークをトレーニングするための否定的な例として使用される。

【0066】

アンカーは、ボックス間の粒度（スケール）及びストライド距離を有する。したがって、例えば２つのテキストボックス間にチェックボックスがある場合、いくつかの実施形態におけるアルゴリズムは、それを見落とすことはないであろう。提案したネットワークは、小さな並進（例えば、４画素並進）に対してさえも反応するようにされ得る。

【0067】

いくつかの実装形態では、異なる対照に異なるクロップ技法を使用してもよい。例えば、画像であるグラフィカル要素を識別するために、それは底部をクロップされてもよい。同様に、いくつかの実施形態では、テーブルは、サイズによって調整されてもよく、他の一般的なテキストは、途中でクロップされてもよい。いくつかの実施形態では、異なるクロップ技術を使用すると、良好な結果が得られる場合があるが、これは事前に知られない可能性がある。

【0068】

ランダムスケーリングは、異なるシステム及びアプリケーションの現実の分布の広い部分をカバーし得る。例えば、８００×６００の解像度でレンダリングされたボタンは、１６×１６画素を有してもよい。しかしながら、同じボタンが４ｋモニタでレンダリングされる場合、ボタン領域の画素数はかなり高くなる。ニューラルネットワークは、この手法を使用して異なるスケールについてトレーニングされてもよい。画像のぼかしを使用して、実際の実装で発生し得る異なる圧縮及びサイズ変更ぼけに対してネットワークを堅牢にすることができる。

【0069】

拡張データセットが生成された後、７４０において、グラフィカル要素検出のために設計された高速Ｒ－ＣＮＮアーキテクチャを使用して、グラフィカル要素を検出する。いくつかの実施形態では、高速Ｒ－ＣＮＮアーキテクチャは、ＵＩの変化に対してアルゴリズムを堅牢にすることによって、小さいＵＩグラフィカル要素を検出すること、及び／又はグラフィカル要素の検出精度を改善することのために、好適に改良される。例えば、画像サイズ変更はバイパスされてもよい。従来の高速Ｒ－ＣＮＮは、固定形状にサイズ変更するが、いくつかの実施形態はこれを行わない。アトロス畳み込みを使用して、大きいＵＩ要素の発見を支援し、多くのコンテキストを考慮に入れることができる。また、可変の提案サイズを使用してもよい。例えば、通常、小さいスクリーンショットよりも大きいスクリーンショットで多くのグラフィカル要素を見つけることが期待される。

【0070】

高速Ｒ－ＣＮＮは、他のアーキテクチャとの比較テスト中に最も効果的なアーキテクチャであることが判明した。しかしながら、ＳＳＤ、ＲｅｔｉｎａＮｅｔ、ＹＯＬＯなどの任意の他の適切なアーキテクチャは、本発明の範囲から逸脱することなく改良され得る。また、いくつかの実施形態のＲＰＮバックボーンが、最も速い性能及びテスト中の最良のｗｍＡＰを有するＲｅｓＮｅｔ－１０１であるが、本発明の範囲から逸脱することなく、任意の所望のＲＰＮバックボーンを使用してもよい。

【0071】

いくつかの実施形態の高速Ｒ－ＣＮＮ実装は、Ｔｅｎｓｏｒｆｌｏｗオブジェクト検出ＡＰＩであってもよい。そのような実施形態では、指数関数的減衰規則に概ね従う学習速度を有する運動量オプティマイザを使用してもよい。オブジェクトサイズの範囲に起因して、本発明者らは、実際の実装に関して以下の決定を行った。モデル・サイズ・ペナルティを招くことなく、受容野を増加させるために、ＲｅｓＮｅｔ－１０１バックボーンにダイレイト畳み込みを使用することを決定した。このために、ｆｉｒｓｔ＿ｓｔａｇｅ＿ａｔｒｏｕｓ＿ｒａｔｅを２に設定した。以下のアンカー設定も使用した：
（１）幅＝６４及び高さ＝６４の基本サイズ、（２）幅＝８及び高さ＝８のストライド、（３）０．２５、０．５、１．０、２．０のスケール、並びに（４）０．５、１．０、２．０のアスペクト比。両ステージの提案数は４００に設定した。提案は、２ステージ検出ネットワークのハイパーパラメータである。

【0072】

ＣＮＮアーキテクチャは、すべてのストライドが１に等しい場合にのみ、本質的に並進不変である。そうでなければ、違いが現れ始める。更に、アンカーのストライドに起因して、並進に関して更に大きな問題が生じる。したがって、データセットは、並進を含むように拡張されるべきである。

【0073】

いくつかの実施形態では、２つのボックスが比較されるたびに、重なり具合又は最小重なり具合が所与の閾値と共に使用される。いくつかの実施形態では、ボックスの面積に依存する適応閾値を使用してもよい。小さいグラフィカル要素の場合、小さい閾値が好適に作業する。しかしながら、大きいグラフィカル要素の場合、大きい閾値が好ましい場合がある。

【0074】

いくつかの実施形態における各予測は、その予測に関してネットワークが有する「信頼度」がある。閾値は、その予測を考慮に入れる最小信頼度であり得る。例えば、最小信頼度が７０％である場合、いくつかの実施形態では、少なくともその信頼度値を有する予測のみが使用される。特定の実施形態では、信頼度は、適合率（ｐｒｅｃｉｓｉｏｎ）／再現率（ｒｅｃａｌｌ）の関数として動的に計算される。

【0075】

いくつかの実施形態におけるモデルは、固定数の検出された対照を提供する。適合率／再現率のトレードオフに基づいて、これらの提案は、設計時（すなわち、開発者がオートメーション化を定義しているとき）及び実行時（すなわち、ロボットがそれ自体でオートメーション化を実行するとき）の異なる閾値でフィルタリングされ得る。設計時に、適合率を最大化する閾値を使用してもよい（すなわち、高い確度で正確に識別されると考えられるグラフィカル要素のみが示される）。例えば、いくつかの実施形態では、確実性の高さとして９０％を超える信頼度が必要とされ得る。しかしながら、本発明の範囲から逸脱することなく、任意の所望の高い信頼度を使用することができる。このようにして、実行時にグラフィカル要素が見つかる可能性が高くなる。

【0076】

しかしながら、実行時に、再現率を最大化する低い閾値を使用してもよい。したがって、多くの潜在的なグラフィカル要素を識別することができる。次いで、米国特許出願第１６／５１７，２２５号明細書に記載されているようなマルチアンカー後処理を使用して、低適合率（高ノイズ）検出であっても所望の対照の識別を助けることができる。

【0077】

いくつかの実施形態は、既存の画像認識技術を超える様々な利点を実現する。例えば、いくつかの実施形態は、正確な再現率（すなわち、極少数のＵＩ要素だけが見落とされたり、誤って識別されたりする）をもたらす。いくつかの実施形態は、ＵＩテーマの変更及びＵＩスケーリングに対して堅牢である。特定の実施形態は、多くのデータを追加することによって、並びにアーキテクチャの変更（例えば、ニューラルネットワークの内部機構を変更するが、依然として同じ入力／出力を有する）を追加することによって、徐々に改善され得る。

【0078】

図８は、本発明の一実施形態による、ニューラルネットワークをトレーニングするためのプロセス８００を示すフローチャートである。プロセスは、８１０において、ＣＮＮが動作する環境から直接的に画像を収集することによって生のデータセットを作成することから始まる。いくつかの実施形態では、生のデータセットは、実際のスクリーンショットを模倣する合成データから作成される。

【0079】

次に、８２０において、生のデータセットを拡張して、拡張データセットを生成する。いくつかの実施形態では、生のデータセットの拡張は、画像を水平方向に裏返すことと、色を変更することと、ノイズを人工的に追加することと、照明を人工的に追加することと、それらの任意の組合せと、を含む。特定の実施形態では、生のデータの拡張は、チャネルランダム化、色相シフト、色反転、ランダムクロッピング、ランダムスケーリング、画像のぼかし、又はそれらの任意の組合せを使用することを含む。いくつかの実施形態では、拡張データセットは、並進を含む。

【0080】

ランダムクロッピングが、クロップされた画像を生成するために使用される実施形態では、生のデータセットの拡張は、クロップされた画像上にグリッドとして矩形をオーバーレイすることと、オーバーレイした矩形を実際のラベルと照合することと、照合するものがあった場合、肯定的な例としてクロップされた画像を使用してＣＮＮをトレーニングすることと、照合するものがない場合、否定的な例としてクロップされた画像を使用してＣＮＮをトレーニングすることと、を含んでもよい。特定の実施形態では、グリッド内の矩形ごとに提案が提供される。提案は、スケール及びストライド距離を含み、ストライド距離は、矩形間の距離を画定する。いくつかの実施形態では、２つの矩形が比較されるたびに、重なり具合又は最小重なり具合が所与の閾値と共に使用される。特定の実施形態では、閾値は、所与の矩形の面積に依存する適応閾値である。いくつかの実施形態では、異なるクロップ技法が、少なくとも２つの異なるグラフィカル要素タイプを識別するために使用される。

【0081】

次いで、８３０において、ＣＮＮを、拡張データセットを使用してトレーニングする。いくつかの実施形態では、ＣＮＮは、高速Ｒ－ＣＮＮアーキテクチャを含む。特定の実施形態では、ダイレイト畳み込みが２つのステージを有するＲＰＮバックボーンで使用され、異なるスケールが使用され、異なるアスペクト比が使用される。

【0082】

次いで、８４０において、グラフィカル要素は、トレーニングしたＣＮＮを使用してＵＩ内で検出される。いくつかの実施形態では、グラフィカル要素の検出は、グラフィカル要素ごとに固定数の提案を提供することを含む。特定の実施形態では、提案は、設計時及び実行時に対して異なる閾値でフィルタリングされ、実行時閾値は、設計時閾値よりも高い検出確率を必要とする。

【0083】

図７及び図８で実施されるプロセスステップは、本発明の実施形態に従って、プロセッサが図７及び図８に記載したプロセスの少なくとも一部を実施するために、命令を符号化するコンピュータプログラムによって実施されてもよい。コンピュータプログラムは、非一時的コンピュータ可読媒体に格納されてもよい。コンピュータ可読媒体は、限定しないが、ハード・ディスク・ドライブ、フラッシュデバイス、ＲＡＭ、テープ、及び／あるいはデータを記憶するために使用される任意の他のそのような媒体又は媒体の組合せであってもよい。コンピュータプログラムは、コンピュータ可読媒体に記憶され得る、図７及び図８に記載したプロセスステップの全部又は一部を実装するように、コンピューティングシステムのプロセッサ（例えば、図６のコンピューティングシステム６００のプロセッサ６１０）を制御するための符号化された命令を含んでもよい。

【0084】

コンピュータプログラムは、ハードウェア、ソフトウェア、又はハイブリッド実装で実装してもよい。コンピュータプログラムは、互いに動作可能に通信し、情報又は命令を表示のために渡すように設計されたモジュールから構成してもよい。コンピュータプログラムは、汎用コンピュータ、ＡＳＩＣ、又は任意の他の適切なデバイス上で動作するように構成してもよい。

【0085】

本発明の様々な実施形態のコンポーネントは、本明細書の図に一般的に記載及び図示されているように、多種多様な異なる構成で配置及び設計されてもよいことが容易に理解されよう。したがって、添付の図面に表すように、本発明の実施形態の詳細な説明は、特許請求される本発明の範囲を限定することを意図するものではなく、本発明の選択された実施形態を単に代表するものである。

【0086】

本明細書を通して記載した本発明の特徴、構造、又は特性は、１つ又は複数の実施形態において任意の適切な方法で組み合わせられ得る。例えば、本明細書全体を通して「特定の実施形態」、「いくつかの実施形態」、又は同様の文言への言及は、実施形態に関連して記載した特定の特徴、構造、又は特性が本発明の少なくとも１つの実施形態に含まれることを意味する。したがって、本明細書全体を通して、「特定の実施形態では」、「いくつかの実施形態では」、「他の実施形態では」、又は同様の文言の出現は、必ずしもすべてが同じ実施形態のグループを指すわけではなく、記載した特徴、構造、又は特性は、１つ又は複数の実施形態において任意の適切な方法で組み合わせられ得る。

【0087】

本明細書を通して特徴、利点、又は同様の文言への言及は、本発明で実現され得る特徴及び利点のすべてが本発明の任意の単一の実施形態であるべきであること、又は本発明の任意の単一の実施形態であることを意味するものではないことに留意されたい。むしろ、特徴及び利点に言及する文言は、実施形態に関連して記載した特定の特徴、利点、又は特性が本発明の少なくとも１つの実施形態に含まれることを意味すると理解される。したがって、本明細書を通して、特徴及び利点、並びに同様の文言の説明は、必ずしもそうとは限らないが、同じ実施形態を参照し得る。

【0088】

更に、本発明の記載した特徴、利点、及び特性は、１つ又は複数の実施形態において任意の適切な方法で組み合わせられてもよい。当業者は、特定の実施形態の特定の特徴又は利点のうちの１つ又は複数なしに、本発明を実施し得ることを認識するであろう。他の例では、本発明のすべての実施形態には存在しない可能性がある特定の実施形態において、追加の特徴及び利点が認識され得る。

【0089】

当業者であれば、上記のような本発明は、異なる順序のステップで、及び／又は開示されているものとは異なる構成のハードウェア要素で実施され得ることを容易に理解するであろう。したがって、本発明を、これらの好ましい実施形態に基づいて記載しているが、本発明の精神及び範囲内に留まりながら、特定の改良、変形、及び代替構造が明らかであることは、当業者には明らかであろう。したがって、本発明の範囲を決定するために、添付の特許請求の範囲を参照すべきである。

【図1】