特表2023-545253 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ユーアイパス，インコーポレイテッドの特許一覧

特表2023-545253コンピュータビジョンを使ったアプリケーション、画面、およびユーザーインターフェース要素を認識するための人工知能／機械学習モデルの訓練

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-10-27

(54)【発明の名称】コンピュータビジョンを使ったアプリケーション、画面、およびユーザーインターフェース要素を認識するための人工知能／機械学習モデルの訓練

(51)【国際特許分類】

G06N 20/00 20190101AFI20231020BHJP

【ＦＩ】

G06N20/00

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023518733

(86)(22)【出願日】2021-10-05

(85)【翻訳文提出日】2023-05-16

(86)【国際出願番号】 US2021053484

(87)【国際公開番号】W WO2022081377

(87)【国際公開日】2022-04-21

(31)【優先権主張番号】17/070,108

(32)【優先日】2020-10-14

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＺＩＧＢＥＥ

２．ＢＬＵＥＴＯＯＴＨ

３．ＷＣＤＭＡ

(71)【出願人】

【識別番号】520262319

【氏名又は名称】ユーアイパス，インコーポレイテッド

【氏名又は名称原語表記】ＵｉＰａｔｈ，Ｉｎｃ．

【住所又は居所原語表記】１ＶａｎｄｅｒｂｉｌｔＡｖｅｎｕｅ，６０ｔｈＦｌｏｏｒ，ＮｅｗＹｏｒｋ，ＮＹ１００１７，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】110003487

【氏名又は名称】弁理士法人東海特許事務所

(72)【発明者】

【氏名】シング，プラブディープ

(57)【要約】

コンピュータビジョン（ＣＶ）を用いてアプリケーション、画面、および（ＵＩ）要素を認識するためならびにアプリケーション、画面、およびＵＩ要素とのユーザーインタラクションを認識するための人工知能（ＡＩ）／機械学習（ＭＬ）モデルを訓練するための技術。光学式文字認識（ＯＣＲ）もまた、ＡＩ／ＭＬモデルの訓練を支援するために使用され得る。ＡＩ／ＭＬモデルの訓練は、システムレベルの情報（例えば、キー押下、マウスクリック、位置、オペレーティングシステムの動作など）またはアプリケーションレベルの情報（例えば、コンピューティングシステム上で遂行するソフトウェアアプリケーションからのアプリケーションプログラミンで実行され得、あるいはＡＩ／ＭＬモデルの訓練は、ブラウザ履歴、ヒートマップ、グインターフェース（ＡＰＩ）からの情報）などの他のシステム入力なしファイル情報、現在実行中のアプリケーションおよび位置、システムレベルの情報および／またはアプリケーションレベルの情報などの他の情報で補完され得る。

【特許請求の範囲】

【請求項1】

各レコーダープロセスを含む１または複数のユーザーコンピューティングシステムと、
コンピュータビジョン（ＣＶ）を用いてアプリケーション、画面、およびユーザーインターフェース（ＵＩ）要素を認識するためならびに前記アプリケーション、画面、およびＵＩ要素とのユーザーインタラクションを認識するための人工知能（ＡＩ）／機械学習（ＭＬ）モデルを訓練するように構成されたサーバーと、を含むシステムであって、
前記各レコーダープロセスは、
前記ユーザーコンピューティングシステムのそれぞれに関連するディスプレイのスクリーンショットまたはビデオフレームおよび他の情報を記録し、
記録された前記スクリーンショットまたはビデオフレーム、および前記他の情報を、前記サーバーによってアクセス可能なストレージに送信するように構成され、
前記サーバーは、
最初に、記録された前記スクリーンショットまたはビデオフレームおよび前記他の情報を使用して、記録された前記スクリーンショットまたはビデオフレームに存在する前記アプリケーション、画面、およびＵＩ要素を認識するように前記ＡＩ／ＭＬモデルを訓練し、
前記ＡＩ／ＭＬモデルが、記録された前記スクリーンショットまたはビデオフレーム内の前記アプリケーション、画面、およびＵＩ要素を信頼を持って認識できるようになった後、前記ＡＩ／ＭＬモデルを訓練して、前記ＵＩ要素との個々のユーザーインタラクションを認識するように構成される、システム。

【請求項2】

前記個々のユーザーインタラクションは、ボタン押下、単一文字または文字列の入力、アクティブなＵＩ要素の選択、メニュー選択、画面変更、音声入力、ジェスチャー、生体情報の提供、ハプティックインタラクション、またはこれらの組み合わせを含む、請求項１に記載のシステム。

【請求項3】

前記ＵＩ要素との前記個々のユーザーインタラクションを認識するための前記ＡＩ／ＭＬモデルの訓練は、２つ以上の連続するスクリーンショットもしくはビデオフレームを比較し、タイプされた文字があるスクリーンショットから別のスクリーンショットに現れたこと、ボタンが押されたこと、またはメニュー選択が生じたことを決定することを含む、請求項１に記載のシステム。

【請求項4】

前記他の情報は、ウェブブラウザの履歴、１もしくは複数のヒートマップ、キーの押下、マウスのクリック、ユーザーがインタラクションしている前記ディスプレイ上のマウスクリックおよび／もしくはグラフィカル要素の位置、前記ユーザーが前記ディスプレイ上で見ていた位置、前記スクリーンショットまたはビデオフレームに関連するタイムスタンプ、前記ユーザーが入力したテキスト、前記ユーザーがスクロールして通過したコンテンツ、前記ユーザーが前記ディスプレイに表示されたコンテンツの一部で立ち止まった時間、前記ユーザーがインタラクションしているアプリケーションは何か、音声入力、ジェスチャー、感情情報、生体情報、ユーザーアクティビティが無い期間に関する情報、ハプティック情報、マルチタッチ入力情報、またはそれらの組み合わせを含む、請求項１に記載のシステム。

【請求項5】

前記１または複数のユーザーコンピューティングシステムあるいは前記サーバーは、１または複数のヒートマップを生成するように構成され、前記他の情報は、前記１または複数のヒートマップを含み、
前記１または複数のヒートマップは、ユーザーがアプリケーションを使用した頻度、前記ユーザーが前記アプリケーションのコンポーネントとインタラクションした頻度、前記アプリケーション内の前記コンポーネントの位置、前記アプリケーションおよび／もしくはコンポーネントのコンテンツ、またはそれらの組み合わせを含む、請求項１に記載のシステム。

【請求項6】

前記１または複数のユーザーコンピューティングシステムあるいは前記サーバーは、タイプされたおよび／もしくはペーストされたテキストの検出、キャレット追跡、アクティブ要素の検出、またはそれらの組み合わせを含む表示分析から前記１または複数のヒートマップを導出するように構成される、請求項５に記載のシステム。

【請求項7】

前記１または複数のユーザーコンピューティングシステムの１つのユーザーコンピューティングシステムに動作可能に接続されたオートメーションボックスであって、前記オートメーションボックスは、
１または複数のユーザー入力デバイスから入力を受信し、
前記入力にタイムスタンプを関連付け、
タイムスタンプされた前記入力を、前記サーバーによってアクセス可能なストレージに送信するように構成されるオートメーションボックスをさらに備え、
前記サーバーは、タイムスタンプされた前記入力を前記ＡＩ／ＭＬモデルの初期訓練に使用するように構成される、請求項１に記載のシステム。

【請求項8】

サーバーは、前記スクリーンショットまたはビデオフレーム内の前記アプリケーション、画面、およびＵＩ要素の先験的知識無しに、前記ＡＩ／ＭＬモデルの初期訓練を実行するように構成される、請求項１に記載のシステム。

【請求項9】

コンピュータビジョン（ＣＶ）を用いてアプリケーション、画面、およびユーザーインターフェース（ＵＩ）要素を認識するためならびに／または前記アプリケーション、画面、およびＵＩ要素とのユーザーインタラクションを認識するための人工知能（ＡＩ）／機械学習（ＭＬ）モデルを訓練するように構成されたコンピュータプログラムを格納する非一時的なコンピュータ読み取り可能な媒体であって、前記コンピュータプログラムは、少なくとも１つのプロセッサが、
前記１または複数のコンピューティングシステムに関連するディスプレイの記録されたスクリーンショットまたはビデオフレームにアクセスし、前記１または複数のコンピューティングシステムに関連する他の情報にアクセスし、
最初に、記録された前記スクリーンショットまたはビデオフレームおよび前記他の情報を使用して、記録された前記スクリーンショットまたはビデオフレームに存在する前記アプリケーション、画面、およびＵＩ要素を認識するように前記ＡＩ／ＭＬモデルを訓練するように構成され、
前記スクリーンショットまたはビデオフレーム内の前記アプリケーション、画面、およびＵＩ要素の先験的知識無しに、前記ＡＩ／ＭＬモデルの初期訓練が実行される、非一時的なコンピュータ読み取り可能な媒体。

【請求項10】

前記ＡＩ／ＭＬモデルが、記録された前記スクリーンショットまたはビデオフレーム内の前記アプリケーション、画面、およびＵＩ要素を信頼を持って認識することができた後、前記コンピュータプログラムは、前記少なくとも１つのプロセッサが、
前記ＡＩ／ＭＬモデルを訓練して、前記ＵＩ要素との個々のユーザーインタラクションを認識するようにさらに構成される、請求項９に記載の非一時的なコンピュータ読み取り可能な媒体。

【請求項11】

前記ＵＩ要素との前記個々のユーザーインタラクションを認識するための前記ＡＩ／ＭＬモデルの訓練は、２つ以上の連続するスクリーンショットもしくはビデオフレームを比較し、タイプされた文字があるものから別のものに現れたこと、ボタンが押されたこと、またはメニュー選択が生じたことを決定することを含む、請求項１０に記載の非一時的なコンピュータ読み取り可能な媒体。

【請求項12】

前記個々のユーザーインタラクションは、ボタン押下、単一文字または文字列の入力、アクティブなＵＩ要素の選択、メニュー選択、画面変更、音声入力、ジェスチャー、生体情報の提供、ハプティックインタラクション、またはこれらの組み合わせを含む、請求項１０に記載の非一時的なコンピュータ読み取り可能な媒体。

【請求項13】

【請求項14】

前記コンピュータプログラムはさらに、前記少なくとも１つのプロセッサが、
１または複数のヒートマップを生成し、前記他の情報は、前記１または複数のヒートマップを含むように構成され、
前記１または複数のヒートマップは、ユーザーが１もしくは複数のアプリケーションを使用した頻度、前記ユーザーが前記１もしくは複数のアプリケーションのコンポーネントとインタラクションした頻度、前記１もしくは複数アプリケーション内の前記コンポーネントの位置、前記１もしくは複数アプリケーションおよび／もしくはコンポーネントのコンテンツ、またはそれらの組み合わせを含む、請求項９に記載の非一時的なコンピュータ読み取り可能な媒体。

【請求項15】

前記１または複数のヒートマップは、タイプされたおよび／もしくはペーストされたテキストの検出、キャレット追跡、アクティブ要素の検出、またはそれらの組み合わせを含む表示分析から導かれる、請求項１４に記載の非一時的なコンピュータ読み取り可能な媒体。

【請求項16】

コンピュータビジョン（ＣＶ）を用いてアプリケーション、画面、およびユーザーインターフェース（ＵＩ）要素を認識するためならびに前記アプリケーション、画面、およびＵＩ要素とのユーザーインタラクションを認識するための人工知能（ＡＩ）／機械学習（ＭＬ）モデルを訓練するためのコンピュータ実装方法であって、前記方法は、
前記１または複数のコンピューティングシステムに関連するディスプレイの記録されたスクリーンショットまたはビデオフレームにアクセスし、前記１または複数のコンピューティングシステムに関連する他の情報にアクセスし、
最初に、記録された前記スクリーンショットまたはビデオフレームおよび前記他の情報を使用して、記録された前記スクリーンショットまたはビデオフレームに存在する前記アプリケーション、画面、およびＵＩ要素を認識するように前記ＡＩ／ＭＬモデルを訓練し、
前記ＡＩ／ＭＬモデルが、記録された前記スクリーンショットまたはビデオフレーム内の前記アプリケーション、画面、およびＵＩ要素を信頼を持って認識できるようになった後、前記ＡＩ／ＭＬモデルを訓練して、前記ＵＩ要素との個々のユーザーインタラクションを認識することを含む、コンピュータ実装方法。

【請求項17】

前記スクリーンショットまたはビデオフレーム内の前記アプリケーション、画面、およびＵＩ要素の先験的知識無しに、前記ＡＩ／ＭＬモデルの初期訓練が実行される、請求項１６に記載のコンピュータ実装方法。

【請求項18】

前記ＵＩ要素との前記個々のユーザーインタラクションを認識するための前記ＡＩ／ＭＬモデルの訓練は、２つ以上の連続するスクリーンショットもしくはビデオフレームを比較し、タイプされた文字があるものから別のものに現れたこと、ボタンが押されたこと、またはメニュー選択が生じたことを決定することを含む、請求項１６に記載のコンピュータ実装方法。

【請求項19】

前記個々のユーザーインタラクションは、ボタン押下、単一文字または文字列の入力、アクティブなＵＩ要素の選択、メニュー選択、画面変更、音声入力、ジェスチャー、生体情報の提供、ハプティックインタラクション、またはこれらの組み合わせを含む、請求項１６に記載のコンピュータ実装方法。

【請求項20】

【請求項21】

１または複数のヒートマップを生成し、前記他の情報は、前記１または複数のヒートマップを含むことをさらに含み、
前記１または複数のヒートマップは、ユーザーが１もしくは複数のアプリケーションを使用した頻度、前記ユーザーが前記１もしくは複数のアプリケーションのコンポーネントとインタラクションした頻度、前記１もしくは複数アプリケーション内の前記コンポーネントの位置、前記１もしくは複数アプリケーションおよび／もしくはコンポーネントのコンテンツ、またはそれらの組み合わせを含み、
前記１または複数のヒートマップは、タイプされたおよび／もしくはペーストされたテキストの検出、キャレット追跡、アクティブ要素の検出、またはそれらの組み合わせを含む表示分析から導かれる、請求項１６に記載のコンピュータ実装方法。

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願への相互参照）
これは、２０２０年１０月１４日に出願された米国特許出願第１７／０７０，１０８号の利益およびその優先権を主張する国際出願です。先に提出された本出願の主題は、その全体を参照することにより、本明細書に組み込まれる。

【0002】

本発明は概して、ユーザーインターフェース（ＵＩ）オートメーションに関し、より具体的には、コンピュータビジョン（ＣＶ）を用いてアプリケーション、画面、およびＵＩ要素を認識するためならびにアプリケーション、画面、およびＵＩ要素とのユーザーインタラクションを認識するための人工知能（ＡＩ）／機械学習（ＭＬ）モデルを訓練することに関する。

【背景技術】

【0003】

ＵＩオートメーションを実行するために、ＲＰＡ技術は、ドライバおよび／またはアプリケーションレベルのインタラクションを利用して、ボタンをクリックし、テキストを入力し、ＵＩとの他のインタラクションを実行し得る。しかし、キー押下、マウスクリック、および他のカーネルフック情報は、いくつかの実施形態において、または新しいＵＩオートメーションプラットフォームを構築する際に、システムレベルで利用できない場合がある。このようなＵＩオートメーションプラットフォームを実装するためには、広範なドライバレベルおよびアプリケーションレベルの機能性が一般的に必要である。したがって、ＵＩオートメーションを提供するための代替技術は有益であり得る。

【発明の概要】

【0004】

本発明の特定の実施形態は、現在のＵＩオートメーション技術によってまだ十分に特定されていない、評価されていない、または解決されていない本分野における問題およびニーズのソリューションを提供し得る。例えば、本発明のいくつかの実施形態は、ＣＶを用いてアプリケーション、画面、および（ＵＩ）要素を認識するためならびにアプリケーション、画面、およびＵＩ要素とのユーザーインタラクションを認識するためのＡＩ／ＭＬモデルを訓練することに関する。

【0005】

実施形態では、システムは、それぞれのレコーダープロセスを含む１または複数のユーザーコンピューティングシステムと、ＣＶを使用してアプリケーション、画面、およびＵＩ要素を認識し、かつアプリケーション、画面、およびＵＩ要素とのユーザーインタラクションを認識するためにＡＩ／ＭＬモデルを訓練するように構成されたサーバーを含む。各レコーダープロセスは、ユーザーコンピューティングシステムのそれぞれに関連するディスプレイのスクリーンショットまたはビデオフレームおよび他の情報を記録するように構成される。各レコーダープロセスはまた、記録されたスクリーンショットまたはビデオフレーム、および他の情報を、サーバーによってアクセス可能なストレージに送信するように構成される。サーバーは最初に、記録されたスクリーンショットまたはビデオフレームおよび他の情報を使用して、記録されたスクリーンショットまたはビデオフレームに存在するアプリケーション、画面、およびＵＩ要素を認識するようにＡＩ／ＭＬモデルを訓練するように構成される。ＡＩ／ＭＬモデルが、記録されたスクリーンショットまたはビデオフレーム内のアプリケーション、画面、およびＵＩ要素を信頼を持って認識できるようになった後、サーバーも、ＡＩ／ＭＬモデルを訓練して、ＵＩ要素との個々のユーザーインタラクションを認識するように構成される。

【0006】

別の実施形態では、非一時的なコンピュータ読み取り可能な媒体は、ＣＶを使用してアプリケーション、画面、およびＵＩ要素を認識する、ならびに／またはアプリケーション、画面、およびＵＩ要素とのユーザーインタラクションを認識するためにＡＩ／ＭＬモデルを訓練するように構成されるコンピュータプログラムを格納する。コンピュータプログラムは、少なくとも１つのプロセッサが、１または複数のコンピューティングシステムに関連するディスプレイの記録されたスクリーンショットまたはビデオフレームにアクセスし、１または複数のコンピューティングシステムに関連する他の情報にアクセスするように構成される。コンピュータプログラムはまた、少なくとも１つのプロセッサが、最初に、記録されたスクリーンショットまたはビデオフレームおよび他の情報を使用して、記録されたスクリーンショットまたはビデオフレームに存在するアプリケーション、画面、およびＵＩ要素を認識するようにＡＩ／ＭＬモデルを訓練するように構成される。スクリーンショットまたはビデオフレーム内のアプリケーション、画面、およびＵＩ要素の先験的知識無しに、ＡＩ／ＭＬモデルの初期訓練が実行される。

【0007】

さらに別の実施形態では、ＣＶを使用してアプリケーション、画面、およびＵＩ要素を認識し、かつアプリケーション、画面、およびＵＩ要素とのユーザーインタラクションを認識するためにＡＩ／ＭＬモデルを訓練するためのコンピュータ実装方法は、１または複数のコンピューティングシステムに関連するディスプレイの記録されたスクリーンショットまたはビデオフレームにアクセスし、１または複数のコンピューティングシステムに関連する他の情報にアクセスすることを含む。コンピュータ実装方法はまた、最初に、記録されたスクリーンショットまたはビデオフレームおよび他の情報を使用して、記録されたスクリーンショットまたはビデオフレームに存在するアプリケーション、画面、およびＵＩ要素を認識するようにＡＩ／ＭＬモデルを訓練することを含む。ＡＩ／ＭＬモデルが、記録されたスクリーンショットまたはビデオフレーム内のアプリケーション、画面、およびＵＩ要素を信頼を持って認識できるようになった後、コンピュータ実装方法はさらに、ＡＩ／ＭＬモデルを訓練して、ＵＩ要素との個々のユーザーインタラクションを認識することを含む。

【図面の簡単な説明】

【0008】

本発明の特定の実施形態の利点が容易に理解されるように、上記で簡単に説明した本発明のより特定の説明は、添付の図面に図示されている特定の実施形態を参照して描写される。これらの図面は、本発明の典型的な実施形態のみを描いており、したがって、その範囲を限定するものとは考えられないことが理解されるべきであるが、本発明は、以下の添付の図面を使用することにより、さらなる特定および詳細をもって描写され、説明されるであろう。

【0009】

【図1】本発明の実施形態による、ロボティックプロセスオートメーション（ＲＰＡ）システムを示すアーキテクチャ図である。

【0010】

【図2】本発明の実施形態による、展開したＲＰＡシステムを示すアーキテクチャ図である。

【0011】

【図3】本発明の実施形態による、デザイナ、アクティビティ、およびドライバの間の関係を示すアーキテクチャ図である。

【0012】

【図4】本発明の実施形態による、ＲＰＡシステムを示すアーキテクチャ図である。

【0013】

【図5】本発明の実施形態による、ＣＶを使用してアプリケーション、画面、およびＵＩ要素を認識し、かつアプリケーション、画面、およびＵＩ要素とのユーザーインタラクションを認識するためにＡＩ／ＭＬモデルを訓練するように構成されたコンピューティングシステムを説明するアーキテクチャ図である。

【0014】

【図6】本発明の実施形態による、ＣＶを使用してアプリケーション、画面、およびＵＩ要素を認識し、かつアプリケーション、画面、およびＵＩ要素とのユーザーインタラクションを認識するためにＡＩ／ＭＬモデルを訓練するように構成されたシステムを説明するアーキテクチャ図である。

【0015】

【図7】本発明の実施形態による、ＣＶを使用してアプリケーション、画面、およびＵＩ要素を認識し、かつアプリケーション、画面、およびＵＩ要素とのユーザーインタラクションを認識するためにＡＩ／ＭＬモデルを訓練するためのプロセスを説明するフローチャートである。

【0016】

【図8】本発明の実施形態による、オートメーションボックスおよび眼球運動追跡システムを説明するアーキテクチャ図である。

【発明を実施するための形態】

【0017】

別段の記載がない限り、類似の参照文字は、添付の図面全体で一貫して対応する特徴を示す。

【0018】

（実施形態の詳細な説明）
いくつかの実施形態は、ＣＶを用いてアプリケーション、画面、および（ＵＩ）要素を認識するためならびにアプリケーション、画面、およびＵＩ要素とのユーザーインタラクションを認識するためのＡＩ／ＭＬモデルを訓練することに関する。特定の実施形態では、光学式文字認識（ＯＣＲ）もまた、ＡＩ／ＭＬモデルの訓練を支援するために使用され得る。いくつかの実施形態では、ＡＩ／ＭＬモデルの訓練は、ＵｉＰａｔｈＳｔｕｄｉｏ（商標）のドライバによって提供されるような、システムレベルの情報（例えば、キー押下、マウスクリック、位置、オペレーティングシステムの動作など）またはアプリケーションレベルの情報（例えば、コンピューティングシステム上で遂行するソフトウェアアプリケーションからのアプリケーションプログラミングインターフェース（ＡＰＩ）からの情報）などの他のシステム入力無しで実行され得る。しかし、特定の実施形態では、ＡＩ／ＭＬモデルの訓練は、ブラウザ履歴、ファイル情報、現在実行中のアプリケーションおよび位置、システムレベルおよび／またはアプリケーションレベル情報などの他の情報によって補完され得る。

【0019】

いくつかの実施形態は、ＡＩ／ＭＬモデルの初期バージョンのラベル付きスクリーン画像を１または複数のコンピューティングシステムから訓練入力として与えることによって、ＡＩ／ＭＬモデルの訓練を開始する。ＡＩ／ＭＬモデルは、画面内にどのようなアプリケーション（複数可）およびグラフィカル要素（複数可）が存在すると認識されるかなどの予測を出力として提供する。特定エラーは人間のレビューアによって（例えば、誤認された要素の周りにボックスを描画し、正しい特定を含めることによって）強調され得、ＵＩの画面に存在するアプリケーションおよびグラフィカル要素を観察するために展開されるほどその精度が十分に高くなるまで、ＡＩ／ＭＬモデルが訓練され得る。

【0020】

いくつかの実施形態では、画像のみから訓練するのではなく、追跡コードをユーザーのコンピューティングシステムに埋め込むこともできる。例えば、ＪａｖａＳｃｒｉｐｔ（登録商標）のスニペットをリスナーとしてウェブブラウザに埋め込み、ユーザーがどのコンポーネントとインタラクションしたか、ユーザーが何のテキストを入力したか、ユーザーがどの位置／コンポーネントをマウスでクリックしたか、ユーザーがどのコンテンツをスクロールして通過したか、ユーザーがコンテンツの特定の部分でどのくらい停止したか、などを追跡することができる。コンテンツをスクロールして通過するということは、そのコンテンツがユーザーが求めているものと多少は近かったかもしれないが、それを正確に持っていなかったことを示し得る。クリックが成功を示し得る。

【0021】

リスナーアプリケーションは、ＪａｖａＳｃｒｉｐｔ（登録商標）である必要はなく、本発明の範囲から逸脱することなく、任意の適切なタイプのアプリケーションおよび任意の所望のプログラミング言語であってもよい。これにより、リスナーアプリケーションの「一般化」が可能になり、複数のアプリケーションまたはユーザーがインタラクションしている任意のアプリケーションとのユーザーインタラクションを追跡できるようになる。ラベル付けされた訓練データをゼロから使用することは、ＡＩ／ＭＬモデルがさまざまなコントロールを認識できるようになり得るが、どのコントロールがどのように一般的に使用されているかに関する情報が含まれていないため、難しい場合がある。リスナーアプリケーションを使用して、「ヒートマップ」を生成し、ＡＩ／ＭＬモデルの訓練プロセスをブートストラップするのに役立て得る。ヒートマップは、ユーザーがアプリケーションを使用した頻度、ユーザーがアプリケーションのコンポーネントとインタラクションした頻度、コンポーネントの位置、アプリケーション／コンポーネントのコンテンツなど、さまざまな情報を含み得る。いくつかの実施形態では、ヒートマップは、タイプされたおよび／またはペーストされたテキストの検出、キャレット追跡、ならびにコンピューティングシステムのアクティブ要素検出などの画面分析から導かれ得る。いくつかの実施形態は、コンピューティングシステムに関連付けられた画面上のどこでユーザーが、目に見える文字が表示されないホットキーまたはその他のキーを含む可能性があるテキストをタイプまたはペーストしたかを認識し、１もしくは複数の文字が表示された位置、カーソルが点滅していた位置、またはその両方の現在の解像度（例えば、座標における）に基づいて、画面上の物理的な位置を提供する。タイプまたはペーストしたアクティビティおよび／またはキャレットの物理的な位置により、ユーザーがタイプまたはフォーカスしているフィールド（複数可）と、プロセス発見または他のアプリケーション用のアプリケーションが何であるかを決定し得る。

【0022】

いくつかの実施形態は、現在のスクリーンショットを以前のスクリーンショットと連続的または定期的に比較して変化を特定するフィードバックループプロセスで実装される。画面上で視覚的な変化が発生した位置を特定し、変化が発生した位置に対して光学式文字認識（ＯＣＲ）を実行し得る。次に、ＯＣＲの結果をキーボードキューのコンテンツと比較して（例えば、キーフックによって決定される）、一致が存在するかどうかを決定し得る。変化が発生した位置は、現在のスクリーンショットからのピクセルのボックスを、前のスクリーンショットの同じ位置にあるピクセルのボックスと比較することによって決定され得る。一致が見つかると、変化が発生した位置のテキストがその位置に関連付けられ、リスナー情報の一部として提供され得る。

【0023】

ヒートマップが生成されると、最初のヒートマップ情報に基づいて、ＡＩ／ＭＬモデルはスクリーンイメージ（数百万のイメージの可能性もある）で訓練され得る。グラフィックスプロセッシングユニット（ＧＰＵ）は、この情報を処理し、ＡＩ／ＭＬモデルを比較的迅速に訓練することができ得る。グラフィカル要素、ウィンドウ、アプリケーションなどが正確に特定され得るようになると、ＡＩ／ＭＬモデルを訓練して、ラベル付けされたユーザーによるＵＩ内のアプリケーションとのインタラクションを認識し、ユーザーが実行する増分アクションを理解し得る。１または一連のグラフィカル要素の変化は、ユーザーがボタンをクリックしたり、テキストを入力したり、メニューとインタラクションしたり、ウィンドウを閉じたり、アプリケーションの別の画面に移動したりしたことを示している場合がある。例えば、ユーザーがクリックしたメニューアイテムに下線が引かれ得、ボタンが押されている間はボタンが暗くなり得、次いでユーザーがマウスボタンを離すと元の色合いに戻り得、文字「ａ」がテキストフィールドに表示され得、画像が別の画像に変わり得、ユーザーが一連の画面のアプリケーションの次の画面に移動したときに画面が別のレイアウトになり得るなど。

【0024】

特定エラーは、人間のレビューアによって再び強調され得る（例えば、誤特定された要素の周りにボックスを描画し、正しい特定を含めることによって）。ＡＩ／ＭＬモデルは次いで、その精度が展開されるほど十分に高くなり、ＵＩとの詳細なユーザーインタラクションを理解できるようになるまで訓練され得る。例えば、このような訓練されたＡＩ／ＭＬモデルは、次いで、複数のユーザーを観察し、共通のアプリケーションにおける共通のインタラクションのシーケンスを探すために使用され得る。

【0025】

いくつかの実施形態では、ＡＩ／ＭＬモデルの訓練は、ハードウェアまたはソフトウェアを介して実装され、マウスまたはキーボードなどの入力デバイスからどのような情報が来るかを観察する「オートメーションボックス」からの情報で補完され得る。特定の実施形態では、カメラを使用して、ユーザーが画面上のどこを見ているのかを追跡し得る。オートメーションボックスおよび／またはカメラからの情報は、タイムスタンプが付けられ、ＡＩ／ＭＬモデルによって検出されたグラフィカル要素、アプリケーション、および画面と組み合わせて使用されて、その訓練を支援し、ユーザーがその時点でしていることをより良く理解し得る。

【0026】

特定の実施形態は、ロボティックプロセスオートメーション（ＲＰＡ）に採用されてもよい。図１は、本発明の実施形態による、ＲＰＡシステム１００を示すアーキテクチャ図である。ＲＰＡシステム１００は、開発者がワークフローを設計して実装することを可能にするデザイナ１１０を含む。デザイナ１１０は、アプリケーション統合のためのソリューションを提供するとともに、サードパーティアプリケーション、管理情報技術（ＩＴ）タスク、およびビジネスＩＴプロセスを自動化する。デザイナ１１０は、ビジネスプロセスのグラフィック表現である自動化プロジェクトの開発を容易にし得る。簡単に言えば、デザイナ１１０は、ワークフローおよびロボットの開発および展開を容易にする。

【0027】

自動化プロジェクトは、本明細書で「アクティビティ」と定義されるワークフローで開発されたステップのカスタムセット間の遂行順序および関係の制御を開発者に与えることにより、ルールベースのプロセスの自動化を可能にする。デザイナ１１０の実施形態の商業的な一例は、ＵｉＰａｔｈＳｔｕｄｉｏ（商標）である。各アクティビティは、ボタンをクリックする、ファイルを読む、ログパネルに書き込むなどのアクションを含み得る。いくつかの実施形態では、ワークフローは入れ子になっているか、または埋め込まれ得る。

【0028】

ワークフローのタイプには、シーケンス、フローチャート、ＦＳＭ、および／またはグローバル例外ハンドラなどを含み得るが、これらに限定されない。シーケンスは、ワークフローを乱雑にすることなく、あるアクティビティから別のアクティビティへのフローを可能にする、線形プロセスに特に適し得る。フローチャートは、特により複雑なビジネスロジックに適し得、複数の分岐ロジックオペレータを介して、より多様な方法で意思決定の統合およびアクティビティの接続を可能にする。ＦＳＭは、大規模なワークフローに特に適し得る。ＦＳＭは、条件（すなわち、遷移）またはアクティビティによりトリガされる有限の数の状態をそれらの遂行中に使用し得る。グローバル例外ハンドラは、遂行エラーに遭遇したときのワークフローの挙動を決定したり、プロセスをデバッグしたりするのに特に適し得る。

【0029】

ワークフローがデザイナ１１０内で開発されると、ビジネスプロセスの遂行は、コンダクタ１２０によって調整され、デザイナ１１０内で開発されたワークフローを遂行する１または複数のロボット１３０を調整する。コンダクタ１２０の実施形態の商業的な一例は、ＵｉＰａｔｈＯｒｃｈｅｓｔｒａｔｏｒ（商標）である。コンダクタ１２０は、環境におけるリソースの生成、監視、および展開の管理を容易にする。コンダクタ１２０は、サードパーティのソリューションおよびアプリケーションとの統合ポイント、または統合ポイントの１つとして動作し得る。

【0030】

コンダクタ１２０は、全てのロボット１３０を管理し得、ロボット１３０を集中ポイントから接続して遂行する。管理され得るロボット１３０のタイプには、アテンディッドロボット１３２、アンアテンディッドロボット１３４、開発ロボット（アンアテンディッドロボット１３４と同様であるが、開発およびテストの目的で使用される）、および非生産ロボット（アテンディッドロボット１３２と同様であるが、開発およびテストの目的で使用される）が含まれるが、これらに限定されない。アテンディッドロボット１３２は、ユーザーイベントによってトリガされ、同じコンピューティングシステム上で人と並んで動作する。アテンディッドロボット１３２は、集中プロセスデプロイメントおよびロギング媒体のためのコンダクタ１２０とともに使用され得る。アテンディッドロボット１３２は、人のユーザーが様々なタスクを達成するのを支援してもよく、ユーザーイベントによってトリガされてもよい。いくつかの実施形態では、プロセスは、このタイプのロボット上でコンダクタ１２０から開始することができず、および／またはそれらはロックされた画面の下で実行することができない。特定の実施形態では、アテンディッドロボット１３２は、ロボットトレイからまたはコマンドプロンプトからのみ起動され得る。アテンディッドロボット１３２は、いくつかの実施形態では、人の監督下で動作することが好ましい。

【0031】

アンアテンディッドロボット１３４は、仮想環境で無人で動作し、多くのプロセスを自動化し得る。アンアテンディッドロボット１３４は、リモート遂行、監視、スケジューリング、および作業キューのサポートの提供を担当し得る。全てのロボットタイプのためのデバッグは、いくつかの実施形態では、デザイナ１１０で実行され得る。アテンディッドロボットおよびアンアテンディッドロボットの両方は、メインフレーム、ウェブアプリケーション、ＶＭ、エンタープライズアプリケーション（例えば、ＳＡＰ（登録商標）、ＳａｌｅｓＦｏｒｃｅ（登録商標）、Ｏｒａｃｌｅ（登録商標）などにより生成されたもの）、およびコンピューティングシステムアプリケーション（例えば、デスクトップおよびラップトップアプリケーション、モバイルデバイスアプリケーション、ウェアラブルコンピュータアプリケーションなど）を含むが、これらに限定されない様々なシステムおよびアプリケーションを自動化し得る。

【0032】

コンダクタ１２０は、プロビジョニング、展開、バージョニング、構成、キューイング、監視、ロギング、および／または相互接続性の提供を含むがこれらに限定されない様々な能力を有し得る。プロビジョニングは、ロボット１３０とコンダクタ１２０（例えば、ウェブアプリケーション）との間の接続を作成し、維持することを含み得る。展開は、遂行のために割り当てられたロボット１３０へのパッケージバージョンの正しい配信を保証することを含み得る。バージョニングは、いくつかの実施形態では、いくつかのプロセスまたは構成の固有のインスタンスの管理を含んでもよい。構成は、ロボット環境およびプロセス構成の維持および配信を含み得る。キューイングは、キューおよびキュー項目の管理を提供することを含み得る。監視は、ロボットの特定データを追跡し、ユーザーの権限を維持することを含み得る。ロギングは、データベース（例えば、ＳＱＬデータベース）および／または別のストレージメカニズム（例えば、大規模なデータセットを格納し、迅速にクエリを実行する能力を提供するＥｌａｓｔｉｃＳｅａｒｃｈ（登録商標））へのログの保存およびインデックス作成を含み得る。コンダクタ１２０は、サードパーティのソリューションおよび／またはアプリケーションのための通信の集中点として操作することにより、相互接続性を提供し得る。

【0033】

ロボット１３０は、デザイナ１１０で構築されたワークフローを実行する遂行エージェントである。ロボット（複数可）１３０のいくつかの実施形態の１つの商業的な例は、ＵｉＰａｔｈＲｏｂｏｔｓ（商標）である。いくつかの実施形態では、ロボット１３０は、デフォルトで、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）ＳｅｒｖｉｃｅＣｏｎｔｒｏｌＭａｎａｇｅｒ（ＳＣＭ）管理サービスをインストールする。その結果、このようなロボット１３０は、ローカルシステムアカウントの下でインタラクティブなＷｉｎｄｏｗｓ（登録商標）セッションを開くことができ、Ｗｉｎｄｏｗｓ（登録商標）サービスの権利を有し得る。

【0034】

いくつかの実施形態では、ロボット１３０は、ユーザーモードで設置され得る。このようなロボット１３０については、所定のロボット１３０が設置されているユーザーと同じ権利を有することを意味する。この特色はまた、各マシンを最大限に全活用することを保証する高密度（ＨＤ）ロボットにも利用可能であり得る。いくつかの実施形態では、いずれかのタイプのロボット１３０は、ＨＤ環境で構成され得る。

【0035】

いくつかの実施形態におけるロボット１３０は、複数のコンポーネントに分割され、それぞれが特定の自動化タスクに特化されている。いくつかの実施形態におけるロボットコンポーネントは、ＳＣＭ管理ロボットサービス、ユーザーモードロボットサービス、エグゼキュータ、エージェント、およびコマンドラインを含むが、これらに限定されない。ＳＣＭ管理ロボットサービスは、Ｗｉｎｄｏｗｓ（登録商標）セッションを管理および監視し、コンダクタ１２０と遂行ホスト（すなわち、ロボット１３０が遂行されるコンピューティングシステム）との間のプロキシとして動作する。これらのサービスは、ロボット１３０の資格情報を任されて管理する。コンソールアプリケーションは、ローカルシステム下のＳＣＭにより起動される。

【0036】

いくつかの実施形態におけるユーザーモードロボットサービスは、Ｗｉｎｄｏｗｓ（登録商標）セッションを管理および監視し、コンダクタ１２０と遂行ホストとの間のプロキシとして動作する。ユーザーモードロボットサービスは、ロボット１３０の資格情報を任されて管理し得る。ＳＣＭ管理ロボットサービスがインストールされていない場合、Ｗｉｎｄｏｗｓ（登録商標）アプリケーションが自動的に起動され得る。

【0037】

エグゼキュータは、Ｗｉｎｄｏｗｓ（登録商標）セッションの下で与えられたジョブを遂行し得る（つまり、ワークフローを遂行し得る。エグゼキュータは、モニタ毎のドットパーインチ（ＤＰＩ）設定を認識し得る。エージェントは、システムトレイウィンドウに利用可能なジョブを表示するＷｉｎｄｏｗｓ（登録商標）ＰｒｅｓｅｎｔａｔｉｏｎＦｏｕｎｄａｔｉｏｎ（ＷＰＦ）アプリケーションであり得る。エージェントはサービスのクライアントであり得る。エージェントは、ジョブの開始または停止、設定の変更を依頼し得る。コマンドラインはサービスのクライアントである。コマンドラインは、ジョブの開始を要求し、その出力を待つことができるコンソールアプリケーションである。

【0038】

上で説明したように、ロボット１３０のコンポーネントが分割されていることは、開発者、サポートユーザー、およびコンピューティングシステムが、各コンポーネントが遂行していることをより容易に実行し、特定し、および追跡するのに役立つ。この方法では、エグゼキュータとサービスに異なるファイアウォールルールを設定するなど、コンポーネントごとに特別な挙動を構成し得る。エグゼキュータは常に、いくつかの実施形態では、モニタごとのＤＰＩ設定を認識し得る。その結果、ワークフローは、ワークフローが作成されたコンピューティングシステムの構成に関係なく、いずれかのＤＰＩで遂行し得る。また、いくつかの実施形態では、デザイナ１１０からのプロジェクトは、ブラウザのズームレベルに依存しないようにし得る。ＤＰＩを認識していないまたは意図的に認識していないとマークされているアプリケーションの場合、いくつかの実施形態ではＤＰＩを無効にし得る。

【0039】

図２は、本発明の実施形態による、展開したＲＰＡシステム２００を示すアーキテクチャ図である。いくつかの実施形態では、ＲＰＡシステム２００は、図１のＲＰＡシステム１００であってもよく、またはその一部であってもよい。クライアント側、サーバー側、またはその両方が、本発明の範囲から逸脱することなく、いずれかの所望の数のコンピューティングシステムを含むことができることに留意すべきである。クライアント側では、ロボットアプリケーション２１０は、エグゼキュータ２１２、エージェント２１４、およびデザイナ２１６を含む。しかし、いくつかの実施形態では、デザイナ２１６は、コンピューティングシステム２１０上で実行されていなくてもよい。エグゼキュータ２１２はプロセスを実行している。図２に示すように、複数のビジネスプロジェクトが同時に実行され得る。エージェント２１４（例えば、Ｗｉｎｄｏｗｓ（登録商標）サービス）は、本実施形態では、全てのエグゼキュータ２１２のための単一の接続ポイントである。この実施形態における全てのメッセージは、コンダクタ２３０に記録され、それは、データベースサーバー２４０、インデクササーバー２５０、またはその両方を介して、それらをさらに処理する。図１に関して上述したように、エグゼキュータ２１２は、ロボットコンポーネントであり得る。

【0040】

いくつかの実施形態では、ロボットは、マシン名とユーザー名との間の関連付けを表す。ロボットは、複数のエグゼキュータを同時に管理し得る。同時に実行される複数のインタラクティブセッションをサポートするコンピューティングシステム（Ｗｉｎｄｏｗｓ（登録商標）Ｓｅｒｖｅｒ２０１２など）では、複数のロボットが同時に実行され得、それぞれが一意のユーザー名を使用して別々のＷｉｎｄｏｗｓ（登録商標）セッションで実行され得る。これは、上記のＨＤロボットと呼ばれる。

【0041】

エージェント２１４はまた、ロボットの状態を送信し（例えば、ロボットがまだ機能していることを示す「ハートビート」メッセージを定期的に送信する）、遂行されるパッケージの要求されるバージョンをダウンロードすることにも責任を負う。エージェント２１４とコンダクタ２３０との間の通信は、いくつかの実施形態では、常にエージェント２１４によって開始される。通知シナリオでは、エージェント２１４は、後にコンダクタ２３０によってロボットにコマンド（例えば、開始、停止など）を送信するために使用されるＷｅｂＳｏｃｋｅｔチャネルを開いてもよい。

【0042】

サーバー側には、プレゼンテーション層（ウェブアプリケーション２３２、オープンデータプロトコル（ＯＤａｔａ）代表状態転送（ＲＥＳＴ）アプリケーションプログラミングインターフェース（ＡＰＩ）エンドポイント２３４、通知および監視２３６）、サービス層（ＡＰＩ実装／ビジネスロジック２３８）、永続層（データベースサーバー２４０、インデクササーバー２５０）が含まれる。コンダクタ２３０は、ウェブアプリケーション２３２、ＯＤａｔａＲＥＳＴＡＰＩエンドポイント２３４、通知および監視２３６、ならびにＡＰＩ実装／ビジネスロジック２３８を含む。いくつかの実施形態では、ユーザーがコンダクタ２３０のインターフェース（例えば、ブラウザ２２０を介して）で実行するほとんどのアクションは、様々なＡＰＩを呼び出すことによって実行される。このような動作は、本発明の範囲を逸脱することなく、ロボット上でのジョブの起動、キュー内のデータの追加／削除、無人で実行するジョブのスケジューリングなどを含み得るが、これらに限定されない。ウェブアプリケーション２３２は、サーバープラットフォームのビジュアル層である。この実施形態では、ウェブアプリケーション２３２は、ハイパーテキストマークアップ言語（ＨＴＭＬ）およびジャバスクリプト（ＪＳ）を使用する。しかし、本発明の範囲を逸脱することなく、いずれかの所望のマークアップ言語、スクリプト言語、または他のいずれかのフォーマットを使用し得る。ユーザーは、コンダクタ２３０を制御するための様々な動作を実行するために、本実施形態ではブラウザ２２０を介してウェブアプリケーション２３２からのウェブページとインタラクションする。例えば、ユーザーは、ロボットグループを作成し、ロボットへのパッケージの割り当てを行い、ロボット毎および／またはプロセス毎のログを解析し、ロボットを起動しおよび停止などし得る。

【0043】

ウェブアプリケーション２３２に加えて、コンダクタ２３０は、ＯＤａｔａＲＥＳＴＡＰＩエンドポイント２３４を公開するサービス層も含む。しかし、本発明の範囲を逸脱することなく、他のエンドポイントが含まれていてもよい。ＲＥＳＴＡＰＩは、ウェブアプリケーション２３２とエージェント２１４の両方により消費される。エージェント２１４は、本実施形態では、クライアントコンピュータ上の１または複数のロボットのスーパーバイザである。

【0044】

本実施形態のＲＥＳＴＡＰＩは、構成、ロギング、監視、およびキューイング機能をカバーする。構成エンドポイントは、いくつかの実施形態では、アプリケーションのユーザー、権限、ロボット、アセット、リリース、および環境を定義し、構成するために使用されてもよい。ロギングＲＥＳＴエンドポイントは、例えば、エラー、ロボットによって送信された明示的なメッセージ、およびその他の環境固有の情報など、様々な情報をログに記録するために使用され得る。デプロイメントＲＥＳＴエンドポイントは、コンダクタ２３０においてジョブ開始コマンドが使用された場合に遂行されるべきパッケージのバージョンを問い合わせるためにロボットにより使用されてもよい。キューイングＲＥＳＴエンドポイントは、キューへのデータの追加、キューからのトランザクションの取得、トランザクションのステータスの設定など、キューおよびキューアイテムの管理を担ってもよい。

【0045】

ＲＥＳＴエンドポイントの監視は、ウェブアプリケーション２３２およびエージェント２１４を監視してもよい。通知および監視ＡＰＩ２３６は、エージェント２１４の登録、エージェント２１４への構成設定の配信、ならびにサーバーおよびエージェント２１４からの通知の送受信に使用されるＲＥＳＴエンドポイントであってもよい。通知および監視ＡＰＩ２３６は、いくつかの実施形態では、ＷｅｂＳｏｃｋｅｔ通信を使用してもよい。

【0046】

永続層は、本実施形態では、一対のサーバー－データベースサーバー２４０（例えば、ＳＱＬサーバー）およびインデクササーバー２５０を含む。本実施形態におけるデータベースサーバー２４０は、ロボット、ロボットグループ、関連するプロセス、ユーザー、役割、スケジュールなどの構成を格納する。この情報は、いくつかの実施形態では、ウェブアプリケーション２３２を介して管理される。データベースサーバー２４０は、キューおよびキューアイテムを管理してもよい。いくつかの実施形態では、データベースサーバー２４０は、ロボットにより記録されたメッセージを（インデクササーバー２５０に加えて、またはそれに代えて）格納してもよい。

【0047】

いくつかの実施形態では任意であるが、インデクササーバー２５０は、ロボットにより記録された情報を保存し、インデックスを作成する。特定の実施形態では、インデクササーバー２５０は、構成設定を介して無効化されてもよい。いくつかの実施形態では、インデクササーバー２５０は、オープンソースプロジェクトの全文検索エンジンであるＥｌａｓｔｉｃＳｅａｒｃｈ（登録商標）を使用する。ロボットにより記録されたメッセージ（例えば、ログメッセージまたはライン書き込みのようなアクティビティを使用して）は、ロギングＲＥＳＴエンドポイント（複数可）を介してインデクササーバー２５０に送信されてもよく、そこで将来の利用のためにそれらはインデックス化される。

【0048】

図３は、本発明の実施形態による、デザイナ３１０、アクティビティ３２０、３３０、ドライバ３４０、およびＡＩ／ＭＬモデル３５０の間の関係３００を示すアーキテクチャ図である。以上のように、開発者は、デザイナ３１０を用いて、ロボットによって遂行されるワークフローを開発する。ワークフローは、ユーザー定義のアクティビティ３２０およびＵＩオートメーションアクティビティ３３０を含んでもよい。ユーザー定義アクティビティ３２０および／またはＵＩオートメーションアクティビティ３３０は、いくつかの実施形態では、ロボットが動作しているコンピューティングシステムに対してローカルに、および／またはそれに対してリモートに位置され得、１または複数のＡＩ／ＭＬモデル３５０を呼び出し得る。いくつかの実施形態では、画像中の非テキストの視覚的コンポーネントを特定することができ、これは、本明細書ではコンピュータビジョン（ＣＶ）と呼ばれる。このようなコンポーネントに関連するいくつかのＣＶアクティビティは、クリック、タイプ、テキストを取得、ホバー、要素の有無を検出、スコープの更新、ハイライトなどを含み得るが、これらに限定されない。いくつかの実施形態では、クリックは、例えば、ＣＶ、光学的文字認識（ＯＣＲ）、ファジーテキストマッチング、およびマルチアンカーを使用して要素を特定し、それをクリックする。タイプは、上記および要素内のタイプを用いて要素を特定してもよい。テキストの取得は、特定のテキストの場所を特定し、ＯＣＲを使用してそれをスキャンし得る。ホバーは、要素を特定し、その上にホバーし得る。要素の有無の検出は、上述した技法を用いて、画面上に要素が存在するかどうかを確認し得る。いくつかの実施形態では、デザイナ３１０に実装され得る数百または数千もののアクティビティが存在してもよい。しかし、本発明の範囲を逸脱することなく、いずれかの数および／またはアクティビティのタイプを利用することができる。

【0049】

ＵＩオートメーションアクティビティ３３０は、低レベルのコード（例えば、ＣＶアクティビティ）で記述され、画面とのインタラクションを促進する特別な低レベルのアクティビティのサブセットである。ＵＩオートメーションアクティビティ３３０は、ロボットが所望のソフトウェアとインタラクションすることを可能にするドライバ３４０および／またはＡＩ／ＭＬモデル３５０を介して、これらのインタラクションを促進する。例えば、ドライバ３４０は、ＯＳドライバ３４２、ブラウザドライバ３４４、ＶＭドライバ３４６、エンタープライズアプリケーションドライバ３４８などを含み得る。コンピューティングシステムとのインタラクションの実行を決定するために、１または複数のＡＩ／ＭＬモデル３５０はＵＩオートメーションアクティビティ３３０によって使用され得る。いくつかの実施形態では、ＡＩ／ＭＬモデル３５０は、ドライバ３４０を増強するか、またはそれらを完全に置き換え得る。実際、特定の実施形態では、ドライバ３４０は含まれない。

【0050】

ドライバ３４０は、フックを探したり、キーを監視したりするなど、低レベルでＯＳとインタラクションしてもよい。それらは、Ｃｈｒｏｍｅ（登録商標）、ＩＥ（登録商標）、Ｃｉｔｒｉｘ（登録商標）、ＳＡＰ（登録商標）などとの統合を促進してもよい。例えば、「クリック」アクティビティは、ドライバ３４０を介して、これらの異なるアプリケーションにおいて同じ役割を果たす。

【0051】

図４は、本発明の実施形態による、ＲＰＡシステム４００を示すアーキテクチャ図である。いくつかの実施形態では、ＲＰＡシステム４００は、図１および／または図２のＲＰＡシステム１００および／または２００であってもよいし、それを含んでもよい。ＲＰＡシステム４００は、ロボットを実行する複数のクライアントコンピューティングシステム４１０を含む。コンピューティングシステム４１０は、その上で実行されるウェブアプリケーションを介してコンダクタコンピューティングシステム４２０と通信することができる。コンダクタコンピューティングシステム４２０は、順番に、データベースサーバー４３０および任意のインデクササーバー４４０と通信することができる。

【0052】

図１および図３に関して、これらの実施形態ではウェブアプリケーションが使用されているが、本発明の範囲から逸脱することなく、任意の適切なクライアント／サーバーソフトウェアを使用することができることに留意すべきである。例えば、コンダクタは、クライアントコンピューティングシステム上で、非ウェブベースのクライアントソフトウェアアプリケーションと通信するサーバーサイドアプリケーションを実行してもよい。

【0053】

図５は、本発明の実施形態による、ＣＶを使用してアプリケーション、画面、およびＵＩ要素を認識し、かつアプリケーション、画面、およびＵＩ要素とのユーザーインタラクションを認識するためにＡＩ／ＭＬモデルを訓練するように構成されたコンピューティングシステム５００を説明するアーキテクチャ図である。いくつかの実施形態では、コンピューティングシステム５００は、本明細書に描かれたおよび／または記載された１または複数のコンピューティングシステムであってもよい。コンピューティングシステム５００は、情報を通信するためのバス５０５または他の通信機構と、情報を処理するためのバス５０５に結合されたプロセッサ（複数可）５１０とを含む。プロセッサ（複数可）５１０は、中央処理ユニット（ＣＰＵ）、特定用途集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、グラフィックスプロセッシングユニット（ＧＰＵ）、それらの複数のインスタンス、および／またはそれらのいずれかの組み合わせを含む、いずれかのタイプの一般的または特定用途向けプロセッサであり得る。プロセッサ（複数可）５１０はまた、複数の処理コアを有してもよく、コアの少なくとも一部は、特定の機能を実行するように構成され得る。いくつかの実施形態では、複数並列処理が使用されてもよい。特定の実施形態では、少なくとも１つのプロセッサ（複数可）５１０は、生物学的ニューロンを模倣する処理要素を含むニューロモーフィック回路であり得る。いくつかの実施形態では、ニューロモーフィック回路は、フォンノイマンコンピューティングアーキテクチャの典型的なコンポーネントを必要としない場合がある。

【0054】

コンピューティングシステム５００は、プロセッサ（複数可）５１０によって遂行される情報および命令を格納するためのメモリ５１５をさらに含む。メモリ５１５は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、フラッシュメモリ、キャッシュ、磁気ディスクもしくは光ディスクなどの静的記憶装置、または他のタイプの非一時的なコンピュータ読み取り可能な媒体、あるいはそれらのいずれかの組み合わせで構成され得る。非一時的なコンピュータ読み取り可能な媒体は、プロセッサ（複数可）５１０によりアクセス可能ないずれかの利用可能な媒体であってもよく、揮発性媒体、不揮発性媒体または両方などを含み得る。また、媒体は、取り外し可能なもの、取り外し不可能なもの、または両方であってもよい。

【0055】

さらに、コンピューティングシステム５００は、無線および／または有線接続を介して通信ネットワークへのアクセスを提供するために、トランシーバなどの通信デバイス５２０を含む。いくつかの実施形態では、通信デバイス５２０は、周波数分割多元接続（ＦＤＭＡ）、シングルキャリアＦＤＭＡ（ＳＣ－ＦＤＭＡ）、時分割多元接続（ＴＤＭＡ）、符号分割多元接続（ＣＤＭＡ）、直交周波数分割多重方式（ＯＦＤＭ）、直交周波数分割多元接続（ＯＦＤＭＡ）、移動体用グローバルシステム（ＧＳＭ：ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅ）通信、汎用パケット無線サービス（ＧＰＲＳ：ＧｅｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅ）、ユニバーサル移動体通信システム（ＵＭＴＳ：ＵｎｉｖｅｒｓａｌＭｏｂｉｌｅＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｙｓｔｅｍ）、ｃｄｍａ２０００、広帯域ＣＤＭＡ（Ｗ－ＣＤＭＡ：ＷｉｄｅｂａｎｄＣＤＭＡ）、高速ダウンリンクパケットアクセス（ＨＳＤＰＡ：Ｈｉｇｈ－ＳｐｅｅｄＤｏｗｎｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ）、高速アップリンクパケットアクセス（ＨＳＵＰＡ：Ｈｉｇｈ－ＳｐｅｅｄＵｐｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ）、高速パケットアクセス（ＨＳＰＡ：Ｈｉｇｈ－ＳｐｅｅｄＰａｃｋｅｔＡｃｃｅｓｓ）、ロングタームエボリューション（ＬＴＥ：ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、ＬＴＥアドバンスト（ＬＴＥ－Ａ：ＬＴＥＡｄｖａｎｃｅｄ）、８０２．１１ｘ、Ｗｉ－Ｆｉ、Ｚｉｇｂｅｅ、超広帯域無線（ＵＷＢ：Ｕｌｔｒａ－ＷｉｄｅＢａｎｄ）、８０２．１６ｘ、８０２．１５、ＨｏｍｅＮｏｄｅ－Ｂ（ＨｎＢ）、Ｂｌｕｅｔｏｏｔｈ、無線ＩＤタグ（ＲＦＩＤ：ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩｄｅｎｔｉｆｉｃａｔｉｏｎ）、ＩｒＤＡ（ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ）、近距離無線通信（ＮＦＣ：Ｎｅａｒ－ＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎｓ）、第５世代（５Ｇ）、ＮｅｗＲａｄｉｏ（ＮＲ）、それらのいずれかの組み合わせ、および／または本発明の範囲から逸脱することなく、いずれかの他の現在存在するまたは将来実装される通信標準および／またはプロトコルを使用するように構成され得る。いくつかの実施形態では、通信デバイス５２０は、本発明の範囲から逸脱することなく、単数のアンテナ、アレイ状のアンテナ、フェーズドアンテナ、スイッチドアンテナ、ビームフォーミングアンテナ、ビームステアリングアンテナ、それらの組み合わせ、および／またはいずれかの他のアンテナ構成である１または複数のアンテナを含み得る。

【0056】

プロセッサ（複数可）５１０は、バス５０５を介して、プラズマディスプレイ、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、電界放出ディスプレイ（ＦＥＤ）、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、フレキシブルＯＬＥＤディスプレイ、フレキシブル基板ディスプレイ、プロジェクションディスプレイ、４Ｋディスプレイ、高精細ディスプレイ、Ｒｅｔｉｎａ（登録商標）ディスプレイ、ＩＰＳ（Ｉｎ－ＰｌａｎｅＳｗｉｔｃｈｉｎｇ）ディスプレイ、またはユーザーに情報を表示するためのいずれかの他の適切なディスプレイなどのディスプレイ５２５にさらに結合されている。ディスプレイ５２５は、抵抗方式、静電容量方式、表面弾性波（ＳＡＷ）静電容量方式、赤外線方式、光学イメージング方式、分散信号方式、音響パルス認識方式、フラストレート全内部反射方式などを用いて、タッチ（ハプティック）ディスプレイ、３次元（３Ｄ）タッチディスプレイ、マルチ入力タッチディスプレイ、マルチタッチディスプレイなどとして構成されていてもよい。本発明の範囲を逸脱することなく、いずれかの好適な表示デバイスおよびハプティックＩ／Ｏを使用することができる。

【0057】

コンピュータマウス、タッチパッドなどのようなキーボード５３０およびカーソル制御デバイス５３５は、ユーザーがコンピューティングシステム５００とインターフェースすることを可能にするために、バス５０５にさらに結合されている。しかしながら、特定の実施形態では、物理的なキーボードおよびマウスが存在しない場合があり、ユーザーは、ディスプレイ５２５および／またはタッチパッド（図示せず）のみを介してデバイスとインタラクションすることができる。任意の入力デバイスの種類および組み合わせは、設計の選択の問題として使用され得る。特定の実施形態では、物理的な入力デバイスおよび／またはディスプレイは存在しない。例えば、ユーザーは、コンピューティングシステム５００と通信している別のコンピューティングシステムを介してリモートでそれとインタラクションしてもよいし、コンピューティングシステム５００は自律的に動作してもよい。

【0058】

メモリ５１５は、プロセッサ（複数可）５１０により遂行されたときに機能を提供するソフトウェアモジュールを格納する。モジュールは、コンピューティングシステム５００のためのオペレーティングシステム５４０を含む。モジュールはさらに、本明細書に記載されたプロセスの全部もしくは一部またはその派生物を実行するように構成されたＡＩ／ＭＬモデル訓練モジュール５４５を含む。コンピューティングシステム５００は、付加的な機能を含む１または複数の付加的な機能モジュール５５０を含み得る。

【0059】

当業者であれば、「システム」は、本発明の範囲から逸脱することなく、サーバー、組み込みコンピューティングシステム、パーソナルコンピュータ、コンソール、パーソナルデジタルアシスタント（ＰＤＡ）、携帯電話、タブレットコンピューティングデバイス、量子コンピューティングシステム、または他のいずれかの適切なコンピューティングデバイス、またはデバイスの組み合わせとして具現化され得ることを理解するであろう。上述した機能を「システム」により実行されるものとして提示することは、何ら本発明の範囲を限定することを意図するものではなく、本発明の多くの実施形態の一例を提供することを意図するものである。実際、本明細書に開示された方法、システム、および装置は、クラウドコンピューティングシステムを含むコンピューティング技法と整合性のあるローカライズされた形態および分配された形態で実装されてもよい。コンピューティングシステムは、ローカルエリアネットワーク（ＬＡＮ）、モバイル通信ネットワーク、衛星通信ネットワーク、インターネット、パブリッククラウドまたはプライベートクラウド、ハイブリッドクラウド、サーバーファーム、それらのいずれかの組み合わせなどの一部であり得、そうでない場合はそれらによりアクセス可能であり得る。本発明の範囲から逸脱することなく、任意の局所または分散アーキテクチャが使用され得る。

【0060】

本明細書で説明するシステム特色のいくつかは、実装の独立性をより強調するために、モジュールとして提示されていることに留意すべきである。例えば、モジュールは、カスタムの非常に大規模な集積（ＶＬＳＩ）回路またはゲートアレイ、ロジックチップ、トランジスタ、または他の個別部品のような既製の半導体を含むハードウェア回路として実装され得る。また、モジュールは、フィールドプログラマブルゲートアレイ、プログラマブルアレイロジック、プログラマブルロジックデバイス、グラフィックス処理ユニットなどのプログラマブルハードウェアデバイスに実装され得る。

【0061】

モジュールはまた、様々なタイプのプロセッサにより遂行されるためのソフトウェアに少なくとも部分的に実装され得る。例えば、遂行可能コードの特定された単位は、例えば、オブジェクト、プロシージャ、または関数として編成されていてもよいコンピュータ命令の１または複数の物理的または論理的なブロックを含み得る。それにもかかわらず、遂行可能な特定されたモジュールは、物理的に一緒に配置されている必要はなく、論理的に結合されたときにモジュールを含み、モジュールのために述べられた目的を達成するために、異なる場所に格納された別々の命令を含んでいてもよい。さらに、モジュールは、例えば、ハードディスクドライブ、フラッシュデバイス、ＲＡＭ、テープのような非一時的なコンピュータ読み取り可能な媒体、および／または本発明の範囲から逸脱することなくデータを格納するために使用される他のいずれかの非一時的なコンピュータ読み取り可能な媒体に格納されていてもよい。

【0062】

実際、遂行可能コードのモジュールは、単一の命令であってもよいし、多数の命令であってもよいし、さらには、複数の異なるコードセグメント、異なるプログラム間、および複数のメモリデバイス間に分散されていてもよい。同様に、動作データは、モジュール内で特定され、ここで示されてもよく、いずれかの適切な形態で具現化され、いずれかの適切なタイプのデータ構造体内で組織化され得る。動作データは、単一のデータセットとして収集されてもよいし、または異なる記憶デバイスにわたり異なる場所に分散されていてもよく、少なくとも部分的には、単にシステムまたはネットワーク上の電子信号として存在していてもよい。

【0063】

図６は、本発明の実施形態による、ＣＶを使用してアプリケーション、画面、およびＵＩ要素を認識し、かつアプリケーション、画面、およびＵＩ要素とのユーザーインタラクションを認識するためにＡＩ／ＭＬモデルを訓練するように構成されたシステム６００を説明するアーキテクチャ図である。システム６００は、デスクトップコンピュータ６０２、タブレット６０４、スマートフォン６０６などのユーザーコンピューティングシステムを含む。しかしながら、スマートウォッチ、ラップトップコンピュータなどを含むがこれらに限定されない、任意の所望のコンピューティングシステムを本発明の範囲から逸脱することなく使用することができる。いくつかの実施形態では、コンピューティングシステム６０２、６０４、６０６の１または複数は、オートメーションボックスおよび／またはカメラを含み得る。また、図６には３つのユーザーコンピューティングシステムが示されているが、本発明の範囲から逸脱することなく、任意の適切な数のコンピューティングシステムを使用することができる。例えば、いくつかの実施形態では、数十、数百、数千、または数百万のコンピューティングシステムが使用されてもよい。

【0064】

各コンピューティングシステム６０２、６０４、６０６は、その上で実行する、ユーザーの画面またはその一部のスクリーンショットおよび／またはビデオを記録するレコーダープロセス６１０（すなわち、追跡アプリケーション）を有する。例えば、ＪａｖａＳｃｒｉｐｔ（登録商標）のスニペットをレコーダープロセス６１０としてウェブブラウザに埋め込み、ユーザーがどのコンポーネントとインタラクションしたか、ユーザーが何のテキストを入力したか、ユーザーがどの位置／コンポーネントをマウスでクリックしたか、ユーザーがどのコンテンツをスクロールして通過したか、ユーザーがコンテンツの特定の部分でどのくらい停止したか、などを追跡することができる。コンテンツをスクロールして通過するということは、そのコンテンツがユーザーが求めているものと多少は近かったかもしれないが、それを正確に持っていなかったことを示し得る。クリックが成功を示し得る。

【0065】

レコーダープロセス６１０は、ＪａｖａＳｃｒｉｐｔ（登録商標）である必要はなく、本発明の範囲から逸脱することなく、任意の適切なタイプのアプリケーションおよび任意の所望のプログラミング言語であってもよい。これにより、レコーダープロセス６１０の「一般化」が可能になり、複数のアプリケーションまたはユーザーがインタラクションしている任意のアプリケーションとのユーザーインタラクションを追跡できるようになる。ラベル付けされた訓練データをゼロから使用することは、ＡＩ／ＭＬモデルがさまざまなコントロールを認識できるようになり得るが、どのコントロールがどのように一般的に使用されているかに関する情報が含まれていないため、難しい場合がある。レコーダープロセス６１０を使用して、「ヒートマップ」を生成し、ＡＩ／ＭＬモデルの訓練プロセスをブートストラップするのに役立て得る。ヒートマップは、ユーザーがアプリケーションを使用した頻度、ユーザーがアプリケーションのコンポーネントとインタラクションした頻度、コンポーネントの位置、アプリケーション／コンポーネントのコンテンツなど、さまざまな情報を含み得る。いくつかの実施形態では、ヒートマップは、タイプされたおよび／またはペーストされたテキストの検出、キャレット追跡、ならびにコンピューティングシステム６０２、６０４、６０６のアクティブ要素検出などの画面分析から導かれ得る。いくつかの実施形態は、コンピューティングシステム６０２、６０４、６０６に関連付けられた画面上のどこでユーザーが、目に見える文字が表示されないホットキーまたはその他のキーを含む可能性があるテキストをタイプまたはペーストしたかを認識し、１もしくは複数の文字が表示された位置、カーソルが点滅していた位置、またはその両方の現在の解像度（例えば、座標における）に基づいて、画面上の物理的な位置を提供する。タイプまたはペーストしたアクティビティおよび／またはキャレットの物理的な位置により、ユーザーがタイプまたはフォーカスしているフィールド（複数可）と、プロセス発見または他のアプリケーション用のアプリケーションが何であるかを決定し得る。

【0066】

上記により、いくつかの実施形態では、レコーダープロセス６１０は、ウェブブラウザ履歴、ヒートマップ、キー押下、マウスクリック、ユーザーがインタラクションしている画面上のマウスクリックおよび／またはグラフィカル要素の位置、ユーザーがその時々での画面を見ていた位置、スクリーンショット／ビデオフレームに関連するタイムスタンプなど、ＡＩ／ＭＬモデル（複数可）を訓練するのをさらに支援するための追加のデータを記録し得る。これは、画面変化を引き起こさない可能性のあるキー押下および／または他のユーザーアクションを提供するために有益であり得る。例えば、いくつかのアプリケーションは、ユーザーがファイルを保存するためにＣＴＲＬ＋Ｓを押したときに、視覚的な変化を提供しない場合がある。しかしながら、特定の実施形態では、ＡＩ／ＭＬモデル（複数可）は、取り込まれた画面画像にのみ基づいて訓練され得る。レコーダープロセス６１０は、ＲＰＡデザイナアプリケーションを介して生成されたロボット、オペレーティングシステムの一部、パーソナルコンピュータ（ＰＣ）またはスマートフォンのためのダウンロード可能なアプリケーション、本発明の範囲から逸脱しない、あるいは他のいずれかのソフトウェアおよび／またはハードウェアであり得る。実際、いくつかの実施形態では、１または複数のレコーダープロセス６１０のロジックは、物理的なハードウェアを介して部分的にまたは完全に実装される。

【0067】

いくつかの実施形態は、現在のスクリーンショットを以前のスクリーンショットと連続的または定期的に比較して変化を特定するフィードバックループプロセスで実装される。画面上で視覚的な変化が発生した位置を特定し、変化が発生した位置に対してＯＣＲを実行し得る。次に、ＯＣＲの結果をキーボードキューのコンテンツと比較して（例えば、キーフックによって決定される）、一致が存在するかどうかを決定し得る。変化が発生した位置は、現在のスクリーンショットからのピクセルのボックスを、前のスクリーンショットの同じ位置にあるピクセルのボックスと比較することによって決定され得る。

【0068】

レコーダープロセス６１０で記録される画像および／または他のデータ（例えば、ウェブブラウザの履歴、ヒートマップ、キー押下、マウスクリックなど、ユーザーがインタラクションしている画面上のマウスクリックおよび／またはグラフィカル要素の位置、時間帯でユーザーが画面上で見ていた位置、スクリーンショット／ビデオフレーム、音声入力、ジェスチャー、感情（ユーザーが満足しているか、イライラしているかなど）、バイオメトリクス（指紋、網膜スキャン、ユーザーの脈拍など）に関連付けられたタイムスタンプ、ユーザーアクティビティが無い期間に関連する情報（例えば、「デッドマンスイッチ」）、ハプティックディスプレイまたはタッチパッドからのハプティック情報、マルチタッチ入力によるヒートマップなど）は、ネットワーク６２０（例えば、ローカルエリアネットワーク（ＬＡＮ）、モバイル通信ネットワーク、衛星通信ネットワーク、インターネット、それらの任意の組み合わせなど）を介してサーバー６３０に送られる。いくつかの実施形態では、サーバー６３０は、パブリッククラウドアーキテクチャ、プライベートクラウドアーキテクチャ、ハイブリッドクラウドアーキテクチャなどの一部であってもよい。特定の実施形態では、サーバー６３０は、単一のコンピューティングシステム６３０上で複数のソフトウェアベースのサーバーをホストしてもよい。いくつかの実施形態では、サーバー６３０は、コンダクタアプリケーションを実行してもよく、およびレコーダープロセス６１０からのデータは、ハートビートメッセージの一部として定期的に送信されてもよい。特定の実施形態では、データは、所定量のデータが収集されると、所定期間が経過した後、またはその両方で、レコーダープロセス６１０からサーバー６３０に送信され得る。サーバー６３０は、レコーダープロセス６１０からの受信データをデータベース６４０に格納する。

【0069】

サーバー６３０は、この実施形態では、集合的にＡＩ／ＭＬモデルを形成する複数のＡＩ層６３２を含む。しかしながら、いくつかの実施形態では、ＡＩ／ＭＬモデルは単一の層を有するだけであってもよい。特定の実施形態では、複数のＡＩ／ＭＬモデルがサーバー６３０上で訓練され、より大きなタスクを集合的に達成するために一緒に使用され得る。ＡＩ層６３２は、ＣＶ技術を採用してもよく、統計的モデリング（例えば、隠れマルコフモデル（ＨＭＭ））などのさまざまな機能を実行してもよく、深層学習技術（例えば、長短期記憶（ＬＳＴＭ）深層学習、以前の隠れ状態のエンコードなど）を利用してユーザーのインタラクションを特定し得る。当初、ＡＩ／ＭＬモデルは、それがデータベース６４０内の取り込まれたデータの意味のある分析を実行できるように訓練される必要がある。いくつかの実施形態では、コンピューティングシステム６０２、６０４、６０６のユーザーは、それらがサーバー６３０に送信される前に、画像にラベルを付ける。さらにまたは代替的に、いくつかの実施形態では、ラベリングは、ユーザーがグラフィカル要素の周りにバウンディングボックスおよび／または他の形状を描くこと、バウンディングボックスに含まれるもののテキストラベルを提供することなどを可能にする、コンピューティングシステム６５０上で実行するアプリケーション６５２を介してなど、その後に起こる。

【0070】

ＡＩ／ＭＬモデルは、このデータを入力として使用して訓練段階を経て、ＡＩ／ＭＬモデルが十分に正確でありながら、訓練データに対して過剰適合しないようになるまで訓練される。許容できる精度は、アプリケーションに依存し得る。特定エラーは、人間のレビューアによって強調され（例えば、誤特定された要素の周りにボックスを描き、正しい特定を含めることによって）、この追加のラベル付きデータを使用してＡＩ／ＭＬモデルを再訓練し得る。十分に訓練されると、ＡＩ／ＭＬモデルは、画面内にどのようなアプリケーション（複数可）およびグラフィカル要素（複数可）が存在すると認識されるかなどの予測を出力として提供することができる。

【0071】

しかしながら、このレベルの訓練は、何が存在するかに関する情報を提供するが、２つ以上の連続する画面を比較して、タイプされた文字があるものから別のものに現れたこと、ボタンが押されたこと、メニュー選択が発生したことなどを決定するなど、ユーザーインタラクションを決定するためにさらなる情報が必要となり得る。したがって、ＡＩ／ＭＬモデルが画面上のグラフィカル要素およびアプリケーションを認識できた後、いくつかの実施形態では、ＡＩ／ＭＬモデルは、ＵＩ内のアプリケーションとのラベル付きユーザーインタラクションを認識するようにさらに訓練されて、ユーザーによって取られるそのようなインクリメンタル（ｉｎｃｒｅｍｅｎｔａｌ）なアクションを理解する。特定エラーは人間のレビューアによって（例えば、誤認された要素の周りにボックスを描画し、正しい特定を含めることによって）再び強調され得、ＵＩとの詳細なユーザーインタラクションを理解するために展開されるほどその精度が十分に高くなるまで、ＡＩ／ＭＬモデルが訓練され得る。

【0072】

ユーザーのインタラクションを認識するように訓練されると、訓練されたＡＩ／ＭＬモデルを使用して、ビデオおよび／またはレコーダープロセス６１０からの他の情報を分析し得る。この記録された情報は、複数／多数のユーザーが実行する傾向があるインタラクションを含み得る。これらのインタラクションは次いで、その後の自動化のための共通のシーケンスのために分析され得る。

【0073】

ＡＩ層

【0074】

いくつかの実施形態では、複数のＡＩ層が使用され得る。各ＡＩ層は、データ上で実行されるアルゴリズム（またはモデル）であり、ＡＩモデル自体は、訓練データで訓練された人工「ニューロン」の深層学習ニューラルネットワーク（ＤＬＮＮ）であり得る。層は、直列、並列、またはそれらの組み合わせで実行され得る。

【0075】

Ａｌ層は、限定されないが、シーケンス抽出層、クラスタリング検出層、視覚成分検出層、テキスト認識層（例えば、ＯＣＲ）、音声－テキスト翻訳層、またはそれらのいずれかの組み合わせを含み得る。しかしながら、本発明の範囲を逸脱することなく、いずれかの所望の数およびタイプ（複数可）の層を使用し得る。複数の層を使用することで、システムが画面内で生じていることのグローバルな画像を展開し得る。例えば、あるＡＩ層はＯＣＲを実行することができ、別のものはボタンを検出することができる、などである。

【0076】

パターンは、ＡＩ層が個別に決定してもよいし、複数のＡＩ層が集合的に決定してもよい。ユーザーアクションに関する確率または出力が使用され得る。例えば、ボタンの特定、そのテキスト、ユーザーがクリックした場所などを決定するために、システムは、ボタンがどこにあるか、そのテキスト、画面上の位置などを知る必要があり得る。

【0077】

しかしながら、本発明の範囲から逸脱することなく、さまざまなＡＩ／ＭＬモデルを使用し得ることに留意されたい。ＡＩ／ＭＬモデルは、いくつかの実施形態では、ＤＬＮＮ、リカレントニューラルネットワーク（ＲＮＮ）、敵対的生成ネットワーク（ＧＡＮ）、それらの任意の組み合わせなどのニューラルネットワークを使用して訓練され得るが、他のＡＩ技術は、決定論的モデル、浅い学習ニューラルネットワーク（ＳＬＮＮ）、または任意の他の適切なＡＩ／ＭＬモデルのタイプおよび訓練技術など、本発明の範囲から逸脱することなく使用され得る。

【0078】

図７は、本発明の実施形態による、ＣＶを使用してアプリケーション、画面、およびＵＩ要素を認識し、かつアプリケーション、画面、およびＵＩ要素とのユーザーインタラクションを認識するためにＡＩ／ＭＬモデルを訓練するためのプロセス７００を説明するフローチャートである。プロセスは、７１０で、ユーザーコンピューティングシステムおよび他の情報に関連するスクリーンショットまたはビデオフレームディスプレイを記録することから始まる。いくつかの実施形態では、記録は、１または複数のレコーダープロセスによって実行される。特定の実施形態では、レコーダープロセスは、現在のスクリーンショットまたはビデオフレームを以前のスクリーンショットまたはビデオフレームと連続的または定期的に比較し、現在のスクリーンショットまたはビデオフレームと以前のスクリーンショットまたはビデオフレームとの間の変化が生じた１または複数の位置を特定するフィードバックループプロセスとして実装される。いくつかの実施形態では、レコーダープロセスは、変化が発生した１または複数の位置に対してＯＣＲを実行し、ＯＣＲの結果をキーボードキューのコンテンツと比較して一致が存在するかどうかを決定し、一致が存在する場合、一致に関連するテキストをそれぞれの位置にリンクするように構成される。いくつかの実施形態では、他の情報は、ウェブブラウザの履歴、１もしくは複数のヒートマップ、キーの押下、マウスのクリック、ユーザーがインタラクションしているディスプレイ上のマウスクリックおよび／もしくはグラフィカル要素の位置、ユーザーがディスプレイ上で見ていた位置、スクリーンショットまたはビデオフレームに関連するタイムスタンプ、ユーザーが入力したテキスト、ユーザーがスクロールして通過したコンテンツ、ユーザーがディスプレイに表示されたコンテンツの一部で立ち止まった時間、ユーザーがインタラクションしているアプリケーションは何か、またはそれらの組み合わせを含む。特定の実施形態では、他の情報の少なくとも一部は、１または複数のオートメーションボックスを使用して取り込まれる。

【0079】

１または複数のヒートマップは、７２０で、他の情報の一部として生成される。いくつかの実施形態では、１または複数のヒートマップは、ユーザーがアプリケーションを使用した頻度、ユーザーがアプリケーションのコンポーネントとインタラクションした頻度、アプリケーション内のコンポーネントの位置、アプリケーションおよび／もしくはコンポーネントのコンテンツ、またはそれらの組み合わせを含む。特定の実施形態では、１または複数のヒートマップは、タイプされたおよび／もしくはペーストされたテキストの検出、キャレット追跡、アクティブ要素の検出、またはそれらの組み合わせを含む表示分析から導かれる。記録されたスクリーンショットまたはビデオフレーム、および他の情報は、その後、７３０で１または複数のサーバーによってアクセス可能なストレージに送信される。

【0080】

記録されたスクリーンショットまたはビデオフレームおよび他の情報は、７４０で（例えば、ＡＩ／ＭＬモデルを訓練するように構成されたサーバーを介して）アクセスされる。ＡＩ／ＭＬモデルは、最初に、７５０で、記録されたスクリーンショットまたはビデオフレームおよび他の情報を使用して、記録されたスクリーンショットまたはビデオフレームに存在するアプリケーション、画面、およびＵＩ要素を認識するように訓練される。いくつかの実施形態では、スクリーンショットまたはビデオフレーム内のアプリケーション、画面、およびＵＩ要素の先験的知識無しに、ＡＩ／ＭＬモデルの初期訓練が実行される。

【0081】

ＡＩ／ＭＬモデルが、記録されたスクリーンショットまたはビデオフレーム内のアプリケーション、画面、およびＵＩ要素を信頼（例えば、７０％、９５％、９９．９９％など）を持って認識できるようになった後、７６０で、ＡＩ／ＭＬモデルが訓練されて、ＵＩ要素との個々のユーザーインタラクションを認識する。いくつかの実施形態では、個々のユーザーインタラクションは、ボタン押下、単一文字または文字列の入力、アクティブなＵＩ要素の選択、メニュー選択、画面変更、またはこれらの組み合わせを含む。特定の実施形態では、ＵＩ要素との個々のユーザーインタラクションを認識するためのＡＩ／ＭＬモデルの訓練は、２つ以上の連続するスクリーンショットもしくはビデオフレームを比較し、タイプされた文字があるものから別のものに現れたこと、ボタンが押されたこと、またはメニュー選択が生じたことを決定することを含む。そして、ＡＩ／ＭＬモデルは、それが７７０で呼び出しプロセス（例えば、ＲＰＡロボット）によって呼び出されて使用され得るように展開される。

【0082】

図８は、本発明の実施形態による、オートメーションボックスおよび眼球運動追跡システム８００を説明するアーキテクチャ図である。システム８００は、カメラ８２０からの入力を処理するように構成されたアイトラッキングロジック（ＥＴＬ）８１２およびオートメーションボックス８６０からの入力を処理するように構成されたオートメーションボックスロジック（ＡＢＬ）８１４を含む、コンピューティングシステム８１０を含む。いくつかの実施形態では、コンピューティングシステム８１０は、図５のコンピューティングシステム５００であってもよくまたはそれを含んでもよい。特定の実施形態では、複数のカメラが使用され得る。

【0083】

カメラ８２０は、ユーザーがマウス８４０およびキーボード８５０を介してコンピューティングシステム８１０とインタラクションしている間、ユーザーのビデオを記録する。コンピューティングシステム８１０は、記録されたカメラのビデオをビデオフレームに変換する。ＥＴＬは、これらのフレームを処理して、ユーザーの目を特定し、ユーザーが見ている位置をディスプレイ８３０上の位置に補間する。米国特許出願公開第２０１８／００４６２４８号、米国特許第７，６８２，０２６号などに記載されているような、任意の適切な視線追技術（複数可）を、本発明の範囲から逸脱することなく使用することができる。タイムスタンプは、それらがその時間にディスプレイ８３０に表示されるもののスクリーンショットフレームと一致させることができるように、ユーザーのビデオフレームと関連付けることができる。

【0084】

オートメーションボックス８６０はまた、マウス８４０およびキーボード８５０からの入力を受信するこの実施形態におけるオートメーションボックスロジック８６２を含む。いくつかの実施形態では、オートメーションボックス８６０は、コンピューティングシステム８１０と同様のハードウェア（例えば、プロセッサ（複数可）、メモリ、バスなど）を有し得る。この入力は、その後、コンピューティングシステム８１０に渡され得る。マウス８４０およびキーボード８５０が図８に示されているが、タッチパッド、ボタンなど、本発明の範囲から逸脱することなく、任意の適切な入力デバイス（複数可）を使用することができる。いくつかの実施形態では、コンピューティングシステム８１０またはオートメーションボックス８６０のみが、オートメーションボックスロジックを含む。後者の理由は、ユーザーインタラクションを記録し、ネットワーク８７０を介してその後の処理のためにサーバー（例えば、クラウドベースのサーバー）にそれらを直接送信するためであり得る。そのような実施形態では、スクリーンショットフレームはまた、コンピューティングシステム８１０からオートメーションボックス８６０に送られ、その後、ネットワーク８７０を介してサーバーに送られ得る。あるいは、コンピューティングシステム８１０は、ネットワーク８７０を介してスクリーンショット自体を送信してもよい。そのような実施形態は、コンピューティングシステム８１０にプラグインされ、その動作のためにキーボードおよびマウス情報をコンピューティングシステム８１０に中継し、そしてまたＡＩ／ＭＬモデルのその後の訓練のためにキーボードおよびマウスクリック情報をリモートサーバーに中継することができるプラグアンドプレイ追跡ソリューションを提供し得る。

【0085】

いくつかの実施形態では、オートメーションボックス８６０は、自動化を実行し、入力をシミュレートする作動ロジックを含み得る。これは、この情報がこれらのコンポーネントとインタラクションする人間のユーザーから実際に来ているかのように、オートメーションボックス８６０が、シミュレートされたキー押下、マウス移動およびクリックなどをコンピューティングシステム８１０に提供することを可能にし得る。その後、ＵＩスクリーンショットおよび他の情報は、ＡＩ／ＭＬモデルを訓練するために使用され得る。このような実施形態の別の利点は、ユーザーがコンピューティングシステム８１０から離れているときにＡＩ／ＭＬモデルを訓練することができ、より大量の訓練情報をより迅速に取り込むことができる可能性があり、したがって、ＡＩ／ＭＬモデルをより迅速に訓練することができる可能性もある。

【0086】

特定の実施形態では、「情報ボックス」は、コンピューティングシステム６１０上のソフトウェアとして実装されてもよく、図６のレコーダープロセス６１０と同様の方法で機能してもよい。そのような実施形態は、スクリーンショットフレーム、マウスクリック情報、およびキー押下情報を格納し得る。特定の実施形態では、視線追跡情報も追跡され得る。この情報は、次いで、ネットワーク８７０を介してサーバーに送信されてもよく、視線追跡は、潜在的に、コンピューティングシステム８１０上ではなく、リモートで実行され得る。

【0087】

図７で実行されるプロセスステップは、本発明の実施形態に従って、図７で説明したプロセス（複数可）の少なくとも一部を実行するようにプロセッサ（複数可）への命令をエンコードするコンピュータプログラムによって実行されてもよい。コンピュータプログラムは、非一時的なコンピュータ読み取り可能な媒体に格納されていてもよい。コンピュータ読み取り可能な媒体は、ハードディスクドライブ、フラッシュデバイス、ＲＡＭ、テープ、および／またはデータを格納するために使用される他のそのような媒体または媒体の組み合わせであってもよいが、これらに限定されるものではない。コンピュータプログラムは、図７に記載されたプロセスステップの全部または一部を実装するために、コンピューティングシステム（例えば、図５のコンピューティングシステム５００のプロセッサ（複数可）５１０）のプロセッサ（複数可）を制御するためのコード化された命令を含んでもよく、これはまた、コンピュータ読み取り可能な媒体に格納されてもよい。

【0088】

コンピュータプログラムは、ハードウェア、ソフトウェア、またはハイブリッド実装で実装され得る。コンピュータプログラムは、互いに動作可能な通信を行うモジュールで構成され得、情報または指示をディスプレイに送るように設計されている。コンピュータプログラムは、汎用コンピュータ、ＡＳＩＣ、またはいずれかの他の好適なデバイスで動作するように構成され得る。

【0089】

本発明の様々な実施形態のコンポーネントは、本明細書に一般的に記載され、図示されているように、様々な異なる構成で配置され、設計されてもよいことが、容易に理解されるであろう。したがって、添付の図に表されるような本発明の実施形態の詳細な説明は、特許請求されるような本発明の範囲を限定することを意図するものではなく、本発明の選択された実施形態を代表するものにすぎない。

【0090】

本明細書を通して記載された本発明の特色、構造、または特徴は、１または複数の実施形態では、いずれかの好適な方法で組み合わせられ得る。例えば、本明細書全体を通して「特定の実施形態」、「いくつかの実施形態」、または類似の言語を参照することは、実施形態に関連して記載された特定の特色、構造、または特徴が、本発明の少なくとも１つの実施形態に含まれていることを意味する。したがって、本明細書全体を通して「特定の実施形態では」、「いくつかの実施形態では」、「他の実施形態では」、または類似の言語の出現は、必ずしも全ての実施形態の同じグループを指すものではなく、記載された特色、構造、または特徴は、１または複数の実施形態ではいずれかの好適な方法で組み合わせられ得る。

【0091】

本明細書全体を通して特色、利点、または類似の言語への参照は、本発明で実現され得る特色および利点の全てが、本発明のいずれかの単一の実施形態にあるべきであること、または本発明のいずれかの実施形態であることを意味するものではないことに留意すべきである。むしろ、特色および利点に言及する言語は、実施形態に関連して記載された特定の特色、利点、または特徴が、本発明の少なくとも１つの実施形態に含まれることを意味すると理解される。したがって、本明細書全体での特色および利点の議論、ならびに類似の言語は、同じ実施形態を参照することができるが、必ずしもその必要性はない。

【0092】

さらに、本発明の記載された特色、利点、および特徴は、１または複数の実施形態では、いずれかの好適な方法で組み合わせることができる。関連する技術の当業者は、本発明が、１または複数の特定の実施形態の特定の特徴または利点なしに実施され得ることを認識するであろう。他の例では、追加の特徴および利点は、本発明の全ての実施形態には存在しないかもしれないが特定の実施形態では認識され得る。

【0093】

本分野における通常の技術を有する者は、上述したような本発明を、異なる順序でのステップを用いて、および／または開示されているものとは異なる構成のハードウェア要素を用いて実施することができることを容易に理解するであろう。したがって、本発明は、これらの好ましい実施形態に基づいて説明されてきたが、本発明の精神および範囲内にとどまりながら、特定の変更、変形、および代替的な構成が明らかになることは、当業者には明らかであろう。したがって、本発明の範囲を決定するためには、添付の特許請求の範囲を参照すべきである。

【図1】