(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-10-27
(54)【発明の名称】コンピュータビジョンを使ったアプリケーション、画面、およびユーザーインターフェース要素を認識するための人工知能/機械学習モデルの訓練
(51)【国際特許分類】
G06N 20/00 20190101AFI20231020BHJP
【FI】
G06N20/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023518733
(86)(22)【出願日】2021-10-05
(85)【翻訳文提出日】2023-05-16
(86)【国際出願番号】 US2021053484
(87)【国際公開番号】W WO2022081377
(87)【国際公開日】2022-04-21
(32)【優先日】2020-10-14
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】520262319
【氏名又は名称】ユーアイパス,インコーポレイテッド
【氏名又は名称原語表記】UiPath,Inc.
【住所又は居所原語表記】1 Vanderbilt Avenue, 60th Floor, New York, NY 10017, United States of America
(74)【代理人】
【識別番号】110003487
【氏名又は名称】弁理士法人東海特許事務所
(72)【発明者】
【氏名】シング,プラブディープ
(57)【要約】
コンピュータビジョン(CV)を用いてアプリケーション、画面、および(UI)要素を認識するためならびにアプリケーション、画面、およびUI要素とのユーザーインタラクションを認識するための人工知能(AI)/機械学習(ML)モデルを訓練するための技術。光学式文字認識(OCR)もまた、AI/MLモデルの訓練を支援するために使用され得る。AI/MLモデルの訓練は、システムレベルの情報(例えば、キー押下、マウスクリック、位置、オペレーティングシステムの動作など)またはアプリケーションレベルの情報(例えば、コンピューティングシステム上で遂行するソフトウェアアプリケーションからのアプリケーションプログラミンで実行され得、あるいはAI/MLモデルの訓練は、ブラウザ履歴、ヒートマップ、グインターフェース(API)からの情報)などの他のシステム入力なしファイル情報、現在実行中のアプリケーションおよび位置、システムレベルの情報および/またはアプリケーションレベルの情報などの他の情報で補完され得る。
【特許請求の範囲】
【請求項1】
各レコーダープロセスを含む1または複数のユーザーコンピューティングシステムと、
コンピュータビジョン(CV)を用いてアプリケーション、画面、およびユーザーインターフェース(UI)要素を認識するためならびに前記アプリケーション、画面、およびUI要素とのユーザーインタラクションを認識するための人工知能(AI)/機械学習(ML)モデルを訓練するように構成されたサーバーと、を含むシステムであって、
前記各レコーダープロセスは、
前記ユーザーコンピューティングシステムのそれぞれに関連するディスプレイのスクリーンショットまたはビデオフレームおよび他の情報を記録し、
記録された前記スクリーンショットまたはビデオフレーム、および前記他の情報を、前記サーバーによってアクセス可能なストレージに送信するように構成され、
前記サーバーは、
最初に、記録された前記スクリーンショットまたはビデオフレームおよび前記他の情報を使用して、記録された前記スクリーンショットまたはビデオフレームに存在する前記アプリケーション、画面、およびUI要素を認識するように前記AI/MLモデルを訓練し、
前記AI/MLモデルが、記録された前記スクリーンショットまたはビデオフレーム内の前記アプリケーション、画面、およびUI要素を信頼を持って認識できるようになった後、前記AI/MLモデルを訓練して、前記UI要素との個々のユーザーインタラクションを認識するように構成される、システム。
【請求項2】
前記個々のユーザーインタラクションは、ボタン押下、単一文字または文字列の入力、アクティブなUI要素の選択、メニュー選択、画面変更、音声入力、ジェスチャー、生体情報の提供、ハプティックインタラクション、またはこれらの組み合わせを含む、請求項1に記載のシステム。
【請求項3】
前記UI要素との前記個々のユーザーインタラクションを認識するための前記AI/MLモデルの訓練は、2つ以上の連続するスクリーンショットもしくはビデオフレームを比較し、タイプされた文字があるスクリーンショットから別のスクリーンショットに現れたこと、ボタンが押されたこと、またはメニュー選択が生じたことを決定することを含む、請求項1に記載のシステム。
【請求項4】
前記他の情報は、ウェブブラウザの履歴、1もしくは複数のヒートマップ、キーの押下、マウスのクリック、ユーザーがインタラクションしている前記ディスプレイ上のマウスクリックおよび/もしくはグラフィカル要素の位置、前記ユーザーが前記ディスプレイ上で見ていた位置、前記スクリーンショットまたはビデオフレームに関連するタイムスタンプ、前記ユーザーが入力したテキスト、前記ユーザーがスクロールして通過したコンテンツ、前記ユーザーが前記ディスプレイに表示されたコンテンツの一部で立ち止まった時間、前記ユーザーがインタラクションしているアプリケーションは何か、音声入力、ジェスチャー、感情情報、生体情報、ユーザーアクティビティが無い期間に関する情報、ハプティック情報、マルチタッチ入力情報、またはそれらの組み合わせを含む、請求項1に記載のシステム。
【請求項5】
前記1または複数のユーザーコンピューティングシステムあるいは前記サーバーは、1または複数のヒートマップを生成するように構成され、前記他の情報は、前記1または複数のヒートマップを含み、
前記1または複数のヒートマップは、ユーザーがアプリケーションを使用した頻度、前記ユーザーが前記アプリケーションのコンポーネントとインタラクションした頻度、前記アプリケーション内の前記コンポーネントの位置、前記アプリケーションおよび/もしくはコンポーネントのコンテンツ、またはそれらの組み合わせを含む、請求項1に記載のシステム。
【請求項6】
前記1または複数のユーザーコンピューティングシステムあるいは前記サーバーは、タイプされたおよび/もしくはペーストされたテキストの検出、キャレット追跡、アクティブ要素の検出、またはそれらの組み合わせを含む表示分析から前記1または複数のヒートマップを導出するように構成される、請求項5に記載のシステム。
【請求項7】
前記1または複数のユーザーコンピューティングシステムの1つのユーザーコンピューティングシステムに動作可能に接続されたオートメーションボックスであって、前記オートメーションボックスは、
1または複数のユーザー入力デバイスから入力を受信し、
前記入力にタイムスタンプを関連付け、
タイムスタンプされた前記入力を、前記サーバーによってアクセス可能なストレージに送信するように構成されるオートメーションボックスをさらに備え、
前記サーバーは、タイムスタンプされた前記入力を前記AI/MLモデルの初期訓練に使用するように構成される、請求項1に記載のシステム。
【請求項8】
サーバーは、前記スクリーンショットまたはビデオフレーム内の前記アプリケーション、画面、およびUI要素の先験的知識無しに、前記AI/MLモデルの初期訓練を実行するように構成される、請求項1に記載のシステム。
【請求項9】
コンピュータビジョン(CV)を用いてアプリケーション、画面、およびユーザーインターフェース(UI)要素を認識するためならびに/または前記アプリケーション、画面、およびUI要素とのユーザーインタラクションを認識するための人工知能(AI)/機械学習(ML)モデルを訓練するように構成されたコンピュータプログラムを格納する非一時的なコンピュータ読み取り可能な媒体であって、前記コンピュータプログラムは、少なくとも1つのプロセッサが、
前記1または複数のコンピューティングシステムに関連するディスプレイの記録されたスクリーンショットまたはビデオフレームにアクセスし、前記1または複数のコンピューティングシステムに関連する他の情報にアクセスし、
最初に、記録された前記スクリーンショットまたはビデオフレームおよび前記他の情報を使用して、記録された前記スクリーンショットまたはビデオフレームに存在する前記アプリケーション、画面、およびUI要素を認識するように前記AI/MLモデルを訓練するように構成され、
前記スクリーンショットまたはビデオフレーム内の前記アプリケーション、画面、およびUI要素の先験的知識無しに、前記AI/MLモデルの初期訓練が実行される、非一時的なコンピュータ読み取り可能な媒体。
【請求項10】
前記AI/MLモデルが、記録された前記スクリーンショットまたはビデオフレーム内の前記アプリケーション、画面、およびUI要素を信頼を持って認識することができた後、前記コンピュータプログラムは、前記少なくとも1つのプロセッサが、
前記AI/MLモデルを訓練して、前記UI要素との個々のユーザーインタラクションを認識するようにさらに構成される、請求項9に記載の非一時的なコンピュータ読み取り可能な媒体。
【請求項11】
前記UI要素との前記個々のユーザーインタラクションを認識するための前記AI/MLモデルの訓練は、2つ以上の連続するスクリーンショットもしくはビデオフレームを比較し、タイプされた文字があるものから別のものに現れたこと、ボタンが押されたこと、またはメニュー選択が生じたことを決定することを含む、請求項10に記載の非一時的なコンピュータ読み取り可能な媒体。
【請求項12】
前記個々のユーザーインタラクションは、ボタン押下、単一文字または文字列の入力、アクティブなUI要素の選択、メニュー選択、画面変更、音声入力、ジェスチャー、生体情報の提供、ハプティックインタラクション、またはこれらの組み合わせを含む、請求項10に記載の非一時的なコンピュータ読み取り可能な媒体。
【請求項13】
前記他の情報は、ウェブブラウザの履歴、1もしくは複数のヒートマップ、キーの押下、マウスのクリック、ユーザーがインタラクションしている前記ディスプレイ上のマウスクリックおよび/もしくはグラフィカル要素の位置、前記ユーザーが前記ディスプレイ上で見ていた位置、前記スクリーンショットまたはビデオフレームに関連するタイムスタンプ、前記ユーザーが入力したテキスト、前記ユーザーがスクロールして通過したコンテンツ、前記ユーザーが前記ディスプレイに表示されたコンテンツの一部で立ち止まった時間、前記ユーザーがインタラクションしているアプリケーションは何か、音声入力、ジェスチャー、感情情報、生体情報、ユーザーアクティビティが無い期間に関する情報、ハプティック情報、マルチタッチ入力情報、またはそれらの組み合わせを含む、請求項9に記載の非一時的なコンピュータ読み取り可能な媒体。
【請求項14】
前記コンピュータプログラムはさらに、前記少なくとも1つのプロセッサが、
1または複数のヒートマップを生成し、前記他の情報は、前記1または複数のヒートマップを含むように構成され、
前記1または複数のヒートマップは、ユーザーが1もしくは複数のアプリケーションを使用した頻度、前記ユーザーが前記1もしくは複数のアプリケーションのコンポーネントとインタラクションした頻度、前記1もしくは複数アプリケーション内の前記コンポーネントの位置、前記1もしくは複数アプリケーションおよび/もしくはコンポーネントのコンテンツ、またはそれらの組み合わせを含む、請求項9に記載の非一時的なコンピュータ読み取り可能な媒体。
【請求項15】
前記1または複数のヒートマップは、タイプされたおよび/もしくはペーストされたテキストの検出、キャレット追跡、アクティブ要素の検出、またはそれらの組み合わせを含む表示分析から導かれる、請求項14に記載の非一時的なコンピュータ読み取り可能な媒体。
【請求項16】
コンピュータビジョン(CV)を用いてアプリケーション、画面、およびユーザーインターフェース(UI)要素を認識するためならびに前記アプリケーション、画面、およびUI要素とのユーザーインタラクションを認識するための人工知能(AI)/機械学習(ML)モデルを訓練するためのコンピュータ実装方法であって、前記方法は、
前記1または複数のコンピューティングシステムに関連するディスプレイの記録されたスクリーンショットまたはビデオフレームにアクセスし、前記1または複数のコンピューティングシステムに関連する他の情報にアクセスし、
最初に、記録された前記スクリーンショットまたはビデオフレームおよび前記他の情報を使用して、記録された前記スクリーンショットまたはビデオフレームに存在する前記アプリケーション、画面、およびUI要素を認識するように前記AI/MLモデルを訓練し、
前記AI/MLモデルが、記録された前記スクリーンショットまたはビデオフレーム内の前記アプリケーション、画面、およびUI要素を信頼を持って認識できるようになった後、前記AI/MLモデルを訓練して、前記UI要素との個々のユーザーインタラクションを認識することを含む、コンピュータ実装方法。
【請求項17】
前記スクリーンショットまたはビデオフレーム内の前記アプリケーション、画面、およびUI要素の先験的知識無しに、前記AI/MLモデルの初期訓練が実行される、請求項16に記載のコンピュータ実装方法。
【請求項18】
前記UI要素との前記個々のユーザーインタラクションを認識するための前記AI/MLモデルの訓練は、2つ以上の連続するスクリーンショットもしくはビデオフレームを比較し、タイプされた文字があるものから別のものに現れたこと、ボタンが押されたこと、またはメニュー選択が生じたことを決定することを含む、請求項16に記載のコンピュータ実装方法。
【請求項19】
前記個々のユーザーインタラクションは、ボタン押下、単一文字または文字列の入力、アクティブなUI要素の選択、メニュー選択、画面変更、音声入力、ジェスチャー、生体情報の提供、ハプティックインタラクション、またはこれらの組み合わせを含む、請求項16に記載のコンピュータ実装方法。
【請求項20】
前記他の情報は、ウェブブラウザの履歴、1もしくは複数のヒートマップ、キーの押下、マウスのクリック、ユーザーがインタラクションしている前記ディスプレイ上のマウスクリックおよび/もしくはグラフィカル要素の位置、前記ユーザーが前記ディスプレイ上で見ていた位置、前記スクリーンショットまたはビデオフレームに関連するタイムスタンプ、前記ユーザーが入力したテキスト、前記ユーザーがスクロールして通過したコンテンツ、前記ユーザーが前記ディスプレイに表示されたコンテンツの一部で立ち止まった時間、前記ユーザーがインタラクションしているアプリケーションは何か、音声入力、ジェスチャー、感情情報、生体情報、ユーザーアクティビティが無い期間に関する情報、ハプティック情報、マルチタッチ入力情報、またはそれらの組み合わせを含む、請求項16に記載のコンピュータ実装方法。
【請求項21】
1または複数のヒートマップを生成し、前記他の情報は、前記1または複数のヒートマップを含むことをさらに含み、
前記1または複数のヒートマップは、ユーザーが1もしくは複数のアプリケーションを使用した頻度、前記ユーザーが前記1もしくは複数のアプリケーションのコンポーネントとインタラクションした頻度、前記1もしくは複数アプリケーション内の前記コンポーネントの位置、前記1もしくは複数アプリケーションおよび/もしくはコンポーネントのコンテンツ、またはそれらの組み合わせを含み、
前記1または複数のヒートマップは、タイプされたおよび/もしくはペーストされたテキストの検出、キャレット追跡、アクティブ要素の検出、またはそれらの組み合わせを含む表示分析から導かれる、請求項16に記載のコンピュータ実装方法。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願への相互参照)
これは、2020年10月14日に出願された米国特許出願第17/070,108号の利益およびその優先権を主張する国際出願です。先に提出された本出願の主題は、その全体を参照することにより、本明細書に組み込まれる。
【0002】
本発明は概して、ユーザーインターフェース(UI)オートメーションに関し、より具体的には、コンピュータビジョン(CV)を用いてアプリケーション、画面、およびUI要素を認識するためならびにアプリケーション、画面、およびUI要素とのユーザーインタラクションを認識するための人工知能(AI)/機械学習(ML)モデルを訓練することに関する。
【背景技術】
【0003】
UIオートメーションを実行するために、RPA技術は、ドライバおよび/またはアプリケーションレベルのインタラクションを利用して、ボタンをクリックし、テキストを入力し、UIとの他のインタラクションを実行し得る。しかし、キー押下、マウスクリック、および他のカーネルフック情報は、いくつかの実施形態において、または新しいUIオートメーションプラットフォームを構築する際に、システムレベルで利用できない場合がある。このようなUIオートメーションプラットフォームを実装するためには、広範なドライバレベルおよびアプリケーションレベルの機能性が一般的に必要である。したがって、UIオートメーションを提供するための代替技術は有益であり得る。
【発明の概要】
【0004】
本発明の特定の実施形態は、現在のUIオートメーション技術によってまだ十分に特定されていない、評価されていない、または解決されていない本分野における問題およびニーズのソリューションを提供し得る。例えば、本発明のいくつかの実施形態は、CVを用いてアプリケーション、画面、および(UI)要素を認識するためならびにアプリケーション、画面、およびUI要素とのユーザーインタラクションを認識するためのAI/MLモデルを訓練することに関する。
【0005】
実施形態では、システムは、それぞれのレコーダープロセスを含む1または複数のユーザーコンピューティングシステムと、CVを使用してアプリケーション、画面、およびUI要素を認識し、かつアプリケーション、画面、およびUI要素とのユーザーインタラクションを認識するためにAI/MLモデルを訓練するように構成されたサーバーを含む。各レコーダープロセスは、ユーザーコンピューティングシステムのそれぞれに関連するディスプレイのスクリーンショットまたはビデオフレームおよび他の情報を記録するように構成される。各レコーダープロセスはまた、記録されたスクリーンショットまたはビデオフレーム、および他の情報を、サーバーによってアクセス可能なストレージに送信するように構成される。サーバーは最初に、記録されたスクリーンショットまたはビデオフレームおよび他の情報を使用して、記録されたスクリーンショットまたはビデオフレームに存在するアプリケーション、画面、およびUI要素を認識するようにAI/MLモデルを訓練するように構成される。AI/MLモデルが、記録されたスクリーンショットまたはビデオフレーム内のアプリケーション、画面、およびUI要素を信頼を持って認識できるようになった後、サーバーも、AI/MLモデルを訓練して、UI要素との個々のユーザーインタラクションを認識するように構成される。
【0006】
別の実施形態では、非一時的なコンピュータ読み取り可能な媒体は、CVを使用してアプリケーション、画面、およびUI要素を認識する、ならびに/またはアプリケーション、画面、およびUI要素とのユーザーインタラクションを認識するためにAI/MLモデルを訓練するように構成されるコンピュータプログラムを格納する。コンピュータプログラムは、少なくとも1つのプロセッサが、1または複数のコンピューティングシステムに関連するディスプレイの記録されたスクリーンショットまたはビデオフレームにアクセスし、1または複数のコンピューティングシステムに関連する他の情報にアクセスするように構成される。コンピュータプログラムはまた、少なくとも1つのプロセッサが、最初に、記録されたスクリーンショットまたはビデオフレームおよび他の情報を使用して、記録されたスクリーンショットまたはビデオフレームに存在するアプリケーション、画面、およびUI要素を認識するようにAI/MLモデルを訓練するように構成される。スクリーンショットまたはビデオフレーム内のアプリケーション、画面、およびUI要素の先験的知識無しに、AI/MLモデルの初期訓練が実行される。
【0007】
さらに別の実施形態では、CVを使用してアプリケーション、画面、およびUI要素を認識し、かつアプリケーション、画面、およびUI要素とのユーザーインタラクションを認識するためにAI/MLモデルを訓練するためのコンピュータ実装方法は、1または複数のコンピューティングシステムに関連するディスプレイの記録されたスクリーンショットまたはビデオフレームにアクセスし、1または複数のコンピューティングシステムに関連する他の情報にアクセスすることを含む。コンピュータ実装方法はまた、最初に、記録されたスクリーンショットまたはビデオフレームおよび他の情報を使用して、記録されたスクリーンショットまたはビデオフレームに存在するアプリケーション、画面、およびUI要素を認識するようにAI/MLモデルを訓練することを含む。AI/MLモデルが、記録されたスクリーンショットまたはビデオフレーム内のアプリケーション、画面、およびUI要素を信頼を持って認識できるようになった後、コンピュータ実装方法はさらに、AI/MLモデルを訓練して、UI要素との個々のユーザーインタラクションを認識することを含む。
【図面の簡単な説明】
【0008】
本発明の特定の実施形態の利点が容易に理解されるように、上記で簡単に説明した本発明のより特定の説明は、添付の図面に図示されている特定の実施形態を参照して描写される。これらの図面は、本発明の典型的な実施形態のみを描いており、したがって、その範囲を限定するものとは考えられないことが理解されるべきであるが、本発明は、以下の添付の図面を使用することにより、さらなる特定および詳細をもって描写され、説明されるであろう。
【0009】
【
図1】本発明の実施形態による、ロボティックプロセスオートメーション(RPA)システムを示すアーキテクチャ図である。
【0010】
【
図2】本発明の実施形態による、展開したRPAシステムを示すアーキテクチャ図である。
【0011】
【
図3】本発明の実施形態による、デザイナ、アクティビティ、およびドライバの間の関係を示すアーキテクチャ図である。
【0012】
【
図4】本発明の実施形態による、RPAシステムを示すアーキテクチャ図である。
【0013】
【
図5】本発明の実施形態による、CVを使用してアプリケーション、画面、およびUI要素を認識し、かつアプリケーション、画面、およびUI要素とのユーザーインタラクションを認識するためにAI/MLモデルを訓練するように構成されたコンピューティングシステムを説明するアーキテクチャ図である。
【0014】
【
図6】本発明の実施形態による、CVを使用してアプリケーション、画面、およびUI要素を認識し、かつアプリケーション、画面、およびUI要素とのユーザーインタラクションを認識するためにAI/MLモデルを訓練するように構成されたシステムを説明するアーキテクチャ図である。
【0015】
【
図7】本発明の実施形態による、CVを使用してアプリケーション、画面、およびUI要素を認識し、かつアプリケーション、画面、およびUI要素とのユーザーインタラクションを認識するためにAI/MLモデルを訓練するためのプロセスを説明するフローチャートである。
【0016】
【
図8】本発明の実施形態による、オートメーションボックスおよび眼球運動追跡システムを説明するアーキテクチャ図である。
【発明を実施するための形態】
【0017】
別段の記載がない限り、類似の参照文字は、添付の図面全体で一貫して対応する特徴を示す。
【0018】
(実施形態の詳細な説明)
いくつかの実施形態は、CVを用いてアプリケーション、画面、および(UI)要素を認識するためならびにアプリケーション、画面、およびUI要素とのユーザーインタラクションを認識するためのAI/MLモデルを訓練することに関する。特定の実施形態では、光学式文字認識(OCR)もまた、AI/MLモデルの訓練を支援するために使用され得る。いくつかの実施形態では、AI/MLモデルの訓練は、UiPath Studio(商標)のドライバによって提供されるような、システムレベルの情報(例えば、キー押下、マウスクリック、位置、オペレーティングシステムの動作など)またはアプリケーションレベルの情報(例えば、コンピューティングシステム上で遂行するソフトウェアアプリケーションからのアプリケーションプログラミングインターフェース(API)からの情報)などの他のシステム入力無しで実行され得る。しかし、特定の実施形態では、AI/MLモデルの訓練は、ブラウザ履歴、ファイル情報、現在実行中のアプリケーションおよび位置、システムレベルおよび/またはアプリケーションレベル情報などの他の情報によって補完され得る。
【0019】
いくつかの実施形態は、AI/MLモデルの初期バージョンのラベル付きスクリーン画像を1または複数のコンピューティングシステムから訓練入力として与えることによって、AI/MLモデルの訓練を開始する。AI/MLモデルは、画面内にどのようなアプリケーション(複数可)およびグラフィカル要素(複数可)が存在すると認識されるかなどの予測を出力として提供する。特定エラーは人間のレビューアによって(例えば、誤認された要素の周りにボックスを描画し、正しい特定を含めることによって)強調され得、UIの画面に存在するアプリケーションおよびグラフィカル要素を観察するために展開されるほどその精度が十分に高くなるまで、AI/MLモデルが訓練され得る。
【0020】
いくつかの実施形態では、画像のみから訓練するのではなく、追跡コードをユーザーのコンピューティングシステムに埋め込むこともできる。例えば、JavaScript(登録商標)のスニペットをリスナーとしてウェブブラウザに埋め込み、ユーザーがどのコンポーネントとインタラクションしたか、ユーザーが何のテキストを入力したか、ユーザーがどの位置/コンポーネントをマウスでクリックしたか、ユーザーがどのコンテンツをスクロールして通過したか、ユーザーがコンテンツの特定の部分でどのくらい停止したか、などを追跡することができる。コンテンツをスクロールして通過するということは、そのコンテンツがユーザーが求めているものと多少は近かったかもしれないが、それを正確に持っていなかったことを示し得る。クリックが成功を示し得る。
【0021】
リスナーアプリケーションは、JavaScript(登録商標)である必要はなく、本発明の範囲から逸脱することなく、任意の適切なタイプのアプリケーションおよび任意の所望のプログラミング言語であってもよい。これにより、リスナーアプリケーションの「一般化」が可能になり、複数のアプリケーションまたはユーザーがインタラクションしている任意のアプリケーションとのユーザーインタラクションを追跡できるようになる。ラベル付けされた訓練データをゼロから使用することは、AI/MLモデルがさまざまなコントロールを認識できるようになり得るが、どのコントロールがどのように一般的に使用されているかに関する情報が含まれていないため、難しい場合がある。リスナーアプリケーションを使用して、「ヒートマップ」を生成し、AI/MLモデルの訓練プロセスをブートストラップするのに役立て得る。ヒートマップは、ユーザーがアプリケーションを使用した頻度、ユーザーがアプリケーションのコンポーネントとインタラクションした頻度、コンポーネントの位置、アプリケーション/コンポーネントのコンテンツなど、さまざまな情報を含み得る。いくつかの実施形態では、ヒートマップは、タイプされたおよび/またはペーストされたテキストの検出、キャレット追跡、ならびにコンピューティングシステムのアクティブ要素検出などの画面分析から導かれ得る。いくつかの実施形態は、コンピューティングシステムに関連付けられた画面上のどこでユーザーが、目に見える文字が表示されないホットキーまたはその他のキーを含む可能性があるテキストをタイプまたはペーストしたかを認識し、1もしくは複数の文字が表示された位置、カーソルが点滅していた位置、またはその両方の現在の解像度(例えば、座標における)に基づいて、画面上の物理的な位置を提供する。タイプまたはペーストしたアクティビティおよび/またはキャレットの物理的な位置により、ユーザーがタイプまたはフォーカスしているフィールド(複数可)と、プロセス発見または他のアプリケーション用のアプリケーションが何であるかを決定し得る。
【0022】
いくつかの実施形態は、現在のスクリーンショットを以前のスクリーンショットと連続的または定期的に比較して変化を特定するフィードバックループプロセスで実装される。画面上で視覚的な変化が発生した位置を特定し、変化が発生した位置に対して光学式文字認識(OCR)を実行し得る。次に、OCRの結果をキーボードキューのコンテンツと比較して(例えば、キーフックによって決定される)、一致が存在するかどうかを決定し得る。変化が発生した位置は、現在のスクリーンショットからのピクセルのボックスを、前のスクリーンショットの同じ位置にあるピクセルのボックスと比較することによって決定され得る。一致が見つかると、変化が発生した位置のテキストがその位置に関連付けられ、リスナー情報の一部として提供され得る。
【0023】
ヒートマップが生成されると、最初のヒートマップ情報に基づいて、AI/MLモデルはスクリーンイメージ(数百万のイメージの可能性もある)で訓練され得る。グラフィックスプロセッシングユニット(GPU)は、この情報を処理し、AI/MLモデルを比較的迅速に訓練することができ得る。グラフィカル要素、ウィンドウ、アプリケーションなどが正確に特定され得るようになると、AI/MLモデルを訓練して、ラベル付けされたユーザーによるUI内のアプリケーションとのインタラクションを認識し、ユーザーが実行する増分アクションを理解し得る。1または一連のグラフィカル要素の変化は、ユーザーがボタンをクリックしたり、テキストを入力したり、メニューとインタラクションしたり、ウィンドウを閉じたり、アプリケーションの別の画面に移動したりしたことを示している場合がある。例えば、ユーザーがクリックしたメニューアイテムに下線が引かれ得、ボタンが押されている間はボタンが暗くなり得、次いでユーザーがマウスボタンを離すと元の色合いに戻り得、文字「a」がテキストフィールドに表示され得、画像が別の画像に変わり得、ユーザーが一連の画面のアプリケーションの次の画面に移動したときに画面が別のレイアウトになり得るなど。
【0024】
特定エラーは、人間のレビューアによって再び強調され得る(例えば、誤特定された要素の周りにボックスを描画し、正しい特定を含めることによって)。AI/MLモデルは次いで、その精度が展開されるほど十分に高くなり、UIとの詳細なユーザーインタラクションを理解できるようになるまで訓練され得る。例えば、このような訓練されたAI/MLモデルは、次いで、複数のユーザーを観察し、共通のアプリケーションにおける共通のインタラクションのシーケンスを探すために使用され得る。
【0025】
いくつかの実施形態では、AI/MLモデルの訓練は、ハードウェアまたはソフトウェアを介して実装され、マウスまたはキーボードなどの入力デバイスからどのような情報が来るかを観察する「オートメーションボックス」からの情報で補完され得る。特定の実施形態では、カメラを使用して、ユーザーが画面上のどこを見ているのかを追跡し得る。オートメーションボックスおよび/またはカメラからの情報は、タイムスタンプが付けられ、AI/MLモデルによって検出されたグラフィカル要素、アプリケーション、および画面と組み合わせて使用されて、その訓練を支援し、ユーザーがその時点でしていることをより良く理解し得る。
【0026】
特定の実施形態は、ロボティックプロセスオートメーション(RPA)に採用されてもよい。
図1は、本発明の実施形態による、RPAシステム100を示すアーキテクチャ図である。RPAシステム100は、開発者がワークフローを設計して実装することを可能にするデザイナ110を含む。デザイナ110は、アプリケーション統合のためのソリューションを提供するとともに、サードパーティアプリケーション、管理情報技術(IT)タスク、およびビジネスITプロセスを自動化する。デザイナ110は、ビジネスプロセスのグラフィック表現である自動化プロジェクトの開発を容易にし得る。簡単に言えば、デザイナ110は、ワークフローおよびロボットの開発および展開を容易にする。
【0027】
自動化プロジェクトは、本明細書で「アクティビティ」と定義されるワークフローで開発されたステップのカスタムセット間の遂行順序および関係の制御を開発者に与えることにより、ルールベースのプロセスの自動化を可能にする。デザイナ110の実施形態の商業的な一例は、UiPath Studio(商標)である。各アクティビティは、ボタンをクリックする、ファイルを読む、ログパネルに書き込むなどのアクションを含み得る。いくつかの実施形態では、ワークフローは入れ子になっているか、または埋め込まれ得る。
【0028】
ワークフローのタイプには、シーケンス、フローチャート、FSM、および/またはグローバル例外ハンドラなどを含み得るが、これらに限定されない。シーケンスは、ワークフローを乱雑にすることなく、あるアクティビティから別のアクティビティへのフローを可能にする、線形プロセスに特に適し得る。フローチャートは、特により複雑なビジネスロジックに適し得、複数の分岐ロジックオペレータを介して、より多様な方法で意思決定の統合およびアクティビティの接続を可能にする。FSMは、大規模なワークフローに特に適し得る。FSMは、条件(すなわち、遷移)またはアクティビティによりトリガされる有限の数の状態をそれらの遂行中に使用し得る。グローバル例外ハンドラは、遂行エラーに遭遇したときのワークフローの挙動を決定したり、プロセスをデバッグしたりするのに特に適し得る。
【0029】
ワークフローがデザイナ110内で開発されると、ビジネスプロセスの遂行は、コンダクタ120によって調整され、デザイナ110内で開発されたワークフローを遂行する1または複数のロボット130を調整する。コンダクタ120の実施形態の商業的な一例は、UiPath Orchestrator(商標)である。コンダクタ120は、環境におけるリソースの生成、監視、および展開の管理を容易にする。コンダクタ120は、サードパーティのソリューションおよびアプリケーションとの統合ポイント、または統合ポイントの1つとして動作し得る。
【0030】
コンダクタ120は、全てのロボット130を管理し得、ロボット130を集中ポイントから接続して遂行する。管理され得るロボット130のタイプには、アテンディッドロボット132、アンアテンディッドロボット134、開発ロボット(アンアテンディッドロボット134と同様であるが、開発およびテストの目的で使用される)、および非生産ロボット(アテンディッドロボット132と同様であるが、開発およびテストの目的で使用される)が含まれるが、これらに限定されない。アテンディッドロボット132は、ユーザーイベントによってトリガされ、同じコンピューティングシステム上で人と並んで動作する。アテンディッドロボット132は、集中プロセスデプロイメントおよびロギング媒体のためのコンダクタ120とともに使用され得る。アテンディッドロボット132は、人のユーザーが様々なタスクを達成するのを支援してもよく、ユーザーイベントによってトリガされてもよい。いくつかの実施形態では、プロセスは、このタイプのロボット上でコンダクタ120から開始することができず、および/またはそれらはロックされた画面の下で実行することができない。特定の実施形態では、アテンディッドロボット132は、ロボットトレイからまたはコマンドプロンプトからのみ起動され得る。アテンディッドロボット132は、いくつかの実施形態では、人の監督下で動作することが好ましい。
【0031】
アンアテンディッドロボット134は、仮想環境で無人で動作し、多くのプロセスを自動化し得る。アンアテンディッドロボット134は、リモート遂行、監視、スケジューリング、および作業キューのサポートの提供を担当し得る。全てのロボットタイプのためのデバッグは、いくつかの実施形態では、デザイナ110で実行され得る。アテンディッドロボットおよびアンアテンディッドロボットの両方は、メインフレーム、ウェブアプリケーション、VM、エンタープライズアプリケーション(例えば、SAP(登録商標)、SalesForce(登録商標)、Oracle(登録商標)などにより生成されたもの)、およびコンピューティングシステムアプリケーション(例えば、デスクトップおよびラップトップアプリケーション、モバイルデバイスアプリケーション、ウェアラブルコンピュータアプリケーションなど)を含むが、これらに限定されない様々なシステムおよびアプリケーションを自動化し得る。
【0032】
コンダクタ120は、プロビジョニング、展開、バージョニング、構成、キューイング、監視、ロギング、および/または相互接続性の提供を含むがこれらに限定されない様々な能力を有し得る。プロビジョニングは、ロボット130とコンダクタ120(例えば、ウェブアプリケーション)との間の接続を作成し、維持することを含み得る。展開は、遂行のために割り当てられたロボット130へのパッケージバージョンの正しい配信を保証することを含み得る。バージョニングは、いくつかの実施形態では、いくつかのプロセスまたは構成の固有のインスタンスの管理を含んでもよい。構成は、ロボット環境およびプロセス構成の維持および配信を含み得る。キューイングは、キューおよびキュー項目の管理を提供することを含み得る。監視は、ロボットの特定データを追跡し、ユーザーの権限を維持することを含み得る。ロギングは、データベース(例えば、SQLデータベース)および/または別のストレージメカニズム(例えば、大規模なデータセットを格納し、迅速にクエリを実行する能力を提供するElasticSearch(登録商標))へのログの保存およびインデックス作成を含み得る。コンダクタ120は、サードパーティのソリューションおよび/またはアプリケーションのための通信の集中点として操作することにより、相互接続性を提供し得る。
【0033】
ロボット130は、デザイナ110で構築されたワークフローを実行する遂行エージェントである。ロボット(複数可)130のいくつかの実施形態の1つの商業的な例は、UiPath Robots(商標)である。いくつかの実施形態では、ロボット130は、デフォルトで、Microsoft Windows(登録商標)Service Control Manager(SCM)管理サービスをインストールする。その結果、このようなロボット130は、ローカルシステムアカウントの下でインタラクティブなWindows(登録商標)セッションを開くことができ、Windows(登録商標)サービスの権利を有し得る。
【0034】
いくつかの実施形態では、ロボット130は、ユーザーモードで設置され得る。このようなロボット130については、所定のロボット130が設置されているユーザーと同じ権利を有することを意味する。この特色はまた、各マシンを最大限に全活用することを保証する高密度(HD)ロボットにも利用可能であり得る。いくつかの実施形態では、いずれかのタイプのロボット130は、HD環境で構成され得る。
【0035】
いくつかの実施形態におけるロボット130は、複数のコンポーネントに分割され、それぞれが特定の自動化タスクに特化されている。いくつかの実施形態におけるロボットコンポーネントは、SCM管理ロボットサービス、ユーザーモードロボットサービス、エグゼキュータ、エージェント、およびコマンドラインを含むが、これらに限定されない。SCM管理ロボットサービスは、Windows(登録商標)セッションを管理および監視し、コンダクタ120と遂行ホスト(すなわち、ロボット130が遂行されるコンピューティングシステム)との間のプロキシとして動作する。これらのサービスは、ロボット130の資格情報を任されて管理する。コンソールアプリケーションは、ローカルシステム下のSCMにより起動される。
【0036】
いくつかの実施形態におけるユーザーモードロボットサービスは、Windows(登録商標)セッションを管理および監視し、コンダクタ120と遂行ホストとの間のプロキシとして動作する。ユーザーモードロボットサービスは、ロボット130の資格情報を任されて管理し得る。SCM管理ロボットサービスがインストールされていない場合、Windows(登録商標)アプリケーションが自動的に起動され得る。
【0037】
エグゼキュータは、Windows(登録商標)セッションの下で与えられたジョブを遂行し得る(つまり、ワークフローを遂行し得る。エグゼキュータは、モニタ毎のドットパーインチ(DPI)設定を認識し得る。エージェントは、システムトレイウィンドウに利用可能なジョブを表示するWindows(登録商標)Presentation Foundation(WPF)アプリケーションであり得る。エージェントはサービスのクライアントであり得る。エージェントは、ジョブの開始または停止、設定の変更を依頼し得る。コマンドラインはサービスのクライアントである。コマンドラインは、ジョブの開始を要求し、その出力を待つことができるコンソールアプリケーションである。
【0038】
上で説明したように、ロボット130のコンポーネントが分割されていることは、開発者、サポートユーザー、およびコンピューティングシステムが、各コンポーネントが遂行していることをより容易に実行し、特定し、および追跡するのに役立つ。この方法では、エグゼキュータとサービスに異なるファイアウォールルールを設定するなど、コンポーネントごとに特別な挙動を構成し得る。エグゼキュータは常に、いくつかの実施形態では、モニタごとのDPI設定を認識し得る。その結果、ワークフローは、ワークフローが作成されたコンピューティングシステムの構成に関係なく、いずれかのDPIで遂行し得る。また、いくつかの実施形態では、デザイナ110からのプロジェクトは、ブラウザのズームレベルに依存しないようにし得る。DPIを認識していないまたは意図的に認識していないとマークされているアプリケーションの場合、いくつかの実施形態ではDPIを無効にし得る。
【0039】
図2は、本発明の実施形態による、展開したRPAシステム200を示すアーキテクチャ図である。いくつかの実施形態では、RPAシステム200は、
図1のRPAシステム100であってもよく、またはその一部であってもよい。クライアント側、サーバー側、またはその両方が、本発明の範囲から逸脱することなく、いずれかの所望の数のコンピューティングシステムを含むことができることに留意すべきである。クライアント側では、ロボットアプリケーション210は、エグゼキュータ212、エージェント214、およびデザイナ216を含む。しかし、いくつかの実施形態では、デザイナ216は、コンピューティングシステム210上で実行されていなくてもよい。エグゼキュータ212はプロセスを実行している。
図2に示すように、複数のビジネスプロジェクトが同時に実行され得る。エージェント214(例えば、Windows(登録商標)サービス)は、本実施形態では、全てのエグゼキュータ212のための単一の接続ポイントである。この実施形態における全てのメッセージは、コンダクタ230に記録され、それは、データベースサーバー240、インデクササーバー250、またはその両方を介して、それらをさらに処理する。
図1に関して上述したように、エグゼキュータ212は、ロボットコンポーネントであり得る。
【0040】
いくつかの実施形態では、ロボットは、マシン名とユーザー名との間の関連付けを表す。ロボットは、複数のエグゼキュータを同時に管理し得る。同時に実行される複数のインタラクティブセッションをサポートするコンピューティングシステム(Windows(登録商標)Server 2012など)では、複数のロボットが同時に実行され得、それぞれが一意のユーザー名を使用して別々のWindows(登録商標)セッションで実行され得る。これは、上記のHDロボットと呼ばれる。
【0041】
エージェント214はまた、ロボットの状態を送信し(例えば、ロボットがまだ機能していることを示す「ハートビート」メッセージを定期的に送信する)、遂行されるパッケージの要求されるバージョンをダウンロードすることにも責任を負う。エージェント214とコンダクタ230との間の通信は、いくつかの実施形態では、常にエージェント214によって開始される。通知シナリオでは、エージェント214は、後にコンダクタ230によってロボットにコマンド(例えば、開始、停止など)を送信するために使用されるWebSocketチャネルを開いてもよい。
【0042】
サーバー側には、プレゼンテーション層(ウェブアプリケーション232、オープンデータプロトコル(OData)代表状態転送(REST)アプリケーションプログラミングインターフェース(API)エンドポイント234、通知および監視236)、サービス層(API実装/ビジネスロジック238)、永続層(データベースサーバー240、インデクササーバー250)が含まれる。コンダクタ230は、ウェブアプリケーション232、OData REST APIエンドポイント234、通知および監視236、ならびにAPI実装/ビジネスロジック238を含む。いくつかの実施形態では、ユーザーがコンダクタ230のインターフェース(例えば、ブラウザ220を介して)で実行するほとんどのアクションは、様々なAPIを呼び出すことによって実行される。このような動作は、本発明の範囲を逸脱することなく、ロボット上でのジョブの起動、キュー内のデータの追加/削除、無人で実行するジョブのスケジューリングなどを含み得るが、これらに限定されない。ウェブアプリケーション232は、サーバープラットフォームのビジュアル層である。この実施形態では、ウェブアプリケーション232は、ハイパーテキストマークアップ言語(HTML)およびジャバスクリプト(JS)を使用する。しかし、本発明の範囲を逸脱することなく、いずれかの所望のマークアップ言語、スクリプト言語、または他のいずれかのフォーマットを使用し得る。ユーザーは、コンダクタ230を制御するための様々な動作を実行するために、本実施形態ではブラウザ220を介してウェブアプリケーション232からのウェブページとインタラクションする。例えば、ユーザーは、ロボットグループを作成し、ロボットへのパッケージの割り当てを行い、ロボット毎および/またはプロセス毎のログを解析し、ロボットを起動しおよび停止などし得る。
【0043】
ウェブアプリケーション232に加えて、コンダクタ230は、OData REST APIエンドポイント234を公開するサービス層も含む。しかし、本発明の範囲を逸脱することなく、他のエンドポイントが含まれていてもよい。REST APIは、ウェブアプリケーション232とエージェント214の両方により消費される。エージェント214は、本実施形態では、クライアントコンピュータ上の1または複数のロボットのスーパーバイザである。
【0044】
本実施形態のREST APIは、構成、ロギング、監視、およびキューイング機能をカバーする。構成エンドポイントは、いくつかの実施形態では、アプリケーションのユーザー、権限、ロボット、アセット、リリース、および環境を定義し、構成するために使用されてもよい。ロギングRESTエンドポイントは、例えば、エラー、ロボットによって送信された明示的なメッセージ、およびその他の環境固有の情報など、様々な情報をログに記録するために使用され得る。デプロイメントRESTエンドポイントは、コンダクタ230においてジョブ開始コマンドが使用された場合に遂行されるべきパッケージのバージョンを問い合わせるためにロボットにより使用されてもよい。キューイングRESTエンドポイントは、キューへのデータの追加、キューからのトランザクションの取得、トランザクションのステータスの設定など、キューおよびキューアイテムの管理を担ってもよい。
【0045】
RESTエンドポイントの監視は、ウェブアプリケーション232およびエージェント214を監視してもよい。通知および監視API236は、エージェント214の登録、エージェント214への構成設定の配信、ならびにサーバーおよびエージェント214からの通知の送受信に使用されるRESTエンドポイントであってもよい。通知および監視API236は、いくつかの実施形態では、WebSocket通信を使用してもよい。
【0046】
永続層は、本実施形態では、一対のサーバー-データベースサーバー240(例えば、SQLサーバー)およびインデクササーバー250を含む。本実施形態におけるデータベースサーバー240は、ロボット、ロボットグループ、関連するプロセス、ユーザー、役割、スケジュールなどの構成を格納する。この情報は、いくつかの実施形態では、ウェブアプリケーション232を介して管理される。データベースサーバー240は、キューおよびキューアイテムを管理してもよい。いくつかの実施形態では、データベースサーバー240は、ロボットにより記録されたメッセージを(インデクササーバー250に加えて、またはそれに代えて)格納してもよい。
【0047】
いくつかの実施形態では任意であるが、インデクササーバー250は、ロボットにより記録された情報を保存し、インデックスを作成する。特定の実施形態では、インデクササーバー250は、構成設定を介して無効化されてもよい。いくつかの実施形態では、インデクササーバー250は、オープンソースプロジェクトの全文検索エンジンであるElasticSearch(登録商標)を使用する。ロボットにより記録されたメッセージ(例えば、ログメッセージまたはライン書き込みのようなアクティビティを使用して)は、ロギングRESTエンドポイント(複数可)を介してインデクササーバー250に送信されてもよく、そこで将来の利用のためにそれらはインデックス化される。
【0048】
図3は、本発明の実施形態による、デザイナ310、アクティビティ320、330、ドライバ340、およびAI/MLモデル350の間の関係300を示すアーキテクチャ図である。以上のように、開発者は、デザイナ310を用いて、ロボットによって遂行されるワークフローを開発する。ワークフローは、ユーザー定義のアクティビティ320およびUIオートメーションアクティビティ330を含んでもよい。ユーザー定義アクティビティ320および/またはUIオートメーションアクティビティ330は、いくつかの実施形態では、ロボットが動作しているコンピューティングシステムに対してローカルに、および/またはそれに対してリモートに位置され得、1または複数のAI/MLモデル350を呼び出し得る。いくつかの実施形態では、画像中の非テキストの視覚的コンポーネントを特定することができ、これは、本明細書ではコンピュータビジョン(CV)と呼ばれる。このようなコンポーネントに関連するいくつかのCVアクティビティは、クリック、タイプ、テキストを取得、ホバー、要素の有無を検出、スコープの更新、ハイライトなどを含み得るが、これらに限定されない。いくつかの実施形態では、クリックは、例えば、CV、光学的文字認識(OCR)、ファジーテキストマッチング、およびマルチアンカーを使用して要素を特定し、それをクリックする。タイプは、上記および要素内のタイプを用いて要素を特定してもよい。テキストの取得は、特定のテキストの場所を特定し、OCRを使用してそれをスキャンし得る。ホバーは、要素を特定し、その上にホバーし得る。要素の有無の検出は、上述した技法を用いて、画面上に要素が存在するかどうかを確認し得る。いくつかの実施形態では、デザイナ310に実装され得る数百または数千もののアクティビティが存在してもよい。しかし、本発明の範囲を逸脱することなく、いずれかの数および/またはアクティビティのタイプを利用することができる。
【0049】
UIオートメーションアクティビティ330は、低レベルのコード(例えば、CVアクティビティ)で記述され、画面とのインタラクションを促進する特別な低レベルのアクティビティのサブセットである。UIオートメーションアクティビティ330は、ロボットが所望のソフトウェアとインタラクションすることを可能にするドライバ340および/またはAI/MLモデル350を介して、これらのインタラクションを促進する。例えば、ドライバ340は、OSドライバ342、ブラウザドライバ344、VMドライバ346、エンタープライズアプリケーションドライバ348などを含み得る。コンピューティングシステムとのインタラクションの実行を決定するために、1または複数のAI/MLモデル350はUIオートメーションアクティビティ330によって使用され得る。いくつかの実施形態では、AI/MLモデル350は、ドライバ340を増強するか、またはそれらを完全に置き換え得る。実際、特定の実施形態では、ドライバ340は含まれない。
【0050】
ドライバ340は、フックを探したり、キーを監視したりするなど、低レベルでOSとインタラクションしてもよい。それらは、Chrome(登録商標)、IE(登録商標)、Citrix(登録商標)、SAP(登録商標)などとの統合を促進してもよい。例えば、「クリック」アクティビティは、ドライバ340を介して、これらの異なるアプリケーションにおいて同じ役割を果たす。
【0051】
図4は、本発明の実施形態による、RPAシステム400を示すアーキテクチャ図である。いくつかの実施形態では、RPAシステム400は、
図1および/または
図2のRPAシステム100および/または200であってもよいし、それを含んでもよい。RPAシステム400は、ロボットを実行する複数のクライアントコンピューティングシステム410を含む。コンピューティングシステム410は、その上で実行されるウェブアプリケーションを介してコンダクタコンピューティングシステム420と通信することができる。コンダクタコンピューティングシステム420は、順番に、データベースサーバー430および任意のインデクササーバー440と通信することができる。
【0052】
図1および
図3に関して、これらの実施形態ではウェブアプリケーションが使用されているが、本発明の範囲から逸脱することなく、任意の適切なクライアント/サーバーソフトウェアを使用することができることに留意すべきである。例えば、コンダクタは、クライアントコンピューティングシステム上で、非ウェブベースのクライアントソフトウェアアプリケーションと通信するサーバーサイドアプリケーションを実行してもよい。
【0053】
図5は、本発明の実施形態による、CVを使用してアプリケーション、画面、およびUI要素を認識し、かつアプリケーション、画面、およびUI要素とのユーザーインタラクションを認識するためにAI/MLモデルを訓練するように構成されたコンピューティングシステム500を説明するアーキテクチャ図である。いくつかの実施形態では、コンピューティングシステム500は、本明細書に描かれたおよび/または記載された1または複数のコンピューティングシステムであってもよい。コンピューティングシステム500は、情報を通信するためのバス505または他の通信機構と、情報を処理するためのバス505に結合されたプロセッサ(複数可)510とを含む。プロセッサ(複数可)510は、中央処理ユニット(CPU)、特定用途集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、グラフィックスプロセッシングユニット(GPU)、それらの複数のインスタンス、および/またはそれらのいずれかの組み合わせを含む、いずれかのタイプの一般的または特定用途向けプロセッサであり得る。プロセッサ(複数可)510はまた、複数の処理コアを有してもよく、コアの少なくとも一部は、特定の機能を実行するように構成され得る。いくつかの実施形態では、複数並列処理が使用されてもよい。特定の実施形態では、少なくとも1つのプロセッサ(複数可)510は、生物学的ニューロンを模倣する処理要素を含むニューロモーフィック回路であり得る。いくつかの実施形態では、ニューロモーフィック回路は、フォンノイマンコンピューティングアーキテクチャの典型的なコンポーネントを必要としない場合がある。
【0054】
コンピューティングシステム500は、プロセッサ(複数可)510によって遂行される情報および命令を格納するためのメモリ515をさらに含む。メモリ515は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、フラッシュメモリ、キャッシュ、磁気ディスクもしくは光ディスクなどの静的記憶装置、または他のタイプの非一時的なコンピュータ読み取り可能な媒体、あるいはそれらのいずれかの組み合わせで構成され得る。非一時的なコンピュータ読み取り可能な媒体は、プロセッサ(複数可)510によりアクセス可能ないずれかの利用可能な媒体であってもよく、揮発性媒体、不揮発性媒体または両方などを含み得る。また、媒体は、取り外し可能なもの、取り外し不可能なもの、または両方であってもよい。
【0055】
さらに、コンピューティングシステム500は、無線および/または有線接続を介して通信ネットワークへのアクセスを提供するために、トランシーバなどの通信デバイス520を含む。いくつかの実施形態では、通信デバイス520は、周波数分割多元接続(FDMA)、シングルキャリアFDMA(SC-FDMA)、時分割多元接続(TDMA)、符号分割多元接続(CDMA)、直交周波数分割多重方式(OFDM)、直交周波数分割多元接続(OFDMA)、移動体用グローバルシステム(GSM:Global System for Mobile)通信、汎用パケット無線サービス(GPRS:General Packet Radio Service)、ユニバーサル移動体通信システム(UMTS:Universal Mobile Telecommunications System)、cdma2000、広帯域CDMA(W-CDMA:Wideband CDMA)、高速ダウンリンクパケットアクセス(HSDPA:High-Speed Downlink Packet Access)、高速アップリンクパケットアクセス(HSUPA:High-Speed Uplink Packet Access)、高速パケットアクセス(HSPA:High-Speed Packet Access)、ロングタームエボリューション(LTE:Long Term Evolution)、LTEアドバンスト(LTE-A:LTE Advanced)、802.11x、Wi-Fi、Zigbee、超広帯域無線(UWB:Ultra-WideBand)、802.16x、802.15、Home Node-B(HnB)、Bluetooth、無線IDタグ(RFID:Radio Frequency Identification)、IrDA(Infrared Data Association)、近距離無線通信(NFC:Near-Field Communications)、第5世代(5G)、New Radio(NR)、それらのいずれかの組み合わせ、および/または本発明の範囲から逸脱することなく、いずれかの他の現在存在するまたは将来実装される通信標準および/またはプロトコルを使用するように構成され得る。いくつかの実施形態では、通信デバイス520は、本発明の範囲から逸脱することなく、単数のアンテナ、アレイ状のアンテナ、フェーズドアンテナ、スイッチドアンテナ、ビームフォーミングアンテナ、ビームステアリングアンテナ、それらの組み合わせ、および/またはいずれかの他のアンテナ構成である1または複数のアンテナを含み得る。
【0056】
プロセッサ(複数可)510は、バス505を介して、プラズマディスプレイ、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、電界放出ディスプレイ(FED)、有機発光ダイオード(OLED)ディスプレイ、フレキシブルOLEDディスプレイ、フレキシブル基板ディスプレイ、プロジェクションディスプレイ、4Kディスプレイ、高精細ディスプレイ、Retina(登録商標)ディスプレイ、IPS(In-Plane Switching)ディスプレイ、またはユーザーに情報を表示するためのいずれかの他の適切なディスプレイなどのディスプレイ525にさらに結合されている。ディスプレイ525は、抵抗方式、静電容量方式、表面弾性波(SAW)静電容量方式、赤外線方式、光学イメージング方式、分散信号方式、音響パルス認識方式、フラストレート全内部反射方式などを用いて、タッチ(ハプティック)ディスプレイ、3次元(3D)タッチディスプレイ、マルチ入力タッチディスプレイ、マルチタッチディスプレイなどとして構成されていてもよい。本発明の範囲を逸脱することなく、いずれかの好適な表示デバイスおよびハプティックI/Oを使用することができる。
【0057】
コンピュータマウス、タッチパッドなどのようなキーボード530およびカーソル制御デバイス535は、ユーザーがコンピューティングシステム500とインターフェースすることを可能にするために、バス505にさらに結合されている。しかしながら、特定の実施形態では、物理的なキーボードおよびマウスが存在しない場合があり、ユーザーは、ディスプレイ525および/またはタッチパッド(図示せず)のみを介してデバイスとインタラクションすることができる。任意の入力デバイスの種類および組み合わせは、設計の選択の問題として使用され得る。特定の実施形態では、物理的な入力デバイスおよび/またはディスプレイは存在しない。例えば、ユーザーは、コンピューティングシステム500と通信している別のコンピューティングシステムを介してリモートでそれとインタラクションしてもよいし、コンピューティングシステム500は自律的に動作してもよい。
【0058】
メモリ515は、プロセッサ(複数可)510により遂行されたときに機能を提供するソフトウェアモジュールを格納する。モジュールは、コンピューティングシステム500のためのオペレーティングシステム540を含む。モジュールはさらに、本明細書に記載されたプロセスの全部もしくは一部またはその派生物を実行するように構成されたAI/MLモデル訓練モジュール545を含む。コンピューティングシステム500は、付加的な機能を含む1または複数の付加的な機能モジュール550を含み得る。
【0059】
当業者であれば、「システム」は、本発明の範囲から逸脱することなく、サーバー、組み込みコンピューティングシステム、パーソナルコンピュータ、コンソール、パーソナルデジタルアシスタント(PDA)、携帯電話、タブレットコンピューティングデバイス、量子コンピューティングシステム、または他のいずれかの適切なコンピューティングデバイス、またはデバイスの組み合わせとして具現化され得ることを理解するであろう。上述した機能を「システム」により実行されるものとして提示することは、何ら本発明の範囲を限定することを意図するものではなく、本発明の多くの実施形態の一例を提供することを意図するものである。実際、本明細書に開示された方法、システム、および装置は、クラウドコンピューティングシステムを含むコンピューティング技法と整合性のあるローカライズされた形態および分配された形態で実装されてもよい。コンピューティングシステムは、ローカルエリアネットワーク(LAN)、モバイル通信ネットワーク、衛星通信ネットワーク、インターネット、パブリッククラウドまたはプライベートクラウド、ハイブリッドクラウド、サーバーファーム、それらのいずれかの組み合わせなどの一部であり得、そうでない場合はそれらによりアクセス可能であり得る。本発明の範囲から逸脱することなく、任意の局所または分散アーキテクチャが使用され得る。
【0060】
本明細書で説明するシステム特色のいくつかは、実装の独立性をより強調するために、モジュールとして提示されていることに留意すべきである。例えば、モジュールは、カスタムの非常に大規模な集積(VLSI)回路またはゲートアレイ、ロジックチップ、トランジスタ、または他の個別部品のような既製の半導体を含むハードウェア回路として実装され得る。また、モジュールは、フィールドプログラマブルゲートアレイ、プログラマブルアレイロジック、プログラマブルロジックデバイス、グラフィックス処理ユニットなどのプログラマブルハードウェアデバイスに実装され得る。
【0061】
モジュールはまた、様々なタイプのプロセッサにより遂行されるためのソフトウェアに少なくとも部分的に実装され得る。例えば、遂行可能コードの特定された単位は、例えば、オブジェクト、プロシージャ、または関数として編成されていてもよいコンピュータ命令の1または複数の物理的または論理的なブロックを含み得る。それにもかかわらず、遂行可能な特定されたモジュールは、物理的に一緒に配置されている必要はなく、論理的に結合されたときにモジュールを含み、モジュールのために述べられた目的を達成するために、異なる場所に格納された別々の命令を含んでいてもよい。さらに、モジュールは、例えば、ハードディスクドライブ、フラッシュデバイス、RAM、テープのような非一時的なコンピュータ読み取り可能な媒体、および/または本発明の範囲から逸脱することなくデータを格納するために使用される他のいずれかの非一時的なコンピュータ読み取り可能な媒体に格納されていてもよい。
【0062】
実際、遂行可能コードのモジュールは、単一の命令であってもよいし、多数の命令であってもよいし、さらには、複数の異なるコードセグメント、異なるプログラム間、および複数のメモリデバイス間に分散されていてもよい。同様に、動作データは、モジュール内で特定され、ここで示されてもよく、いずれかの適切な形態で具現化され、いずれかの適切なタイプのデータ構造体内で組織化され得る。動作データは、単一のデータセットとして収集されてもよいし、または異なる記憶デバイスにわたり異なる場所に分散されていてもよく、少なくとも部分的には、単にシステムまたはネットワーク上の電子信号として存在していてもよい。
【0063】
図6は、本発明の実施形態による、CVを使用してアプリケーション、画面、およびUI要素を認識し、かつアプリケーション、画面、およびUI要素とのユーザーインタラクションを認識するためにAI/MLモデルを訓練するように構成されたシステム600を説明するアーキテクチャ図である。システム600は、デスクトップコンピュータ602、タブレット604、スマートフォン606などのユーザーコンピューティングシステムを含む。しかしながら、スマートウォッチ、ラップトップコンピュータなどを含むがこれらに限定されない、任意の所望のコンピューティングシステムを本発明の範囲から逸脱することなく使用することができる。いくつかの実施形態では、コンピューティングシステム602、604、606の1または複数は、オートメーションボックスおよび/またはカメラを含み得る。また、
図6には3つのユーザーコンピューティングシステムが示されているが、本発明の範囲から逸脱することなく、任意の適切な数のコンピューティングシステムを使用することができる。例えば、いくつかの実施形態では、数十、数百、数千、または数百万のコンピューティングシステムが使用されてもよい。
【0064】
各コンピューティングシステム602、604、606は、その上で実行する、ユーザーの画面またはその一部のスクリーンショットおよび/またはビデオを記録するレコーダープロセス610(すなわち、追跡アプリケーション)を有する。例えば、JavaScript(登録商標)のスニペットをレコーダープロセス610としてウェブブラウザに埋め込み、ユーザーがどのコンポーネントとインタラクションしたか、ユーザーが何のテキストを入力したか、ユーザーがどの位置/コンポーネントをマウスでクリックしたか、ユーザーがどのコンテンツをスクロールして通過したか、ユーザーがコンテンツの特定の部分でどのくらい停止したか、などを追跡することができる。コンテンツをスクロールして通過するということは、そのコンテンツがユーザーが求めているものと多少は近かったかもしれないが、それを正確に持っていなかったことを示し得る。クリックが成功を示し得る。
【0065】
レコーダープロセス610は、JavaScript(登録商標)である必要はなく、本発明の範囲から逸脱することなく、任意の適切なタイプのアプリケーションおよび任意の所望のプログラミング言語であってもよい。これにより、レコーダープロセス610の「一般化」が可能になり、複数のアプリケーションまたはユーザーがインタラクションしている任意のアプリケーションとのユーザーインタラクションを追跡できるようになる。ラベル付けされた訓練データをゼロから使用することは、AI/MLモデルがさまざまなコントロールを認識できるようになり得るが、どのコントロールがどのように一般的に使用されているかに関する情報が含まれていないため、難しい場合がある。レコーダープロセス610を使用して、「ヒートマップ」を生成し、AI/MLモデルの訓練プロセスをブートストラップするのに役立て得る。ヒートマップは、ユーザーがアプリケーションを使用した頻度、ユーザーがアプリケーションのコンポーネントとインタラクションした頻度、コンポーネントの位置、アプリケーション/コンポーネントのコンテンツなど、さまざまな情報を含み得る。いくつかの実施形態では、ヒートマップは、タイプされたおよび/またはペーストされたテキストの検出、キャレット追跡、ならびにコンピューティングシステム602、604、606のアクティブ要素検出などの画面分析から導かれ得る。いくつかの実施形態は、コンピューティングシステム602、604、606に関連付けられた画面上のどこでユーザーが、目に見える文字が表示されないホットキーまたはその他のキーを含む可能性があるテキストをタイプまたはペーストしたかを認識し、1もしくは複数の文字が表示された位置、カーソルが点滅していた位置、またはその両方の現在の解像度(例えば、座標における)に基づいて、画面上の物理的な位置を提供する。タイプまたはペーストしたアクティビティおよび/またはキャレットの物理的な位置により、ユーザーがタイプまたはフォーカスしているフィールド(複数可)と、プロセス発見または他のアプリケーション用のアプリケーションが何であるかを決定し得る。
【0066】
上記により、いくつかの実施形態では、レコーダープロセス610は、ウェブブラウザ履歴、ヒートマップ、キー押下、マウスクリック、ユーザーがインタラクションしている画面上のマウスクリックおよび/またはグラフィカル要素の位置、ユーザーがその時々での画面を見ていた位置、スクリーンショット/ビデオフレームに関連するタイムスタンプなど、AI/MLモデル(複数可)を訓練するのをさらに支援するための追加のデータを記録し得る。これは、画面変化を引き起こさない可能性のあるキー押下および/または他のユーザーアクションを提供するために有益であり得る。例えば、いくつかのアプリケーションは、ユーザーがファイルを保存するためにCTRL+Sを押したときに、視覚的な変化を提供しない場合がある。しかしながら、特定の実施形態では、AI/MLモデル(複数可)は、取り込まれた画面画像にのみ基づいて訓練され得る。レコーダープロセス610は、RPAデザイナアプリケーションを介して生成されたロボット、オペレーティングシステムの一部、パーソナルコンピュータ(PC)またはスマートフォンのためのダウンロード可能なアプリケーション、本発明の範囲から逸脱しない、あるいは他のいずれかのソフトウェアおよび/またはハードウェアであり得る。実際、いくつかの実施形態では、1または複数のレコーダープロセス610のロジックは、物理的なハードウェアを介して部分的にまたは完全に実装される。
【0067】
いくつかの実施形態は、現在のスクリーンショットを以前のスクリーンショットと連続的または定期的に比較して変化を特定するフィードバックループプロセスで実装される。画面上で視覚的な変化が発生した位置を特定し、変化が発生した位置に対してOCRを実行し得る。次に、OCRの結果をキーボードキューのコンテンツと比較して(例えば、キーフックによって決定される)、一致が存在するかどうかを決定し得る。変化が発生した位置は、現在のスクリーンショットからのピクセルのボックスを、前のスクリーンショットの同じ位置にあるピクセルのボックスと比較することによって決定され得る。
【0068】
レコーダープロセス610で記録される画像および/または他のデータ(例えば、ウェブブラウザの履歴、ヒートマップ、キー押下、マウスクリックなど、ユーザーがインタラクションしている画面上のマウスクリックおよび/またはグラフィカル要素の位置、時間帯でユーザーが画面上で見ていた位置、スクリーンショット/ビデオフレーム、音声入力、ジェスチャー、感情(ユーザーが満足しているか、イライラしているかなど)、バイオメトリクス(指紋、網膜スキャン、ユーザーの脈拍など)に関連付けられたタイムスタンプ、ユーザーアクティビティが無い期間に関連する情報(例えば、「デッドマンスイッチ」)、ハプティックディスプレイまたはタッチパッドからのハプティック情報、マルチタッチ入力によるヒートマップなど)は、ネットワーク620(例えば、ローカルエリアネットワーク(LAN)、モバイル通信ネットワーク、衛星通信ネットワーク、インターネット、それらの任意の組み合わせなど)を介してサーバー630に送られる。いくつかの実施形態では、サーバー630は、パブリッククラウドアーキテクチャ、プライベートクラウドアーキテクチャ、ハイブリッドクラウドアーキテクチャなどの一部であってもよい。特定の実施形態では、サーバー630は、単一のコンピューティングシステム630上で複数のソフトウェアベースのサーバーをホストしてもよい。いくつかの実施形態では、サーバー630は、コンダクタアプリケーションを実行してもよく、およびレコーダープロセス610からのデータは、ハートビートメッセージの一部として定期的に送信されてもよい。特定の実施形態では、データは、所定量のデータが収集されると、所定期間が経過した後、またはその両方で、レコーダープロセス610からサーバー630に送信され得る。サーバー630は、レコーダープロセス610からの受信データをデータベース640に格納する。
【0069】
サーバー630は、この実施形態では、集合的にAI/MLモデルを形成する複数のAI層632を含む。しかしながら、いくつかの実施形態では、AI/MLモデルは単一の層を有するだけであってもよい。特定の実施形態では、複数のAI/MLモデルがサーバー630上で訓練され、より大きなタスクを集合的に達成するために一緒に使用され得る。AI層632は、CV技術を採用してもよく、統計的モデリング(例えば、隠れマルコフモデル(HMM))などのさまざまな機能を実行してもよく、深層学習技術(例えば、長短期記憶(LSTM)深層学習、以前の隠れ状態のエンコードなど)を利用してユーザーのインタラクションを特定し得る。当初、AI/MLモデルは、それがデータベース640内の取り込まれたデータの意味のある分析を実行できるように訓練される必要がある。いくつかの実施形態では、コンピューティングシステム602、604、606のユーザーは、それらがサーバー630に送信される前に、画像にラベルを付ける。さらにまたは代替的に、いくつかの実施形態では、ラベリングは、ユーザーがグラフィカル要素の周りにバウンディングボックスおよび/または他の形状を描くこと、バウンディングボックスに含まれるもののテキストラベルを提供することなどを可能にする、コンピューティングシステム650上で実行するアプリケーション652を介してなど、その後に起こる。
【0070】
AI/MLモデルは、このデータを入力として使用して訓練段階を経て、AI/MLモデルが十分に正確でありながら、訓練データに対して過剰適合しないようになるまで訓練される。許容できる精度は、アプリケーションに依存し得る。特定エラーは、人間のレビューアによって強調され(例えば、誤特定された要素の周りにボックスを描き、正しい特定を含めることによって)、この追加のラベル付きデータを使用してAI/MLモデルを再訓練し得る。十分に訓練されると、AI/MLモデルは、画面内にどのようなアプリケーション(複数可)およびグラフィカル要素(複数可)が存在すると認識されるかなどの予測を出力として提供することができる。
【0071】
しかしながら、このレベルの訓練は、何が存在するかに関する情報を提供するが、2つ以上の連続する画面を比較して、タイプされた文字があるものから別のものに現れたこと、ボタンが押されたこと、メニュー選択が発生したことなどを決定するなど、ユーザーインタラクションを決定するためにさらなる情報が必要となり得る。したがって、AI/MLモデルが画面上のグラフィカル要素およびアプリケーションを認識できた後、いくつかの実施形態では、AI/MLモデルは、UI内のアプリケーションとのラベル付きユーザーインタラクションを認識するようにさらに訓練されて、ユーザーによって取られるそのようなインクリメンタル(incremental)なアクションを理解する。特定エラーは人間のレビューアによって(例えば、誤認された要素の周りにボックスを描画し、正しい特定を含めることによって)再び強調され得、UIとの詳細なユーザーインタラクションを理解するために展開されるほどその精度が十分に高くなるまで、AI/MLモデルが訓練され得る。
【0072】
ユーザーのインタラクションを認識するように訓練されると、訓練されたAI/MLモデルを使用して、ビデオおよび/またはレコーダープロセス610からの他の情報を分析し得る。この記録された情報は、複数/多数のユーザーが実行する傾向があるインタラクションを含み得る。これらのインタラクションは次いで、その後の自動化のための共通のシーケンスのために分析され得る。
【0073】
AI層
【0074】
いくつかの実施形態では、複数のAI層が使用され得る。各AI層は、データ上で実行されるアルゴリズム(またはモデル)であり、AIモデル自体は、訓練データで訓練された人工「ニューロン」の深層学習ニューラルネットワーク(DLNN)であり得る。層は、直列、並列、またはそれらの組み合わせで実行され得る。
【0075】
Al層は、限定されないが、シーケンス抽出層、クラスタリング検出層、視覚成分検出層、テキスト認識層(例えば、OCR)、音声-テキスト翻訳層、またはそれらのいずれかの組み合わせを含み得る。しかしながら、本発明の範囲を逸脱することなく、いずれかの所望の数およびタイプ(複数可)の層を使用し得る。複数の層を使用することで、システムが画面内で生じていることのグローバルな画像を展開し得る。例えば、あるAI層はOCRを実行することができ、別のものはボタンを検出することができる、などである。
【0076】
パターンは、AI層が個別に決定してもよいし、複数のAI層が集合的に決定してもよい。ユーザーアクションに関する確率または出力が使用され得る。例えば、ボタンの特定、そのテキスト、ユーザーがクリックした場所などを決定するために、システムは、ボタンがどこにあるか、そのテキスト、画面上の位置などを知る必要があり得る。
【0077】
しかしながら、本発明の範囲から逸脱することなく、さまざまなAI/MLモデルを使用し得ることに留意されたい。AI/MLモデルは、いくつかの実施形態では、DLNN、リカレントニューラルネットワーク(RNN)、敵対的生成ネットワーク(GAN)、それらの任意の組み合わせなどのニューラルネットワークを使用して訓練され得るが、他のAI技術は、決定論的モデル、浅い学習ニューラルネットワーク(SLNN)、または任意の他の適切なAI/MLモデルのタイプおよび訓練技術など、本発明の範囲から逸脱することなく使用され得る。
【0078】
図7は、本発明の実施形態による、CVを使用してアプリケーション、画面、およびUI要素を認識し、かつアプリケーション、画面、およびUI要素とのユーザーインタラクションを認識するためにAI/MLモデルを訓練するためのプロセス700を説明するフローチャートである。プロセスは、710で、ユーザーコンピューティングシステムおよび他の情報に関連するスクリーンショットまたはビデオフレームディスプレイを記録することから始まる。いくつかの実施形態では、記録は、1または複数のレコーダープロセスによって実行される。特定の実施形態では、レコーダープロセスは、現在のスクリーンショットまたはビデオフレームを以前のスクリーンショットまたはビデオフレームと連続的または定期的に比較し、現在のスクリーンショットまたはビデオフレームと以前のスクリーンショットまたはビデオフレームとの間の変化が生じた1または複数の位置を特定するフィードバックループプロセスとして実装される。いくつかの実施形態では、レコーダープロセスは、変化が発生した1または複数の位置に対してOCRを実行し、OCRの結果をキーボードキューのコンテンツと比較して一致が存在するかどうかを決定し、一致が存在する場合、一致に関連するテキストをそれぞれの位置にリンクするように構成される。いくつかの実施形態では、他の情報は、ウェブブラウザの履歴、1もしくは複数のヒートマップ、キーの押下、マウスのクリック、ユーザーがインタラクションしているディスプレイ上のマウスクリックおよび/もしくはグラフィカル要素の位置、ユーザーがディスプレイ上で見ていた位置、スクリーンショットまたはビデオフレームに関連するタイムスタンプ、ユーザーが入力したテキスト、ユーザーがスクロールして通過したコンテンツ、ユーザーがディスプレイに表示されたコンテンツの一部で立ち止まった時間、ユーザーがインタラクションしているアプリケーションは何か、またはそれらの組み合わせを含む。特定の実施形態では、他の情報の少なくとも一部は、1または複数のオートメーションボックスを使用して取り込まれる。
【0079】
1または複数のヒートマップは、720で、他の情報の一部として生成される。いくつかの実施形態では、1または複数のヒートマップは、ユーザーがアプリケーションを使用した頻度、ユーザーがアプリケーションのコンポーネントとインタラクションした頻度、アプリケーション内のコンポーネントの位置、アプリケーションおよび/もしくはコンポーネントのコンテンツ、またはそれらの組み合わせを含む。特定の実施形態では、1または複数のヒートマップは、タイプされたおよび/もしくはペーストされたテキストの検出、キャレット追跡、アクティブ要素の検出、またはそれらの組み合わせを含む表示分析から導かれる。記録されたスクリーンショットまたはビデオフレーム、および他の情報は、その後、730で1または複数のサーバーによってアクセス可能なストレージに送信される。
【0080】
記録されたスクリーンショットまたはビデオフレームおよび他の情報は、740で(例えば、AI/MLモデルを訓練するように構成されたサーバーを介して)アクセスされる。AI/MLモデルは、最初に、750で、記録されたスクリーンショットまたはビデオフレームおよび他の情報を使用して、記録されたスクリーンショットまたはビデオフレームに存在するアプリケーション、画面、およびUI要素を認識するように訓練される。いくつかの実施形態では、スクリーンショットまたはビデオフレーム内のアプリケーション、画面、およびUI要素の先験的知識無しに、AI/MLモデルの初期訓練が実行される。
【0081】
AI/MLモデルが、記録されたスクリーンショットまたはビデオフレーム内のアプリケーション、画面、およびUI要素を信頼(例えば、70%、95%、99.99%など)を持って認識できるようになった後、760で、AI/MLモデルが訓練されて、UI要素との個々のユーザーインタラクションを認識する。いくつかの実施形態では、個々のユーザーインタラクションは、ボタン押下、単一文字または文字列の入力、アクティブなUI要素の選択、メニュー選択、画面変更、またはこれらの組み合わせを含む。特定の実施形態では、UI要素との個々のユーザーインタラクションを認識するためのAI/MLモデルの訓練は、2つ以上の連続するスクリーンショットもしくはビデオフレームを比較し、タイプされた文字があるものから別のものに現れたこと、ボタンが押されたこと、またはメニュー選択が生じたことを決定することを含む。そして、AI/MLモデルは、それが770で呼び出しプロセス(例えば、RPAロボット)によって呼び出されて使用され得るように展開される。
【0082】
図8は、本発明の実施形態による、オートメーションボックスおよび眼球運動追跡システム800を説明するアーキテクチャ図である。システム800は、カメラ820からの入力を処理するように構成されたアイトラッキングロジック(ETL)812およびオートメーションボックス860からの入力を処理するように構成されたオートメーションボックスロジック(ABL)814を含む、コンピューティングシステム810を含む。いくつかの実施形態では、コンピューティングシステム810は、
図5のコンピューティングシステム500であってもよくまたはそれを含んでもよい。特定の実施形態では、複数のカメラが使用され得る。
【0083】
カメラ820は、ユーザーがマウス840およびキーボード850を介してコンピューティングシステム810とインタラクションしている間、ユーザーのビデオを記録する。コンピューティングシステム810は、記録されたカメラのビデオをビデオフレームに変換する。ETLは、これらのフレームを処理して、ユーザーの目を特定し、ユーザーが見ている位置をディスプレイ830上の位置に補間する。米国特許出願公開第2018/0046248号、米国特許第7,682,026号などに記載されているような、任意の適切な視線追技術(複数可)を、本発明の範囲から逸脱することなく使用することができる。タイムスタンプは、それらがその時間にディスプレイ830に表示されるもののスクリーンショットフレームと一致させることができるように、ユーザーのビデオフレームと関連付けることができる。
【0084】
オートメーションボックス860はまた、マウス840およびキーボード850からの入力を受信するこの実施形態におけるオートメーションボックスロジック862を含む。いくつかの実施形態では、オートメーションボックス860は、コンピューティングシステム810と同様のハードウェア(例えば、プロセッサ(複数可)、メモリ、バスなど)を有し得る。この入力は、その後、コンピューティングシステム810に渡され得る。マウス840およびキーボード850が
図8に示されているが、タッチパッド、ボタンなど、本発明の範囲から逸脱することなく、任意の適切な入力デバイス(複数可)を使用することができる。いくつかの実施形態では、コンピューティングシステム810またはオートメーションボックス860のみが、オートメーションボックスロジックを含む。後者の理由は、ユーザーインタラクションを記録し、ネットワーク870を介してその後の処理のためにサーバー(例えば、クラウドベースのサーバー)にそれらを直接送信するためであり得る。そのような実施形態では、スクリーンショットフレームはまた、コンピューティングシステム810からオートメーションボックス860に送られ、その後、ネットワーク870を介してサーバーに送られ得る。あるいは、コンピューティングシステム810は、ネットワーク870を介してスクリーンショット自体を送信してもよい。そのような実施形態は、コンピューティングシステム810にプラグインされ、その動作のためにキーボードおよびマウス情報をコンピューティングシステム810に中継し、そしてまたAI/MLモデルのその後の訓練のためにキーボードおよびマウスクリック情報をリモートサーバーに中継することができるプラグアンドプレイ追跡ソリューションを提供し得る。
【0085】
いくつかの実施形態では、オートメーションボックス860は、自動化を実行し、入力をシミュレートする作動ロジックを含み得る。これは、この情報がこれらのコンポーネントとインタラクションする人間のユーザーから実際に来ているかのように、オートメーションボックス860が、シミュレートされたキー押下、マウス移動およびクリックなどをコンピューティングシステム810に提供することを可能にし得る。その後、UIスクリーンショットおよび他の情報は、AI/MLモデルを訓練するために使用され得る。このような実施形態の別の利点は、ユーザーがコンピューティングシステム810から離れているときにAI/MLモデルを訓練することができ、より大量の訓練情報をより迅速に取り込むことができる可能性があり、したがって、AI/MLモデルをより迅速に訓練することができる可能性もある。
【0086】
特定の実施形態では、「情報ボックス」は、コンピューティングシステム610上のソフトウェアとして実装されてもよく、
図6のレコーダープロセス610と同様の方法で機能してもよい。そのような実施形態は、スクリーンショットフレーム、マウスクリック情報、およびキー押下情報を格納し得る。特定の実施形態では、視線追跡情報も追跡され得る。この情報は、次いで、ネットワーク870を介してサーバーに送信されてもよく、視線追跡は、潜在的に、コンピューティングシステム810上ではなく、リモートで実行され得る。
【0087】
図7で実行されるプロセスステップは、本発明の実施形態に従って、
図7で説明したプロセス(複数可)の少なくとも一部を実行するようにプロセッサ(複数可)への命令をエンコードするコンピュータプログラムによって実行されてもよい。コンピュータプログラムは、非一時的なコンピュータ読み取り可能な媒体に格納されていてもよい。コンピュータ読み取り可能な媒体は、ハードディスクドライブ、フラッシュデバイス、RAM、テープ、および/またはデータを格納するために使用される他のそのような媒体または媒体の組み合わせであってもよいが、これらに限定されるものではない。コンピュータプログラムは、
図7に記載されたプロセスステップの全部または一部を実装するために、コンピューティングシステム(例えば、
図5のコンピューティングシステム500のプロセッサ(複数可)510)のプロセッサ(複数可)を制御するためのコード化された命令を含んでもよく、これはまた、コンピュータ読み取り可能な媒体に格納されてもよい。
【0088】
コンピュータプログラムは、ハードウェア、ソフトウェア、またはハイブリッド実装で実装され得る。コンピュータプログラムは、互いに動作可能な通信を行うモジュールで構成され得、情報または指示をディスプレイに送るように設計されている。コンピュータプログラムは、汎用コンピュータ、ASIC、またはいずれかの他の好適なデバイスで動作するように構成され得る。
【0089】
本発明の様々な実施形態のコンポーネントは、本明細書に一般的に記載され、図示されているように、様々な異なる構成で配置され、設計されてもよいことが、容易に理解されるであろう。したがって、添付の図に表されるような本発明の実施形態の詳細な説明は、特許請求されるような本発明の範囲を限定することを意図するものではなく、本発明の選択された実施形態を代表するものにすぎない。
【0090】
本明細書を通して記載された本発明の特色、構造、または特徴は、1または複数の実施形態では、いずれかの好適な方法で組み合わせられ得る。例えば、本明細書全体を通して「特定の実施形態」、「いくつかの実施形態」、または類似の言語を参照することは、実施形態に関連して記載された特定の特色、構造、または特徴が、本発明の少なくとも1つの実施形態に含まれていることを意味する。したがって、本明細書全体を通して「特定の実施形態では」、「いくつかの実施形態では」、「他の実施形態では」、または類似の言語の出現は、必ずしも全ての実施形態の同じグループを指すものではなく、記載された特色、構造、または特徴は、1または複数の実施形態ではいずれかの好適な方法で組み合わせられ得る。
【0091】
本明細書全体を通して特色、利点、または類似の言語への参照は、本発明で実現され得る特色および利点の全てが、本発明のいずれかの単一の実施形態にあるべきであること、または本発明のいずれかの実施形態であることを意味するものではないことに留意すべきである。むしろ、特色および利点に言及する言語は、実施形態に関連して記載された特定の特色、利点、または特徴が、本発明の少なくとも1つの実施形態に含まれることを意味すると理解される。したがって、本明細書全体での特色および利点の議論、ならびに類似の言語は、同じ実施形態を参照することができるが、必ずしもその必要性はない。
【0092】
さらに、本発明の記載された特色、利点、および特徴は、1または複数の実施形態では、いずれかの好適な方法で組み合わせることができる。関連する技術の当業者は、本発明が、1または複数の特定の実施形態の特定の特徴または利点なしに実施され得ることを認識するであろう。他の例では、追加の特徴および利点は、本発明の全ての実施形態には存在しないかもしれないが特定の実施形態では認識され得る。
【0093】
本分野における通常の技術を有する者は、上述したような本発明を、異なる順序でのステップを用いて、および/または開示されているものとは異なる構成のハードウェア要素を用いて実施することができることを容易に理解するであろう。したがって、本発明は、これらの好ましい実施形態に基づいて説明されてきたが、本発明の精神および範囲内にとどまりながら、特定の変更、変形、および代替的な構成が明らかになることは、当業者には明らかであろう。したがって、本発明の範囲を決定するためには、添付の特許請求の範囲を参照すべきである。
【国際調査報告】