特表2022-549979 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ユーアイパス，インコーポレイテッドの特許一覧

特表2022-549979スクリーンショットイメージを用いたシーケンス抽出

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-11-30

(54)【発明の名称】スクリーンショットイメージを用いたシーケンス抽出

(51)【国際特許分類】

G06F 11/34 20060101AFI20221122BHJP

G06F 11/32 20060101ALI20221122BHJP

G06F 3/0481 20220101ALI20221122BHJP

【ＦＩ】

G06F11/34 166

G06F11/32 130

G06F3/0481

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2021565072

(86)(22)【出願日】2020-09-30

(85)【翻訳文提出日】2022-01-05

(86)【国際出願番号】 US2020053556

(87)【国際公開番号】W WO2021067443

(87)【国際公開日】2021-04-08

(31)【優先権主張番号】16/591,161

(32)【優先日】2019-10-02

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＪＡＶＡ

２．ＦＬＡＳＨ

３．ＪＡＶＡＳＣＲＩＰＴ

４．ＺＩＧＢＥＥ

５．ＢＬＵＥＴＯＯＴＨ

(71)【出願人】

【識別番号】520262319

【氏名又は名称】ユーアイパス，インコーポレイテッド

【氏名又は名称原語表記】ＵｉＰａｔｈ，Ｉｎｃ．

【住所又は居所原語表記】４５２５ｔｈＡｖｅｎｕｅ，２２ｎｄＦｌｏｏｒ，ＮｅｗＹｏｒｋ，ＮＹ１００１８，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100180781

【弁理士】

【氏名又は名称】安達友和

(74)【代理人】

【識別番号】100182903

【弁理士】

【氏名又は名称】福田武慶

(72)【発明者】

【氏名】バーグ，クリスチャン

(72)【発明者】

【氏名】ディスファニ，シリンフェイズ

【テーマコード（参考）】

5B042

5E555

【Ｆターム（参考）】

5B042MA08

5B042MA10

5B042MC13

5B042MC37

5E555AA09

5E555AA13

5E555AA28

5E555AA79

5E555BA02

5E555BA61

5E555BA82

5E555BA86

5E555BB02

5E555BC04

5E555CB44

5E555CB46

5E555CC19

5E555DB41

5E555DB56

5E555DD11

5E555EA19

5E555EA24

5E555FA00

(57)【要約】

ロボティックプロセスオートメーションワークフローを生成するために、スクリーンショットイメージを使用したシーケンス抽出のためのシステムおよび方法が開示される。システムおよび方法は、プロセッサを用いて、ユーザーがアプリケーション上で実行したステップの複数のスクリーンショットをキャプチャすることと、スクリーンショットをメモリに格納することと、アクションを任意の事前定義された数のクラスタにランダムにクラスタ化することにより、キャプチャされたスクリーンショットからアクションクラスタを決定することであって、同じアクションのさまざまなバリエーションのスクリーンショットがクラスタ内でラベル付けされることと、クラスタからシーケンスを抽出し、スクリーン上の結果イベントをクラスタから削除することと、抽出されたシーケンスに基づいて、自動化されたワークフローを生成することと、を含む。

【特許請求の範囲】

【請求項1】

ロボティックプロセスオートメーションワークフローを生成するために、スクリーンショットイメージを使用したシーケンス抽出のための方法であって、前記方法は、
プロセッサを用いて、ユーザーがアプリケーション上で実行したステップの複数のスクリーンショットをキャプチャすることと、
前記スクリーンショットをメモリに格納することと、
アクションを任意の事前定義された数のクラスタにランダムにクラスタ化することにより、前記キャプチャされたスクリーンショットからアクションクラスタを決定することであって、同じアクションのさまざまなバリエーションのスクリーンショットが前記クラスタ内でラベル付けされることと、
前記クラスタからシーケンスを抽出し、スクリーン上の結果イベントを前記クラスタから削除することと、
前記抽出されたシーケンスに基づいて、自動化されたワークフローを生成すること。

【請求項2】

前記キャプチャすることは、テンプレートを形成する際に、複数の単語と、前記複数の単語のそれぞれに対応する位置とを見つけてクラスタ化するテンプレート化を含む、請求項１に記載の方法。

【請求項3】

前記テンプレート化は、前記複数の単語を示す際にしきい値を利用する、請求項２に記載の方法。

【請求項4】

前記しきい値は、約７０％である、請求項３に記載の方法。

【請求項5】

前記キャプチャすることは、テンプレートを反復し、後続の反復のために前記キャプチャを調整するための適応的なパラメータ調整を含む、請求項１に記載の方法。

【請求項6】

前記キャプチャすることは、粒子群最適化を利用したランダムサンプリングを含む、請求項１に記載の方法。

【請求項7】

前記キャプチャすることは、テンプレート項目の存在を示すバイナリ特徴ベクトルを組み込んだクラスタ化詳細を含む、請求項１に記載の方法。

【請求項8】

前記キャプチャすることは、画面のスパース表現を学習し、クラスタの粒度を調整することによる目新しさを含む、請求項１に記載の方法。

【請求項9】

前記抽出することは、前方リンク予測モジュールを利用した前方リンク推定を含んで、各イベントを考慮し、将来のイベントを各イベントとリンクさせる、請求項１に記載の方法。

【請求項10】

前記抽出することは、前記クラスタ化で発見されたスクリーンタイプに対応する各グラフノードを有するグラフィック表現を含む、請求項１に記載の方法。

【請求項11】

前記グラフのエッジは、各イベントおよびリンクされた前記イベントを表す、請求項１０に記載の方法。

【請求項12】

前記クラスタ化は、光学式文字認識（ＯＣＲ）データを利用して、単語および位置のペアを抽出する、請求項１に記載の方法。

【請求項13】

ロボティックプロセスオートメーションワークフローを生成するために、スクリーンショットイメージを使用したシーケンス抽出のためのシステムであって、前記システムは、
ユーザーがアプリケーション上で実行したステップの複数のスクリーンショットをキャプチャするように構成されたプロセッサと、
前記プロセッサに操作的に結合され、前記スクリーンショットを格納するように構成されたメモリモジュールと、を含み、
前記プロセッサは、さらに以下のように構成される、システム。
アクションを任意の事前定義された数のクラスタにランダムにクラスタ化することにより、前記キャプチャされたスクリーンショットからアクションクラスタを決定することであって、同じアクションのさまざまなバリエーションのスクリーンショットが前記クラスタ内でラベル付けされることと、
前記クラスタからシーケンスを抽出し、スクリーン上の結果イベントを前記クラスタから削除することと、
前記抽出されたシーケンスに基づいて、自動化されたワークフローを生成すること。

【請求項14】

前記キャプチャすることは、テンプレートを形成する際に、複数の単語と、前記複数の単語のそれぞれに対応する位置とを見つけてクラスタ化するテンプレート化を含む、請求項１３に記載のシステム。

【請求項15】

前記キャプチャすることは、テンプレートを反復し、後続の反復のために前記キャプチャを調整するための適応的なパラメータ調整を含む、請求項１３に記載のシステム。

【請求項16】

前記キャプチャすることは、テンプレート項目の存在を示すバイナリ特徴ベクトルを組み込んだクラスタ化詳細を含む、請求項１３に記載のシステム。

【請求項17】

前記キャプチャすることは、画面のスパース表現を学習し、クラスタの粒度を調整することによる目新しさを含む、請求項１３に記載のシステム。

【請求項18】

前記抽出することは、前方リンク予測モジュールを利用した前方リンク推定を含んで、各イベントを考慮し、将来のイベントを各イベントとリンクさせる、請求項１３に記載のシステム。

【請求項19】

前記抽出することは、前記クラスタ化で発見されたスクリーンタイプに対応する各グラフノードを有するグラフィック表現を含む、請求項１３に記載のシステム。

【請求項20】

非一時的な読み取り可能な媒体上に記録され、プロセッサによって実行可能なコンピュータプログラム製品を含む非一時的な読み取り可能な媒体であって、スクリーンショットイメージを用いてシーケンス抽出を行い、以下のステップを実装してロボティックプロセスオートメーションワークフローを生成するためのプログラムコード命令を含む、非一時的な読み取り可能な媒体。
プロセッサを用いて、ユーザーがアプリケーション上で実行したステップの複数のスクリーンショットをキャプチャすることと、
前記スクリーンショットをメモリに格納することと、
アクションを任意の事前定義された数のクラスタにランダムにクラスタ化することにより、前記キャプチャされたスクリーンショットからアクションクラスタを決定することであって、同じアクションのさまざまなバリエーションのスクリーンショットが前記クラスタ内でラベル付けされることと、
前記クラスタからシーケンスを抽出し、スクリーン上の結果イベントを前記クラスタから削除することと、
前記抽出されたシーケンスに基づいて、自動化されたワークフローを生成すること。

【発明の詳細な説明】

【背景技術】

【0001】

（関連出願への相互参照）
本出願は、２０１９年１０月２日に出願された米国出願第１６／５９１，１６１号の利益を主張し、その内容は参照により本明細書に組み込まれる。

【0002】

候補となるプロセスを識別し、アクションシーケンスを抽出するために、既存の技術では、ユーザーのクリックまたはキーストロークなどのユーザーアクションに関する一般的な情報を、ユーザーインターフェース（ＵＩ）要素に関する情報とを組み合わせて利用する。ＵＩ要素から収集された情報の問題は、ＵＩ要素がアプリケーションレベルの構成に依存しているため、それがプラットフォームによって異なり、ノイズが含まれ得ることである。

【0003】

そのため、ロボティックプロセスオートメーション（ＲＰＡ）を利用してプロセスの自動化に取り組んでいるエンタープライズでは、自動化され得るプロセスの候補を見極めるのに苦労し、結局、高額なプロフェッショナルサービス料および／または低いＲＯＩが発生してしまう。

【発明の概要】

【0004】

ロボティックプロセスオートメーションワークフローを生成するために、スクリーンショットイメージを使用したシーケンス抽出のためのシステムおよび方法が開示される。システムおよび方法は、デスクトップアプリケーションにおけるロボティックプロセスオートメーション（ＲＰＡ）のための候補となるタスクを自動的に識別することに関連しており、より詳細には、ユーザーアクションのスクリーンショットから反復的なタスクを識別するためのシーケンス抽出に関する。システムおよび方法は、プロセッサを用いて、ユーザーがアプリケーション上で実行したステップの複数のスクリーンショットをキャプチャすることと、スクリーンショットをメモリに格納することと、アクションを任意の事前定義された数のクラスタにランダムにクラスタ化することにより、キャプチャされたスクリーンショットからアクションクラスタを決定することであって、同じアクションのさまざまなバリエーションのスクリーンショットがクラスタ内でラベル付けされることと、クラスタからシーケンスを抽出し、スクリーン上の結果イベントをクラスタから削除することと、抽出されたシーケンスに基づいて、自動化されたワークフローを生成することと、を含む。

【0005】

（実施形態の詳細な説明）
より詳細な理解は、図中の類似の参照数字が類似の要素を示す、添付の図面との関連で例示的に与えられた以下の説明から得られ得る。

【図面の簡単な説明】

【0006】

【図1A】ロボティックプロセスオートメーション（ＲＰＡ）の開発、設計、運用、または遂行の説明図である。

【0007】

【図1B】ＲＰＡの開発、設計、運用、または遂行の別の説明図である。

【0008】

【図1C】コンピューティングシステムまたは環境の説明図である。

【0009】

【図2】候補識別の描写を示す図である。

【0010】

【図3】テンプレートを定義するためにクラスタ化されたスクリーンショットのセットを示す図である。

【0011】

【図4】スクリーンレベルでのアクションシーケンスのフローを示すグラフである。

【0012】

【図5】ロボティックプロセスオートメーションワークフローを生成するために、スクリーンショットイメージを使用したシーケンス抽出のための方法を示す図である。

【発明を実施するための形態】

【0013】

（詳細な説明）
以下に記載されている方法およびプロセスでは、記載されているステップは任意の順序で順不同で実行され得、明示的に記載または表示されていないサブステップが実行され得る。また、「結合されている」または「操作的に結合されている」とは、オブジェクトが連結されていることを意味してもよいが、連結されているオブジェクトの間にゼロまたはそれ以上の中間オブジェクトを有してもよい。また、開示された特徴／要素の任意の組み合わせが、１または複数の実施形態で使用されてもよい。「ＡまたはＢ」を参照して使用する場合は、Ａ、Ｂ、またはＡおよびＢを含む場合があり、より長いリストと同様に拡張され得る。表記Ｘ／Ｙを使用する場合、それはＸまたはＹを含み得る。あるいは、表記Ｘ／Ｙを使用する場合、それはＸおよびＹを含み得る。Ｘ／Ｙ表記は、同一の説明されたロジックを有するより長いリストと同様に拡張され得る。

【0014】

システムおよび方法は、デスクトップアプリケーションにおけるロボティックプロセスオートメーション（ＲＰＡ）のための候補となるタスクを自動的に識別することに関連しており、より詳細には、ユーザーアクションのスクリーンショットから反復的なタスクを識別するためのシーケンス抽出に関する。ロボティックプロセスオートメーションワークフローを生成するために、スクリーンショットイメージを使用したシーケンス抽出のためのシステムおよび方法が開示される。システムおよび方法は、プロセッサを用いて、ユーザーがアプリケーション上で実行したステップの複数のスクリーンショットをキャプチャすることと、スクリーンショットをメモリに格納することと、アクションを任意の事前定義された数のクラスタにランダムにクラスタ化することにより、キャプチャされたスクリーンショットからアクションクラスタを決定することであって、同じアクションのさまざまなバリエーションのスクリーンショットがクラスタ内でラベル付けされることと、クラスタからシーケンスを抽出し、スクリーン上の結果イベントをクラスタから削除することと、抽出されたシーケンスに基づいて、自動化されたワークフローを生成することと、を含む。

【0015】

図１Ａは、ＲＰＡの開発、設計、運用、または遂行１００の説明図である。デザイナ１０２は、スタジオ、開発プラットフォーム、開発環境などとして時々参照され、ロボットが１または複数のワークフローを実行または自動化するためのコード、命令、コマンドなどを生成するように構成され得る。コンピューティングシステムがロボットに提供し得る選択（複数可）から、ロボットは、ユーザーまたはオペレータによって選択されたビジュアルディスプレイの領域（複数可）の代表的なデータを決定し得る。ＲＰＡの一環として、コンピュータビジョン（ＣＶ）操作または機械学習（ＭＬ）モデルに関連して、四角、長方形、円、多角形、自由形などの多次元の形状をＵＩロボットの開発およびランタイムに利用され得る。

【0016】

ワークフローによって達成され得る操作の非限定的な例としては、ログインの実行、フォームへの入力、情報技術（ＩＴ）管理などのうちの１または複数であり得る。ＵＩオートメーションのためのワークフローを実行するために、ロボットは、アプリケーションのアクセスまたはアプリケーションの開発に関係なく、ボタン、チェックボックス、テキストフィールド、ラベルなどの特定の画面要素を一意に識別する必要があり得る。アプリケーションアクセスの例としては、ローカル、仮想、リモート、クラウド、Ｃｉｔｒｉｘ（登録商標）、ＶＭＷａｒｅ（登録商標）、ＶＮＣ（登録商標）、Ｗｉｎｄｏｗｓ（登録商標）リモートデスクトップ、仮想デスクトップインフラストラクチャ（ＶＤＩ）などがあり得る。アプリケーション開発の例としては、ｗｉｎ３２、Ｊａｖａ、Ｆｌａｓｈ、ハイパーテキストマークアップ言語（（ＨＴＭＬ）、ＨＴＭＬ５、拡張可能なマークアップ言語（ＸＭＬ）、Ｊａｖａｓｃｒｉｐｔ、Ｃ＃、Ｃ＋＋、Ｓｉｌｖｅｒｌｉｇｈｔなどであり得る。

【0017】

ワークフローには、タスクシーケンス、フローチャート、有限状態マシン（ＦＳＭ）、グローバル例外ハンドラなどが含まれ得るが、これらに限定されない。タスクシーケンスは、１または複数のアプリケーションまたはウィンドウ間の線形タスクを処理するための線形プロセスであり得る。フローチャートは、複雑なビジネスロジックを扱うように構成され得、複数の分岐ロジックオペレータを介して、より多様な方法で意思決定の統合およびアクティビティの接続を可能にする。ＦＳＭは、大規模なワークフロー用に構成され得る。ＦＳＭは、条件、遷移、アクティビティなどによってトリガされ得る有限数の状態をそれらの遂行中に使用し得る。グローバル例外ハンドラは、プロセスのデバッグプロセスなどのために、遂行エラーが発生したときのワークフローの動作を判断するように構成され得る。

【0018】

ロボットは、アプリケーション、アプレット、スクリプトなどであり得、基盤となるオペレーティングシステム（ＯＳ）またはハードウェアに対し透過的なＵＩを自動化し得る。展開時には、１または複数のロボットは、コンダクタ１０４（オーケストレータと呼ばれることもある）によって管理、制御などされ得る。コンダクタ１０４は、メインフレーム、ウェブ、仮想マシン、リモートマシン、仮想デスクトップ、エンタープライズプラットフォーム、デスクトップアプリ（複数可）、ブラウザ、またはそのようなクライアント、アプリケーション、もしくはプログラムにおいてワークフローを遂行または監視するようにロボット（複数可）または自動化エグゼキュータ１０６に指示または命令し得る。コンダクタ１０４は、コンピューティングプラットフォームを自動化するために複数のロボットを指示または命令するための中央または半中央点として機能し得る。

【0019】

特定の構成では、コンダクタ１０４は、プロビジョニング、展開、構成、キューイング、監視、ロギング、および／または相互接続性を提供するように構成され得る。プロビジョニングは、ロボット（複数可）または自動化エグゼキュータ１０６とコンダクタ１０４との間の接続または通信の作製および維持を含み得る。展開は、遂行のために割り当てられたロボットへのパッケージバージョンの配信を保証することを含み得る。構成は、ロボット環境およびプロセス構成の維持および配信を含み得る。キューイングは、キューおよびキュー項目の管理を提供することを含み得る。監視は、ロボットの識別データを追跡し、ユーザーの権限を維持することを含み得る。ロギングは、データベース（例えば、ＳＱＬデータベース）および／または別のストレージメカニズム（例えば、大規模なデータセットを格納し、迅速にクエリを実行する能力を提供するＥｌａｓｔｉｃＳｅａｒｃｈ（登録商標）へのログの保存およびインデックス作成を含み得る。コンダクタ１０４は、サードパーティのソリューションおよび／またはアプリケーションのための通信の集中点として操作することにより、相互接続性を提供し得る。

【0020】

ロボット（複数可）または自動化エグゼキュータ１０６は、アンアテンディッド１０８またはアテンディッド１１０として構成され得る。アンアテンディッド１０８操作の場合、自動化は、サードパーティの入力または制御の支援なしで実行され得る。アテンディッド１１０操作については、サードパーティのコンポーネントからの入力、コマンド、指示、指導などを受信して自動化が行われ得る。

【0021】

ロボット（複数可）または自動化エグゼキュータ１０６は、デザイナ１０２内に構築されたワークフローを実行する遂行エージェントであり得る。ＵＩまたはソフトウェアの自動化のためのロボット（複数可）の商業的な例としては、ＵｉＰａｔｈＲｏｂｏｔｓ（商標）がある。いくつかの実施形態では、ロボット（複数可）または自動化エグゼキュータ１０６は、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）ＳｅｒｖｉｃｅＣｏｎｔｒｏｌＭａｎａｇｅｒ（ＳＣＭ）管理サービスをデフォルトでインストールし得る。その結果、そのようなロボットは、ローカルシステムアカウントの下でインタラクティブなＷｉｎｄｏｗｓ（登録商標）セッションを開くことができ、Ｗｉｎｄｏｗｓ（登録商標）サービスの権利を持ち得る。

【0022】

いくつかの実施形態では、ロボット（複数可）または自動化エグゼキュータ１０６は、ユーザーモードでインストールされ得る。これらのロボットは、所定のロボットが設置されているユーザーと同じ権利を持ち得る。この特徴は、高密度（ＨＤ）環境などで最大のパフォーマンスで各マシンを完全に利用できるようにする高密度（ＨＤ）ロボットでも使用可能であり得る。

【0023】

特定の実施形態では、ロボット（複数可）または自動化エグゼキュータ１０６は、それぞれが特定の自動化タスクまたはアクティビティに特化したいくつかのコンポーネントに分割、分散などされ得る。ロボットコンポーネントには、ＳＣＭ管理ロボットサービス、ユーザーモードロボットサービス、エグゼキュータ、エージェント、コマンドラインなどが含まれ得る。ＳＣＭ管理ロボットサービスは、Ｗｉｎｄｏｗｓ（登録商標）セッションを管理または監視し、コンダクタ１０４と遂行ホスト（すなわち、ロボット（複数可）または自動化エグゼキュータ１０６が遂行されるコンピューティングシステム）との間のプロキシとして機能し得る。これらのサービスは、ロボット（複数可）または自動化エグゼキュータ１０６のための資格情報を任されて管理し得る。

【0024】

ユーザーモードロボットサービスは、Ｗｉｎｄｏｗｓ（登録商標）セッションを管理および監視し、コンダクタ１０４と遂行ホストとの間のプロキシとして機能し得る。ユーザーモードロボットサービスは、ロボット１３０の資格情報を任されて管理し得る。ＳＣＭ管理ロボットサービスがインストールされていない場合、Ｗｉｎｄｏｗｓ（登録商標）アプリケーションが自動的に起動され得る。

【0025】

エグゼキュータは、Ｗｉｎｄｏｗｓ（登録商標）セッションの下で与えられたジョブを遂行し得る（つまり、ワークフローを遂行し得る）。エグゼキュータは、モニタ毎のドットパーインチ（ＤＰＩ）設定を意識し得る。エージェントは、システムトレイウィンドウに利用可能なジョブを表示するＷｉｎｄｏｗｓ（登録商標）ＰｒｅｓｅｎｔａｔｉｏｎＦｏｕｎｄａｔｉｏｎ（ＷＰＦ）アプリケーションであり得る。エージェントはサービスのクライアントとなり得る。エージェントは、ジョブの開始または停止、設定の変更を依頼し得る。コマンドラインはサービスのクライアントとなり得る。コマンドラインは、ジョブの開始を要求し、その出力を待つことができるコンソールアプリケーションである。

【0026】

上で説明したように、ロボット（複数可）または自動化エグゼキュータ１０６のコンポーネントが分割される構成では、開発者、サポートユーザー、およびコンピューティングシステムが、各コンポーネントによる実行、識別、および追跡をより容易に遂行するのに役立つ。この方法では、エグゼキュータとサービスに異なるファイアウォールルールを設定するなど、コンポーネントごとに特別な動作を構成し得る。エグゼキュータは、いくつかの実施形態では、モニタごとのＤＰＩ設定を認識し得る。その結果、ワークフローは、ワークフローが作成されたコンピューティングシステムの構成に関係なく、いずれかのＤＰＩで遂行し得る。また、デザイナ１０２からのプロジェクトは、ブラウザのズームレベルに依存しないようにし得る。ＤＰＩを認識していないまたは意図的に認識していないとマークされているアプリケーションの場合、いくつかの実施形態ではＤＰＩを無効にし得る。

【0027】

図１Ｂは、ＲＰＡの開発、設計、運用、または遂行１２０の別の説明図である。スタジオコンポーネントまたはモジュール１２２は、ロボットが１または複数のアクティビティ１２４を実行するためのコード、命令、コマンドなどを生成するように構成され得る。ユーザーインターフェース（ＵＩ）オートメーション１２６は、１または複数のドライバ（複数可）コンポーネント１２８を使用して、クライアント上のロボットによって実行され得る。ロボットは、コンピュータビジョン（ＣＶ）アクティビティモジュールまたはエンジン１３０を使用してアクティビティを行い得る。他のドライバ１３２は、ＵＩの要素を得るためにロボットによるＵＩオートメーションのために利用され得る。それらには、ＯＳドライバ、ブラウザドライバ、仮想マシンドライバ、エンタープライズドライバなどが含まれ得る。特定の構成では、ＣＶアクティビティモジュールまたはエンジン１３０は、ＵＩオートメーションのために使用されるドライバであり得る。

【0028】

図１Ｃは、情報またはデータを通信するためのバス１４２または他の通信機構と、処理のためにバス１４２に結合された１または複数のプロセッサ（複数可）１４４とを含むことができるコンピューティングシステムまたは環境１４０の説明図である。１または複数のプロセッサ（複数可）１４４は、中央処理ユニット（ＣＰＵ）、特定用途集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、グラフィックス処理ユニット（ＧＰＵ）、コントローラ、マルチコア処理ユニット、３次元プロセッサ、量子コンピューティングデバイス、またはそれらの任意の組み合わせを含む、任意のタイプの一般的または特定用途プロセッサであり得る。１または複数のプロセッサ（複数可）１４４はまた、複数の処理コアを有してもよく、コアの少なくとも一部は、特定の機能を実行するように構成され得る。また、マルチパラレル処理が構成され得る。さらに、少なくとも１または複数のプロセッサ（複数可）１４４は、生物学的ニューロンを模倣する処理要素を含むニューロモーフィック回路であり得る。

【0029】

メモリ１４６は、プロセッサ（複数可）１４４によって遂行または処理される情報、命令、コマンド、またはデータを格納するように構成され得る。メモリ１４６は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、フラッシュメモリ、ソリッドステートメモリ、キャッシュ、磁気ディスクもしくは光ディスクなどの静的記憶装置、または他のタイプの非一時的な読み取り可能な媒体、あるいはそれらの組み合わせの任意の組み合わせで構成され得る。非一時的な読み取り可能な媒体は、プロセッサ（複数可）１４４によってアクセス可能な任意の媒体であってもよく、揮発性媒体、不揮発性媒体などを含み得る。また、媒体は、取り外し可能なものであってもよいし、取り外し不可能なものなどであってもよい。

【0030】

通信装置１４８は、周波数分割多元接続（ＦＤＭＡ）、シングルキャリアＦＤＭＡ（ＳＣ－ＦＤＭＡ）、時分割多元接続（ＴＤＭＡ）、符号分割多元接続（ＣＤＭＡ）、直交周波数分割多重方式（ＯＦＤＭ）、直交周波数分割多元接続（ＯＦＤＭＡ）、移動体用グローバルシステム（ＧＳＭ：ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅ）通信、汎用パケット無線サービス（ＧＰＲＳ：ＧｅｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅ）、ユニバーサル移動体通信システム（ＵＭＴＳ：ＵｎｉｖｅｒｓａｌＭｏｂｉｌｅＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｙｓｔｅｍ）、ｃｄｍａ２０００、広帯域ＣＤＭＡ（Ｗ－ＣＤＭＡ：ＷｉｄｅｂａｎｄＣＤＭＡ）、高速ダウンリンクパケットアクセス（ＨＳＤＰＡ：Ｈｉｇｈ－ＳｐｅｅｄＤｏｗｎｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ）、高速アップリンクパケットアクセス（ＨＳＵＰＡ：Ｈｉｇｈ－ＳｐｅｅｄＵｐｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ）、高速パケットアクセス（ＨＳＰＡ：Ｈｉｇｈ－ＳｐｅｅｄＰａｃｋｅｔＡｃｃｅｓｓ）、ロングタームエボリューション（ＬＴＥ：ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、ＬＴＥアドバンスト（ＬＴＥ－Ａ：ＬＴＥＡｄｖａｎｃｅｄ）、８０２．１１ｘ、Ｗｉ－Ｆｉ、Ｚｉｇｂｅｅ、超広帯域無線（ＵＷＢ：Ｕｌｔｒａ－ＷｉｄｅＢａｎｄ）、８０２．１６ｘ、８０２．１５、ＨｏｍｅＮｏｄｅ－Ｂ（ＨｎＢ）、Ｂｌｕｅｔｏｏｔｈ、無線ＩＤタグ（ＲＦＩＤ：ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩｄｅｎｔｉｆｉｃａｔｉｏｎ）、ＩｒＤＡ（ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ）、近距離無線通信（ＮＦＣ：Ｎｅａｒ－ＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎｓ）、第５世代（５Ｇ）、ＮｅｗＲａｄｉｏ（ＮＲ）、または、１もしくは複数のアンテナを介して通信するためのいずれかの他の無線もしくは有線のデバイス／トランシーバとして構成され得る。アンテナは、単数型、アレイ型、フェーズド型、スイッチ型、ビームフォーミング型、ビームステア型などであり得る。

【0031】

１または複数のプロセッサ（複数可）１４４は、バス１４２を介して、プラズマ、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）、フィールドエミッションディスプレイ（ＦＥＤ）、有機発光ダイオード（ＯＬＥＤ）、フレキシブルＯＬＥＤ、フレキシブル基板ディスプレイ、プロジェクションディスプレイ、４Ｋディスプレイ、高精細（ＨＤ）ディスプレイ、Ｒｅｔｉｎａ（著作権）ディスプレイ、面内スイッチング（ＩＰＳ）またはそのようなベースのディスプレイなどのディスプレイデバイス１５０にさらに結合され得る。ディスプレイデバイス１５０は、入力／出力（Ｉ／Ｏ）のために、当業者に理解されるように、抵抗性、静電容量性、表面音響波（ＳＡＷ）静電容量性、赤外線、光学イメージング、分散信号技術、音響パルス認識、フラストレート全内部反射などを使用して、タッチ、３次元（３Ｄ）タッチ、マルチ入力タッチ、またはマルチタッチディスプレイとして構成され得る。

【0032】

キーボード１５２およびコンピュータマウス、タッチパッドなどの制御装置１５４は、コンピューティングシステムまたは環境１４０への入力のためにバス１４２にさらに結合され得る。さらに、入力は、それと通信している別のコンピューティングシステムを介してリモートでコンピューティングシステムまたは環境１４０に提供されてもよいし、コンピューティングシステムまたは環境１４０が自律的に操作してもよい。

【0033】

メモリ１４６は、１または複数のプロセッサ（複数可）１４４によって遂行または処理されたときに機能を提供するソフトウェアコンポーネント、モジュール、エンジンなどを格納してもよい。これは、コンピューティングシステムまたは環境１４０のためのＯＳ１５６を含み得る。モジュールは、アプリケーション固有のプロセスまたはその派生物を実行するためのカスタムモジュール１５８をさらに含み得る。コンピューティングシステムまたは環境１４０は、付加的な機能を含む１または複数の付加的な機能モジュール１６０を含み得る。

【0034】

コンピューティングシステムまたは環境１４０は、サーバー、組み込みコンピューティングシステム、パーソナルコンピュータ、コンソール、パーソナルデジタルアシスタント（ＰＤＡ）、携帯電話、タブレットコンピューティングデバイス、量子コンピューティングデバイス、クラウドコンピューティングデバイス、モバイルデバイス、固定型モバイルデバイス、スマートディスプレイ、ウェアラブルコンピュータなどとして実行するように適合または構成され得る。

【0035】

本明細書に記載された例では、モジュールは、カスタムの非常に大規模な集積（ＶＬＳＩ）回路またはゲートアレイ、ロジックチップ、トランジスタ、または他の個別部品のような既製の半導体を含むハードウェア回路として実装され得る。また、モジュールは、フィールドプログラマブルゲートアレイ、プログラマブルアレイロジック、プログラマブルロジック装置、グラフィックス処理ユニットなどのプログラマブルハードウェア装置に実装され得る。

【0036】

モジュールは、様々なタイプのプロセッサによって遂行されるためのソフトウェアに少なくとも部分的に実装され得る。識別された遂行可能コードのユニットは、例えば、オブジェクト、プロシージャ、ルーチン、サブルーチン、または関数として編成されていてもよいコンピュータ命令の１または複数の物理的または論理的なブロックを含み得る。識別されたモジュールの遂行可能は、論理的に結合されるとモジュールを構成するように、異なる位置に共に配置されたり、格納されたりする。

【0037】

遂行可能なコードのモジュールは、単一の命令、１または複数のデータ構造、１または複数のデータセット、複数の命令などであり、複数の異なるコードセグメント、異なるプログラム間、複数のメモリデバイス間などに分散され得る。操作データまたは機能データは、モジュール内で識別され、ここで示されてもよく、任意の適切なタイプのデータ構造内で適切な形態で具現化され、組織化され得る。

【0038】

本明細書で説明された例では、コンピュータプログラムは、ハードウェア、ソフトウェア、またはハイブリッド実装で構成され得る。コンピュータプログラムは、互いに操作可能な通信を行い、情報または指示を渡すためのモジュールで構成され得る。

【0039】

本実施形態では、ユーザーアクションのスクリーンショットを用いて、繰り返されるアクションのシーケンスを抽出する。シーケンスの抽出は、アクションクラスタ化を用いて行い得る。アクションクラスタ化は、同じアクションの異なるバリエーションに関連するスクリーンショットをラベル付けするように構成される。アクションの監視なしクラスタ化のためのスクリーンショットに基づくアプローチが使用され得る。

【0040】

開示された実施形態は、デスクトップアプリケーションにおけるＲＰＡのための候補タスクを自動的に識別することに関する。候補タスクは、ユーザーのアクションのスクリーンショットに適用されるシーケンス抽出を使用して、繰り返されるアクションのシーケンスを抽出することによって識別され得る。シーケンス抽出は、アクションを事前定義された数のクラスタにランダムにクラスタ化する工程と、各クラスタのテンプレートを定義する工程と、テンプレートで使用される特徴を、サンプルが再びクラスタ化されるスパース特徴空間（ｓｐａｒｓｅｆｅａｔｕｒｅｓｐａｃｅ）として集約する工程と、サンプルをクラスタラベルに統合した後、シーケンス抽出方法を導入する工程と、を含み得る。テンプレートは、類似の画面がそのレイアウトに従っていることは理解できるが、その画面に固有の画面のレイアウトであると定義され得る。

【0041】

図２は、候補識別２００の描写を示す図である。候補識別２００は、自動化され、最終的に高額なプロフェッショナルサービス料および／または低いＲＯＩをもたらし得る候補プロセスを識別する。候補識別２００は、プロフェッショナル料金を最小限に抑え、ＲＯＩを向上させながら、自動化のための候補プロセスを識別するために、ユーザーアクションおよびＵＩ要素などのアクション２１０をクラスタ化することと、クラスタ化されたアクション２１０からシーケンス２２０を抽出することと、抽出されたシーケンス２２０に基づいてプロセス２３０を理解することと、を含む。候補識別２００は、共通のテンプレートを定義するために複数のスクリーンショットがクラスタ化されるアクションクラスタ化またはクラスタ化アクション２１０を含む。クラスタ化アクション２１０は、以下でより詳細に説明するように、テンプレート、適応的なパラメータ調整、ランダムサンプリング、クラスタ化の詳細および目新しさを含み得る。候補識別２００は、クラスタからタスクの遂行のシーケンスを識別するシーケンス抽出または抽出シーケンス２２０を含む。抽出シーケンス２２０は、以下で詳細に説明するように、前方リンク推定、グラフ表現、およびアクションクラスタ化を含み得る。候補識別２００は、ＲＰＡのための候補プロセス識別のようなプロセス理解２３０を含む。

【0042】

アクションクラスタ化２１０は、スクリーンショットから抽出された光学式文字認識（ＯＣＲ）データを活用する。例示的な実装では、ＯＣＲエンジンを使用して、スクリーンショットから単語と場所の組のデータを抽出する。スクリーンショット上の単語と対応する（正規化された）座標のセットを使用して、適応型粒子に基づくアプローチが実装され、クラスタ化のためのスパース特徴セットを反復的に抽出する。クラスタ化アクション２１０は、任意の事前定義された数のクラスタ（クラスタの数＞０）にランダムにクラスタ化され得る。

【0043】

クラスタ化アクション２１０は、センターに基づくクラスタ化パラダイムを反復的に利用する。各クラスタに対して、センターが定義される。この文脈では、センターはテンプレートと呼ばれる。テンプレートは、類似の画面がそのレイアウトに従っていることは理解できるが、その画面に固有の画面のレイアウトであると定義される。この仮定を用いて、クラスタ化アクション２１０は、各クラスタのテンプレートを決定する。テンプレートで使用される特徴の集約は、次に、Ｎ個のスクリーンショットのセットＳが与えられたときに、式１に示すように、サンプルが再びクラスタ化されるスパース特徴空間（ｓｐａｒｓｅｆｅａｔｕｒｅｓｐａｃｅ）として使用される。
Ｓ＝｛ｓ_１，ｓ_２，…，ｓ_Ｎ｝．式１．
各スクリーンショットｓ_ｉでは、ＯＣＲエンジンが、イメージ上の対応する位置にあるｍ_ｉの単語を見つける。簡単にするために、すべての位置は画面の解像度に応じて正規化され、（エリア、センター_ｘ、センター_ｙ）形式に変換される。式２では、スクリーンショットｓ_ｉで見られるｊ番目の単語をｗ_ｉｊとし、その対応する場所をｌ_ｉｊとして表される。

【数1】

【0044】

クラスタ化πを仮定する。Ｓ→Ｃ、ここで、Ｃ＝｛ｃ_１，ｃ_２，…，ｃ_Ｋ｝は、Ｋ個のクラスタラベルのセットであり、スクリーンショットｓ_ｉは、π（ｓ_ｉ）＝ｃｋの場合、クラスタｃ_ｋに含まれる。テンプレートは、クラスタ内の頻出単語と位置に基づいて作成され得る。頻出単語のリスト（Ｗ）は、頻度しきい値法を用いて、クラスタごとに計算され得る。頻出場所のリスト（Ｌ）は、頻度しきい値に基づいて、クラスタごとに算出され得る。この頻度測定において、２つの場所が類似しているとは、交差領域が結合領域の９０％超を占めている場合である。理解されるように、ＷとＬは別々に計算され得る。

【0045】

ＷとＬを使用して、サンプルのクラスタ内で各単語または位置（または両方）が出現する回数は、頻度行列Ｆを生成することによってカウントされる。非頻出単語または位置が発生する場合を考慮して、ＷとＬに要素φが追加される。頻度行列は追加の行と列（Ｆ_{｜Ｗ｜＋１，｜Ｌ｜＋１，}）を有する。この表現では、Ｆ_ｉ，ｊは、Ｗのｉ番目の単語がＬのｊ番目の位置で発生した回数を示しており、クラスタのスクリーンショットを見て生成される。さらに、Ｆ_{（｜ｗ｜，ｊ）}は、非頻出単語がｊ番目の頻出位置で起こった回数を示す。スクリーンショットのデータ入力位置に様々なデータが同じ位置に現れた場合、非頻出単語がｊ番目の頻出位置に発生し得る。

【0046】

テンプレートを作成するために、頻出する単語と位置のセット（最後の行と列を除いた各列において、観察された最大頻度の７０％より大きい頻度）が選択される。最後の行と列については、それぞれの最大値の７０％のしきい値が使用される。理解されるように、例えば、６０％、８０％、および６０～８０％の間で段階的に見出されるしきい値を含む、他のしきい値も使用され得る。０～１００％の間の任意のしきい値を使用することも考えられるが、本願では５０％以上のしきい値のみが最も有用である。

【0047】

テンプレートは、単語と位置の組み合わせ、ページの静的な部分を示すこと、ならびにプレースホルダーとなる様々なデータを有する位置、および様々な位置で発生する頻出単語を含む。図３は、テンプレートを定義するためにクラスタ化されたスクリーンショット３００のセットを示す図である。

【0048】

適応的なパラメータ調整は、クラスタ化アクション２１０の反復の間に採用され得る。上述のテンプレートは、クラスタ化されたサンプルを評価し、将来の反復のためにクラスタ化パラメータを調整するために使用され得る。ｋ番目のクラスタｃ_ｋ，に対応するテンプレートｔ_ｋに基づいてクラスタを評価するために、式３に基づいて、クラスタ内の非テンプレート要素に対するテンプレート要素の割合が測定される。

【数2】

このスコアにおいて、

【数3】

は、頻度の低い単語と位置の数である。このスコアは、スクリーンショットの内容が現在のクラスタ内のものとどの程度類似しているかを推定するかを与える。

【0049】

異なるアプリケーションのスクリーンショットは、理想的なクラスタ化ではテンプレートのスコアが異なることをもたらす。これは、要求されるクラスタ化の粒度がスクリーンショットによって異なることを意味する。したがって、テンプレートの分散スコア

【数4】

は、テンプレートスコアの平均値に基づいて増加または減少し得るクラスタの数の変更をトリガするために使用される。

【0050】

ロバストなクラスタを確保し、スケーラビリティを提案するために、クラスタ化アクション２１０においてランダムサンプリングが使用され得る。従来の粒子群最適化と同様のリサンプリング方法が使用される。すなわち、クラスタ化はデータセットの小さなランダムなサンプルに対して行われ、各反復において、重み付き再サンプリングは以前のサンプルのＲ％を選択し得、（１－Ｒ）％はメインのデータセットからランダムにサンプリングされる。多様なサンプルを奨励するために、サンプルがデータセットから抽出されるたびに、その重みは、半分に減らされ得るまたは繰り返しのサンプルを減らしてサンプルの多様性を高めるために他の量だけ減らされ得る。

【0051】

クラスタ化アクション２１０の各反復において、各クラスタに対してテンプレートが抽出される。そして、各サンプルは、テンプレート項目のいずれかが存在することを示すバイナリ特徴ベクトルとして表される。その後、ミニバッチｋ平均法を用いて、特徴ベクトルを用いたクラスタ化を行う。反復の最後、または所定の反復において、最終的なテンプレートセットを用いて、クラスタ化のためのスクリーンショットのスパース表現を生成する。

【0052】

このクラスタリングアクション２１０は、各アプリケーションのスクリーンショットに対して個別に遂行され、各アプリケーションのための様々な粒度に基づいてデータがクラスタ化される。シーケンス抽出２２０は、セマンティックアクション２１０の適切なクラスタ化に依存し得る。この粒子に基づくクラスタ化アプローチは、画面のスパース表現を学習し、データセット全体の小さなサブセットを処理してＯＣＲに基づく特徴を生成するなど、必要に応じてクラスタ化の粒度を調整する。

【0053】

クラスタ化アクション２１０から得られるクラスタラベルにサンプルを統一した後、シーケンス抽出２２０が実行され得る。最初に、データセットは、同じ画面上の結果的なイベントを破棄することによってクリーニングされる。この廃棄は、画面レベルのシーケンス抽出２２０に集中するのに役立つ。廃棄されたデータは、その後の詳細シーケンス抽出２２０で使用され得る。

【0054】

シーケンス２２０を抽出するために、前方リンク予測モジュールを利用して、各結果的イベントの間の関係が評価され得る。前方リンク予測モジュールは、各イベントを個別に検討し、時間的に先読みして、検討したイベントにリンクする将来のイベントを決定してもよい。その際、各イベントは、そのスクリーンショット、アクションクラスタ化２１０で収集されたＯＣＲ単語と位置、およびスクリーンショットのクラスタラベルとして表され得る。前方リンク予測モジュールは、スクリーンショットｓに対応するイベントのそれぞれにリンク予測法を適用する。そうするために、式４で定義されるように、次のｔ秒間に起こるイベントのリストがＥ（ｓ）として集められる。

【数5】

【0055】

Ｅ（ｓ）のイベントのいずれかがｅにリンクしているかどうかを推定するために、式５が使用される。

【数6】

式中、ｇ（τ）は平均がゼロのガウス関数で、τ＝時間（ｓ’）－時間（ｓ）である。式の分母は、２つの画面がリンクしていることを示す可能性のある、対応する画面の頻出部分ではない単語の同時出現に基づく。式５の使用は、クラスタのサンプルに対して正規化された頻度で測定された確率を提供する。

【0056】

アクションシーケンスのグラフが生成され得る。図４に示される結果としてのグラフ４００は、スクリーンレベルでのアクションシーケンスのフローを示す。グラフ４００は、エッジの重みに寄与したサンプルを追跡することにより、ユーザーが行う反復タスクの解釈に使用され得る。グラフでは、各ノード４１０は、アクションクラスタ化２１０で発見された画面タイプに対応する。グラフのエッジ４２０は、各イベントからアクションクラスタ化で識別されたそのリンクされたイベントに向けられる。各エッジ４２０は、対応するｐ（ｓ，ｓ’）の値として重み付けされる。

【0057】

図５は、ロボティックプロセスオートメーションワークフローを生成するために、スクリーンショットイメージを使用したシーケンス抽出のための方法５００を示す図である。方法５００は、ステップ５１０で、プロセッサを用いて、ユーザーがアプリケーション上で実行したステップの複数のスクリーンショットをキャプチャすることを含む。ステップ５２０で、方法は、スクリーンショットをメモリに格納することを含む。ステップ５３０で、方法５００は、アクションを任意の事前定義された数のクラスタにランダムにクラスタ化することにより、キャプチャされたスクリーンショットからアクションクラスタを決定することを含む。同じアクションの異なるバリエーションのスクリーンショットは、クラスタにラベル付けされ得る。ステップ５４０で、方法５００は、クラスタからシーケンスを抽出し、スクリーン上の結果イベントをクラスタから削除することを含む。ステップ５５０で、方法５００は、抽出されたシーケンスに基づいて、自動化されたワークフローを生成することを含む。

【0058】

本実施形態は、繰り返し実行されるユーザータスクを自動的に識別することによって時間を節約し、共有されるものに対する制御を保持し、そして効率を向上させる。

【0059】

特徴および要素は、特定の組み合わせで上に記載されているが、各特徴または要素は、単独で、または他の特徴および要素と任意の組み合わせで使用することができることが、当業者には理解されるであろう。さらに、本明細書に記載された方法は、コンピュータまたはプロセッサによって遂行されるために、コンピュータ読み取り可能な媒体に組み込まれたコンピュータプログラム、ソフトウェア、またはファームウェアに実装され得る。コンピュータ読み取り可能な媒体の例としては、電子信号（有線または無線接続を介して送信される）およびコンピュータ読み取り可能なストレージ媒体が挙げられる。コンピュータ読み取り可能なストレージ媒体の例としては、読み出し専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、レジスタ、キャッシュメモリ、半導体記憶デバイス、内蔵ハードディスクおよびリムーバブルディスクなどの磁気媒体、磁気光学媒体、ならびにＣＤ－ＲＯＭディスクおよびデジタル多目的ディスク（ＤＶＤ）などの光学媒体が挙げられるが、これらに限定されない。

【図1A】