(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-06-07
(54)【発明の名称】テキスト検出、キャレット追跡、及びアクティブ要素検出
(51)【国際特許分類】
G06V 30/14 20220101AFI20220531BHJP
G06T 7/174 20170101ALI20220531BHJP
【FI】
G06V30/14 340A
G06T7/174
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2020552803
(86)(22)【出願日】2020-08-20
(85)【翻訳文提出日】2020-12-16
(86)【国際出願番号】 US2020047271
(87)【国際公開番号】W WO2021221708
(87)【国際公開日】2021-11-04
(32)【優先日】2020-05-01
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】520262319
【氏名又は名称】ユーアイパス,インコーポレイテッド
【氏名又は名称原語表記】UiPath,Inc.
【住所又は居所原語表記】452 5th Avenue, 22nd Floor, New York,NY 10018,United States of America
(74)【代理人】
【識別番号】100180781
【氏名又は名称】安達 友和
(74)【代理人】
【識別番号】100182903
【氏名又は名称】福田 武慶
(72)【発明者】
【氏名】ヴァツラフ スカルダ
【テーマコード(参考)】
5B029
5L096
【Fターム(参考)】
5B029BB02
5B029CC25
5L096CA04
5L096FA02
5L096HA02
(57)【要約】
コンピューティングシステムのための、タイプ及び/又はペーストされたテキストの検出、キャレット追跡、及びアクティブ要素の検出が開示されている。コンピューティングシステムに関連付けられる画面上の、ユーザがテキストをタイプ又はペーストしている位置を識別することができ、テキストはホットキー又は可視の文字を表示させない他のキーを含む可能性があり、一又は複数の文字が表示された位置、カーソルが点滅していた位置、又はその両方の位置の現在の解像度に基づいて、タイプ又はペーストが行われた画面上の物理的位置を提供することができる。これは、変更が発生した画面上の位置を識別し、そのような位置でテキスト認識及び/又はキャレット検出を実行することで、行われてもよい。タイプ又はペーストするアクティビティの物理的な位置により、画面に表示されたアプリケーションにおけるアクティブ要素又はフォーカスされた要素の判断が可能になる。
【選択図】
図7
【特許請求の範囲】
【請求項1】
非一時的なコンピュータ読み取り可能な媒体に具現化された、タイプされたテキストの検出ロジックを含むコンピュータプログラムであって、
時間窓の間に発生したキー押下イベントを含むキーボード文字キューを生成することと、
現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を判断することと、
判断された前記一又は複数の領域における一又は複数の結合されたメンバを抽出し、抽出された前記一又は複数の結合されたメンバに対して光学式文字認識(OCR)を実行して、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方と、これらの各々の位置とを生成することと、
前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方を、前記キーボード文字キューと比較することと、
文字又は文字シーケンスが前記キーボード文字キューの文字又は文字シーケンスと適合する場合、前記キーボード文字キューから前記文字又は文字シーケンスを削除することと、
を少なくとも1つのプロセッサに実行させるように構成され、
前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含むことを特徴とするコンピュータプログラム。
【請求項2】
前記コンピュータプログラムは、
適合する前記文字又は文字シーケンスの位置を含む位置を有する前記現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定すること
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項3】
前記キーボードキューは、押下されたキーの文字と時間窓の間におけるキー押下イベントの各々についてキーが押された時とを含む先入れ先出し(FIFO)キューであることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項4】
前記キー押下イベントは、押されたキーと前記キー押下イベントが発生した時とに関連付けられる文字を含むことを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項5】
次のスクリーンショットフレームをフェッチすることと、
前記次のスクリーンショットフレームを現在のスクリーンショットとして使用し、前記現在のスクリーンショットフレームを以前のスクリーンショットフレームとして使用して、プロセスを繰り返すことと、
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項6】
複数のスクリーンショットフレームを含むスクリーンビデオを記録すること
を少なくとも1つのプロセッサにさらに実行させるように構成され、
前記スクリーンビデオは、前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームとを含むことを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項7】
前記スクリーンビデオの記録及び前記キーボード文字キューの生成は、前記現在のスクリーンショットフレームが前記以前のスクリーンショットフレームと異なる一又は複数の領域の判断、判断された前記一又は複数の領域における前記一又は複数の結合されたメンバの抽出、抽出された前記一又は複数の結合されたメンバに対するOCRの実行、及び前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方の比較を実行するコンピューティングシステムとは異なるコンピューティングシステムによって実行されることを特徴とする、請求項6に記載のコンピュータプログラム。
【請求項8】
前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームは非可逆形式に圧縮され、
前記現在のスクリーンショットフレームが前記以前のスクリーンショットフレームと異なる一又は複数の領域の判断は、前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームとの対応する領域に一又は複数の許容範囲を使用することを含むことを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項9】
前記現在のスクリーンショットフレームが前記以前のスクリーンショットフレームと異なる一又は複数の領域の判断、判断された前記一又は複数の領域における前記一又は複数の結合されたメンバの抽出、抽出された前記一又は複数の結合されたメンバに対するOCRの実行、及び前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方の比較は、ビデオ記録なしでリアルタイムで行われることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項10】
差異のある前記一又は複数の領域の判断のため前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームに加えて、追加の少なくとも1つのフレームが使用されることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項11】
OCRによって検出された文字シーケンスに自動修正アルゴリズムを適用して、自動修正された文字シーケンスを生成することと、
自動修正された前記文字シーケンスを使用して前記キーボード文字キューとの比較を実行することと、
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項12】
前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方とキーボード文字キューとの比較は、前記一又は複数の認識された文字と前記キーボード文字キュー内のキー押下イベントに関連付けられる文字との間のファジーマッチングを実行することを含むことを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項13】
前記現在のスクリーンショットフレームが前記以前のスクリーンショットフレームと異なる一又は複数の領域を分析し、分析に基づいて一又は複数のキャレットの候補を識別することと、
前記一又は複数のキャレットの候補のうちの1つのキャレットの候補が点滅していることを識別するために確認を実行することと、
前記確認に基づいてキャレットの位置を識別することと、
前記キャレットの前記位置を有する前記現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項14】
前記現在のスクリーンショットフレームとの間の1つの領域の変更のみ、又は、他の領域の全ての他の変更が、欠落している前記キーボードキュー内のキー押下イベントに関連付けられる文字以外の前記キーボードキュー内のキー押下イベントに関連付けられる文字に適合する場合に、前記コンピュータプログラムは、
適合する文字を含まない領域が前記キーボードキュー内の欠落している文字であると推測することと、
欠落している文字の領域の位置を有する前記現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項15】
キー押下イベントに関連付けられる文字が時間窓の間に別されなかった後、又は、キー押下イベントがキーボード文字キューに加えられて前記キーボード文字キューが固定サイズを超えることになる場合、前記キーボード文字キューから前記キー押下イベントを削除すること
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項16】
複数の現在のスクリーンショットフレームと複数の以前のスクリーンショットフレームの分析を、スクリーンショットのビデオ又は他のシーケンスが分析されるまで、繰り返すことと、
分析に基づいてコンピューティングシステムで実行される一又は複数のアプリケーションとのユーザの対話を再構築して、前記ユーザが実行している一又は複数のプロセスを判断することと、
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項17】
前記コンピュータプログラムは、ロボティックプロセスオートメーション(RPA)ロボットであることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項18】
前記現在のスクリーンショットフレーム、前記以前のスクリーンショットフレーム、又はこれら両方に、コンピュータビジョン(CV)アルゴリズムを適用することと、
前記CVアルゴリズムの適用からの結果に基づいて、認識されたグラフィック要素と対応する境界矩形のセットを提供することと
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項19】
現在のスクリーンショットと以前のスクリーンショットの間の変更が変更閾値に達する又は変更閾値を超える場合に、前記コンピュータプログラムは、
さらに処理を実行せずに、前記現在のスクリーンショットフレーム及び前記以前のスクリーンショットフレームを無視すること
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項20】
クリップボードコンテンツが存在するか否かを判断することと、
前記クリップボードコンテンツが存在し、前記クリップボードコンテンツが時間窓の間に加えられていた場合に、
前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方と、前記クリップボードコンテンツとを比較することと、
前記クリップボードコンテンツが前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方と適合する場合、前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方を含む位置を有する前記現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項21】
接続されている表示デバイスが新たなものである、又は、接続されている表示デバイスの解像度が変更された場合に、前記コンピュータプログラムは、
全ての接続された表示デバイスの解像度とスケールを取得することと、
キャプチャされるスクリーンショットフレームのスクリーンショット領域を、接続されている表示デバイスの全画面表示寸法にスケールを掛けて倍数に調整された値に設定することと、
設定された前記スクリーンショット領域、解像度、及びスケールに基づいて、前記現在のスクリーンショットフレーム及び前記以前のスクリーンショットフレームをキャプチャすることと、
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項22】
所定の領域数がサポートされ、
前記一又は複数の領域の数がサポートされた前記所定の領域数を超える場合、前記現在のスクリーンショットフレームは無視され、前記タイプされたテキストの検出ロジックは次のスクリーンショットフレームに進むことを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項23】
前記現在のスクリーンショットフレームのピクセルが所定の割合を超えて前記以前のスクリーンショットフレームと異なる場合、前記現在のスクリーンショットフレームは無視され、前記タイプされたテキストの検出ロジックは次のスクリーンショットフレームに進むことを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項24】
前記現在のスクリーンショットフレームが前記以前のスクリーンショットフレームと異なる一又は複数の領域の判断は、
前記現在のスクリーンショットフレーム及び前記以前のスクリーンショットフレームを所定の高さを有する横の行に分割することと、
前記現在のスクリーンショットフレーム及び前記以前のスクリーンショットフレームの各々からの対応する行を比較して、対応する行が同じであるか否かを判断することと、
前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームの間で同じでない行がある場合、この行を抽出し、この行を等しいサイズのブロックに分割することと、
前記現在のスクリーンショットフレーム及び前記以前のスクリーンショットフレームにおける対応するブロックの間に差異が存在するか否かを判断することと、
差異が存在するブロックを抽出することと、
を含むことを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項25】
領域におけるブロックの数が所定の数を超える場合、前記現在のスクリーンショットフレームは無視され、前記タイプされたテキストの検出ロジックは次のスクリーンショットフレームに進むことを特徴とする、請求項24に記載のコンピュータプログラム。
【請求項26】
領域におけるブロックの数が所定の数を超えない場合に、前記コンピュータプログラムは、
近接するブロックを結合することと、
近接するブロックの各セットの領域の境界矩形を判断することと、
各領域についてピクセルの変更を計算し、前記ピクセルの変更をバイナリ行列に投影することと、
各バイナリ行列における一又は複数の結合されたメンバについて結合されたメンバのバイナリ行列を判断することと、
各結合されたメンバのバイナリ行列をトリミングすることと、
各結合されたメンバのバイナリ行列について前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームとの間で変更された各ピクセルのピクセルデータを取得することと、
取得された前記ピクセルデータを使用してOCRを実行することと、
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項24に記載のコンピュータプログラム。
【請求項27】
キャレットであると判断される結合されたメンバについて、前記ピクセルデータは取得されず、OCRは実行されないことを特徴とする、請求項26に記載のコンピュータプログラム。
【請求項28】
画面の変更を生じさせるユーザとの対話を検出することと、
新たな現在のスクリーンショットフレームと新たな以前のスクリーンショットフレームとを比較する前に、所定の時間待機するか、所定の数のスクリーンショットフレームをスキップするか、又は前記新たな現在のスクリーンショットフレームと前記新たな以前のスクリーンショットフレームの間での画面の変更が所定の部分未満になるまで待機することと、
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項29】
適合する前記文字又は文字シーケンスを含む位置を有する現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、
前記キーボード文字キューを分析して、前記アクティブ要素との対話を生じさせる文字又は文字シーケンスを判断することと、
前記キーボード文字キューの分析と前記アクティブ要素とに基づいてアクションを分類することと、
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項30】
前記現在のスクリーンショットフレーム、前記以前のスクリーンショットフレーム、又はこれら両方にコンピュータビジョン(CV)アルゴリズムを実行することと、
前記現在のスクリーンショットフレーム、前記以前のスクリーンショットフレーム、又はこれら両方におけるグラフィック要素の種類及び位置を判断することと、
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項31】
ロボティックプロセスオートメーション(RPA)のためのタイプされたテキストの検出のコンピュータ実施方法であって、
RPAロボットによって、時間窓の間に発生したキー押下イベントを含むキーボード文字キューを生成することと、
前記RPAロボットによって、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を判断することと、
前記RPAロボットによって、判断された前記一又は複数の領域における一又は複数の結合されたメンバを抽出し、抽出された前記一又は複数の結合されたメンバに対して光学式文字認識(OCR)を実行して、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方と、これらの各々の位置とを生成することと、
前記RPAロボットによって、前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方を、前記キーボード文字キューと比較することと、
文字又は文字シーケンスが前記キーボード文字キューの文字又は文字シーケンスと適合する場合に、
前記RPAロボットによって、前記キーボード文字キューから前記文字又は文字シーケンスを削除することと、
前記RPAロボットによって、適合する前記文字又は文字シーケンスの位置を含む位置を有する前記現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、
を含み、
前記キー押下イベントは、押されたキーの文字とキーが押された時とを含み、
前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含むことを特徴とするコンピュータ実施方法。
【請求項32】
前記RPAロボットによって、前記現在のスクリーンショットフレームが前記以前のスクリーンショットフレームと異なる一又は複数の領域を分析し、分析に基づいて一又は複数のキャレットの候補を識別することと、
前記RPAロボットによって、前記一又は複数のキャレットの候補のうちの1つのキャレットの候補が点滅していることを識別するために確認を実行することと、
前記RPAロボットによって、前記確認に基づいてキャレットの位置を識別することと、
前記RPAロボットによって、前記キャレットの前記位置を有する前記現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、
をさらに含むことを特徴とする、請求項31に記載のコンピュータ実施方法。
【請求項33】
キー押下イベントに関連付けられる文字が時間窓の間に識別されなかった後、又は、キー押下イベントがキーボード文字キューに加えられて前記キーボード文字キューが固定サイズを超えることになる場合、前記RPAロボットによって、前記キーボード文字キューから前記キー押下イベントを削除すること
をさらに含むことを特徴とする、請求項31に記載のコンピュータ実施方法。
【請求項34】
現在のスクリーンショットと以前のスクリーンショットの間の変更が変更閾値に達する又は変更閾値を超える場合に、前記コンピュータ実施方法は、
前記RPAロボットによって、さらに処理を実行せずに、前記現在のスクリーンショットフレーム及び前記以前のスクリーンショットフレームを無視すること
をさらに含むことを特徴とする、請求項31に記載のコンピュータ実施方法。
【請求項35】
前記RPAロボットによって、クリップボードコンテンツが存在するか否かを判断することと、
前記クリップボードコンテンツが存在し、前記クリップボードコンテンツが時間窓の間に加えられていた場合に、
前記RPAロボットによって、前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方と、前記クリップボードコンテンツとを比較することと、
前記クリップボードコンテンツが前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方と適合する場合、前記RPAロボットによって、前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方を含む位置を有する前記現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、
をさらに含むことを特徴とする、請求項31に記載のコンピュータ実施方法。
【請求項36】
所定の領域数がサポートされ、
前記一又は複数の領域の数がサポートされた前記所定の領域数を超える場合、前記現在のスクリーンショットフレームは無視され、前記タイプされたテキストの検出ロジックは次のスクリーンショットフレームに進むことを特徴とする、請求項31に記載のコンピュータ実施方法。
【請求項37】
前記現在のスクリーンショットフレームが前記以前のスクリーンショットフレームと異なる一又は複数の領域の判断は、
前記現在のスクリーンショットフレーム及び前記以前のスクリーンショットフレームを所定の高さを有する横の行に分割することと、
前記現在のスクリーンショットフレーム及び前記以前のスクリーンショットフレームの各々からの対応する行を比較して、対応する行が同じであるか否かを判断することと、
前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームの間で同じでない行がある場合、この行を抽出し、この行を等しいサイズのブロックに分割することと、
前記現在のスクリーンショットフレーム及び前記以前のスクリーンショットフレームにおける対応するブロックの間に差異が存在するか否かを判断することと、
差異が存在するブロックを抽出することと、
を含むことを特徴とする、請求項31に記載のコンピュータ実施方法。
【請求項38】
領域におけるブロックの数が所定の数を超える場合に、前記現在のスクリーンショットフレームは無視され、前記タイプされたテキストの検出ロジックは次のスクリーンショットフレームに進み、
領域におけるブロックの数が所定の数を超えない場合に、前記コンピュータ実施方法は、
前記RPAロボットによって、近接するブロックを結合することと、
前記RPAロボットによって、近接するブロックの各セットの領域の境界矩形を判断することと、
前記RPAロボットによって、各領域についてピクセルの変更を計算し、前記ピクセルの変更をバイナリ行列に投影することと、
前記RPAロボットによって、各バイナリ行列における一又は複数の結合されたメンバについて結合されたメンバのバイナリ行列を判断することと、
前記RPAロボットによって、各結合されたメンバのバイナリ行列をトリミングすることと、
前記RPAロボットによって、各結合されたメンバのバイナリ行列について前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームとの間で変更された各ピクセルのピクセルデータを取得することと、
前記RPAロボットによって、取得された前記ピクセルデータを使用してOCRを実行することと、
をさらに含むことを特徴とする、請求項37に記載のコンピュータ実施方法。
【請求項39】
非一時的なコンピュータ読み取り可能な媒体に具現化されたコンピュータプログラムであって、
現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を判断することと、
判断された前記一又は複数の領域における一又は複数の結合されたメンバを抽出し、抽出された前記一又は複数の結合されたメンバに対して光学式文字認識(OCR)を実行して、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方と、これらの各々の位置とを生成することと、
前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方を、キーボード文字キューと比較することと、
文字又は文字シーケンスが前記キーボード文字キューの文字又は文字シーケンスと適合する場合に、
前記キーボード文字キューから前記文字又は文字シーケンスを削除することと、
適合する前記文字又は文字シーケンスの位置を含む位置を有する前記現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、
を少なくとも1つのプロセッサに実行させるように構成され、
前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含むことを特徴とするコンピュータプログラム。
【請求項40】
前記現在のスクリーンショットフレームが前記以前のスクリーンショットフレームと異なる一又は複数の領域を分析し、分析に基づいて一又は複数のキャレットの候補を識別することと、
前記一又は複数のキャレットの候補のうちの1つのキャレットの候補が点滅していることを識別するために確認を実行することと、
前記確認に基づいてキャレットの位置を識別することと、
前記キャレットの前記位置を有する前記現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項39に記載のコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2020年5月1日に出願された米国非仮特許出願番号16/864,629の利益を主張する。このより早く出願された出願の主題は、参照によりその全体が本明細書に組み込まれる。
【0002】
本発明は、概して、コンピューティングシステムの動作の検出、より詳細には、コンピューティングシステムのための、タイプ及び/又はペーストされたテキストの検出、キャレット追跡、及びアクティブ要素の検出に関する。
【背景技術】
【0003】
ユーザがコンピューティングシステムの入力デバイスと対話するとき、キー押下はキーのフックによって判断される場合があるが、ユーザが画面上でどの要素をタイプしているかが分からない場合がある。したがって、画面上のアクティブ要素が何であるかが分からない場合がある。よって、コンピューティングシステムとのユーザの対話を監視するための向上したアプローチが有益である可能性がある。
【発明の概要】
【0004】
本発明の特定の実施形態は、現在の検出技術によってまだ完全に識別、認識、又は解決されていない、当該技術分野における課題及び必要性に対する解決方法を提供する可能性がある。例えば、本発明の幾つかの実施形態は、コンピューティングシステムのための、タイプ及び/又はペーストされたテキストの検出、キャレット追跡、及びアクティブ要素の検出に関する。
【0005】
一実施形態において、タイプされたテキストの検出ロジックを含むコンピュータプログラムが、非一時的なコンピュータ読み取り可能な媒体に具現化される。該プロブラムは、時間窓の間に発生したキー押下イベントを含むキーボード文字キューを生成することと、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を判断することと、を少なくとも1つのプロセッサに実行させるように構成されている。現在のスクリーンショットフレームと以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含む。該プログラムはさらに、判断された一又は複数の領域における一又は複数の結合されたメンバを抽出し、抽出された一又は複数の結合されたメンバに対してOCRを実行して、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方と、これらの各々の位置とを生成することを少なくとも1つのプロセッサに実行させるように構成されている。該プログラムはさらに、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方を、キーボード文字キューと比較することと、文字又は文字シーケンスがキーボード文字キューの文字又は文字シーケンスと適合する場合、キーボード文字キューから該文字又は文字シーケンスを削除することと、を少なくとも1つのプロセッサに実行させるように構成されている。
【0006】
別の一実施形態において、ロボティックプロセスオートメーションのためのタイプされたテキストの検出のコンピュータ実施方法が、RPAロボットによって、時間窓の間に発生したキー押下イベントを含むキーボード文字キューを生成することを含む。キー押下イベントは、押されたキーの文字とキーが押された時とを含む。該コンピュータ実施方法はさらに、RPAロボットによって、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を判断することを含む。現在のスクリーンショットフレームと以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含む。該コンピュータ実施方法はさらに、RPAロボットによって、判断された一又は複数の領域における一又は複数の結合されたメンバを抽出し、抽出された一又は複数の結合されたメンバに対してOCRを実行して、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方と、これらの各々の位置とを生成することを含む。さらに、該コンピュータ実施方法は、RPAロボットによって、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方を、キーボード文字キューと比較することを含む。該コンピュータ実施方法は、文字又は文字シーケンスがキーボード文字キューの文字又は文字シーケンスと適合する場合に、RPAロボットによって、キーボード文字キューから該文字又は文字シーケンスを削除することと、RPAロボットによって、適合する文字又は文字シーケンスの位置を含む位置を有する現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、を含む。
【0007】
さらに別の一実施形態において、コンピュータプログラムが、非一時的なコンピュータ読み取り可能な媒体に具現化される。該プログラムは、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を判断することを少なくとも1つのプロセッサに実行させるように構成されている。現在のスクリーンショットフレームと以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含む。該プログラムはさらに、判断された一又は複数の領域における一又は複数の結合されたメンバを抽出し、抽出された一又は複数の結合されたメンバに対してOCRを実行して、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方と、これらの各々の位置とを生成することを少なくとも1つのプロセッサに実行させるように構成されている。該プログラムはさらに、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方を、キーボード文字キューと比較することを少なくとも1つのプロセッサに実行させるように構成されている。該プログラムは、文字又は文字シーケンスがキーボード文字キューの文字又は文字シーケンスと適合する場合に、キーボード文字キューから該文字又は文字シーケンスを削除することと、適合する文字又は文字シーケンスの位置を含む位置を有する現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、を少なくとも1つのプロセッサに実行させるように構成されている。
【0008】
さらに別の一実施形態において、キャレット追跡ロジックを含むコンピュータプログラムが、非一時的なコンピュータ読み取り可能な媒体に具現化される。該プログラムは、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を判断することを少なくとも1つのプロセッサに実行させるように構成されている。現在のスクリーンショットフレームと以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含む。該プログラムはさらに、一又は複数の領域についてピクセルの変更を計算することと、一又は複数の領域についてバイナリ行列に、計算されたピクセルの変更を投影することと、を少なくとも1つのプロセッサに実行させるように構成されている。該プログラムはさらに、各バイナリ行列について、点滅するキャレットの領域の候補を抽出し、バイナリ行列におけるメンバを結合することを少なくとも1つのプロセッサに実行させるように構成されている。さらに、該プログラムは、メンバから形状を抽出し、メンバの形状をキャレットの形状に対して確認することを少なくとも1つのプロセッサに実行させるように構成されている。
【0009】
さらに別の一実施形態において、コンピュータプログラムが、非一時的なコンピュータ読み取り可能な媒体に具現化される。該プログラムは、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を分析することを少なくとも1つのプロセッサに実行させるように構成されている。現在のスクリーンショットフレームと以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含む。該プログラムはさらに、分析に基づいて一又は複数のキャレットの候補を識別することと、一又は複数のキャレットの候補のうちの1つのキャレットの候補が点滅していることを識別するために確認を実行することと、を少なくとも1つのプロセッサに実行させるように構成されている。該プログラムはさらに、確認に基づいてキャレットの位置を識別することと、キャレットの位置を有する現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、を少なくとも1つのプロセッサに実行させるように構成されている。
【0010】
さらに別の一実施形態において、RPAのためのキャレット追跡を実行するコンピュータ実施方法が、RPAロボットによって、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を分析することを含む。現在のスクリーンショットフレームと以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含む。該コンピュータ実施方法はさらに、RPAロボットによって、分析に基づいて一又は複数のキャレットの候補を識別することと、RPAロボットによって、一又は複数のキャレットの候補のうちの1つのキャレットの候補が点滅していることを識別するために確認を実行することと、を含む。該コンピュータ実施方法はさらに、前記RPAロボットによって、確認に基づいてキャレットの位置を識別することと、RPAロボットによって、キャレットの位置を有する現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、を含む。
【0011】
別の一実施形態において、ペーストされたテキストの検出ロジックを含むコンピュータプログラムが、非一時的なコンピュータ読み取り可能な媒体に具現化される。該プログラムは、時間窓内にオペレーティングシステムのためのクリップボードにコンテンツが加えられたか否かを判断するためにクリップボードを監視することを少なくとも1つのプロセッサに実行させるように構成されている。時間窓内にクリップボードにコンテンツが加えられた場合に、該プログラムは、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を判断することと、判断された一又は複数の領域における一又は複数の結合されたメンバを抽出し、抽出された一又は複数の結合されたメンバに対してOCRを実行して、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方と、これらの各々の位置とを生成することと、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方を、クリップボードのコンテンツと比較することと、文字又は文字シーケンスがクリップボードのコンテンツの文字又は文字シーケンスと適合する場合、ペーストされたテキストの座標を取得し、ペーストされたテキストの座標を含むグラフィック要素をアクティブ要素として設定することと、を少なくとも1つのプロセッサに実行させるように構成され、現在のスクリーンショットフレームと以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含む。
【0012】
さらに別の一実施形態において、ペーストされたテキストの検出ロジックを含むコンピュータプログラムが、非一時的なコンピュータ読み取り可能な媒体に具現化される。該プログラムは、クリップボードコンテンツが存在するか否かを判断することを少なくとも1つのプロセッサに実行させるように構成されている。前記クリップボードコンテンツが存在し、クリップボードコンテンツが時間窓の間に加えられていた場合に、該プログラムは、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を判断することと、判断された一又は複数の領域における一又は複数の結合されたメンバを抽出し、抽出された一又は複数の結合されたメンバに対してOCRを実行して、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方と、これらの各々の位置とを生成することと、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方を、クリップボードコンテンツと比較することと、クリップボードコンテンツが一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方と適合する場合、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方を含む位置を有する現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、を少なくとも1つのプロセッサに実行させるように構成され、現在のスクリーンショットフレームと以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含む。
【0013】
さらに別の一実施形態において、クリップボードコンテンツが存在し、クリップボードコンテンツが時間窓の間に加えられていた場合の、ロボティックプロセスオートメーション(RPA)のためのペーストされたテキストの検出のコンピュータ実施方法が、RPAロボットによって、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を判断することを含む。現在のスクリーンショットフレームと以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含む。該コンピュータ実施方法はさらに、RPAロボットによって、判断された一又は複数の領域における一又は複数の結合されたメンバを抽出し、抽出された一又は複数の結合されたメンバに対してOCRを実行して、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方と、これらの各々の位置とを生成することを含む。該コンピュータ実施方法はさらに、RPAロボットによって、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方を、クリップボードコンテンツと比較することを含む。クリップボードコンテンツが一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方と適合する場合、該コンピュータ実施方法はさらに、RPAロボットによって、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方を含む位置を有する現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することを含む。
【0014】
別の一実施形態において、スクリーンショットフレームを前処理しアクティブ要素を検出するためのコンピュータプログラムが、非一時的なコンピュータ読み取り可能な媒体に具現化される。該プログラムは、以前のスクリーンショットフレームに対してコンピュータビジョン(CV)前処理を実行することを少なくとも1つのプロセッサに実行させるように構成されている。該コンピュータプログラムはさらに、以前のスクリーンショットフレームにおけるグラフィック要素の種類及び位置を判断することと、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる領域において発生した変更を判断することと、を少なくとも1つのプロセッサに実行させるように構成されている。該領域は、テキスト入力を許可する一又は複数のグラフィック要素の領域内に少なくとも部分的に含まれる。該プログラムはさらに、テキスト入力を許可する1つのグラフィック要素において変更が発生した場合、変更が発生したグラフィック要素をアクティブ要素として設定することを少なくとも1つのプロセッサに実行させるように構成されている。
【0015】
さらに別の一実施形態において、スクリーンショットフレームを前処理しアクティブ要素を検出するためのコンピュータプログラムが、非一時的なコンピュータ読み取り可能な媒体に具現化される。該プログラムは、以前のスクリーンショットフレームに対してCV前処理を実行することを少なくとも1つのプロセッサに実行させるように構成されている。該プログラムはさらに、前記以前のスクリーンショットフレームにおけるグラフィック要素の種類及び位置を判断することと、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる領域において発生した変更を判断することと、を少なくとも1つのプロセッサに実行させるように構成されている。該領域は、テキスト入力を許可する一又は複数のグラフィック要素の領域内に少なくとも部分的に含まれる。該プログラムは、テキスト入力を許可する1つのグラフィック要素において変更が発生した場合、変更が発生したグラフィック要素をアクティブ要素として設定することを少なくとも1つのプロセッサに実行させるように構成されている。該プログラムは、テキスト入力を許可する1つより多いグラフィック要素において変更が発生した場合、時間窓の間に発生したキー押下イベントのキーボード文字キューを生成することと、以前のスクリーンショットフレームと現在のスクリーンショットフレームの間で発生した、新たに加えられたキー押下イベントを判断することと、変更が発生した2つ又はそれ以上のグラフィック要素の領域に対してOCRを実行することと、変更が発生した2つ又はそれ以上のグラフィック要素のうち1つと新たに加えられたキー押下イベントを適合させることと、適合されたグラフィック要素をアクティブ要素として設定することと、を少なくとも1つのプロセッサに実行させるように構成されている。
【0016】
さらに別の一実施形態において、RPAのためのスクリーンショットフレームを前処理しアクティブ要素を検出するコンピュータ実施方法が、RPAロボットによって、以前のスクリーンショットフレームに対してCV前処理を実行することを含む。該コンピュータ実施方法はさらに、RPAロボットによって、以前のスクリーンショットフレームにおけるグラフィック要素の種類及び位置を判断することと、RPAロボットによって、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる領域において発生した変更を判断することと、を含む。該領域は、テキスト入力を許可する一又は複数のグラフィック要素の領域内に少なくとも部分的に含まれる。該コンピュータ実施方法はさらに、テキスト入力を許可する1つのグラフィック要素において変更が発生した場合、RPAロボットによって、変更が発生したグラフィック要素をアクティブ要素として設定することを含む。
【図面の簡単な説明】
【0017】
本発明の特定の実施形態の利点が容易に理解されるように、上記簡単に説明した本発明のより詳細な説明を、添付の図面に示す特定の実施形態を参照して行う。これらの図面は、本発明の典型的な実施形態のみを示すもので、その範囲を限定するものとみなされるべきではないことを理解されたい。本発明は、添付の図面の使用を通じて追加の特性及び詳細とともに記載され説明される。
【0018】
【
図1】本発明の一実施形態によるロボティックプロセスオートメーション(RPA)システムを示すアーキテクチャ図である。
【0019】
【
図2】本発明の一実施形態による、デプロイされたRPAシステムを示すアーキテクチャ図である。
【0020】
【
図3】本発明の一実施形態による、デザイナとアクティビティとドライバとの関係を示すアーキテクチャ図である。
【0021】
【
図4】本発明の一実施形態によるRPAシステムを示すアーキテクチャ図である。
【0022】
【
図5】本発明の一実施形態による、タイプ及び/又はペーストされたテキストの検出、キャレット追跡、及びアクティブ要素の検出を実行するように構成されたコンピューティングシステムを示すアーキテクチャ図である。
【0023】
【
図6】本発明の一実施形態による、タイプされたテキストの検出、キャレット追跡、及びアクティブ要素の検出を実行するための一般的なプロセスを示すアーキテクチャ図である。
【0024】
【
図7】本発明の一実施形態による、タイプされたテキストの検出及びキャレット追跡を実行するためのプロセスを示すアーキテクチャ図である。
【0025】
【
図8A】本発明の一実施形態による、それぞれフレームN-1及びフレームNの同窓生寄付ウィンドウを含むスクリーンショットの一部を示す。
【0026】
【
図8B】本発明の一実施形態による、四角形グリッドに分割されたスクリーンショットN-1を示す。
【0027】
【
図8C】本発明の一実施形態による、四角形グリッドに分割されたスクリーンショットNを示す。
【0028】
【
図8D】本発明の一実施形態による、スクリーンショットN-1からの変更を含む強調表示された行を有するスクリーンショットNを示す。
【0029】
【
図8E】本発明の一実施形態による、スクリーンショットN-1からの変更を含む強調表示された行における強調表示されたセルを有するスクリーンショットNを示す。
【0030】
【
図8F】本発明の一実施形態による、スクリーンショットN-1からの変更を含む強調表示された領域を有するスクリーンショットNを示す。
【0031】
【
図9】本発明の一実施形態による、変更に対応するために、解像度の変更を確認し、接続されているディスプレイの範囲の変更を確認し、キャレット追跡ビデオロジックを設定するプロセスを示すフローチャートである。
【0032】
【
図10】本発明の一実施形態による、ビデオレコーダのプロセスを示すフローチャートである。
【0033】
【
図11】本発明の一実施形態による、キャレット追跡を実行するプロセスを示すフローチャートである。
【0034】
【
図12】
図12A~
図12Dは、本発明の一実施形態による、タイプされた文字(キャラクタ)の追跡、キャレット追跡、及びアクティブ要素の検出のためのビデオ処理を実行するプロセスを示すフローチャートである。
【0035】
【
図13】
図13A及び
図13Bは、本発明の一実施形態による、ペーストされたテキストの追跡を実行するプロセスを示すフローチャートである。
【0036】
【
図14A】本発明の一実施形態による、32×32領域に結合された4つの16×16ブロックに含まれる文字「E」のバイナリ行列の一例を示す。
【0037】
【
図14B】本発明の一実施形態による、
図14Aの領域のバイナリ行列に含まれるメンバ(文字「E」)のトリミングされた7×9のバイナリ行列を示す。
【0038】
【
図15】本発明の一実施形態による、CV及びキーボードキューを使用してアクティブ要素を判断するプロセスを示すフローチャートである。
【0039】
【
図16】本発明の一実施形態による、タイプ及び/又はペーストされたテキストの検出、キャレット追跡、及びアクティブ要素の検出を実行するように構成されたシステムを示すアーキテクチャ図である。
【0040】
【
図17】本発明の一実施形態による、前処理、タイプされたテキストの検出、キャレット追跡、及びアクティブ要素の検出を実行するプロセスを示すフローチャートである。
【0041】
特に示さない限り、同様の符号は、添付の図面全体を通して一貫して対応する特徴を示す。
【発明を実施するための形態】
【0042】
幾つかの実施形態は、コンピューティングシステムのための、タイプ及び/又はペーストされたテキストの検出、キャレット追跡、及びアクティブ要素の検出に関する。幾つかの実施形態は、コンピューティングシステムに関連付けられる画面上のどこにユーザがテキストをタイプ又はペーストしているかを認識し、テキストはホットキー又は可視の文字を表示させない他のキーを含む可能性があり、一又は複数の文字が表示された位置、カーソルが点滅していた位置、又はその両方の位置の現在の解像度に基づいて、画面上の物理的位置を(例えば、座標で)提供する。タイプ又はペーストするアクティビティ及び/又はキャレットの物理的な位置により、ユーザがどのフィールドにタイプ又はフォーカスしているか及びプロセス発見又は他のアプリケーションのためのアプリケーションはどれかを判断してもよい。
【0043】
幾つかの実施形態は、現在のスクリーンショットを以前のスクリーンショットと継続的又は定期的に比較して変更を識別するフィードバックループプロセスで実装される。画面上で視覚的な変更が発生した位置を特定し、変更が発生した位置で光学式文字認識(OCR)を実行してもよい。次に、OCRの結果をキーボードキューの内容と比較して(例えば、キーフックによって判断されるとして)、適合が存在するか否かを判断してもよい。変更が発生した位置は、現在のスクリーンショットからのピクセルのボックスを以前のスクリーンショットの同じ位置におけるピクセルのボックスと比較することで判断されてもよい。
【0044】
特定の実施形態が、ロボティックプロセスオートメーション(RPA)に使用されてもよい。
図1は、本発明の一実施形態による、RPAシステム100を示すアーキテクチャ図である。RPAシステム100は、開発者がワークフローを設計及び実装することを可能にするデザイナ110を含む。デザイナ110は、アプリケーション統合、並びにサードパーティアプリケーション、管理情報技術(IT)タスク、及びビジネスITプロセスの自動化のためのソリューションを提供してもよい。デザイナ110は、ビジネスプロセスのグラフィック表現である自動化プロジェクトの開発を容易にしてもよい。簡単に言うと、デザイナ110はワークフロー及びロボットの開発とデプロイメントを容易にしてもよい。
【0045】
自動化プロジェクトは、開発者が、本明細書において「アクティビティ」として定義される、ワークフローで開発されたカスタムセットのステップ間の実行順序及び関係を制御できるようにすることで、ルールベースのプロセスの自動化を可能にする。デザイナ110の実施形態の1つの商業的な例は、UiPath Studio(商標)である。各アクティビティには、例えばボタンのクリック、ファイルの読み込み、ログパネルへの書き込みなどのアクションが含まれていてもよい。幾つかの実施形態において、ワークフローがネストされ又は埋め込まれてもよい。
【0046】
一部の種類のワークフローには、シーケンス、フローチャート、FSM、及び/又はグローバル例外ハンドラが含まれてもよいが、これらに限定されない。シーケンスは、線形プロセスに特に適している可能性があり、ワークフローを混乱させることなく、あるアクティビティから別のアクティビティへのフローを可能にする。フローチャートは、より複雑なビジネスロジックに特に適している可能性があり、複数の分岐論理演算子によって、より多様な方法で決定の統合及びアクティビティの接続を可能にする。FSMは、大規模なワークフローに特に適している可能性がある。FSMは、実行時に有限数の状態を使用してもよく、それらの状態は、条件(即ち、遷移)又はアクティビティによってトリガされる。グローバル例外ハンドラは、実行エラーが発生したときのワークフローの振る舞いを決定したり、プロセスをデバッグしたりするのに特に適している可能性がある。
【0047】
ワークフローがデザイナ110で開発されると、ビジネスプロセスの実行は、デザイナ110で開発されたワークフローを実行する一又は複数のロボット130を調整するコンダクタ120によって調整される。コンダクタ120の実施形態の1つの商用的な例は、UiPath Orchestrator(商標)である。コンダクタ120は、環境におけるリソースの作成、監視、及びデプロイメントの管理を容易にする。コンダクタ120は、サードパーティのソリューション及びアプリケーションとの統合ポイント又は集約ポイントの1つとして機能してもよい。
【0048】
コンダクタ120は、全てのロボット130を管理して、集中ポイントからロボット130を接続して実行してもよい。管理可能なロボット130の種類には、アテンディッド(操作要)ロボット132、アンアテンディッド(操作不要)ロボット134、開発ロボット(アンアテンディッドロボット134と同様であるが、開発及びテストの目的で使用される)、及び非生産ロボット(アテンディッドロボット132と同様であるが、開発及びテストの目的で使用される)が含まれるが、これらに限定されない。アテンディッドロボット132は、ユーザイベントによってトリガされ、同じコンピューティングシステム上で人間と一緒に動作する。アテンディッドロボット132は、集中プロセス展開及びロギング媒体のためにコンダクタ120と共に使用されてもよい。アテンディッドロボット132は、人間のユーザが様々なタスクを達成するのを助け、ユーザイベントによってトリガされてもよい。幾つかの実施形態において、プロセスは、この種のロボットのコンダクタ120から開始されることができず、且つ/又は、ロックされた画面の下で実行できない。特定の実施形態において、アテンディッドロボット132は、ロボットトレイから又はコマンドプロンプトから開始できるのみである。幾つかの実施形態において、アテンディッドロボット132は、人間の監督下で動作するべきである。
【0049】
アンアテンディッドロボット134は、仮想環境で操作不要で実行され、多くのプロセスを自動化できる。アンアテンディッドロボット134は、遠隔実行、監視、スケジューリング、及びワークキューのサポートの提供を担当してもよい。幾つかの実施形態において、全てのロボットの種類のデバッグをデザイナ110で実行してもよい。アテンディッドロボットとアンアテンディッドロボットの両方が、メインフレーム、ウェブアプリケーション、VM、エンタープライズアプリケーション(例えば、SAP(登録商標)、SalesForce(登録商標)、Oracle(登録商標)などによって生成されたもの)、及びコンピューティングシステムアプリケーション(例えば、デスクトップ及びラップトップアプリケーション、モバイルデバイスアプリケーション、ウェアラブルコンピュータアプリケーションなど)を含むがこれらに限定されない様々なシステム及びアプリケーションを自動化してもよい。
【0050】
コンダクタ120は、プロビジョニング、デプロイメント、バージョニング、コンフィギュレーション、キューイング、監視、ロギング、及び/又は相互接続性の提供を含むがこれらに限定されない様々な機能を有してもよい。プロビジョニングには、ロボット130とコンダクタ120(例えば、ウェブアプリケーションなど)の間の接続の作成及び保守が含まれてもよい。デプロイメントには、実行のために割り当てられたロボット130へのパッケージバージョンの正しい配信を保証することが含まれてもよい。バージョニングには、幾つかの実施形態において、あるプロセス又はコンフィギュレーションの固有のインスタンスの管理が含まれてもよい。コンフィギュレーションには、ロボット環境及びプロセスコンフィギュレーションの保守及び配信が含まれてもよい。キューイングには、キュー及びキューアイテムの管理の提供が含まれてもよい。監視には、ロボット識別データの追跡及びユーザ権限の維持が含まれてもよい。ロギングには、データベース(例えば、SQLデータベースなど)及び/又は他のストレージメカニズム(例えば、ElasticSearch(登録商標)など。これは、大規模なデータセットを記憶してすばやくクエリを実行する機能を提供する)へのログの記憶及びインデックス付けが含まれてもよい。コンダクタ120は、サードパーティのソリューション及び/又はアプリケーションのための通信の集中ポイントとして機能することで、相互接続性を提供してもよい。
【0051】
ロボット130は、デザイナ110に組み込まれたワークフローを実行する実行エージェントである。ロボット130の幾つかの実施形態のうち1つの商用的な例は、UiPath Robots(商標)である。幾つかの実施形態において、ロボット130は、デフォルトで、Microsoft Windows(登録商標)サービスコントロールマネージャー(SCM)が管理するサービスをインストールする。その結果、そのようなロボット130が、ローカルシステムアカウントでインタラクティブなWindows(登録商標)セッションを開き、Windows(登録商標)サービスの権限を有してもよい。
【0052】
幾つかの実施形態において、ロボット130は、ユーザモードでインストールされてもよい。そのようなロボット130の場合、これは、ユーザのもとでロボット130がインストールされて、そのユーザと同じ権利をロボット130が有することを意味する。この特徴は、高密度(HD)ロボットで利用可能であってもよく、各マシンの最大限の活用を確実にしてもよい。幾つかの実施形態において、任意の種類のロボット130が、HD環境で構成されてもよい。
【0053】
幾つかの実施形態におけるロボット130は、それぞれが特定の自動化タスク専用である幾つかのコンポーネントに分割される。幾つかの実施形態におけるロボットコンポーネントには、SCM管理のロボットサービス、ユーザモードのロボットサービス、エグゼキュータ、エージェント、及びコマンドラインが含まれるが、これらに限定されない。SCM管理のロボットサービスは、Windows(登録商標)セッションを管理、監視してコンダクタ120と実行ホスト(即ち、ロボット130が実行されるコンピューティングシステム)の間のプロキシとして機能する。このようなサービスは、ロボット130の資格情報を託され、これを管理する。コンソールアプリケーションは、ローカルシステムのもとでSCMによって起動される。
【0054】
幾つかの実施形態におけるユーザモードロボットサービスは、Windows(登録商標)セッションを管理、監視し、コンダクタ120と実行ホストの間のプロキシとして機能する。ユーザモードロボットサービスは、ロボット130の資格情報を託され、これを管理してもよい。SCM管理のロボットサービスがインストールされていない場合、Windows(登録商標)アプリケーションが自動的に起動されてもよい。
【0055】
エグゼキュータは、Windows(登録商標)セッションのもとで所定のジョブを実行してもよい(即ち、エグゼキュータはワークフローを実行してもよい。エグゼキュータは、モニタ毎のドット/インチ(DPI)設定を認識していてもよい。エージェントは、システムトレイウィンドウで利用可能なジョブを表示するWindows(登録商標)Presentation Foundation(WPF)アプリケーションであってもよい。エージェントはこのサービスのクライアントであってもよい。エージェントは、ジョブの開始又は停止を要求し、設定を変更してもよい。コマンドラインはそのサービスのクライアントであってもよい。コマンドラインは、ジョブの開始を要求可能なコンソールアプリケーションであり、その出力を待つ。
【0056】
上記で説明したようにロボット130のコンポーネントを分割することにより、開発者、サポートユーザ、及びコンピューティングシステムが、各コンポーネントの実行内容の実行、識別、及び追跡をより容易に行うことができる。このように、例えばエグゼキュータとサービスに異なるファイアウォールルールを設定するなど、コンポーネント毎に特別な振る舞いが構成されてもよい。幾つかの実施形態において、エグゼキュータは、モニタ毎のDPI設定を常に認識していてもよい。その結果、ワークフローが作成されたコンピューティングシステムの構成に関わらず、ワークフローが任意のDPIで実行されてもよい。幾つかの実施形態において、デザイナ110からのプロジェクトは、ブラウザのズームレベルから独立していてもよい。DPIを認識しない又は意図的に認識しないとマークされているアプリケーションの場合、幾つかの実施形態においてDPIが無効にされてもよい。
【0057】
図2は、本発明の一実施形態による、デプロイされたRPAシステム200を示すアーキテクチャ図である。幾つかの実施形態において、RPAシステム200は、
図1のRPAシステム100であってもよいし、その一部であってもよい。クライアント側、サーバ側、又はこれらの両方が、本発明の範囲から逸脱することなく、任意の所望の数のコンピューティングシステムを含んでもよいことに留意されたい。クライアント側では、ロボットアプリケーション210が、エグゼキュータ212、エージェント214、及びデザイナ216を含む。しかし、幾つかの実施形態において、デザイナ216はコンピューティングシステム210で実行されていなくてもよい。エグゼキュータ212はプロセスを実行する。
図2に示すように、複数のビジネスプロジェクトが同時に実行されてもよい。このような実施形態において、エージェント214(例えば、Windows(登録商標)サービスなど)は、全てのエグゼキュータ212の単一の接続ポイントである。このような実施形態における全てのメッセージは、さらにデータベースサーバ240、インデクササーバ250、又はこれらの両方を介して、それらのメッセージを処理するコンダクタ230にログインされる。
図1に関して上記で説明したように、エグゼキュータ212はロボットコンポーネントであってもよい。
【0058】
幾つかの実施形態において、ロボットは、マシン名とユーザ名の間の関連付けを表す。ロボットは同時に複数のエグゼキュータを管理してもよい。同時に実行されている複数の対話型セッションをサポートするコンピューティングシステム(例えば、Windows(登録商標)Server 2012など)では、複数のロボットが同時に実行され、それぞれが一意のユーザ名を使用する個別のWindows(登録商標)セッションで実行されてもよい。これを上記のHDロボットという。
【0059】
エージェント214はまた、ロボットのステータスを送り(例えば、ロボットがまだ機能していることを示す「ハートビート」メッセージを定期的に送り)、実行されるパッケージの必要なバージョンをダウンロードすることも担当する。幾つかの実施形態において、エージェント214とコンダクタ230の間の通信は、常にエージェント214によって開始される。通知シナリオにおいて、エージェント214は、コンダクタ230によって後で使用されるWebSocketチャネルを開き、ロボットにコマンド(例えば、開始、停止など)を送ってもよい。
【0060】
サーバ側では、プレゼンテーション層(ウェブアプリケーション232、Open Data Protocol(OData)Representative State Transfer(REST)Application Programming Interface(API)エンドポイント234、通知監視236)、サービス層(API実装/ビジネスロジック238)、及び永続層(データベースサーバ240及びインデクササーバ250)が含まれる。コンダクタ230には、ウェブアプリケーション232、OData REST APIエンドポイント234、通知監視236、及びAPI実装/ビジネスロジック238が含まれる。幾つかの実施形態において、コンダクタ230のインタフェースで(例えば、ブラウザ220を介して)ユーザが実行する殆どのアクションが、様々なAPIを呼び出すことで実行される。このようなアクションには、本発明の範囲から逸脱することなく、ロボットでのジョブの開始、キュー内のデータの追加/削除、操作不要で実行するジョブのスケジューリングなどが含まれてもよいが、これらに限定されない。ウェブアプリケーション232は、サーバプラットフォームのビジュアル層である。このような実施形態において、ウェブアプリケーション232は、ハイパーテキストマークアップ言語(HTML)及びJavaScript(JS)を使用する。しかし、本発明の範囲から逸脱することなく、任意の所望のマークアップ言語、スクリプト言語、又は任意の他のフォーマットが使用されてもよい。このような実施形態において、ユーザは、コンダクタ230を制御するための様々なアクションを実行するため、ブラウザ220を介してウェブアプリケーション232からウェブページと対話する。例えば、ユーザは、ロボットグループを作成し、ロボットにパッケージを割り当て、ロボット毎に且つ/又はプロセス毎にログを分析し、ロボットを起動、停止させるなどしてもよい。
【0061】
ウェブアプリケーション232に加えて、コンダクタ230には、OData REST APIエンドポイント234を公開するサービス層も含まれる。しかし、本発明の範囲から逸脱することなく、他のエンドポイントが含まれてもよい。REST APIは、ウェブアプリケーション232とエージェント214の両方によって使用される。このような実施形態において、エージェント214は、クライアントコンピュータ上の一又は複数のロボットのスーパーバイザである。
【0062】
このような実施形態におけるREST APIは、コンフィギュレーション、ロギング、監視、及びキューイングの機能をカバーする。幾つかの実施形態において、コンフィギュレーションエンドポイントが使用されて、アプリケーションユーザ、権限、ロボット、アセット、リリース、及び環境を定義、構成してもよい。ロギングRESTエンドポイントが使用されて、例えばエラー、ロボットによって送られた明示的なメッセージ、その他の環境固有の情報など、様々な情報をログに記録してもよい。デプロイメントRESTエンドポイントがロボットによって使用されて、コンダクタ230でジョブ開始コマンドが使用される場合に実行する必要があるパッケージバージョンをクエリしてもよい。キューイングRESTエンドポイントは、例えばキューへのデータの追加、キューからのトランザクションの取得、トランザクションのステータスの設定など、キュー及びキューアイテムの管理を担当してもよい。
【0063】
監視RESTエンドポイントは、ウェブアプリケーション232及びエージェント214を監視してもよい。通知監視API236は、エージェント214の登録、エージェント214へのコンフィギュレーション設定の配信、並びにサーバ及びエージェント214からの通知の送受信に使用されるRESTエンドポイントであってもよい。幾つかの実施形態において、通知監視API236はまた、WebSocket通信を使用してもよい。
【0064】
永続層は、この実施形態では一対のサーバ、つまり、データベースサーバ240(例えば、SQLサーバなど)及びインデクササーバ250を含む。この実施形態のデータベースサーバ240は、ロボット、ロボットグループ、関連プロセス、ユーザ、ロール、スケジュールなどのコンフィギュレーションを記憶する。このような情報は、幾つかの実施形態において、ウェブアプリケーション232を介して管理される。データベースサーバ240は、キュー及びキューアイテムを管理してもよい。幾つかの実施形態において、データベースサーバ240は、(インデクササーバ250に加えて又はその代わりに)ロボットによってログに記録されたメッセージを記憶してもよい。
【0065】
幾つかの実施形態において任意であるインデクササーバ250は、ロボットによってログに記録された情報を記憶し、インデックスを付ける。特定の実施形態において、インデクササーバ250は、コンフィギュレーション設定を通じて無効にされてもよい。幾つかの実施形態において、インデクササーバ250は、オープンソースプロジェクトの全文検索エンジンであるElasticSearch(登録商標)を使用する。ロボットによって(例えば、ログメッセージ、行書き込みなどのアクティビティを使用して)ログに記録されたメッセージは、ロギングRESTエンドポイントを介してインデクササーバ250に送られてもよく、そこで将来の利用のためにインデックスが付けられてもよい。
【0066】
図3は、本発明の一実施形態による、デザイナ310とアクティビティ320、330とドライバ340との間の関係300を示すアーキテクチャ図である。上記のとおり、開発者は、デザイナ310を使用して、ロボットによって実行されるワークフローを開発する。ワークフローは、ユーザ定義のアクティビティ320とUI自動化アクティビティ330を含んでもよい。幾つかの実施形態は、本明細書においてコンピュータビジョン(CV)という、画像における非テキストのビジュアルコンポーネントを識別することができる。そのようなコンポーネントに関連する一部のCVアクティビティには、クリック(click)、タイプ(type)、テキストを取得(get text)、ホバー(hover)、要素の有無を検出(element exists)、スコープの更新(refresh scope)、ハイライト(highlight)などが含まれてもよいが、これらに限定されない。幾つかの実施形態において、クリック(click)は、例えば、CV、光学式文字認識(OCR)、ファジーテキストマッチング、複数のアンカーを使用して要素を識別し、クリックする。タイプ(type)は、上記を使用して要素を識別してもよく、要素内でタイプする。テキストを取得(get text)は、特定のテキストの位置を識別し、OCRを使用してスキャンしてもよい。ホバー(hover)は、要素を識別し、その上にホバーしてもよい。要素の有無を検出(element exists)は、上記の技術を使用して、要素が画面上に存在するか否かを確認してもよい。幾つかの実施形態において、デザイナ310で実装可能な数百又は数千ものアクティビティがあってもよい。しかし、本発明の範囲から逸脱することなく、任意の数及び/又は種類のアクティビティが利用可能であってもよい。
【0067】
UI自動化アクティビティ330は、低レベルのコードで書かれた特別な低レベルのアクティビティ(例えば、CVアクティビティなど)のサブセットであり、画面との対話を容易にする。UI自動化アクティビティ330は、ロボットが所望のソフトウェアと対話することを可能にするドライバ340を介して、このような対話を容易にする。例えば、ドライバ340は、OSドライバ342、ブラウザドライバ344、VMドライバ346、エンタープライズアプリケーションドライバ348などを含んでもよい。
【0068】
ドライバ340は、低レベルでOSと対話して、フックを探したりキーを監視したりするなどしてもよい。ドライバ340は、Chrome(登録商標)、IE(登録商標)、Citrix(登録商標)、SAP(登録商標)などとの統合を容易にしてもよい。例えば、「クリック」アクティビティは、ドライバ340を介してそのような異なるアプリケーションで同じ役割を果たす。
【0069】
図4は、本発明の一実施形態によるRPAシステム400を示すアーキテクチャ図である。幾つかの実施形態において、RPAシステム400は、
図1及び/又は
図2のRPAシステム100及び/又は200であってもよいし、それを含んでもよい。RPAシステム400は、ロボットを実行する複数のクライアントコンピューティングシステム410を含む。コンピューティングシステム410は、そこで実行されるウェブアプリケーションを介してコンダクタコンピューティングシステム420と通信可能である。次に、コンダクタコンピューティングシステム420は、データベースサーバ430及び任意のインデクササーバ440と通信可能である。
【0070】
図1及び
図3に関して、これらの実施形態においてウェブアプリケーションが使用されているが、本発明の範囲から逸脱することなく、任意の適切なクライアント/サーバソフトウェアが使用されてもよいことに留意されたい。例えば、コンダクタは、クライアントコンピューティングシステム上の非ウェブベースのクライアントソフトウェアアプリケーションと通信するサーバ側アプリケーションを実行してもよい。
【0071】
図5は、本発明の一実施形態による、タイプ及び/又はペーストされたテキストの検出、キャレット追跡、及びアクティブ要素の検出を実行するように構成されたコンピューティングシステム500を示すアーキテクチャ図である。幾つかの実施形態において、コンピューティングシステム500は、本出願において図示及び/又は説明される一又は複数のコンピューティングシステムであってもよい。コンピューティングシステム500は、情報を通信するためのバス505又は他の通信メカニズムと、情報を処理するためにバス505に接続されたプロセッサ510とを含む。プロセッサ510は、中央処理装置(CPU)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、グラフィックスプロセッシングユニット(GPU)、それらの複数の例、及び/又はそれらのうちの任意の組み合わせを含む、任意の種類の汎用又は特定用途のプロセッサであってもよい。プロセッサ510はまた、複数の処理コアを有してもよく、コアの少なくとも一部が、特定の機能を実行するように構成されてもよい。幾つかの実施形態において、複数並列処理を使用されてもよい。特定の実施形態において、少なくとも1つのプロセッサ510が、生体ニューロンを模倣する処理要素を含むニューロモーフィック回路であってもよい。幾つかの実施形態において、ニューロモーフィック回路は、フォンノイマンコンピューティングアーキテクチャの典型的なコンポーネントを必要としなくてもよい。
【0072】
コンピューティングシステム500は、プロセッサ510によって実行される情報及び命令を記憶するためのメモリ515をさらに含む。メモリ515は、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、フラッシュメモリ、キャッシュ、例えば磁気若しくは光ディスクなどの静的記憶装置、又は任意の他の種類の非一時的なコンピュータ読み取り可能な媒体、又はこれらのうちの組み合わせのうちの任意の組み合わせから構成されてもよい。非一時的なコンピュータ読み取り可能な媒体は、プロセッサ510によってアクセス可能な任意の利用可能な媒体であってもよく、揮発性媒体、不揮発性媒体、又はその両方を含んでもよい。媒体は、取り外し可能、取り外し不可能、又はその両方であってもよい。
【0073】
さらに、コンピューティングシステム500は、無線及び/又は有線接続を介して通信ネットワークへのアクセスを提供するために、例えばトランシーバなどの通信デバイス520を含む。幾つかの実施形態において、通信デバイス520は、本発明の範囲から逸脱することなく、周波数分割多元接続(FDMA)、シングルキャリアFDMA(SC-FDMA)、時分割多元接続(TDMA)、符号分割多元接続(CDMA)、直交周波数分割多重方式(OFDM)、直交周波数分割多元接続(OFDMA)、移動体用グローバルシステム(GSM)通信、汎用パケット無線サービス(GPRS)、ユニバーサル移動体通信システム(UMTS)、cdma2000、広帯域CDMA(W-CDMA)、高速ダウンリンクパケットアクセス(HSDPA)、高速アップリンクパケットアクセス(HSUPA)、高速パケットアクセス(HSPA)、Long Term Evolution(LTE)、LTEアドバンスト(LTE-A)、802.11x、Wi-Fi、Zigbee、超広帯域無線(UWB)、802.16x、802.15、Home Node-B(HnB)、Bluetooth、Radio Frequency Identification(RFID)、Infrared Data Association(IrDA)、Near-Field Communications(NFC)、第5世代(5G)、New Radio(NR)、これらのうちの任意の組み合わせ、及び/又は任意の他の現在存在する又は将来実施される通信規格及び/又はプロトコルを使用するように構成されてもよい。幾つかの実施形態において、通信デバイス520は、本発明の範囲から逸脱することなく、単一、アレイ、フェーズド、スイッチド、ビームフォーミング、ビームステアリング、これらのうちの組み合わせ、及び/又は任意の他のアンテナ構成である一又は複数のアンテナを含んでもよい。
【0074】
プロセッサ510は、バス505を介して、例えばプラズマディスプレイ、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、電界放出ディスプレイ(FED)、有機発光ダイオード(OLED)ディスプレイ、フレキシブルOLEDディスプレイ、フレキシブル基板ディスプレイ、プロジェクションディスプレイ、4Kディスプレイ、高精細ディスプレイ、Retina(登録商標)ディスプレイ、インプレーンスイッチング(IPS)ディスプレイ、又はユーザに情報を表示するための任意の他の適切なディスプレイなどのディスプレイ525にさらに接続される。ディスプレイ525は、抵抗性、容量性、表面弾性波(SAW)容量性、赤外線、光学イメージング、分散信号技術、音響パルス認識、フラストレート全内部反射などを使用して、タッチ(触覚)ディスプレイ、3次元(3D)タッチディスプレイ、マルチ入力タッチディスプレイ、マルチタッチディスプレイなどとして構成されてもよい。任意の適切な表示デバイス及び触覚I/Oが、本発明の範囲から逸脱することなく、使用されてもよい。
【0075】
キーボード530と、例えばコンピュータマウス、タッチパッドなどのようなカーソル制御デバイス535とが、さらにバス505に接続されて、ユーザがコンピューティングシステム500とインタフェースをとることを可能にする。しかし、特定の実施形態において、物理的なキーボード及びマウスが存在しなくてもよく、ユーザは、ディスプレイ525及び/又はタッチパッド(図示略)を介してのみデバイスと対話してもよい。入力デバイスの任意の種類及び組み合わせが、設計上の選択事項として使用されてもよい。特定の実施形態において、物理的な入力デバイス及び/又はディスプレイが存在しない。例えば、ユーザは、コンピューティングシステム500と通信する別のコンピューティングシステムを介してリモートでコンピューティングシステム500と対話してもよく、或いは、コンピューティングシステム500は自律的に動作してもよい。
【0076】
メモリ515は、プロセッサ510によって実行されると機能を提供するソフトウェアモジュールを記憶する。該モジュールは、コンピューティングシステム500用のオペレーティングシステム540を含む。モジュールは、本明細書に記載されているプロセス又はその派生のプロセスの全て又は一部を実行するように構成されるビデオ処理モジュール545をさらに含む。コンピューティングシステム500は、追加の機能を含む一又は複数の追加の機能モジュール550を含んでもよい。
【0077】
当業者は、「システム」が、本発明の範囲から逸脱することなく、サーバ、組込みコンピューティングシステム、パーソナルコンピュータ、コンソール、パーソナルデジタルアシスタント(PDA)、携帯電話、タブレットコンピューティングデバイス、量子コンピューティングシステム、任意の他の適切なコンピューティングデバイス、又はデバイスの組み合わせとして具現化され得ることを理解するであろう。上記の機能を「システム」によって実行されるものとして示すことは、決して本発明の範囲を限定することを意図するものではなく、本発明の多くの実施形態の一例を示すことを意図する。実際、本明細書において開示される方法、システム、及び装置は、クラウドコンピューティングシステムを含むコンピューティング技術と整合するローカライズされ分散された形式で実装されてもよい。
【0078】
本明細書に記載されているシステム機能の一部は、実装の独立性をより強調するため、モジュールとして示されていることに留意されたい。例えば、モジュールは、カスタムの超大規模集積(VLSI)回路又はゲートアレイを含むハードウェア回路、ロジックチップ、トランジスタ、又は他のディスクリートコンポーネントなどの既製の半導体として実装されてもよい。モジュールは、例えばフィールドプログラマブルゲートアレイ、プログラマブルアレイロジック、プログラマブルロジックデバイス、グラフィックスプロセッシングユニットなどのプログラマブルハードウェアデバイスに実装されてもよい。
【0079】
モジュールは、様々な種類のプロセッサによる実行のため、ソフトウェアで少なくとも部分的に実装されてもよい。例えば、実行可能コードの識別されたユニットは、例えばオブジェクト、手順、又は機能として構成され得るコンピュータ命令の一又は複数の物理ブロック又は論理ブロックを含んでもよい。これにも関わらず、識別されたモジュールの実行可能ファイルは物理的に一緒に配置される必要はないが、論理的に結合されるとモジュールを含んでモジュールの上記目的を達成するような様々な場所に記憶された異種の命令を含んでもよい。さらに、モジュールは、本発明の範囲から逸脱することなく、コンピュータ読み取り可能な媒体に記憶されてもよく、コンピュータ読み取り可能な媒体は、例えば、ハードディスクドライブ、フラッシュデバイス、RAM、テープ、及び/又はデータを記憶するために使用される他のそのような非一時的なコンピュータ読み取り可能な媒体であってもよい。
【0080】
実際、実行可能コードのモジュールは、単一の命令であっても多数の命令であってもよく、異なるプログラム間で複数の異なるコードセグメントにわたり、複数のメモリデバイスにわたって分散されてもよい。同様に、動作データが、識別されて、本明細書においてモジュール内に示されてもよく、任意の適切な形式で具体化され、任意の適切な種類のデータ構造内で構成されてもよい。動作データは、単一のデータセットとしてまとめられてもよく、或いは、異なるストレージデバイスを含む異なる場所に分散されてもよく、少なくとも部分的に、単にシステム又はネットワーク上の電子信号として存在してもよい。
【0081】
図6は、本発明の一実施形態による、タイプされたテキストの検出、キャレット追跡、及びアクティブ要素の検出を実行するための一般的なプロセス600を示すアーキテクチャ図である。キーボード記録610とスクリーンビデオ記録620はそれぞれ、押されたキーとグラフィック変更が発生した画面上の位置とを判断するために実行される。幾つかの実施形態において、テキストのペーストが監視されてもよい。例えば、
図13A及び
図13Bを参照されたい。キーボード記録610は、オペレーティングシステムからのキー押下イベントを監視することによって実行されてもよい。例えば、Windows(登録商標)では、これは、user32.dllメソッド「SetWindowsHookEx」を介して低レベルのキーボードフック(WH_KEYBOARD_LL=13)を登録することによって予め定義された低レベルのフックデリゲートであってもよい。しかし、本発明の範囲から逸脱することなく、任意のプログラミング言語及び任意のオペレーティングシステム(例えば、モバイル、PC、Macなど)のキー押下情報を提供する任意のキー押下イベント又は機能が使用されてもよい。幾つかの実施形態において、キー押下は、ハードウェアを介して検出されてもよい。例えば、ユニバーサルシリアルバス(USB)デバイスが、コンピューティングシステムと外部キーボードの間に配置されてもよい。追加的又は代替的に、特定の実施形態において、ビデオキャプチャ及び処理がハードウェアを介して実行されてもよい。そのような実施形態において、第1のデバイスがビデオをキャプチャしてもよく、第2のデバイスがキー押下をキャプチャしてもよく、第3のデバイス(例えば、コンピューティングシステムなど)がビデオ及びキー押下を処理してもよい。
【0082】
キー押下イベントは、どの文字が押されたキーに関連付けられているかに関する情報(例えば、文字「a」、数字「2」、「%」記号など)、キー押下イベントが発生した時などを含んでもよい。キーの文字のキュー(例えば、先入れ先出し(FIFO)キューなど)が、キーが押された時と対応する文字が画面に表示される時との間の遅延を考慮して、時間窓(例えば、500ミリ秒(ms)、1秒など)の間格納されてもよい。時間窓は通常、ユーザがキーを押す時とキーが画面に表示される時の間の通常の時間遅延よりも長い(例えば、50ミリ秒の文字表示遅延と500ミリ秒のバッファウィンドウなど)。
【0083】
キューは、画面に一度に表示される複数の文字をキャプチャする目的にも役立つ。例えば、ユーザが「abc」を素早く連続して(例えば、15ミリ秒以内に)押しても、1秒あたり25フレームのみキャプチャされる場合(即ち、40ミリ秒毎に1フレーム)、次のスクリーンショットで、テキスト「abc」が一度に表示されてもよい。キューに「a」、「b」、「c」を含めることにより、テキスト認識がこれらの文字及び/又はシーケンスを検出したときに、アルゴリズムがこれらの文字及び/又はそれらのシーケンスをそれぞれ検索してもよい。例えば、幾つかの実施形態において、ユーザによるタイプ「abc」、「ab」が次のフレームに現れる場合、キー押下キュー内の順序は、画面上に表示されるものと同じであると想定してもよい。
【0084】
スクリーンビデオ記録620は、本発明の範囲から逸脱することなく、任意の適切なハードウェア、ソフトウェア、又はそれらの任意の組み合わせによって実行されてもよい。例えば、ビデオ記録は、外部ビデオカメラ、内部グラフィックカード、(接続されたコンピューティングシステムを介して又は介さずに)ディスプレイからのビデオストリームを監視するリモートコンピューティングシステムなどによって実行されてもよい。記録されたスクリーンショットは、ピクセルが完全であるか否かに関係なく、任意の所望の形式(JPEG、BMP、PNGなど)で任意の場所に記憶されてもよい。
【0085】
一実装において、スクリーンショットは、Format16bppRgb555形式の16ビット色深度でBitmapDataとして記憶される。スクリーンショットを非可逆形式に圧縮することにより、一又は複数のピクセルを変更すると、(例えば、JPEG形式などにおける)圧縮アーティファクトの存在により、一部の形式で画像全体に伝播されるカラーマップが変更されたり、色深度に影響したり、全体の詳細が減少/シフトしたり、画像のピクセルに影響したりするため、精度が低下する場合がある。これに対応するために、許容範囲(トレランス)が使用されてもよい。スクリーンビデオ記録620は、特定のフレームレートでフレームを生成し、フレームレートは、コンピューティングシステムの現在の処理負荷に応じて変えてもよい(例えば、毎秒30フレームなど)。
【0086】
次に、630で、現在のスクリーンショットフレームと直前のフレームを互いに比較してそれらの間の差異を判断し、その中の文字を判断する。しかし、特定の実施形態において、精度をさらに高めるために、複数のフレームが使用されてもよい。例えば、文字がタイプされる時と文字が画面に表示される時の間に様々な非同期がある場合(例えば、30ミリ秒から、42ミリ秒まで、24ミリ秒まで変化するなど)、複数のフレームを使用すると、タイプされたテキストの識別に役立つ場合がある。これにより、1文字又は数文字よりもむしろ単語全体を含む可能性のある、より広い抽出領域にOCRを適用可能であってもよい。一部のOCRエンジンは、文字よりも単語を認識するように調整されている。OCRの結果に自動修正を適用することにより、個々の文字にのみOCRを適用するときに発生する可能性のある不正確さが排除されてもよい。例えば、自動修正アルゴリズムが、OCRされた単語「slpck」がキーボードキューで発見される「slack」であるべきと判断してもよい。
【0087】
次に、視覚的な変更の位置が分離され、変更が発生した位置に対してアルゴリズムが実行されて文字を認識してもよい。このアルゴリズムは、OCR、特定のフォントの文字のブール配列マップに対するピクセル領域の比較などを使用してもよい。幾つかの実施形態において、文字認識は、発生した変更が分離され分析された比較的小さな領域に対してのみ実行され、残りの領域は破棄される。これは、画面全体(例えば、3840×2160ピクセルの解像度など)に対してOCRを実行すると、文字が表示される速度にコンピューティングシステムが遅れずについていくには計算コストが高過ぎる可能性があるコンピューティングシステムで、アルゴリズムをリアルタイムで実行できるようにするのに役立つ。しかし、十分な処理能力を有するコンピューティングシステムの場合、最初に変更が発生しなかった領域を解析せずに、画面全体を分析してもよい。
【0088】
上記のとおり、特定の実施形態において、ビデオフレーム比較計算は、ピクセル完全よりはむしろ、許容範囲を使用する。色の強度、明るさ、及び/又は他の要因が、それらが特定の許容範囲内にある場合、同じとみなされてもよい。例えば、ピクセルは、それらの値の一又は複数の変更が特定の数、特定のパーセンテージなどに満たない場合、ピクセルは同じとみなされてもよい。赤、緑、青、及び明るさの変更が5未満、1%以上などは、同じとみなされてもよい。特定の実施形態において、これらの変数の一又は複数が、異なる許容範囲を有してもよい。例えば、真のピクセルの変更を示すために、明るさの変更を色の変更よりも大きくしたり小さくしたりする必要があってもよい。ファジー画像マッチングが、類似点/相違点を識別するために特定の実施形態で実行されてもよい。
【0089】
幾つかの実施形態において、ファジー画像マッチングは、明るさ、画像テンプレート、エッジ比較、二値化、ダウンスケール及びビット削減、膨張を考慮して、カーネルブラー、それらの組み合わせなどを適用して、適合をより正確に識別する。RGB値に許容範囲を適用するピクセル間RGBマッチングが使用されて、完全に同じではない近い値が適合として識別されてもよい。ビット深度及び/又はカラースケールが低減されてもよく、ピクセル間のRGB又はグレースケールマッチングが適用されてもよい。画像からエッジが検出されて比較されてもよい。二値化は画像に適用されてもよく(例えば、二値閾値、大津閾値、適応閾値など)、ピクセル間のマッチングが二値画像に適用されてもよい。画像のスケールが縮小され、ピクセル間のマッチングが実行されてもよい。画像の膨張が実行され、次に、ピクセル間のマッチングが適用されてもよい。キーポイントが画像から抽出されて(例えば、最大安定極値領域(MSER)記述子など)、抽出されたキーポイントが、特徴マッチャー(例えば、ブルートフォースマッチング、k最近傍(kNN)マッチングなど)を使用して比較されてもよい。
【0090】
許容範囲ベースの計算が有益である可能性がある様々な理由がある。例えば、フレームがキャプチャされた後に画像が圧縮される場合、非可逆圧縮はピクセル値に影響を与える可能性があるため、許容範囲を計算に含める必要がある。また、元のビジュアルソースが、非可逆圧縮を使用してキャプチャする前に圧縮される場合がある(例えば、仮想コンピューティングシステムがエミュレータを介して起動され、エミュレータが仮想コンピュータの画面コンテンツを圧縮する場合)。これは、画像がリモートマシン(例えば、サーバなど)からローカルコンピューティングシステムにブロードキャストされるために発生する場合がある。
【0091】
630で、変更が発生した画面領域の文字が識別されると、文字は、キー押下イベントに対応する格納された文字のキューと比較される。適合が発見された場合、640で、適合位置の画面座標が抽出される。しかし、場合によっては、文字認識アルゴリズムが、画面上の文字を実際の文字のように認識できないことがある。例えば、OCRアルゴリズムは、画面上の文字「O」を数字「0」として認識する場合がある。その場合、幾つかの実施形態において、アルゴリズムは、画面上のキャレットの位置を追跡する。これは、画像検出(例えば、CVなど)などを使用して、様々なキャレットの形状の画像パターンを画面と比較することで判断されてもよい。幾つかの実施形態において、アルゴリズムは、キャレットが点滅する場合、キャレットの点滅を考慮してもよい。
【0092】
特定の実施形態において、ファジーマッチングを使用して、OCRの結果をキュー内の文字と比較してもよい。ファジーマッチングロジックは、文字「O」が数字「0」に類似して見えることを認識して、これらの文字を適合として識別してもよい。キューに他の類似する文字がない場合は、適合が確証されてもよい。
【0093】
特定の実施形態において、キャレット追跡が実行されてもよい。画像の変更された領域の分析が、キャレットに対応する可能性のある候補のリストを作成するために、実行されてもよい(例えば、候補は、細い縦線又は同様のものとして表示される)。確認(バリデーション)が、候補が時間をかけて点滅していることを識別するために実行されてもよく、その後、真のキャレットが識別されてもよい。テキスト入力が可能なグラフィック要素(例えば、テキストボックス、ワードプロセッサ文書、テキストフィールドなど)内にキャレットが表示されることを検証するために、さらなる確認が実行されてもよい。
【0094】
画面の他の位置で変更が発生しなかった場合、又は、他の変更が欠落しているもの以外のキュー内の文字と適合する場合、アルゴリズムは、これが唯一の未識別の変更であるため、欠落している文字である可能性があると推測する。次に、アルゴリズムは、認識された文字「O」が実際には文字キュー内の識別されていない「0」であると推測し、640で、適合位置の画面座標を抽出してもよい。これにより、アルゴリズムの精度が向上する可能性がある。
【0095】
幾つかの実施形態において、文字又は文字シーケンスが画面上で発見されて一意に識別された場合、文字はキューから削除されてもよく、所定の時間が経過した後(例えば、500ミリ秒、1秒など)、所定のサイズ(例えば、20文字など)のキューに基づいてキューの最後で文字を取り出してもよい。時間窓外にある文字を削除するために、キューは、タイプされた文字及びタイムスタンプを有する変数を格納してもよい。アルゴリズムは、(「先入れ」の終わりから始まる可能性がある)キュー内のキー押下変数のタイムスタンプを現在の時刻と定期的に比較してもよい。時間窓より古いキューでキー押下変数が発見された場合、その変数は削除されてもよい。特定の実施形態において、時間窓内にあるキー押下変数が発見されると、キュー内の全ての他の変数が時間窓内にあると想定されてもよく、その反復のために処理が停止されてもよい。
【0096】
640で、最近タイプされた文字を含む画面領域の座標が抽出された後、650で、座標が実行中のアプリケーションと比較され、抽出された座標が該当する要素に基づいて、アクティブ要素が判断される。その後、660で、アクティブ要素は、個々のユーザアクティビティを再構築するために使用されてもよく、ユーザが実行しているプロセス(例えば、プロセス抽出、プロセス発見など)を学習してもよい。これは、ユーザがコンピューティングシステムと対話しているときにリアルタイムで実行されてもよく、或いは、後で実行されてもよい(例えば、ビデオ及びキーストロークが、後でサーバによって分析されてもよい)。幾つかのリアルタイムの実施形態において、フレーム間差分が即座に計算されてもよく、そのため、ビデオデータは記録、記憶されなくてもよい。
【0097】
幾つかの実施形態において、ビデオ記録、キーボード入力記録、及び/又はそれらの処理は、RPAロボットによって実行される。特定の実施形態において、レコーダアプリケーションが、スクリーンショット又はビデオ及び一連のキー押下としてユーザアクティビティを記録し、後の処理のためにこれを記憶する、或いは、リアルタイム又はほぼリアルタイムの処理のためにこの情報をコンピューティングシステム又は別のコンピューティングシステムで実行されている別のアプリケーションに渡す。CVは、ビデオ及びキー押下の処理の直後に適用されて、或いは、後で適用されて、境界矩形を含む認識されたグラフィック要素のセットを提供してもよい。次に、グラフィカル要素である境界矩形とキャレット/テキストの座標との間に交差が発見された場合、その特定の要素が現在アクティブである、又は「フォーカス」されている。
【0098】
場合によっては、あるフレームから次のフレームへの画面の変更が大きいことがある。例えば、ユーザがウィンドウを閉じると、画面の大部分が変わる場合がある。したがって、幾つかの実施形態において、変更閾値が決定され適用されて、時間隣接するスクリーンショットをとにかく比較するか否かを判断する(例えば、画面の2%を超える変更、5%、10%、30%、50%、70%を超える、など)。このような閾値に達する又は超えると、2つの時間隣接するフレーム間の差分が閾値を下回るまで、フレーム比較プロセスがスキップされてもよい。
【0099】
図7は、本発明の一実施形態による、タイプされたテキストの検出及びキャレット追跡を実行するためのプロセス700を示すアーキテクチャ図である。スクリーンビデオ記録710は、ビデオフレームN(712)、N-1(714)、N-2(716)、N-3(718)を生成するために実行される。ビデオフレームは、画面全体、実行中のアプリケーションに関連付けられるウィンドウなどであってもよい。特定の実施形態において、複数の実行中のウィンドウアプリケーションのフレームセットが記憶されて比較されてもよく、或いは、これらのフレームがスクリーンショットから取得されてもよい。キーボードフック720はまた、キー押下に関連付けられる文字732を含む時間ウィンドウキーボード文字キュー730を生成するために実行される。幾つかの実施形態において、文字は、それに関連付けられるキー押下が所定の期間を超えると、文字キューから削除される。特定の実施形態において、文字は、一意である場合、画面上で発見された後、キューから削除される。しかし、一意でない場合(例えば、ユーザが「a a a a a」を連続してすばやく押す)、「a」の最も古いインスタンスがキューから削除されてもよい。
【0100】
コアロジック740は、現在のフレーム及び直前のフレーム(この場合、フレーム712、714)、並びにキーボード文字キューを受け取る。コアロジック740は、
図6に関して上述の様々なロジックを実行してもよい。例えば、コアロジック740は、フレーム712、714を互いに比較し、視覚的な変更が発生したフレーム内の領域を判断してもよい。これは、例えば、それぞれのピクセルの赤/緑/青(RGB)値が相互に対して閾値を超えているか否かを比較することで判断されてもよい。
【0101】
コアロジック740は、視覚的な変更の位置を分離し、その位置における文字を認識するために文字認識を実行してもよい。コアロジック740はまた、認識された文字をキーボード文字キュー730内の文字732に適合させてもよい。適合が発見された場合、適合位置の画面座標が抽出され、文字タイプ領域750として提供されてもよい。
【0102】
文字認識を使用することに加えて又はその代わりに、幾つかの実施形態において、画像認識(例えば、CVなど)を使用して、新たに表示される又は非表示にする画像又はアイコンを検出してもよい。このプロセスは、領域差分分析段階でこの置換又は補足のロジックを伴うことを除いて、上記のプロセスと同じであってもよい。これは、例えば、ユーザが画像又はテキストをドキュメント又はフィールドにカットアンドペーストしている位置を判断するのに役立つ。
【0103】
テキストのカットアンドペーストの場合、クリップボードからテキストがフラッシュされると、個々の文字はキー押下イベントとしてキャプチャされない。このような場合、クリップボードの内容とユーザがCTRL+Vを押している時がキャプチャされてもよい。その後、クリップボードの内容は、個々の文字及び文字シーケンスが識別される方法と同様に、OCRの結果と比較されてもよい。しかし、アルゴリズムは、タイプされた文字キューをレビューするよりはむしろ、CTRL+Vが発生する前にクリップボードに記憶されていた文字列を処理するであろう。
【0104】
図8Aは、本発明の一実施形態による、それぞれフレームN-1及びフレームNの同窓生寄付ウィンドウを含むスクリーンショット800、810の一部802、812を示す。
図8Aに示すように、フレームN-1の全てのフィールドは空であるが、フレームNでは、ユーザが名(first name)フィールドに文字「E」をタイプしている。変更が発生したか否かを判断するために、幾つかの実施形態のアルゴリズムは、スクリーンショットをスケーリングし、それらを四角形に正規化する。この場合、スクリーンショット800(
図8Bを参照)及びスクリーンショット810(
図8Cを参照)は、64個の四角形×48個の四角形のグリッドに正規化され、そのうち27×24の部分が
図8B~
図8Fに示されている。これらの四角形又は領域は、64×48のバイナリ行列として表されてもよい。
【0105】
次に、各スクリーンショットの行を相互に比較して、そこに含まれるピクセルが変更されているか否かを確認し、変更を伴う各行について行列の値が「1」に設定されてもよい。これは、各行にゼロ以外の要素が存在するか否かを確認することで行われてもよい。
図8Dに示すように、アルゴリズムが、ここで814で示す行列の行4を確認すると、そこに変更が検出される。次に、
図8Eに示すように、アルゴリズムは、行4にステップインし、列7で816で示す四角形が、新たに入力された文字「E」の一部を含む。アルゴリズムは、変更を含む四角形を識別し続け、隣接する四角形818を、この部分でOCRを実行するために提出される領域としてつなぎ合わせる。
図8Fを参照されたい。これを、ここで「領域」という。幾つかの実施形態において、領域を構成する一又は複数の四角形に変更がない場合、これらの四角形は、例えば、OCR処理をより速く実行するために、完全に1つの色に設定されてもよい。特定の実施形態において、十分な処理リソースが利用可能である場合、テキストを認識するためにスクリーンショットのペア全体に対してOCRが実行されてもよい。スクリーンショット間でテキストと位置が同じ又は類似である境界ボックスが削除されて、新たに表示されるOCR領域が識別されてもよい。この識別されたテキストがキーボード文字キューと比較されて、適合するものが検索されてもよい。
【0106】
時には、ユーザが、ディスプレイ解像度を変更したり、追加のモニタを接続したりすることがある。幾つかの実施形態では、このような変更を検出して対応し、タイプされた文字の追跡、キャレット追跡、及び/又はアクティブ要素の検出を依然として正確なままにする。
図9は、本発明の一実施形態による、変更に対応するために、解像度の変更を確認し、接続されているディスプレイの範囲の変更を確認し、キャレット追跡ビデオロジックを設定するプロセス900を示すフローチャートである。該プロセスは、910で、コンピューティングシステムのための一又は複数の接続されたディスプレイを確認し、920で、接続されているディスプレイを以前に接続されていたディスプレイと比較することから始まる。これは、別の表示デバイスが存在するか否かの確認、表示デバイスの解像度が変更されたか否かの確認などを含んでもよい。幾つかの実施形態において、「接続されている」ディスプレイは、コンピューティングシステムと統合されているディスプレイであってもよい(例えば、スマートフォン、ラップトップコンピュータなどを用いる通常の場合のように)。
【0107】
930で、接続されている表示デバイス及び/又は解像度が変更されている場合、940で、解像度及びスケール(縮尺)が、接続された各ディスプレイについて取得される。950で、キャプチャされるスクリーンショットのスクリーンショット領域は、全画面表示寸法にスケールを掛けて所望の大きさ(例えば、8、16など)の倍数に調整された値に設定される。この倍数により、本明細書において後でさらに詳細に説明するように、スクリーンショットを四角形に分割することを容易にしてもよい。次に、960で、タイプされた文字の追跡、キャレット追跡、及び/又はアクティブ要素の検出のためのビデオロジックが、設定される(例えば、再起動、再初期化、新しい表示設定の提供など)。
【0108】
図10は、本発明の一実施形態による、ビデオレコーダのプロセス1000を示すフローチャートである。該プロセスは、1010で、スクリーンショットを撮ることから始まる。幾つかの実施形態において、これは、Windows(登録商標)のGraphics Device Interface(GDI)CopyFromScreen()命令を使用して、C#で実行されてもよい。次に、1020で、スクリーンショットがフレームとしてバッファに追加される。これは、例えば、C#でビットマップオブジェクトとしてスクリーンショットをバッファに追加することで、実現されてもよい。1030で、該プロセスが依然として実行されている場合(例えば、アプリケーション、画面解像度の変更などを閉じてもプロセスが停止されていない、など)、次のスクリーンショットについてスクリーンショットのキャプチャが繰り返されてもよい。C#の例が提供されているが、プロセス1000及び本明細書に開示されている他のプロセスについては、本発明の範囲から逸脱することなく、任意の適切なプログラミング言語、オペレーティングシステム、API、及び関数が使用されてもよいことに留意されたい。
【0109】
幾つかの実施形態では、キャレット追跡を実行して、ユーザが画面のどの要素にフォーカスしているかをより正確に識別する。例えば、テキストが表示されているグラフィック要素にキャレットが表示されている場合、キーボードキューに新たに追加されたテキストが、このグラフィック要素に表示されているものである可能性がある。
図11は、本発明の一実施形態による、キャレット追跡を実行するプロセス1100を示すフローチャートである。通常、キャレットは、表示され、ユーザが直近にクリックした位置で又はその近くで点滅を開始する。したがって、幾つかの実施形態では、直近のマウスクリックの座標を記憶し、この位置に近接するキャレットを検索する。これにより、キャレットを見つけるために処理されるスクリーンショットの量が減り、精度がさらに向上する可能性がある。幾つかの実施形態において、マウスクリックの履歴バッファ又は単一の直近のクリック位置が使用される。特定の実施形態において、例えば、ユーザがタブキーを押すと、システムは、キャレットが画面上の次のグラフィック要素に移動した可能性があると想定し、既知の場合はその位置に検索を再フォーカスし、又は、スクリーンショット全体を検索してもよい。
【0110】
1105で、ピクセルの変更が、変更が発生したスクリーンショットの各領域について計算され、この領域がバイナリ行列に投影される。バイナリ行列は、領域のピクセルが変更されたか否かの表現であり、スクリーンショット間で変更がないピクセルについての「0」と、変更されたピクセルについての「1」とを含んでもよい。幾つかの実施形態において、「領域」は、スクリーンショットからの複数の四角形を含み得る、変更が発生した四角形である。しかし、本発明の範囲から逸脱することなく、任意の他の適切な形状(例えば、長方形、六角形など)が使用されてもよい。幾つかの実施形態において、コンピューティングシステムの処理能力に応じて、固定数の領域が分析のためにサポートされる。例えば、幾つかの実施形態では、2つの領域、3つの領域、10の領域などの抽出及びOCRをサポートする。幾つかの実施形態では、キャレットとタイプ又はペーストされたテキストとの両方を探索してもよい。現在のスクリーンショットと以前のスクリーンショットの間にL個を超える変更領域が発見された場合、最初に発見されたL個の領域が処理されてもよいし、又は、スクリーンショットが完全に無視されてもよい。これは、ユーザが別のウィンドウを起動したり画面の十分な部分が変更されたりして、次のスクリーンショットがキャプチャされる前にOCRが時間内に完了しない可能性がある画面を無視するのに役立つ。
【0111】
各バイナリ行列について、1110で、点滅するキャレット領域の候補が抽出され、1115で、バイナリ行列のメンバが結合される。「メンバ」は、本明細書で使用される場合、例えば文字、カーソルなどを表す形状など、バイナリ行列に存在する接続された形状である。行列のメンバの結合は、例えば、成分が8連結される連結成分(Connected Components)アルゴリズムを使用して実行されてもよい。連結成分は、各ピクセルが全ての他のピクセルに連結されるピクセルのセットである。
【0112】
1120で、形状が、行列のメンバの連結結果から抽出され、1125で、その形状が確認される。形状は、通常、例えば線を含み得る完全な矩形である必要がある。1130で、確認された形状の候補が記憶され、確認キューと比較される。キャレットの候補の位置、サイズ、及び形状が、タイムスタンプとともに記憶されてもよい。キャレットが点滅する頻度は、許容範囲内で一貫している必要がある(例えば、5%など)。キャレットが点滅するため、候補は分析のために記憶されて、キャレットの期待されるプロパティ(即ち、位置、サイズ、頻度)と適合するか否かを確認する必要がある。これは、複数のスクリーンショット(例えば、20など)で比較したときに、キャレットの候補が特定の頻度で点滅しているか否かを判断するのに役立ってもよい。この情報は、ユーザが新しいフィールドをマウスでクリックしたり、タブキーを押したりした後キャレットが他の位置に再び表示される場合に、キャレットを識別するのにも役立つ。当然、プロセスの開始時に、確認キューは空である。
【0113】
1135で、所与のキャレットの候補が、キャレットの候補の出現/消失、サイズ、及び位置に基づいて点滅していることが確認された場合、1140で、点滅しているキャレットについて、キャレット追跡データが生成される。これは、画面上のキャレットが存在するグラフィカル要素(即ち、アクティブ要素)などの位置を含んでもよい。1145で、確認された候補の領域と対応するメンバのバイナリ行列のデータとが、例えば、後で確認するために、確認キューに保存される。幾つかの実施形態において、
図11のプロセスは、新しいスクリーンショット毎に繰り返されてもよい。
【0114】
図12A~
図12Dは、本発明の一実施形態による、タイプされた文字の追跡、キャレット追跡、及びアクティブ要素の検出のためのビデオ処理を実行するプロセス1200を示すフローチャートである。プロセス1200の前に、解像度の変更について確認が行われて、変更に対応するようにキャレット追跡ビデオロジックが設定されてもよい。例えば、
図9を参照されたい。特定の実施形態において、プロセス1200は、ビデオレコーダと並行して実行されてもよい。例えば、
図10を参照されたい。プロセス1200は、C#及びWindows(登録商標)オペレーティングシステムを使用した例である。しかし、本発明の範囲から逸脱することなく、任意の適切なプログラミング言語、オペレーティングシステム、関連するAPI、フォーマット、及び関数が使用されてもよい。
【0115】
このプロセスは、1202で、フォーマットFormat16bppRgb555を使用してビデオアイテムN(例えば、スクリーンショット、画面の一部、アプリケーションウィンドウなど)に対してLockBitsを実行してNについてのBitmapDataオブジェクトを作成することから始まる。LockBitsは、ビットマップの矩形部分をロックし、指定された形式でピクセルデータを読み書きするために使用できる一時バッファを提供する。BitmapDataは、ビットマップの属性を記憶する。
【0116】
次に、1204で、BitmapData N及びBitmapData N-1(即ち、以前のアイテムのBitmapDataオブジェクト)が、16ピクセルの高さを有する横の行に分割される。しかし、本発明の範囲から逸脱することなく、プロセス1200のこのステップ及び他のステップについて、任意の高さ(例えば、8ピクセル、32ピクセルなど)が使用されてもよい。1206で、同じ縦位置(即ち、同じ「行」内。
図8A~
図8Fを参照)のBitmapData N及びBitmapData N-1の各横の行について、MPCMP命令が実行され、バイト配列の高速比較が実行される。MEMCMPは、行が同じであるか否かを示すものを提供する。
【0117】
次に、1208で、MEMCMPの結果が0に等しくない同じ行内のBitmapData N及びBitmapData N-1についての横の行が抽出され、1210で、抽出された横の行が、16×16ピクセルのサイズに分割される。例えば、
図8Cを参照されたい。1212で、BitmapData N及びBitmapDataN-1の16×16ピクセルのブロック毎に、それらの間に差異があるブロックが抽出される。例えば、
図8Fを参照されたい。これは、Intel Intrinsics(登録商標)命令をループするlong XOR関数の組み合わせ又は他の適切な機能を使用して実行されてもよい。
【0118】
上記のとおり、幾つかの実施形態において、処理できる領域の数は、所定の数Lに制限される。特定の実施形態において、各領域に含めることができるブロックの数を制限してもよい。例えば、次のスクリーンショットが取得される前に各領域でOCRを実行できることを確実にするために、4個の四角形、9個の四角形、16個の四角形などの制限が課されてもよい。これは「最適化閾値」であってもよく、最適化閾値は、変更された領域の数の制限、所与の変更された領域に含まれる四角形の数の制限、又はその両方を含んでもよい。
【0119】
1214で、各領域における抽出された16×16ピクセルのブロックの総数、領域の数、又はその両方が、最適化閾値と比較される。1214で最適化閾値が満たされると、プロセスはステップ1246、次の画面のキャプチャに進む。ステップ1214で、最適化閾値を超えない場合、1216で、近接する16×16ピクセルのブロックが、連結成分アルゴリズムを使用して結合される。連結成分アルゴリズムは、幾つかの実施形態において、8連結の連結成分アルゴリズムであってもよい。これにより、どのブロックが隣接するブロックであるかが判断される。
【0120】
接続された隣接するブロックが判断されると、1218で、近接するブロックの各セットの境界矩形が判断され、領域が形成される。これは、極値アルゴリズムによって判断されてもよく、この場合、最高のx値と最低のx値を有するブロック(即ち、左端と右端のブロック)と最高のy値と最低のy値を有するブロック(即ち、上端と下端のブロック)が含まれる。そのような例が、
図8Fに示される。
【0121】
1220で、領域の境界矩形毎に、ピクセルの変更が計算されて、バイナリ行列に投影される。32×32の領域に結合された4つの16×16のブロックに含まれる文字「E」のバイナリ行列1400の例を
図14Aに示す。
【0122】
殆どの場合、領域はそこに含まれるメンバ(例えば、文字、キャレット、ピクセルが変更された他の形状など)よりも大きくなる。OCRアルゴリズムの速度を上げるために、1222で、各バイナリ行列について、各領域に含まれるメンバが(例えば、連結成分アルゴリズムを使用して)判断され、バイナリ行列が各メンバについてトリミングされる。これにより、各領域における各メンバのトリミングされた行列が生成される。バイナリ行列1400から生成された文字「E」の例示的なトリミングされたメンバの行列1410を
図14Bに示す。幾つかの実施形態において、トリミングは、極値アルゴリズムを使用して実行されてもよい。
【0123】
次に、1224で、点滅するキャレット領域の候補が、メンバの行列から抽出される。例えば、候補は矩形形状であってもよく、矩形形状は、幾つかの実施形態において、単一ピクセルの幅を有する縦線を含む可能性がある。次に、1226で、抽出された点滅するキャレット領域の候補及び対応するメンバの行列データが、確認キューと比較され、点滅のサイズ、位置、及び頻度が分析されてもよい。1228で点滅している場合、1230で、点滅するキャレットについてキャレット追跡データが生成される。次に、1232で、点滅するキャレット領域及びそれらに対応するメンバの行列データが、確認キューに保存される。幾つかの実施形態において、プロセス1200のこの部分が、
図11のプロセス1100と同じ又は同様であってもよい。
【0124】
メンバのバイナリ行列は、所与のピクセルがスクリーンキャプチャN-1からスクリーンキャプチャNに変更されたか否かのみを示す。したがって、1234で、変更された各ピクセルについて、ピクセルデータがBitmapData Nから取得される。次に、1236で、メンバの矩形が生成され、OCRのため準備される。これは、変更された各ピクセルについてのピクセルデータの取り込み、キャレットのピクセルの削除、背景の処理(例えば、変更されていないピクセルをnull又は非常に縮小した値に設定するなど)などを含む。キャレットのピクセルが削除された場合は、この時点で、キャレット自体が特定の位置、形状、及びバイナリ行列のメンバのセットで検出されたと想定してもよい。この情報は、キャレット追跡の目的で記憶されてもよい。次に、1238で、準備されたメンバの矩形のピクセルデータについてOCRが実行され、1240で、キーボードキューへのファジーマッチングが各OCRの結果について実行される。1242で、適合したOCR領域について、タイプされたテキストの追跡データが生成される。
【0125】
OCR領域に適合したキーボードキューアイテムは、見つけられると、1244で、キーボードキューから削除される。文字の複数のインスタンスが存在する場合、例えば、キーボードキューにおけるその文字の最も古いインスタンスが削除されてもよい。次に、1246で、UnlockBitsがBitmapData N-1について実行され、システムメモリからこのビットマップのロックを解除し、1248で、BitmapData Nが位置N-1に移動される。プロセス1200は、次のキャプチャされたアイテムについて開始に戻ってもよい。
【0126】
図13A及び
図13Bは、本発明の一実施形態による、ペーストされたテキストの追跡を実行するプロセス1300を示すフローチャートである。該プロセスは、1305でキーボード記録を実行し、1310でスクリーンビデオ記録を実行して、押されたキーとグラフィックの変更が発生した画面上の位置とをそれぞれ判断することから始まる。次に、1315で、ユーザジェスチャが解釈される。ユーザジェスチャには、マウスクリック、CTRL+Vの押下、右クリックとメニューからのペーストの選択、ホームボタンのクリックとアプリケーションにおけるペーストなどが含まれるが、これらに限定されない。ユーザがある位置をクリックしてクリップボードから素早くペーストすると、キャレットが見落とされ、ユーザのアクションを別の方法で再構築する必要がある場合がある。1320でクリップボードからのペーストが行われていない場合、1325で、タイプされたテキストの検出及びキャレット追跡ロジックが実行され、幾つかの実施形態において、
図12A~
図12Dのプロセス1200のラインに沿って実行される可能性がある。
【0127】
しかし、1320で、クリップボードにユーザから最近ペーストされたデータが含まれている場合(例えば、直近の500ミリ秒、直近の1秒以内にペーストされた場合など)、1330で、フレームNとフレームN-1の間のピクセルの差分が計算される。1335で、フレームNとフレームN-1の間で変更が発生した、予測される同じ位置の領域が、抽出される。1340で、各領域について、ピクセルの変更が計算され、変更がバイナリ行列に投影される。
【0128】
1345で、各バイナリ行列について、例えば、連結成分アルゴリズムを使用してメンバが判断され、各メンバについて、メンバの行列が判断される。1350で、メンバの行列において変更されたピクセル毎にピクセルデータが抽出され、メンバの矩形が生成される。1355で、各メンバの矩形はOCRのために準備され、1360で、OCRは準備された各メンバの矩形について実行される。1370でクリップボードモニタによって提供されるクリップボードコンテンツを使用して、1365で、OCRの結果とクリップボードコンテンツとのファジーマッチング比較が、各OCRの結果について実行される。幾つかの実施形態において、クリップボードのテキストコンテンツは、Clipboard.GetText()を使用してSystem.Windows.Forms.dllから取得される。1375で、適合が発見されると、1380で、(例えば、矩形の形式で)ペーストされたテキストの座標が生成され、クリップボードがフラッシュされ、プロセスは、次のフレームのためにステップ1305及び1310に戻る。
【0129】
幾つかの実施形態において、現在のアクティブ要素が、画面の変更を生じさせる特定のキーをユーザが押した場合のために、記憶されてもよい。例えば、ユーザがEnterキーを押すと、フォームが送られてウィンドウが閉じられてもよい。別の例において、ユーザがウェブブラウザのURL入力フィールドでEnterキーを押すと、これにより、ウェブブラウザがウェブサイトへのナビゲートを開始してもよい。アルゴリズムはこれを認識し、特定の時間待機してから、このようなシナリオにおいてアクティブ要素がある位置を確認してもよい。何故なら、大幅な画面の変更が発生する可能性があるためである。画面が比較的静的になると(例えば、画面の比較的小さな部分だけがあるスクリーンショットから次のスクリーンショットに変わるなど)、タイプされたテキストの検出とキャレット追跡が再開され、新たなアクティブ要素を発見してもよい。したがって、ユーザがEnterキー、Escapeキーなどを押したりした場合に、どの要素がフォーカスされたかを知ることが役立つ場合がある。また、現在のオペレーティングシステムが、現在のフォアグラウンドウィンドウのウィンドウ境界矩形をネイティブに取得する信頼できる方法を提供している場合(例えば、Windows(登録商標)のuser32.dllで利用可能な「GetForegroundWindow」など)、フォアグラウンドウィンドウの境界矩形を使用して、画面キャプチャとフレーム処理に使用される領域(エリア)を制限してもよい。
【0130】
幾つかの実施形態において、フォーカスされた要素又はアクティブ要素が判断された場合、テキストが表示させないキーを押すときの振る舞い(例えば、Enter、Escape、Control、Control及び/又はAltと一又は複数の文字との組み合わせなど)は、アクティブ要素の性質に基づいて判断されてもよい。例えば、このような「ホットキー」(非表示のキー又はキーの組み合わせ)が押された場合、「ホットキー」がトリガしたアクションが分類されてもよい。例えば、フォーカスされた要素に「パスワード」というラベルが付され、ユーザが「Enter」を押した場合、「Enter」の押下は「ログイン」アクションを表すと推測されてもよい。これは、ユーザによる「ログイン」の実行を知ることがユーザによる「Enter」の押下を知ることよりもビジネスプロセスモデリングの目的でより説明的であるようなプロセス発見の目的に役立つ可能性がある。
【0131】
幾つかの実施形態において、アクティブ要素をより容易に判断するために、CVを使用して画面におけるグラフィック要素の種類及び位置を判断してもよい。例えば、CVを使用して、所与のグラフィック要素がテキストフィールド、テキストボックスなどであるか否かを判断してもよい。画面の変更が比較的少ない量である場合、又は、変更がグラフィック要素内に留まっている場合、変更は所与のフレームに新たに表示されるテキストに対応するとみなされてもよい。
【0132】
図15は、本発明の一実施形態による、CV及びキーボードキューを使用してアクティブ要素を判断するプロセス1500を示すフローチャートである。該プロセスは、1510で、フレームが所定の閾値を超えて以前のフレームから変更されたか否かを判断することから始まる。これは、フレームの特定の部分を超えて(例えば、2%を超えて)変更されたか否か、所定のピクセル数を超えて(例えば、200を超えて)変更されたか否か、テキスト入力を許可するフレーム内のグラフィック要素の位置の外側で変更が発生しているか否かなどを含んでもよい。
【0133】
1520で、閾値を超えた場合、画面上のグラフィック要素の少なくとも一部も変更されている可能性がある。1530で、CV前処理を実行して、グラフィック要素の種類及び位置を識別する。グラフィック要素の種類及び位置は、メモリに記憶されてもよい。幾つかの実施形態において、CV前処理が実行されている間、フレーム比較プロセスが一時停止されてもよい。
【0134】
1520で閾値を超えなかった場合、又は、1530でCV前処理が完了した後、1540で、以前のフレームと現在のフレームの間に追加されたキーボードキューに新たに出現した要素が判断される。キーボードキューに新たに出現した要素がある場合、これらは、画面上の適切なグラフィック要素に表示されたと考えられる。次に、1550で、現在のフレームで画面が変更された位置が判断され、1560で、グラフィック要素の位置へ変更を適合させることを試みる。変更がグラフィック要素の1つのみで発生した場合、1570で、適合したグラフィック要素が、アクティブ要素として設定される。しかし、複数のグラフィック要素内で変更が発生した場合、又は、グラフィック要素で変更が発見されなかった場合、1580で、OCRベースの処理が実行される。1590で、次のフレームがフェッチされ、プロセスが繰り返される。
【0135】
図16は、本発明の一実施形態による、タイプ及び/又はペーストされたテキストの検出、キャレット追跡、及びアクティブ要素の検出を実行するように構成されたシステム1600を示すアーキテクチャ図である。システム1600は、例えばデスクトップコンピュータ1602、タブレット1604、スマートフォン1606などのユーザコンピューティングシステムを備える。しかし、本発明の範囲を逸脱することなく、スマートウォッチ、ラップトップコンピュータ、モノのインターネット(IoT)デバイス、車両コンピューティングシステムなどを含むがこれらに限定されない、任意の所望のコンピューティングシステムが使用されてもよい。
【0136】
各コンピューティングシステム1602、1604、1606は、スクリーンショット、キーストローク、実行中のアプリケーション、アプリケーション視覚要素、視覚要素位置、アプリケーション位置、クリップボードコンテンツなどを記録する、そこで実行されるデジタルプロセス1610を有する。実際、本発明の範囲から逸脱することなく、画面グラフィック、ユーザ入力、表示要素などに関する任意の所望の情報が記録されてもよい。特定の実施形態において、ビデオ及びキーストロークの記録のみが最初にキャプチャされ、その後、他の情報がCVを使用して判断される。しかし、追加情報は、CVプロセスにフォーカスして向上させるのに役立ってもよい。デジタルプロセス1610は、本発明の範囲から逸脱することなく、RPAデザイナアプリケーション、オペレーティングシステムの一部、パーソナルコンピュータ(PC)又はスマートフォン用のダウンロード可能なアプリケーションを介して生成されるロボットであってもよいし、或いは、任意の他のソフトウェア及び/又はハードウェアであってもよい。実際、幾つかの実施形態において、一又は複数のデジタルプロセス1610のロジックが、物理ハードウェアを介して部分的又は完全に実装される。
【0137】
デジタルプロセス1610は、記録されているスクリーンショット、キーストローク、実行中のアプリケーション、アプリケーション要素及び位置などを、ネットワーク1620(例えば、ローカルエリアネットワーク(LAN)、移動通信ネットワーク、衛星通信ネットワーク、インターネット、これらのうちの任意の組み合わせなど)を介してサーバ1630に送る。幾つかの実施形態において、サーバ1630はコンダクタアプリケーションを実行させてもよく、データがハートビートメッセージの一部として定期的に送られてもよい。特定の実施形態において、所定の量の再訓練データが収集されると、所定の時間が経過した後、又はその両方の場合に、要求がサーバ1630に送られてもよい。サーバ1630は、データベース1640にデジタルプロセス1610からの情報を記憶してもよい。
【0138】
人間のユーザ(例えば、RPA開発者コンピューティングシステム1650のデザイナアプリケーション1652を使用するRPAエンジニアなど)によって指示されると、所定の量のデータがデータベース1640に収集されると、デジタルプロセス1610からデータが受け取られるとすぐに、といった場合に、サーバ1630がデータを受け取った元のコンピューティングシステムのための、検出されたタイプ及び/又はペーストされたテキスト、キャレット追跡、及びアクティブ要素の検出のプロセスのインスタンス1632を実行する。サーバは、インスタンス1632からの結果を分析し、コンピューティングシステムと対話するときにユーザが行っていることを判断してもよい。
【0139】
図17は、本発明の一実施形態による、前処理、テキスト検出、キャレット追跡、及びアクティブ要素検出を実行するプロセス1700を示すフローチャートである。該プロセスは、1705で、現在のスクリーンショットフレームと以前のスクリーンショットフレーム(及び、場合によっては少なくとも1つの他の以前のスクリーンショットフレーム)の間の変更を判断することから始まる。1710で閾値を超えた場合(例えば、特定のピクセル数を超えて変更された、特定の領域数を超えて変更された、領域が特定の数を超えるブロックを有するなど)、画面が大幅に変更され、新たなグラフィック要素が存在する可能性がある。したがって、1715で、CV前処理が現在のスクリーンショットフレームに対して実行され、現在のスクリーンショットフレームにおけるグラフィック要素の種類及び位置を判断し、1720で、プロセスは次のフレームに進む。「現在のスクリーンショットフレーム」と「以前のスクリーンショットフレーム」は相対的なものであることに留意されたい。プロセスが次のスクリーンショットフレームに進むと、そのスクリーンショットフレームが現在のスクリーンショットフレームになり、元の現在のスクリーンショットフレームが以前のスクリーンショットフレームになる。
【0140】
1710で閾値を超えなかった場合、1725で、システムは、OCRを実行せずにアクティブ要素を識別することを試みる。幾つかの実施形態において、OCRなしでアクティブ要素を識別しようとするためのCV前処理及びプロセスは、
図15の全て又は一部に従って実行される。1730で成功した場合、1720で、プロセスは次のフレームに進む。そうでない場合、プロセスは、本明細書に記載の実施形態に従って、タイプされたテキストの検出、キャレット追跡、及び/又はクリップボード内容検出の実行に進む。幾つかの実施形態において、タイプされたテキストの検出、キャレット追跡、及び/又はクリップボード内容検出を実行するためのプロセスは、
図6、
図7、
図9~
図13Bに関して説明されたものの全て又は一部に従ってもよい。
【0141】
図6、
図7、
図9~
図13B、
図15、
図17で実行されるプロセスステップは、本発明の実施形態に従って、コンピュータプログラムによって実行されて、
図6、
図7、
図9~
図13B、
図15、
図17に記載されているプロセスの少なくとも一部をプロセッサが実行するための命令を符号化してもよい。コンピュータプログラムは、非一時的なコンピュータ読み取り可能な媒体で具現化されてもよい。コンピュータ読み取り可能な媒体は、ハードディスクドライブ、フラッシュデバイス、RAM、テープ、及び/又はデータを記憶するために使用される任意の他のそのような媒体又は媒体の組み合わせであってもよいが、これらに限定されない。コンピュータプログラムは、
図6、
図7、
図9~
図13B、
図15、
図17に記載されたプロセスステップの全て又は一部を実施するようにコンピューティングシステムのプロセッサ(例えば、
図5のコンピューティングシステム500のプロセッサ510など)を制御するための符号化された命令を含んでもよく、これもまた、コンピュータ読み取り可能な媒体に記憶されてもよい。
【0142】
コンピュータプログラムは、ハードウェア、ソフトウェア、又はハイブリッド実装で実装されてもよい。コンピュータプログラムは、互いに動作可能に通信し、表示する情報又は命令を渡すように設計されたモジュールで構成されてもよい。コンピュータプログラムは、汎用コンピュータ、ASIC、又は任意の他の適切なデバイスで動作するように構成されてもよい。
【0143】
本発明の様々な実施形態の構成要素は、本願の図面で一般的に記載され示されているように、多種多様な異なる構成で配置、設計されてもよいことは容易に理解されるであろう。したがって、添付の図面に表されている本発明の実施形態の詳細な説明は、クレームされている本発明の範囲を限定することを意図しておらず、単に本発明の選択された実施形態を表すものである。
【0144】
本明細書全体を通して説明される本発明の特徴、構造、又は特性は、一又は複数の実施形態において任意の適切な方法で組み合わせられてもよい。例えば、本明細書全体を通して「特定の実施形態」、「幾つかの実施形態」、又は類似の文言への言及は、実施形態に関連して説明される特定の特徴、構造、又は特性が本発明の少なくとも1つの実施形態に含まれることを意味する。したがって、本明細書全体を通して「特定の実施形態において」、「幾つかの実施形態において」、「他の実施形態において」という語句、又は同様の文言の出現は、必ずしも全て同じ実施形態のグループを指すとは限らず、説明された特徴、構造、又は特性は、一又は複数の実施形態において任意の適切な方法で組み合わせられてもよい。
【0145】
本明細書全体を通して特徴、利点、又は同様の文言への言及は、本発明で実現され得る特徴及び利点の全てが本発明の任意の単一の実施形態であるか或いはそれに含まれることを意味しないことに留意されたい。むしろ、特徴及び利点に言及する文言は、実施形態に関連して説明される特定の特徴、利点、又は特性が本発明の少なくとも1つの実施形態に含まれることを意味すると理解される。したがって、本明細書全体を通して特徴、利点、及び類似の文言の説明は、必ずしもそうではないが、同じ実施形態を指してもよい。
【0146】
さらに、本発明の説明された特徴、利点、及び特性は、一又は複数の実施形態において任意の適切な方法で組み合わせられてもよい。当業者は、特定の実施形態の特定の特徴又は利点のうちの一又は複数がなくても本発明を実施できることを認識するであろう。他の例において、本発明の全ての実施形態には存在しない可能性がある特定の実施形態において、追加の特徴及び利点が認識されてもよい。
【0147】
当業者は、上記の本発明が異なる順序のステップで、及び/又は開示されているものとは異なる構成のハードウェア要素で実施されてもよいことを容易に理解するであろう。したがって、本発明をこのような好ましい実施形態に基づいて説明してきたが、本発明の主旨及び範囲内にありながら、特定の修正、変形、及び代替構造が明らかであることは当業者には明らかであろう。したがって、本発明の境界及び範囲を決定するために、添付の特許請求の範囲を参照されたい。
【手続補正書】
【提出日】2021-05-20
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
非一時的なコンピュータ読み取り可能な媒体に
格納された、タイプされたテキストの検出ロジックを含むコンピュータプログラムであって、
時間窓の間に発生したキー押下イベントを含むキーボード文字キューを生成することと、
現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を判断することと、
判断された前記一又は複数の領域における一又は複数の結合されたメンバを抽出し、抽出された前記一又は複数の結合されたメンバに対して光学式文字認識(OCR)を実行して、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方と、これらの各々の位置とを生成することと、
前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方を、前記キーボード文字キューと比較することと、
文字又は文字シーケンスが前記キーボード文字キューの文字又は文字シーケンスと適合する場合、前記キーボード文字キューから前記文字又は文字シーケンスを削除することと、
を少なくとも1つのプロセッサに実行させるように構成され、
前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含むことを特徴とするコンピュータプログラム。
【請求項2】
前記コンピュータプログラムは、
適合する前記文字又は文字シーケンスの位置を含む位置を有する前記現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定すること
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項3】
前記キーボードキューは、押下されたキーの文字と時間窓の間におけるキー押下イベントの各々についてキーが押された時とを含む先入れ先出し(FIFO)キューであることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項4】
前記キー押下イベントは、押されたキーと前記キー押下イベントが発生した時とに関連付けられる文字を含むことを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項5】
次のスクリーンショットフレームをフェッチすることと、
前記次のスクリーンショットフレームを現在のスクリーンショットとして使用し、前記現在のスクリーンショットフレームを以前のスクリーンショットフレームとして使用して、プロセスを繰り返すことと、
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項6】
複数のスクリーンショットフレームを含むスクリーンビデオを記録すること
を少なくとも1つのプロセッサにさらに実行させるように構成され、
前記スクリーンビデオは、前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームとを含むことを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項7】
前記スクリーンビデオの記録及び前記キーボード文字キューの生成は、前記現在のスクリーンショットフレームが前記以前のスクリーンショットフレームと異なる一又は複数の領域の判断、判断された前記一又は複数の領域における前記一又は複数の結合されたメンバの抽出、抽出された前記一又は複数の結合されたメンバに対するOCRの実行、及び前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方の比較を実行するコンピューティングシステムとは異なるコンピューティングシステムによって実行されることを特徴とする、請求項6に記載のコンピュータプログラム。
【請求項8】
前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームは非可逆形式に圧縮され、
前記現在のスクリーンショットフレームが前記以前のスクリーンショットフレームと異なる一又は複数の領域の判断は、前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームとの対応する領域に一又は複数の許容範囲を使用することを含むことを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項9】
前記現在のスクリーンショットフレームが前記以前のスクリーンショットフレームと異なる一又は複数の領域の判断、判断された前記一又は複数の領域における前記一又は複数の結合されたメンバの抽出、抽出された前記一又は複数の結合されたメンバに対するOCRの実行、及び前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方の比較は、ビデオ記録なしでリアルタイムで行われることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項10】
差異のある前記一又は複数の領域の判断のため前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームに加えて、追加の少なくとも1つのフレームが使用されることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項11】
OCRによって検出された文字シーケンスに自動修正アルゴリズムを適用して、自動修正された文字シーケンスを生成することと、
自動修正された前記文字シーケンスを使用して前記キーボード文字キューとの比較を実行することと、
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項12】
前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方とキーボード文字キューとの比較は、前記一又は複数の認識された文字と前記キーボード文字キュー内のキー押下イベントに関連付けられる文字との間のファジーマッチングを実行することを含むことを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項13】
前記現在のスクリーンショットフレームが前記以前のスクリーンショットフレームと異なる一又は複数の領域を分析し、分析に基づいて一又は複数のキャレットの候補を識別することと、
前記一又は複数のキャレットの候補のうちの1つのキャレットの候補が点滅していることを識別するために確認を実行することと、
前記確認に基づいてキャレットの位置を識別することと、
前記キャレットの前記位置を有する前記現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項14】
前記現在のスクリーンショットフレームとの間の1つの領域の変更のみ、又は、他の領域の全ての他の変更が、欠落している前記キーボードキュー内のキー押下イベントに関連付けられる文字以外の前記キーボードキュー内のキー押下イベントに関連付けられる文字に適合する場合に、前記コンピュータプログラムは、
適合する文字を含まない領域が前記キーボードキュー内の欠落している文字であると推測することと、
欠落している文字の領域の位置を有する前記現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項15】
キー押下イベントに関連付けられる文字が時間窓の間に
識別されなかった後、又は、キー押下イベントがキーボード文字キューに加えられて前記キーボード文字キューが固定サイズを超えることになる場合、前記キーボード文字キューから前記キー押下イベントを削除すること
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項16】
複数の現在のスクリーンショットフレームと複数の以前のスクリーンショットフレームの分析を、スクリーンショットのビデオ又は他のシーケンスが分析されるまで、繰り返すことと、
分析に基づいてコンピューティングシステムで実行される一又は複数のアプリケーションとのユーザの対話を再構築して、前記ユーザが実行している一又は複数のプロセスを判断することと、
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項17】
前記コンピュータプログラムは、ロボティックプロセスオートメーション(RPA)ロボットであることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項18】
前記現在のスクリーンショットフレーム、前記以前のスクリーンショットフレーム、又はこれら両方に、コンピュータビジョン(CV)アルゴリズムを適用することと、
前記CVアルゴリズムの適用からの結果に基づいて、認識されたグラフィック要素と対応する境界矩形のセットを提供することと
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項19】
現在のスクリーンショットと以前のスクリーンショットの間の変更が変更閾値に達する又は変更閾値を超える場合に、前記コンピュータプログラムは、
さらに処理を実行せずに、前記現在のスクリーンショットフレーム及び前記以前のスクリーンショットフレームを無視すること
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項20】
クリップボードコンテンツが存在するか否かを判断することと、
前記クリップボードコンテンツが存在し、前記クリップボードコンテンツが時間窓の間に加えられていた場合に、
前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方と、前記クリップボードコンテンツとを比較することと、
前記クリップボードコンテンツが前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方と適合する場合、前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方を含む位置を有する前記現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項21】
接続されている表示デバイスが新たなものである、又は、接続されている表示デバイスの解像度が変更された場合に、前記コンピュータプログラムは、
全ての接続された表示デバイスの解像度とスケールを取得することと、
キャプチャされるスクリーンショットフレームのスクリーンショット領域を、接続されている表示デバイスの全画面表示寸法にスケールを掛けて倍数に調整された値に設定することと、
設定された前記スクリーンショット領域、解像度、及びスケールに基づいて、前記現在のスクリーンショットフレーム及び前記以前のスクリーンショットフレームをキャプチャすることと、
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項22】
所定の領域数がサポートされ、
前記一又は複数の領域の数がサポートされた前記所定の領域数を超える場合、前記現在のスクリーンショットフレームは無視され、前記タイプされたテキストの検出ロジックは次のスクリーンショットフレームに進むことを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項23】
前記現在のスクリーンショットフレームのピクセルが所定の割合を超えて前記以前のスクリーンショットフレームと異なる場合、前記現在のスクリーンショットフレームは無視され、前記タイプされたテキストの検出ロジックは次のスクリーンショットフレームに進むことを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項24】
前記現在のスクリーンショットフレームが前記以前のスクリーンショットフレームと異なる一又は複数の領域の判断は、
前記現在のスクリーンショットフレーム及び前記以前のスクリーンショットフレームを所定の高さを有する横の行に分割することと、
前記現在のスクリーンショットフレーム及び前記以前のスクリーンショットフレームの各々からの対応する行を比較して、対応する行が同じであるか否かを判断することと、
前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームの間で同じでない行がある場合、この行を抽出し、この行を等しいサイズのブロックに分割することと、
前記現在のスクリーンショットフレーム及び前記以前のスクリーンショットフレームにおける対応するブロックの間に差異が存在するか否かを判断することと、
差異が存在するブロックを抽出することと、
を含むことを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項25】
領域におけるブロックの数が所定の数を超える場合、前記現在のスクリーンショットフレームは無視され、前記タイプされたテキストの検出ロジックは次のスクリーンショットフレームに進むことを特徴とする、請求項24に記載のコンピュータプログラム。
【請求項26】
領域におけるブロックの数が所定の数を超えない場合に、前記コンピュータプログラムは、
近接するブロックを結合することと、
近接するブロックの各セットの領域の境界矩形を判断することと、
各領域についてピクセルの変更を計算し、前記ピクセルの変更をバイナリ行列に投影することと、
各バイナリ行列における一又は複数の結合されたメンバについて結合されたメンバのバイナリ行列を判断することと、
各結合されたメンバのバイナリ行列をトリミングすることと、
各結合されたメンバのバイナリ行列について前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームとの間で変更された各ピクセルのピクセルデータを取得することと、
取得された前記ピクセルデータを使用してOCRを実行することと、
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項24に記載のコンピュータプログラム。
【請求項27】
キャレットであると判断される結合されたメンバについて、前記ピクセルデータは取得されず、OCRは実行されないことを特徴とする、請求項26に記載のコンピュータプログラム。
【請求項28】
画面の変更を生じさせるユーザとの対話を検出することと、
新たな現在のスクリーンショットフレームと新たな以前のスクリーンショットフレームとを比較する前に、所定の時間待機するか、所定の数のスクリーンショットフレームをスキップするか、又は前記新たな現在のスクリーンショットフレームと前記新たな以前のスクリーンショットフレームの間での画面の変更が所定の部分未満になるまで待機することと、
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項29】
適合する前記文字又は文字シーケンスを含む位置を有する現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、
前記キーボード文字キューを分析して、前記アクティブ要素との対話を生じさせる文字又は文字シーケンスを判断することと、
前記キーボード文字キューの分析と前記アクティブ要素とに基づいてアクションを分類することと、
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項30】
前記現在のスクリーンショットフレーム、前記以前のスクリーンショットフレーム、又はこれら両方にコンピュータビジョン(CV)アルゴリズムを実行することと、
前記現在のスクリーンショットフレーム、前記以前のスクリーンショットフレーム、又はこれら両方におけるグラフィック要素の種類及び位置を判断することと、
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項1に記載のコンピュータプログラム。
【請求項31】
ロボティックプロセスオートメーション(RPA)のためのタイプされたテキストの検出のコンピュータ
によって実施
される方法であって、
RPAロボットによって、時間窓の間に発生したキー押下イベントを含むキーボード文字キューを生成することと、
前記RPAロボットによって、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を判断することと、
前記RPAロボットによって、判断された前記一又は複数の領域における一又は複数の結合されたメンバを抽出し、抽出された前記一又は複数の結合されたメンバに対して光学式文字認識(OCR)を実行して、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方と、これらの各々の位置とを生成することと、
前記RPAロボットによって、前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方を、前記キーボード文字キューと比較することと、
文字又は文字シーケンスが前記キーボード文字キューの文字又は文字シーケンスと適合する場合に、
前記RPAロボットによって、前記キーボード文字キューから前記文字又は文字シーケンスを削除することと、
前記RPAロボットによって、適合する前記文字又は文字シーケンスの位置を含む位置を有する前記現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、
を含み、
前記キー押下イベントは、押されたキーの文字とキーが押された時とを含み、
前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含むことを特徴とす
る方法。
【請求項32】
前記RPAロボットによって、前記現在のスクリーンショットフレームが前記以前のスクリーンショットフレームと異なる一又は複数の領域を分析し、分析に基づいて一又は複数のキャレットの候補を識別することと、
前記RPAロボットによって、前記一又は複数のキャレットの候補のうちの1つのキャレットの候補が点滅していることを識別するために確認を実行することと、
前記RPAロボットによって、前記確認に基づいてキャレットの位置を識別することと、
前記RPAロボットによって、前記キャレットの前記位置を有する前記現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、
をさらに含むことを特徴とする、請求項31に記載
の方法。
【請求項33】
キー押下イベントに関連付けられる文字が時間窓の間に識別されなかった後、又は、キー押下イベントがキーボード文字キューに加えられて前記キーボード文字キューが固定サイズを超えることになる場合、前記RPAロボットによって、前記キーボード文字キューから前記キー押下イベントを削除すること
をさらに含むことを特徴とする、請求項31に記載
の方法。
【請求項34】
現在のスクリーンショットと以前のスクリーンショットの間の変更が変更閾値に達する又は変更閾値を超える場合に、前
記方法は、
前記RPAロボットによって、さらに処理を実行せずに、前記現在のスクリーンショットフレーム及び前記以前のスクリーンショットフレームを無視すること
をさらに含むことを特徴とする、請求項31に記載
の方法。
【請求項35】
前記RPAロボットによって、クリップボードコンテンツが存在するか否かを判断することと、
前記クリップボードコンテンツが存在し、前記クリップボードコンテンツが時間窓の間に加えられていた場合に、
前記RPAロボットによって、前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方と、前記クリップボードコンテンツとを比較することと、
前記クリップボードコンテンツが前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方と適合する場合、前記RPAロボットによって、前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方を含む位置を有する前記現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、
をさらに含むことを特徴とする、請求項31に記載
の方法。
【請求項36】
所定の領域数がサポートされ、
前記一又は複数の領域の数がサポートされた前記所定の領域数を超える場合、前記現在のスクリーンショットフレームは無視され、前記タイプされたテキストの検出ロジックは次のスクリーンショットフレームに進むことを特徴とする、請求項31に記載
の方法。
【請求項37】
前記現在のスクリーンショットフレームが前記以前のスクリーンショットフレームと異なる一又は複数の領域の判断は、
前記現在のスクリーンショットフレーム及び前記以前のスクリーンショットフレームを所定の高さを有する横の行に分割することと、
前記現在のスクリーンショットフレーム及び前記以前のスクリーンショットフレームの各々からの対応する行を比較して、対応する行が同じであるか否かを判断することと、
前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームの間で同じでない行がある場合、この行を抽出し、この行を等しいサイズのブロックに分割することと、
前記現在のスクリーンショットフレーム及び前記以前のスクリーンショットフレームにおける対応するブロックの間に差異が存在するか否かを判断することと、
差異が存在するブロックを抽出することと、
を含むことを特徴とする、請求項31に記載
の方法。
【請求項38】
領域におけるブロックの数が所定の数を超える場合に、前記現在のスクリーンショットフレームは無視され、前記タイプされたテキストの検出ロジックは次のスクリーンショットフレームに進み、
領域におけるブロックの数が所定の数を超えない場合に、前
記方法は、
前記RPAロボットによって、近接するブロックを結合することと、
前記RPAロボットによって、近接するブロックの各セットの領域の境界矩形を判断することと、
前記RPAロボットによって、各領域についてピクセルの変更を計算し、前記ピクセルの変更をバイナリ行列に投影することと、
前記RPAロボットによって、各バイナリ行列における一又は複数の結合されたメンバについて結合されたメンバのバイナリ行列を判断することと、
前記RPAロボットによって、各結合されたメンバのバイナリ行列をトリミングすることと、
前記RPAロボットによって、各結合されたメンバのバイナリ行列について前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームとの間で変更された各ピクセルのピクセルデータを取得することと、
前記RPAロボットによって、取得された前記ピクセルデータを使用してOCRを実行することと、
をさらに含むことを特徴とする、請求項37に記載
の方法。
【請求項39】
非一時的なコンピュータ読み取り可能な媒体に
格納されたコンピュータプログラムであって、
現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を判断することと、
判断された前記一又は複数の領域における一又は複数の結合されたメンバを抽出し、抽出された前記一又は複数の結合されたメンバに対して光学式文字認識(OCR)を実行して、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方と、これらの各々の位置とを生成することと、
前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方を、キーボード文字キューと比較することと、
文字又は文字シーケンスが前記キーボード文字キューの文字又は文字シーケンスと適合する場合に、
前記キーボード文字キューから前記文字又は文字シーケンスを削除することと、
適合する前記文字又は文字シーケンスの位置を含む位置を有する前記現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、
を少なくとも1つのプロセッサに実行させるように構成され、
前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含むことを特徴とするコンピュータプログラム。
【請求項40】
前記現在のスクリーンショットフレームが前記以前のスクリーンショットフレームと異なる一又は複数の領域を分析し、分析に基づいて一又は複数のキャレットの候補を識別することと、
前記一又は複数のキャレットの候補のうちの1つのキャレットの候補が点滅していることを識別するために確認を実行することと、
前記確認に基づいてキャレットの位置を識別することと、
前記キャレットの前記位置を有する前記現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、
を少なくとも1つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項39に記載のコンピュータプログラム。
【国際調査報告】