IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インフォフラ インコーポレイテッドの特許一覧

特表2024-509709人工知能基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法およびシステム
<>
  • 特表-人工知能基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法およびシステム 図1
  • 特表-人工知能基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法およびシステム 図2
  • 特表-人工知能基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法およびシステム 図3
  • 特表-人工知能基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法およびシステム 図4
  • 特表-人工知能基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法およびシステム 図5
  • 特表-人工知能基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法およびシステム 図6
  • 特表-人工知能基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法およびシステム 図7a
  • 特表-人工知能基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法およびシステム 図7b
  • 特表-人工知能基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法およびシステム 図7c
  • 特表-人工知能基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法およびシステム 図7d
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-05
(54)【発明の名称】人工知能基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法およびシステム
(51)【国際特許分類】
   G06Q 50/10 20120101AFI20240227BHJP
【FI】
G06Q50/10
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023547575
(86)(22)【出願日】2022-02-18
(85)【翻訳文提出日】2023-08-03
(86)【国際出願番号】 KR2022002418
(87)【国際公開番号】W WO2022177345
(87)【国際公開日】2022-08-25
(31)【優先権主張番号】10-2021-0021501
(32)【優先日】2021-02-18
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.WINDOWS
2.JAVASCRIPT
3.MAC OS
4.Linux
5.TENSORFLOW
(71)【出願人】
【識別番号】523296483
【氏名又は名称】インフォフラ インコーポレイテッド
【氏名又は名称原語表記】INFOFLA INC.
【住所又は居所原語表記】382, Gangnam-daero Gangnam-gu Seoul 06232, Republic of Korea
(74)【代理人】
【識別番号】110002871
【氏名又は名称】弁理士法人坂本国際特許商標事務所
(72)【発明者】
【氏名】チェ、イン ムク
(57)【要約】
AI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法は、ユーザPCでウェブ基盤ITオペレーティング管理システムプラットホームに接続してスケジューラを登録すること、スケジューラが登録されればウェブ基盤ITオペレーティング管理システムプラットホームのAIウェブソケットにスケジューラの登録を知らせること、ウェブ基盤ITオペレーティング管理システムプラットホームのAIウェブソケットから所定時間にユーザPCのAIスクリーンエージェント(Agent)のAIウェブソケットに通信を介してスケジューラの開始を知らせるデータを伝送すること、AIスクリーンエージェントがウェブ基盤ITオペレーティング管理システムプラットホームのAIスクリーンにユーザPCの画面イメージを伝送し、学習済みAIモデルを含むAIスクリーンから画面上の一つ以上のオブジェクトの位置を推論した情報データを要請すること、AIスクリーンが伝送された画面イメージからAIスクリーンの学習済みAIモデルを通して画面の一つ以上のオブジェクトの位置を推論すること、推論された一つ以上のオブジェクトの位置に関する情報データをAIスクリーンエージェントのAIウェブソケットに通信を介して伝送すること、およびAIスクリーンエージェントが伝送されたデータを基にユーザPCの画面で一つ以上のオブジェクトに対するイベントを発生させることを含むことができる。
【選択図】図1
【特許請求の範囲】
【請求項1】
AI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法であって、
ユーザPCでウェブ基盤ITオペレーティング管理システムプラットホームに接続してスケジューラにスケジュールを登録する段階;
スケジューラにスケジュールが登録されれば、ウェブ基盤ITオペレーティング管理システムプラットホームのAIウェブソケットにスケジュールの登録を知らせる段階;
上記ウェブ基盤ITオペレーティング管理システムプラットホームのAIウェブソケットから所定時間にユーザPCのAIスクリーンエージェント(Agent)のAIウェブソケットに通信を介してスケジューラの開始を知らせるデータを伝送する段階;
AIスクリーンエージェントがウェブ基盤ITオペレーティング管理システムプラットホームのAIスクリーンにユーザPCの画面イメージを伝送し、画面イメージからオブジェクト位置を学習したAIモデルを含むAIスクリーンから画面上の一つ以上のオブジェクトの位置を推論する情報データを要請する段階;
AIスクリーンが伝送された画面イメージからAIスクリーンの学習済みAIモデルを通して画面の一つ以上のオブジェクトの位置を推論する段階;
推論された一つ以上のオブジェクトの位置に関する情報データをAIスクリーンエージェントのAIウェブソケットに通信を介して伝送する段階;および
AIスクリーンエージェントが伝送されたデータを基にユーザPCの画面で一つ以上のオブジェクトに対するイベントを発生させる段階;を含み、
AIスクリーンのAIモデルは、全体画面のイメージおよび上記全体画面の一つ以上のイメージにラベリングされたオブジェクトの位置を学習データとして、全体画面で一つ以上のオブジェクトのイベントを発生させるオブジェクト位置を推論した結果データを出力する、
AI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法。
【請求項2】
AIモデルは一画面内においてどの位置に(localization)どのような種類のオブジェクトがあるか(classification)に関する情報を与えるオブジェクト検出器(object detector)の機能を遂行するために学習され、
オブジェクト検出器は、オブジェクト自体が存在する位置を探し出す位置探し(localization)ステージ、および探し出された位置(local)に存在するオブジェクトが何か確認する分類(classification)ステージを順次遂行する2ステージ検出器(2 stage detector)であるか、または、
位置探し(localization stage)および分類(classification stage)を同時に遂行する1ステージ検出器(one stage detector)である、
請求項1に記載のAI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法。
【請求項3】
1ステージ検出器は、SSD(Single Shot MultiBox Detector)、またはYOLO、またはDSSD(Deconvolutional Single Shot Detector)である、
請求項2に記載のAI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法。
【請求項4】
上記一つ以上のオブジェクトは、選択されることができるコンピュータ画面上のコンソールウィンドウ、Windowsのウィンドウ、チャットウィンドウ、選択されることができるリンク、選択されることができるボタン、情報の入力が可能なカーソル位置、ID入力位置、パスワード入力位置、検索バー入力位置のうち一つ以上である、
請求項1に記載のAI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法。
【請求項5】
AI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法であって、
ユーザPCでウェブ基盤ITオペレーティング管理システムプラットホームに接続してスケジューラにスケジュールを登録する段階;
スケジューラにスケジュールが登録されれば、ウェブ基盤ITオペレーティング管理システムプラットホームのAIウェブソケットにスケジュールの登録を知らせる段階;
上記ウェブ基盤ITオペレーティング管理システムプラットホームのAIウェブソケットから所定時間にユーザPCのAIスクリーンエージェント(Agent)のAIウェブソケットに通信を介してスケジューラの開始を知らせるデータを伝送する段階;
AIスクリーンエージェントがAIスクリーンエージェント内のAIスクリーンでユーザPCの画面イメージからオブジェクト位置を学習したAIモデルを含むAIスクリーンから画面上の一つ以上のオブジェクトの位置を推論する情報データを要請する段階;
AIスクリーンが画面イメージからAIスクリーンの学習済みAIモデルを通して画面の一つ以上のオブジェクトの位置を推論する段階;および
AIスクリーンエージェントがAIスクリーンエージェント内のAIスクリーンで推論した一つ以上のオブジェクトの位置を基にユーザPCの画面で一つ以上のオブジェクトに対するイベントを発生させる段階;を含み、
AIスクリーンのAIモデルは、全体画面のイメージおよび上記全体画面の一つ以上のイメージにラベリングされたオブジェクトの位置を学習データとして、全体画面で一つ以上のオブジェクトのイベントを発生させるオブジェクト位置を推論した結果データを出力する、
AI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法。
【請求項6】
AIモデルは一画面内においてどの位置に(localization)どのような種類のオブジェクトがあるか(classification)に関する情報を与えるオブジェクト検出器(object detector)の機能を遂行するために学習され、
オブジェクト検出器は、オブジェクト自体が存在する位置を探し出す位置探し(localization)ステージ、および探し出された位置(local)に存在するオブジェクトが何か確認する分類(classification)ステージを順次遂行する2ステージ検出器(2 stage detector)であるか、または、
位置探し(localization stage)および分類(classification stage)を同時に遂行する1ステージ検出器(one stage detector)である、
請求項5に記載のAI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法。
【請求項7】
1ステージ検出器は、SSD(Single Shot MultiBox Detector)、またはYOLO、またはDSSD(Deconvolutional Single Shot Detector)である、
請求項6に記載のAI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法。
【請求項8】
コンピュータを用いて請求項1~7のいずれか一項に係る画面上のオブジェクトにイベントを発生させる方法を遂行するようにプログラミングされたプログラムを保存したコンピュータ読み取り可能な記録媒体。
【請求項9】
AI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させるシステムであって、
上記システムは、AIスクリーンエージェントを含むユーザPC;および
ウェブ基盤ITオペレーティング管理システムプラットホームを含むサーバ;を含み、
上記AIスクリーンエージェントは、ウェブ基盤ITオペレーティング管理システムプラットホームに接続してスケジューラにスケジュールを登録し、
上記サーバは、スケジューラにスケジュールが登録されれば、上記サーバ内のウェブ基盤ITオペレーティング管理システムプラットホームのAIウェブソケットにスケジュールの登録を知らせ、上記ウェブ基盤ITオペレーティング管理システムプラットホームのAIウェブソケットから所定時間にユーザPCのAIスクリーンエージェント(Agent)のAIウェブソケットに通信を介してスケジューラの開始を知らせるデータを伝送し、
上記ユーザPCのAIスクリーンエージェントは、ウェブ基盤ITオペレーティング管理システムプラットホームのAIスクリーンにユーザPCの画面イメージを伝送し、画面イメージからオブジェクト位置を学習したAIモデルを含むAIスクリーンから画面上の一つ以上のオブジェクトの位置を推論した情報データを要請し、
上記AIスクリーンは、伝送された画面イメージからAIスクリーンの学習済みAIモデルを通して画面の一つ以上のオブジェクトの位置を推論し、推論された一つ以上のオブジェクトの位置に関する情報データをAIスクリーンエージェントのAIウェブソケットに通信を介して伝送し、そして、
上記AIスクリーンエージェントは、伝送されたデータを基にユーザPCの画面で一つ以上のオブジェクトに対するイベントを発生させ、
学習済みAIモデルは、全体画面のイメージおよび上記全体画面の一つ以上のイメージにラベリングされたオブジェクトの位置を学習データとして、全体画面で一つ以上のオブジェクトのイベントを発生させるオブジェクト位置を推論した結果データを出力する、
AI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させるシステム。
【請求項10】
AIモデルは一画面内においてどの位置に(localization)どのような種類のオブジェクトがあるか(classification)に関する情報を与えるオブジェクト検出器(object detector)の機能を遂行するために学習され、
オブジェクト検出器は、オブジェクト自体が存在する位置を探し出す位置探し(localization)ステージ、および探し出された位置(local)に存在するオブジェクトが何か確認する分類(classification)ステージを順次遂行する2ステージ検出器(2 stage detector)であるか、または、
位置探し(localization stage)および分類(classification stage)を同時に遂行する1ステージ検出器(one stage detector)である、
請求項9に記載のAI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させるシステム。
【請求項11】
コンピュータ内でAI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる画面オブジェクト制御装置であって、
スケジュールを登録するスケジューラ登録部;および
AIスクリーンエージェント;を含み、
スケジューラ登録部は、AIスクリーンエージェント110にスケジュールの登録を知らせ、所定時間にコンピュータ内でスケジューラの開始を知らせ、
AIスクリーンエージェントは、
コンピュータ画面上に表示されたオブジェクトの位置を学習させオブジェクトにイベントを発生させるために、コンピュータのディスプレイ装置から全体画面に関するデータおよび画面上に表示されたオブジェクトの位置データを収集するデータ収集部、
収集されたデータを基礎としてディープニューラルネットワークを介して学習させる人工知能モデル学習部、
人工知能モデル学習部で学習された結果を基礎として、画面内オブジェクトを検出する画面オブジェクト検出部、および
オブジェクト検出部で検出し分類した全体画面上のオブジェクト位置を基礎としてオブジェクトにイベントを発生させる画面オブジェクト制御部を含み、
上記人工知能モデル学習部から学習されたAIモデルは、全体画面のイメージおよび上記全体画面の一つ以上のイメージにラベリングされたオブジェクトの位置を学習データとして、全体画面で一つ以上のオブジェクトのイベントを発生させるオブジェクト位置を推論した結果データを出力する、
画面オブジェクト制御装置。
【請求項12】
AIモデルは一画面内においてどの位置に(localization)どのような種類のオブジェクトがあるか(classification)に関する情報を与えるオブジェクト検出器(object detector)の機能を遂行するために学習され、
オブジェクト検出器は、オブジェクト自体が存在する位置を探し出す位置探し(localization)ステージ、および探し出された位置(local)に存在するオブジェクトが何か確認する分類(classification)ステージを順次遂行する2ステージ検出器(2 stage detector)であるか、または、
位置探し(localization stage)および分類(classification stage)を同時に遂行する1ステージ検出器(one stage detector)である、
請求項11に記載の画面オブジェクト制御装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人工知能基盤の画面情報認知方法を利用して画面上のオブジェクトにイベントを発生させる方法およびシステムに関するものであり、より詳しくは、人工知能基盤の画面内容推論方法を利用してディスプレイ画面上でオブジェクトのイベントを発生させる方法およびシステムに関するものである。
【背景技術】
【0002】
RPA(ロボットプロセス自動化)は、以前は人間がしていたルーティンタスクをソフトウェアロボットが代わりに行うことである。
【0003】
先行技術である韓国公開特許第10-2020-0127695号公報は、チャットボットを通してRPAに業務が伝達されると、RPAがPC画面でウェブブラウザを駆動して情報を探し、これを再びチャットボットに伝達することができる。このとき、RPAがウェブブラウザの検索ウィンドウまたは検索ボタンなどを認識する方法は、ウェブスクリプト言語であるHTMLおよびJAVASCRIPTのソースから予め学習済みの該当検索ウィンドウまたは検索ボタンのClass Idなどを探して画面に存在するかを確認し、もしあれば該当検索ウィンドウのClass Idに検索語などのテキストを入力し、検索ボタンのClass Idにマウスクリックイベントを入力してウェブブラウザを動作させる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】韓国公開特許第10-2020-0127695号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところが、最近、保安およびRPA自動化への対抗のために、HTMLのClass Idを毎回変える方式でウェブページを構成する事例がますます増えており、この場合、RPAが学習済みのClass Idを探すことができず認識および入力が不可能である。
【0006】
また、ウェブブラウザではなくRDP(Remote Desktop Protocol)のように遠隔ターミナル形態のオペレーティングやIoTなどのような非Windows OSではRPA動作が不可能であるとの問題点があった。
【課題を解決するための手段】
【0007】
上述の課題を解決するための本発明の一実施例に係る画面を調整する方法および調整装置は、AI技術を基盤としてディスプレイ上の画面の画質または画面内容を推論して遂行されることができる。
【0008】
具体的に、AI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法は、ユーザPCでウェブ基盤ITオペレーティング管理システムプラットホームに接続してスケジューラにスケジュールを登録すること、スケジュールが登録されればウェブ基盤ITオペレーティング管理システムプラットホームのAIウェブソケットにスケジュールの登録を知らせること、ウェブ基盤ITオペレーティング管理システムプラットホームのAIウェブソケットから所定時間にユーザPCのAIスクリーンエージェント(Agent)のAIウェブソケットに通信を介してスケジューラの開始を知らせるデータを伝送すること、AIスクリーンエージェントがウェブ基盤ITオペレーティング管理システムプラットホームのAIスクリーンにユーザPCの画面イメージを伝送し画面イメージからオブジェクト位置を学習したAIモデルを含むAIスクリーンから画面上の一つ以上のオブジェクトの位置を推論した情報データを要請すること、AIスクリーンが伝送された画面イメージからAIスクリーンの学習済みAIモデルを通して画面の一つ以上のオブジェクトの位置を推論すること、推論された一つ以上のオブジェクトの位置に関する情報データをAIスクリーンエージェントのAIウェブソケットに通信を介して伝送すること、およびAIスクリーンエージェントが伝送されたデータを基にユーザPCの画面で一つ以上のオブジェクトに対するイベントを発生させることを含むことができる。
【0009】
本発明の他の実施例において、学習済みAIモデルは、全体画面のイメージおよび全体画面の一つ以上のイメージにラベリングされたオブジェクトの位置を学習データとして、全体画面で一つ以上のオブジェクトのイベントを発生させるオブジェクト位置を推論した結果データを出力することができる。
【0010】
本発明の他の実施例において、AIモデルは、一画面内においてどの位置に(localization)どのような種類のオブジェクトがあるか(classification)に関する情報を与えるオブジェクト検出器(object detector)の機能を遂行するために学習され、オブジェクト検出器は、オブジェクト自体が存在する位置を探し出す位置探し(localization)ステージ、および探し出された位置(local)に存在するオブジェクトが何か確認する分類(classification)ステージを順次遂行する2ステージ検出器(2 stage detector)であるか、または、位置探し(localization stage)および分類(classification stage)を同時に遂行する1ステージ検出器(one stage detector)であり得る。
【0011】
本発明の他の実施例において、上記一つ以上のオブジェクトは、選択されることができるコンピュータ画面上のコンソールウィンドウ、Windowsのウィンドウ、チャットウィンドウ、選択されることができるリンク、選択されることができるボタン、情報の入力が可能なカーソル位置、ID入力位置、パスワード入力位置、検索バー入力位置のうち一つ以上であり得る。
【0012】
本発明の他の実施例において、一つ以上のオブジェクトのうち一つはパスワード入力部であり得る。
【0013】
本発明の他の実施例において、ウェブ基盤ITオペレーティング管理システムプラットホームはクラウドサーバに設けられることができる。
【0014】
本発明の他の実施例において、ユーザPC100にAIスクリーン230が含まれている場合で、AI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法は、ユーザPCでウェブ基盤ITオペレーティング管理システムプラットホームに接続してスケジューラにスケジュールを登録する段階;スケジューラにスケジュールが登録されればウェブ基盤ITオペレーティング管理システムプラットホームのAIウェブソケットにスケジュールの登録を知らせる段階;上記ウェブ基盤ITオペレーティング管理システムプラットホームのAIウェブソケットから所定時間にユーザPCのAIスクリーンエージェント(Agent)のAIウェブソケットに通信を介してスケジューラの開始を知らせるデータを伝送する段階;AIスクリーンエージェントがAIスクリーンエージェント内のAIスクリーンでユーザPCの画面イメージからオブジェクト位置を学習したAIモデルを含むAIスクリーンから画面上の一つ以上のオブジェクトの位置を推論する情報データを要請する段階;AIスクリーンが画面イメージからAIスクリーンの学習済みAIモデルを通して画面の一つ以上のオブジェクトの位置を推論する段階;および、AIスクリーンエージェントがAIスクリーンエージェント内のAIスクリーンで推論した一つ以上のオブジェクトの位置を基にユーザPCの画面で一つ以上のオブジェクトに対するイベントを発生させる段階;を含むことができ、AIスクリーンのAIモデルは、全体画面のイメージおよび上記全体画面の一つ以上のイメージにラベリングされたオブジェクトの位置を学習データとして、全体画面で一つ以上のオブジェクトのイベントを発生させるオブジェクト位置を推論した結果データを出力することができる。
【0015】
本発明の他の実施例において、コンピュータを利用して画面上のオブジェクトにイベントを発生させる方法を遂行するようにプログラミングされたプログラムがコンピュータ読み取り可能な記録媒体に保存されることができる。
【0016】
本発明の他の実施例において、AI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させるシステムは、AIスクリーンエージェントを含むユーザPC;および、ウェブ基盤ITオペレーティング管理システムプラットホームを含むサーバ;を含み、AIスクリーンエージェントはウェブ基盤ITオペレーティング管理システムプラットホームに接続してスケジューラにスケジュールを登録し、サーバはスケジュールが登録されればサーバ内のウェブ基盤ITオペレーティング管理システムプラットホームのAIウェブソケットにスケジュールの登録を知らせ、ウェブ基盤ITオペレーティング管理システムプラットホームのAIウェブソケットから所定時間にユーザPCのAIスクリーンエージェント(Agent)のAIウェブソケットに通信を介してスケジューラの開始を知らせるデータを伝送し、ユーザPCのAIスクリーンエージェントはウェブ基盤ITオペレーティング管理システムプラットホームのAIスクリーンにユーザPCの画面イメージを伝送し、画面イメージからオブジェクト位置を学習したAIモデルを含むAIスクリーンから画面上の一つ以上のオブジェクトの位置を推論した情報データを要請し、AIスクリーンは伝送された画面イメージからAIスクリーンの学習済みAIモデルを通して画面の一つ以上のオブジェクトの位置を推論し、推論された一つ以上のオブジェクトの位置に関する情報データをAIスクリーンエージェントのAIウェブソケットに通信を介して伝送し、そしてAIスクリーンエージェントは伝送されたデータを基にユーザPCの画面で一つ以上のオブジェクトに対するイベントを発生させることができる。
【0017】
この他にも、本発明を具現するための他の方法、他のシステムおよび方法を実行するためのコンピュータプログラムがさらに提供されることができる。
【0018】
上述以外の他の側面、特徴、利点が以下の図面、特許請求の範囲および発明の詳細な説明から明確になるはずである。
【発明の効果】
【0019】
本発明は、既存のRPAの問題点を解決するために、データ学習部ではPCなど多様なデバイスの画面関連データ、すなわち、ブラウザ、検索ウィンドウ、検索ボタンなど画面上に現われ得る多様なオブジェクトデータを学習して認識することができるAIスクリーンモデルを生成することができる。
【0020】
サーバでスケジューラが一定時間に動作して、ユーザ端末、ノートパソコン、デスクトップパソコンにプログラムまたはアプリケーション形態で実行される人工知能エージェントにウェブソケットなどのTCP/IPソケット通信で実行を指示することができ、人工知能エージェント自身の画面写真をサーバまたは自身のPCに位置したAIスクリーンモデルに伝送して、学習済みモデルを通して所望のオブジェクトを予測することができる。
【0021】
予測されたデータ値を人工知能エージェントにソケット通信で伝送してユーザPC画面の座標上でテキストデータ入力またはマウスボタンクリックなどを入力制御して処理することができ、画面認識と画面座標入力制御を繰り返して人間がユーザPCなどの画面で遂行する作業を人工知能が自動で遂行することができる。
【0022】
本発明を利用すれば、期待するブラウザ、イメージ、入力ウィンドウなどのオブジェクトが画面にあるか画面写真で判断することにより、ウェブ、Command Line、RDP(Remote Desktop Protocol)などの環境を全てサポートすることができ、画面の座標を利用して直接テキストデータ入力、ボタンクリックなどが可能であるため、大部分の環境で入力が可能である。したがって、PC、IoT、Connected Car端末機、キオスクなどネットワークに連結された画面を利用する大部分の装備で画面を認識し、入力制御することができる。
【0023】
本発明は、画面認知人工知能技術が画面中の多様なプログラムのオブジェクトを学習させることができるという長所がある。RPAが製品別の特徴によってサポートする環境(ウェブ、CLI、RDPなど)に制約があるのに対して、画面認知人工知能技術は画面に現われるすべてのオブジェクトを認知することが可能である。また、RPAがブラウザ内のインプットボックスやボタンなどのオブジェクトを探すためにはアンカーと呼ばれる基準値が必要であるが、画面認知人工知能技術はアンカーなしにオブジェクトを直接認識してアクセスすることができる。
【0024】
既存のRPAは、PCで業務自動化という特性上ウェブを主に使用することになり、ウェブを迅速によりよく理解するためにhtml内でテキスト検索を主に行う。しかし、保安htmlのようにhtmlが変わると、既存のRPAは作動するという問題点があった。本発明の画面認知人工知能技術を使用すれば、保安htmlのようにhtmlが変わっても、保安htmlを検索せず画面でオブジェクト認識が可能である。また、Web、Windows、Mac OS、LinuxのようにオペレーティングシステムにかかわらずOSが提供する画面を見て認識するため、本発明の人工知能を利用した画面オブジェクト認識技術は作動可能である。
【0025】
また、RDPの場合、RPAは特定のRDP製品のAPIを利用して画面中のオブジェクト情報を得るのに対して、画面認知人工知能技術は何らのRDP製品のAPIも必要とすることなく画面中のオブジェクトを認識することができる。
【0026】
本発明を利用すれば、画面オブジェクトの連続的な認識および画面座標への文字/ボタン入力を通して人間が作業する一連の行為を自動化することができる。
【図面の簡単な説明】
【0027】
図1】本発明の一実施例に係る画面オブジェクト制御システムの例示図である。
図2】本発明の一実施例に係るAIスクリーンエージェントのブロック図である。
図3】本発明の一実施例に係る画面オブジェクト制御過程のフローチャートである。
図4図1の画面のオブジェクトの位置を推論する人工知能スクリーン学習モデルを学習させるためのフローチャートである。
図5】ブラウザ画面で学習済み人工知能モデルを通してオブジェクトの位置を推論した結果を示した例示図である。
図6】PCデスクトップで学習済み人工知能モデルを通してオブジェクトの位置を推論した結果を示した例示図である。
図7a図4による画面のオブジェクトの位置を推論する人工知能モデルを学習させる画面を示した例示図である。
図7b図4による画面のオブジェクトの位置を推論する人工知能モデルを学習させる画面でオブジェクトにラベリングをした例示図である。
図7c図4による画面のオブジェクトの位置を推論する人工知能モデルを学習させた後、オブジェクトを実際認識した結果の例示図である。
図7d図7aの学習させる画面からMask-RCNNを適用して学習させる過程を示した例示図である。
【発明を実施するための形態】
【0028】
本発明の利点および特徴、並びにそれらを達成する方法は、添付図面と共に詳しく説明される実施例を参照すれば明確となるはずである。しかし、本発明は、下記に提示される実施例に限定されるものではなく、互いに異なる多様な形態で具現されることができ、本発明の思想および技術範囲に含まれるあらゆる変換、均等物ないし代替物を含むものと理解されなければならない。下記に提示される実施例は、本発明の開示を完全にするものであり、本発明の属する技術分野において通常の知識を有する者に発明の範疇を完全に知らせるために提供されるものである。本発明の説明にあたって関連する公知技術に関する具体的な説明が本発明の要旨を不明瞭にする可能性があると判断される場合、その詳しい説明を省略する。
【0029】
本出願で使用された用語は、単に特定の実施例を説明するために使用されたものであって、本発明を限定しようとする意図ではない。単数の表現は、文脈上明白に異なる意味を示さない限り、複数の表現を含む。本出願で、「含む」または「有する」などの用語は、明細書上に記載の特徴、数字、段階、動作、構成要素、部品またはこれらを組み合わせたものが存在することを指定しようとするものであって、一つまたはそれ以上の他の特徴や数字、段階、動作、構成要素、部品またはこれらを組み合わせたものの存在または付加可能性をあらかじめ排除しないことと理解されなければならない。第1、第2などの用語は、多様な構成要素を説明するにあたって使われることができるが、構成要素は上記用語によって限定されてはならない。上記用語は一つの構成要素を他の構成要素から区別する目的でのみ使われる。
【0030】
以下、本発明による実施例を添付図面を参照して詳しく説明することにし、添付図面を参照して説明するにあたって、同一の又は対応する構成要素は同一の図面番号を付与し、これについて重複する説明は省略することにする。
【0031】
図1は、本発明の一実施例に係る画面オブジェクト制御システムの例示図である。
【0032】
画面オブジェクト制御システムは、ユーザPC100およびサーバから構成されることができる。
【0033】
ユーザPC100は、ディスプレイに表示されるユーザPC画面120およびAIスクリーンエージェント(Agent)110を含むことができる。AIスクリーンエージェント(Agent)110は、AIウェブソケット112を含むことができる。
【0034】
ウェブ基盤ITオペレーティング管理システムプラットホーム200は、ウェブ基盤ITオペレーティング管理システムプラットホーム200のホームページ210、AIウェブソケット222、AIスクリーン230を含むことができる。AIスクリーン230は、学習済みAIモデル232を含むことができる。
【0035】
本発明の他の実施例において、ユーザPC100のコンピューティングパワーが十分な場合、AIスクリーン230はユーザPC100に含まれることができる。
【0036】
本発明で「オブジェクト」は、画面においてマウスやキーボードなどの入力装置で活性化させることができる画面上のあらゆる対象を意味する。このような画面上のオブジェクトは、人工知能モデルに学習させる対象になり得る。例えば、ユーザがPC画面上で使用するプログラムウィンドウ、チャットウィンドウの入力ウィンドウ、ブラウザの検索ウィンドウであるか、ログインボタンおよび加入ボタンなどの各種ボタンであるか、またはロゴ、ID、パスワード、会社名などの特定文字や記号であり得る。本発明で「オブジェクト」の「制御」と言えば、プログラムウィンドウの活性化、チャットウィンドウに入力事項入力、ブラウザウィンドウの検索バー入力、ID入力、パスワード入力、会社名入力をしてオブジェクトのイベントを発生させるあらゆる行為を示す。
【0037】
サーバは、クラウドサーバであってもよく、一般的な独立サーバであってもよい。ITOMSは、(株)infoflaのウェブ基盤ITオペレーティング管理システムプラットホーム200である。
【0038】
ユーザPC100は、自動でまたはユーザのスケジューラボタン212のクリックでサーバのウェブ基盤ITオペレーティング管理システムプラットホーム200に接続してスケジューラを登録することができる(S302)。
【0039】
スケジューラが登録されれば、ウェブ基盤ITオペレーティング管理システムプラットホーム200のAIウェブソケット222にスケジューラの登録を知らせることができる(S304)。
【0040】
上記ウェブ基盤ITオペレーティング管理システムプラットホーム200のAIウェブソケット222から所定時間にユーザPC100のAIスクリーンエージェント(Agent)110にあるAIウェブソケット112に通信を介してスケジューラの開始を知らせるデータを伝送することができる(S306)。
【0041】
AIスクリーンエージェント110は、ウェブ基盤ITオペレーティング管理システムプラットホーム200のAIスクリーン230にユーザPCの画面120イメージを伝送し、学習済みAIモデル232を含むAIスクリーン230から画面上のオブジェクトの位置を推論した情報データを要請することができる(S308)。学習済みAIモデルは、全体画面のイメージおよび上記全体画面のイメージにラベリングされたオブジェクトの位置を学習データとして、全体画面でオブジェクトのイベントを発生させるオブジェクト位置を推論するオブジェクト位置探索モデルであり得る。一般的に、AI学習データの構築のためには学習データの収集が必要である。このような学習データの収集は、例えば、PC画面イメージを集めた後、アノテーションツールで主要オブジェクトにバウンディングボックスを作り、ラベリング作業をして収集することができる。例えば、Google検索サイトウェブ画面でGoogle検索ウィンドウにボックスを作り、Google検索ウィンドウとラベリングして、Google検索サイト全体画面データおよびGoogle検索ウィンドウのオブジェクトに対するラベルデータを収集することができる。
【0042】
伝送された画面イメージからAIスクリーン230の学習済みAIモデル232を通して画面のオブジェクトの位置を推論することができる(S310およびS312)。
【0043】
ウェブ基盤ITオペレーティング管理システムプラットホーム200は、推論されたオブジェクトの位置に関する情報データをAIスクリーンエージェント110のAIウェブソケット112に通信を介して伝送することができる(S314)。
【0044】
伝送されたデータを基に、例えば、AIスクリーンエージェント110を通してユーザPCの画面120でオブジェクトに対するイベントを発生させることができる(S316)。
【0045】
本発明の他の実施例において、ユーザPC100にAIスクリーン230が含まれることができる。この場合、ウェブ基盤ITオペレーティング管理システムプラットホーム200にデータを伝送せず、自体的にAIスクリーン学習モデルを生成することができる。ユーザPC100にAIスクリーン230が含まれた場合において、AIスクリーンエージェント110がウェブ基盤ITオペレーティング管理システムプラットホーム200のAIスクリーン230にユーザPCの画面120のイメージを伝送し、学習済みAIモデル232を含むAIスクリーン230から画面上のオブジェクトの位置を推論した情報データを要請する段階(S308)およびウェブ基盤ITオペレーティング管理システムプラットホーム200が推論されたオブジェクトの位置に関する情報データをAIスクリーンエージェント110のAIウェブソケット112に通信を介して伝送する段階(S314)は、その対象がクラウドサーバ200内のITOMS AIスクリーン230からユーザPC100内のITOMS AIスクリーンに変更され、AIスクリーンエージェント110のITOMS AIスクリーンは、下記図2のデータ収集部131、人工知能モデル学習部132、およびオブジェクト検出部133がITOMS AIスクリーン230の機能と同一の機能を遂行する。
【0046】
ユーザPC100にAIスクリーン230が含まれた場合において、AI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法は、ユーザPCでウェブ基盤ITオペレーティング管理システムプラットホームに接続してスケジューラにスケジュールを登録する段階;スケジューラにスケジュールが登録されれば、ウェブ基盤ITオペレーティング管理システムプラットホームのAIウェブソケットにスケジュールの登録を知らせる段階;上記ウェブ基盤ITオペレーティング管理システムプラットホームのAIウェブソケットから所定時間にユーザPCのAIスクリーンエージェント(Agent)のAIウェブソケットに通信を介してスケジューラの開始を知らせるデータを伝送する段階;AIスクリーンエージェントがAIスクリーンエージェント内のAIスクリーンでユーザPCの画面イメージからオブジェクト位置を学習したAIモデルを含むAIスクリーンから画面上の一つ以上のオブジェクトの位置を推論する情報データを要請する段階;AIスクリーンが画面イメージからAIスクリーンの学習済みAIモデルを通して画面の一つ以上のオブジェクトの位置を推論する段階;およびAIスクリーンエージェントがAIスクリーンエージェント内のAIスクリーンで推論した一つ以上のオブジェクトの位置を基にユーザPCの画面で一つ以上のオブジェクトに対するイベントを発生させる段階;を含むことができ、AIスクリーンのAIモデルは、全体画面のイメージおよび上記全体画面の一つ以上のイメージにラベリングされたオブジェクトの位置を学習データとして、全体画面で一つ以上のオブジェクトのイベントを発生させるオブジェクト位置を推論した結果データを出力することができる。
【0047】
図2は、本発明の一実施例に係るAIスクリーンエージェントのブロック図である。
【0048】
画面オブジェクト制御システムは、ウェブ基盤ITオペレーティング管理システムプラットホーム200なしにユーザPC100内に画面オブジェクト制御装置で構築されることができる。
【0049】
画面オブジェクト制御装置は、スケジューラ登録部(図示せず)およびAIスクリーンエージェント110を含み、AIスクリーンエージェント110は、画面上に表示されたオブジェクトの位置を学習させ、オブジェクトにイベントを発生させる機能を含むことができる。AIスクリーンエージェント110は、自体的にオブジェクトの位置を学習させるために、ディスプレイ装置から全体画面に関するデータを収集するデータ収集部131、収集されたデータを基礎としてディープニューラルネットワークを介して学習させる人工知能モデル学習部132、画面オブジェクト検出部133を含むことができる。AIスクリーンエージェント110は、画面オブジェクト制御部134、映像画面関連データ、学習データなど各種データを保存するメモリ102、サーバまたは外部装置と通信する通信部103、および入力/出力調整部104を含むことができる。
【0050】
スケジュールを登録するスケジューラ登録部は、AIスクリーンエージェント110にスケジューラの登録を知らせ、所定時間にユーザPC100でスケジューラの開始を知らせる機能をする。
【0051】
スケジューラ登録部の知らせによって、AIスクリーンエージェント110のデータ収集部131は、ディスプレイ上のPC画面120上の全体画面に係るデータを収集することができる。オブジェクト検出部133は、学習済み人工知能学習モデルを通して収集されたデータについて、上記全体画面上でオブジェクトの位置を検出(detect)することができる。
【0052】
人工知能モデル学習部132は、PC画面のイメージ、およびPC画面のイメージにラベリングされたオブジェクトの特定位置を学習用データ(または学習データセット)として、全体画面上でオブジェクトの位置を推論するように学習させる。人工知能モデル学習部132は、NPUのような並列処理に特化したプロセッサを含むことができる。人工知能モデル学習部132は、オブジェクト位置学習のためにメモリ102に学習用データを保存した後、NPUがメモリ102と協業してオブジェクト位置を学習させて、オブジェクト検出部133に学習済みAIモデルを生成し、新たな学習用データが収集されれば、特定時期にまたは周期的に学習させて人工知能学習モデルを持続的に改善させることができる。
【0053】
本発明の一実施例において、人工知能モデル学習部132は、一旦オブジェクト検出部133に学習済み人工知能モデルが生成されれば、データ収集部131で新たな学習用データが収集される前まで機能を停止することができる。この場合、データ収集部131および収集された人工知能モデル学習部132は機能を停止し、ユーザPC画面から受信された画面イメージをすぐオブジェクト検出部133に伝達することができる。新たな人工知能モデル学習部132は、教師あり学習を利用して人工知能モデルを生成するが、教師なし学習、または強化学習を利用して一つ以上のオブジェクトを学習させることができる。
【0054】
オブジェクト検出部133は、人工知能モデル学習部132で学習済み人工知能モデルを通して、画面上に所望のオブジェクトがあるか否かおよび一つのオブジェクトの位置を検出し、複数個のオブジェクトの位置を検出することができる。学習済みAIモデルは、全体画面のイメージおよび上記全体画面の一つ以上のイメージにラベリングされたオブジェクトの位置を学習データとして、全体画面で一つ以上のオブジェクトのイベントを発生させるオブジェクト位置を推論した結果データを出力する。本発明の他の実施例において、上述のように、オブジェクト検出部133は、サーバから伝送された学習済み人工知能モデルを通してユーザPCの画面120上のオブジェクト位置を検出および分類するように構成されることができる。
【0055】
オブジェクト制御部134は、オブジェクト検出部133で検出し分類した全体画面上のオブジェクト位置を基礎としてオブジェクトにイベントを発生させることができる。オブジェクト制御部134は、画面オブジェクトの連続的な認識および画面座標への文字/ボタン入力を通して人間が作業する一連の行為を自動化するように制御することができる。例えば、オブジェクト制御部134は、図5のようにブラウザ上の検索バー401を検出し、所望の検索クエリを検索するイベントを発生させることができる。また、オブジェクト制御部134は、図6のようにPCデスクトップ上の複数個のプログラムウィンドウでログイン410のチャットウィンドウを検出し、IDおよびパスワードの入力位置、および検索ウィンドウブラウザ上の検索バー401の位置、各種ボタンなどを検出し、所望の会社名420、ID430、およびパスワード440を入力するか、または検索クエリを検索するイベントを発生させることができる。
【0056】
AIスクリーンエージェント110がユーザ端末、ノートパソコン、デスクトップパソコンにプログラムまたはアプリケーション形態で実行される方法で含まれているならば、AIスクリーンエージェント110は通信部103を介してユーザ端末、ノートパソコン、デスクトップパソコンの通信部103を用いてサーバのような外部機器と通信することができる。
【0057】
他の実施例において、AIスクリーンエージェント110は、ユーザPCの外部にあるウェブ基盤ITオペレーティング管理システムプラットホームに接続してウェブ基盤ITオペレーティング管理システムプラットホームから学習済みオブジェクト位置情報データを受信し画面上のオブジェクトに対するイベントを発生させることができる。この場合、データ収集部131、人工知能モデル学習部132、およびオブジェクト検出部133を使用せず、ウェブ基盤ITオペレーティング管理システムプラットホーム200がデータ収集部131、人工知能モデル学習部132、およびオブジェクト検出部133を含んで、AIスクリーンモデル学習を進行し、AIスクリーンエージェント110は通信部103を介してウェブ基盤ITオペレーティング管理システムプラットホーム200にユーザPC画面イメージを伝送し、オブジェクト位置情報データを受信してオブジェクトに対するイベントを発生させることができる。
【0058】
図3は、本発明の一実施例に係る画面オブジェクト制御過程のフローチャートである。
【0059】
ユーザPC100などのような画面認識を望む端末機でAIスクリーンのオブジェクト制御を開始すると(S200)、ウェブ基盤ITオペレーティング管理システムプラットホーム200を自動でまたはユーザのスケジューラボタン212のクリックでサーバウェブ基盤ITオペレーティング管理システムプラットホーム200に接続してスケジューラを登録することができる(S202)。
【0060】
スケジューラが登録されれば、ウェブ基盤ITオペレーティング管理システムプラットホーム200のAIウェブソケット222にスケジューラの登録を知らせることができる。スケジューラの登録によってウェブ基盤ITオペレーティング管理システムプラットホーム200は所定時間に動作し(S204)、所定のスケジューラ機能を実行し(S206)、ウェブ基盤ITオペレーティング管理システムプラットホーム200のAIウェブソケット222から所定時間にユーザPC100のAIスクリーンエージェント(Agent)110のAIウェブソケット112に通信を介してスケジューラの開始を知らせるデータを伝送することができる。
【0061】
AIスクリーンエージェント110は、ウェブ基盤ITオペレーティング管理システムプラットホーム200のAIスクリーン230にユーザPCの画面120のイメージを伝送し、学習済みAIモデル232を含むAIスクリーン230から画面上のオブジェクトの位置を推論した情報データを要請することができる。
【0062】
PC100からイメージ認識データ要請があるかを判断し(S208)、PC100からイメージ認識データの要請があれば、データ要請が完了するまで(S212)、伝送された画面イメージからAIスクリーン230の学習済みAIモデル232を通して画面のオブジェクトの位置を推論することができ、ウェブ基盤ITオペレーティング管理システムプラットホーム200は、推論されたオブジェクトの位置に関する情報データをAIスクリーンエージェント110のAIウェブソケット112に通信を介して伝送することができ、PC100のAIスクリーンエージェント110は伝送されたデータを基にユーザPCの画面120でオブジェクトに対するイベントを発生させて、テキストまたはマウス入力イベントを処理する(S214)。
【0063】
PC100からイメージ認識データの要請がなければ、与えられた過程すべての処理完了時またはエラー時にログを作成し(S216)、AIスクリーン230のオブジェクト制御を終了する。
【0064】
図4は、図1の画面のオブジェクトの位置を推論する人工知能スクリーン学習モデルを学習させるためのフローチャートである。
【0065】
図4を参照すれば、AIスクリーンエージェント110またはAIスクリーン230で画面上のオブジェクト位置を推論するための人工知能モデル学習が開始して進行する(S100)。人工知能モデルの学習は、教師あり学習、教師なし学習および強化学習のうちいずれか一つの形態で遂行されることができる。
【0066】
ユーザPC画面120上の画面イメージに係るデータおよび上記データにオブジェクト位置をラベリングしたデータを含む人工知能モデル学習用データで人工知能モデル学習が進行し(S110)、学習が完了すれば、AIスクリーン学習モデルを生成する(S120)。AIスクリーンエージェント110またはAIスクリーン230のデータ収集部131は、一定周期で画面イメージデータ値および上記画面イメージデータ値に対してラベリングされたオブジェクト位置を人工知能学習用データおよびテスト用データとして生成することができる。学習用データおよびテスト用データの割合は、データ量によって異なってよく、一般的に7:3の割合に定めることができる。学習用データの収集および保存は、オブジェクト別に収集して保存することができ、実際使用画面をキャプチャアプリケーションを通して収集することができる。このような学習データの収集および保存は、サーバ200で画面イメージを取りまとめて保存することができる。人工知能モデル学習用データは、正確な学習結果を得るためにデータ前処理およびデータ増強過程を経ることができる。図5のような結果を得るために、人工知能モデル学習は、ブラウザのサイトに表示されたユーザPC画面120上の画面イメージデータ値を入力データとし、検索ウィンドウおよびクリック可能なアイコンなどオブジェクトの位置をラベリングしたデータを出力データとして学習データセットを構成して進行されることができる。
【0067】
人工知能モデル、例えば、Mask-RCNNやSSDのような人工ニューラルネットワークは、教師あり学習を通して収集された学習データを利用して全体画面上でオブジェクトの位置が学習される(S100)。本発明の一実施例において、ディープラーニング基盤の画面分析機が使用されることができ、例えば、人工知能プログラミングに使用される人工知能言語ライブラリであるTensorFlowまたはKerasのMobileNetV1/MobileNetV2基盤で人工知能学習モデルをチューニングして使用することができる。
【0068】
CNN(Convolutional Neural Network)はディープニューラルネットワークの最も代表的な方法で、イメージを小さな特徴から複雑な特徴に特徴化する。CNNは、一つまたは複数個の畳み込み層と、その上に積み上げられた一般的な人工ニューラルネットワーク層とからなり、畳み込み層で前処理を行う構造を有する人工ニューラルネットワークである。例えば、人の顔のイメージをCNNを通して学習させるために、一番先にフィルタを用いて簡単な特徴を抜き出して一つの畳み込み層を作り、この特徴からより複雑な特徴を抽出する新たな層、例えばプーリング層を追加する。畳み込み層は、畳み込み演算を通して特徴を抽出する層であり、規則的なパターンを有する乗算を行う。プーリング層は、入力空間を抽象化する層であり、サブサンプリングを通してイメージの次元を縮小する。例えば、28x28サイズの顔イメージをストライドが1である4個のフィルタを使ってそれぞれ24x24の特徴マップを作り、サブサンプリング(またはプーリング)で12x12に圧縮することができる。その次の層で8x8サイズで12個の特徴マップを作り、再び4x4にサブサンプリングをして、最終的に12x4x4=192の入力を有するニューラルネットワークとして学習してイメージを検出することができる。このように複数個の畳み込み層を連結してイメージの特徴を抜き出し、最終的に既存のような誤差逆伝搬ニューラルネットワークを用いて学習をさせることができる。CNNの長所は、人工ニューラルネットワーク学習を通してイメージの特徴を特徴化するフィルタを自ら作るということである。
【0069】
オブジェクト検出(Object Detection,客体検出)とは、コンピュータビジョンの下位分野のうちの一つであり、全体デジタルイメージおよびビデオ内で有意味な特定客体を感知する作業を行う。このようなobject detectionは、Image retrieval(イメージ検索)、Image annotation(イメージ注釈)、Face detection(顔検出)、Video Tracking(ビデオトラッキング)など多様な分野の問題を解決するために使われることができる。本発明でobject detectionは、一画面(またはイメージ)内にobjectとして分類したオブジェクト(客体)に対して、どの位置に(localization)どのような種類のobjectがあるか(classification)に関する情報を与えるものである。
【0070】
object detectionは二つで構成される。一つ目はobject自体が存在する位置を探し出すlocalizationであり、二つ目は該当localに存在するobjectが何か確認するclassificationである。一般的にobject detectionのディープラーニングネットワークは、2-Stage Detectorと1-Stage Detectorとに区分される。簡単に言えば、localizationとclassificationが別に行われれば2-Stage Detectorであり、同時に行われれば1-Stage Detectorである。2-Stageでは、まずobjectがあると思う領域を選択し、その領域それぞれに対してclassificationをする。1-Stageでは、この過程が同時に行われるため、速度がより早いとの長所がある。元々、2-Stageと1-Stageとでは、2-Stageは正確度が高いが遅く、1-Stageは早いが2-Stageよりは正確度が低いということで区分されていたが、最近は、1-Stage方法が2-Stageの正確度に追い付くにつれて1-Stage方法が脚光を浴びている。R-CNNは、CNNにRegion Proposalを追加して物体がありそうな所を提案し、その区域でobject detectionをする2-ステージディテクタ(2 Stage Detector)系列のアルゴリズムである。R-CNN系列モデルは、R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNNの計4種類がある。R-CNN、Fast R-CNN、Faster R-CNNはいずれもObject Detectionのためのモデルである。Mask R-CNNは、Faster R-CNNを拡張してInstance Segmentationに適用しようとするモデルである。Mask R-CNNは、Faster R-CNNに各ピクセルが客体であるか否かをmaskingするCNNを追加したものである。Mask R-CNNは、COCO challengesのすべてのtaskで以前のモデルよりも優れた性能を示すものとして知られている。図7dは、図7aの学習させる画面からMask-RCNNを適用して学習させる過程を例示する。
【0071】
SSD(Single Shot MultiBox Detector)、YOLO、DSSD(Deconvolutional Single Shot Detector)などは、1-ステージディテクタ(1 Stage Detector)系列のアルゴリズムである。1-ステージディテクタ(1 Stage Detector)系列のアルゴリズムは、物体がありそうな区域提示とobject detectionを分けずに同時に実行するため実行速度が早いという長所があることから、本発明の実施例では適用対象に応じて1-ステージディテクタまたは2-ステージディテクタを使用することができる。
【0072】
YOLOは、2-Stage object detectionモデルの遅いという短所を解決した最初のreal-time object detectorである。YOLOでは、convolution layerを通してfeature mapを抽出し、fully connected layerを経てすぐにbounding boxとclass probabilityを予測することができる。また、YOLOではinputイメージをSxS gridに分け、各grid領域に該当するbounding boxとconfidence、class probability mapを求めることができる。
【0073】
YOLOではイメージをgridで分けて各領域に対してbounding boxを予測したならば、SSDはCNN pyramidal feature hierarchyを利用して予測することができる。SSDでは、image featureを多様な位置のlayerで抽出してdetectorとclassifierを適用することができる。SSDは、YOLOよりも学習速度および認識速度や正確度の側面でより高い性能を示した。AI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させるための学習モデルに適用されたMask RCNN、YOLO、およびSSDの性能を比較すると、Mask RCNNは分類および位置探し正確度が相対的に高いが学習速度およびオブジェクト認識速度が相対的に遅く、YOLOは分類および位置探し正確度が相対的に低いが学習速度およびオブジェクト認識速度が早く、SSDは分類および位置探し正確度が相対的に早く、学習速度およびオブジェクト認識速度も早かった。
【0074】
DSSDは、既存のSSD(Single Shot MultiBox Detecotr)において性能向上のために、Context特徴を付加しようとDeconvolution演算を追加した。既存のSSDにDeconvolution演算を追加することにより、速度を相対的に維持しながら検出性能を高めようとした。特に、小さな客体(small object)に対してSSDの前部分で使われたVGG networkをResnet基盤のResidual-101に交替し、ネットワークでテストするとき、バッチ正規化過程を除去することによりテスト時間を1.2~1.5倍減らした。
【0075】
学習済み人工知能モデルの評価を通して人工知能モデルが生成される。学習済み人工知能モデルの評価は、テスト用データを使って遂行される。本発明の全体で「学習済み人工知能モデル」は、学習用データを学習させ生成された特別な言及がなくてもテスト用データを通してテストした後、学習されたモデルを決定したことを意味する。
【0076】
人工ニューラルネットワークは、生物学的ニューロンの動作原理とニューロン間の連結関係をモデリングしたものであり、ノード(node)または処理要素(processing element)という多数のニューロンがレイヤ(layer)構造の形態で連結された情報処理システムである。
【0077】
人工ニューラルネットワークは、機械学習で使われるモデルであり、機械学習と認知科学で生物学のニューラルネットワーク(動物の中枢神経系のうち特に脳)からインスピレーションを得た統計学的学習アルゴリズムである。
【0078】
具体的に、人工ニューラルネットワークは、シナプス(synapse)の結合でネットワークを形成した人工ニューロン(ノード)が学習を通してシナプスの結合強度を変化させて、問題解決能力を有するモデル全般を意味することができる。
【0079】
用語「人工ニューラルネットワーク」は、用語「ニューラルネットワーク」(Neural Network)と混用使用可能である。
【0080】
人工ニューラルネットワークは、複数の層(layer)を含むことができ、層それぞれは複数のニューロン(neuron)を含むことができる。また、人工ニューラルネットワークは、ニューロンとニューロンとを連結するシナプスを含むことができる。
【0081】
人工ニューラルネットワークは、一般的に次の3つの因子、すなわち、(1)異なる層のニューロン間の連結パターン、(2)連結の加重値を更新する学習過程、(3)以前の層から受信される入力に対する加重和から出力値を生成する活性化関数によって定義されることができる。
【0082】
人工ニューラルネットワークは、DNN(Deep Neural Network)、RNN(Recurrent Neural Network)、BRDNN(Bidirectional Recurrent Deep Neural Network)、MLP(Multilayer Perceptron)、CNN(Convolutional Neural Network)、R-CNN、Fast R-CNN、Faster R-CNN、およびMask-RCNNのような方式のネットワークモデルを含むことができるが、ここに限定されるものではない。
【0083】
本明細書で用語「レイヤ」は、用語「層」と混用使用可能である。
【0084】
人工ニューラルネットワークは、層数に応じて、単層ニューラルネットワーク(Single-Layer Neural Networks)と多層ニューラルネットワーク(Multi-Layer Neural Networks)とに区分される。
【0085】
一般的な単層ニューラルネットワークは、入力層と出力層とで構成される。
【0086】
また、一般的な多層ニューラルネットワークは、入力層(Input Layer)と一つ以上の隠れ層(Hidden Layer)と出力層(Output Layer)とで構成される。
【0087】
入力層は外部の資料を受け入れる層であり、入力層のニューロン数は入力される変数の数と同一であり、隠れ層は入力層と出力層との間に位置し、入力層から信号を受け取って特性を抽出して出力層に伝達する。出力層は、隠れ層から信号を受け取り、受信した信号に基づいた出力値を出力する。ニューロン間の入力信号はそれぞれの連結強度(加重値)と掛けられた後、合算され、この和がニューロンの臨界値よりも大きければニューロンが活性化されて活性化関数を通して受信した出力値を出力する。
【0088】
一方、入力層と出力層との間に複数の隠れ層を含むディープニューラルネットワークは、機械学習技術の一種であるディープラーニングを具現する代表的な人工ニューラルネットワークであり得る。
【0089】
一方、用語「ディープラーニング」は、用語「深層学習」と混用使用可能である。
【0090】
人工ニューラルネットワークは、訓練データ(training data)を利用して学習(training)することができる。ここで、学習とは、入力データを分類(classification)したり、回帰分析(regression)したり、群集化(clustering)したりするなどの目的を果たすために、学習データを利用して人工ニューラルネットワークのパラメータ(parameter)を決定する過程を意味することができる。人工ニューラルネットワークのパラメータの代表的な例として、シナプスに付与される加重値(weight)やニューロンに適用される偏向(bias)が挙げられる。
【0091】
訓練データによる学習済み人工ニューラルネットワークは、入力データを入力データが有するパターンによって分類または群集化することができる。
【0092】
一方、訓練データを利用した学習済み人工ニューラルネットワークを、本明細書では学習モデル(a trained model)と称することができる。
【0093】
次は、人工ニューラルネットワークの学習方式について説明する。
【0094】
人工ニューラルネットワークの学習方式は、大きく、教師あり学習、教師なし学習、半教師あり学習(Semi-Supervised Learning)、強化学習(Reinforcement Learning)に分類されることができる。
【0095】
教師あり学習は、訓練データから一つの関数を類推するための機械学習の一方法である。
【0096】
そして、このように類推される関数のうち、連続的な値を出力することを回帰分析(Regression)といい、入力ベクタのクラス(class)を推論して出力することを分類(Classification)ということができる。
【0097】
教師あり学習では、訓練データに対するラベル(label)が付けられた状態で人工ニューラルネットワークを学習させる。
【0098】
ここで、ラベルとは、訓練データが人工ニューラルネットワークに入力される場合、人工ニューラルネットワークが推論しなければならない正解(または結果値)を意味することができる。
【0099】
本明細書では訓練データが入力される場合、人工ニューラルネットワークが推論しなければならない正解(または結果値)をラベルまたはラベリングデータ(labeling data)と称する。
【0100】
また、本明細書では、人工ニューラルネットワークの学習のために訓練データにラベルを設定することを、訓練データにラベリングデータをラベリング(labeling)すると称する。
【0101】
この場合、訓練データと訓練データに対応するラベルは、一つのトレーニングセット(training set)を構成し、人工ニューラルネットワークにはトレーニングセットの形態で入力されることができる。
【0102】
一方、訓練データは、複数の特徴(feature)を示し、訓練データにラベルがラベリングされるということは、訓練データが示す特徴にラベルが付けられるということを意味することができる。この場合、訓練データは入力客体の特徴をベクタ形態で示すことができる。
【0103】
人工ニューラルネットワークは、訓練データとラベリングデータを利用して、訓練データとラベリングデータとの連関関係に対する関数を類推することができる。そして、人工ニューラルネットワークで類推された関数に対する評価を通して人工ニューラルネットワークのパラメータが決定(調整)されることができる。
【0104】
人工ニューラルネットワークは、モデルの構成、活性関数(Activation Function)、損失関数(Loss Function)または費用関数(Cost Function)、学習アルゴリズム、調整アルゴリズムなどによってその構造が特定され、学習前にハイパーパラメータ(Hyperparameter)があらかじめ設定され、以降、学習を通してモデルパラメータ(Model Parameter)が設定されて内容が特定されることができる。
【0105】
例えば、人工ニューラルネットワークの構造を決定する要素には、隠れ層の個数、各隠れ層に含まれた隠れノードの個数、入力特徴ベクタ(Input Feature Vector)、対象特徴ベクタ(Target Feature Vector)などが含まれることができる。
【0106】
ハイパーパラメータは、モデルパラメータの初期値などのように学習のために初期設定しなければならない色々なパラメータを含む。そして、モデルパラメータは、学習を通して決定しようとする色々なパラメータを含む。
【0107】
例えば、ハイパーパラメータにはノード間加重値初期値、ノード間偏向初期値、ミニバッチ(Mini-batch)サイズ、学習反復回数、学習率(Learning Rate)などが含まれることができる。そして、モデルパラメータにはノード間加重値、ノード間偏向などが含まれることができる。
【0108】
損失関数は、人工ニューラルネットワークの学習過程で最適のモデルパラメータを決定するための指標(基準)として利用されることができる。人工ニューラルネットワークで学習は損失関数を減らすためにモデルパラメータを操作する過程を意味し、学習の目的は損失関数を最小化するモデルパラメータを決定することと見ることができる。
【0109】
損失関数は、主に平均二乗誤差(MSE:Mean Squared Error)または交差エントロピー誤差(CEE:Cross Entropy Error)を使用することができ、本発明はこれに限定されるものではない。
【0110】
交差エントロピー誤差は、正解ラベルがワンホットエンコーディング(one-hot encoding)された場合に使われることができる。ワンホットエンコーディングは、正解に該当するニューロンについてのみ正解ラベル値を1と設定し、正解ではないニューロンは正解ラベル値を0と設定するエンコーディング方法である。
【0111】
機械学習またはディープラーニングでは損失関数を最小化するために学習調整アルゴリズムを利用することができ、学習調整アルゴリズムには勾配降下法(GD:Gradient Descent)、確率的勾配降下法(SGD:Stochastic Gradient Descent)、モメンタム(Momentum)、NAG(Nesterov Accelerate Gradient)、Adagrad、AdaDelta、RMSProp、Adam、Nadamなどがある。
【0112】
勾配降下法は、現在状態で損失関数の傾きを考慮して損失関数値を減らす方向でモデルパラメータを調整する技法である。
【0113】
モデルパラメータを調整する方向はステップ(step)方向、調整する大きさはステップサイズ(size)と称する。
【0114】
このとき、ステップサイズは学習率を意味することができる。
【0115】
勾配降下法は、損失関数を各モデルパラメータで偏微分して傾きを獲得し、モデルパラメータを獲得した傾き方向に学習率だけ変更して更新することができる。
【0116】
確率的勾配降下法は、学習データをミニバッチに分け、各ミニバッチごとに勾配降下法を遂行して勾配降下の頻度を高めた技法である。
【0117】
Adagrad、AdaDeltaおよびRMSPropは、SGDでステップサイズを調節して調整正確度を高める技法である。SGDでモメンタムおよびNAGはステップ方向を調節して調整正確度を高める技法である。Adamは、モメンタムとRMSPropとを組み合わせてステップサイズとステップ方向を調節して調整正確度を高める技法である。Nadamは、NAGとRMSPropとを組み合わせてステップサイズとステップ方向を調節して調整正確度を高める技法である。
【0118】
人工ニューラルネットワークの学習速度と正確度は、人工ニューラルネットワークの構造と学習調整アルゴリズムの種類だけでなく、ハイパーパラメータに大きく左右される特徴がある。したがって、良い学習モデルを獲得するためには、適切な人工ニューラルネットワークの構造と学習アルゴリズムを決定するだけでなく、適切なハイパーパラメータを設定することが重要である。
【0119】
通常、ハイパーパラメータは実験的に多様な値に設定され、人工ニューラルネットワークを学習させてみて、学習の結果、安定的な学習速度と正確度を提供する最適の値に設定する。
【0120】
図5は、ブラウザ画面で学習済み人工知能モデルを通してオブジェクトの位置を推論した結果を示した例示図である。
【0121】
図5の画面イメージから図4のAIスクリーン学習モデルの学習結果としてブラウザの検索バー(search bar)の位置401が特定される。検索バー401の入力ウィンドウであるオブジェクトの位置を特定するイベント以外にも、ブラウザの該当サイトで他のアイコンをクリックするイベントを発生させるために、クリックするアイコンをオブジェクトのデータおよびオブジェクトの位置を特定したデータを学習データセットとして、学習させたAIスクリーン学習モデルの学習結果としてアイコンの位置を特定することができる。
【0122】
図6は、PCデスクトップで学習済み人工知能モデルを通してオブジェクトの位置を推論した結果を示した例示図である。
【0123】
複数の検索ウィンドウおよびチャットウィンドウがある場合にも所望の検索バー401、オブジェクトであるログイン410、会社名420、ID430、およびパスワード440の位置を特定することができる。
【0124】
図7aは、図4による画面のオブジェクトの位置を推論する人工知能モデルを学習させる画面を示した例示図である。
【0125】
ユーザPC画面は学習させる画面イメージ400になる。AIスクリーンエージェント110は、ウェブ基盤ITオペレーティング管理システムプラットホーム200のAIスクリーン230にユーザPCの画面イメージ400を伝送し、学習済みAIモデル232を含むAIスクリーン230から画面上のオブジェクトの位置を推論した情報データを要請することができる(S308)。
【0126】
図7bは、図4による画面のオブジェクトの位置を推論する人工知能モデルを学習させる画面でオブジェクトにラベリングをした例示図である。
【0127】
データ処理部234は、ユーザPCから画面イメージ400を受信してオブジェクトであるログイン410、会社名420、ID430、およびパスワード440のラベリングを遂行する。
【0128】
他の実施例において、他のデータベースから画面イメージ400のデータおよび画面イメージ400に対する各オブジェクトの位置がラベリングされたデータセットの提供を受けることができる。
【0129】
図7cは、図4による画面のオブジェクトの位置を推論する人工知能モデルを学習させた後、オブジェクトを実際認識した結果の例示図である。
【0130】
学習済みAIスクリーン学習モデルを通してAIスクリーン230はオブジェクトの位置を伝送する。
【0131】
図7dは、図7aの学習させる画面からMask-RCNNを適用して学習させる過程を示した例示図である。
【0132】
図7dの画面イメージ400で既存のFaster RCNN過程を実行して物体を検出する。既存のFaster RCNNでRoI poolingはオブジェクト検出(object detection)のためのモデルであったため、正確な位置情報を含めることは重要ではなく、よってRoIが小数点座標を持つならば座標を四捨五入する形で移動させた後、プーリング(pooling)を進行した。マスク(mask)をかけるときは(segmentation)小数点を四捨五入すると位置情報が歪曲されるため、位置情報が重要である。したがって、双線形補間法(bilinear interpolation)を利用して位置情報を含めるRoI alignを利用する。RoI alignとしてconvを利用して特徴マップ(feature map)を抜き出し、その特徴マップからRoIを抜き出してクラス別に分類し、マスキング(masking)を並行してオブジェクトを検出する。
【0133】
以上、説明された本発明による実施例は、コンピュータ上で多様な構成要素を通して実行可能なコンピュータプログラムの形態で具現されることができ、このようなコンピュータプログラムはコンピュータで読み取り可能な媒体に記録されることができる。このとき、媒体は、ハードディスク、フロッピーディスクおよび磁気テープのような磁気媒体、CD-ROMおよびDVDのような光記録媒体、フロプティカルディスク(floptical disk)のような磁気光媒体(magneto-optical medium)、およびROM、RAM、フラッシュメモリなどのような、プログラム命令語を保存し実行するように特別に構成されたハードウェア装置を含むことができる。
【0134】
一方、上記コンピュータプログラムは、本発明のために特別に設計され構成されたものでもよく、コンピュータソフトウェア分野の当業者に公知となって使用可能なものであってもよい。コンピュータプログラムの例には、コンパイラによって作られるもののような機械語コードだけでなくインタプリタなどを用いてコンピュータによって実行可能な高級言語コードも含まれることができる。
【0135】
本発明の明細書(特に、特許請求の範囲)で「上記」との用語およびこれと類似の指示用語の使用は単数および複数いずれにも該当するものであり得る。また、本発明で範囲(range)を記載した場合、上記範囲に属する個別的な値を適用した発明を含むものであり(これに反する記載がなければ)、発明の詳細な説明に上記範囲を構成する各個別的な値を記載したものと同じである。
【0136】
本発明による方法を構成する段階について明白に順序を記載するか反する記載がなければ、上記段階は適当な順序で行われることができる。必ずしも上記段階の記載順序によって本発明が限定されるものではない。本発明であらゆる例または例示的な用語(例えば、等々)の使用は、単純に本発明を詳しく説明するためのものであって、特許請求の範囲によって限定されない以上、上記例または例示的な用語によって本発明の範囲が限定されるものではない。また、当業者は多様な修正、組み合わせおよび変更が付加された特許請求の範囲またはその均等物の範疇内で設計条件およびファクタに応じて構成できることが分かる。
【0137】
したがって、本発明の思想は上記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、この特許請求の範囲と均等なまたはそれから等価的に変更されたすべての範囲は本発明の思想の範疇に属すると言える。
【符号の説明】
【0138】
100:ユーザPC
102:メモリ
103:通信部
104:入力/出力インターフェース
110:AIスクリーンエージェント
112:AIウェブソケット
120:ユーザPC画面
131:データ収集部
132:人工知能モデル学習部
133:オブジェクト検出部
134:オブジェクト制御部
200:ITオペレーティング管理システムプラットホーム
210:ITオペレーティング管理システムホームページ
212:スケジューラボタン
222:AIウェブソケット
230:ITオペレーティング管理システムAIスクリーン
232:AIスクリーン学習モデル
234:データ処理部
図1
図2
図3
図4
図5
図6
図7a
図7b
図7c
図7d
【手続補正書】
【提出日】2023-08-03
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
AI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法であって、
ユーザPCでウェブ基盤ITオペレーティング管理システムプラットホームに接続してスケジューラにスケジュールを登録する段階;
スケジューラにスケジュールが登録されれば、ウェブ基盤ITオペレーティング管理システムプラットホームのAIウェブソケットにスケジュールの登録を知らせる段階;
上記ウェブ基盤ITオペレーティング管理システムプラットホームのAIウェブソケットから所定時間にユーザPCのAIスクリーンエージェント(Agent)のAIウェブソケットに通信を介してスケジューラの開始を知らせるデータを伝送する段階;
AIスクリーンエージェントがウェブ基盤ITオペレーティング管理システムプラットホームのAIスクリーンにユーザPCの画面イメージを伝送し、画面イメージからオブジェクト位置を学習したAIモデルを含むAIスクリーンから画面上の一つ以上のオブジェクトの位置を推論する情報データを要請する段階;
AIスクリーンが伝送された画面イメージからAIスクリーンの学習済みAIモデルを通して画面の一つ以上のオブジェクトの位置を推論する段階;
推論された一つ以上のオブジェクトの位置に関する情報データをAIスクリーンエージェントのAIウェブソケットに通信を介して伝送する段階;および
AIスクリーンエージェントが伝送されたデータを基にユーザPCの画面で一つ以上のオブジェクトに対するイベントを発生させる段階;を含み、
AIスクリーンのAIモデルは、全体画面のイメージおよび上記全体画面の一つ以上のイメージにラベリングされたオブジェクトの位置を学習データとして、全体画面で一つ以上のオブジェクトのイベントを発生させるオブジェクト位置を推論した結果データを出力する、
AI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法。
【請求項2】
AIモデルは一画面内においてどの位置に(localization)どのような種類のオブジェクトがあるか(classification)に関する情報を与えるオブジェクト検出器(object detector)の機能を遂行するために学習され、
オブジェクト検出器は、オブジェクト自体が存在する位置を探し出す位置探し(localization)ステージ、および探し出された位置(local)に存在するオブジェクトが何か確認する分類(classification)ステージを順次遂行する2ステージ検出器(2 stage detector)であるか、または、
位置探し(localization stage)および分類(classification stage)を同時に遂行する1ステージ検出器(one stage detector)である、
請求項1に記載のAI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法。
【請求項3】
1ステージ検出器は、SSD(Single Shot MultiBox Detector)、またはYOLO、またはDSSD(Deconvolutional Single Shot Detector)である、
請求項2に記載のAI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法。
【請求項4】
上記一つ以上のオブジェクトは、選択されることができるコンピュータ画面上のコンソールウィンドウ、Windowsのウィンドウ、チャットウィンドウ、選択されることができるリンク、選択されることができるボタン、情報の入力が可能なカーソル位置、ID入力位置、パスワード入力位置、検索バー入力位置のうち一つ以上である、
請求項1に記載のAI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法。
【請求項5】
AI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法であって、
ユーザPCでウェブ基盤ITオペレーティング管理システムプラットホームに接続してスケジューラにスケジュールを登録する段階;
スケジューラにスケジュールが登録されれば、ウェブ基盤ITオペレーティング管理システムプラットホームのAIウェブソケットにスケジュールの登録を知らせる段階;
上記ウェブ基盤ITオペレーティング管理システムプラットホームのAIウェブソケットから所定時間にユーザPCのAIスクリーンエージェント(Agent)のAIウェブソケットに通信を介してスケジューラの開始を知らせるデータを伝送する段階;
AIスクリーンエージェントがAIスクリーンエージェント内のAIスクリーンでユーザPCの画面イメージからオブジェクト位置を学習したAIモデルを含むAIスクリーンから画面上の一つ以上のオブジェクトの位置を推論する情報データを要請する段階;
AIスクリーンが画面イメージからAIスクリーンの学習済みAIモデルを通して画面の一つ以上のオブジェクトの位置を推論する段階;および
AIスクリーンエージェントがAIスクリーンエージェント内のAIスクリーンで推論した一つ以上のオブジェクトの位置を基にユーザPCの画面で一つ以上のオブジェクトに対するイベントを発生させる段階;を含み、
AIスクリーンのAIモデルは、全体画面のイメージおよび上記全体画面の一つ以上のイメージにラベリングされたオブジェクトの位置を学習データとして、全体画面で一つ以上のオブジェクトのイベントを発生させるオブジェクト位置を推論した結果データを出力する、
AI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法。
【請求項6】
AIモデルは一画面内においてどの位置に(localization)どのような種類のオブジェクトがあるか(classification)に関する情報を与えるオブジェクト検出器(object detector)の機能を遂行するために学習され、
オブジェクト検出器は、オブジェクト自体が存在する位置を探し出す位置探し(localization)ステージ、および探し出された位置(local)に存在するオブジェクトが何か確認する分類(classification)ステージを順次遂行する2ステージ検出器(2 stage detector)であるか、または、
位置探し(localization stage)および分類(classification stage)を同時に遂行する1ステージ検出器(one stage detector)である、
請求項5に記載のAI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法。
【請求項7】
1ステージ検出器は、SSD(Single Shot MultiBox Detector)、またはYOLO、またはDSSD(Deconvolutional Single Shot Detector)である、
請求項6に記載のAI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる方法。
【請求項8】
コンピュータを用いて請求項1~7のいずれか一項に係る画面上のオブジェクトにイベントを発生させる方法を遂行するようにプログラミングされたプログラムを保存したコンピュータ読み取り可能な記録媒体。
【請求項9】
AI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させるシステムであって、
上記システムは、AIスクリーンエージェントを含むユーザPC;および
ウェブ基盤ITオペレーティング管理システムプラットホームを含むサーバ;を含み、
上記AIスクリーンエージェントは、ウェブ基盤ITオペレーティング管理システムプラットホームに接続してスケジューラにスケジュールを登録し、
上記サーバは、スケジューラにスケジュールが登録されれば、上記サーバ内のウェブ基盤ITオペレーティング管理システムプラットホームのAIウェブソケットにスケジュールの登録を知らせ、上記ウェブ基盤ITオペレーティング管理システムプラットホームのAIウェブソケットから所定時間にユーザPCのAIスクリーンエージェント(Agent)のAIウェブソケットに通信を介してスケジューラの開始を知らせるデータを伝送し、
上記ユーザPCのAIスクリーンエージェントは、ウェブ基盤ITオペレーティング管理システムプラットホームのAIスクリーンにユーザPCの画面イメージを伝送し、画面イメージからオブジェクト位置を学習したAIモデルを含むAIスクリーンから画面上の一つ以上のオブジェクトの位置を推論した情報データを要請し、
上記AIスクリーンは、伝送された画面イメージからAIスクリーンの学習済みAIモデルを通して画面の一つ以上のオブジェクトの位置を推論し、推論された一つ以上のオブジェクトの位置に関する情報データをAIスクリーンエージェントのAIウェブソケットに通信を介して伝送し、そして、
上記AIスクリーンエージェントは、伝送されたデータを基にユーザPCの画面で一つ以上のオブジェクトに対するイベントを発生させ、
学習済みAIモデルは、全体画面のイメージおよび上記全体画面の一つ以上のイメージにラベリングされたオブジェクトの位置を学習データとして、全体画面で一つ以上のオブジェクトのイベントを発生させるオブジェクト位置を推論した結果データを出力する、
AI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させるシステム。
【請求項10】
AIモデルは一画面内においてどの位置に(localization)どのような種類のオブジェクトがあるか(classification)に関する情報を与えるオブジェクト検出器(object detector)の機能を遂行するために学習され、
オブジェクト検出器は、オブジェクト自体が存在する位置を探し出す位置探し(localization)ステージ、および探し出された位置(local)に存在するオブジェクトが何か確認する分類(classification)ステージを順次遂行する2ステージ検出器(2 stage detector)であるか、または、
位置探し(localization stage)および分類(classification stage)を同時に遂行する1ステージ検出器(one stage detector)である、
請求項9に記載のAI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させるシステム。
【請求項11】
コンピュータ内でAI基盤で画面情報を認知して画面上のオブジェクトにイベントを発生させる画面オブジェクト制御装置であって、
AIスクリーンエージェント;を含み、
AIスクリーンエージェントは、
コンピュータ画面上に表示されたオブジェクトの位置を学習させオブジェクトにイベントを発生させるために、コンピュータのディスプレイ装置から全体画面に関するデータおよび画面上に表示されたオブジェクトの位置データを収集するデータ収集部、
収集されたデータを基礎としてディープニューラルネットワークを介して学習させる人工知能モデル学習部、
人工知能モデル学習部で学習された結果を基礎として、画面内オブジェクトを検出する画面オブジェクト検出部、および
オブジェクト検出部で検出し分類した全体画面上のオブジェクト位置を基礎としてオブジェクトにイベントを発生させる画面オブジェクト制御部を含み、
上記人工知能モデル学習部から学習されたAIモデルは、全体画面のイメージおよび上記全体画面の一つ以上のイメージにラベリングされたオブジェクトの位置を学習データとして、全体画面で一つ以上のオブジェクトのイベントを発生させるオブジェクト位置を推論した結果データを出力する、
画面オブジェクト制御装置。
【請求項12】
AIモデルは一画面内においてどの位置に(localization)どのような種類のオブジェクトがあるか(classification)に関する情報を与えるオブジェクト検出器(object detector)の機能を遂行するために学習され、
オブジェクト検出器は、オブジェクト自体が存在する位置を探し出す位置探し(localization)ステージ、および探し出された位置(local)に存在するオブジェクトが何か確認する分類(classification)ステージを順次遂行する2ステージ検出器(2 stage detector)であるか、または、
位置探し(localization stage)および分類(classification stage)を同時に遂行する1ステージ検出器(one stage detector)である、
請求項11に記載の画面オブジェクト制御装置。
【請求項13】
スケジュールを登録するスケジューラ登録部をさらに含み、
上記スケジューラ登録部は、AIスクリーンエージェント110にスケジュールの登録を知らせ、所定時間にコンピュータ内でスケジューラの開始を知らせる、
請求項11に記載の画面オブジェクト制御装置。
【国際調査報告】