特開2023-20532 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ エムオーテックス株式会社の特許一覧

特開2023-20532情報処理システム、情報処理方法および情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023020532

(43)【公開日】2023-02-09

(54)【発明の名称】情報処理システム、情報処理方法および情報処理プログラム

(51)【国際特許分類】

G06F 16/951 20190101AFI20230202BHJP

【ＦＩ】

G06F16/951

【審査請求】有

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2021125943

(22)【出願日】2021-07-30

(71)【出願人】

【識別番号】594027074

【氏名又は名称】エムオーテックス株式会社

(74)【代理人】

【識別番号】110000338

【氏名又は名称】弁理士法人ＨＡＲＡＫＥＮＺＯＷＯＲＬＤＰＡＴＥＮＴ＆ＴＲＡＤＥＭＡＲＫ

(72)【発明者】

【氏名】金原将人

(72)【発明者】

【氏名】▲曹▼ 炯旭

(72)【発明者】

【氏名】小原岳士

(72)【発明者】

【氏名】西悠介

(72)【発明者】

【氏名】井出有加

(72)【発明者】

【氏名】永井雄志郎

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175EA05

5B175FB04

5B175GB05

(57)【要約】

【課題】アプリケーションにより表示された表示画像に基づいて各入力対象に好適に入力可能な情報処理システムを実現する。
【解決手段】情報処理システム（１）が備えるクローラーサーバ（１１）およびＡＩサーバ（１２）は、アプリケーションにより表示された表示画像を取得する取得処理と、第１の学習モデル（Ｍ１）を用いて、表示画像を入力として各入力対象の位置を推定する推定処理と、各入力対象の位置を指定して入力を行う入力処理とを実行する。
【選択図】図１

【特許請求の範囲】

【請求項1】

１以上のコンピュータを備え、
前記１以上のコンピュータが、
アプリケーションによって表示された表示画像を取得する取得処理と、
１以上のコンポネントが含まれる学習画像と、当該コンポネントに関する情報との組を教師データとして機械学習を行うことにより生成された第１の学習モデルを用いて、前記取得処理において取得した前記表示画像を入力として、当該表示画像に含まれる前記コンポネントのうちの各入力対象の位置を推定する推定処理と、
前記推定処理において推定した前記各入力対象の位置を指定して前記アプリケーションに対する入力を行う入力処理と、
を実行することを特徴とする情報処理システム。

【請求項2】

前記コンポネントに関する情報は、前記コンポネントの座標、前記コンポネントの種類、コンポネント間の関連性を示す情報、および、前記コンポネントの文字情報の少なくとも１つを含むことを特徴とする請求項１に記載の情報処理システム。

【請求項3】

前記推定処理では、前記１以上のコンピュータが、前記各入力対象の周辺のコンポネントに関する情報を参照して、前記各入力対象に入力する入力情報をさらに推定し、
前記入力処理では、前記１以上のコンピュータが、前記推定処理において推定した前記入力情報を前記各入力対象に入力することを特徴とする請求項１または２に記載の情報処理システム。

【請求項4】

前記推定処理では、前記１以上のコンピュータが、第２の学習モデルを用いて、前記表示画像を入力として、前記入力情報を推定し、
前記入力処理では、前記１以上のコンピュータが、前記アプリケーションに対し、前記推定処理において推定した情報の前記各入力対象への入力が成功したか否かを判定し、
前記第２の学習モデルは、前記各入力対象の周辺のコンポネントに関する情報と、前記入力処理において前記各入力対象に対する入力が成功した情報との組を教師データとして機械学習を行うことにより生成されたものであることを特徴とする請求項３に記載の情報処理システム。

【請求項5】

前記推定処理では、前記１以上のコンピュータが、前記コンポネントに関する情報を参照して、当該表示画像の内容を推定し、当該表示画像の内容を参照して前記入力情報を推定することを特徴とする請求項３または４に記載の情報処理システム。

【請求項6】

前記推定処理では、前記１以上のコンピュータが、前記コンポネントに関する情報と、前記学習画像の内容との組を教師データとして機械学習を行うことにより生成された第３の学習モデルを用いて、前記表示画像を入力として、当該表示画像の内容を推定することを特徴とする請求項５に記載の情報処理システム。

【請求項7】

前記１以上のコンピュータが、前記入力処理を行った後に、前記取得処理を行うことによって、前記表示画像がどのように遷移するのかを特定する特定処理をさらに実行することを特徴とする請求項１～６のいずれか１項に記載の情報処理システム。

【請求項8】

前記アプリケーションはウェブブラウザであり、
前記取得処理では、前記１以上のコンピュータが、前記アプリケーションによる通信内容をさらに取得することを特徴とする請求項１～７のいずれか１項に記載の情報処理システム。

【請求項9】

前記第１の学習モデルは、ウェブブラウザによって表示されたウェブページを示す学習画像と、当該ウェブページのソースから算出されたコンポネントに関する情報との組を教師データとして機械学習したものであることを特徴とする請求項１～８のいずれか１項に記載の情報処理システム。

【請求項10】

１以上のコンピュータが、
アプリケーションによって表示された表示画像を取得する取得処理と、
１以上のコンポネントが含まれる学習画像と、当該コンポネントに関する情報との組を教師データとして機械学習した第１の学習モデルを用いて、前記取得処理において取得した前記表示画像を入力として、当該表示画像に含まれる前記コンポネントのうちの各入力対象の位置を推定する推定処理と、
前記推定処理において推定した前記各入力対象の位置を指定して前記アプリケーションに対する入力を行う入力処理と、
を実行することを特徴とする情報処理方法。

【請求項11】

１以上のコンピュータに、
アプリケーションによって表示された表示画像を取得する取得処理と、
１以上のコンポネントが含まれる学習画像と、当該コンポネントに関する情報との組を教師データとして機械学習した第１の学習モデルを用いて、前記取得処理において取得した前記表示画像を入力として、当該表示画像に含まれる前記コンポネントのうちの各入力対象の位置を推定する推定処理と、
前記推定処理において推定した前記各入力対象の位置を指定して前記アプリケーションに対する入力を行う入力処理と、
を実行させる情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理システム、情報処理方法および情報処理プログラムに関する。

【背景技術】

【0002】

ウェブブラウザによって表示されたウェブページのソースを分析し、ウェブページを巡回するクローリングという技術が従来から存在している。

【0003】

例えば、特許文献１には、ＵＲＬのウェブページを辿ることにより、インターネットに対するクローリングを行いながら、それらのウェブページごとに含まれる検索対象の情報を収集する情報収集手段を備える検索システムが記載されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０２１－２３０２号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかし、耐クローリング性を有するウェブページなどの出現により、従来のようにソースの分析に基づいてクローリングをすることが難しくなった。

【0006】

そこで、本発明者らは独自の知見に基づき、ウェブページなどの表示画像のソースの分析の代わりにアプリケーションにより表示された表示画像に基づき、表示画像に含まれる各入力対象に自動的に入力を行い、クローリングを行うための技術を鋭意開発している。

【0007】

そのためには、アプリケーションによって表示された表示画像に基づいて各入力対象に好適に入力を行うことが可能な技術が必要となる。

【0008】

そこで、本発明の一態様は、アプリケーションによって表示された表示画像に基づいて各入力対象に好適に入力を行うことが可能な情報処理システムおよびその関連技術を実現することを主たる目的とする。

【課題を解決するための手段】

【0009】

上記の課題を解決するために、本発明の一態様に係る情報処理システムは、１以上のコンピュータを備え、前記１以上のコンピュータが、アプリケーションによって表示された表示画像を取得する取得処理と、１以上の入力対象が含まれる学習画像と、当該１以上の入力対象の各々の位置との組を教師データとして機械学習した第１の学習モデルを用いて、前記取得処理において取得した前記表示画像を入力として、当該表示画像に含まれる各入力対象の位置を推定する推定処理と、前記推定処理において推定した前記各入力対象の位置を指定して前記アプリケーションに対する入力を行う入力処理と、を実行する。

【0010】

本発明の一態様に係る情報処理方法は、１以上のコンピュータが、アプリケーションによって表示された表示画像を取得する取得処理と、１以上の入力対象が含まれる学習画像と、当該１以上の入力対象の各々の位置との組を教師データとして機械学習した第１の学習モデルを用いて、前記取得処理において取得した前記表示画像を入力として、当該表示画像に含まれる各入力対象の位置を推定する推定処理と、前記推定処理において推定した前記各入力対象の位置を指定して前記アプリケーションに対する入力を行う入力処理と、を実行する。

【0011】

本発明の一態様に係る情報処理プログラムは、１以上のコンピュータに、アプリケーションによって表示された表示画像を取得する取得処理と、１以上の入力対象が含まれる学習画像と、当該１以上の入力対象の各々の位置との組を教師データとして機械学習した第１の学習モデルを用いて、前記取得処理において取得した表示画像を入力として、当該表示画像に含まれる各入力対象の位置を推定する推定処理と、前記推定処理において推定した前記各入力対象の位置を指定して前記アプリケーションに対する入力を行う入力処理と、を実行させる。

【発明の効果】

【0012】

本発明の一態様によれば、アプリケーションによって表示された表示画像に基づいて各入力対象に好適に入力を行うことが可能な情報処理システムおよびその関連技術を実現できる。

【図面の簡単な説明】

【0013】

【図1】実施形態１に係る情報処理システムの構成の一例を示すブロック図である。

【図2】実施形態１に係る情報処理方法の一例を示すフロー図である。

【図3】アプリケーションによって表示される表示画像の一例を示す図である。

【図4】実施形態２に係る情報処理システムの構成の一例を示すブロック図である。

【図5】実施形態２に係る情報処理方法の一例を示すフロー図である。

【図6】特定処理によって特定された表示画像の遷移パターンの一例を示す図である。

【図7】実施形態３に係る情報処理システムの構成の一例を示すブロック図である。

【図8】実施形態３に係る情報処理方法の一例を示すフロー図である。

【図9】第１のデータベースの一例を示す図である。

【図10】実施形態４に係る情報処理システムの構成の一例を示すブロック図である。

【図11】実施形態４に係る情報処理方法の一例を示すフロー図である。

【図12】第２のデータベースの一例を示す図である。

【発明を実施するための形態】

【0014】

＜実施形態１＞
図１～４を用いて実施形態１を説明する。図１は、本発明の実施形態１に係る情報処理システム１の構成の一例を示すブロック図である。

【0015】

〔情報処理システム１〕
図１のように、情報処理システム１は、クローラーサーバ（コンピュータ）１１と、ＡＩ（Artificial Intelligence：人工知能）サーバ（コンピュータ）１２とを備えている。クローラーサーバ１１およびＡＩサーバ１２は、後述の情報処理方法Ｓ１を実行する。

【0016】

［クローラーサーバ１１］
クローラーサーバ１１は、情報処理方法Ｓ１における取得処理Ｓ１１と送信処理Ｓ１２と受信処理Ｓ１６と入力処理Ｓ１７とを実行することにより、アプリケーションにより表示された表示画像を遷移させながら表示画像を取得するクローリング処理を実行する。

【0017】

クローラーサーバ１１としては、前述の各処理を実行できるものであれば、任意のものコンピュータを用いることができる。

【0018】

図１に示すように、クローラーサーバ１１は、メモリ１１１と、プロセッサ１１２と、ストレージ１１３と、を備える。メモリ１１１と、プロセッサ１１２と、ストレージ１１３とは、不図示のバスを介して互いに接続されている。このバスには、さらに、不図示の入出力インタフェース、および、不図示の通信インタフェースが接続されていてもよい。

【0019】

入出力インタフェースは、例えば、クローラーサーバ１１が端末などの不図示の外部装置からアプリケーションによって表示された表示画像および学習画像の入力を受け付ける入力処理を実行するために利用される。

【0020】

通信インタフェースは、例えば、クローラーサーバ１１とＡＩサーバ１２とが以下の処理を実行するために利用される。
・クローラーサーバ１１が、取得処理Ｓ１１において取得した表示画像をＡＩサーバ１２に送信する送信処理Ｓ１２
・ＡＩサーバ１２が、推定処理Ｓ１４において推定した各入力対象の位置をクローラーサーバ１１がＡＩサーバ１２から受信する受信処理Ｓ１６
（メモリ１１１）
メモリ１１１は、クローラーサーバ１１が、情報処理方法Ｓ１における取得処理Ｓ１１と、送信処理Ｓ１２と、受信処理Ｓ１６と、入力処理Ｓ１７とを実行するための情報処理プログラムＰ１、および、あらかじめ入力されている各入力対象に入力する入力情報の候補を記憶するための構成である。

【0021】

メモリ１１１としては、例えば、半導体ＲＡＭ（Random Access Memory）などが挙げられる。

【0022】

（プロセッサ１１２）
プロセッサ１１２は、メモリ１１１に記憶された情報処理プログラムＰ１に従って、情報処理方法Ｓ１における取得処理Ｓ１１と、送信処理Ｓ１２と、受信処理Ｓ１６と、入力処理Ｓ１７と、を実行するための構成である。

【0023】

プロセッサ１１２としては、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、マイクロプロセッサ、デジタルシグナルプロセッサ、マイクロコントローラおよびＴＰＵ（Tensor Processing Unit）などのＡＳＩＣ（Application Specific Integrated Circuit）ならびに、これらの組み合わせなどが挙げられる。

【0024】

（ストレージ１１３）
ストレージ１１３は、前述の情報処理プログラムＰ１を格納（不揮発保存）するための構成である。プロセッサ１１２は、情報処理方法Ｓ１を実行する際に、ストレージ１１３に格納された情報処理プログラムＰ１をメモリ１１１上に展開して参照する。

【0025】

ストレージ１１３としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、および、これらの組み合わせなどが挙げられる。

【0026】

［ＡＩサーバ１２］
ＡＩサーバ１２は、情報処理方法Ｓ１における受信処理Ｓ１３と、推定処理Ｓ１４と、送信処理Ｓ１５と、を実行する。

【0027】

ＡＩサーバ１２としては、前述の各処理を実行できるものであれば任意のものコンピュータを用いることができる。

【0028】

図１に示すように、ＡＩサーバ１２は、メモリ１２１と、プロセッサ１２２と、ストレージ１２３と、を備える。メモリ１２１と、プロセッサ１２２と、ストレージ１２３とは、不図示のバスを介して互いに接続されている。このバスには、さらに、不図示の通信インタフェースが接続されていてもよい。

【0029】

通信インタフェースは、例えば、ＡＩサーバ１２とクローラーサーバ１１とが以下の処理を実行するために利用される。
・クローラーサーバ１１が取得処理Ｓ１１において取得した表示画像を、ＡＩサーバ１２が受信する受信処理Ｓ１３
・ＡＩサーバ１２が、アプリケーションによって表示された表示画像に含まれる各入力対象の位置など、推定処理Ｓ１４において推定したものをクローラーサーバ１１に送信する送信処理Ｓ１５

【0030】

（メモリ１２１）
メモリ１２１は、ＡＩサーバ１２が情報処理方法Ｓ１における受信処理Ｓ１３と、推定処理Ｓ１４と、送信処理Ｓ１５とを実行するための情報処理プログラムＰ２を記憶するための構成であり、例えば、半導体ＲＡＭなどが挙げられる。

【0031】

メモリ１２１は、１以上のコンポネントが含まれる学習画像と、当該コンポネントに関する情報との組を教師データとして機械学習した第１の学習モデルＭ１を記憶するための構成でもある。また、メモリ１２１は、推定処理Ｓ１４において参照される第１のデータベースＤＢ１を記憶するための構成でもある。

【0032】

（プロセッサ１２２）
プロセッサ１２２は、メモリ１２１に記憶された情報処理プログラムＰ２に従って、情報処理方法Ｓ１における受信処理Ｓ１３と、推定処理Ｓ１４と、送信処理Ｓ１５と、を実行するための構成である。

【0033】

プロセッサ１２２としては、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、マイクロプロセッサ、デジタルシグナルプロセッサ、マイクロコントローラおよびＴＰＵ（Tensor Processing Unit）などのＡＳＩＣ（Application Specific Integrated Circuit）ならびに、これらの組み合わせなどが挙げられる。

【0034】

（ストレージ１２３）
ストレージ１２３は、前述の情報処理プログラムＰ２を格納（不揮発保存）するための構成である。プロセッサ１２２は、情報処理方法Ｓ１を実行する際に、ストレージ１２３に格納された情報処理プログラムＰ２をメモリ１２１上に展開して参照する。ストレージ１２３としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、および、これらの組み合わせなどが挙げられる。

【0035】

〔情報処理方法Ｓ１〕
次に、図２を用いて実施形態１に係る情報処理方法Ｓ１を説明する。図２は、実施形態１に係る情報処理方法Ｓ１の一例を示すフロー図である。

【0036】

図２に示すように、情報処理方法Ｓ１は、取得処理Ｓ１１と、送信処理Ｓ１２と、受信処理Ｓ１３と、推定処理Ｓ１４と、送信処理Ｓ１５と、受信処理Ｓ１６と、入力処理Ｓ１７と、を含み、情報処理システム１によってこの順で実行される。

【0037】

［取得処理Ｓ１１］
クローラーサーバ１１は、端末などの外部装置から、アプリケーションによって表示された表示画像を取得する取得処理Ｓ１１を実行する。

【0038】

アプリケーションとしては、例えば、グラフィックユーザインタフェース（ＧＵＩ:graphical user interface）などの各入力対象を含む表示画像を表示可能なウェブブラウザ、スマホアプリおよびデスクトップアプリなどが挙げられる。表示画像としては、端末などの外部装置のディスプレイにおけるアプリケーションの表示領域に表示されるウェブページなどの画像が挙げられる。

【0039】

クローラーサーバ１１は、表示画像を取得できれば任意の方法によって表示画像を取得してよく、例えば、スクリーンショットのような、ディスプレイに表示された表示画像を取得する方法によって取得してもよい。すなわち、クローラーサーバ１１は、ウェブページ内の個々の表示画像ではなく、ウェブページ全体を示す表示画像を取得してもよい。

【0040】

（取得処理Ｓ１１の一例）
以下、図３を用いてクローラーサーバ１１による取得処理Ｓ１１の一例を説明する。図３は、アプリケーションによって表示される表示画像Ｉ１の一例を示す図である。

【0041】

図３に示すように、取得処理Ｓ１１では、クローラーサーバ１１は、ウェブブラウザであるアプリケーションによって、端末などの外部装置のディスプレイに表示されたウェブページを示す表示画像Ｉ１を取得する。

【0042】

［送信処理Ｓ１２］
クローラーサーバ１１は、通信インタフェースにより、取得処理Ｓ１１において取得した表示画像をＡＩサーバ１２に送信する送信処理Ｓ１２を実行する。

【0043】

ここで、表示画像に含まれる各入力対象としては、入力処理Ｓ１７を実行可能な対象であれば特に限定されず、例えば、入力フォーム、クリック用のボタンおよびクリック用のリンクなどのＧＵＩのコンポネントが挙げられる。

【0044】

［受信処理Ｓ１３］
ＡＩサーバ１２は、通信インタフェースにより、クローラーサーバ１１が取得処理Ｓ１１において取得した表示画像をクローラーサーバ１１から受信する受信処理Ｓ１３を実行する。

【0045】

［推定処理Ｓ１４］
ＡＩサーバ１２は、クローラーサーバ１１が取得処理Ｓ１１において取得した表示画像を入力として、表示画像に含まれる各入力対象の位置を推定する推定処理Ｓ１４を実行する。また、ＡＩサーバ１２は、各入力対象の周辺のコンポネントに関する情報を参照し、入力情報を推定する。

【0046】

推定処理Ｓ１４により、各入力対象の位置が推定されるため、クローラーサーバ１１は、所望の入力対象を指定して入力を行うことができる。また、推定処理Ｓ１４により、各入力対象に対する入力情報が推定されるため、クローラーサーバ１１は、アプリケーションによって表示された表示画像に基づいて、各入力対象に好適な入力情報を入力できる。

【0047】

推定処理Ｓ１４において、ＡＩサーバ１２は、第１の学習モデルＭ１を用いる。第１の学習モデルＭ１とは、１以上のコンポネントが含まれる学習画像と、当該コンポネントに関する情報との組を教師データとして機械学習を行うことにより生成されたものである。このような教師データを用いて第１の学習モデルＭ１を生成することにより、推定処理Ｓ１４において、ＡＩサーバ１２は表示画像における各入力対象の位置を好適に推定できる。

【0048】

画像に含まれるコンポネントとしては、例えば、入力対象のコンポネント、文字情報を含むコンポネント、および、その他の機能を有するコンポネントなどが挙げられる。

【0049】

コンポネントに関する情報としては、例えば、（ｉ）コンポネントの座標、（ｉｉ）コンポネントの種類、（ｉｉｉ）コンポネント間の関連性を示す情報、および、（ｉｖ）コンポネントの文字情報、ならびに、これらの組み合わせなどが挙げられる。
（ｉｉ）コンポネントの種類には、入力対象のコンポネント、文字情報を含むコンポネント、および、その他の機能を有するコンポネントなどが挙げられる。より詳細には、文字情報を含む「テキスト」、入力欄を示す「入力フォーム」、郵便番号の入力欄を示す「郵便番号」、リンク先に遷移するボタンを示す「リンクボタン」および入力欄のリセットボタンを示す「リセットボタン」などがある。このうち、「入力フォーム」および「郵便番号」は、入力対象のコンポネントを示すものである。

【0050】

（ｉｉｉ）コンポネント間の関連性を示す情報は、例えば、以下のようなコンポネント間の関連性を示す情報などが挙げられる。
・左側の文字情報を含むコンポネントと、右側の入力対象のコンポネントとの関係性
・左右のその他の機能を有するコンポネント間の関係性

【0051】

（ｉｖ）コンポネントの文字情報としては、例えば、テキストのキーワードなどが挙げられる。

【0052】

教師データにおけるコンポネントに関する情報は、学習画像に基づいて、人手によって入力されたものであってもよいが、学習画像としてウェブページの表示画像を用いる場合、学習装置（不図示）がウェブページのソースに基づいて生成したものであってよい。

【0053】

この場合、学習装置は、ウェブブラウザによって表示されたウェブページを示す学習画像と、ウェブページのソースから算出されたコンポネントに関する情報の組を教師データとして機械学習させることによって、第１の学習モデルＭ１を生成してもよい。これにより、人手によらずコンポネントに関する情報を生成できる。

【0054】

学習装置はＡＩサーバ１２とは全く独立した別の装置であり、生成した第１の学習モデルＭ１をＡＩサーバ１２に提供してもよいし、ＡＩサーバ１２に含まれていてもよい。すなわち、ＡＩサーバ１２とは別の学習装置が第１の学習モデルＭ１を生成してもよいし、ＡＩサーバ１２自身が第１の学習モデルＭ１を生成してもよい。以下同様に、ＡＩサーバ１２とは別の学習装置がその他の学習モデルを生成してもよいし、ＡＩサーバ１２自身がその他の学習モデルを生成してもよい。

【0055】

（第１の学習モデルＭ１の生成の一例）
以下、図３を用いて第１の学習モデルＭ１の生成の一例を説明する。図３は、アプリケーションによって表示される表示画像Ｉ１の一例を示す図である。図３の表示画像Ｉ１には、入力対象Ｃ１、入力対象Ｃ２、入力対象Ｃ３、入力対象Ｃ９および入力対象Ｃ１０が含まれている。

【0056】

第１の学習モデルＭ１は、図３のような、入力対象Ｃ１～Ｃ１０が含まれる表示画像Ｉ１を学習画像とし、当該学習画像と、コンポネントに関する情報との組を教師データとして機械学習することによって生成される。

【0057】

図３のような表示画像Ｉ１を学習画像とする場合、以下のように、コンポネントに関する情報のうち、（ｉ）コンポネントの座標と、（ｉｉ）コンポネントの種類とが紐づけられていてもよい。
・テキストＣ４～Ｃ８の座標と、「テキスト」との紐づけ
・入力対象Ｃ１およびＣ３の座標と、「入力フォーム」との紐づけ
・入力対象Ｃ２の座標と、「郵便番号」との紐づけ、
・入力対象Ｃ９の座標と、「リンクボタン」との紐づけ
・入力対象Ｃ１０の座標と、「リセットボタン」との紐づけ

【0058】

また、（ｉｉｉ）コンポネント間の関連性を示す情報は、以下のようにコンポネント間の関連性を示す情報であってもよい。
・テキストＣ６と、テキストＣ６の右隣の入力対象Ｃ１との関係性
・テキストＣ７と、テキストＣ７の右隣の入力対象Ｃ２との関係性
・テキストＣ８と、テキストＣ８の右隣の入力対象Ｃ３との関係性
・入力対象Ｃ９と、入力対象Ｃ９の右隣の入力対象Ｃ１０との関係性

【0059】

（第１の学習モデルＭ１を用いた推定処理Ｓ１４）
推定処理Ｓ１４では、ＡＩサーバ１２は、第１の学習モデルＭ１を用いて、表示画像における各入力対象の位置を推定する。

【0060】

詳細には、ＡＩサーバ１２は、表示画像を入力として、第１の学習モデルＭ１を用いて推定したコンポネントに関する情報から、コンポネントの種類が入力対象のコンポネントの座標を入力対象の位置であると推定する。より詳細には、ＡＩサーバ１２は、第１の学習モデルＭ１を用いて推定したコンポネントに関する情報のうち、（ｉ）コンポネントの座標と（ｉｉ）コンポネントの種類とを参照し、コンポネントの種類が入力対象のコンポネントであるコンポネントの座標を入力対象の位置であると推定する。

【0061】

さらに、ＡＩサーバ１２は、推定処理Ｓ１４において第１の学習モデルＭ１を用いて推定したコンポネントに関する情報を参照し、入力対象に対する入力情報を推定してよい。

【0062】

例えば、ＡＩサーバ１２は、コンポネントに関する情報のうち、（ｉｉｉ）コンポネント間の関連性を示す情報および（ｉｖ）コンポネントの文字情報を参照することにより、左側の文字情報を含むコンポネントに対応する右側の入力対象のコンポネントに対する入力情報を推定する。

【0063】

この場合、ＡＩサーバ１２は、左側の文字情報を含むコンポネントから文字情報を検出し、第１のデータベースＤＢ１を参照することにより、当該コンポネントに対応する右側の入力対象のコンポネントに対する入力情報を推定できる。ＡＩサーバ１２は、例えば、ＯＣＲ（optical character reader：光学式文字認識）によって文字情報を含むコンポネントから文字情報を検出する。

【0064】

（推定処理Ｓ１４の一例）
以下、図３および４を用いてＡＩサーバ１２による推定処理Ｓ１４の一例を説明する。図４は、第１のデータベースＤＢ１の一例を示す図である。

【0065】

推定処理Ｓ１４では、ＡＩサーバ１２は、第１の学習モデルＭ１を用いて、図３に示す表示画像Ｉ１における入力対象Ｃ１～Ｃ３およびＣ９の位置を推定する。

【0066】

ＡＩサーバ１２は、表示画像Ｉ１を入力とし、第１の学習モデルＭ１を用いて推定したコンポネントに関する情報のうち（ｉ）コンポネントの座標と（ｉｉ）コンポネントの種類とを参照し、入力対象Ｃ１～Ｃ３およびＣ９の座標が入力対象の位置であると推定する。

【0067】

例えば、入力対象Ｃ１～Ｃ３およびＣ９のコンポネントの種類が入力対象であることを示す情報と、入力対象Ｃ１～Ｃ３およびＣ９の座標を示す情報とが紐づけられている場合、ＡＩサーバ１２は、紐づけられているこれらの情報を参照し、入力対象Ｃ１～Ｃ３およびＣ９の位置が入力対象の位置であると推定する。

【0068】

さらに、ＡＩサーバ１２は、各コンポネントに関する情報のうち、（ｉｉｉ）コンポネント間の関連性を示す情報および（ｉｖ）コンポネントの文字情報を参照し、入力対象Ｃ１～Ｃ３に対する入力情報を推定する。

【0069】

この場合、ＡＩサーバ１２は、まず、ＯＣＲにより、文字情報を含むコンポネント（「テキスト」のコンポネント）であるテキストＣ６～Ｃ８から、各々「氏名」、「郵便番号」および「住所」などのキーワードを文字情報として検出する。

【0070】

次に、ＡＩサーバ１２は、第１のデータベースＤＢ１を参照し、検出したキーワード「氏名」、「郵便番号」および「住所」と各々対応する「山田太郎」、「１４０－８８７０」および「東京都品川区東品川」が入力対象Ｃ１～Ｃ３への入力情報であると推定する。

【0071】

［送信処理Ｓ１５］
ＡＩサーバ１２は、通信インタフェースにより、推定処理Ｓ１４において推定した表示画像に含まれる各入力対象の位置をクローラーサーバ１１に送信する送信処理Ｓ１５を実行する。

【0072】

［受信処理Ｓ１６］
クローラーサーバ１１は、通信インタフェースにより、ＡＩサーバ１２が推定処理Ｓ１４において推定した表示画像に含まれる各入力対象の位置をＡＩサーバ１２から受信する受信処理Ｓ１６を実行する。

【0073】

［入力処理Ｓ１７］
クローラーサーバ１１は、ＡＩサーバ１２が推定処理Ｓ１４において推定した各入力対象の位置を指定して、アプリケーションに対する入力を行う入力処理Ｓ１７を実行する。

【0074】

また、クローラーサーバ１１は、ＡＩサーバ１２が推定処理Ｓ１４において推定した入力情報を各入力対象に入力する入力処理Ｓ１７を実行する。

【0075】

例えば、ＡＩサーバ１２が、推定処理Ｓ１４において入力対象Ｃ１～Ｃ３に対して入力する入力情報を「山田太郎」、「１４０－８８７０」および「東京都品川区東品川」であると推定する。この場合、クローラーサーバ１１は、メモリ１１１に記憶された入力情報の候補からこれらの入力情報を抽出し、これらの入力情報を各入力対象に入力する。

【0076】

ＡＩサーバ１２が推定処理Ｓ１４において各入力対象の位置および各入力対象に入力する入力情報を推定することにより、クローラーサーバ１１は、入力処理Ｓ１７において、アプリケーションによって表示された表示画像に含まれる各入力対象に好適に入力できる。

【0077】

ＡＩサーバ１２が各入力対象の位置を推定するため、単にマウス操作ソフトにより入力対象に入力する場合と異なり、クローラーサーバ１１は、入力フォーム、ボタンおよびリンクなど各入力対象の種類に関わらず、各入力対象に好適に入力できる。表示画像のうち、スクロールしなければならない位置およびプルダウンの中など、マウス操作ソフトでは入力対象への入力が困難な位置に入力対象が存在する場合でも、マウス操作ソフトと異なり、クローラーサーバ１１は好適に入力対象に入力できる。

【0078】

また、入力処理Ｓ１７において、クローラーサーバ１１が推定した入力情報を各入力対象に入力することにより、好適な情報を各入力対象に入力することができる。

【0079】

このように、クローラーサーバ１１が好適に入力処理Ｓ１７を実行することにより、表示画像が遷移するリンク先の表示画像のソースを入力しなくても好適に表示画像を遷移させることができるため、クローリング処理を実行しやすくすることができる。

【0080】

（入力処理Ｓ１７の一例）
図３を用いて、クローラーサーバ１１による入力処理Ｓ１７の一例を説明する。図３の例では、まず、クローラーサーバ１１は、ウェブブラウザであるアプリケーションにより表示されたウェブページを示す表示画像Ｉ１に含まれる各入力対象の位置を指定する。

【0081】

以下、クローラーサーバ１１が、入力対象Ｃ１～Ｃ３、Ｃ９およびＣ１０のうち、入力対象Ｃ１～Ｃ３およびＣ９に入力を行う場合について説明する。

【0082】

クローラーサーバ１１は、コンポネントの種類に基づいて、入力を行う入力対象のうち、一度に指定する入力対象を決定してよい。例えば、クローラーサーバ１１は、先に「入力フォーム」である入力対象Ｃ１～Ｃ３など一部の入力対象を指定した後、「リンクボタン」である入力対象Ｃ９を指定してもよい。また、クローラーサーバ１１は、入力対象Ｃ１～Ｃ３に加え、入力対象Ｃ９をまとめて指定してもよい。

【0083】

クローラーサーバ１１は、先に入力対象Ｃ１～Ｃ３など一部の入力対象を指定した場合、入力対象Ｃ１～Ｃ３に入力を行った後、入力対象Ｃ９を指定して入力対象Ｃ９に入力を行う。このように、コンポネントの種類ごとに各入力対象の指定および各入力対象に対する入力を行うことにより、より高精度に入力処理Ｓ１７を実行することができる。

【0084】

クローラーサーバ１１は、入力対象Ｃ１～Ｃ３およびＣ９をまとめて指定した場合、入力対象Ｃ１～Ｃ３に入力を行った後、続けて入力対象Ｃ９に入力を行ってよい。このように、入力対象の種類に関わらず、各入力対象をまとめて指定し、各入力対象にまとめて入力を行うことにより、クローラーサーバ１１は、効率的に入力処理Ｓ１７を実行できる。

【0085】

〔変形例〕
（変形例１）
前述の例では、ＡＩサーバ１２は、第１の学習モデルＭ１を用いて、クローラーサーバ１１が取得処理Ｓ１１において取得した表示画像を入力として、表示画像に含まれる各入力対象の位置を推定する推定処理Ｓ１４を実行している。また、ＡＩサーバ１２は、各入力対象の周辺のコンポネントに関する情報を参照し、入力情報を推定する。

【0086】

ただし、入力対象に対してどのような入力も許容されるような場合、ＡＩサーバ１２は、推定処理Ｓ１４において、表示画像に含まれる各入力対象の位置を推定すればよく、各入力対象の周辺のコンポネントに関する情報を参照し、入力情報を推定しなくてもよい。

【0087】

このように、ＡＩサーバ１２が前述の推定処理Ｓ１４において、前述のように表示画像に含まれる各入力対象の位置を推定するだけでも、アプリケーションによって表示された表示画像に基づいて各入力対象に好適に入力を行うことができる。

【0088】

（変形例２）
前述の例では、ＡＩサーバ１２は、テーブルである第１のデータベースＤＢ１を用いて、各入力対象の周辺の文字情報を参照して入力情報を推定している。ただし、本実施形態では、ＡＩサーバ１２は、キーワード推定用学習モデル（不図示）を用いて、各入力対象の周辺の文字情報を参照し、入力情報を推定してよい。

【0089】

例えば、ＡＩサーバ１２は、第１のデータベースＤＢ１に加え、キーワード推定用学習モデルを用いて各入力対象の周辺の文字情報を参照して入力情報を推定してもよい。この場合、ＡＩサーバ１２のメモリ１２１は、第１のデータベースＤＢ１に加え、文字情報と第１のデータベースＤＢ１から入力情報を検索するためのキーワードとの組の教師データを機械学習することによって生成されたキーワード推定用学習モデルを備えることになる。

【0090】

また、ＡＩサーバ１２のプロセッサ１２２は、第１のデータベースＤＢ１に加え、学習モデルを用いて、各入力対象の周辺の文字情報を参照した入力情報の推定を行うことになる。すなわち、ＡＩサーバ１２は、キーワード推定用学習モデルを用いて、各入力対象の周辺の文字情報から、第１のデータベースＤＢ１に含まれるキーワードを推定することができる。

【0091】

一例として、第１のデータベースＤＢ１には、入力情報を検索するためのキーワードの一つとして「氏名」が用いられており、「名前」は用いられていない。このとき、ＡＩサーバ１２が、入力対象の周辺の文字情報として「氏名」ではなく「名前」を検出した場合に、ＡＩサーバ１２は、キーワード推定用学習モデルを用いて、文字情報「名前」からキーワード「氏名」を推定し、推定したキーワードを用いて、第１のデータベースＤＢ１から、入力情報「山田太郎」を取得することができる。このように、ＡＩサーバ１２が、第１のデータベースＤＢ１に加え、学習モデルを用いて、各入力対象の文字情報を参照することにより、第１のデータベースＤＢ１にない文字情報（キーワード）からも入力情報を推定できる等、より柔軟に入力情報を推定できる。

【0092】

（変形例３）
図３に示す例では、入力対象Ｃ２が郵便番号であることから、ＡＩサーバ１２は、郵便番号に対応する段階まで入力対象Ｃ３の住所を推定しているが、本実施形態では、推定処理Ｓ１４において、図３に示す例に比べて入力情報を詳細に推定しなくてもよい。

【0093】

本実施形態では、ＡＩサーバ１２は、例えば、「東京都」など、住所に相応する段階まで推定すればよく、区および市町村まで推定しなくてもよい。このような場合でも、推定処理Ｓ１４において入力情報を推定しない場合に比べて、入力処理Ｓ１７において好適な情報を各入力対象に入力することができる。

【0094】

（変形例４）
前述の例では、情報処理システム１は、クローラーサーバ１１およびＡＩサーバ１２の２つのサーバ（コンピュータ）を備え、クローラーサーバ１１のプロセッサ１１２およびＡＩサーバ１２のプロセッサ１２２が情報処理方法Ｓ１の各処理を実行している。

【0095】

ただし、本実施形態では、情報処理システム１は、１以上のコンピュータを備え、全体として情報処理方法Ｓ１の各処理を実行すればよく、各処理を行う対象は前述の例に限定されない。

【0096】

例えば、情報処理システム１が単一のコンピュータのみから構成される場合、単一のコンピュータにおける１以上のプロセッサが前述の全ての処理を実行してもよい。これにより、２つのコンピュータ間の送信処理および受信処理がいらず、情報処理プログラムＰ１およびＰ２をまとめられるため、より効率的に情報処理方法Ｓ１の各処理を実行できる。

【0097】

また、情報処理システム１が前述の例のように複数のコンピュータを備えている場合であっても、情報処理方法Ｓ１における取得処理Ｓ１１と、推定処理Ｓ１４と、入力処理Ｓ１７とを、各々１つのコンピュータにおけるプロセッサごとに実行してもよい。これにより、１つのコンピュータのプロセッサごとに実行する処理を分散させ、情報処理方法Ｓ１の各処理を共同して実行させることにより、各コンピュータにかかる負荷を減らせる。

【0098】

（変形例５）
前述の例では、第１の学習モデルＭ１を単一のＡＩサーバ１２に設けられた単一のメモリ１２１に記憶させている。ただし、本実施形態では、第１の学習モデルＭ１を単一のコンピュータに設けられた複数のメモリに分散して記憶させてもよいし、第１の学習モデルＭ１を複数のコンピュータに各々設けられた複数のメモリに分散して記憶させてもよい。

【0099】

（変形例６）
本実施形態では、プロセッサ１１２および１２２に情報処理方法を実行させるための情報処理プログラムＰ１およびＰ２は、コンピュータ読み取り可能な一時的でない有形の１以上の記録媒体に記録されていてもよい。これらの記録媒体は、メモリ１１１および１２１であってもよいし、ストレージ１１３および１２３であってもよいし、その他の記録媒体であってもよい。その他の記録媒体としては、例えば、テープ、ディスク、カード、半導体メモリおよびプログラマブル論理回路などが挙げられる。

【0100】

（変形例７）
本実施形態では、プロセッサ１１２および１２２の一部または全部は、論理回路により実現してもよい。例えば、プロセッサ１１２および１２２として機能する論理回路が形成された集積回路も本発明の範疇に含まれる。この他にも、例えば量子コンピュータによりプロセッサ１１２および１２２の機能を実現することも可能である。

【0101】

＜実施形態２＞
本発明の一態様に係る情報処理システムは、実施形態２に係る情報処理システム１Ａのように、入力処理Ｓ１７を行った後に、取得処理Ｓ１１を行うことにより、表示画像がどのように遷移するのかを特定する特定処理Ｓ１８をさらに実行してよい。

【0102】

以下、図５～７を用いて、実施形態２に係る情報処理システム１Ａを説明する。なお、説明の便宜上、前述の実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

【0103】

〔情報処理システム１Ａ〕
図５は、実施形態２に係る情報処理システム１Ａの構成の一例を示すブロック図である。図５に示すように、情報処理システム１Ａは、実施形態１におけるクローラーサーバ１１の代わりに、クローラーサーバ１１Ａを備える。クローラーサーバ１１ＡおよびＡＩサーバ１２は、後述の情報処理方法Ｓ１Ａを実行する。

【0104】

［クローラーサーバ１１Ａ］
クローラーサーバ１１Ａは、実施形態１に係る情報処理方法Ｓ１における取得処理Ｓ１１の代わりに取得処理Ｓ１１Ａを実行し、特定処理Ｓ１８をさらに実行する。

【0105】

また、図５に示すように、クローラーサーバ１１Ａは、実施形態１におけるメモリ１１１と、プロセッサ１１２との代わりに、メモリ１１１Ａと、プロセッサ１１２Ａと、を備える。この点以外、クローラーサーバ１１Ａは、実施形態１におけるクローラーサーバ１１と同様である。

【0106】

（メモリ１１１Ａ）
メモリ１１１Ａは、実施形態１における取得処理Ｓ１１の代わりに取得処理Ｓ１１Ａを実行し、特定処理Ｓ１８をさらに実行するための情報処理プログラムＰ１Ａを記憶するための構成である。また、メモリ１１１Ａは、表示画像に、アプリケーションによる通信内容が紐づけて記憶する。これらの点以外、メモリ１１１Ａは、実施形態１における情報処理プログラムＰ１を記憶するメモリ１１１と同様である。

【0107】

（プロセッサ１１２Ａ）
プロセッサ１１２Ａは、メモリ１１１Ａに記憶された情報処理プログラムＰ１Ａに従って、実施形態１における取得処理Ｓ１１の代わりに取得処理Ｓ１１Ａを実行し、特定処理Ｓ１８をさらに実行するための構成である。この点以外、プロセッサ１１２Ａは、実施形態１におけるプロセッサ１１２と同様である。

【0108】

〔情報処理方法Ｓ１Ａ〕
次に、図６を用いて実施形態２に係る情報処理方法Ｓ１Ａを説明する。図６は、実施形態２に係る情報処理方法Ｓ１Ａの一例を示すフロー図である。

【0109】

図６に示すように、情報処理方法Ｓ１Ａは、実施形態１における取得処理Ｓ１１の代わりに取得処理Ｓ１１Ａを含み、特定処理Ｓ１８をさらに含む。この点以外は、情報処理方法Ｓ１Ａは、実施形態１に係る情報処理方法Ｓ１と同様である。

【0110】

［取得処理Ｓ１１Ａ］
取得処理Ｓ１１Ａでは、クローラーサーバ１１Ａは、表示画像に加え、アプリケーションによる通信内容をさらに取得する。この場合、クローラーサーバ１１Ａは、表示画像と、アプリケーションによる通信内容とを紐づけて取得し、メモリ１１１Ａに記憶してよい。

【0111】

ここで、従来技術は、ウェブページのソースを分析するなど、ＨＴＴＰレスポンスに基づいてＨＴＴＰリクエストを取得し、これによりウェブページを遷移させてＨＴＴＰレスポンスを取得し、ウェブページを巡回しながら、これらの通信内容の取得を繰り返す。

【0112】

これに対し、取得処理Ｓ１１Ａでは、クローラーサーバ１１Ａは、表示画像を取得し、表示画像に基づいてウェブページを遷移させて、アプリケーションによる通信内容を取得することができる。このように、取得処理Ｓ１１Ａでは、従来技術とは異なる方法により、通信内容を取得できる。

【0113】

［特定処理Ｓ１８］
クローラーサーバ１１Ａは、入力処理Ｓ１７を行った後、取得処理Ｓ１１Ａを行うことにより、表示画像がどのように遷移するのかを特定する特定処理Ｓ１８を実行してよい。

【0114】

クローラーサーバ１１Ａは、特定処理Ｓ１８をさらに実行することにより、取得処理Ｓ１１Ａにおいて取得した表示画像を有効活用し、表示画像の遷移パターンを特定できるため、より好適にクローリング処理を実行できる。また、遷移パターンなどの情報は、入出力インタフェースを介して外部装置に遷移図として表示したり、セキュリティ上の評価、診断を自動化、自動見積および動作テストなどに有効活用したりすることができる。

【0115】

（特定処理Ｓ１８の一例）
図７を用いてクローラーサーバ１１Ａによる特定処理Ｓ１８の一例を説明する。図７は特定処理Ｓ１８により特定された表示画像の遷移パターンＴの一例を示す図である。

【0116】

クローラーサーバ１１Ａは、図７のようにウェブページを示す表示画像Ｉ１、表示画像Ｉ２、表示画像Ｉ３、表示画像Ｉ４および表示画像Ｉ５がどのように遷移するのかを遷移コンテキスト情報などの遷移パターンＴとして特定する特定処理Ｓ１８を実行してよい。

【0117】

図７に示す例では、遷移パターンＴにおける、ウェブページを示す表示画像Ｉ１～Ｉ５と、ウェブページのソースとの対応関係およびソースの階層から、表示画像Ｉ１から表示画像Ｉ２～Ｉ４に遷移し、表示画像Ｉ４から表示画像Ｉ５に遷移することがわかる。

【0118】

クローラーサーバ１１Ａは、特定処理Ｓ１８により、ウェブページを示す表示画像Ｉ５がさらに遷移することを特定した場合、図７に示す遷移パターンＴを更新してよい。これにより、リアルタイムで遷移パターンＴを特定することができる。

【0119】

また、クローラーサーバ１１Ａは、取得処理Ｓ１１Ａにおいて取得した通信内容を遷移パターンＴにおいて特定してよい。クローラーサーバ１１Ａは、任意の方法により、遷移パターンＴにおいて通信内容を特定することができるが、例えば、図７のように、ウェブページを示す各表示画像と通信内容とを紐づけて出力してよい。

【0120】

なお、図７に示す例では、遷移パターンＴは遷移コンテキスト情報であるが、本実施形態では、クローラーサーバ１１Ａは、表示画像がどのように遷移するのかを特定すればよく、遷移パターンＴの形態は特に限定されない。例えば、遷移パターンＴは、表示画像Ｉ１～Ｉ５を線でつなぎ、各表示画像がどのように遷移するのかを示す遷移図でもよい。このような形態によっても、遷移パターンＴを好適に特定することができる。

【0121】

＜実施形態３＞
本発明の一態様に係る情報処理システムは、第１のデータベースＤＢ１に加え、第２の学習モデルを用いて、入力情報を推定してよい。

【0122】

以下、図８および９を用いて、実施形態３に係る情報処理システム１Ｂを説明する。前述の実施形態にて説明した部材と同様の部材には同じ符号を付記し、説明を省略する。

【0123】

〔情報処理システム１Ｂ〕
図８は、実施形態３に係る情報処理システム１Ｂの構成の一例を示すブロック図である。図８のように、情報処理システム１Ｂは、実施形態１におけるクローラーサーバ１１と、ＡＩサーバ１２との代わりに、クローラーサーバ１１Ｂと、ＡＩサーバ１２Ｂとを備える。クローラーサーバ１１ＢおよびＡＩサーバ１２Ｂは、後述の情報処理方法Ｓ１Ｂを実行する。

【0124】

［クローラーサーバ１１Ｂ］
クローラーサーバ１１Ｂは、実施形態１に係る情報処理方法Ｓ１における入力処理Ｓ１７の代わりに、情報処理方法Ｓ１Ｂにおける入力処理Ｓ１７Ｂを実行する。

【0125】

また、図８に示すように、クローラーサーバ１１Ｂは、実施形態１におけるメモリ１１１と、プロセッサ１１２との代わりに、メモリ１１１Ｂと、プロセッサ１１２Ｂとを備えている。この点以外、クローラーサーバ１１Ｂは、実施形態１におけるクローラーサーバ１１と同様である。

【0126】

（メモリ１１１Ｂ）
メモリ１１１Ｂは、クローラーサーバ１１Ｂが、実施形態１における入力処理Ｓ１７の代わりに入力処理Ｓ１７Ｂを実行するための情報処理プログラムＰ１Ｂを記憶するための構成である点以外、実施形態１におけるメモリ１１１と同様である。

【0127】

（プロセッサ１１２Ｂ）
プロセッサ１１２Ｂは、メモリ１１１Ｂに記憶された情報処理プログラムＰ１Ｂに従って、実施形態１における入力処理Ｓ１７の代わりに入力処理Ｓ１７Ｂを実行するための構成である点以外、実施形態１におけるプロセッサ１１２と同様である。

【0128】

［ＡＩサーバ１２Ｂ］
ＡＩサーバ１２Ｂは、実施形態１に係る情報処理方法Ｓ１における推定処理Ｓ１４の代わりに、情報処理方法Ｓ１Ｂにおける推定処理Ｓ１４Ｂを実行する。

【0129】

また、図８に示すように、ＡＩサーバ１２Ｂは、実施形態１におけるメモリ１２１と、プロセッサ１２２との代わりに、メモリ１２１Ｂと、プロセッサ１２２Ｂとを備える。この点以外、ＡＩサーバ１２Ｂは、実施形態１におけるＡＩサーバ１２と同様である。

【0130】

（メモリ１２１Ｂ）
メモリ１２１Ｂは、ＡＩサーバ１２Ｂが、実施形態１における推定処理Ｓ１４の代わりに推定処理Ｓ１４Ｂを実行するための情報処理プログラムＰ２Ｂ、および、第２の学習モデルＭ２を記憶するための構成である。この点以外、メモリ１２１Ｂは、実施形態１におけるメモリ１２１と同様である。

【0131】

第２の学習モデルＭ２は、各入力対象の周辺のコンポネントに関する情報と、入力処理Ｓ１７Ｂにおいて各入力対象に対する入力が成功した情報との組を教師データとして機械学習を行うことにより生成されたものである。

【0132】

（プロセッサ１２２Ｂ）
プロセッサ１２２Ｂは、メモリ１２１Ｂに記憶された情報処理プログラムＰ２Ｂに従って、実施形態１における推定処理Ｓ１４の代わりに推定処理Ｓ１４Ｂを実行するための構成である点以外、実施形態１におけるプロセッサ１２２と同様である。

【0133】

〔情報処理方法Ｓ１Ｂ〕
次に、図９を用いて実施形態３に係る情報処理方法Ｓ１Ｂを説明する。図９は、実施形態３に係る情報処理方法Ｓ１Ｂの一例を示すフロー図である。

【0134】

図９に示すように、情報処理方法Ｓ１Ｂは、実施形態１における推定処理Ｓ１４と、入力処理Ｓ１７との代わりに、推定処理Ｓ１４Ｂと、入力処理Ｓ１７Ｂとを含む。この点以外、情報処理方法Ｓ１Ｂは、実施形態１に係る情報処理方法Ｓ１と同様である。

【0135】

［推定処理Ｓ１４Ｂ］
ＡＩサーバ１２Ｂは、各入力対象の周辺のコンポネントに関する情報と、各入力対象に対する入力が成功した情報との組を教師データとして機械学習を行うことにより生成された第２の学習モデルＭ２を用いて、表示画像を入力として、入力情報を推定する。これにより、ＡＩサーバ１２Ｂは、例えば、表示画像の入力されるたびに、各入力対象の周辺の文字情報を検出し、第１のデータベースＤＢ１を参照するなど、逐一、各入力対象の周辺のコンポネントに関する情報を参照しなくても入力情報を好適に推定きる。

【0136】

教師データにおける各入力対象に対する入力が成功した情報は、人手によって入力されたものであってもよいが、前述の学習装置が、ウェブページである表示画像のソースに基づいて生成したものであってもよい。これにより、人手によらず、各入力対象に対する入力に成功した情報を生成できる。

【0137】

また、第２の学習モデルＭ２が一定量（例えば、数百個）の教師データを学習するまで、ＡＩサーバ１２Ｂは、例えば、各入力対象の周辺のコンポネントに関する情報を参照し、第１のデータベースＤＢ１を用いて入力情報を推定してよい。すなわち、第２の学習モデルＭ２が一定量の教師データを学習するまで、ＡＩサーバ１２Ｂは、実施形態１、実施形態１の変形例２および実施形態２におけるＡＩサーバ１２および１２Ａと同様に入力情報を推定してよい。

【0138】

ＡＩサーバ１２Ｂは、各入力対象の周辺のコンポネントに関する情報の参照による入力情報の推定と、第２の学習モデルＭ２を用いた入力情報の推定とを併用してよい。ＡＩサーバ１２Ｂは、各入力対象の周辺のコンポネントに関する情報の参照による入力情報の推定の精度より、第２の学習モデルＭ２を用いた入力情報の推定の精度が上回った段階で第２の学習モデルＭ２を用いて入力情報を推定すれば、より好適に入力情報を推定できる。

【0139】

（第２の学習モデルＭ２の生成の一例）
以下、図３を用いて第２の学習モデルＭ２の生成の一例を説明する。

【0140】

第２の学習モデルＭ２は、図３に示す表示画像Ｉ１における各入力対象の周辺のコンポネントに関する情報と、各入力対象に対する入力が成功した情報との組を教師データとして機械学習を行うことによって生成される。

【0141】

各入力対象の周辺のコンポネントに関する情報としては、各入力対象の周辺に存在する前述の（ｉ）～（ｉｖ）の少なくとも１つであれば特に限定されないが、例えば、各入力対象に対応する文字情報を含むコンポネントの文字情報などが挙げられる。図３に示す例では、各入力対象の周辺のコンポネントに関する情報としては、入力対象Ｃ１に対応するテキストＣ６の「氏名」、入力対象Ｃ２に対応するテキストＣ７の「郵便番号」、および、入力対象Ｃ３に対応するテキストＣ８の「住所」などが挙げられる。

【0142】

教師データにおける各入力対象に対する入力が成功した情報は、例えば、以下のように、表示画像Ｉ１の各入力対象と、各入力情報との紐づけが行われた一覧の表などによって特定されていてもよい。
・入力対象Ｃ１と、入力情報「山田太郎」との紐づけ
・入力対象Ｃ２と、入力情報「１４０－８８７０」との紐づけ
・入力対象Ｃ３と、入力情報「東京都品川区東品川」との紐づけ

【0143】

（推定処理Ｓ１４Ｂの一例）
以下、図３を用いてＡＩサーバ１２Ｂによる推定処理Ｓ１４Ｂの一例を説明する。

【0144】

推定処理Ｓ１４Ｂでは、ＡＩサーバ１２Ｂは、図３に示す表示画像Ｉ１を入力とし、第２の学習モデルＭ２を用いて推定したコンポネントに関する情報を参照し、表示画像Ｉ１の入力対象Ｃ１～Ｃ３に対する入力情報を推定する。

【0145】

詳細には、ＡＩサーバ１２Ｂは、ＯＣＲにより、表示画像Ｉ１におけるテキストＣ６～Ｃ８の文字情報を検出し、第２の学習モデルＭ２を用いてテキストＣ６～Ｃ８に対応する入力対象Ｃ１の入力情報を推定する。

【0146】

より詳細には、ＡＩサーバ１２Ｂは、ＯＣＲにより、表示画像Ｉ１におけるテキストＣ６～Ｃ８のキーワード「氏名」、「郵便番号」および「住所」を検出し、第２の学習モデルＭ２を用いてテキストＣ６～Ｃ８に対応する入力対象Ｃ１の入力情報「山田太郎」、「１４０－８８７０」および「東京都品川区東品川」を推定する。

【0147】

このように、ＡＩサーバ１２Ｂは、第２の学習モデルＭ２を参照することにより、第１のデータベースＤＢ１を参照しなくても各入力情報を好適に推定できる。

【0148】

［入力処理Ｓ１７Ｂ］
クローラーサーバ１１Ｂは、ＡＩサーバ１２Ｂが推定処理Ｓ１４Ｂにおいて推定した入力情報を各入力対象に入力する入力処理Ｓ１７Ｂを実行する。また、入力処理Ｓ１７Ｂでは、クローラーサーバ１１Ｂは、アプリケーションに対し、ＡＩサーバ１２Ｂが推定した情報の各入力対象への入力が成功したか否かを判定する。

【0149】

（入力処理Ｓ１７Ｂの一例）
図３を用いて、クローラーサーバ１１Ｂによる入力処理Ｓ１７Ｂの一例を説明する。

【0150】

クローラーサーバ１１Ｂは、入力処理Ｓ１７Ｂにおいて推定された、図３に示す表示画像Ｉ１の入力対象Ｃ１～Ｃ３に対する入力情報を入力後、入力対象Ｃ９のボタンをクリックした際に、表示画像Ｉ１が確認画面を示す表示画像Ｉ２に遷移するか否かを判定する。

【0151】

エラーなしに表示画像Ｉ１が表示画像Ｉ２に遷移した場合、クローラーサーバ１１Ｂは、アプリケーションに対し、推定した入力情報の各入力対象への入力が成功したと判定する。続いて、クローラーサーバ１１Ｂは、図３に示す表示画像Ｉ１における各入力対象と、各入力対象に対する入力が成功した入力情報との組を教師データとし、第２の学習モデルＭ２に機械学習を行わせる。

【0152】

一方、エラーが出て表示画像Ｉ１が表示画像Ｉ２に遷移しない場合、クローラーサーバ１１Ｂは、推定した入力情報の各入力対象への入力が失敗したと判定する。この場合、クローラーサーバ１１Ｂは、第２の学習モデルＭ２を用いて、表示画像Ｉ１が表示画像Ｉ２に遷移するまで入力処理Ｓ１７Ｂを繰り返し、表示画像Ｉ１が表示画像Ｉ２に遷移した場合、推定した入力情報の各入力対象への入力が成功したと判定する。続いて、クローラーサーバ１１Ｂは、表示画像Ｉ１に対応する学習画像と、各入力対象に対する入力が成功した入力情報との組を教師データとし、第２の学習モデルＭ２に機械学習を行わせる。

【0153】

このように、クローラーサーバ１１Ｂが入力処理Ｓ１７Ｂにおいて前述の判定を行うことにより、ＡＩサーバ１２Ｂの推定した入力情報が正確でなくても、ＡＩサーバ１２Ｂの失敗をカバーし、正確な入力情報を各入力対象に入力できる。

【0154】

また、学習画像と各入力対象に対する入力が成功した情報との組を教師データとし、クローラーサーバ１１Ｂが第２の学習モデルＭ２に機械学習を行わせることにより、ＡＩサーバ１２Ｂは、次回以降の推定処理Ｓ１４Ｂでは、より高精度に入力情報を推定できる。

【0155】

＜実施形態４＞
本発明の一態様に係る情報処理システムは、実施形態４に係る情報処理システム１Ｃのように、表示画像を参照して、当該表示画像の内容をさらに推定し、表示画像の内容を参照して、各入力対象に入力する情報を決定してよい。

【0156】

以下、図１０～１２を用いて、実施形態４に係る情報処理システム１Ｃを説明する。前述の実施形態にて説明した部材と同様の部材には、同じ符号を付記し、説明を省略する。

【0157】

〔情報処理システム１Ｃ〕
図１０は、実施形態４に係る情報処理システム１Ｃの構成の一例を示すブロック図である。図１０に示すように、情報処理システム１Ｃは、実施形態１におけるＡＩサーバ１２との代わりに、ＡＩサーバ１２Ｃを備える。クローラーサーバ１１およびＡＩサーバ１２Ｃは、後述の情報処理方法Ｓ１Ｃを実行する。

【0158】

［ＡＩサーバ１２Ｃ］
ＡＩサーバ１２Ｃは、実施形態１に係る情報処理方法Ｓ１における推定処理Ｓ１４の代わりに、情報処理方法Ｓ１Ｃにおける推定処理Ｓ１４Ｃを実行する。

【0159】

また、図１０に示すように、ＡＩサーバ１２Ｃは、実施形態１におけるメモリ１２１と、プロセッサ１２２との代わりに、メモリ１２１Ｃと、プロセッサ１２２Ｃとを備える。この点以外は、ＡＩサーバ１２Ｃは、実施形態１におけるＡＩサーバ１２と同様である。

【0160】

（メモリ１２１Ｃ）
メモリ１２１Ｃは、ＡＩサーバ１２Ｃが、実施形態１における推定処理Ｓ１４の代わりに推定処理Ｓ１４Ｃを実行するための情報処理プログラムＰ２Ｃを記憶するための構成である。この点以外、メモリ１２１Ｃは、実施形態１におけるメモリ１２１と同様である。

【0161】

メモリ１２１Ｃは、コンポネントに関する情報と、学習画像の内容との組を教師データとして機械学習を行うことにより生成された第３の学習モデルＭ３を記憶するための構成でもある。また、メモリ１２１Ｃは、推定処理Ｓ１４Ｃにおいて参照される第２のデータベースＤＢ２を記憶するための構成でもある。

【0162】

（プロセッサ１２２Ｃ）
プロセッサ１２２Ｃは、メモリ１２１Ｃに記憶された情報処理プログラムＰ２Ｃに従って、実施形態１における推定処理Ｓ１４の代わりに推定処理Ｓ１４Ｃを実行するための構成である点以外、実施形態１におけるプロセッサ１２２と同様である。

【0163】

〔情報処理方法Ｓ１Ｃ〕
次に、図１１を用いて実施形態４に係る情報処理方法Ｓ１Ｃを説明する。図１１は、実施形態４に係る情報処理方法Ｓ１Ｃの一例を示すフロー図である。

【0164】

図１１のように、情報処理方法Ｓ１Ｃは、実施形態１における推定処理Ｓ１４の代わりに推定処理Ｓ１４Ｃを含む。この点以外、情報処理方法Ｓ１Ｃは、実施形態１に係る情報処理方法Ｓ１と同様である。

【0165】

［推定処理Ｓ１４Ｃ］
推定処理Ｓ１４Ｃにおいて、ＡＩサーバ１２Ｃは、コンポネントに関する情報を参照して、当該表示画像の内容を推定し、当該表示画像の内容を参照して入力情報を推定する。

【0166】

例えば、ＡＩサーバ１２Ｃは、コンポネントに関する情報含まれる前述の（ｉ）～（ｉＶ）のうち、（ｉｖ）コンポネントの文字情報を参照し、表示画像の内容を推定してよい。

【0167】

表示画像としては、前述の表示画像と同様に、例えば、ウェブブラウザであるアプリケーションにより、端末などの外部装置のディスプレイに表示されたウェブページなどが挙げられる。また、表示画像の内容としては、例えば、ウェブページ全体がどういったものに関するのか、どういった役割（機能）を果たすのかを示すものが挙げられる。すなわち、表示画像の内容は、ウェブページに含まれる個々の画像の内容に限定されない。

【0168】

また、ＡＩサーバ１２Ｃは、ウェブページの一部の画像におけるテキストのコンポネントの文字情報だけでなく、アプリケーションにより、端末などのディスプレイに表示されたウェブページ全体のテキストのコンポネントの文字情報を参照してよい。

【0169】

また、ＡＩサーバ１２Ｃは、各入力対象の周辺のコンポネントに関する情報に加え、推定した表示画像の内容を参照して入力情報を推定してよい。このように、表示画像の内容を推定した上で、各入力対象の周辺のコンポネントに関する情報に加え、推定した表示画像の内容を参照して入力情報を推定することにより、より高精度に入力情報を推定することができる。

【0170】

推定処理Ｓ１４Ｃでは、ＡＩサーバ１２Ｃは、前述の（ｉｖ）コンポネントに関する情報と、学習画像の内容との組を教師データとして機械学習を行うことにより生成された第３の学習モデルを用いて、表示画像を入力として、当該表示画像の内容を推定してよい。この場合、第３の学習モデルとしては、例えば、アプリケーションにより、端末などのディスプレイに表示されたウェブページ全体のテキストのコンポネントの文字情報と、学習画像の内容との組を教師データとして機械学習を行うことにより生成されたものが挙げられる。これにより、さらに高精度に入力情報を推定することができる。

【0171】

（第３の学習モデルＭ３の生成の一例）
以下、図３を用いて第３の学習モデルＭ３の生成の一例を説明する。図３は、アプリケーションによって表示される表示画像Ｉ１の一例を示す図である。

【0172】

例えば、第３の学習モデルＭ３は、コンポネントの文字情報であるテキストＣ４のキーワード「商品」および「注文」と、図３の表示画像Ｉ１に対応する学習画像の内容である「商品の注文に関する画像」と、の組を教師データとして機械学習する。同様に、第３の学習モデルＭ３は、コンポネントの文字情報として、当該学習画像全体のコンポネントの文字情報（テキストのキーワード）と、当該学習画像の内容との組を教師データとして機械学習する。これにより、第３の学習モデルＭ３が生成される。

【0173】

（推定処理Ｓ１４Ｃの一例）
以下、図３および１２を用いてＡＩサーバ１２Ｃによる推定処理Ｓ１４Ｃの一例について説明する。図１２は、第２のデータベースＤＢ２の一例を示す図である。

【0174】

推定処理Ｓ１４Ｃでは、まず、ＡＩサーバ１２Ｃは、図３に示す表示画像Ｉ１を入力として、第３の学習モデルＭ３を用いて推定された「商品の注文に関する画像」が表示画像Ｉ１の内容であると推定する。

【0175】

続いて、ＡＩサーバ１２Ｃは、第１の学習モデルＭ１を用いて、図３に示す表示画像Ｉ１における入力対象Ｃ１～Ｃ３の周辺にある「テキスト」のコンポネントであるテキストＣ６～Ｃ８の位置を検出する。また、ＡＩサーバ１２Ｃは、ＯＣＲなどにより、テキストＣ６～Ｃ８から、各々「氏名」、「郵便番号」および「住所」などのキーワードを文字情報として検出する。

【0176】

次に、ＡＩサーバ１２Ｃは、図１２に示す表示画像の内容と、キーワードと、入力情報とが紐づけられた第２のデータベースＤＢ２を参照し、入力情報を推定する。詳細には、ＡＩサーバ１２Ｃは、推定した「商品の注文に関する画像」と、検出したキーワード「氏名」、「郵便番号」および「住所」と各々対応する「山田太郎」、「１４０－８８７０」および「東京都品川区東品川」が入力情報であると推定する。

【0177】

〔変形例〕
（変形例１）
前述の例では、ＡＩサーバ１２Ｃは、第１の学習モデルＭ１を用いてコンポネントの位置を推定した上で、第３の学習モデルＭ３を用いて当該コンポネントの文字情報を参照し、表示画像の内容を推定している。

【0178】

ただし、本実施形態では、ＡＩサーバ１２Ｃが、コンポネントに関する情報を参照して表示画像の内容を推定できればよく、第１の学習モデルＭ１を用いてコンポネントの位置を推定しなくてもよい。すなわち、ＡＩサーバ１２Ｃは、ＯＣＲによって表示画像から直接文字情報を検出し、第３の学習モデルＭ３を用いて、表示画像の内容を推定してもよい。

【0179】

（変形例２）
前述の例では、ＡＩサーバ１２Ｃは、第３の学習モデルＭ３を用いて、表示画像の内容を推定しているが、本実施形態では、第３の学習モデルＭ３の代わりに、データベース（不図示）を用いて、表示画像の内容を推定してよい。

【0180】

この場合、ＡＩサーバ１２Ｃのメモリ１２１Ｃは、第３の学習モデルＭ３の代わりに、コンポネントに関する情報（例えば、コンポネントの文字情報）と、表示画像の内容とが紐づけられた表などのデータベースを備えることになる。また、ＡＩサーバ１２Ｃのプロセッサ１２２Ｃは、当該データベースを用いて、表示画像から検出したコンポネントのキーワードなどの文字情報と、データベースとを照らし合わせて、表示画像の内容の推定を行うことになる。

【0181】

例えば、ＡＩサーバ１２Ｃは、表示画像Ｉ１のテキストＣ４から「商品」および「注文」というキーワードを検出した場合、データベースを参照し、「商品」および「注文」と紐づけられている「商品の注文に関する画像」を表示画像の内容であると推定する。

【0182】

ＡＩサーバ１２Ｃは、第３の学習モデルＭ３を用いることにより、あらかじめ定められたデータベースを用いる場合より柔軟に表示画像の内容を推定できる。これに対し、ＡＩサーバ１２Ｃは、あらかじめ定められたデータベースを用いることにより、第３の学習モデルＭ３が一定量の教師データを学習するまで待たずに、短期間で表示画像の内容を推定できる。

【0183】

＜付記事項＞
本発明は前述の各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

【0184】

また、各実施形態に係る情報処理システムは、クローリング処理を好適に実行でき、より多くの人々がアプリケーションの表示画像の情報を取得できるため、持続可能な開発目標（ＳＤＧｓ）の目標９「産業と技術革新の基盤をつくろう」の達成に貢献できる。

【符号の説明】

【0185】

１、１Ａ、１Ｂ、１Ｃ情報処理システム
１１、１１Ａ、１１Ｂクローラーサーバ
１２、１２Ａ、１２Ｂ、１２ＣＡＩサーバ
Ｃ１、Ｃ２、Ｃ３、Ｃ９、Ｃ１０入力対象
Ｉ１、Ｉ２、Ｉ３、Ｉ４、Ｉ５表示画像
Ｍ１第１の学習モデル
Ｍ２第２の学習モデル
Ｍ３第３の学習モデル
Ｐ１、Ｐ１Ａ、Ｐ１Ｂ、Ｐ２、Ｐ２Ａ、Ｐ２Ｂ、Ｐ２Ｃ情報処理プログラム
Ｓ１、Ｓ１Ａ、Ｓ１Ｂ、Ｓ１Ｃ情報処理方法
Ｓ１１、Ｓ１１Ａ取得処理
Ｓ１４、Ｓ１４Ｂ、Ｓ１４Ｃ推定処理
Ｓ１７、Ｓ１７Ｂ入力処理
Ｓ１８特定処理

【図1】