(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-08-09
(45)【発行日】2024-08-20
(54)【発明の名称】データ取得システム、データ取得方法、及び、データ取得プログラム
(51)【国際特許分類】
G06Q 10/0633 20230101AFI20240813BHJP
【FI】
G06Q10/0633
(21)【出願番号】P 2023042340
(22)【出願日】2023-03-16
【審査請求日】2023-03-16
(73)【特許権者】
【識別番号】518307857
【氏名又は名称】株式会社リップル・マーク
(74)【代理人】
【識別番号】110004163
【氏名又は名称】弁理士法人みなとみらい特許事務所
(74)【代理人】
【識別番号】100137338
【氏名又は名称】辻田 朋子
(74)【代理人】
【識別番号】100224719
【氏名又は名称】長谷川 隆治
(72)【発明者】
【氏名】森 雅也
【審査官】佐藤 敬介
(56)【参考文献】
【文献】特開2018-147437(JP,A)
【文献】特開2001-202283(JP,A)
【文献】特開2022-032819(JP,A)
【文献】特開2021-174335(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
データ取得システムであって、
前記データ取得システムは、RPAシステム及び、RPA設定自動更新システムを備え、
前記RPAシステムは、ウェブページからページのリソース情報の取得を行う取得手段と、
情報の取得先である前記ウェブページのリソース情報及び、前記リソース情報において目的情報を特定するための設定ファイルに基づき、前記ウェブページの前記目的情報を収集する収集手段と、を備え、
前記設定ファイルは、収集の対象となる前記目的情報を特定するための情報であって、前記目的情報の存在する箇所を示す情報を含み、
前記RPA設定自動更新システムは、前記設定ファイルを更新する変更手段を備え、
前記変更手段はさらに、
取得した前記目的情報に基づき、前記設定ファイル
において特定される前記目的情報の存在箇所と更新後の前記ウェブページ
における前記目的情報の存在箇所との間で変更が行われたことを検出する検出手段と、
前記検出手段によって変更があると検出された場合、変更後の前記ウェブページのリソース情報に基づき、
変更後の前記ウェブページにおける前記目的情報の存在箇所に応じて前記設定ファイルを更新する更新手段と、を有するデータ取得システム。
【請求項2】
前記検出手段は、情報検出ルールに基づき変更が行われたことを検出し、
前記情報検出ルールは、項目同士の対応関係を示す論理設定、領域とタグの関係を示す物理設定、及び、論理設定と物理設定を対応付ける検出結果を含み、
前記更新手段は、検出された変更に基づき物理設定における前記タグを変更する請求項1に記載のデータ取得システム。
【請求項3】
前記ウェブページは、所定のフォーマットで記載されたフォーマットファイルをアップロードすることでデータの取り込みを行うウェブページであり、
前記RPAシステムは、前記ウェブページのフォームに対して前記データの入力を行う入力手段を備え、
前記目的情報は、前記ウェブページにおいて取り込みを行った結果の情報である請求項2に記載のデータ取得システム。
【請求項4】
前記ウェブページにおける取り込み結果は、表形式で表示され、
前記フォーマットファイルは、表形式のデータであり、
前記論理設定は、前記ウェブページ及びフォーマットファイルにおけるカラム名の対応を示す情報を含む請求項3に記載のデータ取得システム。
【請求項5】
データ取得方法であって、
前記データ取得方法は、RPA方法及び、RPA設定自動更新方法を備え、
前記RPA方法は、ウェブページからページのリソース情報の取得を行う取得ステップと、
情報の取得先である前記ウェブページのリソース情報及び、前記リソース情報において目的情報を特定するための設定ファイルに基づき、前記ウェブページの前記目的情報を収集する収集ステップと、を有し、
前記設定ファイルは、収集の対象となる前記目的情報を特定するための情報であって、前記目的情報の存在する箇所を示す情報を含み、
前記RPA設定自動更新方法は、前記設定ファイルを更新する変更ステップを有し、
前記変更ステップはさらに、
取得した前記目的情報に基づき、前記設定ファイル
において特定される前記目的情報の存在箇所と前記ウェブページ
における前記目的情報の存在箇所との間で変更が行われたことを検出する検出ステップと、
前記検出ステップにおいて変更があると検出された場合、変更後の前記ウェブページのリソース情報に基づき、
変更後の前記ウェブページにおける前記目的情報の存在箇所に応じて前記設定ファイルを更新する更新ステップと、を
コンピュータに実行させるデータ取得方法。
【請求項6】
データ取得プログラムであって、
前記データ取得プログラムは、RPAプログラム及び、RPA設定自動更新プログラムを備え、
前記RPAプログラムは、コンピュータを、ウェブページからページのリソース情報の取得を行う取得手段と、
情報の取得先である前記ウェブページのリソース情報及び、前記リソース情報において目的情報を特定するための設定ファイルに基づき、前記ウェブページの前記目的情報を収集する収集手段と、として機能させ、
前記設定ファイルは、収集の対象となる前記目的情報を特定するための情報であって、前記目的情報の存在する箇所を示す情報を含み、
前記RPA設定自動更新プログラムは、コンピュータを、前記設定ファイルを更新する変更手段として機能させ、
前記変更手段はさらに、
取得した前記目的情報に基づき、前記設定ファイル
において特定される前記目的情報の存在箇所と前記ウェブページ
における前記目的情報の存在箇所との間で変更が行われたことを検出する検出手段と、
前記検出手段によって変更があると検出された場合、変更後の前記ウェブページのリソース情報に基づき、
変更後の前記ウェブページにおける前記目的情報の存在箇所に応じて前記設定ファイルを更新する更新手段と、を有するデータ取得プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ取得システム、データ取得方法、及び、データ取得プログラムに関する。
【背景技術】
【0002】
従来、ウェブサイトからデータを取得するためのシステムが提案されている。
【0003】
特許文献1では、機械学習の実行を停止させた後、再度機械学習を実行するにあたり、過去に取得したデータに基づき検出部が会計処理又は税務処理に関する規則が変更されたことを検出した場合(会計責任者Aは特定の費用を「勘定科目X」として処理していたが、後任の会計責任者Bに変わってから、同じ費用を「勘定科目Y」として処理するようになった場合等)、学習モデルの学習を再開させるシステムについての発明が開示されている。
【先行技術文献】
【特許文献】
【0004】
【0005】
特許文献1記載の発明は、外部から取得した種々のデータに基づいて変更を検出し、提出機関において取得された学習データを用いて機械学習を実行することが記載されているが、どのように変更を検出するかについて開示されていない。
【発明の概要】
【発明が解決しようとする課題】
【0006】
上記事情を鑑みて、本発明は、データ取得システムに係る新規な技術を提供することを、解決すべき課題とする。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明は、データ取得システムであって、前記データ取得システムは、RPAシステム及び、RPA設定自動更新システムを備え、前記RPAシステムは、ウェブページからページのリソース情報の取得を行う取得手段と、情報の取得先である前記ウェブページのリソース情報及び、前記リソース情報において目的情報を特定するための設定ファイルに基づき、前記ウェブページの前記目的情報を収集する収集手段と、を備え、前記RPA設定自動更新システムは、前記設定ファイルを更新する変更手段を備え、前記変更手段はさらに、取得した前記目的情報に基づき、前記設定ファイルと前記ウェブページとの間で変更が行われたことを検出する検出手段と、変更があると検出された場合、変更後の前記ウェブページのリソース情報に基づき、前記設定ファイルを更新する更新手段と、を有することを特徴とする。このような構成とすることで、本発明は、ウェブサイトにおいて情報の変更が行われた際に、変更箇所の検出及び、変更内容に応じた設定ファイルの更新を行うことができる。
【0008】
本発明の好ましい形態では、前記検出手段は、情報検出ルールに基づき変更が行われたことを検出し、前記情報検出ルールは、項目同士の対応関係を示す論理設定、領域とタグの関係を示す物理設定、及び、論理設定と物理設定を対応付ける検出結果を含み、前記更新手段は、検出された変更に基づき物理設定における前記タグを変更することを特徴とする。このような構成とすることで、本発明は、物理設定における、ウェブサイトのリソース情報において出力ファイルのセルの領域における情報と対応する目的情報を囲むタグを変更することができる。
【0009】
本発明の好ましい形態では、前記ウェブページは、所定のフォーマットで記載されたフォーマットファイルをアップロードすることでデータの取り込みを行うウェブページであり、前記RPAシステムは、前記ウェブページのフォームに対して前記データの入力を行う入力手段を備え、前記目的情報は、前記ウェブページにおいて取り込みを行った結果の情報であることを特徴とする。このような構成とすることで、本発明は、ウェブページにおける入力フォームの配置の変更を検出することができる。
【0010】
本発明の好ましい形態では、前記ウェブページにおける取り込み結果は、表形式で表示され、前記フォーマットファイルは、表形式のデータであり、前記論理設定は、前記ウェブページ及びフォーマットファイルにおけるカラム名の対応を示す情報を含むことを特徴とする。このような構成とすることで、本発明は、ウェブページ及びフォーマットファイルにおいて、セル記載される情報の相違を検出することができる。
【0011】
上記課題を解決するために、本発明は、データ取得方法であって、前記データ取得方法は、RPA方法及び、RPA設定自動更新方法を備え、前記RPA方法は、ウェブページからページのリソース情報の取得を行う取得ステップと、情報の取得先である前記ウェブページのリソース情報及び、前記リソース情報において目的情報を特定するための設定ファイルに基づき、前記ウェブページの前記目的情報を収集する収集ステップと、を有し、前記RPA設定自動更新方法は、前記設定ファイルを更新する変更ステップを有し、前記変更ステップはさらに、取得した前記目的情報に基づき、前記設定ファイルと前記ウェブページとの間で変更が行われたことを検出する検出ステップと、変更があると検出された場合、変更後の前記ウェブページのリソース情報に基づき、前記設定ファイルを更新する更新ステップと、を有することを特徴とする。
【0012】
上記課題を解決するために、本発明は、データ取得プログラムであって、前記データ取得プログラムは、RPAプログラム及び、RPA設定自動更新プログラムを備え、前記RPAプログラムは、コンピュータを、ウェブページからページのリソース情報の取得を行う取得手段と、情報の取得先である前記ウェブページのリソース情報及び、前記リソース情報において目的情報を特定するための設定ファイルに基づき、前記ウェブページの前記目的情報を収集する収集手段と、として機能させ、前記RPA設定自動更新プログラムは、コンピュータを、前記設定ファイルを更新する変更手段として機能させ、前記変更手段はさらに、取得した前記目的情報に基づき、前記設定ファイルと前記ウェブページとの間で変更が行われたことを検出する検出手段と、変更があると検出された場合、変更後の前記ウェブページのリソース情報に基づき、前記設定ファイルを更新する更新手段と、を有することを特徴とする。
【発明の効果】
【0013】
本発明は、データ取得システムに係る新規な技術を提供することができる。
【図面の簡単な説明】
【0014】
【
図1】本発明の実施形態1に係るシステム構成図を示す。
【
図2】本発明の1実施形態に係るハードウェア構成図構成図を示す。
【
図3】本発明の1実施形態に係る論理設定、物理設定、連結設定を示す図。
【
図4】本発明の1実施形態に係る情報の収集に係る設定の更新の流れを示すフローチャートである。
【
図5】本発明の1実施形態に係るウェブページへの情報の入力及び配置検出ルールの更新の流れを示すフローチャートである。
【
図6】本発明の1実施形態に係る収集した目的情報の情報格納ファイルへの出力例と、エクセル及びリソース情報における目的情報の配置例を示す図。
【
図7】本発明の実施形態2に係るシステム構成図を示す。
【発明を実施するための形態】
【0015】
本明細書は、本発明の一実施形態にかかる構成や作用効果等について、図面を交えて、以下に説明する。
【0016】
本発明は、以下の実施形態に限定されず、様々な構成を採用し得る。また、本発明の実施形態は、各実施形態のそれぞれにおける構成の一部を、本発明が目的とする作用効果の実現を阻害しない範囲で互いに採用してよい。
【0017】
例えば、本実施形態ではデータ取得システムの構成、動作等について説明するが、実行される方法、コンピュータプログラム等によっても、同様の作用効果を奏することができる。本実施形態におけるプログラムは、コンピュータが読み取り可能な非一過性の記録媒体として提供されてもよいし、外部のサーバからダウンロード可能に提供されてもよいし、データ取得システムでその機能を実現する為に外部のコンピュータにおいて当該プログラムを起動させてもよい(いわゆるクラウドコンピューティング)。
【0018】
また、本実施形態において「手段」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらハードウェア資源によって具体的に実現され得るソフトウェアの情報処理とを合わせたものも含み得る。本実施形態において「情報」とは、例えば電圧・電流を表す信号値の物理的な値、0又は1で構成される2進数のビット集合体としての信号値の高低、又は量子的な重ね合わせ(いわゆる量子ビット)によって表され、広義の回路上で通信・演算が実行され得る。
【0019】
広義の回路とは、回路(Circuit)、回路類(Circuitry)、プロセッサ(Processor)及びメモリ(Memory)等を適宜組み合わせることによって実現される回路である。即ち、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等を含むものである。
【0020】
本実施形態では、データ取得システムは、RPAシステム及び、RPA設定自動更新システムを備えている。
【0021】
本実施形態では、企業の人事・会計等に関する情報を管理する為のシステムとして、ERP(Enterprise Resources Planning)システムがウェブサーバによって運用され、上記ERPシステムの運用は、ERPシステムを自社のウェブサーバにインストールして利用するオンプレミス型又は、インターネット上で提供されるERPシステムを利用するクラウド型の何れかの方法によって行われる。なお、上記ERPシステムは、バージョンアップによるUI等の更新が行われてよく、システムの利用形態がオンプレミスの場合、新しいシステムのテスト環境への導入及び利用者に対する当該テスト環境の新URLの送信が行われ、ERPシステムがサービスとして提供されている場合、新しいシステムが導入されたテスト環境の新URLが利用者に送信される。本実施形態では、上記ERPシステムを更新する際に本番環境からテスト環境に移行させるが、テスト環境に移行させずに本番環境を上書きしてもよい。その場合、後述の検出手段106及び更新手段107は、RPAによるデータの取得時にエラーが発生した際、目的情報の比較や設定ファイルの更新を行ってよく、或いは一回のデータ取得毎に目的情報の比較を行い、相違点があれば設定ファイルの更新を行ってよい。
また、本実施形態では、企業による自社製品やサービスを販売するためのサイトであるEC(electronic commerce)サイトがウェブサーバによって運用され、上記ECサイトの運用は、オンプレミス型又はクラウド型の何れかによって行われる。本実施形態では、RPAによるデータの取得後、後述の検知手段106によってECサイトのバージョンアップや機能改定等が検知された場合、更新手段107は設定ファイルが有するECサイトにおける入力フォームや目的情報等が何れの箇所に存在しているかの情報の更新を行う。
【0022】
<全体構成>
図1は、本実施形態におけるデータ取得システムの概要図である。データ取得システムは、管理サーバ1と、1又は複数の利用者端末2と、1又は複数のウェブサーバ3と、を備える。管理サーバ1と、利用者端末2と、ウェブサーバ3と、は通信ネットワークNWを介して通信可能に構成されている。
【0023】
通信ネットワークNWは、インターネットなどのIP(Internet Protocol)網などから構成される。なお、以下の説明では、不明確にならない限り通信ネットワークNWの介在を省略する。
【0024】
各ウェブサーバ3は、通常、URL(Uniform Resource Locator)により指定され、運用・管理しているウェブサイト内の各種情報(データを含む)を要求(リクエスト)された管理サーバ1に個々のリソースとして参照可能に提供する。管理サーバ1とウェブサーバ3との間の通信は、所定のプロトコル(通信規則)、ここではHTTP(Hyper Text Transfer Protocol)に則って実施される。
【0025】
<管理サーバ1及びウェブサーバ3>
管理サーバ1及び各ウェブサーバ3として、汎用のサーバ向けのコンピュータやパーソナルコンピュータ等を利用することが可能である。また、本実施形態において、複数のコンピュータを用いて管理サーバ1及び各ウェブサーバ3を構成することも可能である。なお、本実施形態では、管理サーバ1は後述の記憶部13が有するプログラムに従い上記RPAシステム及びRPA設定自動更新システムの処理を実行するが、データ取得システムは、当該RPAシステム及びRPA自動更新システムをそれぞれ実行するためのサーバを複数台有してよい。
【0026】
<利用者端末2>
各利用者端末2は、パーソナルコンピュータ、スマートフォン及びタブレット端末等であってよい。各利用者端末2は、管理サーバ1に対してリクエストを行い、レスポンスを受け取るためのアプリケーション(典型的には、ウェブブラウザ)を有する。
【0027】
図2は、データ取得システムにおける、管理サーバ1、利用者端末2、及び、ウェブサーバ3のハードウェア構成図である。
【0028】
<管理サーバ1のハードウェア構成>
図2(a)は、管理サーバ1のハードウェア構成の一例を示す図である。管理サーバ1は、ハードウェア構成として、通信部11と、制御部12と、記憶部13と、を備える。
【0029】
通信部11は、通信ネットワークNWとの通信制御を実行して、管理サーバ1を動作させるために必要な入力や、動作結果に係る出力を行う。
【0030】
制御部12は、CPU(Central Processing Unit)等の1又は複数のプロセッサを含み、本発明にかかるデータ取得プログラム、OS(Operating System)及びその他のアプリケーションを実行することで、管理サーバ1の動作処理全体を制御する。
【0031】
記憶部13は、HDD(hard disk drive)、ROM(Read Only Memory)、RAM(Random Access Memory)等であって、本発明に係るデータ取得プログラム及び、制御部12がプログラムに基づき処理を実行する際に利用するデータ等を記憶する。
【0032】
図2(b)は、利用者端末2のハードウェア構成の一例を示す図である。利用者端末2は、ハードウェア構成として、通信部21と、制御部22と、記憶部23と、出力部24と、入力部25と、を備える。
【0033】
利用者端末2の通信部21は、通信ネットワークNWとの通信を制御する。制御部22は、CPU等の1以上のプロセッサを含み、利用者端末2の動作処理全体を制御する。記憶部23は、HDD、ROM、RAM等であって、本発明に係るデータ取得プログラム及び、制御部22がプログラムに基づき処理を実行する際に利用するデータ等を記憶する。
【0034】
出力部24は、例としてモニタやディスプレイ等の、利用者に対して後述の画面を表示するためのインタフェースである。
【0035】
入力部25は、マウスやキーボード、タッチパネル等の、操作入力が可能なインタフェースである。
【0036】
図2(c)は、ウェブサーバ3のハードウェア構成の一例を示す図である。ウェブサーバ3は、ハードウェア構成として、通信部31と、制御部32と、記憶部33と、出力部34と、入力部35と、を備える。
【0037】
ウェブサーバ3の通信部31は、通信ネットワークNWとの通信を制御する。制御部32は、CPU等の1以上のプロセッサを含み、ウェブサーバ3の動作処理全体を制御する。記憶部33は、HDD、ROM、RAM等であって、本発明に係るデータ取得プログラム及び、制御部32がプログラムに基づき処理を実行する際に利用するデータ等を記憶する。出力部34は、例としてモニタやディスプレイ等の、利用者に対して後述の画面を表示するためのインタフェースである。入力部35は、マウスやキーボード、タッチパネル等の、操作入力が可能なインタフェースである。
【0038】
<機能構成要素>
図2(a)に例示されるように、管理サーバ1は、取得手段101と、入力手段102と、収集手段103と、管理サーバ1変更手段104と、出力処理手段108と、データベースDBと、を有する。また、変更手段104は、受付手段105と、検出手段106と、更新手段107と、を有する。本実施形態では、取得手段101、入力手段102及び、収集手段103によるデータの入力又は取得はRPA(robotic process automation)化されている。
【0039】
取得手段101は、設定ファイルに基づき、情報の収集先であるウェブページのリソース情報を取得する。本実施形態では、取得手段101は、設定ファイルが有する上記ウェブページのリンク(URL)に従い情報の取得先であるウェブページを特定しクローリングを行うことで、上記ウェブページのリソース情報を予め取得する。本実施形態において、リソース情報とは、例えば取得先であるウェブページにおけるHTML(Hyper Text Markup Language)データであり、設定ファイルとは、テーブル名やカラム名、HTMLにおけるタグ等の、上記HTMLデータにおいて収集の対象となる情報である目的情報を特定するための情報や、上記ウェブページのリンク(URL)等を含む。また、本実施形態において、クローリングとは、クローラーと呼ばれるプログラムが、与えられたURLにあるすべてのハイパーリンクを辿り、遷移先のページ情報を取得することを意味している。
【0040】
入力手段102は、後述の受付手段105を介して受け付けた又は予め管理サーバ1のデータベースDBが記憶する、ウェブページに入力するためのデータを有するエクセル等の情報格納ファイルに基づき、当該データのERPシステムへの入力を行う。
【0041】
収集手段103は、情報の収集先であるウェブページのリソース情報及び、当該リソース情報における目的情報を特定するための設定ファイルに基づき、収集の対象となる情報である目的情報を取得する。この際、収集手段103は、上記リソース情報における目的情報を囲うタグ及び、上記設定ファイルにおける目的情報を囲うタグを突合させ、上記タグに囲われる目的情報を変数として設定しスクレイピングを行うことで目的情報を抽出する。また、スクレイピングとは、HTML情報から特定の情報のみを取得するためのものであり、不要なタグや広告メニューバーを除去することで必要な本文の情報を抽出することを意味している(本実施形態では、上記スクレイピングによって、所定のタグに囲まれている情報を目的情報として収集する)。
【0042】
なお、本実施形態において、収集手段103は、設定ファイルにのみ基づき、上記ウェブページから目的情報を取得してもよい。この際、収集手段103は、リソース情報及び設定ファイルにおけるタグの突合を行わなくてもよく、取得手段101は予め情報の収集先であるウェブページにおけるリソース情報の取得を行わなくてよい。
【0043】
本実施形態におけるウェブページのリソース情報は、以下に示す(a)、(b)、及び、(c)を含む。
(a)全体構成の設計思想(architecture)となり、所定のマークアップ言語(例として、HTML)により記述された文書(HTML文書またはHTML文書データと記載することもある)。
(b)意匠の設計書であるCSS(Cascading Style Sheets)。CSSは、Webページのスタイルを設定する情報(コード)であり、例えば、HTMLの要素を選択的にスタイル設定(文字の色や大きさなど)するために利用される。
(c)Webブラウザ上で動作するプログラムであり、例えば、JavaScriptを利用することにより、HTML及びCSSでは表現できない動作及び効果を指定可能である。
【0044】
上記リソース(a)のHTML文書データは、URLで指定した特定のウェブサーバ3から取得される。シンプルなウェブページは、HTML文書データを取得した特定のウェブサーバ3から提供される少なくとも1つの種類のリソースで完結する場合がある。しかし、通常のウェブページは、リソース情報としての上記複数種類のリソース(a)、(b)、及び、(c)をHTML文書データを取得したウェブサーバ3以外を参照する形で含む。
【0045】
変更手段104は、収集手段103が収集した目的情報に基づき、データベースDBに記憶される設定ファイルを更新する。
【0046】
受付手段105は、入力部25を介して入力された、情報の取得先であるウェブページのリソース情報における目的情報を特定するための設定ファイル、収集手段103が収集した目的情報と上記設定ファイル間の相違点を検出するための情報検出ルール、及び、会計システムや人事システム等のウェブサービスに情報を入力するための定義ファイルを作成するための配置検出ルールの入力を受け付ける。また、受付手段105は、ウェブサーバ3からテスト環境におけるウェブページの新URLを受け付け、設定ファイルにおけるウェブページのリンクの当該新URLへの書き換えを行う。
【0047】
検出手段106は、情報検出ルール及び、収集手段103が収集した目的情報に基づき、ウェブページにおいて目的情報を有するカラムの位置の変更が行われたことを検出する。また、検出手段106は、配置検出ルール及び、収集手段103が収集した目的情報に基づき、ウェブページにおいて入力フォームの配置の変更が行われたことを検出する。
【0048】
更新手段107は、検出手段106によって変更が検出された場合、データベースDBに記憶される設定ファイル及び情報検出ルールを変更する。本実施形態では、更新手段107は、設定ファイル及び後述の物理設定において、目的情報が何れのテーブル・カラムに存在しているかの情報を更新する。更新手段107は、連結設定を更新する。また、更新手段107は、検出手段106によって変更が検出された場合、データベースDBに記憶される配置検出ルールを変更する。本実施形態では、更新手段107は、設定ファイル及び後述の物理設定において、入力フォームが何れの箇所に存在しているかの情報を更新する。
【0049】
また、本実施形態において、取得手段101は、更新手段107による設定ファイル及び情報検出ルールの変更が行われた際に、目的情報の取得先となったウェブページのサイトに対して再度クローリング行い、リソース情報を取得してよい。また、本実施形態において、収集手段103による目的情報の収集は、ウェブサーバ3から上記新URLの送付を受け付けたタイミングで行われるが、予め定められた期間毎に行われてもよい。なお、当該期間は利用者によって定められてよい。
【0050】
出力処理手段108は、利用者端末2からのリクエストに応じて、所定の画面を表示処理し、表示処理結果を返送する。利用者端末2は、管理サーバ1から受け取った情報に基づいて、種々の画面を出力部24に表示させる。これにより、利用者端末2において、後述する種々の画面が表示される。
【0051】
データベースDBは、情報の取得先であるウェブページのリソース情報と、上記ウェブページのリソース情報において目的情報を特定するための設定ファイルと、上記目的情報と上記設定ファイル間の相違点を検出するための情報検出ルールと、会計システムや人事システム等のウェブサービスに情報を入力するための定義ファイルを作成するための配置検出ルールと、本番環境及びテスト環境における目的情報に係る情報を示すマッピング情報と、を記憶する。本実施形態では、上記リソース情報は、取得手段101が情報の取得先であるウェブページのHTML情報を予めクローリングし、データベースDBに記憶したものである。本実施形態では、上記設定ファイルは、オブジェクト名、当該オブジェクトを囲むタグ及び、タグの属性等を示す備考等を含み、当該オブジェクトは、ウェブページのHTMLにおいて目的情報の存在するテーブルやカラム、ログアウトボタン、ページ一覧、Homeリンク、ウェブページのタイトル、ウェブページのリンク、及び、詳細ボタン等である。本実施形態では、上記情報検出ルールは、入力データ及び出力データを含み、当該入力データは、所定のタグに囲まれた情報を目的情報として特定するためのルールを示した検索ルール、出力部24を介して利用者に提示される出力ファイルの論理構成、及び、当該出力ファイルの出力レイアウトと、を含む。また、当該出力データは、検索ルール、上記出力ファイルにおける項目及びリソース情報におけるテーブルの項目の対応関係を示す論理設定、上記出力ファイルにおけるセルの領域及びリソース情報において当該領域の情報を囲むタグの対応関係を示す物理設定、及び、当該論理設定と物理設定をIDで関連付けるための連結設定と、を含む。本実施形態では、上記配置検出ルールは、入力データ及び出力データを含み、当該入力データは、ウェブページに入力するためのデータを有するエクセル等の情報格納ファイルにおける論理定義、情報格納ファイルのレイアウト、及び、画面のレイアウトを含む。また、当該出力データは、上記情報格納ファイルにおける項目及びリソース情報におけるテーブルの項目の対応関係を示す論理設定、上記情報格納ファイルにおけるセルの領域及びリソース情報において当該領域の情報を囲むタグの対応関係を示す物理設定、当該論理設定と物理設定をIDで関連付けるための連結設定と、を含む。本実施形態では、上記マッピング情報は、本場環境及びテスト環境において、目的情報が何れの項目に対応するかを示す論理情報と、目的情報を囲むタグを示す物理情報、及び、何れの環境における情報であるかを示す環境情報を含む。収集手段103は、同一の目的情報に対するマッピング情報を対応付けてデータベースDBに記憶する。なお、本実施形態では、本番環境におけるマッピング情報は、上記設定ファイルが有する論理情報及び物理情報である。また、本実施形態では、データベースDBは過去における複数のマッピング情報を記憶していてよく、当該マッピング情報を参照することで、ウェブページを任意の時点における状態に戻すことが可能であってよい。
【0052】
<論理設定及び物理設定>
図3(a)~(c)は、論理設定、物理設定、及び、連結設定の例である。
図3(a)に例示するように、本願発明における論理設定は、論理ID、情報格納ファイルにおける項目、及び当該項目に対応するウェブページにおける項目を有する。また、
図3(b)に例示するように、本願発明における物理設定は、物理ID、情報格納ファイルにおけるセルの領域、及び、リソース情報において当該領域の情報を囲むタグを有する。また、
図3(c)に示すように、本願発明における連結設定は、論理IDと、当該論理IDに対応付けられた物理IDを有する。なお、本実施形態では、論理設定に対して、複数の物理設定が対応付けられてよい。
【0053】
<情報の収集に係る設定の更新の全体手順>
図4を用いて、データ取得システムを用いた設定ファイル及び検出設定情報の更新を行うための全体手順の例を説明する。なお、
図4に示される各ステップの順序は一例であり、指定がない限り適宜、当該順序は変更され得る。
本実施形態では、受付手段105は入力部25を介して入力された設定ファイルを予め受け付けていてよく、取得手段101は情報の取得先であるウェブページのリソース情報を予めウェブページから取得していてよい。
【0054】
受付手段105は、入力部25を介して入力された情報検出ルールを受け付け、データベースDBに格納する(ステップS101)。
【0055】
収集手段103は、リソース情報及び設定ファイルに基づき、ウェブページから目的情報の収集を行う(ステップS102)。本実施形態では、収集手段103は上記新URLに基づき、テスト環境における目的情報の収集を行う。また、
図6(a)に例示されるように、収集手段103は、所定のフォーマットを有するエクセル等の情報格納ファイルに対して、ステップS103で収集した目的情報を出力してよい。また、収集手段103は、収集した目的情報をテスト環境におけるマッピング情報として記憶し、設定ファイルが有する本番環境におけるマッピング情報と対応付けてデータベースDBに記憶する。
【0056】
検出手段106は、情報検出ルール及び、ステップS102で取得された目的情報に基づき、ウェブページにおいて変更が行われたことを検出する(ステップS103)。本実施形態では、検出手段106は、本番環境におけるマッピング情報とテスト環境におけるマッピング情報を比較することで、目的情報が異なるテーブルや位置のカラムに記載されていることを特定し、変更が行われたとする。
【0057】
更新手段107は、ステップS103でリソース情報の変更が検出された場合、変更後のウェブページにおけるリソース情報に基づき、設定ファイル及び情報検出ルールが有する物理設定におけるタグを更新する(ステップS104)。本実施形態では、取得手段101は、ステップS104における設定ファイル及び情報検出ルールの変更が行われた際に、目的情報の取得先となったウェブページのサイトに対して再度クローリング行い、リソース情報を取得してよい。
【0058】
<ウェブページへの情報の入力及び配置検出ルールの更新の全体手順>
図5を用いて、データ取得システムを用いたウェブページへの情報の入力及び、配置検出ルールの更新の全体手順を説明する。なお、
図5に示される各ステップの順序は一例であり、指定がない限り適宜、当該順序は変更され得る。
【0059】
受付手段105は、入力部25を介して入力された配置検出ルール及び、会計システムや人事システム等のウェブサービスに入力する情報が記載された所定の形式のフォーマットファイルを受け付け、データベースDBに格納する(ステップS201)。
【0060】
入力手段102は、データベースDBに記憶される情報格納ファイルに基づき、ウェブページへのデータの入力を行う(ステップS202)。この際、入力手段102は、上記新URLを有するテスト環境のウェブページにおける入力フォームに属性名や値を打ち込み、入力した情報の確定・登録を行ってよい。
【0061】
収集手段103は、リソース情報及び設定ファイルに基づき、ウェブページから目的情報の収集を行う(ステップS203)。本実施形態では、収集手段103は、入力手段102による入力した情報の確定・登録が行われた後のウェブページのリソース情報から目的情報の収集を行う。
【0062】
検出手段106は、配置検出ルール及び、ステップS202で取得された目的情報に基づき、ウェブページにおいて変更が行われたことを検出する(ステップS204)。本実施形態では、検出手段106は配置検出ルール及び、マッピング情報に基づき、システムのバージョンアップに際して目的情報の入力フォームが何れの箇所に存在しているかの情報が変更されているか否か等の変更を検出する。
【0063】
更新手段107は、ステップS203でリソース情報の変更が検出された場合、変更後のウェブページにおけるリソース情報に基づき、配置検出ルールが有する物理設定のタグの更新を行う(ステップS205)。
【0064】
<更新手段107による物理設定の変更>
以下に、例を用いて物理設定の変更について説明する。本実施形態において、検出手段106は、ウェブページのリソース情報の変更の検出を、情報検出ルール又は配置検出ルールと、収集手段103が収集した目的情報と、に基づいて行う。また、
図6(b)に例示するように、本説明では、エクセルの表において、一列目から順にA、B、C・・・、一行目から順に1、2・・・とし、リソース情報における表の一列目から順にTh1、Th2、Th3・・・、一行目から順にTr1、Tr2・・・とする。
【0065】
図3及び
図6(b)から、本実施形態において、ウェブページにおけるリソース情報が変更されていない場合、配置検出ルールに従えば、エクセルにおける『取引日』の項目は、ウェブページの入力フォームにおけるTh1Tr2のセルに記載されているはずである。しかし、
図6(b)において、収集手段103が収集したテスト環境における目的情報では、『取引日』の項目はTr1Th3のセルに記載されていることから、検出手段106は、テスト環境のウェブページにおけるリソース情報は変更されていると判断する。更新手段107は、検出手段106が『取引日』の項目の記載されているセルが相違していることを検出した場合、取得手段101が取得した上記リソース情報に基づき、物理設定において、リソース情報における目的情報を囲むタグを更新する。
【0066】
<実施形態2>
以下、本発明の実施形態2に係るデータ取得システムについて説明する。なお、実施形態1と同様の構成については、同様の符号を付してその説明を省略する。
【0067】
<全体構成>
図7は、本実施形態におけるデータ取得システムの概要図である。データ取得システムは、管理サーバ1と、1又は複数の利用者端末2と、1又は複数のデータベース4と、を備える。データベースから情報を取得する。管理サーバ1と、利用者端末2と、データベース4と、は通信ネットワークNWを介して通信可能に構成されている。
【0068】
各データベース4は、通常、IPアドレス、アドレス、サーバー名及びサーバーID等のデータベースを特定するための識別情報により指定され、データベース4内の各種情報を要求された管理サーバ1に個々のリソースとして参照可能に提供する。
【0069】
<データベース4>
データベース4は、汎用のサーバ向けのコンピュータやパーソナルコンピュータ等を利用することが可能である。また、本実施形態において、複数のコンピュータを用いてデータベース4を構成することも可能である。
【0070】
<機能構成要素>
実施形態2では、データベースDBは、データベース4において目的の情報を特定するための設定ファイルを有する。上記設定ファイルは、データベース4において目的情報を有するデータベース名、テーブル名、及び、カラム名等を有している。
【0071】
<目的情報の収集>
実施形態2では、収集手段103は、ステップS102における目的情報の収集の際に、設定ファイルに基づきデータベース4から目的情報の収集を行う。
【0072】
なお、本発明において、収集手段103は、ウェブページとデータベース4との両方からリソース情報を取得してもよい。
【0073】
本発明によれば、データ取得システムに係る新規な技術を提供することができる。
【符号の説明】
【0074】
1 :管理サーバ
2 :利用者端末
3 :ウェブサーバ
4 :データベース
11、21、31 :通信部
12、22、32 :制御部
13、23、33 :記憶部
24、34 :出力部
25、35 :入力部
101 :取得手段
102 :入力手段
103 :収集手段
104 :変更手段
105 :受付手段
106 :検出手段
107 :更新手段
108 :出力処理手段
【要約】 (修正有)
【課題】ウェブサイトにおいて情報の変更が行われた際に、変更箇所の検出及び変更内容に応じた設定ファイルの更新を行うデータ取得システム、データ取得方法及びデータ取得プログラムを提供する。
【解決手段】RPAシステム及びRPA設定自動更新システムを備えるデータ取得システムであって、RPAシステムは、ウェブページからページのリソース情報の取得を行う取得手段と、情報の取得先であるウェブページのリソース情報及びリソース情報において目的情報を特定するための設定ファイルに基づき、ウェブページの目的情報を収集する収集手段と、取得した目的情報に基づき、設定ファイルとウェブページとの間で変更が行われたことを検出する検出手段及び変更があると検出した場合、変更後のウェブページのリソース情報に基づき、設定ファイルを更新する更新手段を備える変更手段と、を有する。
【選択図】
図1