IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2023-172407データロード装置およびデータロード方法
<>
  • 特開-データロード装置およびデータロード方法 図1
  • 特開-データロード装置およびデータロード方法 図2
  • 特開-データロード装置およびデータロード方法 図3
  • 特開-データロード装置およびデータロード方法 図4
  • 特開-データロード装置およびデータロード方法 図5
  • 特開-データロード装置およびデータロード方法 図6
  • 特開-データロード装置およびデータロード方法 図7
  • 特開-データロード装置およびデータロード方法 図8
  • 特開-データロード装置およびデータロード方法 図9A
  • 特開-データロード装置およびデータロード方法 図9B
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023172407
(43)【公開日】2023-12-06
(54)【発明の名称】データロード装置およびデータロード方法
(51)【国際特許分類】
   G06F 16/182 20190101AFI20231129BHJP
   H04L 67/06 20220101ALI20231129BHJP
【FI】
G06F16/182 100
H04L67/06
【審査請求】有
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2022084182
(22)【出願日】2022-05-23
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜弁理士法人
(72)【発明者】
【氏名】後藤 弘樹
(57)【要約】
【課題】データウェアハウスにデータをロードする際に、コストを優先するか転送速度を優先するかのニーズに沿って最適な形態のデータロードを行う。
【解決手段】ロードするファイルに対して、ユーザ指定モードの情報が速度優先の指定であるときには、データウェアハウスのサイズごとに、ファイルロード時の転送速度に関する情報に従って、データウェアハウスのサイズを設定し、コスト優先の指定であるときには、データウェアハウスのサイズごとに、ファイルロード時の転送速度に関する情報と、データウェアハウスのサイズごとに、ファイルロード時の転送速度に対するコストの比に関する情報とに従って、ロードするファイルに対してコストを算出して、算出されたコストを参照し、データウェアハウスのサイズを設定して、ファイルをロードする。
【選択図】 図9B
【特許請求の範囲】
【請求項1】
データウェアハウスのサイズに従って、データウェアハウスのサービスを提供するデータウェアハウスにファイルをロードするデータロード装置であって、
ファイルをロードするデータウェアハウスに対して、最適なファイルサイズとファイル形式の情報と、
ファイルごとにコスト優先か速度優先かを指定するユーザ指定モードの情報と、
データウェアハウスのサイズごとに、ファイルをデータウェアハウスのロードするときの転送速度に関する情報と、
データウェアハウスのサイズごとに、ファイルをデータウェアハウスのロードするときの転送速度に対するコストの比に関する情報とを保持し、
前記ファイルをロードするデータウェアハウスに対して、最適なファイルサイズとファイル形式の情報を参照して、必要なときには、外部より取り込んだファイルのファイルサイズとファイル形式を変更し、
ロードするファイルに対して、前記ユーザ指定モードの情報が速度優先の指定であるときには、データウェアハウスのサイズごとに、ファイルをデータウェアハウスのロードするときの転送速度に関する情報に従って、前記データウェアハウスのサイズを設定し、前記ユーザ指定モードの情報がコスト優先の指定であるときには、前記データウェアハウスのサイズごとに、ファイルをデータウェアハウスのロードするときの転送速度に関する情報と、前記データウェアハウスのサイズごとに、ファイルをデータウェアハウスのロードするときの転送速度に対するコストの比に関する情報とに従って、ロードするファイルに対してコストを算出して、前記算出されたコストを参照し、前記データウェアハウスのサイズを設定し、
設定した前記データウェアハウスのサイズに従って、前記ファイルをロードすることを特徴とするデータロード装置。
【請求項2】
ロードするファイルに対して、前記ユーザ指定モードの情報が速度優先の指定であるときには、データウェアハウスのサイズごとに、ファイルをデータウェアハウスのロードするときの転送速度に関する情報を参照し、前記データウェアハウスのサイズに対応する転送速度の一番小さなデータウェアハウスのサイズを設定することを特徴とする請求項1記載のデータロード装置。
【請求項3】
ロードするファイルに対して、前記ユーザ指定モードの情報がコスト優先の指定であるときには、
前記コストは、前記データウェアハウスのサイズごとに、ファイルをデータウェアハウスのロードするときの転送速度と、前記データウェアハウスのサイズごとに、ファイルをデータウェアハウスのロードするときの転送速度に対するコストと転送速度の比との積をとって、前記ファイルをデータウェアハウスのロードするときのコストを算出して、算出された前記データウェアハウスのサイズに対応するコストの一番小さなデータウェアハウスのサイズを設定することを特徴とする請求項1記載のデータロード装置。
【請求項4】
データウェアハウスのサイズに従って、データウェアハウスのサービスを提供するデータウェアハウスにファイルをロードするデータロード装置によるデータロード方法であって、
前記データロード装置は、
ファイルをロードするデータウェアハウスに対して、最適なファイルサイズとファイル形式の情報と、
ファイルごとにコスト優先か速度優先かを指定するユーザ指定モードの情報と、
データウェアハウスのサイズごとに、ファイルをデータウェアハウスのロードするときの転送速度に関する情報と、
データウェアハウスのサイズごとに、ファイルをデータウェアハウスのロードするときの転送速度に対するコストの比に関する情報とを保持し、
前記データロード装置が、前記ファイルをロードするデータウェアハウスに対して、最適なファイルサイズとファイル形式の情報を参照して、必要なときには、外部より取り込んだファイルのファイルサイズとファイル形式を変更するステップと、
前記データロード装置が、ロードするファイルに対して、前記ユーザ指定モードの情報が速度優先の指定であるときには、データウェアハウスのサイズごとに、ファイルをデータウェアハウスのロードするときの転送速度に関する情報に従って、前記データウェアハウスのサイズに対応する転送速度の一番小さなデータウェアハウスのサイズを設定するステップと、
前記データロード装置が、ロードするファイルに対して、前記ユーザ指定モードの情報がコスト優先の指定であるときには、前記データウェアハウスのサイズごとに、ファイルをデータウェアハウスのロードするときの転送速度に関する情報と、前記データウェアハウスのサイズごとに、ファイルをデータウェアハウスのロードするときの転送速度に対するコストの比に関する情報とに従って、ロードするファイルに対してコストを算出して、算出された前記データウェアハウスのサイズに対応するコストの一番小さなデータウェアハウスのサイズを設定するステップと、
設定した前記データウェアハウスのサイズな従って、前記ファイルをロードするステップとを有することを特徴とするデータロード方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データロード装置およびデータロード方法に係り、特に、データウェアハウスにデータをロードする際に、ユーザのニーズに沿って最適な形態のデータロードを行うのに好適なデータロード装置およびデータロード方法に関する。
【背景技術】
【0002】
生産管理や販売管理といった「基幹系システム」、MA(Marketing Automation)ツール、SFA(Sales Force Automation)ツール、CRM(Customer Relationship Management)ツールといった「戦略系システム」、Webサイトのアクセスログ、IoT(Internet of Things)機器のセンサーログなど、日々蓄積される大量のデータを格納するためにデータウェアハウス(Data Warehouse:以下、「DWH」とも表記する)を活用することが期待されている。データウェアハウスとは、様々なシステムからデータを集めて整理するデータの「倉庫」である。このデータウェアハウスではデータが時系列で保存されるため、過去のデータ履歴を確認できると同時に、システムごとのデータを集約して全体のデータとして活用でき、経営やマーケティングにおいての、重要な意思決定をサポートし、より優れた企業の意思決定を行うことができる。
【0003】
このようにデータウェアハウスに蓄積された大量のデータを分析することによって、より効果的なデータ活用を行うには、データウェアハウスに、ネットワークを介して遠隔のデータサーバなどから大容量かつ大量のデータロードを行うことが必要となり、その際のデータロードには膨大な時間とデータ転送コストを要する。
【0004】
これに関連して、データ転送のコストを考慮し、ネットワークを介してデータを転送するシステムについては、例えば、特許文献1に開示されている。また、特許文献2では、データ送信の際に、データ要求の指定情報に従い、品質優先か時間優先であるかに従って、データ転送を行うシステムが開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平10-289174号公報
【特許文献2】特開平7-152668号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1のデータ転送システムは、データ転送に要するコストを複数の候補データの組み合わせごとにあらかじめ算出し、利用者の要求に合う最適な情報の組み合わせをその候補の中から選択して、ネットワークを介して転送するものである。
【0007】
また、特許文献2のシステムでは、データ要求に含まれる指定情報が品質優先か、時間優先かを判定し、指定情報が品質優先であれば、データをそのままネットワーク送信部へ転送し、指定情報が時間優先であれば、供給すべきデータをデータ圧縮部へ転送し、ネットワーク回線の混み具合等に応じて選択された圧縮・間引き方法で処理した後、ネットワーク送信部転送することにしている。
【0008】
上記特許文献1と特許文献2では、データ転送に要するコストと時間について考慮されているが、必ずしもデータウェアハウスに対するデータロードに適したものではない。
【0009】
データウェアハウスでは、例えば、ユーザがデータウェアハウスに対するサイズを指定して、利用料金を支払うのが通常であるが、従来技術では、その際にユーザが利用のためのコストを優先するかデータをロードする際の転送速度を優先するかの意思を反映することについては考慮されていない。
【0010】
本発明の目的は、データウェアハウスにデータをロードする際に、コストを優先するか転送速度を優先するかのユーザのニーズに沿って最適な形態のデータロードを行うことのできるデータロード装置およびデータロードシステムを提供することにある。
【課題を解決するための手段】
【0011】
本発明のデータロード装置の構成は、好ましくは、データウェアハウスのサイズに従って、データウェアハウスのサービスを提供するデータウェアハウスにファイルをロードするデータロード装置であって、ファイルをロードするデータウェアハウスに対して、最適なファイルサイズとファイル形式の情報と、ファイルごとにコスト優先か速度優先かを指定するユーザ指定モードの情報と、データウェアハウスのサイズごとに、ファイルをデータウェアハウスのロードするときの転送速度に関する情報と、データウェアハウスのサイズごとに、ファイルをデータウェアハウスのロードするときの転送速度に対するコストの比に関する情報とを保持し、ファイルをロードするデータウェアハウスに対して、最適なファイルサイズとファイル形式の情報を参照して、必要なときには、外部より取り込んだファイルのファイルサイズとファイル形式を変更し、ロードするファイルに対して、ユーザ指定モードの情報が速度優先の指定であるときには、データウェアハウスのサイズごとに、ファイルをデータウェアハウスのロードするときの転送速度に関する情報に従って、データウェアハウスのサイズを設定し、ユーザ指定モードの情報がコスト優先の指定であるときには、データウェアハウスのサイズごとに、ファイルをデータウェアハウスのロードするときの転送速度に関する情報と、データウェアハウスのサイズごとに、ファイルをデータウェアハウスのロードするときの転送速度に対するコストの比に関する情報とに従って、ロードするファイルに対してコストを算出して、算出されたコストを参照し、データウェアハウスのサイズを設定し、設定したデータウェアハウスのサイズに従って、ファイルをロードするようにしたものである。
【発明の効果】
【0012】
本発明によれば、データウェアハウスにデータをロードする際に、コストを優先するか転送速度を優先するかのユーザのニーズに沿って最適な形態のデータロードを行うことのできるデータロード装置およびデータロードシステムを提供することができる。
【図面の簡単な説明】
【0013】
図1】データウェアハウス利用システムの全体構成図である。
図2】データロード装置の機能構成図である。
図3】データロード装置のハードウェア・ソフトウェア構成図である。
図4】データウェアハウス最適ロード条件情報テーブルの一例を示す図である。
図5】加工前ファイル情報テーブルの一例を示す図である。
図6】加工後ファイル情報テーブルの一例を示す図である。
図7】データウェアハウス転送時間情報テーブルの一例を示す図である。
図8】データウェアハウスコスト・転送時間比情報テーブルの一例を示す図である。
図9A】ファイル取込からデータウェアハウスのデータロードまで、データロード装置が行う一連の処理を示すフローチャートである(その一)。
図9B】ファイル取込からデータウェアハウスのデータロードまで、データロード装置が行う一連の処理を示すフローチャートである(その二)。
【発明を実施するための形態】
【0014】
以下、図1ないし図9Bを用いて、本発明の一実施形態を説明する。
【0015】
先ず、図1ないし図3を用いて本発明のデータロード装置が用いられるデータウェアハウス利用システムの構成について説明する。
【0016】
先ず、図1を用いてデータウェアハウス利用システムの全体構成について説明する。
データウェアハウス利用システムは、図1に示されように、利用者端末10、データロード装置100、データベースサーバ200、データウェアハウス300がネットワーク5により接続された形態である。ネットワーク5は、通常はインターネットのようなグローバルネットワークであるが、LAN(Local Area Network)であってもよい。
【0017】
利用者端末10は、データウェアハウスを利用するユーザが使用する情報処理装置である。ユーザは、利用者端末10から利用者がファイル単位で、ユーザ指定モードの指定をしたり(詳細は、後述)、データウェアハウス300にアクセスしデータ分析を行う。
【0018】
データロード装置100は、データベースサーバ200からデータベース210に蓄えられたマスタやトランザクションデータなどのファイルを取り込んで、データウェアハウス300にロードする装置である。
【0019】
データウェアハウス300は、ユーザが利用してデータ分析するデータウェアハウスの機能を提供するクラウドサービスであり、そのサービスを提供するシステムである。
【0020】
データロード装置100は、図2に示されるように、ファイル形式変換部101、ファイル分割部102、データウェアハウスサイズ設定部103、スクリプト実行部104、外部I/F(InterFace)部110、記憶部120の各機能部からなる。
【0021】
ファイル形式変換部101は、データベース210から取り込んだファイル形式を変換する機能部である。ファイル分割部102は、データベース210から取り込んだファイルを分割して小容量なファイルにする機能部である。データウェアハウスサイズ設定部103は、ファイルをデータウェアハウス300にロードするときには、データウェアハウスのサイズ(詳細は後述)を設定する機能部である。スクリプト実行部104は、データロードスクリプト131を実行して、ファイルをデータウェアハウス300にロードする機能部である。外部I/F(InterFace)部110は、ネットワーク5を介して、利用者端末10、データベースサーバ200、データウェアハウス300とインタフェース処理を行う機能部である。記憶部120は、データロード装置100で使用されるデータを記憶する機能部である。
【0022】
記憶部120には、加工前ファイル群121、加工後ファイル群122、データロードスクリプト131、データウェアハウス最適ロード条件情報テーブル141、加工前ファイル情報テーブル142、加工後ファイル情報テーブル143、データウェアハウス転送時間情報テーブル144、データウェアハウスコスト・転送時間比情報テーブル145が保持される。
【0023】
加工前ファイル群121は、データベース210から取り込んだ複数のファイルである。図2では、データベース210から取り込んだファイルとして、「A.csv」、「B.csv」、「C.csv」が図示されている。加工後ファイル群122は、データベース210から取り込んだファイルに対して、形式変換やファイル分割などの加工を行った後のファイルである。図2では、「A.csv」を加工した「A_1.csv」、「A_2.csv」、「A_3.csv」を図示している。データロードスクリプト131は、ファイルをデータウェアハウス300にロードするときに実行されるスクリプトである。
【0024】
データウェアハウス最適ロード条件情報テーブル141、加工前ファイル情報テーブル142、加工後ファイル情報テーブル143、データウェアハウス転送時間情報テーブル144、データウェアハウスコスト・転送時間比情報テーブル145の詳細については後述する。
【0025】
次に、図3を用いてデータロード装置のハードウェア・ソフトウェア構成を説明する。
データロード装置100のハードウェア構成としては、例えば、図3に示されるパーソナルコンピュータのような一般的な情報処理装置で実現される。
【0026】
データロード装置100は、CPU(Central Processing Unit)402、主記憶装置404、ネットワークI/F(InterFace)406、表示I/F408、入出力I/F410、補助記憶I/F412が、バスにより結合された形態になっている。
【0027】
CPU402は、データロード装置100の各部を制御し、主記憶装置404に必要なプログラムをロードして実行する。
【0028】
主記憶装置404は、通常、RAMなどの揮発メモリで構成され、CPU402が実行するプログラム、参照するデータが記憶される。
【0029】
ネットワークI/F406は、ネットワーク5と接続するためのインタフェースである。
【0030】
表示I/F408は、LCD(Liquid Crystal Display)などの表示装置420を接続するためのインタフェースである。
【0031】
入出力I/F410は、入出力装置を接続するためのインタフェースである。図3の例では、キーボード430とポインティングデバイスのマウス432が接続されている。
【0032】
補助記憶I/F412は、HDD(Hard Disk Drive)450やSSD(Solid State Drive)などの補助記憶装置を接続するためのインタフェースである。
【0033】
HDD450は、大容量の記憶容量を有しており、本実施形態を実行するためのプログラムが格納されている。
【0034】
データロード装置100には、ファイル形式変換プログラム461、ファイル分割プログラム462、データウェアハウスサイズ設定プログラム463、スクリプト実行プログラム464、外部I/Fプログラム465がインストールされている。
【0035】
ファイル形式変換プログラム461、ファイル分割プログラム462、データウェアハウスサイズ設定プログラム463、スクリプト実行プログラム464、外部I/Fプログラム465は、それぞれ、ファイル形式変換部101、ファイル分割部102、データウェアハウスサイズ設定部103、スクリプト実行部104、外部I/F部110の機能を実行する機能部である。
【0036】
また、HDD450には、加工前ファイル群121、加工後ファイル群122、データロードスクリプト131、データウェアハウス最適ロード条件情報テーブル141、加工前ファイル情報テーブル142、加工後ファイル情報テーブル143、データウェアハウス転送時間情報テーブル144、データウェアハウスコスト・転送時間比情報テーブル145が格納されている。
【0037】
次に、データウェアハウスのサイズについて説明する。
【0038】
データウェアハウスのサイズとは、ユーザがデータウェアハウスのサービスを利用するとき(例えば、仮想データウェアハウスを作成するとき)に、指定するパラメータである。ユーザは、データウェアハウスのサービスを利用するときに、その利用目的に従って、小さいサイズから大きいサイズまで、任意に指定することができ、いつでもそのサイズを変更することができる。データウェアハウスのサービスの利用に関しての課金は、データウェアハウスのサービス/単位時間という指標に基づいて行われ、小さいサイズのときには、課金は小さく、大きいサイズのときには、課金は大きくされる。本実施形態では、以下、データウェアハウスのサービスに対する単位時間あたりの課金単位を「コスト」という用語で表現する。また、一般的に、データウェアハウスのサイズが小さいときには、データの転送速度が遅くなり、データウェアハウスのサイズが大きいときには、データの転送速度が速くなる。従って、一定量のデータをデータウェアハウスに速くロードしたいときには、データウェアハウスのサイズが大きくすればよい。
【0039】
本実施形態では、上記のデータウェアハウスのサイズの性質を鑑みて、データウェアハウにロードするときに、ユーザの重視する観点に従って、ユーザ指定モードとして、「コスト優先」か「速度優先」かを指定できることにした。
【0040】
次に、図4ないし図8を用いてデータロード装置で用いられるデータ構造について説明する。
【0041】
データウェアハウス最適ロード条件情報テーブル141は、ユーザが利用するデータウェアハウスの最適なファイルに対するロード条件の情報を保持するテーブルであり、図4に示すように、ロードデータウェアハウス141a、ファイル形式141b、ファイルサイズ141cの各フィールドからなる。
【0042】
ロードデータウェアハウス141aには、ファイルをロードする対象となるデータウェアハウスの種類の名称または識別子が格納される。ファイル形式141bには、ロードデータウェアハウス141aの示すデータウェアハウスにファイルをロードするときの最適なファイル形式の名称または識別子が格納される。ファイルサイズ141cには、データウェアハウスにファイルをロードするときの最適なファイルサイズ、すなわち、このファイルサイズより大きいときには、ロードのときの性能が低下されると見積もられるサイズが、例えば、MB単位で格納される。
【0043】
データウェアハウス最適ロード条件情報テーブル141に格納される情報は、例えば、データウェアハウスのサービスを提供するベンダーのWebページの情報や仕様書の情報などから作成することができる。
【0044】
加工前ファイル情報テーブル142は、データベース210から取り込んだ直後の加工前のファイルに対しての情報を格納するテーブルであり、図5に示されるように、加工前ファイル142a、ファイルサイズ142b、ユーザ指定モード142cの各フィールドからなる。
【0045】
加工前ファイル142aには、データベース210から取り込んだ直後の加工前のファイルの名称がファイルの形式を示す拡張子付きで格納される。ファイルサイズ142bには、加工前ファイル142aに示されるファイルのサイズがMB単位で格納される。ユーザ指定モード142cには、加工前ファイル142aに示されるファイルに対して、「コスト優先」か「速度優先」を示すフラグが格納される。
【0046】
加工後ファイル情報テーブル143は、加工前のファイルをファイル形式の変更やファイルを分割した加工後のファイルの情報を格納するテーブルであり、図6に示されるように、加工後ファイル143a、ファイルサイズ143b、圧縮形式143c、ユーザ指定モード143dの各フィールドからなる。
【0047】
加工後ファイル143aには、加工前のファイルをファイル形式の変更やファイルを分割した加工後のファイルの名称がファイルの形式を示す拡張子付きで格納される。ファイルサイズ143bには、加工後ファイル143aに示されるファイルのサイズがMB単位で格納される。圧縮形式143cには、加工後ファイル143aに示されるファイルが圧縮形式であるか否かのフラグが格納される。例えば、csv、txtの形式のときには、「非圧縮」とし、zip、7zの形式のときには、「圧縮」とされる。ユーザ指定モード143cには、加工後ファイル143aに示されるファイルに対して、「コスト優先」か「速度優先」を示すフラグが格納される。ユーザ指定モード143cは、加工前のユーザ指定モードを引き継ぐものとする。例えば、加工前ファイルが「A.csv」であり、ユーザ指定モード142cが「コスト優先」であるときに、そのファイルのファイル分割の結果として「A_1.csv」、「A_2.csv」、「A_3.csv」が生成されたときに、それらのユーザ指定モード143dの値は、全て「コスト優先」となる。
【0048】
データウェアハウス転送時間情報テーブル144は、ファイルサイズごと、圧縮形式ごと、データウェアハウスのサイズごとのデータウェアハウスへの転送に要する時間情報を保持するテーブルであり、図7に示されるように、ファイルサイズ144a、圧縮形式144b、データウェアハウスのサイズ144c、転送時間144dの各フィールドからなる。
【0049】
ファイルサイズ144aには、データロードの対象となるファイルのファイルサイズが格納される。圧縮形式144bには、データロードの対象となるファイルが圧縮形式であるか否かのフラグが格納される。データウェアハウスのサイズ144cには、ファイルをロードするデータウェアハウスのサイズの種類を示す名称または識別子が格納される。本実施形態の例では、データウェアハウスのサイズとして、サイズが小さい順から「X-Small」、「Small」、「Medium」、「Large」「X-Large」、「2X-Large」、「3X-Large」、「4X-Large」の8種類とした。転送時間144dには、データロードの対象となるファイルのファイルサイズがファイルサイズ144aに示す値で、ファイルが圧縮形式144bで示す圧縮形式であり、かつ、データウェアハウスのサイズ144cに示すサイズのデータウェアハウスにファイルをロードするときの転送時間が、時分秒の単位とともに格納される。一般に、データウェアハウスのサイズが小さいときには、転送時間は大きくなり、データウェアハウスのサイズが大きいときには、転送時間は小さくなる。
【0050】
データウェアハウス転送時間情報テーブル144に記載される情報は、実測してもよいし、例えば、データウェアハウスのサービスを提供するベンダーのWebページの情報や仕様書の情報などから作成することができる。
【0051】
データウェアハウスコスト・転送時間比情報テーブル145は、データウェアハウスのサイズごとの転送時間に対するデータウェアハウスのコストの比を保持するテーブルであり、図8に示されるように、データウェアハウスのサイズ145a、コスト/転送時間145bの各フィールドからなる。
【0052】
データウェアハウスのサイズ145aには、ファイルをロードするデータウェアハウスのサイズの種類を示す名称または識別子が格納される。コスト/転送時間145bには、データウェアハウスのサイズ145aのデータウェアハウスのサイズの転送時間に対するコスト比が格納される。一般に、データウェアハウスのサイズが小さいときには、転送時間に対するコストは小さくなり、データウェアハウスのサイズが大きいときには、転送時間に対するコストは大きくなる。
【0053】
データウェアハウスコスト・転送時間比情報テーブル145に記載される情報は、例えば、データウェアハウスのサービスを提供するベンダーのWebページの情報や仕様書の情報などから作成することができる。
【0054】
次に、図9Aないし図9Bを用いてファイル取込からデータウェアハウスのデータロードまで、データロード装置が行う一連の処理について説明する。
【0055】
先ず、データロード装置100は、データベースサーバ200にアクセスし、ネットワークを介してデータベース210より対象となるファイルを取り込む(S01)。
【0056】
次に、ユーザは、利用者端末10よりデータロード装置100に取り込まれたファイルに対して、ユーザ指定モードの指定を行う(S02)。
【0057】
次に、データロード装置100は、取り込んだ加工前のファイルの情報を、図5に示した加工前ファイル情報テーブル142に設定する(S03)。
【0058】
次に、データロード装置100のファイル形式変換部101は、図4に示すデータウェアハウス最適ロード条件情報テーブル141と加工前ファイル情報テーブル142を参照し、取り込んだ加工前のファイルのファイル形式がロードするデータウェアハウスの最適なファイル形式であるか否かを判定し(S04)、最適なファイル形式であるときには(S04:YES)、S06に行き、最適なファイル形式でないときには(S04:NO)、ファイルをロードするデータウェアハウスの最適なファイル形式に変換する(S05)。
【0059】
次に、データロード装置100のファイル分割部102は、図4に示すデータウェアハウス最適ロード条件情報テーブル141と加工前ファイル情報テーブル142を参照し、取り込んだファイル(S05でファイル形式を変換した可能性もある)のファイルサイズと、ロードするデータウェアハウスの最適なファイルサイズを比較し(S06)、取り込んだファイルのファイルサイズが最適なファイルサイズより大きいときには(S06:YES)、取り込んだファイルを分割して、データウェアハウスの最適なファイルサイズにし(S07)、取り込んだファイルのファイルサイズが最適なファイルサイズ以下のときには(S06:NO)、S08に行く。
【0060】
そして、データロード装置100は、図6に示す加工後ファイル情報テーブル143に、ファイル形式変換処理、ファイル分割処理を行った可能性のあるファイルの値を設定する(S08)。なお、ファイル形式変換処理、ファイル分割処理を行わなかったときには、同じファイル形式、同じファイルサイズの値を図6に示す加工後ファイル情報テーブル143に設定する。
【0061】
次に、データロード装置100のデータウェアハウスサイズ設定部103は、データウェアハウスへのロードの対象となるファイルを選定する(図9BのS09)。
【0062】
データウェアハウスのロードとなるファイルを選定は、例えば、利用者端末10から指定されたものを選定したり、過去の一定期間、例えば、過去の一週間内にロードされて更新されたファイルであるなどの基準により選定することができる。
【0063】
次に、データロード装置100のデータウェアハウスサイズ設定部103は、加工後ファイル情報テーブル143を参照し、データウェアハウスへのロードの対象となるファイルのユーザ指定モードを参照し、ユーザ指定モードが「速度優先」のときには、S20に行き、「コスト優先」のときには、S30に行く(S10)。
【0064】
ファイルのユーザ指定モードが、「速度優先」のときには、加工後ファイル情報テーブル143と図7に示したデータウェアハウス転送時間情報テーブル144を読み込み(S20)、加工後ファイル情報テーブル143のファイルサイズ143b、圧縮形式143c、データウェアハウス転送時間情報テーブル144のファイルサイズ144a、圧縮形式144bのパターンがそれぞれ一致するエントリで、転送時間144dの値が一番小さいサイズのデータウェアハウスのサイズ144cを、ロードするファイルのデータウェアハウスのサイズとして設定する(S21)。
【0065】
ファイルのユーザ指定モードが、「コスト優先」のときには、加工後ファイル情報テーブル143とデータウェアハウス転送時間情報テーブル144と図8に示したデータウェアハウスコスト・転送時間比情報テーブル145を参照し、加工後ファイル情報テーブル143のファイルサイズ143b、圧縮形式143c、データウェアハウス転送時間情報テーブル144のファイルサイズ144a、圧縮形式144bのパターンがそれぞれ一致するエントリで、転送時間144dの値と、データウェアハウスコスト・転送時間比情報テーブル145の値を読み込み(S30)、以下の(式1)により、データウェアハウスのサイズごとのコストを算出し(S31)、コストが一番小さいデータウェアハウスのサイズをロードするファイルのデータウェアハウスのサイズとして設定する(S32)。
【0066】
データウェアハウスのサイズごとのコスト=(転送時間144dの値)×(コスト/転送時間145bの値) …(式1)
ここで、転送時間144dの値と、コスト/転送時間145bの値は、それぞれデータウェアハウスのサイズ144cとデータウェアハウスのサイズ145aの一致するもの同士をとって計算する。これにより、例えば、A_1.csvのときに計算すると、データウェアハウスのサイズが「small」のときに、一番コストが小さいことが確認できる。
【0067】
これは、この計算により、コストが一番小さいデータウェアハウスのサイズをロードするファイルのデータウェアハウスのサイズとすることが一番、費用対効果が高いことを意味する。
【0068】
次に、S21、S22後、データロード装置100のスクリプト実行部は、データロードスクリプト131を実行し、設定したデータウェアハウスのサイズに従って、ロードするファイルを、データウェアハウス300にロードする(S40)。このとき、設定したデータウェアハウスのサイズは、パラメータとしてデータロードスクリプト131に渡せばよい。
【0069】
そして、データウェアハウス300にロードする全てのファイルを処理したか否かを判定し(S41)、全てのデータウェアハウス300にロードするファイルを処理したときには(S41:YES)、処理を終了し、処理していないファイルがあるときには(S41:NO)、S09に戻り、次のファイルを選定する。
【0070】
以上実施形態で説明してきたように、本実施形態のデータロード装置によれば、ロードするファイルごとにコストを優先するか転送速度を優先するかを指定できるために、ユーザがデータウェアハウスにデータをロードする際に、コストを優先するか転送速度を優先するかのユーザのニーズに沿って最適な形態のデータロードを行うことができる。
【0071】
特に、転送速度を優先するように指定したときには、データロードスクリプトによるデータウェアハウスのロードを効率的に行うことができ、バッチ処理を効率的に行うことができる。また、コストを優先するように指定したときには、データをロードするときのコストを下げるようなデータウェアハウスを設定して、ユーザは、データウェアハウスの費用対効果の最大化を目指すことができる。
【符号の説明】
【0072】
5…ネットワーク、10…利用者端末、100…データロード装置、200…データベースサーバ、300…データウェアハウス、
101…ファイル形式変換部、102…ファイル分割部、103…データウェアハウスサイズ設定部、104…スクリプト実行部、110…外部I/F部、120…記憶部、
121…加工前ファイル群、122…加工後ファイル群、131…データロードスクリプト、141…データウェアハウス最適ロード条件情報テーブル、142…加工前ファイル情報テーブル、143…加工後ファイル情報テーブル、144…データウェアハウス転送時間情報テーブル、145…データウェアハウスコスト・転送時間比情報テーブル
図1
図2
図3
図4
図5
図6
図7
図8
図9A
図9B