(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022121747
(43)【公開日】2022-08-19
(54)【発明の名称】データ変換装置およびデータ変換方法
(51)【国際特許分類】
G06F 16/215 20190101AFI20220812BHJP
G06F 40/151 20200101ALI20220812BHJP
G06F 40/157 20200101ALI20220812BHJP
【FI】
G06F16/215
G06F40/151
G06F40/157
【審査請求】有
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022107840
(22)【出願日】2022-07-04
(62)【分割の表示】P 2018036542の分割
【原出願日】2018-03-01
(71)【出願人】
【識別番号】000233491
【氏名又は名称】株式会社日立システムズ
(74)【代理人】
【識別番号】110002066
【氏名又は名称】弁理士法人筒井国際特許事務所
(72)【発明者】
【氏名】小松 裕也
(72)【発明者】
【氏名】森田 豊久
(57)【要約】
【課題】実際のデータにクレンジング処理を行う前に、当該変換ルールによって所望の情報に変換されているか否かを判断する情報を提供する。
【解決手段】データ変換装置100では、入力画面インタフェース部101が、データリストを取得し、さらに変換ルールを取得する。また、抽出部104が、データリストから、変換ルールを仮適用するデータリストである仮適用対象データリストを抽出する。変換表生成部106が、変換ルールを仮適用対象データリストに対して仮適用して、仮適用対象リストと、仮適用した結果とを対応付けた変換表を生成し、変換表出力部107が、当該変換表を出力する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
変換ルールに基づいてデータを変換するデータ変換装置であって、
データリストを取得するデータリスト取得部と、
前記変換ルールとして複数の変換ルールおよび前記複数の変換ルールの適用の順序を取得する変換ルール取得部と、
前記データリスト取得部により取得されたデータリストから、前記変換ルールを仮適用するデータリストである仮適用対象データリストを抽出する抽出部と、
前記変換ルール取得部により取得された変換ルールを、前記抽出部により抽出された仮適用対象データリストに対して適用する仮適用をして、前記抽出部により抽出された仮適用対象データリストと、前記仮適用した結果とを対応付けた変換表を生成する変換表生成部と、
前記変換表生成部により生成された変換表を出力する変換表出力部と、
前記変換表出力部により変換表が出力された後に、前記データリストの変換要求を受け付ける変換要求受付部と、
前記変換要求受付部により受け付けられた変換要求に応じて、前記変換ルール取得部により取得された変換ルールとして前記複数の変換ルールおよび前記複数の変換ルールの適用の順序を用いて、前記データリストを変換する本適用処理を行い、本適用処理の結果を出力する本適用部と、
を備える、データ変換装置。
【請求項2】
請求項1に記載のデータ変換装置において、
前記抽出部は、前記データリスト取得部により取得されたデータリストのうち、一意となるデータリストである一意リストを、前記仮適用対象データリストとして抽出する、データ変換装置。
【請求項3】
請求項1に記載のデータ変換装置において、
前記抽出部は、前記データリスト取得部により取得されたデータリストのうち、取得したレコードの変換対象列のすべてのデータを、前記仮適用対象データリストとして抽出する、データ変換装置。
【請求項4】
請求項1に記載のデータ変換装置において、
前記変換ルール取得部は、データ変換手順入力画面を表示し、前記データ変換手順入力画面で、複数の変換ルールにおける、変換ルールごとに、変換前の対象と変換後の対象とを入力可能とし、前記複数の変換ルールの適用の順序を入力可能とし、前記変換ルールの追加および削除を入力可能とする、データ変換装置。
【請求項5】
請求項1に記載のデータ変換装置において、
前記変換ルール取得部により取得された変換ルールを変換ルール履歴情報として記憶する変換ルール履歴情報記憶部をさらに備え、
前記変換ルール取得部は、データ変換手順入力画面を表示し、前記データ変換手順入力画面で、前記変換ルール履歴情報記憶部に格納されている変換ルールからの複数の変換ルールの選択入力を可能とし、前記複数の変換ルールの適用の順序を入力可能とする、データ変換装置。
【請求項6】
請求項1に記載のデータ変換装置において、
前記変換表生成部により生成された変換表における仮適用した結果の修正結果を取得する修正取得部をさらに備え、
前記修正取得部は、前記変換表出力部により出力された変換表確認画面に表示された変換表における仮適用した結果において、修正ボタンが押された場合に、変換後の部分の修正結果を取得し、修正完了ボタンが押された場合に、修正結果を表示し、変換実行ボタンが押された場合に、修正結果が反映された更新された変換表とともに、前記データリストの変換要求をする、データ変換装置。
【請求項7】
変換ルールに基づいてデータを変換するデータ変換装置が実行するデータ変換方法であって、
データリストを取得するデータリスト取得ステップと、
前記変換ルールとして複数の変換ルールおよび前記複数の変換ルールの適用の順序を取得する変換ルール取得ステップと、
前記データリスト取得ステップにより取得されたデータリストから、前記変換ルールを仮適用するデータリストである仮適用対象データリストを抽出する抽出ステップと、
前記変換ルール取得ステップにより取得された変換ルールを、前記抽出ステップにより抽出された仮適用対象データリストに対して適用する仮適用をして、前記抽出ステップにより抽出された仮適用対象データリストと、前記仮適用した結果とを対応付けた変換表を生成する変換表生成ステップと、
前記変換表生成ステップにより生成された変換表を出力する変換表出力ステップと、
前記変換表出力ステップにより変換表が出力された後に、前記データリストの変換要求を受け付ける変換要求受付ステップと、
前記変換要求受付ステップにより受け付けられた変換要求に応じて、前記変換ルール取得ステップにより取得された変換ルールとして前記複数の変換ルールおよび前記複数の変換ルールの適用の順序を用いて、前記データリストを変換する本適用処理を行い、本適用処理の結果を出力する本適用ステップと、
を有する、データ変換方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ変換装置およびデータ変換方法に関するものである。
【背景技術】
【0002】
従来から大量のデータを分析する前に、データをクレンジングすることが知られている。このクレンジングの一例として表記ゆれ等を解消する処理がある。
【0003】
特許文献1には、データをクレンジングする技術が記載されている。具体的には、コンテンツデータファイル内の項目名データをフォーマットで統一して使用される項目名データに変換するとともに、このコンテンツデータファイルへフォーマットで用いられるコンテンツデータを補完することが記載されている(請求項1、要約など)。また、正規表現等を指定して文字列を置換するソフトウェアなどもある。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述した従来技術は、予め定められている変換ルールまたは入力された変換ルールに基づいてクレンジングを行っている。ところで、ユーザが独自に変換ルールを考える場合、ユーザ所望の情報に変換されない可能性がある。
【0006】
よって、実際のデータにクレンジング処理を実行する前に、上記の変換ルールによって所望の変換結果が得られているか否か判断できることが望ましい。
【0007】
そこで、本発明の目的は、実際のデータにクレンジング処理を行う前に、当該変換ルールによって所望の情報に変換されているか否かを判断する情報を提供するデータ変換装置およびデータ変換方法を提供することにある。
【0008】
本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。
【課題を解決するための手段】
【0009】
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。
【0010】
本発明の代表的な実施の形態によるデータ変換装置は、データリストを取得するデータリスト取得部と、変換ルールを取得する変換ルール取得部と、データリスト取得部により取得されたデータリストから、変換ルールを仮適用するデータリストである仮適用対象データリストを抽出する抽出部と、変換ルール取得部により取得された変換ルールを、抽出部により抽出された仮適用対象データリストに対して適用する仮適用をして、抽出部により抽出された仮適用対象データリストと、仮適用した結果とを対応付けた変換表を生成する変換表生成部と、変換表生成部により生成された変換表を出力する変換表出力部と、を備える。
【発明の効果】
【0011】
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。
【0012】
すなわち、本発明の代表的な実施の形態によれば、実際のデータにクレンジング処理を行う前に、当該変換ルールによって所望の情報に変換されているか否かを判断する情報を提供することができる。
【図面の簡単な説明】
【0013】
【
図1】本発明の一実施形態であるデータ変換装置を含む情報処理システムの構成例について概要を示した図である。
【
図2】本発明の一実施の形態におけるデータリスト入力画面の概略を示した図である。
【
図3】本発明の一実施の形態におけるデータ変換手順入力画面の概略を示した図である。
【
図4】本発明の一実施の形態におけるデータリスト格納部に記憶されているデータ例の概要を示す図である。
【
図5】本発明の一実施の形態における変換ルール格納部に記憶されているデータ例の概要を示す図である。
【
図6】本発明の一実施の形態における一意リスト格納部に記憶されているデータ例の概要を示す図である。
【
図7】本発明の一実施の形態における変換確認画面の概略を示した図である。
【
図8】本発明の一実施の形態における変換表格納部に記憶されているデータ例の概要を示す図である。
【
図9】本発明の一実施の形態における変換履歴格納部に記憶されるデータ変換履歴情報の例の概要を示す図である。
【
図10】本発明の一実施の形態における変換履歴格納部に記憶される変換履歴明細情報の例の概要を示す図である。
【
図11】本発明の一実施の形態におけるデータリストから抽出した一意リストに対して、仮変換して、当該仮変換した結果に基づいて当該データリストに対して本適用する全体処理の流れの例について概要を示した図である。
【
図12】本発明の一実施の形態における一意リストを生成する処理の流れの例について概要を示した図である。
【
図13】本発明の一実施の形態における変換表を生成する処理の流れの例について概要を示した図である。
【
図14】本発明の一実施の形態における変換表を修正する処理の流れの例について概要を示した図である。
【
図15】本発明の一実施の形態における変換表を用いてデータ変換する処理の流れの例について概要を示した図である。
【発明を実施するための形態】
【0014】
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。一方で、ある図において符号を付して説明した部位について、他の図の説明の際に再度の図示はしないが同一の符号を付して言及する場合がある。
【0015】
<システム構成>
図1は、本発明の一実施形態であるデータ変換装置を含む情報処理システムの構成例について概要を示した図である。本実施の形態のデータ変換装置100は、変換ルールに基づいてデータを変換する装置である。データ変換装置100は、サーバ装置等の情報処理装置である。
【0016】
データ変換装置100および端末装置200は、ネットワーク300を介して互いに情報を送受信することができる。ネットワーク300は、有線または無線のネットワークである。
【0017】
データ変換装置100とネットワーク300を介して接続される端末装置200は、スマートフォン、パーソナルコンピュータ等の情報処理装置である。端末装置200は、端末装置200のユーザによる入力操作に応じて、ネットワーク300を介してデータ変換装置100に対して情報を送信したり、データ変換装置100から情報を取得したりする。また、端末装置200は、データ変換装置100から取得した情報を表示出力する。また、端末装置200は、データ変換対象のデータリストをファイル形式等により記憶している。ここで、データリストとは、1又は複数の列のデータレコードのリストであり、例えば、CSV(comma-separated values)形式のファイルに含まれる。
【0018】
データ変換装置100および端末装置200は、所定のハードウェアおよびソフトウェアにより実装される。例えば、データ変換装置100および端末装置200は、プロセッサやメモリなどを有する。当該プロセッサにより実行されるメモリ上のプログラムが、データ変換装置100および端末装置200のコンピュータを機能させる。また、データ変換装置100および端末装置200は、入力手段(キーボード、マウス等)および出力手段(ディスプレイ等の表示手段)を有する。
【0019】
本実施の形態のデータ変換装置100は、入力画面インタフェース部101、データリスト格納部102、変換ルール格納部103、抽出部104、一意リスト格納部105、及び変換表生成部106の各部を有する。
【0020】
また、データ変換装置100は、変換表出力部107、変換要求受付部108、変換表格納部109、本適用部110、及び変換履歴格納部111の各部を有する。
【0021】
データ変換装置100の上記各部は、例えば、図示しないOS(Operating System)やDBMS(DataBase Management System)、Webサーバプログラム等のミドルウェア上で稼働するソフトウェアプログラムとして実装される。
【0022】
入力画面インタフェース部101は、端末装置200からの要求に応じて、各種入力画面を端末装置200へ出力したり、当該各種入力画面に対して入力された内容を取得したりする部分である。
【0023】
入力画面インタフェース部101は、端末装置200からデータリスト入力要求を受信すると、データリスト入力画面を生成し、当該データリスト入力画面を端末装置200へ送信する。
【0024】
ここで、
図2を用いて、データリスト入力画面の例を説明する。
図2は、データリスト入力画面の概略を示した図である。データリスト入力画面は、変換対象のデータリストを入力するための画面であり、具体的には、変換対象のデータリストとなるファイルを指定したり、変換対象の列を指定したりすることが可能な画面である。
【0025】
データリスト入力画面は、ファイル選択ボタン10と、選択ファイル領域11と、実データ表示領域12と、変更対象列指定ボックス13と、列追加ボタン14と、次へボタン15とを有する。
【0026】
端末装置200のユーザの入力操作により、ファイル選択ボタン10が選択されると、端末装置200は、データリストのファイルを指定する画面(図示せず)を呼び出す。そして、端末装置200は、当該画面により、データリストのファイルが選択されると、選択ファイル領域11に、当該ファイルのファイル名(保存パスも含む)を表示する。
【0027】
また、端末装置200は、データリストのファイルの内容を参照し、データリストと、当該データリストにID(データリストのレコードID)を割り当てる。そして、端末装置200は、IDとデータリストとを対応付けて、実データ表示領域12へ表示する。
【0028】
図2の例では、会社名についてのデータリストを表示しており、11件有する。なお、データリストの全てのデータを表示する必要はなく、一部のみ表示するようにしてもよい。
【0029】
実データ表示領域12に表示されているデータは、レコードIDが1である「(株)ABCシステムズ」は、全て全角である。また、レコードIDが2である「株式会社ABCシステムズ」は、システムズの箇所が半角である。また、レコードIDが11である「(株)EFソフトウェア」の括弧の部分が半角になっている。また、レコードによって、(株)と表記されていたり、株式会社と表記されていたりと、表記が統一されていないので、データ変換(クレンジング処理)をする必要がある。
【0030】
変更対象列指定ボックス13は、後述する変換ルールを適用対象となる列を指定する部分である。例えば、データリストの列名が定義された部分を読み込んで、ドロップダウンリストで表示する。変更対象列指定ボックス13で指定された列が変換ルールの適用対象となる列になる。
【0031】
列追加ボタン14は、変更対象列指定ボックス13を追加するためのボタンである。これにより、複数列指定することができる。端末装置200は、次へボタン15が押下されると、データリストのファイルと、変更対象列とを確定させて(データリストのファイルの内容および変更対象列をメモリ等に保持して)、データ変換装置100へデータ変換手順入力画面の送信要求をする。
【0032】
入力画面インタフェース部101は、当該データ変換手順入力画面の送信要求を端末装置200から受信すると、これに応じて、データ変換手順入力画面を端末装置200へ送信する。端末装置200は、データ変換手順入力画面を取得すると、当該データ変換手順入力画面を表示する。
【0033】
ここで、
図3を用いて、データ変換手順入力画面の例を説明する。
図3は、データ変換手順入力画面の概略を示した図である。データ変換手順入力画面は、データリストを変換するルール(変換ルール)を入力するための画面である。具体的には、変換ルール入力領域20と、手順追加ボタン21と、手順削除ボタン22と、次へボタン23とを有する。
【0034】
変換ルール入力領域20は、変換ルールにおける、変換前の対象(例えば、文字列、文字の入力モード)と、変換後の対象とを入力する領域と、変換ルールの手順(複数の変換ルールの適用順序)とを定義する領域である。
【0035】
図3の例の場合、1番目に、文字の入力モードが半角カナである文字列を、文字の入力モードを全角カナに変換することを示す変換ルールが定義されている。また、2番目に、(株)という文字列(株の括弧は、全角)を、株式会社に変換することを示す変換ルールが定義されている。3番目に、株式会社を、空白に変換することを示す変換ルールが定義されている。
【0036】
図3に示した複数の変換ルールは、カタカナ名を全て全角に変換し、さらに株式会社を示す表記((株)も含む)を除去する処理を一括で行うためのルールである。
【0037】
また、手順追加ボタン21が押下されると、端末装置200は、変換ルール入力領域20を追加表示する。
図3の例の場合、手順追加ボタン21が押下されると、4番目の変換ルールを入力するための領域を表示する。
【0038】
また、手順削除ボタン22が押下されると、当該手順削除ボタン22に対応する変換ルール入力領域20を削除する。
図3の例の場合、1番目の手順削除ボタン22が押下されると、1番目の変換ルールが削除される。
【0039】
端末装置200は、次へボタン23が押下されると、複数の変換ルールと、当該変換ルールの手順とを確定させて、データリストと、複数の変換ルールと、当該変換ルールの手順とをデータ変換装置100へ送信し、変換ルールの仮適用要求をする。
【0040】
なお、
図3に示したデータ変換手順入力画面において、変換順を変更する公知のインタフェースを含めるようにしてもよい。
【0041】
図1に戻り、入力画面インタフェース部101は、上記仮適用要求を受信する共に、データリストと、複数の変換ルールと、当該変換ルールの手順とを取得する。このように、入力画面インタフェース部101は、データリスト取得部として機能する。また、入力画面インタフェース部101は、変換ルール取得部としても機能する。入力画面インタフェース部101は、上記のように、データリストを取得すると、当該データリストを識別するID(データID)を生成し、当該IDと、データリストとを対応付けて、データリスト格納部102へ登録する。
【0042】
ここで、
図4を用いて、データリスト格納部102に記憶されているデータ例を説明する。
図4は、データリスト格納部102に記憶されているデータ例の概要を示す図である。
図4に示すように、データリスト格納部102は、データIDと、レコードIDと、変換前のリストデータを示す変換前とを対応付けて記憶している。
【0043】
図1に戻り、入力画面インタフェース部101は、上記のように、複数の変換ルールと、当該変換ルールの手順とを取得すると、今回の変換を識別するID(変換ルールID)を生成する。入力画面インタフェース部101は、当該変換ルールIDと、手順(変換ルールの手順)と、変換ルール(変換前と変換後)とを対応付けて、変換ルール格納部103へ登録する。
【0044】
なお、入力画面インタフェース部101は、変換ルールの文字列そのものを格納してもよいし、正規表現を格納してもよいし、プログラム言語の関数を格納するようにしてもよい。なお、入力画面インタフェース部101は、変換ルールIDと変換対象列とを対応付けた情報を記憶するようにしてもよい。
【0045】
ここで、
図5を用いて、変換ルール格納部103に記憶されているデータ例を説明する。
図5は、変換ルール格納部103に記憶されているデータ例の概要を示す図である。
図5に示すように、変換ルール格納部103は、変換ルールIDと、手順と、変換前と、変換後とを対応付けて記憶している。
【0046】
このように、変換ルール格納部103は、入力画面インタフェース部101により取得された複数の変換ルールと、当該複数の変換ルールの適用順序とを変換ルール履歴情報として記憶する。すなわち、変換ルール格納部103は、変換ルール履歴情報記憶部として機能する。
【0047】
図1に戻り、入力画面インタフェース部101は、データリスト格納部102および変換ルール格納部103へデータを登録した後、データIDおよび変換ルールIDを抽出部104へ送出する。
【0048】
抽出部104は、入力画面インタフェース部101により取得されたデータリストから、変換ルールを仮適用するデータリストである仮適用対象データリストを抽出する部分である。抽出部104は、入力画面インタフェース部101からデータIDおよび変換ルールIDを取得すると、データリスト格納部102に記憶されているデータから、当該データIDに対応するレコードを取得する。
【0049】
また、抽出部104は、変換ルール格納部103を参照し、変換ルールIDに対応する変換対象列を取得する。
【0050】
抽出部104は、取得したレコードにおける変換対象列単位で、重複するデータを除去した一意リスト(仮適用対象データリスト)を生成する。例えば、抽出部104は、一意リストを初期化し、取得したレコードの変換対象列を1件ずつ参照し、一意リストに存在しなければ、当該レコードの変換対象列の値を一意リストに格納する。また、抽出部104は、取得したレコードの変換対象列の値が一意リストに含まれている場合は、一意リストに格納しない。
【0051】
抽出部104は、取得したレコードの変換対象列の全ての値を参照した結果得られた一意リストを生成すると、当該一意リストをデータIDに関連付けて一意リスト格納部105へ登録する。また、変換対象列が複数ある場合、抽出部104は、変換対象列IDをさらに対応付けて一意リスト格納部105へ登録するようにしてもよい。
【0052】
ここで、
図6を用いて、一意リスト格納部105に記憶されているデータ例を説明する。
図6は、一意リスト格納部105に記憶されているデータ例の概要を示す図である。
図6に示すように、一意リスト格納部105は、データIDと、変換対象列である会社名とを対応付けて記憶している。
【0053】
なお、
図6に示すように、括弧が全角である「(株)EFソフトウェア」と括弧が半角である「(株)EFソフトウェア」とが記憶されている。
【0054】
図1に戻り、抽出部104は、一意リストを生成し、当該一意リストを一意リスト格納部105へ格納すると、データIDおよび変換ルールIDを変換表生成部106へ送出する。
【0055】
なお、抽出部104は、一意リストを仮適用対象データリストとして生成する場合について述べたが、取得したレコードの変換対象列全てを仮適用対象データリストとして抽出するようにしてもよい。
【0056】
変換表生成部106は、適用順序に従って、入力画面インタフェース部101により取得された変換ルールを、抽出部104により抽出された仮適用対象データリストに対して適用する仮適用をする部分である。また、変換表生成部106は、抽出部104により抽出された仮適用対象データリストと、仮適用した結果とを対応付けた変換表を生成する部分である。
【0057】
変換表生成部106は、抽出部104からデータIDおよび変換ルールIDを取得すると、変換表生成部106は、一意リスト格納部105を参照し、当該データIDに対応する一意リストを取得する。また、変換表生成部106は、変換ルール格納部103を参照して、変換ルールIDに対応する手順、変換ルール(変換前と変換後)、変換対象列を取得する。
【0058】
また、変換表生成部106は、変換対象列毎に、一意リストに対して、変換順に変換ルールを適用し、適用した結果を生成する。変換表生成部106は、一意リストと、当該適用した結果とを対応付けた情報を含む変換表を生成し、当該変換表を含む変換確認画面(詳細は後述する)を生成する。
【0059】
変換表生成部106は、当該変換確認画面と、データIDと、変換ルールIDとを変換表出力部107へ送出する。
【0060】
変換表出力部107は、変換表生成部106により生成された変換表を出力する部分である。変換表出力部107は、変換確認画面と、データIDと、変換ルールIDとを取得すると、変換確認画面を端末装置200へ送出する。このように、変換表出力部107は、変換表を出力する。端末装置200は、当該変換確認画面を取得すると、当該変換確認画面を表示する。
【0061】
ここで、
図7を用いて、変換確認画面の例を説明する。
図7は、変換確認画面の概略を示した図である。変換確認画面は、仮にデータリストを変換した場合(すなわち、仮適用した場合)の変換結果を確認するための画面である。
【0062】
図7に示すように、半角の括弧を有するレコード以外は、株式会社または(株)が除去された文字列に変換され、半角カタカナが全角カタカナに変換されている。
【0063】
変換確認画面は、変換表表示領域31と、修正ボタン32と、変換実行ボタン33とを有する。変換表表示領域31は、変換前の一意リストと、当該一意リストを変換した結果とを対応付けた変換表を表示する領域である。なお、複数の変換対象列がある場合、変換対象列毎に変換表がある。
【0064】
修正ボタン32は、変換後の内容の修正要求を示すボタンである。端末装置200のユーザによる入力操作により、修正ボタン32が押下されると、端末装置200は、変換表の変換後の部分を編集可能にする。
【0065】
図7の例の場合、半角の括弧を有する(株)EFソフトウェアの(株)部分を除去する修正をすることが考えられる。
【0066】
端末装置200は、ユーザによる入力操作により、変換表の変換後の部分が編集され、編集完了を示す指示(例えば、図示しない修正完了を示すボタンの押下)がなされると、修正後の変換後の部分を再表示する。
【0067】
また、変換実行ボタン33が押下されると、端末装置200は、最新の変換表(更新された変換表、すなわち修正結果)をデータ変換装置100へ送信すると共に、データリストの変換要求をする。なお、端末装置200は、複数の変換対象列がある場合、変換対象列毎の変換表全てをデータ変換装置100へ送信する。
【0068】
図1に戻り、変換要求受付部108は、変換表出力部107により変換表が出力された後に、データリストの変換要求を受け付ける部分である。
【0069】
変換要求受付部108は、最新の変換表を取得すると共に、データリストの変換要求を受け付ける。なお、変換要求受付部108は、変換対象列毎の変換表全てを取得するようにしてもよい。このように、変換要求受付部108は、修正取得部として機能する。なお、変換要求受付部108は、変換対象列毎の変換表全てを取得するようにしてもよい。変換要求受付部108は、当該最新の変換表に対するID(変換表ID)を生成する。なお、変換要求受付部108は、複数の変換対象列毎の変換表を取得した場合、それぞれの変換表毎に異なる変換表IDを生成する。なお、変換要求受付部108は、変換表IDに対応する変換対象列を特定し得る情報を生成しておいてもよい。例えば、変換要求受付部108は、変換表IDと変換対象列名とを対応付けてもよい。
【0070】
また、変換要求受付部108は、最新の変換表の各レコードにID(変換表明細ID)を割り当てる。変換要求受付部108は、変換表IDと、変換表明細IDと、最新の変換表とを対応付けた情報を変換表格納部109へ格納する。
【0071】
ここで、
図8を用いて、変換ルール格納部103に記憶されているデータ例を説明する。
図8は、変換表格納部109に記憶されているデータ例の概要を示す図である。
図8に示すように、変換表格納部109は、変換表IDと、変換表明細IDと、変換前(最新の変換表の変換前の部分)と、変換後(最新の変換表の変換後の部分)とを対応付けて記憶している。
【0072】
図1に戻り、変換要求受付部108は、最新の変換表を取得するので、修正後の変換表を反映している。すなわち、変換要求受付部108は、修正受付部として機能する。
【0073】
変換要求受付部108は、変換表出力部107からデータIDおよび変換ルールIDを取得し、当該データID、変換ルールID、および変換表IDを本適用部110へ送出する。
【0074】
本適用部110は、変換要求受付部108により受け付けられた変換要求に応じて、入力画面インタフェース部101により取得された複数のルールと、複数の変換ルールの適用順序とに基づいた情報を用いて、データリストを変換する処理(本適用処理)をする部分である。すなわち、本適用部110は、データリストに対してクレンジング処理をする部分である。
【0075】
本適用部110は、データID、変換ルールID、および変換表IDを取得する。本適用部110は、データリスト格納部102を参照して、データIDに対応するデータリストを取得する。また、本適用部110は、本適用毎に定められるID(変更履歴ID)を生成し、当該変更履歴IDと、変換日と、データIDと、変換ルールIDと、変換表IDとを対応付けた情報(データ変換履歴情報)を変換履歴格納部111へ格納する。
【0076】
ここで、
図9を用いて、変換履歴格納部111に記憶されるデータ変換履歴情報の例を説明する。
図9は、変換履歴格納部111に記憶されるデータ変換履歴情報の例の概要を示す図である。
図9に示すように、変換履歴格納部111では、変換履歴IDと、変換日と、データIDと、変換ルールIDと、変換表IDとを対応付けた情報を記憶している。
【0077】
本適用部110は、当該変換表IDに対応する変換表を取得する。本適用部110は、データIDに対応するデータリストを1件(1レコード)ずつ参照し、データリストのレコードの変更対象列の値が、変換表のレコードの変換前の値に合致する場合、当該データリストのレコードの変更対象列の値を、当該変更表のレコードの変換後の内容に変換する。
【0078】
このように、本適用部110は、複数のルールと、当該複数の変換ルールの適用順序とに基づいた情報として、変換表を用いて、データリストのデータを変換する。
【0079】
なお、本適用部110は、複数の変更対象列毎に、上記本適用処理をするようにしてもよい。
【0080】
本適用部110は、上記変更履歴IDと、変換したデータリストのデータのレコードIDと、変換表のレコードの変換表明細IDとを対応付けた情報(変換履歴明細情報)を変換履歴格納部111へ格納する。
【0081】
ここで、
図10を用いて、変換履歴格納部111に記憶される変換履歴明細情報の例を説明する。
図10は、変換履歴格納部111に記憶される変換履歴明細情報の例の概要を示す図である。
図10に示すように、変換履歴格納部111では、変換履歴IDと、レコードIDと、変換表明細IDとを対応付けた情報を記憶している。
【0082】
このように、変換履歴格納部111は、本適用部110により変換されたデータリストのデータ(レコードID)と、変換表生成部106により仮適用された結果(変換表)のうち当該データを変換するために用いた情報(変換表明細ID)とを対応付けた情報を記憶している。当該情報は、変換実行履歴に対応するので、変換履歴格納部111は、変換実行履歴記憶部として機能する。
【0083】
この場合、データ変換装置100は、変換した履歴を記憶するので、どのデータが変換されたか確認できる情報を記憶することができ、当該情報を参照することにより、ユーザが適切に変換できたか判断することができる。
【0084】
本適用部110は、データIDに対応するデータリストを1件ずつ参照し、全てのデータリストのデータに対して、変換表のレコードの変換前に合致するものがあるか否か判断した場合、本適用処理を終了する。本適用部110は、変換完了したデータリストを端末装置200へ送出し、端末装置200は、当該変換後のデータリストを表示出力する。
【0085】
なお、本適用部110は、変換ルール格納部103を参照して、変換IDに対応する順序および変換ルールを取得して、これらの情報に基づいて、対象となるデータリストを変換するようにしてもよい。
【0086】
<処理の流れ(仮変換して本適用するまでの全体処理)>
図11は、本実施形態における、データリストから抽出した一意リストに対して、仮変換して、当該仮変換した結果に基づいて当該データリストに対して本適用する全体処理の流れの例について概要を示した図である。
【0087】
まず、入力画面インタフェース部101は、端末装置200からのデータリスト入力要求を受け付けて、データリスト入力画面やデータ変換手順画面を端末装置200へ送信する。そして、端末装置200は、当該画面への入力操作により入力された情報(入力情報)に基づいて、データリストと、複数の変換ルールと、当該変換ルールの手順とをデータ変換装置100へ送信する。入力画面インタフェース部101は、当該データリストと、複数の変換ルールと、当該変換ルールの手順とを取得する(S1)。
【0088】
抽出部104は、取得したデータリストから一意リストを生成する(S2)。変換表生成部106は、適用順序に従って、入力画面インタフェース部101により取得された変換ルールを、抽出部104により抽出された仮適用対象データリストに対して適用する仮適用する。また、変換表生成部106は、抽出部104により抽出された仮適用対象データリストと、仮適用した結果とを対応付けた変換表を生成し、端末装置200へ変換表を含む変換確認画面を送信する(S3)。
【0089】
端末装置200は、変換表の修正要求の入力を受け付けた場合、当該変換表を修正する処理(変換表修正処理)をして、データリストの変換要求をする(S4)。本適用部110は、当該変換要求に応じて、変換表を用いて、データリストのデータを変換する(S5)。また、本適用部110は、データ変換結果を端末装置200へ送信し、端末装置200は、当該データ変換結果を表示する(S6)。
【0090】
<処理の流れ(一意リスト生成処理)>
図12は、本実施形態における、一意リストを生成する処理の流れの例について概要を示した図である。
図11のフローチャートのステップS2の処理の詳細を示す図である。
【0091】
抽出部104は、一意リストを初期化する(S11)。続いて、抽出部104は、データリストを読み込む(S12)。抽出部104は、未取得の行(レコード)がある場合(S13:Yes)、未取得の行を1件取得する(S14)。抽出部104は、取得した行から対象列(変換対象列)の値を取得し(S15)、当該値が一意リストに含まれていない場合(S16:Yes)、当該値を一意リストに追加して(S17)、ステップS13へ進む。なお、ステップS16において、値が一意リストに含まれている場合(S16:No)、ステップS13へ進む。また、ステップS13において、未取得の行がない場合(S13:No)、処理を終了する。
【0092】
<処理の流れ(変換表生成処理)>
図13は、本実施形態における、変換表を生成する処理の流れの例について概要を示した図である。
図11のフローチャートのステップS3の処理の詳細を示す図である。まず、変換表生成部106は、変換表を初期化する(S21)。続いて、変換表生成部106は、一意リストを取得し、当該一意リストを読み込む(S22)。未取得の一意リストがある場合(S23:Yes)、変換表生成部106は、未取得の一意リストの行(レコード)を1行(1件)取得する(S24)。変換表生成部106は、取得した値に、変換順に変換ルールを適用し(S25)、当該値(変換前の値)と適用した結果(変換後)とを対応付けた情報を変換表に追加して(S26)、ステップS23へ進む。また、ステップS23において、未取得の行がない場合(S23:No)、処理を終了する。
【0093】
<処理の流れ(修正処理)>
図14は、本実施形態における、変換表を修正する処理の流れの例について概要を示した図である。
図11のフローチャートのステップS4の処理の詳細を示す図である。まず、端末装置200は、データ変換装置100から変換確認画面を取得すると、当該変換確認画面を表示する(S31)。変換確認画面の修正ボタン32が押下されることにより、変換表31の修正要求がなされた場合(S32:Yes)、端末装置200は、変換表31を編集可能にし、変換表31の修正情報(修正結果)を取得する(S33)。そして、端末装置200は、変換表31を更新し(S34)、当該変換表31を更新した変換確認画面を表示する(S35)。また、変換表31の修正要求がなされなかった場合(S32:No)、処理を終了する。
【0094】
<処理の流れ(データ変換処理)>
図15は、本実施形態における、変換表を用いてデータ変換する処理の流れの例について概要を示した図である。
図11のフローチャートのステップS5の処理の詳細を示す図である。まず、変換要求受付部108が、データリストの変換要求を受け付けると、本適用部110は、変換対象のデータIDに対応するデータリストをデータリスト格納部102から取得することにより、データリストを読み込む(S41)。
【0095】
続いて、本適用部110は、変換要求受付部108から取得したデータID、変換ルールID、および変換表IDに基づいてデータ変換履歴情報を生成し、当該データ変換履歴情報を変換履歴格納部111へ格納する(S42)。未変換の行がある場合(S43:Yes)、本適用部110は、未変換の行(レコード)を1行取得する(S44)。本適用部110は、取得した行から変換対象列の値を取得する(S45)。本適用部110は、取得した値と合致する変換前の値を変換表から検索し(S46)、取得した値を、検索した変換表のレコードの変換後の値へ変換する(S47)。
【0096】
本適用部110は、変換したデータリストのデータのレコードIDと、変換表のレコードの変換表明細IDとに基づいて変換履歴明細情報を変換履歴格納部111へ格納して(S48)、ステップS43へ進む。なお、ステップS46において、取得した値と合致する変換前の値を変換表から検索できなかった場合、ステップS47およびステップS48の処理をスキップして、ステップS43へ進む。また、ステップS43において、未変換の行がない場合(S43:No)、処理を終了する。
【0097】
上述の実施形態では、データ変換手順入力画面において、変換前の対象(例えば、文字列、文字の入力モード)と、変換後の対象とを入力する領域と、変換順との新規入力を受け付ける場合について述べた。これに代えて、データ変換手順入力画面において、変換ルール格納部103に格納されている複数の変換ルールと、当該複数の変換ルールの適用順序との選択を受け付けて、入力画面インタフェース部101が、当該選択された複数の変換ルールと、当該複数の変換ルールの適用順序とを取得するようにしてもよい。
【0098】
この場合、データ変換装置100は、ユーザに同様の変換ルールを再度入力させることを回避することができる。
【0099】
上述の実施形態では、データ変換装置100と端末装置200とを有する情報処理システムについて説明したが、これらの装置を一体としてもよい。
【0100】
また、上述の実施形態では、入力画面インタフェース部101が、複数の変換ルールと、当該複数の変換ルールの適用順序とを取得する場合について述べたが、単数の変換ルールを取得するようにしてもよい。
【0101】
以上に説明したように、本発明の一実施の形態であるデータ変換装置100では、入力画面インタフェース部101が、データリストを取得し、変換ルールを取得する。また、抽出部104が、データリストから、変換ルールを仮適用するデータリストである仮適用対象データリストを抽出する。変換表生成部106が、適用順序に従って、変換ルールを仮適用対象データリストに対して仮適用して、仮適用対象リストと、仮適用した結果とを対応付けた変換表を生成し、変換表出力部107が、当該変換表を出力する。
【0102】
このように、データ変換装置100は、抽出部104が抽出した仮適用対象リストを抽出して、データリストに対して変換ルールを適用する前に、当該仮適用対象リストに対して変換ルールを適用して、適用した結果を含む変換表を出力する。この結果、データ変換装置100は、実際のデータにクレンジング処理を行う前に、当該変換ルールによって所望の情報に変換されているか否かを判断する情報を提供することができる。
【0103】
また、抽出部104は、仮適用対象リストとして、一意リストを抽出する。これにより、データ変換装置100は、冗長でない変換表を生成することができ、当該変換表を用いてデータリストを適切に変換したり、簡易に変換ルールによって所望の情報に変換されているか否かを判断する情報を提供したりすることができる。
【0104】
また、変換要求受付部108によりデータリストの変換要求を受け付けられると、本適用部110は、変換ルールに基づいた情報を用いてデータリストを変換する。このように、データ変換装置100は、変換表を出力した後に、データリストを変換するので、より適切にデータリストを変換することができる。
【0105】
また、本適用部110は、変換ルールに基づいた情報として、変換表生成部106により生成された変換表を用いる。これにより、データ変換装置100は、当該変換表を用いて、データリストを変換するので、変換ルールをデータリストに適用する場合と比較して、簡易に処理を実行することができる。
【0106】
また、本適用部110は、修正された変換表をデータリストに適用するので、より適切にユーザ所望の変換結果を提供することができる。
【0107】
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は上記の実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、上記の実施の形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【産業上の利用可能性】
【0108】
本発明は、データを変換する装置に利用可能である。
【符号の説明】
【0109】
100…データ変換装置、
101…入力画面インタフェース部、102…データリスト格納部、103…変換ルール格納部、104…抽出部、105…一意リスト格納部、106…変換表生成部、107…変換表出力部、108…変換要求受付部、109…変換表格納部、110…本適用部、111…変換履歴格納部、200…端末装置、300…ネットワーク。