IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社神戸製鋼所の特許一覧

特開2025-2392データ変換装置、データ変換方法、及びプログラム
<>
  • 特開-データ変換装置、データ変換方法、及びプログラム 図1
  • 特開-データ変換装置、データ変換方法、及びプログラム 図2
  • 特開-データ変換装置、データ変換方法、及びプログラム 図3
  • 特開-データ変換装置、データ変換方法、及びプログラム 図4
  • 特開-データ変換装置、データ変換方法、及びプログラム 図5
  • 特開-データ変換装置、データ変換方法、及びプログラム 図6
  • 特開-データ変換装置、データ変換方法、及びプログラム 図7
  • 特開-データ変換装置、データ変換方法、及びプログラム 図8
  • 特開-データ変換装置、データ変換方法、及びプログラム 図9
  • 特開-データ変換装置、データ変換方法、及びプログラム 図10
  • 特開-データ変換装置、データ変換方法、及びプログラム 図11
  • 特開-データ変換装置、データ変換方法、及びプログラム 図12
  • 特開-データ変換装置、データ変換方法、及びプログラム 図13
  • 特開-データ変換装置、データ変換方法、及びプログラム 図14
  • 特開-データ変換装置、データ変換方法、及びプログラム 図15
  • 特開-データ変換装置、データ変換方法、及びプログラム 図16
  • 特開-データ変換装置、データ変換方法、及びプログラム 図17
  • 特開-データ変換装置、データ変換方法、及びプログラム 図18
  • 特開-データ変換装置、データ変換方法、及びプログラム 図19
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025002392
(43)【公開日】2025-01-09
(54)【発明の名称】データ変換装置、データ変換方法、及びプログラム
(51)【国際特許分類】
   G06F 16/22 20190101AFI20241226BHJP
【FI】
G06F16/22
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2023102549
(22)【出願日】2023-06-22
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.PYTHON
(71)【出願人】
【識別番号】000001199
【氏名又は名称】株式会社神戸製鋼所
(74)【代理人】
【識別番号】100125645
【弁理士】
【氏名又は名称】是枝 洋介
(74)【代理人】
【識別番号】100145609
【弁理士】
【氏名又は名称】楠屋 宏行
(74)【代理人】
【識別番号】100149490
【弁理士】
【氏名又は名称】羽柴 拓司
(72)【発明者】
【氏名】藤平 雅信
(72)【発明者】
【氏名】逢坂 武次
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175CA11
(57)【要約】
【課題】データ分析時の負荷を軽減することが可能なデータ変換装置を提供する。
【解決手段】データ変換装置は、レコードを識別するためのキー項目、及びデータ項目を含むテーブルデータであって、データ項目に、データ項目のデータ項目名及びデータ項目が属する分類の分類名を含むヘッダーが付された、テーブルデータを取得する取得部と、テーブルデータに基づいて、分類ごとのデータ項目、及びキー項目を含む個別テーブルデータ、並びにキー項目の対応関係を表す関係テーブルデータを生成する変換部と、個別テーブルデータ及び関係テーブルデータを記憶部に保存する保存部と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
レコードを識別するためのキー項目、及びデータ項目を含むテーブルデータであって、前記データ項目に、前記データ項目のデータ項目名及び前記データ項目が属する分類の分類名を含むヘッダーが付された、テーブルデータを取得する取得部と、
前記テーブルデータに基づいて、前記分類ごとの前記データ項目、及び前記キー項目を含む個別テーブルデータ、並びに前記キー項目の対応関係を表す関係テーブルデータを生成する変換部と、
前記個別テーブルデータ及び前記関係テーブルデータを記憶部に保存する保存部と、
を備える、データ変換装置。
【請求項2】
前記テーブルデータは、複数の前記分類に属する複数の前記データ項目を含み、
前記変換部は、前記分類ごとの前記データ項目を含む複数の前記個別テーブルデータを生成する、
請求項1に記載のデータ変換装置。
【請求項3】
前記テーブルデータは、複数の前記キー項目を含み、
前記変換部は、複数の前記キー項目の対応関係を表す前記関係テーブルデータを生成する、
請求項1に記載のデータ変換装置。
【請求項4】
前記取得部は、複数の前記テーブルデータを取得し、
前記変換部は、複数の前記テーブルデータに基づいて、前記個別テーブルデータ及び前記関係テーブルデータを生成する、
請求項1に記載のデータ変換装置。
【請求項5】
前記変換部は、前記キー項目に基づいて、前記個別テーブルデータの代表キー項目を決定する、
請求項1に記載のデータ変換装置。
【請求項6】
前記変換部は、前記キー項目が前記分類に関連するキー項目を含む場合に、前記分類に関連するキー項目を、前記分類の前記個別テーブルデータの前記代表キー項目として決定する、
請求項5に記載のデータ変換装置。
【請求項7】
前記変換部は、前記キー項目が前記分類に関連するキー項目を含まない場合に、前記分類に関連しないキー項目を、前記分類の前記個別テーブルデータの前記代表キー項目として決定する、
請求項5に記載のデータ変換装置。
【請求項8】
前記変換部は、複数の前記テーブルデータから前記分類ごとの前記データ項目を抽出し、前記データ項目の欠損を補完し、前記レコードの重複を削除して、前記分類ごとの前記個別テーブルデータを生成する、
請求項1に記載のデータ変換装置。
【請求項9】
前記保存部に既に保存されている前記データ項目のリストを保持する保持部と、
前記変換部により生成された前記個別テーブルデータに含まれる前記データ項目が、前記リストに存在しない新たなデータ項目である場合に、前記保存部に既に保存されている前記個別テーブルデータに前記新たなデータ項目を追加する、
請求項1に記載のデータ変換装置。
【請求項10】
前記保存部に保存された前記個別テーブルデータをユーザにより指定された形式で表示する表示部をさらに備える、
請求項1に記載のデータ変換装置。
【請求項11】
前記表示部は、複数の前記個別テーブルデータ、及び複数の前記個別テーブルデータの代表キー項目の対応関係を表す前記関係テーブルデータを表示する。
請求項10に記載のデータ変換装置。
【請求項12】
前記表示部は、順序が設定された複数の前記個別テーブルデータを、各々の前記個別テーブルデータに前の前記個別テーブルデータの代表キー項目を含めて表示する、
請求項10に記載のデータ変換装置。
【請求項13】
前記表示部は、複数の前記個別テーブルデータを、1の前記個別テーブルデータの代表キー項目を残りの前記個別テーブルデータに含めて表示する、
請求項10に記載のデータ変換装置。
【請求項14】
レコードを識別するためのキー項目、及びデータ項目を含むテーブルデータであって、前記データ項目に、前記データ項目のデータ項目名及び前記データ項目が属する分類の分類名を含むヘッダーが付された、テーブルデータを取得し、
前記テーブルデータに基づいて、前記分類ごとの前記データ項目、及び前記キー項目を含む個別テーブルデータ、並びに前記キー項目の対応関係を表す関係テーブルデータを生成し、
前記個別テーブルデータ及び前記関係テーブルデータを記憶部に保存する、
データ変換方法。
【請求項15】
レコードを識別するためのキー項目、及びデータ項目を含むテーブルデータであって、前記データ項目に、前記データ項目のデータ項目名及び前記データ項目が属する分類の分類名を含むヘッダーが付された、テーブルデータを取得すること、
前記テーブルデータに基づいて、前記分類ごとの前記データ項目、及び前記キー項目を含む個別テーブルデータ、並びに前記キー項目の対応関係を表す関係テーブルデータを生成すること、及び
前記個別テーブルデータ及び前記関係テーブルデータを記憶部に保存すること、
をコンピュータに実行させるためのプログラム。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ変換装置、データ変換方法、及びプログラムに関する。
【背景技術】
【0002】
特許文献1には、研究開発現場で特に顕著な多様なデータ内容に対応できるように、データ登録・検索処理・検索結果の自由な表示などに柔軟性を持たせ、特定の研究分野に特化したデータベースシステムを構築せずに、それぞれの研究分野でのデータを統合して扱えるデータベースシステムが提案されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2004-287628号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
一般に、データ分析の分野では、分析対象となるデータを分析しやすい形に整形・加工した後、表計算ソフトやPython、Rといった分析環境を用いて分析を進めていく。例えば、材料開発分野では、材料を作成する工程の工程データ、処理後の材料の状況を調査する検査データ、開発時に生産工程が材料特性を与える影響を調査するための実験データなど、様々なテーブルデータ群を用い、分析に適した形にデータ整形・加工した上で、データ分析・活用を行う。
【0005】
このとき、テーブルデータ群は、その関係性を示す方法が幾通りもあり、分析者にとっては複数のテーブルデータのデータ整形・加工の負荷が大きい。テーブルデータ群の関係性とは、ここではテーブルデータ間で、どのレコードとレコードが対応しているかを把握することを意味している。テーブルデータには、レコードを識別するためのキーとなるデータ項目(キー項目)があり、そのキー項目を用いて、テーブルデータのレコード間の対応付けを表現する。
【0006】
テーブルデータ群の関係性の例を、図17図19に示す。ここでは3つのタイプを示している。図17に示す1つ目の「紐づけ表」は、キー項目となる列データを1つのテーブルに集めることで、テーブルデータ群の関係性を示す形である。図18に示す2つ目の「数珠繋ぎパターン」は、例えば素材系工場において材料が上工程から下工程へ流れるとき、前工程のデータを示すテーブルデータのキー項目を現工程でも情報として所有することで、前工程と現工程とのレコードの対応を示す形である。図19に示す3つ目の「共通キーパターン」は、先の素材系工場において全工程で同じ材料に対しては同じ識別番号を使うなどして、どの工程においても同一材料に関するレコードは同一キー値を使う形である。
【0007】
ところで、現場においては、ある工程間では数珠繋ぎパターンを使いつつ、ある工程間では共通キーパターンを使うなど、対応付けの方法が混在しているケースがあり、データ分析のため複数のテーブルデータを結合したい分析者にとっては、データ加工が非常に負荷の高いものとなっている。
【0008】
加えて、材料開発分野における実験では、データ取得のために類似の実験を何度か行うが、実験ごとに目的が異なり、実験ごとに得られるデータ項目が微妙に異なったりする。例えば、同じ成分情報のテーブルでも、1回目の実験と2回目の実験で含まれる成分が微妙に異なるようなケースなどである。
【0009】
このように、分析者は複数のテーブルデータ間の関係性についての表現の相違を考慮する必要があるため、データ整形・加工して分析データを作成することが大きな作業負荷となっていることに加え、実験データのデータ項目の相違が、事前の分析用データベースのテーブル定義を困難なものにしていた。
【0010】
本発明は、上記課題に鑑みてなされたものであり、その主な目的は、データ分析時の負荷を軽減することが可能なデータ変換装置、データ変換方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【0011】
上記課題を解決するため、本発明の一の態様のデータ変換装置は、レコードを識別するためのキー項目、及びデータ項目を含むテーブルデータであって、前記データ項目に、前記データ項目のデータ項目名及び前記データ項目が属する分類の分類名を含むヘッダーが付された、テーブルデータを取得する取得部と、前記テーブルデータに基づいて、前記分類ごとの前記データ項目、及び前記キー項目を含む個別テーブルデータ、並びに前記キー項目の対応関係を表す関係テーブルデータを生成する変換部と、前記個別テーブルデータ及び前記関係テーブルデータを記憶部に保存する保存部と、を備える。
【0012】
上記態様において、前記テーブルデータは、複数の前記分類に属する複数の前記データ項目を含み、前記変換部は、前記分類ごとの前記データ項目を含む複数の前記個別テーブルデータを生成してもよい。
【0013】
上記態様において、前記テーブルデータは、複数の前記キー項目を含み、前記変換部は、複数の前記キー項目の対応関係を表す前記関係テーブルデータを生成してもよい。
【0014】
上記態様において、前記取得部は、複数の前記テーブルデータを取得し、前記変換部は、複数の前記テーブルデータに基づいて、前記個別テーブルデータ及び前記関係テーブルデータを生成してもよい。
【0015】
上記態様において、前記変換部は、前記キー項目に基づいて、前記個別テーブルデータの代表キー項目を決定してもよい。
【0016】
上記態様において、前記変換部は、前記キー項目が前記分類に関連するキー項目を含む場合に、前記分類に関連するキー項目を、前記分類の前記個別テーブルデータの前記代表キー項目として決定してもよい。
【0017】
上記態様において、前記変換部は、前記キー項目が前記分類に関連するキー項目を含まない場合に、前記分類に関連しないキー項目を、前記分類の前記個別テーブルデータの前記代表キー項目として決定してもよい。
【0018】
上記態様において、前記変換部は、複数の前記テーブルデータから前記分類ごとの前記データ項目を抽出し、前記データ項目の欠損を補完し、前記レコードの重複を削除して、前記分類ごとの前記個別テーブルデータを生成してもよい。
【0019】
上記態様において、前記保存部に既に保存されている前記データ項目のリストを保持する保持部と、前記変換部により生成された前記個別テーブルデータに含まれる前記データ項目が、前記リストに存在しない新たなデータ項目である場合に、前記保存部に既に保存されている前記個別テーブルデータに前記新たなデータ項目を追加してもよい。
【0020】
上記態様において、前記保存部に保存された前記個別テーブルデータをユーザにより指定された形式で表示する表示部をさらに備えてもよい。
【0021】
上記態様において、前記表示部は、複数の前記個別テーブルデータ、及び複数の前記個別テーブルデータの代表キー項目の対応関係を表す前記関係テーブルデータを表示してもよい。
【0022】
上記態様において、前記表示部は、順序が設定された複数の前記個別テーブルデータを、各々の前記個別テーブルデータに前の前記個別テーブルデータの代表キー項目を含めて表示してもよい。
【0023】
上記態様において、前記表示部は、複数の前記個別テーブルデータを、1の前記個別テーブルデータの代表キー項目を残りの前記個別テーブルデータに含めて表示してもよい。
【0024】
また、本発明の他の態様のデータ変換方法は、レコードを識別するためのキー項目、及びデータ項目を含むテーブルデータであって、前記データ項目に、前記データ項目のデータ項目名及び前記データ項目が属する分類の分類名を含むヘッダーが付された、テーブルデータを取得し、前記テーブルデータに基づいて、前記分類ごとの前記データ項目、及び前記キー項目を含む個別テーブルデータ、並びに前記キー項目の対応関係を表す関係テーブルデータを生成し、前記個別テーブルデータ及び前記関係テーブルデータを記憶部に保存する。
【0025】
また、本発明の他の態様のプログラムは、レコードを識別するためのキー項目、及びデータ項目を含むテーブルデータであって、前記データ項目に、前記データ項目のデータ項目名及び前記データ項目が属する分類の分類名を含むヘッダーが付された、テーブルデータを取得すること、前記テーブルデータに基づいて、前記分類ごとの前記データ項目、及び前記キー項目を含む個別テーブルデータ、並びに前記キー項目の対応関係を表す関係テーブルデータを生成すること、及び前記個別テーブルデータ及び前記関係テーブルデータを記憶部に保存すること、をコンピュータに実行させる。
【発明の効果】
【0026】
本発明によれば、データ分析時の負荷を軽減することが可能となる。
【図面の簡単な説明】
【0027】
図1】データ変換装置の構成例を示す図である。
図2】データ変換方法の手順例を示す図である。
図3】S003の具体的手順例を示す図である。
図4】テーブルデータの例を示す図である。
図5】テーブルデータの例を示す図である。
図6】テーブルデータの例を示す図である。
図7】メタデータのリストの例を示す図である。
図8】テーブルデータの例を示す図である。
図9】テーブルデータの分割例を示す図である。
図10】テーブルデータの補完・削除例を示す図である。
図11】代表キー項目の付加例を示す図である。
図12】代表キー項目の付加例を示す図である。
図13】デーブルデータの分割例を示す図である。
図14】テーブルデータの表示例を示す図である。
図15】テーブルデータの表示例を示す図である。
図16】テーブルデータの表示例を示す図である。
図17】紐付け表の例を示す図である。
図18】数珠繋ぎパターンの例を示す図である。
図19】共通キーパターンの例を示す図である。
【発明を実施するための形態】
【0028】
以下、本発明の実施形態について、図面を参照しながら説明する。なお、本明細書と各図において、既出の図に関して前述したものと同様の要素には、同一の符号を付して、詳細な説明を適宜省略することがある。
【0029】
[装置構成]
図1は、実施形態に係るデータ変換装置1の構成例を示すブロック図である。
【0030】
データ変換装置1は、CPU、RAM、ROM、不揮発性メモリ、及び入出力インターフェース等を含むコンピュータを備えている。CPUは、ROM又は不揮発性メモリからRAMにロードされたプログラムに従って情報処理を実行する。
【0031】
プログラムは、例えば光ディスク又はメモリカード等の情報記憶媒体を介して供給されてもよいし、例えばインターネット又はLAN等の通信ネットワークを介して供給されてもよい。
【0032】
データ変換装置1は、処理部10、表示部100、データ取得部110、データ整形部120、データ変換部130、データ保存部140、保存用DB(データベース)150、及びメタデータ一覧160を備えている。
【0033】
処理部10、データ取得部110、データ整形部120、データ変換部130、及びデータ保存部140は、データ変換装置1のCPUがROM又は不揮発性メモリからRAMにロードされたプログラムに従って情報処理を実行することによって実現される。
【0034】
表示部100は、液晶表示装置などの表示装置を備えている。保存用DB150及びメタデータ一覧160は、データ変換装置1のメモリに構築された記憶部である。
【0035】
データ変換装置1は、ユーザが分析に使いたいテーブルデータを本装置に取り込むと、データ整形し、統一的なデータ構造に変換した後、保存用DB150へ保存する。
【0036】
処置部10は、全体処理を統括し、各ブロックの機能の呼び出しやシステムに必要な各処理を行う。表示部100は、ユーザとのインターフェースを担う。データ取得部110は、ユーザによりアップロートされたデータファイルを取得する。
【0037】
データ整形部120は、アップロードされたデータファイルからテーブルデータを抽出し、整形を行う。データ変換部130は、整形されたテーブルデータに対してデータ変換を行う。
【0038】
データ保存部140は、変換されたテーブルデータを保存用DB150に保存する。メタデータ一覧160は、保存用DB150に既に保存されているデータ項目のリストを保持する保持部である。
【0039】
[処理手順]
図2は、データ変換装置1において実現される、実施形態に係るデータ変換方法の手順例を示すフロー図である。図3は、S003の具体的手順例を示すフロー図である。データ変換装置1は、プログラムに従ってこれらの図に示す情報処理を実行する。
【0040】
まず、データ取得部110は、分析対象のテーブルデータを含むデータファイル群を取得する(S001)。
【0041】
次に、データ整形部120は、データファイル群からテーブルデータを読み込み、整形する(S002)。
【0042】
次に、データ変換部130は、整形されたテーブルデータ群をデータ変換する(S003)。S003の具体的手順例については、後述する。
【0043】
次に、処理部10は、データ変換されたテーブルデータ群とメタデータの内容を比較する(S004)。この比較により、保存用DB150に存在しない新たなデータ項目があれば、発見することができる(S005)。
【0044】
比較した結果、新たなデータ項目がある場合(S005:YES)、データ保存部140は、保存用DB150の該当テーブルデータに新たなデータ項目を追加する(S006)。また、処理部10は、新たなデータ項目のメタデータをメタデータ一覧160に追加する(S007)。
【0045】
その後、データ保存部140は、今回生成されたデータ変換後のテーブルデータ群を保存用DBに追加する(S008)。
【0046】
[テーブルデータ]
以下、データ取得部110により取得されるテーブルデータについて説明する。テーブルデータは、CSVファイルや表計算ソフトのファイルなどの、テーブル形式のデータである。本実施形態のテーブルデータには、以下に説明する2つのルールが導入される。
【0047】
1つ目のルールは、テーブルデータの各データ項目に付されるヘッダーが、データ項目のデータ項目名と、データ項目が属する分類の分類名とを含む、というルールである。また、オプションとして、データ項目の単位系を含むこともできる。
【0048】
例えば、ヘッダー文字列は「_」(アンダーバー)で区切られ、前側が分類名、後側がデータ項目名、大括弧で囲まれた文字列が単位系であるとする。ヘッダーが「成分_C[%]」である場合、分類名が「成分」、データ項目名が「C」、単位系が「%」となり、成分テーブルのデータ項目C(炭素)を百分率で表した数値が並ぶデータ列であることを意味する。また、単位系が存在しないデータ列であれば、大括弧の部分を省略して記載することも可能である。
【0049】
ここでは1行で表される文字列のヘッダーを例としたが、分類名、データ項目名、及び単位系の3つの要素は、2行又は3行で表されてもよい。例えば、図4の例ではヘッダーが2行で表され、1行目CNに分類名、2行目DNにデータ項目名と単位系が記載され、3行目以降がデータ行となっている。図5の例ではヘッダーが3行で表され、1行目CNに分類名、2行目DNにデータ項目名、3行目UNに単位系が記載され、4行目以降がデータ行となっている。D1,D2は、データ項目(データ列)である。
【0050】
これにより、全てのデータ項目は、どの分類に属するかを表す分類名と、自身の名前を表すデータ項目名とを有し、必要ならば、数値に対する単位系も有することとなる。
【0051】
データ取得部110により取得されるテーブルデータのヘッダー記載方式としては、図4及び図5に示すような2行ヘッダー及び3行ヘッダーも許容されるが、本装置に読み込まれた後は、データ整形部120により、全てのデータ項目のヘッダーが1行ヘッダー形式「分類名_データ項目名[単位系]」(標準ヘッダー形式)に整形される。
【0052】
2つ目のルールは、レコード(行)を識別するためのキーとなるデータ項目(キー項目)を有するというルールである。例えば、キー項目の項目名の最後に「*」(アスタリスク)が付くものとする。ヘッダーが「成分_ID*」であった場合、これが成分テーブルのキー項目となる。
【0053】
テーブルデータは、必ず何らかのキー項目を含み、レコードの識別が可能である。テーブルデータは、複数の分類テーブルを含むことも可能である。例えば、図6に示すテーブルデータTは、成分に関する成分テーブルCTと、熱処理に関する熱処理テーブルHTとを含んでいる。成分テーブルCTの各レコードは「成分_ID*」で示されるキー列K1で識別することが可能であり、熱処理テーブルHTの各レコードは「熱処理_ID*」で示されるキー列K2で識別することが可能である。そして、成分_ID*のレコードと熱処理_ID*のレコードとの対応関係が分かる。
【0054】
以上のように、データ取得部110により取得されるテーブルデータ群のヘッダーに2つのルールを導入し、データ整形部120によりデータ整形を行う。データ整形では、1行ヘッダー、2行ヘッダー、3行ヘッダーと様々な形態で表現されているヘッダーを全て1行ヘッダー形式に整形する。加えて、メタデータ一覧160が保持するリストで、事前定義として名寄せ情報も定義している場合には、データ項目についての名寄せや単位系変換も併せて行われる。
【0055】
図7は、メタデータ一覧160が保持するリストLSの例を示す図である。リストLSは、名寄せ情報を含んでいる。例えば、メタデータ名「成分_C[%]」には、派生した名称として「成分_C[ppm]」が登録されている。もし、取得されたテーブルデータ内に「成分_C[ppm]」というヘッダーのデータ項目があれば、「成分_C[%]」と修正された上で、データ列の数値に必要なスケール変換が行われる。
【0056】
以上のように、取得されたテーブルデータ群について、ヘッダー形式が揃えられ、データ整形・名寄せ・単位系変換された後、以下に説明するデータ変換S003が行われる。
【0057】
[データ変換]
図3に示すフロー図を参照して、データ変換S003の具体的手順例を説明する。図8は、データ変換S003の対象となる複数のテーブルデータT1~T6の例を示す図である。
【0058】
図8に示すように、複数のテーブルデータT1~T6は、「分類名_データ項目名」で表される1行形式のヘッダーHDを含んでいる。
【0059】
テーブルデータT1は、分類Aに属するデータ項目Da1,Da2と、分類Bに属するデータ項目Db1とを含んでいる。また、テーブルデータT1は、分類Aのキー項目Kaと、分類Bのキー項目Kbとを含んでいる。
【0060】
テーブルデータT2は、分類Aに属するデータ項目Da3と、分類Cに属するデータ項目Dc1~Dc3とを含んでいる。また、テーブルデータT2は、分類Aのキー項目Kaを含んでいる。
【0061】
テーブルデータT3は、分類Bのキー項目Kbと、分類Dのキー項目Kdと、分類Dに属するデータ項目Dd1とを含んでいる。テーブルデータT4は、分類Dのキー項目Kdと、分類Eのキー項目Keと、分類Eに属するデータ項目De1とを含んでいる。
【0062】
テーブルデータT5は、分類Eのキー項目Keと、分類Fのキー項目Kfと、分類Fに属するデータ項目Df1とを含んでいる。テーブルデータT6は、分類Fのキー項目Kfと、分類Gのキー項目Kgと、分類Gに属するデータ項目Dg11とを含んでいる。
【0063】
図3に示すように、ステップS101において、データ変換部130は、テーブルデータに基づいて、分類名一覧、標準データ形式によるデータ項目一覧、キー項目一覧を作成する。
【0064】
ステップS102において、データ変換部130は、キー項目欄の空レコードにダミーデータを保存する。テーブルデータには、必ずしも全セルに値が入っている訳ではないため、もしキー項目となるデータ列に空レコードが存在していた場合、後のステップS105でレコード間の補完処理をキー項目の列の空レコードに対しても実施してしまうことを防ぐため、ダミーデータを記録しておく。
【0065】
ステップS103において、データ変換部130は、各テーブルデータを分類ごとのパーツに分割し、リスト化する。テーブルデータには、複数の分類のデータ項目が含まれることがあるため、これを分類ごとのデータ項目及びキー項目を含むパーツに分割し、リスト化する。すなわち、データ変換部130は、各テーブルデータから分類ごとのデータ項目を抽出する。
【0066】
図9は、テーブルデータT1の分割例を示す図である。テーブルデータT1には、分類Aのキー項目Ka及びデータ項目Da1,Da2並びに分類Bのキー項目Kb及びデータ項目Db1が混在している。
【0067】
データ変換部130は、テーブルデータT1を、データ項目Da1,Da2,Db1は分類ごとに、キー項目Ka,Kbは全ての分類に含まれるように、分類ごとのパーツDT1,DT2に分割する。
【0068】
すなわち、分類AのパーツDT1には、分類Aに属するデータ項目Da1,Da2が含まれ、分類BのパーツDT2には、分類Bに属するデータ項目Db1が含まれる。キー項目Ka,Kbは、両方のパーツDT1,DT2に含まれる。
【0069】
キー項目Ka,Kbは、後のステップS106で代表キー項目(新キー項目)の決定で使用されるため、当ステップS103では、分割後のパーツDT1,DT2が、テーブルデータT1に存在した全てのキー項目Ka,Kbを含むように分割される。
【0070】
ステップS104において、データ変換部130は、分割されたパーツを同一分類で集めて新たなテーブルデータを生成する。ここまでで、全てのテーブルデータは、分類ごとのデータ項目及びキー項目を含む分類ごとの新たなテーブルデータに変換される。
【0071】
ステップS105において、データ変換部130は、分類ごとの新たなテーブルデータにおけるレコード間の補完・削除を行う。
【0072】
複数のテーブルデータに散在していたデータを集めると、本来なら同じレコードとなるべきデータが別レコードとして出てくることがある。本来なら同じレコードとなるべき両レコードを比較すると、両レコードに値が存在しているデータ項目には同一の値が入っているが、あるデータ項目では一方のレコードが空(Null)になっていることがある。この場合、空(Null)になっている部分を他方のレコードの値で補完する。その後、最も情報量の多いレコードだけを残し、情報が重複しているレコードは、レコードそのものを削除する。
【0073】
図10は、テーブルデータの補完・削除例を示す図である。補完前のテーブルデータは、上記ステップS104で生成された新たなテーブルデータである。
【0074】
例えば、補完前のテーブルデータでは、A_ID*=A01の複数のレコードE1a,E1bが存在しており、ともに一部のデータ項目で値が欠損している。同様に、A_ID*=A03の複数のレコードE3a,E3bも存在しており、ともに一部のデータ項目で値が欠損している。
【0075】
データ変換部130は、互いのレコードで欠損している部分を補完し、最終的に最も欠損が少ないレコードを残し、重複レコードを削除する。
【0076】
例えば、レコードE1aのデータ項目Da3の欠損が、レコードE1bのデータ項目Da3の値(250)で補完され、レコードE1bのデータ項目Da1,Da2の欠損が、レコードE1aのデータ項目Da1,Da2の値(100,201)で補完され、レコードE1a,E1bの重複が削除されて、1つのレコードE1となる。
【0077】
また、レコードE3aのデータ項目Da3の欠損が、レコードE3bのデータ項目Da3の値(200)で補完され、レコードE3bのデータ項目Da1,Da2の欠損が、レコードE3aのデータ項目Da1,Da2の値(102,205)で補完され、レコードE3a,E3bの重複が削除されて、1つのレコードE3となる。
【0078】
ステップS106において、データ変換部130は、全ての新たなテーブルデータについて代表キー項目を決定する。具体的には、データ変換部130は、新たなテーブルデータに含まれるキー項目に基づいて、当該テーブルデータの代表キー項目を決定する。
【0079】
本実施形態では、データ変換部130は、新たなテーブルデータに含まれるキー項目の中から選択されるキー項目を、代表キー項目として当該テーブルデータに追加する。これに限らず、新たなテーブルデータに含まれるキー項目を組み合わせて生成した値を、代表キー項目として当該テーブルデータに追加してもよい。
【0080】
データ変換部130は、新たなテーブルデータに含まれるキー項目が分類に関連するキー項目を含む場合には、当該分類に関連するキー項目を代表キー項目として決定して追加し、新たなテーブルデータに含まれるキー項目が分類に関連するキー項目を含まない場合には、分類に関連しないキー項目を代表キー項目として決定し追加する。
【0081】
例えば図11に示すように、分類Aの新たなテーブルデータDTN1は、分類Aのキー項目Kaと、分類Bのキー項目Kbと、分類Aに属するデータ項目Da1,Da2,Db3とを含んでいる。このテーブルデータDTN1には、分類Aのキー項目Kaが含まれているので、当該キー項目Kaと同一の代表キー項目RKaが付加される。
【0082】
一方、図12に示すように、分類Cの新たなテーブルデータDTN2は、分類Aのキー項目Kaと、分類Cに属するデータ項目Dc1,Dc2,Dc3とを含んでいる。このテーブルデータDTN2には、分類Cのキー項目が含まれていないので、分類Cには関連しない分類Aのキー項目Kaと同一の代表キー項目RKcが付加される。
【0083】
以上のように、分類ごとにデータ項目がまとめられ、レコード間の補完・削除が行われ、代表キー項目が決定された、分類ごとの新たなテーブルデータを、以下の説明では「個別テーブルデータ」という。
【0084】
ステップS107において、データ変換部130は、キー項目の対応関係を表す関係データテーブルを生成する。関係データテーブルは、個別テーブルデータ間の関係性を1テーブルで表現するテーブルデータである。
【0085】
具体的には、データ変換部130は、全ての個別テーブルデータからキー項目及び代表キー項目を抽出し、結合して1つの結合テーブルを作成する。この結合テーブルに対し、上記ステップS105で行ったように、セルが空である以外は同一の値が並んでいるレコードを探し、互いに補完、その後、重複しているレコードから情報量の少ない(空が多い)レコードを削除していく。補完と重複レコード削除後、代表キー項目のみを抽出し、これを関係テーブルデータとする。
【0086】
最後に、全ての個別テーブルデータ及び関係テーブルデータについて、キー項目、代表キー項目に入っているダミーデータを空データに戻す。
【0087】
以上が、データ変換S003の具体的手順例である。本手順により、元のテーブルデータがどのような関係性で表現されていたとしても、データ変換後は、複数の個別テーブルデータと、テーブルデータ間の関係性を示す1つの関係テーブルデータという統一的なデータ構造でデータ群が表現される。
【0088】
図13は、データ変換前のテーブルデータ群とデータ変換後のテーブルデータ群の例を示す図である。データ変換前のテーブルデータT1,T2には、複数の分類のデータ項目が混在しているが、データ変換後は、分類ごとの個別テーブルデータDTa,DTb,DTc及び1つの関係テーブルデータRTに整理される。
【0089】
具体的には、関係テーブルデータRTは、分類Aの代表キー項目RKaと、分類Bの代表キー項目RKbと、分類Cの代表キー項目RKcとを含んでいる。
【0090】
分類Aの個別テーブルデータDTaは、分類Aの代表キー項目RKaと、分類Aに属するデータ項目Da1,Da2,Da3と、分類Aのキー項目Kaとを含んでいる。
【0091】
分類Bの個別テーブルデータDTbは、分類Bの代表キー項目RKbと、分類Bに属するデータ項目Db1と、分類Bのキー項目Kbとを含んでいる。
【0092】
分類Cの個別テーブルデータDTcは、分類Cの代表キー項目RKcと、分類Cに属するデータ項目Dc1,Dc2とを含んでいる。ここで、分類Cの代表キー項目RKcは、分類Aのキー項目で表される。
【0093】
データ変換装置1において取得されたテーブルデータは全てこの構造に統一的に変換されるため、分析者は、関係テーブルデータRTを核として、分析に使用したい個別テーブルデータDTa,DTb,DTcを紐づけし、分析に活用すればよく、データ準備の負荷が大幅に軽減される。
【0094】
これでデータ準備はできたことから、個別テーブルデータDTa,DTb,DTc及び関係テーブルデータRTは、保存用DB150に保存され、SQL言語などで容易に取り出せるようになる。保存用DB150に既に保存されているデータ項目のリストは、メタデータ一覧160に保存されている。
【0095】
データ変換S003の後の処理について具体的に説明すると、上記図2に示すように、処理部10は、データ変換された個別テーブルデータと、メタデータ一覧160の内容とを比較する(S004)。
【0096】
比較の結果、個別テーブルデータに含まれる何れかのデータ項目が、メタデータ一覧160に保存されたデータ項目のリストに存在しない新たなデータ項目であった場合(S005:YES)、データ保存部140は、該当する個別テーブルデータに当該新たなデータ項目を追加する(S006)。また、処理部10は、新たなデータ項目のメタデータをメタデータ一覧160に追加する(S007)。
【0097】
その後、新たなデータ項目を追加した後(S006,S007)又は新たなデータ項目が無かった場合(S005:NO)、データ保存部140は、データ変換S003により生成された個別テーブルデータ及び関係データテープルを保存用DB150に保存する。
【0098】
なお、保存用DB150に既に同じ分類の個別テーブルデータ及び関係データテーブルが保存されている場合には、それらを更新する形で、データ変換S003により生成された個別テーブルデータ及び関係データテープルを保存してもよい。
【0099】
[テーブル利用]
上記図8では、7つの分類A~Gを含む6つのテーブルデータT1~T6の例を示した。ここで、分類Cのデータ項目と分類Gのデータを紐付けて分析する場合、データ変換前のテーブルデータT1~T6では、分類C→分類A→分類B→分類D→分類E→分類F→分類Gという具合に、レコード間の関係を6段階も順に辿る必要があった。
【0100】
これに対し、データ変換後の分類ごとの個別テーブルデータ及び関係テーブルデータであれば、分類C→関係テーブルデータ→分類Fという具合に、関係テーブルデータを中心に必要なテーブルデータを紐づけることで、容易にデータ分析のテーブルを準備できることができる。
【0101】
以下、保存用DB150に保存された個別テーブルデータ及び関係テーブルデータを利用したテーブルデータの表示について説明する。上記図1に示した表示部100は、保存用DB150に保存された個別テーブルデータを、ユーザにより指定された形式で表示する。
【0102】
図14は、関係テーブルデータRTを「紐づけ表」(図17参照)として表示する例を示す図である。表示部100は、分類ごとの個別テーブルデータDTa,DTb,DTcと、代表キー項目RKa,RKb,RKcの対応関係を表す関係テーブルデータRTとを表示する。
【0103】
図15は、分類ごとの個別テーブルデータDTa,DTb,DTcを「数珠繋ぎパターン」(図18参照)で表示する例を示す図である。表示部100は、順序が設定された個別テーブルデータDTa,DTb,DTcを、各々の個別テーブルデータに前の個別テーブルデータの代表キー項目を含めて表示する。
【0104】
例えば、分類A→分類B→分類Cの順序が設定されたとき、表示部100は、分類Bの個別テーブルデータDTbに分類Aの代表キー項目RKaを含めて表示し、分類Cの個別テーブルデータDTcに分類Bの代表キー項目RKbを含めて表示する。
【0105】
図16は、分類ごとの個別テーブルデータDTa,DTb,DTcを「共通キーパターン」(図19参照)で表示する例を示す図である。表示部100は、複数の個別テーブルデータDTa,DTb,DTcを、1の個別テーブルデータの代表キー項目を残りの個別テーブルデータに含めて表示する。
【0106】
例えば、表示部100は、分類Aの個別テーブルデータDTaの代表キー項目RKaを分類B,Cの個別テーブルデータDTb,DTcに含めて表示する。分類B,Cの個別テーブルデータDTb,DTcの代表キー項目RKb,RKcは削除してもよい。
【0107】
以上、本発明の実施形態について説明したが、本発明は以上に説明した実施形態に限定されるものではなく、種々の変更が当業者にとって可能であることはもちろんである。
【符号の説明】
【0108】
1 データ変換装置、10 処理部、100 表示部、110 データ取得部、120 データ整形部、130 データ変換部、140 データ保存部、150 保存用データベース、160 メタデータ一覧

図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19