特開2024-131388 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2024-131388データ融合システム及びデータ融合方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024131388

(43)【公開日】2024-09-30

(54)【発明の名称】データ融合システム及びデータ融合方法

(51)【国際特許分類】

G06F 16/2458 20190101AFI20240920BHJP

【ＦＩ】

G06F16/2458

【審査請求】未請求

【請求項の数】12

【出願形態】ＯＬ

(21)【出願番号】P 2023041622

(22)【出願日】2023-03-16

(71)【出願人】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110000350

【氏名又は名称】ポレール弁理士法人

(72)【発明者】

【氏名】石坂秀壮

(72)【発明者】

【氏名】長谷川泰隆

(72)【発明者】

【氏名】大崎高伸

(72)【発明者】

【氏名】竹内渉

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175FB04

(57)【要約】（修正有）

【課題】データ融合精度の向上や計算コストの低減を可能とし得るデータ融合システム及びデータ融合方法を提供する。
【解決手段】データ融合システム１００において、演算装置１０１は、入力部１０２が受ける融合する２つのデータである第１のデータと第２のデータに共通して含まれる複数の共変量を取得する共変量取得部１１１と、第１のデータと第２のデータから複数の共変量の各共変量の値が一致するレコード数を算出する一致レコード数計算部１１３と、複数の共変量の各共変量の組合せ毎に前記一致レコード数を比較する一致レコード数比較部１１４と、一致レコード数比較結果に基づき、複数の共変量から少なくとも１つの共変量を選定する共変量選定部１１５と、共変量選定部１１５が選定した少なくとも１つの共変量を用いて、第１のデータと第２のデータの融合とそのデータの分析を行う融合後データ分析部１１７と、を有する。
【選択図】図１

【特許請求の範囲】

【請求項1】

２つのデータを連結するデータ融合システムであって、
所定の処理を実行する演算装置と、データが入力される入力部と、前記演算装置がアクセス可能な記憶装置とを備え、
前記入力部は、融合する２つのデータである第１のデータと第２のデータの入力を受け、
前記演算装置は、
前記第１のデータと前記第２のデータに共通して含まれる複数の共変量を取得する共変量取得部と、
前記第１のデータと前記第２のデータから前記複数の共変量の各共変量の値が一致するレコード数を算出する一致レコード数計算部と、
前記複数の共変量の各共変量の組合せ毎に前記一致レコード数を比較する一致レコード数比較部と、
前記一致レコード数比較結果に基づき、前記複数の共変量から少なくとも１つの共変量を選定する共変量選定部と、
前記共変量選定部が選定した少なくとも１つの共変量を用いて、前記第１のデータと前記第２のデータを融合するデータ融合実施部と、
データ融合実施後のデータの分析を行う融合後データ分析部と、
を有することを特徴とするデータ融合システム。

【請求項2】

請求項１に記載のデータ融合システムであって、
前記一致レコード数計算部は、前記第１のデータの各共変量の値と一致する前記第２のデータのレコード数を求め、その平均を算出することを特徴とするデータ融合システム。

【請求項3】

請求項１に記載のデータ融合システムであって、
前記一致レコード数比較部は、前記一致レコード数計算部で前記複数の共変量の一部のＫ個の共変量の組合せ毎に計算された前記一致レコード数の逆数の大小比較を行い、前記一致レコード数の逆数が最大となる前記共変量の組合せ、及び前記一致レコード数の逆数の最大値を取得することを特徴とするデータ融合システム。

【請求項4】

請求項１に記載のデータ融合システムであって、
前記一致レコード数比較部は、前記一致レコード数計算部で前記複数の共変量の一部のＫ個の共変量の組合せ毎に計算された前記一致レコード数の逆数の大小比較を行い、前記一致レコード数が最小となる前記共変量の組合せ、及び前記一致レコード数の最小値を取得することを特徴とするデータ融合システム。

【請求項5】

請求項３に記載のデータ融合システムであって、
前記共変量選定部は、共変量数がＫ－1個の場合とＫ個の場合に前記一致レコード数比較部で取得した前記一致レコード数の逆数の最大値の大小比較を行い、共変量数がＫ個の場合の前記一致レコード数の逆数の最大値の方が大きい場合は共変量数がＫ＋１個の場合の前記一致レコード数の計算及び比較に移行し、それ以外の場合は共変量数がＫ個の場合に前記一致レコード数比較部で取得した前記共変量の組合せを出力することを特徴とするデータ融合システム。

【請求項6】

請求項４に記載のデータ融合システムであって、
前記共変量選定部は、共変量数がＫ－1個の場合とＫ個の場合に前記一致レコード数比較部で取得した前記一致レコード数の最小値の大小比較を行い、共変量数がＫ個の場合の前記一致レコード数の最小値の方が小さい場合は共変量数がＫ＋１個の場合の前記一致レコード数の計算及び比較に移行し、それ以外の場合は共変量数がＫ個の場合に前記一致レコード数比較部で取得した前記共変量の組合せを出力することを特徴とするデータ融合システム。

【請求項7】

所定の処理を実行する演算装置と、データが入力される入力部と、前記演算装置がアクセス可能な記憶装置とを備え、２つのデータを連結するデータ融合方法であって、
前記演算装置の共変量取得部が、前記第１のデータと前記第２のデータに共通して含まれる複数の共変量を取得する工程と、
前記演算装置の一致レコード数計算部が、前記第１のデータと前記第２のデータから前記複数の共変量の各共変量の値が一致するレコード数を算出する工程と、
前記演算装置の一致レコード数比較部が、前記複数の共変量の各共変量の組合せ毎に前記一致レコード数を比較する工程と、
前記演算装置の共変量選定部が、前記一致レコード数比較結果に基づき、前記複数の共変量から少なくとも１つの共変量を選定する工程と、
前記演算装置のデータ融合実施部が、前記共変量選定部が選定した少なくとも１つの共変量を用いて、前記第１のデータと前記第２のデータを融合する工程と、
前記演算装置の融合後データ分析部が、データ融合実施後のデータの分析を行う工程と、
を有することを特徴とするデータ融合方法。

【請求項8】

請求項７に記載のデータ融合方法であって、
前記一致レコード数比較部が、前記第１のデータの各共変量の値と一致する前記第２のデータのレコード数を求め、その平均を算出することを特徴とするデータ融合方法。

【請求項9】

請求項７に記載のデータ融合方法であって、
前記一致レコード数比較部が、前記一致レコード数計算部で前記複数の共変量の一部のＫ個の共変量の組合せ毎に計算された前記一致レコード数の逆数の大小比較を行い、前記一致レコード数の逆数が最大となる前記共変量の組合せ、及び前記一致レコード数の逆数の最大値を取得することを特徴とするデータ融合方法。

【請求項10】

請求項７に記載のデータ融合方法であって、
前記一致レコード数比較部が、前記一致レコード数計算部で前記複数の共変量の一部のＫ個の共変量の組合せ毎に計算された前記一致レコード数の逆数の大小比較を行い、前記一致レコード数が最小となる前記共変量の組合せ、及び前記一致レコード数の最小値を取得することを特徴とするデータ融合方法。

【請求項11】

請求項９に記載のデータ融合方法であって、
前記共変量選定部が、共変量数がＫ－1個の場合とＫ個の場合に前記一致レコード数比較部で取得した前記一致レコード数の逆数の最大値の大小比較を行い、共変量数がＫ個の場合の前記一致レコード数の逆数の最大値の方が大きい場合は共変量数がＫ＋１個の場合の前記一致レコード数の計算及び比較に移行し、それ以外の場合は共変量数がＫ個の場合に前記一致レコード数比較部で取得した前記共変量の組合せを出力することを特徴とするデータ融合方法。

【請求項12】

請求項１０に記載のデータ融合方法であって、
前記共変量選定部が、共変量数がＫ－1個の場合とＫ個の場合に前記一致レコード数比較部で取得した前記一致レコード数の最小値の大小比較を行い、共変量数がＫ個の場合の前記一致レコード数の最小値の方が小さい場合は共変量数がＫ＋１個の場合の前記一致レコード数の計算及び比較に移行し、それ以外の場合は共変量数がＫ個の場合に前記一致レコード数比較部で取得した前記共変量の組合せを出力することを特徴とするデータ融合方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、複数のデータを連結するデータ融合システム及びデータ融合方法に関する。

【背景技術】

【0002】

複数のデータを連結して分析することで、より多様な分析や精度の高い推測に基づく意思決定が可能である。連結するデータ間で共通の個人キー(個人毎に付与されるＩＤ)がある場合、その個人キーの値が同一のレコード同士を紐づけることでデータを連結することができる。しかし、個人キーが無い場合、データの連結は困難である。そこで、連結が困難なデータ間の複数の共通する変数(共変量)をのりしろとして利用することで、データ同士を連結するデータ融合技術が研究されている。

【0003】

データ融合技術を用いてデータを連結する従来例としては、特許文献１及び特許文献２がある。
特許文献１には、コンピュータが、互いに異なる調査者が互いに異なるモニタに対して実施した第１アンケート及び第２アンケートの各々のデータを、両アンケートに含まれる共通質問への回答内容の類似度合いをキーとして融合する。このとき、コンピュータは、類似度合いに基づいて設定された割り当てパターンにて、第１アンケートのモニタに対し、第２アンケートのみに含まれる質問に対するモニタの回答内容と同一の回答内容を割り当てる。割り当てパターンは、第１アンケートのみに含まれる質問に関する集計結果が融合前後で変化せず、かつ、第２アンケートのみに含まれる質問に関する集計結果が融合前後で変化しないように統計的解法に従って設定される。そして、コンピュータは、データ配信要求を発する端末に向けて融合データを配信する旨が開示されている。

【0004】

また、特許文献２には、第１調査データのうち新規の第１調査データを特定する。新規の第１調査データと第２調査データの双方の共通項目に関数を適用して距離計算用スコア群を算出する。距離計算用スコア群を比較して、新規の第１調査データの各モニタＡ’と第２調査データの各モニタＢとの類似度合いを示す距離について距離計算を実行する。新規の第１調査データの各モニタＡ’について、総距離が近いモニタを第２調査データのモニタＢの中から特定し、同一のモニタとみなして融合する。融合データを保存する旨が開示されている。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２０１５－３２１９９号公報

【特許文献2】特開２０１８－１５６２９９号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

データ融合の精度を向上させるためには、利用できる全ての共変量の中から最適な共変量を選定する必要がある。また、共変量の選定により、データ融合に利用する共変量を削減することで、データ融合の計算時間を短縮することが可能である。
しかしながら、特許文献１及び特許文献２共に、共変量の選定は行っていない。従って以下の課題がある。
（１）データ融合精度の劣化
（２）大規模データや共変量が多いデータに適用する場合の計算コストの増加
そこで、本発明は、データ融合精度の向上や計算コストの低減を可能とし得るデータ融合システム及びデータ融合方法を提供する。

【課題を解決するための手段】

【0007】

上記課題を解決するため、本発明に係るデータ融合システムは、２つのデータを連結するデータ融合システムであって、所定の処理を実行する演算装置と、データが入力される入力部と、前記演算装置がアクセス可能な記憶装置とを備え、前記入力部は、融合する２つのデータである第１のデータと第２のデータの入力を受け、前記演算装置は、前記第１のデータと前記第２のデータに共通して含まれる複数の共変量を取得する共変量取得部と、前記第１のデータと前記第２のデータから前記複数の共変量の各共変量の値が一致するレコード数を算出する一致レコード数計算部と、前記複数の共変量の各共変量の組合せ毎に前記一致レコード数を比較する一致レコード数比較部と、前記一致レコード数比較結果に基づき、前記複数の共変量から少なくとも１つの共変量を選定する共変量選定部と、前記共変量選定部が選定した少なくとも１つの共変量を用いて、前記第１のデータと前記第２のデータを融合するデータ融合実施部と、データ融合実施後のデータの分析を行う融合後データ分析部と、を有することを特徴とする。

【0008】

また、本発明に係るデータ融合方法は、所定の処理を実行する演算装置と、データが入力される入力部と、前記演算装置がアクセス可能な記憶装置とを備え、２つのデータを連結するデータ融合方法であって、前記演算装置の共変量取得部が、前記第１のデータと前記第２のデータに共通して含まれる複数の共変量を取得する工程と、前記演算装置の一致レコード数計算部が、前記第１のデータと前記第２のデータから前記複数の共変量の各共変量の値が一致するレコード数を算出する工程と、前記演算装置の一致レコード数比較部が、前記複数の共変量の各共変量の組合せ毎に前記一致レコード数を比較する工程と、前記演算装置の共変量選定部が、前記一致レコード数比較結果に基づき、前記複数の共変量から少なくとも１つの共変量を選定する工程と、前記演算装置のデータ融合実施部が、前記共変量選定部が選定した少なくとも１つの共変量を用いて、前記第１のデータと前記第２のデータを融合する工程と、前記演算装置の融合後データ分析部が、データ融合実施後のデータの分析を行う工程と、を有することを特徴とする。

【発明の効果】

【0009】

本発明によれば、データ融合精度の向上や計算コストの低減を可能とし得るデータ融合システム及びデータ融合方法を提供することが可能となる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

【図面の簡単な説明】

【0010】

【図1】本発明の実施例１に係るデータ融合システムの構成を示すブロック図である。

【図2】データＡ（第１のデータ）の例を示す図である。

【図3】データＢ（第２のデータ）の例を示す図である。

【図4】共変量の例を示す図である。

【図5】共変量設定画面の例を示す図である。

【図6】共変量名の集合の例を示す図である。

【図7】一致レコード数の例を示す図である。

【図8】共変量選定画面の例を示す図である。

【図9】データ融合後のデータの例を示す図である。

【図10】データ融合結果表示・分析画面の例を示す図である。

【図11】データ融合処理のフローチャートを示す図である。

【図12】一致レコード数算出処理のフローチャートを示す図である。

【図13】共変量数Ｋ＝１の場合の一致レコード数算出例を示す図である。

【図14】共変量数Ｋ＝２の場合の一致レコード数算出例を示す図である。

【発明を実施するための形態】

【0011】

本明細書では、第１のデータをデータＡと称し、第２のデータをデータＢと称する。
また、本発明の実施例では、連結する２つデータ(データＡとデータＢ)の共変量を選定し、選定された共変量を用いてデータを連結するデータ融合システムを説明する。
以下、図面を用いて本発明の実施例について説明する。

【実施例0012】

本実施例では、データＡ（第１のデータ）とデータＢ（第２のデータ）の共変量を取得し、一致レコード数に基づき共変量を選定し、選定された共変量を用いてデータを連結するデータ融合システムの例を説明する。

【0013】

図１は、本実施例に係るデータ融合システムの構成を示すブロック図である。
図１に示すように、本実施例に係るデータ融合システム１００は、データ融合端末１０１及びデータベース１２０を有する。

【0014】

データ融合端末１０１は、入力部１０２、出力部１０３、プロセッサ（ＣＰＵ）１０４、メモリ１０５及び記憶媒体１０６を有する計算機である。

【0015】

入力部１０２は、マウス、キーボードなどのヒューマンインターフェースであり、データ融合端末１０１への入力を受け付ける。出力部１０３は、データ融合端末１０１による演算結果を出力するディスプレイやプリンタである。記憶媒体１０６は、データ融合端末１０１によるデータ融合処理を実現する各種プログラム、及びデータ融合処理の実行結果等を格納する記憶装置であり、例えば、不揮発性記憶媒体（磁気ディスクドライブ、不揮発性メモリ等）で構成される。

【0016】

メモリ１０５は、不揮発性の記憶素子であるＲＯＭ及び揮発性の記憶素子であるＲＡＭを含む。ＲＯＭは、不変のプログラム（例えば、ＢＩＯＳ）などを格納する。ＲＡＭは、例えば、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）のような高速かつ揮発性の記憶素子であり、プロセッサ１０４が実行するプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。すなわち、メモリ１０５には、記憶媒体１０６に格納されているプログラムが展開される。

【0017】

プロセッサ１０４は、メモリ１０５にロードされたプログラムを実行する演算装置であり、例えば、ＣＰＵ、ＧＰＵなどである。以下に説明する処理及び演算は、プロセッサ１０４が実行する。なお、プロセッサ１０４がプログラムを実行して行う処理の一部を、他の演算装置（例えば、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などのハードウェア）で実行してもよい。

【0018】

本実施例に係るデータ融合システム１００は、一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。

【0019】

プロセッサ１０４によって実行されるプログラムは、リムーバブルメディア（ＣＤ－ＲＯＭ、フラッシュメモリなど）又はネットワークを介して各サーバに提供され、非一時的記憶媒体である不揮発性記憶装置に格納される。このため、計算機システムは、リムーバブルメディアを読み込むインターフェースを備えてもよい。

【0020】

記憶媒体１０６は、共変量取得部１１１、一致レコード数計算部１１２、一致レコード数比較部１１３、共変量追加部１１４、共変量選定部１１５、データ融合実施部１１６、融合後データ分析部１１７を実現するためのプログラムを格納する。

【0021】

共変量取得部１１１は、入力部１０２に入力されたデータＡ（図２）とデータＢ（図３）を取得後、データＡ（第１のデータ）とデータＢ（第２のデータ）で変数名が一致、若しくは変数名や変数内容が似た変数を共変量（図４）として取得し、取得された共変量の変数名（共変量名）を出力部１０３に表示する（図５）。

【0022】

共変量追加部１１２は、共変量取得部１１１で取得した共変量名のうち、共変量リスト（図７）に含まれる共変量名に、共変量リストに含まれない共変量名を１つ追加した、共変量名の集合（図６）を作成する。これを、共変量リストに含まれない全ての共変量名を用いて行う。ここで、共変量リストは選定された共変量を格納するリストであり、初期値は空である。

【0023】

一致レコード数計算部１１３は、共変量取得部１１１で取得した共変量のうち、共変量名が共変量追加部１１２で作成した共変量名の集合の各要素と一致する共変量を用いて、「一致レコード数」（図７）を計算する。これを、共変量追加部１１２で作成した全ての集合に対して行う。ここで、一致レコード数は似た特徴を持つ人の識別程度を示す指標であり、データＡの共変量の各レコードの値と一致するデータＢの共変量のレコード数を求め、そのレコード数の平均値を算出することを特徴とする。詳細な計算方法は、図１２、図１３、図１４を用いて後述する。

【0024】

一致レコード数比較部１１４は、レコード数計算部１１３で算出された一致レコード数の比較を行い、一致レコード数の逆数が最大となる共変量名の集合（共変量の組合せ）、及び一致レコード数の逆数の最大値を取得する。なお、一致レコード数が最小となる共変量名の集合（共変量の組合せ）、及び一致レコード数の最小値を取得してもよい。

【0025】

共変量選定部１１５は、一致レコード数比較部１１４で取得した一致レコード数の逆数の最大値が、最大値格納変数に格納済みの値よりも大きい場合、一致レコード数比較部１１４で取得した共変量名の集合（共変量の組合せ）を共変量リストに、一致レコード数比較部１１４で取得した一致レコード数の逆数の最大値を最大値格納変数に格納し、共変量追加部１１２に移行する。それ以外の場合、共変量リストを取得し、共変量リストに格納済みの共変量名を出力部１０３に表示する（図８）。ここで、最大値格納変数は一致レコード数の逆数の最大値を格納する変数であり、初期値は０である。換言すれば、共変量選定部１１５は、共変量数がＫ－1個の場合とＫ個の場合に前記一致レコード数比較部で取得した前記一致レコード数の逆数の最大値の大小比較を行い、共変量数がＫ個の場合の前記一致レコード数の逆数の最大値の方が大きい場合は共変量数がＫ＋１個の場合の前記一致レコード数の計算及び比較に移行し、それ以外の場合は共変量数がＫ個の場合に前記一致レコード数比較部で取得した前記共変量の組合せを出力する（出力部１０３に表示する）。
なお、一致レコード数比較部１１４で一致レコード数の最小値を取得した場合、上記と逆の処理を行う。すなわち、取得した最小値が最小値格納変数よりも小さい場合、一致レコード数比較部１１４で取得した共変量名の集合（共変量の組合せ）を共変量リストに、一致レコード数比較部１１４で取得した一致レコード数の最小値を最小値格納変数に格納し、共変量追加部１１２に移行する。それ以外の場合、共変量リストを取得し、共変量リストに格納済みの共変量名を出力部１０３に表示する（図８）。ここで、最小値格納変数は一致レコード数の最小値を格納する変数であり、初期値は非常に大きな値を設定する。換言すれば、共変量選定部１１５は、共変量数がＫ－1個の場合とＫ個の場合に前記一致レコード数比較部で取得した前記一致レコード数の最小値の大小比較を行い、共変量数がＫ個の場合の前記一致レコード数の最小値の方が小さい場合は共変量数がＫ＋１個の場合の前記一致レコード数の計算及び比較に移行し、それ以外の場合は共変量数がＫ個の場合に前記一致レコード数比較部で取得した前記共変量の組合せを出力する（出力部１０３に表示する）。

【0026】

データ融合実施部１１６は、共変量取得部１１１で取得したデータＡとデータＢの全共変量のうち、共変量名が共変量選定部１１５で取得した共変量リストに含まれる共変量名と一致する共変量を用い、データＡとデータＢの共変量間の距離が最も小さいレコード同士をマッチングすることでデータ融合を実施し、データ融合後のデータ（図９）を作成する。

【0027】

融合後データ分析部１１７は、データ融合実施部１１６で取得したデータ融合後のデータの分析を行う。また、データ融合後のデータとデータ融合後のデータの分析結果をデータ融合後のデータを出力部１０３に表示する（図１０）。

【0028】

図１に示すように、データベース１２０は、データＡ記憶部１２１、データＢ記憶部１２２、共変量記憶部１２３、一致レコード数記憶１２４、共変量選定結果記憶部１２５、データ融合結果記憶部１２６及び融合後データ分析結果記憶部１２５から構成される。

【0029】

データＡ記憶部１２１は、入力部１０２に入力された融合する２つのデータのうちの１つを格納する。
データＢ記憶部１２２は、入力部１０２に入力された融合する２つのデータのうち、データＡ記憶部に格納されていないデータを格納する。換言すれば、入力部１０２に入力された融合する２つのデータのうち、他方のデータを格納する。

【0030】

共変量記憶部１２３は、共変量取得部１１１で取得した共変量を格納する。
一致レコード数記憶部１２４は、共変量追加部１１２で作成された共変量名の集合と、共変量名の集合に対応する一致レコード数計算部１１３で計算される一致レコード数を格納する。

【0031】

共変量選定結果記憶部１２５は、共変量選定部１１５が取得した共変量リストを格納する。
データ融合結果記憶部１２６は、データ融合実施部１１６が作成したデータ融合後のデータを格納する。
融合後データ分析結果記憶部１２７は、融合後データ分析部１１７が作成したデータ融合後のデータの分析結果を格納する。

【0032】

図２は、データＡ記憶部１２１が格納するデータＡ２００の例を示す図である。
データＡ２００は、数値が格納された複数の変数を含む。図示する例では、データＡ２００は変数１から変数１０まで合計１０個の変数を含む。

【0033】

図３は、データＢ記憶部１２２が格納するデータＢ３００の例を示す図である。
データＢ３００は、数値が格納された複数の変数を含む。図示する例では、データＢ３００は変数３から変数１２まで合計１０個の変数を含む。

【0034】

図４は、共変量取得部１１１が取得する共変量４００の例を示す図である。
図４に示すように、共変量４００は、データＡの共変量４０1とデータＢの共変量４０２を含む。

【0035】

データＡの共変量４０１は、共変量取得部１１１が取得した共変量４００のうちデータＡに含まれる共変量である。データＢの共変量４０２は、共変量取得部１１１が取得した共変量４００のうちデータＢに含まれる共変量である。

【0036】

図５は、共変量取得部１１１が、出力部１０３に出力する共変量設定画面５００の例を示す図である。
共変量設定画面５００は、共変量取得方法設定欄５１０、共変量候補表示欄５２０、及び共変量表示欄５３０を含む。

【0037】

共変量取得方法設定欄５１０は、共変量の取得方法をユーザに選択させる欄である。図示する例では、共変量の取得方法として、「変数名が一致」が選択されている。この場合は、データＡ２００とデータＢ３００の変数のうち、変数名が同一なものを共変量として取得する。また、「手動」を選択した場合、以下で説明する共変量候補表示欄５２０にて手動で共変量を設定する。

【0038】

共変量候補表示欄５２０は、共変量とする変数の候補を表示する欄である。図示する例では、共変量取得方法設定欄５１０で「変数名が一致」を選択しているため、共変量候補表示欄５２０において、データＡ２００とデータＢ３００の変数のうち、変数名が同一のものを表示している。共変量候補表示欄５２０は、共変量候補選択解除ボタン５２１と共変量候補追加ボタン５２２を含み、共変量候補選択解除ボタン５２１が押された変数は、共変量候補から外す。また、共変量候補追加ボタン５２２により、手動で共変量候補を追加することができる。例えば、データＡの「年齢」とデータＢの「ａｇｅ」という変数を選択することで、データＡの「年齢」とデータＢの「ａｇｅ」を対応付けて、共変量候補表示欄５２０に表示する。

【0039】

共変量表示欄５３０は、共変量候補表示欄５２０で設定した共変量の共変量名を表示する。ここで、データＡとデータＢで異なる変数名の変数が共変量として設定された場合、データＡの共変量名(上記の例では「年齢」)を表示する。

【0040】

図６は、共変量追加部１１２が作成する共変量名の集合６００の例を示す図である。

【0041】

共変量名の集合６００は、共変量リスト７２０に含まれる共変量名に、共変量リスト７２０に含まれない共変量名を１つ追加した集合である。図示する例では、ループ０回目、ループ1回目、及びループ３回目の共変量名の集合６００を示す。ループ０回目では、共変量リスト７２０が空であるため、共変量名毎に要素数１の集合が作成される。ループ1回目では、共変量リスト７２０に“変数５”が含まれているため、“変数５”に“変数５”以外の共変量名を１つ追加した要素数２の集合が作成される。ループ２回目では、共変量リスト７２０に“変数５”と“変数３”が含まれているため、“変数５”と“変数３”に“変数５”と“変数３”以外の共変量名を１つ追加した要素数３の集合が作成される。ループ３、４、５…回目も同様に、共変量の集合６００を作成する。

【0042】

図７は、一致レコード数計算部１１３が計算する一致レコード数７１０と共変量リスト７２０の例を示す図である。
一致レコード数７１０は、共変量追加部１１２（図１）で作成された共変量名の集合６００毎に計算される。図示する例では、ループ０回目では、{“変数５”}の一致レコード数が最も小さい(一致レコード数の逆数が最も大きい)ため、“変数５”を共変量リスト７２０に格納する。ループ1、２、３…回目でも同様に、共変量追加部１１２で作成された共変量名の集合６００毎に一致レコード数７１０を計算し、一致レコード数７１０が最も小さい(一致レコード数の逆数が最も大きい)共変量名の集合６００を共変量リスト７２０に格納する。なお、ループの前後で一致レコード数の最小値(一致レコード数の逆数の最大値)が変化しない場合、それ以降のループを停止し、共変量リスト７２０に格納済みの共変量名の集合６００を取得する。

【0043】

図８は、共変量選定部１１５が、出力部１０３に出力する共変量選定画面８００の例を示す図である。
図８に示すように、共変量選定画面８００は、共変量選定結果表示欄８１０、一致レコード数計算結果表示欄８２０、及び選定済み共変量表示欄８３０を含む。

【0044】

共変量選定結果表示欄８１０は、共変量選定部１１５が取得する共変量リスト７２０に格納されている共変量名を表示する欄である。図示する例では、共変量リスト７２０に格納されている“変数５”、“変数３”、“変数７”、“変数４”の４つの共変量名を表示している。共変量選定結果表示欄８１０は、共変量選択解除ボタン８１１と共変量追加ボタン８１２を含み、共変量選択解除ボタン８１１が押された共変量は選定結果から除外し、データ融合に利用しない。また、共変量追加ボタン８１２により、共変量取得部１１１で取得された共変量名の中からデータ融合に利用する共変量を手動で追加できる。

【0045】

一致レコード数計算結果表示欄８２０は、一致レコード数比較部１１４で取得される、一致レコード数７１０の逆数が最大となる共変量名の集合６００とそれに対応する一致レコード数の逆数（８２１～８２４）を表示する。また、一致レコード数７１０が最小となる共変量名の集合６００とそれに対応する一致レコード数７１０を表示してもよい。
選定済み共変量表示欄８３０は、共変量選定結果表示欄８１０で設定した共変量の共変量名を表示する。

【0046】

図９は、データ融合結果記憶部１２６が格納するデータ融合後のデータ９００の例を示す図である。
図９に示すように、データ融合後のデータ９００は、選定された共変量９０１、データＡにのみ含まれる変数９０２、及びデータＢにのみ含まれる変数９０３を含む。

【0047】

選定された共変量９０１は、データＡの共変量４０１のうち、共変量名が共変量選定部１１５で取得した共変量名と一致する共変量である。データＡにのみ含まれる変数９０２は、データＡ２００うち、データＡの共変量４０１に含まれない変数である。データＢにのみ含まれる変数９０３は、データＢ３００のうち、データＢの共変量４０２に含まれない変数であり、データ融合によって紐づけられた、選定された共変量９０１の各レコードに対応する値が格納されている。

【0048】

図１０は、融合後データ分析部１１７が、出力部１０３に出力するデータ融合結果表示・分析画面１０００の例を示す図である。
図１０に示すように、データ融合結果表示・分析画面１０００は、データ融合結果表示欄１０１０と融合後データ分析設定・結果表示欄１０２０を含む。

【0049】

データ融合結果表示欄１０１０は、データ融合後のデータ９００の一部を表示する欄である。融合後データ分析設定・結果表示欄１０２０は、データ融合後のデータの分析結果を表示する欄であり、分析対象変数選択欄１０２１、分析対象変数選択欄１０２２、分析方法選択欄１０２３、及び分析結果表示欄１０２４を含む。分析対象変数選択欄１０２１では、データ融合後のデータ９００のデータＡにのみ含まれる変数９０２のうち、分析対象とする変数を選択する。分析対象変数選択欄１０２２では、データ融合後のデータ９００のデータＢにのみ含まれる変数９０３のうち、分析対象とする変数を選択する。分析方法選択欄１０２３では、データ融合後データ９００の分析方法を選択する。図示する例では、選択している分析対象変数に対してクロス集計を行う“クロス集計”を選択している。他の分析方法として、選択している分析対象変数間の相関係数を算出する“相関係数”などがある。分析結果表示欄１０２４では、分析対象変数選択欄１０２１、分析対象変数選択欄１０２２、及び分析方法選択欄１０２３で設定された条件で、データ融合後のデータ９００を分析した結果を表示する。図示する例では、分析対象として“変数１”と“変数１１”を選んだ場合のデータ融合後のデータ９００のクロス集計結果を表示している。具体的には、変数１の値が０でかつ変数１１の値が０のものが２７１３個（レコード数）、変数１の値が０でかつ変数１１の値が１のものが２２４個（レコード数）等と表示されている。

【0050】

次に、図１１のフローチャートを用いて、データ融合処理を説明する。
図１１の処理を開始すると、まず、データ入力ステップ１１０１を実行する。データ入力ステップＳ１１０１では、データ融合端末１０１の入力部１０２が、データＡ２００（図２）及びデータＢ３００（図３）の入力を受ける。入力されたデータＡ２００はデータＡ記憶部１２１に格納され、入力されたデータＢ３００はデータＢ記憶部１２２に格納される。

【0051】

次に、共変量取得ステップＳ１１０２では、共変量取得部１１１が、データ入力ステップＳ１１０１で入力されたデータＡ２００（図２）及びデータＢ３００（図３）から、データＡとデータＢで変数名が一致、若しくは変数名や変数内容が似た変数を共変量４００(図４)として取得し、取得した共変量４００の共変量名を出力部１０３に表示する。図５に示したように、手動で共変量を取得することもできる。取得された共変量４００は、共変量記憶部１２３に格納される。

【0052】

次に、初期化ステップＳ１１０３では、共変量追加部１１２が、一致レコード数７１０の逆数の最大値を格納する最大値格納変数ｍａｘの値を０に初期化する。また、選定された共変量の変数名(共変量名)を格納する共変量リストｌｉｓｔ７２０を空に初期化する。

【0053】

次に、共変量追加ステップＳ１１０４では、共変量追加部１１２が、共変量取得ステップＳ１１０２で取得した共変量４００の共変量名のうち、ｌｉｓｔに含まれる共変量名に、ｌｉｓｔに含まれない共変量名を１つ追加した、共変量名の集合６００（図６）を全通り作成する。

【0054】

次に、一致レコード数計算ステップ１１０５では、一致レコード数計算部１１３が、共変量取得ステップＳ１１０２で取得した共変量４００のうち、共変量名が共変量追加ステップＳ１１０３で作成した共変量名の集合６００の各要素と一致する共変量を用いて、一致レコード数７１０（図７）を計算する。これを、共変量追加ステップＳ１１０３で作成した全ての集合に対して行う。共変量追加ステップＳ１１０４で作成された共変量名の集合と、それぞれに対応する一致レコード数７１０は一致レコード数記憶部１２４に格納される。一致レコード数の詳細な計算方法は、図１２、図１３、及び図１４を用いて後述する。

【0055】

次に、一致レコード数比較ステップＳ１１０６では、一致レコード数比較部１１４が、一致レコード数計算ステップＳ１１０５で計算された一致レコード数７１０の逆数の大小比較を行い、一致レコード数７１０の逆数が最大となる共変量名の集合、及び一致レコード数７１０の逆数の最大値を取得する。

【0056】

次に、最大値比較ステップＳ１１０７では、共変量選定部１１５が、ｍａｘと一致レコード数比較ステップＳ１１０６で取得した一致レコード数７１０の最大値を大小比較し、ｍａｘの方が小さい場合は共変量選定ステップＳ１１０８へ、それ以外の場合は共変量選定結果取得ステップＳ１１０９に移行する。

【0057】

共変量選定ステップＳ１１０８では、共変量選定部１１５が、ｍａｘに一致レコード数比較ステップＳ１１０６で取得した一致レコード数７１０の逆数の最大値を代入する。また、ｌｉｓｔに一致レコード数比較ステップＳ１１０６で取得した一致レコード数７１０の逆数が最大となる共変量名の集合を代入する。その後、共変量追加ステップＳ１１０４に移行する。

【0058】

共変量選定結果取得ステップＳ１１０９では、共変量選定部１１５が、共変量取得ステップＳ１１０２で取得した共変量４００のうち、共変量名がｌｉｓｔに含まれる共変量名と一致する共変量を取得し、取得した共変量名を出力部１０３に表示する。ｌｉｓｔに含まれる共変量名は共変量選定結果記憶部１２５に格納される。

【0059】

次に、データ融合実施ステップＳ１１１０では、データ融合実施部１１６が、共変量選定結果取得ステップＳ１１０９で取得した共変量を用い、データＡとデータＢの共変量間の距離が最も小さいレコード同士をマッチングすることでデータ融合を実施し、データ融合後のデータ９００（図９）を作成する。データ融合後のデータ９００はデータ融合結果記憶部１２６に格納される。

【0060】

最後に、融合後データ分析ステップＳ１１１１では、融合後データ分析部１１７が、データ融合実施ステップＳ１１１０で作成したデータ融合後のデータ９００のデータＡにのみ含まれる変数９０２、及びデータＢにのみ含まれる変数９０３に対してクロス集計や相関係数の算出などデータ分析処理を施す。分析結果は出力部１０３に表示される。また、分析結果は融合後データ分析結果記憶部１２７に格納される。ユーザは分析結果に基づき、推測や意思決定を行う。
以上により、データ融合処理を終了する。

【0061】

次に、図１２のフローチャートを用いて、一致レコード数の算出処理を説明する。一致レコード数はデータＡのレコードの値と一致するデータＢのレコード数を求め、その平均を算出することを特徴とする。

【0062】

図１２の処理を開始すると、まず、一致レコード数計算部１１３が、データ取得ステップＳ１２０１を実行する。データ取得ステップＳ１２０１では、共変量取得ステップＳ１１０２で取得した共変量４００のうち、共変量名が共変量追加ステップＳ１１０３で作成した共変量名の集合６００の各要素と一致する共変量Ｋ個を取得する。

【0063】

次に、初期化ステップＳ１２０２では、一致レコード数計算部１１３が、データＡのレコードの値と一致するデータＢのレコード数を格納する変数ｃｏｕｎｔを０に初期化する。また、データＡのレコード番号を識別する変数ｉとデータＢのレコード番号を識別する変数ｊをそれぞれ１に初期化する。

【0064】

次に、レコード値一致判定ステップＳ１２０３では、一致レコード数計算部１１３が、データＡのレコードｉのＫ個の共変量の値とデータＢのレコードｊのＫ個の共変量の値が一致しているかどうか判定する。一致している場合、変数ｃｏｕｎｔインクリメントステップＳ１２０４に移行し、一致していない場合、変数ｊインクリメントステップＳ１２０５に移行する。

【0065】

変数ｃｏｕｎｔインクリメントステップＳ１２０４では、一致レコード数計算部１１３が、変数ｃｏｕｎｔの値を１増やす処理を行う。

【0066】

変数ｊインクリメントステップＳ１２０５では、一致レコード数計算部１１３が、変数ｊの値を１増やす処理を行う。

【0067】

次に、変数ｊ上限判定ステップＳ１２０６では、一致レコード数計算部１１３が、データＢの全レコード数Ｎ_Ｂと変数ｊの大小を比較する。データＢの全レコード数Ｎ_Ｂより変数ｊが大きい場合、変数ｉインクリメント及び変数ｊ初期化ステップＳ１２０７に移行し、それ以外の場合、レコード値一致判定ステップＳ１２０３に移行する。

【0068】

変数ｉインクリメント及び変数ｊ初期化ステップＳ１２０７では、一致レコード数計算部１１３が、変数ｉの値を１増やす処理と変数ｊを１に初期化する処理を行う。

【0069】

次に、変数ｉ上限判定ステップＳ１２０８では、一致レコード数計算部１１３が、データＡの全レコード数Ｎ_Ａと変数ｉの大小を比較する。データＡの全レコード数Ｎ_Ａより変数ｉが大きい場合、一致レコード数算出ステップＳ１２０９に移行し、それ以外の場合、レコード値一致判定ステップＳ１２０３に移行する。

【0070】

一致レコード数算出ステップＳ１２０９では、一致レコード数計算部１１３が、変数ｃｏｕｎｔの値をデータＡの全レコード数Ｎ_Ａで割ることでデータＡのデータＢに対する平均の一致するレコード数を算出する。この値を一致レコード数と称する。
以上により、一致レコード数算出処理を終了する。

【0071】

次に、図１３と図１４を用いて、一致レコード数の算出例を説明する。図１３は共変量数Ｋ＝１の場合の一致レコード数算出例１３００、図１４は共変量数Ｋ＝２の場合の一致レコード数算出例１４００を示す。
まず、共変量数Ｋ＝１の場合の一致レコード数算出例１３００（図１３）を用いて、一致レコード数の算出例を説明する。

【0072】

図１３に示すように、共変量数Ｋ＝１の場合の一致レコード数算出例１３００には、共変量を１つ含む、全レコード数が６のデータＡとデータＢが示されている。一致レコード数を算出するにあたり、まず、データＡのレコード１の値１０と一致するデータＢのレコード数を算出する。図より、一致するデータＢのレコードは３個と確認できる。次に、データＡのレコード２の値２０と一致するデータＢのレコード数を計算する。図より、一致するレコードＢのレコードは１個と確認できる。この処理をデータＡのレコード６まで同様に行う。データＡのレコード１から６まで一致するデータＢのレコード数の算出が終えた後、それらの平均を計算する。すなわち、以下の式（１）を計算する。

【0073】

【数1】

【0074】

この値が一致レコード数である。

【0075】

次に、共変量数Ｋ＝２の場合の一致レコード数算出例１４００（図１４）を用いて、一致レコード数の算出例を説明する。
図１４に示すように、共変量Ｋ＝２の場合の一致レコード数算出例１４００には、共変量を２つ含む、全レコード数が６のデータＡとデータＢが示されている。一致レコード数を算出するにあたり、まず、データＡのレコード１の共変量１の値１０及び共変量２の値１と一致するデータＢのレコード数を算出する。図１４より、一致するデータＢのレコードは２個と確認できる。次に、データＡのレコード２の共変量１の値２０及び共変量２の値０と一致するデータＢのレコード数を計算する。図１４より、一致するレコードＢのレコードは１個と確認できる。この処理をデータＡのレコード６まで同様に行う。データＡのレコード１から６まで一致するデータＢのレコード数の算出が終えた後、それらの平均を計算する。すなわち、式（１）を計算する。この値が一致レコード数である。
なお、データＡのレコードの値と一致するデータＢのレコード数の中央値や最頻値などの代表値を一致レコード数としてもよい。

【0076】

また、連続値を含んだ共変量を用いて一致レコード数を計算する場合、レコードの一致判定閾値εを設定し、距離がε未満のレコード同士を一致と判定してもよい。

【0077】

また、本実施例では、データ融合手法として共変量間の距離が最も小さいレコード同士を紐づけるマッチング手法を用いたが、融合するデータの値を回帰モデルによって推定する回帰手法など他のデータ融合手法を用いてもよい。

【0078】

以上に説明したように、実施例のデータ融合システムでは、連結に利用する共変量の選定アルゴリズムにより最適化された共変量を用いてデータを融合することができる。このため、従来の全共変量を利用するデータ融合手法に比べ高精度かつ低計算コストなデータ融合が可能になる。

【0079】

本実施例に係るのデータ融合システムであって、一致レコード数計算部１１３は、共変量取得部１１１で取得した共変量のうち、共変量名が共変量追加部１１２で作成した共変量名の集合の各要素と一致する共変量を用いて、「一致レコード数」を計算する(図１２、図１３、図１４)。このため、「一致レコード数」により、共変量の組合せ毎に似た特徴を持つ人の識別程度を測定でき、データ融合に利用する最適な共変量を選定できる。

【0080】

また、一致レコード数比較部１１４は、レコード数計算部１１３で算出された一致レコード数の比較を行い、一致レコード数の逆数が最大となる共変量名の集合、及び一致レコード数の逆数の最大値を取得する。そして、共変量選定部１１５は、一致レコード数比較部１１４で取得した一致レコード数の逆数の最大値を前回値と比較することで、一致レコード数の逆数が最大となる共変量を選定する。これにより、データ融合に利用する最適な共変量の組合せを選定できる。

【0081】

なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。

【0082】

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置、又は、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に格納することができる。

【0083】

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

【符号の説明】

【0084】

１００…データ融合システム
１０１…データ融合端末
１０２…入力部
１０３…出力部
１０４…ＣＰＵ
１０５…メモリ
１０６…記憶媒体
１１１…共変量取得部
１１２…共変量追加部
１１３…一致レコード数計算部
１１４…一致レコード数比較部
１１５…共変量選定部
１１６…データ融合実施部
１１７…融合後データ分析部
１２０…データベース
１２１…データＡ記録部
１２２…データＢ記憶部
１２３…共変量記憶部
１２４…一致レコード数記憶部
１２５…共変量選定結果記憶部
１２６…データ融合結果記憶部
１２７…融合後データ分析結果記憶部
２００…データＡ
３００…データＢ
４０１…データＡの共変量
４０２…データＢの共変量
５００…共変量設定画面
５１０…共変量取得方法設定欄
５２０…共変量候補表示欄
５２１…共変量候補選択解除ボタン
５２２…共変量候補追加ボタン
５３０…共変量表示欄
８００…共変量選定画面
８１０…共変量選定結果表示欄
８１１…共変量選択解除ボタン
８１２…共変量追加ボタン
８２０…一致レコード数計算結果表示欄
８３０…選定済み共変量表示欄
１０００…データ融合結果表示・分析画面
１０１０…データ融合結果表示欄
１０２０…融合後データ分析設定・結果表示欄
１０２１…分析対象変数選択欄
１０２２…分析対象変数選択欄
１０２３…分析方法選択欄

【図1】