(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024009227
(43)【公開日】2024-01-19
(54)【発明の名称】データベース生成装置及びデータベース生成方法並びにデータベース生成用プログラム
(51)【国際特許分類】
G06F 16/21 20190101AFI20240112BHJP
【FI】
G06F16/21
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2023198850
(22)【出願日】2023-11-24
(62)【分割の表示】P 2021139603の分割
【原出願日】2021-08-30
(71)【出願人】
【識別番号】514246299
【氏名又は名称】株式会社FIND
(74)【代理人】
【識別番号】110000958
【氏名又は名称】弁理士法人インテクト国際特許事務所
(74)【代理人】
【識別番号】100120189
【弁理士】
【氏名又は名称】奥 和幸
(74)【代理人】
【識別番号】100173510
【弁理士】
【氏名又は名称】美川 公司
(72)【発明者】
【氏名】山形 知大
(72)【発明者】
【氏名】富野 永和
(72)【発明者】
【氏名】河合 隆史
(72)【発明者】
【氏名】伴地 芳啓
(57)【要約】
【課題】複数のデータベースを統合する場合においても、サンプル数が多く且つデータベースとしての項目が多岐に渡る統合データベースを生成するデータベース生成装置を提供する。
【解決手段】本体データベース100に対してドナーデータベース101を統合して統合データベース102を生成する場合に、ドナーデータベース101の第1精度を評価し、統合データベース102の統合に実際に用いられる有効指標のデータをドナーデータベース101から抽出して厳選ドナーデータベース103を生成し、厳選ドナーデータベースの第2精度を評価し、第2精度が第1精度以上であるとき、厳選ドナーデータベース103におけるサンプル数を増やしてサンプル生成厳正ドナーデータベース104を生成し、サンプル生成厳選ドナーデータベース104を本体データベース100に統合して統合データベース102を生成する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
被統合データベースに対して統合用データベースを統合して商品の購入に関する統合データベースを生成するデータベース生成装置において、
前記被統合データベースと前記統合用データベースとは、データベースとしてのサンプル数及び項目が異なっており、
前記統合用データベースの精度である第1精度を、混合行列を用いた交差検証法による正解率に基づいた評価方法を用いて評価する第1評価手段と、
前記統合データベースの生成に実際に用いられる有効項目のデータを前記統合用データベースから抽出して抽出統合用データベースを生成する抽出手段と、
前記生成された抽出統合用データベースの精度である第2精度を前記評価方法を用いて評価する第2評価手段と、
前記第2精度が前記第1精度以上であるとき、前記抽出統合用データベースにおけるサンプル数を増やして前記被統合データベースのサンプル数と整合させるようにデータを生成してサンプル数増大データベースを生成する生成手段と、
前記生成されたサンプル数増大データベースを前記被統合データベースに統合して前記統合データベースを生成する統合手段と、
を備えることを特徴とするデータベース生成装置。
【請求項2】
請求項1に記載のデータベース生成装置において、
前記第2精度が前記第1精度未満であるとき、前記抽出手段は、前記有効項目のデータを前記統合用データベースから再度抽出して前記抽出統合用データベースを再生成し、
前記第2評価手段は、前記再生成された抽出統合用データベースの前記第2精度を前記評価方法を用いて再評価することを特徴とするデータベース生成装置。
【請求項3】
請求項1又は請求項2に記載のデータベース生成装置において、
前記被統合データベースの精度である第3精度を前記評価方法を用いて評価する第3評価手段と、
前記生成された統合データベースの精度である第4精度を前記評価方法を用いて評価する第4評価手段と、
を更に備え、
前記第4精度が前記第3精度未満であるとき、前記抽出手段は、前記有効項目のデータを前記統合用データベースから再度抽出して前記抽出統合用データベースを再生成し、
前記第2評価手段は、前記再生成された抽出統合用データベースの前記第2精度を再評価することを特徴とするデータベース生成装置。
【請求項4】
請求項1から請求項3のいずれか一項に記載のデータベース生成装置により生成された前記統合データベースに対して、前記サンプル数又は前記項目の少なくともいずれか一方が異なる他のデータベースを更に統合するデータベース生成装置であって、
前記生成された統合データベースの精度である第5精度を前記評価方法を用いて評価する第5評価手段と、
複数のデータベースを接続して統合するために用いられる汎用の接続用データベースを前記統合データベースに統合して第2統合データベースを生成する第2統合手段と、
前記生成された第2統合データベースの精度である第6精度を前記評価方法を用いて評価する第6評価手段と、
前記第6精度が前記第5精度以上であるとき、前記有効項目のデータを前記第2統合データベースから抽出して抽出第2統合データベースを生成する第2抽出手段と、
前記生成された抽出第2統合データベースの精度である第7精度を前記評価方法を用いて評価する第7評価手段と、
前記第7精度が前記第6精度以上であるとき、前記抽出第2統合データベースにおけるサンプル数を増やして前記統合データベースのサンプル数と整合させるようにデータを生成するデータ生成手段と、
前記生成されたデータを含む前記抽出第2統合データベースのデータを、現実の市場の統計情報を含む市場統計データベースのデータに近似させ、サンプル数増大抽出第2統合データベースを生成する第2生成手段と、
を備えることを特徴とするデータベース生成装置。
【請求項5】
請求項4に記載のデータベース生成装置において、
前記第6精度が前記第5精度未満であるとき、又は前記第7精度が前記第6精度未満であるとき、前記統合データベースとの統合に実際に用いられる有効項目のデータを前記接続用データベースから抽出して当該統合に供させる第3抽出手段を更に備えることを特徴とするデータベース生成装置。
【請求項6】
請求項4又は請求項5に記載のデータベース生成装置において、
前記生成されたサンプル数増大抽出第2統合データベースの精度である第8精度を前記評価方法を用いて評価する第8評価手段を更に備え、
前記第8精度が前記第7精度未満であるとき、前記データ生成手段は、前記抽出第2統合データベースにおけるサンプル数を増やすための前記データを再生成することを特徴とするデータベース生成装置。
【請求項7】
請求項1から請求項6のいずれか一項に記載のデータベース生成装置において、
前記有効項目のデータの抽出は、主成分分析法、変数重要度法又はSHAP(SHapley Additive exPlanations)ライブラリを用いた方法の少なくともいずれか一つを用いて実行されることを特徴とするデータベース生成装置。
【請求項8】
請求項1から請求項3のいずれか一項に記載のデータベース生成装置において、
前記生成された統合データベースに含まれるデータと前記統合用データベースに含まれるデータとの合致度を評価する合致度評価手段と、
前記評価された合致度を示す合致度情報を報知する報知手段と、
を更に備えることを特徴とするデータベース生成装置。
【請求項9】
請求項4から請求項6のいずれか一項に記載のデータベース生成装置において、
前記生成されたサンプル数増大抽出第2統合データベースに含まれるデータと前記接続用データベースに含まれるデータとの合致度を評価する合致度評価手段と、
前記評価された合致度を示す合致度情報を報知する報知手段と、
を更に備えることを特徴とするデータベース生成装置。
【請求項10】
請求項8又は請求項9に記載のデータベース生成装置において、
前記合致度評価手段は、平均/分散法、ヒストグラム法、集計データの統計的分布活用法、S(Signal)/N(Noise)法又はCronbachのα係数を用いた評価方法の少なくともいずれか一つを用いて前記合致度の評価を行うことを特徴とするデータベース生成装置。
【請求項11】
第1評価手段と、抽出手段と、第2評価手段と、生成手段と、統合手段と、を備え、被統合データベースに対して統合用データベースを統合して商品の購入に関する統合データベースを生成するデータベース生成装置において実行されるデータベース生成方法であって、
前記被統合データベースと前記統合用データベースとは、データベースとしてのサンプル数及び項目が異なっており、
前記統合用データベースの精度である第1精度を、混合行列を用いた交差検証法による正解率に基づいた評価方法を用いて前記第1評価手段により評価する第1評価工程と、
前記抽出手段により、前記統合データベースの生成に実際に用いられる有効項目のデータを前記統合用データベースから抽出して抽出統合用データベースを生成する抽出工程と、
前記生成された抽出統合用データベースの精度である第2精度を前記評価方法を用いて前記第2評価手段により評価する第2評価工程と、
前記第2精度が前記第1精度以上であるとき、前記生成手段により、前記抽出統合用データベースにおけるサンプル数を増やして前記被統合データベースのサンプル数と整合させるようにデータを生成してサンプル数増大データベースを生成する生成工程と、
前記統合手段により、前記生成されたサンプル数増大データベースを前記被統合データベースに統合して前記統合データベースを生成する統合工程と、
を含むことを特徴とするデータベース生成方法。
【請求項12】
被統合データベースに対して統合用データベースを統合して商品の購入に関する統合データベースを生成するデータベース生成装置であって、前記被統合データベースと前記統合用データベースとは、データベースとしてのサンプル数及び項目が異なっているデータベース生成装置に含まれるコンピュータを、
前記統合用データベースの精度である第1精度を、混合行列を用いた交差検証法による正解率に基づいた評価方法を用いて評価する第1評価手段、
前記統合データベースの生成に実際に用いられる有効項目のデータを前記統合用データベースから抽出して抽出統合用データベースを生成する抽出手段、
前記生成された抽出統合用データベースの精度である第2精度を前記評価方法を用いて評価する第2評価手段、
前記第2精度が前記第1精度以上であるとき、前記抽出統合用データベースにおけるサンプル数を増やして前記被統合データベースのサンプル数と整合させるようにデータを生成してサンプル数増大データベースを生成する生成手段、及び、
前記生成されたサンプル数増大データベースを前記被統合データベースに統合して前記統合データベースを生成する統合手段、
として機能させることを特徴とするデータベース生成用プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データベース生成装置及びデータベース生成方法並びにデータベース生成用プログラムの技術分野に属する。より詳細には、複数の異なるデータベースを統合して統合データベースを生成するデータベース生成装置及びデータベース生成方法、並びに当該データベース生成装置用のプログラムの技術分野に属する。
【背景技術】
【0002】
一般に、様々な会社は、それぞれの顧客や一般の消費者に関する情報をデータとしてそれぞれに含む顧客データベースや消費者データベースを一又は複数管理している。これらの顧客データベースや消費者データベースは、それらの目的等に合わせて、それらに蓄積されているサンプルの数やデータベースとしての項目(指標)も多岐に渡っている。
【0003】
また、自社で管理している顧客データベースや消費者データベースに対して、その属性や項目が異なる外部のデータベースを統合し、よりサンプル数等が多い顧客データベースを新たに生成することが必要となる場合がある。このようなデータベースの統合に関する従来技術を開示した先行技術文献としては、例えば下記特許文献1が挙げられる。
【0004】
この特許文献1に開示されている従来技術では、「より高速に結合処理を実行することができるデータベース統合装置などを提供する」ことを課題として、「データベース統合装置の受付部はクライアントから複数の結合対象のデータを結合する要求を受け付け、データベース統合装置の決定部は、当該要求により指定された結合対象のデータをそれぞれ格納したデータベースを備えるデータベースシステムの組み合わせのそれぞれが、組み合わせ相手のデータベースシステムから結合対象のデータを読み込んで結合処理を行うことができるか否か、及び組み合わせ相手のデータベースシステムに結合対象のデータを読み込ませることができるか否かを表す結合可否情報に基づいて、結合処理を実行するデータベースシステムを決定し、データベース統合装置の生成部は結合処理を実行させる実行計画を生成し、データベース統合装置の実行部は実行計画に基づいて上記要求をデータベースシステムに送信する」構成とされている。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら一般に、複数の顧客データベースや消費者データベースを統合する際に、一の顧客データベースや一の消費者データベースにそのデータが含まれている顧客IDや消費者IDと他の顧客データベースや他の消費者データベースにそのデータが含まれている顧客IDや消費者IDとが一致しない場合がある。このような顧客データベースや消費者データベースを統合しようとする場合、従来では、複数の顧客データベースと消費者データベースに共通の顧客IDや消費者IDについてのデータを統合するしか方法がなかった。このため、当該統合の結果として得られた統合データベース(当該共通の顧客ID又は消費者IDについてのデータのみを含む統合データベース)では、そのサンプル数も少なく、データベースとしての項目や指標も限定的なものになってしまい、結果として、統合データベースとしての用に供し得ないものしか生成されないという問題点があった。この問題点は、多くの顧客データベース・消費者データベースを統合しようとすればするほど各顧客データベース・消費者データベースに共通の顧客や消費者が少なくなり、統合データベースとして役に立たないものとなってしまうという問題点に繋がる。
【0007】
そこで本発明は、上記の各問題点に鑑みて為されたもので、その課題の一例は、複数のデータベースを統合する場合においても、サンプル数が多く且つデータベースとしての項目(指標)が多岐に渡る統合データベースを自動的に生成することが可能なデータベース生成装置及びデータベース生成方法、並びに当該データベース生成装置用のプログラムを提供することにある。
【課題を解決するための手段】
【0008】
上記の課題を解決するために、請求項1に記載の発明は、被統合データベースに対して統合用データベースを統合して商品の購入に関する統合データベースを生成するデータベース生成装置において、前記被統合データベースと前記統合用データベースとは、データベースとしてのサンプル数及び項目が異なっており、前記統合用データベースの精度である第1精度を、混合行列を用いた交差検証法による正解率に基づいた評価方法を用いて評価する評価部等の第1評価手段と、前記統合データベースの生成に実際に用いられる有効項目のデータを前記統合用データベースから抽出して抽出統合用データベースを生成する抽出部等の抽出手段と、前記生成された抽出統合用データベースの精度である第2精度を前記評価方法を用いて評価する評価部等の第2評価手段と、前記第2精度が前記第1精度以上であるとき、前記抽出統合用データベースにおけるサンプル数を増やして前記被統合データベースのサンプル数と整合させるようにデータを生成してサンプル数増大データベースを生成する生成部等の生成手段と、前記生成されたサンプル数増大データベースを前記被統合データベースに統合して前記統合データベースを生成する統合部等の統合手段と、を備える。
【0009】
上記の課題を解決するために、請求項11に記載の発明は、評価部等の第1評価手段と、抽出部等の抽出手段と、評価部等の第2評価手段と、生成部等の生成手段と、統合部等の統合手段と、を備え、被統合データベースに対して統合用データベースを統合して商品の購入に関する統合データベースを生成するデータベース生成装置において実行されるデータベース生成方法であって、前記被統合データベースと前記統合用データベースとは、データベースとしてのサンプル数及び項目が異なっており、前記統合用データベースの精度である第1精度を、混合行列を用いた交差検証法による正解率に基づいた評価方法を用いて前記第1評価手段により評価する第1評価工程と、前記抽出手段により、前記統合データベースの生成に実際に用いられる有効項目のデータを前記統合用データベースから抽出して抽出統合用データベースを生成する抽出工程と、前記生成された抽出統合用データベースの精度である第2精度を前記評価方法を用いて前記第2評価手段により評価する第2評価工程と、前記第2精度が前記第1精度以上であるとき、前記生成手段により、前記抽出統合用データベースにおけるサンプル数を増やして前記被統合データベースのサンプル数と整合させるようにデータを生成してサンプル数増大データベースを生成する生成工程と、前記統合手段により、前記生成されたサンプル数増大データベースを前記被統合データベースに統合して前記統合データベースを生成する統合工程と、を含む。
【0010】
上記の課題を解決するために、請求項12に記載の発明は、被統合データベースに対して統合用データベースを統合して商品の購入に関する統合データベースを生成するデータベース生成装置であって、前記被統合データベースと前記統合用データベースとは、データベースとしてのサンプル数及び項目が異なっているデータベース生成装置に含まれるコンピュータを、前記統合用データベースの精度である第1精度を、混合行列を用いた交差検証法による正解率に基づいた評価方法を用いて評価する第1評価手段、前記統合データベースの生成に実際に用いられる有効項目のデータを前記統合用データベースから抽出して抽出統合用データベースを生成する抽出手段、前記生成された抽出統合用データベースの精度である第2精度を前記評価方法を用いて評価する第2評価手段、前記第2精度が前記第1精度以上であるとき、前記抽出統合用データベースにおけるサンプル数を増やして前記被統合データベースのサンプル数と整合させるようにデータを生成してサンプル数増大データベースを生成する生成手段、及び、前記生成されたサンプル数増大データベースを前記被統合データベースに統合して前記統合データベースを生成する統合手段、として機能させる。
【0011】
請求項1、請求項11又は請求項12のいずれか一項に記載の発明によれば、統合用データベースの精度を、混合行列を用いた交差検証法による正解率に基づいた評価方法を用いて第1精度として評価し、統合用データベースから抽出した有効項目のデータを含む抽出統合用データベースの精度を第2精度として当該評価方法を用いて評価する。そして、第2精度が第1精度以上であるとき、抽出統合用データベースにおけるサンプル数を増やして被統合データベースのサンプル数と整合させたサンプル数増大データベースを生成し、そのサンプル数増大データベースを被統合データベースに統合して商品の購入に関する統合データベースを生成する。よって、第1精度と第2精度を正確に評価し、その評価結果に基づいて生成したサンプル数増大データベースを被統合データベースに統合して商品の購入に関する統合データベースを生成するので、サンプル数が多く且つデータベースとしての項目が多岐に渡る当該統合データベースを自動的に生成することができる。
【0012】
上記の課題を解決するために、請求項2に記載の発明は、請求項1に記載のデータベース生成装置において、前記第2精度が前記第1精度未満であるとき、前記抽出手段は、前記有効項目のデータを前記統合用データベースから再度抽出して前記抽出統合用データベースを再生成し、前記第2評価手段は、前記再生成された抽出統合用データベースの前記第2精度を前記評価方法を用いて再評価するように構成される。
【0013】
請求項2に記載の発明によれば、請求項1に記載の発明の作用に加えて、第2精度が第1精度未満であるとき、有効項目のデータの再抽出及び抽出統合用データベースの再生成を行い、再生成された抽出統合用データベースの精度を当該評価方法を用いて再評価するので、より高精度の統合データベースを自動的に生成することができる。
【0014】
上記の課題を解決するために、請求項3に記載の発明は、請求項1又は請求項2に記載のデータベース生成装置において、前記被統合データベースの精度である第3精度を前記評価方法を用いて評価する評価部等の第3評価手段と、前記生成された統合データベースの精度である第4精度を前記評価方法を用いて評価する評価部等の第4評価手段と、を更に備え、前記第4精度が前記第3精度未満であるとき、前記抽出手段は、前記有効項目のデータを前記統合用データベースから再度抽出して前記抽出統合用データベースを再生成し、前記第2評価手段は、前記再生成された抽出統合用データベースの前記第2精度を再評価するように構成される。
【0015】
請求項3に記載の発明によれば、請求項1又は請求項2に記載の発明の作用に加えて、生成された統合データベースの精度が元の被統合データベースの精度未満であるとき、有効項目のデータの再抽出及び抽出統合用データベースの再生成を行い、再生成された抽出統合用データベースの精度を当該評価方法を用いて再評価するので、更に高精度の統合データベースを自動的に生成することができる。
【0016】
上記の課題を解決するために、請求項4に記載の発明は、請求項1から請求項3のいずれか一項に記載のデータベース生成装置により生成された前記統合データベースに対して、前記サンプル数又は前記項目の少なくともいずれか一方が異なる他のデータベースを更に統合するデータベース生成装置であって、前記生成された統合データベースの精度である第5精度を前記評価方法を用いて評価する第5評価手段と、複数のデータベースを接続して統合するために用いられる汎用の接続用データベースを前記統合データベースに統合して第2統合データベースを生成する第2統合手段と、前記生成された第2統合データベースの精度である第6精度を前記評価方法を用いて評価する第6評価手段と、前記第6精度が前記第5精度以上であるとき、前記有効項目のデータを前記第2統合データベースから抽出して抽出第2統合データベースを生成する第2抽出手段と、前記生成された抽出第2統合データベースの精度である第7精度を前記評価方法を用いて評価する第7評価手段と、前記第7精度が前記第6精度以上であるとき、前記抽出第2統合データベースにおけるサンプル数を増やして前記統合データベースのサンプル数と整合させるようにデータを生成するデータ生成手段と、前記生成されたデータを含む前記抽出第2統合データベースのデータを、現実の市場の統計情報を含む市場統計データベースのデータに近似させ、サンプル数増大抽出第2統合データベースを生成する第2生成手段と、を備える。
【0017】
請求項4に記載の発明によれば、請求項1から請求項3のいずれか一項に記載の発明の作用に加えて、統合データベースの精度を第5精度として当該評価方法を用いて評価し、統合データベースと接続用データベースを統合した第2統合データベースの精度を第6精度として当該評価方法を用いて評価する。そして、第6精度が第5精度以上であるとき抽出第2統合データベースを生成し、その抽出第2統合データベースの精度を第7精度として評価し、第7精度が第6精度以上であるとき、抽出第2統合データベースにおけるサンプル数を増やして統合データベースのサンプル数と整合させた後に市場統計データベースのデータに近似させてサンプル数増大抽出第2統合データベースを生成する。よって、統合データベースに対応したサンプル数及び項目を有し且つ現実市場にも対応した統合データベースをサンプル数増大抽出第2統合データベースとして自動的に生成することができる。
【0018】
上記の課題を解決するために、請求項5に記載の発明は、請求項4に記載のデータベース生成装置において、前記第6精度が前記第5精度未満であるとき、又は前記第7精度が前記第6精度未満であるとき、前記統合データベースとの統合に実際に用いられる有効項目のデータを前記接続用データベースから抽出して当該統合に供させる第3抽出手段を更に備える。
【0019】
請求項5に記載の発明によれば、請求項4に記載の発明の作用に加えて、第6精度が第5精度未満であるとき、又は第7精度が第6精度未満であるとき、統合データベースとの統合に実際に用いられる有効項目のデータを接続用データベースから抽出して当該統合に供させるので、より高精度のサンプル数増大抽出第2統合データベースを自動的に生成することができる。
【0020】
上記の課題を解決するために、請求項6に記載の発明は、請求項4又は請求項5に記載のデータベース生成装置において、前記生成されたサンプル数増大抽出第2統合データベースの精度である第8精度を前記評価方法を用いて評価する第8評価手段を更に備え、前記第8精度が前記第7精度未満であるとき、前記データ生成手段は、前記抽出第2統合データベースにおけるサンプル数を増やすための前記データを再生成するように構成される。
【0021】
請求項6に記載の発明によれば、請求項4又は請求項5に記載の発明の作用に加えて、サンプル数増大抽出第2統合データベースの第8精度が第7精度未満であるとき、抽出第2統合データベースにおけるサンプル数を増やすためのデータが再生成されるので、更に高精度のサンプル数増大抽出第2統合データベースを自動的に生成することができる。
【0022】
請求項7に記載の発明によれば、請求項1から請求項6のいずれか一項に記載の発明の作用に加えて、主成分分析法、変数重要度法又はSHAPライブラリを用いた方法の少なくともいずれか一つを用いて有効項目のデータが抽出されるので、より実用性の高い有効項目のデータを抽出することができる。
【0023】
請求項8に記載の発明によれば、請求項1から請求項7のいずれか一項に記載の発明の作用に加えて、主成分分析法、変数重要度法又はSHAPライブラリを用いた方法の少なくともいずれか一つを用いて有効項目のデータが抽出されるので、より実用性の高い有効項目のデータを抽出することができる。
【0024】
上記の課題を解決するために、請求項8に記載の発明は、請求項1から請求項3のいずれか一項に記載のデータベース生成装置において、前記生成された統合データベースに含まれるデータと前記統合用データベースに含まれるデータとの合致度を評価する処理部等の合致度評価手段と、前記評価された合致度を示す合致度情報を報知するディスプレイ等の報知手段と、を更に備える。
【0025】
請求項8に記載の発明によれば、請求項1から請求項3のいずれか一項に記載の発明の作用に加えて、生成された統合データベースに含まれるデータと統合用データベースに含まれるデータとの合致度を評価し、その評価された合致度を示す合致度情報を報知するので、最終的に生成された統合データベースの、元の統合用データベースに対する合致度を容易に認識することができる。
【0026】
上記の課題を解決するために、請求項9に記載の発明は、請求項4から請求項6のいずれか一項に記載のデータベース生成装置において、前記生成されたサンプル数増大抽出第2統合データベースに含まれるデータと前記接続用データベースに含まれるデータとの合致度を評価する合致度評価手段と、前記評価された合致度を示す合致度情報を報知する報知手段と、を更に備える。
【0027】
請求項9に記載の発明によれば、請求項4から請求項6のいずれか一項に記載の発明の作用に加えて、生成されたサンプル数増大抽出第2統合データベースに含まれるデータと接続用データベースに含まれるデータとの合致度を評価し、その評価された合致度を示す合致度情報を報知するので、最終的に生成されたサンプル数増大抽出第2統合データベースの、元の接続用データベースに対する合致度を容易に認識することができる。
【0028】
上記の課題を解決するために、請求項10に記載の発明は、請求項8又は請求項9に記載のデータベース生成装置において、前記合致度評価手段は、平均/分散法、ヒストグラム法、集計データの統計的分布活用法、S(Signal)/N(Noise)法又はCronbachのα係数を用いた評価方法の少なくともいずれか一つを用いて前記合致度の評価を行うように構成される。
【0029】
請求項10に記載の発明によれば、請求項8又は請求項9に記載の発明の作用に加えて、平均/分散法、ヒストグラム法、集計データの統計的分布活用法、S/N法又はCronbachのα係数を用いた評価方法の少なくともいずれか一つを用いて合致度の評価を行うので、より正確に当該合致度を認識することができる。
【発明の効果】
【0030】
以上説明したように、本発明によれば、統合用データベースの精度を、混合行列を用いた交差検証法による正解率に基づいた評価方法を用いて第1精度として評価し、統合用データベースから抽出した有効項目のデータを含む抽出統合用データベースの精度を第2精度として当該評価方法を用いて評価する。そして、第2精度が第1精度以上であるとき、抽出統合用データベースにおけるサンプル数を増やして被統合データベースのサンプル数と整合させたサンプル数増大データベースを生成し、そのサンプル数増大データベースを被統合データベースに統合して商品の購入に関する統合データベースを生成する。
【0031】
従って、第1精度と第2精度を正確に評価し、その評価結果に基づいて生成したサンプル数増大データベースを被統合データベースに統合して商品の購入に関する統合データベースを生成するので、サンプル数が多く且つデータベースとしての項目が多岐に渡る当該統合データベースを自動的に生成することができる。
【図面の簡単な説明】
【0032】
【
図1】第1実施形態のデータベース生成装置の概要構成を示すブロック図である。
【
図2】第1実施形態のデータベース生成装置を構成する抽出部の概要構成を示すブロック図である。
【
図3】第1実施形態のデータベース生成処理を示すフローチャートである。
【
図4】第1実施形態のデータベース生成処理を実行する前のデータベースの内容を例示する図である。
【
図5】第1実施形態のデータベース生成処理を実行した後のデータベースの内容を例示する図である。
【
図6】第2実施形態のデータベース生成処理を示すフローチャートである。
【発明を実施するための形態】
【0033】
次に、本発明を実施するための形態について、図面に基づいて説明する。なお、以下に説明する各実施形態は、複数の異なるデータベースのデータを統合して新たな統合データベースを生成するデータベース生成装置に対して本発明を適用した場合の実施の形態である。
【0034】
(I)
第1実施形態
初めに、本発明の第1実施形態について、
図1乃至
図5を用いて説明する。なお、
図1は第1実施形態のデータベース生成装置の概要構成を示すブロック図であり、
図2は当該データベース生成装置を構成する抽出部の概要構成を示すブロック図であり、
図3は第1実施形態のデータベース生成処理を示すフローチャートである。また、
図4は当該データベース生成処理を実行する前のデータベースの内容を例示する図であり、
図5は当該データベース生成処理を実行した後のデータベースの内容を例示する図である。なお
図1及び
図3においては、「データベース」を適宜「DB」と表している。
【0035】
図1に示すように、第1実施形態のデータベース生成装置Sは、具体的には例えばパーソナルコンピュータ等により実現されるものであり、CPU等からなる処理部1と、HDD(Hard Disk Drive)又はSSD(Solid State Drive)等からなる記録部2と、キーボード及びマウス等からなる操作部3と、液晶ディスプレイ等からなるディスプレイ4と、により構成されている。
【0036】
また処理部1は、評価部10と、抽出部11と、生成部12と、統合部13と、により構成されている。更に抽出部11は、
図2に示すように、主成分分析抽出部110と、変数重要度抽出部111と、SHAP抽出部112と、により構成されている。
【0037】
このとき、評価部10、抽出部11、生成部12及び統合部13は、処理部1を構成するCPU等を含むハードウェアロジック回路により実現されてもよいし、後述する第1実施形態のデータベース生成処理に相当するプログラムを上記CPU等が読み込んで実行することにより、ソフトウェア的に実現されてもよい。また、主成分分析抽出部110、変数重要度抽出部111及びSHAP抽出部112も同様に、抽出部11を構成するCPU等を含むハードウェアロジック回路により実現されてもよいし、上記データベース生成処理に相当するプログラムを上記CPU等が読み込んで実行することにより、ソフトウェア的に実現されてもよい。なお上記の各プログラムは、記録部2に予め記録されているものを上記CPU等が読み込んでもよいし、図示しない外部のサーバ装置に記録されている当該プログラムをインターネット等のネットワークを介して上記CPU等が取得して用いるように構成してもよい。
【0038】
このとき、評価部10が本発明の「第1評価手段」の一例、「第2評価手段」の一例、「第3評価手段」の一例、「第4評価手段」の一例、「第5評価手段」の一例、「第6評価手段」の一例、「第7評価手段」の一例及び「第8評価手段」の一例にそれぞれ相当し、抽出部11が本発明の「抽出手段」の一例及び「第2抽出手段」の一例にそれぞれ相当する。また、生成部12が本発明の「生成手段」の一例、「データ生成手段」の一例及び「第2生成手段」の一例にそれぞれ相当し、統合部13が本発明の「統合手段」の一例及び「第2統合手段」の一例にそれぞれ相当する。更に、処理部1が本発明の「合致度評価手段」の一例に相当し、ディスプレイ4が本発明の「報知手段」の一例に相当する。
【0039】
以上の構成において、データベース生成装置Sは、
図1に示す本体データベース100のデータとドナーデータベース101のデータとを統合して統合データベース102を生成するデータベース生成装置である。このとき、統合される本体データベース100及びドナーデータベース101それぞれのデータは、記録部2に予め記録されているものであってもよいし、第1実施形態のデータベース生成処理が実行される度に図示しない外部のサーバ装置等からインターネット等のネットワークを介して取得されるものであってもよい。
【0040】
ここで、第1実施形態の本体データベース100は、例えば、その商品が属する商品ブランドに関する販売業務や開発業務等で企業が日常的に使用している顧客のデータベースや一般の消費者のデータベースであり、その企業や担当部署に属するデータベースである。このような本体データベース100は、基本的にサンプル数が多く(例えば数万サンプル以上)、且つその商品ブランドに関連する項目(指標)を多く含むデータベースであり、その商品の現実の顧客に関するデータも含まれている。これに対し、本体データベース100としては、その商品ブランドに直接的には関連しない項目(指標)については、そのデータ(サンプル数)は、多くは含まれていない。
【0041】
上記のような本体データベース100に対し、第1実施形態のドナーデータベース101は、上記企業には属さない、例えば外部の調査会社や自社の上記担当部署以外の部署等が作成したデータベースである。このようなドナーデータベース101は、本体データベース100のような特定の商品又は商品ブランドに関する項目(指標)は少ないし、またサンプル数もそれほど多くはない場合が多い(例えば0乃至1,000サンプル程度)。しかしながらドナーデータベース101は、上記商品ブランドに直接的には関連しない項目(指標)、例えば、購買者一般(上記商品以外の商品の購買者を含めた購買者一般)についてのライフスタイルに関する項目(指標)や、一般的な価値観に関する項目(指標)を多く含むデータベースである。
【0042】
そして、データベース生成装置Sでは、上記のような属性を有する本体データベース100のデータに対して上記ドナーデータベース101のデータを統合し、項目(指標)を多岐に渡らせることで、上記企業に対して有効となる統合データベース102を生成する。
【0043】
より具体的に、先ずデータベース生成装置Sの記録部2は、第1実施形態のデータベース生成処理において生成される、後述する厳選ドナーデータベース103及びサンプル生成厳選ドナーデータベース104それぞれのデータを一時的に記録すると共に、当該データベース生成処理に必要なその他のデータを記録し、必要に応じて処理部1に出力する。
【0044】
一方、処理部1の評価部10は、上記本体データベース100等の各データベースの精度を、その正解率の観点から、例えばいわゆる混合行列(Confusion Matrix)を用いた従来の交差検証法(Cross Validation Method)を用いた評価方法により評価する。ここで、当該正解率について、例えば購入予測商品のデータが一のサンプルとしてそのデータベースに蓄積されている購買者が、その購入予測商品を実際に購入した場合、そのサンプルを含むそのデータベースとしては、正解率が向上することになる。
【0045】
次に、抽出部11は、ドナーデータベース101の項目(指標)の中から、統合データベース102の生成に当たって有効となる有効指標を抽出する。
【0046】
ここで、第1実施形態の抽出部11における上記有効指標の抽出方法について、特に
図2を用いて説明する。
【0047】
当該抽出部11による有効指標の抽出は、
図2に示す主成分分析抽出部110、変数重要度抽出部111又はSHAP抽出部112の少なくともいずれか一つにより行われる。このとき主成分分析抽出部110は、従来と同様の主成分分析法により有効指標を抽出する。より具体的に主成分分析抽出部110は、累積寄与率が予め変更可能に設定された累積寄与率閾値(例えば70%)以上となる主成分の項目(指標)であって、且つ主成分負荷量の絶対値が予め変更可能に設定された主成分負荷量閾値(例えば0.01)以上の項目(指標)を有効指標として抽出する。
【0048】
一方変数重要度抽出部111は、従来と同様の変数重要度法により有効指標を抽出する。より具体的に変数重要度抽出部111は、変数重要度が予め変更可能に設定された変数重要度閾値(例えば0.002)以上となる項目(指標)を有効指標として抽出する。またSHAP抽出部112は、従来と同様のSHAP法により有効指標を抽出する。より具体的にSHAP抽出部112は、目的変数に対して予め設定されたSHAP閾値(例えば上位20位)に入る項目(指標)を有効指標として抽出する。このときSHAP抽出部112は、目的変数となる項目(例えば商品ブランド等)が複数存在する場合は、それらを和統合(OR統合)により有効指標に追加する。なお、主成分分析抽出部110、変数重要度抽出部111又はSHAP抽出部112のいずれかの抽出結果を抽出部11の抽出結果として用いるかについては、例えば、本体データベース100の属性や生成すべき統合データベース102の属性等に応じて予め設定されているのが好適である。
【0049】
そして、主成分分析抽出部110、変数重要度抽出部111又はSHAP抽出部112の少なくともいずれか一つから出力された有効指標は、和統合(OR統合)により、抽出部11による抽出結果として出力される。そして、当該抽出結果としての有効指標のデータは、上記厳選ドナーデータベース103として記録部2に一時的に記録される。
【0050】
次に、
図1に戻って、処理部1の生成部12は、厳選ドナーデータベース103のサンプル数を本体データベース100のサンプル数に整合させる(例えば、厳選ドナーデータベース103のサンプル数と本体データベース100のサンプル数とを同数とする)べく、本発明の発明者らにより特許出願中(特願2020-085546号)の技術の他、従来の例えばウエイトバック法やGAN((Generative Adversarial Networks(敵対的生成ネットワーク)技術等のAI技術を用いたサンプルの新規生成方法を用いて、厳選ドナーデータベース103としてのデータ(サンプル)を新たに生成し、これを厳選ドナーデータベース103に追加してサンプル生成厳選ドナーデータベース104を生成し、記録部2に一時的に記録する。
【0051】
これらにより、統合部13は、上記記録されているサンプル生成厳選ドナーデータベース104のデータと元の本体データベース100のデータを従来と同様の方法で統合し、第1実施形態の統合データベース102を生成する。このような統合データベース102においては、ドナーデータベース101の特徴点(長所)が本体データベース100に適用されることで、本体データベース100としての短所が補われることとなる。この結果、本体データベース100が属する上記企業の企業活動等にとって極めて有効な統合データベース(すなわち、サンプル数が多く且つデータベースとしての項目(指標)が多岐に渡る統合データベース)102が自動的に得られることになる。
【0052】
なお、上述してきた各機能を実行するに当たって必要な操作は操作部3において実行され、当該操作に対応する操作信号が処理部1に出力される。これにより処理部1は、当該操作信号に基づき、上述してきた一連の機能を実行する。また、当該機能の実行に当たって必要な情報は、例えばディスプレイ4に表示され、データベース生成装置Sの操作者等に提示される。
【0053】
次に、第1実施形態のデータベース生成装置Sにおいて実行されるデータベース生成処理について、具体的に
図2乃至
図5を用いて説明する。
【0054】
上述した機能を有するデータベース生成装置Sにより実行される第1実施形態のデータベース生成処理は、例えばデータベース生成装置Sの図示しない電源スイッチがオンとされたタイミングから開始される。
【0055】
当該データベース生成処理が開始されると、先ず、本体データベース100のデータ及びドナーデータベース101のデータがそれぞれデータベース生成処理Sにおいて取得される。次に、処理部1の評価部10は、取得した本体データベース100のデータに基づき、上述した評価方法により本体データベース100の精度を評価し、その評価結果を「評価A」として記録部2に一時的に記録する(ステップS1)。
【0056】
次に評価部10は、上記ステップS1と並行して、取得したドナーデータベース101のデータに基づき、上述した評価方法によりドナーデータベース101の精度を評価し、その評価結果を「評価B」として記録部2に一時的に記録する(ステップS2)。次に、処理部1の抽出部11は、上述した抽出方法により、ドナーデータベース101のデータから有効指標に相当するデータを抽出し、その抽出したデータを用いて上記厳選ドナーデータベース103を生成して記録部2に一時的に記録する(ステップS3)。その後評価部10は、生成された厳選ドナーデータベース103のデータに基づき、上述した評価方法により厳選ドナーデータベース103の精度を評価し、その評価結果を「評価C」として記録部2に一時的に記録する(ステップS4)。
【0057】
次に処理部1は、記録部2に記録されている上記評価Cが上記評価B以上であるか否かを判定する(ステップS5)。ステップS5の判定において、評価Cが評価B未満である場合(ステップS5:NO)、ステップS3における有効指標の抽出が不十分であったとして再度ステップS3に戻り、上記抽出部11は有効指標の再抽出を行う。一方、ステップS5の判定において、評価Cが評価B以上である場合(ステップS5:YES)、次に処理部1の生成部12は、上述した生成方法を用いて厳選ドナーデータベース103についてのサンプル生成(データ生成)を行い、サンプル生成厳選ドナーデータベース104を生成して記録部2に一時的に記録する(ステップS6)。
【0058】
そして、処理部1の統合部13は、記録されているサンプル生成厳選ドナーデータベース104のデータと元の本体データベース100のデータとを従来と同様の方法で統合し、統合データベース102を生成して記録部2に一時的に記録する(ステップS7)。このとき、統合データベース102は、図示しない外部のサーバ装置等に蓄積されてもよい。次に評価部10は、記録されている統合データベース102のデータに基づき、上述した評価方法により統合データベース102の精度を評価し、その評価結果を「評価D」として記録部2に一時的に記録する(ステップS8)。
【0059】
次に処理部1は、記録部2に記録されている上記評価Dが上記評価A(上記ステップS1参照)以上であるか否かを判定する(ステップS9)。ステップS9の判定において、評価Dが評価A未満である場合(ステップS9:NO)、現在の統合データベース102の生成過程に含まれていた上記ステップS3における有効指標の抽出が不十分であったとして、再度ステップS3に戻り、抽出部11は有効指標の更なる抽出を行う。一方、ステップS9の判定において、評価Dが評価A以上である場合(ステップS9:YES)、次に処理部1は、その時点での統合データベース102のデータとドナーデータベース101のデータとの合致度を評価する(ステップS10)。
【0060】
ここで、ステップS10として行われる合致度の評価は、企業独自の本体データベース100に対して、一般化されたドナーデータベース101を統合した結果としての統合データベース102のデータが、ドナーデータベース101のデータにどの程度一致しているか、つまり、より汎用性の高いデータベースとなっているか、を評価するものである。このステップS10における評価方法として具体的には、従来と同様の、例えば、平均/分散法、ヒストグラム法、集計データの統計的分布活用法、S/N法又はCronbachのα係数を用いた評価方法の少なくともいずれか一つが用いられる。このとき、例えば平均/分散法を用いて合致度を判定した場合は、平均値と分散範囲が一致するほど、合致度としては高くなることになる。そして、当該合致の評価結果は、例えばディスプレイ4を用いて表示(出力)されるか、又は、本体データベース100が属する企業の担当者等に対して、記録部2に記録されている統合データベース102のデータと共に提供される(ステップS11)。なお、ステップS10における合致度の評価結果に基づき、例えば合致度を上げて統合データベース102の属性をドナーデータベース101の属性により近付けて汎用性を高めたい場合には、例えば、ドナーデータベース101のデータとの関係における真偽判定の基準をより厳格にしてデータベース生成処理を行うのが好適である。これに対し、上記合致度よりも評価部10における評価値としての精度をより高めたい場合は、例えば、各データベースにおける目的変数判定の基準をより厳格にするのが好適である。
【0061】
その後処理部1は、例えば操作部3による終了操作等により第1実施形態のデータベース生成処理を終了するか否かを判定する(ステップS12)。ステップS12の判定において、当該データベース生成処理を終了する場合(ステップS12:YES)、処理部1は、そのまま当該データベース生成処理を終了する。一方、ステップS12の判定において、例えば他の本体データベース100又は他のドナーデータベース101を対象として当該データベース生成処理を継続する場合(ステップS12:NO)、処理部1は、上記ステップS1及びステップS2に戻り、上記他の本体データベース100又は上記他のドナーデータベース101を対象として上述してきた処理を継続する。
【0062】
次に、第1実施形態のデータベース生成処理が実行された結果としての本体データベース100と統合データベース102の比較について、具体的に
図4及び
図5を用いて説明する。なお、
図4及び
図5は、一の企業だけでなく複数の企業の本体データベース100について、第1実施形態のデータベース生成処理を実行した結果を纏めて示すものである。
【0063】
先ず
図4に例示するように、ある企業A社に属する本体データベース100では、各顧客等をしめすIDに関連付けて、その属性やA社が実施したキャンペーンへの参加の有無のデータ等が記録(蓄積)されているとする。この場合、特にキャンペーンへの参加の有無は、A社独自のデータではあるが、顧客の一般的な移動履歴等のデータは含まれていない(
図4ハッチング部参照)。
【0064】
一方、上述してきた第1実施形態のデータベース生成処理では、このようなA社の本体データベース100に対して、第1実施形態のドナーデータベース101が適用される。このときのドナーデータベース101としては、上記移動履歴やサービス利用履歴等の一般的なライフスタイル又は価値観を示すデータがサンプルとして含まれているものが用いられる。そして、このようなドナーデータベース101を用いた第1実施形態のデータベース生成処理が本体データベース100に対して実行されると、その結果として得られる統合データベース102は、
図5に例示するように、A社の企業活動には関連性が低いとしてデータ(サンプル)が得られていなかった上記移動履歴等のデータがサンプルとして含まれ得ることになる。この結果、A社の企業活動等にとって極めて有効な統合データベース102が自動的に得られたことになる。
【0065】
以上説明したように、第1実施形態のデータベース生成装置Sによるデータベース生成処理によれば、ドナーデータベース101の精度を評価Bとし、厳選ドナーデータベース103の精度を評価Cとし、評価C≧評価Bであるとき、サンプル生成厳選ドナーデータベース104を生成し、本体データベース100に統合して統合データベース102を生成する(
図3ステップS1乃至ステップS7参照)。よって、ドナーデータベース101の精度及び厳選ドナーデータベース103の精度の評価結果に基づいて生成したサンプル生成厳選ドナーデータベース104を本体データベース100に統合して統合データベース102を生成するので、サンプル数が多く且つデータベースとしての項目(指標)が多岐に渡る統合データベース102を自動的に生成することができる。
【0066】
なお、本発明の発明者等によるシミュレーションによれば、万単位の数のサンプルを含み且つ商品ブランドに関連する本体データベース100(評価Aとしての正解率が50%未満)に対して、千単位の数のサンプルを含み、変数の数が本体データベース100より多く且つ一般価値観に関するドナーデータベース101(評価Bとしての正解率が80%後半の値以上)を第1実施形態のデータベース生成処理を用いて統合して得られた統合データベース102(本体データベースのサンプル数と同数のサンプルを含み、変数の数が本体データベース100の変数の数とドナーデータベース101の変数の数を合計した数となる)の評価Dとしての正解率は、元の本体データベース100の正解率より高く、ドナーデータベース101の正解率に迫る正解率であることが確認できている。これらにより、第1実施形態のデータベース生成処理によれば、サンプル数が多く且つデータベースとしての項目(指標)が多岐に渡るだけでなく、元の本体データベース100に対して精度(正解率)が飛躍的に向上した統合データベース102を自動的に生成することが可能となることが判る。
【0067】
また、評価C<評価Bであるとき、有効指標のデータの再抽出及び厳選ドナーデータベース103の再生成を行い、再生成された厳選ドナーデータベース103の精度を再評価するので、より高精度の統合データベース102を自動的に生成することができる。
【0068】
更に、生成された統合データベース102の精度(評価D)が元の本体データベース100の精度(評価A)未満であるとき、有効指標のデータの再抽出及び厳選ドナーデータベース103の再生成を行い、再生成された厳選ドナーデータベース103の精度を再評価するので(
図3ステップS8、ステップS9参照)、更に高精度の統合データベース102を自動的に生成することができる。
【0069】
また、上記評価Dが上記評価Aより高い場合に、第1実施形態のデータベース生成処理を終了して統合データベース102の内容を確定するので(
図3ステップS9:YES参照)、本体データベース100よりもより高精度の統合データベース102を自動的に生成することができる。
【0070】
更に、評価部10による各評価が、混合行列を用いた交差検証法を用いてそれぞれ行われるので、各データベースの精度の評価を正確に行うことができる。
【0071】
更にまた、抽出部11による有効指標の抽出が、主成分分析法、変数重要度法又はSHAPライブラリを用いた方法の少なくともいずれか一つを用いて行われるので、より実用性の高い有効指標のデータを抽出することができる。
【0072】
また、生成された統合データベース102に含まれるデータとドナーデータベース101に含まれるデータとの合致度を評価し、その評価された合致度を出力するので(
図3ステップS10及びステップS11参照)、最終的に生成された統合データベース102の、元のドナーデータベース101に対する合致度を容易に認識することができる。
【0073】
更に、ステップS10における合致度の評価が、平均/分散法、ヒストグラム法、集計データの統計的分布活用法、S/N法又はCronbachのα係数を用いた評価方法の少なくともいずれか一つを用いて行われるので、より正確に当該合致度を認識することができる。(II)第2実施形態
【0074】
次に、本発明の他の実施形態である第2実施形態について、
図6を用いて説明する。なお、
図6は第2実施形態のデータベース生成処理を示すフローチャートである。
【0075】
上述した第1実施形態のデータベース生成処理では、本体データベース100とドナーデータベース101とを統合し、統合データベース102を生成した。これに対し、以下に説明する第2実施形態のデータベース生成処理では、上記生成された統合データベース102を第1実施形態のデータベース生成処理と同様の方法にて更に拡充し、様々な市場(インターネット上の、いわゆる仮想市場を含む)に適用可能なデータベースを生成する。
【0076】
なお、第2実施形態のデータベース生成処理のハードウェア的な構成は、基本的には第1実施形態のデータベース生成装置Sのハードウェア的な構成と同一であるので、以下の説明では、当該データベース生成装置Sと同様の部材については同一の部材番号を付して細部の説明は省略する。また、第2実施形態のデータベース生成処理のうち、上述した第1実施形態のデータベース生成処理と同一の処理については、同一のステップ番号を付して細部の説明は両略する。
【0077】
図6に示すように、第2実施形態のデータベース生成装置において実行される第2実施形態のデータベース生成処理は、第1実施形態のデータベース生成処理と同様に、例えば第2実施形態のデータベース生成装置の電源スイッチがオンとされたタイミングから開始される。
【0078】
当該データベース生成処理が開始されると、先ず、第1実施形態のデータベース生成処理により生成された統合データベース102のデータが取得される。このとき、第2実施形態のデータベース生成処理に供される統合データベース102は、第1実施形態のデータベース生成処理により一の本体データベース100と一のドナーデータベース101とを統合したものであってもよいし、第1実施形態のデータベース生成処理を連続して複数回繰り返すことにより、一又は複数の本体データベース100と、一又は複数のドナーデータベース101とを統合して生成された統合データベースであってもよい。
【0079】
次に、第2実施形態の処理部1の評価部10は、取得した統合データベース102のデータに基づき、第1実施形態のデータベース生成処理と同様の評価方法により統合データベース102の精度を評価し、その評価結果を「評価a」として第2実施形態の記録部2に一時的に記録する(ステップS20)。
【0080】
次に第2実施形態の処理部1の統合部13は、統合データベース102のデータと第2実施形態の接続用データベース124のデータを従来と同様の方法で統合し、高精度統合データベース120を生成して記録部2に一時的に記録する(ステップS21)。
【0081】
ここで、上記接続用データベース124とは、二つのデータベースを接続して統合するためのいわば「糊代」として機能する場合や、その接続データベースを用いて統合することで元のデータベースの精度からの精度の向上が期待される場合があるデータベースであり、種々の項目(指標)を含み且つ所定数のサンプルを含む、汎用性の高いデータベースである。
【0082】
次に評価部10は、生成されて記録されている高精度統合データベース120のデータに基づき、上述した評価方法により高精度統合データベース120の精度を評価し、その評価結果を「評価b」として記録部2に一時的に記録する(ステップS22)。
【0083】
次に処理部1は、記録部2に記録されている上記評価cが上記評価b以上であるか否かを判定する(ステップS23)。ステップS23の判定において、評価cが評価b未満である場合(ステップS23:NO)、接続用データベース124の精度を向上させるべく、処理部1の抽出部11は、上述した抽出方法により、その時点での接続用データベース124のデータから有効指標に相当するデータを抽出し、その抽出されたデータを用いて新たな(項目(指標)が厳選された)接続用データベース124を生成して記録部2に一時的に記録する(ステップS27)。この新たな接続用データベース124は、その後の上記ステップS21の処理に供される。
【0084】
一方、ステップS23の判定において、評価cが評価b以上である場合(ステップS23:YES)、次に抽出部11は、高精度統合データベース120の精度を向上させるべく、上述した抽出方法により、記録されている高精度統合データベース120のデータから有効指標に相当するデータを抽出し、その抽出したデータを用いて厳選高精度統合データベース121を生成して記録部2に一時的に記録する(ステップS24)。ここで、当該厳選高精度統合データベース121の生成(ステップS24)には、統合データベース102と属性又は特性が類似している所定の仮想市場に対応する項目(指標)及びそれに対応したモデルの生成が含まれている。その後評価部10は、生成された厳選高精度統合データベース121のデータに基づき、上述した評価方法により厳選高精度統合データベース121の精度を評価し、その評価結果を「評価c」として記録部2に一時的に記録する(ステップS25)。
【0085】
次に処理部1は、記録部2に記録されている上記評価cが上記評価b(上記ステップS22参照)以上であるか否かを判定する(ステップS26)。ステップS26の判定において、評価cが評価b未満である場合(ステップS26:NO)、上記ステップS27の接続用データベース124における有効指標の抽出が不十分であったとして、再度ステップS27に戻り、抽出部11は有効指標の更なる抽出を行い、その後の上記ステップS21に供させる。一方、ステップS26の判定において、評価cが評価b以上である場合(ステップS26:YES)、次に処理部1の生成部12は、上述した生成方法を用いて厳選高精度統合データベース121についてのサンプル生成(データ生成)を行う(ステップS28)。
【0086】
次に処理部1は、現実(仮想でない)の市場における統計情報を含む市場統計データベースであって、例えば統合データベース102と属性又は特性が類似している所定の市場統計データベース122を用いて、上記サンプル生成後の厳選高精度統合データベース121のデータを当該市場統計データベース122のデータに近似させ(ステップS29)、近似させたデータを用いてサンプル生成厳選高精度統合データベース123を生成して記録部2に一時的に記録する(ステップS30)。
【0087】
その後評価部10は、生成されたサンプル生成厳選高精度統合データベース123のデータに基づき、上述した評価方法によりサンプル生成厳選高精度統合データベース123の精度を評価し、その評価結果を「評価d」として記録部2に一時的に記録する(ステップS31)。
【0088】
次に処理部1は、記録部2に記録されている上記評価dが上記評価c(上記ステップS25参照)以上であるか否かを判定する(ステップS32)。ステップS32の判定において、評価dが評価c未満である場合(ステップS32:NO)、上記ステップS28乃至上記ステップS30におけるサンプル生成及び市場統計データベース122のデータへの近似等の処理における精度が不十分であったとして、処理部1は、再度ステップS28に戻ってそれ以降の処理を繰り返す。
【0089】
一方、ステップS32の判定において、評価dが評価c以上である場合(ステップS32:YES)、次に処理部1は、その時点でのサンプル生成厳選高精度統合データベース123のデータと接続用データベース124のデータとの合致度の評価及びその出力を、第1実施形態のデータベース生成処理におけるステップS10及びステップS11と同様の方法により行う。
【0090】
その後処理部1は、例えば操作部3による終了操作等により第2実施形態のデータベース生成処理を終了するか否かを判定する(ステップS33)。ステップS33の判定において、当該データベース生成処理を終了する場合(ステップS33:YES)、処理部1は、そのまま当該データベース生成処理を終了する。一方、ステップS33の判定において、例えば他の統合データベース102を対象として当該データベース生成処理を継続する場合(ステップS33:NO)、処理部1は、上記ステップS20に戻り、上記他の統合データベース102を対象として上述してきた処理を継続する。
【0091】
以上説明した第2実施形態のデータベース生成処理によっても、第1実施形態のデータベース生成処理と同様の効果を得ることができる。
【0092】
すなわち、統合データベース102の精度を評価aとし、高精度統合データベース120の精度を評価bとし、評価b≧評価aであるとき厳選高精度統合データベース121を生成し、その厳選高精度統合データベース121の精度を評価cと、評価c≧評価bであるとき、市場統計データベース122のデータに近似させてサンプル生成厳選高精度統合データベース123を生成する(
図6ステップS20乃至ステップS30参照)。よって、統合データベース102に対応したサンプル数及び項目を有し且つ現実市場にも対応したサンプル生成厳選高精度統合データベース123を自動的に生成することができる。
【0093】
また、評価b<評価aであるとき(
図6ステップS23:NO参照)、又は評価c<評価bであるとき(
図6ステップS26:NO参照)、有効項目のデータを接続用データベース124から抽出して統合データベース102との統合に供させるので(
図6ステップS27参照)、より高精度のサンプル生成厳選高精度統合データベース123を自動的に生成することができる。
【0094】
更に、サンプル生成厳選高精度統合データベース123の精度の評価dが評価c未満であるとき(
図3ステップS32:NO参照)、ステップS28としてのサンプル生成(データ生成)が再度実行されるので、更に高精度のサンプル生成厳選高精度統合データベース123を自動的に生成することができる。
【0095】
更にまた、生成されたサンプル生成厳選高精度統合データベース123に含まれるデータと接続用データベース124に含まれるデータとの合致度を評価し(
図6ステップS10参照)、その評価された合致度を示す合致度情報を報知する(
図6ステップS11参照)ので、最終的に生成されたサンプル生成厳選高精度統合データベース123の、元の接続用データベース124に対する合致度を容易に認識することができる。
【産業上の利用可能性】
【0096】
以上それぞれ説明したように、本発明はデータベースの統合の分野に利用することが可能であり、特にサンプル数及び/又は項目(指標)数が異なるデータベース同士の統合の分野に適用すれば特に顕著な効果が得られる。
【符号の説明】
【0097】
1 処理部
2 記録部
3 操作部
4 ディスプレイ
10 評価部
11 抽出部
110 主成分分析抽出部
111 変数重要度抽出部
112 SHAP抽出部
12 生成部
13 統合部
100 本体データベース
101 ドナーデータベース
102 統合データベース
103 厳選ドナーデータベース
104 サンプル生成厳選ドナーデータベース
120 高精度統合データベース
121 厳選高精度統合データベース
122 市場統計データベース
123 サンプル生成厳選高精度統合データベース
124 接続用データベース
S データベース生成装置