特許6028103 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特許6028103データ管理方法、データ管理装置及び記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6028103

(24)【登録日】2016年10月21日

(45)【発行日】2016年11月16日

(54)【発明の名称】データ管理方法、データ管理装置及び記憶媒体

(51)【国際特許分類】

G06F 17/30 20060101AFI20161107BHJP

G06F 19/00 20110101ALI20161107BHJP

【ＦＩ】

G06F17/30 220Z

G06F17/30 210D

G06F19/00 130

【請求項の数】7

【全頁数】22

(21)【出願番号】特願2015-540351(P2015-540351)

(86)(22)【出願日】2013年10月4日

(86)【国際出願番号】JP2013077141

(87)【国際公開番号】WO2015049797

(87)【国際公開日】20150409

【審査請求日】2015年8月7日

(73)【特許権者】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110001678

【氏名又は名称】特許業務法人藤央特許事務所

(72)【発明者】

【氏名】土田正士

(72)【発明者】

【氏名】小寺孝

(72)【発明者】

【氏名】千種健太郎

(72)【発明者】

【氏名】松浦聖平

(72)【発明者】

【氏名】中野幸生

【審査官】齊藤貴孝

(56)【参考文献】

【文献】特開２０１３−０７７１９４（ＪＰ，Ａ）

【文献】特開２００１−３０６９９９（ＪＰ，Ａ）

【文献】特開２０１０−１４６５５４（ＪＰ，Ａ）

【文献】特開２００７−０１１４６８（ＪＰ，Ａ）

【文献】阿部秀尚、外１名，慢性ウイルス性肝炎データマイニングへのＷｅｋａの適用，人工知能学会誌，日本，（社）人工知能学会，２００４年５月１日，第１９巻，第３号，ｐ．３４７−３５４

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１７／３０

Ｇ０６Ｆ１９／００

(57)【特許請求の範囲】

【請求項1】

プロセッサと記憶部とを備えた計算機で、前記記憶部に格納されたデータを分析した結果を利用するデータ管理方法であって、
前記計算機が、前記記憶部に格納されたデータを選択して分析データセットを生成する第１のステップと、
前記計算機が、前記分析データセットに対して所定のデータマイニングで取得されるモデルに対応する評価基準を予め決定し、当該データマイニングを実施して、前記分析データセットからモデルを抽出する第２のステップと、
前記計算機が、前記モデルを関係表に変換し、前記記憶部に予め格納された次元表及び履歴表に、前記関係表を関連付ける第３のステップと、
前記計算機が、前記関係表を前記記憶部に格納して前記分析データセットのデータとして再びデータマイニングで利用するか、前記関係表を業務アプリケーションで利用するかを、当該モデルに対応する評価基準に従っていずれかを選択する第４のステップと、
を含むことを特徴とするデータ管理方法。

【請求項2】

請求項１に記載のデータ管理方法であって、
前記第２のステップは、
前記データマイニングとして、決定木及びクラスタリングの何れか一方を実施し、前記決定木及びクラスタリングの結果から前記モデルを抽出することを特徴とするデータ管理方法。

【請求項3】

請求項２に記載のデータ管理方法であって、
新たなデータを受け付けて、前記関係表を用いて前記データの属性を予測し、当該予測の結果を業務アプリケーションに提供する第５のステップをさらに含むことを特徴とするデータ管理方法。

【請求項4】

プロセッサと記憶部とを備えて、前記記憶部に格納されたデータを分析した結果を利用するデータ管理装置であって、
前記記憶部に格納されたデータを選択して分析データセットを生成するデータ選出部と、
前記分析データセットに対して所定のデータマイニングで取得されるモデルに対応する評価基準を予め決定し、当該データマイニングを実施して、前記分析データセットからモデルを抽出するデータマイニング部と、
前記モデルを関係表に変換し、前記記憶部に予め格納された次元表及び履歴表に、前記関係表を関連付ける知識反映部と、
前記関係表を前記記憶部に格納して前記分析データセットのデータとして再びデータマイニングで利用するか、前記関係表を業務アプリケーションで利用するかを、当該モデルに対応する評価基準に従っていずれかを選択する評価部と、
を備えたことを特徴とするデータ管理装置。

【請求項5】

請求項４に記載のデータ管理装置であって、
前記データマイニング部は、
前記データマイニングとして、決定木及びクラスタリングの何れか一方を実施し、前記決定木及びクラスタリングの結果から前記モデルを抽出することを特徴とするデータ管理装置。

【請求項6】

請求項５に記載のデータ管理装置であって、
新たなデータを受け付けて、前記関係表を用いて前記データの属性を予測し、当該予測の結果を業務アプリケーションに提供する予測分析部をさらに有することを特徴とするデータ管理装置。

【請求項7】

プロセッサと記憶部とを備えた計算機で、前記記憶部に格納されたデータを分析した結果を利用するプログラムを格納した記憶媒体であって、
前記記憶部に格納されたデータを選択して分析データセットを生成する第１のステップと、
前記分析データセットに対して所定のデータマイニングで取得されるモデルに対応する評価基準を予め決定し、当該データマイニングを実施して、前記分析データセットからモデルを抽出する第２のステップと、
前記モデルを関係表に変換し、前記記憶部に予め格納された次元表及び履歴表に、前記関係表を関連付ける第３のステップと、
前記関係表を前記記憶部に格納して前記分析データセットのデータとして再びデータマイニングで利用するか、前記関係表を業務アプリケーションで利用するかを、当該モデルに対応する評価基準に従っていずれかを選択する第４のステップと、
を前記計算機に実行させることを特徴とする非一時的な計算機読み取り可能な記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、データマイニングで得られた知識を、既存のアプリケーションで利用する技術に関する。

【背景技術】

【0002】

我々を取り巻く実世界ではウェブの発展により、人の振る舞いに基づき発信されるデータ、及び物の動きに基づいて発信されるデータが、大量に生成されている。このようなデータは要約し、傾向を理解するためのデータ分析方法が予め決められない場合が多い。そのため、試行錯誤しながらデータを理解するために規則性を取得し、モデルを構築する手法が必要とされている。

【0003】

データマイニングは、データの中から規則性を抽出し、モデルを構築する手法であり、具体的には、"大量のデータから、人が見ただけでは見出せない、未知の規則性、未知のモデル、即ち新たな知識を抽出すること"を目的とする。このデータマイニングの一例としては非特許文献２、非特許文献３が知られている。また、データベースに格納されたデータを分析する技術としては非特許文献１が知られている。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】"Oracle Database Data Warehousing Guide"、［online］、［平成25年08月01日検索］、インターネット＜URL： http://docs.oracle.com/cd/B28359_01/server.111/b28313/schemas.htm＞

【非特許文献2】"IBM SPSS Modeler 14.2 User's Guide"、［online］、［平成25年08月01日検索］、インターネット＜URL： http://faculty.smu.edu/tfomby/eco5385/data/SPSS/SPSS%20Modeler_14_2_UsersGuide.pdf＞

【非特許文献3】Han, J., Kamber, M., and Pai, J., "Data Mining: Concepts and Techniques, Third Edition ", Morgan Kaufmann Publishers(2011).

【発明の概要】

【発明が解決しようとする課題】

【0005】

近年では、データマイニングの分析で得られた知識（規則性やモデル）あるいは知見を活用して、他のデータの全体像や、データの相互関係、あるいは潜在的な構造を探ることが要求されつつある。

【0006】

しかしながら、データマイニングで得られた知識を、企業が所有する情報系システムのＯＬＡＰ（On-line Analytical Processing）分析、あるいは統計解析などのデータ分析と組み合わせ、データマイニングで得られた知識を、基幹系システムの業務アプリケーションに組み合わせるには、各アプリケーション層で個別に処理することになる。このため、データマイニング等で得られた知識を、既存の基幹系システムや情報系システムへ適用するにはデータのモデル化、データ加工など各アプリケーションに煩雑なデータ処理の追加及び変更が必要であり、多大な労力を要するという課題があった。

【0007】

そこで本発明は、上記問題点に鑑みてなされたもので、データマイニング等で得られた知識を、既存の基幹系システムや情報系システムへ容易に適用することを目的とする。

【課題を解決するための手段】

【0008】

本発明は、プロセッサと記憶部とを備えた計算機で、前記記憶部に格納されたデータを分析した結果を利用するデータ管理方法であって、前記計算機が、前記記憶部に格納されたデータを選択して分析データセットを生成する第１のステップと、前記計算機が、前記分析データセットに対して所定のデータマイニングで取得されるモデルに対応する評価基準を予め決定し、当該データマイニングを実施して、前記分析データセットからモデルを抽出する第２のステップと、前記計算機が、前記モデルを関係表に変換し、前記記憶部に予め格納された次元表及び履歴表に、前記関係表を関連付ける第３のステップと、前記計算機が、前記関係表を前記記憶部に格納して前記分析データセットのデータとして再びデータマイニングで利用するか、前記関係表を業務アプリケーションで利用するかを、当該モデルに対応する評価基準に従っていずれかを選択する第４のステップと、を含む。

【発明の効果】

【0009】

本発明によれば、データマイニングで抽出されたモデルを、既存の業務アプリケーションを変更することなく利用することが可能となる。また、同じ分析データセットに対してパラメータが異なる分析評価を繰り返してモデルを抽出することができる。

【図面の簡単な説明】

【0010】

【図1】本発明の実施例を示し、データ管理装置の一例を示すブロック図である。

【図2】本発明の実施例を示し、データ管理装置で行われる処理の一例を示す概略図である。

【図3】本発明の実施例を示し、データベースとデータウェアハウスと分析データセットとモデルの関係を示すブロック図である。

【図4】本発明の実施例を示し、情報系システムと基幹系システムで行われる処理の一例を示すフローチャートである。

【図5】本発明の実施例を示し、データ管理装置で行われるクラスタリングの一例を示す図である。

【図6】本発明の実施例を示し、データ管理装置で行われる決定木の一例を示す図である。

【図7】本発明の実施例を示し、スタースキーマの定義の一例を示す図である。

【図8】本発明の実施例を示し、スタースキーマにデータベースのデータを取り込んだ状態を示す図である。

【図9】本発明の実施例を示し、データ管理装置で行われる表定義処理の一例を示すフローチャートである。

【図10】本発明の実施例を示し、データ管理装置で行われるデータロード処理の一例を示すフローチャートである。

【図11】本発明の実施例を示し、データ管理装置で行われるクラスタリングの結果を反映させる一例を示す図である。

【図12】本発明の実施例を示し、データ管理装置が選択した分析データセットの一例を示す図である。

【図13】本発明の実施例を示し、データ管理装置が生成した関係表の一例を示す図である。

【図14】本発明の実施例を示し、データ管理装置で行われるモデルを関係表に変換する処理の一例を示すフローチャートである。

【図15】本発明の実施例を示し、データ管理装置で行われる決定木のＳＱＬ表現を示す図である。

【図16】本発明の実施例を示し、データ管理装置で行われる予測処理の説明図である。

【図17】本発明の実施例を示し、他の分析データセットの一例を示す図である。

【図18】本発明の実施例を示し、データ管理装置で行われる予測処理の他の例を示す説明図である。

【図19】本発明の実施例を示し、データ管理装置で行われる予測処理の一例を示すフローチャートである。

【発明を実施するための形態】

【0011】

以下、本発明の一実施形態について添付図面を用いて説明する。

【0012】

図１は、本発明の実施例のデータ管理装置の一例を示すブロック図である。データ管理装置１は、基幹系システムを構成する業務アプリケーションとしてデータベース１０から選択したデータに対してデータマイニングを行って新たな知識を取得し、新たな知識を業務アプリケーション３４０やデータウェアハウス１１に反映する知識抽出システム３０を実行する。

【0013】

データ管理装置１は、演算を行うＣＰＵ８と、データやプログラムを保持する主記憶装置２と、データベース１０やプログラムを格納する補助記憶装置４と、ネットワーク５００と通信を行うネットワークインタフェース５と、補助記憶装置４に読み書き行う補助記憶装置インタフェース３と、キーボードやマウスで構成された入力装置６と、ディスプレイやスピーカ等で構成された出力装置７と、から構成される計算機である。

【0014】

主記憶装置２には、オペレーティングシステム（ＯＳ）２０がロードされＣＰＵ８によって実行される。そして、ＯＳ２０上では、データベース１０やデータウェアハウス１１のデータに基づいて新たな知識を取得して、業務アプリケーション３４０やデータウェアハウス１１に反映する知識抽出システム３０が稼働する。

【0015】

知識抽出システム３０は、基幹系システムと情報系システムで構成される。基幹系システムは、業務アプリケーション３４０と、予測ＯＬＡＰ分析３３０で構成される。業務アプリケーション３４０は、例えば、データベース１０を管理するＤＢＭＳ（Data Base Management System）で構成される。なお、図中ＤＢ１〜ＤＢ４は、業務毎のデータベースを示す。

【0016】

一方、情報系システムは、処理部として表定義処理３１０と、データロード処理部３２０と、データクレンジング部４１０と、データ選出部４２０と、データマイニング部４３０と、モデル評価部４４０と、知識反映部４５０を含む。なお、情報系システムで、予測ＯＬＡＰ分析３３０を使用しても良い。

【0017】

情報系システムは、後述するように、データクレンジング部４１０がデータベース１０のデータについてデータクレンジングを行ってからデータウェアハウス１１に格納する。データ選出部４２０は、データウェアハウス１１に格納されているデータから分析するデータを選択し、分析データセット１２を出力する。次に、データマイニング部４３０が分析データセット１２を分析してモデル１３を抽出する。次に、モデル評価部４４０により、モデル１３を評価して有用な知識であれば知識反映部４５０によって、業務アプリケーション３４０に新たな知識を反映させる。なお、データウェアハウス１１のデータは、基幹系システムから利用しても良い。

【0018】

ＣＰＵ８は、各機能部のプログラムに従って処理を実行することによって、所定の機能を実現する機能部となる。例えば、ＣＰＵ８は、表定義プログラムに従って処理を実行することで表定義処理３１０として機能する。他のプログラムについても同様である。さらに、ＣＰＵ８は、各プログラムが実行する複数の処理のそれぞれを実現する機能部としても動作する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。

【0019】

知識抽出システム３０の各機能を実現するプログラム、データまたはデータ構造等の情報は、補助記憶装置４や不揮発性半導体メモリ、ハードディスクドライブ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶デバイス、または、ＩＣカード、ＳＤカード、ＤＶＤ等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。

【0020】

補助記憶装置４には、解析するデータの元となるデータベース１０と、データベース１０から選択した分析対象のデータ等を格納するデータウェアハウス１１と、データマイニングの対象となる分析データセット１２と、データマイニングの結果としてのモデル１３が格納される。

【0021】

なお、図示はしないが、上述したように、ＯＳ２０や知識抽出システム３０のプログラムを補助記憶装置４に格納することができる。

【0022】

また、図１において、データベース１０にはＲＤＢ（Relational Data Base）で構成されたＤＢ１〜ＤＢ４が格納されている例を示すが、これらのデータベース１０は、分析対象の元のデータであり、外部のデータベースの複製や部分などで構成することができる。

【0023】

本発明のデータ管理装置１では、データベース１０のデータからデータマイニング部４３０によってモデル１３を抽出し、当該モデル１３を新たな知識として取得する処理（図２の知識抽出プロセスの活用）と、新たな知識を業務アプリケーション３４０のデータベース１０に反映する処理（図２のデータ分析の活用）の２つの処理が繰り返して実行される。図２は、データ管理装置で行われる処理の一例を示す概略図である。以下、図２を参照しながら、本発明のデータ管理装置１で行われる処理の概要を説明する。

【0024】

まず、基幹系システムで生成されたデータベース１０について、データクレンジング部４１０がデータクレンジングを実施する。データクレンジング部４１０では、データベース１０から誤りや重複のあるデータを特定し、これらの特定したデータを取り除いてデータベース１０の整合性を確保する。データクレンジングが完了したデータベース１０のデータはデータウェアハウス１１に格納される。

【0025】

次に、データ選出部４２０は、データマイニングの目的に応じてデータウェアハウス１１に格納されたデータを選択し、分析データセット１２を生成する。そして、データマイニング部４３０は、分析データセット１２に所定のデータマイニングを適用することで、未知のモデル等の知識の抽出を行う。知識の一例としては、決定木１３−１や、クラスタリング結果１３−２等のモデル１３である。なお、データマイニングの手法については、周知又は公知の手法を用いればよいので、ここでは詳述しない。

【0026】

モデル評価部４４０では、データマイニング部４３０で取得したモデルを可視化ツールで表示し、人の評価または評価値の算出によって、有用な知識として取得する。なお、可視化ツールは、データをグラフや表等で表示するソフトウェアである。なお、モデル評価部４４０は、人の評価に限定されるものではなく、モデル１３の評価値を演算するソフトウェアを用い、評価値の大小によって有用な知識となるモデル１３を判定するようにしても良い。データマイニングの手法によってこの評価値は異なるが、クラスタリングと決定木について示す。クラスタリングの場合、クラスタリング結果の人による評価は定性的で主観的になるので、定量的な評価尺度としてクラスタリング結果の各クラスタに関するエントロピー値（entropy）、また二乗誤差を用いて算出する各クラスタの凝集値（cohesion）、さらに二つのクラスタの重心間の距離を用いるクラスタ間の分離値（separation）などの大小によって判定する。決定木の場合、学習データを利用して作成される決定木によってどの程度の信頼性で予測が可能かをクロスバリデーション法で算出する予測精度の大小によって判定する。

【0027】

モデル評価部４４０の結果、有用な知識として、決定木やクラスタリング結果からなるモデル１３が抽出される（Ｓ１）。なお、有用な知識としては、決定木やクラスタリング結果のモデル１３に加えて、モデル１３の定義を新たな知識としてもよい。

【0028】

次に、知識反映部４５０では、モデル評価部４４０で取得した知識（モデル）を業務アプリケーション３４０のデータや、データウェアハウス１１のデータに反映して活用する。

【0029】

業務アプリケーション３４０に対する知識反映部４５０は、上記抽出された決定木やクラスタリング結果からなるモデル１３をＳＱＬのモデルに変換することで、業務アプリケーション３４０のデータベース１０に新たな知識を反映させることが出来る（Ｓ３）。モデル１３をＳＱＬのモデルに変換する手法としては、後述するように、データマイニング部４３０により決定木を取得し、決定木または決定表をＳＱＬで表現することで実現できる。

【0030】

また、データウェアハウス１１に対する知識反映部４５０は、上記抽出された決定木１３−１やクラスタリング結果１３−２からなるモデル１３を関係表１４に変換してからデータウェアハウス（ＤＷＨ）１１に格納する（Ｓ２）。そして、データウェアハウス１１に格納したモデル１３を、再度データマイニングに加えて新たな知識の抽出を行う。関係表１４は、例えば、クラスタリング結果や、決定表のＳＱＬ表現あるいは決定木のＳＱＬ表現を含むことができる。

【0031】

上記の手順からなる知識抽出のプロセスを繰り返し、新たに取得された知識（モデル１３）を業務アプリケーション３４０やデータウェアハウス１１に活用することによって、業務の分析を高度化することが期待できる。

【0032】

なお、新たに取得された知識（モデル１３）を業務アプリケーション３４０で利用するか、データウェアハウス１１で利用するかの判定をデータ管理装置１の利用者が行っても良い。例えば、モデル評価部４４０で評価を行った後に、モデル１３を業務アプリケーション３４０とデータウェアハウス１１のいずれで利用するかを入力装置６から受け付けて、利用者の指令に応じてモデル１３の利用先を決定することができる。

【0033】

図３は、データベース１０とデータウェアハウス１１と分析データセット１２とモデル１３の関係を示すブロック図である。データ管理装置１は、予め設定された定義によりスタースキーマ１３０を構成する。

【0034】

図３において、データベース１０にはＲＤＢ（ＲｅｌａｔｉｏｎａｌＤａｔａＢａｓｅ）で構成されたＤＢ１〜ＤＢ４（図１参照）が格納されている例を示すが、これらのデータベース１０は、分析対象の元のデータであり、外部のデータベースの複製や部分などで構成することができる。

【0035】

そして、データベース１０のデータのうち、分析対象のデータを時系列的に抽出したデータを、スタースキーマ１３０のファクト表１１０として用いる。

【0036】

スタースキーマ１３０で定義されたテーブル群は、データベース１０を元データとするファクト表１１０と、分析または集計するデータを定義した複数の次元表１２０ａ〜１２０ｄとから構成される。なお、以下では、次元表の総称をデータベース１０で示す。ファクト表１１０と次元表１２０（１２０ａ〜１２０ｄ）は、主キーで関連付けられる。

【0037】

図３の例では、スタースキーマ１３０の構造が、ファクト表１１０に対して商品、顧客、期間、地域の次元表１２０ａ〜１２０ｄから構成される例を示す。

【0038】

このため、次元表１２０ａは、商品名に関する商品次元表であり（図８参照）、次元表１２０ｂは、期間に関する期間次元表であり（図８参照）、次元表１２０ｃは、顧客に関する顧客次元表であり（図８参照）、次元表１２０ｄは、地域名に関する地域次元表である（図８参照）。

【0039】

また、データマイニングの目的に応じてデータウェアハウス１１に格納された、スタースキーマ１３０からデータを選択し、分析データセット１２を生成する（図１１、図１２、図１６参照）。

【0040】

さらに、データマイニング部４３０で抽出された決定木やクラスタリング結果からなるモデル１３から、クラスタリング結果の関係表（図１１、図１３参照）１４、決定木または決定表のＳＱＬ表現に変換する（図１５、図１７参照）。

【0041】

図４は、情報系システムと基幹系システムで行われる処理の一例を示すフローチャートである。データクレンジング部４１０は、データベース１０のデータについてデータクレンジングを実施する。データクレンジング部４１０によって、整合性が保証されたデータをデータウェアハウス（図中ＤＷＨ）１１に保存される。

【0042】

データウェアハウス１１では、予め設定したスタースキーマの定義５２０に基づいて、データベース１０のデータからスタースキーマ１３０を構成する。

【0043】

次に、データ選出部４２０では、データウェアハウス１１のスタースキーマ１３０から分析対象のデータを分析データセット１２（学習データ）として抽出する。分析データセット１２は、データウェアハウス１１に格納された複数の次元表１２０ａ〜１２０ｄ及び履歴表（ファクト表１１０）を、関連付けジョインや、集約等の問合せによって抽出する。

【0044】

データマイニング部４３０は、データウェアハウス１１から抽出した分析データセット１２に対してデータマイニングを実施し、決定木１３−１やクラスタリング結果１３−２等のモデル１３を取得する。そして、決定木１３−１やクラスタリング結果１３−２を関係表１４に変換する。

【0045】

モデル評価部４４０は、データマイニング部４３０で取得された知識、即ち決定木１３−１、クラスタリング結果１３−２等のモデル１３や関係表１４を可視化ツールで出力装置７に表示し、人による評価や解釈を経て有用な知識として取得する。なお、モデル評価部４４０では、予測ＯＬＡＰ分析３３０に基づくモデルの評価を行っても良い。

【0046】

一方、知識反映部４５０では、上記取得したクラスタリング結果のモデル１３をＳＱＬモデルへ変換してから関係表１４（図１１、図１３参照）に変換してデータウェアハウス１１に格納し（Ｓ２）、再度データマイニングの別の手法の適用や、異なるパラメータの適用を実施する。

【0047】

また、取得したモデル１３や関係表１４を基幹系システムの業務アプリケーション３４０に反映させる場合は、抽出された決定木やクラスタリング結果からなるモデル１３から、クラスタリング結果の関係表（図１１、図１３参照）、決定木または決定表のＳＱＬ表現に変換（図１５、図１７参照）した関係表１４を業務アプリケーション３４０に組み合わせる（Ｓ３）。これは、後述するように、予測ＯＬＡＰ分析３３０で新たなデータの属性値の予測を行うための決定木１３−１をモデル１３とする。

【0048】

特に、モデル評価部４４０では、カテゴリや分類を変えて分析評価を繰り返して試行錯誤しながらモデル１３を作成する。例えば、収入は金額に応じてカテゴリ基準を決めることで、{高、低}のカテゴリ値に変換する。また、ある顧客が1週間にサイトをアクセスする回数は、アクセス回数が1回は少、2〜5回は中、6回以上は多という、カテゴリ基準を決めることで{多、中、少}の３値のカテゴリ値に変換します。このようなデータ処理は同じ分析データセット１２に対して、カテゴリ基準を試行錯誤で変更しながらデータマイニング等の分析の設定パラメータが異なる分析を繰り返して行うことを特徴とする。

【0049】

図５は、データ管理装置１のデータマイニング部４３０で行われるクラスタリングの一例を示す図である。クラスタリングでは、母集団の分析データセット１２のメンバ間の距離を、特定の属性に基づいて算出し、データ間の距離に基づく類似性でメンバの分類を行う。

【0050】

図５は、分析データセット１２が、タブレットの契約月数と、契約者の年齢の関係を示すデータの例を示す。図中の手動は、人の経験や仮説によって分析データセット１２を分類した例を示す。手動で分類した場合、図示のように契約月数の長短と、契約者の年齢の高低による分類は可能である。

【0051】

これに対して、データマイニング部４３０で、クラスタリング結果１３−２をモデル１３とする場合、人の経験や仮説では分類できないクラスタを抽出することができる。クラスタ１〜４は、各々のクラスタ内ではデータ間の距離が近いクラスタであるが、新たにクラスタＮは年齢層が所定の範囲（契約者の年齢が中程度）のクラスタが見出せ、クラスタ１と３を含む。つまりクラスタリングによって、手作業では得られないクラスタＮというモデルを取得することができるのである。

【0052】

このクラスタリングの結果に対してモデル評価部４４０で評価を行うことで、契約月数に係わらずクラスタＮの中年齢層を抽出することができ、クラスタＮに含まれる２つのクラスタ１と３の中年齢層に対して営業上の戦略を立案する等の知識を取得することができる。

【0053】

図６は、データ管理装置１のデータマイニング部４３０で行われる決定木１３−１の一例を示す図である。決定木１３−１は、過去のデータから生成されて、新たなデータについて予測を行うモデルである。図示の決定木１３−１では、職業と年齢、趣向（映画の好き嫌い）及びタブレットの購入の有無から、推薦する商品を予測する構成となっている。なお、推薦商品の設定はデータ管理装置１の利用者等が行うものとする。

【0054】

上記の決定木１３−１を、新たな顧客データに対して用いることで、新たな顧客毎に最適な商品を予測することが可能となる。

【0055】

次に、スタースキーマ１３０を生成するデータの一例を図７、図８に示す。

【0056】

図７は、スタースキーマ１３０の定義５２０の一例である。表定義処理３１０は、図７のスタースキーマ１３０の定義５２０を読み込んで、図８に示すファクト表（顧客売上履歴表１１０ａ）と次元表１２０ａ〜１２０ｄを生成する。

【0057】

定義５２０は、データベース１０のデータの意味を記述する複数の次元表１２０ａ〜１２０ｄの定義と、データベース１０のデータを、一元的な時系列データとして格納する履歴表（ファクト表）の定義が含まれる。

【0058】

図８は、スタースキーマを生成する際のデータの関係を示す図である。図８は図１に示したデータベース１０を構成するデータベースＤＢ１の販売データベースから、図３に示した次元表１２０とファクト表１１０（顧客売上履歴表１１０ａ）を生成する例を示す。この処理は、図１に示した知識抽出システム３０の、表定義処理３１０で行われる。なお、本実施例では、ファクト表１１０として顧客売上履歴表１１０ａを生成する例を示す。

【0059】

表定義処理３１０は、データベースＤＢ１の販売データベースから顧客売上履歴表１１０ａを生成する。顧客売上履歴表１１０ａは、販売された商品識別子１１１と、当該商品を購入した顧客識別子１１２と、当該商品が販売された地域コード１１３と、当該商品が販売された時期を格納する期間コード１１４と、販売された価格を格納する売価１１５と、販売された個数１１６とを含んでひとつのレコード（または行）が構成される。なお、本実施例では、顧客売上履歴表１１０ａの商品識別子１１１と、顧客識別子１１２と、地域コード１１３と、期間コード１１４とを複数の識別子からなる主キーとして扱い、売価１１５と個数１１６を属性として扱う。

【0060】

次に、表定義処理３１０は、顧客売上履歴表１１０ａの商品識別子１１１を主キーとする商品次元表１２０ａをデータベース１０から生成する。商品次元表１２０ａは、主キーとなる商品識別子１２１と、商品名１２２と、契約月数１２９を含んでひとつのレコード（または行）が構成される。そして、本実施例では、商品識別子１２１を顧客売上履歴表１１０ａの商品識別子１１１に関連付けられた識別子として扱い、商品名１２２を属性として扱う。

【0061】

次に、表定義処理３１０は、顧客売上履歴表１１０ａの顧客識別子１１２を主キーとする顧客次元表１２０ｃをデータベース１０から生成する。顧客次元表１２０ｃは、主キーとなる顧客識別子１２５と、顧客名１２６、年齢１２６ａ、年齢１２６ｂ、職業１２６ｃ、収入１２６ｄ、映画１２６ｅを含んでひとつのレコード（または行）が構成される。そして、本実施例では、顧客識別子１２５を顧客売上履歴表１１０ａの顧客識別子１１２に関連付けられた識別子として扱い、顧客名１２６〜映画１２６ｅを属性として扱う。

【0062】

次に、表定義処理３１０は、顧客売上履歴表１１０ａの地域コード１１３を主キーとする地域次元表１２０ｄをデータベース１０から生成する。地域次元表１２０ｄは、主キーとなる地域コード１２７と地域名１２８を含んでひとつのレコード（または行）が構成される。そして、本実施例では、地域コード１２７を顧客売上履歴表１１０ａの地域コード１１３に関連付けられた識別子として扱い、地域名１２８を属性として扱う。

【0063】

次に、表定義処理３１０は、顧客売上履歴表１１０ａの期間コード１１４を主キーとする期間次元表１２０ｂをデータベース１０から生成する。期間次元表１２０ｂは、主キーとなる期間コード１２３と属性としての期間名１２４を含んでひとつのレコード（または行）が構成される。そして、本実施例では、期間コード１２３を顧客売上履歴表１１０ａの期間コード１１４に関連付けられた識別子として扱い、期間名１２４を属性として扱う。

【0064】

以上のように、表定義処理３１０は、分析対象に識別子を付与し、識別子に関連する属性を対応付ける。そして、識別子と、当該識別子に対応する属性を行として格納する複数の次元表１２０を作成する。複数の次元表の識別子に対応する複数の識別子と、当該複数の識別子に対応する属性を関連づけた行として格納する顧客売上履歴表１１０ａを生成する。

【0065】

図９は、データ管理装置１で行われる表定義処理３１０の一例を示すフローチャートである。この処理は、データ管理装置１の利用者の指令に基づいて実行される。データ管理装置１は、図７に示したスタースキーマ１３０の定義５２０を読み込んでから図９の処理を開始する。

【0066】

データ管理装置１は、読み込んだ定義５２０に基づいて、分析対象を識別する主キーと、主キーに関連する複数の属性をそれぞれ列とする複数の次元表１２０ａ〜１２０ｄを定義する（Ｓ１１）。

【0067】

データ管理装置１は、定義５２０に基づいて、複数の次元表の主キーを参照する複数の列から主キーを構成し、当該主キーに関連する複数の属性をそれぞれ列とする履歴表１１０ａを定義する（Ｓ１２）。

【0068】

上記の処理により、図８で示したように、実世界のデータであるデータベース１０の意味を記述する複数の次元表１２０ａ〜１２０ｄと、実世界のデータを一元的な時系列データとして格納する顧客売上履歴表１１０ａが生成される。

【0069】

図１０は、データ管理装置１のデータロード処理部３２０で行われる処理の一例を示すフローチャートである。この処理は、図９の処理が完了した後に実行される。あるいは、データ管理装置１の利用者などが入力装置６から実行を指示したときに行われる。

【0070】

データロード処理部３２０は、表定義処理３１０が生成した分析対象の各次元表１２０ａ〜１２０ｄにデータベース１０またはデータウェアハウス１１からデータをロードする（Ｓ２１）。

【0071】

次に、データロード処理部３２０は、表定義処理３１０が生成した分析対象の顧客売上履歴表１１０ａ（ファクト表１１０）にデータベース１０からデータをロードする。そして、データロード処理部３２０は、次元表１２０ａ〜１２０ｄの主キーを参照する列情報と、それらの列に関連する属性を、行として顧客売上履歴表１１０ａにロードする（Ｓ２２）。

【0072】

以上の処理により、スタースキーマ１３０のファクト表１１０（顧客売上履歴表１１０ａ）と、次元表１２０ａ〜１２０ｄにデータベース１０のデータが取り込まれる。

【0073】

図１１は、クラスタリングの結果をデータウェアハウス１１に反映させる一例を示す図である。この処理は、図９の処理が完了した後に実行される。

【0074】

データマイニング部４３０は、データ選出部４２０によりデータウェアハウス１１から抽出した分析データセット１２についてデータマイニングを実施する。図１２は、データ選出部４２０が選択した分析データセット１２の一例を示す図である。この例では、分析データセット１２が、顧客ｉｄ１２１１と、年齢１２１２と、契約月数１２１３からひとつのレコードを構成する例を示す。分析データセット１２を構成する要素については、データ管理装置１の利用者が入力装置６等で次元表１２０ａ〜１２０ｄや顧客売上履歴表１１０ａのデータを指定する。

【0075】

図１２の例では、データ選出部４２０が、顧客次元表１２０ｃから顧客ｉｄ１２５と年齢１２６ｂを取得する。次に、顧客売上履歴表１１０ａから顧客ｉｄ１２５に対応する商品識別子１１１を取得し、商品次元表１２０ａから商品識別子１１１に対応する契約月数１２９を取得する。そして、データ選出部４２０は、顧客ｉｄ１２５と年齢１２６ｂに、契約月数１２９を結合して、顧客ｉｄ１２１１と、年齢１２１２と、契約月数１２１３にデータを書き込んで分析データセット１２を生成する。

【0076】

次に、分析データセット１２について、データマイニング部４３０でクラスタリングを行った結果、図１１のようなモデル１３−２が得られる。モデル評価部４４０で評価を受けた後、知識反映部４５０はクラスタリング結果１３−２のモデル１３を後述するように、関係表１４へ変換する。

【0077】

知識反映部４５０は、クラスタリング結果１３−２を変換した関係表１４をデータウェアハウス１１に格納する。なお、知識反映部４５０は、クラスタリング結果１３−２のモデル１３から木構造を抽出して、この木構造をＳＱＬに変換し、顧客売上履歴表１１０ａや次元表１２０ａ〜１２０ｄに問い合わせることで関係表１４を生成する。

【0078】

知識反映部４５０は、取得した知識を関係表１４としてデータウェアハウス１１に格納し、顧客売上履歴表１１０ａや次元表１２０ａ〜１２０ｄの関連付けを行う。これにより、業務アプリケーション３４０等から、顧客売上履歴表１１０ａや次元表１２０ａ〜１２０ｄとともにデータウェアハウス１１に格納された関係表１４に問合せることが可能となる。

【0079】

図１３は、関係表１４の一例を示す図である。関係表１４は、クラスタの識別子を格納するクラスタｉｄ１４１１と、顧客ｉｄ１４１２と、年齢１４１３と、契約月数１４１４からひとつのレコードを構成する例を示す。クラスタｉｄ１４１１はクラスタリング結果１３−２に対応し、顧客ｉｄ１４１２と年齢１４１３は、顧客次元表１２０ｃに対応し、契約月数１４１４は商品次元表１２０ａに対応し、顧客次元表１２０ｃと商品次元表１２０ａは顧客識別子１１２と商品識別子１１１で対応付けられる。知識反映部４５０は、関係表１４の各フィールドが対応する次元表１２０ａ〜１２０ｄや顧客売上履歴表１１０ａとの関係を、データウェアハウス１１に格納しておくことができる。

【0080】

図１４は、データ管理装置１で行われるクラスタリングの結果１３−２を関係表１４に変換する処理の一例を示すフローチャートである。

【0081】

基幹系システムの業務アプリケーション３４０で利用するデータベース１０について、データクレンジング部４１０がデータクレンジングを実施する（Ｓ３１）。データクレンジング部４１０によりデータベース１０の整合性を確保し、データクレンジングが完了したデータベース１０のデータはデータウェアハウス１１に格納される。

【0082】

次に、データ選出部４２０により、データマイニングの目的に応じてデータウェアハウス１１に格納されたデータを選択し、分析データセット１２を生成する。分析データセット１２は、データ選出部４２０が分析対象のデータを含む複数の次元表１２０ａ〜１２０ｄや顧客売上履歴表１１０ａ（ファクト表１１０）に対して、関連付けジョインや、集約等の問合せを行うことでデータウェアハウス１１から抽出する（Ｓ３２）。

【0083】

データマイニング部４３０は、分析データセット１２に対してデータマイニングを実施し、モデル１３を抽出する（Ｓ３３）。このモデル１３は、例えば、図５のクラスタリング結果１３−２や、図６に示した決定木１３−１として分析データセット１２から抽出される。抽出されたモデル１３を可視化して評価する場合には、上述のように可視化ツールを用いてモデルの評価（モデル評価部４４０）を行って抽出されたモデル１３が新たな知識となるか判定する。なお、データマイニング部４３０によって抽出されたモデル１３を、新たな知識として取得する場合には、モデル評価部４４０を省略してもよい。

【0084】

新たな知識として取得されたモデル１３を、異なるデータマイニングを実施する場合、知識反映部４５０はモデル１３を関係表１４に変換してからデータウェアハウス１１に格納する（Ｓ３４）。

【0085】

以上のように、本実施例では、取得したモデル１３を関係表１４に変換してデータウェアハウス１１に格納することで、再度データマイニングの他の手法を適用することができる。

【0086】

取得したモデル１３を関係表１４に変換しておくことで、データ選出部４２０ではデータベース１０から生成した次元表１２０ａ〜１２０ｄや顧客売上履歴表１１０ａ（ファクト表１１０）とともに、新たな知識に基づく関係表１４に問合せを行うことができる。

【0087】

そして、パラメータを変えてデータマイニングを繰り返すことで、試行錯誤しながらモデル１３を生成することが可能となり、人の経験や仮説に頼ることなく、新たなモデル１３を抽出し、取得することが可能となるのである。そして、取得したモデル１３は、関係表１４としてデータウェアハウス１１に格納することで、上述のようにスタースキーマ１３０とともに問合せ可能となる。

【0088】

なお、データウェアハウス１１に格納されるデータは、業務アプリケーション３４０で生成されたデータに限定されるものではなく、他の計算機システムで生成または収集されたデータに基づきデータマイニングを適用して得られるモデル、あるいはそのモデルから変換して得られる関係表であってもよい。

【0089】

図１５〜図１９は、図２、図３のステップＳ３で示したように、データマイニング部４３０で得られた新しい知識としてのモデルを、知識反映部４５０がＳＱＬモデル（ＳＱＬ表現）に変換して、業務アプリケーション３４０で利用する例を示す。以下では、データウェアハウス１１から抽出した分析データセット（学習データ）１２'から、予測ＯＬＡＰ分析３３０で、新たなデータの属性の予測を行うための決定木１３−１をＳＱＬ表現に変換する例を示す。

【0090】

図１５は、データ選出部４２０がデータウェアハウス１１から抽出した分析データセット１２'にデータマイニングとして決定木の抽出を実施して、決定木１３−１を取得した例を示す。

【0091】

図１６は、分析データセット１２'の一例を示す図である。この分析データセット１２'は、図１２に示した分析データセット１２とは異なるデータで構成される。図１６の例では、分析データセット１２'が、顧客ｉｄ１２２１と、年齢１２２２と、職業１２２３と、収入１２２４と、映画の好き嫌いを格納する映画１２２５と、タブレットを保有しているか否かを格納するタブレット保有１２２６からひとつのレコードを構成する例を示す。これらの分析データセット１２'を構成する要素については、データ管理装置１の利用者が入力装置６等で次元表１２０ａ〜１２０ｄや顧客売上履歴表１１０ａのデータを指定する。この例では、顧客次元表１２０ｃと商品次元表１２０ａ及び顧客売上履歴表１１０ａにデータ選出部４２０が問合せて分析データセット１２'を生成する。なお、分析データセット１２'において、タブレット保有１２２６は、顧客ｉｄ１２２１に対応する商品識別子１１１から商品次元表１２０ａの商品識別子１２１を検索し、商品名にタブレットが存在すれば"あり"とし、存在しない場合は"なし"とする。

【0092】

データマイニング部４３０は、分析データセット１２'に対して決定木の抽出を実施し、図１５に示す決定木１３−１を取得する。この決定木１３−１は、業務アプリケーション３４０に適用して、新たなデータの属性を予測するものである。本実施例では、予測する属性として、タブレットの保有の有無を予測する例を示す。

【0093】

知識反映部４５０は、決定木１３−１を新たな知識としてのモデル１３として取得する。知識反映部４５０はデータマイニングの結果として抽出された決定木１３−１を、関係表１４'に変換する。

【0094】

知識反映部４５０は、関係表１４'として、決定木１３−１の木構造から、図１５に示す決定木のＳＱＬ表現１３１０、または決定表のＳＱＬ表現１３２０に変換する。決定表のＳＱＬ表現１３２０は、職業１３２１、映画１３２２、年齢１３２３、タブレット保有１３２４からひとつのレコードが構成される。

【0095】

知識反映部４５０は、決定木１３−１から決定木のＳＱＬ表現１３１０または決定表のＳＱＬ表現１３２０を生成し、図１７、図１８で示すように業務アプリケーション３４０に組み合わせる。

【0096】

図１７は、データ管理装置１で行われる予測処理の説明図である。データ管理装置１は、「タブレット保有」のカラムが未定の新たなデータ１００を受け付ける。データ管理装置１は、受け付けたデータ１００に対して予測ＯＬＡＰ分析３３０を実施し、決定木のＳＱＬ表現１３１０または決定表のＳＱＬ表現１３２０を含む関係表１４'を参照して、「タブレット保有」が「あり」と判定して、この予測値をデータ１００に加える。そして、知識反映部４５０は、予測値を加えたデータ１００'を、予測ファクト表１１０ｂとしてスタースキーマ１３０のファクト表１１０に追加する。

【0097】

このように、新たなデータを予測するためのＳＱＬ表現を決定木１３−１から生成し、新たなデータの予測値をスタースキーマ１３０のファクト表１１０に追加することで、予測した値を業務アプリケーション３４０等で利用することができる。

【0098】

図１８は、データ管理装置１で行われる予測処理の他の例を示す説明図である。図１５で示したように、新たな知識として取得した決定木のＳＱＬ表現１３１０（ＳＱＬモデル）または決定表のＳＱＬ表現１３２０を、業務アプリケーション３４０で利用する例を示す。この例では、見込み顧客に対するタブレットの販売の予測を、上記図１５で取得した決定木のＳＱＬ表現１３１０または決定表のＳＱＬ表現１３２０を用いて行うものである。

【0099】

図１８において、スタースキーマ１３０のファクト表１１０には、２０１３年６月１日〜２０日までの実際の売上（図中実算）と、予算が格納されている。業務アプリケーション３４０は、スタースキーマ１３０のファクト表１１０を読み込んで、タブレットの売り上げを出力装置７に表示する。

【0100】

予測の処理対象データは、図１８に示すように、タブレットの売り上げ見込み顧客のプロファイル２００である。データ管理装置１は、プロファイル２００から決定木のＳＱＬ表現１３１０（又は決定表のＳＱＬ表現１３２０）を用いて、各顧客毎のタブレットの保有の有無２１０を予測し、タブレットを保有していない人に、タブレットを販売したときの売上高の予測を行う。

【0101】

データ管理装置１の予測ＯＬＡＰ分析３３０は、プロファイル２００を読み込んで、決定木のＳＱＬ表現１３１０を用いて顧客毎にタブレット保有の有無２１０を予測する。さらに、予測ＯＬＡＰ分析３３０は、タブレット保有の有無２１０から２０１３年６月２１日〜３０日の売り上げ予測を算出し、ファクト表１１０ｃとしてファクト表１１０に追加する。なお、各日にち毎の売上予測は、プロファイル２００を日にち毎に分割したり、日にち毎のプロファイル２００を用意することで算出する。

【0102】

業務アプリケーション３４０は、ファクト表１１０に加えて、予測データ（図中の予測２１−３０）のファクト表１１０ｃも読み込んで、２０１３年６月１日〜２０日までの実際の売上（図中の実算１−２０）を実線で表示し、また２０１３年６月１日〜２０日までの予算を破線で表示し、さらに２０１３年６月２１日〜３０日までの予測値を点線で表示する。

【0103】

以上のように、情報システム系で分析データセット１２'から得たモデル１３（決定木１３−１）をＳＱＬ表現（ＳＱＬモデル）の関係表１４'に変換し、業務アプリケーション３４０で利用することにより、新たなデータの利用方法を提供することが可能となる。

【0104】

図１９は、データ管理装置１で行われる予測処理の一例を示すフローチャートである。

【0105】

データクレンジング部４１０は、業務アプリケーション３４０で生成されたデータベース１０について、データクレンジングを実施する（Ｓ４１）。データクレンジング部４１０によってデータベース１０のデータの整合性を確保した後に、当該データをデータウェアハウス１１に格納する。

【0106】

次に、データ選出部４２０により、データウェアハウス１１に格納されたデータを選択し、分析データセット１２'を生成する。分析データセット１２'は、データ選出部４２０が分析対象のデータを含む複数の次元表１２０ａ〜１２０ｄや履歴表１１０ａ（ファクト表１１０）に対して、関連付けジョインや、集約等の問合せを行うことでデータウェアハウス１１から抽出する（Ｓ４２）。

【0107】

データマイニング部４３０は、分析データセット１２'に対してデータマイニングを実施して、モデル１３を抽出する（Ｓ４３）。このモデル１３は、例えば、図６に示した決定木１３−１として分析データセット１２から抽出される。なお、データマイニング部４３０によって抽出されたモデル１３を、そのまま新たな知識として取得する場合には、モデル評価部４４０を省略してもよい。

【0108】

次に、データ管理装置１は、新たな知識として取得されたモデル１３を関係表１４'に変換する（Ｓ４４）。この際、図１５で示したように、知識反映部４５０は、予測を可能にする決定木のＳＱＬ表現（または述語表現）１３１０または決定表のＳＱＬ表現１３２０から構成される関係表１４'に変換する。

【0109】

次に、予測ＯＬＡＰ分析３３０は、新たなデータを受け付けると、決定木のＳＱＬ表現１３１０または決定表のＳＱＬ表現１３２０を用いて、予測した結果を新たなファクト表１１０ｃとして生成する（Ｓ４５）。予測ＯＬＡＰ分析３３０は、新たに生成したファクト表１１０ｃをデータウェアハウス１１に格納される顧客売上履歴表１１０ａに加える（Ｓ４６）。

【0110】

次に、知識反映部４５０は、取得した決定木のＳＱＬ表現１３１０または決定表のＳＱＬ表現を、業務アプリケーション３４０に組み合わせる（Ｓ４７）。そして、業務アプリケーション３４０を実行することで（Ｓ４８）、新たに加えたファクト表１１０ｃを既存のファクト表１１０と共に活用することができる。

【0111】

以上のように、分析データセット１２からデータマイニング部４３０よって抽出したモデル１３から、新たなデータを予測する決定木のＳＱＬ表現１３１０または決定表のＳＱＬ表現１３２０からなる関係表１４'へ変換する。そして、決定木のＳＱＬ表現１３１０または決定表のＳＱＬ表現１３２０で予測したデータで新たなファクト表１１０ｃを追加し、既存のファクト表１１０に加える。そして、決定木のＳＱＬ表現１３１０または決定表のＳＱＬ表現１３２０を業務アプリケーション３４０に組み合わせることで、新たなファクト表１１０ｃを追加した既存のファクト表１１０を利用することが可能となるのである。換言すれば、決定木のＳＱＬ表現１３１０または決定表のＳＱＬ表現１３２０でデータの属性を予測し、予測した結果を業務アプリケーション３４０へ提供することで、既存の業務アプリケーション３４０に変更を加えることなく、新たなモデル１３を利用することができるのである。

【0112】

以上のように、本実施例では、データマイニング部４３０で取得された知識、即ち決定木１３−１、クラスタリング結果１３−２等のモデル１３と、基幹系システムの業務アプリケーション３４０のＳＱＬデータモデルを組み合わせることができる。また、取得したモデル１３を変換した関係表をデータウェアハウス１１に格納して再度データマイニングの別の手法を適用することができる。つまり、決定木１３−１、クラスタリング結果１３−２からなるモデル１３をＳＱＬモデルに変換し、関係表１４（または１４'）として表現することで、データウェアハウス１１のファクト表（事実表）１１０、次元表１２０ａ〜１２０ｄとともに問合せが可能となる。

【0113】

そして、取得したモデル１３の関係表１４'への問合せ処理は、既存の業務アプリケーション３４０の変更なしに実行が可能である。また、同じ分析データセット１２（１２'）に対してカテゴリや分類を変えて設定パラメータが異なる分析評価を繰り返すことで、試行錯誤しながら新たなモデル１３を抽出することができる。特に、大量のデータに対して設定パラメータが異なる分析評価を繰り返すことで、人の経験や仮説に依存しない新たな知識、換言すれば新たなモデル１３を抽出し、業務アプリケーション３４０に適用することが可能となるのである。

【0114】

また、上記実施例では、データマイニングの手法として決定木及びクラスタリングを示したが、この他の手法、例えば相関ルール抽出などにも適用が可能である。相関ルール抽出の場合、相関ルールはデータ項目が同時に発生するという共起性に着目して、複数のデータ項目間に有意な規則性を発見する。この規則性は、実施例に示唆する決定木のＳＱＬ表現（図１５、図１７の決定木のＳＱＬ表現１３１０）と同様に、ＣＡＳＥ〜ＷＨＥＮ〜ＴＨＥＮ〜のような表現が可能である。即ち、相関ルール抽出を適用することで、相関ルールのＳＱＬ表現（ＣＡＳＥ〜ＷＨＥＮ〜ＴＨＥＮ〜）を関係表１４に反映できる（図３、図４の関係表１４）。これによって、図６に示す決定木を利用する商品推薦と同様に、相関ルール抽出に基づき、同時購入される商品の推薦などに適用が可能である。さらに、回帰分析、判別分析などその他の統計解析手法を適用してＳＱＬ表現（ＣＡＳＥ〜ＷＨＥＮ〜ＴＨＥＮ〜）を関係表１４に反映できれば、同様に適用が可能である。

【0115】

また、上記実施例では、データベース１０を管理する業務アプリケーション３４０と、データウェアハウス１１と、知識抽出システム３０を同一の計算機で提供する例を示したが、それぞれ異なる計算機で提供されても良い。例えば、業務アプリケーション３４０及びデータベース１０を業務サーバで提供し、データウェアハウス１１と知識抽出システム３０を分析サーバで提供するようにしてもよい。

【0116】

また、本実施例では、補助記憶装置４を含む計算機でデータ管理装置を構成する例を示したが、ネットワークを介してデータ管理装置１と補助記憶装置が接続される構成であっても良い。

【0117】

なお、本発明において説明した計算機等の構成、処理部及び処理手段等は、それらの一部又は全部を、専用のハードウェアによって実現してもよい。

【0118】

また、本実施例で例示した種々のソフトウェアは、電磁的、電子的及び光学式等の種々の記録媒体（例えば、非一時的な記憶媒体）に格納可能であり、インターネット等の通信網を通じて、コンピュータにダウンロード可能である。

【0119】

また、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明をわかりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。

【図1】