(58)【調査した分野】(Int.Cl.,DB名)
回帰分析による予測の対象となる対象フィールドで収集されるデータの属性の一部と同じ属性を有する簡易疑似データセットを、前記対象フィールドで収集されるデータとは別の手段で収集されたデータに基づいて作成する第1の作成手段と、
前記作成した簡易疑似データセットを用いて回帰式を導出する導出手段と、
前記導出した回帰式について、前記対象フィールドにおける回帰分析のための目的変数の予測に有用な説明変数に、前記のフィールドで収集されるデータとの分布のずれを補正するための説明変数を付加して、この付加後の説明変数と前記導出した回帰式の目的変数について前記対象フィールドから正解値となるデータを抽出する第1の抽出手段と、
前記抽出したデータと前記対象フィールドと異なるフィールドで収集されるデータセットとの間に分布の有意差があるか否かを判定し、前記有意差がある場合に前記有意差を及ぼす説明変数を前記正解値となるデータから抽出する第2の抽出手段と、
前記有意差を及ぼす説明変数について、前記対象フィールドで収集されるデータとは別の手段で収集されたデータに基づいて、前記対象フィールドで収集されるデータと特徴量が同じ、前記対象フィールドにおける目的変数の予測に有用な疑似データセットを作成する第2の作成手段と
を備えたことを特徴とするデータ分析装置。
【背景技術】
【0002】
近年、Web上のデータやセンサなどから自動収集できるデータとして、医療データや会社の経理データなど様々な種類のデータが身の回りに溢れている。これらのデータはビッグデータと呼ばれ、様々な分野の人がその活用方法の検討や分析を行っている。例えば、人の行動パターンや嗜好に関する特徴量を抽出し、その特徴量を活用して、サービスを提案したり行動予測をしたりする(例えば非特許文献1,2参照)。
【0003】
上記の予測は、小学校の児童の行動予測、株価予測、サービス提案時の嗜好予測など様々なシーンで必要とされる。いずれも人が介在しているため、人に関するデータを如何に収集するかは重要なテーマである。
【0004】
一般に、人の行動や感情の予測は、回帰分析を用いて行われる。予測対象が個人の場合、回帰分析に使うデータはライフログ(例えば感情や体調の情報)を使う場合が多い。予測対象がマスユーザ(mass user)の場合、性別や年齢層、性格などの静的属性に基づいてデータを分類し、この分類したタイプ別に予測を行う事が多い。
【0005】
予測に用いる回帰式は、新たに発生した出来事後の人に対する感情をできるだけ高い確度で予測できることが重要となる。
心理学や経済学では、性差や年齢層で特徴が違うという前提の下、これらの変数でデータセットを分け(セグメンテーション)、このセグメンテーション毎に回帰分析を行って予測式を導出することで予測精度を高めている。
【0006】
インターネットショッピングなどでよく使われているリコメンデーションは、ユーザが当該商品に興味の有無をユーザのプロファイルに合致しているかどうかの2値判定で行うことで、合致していればリコメンドする。これは、当該商品を閲覧した又は購入したユーザと同じプロファイルを持つユーザは同じような商品に興味があると考え、“Aの商品を買った人はBの商品も買っている”とリコメンドをしても、50%以上の精度で正解すると予測している(例えば非特許文献3参照)。
【0007】
統計手段の1つである回帰分析を行う場合、クロスバリデーションを考えると、データは最低でも100サンプルは必要となる。しかし、なんらかの出来事を契機に変化する職場の人間関係把握に必要な対人感情の変化データは、長い時間をかけないと予測に必要な収集できない。また、サービスを初めて利用する際に行うユーザ登録直後や短期間に実施しなければならないユーザ行動を誘発する実証実験のように、個人のプロファイルに関するユーザデータが少ない状況おいても、最初からそれなりに適切なサービスリコメンデーションを行いたいとのニーズがある。
【発明の概要】
【発明が解決しようとする課題】
【0009】
ここでは、回帰分析を使って予測を行う対象フィールドから少しずつしかデータ収集できない場合、どのようにして回帰式を導出すればよいかについて説明する。
データが少ない場合は、現状、2つの方法で対応している。1つ目の方法は、ランダムに予測結果を出力し、結果に対するフィードバックを何度も受けることで、時間をかけて徐々に学習を行い、カスタマイズをしていく方法である。2つ目の方法は、他の手段を使って収集した大規模データから導出した平均値を予測値として使う。
当然ながら、初期状態では上記の2つの方法とも予測精度が悪いが、1つめの方法は100サンプル以上のデータが集まると、対象フィールドにあった回帰式が作れるようになる。
【0010】
1つめの方法のように時間をかけて学習データを貯めていく方法は、数か月おきに人事異動があるような職場では、メンバが次に入れ替えわるまでの時間の方が、学習データが貯まる時間より短いこともあるので、一部の学習が一旦リセットされることになり、対人感情を精度よく予測できる回帰式を何時まで経っても導出することができない。このため、人の心理情報を活用した予測技術を実用サービスの中で使おうとしても、サービスとして十分な予測精度が出せないため、本技術の実用化は難しい。
【0011】
本発明の目的は、統計分析に必要な、十分なデータが集まらない状況でも、アプリケーションの要求を満たす精度での予測が可能な回帰式を短期間で導出することができるデータ分析装置、データ分析方法、データ分析処理プログラムを提供することである。
【課題を解決するための手段】
【0012】
上記目的を達成するために、この発明の実施形態におけるデータ分析装置の第1の態様は、回帰分析による予測の対象となる対象フィールドで収集されるデータの属性の一部と同じ属性を有する簡易疑似データセットを、前記対象フィールドで収集されるデータとは別の手段で収集されたデータに基づいて作成する第1の作成手段と、前記作成した簡易疑似データセットを用いて回帰式を導出する導出手段と、前記導出した回帰式について、前記対象フィールドにおける回帰分析のための目的変数の予測に有用な説明変数に、前記のフィールドで収集されるデータとの分布のずれを補正するための説明変数を付加して、この付加後の説明変数と前記導出した回帰式の目的変数について前記対象フィールドから正解値となるデータを抽出する第1の抽出手段と、前記抽出したデータと前記対象フィールドと異なるフィールドで収集されるデータセットとの間に分布の有意差があるか否かを判定し、前記有意差がある場合に前記有意差を及ぼす説明変数を前記正解値となるデータから抽出する第2の抽出手段と、前記有意差を及ぼす説明変数について、前記対象フィールドで収集されるデータとは別の手段で収集されたデータに基づいて、前記対象フィールドで収集されるデータと特徴量が同じ、前記対象フィールドにおける目的変数の予測に有用な疑似データセットを作成する第2の作成手段とを有する装置を提供する。
【0013】
上記構成のデータ分析装置の第2の態様は、第1の態様において、前記第1の抽出手段は、前記付加後の変数のうち、回帰係数が所定の条件を満たして大きい変数と前記導出した目的変数について前記対象フィールドから前記正解値となるデータを抽出する装置を提供する。
【0014】
上記構成のデータ分析装置の第3の態様は、第1または第2の態様において、前記簡易疑似データセット、または前記対象フィールドで収集されるデータと特徴量が同じ疑似データセットに対し、欠損値の補完を行なう補完手段をさらに備えた装置を提供する。
【0015】
本発明の実施形態におけるデータ分析方法の態様は、データ分析装置に適用される方法であって、回帰分析による予測の対象となる対象フィールドで収集されるデータの属性の一部と同じ属性を有する簡易疑似データセットを、前記対象フィールドで収集されるデータとは別の手段で収集されたデータに基づいて作成し、前記作成した簡易疑似データセットを用いて回帰式を導出し、前記導出した回帰式について、前記対象フィールドにおける回帰分析のための目的変数の予測に有用な説明変数に、前記のフィールドで収集されるデータとの分布のずれを補正するための説明変数を付加して、この付加後の説明変数と前記導出した回帰式の目的変数について前記対象フィールドから正解値となるデータを抽出し、前記抽出したデータと前記対象フィールドと異なるフィールドで収集されるデータセットとの間に分布の有意差があるか否かを判定し、前記有意差がある場合に前記有意差を及ぼす説明変数を前記正解値となるデータから抽出し、前記有意差を及ぼす説明変数について、前記対象フィールドで収集されるデータとは別の手段で収集されたデータに基づいて、前記対象フィールドで収集されるデータと特徴量が同じ、前記対象フィールドにおける目的変数の予測に有用な疑似データセットを作成する方法を提供する。
【0016】
本発明の実施形態におけるデータ分析処理プログラムの態様は、第1乃至第3のいずれかの態様におけるデータ分析装置の一部分として動作するコンピュータに用いられるプログラムであって、前記コンピュータを、前記第1の作成手段、前記導出手段、前記第1の抽出手段、前記第2の抽出手段、および第2の作成手段として機能させるためのプログラムを提供する。
【発明の効果】
【0017】
本発明によれば、統計分析に必要な、十分なデータが集まらない状況でも、アプリケーションの要求を満たす精度で予測できる回帰式を短期間で導出することが可能になる。
【発明を実施するための形態】
【0019】
以下、この発明に係わる実施形態を説明する。
図1は、データ収集期間と予測精度との関係をグラフ形式で示す図である。
図1に示すように、実世界における、回帰分析による予測対象のフィールド(以下、対象フィールドと称することがある)で、十分なサンプル数でデータが集まらない場合は、特性は
図1に示した特性cのように、予測精度が著しく低くなる。また、
図1に示した特性bのように、他の手段を使って収集した大規模データから導出した平均値を初期状態の予測値として使った場合でも、予測精度は十分とはいえない。
【0020】
これに対し、本発明では、上記のサンプル数が十分でない場合でも、大量のサンプルを集められる他の手段から、さらにサンプルが十分でない対象フィールドと特徴量が同じデータセットを作り統計分析を行うことで、
図1に示した特性aのように、予測したい対象のフィールドにできるだけ近い形の回帰式の適切な初期値を与えることを可能にする技術である。
【0021】
本発明の1つめの特徴は、下記の第1の実施形態に関係する技術であり、対象フィールドからデータが収集し辛い環境であっても、ビッグデータなどの大規模データから、対象フィールドから集めるデータ(以下、対象フィールドデータと称することがある)と特徴量が同じ説明変数に着目し、対象フィールドにおける目的変数の予測に有用な疑似データセット(模擬データセットと称することもある)を生成することで、対象フィールドから収集できるデータが少ない状況でも、対象フィールドに適度に適合する回帰式を短期間で導出できることである。
【0022】
本発明の2つめの特徴は、下記の第2の実施形態に関係する技術であり、どんな入力データであっても、安定した精度で予測が可能になるよう、真に予測に必要な説明変数を絞り込むことである。
本発明の3つめの特徴は、下記の第3の実施形態に関係する技術であり、データに欠損が存在しても改良EM(Expectation Maximization)アルゴリズム(期待値最大化法)などのデータ補完技術を用いて正しい分析を可能とすることである。
【0023】
(第1の実施形態)
次に、第1の実施形態について説明する。
図2は、本発明の第1の実施形態の概要を示す図である。
図2に示すように、第1の実施形態では、対象フィールドにおいて回帰分析に必要なデータが十分集められず、対象フィールドにおいて収集したフィールドデータセット202が、要求を満たす精度で予測が可能なデータでない場合に、別の手段を使って収集した大規模データセット(例えばWebデータ、センサデータ、大規模なアンケートデータなど)201の中から、対象フィールドで収集されるデータと特徴量が同じ疑似データセット203を生成して、ある程度対象フィールドに適合した予測が可能な回帰式を短期間で導出することについて述べる。
【0024】
図3は、本発明の第1の実施形態におけるデータ分析システムの機能構成例を示す図である。
図3に示すように、第1の実施形態におけるデータ分析システムは、端末1,2,3、センサ4、サーバ5、データ管理部6、データベース7、センサ8を有する。
【0025】
端末1,2は、Webや手入力などを使って大規模データを収集する。
端末3は、対象フィールドでデータを収集する。
センサ4は、RFID(Radio Frequency IDentification)タグなどで、対象フィールドでどこに誰がいるかのデータを検出(収集)する。サーバ5は、収集されたデータを格納処理するためのデータ管理部6、データベース7を有する。
データベース7は、不揮発性メモリなどの記憶装置であり、収集されたデータを格納する。データ管理部6は、格納されたデータを管理する。センサ8は、RFIDなどで大規模データを収集する。
【0026】
図4は、本発明の第1の実施形態におけるデータ分析システムのデータ管理部の機能構成例を示す図である。
図4に示すように、データ管理部6は、大規模データ管理部41、予備データ作成部42、予測計算部43、有意差判定部44、予測対象データ管理部45、模擬データ抽出部46を有する。
【0027】
大規模データ管理部41は、Webやセンサ8などを使って収集した大規模データを管理する。予備データ作成部42は、大規模データ管理部41により管理するデータの中から、対象フィールドの属性と1つまたは2つ同じ属性を有するデータセットを作成する。
【0028】
予測計算部43は、回帰分析などを使って有用な説明変数の選択や予測精度を計算する。予測対象データ管理部45は、予備データ作成部42により生成したデータセットに対して予測計算部43により生成した調査項目にしたがって収集したデータをデータベース7に格納することで管理する。
【0029】
有意差判定部44は、対象フィールドと同じようなデータセットを作成する際に、どの説明変数に着目してデータセットを作成すればよいかをt検定やf検定などを使って判定する。
模擬データ抽出部46は、予備データ作成部42または大規模データ管理部41で管理されるデータから予測対象フィールドと特徴量が同じデータであって、対象フィールドにおける目的変数の予測に有用な疑似データを作成する。
【0030】
上記の予測計算部43は、予測や変数選択を行う回帰分析実行部431、知りたいこと(予測したいこと)を示し、この対象フィールドにおける回帰分析のための目的変数を設定する目的変数指定部432、目的変数予測に有用な可能性がある属性を網羅的に指定する説明変数指定部433を有する。
【0031】
また、有意差判定部44は、t検定やf検定を行う検定実行部441、5%や10%などあらかじめ定めたt値やf値に基づいて比較したデータ同士に有意差があるか否かを判定する有意差判定部442を有する。
【0032】
処理は、次の2つのステップ(StepA、StepB)で行う。
(StepA)
StepAでは、まず、大規模データを使って、目的変数の予測に有用な説明変数を回帰分析により大まかに選定する。また、回帰式の最終的な作成対象である選定した説明変数に補正データを付加した変数と目的変数に関し、対象フィールドからデータを収集する。
【0033】
(StepB)
StepBでは、StepAで収集したデータセットと大規模データとの分布のずれをt検定やf検定で確認し、ずれのある変数に着目して、対象フィールドと特徴量が同じ疑似データセットを作成し、このデータセットを用いて対象フィールドに適合した回帰式を導出する。
【0034】
図5は、本発明の第1の実施形態におけるデータ分析システムで扱う各種データセットの関係の一例を示す図である。
図5に示すように、StepAでは、大規模データセット201から先行研究や経験値から特徴が表れそうな説明変数を使った簡易疑似データセット211を作成し、このデータセットを使って、対象フィールドの目的変数の予測に関係しそうな変数を絞り込み、この変数に関して調査(対象フィールドからのデータ収集)する。
次に、この対象フィールドから収集したフィールドデータセット202を元に、逆に大規模データからデータを収集して対象フィールドに適合した擬似的な疑似データセット203を作成する。
【0035】
以下、StepA、StepBの詳細について順次説明する。
まずStepA(大規模データを使って大雑把に有用な変数を選定すること)の詳細について説明する。
図6は、本発明の第1の実施形態におけるデータ分析システムによる第1の処理動作の概要を示す図である。
図7は、本発明の第1の実施形態におけるデータ分析システムによる第1の処理動作の手順の一例を示すフローチャートである。
まず、知りたいことである目的変数と、どんな属性から目的変数を予測するのかを説明する説明変数とが決定された上で、大規模データ管理部41は、対象フィールドに存在する、目的変数や説明変数に関するデータが、回帰分析を行なうのに必要な量のデータであるか否かを確認する(A1)。必要な量の目安は、例えばクロスバリデーションを考慮した100サンプル以上である。
【0036】
必要な量のデータであれば(A1のNO)、予測計算部43の目的変数指定部432は、目的変数を何にするかを決定する。次に、予測計算部43の説明変数指定部433は、どんな属性からだったらこの目的変数を上手く予測できるかを想定して説明変数の候補を列挙して指定する。
【0037】
次に、予測計算部43の回帰分析実行部431は、回帰分析(回帰式を作成するための分析)を行い、あらかじめ定めた決定係数や予測精度を参照しながら、予測式(回帰式)の有用性を判定する(A2)。
【0038】
一方、必要な量のデータがない場合、または既存の大規模データの中に必要な説明変数や目的変数がない場合(A1のYES)、大規模データ管理部41は、短期間で効率よくデータ収集できる手段、例えばWebアンケートなどを用いて、分析用のデータセットとしての大規模データセット201を作成する。
【0039】
一般に、男女別や年齢層、職種などでセグメンテーションを行ったデータセットを使った方が予測精度は高い。これは、より対象の傾向を反映しやすくできるためである。
本実施形態では、予測精度を少しでも高くするために、予備データ作成部42を使って、最終的に回帰式を作成したい対象フィールドに対して静的属性が1〜2個同じもの(例えば職種、年齢層)で大規模データからセグメンテーションし、予備分析用の簡易疑似データセット211を作成し、このデータセットを用いて回帰式を導出する(A3)。
【0040】
この簡易疑似データセット211は、ある属性に着目した一般的な傾向を分析するためのデータセットである。簡易疑似データセット211は、端末1,2を使って手入力したデータや、センサ8を使って自動収集したデータを予め定めたルールにしたがってカテゴリデータまたは量的データに変換したデータによって生成される。
【0041】
上記の簡易疑似データセット211を用いて、予測計算部43の回帰分析実行部431は、目的変数の予測に有用な説明変数を回帰分析により選択する。選択の際は、回帰分析実行部431は、クロスバリデーションを予め指定した回数行い、目的変数を予測するために選択されやすい説明変数の中から回帰係数の絶対値ができるだけ大きい変数を選択する。
【0042】
この選択により、目的変数を予測するために有用な一般的な説明変数が判明するが、これが、必ずしも対象フィールドに適合しているとは限らない。収集するデータの種類をいくつにするかは、アプリケーション要件によって異なるが、ユーザの手入力も考慮すると、次元数(種類)を大幅に増加させることはできない。
【0043】
そこで、説明変数の予め定められた数に、対象データとのずれを補正するための数αだけデータを付加し、この付加した数の説明変数と目的変数に関し、対象フィールドから正解値となるデータをフィールドデータセット202として収集する(A4)。αを何種類の変数にするかは、アプリケーション要件によって予め定められる。この収集されたデータは予測対象データ管理部45に渡され、予測対象データ管理部45は、この渡されたデータをデータベース7に格納する。
【0044】
一般的に有用と判定された説明変数とフィールドデータセット202との分布のずれは、予測対象データ管理部45を用いて確認する。対象フィールドからは、端末3やセンサ4を用いてフィールドデータセット202を収集し、データベース7に格納する。センサ4からのデータは、センサ8から収集したデータと同様に、カテゴリデータか量的データに変換される。この際、一般的傾向とのずれが大きい場合も考慮して、回帰分析実行部431は、回帰係数の小さい変数も数種類程度収集してもよい。
【0045】
(StepB)
次にStepB(フィールドから収集したデータと似て、かつ目的変数の予測に有用な疑似データセットを大規模データから作成すること)の詳細について説明する。
図8は、本発明の第1の実施形態におけるデータ分析システムによる第2の処理動作の概要を示す図である。
図9は、本発明の第1の実施形態におけるデータ分析システムによる第2の処理動作の手順の一例を示すフローチャートである。
まず、有意差判定部44は、対象フィールドから収集したフィールドデータセット202をデータベース7から読み出すことで入力して、StepAのA3で導出した回帰式を用いた予測結果の正解率を計算することで(B1)、上記のフィールドデータセット202が一般的な大規模データセット201と比べてずれが大きいか否かを判定する(B2)。ずれが大きくない、例えば正解率が50%以下でない場合(B2のNO)は、大規模データセット201などから収集したフィールドデータセット202が一般的傾向に沿っており、このデータから導出した回帰式は適切であると判断する。
【0046】
一方、ずれが大きい場合、例えば正解率が50%以下である場合(B2のYES)は、大規模データセット201などから収集したフィールドデータセット202の傾向が一般的傾向とは違う可能性が高いので、このデータセットから導出した回帰式が適切でないと判断する。
【0047】
ここで、どのデータに着目してデータセットを作成すれば、目的変数の観点から、対象フィールドから収集するデータセットと同じ特徴量を持つデータセットを作成することが可能になるかについて述べる。
【0048】
検定実行部441は、対象フィールドで収集されたフィールドデータセット202と、StepAのA3で導出された回帰式の元となる大規模データセット201とを比較し、これらのデータの間に分布の違いがあるか否かを、同一変数間でt検定またはf検定を用いることで確認する(B4)。
【0049】
有意差判定部442は、予め定められたt値またはf値において、有意差がある説明変数を抽出することで、対象フィールドから収集したフィールドデータセット202が一般的な大規模データセット201と比べてずれが大きいことを示す有意差があるか否かを判定する。有意差がある説明変数の項目は、StepAで一般の傾向分析に用いた大規模データセット201とは異なる、フィールドデータセット202に特有の分布となっている。よって、フィールドデータセット202と似て、かつ目的変数の予測に有用な疑似データセット203を作成するには、この有意差のある項目において、フィールドデータと同じデータで大規模データのセグメンテーションを行う。
【0050】
例えば、「性格」という説明変数において、“社交的か否か”を示す「0」または「1」のデータに有意差がある場合について述べる。
フィールドデータセット202における社交的であるという「1」というデータが有意であれば、大規模データセット201から、社交的を示すデータ「1」であるデータセットを作成する。つまり、社交的であるというデータでセグメンテーションを行うということになる。セグメンテーションを行なった結果、生成されたデータセットは、フィールドデータセット202と似て疑似データセット203となる。
【0051】
模擬データ抽出部46は、疑似データセット203の作成で参照した説明変数における上記のように有意差が大きい説明変数に着目して、この変数にマッチするデータとして、別の手段で収集されたデータ(大規模データセット201または絞り込みデータセット(簡易疑似データセット202)から、対象フィールドでのフィールドデータセット202と特徴量が同じ疑似データセット203を作成する。
そして、サンプル数が統計分析に必要な数(目安は100サンプル)以上であれば、回帰分析実行部431は、疑似データセット203が適切な分析が可能なデータセットであると判断し、この疑似データセット203に基づいて対象フィールド用の模擬回帰式を導出する。
【0052】
この模擬回帰式は、対象フィールドに適用され、例えば、回帰分析実行部431は、適当なタイミングで結果の正解および不正解を収集し、この収集結果を模擬回帰式へフィードバックする。
【0053】
この模擬回帰式は、対象フィールドを元に生成した疑似データセット203から導出した式なので、従来方法に比べて、対象フィールドへ適用した初期状態から比較的精度のよい予測が実現できる。また、対象フィールドから収集するデータも単体を用いた場合では例えば1年以上の長期調査が必要な場合がある。
【0054】
この場合、調査期間が例えば1〜2カ月といった短期間に収集した少ないデータから対象フィールドでのデータを模擬したデータセットを作成することで、対象フィールド単体からデータ収集する場合に比べて短期間で予測精度の高い回帰式を作成することができる。
【0055】
また、上記のStepAにおいて、予測対象で正解値となるデータを簡易疑似データセットから収集する際、目的変数を予測するのに必要なデータのみを収集するので、従前のように、手当り次第情報を収集していたところを、目的変数に指定した情報である、知りたい事に必要な情報に絞り込みができる。よって、システム開発時における、不必要な情報収集のための設計開発が不要になり、また、プライバシー保護を実現できるとともに、仮にユーザからの手入力があったとしても手入力にかかる負荷を最小化できる。
【0056】
(第2の実施形態)
次に、第2の実施形態について説明する。
図10は、本発明の第2の実施形態におけるデータ分析システムのデータ管理部の機能構成例を示す図である。
図10に示すように、第2の実施形態では、第1の実施形態で説明したデータ管理部6は、調査する変数に上限を設けるための次元削減部111をさらに有する。
【0057】
統計学において、一般に高い精度で予測をするためには、回帰式に多くの属性の種類の変数を使うことが多い。
しかし、ユーザの手入力も考慮した実用サービスを考えると、所望の予測結果を出力するために入力しなければならないデータが多くなればなるほど、ユーザの入力負荷が高くなり、サービスとしての定着率が低くなる。また、本発明の目的は、現在あるデータセットを使って導出した回帰式による未来の予測なので、予測に必要な説明変数の数が多いと、その変数に対する入力データがない場合は計算できない。また、変数が多いとうことは、それらすべてにデータが入力されるたびに予測値が変わるということになり、安定した予測精度をだすことができない。
【0058】
そこで、回帰式の中で用いた説明変数を再度見直し、予測結果にあまり影響を与えない説明変数を回帰式から除くことで、何回か新しいデータを入力したとしても目標とする予測精度を安定して実現できるようにする。
【0059】
第2の実施形態では、予測結果にあまり影響を与えない説明変数を特定するために、予測に有用でない変数の回帰係数をゼロ化できるスパース(sparse)推定を使う。しかし、現状のスパース推定を使っても、例えば100を超える説明変数の数を30程度にしか減らせないことも多い。
全ての説明変数に入力するデータがすべて手入力になることを考えると、例えば30でも多すぎるため、最終目標の説明変数の数は10以下とすることが望ましい。
【0060】
最終的に対象フィールドの回帰式を作るためには、再度、スパース推定で選択した対象フィールドでデータ収集する必要があるが、ユーザの回答負荷と対象フィールドへのカスタマイズの補正を考えると、次元削減部111により回帰式から除かれるべき説明変数は、スパース推定を用いて完全にゼロとなった説明変数以外にも、上記の10以外にも回帰係数の大きい順にいくつか残しておく必要がある。
【0061】
そこで、第2の実施形態では、次元削減部111は、クロスバリデーションを何度か行い、絶対値が大きい説明変数から順に、予測に有用な説明変数と判断し、これらの説明変数にプライオリティを付与する。次元削減部111は、絶対値の平均がゼロに近い回帰係数に関わる説明変数は、予測精度の計算に有用でないと判断し、予測に使う回帰式の説明変数から除く。
【0062】
以上のように、第2の実施形態では、ユーザの手入力負荷の軽減、計算に必要な変数を少なくすることによる安定した予測の実現、およびアンケートでデータを収集するとしても設問数を少なくできるので、回答者の少量の入力によるデータ品質低下防止の実現が可能となる。
【0063】
(第3の実施形態)
次に、第3の実施形態について説明する。
図11は、本発明の第3の実施形態におけるデータ分析システムのデータ管理部の機能構成例を示す図である。
図11に示すように、第3の実施形態では、第2の実施形態で説明したデータ管理部6は、欠損値対応部(欠損値補完部)121を有する。この欠損値対応部121は、回帰分析に用いるデータセットに欠損が生じてしていたとしても、平均値などを用いる方法や、改良EMアルゴリズムを用いた、欠損値があっても当該欠損値を含んだ状態で尤もらしい推定を行う最尤法などを用いたり、欠損値を含むレコードを削除したりすることで、欠損部を補完する。これにより、回帰分析のために作成したデータセットに欠損値があったとしても、欠損の起こり方に対応した回帰分析が行えるようになる。
【0064】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【0065】
また、各実施形態に記載した手法は、計算機(コンピュータ)に実行させることができるプログラム(ソフトウエア手段)として、例えば磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD、MO等)、半導体メモリ(ROM、RAM、フラッシュメモリ等)等の記録媒体に格納し、また通信媒体により伝送して頒布することもできる。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウエア手段(実行プログラムのみならずテーブルやデータ構造も含む)を計算機内に構成させる設定プログラムをも含む。本装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウエア手段を構築し、このソフトウエア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスクや半導体メモリ等の記憶媒体を含むものである。