(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6075279
(24)【登録日】2017年1月20日
(45)【発行日】2017年2月8日
(54)【発明の名称】データ分析装置、方法およびプログラム
(51)【国際特許分類】
G06F 17/18 20060101AFI20170130BHJP
【FI】
G06F17/18 Z
【請求項の数】5
【全頁数】23
(21)【出願番号】特願2013-257489(P2013-257489)
(22)【出願日】2013年12月12日
(65)【公開番号】特開2015-114916(P2015-114916A)
(43)【公開日】2015年6月22日
【審査請求日】2015年11月26日
【新規性喪失の例外の表示】特許法第30条第2項適用 ▲1▼2013年9月22日 International Symposium:Incomplete Data Analysis and Causal Inference 「Full information maximum likelihood estimation in factor analysis with a large number of missing values」(欠損データ解析と因果推論に関する国際シンポジウム「大量欠損時の因子分析モデルにおける完全情報最尤推定」)を通じて発表 ▲2▼2013年9月22日 International Symposium:Incomplete Data Analysis and Causal Inference(欠損データ解析と因果推論に関する国際シンポジウム)にて発表
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】504176911
【氏名又は名称】国立大学法人大阪大学
(74)【代理人】
【識別番号】100108855
【弁理士】
【氏名又は名称】蔵田 昌俊
(74)【代理人】
【識別番号】100103034
【弁理士】
【氏名又は名称】野河 信久
(74)【代理人】
【識別番号】100075672
【弁理士】
【氏名又は名称】峰 隆司
(74)【代理人】
【識別番号】100179062
【弁理士】
【氏名又は名称】井上 正
(72)【発明者】
【氏名】今田 美幸
(72)【発明者】
【氏名】吉田 学
(72)【発明者】
【氏名】松尾 真人
(72)【発明者】
【氏名】狩野 裕
(72)【発明者】
【氏名】廣瀬 慧
【審査官】
圓道 浩史
(56)【参考文献】
【文献】
特開2010−044674(JP,A)
【文献】
特開2010−079769(JP,A)
【文献】
特開2013−131194(JP,A)
【文献】
Kei Hirose, Michio Yamamoto,Sparse estimation via non-concave penalized likelihood in factor analysis model,米国,Cornell University Library,2013年 5月15日,v3,1-23,[online],URL,https://arxiv.org/pdf/1205.5868v3.pdf
【文献】
廣瀬 慧 Kei HIROSE,構造方程式モデリングによる対人認知構造モデルの構築 Construction of Interpersonal Cognitive Structure Model via Structural Equation Modeling,電子情報通信学会技術研究報告 Vol.112 No.242 IEICE Technical Report,日本,一般社団法人電子情報通信学会 The Institute of Electronics,Information and Communication Engineers,2012年11月13日,第112巻,p.143-148
(58)【調査した分野】(Int.Cl.,DB名)
G06F15/18
17/00−17/18
G06N 3/00−99/00
(57)【特許請求の範囲】
【請求項1】
観測された観測データを受け取って記憶媒体に格納する手段と、
前記記憶媒体に格納された観測データについて統計的分析処理を行う際に、
潜在変数を仮定する統計的モデルにおいて、観測されなかった欠損データを含まず、該観測データおよび潜在変数のみを使用して尤度を構成することにより、前記統計的モデルに含まれるパラメータを推定する
分析手段と
を具備
し、
前記分析手段は、
観測変数の次元をp、因子数をmとし、p次元観測変数ベクトルをX=(x1,…,xp)T、p次元平均ベクトルをμ=(μ1,…,μp)T、m次元潜在変数ベクトルをF、p×m因子負荷行列をΛ=(λij)=(λ1,…,λp)T、p次元独自因子ベクトルをε、サンプルサイズをN、iobs(n)をn(=1,…,N)番目のサンプルで観測される変数xiの添え字iとしたとき、X−μ=ΛF+εで表される因子分析モデルにおいて、
前記p次元平均ベクトルμ、前記p×m因子負荷行列Λ、及び独自分散を表すΨ=diag(ψ1,…,ψp)の各初期値の入力を受け付け、
EMアルゴリズムを用いて、観測される変数xiのみに基づいて構成される完全対数尤度が
【数1】
として与えられたとき、完全対数尤度の条件付期待値Eを、欠損の有無を表す行列Mを用いて、
E[Fn|xn]=M-1ΛTΨ-1xn,
E[FnFnT|xn]=M-1+E[Fn|xn]E[Fn|xn]T
により計算し、かつ前記行列M=(mij)を、
M=ΛT Ψ-1 Λ+Im
により計算し、
さらに罰則項を加えて前記完全対数尤度の最大化処理を行い、
前記条件付期待値Eの算出処理及び前記罰則項を加えた完全対数尤度の最大化処理の後に、パラメータが収束したか否かを判定し、
収束していないと判定された場合に、予め設定された反復回数に達するまで前記条件付期待値Eの算出処理及び前記罰則項を加えた完全対数尤度の最大化処理を反復する
ことを特徴とするデータ分析装置。
【請求項2】
観測された観測データを受け取って記憶媒体に格納する手段と、
前記記憶媒体に格納された観測データについて統計的分析処理を行う際に、潜在変数を仮定する統計的モデルにおいて、観測されなかった欠損データを含まず、該観測データおよび潜在変数のみを使用して尤度を構成することにより、前記統計的モデルに含まれるパラメータを推定する分析手段と、
前記記憶媒体に格納された観測データのサンプル数を設定された閾値と比較することにより、閾値以上の観測データが格納されたか否かを判定する閾値判定手段と、
前記パラメータの推定に使用する変数の数と要求誤差と欠損率との組み合わせに対して前記パラメータの推定に最低限必要なサンプル数を予め記憶したテーブルを備え、このテーブルを参照することにより、前記記憶媒体に格納された観測データ中の変数の数と、前記記憶媒体に格納された観測データ及び判定された欠損データから求められる欠損率と、指定された要求誤差との組み合わせに対応する前記サンプル数を検索し、該サンプル数を前記閾値判定手段の前記閾値として設定する関係判定手段と
を具備し、
前記分析手段は、前記閾値判定手段により閾値以上の観測データが格納されたと判定された場合に、前記記憶媒体に格納された観測データに対して前記パラメータを推定する処理を実行することを特徴とするデータ分析装置。
【請求項3】
コンピュータ及び記憶媒体を備えたデータ分析装置が実行するデータ分析方法であって、
観測された観測データを受け取って前記記憶媒体に格納する過程と、
前記記憶媒体に格納された観測データについて統計的分析処理を行う際に、
潜在変数を仮定する統計的モデルにおいて、観測されなかった欠損データを含まず、該観測データおよび潜在変数のみを使用して尤度を構成することにより、前記統計的モデルに含まれるパラメータを推定する
分析過程と
を具備
し、
前記分析過程では、
観測変数の次元をp、因子数をmとし、p次元観測変数ベクトルをX=(x1,…,xp)T、p次元平均ベクトルをμ=(μ1,…,μp)T、m次元潜在変数ベクトルをF、p×m因子負荷行列をΛ=(λij)=(λ1,…,λp)T、p次元独自因子ベクトルをε、サンプルサイズをN、iobs(n)をn(=1,…,N)番目のサンプルで観測される変数xiの添え字iとしたとき、X−μ=ΛF+εで表される因子分析モデルにおいて、
前記p次元平均ベクトルμ、前記p×m因子負荷行列Λ、及び独自分散を表すΨ=diag(ψ1,…,ψp)の各初期値の入力を受け付け、
EMアルゴリズムを用いて、観測される変数xiのみに基づいて構成される完全対数尤度が
【数2】
として与えられたとき、完全対数尤度の条件付期待値Eを、欠損の有無を表す行列Mを用いて、
E[Fn|xn]=M-1ΛTΨ-1xn,
E[FnFnT|xn]=M-1+E[Fn|xn]E[Fn|xn]T
により計算し、かつ前記行列M=(mij)を、
M=ΛT Ψ-1 Λ+Im
により計算し、
さらに罰則項を加えて前記完全対数尤度の最大化処理を行い、
前記条件付期待値Eの算出処理及び前記罰則項を加えた完全対数尤度の最大化処理の後に、パラメータが収束したか否かを判定し、
収束していないと判定された場合に、予め設定された反復回数に達するまで前記条件付期待値Eの算出処理及び前記罰則項を加えた完全対数尤度の最大化処理を反復する
ことを特徴とするデータ分析方法。
【請求項4】
コンピュータ及び記憶媒体を備えたデータ分析装置が実行するデータ分析方法であって、
観測された観測データを受け取って前記記憶媒体に格納する過程と、
前記記憶媒体に格納された観測データについて統計的分析処理を行う際に、潜在変数を仮定する統計的モデルにおいて、観測されなかった欠損データを含まず、該観測データおよび潜在変数のみを使用して尤度を構成することにより、前記統計的モデルに含まれるパラメータを推定する分析過程と、
前記記憶媒体に格納された観測データのサンプル数を設定された閾値と比較することにより、閾値以上の観測データが格納されたか否かを判定する閾値判定過程と、
前記パラメータの推定に使用する変数の数と要求誤差と欠損率との組み合わせに対して前記パラメータの推定に最低限必要なサンプル数を予め記憶したテーブルを参照することにより、前記記憶媒体に格納された観測データ中の変数の数と、前記記憶媒体に格納された観測データ及び判定された欠損データから求められる欠損率と、指定された要求誤差との組み合わせに対応する前記サンプル数を検索し、該サンプル数を前記閾値判定過程における前記閾値として設定する関係判定過程と
を具備し、
前記分析過程では、前記閾値判定過程により閾値以上の観測データが格納されたと判定された場合に、前記記憶媒体に格納された観測データに対して前記パラメータを推定する処理を実行することを特徴とするデータ分析方法。
【請求項5】
請求項3または4に記載の各過程の処理をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、収集されたデータを、潜在変数を仮定する統計的モデルを用いて分析するデータ分析装置
、方法
およびプログラムに関する。
【背景技術】
【0002】
近年、ソーシャルネットワークサービス(SNS)の利用履歴や、インターネットショッピングの購買履歴、携帯端末の位置情報を用いた滞在地履歴、プリペイドカードの利用により蓄積される購買履歴等のように、多種多量のデータが簡単に収集できるようになってきた。
【0003】
反面、これらのデータは、ユーザやサービスプロバイダが自由に設定したものが多く、それを別の目的で分析する場合には、目的に合ったデータが必ずしもすべて揃っているとは限らない。このため、目的に合った分析を行うためにはデータ欠損の問題を解決しなければならない。
【0004】
目的とするデータを効率良く収集する手法の一つとして、アンケートがある。アンケートは、人々の意識や行動等の実態をとらえるための社会調査を行う際に有効である。社会調査には、国勢調査のような大量のデータをとり社会の全体像を把握することを目的とする統計的社会調査と、少人数へのインタビューや参与観察などの事例的社会調査の2つに大別できる。
【0005】
このうち、統計的社会調査の手法としては、面接法、とめおき法、郵送法、集合法、電話法、電子法(ネット調査、Web調査等と呼ばれるもの)等があるが、いずれも予め定めた質問項目(アンケート)に対して、対象者の回答を集める方法である。特に電子法は、インターネットにつながる環境にあるすべての人が登録できるため、年齢、職業、居住地等、様々な属性の人の情報を収集できる。また、通常、会員は数万人以上の規模の会社が多いため、欲しいユーザ属性の条件を絞ったとしても容易に数千人のデータを収集できる。しかしながら、いずれの方法もすべての質問項目に対して全員から回答を得ることが難しい。
【0006】
設問数を減らし回答者負荷をできるだけ軽減することで高い精度の回答を得る手法として、回答者の意思により該当する設問に答えるか否かを決める選択回答がある。これは、問われている設問に答えたくない場合や、一つの設問に対し選択肢が複数ある場合に使われる。そのため収集した回答データに欠損が生じる。
【0007】
これまで、データに欠損があってもその変数がなぜ欠損したのかという欠損メカニズム(missing mechanism)は、Rubinの研究(例えば非特許文献1を参照)以来、以下の3通りに分けて考えられてきた(例えば非特許文献2を参照)。
(1)完全にランダムな欠損 Missing Completely At Random (MCAR)
どの値が欠損するかは完全にランダムである。
(2)ランダムな欠損 Missing At Random (MAR)
どの値が欠損するかはデータに依存してもよいが、欠損値には依存しない。
(3)ランダムでない欠損 Not Missing at Random(NMAR)
欠損するかどうかは、欠損値そのものの値や、観測していない他の変数にも依存する。
これらのどれを仮定できるかによって、データの解析方法が異なる。
【0008】
欠損のメカニズムがMARあるいはMCARだと仮定すると、統計的モデルのパラメータ推定方法として、完全情報最尤法を適用できる。そのアルゴリズムとして、具体的には疑似ニュートン法や、潜在変数と欠損値両方を完全データに含めるEMアルゴリズム(例えば非特許文献3を参照)が挙げられる。
ところで、多くの統計モデルは潜在変数を仮定している。特にアンケートデータの解析では、隠れた因子を見出す因子分析モデルやそれを一般化した構造方程式モデリング、さらに時間の変化をモデリングできる隠れマルコフモデルなど、様々な潜在変数を含むモデルがある。
【0009】
なお、潜在変数とは、観測されない変数のことをいう。例えば、国、数、社、理、英の5教科のテストの点数のデータがあったとし、2因子モデルを当てはめる。このとき、2つの因子(たとえば、理系得点、文系得点)は潜在変数である。何故なら、理系得点、文系得点は観測できないからである。
【0010】
これに対し、欠損値あるいは欠損とは、観測し得るはずの変数が観測できないことをいう。例えば、アンケートデータで「年収」という項目があったとする。年収は、答えたくない人もいるので、空欄にすることがよくある。このように、実際にはデータがあるはずなのに、何らかの理由で観測することができないことをいう。
すなわち、欠損値と潜在変数との違いは、欠損値は本来観測し得るが、潜在変数は決して観測されることはないという点である。
【0011】
先ず、欠損のあるデータを用いて、潜在変数を含む統計的モデルを推定するEMアルゴリズムについて述べる。p次元観測変数をX=(X1,…,Xp)
T、m次元潜在変数ベクトルをF=(F1,…,Fm)
Tとする。いま、q次元パラメータθ=(θ1,…,θq)
Tを最尤法によって推定することを考える。観測変数に欠損がある場合を、n番目の観測に対し、観測データをX[n]、欠損値をX_[n]と記述すると、完全データはXn=[X[n],X_[n]]と表される。このとき、EMアルゴリズムでは、完全対数尤度の観測データが与えられたもとでの条件付き期待値E[logf(xn,fn)|x[n]]を計算する必要がある。データが独立同分布に従うとすると、条件付き期待値は
【0012】
【数1】
で与えられる。ここで、f(xn,fn)は、観測データと潜在変数の同時分布、Nはサンプルサイズである。
【0013】
しかしながら、大量欠損がある場合、この条件付き期待値を計算するコストが大きくなることが多い。例えば、潜在変数を含むモデルの中でよく用いられる手法として、観測変数が潜在変数の一次結合で表される因子分析モデルがある。この因子分析モデル式を
図15の式(1)に示す。
【0014】
因子分析モデルでは、観測変数ベクトルと潜在変数ベクトルとの間に線形関係X−μ=ΛF+εが成り立つと仮定する(
図16の式(2))。ただし、μ=(μ1,…,μp)
T はp次元平均ベクトル、Λ=(λij)はp×mの因子負荷行列、ε=(ε1,…,εp)
T はp次元独自因子ベクトルとする(
図16の式(3))。
【0015】
共通因子ベクトルと独自因子ベクトルに正規性を仮定する直交因子モデル(
図17の式(4))に対し、観測変数ベクトルは多変量正規分布に従い、その共分散行列は、cov[X]=ΛΛ
T+Ψで与えられる(
図17の式(5))。但し、Ψ=diag(ψ1,…,ψp)は独自分散を表す(
図17の式(4))。いま、完全データx1,…,xNが与えられたとき、最尤法によってモデルを推定することを考える。そうすると、
図18に示すように対数尤度関数は、
【0016】
【数2】
で与えられる。ここで、Σ=ΛΛ
T+Ψである。
【0017】
次に、観測変数に欠損がある場合を考える。
図19はそのモデル推定を示すものである。
図19の式(7)に示すようにデータを観測値と欠損値とに分け、観測変数の期待値及び共分散行列をそれぞれE(X[n])=μ[n] ,Cov(X[n])=Σ[n]と表すと、MARのもとでの尤度は、
図19に示すように
【0018】
【数3】
と記述できる。
【0019】
このとき、対数尤度関数は
図19に示すように
【数4】
と表現される。
【0020】
従来は、2〜3割の欠損で数100のサンプルに対する因子分析の問題に取り組んできた。その条件での因子分析の欠損値問題に対し、MARを仮定したときの最尤推定値を計算するアルゴリズムとして、これまで以下の方法が用いられてきた。
(A)オブザーベーションごとに観測変数の尤度を積み上げ、その値が最大になるようなパラメータを求める、完全情報最尤推定値を疑似ニュートン法によって計算する方法。
(B)共通因子と観測変数の欠損の両方を完全データに含めたEMアルゴリズムを使う方法(例えば非特許文献4を参照)。
なお、「完全データ」とは、欠損値や潜在変数など、観測されないデータが仮に取得されたとしたときのデータのことである。
【0021】
上記2つの方法のうち、(A)のニュートン法は、
図20に示す手法により計算するが、観測変数の数が大きい場合にはパラメータ数が増加するために計算が遅くなり、不安定になることが知られている。例えば、欠損をランダムに発生させ、欠損率を90%、サンプル数を20,000とした時の計算時間は、既存のOpenMxという統計ツールを使って計算したところ、CPUの動作周波数が2.3GHz、メモリ容量が16GB、汎用のOS(Operating System)を備えたパーソナルコンピュータを使って1日以上を要した。また、初期値に大きく依存し、ある初期値に対してはパラメータの値が発散した。
【0022】
一方、(B)のEMアルゴリズムは、
図21に示すように直接観測することのできない潜在変数(共通因子)と欠損値を完全データに含める。このとき、完全対数尤度関数は
図21に記載した式(11)で与えられる。ここで、完全対数尤度の期待値を計算する上では
図21の式(12)が計算できれば十分であるが、欠損数が大きいときに、計算が著しく遅くなる。
【0023】
実際に、1回の反復に必要とされる行列演算の計算オーダは、
図21に記載した式(13)に示すようにO(p
2N)となる。ここで、O(X)とは、xの定数倍という意味である。それ故、pとNがともに大きい場合、計算量が大きくなる。例えば、先ほどのデータに対してEMアルゴリズムによりパラメータを推定するために、式Sxxの事後分布に関する条件付き期待値の計算にO(100
2×20,000)程度の計算量が必要となるため、計算時間が数時間必要となる。
【0024】
なお、「欠損率」とは、データを行列で表現した時、実際に観測された要素数と、仮に全てのデータが観測されたときの要素数との比を表す。欠損率が“1”のときは、全てのデータが欠損しており、“0”のときは、全てのデータが観測されている。
【0025】
このように、これらの手法はサンプルサイズがそれほど大きくなかった70〜80年代の頃に確立された手法であり、現在のwebで収集されるデータのように、「サンプルサイズが膨大、観測変数の数が多い、欠損が大量にある」という特徴のある収集データに対する統計的モデルによる分析手法は確立されてない。なお、サンプルサイズがそれほど大きくなかったいえるサイズの上限の目安は500程度、サンプルサイズが膨大といえるサンプルサイズの下限の目安は5000程度、観測変数の数が多いといえる下限の目安は50程度、欠損が大量といえる下限の目安は70%程度である。
【先行技術文献】
【非特許文献】
【0026】
【非特許文献1】Rubin, D. B. “Inference and Missing Data”, Biometrika, Vol. 63, No.3, pp.581-592, 1976.
【非特許文献2】星野 崇宏,“調査観察データの統計科学―因果推論・選択バイアス・データ融合”, pp.27-28, 岩波書店 , 2009.
【非特許文献3】Dempster, A. P., Laird, N. M., and Rubin, D. B.,“Maximum likelihood from incomplete data via the EM algorithm”, Journal of the Royal Statistical Society, Series B (Methodological), pp.1-38, 1977.
【非特許文献4】M. Jamshidian and R. I. Jennrich , “An EM Algorithm for ML Factor Analysis with Missing Data”, Journal of the Royal Statistical Society, Series B (Methodological), Vol. 59, No. 3, pp.569-587, 1997.
【発明の概要】
【発明が解決しようとする課題】
【0027】
以上述べたように、因子分析の欠損値問題に対しMARを仮定したときの最尤推定値を計算する従来のアルゴリズムである、完全情報最尤推定値を疑似ニュートン法によって計算する方法には、観測変数の数が大きい場合にはパラメータ数が増加するために計算が遅くなり、不安定になるという課題がある。また、共通因子と観測変数の欠損の両方を完全データに含めたEMアルゴリズムを使う方法では、直接観測することのできない潜在変数(共通因子)と欠損値を完全データに含めるため、欠損数が大きいときに計算が著しく遅くなるという課題がある。
【0028】
この発明は上記事情に着目してなされたもので、その目的とするところは、欠損率が高く、かつ観測変数が多い場合の潜在変数を仮定した統計モデルにおけるパラメータ推定を高速に行えるようにするデータ分析装置
、方法
およびプログラムを提供することにある。
【課題を解決するための手段】
【0029】
上記目的を達成するためにこの発明は、以下のような各種態様を備える。
(1)
観測された観測データを受け取って記憶媒体に格納する手段又は過程と、前記記憶媒体に格納された観測データについて統計的分析処理を行う際に、
潜在変数を仮定する統計的モデルにおいて、観測されなかった欠損データを含まず、該観測データおよび潜在変数のみを使用して尤度を構成することにより、前記統計的モデルに含まれるパラメータを推定する
分析手段又は過程とを具備
し、
前記分析手段又は過程は、
観測変数の次元をp、因子数をmとし、p次元観測変数ベクトルをX=(x1,…,xp)T、p次元平均ベクトルをμ=(μ1,…,μp)T、m次元潜在変数ベクトルをF、p×m因子負荷行列をΛ=(λij)=(λ1,…,λp)T、p次元独自因子ベクトルをε、サンプルサイズをN、iobs(n)をn(=1,…,N)番目のサンプルで観測される変数xiの添え字iとしたとき、X−μ=ΛF+εで表される因子分析モデルにおいて、
前記p次元平均ベクトルμ、前記p×m因子負荷行列Λ、及び独自分散を表すΨ=diag(ψ1,…,ψp)の各初期値の入力を受け付け、
EMアルゴリズムを用いて、観測される変数xiのみに基づいて構成される完全対数尤度が
【数5】
として与えられたとき、完全対数尤度の条件付期待値Eを、欠損の有無を表す行列Mを用いて、
E[Fn|xn]=M-1ΛTΨ-1xn,
E[FnFnT|xn]=M-1+E[Fn|xn]E[Fn|xn]T
により計算し、かつ前記行列M=(mij)を、
M=ΛT Ψ-1 Λ+Im
により計算し、
さらに罰則項を加えて前記完全対数尤度の最大化処理を行い、
前記条件付期待値Eの算出処理及び前記罰則項を加えた完全対数尤度の最大化処理の後に、パラメータが収束したか否かを判定し、
収束していないと判定された場合に、予め設定された反復回数に達するまで前記条件付期待値Eの算出処理及び前記罰則項を加えた完全対数尤度の最大化処理を反復するようにしたものである。
【0032】
(2)観測された観測データを受け取って記憶媒体に格納する手段又は過程と、前記記憶媒体に格納された観測データについて統計的分析処理を行う際に、潜在変数を仮定する統計的モデルにおいて、観測されなかった欠損データを含まず、該観測データおよび潜在変数のみを使用して尤度を構成することにより、前記統計的モデルに含まれるパラメータを推定する分析手段又は過程と、前記記憶媒体に格納された観測データのサンプル数を設定された閾値と比較することにより、閾値以上の観測データが格納されたか否かを判定する閾値判定手段又は過程と、前記パラメータの推定に使用する変数の数と要求誤差と欠損率との組み合わせに対して前記パラメータの推定に最低限必要なサンプル数を予め記憶したテーブルを参照することにより、前記記憶媒体に格納された観測データ中の変数の数と、前記記憶媒体に格納された観測データ及び判定された欠損データから求められる欠損率と、指定された要求誤差との組み合わせに対応する前記サンプル数を検索し、該サンプル数を前記閾値判定手段又は過程の前記閾値として設定する関係判定手段又は過程とを具備し、前記分析手段又は過程は、前記閾値判定手段
又は過程により閾値以上の観測データが格納されたと判定された場合に、
前記記憶媒体に格納された観測データに対し
前記パラメータを推定する処理を実行するようにしたものである。
【発明の効果】
【0034】
この発明の各態様によれば、条件付き期待値を最大化するのではなく、観測されるデータと潜在変数のみの条件付き期待値を最大化するパラメータ推定方法を採用しているため、欠損する全てのデータをアルゴリズムの中で反復計算して推定せずに、潜在変数のみを推定するだけでよくなる。したがって、欠損率が高く、かつ観測変数が多い場合の潜在変数を仮定した統計モデルにおけるパラメータ推定を高速に行うことが可能となる。
【図面の簡単な説明】
【0035】
【
図1】この発明の第1の実施形態に係るデータ分析装置を含むシステム全体の構成を示す図。
【
図2】この発明の第1の実施形態に係るデータ分析装置の機能構成を示すブロック図。
【
図3】データの収集から分析データの送信までの一連の動作のうち、サービスプロバイダ端末の動作を示すフローチャート。
【
図4】データの収集から分析データの送信までの一連の動作のうち、ユーザ端末によるアンケート回答データの送信動作と分析サーバによるアンケート回答データの受信動作を示すフローチャート。
【
図5】データの収集から分析データの送信までの一連の動作のうち、分析サーバによる分析処理の手順と内容を示すフローチャート。
【
図7】
図2に示したデータ分析装置の高速因子分析部による処理手順と処理内容を示すフローチャート。
【
図8】
図2に示したデータ分析装置による効果を説明するための図。
【
図9】この発明の第2の実施形態に係るデータ分析装置の機能構成を示すブロック図。
【
図10】
図9に示したデータ分析装置が備える、欠損率、変数の数、誤差及びサンプル数の関係を示すデータテーブルの一例を示す図。
【
図11】この発明の第3の実施形態に係るデータ分析装置の機能構成を示すブロック図。
【
図12】この発明の第4の実施形態に係るデータ分析装置の機能構成を示すブロック図。
【
図13】この発明の第5の実施形態に係るデータ分析装置の機能構成を示すブロック図。
【
図14】この発明の第6の実施形態に係るデータ分析装置の機能構成を示すブロック図。
【
図17】最尤法によるモデルの推定方法の前半部分を説明するための図。
【
図18】最尤法によるモデルの推定方法の後半部分を説明するための図。
【
図19】欠損がある場合の、最尤法によるモデルの推定方法を説明するための図。
【
図20】ニュートン法による計算方法を説明するための図。
【
図21】既存のEMアルゴリズムを説明するための図。
【発明を実施するための形態】
【0036】
以下、図面を参照してこの発明に係わる実施形態を説明する。
[第1の実施形態]
この発明の第1の実施形態は、潜在変数を仮定した統計モデルにおいてパラメータを推定する際に、観測されなかった欠損データを完全データに含めず、観測されたデータのみを使って完全尤度を構成することによって、行列演算の計算量を大幅に減らして計算の高速化を実現するようにし、かつこのパラメータ推定方法を因子分析に適用したものである。
【0037】
(構成)
図1は、この発明に係るデータ分析装置の第1の実施形態である分析サーバを備えたシステムの概略構成図である。同図に示すように第1の実施形態のシステムは、複数のユーザ端末UT1〜UTn、サービスプロバイダ端末SP及び分析サーバSVaを、通信ネットワークNWを介して相互に通信可能に接続したものである。
【0038】
ユーザ端末UT1〜UTnは、観測対象となる複数のユーザが使用するパーソナルコンピュータ、タブレット型端末、スマートホン又は携帯電話機からなり、Webブラウザ及びメーラを備えている。サービスプロバイダ端末SPは、サービスプロバイダの管理者が使用するパーソナルコンピュータからなり、ユーザ端末UT1〜UTnと同様にWebブラウザ及びメーラを備えている。なお、通信ネットワークは、例えばIP(Internet Protocol)網と、このIP網にアクセスするためのアクセス網からなる。
【0039】
ところで、分析サーバSVaはサーバコンピュータからなり、以下のように構成される。
図2はその機能構成を示すブロック図である。
すなわち、分析サーバSVaは、通信インタフェースユニット1と、制御ユニット2aと、記憶ユニット3aを備えている。通信インタフェースユニット1は、上記ユーザ端末UT1〜UTn及びサービスプロバイダ端末SPとの間で、通信ネットワークNWで規定される通信プロトコルに従いデータ通信を行う。
【0040】
記憶ユニット3aは、記憶媒体としてHDD(Hard Disc Drive)又はSSD(Solid State Drive)等の随時書き込み及び読み出しが可能な不揮発性メモリを備えたもので、第1の実施形態を実現するために必要な記憶部として、収集データ記憶部31と、分析データ記憶部32を備えている。
【0041】
収集データ記憶部31は、上記ユーザ端末UT1〜UTnから収集したアンケートの回答データを蓄積するために用いられる。なお、アンケートの回答データ以外に、各ユーザの滞在地履歴や購買履歴、通信履歴等を蓄積するようにしてもよい。分析データ記憶部32は、後述する分析処理により得られた分析データを保存するために用いられる。
【0042】
制御ユニット2は、CPU(Central Processing Unit)を備え、第1の実施形態を実現するために必要な制御及び処理機能として、収集データ管理部21と、サンプル数閾値判定部22と、高速因子分析部23と、分析データ表示制御部24を備えている。これらの機能はいずれも図示しないプログラムメモリに格納されたプログラムを上記CPUに実行させることにより実現される。
【0043】
収集データ管理部21は、上記サービスプロバイダ端末SPから送られた調査項目を含むアンケートデータを通信インタフェースユニット1から収集対象の上記ユーザ端末UT1〜UTnへ送信し表示させる処理と、上記ユーザ端末UT1〜UTnから返送されたアンケートの回答データを通信インタフェースユニット1を介してそれぞれ受信し、この受信された収集データを上記収集データ記憶部31に格納する処理を行う。
【0044】
サンプル数閾値判定部22は、上記収集データ記憶部31に予め設定した人数分の回答データが蓄積されたか否かを判定する処理を行う。高速因子分析部23は、上記収集データ記憶部31から回答データを読み出し、この読み出された回答データに対し、潜在変数を仮定した統計モデルにおいて、観測されなかった欠損データを完全データに含めず、観測されたデータのみを使って完全尤度を構成する手法を使用して、因子分析処理を実行する。そして、その分析結果を表すデータを分析データ記憶部32に格納する処理を行う。
【0045】
分析データ表示制御部24は、サービスプロバイダ端末SPからの要求に応じて上記分析データ記憶部32から分析データを読み出し、要求元のサービスプロバイダ端末SPへ通信インタフェースユニット1から送信する処理と、上記分析データを配信先として予め設定されたユーザ端末UT1〜UTnへ上記通信インタフェースユニット1から送信する処理を行う。
【0046】
(動作)
次に、以上のように構成された分析サーバSVaを含むシステムの動作を説明する。
図3乃至
図5は、アンケートデータの作成からその回答データの収集、当該回答データの分析、分析結果を表すデータの送信までの一連の動作手順を示すフローチャートである。
【0047】
(1)アンケートの作成と配信
先ずサービスプロバイダ端末SPでは、
図3に示すステップS11において、サービスプロバイダの管理者の入力操作に応じてアンケートデータが作成される。アンケートデータとしては、変数の多い任意又は選択的な回答項目を含むデータが作成される。具体的には、項目の種類と選択肢の種類を100以上と多めに設定し、任意回答および選択回答が可能な項目を含める。上記作成されたアンケートデータは分析サーバSVaへ送られる。
【0048】
分析サーバSVaは、上記アンケートデータを通信インタフェースユニット1により受信すると、収集データ管理部21の制御の下、ステップS12により、図示しないユーザ情報記憶部に予め記憶されている収集対象のユーザ端末UT1〜UTnに向け、上記アンケートデータを配信する。配信方法としては、例えば電子メールが用いられる。
【0049】
(2)アンケートに対する回答データの収集
ユーザ端末UT1〜UTnにおいて、上記配信されたアンケートデータに対しユーザが回答を入力すると、
図4に示すステップS21において、上記入力された回答を返信するための回答データが作成される。このときユーザは、答えたくない項目には回答しなくてもよい。そして、ユーザが送信操作を行うと、ステップS22により、上記作成された回答データがユーザ端末UT1〜UTnから送信元の分析サーバSVaへ送信される。
【0050】
分析サーバSVaは、上記ユーザ端末UT1〜UTnから回答データが返信されるごとに、収集データ管理部21がステップS23において、当該回答データを通信インタフェースユニット1を介して受信し、当該受信された回答データを収集データ記憶部31に格納する。このとき、収集データは例えばユーザIDとアンケートを識別するアンケートIDと関連付けられて記憶される。
【0051】
(3)収集データの分析
分析サーバSVaは、先ずサンプル数閾値判定部22が
図5に示すステップS31により、上記収集データ記憶部31に格納された収集データが予め設定されたサンプル数の閾値に達したか否かを判定する。そして、収集データが閾値以上になったことがステップS32で確認されると、次にステップS33において高速因子分析部23が起動し、以後この高速因子分析部23において以下のような計算を実行する。
【0052】
すなわち、先に述べたように潜在変数を仮定する統計的モデルにおいて、観測されなかった欠損データにあえて完全データに含めず、観測されたデータのみを使って完全尤度を構成することによりパラメータ推定を行う。ここでは、欠損のあるデータを用いて、潜在変数を含む統計的モデルのパラメータ推定を行うEMアルゴリズムを例にとって述べる。p次元観測変数をX=(X1,…,Xp)
T、m次元潜在変数ベクトルをF=(F1,…,Fm)
Tとする。
【0053】
いま、パラメータθを最尤法によって推定することを考える。観測変数に欠損がある場合を、n番目の観測に対し、観測データをX[n]、欠損値をX_[n]と記述すると、完全データはXn=[X[n],X_[n]]と表される。このとき、EMアルゴリズムでは、完全対数尤度の観測データが与えられたもとでの条件付き期待値E[logf(xn,fn)|x[n]]を計算する必要がある。データが独立同分布に従うとすると、条件付き期待値は
【0054】
【数6】
で与えられる。ここで、f(xn,fn)は、観測データと潜在変数の同時分布、Nはサンプルサイズである。
【0055】
次に完全対数尤度を、
【数7】
により算出する。
【0056】
また、完全対数尤度関数の期待値を、
E[Fn|xn]=M
-1Λ
TΨ
-1xn,
E[FnFn
T|xn]=M
-1+E[Fn|xn]E[Fn|xn]
T
により計算される。但し、M=Λ
T Ψ
-1 Λ+Imとする。
また、この計算には
O(p
0N)
を必要とする。尚、p
0は欠損していない変数の数の平均を示す。
【0057】
図7は、上記完全対数尤度及び完全対数尤度関数の期待値を計算する処理の手順と処理内容を示すフローチャートである。同図において、高速因子分析部23は、ステップS41でi=1に初期設定した後、ステップS42により初期値としてμ0^,Λ0^,Ψ0^の入力を受け付ける。次に、ステップS43でiの値をインクリメントした後、ステップS44においてEステップを実行する。このEステップでは、共通因子の条件付期待値fn^を計算する。続いて、ステップS45においてMステップを実行する。このMステップでは、完全対数尤度の最大化処理が行われる。
【0058】
上記Eステップ及びMステップの処理が終了すると、ステップS46によりパラメータが収束したか否かを判定し、収束していればステップS47で解を表示するためにそのデータを分析データ記憶部32に格納した後、処理を終了する。一方、パラメータが収束していなければ、ステップS48により反復回数を判定し、iが上限値に達していなければステップS43に戻ってiの値をインクリメントした後、先に述べたステップS44及びS45の処理を実行する。これに対し、反復回数が上限値に達すると、ステップS49により収束しない旨のメッセージを分析データ記憶部32に格納する。
【0059】
以上述べた計算方法は、
図20に示した既存のEMアルゴリズムにおいて、直接観測することのできない変数(共通因子)のみを潜在変数とみなす方法である。この場合完全対数尤度は、観測される変数のみに基づいて構成される。このため、完全対数尤度のデータが与えられたもとでの条件付き期待値を計算する際には、欠損値を完全データに入れなければ計算すべき行列のサイズが小さくなり、それゆえ行列演算も少なくてすむ。
ちなみに、1回の反復に必要とされる行列演算の計算オーダは、従来のEMアルゴリズムではO(p
2N)が必要だったが、本実施形態に基づいたEMアルゴリズムを使うと上記したようにO(p
0N)となる。これにより、計算速度は飛躍的に向上する。
【0060】
(4)分析データの送信
上記因子分析処理により得られた分析結果を表すデータは、アンケートIDと関連付けて分析データ記憶部32に格納される。分析サーバSVaは、上記高速因子分析部23による上記分析処理が終了すると、続いて分析データ表示制御部24がステップS34において上記分析データ記憶部32から分析データ、つまり因子の分析値と誤差値を読み出す。そして、この読み出された因子の分析値と誤差値を、要求元のサービスプロバイダ端末SPへ通信インタフェースユニット1から送信する。また、分析データの配信先が予め設定されている場合には、当該ユーザ端末UT1〜UTnに向け上記通信インタフェースユニット1から上記分析データを送信する。
【0061】
(第1の実施形態の効果)
以上詳述したように第1の実施形態では、条件付き期待値を最大化するのではなく、観測されるデータと潜在変数のみの条件付き期待値を最大化するパラメータ推定方法を採用している。このため、欠損する全てのデータをアルゴリズムの中で反復計算して推定せずに、潜在変数のみを推定するだけでよくなる。したがって、欠損が多くなっても高速に計算することが可能となる。ここで、高速に計算できるようになる欠損値の下限は50%程度である。
【0062】
図6は、データ行列をX=(xij)とし、欠損の有無を表すため、0−1の行列M=(mij)を示したものである。なお、“0”はxijが観測されなかった場合、“1”はxijが観測された場合をそれぞれ示す。本実施形態では、「観測されないデータ」に欠損値を含まないため、
図4の行列のうち“1”の部分だけを使ってパラメータの推定が行われる。このため、iが大きくかつ“0”が多い状況において、“0”へ代入する期待値の計算に要する時間が不要となり、その分だけ計算の高速化を実現できる。ちなみに、従来の方法では「観測されないデータ」に欠損値を含むため、“0”の部分に対応する欠損値x_[n]を推定しながらパラメータの推定を行っている。したがって、iが大きくかつ“0”が多い状況になると計算量がきわめて多くなり、計算処理に非常に長い時間が必要となる。
【0063】
また第1の実施形態では、上記アルゴリズムを適用して因数分析処理を行うことで、従来のEMアルゴリズムを使った場合よりも、計算速度を高速化することができる。具体的には、90%欠損、変数の50倍程度の回答者数、変数90、サンプル数5,000の条件の下で、先に(A)として記載した疑似ニュートン法を基準に、先に(B)として記載した従来のEMアルゴリズムを使用した場合より二桁程度高速に計算することが可能となる。
【0064】
図8は、第1の実施形態におけるアルゴリズムを使用した場合の欠損数に対する計算速度向上比の変化を、従来のEMアルゴリズムと疑似ニュートン法と対比して示したものである。同図から明らかなように、第1の実施形態によるアルゴリズムでは、欠損数が増えれば増えるほど速度向上比が高くなる。
【0065】
[第2の実施形態]
この発明の第2の実施形態は、サービスプロバイダの管理者が欲しい因子分析結果をどの程度の誤差の範囲内で導出してほしいかを表す情報を設定すると、欠損率や変数の数から、必要なサンプル数を分析サーバが返送するようにしたものである。
【0066】
(構成)
図9は、この発明に係るデータ分析装置の第2の実施形態である分析サーバSVbの機能構成を示すブロック図である。尚、同図において前記
図2と同一部分には同一符号を付して詳しい説明は省略する。
【0067】
記憶ユニット3bには、収集データ記憶部31と、分析データ記憶部32に加え、設定誤差記憶部33が設けられている。設定誤差記憶部33は、サービスプロバイダがほしい分析結果に対して求める誤差を記憶するために使用される。
【0068】
制御ユニット2bは、収集データ管理部21と、サンプル数閾値判定部22と、高速因子分析部23と、分析データ表示制御部24に加え、要求誤差設定部25と、欠損率判定部26と、変数の数確認部27と、関係判定部28をさらに備えている。
【0069】
要求誤差設定部25は、サービスプロバイダ端末SPから送られた要求誤差を表す情報を通信インタフェースユニット1を介して受信し、この受信された要求誤差を表す情報を設定誤差記憶部33に記憶させる処理を行う。
【0070】
欠損率判定部26は、収集データ記憶部31に記憶された収集データ中に、属性毎にデータ欠損がどの程度あるかを判定する処理を行う。変数の数確認部27は、収集データ記憶部31に記憶された収集データ中に、因子分析に使う変数の数がいくつあるかを確認する処理を行う。
【0071】
関係判定部28は、関係判定データテーブルを備えている。この関係判定テーブルには、変数の数、要求誤差及び欠損率のすべての組み合わせに対し予め設定された、因数分析に最低限必要なサンプル数が記憶されている。
図10にその一例を示す。そして、この関係判定テーブルを参照することにより、上記変数の数確認部27により確認された変数の数と、上記欠損率判定部26により判定された欠損率と、上記設定誤差記憶部33に格納された要求誤差の組み合わせに対応する最低限必要なサンプル数を検索し、この検索された最低限必要なサンプル数をサンプル数閾値判定部22に与える処理を行う。
【0072】
(動作)
次に、以上のように構成された分析サーバSVbによる収集データ分析動作を説明する。
サービスプロバイダ端末SPにおいて、その管理者が因子分析の結果に対して因子分析したい属性と、どの程度の誤差の範囲内で結果が欲しいかを表す要求誤差情報を入力したとする。そうすると、上記入力された要求誤差情報がサービスプロバイダ端末SPから分析サーバSVbへ送信される。
【0073】
分析サーバSVbは、上記サービスプロバイダサーバ端末SPから送信された要求誤差情報が通信ネットワークユニット1で受信されると、要求誤差設定部25が上記受信された要求誤差情報を設定誤差記憶部33に格納する。
【0074】
続いて分析サーバSVbは、欠損率判定部26により、サービスプロバイダが作成したアンケートのフォーマットデータをもとに、収集データ記憶部31に蓄積された収集データに、該当する属性にどの程度欠損が発生しているかを調べる。また、変数の数確認部27により、上記収集データ記憶部31に蓄積された収集データに、該当属性に対応する変数がいくつあるかをカウントする。
【0075】
次に分析サーバSVbは、関係判定部28により、上記設定誤差記憶部33に記憶された要求誤差の値と、欠損率判定部26で判定された欠損率と、変数の数確認部27によりカウントされた変数の数をもとに関係判定データテーブルを検索し、当該テーブルから上記要求誤差の値、欠損率及び変数の数に対応する、因子分析に最低限必要なサンプル数を読み出す。そして、この読み出されたサンプル数をサンプル数閾値判定部22に閾値として設定する。
【0076】
したがって、収集データの分析処理を行う際に、サンプル数閾値判定部22では、収集データ記憶部31に蓄積された収集データのサンプル数が、サンプル数閾値判定部22に設定されたサンプル数の設定値と比較される。そして、蓄積された収集データのサンプル数がサンプル数の設定値以上であれば、高速因子分析部23に対し収集データに対する因子分析処理の実行要求が送られ、これにより高速因子分析部23では第1の実施形態で述べた処理が実行される。
【0077】
これに対し、蓄積された収集データのサンプル数がサンプル数の設定値に満たない場合には、サンプル数閾値判定部22が、上記最低限必要なサンプル数から収集データ記憶部31に格納された収集データのサンプル数を引いた値を求める。そして、あと最低何サンプル必要かを表す情報を、収集データ管理部21からサービスプロバイダ端末SPに向け送信する。
【0078】
(第2の実施形態の効果)
以上述べたように第2の実施形態によれば、設定誤差記憶部33に記憶された要求誤差の値と、欠損率判定部26で判定された欠損率と、変数の数確認部27によりカウントされた変数の数をもとに、サービスプロバイダが要求した誤差内で因子分析を実施するために最低限必要なサンプル数をデータテーブルから読み出して、サンプル数閾値判定部22に設定することができる。したがって、サンプル数閾値判定部22には常に最適な閾値を設定することができる。
【0079】
[第3の実施形態]
この発明の第3の実施形態は、第2の実施形態における高速因子分析部23に代えて、高速構造方程式モデリング処理部231を設けたものである。
【0080】
図11は、この発明の係るデータ分析装置の第3の実施形態である分析サーバSVcの機能構成を示すブロック図である。尚、同図において前記
図9と同一部分には同一符号を付して詳しい説明は省略する。
【0081】
制御ユニット2cは、高速因子分析部23に代えて、高速構造方程式モデリング処理部231を備えている。この高速構造方程式モデリング処理部231は、観測されなかった欠損データをあえて完全データに含めずに、観測されたデータのみを使って完全尤度を構成するEMアルゴリズムを用いて構造方程式モデリング処理を実行する。すなわち、条件付き期待値を最大化せずに、観測されるデータと潜在変数のみの条件付き期待値を最大化するパラメータ推定方法を適用して、構造方程式モデリング処理を実行する。
【0082】
探索的因子分析と構造方程式モデリングの大きな違いは、探索的因子分析は観測データから見えない因子を見つける方法であるのに対し、構造方程式モデリングは因子と観測変数の間に複雑な関係性を仮定し、仮定したモデルが正しいかどうかを検証する手法である。
【0083】
構造方程式モデリングの中でよく用いられるモデルとしては、LISRELモデル(LInear Structural RELations model)がある。このLISRELモデルは、
y=(y1,…,yp)
T
x=(x1,…,xq)
T
を観測変数とし、かつ
η=(η1,…,ηm)
T
ξ=(ξ1,…,ξt)
T
を潜在変数としたとき、
y=Λyη+δ
y
x=Λxξ+δ
x
η=Bη+Γξ+δ
のように表される。尚、
η〜N(0,Ωη) δ
y〜N(0,Σy)
ξ〜N(0,Ωξ) δ
x〜N(0,Σx)
である。
【0084】
このモデルに含まれるパラメータを、EMアルゴリズムによって推定することを考える。yn,xnから観測される変数を取り出し、それらの変数のみに基づく完全対数尤度関数を
【数8】
のように構成することによって、2桁程度計算を高速化することが可能となる。すなわち、yn,xnから観測される変数を取り出し、その変数に対応するΣy,Λy,Σx,Λxを使用する。
【0085】
[第4の実施形態]
この発明の第4の実施形態は、第2の実施形態における高速因子分析部23に代えて、高速罰則式最尤法処理部232を設けたものである。
【0086】
図12は、この発明の係るデータ分析装置の第4の実施形態である分析サーバSVdの機能構成を示すブロック図である。尚、同図において前記
図9と同一部分には同一符号を付して詳しい説明は省略する。
【0087】
制御ユニット2dは、高速因子分析部23に代えて、高速罰則式最尤法処理部232を備えている。高速罰則式最尤法処理部232は、EMアルゴリズムの完全対数尤度については最尤法で用いた完全対数尤度をそのまま用い、さらに罰則項を加えて最大化するパラメータ推定方法を適用して、収集データの分析処理を行う。
【0088】
このような構成であるから、収集データの分析処理に際し高速罰則式最尤法処理部232では、EMアルゴリズムの完全対数尤度として最尤法で用いた完全対数尤度をそのまま用い、さらに罰則項を加えて最大化する処理が行われる。通常の最尤法では、サンプルサイズよりも収集データの次元が大きい場合の解析が不可能なことが多い。しかしながら、罰則付き最尤法を用いることにより、サンプルサイズよりも収集データの次元が大きい場合における解析が可能となる。さらに、大量に欠損があった場合においても、第1の実施形態と同様に、欠損する全てのデータをアルゴリズムの中で反復計算して推定せずに、潜在変数のみ推定するだけでよくなるため、高速に計算することができる。
【0089】
[第5の実施形態]
この発明の第5の実施形態は、第2の実施形態における高速因子分析部23に代えて、高速主成分分析部233を設けたものである。
【0090】
図13は、この発明の係るデータ分析装置の第5の実施形態である分析サーバSVeの機能構成を示すブロック図である。尚、同図において前記
図9と同一部分には同一符号を付して詳しい説明は省略する。
【0091】
制御ユニット2eは、高速因子分析部23に代えて、高速主成分分析部233を備えている。高速主成分分析部233は、観測されなかった欠損データをあえて完全データに含めずに、観測されたデータのみを使って完全尤度を構成するEMアルゴリズムを用いて、確率構造の入った主成分分析を行う。
【0092】
主成分分析は、高次元データを低次元に圧縮する方法として用いられているが、主成分分析は通常確率構造が入っていないために欠損値を埋めることができない。しかし第5の実施形態では、上記したように確率構造の入った主成分分析をEMアルゴリズムによって計算する方法を採用し、さらにこの方法を拡張して大量欠損時に欠損値を補完しないEMアルゴリズムを採用する。このようにすることで、大量に欠損があった場合においても、欠損する全てのデータをアルゴリズムの中で反復計算して推定せずに、潜在変数のみ推定するだけでよくなるため、2桁程度高速に主成分分析を行うことができる。
【0093】
[第6の実施形態]
この発明の第6の実施形態は、第2の実施形態における高速因子分析部23に代えて、高速因子回帰モデル処理部234を設けたものである。
【0094】
図14は、この発明の係るデータ分析装置の第6の実施形態である分析サーバSVfの機能構成を示すブロック図である。尚、同図において前記
図9と同一部分には同一符号を付して詳しい説明は省略する。
制御ユニット2fは、高速因子分析部23に代えて、高速因子回帰モデル処理部234を備えている。この高速因子回帰モデル処理部234は、観測されなかった欠損データをあえて完全データに含めずに、観測されたデータのみを使って完全尤度を構成するパラメータ推定方法を因子回帰モデルに適用し、これにより似た説明変数を1つの因子にまとめて推定する。
【0095】
この因子回帰モデルは、EMアルゴリズムによって推定することができるが、説明変数に大量に欠損があった場合に通常のEMアルゴリズムを適用すると計算時間がかかる。そこで、本実施形態のように欠損値を埋めないEMアルゴリズムを用いることにより、高速にパラメータを推定することができる。この方法は、説明変数の数が多く、説明変数が大量欠損しているときに特に有用である。
【0096】
[その他の実施形態]
前記各実施形態では、収集データの収集・蓄積から分析結果の送信までの一連の分析処理をすべて分析サーバで実行する場合を例にとって説明したが、この一例の処理を複数の処理に分割し、この分割された複数の処理を複数のサーバで分散処理するようにしてもよい。
【0097】
その他、分析サーバの構成、分析処理の手順と処理内容等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。
【0098】
要するにこの発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
【符号の説明】
【0099】
SV…分析サーバ、SP…サービスプロバイダ端末、UT1〜UTn…ユーザ端末、NW…通信ネットワーク、1…通信インタフェースユニット、2a,2b,2c,2d,2e,2f…制御ユニット、3a,3b…記憶ユニット、21…収集データ管理部、22…サンプル数閾値判定部、23…高速因子分析部、24…分析データ表示制御部、25…要求誤差設定部、26…欠損率判定部、27…変数の数確認部、28…関係判定部、31…収集データ記憶部、32…分析データ記憶部、33…設定誤差記憶部、231…高速構造方程式モデリング処理部、232…高速罰則付最尤法処理部、233…高速主成分分析部、234…高速因子回帰モデル処理部。