IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社キーエンスの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-03-29
(45)【発行日】2022-04-06
(54)【発明の名称】データ分析装置及びデータ分析方法
(51)【国際特許分類】
   G06F 16/248 20190101AFI20220330BHJP
   G06F 16/26 20190101ALI20220330BHJP
   G06F 16/28 20190101ALI20220330BHJP
   G06F 16/906 20190101ALI20220330BHJP
【FI】
G06F16/248
G06F16/26
G06F16/28
G06F16/906
【請求項の数】 7
(21)【出願番号】P 2018148304
(22)【出願日】2018-08-07
(65)【公開番号】P2020024542
(43)【公開日】2020-02-13
【審査請求日】2021-03-29
(73)【特許権者】
【識別番号】000129253
【氏名又は名称】株式会社キーエンス
(74)【代理人】
【識別番号】110001427
【氏名又は名称】特許業務法人前田特許事務所
(72)【発明者】
【氏名】能見 大河
(72)【発明者】
【氏名】梅原 康暢
【審査官】田川 泰宏
(56)【参考文献】
【文献】特開2016-091343(JP,A)
【文献】特開2010-250769(JP,A)
【文献】国際公開第2017/168524(WO,A1)
【文献】特開2007-272917(JP,A)
【文献】特開2012-256283(JP,A)
【文献】米国特許出願公開第2007/0158040(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
分析対象データを分析するデータ分析装置において、
複数の特徴量と目的変数とを含む分析対象データの入力を受け付けるデータ入力部と、
前記複数の特徴量から前記目的変数を予測するための予測モデルを生成する予測モデル生成部と、
前記複数の特徴量それぞれに対して前記予測モデルによる予測に対する重要度を算出する重要度算出部と、
前記重要度算出部により算出された重要度に基づき、上位の重要度を有する特徴量を表示する表示部と、
前記表示部に表示された特徴量の中から使用者の入力に応じて選択された特徴量の値に基づいて前記分析対象データを複数のクラスターに分割し、各クラスターと、各クラスターの目的変数の代表値との関係を示す基本図を生成する基本図生成部と、
前記基本図に示された複数のクラスターから、いずれか1つのクラスターの選択を受け付けるクラスター選択部と、
前記クラスター選択部により選択されたクラスターにおいて、前記目的変数の予測に寄与する特徴量と、全クラスターまたは前記クラスター選択部により選択されていない選択外のクラスターにおいて、前記目的変数の予測に寄与する特徴量との比較を示す比較図を生成する比較図生成部とを備え、
前記表示部は、前記基本図生成部により生成された基本図と、前記比較図生成部により生成された比較図とを表示可能に構成されていることを特徴とするデータ分析装置。
【請求項2】
請求項1に記載のデータ分析装置において、
前記表示部は、上位の重要度を有する複数の特徴量を重要度の高い順に並べて表示するように構成されていることを特徴とするデータ分析装置。
【請求項3】
請求項2に記載のデータ分析装置において、
前記表示部は、最上位の重要度を有する特徴量と、最上位の重要度未満の複数の特徴量とを同時に表示するように構成されていることを特徴とするデータ分析装置。
【請求項4】
請求項1から3のいずれか1つに記載のデータ分析装置において、
前記比較図生成部は、前記クラスター選択部により選択されたクラスターでのみ寄与度が有意に高い特徴量を示す前記比較図を生成するように構成されていることを特徴とするデータ分析装置。
【請求項5】
請求項1から4のいずれか1つに記載のデータ分析装置において、
前記比較図生成部は、前記上位の重要度を有する特徴量のうち、使用者により選択されなかった特徴量を示す前記比較図を生成するように構成されていることを特徴とするデータ分析装置。
【請求項6】
請求項1から5のいずれか1つに記載のデータ分析装置において、
前記比較図生成部は、前記分析対象データの値が存在していない欠損クラスターにおいて、前記目的変数の予測に寄与する特徴量を示す前記比較図を生成するように構成されていることを特徴とするデータ分析装置。
【請求項7】
分析対象データを分析するデータ分析方法において、
複数の特徴量と目的変数とを含む分析対象データの入力を受け付けるデータ入力ステップと、
前記複数の特徴量から前記目的変数を予測するための予測モデルを生成する予測モデル生成ステップと、
前記複数の特徴量それぞれに対して前記予測モデルによる予測に対する重要度を算出する重要度算出ステップと、
前記重要度算出ステップにより算出された重要度に基づき、上位の重要度を有する特徴量を表示する特徴量表示ステップと、
前記特徴量表示ステップで表示された特徴量の中から使用者の入力に応じて選択された特徴量の値に基づいて前記分析対象データを複数のクラスターに分割し、各クラスターと、各クラスターの目的変数の代表値との関係を示す基本図を生成する基本図生成ステップと、
前記基本図に示された複数のクラスターから、いずれか1つのクラスターの選択を受け付けるクラスター選択ステップと、
前記クラスター選択ステップで選択されたクラスターにおいて、前記目的変数の予測に寄与する特徴量と、全クラスターまたは前記クラスター選択ステップにより選択されていない選択外のクラスターにおいて、前記目的変数の予測に寄与する特徴量との比較を示す比較図を生成する比較図生成ステップと、
前記基本図生成ステップで生成された基本図と、前記比較図生成ステップで生成された比較図とを表示可能な比較図表示ステップとを備えていることを特徴とするデータ分析方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ分析装置及びデータ分析方法に関する。
【背景技術】
【0002】
従来より、大量の情報の中からこれまで未知であった有用な知見を得ようと試みる、いわゆるデータマイニングが知られている。一般的なデータマイニングの手法では、前処理ステップ、特徴抽出ステップ、モデル学習ステップ、後処理ステップの各ステップを順に実行する。前処理ステップでは、分析に必要なデータを収集し、分析の効果を高めるために、データの中から不要なノイズを取り除いたり、欠損した項目を埋めるといった作業を行う。この作業はETL:Extract/Transform/Loadと呼ばれている。特徴抽出ステップでは、元データに存在する特徴量を加工し、分析により役立つ新たな特徴量を生成する。モデル学習ステップでは、前処理ステップ及び特徴抽出ステップで準備されたデータを機械学習アルゴリズムに入力し、分析結果を得る。後処理ステップでは、モデル学習ステップで得られた分析結果を外部の機器に出力したり、分析結果に基づいてレポートを作成するといった処理を行う。
【0003】
ところで、最適な特徴量の設計には、熟練の分析者による試行錯誤が必要で、データ分析に長い時間を要する原因となっていた。このことに対し、例えば、非特許文献1に開示されているように、新たな特徴量をデータから自動的に生成する技術が知られている。これら文献に開示されている技術では、事前に定義された一連の演算子(+,-,×,÷など)を元の特徴量に対して網羅的に適用し、大量の新たな特徴量を自動的に生成することができる。
【先行技術文献】
【非特許文献】
【0004】
【文献】「A Randomized Exhaustive Propositionalization Approach for Molecule Classification」2010年5月26日
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記文献の技術では、複数の演算子の組み合わせの結果得られた新たな特徴量は膨大な数になる。その膨大な数の特徴量の中には、分析に有効でない特徴量も大量に含まれているため、後続のモデル学習ステップに時間がかかるという問題があった。
【0006】
また、分析の精度向上に役立つ新たな特徴量が生成されたとしても、その生成された特徴量と目的変数との関係や、他の特徴量との関係性が直観的に分からないため、実際に分析結果から知見を得ようとすると、個々の特徴量に関して追加の分析作業を必要としていた。つまり、上記文献の技術を使用したとしても、有用な知見を得るためには、分析者による手作業が結局必要になるので、データ分析に時間がかかるという問題は依然として解決されない。
【0007】
本発明は、かかる点に鑑みてなされたものであり、その目的とするところは、大量のデータから特徴量を得て重要度の高い特徴量を表示可能にし、新たな知見を得るための手助けができるようにすることにある。
【課題を解決するための手段】
【0008】
上記目的を達成するために、第1の発明は、分析対象データを分析するデータ分析装置において、複数の特徴量と目的変数とを含む分析対象データの入力を受け付けるデータ入力部と、前記複数の特徴量から前記目的変数を予測するための予測モデルを生成する予測モデル生成部と、前記複数の特徴量それぞれに対して前記予測モデルによる予測に対する重要度を算出する重要度算出部と、前記重要度算出部により算出された重要度に基づき、上位の重要度を有する特徴量を表示する表示部と、前記表示部に表示された特徴量の中から使用者の入力に応じて選択された特徴量の値に基づいて前記分析対象データを複数のクラスターに分割し、各クラスターと、各クラスターの目的変数の代表値との関係を示す基本図を生成する基本図生成部と、前記基本図に示された複数のクラスターから、いずれか1つのクラスターの選択を受け付けるクラスター選択部と、前記クラスター選択部により選択されたクラスターにおいて、前記目的変数の予測に寄与する特徴量と、全クラスターまたは前記クラスター選択部により選択されていない選択外のクラスターにおいて、前記目的変数の予測に寄与する特徴量との比較を示す比較図を生成する比較図生成部とを備え、前記表示部は、前記基本図生成部により生成された基本図と、前記比較図生成部により生成された比較図とを表示可能に構成されていることを特徴とする。
【0009】
この構成によれば、分析対象データが入力されると、分析対象データに含まれる複数の特徴量から目的変数を予測するための予測モデルが生成される。特徴量は、分析対象データに含まれていたものであってもよいし、新たに生成されたものであってもよい。そして、予測モデルによる予測に対する重要度が、複数の特徴量のそれぞれに対して算出され、算出された複数の特徴量のうち、上位の重要度を有する特徴量が表示部に表示される。このとき、下位の重要度を有する特徴量が表示されていてもよい。いずれにしても、使用者は、表示部を見ることで、重要度の高い特徴量を、重要度の低い特徴量と区別して把握することができる。使用者が、表示部に表示された特徴量の中から所望の特徴量を選択すると、その選択された特徴量の値に基づいて分析対象データが複数のクラスターに分割される。
【0010】
また、各クラスターと、各クラスターの目的変数の代表値との関係を示す基本図が生成され、この基本図に示された複数のクラスターから任意の1つのクラスターの選択が受け付けられると、選択されたクラスターにおける目的変数の予測に寄与する特徴量と、全クラスターまたは選択外のクラススターにおける目的変数の予測に寄与する特徴量との比較を示す比較図が生成される。そして、基本図と比較図が表示部に表示される。
【0011】
使用者は、基本図を見ることで、分析対象データが分割されてできたクラスターのそれぞれについて目的変数の代表値との関係を知ることができるので、これに基づいて新たな知見を得ることができる。
【0012】
また、使用者は、注目したいクラスターがあった場合、そのクラスターを選択すると、そのクラスターにおける目的変数の予測に寄与する特徴量だけでなく、全クラスターにおける目的変数の予測に寄与する特徴量との比較や、選択外のクラススターにおける目的変数の予測に寄与する特徴量との比較を行うことができるので、これに基づいて新たな知見を得ることができる。
【0013】
尚、基本図と比較図とを表示部に同時に表示してもよいし、異なるタイミングで表示してもよい。また、「図」には、グラフや表、文字も含まれる。
【0014】
第2の発明は、前記表示部は、上位の重要度を有する複数の特徴量を重要度の高い順に並べて表示するように構成されていることを特徴とする。
【0015】
この構成によれば、上位の重要度を有する複数の特徴量がランキング形式で表示部に表示されることになるので、使用者が複数の特徴量の重要度を相対比較することができる。重要度を高い順に並べる方向としては、例えば上下方向であってもよいし、使用者から見て左右方向であってもよい。
【0016】
第3の発明は、前記表示部は、最上位の重要度を有する特徴量と、最上位の重要度未満の複数の特徴量とを同時に表示するように構成されていることを特徴とする。
【0017】
この構成によれば、最上位の重要度を有する特徴量がどの特徴量であるか、また、最上位の重要度と次に高い重要度との差を容易に把握することができる。
【0018】
第4の発明は、前記比較図生成部は、前記クラスター選択部により選択されたクラスターでのみ寄与度が有意に高い特徴量を示す前記比較図を生成するように構成されていることを特徴とする。
【0019】
この構成によれば、選択されたクラスターに関連性の高い特徴量が自動的に示されるので、複数の特徴量に基づいて新たな知見を得ることができる。
【0020】
第5の発明は、前記比較図生成部は、前記上位の重要度を有する特徴量のうち、使用者により選択されなかった特徴量を示す前記比較図を生成するように構成されていることを特徴とする。
【0021】
この構成によれば、使用者により選択されなかったが、上位の重要度を有する特徴量は目的変数に与える影響が大きいことが考えられるので、この上位の重要度を有する特徴量も比較図として示すことで、複数の特徴量に基づいて新たな知見を得ることができる。
【0022】
第6の発明は、前記比較図生成部は、前記分析対象データの値が存在していない欠損クラスターにおいて、前記目的変数の予測に寄与する特徴量を示す前記比較図を生成するように構成されていることを特徴とする。
【0023】
この構成によれば、値が存在していない分析対象データ群を欠損クラスターとしたとき、この欠損クラスターも目的変数の予測に寄与する場合があり、比較図に、欠損クラスターにおける目的変数の予測に寄与する特徴量を示すことで、新たな知見を得ることができる。
【0024】
第7の発明は、分析対象データを分析するデータ分析方法において、複数の特徴量と目的変数とを含む分析対象データの入力を受け付けるデータ入力ステップと、前記複数の特徴量から前記目的変数を予測するための予測モデルを生成する予測モデル生成ステップと、前記複数の特徴量それぞれに対して前記予測モデルによる予測に対する重要度を算出する重要度算出ステップと、前記重要度算出ステップにより算出された重要度に基づき、上位の重要度を有する特徴量を表示する特徴量表示ステップと、前記特徴量表示ステップで表示された特徴量の中から使用者の入力に応じて選択された特徴量の値に基づいて前記分析対象データを複数のクラスターに分割し、各クラスターと、各クラスターの目的変数の代表値との関係を示す基本図を生成する基本図生成ステップと、前記基本図に示された複数のクラスターから、いずれか1つのクラスターの選択を受け付けるクラスター選択ステップと、前記クラスター選択ステップで選択されたクラスターにおいて、前記目的変数の予測に寄与する特徴量と、全クラスターまたは前記クラスター選択ステップにより選択されていない選択外のクラスターにおいて、前記目的変数の予測に寄与する特徴量との比較を示す比較図を生成する比較図生成ステップと、前記基本図生成ステップで生成された基本図と、前記比較図生成ステップで生成された比較図とを表示可能な比較図表示ステップとを備えていることを特徴とするデータ分析方法である。
【発明の効果】
【0025】
本発明によれば、大量のデータに含まれる重要度の高い特徴量を表示部に表示することができる。そして、分析対象データが分割されてできたクラスターのそれぞれについて目的変数の代表値との関係を知ることができるとともに、選択したクラスターにおける目的変数の予測に寄与する特徴量と、全クラスターまたは選択外のクラスターにおける目的変数の予測に寄与する特徴量との比較を行うことができるので、新たな知見を得るための手助けをすることができる。
【図面の簡単な説明】
【0026】
図1】本発明の実施形態に係るデータ分析装置の概略構成を示す図である。
図2】データ分析装置のブロック図である。
図3】データ分析の手順を示すフローチャートである。
図4】データ分析装置の動作を示すフローチャートである。
図5】データ入力用ユーザーインターフェースを示す図である。
図6】2つのファイルにそれぞれ格納されている分析対象データを表形式で示す図である。
図7】データフロー表示ユーザーインターフェースを示す図である。
図8】分析対象データをプレビュー表示したデータフロー表示ユーザーインターフェースを示す図である。
図9】データ加工ユーザーインターフェースを示す図である。
図10】加工後データをアイコン表示したデータフロー表示ユーザーインターフェースを示す図である。
図11】特徴量自動生成ユーザーインターフェースを示す図である。
図12】2つの分析対象データ間で対応関係にある割合の算出方法を説明する図である。
図13】価格の列の合計を計算して「master」に加える場合を説明する図である。
図14】日付を表す行との組み合わせに基づいて、集約する行を決定する場合を説明する図である。
図15】特徴量表示ユーザーインターフェースを示す図である。
図16】「直近30日の総来店日数」が選択された場合の特徴量表示ユーザーインターフェースを示す図である。
図17】詳細メニューから「値の平均値を比較」を選択した場合の特徴量表示ユーザーインターフェースを示す図である。
図18】比較表が表示された特徴量表示ユーザーインターフェースを示す図である。
図19】予測精度比較グラフが表示された特徴量表示ユーザーインターフェースを示す図である。
図20】「最終来店日からの経過日数」が選択された場合の特徴量表示ユーザーインターフェースを示す図である。
図21】影響度比較グラフが表示された特徴量表示ユーザーインターフェースを示す図である。
図22】詳細メニューから「特徴量の寄与度を比較」を選択した場合の特徴量表示ユーザーインターフェースを示す図である。
図23】寄与度表示グラフが表示された特徴量表示ユーザーインターフェースを示す図である。
図24】寄与度の計算方法を説明する図である。
図25】特徴量の「性別」を選択した場合に表示される特徴量表示ユーザーインターフェースを示す図である。
図26】差分の説明グラフが表示された特徴量表示ユーザーインターフェースを示す図である。
図27】特徴量の寄与度の変化に関するグラフが表示された特徴量表示ユーザーインターフェースを示す図である。
【発明を実施するための形態】
【0027】
以下、本発明の実施形態を図面に基づいて詳細に説明する。尚、以下の好ましい実施形態の説明は、本質的に例示に過ぎず、本発明、その適用物或いはその用途を制限することを意図するものではない。
【0028】
図1は、本発明の実施形態に係るデータ分析装置1の概略構成を示す図であり、図2は、データ分析装置1のブロック図である。このデータ分析装置1は、分析対象データを分析する装置であり、このデータ分析装置1を使用することで、本発明に係るデータ分析方法を実行することができる。データ分析装置1及びデータ分析方法は、例えば、大量の情報の中からこれまで未知であった有用な知見を得ようと試みる、いわゆるデータマイニングを行う際に使用することができる。
(データ分析手順)
図3に示すフローチャートに基づいて、一般的なデータ分析の手順について説明する。開始後、ステップSA1では前処理ステップを実行する。前処理ステップでは、分析に必要なデータ、すなわち分析対象データを収集し、分析の効果を高めるために、データの中から不要なノイズを取り除いたり、欠損した項目を埋めるといった作業を行う。この作業はETL:Extract/Transform/Loadと呼ばれている。ステップSA2では特徴抽出ステップを実行する。特徴抽出ステップでは、元データに存在する特徴量を加工し、分析により役立つ新たな特徴量を生成する。ステップSA3ではモデル学習ステップを実行する。モデル学習ステップでは、前処理ステップ及び特徴抽出ステップで準備されたデータを機械学習アルゴリズムに入力し、分析結果を得る。ステップSA4では後処理ステップを実行する。後処理ステップでは、モデル学習ステップで得られた分析結果を外部の機器に出力したり、分析結果に基づいてレポートを作成するといった処理を行う。
【0029】
(データ分析装置1の全体構成)
図1及び図2に示すように、データ分析装置1は、装置本体2と、モニタ3と、キーボード4と、マウス5とを備えており、モニタ3、キーボード4及びマウス5は、装置本体2に接続されている。例えば汎用のパーソナルコンピュータに、後述する制御内容を実行するプログラムをインストールすることによってデータ分析装置1とすることができ、また、前記プログラムがインストールされた専用のハードウェアでデータ分析装置1を構成することもできる。装置本体2とモニタ3とは一体化されていてもよいし、装置本体2の一部がモニタ3に内蔵されていてもよい。
【0030】
データ分析装置1は、通信モジュール(図示せず)を内蔵しており、外部との通信が可能に構成されている。これにより、インターネット回線を介して外部サーバーからのデータのダウンロードが可能になる。
【0031】
また、キーボード4及びマウス5は、データ分析装置1を操作する操作手段であるとともに、各種情報を入力する入力手段、選択操作を行う選択手段等でもある。キーボード4及びマウス5に加えて、またはキーボード4及びマウス5に変えて、タッチパネル式の入力装置、音声入力装置、ペン型の入力装置等を使用することもできる。
【0032】
(モニタ3の構成)
図1に示すモニタ3は、たとえば有機ELディスプレイや液晶ディスプレイ等からなるものであり、それ単体で表示部と呼ぶこともできるし、モニタ3と、図2に示す表示制御部3aとを合わせて表示部と呼ぶこともできる。表示制御部3aは、モニタ3に内蔵されていてもよいし、装置本体10に内蔵されていてもよい。表示制御部3aは、モニタ3に対して画像を表示させる表示用DSPなどから構成される。表示制御部3aには、画像を表示させる際に画像データを一時記憶するVRAMなどのビデオメモリが含まれていてもよい。表示制御部3aは、後述する主制御部11のCPU11aから送られてきた表示指令(表示コマンド)に基づいて、モニタ3に対して所定の画像を表示させるための制御信号を送信する。たとえば、各種ユーザーインターフェースやアイコン、キーボード4やマウス5を用いた使用者の操作内容をモニタ3に表示させるための制御信号も送信する。また、マウス5で操作可能なポインタ等もモニタ3に表示することができるようになっている。
【0033】
モニタ3をタッチ操作パネル型モニタとすることで、モニタ3に各種情報の入力機能を持たせることができる。
【0034】
(装置本体2の全体構成)
図1に示す装置本体2は、制御ユニット10と、記憶部30とを備えている。記憶部30は、ハードディスクドライブ、ソリッドステートドライブ(SSD)等で構成されている。記憶部30は、制御ユニット10に接続されており、制御ユニット10によって制御され、各種データを保存しておくことができるとともに、保存しておいたデータを読み出すこともできるようになっている。
【0035】
(制御ユニット10)
制御ユニット10は、具体的に図示しないが、MPU、システムLSI、DSPや専用ハードウェア等で構成することができる。制御ユニット10は、後述するように様々な機能を搭載しているが、これらは論理回路によって実現されていてもよいし、ソフトウェアを実行することによって実現されていてもよい。
【0036】
図2に示すように、制御ユニット10は、主制御部11と、データ入力部12と、予測モデル生成部13と、重要度算出部14と、クラスター選択部15と、表示図生成部16と、説明文自動生成部18とを備えている。制御ユニット10の各部は、上述したように分けて記載しているが、同じ部分が複数種の処理を実行するように構成してもよいし、更に細かく分けてこれらを連携させて1つの処理を実行するように構成してもよい。
【0037】
上記各ハードウェアは、バスなどの電気的な通信路(配線)を介し、双方向通信可能または一方向通信可能に接続されている。
【0038】
主制御部11は、各種プログラムに基づき数値計算や情報処理を行うとともに、ハードウェア各部の制御を行う。主制御部11は、中央演算処理装置として機能するCPU11aと、主制御部11が各種プログラムを実行する際のワークエリアとして機能するRAM等のワークメモリ11bと、起動プログラムや初期化プログラム等が格納されたROM、フラッシュROMまたはEEPROM等のプログラムメモリ11cとを備えている。
【0039】
データ入力部12は、複数の特徴量と目的変数とを含む分析対象データの入力を受け付ける部分であり、図5に示すデータ入力用ユーザーインターフェース50をモニタ3に表示させるとともに、データ入力用ユーザーインターフェース50上でなされた使用者の操作を受け付ける。使用者の操作とは、キーボード4の操作や、マウス5の操作(ボタンクリック、ドラッグ&ドロップ、ホイールの回転等を含む)がある。
【0040】
ここで、分析対象データは、複数の特徴量と目的変数とを含むデータであるが、複数の特徴量は、分析対象データにもともと存在しているもの(既存特徴量)、使用者が気付いていなくて分析対象データに暗に含まれているもの(潜在的特徴量)、新たに生成したもの(新たな特徴量)等のいずれか1種または複数種を含むデータであればよい。分析対象データの一部が欠損していてもよく、その場合は、後述するように欠損した項目を埋める作業を行えばよい。
【0041】
図5に示すデータ入力用ユーザーインターフェース50には、ファイル選択ボタン50aと、データベース選択ボタン50bと、URL指定ボタン50cと、データベース表示領域50dと、読み込み開始ボタン50eとが設けられている。各ボタンの配置は自由に設定できる。
【0042】
例えば、分析対象データを格納したファイルが外部記憶装置や記憶部30に保存されていて、デスクトップ上や、開いた状態のフォルダにある場合には、使用者が当該ファイルをデータベース表示領域50dへドラッグ&ドロップ操作する。これにより、分析対象データを格納したファイル名がデータベース表示領域50dに表示される。その後、読み込み開始ボタン50eを押すと、データベース表示領域50dに表示されているファイルが記憶部30の所定領域に読み込まれて保存される。
【0043】
分析対象データがデータベース上にある場合には、使用者がデータベース選択ボタン50bを押す。データベース選択ボタン50bが押されると、データベースに接続するための設定画面(図示せず)を表示し、テーブル名の入力や必要に応じてパスワードの入力を使用者に促す。その後、読み込み開始ボタン50eを押すと、分析対象データが所定のファイル形式で記憶部30の所定領域に読み込まれて保存されるとともに、分析対象データを格納したファイル名がデータベース表示領域50dに表示される。
【0044】
分析対象データがインターネットやサーバー上にある場合には、使用者がURL指定ボタン50cを押す。URL指定ボタン50cが押されると、URL入力画面(図示せず)を表示し、URLの入力を使用者に促す。その後、読み込み開始ボタン50eを押すと、分析対象データがダウンロードされて所定のファイル形式で記憶部30の所定領域に読み込まれて保存されるとともに、分析対象データを格納したファイル名がデータベース表示領域50dに表示される。
【0045】
分析対象データを格納したファイルは、1つのみであってもよいし、複数であってもよい。この図5では、「transaction」、「master」の2つのファイルにそれぞれ格納されている分析対象データを読み込んだ場合を示している。上述した3つの方法以外の方法でファイルを読み込んでもよい。上記ファイル形式は、csv形式であるが、これ以外の形式であってもよい。
【0046】
図6は、「master」と「transaction」にそれぞれ格納されている分析対象データを示している。この例では、「master」が顧客情報であり、顧客IDに対応付けられて年齢及び性別が記録されているとともに、顧客IDに対応付けられて、当該顧客が離反した顧客かどうかが「離反」列に記録されている。「離反」とは、一度来店したが、その後、来店しなくなったことである。「離反」列に「1」と記録されている顧客は離反した顧客であり、「0」と記録されている顧客は離反していない顧客である。
【0047】
「transaction」には、個々の購買履歴が記録されており、「顧客ID」列で、「master」と行ごとの対応関係が紐づけられている。「transaction」には、顧客IDに対応付けられて購入日、カテゴリ及び価格が記録されている。尚、上述したデータは本発明の説明のために用意した例であり、本発明の適用範囲を限定するものではない。本発明は、購買履歴データ以外にも、様々な分析対象データを分析することができるものである。
【0048】
分析対象データの読み込みが完了すると、図7に示すデータフロー表示ユーザーインターフェース51をモニタ3に表示させるとともに、データフロー表示ユーザーインターフェース51上でなされた使用者の操作を受け付ける。データフロー表示ユーザーインターフェース51には、データフロー表示領域51aと、下部表示領域51bと、特徴量自動生成ボタン51cと、データ加工ボタン51dと、データ出力ボタン51eとが設けられている。
【0049】
データフロー表示領域51aには、読み込んだ分析対象データがアイコンとして表示される。下部表示領域51bには、読み込んだ分析対象データ同士の関係図(一般的にER図と呼ばれる)が表示される。図2に示すデータ入力部12は、読み込んだ複数の分析対象データで共通の列が存在するか否かを検出する。共通の列が存在するか否かは、例えば列の名称に基づいて判定できる。この例では、図6に示すように「master」及び「transaction」の両方に「顧客ID」という名称の列が存在することから、このことをデータ入力部12が検出する。すると、データ入力部12は、「master」の「顧客ID」と、「transaction」の「顧客ID」とが関連していると判断し、図7に示すように下部表示領域51bに表示される関係図において、「master」の「顧客ID」と、「transaction」の「顧客ID」と線で結んで表示する。
【0050】
以上の処理が、分析対象データの入力を受け付ける処理であり、データ入力部12で行われる。データ入力部12は、キーボード4やマウス5等の入力装置を含んでいてもよい。また、以上の処理は、図4に示すフローチャートにおけるステップSB1のデータ入力ステップに相当する。
【0051】
ステップSB1に続くステップSB2では、データ入力ステップで入力された分析対象データを加工する。まず、図7に示すデータフロー表示ユーザーインターフェース51のデータフロー表示領域51aに表示されている分析対象データのうち、加工したいデータを選択する。データの選択操作は、例えば、加工したいデータに対応するアイコンをクリックする操作を挙げることができる。アイコンをクリックすると、下部表示領域51bの関係図が消去されて、図8に示すように、選択した分析対象データが下部表示領域51bに表示される。このとき、下部表示領域51bには、選択した分析対象データの一部のみをプレビュー表示することができる。
【0052】
「transaction」をプレビュー表示して見ると、「カテゴリ」列に「日配品」、「日配品A」という文言が混在している。「日配品」と「日配品A」は、値が互いに異なることになるため、後述するモデル学習時にはこれらは異なるカテゴリとして扱われるが、データ分析上、同一として扱いたいのであれば、これらの表記ゆれを統一する方がより高い精度が得られる。これをデータ加工という。
【0053】
データ加工を行う際には、図8に示すデータフロー表示ユーザーインターフェース51のデータ加工ボタン51dを押す。データ加工ボタン51dが押されると、図9に示すデータ加工ユーザーインターフェース52をモニタ3に表示させるとともに、データ加工ユーザーインターフェース52上でなされた使用者の操作を受け付ける。データ加工ユーザーインターフェース52には、加工対象データ表示領域52aと、欠損値除去・穴埋めボタン52bと、データ置き換えボタン52cと、列削除ボタン52dと、列追加ボタン52eと、数式入力ボタン52fと、列情報表示ボタン52gと、終了ボタン52hとが設けられている。加工対象データ表示領域52aには、選択した分析対象データが表形式で表示される。表示されている表が大きい場合にはスクロールすることもできる。
【0054】
欠損値除去・穴埋めボタン52bは、分析対象データの欠損値の除去、及び分析対象データの穴埋めをする際に操作するボタンである。欠損値除去・穴埋めボタン52bを操作することで、任意の欠損値を除去したり、欠損した項目を追加することができる。データ置き換えボタン52cは、既存の値を別の値に置き換える際に操作するボタンである。例えば、「カテゴリ」列の「日配品A」のセルを選択してデータ置き換えボタン52cを押し、置き換え文字(値)として「日配品」と入力することで、同じ列の「日配品A」という値が「日配品」という値に自動的に置き換わる。列削除ボタン52dは、任意の列を削除する際に操作するボタンである。任意の列を選択した後、列削除ボタン52dを押すことで選択された列が削除される。列追加ボタン52eは任意の列を追加する際に操作するボタンである。表の任意の列を選択した後、列追加ボタン52eを押すことで選択された列の前後いずれかに列が追加される。数式入力ボタン52fは、セルに数式を入力するためのボタンである。数式入力ボタン52fの操作によって入力された数式によって演算された値になる。列情報表示ボタン52gは、任意の列に所定の情報を追加するためのボタンである。
【0055】
欠損値除去・穴埋めボタン52b、データ置き換えボタン52c、列削除ボタン52d、列追加ボタン52e、数式入力ボタン52f、列情報表示ボタン52gを操作して分析対象データを加工することができる。従って、データ分析装置1ではETL処理を行うことができ、ETL処理を行うことで分析対象データを分析により適した形に変形することができる。これにより、分析結果の精度をより一層高めることができる。一連の操作が終了したら、図9に示すデータ加工ユーザーインターフェース52の終了ボタン52hを押す。
【0056】
終了ボタン52hが押されると、図10に示すように、データフロー表示ユーザーインターフェース51が再び表示される。データフロー表示ユーザーインターフェース51のデータフロー表示領域51aには、新たなアイコン「transaction-1」が表示される。この「transaction-1」は、「transaction」を加工した後の分析対象データであり、「transaction-1」と「transaction」とが関連線によって結ばれており、関係性をグラフィカルに表示している。よって、使用者は、「transaction-1」が「transaction」の加工後データであること、及び「transaction-1」は加工処理が行われたものであることを直観的に把握できる。以上の一連のETL処理が図4に示すフローチャートのステップSB2のデータ加工処理である。
【0057】
一連のETL処理が終了すると、図4に示すフローチャートのステップSB3の特徴量生成に関する設定を入力するステップに進む。図10に示すデータフロー表示ユーザーインターフェース51の特徴量自動生成ボタン51cを押すと、図11に示す特徴量自動生成ユーザーインターフェース53をモニタ3に表示させるとともに、特徴量自動生成ユーザーインターフェース53上でなされた使用者の操作を受け付ける。
【0058】
特徴量自動生成ユーザーインターフェース53には、データフロー表示領域53aと、下部表示領域53bと、関係性指定領域53cと、目的変数指定領域53dと、詳細設定領域53eと、実行ボタン53fとが設けられている。データフロー表示領域53aは、例えば図10に示すデータフロー表示ユーザーインターフェース51のデータフロー表示領域51aと同様にデータフローが表示される。下部表示領域53bには、図7に示すデータフロー表示ユーザーインターフェース51の下部表示領域51bと同様に、分析対象データ同士の関係図が表示される。
【0059】
図11に示す関係性指定領域53cは、複数の分析対象データ間での対応関係を指定するための領域である。ここでは、「transaction-1」と「master」との対応関係を指定する。一例として、上述したように「transaction-1」の「顧客ID」と「master」の「顧客ID」とが対応した関係にあるので、「transaction-1」の「顧客ID」と「master」の「顧客ID」とを対応関係として指定しているが、これに限らず、「transaction-1」の任意の列と、「master」の任意の列とが対応関係にあるとして指定することもでき、両者の名前が一致している必要はない。
【0060】
関係性の指定は、特徴量のリストから選択することによって指定するようにしてもよいし、関係図上でドラッグ操作して線を引くことで指定してもよいし、名前を直接入力することによって指定するようにしてもよい。尚、データが1つしか無い場合には、分析対象データ間での対応関係は指定しない。
【0061】
関係性指定領域53cの下部には、パーセント表示されている数値がある。この数値は、指定した列によって全体の何割の行が2つの分析対象データ間で対応しているのかを示している。例えば、図12に一例を示すように、第1分析対象データの「ID」列に「1」、「2」、「3」、「4」が1つずつ存在していて、第2分析対象データの「ID」列に「1」が3つ、「3」が1つ、「5」が1つ存在しているとすると、第1分析対象データの「1」が第2分析対象データの「1」にそれぞれ対応し、第1分析対象データの「3」が第2分析対象データの「3」に対応し、それ以外のIDは対応しないことになる。この場合、第1分析対象データでは50%(2/4行)、第2分析対象データでは80%(4/5行)が「ID」列で対応していることになり、全体としては6/9行、つまり、約67%で対応しているということになる。このような計算を行い、計算結果を関係性指定領域53cの下部に表示する。
【0062】
目的変数指定領域53dは、分析対象となる目的変数を指定するための領域である。目的変数を指定することで、集約先のテーブルを決定することができる。ここでは顧客が離反するかどうかを分析するため、「master」の「離反」列を目的変数として指定している。従って、「transaction-1」の特徴量を集約し、「master」の新たな特徴量として加えることができる。目的変数の指定は、特徴量のリストから選択することによって指定するようにしてもよいし、リストからドラッグ操作することで指定してもよいし、名前を直接入力することによって指定するようにしてもよい。また、データ分析装置1は、目的変数が指定されると、目標変数として指定されたことを表すフラグを内部に設定する。このフラグを設定することで、後述する特徴量を目的変数自身から生成しないようにしている。
【0063】
以上の一連の処理が図4に示すフローチャートのステップSB3の特徴量生成に関する設定を入力する処理である。
【0064】
続くステップSB4では、特徴量を生成する処理を実行する。この処理は、特徴量自動生成ユーザーインターフェース53の実行ボタン53fを押すことで開始される。
【0065】
すなわち、ステップSB1、2で複数の分析対象データを指定し、ステップSB3で複数の分析対象データ関係性を指定した場合の特徴量の生成方法としては、例えば、AJ Knobbe, "Propositionalisation and Aggregates", 2001 に記載されている技術を使うことができる。図13に示す例は、「transaction」の「価格」の列について合計を計算し、「master」の特徴量として加える場合である。「transaction」の「顧客ID」が「1」の購買履歴を抽出し、「価格」の値を合計して購入金額の合計値を得る。「master」には、「合計の購入金額」の列を生成し、「顧客ID」が「1」の「合計の購入金額」の列に合計値を自動入力する。これは、「master」と「transaction」の間の行の対応関係が「顧客ID」列によって紐づけられていることから可能になる。
【0066】
集約する行は、例えば日付を表す行との組み合わせに基づいて決定してもよい。例えば、図14に示すように、「transaction」の「顧客ID」が「1」の購買履歴を抽出し、2018年2月1日を起点として直近10日以内の「価格」の値を合計する。「master」には、「直近10日以内の購入金額」の列を生成し、「顧客ID」が「1」の「直近10日以内の購入金額」の列に、直近10日以内の「価格」の合計値を自動入力する。全ての顧客IDについて同様な処理を行うことができる。
【0067】
分析対象データが時系列データの場合、このように集計期間を、例えば10日、20日、30日と切り替えることができるように構成されている。集計期間を切り替えることで、同一の集約関数であっても様々な種類の特徴量を生成することができる。期間の単位は、秒、分、時、月、年のいずれであってもよい。例えば、分析対象データの全集計期間を取得し、取得した全集計期間を自動的に複数の集計期間に分割するように構成することもできる。分析対象データの全集計期間が30日間の場合、0~10日、11日~20日、21日~30日のように分割することができる。この集計期間の分割は、後述する派生図生成部16bが派生図を生成する際に行うように構成できる。
【0068】
特徴量を生成した後、目的変数の予測に対する重要度を、各特徴量に対して評価する。目的変数の予測は、図2に示す予測モデル生成部13によって実行される。これが予測モデル生成ステップである。予測モデル生成部13は、複数の特徴量から目的変数を予測するための予測モデルを生成する。予測モデルは、例えば重回帰分析や決定木によって作ることができる。その生成手法については様々あるが、いずれも従来から知られた手法を用いることができる。
【0069】
予測モデルを生成した後、複数の特徴量それぞれに対して予測モデルによる予測に対する重要度を算出する。これは図2に示す重要度算出部14によって実行される処理であり、重要度算出ステップである。特徴量の重要度はFeature Importanceという名前で知られており、種々の計算方法が提案されており、いずれの計算方法を用いてもよい。例えば、以下の式(1)で表される線形重回帰モデルにおいて、各特徴量x1,x2,…に対する係数a1,a2,…を求め、その絶対値を重要度の値として使ってもよい。
【0070】
y=a1x1+a2x2+…+anxn ・・・(1)
あるいは、係数をそのまま使うのではなく、各特徴量x1,x2,…の大きさが揃うように補正した正規化係数を重要度に用いてもよい。
【0071】
このような重要度の分析を行った後、重要度が上位のものを制御ユニット10が抽出する。このとき、先ほどの集計期間が異なる特徴量については、複数の特徴量が重要度の上位に入る場合でも、最も重要なものだけを残して他は削除する。これは、例えば「直近30日の購入金額」、「直近20日の購入金額」、「直近10日の購入金額」が同時に特徴量の上位に入った場合、それを使用者にそのまま提示すると、ほぼ同じ意味を持った特徴量が重複して表示されることになるため使用者にとって分かりにくくなる。また、上位を、同じ意味を持った特徴量が占めてしまうと、それ以外の有効な特徴量が上位から追い出されてしまうことになり、有効な知見が得られにくくなるからである。
【0072】
「上位」に入る数としては、例えば2以上、5以上、10以上、20以上とすることができる。「上位」に入る数は、制御ユニット10が自動的に設定してもよいし、使用者が任意の数に設定してもよい。
【0073】
以上の一連の処理が図4に示すフローチャートのステップSB4の特徴量の生成処理である。特徴量の生成が完了するとステップSB5に進む。ステップSB5は、ステップSB4で生成した特徴量の情報を出力するステップである。
【0074】
特徴量の生成が完了して上位の特徴量が抽出されると、図15に示す特徴量表示ユーザーインターフェース60をモニタ3に表示させるとともに、特徴量表示ユーザーインターフェース60上でなされた使用者の操作を受け付ける。
【0075】
特徴量表示ユーザーインターフェース60には、特徴量表示領域60aと、詳細情報表示領域60bとが設けられている。特徴量表示領域60aと詳細情報表示領域60bとはモニタ3の左右に並ぶように配置することができる。特徴量表示領域60aには、上位の特徴量が表示される。つまり、モニタ5は、重要度算出部14により算出された重要度に基づき、上位の重要度を有する特徴量を表示するものである。このステップが特徴量表示ステップである。
【0076】
モニタ5は、上位の重要度を有する複数の特徴量を重要度の高い順に並べて表示する、すなわち、ランキング表示するように構成されている。この例では、最上位の重要度を有する特徴量と、最上位の重要度未満の複数の特徴量とを同時に表示するように構成されており、最上位の重要度を有する特徴量が最も上に位置し、最上位の重要度未満の複数の特徴量は、重要度の大きさによって降順に配置される。特徴量は、昇順に配置してもよいし、左右方向に並ぶように配置してもよい。特徴量表示領域60aに表示する特徴量は所定数であればよく、その数は特に限定されない。
【0077】
特徴量表示領域60aには、特徴量の名称が表示される名称表示部60cと、重要度が表示される重要度表示部60dとが設けられている。名称表示部60cには、「transaction」、「master」に存在していた特徴量の名称が表示されるようになっている。「transaction」、「master」に存在していた特徴量の名称はそのまま名称表示部60cに表示することができるが、使用者が変更できるようにしてもよい。
【0078】
重要度表示部60dには、棒グラフ形式で各特徴量の横に並ぶように、重要度が表示される。棒グラフ形式で表示する場合、長ければ長いほど重要度が高いとすることができる。重要度表示部60dには、各種グラフ形式以外にも重量度を数値で表示してもよいし、数値とグラフとを同時に表示してもよい。
【0079】
特徴量表示領域60aには、特徴量追加ボタン60fが設けられている。特徴量追加ボタン60fを押すと、特徴量表示領域60aに表示されている以外の特徴量が表示され、表示された特徴量の中から使用者が特徴量表示領域60aに表示したい特徴量を選択することができるようになっている。選択された特徴量は、特徴量表示領域60aに表示される。尚、特徴量表示領域60aに表示されている特徴量で不要だと思われる特徴量を削除する、非表示にする等も可能に構成されている。
【0080】
(制御ユニット10の詳細動作)
図15に示す特徴量表示ユーザーインターフェース60の特徴量表示領域60aに表示されている特徴量は使用者によって選択することができる。マウス5等を使用して、どの特徴量を選択するか使用者が入力操作を行うと、図16に示すように、特徴量表示ユーザーインターフェース60の詳細情報表示領域60bに第1基本図70が表示される。第1基本図70は、図2に示す表示図生成部16の基本図生成部16aが生成する。この処理が基本図生成ステップである。つまり、基本図生成部16aは、モニタ3に表示された特徴量の中から使用者の入力に応じて選択された第1の特徴量と、目的変数との関係を示す基本図を生成する部分である。第1の特徴量とは、上記使用者が選択した特徴量のことであり、図16に示す例では、「直近30日の総来店日数」である。使用者が選択した特徴量は強調表示されて他の特徴量との識別が容易になっている。また、第1基本図70は、使用者の入力に応じて選択された特徴量の値に基づいて分析対象データを複数のクラスターに分割しており、各クラスターと、各クラスターの目的変数の代表値との関係を示す図となっている。
【0081】
以下、第1基本図70について詳細に説明する。第1基本図70は、上側領域71と、中間領域72と、下側領域73の3つの領域に分けることができる。上側領域71には、縦軸を離反の割合とし、横軸を直近30日の総来店日数とした折れ線グラフが表示される。離反の割合とは、一度来店したが、その後、来店しなくなった顧客の割合である。横軸では、0日~30日までを6つの期間(区間)に分割して表示している。折れ線グラフでは、選択した特徴量と、目的変数(離反)との関係性が表示されている。
【0082】
中間領域72には、縦軸をデータ数とし、横軸を直近30日の総来店日数とした棒グラフが表示される。この棒グラフの横軸は、上側領域71に表示されている折れ線グラフの横軸と共有されている。この棒グラフでは、各区間に存在するデータの数が表現されており、度数分布表となっている。すなわち、制御ユニット10は、第1の特徴量の値に基づいて分析対象データを複数の期間に分割してクラスターを形成し、各クラスターに属する分析対象データの数を示すデータ数表示グラフを生成するように構成されている。そして、モニタ3は、生成されたデータ数表示グラフを表示可能に構成されている。
【0083】
上側領域71の折れ線グラフと、中間領域72の棒グラフとから、「直近30日の総来店日数が多いほど、離反=1のデータの割合が低下する」、「総来店日数が21日~25日の場合に離反=1の割合が最小となるが、該当するデータ数は少ない」といった傾向を読み取ることができる。
【0084】
さらに、制御ユニット10は、離反=1の割合の平均値を算出する。平均値は全データの平均値とすることができ、この例では21%である。さらに、全体の平均値(21%)と比べて、目的変数の平均値に有意差があると判定された区間では、系列が強調表示され、さらに説明文がグラフ下部、すなわち、下側領域73に付加される。
【0085】
有意差が無い場合には強調表示はされない。「有意差が無い」とは、データのバラつきやデータの数などを考慮した上で、その区間の代表値が比較対象の区間の代表値に対して十分な差を持っていると言えない場合のことを指す。また、強調表示とは、例えば、文字を太くする、文字の色の他の文字の色と変える、文字の背景に色を付ける等、他の文字と区別することができる表示である。
【0086】
説明文は、選択された第1の特徴量と目的変数との関係を説明する文であり、図2に示す説明文自動生成部18によって自動的に生成される。説明文自動生成部18は、例えば、データ入力部12で受け付けた分析対象データの名称や、特徴量の名称、特徴量の相対差、データ数等に基づいて、選択された第1の特徴量が目的変数に与える影響の度合い等を説明する文を生成することができる。これにより、使用者が特徴量と目的変数との関係を把握し易くなるとともに、使用者がコメントを作成する手間を省くことができる。
【0087】
ここで、有意差の判定について説明する。有意差の判定には、統計で一般に使用されるp値やt検定といった指標を使うことができる。例えばt検定は以下の式1で計算される。x,sは注目する系列での目的値の平均と標準偏差、μは目的値の全体平均、nは系列のデータ数である。この値が大きいほど、差が有意であると判定できる。
【0088】
【数1】
【0089】
これらの指標を使うことで、単純に全体平均からの乖離の度合を見るだけでなく、データの量や個々のデータのバラつきを加味することができるので、偶然大きな乖離が生じているのか、意味のある差が生じているのかを区別することができる。
【0090】
この統計検定を用いた強調表示によって、使用者はデータから真に意味のある場所に着目することができ、自動生成された特徴量から素早く有用な知見を得ることができる。
【0091】
上側領域71に表示されたグラフの中から任意の区間を選択すると、図17に示すように詳細メニュー74が表示される。詳細メニュー74は、選択した区間に含まれるデータと、全体の傾向とを比較するためのメニューであり、メニュー選択に応じてさらに詳細な情報を表示することができる。詳細メニュー74には、「値の平均値を比較」、「特徴量の寄与度を比較」及び「差分の説明を計算」の3つのメニューが含まれている。
【0092】
図17に示すように、例えば、「直近30日の総来店日数~5日」の区間に対して、「値の平均値を比較」というメニューを選択すると、図18に示すように、選択した区間のデータと全データのそれぞれについて、各特徴量の平均値を比較した比較表75が表示される。
【0093】
詳しくは、使用者が図16に示す第1基本図70に示された複数のクラスターから、いずれか1つのクラスターを選択する操作(クリック操作等)を行うと、この操作が図2に示すクラスター選択部15によって受け付けられる。この処理がクラスター選択ステップである。図2に示す比較図生成部16cは、クラスター選択部15により選択が受け付けられた後、選択されたクラスターにおいて、目的変数の予測に寄与する特徴量と、全クラスターまたはクラスター選択部15により選択されていない選択外のクラスターにおいて、目的変数の予測に寄与する特徴量との比較を示す比較表75(図18に示す)を生成する。この処理が比較図生成ステップである。
【0094】
詳細は後述するが、比較図生成部16cは、クラスター選択部15により選択されたクラスターでのみ寄与度が有意に高い特徴量を示す比較図を生成するように構成することもできる。また、比較図生成部16cは、上位の重要度を有する特徴量のうち、使用者により選択されなかった特徴量を示す比較図を生成するように構成することもできる。さらに、比較図生成部16cは、分析対象データの値が存在していない欠損クラスターにおいて、目的変数の予測に寄与する特徴量を示す比較図を生成するように構成することもできる。
【0095】
比較表75は、比較図であり、表形式以外にもグラフを表示した比較図であってもよい。そして、モニタ3は、第1基本図70と比較表75と同時または別々に表示可能に構成されており、第1基本図70と、比較表75とを同時または別々に表示する比較図表示ステップを実行することができる。
【0096】
比較表75には、重要度が高くないものを含む全ての特徴量の中から、平均値の乖離が有意に大きいものだけを表示している。ここでの有意性の判定にも、先ほどと同様にp値やt検定を使うことができる。
【0097】
比較表75に表示する特徴量を使用者が選択可能に構成することもできる。比較表75の下部には、特徴量追加ボタン75aが設けられている。特徴量追加ボタン75aを押すと、任意の特徴量を比較軸として追加することができる。比較表75に表示する特徴量を使用者が削除可能に構成することもできる。
【0098】
この例では比較表75に平均値を表示しているが、例えば、分散、中央値、最小値など、平均値以外の統計量を表示してもよい。
【0099】
これによって、ある特徴量を切り口として興味深いデータ群(本例なら離反率が高い顧客群)が見つかったときに、そのデータ群に固有の性質が何なのかを詳細に掘り下げることができ、その結果、新たな知見を得ることができる。
【0100】
さらに、比較や分析の軸となる特徴量は自動的に生成されているため、例えば「直近30日の総来店日数が少ない顧客では、野菜と日配品の購入額が特に小さい」といった、熟練の分析者でなければ気づきにくい、深い知見を容易に得ることができる。
【0101】
また、特徴量を選択した際に表示されるグラフは、目的変数との関係に加えて、それ以外のグラフを1つ以上含んでいてもよい。例えば、「直近30日の総来店日数」を指定した場合に、図19に示すように、2つ目のグラフとして「30日以外の期間で集計した場合との精度の比較」に関する予測精度比較グラフ76を表示することができる。予測精度比較グラフ76は、図18に示す第1基本図70の下に位置しており、従って第1基本図70が詳細情報表示領域60bに表示された状態から縦スクロールバー60eを操作して下スクロールすることで、予測精度比較グラフ76を表示することができる。第1基本図70と予測精度比較グラフ76とは同時に表示できるようにしてもよい。以上のようにして、第1基本図70と予測精度比較グラフ76とを同時にまたは別々に表示する派生図表示ステップを実行することができる。
【0102】
図19に示す予測精度比較グラフ76は、第3の派生図と呼ぶこともできる。第3の派生図は、第1の特徴量(本例では「直近30日の総来店日数」)に基づいて生成された予測モデルの精度と、第1の特徴量と同一カテゴリーに属し、且つ第1の特徴量と集計期間が異なる別の特徴量に基づいて生成された予測モデルの精度との比較を示す図である。「集計期間が異なる」ことは、予測精度比較グラフ76の横軸に示しており、具体的には「10日」、「20日」、…という表示である。この第3の派生図は、図2に示す派生図生成部16bによって生成される。この処理が派生図生成ステップである。これら直近10日の総来店日数、直近20日の総来店日数、直近30日の総来店日数は、「総来店日数」という同一のカテゴリーに属する。
【0103】
派生図生成部16bが第3の派生図を生成する場合には、第1の特徴量と同一カテゴリーに属し、集計期間が異なる別の特徴量に基づいて予測された予測モデルの精度を、第1の特徴量に基づいて生成された予測モデルの精度と比較することができる。これにより、使用者が各予測モデルの精度の相対差を把握した上で、どの予測モデルを使用して分析を行えば精度が高まるか、容易に判断可能になる。
【0104】
また、派生図生成部16bは、第3の派生図の生成時に、複数の別の特徴量に基づいてそれぞれ生成された各予測モデルの精度と、第1の特徴量に基づいて生成された予測モデルの精度とを比較可能に表現する図を生成する。さらに、派生図生成部16bは、第3の派生図の生成時に、別の特徴量として、所定以上の重要度を有する特徴量に基づいて生成された予測モデルの精度と、第1の特徴量に基づいて生成された予測モデルの精度とを比較可能にする図を生成する。具体的には、グラフであるが、その他にも数値で比較可能な図であってもよい。
【0105】
例えば時間や日数で集計される特徴量については、上述したように、集計期間が異なる特徴量を複数パターン生成し、その中で最適なものを1つ自動的に選択するように構成されている。図19では、選択されなかった集計期間との精度差を相対値で提示することで、「別の集計期間での総来店日数を特徴量として使うとどうなっていたか」を示すことができる。
【0106】
精度としては、データ分析で一般的に使用されるF値、AUCなどを使う。精度は絶対値でもよく、処理時間やデータ量など、精度以外の観点を組み合わせた指標でもよい。これによって、「なぜ20日でも40日でもなく、30日の総来店日数が出力されたのか?」と考えるユーザーに対して、より納得感を持たせることができる。また、「精度があまり変わらないのであれば集計するデータ量をなるべく少なくしたい」という要望に対して、データ量の影響度合いを提示することで判断基準を提供できる。
【0107】
図20は、特徴量表示ユーザーインターフェース60の特徴量表示領域60aに表示されている特徴量のうち、「最終来店日からの経過日数」を選択した場合を示している。特徴量表示ユーザーインターフェース60の詳細情報表示領域60bに第2基本図77が表示される。第2基本図77は、図2に示す表示図生成部16の基本図生成部16aが生成したものであり、この処理が基本図生成ステップである。つまり、基本図生成部16aは、モニタ3に表示された特徴量の中から使用者の入力に応じて選択された第1の特徴量と、目的変数との関係を示す基本図を生成しており、第1の特徴量とは、図20に示す例では、「最終来店日からの経過日数」である。
【0108】
第2基本図77は、上側領域77aと、中間領域77bと、下側領域77cの3つの領域に分けることができる。上側領域77aには、縦軸を離反の割合とし、横軸を最終来店日からの経過日数とした折れ線グラフが表示される。横軸では、0日~30日までを6つの期間(区間)に分割して表示している。
【0109】
中間領域77bには、縦軸をデータ数とし、横軸を最終来店日からの経過日数とした棒グラフが表示される。この棒グラフの横軸は、上側領域77aに表示されている折れ線グラフの横軸と共有されている。また、下側領域77cには、説明文自動生成部18で自動生成された説明文が表示される。
【0110】
図20に示す例でも、選択した特徴量と目的変数との関係性が表示されているが、強調される系列や、下側領域77cに記載される説明文の内容は、特徴量の性質に応じて図16に示す例とは異なっている。
【0111】
さらに、特徴量の詳細説明を行う2番目のグラフは、図21に示すように、別の特徴量との複合的な影響を示す影響度比較グラフ78となっている。このような影響度比較グラフ78を生成することもでき、このグラフ78は、第1の特徴量及び第2の特徴量を同時に表示した同時表示グラフと呼ぶことができる。生成された同時表示グラフは、モニタ3に表示可能になっている。影響度比較グラフ78は、第2基本図77と同時に表示してもよいし、別々に表示してもよい。影響度比較グラフ78と、第2基本図77と表示するステップが派生図表示ステップである。
【0112】
影響度比較グラフ78は、第1の派生図と呼ぶこともできる。第1の派生図は、第1の特徴量(本例では「最終来店日からの経過日数」)の値に基づいて分析対象データを複数のクラスターに分割し、各クラスターの目的変数の代表値を算出し、少なくともいずれか1つのクラスターで、第1の特徴量の目的変数の代表値に対して有意な差が存在すると判定される目的変数の代表値を有する第2の特徴量(本例では「直近30日の総来店日数」)を抽出し、当該第2の特徴量と目的変数との関係を示す図である。この第1の派生図は、図2に示す派生図生成部16bによって生成される。この処理が派生図生成ステップである。
【0113】
すなわち、図2に示す派生図生成部16bが第1の派生図である影響度比較グラフ78(図21に示す)を生成する場合には、例えば、複数の期間に分割した第1の特徴量を得て、各期間の目的変数の代表値として平均値や中央値等を算出し、任意の期間において、第1の特徴量の目的変数の代表値に対して有意な差が存在する目的変数の代表値を有する第2の特徴量を抽出し、この第2の特徴量と目的変数との関係を示すことができる。これにより、第1の特徴量だけでは得ることのできなかった知見を得ることができる。分析対象データを振り分ける条件を区間と呼ぶことができ、区間は、期間だけでなく、例えば、性別、場所等であってもよい。
【0114】
また、派生図生成部16bは、第1の特徴量の値に基づいて分析対象データを複数のクラスターに分割し、各クラスターに属する分析対象データの数を示すデータ数表示グラフ78aを生成するように構成されている。分析対象データを複数のクラスターに分割する際、派生図生成部16bは、分析対象データの全集計期間を取得し、取得した全集計期間を自動的に複数の集計期間に分割する。これにより、使用者の分割作業の手間を省くことができる。
【0115】
データ数表示グラフ78aは、第1の派生図(影響度比較グラフ78)の下に表示された棒グラフである。そして、モニタ3は、派生図生成部16bにより生成されたデータ数表示グラフ78aを表示可能に構成されている。データ数表示グラフ78aによれば、分析対象データの数を把握することができる。
【0116】
また、分析対象データの数が第1の所定数以下のクラスターが存在することを使用者に通知するように構成することができる。例えば、全データ数の数%以下のデータ数しかないクラスターが存在した場合、当該クラスターを構成するデータ数が全データ数の数%以下であるといった通知をすることで、使用者がクラスターの特徴量の信頼性を判断する際の材料になる。
【0117】
派生図生成部16bは、第1の派生図の生成時に、分析対象データの数が第2の所定数以下の特徴量については、第1の特徴量の目的変数の代表値に対して有意な差が無いと判定するように構成されている。第2の所定数と、前記第1の所定数とは同じであってもよいし、一方が他方よりも少なくてもよい。例えば、全データ数の数%以下のデータ数しかない特徴量が存在した場合、目的変数の信頼性が乏しいと考えることができ、このような場合には、有意な差が無いと判定することで、分析に用いられないようにすることができる。
【0118】
影響度比較グラフ78では、選択した特徴量だけで見ると同一区間のデータであっても、別の特徴量でデータを更に分割することで、目的変数との関係に大きな差異が生じることを示している。図20に示す上側領域77aに表示されている折れ線グラフでは、「最終来店日からの経過日数が小さいほど、離反=1の割合が低下する」という事実を読み取ることができたが、図21に示す影響度比較グラフ78からは更に、「たとえ最終来店日からの経過日数が小さくても、総来店日数が10日未満の顧客は離反率が高い」という新たな知見を得ることができる。
【0119】
この影響度比較グラフ78では、別の特徴量の違いによる区間内の差が有意かどうかを検定し、有意であると判定された区間だけが強調表示されている。ここでは「直近30日の総来店日数」という特徴量を選択した特徴量と組み合わせているが、他の全ての特徴量について組合せのグラフを表示すると表示される数が膨大となる。
【0120】
そこで、各組合せについて上記有意性の値を計算した上で、有意性が特に高いものだけを選択して表示する。なお、図16に示す例では、この影響度比較グラフ78について説明しなかったが、その理由は、どの組合せで評価した場合でも系列内で有意な差が生じなかったからである。つまり、系列内で有意な差が生じれば、影響度比較グラフ78を自動的に生成して表示させることができるように構成されている。
【0121】
この際、組み合わせる特徴量は、重要度が高い特徴量であってもよいし、重要度が低い特徴量であってもよく、重要度の高低に関係なく決定することができる。
【0122】
また、組み合わせる特徴量をどの区間で分割するか(図21の場合5日)についても、様々な分割方法のそれぞれで有意性を検証し、有意性が最も高くなる値を選択するように構成することができる。例えば、5日間で分割した場合と、10日間で分割した場合とのそれぞれで有意性を検証することもでき、このような区間の分割方法は制御ユニット10が自動で行うようにしてもよいし、使用者が手動で行うようにしてもよい。
【0123】
図22に示す特徴量表示ユーザーインターフェース60は、その上側領域71に表示されたグラフの中から任意の区間を選択したことで詳細メニュー74が表示されており、さらに、その詳細メニュー74の中から、「特徴量の寄与度を比較」を選択した場合である。すると、図23に示す寄与度表示グラフ79を特徴量表示ユーザーインターフェース60に表示することができる。この寄与度表示グラフ79では、選択したデータ群と全体との間で、各特徴量の寄与度を比較しており、比較図に相当するものである。よって、寄与度表示グラフ79は、比較図生成部16cによって生成される。このステップが比較図生成ステップである。また、寄与度表示グラフ79と第2基本図77とを同時にまたは別々に、モニタ3に表示させることが可能になっている。寄与度表示グラフ79と第2基本図77とを同時にまたは別々に表示させる処理が比較図表示ステップである。
【0124】
ここで、特徴量の寄与度の計算方法について詳細に説明する。線形重回帰分析と呼ばれる分析手法では、以下の形式で表される予測式(2)を用いる。
【0125】
y=a1x1+a2x2+a3x3+…+anxn+b ・・・(2)
yは予測値、x1,x2,…は各特徴量の値(説明変数)、a1,a2,…は各特徴量に対する係数を表す。また、bは定数項である。重回帰分析では、各データについてyの値が目的変数に近づくように、係数aおよび定数項bを学習する。
【0126】
上式(2)から、予測値yは各特徴量に関する項(a1x1,a2x2,…)と、定数項の和からなる。項の絶対値が大きな特徴量ほど、予測に対してより大きな影響を与えていると解釈できる。
【0127】
そこで、係数と特徴量の値の積aixiのことを、特徴量iに関する寄与度と定義する。この寄与度を、複数のデータに対する予測について平均すると、任意のデータ群について、そのデータ群の予測に対する平均的な寄与度を算出することができる。
【0128】
例えば図24に示すように、y=3x1-2x2+1の場合、4つのデータで平均を取ると、特徴x1は予測値に対してややプラスの寄与度を持ち、また、特徴x2は予測値に対して大きくマイナスの寄与度を持っていることになる。
【0129】
本例では上式の線形重回帰分析による寄与度の計算手順について説明したが、非線形のアルゴリズムであっても各予測に対して線形モデルでの近似を行うことで、同様の計算を行うことができる(例:Scott M. Lundberg, ”Consistent Individualized Feature Attribution for Tree Ensembles”(2018))。
【0130】
上記で定義される寄与度を選択中のデータについて算出するとともに、全データについても算出し、両者を比較しているのが図23に示す寄与度表示グラフ79である。寄与度表示グラフ79により、例えば、「最低購入金額は全体ではさほど離反に影響しないが、注目するデータ群では大きな影響を与える」、「しかしながら、それでも全体の購入金額の影響のほうが大きい」といった傾向を把握することができ、これが新たな知見になる。
【0131】
本例で表示している特徴量は、重要度が上位の特徴量と、選択したデータ群でのみ寄与度が有意に高い特徴量(最低購入金額)との2つに絞り込んでいるが、これ以外にも寄与度の差が有意に高いものだけを表示してもよい。表示する特徴量は使用者が削除できるようにしてもよい。
【0132】
図15に示す特徴量表示ユーザーインターフェース60の特徴量表示領域60aに表示されている特徴量の中から、「性別」を選択すると、図25に示す第3基本図80が特徴量表示ユーザーインターフェース60に表示される。第3基本図80は、図2に示す表示図生成部16の基本図生成部16aが生成したものであり、この処理が基本図生成ステップである。この第3基本図80では、図16に示す例、図20に示す例と違って特徴量が数値ではないため、第3基本図80の表現が棒グラフに変更される。また、項目の「欠損」は、元の分析対象データに値が存在しない場合を表している。図25に示す例では、性別の差によって目的変数の値に有意差が見られなかったため、どの系列も強調されない状態で表示されているが、有意差が見られれば強調表示することができる。
【0133】
ここで、図25に示す系列「欠損」を選択して図17に示すような詳細メニュー74を表示した後、詳細メニュー74の中から「差分の説明を計算」を選択すると、図26に示す差分の説明グラフ81を特徴量表示ユーザーインターフェース60に表示することができる。この差分の説明グラフ81では、選択したデータ群と全体を比較したとき、目的変数の値の差分が主にどの特徴量で説明付けられるのかを示しており、比較図に相当するものである。よって、図26に示す差分の説明グラフ81は、比較図生成部16cによって生成される。このステップが比較図生成ステップである。また、差分の説明グラフ81と第3基本図80とを同時にまたは別々に、モニタ3に表示させることが可能になっている。差分の説明グラフ81と第3基本図80とを同時にまたは別々に表示させる処理が比較図表示ステップである。尚、説明付けのための計算には、先述の貢献度の値を使用する。
【0134】
ここで、差分の説明の算出方法について説明する。まず、全データと選択したデータ群それぞれについて、先述の貢献度を各特徴量で計算する。
【0135】
y_all = B1all + B2all + B3all + … + Bnall + b ・・・(3)
y_sel = B1sel + B2sel + B3sel + … + Bnsel + b ・・・(4)
y_all,y_selは全データ/選択したデータに対する平均の予測値を表す。Biall,Biselはi番目の特徴量についての全データ/選択したデータの貢献度を表す。
【0136】
(4)-(3)を計算すると、
y_sel = y_all + (B1sel - B1all) + (B2sel - B2all) + … + (Bnsel - Bnall)
・・・(5)
となる。右辺の第2項以降は選択したデータと全データの貢献度の差を表す(これをDiとする)。また、y_sel,y_allは実際の目的変数の平均値y_sel_true,y_all_trueに対して、予測誤差が含まれていると考えられる。
【0137】
y_sel_true = y_sel + δ_sel ・・・(6)
y_all_true = y_all + δ_all ・・・(7)
(6)、(7)を(5)に代入すると、
y_sel_true = y_all_true + D1 + D2 + … Dn + (δ_all - δ_sel) ・・・(8)
となる。式(8)から、選択したデータの目的変数の平均値(y_sel_true)は、全データの目的変数の平均値、各々の特徴量の貢献度の差、予測誤差の3つの要素の和であると説明できる。
【0138】
上記のグラフでは、貢献度の差D1,D2,…のうち、値が特に大きいものを個別に表示し、残りの要素と予測誤差は、まとめて「その他/予測誤差」の項目で表示している。
【0139】
このように、貢献度の差によって目的変数の差を説明するグラフ81を表示することによって、「性別=欠損のユーザー群の離反率が54%と高いのは何故か?」という疑問に対して、「性別=欠損のユーザーの離反率の高さは、『合計の購入金額』による影響を部分的に受けている」、「ただし、差分のうち15%程度は、主要な特徴量の差分では説明が出来ない」という洞察を得ることができる。
【0140】
ただし、性別=欠損の系列が元々強調表示されていなかった通り、性別=欠損で離反が大きいことに有意と言えるほどの情報がなく、上記の洞察は誤っている可能性もある。その注意を促す文言も、グラフ81と併せて表示する。
【0141】
さらに、性別を説明する別のグラフとして、図27に示すように、特徴量の寄与度の変化に関するグラフ82を表示することができる。これは図20に示す例においてグラフをクリックすることで表示されたものと同じ種類のグラフを性別に対して表示している。
【0142】
図27に示すグラフ82は、第2の派生図と呼ぶこともできる。第2の派生図は、複数のクラスターのうち、所定のクラスターで目的変数の予測に寄与している特徴量を示す図である。クラスターとは、前記第1の派生図と同じであり、この例では性別の「男」、「女」、「欠損」としているが、期間とすることもできる。第2の派生図は、図2に示す派生図生成部16bによって生成される。この処理が派生図生成ステップである。派生図生成ステップの後、基本図と第2の派生図とを同時にまたは別々に表示する派生図表示ステップを実行することができる。
【0143】
また、この例では、所定のクラスターで目的変数の予測に寄与している特徴量と、全クラスターを合わせた第1の特徴量とを同時に表示することができるようになっている。
【0144】
派生図生成部16bが第2の派生図を生成する場合には、上述したようにクラスターとして男、女に分割したとき、性別の違いによって目的変数の予測に対する寄与度合いが大きく変わることがあり、このような目的変数の予測に寄与している特徴量を示すことで、新たな知見を得ることができる。
【0145】
また、図27に示すグラフに基づいて、「性別は単独では目的変数の平均値に影響を与えないが、性別の違いによって他の特徴量の寄与の度合が大きく変わるため、結果的に重要な特徴量である」という知見が得られる。
【0146】
(実施形態の作用効果)
以上説明したように、この実施形態に係るデータ分析装置1及びデータ分析方法によれば、大量のデータに含まれる重要度の高い特徴量をモニタ3に表示することができる。そして、特徴量と目的変数との関係を示す基本図や、複数の特徴量と目的変数との関係を示す派生図、所定のクラスターで目的変数の予測に寄与している特徴量を示す派生図、集計期間が異なる特徴量に基づいて生成された予測モデルの精度比較を示す派生図等をモニタ3に表示することができる。
【0147】
また、分析対象データが分割されてできたクラスターのそれぞれについて目的変数の代表値との関係を知ることができるとともに、選択したクラスターにおける目的変数の予測に寄与する特徴量と、全クラスターまたは選択外のクラスターにおける目的変数の予測に寄与する特徴量との比較を行うことができる。従って、新たな知見を得るための手助けをすることができる。
【0148】
(その他の実施形態)
上述の実施形態はあらゆる点で単なる例示に過ぎず、限定的に解釈してはならない。さらに、特許請求の範囲の均等範囲に属する変形や変更は、全て本発明の範囲内のものである。
【0149】
上記実施形態では、目的変数と特徴量の関係を示すために折れ線グラフや棒グラフを用いたが、散布図など他の表現方法を用いてもよい。散布図の場合、グラフの系列をクリックする代わりに、グラフ内の領域をドラッグで選択することでデータの一部を選択し、詳細なグラフを更に表示することができる。
【0150】
第1の派生図(図21に示す影響度比較グラフ78)、第2の派生図(図27に示す特徴量の寄与度の変化に関するグラフ82)及び第3の派生図(図19に示す予測精度比較グラフ76)のうち、任意の1つと、基本図70、77、80とをモニタ3に同時に表示してもよいし、異なるタイミングで表示してもよい。派生図生成部16bが第1の派生図、第2の派生図及び第3の派生図の全てを生成してもよく、生成する順番は特に限定されない。また、第1の派生図、第2の派生図及び第3の派生図の全てをモニタ3に表示してもよい。
【0151】
また、基本図70、77、80については、本実施形態では3つだけ示しているが、使用者が選択する特徴量に応じて基本図生成部16aが生成する。基本図70、77、80と、第1の派生図、第2の派生図及び第3の派生図とを切り替えて表示する場合、例えば画面切替ボタンのような操作手段を利用することもできる。
【産業上の利用可能性】
【0152】
以上説明したように、本発明に係るデータ分析装置及びデータ分析方法は、大量の情報の中からこれまで未知であった有用な知見を得ようと試みる場合に使用することができる。
【符号の説明】
【0153】
1 データ分析装置
3 モニタ(表示部)
3a 表示制御部
11 主制御部
12 データ入力部
13 予測モデル生成部
14 重要度算出部
15 クラスター選択部
16a 基本図生成部
16b 派生図生成部
16c 比較図生成部
17 名称自動生成部
18 説明文自動生成部
30 記憶部
70、77、80 基本図
76 予測精度比較グラフ(第3の派生図)
75 比較表(比較図)
78 影響度比較グラフ(第1の派生図)
79 寄与度表示グラフ(比較図)
81 差分の説明グラフ(比較図)
83 特徴量の寄与度の変化に関するグラフ(第2の派生図)
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26
図27