(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-18
(45)【発行日】2024-03-27
(54)【発明の名称】データ解析システム、データ解析方法及びデータ解析プログラム
(51)【国際特許分類】
G06Q 10/04 20230101AFI20240319BHJP
【FI】
G06Q10/04
(21)【出願番号】P 2020083197
(22)【出願日】2020-05-11
【審査請求日】2022-06-27
【前置審査】
(73)【特許権者】
【識別番号】000003067
【氏名又は名称】TDK株式会社
(74)【代理人】
【識別番号】100088155
【氏名又は名称】長谷川 芳樹
(74)【代理人】
【識別番号】100113435
【氏名又は名称】黒木 義樹
(74)【代理人】
【識別番号】100129296
【氏名又は名称】青木 博昭
(72)【発明者】
【氏名】井口 俊宏
【審査官】山崎 誠也
(56)【参考文献】
【文献】特開2019-144022(JP,A)
【文献】特開2019-200487(JP,A)
【文献】特開2020-183767(JP,A)
【文献】国際公開第2017/094207(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサを備え、
前記少なくとも1つのプロセッサは、
複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付け、
前記データセットに基づいて、前記複数の項目のうちの一の項目が目的変数であり、前記複数の項目のうちの他の項目が説明変数である互いに異なる複数の回帰モデルを作成し、
前記複数の回帰モデルの各々の精度を算出し、
前記複数の回帰モデルの中から前記精度に応じて選択された前記回帰モデルを表示モデルとして表示部に表示させ、
前記複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルであり、
前記少なくとも1つのプロセッサは、
前記表示モデルにおける前記説明変数の重要度を、前記表示モデルと共に前記表示部に表示させる
、データ解析システム。
【請求項2】
少なくとも1つのプロセッサを備え、
前記少なくとも1つのプロセッサは、
複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付け、
前記データセットに基づいて、前記複数の項目のうちの一の項目が目的変数であり、前記複数の項目のうちの他の項目が説明変数である互いに異なる複数の回帰モデルを作成し、
前記複数の回帰モデルの各々の精度を算出し、
前記複数の回帰モデルの中から前記精度に応じて選択された前記回帰モデルを表示モデルとして表示部に表示させ、
前記複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルであり、
前記少なくとも1つのプロセッサは、
複数のハイパーパラメータを用いて前記複数の回帰モデルの前記精度を算出し、前記精度が最も高い前記ハイパーパラメータを前記回帰モデルの前記ハイパーパラメータとして選択し、
前記表示モデルにおける前記ハイパーパラメータのチューニング結果として、前記複数のハイパーパラメータを用いた場合の前記精度を、前記表示モデルと共に前記表示部に表示させる
、データ解析システム。
【請求項3】
前記少なくとも1つのプロセッサは、
前記複数の回帰モデルのうち前記精度が最も高い前記回帰モデルを前記表示モデルとして前記表示部に表示させる、請求項1
又は2に記載のデータ解析システム。
【請求項4】
前記少なくとも1つのプロセッサは、
前記データセットにおける前記目的変数の値と、前記表示モデルにより予測される前記目的変数の値と間の関係を示すグラフを、前記表示モデルと共に前記表示部に表示させる、請求項1
~3のいずれか一項に記載のデータ解析システム。
【請求項5】
前記少なくとも1つのプロセッサは、
前記複数の回帰モデルをそれぞれ示す複数のラベルを、対応する前記回帰モデルの前記精度が高い順に並ぶように、前記表示部に表示させる、請求項1~
4のいずれか一項に記載のデータ解析システム。
【請求項6】
前記少なくとも1つのプロセッサは、
前記複数の回帰モデルの各々について、複数の精度指標を用いて前記精度を算出し、
前記複数の精度指標の各々を用いた場合の前記複数の回帰モデルの前記精度を前記表示部に表示させる、請求項1~
5のいずれかいずれか一項に記載のデータ解析システム。
【請求項7】
前記少なくとも1つのプロセッサは、
前記複数の回帰モデルの各々における前記説明変数の係数を前記表示部に表示させる、請求項1~
6のいずれかいずれか一項に記載のデータ解析システム。
【請求項8】
前記少なくとも1つのプロセッサは、
前記複数の回帰モデルの各々における前記説明変数の重要度を前記表示部に表示させる、請求項1~
7のいずれかいずれか一項に記載のデータ解析システム。
【請求項9】
少なくとも1つのプロセッサを備えるデータ解析システムにより実行されるデータ解析方法であって、
複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付けるステップと、
前記データセットに基づいて、前記複数の項目のうちの一の項目を目的変数とし、前記複数の項目のうちの他の項目を説明変数とする互いに異なる複数の回帰モデルを作成するステップと、
前記複数の回帰モデルの各々の精度を算出するステップと、
前記複数の回帰モデルの中から前記精度に応じて選択された前記回帰モデルを表示モデルとして表示部に表示させるステップと、を備え、
前記複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルであり、
前記表示部に表示させるステップでは、前記表示モデルにおける前記説明変数の重要度を、前記表示モデルと共に前記表示部に表示させる、データ解析方法。
【請求項10】
少なくとも1つのプロセッサを備えるデータ解析システムにより実行されるデータ解析方法であって、
複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付けるステップと、
前記データセットに基づいて、前記複数の項目のうちの一の項目を目的変数とし、前記複数の項目のうちの他の項目を説明変数とする互いに異なる複数の回帰モデルを作成するステップと、
前記複数の回帰モデルの各々の精度を算出するステップと、
前記複数の回帰モデルの中から前記精度に応じて選択された前記回帰モデルを表示モデルとして表示部に表示させるステップと、を備え、
前記複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルであり、
前記複数の回帰モデルを作成するステップでは、複数のハイパーパラメータを用いて前記複数の回帰モデルの前記精度を算出し、前記精度が最も高い前記ハイパーパラメータを前記回帰モデルの前記ハイパーパラメータとして選択し、
前記表示部に表示させるステップでは、前記表示モデルにおける前記ハイパーパラメータのチューニング結果として、前記複数のハイパーパラメータを用いた場合の前記精度を、前記表示モデルと共に前記表示部に表示させる、データ解析方法。
【請求項11】
複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付けるステップと、
前記データセットに基づいて、前記複数の項目のうちの一の項目を目的変数とし、前記複数の項目のうちの他の項目を説明変数とする互いに異なる複数の回帰モデルを作成するステップと、
前記複数の回帰モデルの各々の精度を算出するステップと、
前記複数の回帰モデルの中から前記精度に応じて選択された前記回帰モデルを表示モデルとして表示部に表示させるステップと、をコンピュータに実行させ、
前記複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルであ
り、
前記表示部に表示させるステップでは、前記表示モデルにおける前記説明変数の重要度を、前記表示モデルと共に前記表示部に表示させる、データ解析プログラム。
【請求項12】
複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付けるステップと、
前記データセットに基づいて、前記複数の項目のうちの一の項目を目的変数とし、前記複数の項目のうちの他の項目を説明変数とする互いに異なる複数の回帰モデルを作成するステップと、
前記複数の回帰モデルの各々の精度を算出するステップと、
前記複数の回帰モデルの中から前記精度に応じて選択された前記回帰モデルを表示モデルとして表示部に表示させるステップと、をコンピュータに実行させ、
前記複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルであ
り、
前記複数の回帰モデルを作成するステップでは、複数のハイパーパラメータを用いて前記複数の回帰モデルの前記精度を算出し、前記精度が最も高い前記ハイパーパラメータを前記回帰モデルの前記ハイパーパラメータとして選択し、
前記表示部に表示させるステップでは、前記表示モデルにおける前記ハイパーパラメータのチューニング結果として、前記複数のハイパーパラメータを用いた場合の前記精度を、前記表示モデルと共に前記表示部に表示させる、データ解析プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ解析システム、データ解析方法及びデータ解析プログラムに関する。
【背景技術】
【0002】
データ解析方法として、解析対象のデータセットに基づいて目的変数と説明変数との間の関係を表す回帰モデルを作成し、作成された回帰モデルに基づいて解析を行う方法が知られている(例えば特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述したようなデータ解析方法においては種々の回帰モデルが用いられ得るが、データセットによって適した回帰モデルが異なるため、ユーザが適切な回帰モデルを選択する必要があり、データ解析が容易ではない場合がある。また、回帰モデルの中には解釈が容易でないものがあり、このことによってもデータ解析が困難となり得る。
【0005】
本発明は、データ解析を容易化することができるデータ解析システム、データ解析方法及びデータ解析プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明のデータ解析システムは、少なくとも1つのプロセッサを備え、少なくとも1つのプロセッサは、複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付け、データセットに基づいて、複数の項目のうちの一の項目が目的変数であり、複数の項目のうちの他の項目が説明変数である互いに異なる複数の回帰モデルを作成し、複数の回帰モデルの各々の精度を算出し、複数の回帰モデルの中から精度に応じて選択された回帰モデルを表示モデルとして表示部に表示させ、複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルである。
【0007】
このデータ解析システムでは、データセットに基づいて互いに異なる複数の回帰モデルが生成され、作成された各回帰モデルの精度が算出される。そして、複数の回帰モデルの中から精度に応じて選択された回帰モデルが表示部に表示される。これにより、ユーザは、精度に応じて選択された回帰モデルを利用して解析を行うことができる。その結果、容易にデータ解析を行うことができる。また、このデータ解析システムでは、各回帰モデルが、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルである。これにより、回帰式を用いた回帰モデル及び決定木を用いた回帰モデルの解釈は容易であるため、ユーザは、表示された回帰モデルを容易に解釈することができる。よって、このデータ解析システムによれば、データ解析を容易化することができる。
【0008】
少なくとも1つのプロセッサは、複数の回帰モデルのうち精度が最も高い回帰モデルを表示モデルとして表示部に表示させてもよい。この場合、データ解析を一層容易化することができる。
【0009】
少なくとも1つのプロセッサは、データセットにおける目的変数の値と、表示モデルにより予測される目的変数の値と間の関係を示すグラフを、表示モデルと共に表示部に表示させてもよい。この場合、データ解析をより一層容易化することができる。
【0010】
少なくとも1つのプロセッサは、表示モデルにおける説明変数の重要度を、表示モデルと共に表示部に表示させてもよい。この場合、データ解析をより一層容易化することができる。
【0011】
少なくとも1つのプロセッサは、表示モデルにおけるハイパーパラメータのチューニング結果を、表示モデルと共に表示部に表示させてもよい。この場合、データ解析をより一層容易化することができる。
【0012】
少なくとも1つのプロセッサは、複数の回帰モデルをそれぞれ示す複数のラベルを、対応する回帰モデルの精度が高い順に並ぶように、表示部に表示させてもよい。この場合、複数の回帰モデルの精度をユーザが容易に比較することができ、データ解析をより一層容易化することができる。
【0013】
少なくとも1つのプロセッサは、複数の回帰モデルの各々について、複数の精度指標を用いて精度を算出し、複数の精度指標の各々を用いた場合の複数の回帰モデルの精度を表示部に表示させてもよい。この場合、各精度指標を用いた場合の複数の回帰モデルの精度をユーザが容易に比較することができ、データ解析をより一層容易化することができる。
【0014】
少なくとも1つのプロセッサは、複数の回帰モデルの各々における説明変数の係数を表示部に表示させてもよい。この場合、データ解析をより一層容易化することができる。
【0015】
少なくとも1つのプロセッサは、複数の回帰モデルの各々における説明変数の重要度を表示部に表示させてもよい。この場合、データ解析をより一層容易化することができる。
【0016】
本発明のデータ解析方法は、少なくとも1つのプロセッサを備えるデータ解析システムにより実行されるデータ解析方法であって、複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付けるステップと、データセットに基づいて、複数の項目のうちの一の項目を目的変数とし、複数の項目のうちの他の項目を説明変数とする互いに異なる複数の回帰モデルを作成するステップと、複数の回帰モデルの各々の精度を算出するステップと、複数の回帰モデルの中から精度に応じて選択された回帰モデルを表示モデルとして表示部に表示させるステップと、を備え、複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルである。このデータ解析方法によれば、上述した理由により、データ解析を容易化することができる。
【0017】
本発明のデータ解析プログラムは、複数の項目のデータの集合であるデータユニットを複数含むデータセットを受け付けるステップと、データセットに基づいて、複数の項目のうちの一の項目を目的変数とし、複数の項目のうちの他の項目を説明変数とする互いに異なる複数の回帰モデルを作成するステップと、複数の回帰モデルの各々の精度を算出するステップと、複数の回帰モデルの中から精度に応じて選択された回帰モデルを表示モデルとして表示部に表示させるステップと、をコンピュータに実行させ、複数の回帰モデルの各々は、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルである。このデータ解析プログラムによれば、上述した理由により、データ解析を容易化することができる。
【発明の効果】
【0018】
本発明によれば、データ解析を容易化することができるデータ解析システム、データ解析方法及びデータ解析プログラムを提供することが可能となる。
【図面の簡単な説明】
【0019】
【
図1】実施形態に係るデータ解析システムの機能構成の例を示す図である。
【
図2】データ解析システムを構成するコンピュータのハードウェアの構成例を示す図である。
【
図3】データ解析システムの動作例を示すフローチャートである。
【
図6】決定木を用いた回帰モデルの表示例を示す図である。
【
図7】(a)は、表示モデルを選択するための選択ボックスが展開される前の状態を示す図であり、(b)は、選択ボックスが展開されている状態を示す図である。
【
図8】精度の比較のための表示の例を示す図である。
【
図9】説明変数の係数の比較のための表示の例を示す図である。
【
図10】説明変数の重要度の比較のための表示の例を示す図である。
【発明を実施するための形態】
【0020】
以下、本発明の一実施形態について、図面を参照しつつ詳細に説明する。以下の説明において、同一又は相当要素には同一符号を用い、重複する説明を省略する。
[システムの構成]
【0021】
図1に示されるように、実施形態に係るデータ解析システム1は、機能要素として、受付部11と、モデル作成部12と、精度算出部13と、表示制御部14と、を備えている。受付部11は、データセット30を受け付ける。モデル作成部12は、データセット30に基づいて複数の回帰モデルを作成する。精度算出部13は、各回帰モデルの精度を算出する。表示制御部14は、複数の回帰モデルの中から選択された回帰モデルを後述の表示部26に表示させる。
【0022】
データ解析システム1は、例えばコンピュータ20により構成されている。
図2に示されるように、コンピュータ20は、プロセッサ21と、主記憶部22と、補助記憶部23と、通信制御部24と、入力部25と、表示部26と、を備えている。プロセッサ21は、例えばCPUであり、オペレーティングシステム、アプリケーションプログラム等を実行する。主記憶部22は、例えばROM、RAM等により構成される。補助記憶部23は、例えばハードディスク、フラッシュメモリ等により構成され、主記憶部22よりも大量のデータを記憶する。通信制御部24は、例えばネットワークカード、無線通信モジュール等により構成される。入力部25は、例えばキーボード、マウス、タッチパネル等により構成される。表示部26は、例えばモニタ、タッチパネルディスプレイ等により構成される。
【0023】
データ解析システム1の各機能要素は、補助記憶部23内に予め記憶されているデータ解析プログラム27を実行させることにより実現される。具体的には、プロセッサ21又は主記憶部22の上にデータ解析プログラム27を読み込ませてプロセッサ21にデータ解析プログラム27を実行させることにより、受付部11、モデル作成部12、精度算出部13及び表示制御部14の各機能が実現される。プロセッサ21は、データ解析プログラム27に従って、通信制御部24、入力部25及び表示部26を動作させ、主記憶部22及び補助記憶部23におけるデータの読み出し及び書き込みを行う。処理に必要なデータ又はデータベースは、主記憶部22又は補助記憶部23内に格納される。
【0024】
データ解析プログラム27は、例えば、CD-ROM、DVD-ROM、半導体メモリ等の有形の記録媒体に固定的に記録された上で提供されてもよい。或いは、データ解析プログラム27は、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。
【0025】
データ解析システム1は、1台のコンピュータ20により構成されてもよいし、複数台のコンピュータ20により構成されてもよい。複数台のコンピュータ20を用いる場合には、これらのコンピュータ20がインターネット又はイントラネット等の通信ネットワークを介して互いに接続されることで、論理的に一つのデータ解析システム1が構築されてもよい。
[システムの動作]
【0026】
図3を参照しつつ、データ解析システム1により実行されるデータ解析方法の一例を説明する。まず、受付部11は、データセット30を受け付ける(ステップS1)。受付部11へのデータセット30の入力は、例えば、ユーザにより入力部25及び表示部26を介して行われる。例えば、ユーザが補助記憶部23に記憶されたデータセット30を指定すると、指定されたデータセット30が読み込まれて受付部11に受け付けられる。
【0027】
データセット30は、複数の項目のデータの集合であるデータユニット31を複数含んでいる。データユニット31が有する項目は、任意に設定されてよい。項目は、例えば、材料、化合物等の特性、組成等であってもよいし、装置、デバイス等の特性、寸法、材料等であってもよい。項目のデータは、数値であってもよいし、文字であってもよい。文字データは数値データに変換して用いられる。項目の中には、データが存在しない(欠損値である)項目があってもよい。データユニット31の数は限定されないが、例えば数百個以内であってもよい。
【0028】
図4は、データセット30の例を示す図である。この例では、データセット30は、表形式で表されている。各行がデータユニット31に相当し、各列が項目に相当する。各データユニット31は、材料組成と透磁率との間の関係を表している。データユニット31は、項目として、透磁率、材料A、材料B、材料C、材料D、材料E、材料F及び材料Hを含んでいる。透磁率のデータは、透磁率を示す数値であり、材料A~Hのデータは、材料組成をパーセンテージで表した数値である。
【0029】
ステップS1に続いて、受付部11は、解析条件を受け付ける(ステップS2)。受付部11への解析条件の入力は、例えば、ユーザにより入力部25及び表示部26を介して行われる。解析条件は、目的変数及び設計変数の指定を含んでいる。ユーザは、データセット30における複数の項目変数の中から一の項目を目的変数として選択すると共に、残りの項目の中から一又は複数の項目を説明変数として選択する。例えば、表示部26には目的変数を選択するための選択ボックスが表示され、当該選択ボックスにおいて項目を選択することで、ユーザは目的変数を選択する。また、表示部26には、目的変数として選択された項目以外の項目に対応した複数のチェックボックスが表示され、対応するチェックボックスをチェックすることで、ユーザは説明変数を選択する。
【0030】
また、解析条件は、欠損値処理方法の指定を含んでいる。ユーザは、複数の欠損値処理方法の中から、後述するモデル作成処理(ステップS3)において用いられる一の欠損値処理方法を選択する。例えば、表示部26には欠損値処理方法を選択するための選択ボックスが表示され、当該選択ボックスにおいて欠損値処理方法を選択することで、ユーザは使用する欠損値処理方法を選択する。欠損値処理方法の例としては、例えば、リストワイズ除去(Listwise deletion)、予測平均マッチング(Predictive meanmatching)、ランダムサンプリング等が挙げられる。リストワイズ除去では、欠損値が含まれるデータユニット31は解析対象とされない。欠損値処理方法としては、欠損値を値0として扱う方法(ゼロ置換)又は欠損値処理無し(none)が選択可能となっていてもよい。
【0031】
また、解析条件は、交互作用項及び自乗項の指定を含んでいる。交互作用項を有りに設定すると、2つの説明変数間の交互作用項が回帰モデルに追加される。自乗項を有りに設定すると、説明変数の自乗項が回帰モデルに追加される。ユーザは、交互作用及び自乗項を回帰モデルに追加するか否かを選択する。例えば、表示部26には、行方向及び列方向の各々が説明変数に対応するようにマトリクス状に配置されたチェックボックス群が表示され、対応するチェックボックスをチェックすることで、ユーザは追加する交互作用項及び自乗項を選択する。チェックボックス群の下には、例えば勾配ブースティング(Gradient Boosting)により算出された各説明変数の重要度が表示されていてもよい。この場合、ユーザは、当該重要度を参考にしつつ交互作用項及び自乗項を選択することができる。
【0032】
また、解析条件は、目的変数をそのまま使用するか、又は対数に変換して使用するかの指定を含んでいてもよい。また、解析条件は、各説明変数についての数値範囲の指定を含んでいてもよい。また、解析条件は、何れのデータユニット31を解析対象とするかの指定を含んでいてもよい。
【0033】
また、解析条件は、回帰モデルの指定を含んでいる。ユーザは、互いに異なる複数の回帰モデルの中から、後述するモデル作成処理(ステップS3)において用いられる複数の回帰モデルを選択する。例えば、表示部26には回帰モデルを選択するための選択ボックスが表示され、当該選択ボックスにおいて回帰モデルを選択することで、ユーザは使用する回帰モデルを選択する。以下、表示部26に表示され、ユーザが選択可能である回帰モデルを選択可能回帰モデルともいう。
【0034】
選択可能回帰モデルは、回帰式を用いた回帰モデルか、又は決定木を用いた回帰モデルである。選択可能回帰モデルは、例えば、回帰式を用いた回帰モデルとして、ベイジアン一般化線形モデル(Bayesian Generalized Linear Model)、一般化線形モデル(GeneralizedLinear Model)、多変量適応型回帰スプライン (MARS: MultivariateAdaptive Regression Spline)、負の二項分布一般化線形モデル(Negative BinomialGeneralized Linear Model)、部分的最小二乗回帰(Partial LeastSquares)、線形回帰(Linear Regression)、主成分回帰(Principal Component Regression)、正則化回帰モデル(PenalizedLinear Regression)、Elastic Net、LASSO、Ridge等を含む。選択可能回帰モデルは、例えば、決定木を用いた回帰モデルとして、条件推測木(Conditional Inference Tree)、Cubist、CART等を含む。
【0035】
選択可能回帰モデルは、ニューラルネットワーク及びサポートベクターマシン、並びに非線形モデルのアンサンブル学習を用いた回帰モデルを含まない。これらの回帰モデルはブラックボックスであり、解釈が容易でない。アンサンブル学習とは、複数の回帰モデルを作成し、その結果を組み合わせて1つの回帰モデルを作成する手法である。非線形モデルのアンサンブル学習とは、組み合わされる回帰モデルとして非線形モデルを含むものをいう。回帰式を用いた回帰モデルは、例えば、n次(nは1以上の整数)の単項式若しくは多項式、又はそれらを含む分数式の組み合わせにより表される回帰式を用いた回帰モデルである。回帰式は、切片(定数項)のみにより構成されてもよい。回帰式は指数関数を含んでいてもよいが、指数関数の変数として指数関数を含むもの(二重指数関数)は除外されてもよい。回帰式はマックス関数を含んでいてもよいが、マックス関数を含むものは除外されてもよい。回帰式は指数関数とマックス関数を含んでいてもよいが、指数関数の変数としてマックス関数を含むもの、マックス関数の変数として指数関数を含むもの、及びマックス関数の変数としてマックス関数を含むものは除外されてもよい。スプライン関数を含むものは回帰式から除外されてもよい。
【0036】
また、解析条件は、各回帰モデルのハイパーパラメータのチューニング範囲の指定を含んでいる。例えば、ユーザがチューニング範囲を表す指標として大きな数値を選択すると、ハイパーパラメータのチューニング範囲が大きくなる。一方、ユーザがチューニングの程度を表す指標として小さな数値を選択すると、ハイパーパラメータのチューニング範囲が小さくなる。ハイパーパラメータは、例えば、回帰モデルがLASSO、Ridge又はElasticNetである場合、正則化項を考慮する度合いを表すパラメータである。ハイパーパラメータは、例えば、回帰モデルが負の二項分布一般化線形モデルである場合、リンク関数を表すパラメータである。ハイパーパラメータは、例えば、回帰モデルが決定木を用いたものである場合、木の深さの最大値を表すパラメータや終端ノード数を表すパラメータであってよい。回帰モデルがCARTである場合、ハイパーパラメータは複雑パラメータである。
【0037】
また、解析条件は、データ検証方法の指定を含んでいる。ユーザは、複数のデータ検証方法の中から、後述するモデル作成処理(ステップS3)において用いられる一のデータ検証方法を選択する。例えば、表示部26にはデータ検証方法を選択するための選択ボックスが表示され、当該選択ボックスにおいてデータ検証方法を選択することで、ユーザは使用するデータ検証方法を選択する。データ検証方法の例としては、例えば、k分割クロスバリデーション、ブートストラップ、一個抜き交差検証(Leave-one-out cross-validation)等が挙げられる。
【0038】
ステップS2に続いて、モデル作成部12は、複数の回帰モデルを作成する(ステップS3)。より具体的には、モデル作成部12は、ステップS1において受け付けられたデータセット30に基づいて、ステップS2において指定された解析条件を用いて、ステップS2において選択された複数の回帰モデルを作成する。
【0039】
例えばデータ検証方法としてk分割クロスバリデーションが選択された場合、各回帰モデルの作成手順は次のとおりである。まず、ハイパーパラメータのチューニングを行う。具体的には、複数のデータユニット31をランダムにk分割する(kは2以上の整数)。解析条件として設定されたチューニング範囲でハイパーパラメータを変化させてk分割クロスバリデーションを行い、精度を比較する。例えば、目的変数が数値である場合はRMSE(二乗平均平方根誤差)により精度を比較し、目的変数が文字である場合は正答率(Accuracy)により精度を比較する。精度が最も高いハイパーパラメータの値を選択する。なお、回帰モデルがハイパーパラメータのチューニングが不要なアルゴリズムである場合、ハイパーパラメータのチューニングは行われない。
【0040】
続いて、選択されたハイパーパラメータを用いて精度を算出し、期待される精度が得られているか否かを確認する。具体的には、データを再度k分割し(ただし、ハイパーパラメータのチューニング時とは異なる分割)、選択されたハイパーパラメータを用いて精度を計算し、確認を行う。続いて、選択されたハイパーパラメータを用い、全てのデータユニット31に基づく各回帰モデルの作成を行う。
【0041】
ステップS3に続いて、精度算出部13は、各回帰モデルの精度を算出する(ステップS4)。この例では、精度算出部13は、各回帰モデルについて、複数の精度指標を用いて精度を算出する。目的変数が数値の場合に用いられる精度指標の例としては、例えば、RMSE、決定係数(R-squared)、MAE(平均絶対誤差)等が挙げられる。目的変数が文字の場合に用いられる精度指標の例としては、例えば、正答率、適合率、再現率等が挙げられる。
【0042】
ステップS4に続いて、表示制御部14は、精度が最も高い回帰モデルを表示モデルとして表示部26に表示させる(ステップS5)。この例では、表示制御部14は、RMSEが最も小さい回帰モデルを表示部26に表示させる。
【0043】
図5は、表示部26の表示例を示す図である。この例は、表示モデル41が負の二項分布一般化線形モデルである例であり、表示部26には表示モデル41の回帰式が表示されている。目的変数は透磁率であり、説明変数は材料A~Hである。交互作用項及び自乗項は追加されていない。変数P1は切片であり、変数P2,P3,P4,P5,P6,P7は、それぞれ、説明変数である材料A,B,E,F,G,Hの係数である。この例では、他の説明変数である材料C,Dは回帰式に含まれていない。表示部26には、表示モデル41と共に、グラフ42、グラフ43、変数重要度44、及び解析結果の詳細45が表示されている。
【0044】
グラフ42は、表示モデル41の上側に表示されている。グラフ42は、データセット30における目的変数の値(実測値)と、表示モデル41により予測される目的変数の値(予測値)と間の関係を示す散布図である。グラフ42では、横軸が実測値であり、縦軸が予測値である。グラフ42内には、実測値と予測値とが等しい場合のプロット位置を示す直線が破線により表示されている。グラフ42内には、RMSE及び決定係数の値が表示されている。
【0045】
グラフ43は、表示モデル41の上側に表示されている。グラフ43は、表示モデル41におけるハイパーパラメータのチューニング結果を示す折れ線グラフである。グラフ43では、横軸がハイパーパラメータであり、縦軸がRMSEである。グラフ43から、この例ではハイパーパラメータがBである場合にRMSEが最も小さくなり、ハイパーパラメータA~Cの中からハイパーパラメータBが選択されたことが分かる。
【0046】
変数重要度44は、表示モデル41の上側に表示されている。グラフ42、グラフ43及び変数重要度44は、左右方向においてこの順に並んでいる。変数重要度44は、表示モデル41における各説明変数の重要度を数値により示す表示である。この例では、説明変数である材料A~Hが、重要度が高い順に上から並ぶように表示されている。解析結果の詳細45は、表示モデル41の下側に表示されている。解析結果の詳細45には、表示モデル41に関する種々の情報が示されている。
【0047】
図6は、表示モデルが決定木を用いた回帰モデルである場合の表示例を示す図である。この例は、表示モデル41がCARTである例であり、表示モデル41の決定木が表示されている。この例では、説明変数である項目A及び項目Cの大小に応じて決定木が分岐している。表示モデル41以外の表示については例えば
図5の場合と同様である。決定木を用いた回帰モデルが表示モデル41である場合、表示モデル41の決定木に代えて又は加えて、表示モデル41の条件分岐が表示されてもよい。
【0048】
また、表示制御部14は、ユーザにより選択された回帰モデルを表示モデル41として表示部26に表示させてもよい。例えば、
図7の例では、表示部26には、表示モデル41を選択するための選択ボックス51が表示されている。選択ボックス51は、例えば表示モデル41等と共に表示されるが、表示モデル41とは異なる画面(タブ)に表示されてもよい。
【0049】
図7(a)に示されるように、展開される前の状態においては、選択ボックス51には、現在選択されている表示モデル41を示すラベルが表示される。この例では、現在選択されている表示モデル41は回帰モデルDであり、表示モデル41を示すラベルとして、その名称が表示されている。なお、ラベルは名称に限定されず、回帰モデルを示す文字、記号又は図形等であってもよい。
【0050】
図7(b)に示されるように、ユーザが選択ボックス51を押下すると、選択ボックス51が展開される。展開されている状態においては、選択ボックス51には、モデル作成済の複数の回帰モデルを示すラベルが、対応する回帰モデルの精度が高い順に上から並ぶように表示される。ユーザは、選択ボックス51において回帰モデルを示すラベルを選択することで、表示モデル41として表示する回帰モデルを選択する。この選択を受け付けると、表示制御部14は、選択された回帰モデルを表示モデル41として表示部26に表示する。
【0051】
また、表示制御部14は、各精度指標を用いた場合の各回帰モデルの精度を表示部26に表示させてもよい。例えば、
図8の例では、表示部26には、各精度指標を用いた場合の各回帰モデルの精度を示す表52が表示されている。表52は、例えば表示モデル41とは異なる画面(タブ)に表示されるが、表示モデル41等と共に表示されてもよい。表52では、回帰モデルA~Dは、RMSEが小さい順に上から並ぶように表示されている。ユーザは、精度指標のラベルを押下することにより、当該精度指標が高い順に回帰モデルA~Dを並べ替えることができる。
【0052】
また、表示制御部14は、各回帰モデルにおける各説明変数の係数を表示部26に表示させてもよい。例えば、
図9の例では、表示部26には、各回帰モデルA~Dにおける各説明変数(材料A~H)の係数及び切片の値を示す表53が表示されている。表53は、例えば表示モデル41とは異なる画面(タブ)に表示されるが、表示モデル41等と共に表示されてもよい。
【0053】
また、表示制御部14は、各回帰モデルにおける各説明変数の重要度を表示部26に表示させてもよい。例えば、
図10の例では、表示部26には、各回帰モデルにおける各説明変数(材料A~H)の重要度を示す表54が表示されている。表54は、例えば表示モデル41とは異なる画面(タブ)に表示されるが、表示モデル41等と共に表示されてもよい。表54では、説明変数は、回帰モデルAにおける重要度が高い順に上から並ぶように表示されている。ユーザは、回帰モデルのラベルを押下することにより、当該回帰モデルにおいて重要度が高い順に説明変数を並べ替えることができる。
【0054】
また、データ解析システム1は、受付部11により予測のためのデータセット30を受け付け可能に構成されている。ユーザは、入力部25及び表示部26を介して予測のためのデータセット30を受付部11に入力する。受付部11が予測のためのデータセット30を受け付けると、表示制御部14は、現在の表示モデル41による説明変数の予測結果を表示部26に表示する。
[作用及び効果]
【0055】
データ解析システム1では、データセット30に基づいて互いに異なる複数の回帰モデルが生成され、作成された各回帰モデルの精度が算出される。そして、複数の回帰モデルの中から精度に応じて選択された回帰モデルが表示部26に表示される。これにより、ユーザは、精度に応じて選択された回帰モデルを利用して解析を行うことができる。その結果、容易にデータ解析を行うことができる。また、データ解析システム1では、各回帰モデルが、回帰式を用いた回帰モデルであるか、又は決定木を用いた回帰モデルである。これにより、回帰式を用いた回帰モデル及び決定木を用いた回帰モデルの解釈は容易であるため、ユーザは、表示された回帰モデルを容易に解釈することができる。よって、データ解析システム1によれば、データ解析を容易化することができる。その結果、データセット30についての定量的な説明と高精度な予測を容易に行うことが可能となる。
【0056】
プロセッサ21が、複数の回帰モデルのうち精度が最も高い回帰モデルを表示モデル41として表示部26に表示させる。これにより、データ解析を一層容易化することができる。
【0057】
プロセッサ21が、データセット30における目的変数の値と、表示モデル41により予測される目的変数の値と間の関係を示すグラフ42を、表示モデル41と共に表示部26に表示させる。これにより、データ解析をより一層容易化することができる。
【0058】
プロセッサ21が、表示モデル41における説明変数の重要度(変数重要度44)を、表示モデル41と共に表示部26に表示させる。これにより、データ解析をより一層容易化することができる。
【0059】
プロセッサ21が、表示モデル41におけるハイパーパラメータのチューニング結果(グラフ43)を、表示モデル41と共に表示部26に表示させる。これにより、データ解析をより一層容易化することができる。
【0060】
プロセッサ21が、複数の回帰モデルをそれぞれ示す複数のラベルを、対応する回帰モデルの精度が高い順に並ぶように、表示部26に表示させる(
図7(b))。これにより、複数の回帰モデルの精度をユーザが容易に比較することができ、データ解析をより一層容易化することができる。
【0061】
プロセッサ21が、複数の精度指標の各々を用いた場合の複数の回帰モデルの精度を表示部26に表示させる(
図8)。これにより、各精度指標を用いた場合の複数の回帰モデルの精度をユーザが容易に比較することができ、データ解析をより一層容易化することができる。
【0062】
プロセッサ21が、複数の回帰モデルの各々における説明変数の係数を表示部26に表示させる(
図9)。これにより、データ解析をより一層容易化することができる。
【0063】
プロセッサ21が、複数の回帰モデルの各々における説明変数の重要度を表示部26に表示させる(
図10)。これにより、データ解析をより一層容易化することができる。
【0064】
本発明は、上記実施形態に限られない。例えば、上記実施形態のステップS5では複数の回帰モデルのうち精度が最も高い回帰モデルが表示モデル41として表示部26に表示されたが、ステップS5における処理はこれに限られず、次の処理であってもよい。モデル作成済の複数の回帰モデルを示すラベルが、対応する回帰モデルの精度が高い順に上から並ぶように表示される。ユーザは、一のラベルを選択することで、表示モデル41として表示する回帰モデルを選択する。この選択を受け付けると、表示制御部14は、選択された回帰モデルを表示モデル41として表示部26に表示する。
【符号の説明】
【0065】
1…データ解析システム、20…コンピュータ、21…プロセッサ、26…表示部、27…データ解析プログラム、30…データセット、31…データユニット、41…表示モデル、42…グラフ。