IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社キーエンスの特許一覧

<>
  • 特許-データ分析装置及びデータ分析方法 図1
  • 特許-データ分析装置及びデータ分析方法 図2
  • 特許-データ分析装置及びデータ分析方法 図3
  • 特許-データ分析装置及びデータ分析方法 図4
  • 特許-データ分析装置及びデータ分析方法 図5
  • 特許-データ分析装置及びデータ分析方法 図6
  • 特許-データ分析装置及びデータ分析方法 図7
  • 特許-データ分析装置及びデータ分析方法 図8
  • 特許-データ分析装置及びデータ分析方法 図9
  • 特許-データ分析装置及びデータ分析方法 図10
  • 特許-データ分析装置及びデータ分析方法 図11
  • 特許-データ分析装置及びデータ分析方法 図12
  • 特許-データ分析装置及びデータ分析方法 図13
  • 特許-データ分析装置及びデータ分析方法 図14
  • 特許-データ分析装置及びデータ分析方法 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-12
(45)【発行日】2022-10-20
(54)【発明の名称】データ分析装置及びデータ分析方法
(51)【国際特許分類】
   G06Q 10/06 20120101AFI20221013BHJP
【FI】
G06Q10/06 300
【請求項の数】 14
(21)【出願番号】P 2018148308
(22)【出願日】2018-08-07
(65)【公開番号】P2020024543
(43)【公開日】2020-02-13
【審査請求日】2021-03-29
(73)【特許権者】
【識別番号】000129253
【氏名又は名称】株式会社キーエンス
(74)【代理人】
【識別番号】110001427
【氏名又は名称】弁理士法人前田特許事務所
(72)【発明者】
【氏名】能見 大河
(72)【発明者】
【氏名】梅原 康暢
【審査官】毛利 太郎
(56)【参考文献】
【文献】特開2000-020504(JP,A)
【文献】特開2013-066318(JP,A)
【文献】特開2018-072083(JP,A)
【文献】特許第4839416(JP,B1)
【文献】特許第6130977(JP,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
分析対象データを分析するデータ分析装置において、
複数の特徴量と目的変数とを含む分析対象データの入力を受け付けるデータ入力部と、
前記データ入力部により入力された複数の特徴量を一覧表示する表示部と、
前記表示部に一覧表示された各特徴量に対して、使用者の入力に基づいて補足情報の付与が可能な補足情報付与部と、
前記特徴量単体又は前記複数の特徴量を組み合わせて新たな特徴量を生成する演算のルールを定めた定型ルールと、前記補足情報付与部により付与可能な補足情報にしたがって、前記定型ルールに該当しているか否かとは無関係に、新たな特徴量として生成する演算を行うか否かを定めた追加ルールとを記憶するルール記憶部と、
前記ルール記憶部に記憶された前記定型ルール及び前記追加ルールに基づいて、前記複数の特徴量から前記目的変数を予測するための予測モデルを生成する予測モデル生成部とを備えることを特徴とするデータ分析装置。
【請求項2】
請求項1に記載のデータ分析装置において、
前記補足情報には、重要度が含まれていることを特徴とするデータ分析装置。
【請求項3】
請求項2に記載のデータ分析装置において、
前記追加ルールには、前記補足情報に含まれている重要度が第1の所定値未満である特徴量同士の演算を行わないというルールが含まれていることを特徴とするデータ分析装置。
【請求項4】
請求項2または3に記載のデータ分析装置において、
前記追加ルールには、前記補足情報に含まれている重要度が第1の所定値未満である特徴量を、前記補足情報に含まれている重要度が前記第1の所定値よりも高い第2の所定値以上である特徴量とのみ演算を行うというルールが含まれていることを特徴とするデータ分析装置。
【請求項5】
請求項1から4のいずれか1つに記載のデータ分析装置において、
前記補足情報には、単位系が含まれていることを特徴とするデータ分析装置。
【請求項6】
請求項5に記載のデータ分析装置において、
前記追加ルールには、前記補足情報に含まれている単位系が時刻である特徴量同士の場合に減算以外の演算を行わないというルールが含まれていることを特徴とするデータ分析装置。
【請求項7】
請求項1から6のいずれか1つに記載のデータ分析装置において、
前記補足情報には、使用者が制御可能であるか否かに関する情報が含まれていることを特徴とするデータ分析装置。
【請求項8】
請求項1から7のいずれか1つに記載のデータ分析装置において、
前記追加ルールには、新たな特徴量を生成する演算を行わない場合を規定したブラックリストルールが含まれていることを特徴とするデータ分析装置。
【請求項9】
請求項1から8のいずれか1つに記載のデータ分析装置において、
前記追加ルールには、新たな特徴量として生成する演算を行う場合を規定したホワイトリストルールが含まれていることを特徴とするデータ分析装置。
【請求項10】
請求項8に記載のデータ分析装置において、
前記追加ルールには、新たな特徴量として生成する演算を行う場合を規定したホワイトリストルールが含まれており、
前記ブラックリストルールを、前記ホワイトリストルールよりも先に適用することを特徴とするデータ分析装置。
【請求項11】
請求項9に記載のデータ分析装置において、
前記追加ルールには、新たな特徴量を生成する演算を行わない場合を規定したブラックリストルールが含まれており、
前記ホワイトリストルールを、前記ブラックリストルールよりも先に適用することを特徴とするデータ分析装置。
【請求項12】
請求項1から11のいずれか1つに記載のデータ分析装置において、
前記追加ルールには、新たな特徴量として必ず残す場合を規定した選択必須ルールが含まれていることを特徴とするデータ分析装置。
【請求項13】
請求項1から12のいずれか1つに記載のデータ分析装置において、
使用者が前記補足情報の種別を追加可能に構成されていることを特徴とするデータ分析装置。
【請求項14】
分析対象データを分析するデータ分析方法において、
複数の特徴量と目的変数とを含む分析対象データの入力をデータ入力部が受け付けるデータ入力ステップと、
前記データ入力ステップにより入力された複数の特徴量を表示制御部が表示部に一覧表示させる特徴量表示ステップと、
前記特徴量表示ステップで一覧表示された各特徴量に対して、補足情報付与部が使用者の入力に基づいて補足情報の入力を受け付けて付与する補足情報付与ステップと、
前記特徴量単体又は前記複数の特徴量を組み合わせて新たな特徴量を生成する演算のルールを定めた定型ルールと、前記補足情報付与ステップにより付与可能な補足情報にしたがって、前記定型ルールに該当しているか否かとは無関係に、新たな特徴量として生成する演算を行うか否かを定めた追加ルールとを記憶部が記憶するルール記憶ステップと、
前記ルール記憶ステップで記憶された前記定型ルール及び前記追加ルールに基づいて、前記複数の特徴量から前記目的変数を予測するための予測モデルを予測モデル生成部が生成する予測モデル生成ステップとを備えることを特徴とするデータ分析方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ分析装置及びデータ分析方法に関する。
【背景技術】
【0002】
従来より、大量の情報の中からこれまで未知であった有用な知見を得ようと試みる、いわゆるデータマイニングが知られている。一般的なデータマイニングの手法では、前処理ステップ、特徴抽出ステップ、モデル学習ステップ、後処理ステップの各ステップを順に実行する。前処理ステップでは、分析に必要なデータを収集し、分析の効果を高めるために、データの中から不要なノイズを取り除いたり、欠損した項目を埋めるといった作業を行う。この作業はETL:Extract/Transform/Loadと呼ばれている。特徴抽出ステップでは、元データに存在する特徴量を加工し、分析により役立つ新たな特徴量を生成する。モデル学習ステップでは、前処理ステップ及び特徴抽出ステップで準備されたデータを機械学習アルゴリズムに入力し、分析結果を得る。後処理ステップでは、モデル学習ステップで得られた分析結果を外部の機器に出力したり、分析結果に基づいてレポートを作成するといった処理を行う。
【0003】
ところで、最適な特徴量の設計には、熟練の分析者による試行錯誤が必要で、データ分析に長い時間を要する原因となっていた。このことに対し、例えば、非特許文献1に開示されているように、新たな特徴量をデータから自動的に生成する技術が知られている。これら文献に開示されている技術では、事前に定義された一連の演算子(+,-,×,÷など)を元の特徴量に対して網羅的に適用し、大量の新たな特徴量を自動的に生成することができる。
【先行技術文献】
【非特許文献】
【0004】
【文献】「A Randomized Exhaustive Propositionalization Approach for Molecule Classification」2010年5月26日
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、上記文献の技術では、複数の演算子の組み合わせの結果得られた新たな特徴量は膨大な数になるとともに、データの列ごとの意味を考慮せずに網羅的な組み合わせを試行するため、解釈が困難な特徴量が大量に生成されるという問題があった。
【0006】
これに対して、分析精度を維持したまま特徴量の数を絞る技術として、特徴選択(Feature Selection)と呼ばれる手法が知られている。この手法を用いることによって、例えば目的変数との相関が高い特徴量だけを残すことができる。
【0007】
しかしながら、データにノイズが含まれている場合、本来は目的変数と無関係なはずの特徴量でも、大量に自動生成された中には、偶然目的変数と高い相関を示すものが含まれる場合がある。また、大量に特徴量を生成すると、特徴量の生成と選択に時間がかかるという問題もある。
【0008】
本発明は、かかる点に鑑みてなされたものであり、その目的とするところは、大量のデータから特徴量を得る場合に、生成する特徴量を効果的に絞り込み、有効な特徴量を高速に生成できるようにすることにある。
【課題を解決するための手段】
【0009】
上記目的を達成するために、第1の発明は、分析対象データを分析するデータ分析装置において、複数の特徴量と目的変数とを含む分析対象データの入力を受け付けるデータ入力部と、前記データ入力部により入力された複数の特徴量を一覧表示する表示部と、前記表示部に一覧表示された各特徴量に対して、使用者の入力に基づいて補足情報の付与が可能な補足情報付与部と、前記特徴量単体又は前記複数の特徴量を組み合わせて新たな特徴量を生成する演算のルールを定めた定型ルールと、前記補足情報付与部により付与可能な補足情報にしたがって、前記定型ルールに該当しているか否かとは無関係に、新たな特徴量として生成する演算を行うか否かを定めた追加ルールとを記憶するルール記憶部と、前記ルール記憶部に記憶された前記定型ルール及び前記追加ルールに基づいて、前記複数の特徴量から前記目的変数を予測するための予測モデルを生成する予測モデル生成部とを備えることを特徴とする。
【0010】
この構成によれば、分析対象データが入力されると、その分析対象データに含まれる複数の特徴量が表示部に一覧表示され、一覧表示された各特徴量に対して使用者により補足情報が付与される。この補足情報は、いわゆるメタ情報と呼ぶことができるものであり、データに付帯された付帯情報、もしくはデータの属性を説明する情報等と呼ぶこともできる。
【0011】
補足情報の付与が行われた後、予測モデル生成部は、定型ルール及び追加ルールに基づいて、複数の特徴量から目的変数を予測するための予測モデルを生成する。定型ルールによれば、例えば加算、減算、乗算、除算等の演算により、特徴量単体又は複数の特徴量を組み合わせて新たな特徴量が生成されるが、定型ルールに該当していても、補足情報にしたがって、新たな特徴量として生成する演算を行う場合と、行わない場合とが追加ルールによって定められる。つまり、使用者が入力した補足情報が新たな特徴量の生成可否に反映されるので、生成される特徴量が効果的に絞り込まれることになり、目的変数と無関係な特徴量の生成が抑制される。これにより、特徴量の生成に要する時間、及び特徴量の選択に要する時間が短くなる。
【0012】
演算は、算術演算(SUM、MAXなど)であってもよいし、論理演算(AND、ORなど)であってもよいし、算術演算と論理演算を組み合わせたものであってもよい。
【0013】
第2の発明は、前記補足情報には、重要度が含まれていることを特徴とする。
【0014】
この構成によれば、例えば、使用者が重要であると考えている特徴量と、重要でないと考えている特徴量との判別が可能になるので、生成される特徴量をより一層効果的に絞り込むことができる。
【0015】
第3の発明は、前記追加ルールには、前記補足情報に含まれている重要度が第1の所定値未満である特徴量同士の演算を行わないというルールが含まれていることを特徴とする。
【0016】
すなわち、重要度が低い特徴量同士を演算しても重要度の低い特徴量しか得られないと考えられ、予測モデルの生成には殆ど寄与しない。この発明では、重要度が第1の所定値未満である特徴量同士の演算を行わないので、重要度の低い特徴量が生成されにくくなり、特徴量の演算効率が向上する。
【0017】
第4の発明は、前記追加ルールには、前記補足情報に含まれている重要度が第1の所定値未満である特徴量を、前記補足情報に含まれている重要度が前記第1の所定値よりも高い第2の所定値以上である特徴量とのみ演算を行うというルールが含まれていることを特徴とする。
【0018】
すなわち、重要度が低い特徴量であっても重要度が高い特徴量と組み合わせて演算を行えば、重要度の高い特徴量が新たに得られることが考えられるので、重要度の低い特徴量の全てを演算の対象としないのではなく、重要度が高い特徴量とのみ演算することで、新たな知見が得られる可能性が高まる。
【0019】
第5の発明は、前記補足情報には、単位系が含まれていることを特徴とする。
【0020】
この構成によれば、物理的に意味のある単位系同士を演算の対象とし、物理的に意味のない単位系同士を演算の対象から外すことができ、その結果、生成される特徴量をより一層効果的に絞り込むことができる。例えば、演算を行うことによって熱量、流量、仕事量、化学反応速度等を示す単位になる場合には、物理的に意味のある単位系同士であるとして演算を行う。一方、演算することによって存在しない単位になる場合には、物理的に意味のない単位系同士であるとして演算を行わないこともできる。
【0021】
第6の発明は、前記追加ルールには、前記補足情報に含まれている単位系が時刻である特徴量同士の場合に減算以外の演算を行わないというルールが含まれていることを特徴とする。
【0022】
この構成によれば、単位系が時刻である特徴量同士を演算する場合、加算、乗算、除算を行っても、予測モデルの生成には殆ど寄与しない特徴量になってしまうことが考えられるので、このような演算を行わないようにすることで、特徴量の演算効率が向上する。
【0023】
第7の発明は、前記補足情報には、使用者が制御可能であるか否かに関する情報が含まれていることを特徴とする。
【0024】
この構成によれば、使用者が任意に変えたり、調整することのできる特徴量は制御可能であるとし、一方、使用者が任意に変えたり、調整することのできない特徴量は制御不可能であるとして補足情報に含むことができる。
【0025】
第8の発明は、前記追加ルールには、新たな特徴量を生成する演算を行わない場合を規定したブラックリストルールが含まれていることを特徴とする。
【0026】
この構成によれば、特徴量を生成しても効果が低いものを補足情報に基づいてブラックリストルール化することができ、ブラックリストルールに適合する場合には、新たな特徴量を生成する演算を行わないので、特徴量の演算効率が向上する。
【0027】
第9の発明は、前記追加ルールには、新たな特徴量として生成する演算を行う場合を規定したホワイトリストルールが含まれていることを特徴とする。
【0028】
この構成によれば、ホワイトリストルールに適合する場合には、演算が行われて新たな特徴量が生成される。
【0029】
第10の発明は、前記追加ルールには、新たな特徴量として生成する演算を行う場合を規定したホワイトリストルールが含まれており、前記ブラックリストルールを、前記ホワイトリストルールよりも先に適用することを特徴とする。
【0030】
すなわち、ブラックリストルールに適合した特徴量の中には有効な特徴量が存在している場合が考えられ、このような有効な特徴量に基づいて新たな特徴量を生成することができる。
【0031】
第11の発明は、前記追加ルールには、新たな特徴量を生成する演算を行わない場合を規定したブラックリストルールが含まれており、前記ホワイトリストルールを、前記ブラックリストルールよりも先に適用することを特徴とする。
【0032】
すなわち、ホワイトリストルールによって特徴量を多めに挙げておき、その後、ブラックリストルールを適用することで、新たな特徴量の生成に使用する特徴量を絞り込むことができる。
【0033】
第12の発明は、前記追加ルールには、新たな特徴量として必ず残す場合を規定した選択必須ルールが含まれていることを特徴とする。
【0034】
すなわち、データ分析装置側で特徴量が低く評価された場合には、使用者が重要であると考えていた特徴量であってもその特徴量について削除されてしまう可能性があるが、選択必須ルールにおいて、例えば重要度に関するルールが含まれている場合には、その重要度に応じて新たな特徴量を生成することができ、必ず残すことができる。
【0035】
第13の発明は、使用者が前記補足情報の種別を追加可能に構成されていることを特徴とする。
【0036】
この構成によれば、補足情報について、既存の種別だけでなく、使用者の必要に応じて別の種別を追加することができるので、生成される特徴量をより一層効果的に絞り込むことができる。
【0037】
第14の発明は、分析対象データを分析するデータ分析方法において、複数の特徴量と目的変数とを含む分析対象データの入力を受け付けるデータ入力ステップと、前記データ入力ステップにより入力された複数の特徴量を一覧表示する特徴量表示ステップと、前記特徴量表示ステップで一覧表示された各特徴量に対して、使用者の入力に基づいて補足情報の付与が可能な補足情報付与ステップと、前記特徴量単体又は前記複数の特徴量を組み合わせて新たな特徴量を生成する演算のルールを定めた定型ルールと、前記補足情報付与ステップにより付与可能な補足情報にしたがって、前記定型ルールに該当しているか否かとは無関係に、新たな特徴量として生成する演算を行うか否かを定めた追加ルールとを記憶するルール記憶ステップと、前記ルール記憶ステップで記憶された前記定型ルール及び前記追加ルールに基づいて、前記複数の特徴量から前記目的変数を予測するための予測モデルを生成する予測モデル生成ステップとを備えることを特徴とする。
【発明の効果】
【0038】
本発明によれば、特徴量単体又は複数の特徴量を組み合わせて新たな特徴量を生成する演算のルールを定めた定型ルールと、付与された補足情報にしたがって定型ルールに該当しているか否かとは無関係に、新たな特徴量として生成する演算を行うか否かを定めた追加ルールとに基づいて目的変数を予測するようにしている。これにより、特徴量を効果的に絞り込んで有効な特徴量を高速に生成することができる。
【図面の簡単な説明】
【0039】
図1】本発明の実施形態に係るデータ分析装置の概略構成を示す図である。
図2】データ分析装置のブロック図である。
図3】データ分析の手順を示すフローチャートである。
図4】データ分析装置の動作を示すフローチャートである。
図5】データ入力用ユーザーインターフェースを示す図である。
図6】分析対象データの例を示す図である。
図7】メタ情報設定用ユーザーインターフェースを示す図である。
図8】特徴量生成のフローチャートである。
図9】自動生成される特徴量の一例を示す図である。
図10】ブラックリストルールの一例を示す図である。
図11】ブラックリストルール適用後の図9相当図である。
図12】ホワイトリストルールの一例を示す図である。
図13】ホワイトリストルール適用後の図9相当図である。
図14】選択必須ルールの一例を示す図である。
図15】特徴量表示ユーザーインターフェースを示す図である。
【発明を実施するための形態】
【0040】
以下、本発明の実施形態を図面に基づいて詳細に説明する。尚、以下の好ましい実施形態の説明は、本質的に例示に過ぎず、本発明、その適用物或いはその用途を制限することを意図するものではない。
【0041】
図1は、本発明の実施形態に係るデータ分析装置1の概略構成を示す図であり、図2は、データ分析装置1のブロック図である。このデータ分析装置1は、分析対象データを分析する装置であり、このデータ分析装置1を使用することで、本発明に係るデータ分析方法を実行することができる。データ分析装置1及びデータ分析方法は、例えば、大量の情報の中からこれまで未知であった有用な知見を得ようと試みる、いわゆるデータマイニングを行う際に使用することができる。
(データ分析手順)
図3に示すフローチャートに基づいて、一般的なデータ分析の手順について説明する。開始後、ステップSA1では前処理ステップを実行する。前処理ステップでは、分析に必要なデータ、すなわち分析対象データを収集し、分析の効果を高めるために、データの中から不要なノイズを取り除いたり、欠損した項目を埋めるといった作業を行う。この作業はETL:Extract/Transform/Loadと呼ばれている。ステップSA2では特徴抽出ステップを実行する。特徴抽出ステップでは、元データに存在する特徴量を加工し、分析により役立つ新たな特徴量を生成する。ステップSA3ではモデル学習ステップを実行する。モデル学習ステップでは、前処理ステップ及び特徴抽出ステップで準備されたデータを機械学習アルゴリズムに入力し、分析結果を得る。ステップSA4では後処理ステップを実行する。後処理ステップでは、モデル学習ステップで得られた分析結果を外部の機器に出力したり、分析結果に基づいてレポートを作成するといった処理を行う。
【0042】
(データ分析装置1の全体構成)
図1及び図2に示すように、データ分析装置1は、装置本体2と、モニタ3と、キーボード4と、マウス5とを備えており、モニタ3、キーボード4及びマウス5は、装置本体2に接続されている。例えば汎用のパーソナルコンピュータに、後述する制御内容を実行するプログラムをインストールすることによってデータ分析装置1とすることができ、また、前記プログラムがインストールされた専用のハードウェアでデータ分析装置1を構成することもできる。装置本体2とモニタ3とは一体化されていてもよいし、装置本体2の一部がモニタ3に内蔵されていてもよい。
【0043】
データ分析装置1は、通信モジュール(図示せず)を内蔵しており、外部との通信が可能に構成されている。これにより、インターネット回線を介して外部サーバーからのデータのダウンロードが可能になる。
【0044】
また、キーボード4及びマウス5は、データ分析装置1を操作する操作手段であるとともに、各種情報を入力する入力手段、選択操作を行う選択手段等でもある。キーボード4及びマウス5に加えて、またはキーボード4及びマウス5に変えて、タッチパネル式の入力装置、音声入力装置、ペン型の入力装置等を使用することもできる。
【0045】
(モニタ3の構成)
図1に示すモニタ3は、たとえば有機ELディスプレイや液晶ディスプレイ等からなるものであり、それ単体で表示部と呼ぶこともできるし、モニタ3と、図2に示す表示制御部3aとを合わせて表示部と呼ぶこともできる。表示制御部3aは、モニタ3に内蔵されていてもよいし、装置本体10に内蔵されていてもよい。表示制御部3aは、モニタ3に対して画像を表示させる表示用DSPなどから構成される。表示制御部3aには、画像を表示させる際に画像データを一時記憶するVRAMなどのビデオメモリが含まれていてもよい。表示制御部3aは、後述する主制御部11のCPU11aから送られてきた表示指令(表示コマンド)に基づいて、モニタ3に対して所定の画像を表示させるための制御信号を送信する。たとえば、各種ユーザーインターフェースやアイコン、キーボード4やマウス5を用いた使用者の操作内容をモニタ3に表示させるための制御信号も送信する。また、マウス5で操作可能なポインタ等もモニタ3に表示することができるようになっている。
【0046】
モニタ3をタッチ操作パネル型モニタとすることで、モニタ3に各種情報の入力機能を持たせることができる。
【0047】
(装置本体2の全体構成)
図1に示す装置本体2は、制御ユニット10と、記憶部30とを備えている。記憶部30は、ハードディスクドライブ、ソリッドステートドライブ(SSD)等で構成されている。記憶部30は、制御ユニット10に接続されており、制御ユニット10によって制御され、各種データを保存しておくことができるとともに、保存しておいたデータを読み出すこともできるようになっている。図2に示すように、記憶部30は、後述する定型ルールを記憶する定型ルール記憶部30aと、後述する追加ルールを記憶する追加ルール記憶部30bとを備えている。記憶部30は、制御ユニット10の内部に設けられていてもよい。
【0048】
(制御ユニット10)
制御ユニット10は、具体的に図示しないが、MPU、システムLSI、DSPや専用ハードウェア等で構成することができる。制御ユニット10は、後述するように様々な機能を搭載しているが、これらは論理回路によって実現されていてもよいし、ソフトウェアを実行することによって実現されていてもよい。
【0049】
図2に示すように、制御ユニット10は、主制御部11と、データ入力部12と、補足情報付与部(メタ情報付与部)13と、予測モデル生成部14とを備えている。制御ユニット10の各部は、上述したように分けて記載しているが、同じ部分が複数種の処理を実行するように構成してもよいし、更に細かく分けてこれらを連携させて1つの処理を実行するように構成してもよい。
【0050】
上記各ハードウェアは、バスなどの電気的な通信路(配線)を介し、双方向通信可能または一方向通信可能に接続されている。
【0051】
主制御部11は、各種プログラムに基づき数値計算や情報処理を行うとともに、ハードウェア各部の制御を行う。主制御部11は、中央演算処理装置として機能するCPU11aと、主制御部11が各種プログラムを実行する際のワークエリアとして機能するRAM等のワークメモリ11bと、起動プログラムや初期化プログラム等が格納されたROM、フラッシュROMまたはEEPROM等のプログラムメモリ11cとを備えている。
【0052】
データ入力部12は、複数の特徴量と目的変数とを含む分析対象データの入力を受け付ける部分であり、図5に示すデータ入力用ユーザーインターフェース50をモニタ3に表示させるとともに、データ入力用ユーザーインターフェース50上でなされた使用者の操作を受け付ける。使用者の操作とは、キーボード4の操作や、マウス5の操作(ボタンクリック、ドラッグ&ドロップ、ホイールの回転等を含む)がある。
【0053】
ここで、分析対象データは、複数の特徴量と目的変数とを含むデータであるが、複数の特徴量は、分析対象データにもともと存在しているもの(既存特徴量)、新たに生成したもの(新たな特徴量)等のいずれか1種または複数種を含むデータであればよい。分析対象データの一部が欠損していてもよく、その場合は、欠損した項目を埋める作業を行えばよい。
【0054】
図5に示すデータ入力用ユーザーインターフェース50には、ファイル選択ボタン50aと、データベース選択ボタン50bと、URL指定ボタン50cと、データベース表示領域50dと、読み込み開始ボタン50eとが設けられている。各ボタンの配置は自由に設定できる。
【0055】
例えば、分析対象データを格納したファイルが外部記憶装置や記憶部30に保存されていて、デスクトップ上や、開いた状態のフォルダにある場合には、使用者が当該ファイルをデータベース表示領域50dへドラッグ&ドロップ操作する。これにより、分析対象データを格納したファイル名がデータベース表示領域50dに表示される。その後、読み込み開始ボタン50eを押すと、データベース表示領域50dに表示されているファイルが記憶部30の所定領域に読み込まれて保存される。
【0056】
分析対象データがデータベース上にある場合には、使用者がデータベース選択ボタン50bを押す。データベース選択ボタン50bが押されると、データベースに接続するための設定画面(図示せず)を表示し、テーブル名の入力や必要に応じてパスワードの入力を使用者に促す。その後、読み込み開始ボタン50eを押すと、分析対象データが所定のファイル形式で記憶部30の所定領域に読み込まれて保存されるとともに、分析対象データを格納したファイル名がデータベース表示領域50dに表示される。
【0057】
分析対象データがインターネットやサーバー上にある場合には、使用者がURL指定ボタン50cを押す。URL指定ボタン50cが押されると、URL入力画面(図示せず)を表示し、URLの入力を使用者に促す。その後、読み込み開始ボタン50eを押すと、分析対象データがダウンロードされて所定のファイル形式で記憶部30の所定領域に読み込まれて保存されるとともに、分析対象データを格納したファイル名がデータベース表示領域50dに表示される。
【0058】
分析対象データを格納したファイルは、1つのみであってもよいし、複数であってもよい。上述した3つの方法以外の方法でファイルを読み込んでもよい。上記ファイル形式は、csv形式であってもよいし、これ以外の形式であってもよい。以上の処理は、図4に示すフローチャートにおけるステップSB1のデータ入力ステップに相当する。
【0059】
図6は分析対象データの一例を表形式で示している。この例では、表の最上部において横に並んでいる「測定時刻」、「経過時間」、「設定圧力」、「設定温度」、「物質A生成量」、「物質B生成量」、「物質C投入量」、「攪拌速度」、「冷却温度差」、「冷却水流量」の10個が特徴量になるものである。また、各データは時系列で並んでいる。この表形式のデータをモニタ3に表示してもよいし、表示しなくてもよい。
【0060】
分析対象データの入力後、データの加工ステップを行うこともできる。データの加工とは、分析対象データの欠損値の除去、分析対象データの穴埋め、分析対象データの置き換え、列削除、行削除等を行うことである。
【0061】
ステップSB1に続くステップSB2はメタ情報の設定ステップである。メタ情報の設定ステップは、図2に示す補足情報付与部13及び使用者によって実行されるステップである。メタ情報の設定ステップは、2つのステップからなり、まず、始めに特徴量表示ステップが実行される。データ入力ステップが完了すると、補足情報付与部13は、データ入力ステップが完了したことを検出して、図7に示すようなメタ情報設定用ユーザーインターフェース60をモニタ3に表示させるとともに、メタ情報設定用ユーザーインターフェース60上でなされた使用者の操作を受け付ける。メタ情報は、本発明の補足情報に相当するものであり、データに付帯された付帯情報、もしくはデータの属性を説明する情報等と呼ぶこともできるものである。
【0062】
メタ情報設定用ユーザーインターフェース60には、一覧表示領域61と、第1メタ情報入力領域62と、第2メタ情報入力領域63と、第3メタ情報入力領域64と、第4メタ情報入力領域65と、第5メタ情報入力領域66(図では一部を省略している)とが設けられている。図7では、メタ情報入力領域の数を5つとしているが、これに限られるものではなく、4つ以下であってもよいし、6つ以上であってもよい。
【0063】
一覧表示領域61には、データ入力ステップで入力された複数の特徴量を一覧表示する領域であり、この一覧表示領域61に複数の特徴量を一覧表示することで、モニタ3には、使用者が視認可能な状態で複数の特徴量が一覧表示されることになる。このステップが特徴量表示ステップである。図7では、複数の特徴量を縦に並べて表示しているが、横に並べて表示してもよい。
【0064】
第1メタ情報入力領域62は、一覧表示領域61に表示されている各特徴量の単位(メタ情報)を使用者が入力するための領域である。第1メタ情報入力領域62には、一覧表示領域61に表示されている各特徴量に対応するように、ドロップダウンリストボタン62aを表示させることができる。ドロップダウンリストボタン62aをマウス5の操作によって表示させて各特徴量の単位を選択することができる。「測定時刻」の場合は、年、月、日と時、分、秒である。「経過時間」の場合は秒(s)であり、「設定圧力」の場合はパスカル(Pa)であり、「設定温度」の場合は℃であり、「物質A生成量」の場合は立方メートル(m)であり、「物質B生成量」及び「物質C投入量」の場合はリットル(l)であり、「攪拌速度」の場合はrpmであり、「冷却温度差」の場合は℃であり、「冷却水流量」の場合はm/sである。各特徴量の単位を使用者が入力すると、その使用者の入力操作に基づいて各特徴量にメタ情報として単位系情報が付与される。つまり、補足情報付与部13は、モニタ3に一覧表示された各特徴量に対して、使用者の入力に基づいてメタ情報の付与が可能に構成されており、このステップが補足情報付与ステップ(メタ情報付与ステップ)である。
【0065】
第2メタ情報入力領域63は、一覧表示領域61に表示されている各特徴量が制御可能であるか否かに関する情報(メタ情報)を使用者が入力するための領域である。使用者が、例えば、量を変更したり、ある一定の量となるように調整したり、量が0となるように調整することができる場合には、使用者が制御可能な特徴量であるとする。一方、使用者が変更や調整することができない場合には、使用者が制御不能な特徴量であるとする。使用者が制御可能な特徴量である場合には「○」、使用者が制御不能な特徴量である場合には「×」とする。第2メタ情報入力領域63にも、一覧表示領域61に表示されている各特徴量に対応するように、ドロップダウンリストボタン63aを表示させることができる。ドロップダウンリストボタン63aをマウス5の操作によって表示させて各特徴量が制御可能であるか、制御不能であるかを選択することができる。各特徴量の制御が可能であるか否かを使用者が入力すると、その使用者の入力操作に基づいて各特徴量にメタ情報として制御可否情報が付与される。
【0066】
第3メタ情報入力領域64は、一覧表示領域61に表示されている各特徴量の重要度(メタ情報)を使用者が入力するための領域である。重要度とは、使用者の考えに基づくものであり、使用者が重要な特徴量であると考えている場合には、「大」、使用者が重要な特徴量でないと考えている場合には、「小」という値を入力するようになっている。重要度は、多段階で入力することができ、例えば、重要度が高いものから低いものに順に「大」、「中」、「小」と付与する3段階や、数値による3段階評価、「◎」、「○」、「△」、「×」等のような印(マーク)による評価であってもよい。図7に示す例では、「大」、「中」、「小」の3段階評価としている。第3メタ情報入力領域64にも、一覧表示領域61に表示されている各特徴量に対応するように、ドロップダウンリストボタン64aを表示させることができる。メタ情報に重要度が含まれていることで、使用者が重要であると考えている特徴量と、重要でないと考えている特徴量との判別が可能になる。
【0067】
第4メタ情報入力領域65は、一覧表示領域61に表示されている各特徴量の工程番号(メタ情報)を使用者が入力するための領域である。工程番号とは、何らかの物を製造する場合や、薬剤等を製造する場合における工程順に付される番号である。第4メタ情報入力領域65にも、一覧表示領域61に表示されている各特徴量に対応するように、ドロップダウンリストボタン65aを表示させることができる。ドロップダウンリストボタン63aをマウス5の操作によって表示させて各特徴量の工程番号を入力することができる。全工程に関連する特徴量については工程番号を付与しなくてもよい。
【0068】
工程番号は一例であり、例えば、分析対象データが売上げデータであれば、店舗番号(店舗名)等であってもよい。工程番号や店舗番号は、上位概念としてグループ番号とすることもできる。使用者の入力操作に基づいて各特徴量にメタ情報としてグループ情報が付与される。
【0069】
本実施形態では、各特徴量に対して、単位系情報、制御不可情報、重要度情報及びグループ情報を少なくとも付与することができるので、補足情報付与ステップは、各特徴量に対して、異なる種別の複数のメタ情報の付与が可能なステップである。
【0070】
また、使用者がメタ情報の種別を追加可能に構成することもできる。例えば、メタ情報設定用ユーザーインターフェース60にメタ情報の追加ボタン(図示せず)を設けておき、この追加ボタンを使用者が操作することで、メタ情報入力領域の数が増え、新たなメタ情報入力領域に、異なる種別のメタ情報を入力することが可能になる。
【0071】
以上が、図4に示すステップSB2のメタ情報の設定ステップである。ステップSB2に続くステップSB3は特徴量生成ステップである。特徴量生成ステップの詳細については、後述する図8に示すフローチャートに示しており、特徴量が自動的に生成されるステップである。特徴量を自動生成した後、図4に示すステップSB4に進み、生成した特徴量の情報を出力する。
【0072】
(特徴量生成ステップの詳細)
以下に特徴量生成ステップの詳細について説明する。図8に示すフローチャートのステップSC1では、網羅的に関数を組み合わせる。このとき、定型ルールが適用される。
【0073】
(定型ルールの詳細)
この例では、8つの演算を定義し、それらを各特徴量に対して網羅的に組み合わせる。基本の組み合わせ処理は、算術(2項演算)として、+(加算)、-(減算)、×(乗算)、÷(除算)があり、集計として、SUM(合計)、AVG(平均)、MAX(最大)、MIN(最小)がある。図7に示すように、元の特徴量が10個なので、2項演算は全組合せで10×10×4通り、集計演算は10×4通りが定義できる。これら合計440個を、図9に示すように、生成する特徴量の一覧に加える。
【0074】
尚、図9に示す表では、生成する特徴量の一部のみ示しているが、上述したように全ての組み合わせが生成される。また、この段階では、生成する特徴量を想定しているだけであり、実際の演算はしないので、この段階で新たに生成されると想定される特徴量が多くても計算負荷には殆ど影響しない。
【0075】
SUM(合計)、AVG(平均)、MAX(最大)及びMIN(最小)は、元の特徴量単体から新たな特徴量を生成する演算のルールであり、定型ルールである。+(加算)、-(減算)、×(乗算)及び÷(除算)は、複数の特徴量を組み合わせて新たな特徴量を生成する演算のルールであり、これも定型ルールである。これら定型ルールは、図2に示す記憶部30が有する定型ルール記憶部30aに記憶されている。定型ルールは、上述したルールを全て含んでいなくてもよく、任意のルールを含むようにすることができる。また、定型ルールは、上述したルール以外を含んでいてもよく、例えば、元の特徴量単体の累乗演算等がある。複数の定型ルールのうち、1つまたは複数を使用者が選択できるようにしてもよい。定型ルールを定型ルール記憶部30aに記憶させるステップがルール記憶ステップであり、これはデータ入力ステップの前に行ってもよいし、データ入力ステップの後に行ってもよい。
【0076】
図8に示すフローチャートのステップSC1に続くステップSC2では、ブラックリストルール/ホワイトリストルールが適用される。ブラックリストルール及びホワイトリストルールは、追加ルールである。
【0077】
(追加ルールの詳細)
追加ルールは、補足情報付与部13により付与可能なメタ情報にしたがって、定型ルールに該当しているか否かとは無関係に、新たな特徴量として生成する演算を行うか否かを定めたルールであり、図2に示す記憶部30が有する追加ルール記憶部30bに記憶されている。追加ルールを追加ルール記憶部30bに記憶させるステップがルール記憶ステップであり、これはデータ入力ステップの前に行ってもよいし、データ入力ステップの後に行ってもよい。
【0078】
追加ルールには、大きく分けて3つのルールが含まれている。それら3つのルールは、新たな特徴量を生成する演算を行わない場合を規定したブラックリストルールと、新たな特徴量として生成する演算を行う場合を規定したホワイトリストルールと、選択必須ルールである。
【0079】
(ブラックリストルール)
ブラックリストルールは、対象の特徴量を生成しても効果が低いものを、メタ情報を利用して特定するためのルールである。ブラックリストルールに適合するものは、演算をしない、即ち、新たな特徴量として生成しない。
【0080】
図10は、ブラックリストルールの例を示すものである。ブラックリストルールは、ルールIDと、各ルールIDに関連付けられたルールと、各ルールIDに関連付けられたメタ情報の種類とから構成されている。ブラックリストルールを定義するメタ情報は複数ある。ルールIDは、ルール毎に付与されるものである。
【0081】
ブラックリストルールには、「TimeStampとTimeStampは、減算以外行わない。」というルールを含むことができ、このルールのルールIDをB1とする。このルールは、メタ情報に含まれている単位系が時刻である特徴量同士の場合、減算以外の演算を行わないというルールである。例えば、図7に示す特徴量のうち、単位系が時刻である特徴量は、「測定時刻」である。単位系が時刻である特徴量同士を演算する場合、加算、乗算、除算を行っても、予測モデルの生成には殆ど寄与しない特徴量になってしまうことが考えられるので、このような演算を行わないようにブラックリストルールで定義する。また、ルールIDがB1のルールで使用されるメタ情報の種類は単位系情報である。
【0082】
ブラックリストルールには、「重要度:小は重要度:大のものとしか組み合わせない。」というルールを含むことができ、このルールのルールIDをB2とする。このルールでは、メタ情報に含まれている重要度情報を使用する。重要度の「小」や「大」は重要度の値ということができるものである。例えば「小」が、重要度を示す値として第1の所定値未満であるとする場合、ルールIDがB2のルールは、メタ情報に含まれている重要度が第1の所定値未満である特徴量同士の演算を行わないというルールになる。すなわち、重要度が低い特徴量同士を演算しても重要度の低い特徴量しか得られないと考えられ、予測モデルの生成には殆ど寄与しないと考えられる。この例では、重要度が第1の所定値未満である特徴量同士の演算を行わないので、重要度の低い特徴量が生成されにくくなり、特徴量の演算効率が向上する。第1の所定値は、例えば「中」であってもよい。
【0083】
また、言い換えると、ルールIDがB2のルールは、重要度が「小」の特徴量を、重要度が「小」よりも高い「大」の特徴量とのみ演算を行うというルールである。例えば「小」が、重要度を示す値として第1の所定値未満であるとし、「大」が、重要度を示す値として第2の所定値以上であるとすると、メタ情報に含まれている重要度が第1の所定値未満である特徴量を、メタ情報に含まれている重要度が第1の所定値よりも高い第2の所定値以上である特徴量とのみ演算を行うというルールになる。重要度が「小」の特徴量を、重要度が「中」の特徴量とのみ演算を行うというルールであってもよい。
【0084】
ブラックリストルールには、「重要度:小に対する集計処理は行わない。」というルールを含むことができ、このルールのルールIDをB3とする。このルールではメタ情報に含まれている重要度情報を使用する。このルールは、メタ情報に含まれている重要度が第1の所定値未満である特徴量について、集計を行わないというルールになる。すなわち、重要度が低い特徴量を集計しても、重要度の低い特徴量しか得られないと考えられ、予測モデルの生成には殆ど寄与しないと考えられるから、このようなルールを規定している。
【0085】
ブラックリストルールには、「工程番号が異なるものは組み合わせない。」というルールを含むことができ、このルールのルールIDをB4とする。このルールではメタ情報に含まれているグループ情報を使用する。このルールは、複数の工程のうち、異なる工程に関する特徴量同士の演算を行わないというルールになる。例えば第1工程に関する特徴量と、第2工程に関する特徴量とは、工程が異なるが故に、それらを組み合わせて演算しても、予測モデルの生成には殆ど寄与しない特徴量となってしまうと考えられるから、このようなルールを規定している。工程番号の代わりに、店舗番号等であってもよい。
【0086】
ブラックリストルールには、「重要度:小かつ制御可能:×に対する演算は行わない。」というルールを含むことができ、このルールのルールIDをB5とする。このルールではメタ情報に含まれている重要度情報及び制御不可情報を使用する。「制御可能:×」とは、使用者が制御不能な特徴量であり、従って、このルールでは、メタ情報に含まれている重要度が第1の所定値未満であり、かつ、使用者が制御不能である特徴量については演算を行わないというルールになる。つまり、重要度が低く、かつ、制御不能な特徴量については予測モデルの生成に寄与しにくいと考えられるから、このようなルールを規定している。
【0087】
ブラックリストルールには、上記したルール以外のルールが含まれていてよい。また、ブラックリストルールには、使用者が定義したルールを追加することもできるようになっている。また、ブラックリストルールに含まれるルールの任意の一部を削除することもできるようになっている。
【0088】
図11は、ブラックリストルールが適用されることによって生成されなくなった特徴量と、ブラックリストルール適用後においても生成される特徴量とを区別して示した表である。ブラックリストルールが適用されることによって生成されなくなった特徴量のみ薄墨が付されており、これら特徴量は演算の対象から除外されている。この図に示すように、ブラックリストルールを適用することで、物理的に意味のない量を計算したり、相互作用が無いはずの量同士を掛け合わせたりすることを防ぐことができ、効果の得られる見込みが無い特徴量を削減することができる。また、使用者の直観を重要度の形で取り入れることで、さらに効率良く特徴量を絞り込むことができる。
【0089】
(ホワイトリストルール)
ホワイトリストルールは、予測モデルの生成に対して効果が高いと期待できる条件を、メタ情報を利用して特定するためのルールであり、図9に示す元の特徴量の中でホワイトリストルールに該当するものがあれば演算の対象とする。ホワイトリストルールは、ブラックリストルールの適用後に適用してもよいし、ブラックリストルールの適用前に適用してもよい。ブラックリストルールを、ホワイトリストルールよりも先に適用する場合には、ブラックリストルールで一度削除されている特徴量も、ホワイトリストルールに該当すれば復活させる。復活させるというのは、一旦演算の対象から除外された特徴量を、演算の対象に戻すことである。
【0090】
図12は、ホワイトリストルールの例を示すものである。ホワイトリストルールは、ルールIDと、各ルールIDに関連付けられたルールと、各ルールIDに関連付けられたメタ情報の種類とから構成されている。ホワイトリストルールを定義するメタ情報は複数ある。ルールIDは、ルール毎に付与されるものである。
【0091】
ホワイトリストルールには、「単位[Pa]×単位[rpm]」というルールを含むことができ、このルールのルールIDをW1とする。このルールでは、メタ情報に含まれている単位系情報を使用する。
【0092】
ホワイトリストルールには、「単位[m/s]×単位[℃]」というルールを含むことができ、このルールのルールIDをW2とする。このルールでは、メタ情報に含まれている単位系情報を使用する。
【0093】
ホワイトリストルールには、「log(単位[s])」というルールを含むことができ、このルールのルールIDをW3とする。このルールでは、メタ情報に含まれている単位系情報を使用する。
【0094】
ホワイトリストルールには、「3√(単位[m])」というルールを含むことができ、このルールのルールIDをW4とする。このルールでは、メタ情報に含まれている単位系情報を使用する。
【0095】
ホワイトリストルールには、「MEAN(重要度[大])」というルールを含むことができ、このルールのルールIDをW5とする。このルールでは、メタ情報に含まれている重要度情報を使用する。
【0096】
ルールIDがW1の単位(Pa)×単位(rpm)は仕事(W)であり、また、ルールIDがW2の単位(m/s)×単位(℃)は熱量(cal/s)であり、また、ルールIDがW3の単位log(単位[s])は化学反応速度である。仕事、熱量及び化学反応速度はよく使われる量であることから、これらを特徴量として演算することで、分析精度の向上に寄与し、かつ、解釈しやすいことが期待できる。よって、ホワイトリストルールで定義している。
【0097】
また、例えば、重要度が「大」である特徴量は、MEANという演算を新たに適用する。これにより、重要度の高い特徴量が演算の対象から除外されてしまうのを防ぐことができる。
【0098】
ホワイトリストルールには、上記したルール以外のルールが含まれていてよい。また、ホワイトリストルールには、使用者が定義したルールを追加することもできるようになっている。また、ホワイトリストルールに含まれるルールの任意の一部を削除することもできるようになっている。
【0099】
図13は、ブラックリストルール適用後にホワイトリストルールを適用した場合を示す表であり、生成されなくなった特徴量のみ薄墨が付されている。図11図13とを比較すると、ブラックリストルールが適用されることによって生成されなくなった特徴量(図11に示す)のうち、図13では一部が復活していることが分かる。これにより、ブラックリストルールで特徴量を一律に削除したままにするのではなく、よく使われる量や重要度が高い特徴量については演算の対象とすることができるようになる。
【0100】
ホワイトリストルールを適用することで、物理的に意味のあるものや重要度が高いものに関する特徴量を重点的に生成することができ、より分析の精度を高めることができる。さらに、使用者がルールを追記することで、使用者自身が分析対象に対して持っている知識をデータ分析装置1に取り込むことができ、分析の精度をより一層上げることができる。
【0101】
ホワイトリストルールを適用した後、ブラックリストルールを適用する場合には、ホワイトリストルールの適用によって演算対象の特徴量を多く組み入れておき、その後のブラックリストルールの適用によって実際に演算する特徴量を絞り込むことができる。
【0102】
図8に示すフローチャートのステップSC2では、ブラックリストルールとホワイトリストルールとの両方を適用することにより、上述したように生成する特徴量を決定し、図13に示すように、生成する特徴量の一覧が完成する。この一覧表はモニタ3に表示させるようにしてもよい。
【0103】
尚、ステップSC2では、ブラックリストルールのみを適用することにより、生成する特徴量を決定してもよい。また、上述したように、ブラックリストルールとホワイトリストルールとの適用順は特に限定されない。また、ブラックリストルールとホワイトリストルールとの適用順を使用者が選択できるように構成されていてもよい。
【0104】
ステップSC3では、ステップSC2で決定された特徴量の演算を行い、特徴量のデータを生成する。その後、ステップSC4では、特徴選択を実施し、生成された特徴量それぞれに対して重要度を計算する。ここで計算した重要度は、上述した使用者が入力した重要度とは異なるものであり、算出された重要度と呼ぶことにする。
【0105】
ここでは既知の特徴選択アルゴリズムを使うことができる。たとえば、以下の式(1)であらわされる重回帰分析における係数a1,a2,…を推定し、その絶対値を特徴量x1,x2…に対する評価値としてもよい。
【0106】
y=a1x1+a2x2+…+anxn ・・・(1)
あるいは、係数をそのまま使うのではなく、各特徴量x1,x2,…の大きさが揃うように補正した正規化係数を、算出された重要度として用いてもよい。
【0107】
通常の特徴選択では、算出された重要度が一定の閾値を超えたもの、あるいは算出された重要度が上位のものだけを制御ユニット10が抽出、選択してモニタ3に表示することができる。この実施形態では、通常の特徴選択に代えて、または通常の特徴選択の後に、選択必須ルールを適用するように構成されている。すなわち、図8に示すフローチャートのステップSC4で算出された重要度を評価した後、ステップSC5に進み、選択必須ルールを適用する。尚、選択必須ルールの適用は任意であり、適用しなくてもよい。また、選択必須ルールの適用要否を使用者が選択できるように構成することもできる。
【0108】
(選択必須ルール)
選択必須ルールは、上述した追加ルールに含まれるルールであり、新たな特徴量として必ず残す場合を規定したものである。図14は、選択必須ルールの例を示すものである。選択必須ルールは、ルールIDと、各ルールIDに関連付けられたルールと、各ルールIDに関連付けられたメタ情報の種類とから構成されている。選択必須ルールを定義するメタ情報は複数あってもよい。ルールIDは、ルール毎に付与されるものである。
【0109】
選択必須ルールは、「制御可能:○」というルールを含むことができ、このルールのルールIDをS1とする。制御可能:○」とは、使用者が制御可能であるということであり、従って、このルールでは、使用者が制御可能である特徴量については、ブラックリストルールで削除されていたとしても、復活させて特徴量として残す。使用者が制御可能な特徴量は寄与度合いが高い場合があるためである。この選択必須ルールに該当する特徴量であれば、使用者が入力した重要度が低くても残す。これによって、使用者が残したい特徴量がデータ分析装置1の内部で勝手に削除されることを防ぐことができる。
【0110】
(特徴量の出力)
以上のようにして、新たに生成される特徴量が残される。図8に示すフローチャートのステップSC6では、残った特徴量を出力する。このステップは、図4に示すフローチャートのステップSB4に相当するステップである。制御ユニット10は、出力される特徴量が選択されると、図15に示す特徴量表示ユーザーインターフェース70をモニタ3に表示させるとともに、特徴量表示ユーザーインターフェース70上でなされた使用者の操作を受け付ける。
【0111】
特徴量表示ユーザーインターフェース70は、新たに生成された特徴量を表示するためのものである。特徴量表示ユーザーインターフェース70に表示する特徴量は、算出された重要度が上位の特徴量を表示するように構成することができ、算出された重要度が上位にある複数の特徴量を、算出された重要度の高い順に並べて表示する、すなわち、ランキング表示するように構成されている。この例では、算出された重要度が最も高い特徴量と、それ未満の重要度の特徴量とを同時に表示するように構成されており、最上位の重要度を有する特徴量が最も上に位置し、最上位の重要度未満の複数の特徴量は、重要度の大きさによって降順に配置される。特徴量は、昇順に配置してもよいし、左右方向に並ぶように配置してもよい。表示する特徴量は所定数であればよく、その数は特に限定されない。
【0112】
具体的には、特徴量表示ユーザーインターフェース70には、順位表示領域71と、重要度表示領域72と、特徴量表示領域73と、適用ルール表示領域74と、物理量表示領域75とが設けられている。順位表示領域71は、算出された重要度に応じて付された順位を表示する領域である。「1」は、算出された重要度が最も高いことを示しており、数字が多くなるほど、算出された重要度が低くなる。
【0113】
重要度表示領域72は、算出された重要度を表示する領域である。重要度表示領域72に表示する重要度は、数値であってもよいし、棒グラフのような図形であってもよい。この実施形態では、算出された重要度が最も高いものを「1」とし、数値で相対比較できるように表示するとともに、算出された重要度が最も高いものが最も長いバーとなるように、図形で相対比較できるように表示している。
【0114】
特徴量表示領域73は、自動生成された特徴量の名称を表示する領域である。ここに表示する名称は、分析対象データに存在していた特徴量の名称に基づくものであり、分析対象データに存在していた特徴量の名称をそのまま表示してもよいし、どのような演算がなされたのか分かるように、例えば、「設定温度×冷却水流量」のように、演算式形式で表示してもよい。
【0115】
適用ルール表示領域74は、特徴量の生成に適用されたルールを表示する領域である。適用ルール表示領域74には、ルールIDが表示される。「W」の場合は、ホワイトリストルールに基づいて生成されることになった特徴量であることを示し、「S」の場合は、選択必須ルールに基づいて生成されることになった特徴量であることを示す。また、「B」、「W」の順で表示されている場合は、ブラックリストルールに基づいて一旦削除されたが、ホワイトリストルールで復活した特徴量であることを示す。何も表示されていない場合は、どのルールも適用されることなく、生成された特徴量であることを示す。適用ルール表示領域74を設けることで、特徴量を新たに生成する際に適用されたルールを表示できるので、生成された特徴量を使用者が簡単に理解できる。
【0116】
物理量表示領域75は、特徴量の単位を表示する領域である。演算によって得られた単位が、その特徴量と関連した状態で表示される。このように、新たに生成された特徴量の単位を表示できるので、生成された特徴量を使用者が簡単に理解できる。
【0117】
(予測モデルの生成)
図2に示す予測モデル生成部14は、ルール記憶部30に記憶された定型ルール及び追加ルールに基づいて、複数の特徴量から目的変数を予測するための予測モデルを生成する。上述したように、図8に示すフローチャートのステップSC6で出力される複数の特徴量は、定型ルール及び追加ルールに基づいて生成されたものである。予測モデル生成部14では、ステップSC6で出力される複数の特徴量から予測モデルを生成することができる。予測モデルは、例えば重回帰分析や決定木によって作ることができる。その生成手法については様々あるが、いずれも従来から知られた手法を用いることができる。
【0118】
(実施形態の作用効果)
以上説明したように、この実施形態によれば、分析対象データが入力されると、その分析対象データに含まれる複数の特徴量がモニタ3に一覧表示され、一覧表示された各特徴量に対して使用者がメタ情報を付与することができる。
【0119】
メタ情報を付与した後、予測モデル生成部14は、定型ルール及び追加ルールに基づいて、複数の特徴量から目的変数を予測するための予測モデルを生成する。定型ルールによれば、例えば加算、減算、乗算、除算等の演算により、特徴量単体又は複数の特徴量を組み合わせて新たな特徴量が生成されるが、定型ルールに該当していても、メタ情報にしたがって、新たな特徴量として生成する演算を行う場合と、行わない場合とが追加ルールによって定められる。
【0120】
つまり、使用者が入力したメタ情報が新たな特徴量の生成可否に反映されるので、生成される特徴量が効果的に絞り込まれることになり、目的変数と無関係な特徴量の生成が抑制される。これにより、特徴量の生成に要する時間、及び特徴量の選択に要する時間が短くなる。
【0121】
また、特徴量を生成しても効果が低いものを複数のメタ情報に基づいてブラックリストルール化することができ、ブラックリストルールに適合する場合には、新たな特徴量を生成する演算を行わないので、特徴量の演算効率が向上する。
【0122】
また、効果の高い特徴量を複数の補足情報に基づいてホワイトリストルール化することができ、ホワイトリストルールに適合する場合には、新たな特徴量を生成する演算を行うので、生成される特徴量をより一層効果的に絞り込むことができる。
【0123】
また、選択必須ルールを追加することで、例えば、使用者が重要であると考えていた特徴量から効果の高い新たな特徴量を生成することができる。
【0124】
上述の実施形態はあらゆる点で単なる例示に過ぎず、限定的に解釈してはならない。さらに、特許請求の範囲の均等範囲に属する変形や変更は、全て本発明の範囲内のものである。
【産業上の利用可能性】
【0125】
以上説明したように、本発明に係るデータ分析装置及びデータ分析方法は、大量の情報の中からこれまで未知であった有用な知見を得ようと試みる場合に使用することができる。
【符号の説明】
【0126】
1 データ分析装置
3 モニタ(表示部)
3a 表示制御部
11 主制御部
12 データ入力部
13 補足情報付与部
14 予測モデル生成部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15