(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023127957
(43)【公開日】2023-09-14
(54)【発明の名称】予測器作成支援システム及び予測器作成支援方法
(51)【国際特許分類】
G06Q 10/04 20230101AFI20230907BHJP
【FI】
G06Q10/04
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022031957
(22)【出願日】2022-03-02
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110000279
【氏名又は名称】弁理士法人ウィルフォート国際特許事務所
(72)【発明者】
【氏名】濱本 真生
(72)【発明者】
【氏名】難波 博之
(72)【発明者】
【氏名】恵木 正史
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049AA04
(57)【要約】
【課題】予測器による予測で使用されている予測式の妥当性を判断することが可能な予測器作成支援システムを提供する。
【解決手段】、予測器作成部110は、予測対象データ11に基づく対象予測器と、検証用データ12に基づく検証用予測器とを作成する。成分分解部120は、対象予測器を、予測対象データ11に含まれる第1の説明変数の組み合わせのそれぞれに対応する複数の第1の成分に分解し、検証用予測器を、検証用データ12に含まれる第2の説明変数の組み合わせのそれぞれに対応する複数の第1の成分に分解する。妥当性分析部130は、互いに対応する第1の成分及び第2の成分ごとに、第1の成分と第2の成分との一致度を評価した妥当性分析情報131を生成する。予測式推定部は、妥当性分析情報131に応じて選択された選択成分に基づいて、対象予測器の予測式を推定する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
予測器の作成を支援する予測器作成支援システムであって、
第1のデータセットに基づく第1の予測器と、第2のデータセットに基づく第2の予測器とを作成する予測器作成部と、
前記第1の予測器を、前記第1のデータセットに含まれる第1の説明変数の組み合わせのそれぞれに対応する複数の第1の成分に分解し、かつ、前記第2の予測器を、前記第2のデータセットに含まれる第2の説明変数の組み合わせのそれぞれに対応する複数の第2の成分に分解する成分分解部と、
互いに対応する前記第1の成分及び前記第2の成分ごとに、前記第1の成分と前記第2の成分との一致度を評価した評価情報を生成する評価部と、
前記評価情報に応じて選択された前記第1の成分である選択成分に基づいて、前記第1の予測器による予測に使用されている予測式を推定する予測式推定部と、を有する予測器作成支援システム。
【請求項2】
前記評価情報を提示し、前記評価情報に応じて指定された前記第1の成分を前記選択成分として選択する成分選択部をさらに有する、請求項1に記載の予測器作成支援システム。
【請求項3】
前記評価部は、前記第1の成分及び前記第2の成分の特性の傾向を求め、当該傾向に基づいて、前記評価情報を生成する、請求項1に記載の予測器作成支援システム。
【請求項4】
前記評価部は、前記第1の成分及び前記第2の成分の特性の傾向が一致しているか否かを示す前記評価情報を生成する、請求項3に記載の予測器作成支援システム。
【請求項5】
前記評価部は、前記第1の成分及び前記第2の成分のそれぞれに対して、予め用意された複数の関数を用いてパラメータフィッティングを行って、前記第1の成分及び前記第2の成分のそれぞれを表す成分関数を求め、当該成分関数に基づいて、前記特性の傾向を求める、請求項3に記載の予測器作成支援システム。
【請求項6】
前記評価部は、前記第1の成分及び前記第2の成分の相関係数に基づいて、前記評価情報を生成する、請求項1に記載の予測器作成支援システム。
【請求項7】
前記成分分解部は、前記第1の説明変数の定義域と前記第2の説明変数の定義域とに応じた定義域の第3の説明変数を有する第3のデータセットに基づいて、前記第1の成分及び前記第2の成分に分解する、請求項1に記載の予測器作成支援システム。
【請求項8】
前記予測器作成部は、前記第2のデータセットに含まれる変数から前記第1の説明変数に対応する変数を指定する指定情報を受け付け、当該指定情報にて指定された変数を前記第2の説明変数とする、請求項1に記載の予測器作成支援システム。
【請求項9】
前記評価部は、各第1の成分について前記第1の予測器による予測値に対する影響度を算出し、
前記成分選択部は、前記影響度に応じた表示形式で前記評価情報を提示する、請求項2に記載の予測器作成支援システム。
【請求項10】
予測器の作成を支援する予測器作成支援システムによる予測器作成支援方法であって、
第1のデータセットに基づく第1の予測器と、第2のデータセットに基づく第2の予測器とを作成し、
前記第1の予測器を、前記第1のデータセットに含まれる第1の説明変数の組み合わせのそれぞれに対応する複数の第1の成分に分解し、かつ、前記第2の予測器を、前記第2のデータセットに含まれる第2の説明変数の組み合わせのそれぞれに対応する複数の第2の成分に分解し、
互いに対応する前記第1の成分及び前記第2の成分ごとに、前記第1の成分と前記第2の成分との一致度を評価した評価情報を生成し、
前記評価情報に応じて選択された前記第1の成分である選択成分に基づいて、前記第1の予測器による予測に使用されている予測式を推定する、予測器作成支援システム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、予測器作成支援システム及び予測器作成支援方法に関する。
【背景技術】
【0002】
近年、人工知能(AI:Artificial Intelligence)技術が様々な業務に応用されている。例えば、実験で得られたデータセットを機械学習して生成した予測器を用いて新材料の最適な配合が探索されたり、社会における最適な施策が探索されたりしている。このような予測器で使用されている規則を表す予測式は、複雑な事象に潜む法則に関する形式知として有用である。
【0003】
非特許文献1及び特許文献1には、予測器の生成に使用したデータセットから予測式を算出する技術が開示されている。非特許文献1に記載の技術では、データセットを予測値に対する主効果の成分と交互効果の成分とに分解し、各成分を表す3次スプライン関数のような一般化加法モデルが予測式として算出される。また、特許文献1に記載の技術では、ニューラルネットがデータセットから学習した規則を、利用者にて解釈可能な決定木モデルに変換して予測式として算出する技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【非特許文献】
【0005】
【非特許文献1】Yin Lou, Rich Caruana, Johannes Gehrke, Giles Hooker,「Accurate Intelligible Models which Pairwise Interactions」,Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining(KDD’13), 2013年8月.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、非特許文献1及び特許文献1に記載の技術では、データセットのデータ量が十分でない場合、機械学習により生成された予測器に不備が生じたり、データセット自体のノイズの影響を強く受けたりすることがある。このような場合には、算出された予測式の妥当性が判断できないことがある。
【0007】
本発明の目的は、予測器による予測で使用されている予測式の妥当性を判断することが可能な予測器作成支援システム及び予測器作成支援方法を提供することである。
【課題を解決するための手段】
【0008】
本開示の一態様に従う予測式作成支援システムは、予測器の作成を支援する予測器作成支援システムであって、第1のデータセットに基づく第1の予測器と、第2のデータセットに基づく第2の予測器とを作成する予測器作成部と、前記第1の予測器を、前記第1のデータセットに含まれる第1の説明変数の組み合わせのそれぞれに対応する複数の第1の成分に分解し、かつ、前記第2の予測器を、前記第2のデータセットに含まれる第2の説明変数の組み合わせのそれぞれに対応する複数の第2の成分に分解する成分分解部と、互いに対応する前記第1の成分及び前記第2の成分ごとに、前記第1の成分と前記第2の成分との一致度を評価した評価情報を生成する評価部と、前記評価情報に応じて選択された前記第1の成分である選択成分に基づいて、前記第1の予測器による予測に使用されている予測式を推定する予測式推定部と、を有する。
【発明の効果】
【0009】
本発明によれば、予測器による予測で使用されている予測式の妥当性を判断することが可能になる。
【図面の簡単な説明】
【0010】
【
図1】本開示の実施例に係る予測式作成支援システムの構成例を示す図である。
【
図3】関数テンプレートテーブルの一例を示す図である。
【
図4】探索用関数テンプレートテーブルの一例を示す図である。
【
図5】予測式作成支援システムの動作の例を説明するためのフローチャートである。
【
図7】成分傾向分析処理の一例を説明するためのフローチャートである。
【
図8】成分分解用データセットを生成する一例を説明するための図である。
【
図9】成分データ管理テーブルの一例を示す図である。
【
図10】傾向分析処理の一例を説明するための図である。
【発明を実施するための形態】
【0011】
以下、本開示の実施例について図面を参照して説明する。
【実施例0012】
図1は、本開示の実施例に係る予測式作成支援システムの構成例を示す図である。なお、予測式作成支援システム10は、例えば、プロセッサ(コンピュータ)及びメモリ(共に図示せず)を備えたコンピュータシステムにより構成される。この場合、以下で各構成要素及び各機能の少なくとも一部は、例えば、プロセッサがプログラムを読み取り、その読み取ったプログラムを実行することで実現される。プログラムは、メモリのようなコンピュータにて読み取り可能な記録媒体に記録可能である。また、予測式作成支援システム10は、キーボード、タッチパネル及びポインティングデバイスのような利用者から種々の情報を受け付ける入力装置、ディスプレイ装置及びプリンタのような利用者に対して種々の情報を出力する出力装置、及び、インターネットなどの通信網を介して種々の情報の送受信を行うネットワークインタフェース装置などと接続されてもよい。
【0013】
図1に示す予測式作成支援システム10は、データ読込み部100と、予測器作成部110と、成分分解部120と、妥当性分析部130と、成分選択部140と、予測式探索部150と、予測式作成部160と、残差生成部170とを有する。
【0014】
データ読込み部100は、予測対象データ11及び検証用データ12を読み込み、その読み込んだ予測対象データ11及び検証用データ12のそれぞれについて、説明変数と目的変数とを選択する。また、データ読込み部100は、予測対象データ11の説明変数及び目的変数と検証用データ12の説明変数及び目的変数との対応関係を定義する。
【0015】
予測対象データ11は、予測器を生成するための第1のデータセットであり、検証用データ12は、予測器で使用される予測式(予測器で使用される規則を表す予測式)の妥当性を検証するための第2のデータセットである。予測対象データ11及び検証用データ12は、本実施例では、説明変数及び目的変数として決定可能な複数の変数を含むデータセットである。なお、検証用データ12は、予測対象データ101の説明変数として選択された変数の少なくとも一部と、予測対象データ101の目的変数として選択された変数とに対応する変数を有するものとする。
【0016】
データ読込み部100は、予測対象データ11の説明変数及び目的変数を予測対象データ101として予測器作成部110及び残差生成部170に出力する。また、データ読込み部100は、検証用データ12の説明変数及び目的変数を、検証用データ102として妥当性分析部130に出力する。
【0017】
予測器作成部110は、予測対象データ101と所定の機械学習モデルとを用いて第1の予測器である対象予測器を作成し、その対象予測器の予測精度を算出する。予測器作成部110は、対象予測器及び予測精度を予測器情報111として成分分解部120に出力する。所定の機械学習モデルは、特に限定されないが、例えば、XGBoost又はニューラルネットワークのような教師あり学習モデルである。
【0018】
成分分解部120は、予測器情報111に基づいて、対象予測器に対する成分分解処理及び成分分析処理を行い、それらの処理結果を成分情報121として妥当性分析部130に出力する。
【0019】
成分分解処理は、対象予測器を、説明変数の組み合わせごとの寄与を示す成分(第1の成分)に加法分解する処理である。成分分解処理を行うアルゴリズムは、特に限定されず、例えば、シャープレイ分解(Shapley decomposition)、functional ANOVA又はGA2Mなどである。
【0020】
ここで、説明変数の組み合わせは、単一の説明変数からなる組み合わせも含む。以下では、単一の説明変数に対応する成分を、主効果成分又は主効果の成分と呼ぶこともあり、複数の説明変数の組み合わせに対応する成分を交互効果成分又は交互効果の成分と呼ぶこともある。また、単一の説明変数に対応する成分を1次の成分、2つの説明変数の組み合わせに対応する成分を2次の成分、3つの説明変数の組み合わせに対応する成分を3次の成分などと呼ぶこともある。
【0021】
成分分析処理は、成分分解処理にて分解された各成分が予測値に与える影響度を算出する処理である。影響度は、後述するように、予測式に反映する成分を利用者が判断するために使用され得る。
【0022】
妥当性分析部130は、成分情報121及び検証用データ102に基づいて、成分情報121に含まれる各成分の妥当性を評価した妥当性分析情報131を生成して成分選択部140に出力する。
【0023】
図2は、妥当性分析部130の構成例を示す図である。
図2に示す妥当性分析部130は、傾向分析部210と、予測器作成部220と、成分分解部230と、傾向分析部240と、傾向比較部250とを有する。予測器作成部220、成分分解部230及び傾向分析部240は、それぞれ予測器作成部110、成分分解部120及び傾向分析部210と同一の構成である。
【0024】
傾向分析部210は、成分情報121に含まれる各成分の特性の傾向を分析し、その傾向を示す傾向情報211を生成して傾向比較部250に出力する。
【0025】
具体的には、傾向分析部210は、先ず、成分情報121に含まれる成分ごとに、その成分と予め用意した複数の関数テンプレートのそれぞれとのフィッティング(パラメータフィッティング)を行い、各成分の特性の傾向を表す関数テンプレートとその関数テンプレートの係数(パラメータ)とで定義される成分関数を求める。続いて、傾向分析部210は、成分関数に基づいて、各成分の特性の傾向として、詳細傾向と概略傾向とを示す傾向情報211を生成する。概略傾向は、詳細傾向と比べて巨視的な視点における特性の傾向を示す情報であり、本実施例では、成分関数が増加傾向か減少傾向かを示す増減傾向である。複数の関数テンプレートは、本実施例では、関数テンプレートテーブルとして傾向分析部210に予め保持されている。
【0026】
図3は、関数テンプレートテーブルの一例を示す図である。
図3に示す関数テンプレートテーブル300は、フィールド310~350を有する。
【0027】
フィールド310は、関数テンプレートを識別するための識別情報であるテンプレートIDを格納する。フィールド320は、関数テンプレートを格納する。例えば、テンプレートIDが「T1」の関数テンプレートは「a*X+b」であり、a及びbが係数である。フィールド330は、成分関数の係数から傾向情報を判定するための判定条件を格納する。フィールド340は、判定条件に応じた詳細傾向を格納する。フィールド350は、判定条件に応じた概略傾向である増減傾向を格納する
【0028】
分析対象の成分の説明変数をXとした場合、分析対象の成分のデータとの誤差が最も小さくなる係数を求める処理がフィッティングと呼ばれる処理である。傾向分析部210は、上記の誤差が最も小さくなる関数テンプレート及びその係数を成分関数として求め、その計数と判定条件とに基づいて、詳細傾向及び増減傾向を求める
【0029】
なお、詳細傾向は、例えば、線形的に増加する「線形増加」、線形的に減少する「線形減少」、0に収束する「減衰」、0以外の所定の値に収束する「飽和」、線形よりも速い速度で正の値に発散する「正に発散」、線形よりも速い速度で負の値に発散する「負に発散」などを示す。
【0030】
図2の説明に戻る。予測器作成部220は、検証用データ102と所定の機械学習モデルを用いて第2の予測器である検証用予測器を作成し、その検証用予測器の予測精度を算出する。予測器作成部220は作成した検証用予測器及び予測精度を予測器情報221として成分分解部230に出力する。所定の機械学習モデルは、予測器作成部110が対象予測器を作成した際に使用した機械学習モデルと同じである。
【0031】
成分分解部230は、予測器情報221に基づいて、検証用予測器に対する成分分解処理及び成分分析処理を行い、それらの処理結果を成分情報231として傾向分析部240に出力する。
【0032】
傾向分析部240は、成分情報231に含まれる各成分の特性の傾向を分析し、その傾向を示す傾向情報241を生成して傾向比較部250に出力する。
【0033】
傾向比較部250は、傾向情報211及び傾向情報241に含まれる各成分の特性の傾向を比較し、各成分の特性の一致度を各成分の一致度として評価し、その評価結果を示す評価情報を妥当性分析情報131として生成して成分選択部140に出力する。なお、傾向分析部210、240及び傾向比較部250は、各成分の一致度を評価した評価情報を生成する評価部を構成する。
【0034】
図1の説明に戻る。成分選択部140は、妥当性分析情報131を可視化した分析可視化情報141を生成して利用者に提示する。また、成分選択部140は、利用者から、分析可視化情報141に応じて、対象予測器の予測式の推定に反映する成分である予測式対象成分を指定する成分選択情報103を受け付け、その成分選択情報103に基づいて、予測式対象成分を選択する。成分選択部140は、予測式対象成分を示す選択成分情報142を生成して予測式探索部150に出力する。
【0035】
予測式探索部150及び予測式作成部160は、選択成分情報142に含まれる予測式対象成分に基づいて、対象予測器よる予測に使用されている予測式を推定する予測式推定部を構成する。
【0036】
予測式探索部150は、選択成分情報142に含まれる予測式対象成分ごとに、その予測式対象成分と予め用意した複数の探索用関数テンプレートのそれぞれとのフィッティングを行い、各予測式対象成分を表す予測式を部分予測式として求める。予測式探索部150は、その部分予測式を示す部分予測式情報151を生成して予測式作成部160に出力する。複数の探索用関数テンプレートは、本実施例では、探索用関数テンプレートテーブルとして予測式探索部150に予め保持されている。
【0037】
図4は、探索用関数テンプレートテーブル400の一例を示す図である。
図4に示す探索用関数テンプレートテーブル400は、フィールド410~420を有する。フィールド410は、探索用関数テンプレートを識別するための識別情報であるテンプレートIDを格納する。フィールド420は、探索用関数テンプレートを格納する。予測式探索部150は、傾向分析部210と同様に、選択成分情報142に含まれる予測式対象成分ごとにフィッティングを行い、誤差が最も小さくなる探索用関数テンプレート及びその係数を部分予測式として求める。
【0038】
図1の説明に戻る。予測式作成部160は、部分予測式情報151に基づいて、対象予測器よる予測に使用されている予測式を推定した推定予測式を生成し、その推定予測式を示す予測式情報161を残差生成部170に出力する。具体的には、予測式作成部160は、部分予測式情報151が生成されるたびに、部分予測式情報151にて示される部分予測式を加算することで、推定予測式を生成する。つまり、予測式作成部160は、今まで得られた推定予測式に新たに生成された部分予測式情報151にて示される部分予測式を加えることで、推定予測式を生成(更新)する。
【0039】
残差生成部170は、予測対象データ101の目的変数と予測式情報161の予測値との差分である予測残差を算出し、その予測残差を示す残差情報711を、新たな目的変数として予測器作成部110に出力する。
【0040】
図5は、予測式作成支援システム10の動作例を説明するためのフローチャートである。
先ず、データ読込み部100は、利用者からの指示に応じて、予測対象データ11及び検証用データ12の読み込みと、予測対象データ11及び検証用データ12のそれぞれにおける説明変数及び目的変数の決定とを行う(ステップS510)。
【0041】
図6は、ユーザがデータ読込み部100に指示するためのユーザ画面である読込み指示画面の一例を示す図である。
図6に示す読込み指示画面600は、予測対象データ設定部610、検証用データ設定部620、検証用データ追加部630及び分析実行トリガ640を含む。
【0042】
予測対象データ設定部610は、予測対象データ11に対する目的変数、説明変数及び分析次数を設定する設定部であり、ファイル選択部611、ファイル名表示部612、変数名表示部613、目的変数設定部614、説明変数設定部615、分析次数設定部616及び説明変数選択ボタン617を含む。
【0043】
ファイル選択部611は、利用者が予測対象データ11を含むファイルを選択するためのインタフェースである。ファイル名表示部612は、ファイル選択部611にて選択されたファイルのファイル名を表示する。変数名表示部613は、ファイル選択部611にて選択されたファイルに含まれる予測対象データ11の変数の変数名を表示する。
【0044】
目的変数設定部614は、変数名表示部613にて変数名の変数から目的変数を設定するためのインタフェースであり、ここでは、変数名が表示させているセルが操作(例えば、クリック)されることでその変数名の変数が目的変数として設定される。図の例では、変数x4が目的変数として設定されている。
【0045】
説明変数設定部615は、変数名表示部613にて変数名の変数から説明変数を設定するためのインタフェースである。なお、目的変数が選択された状態で説明変数選択ボタン617が操作されると、目的変数以外の変数が自動的に説明変数として設定されて説明変数設定部615に反映されてもよい。また、当然ながら、利用者が説明変数設定部615を直接操作することで、任意の説明変数を設定できる。分析次数設定部616は、予測対象データについて各成分の分析次数を設定するインタフェースである。分析次数は、成分を分析する最大の次数である。
【0046】
検証用データ設定部620は、その検証用データ12に対する目的変数、説明変数及び分析次数を設定する設定部であり、ファイル選択部621、ファイル名表示部622、変数名表示部623、対応変数設定部624、説明変数設定部625、分析次数設定部626及び説明変数選択ボタン627を含む。なお、検証用データ設定部620は、検証用データ12ごとに設けられる。
【0047】
ファイル選択部621は、利用者が検証用データ12を含むファイルを選択するためのインタフェースである。ファイル名表示部622は、ファイル選択部621にて選択されたファイルのファイル名を表示する。変数名表示部623は、ファイル選択部621にて選択されたファイルに含まれる検証用データ12の変数の変数名を表示する。
【0048】
対応変数設定部624は、変数名表示部623に表示された検証用データ12の各変数と対応する変数名表示部623に表示された予測対象データ11の変数である対応変数を設定するためのインタフェースである。対応変数がない場合、その変数に対応するセルは空欄となる
【0049】
説明変数設定部615は、変数名表示部623にて変数名の変数から説明変数を設定するためのインタフェースである。なお、対応変数が選択された状態で説明変数選択ボタン627が操作されると、対応変数として設定された変数が説明変数及び目的変数として自動的に設定されて説明変数設定部625に反映されてもよい。この操作は、検証用データ12の説明変数を予測対象データ11の説明変数の最大部分集合(予測対象データ11の説明変数と対応する説明変数だけで構成される集合)に設定することに相当する。分析次数設定部626は、検証用データについて各成分の分析次数を設定するインタフェースである。
【0050】
なお、一般的に、説明変数の間の相関が大きい場合、予測器にて着目される説明変数は学習過程の初期値に依存して大きく変化するため、予測器の主効果及び交互効果も大きく変化する。このため、予測対象データの各成分を検証するための検証用データの説明変数は必要最小限であることが好ましく、検証用データの説明変数を予測対象データの説明変数の最大部分集合に設定することで実現される。
【0051】
検証用データ追加部630は、新たな検証用データを追加するためのインタフェースである。検証用データ追加部630が操作されると、検証用データのファイルが新たに読み込まれて、新たな検証用データ設定部620が作成される。
【0052】
分析実行トリガ640は、分析実行を開始するための開始ボタンであり、操作されると、以下のステップS511以降で説明する、読込み指示画面600にて設定された情報を使用した分析処理が開始される。なお、以降の処理では、検証用データ12の変数名は、対応変数設定部624で対応付けられた予測対象データ11の変数名と統一される。
【0053】
図5の説明に戻る。予測器作成部110及び成分分解部120は、予測対象データ11に対する成分傾向分析処理を実行する(ステップS511)。
【0054】
図7は、成分傾向分析処理の一例を説明するためのフローチャートである。
【0055】
成分傾向分析処理では、先ず、予測器作成部110は、予測対象データ11と所定の機械学習モデルとに基づいて、ステップS510で設定された説明変数から目的変数を予測する対象予測器を作成し、その対象予測器の予測精度を評価する(ステップS710)。
【0056】
予測精度の評価では、予測器作成部110は、5フォールド交叉検証を用いて予測対象データ11を学習用データと精度評価用データに分割することで、全データで学習した予測器の予測精度を評価してもよい。予測精度は、例えば、回帰問題では予測誤差又は決定係数であり、分類問題では正解率などである。予測精度は、予測器が適切に学習できているかを判断する指標となるため、予測式作成処理を終了するか否かを判断するために使用することができる。
【0057】
成分分解部120は、予測器作成部110にて作成された予測器を予測対象データ11の各説明変数の主効果の成分と交互効果の成分に加法分解する成分分解処理を行う(ステップS711)。より具体的には、成分分解部120は、説明変数X={x1,x2,...,xn}を入力とする予測器M(X)を次の式(1)のように説明変数Xの級数で展開する。
M(X)=F0+ΣFi(xi)+ΣFi,j(xi,xj)+ΣFi,j,k(xi,xj,xk)+... (1)
【0058】
式(1)の右辺の第1項F0は、0次の作用(定数)の成分を示す。式(1)の右辺の第2項Fi(xi)は、説明変数xiが予測値に与える1次の作用(主効果)の成分を示す。式(1)の右辺の第3項のFi,j(xi,xj)は説明変数xiとxj(ただし、i≠j)は、予測値に与える2次の作用(2次の交互効果)の成分を示す。式(1)の右辺の第3項以降も同様の規則で分解される。なお、i={1,2,...,n}、j={1,2,...,n}である。
【0059】
予測器作成部110は、
図6の分析次数設定部616に設定された分析次数の項まで、対象予測器に対する成分分解処理を行う。なお、一般的に、低次の作用の方が予測値に対して強い影響を与えるため、3次以降の作用は必要ないことが多い。
【0060】
成分分解処理を行うアルゴリズムは、一般的に、複数の入力データを予測器に入力し、その入力データと予測器の予測値との関係を統計的に分析することで成分分解処理を行う。本実施例のように、同一の基準で2つ以上の予測器を加法分解し各成分を比較するには、それらの予測器に入力する入力データの分布、つまり対象データと検証用データとの間で共通する説明変数の分布が同一であることが好ましい。しかしながら、一般的に予測対象データ11と検証用データ12の間の説明変数のデータ分布は互いに異なる。そこで、本実施例では、予測器作成部110は、予測対象データ11及び検証用データ12に基づいて、予測器に対する成分分解処理を行う第3のデータセットである成分分解用データセットを生成し、その成分分解用データセットを用いて成分分解処理を行う。
【0061】
図8は、成分分解用データセットを生成する一例を説明するための図である。
図8では、予測対象データの説明変数x
1について、第1の検証用データ(図では、検証用データ1と表記)、第2の検証用データ(図では、検証用データ2と表記)で共通するデータセットを成分分解用データセットとして生成する例が示されている。
【0062】
成分分解部120は、先ず、予測対象データ、第1の検証用データ及び第2の検証用データのそれぞれについて説明変数x1の最小値を検出し、それらの最小値の中で最大の値を、成分分解用データセットの説明変数x1の最小値810(x1min)として設定する。また、成分分解部120は、予測対象データ、第1の検証用データ及び第2の検証用データのそれぞれについて説明変数x1の最大値を検出し、それらの最大値の中で最小の値を、成分分解用データセットの説明変数x1の最大値820(x1max)として設定する。そして、成分分解部120は、最小値810(x1min)から最大値820(x1max)までの範囲である定義域830に含まれる複数の値を、成分分解用データセットの説明変数x1の値としてランダムに生成する。成分分解用データセットの数は、特に限定されないが、例えば、1000個以上である。
【0063】
なお、説明変数x1について予測対象データと第1の検証用データ及び第2の検証用データとの間で重なる定義域が存在しない場合、成分分解部120は、予測対象データの説明変数x1の定義域を成分分解用データセットの説明変数x1の定義域830として決定する。また、説明変数x1が予測対象データにしか含まれない場合、成分分解部120は、定義域830を予測対象データの説明変数x1の定義域と同一とする。また、成分分解部120は、説明変数x1が第1の検証用データ及び第2の検証用データの片方のみに含まれる場合、その検証用データの定義域を定義域830とし、説明変数x1が第1の検証用データ及び第2の検証用データの両方のみに含まれる場合、第1の検証用データ及び第2の検証用データの定義域の重複部分を定義域830とする。
【0064】
成分分解部120は、上記の処理を全ての説明変数に対して行うことで、成分分解用データセットの各説明変数を得ることができる。また、成分分解用データセットを用いた成分分解処理は、特にシャープレイ分解のような、予測器への入力データの分布が異なるとき、成分分解後の各成分の特性が大きく変化することがあるアルゴリズムに対して、極めて有効である。
【0065】
図7の説明に戻る。成分分解部120は、ステップS711の成分分解処理にて得られた各成分について予測値に対する影響度を算出する成分分析処理を行う(ステップS712)。
【0066】
本実施例では、影響度は、下記の平均絶対値和を用いて算出される。例えば、説明変数xiに対する、0次の成分F0の影響度I0、1次の成分Fiの影響度指数Ii及び2次の成分Fi,jの影響度指数Ii,jは、式(2)~式(4)のように算出することができる。
I0=F0 (1)
Ii=Σd|Fi(xi,d)|/N (2)
Ii,j=Σd|Fi,j(xi,j,d)|/N (3)
ここで、dは、成分分解用データセットに含まれるデータの識別番号である。Nは、成分分解用データセットに含まれるデータの数である。3次以降の高次成分についても同様に計算することができる。影響度が大きいほど、その成分が予測器において重要な要素であることを示す。
【0067】
成分分解部120は、成分分析処理の分析結果を整理して管理してもよい。
【0068】
図9は、成分分析処理の分析結果を整理した成分データ管理テーブルの一例を示す図である。
図1に示す成分データ管理テーブル900は、データセット管理テーブル910と分析結果管理テーブル920とを含む。
【0069】
データセット管理テーブル910は、ステップS510にて読み込まれたデータセット(予測対象データ11及び検証用データ12)を管理するための情報であり、フィールド911~914を含む。
【0070】
フィールド911は、データセットの名称を示すデータセット名を格納する。フィールド912は、データセットが予測対象データ及び検証用データのどちらであるかを示すデータ属性を格納する。フィールド913は、データセットを識別するための識別情報であるデータセットIDを格納する。データセットIDは、例えば、予測式作成支援システム10にて自動的に付与される。フィールド914は、ステップS710~S712の処理で得られた分析結果を識別する識別情報である分析結果IDを格納する。
【0071】
分析結果管理テーブル920は、各データセットに対する分析結果を管理するための情報であり、フィールド921~925を含む。分析結果管理テーブル920は、分析結果IDごとに設定される。
【0072】
フィールド921は、全体(予測器全体)又は各成分の次数を示す成分属性を格納する。フィールド922は、成分属性が「全体」の場合に、ステップS710で算出された予測器の予測精度を格納する。
図9の例では、予測精度は決定係数である。決定係数は、正解値の平均値を予測値とした場合と比較して、予測器で実際に得られた予測値がどれだけ優位かを示す指標であるため、予測誤差よりも予測器がデータから規則を適切に学べているか否かを示す指標として好ましい。
【0073】
フィールド923は、各成分の次数単位の影響度である次数レベル影響度を格納する。次数レベル影響度は、該当次数における、全ての説明変数の組み合わせの影響度の平均値であり、例えば、1次の成分の場合、次数レベル影響度は、ステップS712の処理で算出された成分F1~Fnの影響度I1~Inの平均値である。
【0074】
フィールド924は、ステップS712の処理で算出された各成分の影響度を格納する。フィールド925は、各成分を識別する識別情報である成分データIDを格納する。
図9の例では、分析結果IDが「A1」の分析結果管理テーブルの例を示しているため、成分データIDは、全て「A1」から始まる記号で記述されている。
【0075】
図7の説明に戻る。妥当性分析部130の傾向分析部210は、ステップS711の成分分解処理で得られた各成分の特性の傾向を分析し、成分ごとの傾向情報を生成する傾向分析処理を行い(ステップS713)、成分傾向分析処理を終了する。
【0076】
図10は、傾向分析処理の一例を説明するための図である。
図10では、予測器Mに対する説明変数x
1及びx
2の交互効果の成分(F
1,2(x
1,x
2))の説明変数x
1に関する傾向を推定する例が示されている。
【0077】
図10に示すプロット1010は、予測器Mの予測値に対する成分F
1,2(x
1,x
2)の貢献度を、説明変数x
1を横軸としてプロットしたものであり、成分交互効果F
1,2(x
1,x
2)の説明変数x
1に関するデペンデンスプロット(Dependence plot)と呼ばれる。なお、貢献度は、成分分解を行うアルゴリズムにて算出される値である。
【0078】
交互効果の成分の傾向は、注目する説明変数である注目変数(ここでは、説明変数x1)の対となる説明変数(ここでは、説明変数x2)の値に応じて変化するため、傾向分析部210は、対となる説明変数が所定の閾値(図では、th2_x2と表記)よりも大きいときの傾向を注目変数に関する傾向情報として取得する。つまり、傾向分析部210は、プロット1010において、x2>th2_x2を満たすデータ(図では、黒丸として表示)のみを対象として関数テンプレートを用いてフィッティングを行うことで傾向情報を算出する。
【0079】
図10に示す結果テーブル1020は、フィッティングによって得られる傾向分析処理の結果を示す。結果テーブル1020は、フィールド1021~1026を有する。
【0080】
フィールド1021は、テンプレートIDを格納する。フィールド1022は、関数テンプレートを格納する。フィールド1023は、フィッティングにて得られた係数である最適係数を格納する。フィールド1024は、最適係数を関数テンプレートに適用した場合に、分析対象の成分データとの誤差の程度を示す誤差情報を格納する。誤差情報は、
図10の例では、RMSE(Root Mean Square Error)である。フィールド1025は、詳細傾向を格納し、フィールド1026は、増減傾向を格納する。
【0081】
傾向分析部210は、関数テンプレートテーブル300に含まれる全ての関数テンプレートに対してフィッティングを行い、誤差が最も小さい関数テンプレートとその関数テンプレートの係数とで定義される成分関数の傾向を、成分の特性の傾向として求める。ここでは、交互効果の成分F1,2(x1,x2)のx1に関する詳細傾向は「飽和」あり、増減傾向は「増加」を示す。
【0082】
交互効果の成分(F1,2(x1,x2))の説明変数x2に関する傾向についても同様の方法で算出することができる。また、3次以降の高次の成分についても同様に、注目変数以外の説明変数が所定の閾値よりも大きいデータのみに対象にしてフィッティングを行うことで、注目する説明変数に関する傾向を算出することが可能になる。なお、所定の閾値は、利用者にて設定されてもよいし、傾向分析部210にて自動的に設定されてもよい。傾向分析部210は、具体的には、注目変数以外の説明変数の最大値と最小値との関係から閾値を設定する。例えば、説明変数x2に対する閾値th2_x2を算出する場合、傾向分析部210は、説明変数x2の最大値x2max及び最小値x2minを用いて、閾値th2_x2を式(5)のように算出する。なお、式(5)において、Aは定数であり、例えば、0.9などである。
th2_x2=(x2max―x2min)*A+x2min (5)
【0083】
図5の説明に戻る。傾向分析部210は、成分分解部120にて管理されている成分データ管理テーブル900を参照して、対象予測器の予測精度を利用者に提示し、その後、利用者から処理を終了するか否かを示す入力情報を受け付ける。傾向分析部210は、その入力情報を確認して、処理を終了するか否かを判断する(ステップS512)。なお、利用者は予測精度に基づいて処理を終了するか否かを判断するため、予測精度は決定係数であることが好ましい。このとき、決定係数が所定値(例えば、0.1)以下の場合、傾向分析部210は、予測器から有意な予測式を取り出すことは困難であると判断して、利用者に対して処理の終了を促してもよい。
【0084】
処理を終了しないと判断した場合(ステップS512:No)、妥当性分析部130は、検証用データ102のいずれかについて、ステップS710~S713の成分傾向分析処理と同等な処理を実行して、成分データ管理テーブル900を更新し、検証用データ102の傾向情報241を生成する(ステップS520)。なお、検証用データ102については、ステップS710に対応する処理は予測器作成部220で実行され、ステップS711及びステップS712に対応する処理は成分分解部230で実行され、ステップS713に対応する処理は傾向分析部240で実行される。
【0085】
続いて、妥当性分析部130は、全ての検証用データについて成分傾向分析処理を実行したか否かを判断する(ステップS521)。全ての検証用データについて成分傾向分析処理を実行していない場合(ステップS521:No)、妥当性分析部130は、ステップS520の処理に戻る。
【0086】
全ての検証用データについて成分傾向分析処理を実行した場合(ステップS521:Yes)、傾向比較部250は、傾向情報211及び傾向情報241に含まれる各成分の特性の傾向を比較して、各成分の特性の一致の度合いを各成分の一致の度合いとして評価し、その評価結果を示す評価情報を妥当性分析情報131として生成して成分選択部140に出力する(ステップS540)。
【0087】
図11は、妥当性分析情報131の一例である傾向比較情報1100示す図である。
図11に示す傾向比較情報1100は、フィールド1110~1170を含む。
【0088】
フィールド1110は、成分の名称を示す成分名を格納する。フィールド1120は、当該成分における予測対象データ101の詳細傾向である予測対象データ傾向を格納する。フィールド1130は、当該成分における検証用データ102の詳細傾向である検証用データ傾向を格納する。フィールド1140は、予測対象データ101の各成分と各検証用データ102の各成分の相関係数である相関情報を格納する。なお、全ての検証用データ102について対象の成分が存在しなかった場合、その成分のフィールドは空欄又は「情報なし」となる。
【0089】
フィールド1150は、予測対象データ101の各成分の傾向と各検証用データ102の各成分の傾向が一致しているか否かを示す一致判定結果を格納する。ここでは、一致判定結果は、増減傾向が一致しているか否かを示すが、その例に限定されない。例えば、一致判定情報は、相関係数の値が閾値よりも大きい場合に、「一致」を示し、相関係数の値が閾値未満の場合、「不一致」を示してもよい。また、一致判定結果は、詳細結果が一致しているか否かを示してもよい。また、一致判定結果は、これらの組み合わせなどでもよい。
【0090】
フィールド1160は、各成分を識別する識別情報である成分データIDを格納する。フィールド1170は、データセットIDを格納する。
【0091】
傾向比較情報1100は、予測対象データ101と検証用データ102の各成分の一致度を整理した情報であり、利用者がドメイン知識に基づいて各成分の妥当性を判断することを支援できる情報である。
【0092】
図5の説明に戻る。成分選択部140は、成分データ管理テーブル900及び傾向比較情報1100を可視化した分析可視化情報141を示すユーザ画面である選択指示画面を利用者に提示する。その後、成分選択部140は、利用者から予測式へ反映する成分を指定する成分選択情報103を受け付け、その成分選択情報103に基づいて、予測式に反映する成分を選択し、選択した成分に関する選択成分情報142を予測式探索部150に出力する(ステップS541)。
【0093】
図12は、選択指示画面の一例を示す図である。
図12に示す選択指示画面1200は、注目成分次数選択部1210、表示方式切り替え部1220、次数レベル影響度表示部1230、成分プロット比較表示部1240及び予測式作成実行トリガ1250を含む。
【0094】
注目成分次数選択部1210は、成分プロット比較表示部1240に表示する成分の次数である注目成分次数を切り替える選択タブであり、
図10では、1次の成分(主効果)と2次の成分(2次の交互効果)に関する情報を二次元配置によって同時に表示する例が示されている。利用者が1次のタブを選択した場合、1次の成分のみの情報が一次元配置によって表示される。注目成分次数選択部1210は、分析次数設定部616に入力された次数分の選択タブが表示される。
【0095】
表示方式切り替え部1220は、注目成分次数の成分の全てに関する情報を表示する全表示と、注目成分次数の成分のうち影響度の高い成分のみを表示する影響度上位表示とを切り替えるインタフェースである。
図12では、全表示が選択されている。影響度上位表示が選択された場合、表示する成分の数の入力を利用者に促し、その入力に応じた数の成分に関する情報が成分プロット比較表示部1240に表示される。
【0096】
図13は、影響度上位表示が選択された選択指示画面の一例を示す図である。
図13に示す選択指示画面1300は、影響度が大きい成分から順に設定値分の成分に関する情報が表示されている。設定値は、例えば、表示方式切り替え部1220に入力された値と成分データ管理テーブル900の成分影響度情報とに基づいて決定される。予測値に大きく影響を与えるのは影響度が大きな成分であるため、影響度が大きな成分のみを表示することで利用者の分析効率を向上させることができる。なお、選択指示画面1300には、影響度が大きな成分に関する情報ほど、上に表示されるようなソート機能などが備わっていてもよい。また、影響度に応じた表示形式で評価情報などの成分に関する情報が表示されるものであれば、これらの例に限定されない。
【0097】
次数レベル影響度表示部1230は、成分データ管理テーブル900の次数レベル影響度を棒グラフにて可視化した表示部であり、分析次数設定部616に入力された分析次数までの次数レベル影響度が表示される。
【0098】
成分プロット比較表示部1240は、成分傾向分析処理の処理結果の一覧をデペンデンスプロット形式で表示する表示部である。図では、成分傾向分析処理の処理結果を、1次と2次の両方の成分のデペンデンスプロットをn×nの格子状に二次元配置する例が示されている。対角線上のデペンデンスプロットは1次の成分(主効果)を示し、それ以外のデペンデンスは縦軸と横軸に示された説明変数による2次の成分(交互効果)を示している。
【0099】
成分プロット比較表示部1240は、成分プロット1241、一致判定情報1242、詳細比較表示部1243及び取り込み成分選択部1244を有する。
【0100】
成分プロット1241は、成分情報121に含まれる注目次数の対象成分のデペンデンスプロットである。成分プロット1241のグラフ枠の色は、対象成分の傾向と一致する検証用データ102が検出されたか否かに応じて異なってもよい。検出されたか否かを容易に判別することができる。
【0101】
一致判定情報1242は、予測対象データの各成分と各検証用データ102の各成分との一致度の対応関係を示す凡例情報であり、本実施例では、「一致」、「不一致」、「両方」及び「情報無し」のいずれかを示す。例えば、一致判定情報1242は、各成分について、予測対象データ11の特性と全ての検証用データ12の特性が一致している場合、「一致」を示し、全ての検証用データ12の特性が一致していない場合、「不一致」を示し、検証用データ12と特性が一致しているもの一致していないものとが含まれる場合、「両方」を示し、検証用データ12に対応する成分が存在しない場合、「情報無し」を示す。
【0102】
これにより、利用者は、例えば、「不一致」又は「情報無し」の成分の影響度が大きい場合に、「不一致」となった原因を分析したり、「情報無し」の成分の特性が妥当であるかを検討したりすることで、必要に応じて追加の調査実験を実施することができる。このように、一致判定情報1242の提示は予測式作成において利用者の行動に関する意思決定を支援することができる。
【0103】
詳細比較表示部1243は、注目成分の傾向比較情報1100を詳細に提示するためのボタンである。詳細比較表示部1243が操作されると、注目成分の詳細な傾向比較情報1100を提示するためのユーザ画面である詳細提示画面が表示される。
【0104】
図14は、詳細提示画面の一例を示す図である。
図14に示す詳細提示画面1400は、対象成分表示部1410、予測対象データ分析結果表示部1420、検証用データ分析結果表示部1430、適用ボタン1440及び戻るボタン1450を含む。
【0105】
対象成分表示部1410は、詳細対象成分を提示する表示部である。
図14の例では、説明変数x1の1次の成分F
1(x
1)の情報が表示されている。
【0106】
予測対象データ分析結果表示部1420は、予測対象データ101の詳細対象成分のデペンデンスプロット、成分の影響度、傾向(詳細傾向)及びコメントを表示する表示部である。コメントは、利用者が編集ボタン1421を操作することで、追加することができる。
【0107】
検証用データ分析結果表示部1430は、各検証用データ102の詳細対象成分について、予測対象データ101と傾向が一致した検証用データ102の成分の事例を表示する一致結果表示部1431と傾向が一致しなかった成分の事例を表示する不一致結果表示部1435を有し、それぞれの事例についてプロット1432と分析結果情報1433を提示する表示部である。
【0108】
プロット1432は、検証用データの詳細対象成分に対応するデペンデンスプロットである。分析結果情報1433は、検証用データ102の詳細対象成分の影響度、傾向(詳細傾向)、相関、一致判定結果、データセット名、データセットID及びコメントを含む。
【0109】
一致結果表示部1431及び不一致結果表示部1435は、ともに編集ボタン1434を有する。利用者が編集ボタン1434を操作することで、コメントの編集及び一致判定結果の修正などができる。
【0110】
一致判定結果は、傾向比較部250にて予測対象データと検証用データについて、対象成分の特性の傾向を比較することで算出されるため、不確実性を含む。このため、上記のように利用者が一致判定結果を修正できるインタフェースを提供することで、より妥当な裏付け情報を備えた予測式を得ることを支援できる。
【0111】
適用ボタン1440は、編集ボタン1434にて編集された編集内容を適用するためのボタンである。適用ボタン1440が操作されると、例えば、一致判定結果が修正された場合、修正結果が選択指示画面1200及び傾向比較情報1100に反映される。戻るボタン1450は、選択指示画面1200に戻るためのボタンである。
【0112】
図12の説明に戻る。取り込み成分選択部1244は、成分プロット比較表示部1240に表示された成分のうち、予測式に反映する成分を指定する成分指定情報を入力するインタフェースである。なお、格子状配置された各成分のうち対称位置にある成分は同一の成分であるため、一方の成分が選択されると、他方の成分も自動的に選択される。
【0113】
予測式作成実行トリガ1250は、取り込み成分選択部1244で選択された成分に基づいて、予測式を作成する予測式作成処理を開始するためのボタンである。
【0114】
図5の説明に戻る。予測式探索部150は、選択成分情報142と探索用関数テンプレートテーブル400とに基づいて、選択成分情報142が示す各予測式対象成分の部分予測式を探索する予測式探索処理を行う。予測式探索部150は、部分予測式を示す部分予測式情報151として予測式作成部160に出力する(ステップS542)。
【0115】
予測式探索処理は、選択成分情報142によって選択された成分情報121の各予測式対象成分を探索用関数テンプレートテーブル400内の各関数テンプレートとフィッティングし、当てはまりの良い関数を部分予測式として算出する処理である。
【0116】
ここでは、当てはまりの良さを示す指標は、誤差の大きさを表す差分二乗和である。以下、説明変数x1とx2に関する2次の成分F1,2(x1,x2)を例にとって、部分予測式を算出する処理を詳細に説明する。
【0117】
予測式探索処理では、予測式探索部150は、成分F1,2(x1,x2)を説明変数x1及びx2のそれぞれに依存する関数Gk(x1)及びGm(x2)の積であると仮定し、式(6)のように成分F1,2(x1,x2)とその積との誤差Lk,mを評価する。
Lk,m=(F1,2(x1,x2)―Gk(x1)*Gm(x2))2 (6)
【0118】
関数Gk及びGmは、それぞれ探索用関数テンプレートテーブル400のk番目の関数テンプレートとm番目の関数テンプレートであり、Lk,mはそれらの関数テンプレートを適用した時の誤差の大きさを表している。このため、誤差Lk,mは、小さいほど当てはまりが良い。例えば、k=1、m=1のときには、誤差L1,1は式(7)のように算出される。
L1,1=(F1,2(x1,x2)―(a1*x1+b1)*(a2*x2+b2))2 (7)
【0119】
ここで、a1、b1、a2、b2は、係数(パラメータ)であり、式(7)の右辺の値を最小化する値を適用することが理想的である。しかしながら、理想的な係数を算出することが困難な場合、係数a1、b1、a2、b2にランダムな値を代入して右辺の値を計算することを所定回数繰り返し、各計算の値のうち最小の値を与える係数が算出されてもよい。この場合、複雑な関数の組み合わせであっても係数の値を得ることができる。
【0120】
このように、探索用関数テンプレートテーブル400にある全ての関数テンプレートの組み合わせについて誤差Lを算出し、誤差Lが最小となる組み合わせの関数を探索することで、説明変数x1とx2に関する2次の成分F1,2に該当する予測式を得ることができる。3次以上の高次成分についても同様に予測式を得ることができる。
【0121】
予測式作成部160は、式(8)に示すように、部分予測式情報151にて示される部分予測式Gをそれまでに生成した予測式Hkに追加することで予測式を予測式Hk+1として更新し、予測式Hk+1を示す予測式情報161を残差生成部170に出力する(ステップS543)。
Hk+1(X)=Hk(X)+G(X) (8)
【0122】
式(8)において、G(X)は、ステップS542で算出された各成分の部分予測式の和である。Hkはk回目の更新によって得られた予測式を示す関数であり、その初期値H0はゼロである。
【0123】
残差生成部170は、式(9)に示すように、予測対象データ101の目的変数Yと予測式情報161にて示される予測式Hk+1(X)の差分を予測残差として算出し、その予測残差を予測対象データ101の新たな目的変数Yk+1として予測器作成部110に出力する(ステップS544)。
Yk+1(X)=Y(X)―Hk+1(X) (9)
【0124】
式(9)において、目的変数Yは、予測対象データ101の目的変数であり、Yk+1はk+1回目の残差生成処理によって更新された目的変数である。
【0125】
ステップS544が終了すると、ここで得られた新たな目的変数データセットYk+1を用いてステップS511の処理が実行される。このように妥当性が確認された成分を段階的に予測式に取り込み、目的変数の予測式の残差について機械学習させることは、影響が大きな規則に隠れた小さな規則を発見することに貢献する。
【0126】
その後、ステップS512で処理を終了すると判断された場合(ステップS512:Yes)、予測式作成部160は、最新の予測式Hk+1を予測式162として出力する。また、成分選択部140は、予測式に含まれる各成分について、傾向比較情報1100の一致判定情報が「一致」となっている分析結果を妥当性裏付け情報1500として抽出し、妥当性裏付け情報1500を予測式の各成分の妥当性を裏付ける補助情報143として出力する(ステップS530)。
【0127】
図15は、妥当性裏付け情報1500の一例を示す図である。
図15に示す妥当性裏付け情報1500は、
図11に示した傾向比較情報1100からフィールド1150の一致判定情報が「一致」となっている情報を抽出したものに、詳細提示画面1400に入力されたコメントを格納するフィールド1510を追加したものである。
【0128】
これにより、利用者は得られた予測式の各成分が、どの検証用データの事例についてどの程度一致しているかを第三者に客観的に説明することができるため、得られた予測式に客観的な妥当性を与えることができる。
【0129】
以上説明したように本実施例によれば、予測器作成部110は、予測対象データ11に基づく対象予測器と、検証用データ12に基づく検証用予測器とを作成する。成分分解部120は、対象予測器を、予測対象データ11に含まれる第1の説明変数の組み合わせのそれぞれに対応する複数の第1の成分に分解し、成分分解部230は、検証用予測器を、検証用データ12に含まれる第2の説明変数の組み合わせのそれぞれに対応する複数の第1の成分に分解する。妥当性分析部130は、互いに対応する第1の成分及び第2の成分ごとに、第1の成分と第2の成分との一致度を評価した妥当性分析情報131を生成する。予測式推定部(予測式探索部150及び予測式作成部160)は、妥当性分析情報131に応じて選択された選択成分に基づいて、対象予測器による予測に使用されている予測式を推定する。
【0130】
したがって、予測対象データ11と類似する検証用データ12を用いることで、予測式の各成分について妥当性の判断が可能な妥当性分析情報131を提供することが可能になる。このため、予測器による予測で使用されている予測式の妥当性を判断することが可能になる。
【0131】
上述した本開示の実施例は、本開示の説明のための例示であり、本開示の範囲をそれらの実施例にのみ限定する趣旨ではない。当業者は、本開示の範囲を逸脱することなしに、他の様々な態様で本開示を実施することができる。
10:予測式作成支援システム 100:データ読込み部 110:予測器作成部 120:成分分解部 130:妥当性分析部 140:成分選択部、150:予測式探索部、160:予測式作成部 170:残差生成部 210:傾向分析部 220:予測器作成部 230:成分分解部 240:傾向分析部 250:傾向比較部