(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2022-03-11
(45)【発行日】2022-03-22
(54)【発明の名称】データ解析方法、データ解析装置、及び、データ解析プログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20220314BHJP
G16Z 99/00 20190101ALI20220314BHJP
【FI】
G06N20/00
G16Z99/00
(21)【出願番号】P 2021209862
(22)【出願日】2021-12-23
【審査請求日】2022-01-11
【早期審査対象出願】
(73)【特許権者】
【識別番号】521338064
【氏名又は名称】ENJYN株式会社
(74)【代理人】
【識別番号】100214248
【氏名又は名称】青山 純
(74)【代理人】
【識別番号】100214260
【氏名又は名称】相羽 昌孝
(72)【発明者】
【氏名】枝光 敏章
【審査官】多胡 滋
(56)【参考文献】
【文献】米国特許出願公開第2005/0234763(US,A1)
【文献】米国特許出願公開第2021/0028472(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
G16Z 99/00
(57)【特許請求の範囲】
【請求項1】
コンピュータを用いて、所定の現象に関するデータを解析するデータ解析方法であって、
前記現象にて観察される複数の変量の数値データである変量データベクトル(q)であって、目的変数の数値データである変量目的変数データ(y)と、説明変数の数値データである変量説明変数データベクトル(x)とを組とする学習対象の前記変量データベクトル(q)の集合である学習対象の変量データセット(Q
train)、及び、複数の前記変量からなる変量セット(Q
v)と、複数の前記変量から変換可能な複数のパイナンバーからなるパイナンバーセット(Π
v)との関係を前記パイナンバーに含まれる前記変量の指数で定めるパイナンバー変換情報(P)を用いて、1又は複数の予測対象の前記変量説明変数データベクトル(x
pred)に対して1又は複数の未知の前記変量目的変数データ(y
pred)の予測を行う現象予測処理(S1~S3)を行い、
前記現象予測処理(S1~S3)は、
前記学習対象の変量データセット(Q
train)を、前記パイナンバー変換情報(P)に基づいて、複数の前記パイナンバーの数値データであるパイナンバーデータベクトル(π)であって、前記目的変数から変換可能な前記パイナンバーの数値データであるパイナンバー目的変数データ(η)と、前記説明変数から変換可能な前記パイナンバーの数値データであるパイナンバー説明変数データベクトル(ξ)とを組とする前記パイナンバーデータベクトル(π)の集合であるパイナンバーデータセット(Π
train)に変換し、その変換した前記パイナンバーデータセット(Π
train)に基づいて、前記パイナンバー説明変数データベクトル(ξ)を入力とし、前記パイナンバー目的変数データ(η)を出力とするパイナンバー予測モデル(F
pred)を作成するモデル作成処理(S30、S31)と、
前記予測対象の変量説明変数データベクトル(x
pred)を、前記パイナンバー変換情報(P)に基づいて、予測対象の前記パイナンバー説明変数データベクトル(ξ
pred)に変換し、その変換した前記予測対象のパイナンバー説明変数データベクトル(ξ
pred)を前記モデル作成処理(S30、S31)により作成された前記パイナンバー予測モデル(F
pred)に入力することで未知の前記パイナンバー目的変数データ(η
pred)を出力し、その出力した前記未知のパイナンバー目的変数データ(η
pred)から、前記予測対象の変量説明変数データベクトル(x
pred)と、前記パイナンバー変換情報(P)とに基づいて、前記未知の変量目的変数データ(y
pred)を算出する算出処理(S410、S420、S421)を、前記予測対象の変量説明変数データベクトル(x
pred)に対して行うことにより、前記予測を行うモデル予測処理(S40、S41)とを行う、
データ解析方法。
【請求項2】
前記モデル作成処理(S30、S31)は、
前記パイナンバーデータセット(Π
train)に含まれる前記パイナンバー説明変数データベクトル(ξ)の集合であるパイナンバー説明変数データセット(Ξ
train)を基準にして、外れ値判定モデル(f
od)を作成し、
前記現象予測処理(S1~S3)は、
前記予測対象のパイナンバー説明変数データベクトル(ξ
pred)が、前記モデル作成処理(S30、S31)により作成された前記外れ値判定モデル(f
od)の外れ値でないか否かに応じて、前記予測対象の変量説明変数データベクトル(x
pred)に対して前記未知の変量目的変数データ(y
pred)の予測が、前記パイナンバー変換情報(P)を用いて可能か否かを判定する外れ値判定処理(S411~S413、S611~S613)を、前記予測対象の変量説明変数データベクトル(x
pred)に対して行う、
請求項1に記載のデータ解析方法。
【請求項3】
前記モデル作成処理(S30)は、
前記予測対象の1又は複数の変量説明変数データベクトル(x
pred)の総数に対する、前記外れ値判定処理(S611~S613)にて前記予測が可能と判定した前記予測対象の変量説明変数データベクトル(x
inlier)の総数の割合に基づく予測可能率、及び、前記総数に対する、前記外れ値判定処理(S611~S613)にて前記予測が不可能と判定した前記予測対象の変量説明変数データベクトル(x
outlier)の総数の割合に基づく予測不可能率の少なくとも一方を算出するモデル評価処理(S60)を行う、
請求項2に記載のデータ解析方法。
【請求項4】
前記モデル予測処理(S40、S41)は、
前記算出処理(S410、S420、S421)を、前記外れ値判定処理(S411~S413)にて前記予測が可能と判定した前記予測対象の変量説明変数データベクトル(x
inlier)に対して行うことにより、前記未知の変量目的変数データ(y
inlier)を算出する、
請求項2又は請求項3に記載のデータ解析方法。
【請求項5】
前記現象予測処理(S2)は、
前記パイナンバー変換情報(P)に対して行基本変形を行うことにより、複数の前記パイナンバー変換情報(P
j)を作成する複数パイナンバー作成処理(S21)と、
前記複数パイナンバー作成処理(S21)により作成された複数の前記パイナンバー変換情報(P)を用いて、前記モデル作成処理(S30)をそれぞれ行うことにより、複数の前記パイナンバー変換情報(P
j)にそれぞれ対応する複数の前記パイナンバー予測モデル(F
pred,j)及び複数の前記外れ値判定モデル(f
od,j)を作成する統合モデル作成処理(S31)と、
前記複数パイナンバー作成処理(S21)により作成された複数の前記パイナンバー変換情報(P
j)と、複数の当該パイナンバー変換情報(P
j)にそれぞれ対応する複数の前記パイナンバー予測モデル(F
pred,j)及び複数の前記外れ値判定モデル(f
od,j)とを用いて、前記モデル予測処理(S40)をそれぞれ行うことにより、前記予測を行う統合モデル予測処理(S41)とを行う、
請求項4に記載のデータ解析方法。
【請求項6】
前記統合モデル予測処理(S41)は、
前記予測対象の変量説明変数データベクトル(x
pred)に対して前記外れ値判定処理(S411~S413)にて前記予測が可能と判定した前記パイナンバー変換情報(P
j)が複数存在するとき、複数の当該パイナンバー変換情報(P
j)の各々を用いて前記算出処理(S410、S420、S421)を行うことで算出した複数の前記未知の変量目的変数データ(y
pred)を合成する予測値合成処理(S430)を、前記予測対象の変量説明変数データベクトル(x
pred)に対して行う、
請求項5に記載のデータ解析方法。
【請求項7】
前記統合モデル作成処理(S31)は、
前記予測対象の変量説明変数データベクトル(x
pred)の総数に対する、前記外れ値判定処理(S611~S613)にて前記予測が可能と判定した前記パイナンバー変換情報(P
j)が少なくとも1つ存在する前記予測対象の変量説明変数データベクトル(x
inlier,i)の総数の割合に基づく統合予測可能率、及び、前記総数に対する、前記外れ値判定処理(S611~S613)にて前記予測が可能と判定した前記パイナンバー変換情報(P
j)が存在しない前記予測対象の変量説明変数データベクトル(x
outlier,i)の総数の割合に基づく統合予測不可能率の少なくとも一方を算出する統
合モデル評価処理(S61)を行う、
請求項5又は請求項6に記載のデータ解析方法。
【請求項8】
前記統合モデル作成処理(S31)は、
前記複数パイナンバー作成処理(S21)により作成された複数の前記パイナンバー変換情報(P
j)のうち、前記外れ値判定処理(S611~S613)にて前記予測が可能と判定した前記予測対象の変量説明変数データベクトル(x
inlier,i)の総数を最大化する前記パイナンバー変換情報(P
j)の組み合わせから前記パイナンバー予測モデル(F
pred,j)の総数を最小化するように、前記パイナンバー変換情報(P
j)を選択するパイナンバー選択処理(S320)を行い、
前記パイナンバー選択処理(S320)により選択された前記パイナンバー変換情報(P
j)に対応する前記パイナンバー予測モデル(F
pred,j)を作成し、
統合モデル予測処理(S41)は、
前記パイナンバー選択処理(S320)により選択された前記パイナンバー変換情報(P
j)と、当該パイナンバー変換情報(P
j)に対応する前記パイナンバー予測モデル(F
pred,j)及び前記外れ値判定モデル(f
od,j)とを用いて、前記モデル予測処理(S40)を行うことにより、前記予測を行う
請求項5乃至請求項7のいずれか一項に記載のデータ解析方法。
【請求項9】
前記現象予測処理(S3)は、
前記統合モデル予測処理(S41)にて前記予測対象の変量説明変数データベクトル(x
inlier,i)に対して予測した前記未知の変量目的変数データ(y
inlier,i)と、当該変量説明変数データベクトル(x
inlier,i)とを組とする1又は複数の新たな前記変量データベクトル(q
new2,i)を、前記学習対象の変量データセット(Q
train)に追加する学習データ追加処理(S70)と、前記学習データ追加処理(S70)により追加された前記学習対象の変量データセット(Q
train)に対する前記統合モデル作成処理(S31)と、前記予測対象の変量説明変数データベクトル(x
pred)に対する前記統合モデル予測処理(S41)とを繰り返し行うことにより、前記予測を行う、
請求項5乃至請求項8のいずれか一項に記載のデータ解析方法。
【請求項10】
前記現象予測処理(S1~S3)は、
前記学習対象の変量データセット(Q
train)に基づいて、前記変量説明変数データベクトル(x)を入力とし、前記変量目的変数データ(y)を出力とする物理量予測モデル(F
train)を作成し、
前記学習対象の変量データセット(Q
train)の分布範囲に含まれる1又は複数の新たな前記変量説明変数データベクトル(x
new1,i)を前記物理量予測モデル(F
train)に入力することで1又は複数の新たな前記変量目的変数データ(y
new1,i)を出力し、
その出力した前記新たな変量目的変数データ(y
new1,i)と、前記新たな前記変量説明変数データベクトル(x
new1,i)とを組とする1又は複数の新たな前記変量データベクトル(q
new1,i)を、前記学習対象の変量データセット(Q
train)に追加する学習データ密度向上処理(S110)を行う、
請求項1乃至請求項9のいずれか一項に記載のデータ解析方法。
【請求項11】
請求項1乃至請求項10のいずれか一項に記載の現象予測処理(S1~S3)を用いて、所定の最適化条件を満たす最適解を探索するデータ解析方法であって、
前記最適解の候補を1又は複数の前記予測対象の変量説明変数データベクトル(x
pred)として、1又は複数の前記未知の変量目的変数データ(y
pred)の予測を行う前記現象予測処理(S1~S3)と、
前記最適化条件と、前記現象予測処理(S1~S3)にて予測した1又は複数の前記未知の変量目的変数データ(y
pred)とに基づいて前記候補を評価し、その評価した結果に基づいて、新たな前記候補を作成する候補作成処理とを繰り返し行うことにより、前記最適解を探索する、
データ解析方法。
【請求項12】
コンピュータであって、
請求項1乃至請求項11のいずれか一項に記載のデータ解析方法にて行われる各処理を実行する制御部を備える、
データ解析装置。
【請求項13】
コンピュータに、
請求項1乃至請求項11のいずれか一項に記載のデータ解析方法にて行われる各処理を実行させる、
データ解析プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ解析方法、データ解析装置、及び、データ解析プログラムに関する。
【背景技術】
【0002】
従来、所定の現象に関するデータを解析する際、説明変数と目的変数とからなる教師データを用いて教師あり学習を実行して機械学習モデルを生成することで、予測対象の説明変数に対して未知の説明変数を予測することが知られている(例えば、特許文献1の段落[0077]等参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
教師あり学習により複数の教師データから機械学習モデルを生成し、その機械学習モデルを用いて、それらの教師データが分布している範囲、すなわち、内挿範囲に存在する予測対象の説明変数に対して未知の説明変数を予測する場合には、機械学習モデルの予測精度を高精度に実現できることが多い。しかしながら、その内挿範囲に存在しない、すなわち、外挿範囲に存在するような予測対象の説明変数に対して未知の説明変数を予測する場合には、機械学習モデルにその外挿範囲における、説明変数と目的変数との相関関係を特徴付ける情報が含まれていないため、機械学習モデルの予測精度は悪化してしまう。また、教師データの分布に粗密があるような場合には、内挿範囲であっても、その一部の範囲では機械学習モデルの予測精度を高精度に確保できないこともあり得る。
【0005】
本発明は、上述した課題に鑑みてなされたものであって、予測対象の説明変数に対して未知の目的変数を予測するときの予測性能を向上させることを可能とするデータ解析方法、データ解析装置、及び、データ解析プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、本発明の一態様に係るデータ解析方法は、
コンピュータを用いて、所定の現象に関するデータを解析するデータ解析方法であって、
前記現象にて観察される複数の変量の数値データである変量データベクトル(q)であって、目的変数の数値データである変量目的変数データ(y)と、説明変数の数値データである変量説明変数データベクトル(x)とを組とする学習対象の前記変量データベクトル(q)の集合である学習対象の変量データセット(Qtrain)、及び、複数の前記変量からなる変量セット(Qv)と、複数の前記変量から変換可能な複数のパイナンバーからなるパイナンバーセット(Πv)との関係を前記パイナンバーに含まれる前記変量の指数で定めるパイナンバー変換情報(P)を用いて、1又は複数の予測対象の前記変量説明変数データベクトル(xpred)に対して1又は複数の未知の前記変量目的変数データ(ypred)の予測を行う現象予測処理(S1~S3)を行い、
前記現象予測処理(S1~S3)は、
前記学習対象の変量データセット(Qtrain)を、前記パイナンバー変換情報(P)に基づいて、複数の前記パイナンバーの数値データであるパイナンバーデータベクトル(π)であって、前記目的変数から変換可能な前記パイナンバーの数値データであるパイナンバー目的変数データ(η)と、前記説明変数から変換可能な前記パイナンバーの数
値データであるパイナンバー説明変数データベクトル(ξ)とを組とする前記パイナンバーデータベクトル(π)の集合であるパイナンバーデータセット(Πtrain)に変換し、その変換した前記パイナンバーデータセット(Πtrain)に基づいて、前記パイナンバー説明変数データベクトル(ξ)を入力とし、前記パイナンバー目的変数データ(η)を出力とするパイナンバー予測モデル(Fpred)を作成するモデル作成処理(S30、S31)と、
前記予測対象の変量説明変数データベクトル(xpred)を、前記パイナンバー変換情報(P)に基づいて、予測対象の前記パイナンバー説明変数データベクトル(ξpred)に変換し、その変換した前記予測対象のパイナンバー説明変数データベクトル(ξpred)を前記モデル作成処理(S30、S31)により作成された前記パイナンバー予測モデル(Fpred)に入力することで未知の前記パイナンバー目的変数データ(ηpred)を出力し、その出力した前記未知のパイナンバー目的変数データ(ηpred)から、前記予測対象の変量説明変数データベクトル(xpred)と、前記パイナンバー変換情報(P)とに基づいて、前記未知の変量目的変数データ(ypred)を算出する算出処理(S410、S420、S421)を、前記予測対象の変量説明変数データベクトル(xpred)に対して行うことにより、前記予測を行うモデル予測処理(S40、S41)とを行う。
【発明の効果】
【0007】
本発明の一態様に係るデータ解析方法によれば、パイナンバー変換情報を用いることで予測対象の説明変数に対して未知の目的変数を予測するときの予測性能を向上させることができる。
【0008】
上記以外の課題、構成及び効果は、後述する発明を実施するための形態にて明らかにされる。
【図面の簡単な説明】
【0009】
【
図1】データ解析装置1の一例を示す構成図である。
【
図2】コンピュータ200の一例を示すハードウエア構成図である。
【
図3】2つの質点が完全非弾性衝突して一体となって運動するばね質点系の物理現象を示す模式図である。
【
図4】パイナンバー変換処理によるパイナンバー変換を示す模式図である。
【
図5】パイナンバー予測モデル法の概要を簡易的な例(物理量q
vが3個、パイナンバーπ
vが2個)で示す第1の模式図である。
【
図6】パイナンバー予測モデル法の概要を一般的な例で示す第2の模式図である。
【
図7】パイナンバー予測モデル法による第1の現象予測処理S1の一例を示すフローチャートである。
【
図8】モデル作成処理(ステップS30)の一例を示すフローチャートである。
【
図9】モデル評価処理(ステップS60)の一例を示すフローチャートである。
【
図10】モデル予測処理(ステップS40)の一例を示すフローチャートである。
【
図11】物理量データセットA1、A2を示す散布図マトリックスである。
【
図12】物理量データセットA1、A2をそれぞれパイナンバー変換したパイナンバーデータセットを示す散布図マトリックスである。
【
図13】物理量データセットA1から作成されたパイナンバー予測モデルF
predの検証結果を示す図である。
【
図14】物理量データセットA1から作成された外れ値判定モデルf
odによる物理量データセットA2の外れ値判定結果(予測可能、又は、予測不可能)を示す散布図マトリックスである。
【
図15】パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。
【
図16】従来の物理量回帰モデルによる物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。
【
図17】物理量データセットA1、A3を示す散布図マトリックスである。
【
図18】物理量データセットA1、A3をそれぞれパイナンバー変換したパイナンバーデータセットを示す散布図マトリックスである。
【
図19】物理量データセットA1から作成された外れ値判定モデルf
odによる物理量データセットA3の外れ値判定結果(予測可能、又は、予測不可能)を示す散布図マトリックスである。
【
図20】パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。
【
図21】従来の物理量回帰モデルによる物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。
【
図22】物理量データセットB1、A1を示す散布図マトリックスである。
【
図23】物理量データセットB1、A1をそれぞれパイナンバー変換したパイナンバーデータセットを示す散布図マトリックスである。
【
図24】物理量データセットB1から作成されたパイナンバー予測モデルF
predの検証結果を示す図である。
【
図25】物理量データセットB1から作成された外れ値判定モデルf
odによる物理量データセットA1の外れ値判定結果(予測可能、又は、予測不可能)を示す散布図マトリックスである。
【
図26】パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。
【
図27】従来の物理量回帰モデルによる物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。
【
図28】物理量データセットC1、A1を示す散布図マトリックスである。
【
図29】物理量データセットC1、A1をそれぞれパイナンバー変換したパイナンバーデータセットを示す散布図マトリックスである。
【
図30】物理量データセットC1から作成されたパイナンバー予測モデルF
predの検証結果を示す図である。
【
図31】物理量データセットC1から作成された外れ値判定モデルf
odによる物理量データセットA1の外れ値判定結果(予測可能、又は、予測不可能)を示す散布図マトリックスである。
【
図32】パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。
【
図33】従来の物理量回帰モデルによる物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。
【
図34】学習対象のデータセットA1に対してパイナンバーセットΠ
ex1、Π
ex2が用いられたときに、予測対象のデータセットA2のうち外れ値でないと判定された物理量説明変数t
1e、t
2eのヒストグラムをそれぞれ示す図である。
【
図35】統合パイナンバー予測モデル法の概要を一般的な例で示す模式図である。
【
図36】統合パイナンバー予測モデル法による第2の現象予測処理S2の一例を示すフローチャートである。
【
図37】統合モデル作成処理(ステップS31)の一例を示すフローチャートである。
【
図38】統合モデル評価処理(ステップS61)の一例を示すフローチャートである。
【
図39】統合モデル予測処理(ステップS41)の一例を示すフローチャートである。
【
図40】統合パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。
【
図41】統合パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。
【
図42】反復統合パイナンバー予測モデル法による第3の現象予測処理S3の一例を示すフローチャートである。
【
図43】反復統合パイナンバー予測モデル法によるループ処理を行ったときの予測可能率、及び、決定係数の推移を示す図である。
【
図44】最適解探索処理S4の一例を示す機能説明図である。
【発明を実施するための形態】
【0010】
以下、図面を参照して本発明を実施するための実施形態について説明する。以下では、本発明の目的を達成するための説明に必要な範囲を模式的に示し、本発明の該当部分の説明に必要な範囲を主に説明することとし、説明を省略する箇所については公知技術によるものとする。
【0011】
(1)データ解析装置1の構成と、データ解析方法100の概要
図1は、データ解析装置1の一例を示す構成図である。データ解析装置1は、所定の現象に関するデータを解析するデータ解析方法100を実行可能な装置であり、例えば、汎用又は専用のコンピュータ(後述の
図2参照)で構成される。
【0012】
所定の現象では、所定の法則(規則やルールと呼ばれるものも含む)の下で相互に作用する複数の変量が観察され、その観察された変量を数値データとして数値化(デジタル化)し、収集することで、データ解析方法100の解析対象となるデータセットが生成される。所定の法則は、複数の変量が関与するものであれば任意の法則でよく、例えば、物理法則や数学的法則のような法則だけでなく、経済法則、市場法則、心理的法則のような法則も含まれる。
【0013】
データ解析装置1は、その主要な構成要素として、制御部10、記憶部11、入力部12、出力部13、及び、通信部14を備える。制御部10は、記憶部11に記憶されたデータ解析プログラム110を実行することで、データ解析部として機能し、データ解析方法100にて行われる第1乃至第3の現象予測処理S1~S3と、最適解探索処理S4とを実行する。記憶部11は、データ解析プログラム110と、データ解析プログラム110で使用される各種のデータとを記憶する他に、例えば、オペレーティングシステム(OS)、他のプログラムやデータ等を記憶する。入力部12は、各種の入力操作を受け付けるとともに、出力部13は、表示画面や音声を介して各種の情報を出力することで、第1乃至第3の現象予測処理S1~S3、及び、最適解探索処理S4のユーザインターフェースとして機能する。通信部14は、有線又は無線のネットワークに接続されて、他の装置(不図示)との間で各種のデータを送受信する。
【0014】
データ解析方法100では、所定の現象に関するデータを解析する際、その現象に対応するパイナンバーを利用して第1乃至第3の現象予測処理S1~S3(詳細は後述)が行われる。具体的には、処理対象とする現象で観察される変量と、その変量から変換可能なパイナンバーとの関係を定めるパイナンバー変換情報の一形式であるパイナンバー変換マトリックスP(詳細は後述)を利用して第1乃至第3の現象予測処理S1~S3が行われる。パイナンバー変換情報は、相似則を保ちつつ、変量からパイナンバーへの変換、又は、パイナンバーから変量への逆変換を可能とする情報である。
【0015】
データ解析方法100に含まれる第1乃至第3の現象予測処理S1~S3は、パイナンバーの性質を利用して所定の現象を予測する第1乃至第3の現象予測処理S1~S3として、パイナンバー予測モデル法、統合パイナンバー予測モデル法、及び、反復統合パイナンバー予測モデル法をそれぞれ実現する。また、最適解探索処理S4は、第1乃至第3の
現象予測処理S1~S3のいずれかと連携することで、所定の最適化条件を満たす最適解を探索する機能を実現する。なお、第1乃至第3の現象予測処理S1~S3は、密接に関連しているため、データ解析方法100は、第1乃至第3の現象予測処理S1~S3を体系的に行うことが好ましいが、第1乃至第3の現象予測処理S1~S3のうち一部の処理(単独でもよいし、任意の組み合わせでもよい)だけを行うものでもよいし、最適解探索処理S4を行わないようにしてもよい。その場合には、データ解析装置1は、その一部の処理を実行する装置として構成され、データ解析プログラム110は、コンピュータ(制御部10)に、その一部の処理を実行させるプログラムとして構成される。
【0016】
データ解析方法100は、第1乃至第3の現象予測処理S1~S3において共通する処理として、パイナンバー変換処理を行い、第1乃至第3の現象予測処理S1~S3の処理の過程において、パイナンバー変換処理を行う。なお、第1乃至第3の現象予測処理S1~S3、最適解探索処理S4、及びパイナンバー変換処理の詳細は後述する。
【0017】
図2は、コンピュータ200の一例を示すハードウエア構成図である。コンピュータ200は、データ解析装置1を構成する装置の一例であり、汎用又は専用のコンピュータとして構成される。
【0018】
コンピュータ200は、
図2に示すように、その主要な構成要素として、バス210、プロセッサ212、メモリ214、入力デバイス216、出力デバイス217、表示デバイス218、ストレージ装置220、通信I/F(インターフェース)部222、外部機器I/F部224、I/O(入出力)デバイスI/F部226、及び、メディア入出力部228を備える。なお、上記の構成要素は、コンピュータ200が使用される用途に応じて適宜省略されてもよい。
【0019】
プロセッサ212は、1つ又は複数の演算処理装置(CPU(Central Processing Unit)、MPU(Micro-processing unit)、DSP(digital signal processor)、GPU(Graphics Processing Unit)等)で構成され、コンピュータ200全体を統括する制御部10として動作する。メモリ214は、各種のデータ及びプログラム230を記憶し、例えば、メインメモリとして機能する揮発性メモリ(DRAM、SRAM等)と、不揮発性メモリ(ROM)、フラッシュメモリ等とで構成される。
【0020】
入力デバイス216は、例えば、キーボード、マウス、テンキー、電子ペン等で構成され、入力部12として機能する。出力デバイス217は、例えば、音(音声)出力装置、バイブレーション装置等で構成され、出力部13として機能する。表示デバイス218は、例えば、液晶ディスプレイ、有機ELディスプレイ、電子ペーパー、プロジェクタ等で構成され、出力部13として機能する。入力デバイス216及び表示デバイス218は、タッチパネルディスプレイのように、一体的に構成されていてもよい。ストレージ装置220は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)等で構成され、記憶部11として機能する。ストレージ装置220は、オペレーティングシステムやプログラム230の実行に必要な各種のデータを記憶する。
【0021】
通信I/F部222は、インターネットやイントラネット等のネットワーク240に有線又は無線により接続され、所定の通信規格に従って他のコンピュータとの間でデータの送受信を行う通信部14として機能する。外部機器I/F部224は、カメラ、プリンタ、スキャナ、リーダライタ等の外部機器250に有線又は無線により接続され、所定の通信規格に従って外部機器250との間でデータの送受信を行う通信部14として機能する。I/OデバイスI/F部226は、各種のセンサ、アクチュエータ等のI/Oデバイス
260に接続され、I/Oデバイス260との間で、例えば、センサによる検出信号やアクチュエータへの制御信号等の各種の信号やデータの送受信を行う通信部14として機能する。メディア入出力部228は、例えば、DVD(Digital Versatile Disc)ドライブ、CD(Compact Disc)ドライブ等のドライブ装置で構成され、DVD、CD等のメディア(非一時的な記憶媒体)270に対してデータの読み書きを行う。
【0022】
上記構成を有するコンピュータ200において、プロセッサ212は、ストレージ装置220に記憶されたプログラム230をメモリ214に呼び出して実行し、バス210を介してコンピュータ200の各部を制御する。なお、プログラム230は、ストレージ装置220に代えて、メモリ214に記憶されていてもよい。プログラム230は、インストール可能なファイル形式又は実行可能なファイル形式でメディア270に記録され、メディア入出力部228を介してコンピュータ200に提供されてもよい。プログラム230は、通信I/F部222を介してネットワーク240経由でダウンロードすることによりコンピュータ200に提供されてもよい。また、コンピュータ200は、プロセッサ212がプログラム230を実行することで実現する各種の機能を、例えば、FPGA(field-programmable gate array)、ASIC(application specific integrated circuit)等のハードウエアで実現するものでもよい。
【0023】
コンピュータ200は、例えば、据置型コンピュータや携帯型コンピュータで構成され、任意の形態の電子機器である。また、コンピュータ200は、クライアント型コンピュータでもよいし、サーバ型コンピュータやクラウド型コンピュータでもよい。
【0024】
次に、上記構成を有するデータ解析装置1により行われるデータ解析方法100の第1乃至第3の現象予測処理S1~S3の詳細について、
図3乃至
図43を参照して説明する。本実施形態では、所定の現象として、後述の
図3に示す「2つの質点が完全非弾性衝突して一体となって運動するばね質点系の物理現象」(以下「ばね質点系完全非弾性衝突現象」という)を例にして、複数の変量として、複数の物理量が観察される場合を中心に説明する。
【0025】
(2)物理量及びパイナンバーと、パイナンバー変換マトリックスPについて
図3は、2つの質点が完全非弾性衝突して一体となって運動するばね質点系の物理現象を示す模式図である。ばね質点系完全非弾性衝突現象は、
図3に示すように、ばね定数kのばねに連結され、初期位置x
1s、初速度v
1sが与えられて自由振動している質量m
1の第1質点に、時刻t=t
1eにおいて、初速度ゼロ、質量m
2の第2質点が完全非弾性衝突し、その後、第1質点及び第2質点が一体となって運動し、時刻t=t
2eにおいて、第1質点及び第2質点が位置x
2eにいる現象を対象とする。
【0026】
ばね質点系完全非弾性衝突現象にて観察される複数の物理量qv1~qv8からなる物理量の集合は、以下の[数1]式に示すように、「物理量セットQv」で表すものとする。
【0027】
【0028】
ばね質点系完全非弾性衝突現象において、位置x2sが予測対象の物理量であるとすると、位置x2sを「物理量目的変数」、他の物理量を「物理量説明変数」という。本実施
形態では、物理量目的変数(位置x2s)は、物理量セットQvの第1番目の要素q1に配置されるものとする。
【0029】
また、ばね質点系完全非弾性衝突現象において、物理量と、それぞれの物理量の基本単位の指数(次元)の関係は、以下の[表1]で表される。基本単位は、質量の[kg]、時間の[s]及び、質量の[m]であり、物理量目的変数は、[表1]の第1列(数値部分の左端の列)に配置されるものとする。
【0030】
【0031】
[表1]における数値部分のみを抽出し、以下の[数2]式に示すように、行列の形式で表したものを、「次元マトリックスD」という。
【0032】
【0033】
ここで、[数2]式に示す次元マトリックスDに対して次元解析を行うことにより、以下の[数3]式に示すように、5個のパイナンバーπv1~πv5が求められる。これら5個のパイナンバーπv1~πv5からなるパイナンバーπvの集合{πv1,πv2,πv3,πv4,πv5}を、「パイナンバーセットΠv」で表すものとする。本実施形態では、物理量目的変数を含むパイナンバーπv1は、第1番目のみの要素に配置されるものとする。
【0034】
【0035】
ばね質点系完全非弾性衝突現象にて観察される複数の物理量qvからなる物理量セットQvと、物理量から変換可能な1又は複数のパイナンバーπvからなるパイナンバーセットΠvとの関係は、パイナンバー変換情報として、以下の[表2]で表される。本実施形態では、物理量目的変数は、第1列(数値部分の左端)に、物理量目的変数が含まれるパイナンバーは、第1行(数値部の上端)に配置されるものとする。
【0036】
【0037】
パイナンバー変換情報が表形式で表された[表2]における数値部分のみを抽出し、以下の[数4]式に示すように、行列形式で表したものを、「パイナンバー変換マトリックスP」という。また、パイナンバー変換マトリックスPのi行を、「パイナンバー変換ベクトルpi」という。本実施形態では、パイナンバー変換情報の形式として、「パイナンバー変換マトリックスP」を採用して説明するが、パイナンバー変換情報は、[表2]や[数4]式で表される情報と同等の情報を含むものであれば、表形式や行列形式以外の任意の形式で表現されるものでもよい。
【0038】
【0039】
パイナンバー変換マトリックスPに対して行基本変形を施すことにより、パイナンバーπvを変形することができる。行基本変形は、連立1次方程式の解法にも用いられ、例えば、(1)ある行を定数倍する、(2)ある行を定数倍したものを、別の行に加える、(3)ある行と別の行とを入れ換える、という手順で行われる。
【0040】
パイナンバー変換マトリックスPに対する行基本変形では、(1)は、パイナンバーのべき演算、(2)は、あるパイナンバーと共通の変数を持つ別のパイナンバーを用いた変数の置き換え、(3)は、パイナンバーの順序の入れ替えにそれぞれ相当する。このような手順によりパイナンバーπvの形は変わることになるが、パイナンバーπvの本質的な意味が変わるものではない。これは、連立1次方程式の解が変わらないことと同様である。
【0041】
[数3]式に示すパイナンバーπv1~πv5に対する行基本変形の例は、以下の[数5]式で表される。[数5]式では、(1)の例として、πv4を3乗し、(2)の例として、πv2のt1eを、πv3を用いてt2eに置き換え、(3)の例として、πv3とπv5とを入れ替えることにより、パイナンバーπv1~πv5としての意味が変わらないことを示している。
【0042】
【0043】
[数5]式における第1式と第2式は、バッキンガムのパイ定理が示すパイナンバーπvの関係式Fを表す。第3式の(m2/m1)3は、F’の中で3乗根の演算がなされることにして、第2式から変形された。第4式の(t2e/t1e)2は、t2e/t1eの関数であるので、πV3に代表させて第5式では消去された。第3式から第5式までの変形は、パイナンバー変換マトリックスPにおいて、パイナンバー変換ベクトルp3を2倍したものを、パイナンバー変換ベクトルp2に加える変形に相当する。第6式では、第3引数と第5引数が入れ替えられたが、関数F’’の定義として変わるものではない。パイナンバー変換マトリックスPにおいては、パイナンバー変換ベクトルp3とパイナンバー変換ベクトルp5の入れ替え操作に相当する。F’及びF’’は、Fとは形が異なるが、第3式から第6式は、第1式を変形した式であるので、それぞれの引数は、第2式と同様にパイナンバーとして定義されることができる。
【0044】
一般に、行列は行基本変形により階段行列化することができるので、パイナンバー変換マトリックスPの第2列以降の列を並べ替えたうえで階段行列化すれば、パイナンバーπvが変形され、かつ、物理量目的変数を含むパイナンバーπv1は、常に第1番目のみに配置されたパイナンバー変換マトリックスPが得られる。さらに、得られたパイナンバー変換マトリックスPに簡約化を施せば、複雑さが低減される。
【0045】
(3)データ構造の定義について
次に、データ解析方法100にて取り扱われるデータに関するデータ構造の定義について説明する。複数(n個)の物理量qvからなる物理量セットQvに対して特定の物理現象(条件)を表す数値がそれぞれ代入された数値データを、以下の[数6]式に示すように定義する。具体的には、複数の物理量qvからなる物理量セットQvに対して数値データがそれぞれ代入された要素{q1,q2,…,qn}を持つベクトルを、「物理量データベクトルq」と定義する。そのため、物理量データベクトルqは、物理量セットQvに対応したデータであり、物理量qvの数値データである「物理量データ」からなる。複数の物理量データベクトルqの集合として、複数の物理量データベクトルqを縦に並べた二次元配列を、「物理量データセットQ」と定義する。
【0046】
また、複数の物理量qvが、目的変数と、1又は複数の説明変数からなる説明変数セットとで構成される場合、物理量データベクトルqは、目的変数の数値データである「物理量目的変数データy」と、説明変数の数値データである説明変数データからなる「物理量説明変数データベクトルx」とを組として構成される。物理量目的変数データyの集合として、複数の物理量目的変数データyを縦に並べた一次元配列を、「物理量目的変数デー
タセットY」と定義する。物理量説明変数データベクトルxの集合として、複数の物理量説明変数データベクトルxを縦に並べた二次元配列を、「物理量説明変数データセットX」と定義する。
【0047】
【0048】
複数(k個)のパイナンバーπvからなるパイナンバーセットΠvに対しても、物理量qvと同様に、特定の物理現象(条件)を表す数値がそれぞれ代入された数値データを、以下の[数7]式に示すように定義する。具体的には、複数のパイナンバーπvからなるパイナンバーセットΠvに対して数値データがそれぞれ代入された要素{π1,π2,…,πk}を持つベクトルを、「パイナンバーデータベクトルπ」と定義する。そのため、パイナンバーデータベクトルπは、パイナンバーセットΠvに対応したデータであり、パイナンバーπvの数値データである「パイナンバーデータ」からなる。複数のパイナンバーデータベクトルπの集合として、複数のパイナンバーデータベクトルπを縦に並べた二次元配列を、「パイナンバーデータセットΠ」と定義する。
【0049】
また、複数のパイナンバーπvが、目的変数と、1又は複数の説明変数からなる説明変数セットとで構成される場合、パイナンバーデータベクトルπは、目的変数の数値データである「パイナンバー目的変数データη」と、説明変数の数値データである説明変数データからなる「パイナンバー説明変数データベクトルξ」とを組として構成される。パイナンバー目的変数データηの集合として、複数のパイナンバー目的変数データηを縦に並べた一次元配列を、「パイナンバー目的変数データセットΗ」と定義する。パイナンバー説明変数データベクトルξの集合として、複数のパイナンバー説明変数データベクトルξを縦に並べた二次元配列を、「パイナンバー説明変数データセットΞ」と定義する。
【0050】
【0051】
n個の物理量qv、及び、k個のパイナンバーπvに対するパイナンバー変換マトリックスPを、以下の[数8]式に示すように定義する。また、パイナンバー変換マトリックスPのi行を、「パイナンバー変換ベクトルpi」と定義する。
【0052】
【0053】
(4)パイナンバー変換処理について
図4は、パイナンバー変換処理によるパイナンバー変換を示す模式図である。パイナンバー変換処理は、パイナンバー変換マトリックスPに基づいて、物理量データベクトルqをパイナンバーデータベクトルπに変換する処理である。パイナンバー変換処理によるパイナンバー変換を、以下の[数9]式で表すものとする(
図4(a)参照)。
【0054】
【0055】
パイナンバーデータベクトルπは、物理量データベクトルqを構成する物理量データの各値を、パイナンバーデータベクトルπを構成するパイナンバーデータの各定義式に代入することにより、一意に変換される。例えば、パイナンバーデータの定義式を示す[数3]式に対して、8個の物理量データの各値を代入することにより、全てのパイナンバーデータが一意に決定され、パイナンバーデータベクトルπに変換される。
【0056】
また、パイナンバー変換処理が、パイナンバー変換マトリックスPに基づいて、物理量データセットQに含まれる物理量データベクトルqの各々をパイナンバーデータベクトルπにそれぞれ変換する処理を、以下の[数10]式で表すものとする(
図4(b)参照)。
【0057】
【0058】
(5-1)パイナンバー予測モデル法の基本原理について
次に、パイナンバー予測モデル法による第1の現象予測処理S1について説明する。第1の現象予測処理S1は、所定の現象にて成り立つ理論式は不明であるが、その現象にて観察された学習対象の物理量データセットQtrainと、その現象を表すパイナンバーπv(例えば、初期のパイナンバー変換マトリックスP0)が得られている状況において、そのパイナンバーπvを用いて、1又は複数の予測対象の物理量説明変数データベクトルxpred(複数の場合は、予測対象の物理量説明変数データセットXpred)に対して1又は複数の未知の物理量目的変数データypred(複数の場合は、未知の物理量目的変数データセットYpred)の予測を行う処理である。その際、予測対象の物理量説明変数データベクトルxpredは、学習対象の物理量データセットQtrainの内挿範囲に存在するものに限られず、学習対象の物理量データセットQtrainの外挿範囲に存在するものを含む。
【0059】
なお、第1の現象予測処理S1で用いられるパイナンバーπv、すなわち、処理用のパイナンバー変換マトリックスPは、次元解析により得られた初期のパイナンバー変換マトリックスでもよいし、初期のパイナンバー変換マトリックスから後述のパイナンバー作成処理(ステップS20)で作成されたパイナンバー変換マトリックスでもよいし、データ解析者の知見に基づいて作成されたパイナンバー変換マトリックスでもよい。
【0060】
第1の現象予測処理S1は、その基本的な処理内容として、処理用のパイナンバー変換マトリックスPを作成するパイナンバー作成処理(ステップS20)と、学習対象の物理量データセットQtrainを、パイナンバー変換マトリックスPに基づいて、学習対象のパイナンバーデータセットΠtrainに変換(パイナンバー変換)し、その変換したパイナンバーデータセットΠtrainに基づいて、パイナンバー説明変数データベクトルξを入力とし、パイナンバー目的変数データηを出力とするパイナンバー予測モデルFpredを作成するモデル作成処理(ステップS30)と、予測対象の物理量説明変数データベクトルxpredを、パイナンバー変換マトリックスPに基づいて、予測対象のパイナンバー説明変数データベクトルξpredに変換(パイナンバー変換)し、その変換した予測対象のパイナンバー説明変数データベクトルξpredをパイナンバー予測モデルFpredに入力することで未知のパイナンバー目的変数データηpredを出力し、その出力した未知のパイナンバー目的変数データηpredから、予測対象の物理量説明変数データベクトルxpredと、パイナンバー変換マトリックスPとに基づいて、未知の物理量目的変数データypredを算出する算出処理を、予測対象の物理量説明変数データベクトルxpredに対して行うことにより、未知の物理量目的変数データypredの予測を行うモデル予測処理(ステップS40)とを行う。なお、各処理の詳細は後述する。
【0061】
このとき、第1の現象予測処理S1では、予測対象の物理量説明変数データベクトルxpredが、学習対象の物理量データセットQtrainが分布している領域(物理量空
間の分布領域)に対して内挿となっている必要はなく、予測対象のパイナンバー説明変数データベクトルξpredが、学習対象のパイナンバーデータセットΠtrainが分布している領域(パイナンバー空間の分布領域)に対して内挿となっている場合には、未知の物理量目的変数データypredの予測が可能となる。
【0062】
ここで、2つの物理量qvがともに内挿であるためには、少なくとも2つの制約式が必要となる。仮に両方の物理量qvが箱型の領域に分布していれば、例えば、min1<qv1<max1、min2<qv2<max2のように、2つの不等式が必要となる。2つの物理量qvが、パイナンバーとして1つに集約されている場合には、その1つのパイナンバーが内挿であるためには、1つの制約式のみで表現される。すなわち、制約式の個数の違いからも、パイナンバー空間において外挿となる確率は、物理量空間において外挿となる確率よりも小さいことが分かる。
【0063】
また、パイナンバーπvは、物理量qvの乗べき積の形をしているので、仮に物理量qvの分布が一様であっても、パイナンバーπvの分布では粗密が大きくなりやすい。そのため、パイナンバーπvを構成する各説明変数に関して内挿か外挿かを判定するためには、最小値や最大値を用いたような簡単な判定手法は機能しない場合が多い。そのため、外れ値を判定する手法を導入し、学習対象のパイナンバー説明変数データセットΞtrainを基準とする外れ値判定モデルfodを用いることが有効である。外れ値を判定する手法には、様々な手法が存在するが、一般的には、データの特性(数や分布の形など)や用途に応じて、外れ値判定の基準値(判定の根拠とする特徴量、厳しさに関する閾値など)を選択・調整して用いるようにすればよい。
【0064】
図5は、パイナンバー予測モデル法の概要を簡易的な例(物理量q
vが3個、パイナンバーπ
vが2個)で示す第1の模式図である。
図6は、パイナンバー予測モデル法の概要を一般的な例で示す第2の模式図である。
【0065】
図5の例では、物理量説明変数x
2には、学習対象の説明変数データセットX
2,
trainと、予測対象の物理量説明変数データセットX
2,
predとの間に共通分が存在するが、物理量説明変数x
1には、学習対象の物理量説明変数データセットX
1,
trainと、予測対象の物理量説明変数データセットX
1,
predとの間に共通部分が存在しない。このように少なくとも1つの物理量説明変数が外挿となる場合、例えば、従来の機械学習により学習対象の物理量データセットQ
trainを用いて物理量回帰モデルを作成し、予測対象の物理量説明変数データベクトルx
predから未知の物理量目的変数データy
predを予測しても、すべての説明変数が内挿である場合に比べて予測精度は悪化する。
【0066】
図5の例では、1個のパイナンバー説明変数ξ
1は、2個の物理量説明変数x
1,x
2の比で決まる。独立な2つの軸が1つに合成されるので、確率的に共通部分を持ちやすくなる。そのため、
図5に示すx
1-x
2平面上では、例えば、傾きx
2/x
1が、パイナンバーπ
2に相当するので、学習対象の物理量説明変数データセットX
trainが分布している範囲に原点から2本の接線を引き、それらの間の領域が、パイナンバー空間における内挿範囲となる。したがって、仮に2個の物理量説明変数x
1,x
2に共通部分がなくても、パイナンバー空間では共通部分を持つことがあり得る。パイナンバー空間において、学習対象のパイナンバー説明変数データセットΞ
trainと、予測対象のパイナンバー説明変数データセットΞ
predの共通部分に存在する予測対象のパイナンバー説明変数データベクトルξ
pred(=ξ
inlier,i,1)から、パイナンバー予測モデルF
predに基づいて、未知のパイナンバー目的変数データη
pred(=η
inlier,i)の値が算出され、その値から、予測対象の物理量説明変数データベクトルx
pred(=x
inlier,i,1及びx
inlier,i,2)と、パイナンバー変
換マトリックスPとを用いて、未知の物理量目的変数データy
pred(y
inlier,i)の値が算出される。
【0067】
図5では、パイナンバー予測モデル法による未知の物理量目的変数データy
pred(未知の物理量目的変数データセットY
pred)の予測が可能な領域は斜線で示されている。また、
図6では、学習対象の物理量説明変数データセットX
trainと、予測対象の物理量説明変数データセットX
predとの共通部分は、物理量説明変数x
1~x
n-1の全てが共通する部分として斜線で示され、学習対象のパイナンバー説明変数データセットΞ
trainと、予測対象のパイナンバー説明変数データセットΞ
predとの共通部分は、パイナンバー説明変数ξ
1~ξ
k-1の全てが共通する部分として斜線で示されている。なお、パイナンバー空間における外れ値判定の設定によっては、学習対象の物理量説明変数データセットX
trainと、予測対象の物理量説明変数データセットX
predとの共通部分にある物理量説明変数データベクトルx
predが外れ値と判定される場合もあるため、予測対象の物理量説明変数データセットX
inlierの中に入らない領域も存在するが、この領域内にある物理量説明変数データベクトルx
predは、通常の物理量回帰モデルで予測可能であるので、斜線で表示した。
【0068】
(5-2)パイナンバー予測モデル法の詳細について
図7乃至
図10は、パイナンバー予測モデル法による第1の現象予測処理(ステップS1)の一例を示すフローチャートである。
【0069】
まず、ステップS100では、初期のパイナンバー変換マトリックスP0と、学習対象の物理量データセットQtrainと、予測対象の物理量説明変数データセットXpredとが入力される。なお、これらのデータは、記憶部11から読み出したものでもよいし、入力部12を介して入力されたものでもよいし、ネットワークに接続された他の装置から受信したものでもよい。
【0070】
ここでは、ステップS100にて入力される学習対象の物理量データセットQtrainは、[数6]式に示すように、物理量目的変数データytrainと、物理量説明変数データベクトルxtrainとを組とする物理量データベクトルqtrainの集合であり、物理量説明変数データセットXtrainと、物理量目的変数データセットYtrainとで構成される場合について説明する。なお、ステップS100では、パイナンバーπvに含まれる物理量qvの指数の値が大きい場合、パイナンバー変換後のパイナンバーπvの値が大きい場合、パイナンバーπvの桁の差が大きくなる場合等が想定されるときには、必要に応じて、物理量説明変数データセットXtrainを各物理量説明変数データの最大値で除して正規化する等の学習データ前処理を行うようにしてもよい。
【0071】
次に、ステップS110では、学習対象の物理量データセットQtrainのデータ密度を向上させる学習データ密度向上処理を行う。学習データ密度向上処理では、学習対象の物理量データセットQtrainに基づいて、物理量説明変数データベクトルxtrainを入力とし、物理量目的変数データytrainを出力とする物理量予測モデルFtrainを作成する。物理量予測モデルFtrainは、例えば、ニューラルネットワーク(ディープラーニングを含む)を用いた回帰モデルであり、学習対象の物理量データセットQtrainを学習用データとして、物理量説明変数データベクトルxtrainと、物理量目的変数データytrainとの間の相関関係を機械学習することで作成される。なお、物理量予測モデルFtrainは、上記の例に限られず、他の手法やモデルにより作成されたものでもよい。
【0072】
そして、学習対象の物理量データセットQtrainの分布範囲に含まれる1又は複数の新たな物理量説明変数データベクトルxnew1,iを物理量予測モデルFtrain
に入力することで1又は複数の新たな物理量目的変数データynew1,iを出力し、その出力した新たな物理量目的変数データynew1,iと、新たな物理量説明変数データベクトルxnew1,iとを組とする1又は複数の新たな物理量データベクトルqnew1,iを、学習対象の物理量データセットQtrainに追加する。なお、新たな物理量説明変数データベクトルxnew1,iは、例えば、乱数等により作成してもよいし、学習対象の物理量データセットQtrainが分布している領域の端(輪郭)付近に対応するものを作成してもよい。また、新たな物理量データベクトルqnew1,iの数は、学習対象の物理量データベクトルqtrainの数、物理量説明変数xの個数や分布等に応じて適宜決定すればよい。上記のように、新たな物理量データベクトルqnew1,iを学習対象の物理量データセットQtrainに追加する処理を行うことで、学習対象の物理量データセットQtrainのデータ密度が向上し、学習対象のパイナンバーデータセットΠtrainのデータ密度も向上するため、外れ値判定モデルfodによる外れ値判定の精度を向上させることができる。
【0073】
次に、ステップS20では、処理用のパイナンバー変換マトリックスPを作成するパイナンバー作成処理を行う。パイナンバー作成処理では、例えば、ステップS100で入力された初期のパイナンバー変換マトリックスP0を、パイナンバーπvに含まれる物理量目的変数の指数が特定のパイナンバーπv1を除いて0となるように変形することで、処理用のパイナンバー変換マトリックスPを作成する。したがって、物理量目的変数を含む特定のパイナンバーπv1が、例えば、[表2]に示すように、第1行目のみに配置されるように変形されるものとして説明する。すなわち、[数4]式に示すように、第1行目のパイナンバー変換ベクトルp1では、第1番目の要素が0以外の整数となり、他のパイナンバー変換ベクトルp2~p5では、第1番目の要素が0となるように、変形される。
【0074】
なお、ステップS20は、ステップS100にて初期のパイナンバー変換マトリックスP0が入力される前に実行されてもよいし、初期のパイナンバー変換マトリックスP0が、変形後の形を元々有している場合には、ステップS20は省略されてもよい。その場合には、ステップS20以降の各ステップでは、ステップS100にて入力された初期のパイナンバー変換マトリックスP0を、処理用のパイナンバー変換マトリックスPとみなして実行すればよい。
【0075】
次に、ステップS30では、処理用のパイナンバー変換マトリックスPを用いて、学習対象の物理量データセットQtrainから、パイナンバー予測モデルFpred、及び、外れ値判定モデルfodを作成するモデル作成処理を行う。
【0076】
図8は、モデル作成処理(ステップS30)の一例を示すフローチャートである。まず、ステップS300では、学習対象の物理量データセットQ
trainを、処理用のパイナンバー変換マトリックスPによりパイナンバー変換することで、学習対象のパイナンバーデータセットΠ
trainを生成する。学習対象の物理量データセットQ
trainに対するパイナンバー変換処理は、[数10]式と同様に、以下の[数11]式で表される。
【0077】
【0078】
なお、ステップS300では、学習対象のパイナンバーデータセットΠtrainに対して、例えば、Box-Cox変換、Yeo-Johnson変換等のべき乗変換、対数変換、標準化等の学習データ変換処理を行うことで、パイナンバーデータセットΠtra
inの分布を整えるようにしてもよい。パイナンバーπvは、物理量qvの乗べき積の形をしているので、仮に物理量qvが一様の分布を有していても、パイナンバー変換後のパイナンバーπvの値は、粗密の差がある分布になりやすい。上記のような学習データ変換処理を行うことで、分布の粗密の偏りを低減させて、例えば、外れ値判定モデルfodによる外れ値判定の精度を向上させることができる。
【0079】
次に、ステップS302では、学習対象のパイナンバーデータセットΠtrainに含まれるパイナンバー説明変数データセットΞtrainを基準にして、外れ値判定モデルfodを作成する。外れ値判定モデルfodは、例えば、教師なし学習の一種である「Isolation Forest」等の手法により作成される。外れ値判定モデルfodとして、「Isolation Forest」を採用した場合には、外れ値判定の基準値は、「contamination」と呼ばれるパラメータを設定すればよい。「contamination」は、外れ値判定モデルを作成する際の基準データ(ここでは、学習対象の物理量データセットQtrain)に対して外れ値と判定される割合の目安を表すパラメータであるため、その値が大きいほど外れ値と判定されやすくなる。なお、以下の説明では、外れ値判定モデルfodの作成手法は、「Isolation Forest」を採用し、外れ値判定の基準値は、「contamination」に対する値であるものと説明する。
【0080】
次に、ステップS60では、処理用のパイナンバー変換マトリックスPと、外れ値判定モデルfodとを用いて、予測対象の物理量説明変数データセットXpredに対して、予測可能率RP、及び、予測不可能率RUの少なくとも一方を算出するモデル評価処理を行う。
【0081】
図9は、モデル評価処理(ステップS60)の一例を示すフローチャートである。まず、ステップS600では、予測対象の物理量説明変数データセットX
predに含まれる予測対象の物理量説明変数データベクトルx
predを順次選択し、ステップS610~S613を繰り返すループ処理を行うことで、予測対象の物理量説明変数データベクトルx
predの各々に対して、外れ値判定モデルf
odを用いた外れ値判定処理を行う。
【0082】
ステップS610では、ステップS600で選択した予測対象の物理量説明変数データベクトルxpredを、処理用のパイナンバー変換マトリックスPによりパイナンバー変換することで、予測対象のパイナンバー説明変数データベクトルξpredを生成する。予測対象の物理量説明変数データベクトルxpredに対するパイナンバー変換処理、及び、予測対象の物理量説明変数データセットXpredに対するパイナンバー変換処理は、[数10]式と同様に、以下の[数12]式で表される。
【0083】
【0084】
次に、ステップS611では、予測対象のパイナンバー説明変数データベクトルξpredが、外れ値判定モデルfodの外れ値でないか否かに応じて、その予測対象の物理量説明変数データベクトルxpredに対して未知の物理量目的変数データypredの予測が、パイナンバー変換マトリックスPを用いて可能か否かを判定する。
【0085】
ステップS611にて、外れ値判定モデルfodの外れ値でない、すなわち、予測が可
能と判定した場合には(S611:Yes)、ステップS612に進み、そのときのパイナンバー説明変数データベクトルξpredをパイナンバー説明変数データベクトルξinlier,iに代入し、そのパイナンバー説明変数データベクトルξinlier,iに対応する物理量説明変数データベクトルxpredを物理量説明変数データベクトルxinlier,iに代入する。なお、予測が可能したパイナンバー説明変数データベクトルξinlier,iの集合をパイナンバー説明変数データセットΞinlierで表し、物理量説明変数データベクトルxinlier,iの集合を物理量説明変数データセットXinlierで表すものとする。
【0086】
一方、ステップS611にて、外れ値判定モデルfodの外れ値である、すなわち、予測が不可能と判定した場合には(S611:No)、ステップS613に進み、そのときのパイナンバー説明変数データベクトルξpredをパイナンバー説明変数データベクトルξoutlier,iに代入し、そのパイナンバー説明変数データベクトルξoutlier,iに対応する物理量説明変数データベクトルxpredを物理量説明変数データベクトルxoutlier,iに代入する。なお、予測が不可能と判定したパイナンバー説明変数データベクトルξoutlier,iの集合をパイナンバー説明変数データセットΞoutlierで表し、物理量説明変数データベクトルxoutlier,iの集合を物理量説明変数データセットXoutlierで表すものとする。
【0087】
なお、ステップS60において、学習対象のパイナンバー説明変数データセットΞtrainを基準にして作成された外れ値判定モデルfodを用いて、予測対象のパイナンバー説明変数データセットΞpredの外れ値判定を行う処理を、以下の[数13]式で表すものとする。学習対象のパイナンバー説明変数データセットΞtrainは、学習対象の物理量説明変数データセットXtrainからパイナンバー変換マトリックスPにより変換されたものであり、予測対象のパイナンバー説明変数データセットΞpredは、予測対象の物理量説明変数データセットXpredからパイナンバー変換マトリックスPにより変換されたものである。
【0088】
【0089】
次に、ステップS620では、予測対象の物理量説明変数データベクトルxpredの各々に対する外れ値判定処理の判定結果に基づいて、予測可能率RP、及び、予測不可能率RUの少なくとも一方を算出する。具体的には、予測対象の物理量説明変数データセットXpredに含まれる物理量説明変数データベクトルxpredの総数(Xpredの総数)に対する、物理量説明変数データセットXinlierに含まれる物理量説明変数データベクトルxinlier,iの総数(Xinlierの総数)の割合に基づいて、予測可能率RPを算出する。また、予測対象の物理量説明変数データセットXpredに含まれる物理量説明変数データベクトルxpredの総数(Xpredの総数)に対する、物理量説明変数データセットXoutlierに含まれる物理量説明変数データベクトルxoutlier,iの総数(Xoutlierの総数)の割合に基づいて、予測不可能率RUを算出する。すなわち、予測可能率RP及び予測不可能率RUは、以下の[数14]式により算出される。
【0090】
【0091】
次に、
図8に戻ると、ステップS303では、学習対象のパイナンバーデータセットΠ
trainに基づいて、パイナンバー説明変数データベクトルξを入力とし、パイナンバー目的変数データηを出力とするパイナンバー予測モデルF
predを作成する。パイナンバー予測モデルF
predは、例えば、ニューラルネットワーク(ディープラーニングを含む)を用いた回帰モデルであり、学習対象のパイナンバーデータセットΠ
trainを学習用データとして、パイナンバー説明変数データベクトルξと、パイナンバー目的変数データηとの間の相関関係を機械学習することで作成される。なお、パイナンバー予測モデルF
predは、上記の例に限られず、他の手法やモデルにより作成されたものでもよい。
【0092】
次に、
図7に戻ると、ステップS40では、処理用のパイナンバー変換マトリックスPと、パイナンバー予測モデルF
predと、外れ値判定モデルf
odとを用いて、予測対象の物理量説明変数データセットX
predに対して未知の物理量目的変数データセットY
predの予測を行うモデル予測処理を行う。
【0093】
図10は、モデル予測処理(ステップS40)の一例を示すフローチャートである。まず、ステップS400では、予測対象の物理量説明変数データセットX
predに含まれる予測対象の物理量説明変数データベクトルx
predを順次選択し、ステップS410~S421を繰り返すループ処理を行うことで、予測対象の物理量説明変数データベクトルx
predの各々に対して算出処理を行う。なお、算出処理は、ステップS610~S613と同様のステップS410~S413を含むものである。
【0094】
ステップS410では、ステップS400で選択した予測対象の物理量説明変数データベクトルxpredを、処理用のパイナンバー変換マトリックスPによりパイナンバー変換することで、予測対象のパイナンバー説明変数データベクトルξpredを生成する。
【0095】
次に、ステップS411では、予測対象のパイナンバー説明変数データベクトルξpredが、外れ値判定モデルfodの外れ値でないか否かに応じて、その予測対象の物理量説明変数データベクトルxpredに対して未知の物理量目的変数データypredの予測が、パイナンバー変換マトリックスPを用いて可能か否かを判定する。
【0096】
ステップS411にて、予測が可能と判定した場合には(S411:Yes)、ステップS412にて、そのときの予測対象のパイナンバー説明変数データベクトルξpredをパイナンバー説明変数データベクトルξinlier,iに代入し、そのパイナンバー説明変数データベクトルξinlier,iに対応する物理量説明変数データベクトルxpredを物理量説明変数データベクトルxinlier,iに代入し、ステップS420に進む。一方、ステップS411にて、予測が不可能と判定した場合には(S411:No)、ステップS413にて、そのときの予測対象のパイナンバー説明変数データベクトルξpredをパイナンバー説明変数データベクトルξoutlier,iに代入し、そのパイナンバー説明変数データベクトルξoutlier,iに対応する物理量説明変数データベクトルxpredを物理量説明変数データベクトルxoutlier,iに代入し、ステップS410に戻る。
【0097】
次に、ステップS420では、予測対象のパイナンバー説明変数データベクトルξinlier,iを、ステップS30で作成されたパイナンバー予測モデルFpredに入力することで未知のパイナンバー目的変数データηinlier,iを出力する。なお、ステップS420において、パイナンバー予測モデルFpredを用いて、予測対象のパイナンバー説明変数データベクトルξinlier,iから未知のパイナンバー目的変数データηinlier,iを算出する処理、及び、予測対象のパイナンバー説明変数データベクトルΞinlierから未知のパイナンバー目的変数データΗinlierを算出する処理を、以下の[数15]式で表すものとする。
【0098】
【0099】
次に、ステップS421では、ステップS420で出力された未知のパイナンバー目的変数データηinlier,iから、予測対象の物理量説明変数データベクトルxinlier,iと、パイナンバー変換マトリックスPとに基づいて、未知の物理量目的変数データyinlier,iを算出する。具体的には、以下の[数16]式で示すように、物理量目的変数を含む特定のパイナンバーπv1の定義式に、ステップS420で出力された未知のパイナンバー目的変数データηinlier,i(=πinlier,i,1)と、予測対象の物理量説明変数データベクトルxinlier,iとを代入することにより、未知の物理量目的変数データyinlier,iを算出する。[数16]式における「xinlier,i,j」は、予測対象の物理量説明変数データセットXinlierに含まれるi番目の物理量説明変数データベクトルxinlier,iの第j成分(j=1,…,n-1)を表す。また、[数16]式における「p1,j」は、処理用のパイナンバー変換マトリックスPにおける第1行目のパイナンバー変換ベクトルp1の第k成分(k=1,…,n)を表す。
【0100】
【0101】
なお、ステップS420において、未知のパイナンバー目的変数データセットΗinlier,iから、予測対象の物理量説明変数データセットXinlierと、パイナンバー変換マトリックスPとに基づいて、未知の物理量目的変数データセットYinlierを算出する処理を、「fy」という関数を導入し、以下の[数17]式で表すものとする。なお、物理量説明変数データセットXinlierは、対応するパイナンバー説明変数データセットΞinlierから直ちに求められるから、[数17]式の第1式は、第2式により定義し直すことができる。
【0102】
【0103】
以上のようにして、
図7乃至
図10に示すパイナンバー予測モデル法による第1の現象予測処理S1では、パイナンバー変換マトリックスPを用いて、パイナンバー予測モデルF
pred及び外れ値判定モデルf
odを作成し、予測対象の物理量説明変数データセットX
predに対して未知の物理量目的変数データセットY
predを予測する。パイナンバー予測モデル法による一連の処理を、「f
π model」という関数を導入し、以下の[数18]式で表すものとする。[数18]式における第1式は、[数15]式から変形され、さらに[数13]式を用いて変形された。予測対象のパイナンバー説明変数データセットΞ
pred、学習対象のパイナンバー説明変数データセットΞ
train、及び、学習対象のパイナンバー目的変数データセットΗ
trainは、予測対象の物理量説明変数データセットX
pred、学習対象の物理量説明変数データセットX
train、及び、学習対象の物理量目的変数データセットY
trainから、[数11]式、及び、[数12]式に示すように、処理用のパイナンバー変換マトリックスPによりパイナンバー変換することでそれぞれ求められるため、[数18]式の第1式は、第2式に変形される。
【0104】
【0105】
(5-3)パイナンバー予測モデル法による予測性能の検証結果
以下の[表3]に示す物理量データセットQ(=A1~A3、B1、C1)を用いて、パイナンバー予測モデル法による第1の現象予測処理S1の予測性能を検証した結果について説明する。
【0106】
【0107】
物理量データセットA1、B1、C1は、学習対象の物理量データセットQtrainとして用いる。物理量データセットA1~A3は、予測性能を検証するための予測対象の物理量データセットQtrainとして用いる。物理量データセットA1~A3、B1、C1の各々における条件数は、それぞれ1000条件とした。
【0108】
物理量データセットA1の物理量説明変数は、[表3]に示した領域内にランダムな一様分布として作成した。物理量データセットA2、A3は、物理量データセットA1の各物理量説明変数の範囲のセンター値を維持したまま、min値及びmax値を外側に広げて作成した。物理量データセットA2、A3の物理量説明変数の分布範囲は、それぞれ物理量データセットA1に対して2倍及び3倍の分布範囲拡大率となるように作成した。物理量データセットB1の物理量説明変数m1、x1s、t1eは、物理量データセットA1のセンター値の1水準のみ(定数)に固定して作成した。他の物理量説明変数は、物理量データセットA3と同じ範囲でランダムに一様分布しているが、物理量データセットA3とは異なる乱数シードを用いて作成した。物理量データセットC1の物理量説明変数t1eは、物理量データセットA1の最小値と最大値の2水準のみにランダムに振り分けて作成した。他の物理量説明変数は、物理量データセットA1と同じ範囲でランダムに一様分布しているが、物理量データセットA1とは異なる乱数シードを用いて作成した。
【0109】
学習対象の物理量データセットA1、B1、C1を用いて、モデル作成処理S30にてパイナンバー予測モデルFpred、及び、外れ値判定モデルfodを作成し、予測対象の物理量データセットA1~A3に含まれる物理量説明変数データベクトルxpredから、第1の現象予測処理S1にて未知の物理量目的変数データypredを予測し、その予測した未知の物理量目的変数データypredの値(物理量目的変数x2eの予測値)と、物理量データセットA1~A3に含まれる物理量説明変数データベクトルxpredから動力学シミュレーションにより求められた物理量目的変数データypredの値(物
理量目的変数x2eの真値)とを比較することで、予測性能を検証した。
【0110】
(5-3-1)分布範囲拡大率が2倍の場合について
以下に、学習対象として、[表3]に示す物理量データセットA1を用い、予測対象として、[表3]に示す物理量データセットA2を用いた場合(分布範囲拡大率が2倍)における、パイナンバー予測モデル法による予測性能を検証した結果について説明する。
【0111】
図11は、物理量データセットA1、A2を示す散布図マトリックスである。対角のグラフは各物理量のヒストグラム、他のグラフは物理量の全ての組み合わせについての散布図を表す。白い点は、学習対象の物理量データセットA1、黒い点は、予測対象の物理量データセットA2を表す。白い点は、不透明な点として黒い点の上に表示されているため、白い点が表示されている領域にはその裏側に黒い点が存在している場合がある。その様子は、ヒストグラムにおける白いバーと黒いバーとが重なる様子により表現されている(以後のすべての散布図マトリックスにおいて同様である)。
【0112】
物理量データセットA1、A2に含まれる物理量説明変数データセットXtrain、Xpredは、物理量データセットA1の物理量説明変数の最大値で正規化したものである。そのため、物理量データセットA1の物理量説明変数の最大値は1となっており、すべての説明変数がほぼ一様に分布している。
【0113】
従来の機械学習により学習対象の物理量データセットA1を用いて物理量回帰モデルを作成した場合、予測精度の悪化を招くことなく予測が可能な範囲は、物理量データセットA1が分布する内挿範囲内に限られる。ここでは、物理量説明変数が7個あり、予測対象の物理量データセットA2では、すべての物理量説明変数の分布範囲が、物理量データセットA1に対して2倍になっている。したがって、物理量データセットA2のうち従来の機械学習により予測可能な物理量説明変数データベクトルxinlier,iの割合は、(1/2)7=0.78%、すなわち、1000個の物理量説明変数データベクトルxのうち8個程度である。
【0114】
図12は、物理量データセットA1、A2をそれぞれパイナンバー変換したパイナンバーデータセットを示す散布図マトリックスである。
図12に示すパイナンバーデータセットΠ
train、Ξ
predは、[数4]式のパイナンバー変換マトリックスPを用いて、物理量データセットA1、A2をそれぞれパイナンバー変換したものであり、物理量データセットA1、A2からそれぞれ変換されたパイナンバーデータセットΠ
train、Ξ
predに対して同一の変換パラメータにより学習データ変換処理(Box-Cox変換及び標準化)を行った。
図12(a)は、学習データ変換処理が行われる前のパイナンバーデータセットΠ
train、Ξ
predである。
図12(b)は、学習データ変換処理が行われた後のパイナンバー説明変数データセットΞ
train、Ξ
predである。物理量データセットA1、A2の分布の形は類似しているが、物理量データセットA2の分布範囲は、物理量データセットA1の分布範囲よりも広くなっている。
【0115】
パイナンバーπ
vは、物理量q
vの乗べき積の形をしているので、
図12(a)に示すパイナンバーデータセットΠ
train、Ξ
predの分布では、粗密の偏りが大きい。一方、
図12(b)に示すパイナンバー説明変数データセットΞ
train、Ξ
predの分布では、各パイナンバー説明変数のヒストグラムは、
図12(a)に比べて左右対称な山型の形をしている。
【0116】
図13は、物理量データセットA1から作成されたパイナンバー予測モデルF
predの検証結果を示す図である。
図13におけるパイナンバー予測モデルF
predは、
図12(b)に示す学習対象の物理量データセットA1を用いて、その物理量データセットA
1から変換されたパイナンバーデータセットΠ
trainをランダムに学習用パイナンバーデータベクトル750個と、検証用パイナンバーデータベクトル250個とに分割して作成したものである。パイナンバー予測モデルF
predにおける学習及び検証結果の決定係数は、それぞれ0.999及び0.999であった。
【0117】
図14は、物理量データセットA1から作成された外れ値判定モデルf
odによる物理量データセットA2の外れ値判定結果(予測可能、又は、予測不可能)を示す散布図マトリックスである。外れ値判定モデルf
odは、学習対象の物理量データセットA1から変換されたパイナンバー説明変数データセットΞ
trainを基準にして作成されたものであり、予測対象の物理量データセットA2の各点(パイナンバー説明変数データベクトルξ
pred)が、その外れ値判定モデルf
odの外れ値でないか否かを判定した。なお、外れ値判定モデルf
odは、「Isolation Forest」を採用し、外れ値判定の基準値は、「contamination=0.15」と設定した。
【0118】
外れ値判定モデルf
odによる外れ値の判定結果として、
図14に示す白い点は、予測が可能(外れ値でない)と判定されたパイナンバー説明変数データベクトルξ
inlier,iに対応する物理量説明変数データベクトルx
inlier,i(物理量説明変数データセットX
inlier)の分布を表す。また、
図14に示す黒い点は、予測が不可能(外れ値である)と判定されたパイナンバー説明変数データベクトルξ
outlier,iに対応する物理量説明変数データベクトルx
outlier,i(物理量説明変数データセットX
outlier)の分布を表す。予測が可能と判定された物理量説明変数データベクトルx
inlier,i(
図14に示す白い点)が、従来の機械学習では外挿とみなされる
図11に示す物理量データセットA1の分布領域(
図11に示す白い点)の外側にも分布していることが分かる。
【0119】
図15は、パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。横軸が予測値、縦軸が真値(正解)をそれぞれ表し、各プロットは、予測対象の物理量データセットA2の各点(物理量説明変数データベクトルx
pred)に対応する物理量目的変数データy
predをそれぞれ表す。
【0120】
図15(a)は、予測対象の物理量データセットA2のうち、予測が可能(外れ値でない)と判定された物理量説明変数データベクトルx
inlier,iに対応する物理量目的変数データy
inlier,iを示す。
図15(a)に示す、予測可能な物理量説明変数データベクトルx
inlier,iの数は、196個(予測可能率R
P=19.6%)であり、その決定係数は、0.998であった。
【0121】
図15(b)は、予測が不可能(外れ値である)と判定された物理量説明変数データベクトルx
outlier,iに対応する物理量目的変数データy
outlierを示す。
図15(b)に示す、予測不可能な物理量説明変数データベクトルx
outlier,iの数は、804個(予測不可能率R
U=80.4%)であり、決定係数は、0.931であった。
【0122】
図16は、従来の物理量回帰モデルによる物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。従来の機械学習により学習対象の物理量データセットA1から作成された物理量回帰モデル(従来技術)を用いて、予測対象の物理量データセットA2(1000個の物理量説明変数データベクトルx)に対して物理量目的変数データセットY
predを予測したときの結果を示す。
【0123】
従来の物理量回帰モデル(従来技術)では、学習対象の物理量データセットA1に対し
て外挿範囲となるデータについて予測が可能か否かを判断できないため、物理量データセットA2のすべてについて物理量目的変数データy
predを予測した。そのため、
図16に示す検証結果は、外挿範囲となる場合も含むので、従来の物理量回帰モデル(従来技術)は、パイナンバー予測モデル法において予測可能な物理量説明変数データベクトルx
inlier,iに対する予測よりも予測精度が悪く、決定係数は、0.899であった。
【0124】
(5-3-2)分布範囲拡大率が3倍の場合について
以下に、学習対象として、[表3]に示す物理量データセットA1を用い、予測対象として、[表3]に示す物理量データセットA3を用いた場合(分布範囲拡大率が3倍)における、パイナンバー予測モデル法による予測性能を検証した結果について説明する。
【0125】
図17は、物理量データセットA1、A3を示す散布図マトリックスである。
図17は、
図11に対応するものであり、白い点は学習対象の物理量データセットA1、黒い点は予測対象の物理量データセットA3を表す。物理量データセットA1、A3に含まれる物理量説明変数データセットは、物理量データセットA1の物理量説明変数の最大値で正規化したものである。ここでは、物理量説明変数が7個あり、物理量データセットA3では、すべての物理量説明変数の分布範囲が、物理量データセットA1に対して3倍になっている。したがって、物理量データセットA3のうち従来の機械学習により予測可能な割合は、(1/3)
7=0.045%、すなわち、1000個の物理量説明変数データベクトルxのうち1個未満である。
【0126】
図18は、物理量データセットA1、A3をそれぞれパイナンバー変換したパイナンバーデータセットを示す散布図マトリックスである。
図19は、物理量データセットA1から作成された外れ値判定モデルf
odによる物理量データセットA3の外れ値判定結果(予測可能、又は、予測不可能)を示す散布図マトリックスである。
図20は、パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。
図21は、従来の物理量回帰モデルによる物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。
図18乃至
図21は、
図12、
図14乃至
図16にそれぞれ対応する。パイナンバー予測モデルF
pred及び外れ値判定モデルf
odは、分布範囲拡大率が2倍である場合と同様のものを用い、外れ値判定の基準値も同一であるものとした。
【0127】
図20(a)に示す、予測可能な物理量説明変数データベクトルx
inlier,iの数は、47個(予測可能率R
P=4.7%)であり、その決定係数は、0.992であった。また、
図20(b)に示す、予測不可能な物理量説明変数データベクトルx
outlier,iの数は、953個(予測不可能率R
U=95.3%)であり、決定係数は、0.698であった。一方、
図21に示す、従来の機械学習により学習対象の物理量データセットA1から作成された物理量回帰モデルを用いて、予測対象の物理量データセットA3に対して物理量目的変数データセットY
predを予測したときの決定係数は、0.627であった。
【0128】
(5-3-3)3つの物理量説明変数を1水準に固定した場合について
以下に、学習対象として、[表3]に示す物理量データセットB1(3つの物理量説明変数が1水準に固定)を用い、予測対象として、[表3]に示す物理量データセットA1を用いた場合における、パイナンバー予測モデル法による予測性能を検証した結果について説明する。
【0129】
図22は、物理量データセットB1、A1を示す散布図マトリックスである。
図22は、
図11に対応するものであり、白い点は学習対象の物理量データセットB1、黒い点は
予測対象の物理量データセットA1を表す。物理量データセットB1では、3つの物理量説明変数が1水準に固定されているため、直線状又はすべての点が重なった1点として表されている。
【0130】
図23は、物理量データセットB1、A1をそれぞれパイナンバー変換したパイナンバーデータセットを示す散布図マトリックスである。
図24は、物理量データセットB1から作成されたパイナンバー予測モデルF
predの検証結果を示す図である。
図25は、物理量データセットB1から作成された外れ値判定モデルf
odによる物理量データセットA1の外れ値判定結果(予測可能、又は、予測不可能)を示す散布図マトリックスである。
図26は、パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。
図27は、従来の物理量回帰モデルによる物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。
図23乃至
図27は、
図12乃至
図16にそれぞれ対応する。
【0131】
学習対象の物理量データセットB1では、3つの物理量説明変数が1水準に固定されているが、一様に分布する他の物理量説明変数が1次の変数として各パイナンバーの分子に1つずつ含まれている。そのため、物理量データセットB1から変換されたパイナンバーデータセットΠ
trainの分布には、
図22の物理量データセットB1に示すような直線状又は1点の形で表される部分が存在せず、
図23に示すように、一様分布となった。
【0132】
また、学習対象の物理量データセットB1には、1水準に固定された3つの物理量説明変数の値が変化することで物理量目的変数に与える影響に関する情報が含まれていないため、物理量回帰モデルの作成には適さない。一方、物理量データセットB1から変換されたパイナンバーデータセットΠtrainの分布は、上記のように、一様分布となっているため、パイナンバー予測モデルFpredの作成に適している。したがって、予測対象の物理量データセットA1において、1水準に固定された物理量説明変数が物理量データセットB1の固定値とは別の値に振られた場合であっても、学習対象の物理量データセットB1から変換されたパイナンバーデータセットΠtrainの分布領域(パイナンバー空間の分布領域)に対して内挿範囲に含まれる場合には、予測が可能となる。
【0133】
学習対象の物理量データセットB1では、3つの物理量説明変数が1水準に固定されることは、パイナンバーデータセットΠtrainの分布領域を狭める方向に作用しているが、他の4つの物理量説明変数が予測対象の物理量データセットA1の3倍の範囲に分布していることは、パイナンバーデータセットΠtrainの分布領域を広げる方向に作用している。その結果、予測対象の物理量データセットA1に対する各パイナンバー説明変数データベクトルξpredの大部分が、パイナンバーデータセットΠtrainが分布している領域(パイナンバー空間の分布領域)に対して内挿範囲に含まれる。
【0134】
図26(a)に示す、予測可能な物理量説明変数データベクトルx
inlier,iの数は、997個(予測可能率R
P=99.7%)であり、その決定係数は、0.999であった。学習対象の物理量データセットB1において、3つの物理量説明変数が固定されていても、他の物理量説明変数が広く分布している効果により、パイナンバー予測モデルF
predによる予測は広範囲で可能となった。また、
図26(b)に示す、予測不可能な物理量説明変数データベクトルx
outlier,iの数は、3個(予測不可能率R
U=0.3%)であり、決定係数は、0.991であったが、数が少ないため、これは参考値である。
【0135】
一方、
図27に示す、従来の機械学習により学習対象の物理量データセットB1から作成された物理量回帰モデル(従来技術)を用いて、予測対象の物理量データセットA1に
対して物理量目的変数データセットY
predを予測したときの決定係数は、0.491であった。学習対象の物理量データセットB1では、3つの物理量説明変数が固定されていることで、それらの物理量説明変数の値が変化することで物理量目的変数に与える影響に関する情報を持たない。そのため、予測対象の物理量データセットA1において、1水準に固定された物理量説明変数が物理量データセットB1の固定値とは別の値に振られた物理量説明変数データベクトルx
predは、外挿予測となるため、予測精度は悪化したものと考えられる。
【0136】
(5-3-4)1つの物理量説明変数を2水準に固定した場合について
以下に、学習対象として、[表3]に示す物理量データセットC1(1つの物理量説明変数が2水準に固定)を用い、予測対象として、[表3]に示す物理量データセットA1を用いた場合における、パイナンバー予測モデル法による予測性能を検証した結果について説明する。
【0137】
図28は、物理量データセットC1、A1を示す散布図マトリックスである。
図28は、
図11に対応するものであり、白い点は学習の物理量データセットC1、黒い点は予測対象の物理量データセットA1を表す。学習対象の物理量データセットC1では、1つの物理量説明変数t
1eが2水準に固定されているため、2つの直線状の分布として表されている。予測対象の物理量データセットA1は、学習対象の物理量データセットC1の最小値と最大値の範囲内という意味では内挿であるが、外れ値の観点では、物理量説明変数t
1eに関して分割された2つの分布領域があり、その間に予測対象の物理量データセットA1の物理量説明変数t
1eが分布するので、外挿予測と同様に、従来の物理量回帰モデルでは予測が困難である。
【0138】
図29は、物理量データセットC1、A1をそれぞれパイナンバー変換したパイナンバーデータセットを示す散布図マトリックスである。
図30は、物理量データセットC1から作成されたパイナンバー予測モデルF
predの検証結果を示す図である。
図31は、物理量データセットC1から作成された外れ値判定モデルf
odによる物理量データセットA1の外れ値判定結果(予測可能、又は、予測不可能)を示す散布図マトリックスである。
図32は、パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。
図33は、従来の物理量回帰モデルによる物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。
図29乃至
図33は、
図12乃至
図16にそれぞれ対応する。
【0139】
物理量説明変数t
1eを含むパイナンバーには、一様に分布する他の物理量説明変数が含まれるため、学習対象の物理量データセットC1から変換されたパイナンバーデータセットΠ
trainの分布として、
図29に示す各散布図では、2次元的な分布が見られる。これにより、学習対象の物理量データセットC1では、2水準に固定されている物理量説明変数t
1eが、それらの固定値とは異なる値に振られた予測対象の物理量説明変数データベクトルx
predに対しても予測可能となる場合がある。
図30に示すパイナンバー予測モデルF
predにおける学習及び検証結果の決定係数は、それぞれ0.999及び1.000であった。
【0140】
図32(a)に示す、予測可能な物理量説明変数データベクトルx
inlier,iの数は、871個(予測可能率R
P=87.1%)であり、その決定係数は、0.999であった。学習対象の物理量データセットC1において、1つの物理量説明変数t
1eが2水準に固定されていても、他の物理量説明変数が広く分布している効果により、パイナンバー予測モデルF
predによる予測は広範囲で可能となった。
【0141】
また、
図32(b)に示す、予測不可能な物理量説明変数データベクトルx
outlier,iの数は、129個(予測不可能率R
U=12.9%)であり、決定係数は、0.999であった。予測対象の物理量データセットA1の物理量説明変数t
1eの値は、学習対象の物理量データセットC1で2水準に固定された固定値の間に分布しているので、物理量データセットC1から変換されたパイナンバーデータセットΠ
trainの分布領域から外れているような予測対象のパイナンバー説明変数データベクトルξ
predでも、物理量データセットC1の分布に挟まれるような場所に位置している。そのため、パイナンバー空間では、完全な外挿範囲ではなく、密度の低い内挿範囲とみなされることもできるので、外れ値と判定されても予測精度が悪化しにくかったと考えられる。なお、分布範囲拡大率が3倍の物理量データセットA3に対して同様の予測を行うと、予測可能な物理量説明変数データベクトルx
inlier,iの数は、258個(予測可能率R
P=25.8%)であり、決定係数は、0.994と高い精度を示したが、予測不可能な物理量説明変数データベクトルx
outlier,iの数は、742個(予測不可能率R
U=74.2%)であり、決定係数は、0.941に悪化した。
【0142】
一方、
図33に示す、従来の機械学習により学習対象の物理量データセットC1から作成された物理量回帰モデル(従来技術)を用いて、予測対象の物理量データセットA1に対して物理量目的変数データセットY
predを予測したときの決定係数は、-4368であった。予測対象の物理量データセットA1において、物理量説明変数t
1eが最小値と最大値の間の値に振られた場合、外挿予測と同様に、予測精度は悪化した。
【0143】
(6-1)統合パイナンバー予測モデル法の基本原理について
次に、統合パイナンバー予測モデル法による第2の現象予測処理S2について説明する。初期のパイナンバー変換マトリックスP0に対して行基本変形を行うことにより、複数(m個)のパイナンバー変換マトリックスPj(j=0,…,m-1)を作成することが
できるが、そのような複数のパイナンバー変換マトリックスPjにそれぞれ対応するパイナンバー空間(複数のパイナンバー軸が構成する空間)と、各パイナンバー空間におけるパイナンバーデータセットΠtrainの分布形状とは異なるものである。そのため、各パイナンバー空間での外れ値判定の基準値を同じにしたとしても、外れ値でない(内挿)と判定される予測対象の物理量説明変数データベクトルxpredは、パイナンバー変換マトリックスPjの形に応じて異なることになる。したがって、同じ学習対象の物理量データセットQtrain及び外れ値判定の基準値が用いられたとしても、各パイナンバー空間での外れ値判定にて予測が可能と判定される物理量説明変数データベクトルの組み合わせは、パイナンバー変換マトリックスPjの形に応じて異なることになる。
【0144】
上記の点について、具体例を挙げて説明する。[数3]式に示すパイナンバーセットΠVは、パイナンバー変換マトリックスPに対する行基本変形により、以下の[数19]式に示す2つのパイナンバーセットΠex1、Πex2に変形される。
【0145】
【0146】
パイナンバーセットΠex1、Πex2は、物理量説明変数t1e、t2eが入れ替えられた形になっている。パイナンバーセットΠex1の形では、t1eが3つのパイナンバーの分母に、t2eは1つのパイナンバーの分子にのみ含まれている。パイナンバーセットΠex2の形では、t2eが3つのパイナンバーの分母に、t1eは1つのパイナン
バーの分子に
のみ含まれている。
【0147】
図34は、学習対象のデータセットA1に対してパイナンバーセットΠ
ex1、Π
ex2が用いられたときに、予測対象のデータセットA2のうち外れ値でないと判定された物理量説明変数t
1e、t
2eのヒストグラムをそれぞれ示す図である。ここでは、外れ値判定の基準値は、「contamination=0.20」と設定した。
【0148】
予測対象の物理量説明変数データベクトルx
predが、学習対象の物理量データセットQ
trainが分布している領域の端の部分(最小値及び最大値に近い部分)に位置するような場合、その物理量説明変数データベクトルx
predから変換されたパイナンバー説明変数データベクトルξ
predは外れ値と判定されやすい。特に、物理量説明変数x
vがパイナンバーπ
vの分母に含まれている場合、その物理量説明変数x
vに対する物理量データの値が小さいほどパイナンバーの値が大きくなりやすいので、
図34(b)のt
1e及び
図34(c)のt
2eの左端部分のデータ数が減りやすい。なお、パイナンバーセットΠ
ex1、Π
ex2では、物理量説明変数t
1e、t
2eを入れ替えられた形をしているので、
図34(b)の上下を入れ替えられると、
図34(c)に類似する。なお、分布の粗密の偏りの低減のために学習データ変換処理(Box-Cox変換等)が施された場合でも、パイナンバー変換マトリックスP
jの形が変わると、外れ値判定により抽出される予測可能な物理量説明変数データベクトルx
predが変わることは同様である。
【0149】
上記の2つのパイナンバーセットΠ
ex1、Π
ex2を用いたとき、予測可能な物理量説明変数データベクトルx
predは、それぞれ182個(予測可能率R
P=18.2%)、189個(予測可能率R
P=18.9%)であったが、パイナンバーセットΠ
ex1、Π
ex2の少なくともどちらか一方で予測可能な物理量説明変数データベクトルx
predは、226個(予測可能率R
P=22.6%)に増加した。すなわち、2つのパイナンバーセットΠ
ex1、Π
ex2を用いたときには、単一のパイナンバー変換マトリックスP
0が用いられたときよりも、予測可能率R
Pが増加した。これは、
図34に示すように、2つのパイナンバーセットΠ
ex1、Π
ex2では、予測可能な(外れ値でない)物理量説明変数データベクトルx
predが異なるからである。
【0150】
統合パイナンバー予測モデル法による第2の現象予測処理S2は、上記のような性質を利用したものであり、行基本変形により作成された複数(m個)のパイナンバー変換マトリックスPjにそれぞれ対応する複数のパイナンバー空間において、外れ値判定モデルfod,j及びパイナンバー予測モデルFpred,jをそれぞれ作成し、予測対象の物理量説明変数データベクトルxpredに対して各外れ値判定モデルfod,jによる外れ値判定をそれぞれ行い、外れ値でないと判定されたパイナンバー空間に対応するパイナンバー予測モデルFpredを用いることで、未知の物理量目的変数データypredの予測が可能となる。これにより、統合パイナンバー予測モデル法では、予測範囲(予測可能率RP)の拡大を実現することができる。
【0151】
図35は、統合パイナンバー予測モデル法の概要を一般的な例で示す模式図である。
図35の「x
INLIER,i」で示すプロットは、2つのパイナンバー予測モデルF
pred,0、F
pred,jのいずれによっても物理量目的変数データy
predの予測が可能な物理量説明変数データベクトルx
predである。
【0152】
物理量空間は、1つしか存在しないが、パイナンバー空間は、複数のパイナンバー変換マトリックスPjに応じて多数生成され、各パイナンバー空間で予測可能な(外れ値でない)パイナンバー説明変数データセットΞinlier,j(すなわち、未知の物理量目
的変数セットYinlier,jを予測可能な物理量説明変数データセットXinlier,j)は異なる。複数のパイナンバー変換マトリックスPjにそれぞれ対応するパイナンバー空間の各々において、予測が可能(外れ値でない)と判定されたパイナンバー説明変数データセットΞinlier,jに対応する物理量説明変数データセットXinlier,jと表し、予測が不可能(外れ値である)と判定されたパイナンバー説明変数データセットΞoutlier,jに対応する物理量説明変数データセットXoutlier,jと表す場合、統合パイナンバー予測モデル法による予測が可能な物理量説明変数データセットXINLIERは、少なくとも1つのパイナンバー空間(パイナンバー変換情報Pj)において予測が可能と判定された物理量説明変数データセットXinlier,jの和集合として、以下の[数20]式で表される。また、統合パイナンバー予測モデル法による予測が不可能な物理量説明変数データセットXOUTLIERは、予測対象の物理量説明変数データセットXpredから物理量説明変数データセットXINLIERを除く差集合として、以下の[数20]式で表される。
【0153】
【0154】
これにより、統合パイナンバー予測モデル法では、予測範囲(予測可能率RP)の拡大が実現されるが、各パイナンバー空間における外れ値判定の基準を緩和する必要がないため、単一のパイナンバー空間において外れ値判定の基準を緩和するよりも高い決定係数が維持されやすい。
【0155】
(6-2)統合パイナンバー予測モデル法の詳細について
図36乃至
図39は、統合パイナンバー予測モデル法による第2の現象予測処理(ステップS2)の一例を示すフローチャートである。第2の現象予測処理S2において、第1の現象予測処理S1と共通の処理には、
図7乃至
図10と共通のステップ番号を付与し、以下では、第2の現象予測処理S2における特徴的な処理を中心に説明する。
【0156】
まず、ステップS100では、初期のパイナンバー変換マトリックスP0と、学習対象の物理量データセットQtrainと、予測対象の物理量説明変数データセットXpredとが入力される。そして、ステップS110では、学習対象の物理量データセットQtrainのデータ密度を向上させる学習データ密度向上処理を行う。
【0157】
次に、ステップS21では、複数(m個)のパイナンバー変換マトリックスPj(j=0,…,m-1)を作成する複数パイナンバー作成処理を行う。複数パイナンバー作成処
理では、例えば、ステップS100で入力された初期のパイナンバー変換マトリックスP0に対して、例えば、行基本変形及び簡約化を行うことにより、複数のパイナンバー変換マトリックスPjを作成する。なお、複数のパイナンバー変換マトリックスPjを作成する際、乱数が用いられてもよい。また、複数のパイナンバー変換マトリックスPjには、意図的に特定のパイナンバー変換マトリックスが含まれるようにしてもよいし、データ解析者の知見に基づいて作成されたパイナンバー変換マトリックスが含まれるようにしてもよい。
【0158】
次に、ステップS31では、複数のパイナンバー変換マトリックスPjを用いて、学習対象の物理量データセットQtrainから、複数のパイナンバー予測モデルFpred,j、及び、複数の外れ値判定モデルfod,jを作成する統合モデル作成処理を行う。
【0159】
図37は、統合モデル作成処理(ステップS31)の一例を示すフローチャートである。まず、ステップS310では、複数のパイナンバー変換マトリックスP
jから処理用のパイナンバー変換マトリックスPを順次選択し、ステップS300、S302を繰り返すループ処理を行うことで、複数のパイナンバー変換マトリックスP
jにそれぞれ対応する複数の外れ値判定モデルf
od、jを作成する。
【0160】
次に、ステップS61では、ステップS21で作成された複数のパイナンバー変換マトリックスPjと、複数の外れ値判定モデルfod、jとを用いて、予測対象の物理量説明変数データセットXpredに対して、統合予測可能率TRP、及び、予測不可能率TRUの少なくとも一方を算出する統合モデル評価処理を行う。
【0161】
図38は、統合モデル評価処理(ステップS61)の一例を示すフローチャートである。まず、ステップS600では、予測対象の物理量説明変数データセットX
predに含まれる予測対象の物理量説明変数データベクトルx
predを順次選択し、さらに、ステップS601では、複数のパイナンバー変換マトリックスP
j及び外れ値判定モデルf
od、jから処理用のパイナンバー変換マトリックスP及び外れ値判定モデルf
odを順次選択し、S610~S613を繰り返す二重のループ処理を行うことで、予測対象の物理量説明変数データベクトルx
predの各々に対して、複数の外れ値判定モデルf
od、jの各々を用いた外れ値判定処理を行う。
【0162】
次に、ステップS621では、予測対象の物理量説明変数データベクトルxpredの各々に対する、複数の外れ値判定モデルfod、jの各々を用いた外れ値判定処理の判定結果に基づいて、統合予測可能率TRP、及び、統合予測不可能率TRUの少なくとも一方を算出する。具体的には、予測対象の物理量説明変数データセットXpredに含まれる物理量説明変数データベクトルxpredの総数(Xpredの総数)に対する、予測が可能と判定したパイナンバー変換マトリックスPjが少なくとも1つ存在する予測対象の物理量説明変数データベクトルxinlier,iの総数(XINLIERの総数)の割合に基づいて、統合予測可能率TRPを算出する。また、予測対象の物理量説明変数データセットXpredに含まれる物理量説明変数データベクトルxpredの総数(Xpredの総数)に対する、予測が可能と判定したパイナンバー変換マトリックスPjが存在しない予測対象の物理量説明変数データベクトルxoutlier,iの総数(XOUTLIERの総数)の割合に基づいて、統合予測不可能率TRUを算出する。すなわち、統合予測可能率TRP及び統合予測不可能率TRUは、以下の[数21]式により算出される。
【0163】
【0164】
なお、ステップS621では、統合予測可能率TRP及び統合予測不可能率TRUだけでなく、[数14]式を用いて、複数のパイナンバー変換マトリックスPjの各々に対する予測可能率RP及び予測不可能率RUの少なくとも一方をそれぞれ算出してもよいし、さらに、それらの平均値として、平均予測可能率ARP及び予測不可能率ARUの少なくとも一方を算出するようにしてもよい。
【0165】
次に、
図37に戻ると、ステップS320では、ステップS21で作成された複数のパイナンバー変換マトリックスP
jのうち、所定の選択条件を満たすパイナンバー変換マト
リックスP
jを選択するパイナンバー選択処理を行う。パイナンバー選択処理では、所定の選択条件として、例えば、外れ値判定処理にて予測が可能と判定した予測対象の物理量説明変数データベクトルx
inlier,jの総数を最大化するパイナンバー変換マトリックスP
jの組み合わせからパイナンバー予測モデルF
pred,jの総数を最小化するように、パイナンバー変換マトリックスP
jを選択する。
【0166】
外れ値判定処理にて予測が可能と判定した物理量説明変数データセットXINLIERのすべてが予測されるためには、必ずしもすべてのパイナンバー変換マトリックスPjが必要とされない場合もあり得る。以下の[表4]において、「〇」又は「×」は、5つの物理量説明変数データベクトルxpred,iの各々が、外れ値判定の判定結果として、各パイナンバー変換マトリックスPjにより予測可能又は予測不可能であることを表す。
【0167】
【0168】
物理量説明変数データベクトルxpred,0、xpred,1、xpred,2、xpred,4は、少なくとも1つのパイナンバー変換マトリックスP0~P4により予測可能であるので、物理量説明変数データセットXINLIERに含まれる。物理量説明変数データベクトルxpred,3は、いずれのパイナンバー変換マトリックスP0~P4によっても予測不可能であるので、物理量説明変数データセットXOUTLIERに含まれる。そして、物理量説明変数データセットXINLIERに含まれる物理量説明変数データベクトルxpred,0、xpred,1、xpred,2、xpred,4は、パイナンバー変換マトリックスP1、P4によりすべて予測可能となるので、他のパイナンバー変換マトリックスP0、P2、P3は、統合予測可能率TRPへの影響はない。したがって、表4の例では、ステップ320(パイナンバー選択処理)にて、2つのパイナンバー変換マトリックスP1、P4が選択されることで、後述のステップS300にて、2個のパイナンバー変換マトリックスP1、P4のみを用いて2つのパイナンバー予測モデルFpred,1、Fpred,2のみが作成されることになるため、モデル作成作業の効率化を図ることができる。
【0169】
次に、ステップS330では、ステップS320で選択されたパイナンバー変換マトリックスPjから処理用のパイナンバー変換マトリックスPを順次選択し、ステップS300、S303を繰り返すループ処理を行うことで、ステップS320で選択されたパイナンバー変換マトリックスPjに対応するパイナンバー予測モデルFpred,jを作成する。
【0170】
次に、
図36に戻ると、ステップS41では、複数のパイナンバー変換マトリックスP
jと、複数のパイナンバー変換マトリックスP
jにそれぞれ対応する複数のパイナンバー予測モデルF
pred,j及び複数の外れ値判定モデルf
od,jとを用いて、予測対象の物理量説明変数データセットX
predに対して未知の物理量目的変数データセットY
predの予測を行う統合モデル予測処理を行う。なお、ここでの複数のパイナンバー変換マトリックスP
jは、ステップS320で選択されたパイナンバー変換マトリックスP
jが用いられる。また、ステップS320が省略された場合には、ステップS21で作成されたパイナンバー変換マトリックスP
jが用いられる。
【0171】
図39は、統合モデル予測処理(ステップS41)の一例を示すフローチャートである。まず、ステップS400では、予測対象の物理量説明変数データセットX
predに含まれる予測対象の物理量説明変数データベクトルx
predを順次選択し、さらに、ステップS401では、複数のパイナンバー変換マトリックスP
j、パイナンバー予測モデルF
pred,j、外れ値判定モデルf
od、jから処理用のパイナンバー変換マトリックスP、パイナンバー予測モデルF
pred及び外れ値判定モデルf
odを順次選択し、ステップS410~S421を繰り返す二重のループ処理を行うことで、予測対象の物理量説明変数データベクトルx
predの各々に対して、複数のパイナンバー予測モデルF
pred,jの各々を用いた算出処理を行う。その結果、予測対象の物理量説明変数データベクトルx
predの各々に対して、複数のパイナンバー変換マトリックスP
j、パイナンバー予測モデルF
pred,j、外れ値判定モデルf
od、jをそれぞれ用いて、未知の物理量目的変数データy
inlier,iを算出する。
【0172】
ステップS430では、予測対象の物理量説明変数データベクトルxinlier,iに対して外れ値判定処理にて予測が可能と判定したパイナンバー変換マトリックスPjが複数存在するとき、複数の当該パイナンバー変換情報Pjの各々を用いた算出処理を行うことで算出した複数の未知の物理量目的変数データyinlier,iを合成する予測値合成処理を、予測対象の物理量説明変数データベクトルxpredの各々に対して行う。
【0173】
ステップS430の予測値合成処理にて、複数の物理量目的変数データyinlier,iを合成する手法として、例えば、物理量目的変数データyinlier,iの平均値を算出してもよいし、外れ値判定の評価値(外れの程度)を考慮した重み付けを用いて算出してもよい。[表4]の例では、パイナンバー変換マトリックスP1によるxpred,2に対する予測値ypredと、パイナンバー変換マトリックスP4によるxpred,2に対する予測値ypredとの平均値が、予測対象の物理量説明変数データベクトルxpred。2に対する未知の物理量目的変数データypredとして算出される。
【0174】
なお、[表4]において、パイナンバー変換マトリックスP1、P4のみではなく、すべてのパイナンバー変換マトリックスP1~P5を用いることで、予測精度が向上する利点がある。物理量目的変数データypredが、複数のパイナンバー変換マトリックスPjでそれぞれ予測されると、複数の予測値が得られる。それらが、予測が可能(外れ値でない)と判定されたパイナンバー予測モデルFpred,jによる予測値である場合でも、外れ値判定の評価値(外れの程度)が同程度とは限らない。そのため、外れ値判定の評価値が、基準値以下ではあるが、比較的大きく外れている側の物理量説明変数データベクトルxpredは、その周辺のデータ密度が小さいため、パイナンバー予測モデルFpred,jによる予測精度が悪化しやすい。一方、外れ値判定の評価値が小さい場合、予測精度は高くなる傾向がある。したがって、複数の予測値が、平均値又は重み付けを考慮した値として合成されると、偶然的に予測精度が悪い予測値のみが反映されるリスクが低下するため、予測精度の向上を見込むことができる。
【0175】
以上のようにして、
図36乃至
図39に示す統合パイナンバー予測モデル法による第2の現象予測処理S2では、複数のパイナンバー変換マトリックスP
jを用いて、複数のパイナンバー変換マトリックスP
jに対応する複数のパイナンバー予測モデルF
pred,j及び複数の外れ値判定モデルf
od,jを作成し、予測対象の物理量説明変数データセットX
predに対して未知の物理量目的変数データセットY
pred(=Y
INLIER)を予測する。統合パイナンバー予測モデル法による一連の処理を、「f
π models」という関数を導入し、以下の[数22]式で表すものとする。
【0176】
【0177】
(6-3)統合パイナンバー予測モデル法による予測性能の検証結果
初期のパイナンバー変換マトリックスP0として、[数4]式に示すパイナンバー変換マトリックスPを用いて、ランダムな物理量説明変数の並べ替えと簡約化により、合計10個のパイナンバー変換マトリックスP0~P9を作成した。そして、学習対象の物理量データセットA1から、合計10個のパイナンバー予測モデルFpred,0~Fpred,9を作成した。
【0178】
(6-3-1)分布範囲拡大率が2倍の場合について
以下に、学習対象として、[表3]に示す物理量データセットA1を用い、予測対象として、[表3]に示す物理量データセットA2を用いた場合(分布範囲拡大率が2倍)における、統合パイナンバー予測モデル法による予測性能を検証した結果について説明する。
【0179】
図40は、統合パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。
【0180】
パイナンバー予測モデル法では、パイナンバー変換マトリックスP
1単体による予測可能率R
Pは、19.6%、決定係数は、0.998であった(上記5.3.1(
図15(a)参照)の結果と同じ)。パイナンバー変換マトリックスP
0~P
9の各々による予測可能率R
Pの平均値(平均予測可能率AR
P)は、20.5%であった。
【0181】
図40に示す統合パイナンバー予測モデル法では、パイナンバー変換マトリックスP
0~P
9のうち少なくとも1つのパイナンバー変換マトリックスP
jにより予測が可能と判定された統合予測可能率TR
Pは、36.0%に向上した。予測値合成処理では、パイナンバー変換マトリックスP
0~P
9のうち予測が可能と判定されたパイナンバー変換マトリックスを用いた予測値の平均値を算出し、その結果、決定係数は、0.993となった。
【0182】
(6-3-2)分布範囲拡大率が3倍の場合について
以下に、学習対象として、[表3]に示す物理量データセットA1を用い、予測対象として、[表3]に示す物理量データセットA3を用いた場合(分布範囲拡大率が3倍)における、統合パイナンバー予測モデル法による予測性能を検証した結果について説明する。
【0183】
図41は、統合パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。
【0184】
パイナンバー予測モデル法では、パイナンバー変換マトリックスP
0単体による予測可能率R
Pは、4.7%、決定係数は0.992であった(上記5.3.2(
図20(a)参照)の結果と同じ)。パイナンバー変換マトリックスP
0~P
9の各々による予測可能率R
Pの平均値(平均予測可能率AR
P)は、5.0%であった。
【0185】
図41に示す統合パイナンバー予測モデル法では、パイナンバー変換マトリックスP
0~P
9のうち少なくとも1つのパイナンバー変換マトリックスP
jにより予測が可能と判
定された統合予測可能率TR
Pは、11.8%に向上した。予測値合成処理では、パイナンバー変換マトリックスP
0~P
9の各々を用いた予測値の平均値を算出し、その結果、決定係数は、0.984となった。
【0186】
なお、パイナンバー予測モデル法において、予測可能率RPを拡大するために、外れ値判定の基準値であるcontaminationを、0.15から0.05に下げると、予測可能率RPは、4.7%から11.5%に増加し、統合パイナンバー予測モデル法における統合予測可能率TRP(=11.8%)に近い値が得られた。しかしながら、そのときのパイナンバー予測モデル法での決定係数は、0.934となり、統合パイナンバー予測モデル法の決定係数(=0.984)よりも悪化した。したがって、統合パイナンバー予測モデル法による予測は、外れ値判定の基準値が緩和されたパイナンバー予測モデル法による予測に比べて、予測精度を維持したままで予測範囲を拡大できることが分かった。
【0187】
(7-1)反復統合パイナンバー予測モデル法の基本原理について
次に、反復統合パイナンバー予測モデル法による第3の現象予測処理S3について説明する。第2の現象予測処理S2では、学習データ密度向上処理(ステップS110)にて、新たな物理量データベクトルqnew1,iを学習対象の物理量データセットQtrainに追加している。新たな物理量データベクトルqnew1,iは、物理量予測モデルFtrainに基づいて作成されたものであり、元々の学習対象の物理量データセットQtrainの内挿範囲に存在する。そのため、学習データ密度向上処理では、学習対象の物理量データセットQtrainのデータ密度を向上させることで外れ値判定の精度を向上させる効果を奏するが、予測可能率RPや統合予測可能率TRPを向上させるような効果は必ずしも期待できない。
【0188】
そこで、第3の現象予測処理S3では、外れ値判定処理にて予測が可能と判定した物理量説明変数データベクトルxinlier,iに対して第2の現象予測処理S2にて予測した物理量目的変数データyinlier,iと、当該変量説明変数データベクトルxinlier,iとを組とする1又は複数の新たな物理量データベクトルqnew2,iを学習対象の物理量データセットQtrainに追加する。そして、新たな物理量データベクトルqnew2,iが追加された学習対象の物理量データセットQtrainを新たな学習対象の物理量データセットQtrainとして、第2の現象予測処理S2を同様に行う。このような一連の処理を繰り返すことで、新たな物理量データベクトルqnew2,iは、元々の学習対象の物理量データセットQtrainの外挿範囲に存在するものも含まれることになるため、学習対象の物理量データセットQtrainのデータ密度を向上させるだけでなく、予測可能率RPや統合予測可能率TRPを向上させることができる。
【0189】
(7-2)反復統合パイナンバー予測モデル法の詳細について
図42は、反復統合パイナンバー予測モデル法による第3の現象予測処理(ステップS3)の一例を示すフローチャートである。第3の現象予測処理S3において、第1及び第2の現象予測処理S1、S2と共通の処理には、
図7乃至
図10、
図36乃至
図39と共通のステップ番号を付与し、以下では、第3の現象予測処理S3における特徴的な処理を中心に説明する。
【0190】
まず、ステップS100では、初期のパイナンバー変換マトリックスP0と、学習対象の物理量データセットQtrainと、予測対象の物理量説明変数データセットXpredとが入力される。そして、ステップS110では、学習対象の物理量データセットQtrainのデータ密度を向上させる学習データ密度向上処理を行う。次に、ステップS21では、複数(m個)のパイナンバー変換マトリックスPj(j=0,…,m-1)を作
成する複数パイナンバー作成処理を行う。
【0191】
次に、ステップS120では、所定の反復条件を満たしているか否かを判定し、反復条件を満たす間、ステップS31(統合モデル作成処理)、ステップS41(統合モデル予測処理)、ステップS70(学習データ追加処理)を繰り返すループ処理を行うことにより、予測対象の物理量説明変数データセットXpredに対して未知の物理量目的変数データセットYpredの予測を行う。反復条件は、反復回数の上限値N(例えば、20回)により定められることを基本とするが、ステップS31(統合モデル作成処理)に含まれるステップS61(統合モデル評価処理)で算出される統合予測可能率TRPの上限値により定められていてもよいし、データ解析者がループ処理を終了するための入力操作を受け付けたときでもよい。
【0192】
1回目のループ処理では、ステップS31にて、複数のパイナンバー変換マトリックスPjを用いて、ステップS110が行われた後の学習対象の物理量データセットQtrain
0から複数のパイナンバー予測モデルFpred,j、及び、複数の外れ値判定モデルfod,jを作成し、ステップS41にて、ステップS31で作成されたパイナンバー予測モデルFpred,j及び外れ値判定モデルfod,jを用いて、予測対象の物理量説明変数データセットXpredに対して未知の物理量目的変数データセットYpredを予測する。
【0193】
次に、ステップS70では、ステップS41にて予測対象の物理量説明変数データベクトルxinlier,iに対して予測した未知の物理量目的変数データyinlier,iと、当該物理量説明変数データベクトルxinlier,iとを組とする1又は複数の新たな物理量データベクトルqnew2,iを、学習対象の物理量データセットQtrain
0に追加する学習データ追加処理を行う。その際、新たな物理量データベクトルqnew2,iは、外れ値判定処理にて予測が可能と判定されたものであればよいため、[数20]で示すように、統合パイナンバー予測モデル法による予測が可能な物理量説明変数データセットXINLIER
0に対して予測した未知の物理量説明変数データセットYINLIER
0と、当該物理量説明変数データセットXINLIER
0とを組とする新たな物理量データセットQINLIER
0を学習対象の物理量データセットQtrain
0に追加することで、新たな学習対象の物理量データセットQtrain
1を作成する。
【0194】
そして、ステップ31に戻り、新たな学習対象の物理量データセットQtrain
1を用いて、2回目のループ処理を行い、反復条件を満たす間の複数回(例えば、反復回数の上限値に相当するN回)、同様の処理を繰り返す。
【0195】
以上のようにして、
図42に示す反復統合パイナンバー予測モデル法による第3の現象予測処理S3では、統合パイナンバー予測モデル法による予測値に基づく新たな物理量データベクトルq
new2,iを学習対象の物理量データセットQ
trainに追加しながら、統合パイナンバー予測モデル法、すなわち、ステップS31(統合モデル作成処理)と、ステップS41(統合モデル予測処理)とを繰り返し行うことにより、予測対象の物理量説明変数データセットX
predに対して未知の物理量目的変数データセットY
pred(=Y
INLIER
N)を予測する。反復統合パイナンバー予測モデル法による一連の処理を、「f
π
N
models」という関数を導入し、以下の[数23]式で表すものとする。
【0196】
【0197】
(7-3)反復統合パイナンバー予測モデル法による予測性能の検証結果
初期のパイナンバー変換マトリックスP0として、[数4]式に示すパイナンバー変換マトリックスPを用いて、ランダムな物理量説明変数の並べ替えと簡約化により、合計20個のパイナンバー変換マトリックスP0~P19を作成した。学習対象として、[表3]に示す物理量データセットA1を用い、予測対象として、[表3]に示す物理量データセットA3を用いた場合(分布範囲拡大率が3倍)における、反復統合パイナンバー予測モデル法による予測性能を検証した結果について説明する。
【0198】
図43は、反復統合パイナンバー予測モデル法によるループ処理を行ったときの予測可能率、及び、決定係数の推移を示す図である。反復回数の上限値Nを21回とし、外れ値判定の基準値は、「contamination=0.15」と設定した。平均予測可能率AR
Pは、20個のパイナンバー変換マトリックスP
0~P
19の各々に対する予測可能率R
P0~R
P19の平均値として算出される。
【0199】
第1回目のループ処理(Loop=0)においては、平均予測可能率AR
Pが5.0%、統合予測可能率TR
Pが13.3%、決定係数が0.982であった。第21回目のループ処理(Loop=20)においては、平均予測可能率AR
Pが17.8%、統合予測可能率TR
Pが38.4%、決定係数が0.924であった。なお、同様の評価条件における従来の機械学習による決定係数は、0.627であり(上記5.3.2(
図21参照)の結果と同じ)、
図43(a)の縦軸の下限値に設定されている。
【0200】
平均予測可能率ARPは、統合予測可能率TRPよりも低く、両者の差分が統合パイナンバー予測モデル法による予測範囲を拡大する効果とみなすことができ、ループ回数が増加するほど統合予測可能率TRPは大きくなった。
【0201】
また、ループ回数が増えると、決定係数は緩やかに低下したが、従来の機械学習と比較すると、予測精度は高く維持されている。決定係数の低下原因は、各パイナンバー予測モデルFpred,jによる予測値には、パイナンバー予測モデルFpred,jの完成度に起因する誤差が含まれるが、予測値に基づく新たな物理量データベクトルqnew2,iがループ処理毎に学習対象の物理量データセットQtrainに追加されていくことで、その誤差が蓄積したものと推察される。また、各外れ値判定モデルfod,jによる外れ値判定において、データ密度が低い領域に分布している予測対象の物理量説明変数データベクトルxpredが外れ値ではないと判定されることで、パイナンバー予測モデルFpred,jによる予測精度が悪化した可能性も考えられる。したがって、外れ値判定の基準値を厳しく設定することで、予測範囲の拡大及び決定係数の悪化が緩やかになることが予想される。
【0202】
外れ値判定の基準値を、「contamination=0.02」に緩和し、1つのパイナンバー変換マトリックスP
0のみを用いたパイナンバー予測モデル法による予測では、予測可能率R
Pは、18.1%であり、決定係数は、0.914であった。反復統合パイナンバー予測モデル法では、
図42(a)に示すように、第7回目のループ処理(Loop=6)で、上記と同じような値の統合予測可能率TR
Pが得られた。また、第7回目のループ処理(Loop=6)における決定係数は、0.984であり、
図42(b)の四角で表す点(0.914)よりも高かった。したがって、反復統合パイナンバー予測モデル法による予測は、外れ値判定の基準値が緩和されたパイナンバー予測モデル法による予測に比べて、予測精度を維持したままで予測範囲を拡大できることが分かった。
【0203】
(8)最適解探索処理への適用について
多部品又は複雑な機構が採用される製品の設計では、様々な現象が複合的に作用するため、各現象に対応する複数の物理量回帰モデルを組み合わせることで全体の設計モデルが
作成される。設計の対象とする範囲が広いほど、製品の設計値(説明変数)の数が増えるため、全体の設計モデルは複雑となり、設計値の組み合わせが増大する。そのため、製品の要求性能(目的変数)を満たす最適な設計値の組み合わせを発見するために、遺伝アルゴリズム等の最適化アルゴリズムが用いられる。しかし、最適化アルゴリズムの制約条件として、最適解の探索範囲が、過去製品の設計値の内挿範囲に限定された場合、最適解として探索された設計値は、過去製品のマイナーチェンジに留まる可能性が高い。
【0204】
そこで、最適解探索処理S4では、従来の物理量回帰モデルに代えて、第1乃至第3の現象予測処理S1~S3のいずれかと連携することで、所定の最適化条件を満たす最適解を探索する機能を実現する。第1乃至第3の現象予測処理S1~S3では、新規製品の設計値の候補が、物理量空間において過去製品の設計値に対して外れ値(外挿)であっても、パイナンバー空間において過去製品の設計値に対して外れ値ではない(予測が可能)と判定された場合には、その製品で考慮すべき現象としては実績のある設計値と判断することができる。一方、外れ値である(予測が不可能)と判定された場合には、単に予測が不可能という事実だけでなく、過去製品の設計範囲から逸脱する現象となることを意味するので、パイナンバー空間において外れ値とならない設計値の組み合わせを再探索するべきであると判断される。
【0205】
図44は、最適解探索処理S4の一例を示す機能説明図である。最適解探索処理S4は、最適解の候補を1又は複数の予測対象の物理量説明変数データベクトルx
predとして、1又は複数の未知の物理量目的変数データy
predの予測を行う第1乃至第3の現象予測処理S1~S3と、最適化条件と、第1乃至第3の現象予測処理S1~S3にて予測した1又は複数の未知の物理量目的変数データy
predとに基づいて最適解の候補を評価し、その評価した結果に基づいて、新たな候補(1又は複数のいずれでもよい)を作成する候補作成処理S5とを繰り返し行うことにより、最適解を探索する。
【0206】
第1乃至第3の現象予測処理S1~S3には、過去製品のデータである学習対象の物理量データセットQtrainと、過去製品のデータから得られたパイナンバー変換マトリックスPと、新規製品の設計値(説明変数の最適解)の候補である予測対象の物理量説明変数データベクトルxpredが入力されることで、その新規製品の設計値の候補に対する新規製品の性能値(目的変数)として、未知の物理量目的変数データベクトルypredを予測する。
【0207】
候補作成処理S5には、新規製品の性能値として第1乃至第3の現象予測処理S1~S3から出力された未知の物理量目的変数データベクトルypredと、性能値に対する評価基準(性能値の最大化や最小化等)を定める最適化条件と、最適解の候補を探索するときの制約条件として、過去製品のデータから得られたパイナンバー空間の分布領域とが入力される。そして、候補作成処理S5は、最適化条件と、未知の物理量目的変数データypredとに基づいて最適解の候補を評価し、例えば、遺伝アルゴリズム等の最適化アルゴリズムにより、制約条件下でその評価結果がより高くなるように、新たな最適解の候補を作成し、第1乃至第3の現象予測処理S1~S3に出力する。また、最適解の候補の評価結果が最適化条件を満たす場合には、そのときの最適解の候補を、最終的な新規製品の設計値として出力する。
【0208】
なお、
図44の例では、学習対象の物理量データセットQ
trainからパイナンバーを自動で生成するパイナンバー自動生成処理S6が組み合わせられており、パイナンバー自動生成処理により生成されたパイナンバー変換マトリックスPを用いて、現象予測処理S1~S3による予測が行われるようにしてもよい。パイナンバー自動生成処理S6は、例えば、本願出願人が出願済みの特願2021-126294号に開示された技術を適用可能であり、特願2021-126294号の明細書及び図面に開示された内容全体は、
本願明細書に参照として取り込まれる。
【0209】
以上のようにして、
図44に示す最適解探索処理S4では、第1乃至第3の現象予測処理S1~S3と、候補作成処理S5(遺伝アルゴリズム等の最適化アルゴリズム)とを連携さることで、過去製品のデータしか存在しない場合でも、過去製品の設計値の範囲に限定されることなく、過去製品で実績のある法則から逸脱しない範囲において、新規製品の設計値(最適解)を探索することができる。
【0210】
(他の実施形態)
本発明は上述した実施形態に制約されるものではなく、本発明の主旨を逸脱しない範囲内で種々変更して実施することが可能である。そして、それらはすべて、本発明の技術思想に含まれるものである。
【0211】
上記実施形態では、所定の現象として、物理法則に従う物理現象を例にして説明したが、データ解析方法100による現象予測処理S1~S3は、物理現象以外の所定の現象にも適用可能である。その場合には、上記実施形態における「物理量」という用語を、所定の現象で観察される「変量」として読み替えることで、データ解析方法100で使用されるデータの定義や、現象予測処理S1~S3の処理内容を適用することができる。
【0212】
上記実施形態では、現象予測処理S1~S3は、物理量目的変数データypredが未知な状態で予測対象の物理量説明変数データベクトルxpred対して行われるものとして説明した。これに対し、現象予測処理S1~S3は、物理量目的変数データyが既知な状態であっても、その既知の物理量目的変数データyを未知な状態であると仮定し、その未知(本来は既知であるものを未知と仮定)の物理量目的変数データyと組とする物理量説明変数データベクトルxpredに対して行われることで、その物理量説明変数データベクトルpredxに対して未知(本来は既知であるものを未知と仮定)の物理量目的変数データypredを予測してもよい。
【0213】
上記実施形態では、現象予測処理S1~S3における予測対象は、物理量説明変数データセットXpredに含まれる複数の物理量説明変数データベクトルxpredであるものとして説明したが、予測対象は、1つの物理量説明変数データベクトルxpredでもよい。その場合には、現象予測処理S1~S3において、物理量説明変数データセットXpredに対するループ処理(ステップS400、S600)を省略してもよいし、1回分のループ処理(ステップS400、S600)として扱うようにしてもよい。
【0214】
上記実施形態では、現象予測処理S1~S3は、外れ値判定処理にて予測が可能と判定(ステップS411:Yes)した物理量説明変数データベクトルxinlier,i(Xinlier)に対して算出処理を行うことにより、未知の物理量目的変数データypredを算出するものとして説明したが、外れ値判定処理にて予測が不可能と判定(ステップS411:No)した物理量説明変数データベクトルxoutleir(Xoutlier)に対しても同様の算出処理を行うことにより、未知の物理量目的変数データypredを算出するようにしてもよい。その際、外れ値判定処理(ステップS411~S413)は省略されてもよく、すべての予測対象の物理量説明変数データベクトルxpred(Xpred)に対して未知の物理量目的変数データypred(Ypred)を算出するようにしてもよい。
【0215】
上記実施形態の現象予測処理S1~S3において、各処理の順序が適宜入れ替えられてもよいし、一部の処理が省略されてもよいし、他の処理が追加されてもよい。例えば、学習データ密度向上処理(ステップS110)、モデル評価処理(ステップS60)、統合モデル評価処理(S61)、パイナンバー選択処理(ステップS320)等は省略されて
もよい。
【0216】
上記実施形態では、現象予測処理S1~S3は、単一のデータ解析装置1にて実行されるものとして説明したが、現象予測処理S1~S3に含まれる各処理は、複数のデータ解析装置1にて分散して実行されるようにしてもよい。例えば、現象予測処理S1、S2では、モデル作成処理(ステップS30)又は統合モデル作成処理(ステップS31)までを行う第1のデータ解析装置1(モデル作成装置)と、モデル予測処理(ステップS40)又は統合モデル予測処理(ステップS41)を行う第2のデータ解析装置1(現象予測装置)とで実行されるようにしてもよい。その場合には、第1のデータ解析装置1により作成されたパイナンバー予測モデルFpred、及び、外れ値判定モデルfod等の情報が、任意の通信網や記憶媒体を介して第2のデータ解析装置1に提供されるようにすればよい。
【0217】
上記実施形態の現象予測処理S1~S3における各種の処理結果は、出力部13を介して表示画面等により出力されてもよいし、任意のデータ形式にて記憶部11に記憶されてもよいし、通信部14を介して装置に送信されてもよい。処理結果には、例えば、モデル作成処理(ステップS30)又は統合モデル作成処理(ステップS31)により作成されたパイナンバー予測モデルF
pred及び外れ値判定モデルf
od、モデル評価処理(ステップS60)又は統合モデル評価処理(ステップS61)にて算出された予測可能率R
P、予測不可能率R
U、統合予測可能率TR
P及び予測不可能率TR
U、モデル予測処理(ステップS40)又は統合モデル予測処理(ステップS41)にて予測された未知の物理量目的変数データy
predの算出結果等が含まれる。また、処理結果には、予測性能の検証結果を説明するために例示した図やグラフ(
図11乃至
図33、
図40、
図41、
図43)等が含まれていてもよい。
【符号の説明】
【0218】
1…データ解析装置、10…制御部、11…記憶部、12…入力部、13…出力部、14…通信部、100…データ解析方法、110…データ解析プログラム、200…コンピュータ
【要約】
【課題】予測対象の説明変数に対して未知の目的変数を予測するときの予測性能を向上させることを可能とするデータ解析方法を提供する。
【解決手段】現象予測処理S1は、予測対象の変量説明変数データベクトルx
predに対して未知の変量目的変数データy
predを予測する処理として、学習対象の変量データセットQ
trainとパイナンバー変換情報Pとに基づいて、パイナンバー予測モデルF
predを作成するモデル作成処理S30と、変量説明変数データベクトルx
predをパイナンバー説明変数データベクトルξ
predに変換し、そのパイナンバー説明変数データベクトルξ
predをパイナンバー予測モデルF
predに入力することでパイナンバー目的変数データη
predを出力し、そのパイナンバー目的変数データη
predから、変量説明変数データベクトルx
predとパイナンバー変換情報Pとに基づいて、変量目的変数データy
predを算出するモデル予測処理S40とを行う。
【選択図】
図7