特許7039090 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ＥＮＪＹＮ株式会社の特許一覧

特許7039090データ解析方法、データ解析装置、及び、データ解析プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2022-03-11

(45)【発行日】2022-03-22

(54)【発明の名称】データ解析方法、データ解析装置、及び、データ解析プログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20220314BHJP

G16Z 99/00 20190101ALI20220314BHJP

【ＦＩ】

G06N20/00

G16Z99/00

【請求項の数】 13

(21)【出願番号】P 2021209862

(22)【出願日】2021-12-23

【審査請求日】2022-01-11

【早期審査対象出願】

(73)【特許権者】

【識別番号】521338064

【氏名又は名称】ＥＮＪＹＮ株式会社

(74)【代理人】

【識別番号】100214248

【弁理士】

【氏名又は名称】青山純

(74)【代理人】

【識別番号】100214260

【弁理士】

【氏名又は名称】相羽昌孝

(72)【発明者】

【氏名】枝光敏章

【審査官】多胡滋

(56)【参考文献】

【文献】米国特許出願公開第２００５／０２３４７６３（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０２１／００２８４７２（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ２０／００

Ｇ１６Ｚ９９／００

(57)【特許請求の範囲】

【請求項1】

コンピュータを用いて、所定の現象に関するデータを解析するデータ解析方法であって、
前記現象にて観察される複数の変量の数値データである変量データベクトル（ｑ）であって、目的変数の数値データである変量目的変数データ（ｙ）と、説明変数の数値データである変量説明変数データベクトル（ｘ）とを組とする学習対象の前記変量データベクトル（ｑ）の集合である学習対象の変量データセット（Ｑ_{ｔｒａｉｎ}）、及び、複数の前記変量からなる変量セット（Ｑ_ｖ）と、複数の前記変量から変換可能な複数のパイナンバーからなるパイナンバーセット（Π_ｖ）との関係を前記パイナンバーに含まれる前記変量の指数で定めるパイナンバー変換情報（Ｐ）を用いて、１又は複数の予測対象の前記変量説明変数データベクトル（ｘ_ｐｒｅｄ）に対して１又は複数の未知の前記変量目的変数データ（ｙ_ｐｒｅｄ）の予測を行う現象予測処理（Ｓ１～Ｓ３）を行い、
前記現象予測処理（Ｓ１～Ｓ３）は、
前記学習対象の変量データセット（Ｑ_{ｔｒａｉｎ}）を、前記パイナンバー変換情報（Ｐ）に基づいて、複数の前記パイナンバーの数値データであるパイナンバーデータベクトル（π）であって、前記目的変数から変換可能な前記パイナンバーの数値データであるパイナンバー目的変数データ（η）と、前記説明変数から変換可能な前記パイナンバーの数値データであるパイナンバー説明変数データベクトル（ξ）とを組とする前記パイナンバーデータベクトル（π）の集合であるパイナンバーデータセット（Π_{ｔｒａｉｎ}）に変換し、その変換した前記パイナンバーデータセット（Π_{ｔｒａｉｎ}）に基づいて、前記パイナンバー説明変数データベクトル（ξ）を入力とし、前記パイナンバー目的変数データ（η）を出力とするパイナンバー予測モデル（Ｆ_ｐｒｅｄ）を作成するモデル作成処理（Ｓ３０、Ｓ３１）と、
前記予測対象の変量説明変数データベクトル（ｘ_ｐｒｅｄ）を、前記パイナンバー変換情報（Ｐ）に基づいて、予測対象の前記パイナンバー説明変数データベクトル（ξ_ｐｒｅｄ）に変換し、その変換した前記予測対象のパイナンバー説明変数データベクトル（ξ_ｐｒｅｄ）を前記モデル作成処理（Ｓ３０、Ｓ３１）により作成された前記パイナンバー予測モデル（Ｆ_ｐｒｅｄ）に入力することで未知の前記パイナンバー目的変数データ（η_ｐｒｅｄ）を出力し、その出力した前記未知のパイナンバー目的変数データ（η_ｐｒｅｄ）から、前記予測対象の変量説明変数データベクトル（ｘ_ｐｒｅｄ）と、前記パイナンバー変換情報（Ｐ）とに基づいて、前記未知の変量目的変数データ（ｙ_ｐｒｅｄ）を算出する算出処理（Ｓ４１０、Ｓ４２０、Ｓ４２１）を、前記予測対象の変量説明変数データベクトル（ｘ_ｐｒｅｄ）に対して行うことにより、前記予測を行うモデル予測処理（Ｓ４０、Ｓ４１）とを行う、
データ解析方法。

【請求項2】

前記モデル作成処理（Ｓ３０、Ｓ３１）は、
前記パイナンバーデータセット（Π_{ｔｒａｉｎ}）に含まれる前記パイナンバー説明変数データベクトル（ξ）の集合であるパイナンバー説明変数データセット（Ξ_{ｔｒａｉｎ}）を基準にして、外れ値判定モデル（ｆ_ｏｄ）を作成し、
前記現象予測処理（Ｓ１～Ｓ３）は、
前記予測対象のパイナンバー説明変数データベクトル（ξ_ｐｒｅｄ）が、前記モデル作成処理（Ｓ３０、Ｓ３１）により作成された前記外れ値判定モデル（ｆ_ｏｄ）の外れ値でないか否かに応じて、前記予測対象の変量説明変数データベクトル（ｘ_ｐｒｅｄ）に対して前記未知の変量目的変数データ（ｙ_ｐｒｅｄ）の予測が、前記パイナンバー変換情報（Ｐ）を用いて可能か否かを判定する外れ値判定処理（Ｓ４１１～Ｓ４１３、Ｓ６１１～Ｓ６１３）を、前記予測対象の変量説明変数データベクトル（ｘ_ｐｒｅｄ）に対して行う、
請求項１に記載のデータ解析方法。

【請求項3】

前記モデル作成処理（Ｓ３０）は、
前記予測対象の１又は複数の変量説明変数データベクトル（ｘ_ｐｒｅｄ）の総数に対する、前記外れ値判定処理（Ｓ６１１～Ｓ６１３）にて前記予測が可能と判定した前記予測対象の変量説明変数データベクトル（ｘ_{ｉｎｌｉｅｒ}）の総数の割合に基づく予測可能率、及び、前記総数に対する、前記外れ値判定処理（Ｓ６１１～Ｓ６１３）にて前記予測が不可能と判定した前記予測対象の変量説明変数データベクトル（ｘ_{ｏｕｔｌｉｅｒ}）の総数の割合に基づく予測不可能率の少なくとも一方を算出するモデル評価処理（Ｓ６０）を行う、
請求項２に記載のデータ解析方法。

【請求項4】

前記モデル予測処理（Ｓ４０、Ｓ４１）は、
前記算出処理（Ｓ４１０、Ｓ４２０、Ｓ４２１）を、前記外れ値判定処理（Ｓ４１１～Ｓ４１３）にて前記予測が可能と判定した前記予測対象の変量説明変数データベクトル（ｘ_{ｉｎｌｉｅｒ}）に対して行うことにより、前記未知の変量目的変数データ（ｙ_{ｉｎｌｉｅｒ}）を算出する、
請求項２又は請求項３に記載のデータ解析方法。

【請求項5】

前記現象予測処理（Ｓ２）は、
前記パイナンバー変換情報（Ｐ）に対して行基本変形を行うことにより、複数の前記パイナンバー変換情報（Ｐ_ｊ）を作成する複数パイナンバー作成処理（Ｓ２１）と、
前記複数パイナンバー作成処理（Ｓ２１）により作成された複数の前記パイナンバー変換情報（Ｐ）を用いて、前記モデル作成処理（Ｓ３０）をそれぞれ行うことにより、複数の前記パイナンバー変換情報（Ｐ_ｊ）にそれぞれ対応する複数の前記パイナンバー予測モデル（Ｆ_{ｐｒｅｄ，ｊ}）及び複数の前記外れ値判定モデル（ｆ_ｏｄ，ｊ）を作成する統合モデル作成処理（Ｓ３１）と、
前記複数パイナンバー作成処理（Ｓ２１）により作成された複数の前記パイナンバー変換情報（Ｐ_ｊ）と、複数の当該パイナンバー変換情報（Ｐ_ｊ）にそれぞれ対応する複数の前記パイナンバー予測モデル（Ｆ_{ｐｒｅｄ，ｊ}）及び複数の前記外れ値判定モデル（ｆ_ｏｄ，ｊ）とを用いて、前記モデル予測処理（Ｓ４０）をそれぞれ行うことにより、前記予測を行う統合モデル予測処理（Ｓ４１）とを行う、
請求項４に記載のデータ解析方法。

【請求項6】

前記統合モデル予測処理（Ｓ４１）は、
前記予測対象の変量説明変数データベクトル（ｘ_ｐｒｅｄ）に対して前記外れ値判定処理（Ｓ４１１～Ｓ４１３）にて前記予測が可能と判定した前記パイナンバー変換情報（Ｐ_ｊ）が複数存在するとき、複数の当該パイナンバー変換情報（Ｐ_ｊ）の各々を用いて前記算出処理（Ｓ４１０、Ｓ４２０、Ｓ４２１）を行うことで算出した複数の前記未知の変量目的変数データ（ｙ_ｐｒｅｄ）を合成する予測値合成処理（Ｓ４３０）を、前記予測対象の変量説明変数データベクトル（ｘ_ｐｒｅｄ）に対して行う、
請求項５に記載のデータ解析方法。

【請求項7】

前記統合モデル作成処理（Ｓ３１）は、
前記予測対象の変量説明変数データベクトル（ｘ_ｐｒｅｄ）の総数に対する、前記外れ値判定処理（Ｓ６１１～Ｓ６１３）にて前記予測が可能と判定した前記パイナンバー変換情報（Ｐ_ｊ）が少なくとも１つ存在する前記予測対象の変量説明変数データベクトル（ｘ_{ｉｎｌｉｅｒ，ｉ}）の総数の割合に基づく統合予測可能率、及び、前記総数に対する、前記外れ値判定処理（Ｓ６１１～Ｓ６１３）にて前記予測が可能と判定した前記パイナンバー変換情報（Ｐ_ｊ）が存在しない前記予測対象の変量説明変数データベクトル（ｘ_{ｏｕｔｌｉｅｒ，ｉ}）の総数の割合に基づく統合予測不可能率の少なくとも一方を算出する統
合モデル評価処理（Ｓ６１）を行う、
請求項５又は請求項６に記載のデータ解析方法。

【請求項8】

前記統合モデル作成処理（Ｓ３１）は、
前記複数パイナンバー作成処理（Ｓ２１）により作成された複数の前記パイナンバー変換情報（Ｐ_ｊ）のうち、前記外れ値判定処理（Ｓ６１１～Ｓ６１３）にて前記予測が可能と判定した前記予測対象の変量説明変数データベクトル（ｘ_{ｉｎｌｉｅｒ，ｉ}）の総数を最大化する前記パイナンバー変換情報（Ｐ_ｊ）の組み合わせから前記パイナンバー予測モデル（Ｆ_{ｐｒｅｄ，ｊ}）の総数を最小化するように、前記パイナンバー変換情報（Ｐ_ｊ）を選択するパイナンバー選択処理（Ｓ３２０）を行い、
前記パイナンバー選択処理（Ｓ３２０）により選択された前記パイナンバー変換情報（Ｐ_ｊ）に対応する前記パイナンバー予測モデル（Ｆ_{ｐｒｅｄ，ｊ}）を作成し、
統合モデル予測処理（Ｓ４１）は、
前記パイナンバー選択処理（Ｓ３２０）により選択された前記パイナンバー変換情報（Ｐ_ｊ）と、当該パイナンバー変換情報（Ｐ_ｊ）に対応する前記パイナンバー予測モデル（Ｆ_{ｐｒｅｄ，ｊ}）及び前記外れ値判定モデル（ｆ_ｏｄ，ｊ）とを用いて、前記モデル予測処理（Ｓ４０）を行うことにより、前記予測を行う
請求項５乃至請求項７のいずれか一項に記載のデータ解析方法。

【請求項9】

前記現象予測処理（Ｓ３）は、
前記統合モデル予測処理（Ｓ４１）にて前記予測対象の変量説明変数データベクトル（ｘ_{ｉｎｌｉｅｒ，ｉ}）に対して予測した前記未知の変量目的変数データ（ｙ_{ｉｎｌｉｅｒ，ｉ}）と、当該変量説明変数データベクトル（ｘ_{ｉｎｌｉｅｒ，ｉ}）とを組とする１又は複数の新たな前記変量データベクトル（ｑ_{ｎｅｗ２，ｉ}）を、前記学習対象の変量データセット（Ｑ_{ｔｒａｉｎ}）に追加する学習データ追加処理（Ｓ７０）と、前記学習データ追加処理（Ｓ７０）により追加された前記学習対象の変量データセット（Ｑ_{ｔｒａｉｎ}）に対する前記統合モデル作成処理（Ｓ３１）と、前記予測対象の変量説明変数データベクトル（ｘ_ｐｒｅｄ）に対する前記統合モデル予測処理（Ｓ４１）とを繰り返し行うことにより、前記予測を行う、
請求項５乃至請求項８のいずれか一項に記載のデータ解析方法。

【請求項10】

前記現象予測処理（Ｓ１～Ｓ３）は、
前記学習対象の変量データセット（Ｑ_{ｔｒａｉｎ}）に基づいて、前記変量説明変数データベクトル（ｘ）を入力とし、前記変量目的変数データ（ｙ）を出力とする物理量予測モデル（Ｆ_{ｔｒａｉｎ}）を作成し、
前記学習対象の変量データセット（Ｑ_{ｔｒａｉｎ}）の分布範囲に含まれる１又は複数の新たな前記変量説明変数データベクトル（ｘ_{ｎｅｗ１，ｉ}）を前記物理量予測モデル（Ｆ_{ｔｒａｉｎ}）に入力することで１又は複数の新たな前記変量目的変数データ（ｙ_{ｎｅｗ１，ｉ}）を出力し、
その出力した前記新たな変量目的変数データ（ｙ_{ｎｅｗ１，ｉ}）と、前記新たな前記変量説明変数データベクトル（ｘ_{ｎｅｗ１，ｉ}）とを組とする１又は複数の新たな前記変量データベクトル（ｑ_{ｎｅｗ１，ｉ}）を、前記学習対象の変量データセット（Ｑ_{ｔｒａｉｎ}）に追加する学習データ密度向上処理（Ｓ１１０）を行う、
請求項１乃至請求項９のいずれか一項に記載のデータ解析方法。

【請求項11】

請求項１乃至請求項１０のいずれか一項に記載の現象予測処理（Ｓ１～Ｓ３）を用いて、所定の最適化条件を満たす最適解を探索するデータ解析方法であって、
前記最適解の候補を１又は複数の前記予測対象の変量説明変数データベクトル（ｘ_ｐｒｅｄ）として、１又は複数の前記未知の変量目的変数データ（ｙ_ｐｒｅｄ）の予測を行う前記現象予測処理（Ｓ１～Ｓ３）と、
前記最適化条件と、前記現象予測処理（Ｓ１～Ｓ３）にて予測した１又は複数の前記未知の変量目的変数データ（ｙ_ｐｒｅｄ）とに基づいて前記候補を評価し、その評価した結果に基づいて、新たな前記候補を作成する候補作成処理とを繰り返し行うことにより、前記最適解を探索する、
データ解析方法。

【請求項12】

コンピュータであって、
請求項１乃至請求項１１のいずれか一項に記載のデータ解析方法にて行われる各処理を実行する制御部を備える、
データ解析装置。

【請求項13】

コンピュータに、
請求項１乃至請求項１１のいずれか一項に記載のデータ解析方法にて行われる各処理を実行させる、
データ解析プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、データ解析方法、データ解析装置、及び、データ解析プログラムに関する。

【背景技術】

【0002】

従来、所定の現象に関するデータを解析する際、説明変数と目的変数とからなる教師データを用いて教師あり学習を実行して機械学習モデルを生成することで、予測対象の説明変数に対して未知の説明変数を予測することが知られている（例えば、特許文献１の段落［００７７］等参照）。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０２０－１３４４９６号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

教師あり学習により複数の教師データから機械学習モデルを生成し、その機械学習モデルを用いて、それらの教師データが分布している範囲、すなわち、内挿範囲に存在する予測対象の説明変数に対して未知の説明変数を予測する場合には、機械学習モデルの予測精度を高精度に実現できることが多い。しかしながら、その内挿範囲に存在しない、すなわち、外挿範囲に存在するような予測対象の説明変数に対して未知の説明変数を予測する場合には、機械学習モデルにその外挿範囲における、説明変数と目的変数との相関関係を特徴付ける情報が含まれていないため、機械学習モデルの予測精度は悪化してしまう。また、教師データの分布に粗密があるような場合には、内挿範囲であっても、その一部の範囲では機械学習モデルの予測精度を高精度に確保できないこともあり得る。

【0005】

本発明は、上述した課題に鑑みてなされたものであって、予測対象の説明変数に対して未知の目的変数を予測するときの予測性能を向上させることを可能とするデータ解析方法、データ解析装置、及び、データ解析プログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

上記目的を達成するために、本発明の一態様に係るデータ解析方法は、
コンピュータを用いて、所定の現象に関するデータを解析するデータ解析方法であって、
前記現象にて観察される複数の変量の数値データである変量データベクトル（ｑ）であって、目的変数の数値データである変量目的変数データ（ｙ）と、説明変数の数値データである変量説明変数データベクトル（ｘ）とを組とする学習対象の前記変量データベクトル（ｑ）の集合である学習対象の変量データセット（Ｑ_{ｔｒａｉｎ}）、及び、複数の前記変量からなる変量セット（Ｑ_ｖ）と、複数の前記変量から変換可能な複数のパイナンバーからなるパイナンバーセット（Π_ｖ）との関係を前記パイナンバーに含まれる前記変量の指数で定めるパイナンバー変換情報（Ｐ）を用いて、１又は複数の予測対象の前記変量説明変数データベクトル（ｘ_ｐｒｅｄ）に対して１又は複数の未知の前記変量目的変数データ（ｙ_ｐｒｅｄ）の予測を行う現象予測処理（Ｓ１～Ｓ３）を行い、
前記現象予測処理（Ｓ１～Ｓ３）は、
前記学習対象の変量データセット（Ｑ_{ｔｒａｉｎ}）を、前記パイナンバー変換情報（Ｐ）に基づいて、複数の前記パイナンバーの数値データであるパイナンバーデータベクトル（π）であって、前記目的変数から変換可能な前記パイナンバーの数値データであるパイナンバー目的変数データ（η）と、前記説明変数から変換可能な前記パイナンバーの数
値データであるパイナンバー説明変数データベクトル（ξ）とを組とする前記パイナンバーデータベクトル（π）の集合であるパイナンバーデータセット（Π_{ｔｒａｉｎ}）に変換し、その変換した前記パイナンバーデータセット（Π_{ｔｒａｉｎ}）に基づいて、前記パイナンバー説明変数データベクトル（ξ）を入力とし、前記パイナンバー目的変数データ（η）を出力とするパイナンバー予測モデル（Ｆ_ｐｒｅｄ）を作成するモデル作成処理（Ｓ３０、Ｓ３１）と、
前記予測対象の変量説明変数データベクトル（ｘ_ｐｒｅｄ）を、前記パイナンバー変換情報（Ｐ）に基づいて、予測対象の前記パイナンバー説明変数データベクトル（ξ_ｐｒｅｄ）に変換し、その変換した前記予測対象のパイナンバー説明変数データベクトル（ξ_ｐｒｅｄ）を前記モデル作成処理（Ｓ３０、Ｓ３１）により作成された前記パイナンバー予測モデル（Ｆ_ｐｒｅｄ）に入力することで未知の前記パイナンバー目的変数データ（η_ｐｒｅｄ）を出力し、その出力した前記未知のパイナンバー目的変数データ（η_ｐｒｅｄ）から、前記予測対象の変量説明変数データベクトル（ｘ_ｐｒｅｄ）と、前記パイナンバー変換情報（Ｐ）とに基づいて、前記未知の変量目的変数データ（ｙ_ｐｒｅｄ）を算出する算出処理（Ｓ４１０、Ｓ４２０、Ｓ４２１）を、前記予測対象の変量説明変数データベクトル（ｘ_ｐｒｅｄ）に対して行うことにより、前記予測を行うモデル予測処理（Ｓ４０、Ｓ４１）とを行う。

【発明の効果】

【0007】

本発明の一態様に係るデータ解析方法によれば、パイナンバー変換情報を用いることで予測対象の説明変数に対して未知の目的変数を予測するときの予測性能を向上させることができる。

【0008】

上記以外の課題、構成及び効果は、後述する発明を実施するための形態にて明らかにされる。

【図面の簡単な説明】

【0009】

【図1】データ解析装置１の一例を示す構成図である。

【図2】コンピュータ２００の一例を示すハードウエア構成図である。

【図3】２つの質点が完全非弾性衝突して一体となって運動するばね質点系の物理現象を示す模式図である。

【図4】パイナンバー変換処理によるパイナンバー変換を示す模式図である。

【図5】パイナンバー予測モデル法の概要を簡易的な例（物理量ｑ_ｖが３個、パイナンバーπ_ｖが２個）で示す第１の模式図である。

【図6】パイナンバー予測モデル法の概要を一般的な例で示す第２の模式図である。

【図7】パイナンバー予測モデル法による第１の現象予測処理Ｓ１の一例を示すフローチャートである。

【図8】モデル作成処理（ステップＳ３０）の一例を示すフローチャートである。

【図9】モデル評価処理（ステップＳ６０）の一例を示すフローチャートである。

【図10】モデル予測処理（ステップＳ４０）の一例を示すフローチャートである。

【図11】物理量データセットＡ１、Ａ２を示す散布図マトリックスである。

【図12】物理量データセットＡ１、Ａ２をそれぞれパイナンバー変換したパイナンバーデータセットを示す散布図マトリックスである。

【図13】物理量データセットＡ１から作成されたパイナンバー予測モデルＦ_ｐｒｅｄの検証結果を示す図である。

【図14】物理量データセットＡ１から作成された外れ値判定モデルｆ_ｏｄによる物理量データセットＡ２の外れ値判定結果（予測可能、又は、予測不可能）を示す散布図マトリックスである。

【図15】パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。

【図16】従来の物理量回帰モデルによる物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。

【図17】物理量データセットＡ１、Ａ３を示す散布図マトリックスである。

【図18】物理量データセットＡ１、Ａ３をそれぞれパイナンバー変換したパイナンバーデータセットを示す散布図マトリックスである。

【図19】物理量データセットＡ１から作成された外れ値判定モデルｆ_ｏｄによる物理量データセットＡ３の外れ値判定結果（予測可能、又は、予測不可能）を示す散布図マトリックスである。

【図20】パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。

【図21】従来の物理量回帰モデルによる物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。

【図22】物理量データセットＢ１、Ａ１を示す散布図マトリックスである。

【図23】物理量データセットＢ１、Ａ１をそれぞれパイナンバー変換したパイナンバーデータセットを示す散布図マトリックスである。

【図24】物理量データセットＢ１から作成されたパイナンバー予測モデルＦ_ｐｒｅｄの検証結果を示す図である。

【図25】物理量データセットＢ１から作成された外れ値判定モデルｆ_ｏｄによる物理量データセットＡ１の外れ値判定結果（予測可能、又は、予測不可能）を示す散布図マトリックスである。

【図26】パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。

【図27】従来の物理量回帰モデルによる物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。

【図28】物理量データセットＣ１、Ａ１を示す散布図マトリックスである。

【図29】物理量データセットＣ１、Ａ１をそれぞれパイナンバー変換したパイナンバーデータセットを示す散布図マトリックスである。

【図30】物理量データセットＣ１から作成されたパイナンバー予測モデルＦ_ｐｒｅｄの検証結果を示す図である。

【図31】物理量データセットＣ１から作成された外れ値判定モデルｆ_ｏｄによる物理量データセットＡ１の外れ値判定結果（予測可能、又は、予測不可能）を示す散布図マトリックスである。

【図32】パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。

【図33】従来の物理量回帰モデルによる物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。

【図34】学習対象のデータセットＡ１に対してパイナンバーセットΠ_ｅｘ１、Π_ｅｘ２が用いられたときに、予測対象のデータセットＡ２のうち外れ値でないと判定された物理量説明変数ｔ_１ｅ、ｔ_２ｅのヒストグラムをそれぞれ示す図である。

【図35】統合パイナンバー予測モデル法の概要を一般的な例で示す模式図である。

【図36】統合パイナンバー予測モデル法による第２の現象予測処理Ｓ２の一例を示すフローチャートである。

【図37】統合モデル作成処理（ステップＳ３１）の一例を示すフローチャートである。

【図38】統合モデル評価処理（ステップＳ６１）の一例を示すフローチャートである。

【図39】統合モデル予測処理（ステップＳ４１）の一例を示すフローチャートである。

【図40】統合パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。

【図41】統合パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。

【図42】反復統合パイナンバー予測モデル法による第３の現象予測処理Ｓ３の一例を示すフローチャートである。

【図43】反復統合パイナンバー予測モデル法によるループ処理を行ったときの予測可能率、及び、決定係数の推移を示す図である。

【図44】最適解探索処理Ｓ４の一例を示す機能説明図である。

【発明を実施するための形態】

【0010】

以下、図面を参照して本発明を実施するための実施形態について説明する。以下では、本発明の目的を達成するための説明に必要な範囲を模式的に示し、本発明の該当部分の説明に必要な範囲を主に説明することとし、説明を省略する箇所については公知技術によるものとする。

【0011】

（１）データ解析装置１の構成と、データ解析方法１００の概要
図１は、データ解析装置１の一例を示す構成図である。データ解析装置１は、所定の現象に関するデータを解析するデータ解析方法１００を実行可能な装置であり、例えば、汎用又は専用のコンピュータ（後述の図２参照）で構成される。

【0012】

所定の現象では、所定の法則（規則やルールと呼ばれるものも含む）の下で相互に作用する複数の変量が観察され、その観察された変量を数値データとして数値化（デジタル化）し、収集することで、データ解析方法１００の解析対象となるデータセットが生成される。所定の法則は、複数の変量が関与するものであれば任意の法則でよく、例えば、物理法則や数学的法則のような法則だけでなく、経済法則、市場法則、心理的法則のような法則も含まれる。

【0013】

データ解析装置１は、その主要な構成要素として、制御部１０、記憶部１１、入力部１２、出力部１３、及び、通信部１４を備える。制御部１０は、記憶部１１に記憶されたデータ解析プログラム１１０を実行することで、データ解析部として機能し、データ解析方法１００にて行われる第１乃至第３の現象予測処理Ｓ１～Ｓ３と、最適解探索処理Ｓ４とを実行する。記憶部１１は、データ解析プログラム１１０と、データ解析プログラム１１０で使用される各種のデータとを記憶する他に、例えば、オペレーティングシステム（ＯＳ）、他のプログラムやデータ等を記憶する。入力部１２は、各種の入力操作を受け付けるとともに、出力部１３は、表示画面や音声を介して各種の情報を出力することで、第１乃至第３の現象予測処理Ｓ１～Ｓ３、及び、最適解探索処理Ｓ４のユーザインターフェースとして機能する。通信部１４は、有線又は無線のネットワークに接続されて、他の装置（不図示）との間で各種のデータを送受信する。

【0014】

データ解析方法１００では、所定の現象に関するデータを解析する際、その現象に対応するパイナンバーを利用して第１乃至第３の現象予測処理Ｓ１～Ｓ３（詳細は後述）が行われる。具体的には、処理対象とする現象で観察される変量と、その変量から変換可能なパイナンバーとの関係を定めるパイナンバー変換情報の一形式であるパイナンバー変換マトリックスＰ（詳細は後述）を利用して第１乃至第３の現象予測処理Ｓ１～Ｓ３が行われる。パイナンバー変換情報は、相似則を保ちつつ、変量からパイナンバーへの変換、又は、パイナンバーから変量への逆変換を可能とする情報である。

【0015】

データ解析方法１００に含まれる第１乃至第３の現象予測処理Ｓ１～Ｓ３は、パイナンバーの性質を利用して所定の現象を予測する第１乃至第３の現象予測処理Ｓ１～Ｓ３として、パイナンバー予測モデル法、統合パイナンバー予測モデル法、及び、反復統合パイナンバー予測モデル法をそれぞれ実現する。また、最適解探索処理Ｓ４は、第１乃至第３の
現象予測処理Ｓ１～Ｓ３のいずれかと連携することで、所定の最適化条件を満たす最適解を探索する機能を実現する。なお、第１乃至第３の現象予測処理Ｓ１～Ｓ３は、密接に関連しているため、データ解析方法１００は、第１乃至第３の現象予測処理Ｓ１～Ｓ３を体系的に行うことが好ましいが、第１乃至第３の現象予測処理Ｓ１～Ｓ３のうち一部の処理（単独でもよいし、任意の組み合わせでもよい）だけを行うものでもよいし、最適解探索処理Ｓ４を行わないようにしてもよい。その場合には、データ解析装置１は、その一部の処理を実行する装置として構成され、データ解析プログラム１１０は、コンピュータ（制御部１０）に、その一部の処理を実行させるプログラムとして構成される。

【0016】

データ解析方法１００は、第１乃至第３の現象予測処理Ｓ１～Ｓ３において共通する処理として、パイナンバー変換処理を行い、第１乃至第３の現象予測処理Ｓ１～Ｓ３の処理の過程において、パイナンバー変換処理を行う。なお、第１乃至第３の現象予測処理Ｓ１～Ｓ３、最適解探索処理Ｓ４、及びパイナンバー変換処理の詳細は後述する。

【0017】

図２は、コンピュータ２００の一例を示すハードウエア構成図である。コンピュータ２００は、データ解析装置１を構成する装置の一例であり、汎用又は専用のコンピュータとして構成される。

【0018】

コンピュータ２００は、図２に示すように、その主要な構成要素として、バス２１０、プロセッサ２１２、メモリ２１４、入力デバイス２１６、出力デバイス２１７、表示デバイス２１８、ストレージ装置２２０、通信Ｉ／Ｆ（インターフェース）部２２２、外部機器Ｉ／Ｆ部２２４、Ｉ／Ｏ（入出力）デバイスＩ／Ｆ部２２６、及び、メディア入出力部２２８を備える。なお、上記の構成要素は、コンピュータ２００が使用される用途に応じて適宜省略されてもよい。

【0019】

プロセッサ２１２は、１つ又は複数の演算処理装置（ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＭＰＵ（Ｍｉｃｒｏ－ｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、ＤＳＰ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等）で構成され、コンピュータ２００全体を統括する制御部１０として動作する。メモリ２１４は、各種のデータ及びプログラム２３０を記憶し、例えば、メインメモリとして機能する揮発性メモリ（ＤＲＡＭ、ＳＲＡＭ等）と、不揮発性メモリ（ＲＯＭ）、フラッシュメモリ等とで構成される。

【0020】

入力デバイス２１６は、例えば、キーボード、マウス、テンキー、電子ペン等で構成され、入力部１２として機能する。出力デバイス２１７は、例えば、音（音声）出力装置、バイブレーション装置等で構成され、出力部１３として機能する。表示デバイス２１８は、例えば、液晶ディスプレイ、有機ＥＬディスプレイ、電子ペーパー、プロジェクタ等で構成され、出力部１３として機能する。入力デバイス２１６及び表示デバイス２１８は、タッチパネルディスプレイのように、一体的に構成されていてもよい。ストレージ装置２２０は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等で構成され、記憶部１１として機能する。ストレージ装置２２０は、オペレーティングシステムやプログラム２３０の実行に必要な各種のデータを記憶する。

【0021】

通信Ｉ／Ｆ部２２２は、インターネットやイントラネット等のネットワーク２４０に有線又は無線により接続され、所定の通信規格に従って他のコンピュータとの間でデータの送受信を行う通信部１４として機能する。外部機器Ｉ／Ｆ部２２４は、カメラ、プリンタ、スキャナ、リーダライタ等の外部機器２５０に有線又は無線により接続され、所定の通信規格に従って外部機器２５０との間でデータの送受信を行う通信部１４として機能する。Ｉ／ＯデバイスＩ／Ｆ部２２６は、各種のセンサ、アクチュエータ等のＩ／Ｏデバイス
２６０に接続され、Ｉ／Ｏデバイス２６０との間で、例えば、センサによる検出信号やアクチュエータへの制御信号等の各種の信号やデータの送受信を行う通信部１４として機能する。メディア入出力部２２８は、例えば、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）ドライブ、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）ドライブ等のドライブ装置で構成され、ＤＶＤ、ＣＤ等のメディア（非一時的な記憶媒体）２７０に対してデータの読み書きを行う。

【0022】

上記構成を有するコンピュータ２００において、プロセッサ２１２は、ストレージ装置２２０に記憶されたプログラム２３０をメモリ２１４に呼び出して実行し、バス２１０を介してコンピュータ２００の各部を制御する。なお、プログラム２３０は、ストレージ装置２２０に代えて、メモリ２１４に記憶されていてもよい。プログラム２３０は、インストール可能なファイル形式又は実行可能なファイル形式でメディア２７０に記録され、メディア入出力部２２８を介してコンピュータ２００に提供されてもよい。プログラム２３０は、通信Ｉ／Ｆ部２２２を介してネットワーク２４０経由でダウンロードすることによりコンピュータ２００に提供されてもよい。また、コンピュータ２００は、プロセッサ２１２がプログラム２３０を実行することで実現する各種の機能を、例えば、ＦＰＧＡ（ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＡＳＩＣ（ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）等のハードウエアで実現するものでもよい。

【0023】

コンピュータ２００は、例えば、据置型コンピュータや携帯型コンピュータで構成され、任意の形態の電子機器である。また、コンピュータ２００は、クライアント型コンピュータでもよいし、サーバ型コンピュータやクラウド型コンピュータでもよい。

【0024】

次に、上記構成を有するデータ解析装置１により行われるデータ解析方法１００の第１乃至第３の現象予測処理Ｓ１～Ｓ３の詳細について、図３乃至図４３を参照して説明する。本実施形態では、所定の現象として、後述の図３に示す「２つの質点が完全非弾性衝突して一体となって運動するばね質点系の物理現象」（以下「ばね質点系完全非弾性衝突現象」という）を例にして、複数の変量として、複数の物理量が観察される場合を中心に説明する。

【0025】

（２）物理量及びパイナンバーと、パイナンバー変換マトリックスＰについて
図３は、２つの質点が完全非弾性衝突して一体となって運動するばね質点系の物理現象を示す模式図である。ばね質点系完全非弾性衝突現象は、図３に示すように、ばね定数ｋのばねに連結され、初期位置ｘ_１ｓ、初速度ｖ_１ｓが与えられて自由振動している質量ｍ_１の第１質点に、時刻ｔ＝ｔ_１ｅにおいて、初速度ゼロ、質量ｍ_２の第２質点が完全非弾性衝突し、その後、第１質点及び第２質点が一体となって運動し、時刻ｔ＝ｔ_２ｅにおいて、第１質点及び第２質点が位置ｘ_２ｅにいる現象を対象とする。

【0026】

ばね質点系完全非弾性衝突現象にて観察される複数の物理量ｑ_ｖ１～ｑ_ｖ８からなる物理量の集合は、以下の［数１］式に示すように、「物理量セットＱ_ｖ」で表すものとする。

【0027】

【数1】

【0028】

ばね質点系完全非弾性衝突現象において、位置ｘ_２ｓが予測対象の物理量であるとすると、位置ｘ_２ｓを「物理量目的変数」、他の物理量を「物理量説明変数」という。本実施
形態では、物理量目的変数（位置ｘ_２ｓ）は、物理量セットＱ_ｖの第１番目の要素ｑ_１に配置されるものとする。

【0029】

また、ばね質点系完全非弾性衝突現象において、物理量と、それぞれの物理量の基本単位の指数（次元）の関係は、以下の［表１］で表される。基本単位は、質量の［ｋｇ］、時間の［ｓ］及び、質量の[ｍ]であり、物理量目的変数は、［表１］の第１列（数値部分の左端の列）に配置されるものとする。

【0030】

【表1】

【0031】

［表１］における数値部分のみを抽出し、以下の［数２］式に示すように、行列の形式で表したものを、「次元マトリックスＤ」という。

【0032】

【数2】

【0033】

ここで、［数２］式に示す次元マトリックスＤに対して次元解析を行うことにより、以下の［数３］式に示すように、５個のパイナンバーπ_ｖ１～π_ｖ５が求められる。これら５個のパイナンバーπ_ｖ１～π_ｖ５からなるパイナンバーπ_ｖの集合｛π_ｖ１，π_ｖ２，π_ｖ３，π_ｖ４，π_ｖ５｝を、「パイナンバーセットΠ_ｖ」で表すものとする。本実施形態では、物理量目的変数を含むパイナンバーπ_ｖ１は、第１番目のみの要素に配置されるものとする。

【0034】

【数3】

【0035】

ばね質点系完全非弾性衝突現象にて観察される複数の物理量ｑ_ｖからなる物理量セットＱ_ｖと、物理量から変換可能な１又は複数のパイナンバーπ_ｖからなるパイナンバーセットΠ_ｖとの関係は、パイナンバー変換情報として、以下の［表２］で表される。本実施形態では、物理量目的変数は、第１列（数値部分の左端）に、物理量目的変数が含まれるパイナンバーは、第１行（数値部の上端）に配置されるものとする。

【0036】

【表2】

【0037】

パイナンバー変換情報が表形式で表された［表２］における数値部分のみを抽出し、以下の［数４］式に示すように、行列形式で表したものを、「パイナンバー変換マトリックスＰ」という。また、パイナンバー変換マトリックスＰのｉ行を、「パイナンバー変換ベクトルｐ_ｉ」という。本実施形態では、パイナンバー変換情報の形式として、「パイナンバー変換マトリックスＰ」を採用して説明するが、パイナンバー変換情報は、［表２］や［数４］式で表される情報と同等の情報を含むものであれば、表形式や行列形式以外の任意の形式で表現されるものでもよい。

【0038】

【数4】

【0039】

パイナンバー変換マトリックスＰに対して行基本変形を施すことにより、パイナンバーπ_ｖを変形することができる。行基本変形は、連立１次方程式の解法にも用いられ、例えば、（１）ある行を定数倍する、（２）ある行を定数倍したものを、別の行に加える、（３）ある行と別の行とを入れ換える、という手順で行われる。

【0040】

パイナンバー変換マトリックスＰに対する行基本変形では、（１）は、パイナンバーのべき演算、（２）は、あるパイナンバーと共通の変数を持つ別のパイナンバーを用いた変数の置き換え、（３）は、パイナンバーの順序の入れ替えにそれぞれ相当する。このような手順によりパイナンバーπ_ｖの形は変わることになるが、パイナンバーπ_ｖの本質的な意味が変わるものではない。これは、連立１次方程式の解が変わらないことと同様である。

【0041】

［数３］式に示すパイナンバーπ_ｖ１～π_ｖ５に対する行基本変形の例は、以下の［数５］式で表される。［数５］式では、（１）の例として、π_ｖ４を３乗し、（２）の例として、π_ｖ２のｔ_１ｅを、π_ｖ３を用いてｔ_２ｅに置き換え、（３）の例として、π_ｖ３とπ_ｖ５とを入れ替えることにより、パイナンバーπ_ｖ１～π_ｖ５としての意味が変わらないことを示している。

【0042】

【数5】

【0043】

［数５］式における第１式と第２式は、バッキンガムのパイ定理が示すパイナンバーπ_ｖの関係式Ｆを表す。第３式の（ｍ_２／ｍ_１）^３は、Ｆ’の中で３乗根の演算がなされることにして、第２式から変形された。第４式の（ｔ_２ｅ／ｔ_１ｅ）^２は、ｔ_２ｅ／ｔ_１ｅの関数であるので、π_Ｖ３に代表させて第５式では消去された。第３式から第５式までの変形は、パイナンバー変換マトリックスＰにおいて、パイナンバー変換ベクトルｐ_３を２倍したものを、パイナンバー変換ベクトルｐ_２に加える変形に相当する。第６式では、第３引数と第５引数が入れ替えられたが、関数Ｆ’’の定義として変わるものではない。パイナンバー変換マトリックスＰにおいては、パイナンバー変換ベクトルｐ_３とパイナンバー変換ベクトルｐ_５の入れ替え操作に相当する。Ｆ’及びＦ’’は、Ｆとは形が異なるが、第３式から第６式は、第１式を変形した式であるので、それぞれの引数は、第２式と同様にパイナンバーとして定義されることができる。

【0044】

一般に、行列は行基本変形により階段行列化することができるので、パイナンバー変換マトリックスＰの第２列以降の列を並べ替えたうえで階段行列化すれば、パイナンバーπ_ｖが変形され、かつ、物理量目的変数を含むパイナンバーπ_ｖ１は、常に第１番目のみに配置されたパイナンバー変換マトリックスＰが得られる。さらに、得られたパイナンバー変換マトリックスＰに簡約化を施せば、複雑さが低減される。

【0045】

（３）データ構造の定義について
次に、データ解析方法１００にて取り扱われるデータに関するデータ構造の定義について説明する。複数（ｎ個）の物理量ｑ_ｖからなる物理量セットＱ_ｖに対して特定の物理現象（条件）を表す数値がそれぞれ代入された数値データを、以下の［数６］式に示すように定義する。具体的には、複数の物理量ｑ_ｖからなる物理量セットＱ_ｖに対して数値データがそれぞれ代入された要素｛ｑ_１，ｑ_２，…，ｑ_ｎ｝を持つベクトルを、「物理量データベクトルｑ」と定義する。そのため、物理量データベクトルｑは、物理量セットＱ_ｖに対応したデータであり、物理量ｑ_ｖの数値データである「物理量データ」からなる。複数の物理量データベクトルｑの集合として、複数の物理量データベクトルｑを縦に並べた二次元配列を、「物理量データセットＱ」と定義する。

【0046】

また、複数の物理量ｑ_ｖが、目的変数と、１又は複数の説明変数からなる説明変数セットとで構成される場合、物理量データベクトルｑは、目的変数の数値データである「物理量目的変数データｙ」と、説明変数の数値データである説明変数データからなる「物理量説明変数データベクトルｘ」とを組として構成される。物理量目的変数データｙの集合として、複数の物理量目的変数データｙを縦に並べた一次元配列を、「物理量目的変数デー
タセットＹ」と定義する。物理量説明変数データベクトルｘの集合として、複数の物理量説明変数データベクトルｘを縦に並べた二次元配列を、「物理量説明変数データセットＸ」と定義する。

【0047】

【数6】

【0048】

複数（ｋ個）のパイナンバーπ_ｖからなるパイナンバーセットΠ_ｖに対しても、物理量ｑ_ｖと同様に、特定の物理現象（条件）を表す数値がそれぞれ代入された数値データを、以下の［数７］式に示すように定義する。具体的には、複数のパイナンバーπ_ｖからなるパイナンバーセットΠ_ｖに対して数値データがそれぞれ代入された要素｛π_１，π_２，…，π_ｋ｝を持つベクトルを、「パイナンバーデータベクトルπ」と定義する。そのため、パイナンバーデータベクトルπは、パイナンバーセットΠ_ｖに対応したデータであり、パイナンバーπ_ｖの数値データである「パイナンバーデータ」からなる。複数のパイナンバーデータベクトルπの集合として、複数のパイナンバーデータベクトルπを縦に並べた二次元配列を、「パイナンバーデータセットΠ」と定義する。

【0049】

また、複数のパイナンバーπ_ｖが、目的変数と、１又は複数の説明変数からなる説明変数セットとで構成される場合、パイナンバーデータベクトルπは、目的変数の数値データである「パイナンバー目的変数データη」と、説明変数の数値データである説明変数データからなる「パイナンバー説明変数データベクトルξ」とを組として構成される。パイナンバー目的変数データηの集合として、複数のパイナンバー目的変数データηを縦に並べた一次元配列を、「パイナンバー目的変数データセットΗ」と定義する。パイナンバー説明変数データベクトルξの集合として、複数のパイナンバー説明変数データベクトルξを縦に並べた二次元配列を、「パイナンバー説明変数データセットΞ」と定義する。

【0050】

【数7】

【0051】

ｎ個の物理量ｑ_ｖ、及び、ｋ個のパイナンバーπ_ｖに対するパイナンバー変換マトリックスＰを、以下の［数８］式に示すように定義する。また、パイナンバー変換マトリックスＰのｉ行を、「パイナンバー変換ベクトルｐ_ｉ」と定義する。

【0052】

【数8】

【0053】

（４）パイナンバー変換処理について
図４は、パイナンバー変換処理によるパイナンバー変換を示す模式図である。パイナンバー変換処理は、パイナンバー変換マトリックスＰに基づいて、物理量データベクトルｑをパイナンバーデータベクトルπに変換する処理である。パイナンバー変換処理によるパイナンバー変換を、以下の［数９］式で表すものとする（図４（ａ）参照）。

【0054】

【数9】

【0055】

パイナンバーデータベクトルπは、物理量データベクトルｑを構成する物理量データの各値を、パイナンバーデータベクトルπを構成するパイナンバーデータの各定義式に代入することにより、一意に変換される。例えば、パイナンバーデータの定義式を示す［数３］式に対して、８個の物理量データの各値を代入することにより、全てのパイナンバーデータが一意に決定され、パイナンバーデータベクトルπに変換される。

【0056】

また、パイナンバー変換処理が、パイナンバー変換マトリックスＰに基づいて、物理量データセットＱに含まれる物理量データベクトルｑの各々をパイナンバーデータベクトルπにそれぞれ変換する処理を、以下の［数１０］式で表すものとする（図４（ｂ）参照）。

【0057】

【数10】

【0058】

（５－１）パイナンバー予測モデル法の基本原理について
次に、パイナンバー予測モデル法による第１の現象予測処理Ｓ１について説明する。第１の現象予測処理Ｓ１は、所定の現象にて成り立つ理論式は不明であるが、その現象にて観察された学習対象の物理量データセットＱ_{ｔｒａｉｎ}と、その現象を表すパイナンバーπ_ｖ（例えば、初期のパイナンバー変換マトリックスＰ_０）が得られている状況において、そのパイナンバーπ_ｖを用いて、１又は複数の予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄ（複数の場合は、予測対象の物理量説明変数データセットＸ_ｐｒｅｄ）に対して１又は複数の未知の物理量目的変数データｙ_ｐｒｅｄ（複数の場合は、未知の物理量目的変数データセットＹ_ｐｒｅｄ）の予測を行う処理である。その際、予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄは、学習対象の物理量データセットＱ_{ｔｒａｉｎ}の内挿範囲に存在するものに限られず、学習対象の物理量データセットＱ_{ｔｒａｉｎ}の外挿範囲に存在するものを含む。

【0059】

なお、第１の現象予測処理Ｓ１で用いられるパイナンバーπ_ｖ、すなわち、処理用のパイナンバー変換マトリックスＰは、次元解析により得られた初期のパイナンバー変換マトリックスでもよいし、初期のパイナンバー変換マトリックスから後述のパイナンバー作成処理（ステップＳ２０）で作成されたパイナンバー変換マトリックスでもよいし、データ解析者の知見に基づいて作成されたパイナンバー変換マトリックスでもよい。

【0060】

第１の現象予測処理Ｓ１は、その基本的な処理内容として、処理用のパイナンバー変換マトリックスＰを作成するパイナンバー作成処理（ステップＳ２０）と、学習対象の物理量データセットＱ_{ｔｒａｉｎ}を、パイナンバー変換マトリックスＰに基づいて、学習対象のパイナンバーデータセットΠ_{ｔｒａｉｎ}に変換（パイナンバー変換）し、その変換したパイナンバーデータセットΠ_{ｔｒａｉｎ}に基づいて、パイナンバー説明変数データベクトルξを入力とし、パイナンバー目的変数データηを出力とするパイナンバー予測モデルＦ_ｐｒｅｄを作成するモデル作成処理（ステップＳ３０）と、予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄを、パイナンバー変換マトリックスＰに基づいて、予測対象のパイナンバー説明変数データベクトルξ_ｐｒｅｄに変換（パイナンバー変換）し、その変換した予測対象のパイナンバー説明変数データベクトルξ_ｐｒｅｄをパイナンバー予測モデルＦ_ｐｒｅｄに入力することで未知のパイナンバー目的変数データη_ｐｒｅｄを出力し、その出力した未知のパイナンバー目的変数データη_ｐｒｅｄから、予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄと、パイナンバー変換マトリックスＰとに基づいて、未知の物理量目的変数データｙ_ｐｒｅｄを算出する算出処理を、予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄに対して行うことにより、未知の物理量目的変数データｙ_ｐｒｅｄの予測を行うモデル予測処理（ステップＳ４０）とを行う。なお、各処理の詳細は後述する。

【0061】

このとき、第１の現象予測処理Ｓ１では、予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄが、学習対象の物理量データセットＱ_{ｔｒａｉｎ}が分布している領域（物理量空
間の分布領域）に対して内挿となっている必要はなく、予測対象のパイナンバー説明変数データベクトルξ_ｐｒｅｄが、学習対象のパイナンバーデータセットΠ_{ｔｒａｉｎ}が分布している領域（パイナンバー空間の分布領域）に対して内挿となっている場合には、未知の物理量目的変数データｙ_ｐｒｅｄの予測が可能となる。

【0062】

ここで、２つの物理量ｑ_ｖがともに内挿であるためには、少なくとも２つの制約式が必要となる。仮に両方の物理量ｑ_ｖが箱型の領域に分布していれば、例えば、ｍｉｎ_１＜ｑ_ｖ１＜ｍａｘ_１、ｍｉｎ_２＜ｑ_ｖ２＜ｍａｘ_２のように、２つの不等式が必要となる。２つの物理量ｑ_ｖが、パイナンバーとして１つに集約されている場合には、その１つのパイナンバーが内挿であるためには、１つの制約式のみで表現される。すなわち、制約式の個数の違いからも、パイナンバー空間において外挿となる確率は、物理量空間において外挿となる確率よりも小さいことが分かる。

【0063】

また、パイナンバーπ_ｖは、物理量ｑ_ｖの乗べき積の形をしているので、仮に物理量ｑ_ｖの分布が一様であっても、パイナンバーπ_ｖの分布では粗密が大きくなりやすい。そのため、パイナンバーπ_ｖを構成する各説明変数に関して内挿か外挿かを判定するためには、最小値や最大値を用いたような簡単な判定手法は機能しない場合が多い。そのため、外れ値を判定する手法を導入し、学習対象のパイナンバー説明変数データセットΞ_{ｔｒａｉｎ}を基準とする外れ値判定モデルｆ_ｏｄを用いることが有効である。外れ値を判定する手法には、様々な手法が存在するが、一般的には、データの特性（数や分布の形など）や用途に応じて、外れ値判定の基準値（判定の根拠とする特徴量、厳しさに関する閾値など）を選択・調整して用いるようにすればよい。

【0064】

図５は、パイナンバー予測モデル法の概要を簡易的な例（物理量ｑ_ｖが３個、パイナンバーπ_ｖが２個）で示す第１の模式図である。図６は、パイナンバー予測モデル法の概要を一般的な例で示す第２の模式図である。

【0065】

図５の例では、物理量説明変数ｘ_２には、学習対象の説明変数データセットＸ_２，_{ｔｒａｉｎ}と、予測対象の物理量説明変数データセットＸ_２，_ｐｒｅｄとの間に共通分が存在するが、物理量説明変数ｘ_１には、学習対象の物理量説明変数データセットＸ_１，_{ｔｒａｉｎ}と、予測対象の物理量説明変数データセットＸ_１，_ｐｒｅｄとの間に共通部分が存在しない。このように少なくとも１つの物理量説明変数が外挿となる場合、例えば、従来の機械学習により学習対象の物理量データセットＱ_{ｔｒａｉｎ}を用いて物理量回帰モデルを作成し、予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄから未知の物理量目的変数データｙ_ｐｒｅｄを予測しても、すべての説明変数が内挿である場合に比べて予測精度は悪化する。

【0066】

図５の例では、１個のパイナンバー説明変数ξ_１は、２個の物理量説明変数ｘ_１，ｘ_２の比で決まる。独立な２つの軸が１つに合成されるので、確率的に共通部分を持ちやすくなる。そのため、図５に示すｘ_１－ｘ_２平面上では、例えば、傾きｘ_２／ｘ_１が、パイナンバーπ_２に相当するので、学習対象の物理量説明変数データセットＸ_{ｔｒａｉｎ}が分布している範囲に原点から２本の接線を引き、それらの間の領域が、パイナンバー空間における内挿範囲となる。したがって、仮に２個の物理量説明変数ｘ_１，ｘ_２に共通部分がなくても、パイナンバー空間では共通部分を持つことがあり得る。パイナンバー空間において、学習対象のパイナンバー説明変数データセットΞ_{ｔｒａｉｎ}と、予測対象のパイナンバー説明変数データセットΞ_ｐｒｅｄの共通部分に存在する予測対象のパイナンバー説明変数データベクトルξ_ｐｒｅｄ（＝ξ_{ｉｎｌｉｅｒ，ｉ，１}）から、パイナンバー予測モデルＦ_ｐｒｅｄに基づいて、未知のパイナンバー目的変数データη_ｐｒｅｄ（＝η_{ｉｎｌｉｅｒ，ｉ}）の値が算出され、その値から、予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄ（＝ｘ_{ｉｎｌｉｅｒ，ｉ，１}及びｘ_{ｉｎｌｉｅｒ，ｉ，２}）と、パイナンバー変
換マトリックスＰとを用いて、未知の物理量目的変数データｙ_ｐｒｅｄ（ｙ_{ｉｎｌｉｅｒ，ｉ}）の値が算出される。

【0067】

図５では、パイナンバー予測モデル法による未知の物理量目的変数データｙ_ｐｒｅｄ（未知の物理量目的変数データセットＹ_ｐｒｅｄ）の予測が可能な領域は斜線で示されている。また、図６では、学習対象の物理量説明変数データセットＸ_{ｔｒａｉｎ}と、予測対象の物理量説明変数データセットＸ_ｐｒｅｄとの共通部分は、物理量説明変数ｘ_１～ｘ_ｎ－１の全てが共通する部分として斜線で示され、学習対象のパイナンバー説明変数データセットΞ_{ｔｒａｉｎ}と、予測対象のパイナンバー説明変数データセットΞ_ｐｒｅｄとの共通部分は、パイナンバー説明変数ξ_１～ξ_ｋ－１の全てが共通する部分として斜線で示されている。なお、パイナンバー空間における外れ値判定の設定によっては、学習対象の物理量説明変数データセットＸ_{ｔｒａｉｎ}と、予測対象の物理量説明変数データセットＸ_ｐｒｅｄとの共通部分にある物理量説明変数データベクトルｘ_ｐｒｅｄが外れ値と判定される場合もあるため、予測対象の物理量説明変数データセットＸ_{ｉｎｌｉｅｒ}の中に入らない領域も存在するが、この領域内にある物理量説明変数データベクトルｘ_ｐｒｅｄは、通常の物理量回帰モデルで予測可能であるので、斜線で表示した。

【0068】

（５－２）パイナンバー予測モデル法の詳細について
図７乃至図１０は、パイナンバー予測モデル法による第１の現象予測処理（ステップＳ１）の一例を示すフローチャートである。

【0069】

まず、ステップＳ１００では、初期のパイナンバー変換マトリックスＰ_０と、学習対象の物理量データセットＱ_{ｔｒａｉｎ}と、予測対象の物理量説明変数データセットＸ_ｐｒｅｄとが入力される。なお、これらのデータは、記憶部１１から読み出したものでもよいし、入力部１２を介して入力されたものでもよいし、ネットワークに接続された他の装置から受信したものでもよい。

【0070】

ここでは、ステップＳ１００にて入力される学習対象の物理量データセットＱ_{ｔｒａｉｎ}は、［数６］式に示すように、物理量目的変数データｙ_{ｔｒａｉｎ}と、物理量説明変数データベクトルｘ_{ｔｒａｉｎ}とを組とする物理量データベクトルｑ_{ｔｒａｉｎ}の集合であり、物理量説明変数データセットＸ_{ｔｒａｉｎ}と、物理量目的変数データセットＹ_{ｔｒａｉｎ}とで構成される場合について説明する。なお、ステップＳ１００では、パイナンバーπ_ｖに含まれる物理量ｑ_ｖの指数の値が大きい場合、パイナンバー変換後のパイナンバーπ_ｖの値が大きい場合、パイナンバーπ_ｖの桁の差が大きくなる場合等が想定されるときには、必要に応じて、物理量説明変数データセットＸ_{ｔｒａｉｎ}を各物理量説明変数データの最大値で除して正規化する等の学習データ前処理を行うようにしてもよい。

【0071】

次に、ステップＳ１１０では、学習対象の物理量データセットＱ_{ｔｒａｉｎ}のデータ密度を向上させる学習データ密度向上処理を行う。学習データ密度向上処理では、学習対象の物理量データセットＱ_{ｔｒａｉｎ}に基づいて、物理量説明変数データベクトルｘ_{ｔｒａｉｎ}を入力とし、物理量目的変数データｙ_{ｔｒａｉｎ}を出力とする物理量予測モデルＦ_{ｔｒａｉｎ}を作成する。物理量予測モデルＦ_{ｔｒａｉｎ}は、例えば、ニューラルネットワーク（ディープラーニングを含む）を用いた回帰モデルであり、学習対象の物理量データセットＱ_{ｔｒａｉｎ}を学習用データとして、物理量説明変数データベクトルｘ_{ｔｒａｉｎ}と、物理量目的変数データｙ_{ｔｒａｉｎ}との間の相関関係を機械学習することで作成される。なお、物理量予測モデルＦ_{ｔｒａｉｎ}は、上記の例に限られず、他の手法やモデルにより作成されたものでもよい。

【0072】

そして、学習対象の物理量データセットＱ_{ｔｒａｉｎ}の分布範囲に含まれる１又は複数の新たな物理量説明変数データベクトルｘ_{ｎｅｗ１，ｉ}を物理量予測モデルＦ_{ｔｒａｉｎ}
に入力することで１又は複数の新たな物理量目的変数データｙ_{ｎｅｗ１，ｉ}を出力し、その出力した新たな物理量目的変数データｙ_{ｎｅｗ１，ｉ}と、新たな物理量説明変数データベクトルｘ_{ｎｅｗ１，ｉ}とを組とする１又は複数の新たな物理量データベクトルｑ_{ｎｅｗ１，ｉ}を、学習対象の物理量データセットＱ_{ｔｒａｉｎ}に追加する。なお、新たな物理量説明変数データベクトルｘ_{ｎｅｗ１，ｉ}は、例えば、乱数等により作成してもよいし、学習対象の物理量データセットＱ_{ｔｒａｉｎ}が分布している領域の端（輪郭）付近に対応するものを作成してもよい。また、新たな物理量データベクトルｑ_{ｎｅｗ１，ｉ}の数は、学習対象の物理量データベクトルｑ_{ｔｒａｉｎ}の数、物理量説明変数ｘの個数や分布等に応じて適宜決定すればよい。上記のように、新たな物理量データベクトルｑ_{ｎｅｗ１，ｉ}を学習対象の物理量データセットＱ_{ｔｒａｉｎ}に追加する処理を行うことで、学習対象の物理量データセットＱ_{ｔｒａｉｎ}のデータ密度が向上し、学習対象のパイナンバーデータセットΠ_{ｔｒａｉｎ}のデータ密度も向上するため、外れ値判定モデルｆ_ｏｄによる外れ値判定の精度を向上させることができる。

【0073】

次に、ステップＳ２０では、処理用のパイナンバー変換マトリックスＰを作成するパイナンバー作成処理を行う。パイナンバー作成処理では、例えば、ステップＳ１００で入力された初期のパイナンバー変換マトリックスＰ_０を、パイナンバーπ_ｖに含まれる物理量目的変数の指数が特定のパイナンバーπ_ｖ１を除いて０となるように変形することで、処理用のパイナンバー変換マトリックスＰを作成する。したがって、物理量目的変数を含む特定のパイナンバーπ_ｖ１が、例えば、［表２］に示すように、第１行目のみに配置されるように変形されるものとして説明する。すなわち、［数４］式に示すように、第１行目のパイナンバー変換ベクトルｐ_１では、第１番目の要素が０以外の整数となり、他のパイナンバー変換ベクトルｐ_２～ｐ_５では、第１番目の要素が０となるように、変形される。

【0074】

なお、ステップＳ２０は、ステップＳ１００にて初期のパイナンバー変換マトリックスＰ_０が入力される前に実行されてもよいし、初期のパイナンバー変換マトリックスＰ_０が、変形後の形を元々有している場合には、ステップＳ２０は省略されてもよい。その場合には、ステップＳ２０以降の各ステップでは、ステップＳ１００にて入力された初期のパイナンバー変換マトリックスＰ_０を、処理用のパイナンバー変換マトリックスＰとみなして実行すればよい。

【0075】

次に、ステップＳ３０では、処理用のパイナンバー変換マトリックスＰを用いて、学習対象の物理量データセットＱ_{ｔｒａｉｎ}から、パイナンバー予測モデルＦ_ｐｒｅｄ、及び、外れ値判定モデルｆ_ｏｄを作成するモデル作成処理を行う。

【0076】

図８は、モデル作成処理（ステップＳ３０）の一例を示すフローチャートである。まず、ステップＳ３００では、学習対象の物理量データセットＱ_{ｔｒａｉｎ}を、処理用のパイナンバー変換マトリックスＰによりパイナンバー変換することで、学習対象のパイナンバーデータセットΠ_{ｔｒａｉｎ}を生成する。学習対象の物理量データセットＱ_{ｔｒａｉｎ}に対するパイナンバー変換処理は、［数１０］式と同様に、以下の［数１１］式で表される。

【0077】

【数11】

【0078】

なお、ステップＳ３００では、学習対象のパイナンバーデータセットΠ_{ｔｒａｉｎ}に対して、例えば、Ｂｏｘ－Ｃｏｘ変換、Ｙｅｏ－Ｊｏｈｎｓｏｎ変換等のべき乗変換、対数変換、標準化等の学習データ変換処理を行うことで、パイナンバーデータセットΠ_ｔｒａ
_ｉｎの分布を整えるようにしてもよい。パイナンバーπ_ｖは、物理量ｑ_ｖの乗べき積の形をしているので、仮に物理量ｑ_ｖが一様の分布を有していても、パイナンバー変換後のパイナンバーπ_ｖの値は、粗密の差がある分布になりやすい。上記のような学習データ変換処理を行うことで、分布の粗密の偏りを低減させて、例えば、外れ値判定モデルｆ_ｏｄによる外れ値判定の精度を向上させることができる。

【0079】

次に、ステップＳ３０２では、学習対象のパイナンバーデータセットΠ_{ｔｒａｉｎ}に含まれるパイナンバー説明変数データセットΞ_{ｔｒａｉｎ}を基準にして、外れ値判定モデルｆ_ｏｄを作成する。外れ値判定モデルｆ_ｏｄは、例えば、教師なし学習の一種である「ＩｓｏｌａｔｉｏｎＦｏｒｅｓｔ」等の手法により作成される。外れ値判定モデルｆ_ｏｄとして、「ＩｓｏｌａｔｉｏｎＦｏｒｅｓｔ」を採用した場合には、外れ値判定の基準値は、「ｃｏｎｔａｍｉｎａｔｉｏｎ」と呼ばれるパラメータを設定すればよい。「ｃｏｎｔａｍｉｎａｔｉｏｎ」は、外れ値判定モデルを作成する際の基準データ（ここでは、学習対象の物理量データセットＱ_{ｔｒａｉｎ}）に対して外れ値と判定される割合の目安を表すパラメータであるため、その値が大きいほど外れ値と判定されやすくなる。なお、以下の説明では、外れ値判定モデルｆ_ｏｄの作成手法は、「ＩｓｏｌａｔｉｏｎＦｏｒｅｓｔ」を採用し、外れ値判定の基準値は、「ｃｏｎｔａｍｉｎａｔｉｏｎ」に対する値であるものと説明する。

【0080】

次に、ステップＳ６０では、処理用のパイナンバー変換マトリックスＰと、外れ値判定モデルｆ_ｏｄとを用いて、予測対象の物理量説明変数データセットＸ_ｐｒｅｄに対して、予測可能率Ｒ_Ｐ、及び、予測不可能率Ｒ_Ｕの少なくとも一方を算出するモデル評価処理を行う。

【0081】

図９は、モデル評価処理（ステップＳ６０）の一例を示すフローチャートである。まず、ステップＳ６００では、予測対象の物理量説明変数データセットＸ_ｐｒｅｄに含まれる予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄを順次選択し、ステップＳ６１０～Ｓ６１３を繰り返すループ処理を行うことで、予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄの各々に対して、外れ値判定モデルｆ_ｏｄを用いた外れ値判定処理を行う。

【0082】

ステップＳ６１０では、ステップＳ６００で選択した予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄを、処理用のパイナンバー変換マトリックスＰによりパイナンバー変換することで、予測対象のパイナンバー説明変数データベクトルξ_ｐｒｅｄを生成する。予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄに対するパイナンバー変換処理、及び、予測対象の物理量説明変数データセットＸ_ｐｒｅｄに対するパイナンバー変換処理は、［数１０］式と同様に、以下の［数１２］式で表される。

【0083】

【数12】

【0084】

次に、ステップＳ６１１では、予測対象のパイナンバー説明変数データベクトルξ_ｐｒｅｄが、外れ値判定モデルｆ_ｏｄの外れ値でないか否かに応じて、その予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄに対して未知の物理量目的変数データｙ_ｐｒｅｄの予測が、パイナンバー変換マトリックスＰを用いて可能か否かを判定する。

【0085】

ステップＳ６１１にて、外れ値判定モデルｆ_ｏｄの外れ値でない、すなわち、予測が可
能と判定した場合には（Ｓ６１１：Ｙｅｓ）、ステップＳ６１２に進み、そのときのパイナンバー説明変数データベクトルξ_ｐｒｅｄをパイナンバー説明変数データベクトルξ_{ｉｎｌｉｅｒ，ｉ}に代入し、そのパイナンバー説明変数データベクトルξ_{ｉｎｌｉｅｒ，ｉ}に対応する物理量説明変数データベクトルｘ_ｐｒｅｄを物理量説明変数データベクトルｘ_{ｉｎｌｉｅｒ，ｉ}に代入する。なお、予測が可能したパイナンバー説明変数データベクトルξ_{ｉｎｌｉｅｒ，ｉ}の集合をパイナンバー説明変数データセットΞ_{ｉｎｌｉｅｒ}で表し、物理量説明変数データベクトルｘ_{ｉｎｌｉｅｒ，ｉ}の集合を物理量説明変数データセットＸ_{ｉｎｌｉｅｒ}で表すものとする。

【0086】

一方、ステップＳ６１１にて、外れ値判定モデルｆ_ｏｄの外れ値である、すなわち、予測が不可能と判定した場合には（Ｓ６１１：Ｎｏ）、ステップＳ６１３に進み、そのときのパイナンバー説明変数データベクトルξ_ｐｒｅｄをパイナンバー説明変数データベクトルξ_{ｏｕｔｌｉｅｒ，ｉ}に代入し、そのパイナンバー説明変数データベクトルξ_{ｏｕｔｌｉｅｒ，ｉ}に対応する物理量説明変数データベクトルｘ_ｐｒｅｄを物理量説明変数データベクトルｘ_{ｏｕｔｌｉｅｒ，ｉ}に代入する。なお、予測が不可能と判定したパイナンバー説明変数データベクトルξ_{ｏｕｔｌｉｅｒ，ｉ}の集合をパイナンバー説明変数データセットΞ_{ｏｕｔｌｉｅｒ}で表し、物理量説明変数データベクトルｘ_{ｏｕｔｌｉｅｒ，ｉ}の集合を物理量説明変数データセットＸ_{ｏｕｔｌｉｅｒ}で表すものとする。

【0087】

なお、ステップＳ６０において、学習対象のパイナンバー説明変数データセットΞ_{ｔｒａｉｎ}を基準にして作成された外れ値判定モデルｆ_ｏｄを用いて、予測対象のパイナンバー説明変数データセットΞ_ｐｒｅｄの外れ値判定を行う処理を、以下の［数１３］式で表すものとする。学習対象のパイナンバー説明変数データセットΞ_{ｔｒａｉｎ}は、学習対象の物理量説明変数データセットＸ_{ｔｒａｉｎ}からパイナンバー変換マトリックスＰにより変換されたものであり、予測対象のパイナンバー説明変数データセットΞ_ｐｒｅｄは、予測対象の物理量説明変数データセットＸ_ｐｒｅｄからパイナンバー変換マトリックスＰにより変換されたものである。

【0088】

【数13】

【0089】

次に、ステップＳ６２０では、予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄの各々に対する外れ値判定処理の判定結果に基づいて、予測可能率Ｒ_Ｐ、及び、予測不可能率Ｒ_Ｕの少なくとも一方を算出する。具体的には、予測対象の物理量説明変数データセットＸ_ｐｒｅｄに含まれる物理量説明変数データベクトルｘ_ｐｒｅｄの総数（Ｘ_ｐｒｅｄの総数）に対する、物理量説明変数データセットＸ_{ｉｎｌｉｅｒ}に含まれる物理量説明変数データベクトルｘ_{ｉｎｌｉｅｒ，ｉ}の総数（Ｘ_{ｉｎｌｉｅｒ}の総数）の割合に基づいて、予測可能率Ｒ_Ｐを算出する。また、予測対象の物理量説明変数データセットＸ_ｐｒｅｄに含まれる物理量説明変数データベクトルｘ_ｐｒｅｄの総数（Ｘ_ｐｒｅｄの総数）に対する、物理量説明変数データセットＸ_{ｏｕｔｌｉｅｒ}に含まれる物理量説明変数データベクトルｘ_{ｏｕｔｌｉｅｒ，ｉ}の総数（Ｘ_{ｏｕｔｌｉｅｒ}の総数）の割合に基づいて、予測不可能率Ｒ_Ｕを算出する。すなわち、予測可能率Ｒ_Ｐ及び予測不可能率Ｒ_Ｕは、以下の［数１４］式により算出される。

【0090】

【数14】

【0091】

次に、図８に戻ると、ステップＳ３０３では、学習対象のパイナンバーデータセットΠ_{ｔｒａｉｎ}に基づいて、パイナンバー説明変数データベクトルξを入力とし、パイナンバー目的変数データηを出力とするパイナンバー予測モデルＦ_ｐｒｅｄを作成する。パイナンバー予測モデルＦ_ｐｒｅｄは、例えば、ニューラルネットワーク（ディープラーニングを含む）を用いた回帰モデルであり、学習対象のパイナンバーデータセットΠ_{ｔｒａｉｎ}を学習用データとして、パイナンバー説明変数データベクトルξと、パイナンバー目的変数データηとの間の相関関係を機械学習することで作成される。なお、パイナンバー予測モデルＦ_ｐｒｅｄは、上記の例に限られず、他の手法やモデルにより作成されたものでもよい。

【0092】

次に、図７に戻ると、ステップＳ４０では、処理用のパイナンバー変換マトリックスＰと、パイナンバー予測モデルＦ_ｐｒｅｄと、外れ値判定モデルｆ_ｏｄとを用いて、予測対象の物理量説明変数データセットＸ_ｐｒｅｄに対して未知の物理量目的変数データセットＹ_ｐｒｅｄの予測を行うモデル予測処理を行う。

【0093】

図１０は、モデル予測処理（ステップＳ４０）の一例を示すフローチャートである。まず、ステップＳ４００では、予測対象の物理量説明変数データセットＸ_ｐｒｅｄに含まれる予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄを順次選択し、ステップＳ４１０～Ｓ４２１を繰り返すループ処理を行うことで、予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄの各々に対して算出処理を行う。なお、算出処理は、ステップＳ６１０～Ｓ６１３と同様のステップＳ４１０～Ｓ４１３を含むものである。

【0094】

ステップＳ４１０では、ステップＳ４００で選択した予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄを、処理用のパイナンバー変換マトリックスＰによりパイナンバー変換することで、予測対象のパイナンバー説明変数データベクトルξ_ｐｒｅｄを生成する。

【0095】

次に、ステップＳ４１１では、予測対象のパイナンバー説明変数データベクトルξ_ｐｒｅｄが、外れ値判定モデルｆ_ｏｄの外れ値でないか否かに応じて、その予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄに対して未知の物理量目的変数データｙ_ｐｒｅｄの予測が、パイナンバー変換マトリックスＰを用いて可能か否かを判定する。

【0096】

ステップＳ４１１にて、予測が可能と判定した場合には（Ｓ４１１：Ｙｅｓ）、ステップＳ４１２にて、そのときの予測対象のパイナンバー説明変数データベクトルξ_ｐｒｅｄをパイナンバー説明変数データベクトルξ_{ｉｎｌｉｅｒ，ｉ}に代入し、そのパイナンバー説明変数データベクトルξ_{ｉｎｌｉｅｒ，ｉ}に対応する物理量説明変数データベクトルｘ_ｐｒｅｄを物理量説明変数データベクトルｘ_{ｉｎｌｉｅｒ，ｉ}に代入し、ステップＳ４２０に進む。一方、ステップＳ４１１にて、予測が不可能と判定した場合には（Ｓ４１１：Ｎｏ）、ステップＳ４１３にて、そのときの予測対象のパイナンバー説明変数データベクトルξ_ｐｒｅｄをパイナンバー説明変数データベクトルξ_{ｏｕｔｌｉｅｒ，ｉ}に代入し、そのパイナンバー説明変数データベクトルξ_{ｏｕｔｌｉｅｒ，ｉ}に対応する物理量説明変数データベクトルｘ_ｐｒｅｄを物理量説明変数データベクトルｘ_{ｏｕｔｌｉｅｒ，ｉ}に代入し、ステップＳ４１０に戻る。

【0097】

次に、ステップＳ４２０では、予測対象のパイナンバー説明変数データベクトルξ_{ｉｎｌｉｅｒ，ｉ}を、ステップＳ３０で作成されたパイナンバー予測モデルＦ_ｐｒｅｄに入力することで未知のパイナンバー目的変数データη_{ｉｎｌｉｅｒ，ｉ}を出力する。なお、ステップＳ４２０において、パイナンバー予測モデルＦ_ｐｒｅｄを用いて、予測対象のパイナンバー説明変数データベクトルξ_{ｉｎｌｉｅｒ，ｉ}から未知のパイナンバー目的変数データη_{ｉｎｌｉｅｒ，ｉ}を算出する処理、及び、予測対象のパイナンバー説明変数データベクトルΞ_{ｉｎｌｉｅｒ}から未知のパイナンバー目的変数データΗ_{ｉｎｌｉｅｒ}を算出する処理を、以下の［数１５］式で表すものとする。

【0098】

【数15】

【0099】

次に、ステップＳ４２１では、ステップＳ４２０で出力された未知のパイナンバー目的変数データη_{ｉｎｌｉｅｒ，ｉ}から、予測対象の物理量説明変数データベクトルｘ_{ｉｎｌｉｅｒ，ｉ}と、パイナンバー変換マトリックスＰとに基づいて、未知の物理量目的変数データｙ_{ｉｎｌｉｅｒ，ｉ}を算出する。具体的には、以下の［数１６］式で示すように、物理量目的変数を含む特定のパイナンバーπ_ｖ１の定義式に、ステップＳ４２０で出力された未知のパイナンバー目的変数データη_{ｉｎｌｉｅｒ，ｉ}（＝π_{ｉｎｌｉｅｒ，ｉ，１}）と、予測対象の物理量説明変数データベクトルｘ_{ｉｎｌｉｅｒ，ｉ}とを代入することにより、未知の物理量目的変数データｙ_{ｉｎｌｉｅｒ，ｉ}を算出する。［数１６］式における「ｘ_{ｉｎｌｉｅｒ，ｉ，ｊ}」は、予測対象の物理量説明変数データセットＸ_{ｉｎｌｉｅｒ}に含まれるｉ番目の物理量説明変数データベクトルｘ_{ｉｎｌｉｅｒ，ｉ}の第ｊ成分（ｊ＝１，…，ｎ－１）を表す。また、［数１６］式における「ｐ_１，ｊ」は、処理用のパイナンバー変換マトリックスＰにおける第１行目のパイナンバー変換ベクトルｐ_１の第ｋ成分（ｋ＝１，…，ｎ）を表す。

【0100】

【数16】

【0101】

なお、ステップＳ４２０において、未知のパイナンバー目的変数データセットΗ_{ｉｎｌｉｅｒ，ｉ}から、予測対象の物理量説明変数データセットＸ_{ｉｎｌｉｅｒ}と、パイナンバー変換マトリックスＰとに基づいて、未知の物理量目的変数データセットＹ_{ｉｎｌｉｅｒ}を算出する処理を、「ｆ_ｙ」という関数を導入し、以下の［数１７］式で表すものとする。なお、物理量説明変数データセットＸ_{ｉｎｌｉｅｒ}は、対応するパイナンバー説明変数データセットΞ_{ｉｎｌｉｅｒ}から直ちに求められるから、［数１７］式の第１式は、第２式により定義し直すことができる。

【0102】

【数17】

【0103】

以上のようにして、図７乃至図１０に示すパイナンバー予測モデル法による第１の現象予測処理Ｓ１では、パイナンバー変換マトリックスＰを用いて、パイナンバー予測モデルＦ_ｐｒｅｄ及び外れ値判定モデルｆ_ｏｄを作成し、予測対象の物理量説明変数データセットＸ_ｐｒｅｄに対して未知の物理量目的変数データセットＹ_ｐｒｅｄを予測する。パイナンバー予測モデル法による一連の処理を、「ｆ_{π ｍｏｄｅｌ}」という関数を導入し、以下の［数１８］式で表すものとする。［数１８］式における第１式は、［数１５］式から変形され、さらに［数１３］式を用いて変形された。予測対象のパイナンバー説明変数データセットΞ_ｐｒｅｄ、学習対象のパイナンバー説明変数データセットΞ_{ｔｒａｉｎ}、及び、学習対象のパイナンバー目的変数データセットΗ_{ｔｒａｉｎ}は、予測対象の物理量説明変数データセットＸ_ｐｒｅｄ、学習対象の物理量説明変数データセットＸ_{ｔｒａｉｎ}、及び、学習対象の物理量目的変数データセットＹ_{ｔｒａｉｎ}から、［数１１］式、及び、［数１２］式に示すように、処理用のパイナンバー変換マトリックスＰによりパイナンバー変換することでそれぞれ求められるため、［数１８］式の第１式は、第２式に変形される。

【0104】

【数18】

【0105】

（５－３）パイナンバー予測モデル法による予測性能の検証結果
以下の［表３］に示す物理量データセットＱ（＝Ａ１～Ａ３、Ｂ１、Ｃ１）を用いて、パイナンバー予測モデル法による第１の現象予測処理Ｓ１の予測性能を検証した結果について説明する。

【0106】

【表3】

【0107】

物理量データセットＡ１、Ｂ１、Ｃ１は、学習対象の物理量データセットＱ_{ｔｒａｉｎ}として用いる。物理量データセットＡ１～Ａ３は、予測性能を検証するための予測対象の物理量データセットＱ_{ｔｒａｉｎ}として用いる。物理量データセットＡ１～Ａ３、Ｂ１、Ｃ１の各々における条件数は、それぞれ１０００条件とした。

【0108】

物理量データセットＡ１の物理量説明変数は、［表３］に示した領域内にランダムな一様分布として作成した。物理量データセットＡ２、Ａ３は、物理量データセットＡ１の各物理量説明変数の範囲のセンター値を維持したまま、ｍｉｎ値及びｍａｘ値を外側に広げて作成した。物理量データセットＡ２、Ａ３の物理量説明変数の分布範囲は、それぞれ物理量データセットＡ１に対して２倍及び３倍の分布範囲拡大率となるように作成した。物理量データセットＢ１の物理量説明変数ｍ_１、ｘ_１ｓ、ｔ_１ｅは、物理量データセットＡ１のセンター値の１水準のみ（定数）に固定して作成した。他の物理量説明変数は、物理量データセットＡ３と同じ範囲でランダムに一様分布しているが、物理量データセットＡ３とは異なる乱数シードを用いて作成した。物理量データセットＣ１の物理量説明変数ｔ_１ｅは、物理量データセットＡ１の最小値と最大値の２水準のみにランダムに振り分けて作成した。他の物理量説明変数は、物理量データセットＡ１と同じ範囲でランダムに一様分布しているが、物理量データセットＡ１とは異なる乱数シードを用いて作成した。

【0109】

学習対象の物理量データセットＡ１、Ｂ１、Ｃ１を用いて、モデル作成処理Ｓ３０にてパイナンバー予測モデルＦ_ｐｒｅｄ、及び、外れ値判定モデルｆ_ｏｄを作成し、予測対象の物理量データセットＡ１～Ａ３に含まれる物理量説明変数データベクトルｘ_ｐｒｅｄから、第１の現象予測処理Ｓ１にて未知の物理量目的変数データｙ_ｐｒｅｄを予測し、その予測した未知の物理量目的変数データｙ_{ｐｒｅｄの}値（物理量目的変数ｘ_２ｅの予測値）と、物理量データセットＡ１～Ａ３に含まれる物理量説明変数データベクトルｘ_ｐｒｅｄから動力学シミュレーションにより求められた物理量目的変数データｙ_ｐｒｅｄの値（物
理量目的変数ｘ_２ｅの真値）とを比較することで、予測性能を検証した。

【0110】

（５－３－１）分布範囲拡大率が２倍の場合について
以下に、学習対象として、［表３］に示す物理量データセットＡ１を用い、予測対象として、［表３］に示す物理量データセットＡ２を用いた場合（分布範囲拡大率が２倍）における、パイナンバー予測モデル法による予測性能を検証した結果について説明する。

【0111】

図１１は、物理量データセットＡ１、Ａ２を示す散布図マトリックスである。対角のグラフは各物理量のヒストグラム、他のグラフは物理量の全ての組み合わせについての散布図を表す。白い点は、学習対象の物理量データセットＡ１、黒い点は、予測対象の物理量データセットＡ２を表す。白い点は、不透明な点として黒い点の上に表示されているため、白い点が表示されている領域にはその裏側に黒い点が存在している場合がある。その様子は、ヒストグラムにおける白いバーと黒いバーとが重なる様子により表現されている（以後のすべての散布図マトリックスにおいて同様である）。

【0112】

物理量データセットＡ１、Ａ２に含まれる物理量説明変数データセットＸ_{ｔｒａｉｎ}、Ｘ_ｐｒｅｄは、物理量データセットＡ１の物理量説明変数の最大値で正規化したものである。そのため、物理量データセットＡ１の物理量説明変数の最大値は１となっており、すべての説明変数がほぼ一様に分布している。

【0113】

従来の機械学習により学習対象の物理量データセットＡ１を用いて物理量回帰モデルを作成した場合、予測精度の悪化を招くことなく予測が可能な範囲は、物理量データセットＡ１が分布する内挿範囲内に限られる。ここでは、物理量説明変数が７個あり、予測対象の物理量データセットＡ２では、すべての物理量説明変数の分布範囲が、物理量データセットＡ１に対して２倍になっている。したがって、物理量データセットＡ２のうち従来の機械学習により予測可能な物理量説明変数データベクトルｘ_{ｉｎｌｉｅｒ，ｉ}の割合は、（１／２）^７＝０．７８％、すなわち、１０００個の物理量説明変数データベクトルｘのうち８個程度である。

【0114】

図１２は、物理量データセットＡ１、Ａ２をそれぞれパイナンバー変換したパイナンバーデータセットを示す散布図マトリックスである。図１２に示すパイナンバーデータセットΠ_{ｔｒａｉｎ、}Ξ_ｐｒｅｄは、［数４］式のパイナンバー変換マトリックスＰを用いて、物理量データセットＡ１、Ａ２をそれぞれパイナンバー変換したものであり、物理量データセットＡ１、Ａ２からそれぞれ変換されたパイナンバーデータセットΠ_{ｔｒａｉｎ、}Ξ_ｐｒｅｄに対して同一の変換パラメータにより学習データ変換処理（Ｂｏｘ－Ｃｏｘ変換及び標準化）を行った。図１２（ａ）は、学習データ変換処理が行われる前のパイナンバーデータセットΠ_{ｔｒａｉｎ、}Ξ_ｐｒｅｄである。図１２（ｂ）は、学習データ変換処理が行われた後のパイナンバー説明変数データセットΞ_{ｔｒａｉｎ、}Ξ_ｐｒｅｄである。物理量データセットＡ１、Ａ２の分布の形は類似しているが、物理量データセットＡ２の分布範囲は、物理量データセットＡ１の分布範囲よりも広くなっている。

【0115】

パイナンバーπ_ｖは、物理量ｑ_ｖの乗べき積の形をしているので、図１２（ａ）に示すパイナンバーデータセットΠ_{ｔｒａｉｎ、}Ξ_ｐｒｅｄの分布では、粗密の偏りが大きい。一方、図１２（ｂ）に示すパイナンバー説明変数データセットΞ_{ｔｒａｉｎ、}Ξ_ｐｒｅｄの分布では、各パイナンバー説明変数のヒストグラムは、図１２（ａ）に比べて左右対称な山型の形をしている。

【0116】

図１３は、物理量データセットＡ１から作成されたパイナンバー予測モデルＦ_ｐｒｅｄの検証結果を示す図である。図１３におけるパイナンバー予測モデルＦ_ｐｒｅｄは、図１２（ｂ）に示す学習対象の物理量データセットＡ１を用いて、その物理量データセットＡ
１から変換されたパイナンバーデータセットΠ_{ｔｒａｉｎ}をランダムに学習用パイナンバーデータベクトル７５０個と、検証用パイナンバーデータベクトル２５０個とに分割して作成したものである。パイナンバー予測モデルＦ_ｐｒｅｄにおける学習及び検証結果の決定係数は、それぞれ０．９９９及び０．９９９であった。

【0117】

図１４は、物理量データセットＡ１から作成された外れ値判定モデルｆ_ｏｄによる物理量データセットＡ２の外れ値判定結果（予測可能、又は、予測不可能）を示す散布図マトリックスである。外れ値判定モデルｆ_ｏｄは、学習対象の物理量データセットＡ１から変換されたパイナンバー説明変数データセットΞ_{ｔｒａｉｎ}を基準にして作成されたものであり、予測対象の物理量データセットＡ２の各点（パイナンバー説明変数データベクトルξ_ｐｒｅｄ）が、その外れ値判定モデルｆ_ｏｄの外れ値でないか否かを判定した。なお、外れ値判定モデルｆ_ｏｄは、「ＩｓｏｌａｔｉｏｎＦｏｒｅｓｔ」を採用し、外れ値判定の基準値は、「ｃｏｎｔａｍｉｎａｔｉｏｎ＝０．１５」と設定した。

【0118】

外れ値判定モデルｆ_ｏｄによる外れ値の判定結果として、図１４に示す白い点は、予測が可能（外れ値でない）と判定されたパイナンバー説明変数データベクトルξ_{ｉｎｌｉｅｒ，ｉ}に対応する物理量説明変数データベクトルｘ_{ｉｎｌｉｅｒ，ｉ}（物理量説明変数データセットＸ_{ｉｎｌｉｅｒ}）の分布を表す。また、図１４に示す黒い点は、予測が不可能（外れ値である）と判定されたパイナンバー説明変数データベクトルξ_{ｏｕｔｌｉｅｒ，ｉ}に対応する物理量説明変数データベクトルｘ_{ｏｕｔｌｉｅｒ，ｉ}（物理量説明変数データセットＸ_{ｏｕｔｌｉｅｒ}）の分布を表す。予測が可能と判定された物理量説明変数データベクトルｘ_{ｉｎｌｉｅｒ，ｉ}（図１４に示す白い点）が、従来の機械学習では外挿とみなされる図１１に示す物理量データセットＡ１の分布領域（図１１に示す白い点）の外側にも分布していることが分かる。

【0119】

図１５は、パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。横軸が予測値、縦軸が真値（正解）をそれぞれ表し、各プロットは、予測対象の物理量データセットＡ２の各点（物理量説明変数データベクトルｘ_ｐｒｅｄ）に対応する物理量目的変数データｙ_ｐｒｅｄをそれぞれ表す。

【0120】

図１５（ａ）は、予測対象の物理量データセットＡ２のうち、予測が可能（外れ値でない）と判定された物理量説明変数データベクトルｘ_{ｉｎｌｉｅｒ，ｉ}に対応する物理量目的変数データｙ_{ｉｎｌｉｅｒ，ｉ}を示す。図１５（ａ）に示す、予測可能な物理量説明変数データベクトルｘ_{ｉｎｌｉｅｒ，ｉ}の数は、１９６個（予測可能率Ｒ_Ｐ＝１９．６％）であり、その決定係数は、０．９９８であった。

【0121】

図１５（ｂ）は、予測が不可能（外れ値である）と判定された物理量説明変数データベクトルｘ_{ｏｕｔｌｉｅｒ，ｉ}に対応する物理量目的変数データｙ_{ｏｕｔｌｉｅｒ}を示す。図１５（ｂ）に示す、予測不可能な物理量説明変数データベクトルｘ_{ｏｕｔｌｉｅｒ，ｉ}の数は、８０４個（予測不可能率Ｒ_Ｕ＝８０．４％）であり、決定係数は、０．９３１であった。

【0122】

図１６は、従来の物理量回帰モデルによる物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。従来の機械学習により学習対象の物理量データセットＡ１から作成された物理量回帰モデル（従来技術）を用いて、予測対象の物理量データセットＡ２（１０００個の物理量説明変数データベクトルｘ）に対して物理量目的変数データセットＹ_ｐｒｅｄを予測したときの結果を示す。

【0123】

従来の物理量回帰モデル（従来技術）では、学習対象の物理量データセットＡ１に対し
て外挿範囲となるデータについて予測が可能か否かを判断できないため、物理量データセットＡ２のすべてについて物理量目的変数データｙ_ｐｒｅｄを予測した。そのため、図１６に示す検証結果は、外挿範囲となる場合も含むので、従来の物理量回帰モデル（従来技術）は、パイナンバー予測モデル法において予測可能な物理量説明変数データベクトルｘ_{ｉｎｌｉｅｒ，ｉ}に対する予測よりも予測精度が悪く、決定係数は、０．８９９であった。

【0124】

（５－３－２）分布範囲拡大率が３倍の場合について
以下に、学習対象として、［表３］に示す物理量データセットＡ１を用い、予測対象として、［表３］に示す物理量データセットＡ３を用いた場合（分布範囲拡大率が３倍）における、パイナンバー予測モデル法による予測性能を検証した結果について説明する。

【0125】

図１７は、物理量データセットＡ１、Ａ３を示す散布図マトリックスである。図１７は、図１１に対応するものであり、白い点は学習対象の物理量データセットＡ１、黒い点は予測対象の物理量データセットＡ３を表す。物理量データセットＡ１、Ａ３に含まれる物理量説明変数データセットは、物理量データセットＡ１の物理量説明変数の最大値で正規化したものである。ここでは、物理量説明変数が７個あり、物理量データセットＡ３では、すべての物理量説明変数の分布範囲が、物理量データセットＡ１に対して３倍になっている。したがって、物理量データセットＡ３のうち従来の機械学習により予測可能な割合は、（１／３）^７＝０．０４５％、すなわち、１０００個の物理量説明変数データベクトルｘのうち１個未満である。

【0126】

図１８は、物理量データセットＡ１、Ａ３をそれぞれパイナンバー変換したパイナンバーデータセットを示す散布図マトリックスである。図１９は、物理量データセットＡ１から作成された外れ値判定モデルｆ_ｏｄによる物理量データセットＡ３の外れ値判定結果（予測可能、又は、予測不可能）を示す散布図マトリックスである。図２０は、パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。図２１は、従来の物理量回帰モデルによる物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。図１８乃至図２１は、図１２、図１４乃至図１６にそれぞれ対応する。パイナンバー予測モデルＦ_ｐｒｅｄ及び外れ値判定モデルｆ_ｏｄは、分布範囲拡大率が２倍である場合と同様のものを用い、外れ値判定の基準値も同一であるものとした。

【0127】

図２０（ａ）に示す、予測可能な物理量説明変数データベクトルｘ_{ｉｎｌｉｅｒ，ｉ}の数は、４７個（予測可能率Ｒ_Ｐ＝４．７％）であり、その決定係数は、０．９９２であった。また、図２０（ｂ）に示す、予測不可能な物理量説明変数データベクトルｘ_{ｏｕｔｌｉｅｒ，ｉ}の数は、９５３個（予測不可能率Ｒ_Ｕ＝９５．３％）であり、決定係数は、０．６９８であった。一方、図２１に示す、従来の機械学習により学習対象の物理量データセットＡ１から作成された物理量回帰モデルを用いて、予測対象の物理量データセットＡ３に対して物理量目的変数データセットＹ_ｐｒｅｄを予測したときの決定係数は、０．６２７であった。

【0128】

（５－３－３）３つの物理量説明変数を１水準に固定した場合について
以下に、学習対象として、［表３］に示す物理量データセットＢ１（３つの物理量説明変数が１水準に固定）を用い、予測対象として、［表３］に示す物理量データセットＡ１を用いた場合における、パイナンバー予測モデル法による予測性能を検証した結果について説明する。

【0129】

図２２は、物理量データセットＢ１、Ａ１を示す散布図マトリックスである。図２２は、図１１に対応するものであり、白い点は学習対象の物理量データセットＢ１、黒い点は
予測対象の物理量データセットＡ１を表す。物理量データセットＢ１では、３つの物理量説明変数が１水準に固定されているため、直線状又はすべての点が重なった１点として表されている。

【0130】

図２３は、物理量データセットＢ１、Ａ１をそれぞれパイナンバー変換したパイナンバーデータセットを示す散布図マトリックスである。図２４は、物理量データセットＢ１から作成されたパイナンバー予測モデルＦ_ｐｒｅｄの検証結果を示す図である。図２５は、物理量データセットＢ１から作成された外れ値判定モデルｆ_ｏｄによる物理量データセットＡ１の外れ値判定結果（予測可能、又は、予測不可能）を示す散布図マトリックスである。図２６は、パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。図２７は、従来の物理量回帰モデルによる物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。図２３乃至図２７は、図１２乃至図１６にそれぞれ対応する。

【0131】

学習対象の物理量データセットＢ１では、３つの物理量説明変数が１水準に固定されているが、一様に分布する他の物理量説明変数が１次の変数として各パイナンバーの分子に１つずつ含まれている。そのため、物理量データセットＢ１から変換されたパイナンバーデータセットΠ_{ｔｒａｉｎ}の分布には、図２２の物理量データセットＢ１に示すような直線状又は１点の形で表される部分が存在せず、図２３に示すように、一様分布となった。

【0132】

また、学習対象の物理量データセットＢ１には、１水準に固定された３つの物理量説明変数の値が変化することで物理量目的変数に与える影響に関する情報が含まれていないため、物理量回帰モデルの作成には適さない。一方、物理量データセットＢ１から変換されたパイナンバーデータセットΠ_{ｔｒａｉｎ}の分布は、上記のように、一様分布となっているため、パイナンバー予測モデルＦ_ｐｒｅｄの作成に適している。したがって、予測対象の物理量データセットＡ１において、１水準に固定された物理量説明変数が物理量データセットＢ１の固定値とは別の値に振られた場合であっても、学習対象の物理量データセットＢ１から変換されたパイナンバーデータセットΠ_{ｔｒａｉｎ}の分布領域（パイナンバー空間の分布領域）に対して内挿範囲に含まれる場合には、予測が可能となる。

【0133】

学習対象の物理量データセットＢ１では、３つの物理量説明変数が１水準に固定されることは、パイナンバーデータセットΠ_{ｔｒａｉｎ}の分布領域を狭める方向に作用しているが、他の４つの物理量説明変数が予測対象の物理量データセットＡ１の３倍の範囲に分布していることは、パイナンバーデータセットΠ_{ｔｒａｉｎ}の分布領域を広げる方向に作用している。その結果、予測対象の物理量データセットＡ１に対する各パイナンバー説明変数データベクトルξ_ｐｒｅｄの大部分が、パイナンバーデータセットΠ_{ｔｒａｉｎ}が分布している領域（パイナンバー空間の分布領域）に対して内挿範囲に含まれる。

【0134】

図２６（ａ）に示す、予測可能な物理量説明変数データベクトルｘ_{ｉｎｌｉｅｒ，ｉ}の数は、９９７個（予測可能率Ｒ_Ｐ＝９９．７％）であり、その決定係数は、０．９９９であった。学習対象の物理量データセットＢ１において、３つの物理量説明変数が固定されていても、他の物理量説明変数が広く分布している効果により、パイナンバー予測モデルＦ_ｐｒｅｄによる予測は広範囲で可能となった。また、図２６（ｂ）に示す、予測不可能な物理量説明変数データベクトルｘ_{ｏｕｔｌｉｅｒ，ｉ}の数は、３個（予測不可能率Ｒ_Ｕ＝０．３％）であり、決定係数は、０．９９１であったが、数が少ないため、これは参考値である。

【0135】

一方、図２７に示す、従来の機械学習により学習対象の物理量データセットＢ１から作成された物理量回帰モデル（従来技術）を用いて、予測対象の物理量データセットＡ１に
対して物理量目的変数データセットＹ_ｐｒｅｄを予測したときの決定係数は、０．４９１であった。学習対象の物理量データセットＢ１では、３つの物理量説明変数が固定されていることで、それらの物理量説明変数の値が変化することで物理量目的変数に与える影響に関する情報を持たない。そのため、予測対象の物理量データセットＡ１において、１水準に固定された物理量説明変数が物理量データセットＢ１の固定値とは別の値に振られた物理量説明変数データベクトルｘ_ｐｒｅｄは、外挿予測となるため、予測精度は悪化したものと考えられる。

【0136】

（５－３－４）１つの物理量説明変数を２水準に固定した場合について
以下に、学習対象として、［表３］に示す物理量データセットＣ１（１つの物理量説明変数が２水準に固定）を用い、予測対象として、［表３］に示す物理量データセットＡ１を用いた場合における、パイナンバー予測モデル法による予測性能を検証した結果について説明する。

【0137】

図２８は、物理量データセットＣ１、Ａ１を示す散布図マトリックスである。図２８は、図１１に対応するものであり、白い点は学習の物理量データセットＣ１、黒い点は予測対象の物理量データセットＡ１を表す。学習対象の物理量データセットＣ１では、１つの物理量説明変数ｔ_１ｅが２水準に固定されているため、２つの直線状の分布として表されている。予測対象の物理量データセットＡ１は、学習対象の物理量データセットＣ１の最小値と最大値の範囲内という意味では内挿であるが、外れ値の観点では、物理量説明変数ｔ_１ｅに関して分割された２つの分布領域があり、その間に予測対象の物理量データセットＡ１の物理量説明変数ｔ_１ｅが分布するので、外挿予測と同様に、従来の物理量回帰モデルでは予測が困難である。

【0138】

図２９は、物理量データセットＣ１、Ａ１をそれぞれパイナンバー変換したパイナンバーデータセットを示す散布図マトリックスである。図３０は、物理量データセットＣ１から作成されたパイナンバー予測モデルＦ_ｐｒｅｄの検証結果を示す図である。図３１は、物理量データセットＣ１から作成された外れ値判定モデルｆ_ｏｄによる物理量データセットＡ１の外れ値判定結果（予測可能、又は、予測不可能）を示す散布図マトリックスである。図３２は、パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。図３３は、従来の物理量回帰モデルによる物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。図２９乃至図３３は、図１２乃至図１６にそれぞれ対応する。

【0139】

物理量説明変数ｔ_１ｅを含むパイナンバーには、一様に分布する他の物理量説明変数が含まれるため、学習対象の物理量データセットＣ１から変換されたパイナンバーデータセットΠ_{ｔｒａｉｎ}の分布として、図２９に示す各散布図では、２次元的な分布が見られる。これにより、学習対象の物理量データセットＣ１では、２水準に固定されている物理量説明変数ｔ_１ｅが、それらの固定値とは異なる値に振られた予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄに対しても予測可能となる場合がある。図３０に示すパイナンバー予測モデルＦ_ｐｒｅｄにおける学習及び検証結果の決定係数は、それぞれ０．９９９及び１．０００であった。

【0140】

図３２（ａ）に示す、予測可能な物理量説明変数データベクトルｘ_{ｉｎｌｉｅｒ，ｉ}の数は、８７１個（予測可能率Ｒ_Ｐ＝８７．１％）であり、その決定係数は、０．９９９であった。学習対象の物理量データセットＣ１において、１つの物理量説明変数ｔ_１ｅが２水準に固定されていても、他の物理量説明変数が広く分布している効果により、パイナンバー予測モデルＦ_ｐｒｅｄによる予測は広範囲で可能となった。

【0141】

また、図３２（ｂ）に示す、予測不可能な物理量説明変数データベクトルｘ_{ｏｕｔｌｉｅｒ，ｉ}の数は、１２９個（予測不可能率Ｒ_Ｕ＝１２．９％）であり、決定係数は、０．９９９であった。予測対象の物理量データセットＡ１の物理量説明変数ｔ_１ｅの値は、学習対象の物理量データセットＣ１で２水準に固定された固定値の間に分布しているので、物理量データセットＣ１から変換されたパイナンバーデータセットΠ_{ｔｒａｉｎ}の分布領域から外れているような予測対象のパイナンバー説明変数データベクトルξ_ｐｒｅｄでも、物理量データセットＣ１の分布に挟まれるような場所に位置している。そのため、パイナンバー空間では、完全な外挿範囲ではなく、密度の低い内挿範囲とみなされることもできるので、外れ値と判定されても予測精度が悪化しにくかったと考えられる。なお、分布範囲拡大率が３倍の物理量データセットＡ３に対して同様の予測を行うと、予測可能な物理量説明変数データベクトルｘ_{ｉｎｌｉｅｒ，ｉ}の数は、２５８個（予測可能率Ｒ_Ｐ＝２５．８％）であり、決定係数は、０．９９４と高い精度を示したが、予測不可能な物理量説明変数データベクトルｘ_{ｏｕｔｌｉｅｒ，ｉ}の数は、７４２個（予測不可能率Ｒ_Ｕ＝７４．２％）であり、決定係数は、０．９４１に悪化した。

【0142】

一方、図３３に示す、従来の機械学習により学習対象の物理量データセットＣ１から作成された物理量回帰モデル（従来技術）を用いて、予測対象の物理量データセットＡ１に対して物理量目的変数データセットＹ_ｐｒｅｄを予測したときの決定係数は、－４３６８であった。予測対象の物理量データセットＡ１において、物理量説明変数ｔ_１ｅが最小値と最大値の間の値に振られた場合、外挿予測と同様に、予測精度は悪化した。

【0143】

（６－１）統合パイナンバー予測モデル法の基本原理について
次に、統合パイナンバー予測モデル法による第２の現象予測処理Ｓ２について説明する。初期のパイナンバー変換マトリックスＰ_０に対して行基本変形を行うことにより、複数（ｍ個）のパイナンバー変換マトリックスＰ_ｊ（ｊ＝０，…,ｍ－１）を作成することが
できるが、そのような複数のパイナンバー変換マトリックスＰ_ｊにそれぞれ対応するパイナンバー空間（複数のパイナンバー軸が構成する空間）と、各パイナンバー空間におけるパイナンバーデータセットΠ_{ｔｒａｉｎ}の分布形状とは異なるものである。そのため、各パイナンバー空間での外れ値判定の基準値を同じにしたとしても、外れ値でない（内挿）と判定される予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄは、パイナンバー変換マトリックスＰ_ｊの形に応じて異なることになる。したがって、同じ学習対象の物理量データセットＱ_{ｔｒａｉｎ}及び外れ値判定の基準値が用いられたとしても、各パイナンバー空間での外れ値判定にて予測が可能と判定される物理量説明変数データベクトルの組み合わせは、パイナンバー変換マトリックスＰ_ｊの形に応じて異なることになる。

【0144】

上記の点について、具体例を挙げて説明する。［数３］式に示すパイナンバーセットΠ_Ｖは、パイナンバー変換マトリックスＰに対する行基本変形により、以下の［数１９］式に示す２つのパイナンバーセットΠ_ｅｘ１、Π_ｅｘ２に変形される。

【0145】

【数19】

【0146】

パイナンバーセットΠ_ｅｘ１、Π_ｅｘ２は、物理量説明変数ｔ_１ｅ、ｔ_２ｅが入れ替えられた形になっている。パイナンバーセットΠ_ｅｘ１の形では、ｔ_１ｅが３つのパイナンバーの分母に、ｔ_２ｅは１つのパイナンバーの分子にのみ含まれている。パイナンバーセットΠ_ｅｘ２の形では、ｔ_２ｅが３つのパイナンバーの分母に、ｔ_１ｅは１つのパイナン
バーの分子に
のみ含まれている。

【0147】

図３４は、学習対象のデータセットＡ１に対してパイナンバーセットΠ_ｅｘ１、Π_ｅｘ２が用いられたときに、予測対象のデータセットＡ２のうち外れ値でないと判定された物理量説明変数ｔ_１ｅ、ｔ_２ｅのヒストグラムをそれぞれ示す図である。ここでは、外れ値判定の基準値は、「ｃｏｎｔａｍｉｎａｔｉｏｎ＝０．２０」と設定した。

【0148】

予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄが、学習対象の物理量データセットＱ_{ｔｒａｉｎ}が分布している領域の端の部分（最小値及び最大値に近い部分）に位置するような場合、その物理量説明変数データベクトルｘ_ｐｒｅｄから変換されたパイナンバー説明変数データベクトルξ_ｐｒｅｄは外れ値と判定されやすい。特に、物理量説明変数ｘ_ｖがパイナンバーπ_ｖの分母に含まれている場合、その物理量説明変数ｘ_ｖに対する物理量データの値が小さいほどパイナンバーの値が大きくなりやすいので、図３４（ｂ）のｔ_１ｅ及び図３４（ｃ）のｔ_２ｅの左端部分のデータ数が減りやすい。なお、パイナンバーセットΠ_ｅｘ１、Π_ｅｘ２では、物理量説明変数ｔ_１ｅ、ｔ_２ｅを入れ替えられた形をしているので、図３４（ｂ）の上下を入れ替えられると、図３４（ｃ）に類似する。なお、分布の粗密の偏りの低減のために学習データ変換処理（Ｂｏｘ－Ｃｏｘ変換等）が施された場合でも、パイナンバー変換マトリックスＰ_ｊの形が変わると、外れ値判定により抽出される予測可能な物理量説明変数データベクトルｘ_ｐｒｅｄが変わることは同様である。

【0149】

上記の２つのパイナンバーセットΠ_ｅｘ１、Π_ｅｘ２を用いたとき、予測可能な物理量説明変数データベクトルｘ_ｐｒｅｄは、それぞれ１８２個（予測可能率Ｒ_Ｐ＝１８．２％）、１８９個（予測可能率Ｒ_Ｐ＝１８．９％）であったが、パイナンバーセットΠ_ｅｘ１、Π_ｅｘ２の少なくともどちらか一方で予測可能な物理量説明変数データベクトルｘ_ｐｒｅｄは、２２６個（予測可能率Ｒ_Ｐ＝２２．６％）に増加した。すなわち、２つのパイナンバーセットΠ_ｅｘ１、Π_ｅｘ２を用いたときには、単一のパイナンバー変換マトリックスＰ_０が用いられたときよりも、予測可能率Ｒ_Ｐが増加した。これは、図３４に示すように、２つのパイナンバーセットΠ_ｅｘ１、Π_ｅｘ２では、予測可能な（外れ値でない）物理量説明変数データベクトルｘ_ｐｒｅｄが異なるからである。

【0150】

統合パイナンバー予測モデル法による第２の現象予測処理Ｓ２は、上記のような性質を利用したものであり、行基本変形により作成された複数（ｍ個）のパイナンバー変換マトリックスＰ_ｊにそれぞれ対応する複数のパイナンバー空間において、外れ値判定モデルｆ_ｏｄ，ｊ及びパイナンバー予測モデルＦ_{ｐｒｅｄ，ｊ}をそれぞれ作成し、予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄに対して各外れ値判定モデルｆ_ｏｄ，ｊによる外れ値判定をそれぞれ行い、外れ値でないと判定されたパイナンバー空間に対応するパイナンバー予測モデルＦ_ｐｒｅｄを用いることで、未知の物理量目的変数データｙ_ｐｒｅｄの予測が可能となる。これにより、統合パイナンバー予測モデル法では、予測範囲（予測可能率Ｒ_Ｐ）の拡大を実現することができる。

【0151】

図３５は、統合パイナンバー予測モデル法の概要を一般的な例で示す模式図である。図３５の「ｘ_{ＩＮＬＩＥＲ，ｉ}」で示すプロットは、２つのパイナンバー予測モデルＦ_{ｐｒｅｄ，０}、Ｆ_{ｐｒｅｄ，ｊ}のいずれによっても物理量目的変数データｙ_ｐｒｅｄの予測が可能な物理量説明変数データベクトルｘ_ｐｒｅｄである。

【0152】

物理量空間は、１つしか存在しないが、パイナンバー空間は、複数のパイナンバー変換マトリックスＰ_ｊに応じて多数生成され、各パイナンバー空間で予測可能な（外れ値でない）パイナンバー説明変数データセットΞ_{ｉｎｌｉｅｒ，ｊ}（すなわち、未知の物理量目
的変数セットＹ_{ｉｎｌｉｅｒ，ｊ}を予測可能な物理量説明変数データセットＸ_{ｉｎｌｉｅｒ，ｊ}）は異なる。複数のパイナンバー変換マトリックスＰ_ｊにそれぞれ対応するパイナンバー空間の各々において、予測が可能（外れ値でない）と判定されたパイナンバー説明変数データセットΞ_{ｉｎｌｉｅｒ，ｊ}に対応する物理量説明変数データセットＸ_{ｉｎｌｉｅｒ，ｊ}と表し、予測が不可能（外れ値である）と判定されたパイナンバー説明変数データセットΞ_{ｏｕｔｌｉｅｒ，ｊ}に対応する物理量説明変数データセットＸ_{ｏｕｔｌｉｅｒ，ｊ}と表す場合、統合パイナンバー予測モデル法による予測が可能な物理量説明変数データセットＸ_{ＩＮＬＩＥＲ}は、少なくとも１つのパイナンバー空間（パイナンバー変換情報Ｐ_ｊ）において予測が可能と判定された物理量説明変数データセットＸ_{ｉｎｌｉｅｒ，ｊ}の和集合として、以下の［数２０］式で表される。また、統合パイナンバー予測モデル法による予測が不可能な物理量説明変数データセットＸ_{ＯＵＴＬＩＥＲ}は、予測対象の物理量説明変数データセットＸ_ｐｒｅｄから物理量説明変数データセットＸ_{ＩＮＬＩＥＲ}を除く差集合として、以下の［数２０］式で表される。

【0153】

【数20】

【0154】

これにより、統合パイナンバー予測モデル法では、予測範囲（予測可能率Ｒ_Ｐ）の拡大が実現されるが、各パイナンバー空間における外れ値判定の基準を緩和する必要がないため、単一のパイナンバー空間において外れ値判定の基準を緩和するよりも高い決定係数が維持されやすい。

【0155】

（６－２）統合パイナンバー予測モデル法の詳細について
図３６乃至図３９は、統合パイナンバー予測モデル法による第２の現象予測処理（ステップＳ２）の一例を示すフローチャートである。第２の現象予測処理Ｓ２において、第１の現象予測処理Ｓ１と共通の処理には、図７乃至図１０と共通のステップ番号を付与し、以下では、第２の現象予測処理Ｓ２における特徴的な処理を中心に説明する。

【0156】

【0157】

次に、ステップＳ２１では、複数（ｍ個）のパイナンバー変換マトリックスＰ_ｊ（ｊ＝０，…,ｍ－１）を作成する複数パイナンバー作成処理を行う。複数パイナンバー作成処
理では、例えば、ステップＳ１００で入力された初期のパイナンバー変換マトリックスＰ_０に対して、例えば、行基本変形及び簡約化を行うことにより、複数のパイナンバー変換マトリックスＰ_ｊを作成する。なお、複数のパイナンバー変換マトリックスＰ_ｊを作成する際、乱数が用いられてもよい。また、複数のパイナンバー変換マトリックスＰ_ｊには、意図的に特定のパイナンバー変換マトリックスが含まれるようにしてもよいし、データ解析者の知見に基づいて作成されたパイナンバー変換マトリックスが含まれるようにしてもよい。

【0158】

次に、ステップＳ３１では、複数のパイナンバー変換マトリックスＰ_ｊを用いて、学習対象の物理量データセットＱ_{ｔｒａｉｎ}から、複数のパイナンバー予測モデルＦ_{ｐｒｅｄ，ｊ}、及び、複数の外れ値判定モデルｆ_ｏｄ，ｊを作成する統合モデル作成処理を行う。

【0159】

図３７は、統合モデル作成処理（ステップＳ３１）の一例を示すフローチャートである。まず、ステップＳ３１０では、複数のパイナンバー変換マトリックスＰ_ｊから処理用のパイナンバー変換マトリックスＰを順次選択し、ステップＳ３００、Ｓ３０２を繰り返すループ処理を行うことで、複数のパイナンバー変換マトリックスＰ_ｊにそれぞれ対応する複数の外れ値判定モデルｆ_ｏｄ、ｊを作成する。

【0160】

次に、ステップＳ６１では、ステップＳ２１で作成された複数のパイナンバー変換マトリックスＰ_ｊと、複数の外れ値判定モデルｆ_ｏｄ、ｊとを用いて、予測対象の物理量説明変数データセットＸ_ｐｒｅｄに対して、統合予測可能率ＴＲ_Ｐ、及び、予測不可能率ＴＲ_Ｕの少なくとも一方を算出する統合モデル評価処理を行う。

【0161】

図３８は、統合モデル評価処理（ステップＳ６１）の一例を示すフローチャートである。まず、ステップＳ６００では、予測対象の物理量説明変数データセットＸ_ｐｒｅｄに含まれる予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄを順次選択し、さらに、ステップＳ６０１では、複数のパイナンバー変換マトリックスＰ_ｊ及び外れ値判定モデルｆ_ｏｄ、ｊから処理用のパイナンバー変換マトリックスＰ及び外れ値判定モデルｆ_ｏｄを順次選択し、Ｓ６１０～Ｓ６１３を繰り返す二重のループ処理を行うことで、予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄの各々に対して、複数の外れ値判定モデルｆ_ｏｄ、ｊの各々を用いた外れ値判定処理を行う。

【0162】

次に、ステップＳ６２１では、予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄの各々に対する、複数の外れ値判定モデルｆ_ｏｄ、ｊの各々を用いた外れ値判定処理の判定結果に基づいて、統合予測可能率ＴＲ_Ｐ、及び、統合予測不可能率ＴＲ_Ｕの少なくとも一方を算出する。具体的には、予測対象の物理量説明変数データセットＸ_ｐｒｅｄに含まれる物理量説明変数データベクトルｘ_ｐｒｅｄの総数（Ｘ_ｐｒｅｄの総数）に対する、予測が可能と判定したパイナンバー変換マトリックスＰ_ｊが少なくとも１つ存在する予測対象の物理量説明変数データベクトルｘ_{ｉｎｌｉｅｒ，ｉ}の総数（Ｘ_{ＩＮＬＩＥＲ}の総数）の割合に基づいて、統合予測可能率ＴＲ_Ｐを算出する。また、予測対象の物理量説明変数データセットＸ_ｐｒｅｄに含まれる物理量説明変数データベクトルｘ_ｐｒｅｄの総数（Ｘ_ｐｒｅｄの総数）に対する、予測が可能と判定したパイナンバー変換マトリックスＰ_ｊが存在しない予測対象の物理量説明変数データベクトルｘ_{ｏｕｔｌｉｅｒ，ｉ}の総数（Ｘ_{ＯＵＴＬＩＥＲ}の総数）の割合に基づいて、統合予測不可能率ＴＲ_Ｕを算出する。すなわち、統合予測可能率ＴＲ_Ｐ及び統合予測不可能率ＴＲ_Ｕは、以下の［数２１］式により算出される。

【0163】

【数21】

【0164】

なお、ステップＳ６２１では、統合予測可能率ＴＲ_Ｐ及び統合予測不可能率ＴＲ_Ｕだけでなく、［数１４］式を用いて、複数のパイナンバー変換マトリックスＰ_ｊの各々に対する予測可能率Ｒ_Ｐ及び予測不可能率Ｒ_Ｕの少なくとも一方をそれぞれ算出してもよいし、さらに、それらの平均値として、平均予測可能率ＡＲ_Ｐ及び予測不可能率ＡＲ_Ｕの少なくとも一方を算出するようにしてもよい。

【0165】

次に、図３７に戻ると、ステップＳ３２０では、ステップＳ２１で作成された複数のパイナンバー変換マトリックスＰ_ｊのうち、所定の選択条件を満たすパイナンバー変換マト
リックスＰ_ｊを選択するパイナンバー選択処理を行う。パイナンバー選択処理では、所定の選択条件として、例えば、外れ値判定処理にて予測が可能と判定した予測対象の物理量説明変数データベクトルｘ_{ｉｎｌｉｅｒ，ｊ}の総数を最大化するパイナンバー変換マトリックスＰ_ｊの組み合わせからパイナンバー予測モデルＦ_{ｐｒｅｄ，ｊ}の総数を最小化するように、パイナンバー変換マトリックスＰ_ｊを選択する。

【0166】

外れ値判定処理にて予測が可能と判定した物理量説明変数データセットＸ_{ＩＮＬＩＥＲ}のすべてが予測されるためには、必ずしもすべてのパイナンバー変換マトリックスＰ_ｊが必要とされない場合もあり得る。以下の［表４］において、「〇」又は「×」は、５つの物理量説明変数データベクトルｘ_{ｐｒｅｄ，ｉ}の各々が、外れ値判定の判定結果として、各パイナンバー変換マトリックスＰ_ｊにより予測可能又は予測不可能であることを表す。

【0167】

【表4】

【0168】

物理量説明変数データベクトルｘ_{ｐｒｅｄ，０}、ｘ_{ｐｒｅｄ，１}、ｘ_{ｐｒｅｄ，２}、ｘ_{ｐｒｅｄ，４}は、少なくとも１つのパイナンバー変換マトリックスＰ_０～Ｐ_４により予測可能であるので、物理量説明変数データセットＸ_{ＩＮＬＩＥＲ}に含まれる。物理量説明変数データベクトルｘ_{ｐｒｅｄ，３}は、いずれのパイナンバー変換マトリックスＰ_０～Ｐ_４によっても予測不可能であるので、物理量説明変数データセットＸ_{ＯＵＴＬＩＥＲ}に含まれる。そして、物理量説明変数データセットＸ_{ＩＮＬＩＥＲ}に含まれる物理量説明変数データベクトルｘ_{ｐｒｅｄ，０}、ｘ_{ｐｒｅｄ，１}、ｘ_{ｐｒｅｄ，２}、ｘ_{ｐｒｅｄ，４}は、パイナンバー変換マトリックスＰ_１、Ｐ_４によりすべて予測可能となるので、他のパイナンバー変換マトリックスＰ_０、Ｐ_２、Ｐ_３は、統合予測可能率ＴＲ_Ｐへの影響はない。したがって、表４の例では、ステップ３２０（パイナンバー選択処理）にて、２つのパイナンバー変換マトリックスＰ_１、Ｐ_４が選択されることで、後述のステップＳ３００にて、２個のパイナンバー変換マトリックスＰ_１、Ｐ_４のみを用いて２つのパイナンバー予測モデルＦ_{ｐｒｅｄ，１}、Ｆ_{ｐｒｅｄ，２}のみが作成されることになるため、モデル作成作業の効率化を図ることができる。

【0169】

次に、ステップＳ３３０では、ステップＳ３２０で選択されたパイナンバー変換マトリックスＰ_ｊから処理用のパイナンバー変換マトリックスＰを順次選択し、ステップＳ３００、Ｓ３０３を繰り返すループ処理を行うことで、ステップＳ３２０で選択されたパイナンバー変換マトリックスＰ_ｊに対応するパイナンバー予測モデルＦ_{ｐｒｅｄ，ｊ}を作成する。

【0170】

次に、図３６に戻ると、ステップＳ４１では、複数のパイナンバー変換マトリックスＰ_ｊと、複数のパイナンバー変換マトリックスＰ_ｊにそれぞれ対応する複数のパイナンバー予測モデルＦ_{ｐｒｅｄ，ｊ}及び複数の外れ値判定モデルｆ_ｏｄ，ｊとを用いて、予測対象の物理量説明変数データセットＸ_ｐｒｅｄに対して未知の物理量目的変数データセットＹ_ｐｒｅｄの予測を行う統合モデル予測処理を行う。なお、ここでの複数のパイナンバー変換マトリックスＰ_ｊは、ステップＳ３２０で選択されたパイナンバー変換マトリックスＰ
_ｊが用いられる。また、ステップＳ３２０が省略された場合には、ステップＳ２１で作成されたパイナンバー変換マトリックスＰ_ｊが用いられる。

【0171】

図３９は、統合モデル予測処理（ステップＳ４１）の一例を示すフローチャートである。まず、ステップＳ４００では、予測対象の物理量説明変数データセットＸ_ｐｒｅｄに含まれる予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄを順次選択し、さらに、ステップＳ４０１では、複数のパイナンバー変換マトリックスＰ_ｊ、パイナンバー予測モデルＦ_{ｐｒｅｄ，ｊ}、外れ値判定モデルｆ_ｏｄ、ｊから処理用のパイナンバー変換マトリックスＰ、パイナンバー予測モデルＦ_ｐｒｅｄ及び外れ値判定モデルｆ_ｏｄを順次選択し、ステップＳ４１０～Ｓ４２１を繰り返す二重のループ処理を行うことで、予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄの各々に対して、複数のパイナンバー予測モデルＦ_{ｐｒｅｄ，ｊ}の各々を用いた算出処理を行う。その結果、予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄの各々に対して、複数のパイナンバー変換マトリックスＰ_ｊ、パイナンバー予測モデルＦ_{ｐｒｅｄ，ｊ}、外れ値判定モデルｆ_ｏｄ、ｊをそれぞれ用いて、未知の物理量目的変数データｙ_{ｉｎｌｉｅｒ，ｉ}を算出する。

【0172】

ステップＳ４３０では、予測対象の物理量説明変数データベクトルｘ_{ｉｎｌｉｅｒ，ｉ}に対して外れ値判定処理にて予測が可能と判定したパイナンバー変換マトリックスＰ_ｊが複数存在するとき、複数の当該パイナンバー変換情報Ｐ_ｊの各々を用いた算出処理を行うことで算出した複数の未知の物理量目的変数データｙ_{ｉｎｌｉｅｒ，ｉ}を合成する予測値合成処理を、予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄの各々に対して行う。

【0173】

ステップＳ４３０の予測値合成処理にて、複数の物理量目的変数データｙ_{ｉｎｌｉｅｒ，ｉ}を合成する手法として、例えば、物理量目的変数データｙ_{ｉｎｌｉｅｒ，ｉ}の平均値を算出してもよいし、外れ値判定の評価値（外れの程度）を考慮した重み付けを用いて算出してもよい。［表４］の例では、パイナンバー変換マトリックスＰ_１によるｘ_{ｐｒｅｄ，２}に対する予測値ｙ_ｐｒｅｄと、パイナンバー変換マトリックスＰ_４によるｘ_{ｐｒｅｄ，２}に対する予測値ｙ_ｐｒｅｄとの平均値が、予測対象の物理量説明変数データベクトルｘ_{ｐｒｅｄ。２}に対する未知の物理量目的変数データｙ_ｐｒｅｄとして算出される。

【0174】

なお、［表４］において、パイナンバー変換マトリックスＰ_１、Ｐ_４のみではなく、すべてのパイナンバー変換マトリックスＰ_１～Ｐ_５を用いることで、予測精度が向上する利点がある。物理量目的変数データｙ_ｐｒｅｄが、複数のパイナンバー変換マトリックスＰ_ｊでそれぞれ予測されると、複数の予測値が得られる。それらが、予測が可能（外れ値でない）と判定されたパイナンバー予測モデルＦ_{ｐｒｅｄ，ｊ}による予測値である場合でも、外れ値判定の評価値（外れの程度）が同程度とは限らない。そのため、外れ値判定の評価値が、基準値以下ではあるが、比較的大きく外れている側の物理量説明変数データベクトルｘ_ｐｒｅｄは、その周辺のデータ密度が小さいため、パイナンバー予測モデルＦ_{ｐｒｅｄ，ｊ}による予測精度が悪化しやすい。一方、外れ値判定の評価値が小さい場合、予測精度は高くなる傾向がある。したがって、複数の予測値が、平均値又は重み付けを考慮した値として合成されると、偶然的に予測精度が悪い予測値のみが反映されるリスクが低下するため、予測精度の向上を見込むことができる。

【0175】

以上のようにして、図３６乃至図３９に示す統合パイナンバー予測モデル法による第２の現象予測処理Ｓ２では、複数のパイナンバー変換マトリックスＰ_ｊを用いて、複数のパイナンバー変換マトリックスＰ_ｊに対応する複数のパイナンバー予測モデルＦ_{ｐｒｅｄ，ｊ}及び複数の外れ値判定モデルｆ_ｏｄ，ｊを作成し、予測対象の物理量説明変数データセットＸ_ｐｒｅｄに対して未知の物理量目的変数データセットＹ_ｐｒｅｄ（＝Ｙ_{ＩＮＬＩＥＲ}）を予測する。統合パイナンバー予測モデル法による一連の処理を、「ｆ_{π ｍｏｄｅｌｓ}」という関数を導入し、以下の［数２２］式で表すものとする。

【0176】

【数22】

【0177】

（６－３）統合パイナンバー予測モデル法による予測性能の検証結果
初期のパイナンバー変換マトリックスＰ_０として、［数４］式に示すパイナンバー変換マトリックスＰを用いて、ランダムな物理量説明変数の並べ替えと簡約化により、合計１０個のパイナンバー変換マトリックスＰ_０～Ｐ_９を作成した。そして、学習対象の物理量データセットＡ１から、合計１０個のパイナンバー予測モデルＦ_{ｐｒｅｄ，０}～Ｆ_{ｐｒｅｄ，９}を作成した。

【0178】

（６－３－１）分布範囲拡大率が２倍の場合について
以下に、学習対象として、［表３］に示す物理量データセットＡ１を用い、予測対象として、［表３］に示す物理量データセットＡ２を用いた場合（分布範囲拡大率が２倍）における、統合パイナンバー予測モデル法による予測性能を検証した結果について説明する。

【0179】

図４０は、統合パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。

【0180】

パイナンバー予測モデル法では、パイナンバー変換マトリックスＰ_１単体による予測可能率Ｒ_Ｐは、１９．６％、決定係数は、０．９９８であった（上記５．３．１（図１５（ａ）参照）の結果と同じ）。パイナンバー変換マトリックスＰ_０～Ｐ_９の各々による予測可能率Ｒ_Ｐの平均値（平均予測可能率ＡＲ_Ｐ）は、２０．５％であった。

【0181】

図４０に示す統合パイナンバー予測モデル法では、パイナンバー変換マトリックスＰ_０～Ｐ_９のうち少なくとも１つのパイナンバー変換マトリックスＰ_ｊにより予測が可能と判定された統合予測可能率ＴＲ_Ｐは、３６．０％に向上した。予測値合成処理では、パイナンバー変換マトリックスＰ_０～Ｐ_９のうち予測が可能と判定されたパイナンバー変換マトリックスを用いた予測値の平均値を算出し、その結果、決定係数は、０．９９３となった。

【0182】

（６－３－２）分布範囲拡大率が３倍の場合について
以下に、学習対象として、［表３］に示す物理量データセットＡ１を用い、予測対象として、［表３］に示す物理量データセットＡ３を用いた場合（分布範囲拡大率が３倍）における、統合パイナンバー予測モデル法による予測性能を検証した結果について説明する。

【0183】

図４１は、統合パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。

【0184】

パイナンバー予測モデル法では、パイナンバー変換マトリックスＰ_０単体による予測可能率Ｒ_Ｐは、４．７％、決定係数は０．９９２であった（上記５．３．２（図２０（ａ）参照）の結果と同じ）。パイナンバー変換マトリックスＰ_０～Ｐ_９の各々による予測可能率Ｒ_Ｐの平均値（平均予測可能率ＡＲ_Ｐ）は、５．０％であった。

【0185】

図４１に示す統合パイナンバー予測モデル法では、パイナンバー変換マトリックスＰ_０～Ｐ_９のうち少なくとも１つのパイナンバー変換マトリックスＰ_ｊにより予測が可能と判
定された統合予測可能率ＴＲ_Ｐは、１１．８％に向上した。予測値合成処理では、パイナンバー変換マトリックスＰ_０～Ｐ_９の各々を用いた予測値の平均値を算出し、その結果、決定係数は、０．９８４となった。

【0186】

なお、パイナンバー予測モデル法において、予測可能率Ｒ_Ｐを拡大するために、外れ値判定の基準値であるｃｏｎｔａｍｉｎａｔｉｏｎを、０．１５から０．０５に下げると、予測可能率Ｒ_Ｐは、４．７％から１１．５％に増加し、統合パイナンバー予測モデル法における統合予測可能率ＴＲ_Ｐ（＝１１．８％）に近い値が得られた。しかしながら、そのときのパイナンバー予測モデル法での決定係数は、０．９３４となり、統合パイナンバー予測モデル法の決定係数（＝０．９８４）よりも悪化した。したがって、統合パイナンバー予測モデル法による予測は、外れ値判定の基準値が緩和されたパイナンバー予測モデル法による予測に比べて、予測精度を維持したままで予測範囲を拡大できることが分かった。

【0187】

（７－１）反復統合パイナンバー予測モデル法の基本原理について
次に、反復統合パイナンバー予測モデル法による第３の現象予測処理Ｓ３について説明する。第２の現象予測処理Ｓ２では、学習データ密度向上処理（ステップＳ１１０）にて、新たな物理量データベクトルｑ_{ｎｅｗ１，ｉ}を学習対象の物理量データセットＱ_{ｔｒａｉｎ}に追加している。新たな物理量データベクトルｑ_{ｎｅｗ１，ｉ}は、物理量予測モデルＦ_{ｔｒａｉｎ}に基づいて作成されたものであり、元々の学習対象の物理量データセットＱ_{ｔｒａｉｎ}の内挿範囲に存在する。そのため、学習データ密度向上処理では、学習対象の物理量データセットＱ_{ｔｒａｉｎ}のデータ密度を向上させることで外れ値判定の精度を向上させる効果を奏するが、予測可能率Ｒ_Ｐや統合予測可能率ＴＲ_Ｐを向上させるような効果は必ずしも期待できない。

【0188】

そこで、第３の現象予測処理Ｓ３では、外れ値判定処理にて予測が可能と判定した物理量説明変数データベクトルｘ_{ｉｎｌｉｅｒ，ｉ}に対して第２の現象予測処理Ｓ２にて予測した物理量目的変数データｙ_{ｉｎｌｉｅｒ，ｉ}と、当該変量説明変数データベクトルｘ_{ｉｎｌｉｅｒ，ｉ}とを組とする１又は複数の新たな物理量データベクトルｑ_{ｎｅｗ２，ｉ}を学習対象の物理量データセットＱ_{ｔｒａｉｎ}に追加する。そして、新たな物理量データベクトルｑ_{ｎｅｗ２，ｉ}が追加された学習対象の物理量データセットＱ_{ｔｒａｉｎ}を新たな学習対象の物理量データセットＱ_{ｔｒａｉｎ}として、第２の現象予測処理Ｓ２を同様に行う。このような一連の処理を繰り返すことで、新たな物理量データベクトルｑ_{ｎｅｗ２，ｉ}は、元々の学習対象の物理量データセットＱ_{ｔｒａｉｎ}の外挿範囲に存在するものも含まれることになるため、学習対象の物理量データセットＱ_{ｔｒａｉｎ}のデータ密度を向上させるだけでなく、予測可能率Ｒ_Ｐや統合予測可能率ＴＲ_Ｐを向上させることができる。

【0189】

（７－２）反復統合パイナンバー予測モデル法の詳細について
図４２は、反復統合パイナンバー予測モデル法による第３の現象予測処理（ステップＳ３）の一例を示すフローチャートである。第３の現象予測処理Ｓ３において、第１及び第２の現象予測処理Ｓ１、Ｓ２と共通の処理には、図７乃至図１０、図３６乃至図３９と共通のステップ番号を付与し、以下では、第３の現象予測処理Ｓ３における特徴的な処理を中心に説明する。

【0190】

まず、ステップＳ１００では、初期のパイナンバー変換マトリックスＰ_０と、学習対象の物理量データセットＱ_{ｔｒａｉｎ}と、予測対象の物理量説明変数データセットＸ_ｐｒｅｄとが入力される。そして、ステップＳ１１０では、学習対象の物理量データセットＱ_{ｔｒａｉｎ}のデータ密度を向上させる学習データ密度向上処理を行う。次に、ステップＳ２１では、複数（ｍ個）のパイナンバー変換マトリックスＰ_ｊ（ｊ＝０，…,ｍ－１）を作
成する複数パイナンバー作成処理を行う。

【0191】

次に、ステップＳ１２０では、所定の反復条件を満たしているか否かを判定し、反復条件を満たす間、ステップＳ３１（統合モデル作成処理）、ステップＳ４１（統合モデル予測処理）、ステップＳ７０（学習データ追加処理）を繰り返すループ処理を行うことにより、予測対象の物理量説明変数データセットＸ_ｐｒｅｄに対して未知の物理量目的変数データセットＹ_ｐｒｅｄの予測を行う。反復条件は、反復回数の上限値Ｎ（例えば、２０回）により定められることを基本とするが、ステップＳ３１（統合モデル作成処理）に含まれるステップＳ６１（統合モデル評価処理）で算出される統合予測可能率ＴＲ_Ｐの上限値により定められていてもよいし、データ解析者がループ処理を終了するための入力操作を受け付けたときでもよい。

【0192】

１回目のループ処理では、ステップＳ３１にて、複数のパイナンバー変換マトリックスＰ_ｊを用いて、ステップＳ１１０が行われた後の学習対象の物理量データセットＱ_{ｔｒａｉｎ} ^０から複数のパイナンバー予測モデルＦ_{ｐｒｅｄ，ｊ}、及び、複数の外れ値判定モデルｆ_ｏｄ，ｊを作成し、ステップＳ４１にて、ステップＳ３１で作成されたパイナンバー予測モデルＦ_{ｐｒｅｄ，ｊ}及び外れ値判定モデルｆ_ｏｄ，ｊを用いて、予測対象の物理量説明変数データセットＸ_ｐｒｅｄに対して未知の物理量目的変数データセットＹ_ｐｒｅｄを予測する。

【0193】

次に、ステップＳ７０では、ステップＳ４１にて予測対象の物理量説明変数データベクトルｘ_{ｉｎｌｉｅｒ，ｉ}に対して予測した未知の物理量目的変数データｙ_{ｉｎｌｉｅｒ，ｉ}と、当該物理量説明変数データベクトルｘ_{ｉｎｌｉｅｒ，ｉ}とを組とする１又は複数の新たな物理量データベクトルｑ_{ｎｅｗ２，ｉ}を、学習対象の物理量データセットＱ_{ｔｒａｉｎ} ^０に追加する学習データ追加処理を行う。その際、新たな物理量データベクトルｑ_{ｎｅｗ２，ｉ}は、外れ値判定処理にて予測が可能と判定されたものであればよいため、［数２０］で示すように、統合パイナンバー予測モデル法による予測が可能な物理量説明変数データセットＸ_{ＩＮＬＩＥＲ} ^０に対して予測した未知の物理量説明変数データセットＹ_{ＩＮＬＩＥＲ} ^０と、当該物理量説明変数データセットＸ_{ＩＮＬＩＥＲ} ^０とを組とする新たな物理量データセットＱ_{ＩＮＬＩＥＲ} ^０を学習対象の物理量データセットＱ_{ｔｒａｉｎ} ^０に追加することで、新たな学習対象の物理量データセットＱ_{ｔｒａｉｎ} ^１を作成する。

【0194】

そして、ステップ３１に戻り、新たな学習対象の物理量データセットＱ_{ｔｒａｉｎ} ^１を用いて、２回目のループ処理を行い、反復条件を満たす間の複数回（例えば、反復回数の上限値に相当するＮ回）、同様の処理を繰り返す。

【0195】

以上のようにして、図４２に示す反復統合パイナンバー予測モデル法による第３の現象予測処理Ｓ３では、統合パイナンバー予測モデル法による予測値に基づく新たな物理量データベクトルｑ_{ｎｅｗ２，ｉ}を学習対象の物理量データセットＱ_{ｔｒａｉｎ}に追加しながら、統合パイナンバー予測モデル法、すなわち、ステップＳ３１（統合モデル作成処理）と、ステップＳ４１（統合モデル予測処理）とを繰り返し行うことにより、予測対象の物理量説明変数データセットＸ_ｐｒｅｄに対して未知の物理量目的変数データセットＹ_ｐｒｅｄ（＝Ｙ_{ＩＮＬＩＥＲ} ^Ｎ）を予測する。反復統合パイナンバー予測モデル法による一連の処理を、「ｆ_π ^Ｎ _{ｍｏｄｅｌｓ}」という関数を導入し、以下の［数２３］式で表すものとする。

【0196】

【数23】

【0197】

（７－３）反復統合パイナンバー予測モデル法による予測性能の検証結果
初期のパイナンバー変換マトリックスＰ_０として、［数４］式に示すパイナンバー変換マトリックスＰを用いて、ランダムな物理量説明変数の並べ替えと簡約化により、合計２０個のパイナンバー変換マトリックスＰ_０～Ｐ_１９を作成した。学習対象として、［表３］に示す物理量データセットＡ１を用い、予測対象として、［表３］に示す物理量データセットＡ３を用いた場合（分布範囲拡大率が３倍）における、反復統合パイナンバー予測モデル法による予測性能を検証した結果について説明する。

【0198】

図４３は、反復統合パイナンバー予測モデル法によるループ処理を行ったときの予測可能率、及び、決定係数の推移を示す図である。反復回数の上限値Ｎを２１回とし、外れ値判定の基準値は、「ｃｏｎｔａｍｉｎａｔｉｏｎ＝０．１５」と設定した。平均予測可能率ＡＲ_Ｐは、２０個のパイナンバー変換マトリックスＰ_０～Ｐ_１９の各々に対する予測可能率Ｒ_Ｐ０～Ｒ_Ｐ１９の平均値として算出される。

【0199】

第１回目のループ処理（Ｌｏｏｐ＝０）においては、平均予測可能率ＡＲ_Ｐが５．０％、統合予測可能率ＴＲ_Ｐが１３．３％、決定係数が０．９８２であった。第２１回目のループ処理（Ｌｏｏｐ＝２０）においては、平均予測可能率ＡＲ_Ｐが１７．８％、統合予測可能率ＴＲ_Ｐが３８．４％、決定係数が０．９２４であった。なお、同様の評価条件における従来の機械学習による決定係数は、０．６２７であり（上記５．３．２（図２１参照）の結果と同じ）、図４３（ａ）の縦軸の下限値に設定されている。

【0200】

平均予測可能率ＡＲ_Ｐは、統合予測可能率ＴＲ_Ｐよりも低く、両者の差分が統合パイナンバー予測モデル法による予測範囲を拡大する効果とみなすことができ、ループ回数が増加するほど統合予測可能率ＴＲ_Ｐは大きくなった。

【0201】

また、ループ回数が増えると、決定係数は緩やかに低下したが、従来の機械学習と比較すると、予測精度は高く維持されている。決定係数の低下原因は、各パイナンバー予測モデルＦ_{ｐｒｅｄ，ｊ}による予測値には、パイナンバー予測モデルＦ_{ｐｒｅｄ，ｊ}の完成度に起因する誤差が含まれるが、予測値に基づく新たな物理量データベクトルｑ_{ｎｅｗ２，ｉ}がループ処理毎に学習対象の物理量データセットＱ_{ｔｒａｉｎ}に追加されていくことで、その誤差が蓄積したものと推察される。また、各外れ値判定モデルｆ_ｏｄ，ｊによる外れ値判定において、データ密度が低い領域に分布している予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄが外れ値ではないと判定されることで、パイナンバー予測モデルＦ_{ｐｒｅｄ，ｊ}による予測精度が悪化した可能性も考えられる。したがって、外れ値判定の基準値を厳しく設定することで、予測範囲の拡大及び決定係数の悪化が緩やかになることが予想される。

【0202】

外れ値判定の基準値を、「ｃｏｎｔａｍｉｎａｔｉｏｎ＝０．０２」に緩和し、１つのパイナンバー変換マトリックスＰ_０のみを用いたパイナンバー予測モデル法による予測では、予測可能率Ｒ_Ｐは、１８．１％であり、決定係数は、０．９１４であった。反復統合パイナンバー予測モデル法では、図４２（ａ）に示すように、第７回目のループ処理（Ｌｏｏｐ＝６）で、上記と同じような値の統合予測可能率ＴＲ_Ｐが得られた。また、第７回目のループ処理（Ｌｏｏｐ＝６）における決定係数は、０．９８４であり、図４２（ｂ）の四角で表す点（０．９１４）よりも高かった。したがって、反復統合パイナンバー予測モデル法による予測は、外れ値判定の基準値が緩和されたパイナンバー予測モデル法による予測に比べて、予測精度を維持したままで予測範囲を拡大できることが分かった。

【0203】

（８）最適解探索処理への適用について
多部品又は複雑な機構が採用される製品の設計では、様々な現象が複合的に作用するため、各現象に対応する複数の物理量回帰モデルを組み合わせることで全体の設計モデルが
作成される。設計の対象とする範囲が広いほど、製品の設計値（説明変数）の数が増えるため、全体の設計モデルは複雑となり、設計値の組み合わせが増大する。そのため、製品の要求性能（目的変数）を満たす最適な設計値の組み合わせを発見するために、遺伝アルゴリズム等の最適化アルゴリズムが用いられる。しかし、最適化アルゴリズムの制約条件として、最適解の探索範囲が、過去製品の設計値の内挿範囲に限定された場合、最適解として探索された設計値は、過去製品のマイナーチェンジに留まる可能性が高い。

【0204】

そこで、最適解探索処理Ｓ４では、従来の物理量回帰モデルに代えて、第１乃至第３の現象予測処理Ｓ１～Ｓ３のいずれかと連携することで、所定の最適化条件を満たす最適解を探索する機能を実現する。第１乃至第３の現象予測処理Ｓ１～Ｓ３では、新規製品の設計値の候補が、物理量空間において過去製品の設計値に対して外れ値（外挿）であっても、パイナンバー空間において過去製品の設計値に対して外れ値ではない（予測が可能）と判定された場合には、その製品で考慮すべき現象としては実績のある設計値と判断することができる。一方、外れ値である（予測が不可能）と判定された場合には、単に予測が不可能という事実だけでなく、過去製品の設計範囲から逸脱する現象となることを意味するので、パイナンバー空間において外れ値とならない設計値の組み合わせを再探索するべきであると判断される。

【0205】

図４４は、最適解探索処理Ｓ４の一例を示す機能説明図である。最適解探索処理Ｓ４は、最適解の候補を１又は複数の予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄとして、１又は複数の未知の物理量目的変数データｙ_ｐｒｅｄの予測を行う第１乃至第３の現象予測処理Ｓ１～Ｓ３と、最適化条件と、第１乃至第３の現象予測処理Ｓ１～Ｓ３にて予測した１又は複数の未知の物理量目的変数データｙ_ｐｒｅｄとに基づいて最適解の候補を評価し、その評価した結果に基づいて、新たな候補（１又は複数のいずれでもよい）を作成する候補作成処理Ｓ５とを繰り返し行うことにより、最適解を探索する。

【0206】

第１乃至第３の現象予測処理Ｓ１～Ｓ３には、過去製品のデータである学習対象の物理量データセットＱ_{ｔｒａｉｎ}と、過去製品のデータから得られたパイナンバー変換マトリックスＰと、新規製品の設計値（説明変数の最適解）の候補である予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄが入力されることで、その新規製品の設計値の候補に対する新規製品の性能値（目的変数）として、未知の物理量目的変数データベクトルｙ_ｐｒｅｄを予測する。

【0207】

候補作成処理Ｓ５には、新規製品の性能値として第１乃至第３の現象予測処理Ｓ１～Ｓ３から出力された未知の物理量目的変数データベクトルｙ_ｐｒｅｄと、性能値に対する評価基準（性能値の最大化や最小化等）を定める最適化条件と、最適解の候補を探索するときの制約条件として、過去製品のデータから得られたパイナンバー空間の分布領域とが入力される。そして、候補作成処理Ｓ５は、最適化条件と、未知の物理量目的変数データｙ_ｐｒｅｄとに基づいて最適解の候補を評価し、例えば、遺伝アルゴリズム等の最適化アルゴリズムにより、制約条件下でその評価結果がより高くなるように、新たな最適解の候補を作成し、第１乃至第３の現象予測処理Ｓ１～Ｓ３に出力する。また、最適解の候補の評価結果が最適化条件を満たす場合には、そのときの最適解の候補を、最終的な新規製品の設計値として出力する。

【0208】

なお、図４４の例では、学習対象の物理量データセットＱ_{ｔｒａｉｎ}からパイナンバーを自動で生成するパイナンバー自動生成処理Ｓ６が組み合わせられており、パイナンバー自動生成処理により生成されたパイナンバー変換マトリックスＰを用いて、現象予測処理Ｓ１～Ｓ３による予測が行われるようにしてもよい。パイナンバー自動生成処理Ｓ６は、例えば、本願出願人が出願済みの特願２０２１－１２６２９４号に開示された技術を適用可能であり、特願２０２１－１２６２９４号の明細書及び図面に開示された内容全体は、
本願明細書に参照として取り込まれる。

【0209】

以上のようにして、図４４に示す最適解探索処理Ｓ４では、第１乃至第３の現象予測処理Ｓ１～Ｓ３と、候補作成処理Ｓ５（遺伝アルゴリズム等の最適化アルゴリズム）とを連携さることで、過去製品のデータしか存在しない場合でも、過去製品の設計値の範囲に限定されることなく、過去製品で実績のある法則から逸脱しない範囲において、新規製品の設計値（最適解）を探索することができる。

【0210】

（他の実施形態）
本発明は上述した実施形態に制約されるものではなく、本発明の主旨を逸脱しない範囲内で種々変更して実施することが可能である。そして、それらはすべて、本発明の技術思想に含まれるものである。

【0211】

上記実施形態では、所定の現象として、物理法則に従う物理現象を例にして説明したが、データ解析方法１００による現象予測処理Ｓ１～Ｓ３は、物理現象以外の所定の現象にも適用可能である。その場合には、上記実施形態における「物理量」という用語を、所定の現象で観察される「変量」として読み替えることで、データ解析方法１００で使用されるデータの定義や、現象予測処理Ｓ１～Ｓ３の処理内容を適用することができる。

【0212】

上記実施形態では、現象予測処理Ｓ１～Ｓ３は、物理量目的変数データｙ_ｐｒｅｄが未知な状態で予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄ対して行われるものとして説明した。これに対し、現象予測処理Ｓ１～Ｓ３は、物理量目的変数データｙが既知な状態であっても、その既知の物理量目的変数データｙを未知な状態であると仮定し、その未知（本来は既知であるものを未知と仮定）の物理量目的変数データｙと組とする物理量説明変数データベクトルｘ_ｐｒｅｄに対して行われることで、その物理量説明変数データベクトル_ｐｒｅｄｘに対して未知（本来は既知であるものを未知と仮定）の物理量目的変数データｙ_ｐｒｅｄを予測してもよい。

【0213】

上記実施形態では、現象予測処理Ｓ１～Ｓ３における予測対象は、物理量説明変数データセットＸ_ｐｒｅｄに含まれる複数の物理量説明変数データベクトルｘ_ｐｒｅｄであるものとして説明したが、予測対象は、１つの物理量説明変数データベクトルｘ_ｐｒｅｄでもよい。その場合には、現象予測処理Ｓ１～Ｓ３において、物理量説明変数データセットＸ_ｐｒｅｄに対するループ処理（ステップＳ４００、Ｓ６００）を省略してもよいし、１回分のループ処理（ステップＳ４００、Ｓ６００）として扱うようにしてもよい。

【0214】

上記実施形態では、現象予測処理Ｓ１～Ｓ３は、外れ値判定処理にて予測が可能と判定（ステップＳ４１１：Ｙｅｓ）した物理量説明変数データベクトルｘ_{ｉｎｌｉｅｒ，ｉ}（Ｘ_{ｉｎｌｉｅｒ}）に対して算出処理を行うことにより、未知の物理量目的変数データｙ_ｐｒｅｄを算出するものとして説明したが、外れ値判定処理にて予測が不可能と判定（ステップＳ４１１：Ｎｏ）した物理量説明変数データベクトルｘ_{ｏｕｔｌｅｉｒ}（Ｘ_{ｏｕｔｌｉｅｒ}）に対しても同様の算出処理を行うことにより、未知の物理量目的変数データｙ_ｐｒｅｄを算出するようにしてもよい。その際、外れ値判定処理（ステップＳ４１１～Ｓ４１３）は省略されてもよく、すべての予測対象の物理量説明変数データベクトルｘ_ｐｒｅｄ（Ｘ_ｐｒｅｄ）に対して未知の物理量目的変数データｙ_ｐｒｅｄ（Ｙ_ｐｒｅｄ）を算出するようにしてもよい。

【0215】

上記実施形態の現象予測処理Ｓ１～Ｓ３において、各処理の順序が適宜入れ替えられてもよいし、一部の処理が省略されてもよいし、他の処理が追加されてもよい。例えば、学習データ密度向上処理（ステップＳ１１０）、モデル評価処理（ステップＳ６０）、統合モデル評価処理（Ｓ６１）、パイナンバー選択処理（ステップＳ３２０）等は省略されて
もよい。

【0216】

上記実施形態では、現象予測処理Ｓ１～Ｓ３は、単一のデータ解析装置１にて実行されるものとして説明したが、現象予測処理Ｓ１～Ｓ３に含まれる各処理は、複数のデータ解析装置１にて分散して実行されるようにしてもよい。例えば、現象予測処理Ｓ１、Ｓ２では、モデル作成処理（ステップＳ３０）又は統合モデル作成処理（ステップＳ３１）までを行う第１のデータ解析装置１（モデル作成装置）と、モデル予測処理（ステップＳ４０）又は統合モデル予測処理（ステップＳ４１）を行う第２のデータ解析装置１（現象予測装置）とで実行されるようにしてもよい。その場合には、第１のデータ解析装置１により作成されたパイナンバー予測モデルＦ_ｐｒｅｄ、及び、外れ値判定モデルｆ_ｏｄ等の情報が、任意の通信網や記憶媒体を介して第２のデータ解析装置１に提供されるようにすればよい。

【0217】

上記実施形態の現象予測処理Ｓ１～Ｓ３における各種の処理結果は、出力部１３を介して表示画面等により出力されてもよいし、任意のデータ形式にて記憶部１１に記憶されてもよいし、通信部１４を介して装置に送信されてもよい。処理結果には、例えば、モデル作成処理（ステップＳ３０）又は統合モデル作成処理（ステップＳ３１）により作成されたパイナンバー予測モデルＦ_ｐｒｅｄ及び外れ値判定モデルｆ_ｏｄ、モデル評価処理（ステップＳ６０）又は統合モデル評価処理（ステップＳ６１）にて算出された予測可能率Ｒ_Ｐ、予測不可能率Ｒ_Ｕ、統合予測可能率ＴＲ_Ｐ及び予測不可能率ＴＲ_Ｕ、モデル予測処理（ステップＳ４０）又は統合モデル予測処理（ステップＳ４１）にて予測された未知の物理量目的変数データｙ_ｐｒｅｄの算出結果等が含まれる。また、処理結果には、予測性能の検証結果を説明するために例示した図やグラフ（図１１乃至図３３、図４０、図４１、図４３）等が含まれていてもよい。

【符号の説明】

【0218】

１…データ解析装置、１０…制御部、１１…記憶部、１２…入力部、１３…出力部、１４…通信部、１００…データ解析方法、１１０…データ解析プログラム、２００…コンピュータ

【要約】

【課題】予測対象の説明変数に対して未知の目的変数を予測するときの予測性能を向上させることを可能とするデータ解析方法を提供する。
【解決手段】現象予測処理Ｓ１は、予測対象の変量説明変数データベクトルｘ_ｐｒｅｄに対して未知の変量目的変数データｙ_ｐｒｅｄを予測する処理として、学習対象の変量データセットＱ_{ｔｒａｉｎ}とパイナンバー変換情報Ｐとに基づいて、パイナンバー予測モデルＦ_ｐｒｅｄを作成するモデル作成処理Ｓ３０と、変量説明変数データベクトルｘ_ｐｒｅｄをパイナンバー説明変数データベクトルξ_ｐｒｅｄに変換し、そのパイナンバー説明変数データベクトルξ_ｐｒｅｄをパイナンバー予測モデルＦ_ｐｒｅｄに入力することでパイナンバー目的変数データη_ｐｒｅｄを出力し、そのパイナンバー目的変数データη_ｐｒｅｄから、変量説明変数データベクトルｘ_ｐｒｅｄとパイナンバー変換情報Ｐとに基づいて、変量目的変数データｙ_ｐｒｅｄを算出するモデル予測処理Ｓ４０とを行う。
【選択図】図７