【新規性喪失の例外の表示】特許法第30条第2項適用 刊行物名:発明推進協会公開技報 発行日:平成25年3月8日 発行所:発明推進協会 公開技報番号:2013−500864
(58)【調査した分野】(Int.Cl.,DB名)
予測対象量に影響を与えると推定される複数の要因の実績値を示す第1情報と、予測対象日における前記複数の要因の予測値を示す第2情報と、前記予測対象量の実績値を示す第3情報とを用いて類似日を決定する類似日抽出方法であって、
一日の所定時点における複数の過去日分の前記第1情報及び前記第3情報に基づいて、前記所定時点における前記各要因の前記予測対象量への影響度合いを算出し、
前記所定時点における前記影響度合いに基づいて、一日の前記影響度合いを算出し、
前記第1情報と前記第2情報との差分に応じた値と、一日の前記影響度合いに応じた値と、の積に基づいて、過去日の予測対象量が前記予測対象日の予測対象量に類似すると推定される前記過去日を類似日と決定する
ことを特徴とする類似日抽出方法。
予測対象量に影響を与えると推定される複数の要因の実績値を示す第1情報と、予測対象日における前記複数の要因の予測値を示す第2情報と、前記予測対象量の実績値を示す第3情報とを用いて類似日を決定するコンピュータに、
一日の所定時点における複数の過去日分の前記第1情報及び前記第3情報に基づいて、前記所定時点における前記各要因の前記予測対象量への影響度合いを算出する手順と、
前記所定時点における前記影響度合いに基づいて、一日の前記影響度合いを算出する手順と、
前記第1情報と前記第2情報との差分に応じた値と、一日の前記影響度合いに応じた値と、の積に基づいて、過去日の予測対象量が前記予測対象日の予測対象量に類似すると推定される前記過去日を類似日と決定する手順と、
を実行させるためのプログラム。
【発明を実施するための形態】
【0009】
本明細書および添付図面の記載により、少なくとも以下の事項が明らかとなる。
【0010】
[第1実施形態]
===電力系統===
以下、
図1を参照して、本実施形態における電力系統について説明する。
図1は、本実施形態における電力系統を示す図である。
【0011】
電力系統100は、負荷R1に対して電力W1(「需要」とも称する)を供給するための電力系統である。電力系統100は、発電機101、配電線L10、負荷R1、類似日抽出装置2、観測装置9を有する。
【0012】
発電機101は、負荷R1に対して電力W1を供給するための発電所に設けられている発電機である。尚、発電機101は、例えば太陽光発電装置、風力発電装置等の分散型電源であることとしてもよい。
【0013】
負荷R1は、配電線L10に接続されると共に電力W1が供給される電力負荷である。つまり、負荷R1は、需要としての電力W1を消費している。尚、配電線L10には複数の負荷が接続されているが、説明の便宜上、負荷R1が接続されていることとする。
【0014】
観測装置9は、負荷R1が設けられている位置の例えば気温、湿度、気圧、風向、風速等の気象、及び天気等を観測したり、気象及び天気を予測したりする装置であり、例えば気象庁に設けられている。観測装置9は、更に、気温及び湿度から不快指数を算出する。観測装置9は、上述の観測結果、予測結果及び算出結果を示す観測情報を出力する。
【0015】
類似日抽出装置2は、負荷R1に供給される電力W1を示す電力情報及び観測情報等に基づいて、類似日を抽出する装置である。尚、電力情報は、例えば電力W1を測定するために配電線L10に設けられた測定装置(不図示)から出力されることとしてもよいし、負荷R1に設けられたスマートメータから出力されることとしてもよい。尚、類似日抽出装置2の詳細については、後述する。
【0016】
===類似日===
以下、
図1を参照して、本実施形態における類似日について説明する。
【0017】
類似日は、未来の日である予測対象日に対応する過去日である。類似日は、予測対象日の需要(第1電力需要量)に対して需要が類似するものと推定される過去日である。つまり、類似日の需要は、予測対象日の需要と類似するものと推定される。尚、類似日の需要と予測対象日の需要とが類似するとは、類似日及び予測対象日の各時刻における類似日及び予測対象日夫々の需要同士の差が比較的小さくなることを示している。
【0018】
例えば、現在が2012年8月31日であり、予測対象日が2012年9月1日であり、類似日が2012年8月1日である場合、類似日の需要と予測対象日の需要とが類似するとは、2012年9月1日の各時刻の需要と2012年8月1日の各時刻の需要との差が比較的小さくなることを示している。つまり、類似日の需要と予測対象日の需要とが類似するとは、2012年9月1日の2時の需要と2012年8月1日の2時の需要との差が比較的小さくなることと等を示している。
【0019】
ここで、発電機101の発電量は、電力の需給バランスの観点から、発電機101から出力される電力と負荷R1で消費される電力W1とが略一致するように調整される。上述の類似日は、例えば、予測対象日における発電機101の発電計画の作成ために用いられる。具体的には、発電計画の作成においては、例えば、予測対象日の発電機101の発電量が類似日の需要に応じた発電量となるように、発電機101の発電量が計画される。
【0020】
===類似日抽出装置===
以下、
図2及び
図3を参照して、本実施形態における類似日抽出装置について説明する。
図2は、本実施形態における類似日抽出装置のハードウエアを示すブロック図である。
図3は、本実施形態における類似日抽出装置の機能等を示すブロック図である。
【0021】
類似日抽出装置2は、類似日を抽出する装置である。類似日抽出装置2は、CPU(Central Processing Unit)31、通信装置32、メモリ33、表示装置34、入力装置35、記憶装置24を有する。
【0022】
CPU31は、メモリ33に記憶されているプログラムを実行することにより、類似日抽出装置2を統括制御し、類似日抽出装置2の各機能を実現する。メモリ33は、例えばRAM(Random Access Memory)等であり、プログラムやデータ等の一時的な記憶領域として用いられる。通信装置32は、通信ネットワーク300を介して観測装置9、測定装置、スマートメータ等との間で通信を行う。表示装置34は、類似日抽出装置2に入力されたデータ等を表示するための例えば液晶ディスプレイ装置である。入力装置35は、類似日抽出装置2に対してデータを入力するための例えばキーボード、マウス等である。記憶装置24は、各種データが記憶されるデータベースである。尚、記憶装置24は、例えば、類似日抽出装置2とは別体として設けられており、類似日抽出装置2との間で通信可能に類似日抽出装置2と接続されていることとしてもよい。
【0023】
類似日抽出装置2は、更に、要求点入力部21(
図3)、要因分析部22(演算装置、第1演算装置、第2演算装置)、距離計算部23(「類似日抽出装置2の各機能)とも称する)を有する。類似日抽出装置2の各機能は、前述したように、メモリ33に記憶されているプログラムをCPU31が実行することにより実現される。
【0024】
要求点入力部21は、予測対象日及び要求データ数を示すデータ(「入力データ」とも称する)に基づいて、現在までに既知である要因データを記憶装置24から取得する。尚、入力データは、入力装置35から入力されることとしてもよいし、通信ネットワーク300を介して他の入力装置から入力されることとしてもよい。尚、要求点入力部21の詳細については、後述する。
【0025】
予測対象日とは、予測の対象となる未来の日を示している。要求データ数とは、類似日抽出装置2によって抽出されるべき類似日としての過去日の日付の個数を示している。例えば、要求データ数が5とされている場合、類似日としての過去日の日付が5日分抽出されることになる。要因データは、予測対象日の需要に影響を与えると推定される例えば気温、湿度等の複数の要因を示すデータである。尚、要因データの詳細については、後述する。
【0026】
要因分析部22は、入力データに示されている予測対象日に対して、記憶装置24から任意の期間の過去の予測対象実績値と要因データを取得し、各時刻における予測対象に対して需要要因の分析結果を量的に表した各時刻における変数重要度を算出し、各時刻における変数重要度を予測対象の特徴を考慮して統合することで、1日おける需要要因の変数重要度を算出する。つまり、要因分析部22は、入力データ及び要求点入力部21の取得結果等に基づいて、1日における変数重要度を算出する。尚、要因分析部22の詳細については、後述する。
【0027】
距離計算部23(決定装置)は、要因分析部22で算出られた変数重要度を用いて、要求点と任意の期間の過去日に対する距離を算出し、類似日として要求データ数分の過去日の日付を出力する。尚、距離計算部23の詳細については、後述する。
【0028】
===要因データ===
以下、
図4及び
図5を参照して、本実施形態における要因データについて説明する。
図4は、本実施形態における気温と需要との関係を示す図である。
図5は、本実施形態における要因データのイメージを示す図である。尚、時間帯A2が予測対象日の1日の時間帯を示しており、時間帯A3が予測対象日よりも後の1日の時間帯を示しており、時間帯A1が予測対象日よりも前の1日に時間帯を示している。
【0029】
要因データは、予測対象日の需要に影響を与えると推定される要因として、例えば需要、気温、湿度、曜日等を示すデータを含んでいる。尚、要因データは、需要、気温、湿度、曜日等以外の要因を示すデータも含んでいることとしてもよいし、需要、気温、湿度、曜日のうちの少なくとも1つを含んでいることとしてもよい。要因データには、過去における需要、気温、湿度夫々の実績値、未来における気温、湿度夫々の予測値が含まれている。要因データには、更に、過去、現在、未来夫々の日付に対応する曜日が含まれている。尚、要因データにおける需要は、前述の予測対象でもある。尚、要因データには、未来における需要の予測値が含まれていることとしてもよい。この需要の予測値は、例えば、重回帰分析等を用いて導出される所定の相関式に基づいて定められることとしてもよい。
【0030】
そして、要因データは、観測情報及び電力情報等に基づいて記憶装置24に記憶されている。つまり、記憶装置24には、複数の要因の実績値を示すデータ(第1情報)と、複数の要因の予測値を示すデータ(第2情報)が記憶されている。更に、記憶装置24には、要因データに含まれている過去日の需要(第2電力需要量)の実績値を示すデータ(第3情報)が記憶されている。
【0031】
===要求点入力部===
以下、
図3、
図5及び
図6を参照して、本実施形態における要求点入力部について説明する。
図6は、本実施形態における要求点入力部によって取得された要因データを示す図である。
【0032】
要求点入力部21は、入力データに基づいて要因データを記憶装置24から取得する。尚、要求点入力部21によって取得される要因データを、第1要因データとも称する。第1要因データは、予測対象日に応じた日の予め定められた時刻に対応するデータである。予め定められた時刻は、例えば1日の時間帯における類似日抽出装置2のユーザによって指定された所定の時刻とされる。尚、当該ユーザによる指定がない場合、予め定められた時刻は、1日を24分割した1時間毎の時刻とされる。尚、要求点入力部21は、要因としての説明変数(
図21)に応じて、例えば予測対象日、予測対象日の翌日、予測対象日の前日等の要因データを取得する。説明の便宜上、要求点入力部21が予測対象日の要因データを取得することとして説明する。
【0033】
例えば予め定められた時刻が2時、14時、20時ある場合、要求点入力部21は、予測対象日としての2012年9月1日の2時、14時、20時夫々に対応する第1要因データを記憶装置24から取得する。尚、説明の便宜上、第1要因データ(
図6)には、予測対象日の最高気温の予測値としての予測最高気温、最低気温の予測値としての予測最低気温、平均気温の予測値としての予測平均気温、予測対象日の曜日が含まれていることとする。
【0034】
===要因分析部===
以下、
図7乃至
図14を参照して、本実施形態における要因分析部について説明する。
図7は、本実施形態における1日における時刻に対する需要を示す図である。
図8は、本実施形態における学習データを示す図である。
図9は、本実施形態における最大木を示す図である。
図10は、本実施形態における学習データの一部を示す図である。
図11は、本実施形態における最良木を示す図である。
図12は、本実施形態における1日における時刻に対する学習データの需要を示す図である。
図13は、本実施形態における1日における時刻に対する正規化された学習データの需要を示す図である。
図14は、本実施形態における第2変数重要度の算出例を示す図である。
【0035】
要因分析部22は、入力データ及び要求点入力部21の取得結果等に基づいて、1日における変数重要度を算出する。変数重要度とは、目的変数に対して各変数が影響を与えると推定される影響度合いを示している。変数重要度においては、変数重要度が大きくなるにつれて、目的変数に対して影響を与える度合いが大きくなることが示される。尚、目的変数とは、予測対象日における需要を示している。各変数は、要因データにおける気温、湿度、曜日等の各要因を示している。
【0036】
要因分析部22は、決定木のCART(Classification And Regression Tree)アルゴリズム等に基づいて、予め定められた時刻毎の各変数の変数重要度(「第1変数重要度」とも称する)を算出した後、第1変数重要度を統合して各変数の1日における変数重要度(「第2変数重要度」とも称する)を算出する。ここで、要因分析をする手法は、CART以外でも構わない。各変数の変数重要度が算出できれば、他の非線形な要因分析をする手法でも構わない。つまり、要因分析部22がCART以外の非線形な要因分析を行う手法に基づいて変数重要度を算出することとしてもよい。一例として以下に、CARTによる適用例を説明する。
【0037】
ここで、CARTアルゴリズムでは、線形問題に対する要因分析手法である重回帰分析や、主成分分析と同様に、時系列データのような連続的なデータに対してそのままでは要因分析を行うこと困難となることがある。そこで、要因分析部22は、時系列データを時刻毎に断面的に要因分析を行い、その時刻毎に得られる結果としての第1変数重要度を統合することによって、CARTによる時系列データの要因分析を行う。この際、単純に統合してしまうと、時系列データの時刻毎の特徴が考慮されないことになる。そのため、要因分析部22では、要因分析の学習データから時系列データの時刻毎の特徴量としての幅W21乃至W23(
図13)等を重みとして算出し統合に用いることで、予測対象である時系列データの特徴を第2変数重要度に反映させている。幅W21乃至W23等を用いることで、過去の学習データから1日の時系列データの変動具合を時刻毎に量的に表すことができる。学習データの変動が大きい時刻は、類似日抽出の際に時系列データにとって特徴的な時刻であることを意味している。本発明では、この特徴的な時刻の変数重要度を、周りの時刻の変数重要度よりも重要視することで、学習データの特徴を類似日抽出に反映している。
【0038】
決定木とは、大量のデータの中に隠れている有用な情報、知識やルールを抽出する方法論であるデータマイニング手法の一つであり、入出力関係をif-thenルールによる木構造で表現する手法である。決定木においては、ひし形のノードが分岐ノード(
図9)、四角のノードがターミナルノードとなっており、親ノードである分岐ノード内のデータが、if-thenルールによって子ノードである左右のターミナルノードに格納される。CARTアルゴリズムによって構築された決定木においては、各分岐ノードの改善度から変数重要度を算出することで各要因を量的に明確にすることができる。
【0039】
要因分析部22は、一つのノードからそれ以上分割できなくなる最大木まで成長させ、木の剪定によりその木構造の交差検証誤差を算出し、その中で最良木を構築する。最良木においては、剪定の際に算出した交差検証誤差にSEルールを適用することで、要因分析部22は、最適なモデルを選択している。最良木の各分岐ノードの改善度から変数重要度を求めることで、入出力関係が統計的に求められることになる。要因分析部22は、例えば、木の成長、木の剪定、最良木の選択、変数重要度の算出の等を行う。
【0040】
具体的には、要因分析部22は、学習データを作成し、当該学習データに基づいて木の成長、木の剪定及び最良木の選択を行うことにより第1変数重要度を算出した後、第2変数重要度を算出する。
【0041】
==学習データの作成==
要因分析部22は、予め定められた時刻毎に学習データD3(
図8)を、記憶装置24に記憶されているデータに基づいて作成する。尚、予め定められた時刻は、要求点入力部21で取得される第1要因データにおける予め定められた時刻と同様に定められる。
【0042】
学習データD3においては、過去の一定期間における過去の日付に対して過去の要因データと過去の需要とが対応付けられている。尚、学習データD3に示されている要因データを、第2要因データとも称する。第2要因データは、過去日に対応する実績値に基づくデータである。説明の便宜上、第2要因データには、最高気温の実績値、最低気温の実績値、平均気温の実績値、曜日が含まれていることとする。つまり、学習データD3においては、過去の日付に対して当該日付に示される日の最高気温の実績値、最低気温の実績値、平均気温の実績値、当該日付に対応する曜日、需要の実績値が対応付けられている。尚、学習データD3における日付毎に対応付けられているデータを、日付毎のデータとも称する。
【0043】
例えば、過去の一定期間が2012年8月1日から2012年8月4日までであり、且つ、予め定められた時刻が2時、14時、20時ある場合、要因分析部22は、4個の日付毎のデータからなる2時に対応する学習データ、4個の日付毎のデータからなる14時に対応する学習データ、4個の日付毎のデータからなる20時に対応する学習データを作成する。
【0044】
==木の成長==
要因分析部22は、決定木構築において、親ノード内のデータを2つの子ノードに分割することで、木を成長させる。要因分析部22は、まず、要因である各変数に対して、対象データとなる親ノードの日付毎のデータ(単に「データ」とも称する)に対して生じる誤差が最も減少する分岐条件を選択し、木を構築する。要因分析部22は、この誤差の尺度として分岐したときの誤分類率の改善度合いを測る改善度を用いる。この改善度が閾値を満たすか、分類後のノード内のデータの出力が同一となるまで繰り返し2つのノードにデータを分割していくことで、要因分析部22は、決定木を構築する。要因分析部22は、式1に基づいてすべての入力変数の改善度を算出し、その中で最も大きい値のものを最良分岐条件とする。要因分析部22は、そのときの入力変数を分岐入力変数とし、その分割した左右の平均を分岐値とする。要因分析部22は、この作業を繰り返し行うことで決定木をこれ以上分割できない最大木まで成長させる。但し、あまりに大きく決定木が成長してしまうと、計算上オーバーフィッティング(過剰適合)を起こす場合がある。そのため、要因分析部22は、子ノードを分岐ノードにするかターミナルノードにするかについて、閾値に基づいて判断する必要がある。その判断基準としては,ノードの郡間平方和が閾値より大きくなるか否かとする。なお、閾値については、任意に決定される。
【0046】
尚、S(t)はtでの平方和を示し、tは親ノード番号を示し、Ntはtに属するデータ数を示し、yiはデータiの出力を示し、Δi(t)はtの改善度を示し、S(tk)はkでの平方和を示し、kは左(L)か右(R) かを示している。式3における右辺第2項の「ytバー」は、tに属するデータの平均を示し、式4の右辺第2項の「ykバー」は、左(L)のデータの平均又は右(R) のデータの平均を示している。
【0047】
=木の成長の例=
例えば、学習データD3が、2時の日付毎のデータとして第1乃至第4データ(
図10)の4個のデータを有している場合について説明する。つまり、
図10においては、学習データD3における平均気温、曜日については、説明の便宜上、省略されている。
【0048】
第1データにおいては、2012年8月1日の第1変数x1としての最高気温、第2変数x2としての最低気温、目的変数yとしての需要が夫々、26(℃)、19(℃)、480(kW)とされている。第2データにおいては、2012年8月2日の第1変数x1としての最高気温、第2変数x2としての最低気温、目的変数yとしての需要が夫々、27(℃)、17(℃)、490(kW)とされている。第3データにおいては、2012年8月3日の第1変数x1としての最高気温、第2変数x2としての最低気温、目的変数yとしての需要が夫々、28(℃)、16(℃)、510(kW)とされている。第4データにおいては、2012年8月4日の第1変数x1としての最高気温、第2変数x2としての最低気温、目的変数yとしての需要が夫々、29(℃)、18(℃)、520(kW)とされている。
【0049】
<最良分岐条件の選択>
要因分析部22は、分岐ノードnd1(ノード1)(
図9)の分岐条件として、式1における改善度Δi(1)が最大となる最良分岐条件を選択する。尚、分岐条件とは、第1変数x1又は第2変数x2に基づいて第1乃至第4データを2つに分岐させるための条件を示している。要因分析部22は、最良分岐条件を選択するために、仮分岐条件毎に改善度Δi(1)を算出する。
【0050】
具体的には、要因分析部22は、入力変数としての第1変数x1の値が小さい順に第1乃至第4データを並べる。このとき、第1乃至第4データの順に並べられる。要因分析部22は、1番目のデータ(第1データ)と2番目以降のデータ(第2乃至第4データ)とが分岐される条件である26.5(℃)よりも最高気温が高いデータであるか否かという条件を第1仮分岐条件とする。尚、第1仮分岐条件においては、26.5(℃)が分岐値となる。親ノードとしての分岐ノードnd1の第1乃至第4データは、第1仮分岐条件によって、左右の子ノードに分岐される。例えば、第1データが左の子ノードに分岐され、第2乃至第4データが右の子ノードに分岐される。
【0051】
要因分析部22は、式4に基づいて、左の子ノードに分岐された第1データの目的変数yの平方和S(1L)と、右の子ノードに分岐された第2乃至第4ノードの目的変数yの平方和S(1R)を算出する。要因分析部22は、式3に基づいて、親ノードの第1乃至第4データの目的変数yの平方和S(1)を算出する。要因分析部22は、式2に基づいて、分岐ノードnd1の群間平方和S
B(1)を算出する。要因分析部22は、式1に基づいて、群間平方和S
B(1)を分岐ノードnd1のデータの個数としての4で割る除算を行い、第1仮分岐条件における改善度Δi(1)を算出する。
【0052】
次に、要因分析部22は、1及び2番目のデータ(第1及び第2データ)と3及び4番目のデータ(第3及び第4データ)とが分岐される条件である27.5(℃)よりも最高気温が高いデータであるか否かという条件を第2仮分岐条件として、同様に、第2仮分岐条件における改善度Δi(1)を算出する。要因分析部22は、28.5(℃)よりも最高気温が高いデータであるか否かという条件を第3仮分岐条件として、同様に、第3仮分岐条件における改善度Δi(1)を算出する。要因分析部22は、更に、入力変数としての第2変数x2に基づいて第1乃至第4データが分岐される仮条件における改善度Δi(1)を算出する。要因分析部22は、16.5(℃)よりも最低気温が高いデータであるか否かという条件を第4仮分岐条件として、同様に、第4仮分岐条件における改善度Δi(1)を算出する。要因分析部22は、17.5(℃)よりも最低気温が高いデータであるか否かという条件を第5仮分岐条件として、同様に、第5仮分岐条件における改善度Δi(1)を算出する。要因分析部22は、18.5(℃)よりも最低気温が高いデータであるか否かという条件を第6仮分岐条件として、同様に、第6仮分岐条件における改善度Δi(1)を算出する。
【0053】
要因分析部22は、第1乃至第6仮分岐条件のうち、改善度Δi(1)が最大となる仮分岐条件を分岐ノードnd1の最良分岐条件として選択する。
【0054】
<ターミナルノード>
要因分析部22は、分岐ノードnd1の分岐先のノードをターミナルノードにするか、分岐ノードにするかを判断する。分岐先のノードのデータが例えば1個になる等により分岐先のノードのデータを更に分岐させられないとき、要因分析部22は、分岐先のノードをターミナルノードにする。又、分岐先のノードにおける群間平方和が閾値より大きくなったときも、分岐先のノードをターミナルノードにする。この構成により、例えば、オーバーフィッティングが引き起こされて、決定木が用いられている需要に関するモデルが収束しなくなるのを防止することが可能となる。
【0055】
要因分析部22は、学習データD3における日付毎のデータを分岐させることができなくなるまで、つまり、最下層が全てターミナルノードになるまで、最良分岐条件の選択を繰り返し行う。要因分析部22は、学習データD3に基づき、例えば最大木Tr1を作成する。最大木Tr1には、分岐ノードnd1乃至nd6、ターミナルノードnt1乃至nt7が含まれることになる。
【0056】
==木の剪定==
木の成長によって最大木Tr1まで成長した決定木は、学習データD3に対して類似したデータを抽出しているが、構造が比較的複雑であり、学習データD3に対してオーバーフィッティングしている可能性がある。そこで、要因分析部22は、木構造を簡略化するため、一旦最大木Tr1まで成長した木に対して枝の剪定を行う。具体的には、要因分析部22は、各分岐ノードnd1乃至nd6において、そのノードよりも下層にある部分木のノード数あたりの誤差としての複雑度パラメータα(t)(式5)を算出する。次に、要因分析部22は、得られた複雑度パラメータα(t)の値が最も小さな値となる分岐ノードをターミナルノードに置き換える。最後に、要因分析部22は、全ての分岐ノードnd1乃至nd6がターミナルノードになるまで繰り返す。以上の手順により、要因分析部22は、最大木を一旦最小木まで剪定する。
【0058】
尚、α(t)は複雑度パラメータを示し、S(t)は分岐ノードの平方和を示し、S(Ti)はターミナルノードの平方和を示し、式5の右辺の分母は分岐ノードよりも下層のターミナルノードの個数に応じた値を示している。
【0059】
=木の剪定の例=
要因分析部22は、最大木Tr1の分岐ノードnd1乃至nd6夫々について、複雑度パラメータα(t)を算出した後、木の剪定を行う。
【0060】
<複雑度パラメータの算出>
分岐ノードnd2の複雑度パラメータα(2)については、分岐ノードnd2よりも下層のターミナルノードの個数は3個である。よって、式5の右辺の分母は、ターミナルノードの個数から1が差し引かれた2となる。また、式5の右辺の分子の第1項は、分岐ノードnd2の平方和S(2)となる。式5の右辺の分子の第2項は、分岐ノードnd2よりも下層のターミナルノードnt1、nt3、nt4夫々の平方和S(T1)、S(T3)、S(T4)の合計となる。これらより、要因分析部22は、複雑度パラメータα(2)を算出する。要因分析部22は、同様にして、分岐ノードnd1、nd3乃至nd6夫々の複雑度パラメータα(1)、α(3)乃至α(6)を算出する。
【0061】
<木の剪定>
例えば、複雑度パラメータα(1)乃至α(6)の値のうちで、複雑度パラメータα(5)の値が最も小さい場合、要因分析部22は、分岐ノードnd5をターミナルノードに置き換えて木の剪定を行う。この後、要因分析部22は、残りの分岐ノードnd1乃至nd4について再度複雑度パラメータを算出し、算出結果に基づいて同様に木の剪定を行う。要因分析部22は、分岐ノードnd1乃至nd6の全てがターミナルノードになるまで木の剪定を行う。
【0062】
==最良木の選択==
木の剪定を行う過程において、要因分析部22は、交差検証法を用いて決定木の誤差を推定する。交差検証法は、モデル構築の際に、学習データの数が十分でない場合もしくは、学習の偏りを小さくするための学習法である。最初に、要因分析部22は、学習データD3をν個のグループに分割し、その中の(ν―1)個のグループをモデル構築用の学習データとして用い、残りの1グループを誤差推定用のテストデータとして用いる。要因分析部22は、木の剪定が行われる毎に交差検証法を用いることで、剪定後の交差検証誤差R
cv(d)(式6)等を求める。
【0064】
尚、dは交差検証木を示し、R
cv(d)は交差検証誤差を示し、νは交差検証回数を示し、R
ts(di)はテストデータの誤差を示し、σ(R
cv(d))は標準偏差を示している。
【0065】
この後、要因分析部22は、剪定後の誤差及び最良木選択ルール(式9)等に基づいて最良木を選択する。
【0067】
尚、Tcandは最良木候補を示し、Tminは誤差最小木を示している。
【0068】
最良木選択ルールとしてのSEルールでは、交差検証誤差R
cv(d)と標準偏差σ(R
cv(d))の和がもっとも小さい決定木が誤差最小木Tminとされ、前述の和より交差検証誤差が小さくなる決定木が最良木候補Tcandとされる。要因分析部22は、SEルールによって得られた最良木候補の中で最もノードの数が少ない決定木を最良木として選択する。
【0069】
=最良木の選択の例=
要因分析部22は、前述の木の剪定が行われる毎に交差検証誤差R
cv(d)及び標準偏差σ(R
cv(d))を算出し、当該算出結果に基づいて最良木を選択する。
【0070】
<誤差の算出>
例えば、最大木Tr1において分岐ノードnd6、nd2、nd1の順で剪定が行われたこととし、最大木Tr1に対して、分岐ノードnd6が剪定された木を交差検証木Trd6とし、更に分岐ノードnd2が剪定された木を交差検証木Trd2とし、更に分岐ノードnd1が剪定された木を交差検証木Trd1とする。要因分析部22は、分岐ノードnd6が剪定されたときの木である交差検証木Trd6のテストデータの誤差R
ts(di)を算出した上で、交差検証誤差R
cv(d)及び標準偏差σ(R
cv(d))を算出する。
【0071】
具体的には、要因分析部22は、学習データD3の日付毎のデータを、ν個(例えば10個)のグループに分割する。尚、各グループには、例えば20個のデータが格納されていることとする。要因分析部22は、分割された10個のグループのうちの9個のグループの合計180個のデータをモデル構築のためモデルデータとして用いて、残りの1個のグループの20個のデータを交差検証木の精度の検証を行うためのテストデータとして用いる。要因分析部22は、モデルデータを交差検証木Trd6の各ターミナルノードに割り当てて、モデルデータの目的変数としての需要の平均値をターミナルノード毎に算出する。要因分析部22は、テストデータを交差検証木Trd6の各ターミナルノードに割り当てて、式7に基づいてテストデータの誤差R
ts(d1)を算出する。尚、このとき、式7のNはテストデータの個数としての20とされ、yjは各テストデータの目的変数としての需要の値とされ、「yjバー」(式7の第2項)は各テストデータが割り当てられるノードにおける前述のモデルデータの目的変数としての需要の平均値とされる。
【0072】
この後、要因分析部22は、分割された10個のグループのうちのテストデータとされていない1個のグループの20個のデータをテストデータとし、残りの9個のグループの180個のデータをモデルデータとした後、同様にして、テストデータの誤差R
ts(d2)を算出する。要因分析部22は、全てのグループのデータがテストデータとして用いられるまで、テストデータを入れ替えて、テストデータの誤差、つまり、テストデータの誤差R
ts(d3)乃至R
ts(d10)を算出する。
【0073】
要因分析部22は、式6に基づいて交差検証誤差R
cv(d)を算出する。つまり、要因分析部22は、テストデータの誤差R
ts(d1)乃至R
ts(d10)の平均値を、交差検証木Trd6の交差検証誤差R
cv(d)とする。又、要因分析部22は、式8に基づいて交差検証木Trd6の標準偏差σ(R
cv(d))を算出する。
【0074】
この後、要因分析部22は、同様にして、交差検証木Trd2及びTrd1夫々について交差検証誤差R
cv(d)及び標準偏差σ(R
cv(d))を算出する。
【0075】
<最良木の選択>
要因分析部22は、交差検証木Trd1、Trd2、Trd6夫々における交差検証誤差R
cv(d)と標準偏差σ(R
cv(d))との合計のうちの当該合計が最小の交差検証木を誤差最小木とする。例えば、交差検証木Trd2が、誤差最小木にされていることとする。この場合、要因分析部22は、交差検証木Trd1の交差検証誤差R
cv(d)が、誤差最小木の交差検証誤差R
cv(d)と標準偏差σ(R
cv(d))との合計(「最小木の誤差閾値」とも称する)以下となるか否かを判断する。更に、要因分析部22は、交差検証木Trd6の交差検証誤差R
cv(d)が、最小木の誤差閾値以下となるか否かを判断する。
【0076】
例えば、交差検証木Trd6の交差検証誤差R
cv(d)のみが、最小木の誤差閾値以下となっていると判断した場合、要因分析部22は、交差検証木Trd6を最良木Tr6(
図11)として選択する。又、例えば、交差検証木Trd6の交差検証誤差R
cv(d)及び交差検証木Trd6の交差検証誤差R
cv(d)の双方が、最小木の誤差閾値以下となっていると判断した場合、要因分析部22は、ノード数の少ない交差検証木Trd1を最良木として選択する。
【0077】
==第1変数重要度の算出==
要因分析部22は、選択された最良木に基づいて第1変数重要度を算出する。第1変数重要度は、決定木構築の際の入力変数の度合いを明確にした指標である。又、第1変数重要度は、一日を所定時間毎に分割した各時刻(各時間帯)における、複数の要因夫々が予測対象日の需要に与えると推定される影響度合いである。第1変数重要度の算出には、最良木での分岐ノードに使用した変数の改善度が用いられる。第1変数重要度は、式10に示されるように、各改善度を変数毎に合計した値である。第1変数重要度においては、予測対象に対して与える影響の度合いが最大であり、最も重要である変数の第1変数重要度を100(%)とし、他の変数の重要度が量的に表されている。
【0079】
尚、VI(x)はxの第1変数重要度を示し、xは入力変数を示し、Xは入力変数の集合を示し、Nsは分岐ノードの集合を示している。
【0080】
=第1変数重要度の算出の例=
例えば、最良木Tr6が選択されており、分岐ノードnd1、nd2、nd4の分岐条件が第1変数x1としての最高気温に基づくものであり、分岐ノードnd3、nd5の分岐条件が第2変数x2としての最低気温に基づくものであることとする。要因分析部22は、分岐ノードnd1、nd2、nd4の改善度Δi(t)の合計を第1変数x1における第1改善度Δi(x1、t)とする。又、要因分析部22は、分岐ノードnd3、nd5の改善度Δi(t)の合計を第2変数x2における第2改善度Δi(x2、t)とする。例えば、第1改善度Δi(x1、t)の値のほうが第2改善度Δi(x2、t)の値よりも大きい場合、要因分析部22は、第1変数x1の第1変数重要度を100(%)とする。更に、第2変数x1の第1変数重要度については、要因分析部22は、式10に基づいて、第1改善度Δi(x1、t)の値(式10の右辺の分母)に対するが第2改善度Δi(x2、t)の値(式10の右辺の分子)の比率を第2変数x2の第1変数重要度とする。
【0081】
==第2変数重要度の算出==
要因分析部22は、予め定められた時刻毎に算出された第1変数重要度を統合して、第2変数重要度を算出する。予測対象である時系列データの特徴を考慮した第2変数重要度を算出するために、時刻毎における第1変数重要度の結果を1日における第2変数重要度に統合する。予測対象である時系列データの特徴は、過去データからその変動傾向によって考慮することができる。そこで、要因分析部22は、学習データD3の需要を示す予測対象データの時刻毎の変動傾向を重みとして、当該重みと第1変数重要度との重み付け平均値により第2変数重要度の値を算出する。
【0082】
ここで、予測対象データの各時刻における変動傾向は、
図12に示されるように過去データからなる例えば学習データの幅、標準偏差等に基づいて判断することが可能となる。尚、学習データの幅とは、各時刻における学習データに示されている需要の最大値と当該需要の最小値との差を示している。具体的には、学習データの幅とは、例えば、2時における幅W11、14時における幅W12、20時における幅W13等を示している。時刻によって第1変数重要度の値が異なるため、要因分析部22は、正規化された学習データ(
図13)において、幅を重みとして算出する。第2変数重要度においては、第1変数重要度と同様に、統合値が最大となる要因(変数)の第2変数重要度を100(%)として、すべての要因の第2変数重要度を算出する。
【0083】
尚、要因分析部22は、式11に基づいて第2変数重要度を算出するための統合値を変数毎に算出する。
【0085】
尚、VIは所定の需要要因(変数)の統合値を示し、vi(i)は所定の需要要因(変数)の時刻iの第1変数重要度を示し、w(i)は時刻iの重みを示している。尚、式11においては、第1変数重要度が24個のときの第2変数重要度を算出する算出式が示されている。
【0086】
重みw(i)においては、要因分析部22は、学習データから時刻毎の需要の平均値を算出し、時刻毎に学習データを正規化する。この後、要因分析部22は、正規化された学習データから時刻毎に学習データの幅(最大値−最小値)を算出する。そして、要因分析部22は、最も幅が大きい時刻の幅が1となるように全ての幅を正規化する。
【0087】
=第2変数重要度の算出の例=
例えば、予め定められた時刻が2時、14時、20時であり、需要要因としての各変数が第1変数x1、第2変数x2、第3変数x3、第4変数x4の4個設けられている場合について説明する。第1変数x1、第2変数x2は夫々、前述したように、最高気温、最低気温に対応する。第3変数x3、第4変数x4は夫々、学習データD3(
図8)の平均気温、曜日に対応していることとする。
【0088】
<重みの算出>
要因分析部22は、学習データに基づいて2時、14時、20時夫々の重みw(1)、w(2)、w(3)を算出する。具体的には、要因分析部22は、学習データ(
図12)の各時刻における需要の平均値を算出し、当該平均値を基準に各時刻の学習データを正規化する(
図13)。この後、要因分析部22は、正規化された学習データにおいて各時刻の正規化された学習データの最大値から最小値を差し引いて幅を算出する。要因分析部22は、2時の幅W21、14時の幅W22、20時の幅W23を算出する。尚、幅W21乃至W23は夫々、幅W11乃至W13(
図12)に応じた幅となる。例えば、幅W21乃至W23のうち幅W22が最大で、幅W21が最小となっていることとする。この後、要因分析部22は、幅W21乃至W23のうちの最大の幅W22が1となるように、幅W21乃至W23を正規化する。要因分析部22は、正規化された幅W21、正規化された幅W22、正規化された幅W23を夫々、重みw(1)、w(2)、w(3)とする。例えば、重みw(1)、w(2)、w(3)は夫々、0.6、1、0.8となる。
【0089】
<統合値の算出>
要因分析部22は、式11に基づいて、第1変数x1の統合値、第2変数x2の統合値、第3変数x3の統合値、第4変数x4の統合値を算出する。要因分析22は、統合値に基づいて、第1変数x1乃至第4変数x4夫々の第2変数重要度を算出する(
図14)。尚、
図14の第2変数重要度の統合過程においては、式11における24つまり各変数に対する第1変数重要度を除数とした除算については、説明の便宜上、省略されている。要因分析部22は、第1変数x1乃至第4変数x4夫々の第2変数重要度を例えば、68(%)、41(%)、69(%)、100(%)と算出する。
【0090】
===距離計算部===
以下、
図3及び
図14を参照して、本実施形態における距離計算部について説明する。
【0091】
距離計算部23は、要因分析部22で算出られた第2変数重要度に基づいて、要求データ数分の類似日の日付を出力する。変数重要度に基づき、過去日と予測日の類似度を距離として評価できれば、その距離の算出方法はどんなものでも構わない。つまり、距離計算部23による距離の算出方法は式12及び式13に基づく算出方法に限定されるものではない。以下において、式12乃至式14等に基づいて類似日を出力する一例について説明する。距離計算部23は、式12乃至式14等に基づいて、要求点と所定の期間の過去日に対して、第2変数重要度を用いた距離を算出する。尚、要求点は、予測対象日に対応している。尚、距離計算部23によって算出される距離を、類似度とも称する。尚、距離計算部23は、所定の期間の全ての過去日に対して距離を算出することとしてもよいし、所定の期間の所定の過去日に対して距離を算出することとしてもよい。距離計算部23は、予測対象の要因を考慮した手法である重み付けユークリッド距離、変数の寄与率を考慮した類似度等に非線形手法の結果である第2変数重要度を適用して、距離を算出する。例えば、変数の寄与率を考慮した類似度に適用する場合は、要求点と過去日のデータとのフィールド距離及びカテゴリー距離を算出し(フィールド距離は最大1となるように正規化する)、寄与率として第2変数重要度が用いられる。フィールド距離とは、変数が連続値であった場合の距離で、例えば式12のように算出できる。カテゴリー距離とは、変数が離散値であった場合の距離で、例えば式13のように算出できる。
【0093】
尚、D
contributionは寄与率を考慮した距離を示し、tは説明変数(要因、変数)の数を示し、dtはフィールド距離又はカテゴリー距離を示し、Qは要求点を示し、Xは探索点を示し、ctは寄与率を示している。尚、探索点は所定の期間の過去日に対応し、寄与率ctは第2変数重要度に対応している。式14のルートは、寄与率ctがパーセント(例えば90%)で与えられる時に、数値の大きさのバランスを取るためについているが、寄与率ctが数値(例えば0.9)である場合は、ルートをつけなくても構わない。
【0094】
距離計算部23は、すべての過去日において距離を算出した後、過去日を当該距離に応じて順番の並べ替えた上で、距離が短い上位から順に要求点入力部21での要求データ数分の類似日を抽出して、要求データ数分の類似日の日付を出力する。つまり、距離計算部23は、第2変数重要度に基づいて、複数の過去日のうちの需要が予測対象日の需要に類似すると推定される日を類似日と決定する。
【0095】
=距離の算出の例=
例えば、要求点としての予測対象日が2012年9月1日であり、探索点としての過去日が2012年8月1日から2012年8月4日までであり、要因としての説明変数(各変数、入力変数)が最高気温及び最低気温であり、要求データ数が2である場合について説明する。
【0096】
<距離dtの算出>
距離計算部23は、式12に基づいて距離dtを算出する。距離計算部23は、過去の2012年8月1日における最高気温と、予測対象日の予測最高気温との差の絶対値を距離dt11として算出する。距離計算部23は、同様に、過去の2012年8月2日乃至2012年8月4日における最高気温夫々と、予測対象日の予測最高気温との差の絶対値夫々を距離dt12、dt13、dt14として算出する。
【0097】
距離計算部23は、過去の2012年8月1日乃至2012年8月4日における最低気温夫々と、予測対象日の予測最低気温との差の絶対値夫々を距離dt21、dt22、dt23、dt24として算出する。
【0098】
<距離D
contributionの算出>
距離計算部23は、式14に基づいて距離D
contributionを算出する。距離計算部23は、変数としての最高気温の第2変数重要度の平方根と距離dt11との積と、変数としての最低気温の第2変数重要度の平方根と距離dt21との積との和を、2012年8月1日と予測対象日との距離D
contributionとして算出する。距離計算部23は、同様にして、2012年8月2日乃至2012年8月4日それぞれと予測対象日との距離D
contribution夫々を算出する。
【0099】
<類似日の抽出>
距離計算部23は、距離D
contributionが短い順に過去日を類似日として抽出し、類似日の日付を出力する。例えば、2012年8月1日乃至2012年8月4日のうちで2012年8月2日の距離D
contributionが最も短く、2012年8月1日の距離D
contributionがこの次に短い場合、距離計算部23は、2012年8月2日、及び、2012年8月1日を類似日として抽出し、これらの日付を出力する。
【0100】
<式13について>
ここで、要因データは、カテゴリーの違いを表す名義尺度である質的変数に対しても(例えば曜日情報)、ダミー変数として離散値(0、1)を用いることで扱うことができる。例えば説明変数に曜日が含まれている場合、距離計算部23は、式13に基づいて、距離dtを算出する。要求点の曜日と探索点の曜日とが互いに同じ曜日である場合、距離計算部23は、距離dtとして0を算出する。一方、要求点の曜日と探索点の曜日とが互いに異なる曜日である場合、距離計算部23は、距離dtとして1を算出する。この後、距離計算部23は、前述したように、類似日を抽出する。
【0101】
===類似日抽出装置の動作===
以下、
図15を参照して、本実施形態における類似日抽出装置の動作について説明する。
図15は、本実施形態における類似日抽出装置の動作を示すフローチャートである。
【0102】
メモリ33(
図2)に記憶されているプログラムを実行することにより、CPU31による類似日抽出装置2の統括制御が開始されたところから説明する。
【0103】
類似日抽出装置2は、入力データを受け付ける(ステップSt11)。類似日抽出装置2は、時刻別の学習データを作成(ステップSt12)する。類似日抽出装置2は、例えば2時、14時、20時等の各時刻の第1変数重要度を全て算出したか否かを判断する(ステップSt13)。例えば、各時刻のうちの第1変数重要度を算出していない時刻があると判断した場合(ステップSt13のNO)、類似日抽出装置2は、第1変数重要度が算出されていない時刻の学習データについて木の成長を行う(ステップSt14)。類似日抽出装置2は、木の剪定及び最良木の選択(ステップSt15)を行い、第1変数重要度を算出した後(ステップSt16)、ステップSt13の判断を再度行う。
【0104】
ステップSt13の判断において、各時刻の第1変数重要度を全て算出したと判断した場合(ステップSt13のYES)、類似日抽出装置2は、第2変数重要度を算出する(ステップSt17)。類似日抽出装置2は、距離を算出した後(ステップSt18)、類似日を抽出して(ステップSt19)、動作を終了する。
【0105】
===第2変数重要度の算出方法の違いによる類似日の違い===
以下、
図16乃至
図18を参照して、本実施形態における第2変数重要度の算出方法の違いによる類似日の違いについて説明する。
図16は、予測対象日の需要及び類似日の需要を示す図である。
図17は、本実施形態における類似日抽出装置を用いて抽出された類似日の需要及び予測対象日の需要を示す図である。
図16及び
図17は、要因分析結果の統合方法の違いによるシミュレーション等の結果の一例を示している。
図16及び
図17においては、評価対象データをある大口需要家の需要について、評価期間を2012年7月1日〜2012年7月7日として一週間の評価を行った結果が示されている。
図16及び
図17においては、要求データ数を5として予測対象日に対して類似日が5日分(5点)抽出された結果が示されている。
図18は、類似日の需要の誤差を示す図である。
【0106】
図16の点線は、式11の重みw(i)が全て1とされたときの第2変数重要度に基づいて抽出された類似日の需要を示している。つまり、この点線は、需要の変動が考慮されずに、平均を用いて算出された第2変数重要度に基づいて抽出された類似日の需要を示している。
【0107】
図17の点線は、類似日抽出装置2によって抽出された類似日の需要を示している。つまり、この点線は、需要の変動が考慮された上で、重み付け平均を用いて算出された第2変数重要度に基づいて抽出された類似日の需要を示している。尚、
図16及び
図17の実線は、予測対象日の需要を示している。
【0108】
図17の類似日の需要の値のほうが、
図16の類似日の需要の値よりも、予測対象日の需要の値に近い値となっている。従って、
図16及び
図17においては、重み付け平均を用いて算出された第2変数重要度に基づいて類似日を抽出することにより、予測対象日の需要により類似した需要の類似日を抽出できることが示されている。又、
図18においては、例えば、重み付け平均を用いて第2変数重要度を算出することにより、平均を用いて第2変数重要度を算出したときに比べて、絶対平均誤差(類似日の抽出精度)が0.98(%)改善し、標準偏差が0.59(%)改善していることが示されている。つまり、類似日の抽出精度が向上していることが示されている。
【0109】
===類似日抽出装置によって抽出された類似日の精度===
以下、
図19を参照して、本実施形態における類似日抽出装置によって抽出された類似日の精度について説明する。
図19は、本実施形態における類似日抽出装置によって抽出された類似日の精度を示す図である。尚、
図19においては、類似日抽出装置2によって抽出された類似日の需要の絶対平均誤差と、他の装置によって抽出された類似日の需要の絶対平均誤差とが示されている。類似日の需要の絶対平均誤差は、予測対象日の需要に対する類似日の需要の誤差を示している。他の装置とは、例えば、特開2011−114944号公報に記載されている発明に対応する装置であり、曜日及び気温が要因データとして決められており、且つ、第2変数重要度を考慮せずに類似日を抽出する装置であることとする。
【0110】
図19においては、評価対象データをある一般需要家の需要について、評価期間を2012年7月1日〜2012年9月30日として3ヶ月間の評価を行った結果が示されている。
図19においては、要求点数を3として予測対象日に対して類似日が3日分(3点)抽出された結果が示されている。
図19においては、類似日抽出装置2を用いて類似日を抽出することにより、他の装置を用いて類似日を抽出したときに比べて、絶対平均誤差(類似日の抽出精度)において1.26(%)改善していることが示されている。つまり、類似日の抽出精度が向上していることが示されている。
【0111】
===予測対象日と第2変数重要度との関係===
以下、
図20及び
図21を参照して、本実施形態における予測対象日と第2変数重要度との関係について説明する。
図20は、本実施形態における予測対象日と第2変数重要度との関係を示す図である。
図21は、本実施形態における要因としての説明変数の一例を示す図である。尚、予測前日とは予測対象日の前日を示しており、予測当日とは予測対象日を示しており、予測翌日とは予測対象日の翌日を示している。
【0112】
図20においては、要因分析部22による第2変数重要度の算出の際に、
図21に示されている112個の変数が用いられたときの当該112個の変数のうちの最高気温(予測日当日)、最低気温(予測日当日)及び休日フラグの第2変数重要度が示されている。尚、
図20に示されている最高気温(予測日当日)、最低気温(予測日当日)及び休日フラグは、例えば、前述の他の装置での要因データに対応する項目となっている。
図20においては、予測対象期間中は、休日フラグ(予測当日)が予測対象に対して常に重要な要因となり、最高気温(予測当日)、最低気温(予測当日)については夫々、予測対象期間中に第2変数重要度が変動していることが示されている。又、例えば、予測対象日が夏の期間である場合における最高気温の第2変数重要度(
図20)は、予測対象日が冬の期間である場合における最高気温の第2変数重要度(不図示)よりも値が大きくなる。又、例えば、予測対象日が冬の期間である場合における最低気温の第2変数重要度(不図示)は、予測対象日が夏の期間である場合における最低気温の第2変数重要度(
図2)よりも値が大きくなる。
【0113】
図16乃至
図21に示されるように、類似日抽出装置2による第2変数重要度の統合方法として時刻毎の特徴量としての例えば幅W21乃至W23を重みとして用いることで、過去の需要としての予測対象時系列データの時刻毎の特徴が類似日の抽出に反映されることになる。又、例えば気温と需要との関係等を示す非線形データに対して要因分析を行いその結果としての第2変数重要度を利用することで、自動的に適切な類似日を抽出することが可能となる。
【0114】
類似日抽出装置2は、非線形な時系列データに対してデータベースとしての記憶装置24(
図3)から自動的に類似日を抽出することができる。前述の他の装置を含む従来の装置は、要因の所定の条件に基づいた類似日抽出ルールを用いているために、予測対象の傾向が複雑に変化する問題に対応できなかった。又、予測対象の各要因を考慮した従来の類似日抽出方法は、統計学に基づいた線形問題に有効な手法の結果を用いており、予測対象である時系列データの特徴が考慮されていないため、非線形問題に適していなかった。一方、類似日抽出装置2では、非線形問題に対応したCARTアルゴリズムを用いた第1変数重要度を各時刻において算出し、予測対象データの各時刻の変動傾向を用いて1日における第2変数重要度に統合することで、予測対象の要因分析を量的に明確することができる。そして、この類似日抽出装置2は、予測対象日と過去日との距離を変数重要度と各要因データを用いて算出することで、予測対象との距離を明確にし、自動的に類似日を抽出することができる。
【0115】
[第2実施形態]
===類似日抽出装置===
本実施形態における類似日抽出装置2B(
図3)は、第1実施形態における類似日抽出装置2において、要因分析部22を要因分析部22Bに変更したものである。類似日抽出装置2Bにおける要因分析部22B以外の構成は、類似日抽出装置2の構成と同様である。
【0116】
以下、
図3、
図12乃至
図14を参照して、本実施形態における類似日抽出装置について説明する。
【0117】
類似日抽出装置2Bは、要因分析部22Bを有する。要因分析部22Bは、学習データを作成し、当該学習データに基づいて木の成長、木の剪定及び最良木の選択を行うことにより第1変数重要度を算出した後、第2変数重要度を算出する。要因分析部22Bにおける第1変数重要度に基づいて第2変数重要度を算出する構成以外の構成については、要因分析部22(第1実施形態)の構成と同様であるので、要因分析部22Bにおける第1変数重要度に基づいて第2変数重要度を算出する構成についてのみ説明し、要因分析部22Bにおける第1変数重要度に基づいて第2変数重要度を算出する構成以外の構成についてはその説明を省略する。
【0118】
要因分析部22Bは、正規化された学習データ(
図13)において、標準偏差を重みとして算出する。第2変数重要度においては、第1変数重要度と同様に、統合値が最大となる要因(変数)の第2変数重要度を100(%)として、すべての要因の第2変数重要度を算出する。要因分析部22Bは、式11に基づいて第2変数重要度を算出するための統合値を変数毎に算出する。
【0119】
式11の重みw(i)においては、要因分析部22Bは、学習データから時刻毎の需要の平均値を算出し、時刻毎に学習データを正規化する。この後、要因分析部22Bは、正規化された学習データから時刻毎の需要の標準偏差を算出する。そして、要因分析部22Bは、最も標準偏差が大きい時刻の標準偏差が1となるように全ての標準偏差を正規化する。
【0120】
=第2変数重要度の算出の例=
例えば、予め定められた時刻が2時、14時、20時であり、需要要因としての各変数が第1変数x1、第2変数x2、第3変数x3、第4変数x4の4個設けられている場合について説明する。第1変数x1、第2変数x2は夫々、前述したように、最高気温、最低気温に対応する。第3変数x3、第4変数x4は夫々、学習データD3(
図8)の平均気温、曜日に対応していることとする。
【0121】
<重みの算出>
要因分析部22Bは、学習データに基づいて2時、14時、20時夫々の重みw(1)、w(2)、w(3)を算出する。具体的には、要因分析部22Bは、学習データ(
図12)の各時刻における需要の平均値を算出し、当該平均値を基準に各時刻の学習データを正規化する(
図13)。この後、要因分析部22Bは、正規化された学習データにおいて各時刻の正規化された学習データの需要の標準偏差を算出する。
【0122】
要因分析部22Bは、2時、14時、20時夫々の正規化された学習データの需要の標準偏差を算出する。尚、2時の標準偏差を標準偏差σ21とし、14時の標準偏差を標準偏差σ22とし、20時の標準偏差を標準偏差σ23とする。例えば、標準偏差σ21乃至σ23のうち標準偏差σ22が最大で、標準偏差σ21が最小となっていることとする。この後、要因分析部22Bは、標準偏差σ21乃至標準偏差σ23のうちの最大の標準偏差σ22が1となるように、標準偏差σ21乃至標準偏差σ23を正規化する。要因分析部22Bは、正規化された標準偏差σ21、正規化された標準偏差σ22、正規化された標準偏差σ23を夫々、重みw(1)、w(2)、w(3)とする。例えば、重みw(1)、w(2)、w(3)は夫々、0.6、1、0.8となる。
【0123】
<統合値の算出>
要因分析部22Bは、式11に基づいて、第1変数x1の統合値、第2変数x2の統合値、第3変数x3の統合値、第4変数x4の統合値を算出する。要因分析22Bは、統合値に基づいて、第1変数x1乃至第4変数x4夫々の第2変数重要度を算出する(
図14)。要因分析部22Bは、第1変数x1乃至第4変数x4夫々の第2変数重要度を例えば、68(%)、41(%)、69(%)、100(%)と算出する。
【0124】
前述したように、類似日抽出装置2は、要因分析部22、距離計算部23、記憶装置24を有する。記憶装置24には、第1情報としての複数の要因の実績値を示すデータと、第2情報としての複数の要因の予測値を示すデータとが記憶されている。尚、複数の要因は、予測対象日の需要(第1予測対象量)に影響を与えると推定される例えば気温、湿度等の要因を示している。記憶装置24には、更に、第3情報としての過去日の需要(第2予測対象量)の実績値を示すデータが記憶されている。要因分析部22は、複数の要因の実績値を示すデータと過去日の需要の実績値を示すデータとを含む学習データに基づいて、要因分析により第2変数重要度を算出する。尚、第2変数重要度は、一日における複数の要因夫々が予測対象日の需要に影響を与えると推定される影響度合いを示している。距離計算部23は、複数の要因の実績値を示すデータ及び複数の要因の予測値を示すデータと、要因分析部22の演算結果とに基づいて、複数の過去日のうちの需要が予測対象日の需要に類似すると推定される日を類似日と決定する。これらの構成により、複数の要因夫々の第2変数重要度が類似日の決定(抽出)に反映される。つまり、類似日抽出装置2は、複数の要因夫々が予測対象日の需要に影響を与えると推定される影響度合いを考慮して、類似日を抽出することができる。従って、類似日抽出装置2においては、類似日の抽出精度を向上させることができる。
【0125】
又、距離計算部23は、複数の要因の実績値を示すデータと予測対象日に応じた日における複数の要因の予測値を示すデータとの差分に応じた値(式14の距離dt)と、要因分析部22の演算結果としての第2変数重要度に応じた値(式14の寄与率ctの平方根)との積に基づいて類似日を決定する。距離計算部23は、複数の過去日と予測対象日の類似度を評価し、その類似度が最も高い日を類似日として抽出する。つまり、距離計算部23は、距離D
contributionが最短となる過去日を類似日として抽出する。これらの構成により、類似日抽出装置2は、距離dtと第2変数重要度に対応する寄与率ctの平方根との積に応じた距離D
contributionに基づいて、類似日を抽出することができる。例えば、類似日抽出装置2は、複数の過去日夫々について距離D
contributionを算出し、距離D
contributionの値の大きさに応じて、類似日を確実に抽出することができる。従って、第2変数重要度が反映さされた距離D
contributionに基づいて類似日を抽出することにより、類似日抽出装置2は、類似日の抽出精度を向上させることができる。
【0126】
又、要因分析部22は、一日を所定時間毎に分割した各時刻(各時間帯)の学習データに基づいて、第1変数重要度を算出する。尚、第1変数重要度は、各時刻における複数の要因夫々が予測対象日の需要に与えると推定される影響度合いを示している。要因分析部22は、過去日の需要の実績値の一日における変動値と、各時刻の第1変数重要度とに基づいて、第2変数重要度を算出する。距離計算部23は、要因分析部22によって算出された第2変数重要度に基づいて類似日を決定する。これらの構成により、過去日の需要の実績値の一日における変動値が、複数の要因の影響度合いと共に第2変数重要度に反映されることになる。よって、類似日抽出装置2は、複数の要因の影響度合いと過去日の需要の実績値の一日における変動との双方を考慮した上で、類似日を抽出することが可能となる。従って、類似日抽出装置2は、類似日の抽出精度を更に向上させることができる。
【0127】
又、要因分析部22は、過去日の需要の実績値の一日における変動として、各時刻における複数の過去日分の需要の幅W11乃至W13(
図12)に応じた値(式11のw(i))と、各時刻の第1変数重要度(式11のvi(i))との積に基づいて第2変数重要度を算出する。この構成により、複数の過去日分の需要の特徴としての需要の各時刻での最大値及び最小値との差分に応じた値が、第1変数重要度と共に第2変数重要度に反映されることになる。従って、類似日抽出装置2は、予測対象日の需要と相関している複数の過去日分の需要の特徴を考慮することにより、類似日の抽出精度を向上させることができる。
【0128】
又、要因分析部22B(第2実施形態)は、各時刻の学習データの需要の標準偏差に応じた値(式11のw(i))と、各時刻の第1変数重要度(式11のvi(i))との積に基づいて第2変数重要度を算出する。この構成により、複数の過去日分の需要の特徴としての需要の標準偏差に応じた値が、第1変数重要度と共に第2変数重要度に反映されることになる。従って、類似日抽出装置2Bは、予測対象日の需要と相関している複数の過去日分の需要の特徴を考慮することにより、類似日の抽出精度を向上させることができる。
【0129】
又、要因分析部22は、決定木のCART(Classification And Regression Tree)アルゴリズムを学習データに適用して、各時刻の第1変数重要度を算出する。この構成により、要因分析部22は、学習データの特徴が反映されるように当該学習データを分岐させることにより、第1変数重要度を算出する。従って、類似日抽出装置2は、学習データに含まれている過去日における複数の要因と需要との関係の特徴が反映されるように第1変数重要度を算出することにより、類似日の抽出精度を向上させることができる。
【0130】
===まとめ===
類似日抽出装置2、2B(
図22)は、記憶装置24と、演算装置220と、決定装置230を有している。記憶装置24には、予測対象日の第1予測対象量に影響を与えると推定される複数の要因の実績値を示す第1情報と、複数の要因の予測値を示す第2情報と、過去日の第2予測対象量の実績値を示す第3情報とが記憶される。演算装置220は、複数の要因夫々が第1予測対象量に与えると推定される影響度合いを、第1及び第3情報に基づいて、要因分析により算出する。決定装置230は、第1及び第2情報と、演算装置220の演算結果とに基づいて、複数の過去日のうちの第2予測対象量が第1予測対象量に類似すると推定される日を類似日と決定する。尚、演算装置220は、例えば、要因分析部22、22B(
図3)の機能に対応している。又、決定装置230は、距離計算部23の機能に対応している。
【0131】
尚、上記第1及び第2実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく、変更、改良され得るとともに、本発明にはその等価物も含まれる。
【0132】
尚、第1実施形態においては、要因分析部22が交差検証法を用いて決定木の誤差を推定して最良木の選択を行うことについて説明したが、これに限定されるものではない。例えば、学習データを、モデルを構築するための第1データと当該モデルの精度を推定するための第2データとに分けて、モデルの精度を推定するための第2データに基づいて決定木の誤差を推定して最良木の選択を行うこととしてもよい。つまり、いわゆるテストサンプル法を用いて決定木の誤差を推定して最良木の選択を行うこととしてもよい。
【0133】
又、第1実施形態においては、要因分析部22が重みw(i)を用いた重み付け平均(式11)に基づいて第2変数重要度を算出することについて説明したが、これに限定されるものではない。例えば、重みw(i)の値を「1」として平均に基づいて第2変数重要度を算出することとしてもよい。この場合、第2変数重要度を算出するための演算量を減少させることにより、類似日抽出装置2が類似日を抽出するための演算時間を短縮することが可能となる。
【0134】
又、第1実施形態においては、要因分析部22が第1及び第2変数重要度、重みw(i)を算出することについて説明したが、これに限定されるものではない。例えば、第1変数重要度を示す情報が入力装置35(
図2)から入力され、要因分析部22がこの入力された情報に基づいて第2変数重要度を算出することとしてもよい。又、例えば、重みw(i)を示す情報が入力装置35(
図2)から入力され、要因分析部22がこの入力された情報に基づいて第2変数重要度を算出することとしてもよい。又、例えば、第2変数重要度を示す情報が入力装置35から入力されて、距離計算部23がこの入力された情報に基づいて類似日を抽出することとしてもよい。
【0135】
以上の実施例では、予測対象を電力需要量としたが、それに限られるものではない。本発明は、気象によって変動する予測対象であれば、実施可能である。例えば、ダムを用いた水力発電の発電量や、風力発電量や、太陽光発電量に対しても、類似日を求めることができる。つまり、例えば、予測対象(予測対象量)が電力需要量以外の、水力発電の発電量、風力発電量、太陽光発電量夫々であることとして、類似日抽出装置2が水力発電の発電量、風力発電量、太陽光発電量夫々についての類似日を抽出することとしてもよい。