特許6384065 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許6384065情報処理装置、学習方法、及び、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6384065

(24)【登録日】2018年8月17日

(45)【発行日】2018年9月5日

(54)【発明の名称】情報処理装置、学習方法、及び、プログラム

(51)【国際特許分類】

G06N 3/04 20060101AFI20180827BHJP

G06N 3/08 20060101ALI20180827BHJP

【ＦＩ】

G06N3/04 154

G06N3/08

【請求項の数】10

【全頁数】17

(21)【出願番号】特願2014-41228(P2014-41228)

(22)【出願日】2014年3月4日

(65)【公開番号】特開2015-166962(P2015-166962A)

(43)【公開日】2015年9月24日

【審査請求日】2017年2月15日

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100109313

【弁理士】

【氏名又は名称】机昌彦

(74)【代理人】

【識別番号】100124154

【弁理士】

【氏名又は名称】下坂直樹

(72)【発明者】

【氏名】加藤京子

【審査官】多賀実

(56)【参考文献】

【文献】特開２００２−１０９１５０（ＪＰ，Ａ）

【文献】特開２００７−２８００３１（ＪＰ，Ａ）

【文献】特開平０９−０１６５５５（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１０／０１８５６５９（ＵＳ，Ａ１）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｎ３／０２−３／１０

(57)【特許請求の範囲】

【請求項1】

予測対象種別、及び、前記予測対象種別に影響する可能性がある他の種別の内の少なくとも一方のデータ値の時系列を取得するデータ取得手段と、
前記データ値の時系列を要素として含む集合が分割して入力される第１及び第２のニューラルネットワーク、及び、前記第１及び第２のニューラルネットワークの出力の内積を入力として、予測対象時刻における前記予測対象種別のデータ値の予測値を出力する第３のニューラルネットワーク、を含む予測モデルの学習を行う、予測モデル学習手段と、
を備えた情報処理装置。

【請求項2】

さらに、
入力層、及び、出力層から構成される、前記集合が分割して入力される第４及び第５のニューラルネットワーク、及び、前記第４及び第５のニューラルネットワークの出力の内積を入力として、前記予測対象時刻における前記予測対象種別のデータ値の予測値を出力する第６のニューラルネットワーク、を含む解析モデルの学習を行う、解析モデル学習手段と、
前記第４及び第５のニューラルネットワークを基に、前記集合に含まれる各要素の重みを算出し、出力する、重み解析手段と、
を備えた、請求項１に記載の情報処理装置。

【請求項3】

前記重み解析手段は、前記解析モデルの学習により算出される、前記第４及び第５のニューラルネットワークの各々における、入力層の各要素と出力層の各要素間の重みをもとに、前記集合に含まれる各要素の重みを算出する、
請求項２に記載の情報処理装置。

【請求項4】

前記重み解析手段は、前記解析モデルの学習により算出される、前記第４及び第５のニューラルネットワークの各々における、入力層の各要素と出力層の各要素間の重みをもとに、前記集合に含まれる要素の内の、前記第４のニューラルネットワークに入力される各要素と前記第５のニューラルネットワークに入力される各要素とのペアの重みを算出し、当該ペアの重みをもとに、前記集合に含まれる各要素の重みを算出する、
請求項３に記載の情報処理装置。

【請求項5】

前記集合は、前記予測対象時刻を基準とした所定時刻におけるデータ値を要素として含む、
請求項１乃至４のいずれかに記載の情報処理装置。

【請求項6】

予測対象種別、及び、前記予測対象種別に影響する可能性がある他の種別の内の少なくとも一方のデータ値の時系列を取得し、
前記データ値の時系列を要素として含む集合が分割して入力される第１及び第２のニューラルネットワーク、及び、前記第１及び第２のニューラルネットワークの出力の内積を入力として、予測対象時刻における前記予測対象種別のデータ値の予測値を出力する第３のニューラルネットワーク、を含む予測モデルの学習を行う、
学習方法。

【請求項7】

さらに、
入力層、及び、出力層から構成される、前記集合が分割して入力される第４及び第５のニューラルネットワーク、及び、前記第４及び第５のニューラルネットワークの出力の内積を入力として、前記予測対象時刻における前記予測対象種別のデータ値の予測値を出力する第６のニューラルネットワーク、を含む解析モデルの学習を行い、
前記第４及び第５のニューラルネットワークを基に、前記集合に含まれる各要素の重みを算出し、出力する、
請求項６に記載の学習方法。

【請求項8】

前記集合に含まれる各要素の重みを算出する場合、前記解析モデルの学習により算出される、前記第４及び第５のニューラルネットワークの各々における、入力層の各要素と出力層の各要素間の重みをもとに、前記集合に含まれる各要素の重みを算出する、
請求項７に記載の学習方法。

【請求項9】

コンピュータに、
予測対象種別、及び、前記予測対象種別に影響する可能性がある他の種別の内の少なくとも一方のデータ値の時系列を取得し、
前記データ値の時系列を要素として含む集合が分割して入力される第１及び第２のニューラルネットワーク、及び、前記第１及び第２のニューラルネットワークの出力の内積を入力として、予測対象時刻における前記予測対象種別のデータ値の予測値を出力する第３のニューラルネットワーク、を含む予測モデルの学習を行う、
処理を実行させるプログラム。

【請求項10】

さらに、
入力層、及び、出力層から構成される、前記集合が分割して入力される第４及び第５のニューラルネットワーク、及び、前記第４及び第５のニューラルネットワークの出力の内積を入力として、前記予測対象時刻における前記予測対象種別のデータ値の予測値を出力する第６のニューラルネットワーク、を含む解析モデルの学習を行い、
前記第４及び第５のニューラルネットワークを基に、前記集合に含まれる各要素の重みを算出し、出力する、
処理を実行させる請求項９に記載のプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、学習方法、及び、プログラムに関し、特に、時系列データの予測を行う情報処理装置、学習方法、及び、プログラムに関する。

【背景技術】

【0002】

ＩＴ（Information Technology）の進化、普及に伴い、多くの情報が電子データとして蓄積されつつある。また、近年、安価に大量の計算機リソースを利用できるようになり、大量のデータを活用する環境が整ってきた。このような状況の中で、蓄積された情報を分析することで意思決定に活用することが求められている。例えば、商品や電力の需要予測、気象予測など、広範囲の分野で、時系列データを用いた予測（時系列予測）が行われている。時系列予測には、重回帰分析、ニューラルネットワークなど様々な手法があるが、階層型ニューラルネットワークはノイズ除去に優れ、周期性を持つデータの予測に使用されることが多い。

【0003】

このような階層型ニューラルネットワークを用いて時系列予測を行う方法が、例えば、特許文献１に開示されている。

【0004】

なお、関連技術として、非特許文献１には、教師ありの機械学習アルゴリズムの一手法である、ＳＳＩ（Supervised Semantic Indexing）が開示されている。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２００２−１０９１５０号公報

【非特許文献】

【0006】

【非特許文献1】Bing Bai, et al, "Supervised Semantic Indexing", Conference: International Conference on Information and Knowledge Management - CIKM, pp.761-765, 2009

【発明の概要】

【発明が解決しようとする課題】

【0007】

ニューラルネットワークを用いた時系列データの予測においては、予測対象毎に、入力パラメータを適切に選択する必要がある。入力パラメータとしては、予測対象のデータの実測値をそのまま使うだけでなく、それを加工した値を用いることもできる。例えば、実測値から算出した差分や、平均、標準偏差、あるいは、日時情報をもとにフラグ化された曜日、休日等も、入力パラメータとして用いることができる。また、対象地域の気象データ等、予測対象に影響を与えるデータも入力パラメータとして用いることができる。

【0008】

このように、予測を行うための入力パラメータは無数に考えられる。このため、ニューラルネットワークの予測精度を向上させるためには、ユーザは、学習と予測を繰り返し、その結果を考察しながら、膨大な数のパラメータの中から、入力として用いるパラメータの選択を行うといった、試行錯誤を重ねる必要がある。したがって、最適な予測モデルを得るまでには非常に多くの時間を要する。

【0009】

本発明の目的は、上述した課題を解決し、ニューラルネットワークを用いた時系列データの予測モデルを短時間で生成できる、情報処理装置、学習方法、及び、プログラムを提供することである。

【課題を解決するための手段】

【0010】

本発明の情報処理装置は、予測対象種別、及び、前記予測対象種別に影響する可能性がある他の種別の内の少なくとも一方のデータ値の時系列を取得するデータ取得手段と、前記データ値の時系列を要素として含む集合が分割して入力される第１及び第２のニューラルネットワーク、及び、前記第１及び第２のニューラルネットワークの出力の内積を入力として、予測対象時刻における前記予測対象種別のデータ値の予測値を出力する第３のニューラルネットワーク、を含む予測モデルの学習を行う、予測モデル学習手段と、を備える。

【0011】

本発明の学習方法は、予測対象種別、及び、前記予測対象種別に影響する可能性がある他の種別の内の少なくとも一方のデータ値の時系列を取得し、前記データ値の時系列を要素として含む集合が分割して入力される第１及び第２のニューラルネットワーク、及び、前記第１及び第２のニューラルネットワークの出力の内積を入力として、前記予測対象時刻における前記予定対象種別のデータ値の予測値を出力する第３のニューラルネットワーク、を含む予測モデルの学習を行う。

【0012】

本発明のプログラムは、コンピュータに、予測対象種別、及び、前記予測対象種別に影響する可能性がある他の種別の内の少なくとも一方のデータ値の時系列を取得し、前記データ値の時系列を要素として含む集合が分割して入力される第１及び第２のニューラルネットワーク、及び、前記第１及び第２のニューラルネットワークの出力の内積を入力として、前記予測対象時刻における前記予定対象種別のデータ値の予測値を出力する第３のニューラルネットワーク、を含む予測モデルの学習を行う、処理を実行させる。

【発明の効果】

【0013】

本発明の効果は、ニューラルネットワークを用いた時系列データの予測モデルを短時間で生成できることである。

【図面の簡単な説明】

【0014】

【図1】本発明の第１の実施の形態の特徴的な構成を示すブロック図である。

【図2】本発明の第１の実施の形態における、学習装置１００の構成を示すブロック図である。

【図3】本発明の第１の実施の形態における、予測モデルの例を示す図である。

【図4】本発明の第１の実施の形態における、学習用データのデータセットの例を示す図である。

【図5】本発明の第１の実施の形態における、学習用データと予測用データの例を示す図である

【図6】本発明の第１の実施の形態における、学習処理を示すフローチャートである。

【図7】本発明の第１の実施の形態における、予測処理を示すフローチャートである。

【図8】本発明の第２の実施の形態における、学習装置１００の構成を示すブロック図である。

【図9】本発明の第２の実施の形態における、解析モデルの例を示す図である。

【図10】本発明の第２の実施の形態における、学習処理を示すフローチャートである。

【図11】本発明の第２の実施の形態における、解析処理を示すフローチャートである。

【図12】本発明の第２の実施の形態における、重みの算出方法を示す図である。

【図13】本発明の第２の実施の形態における、各要素ペアの重みの算出例を示す図である。

【図14】本発明の第２の実施の形態における、各要素の重みの算出例を示す図である。

【発明を実施するための形態】

【0015】

（第１の実施の形態）
本発明の第１の実施の形態について説明する。

【0016】

はじめに、本発明の第１の実施の形態における予測モデルについて説明する。

【0017】

本発明の第１の実施の形態では、予測モデルとして、非特許文献１に記載されているＳＳＩを用いる。ＳＳＩは、文書やＷｅｂページ等のテキスト集合間の類似度の算出のために考えられた手法であり、２つの入力データ群から最適な出力を学習する機械学習アルゴリズムである。本発明の第１の実施の形態では、ＳＳＩの内部の学習モデルに階層型ニューラルネットワークを適用して、ディープラーニングを行う。

【0018】

図３は、本発明の第１の実施の形態における、予測モデルの例を示す図である。

【0019】

本発明の第１の実施の形態における予測モデルは、図３に示すように３つのニューラルネットワーク（Ｘネットワーク、Ｙネットワーク、及び、Ｚネットワーク）により構成される。これらの３つのニューラルネットワークの各々は、入力層、１以上の中間層、及び、出力層により構成される、３層以上の階層ニューラルネットワークである。なお、これらのニューラルネットワークは、中間層を省いた、２層のニューラルネットワークでもよい。

【0020】

Ｘネットワーク、Ｙネットワークには、予測モデルの入力として、Ｘベクトル、Ｙベクトルが、それぞれ入力される。また、Ｚネットワークには、Ｘネットワークの出力ベクトルとＹネットワークの出力ベクトルの内積（コサイン類似度）が入力される。Ｚネットワークは、予測モデルの出力（output）である、予測値を出力する。

【0021】

予測モデルの入力であるＸベクトルとＹベクトルの要素は、ＸベクトルとＹベクトルとの要素の間で相関を有するように設定されることが望ましい。

【0022】

本発明の第１の実施の形態では、予測の対象とする種別（予測対象種別）のデータ値、及び、予測対象種別に影響を与える可能性がある他の種別の内の少なくとも一方のデータ値の時系列を用いて、予測対象種別のデータ値を予測する。

【0023】

予測モデルのＸベクトルとＹベクトルには、予測対象種別、及び、他の種別の内の少なくとも一方のデータ値の時系列を要素として含む集合が分割して設定される。ここで、集合には、予測対象時刻を基準とした所定の時刻におけるデータ値が、要素として設定される。そして、Ｚネットワークの出力として、予測の対象とする時刻（予測対象時刻）における、予測対象種別のデータ値の予測値が出力される。

【0024】

例えば、予測対象種別が消費電力、予測対象時刻が１時間後の場合、すなわち、１時間後の消費電力の値を予測する場合を考える。ここで、予測対象種別に影響を与える可能性がある他の種別として、休日フラグ（平日か休日かを示すフラグ）を用いると仮定する。この場合、予測モデルのＸベクトルとＹベクトルには、例えば、現在以前の時刻における電力の実測値と、１時間後以前の時刻における休日フラグの値と、の集合が分割して設定される。例えば、Ｘベクトルの要素には、電力の過去の実測値（１時間前の実測値、２時間前の実測値、…、Ｎ時間前の実測値）が設定される。また、Ｙベクトルの要素には、電力の現在の実測値と、予測対象時刻における休日フラグの値が設定される。なお、他の種別として、予測対象時刻以前や以降の各時刻における天気や気温等、休日フラグ以外の種別が設定されてもよい。

【0025】

また、他の種別のデータ値として、予測対象種別の実測値の１時間前の実測値との差分や、任意の範囲の実測値の移動平均、標準偏差、最小値、最大値、中央値等が用いられてもよい。また、これらを組み合わせた値が用いられてもよい。

【0026】

なお、Ｘベクトル及びＹベクトルの各要素の値には、０〜１の範囲で正規化された値が用いられる。

【0027】

次に、本発明の第１の実施の形態の構成を説明する。

【0028】

図２は、本発明の第１の実施の形態における、学習装置１００の構成を示すブロック図である。学習装置１００は、本発明の情報処理装置の一実施形態である。図２を参照すると、本発明の第１の実施の形態における学習装置１００は、処理受付部１１０、学習部１２０、予測部１３０、及び、予測モデル記憶部１４０を含む。

【0029】

処理受付部１１０は、ユーザから学習処理、予測処理の要求を受け付け、結果をユーザへ返却する。処理受付部１１０は、データ取得部１１１を含む。データ取得部１１１は、ユーザから、学習用データ、及び、予測用データを取得する。データ取得部１１１は、学習用データ、及び、予測用データを、他の装置や、記憶部（図示せず）から取得してもよい。

【0030】

図４は、本発明の第１の実施の形態における、学習用データのデータセットの例を示す図である。

【0031】

学習用データは、予測モデルの入力であるＸベクトルとＹベクトル、及び、予測値の正解値（target）の組（データセット）を、学習期間分含むデータである。

【0032】

図４は、上述の消費電力予測における学習用データのデータセットの例である。図４の例では、Ｘベクトルとして、消費電力の過去の実測値、Ｙベクトルとして、消費電力の現在の実測値と予測対象時刻の休日フラグ、及び、正解値（target）として、消費電力の予測対象時刻の実測値が設定されている。

【0033】

予測用データは、予測モデルの入力であるＸベクトルとＹベクトルの組（データセット）を、学習期間とは異なる、予測期間分含むデータである。なお、予測用データのデータセットも、予測値の正解値を含んでいてもよい。この場合、正解値は、予測した値との誤差率の算出のために用いられる。

【0034】

図５は、本発明の第１の実施の形態における、学習用データと予測用データの例を示す図である。

【0035】

図５の例では、学習期間「2013/02/01 00:00〜2013/02/21 23:00」、予測期間「2013/02/22 00:00〜2013/02/28 23:00」について、１時間毎のデータセットが用いられている。

【0036】

なお、データ取得部１１１は、予測対象種別のデータ値や、他の種別のデータ値の時系列をもとに、図５のような形式の学習データ、及び、予測データを生成してもよい。

【0037】

学習部１２０は、予測モデル学習部１２１を含む。予測モデル学習部１２１は、学習用データを基に、予測モデルの学習（生成、及び、最適化）を行う。

【0038】

予測部１３０は、予測用データと予測モデルを用いて、予測対象時刻における、予測対象種別のデータ値の予測を行う。

【0039】

予測モデル記憶部１４０は、予測モデル学習部１２１により生成された予測モデルを記憶する。

【0040】

なお、学習装置１００は、ＣＰＵ（Central Processing Unit）とプログラムを記憶した記憶媒体を含み、プログラムに基づく制御によって動作するコンピュータであってもよい。この場合、学習装置１００のＣＰＵが、処理受付部１１０、学習部１２０、及び、予測部１３０の機能を実現するためのコンピュータプログラムを実行する。また、学習装置１００の記憶媒体は、予測モデル記憶部１４０の情報を記憶する。

【0041】

次に、本発明の第１の実施の形態における学習装置１００の動作について説明する。学習装置１００の動作は、学習処理、及び、予測処理に分かれる。

【0042】

はじめに、本発明の第１の実施の形態における、学習処理を説明する。

【0043】

図６は、本発明の第１の実施の形態における、学習処理を示すフローチャートである。

【0044】

はじめに、学習部１２０は、処理受付部１１０を介して、ユーザから学習処理の要求を受け付ける。学習部１２０は、データ取得部１１１から、学習用データを取得する。

【0045】

学習部１２０の予測モデル学習部１２１は、初期予測モデルを生成する（ステップＳ１０１）。初期予測モデルにおける、各ニューラルネットワーク（Ｘネットワーク、Ｙネットワーク、Ｚネットワーク）内の重みは、例えば、ランダムに設定される。なお、初期予測モデルの重みには、所定の初期値が設定されてもよい。

【0046】

予測モデル学習部１２１は、学習用データから、ランダムにデータセット（Ｘベクトル、Ｙベクトル、及び、正解値（target））を抽出する（ステップＳ１０２）。

【0047】

予測モデル学習部１２１は、抽出したデータセットのＸベクトル、Ｙベクトルを予測モデルに入力して（ステップＳ１０３）、出力値（output）を算出する（ステップＳ１０４）。

【0048】

予測モデル学習部１２１は、出力値（output）と正解値（target）の誤差を算出する（ステップＳ１０５）。

【0049】

予測モデル学習部１２１は、算出された誤差を基に、各ニューラルネットワーク（Ｘネットワーク、Ｙネットワーク、Ｚネットワーク）の重みを修正する（ステップＳ１０６）。ここで、予測モデル学習部１２１は、図３のように、Ｚネットワーク内の誤差伝搬（バックプロパゲーション）により、Ｚネットワークの重みを修正する。そして、予測モデル学習部１２１は、ＺネットワークからＸネットワーク、及び、Ｙネットワークへの誤差伝搬を行う。そして、予測モデル学習部１２１は、Ｘネットワーク、Ｙネットワーク内の誤差伝搬により、Ｘネットワーク、Ｙネットワークの各々の重みを修正する。

【0050】

予測モデル学習部１２１は、誤差率が収束するまで、ステップＳ１０３からの処理を繰り返す（ステップＳ１０７）。

【0051】

誤差率が収束した場合（ステップＳ１０７／Ｙ）、予測モデル学習部１２１は、学習（生成）した予測モデルを、予測モデル記憶部１４０に保存する（ステップＳ１０８）。

【0052】

学習部１２０は、処理受付部１１０を介して、ユーザに処理結果（予測モデルの学習完了）を返却する（ステップＳ１０９）。

【0053】

次に、本発明の第１の実施の形態における、予測処理を説明する。予測処理は、学習処理により予測モデルが生成された後に行われる。

【0054】

図７は、本発明の第１の実施の形態における、予測処理を示すフローチャートである。

【0055】

はじめに、予測部１３０は、処理受付部１１０を介して、ユーザから予測処理の要求を受け付ける。予測部１３０は、データ取得部１１１から、予測用データを取得する。

【0056】

予測部１３０は、予測用データから、データセット（Ｘベクトル、Ｙベクトル）を抽出して、予測モデルに入力し（ステップＳ２０１）、出力値（output）を算出する（ステップＳ２０２）。

【0057】

学習部１２０は、算出した出力値（output）を予測結果として、処理受付部１１０を介して、ユーザに返却する（ステップＳ２０３）。なお、学習部１２０は、予測結果を記憶部（図示せず）や他の装置に出力してもよい。

【0058】

以上により、本発明の第１の実施の形態の動作が完了する。

【0059】

次に、本発明の第１の実施の形態の特徴的な構成を説明する。図１は、本発明の第１の実施の形態の特徴的な構成を示すブロック図である。

【0060】

図１を参照すると、学習装置１００（情報処理装置）は、データ取得部１１１、及び、予測モデル学習部１２１を含む。

【0061】

データ取得部１１１は、予測対象種別、及び、予測対象種別に影響する可能性がある他の種別の内の少なくとも一方のデータ値の時系列を取得する。

【0062】

予測モデル学習部１２１は、第１及び第２のニューラルネットワーク（Ｘ、Ｙネットワーク）、及び、第３のニューラルネットワーク（Ｚネットワーク）を含む予測モデルの学習を行う。第１及び第２のニューラルネットワークには、上述のデータ値の時系列を要素として含む集合が分割して入力される。第３のニューラルネットワークは、第１及び第２のニューラルネットワークの出力の内積を入力として、予測対象時刻における所定種別のデータ値の予測値を出力する。

【0063】

次に、本発明の第１の実施の形態の効果を説明する。

【0064】

本発明の第１の実施の形態によれば、時系列データの予測モデルを短時間で生成できる。その理由は、予測モデル学習部１２１が、時系列データの予測モデルとして、ＳＳＩにニューラルネットワークを適用した予測モデルの学習を行うためである。

【0065】

ＳＳＩにニューラルネットワークを適用した予測モデルでは、各ネットワークで学習が並列して実行されるため、学習処理が高速に行われる。このため、入力される要素（パラメータ）数が多くても学習時間が短い。また、Ｘ及びＹネットワークの２つのネットワークで学習が行われるため、サンプルデータが少なくても、高い精度の予測モデルが得られる。したがって、入力される要素（パラメータ）の吟味を行わずに、多数の要素（パラメータ）を含む学習データを用いて学習しても、通常のニューラルネットワークを用いた場合に比べて、短時間で高い精度の予測モデルが得られる。

【0066】

（第２の実施の形態）
次に、本発明の第２の実施の形態について説明する。

【0067】

本発明の第２の実施の形態においては、解析モデルを用いて、ＸベクトルとＹベクトルの各要素の重みを算出する点において、本発明の第１の実施の形態と異なる。

【0068】

はじめに、本発明の第２の実施の形態における予測モデルと解析モデルについて説明する。

【0069】

本発明の第２の実施の形態における予測モデルは、本発明の第１の実施の形態の予測モデル（図３）と同様に、３つのニューラルネットワーク（Ｘネットワーク、Ｙネットワーク、Ｚネットワーク）により構成される。ここで、少なくとも、Ｘネットワーク、及び、Ｙネットワークは、３層以上の階層ニューラルネットワークである。

【0070】

図９は、本発明の第２の実施の形態における、解析モデルの例を示す図である。

【0071】

本発明の第２の実施の形態における解析モデルは、予測モデルと同様に、３つのニューラルネットワーク（Ｘネットワーク、Ｙネットワーク、Ｚネットワーク）により構成される。しかしながら、予測モデルとは異なり、解析モデルにおけるＸネットワーク、及び、Ｙネットワークは、中間層を省いた、２層のニューラルネットワークである。

【0072】

解析モデルのＸベクトルとＹベクトルには、予測モデルと同じデータ値の集合が、それぞれ設定される。また、Ｚネットワークの出力として、予測モデルと同様に、予測対象時刻における、予測対象種別のデータ値の予測値が出力される。

【0073】

次に、本発明の第２の実施の形態の構成を説明する。

【0074】

図８は、本発明の第２の実施の形態における、学習装置１００の構成を示すブロック図である。図８を参照すると、本発明の第２の実施の形態における学習装置１００は、本発明の第１の実施の形態の構成に加えて、重み解析部１５０、及び、解析モデル記憶部１６０を含む。また、学習部１２０は、予測モデル学習部１２１に加えて、解析モデル学習部１２２を含む。

【0075】

解析モデル学習部１２２は、学習用データを基に、解析モデルの学習（生成、及び、最適化）を行う。

【0076】

重み解析部１５０は、解析モデルに入力されるＸベクトルとＹベクトルの各要素の重みを算出する。

【0077】

解析モデル記憶部１６０は、解析モデル学習部１２２により生成された解析モデルを記憶する。

【0078】

次に、本発明の第２の実施の形態における学習装置１００の動作について説明する。学習装置１００の動作は、学習処理、予測処理、及び、解析処理に分かれる。

【0079】

はじめに、本発明の第２の実施の形態における、学習処理を説明する。

【0080】

図１０は、本発明の第２の実施の形態における、学習処理を示すフローチャートである。

【0081】

【0082】

学習部１２０の予測モデル学習部１２１は、本発明の第１の実施の形態の学習処理（ステップＳ１０１〜Ｓ１０８）と同様に、学習用データをもとに予測モデルを生成し、予測モデル記憶部１４０に保存する（ステップＳ３０１〜Ｓ３０８）。

【0083】

解析モデル学習部１２２も、本発明の第１の実施の形態の学習処理（ステップＳ１０１〜Ｓ１０８）と同様に、学習用データをもとに上述の解析モデルを生成し、解析モデル記憶部１６０に保存する（ステップＳ３１１〜Ｓ３１８）。

【0084】

学習部１２０は、処理受付部１１０を介して、ユーザに処理結果（予測モデル、及び、解析モデルの学習完了）を返却する（ステップＳ３２１）。

【0085】

次に本発明の第２の実施の形態における、予測処理を説明する。

【0086】

本発明の第２の実施の形態における予測処理は、本発明の第１の実施の形態における予測処理（ステップＳ２０１〜Ｓ２０３）と同様となる。

【0087】

次に本発明の第２の実施の形態における、解析処理を説明する。解析処理は、学習処理により解析モデルが生成された後に行われる。

【0088】

図１１は、本発明の第２の実施の形態における、解析処理を示すフローチャートである。

【0089】

はじめに、重み解析部１５０は、処理受付部１１０を介して、ユーザから重み解析の要求を受け付ける。

【0090】

重み解析部１５０は、解析モデル記憶部１６０から解析モデルを取得する（ステップＳ４０１）。

【0091】

重み解析部１５０は、解析モデルを用いて、ＸベクトルとＹベクトルとの間の各要素ペアについて、重みを算出する（ステップＳ４０２）。

【0092】

図１２は、本発明の第２の実施の形態における、重みの算出方法を示す図である。

【0093】

図１２の例では、Ｘベクトルは、３次元ベクトルＸ＝（ｘ_１、ｘ_２、ｘ_３）、Ｙベクトルは、２次元ベクトルＹ＝（ｙ_１、ｙ_２）である。また、Ｘネットワークの出力（Ｐベクトル）は、４次元ベクトルＰ＝（ｐ_１、ｐ_２、ｐ_３、ｐ_４）、Ｙネットワークの出力（Ｑベクトル）も４次元ベクトルＱ＝（ｑ_１、ｑ_２、ｑ_３、ｑ_４）である。

【0094】

また、Ｗ_１、Ｗ_２、Ｗ_３はＰベクトルに対する要素ｘ_１、ｘ_２、ｘ_３の重みベクトルＷ_１＝（ｗ_１１、ｗ_１２、ｗ_１３、ｗ_１４）、Ｗ_２＝（ｗ_２１、ｗ_２２、ｗ_２３、ｗ_２４）、Ｗ_３＝（ｗ_３１、ｗ_３２、ｗ_３３、ｗ_３４）である。Ｖ_１、Ｖ_２はＱベクトルに対する要素ｙ_１、ｙ_２の重みベクトルＶ_１＝（ｖ_１１、ｖ_２１、ｖ_３１、ｖ_４１）、Ｖ_２＝（ｖ_１２、ｖ_２２、ｖ_３２、ｖ_４２）である。

【0095】

Ｚネットワークへの入力は、ＰベクトルとＱベクトルの内積として算出される。ここで、ＰベクトルとＱベクトルの内積は、数１式のように行列変換できる。

【0096】

【数1】

【0097】

したがって、要素ｘ_１とｙ_１のペアの重みｄ_１１は、Ｗ_１ベクトルとＶ_１ベクトルとの内積として算出できる。

【0098】

すなわち、Ｘ＝（ｘ_１、ｘ_２、…、ｘ_ｍ）、Ｙ＝（ｙ_１、ｙ_２、…、ｙ_ｎ）（ｍ、ｎは、それぞれＸ、Ｙベクトルの次元数）とすると、Ｘベクトルの要素ｘ_ｉとＹベクトルの要素ｙ_ｊのペアの重みｄ_ｉｊは、数２式のように算出される。

【0099】

【数2】

【0100】

ここで、Ｗ_ｉ＝（ｗ_ｉ１、ｗ_ｉ２、…、ｗ_ｉｋ）、Ｖ_ｊ＝（ｖ_１ｊ、ｖ_２ｊ、…、ｖ_ｋｊ）（ｋはＰ、Ｑベクトルの次元数）である。これをｍ×ｎ回分繰り返すことにより、全要素ペアの重みが算出される。

【0101】

重み解析部１５０は、ステップＳ４０２で算出された各要素ペアの重みをもとに、Ｘベクトルの各要素の重みを算出する（ステップＳ４０３）。

【0102】

Ｘベクトルの要素ｘ_ｉの重みｄ_ｉは、数３式のように算出される。

【0103】

【数3】

【0104】

これをｍ回分繰り返すことにより、Ｘベクトルの全要素の重みが算出される。

【0105】

同様に、重み解析部１５０は、ステップＳ４０２で算出された各要素ペアの重みをもとに、Ｙベクトルの各要素の重みを算出する（ステップＳ４０４）。

【0106】

Ｙベクトルの要素ｙ_ｊの、Ｚネットワークへの入力に対する重みｄ_ｊは、数４式のように計算される。

【0107】

【数4】

【0108】

これをｎ回分繰り返すことにより、Ｙベクトルの全要素の重みが算出される。

【0109】

重み解析部１５０は、ステップＳ４０３、Ｓ４０４で算出された各要素の重みを算出結果として、処理受付部１１０を介して、ユーザに返却する（ステップＳ４０５）。なお、重み解析部１５０は、各要素の重みを、記憶部（図示せず）や他の装置に出力してもよい。

【0110】

本発明の第２の実施の形態における解析モデルは、ＳＳＩに従った予測モデルのＸネットワーク、Ｙネットワークにおける中間層を省いたモデルである。一般的に多く用いられている３層ニューラルネットワークでは、中間層を省くと回帰分析と同等になる。しかしながら、ＳＳＩでは、複数の階層ニューラルネットワークを多段に組み合わせているため、Ｘネットワーク、Ｙネットワークにおける中間層を省いても、階層ニューラルネットワークは維持される。また、階層ニューラルネットワークでは、層が増えると１層の寄与は小さくなる。このため、解析モデルのように、予測モデルから層を１つ減らしたモデルであっても、予測モデルの特性を著しく損なわない。

【0111】

したがって、解析モデルにおけるＸ、Ｙベクトルの各要素の重みは、予測モデルにおけるＸ、Ｙベクトルの各要素の重みとは同一でないものの、予測モデルにおける重みの傾向をある程度近似していると考えられる。

【0112】

ユーザは、解析モデルにおける各要素の重みをもとに、予測モデルにおける各要素の重み（予測値への影響度）を推定できる。

【0113】

図１３は、本発明の第２の実施の形態における、各要素ペアの重みの算出例を示す図である。図１３の重みは、図４の学習用データに対して算出されている。また、図１４は、本発明の第２の実施の形態における、各要素の重みの算出例を示す図である。図１４の重みは、図１３の各要素ペアの重みをもとに算出されている。

【0114】

図１４の例では、重みが大きい、要素ＰＷＲ_０、Ｈ_１、ＰＷＲ_−１３が、予測値に対する影響が大きいことを示す。また、要素ＰＷＲ_−２１、ＰＷＲ_−３は、重みが０に近く、予測値に対する影響がほとんど無いことを示す。

【0115】

ユーザは、予測モデルの予測精度が高い場合、解析モデルにより算出された重みが大きい（重要な）要素を学習データに残し、重みが小さい（重要でない）要素を学習データから削除することができる。また、逆に、予測モデルによる予測精度が低い場合、重みが大きい（予測値に悪影響を与えている可能性がある）要素を学習データから削除することができる。

【0116】

このように、解析モデルにより算出された重みをもとに、予測値への影響が大きい要素を選択し、学習用データに反映して再学習することで、予測モデルの精度を向上させることができる。

【0117】

以上により、本発明の第２の実施の形態の動作が完了する。

【0118】

なお、本発明の第２の実施の形態においては、予測モデルと解析モデルの学習において、それぞれ、データセットをランダムに抽出している（ステップＳ３０２、Ｓ３１２）。しかしながら、これに限らず、データセットの抽出処理を共通化し、予測モデルと解析モデルの学習に同一のデータセットを使用してもよい。

【0119】

また、本発明の第２の実施の形態においては、予測モデルと解析モデルを同時に学習している。しかしながら、これに限らず、解析モデルの学習による各要素の重みの算出と要素の選択を繰り返し、解析モデルによる予測精度がある程度確保できた時点で、選択された要素を用いて、予測モデルを生成してもよい。

【0120】

また、本発明の第２の実施の形態においては、ユーザが、解析モデルにより算出された各要素の重みをもとに、学習データの要素を選択している。しかしながら、これに限らず、重み解析部１５０が、解析モデルにより算出された各要素の重みをもとに、学習データの要素を選択し、予測モデル、及び、解析モデルの再学習を、学習部１２０に指示をしてもよい。

【0121】

また、要素を選択する代わりに、解析モデルにより算出された各要素ペアの重みをもとに、学習データの要素ペアを選択してもよい。

【0122】

次に、本発明の第２の実施の形態の効果を説明する。

【0123】

通常の階層型ニューラルネットワークは、構成素子の非線形性のため、内部構成がブラックボックスであり、入力される各要素（パラメータ）の出力値への影響度（重み）を知ることができない。このため、入力要素を選択する基準となる指標が得られない。

【0124】

本発明の第２の実施の形態によれば、予測モデルに入力される各要素の、出力値への影響度（重み）を提供できる。その理由は、解析モデル学習部１２２が、予測モデルのＸ、Ｙネットワークから中間層を省いた解析モデルの学習を行い、重み解析部１５０が、解析モデルのＸ、Ｙネットワークをもとに、各要素の重みを算出するためである。これにより、重みをもとに、予測モデルに入力する要素の選択を行い、予測モデルによる予測精度をさらに向上させることができる。

【0125】

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

【符号の説明】

【0126】

１００学習装置
１１０処理受付部
１１１データ取得部
１２０学習部
１２１予測モデル学習部
１２２解析モデル学習部
１３０予測部
１４０予測モデル記憶部
１５０重み解析部
１６０解析モデル記憶部

【図1】