(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2021-12-07
(45)【発行日】2022-01-12
(54)【発明の名称】教師情報付学習データ生成方法、機械学習方法、教師情報付学習データ生成システム及びプログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20220104BHJP
【FI】
G06N20/00 130
(21)【出願番号】P 2017162548
(22)【出願日】2017-08-25
【審査請求日】2020-08-05
【新規性喪失の例外の表示】特許法第30条第2項適用 刊行物名:情報処理学会研究報告、発行年月日:平成29年3月1日 主催者名:一般社団法人 情報処理学会 九州支部、集会名:火の国情報シンポジウム2017、開催日:平成29年3月2日 公開日:平成29年5月8日、http://www.ai-gakkai.or.jp/jsai2017/ 主催者名:一般社団法人 人工知能学会、集会名:2017年度 人工知能学会全国大会(第31回)、開催日:平成29年5月26日
(73)【特許権者】
【識別番号】504258527
【氏名又は名称】国立大学法人 鹿児島大学
(73)【特許権者】
【識別番号】504176911
【氏名又は名称】国立大学法人大阪大学
(73)【特許権者】
【識別番号】504159235
【氏名又は名称】国立大学法人 熊本大学
(74)【代理人】
【識別番号】100095407
【氏名又は名称】木村 満
(74)【代理人】
【識別番号】100162259
【氏名又は名称】末富 孝典
(74)【代理人】
【識別番号】100133592
【氏名又は名称】山口 浩一
(74)【代理人】
【識別番号】100168114
【氏名又は名称】山中 生太
(72)【発明者】
【氏名】小野 智司
(72)【発明者】
【氏名】前原 宗太朗
(72)【発明者】
【氏名】福井 健一
(72)【発明者】
【氏名】冨田 智彦
【審査官】北川 純次
(56)【参考文献】
【文献】特開2010-266975(JP,A)
【文献】特開2017-120649(JP,A)
【文献】米国特許出願公開第2017/0031329(US,A1)
【文献】特開2009-288933(JP,A)
【文献】前原 宗太朗等,気象時系列データにおける変化点検知の基礎検討,一般社団法人 人工知能学会 第31回全国大会論文集DVD,2017年05月26日
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00
G06N 20/00
G06N 99/00
(57)【特許請求の範囲】
【請求項1】
分類を行う判別学習である機械学習により系列データが観測される条件の変化を検出する検出装置の教師あり学習
に用いられる教師ありデータを生成する学習データ生成システムによって実行される教師情報付学習データ生成方法であって、
異なる条件でそれぞれ観測される複数の系列データを取得する取得工程と、
前記複数の系列データを分割し、合成して、前記検出装置において前記条件の変化が検出されるべき教師ありデータを生成するデータ生成工程と、
を含む教師情報付学習データ生成方法。
【請求項2】
前記系列データは時系列データであり、
前記データ生成工程では、
複数の時系列データをそれぞれ分割し、条件が異なる時系列データから分割されたデータ同士を連結して、環境条件が変化したことを示す教師ありデータを生成する、
請求項1に記載の教師情報付学習データ生成方法。
【請求項3】
前記データ生成工程では、
複数の時系列データをそれぞれ同一時点で分割し、条件が異なる時系列データから分割されたデータ同士を、前記同一時点で連結して、前記同一時点で環境条件が変化したことを示す教師ありデータを生成する、
請求項2に記載の教師情報付学習データ生成方法。
【請求項4】
前記データ生成工程では、
観測された条件が異なる3つ以上の系列データのうち、条件が近い2つの系列データ同士を分割し合成する、
請求項1から3のいずれか一項に記載の教師情報付学習データ生成方法。
【請求項5】
前記系列データは、自然環境の観測データである、
請求項1から4のいずれか一項に記載の教師情報付学習データ生成方法。
【請求項6】
前記系列データは、機械の動作に関する計測データである、
請求項1から4のいずれか一項に記載の教師情報付学習データ生成方法。
【請求項7】
前記系列データは、電子データである、
請求項1から4のいずれか一項に記載の教師情報付学習データ生成方法。
【請求項8】
前記系列データは、構造物の状態に関する計測データである、
請求項1から4のいずれか一項に記載の教師情報付学習データ生成方法。
【請求項9】
前記系列データは、生体に関する計測データである、
請求項1から4のいずれか一項に記載の教師情報付学習データ生成方法。
【請求項10】
請求項1から9のいずれか一項に記載の教師情報付学習データ生成方法で生成された教師ありデータを用いて、再帰型ニューラルネットワーク、再帰型でないニューラルネットワーク、多層パーセプトロン、サポートベクタマシン、決定木学
習の識別器を用いて構成された検出装置の機械学習を行う、
機械学習方法。
【請求項11】
分類を行う判別学習である機械学習により条件の変化を検出する検出装置の教師あり学習を行う機械学習システムであって、
異なる条件でそれぞれ観測される複数の系列データを取得する取得部と、
前記複数の系列データを分割し、合成して、前記検出装置において前記条件の変化が検出されるべき教師ありデータを生成するデータ生成部と、
を備える教師情報付学習データ生成システム。
【請求項12】
分類を行う判別学習である機械学習により条件の変化を検出する検出装置の教師あり学習を行うコンピュータを、
異なる条件でそれぞれ観測される複数の系列データを取得する取得手段、
前記複数の系列データを分割し、合成して、前記検出装置において前記条件の変化が検出されるべき教師ありデータを生成するデータ生成手段、
として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、教師情報付学習データ生成方法、機械学習方法、教師情報付学習データ生成システム及びプログラムに関する。
【背景技術】
【0002】
異常検知や変化点検知は,系列データを対象とした機械学習の主要なタスクの1つである。一般に、正常なデータと比較して異常なデータや例外的なデータは発生頻度が低いため、機械学習のための教師情報付学習データを大量に用意することが困難になることが多い。
【0003】
気象観測データの長期的な蓄積は,気候変動のメカニズムの解明、気候の将来予測や多様な気候モデルの開発・改良のために不可欠である。降水量などの気象情報を観測する目的として、気象庁により地域気象観測システム(アメダス)が全国約1,300か所に設けられている。
【0004】
地域の気象観測においては,観測地点の周囲の環境の変化(建造物の建立など)が生じたり、観測地点の変更が行われたりすることがあり、この前後において観測結果にわずかな変化が含まれる可能性がある。上述の変化によって観測値に何らかの傾向の変化が明確にみられる場合は変更があった旨が公表されるものの、観測値に明確な変化がみられない場合はそのような情報が特に公開されないことがある。
【0005】
世界規模の地球温暖化現象と観測地点周辺の都市化の問題の区別、そして気候の自然変動のメカニズムの正しい理解のために、上記のような変化の発生を把握することは極めて重要である。検出困難な観測結果のわずかな変化や装置異常等を検出すべく、例えば、特許文献1に記載されるような機械学習を用いた検出装置の適用が提案されている。
【先行技術文献】
【特許文献】
【0006】
【発明の概要】
【発明が解決しようとする課題】
【0007】
機械学習は、教師なし学習と、教師あり学習とに大別される。教師なし学習とは、正解となる情報が付加されていない状態でモデルを作り上げる処理である。教師あり学習とは、正解となる情報が付加されているデータを基準にしてモデルを作り上げる処理である。教師なし学習の代表的な変化検知手法として、変化点を検知する特異スペクトル解析がある。この手法では,時系列データとパラメータを与えると解析的に変化度を算出できる。
【0008】
検出困難な観測結果のわずかな変化を正確に検出するには、多くの教師ありデータが必要になる。しかしながら、観測点の微小な変化を示す教師ありデータの数は限られており、十分な数のデータで教師あり学習を行うのは困難であるというのが実情である。
【0009】
本発明は、上記実情に鑑みてなされたものであり、豊富な数の教師ありデータで機械学習を行うことができる教師情報付学習データ生成方法、機械学習方法、教師情報付学習データ生成システム及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
上記目的を達成するために、本発明の第1の観点に係る教師情報付学習データ生成方法は、
分類を行う判別学習である機械学習により系列データが観測される条件の変化を検出する検出装置の教師あり学習に用いられる教師ありデータを生成する学習データ生成システムによって実行される教師情報付学習データ生成方法であって、
異なる条件でそれぞれ観測される複数の系列データを取得する取得工程と、
前記複数の系列データを分割し、合成して、前記検出装置において前記条件の変化が検出されるべき教師ありデータを生成するデータ生成工程と、
を含む。
【0011】
この場合、前記系列データは時系列データであり、
前記データ生成工程では、
複数の時系列データをそれぞれ分割し、条件が異なる時系列データから分割されたデータ同士を連結して、環境条件が変化したことを示す教師ありデータを生成する、
こととしてもよい。
【0012】
前記データ生成工程では、
複数の時系列データをそれぞれ同一時点で分割し、条件が異なる時系列データから分割されたデータ同士を、前記同一時点で連結して、前記同一時点で環境条件が変化したことを示す教師ありデータを生成する、
こととしてもよい。
【0013】
前記データ生成工程では、
観測された条件が異なる3つ以上の系列データのうち、条件が近い2つの系列データ同士を分割し合成する、
こととしてもよい。
【0014】
前記系列データは、自然環境の観測データを対象とする、
こととしてもよい。
【0015】
前記系列データは、機械の動作に関する計測データである、
こととしてもよい。
【0016】
前記系列データは、電子データである、
こととしてもよい。
【0017】
前記系列データは、構造物の状態に関する計測データである、
こととしてもよい。
【0018】
前記系列データは、生体に関する計測データである、
こととしてもよい。
【0019】
本発明の第2の観点に係る機械学習方法は、
本発明の教師情報付学習データ生成方法で生成された教師ありデータを用いて、再帰型ニューラルネットワーク、再帰型でないニューラルネットワーク、多層パーセプトロン、サポートベクタマシン、決定木学習の識別器を用いて構成された検出装置の機械学習を行う。
【0020】
また、本発明の第3の観点に係る教師情報付学習データ生成システムは、
分類を行う判別学習である機械学習により条件の変化を検出する検出装置の教師あり学習を行う機械学習システムであって、
異なる条件でそれぞれ観測される複数の系列データを取得する取得部と、
前記複数の系列データを分割し、合成して、前記検出装置において前記条件の変化が検出されるべき教師ありデータを生成するデータ生成部と、
を備える。
【0021】
また、本発明の第4の観点に係るプログラムは、
分類を行う判別学習である機械学習により条件の変化を検出する検出装置の教師あり学習を行うコンピュータを、
異なる条件でそれぞれ観測される複数の系列データを取得する取得手段、
前記複数の系列データを分割し、合成して、前記検出装置において前記条件の変化が検出されるべき教師ありデータを生成するデータ生成手段、
として機能させる。
【発明の効果】
【0022】
本発明によれば、異なる条件でそれぞれ観測される複数の系列データを分割し合成することによって、観測される条件が変化していないデータから検出装置において変化が検出されるべき教師ありデータを人工的に作り出すことができる。この場合、例えば、m個の系列データからm(m-1)個の教師情報付学習データを作成できる。一対のデータ組において、分割・合成する点がk箇所ある場合は、m(m-1)k個の教師情報付き学習データを生成可能である。このように、本発明を適用すれば、豊富な数の教師ありデータで機械学習を行うことができる。
【図面の簡単な説明】
【0023】
【
図1】本発明の実施の形態に係る教師情報付学習データ生成方法において教師ありデータが生成される様子を示す模式図である。
【
図2】本発明の実施の形態に係る機械学習システムの全体構成を示すブロック図である。
【
図3】再帰型ニューラルネットワークの構成の一例を示す模式図である。
【
図4】本発明の実施の形態に係る機械学習システムのハードウエア構成を示すブロック図である。
【
図5】本発明の実施の形態に係る機械学習方法の動作を示すフローチャートである。
【
図7】再帰型ニューラルネットワークと特異スペクトル解析のROCの一例を示す図である。
【発明を実施するための形態】
【0024】
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
【0025】
本実施の形態に係る教師情報付学習データ生成方法は、分類を行う判別学習である機械学習により、系列データが観測される条件の変化を検出する検出装置2(
図2参照)の教師あり学習に用いられる教師ありデータを生成する。この方法では、異なる条件でそれぞれ観測される複数の系列データを取得する。
図1に示すように、例えば検出データAと、検出データBとが、それぞれ異なる条件で観測される系列データであるとする。この場合、複数の系列データ(検出データAと検出データB)を分割し、合成して、検出装置2(
図2参照)において条件の変化が検出されるべき教師ありデータDを生成する。
【0026】
教師ありデータDは、次式のように、入力xと出力yのペアとして想定される。
D={(x(1),y(1))、(x(2),y(2))、・・・、(x(N),y(N))}
ここで、n=1、2、…Nとする。教師ありデータDは、N個の標本を含む訓練データである。教師ありデータDでは、入力x(1)が、系列データの合成部分に対応し、出力y(n)が検出装置2の検出結果、すなわち教師情報に対応する。観測される条件に変化があった場合のy(n)を1、変化がない場合のy(n)が0となる。したがって、検出データAと検出データBの合成時点Tにおいてのみ、y(n)=1となる。x(1)はスカラー値でもよいし、複数種類の系列データからなるベクトルでもよい。ここで、複数種類の系列データとしては、例えば、自然環境の観測データである場合には、気温、降水量などが想定される。
【0027】
以下、このような教師ありデータDを生成し用いる方法の具体的な構成について説明する。
図2に示すように、上記教師ありデータDを生成する教師情報付学習データ生成システム1を含む機械学習システム100は、コンピュータである。機械学習システム100は、この機械学習により系列データが観測される条件の変化を検出する検出装置(機械学習部)2の教師あり学習を行う。
【0028】
検出装置2は、
図3に示すように、例えば、時系列データを処理するのに適した再帰型ニューラルネットワークを用いて、機械学習を行う。
図3に示す再帰型ニューラルネットワークは、以下のように数式化される。
【数1】
ここで、tは、学習ステップであり、b
jはバイアスであり、w
i,w
jは重み係数である。上式の右辺第2項が再帰される部分(
図2の中間層のフィードバック部分)を表している。
【0029】
再帰型ニューラルネットワークは、センサ3の検出データ(系列データ)xt
iを入力し、入力した検出データでデータが観測される条件が変化したか否か(zt
1)を出力する。zt
1=1であれば変化あり、zt
1=0であれば変化なしとなる。
【0030】
再帰型ニューラルネットワークは、教師ありデータDを用いた機械学習により、最適化される。機械学習においては、zt
1がy(n)と一致するように、係数wi,wjが調整される。
【0031】
検出装置2は、
図2の点線の矢印で示すように、観測される条件によって左右されるセンサ3の検出データを系列データ(時系列データ)として入力し、系列データに基づいて条件が変化したことを検出する。各センサ3で検出される検出データは、異なる条件でそれぞれ観測される系列データである。
【0032】
本実施の形態に係る教師情報付学習データ生成システム1は、
図2に示すように、取得部(取得手段)10と、データ生成部(データ生成手段)11と、を備える。機械学習システム100は、教師情報付学習データ生成システム1に加え、学習制御部12と、検証部13と、を備える。
【0033】
取得部10は、異なる条件でそれぞれ観測される複数の系列データを取得する。本実施の形態では、取得部10は、このような複数の系列データとして、複数のセンサ3の検出データを取得する。
【0034】
各センサ3で検出される系列データの種別に制限はない。各センサ3で検出される系列データは、例えば、気温や湿度等の環境データであってもよい。この場合には、各センサ3は例えば異なる地点に設置され、異なる地点での系列データが分割、合成されて教師ありデータDが生成される。検出装置2は、この教師ありデータDを用いて機械学習を行って、ある地点での環境の変化などを検出する。
【0035】
各センサ3で検出される系列データは、機械の動作に関する計測データであってもよい。機械の動作に関する計測データには種々のデータがあるが、例えば、機械によって制御される制御対象となるデータであってもよい。この場合には、各センサ3は異なる機械に設置され、異なる機械での系列データが分割、合成されて教師ありデータDが生成される。検出装置2は、この教師ありデータDを用いて機械学習を行って、機械の状態の変化を検出する。
【0036】
また、各センサ3で検出される系列データは、電子データであってもよい。このような電子データには、記憶装置に格納された電子データ又はネットワークを介して受信された電子データ又は通信履歴やその統計を示す電子データなどがある。この場合には、記憶装置に格納された電子データ又はネットワークを介して受信された電子データ又は通信履歴やその統計を示す電子データが分割、合成されて教師ありデータDが生成される。検出装置2は、この教師ありデータDを用いて機械学習を行って、電子データの「改ざん」やネットワーク上の「攻撃」を検出する。
【0037】
また、各センサ3で検出される系列データは、建物、乗り物等の構造物の状態に関する計測データであってもよい。構造物の状態に関する計測データには、建物の揺れのデータや乗り物等のエンジン音のデータなどがある。この場合には、各センサ3は異なる構造物に設置され、異なる構造物での系列データが分割、合成されて教師ありデータDが生成される。検出装置2は、この教師ありデータDを用いて機械学習を行って、構造物の状態の変化を検出する。
【0038】
各センサ3で検出される系列データは、生体に関する計測データであってもよい。生体に関する計測データには、血圧や心電データ等の各種バイタルデータが含まれる。この場合には、各センサ3は異なる生体に対して設置され、異なる生体での系列データが分割、合成されて教師ありデータDが生成される。検出装置2は、この教師ありデータDを用いて機械学習を行って、生体の状態の変化を検出する。
【0039】
データ生成部11は、複数の系列データを分割し、合成して、検出装置2において観測される条件の変化が検出されるべき教師ありデータDを生成する。具体的には、データ生成部11は、複数の時系列データをそれぞれ分割し、観測される条件が異なる時系列データから分割されたデータ同士を連結して、環境条件が変化したことを示す教師ありデータを生成する。
【0040】
具体的には、
図1に示すように、データ生成部11は、あるセンサ3の検出データAと、他のセンサ3の検出データBとを同一時点Tで分割し、前半を検出データAとし、後半を検出データBとする系列データを合成する。この系列データは、前半と後半とで観測位置、すなわち条件が異なるデータであるため、検出装置2において時点Tで環境条件の変化が検出されるべき(y
(n)=1となるべき)教師ありデータDとなる。同様に、データ生成部11は、前半を検出データBとし、後半を検出データAとする系列データをもう1つの教師ありデータDとして生成可能である。
【0041】
検出データはデジタルデータであるため、検出データを分割する時点Tは、任意に設定することができる。また、分割する時点Tは1つに限られない。また、分割、合成する時点は、同一時点には限られない。
【0042】
このように、データ生成部11は、m個の系列データからm(m-1)個の教師情報付学習データ(教師ありデータD)を作成できる。一対のデータ組において、分割・合成する点がk箇所ある場合は、m(m-1)k個の教師情報付き学習データ(教師ありデータD)を生成可能である。
【0043】
図2に戻り、学習制御部12は、データ生成部11で生成された教師ありデータDを用いて、検出装置2において教師あり学習を行うように検出装置2を制御する。
【0044】
検証部13は、学習制御部12の制御の下で教師あり学習を行った検出装置2について、系列データが観測される条件の変化を適切に検出できるか否かを検証する。
【0045】
図4に示すように、機械学習システム100(教師情報付学習データ生成システム1を含む)は、ハードウエア構成として、内部バス20と、制御部21、主記憶部22、外部記憶部23、操作部24、表示部25及び通信部26を備える。主記憶部22、外部記憶部23、操作部24、表示部25及び通信部26はいずれも内部バス20を介して制御部21に接続されている。
【0046】
制御部21は、CPU(Central Processing Unit)等から構成されている。このCPUが、外部記憶部23に記憶されているプログラム29を実行することにより、機械学習システム100の各構成要素が実現される。
【0047】
主記憶部22は、RAM(Random-Access Memory)等から構成されている。主記憶部22には、外部記憶部23に記憶されているプログラム29がロードされる。この他、主記憶部22は、制御部21の作業領域(データの一時記憶領域)として用いられる。
【0048】
外部記憶部23は、フラッシュメモリ、ハードディスク、DVD-RAM(Digital Versatile Disc Random-Access Memory)、DVD-RW(Digital Versatile Disc ReWritable)等の不揮発性メモリから構成される。外部記憶部23には、制御部21に実行させるためのプログラム29があらかじめ記憶されている。また、外部記憶部23は、制御部21の指示に従って、このプログラム29の実行の際に用いられるデータを制御部21に供給し、制御部21から供給されたデータを記憶する。
【0049】
操作部24は、キーボード及びマウスなどのポインティングデバイス等と、キーボードおよびポインティングデバイス等を内部バス20に接続するインターフェイス装置から構成されている。操作部24を介して、操作者が操作した内容に関する情報が制御部21に入力される。
【0050】
表示部25は、CRT(Cathode Ray Tube)またはLCD(Liquid Crystal Display)などから構成され、操作者が操作情報を入力する場合は、操作用の画面が表示される。
【0051】
通信部26は、シリアルインターフェイスまたはパラレルインターフェイスから構成されている。通信部26は、通信ネットワークを介してセンサ3と接続されており、センサ3から検出データを受信する。
【0052】
機械学習システム100の各種構成要素は、プログラム29が、制御部21、主記憶部22、外部記憶部23、操作部24、表示部25及び通信部26などをハードウエア資源として用いて実行されることによってその機能を発揮する。例えば、教師情報付学習データ生成システム1の取得部10は、制御部21、主記憶部22、外部記憶部23及び通信部26を用いて実現されている。また、教師情報付学習データ生成システム1のデータ生成部11は、制御部21、主記憶部22及び外部記憶部23を用いて実現されている。また、学習制御部12は、制御部21、主記憶部22、外部記憶部23及び通信部26を用いて実現されている。検証部13は、制御部21、主記憶部22、外部記憶部23及び通信部26を用いて実現されている。
【0053】
次に、本実施の形態に係る機械学習システム100の動作、すなわち教師情報付学習データ生成方法を含む機械学習方法について説明する。
【0054】
図5に示すように、まず、教師情報付学習データ生成システム1の取得部10は、異なる条件で観測される複数の系列データを取得する(ステップS1;取得工程)。本実施の形態では、系列データは、複数のセンサ3各々で検出される検出データである。
【0055】
続いて、教師情報付学習データ生成システム1のデータ生成部11は、複数の系列データを分割し、合成して、検出装置2において環境条件の変化が検出されるべき教師ありデータを生成する(ステップS2;データ生成工程)。例えば、
図1に示すように、検出データAと検出データBとを同一時点Tで分割し、合成する。これにより、観測される条件の変化が検出されるべき2つの教師ありデータDが生成される。上述の取得工程(ステップS1)及びデータ生成工程(ステップS2)。
【0056】
続いて、学習制御部12は、データ生成部11で生成された教師ありデータDを用いて検出装置2に教師あり学習を行わせる(ステップS3;学習工程)。これにより、例えば、再帰型ニューラルネットワークでは、出力zt
1が、教師ありデータDのy(n)と一致するように、wi,wjが調整される。
【0057】
続いて、検証部13は、ステップS3で教師あり学習を行った検出装置2を用いて、各観測地点のセンサ3で検出される検出データ(系列データ)に基づいて、観測される条件の変化を適切に検出できるか否かを検証する(ステップS4;検証工程)。
【0058】
なお、ステップS2のデータ生成工程では、データ生成部11は、観測される条件が異なる3つ以上の系列データのうち、条件が近い2つの系列データ同士を分割し合成するようにしてもよい。例えば、
図6に示すように、A地点を中心とする直径Lの円内にB地点があり、円外にC地点がある場合、データ生成部11は、A地点にあるセンサ3の検出データと、B地点にあるセンサ3の検出データとの分割合成を行い、A地点にあるセンサ3の検出データと、C地点にあるセンサ3の検出データとの分割合成を行わない。A地点にあるセンサ3の検出データAと、B地点にあるセンサ3の検出データBとが合成されたデータは、両地点が近いため、観測される条件がわずかに変化した教師あり学習データであると考えることができ、このような教師ありデータDは、検出装置2の検出感度の向上に有用である。
【0059】
教師なし学習を行って変化点検知を行う代表例として、特異スペクトル解析がある。
図7に示すように、本実施の形態に係る教師付き訓練データを用いた再帰型ニューラルネットワークの機械学習と、特異スペクトル解析による機械学習との結果を、閾値を変動させた際の偽陽性率と真陽性率の関係性を示すROC曲線(Receiver Operator Characteristics Curve)で比較した。左側が再帰型ニューラルネットワークの学習結果を示し、右側が、特異スペクトル解析の学習結果を示している。ここで、横軸は、偽陽性率、すなわち変化なしの箇所に変化ありと推定した割合を示し、縦軸が、真陽性率、変化ありの箇所を正しく推定した割合を示している。
【0060】
ROC曲線では、曲線の下側部分の面積(AUR)が大きいほど性能が良い。左図では、全体の面積に対するROC曲線の下側の面積が0.967であり、右図では、全体の面積に対するROC曲線の上側の面積が0.506となっている。左図と右図とを比較するとわかるように、再帰型ニューラルネットワークの学習結果の方が、環境条件の変化を精度良く検出することができている。
【0061】
以上詳細に説明したように、本実施の形態によれば、異なる条件でそれぞれ観測される複数の系列データ(センサ3の検出データ)を分割し合成することによって、観測条件が変化していないデータから検出装置2において変化が検出されるべき教師ありデータDを人工的に作り出すことができる。例えば、m(mは自然数)個の系列データからm(m-1)個の教師情報付学習データを作成できる。一対のデータ組において、分割・合成する点がk(kは自然数)箇所ある場合は、m(m-1)k個の教師情報付き学習データを生成可能である。このように、本発明を適用すれば、豊富な数の教師ありデータDで機械学習を行うことができる。
【0062】
また、上記実施の形態によれば、同一時点Tで、両系列データを分割合成した。このようにすれば、合成後の教師ありデータDの長さを、系列データの長さと同じとすることができるので、生成されるデータを、教師ありデータDとして適したものとすることができる。
【0063】
また、上記実施の形態によれば、データ生成部11は、観測される条件が異なる3つ以上の系列データのうち、条件が近い2つの系列データ同士を分割し合成する。このようにすれば、条件が近い系列データを合成するので、合成により生成される教師ありデータDは、条件のわずかな変化を再現するデータとなる。この教師ありデータDを用いて機械学習を行えば、条件のわずかな変化を検出可能な検出装置2を実現することができる。
【0064】
また、系列データが、自然環境の観測データである場合には、その観測データに基づいて、自然環境のわずかな変化を検出することができる。また、系列データが、機械の動作に関する計測データである場合には、機械の動作のわずかな変化を検出することができる。また、系列データが、構造物の状態に関する計測データである場合には、その構造物の状態のわずかな変化を検出することができる。また、系列データが、生体に関する計測データである場合には、その生体の状態のわずかな変化を検出することができる。このようなわずかな変化を検出することにより、異常気象、機械、構造物の異常、病変等を早い段階で検出することができるうえ、機械、構造物に対する誤設定、誤操作等の人為的なミス、例えば患者の取違えなどの医療過誤を早い段階で発見することも可能となる。また、系列データが記憶装置に格納された電子データである場合には、電子データの「改ざん」を検知することができる。さらには、系列データがネットワークを介して受信した電子データ又は通信履歴やその統計を示す電子データである場合には、ネットワークを介した「攻撃」を検知することも可能である。
【0065】
上記実施の形態では、再帰型ニューラルネットワークを用いた検出装置2を採用したが、本発明はこれには限られない。再帰型でないニューラルネットワーク、多層パーセプトロン、サポートベクタマシン、決定木学習等の識別器などの分類を行う判別学習が可能な学習方法を用いて検出装置2を構成するようにしてもよい。分類を行う判別学習が可能であり、教師あり学習が可能な機械学習システムであれば、本発明を適用可能である。
【0066】
その他、機械学習システム100(コンピュータ)のハードウエア構成やソフトウエア構成は一例であり、任意に変更および修正が可能である。
【0067】
コンピュータの処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読み取り可能な記録媒体(フレキシブルディスク、CD-ROM、DVD-ROM等)に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行するコンピュータを構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することでコンピュータを構成してもよい。
【0068】
コンピュータの機能を、OS(オペレーティングシステム)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。
【0069】
搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS, Bulletin Board System)にコンピュータプログラムを掲示し、ネットワークを介してコンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。
【0070】
この発明は、この発明の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、この発明を説明するためのものであり、この発明の範囲を限定するものではない。すなわち、この発明の範囲は、実施の形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、この発明の範囲内とみなされる。
【産業上の利用可能性】
【0071】
本発明は、系列データの変化の検出に適用することができる。
【符号の説明】
【0072】
1 教師情報付学習データ生成システム、2 検出装置(機械学習部)、3 センサ、10 取得部、11 データ生成部、12 学習制御部、13 検証部、20 内部バス、21 制御部、22 主記憶部、23 外部記憶部、24 操作部、25 表示部、26 通信部、29 プログラム、100 機械学習システム