(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024074003
(43)【公開日】2024-05-30
(54)【発明の名称】学習装置
(51)【国際特許分類】
G06N 3/08 20230101AFI20240523BHJP
G06N 3/0464 20230101ALI20240523BHJP
G06T 1/40 20060101ALI20240523BHJP
【FI】
G06N3/08
G06N3/0464
G06T1/40
【審査請求】未請求
【請求項の数】1
【出願形態】OL
(21)【出願番号】P 2022185036
(22)【出願日】2022-11-18
(71)【出願人】
【識別番号】000003207
【氏名又は名称】トヨタ自動車株式会社
(71)【出願人】
【識別番号】598121341
【氏名又は名称】慶應義塾
(71)【出願人】
【識別番号】399075429
【氏名又は名称】ネットワンシステムズ株式会社
(74)【代理人】
【識別番号】100103894
【弁理士】
【氏名又は名称】家入 健
(72)【発明者】
【氏名】山岸 典生
(72)【発明者】
【氏名】栗原 聡
(72)【発明者】
【氏名】蛭田 興明
(72)【発明者】
【氏名】荒牧 大樹
(72)【発明者】
【氏名】伊藤 千輝
【テーマコード(参考)】
5B057
【Fターム(参考)】
5B057CA20
5B057CB12
5B057CB16
5B057CB20
5B057CC01
5B057CE14
5B057DA12
(57)【要約】
【課題】関連する複数の時系列データについての特徴を学習することができる学習装置を提供する。
【解決手段】学習装置1は、深層学習モデルの学習を行なう学習装置であって、データの検出対象から検出された、互いに時刻が対応する三つの時系列データを取得する時系列データ取得部2と、所定期間の前記三つの時系列データを所定の表色系の独立する三つの色成分に対応させるとともに、前記時系列データの時間による変化を画像内の色成分の変化に対応させることにより、前記三つの時系列データをカラー画像に変換するデータ変換部3と、前記カラー画像を用いて前記深層学習モデルを学習する学習部4とを有する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
深層学習モデルの学習を行なう学習装置であって、
データの検出対象から検出された、互いに時刻が対応する三つの時系列データを取得する時系列データ取得部と、
所定期間の前記三つの時系列データを所定の表色系の独立する三つの色成分に対応させるとともに、前記時系列データの時間による変化を画像内の色成分の変化に対応させることにより、前記三つの時系列データをカラー画像に変換するデータ変換部と、
前記カラー画像を用いて前記深層学習モデルを学習する学習部と
を有する学習装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は深層学習モデルの学習を行なう学習装置に関する。
【背景技術】
【0002】
近年、深層学習モデルを用いた様々なシステムが提案されている。例えば、特許文献1は、人を含む画像に深層学習モデルを適用することにより、人の行動に関する判定情報を出力する装置について開示している。
【0003】
ところで、従来、検出されたデータの代表値を用いて、設備又は工程などの管理が行なわれてきたが、IoT(Internet of Things)技術の発展にともない、代表値だけでなく、例えば上昇する値の傾きなどのように、時系列データを扱うことが可能となってきた。時系列データを用いることで、従来よりも管理精度が向上することが期待される。深層学習を用いたモデルにおいて、時系列データを利用する技術としてRTM(Robot Technology Middleware)やLSTM(Long Short Term Memory)などが知られている。しかし、これらは特徴量を自動抽出するといった点では有効的であるものの、単独のパラメータについての抽出を行なう技術に過ぎず、複数のパラメータの関連性から新たな特徴量を抽出することは不可能である。また、複数のパラメータを関連づけるように見えるマルチモーダル法も、各変数を個別にニューラルネットワークに入力した後にそれらを統合する手法であり、複数のパラメータの関連性から新たな特徴量を抽出することは不可能である。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、上記した事情を背景としてなされたものであり、関連する複数の時系列データについての特徴を学習することができる学習装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するための本発明の一態様は、深層学習モデルの学習を行なう学習装置であって、データの検出対象から検出された、互いに時刻が対応する三つの時系列データを取得する時系列データ取得部と、所定期間の前記三つの時系列データを所定の表色系の独立する三つの色成分に対応させるとともに、前記時系列データの時間による変化を画像内の色成分の変化に対応させることにより、前記三つの時系列データをカラー画像に変換するデータ変換部と、前記カラー画像を用いて前記深層学習モデルを学習する学習部とを有する学習装置である。
この学習装置では、三つの時系列データがカラー画像に変換され、このカラー画像を用いた深層学習が行なわれる。これにより、この学習装置によれば、関連する複数の時系列データについての特徴を学習することができる。
【発明の効果】
【0007】
本発明によれば、関連する複数の時系列データについての特徴を学習することができる学習装置を提供することができる。
【図面の簡単な説明】
【0008】
【
図1】実施の形態にかかる学習装置の機能構成の一例を示すブロック図である。
【
図2】データ変換部による変換について説明する模式図である。
【
図3A】一つのカラー画像の生成に用いられる時系列データを示す模式図である。
【
図3B】五つの部分データから生成される一つのカラー画像の例を示す模式図である。
【
図4】学習部が用いる畳み込みニューラルネットワークのアーキテクチャの一例を示す模式図である。
【
図5】実施の形態にかかる学習装置のハードウェア構成の一例を示すブロック図である。
【
図6】実施の形態にかかる学習装置における処理の流れの一例を示すフローチャートである。
【
図7】実施の形態にかかる変換に用いる表色系として、RGB表色系を用いた場合、CIE XYZ表色系を用いた場合、及びCIE LAB表色系を用いた場合の実験結果を示す表である。
【
図8】一つの部分データからなるカラー画像を用いた場合と複数の部分データからなるカラー画像を用いた場合の実験結果を示す表である。
【発明を実施するための形態】
【0009】
以下、図面を参照して本発明の実施の形態について説明する。
図1は、実施の形態にかかる学習装置1の機能構成の一例を示すブロック図である。学習装置1は、深層学習モデルの学習を行なう装置であって、
図1に示すように、学習装置1は、時系列データ取得部2と、データ変換部3と、学習部4とを有する。
【0010】
時系列データ取得部2は、データの検出対象から検出された時系列データを取得する。具体的には、時系列データ取得部2は、互いに時刻が対応する三つの時系列データを取得する。例えば、三つの時系列データは、3次元空間におけるx軸方向の加速度の時系列データ、y軸方向の加速度の時系列データ、及びz軸方向の加速度の時系列データであるが、これに限られない。なお、この例では、加速度という一つの種類についての三つの時系列データであるが、異なる種類の三つの時系列データが用いられてもよい。また、例えば、データの検出対象は、管理対象のシステムなどであるが、これに限られない。
【0011】
データ変換部3は、時系列データ取得部2が取得した時系列データをカラー画像のデータに変換する。具体的には、データ変換部3は、所定期間の三つの時系列データを所定の表色系の独立する三つの色成分に対応させるとともに、時系列データの時間による変化を画像内の色成分の変化に対応させることにより、三つの時系列データをカラー画像に変換する。
【0012】
ここで、所定の表色系は、例えば、RGB表色系である。この場合、データ変換部3は、三つの時系列データのうち、第1の時系列データをR成分に対応させ、第2の時系列データをG成分に対応させ、第3の時系列データをB成分に対応させる。ただし、所定の表色系は、RGB表色系に限られない。RGB表色系への変換の場合、明度などの強度が加味されないため、三つのデータの値の組み合わせによっては、異なるデータの値の組み合わせであっても、変換後においては色として十分に差が発生しない場合がある。このため、モデルによる判定精度を向上させるために、所定の表色系として、CIE XYZ表色系が用いられてよいし、CIE LAB表色系が用いられてもよい。
【0013】
図2は、データ変換部3による変換について説明する模式図である。
図2に示した例では、x軸方向、y軸方向、及びz軸方向の加速度の時系列データをRGB表色系のカラー画像50に変換する場合を一例として示している。また、この例では、データ変換部3は、ウィンドウサイズを250ms(ミリ秒)として、時系列データから部分データ60を取り出し、部分データ60からカラー画像50を生成している。なお、データの変換にあたっては、各色成分の値域に収まるよう時系列データの値を正規化する。例えば、データ変換部3は、RGB表色系のデータに変換する場合、値が0から255の間に収まるよう正規化を行う。
図2に示した例では、カラー画像50は、画像の縦方向が時系列データの時間軸に対応している。このため、時系列データの時間による変化は、カラー画像50における縦方向の色の変化に対応している。
【0014】
このように、データ変換部3は、三つの時系列データを色の3成分に対応させ、正規化処理を行った上で、これらを統合してカラー画像を生成する。色は、三つの成分の線形結合で表されるため、三つの時系列データ間の関連性を抽出することができる。
【0015】
なお、上述の例では、データ変換部3は、一つの単位時間の部分データ60からカラー画像を生成したが、複数の単位時間におよぶ複数の部分データ60からカラー画像を生成してもよい。すなわち、上述の例では、一つの単位時間、つまり、250msの部分データ60からカラー画像50が生成された。これに対して、
図3A及び
図3Bに示すように、例えば五つの単位時間の部分データ60(つまり250msの部分データ60を五つ)用いて、カラー画像51が生成されてもよい。
図3Aは、一つのカラー画像51の生成に用いられる時系列データを示す模式図である。
図3Aに示した例では、五つの部分データ60が一つのカラー画像51の生成に用いられる。
図3Bは、五つの部分データ60から生成される一つのカラー画像51の例を示す模式図である。
図3Bに示すように、カラー画像51は、一つ部分データ60から生成されるカラー画像を横方向に順に並べた画像である。したがって、カラー画像51は、画像の縦方向がウィンドウ内の時間軸に対応しており、画像の横方向がウィンドウ単位の時間軸に対応している。
【0016】
学習部4は、データ変換部3により生成されたカラー画像を用いて深層学習モデルを学習する。学習部4は、具体的には、例えば畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)によりモデルの学習を行う。
図4は、学習部4が用いる畳み込みニューラルネットワークのアーキテクチャの一例を示す模式図である。
図4に示した例では、一例として、アーキテクチャとしてLeNetが用いられている。具体的には、畳み込みニューラルネットワークは、4層の特徴抽出層と3層の全結合層とを備えており、224画素×224画素のカラー画像が入力される。特徴抽出層の1層目では、220画素×220画素の6種類の特徴マップが得られる。次に、特徴抽出層の2層目では、110画素×110画素の6種類の特徴マップが得られる。次に、特徴抽出層の3層目では、106画素×106画素の16種類の特徴マップが得られる。次に、特徴抽出層の4層目では、53画素×53画素の16種類の特徴マップが得られる。特徴抽出層の4層目で出力された特徴マップは、全結合層(1層目:120ノード、2層目:64ノード、3層目:6ノード)に入力され、判定結果が出力される。これにより、入力されたカラー画像に表わされる時系列データが6種類のいずれかに分類される。
【0017】
なお、データ変換部3により出力されるカラー画像の作成方法に工夫を加えることで、広範囲の時系列データの特徴表現学習が可能となる。具体的には、
図3A及び
図3Bに示したように、複数の部分データからなるカラー画像を生成した場合、特徴抽出層では、画像の縦方向に着目すると、基準となる時間と隣接する時間のデータに対する畳み込みが行われ、画像の横方向に着目すると、基準となる時間から単位時間だけ離れたデータに対する畳み込みが行われる。このため、複数の部分データを結合させたカラー画像を用いて、畳み込みニューラルネットワークの学習を行なった場合、一次遅れ系についても考慮した特徴を学習することができる。
このように、学習装置1は、データ変換部3によるデータ変換時に複数の部分時系列データを結合させることで、着目する時間に隣接する部分の特徴と、着目する時間から単位時間だけ離れた部分の特徴をモデルに同時に学習させてもよい。
【0018】
次に、学習装置1のハードウェア構成の一例について説明する。
図5は、実施の形態にかかる学習装置1のハードウェア構成の一例を示すブロック図である。
図5に示されるように、学習装置1は、入出力インタフェース11、メモリ12、及びプロセッサ13を含む。
【0019】
入出力インタフェース11は、他の装置との間で、有線又は無線通信を行うためのインタフェースである。例えば、入出力インタフェース11は、他の装置から時系列データを取得するために用いられる。
【0020】
メモリ12は、揮発性メモリ及び不揮発性メモリの任意の組み合わせによって構成される。メモリ12は、複数のメモリを含んでもよい。メモリ12は、プロセッサ13により実行されるソフトウェア(すなわち、1以上の命令を含むコンピュータプログラム)などを格納するために使用される。
【0021】
プロセッサ13は、メモリ12からソフトウェア(コンピュータプログラム)を読み出して実行することで、時系列データ取得部2、データ変換部3、及び学習部4を実現する。このように、学習装置1は、コンピュータとしての機能を備えている。プロセッサ13は、例えば、マイクロプロセッサ、MPU(Micro Processing Unit)、又はCPU(Central Processing Unit)であってもよい。プロセッサ13は、複数のプロセッサを含んでもよい。
【0022】
なお、上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、Compact Disc Read Only Memory(CD-ROM)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、Programmable ROM(PROM)、Erasable PROM(EPROM)、フラッシュROM、Random Access Memory(RAM))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【0023】
次に、学習装置1における処理の流れについて、フローチャートを参照して説明する。
図6は、学習装置1における処理の流れの一例を示すフローチャートである。
【0024】
まず、ステップS100において、時系列データ取得部2は、データの検出対象から検出された時系列データを取得する。
次に、ステップS101において、データ変換部3は、ステップS100で取得した時系列データをカラー画像に変換する。具体的には、データ変換部3は、三つの時系列データを所定の表色系の独立する三つの色成分に対応させるとともに、時系列データの時間による変化を画像内の色成分の変化に対応させることにより、カラー画像を生成する。
次に、ステップS102において、学習部4は、データ変換部3により生成されたカラー画像を用いて深層学習モデルを学習する。
【0025】
次に、本実施の形態に基づく具体的な実験結果について説明する。この実験では、畳み込みニューラルネットワークのアーキテクチャとして、
図4に示したLeNetが用いられている。また、活性化関数にはsigmoid関数を用い、最適化関数にはMomentumSGD(学習率0.01)を用い、誤差関数にはsoftmax cross entropyを用いた。本実験では、データセットとしてUCI Machine Learning Repositoryに公開されているHeterogeneity Activity Recognition Data Setを用いた。これは、スマートフォンの加速度センサデータであり、9人の被験者が多様な行動をする際のx,y,z軸の3方向の加速度の時間変化をms(ミリ秒)単位で記録したものである。被験者が取り得る行動は、「立つ」、「座る」、「歩く」、「階段をのぼる」、「階段をおりる」、「自転車に乗る」の6種類である。また、本実験では、データ変換部3は、ウィンドウサイズを250ms(ミリ秒)に設定し、ウィンドウを100ms(ミリ秒)単位でスライドさせることで、合計で9340枚の画像を作成した。そして、学習部4は、これらの画像を畳み込みニューラルネットワークに対する入力データとして、モデルの学習を行なった。なお、判定精度の確認のため、5分割交差検証法を用いた。
【0026】
図7は、変換に用いる表色系として、RGB表色系を用いた場合、CIE XYZ表色系を用いた場合、及びCIE LAB表色系を用いた場合の実験結果を示す表である。なお、いずれの場合も、
図3A及び
図3Bに示したように、五つの部分データ60を用いて一つのカラー画像を生成して、モデルの学習を行なった。
図7は、具体的には、カラー画像の分類について、精度(Precision)、再現率(Recall)、及び、F1値(F1-score)の比較結果を示している。表からわかるように、CIE XYZ表色系及びCIE LAB表色系を用いた場合の方が、RGB表色系を用いた場合よりも良い結果が得られる。これは、CIE XYZ表色系及びCIE LAB表色系のデータに変換した場合は、RGB表色系のデータに変換した場合に比べて、各時系列変数の関連性を抽出できているためと考えられる。
【0027】
図8は、一つの部分データからなるカラー画像を用いた場合と複数の部分データからなるカラー画像を用いた場合の実験結果を示す表である。なお、いずれの場合も、時系列データは、RGB表色系のデータに変換されている。
図8も、具体的には、カラー画像の分類について、精度(Precision)、再現率(Recall)、及び、F1値(F1-score)の比較結果を示している。
図8に示す表からわかるように、複数の部分データからなるカラー画像を用いた場合のほうが良い結果が得られる。
【0028】
以上、実施の形態について説明した。上述したとおり、学習装置1によれば、三つの時系列データがカラー画像に変換され、このカラー画像を用いた深層学習が行なわれる。これにより、関連する複数の時系列データについての特徴を学習したモデルを得ることができる。
【0029】
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
【符号の説明】
【0030】
1 学習装置
2 時系列データ取得部
3 データ変換部
4 学習部
11 入出力インタフェース
12 メモリ
13 プロセッサ
50 カラー画像
51 カラー画像
60 部分データ