特開2024-74003 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ トヨタ自動車株式会社の特許一覧 ▶ 学校法人慶應義塾の特許一覧 ▶ ネットワンシステムズ株式会社の特許一覧

特開2024-74003学習装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024074003

(43)【公開日】2024-05-30

(54)【発明の名称】学習装置

(51)【国際特許分類】

G06N 3/08 20230101AFI20240523BHJP

G06N 3/0464 20230101ALI20240523BHJP

G06T 1/40 20060101ALI20240523BHJP

【ＦＩ】

G06N3/08

G06N3/0464

G06T1/40

【審査請求】未請求

【請求項の数】1

【出願形態】ＯＬ

(21)【出願番号】P 2022185036

(22)【出願日】2022-11-18

(71)【出願人】

【識別番号】000003207

【氏名又は名称】トヨタ自動車株式会社

(71)【出願人】

【識別番号】598121341

【氏名又は名称】慶應義塾

(71)【出願人】

【識別番号】399075429

【氏名又は名称】ネットワンシステムズ株式会社

(74)【代理人】

【識別番号】100103894

【弁理士】

【氏名又は名称】家入健

(72)【発明者】

【氏名】山岸典生

(72)【発明者】

【氏名】栗原聡

(72)【発明者】

【氏名】蛭田興明

(72)【発明者】

【氏名】荒牧大樹

(72)【発明者】

【氏名】伊藤千輝

【テーマコード（参考）】

5B057

【Ｆターム（参考）】

5B057CA20

5B057CB12

5B057CB16

5B057CB20

5B057CC01

5B057CE14

5B057DA12

(57)【要約】

【課題】関連する複数の時系列データについての特徴を学習することができる学習装置を提供する。
【解決手段】学習装置１は、深層学習モデルの学習を行なう学習装置であって、データの検出対象から検出された、互いに時刻が対応する三つの時系列データを取得する時系列データ取得部２と、所定期間の前記三つの時系列データを所定の表色系の独立する三つの色成分に対応させるとともに、前記時系列データの時間による変化を画像内の色成分の変化に対応させることにより、前記三つの時系列データをカラー画像に変換するデータ変換部３と、前記カラー画像を用いて前記深層学習モデルを学習する学習部４とを有する。
【選択図】図１

【特許請求の範囲】

【請求項1】

深層学習モデルの学習を行なう学習装置であって、
データの検出対象から検出された、互いに時刻が対応する三つの時系列データを取得する時系列データ取得部と、
所定期間の前記三つの時系列データを所定の表色系の独立する三つの色成分に対応させるとともに、前記時系列データの時間による変化を画像内の色成分の変化に対応させることにより、前記三つの時系列データをカラー画像に変換するデータ変換部と、
前記カラー画像を用いて前記深層学習モデルを学習する学習部と
を有する学習装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は深層学習モデルの学習を行なう学習装置に関する。

【背景技術】

【0002】

近年、深層学習モデルを用いた様々なシステムが提案されている。例えば、特許文献１は、人を含む画像に深層学習モデルを適用することにより、人の行動に関する判定情報を出力する装置について開示している。

【0003】

ところで、従来、検出されたデータの代表値を用いて、設備又は工程などの管理が行なわれてきたが、ＩｏＴ（Internet of Things）技術の発展にともない、代表値だけでなく、例えば上昇する値の傾きなどのように、時系列データを扱うことが可能となってきた。時系列データを用いることで、従来よりも管理精度が向上することが期待される。深層学習を用いたモデルにおいて、時系列データを利用する技術としてＲＴＭ（Robot Technology Middleware）やＬＳＴＭ（Long Short Term Memory）などが知られている。しかし、これらは特徴量を自動抽出するといった点では有効的であるものの、単独のパラメータについての抽出を行なう技術に過ぎず、複数のパラメータの関連性から新たな特徴量を抽出することは不可能である。また、複数のパラメータを関連づけるように見えるマルチモーダル法も、各変数を個別にニューラルネットワークに入力した後にそれらを統合する手法であり、複数のパラメータの関連性から新たな特徴量を抽出することは不可能である。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特表２０１９－５０８８０１号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

本発明は、上記した事情を背景としてなされたものであり、関連する複数の時系列データについての特徴を学習することができる学習装置を提供することを目的とする。

【課題を解決するための手段】

【0006】

上記目的を達成するための本発明の一態様は、深層学習モデルの学習を行なう学習装置であって、データの検出対象から検出された、互いに時刻が対応する三つの時系列データを取得する時系列データ取得部と、所定期間の前記三つの時系列データを所定の表色系の独立する三つの色成分に対応させるとともに、前記時系列データの時間による変化を画像内の色成分の変化に対応させることにより、前記三つの時系列データをカラー画像に変換するデータ変換部と、前記カラー画像を用いて前記深層学習モデルを学習する学習部とを有する学習装置である。
この学習装置では、三つの時系列データがカラー画像に変換され、このカラー画像を用いた深層学習が行なわれる。これにより、この学習装置によれば、関連する複数の時系列データについての特徴を学習することができる。

【発明の効果】

【0007】

本発明によれば、関連する複数の時系列データについての特徴を学習することができる学習装置を提供することができる。

【図面の簡単な説明】

【0008】

【図1】実施の形態にかかる学習装置の機能構成の一例を示すブロック図である。

【図2】データ変換部による変換について説明する模式図である。

【図3A】一つのカラー画像の生成に用いられる時系列データを示す模式図である。

【図3B】五つの部分データから生成される一つのカラー画像の例を示す模式図である。

【図4】学習部が用いる畳み込みニューラルネットワークのアーキテクチャの一例を示す模式図である。

【図5】実施の形態にかかる学習装置のハードウェア構成の一例を示すブロック図である。

【図6】実施の形態にかかる学習装置における処理の流れの一例を示すフローチャートである。

【図7】実施の形態にかかる変換に用いる表色系として、ＲＧＢ表色系を用いた場合、ＣＩＥＸＹＺ表色系を用いた場合、及びＣＩＥＬＡＢ表色系を用いた場合の実験結果を示す表である。

【図8】一つの部分データからなるカラー画像を用いた場合と複数の部分データからなるカラー画像を用いた場合の実験結果を示す表である。

【発明を実施するための形態】

【0009】

以下、図面を参照して本発明の実施の形態について説明する。図１は、実施の形態にかかる学習装置１の機能構成の一例を示すブロック図である。学習装置１は、深層学習モデルの学習を行なう装置であって、図１に示すように、学習装置１は、時系列データ取得部２と、データ変換部３と、学習部４とを有する。

【0010】

時系列データ取得部２は、データの検出対象から検出された時系列データを取得する。具体的には、時系列データ取得部２は、互いに時刻が対応する三つの時系列データを取得する。例えば、三つの時系列データは、３次元空間におけるｘ軸方向の加速度の時系列データ、ｙ軸方向の加速度の時系列データ、及びｚ軸方向の加速度の時系列データであるが、これに限られない。なお、この例では、加速度という一つの種類についての三つの時系列データであるが、異なる種類の三つの時系列データが用いられてもよい。また、例えば、データの検出対象は、管理対象のシステムなどであるが、これに限られない。

【0011】

データ変換部３は、時系列データ取得部２が取得した時系列データをカラー画像のデータに変換する。具体的には、データ変換部３は、所定期間の三つの時系列データを所定の表色系の独立する三つの色成分に対応させるとともに、時系列データの時間による変化を画像内の色成分の変化に対応させることにより、三つの時系列データをカラー画像に変換する。

【0012】

ここで、所定の表色系は、例えば、ＲＧＢ表色系である。この場合、データ変換部３は、三つの時系列データのうち、第１の時系列データをＲ成分に対応させ、第２の時系列データをＧ成分に対応させ、第３の時系列データをＢ成分に対応させる。ただし、所定の表色系は、ＲＧＢ表色系に限られない。ＲＧＢ表色系への変換の場合、明度などの強度が加味されないため、三つのデータの値の組み合わせによっては、異なるデータの値の組み合わせであっても、変換後においては色として十分に差が発生しない場合がある。このため、モデルによる判定精度を向上させるために、所定の表色系として、ＣＩＥＸＹＺ表色系が用いられてよいし、ＣＩＥＬＡＢ表色系が用いられてもよい。

【0013】

図２は、データ変換部３による変換について説明する模式図である。図２に示した例では、ｘ軸方向、ｙ軸方向、及びｚ軸方向の加速度の時系列データをＲＧＢ表色系のカラー画像５０に変換する場合を一例として示している。また、この例では、データ変換部３は、ウィンドウサイズを２５０ｍｓ（ミリ秒）として、時系列データから部分データ６０を取り出し、部分データ６０からカラー画像５０を生成している。なお、データの変換にあたっては、各色成分の値域に収まるよう時系列データの値を正規化する。例えば、データ変換部３は、ＲＧＢ表色系のデータに変換する場合、値が０から２５５の間に収まるよう正規化を行う。図２に示した例では、カラー画像５０は、画像の縦方向が時系列データの時間軸に対応している。このため、時系列データの時間による変化は、カラー画像５０における縦方向の色の変化に対応している。

【0014】

このように、データ変換部３は、三つの時系列データを色の３成分に対応させ、正規化処理を行った上で、これらを統合してカラー画像を生成する。色は、三つの成分の線形結合で表されるため、三つの時系列データ間の関連性を抽出することができる。

【0015】

なお、上述の例では、データ変換部３は、一つの単位時間の部分データ６０からカラー画像を生成したが、複数の単位時間におよぶ複数の部分データ６０からカラー画像を生成してもよい。すなわち、上述の例では、一つの単位時間、つまり、２５０ｍｓの部分データ６０からカラー画像５０が生成された。これに対して、図３Ａ及び図３Ｂに示すように、例えば五つの単位時間の部分データ６０（つまり２５０ｍｓの部分データ６０を五つ）用いて、カラー画像５１が生成されてもよい。図３Ａは、一つのカラー画像５１の生成に用いられる時系列データを示す模式図である。図３Ａに示した例では、五つの部分データ６０が一つのカラー画像５１の生成に用いられる。図３Ｂは、五つの部分データ６０から生成される一つのカラー画像５１の例を示す模式図である。図３Ｂに示すように、カラー画像５１は、一つ部分データ６０から生成されるカラー画像を横方向に順に並べた画像である。したがって、カラー画像５１は、画像の縦方向がウィンドウ内の時間軸に対応しており、画像の横方向がウィンドウ単位の時間軸に対応している。

【0016】

学習部４は、データ変換部３により生成されたカラー画像を用いて深層学習モデルを学習する。学習部４は、具体的には、例えば畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）によりモデルの学習を行う。図４は、学習部４が用いる畳み込みニューラルネットワークのアーキテクチャの一例を示す模式図である。図４に示した例では、一例として、アーキテクチャとしてＬｅＮｅｔが用いられている。具体的には、畳み込みニューラルネットワークは、４層の特徴抽出層と３層の全結合層とを備えており、２２４画素×２２４画素のカラー画像が入力される。特徴抽出層の１層目では、２２０画素×２２０画素の６種類の特徴マップが得られる。次に、特徴抽出層の２層目では、１１０画素×１１０画素の６種類の特徴マップが得られる。次に、特徴抽出層の３層目では、１０６画素×１０６画素の１６種類の特徴マップが得られる。次に、特徴抽出層の４層目では、５３画素×５３画素の１６種類の特徴マップが得られる。特徴抽出層の４層目で出力された特徴マップは、全結合層（１層目：１２０ノード、２層目：６４ノード、３層目：６ノード）に入力され、判定結果が出力される。これにより、入力されたカラー画像に表わされる時系列データが６種類のいずれかに分類される。

【0017】

なお、データ変換部３により出力されるカラー画像の作成方法に工夫を加えることで、広範囲の時系列データの特徴表現学習が可能となる。具体的には、図３Ａ及び図３Ｂに示したように、複数の部分データからなるカラー画像を生成した場合、特徴抽出層では、画像の縦方向に着目すると、基準となる時間と隣接する時間のデータに対する畳み込みが行われ、画像の横方向に着目すると、基準となる時間から単位時間だけ離れたデータに対する畳み込みが行われる。このため、複数の部分データを結合させたカラー画像を用いて、畳み込みニューラルネットワークの学習を行なった場合、一次遅れ系についても考慮した特徴を学習することができる。
このように、学習装置１は、データ変換部３によるデータ変換時に複数の部分時系列データを結合させることで、着目する時間に隣接する部分の特徴と、着目する時間から単位時間だけ離れた部分の特徴をモデルに同時に学習させてもよい。

【0018】

次に、学習装置１のハードウェア構成の一例について説明する。図５は、実施の形態にかかる学習装置１のハードウェア構成の一例を示すブロック図である。図５に示されるように、学習装置１は、入出力インタフェース１１、メモリ１２、及びプロセッサ１３を含む。

【0019】

入出力インタフェース１１は、他の装置との間で、有線又は無線通信を行うためのインタフェースである。例えば、入出力インタフェース１１は、他の装置から時系列データを取得するために用いられる。

【0020】

メモリ１２は、揮発性メモリ及び不揮発性メモリの任意の組み合わせによって構成される。メモリ１２は、複数のメモリを含んでもよい。メモリ１２は、プロセッサ１３により実行されるソフトウェア（すなわち、１以上の命令を含むコンピュータプログラム）などを格納するために使用される。

【0021】

プロセッサ１３は、メモリ１２からソフトウェア（コンピュータプログラム）を読み出して実行することで、時系列データ取得部２、データ変換部３、及び学習部４を実現する。このように、学習装置１は、コンピュータとしての機能を備えている。プロセッサ１３は、例えば、マイクロプロセッサ、ＭＰＵ（Micro Processing Unit）、又はＣＰＵ（Central Processing Unit）であってもよい。プロセッサ１３は、複数のプロセッサを含んでもよい。

【0022】

なお、上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、Compact Disc Read Only Memory（CD-ROM）、CD-R、CD-R/W、半導体メモリ（例えば、マスクROM、Programmable ROM（PROM）、Erasable PROM（EPROM）、フラッシュROM、Random Access Memory（RAM））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

【0023】

次に、学習装置１における処理の流れについて、フローチャートを参照して説明する。図６は、学習装置１における処理の流れの一例を示すフローチャートである。

【0024】

まず、ステップＳ１００において、時系列データ取得部２は、データの検出対象から検出された時系列データを取得する。
次に、ステップＳ１０１において、データ変換部３は、ステップＳ１００で取得した時系列データをカラー画像に変換する。具体的には、データ変換部３は、三つの時系列データを所定の表色系の独立する三つの色成分に対応させるとともに、時系列データの時間による変化を画像内の色成分の変化に対応させることにより、カラー画像を生成する。
次に、ステップＳ１０２において、学習部４は、データ変換部３により生成されたカラー画像を用いて深層学習モデルを学習する。

【0025】

次に、本実施の形態に基づく具体的な実験結果について説明する。この実験では、畳み込みニューラルネットワークのアーキテクチャとして、図４に示したＬｅＮｅｔが用いられている。また、活性化関数にはｓｉｇｍｏｉｄ関数を用い、最適化関数にはＭｏｍｅｎｔｕｍＳＧＤ(学習率０．０１)を用い、誤差関数にはｓｏｆｔｍａｘｃｒｏｓｓｅｎｔｒｏｐｙを用いた。本実験では、データセットとしてＵＣＩＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｐｏｓｉｔｏｒｙに公開されているＨｅｔｅｒｏｇｅｎｅｉｔｙＡｃｔｉｖｉｔｙＲｅｃｏｇｎｉｔｉｏｎＤａｔａＳｅｔを用いた。これは、スマートフォンの加速度センサデータであり、９人の被験者が多様な行動をする際のｘ，ｙ，ｚ軸の３方向の加速度の時間変化をｍｓ（ミリ秒）単位で記録したものである。被験者が取り得る行動は、「立つ」、「座る」、「歩く」、「階段をのぼる」、「階段をおりる」、「自転車に乗る」の６種類である。また、本実験では、データ変換部３は、ウィンドウサイズを２５０ｍｓ（ミリ秒）に設定し、ウィンドウを１００ｍｓ（ミリ秒）単位でスライドさせることで、合計で９３４０枚の画像を作成した。そして、学習部４は、これらの画像を畳み込みニューラルネットワークに対する入力データとして、モデルの学習を行なった。なお、判定精度の確認のため、５分割交差検証法を用いた。

【0026】

図７は、変換に用いる表色系として、ＲＧＢ表色系を用いた場合、ＣＩＥＸＹＺ表色系を用いた場合、及びＣＩＥＬＡＢ表色系を用いた場合の実験結果を示す表である。なお、いずれの場合も、図３Ａ及び図３Ｂに示したように、五つの部分データ６０を用いて一つのカラー画像を生成して、モデルの学習を行なった。図７は、具体的には、カラー画像の分類について、精度（Ｐｒｅｃｉｓｉｏｎ）、再現率（Ｒｅｃａｌｌ）、及び、Ｆ１値（Ｆ１－ｓｃｏｒｅ）の比較結果を示している。表からわかるように、ＣＩＥＸＹＺ表色系及びＣＩＥＬＡＢ表色系を用いた場合の方が、ＲＧＢ表色系を用いた場合よりも良い結果が得られる。これは、ＣＩＥＸＹＺ表色系及びＣＩＥＬＡＢ表色系のデータに変換した場合は、ＲＧＢ表色系のデータに変換した場合に比べて、各時系列変数の関連性を抽出できているためと考えられる。

【0027】

図８は、一つの部分データからなるカラー画像を用いた場合と複数の部分データからなるカラー画像を用いた場合の実験結果を示す表である。なお、いずれの場合も、時系列データは、ＲＧＢ表色系のデータに変換されている。図８も、具体的には、カラー画像の分類について、精度（Ｐｒｅｃｉｓｉｏｎ）、再現率（Ｒｅｃａｌｌ）、及び、Ｆ１値（Ｆ１－ｓｃｏｒｅ）の比較結果を示している。図８に示す表からわかるように、複数の部分データからなるカラー画像を用いた場合のほうが良い結果が得られる。

【0028】

以上、実施の形態について説明した。上述したとおり、学習装置１によれば、三つの時系列データがカラー画像に変換され、このカラー画像を用いた深層学習が行なわれる。これにより、関連する複数の時系列データについての特徴を学習したモデルを得ることができる。

【0029】

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。

【符号の説明】

【0030】

１学習装置
２時系列データ取得部
３データ変換部
４学習部
１１入出力インタフェース
１２メモリ
１３プロセッサ
５０カラー画像
５１カラー画像
６０部分データ

【図1】