特開2023-97910 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 公立大学法人会津大学の特許一覧

特開2023-97910時系列分類装置、時系列分類プログラム及び時系列分類方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023097910

(43)【公開日】2023-07-10

(54)【発明の名称】時系列分類装置、時系列分類プログラム及び時系列分類方法

(51)【国際特許分類】

G06N 5/04 20230101AFI20230703BHJP

G06N 20/00 20190101ALI20230703BHJP

G06F 17/18 20060101ALI20230703BHJP

【ＦＩ】

G06N5/04

G06N20/00 130

G06F17/18 Z

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2021214286

(22)【出願日】2021-12-28

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り（１）令和３年７月１１日にｈｔｔｐｓ：／／ｉｅｅｅｘｐｌｏｒｅ．ｉｅｅｅ．ｏｒｇ／ｄｏｃｕｍｅｎｔ／９４９４５２１にて発表。（２）令和３年７月１２日にＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＦｕｚｚｙＳｙｓｔｅｍｓ（ＦＵＺＺ－ＩＥＥＥ）２０２１にて発表。

(71)【出願人】

【識別番号】506301140

【氏名又は名称】公立大学法人会津大学

(74)【代理人】

【識別番号】100094525

【弁理士】

【氏名又は名称】土井健二

(74)【代理人】

【識別番号】100094514

【弁理士】

【氏名又は名称】林恒徳

(72)【発明者】

【氏名】ラゲウダイキラン

(72)【発明者】

【氏名】渡部有隆

(72)【発明者】

【氏名】ペニュゴンダラヴィクマール

【テーマコード（参考）】

5B056

【Ｆターム（参考）】

5B056BB61

(57)【要約】（修正有）

【課題】計算量が少なく低コストの計算方法で高精度に分類する時系列分類装置、方法及びプログラムを提供する。
【解決手段】方法は、実訓練時系列データを、複数の時系列のイベント値の最小値と、最大値と、最小値及び最大値の間の代表値を有する最小値時系列と、最大値時系列と、代表値時系列をイベント毎に有する各クラスの代表訓練時系列データに圧縮し、分類対象のテスト時系列の複数のタイムスタンプのイベント値に対する複数のＦＭＳ値を、各クラスの代表訓練時系列データに基づいて、クラス毎に算出し、複数のタイムスタンプのＦＭＳ値の平均値が最小のクラスを、テスト時系列のクラスに分類する。テスト時系列のイベント値が、最小値時系列のイベント値以下または最大値時系列のイベント値以上ならＦＭＳ値＝１．０、最小値と代表値時系列のイベント値の間ならＦＭＳ値＝α×Ａ、代表値と最大値時系列のイベント値の間ならＦＭＳ値＝Δ×Ｂと算出する。
【選択図】図１１

【特許請求の範囲】

【請求項1】

メモリと、
前記メモリにアクセスするプロセッサとを有し、
前記プロセッサは、
（１）クラスがそれぞれラベリングされた複数の時系列を有する実訓練時系列データをクラス別に分割し、
（２）前記分割した各クラスの複数の時系列をそれぞれ有する各クラスの実訓練時系列データを、前記複数の時系列の各タイムスタンプのイベント値の最小値と、最大値と、前記最小値及び最大値の間の代表値をそれぞれ有する最小値時系列と、最大値時系列と、代表値時系列を有する各クラスの代表訓練時系列データにそれぞれ圧縮し、
（３）分類対象のテスト時系列の複数のタイムスタンプのイベント値それぞれに対する複数のファジーメンバーシップ値（以下ＦＭＳ値と称する。）を、前記各クラスの代表訓練時系列データに基づいて、クラス毎に算出し、
（４）前記複数のタイムスタンプのＦＭＳ値の平均値が最小のクラスを、前記テスト時系列のクラスに分類し、
前記（３）の処理で、前記テスト時系列のイベント値が、
前記最小値時系列のイベント値以下または前記最大値時系列のイベント値以上の場合、最大ＦＭＳ値を、
前記代表値時系列のイベント値と等しい場合、最小ＦＭＳ値を、
前記最小値時系列のイベント値から前記代表値時系列のイベント値の間の場合、前記テスト時系列のイベント値の増加に対応して前記最大ＦＭＳ値及び前記最小ＦＭＳ値の間の第１ＦＭＳ値から最小ＦＭＳ値に減少する第２ＦＭＳ値を、
前記代表値時系列のイベント値から前記最大値時系列のイベント値の間の場合、前記テスト時系列のイベント値の増加に対応して前記最小ＦＭＳ値から前記最小ＦＭＳ値及び前記最大ＦＭＳ値の間の第３ＦＭＳ値に増加する第４ＦＭＳ値を、
前記テスト時系列のイベント値のFMS値にそれぞれ算出する、時系列分類装置。

【請求項2】

前記最小値時系列のイベント値と前記代表値時系列のイベント値の間の第１パーセンタイルで、前記第２ＦＭＳ値が減少するための第１の係数が変化し、
前記代表値時系列のイベント値と前記最大値時系列のイベント値の間の第２パーセンタイルで、前記第４ＦＭＳ値が増加するための第２の係数が変化する、請求項１に記載の時系列分類装置。

【請求項3】

前記最小値時系列のイベント値と前記第１パーセンタイルとの間の前記第２ＦＭＳ値が減少する係数が１であり、
前記第２パーセンタイルと前記最大値時系列のイベント値との間の前記第４ＦＭＳ値が増加する係数が１である、請求項２に記載の時系列分類装置。

【請求項4】

前記代表値は、平均値、中央値、最頻値及びミッドレンジのいずれかである、請求項１乃至３のいずれかに記載の時系列分類装置。

【請求項5】

（１）クラスがそれぞれラベリングされた複数の時系列を有する実訓練時系列データをクラス別に分割し、
（２）前記分割した各クラスの複数の時系列をそれぞれ有する各クラスの実訓練時系列データを、前記複数の時系列の各タイムスタンプのイベント値の最小値と、最大値と、前記最小値及び最大値の間の代表値をそれぞれ有する最小値時系列と、最大値時系列と、代表値時系列を有する各クラスの代表訓練時系列データにそれぞれ圧縮し、
（３）分類対象のテスト時系列の複数のタイムスタンプのイベント値それぞれに対する複数のファジーメンバーシップ値（以下ＦＭＳ値と称する。）を、前記各クラスの代表訓練時系列データに基づいて、クラス毎に算出し、
（４）前記複数のタイムスタンプのＦＭＳ値の平均値が最小のクラスを、前記テスト時系列のクラスに分類し、
前記（３）の処理で、前記テスト時系列のイベント値が、
前記最小値時系列のイベント値以下または前記最大値時系列のイベント値以上の場合、最大ＦＭＳ値を、
前記代表値時系列のイベント値と等しい場合、最小ＦＭＳ値を、
前記最小値時系列のイベント値から前記代表値時系列のイベント値の間の場合、前記テスト時系列のイベント値の増加に対応して前記最大ＦＭＳ値及び前記最小ＦＭＳ値の間の第１ＦＭＳ値から最小ＦＭＳ値に減少する第２ＦＭＳ値を、
前記代表値時系列のイベント値から前記最大値時系列のイベント値の間の場合、前記テスト時系列のイベント値の増加に対応して前記最小ＦＭＳ値から前記最小ＦＭＳ値及び前記最大ＦＭＳ値の間の第３ＦＭＳ値に増加する第４ＦＭＳ値を、
前記テスト時系列のイベント値のFMS値にそれぞれ算出する、
処理をコンピュータに実行させるプログラムコードを有する時系列分類プログラム。

【請求項6】

（１）クラスがそれぞれラベリングされた複数の時系列を有する実訓練時系列データをクラス別に分割し、
（２）前記分割した各クラスの複数の時系列をそれぞれ有する各クラスの実訓練時系列データを、前記複数の時系列の各タイムスタンプのイベント値の最小値と、最大値と、前記最小値及び最大値の間の代表値をそれぞれ有する最小値時系列と、最大値時系列と、代表値時系列を有する各クラスの代表訓練時系列データにそれぞれ圧縮し、
（３）分類対象のテスト時系列の複数のタイムスタンプのイベント値それぞれに対する複数のファジーメンバーシップ値（以下ＦＭＳ値と称する。）を、前記各クラスの代表訓練時系列データに基づいて、クラス毎に算出し、
（４）前記複数のタイムスタンプのＦＭＳ値の平均値が最小のクラスを、前記テスト時系列のクラスに分類し、
前記（３）の処理で、前記テスト時系列のイベント値が、
前記最小値時系列のイベント値以下または前記最大値時系列のイベント値以上の場合、最大ＦＭＳ値を、
前記代表値時系列のイベント値と等しい場合、最小ＦＭＳ値を、
前記最小値時系列のイベント値から前記代表値時系列のイベント値の間の場合、前記テスト時系列のイベント値の増加に対応して前記最大ＦＭＳ値及び前記最小ＦＭＳ値の間の第１ＦＭＳ値から最小ＦＭＳ値に減少する第２ＦＭＳ値を、
前記代表値時系列のイベント値から前記最大値時系列のイベント値の間の場合、前記テスト時系列のイベント値の増加に対応して前記最小ＦＭＳ値から前記最小ＦＭＳ値及び前記最大ＦＭＳ値の間の第３ＦＭＳ値に増加する第４ＦＭＳ値を、
前記テスト時系列のイベント値のFMS値にそれぞれ算出する、
処理をプロセッサが実行する時系列分類方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、時系列分類装置、時系列分類プログラム及び時系列分類方法に関する。

【背景技術】

【0002】

現実世界では様々な時系列（または時系列データ）が生成される。例えば、ECGデータ（心電図データ）などである。時系列（time series）とは、ある現象の時間的な変化を、連続的に（または一定間隔をおいて不連続に）観測して得られた値の系列（一連の値）のことをいう。例えば、統計学や信号処理で時間経過に従って計測されるデータ列であり、通常、一定のある時間間隔で測定される（Wikipediaより転載）。

【0003】

このような時系列を分類することは重要なタスクである。例えば、後述する図２、図３の実際の時系列データTR_TSDBに示すとおり、１６個の時系列ts1～ts16は、タイムスタンプ１～１０の１０個のイベント値をそれぞれ持つ。そして、１６個の時系列は８個ずつ２つのクラスCL（CL=1及びCL=2）に分類される。

【0004】

上記１６個の時系列を訓練データとして持つ分類モデル（分類装置）が与えられた場合、時系列分類装置は、モデルの訓練データに基づいてテストの（分類対象の）時系列を２つのクラスのいずれかに分類する。前述のECGデータの場合、様々な心疾患のECGデータを訓練時系列とする分類装置が、患者のECGデータの時系列をいずれかの心疾患に分類する。

【0005】

従来の時系列分類装置は、最短ユークリッド距離法、RNN、LSTM、GRU（Recurrent neural network、Long Short Term Memory、Gated recurrent unit、それぞれマシンラーニングの一つ）などがある。

【先行技術文献】

【非特許文献】

【0006】

【非特許文献1】Fuzzy Classification of Time Series Data, Penugonda Ravikumar, V. Susheela Devi, published on October 8, 2013, 2013 IEEE-FUZZ

【非特許文献2】Weighted Feature-based Classification of Time Series Data, Penugonda Ravikumar, V. Susheela Devi, published on January 15, 2015, 2014 IEEE-CIDM

【非特許文献3】A Novel Parameter-Free Energy Efficient Fuzzy Nearest Neighbor Classifier for Time Series Data, Penugonda Ravikumar, R. Uday Kiran, et.al., published July 11, 2021, 2021 FUZZ-IEEE

【発明の概要】

【発明が解決しようとする課題】

【0007】

最短ユークリッド距離法は、テスト時系列との間のユークリッド距離が最短の訓練データを検出し、テスト時系列を検出した訓練データのクラスに分類する。

【0008】

しかし、この方法では、テスト時系列の全イベント値と全訓練データの時系列の全イベント値とのユークリッド距離をそれぞれ計算する必要があるので、訓練データの時系列の数及び各時系列のイベント値の数が多いと計算量が膨大になる。また、テスト時系列のＮ個（前述の１０個）のタイムスタンプのイベント値に最も類似するＮ個のイベント値を持つ訓練データを検出するので、分類精度は高くない。なぜなら、このような最短ユークリッド距離法は、訓練データの複数の時系列のイベント値の分布を考慮していないからである。

【0009】

更に、マシンラーニングは、なぜその分類に決定したかを説明できないブラックボックス問題があり、パラメータが膨大で長時間の計算が必要であり、高価である。

【0010】

従来の時系列分類方法は、時系列内のイベント値のファジーな性質（fuzzy nature of the items within a time series）を考慮していない。すなわち、各クラスに属する複数の時系列は各タイムスタンプにおいて異なるイベント値を持ち、各タイムスタンプの異なるイベント値は所定の範囲内または分布内の値である。従来の最短ユークリッド距離法では、訓練データの時系列が各タイムスタンプにおいて単一のイベント値を持つ。そのため、時系列分類装置の精度に限界がある。

【0011】

そこで、本実施の形態の第1の側面の目的は、計算量が少なく低コストの計算方法で高精度に分類する時系列分類装置、時系列分類プログラム及び時系列分類方法を提供することにある。

【課題を解決するための手段】

【0012】

本実施の形態の第１の側面は、メモリと、前記メモリにアクセスするプロセッサとを有し、
前記プロセッサは、
（１）クラスがそれぞれラベリングされた複数の時系列を有する実訓練時系列データをクラス別に分割し、
（２）前記分割した各クラスの複数の時系列をそれぞれ有する各クラスの実訓練時系列データを、前記複数の時系列の各タイムスタンプのイベント値の最小値と、最大値と、前記最小値及び最大値の間の代表値をそれぞれ有する最小値時系列と、最大値時系列と、代表値時系列を有する各クラスの代表訓練時系列データにそれぞれ圧縮し、
（３）分類対象のテスト時系列の複数のタイムスタンプのイベント値それぞれに対する複数のファジーメンバーシップ値（以下ＦＭＳ値と称する。）を、前記各クラスの代表訓練時系列データに基づいて、クラス毎に算出し、
（４）前記複数のタイムスタンプのＦＭＳ値の平均値が最小のクラスを、前記テスト時系列のクラスに分類し、
前記（３）の処理で、前記テスト時系列のイベント値が、
前記最小値時系列のイベント値以下または前記最大値時系列のイベント値以上の場合、最大ＦＭＳ値を、
前記代表値時系列のイベント値と等しい場合、最小ＦＭＳ値を、
前記最小値時系列のイベント値から前記代表値時系列のイベント値の間の場合、前記テスト時系列のイベント値の増加に対応して前記最大ＦＭＳ値及び前記最小ＦＭＳ値の間の第１ＦＭＳ値から最小ＦＭＳ値に減少する第２ＦＭＳ値を、
前記代表値時系列のイベント値から前記最大値時系列のイベント値の間の場合、前記テスト時系列のイベント値の増加に対応して前記最小ＦＭＳ値から前記最小ＦＭＳ値及び前記最大ＦＭＳ値の間の第３ＦＭＳ値に増加する第４ＦＭＳ値を、
前記テスト時系列のイベント値のFMS値にそれぞれ算出する、時系列分類装置である。

【発明の効果】

【0013】

第１の側面によれば、時系列の分類を計算量が少なく低コスト且つ高精度に行うことができる。

【図面の簡単な説明】

【0014】

【図1】本実施の形態における時系列分類装置の構成を示す図である。

【図2】クラスラベルCL=2に対応付けられた実際の訓練時系列データTR_TSDB(CL=2)とテストデータの時系列データTST_TSDBを示す図である。

【図3】クラスラベルCL=1に対応付けられた実際の訓練時系列データTR_TSDB(CL=1)とテストデータの時系列データTST_TSDBを示す図である。

【図4】図２のクラスCL2の時系列ts1～ts8とテスト時系列tts17をプロットしたグラフを示す図である。

【図5】図３のクラスCL1の時系列データts9～ts16とテスト時系列tts17をプロットしたグラフを示す図である。

【図6】本実施の形態における時系列分類装置によるテストデータのテスト時系列の分類方法を示すフローチャート図である。

【図7】代表訓練時系列データRP_TSDBの生成処理S2の第１の例のフローチャートを示す図である。

【図8】処理S3のフローチャートを示す図である。

【図9】クラス２（cl₂)の代表訓練時系列データRP_TSDB₂の時系列とテスト時系列tts17の例を示す図である。

【図10】クラス１（cl₁)の代表訓練時系列データRP_TSDB₁の時系列とテスト時系列tts17の例を示す図である。

【図11】FMS関数μの第１の例を示す図である。

【図12】ユーザが与えるα、Δがα＝0.5、Δ＝0.1の場合のFMS値を算出するFMS関数μを示す図である。

【図13】テスト時系列ts17とクラスCL=2の代表訓練時系列データの５つの時系列ts_min_2, ts_β_2, ts_mean_2, ts_Γ_2, ts_max_2をプロットしたグラフの図である。

【図14】テスト時系列ts17とクラスCL=1の代表訓練時系列データの５つの時系列ts_min_2, ts_β_2, ts_mean_2, ts_Γ_2, ts_max_2をプロットしたグラフの図である。

【図15】代表訓練時系列データRP_TSDBの生成方法の第２の例のフローチャートを示す図である。

【図16】図１５の第２の例におけるFMS関数μを示す図である。

【発明を実施するための形態】

【0015】

図１は、本実施の形態における時系列分類装置の構成を示す図である。時系列分類装置１は、サーバ、クライアント端末、パーソナルコンピュータ、タブレット端末、スマートフォンなどのコンピュータである。時系列分類装置１は、プロセッサ１０と、メインメモリ１２と、ネットワークインタフェース１４と、ストレージ２０～２６と、それらを接続するバス２８を有する。ストレージには、時系列分類プログラム２０、実訓練時系列データ２２、クラス別の実訓練時系列データから生成された代表訓練時系列データ２４、分類対象のテスト時系列データ２６が格納される。ネットワークインタフェース１４は、ネットワークＮＷを介して複数のクライアント端末装置３０，３２と接続可能である。

【0016】

時系列分類プログラム２０は、メインメモリ１２内に展開され、プロセッサ１０により実行される。プロセッサ１０が、時系列分類プログラム２０を実行することで、実訓練時系列データ２２から代表訓練時系列データ２４を生成し、テスト時系列データ２６の各テスト時系列を分類する。

【0017】

単変数の時系列ts_idは、ある時間間隔で発生するイベント値の順番に収集されたものである。つまり、時系列ts_idは以下のように表される。
ts_id={v₁, v₂, ... v_c}
ここで、v_p (1≦p≦c）は、タイムスタンプpのイベント値を表す。時系列の長さ|ts_id|は、イベント値v_pの合計数cを表す。

【0018】

時系列データTSDBは、複数の時系列の集合である。つまり以下のとおりである。
TSDB={ts₁, ts₂, ... ts_k}, k≧1
時系列データのサイズ|TSDB|は、時系列データTSDB内に存在する時系列ts_idの合計数kである。|TSDB|=k

【0019】

以下のCLは、分類ラベル（クラスラベル）の集合である。ｎはクラス数である。
CL={CL₁, CL₂, ... CL_n}, n≧1

【0020】

時系列分類において、時系列データTSDBの要素である時系列ts_idそれぞれは、分類ラベル（クラスラベル）clkまたはcl_k（1≦k≦n）に対応付けられる。

【0021】

図２は、クラスラベルCL=2に対応付けられた実際の訓練時系列データTR_TSDB(CL=2)とテストデータの時系列データTST_TSDBを示す図である。図３は、クラスラベルCL=1に対応付けられた実際の訓練時系列データTR_TSDB(CL=1)とテストデータの時系列データTST_TSDBを示す図である。図２、３の訓練時系列データTR_TSDB(CL=2)、TR_TSDB(CL=1)は、図１の実訓練時系列データTR_TSDBであり、それぞれ８つの時系列ts1-ts8、ts9-ts16を有する。各時系列tsは時系列IDとして1～16が与えられる。図２、３のテストデータの時系列データTST_TSDBは１つのテスト時系列tts17のみが示される。

【0022】

図２の訓練時系列データTR_TSDB(CL=2)内の先頭の時系列TS1は以下のとおりである。
ts1：{10,9,8,8,7,6.9,6,6,4,3.8}:2
ここで、ts1は時系列であり、{10,9,8,8,7,6.9,6,6,4,3.8}は昇順のタイムスタンプのイベント値列である。また、この時系列のサイズは、|ts_id|=|{10,9,8,8,7,6.9,6,6,4,3.8}|=10である。つまり、図２の先頭の時系列は１０個のイベント値を含む。他の時系列ts2～ts16及びテスト時系列tts17も同様である。さらに、訓練時系列データTR_TSDB(CL=2)とTR_TSDB(CL=1)のサイズは|TSDB|=16、クラスラベルの集合はCL＝｛1,2｝である。

【0023】

図４は、図２のクラスCL2の時系列ts1～ts8とテスト時系列tts17をプロットしたグラフを示す図である。また、図５は、図３のクラスCL1の時系列データts9～ts16とテスト時系列tts17をプロットしたグラフを示す図である。図４、５共に、横軸がタイムスタンプ１～１０に、縦軸が各タイムスタンプのイベント値にそれぞれ対応する。また、テストデータのテスト時系列tts17は破線で示され、訓練データの時系列ts1～ts16は実線で示される。図４のクラスラベルCL2の訓練時系列データの時系列ts1～ts8（実線）と、図５のクラスラベルCL1の訓練時系列データの時系列ts9～ts16（実線）とは、グラフ上にプロットすると明らかに異なる領域に現れる。そして、図４、図５内に示したとおり、テストデータのテスト時系列tts17（破線）は、クラスラベルCL2の訓練時系列データの時系列ts1～ts8（実線）に類似することが視覚的には確認される。

【0024】

但し、実社会では、時系列分類モデルを構成する訓練時系列の数は膨大であり、更に、クラスラベルの数も多数である。そして、各クラスラベルに属する訓練時系列データの時系列のイベント値の領域は複雑に近似することが想定される。

【0025】

前述したとおり、従来の最短ユークリッド距離法では、テストデータのテスト時系列の全イベント値と訓練時系列データの全時系列の全イベント値とのユークリッド距離をそれぞれ計算する必要があるので、訓練時系列データの時系列の数及び各時系列のイベント値の数が多いと計算量が膨大になる。

【0026】

また、テストデータのテスト時系列のＮ個（前述の１０個）のタイムスタンプのイベント値に最も類似するＮ個のイベント値を持つ訓練時系列を検出するので、分類精度は高くない。なぜなら、最短ユークリッド距離法は、訓練時系列データのイベント値の分布を考慮していないからである。例えば、図４では、訓練時系列データのある時系列は他の時系列のイベント値と大きく異なるイベント値を有する。その場合、全イベント値のユークリッド距離の合計または平均は、訓練時系列データの分布から大きく外れたテスト時系列のイベント値に基づいて非常に大きな値を取ることがあり、そのような場合誤った分類が行われる場合がある。

【0027】

図６は、本実施の形態における時系列分類装置によるテストデータのテスト時系列の分類方法を示すフローチャート図である。図１に示したプロセッサは、時系列分類プログラム２０を実行して、以下の処理を実行する。

【0028】

即ち、プロセッサ１０は、複数クラスに分類された実訓練時系列データTR_TSDBを取得する（S1)。実訓練時系列データTR_TSDBは、例えば図２、図３に示した時系列データTR_TSDB(CL=2)、TR_TSDB(CL=1)である。実訓練時系列データTR_TSDBは、実際に取得された時系列の集合であり、時系列分類モデルの訓練時系列データである。

【0029】

次に、プロセッサ１０は、各クラスの実訓練時系列データTR_TSDBを各クラスの代表訓練時系列データRP_TSDBにそれぞれ圧縮（変換）する（S2)。代表訓練時系列データRP_TSDBは、各クラスの実訓練時系列データTR_TSDBに含まれる複数の時系列のタイムスタンプのイベント値の最小値min、第１パーセンタイルβ、代表値（平均値、中央値、最頻値、ミッドレンジ等）、第２パーセンタイルΓ、最大値maxの時系列を有する時系列データである。最小値、第１パーセンタイル、代表値、第２パーセンタイル、最大値は、複数の訓練時系列の各タイムスタンプのイベント値の分布を表す。詳細は後述する。

【0030】

そして、プロセッサ１０は、テスト時系列データTST_TSDBのテスト時系列について、当該テスト時系列のイベント値に対するファジーメンバーシップ値（以下FMS値と称する。）を、複数クラスの代表訓練時系列データそれぞれに基づいて算出する（S3)。即ち、テスト時系列の各イベント値に対して、クラス数と同じ数のFMS値が算出される。処理S3では、更にテスト時系列の各イベント値に対するFMS値の平均値がFMS距離FMSDとしてクラス別に算出される。

【0031】

具体的には、代表訓練時系列データの最小値未満、最小値、第１パーセンタイル、代表値、第２パーセンタイル、最大値、最大値超にはそれぞれのファジーメンバーシップ値FMS_Vが割り当てられる。例えば、最小値未満及び最大値超には最大FMS値、FMS_V=1.0が、代表値には最小FMS値、FMS_V=0が、最小値には最大FMS値と最小FMS値の間の第１FMS値、FMS_V=α=0.5を、最大値には最大FMS値と最小FMS値の間の第２FMS値、FMS_V=Δ=0.5などが割り当てられる。

【0032】

FMS値FMS_Vは０～１．０に正規化された値が好ましいが、代表値のFMS_Vが最小FMS値、最小値未満及び最大値超のFMS_Vが最大FMS値、最小値及び最大値のFMS_Vが最小FMS値と最大FMS値の間の値であればよい。詳細は図９、１０等で説明する。そして、テスト時系列のイベント値に対するFMS値FMS_Vが、代表訓練時系列データと上記割り当てられたFMS値に基づいて算出される。詳細は図８で説明する。

【0033】

その後、プロセッサ１０は、テスト時系列について、FMS値の平均が最小のクラスを、テスト時系列のクラスと決定する（S4)。FMS値が各タイムスタンプのイベント値の分布を考慮した値である。従って、上記のFMS値の平均値が最小のクラスと決定する方法は、実訓練時系列データのファジーな性質を考慮した方法である。

【0034】

図７は、代表訓練時系列データRP_TSDBの生成処理S2の第１の例のフローチャートを示す図である。時系列分類装置のプロセッサ１０は、時系列分類プログラム２０を実行し、以下の代表訓練時系列データRP_TSDBの生成処理S2を行う。

【0035】

プロセッサ１０は、実訓練時系列データTR_TSDBを取得する（S21)。そして、プロセッサは、各クラスの実訓練時系列データTR_TSDBについて、以下の処理S23-S25を実行する（S22-S26）。

【0036】

あるクラスの実訓練時系列データTR_TSDBは複数の時系列tsを含む。プロセッサは、あるクラスの複数の時系列tsについて、各タイムスタンプのイベント値vの最小値min、第１パーセンタイルβ、代表値（平均値、中央値、最頻値、ミッドレンジ等）のうち例えば平均値mean、第２パーセンタイルΓ、最大値maxを算出する（S23-S25)。平均値meanは代表値のいずれでも良い。本実施の形態では代表値の例として平均値meanを利用する。全てのクラスの実訓練時系列データについて、処理S23-S25が行われる。その結果、全てのクラスの実訓練時系列データTR_TSDBそれぞれに含まれる時系列の各タイムスタンプでのイベント値の最小値、第１パーセンタイル、平均値、第２パーセンタイル、最大値が算出される。

【0037】

具体的に説明する。実訓練時系列データTR_TSDBの各クラスclkの実訓練時系列データをTSDB_clkとする。以下のδを利用者が特定する統計的パラメータとする。
δ＝｛minimum, β-percentile, mean, Γ-percentile, maximum｝
プロセッサは、処理S24を実行することで、各クラスの統計的パラメータδを算出する。

【0038】

プロセッサは、各クラスの統計的パラメータδを使用して、膨大な数の時系列tsをそれぞれ含む各クラスcl_kの実訓練時系列データTSDB_clkを、小さな集合の代表訓練時系列データRP_TSDB（＾TSDB_clk（＾はTSDB_clkの上にある記号））に圧縮（または変換）する。
＾TSDB_clk＝{ts^min _clk, ts^β _clk, ts^mean _clk, ts^Γ _clk, ts^max _clk｝
上記の要素ts^min _clk, ts^β _clk, ts^mean _clk, ts^Γ _clk, ts^max _clkは、クラスcl_kの時系列データでそれぞれ計算したイベント毎のまたはタイムスタンプ毎のminimum, β-percentile, mean, Γ-percentile, maxをそれぞれ表す。

【0039】

クラスcl_kの実訓練時系列データTSDB_clkから代表訓練時系列データ＾TSDB_clkに圧縮（または変換）する数式は以下のとおりである。

【0040】

【数1】

ここで、ts_id.v_iは時系列ts_idのタイムスタンプiでのイベント値v_iを表す。また、第１パーセンタイルβ-percentileと第２パーセンタイルΓ-percentileは、利用者から与えられるパーセンタイルである。利用者はイベント値の分布に基づいて第１、第２パーセンタイルを設定する。式（１）は、最小値の時系列ts_min_clkは、クラスcl_kの実訓練時系列データTSDB_clkに属する全ての時系列ts_idのタイムスタンプiでのイベント値の最小値を、全タイムスタンプi=1～i=|ts_id|について集めた集合であることを意味する。他の式（２）～（５）も同様である。

【0041】

図９は、クラス２（cl₂)の代表訓練時系列データRP_TSDB₂の時系列とテスト時系列tts17の例を示す図である。図１０は、クラス１（cl₁)の代表訓練時系列データRP_TSDB₁の時系列とテスト時系列tts17の例を示す図である。この２つの代表訓練時系列データは、図２、図３のクラス２の実訓練時系列データTR_TSDB（CL=2）、クラス１の実訓練時系列データTR_TSDB（CL=1）からそれぞれ算出される。

【0042】

なお、図９内の時系列｛ts_min_2, ts_β_2, ts_mean_2, ts_Γ_2, ts_max_2｝は、クラスclk=cl₂の｛ts^min _clk, ts^β _clk, ts^mean _clk, ts^Γ _clk, ts^max _clk｝に対応する。図１０内の時系列｛ts_min_1, ts_β_1, ts_mean_1, ts_Γ_1, ts_max_1｝も同様である。

【0043】

例えば、図９の時系列ts_min_2のタイムスタンプ１のイベント値9.5は、図２の実訓練時系列データTR_TSDB（CL=2）の８つの時系列ts1～ts8のタイムスタンプ１のイベント値の最小値である。他のタイムスタンプ２～１０も同様である。また、図９の時系列ts_β_2、ts_mean_2、ts_Γ_2、ts_max_2の各タイムスタンプ２～１０のイベント値も、図２の実訓練時系列データTR_TSDB（CL=2）の８つの時系列ts1～ts8内のタイムスタンプ２～１０のイベント値のそれぞれβパーセンタイル、平均値、Γパーセンタイル、最大値である。

【0044】

図１０内の時系列｛ts_min_1, ts_β_1, ts_mean_1, ts_Γ_1, ts_max_1｝の１０個のイベント値も、同様に図２の実訓練時系列データTR_TSDB（CL=1）の８つの時系列ts9～ts16のタイムスタンプ１～１０のイベント値から算出される。

【0045】

図８は、処理S3のフローチャートを示す図である。処理S3では、プロセッサは、テスト時系列のイベント値に対するファジーメンバーシップ値を、代表訓練時系列データに基づいて算出した。つまり、プロセッサ１０は、まずテスト時系列データTST_TSDB内のテスト時系列ttsを取得する（S31)。そして、プロセッサは、各クラスcl_kの代表訓練時系列データRP_TSDBについて（S32-S37)、当該代表訓練時系列データの各時系列ts_min_clk～ts_max_clkのイベント値に基づいて、テスト時系列の各タイムスタンプ１－１０のイベント値に対するFMS値FMS_Vを算出する（S33-S35)。

【0046】

さらに、プロセッサは、テスト時系列の各タイムスタンプのイベント値に対するFMS値の平均値を算出する（S36)。このFMS値の平均値が、各クラスの代表訓練時系列データに対するテスト時系列のFMS距離（ファジーメンバーシップ距離）である。プロセッサは、テスト時系列と各クラスCLの代表訓練時系列データRP_TSDBとのFMS距離をそれぞれ算出する（S36,S37)。その後、プロセッサは、図６の処理S4に示すとおり、FMS値の平均値（FMS距離）が最小のクラスを、テスト時系列ttsのクラスと決定する（S4)。

【0047】

図８の処理S34で、プロセッサは、テスト時系列の各タイムスタンプのイベント値のFMS値を、代表訓練時系列データの各時系列ts_min_clk, ts_β_clk, ts_mean_clk, ts_Γ_clk, ts_max_clkに予め割り当てられたFMS値の補間演算等で算出する。

【0048】

具体的には、クラスcl_k（１≦k≦n）を推定することが必要なテスト時系列をtts_idとする。テスト時系列tts_idのイベント値と代表訓練時系列データRP_TSDBの複数のイベント値の分布との間の距離、FMS値、を決定するFMS関数μは、以下のとおりである。

【0049】

【数2】

ここで、μ_a=１、α、０、Δ、１の５個のFMS値は、（１）代表訓練時系列データRP_TSDBの時系列ts_min_clk以下のイベント値tts_id.v_a, （２）ts_min_clkとts_β_clkの間のイベント値tts_id.v_a, （３）ts_mean_clkのイベント値tts_id.v_a, （４）ts_Γ_clkとts_max_clkの間のイベント値tts_id.v_a, （５）ts_max_clk以上のイベント値tts_id.v_aそれぞれに対するFMS値FMS_Vである。そして、係数Aは、テスト時系列tts_idのイベント値tts_id.v_aが代表訓練時系列データRP_TSDBの時系列のイベント値ts_β_clk.v_a～ts_max_clk.v_aにある場合にFMS値を算出する補間演算の係数である。同様に、係数Bは、テスト時系列tts_idのイベント値tts_id.v_aが代表訓練時系列データRP_TSDBの時系列のイベント値ts_mean_clk.v_a～ts_Γ_clk.v_aにある場合にFMS値を算出する補間演算の係数である。

【0050】

図１１は、FMS関数μの第１の例を示す図である。横軸が時系列ts_idのタイムスタンプiのイベント値ts_id.v_iであり、縦軸がFMS値（＝μ）である。図１１に示す太い実線は、テスト時系列tts_idのイベント値tts_id.v_iが代表訓練時系列データRP_TSDBの時系列ts_min_clkのイベント値以下からts_max_clkのイベント値以上までに対応するFMS値FMS_Vを示す。

【0051】

図１１のFMS関数μは、テスト時系列tts_idのイベント値が以下の７つの場合(a)～(g)に応じて以下のFMS値μ_aを算出する。
(a) tts_id.v_a≦ts_min_clk.v_aの場合：μ_a=1
(b) ts_min_clk.v_a＜tts_id.v_a≦ts_β_clk.v_aの場合：μ_a=α
(c) ts_β_clk.v_a＜tts_id.v_a＜ts_mean_clk.v_aの場合：μ_a=α×A
(d) tts_id.v_a＝ts_mean_clk.v_aの場合：μ_a=０
(e) ts_mean_clk.v_a＜tts_id.v_a＜ts_Γ_clk.v_aの場合：μ_a=Δ×B
(f) ts_Γ_clk.v_a≦tts_id.v_a＜ts_max_clk.v_aの場合：μ_a=Δ
(g) tts_id.v_a≧ts_max_clk.v_aの場合：μ_a=1
A＝（ts_mean_clk.v_a －tts_id.v_a）／（ts_mean_clk.v_a －ts_β_clk.v_a )
B＝（tts_id.v_a－ts_mean_clk.v_a）／（ts_Γ_clk.v_a －ts_mean_clk.v_a)
上記において、０≦α≦１、０≦Δ≦１であり、aはタイムスタンプ、βとΓは０～１００の間のパーセンタイルから選択される。

【0052】

特に（b）では、ts_min_clk.v_a＜tts_id.v_a≦ts_β_clk.v_aの場合、μ_a=α×A（A＝１）と言える。よって、（b）と（c）とでテスト時系列のイベント値の増加に対応してFMS値＝αからFMS値＝０に減少する係数Aが、A＝１からA＝（ts_mean_clk.v_a －tts_id.v_a）／（ts_mean_clk.v_a －ts_β_clk.v_a )に変化するといえる。

【0053】

同様に、（f）では、ts_Γ_clk.v_a≦tts_id.v_a＜ts_max_clk.v_aの場合、μ_a=Δ×B（B＝１）と言える。よって、（f）と（e）とでテスト時系列のイベント値の増加に対応してFMS値＝０からFMS値＝Δに増加する係数Bが、B＝（tts_id.v_a－ts_mean_clk.v_a）／（ts_Γ_clk.v_a －ts_mean_clk.v_a)からB＝1に変化するといえる。

【0054】

上記のFMS関数の基本的考えは次の通りである。第１に、（a）（g）のように、もしテスト時系列のあるタイムスタンプのイベント値があるクラスの時系列のイベント値の最小値以下と最大値以上なら、FMS値μに１が与えられる。第２に、もしそうでなければ（（b）～（f）のように最小値と最大値の間にあるなら）、代表訓練時系列のイベント値の平均値に対する近さに応じて０から１の間のαとΔに対応する値α×A、Δ×BがFMS値μに与えられる。テスト時系列のイベント値がどのような値になるか予測できず、テスト時系列のイベント値が代表訓練時系列データの最小値よりかなり小さい値や、最大値よりかなり大きい値になった場合（(a)or(g)の場合）、そのFMS値が極端に大きくなることが回避できる。つまり、テスト時系列のイベント値のノイズにより、不適切なクラスへ分類されることが抑制される。

【0055】

第２に、テスト時系列のイベント値が代表訓練時系列データの最小値minと第１パーセンタイルβの間と、第２パーセンタイルΓと最大値maxの間の場合（（b）（f）の場合）は、実訓練時系列データの各タイムスタンプのイベント値の分布の両端の領域（極値）に対応する。そこで、（b）（f）のように、極値に対するFMS値μは一定値αまたはΔになる。これにより、テスト時系列のイベント値が分布の代表値である平均値に近く且つ極値ではないβからΓの間の場合に、そのFMS値μにより小さい値が与えられる。その結果、テスト時系列のイベント値が分布の平均値に近い領域の場合、FMS距離が小さくなり適切なクラスへの分類が促進される。

【0056】

図１２は、ユーザが与えるα、Δがα＝0.5、Δ＝0.1の場合のFMS値を算出するFMS関数μを示す図である。図９に示したクラスCL=2の代表訓練時系列データRP_TSDB₂に基づいてテスト時系列tts17のFMS値を算出する例を説明する。
（１）tts17の最初のイベント値は9.4である。この値はts_min_2=9.5よりも小さい為μ₁=1.0
（２）tts17の２番目のイベント値は10.2である。この値はts_Γ_2=10.2（≒10.15）と等しくμ₂=0.1
（３）tts17の３番目のイベント値は8.18である。この値はts_β_2=8とts_mean_2=8.54の間であり、μ₃=α×A=0.5×（8.54-8.18）/（8.54-8）=0.33
（４）tts17の４番目のイベント値は8.3である。この値はts_mean_2=7.9とts_Γ_2=8.46の間であり、μ₄=Δ×B=0.1×（8.3-7.9）/（8.46-7.9）=0.07
（５）同様の処理でtts17の残りのイベント値のFMS値の計算を繰り返して、μ₅～μ₁₀は、0.28、1、0.08、0.19、0.3、0.38となる。

【0057】

テスト時系列tts17の各タイムスタンプのFMS値μ₁～μ₁₀をクラス２の代表訓練時系列データに基づいて算出した後、プロセッサは、ファジーメンバーシップ距離FMSDを算出する（図６のS4）。具体的には、FMS距離FMSDはFMS値μ₁～μ₁₀の合計をタイムスタンプ数で除算したFMS値の平均値である。上記の例では、テスト時系列tts17とクラス２の代表訓練時系列データとのFMS距離は、FMSD＝0.849となる。

【0058】

同様に、プロセッサは、テスト時系列tts17の各タイムスタンプのFMS値μ₁～μ₁₀をクラス１の代表訓練時系列データに基づいて算出し、その平均値を算出する。

【0059】

そして、プロセッサは、テスト時系列tts17のFMS距離FMSDを残りの全てのクラスの代表訓練時系列データに基づいて算出する。テスト時系列tts17とクラスcl_kの代表訓練時系列データとのFMS距離は、０～１の値に正規化される。FMS距離が０に近いほどそのクラスに近く、FMS距離が１に近いほどそのクラスから遠い。よって、プロセッサは、最も小さいFMS距離FMSDに対応するクラスをテスト時系列tts17が属するクラスと決定する（図６のS4）。

【0060】

代表訓練時系列データの最小値時系列のイベント値ts_min_clk.va に対するFSM値αと、最大値時系列のイベント値ts_max_clk.va に対するFSM値Δは、ユーザにより選択される。例えば、FSM値αとΔは、時系列分類方法の評価工程を繰り返して実行して、最大の精度が得られる値に選択されても良い。また、第１パーセンタイルβと第２パーセンタイルΓも同様にして最適値が選択されてもよい。

【0061】

図１３は、テスト時系列tts17とクラスCL=2の代表訓練時系列データの５つの時系列ts_min_2, ts_β_2, ts_mean_2, ts_Γ_2, ts_max_2をプロットしたグラフの図である。それに対して、図１４は、テスト時系列tts17とクラスCL=1の代表訓練時系列データの５つの時系列ts_min_2, ts_β_2, ts_mean_2, ts_Γ_2, ts_max_2をプロットしたグラフの図である。

【0062】

図１３では、破線のテスト時系列tts17の各タイムスタンプのイベント値は、クラスCL=2の代表訓練時系列データの５つの時系列ts_min_2, ts_β_2, ts_mean_2, ts_Γ_2, ts_max_2による各タイムスタンプでの分布内にあり、多くのタイムスタンプで平均値の時系列ts_mean_2のイベント値に近い。一方、図１４では、破線のテスト時系列tts17の各タイムスタンプのイベント値の多くは、クラスCL=1の代表訓練時系列データの５つの時系列による分布の外にある。上記の具体例では、グラフに表すとテスト時系列tts17がクラス１よりクラス２に属することは比較的容易に判別できる。

【0063】

図１５は、代表訓練時系列データRP_TSDBの生成方法の第２の例のフローチャートを示す図である。図１５のフローチャートは、図７の第１の例のフローチャートとは処理S24_2が異なる。それ以外の処理は同じである。プロセッサは、ある分類の複数の時系列tsについて、各タイムスタンプのイベント値vの最小値min、代表値（平均値、中央値、最頻値、ミッドレンジ等）のうち例えば平均値mean、最大値maxを算出する（S23-S25)。平均値meanは代表値のいずれでも良い。つまり、図１５の第２の例では、図７の第１の例の第１パーセンタイルβと第２パーセンタイルΓは算出されない。

【0064】

図１６は、図１５の第２の例におけるFMS関数μを示す図である。図１１と同様に、横軸が時系列tsidのタイムスタンプiのイベント値tsid.viであり、縦軸がFMS値（＝μ）である。

【0065】

図１６のFMS関数μは、テスト時系列tts_idのイベント値tts_id.v_aが以下の５つの場合に応じて以下のFMS値μ_aを算出する。
(a) tts_id.v_a≦ts_min_clk.v_aの場合：μ_a=1
(c) ts_min_clk.v_a＜tts_id.v_a＜ts_mean_clk.v_aの場合：μ_a=α×A
(d) tts_id.v_a＝ts_mean_clk.v_aの場合：μ_a=０
(e) ts_mean_clk.v_a＜tts_id.v_a＜ts_max_clk.v_aの場合：μ_a=Δ×B
(g) tts_id.v_a≧ts_max_clk.v_aの場合：μ_a=1
A＝（ts_mean_clk.v_a －ttsid.v_a）／（ts_mean_clk.va －ts_min_clk.v_a )
B＝（ttsid.v_a－ts_mean_clk.v_a）／（ts_max_clk.va －ts_mean_clk.v_a )

【0066】

図１６の（c）は図１１の（b）（c）に対応し、図１６の（e）は図１１の（e）（f）に対応する。図１６の第２の例では、係数AとBに変化はない。

【0067】

図１１に示すFMS関数は、あるクラスの複数の時系列tsのイベント値の分布が、最小値側と最大値側に極値を有するノーマルな分布のための関数である。ノーマルな分布とは大きな度数のビンが中心に位置する分布である。

【0068】

また、図１２に示されるFSM関数は、あるクラスの複数の時系列tsのイベント値の分布が、スキュー分布（歪分布）のための関数である。スキュー分布とは大きい度数を有するビンが中心からずれた位置にある分布である。図１２の例は、大きい度数を有するビンが最大値側に偏ったスキュー分布に適するFMS関数である。

【0069】

更に、図１６に示すFMS関数は、あるクラスの複数の時系列tsのイベント値の分布が、最小値側と最大値側に極値を有していないノーマルな分布に適した関数である。分布の両端に極値がないので、このFMS関数は、図１１、１２のように、最小値minと第１パーセンタイルβの間をFMS値＝α、第２パーセンタイルΓと最大値maxの間をFMS値＝Δとする計算はない。図１１、１２に示すFMS関数は、分布の両端に極値がある分布に適した関数である。

【0070】

本実施の形態における時系列のファジー最近傍分類方法（Fuzzy NNC：Fuzzy Nearest Neighbor Classification）によれば、クラス毎の実訓練時系列データTR_TSDBからそれぞれ変換されたクラス毎の代表訓練時系列データRP_TSDBを使用してテスト時系列のクラスを決定する。従って、ファジー最近傍分類方法の計算量は、クラス数nのオーダ（Ｏ(n))である。それに対して、他の時系列分類法の計算量は、訓練時系列の数ｍのオーダ（Ｏ(m)）である。実世界の時系列データの時系列数ｍはクラス数ｎより遥かに多いので、ファジー最近傍分類法は他の時系列分類法より、メモリ容量、ランタイム時間、消費エネルギーの観点からより好ましい。

【0071】

本実施の形態におけるファジー最近傍分類法は、以下の２つの段階を有する。第1の段階はオフライン段階であり、プロセッサは、与えられた各クラスの実訓練時系列データTR_TSDBを各クラスの代表訓練時系列データRP_TSDBに圧縮する。第２の段階は、オンライン段階であり、プロセッサは、テスト時系列と代表訓練時系列データとの間のFMS距離を全クラスについてそれぞれ算出する。そして、プロセッサは最小のFMS距離のクラスをテスト時系列のクラスと決定する。

【0072】

以上の通り、本実施の形態によれば、少ないメモリ量、短いランタイム時間、少ない消費電力で且つ高精度に、テスト時系列を分類することができる。

【符号の説明】

【0073】

１：時系列分類装置
２０：時系列分類プログラム
２２、TR_TSDB：実訓練時系列データ
２４、RP_TSDB：代表訓練時系列データ
２６、TST_TSDB：テストデータの時系列データ
tsid、ts_id：時系列
TSDB：時系列データ
min：最小値
β：第１パーセンタイル
mean：平均値（代表値の一例）
Γ：第２パーセンタイル
max：最大値
FMS_V：ファジーメンバーシップ値
FMSD：ファジーメンバーシップ距離
clk、cl_k：クラス、分類

【図1】