IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士電機株式会社の特許一覧

特許7164060情報処理装置、情報処理方法及び情報処理プログラム
<>
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図1
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図2
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図3
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図4
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図5
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図6
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図7
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図8
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図9
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図10
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図11
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2022-10-24
(45)【発行日】2022-11-01
(54)【発明の名称】情報処理装置、情報処理方法及び情報処理プログラム
(51)【国際特許分類】
   G06F 16/906 20190101AFI20221025BHJP
   G06Q 50/04 20120101ALI20221025BHJP
【FI】
G06F16/906
G06Q50/04
【請求項の数】 10
(21)【出願番号】P 2022025592
(22)【出願日】2022-02-22
【審査請求日】2022-02-22
【早期審査対象出願】
(73)【特許権者】
【識別番号】000005234
【氏名又は名称】富士電機株式会社
(74)【代理人】
【識別番号】110000176
【氏名又は名称】一色国際特許業務法人
(72)【発明者】
【氏名】増田 達矢
(72)【発明者】
【氏名】石橋 直人
【審査官】三橋 竜太郎
(56)【参考文献】
【文献】特開2005-165632(JP,A)
【文献】特開2015-111332(JP,A)
【文献】米国特許出願公開第2015/0370814(US,A1)
【文献】特開2019-003238(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06Q 50/04
(57)【特許請求の範囲】
【請求項1】
所定のセンサから出力されるn個(nは2以上の自然数)の時系列データを取得する取得部と、
前記n個の時系列データのうちの2個の時系列データの間の類似度を示す指標を成分とし、前記n個と同じ数の行及び列を有する行列を計算する第1計算部と、
前記行列に対して固有値分解を行った結果に基づいて、前記n個の時系列データの夫々に対応し、m個(mは自然数)の特徴を示す特徴量データを計算する第2計算部と、
前記n個の時系列データの夫々に対応する前記特徴量データをクラスタに分割する分割部と、
を備える情報処理装置。
【請求項2】
請求項1に記載の情報処理装置であって、
分割された一のクラスタに属する前記特徴量データの前記m個の特徴のうち、少なくとも1個の特徴に対する所定の統計量を計算する第3計算部と、
前記少なくとも1個の特徴と、前記所定の統計量との関係を示す第1グラフを表示する第1表示部と、を更に備える、
情報処理装置。
【請求項3】
請求項2に記載の情報処理装置であって、
前記第1表示部は、前記第1グラフとして、ヒストグラムと、カーネル密度推定による確率密度を示すグラフとのうち少なくとも一を表示する、
情報処理装置。
【請求項4】
請求項1に記載の情報処理装置であって、
前記m個の特徴を示す前記特徴量データの散布図と、前記分割部が分割したクラスタの重心の散布図とのうち少なくとも一を第2グラフとして表示する第2表示部を更に備える、
情報処理装置。
【請求項5】
請求項1~4のいずれか1項に記載の情報処理装置であって、
前記m個は、2個又は3個である、
情報処理装置。
【請求項6】
請求項1に記載の情報処理装置であって、
前記n個の時系列データの夫々に対し、前記n個の時系列データの夫々に対応するクラスタを示すラベルが紐づけられたデータを作成するデータ作成部を更に備える、
情報処理装置。
【請求項7】
請求項6に記載の情報処理装置であって、
一のクラスタを示すラベルが紐づけられたデータに基づく時系列波形を示す第3グラフを表示する第3表示部を更に備える、
情報処理装置。
【請求項8】
請求項1~7の何れか1項に記載の情報処理装置であって、
前記第1計算部は、前記類似度を示す指標として、動的時間伸縮法で定義される距離を計算する、
情報処理装置。
【請求項9】
情報処理装置が、
所定のセンサから出力されるn個の時系列データを取得するステップと、
前記n個の時系列データのうちの2個の時系列データの間の類似度を示す指標を成分とし、前記n個と同じ数の行及び列を有する行列を計算するステップと、
前記行列に対して固有値分解を行った結果に基づいて、前記n個の時系列データの夫々に対応し、m個の特徴を示す特徴量データを計算するステップと、
前記n個の時系列データの夫々に対応する前記特徴量データをクラスタに分割するステップと、
実行する情報処理方法。
【請求項10】
コンピュータに、
所定のセンサから出力されるn個の時系列データを取得する取得部と、
前記n個の時系列データのうちの2個の時系列データの間の類似度を示す指標を成分とし、前記n個と同じ数の行及び列を有する行列を計算する第1計算部と、
前記行列に対して固有値分解を行った結果に基づいて、前記n個の時系列データの夫々に対応し、m個の特徴を示す特徴量データを計算する第2計算部と、
前記n個の時系列データの夫々に対応する前記特徴量データをクラスタに分割する分割部と、
を実現させる情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。
【背景技術】
【0002】
近年、工場の設備等に設置されたセンサから出力されるデータを複数収集し、例えば機械学習を用いて、設備等の予測モデルの構築が行われている。
【0003】
また、例えば特許文献1には、収集した複数のデータを、データ間の類似度に基づいて複数のクラスタに分割し、クラスタ毎に予測モデルを構築する技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特許6637206号
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、特許文献1の技術は、複数の時系列データ(所定の期間における対象の状態の時間的な変化を示すデータ)をクラスタに分割する技術ではないが、複数の時系列データをクラスタに分割する技術としては、例えば時系列k-means等が知られている。
【0006】
しかしながら、一般的に時系列k-means等の所謂時系列クラスタリングは、比較的高い精度で複数の時系列データをクラスタに分割できるものの、処理が複雑であるため、計算量が多くなる場合がある。
【0007】
本発明はこのような課題を鑑みてなされたものであり、複数の時系列データを、容易に精度良くクラスタに分割することが可能な情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するための一の発明は、所定のセンサから出力されるn個(nは2以上の自然数)の時系列データを取得する取得部と、前記n個の時系列データのうちの2個の時系列データの間の類似度を示す指標を成分とし、前記n個と同じ数の行及び列を有する行列を計算する第1計算部と、前記行列に対して固有値分解を行った結果に基づいて、前記n個の時系列データの夫々に対応し、m個(mは自然数)の特徴を示す特徴量データを計算する第2計算部と、前記n個の時系列データの夫々に対応する前記特徴量データをクラスタに分割する分割部と、を備える情報処理装置情報処理装置である。本発明の他の特徴については、本明細書の記載により明らかにする。
【発明の効果】
【0009】
本発明によれば、複数の時系列データを、容易に精度良くクラスタに分割することが可能となる。
【図面の簡単な説明】
【0010】
図1】実施形態の情報処理装置1のハードウェア構成を説明する図である。
図2】実施形態の時系列データの一例を説明する図である。
図3】実施形態の時系列データの波形の一例を示す図である。
図4】実施形態の情報処理装置1の機能ブロックを説明する図である。
図5】実施形態の情報処理装置1が各種グラフを表示するまでの処理を説明するフローチャートである。
図6】実施形態の情報処理装置1による計算の過程を説明する図である。
図7】バッチプロセス毎の時系列データの波形を説明する図である。
図8】特徴量データの散布図の一例である。
図9】特徴量データを分割した結果の一例を示す図である。
図10】第1表示部115によって表示されるグラフの一例を示す図である。
図11】第1表示部115によって表示されるグラフの一例を示す図である。
図12】第3表示部118によって表示されるグラフの一例を示す図である。
【発明を実施するための形態】
【0011】
==実施形態==
<<情報処理装置>>
情報処理装置1は、複数の時系列データを、データ間の類似度に基づいてクラスタに分割するための装置である。以下、情報処理装置1のハードウェア構成、情報処理装置1が扱う時系列データ及び情報処理装置1の機能ブロックの順に説明する。
【0012】
<情報処理装置1のハードウェア構成>
図1は、本発明の一実施形態である情報処理装置1のハードウェア構成を説明する図である。
【0013】
本実施形態では、情報処理装置1は、サーバ室に設置されている。また、情報処理装置1は、工場に設置された対象装置2と、ネットワークNWを介して接続されている。対象装置2には、センサ20が設置され、情報処理装置1は、ネットワークNWを介してセンサ20の計測値を取得することができる。
【0014】
対象装置2は、例えば、その運転についての予測モデルを構築する対象となる装置である。対象装置2の具体例としてはモータが挙げられる。センサ20は、例えば、温度センサ、圧力センサ、振動センサ等が挙げられるが、対象装置2の状態を監視するためのセンサでれば特に制限はない。なお、図1の例では1つのセンサ20が示されているが、複数の異なる種類のセンサが対象装置2に設置されていてもよい。
【0015】
情報処理装置1は、CPU(Central Processing Unit)100と、メモリ101と、通信装置102と、記憶装置103と、入力装置104と、出力装置105と、記録媒体読取装置106とを有するコンピュータである。
【0016】
[CPU100]
CPU100は、メモリ101や記憶装置103に記憶された情報処理プログラムを実行することにより、情報処理装置1が有する様々な機能を実現する。
【0017】
[メモリ101]
メモリ101は、例えばRAM(Random-Access Memory)等であり、様々なプログラムやデータ等の一時的な記憶領域として用いられる。
【0018】
[記憶装置103]
記憶装置103は、CPU100によって、実行または処理される各種データを格納する非一時的な(例えば不揮発性の)記憶装置103である。
【0019】
記憶装置103には、複数の時系列データが記憶されている。複数の時系列データは、対象装置2に設置されたセンサ20によって計測されたデータである。時系列データの詳細は後述する。
【0020】
[入力装置104]
入力装置104は、ユーザによるコマンドやデータの入力を受け付ける装置であり、キーボード、タッチパネルディスプレイ上でのタッチ位置を検出するタッチセンサなどの入力インタフェースを含む。
【0021】
[出力装置105]
出力装置105は、例えばディスプレイやプリンタなどの装置である。
【0022】
[通信装置102]
通信装置102は、ネットワークNWを介して、他のコンピュータと各種プログラムやデータの受け渡しを行ったり、各種装置と出力データの受け渡しを行ったりする。
【0023】
[記録媒体読取装置106]
記録媒体読取装置106は、SDカードやDVD、CDROM等の記録媒体3に記録された情報処理プログラム等の様々なデータを読み取り、記憶装置103に格納する。
【0024】
<時系列データ>
時系列データは、所定の期間における対象装置2の状態の時間的な変化を示すデータである。
【0025】
本明細書では、「所定の期間」とは、対象装置2が実行する1回の工程の、開始から終了までの期間である。なお、対象装置2が実行する1回の工程を「バッチプロセス」とも称する。
【0026】
また、「対象装置2の状態」とは、対象装置2に設置されたセンサ20の計測値とする。また、「対象装置2の状態の時間的な変化を示すデータ」とは、複数の時刻におけるセンサ20の計測値のセットとする。
【0027】
つまり、本明細書では、一の時系列データは、一のバッチプロセスの開始から終了までの期間内の複数の時刻におけるセンサの計測値のセットである。
【0028】
図2は、上述した記憶装置103に記憶された複数の時系列データを説明する図である。一行目の「No.」は、バッチプロセスを識別するための識別子である。なお、バッチプロセスを識別するための識別子は、時系列データを識別するための識別子でもある。
【0029】
また、一行目の「Time 1」~「Time N」は、バッチプロセスの開始からの経過時間である。センサ20は、「Time 1」~「Time N」の夫々の時間において計測値を出力する。
【0030】
図2において、各行には、互いに異なるn回のバッチプロセス(Batch 1~Batch n)の夫々に対応する時系列データが示されている。つまり、図2には、n個の時系列データが示されている。ここで、nは2以上の自然数である。
【0031】
n個の時系列データの夫々は、時間Time 1、Time 2、・・・、Time Nにおけるセンサ20の計測値で構成されるデータである。
【0032】
図3は、時系列データの波形の一例を示す図である。図3は、横軸をバッチプロセスの開始からの経過時間t、縦軸をセンサ20の計測値(例えば、センサ20が圧力センサの場合は圧力)として、図2のn個の時系列データのうち、一の時系列データをプロットしたものである。
【0033】
なお、図3において、縦軸(センサ20の出力値)の上方向は正であり、縦軸の0は、横軸との交点よりも上方に位置する。そのため、図2において時間Time 1、Time 2及びTime Nでは負の値であるが、ここで省略されている時間(時間Time 1、Time 2及びTime N以外の時間)では正の値も取り得る。
【0034】
ところで、複数の時系列データをクラスタに分割する手法として、時系列k-means等の時系列クラスタリングの手法が知られている。時系列クラスタリングにおいては、一の時系列データを、各時間におけるセンサ20の計測値を成分とする一のベクトルとして、複数のベクトルをクラスタに分割する。
【0035】
しかしながら、ベクトルの次元の数(本実施形態の場合、Nがベクトルの次元数となる)によっては、時系列クラスタリングは計算量が多大になる。
【0036】
情報処理装置1は、以下に説明するように、このような複数の時系列データであっても、容易に精度良くクラスタに分割することを可能とする装置である。
【0037】
<情報処理装置1の機能ブロック>
図4は、情報処理装置1の機能ブロックを説明する図である。取得部110と、第1計算部111と、第2計算部112と、分割部113と、第3計算部114と、第1表示部115と、第2表示部116と、データ作成部117と、第3表示部118とを含む。これらの各機能は、情報処理装置1のハードウェアによって本実施形態に係る情報処理プログラムが実行されることにより実現される。
【0038】
[取得部110]
取得部110は、所定のセンサ20から出力される複数個の時系列データを取得する。以下、取得部110が取得する時系列データの数をn個(nは2以上の自然数)として説明する。
【0039】
本実施形態では、n個の時系列データは、ネットワークNWを介してセンサ20から情報処理装置1に受け渡され、記憶装置103に記憶されている。取得部110は、記憶装置103から、n個の時系列データを取得する。
【0040】
[第1計算部111]
第1計算部111は、取得部110が取得したn個の時系列データの間の距離に基づく行列を計算する。なお、以下の説明では、時系列データ間の距離に基づく行列を「距離行列」と称することがある。
【0041】
本実施形態では、第1計算部111は、時系列データ間の距離として、動的時間伸縮法で定義される距離を計算する。従って、本実施形態では、距離行列は、動的時間伸縮法によって定義された距離を成分とする行列である。
【0042】
なお、第1計算部111によって計算される行列としては、この例に限られず、類似度を示す指標に基づく行列であればよい。
【0043】
ここで、「類似度を示す指標」としては、例えば、余弦類似度、相関係数、各種定義されたデータ間の距離等が挙げられる。データ間の距離としては、上記の例以外に、例えば、ユークリッド距離、マンハッタン距離、動的時間伸縮法によって定義された距離等が挙げられる。
【0044】
つまり、類似度を示す指標としては、2個のデータが一致する場合に値が最大となる指標であってもよく、2個のデータが一致する場合に値が最小となる指標であってもよい。
【0045】
例えば、余弦類似度及び相関係数は、2つのデータが一致する場合に値が+1で最大となる指標である。一方、各種定義されたデータ間の距離は、2つのデータが一致する場合に値が最小で0となる指標である。
【0046】
なお、上述のような既存の類似度を示す指標に対して、その値域を変動させる変換を施すことにより、新たな類似度を示す指標として定義してもよい。
【0047】
例えば、余弦類似度の値域は-1以上+1以下であり、2つのデータが一致する場合に+1(最大)となる。これに対し、余弦類似度に-1を乗じ、更に+1を加えたものを、類似度を示す指標として用いてもよい。このように定義された指標の値域は、0以上+2以下であり、2つのデータが一致する場合に値が0(最小)となる。
【0048】
また、詳細は後述するが、「類似度を示す指標に基づく行列」とは、n個の時系列データのうちの2個の時系列データの間の類似度を示す指標を成分とする行列である。この行列は、n個と同じ数の行及び列を有する行列である。
【0049】
[第2計算部112]
第2計算部112は、上述の距離行列に対して固有値分解を行った結果に基づいて、特徴量データを計算する。具体的には、第2計算部112は、多次元尺度構成法を用いて特徴量データを計算する。
【0050】
ここで、「固有値分解」とは、解析の対象となる行列に対する固有値方程式から固有値を求め、固有値の夫々に対応する固有ベクトルを求める手法である。
【0051】
また、「多次元尺度構成法」とは、類似度に基づく行列が距離行列である場合に固有値分解を用いる手法である。多次元尺度構成法は、複数のデータのうち任意の2つのデータ間の距離が与えられた場合に、距離が近い2つのデータは互いに近く、距離が遠い2つのデータは互いに遠く配置されるようなデータの座標を求める方法である。
【0052】
ここで、得られる特徴量データの数は、時系列データの数と同じであるn個であり、n個の特徴量データの夫々は、n個の時系列データの夫々に対応する。
【0053】
また、詳細は後述するが、特徴量データの夫々は、m個(mは自然数)の特徴を示すデータである。ここでのm個は、多次元尺度構成法において、1個から最大でn個(時系列データの数)までの何れかを選択することができる。
【0054】
[分割部113]
分割部113は、n個の時系列データの夫々に対応する特徴量データをクラスタに分割する。
【0055】
つまり、分割部113は、n個の特徴量データをクラスタに分割するのであって、n個の時系列データをクラスタに分割するのではない。そのため、情報処理装置1によれば、時系列クラスタリングのような計算量が多大になるアプローチを回避することができる。
【0056】
特徴量データの夫々は、m個の特徴を示すデータであるため、m個の成分を有する。従って、分割部113は、特徴を示すm次元の空間(以下、「特徴量空間)と称する)において、n個の特徴量データをクラスタに分割する。
【0057】
本実施形態では、分割部113は、混合ガウスモデルを用いて、特徴量データをクラスタに分割する。
【0058】
なお、クラスタに分割する手法としては、混合ガウスモデルを用いた手法に限られず、複数の手法から選択することができる。クラスタに分割する手法は、予めクラスタの数を仮定する手法であってもよく、予めクラスタの数を仮定しない(クラスタの数を自動的に推定する)手法であってもよい。
【0059】
予めクラスタの数を仮定する手法としては、例えば、k-means、スペクトラル・クラスタリング等を選択することができる。予めクラスタの数を仮定しない手法としては、例えば、混合ガウスモデル、x-means、DBSCAN(Density-based spatial clustering of applications with noise)等を選択することができる。
【0060】
[第3計算部114]
第3計算部114は、分割された一のクラスタに属する特徴量データのm個の特徴のうち、少なくとも1個の特徴に対する所定の統計量を計算する。
【0061】
ここで、「所定の統計量」とは、後述する第1表示部115によって表示されるグラフの元となる統計量であって、例えば、特徴量データの、各特徴についての分布を示す統計量である。分布を示す統計量としては、例えば、ヒストグラム、カーネル密度推定による確率密度等である(詳細は後述)。
【0062】
[データ作成部117]
データ作成部117は、n個の時系列データの夫々に対し、n個の時系列データの夫々に対応するクラスタを示すラベルが紐づけられたデータを作成する。
【0063】
前述のように、n個の特徴量データが、分割部113によってクラスタに分割される。このとき、クラスタの夫々には、夫々を示すラベルが付与される。これによって、n個の特徴量データの夫々は、分類されるクラスタに付与されたラベルが紐づけられることになる。
【0064】
更に、n個の特徴量データの夫々に紐づけられたラベルは、n個の特徴量データの夫々に対応するn個の時系列データの夫々にも紐づけられる。
【0065】
[第1表示部115]
第1表示部115は、少なくとも1個の特徴と、所定の統計量との関係を示すグラフ(第1グラフに相当)を表示する。ここでの所定の統計量とは、第3計算部114によって計算された統計量である。
【0066】
第1表示部115は、ここでのグラフとして、ヒストグラムと、カーネル密度推定による確率密度を示すグラフとのうち少なくとも一を表示する。
【0067】
[第2表示部116]
第2表示部116は、m個の特徴を示す特徴量データの散布図と、分割部113が分割したクラスタの重心の散布図とのうち少なくとも一を示すグラフ(第2グラフに相当)を表示する。
【0068】
[第3表示部118]
第3表示部118は、一のクラスタを示すラベルが紐づけられたデータに基づく時系列データの波形を示すグラフ(第3グラフに相当)を表示する。
【0069】
<グラフを表示するまでの処理>
情報処理装置1の処理の流れについて、具体例を示しながら詳細に説明する。図5は、情報処理装置1がグラフを表示するまでの処理の流れを説明するフローチャートである。グラフを表示するまでの処理は、ステップS101~ステップS109を含んでいる。図6は、情報処理装置1による計算の過程を説明する図である。
【0070】
なお、以下の説明では、上述した時系列データの数(n)を500とする。また、特徴量データの夫々の成分である特徴の数(m)を2とする。また、1回のバッチプロセスにおいてセンサ20が計測値を出力する回数であって、一の時系列データに含まれる計測値の数(N)を100とする。
【0071】
先ず、ステップS101において、取得部110は、図6(a)及び図7に示す、センサ20から出力される500個の時系列データを取得する。
【0072】
図6(a)には、取得部110が取得した500個の時系列データDtが、バッチプロセス(Batch 1~Batch 500)毎に各行に示されている。
【0073】
図7は、図6(a)に示されたバッチプロセス(Batch 1~Batch 500)毎の時系列データDtの波形を説明する図であって、一部のバッチプロセスについて示している。
【0074】
なお、図7において、縦軸(センサ20の出力値)の上方向は正であり、縦軸の0は、横軸との交点よりも上方に位置する。そのため、図6(a)において時間Time 1、Time 2及びTime 500では負の値であるが、ここで省略されている時間(時間Time 1、Time 2及びTime 500以外の時間)では正の値も取り得る。
【0075】
次いで、ステップS102において、第1計算部111は、ステップS101において取得部110が取得した500個の時系列データDtの間の類似度を示す指標に基づく行列(本実施形態では、距離行列)を計算する。
【0076】
図6(b)には、第1計算部111が計算した距離行列Mdが示されている。ここで、i行j列のセルには、距離行列Mdのi行j列の成分が示されている(1≦i≦500,1≦j≦500)。なお、ここでの距離行列Mdは、500行500列の正方行列であり、対角成分は全て0である。
【0077】
例えば、1行1列のセルには距離行列Mdの1行1列の成分が示され、値は0.00である。距離行列Mdの1行1列の成分は、Batch 1に対応する時系列データDtと、Batch 1に対応する時系列データDt(つまり、いずれもBatch 1に対応する時系列データDt)との間の距離である。また、1行2列のセルには距離行列Mdの1行2列の成分が示され、値は3.273である。距離行列Mdの1行2列の成分は、Batch 1に対応する時系列データDtと、Batch 2に対応する時系列データDtとの間の距離である。
【0078】
本実施形態では、距離行列Mdの各成分は、動的時間伸縮法で定義される距離である。つまり、距離行列Mdのi行j列の成分は、500個の時系列データDtのうち、Batch iに対応する時系列データDtと、Batch jに対応する時系列データDtとの間の、動的時間伸縮法で定義される距離である(1≦i≦500,1≦j≦500)。
【0079】
次いで、ステップS103において、第2計算部112は、ステップS102において第1計算部111が計算した距離行列Mdに対して固有値分解を行った結果に基づいて、2個の特徴(特徴X0及び特徴X1)を示す特徴量データを計算する(図6(c)参照)。
【0080】
特徴量データの夫々は、本実施形態では2個の特徴を示すデータとしたが、一般にm個(mは自然数)の特徴を示すデータである。m個の値としては、好ましくは2個又は3個である。詳細は後述するが、m個が2個又は3個であると、特徴量データを、現実的な2次元又は3次元の空間における散布図として表現することができるため、データ間の距離又は類似度を視覚的に理解しやすくなる。
【0081】
図6(c)は、第2計算部112が計算した特徴量データDfが示されている。特徴量データDfの夫々は、2個の特徴(特徴X0及び特徴X1)を示すデータである。
【0082】
具体的には、例えば、1番目のバッチプロセス(Batch 1)に対応する特徴量データDfの特徴X0の値は0.795であり、特徴X1の値は-0.155である。
【0083】
図8は、図6(c)に示した500個の特徴量データDfの散布図である。図8は、横軸を特徴X0、縦軸を特徴X1とした2次元の特徴量空間における500個の特徴量データDfの散布図である。
【0084】
なお、図8の散布図から、500個の特徴量データDfが、概ね3個のクラスタに分割されることが視覚的に容易に予測される。
【0085】
次いで、ステップS104において、分割部113は、図9に示すように、ステップS103において第2計算部112が計算した特徴量データDfを、クラスタに分割する。本実施形態では、分割部113は、混合ガウスモデルを用いて、500個の特徴量データDfをクラスタに分割する。
【0086】
図9は、500個の特徴量データDfを分割した結果を示す図である。図9は、図8と同様の特徴量空間において示されている。
【0087】
この例では、500個の特徴量データDfは、3個のクラスタに分割されている。また、分割された3個のクラスタの夫々は、クラスタID(0、1又は2)で識別されている。クラスタIDが0、1及び2のクラスタに分類された特徴量データDfは夫々、丸、三角及び四角のマーカーで示されている。
【0088】
次いで、ステップS105において、第3計算部114は、ステップS104において分割部113が分割したクラスタに属する特徴量データDfの特徴に対する所定の統計量を計算する。
【0089】
ここでの所定の統計量とは、特徴量データDfの2個の特徴(特徴X0及び特徴X1)についての分布を示す統計量である。この例では、分布を示す統計量としては、ヒストグラム及びカーネル密度推定による確率密度である。
【0090】
次いで、ステップS106において、データ作成部117は、図6(e)に示すように、500個の時系列データDtの夫々に対し、500個の時系列データDtの夫々に対応するクラスタを示すラベルが紐づけられたデータを作成する。
【0091】
このステップにおいて、データ作成部117は、先ず、図6(d)に示すように、500個の特徴量データDfの夫々に対し、夫々に対応するクラスタを示すラベルが紐づけられたデータを作成する。
【0092】
図6(d)は、500個の特徴量データDfの夫々に対し、夫々に対応するクラスタを示すラベル(Label)が紐づけられたデータを示している。ここでのクラスタを示すラベルとは、図9に示したクラスタIDを示す値であり、0、1又は2にいずれかである。
【0093】
具体的には、1番目のバッチプロセス(Batch 1)に対応する特徴量データDfは、クラスタIDが1で識別されるクラスタに分類されていることから、クラスタを示すラベルとして1が紐付けられている。同様に、2番目のバッチプロセス(Batch 2)に対応する特徴量データDfは、クラスタを示すラベルとして2が紐付けられている。
【0094】
データ作成部117は、次いで、500個の時系列データDtの夫々に対し、夫々に対応する特徴量データDfに紐づけられたラベル(図6(d))と同じラベルが紐づけられたデータを作成する。
【0095】
図6(e)は、500個の時系列データDtの夫々に対し、夫々に対応するクラスタを示すラベルが紐づけられたデータを示している。
【0096】
具体的には、例えば図6(d)に示すように、1番目のバッチプロセス(Batch 1)に対応する時系列データDtは、対応する特徴量データDfが、クラスタIDが1で識別されるクラスタに分類されていることから、クラスタを示すラベルとして1が紐付けられている。同様に、2番目のバッチプロセス(Batch 2)に対応する時系列データDtは、クラスタを示すラベルとして2が紐付けられている。
【0097】
次いで、ステップS107において、第1表示部115は、図10に示すように、特徴(特徴X0及び特徴X1)と、所定の統計量との関係を示すグラフG1を表示する。ここでの所定の統計量とは、ステップS105において、第3計算部114によって計算された統計量である。
【0098】
グラフG1は、4個のグラフ(グラフG1a、グラフG1b、グラフG1c及び、グラフG1d)を含んでいる。
【0099】
なお、グラフG1a及びグラフG1cにおいて、クラスタIDが0のデータには符号C0を付し、クラスタIDが1のデータには符号C1を付し、クラスタIDが2のデータには符号C2を付して示している。また、グラフG1b及びグラフG1dにおいて、クラスタIDが0のデータは実線で示し、クラスタIDが1のデータは点線で示し、クラスタIDが2のデータは一点鎖線で示している。
【0100】
グラフG1aは、500個の特徴量データDfの散布図であって、横軸を特徴X0、縦軸を特徴X1として示したグラフである。つまり、グラフG1aは、図8の散布図と同一のグラフである。
【0101】
グラフG1bは、500個の特徴量データDfの、特徴X0についてのヒストグラムである。グラフG1bの横軸は、グラフG1aの横軸と同様に特徴X0である。グラフG1bの縦軸は、特徴X0の値の所定の区間に属する特徴量データDfの数であって、クラスタ毎に示している。
【0102】
グラフG1cは、500個の特徴量データDfの散布図であって、横軸を特徴X1、縦軸を特徴X0として示したグラフである。つまり、グラフG1cは、グラフG1aの縦軸と横軸を入れ替えて表示したグラフである。
【0103】
グラフG1dは、500個の特徴量データDfの、特徴X1についてのヒストグラムである。グラフG1dの横軸は、グラフG1cの横軸と同様に特徴X1である。グラフG1dの縦軸は、特徴X1の値の所定の区間に属する特徴量データDfの数であって、クラスタ毎に示している。
【0104】
また、図11は、このステップS107において第1表示部115によって更に表示されるグラフG2である。グラフG2は、4個のグラフ(グラフG2a、グラフG2b、グラフG2c及び、グラフG2d)を含んでいる。
【0105】
なお、図10と同様に、グラフG2a及びグラフG2cにおいて、クラスタIDが0のデータには符号C0を付し、クラスタIDが1のデータには符号C1を付し、クラスタIDが2のデータには符号C2を付して示している。また、グラフG2b及びグラフG2dにおいて、クラスタIDが0のデータは実線で示し、クラスタIDが1のデータは点線で示し、クラスタIDが2のデータは一点鎖線で示している。
【0106】
グラフG2a及びグラフG2cは夫々、図10に示したグラフG1a及びグラフG1cと同一のグラフである。
【0107】
グラフG2c及びグラフG2dは夫々、図10に示したグラフG1c及びグラフG1dに対し、ヒストグラムに代えてカーネル密度推定の結果としたグラフである。
【0108】
次いで、ステップS108において、第2表示部116は、図9又は図10に示すように、2個の特徴を示す特徴量データDfの散布図と、分割部113が分割したクラスタの重心の散布図とを示すグラフを表示する。
【0109】
2個の特徴を示す特徴量データDfの散布図を示すグラフは、図9図10のG1a、G1c、図11のG2a、G2cに示したグラフである。クラスタの重心の散布図は、前述の2個の特徴を示す特徴量データDfの散布図と共に、クラスタIDが0、1及び2のクラスタの夫々の重心に対応する位置に、夫々の重心を示すマーカーを配置したグラフとすればよい。
【0110】
次いで、ステップS109において、第3表示部118は、図12に示すように、一のクラスタを示すラベルが紐づけられたデータに基づく時系列データDtの波形を示すグラフG3を表示する。
【0111】
図12は、このステップにおいて第3表示部118によって更に表示されるグラフG3である。グラフG3は、3個のグラフ(グラフG3a、グラフG3b及びグラフG3c)を含んでいる。
【0112】
グラフG3a、グラフG3b及びグラフG3cは夫々、クラスタを示すラベルが0、1及び2のクラスタに分類された時系列データDtのうち、最も典型的なものとして選択された時系列データDtの波形を示す図である。
【0113】
ここで、最も典型的なものとして選択された時系列データDtとしては、クラスタ示すラベルが0、1及び2のクラスタ夫々の重心に最も距離が近い時系列データDtを選択すればよい。
【0114】
なお、例えばグラフG3aの他の例として、クラスタ示すラベルが0のクラスタに分類された時系列データDtの一部又は全部を選択し、選択された全ての時系列データDtの波形を示してもよい。時系列データDtの一部を選択する場合には、クラスタ示すラベルが0のクラスタの重心から所定の距離以内である時系列データDtを選択してもよい。グラフG3b及びグラフG3cについても同様である。
【0115】
また、グラフG3では、クラスタ毎に異なるグラフ(グラフG3a、グラフG3b及びグラフG3c)に時系列データDtの波形を示したが、これに限られない。他の例として、クラスタ示すラベルが0、1及び2の夫々に分類される時系列データDtの波形を、一のグラフ内に全て示してもよい。
【0116】
この場合、クラスタ毎に時系列データDtの波形を表示する態様(波形の曲線の種類、太さ、色等)を変えて示してもよい。
【0117】
以上説明した情報処理装置1の処理によれば、複数の時系列データを、容易に精度良くクラスタに分割することが可能となる。
【0118】
==まとめ==
以上、実施形態の情報処理装置1は、所定のセンサ20から出力されるn個(nは2以上の自然数)の時系列データDtを取得する取得部110と、n個の時系列データDtのうちの2個の時系列データDtの間の類似度を示す指標を成分とし、n個と同じ数の行及び列を有する行列を計算する第1計算部111と、行列に対して固有値分解を行った結果に基づいて、n個の時系列データDtの夫々に対応し、m個(mは自然数)の特徴を示す特徴量データDfを計算する第2計算部112と、n個の時系列データDtの夫々に対応する前記特徴量データDfをクラスタに分割する分割部113と、を備える。
【0119】
このような構成によれば、n個の時系列データDtをクラスタに分割する際に、類似度を示す指標を成分とする行列に固有値分解が施し、n個の時系列データDtと対応関係にあるn個の特徴量データDfが得られる。そして、n個の特徴量データDfがクラスタに分割される。これらによって、時系列クラスタリングといった手法を用いることを必要とせずに、時系列データDtをクラスタに分割することができる。従って、情報処理装置1によれば、複数の時系列データDtを、容易に精度良くクラスタに分割することができる。
【0120】
また、実施形態の情報処理装置1は、分割された一のクラスタに属する特徴量データDfのm個の特徴のうち、少なくとも1個の特徴に対する所定の統計量を計算する第3計算部114と、少なくとも1個の特徴と、所定の統計量との関係を示す第1グラフを表示する第1表示部115と、を更に備える。このような構成によれば、n個の時系列データDtの間の類似度又は距離を視覚的に容易に把握することができる。
【0121】
また、実施形態の情報処理装置1において、第1表示部115は、第1グラフとして、ヒストグラムと、カーネル密度推定による確率密度を示すグラフとのうち少なくとも一を表示する。このような構成によれば、n個の時系列データDtの間の類似度又は距離を視覚的に更に容易に把握することができる。
【0122】
また、実施形態の情報処理装置1は、m個の特徴を示す特徴量データDfの散布図と、分割部113が分割したクラスタの重心の散布図とのうち少なくとも一を第2グラフとして表示する第2表示部116を更に備える。このような構成によれば、分割されたクラスタの間の類似度又は距離を視覚的に容易に把握することができる。
【0123】
また、実施形態の情報処理装置1において、m個は、2個又は3個である。このような構成によれば、現実的な2次元又は3次元の空間において特徴量データDfを表現することができるため、時系列データDt間の類似度を視覚的に理解しやすくなる。
【0124】
また、実施形態の情報処理装置1は、n個の時系列データDtの夫々に対し、n個の時系列データDtの夫々に対応するクラスタを示すラベルが紐づけられたデータを作成するデータ作成部117を更に備える。このような構成によれば、直接的な計測データであるn個の時系列データDtの夫々が、いずれのクラスタに分類されたかを把握することができる。
【0125】
また、実施形態の情報処理装置1は、一のクラスタを示すラベルが紐づけられたデータに基づく時系列データDtの波形を示す第3グラフを表示する第3表示部118を更に備える。このような構成によれば、クラスタ毎の時系列データDtの波形の特徴を視覚的に理解することができる。
【0126】
また、実施形態の情報処理装置1において、第1計算部111は、類似度を示す指標として、動的時間伸縮法で定義される距離を計算する。このような構成によれば、バッチプロセスの開始時から終了時までの時間がバッチプロセスによってばらついても、精度良く時系列データDt間の距離を計算することができる。
【0127】
実施形態の情報処理方法は、所定のセンサ20から出力されるn個の時系列データDtを取得するステップと、n個の時系列データDtのうちの2個の時系列データDtの間の類似度を示す指標を成分とし、n個と同じ数の行及び列を有する行列を計算するステップと、行列に対して固有値分解を行った結果に基づいて、n個の時系列データDtの夫々に対応し、m個の特徴を示す特徴量データDfを計算するステップと、n個の時系列データDtの夫々に対応する特徴量データDfをクラスタに分割するステップと、を含む。
【0128】
このような方法によれば、n個の時系列データDtをクラスタに分割する際に、類似度を示す指標を成分とする行列に固有値分解が施し、n個の時系列データDtと対応関係にあるn個の特徴量データDfが得られる。そして、n個の特徴量データDfがクラスタに分割される。これらによって、時系列クラスタリングといった手法を用いることを必要とせずに、時系列データDtをクラスタに分割することができる。従って、実施形態の情報処理方法によれば、複数の時系列データDtを、容易に精度良くクラスタに分割することができる。
【0129】
実施形態の情報処理プログラムは、コンピュータに、所定のセンサ20から出力されるn個の時系列データDtを取得する取得部110と、n個の時系列データDtのうちの2個の時系列データDtの間の類似度を示す指標を成分とし、n個と同じ数の行及び列を有する行列を計算する第1計算部111と、行列に対して固有値分解を行った結果に基づいて、n個の時系列データDtの夫々に対応し、m個の特徴を示す特徴量データDfを計算する第2計算部112と、n個の時系列データDtの夫々に対応する特徴量データDfをクラスタに分割する分割部113と、を実現させる。
【0130】
このようなプログラムによれば、n個の時系列データDtをクラスタに分割する際に、類似度を示す指標を成分とする行列に固有値分解が施し、n個の時系列データDtと対応関係にあるn個の特徴量データDfが得られる。そして、n個の特徴量データDfがクラスタに分割される。これらによって、時系列クラスタリングといった手法を用いることを必要とせずに、時系列データDtをクラスタに分割することができる。従って、実施形態の情報処理プログラムによれば、複数の時系列データDtを、容易に精度良くクラスタに分割することができる。
【符号の説明】
【0131】
1:情報処理装置
100:CPU
101:メモリ
102:通信装置
103:記憶装置
104:入力装置
105:出力装置
106:記録媒体読取装置
110:取得部
111:第1計算部
112:第2計算部
113:分割部
114:第3計算部
115:第1表示部
116:第2表示部
117:データ作成部
118:第3表示部
2:対象装置
20:センサ
【要約】
【課題】複数の時系列データを、容易に精度良くクラスタに分割することができる情報処理装置を提供する。
【解決手段】
所定のセンサから出力されるn個(nは2以上の自然数)の時系列データを取得する取得部と、前記n個の時系列データのうちの2個の時系列データの間の類似度を示す指標を成分とし、前記n個と同じ数の行及び列を有する行列を計算する第1計算部と、前記行列に対して固有値分解を行った結果に基づいて、前記n個の時系列データの夫々に対応し、m個(mは自然数)の特徴を示す特徴量データを計算する第2計算部と、前記n個の時系列データの夫々に対応する前記特徴量データをクラスタに分割する分割部と、を備える情報処理装置。
【選択図】図9
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12