(58)【調査した分野】(Int.Cl.,DB名)
前記予測部が算出した前記上限の予測値が、パターン分析を行う計算機が処理するパターン数の下限値を下回る場合、最小支持度を所定だけ低下させ、低下させた前記最小支持度を用いて前記予測処理を実行するよう前記予測部に指示する最小支持度調整部をさらに備える、
ことを特徴とする請求項1に記載のデータパターン分析最適化処理装置。
前記最小支持度調整部は、前記予測部が算出した前記上限の予測値が、パターン分析を行う計算機が処理するパターン数の下限値を下回る場合、前記上限の予測値が、計算機が処理するパターン数の下限値を下回る度合を算出し、算出した度合と、前の値の最小支持度のときの前記度合とを比較して変化が所定の基準を超えると判断したきには、前記最小支持度を所定だけ低下させ、低下させた前記最小支持度を用いて前記予測処理を前記予測部に実行するよう指示し、
前記最小支持度調整部により前記変化が前記所定の基準以内であると判断された場合、前記時系列データのグループの一部を統合し、統合されたグループに含まれる前記時系列データについて前記予測処理を実行するよう前記予測部に指示するグループ統合部をさらに備える、
ことを特徴とする請求項2に記載のデータパターン分析最適化処理装置。
前記予測部が算出した前記上限の予測値が、パターン分析を行う計算機が処理するパターン数の下限値を下回る場合、前記時系列データのグループの一部を統合し、統合されたグループに含まれる前記時系列データについて前記予測処理を実行するよう前記予測部に指示するグループ統合部をさらに備える、
ことを特徴とする請求項1に記載のデータパターン分析最適化処理装置。
前記分割部は、前記予測部が算出した前記上限の予測値が、パターン分析を行う計算機が処理するパターン数の上限値を超える場合に前記系列数を増加させ、増加させた前記系列数のアイテムからなる系列アイテムを、入力された系列アイテムにより、各アイテムが出現する前記時系列データの割合に基づいて選択したアイテムにより、あるいは、増加させる前の系列数のときに生成された系列アイテムにアイテムを付加することにより生成し、生成した前記系列アイテムに基づいて複数の前記時系列データをグループに分割する、
ことを特徴とする請求項1から請求項5のいずれか1項に記載のデータパターン分析最適化処理装置。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態について、図面を参照しながら説明する。
本発明の実施形態に係るデータパターン分析最適化処理装置は、時系列パターン抽出の処理対象となる時系列データが複数ある場合、それら時系列データを複数のグループに分割する。時系列データは、時刻データと、その時刻データが示す時刻に発生したアイテムとからなるデータの集合である(後述する
図2参照。)。アイテムは、時系列データを構成する最小の要素のデータであり、属性と属性値のデータによって構成される。例えば、属性は、状態、気温、湿度などであり、これらの属性値はそれぞれ、異常1、20℃、80%などである。以下では、アイテムを「属性_属性値」のように記述する。また、時系列データのグループとは、計算機が時系列パターン抽出処理を並列分散処理するなどして分割して行う場合に、まとめて時系列パターン抽出処理を行うデータ群である。計算機は、時系列パターンの抽出処理において、時系列データの中に、最小支持度により示されるある一定の頻度以上で時刻順に発生するアイテム群の並びを、時系列パターンとして抽出する(後述する
図3参照。)。
【0010】
本発明の実施形態に係るデータパターン分析最適化処理装置は、複数の時系列データをグループに分割する際、時系列データを途中である時間で切って分けるものではなく、本数単位に分けて分割する。なお、1本の時系列データとする単位は任意とすることができる。例えば、1本の時系列データは、1台の機器(製造装置、医療機器、コンピュータ装置など)やセンサが1日、1か月などの所定期間や1人の操作者が操作している間に収集したアイテムからなるデータであってもよい。また例えば、1つの時系列データは、1台以上の機器やセンサが1つの対象(人、車など)について、所定期間や対象がある場所から他のある場所に移動するまでに収集したアイテムからなるデータであってもよい。
【0011】
本発明の実施形態に係るデータパターン分析最適化処理装置は、複数の時系列データの時系列パターン抽出処理を計算機に分割して実行させる際、時系列データを単純に数で分割するのではなく、まず、時系列データに対して発生する時系列パターンのパターン数を予測する。パターン数とは、時系列パターン抽出処理において時系列データから抽出する対象となる時系列パターンの種類の数である。データパターン分析最適化処理装置は、予測されるパターン数に基づいて、計算機がパターン抽出処理において対応可能な範囲を単位とした時系列データ群に分割したり、グループ統合したり、最小支持度を調整したりする。
【0012】
時系列データに発生する時系列パターンのパターン数(以下、「発生パターン数」と記載する。)の予測において、データパターン分析最適化処理装置は、時系列パターン抽出処理において対応できる単位の特定のアイテムが含まれる時系列データの出現頻度を算出し、算出した出現頻度を用いて、発生パターン数の上限及び下限の予測値を算出する。データパターン分析最適化処理装置は、算出した予測値に基づいて、特定のアイテムが含まれる時系列データを、グループに分割あるいは統合したり、最小支持度を調整したりする。データパターン分析最適化処理装置は、このようにして適切なグループに分けた時系列データ群を入力データの単位として、時系列パターンの抽出処理を計算機に実行させる。
【0013】
図1は、本発明の実施形態に係るデータパターン分析最適化処理装置100の構成を示すブロック図であり、本実施形態と関係する機能ブロックのみ抽出して示してある。データパターン分析最適化処理装置100は、例えば、時系列パターン抽出処理を実行する計算機と接続されるコンピュータ装置により実現してもよく、時系列パターン抽出処理を実行する計算機に備えられてもよい。同図に示すように、データパターン分析最適化処理装置100は、時系列データ記憶部11、設定情報記憶部12、抽出パターン記憶部13、制御管理部21、計算機管理部22、アイテム解析部23、予測部24、比較判定部25、分割部26、最小支持度調整部27、グループ統合部28、及び時系列パターン抽出部29を備えて構成される。
【0014】
時系列データ記憶部11は、分析対象となる収集した時系列データを記憶する。時系列データは、CSV式やKey Value形式等の特定の形式に依存することなく任意の形式とすることができ、各計算機に入力される分析対象の時系列データが一時的に時系列データ記憶部11に記憶される。設定情報記憶部12は、各種の設定情報を記憶する。抽出パターン記憶部13は、時系列パターン抽出処理により計算機が抽出した時系列パターンを記憶する。例えば、時系列パターンは、CSV形式により格納される。
【0015】
制御管理部21は、各機能部の実行指示及びデータの受け渡しを担う管理機能を有する。計算機管理部22は、時系列パターン抽出処理を実行する計算機を管理する機能を有する。計算機管理部22は、管理対象の計算機において時系列パターン抽出処理を実行する際に、計算機のメモリ使用率が80%以上など高負荷の基準以上となるときのパターン数や、メモリ使用率が20%以下など低負荷の基準以下となるときのパターン数を事前に評価する処理も実行する。以下では、計算機のメモリ使用率が、高負荷の基準以上となるときのパターン数を「計算機が処理するパターン数の上限値」と記載し、低負荷の基準以下となるときのパターン数を「計算機が処理するパターン数の下限値」と記載する。
【0016】
アイテム解析部23は、全時系列データの中に存在するアイテムを検索し、そのアイテムが出現する時系列データの割合であるアイテムの頻度を算出する。予測部24は、アイテム解析部23が算出した各アイテムの頻度に基づいて、時系列データに発生する時系列パターン(最小支持度を超える有効な時系列パターン)のパターン数の期待値を算出する。予測部24は、算出した期待値に基づいて、発生パターン数の上限及び下限の予測値を算出する。比較判定部25は、発生パターン数の上限の予測値(以下、「予測上限値」と記載する。)及び下限の予測値(以下、「予測下限値」と記載する。)と、計算機が処理するパターン数の上限値、及び下限値とを比較判定する。この比較判定の結果に応じて、時系列データ群の分割、グループ統合、あるいは、最小支持度の調整が実行される。
【0017】
分割部26は、1台の計算機におけるメモリ使用率を指定値(本実施形態では80%)以下とするために、時系列データ記憶部11に記憶されている時系列データを、各計算機に入力する時系列データ群に分割する。分割に際して、分割部26は、系列アイテムを含む時系列データ単位で分割する。系列アイテムとは、所定数、所定順のアイテムの組をいう。最小支持度調整部27は、時系列パターン抽出時の切り捨て処理の閾値となる最小支持度を調整する。最小支持度調整部27は、最小支持度を調整する際、初期設定されている最小支持度の初期値と設定ステップ(1回の減少幅)とに基づいて最小支持度を低くしていく。グループ統合部28は、1台の計算機におけるメモリ使用率を指定値(本実施形態では20%)以上とするために、計算機に入力する時系列データをグループ統合する。
【0018】
時系列パターン抽出部29は、分割部26により分割された時系列データ群(グループ)の単位で時系列パターン抽出処理を計算機に実行させる。時系列パターン抽出部29は、時系列パターン抽出処理を、並列分散処理により複数の計算機に実行させてもよく、シーケンシャルに1台以上の計算機に実行させてもよい。
【0019】
図2は、時系列データ記憶部11に記憶される時系列データの例を示す図である。同図に示す時系列データ30は、製造装置の運転ログデータである場合の例である。同図に示す時系列データ30に含まれるアイテムの属性は「状態」である。そして、属性値は、時刻「12:00」の場合は「起動」であり、時刻「12:02」の場合は「起動中」であり、時刻「12:04」の場合は「警告1」である。
【0020】
図3は、時系列パターン抽出処理において時系列データから抽出される時系列パターンの例を示す図である。同図に示す時系列パターン35は、
図2に示す製造装置の運転ログデータである時系列データ30から抽出される時系列パターンの例を示す。時系列パターン35は、アイテム「状態_警告1」、「状態_警告2」、「状態_異常1」が時刻順に発生したパターンである。
【0021】
次に、データパターン分析最適化処理装置100の動作について説明する。
図4は、データパターン分析最適化処理装置100におけるデータパターン分析最適化処理の動作を示すフロー図である。予め、時系列データ記憶部11には、分析対象の時系列データを記憶させておく。また、設定情報記憶部12には、系列数の初期値、最小支持度の初期値、最小支持度の設定ステップ、最小支持度調整を許可するか否かの初期設定を記憶させておく。
【0022】
まず、計算機管理部22は、パターン抽出処理が実行される計算機について、計算機が処理するパターン数の上限、及び下限を事前評価する(ステップS105)。計算機が処理するパターン数の上限とは、計算機における時系列パターン抽出処理の処理負荷が事前に指定した高負荷の基準となる値(本実施形態ではメモリ使用率80%とする)に相当する際のパターン数をいう。また、計算機が処理するパターン数の下限とは、計算機における時系列パターン抽出処理の処理負荷が事前に指定した低負荷の基準となる値(本実施形態ではメモリ使用率20%とする)に相当する際のパターン数をいう。例えば、計算機管理部22は、既知の異なるパターン数の評価用時系列データによりパターン抽出処理を計算機に実行させ、計算機からメモリ使用率の計測結果を受信する。計算機管理部22は、受信した計測結果の統計に基づいて、計算機が処理するパターン数の上限値、及び下限値を評価する。計算機管理部22は、評価結果を設定情報記憶部12に記憶させる。
【0023】
次に、データパターン分析最適化処理装置100は、時系列データに発生する時系列データの発生パターン数の上限値、及び下限値の予測処理を実行する(ステップS110)。この予測処理の詳細については、後述の
図9において説明する。
【0024】
続いて、比較判定部25は、ステップS110において算出された発生パターン数の予測上限値、及び予測下限値と、ステップS105において事前評価した計算機が処理するパターン数の上限値、及び下限値とを比較する(ステップS115)。
【0025】
図5は、比較判定部25による比較判断処理を説明するための図である。比較判断結果は、以下のタイプ1〜タイプ3の3つの場合に分けられる。
タイプ1は、発生パターン数の予測上限値及び予測下限値が、計算機が処理するパターン数の上限値及び下限値の範囲内である場合である。タイプ2は、発生パターン数の予測上限値が、計算機が処理するパターン数の上限値を超える場合である。タイプ3は、発生パターン数の予測上限値が、計算機が処理するパターン数の下限値を下回る場合である。同図に示す期待値とは、系列アイテムが時系列データに出現する頻度が最小支持度を上回れば1、下回れば0として算出された、時系列パターン抽出処理において取り扱うパターン数の期待値である。この期待値にはブレがあるため、ステップS110において、そのブレの範囲となる発生パターン数の予測上限値と予測下限値が期待値に基づいて算出される。
【0026】
図6は、比較判定部25による比較判断処理の結果、時系列データが処理される過程の例を説明するための図である。比較判定部25がタイプ1と判断した場合、データパターン分析最適化処理装置100は、現在のグループにより時系列パターン抽出処理を実行させる。比較判定部25がタイプ2と判断した場合、計算機が処理するパターン数の上限を超えるため、データパターン分析最適化処理装置100は、時系列データの分割処理を実行する。そこで、データパターン分析最適化処理装置100は、系列アイテムの系列長を増加させ、増加させた系列長の各系列アイテムを含む時系列データにグループ化する。系列長を1個増加させることにより、制約条件が厳しくなるため、グループ数が増加する。分割処理の後、データパターン分析最適化処理装置100は、再びタイプ3と判断した場合、時系列データの分割処理を実行し、タイプ1と判断した場合、時系列パターンの抽出処理を実行させる。また、比較判定部25がタイプ3と判断した場合、データパターン分析最適化処理装置100は、最小支持度を下げるか、時系列データのグループ統合を行う。
【0027】
図4のステップS115において比較判定部25がタイプ2と判定した場合、分割部26は、設定情報記憶部12に記憶されている現在の系列長を1個増加させ、増加させた系列数のアイテムの制約による時系列データの分割処理を行う(ステップS120)。
【0028】
図7は、分割部26による時系列データの分割処理を説明するための図である。同図において、分割部26は、時系列データ41、42、43、44を、系列アイテム「A_a1」、「B_b2」を含む時系列データ41、44からなるグループと、系列アイテム「C_c3」、「G_g7」を含む時系列データ42、43からなるグループとに分割している。
【0029】
分割部26は、制約条件の系列アイテムを、ユーザが入力した系列アイテムとしてもよく、時系列データにおける出現頻度により選択してもよい。出現頻度により選択する場合、例えば、分割部26は、出現頻度が低いアイテムと出現頻度が高いアイテムとの組み合わせを制約条件の系列アイテムとする。具体的な例として、系列数「2」である場合、分割部26は、出現頻度が1番高いアイテムと1番低いアイテムとの組み合わせ、出現頻度が2番目に高いアイテムと2番目に低いアイテムとの組み合わせ、…のように系列アイテムを生成する。あるいは、アイテムの出現頻度により選択する場合、分割部26は、出現頻度を乗算した結果が所定の差分内(均等に近く)になるように選択した増加させた系列数のアイテムの組み合わせを、制約条件の系列アイテムとして用いてもよい。出現頻度には、後述する
図9のステップS205において算出した各アイテムの頻度を用いることができる。また、分割部26は、現在の系列長nを1増加させて系列長(n+1)とした場合、上記のように、過去に制約条件として用いた系列アイテムを利用せずに、制約条件となる系列長(n+1)の系列アイテムを生成してもよく、過去に制約条件として用いた系列長nの系列アイテムに対してさらにアイテムを加えて制約条件となる系列長(n+1)の系列アイテムを生成してもよい。
【0030】
分割処理後、分割部26は、増加させた系列長を用いて、時系列データの発生パターン数の上限値、及び下限値の予測処理を実行するよう予測部24に指示する。この指示により、データパターン分析最適化処理装置100は、
図4のステップS110の処理に遷移する。
【0031】
ステップS115において、比較判定部25がタイプ3と判定した場合、さらに、設定情報記憶部12に記憶されている初期設定が最小支持度の調整を許可する設定となっているか否かを判定する(ステップS125)。比較判定部25が、最小支持度調整を許可する設定になっていると判断した場合、最小支持度調整部27は、ステップS130の処理を行う。すなわち、最小支持度調整部27は、発生パターン数の予測上限値が、計算機が処理するパターン数の下限値を下回る度合を算出する。最小支持度調整部27は、算出した度合と、現在より前の値の最小支持度のときに算出した度合とを比較して、予め設定した割合より上回るか否かを判断する(ステップS130)。最小支持度調整部27は、上回ると判断した場合、あるいは、まだ最小支持度を調整していない場合、設定情報記憶部12に記憶されている現在の最小支持度を、設定情報記憶部12に予め設定されている設定ステップに基づいて1ステップ分だけ低くする(ステップS135)。例えば、最小支持度調整部27は、現在の最小支持度「0.3」から、設定ステップ「0.1」だけ1ステップ分低くして、「0.2」に更新する。
【0032】
最小支持度調整部27は、低下させた最小支持度を用いて、時系列データの発生パターン数の上限値、及び下限値の予測処理を実行するよう予測部24に指示する。この指示により、データパターン分析最適化処理装置100は、
図4のステップS110の処理に遷移する。
【0033】
ステップS125において、比較判定部25が、初期設定は最小支持度調整を不許可とする設定になっていると判断した場合、あるいは、ステップS130において、最小支持度調整部27が、上回らないと判断した場合、グループ統合部28は、時系列データをグループ統合する(ステップS140)。統合の際、グループ統合部28は、系列アイテムの頻度が低い系列アイテムを選択し、それらの系列アイテムを含む時系列データのグループを統合する。なお、系列アイテムの頻度の算出については、後述する
図9のステップS210の処理において説明する。
【0034】
図8は、グループ統合部28によるグループ統合の例を示す図である。グループ統合部28は、まだ組み合わせ選択されていない中で系列アイテムの頻度が最も低い系列アイテムと、その次に低い系列アイテムとを組み合わせる。同図において、グループ統合部28は、系列アイテム「A_a10」、「B_b20」を含む時系列データ46、47からなるグループと、系列アイテム「C_c30」、「G_g70」を含む時系列データ48、49からなるグループとを統合し、1つのグループとしている。なお、グループ統合部28は、基本設定として2つのグループを統合しているが、3つ以上のグループの統合等にも対応可能である。
【0035】
グループ統合処理後、グループ統合部28は、全ての時系列データを用いる代わりに、統合により生成したグループに含まれる時系列データを用いて、時系列データの発生パターン数の上限値、及び下限値の予測処理を実行するよう予測部24に指示する。この指示により、データパターン分析最適化処理装置100は、統合により生成されたグループについて、
図4のステップS110からの処理を実行する。
【0036】
ステップS115において、比較判定部25がタイプ1と判定した場合、時系列パターン抽出部29は、計算機に時系列パターン抽出処理を実行させる(ステップS145)。時系列パターン抽出部29は、ステップS145の処理開始時点で設定、用意されている各グループの時系列データと現在の最小支持度をそれぞれ時系列データ記憶部11、設定情報記憶部12から読み出す。時系列パターン抽出部29は、各計算機に、その計算機が処理するグループ数分の時系列データ群と、最小支持度とを出力し、時系列パターン抽出を指示する。例えば、並列分散処理を行う場合、時系列パターン抽出部29は、各計算機に、それぞれ異なるグループの時系列データ群と、最小支持度とを出力する。時系列パターン抽出部29は、計算機が時系列データから抽出した最小支持度以上の出現率の時系列パターンを受信し、抽出パターン記憶部13に記憶させる。なお、ユーザによる指定アイテムがある場合、時系列パターン抽出部29は、その指定アイテムも計算機に出力する。時系列パターン抽出部29は、計算機が時系列データから抽出した指定アイテムを含む最小支持度以上の出現率の時系列パターンを受信する。
【0037】
なお、ステップS130において、最小支持度調整部27は、算出した度合と、現在より前の値の最小支持度のときに算出した度合とを比較して、変化が所定の基準以内であるか否かを判断するようにしてもよい。データパターン分析最適化処理装置100は、変化が所定の基準以内であると判断した場合、ステップS140の処理を実行し、変化が所定の基準を超えると判断した場合、ステップS135の処理を実行する。
また、ステップS125において、比較判定部25が、初期設定は最小支持度調整を許可する設定になっていると判断した場合、最小支持度調整部27は、ステップS130の判定を行わずに、ステップS135の処理を行い、最小支持度を下げてもよい。このように、発生パターン数の予測上限値が、計算機が処理するパターン数の下限値を下回る度合による判断を行わずに最小支持度を調整する処理を行なうことによって、最小支持度を1ステップずつ低くしても差し支えない。つまり、本発明においては、必ずしも下限値を下回る度合を用いることは必須ではない。
【0038】
また、発生パターン数の予測上限値が、計算機が処理するパターン数の上限値よりも低く、かつ、発生パターン数の予測下限値が、計算機が処理するパターン数の下限値よりも低い場合、データパターン分析最適化処理装置100は、タイプ1と同様の処理を行ってもよく、タイプ3と同様の処理をおこなってもよい。
また、ステップS125において、比較判定部25が、初期設定は最小支持度調整を不許可とする設定になっていると判断した場合、あるいは、ステップS130において、最小支持度調整部27が、予め設定した割合を上回らないと判断した場合、データパターン分析最適化処理装置100は、ステップS145の処理を実行してもよい。
【0039】
また、ステップS140のグループ統合処理において、統合によりグループを複数生成してもよい。この場合、グループ統合処理後、グループ統合部28は、統合により生成したグループ毎に、時系列データの発生パターン数の上限値、及び下限値の予測処理を実行するよう予測部24に指示する。データパターン分析最適化処理装置100は、統合により生成された各グループについて、
図4のステップS110からの処理を実行する。
【0040】
図9は、データパターン分析最適化処理装置100における発生パターン数の上限値、及び下限値の予測処理の動作を示すフロー図である。同図は、
図4のステップS110における詳細な処理を示す。
【0041】
アイテム解析部23は、各アイテムの頻度を算出する(ステップS205)。具体的には、アイテム解析部23は、時系列データ記憶部11に記憶されている全時系列データの中で、ユーザが入力した指定アイテムが出現する時系列データの割合をアイテムの頻度として算出する。あるいは、アイテム解析部23は、時系列データ記憶部11に記憶されている全時系列データから全てのアイテムを抽出し、抽出した全てのアイテムそれぞれについてアイテムの頻度を算出してもよい。あるいはまた、アイテム解析部23は、時系列データに所定の頻度以上出現するアイテムを選択し、選択したアイテムについてアイテムの頻度を算出してもよい。
【0042】
アイテム解析部23は、例えば、時系列データ記憶部11に記憶されている10本の時系列データのうち、アイテム「X_x1」が含まれている時系列データが2本有る場合に、アイテム「X_x1」の頻度=2/10=0.2のように算出する。ここでは、アイテム解析部23は、アイテム「A_a1」の頻度=0.1、アイテム「B_b2」の頻度=0.2、アイテム「C_c3」の頻度=0.3、アイテム「G_g7」の頻度=0.2、…を算出する。
【0043】
次に、予測部24は、設定情報記憶部12に記憶されている現在の系列長を用いて、時系列データにおいて各系列アイテムが発生する確率を、系列アイテムの頻度として算出する(ステップS210)。例えば、系列長「2」の場合、予測部24は、ステップS205においてアイテムの頻度を算出した全てのアイテムを用いて2つのアイテムからなる全ての組み合わせを生成し、生成した組み合わせからなる系列アイテムを生成する。予測部24は、系列アイテムを構成する各アイテムについてステップS205において算出されたアイテムの頻度を乗算し、系列アイテムの頻度を算出する。例えば、予測部24は、系列アイテム「A_a1」、「B_b2」の頻度、系列アイテム「A_a1」、「C_c3」の頻度、及び、系列アイテム「A_a1」、アイテム「G_g7」の頻度を以下の式(1)〜(3)のように算出する。
【0044】
系列アイテム「A_a1」、「B_b2」の頻度
=アイテム「A_a1」の頻度(0.1)×アイテム「B_b2」の頻度(0.2)
=0.02 …(1)
【0045】
系列アイテム「A_a1」、「C_c3」の頻度
=アイテム「A_a1」の頻度(0.1)×アイテム「C_c3」の頻度(0.3)
=0.03 …(2)
【0046】
系列アイテム「A_a1」、アイテム「G_g7」の頻度
=アイテム「A_a1」の頻度(0.1)×アイテム「G_g7」の頻度(0.2)
=0.02 …(3)
【0047】
次に、予測部24は、算出した各系列アイテムの頻度(系列アイテムを構成する各アイテムの頻度を掛け合わせた値)を最小支持度と比較して、最小支持度を超える有効な時系列パターンを時系列データから得る期待値(発生パターン数の期待値)を算出する(ステップS215)。
【0048】
予測部24による具体的な期待値算出方法について説明する。まず、pを系列アイテムの頻度とし、g()を、系列アイテムに対して、以下の式(4)のように「1」または「0」の値を返す関数とする。
【0050】
このとき、予測部24は、以下の式(5)により期待値を算出する。
【0052】
Σの加算範囲は、ステップS215において生成した全ての系列アイテム、すなわち、現在の系列長の系列アイテムが取り得るすべての組み合わせである。例えば、系列長「2」の場合の期待値は、最小支持度を0.03とすると、以下の式(6)のようになる。
【0053】
期待値=
g(アイテム「A_a1」の頻度(0.1)×アイテム「B_b2」の頻度(0.2))
+
g(アイテム「A_a1」の頻度(0.1)×アイテム「C_c3」の頻度(0.3))
+
g(アイテム「A_a1」の頻度(0.1)×アイテム「G_g7」の頻度(0.2))
+…
=0+1+0+… …(6)
【0054】
予測部24は、算出した期待値を出力する(ステップS220)。
【0055】
次に、予測部24は、ステップS215において算出した期待値をもとに、時系列データにおいて発生する時系列パターンの発生パターン数の予測上限値、予測下限値を算出する(ステップS225)。予測部24は、以下の式(7)のように発生パターン数の予測上限値を算出する。
【0056】
(方法1−1) 予測上限値=期待値×系列長 …(7)
【0057】
例えば、方法1−1では、予測部24は、系列長「2」の場合、発生パターン数の予測上限値=期待値×2を算出する。あるいは、予測部24は、以下の式(8)のように発生パターン数の予測上限値を算出する。
【0058】
(方法1−2) 予測上限値=期待値+f(系列長) …(8)
【0059】
上記のように、発生パターン数の予測上限値の算出方法には方法1−1と方法1−2がある。時系列パターン抽出では、系列長が抽出結果のブレに影響を与えることから、方法1−1では、期待値に系列長を乗算したものを発生パターン数の予測上限値とする。また、方法1−2では、系列長を変数として持つ関数f(系列長)を期待値に加算したものが予測上限値となる。この関数fは、時系列データに有効なアイテム系列が多く発生する場合、期待値と比較してどれくらい発生パターン数が増加するかを、系列長を変数として算出する計算式である。
【0060】
また、予測部24は、以下の式(9)のように発生パターン数の予測下限値を算出する。
【0061】
(方法2−1) 予測下限値=期待値×1/系列長 …(9)
【0062】
例えば、方法2−1では、予測部24は、系列長「2」の場合、発生パターン数の下限値=期待値×1/2を算出する。あるいは、予測部24は、以下の式(10)のように発生パターン数の予測下限値を算出する。
【0063】
(方法2−2) 予測下限値=期待値−f(系列長) …(10)
【0064】
上記のように、発生パターン数の予測下限値の算出方法には方法2−1と方法2−2がある。時系列パターン抽出では、系列長が抽出結果のブレに影響を与えることから、方法2−1では、期待値に(1/系列長)を乗算したものを発生パターン数の予測下限値とする。また、方法2−2では、系列長を変数として持つ関数f(系列長)を期待値から減算したものが発生パターン数の予測下限値となる。この関数fは、時系列データにおいてアイテム系列の発生頻度が少ない場合に、期待値と比較してどれくらい発生パターン数が減少するかを、系列長を変数として算出する計算式である。
【0065】
なお、予測部24は、方法1−1及び方法2−1とするか、方法1−2及び方法2−2とするかを、設定情報記憶部12に予め記憶されている設定情報により選択する。デフォルトは、方法1−2及び方法2−2とする。
予測部24は、算出した発生パターン数の予測上限値及び予測下限値を出力する(ステップS230)。
【0066】
なお、
図4のステップS120、またはステップS135の処理の後、2回目以降のステップS110の処理を行う場合、
図9のステップS205の処理を省略し、ステップS210から処理を行う。そして、ステップS210において系列アイテムの頻度を算出する際、予測部24は、最初に
図9の処理を実行したときにステップS205において算出された各アイテムの頻度を使用する。また、
図4のステップS140の処理の後、2回目以降のステップS110の処理を行う場合、
図9のステップS205において、アイテム解析部23は、グループ統合部28が生成したグループに含まれる全時系列データの中で、ユーザが入力した指定アイテムが出現する時系列データの割合をアイテムの頻度として算出する。
【0067】
以上で述べた少なくともひとつの実施形態のデータパターン分析最適化処理装置100によれば、アイテム解析部23、予測部24、比較判定部25、及び分割部26を有することにより、時系列パターンの種類が増大することによる処理性能劣化を防ぎながら、複数の計算機に並列に時系列パターン抽出処理を計算機に実行させるため、従来よりも速く処理結果を得ることができる。
【0068】
また、以上で述べた少なくともひとつの実施形態のデータパターン分析最適化処理装置100によれば、さらに、最小支持度調整部27を有することにより、時系列パターンの種類が増大しすぎない範囲で、時系列パターン分析の制限設定値である最小支持度を下げることができるため、精度の高いパターンを得ることが可能となる。
【0069】
なお、上述の各実施形態における
図1のデータパターン分析最適化処理装置100の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによりデータパターン分析最適化処理装置100として動作させるようにしてもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0070】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0071】
以上、本発明の実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することを意図していない。この実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。