特許5957507 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝ソリューション株式会社の特許一覧

特許5957507データパターン分析最適化処理装置、及びデータパターン分析最適化処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】5957507

(24)【登録日】2016年6月24日

(45)【発行日】2016年7月27日

(54)【発明の名称】データパターン分析最適化処理装置、及びデータパターン分析最適化処理方法

(51)【国際特許分類】

G06Q 10/04 20120101AFI20160714BHJP

G06F 17/30 20060101ALI20160714BHJP

G06F 9/50 20060101ALI20160714BHJP

【ＦＩ】

G06Q10/04

G06F17/30 220Z

G06F9/46 465E

【請求項の数】7

【全頁数】17

(21)【出願番号】特願2014-219732(P2014-219732)

(22)【出願日】2014年10月28日

(65)【公開番号】特開2015-111410(P2015-111410A)

(43)【公開日】2015年6月18日

【審査請求日】2014年10月28日

(31)【優先権主張番号】特願2013-228705(P2013-228705)

(32)【優先日】2013年11月1日

(33)【優先権主張国】JP

(73)【特許権者】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(73)【特許権者】

【識別番号】301063496

【氏名又は名称】東芝ソリューション株式会社

(74)【代理人】

【識別番号】110001634

【氏名又は名称】特許業務法人志賀国際特許事務所

(72)【発明者】

【氏名】西一嘉

(72)【発明者】

【氏名】櫻井茂明

【審査官】田付徳雄

(56)【参考文献】

【文献】特開２０１４−１９１５３３（ＪＰ，Ａ）

【文献】特開２００６−２５２３９４（ＪＰ，Ａ）

【文献】特開２００５−１４９２６８（ＪＰ，Ａ）

【文献】特開２００３−００５９５１（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｑ１０／００ − ９９／００

Ｇ０６Ｆ９／５０

Ｇ０６Ｆ１７／３０

(57)【特許請求の範囲】

【請求項1】

属性と当該属性の属性値とにより示される時刻順のアイテムからなる時系列データを複数記憶する時系列データ記憶部と、
各アイテムが出現する前記時系列データの割合に基づいて、時系列パターンを構成するアイテムの数である系列数が所定数である場合に、最小支持度を超える頻度で前記時系列データに出現する時系列パターンのパターン数の上限の予測値を算出する予測処理を行う予測部と、
前記予測部が算出した前記上限の予測値が、パターン分析を行う計算機が処理するパターン数の上限値を超える場合に前記系列数を増加させ、増加させた前記系列数のアイテムからなる系列アイテムに基づいて複数の前記時系列データをグループに分割し、増加させた前記系列数を用いて前記予測処理を実行するよう前記予測部に指示する分割部と、
前記予測部が算出した前記上限の予測値がパターン分析を行う計算機が処理するパターン数の上限値以下である場合に、前記グループごとに時系列パターンを抽出するよう指示する時系列パターン抽出部と、
を備えることを特徴とするデータパターン分析最適化処理装置。

【請求項2】

前記予測部が算出した前記上限の予測値が、パターン分析を行う計算機が処理するパターン数の下限値を下回る場合、最小支持度を所定だけ低下させ、低下させた前記最小支持度を用いて前記予測処理を実行するよう前記予測部に指示する最小支持度調整部をさらに備える、
ことを特徴とする請求項１に記載のデータパターン分析最適化処理装置。

【請求項3】

前記最小支持度調整部は、前記予測部が算出した前記上限の予測値が、パターン分析を行う計算機が処理するパターン数の下限値を下回る場合、前記上限の予測値が、計算機が処理するパターン数の下限値を下回る度合を算出し、算出した度合と、前の値の最小支持度のときの前記度合とを比較して変化が所定の基準を超えると判断したきには、前記最小支持度を所定だけ低下させ、低下させた前記最小支持度を用いて前記予測処理を前記予測部に実行するよう指示し、
前記最小支持度調整部により前記変化が前記所定の基準以内であると判断された場合、前記時系列データのグループの一部を統合し、統合されたグループに含まれる前記時系列データについて前記予測処理を実行するよう前記予測部に指示するグループ統合部をさらに備える、
ことを特徴とする請求項２に記載のデータパターン分析最適化処理装置。

【請求項4】

前記予測部が算出した前記上限の予測値が、パターン分析を行う計算機が処理するパターン数の下限値を下回る場合、前記時系列データのグループの一部を統合し、統合されたグループに含まれる前記時系列データについて前記予測処理を実行するよう前記予測部に指示するグループ統合部をさらに備える、
ことを特徴とする請求項１に記載のデータパターン分析最適化処理装置。

【請求項5】

前記予測部は、前記予測処理において、
各アイテムが出現する時系列データの割合に基づいて、所定の系列数のアイテムからなる時系列パターンが前記時系列データに出現する頻度を算出し、
前記時系列データに出現する頻度が最小支持度以上である前記時系列パターンの個数によりパターン数の期待値を算出し、
前記期待値に基づいて前記パターン数の上限の予測値を算出する、
ことを特徴とする請求項１から請求項４のいずれか１項に記載のデータパターン分析最適化処理装置。

【請求項6】

前記分割部は、前記予測部が算出した前記上限の予測値が、パターン分析を行う計算機が処理するパターン数の上限値を超える場合に前記系列数を増加させ、増加させた前記系列数のアイテムからなる系列アイテムを、入力された系列アイテムにより、各アイテムが出現する前記時系列データの割合に基づいて選択したアイテムにより、あるいは、増加させる前の系列数のときに生成された系列アイテムにアイテムを付加することにより生成し、生成した前記系列アイテムに基づいて複数の前記時系列データをグループに分割する、
ことを特徴とする請求項１から請求項５のいずれか１項に記載のデータパターン分析最適化処理装置。

【請求項7】

データパターン分析最適化処理装置が実行するデータパターン分析最適化処理方法であって、
時系列データ記憶部が、属性と当該属性の属性値とにより示される時刻順のアイテムからなる時系列データを複数記憶する時系列データ記憶ステップと、
予測部が、各アイテムが出現する前記時系列データの割合に基づいて、時系列パターンを構成する連続したアイテムの数である系列数が所定数である場合に、最小支持度を超える頻度で前記時系列データに出現する時系列パターンのパターン数の上限の予測値を算出する予測処理ステップと、
分割部が、前記予測処理ステップにおいて算出した前記上限の予測値が、パターン分析を行う計算機が処理するパターン数の上限値を超える場合に前記系列数を増加させ、増加させた前記系列数のアイテムからなる系列アイテムに基づいて複数の前記時系列データをグループに分割し、前記予測部に増加させた前記系列数を用いて前記予測処理ステップの実行を指示する分割ステップと、
時系列パターン抽出部が、前記予測処理ステップにおいて算出した前記上限の予測値がパターン分析を行う計算機が処理するパターン数の上限値以下である場合に、前記グループごとに時系列パターンを抽出するよう指示する時系列パターン抽出ステップと、
を有することを特徴とするデータパターン分析最適化処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、データパターン分析最適化処理装置、及びデータパターン分析最適化処理方法に関する。

【背景技術】

【0002】

計算機において、大規模な時系列データから時系列パターンの抽出処理を行う場合、時系列パターンのパターン数が多くなるにつれて処理負荷が増大してメモリの消費が増え、処理時間が長くかかるなど分析処理の性能劣化が生じていた。それに対し、時系列パターン抽出の並列分散処理化による対応が考えられる。その際、時系列データを均等に分ける方法がある。

【0003】

一方、ラベル付きグラフで表現される離散構造データから頻出パターンを抽出する前に、グラフのノードやエッジ数が均等になるようにデータを分割する技術がある（例えば、特許文献１参照。）。また、複数の属性とその属性値からなるレコードの集合から頻出パターンを発見する際に、属性によりレコードを分割する技術がある（例えば、特許文献２参照。）。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１２−８８８８０号公報

【特許文献2】特開２００８−１５９０１５号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

図１０に示すように、時系列データを均等にグループに分けて各計算機で時系列パターン抽出処理を行おうとすると、パターン数が多くなるグループが生じ、そのパターン数に応じて抽出処理の負荷が高まってしまい、処理時間も長くなる。同じ属性でも属性値が異なれば異なる時系列パターンとなるが、特許文献１の技術の場合、離散構造データに含まれる具体的な設定値を用いた並列分散処理用の分割がなされていないため、パターン数が多くなるグループが生じる可能性がある。また、特許文献２の技術の場合、属性によってレコードを分割しているため、同様に、パターン数が多くなるグループの発生を効果的に抑えることはできない。

【0006】

本発明が解決しようとする課題は、時系列パターンの抽出処理を分割して行う場合に、分割された一部のみの負荷が高くなりすぎないように時系列データを分割するデータパターン分析最適化処理装置、及びデータパターン分析最適化処理方法を提供することである。

【課題を解決するための手段】

【0007】

本発明の１つの態様によるデータパターン分析最適化処理装置は、時系列データ記憶部と、予測部と、分割部と、時系列パターン抽出部とを具備する。時系列データ記憶部は、属性と当該属性の属性値とにより示される時刻順のアイテムからなる時系列データを複数記憶する。予測部は、各アイテムが出現する時系列データの割合に基づいて、時系列パターンを構成するアイテムの数である系列数が所定数である場合に、最小支持度を超える頻度で時系列データに出現する時系列パターンのパターン数の上限の予測値を算出する予測処理を行う。分割部は、予測部が算出した上限の予測値が、パターン分析を行う計算機が処理するパターン数の上限値を超える場合に系列数を増加させ、増加させた系列数のアイテムからなる系列アイテムに基づいて複数の時系列データをグループに分割し、増加させた系列数を用いて予測処理を実行するよう予測部に指示する。時系列パターン抽出部は、予測部が算出した上限の予測値がパターン分析を行う計算機が処理するパターン数の上限値以下である場合に、グループごとに時系列パターンを抽出するよう指示する。

【図面の簡単な説明】

【0008】

【図1】本発明の実施形態に係るデータパターン分析最適化処理装置の構成を示すブロック図である。

【図2】時系列データ記憶部に記憶される時系列データの例を示す図である。

【図3】時系列パターン抽出処理において時系列データから抽出される時系列パターンの例を示す図である。

【図4】データパターン分析最適化処理装置におけるデータパターン分析最適化処理の動作を示すフロー図である。

【図5】比較判定部による比較判断処理を説明するための図である。

【図6】比較判定部による比較判断処理の結果、時系列データが処理される過程の例を説明するための図である。

【図7】分割部による時系列データの分割処理を説明するための図である。

【図8】グループ統合部によるグループ統合の例を示す図である。

【図9】データパターン分析最適化処理装置におけるパターン数の上限値、及び下限値の予測処理の動作を示すフロー図である。

【図10】時系列データを均等に複数のグループに分けて時系列パターンを抽出した場合のパターン数の偏りの例を示す図である。

【発明を実施するための形態】

【0009】

以下、本発明の実施形態について、図面を参照しながら説明する。
本発明の実施形態に係るデータパターン分析最適化処理装置は、時系列パターン抽出の処理対象となる時系列データが複数ある場合、それら時系列データを複数のグループに分割する。時系列データは、時刻データと、その時刻データが示す時刻に発生したアイテムとからなるデータの集合である（後述する図２参照。）。アイテムは、時系列データを構成する最小の要素のデータであり、属性と属性値のデータによって構成される。例えば、属性は、状態、気温、湿度などであり、これらの属性値はそれぞれ、異常１、２０℃、８０％などである。以下では、アイテムを「属性＿属性値」のように記述する。また、時系列データのグループとは、計算機が時系列パターン抽出処理を並列分散処理するなどして分割して行う場合に、まとめて時系列パターン抽出処理を行うデータ群である。計算機は、時系列パターンの抽出処理において、時系列データの中に、最小支持度により示されるある一定の頻度以上で時刻順に発生するアイテム群の並びを、時系列パターンとして抽出する（後述する図３参照。）。

【0010】

本発明の実施形態に係るデータパターン分析最適化処理装置は、複数の時系列データをグループに分割する際、時系列データを途中である時間で切って分けるものではなく、本数単位に分けて分割する。なお、１本の時系列データとする単位は任意とすることができる。例えば、１本の時系列データは、１台の機器（製造装置、医療機器、コンピュータ装置など）やセンサが１日、１か月などの所定期間や１人の操作者が操作している間に収集したアイテムからなるデータであってもよい。また例えば、１つの時系列データは、１台以上の機器やセンサが１つの対象（人、車など）について、所定期間や対象がある場所から他のある場所に移動するまでに収集したアイテムからなるデータであってもよい。

【0011】

本発明の実施形態に係るデータパターン分析最適化処理装置は、複数の時系列データの時系列パターン抽出処理を計算機に分割して実行させる際、時系列データを単純に数で分割するのではなく、まず、時系列データに対して発生する時系列パターンのパターン数を予測する。パターン数とは、時系列パターン抽出処理において時系列データから抽出する対象となる時系列パターンの種類の数である。データパターン分析最適化処理装置は、予測されるパターン数に基づいて、計算機がパターン抽出処理において対応可能な範囲を単位とした時系列データ群に分割したり、グループ統合したり、最小支持度を調整したりする。

【0012】

時系列データに発生する時系列パターンのパターン数（以下、「発生パターン数」と記載する。）の予測において、データパターン分析最適化処理装置は、時系列パターン抽出処理において対応できる単位の特定のアイテムが含まれる時系列データの出現頻度を算出し、算出した出現頻度を用いて、発生パターン数の上限及び下限の予測値を算出する。データパターン分析最適化処理装置は、算出した予測値に基づいて、特定のアイテムが含まれる時系列データを、グループに分割あるいは統合したり、最小支持度を調整したりする。データパターン分析最適化処理装置は、このようにして適切なグループに分けた時系列データ群を入力データの単位として、時系列パターンの抽出処理を計算機に実行させる。

【0013】

図１は、本発明の実施形態に係るデータパターン分析最適化処理装置１００の構成を示すブロック図であり、本実施形態と関係する機能ブロックのみ抽出して示してある。データパターン分析最適化処理装置１００は、例えば、時系列パターン抽出処理を実行する計算機と接続されるコンピュータ装置により実現してもよく、時系列パターン抽出処理を実行する計算機に備えられてもよい。同図に示すように、データパターン分析最適化処理装置１００は、時系列データ記憶部１１、設定情報記憶部１２、抽出パターン記憶部１３、制御管理部２１、計算機管理部２２、アイテム解析部２３、予測部２４、比較判定部２５、分割部２６、最小支持度調整部２７、グループ統合部２８、及び時系列パターン抽出部２９を備えて構成される。

【0014】

時系列データ記憶部１１は、分析対象となる収集した時系列データを記憶する。時系列データは、ＣＳＶ式やＫｅｙＶａｌｕｅ形式等の特定の形式に依存することなく任意の形式とすることができ、各計算機に入力される分析対象の時系列データが一時的に時系列データ記憶部１１に記憶される。設定情報記憶部１２は、各種の設定情報を記憶する。抽出パターン記憶部１３は、時系列パターン抽出処理により計算機が抽出した時系列パターンを記憶する。例えば、時系列パターンは、ＣＳＶ形式により格納される。

【0015】

制御管理部２１は、各機能部の実行指示及びデータの受け渡しを担う管理機能を有する。計算機管理部２２は、時系列パターン抽出処理を実行する計算機を管理する機能を有する。計算機管理部２２は、管理対象の計算機において時系列パターン抽出処理を実行する際に、計算機のメモリ使用率が８０％以上など高負荷の基準以上となるときのパターン数や、メモリ使用率が２０％以下など低負荷の基準以下となるときのパターン数を事前に評価する処理も実行する。以下では、計算機のメモリ使用率が、高負荷の基準以上となるときのパターン数を「計算機が処理するパターン数の上限値」と記載し、低負荷の基準以下となるときのパターン数を「計算機が処理するパターン数の下限値」と記載する。

【0016】

アイテム解析部２３は、全時系列データの中に存在するアイテムを検索し、そのアイテムが出現する時系列データの割合であるアイテムの頻度を算出する。予測部２４は、アイテム解析部２３が算出した各アイテムの頻度に基づいて、時系列データに発生する時系列パターン（最小支持度を超える有効な時系列パターン）のパターン数の期待値を算出する。予測部２４は、算出した期待値に基づいて、発生パターン数の上限及び下限の予測値を算出する。比較判定部２５は、発生パターン数の上限の予測値（以下、「予測上限値」と記載する。）及び下限の予測値（以下、「予測下限値」と記載する。）と、計算機が処理するパターン数の上限値、及び下限値とを比較判定する。この比較判定の結果に応じて、時系列データ群の分割、グループ統合、あるいは、最小支持度の調整が実行される。

【0017】

分割部２６は、１台の計算機におけるメモリ使用率を指定値（本実施形態では８０％）以下とするために、時系列データ記憶部１１に記憶されている時系列データを、各計算機に入力する時系列データ群に分割する。分割に際して、分割部２６は、系列アイテムを含む時系列データ単位で分割する。系列アイテムとは、所定数、所定順のアイテムの組をいう。最小支持度調整部２７は、時系列パターン抽出時の切り捨て処理の閾値となる最小支持度を調整する。最小支持度調整部２７は、最小支持度を調整する際、初期設定されている最小支持度の初期値と設定ステップ（１回の減少幅）とに基づいて最小支持度を低くしていく。グループ統合部２８は、１台の計算機におけるメモリ使用率を指定値（本実施形態では２０％）以上とするために、計算機に入力する時系列データをグループ統合する。

【0018】

時系列パターン抽出部２９は、分割部２６により分割された時系列データ群（グループ）の単位で時系列パターン抽出処理を計算機に実行させる。時系列パターン抽出部２９は、時系列パターン抽出処理を、並列分散処理により複数の計算機に実行させてもよく、シーケンシャルに１台以上の計算機に実行させてもよい。

【0019】

図２は、時系列データ記憶部１１に記憶される時系列データの例を示す図である。同図に示す時系列データ３０は、製造装置の運転ログデータである場合の例である。同図に示す時系列データ３０に含まれるアイテムの属性は「状態」である。そして、属性値は、時刻「１２：００」の場合は「起動」であり、時刻「１２：０２」の場合は「起動中」であり、時刻「１２：０４」の場合は「警告１」である。

【0020】

図３は、時系列パターン抽出処理において時系列データから抽出される時系列パターンの例を示す図である。同図に示す時系列パターン３５は、図２に示す製造装置の運転ログデータである時系列データ３０から抽出される時系列パターンの例を示す。時系列パターン３５は、アイテム「状態＿警告１」、「状態＿警告２」、「状態＿異常１」が時刻順に発生したパターンである。

【0021】

次に、データパターン分析最適化処理装置１００の動作について説明する。
図４は、データパターン分析最適化処理装置１００におけるデータパターン分析最適化処理の動作を示すフロー図である。予め、時系列データ記憶部１１には、分析対象の時系列データを記憶させておく。また、設定情報記憶部１２には、系列数の初期値、最小支持度の初期値、最小支持度の設定ステップ、最小支持度調整を許可するか否かの初期設定を記憶させておく。

【0022】

まず、計算機管理部２２は、パターン抽出処理が実行される計算機について、計算機が処理するパターン数の上限、及び下限を事前評価する（ステップＳ１０５）。計算機が処理するパターン数の上限とは、計算機における時系列パターン抽出処理の処理負荷が事前に指定した高負荷の基準となる値（本実施形態ではメモリ使用率８０％とする）に相当する際のパターン数をいう。また、計算機が処理するパターン数の下限とは、計算機における時系列パターン抽出処理の処理負荷が事前に指定した低負荷の基準となる値（本実施形態ではメモリ使用率２０％とする）に相当する際のパターン数をいう。例えば、計算機管理部２２は、既知の異なるパターン数の評価用時系列データによりパターン抽出処理を計算機に実行させ、計算機からメモリ使用率の計測結果を受信する。計算機管理部２２は、受信した計測結果の統計に基づいて、計算機が処理するパターン数の上限値、及び下限値を評価する。計算機管理部２２は、評価結果を設定情報記憶部１２に記憶させる。

【0023】

次に、データパターン分析最適化処理装置１００は、時系列データに発生する時系列データの発生パターン数の上限値、及び下限値の予測処理を実行する（ステップＳ１１０）。この予測処理の詳細については、後述の図９において説明する。

【0024】

続いて、比較判定部２５は、ステップＳ１１０において算出された発生パターン数の予測上限値、及び予測下限値と、ステップＳ１０５において事前評価した計算機が処理するパターン数の上限値、及び下限値とを比較する（ステップＳ１１５）。

【0025】

図５は、比較判定部２５による比較判断処理を説明するための図である。比較判断結果は、以下のタイプ１〜タイプ３の３つの場合に分けられる。
タイプ１は、発生パターン数の予測上限値及び予測下限値が、計算機が処理するパターン数の上限値及び下限値の範囲内である場合である。タイプ２は、発生パターン数の予測上限値が、計算機が処理するパターン数の上限値を超える場合である。タイプ３は、発生パターン数の予測上限値が、計算機が処理するパターン数の下限値を下回る場合である。同図に示す期待値とは、系列アイテムが時系列データに出現する頻度が最小支持度を上回れば１、下回れば０として算出された、時系列パターン抽出処理において取り扱うパターン数の期待値である。この期待値にはブレがあるため、ステップＳ１１０において、そのブレの範囲となる発生パターン数の予測上限値と予測下限値が期待値に基づいて算出される。

【0026】

図６は、比較判定部２５による比較判断処理の結果、時系列データが処理される過程の例を説明するための図である。比較判定部２５がタイプ１と判断した場合、データパターン分析最適化処理装置１００は、現在のグループにより時系列パターン抽出処理を実行させる。比較判定部２５がタイプ２と判断した場合、計算機が処理するパターン数の上限を超えるため、データパターン分析最適化処理装置１００は、時系列データの分割処理を実行する。そこで、データパターン分析最適化処理装置１００は、系列アイテムの系列長を増加させ、増加させた系列長の各系列アイテムを含む時系列データにグループ化する。系列長を１個増加させることにより、制約条件が厳しくなるため、グループ数が増加する。分割処理の後、データパターン分析最適化処理装置１００は、再びタイプ３と判断した場合、時系列データの分割処理を実行し、タイプ１と判断した場合、時系列パターンの抽出処理を実行させる。また、比較判定部２５がタイプ３と判断した場合、データパターン分析最適化処理装置１００は、最小支持度を下げるか、時系列データのグループ統合を行う。

【0027】

図４のステップＳ１１５において比較判定部２５がタイプ２と判定した場合、分割部２６は、設定情報記憶部１２に記憶されている現在の系列長を１個増加させ、増加させた系列数のアイテムの制約による時系列データの分割処理を行う（ステップＳ１２０）。

【0028】

図７は、分割部２６による時系列データの分割処理を説明するための図である。同図において、分割部２６は、時系列データ４１、４２、４３、４４を、系列アイテム「Ａ＿ａ１」、「Ｂ＿ｂ２」を含む時系列データ４１、４４からなるグループと、系列アイテム「Ｃ＿ｃ３」、「Ｇ＿ｇ７」を含む時系列データ４２、４３からなるグループとに分割している。

【0029】

分割部２６は、制約条件の系列アイテムを、ユーザが入力した系列アイテムとしてもよく、時系列データにおける出現頻度により選択してもよい。出現頻度により選択する場合、例えば、分割部２６は、出現頻度が低いアイテムと出現頻度が高いアイテムとの組み合わせを制約条件の系列アイテムとする。具体的な例として、系列数「２」である場合、分割部２６は、出現頻度が１番高いアイテムと１番低いアイテムとの組み合わせ、出現頻度が２番目に高いアイテムと２番目に低いアイテムとの組み合わせ、…のように系列アイテムを生成する。あるいは、アイテムの出現頻度により選択する場合、分割部２６は、出現頻度を乗算した結果が所定の差分内（均等に近く）になるように選択した増加させた系列数のアイテムの組み合わせを、制約条件の系列アイテムとして用いてもよい。出現頻度には、後述する図９のステップＳ２０５において算出した各アイテムの頻度を用いることができる。また、分割部２６は、現在の系列長ｎを１増加させて系列長（ｎ＋１）とした場合、上記のように、過去に制約条件として用いた系列アイテムを利用せずに、制約条件となる系列長（ｎ＋１）の系列アイテムを生成してもよく、過去に制約条件として用いた系列長ｎの系列アイテムに対してさらにアイテムを加えて制約条件となる系列長（ｎ＋１）の系列アイテムを生成してもよい。

【0030】

分割処理後、分割部２６は、増加させた系列長を用いて、時系列データの発生パターン数の上限値、及び下限値の予測処理を実行するよう予測部２４に指示する。この指示により、データパターン分析最適化処理装置１００は、図４のステップＳ１１０の処理に遷移する。

【0031】

ステップＳ１１５において、比較判定部２５がタイプ３と判定した場合、さらに、設定情報記憶部１２に記憶されている初期設定が最小支持度の調整を許可する設定となっているか否かを判定する（ステップＳ１２５）。比較判定部２５が、最小支持度調整を許可する設定になっていると判断した場合、最小支持度調整部２７は、ステップＳ１３０の処理を行う。すなわち、最小支持度調整部２７は、発生パターン数の予測上限値が、計算機が処理するパターン数の下限値を下回る度合を算出する。最小支持度調整部２７は、算出した度合と、現在より前の値の最小支持度のときに算出した度合とを比較して、予め設定した割合より上回るか否かを判断する（ステップＳ１３０）。最小支持度調整部２７は、上回ると判断した場合、あるいは、まだ最小支持度を調整していない場合、設定情報記憶部１２に記憶されている現在の最小支持度を、設定情報記憶部１２に予め設定されている設定ステップに基づいて１ステップ分だけ低くする（ステップＳ１３５）。例えば、最小支持度調整部２７は、現在の最小支持度「０．３」から、設定ステップ「０．１」だけ１ステップ分低くして、「０．２」に更新する。

【0032】

最小支持度調整部２７は、低下させた最小支持度を用いて、時系列データの発生パターン数の上限値、及び下限値の予測処理を実行するよう予測部２４に指示する。この指示により、データパターン分析最適化処理装置１００は、図４のステップＳ１１０の処理に遷移する。

【0033】

ステップＳ１２５において、比較判定部２５が、初期設定は最小支持度調整を不許可とする設定になっていると判断した場合、あるいは、ステップＳ１３０において、最小支持度調整部２７が、上回らないと判断した場合、グループ統合部２８は、時系列データをグループ統合する（ステップＳ１４０）。統合の際、グループ統合部２８は、系列アイテムの頻度が低い系列アイテムを選択し、それらの系列アイテムを含む時系列データのグループを統合する。なお、系列アイテムの頻度の算出については、後述する図９のステップＳ２１０の処理において説明する。

【0034】

図８は、グループ統合部２８によるグループ統合の例を示す図である。グループ統合部２８は、まだ組み合わせ選択されていない中で系列アイテムの頻度が最も低い系列アイテムと、その次に低い系列アイテムとを組み合わせる。同図において、グループ統合部２８は、系列アイテム「Ａ＿ａ１０」、「Ｂ＿ｂ２０」を含む時系列データ４６、４７からなるグループと、系列アイテム「Ｃ＿ｃ３０」、「Ｇ＿ｇ７０」を含む時系列データ４８、４９からなるグループとを統合し、１つのグループとしている。なお、グループ統合部２８は、基本設定として２つのグループを統合しているが、３つ以上のグループの統合等にも対応可能である。

【0035】

グループ統合処理後、グループ統合部２８は、全ての時系列データを用いる代わりに、統合により生成したグループに含まれる時系列データを用いて、時系列データの発生パターン数の上限値、及び下限値の予測処理を実行するよう予測部２４に指示する。この指示により、データパターン分析最適化処理装置１００は、統合により生成されたグループについて、図４のステップＳ１１０からの処理を実行する。

【0036】

ステップＳ１１５において、比較判定部２５がタイプ１と判定した場合、時系列パターン抽出部２９は、計算機に時系列パターン抽出処理を実行させる（ステップＳ１４５）。時系列パターン抽出部２９は、ステップＳ１４５の処理開始時点で設定、用意されている各グループの時系列データと現在の最小支持度をそれぞれ時系列データ記憶部１１、設定情報記憶部１２から読み出す。時系列パターン抽出部２９は、各計算機に、その計算機が処理するグループ数分の時系列データ群と、最小支持度とを出力し、時系列パターン抽出を指示する。例えば、並列分散処理を行う場合、時系列パターン抽出部２９は、各計算機に、それぞれ異なるグループの時系列データ群と、最小支持度とを出力する。時系列パターン抽出部２９は、計算機が時系列データから抽出した最小支持度以上の出現率の時系列パターンを受信し、抽出パターン記憶部１３に記憶させる。なお、ユーザによる指定アイテムがある場合、時系列パターン抽出部２９は、その指定アイテムも計算機に出力する。時系列パターン抽出部２９は、計算機が時系列データから抽出した指定アイテムを含む最小支持度以上の出現率の時系列パターンを受信する。

【0037】

なお、ステップＳ１３０において、最小支持度調整部２７は、算出した度合と、現在より前の値の最小支持度のときに算出した度合とを比較して、変化が所定の基準以内であるか否かを判断するようにしてもよい。データパターン分析最適化処理装置１００は、変化が所定の基準以内であると判断した場合、ステップＳ１４０の処理を実行し、変化が所定の基準を超えると判断した場合、ステップＳ１３５の処理を実行する。
また、ステップＳ１２５において、比較判定部２５が、初期設定は最小支持度調整を許可する設定になっていると判断した場合、最小支持度調整部２７は、ステップＳ１３０の判定を行わずに、ステップＳ１３５の処理を行い、最小支持度を下げてもよい。このように、発生パターン数の予測上限値が、計算機が処理するパターン数の下限値を下回る度合による判断を行わずに最小支持度を調整する処理を行なうことによって、最小支持度を１ステップずつ低くしても差し支えない。つまり、本発明においては、必ずしも下限値を下回る度合を用いることは必須ではない。

【0038】

また、発生パターン数の予測上限値が、計算機が処理するパターン数の上限値よりも低く、かつ、発生パターン数の予測下限値が、計算機が処理するパターン数の下限値よりも低い場合、データパターン分析最適化処理装置１００は、タイプ１と同様の処理を行ってもよく、タイプ３と同様の処理をおこなってもよい。
また、ステップＳ１２５において、比較判定部２５が、初期設定は最小支持度調整を不許可とする設定になっていると判断した場合、あるいは、ステップＳ１３０において、最小支持度調整部２７が、予め設定した割合を上回らないと判断した場合、データパターン分析最適化処理装置１００は、ステップＳ１４５の処理を実行してもよい。

【0039】

また、ステップＳ１４０のグループ統合処理において、統合によりグループを複数生成してもよい。この場合、グループ統合処理後、グループ統合部２８は、統合により生成したグループ毎に、時系列データの発生パターン数の上限値、及び下限値の予測処理を実行するよう予測部２４に指示する。データパターン分析最適化処理装置１００は、統合により生成された各グループについて、図４のステップＳ１１０からの処理を実行する。

【0040】

図９は、データパターン分析最適化処理装置１００における発生パターン数の上限値、及び下限値の予測処理の動作を示すフロー図である。同図は、図４のステップＳ１１０における詳細な処理を示す。

【0041】

アイテム解析部２３は、各アイテムの頻度を算出する（ステップＳ２０５）。具体的には、アイテム解析部２３は、時系列データ記憶部１１に記憶されている全時系列データの中で、ユーザが入力した指定アイテムが出現する時系列データの割合をアイテムの頻度として算出する。あるいは、アイテム解析部２３は、時系列データ記憶部１１に記憶されている全時系列データから全てのアイテムを抽出し、抽出した全てのアイテムそれぞれについてアイテムの頻度を算出してもよい。あるいはまた、アイテム解析部２３は、時系列データに所定の頻度以上出現するアイテムを選択し、選択したアイテムについてアイテムの頻度を算出してもよい。

【0042】

アイテム解析部２３は、例えば、時系列データ記憶部１１に記憶されている１０本の時系列データのうち、アイテム「Ｘ＿ｘ１」が含まれている時系列データが２本有る場合に、アイテム「Ｘ＿ｘ１」の頻度＝２／１０＝０．２のように算出する。ここでは、アイテム解析部２３は、アイテム「Ａ＿ａ１」の頻度＝０．１、アイテム「Ｂ＿ｂ２」の頻度＝０．２、アイテム「Ｃ＿ｃ３」の頻度＝０．３、アイテム「Ｇ＿ｇ７」の頻度＝０．２、…を算出する。

【0043】

次に、予測部２４は、設定情報記憶部１２に記憶されている現在の系列長を用いて、時系列データにおいて各系列アイテムが発生する確率を、系列アイテムの頻度として算出する（ステップＳ２１０）。例えば、系列長「２」の場合、予測部２４は、ステップＳ２０５においてアイテムの頻度を算出した全てのアイテムを用いて２つのアイテムからなる全ての組み合わせを生成し、生成した組み合わせからなる系列アイテムを生成する。予測部２４は、系列アイテムを構成する各アイテムについてステップＳ２０５において算出されたアイテムの頻度を乗算し、系列アイテムの頻度を算出する。例えば、予測部２４は、系列アイテム「Ａ＿ａ１」、「Ｂ＿ｂ２」の頻度、系列アイテム「Ａ＿ａ１」、「Ｃ＿ｃ３」の頻度、及び、系列アイテム「Ａ＿ａ１」、アイテム「Ｇ＿ｇ７」の頻度を以下の式（１）〜（３）のように算出する。

【0044】

系列アイテム「Ａ＿ａ１」、「Ｂ＿ｂ２」の頻度
＝アイテム「Ａ＿ａ１」の頻度（０．１）×アイテム「Ｂ＿ｂ２」の頻度（０．２）
＝０．０２ …（１）

【0045】

系列アイテム「Ａ＿ａ１」、「Ｃ＿ｃ３」の頻度
＝アイテム「Ａ＿ａ１」の頻度（０．１）×アイテム「Ｃ＿ｃ３」の頻度（０．３）
＝０．０３ …（２）

【0046】

系列アイテム「Ａ＿ａ１」、アイテム「Ｇ＿ｇ７」の頻度
＝アイテム「Ａ＿ａ１」の頻度（０．１）×アイテム「Ｇ＿ｇ７」の頻度（０．２）
＝０．０２ …（３）

【0047】

次に、予測部２４は、算出した各系列アイテムの頻度（系列アイテムを構成する各アイテムの頻度を掛け合わせた値）を最小支持度と比較して、最小支持度を超える有効な時系列パターンを時系列データから得る期待値（発生パターン数の期待値）を算出する（ステップＳ２１５）。

【0048】

予測部２４による具体的な期待値算出方法について説明する。まず、ｐを系列アイテムの頻度とし、ｇ（）を、系列アイテムに対して、以下の式（４）のように「１」または「０」の値を返す関数とする。

【0049】

【数1】

【0050】

このとき、予測部２４は、以下の式（５）により期待値を算出する。

【0051】

期待値＝Σｇ（ｐ） …（５）

【0052】

Σの加算範囲は、ステップＳ２１５において生成した全ての系列アイテム、すなわち、現在の系列長の系列アイテムが取り得るすべての組み合わせである。例えば、系列長「２」の場合の期待値は、最小支持度を０．０３とすると、以下の式（６）のようになる。

【0053】

期待値＝
ｇ（アイテム「Ａ＿ａ１」の頻度（０．１）×アイテム「Ｂ＿ｂ２」の頻度（０．２））
＋
ｇ（アイテム「Ａ＿ａ１」の頻度（０．１）×アイテム「Ｃ＿ｃ３」の頻度（０．３））
＋
ｇ（アイテム「Ａ＿ａ１」の頻度（０．１）×アイテム「Ｇ＿ｇ７」の頻度（０．２））
＋…
＝０＋１＋０＋… …（６）

【0054】

予測部２４は、算出した期待値を出力する（ステップＳ２２０）。

【0055】

次に、予測部２４は、ステップＳ２１５において算出した期待値をもとに、時系列データにおいて発生する時系列パターンの発生パターン数の予測上限値、予測下限値を算出する（ステップＳ２２５）。予測部２４は、以下の式（７）のように発生パターン数の予測上限値を算出する。

【0056】

（方法１−１）予測上限値＝期待値×系列長 …（７）

【0057】

例えば、方法１−１では、予測部２４は、系列長「２」の場合、発生パターン数の予測上限値＝期待値×２を算出する。あるいは、予測部２４は、以下の式（８）のように発生パターン数の予測上限値を算出する。

【0058】

（方法１−２）予測上限値＝期待値＋ｆ（系列長） …（８）

【0059】

上記のように、発生パターン数の予測上限値の算出方法には方法１−１と方法１−２がある。時系列パターン抽出では、系列長が抽出結果のブレに影響を与えることから、方法１−１では、期待値に系列長を乗算したものを発生パターン数の予測上限値とする。また、方法１−２では、系列長を変数として持つ関数ｆ（系列長）を期待値に加算したものが予測上限値となる。この関数ｆは、時系列データに有効なアイテム系列が多く発生する場合、期待値と比較してどれくらい発生パターン数が増加するかを、系列長を変数として算出する計算式である。

【0060】

また、予測部２４は、以下の式（９）のように発生パターン数の予測下限値を算出する。

【0061】

（方法２−１）予測下限値＝期待値×１／系列長 …（９）

【0062】

例えば、方法２−１では、予測部２４は、系列長「２」の場合、発生パターン数の下限値＝期待値×１／２を算出する。あるいは、予測部２４は、以下の式（１０）のように発生パターン数の予測下限値を算出する。

【0063】

（方法２−２）予測下限値＝期待値−ｆ（系列長） …（１０）

【0064】

上記のように、発生パターン数の予測下限値の算出方法には方法２−１と方法２−２がある。時系列パターン抽出では、系列長が抽出結果のブレに影響を与えることから、方法２−１では、期待値に（１／系列長）を乗算したものを発生パターン数の予測下限値とする。また、方法２−２では、系列長を変数として持つ関数ｆ（系列長）を期待値から減算したものが発生パターン数の予測下限値となる。この関数ｆは、時系列データにおいてアイテム系列の発生頻度が少ない場合に、期待値と比較してどれくらい発生パターン数が減少するかを、系列長を変数として算出する計算式である。

【0065】

なお、予測部２４は、方法１−１及び方法２−１とするか、方法１−２及び方法２−２とするかを、設定情報記憶部１２に予め記憶されている設定情報により選択する。デフォルトは、方法１−２及び方法２−２とする。
予測部２４は、算出した発生パターン数の予測上限値及び予測下限値を出力する（ステップＳ２３０）。

【0066】

なお、図４のステップＳ１２０、またはステップＳ１３５の処理の後、２回目以降のステップＳ１１０の処理を行う場合、図９のステップＳ２０５の処理を省略し、ステップＳ２１０から処理を行う。そして、ステップＳ２１０において系列アイテムの頻度を算出する際、予測部２４は、最初に図９の処理を実行したときにステップＳ２０５において算出された各アイテムの頻度を使用する。また、図４のステップＳ１４０の処理の後、２回目以降のステップＳ１１０の処理を行う場合、図９のステップＳ２０５において、アイテム解析部２３は、グループ統合部２８が生成したグループに含まれる全時系列データの中で、ユーザが入力した指定アイテムが出現する時系列データの割合をアイテムの頻度として算出する。

【0067】

以上で述べた少なくともひとつの実施形態のデータパターン分析最適化処理装置１００によれば、アイテム解析部２３、予測部２４、比較判定部２５、及び分割部２６を有することにより、時系列パターンの種類が増大することによる処理性能劣化を防ぎながら、複数の計算機に並列に時系列パターン抽出処理を計算機に実行させるため、従来よりも速く処理結果を得ることができる。

【0068】

また、以上で述べた少なくともひとつの実施形態のデータパターン分析最適化処理装置１００によれば、さらに、最小支持度調整部２７を有することにより、時系列パターンの種類が増大しすぎない範囲で、時系列パターン分析の制限設定値である最小支持度を下げることができるため、精度の高いパターンを得ることが可能となる。

【0069】

なお、上述の各実施形態における図１のデータパターン分析最適化処理装置１００の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによりデータパターン分析最適化処理装置１００として動作させるようにしてもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

【0070】

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

【0071】

以上、本発明の実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することを意図していない。この実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

【符号の説明】

【0072】

１１時系列データ記憶部
１２設定情報記憶部
１３抽出パターン記憶部
２１制御管理部
２２計算機管理部
２３アイテム解析部
２４予測部
２５比較判定部
２６分割部
２７最小支持度調整部
２８グループ統合部
２９時系列パターン抽出部
１００データパターン分析最適化処理装置

【図1】