【文献】
成田 和世,トランザクションデータベースに対する高確信度の相関ルールを用いた外れ値検出手法,電子情報通信学会技術研究報告 Vol.107 No.131,日本,社団法人電子情報通信学会,2007年 6月25日,第107巻 第131号,pp.399-404
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0010】
本明細書に記載のいずれのブロックダイヤグラムも本発明の原理を具現化するシステムを説明する概念図であることは当業者であれば当然分かる。同様に、いずれのフローチャート、フローダイヤグラム、状態遷移ダイヤグラム、疑似コード等も、コンピュータ読み出し可能媒体で実質的にあらわされ得るさまざまなプロセスを示し、および、コンピュータまたはプロセッサが明確に示されているか否かに関わらず当該コンピュータまたはプロセッサによって実行されることが理解されるであろう。
【0011】
本発明は、複数のアイテムセットを有するデータセットを解釈するためのシステムおよび方法に関する。データセットはデータの集合として理解することができる。実施例では、データセットは、マーケットバスケットデータまたは消費者データ等に対応してもよい。
【0012】
通常は、企業は膨大な量のデータを情報セットとして記憶している。しかしながら、このデータはしばしば大きく、例えば、スーパーマーケットのトランザクション数は大きくなるので、コンピュータ技術を使用してデータを要約することは困難である。データを利用する分析のゴールは、データから学習される小さなルールセットを見つけ出すこと、および、ビジネスアナリストが重要なパターンを理解することを手助けすることである。しかしながら、当該技術はしばしば大量の冗長な結果を生み出し、それらを理解すること、および、与えられたデータを要約することが困難になる。
【0013】
従来から、関連するルールをグルーピングし、および、その例外を探し出す処理には多くの方法がある。しかしながら、それらは別々に処理され、および、現存する技術のいずれもが両方を組み込むことをしていない。さらに、関心の対象を統計的に測定し、ルールを順番に並べることによって特定される上位のK個のルールは、カバー範囲が狭く、すなわち、切り取られたルールのほとんどはほんのわずかの入力データしかカバーしないので、入力データに関するはっきりとした像を提供しない。入力データの包括的な見解が得られないことによって、さまざまな問題が引き起こされる。
【0014】
従来は、企業は、複数のデータソース位置に記憶された異なる顧客に対応する入手可能なデータを活用することはできなかったので、顧客およびさまざまな企業間の顧客関係の断片化された見解だけを得ることができる。現存する技術では、全てのデータを活用し、複数の全く異なるデータソースにまたがる顧客の統一された、および、包括的な見解を生成し、維持することはできない。いずれか1つを決定する前に、全ての可能性がある関係を分析するが適切であることがよくある。このように、現存する技術では企業に関連するさまざまなエンティティ間の関係を総合的にあらわす関連性データを分析できなかった。
【0015】
したがって、本発明は、トランザクションデータベースまたは探索的データリポジトリ(EDR)等のデータベースに記憶された複数のアイテムセットを含むデータセットの解釈のためのシステムおよび方法を提供することである。EDRは1つ以上のアイテムセットを含む関連するデータを備えることができる。実施例では、EDRは、消費者行動、車両データ、およびセンサーデータ等のいずれかの分野に対応する関連データを含むことができる。さらに、EDRは外部ソースから生成または取得されてもよい。本発明はデータ解釈システムを含むことができる。データ解釈システムは、複数のアイテムセットに対して異なる解釈を提供してもよい。
【0016】
一旦、EDRが取得または生成されると、データ解釈システムは、トランザクションデータベースの中で複数の頻発するアイテムセットを特定することができる。実施例では、頻発するアイテムセットは、既存の頻発パターンマイニング技術のいずれかを採用することによって特定してもよい。実施例では、複数の頻発するアイテムセットのそれぞれが、1つ以上の先例に基づくあらかじめ定められた結末に対するルールを形成する。さらに、頻発するアイテムセットのそれぞれに対して、データ解釈システムは、ルールに関連する可能性がある少なくとも1つのパラメータの値を推定できる。実施例では、少なくとも1つのパラメータは、ルールのサポート(support)、ルールの信頼度(cofidence)およびルールのリフト(lift)を含んでもよい。
【0017】
実装形態では、ルールに関する少なくとも1つのパラメータ対応する値が一旦推定されると、データ解釈システムはアイテムセットに対応するルールのセットを演算できる。実装形態では、ルールのセットは関連するルールマイニング技術に基づいて演算できる。実施例では、関連するルールは、EDR等の情報リポジトリのアイテムセット間の関係を理解することを容易にするif/thenステートメントであるかのように理解することができる。本願の実装形態では、ルールのセットは少なくとも1つのパラメータの値に基づいて結末に対して生成される。実施例では、これらのルールだけが、あらかじめ定められたしきい値を超えるサポートおよび信頼度を有するルールのセットであるとみなされる。
【0018】
ルールのセットが一旦生成されると、データ解釈システムは、ルールのセットからルールカバーを特定できる。実装形態では、データ解釈システムはルールをサポートの降順に配列することができる。その後、これらのルールはルールの適用範囲があらかじめ定められたしきい値を超えるものに対して選択される。その後、たった1つのルールのサブセットが選択され、それは最初のルールセットによってカバーされるのとほとんど同一量のデータをカバーする。これらのルールは結末に対するルールカバーを形成する。実装形態では、カバーの特定されたルールの多くがお互いに重なり合い、すなわち、これらは入力データの同一トランザクションの多くをカバーすることができる。実施例では、データ解釈システムは、選択されたルール間のオーバラップの程度を演算することができる。
【0019】
オーバラップの程度に基づいて、ルールペア間の距離が演算され、および、距離マトリックスが演算され、および、データ解釈システムは、ルールをルールカバーにクラスタする。実装形態では、クラスタリングは、Density Based Spatial Clustering of Applications with Noise(DBSCAN)等のデータクラスタリングアプリケーションによって実行されることができる。実施例では、データ解釈システムはクラスタの重心間の距離等のいずれかの距離を測定し、クラスタ間の距離を決定できる。
【0020】
一旦、上述のステップに基づいてトランザクションデータベースの全てのルールがクラスタ化されると、データ解釈システムは、クラスタを解釈するために各クラスタから1つのルールを選択することができる。実装形態では、データ解釈システムは、バッチモードまたはインタラクティブモード技術を採用することによって、各クラスタから1つのルールを選択することができる。例えば、バッチモードでは、最も高いサポートまたは最も高い信頼性を持つルール等のルールに関連するパラメータに基づいて、1つのルールが選択され、各クラスタからデータ解釈システムによって自動的に選択されることができる。インタラクティブモードでは、ユーザが対話形式で各クラスタから代替のルールを選択できるので、同一クラスタに複数の説明が提供される。
【0021】
実装形態では、データ解釈システムは、各クラスタから選択されたルール毎に例外のセットを決定することができる。例えば、例外のセットは結末とは異なる結果に対する先例に対して演算することができる。例外は通常のパターンからのズレを示すので、戦略的計画を容易にする。
【0022】
このように、本発明は、同一データセットに対して複数の説明を提供することを容易にすることである。さらに、本発明はそれぞれのルールに関連するさまざまな例外によって、ルールのさまざまなズレを理解するための分析を可能にする。さらに、あらかじめ定められたしきい値を超える適用範囲を持つルールに基づくので、本発明によって提供される説明は実際に包括的である。
【0023】
データセットを解釈する上述のシステム(単数または複数)および方法(単数または複数)の実施形態は多くの異なるコンピューティングデバイス、環境、および/または構成でも実装可能であるが、以下の実施例システム(単数または複数)および方法(単数または複数)に基づいて実装方法が説明される。
【0024】
図1は本発明の実施例によるデータセットを解釈するためのデータ解釈システム102を実装するネットワーク環境100を図示する。データ解釈システム102は、これらに限定されるわけではないが、デスクトップコンピュータ、ハンドヘルドデバイス、ラップトップ、あるいは他のポータブルコンピュータ、タブレットコンピュータ等として実装することができる。データ解釈システム102とは別のネットワーク環境100には、1つ以上のコンピューティングデバイス104ー1、104ー2、・・・、104ーNが含まれる。説明および明確性のために、コンピューティングデバイス104ー1、104ー2、・・・、104ーNは以降、集合的にコンピューティングデバイス104と称し、および、以降、個別的にコンピューティングデバイス104と称する。ネットワーク環境100では、データ解釈システム102はネットワーク106を介してコンピューティングデバイス104に接続される。
【0025】
ネットワーク106は、無線ネットワーク、有線ネットワーク、またはそれらの組み合わせであってもよい。ネットワーク106は異なるタイプのネットワークであって、例えばイントラネット、テレコムネットワーク、エレクトリカルネットワーク、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、Virtual Private Network(VPN)、インターネットワーク、グローバルエリアネットワーク(GAN)、インターネット等の1つとして実装することができる。ネットワーク106は専用ネットワークまたは共有ネットワークのいずれでもよく、それらはさまざまなプロトコルを使用する異なるタイプのネットワークの関係を示し、さまざまなプロトコルには、例えば、相互に通信するハイパートランスファープロトコル(HTTP)、トランスミッションコントロールプロトコル/インターネットプロトコル(TCP/IP)、無線アプリケーションプロトコル(WAP)等が含まれる。さらに、ネットワーク106は、ルータ、ブリッジ、サーバ、コンピューティングデバイス、および、記憶デバイスを含むさまざまなネットワークデバイスを含むことができる。
【0026】
データ解釈システム102およびコンピューティングデバイス104はネットワーク106を介して接続されて図示されるが、データ解釈システム102およびコンピューティングデバイス104は特定の場所に、または、1つ以上の地理的位置にまたがって配置することができ、および、お互いに物理的または論理的に接続できることは当業者にとって当然のことである。
【0027】
実装形態では、データ解釈システム102はデータベース108に結合できる。図示されないが、データベース108はネットワーク環境100のネットワーク106あるいは他の何れかのネットワークとも接続できることが理解されるであろう。実装形態では、データベース108はデータ解釈システム102が使用できる1つ以上のデータセットを含むことができる。実装形態では、データベース108はリレーショナルデータベースとして提供され、および、データを、リレーショナルテーブル、オブジェクトオリエンティッドリレーショナルテーブル、インデックステーブル等のさまざまなフォーマットで記憶できる。しかしながら、データベース108は、オペレーショナルデータベース、分析型データベース、階層型データベース、および、分散またはネットワークデータベース等の他のタイプのデータベースで提供され得ることが理解されるであろう。
【0028】
データ解釈システム102は、さまざまな目的でコンピューティングデバイス104と結合することができる。例えば、データ解釈システム102はコンピューティングデバイス104と接続することができ、企業のEDR等の情報リポジトリにアクセスできる。データセットを解釈するためのデータ解釈システム102の実装および機能を以下に説明する。
【0029】
1つの実装形態では、データ解釈システム102は1つ以上のプロセッサ(単数または複数)110、プロセッサ(単数または複数)110と結合するインターフェース(単数または複数)112およびメモリ114を含む。プロセッサ(単数または複数)110は単一の処理ユニットまたは複数の処理ユニットであり得て、それらの全てが複数の演算ユニットを含んでもよい。プロセッサ(単数または複数)110は、1つ以上のマイクロプロセッサ、マイクロコンピューター、マイクロコントローラ、デジタルシグナルプロセッサ、中央演算ユニット、状態マシン、論理回路、および/または、動作命令に基づいて信号を処理するいずれかのデバイスとして実装することができる。数ある能力の中で、プロセッサ(単数または複数)110はメモリ114に記憶されるコンピュータ読み出し可能命令およびデータをフェッチし実行するように構成される。
【0030】
図に示されるさまざまなエレメントの機能は、「プロセッサ(単数または複数)」にラベル付けされたいずれかの機能ブロックを含むが、専用ハードウェアばかりではなく、適切なソフトウェアに対応するソフトウェアを実行可能なハードウェアの使用によって提供することができる。プロセッサが提供される場合には、当該機能は単一専用プロセッサ、単一共有プロセッサ、あるいは複数の個別プロセッサによって提供され、それらのいくつかが共有されてもよい。さらに、用語「プロセッサ」を明確に使用する場合、ソフトウェアを実行可能なハードウェアを除外する趣旨ではなく、これらに限定されるわけではないが、デジタルシグナルプロセッサ(DSP)ハードウェア、ネットワークプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、ソフトウェアを記憶する読み出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、および、不揮発性記憶装置を黙示的に含む。他のハードウェア、従来のハードウェア、および/またはカスタムハードウェアが含まれてもよい。
【0031】
インターフェース(単数または複数)112は、さまざまなソフトウェアおよびハードウェアインターフェース、例えば、キーボード、マウス、外部メモリ、およびプリンター等の周辺デバイス(単数または複数)のためのインターフェースを含んでもよい。インターフェース(単数または複数)112は広い範囲のネットワークおよびプロトコルタイプの複数の通信を容易にでき、それらには、例えば、ローカルエリアネットワーク(LAN)、ケーブル等の有線ネットワーク、および、無線LAN(WLAN)、携帯、または衛星等の無線ネットワークが含まれる。目的によっては、インターフェース(単数または複数)112は、データ解釈システム102を複数のコンピューティングデバイス104に接続するための1つ以上のポートを含んでもよい。以下に説明するさまざまな例示実装形態では、データ解釈システム102は、インターフェース112を介してコンピューティングデバイス104と通信する。
【0032】
メモリ114は、従来技術として知られているいずれかのコンピュータ読み取り可能媒体を含むことができ、当該従来技術には、例えば、スタティックランダムアクセスメモリ(SRAM)およびダイナミックランダムアクセスメモリ(DRAM)等の揮発性メモリ、および/または、読み出し専用メモリ(ROM)、消去プログラム可能ROM、フラッシュメモリ、ハードディスク、光ディスク、および、磁気テープ等の不揮発性メモリが含まれる。データ解釈システム102にはモジュール116およびデータ118も含まれる。
【0033】
とりわけ、モジュール116は、ルーティン、プログラム、オブジェクト、コンポーネント、データ構造等を含み、これらは特定のタスクを実行し、あるいは、特定の抽象的なデータタイプを実装する。モジュール116には、ルール生成モジュール120、解釈モジュール122、および、他のモジュール(単数または複数)124が含まれる。他のモジュール(単数または複数)124はプログラムあるいはコード化された命令を含むことができ、それらはデータ解釈システム102のアプリケーションおよび機能を補充する。
【0034】
他方で、とりわけ、データ118は1つ以上のモジュール116によって処理、受信、および、生成されたデータを記憶するためのレポジトリとして機能する。データ118は、例えば、ルールセットデータ126、解釈データ128、および、他のデータ130を含む。他のデータ130には、他のモジュール(単数または複数)124の1つ以上のモジュールの実行による結果として生成されるデータが含まれる。
【0035】
実装形態では、ルール生成モジュール120は、データセットの中の複数の頻発するアイテムセットを特定できる。実施例では、各トランザクションは、データセットの1つ以上のアイテムを含むことができる。例えば、各調査回答はトランザクションとして理解されることができ、この中でアイテムは尋ねられた各質問に対する顧客の応答であり得る。同様に、複数のセンサーデータでは、各時間ステップはトランザクションとして理解され、ここで異なるセンサーのそれぞれの値はデータセットのアイテムを形成する。データセットは以下の式で表される。
【数1】
【0036】
実施例では、Dのサブセットはアイテムセットと称することができる。さらに、頻発するアイテムセットは、データセットの中の他のアイテムセットよりも同時に頻発するアイテムであると理解することができる。実施例では、データセットはデータ解釈システム102に関連するデータベース108に記憶することができる。当該頻発するアイテムセットは、1つ以上の先例に基づくあらかじめ定められた結末のためのルールを形成することができる。結末は、アイテムセットが発生した成果であると理解することができる。{X、y}等の各頻発するアイテムセットは、y等のあらかじめ定められた関心対象の結末(COI)に対するルールrを形成する。この場合には、アイテムのサブセットであるXは先例であるとみなされ、すなわち、X――――>yである。実装形態では、データ解釈システム102はFPgrowthメカニズムを採用することができ、データセットの頻発するアイテムセットを決定する。
【0037】
例えば、小売店に対応するデータセットを考えると、ここで頻発するアイテムセットは、顧客がパン、ミルクおよびバターを購入することであり得る。顧客のショッピング行動に基づいて、顧客がパンおよびミルクを買えば、彼または彼女はバターも買う等のルールに気づくことができる。したがって、パンおよびミルクは、この場合には結末がバターとなる先例として理解することができる。
【0038】
実装形態では、ルール生成モジュール120はルールに対応する少なくとも1つのパラメータを推定できる。例えば、少なくとも1つのパラメータは、ルールS(r)のサポートを含むことができる。実施例では、ルールのサポートは、頻発するアイテムセットの全てのアイテムを含むトランザクションのパーセンテージを推定することによって決定することができる。さらに、少なくとも1つのパラメータには、ルールC(r)の信頼値を含むことができる。ルールの信頼値は、前記先例に基づいて前記結末が発生する確率を推定することによって特定することができる。言い換えれば、ルールの信頼値はC(r)=P(y/X)としてあらわされる。さらに、少なくとも1つのパラメータは、ルールの関心度の測定として理解できるルールのリフト(lift)を含むことができる。ルールのリフトはルールの信頼度と結末が発生する確率の割合として定義することができる。言い換えれば、ルールのリフトは、L(r)=P(y/X)/P(y)としてあらわすことができる。
【0039】
さらに、ルール生成モジュール120は、少なくとも1つのパラメータに基づいて、データセットに対応する複数のルールセットを演算することができる。実装形態では、ルール生成モジュール120は関連するルールマイニング技術を適用し、複数のルールセットを演算できる。実施例では、複数のルールセットは、ルールのサポートおよびルールの信頼度に基づいて生成できる。例えば、複数のルールセット(R)は、τ
sよりも大きいサポート、および、τ
pよりも大きい信頼値を持つあらかじめ定められたCOIに対して生成される。実装形態では、複数のルールセットは頻発するアイテムセットに基づいて生成される。ルール生成モジュール120は、ルールセットに関する詳細をルールセットデータ126として記憶することができる。実施例では、τ
sおよびτ
pは、システム管理者が定義できるあらかじめ定められたしきい値であると理解することができる。したがって、共通の結末(y)のために生成され、および、あらかじめ定められたしきい値を超えるサポートおよび信頼度を有する全てのルールセット(R)は、以下の式で表される。
【数2】
【0040】
実装形態では、解釈モジュール122は、ルールセットに基づいて、ルールカバーRcoを演算することができる。実施例では、ルールの適用範囲は、関心事yの結末を含むパーセンテージからルールが満足されるトランザクションのパーセンテージで示すことができる。実施例では、ルールの適用範囲は以下のようにあらわすことができる。
【数3】
【0041】
したがって、ルールセット(R)に対して、共通の結末(y)を有するルールカバーは以下の式で定義される。
【数4】
実装形態では、RcoはRのサブセットとして理解することができ、Rでカバーされるのと、ほとんど同一セットのトランザクションをカバーする。
【0042】
実施例では、ルールカバーを演算するために、解釈モジュール122は、ルールセットをサポートの降順に操作またはリストすることができる。さらに、解釈モジュール122は、あらかじめ定められた数のCOIを有するトランザクションがカバーされるまで、リストされたルールをルールカバーに追加することができる。代替実施例では、解釈モジュール122は、先頭からK個のルールを選択し、および、それらをルールカバーに含むことができる。一旦、ルールカバーが特定されると、解釈モジュール122は、2つのルール間のオーバラップの程度を決定することができる。例えば、多くのルールはデータの同一セットのトランザクションをカバーすることができるので、解釈モジュール122は、2つのルール間のオーバラップの程度O
ijを以下の式で定量化できる。
【数5】
【0043】
さらに、解釈モジュール122は、距離測定d
ijを使用して、オーバラップの程度に基づいて、ルールをクラスタリングすることができる。実装形態では、解釈モジュール122はノイズ(DBSCAN)技術を用いた密度ベースの空間クラスタリングアプリケーションを採用し、オーバラップの程度に基づいてルールをクラスタリングする。実施例では、ルール間の距離測定は以下の式によって定義できる。
【数6】
ここでkは小さな値の定数または0.01に等しい。
【0044】
一旦、クラスタが定義されると、解釈モジュール122は各クラスタから1つの代表的ルールを選択し、クラスタを要約することができる。実施例では、当該1つのルールはクラスタ内の全アイテムセットの解釈を提供することであると理解できる。代表的ルールは、当該クラスタに存在する、当該ルールによってカバーされるトランザクションの全セットの解釈を提供する。実装形態では、解釈モジュール122はバッチモードを採用し、各クラスタのルールを選択することができる。実施例では、バッチモードは、あらかじめ定められたパラメータに基づいて、クラスタを要約するルールを自動的に選択する工程を含む。1つの実施例では、クラスタを解釈するために、クラスタで最も高いサポートを有するルールが自動的に選択されることができる。他の実施例では、バッチモードで、クラスタで最も高い信頼度を有するルールが自動的に選択されることができる。他の実装形態では、解釈モジュール122は、ユーザが対話形式でクラスタを要約するルール選択することを手助けすることができる。実施例では、トランザクションの同一セットについて複数の解釈を得るために、ユーザは、各クラスタから代替のルールを対話形式で選択することができる。解釈モジュール122は、クラスタに関する説明を解釈データ128として記憶することができる。
【0045】
さらに、解釈モジュール122はルールセットのクラスタから選択される代表的ルールのそれぞれに対して少なくとも1つの例外を決定することができる。実施例では、例外を決定するために、結末が異なる場合には、解釈モジュール122は同一先例の成果を特定することができる。例えば、あらかじめ定められた結末がyである場合には、解釈モジュール122は結末が―yであるさまざまなトランザクションを決定できる。当該動作は、ルールセットの全てのルールに対して例外のセットを提供できる。実装形態では、信頼度しきい値τ
eに基づいて、全てのルールに対する例外が決定される。例えば、ルールr:X―――>yに対して、信頼度しきい値は以下の式で決定できる。
【数7】
ここでΔcはルールrに対する信頼度ギャップである。
【0046】
実施例では、ルールの信頼度が85%である場合、残りの15%の時間は、ルールが満たされないことを意味する。言い換えれば、結末が得られず、例外は15%に合致する。実装形態では、上述のステップは、マッシュルームデータセット、カーサーベイ(Car−urvey)データセット、およびセンサーデータセット等のさまざまなデータセットに適用される。本発明に説明される技術は、ルールおよび例外という用語で簡潔な結果を提供する。さらに、本発明は、入力データからトランザクションの同一セットに複数の解釈を提供するので、データセットに関する全体論的見解を提供できる。
【0047】
したがって、本発明は、データセットに対する適用範囲ベースの説明を提供することを容易にする。本発明はルール間で発生するいずれかのオーバラップを考慮するので、トランザクションの同一セットに複数の解釈を提供する。さらに、本発明はルールの例外、すなわち、通常のパターンからのズレを決定する。データセットの当該分析によって、企業にとって適切な意思決定および戦略の決定が容易になる。
【0048】
図2は、本発明の実施形態による複数のアイテムセットを含むデータセットを解釈するための方法200を図示する。当該方法200は、コンピュータ実行可能な命令として記載できる。通常は、コンピュータ実行可能な命令は、ルーティン、プログラム、オブジェクト、コンポーネント、データ構造、プロシージャ、モジュール、特定の機能を実行するあるいは特定の抽象的なデータタイプを実行する関数を含むことができる。方法200は、通信ネットワークによってリンクされる遠隔処理デバイスによって関数が実行される分散型コンピューティング環境でも実行することができる。分散型コンピューティング環境では、コンピュータ実行可能な命令はローカルおよび遠隔のメモリ記憶デバイスを含むコンピュータ記憶媒体の両方に位置することができる。
【0049】
方法200に記載される順序は制限的なものであることを意図しておらず、および、記載された方法ブロックの番号はどのような順番でも組み合わせることができ、方法200または代替方法を実行できる。さらに、各ブロックは本発明の精神および思想から逸脱しない範囲で当該方法200から削除することができる。さらに、当該方法200は、いずれかの適切なハードウェア、ソフトウェア、ファームウェア、あるいはそれらの組み合わせに実装することができる。
【0050】
図2を参照すると、ブロック202で、方法200はデータセットの複数の頻発するアイテムセットを特定する工程を含むことができる。複数の頻発するアイテムセットのそれぞれは、1つ以上の先例に基づくあらかじめ定められた結末に対するルールを形成する。実装形態では、ルール生成モジュール120はデータセットの複数の頻発するアイテムセットを特定することができる。実施例では、ルール生成モジュール120は、FPgrowth技術あるいはいずれかのよく使用されるアイテムセットマイニング技術を採用し、複数の頻発するアイテムセットを特定することができる。
【0051】
ブロック204で、方法200は、ルールに対応する少なくとも1つのパラメータを推定する工程を含むことができる。実装形態では、ルール生成モジュール120は少なくとも1つのパラメータを推定できる。例えば、パラメータはルールの信頼度、ルールのサポート、およびルールのリフトを含むことができる。
【0052】
さらに、ブロック206で、方法200はデータセットの複数のルールセットを演算することができる。実装形態では、ルール生成モジュール120は、少なくとも1つのパラメータに基づいて、複数のルールセットを演算することができる。実施例では、ルール生成モジュール120は関連するルールマイニング技術を採用して、複数のルールセットを演算することができる。
【0053】
さらに、ブロック208で、方法200はルールカバーを生成する工程を含むことができる。ルールカバーは複数のルールから構成されることができる。
【0054】
さらに、ブロック210で、方法200は、複数のルールペア間の複数の距離を演算する工程、および、複数のルールペア間で演算された複数の距離に基づいて距離マトリックスを生成する工程、および、複数のルールペア間で演算された複数の距離を記憶する工程を含むことができる。
【0055】
さらに、ブロック212で、方法200はデータセットの中で重複するルールをクラスタリングすることができる。重複するルールは、データセットの共通トランザクションに対応するルールであると理解することができる。実装形態では、解釈モジュール122は重複するルールクラスタリングできる。そうするために、解釈モジュール122は距離測定を使用して重複するルールを特定することができる。一旦、重複するルールが特定されると、解釈モジュール122は、オーバラップの程度に基づいて重複するルールをクラスタリングし、および、各クラスタからルールを選択することができる。少なくとも1つのルールは、各クラスタに含まれるルールによってカバーされるトランザクションを解釈する。実装形態では、解釈モジュール122は各クラスタからルールを選択し、クラスタの中のルールによってカバーされるトランザクションの説明を解釈し、または、提供する。実施例では、解釈モジュール122は、バッチモードを使用して少なくとも1つのルールを選択することができる。バッチモードでは、ルールはあらかじめ定められたパラメータに基づいて自動的に選択される。他の実施例では、解釈モジュール122はユーザがルールを選択し、クラスタのための説明を取得することを手助けすることができる。ユーザは同一クラスタのための別のルールを選択し、同一クラスタに対する複数の説明を得ることができる。
【0056】
さらに、ブロック214で、方法200は、ルールセットのクラスタから選択される代表的ルールのそれぞれに対して少なくとも1つの例外を決定する工程を含むことができる。当該例外はルールの結末とは異なる結果を提供することができる。実装形態では、解釈モジュール122は、ルールセットの各ルールに対して例外を決定することができる。実施例では、当該例外は通用のパターンからのズレとして理解することができる。
【0057】
本発明のための方法およびシステムの実施形態は、特定の構成の特徴および/または方法の言語によって説明されたが、本発明は記載された特定の特徴または方法に限定されるものではないことが理解されるであろう。むしろ、特定の特徴および方法は本発明のための例示実施形態として記載されている。