(58)【調査した分野】(Int.Cl.,DB名)
装置に搭載されたコンピュータを、第1のストリームにおける種々の第1のイベントと、第2のストリームにおける種々の第2のイベントとの間の出現度を導出するように機能させるプログラムであって、
第1のイベントは、第1の識別子及び第1の属性値を含むタプルであり、
第2のイベントは、第2の識別子及び第2の属性値を含むタプルであり、
種々の第1のイベントが時系列に入力される第1のストリームバッファと、
種々の第2のイベントが時系列に入力される第2のストリームバッファと、
第1のストリームバッファ及び第2のストリームバッファそれぞれから、同一時間窓のイベント群を取り出すイベント取得手段と、
同一時間窓について、第1のストリームバッファの第1のイベント群と、第2のストリームバッファの第2のイベント群とを相互に、イベント同士の総当たりのイベントペアを生成するイベントペア生成手段と、
複数のイベントペアについて、第1の属性値と第2の属性値の各組の出現回数の出現度を算出する出現度算出手段と、
前記出現度が、所定閾値以上となる「第1の属性値及び第2の属性値」同士の組を、パターンペアと指定するパターンペア指定手段と、
第1の属性値が欠損した第1のイベントに対して、当該第1のイベントとイベントペアとなる第2のイベントの第2の属性値を用いて当該第2の属性値に対応する前記パターンペアの第1の属性値で補完し、第2の属性値が欠損した第2のイベントに対して、当該第2のイベントとイベントペアとなる第1のイベントの第1の属性値を用いて当該第1の属性値に対応する前記パターンペアの第2の属性値で補完する属性値補完手段と
してコンピュータを機能させることを特徴とするプログラム。
装置を用いて、第1のストリームにおける種々の第1のイベントと、第2のストリームにおける種々の第2のイベントとの間で、欠損した属性値を補完するイベント属性値補完方法であって、
第1のイベントは、第1の識別子及び第1の属性値を含むタプルであり、
第2のイベントは、第2の識別子及び第2の属性値を含むタプルであり、
前記装置は、種々の第1のイベントが時系列に入力される第1のストリームバッファと、種々の第2のイベントが時系列に入力される第2のストリームバッファとを有し、
第1のストリームバッファ及び第2のストリームバッファそれぞれから、同一時間窓のイベント群を取り出す第1のステップと、
同一時間窓について、第1のストリームバッファの第1のイベント群と、第2のストリームバッファの第2のイベント群とを相互に、イベント同士の総当たりのイベントペアを生成する第2のステップと、
複数のイベントペアについて、第1の属性値と第2の属性値の各組の出現回数の出現度を算出する第3のステップと、
前記出現度が、所定閾値以上となる「第1の属性値及び第2の属性値」同士の組を、パターンペアと指定する第4のステップと、
第1の属性値が欠損した第1のイベントに対して、当該第1のイベントとイベントペアとなる第2のイベントの第2の属性値を用いて当該第2の属性値に対応する前記パターンペアの第1の属性値で補完し、第2の属性値が欠損した第2のイベントに対して、当該第2のイベントとイベントペアとなる第1のイベントの第1の属性値を用いて当該第1の属性値に対応する前記パターンペアの第2の属性値で補完する第5のステップと
を有することを特徴とする装置のイベント属性値補完方法。
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1に記載の技術によれば、障害イベントをクラスタリングするために、リアルタイムに判定することが難しい。それだけでなく、複数の観測ポイントで観測されたイベントに含まれる情報のいずれかが欠損している場合、イベント同士の関連付けも不明なものとなる。
【0007】
常に発生している様々なイベントには、それに含まれる情報が欠測により欠損することも多い。例えば、イベントに位置情報が含まれる場合、そのイベントを発信する情報機器は、その位置によっては測位できない場合や、測位できたとしても誤差を含む場合がある。また、イベントに含まれる情報が手動で入力される場合、情報が入力漏れにより欠損することも起こり得る。
【0008】
ここで、発明者らは、イベント同士を関連付ける際に、イベントで欠損した情報を補完することができないか?と考えた。イベントに含まれる情報を補完することができれば、イベント同士の関連付けがより明確となるためである。
【0009】
そこで、本発明は、異なる種類のイベント同士を関連付ける際に、イベントで欠損した情報を補完することができる情報統合プログラム、装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明によれば、装置に搭載されたコンピュータを、第1のストリームにおける種々の第1のイベントと、第2のストリームにおける種々の第2のイベントとの間の出現度を導出するように機能させるプログラムであって、
第1のイベントは、第1の識別子及び第1の属性値を含むタプルであり、
第2のイベントは、第2の識別子及び第2の属性値を含むタプルであり、
種々の第1のイベントが時系列に入力される第1のストリームバッファと、
種々の第2のイベントが時系列に入力される第2のストリームバッファと、
第1のストリームバッファ及び第2のストリームバッファそれぞれから、同一時間窓のイベント群を取り出すイベント取得手段と、
同一時間窓について、第1のストリームバッファの第1のイベント群と、第2のストリームバッファの第2のイベント群とを相互に、イベント同士の総当たりのイベントペアを生成するイベントペア生成手段と、
複数のイベントペアについて、第1の属性値と第2の属性値の各組の出現回数の出現度を算出する出現度算出手段と、
出現度が、所定閾値以上となる「第1の属性値及び第2の属性値」同士の組を、パターンペアと指定するパターンペア指定手段と、
第1の属性値が欠損した第1のイベントに対して、当該第1のイベントとイベントペアとなる第2のイベントの第2の属性値を用いて当該第2の属性値に対応するパターンペアの第1の属性値で補完し、第2の属性値が欠損した第2のイベントに対して、当該第2のイベントとイベントペアとなる第1のイベントの第1の属性値を用いて当該第1の属性値に対応するパターンペアの第2の属性値で補完する属性値補完手段と
してコンピュータを機能させることを特徴とする。
【0011】
本発明のプログラムにおける他の実施形態によれば、
属性値補完手段は、
第1(又は第2)の属性値を含むものの、第2(又は第1)の属性値が欠損したイベントペアについて、
パターンペアを用いて第2(又は第1)の属性値を補完すると共に、
当該第1(又は第2)の属性値の出現回数に対する、補完した第2(又は第1)の属性値の出現回数の割合を「確信度」として、当該イベントペアに付与する
ようにコンピュータを機能させることも好ましい。
【0012】
本発明のプログラムにおける他の実施形態によれば、
属性値の欠損が無いイベントペアの確信度を1として、
確信度が高いイベントペアから降順にソートし、上位から所定数件まで又は確信度が所定閾値以上となるイベントペアのみを出力する統合イベントペア選択手段を更に有することも好ましい。
【0013】
本発明のプログラムにおける他の実施形態によれば、
第1のストリームに基づく第1のイベントは、第1の装置から送信されるアラート信号であり、
第2のストリームに基づく第2のイベントは、第2の装置から送信されるアラート信号である
ようにコンピュータを機能させることも好ましい。
【0014】
本発明のプログラムにおける他の実施形態によれば、
第1のストリームに基づく第1のイベントは、第1のユーザ群から送信されるメッセージであり、
第2のストリームに基づく第2のイベントは、第2のユーザ群から送信されるメッセージである
ようにコンピュータを機能させることも好ましい。
【0015】
本発明によれば、第1のストリームにおける種々の第1のイベントと、第2のストリームにおける種々の第2のイベントとの間の出現度を導出する装置であって、
第1のイベントは、第1の識別子及び第1の属性値を含むタプルであり、
第2のイベントは、第2の識別子及び第2の属性値を含むタプルであり、
種々の第1のイベントが時系列に入力される第1のストリームバッファと、
種々の第2のイベントが時系列に入力される第2のストリームバッファと、
第1のストリームバッファ及び第2のストリームバッファそれぞれから、同一時間窓のイベント群を取り出すイベント取得手段と、
同一時間窓について、第1のストリームバッファの第1のイベント群と、第2のストリームバッファの第2のイベント群とを相互に、イベント同士の総当たりのイベントペアを生成するイベントペア生成手段と、
複数のイベントペアについて、第1の属性値と第2の属性値の各組の出現回数の出現度を算出する出現度算出手段と、
出現度が、所定閾値以上となる「第1の属性値及び第2の属性値」同士の組を、パターンペアと指定するパターンペア指定手段と、
第1の属性値が欠損した第1のイベントに対して、当該第1のイベントとイベントペアとなる第2のイベントの第2の属性値を用いて当該第2の属性値に対応するパターンペアの第1の属性値で補完し、第2の属性値が欠損した第2のイベントに対して、当該第2のイベントとイベントペアとなる第1のイベントの第1の属性値を用いて当該第1の属性値に対応するパターンペアの第2の属性値で補完する属性値補完手段と
を有することを特徴とする。
【0016】
本発明によれば、装置を用いて、第1のストリームにおける種々の第1のイベントと、第2のストリームにおける種々の第2のイベントとの間で、欠損した属性値を補完するイベント属性値補完方法であって、
第1のイベントは、第1の識別子及び第1の属性値を含むタプルであり、
第2のイベントは、第2の識別子及び第2の属性値を含むタプルであり、
装置は、種々の第1のイベントが時系列に入力される第1のストリームバッファと、種々の第2のイベントが時系列に入力される第2のストリームバッファとを有し、
第1のストリームバッファ及び第2のストリームバッファそれぞれから、同一時間窓のイベント群を取り出す第1のステップと、
同一時間窓について、第1のストリームバッファの第1のイベント群と、第2のストリームバッファの第2のイベント群とを相互に、イベント同士の総当たりのイベントペアを生成する第2のステップと、
複数のイベントペアについて、第1の属性値と第2の属性値の各組の出現回数の出現度を算出する第3のステップと、
出現度が、所定閾値以上となる「第1の属性値及び第2の属性値」同士の組を、パターンペアと指定する第4のステップと、
第1の属性値が欠損した第1のイベントに対して、当該第1のイベントとイベントペアとなる第2のイベントの第2の属性値を用いて当該第2の属性値に対応するパターンペアの第1の属性値で補完し、第2の属性値が欠損した第2のイベントに対して、当該第2のイベントとイベントペアとなる第1のイベントの第1の属性値を用いて当該第1の属性値に対応するパターンペアの第2の属性値で補完する第5のステップと
を有することを特徴とする。
【発明の効果】
【0017】
本発明の情報統合プログラム、装置及び方法によれば、異なる種類のイベント同士を関連付ける際に、イベントで欠損した情報を補完することができる。
【発明を実施するための形態】
【0019】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0020】
図1は、本発明の情報統合装置における機能構成図である。
【0021】
本発明の情報統合装置は、基本的に、第1のストリームにおける種々の第1のイベントと、第2のストリームにおける種々の第2のイベントとの間の出現度を導出するように機能する。
図1によれば、情報統合装置1は、第1のストリームバッファ101と、第2のストリームバッファ102と、イベント取得部11と、イベントペア生成部12と、出現度算出部13と、パターンペア指定部14と、属性値補完部15と、統合イベント選択部16とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させる情報統合プログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、装置を用いた情報統合方法としても理解できる。
【0022】
[第1のストリームバッファ101][第2のストリームバッファ102]
第1のストリームバッファ101は、種々の第1のイベントが時系列に入力されるストリームバッファである。また、第2のストリームバッファ102は、第1のイベントと異なる種類の第2のイベントが時系列に入力されるストリームバッファである。情報源から到着するイベントは、概ね、イベント発生の時刻順に到着するものと想定している。そうでない場合は、イベントを、時刻順にソートすればよい。
【0023】
イベントとしては、例えば「アラート信号」であってもよい。第1のストリームに基づく第1のイベントは、第1の装置から送信されるアラート信号であり、第2のストリームに基づく第2のイベントは、第2の装置から送信されるアラート信号である。
また、イベントとしては、例えば「メッセージ」であってもよい。第1のストリームに基づく第1のイベントは、第1のユーザ群から送信されるメッセージであり、第2のストリームに基づく第2のイベントは、第2のユーザ群から送信されるメッセージである。
イベントには、他のイベントとの相関性を表す情報は明示されず、イベント同士のみを比較しても、通常、その相関性は見出せないものである。
【0024】
本発明によれば、同一原因に基づくイベントの時刻印は近接している(時刻印差が短い)ことに着目して、イベント同士を対応付けている。そのために、「イベント」は、少なくとも「識別子、属性値、発生時刻(時刻印)」を含む「タプル」であることを前提としている。イベントが発生(生成)される都度、そのイベントには、時刻印が付与される。
【0025】
例えばイベントがアラート信号である場合、「識別子」は通信装置の識別子であってもよい。また、イベントのタプルに含まれる「属性値」は、通信装置で検出された値であってもよい。
【0026】
識別子のデータ型は、文字列型であってもよいし、整数型であってもよい。発生時刻(時刻印)のデータ型は、2014/01/01 11:22:33などの日付型又は文字列型でもよいし、所定の日時を基準にした経過時間を表す整数型であってもよい。尚、経過時間の単位は、必要に応じて、日、時、分、10秒、秒、10ミリ秒又はミリ秒、その他、有限長の時間単位としてもよい。
【0027】
ストリームバッファには、イベントがリアルタイムに入力されることによって、タプルは、時刻印の昇順に並ぶ。勿論、ストリームバッファは、イベントが入力されるものではなく、時刻印が昇順に並んだタプルを含むテーブルであってもよい。即ち、ストリームバッファは、大量のタプルを時刻印の昇順に並べて記憶するデータベースであってもよい。
【0028】
尚、本発明は、2つのストリームバッファに限られず、3つ以上のストリームバッファであっても同様に機能する。
【0029】
図2は、ストリームバッファに入力されるイベントを表す説明図である。
【0030】
図2によれば、具体的に、ストリームバッファ101及び102に、時系列の複数のイベントが入力されている。tは、発生時刻を経過秒数で表している。また、時刻印差の閾値時間は、2秒と設定した。また、初期状態のストリームバッファは、空である。尚、生成されたイベントペアは、以下のように表記する。
<第1のイベント、第2のイベント>
ここで、
図2によれば、属性値が含まれていないイベントも発生している(属性値の欠損)。本発明によれば、この属性値を、他のイベント同士の関連付けから補完することができる。
【0031】
[イベント取得部11]
イベント取得部11は、第2の新入イベントの発生時刻を含む所定時間範囲(同一時間窓)に含まれる、第1のストリームバッファの1つ以上の第1のイベント群を取り出す。また、イベント取得部11は、第1の新入イベントの発生時刻を含む所定時間範囲に含まれる、第2のストリームバッファの1つ以上の第2のイベント群を取り出す。取り出されたイベントは、イベントペア生成部12へ出力される。
【0032】
[イベントペア生成部12]
イベントペア生成部12は、第2の新入イベントと、イベント取得部11によって取り出された1つ以上の第1のイベントとから、総当たりのイベントペアを生成する。
また、イベントペア生成部12は、第1の新入イベントと、イベント取得部11によって取り出された1つ以上の第2のイベントとを相互に、イベント同士の総当たりのイベントペアを生成する。生成された一定数のイベントペアは、出現度算出部13へ出力される。
【0033】
図3は、
図2の入力イベントによって生成されたイベントペアを表す説明図である。
【0034】
ここでのイベントペアの生成方法は、所定時間範囲に含まれるイベント同士をペアとしている。更に具体的には、本願と同一の発明者によって先に出願された特願2014−044803にも記載されている。
図3のように、キャッシュされた複数のイベントペアが一括して、出現度算出部13へ出力される。
【0035】
[出現度算出部13]
出現度算出部13は、複数のイベントペアについて、第1の属性値と第2の属性値の各組の出現回数の出現度(出現割合)を算出する。属性値に欠損があるイベントについては、出現度は算出されない。
【0036】
図4は、
図3の属性値の組合せに対する出現回数、出現度及びパターンを対応付けた説明図である。
【0037】
図4によれば、属性値の欠損の無いイベントペアについて、属性値同士の組における出現回数が表されている。
属性値val11−val21の組は、出現回数3であり、属性値val11−val22の組は、出現回数1である。
属性値val12−val21の組は、出現回数3であり、属性値val12−val21の組は、出現回数2である。
属性値の欠損の無いイベントペアの全出現回数は、9回である。
【0038】
そして、全出現回数に対する、属性値の組毎の出現回数の出現度を算出する。
属性値val11−val21の組は、全出現回数9に対して出現回数3であり、その出現度は3/9となる。
属性値val11−val22の組は、全出現回数9に対して出現回数1であり、その出現度は1/9となる。
属性値val12−val21の組は、全出現回数9に対して出現回数3であり、その出現度は3/9となる。
属性値val12−val21の組は、全出現回数9に対して出現回数2であり、その出現度は2/9となる。
【0039】
[パターンペア指定部14]
パターンペア指定部14は、出現度が、所定閾値以上となる「第1の属性値及び第2の属性値」同士の組を、パターンペアと指定する。即ち、頻出する属性値の組を指定する。ここで、所定閾値1/3とすると、
図4によれば、出現度が1/3以上となる以下の属性値の組が、補完のために参照される属性値のパターンペアとして指定される。
属性値val11−val21: パターンペア1
属性値val12−val21: パターンペア2
【0040】
パターンペア指定部14は、指定されたパターンペアを逐次記録するものであってもよい。その後に出現度算出部13から入力されたイベントペアに対して、参照することができる。この場合、パターンペア毎に、出現度も更新されていく。
【0041】
尚、他の実施形態として、統計的な数理モデル(統計モデル)を用いて、タプルとパターンペアの対応を確率的に指定するものであってもよい。例えば、あるタプルに対して、パターンペア1には確率0.8、パターンペア2には確率0.2と、重みを付与するものであってもよい。この理由としては、タプルが複数のパターンを同時に兼ね備える場合もあるためである。統計モデルの内部では、誤りのパターンは相対的に弱い重みを有し、パターンペアが付与される確率が減少する。このような機能を可能とする統計モデルとして、制限付きボルツマンマシン、潜在ディリクレ配分法などがある。制限付きボルツマンマシンは、属性値が画像特徴量のように連続値の場合に適用が可能となる。また、潜在ディリクレ配分法は、属性値が単語のように離散値の場合に適用が可能となる。
【0042】
[属性値補完部15]
属性値補完部15は、第1(又は第2)の属性値を含むものの、第2(又は第1)の属性値が欠損したイベントペアについて、パターンペアを用いて第2(又は第1)の属性値を補完する。
【0043】
図5は、補完されたイベントペアを表す説明図である。
【0044】
最初に、パターンペアにおける属性値の両方又は一方が一致するイベントペアを選択し、そのイベントペアに既存のパターンペアを指定する。例えば、属性値が欠損しているイベント14について、第1の属性値val11は、パターンペア1の属性値と一部で一致する。この場合、欠損している属性値に、パターンペア1の第2の属性値val21を補完する。
【0045】
図5によれば、以下のイベントペアが、パターンペア1によって補完されている。
イベント14(属性値val11)−イベント26(属性値val21※補完)
イベント14(属性値val11)−イベント27(属性値val21※補完)
イベント14(属性値val11)−イベント28(属性値val21※補完)
【0046】
また、属性値補完部15は、当該第1(又は第2)の属性値の出現回数に対する、補完した第2(又は第1)の属性値の出現回数の割合を「確信度」として、当該イベントペアに付与する。
「確信度」とは、属性値の欠損が無いイベントペアの確信度を1として、欠損がある場合に補完した属性値の確かさ(尤度)を表す。
【0047】
図5によれば、補完されたイベントペアに、以下の確信度が付与されている。
イベント14(属性値val11)−イベント26(属性値val21):確信度3/4
イベント14(属性値val11)−イベント27(属性値val21):確信度3/4
イベント14(属性値val11)−イベント28(属性値val21):確信度3/4
例えば、属性値val11が観測(出現回数4=3+1)された場合、それに対する欠損した属性値が、val21である確信度は、3/4となる(
図4参照)。
また、属性値val21が観測(出現回数6=3+3)された場合、それに対する欠損した属性値が、val11である確信度は、3/6となる。
【0048】
[統合イベント選択部16]
統合イベントペア選択16は、確信度が高いイベントペアから降順にソートし、上位から所定数件まで又は確信度が所定閾値以上となるイベントペアのみを出力する。このような統合イベントは、何らかの関連性が高いと認識することができる。即ち、確信度が低い、換言すると、誤りの可能性が高いイベントペアは出力されない。
【0049】
図6は、所定閾値以上の確信度となるイベントペアを選択した説明図である。
【0050】
図6によれば、所定閾値2/3と設定し、属性値同士の確信度が2/3以上となるイベントペアのみが選択されている。
【0051】
尚、統合イベント選択部16は、第1のイベントと第2のイベントとの間の時刻印差が小さいほど上位にソートして出力するものであってもよい。イベント種別によっては、時刻印差が短いほど、イベント同士の関連性が高い場合もあるためである。例えば、出現度及び確信度が同一の複数のイベントペアについて、時刻印差が小さいほど上位にソートして出力する。
【0052】
以上、詳細に説明したように、本発明の情報統合プログラム、装置及び方法によれば、異なる種類のイベント同士を関連付ける際に、イベントで欠損した情報を補完することができる。複数のデータベースに分散したイベントについて、欠損した情報を補完しながら統合することによって、アプリケーションよる統合イベントの利用効率を高めることができる。
【0053】
複数の異なる情報源としては、精度や粒度の異なる位置情報や、異なる複数の事業者間のデータベース連携に有効である。例えば、複数の事業者間のデータベース連携としては、例えば、レコメンデーションサービスや障害原因の分析等に活用できる。
【0054】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。