特許6571914 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ パロ・アルト・リサーチ・センター・インコーポレーテッドの特許一覧

特許6571914情報の複数のドメインを組合せることによる仕事の実施データ内の異常の検知

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6571914

(24)【登録日】2019年8月16日

(45)【発行日】2019年9月4日

(54)【発明の名称】情報の複数のドメインを組合せることによる仕事の実施データ内の異常の検知

(51)【国際特許分類】

G06F 21/55 20130101AFI20190826BHJP

G06Q 10/06 20120101ALI20190826BHJP

【ＦＩ】

G06F21/55 320

G06Q10/06 326

【請求項の数】6

【全頁数】13

(21)【出願番号】特願2014-77085(P2014-77085)

(22)【出願日】2014年4月3日

(65)【公開番号】特開2014-216009(P2014-216009A)

(43)【公開日】2014年11月17日

【審査請求日】2017年3月31日

(31)【優先権主張番号】13/871,985

(32)【優先日】2013年4月26日

(33)【優先権主張国】US

(73)【特許権者】

【識別番号】502096543

【氏名又は名称】パロ・アルト・リサーチ・センター・インコーポレーテッド

【氏名又は名称原語表記】ＰａｌｏＡｌｔｏＲｅｓｅａｒｃｈＣｅｎｔｅｒＩｎｃｏｒｐｏｒａｔｅｄ

(74)【代理人】

【識別番号】100079049

【弁理士】

【氏名又は名称】中島淳

(74)【代理人】

【識別番号】100084995

【弁理士】

【氏名又は名称】加藤和詳

(72)【発明者】

【氏名】エフゲニ・バルト

(72)【発明者】

【氏名】ジュアン・ジェイ・リウ

(72)【発明者】

【氏名】ホダ・エム・エイ・エルダーディリー

(72)【発明者】

【氏名】ロバート・アール・プライス

【審査官】青木重徳

(56)【参考文献】

【文献】特開２０１１−０２３９０３（ＪＰ，Ａ）

【文献】特開２０１０−１０８４６９（ＪＰ，Ａ）

【文献】特開２００４−３０９９９８（ＪＰ，Ａ）

【文献】特開平１１−２５９５７１（ＪＰ，Ａ）

【文献】米国特許第０７５２３０１６（ＵＳ，Ｂ１）

【文献】米国特許出願公開第２０１２／００３５９７９（ＵＳ，Ａ１）

【文献】米国特許出願公開第２００７／０２９４１８７（ＵＳ，Ａ１）

【文献】 Hode Eldardiry, et al.，Multi-Domain Information Fusion for Insider Threat Detection，2013 IEEE Security and Privacy Workshops (SPW)，米国，IEEE，２０１３年３月２４日，pp.45-51

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ２１／５５

Ｇ０６Ｑ１０／０６

(57)【特許請求の範囲】

【請求項1】

プロセッサと、
前記プロセッサが、マルチ・ドメイン・クラスタリングを行うための方法を実行するためのアプリケーションを記憶する記憶装置と、
を備えるシステムであって、
前記方法は、
ユーザに関連する少なくとも２つのドメインに関するドメインデータを集めるステップであって、前記ドメインは監視可能なユーザの行動が記述されたデータの供給源である、ステップと、
前記ユーザに関連するドメインに関する確率分布のパラメータを推定するステップと、
ユーザに関連する第２のドメインに関する確率分布のパラメータを推定するステップと、
２つ以上のドメインに関する変数を含むマルチドメインの確率モデルを用いて前記ドメインデータを分析して、前記確率モデルに関連する各ドメインの確率分布を判定し、ユーザの職務に対応するマルチドメインのクラスタにユーザを割り当てるステップと、
を含むシステム。

【請求項2】

前記ドメインデータは、Ｅメールの平均数、Ｅメールの話題別のコンテンツ、ファイルの平均数、ＨＴＴＰアクセスの平均数、ＨＴＴＰアクセスのためのアドレス、およびログオンの平均数のうちの１つ以上を含む、請求項１に記載のシステム。

【請求項3】

前記方法は、
前記ユーザに関する異常スコアを前記ドメインごとに計算するステップと、
前記ドメインごとに重みを付けられた異常スコアを含む、前記ユーザに関する異常スコアの総計を計算するステップと、をさらに含む請求項１に記載のシステム。

【請求項4】

前記方法は、
第１のドメインに関するドメインデータのクラスタリングを行うステップと、
前記第１のドメインに関する第１のクラスタ索引を特定のユーザと関連付けるステップと、
第２のドメインに関するドメインデータのクラスタリングを行うステップと、
前記第２のドメインに関する第２のクラスタ索引を前記特定のユーザと関連付けるステップと、
前記第１のクラスタ索引および前記第２のクラスタ索引を含む前記特定のユーザに関する離散分布を生成するステップと、をさらに含む請求項１に記載のシステム。

【請求項5】

前記方法は、
ユーザのクラスタ索引を他のユーザのクラスタ索引と比較して前記ユーザの行動が異常かどうかを判定するステップをさらに含む請求項４に記載のシステム。

【請求項6】

前記第１のドメインに関する前記第１のクラスタ索引を前記特定のユーザと関連付けるステップは、
前記ユーザに関する最大事後確率のクラスタ索引を推定することと、
前記ユーザを前記最大事後確率のクラスタ索引と関連付けることと、を含む、請求項４に記載のシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、一般に悪意のある内部者の行動を検知することに関する。より具体的には、本開示は組織の内部者により行われる悪意のある行動を検知する確率モデルに関する。

【発明の概要】

【課題を解決するための手段】

【0002】

本発明の一実施形態では、マルチ・ドメイン・クラスタリングを実行するためのシステムを提供する。動作中、このシステムは、ユーザに関連する少なくとも２つのドメインに関するドメインデータを集める。ドメインとは、監視可能なユーザの行動を記述したデータの供給源である。次に、このシステムは、ユーザに関連するドメインに関する確率分布を推定する。システムはまた、ユーザに関連する第２のドメインに関する確率分布も推定する。次いで、このシステムは、２つ以上のドメインに関する変数を含むマルチドメインの確率モデルを用いてドメインデータを分析して、確率モデルに関連する各ドメインの確率分布を判定し、ユーザの職務に関連するクラスタにユーザを割り当てる。

【0003】

実施形態の変形例では、このドメインデータは、Ｅメールの平均数、Ｅメールの話題別のコンテンツ、ファイルの平均数、ＨＴＴＰアクセスの平均数、ＨＴＴＰアクセスのためのアドレス、およびログオンの平均数のうちの１つ以上を含む。

【0004】

実施形態の変形例では、このシステムは、ユーザに関する異常スコアをドメインごとに計算し、そのユーザに関する異常スコアの総計を計算する。この総計には、ドメインごとの重みを付けられた異常スコアが含まれる。

【0005】

実施形態の変形例では、このシステムは、第１のドメインに関するドメインデータのクラスタリングを行う。次いで、このシステムは、第１のドメインに関する第１のクラスタ索引を特定のユーザと関連付ける。次に、このシステムは、第２のドメインに関するドメインデータのクラスタリングを行う。このシステムは、第２のドメインに関する第２のクラスタ索引を特定のユーザと関連付ける。次いで、このシステムは、特定のユーザに関する離散分布を生成する。この離散分布には、第１のクラスタ索引および第２のクラスタ索引が含まれる。

【0006】

さらに別の変形例では、このシステムは、ユーザのクラスタ索引を他のユーザのクラスタ索引と比較して、そのユーザの行動が異常かどうかを判定する。

【0007】

さらに別の変形例では、第１のドメインに関する第１のクラスタ索引を特定のユーザと関連付けるステップは、ユーザに関する最大の事後確率のクラスタ索引を推定することを含む。次いで、このシステムこのユーザを最大の事後確率のクラスタ索引と関連付ける。

【図面の簡単な説明】

【0008】

【図1】図１は、一実施形態に従った、マルチドメインの確率モデルに基づく異常の検知を容易にするシステムを示す図である。

【図2】図２は、一実施形態に従った、マルチ・ドメイン・クラスタリングを行うための例示的な確率モデルを示すブロック図である。

【図3】図３は、一実施形態に従った、マルチドメインの確率モデルを用いてクラスタリングを行うことにより異常を検知する、例示的な処理を示すフローチャートである。

【図4】図４は、一実施形態に従った、マルチドメインの整合性の推定を示すブロック図である。

【図5】図５は、本発明の一実施形態に従った、マルチ・ドメイン・クラスタリングを行うための例示的なシステムを示す図である。

【発明を実施するための形態】

【0009】

これらの図面では、同様の参照符号は図面の同じ要素を指す

【0010】

本発明の実施形態では、マルチドメインの確率モデルを用いてユーザのクラスタリングを行い、このクラスタリング情報を用いてユーザの行動を同様の職務を行う他のユーザの行動と比較することにより異常を検知することで、内部者の異常な行動を検知するという課題を解決する。ドメインとは、ユーザの行動情報の供給源である。例えば、ドメインは、装置へのアクセス、Ｅメール、ファイルのコピーおよび／またはアクセス、ハイパーテキスト・トランスファー・プロトコル（ＨＴＴＰ）へのアクセス、またはログオン行動のうちの１つでよい。悪意のある行動を検知するシステムでは、異なるドメインからユーザの行動情報を集め、そのユーザの行動情報に基づいて、そのユーザのクラスタリングを行い、ユーザの行動を同様の職務を行う他のユーザ（同僚とも呼ばれる）と比較することにより、異常なユーザの行動を検知することができる。異なる職務ごとに異なるユーザ行動パターンがあるため、これらのクラスタは組織構成におけるユーザの職務に対応可能である。職務とは、組織における人間の仕事のことである。例えば、職務には、ソフトウェアエンジニアまたは弁護士が含まれ得る。

【0011】

異常な行動を検知する上で基本的な見識は、組織内では、ユーザの職務が異なれば、Ｅメールのやり取り、ファイルへのアクセスなどのパターンが違うということである。例えば、ソフトウェアエンジニアは、コンピュータプログラムをコンパイルしテストするときに一日に何百ものソースコードおよびオブジェクトファイルにアクセスする可能性がある。またソフトウェアエンジニアは、ほとんど内部Ｅメールを送信しないことが多い。一方、弁護士は、一日にいくつかの法律文書にしかアクセスせず、他の組織のクライアントと頻繁にＥメールのやり取りを行う可能性がある。これらの異なる職務では、Ｅメールのやり取りのパターン、およびファイルのアクセスのパターンが違う。例えば、Ｅメールおよびファイルの使用パターンによるクラスタリングなど、複数のドメインによりユーザのクラスタリングを行い、ユーザを同様の職務を行う他のユーザと比較して異常を検知することで、このシステムは異常なユーザ行動を検知することができる。

【0012】

本明細書で記載のシステムでは、一連の利用可能なドメイン全体に関して、マルチドメインモデル（いわゆる、グローバルモデル）を用い、そのマルチドメインモデル内で異常値を見つけ出す。このモデリングによる戦略には２つの利点がある。第１に、このシステムは、データ駆動方式で複数のドメインからの異常スコアを組合せる。第２に、この戦略では、単一ドメイン内ではそれ自体異常ではない、異常挙動を検知し易くなる。

【0013】

このシステムでは、本明細書に開示したマルチドメインの確率モデルを用いてユーザのクラスタリングを行うことができる。マルチドメインの確率モデルにより、クラスタに関連するドメインの確率分布、および複数のクラスタ間のユーザの分布の推測が容易になる。ユーザのクラスタとは、クラスタの確率分布内のドメイン特性を有するユーザの集まりである。ドメイン特性とは、例えば、ユーザが毎日送信するＥメールの数である。その他のドメイン特性として、ユーザが毎日アクセスするファイルの数を挙げることができる。各クラスタには、組織内で同様の職務を行うユーザが含まれる。

【0014】

各クラスタは、ドメインごとの分布に関連する。例えば、各クラスタは、そのクラスタ内のユーザが送信したＥメールの数に関する分布、およびそのクラスタ内のユーザがアクセスしたファイルの数に関する分布に関連し得る。異常なユーザの行動を検知するために、このシステムでは、同じ職務を行うユーザとその他のユーザを比較し、そのユーザが異常なＥメールおよびファイル使用パターンを示しているかどうかを判定する。

【0015】

ユーザの異常な行動を検知するために、このシステムでは、ドメインごとにユーザのクラスタリングを別々に行って、単一ドメインのクラスタ索引を各ユーザに関連付け、次いで、単一ドメインのクラスタ索引により、それらのユーザのクラスタリングを行うこともできる。例えば、このシステムは、毎日（または、任意の所定の期間内に）アクセスするファイルの平均数に従って、ユーザのクラスタリングを行うことができ、かつ毎日（または、任意の所定の期間内に）やり取りするＥメールの平均数に従って、ユーザのクラスタリングを行うことができる。このシステムでは、Ｅメールのドメインに関する単一ドメインのクラスタ数を各ユーザと関連付け、かつファイルのドメインに関する単一ドメインのクラスタ数を各ユーザと関連付ける。次いで、このシステムは、異なるドメインからの単一ドメインのクラスタ数に従って、ユーザのクラスタリングを行い、それにより、ユーザごとの離散分布を生成する。次いで、このシステムは、単一ドメインのクラスタのユーザ分布を、そのユーザと同様の職務を行う別のユーザと比較して、異常を検知することができる。さらに、このシステムは、各ドメインに関するユーザごとに異常スコアを計算し、ドメインに関する別々の異常スコアに重みを付けることにより、異常スコアの総計を計算することができる。

【0016】

本明細書に記載の方法では、標準の多変量確率の推測技術を用いて結合確率分布を推測する。本明細書に記載の方法を適用したシステムでは、ドメインデータを取得し、次いで、開示された確率モデルと共に標準の確率の推測技術を用いて、クラスタのドメインの確率分布、およびクラスタ間のユーザの分布を判定することができる。ドメインデータとは、ドメインに関連するユーザの行動を記述したデータのことである。開示の確率モデルは生成モデルであり、トピックモデルの一般ファミリーに属する。トピックモデルは文書に関する生成モデルであり、確率法（ｐｒｏｂａｂｉｌｉｔｙｐｒｏｃｅｄｕｒｅ）を規定し、この確率法により、文書を生成することができる（例えば、ユーザおよび職務のデータ）。

【0017】

なお、クラスタをサンプリングし、次いでそのクラスタからユーザをサンプリングすることにより、開示された確率モデルに関連する生成プロセスを実行することができる。最初に、関連した索引を有するクラスタをサンプリングする。これらのクラスタは、同様のＥメールおよびファイルの使用パターンを有するユーザに対応する。各クラスタには、一連のパラメータ

【数1】

があり、これらのパラメータ

【数2】

により、そのクラスタ内で同じグループに分けることができるユーザ、およびこれらのユーザに関連するドメイン特性が判定される。例えば、あるクラスタには、ソフトウェアエンジニアのタイプのユーザが含まれ得る。別のクラスタには、弁護士タイプのユーザが含まれ得る。クラスタをサンプリングした後、そのクラスタに関連するパラメータからユーザをサンプリング可能である。アクセスされたファイルの数または送信されたＥメールの数をサンプリング可能である。

【0018】

続くセクションでは、マルチ・ドメイン・クラスタリングに関する確率モデル、マルチドメインの分析を用いる単一ドメインのクラスタリングに関する技術、クラスタリングプロセス、および悪意のある行動を検知するシステムの実装形態の一例について説明する。なお、本開示では、Ｅメールのドメインおよびファイルアクセスのドメインを用いて例を提供しているが、本発明の実施形態は、特定のドメインの分析には限定されない。

【0019】

図１は、一実施形態に従った、マルチドメインの確率モデルに基づく異常の検知を容易にするシステムを示す図である。図１では、サーバ１０２がネットワーク１０４を介してドメインデータを受信する。ドメインデータには、Ｅメールの送受信、およびファイルへのアクセスなどのユーザの行動が記述されている。例えば、ドメインデータには、ソフトウェアエンジニアの職務を行うユーザ１０６が行った行動が記述され得る。ユーザ１０６は、オブジェクトファイルおよびソースコードを含む、１０００のファイルに一日でアクセスし、一日平均３通のＥメールを送信する可能性がある。別の例として、ドメインデータには弁護士の職務を行うユーザ１０８が行った行動が記述され得る。ユーザ１０８は、法律文書を含む４つのファイルに一日でアクセスし、一日に２０通のＥメールを送信する可能性がある。

【0020】

種々のコンピュータ、および／または、その他の電子装置により収集可能なデータには、ユーザが所定の期間内に送受信したＥメールの数、所定の期間内にアクセスしたファイルの数、Ｅメールの話題別のコンテンツ、所定の期間内のログオン数、所定の期間内に訪れたウェブサイトの数と種類、所定の期間内のＨＴＴＰアクセス数、ＨＴＴＰアクセスのためのアドレス、所定の期間内のログオン数、および所定の期間内に訪れたウェブサイトの数などのユーザの行動が記述されている。

【0021】

ドメインデータには、ユーザがアクセスするファイルの種類も含むことができる。例えば、ソフトウェアエンジニアはソースコードまたはオブジェクトのファイルにアクセスする可能性があり、弁護士はワープロ文書にアクセスする可能性がある。このシステムは、Ｅメールを含んだ文書の話題の分布を分析することができる。このシステムは、集められたデータの全ての平均を計算するなど、集められたデータに関する統計を取ることもできる。例えば、システムは、一日にログオンのためにアクセスされた装置の数の平均を計算することができる。

【0022】

事象データを受信後、サーバ１０２は、ユーザの行動データのクラスタリングを行うことができる。これには、クラスタに関連するドメインに関する確率分布の判定、およびクラスタ間のユーザの分布の判定も含まれる。

【0023】

分布の判定を終了すると、システムは、このモデルを用いて異常なユーザ挙動を検知することができる。システム、および／または、人間の操作者がユーザの行動とそのユーザの同僚の行動と比較して、そのドメイン内でユーザが同じように行動したかどうかを判定することができる。ユーザ同士が職務またはポジションを共有している場合、彼らは同僚である。ユーザが、ドメイン内で他の同僚と同じように行動していない場合、そのユーザの挙動を異常と表示することができる。ユーザの行動が予測不能な場合、システムはユーザを異常と表示することができる。例えば、同じ職務を行う他のユーザが送信または読むＥメールの一般的な数よりも少ない数のＥメールをユーザが送信または読む場合、システムは異常としてユーザにフラグを立てることができる。

【0024】

図２には、一実施形態に従った、マルチ・ドメイン・クラスタリングを行うための例示的な確率モデルを示すブロック図が示されている。図２に示す確率モデルには、クラスタの異なる変数間の依存構造（ｄｅｐｅｎｄｅｎｃｙｓｔｒｕｃｔｕｒｅｓ）が示されている。確率モデルの依存構造が矢印により示されている。なお、依存関係およびノードを取り除いたり、加えたりして、モデルを一連の異なるドメインに適合させることは可能である。

【0025】

図２では、各ノード（円など）は、確率モデル内の変数に対応する。ノード２０２ａおよび２０２ｃは、クラスタに関連するドメインに関する分布を表す変数である。ノード２０２ｂはユーザｕの職務を表し、ユーザｕに関連するクラスタに対応する。このシステムは、ノード２０４ａ、２０４ｂにより表されるドメインデータを受信する。次いで、受信したドメインデータに基づいて、このシステムはノード２０２ａ〜２０２ｃにより表される潜在変数の確率分布を判定する。依存関係と同様に、ノードを変更したり取り除いたりして異なるドメインに適合させることは可能である。Ｒは職務の総数の数字を表し、１／Ｒはユーザに関連する職務のうちの１つを表す。Ｍｕｌｔは、これがマルチドメインの確率モデルであることを示している。但し、ユーザは組織内で複数の肩書きおよび責任を与えられる可能性があるため、ユーザは複数の職務に関連する可能性がある。

【0026】

図２では、α^１およびα^２は、ハイパーパラメータである。ベイズ統計学では、ハイパーパラメータとは前分布のパラメータである。前分布とは、パラメータまたは分布の潜在変数についての不確実性を表す確率分布である。前分布は、一般にエキスパートの主観的評価である。この図では、α^１は、第１のドメインに関連する

【数3】

に関する前分布のパラメータを表し、α^２は、第２のドメインに関連する

【数4】

に関する前分布のパラメータを表す。α^１およびα^２の値は推定可能である。ノード２０４ａおよび２０４ｂに関して、

【数5】

および

【数6】

は、それぞれ第１のドメインおよび第２のドメインに関して監視されるデータを表す。ハイパーパラメータ（図示せず）を供給し、職務に対応するクラスタ間のユーザの分布を表すｒ_ｕに関する前分布を推定することも可能である。

【0027】

図３には、一実施形態に従った、マルチドメインの確率モデルを用いてクラスタリングを行うことにより異常を検知する、例示的な処理のフローチャートが示されている。動作中、システムは、最初にユーザが送信したＥメールの数およびユーザがアクセスしたファイルの数などのドメインデータを集める（動作３０２）。システムは、ユーザの行動データを自ら集めることも、ログ記録を有するコンピュータ、あるいは監視装置または人間からユーザの行動データを取得し、ユーザの行動に関するデータを集めることもできる。コンピュータの操作者が事象データを入力することができる。あるいは、装置により、そのようなユーザの行動データを自動的に集めることもできる。次に、このシステムは、

【数7】

および

【数8】

の前分布に関するパラメータとして、それぞれ推定されたα^１およびα^２の値を取得する（動作３０４）。

【0028】

このシステムは、人間の操作者による入力を通して、両方の推定値を取得することができる。このシステムは、推定値を前もって格納されているデータから取得することができる。あるいは推定値を生成することにより取得することもできる。次いで、システムは、

【数9】

および

【数10】

に関するクラスタの確率分布を判定する（動作３０６）。システムは、ユーザごとのクラスタ索引、およびドメインごとの確率分布を出力する。クラスタ索引は、ユーザに関する職務（例えば、弁護士、ソフトウェアエンジニア）に関連する。ドメインに関する確率分布により、各クラスタに関連する職務が特徴付けられる。ユーザのデータを、ユーザが関連するクラスタに関する分布値および分布の期待値と比較することにより、このシステムは、ユーザのデータごとの単一の確率推定値を計算することもできる。次いで、システムは、ユーザを同僚と比較して異常を検知することができる（動作３０８）。

【0029】

このシステムは、標準的な技術のうちの１を適用して、ドメインデータに基づくクラスタ内のドメインの確率分布を判定することができる。これらの技術には、ギブスサンプリングまたは変分推論が含まれる。ギブスサンプリングは、確率推論に関する標準的な方法である。ギブスサンプリングとは、多変量確率分布から（例えば、２つ以上の変数の結合確率分布から）観察結果のシーケンスを取得するためのマルコフ連鎖モンテカルロ（ＭＣＭＣ）アルゴリズムである。このシステムは、このシーケンスを用いて結合分布を概算する。変分推論を用いることで、このシステムは、いくらかのデータを考慮して、一連の非観測変数に渡る事後分布を概算する（例えば、ドメインの証拠を観察後ドメインの分布を概算する）。

【0030】

但し、本発明の実施形態は、ギブスサンプリングまたは変分推論には限定されず、このシステムは、確率分布を推測するためのその他のアルゴリズムを用いることも可能である。

【0031】

クラスタの確率分布を判定した後、このシステムは確率モデルの精度を測定することができる。このシステムは、推測された確率から架空のユーザを生成し、この生成されたユーザを実際のユーザと比較して、このモデルが正確かどうかを判定することができる。

【0032】

図４は、一実施形態に従った、マルチドメインの整合性の推定を示すブロック図である。いくつかの実施形態では、このシステムは、直接ドメインデータのクラスタリングを行うかわりに、２つのステージでクラスタリングを行うことが可能である。このシステムは第１のステージで、クラスタ個々のドメインに関するドメインデータの予備クラスタリングを行って、単一ドメインのクラスタを生成する。システムは第２のステージで、単一ドメインのクラスタのクラスタリングを行って、職務に対応するマルチドメインのクラスタにユーザが関連するようにする。次いで、このシステムは、ユーザを同僚と比較して、単一ドメインのクラスタのユーザの分布がユーザの同僚と一致するかどうかを判定する。単一ドメインのクラスタの分布が、単一ドメインのクラスタの同僚の分布と一致しない場合、このシステムはそのユーザの行動を異常と表示することができる。

【0033】

図４には、２つのドメインに対応する単一ドメインのクラスタの２つのセットが示されている。最初にシステムは、標準のクラスタリング技術を用いて、ドメインデータから単一ドメインのクラスタを生成することができる。例えば、このシステムは、Ｋ平均法によるクラスタリングを適用して、ドメインデータのクラスタリングを行うことができる。但し、このＫ平均法によるクラスタリングとは、クラスタ分析に関する技術であり、この技術により複数の観察結果がＫ個のクラスタ内に分類され、各観測結果は最も近い平均値を有するクラスタに属する。

【0034】

このシステムは、Ｅメールのドメインのクラスタ４０２ａ、４０２ｂ、および４０２ｃをそれぞれクラスタ索引１、２、および３を用いて表示することができる。このシステムはまた、ファイルのドメインのクラスタ４０４ａ、４０４ｂ、および４０４ｃをそれぞれクラスタ索引１、２、および３用いて表示することができる。次いで、このシステムは、各ユーザを各ドメイン内のクラスタ索引と関連付ける。このシステムは、図２からの確率グラフ２００など、マルチドメインの確率グラフを用いて、ユーザの単一ドメインのクラスタ索引をクラスタリングする。本実施形態では、ノード２０４ａおよび２０４ｂは、個々の単一ドメインのクラスタ索引を表す。ノード２０２ａおよび２０２ｃは、ユーザごとに異なるドメインに渡る単一ドメインのクラスタ索引の分布を表す。

【0035】

分布内の値が、ユーザが関連する単一ドメインのクラスタに関する索引を示すため、ノード２０２ａおよび２０２ｃに関する分布

【数11】

および

【数12】

は離散分布である。但し、いくつかの実装形態では、数十または数百のドメインが存在する可能性があり、ユーザは、それらの各ドメインに関連する単一ドメインのクラスタ索引値を有し得る。α^１およびα^２は、それぞれ

【数13】

および

【数14】

の前分布に関するパラメータを表す。このシステムは、確率分布を判定するための標準的な技術のうちの１つを適用することができる。次いで、このシステムは、この分布を分析して異常を検知することができる。下記に、システムが、どのように分布を分析して異常を検知するかの様々な例をさらに説明する。

【0036】

別のドメインに関するユーザのクラスタ索引から、あるドメインに関するユーザのクラスタ索引を予測しようと試みることにより、このシステムはユーザの行動が異常かどうかを判定可能である。ある実施形態では、このシステムは、クラスタベクトルｃ_ｕを生成することができ、ｃ_ｕｉは、ドメインｉ内のユーザｕに関する最大事後確率（ＭＡＰ）のクラスタ索引である。ベイズ統計学では、ＭＡＰの推定は事後分布のモードである。第１のステージで、システムはドメインごとのユーザごとにＭＡＰのクラスタ索引を判定し、このクラスタ索引をベクトルｃ_ｕに加えることができる。

【0037】

ユーザｕに関して、ドメインのクラスタ索引ｃ_ｕｉがその他のクラスタ索引｛ｃ_ｕｊ｝_ｊ≠ｉから予測可能である場合、ドメインｉは整合する。最も簡単な場合、このシステムは、その他のユーザｗ≠ｕのクラスタ索引を用いて、｛ｃ_ｗｊ｝_ｊ≠ｉからｃ_ｗｉへのマッピングを学習し、このマッピングがユーザｕを一般化するかどうか判定可能である。この技術を用いることにより、このシステムは、ドメインｉがこのユーザに関するその他のドメインと一致するかどうかを判定することができる。一致しない場合、このシステムは、そのユーザを外れ値として表示することができる。その他のユーザに関するドメインｉに対する全体的な予測精度に基づいて、このシステムは異常スコアを判定することができる。ドメインの予測が一般的に困難な場合、このシステムは不正確な予測に対して厳しくペナルティを課すべきではない。対照的に、非常に予測が可能なドメインに対して、システムは全ての不正確な予測に対して異常と判定可能である。

【0038】

実装形態では、システムは、１つ抜き法を用いてユーザの異常な行動を特定することができる。システムは、１つ除いた全てのドメインのドメイン値を固定することにより、特定のユーザを分析する。この基本的な原理は、通常の個々の要素は予測可能であるはずであるということである。システムは、そのドメインのクラスタの数の予測を試みる。予測が不正確な場合、システムは、ユーザの行動を異常と認識することができる。例えば、このシステムは、ログオン＝１、装置＝２、ファイル＝３、およびＥメール＝１となるように、ユーザに関するドメイン値（例えば、クラスタ数）を設定することができる。次いで、システムは、ＨＴＴＰドメインに関するクラスタ数の予測を試みる。予測が不正確な場合、システムはユーザの行動を異常として表示することができる。

【0039】

いくつかの実施形態では、このシステムがドメインごとに異常スコアを計算し、次いで異常スコアを組合せることができる。このシステムは、ドメイン間の異常スコアを、データ駆動方式で、自動的に組合せることができる。その結果、データ内ではよくある差異を、このシステムは取り除くことができる。例えば、（データのボリュームにより）、ユーザが少なくとも１つのドメインにおいて外れ値を示すことがよくある場合、そのユーザが１つのドメインだけで異常でも、このシステムはユーザに対して全体的な異常としてフラグを立てない。

【0040】

このシステムは、ドメインごとに異常スコアを計算し、個々のドメインに重みを付けることにより、異常スコアを組合せることができる。ドメインｄおよびユーザｉに関する異常スコアは、

【数15】

である。ここで、Ｎはユーザの総数であり、ｊはｊ＝１〜Ｎからの各ユーザｊである。このシステムは、ドメインｄごとに予測外れ値ｍ（ｄ，ｉ）を調整して、重みを付けた値をドメインに反映させることができる。次いで、このシステムは、ユーザｉに関する異常スコアｓ（ｉ）の総計を

【数16】

として計算することができる。

【0041】

図５には、本発明の一実施形態に従った、ユーザのマルチ・ドメイン・クラスタリングを行うための例示的なシステムの図が示されている。ある実施形態では、コンピュータおよび通信システム５００は、プロセッサ５０２、メモリ５０４、および記憶装置５０６を含む。記憶装置５０６は、アプリケーション５１０および５１２などの複数のアプリケーションを格納する。記憶装置５０６はまた、マルチ・ドメイン・クラスタリング・システム５０８も格納する。動作中、マルチ・ドメイン・クラスタリング・システム５０８などの１つ以上のアプリケーションが、記憶装置５０６からメモリ５０４に読み込まれ、次いで、プロセッサ５０２により実行される。プログラムを実行中、プロセッサ５０２は上記の機能を行う。コンピュータおよび通信システム５００は、随意的なディスプレイ５１４、キーボード５１６、およびポインティングディバイス５１８に接続する。

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

特許第6571914号(P6571914)IP Force 特許公報掲載プロジェクト 2022.1.31 β版