2025-24535 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2025-24535生成装置、生成方法及び生成プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2025024535

(43)【公開日】2025-02-20

(54)【発明の名称】生成装置、生成方法及び生成プログラム

(51)【国際特許分類】

G06F 21/56 20130101AFI20250213BHJP

【ＦＩ】

G06F21/56 340

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2023128713

(22)【出願日】2023-08-07

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＷＩＮＤＯＷＳ

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】久保田稜

(72)【発明者】

【氏名】碓井利宣

(72)【発明者】

【氏名】川古谷裕平

(72)【発明者】

【氏名】岩村誠

(57)【要約】

【課題】痕跡のバリエーションを考慮したシグネチャグラフを自動で生成することができる。
【解決手段】生成装置１０は、マルウェアの実行ログを用いて、マルウェアの一連の実行プロセスにおける操作の主体及び対象をノードとし、操作の主体が当該操作の対象へ実行する操作を、ノード間を接続するエッジで表した第１の挙動グラフを作成するグラフ変換部１１と、第１の挙動グラフを、第１の挙動グラフのノードラベルを正規表現化した第２の挙動グラフに変換する正規表現化部１２と、第２の挙動グラフに対し、グラフマイニングを行ってシグネチャグラフを生成する抽出部１３と、を有する。
【選択図】図２

【特許請求の範囲】

【請求項1】

マルウェアの実行ログを用いて、前記マルウェアの一連の実行プロセスにおける操作の主体及び対象をノードとし、前記操作の主体が当該操作の対象へ実行する操作を、前記ノード間を接続するエッジで表した第１の挙動グラフを作成するグラフ変換部と、
前記第１の挙動グラフを、前記第１の挙動グラフのノードラベルを正規表現化した第２の挙動グラフに変換する正規表現化部と、
前記第２の挙動グラフに対し、グラフマイニングを行ってシグネチャグラフを生成する抽出部と、
を有することを特徴とする生成装置。

【請求項2】

前記正規表現化部は、前記ノードラベルの文字列のうちパスセパレーター文字がある場合には、前記パスセパレーター文字で区切られた各コンポーネントをそれぞれ１文字とみなして、第１の編集距離を計算し、
前記正規表現化部は、前記第１の編集距離を基に前記ノードラベルをクラスタリングしたクラスタ集合を求め、各クラスタについて、前記クラスタに含まれる前記ノードラベルの文字列すべてを正規表現化することを特徴とする請求項１に記載の生成装置。

【請求項3】

前記正規表現化部は、各コンポーネント間の編集距離を第２の編集距離として計算し、計算した第２の編集距離を、前記第１の編集距離の計算時における置換コストとして用いることを特徴とする請求項２に記載の生成装置。

【請求項4】

前記正規表現化部は、各クラスタについて、前記ノードラベルの二つの文字列を基に、前記二つの文字列の両方を表す文字列を生成し、生成した文字列を、所定のルールにしたがって、正規表現に変換することを特徴とする請求項２に記載の生成装置。

【請求項5】

前記抽出部は、前記第２の挙動グラフの集合について、グラフマイニングを行い、良性プログラムであるnegative検体に相当する挙動グラフよりもマルウェアであるpositive検体に相当する挙動グラフに多く現れる部分グラフを抽出し、抽出した結果の部分グラフ集合を、前記シグネチャグラフとして出力することを特徴とする請求項１に記載の生成装置。

【請求項6】

生成装置が実施する生成方法であって、
マルウェアの実行ログを用いて、前記マルウェアの一連の実行プロセスにおける操作の主体及び対象をノードとし、前記操作の主体が当該操作の対象へ実行する操作を、前記ノード間を接続するエッジで表した第１の挙動グラフを作成する工程と、
前記第１の挙動グラフを、前記第１の挙動グラフのノードラベルを正規表現化した第２の挙動グラフに変換する工程と、
前記第２の挙動グラフに対し、グラフマイニングを行ってシグネチャグラフを生成する工程と、
を含んだことを特徴とする生成方法。

【請求項7】

マルウェアの実行ログを用いて、前記マルウェアの一連の実行プロセスにおける操作の主体及び対象をノードとし、前記操作の主体が当該操作の対象へ実行する操作を、前記ノード間を接続するエッジで表した第１の挙動グラフを作成するステップと、
前記第１の挙動グラフを、前記第１の挙動グラフのノードラベルを正規表現化した第２の挙動グラフに変換するステップと、
前記第２の挙動グラフに対し、グラフマイニングを行ってシグネチャグラフを生成するステップと、
をコンピュータに実行させるための生成プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、生成装置、生成方法及び生成プログラムに関する。

【背景技術】

【0002】

［IOC（Indicator Of Compromise）］
企業ネットワーク上のPC端末をサイバー攻撃から保護するために広く使われている手段の１つが、Endpoint Detection & Response（EDR）である。EDRでは、端末にインストールされたエージェントが常時監視を行い、検知にはマルウェアが残す痕跡を表すIOCを使う。痕跡は、プロセス名や作成するファイルの名前など、マルウェアが活動したことによってシステム上に現れる特定の識別子である。

【0003】

エージェントは検知を行うと、アラートを通知する。それを受けて、通常セキュリティオペレーションセンター（SOC）の分析官が人手で確認・対応を行う。

【0004】

現状のIOCは、単一の痕跡についてのルール（例：ファイル“C:＼Temp＼mal.exe”を作成）、あるいは複数のルールの論理的結合（ANDまたはOR）で表される。個々のルールでは、単純な文字列の一致比較だけでなく、正規表現によるマッチングも可能である。

【0005】

［検知ルール］
検知ルールは、良性なプログラムを誤検知せず、かつマルウェアを見逃さないことが望ましい。なぜなら、誤検知が多ければ人的対応コストが増加し、見逃しは攻撃の被害拡大につながるからである。しかしながら、現状IOCは誤検知が多く、精度の改善が求められる。

【0006】

［痕跡のバリエーション］
同様の特徴を持ったマルウェアは同一のファミリ名で呼称される。検知ルールを作成するうえでの課題の１つは、同じファミリに属する検体であっても、類似した痕跡が、検体ごと、あるいは実行ごとに異なる場合が存在することである。これを痕跡のバリエーションと呼ぶ。

【0007】

マルウェア開発者は、検知を逃れるために、例えば、マルウェアが生成するファイル名をソースコード上で変更する。あるいは、マルウェア開発者は、実行時に動的にファイル名を決定するように実装する。

【0008】

このような痕跡は、そのまま検知ルールに使用すると、非常に限られた検体の範囲のみ検知するようになってしまい、検知力が低くなる。また、そのような痕跡を省いて検知ルールを作ったとしても、それ以外の痕跡が十分に特徴的でなければ、誤検知を生んでしまう。

【0009】

このようなマルウェアを高精度に検知するには、バリエーションのある痕跡の不変な部分を捉えることが必要である。

【0010】

EIGER（非特許文献１）は、同一ファミリに属する多数のマルウェア検体と良性検体の実行ログから、そのファミリを表すようなIOCを自動的に生成する技術である。この手法は類似の痕跡をまとめて正規表現化したうえでIOCを生成する。

【0011】

一方で、マルウェアの特徴を、現状のIOCのように痕跡の論理的結合として表現するのではなく、痕跡をノードとしたグラフとして表現し検知ルールとする手法も存在する。ここではそのようなグラフをシグネチャグラフと呼ぶ。

【0012】

HOLMES（非特許文献２）は、シグネチャグラフを自動生成する手法の１つである。入力は、同一ファミリの複数の悪性検体と、良性検体の実行ログから作られたグラフの集合である。グラフマイニングなどの技術を用い、「悪性検体には多くマッチするが良性検体にはあまりマッチしない」ようなサブグラフ集合を出力する。

【0013】

ただし、HOLMESは、痕跡のバリエーションを考慮しておらず、正規表現のようなパターン生成も行わない。

【先行技術文献】

【非特許文献】

【0014】

【非特許文献1】Y. Kurogome, Y. Otsuki, Y. Kawakoya, M. Iwamura, S. Hayashi, T. Mori, and K. Sen, “EIGER: Automated IOC Generation for Accurate and Interpretable Endpoint Malware Detection”, In Proceedings of the 35th Annual Computer Security Applications Conference (ACSAC '19), pp. 687－701, 2019., ［令和５年７月１１日検索］，インターネット＜ＵＲＬ：https://dl.acm.org/doi/10.1145/3359789.3359808＞

【非特許文献2】M. Fredrikson, S. Jha, M. Christodorescu, R. Sailer and X. Yan, “Synthesizing Near-Optimal Malware Specifications from Suspicious Behaviors”, 2010 IEEE Symposium on Security and Privacy, Oakland, CA, USA, 2010, pp. 45-60, doi: 10.1109/SP.2010.11., ［令和５年６月２８日検索］，インターネット＜ＵＲＬ：https://ieeexplore.ieee.org/document/5504788＞

【非特許文献3】Tang, Yong et al. “Generating Simplified Regular Expression Signatures for Polymorphic Worms”, International Conference on Autonomic and Trusted Computing (2007)., ［令和５年７月１１日検索］，インターネット＜ＵＲＬ：http://www4.comp.polyu.edu.hk/~csbxiao/paper/2007/ATC-07-SRE.pdf＞

【非特許文献4】Gonzalez, L. B. Holder, and D. J. Cook, “Graph-Based Concept Learning”, Proceedings of the Florida Artificial Intelligence Research Symposium, 2001., ［令和５年７月１１日検索］，インターネット＜ＵＲＬ：https://ailab.wsu.edu/subdue/papers/GonzalezAAAI00.pdf＞

【発明の概要】

【発明が解決しようとする課題】

【0015】

シグネチャグラフは、現状のIOCと比較して、表現できる情報の種類が多いため、より高精度に検知できる可能性がある。具体的には、マルウェア実行時に複数のプロセスが別々の痕跡を残す場合では、現状のIOCではどのプロセスがどの痕跡を残すのかを表現することができないが、シグネチャグラフでは表現可能である。

【0016】

しかしながら、痕跡のバリエーションを考慮するようなシグネチャグラフ自動生成手法はまだ提案されていない。

【0017】

本発明は、上記に鑑みてなされたものであって、痕跡のバリエーションを考慮したシグネチャグラフを自動で生成することができる生成装置、生成方法及び生成プログラムを提供することを目的とする。

【課題を解決するための手段】

【0018】

上述した課題を解決し、目的を達成するために、本発明に係る生成装置は、マルウェアの実行ログを用いて、前記マルウェアの一連の実行プロセスにおける操作の主体及び対象をノードとし、前記操作の主体が当該操作の対象へ実行する操作を、前記ノード間を接続するエッジで表した第１の挙動グラフを作成するグラフ変換部と、前記第１の挙動グラフを、前記第１の挙動グラフのノードラベルを正規表現化した第２の挙動グラフに変換する正規表現化部と、前記第２の挙動グラフに対し、グラフマイニングを行ってシグネチャグラフを生成する抽出部と、を有することを特徴とする。

【発明の効果】

【0019】

本発明によれば、痕跡のバリエーションを考慮したシグネチャグラフを自動で生成することができる。

【図面の簡単な説明】

【0020】

【図1】図１は、パス文字列をクラスタリングする例を示す図である。

【図2】図２は、実施の形態に係る生成装置の構成の一例を示す図である。

【図3】図３は、実行ログのデータ構成の一例を示す図である。

【図4】図４は、図２に示すグラフ変換部が実行する処理の例を示すフローチャートである。

【図5】図５は、第１の挙動グラフの一例を示す図である。

【図6】図６は、図２に示す正規表現化部が実行する処理の例を示すフローチャートである。

【図7】図７は、Distanceサブルーチンの処理手順を示すフローチャートである。

【図8】図８は、図２に示す抽出部が実行する処理の例を示すフローチャートである。

【図9】図９は、図２に示す生成装置が出力するシグネチャグラフの一例を示す図である。

【図10】図１０は、プログラムが実行されることにより、生成装置が実現されるコンピュータの一例を示す図である。

【発明を実施するための形態】

【0021】

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

【0022】

実施の形態として、シグネチャグラフの新たな生成手法を提案する。実施の形態では、痕跡のバリエーションを正規表現として表現するシグネチャグラフの新たな自動生成方法、具体的には、正規表現をノードラベルに含むシグネチャグラフの新たな自動生成手法を説明する。

【0023】

本実施の形態では、シグネチャグラフを生成する際に、ノードラベルのクラスタリングを行ってから、各クラスのノードラベルの正規表現化を行い、バリエーションを除去した上でグラフマイニングを行うことで、痕跡のバリエーションを内包したパターンを抽出できる。

【0024】

ここで、実施の形態では、ノードラベルのクラスタリングに用いる距離関数は、パスセパレーター（/）を意識するように改変した編集距離アルゴリズムを使用する。

【0025】

実施の形態では、パスセパレーター文字で区切られたコンポーネントを、長さに関わらず、１文字と扱って距離を計算する。これによって、実施の形態では、長いフォルダ名やファイル名が過度に距離に影響することを防ぐ。また、実施の形態では、図１に示すように、あるパスの２つの連続するコンポーネントが別のパスの１つのコンポーネントに偶然ほぼマッチして距離が短くなることを防ぐ。

【0026】

図１は、パス文字列A，B，Cをクラスタリングする例を示す図である。

【0027】

パス文字列Aは、パス文字列Bと通常の編集距離では距離が短くなるが、ファイル名は類似しているとは言えず、存在するフォルダも異なる。一方、パス文字列Bとパス文字列Cとは、ファイル名は異なるものの、フォルダが同一であり、パス文字列Bとパス文字列Cとの距離の方が、パス文字列Aとパス文字列Bとの距離よりも、距離が近くなるべきだと考えられる。しかしながら、通常の編集距離では、パス文字列Bとパス文字列Cとの距離は、パス文字列Aとパス文字列Bとの距離よりも遠くなっていた。

【0028】

本実施の形態における距離尺度では、パスセパレーター（/）を意識するように改変した編集距離アルゴリズムを使用することで、上記の認識に合った距離とすることができる。言い換えると、実施の形態における距離尺度では、パス文字列Bとパス文字列Cとの距離の方が、パス文字列Aとパス文字列Bとの距離よりも、距離が近くなり、パス文字列Bとパス文字列Cとが同一のクラスタに入りやすくなる。

【0029】

［生成装置］
本実施の形態に係る生成装置について説明する。図２は、実施の形態に係る生成装置の構成の一例を示す図である。

【0030】

実施の形態に係る生成装置１０は、痕跡のバリエーションを考慮したシグネチャグラフを自動で生成する。生成装置１０は、１つのファミリを表現するシグネチャグラフを、１つ或いは複数生成する。

【0031】

生成装置１０が生成したシグネチャグラフは、そのままリアルタイムマルウェア検知に用いることができる。

【0032】

検知の方法の一例を説明する。検知装置２０において、監視対象の端末の監視ログを収集して、監視ログの挙動グラフを構成する。検知装置２０は、図２に示すように、生成装置１０が生成したシグネチャグラフを取得する。そして、検知装置２０は、生成装置１０が生成したシグネチャグラフのうち、あるファミリのシグネチャグラフいずれか１つが、監視対象の端末の監視ログの部分グラフとして現れた場合、監視対象の端末に感染したマルウェアが、そのファミリのマルウェアと判定する。

【0033】

実施の形態に係る生成装置１０は、例えば、ROM（Read Only Memory）、RAM（Random Access Memory）、CPU（Central Processing Unit）等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。また、生成装置１０は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。

【0034】

生成装置１０は、監視対象の端末の監視ログである実行ログを入力とし、痕跡のバリエーションを考慮したシグネチャグラフを自動で生成し、出力する。生成装置１０は、実行ログを第１の挙動グラフに変換するグラフ変換部１１、第１の挙動グラフのノードラベルを正規表現化した第２の挙動グラフに変換する正規表現化部１２、及び、第２の挙動グラフを基にシグネチャグラフを生成する抽出部１３を有する。

【0035】

［実行ログ］
図３は、実行ログのデータ構成の一例を示す図である。図３に示すように、入力データである実行ログには、１以上の実行ログが含まれる。入力データである実行ログは、ある検体集合に属する検体からそれぞれ得られた実行ログからなる集合である。

【0036】

この検体集合は、シグネチャグラフを作成しようとしている対象のマルウェア（positive検体と呼ぶ）集合と、良性プログラム（negative検体と呼ぶ）集合の和集合である。各実行ログには、実行プロセスの呼び出し元のPID（プロセスID、操作の主体となるプロセスの識別情報）、当該PIDの操作の種類、当該操作の対象等が示される。

【0037】

操作の種類は、例えば、ファイルの読み込み・書き込み、プロセスの作成・終了、他プロセスへのコード注入に関わる操作（例えば、CreateRemoteThread等）、ソケットへの送信・受信等である。なお、Windows OSの場合、操作の種類として、レジストリの読み込み・書き込みをさらに含む。

【0038】

操作の対象は、例えば、操作の対象がファイルの場合はファイルパス、レジストリの場合はキー・バリューのパス、プロセスの場合はプロセスID、ソケットの場合は通信先のIPアドレス、コード注入関連のAPIは対象のプロセスID等である。

【0039】

ただし、例えば、操作の対象がレジストリキーの場合等、操作の対象がハンドルを用いて操作されるリソースである場合、該当の呼び出しの情報だけでは操作の対象が特定できない可能性がある。ここで操作の対象がレジストリキーの場合は、RegOpenKeyで得られたハンドルを引数にして、さらにRegOpenKeyを呼び出すことで、さらに深いパスのキー（サブキー）をオープンすることができる。よって、該当の呼び出しの情報だけでは操作の対象が特定できない場合、データ入力元の装置が、過去の呼び出しを再帰的にさかのぼって情報を取得し、実行ログファイルに書き込まれる。

【0040】

［グラフ変換部］
次に、グラフ変換部１１について説明する。グラフ変換部１１は、入力の各実行ログを第１の挙動グラフ１つに変換する。図４は、図２に示すグラフ変換部１１が実行する処理の例を示すフローチャートである。

【0041】

例えば、グラフ変換部１１は、実行ログに示されるマルウェアの一連の実行プロセスにおける、操作の主体及び対象をノードとし、操作の主体が当該操作の対象に対し実行する操作を、ノード間を接続するエッジで表した第１の挙動グラフを作成する。ただし、マルウェアを実行することによって作られる最初のプロセスをrootノードとし、固有のラベル（例えばroot）を与える。このラベルは全検体で共通である。グラフ変換部１１による処理の詳細を、図４を用いて説明する。

【0042】

例えば、グラフ変換部１１は、マルウェアの実行ログを取得する（ステップＳ１１）。そして、グラフ変換部１１は、空のグラフGを用意し（ステップＳ１２）、ステップＳ１１で取得した実行ログそれぞれに対し、以下に示すステップＳ１３～ステップＳ１６の処理を実行した後、グラフGを返す（ステップＳ１７）。

【0043】

例えば、グラフ変換部１１は、ステップＳ１１で取得したマルウェアの実行ログに示される操作の主体、操作の対象に対応するノードがグラフG内に存在しなければ、操作の主体、操作の対象に対応するノードを作成する（ステップＳ１３）。

【0044】

次に、グラフ変換部１１は、実行ログ内で着目している操作が、読み込みアクセスまたは受信であるか否かを判定し（ステップＳ１４）、着目している操作が、読み込みアクセスまたは受信であると判定した場合（ステップＳ１４：Ｙｅｓ）、ステップＳ１５へ進む。そして、グラフ変換部１１は、グラフGに、操作の対象のノードから当該操作の主体のノードへの当該操作の種類のラベルが付いたエッジがまだ存在しなければ、グラフGに追加する（ステップＳ１５）。

【0045】

一方、グラフ変換部１１は、実行ログ内で着目している操作が、操作の対象の読み込みアクセス、受信のいずれでもないと判定した場合（ステップＳ１４：Ｎｏ）、ステップＳ１６へ進む。そして、グラフ変換部１１は、グラフGに、操作の主体のノードから当該操作の対象のノードへの当該操作の種類のラベルが付いたエッジがまだ存在しなければ、グラフGに追加する（ステップＳ１６）。

【0046】

このようにすることでグラフ変換部１１は、マルウェアの実行ログに対応する挙動グラフを作成することができる。

【0047】

なお、グラフ変換部１１は、上記の第１の挙動グラフの作成において、POIROT（非特許文献２参照）のprovenanceグラフと同様に、プロセス、ファイル、ソケットをノードとして表現し、それぞれの具体的な挙動をノード間のエッジとして表現する。なお、Windows OSの場合、グラフ変換部１１は、レジストリもノードとして表現する。

【0048】

また、上記のプロセスはPIDで区別されるが、終了したプロセスのPIDは新しいプロセスに再利用される。そのため、グラフ変換部１１は、上記のような新しいプロセスには別のノードを割り当てる。

【0049】

なお、グラフ変換部１１は、上記のレジストリ及びファイルをパスで区別し、ソケットをIPアドレスで区別する。

【0050】

また、グラフ変換部１１は、操作の種類が、読み込みアクセスまたは受信の場合は、エッジの向きを操作の対象のノードから操作の主体のノードへの方向とする。それ以外の場合は逆の方向とする。

【0051】

図５は、第１の挙動グラフの一例を示す図である。例えば、グラフ変換部１１は、図３に示した実行ログに基づき、図５に示す第１の挙動グラフを作成する。なお、図５に示す第１の挙動グラフにおいて、エッジには操作の種類を示すノードラベルの記載は省いている。

【0052】

例えば、グラフ変換部１１は、図５に示すように、図３に示す実行ログにおける操作の主体（例えば、最初のプロセスであるrootノード）と、当該操作の主体による操作の対象（例えば、ファイル C:＼Temp＼logger.exe、レジストリ HKEY_CURRENT_USER＼Software＼Microsoft＼Windows＼CurrentVersion＼Run＼logger、プロセス（ProcessID=20）"C:＼Temp＼logger.exe" --detach、ファイル C:＼Temp＼log）と、を示すノードを作成する。

【0053】

また、図５に示す実行ログにおける操作の主体（例えば、C:＼Temp＼Ddcu49＼logger.exe）と、当該操作の主体による操作の対象（root）とを示すノードを作成する。そして、グラフ変換部１１は、操作の主体のノードと当該操作の主体による操作の対象のノードとをエッジで接続する。

【0054】

なお、図５に示す実行ログにおけるrootの操作の対象「"C:＼Temp＼Ddcu49＼logger.exe" －－detach」は、「C:＼Temp＼Ddcu49＼logger.exe」のプロセスの作成であるため、グラフ変換部１１は、rootのノードと、「"C:＼Temp＼Ddcu49＼logger.exe" －－detach」のノードとをエッジで接続する。

【0055】

また、グラフ変換部１１が作成する最終的な第１の挙動グラフには、操作の主体のノード（プロセスノード）にPIDを含めない。これにより、検知装置２０が、監視ログの挙動グラフと第１の挙動グラフとのマッチングを行う際、任意のプロセスノードにマッチさせることができる。

【0056】

［正規表現化部］
正規表現化部１２は、第１の挙動グラフを、第１の挙動グラフのノードラベルを正規表現化した第２の挙動グラフに変換する。

【0057】

具体的には、正規表現化部１２は、第１挙動グラフのノードラベルの文字列のうちパスセパレーター文字がある場合には、パスセパレーター文字で区切られた各コンポーネントをそれぞれ１文字とみなして、第１の編集距離を計算する。この際、正規表現化部１２は、各コンポーネント間の編集距離を第２の編集距離として計算し、計算した第２の編集距離を、第１の編集距離の計算時に使用する置換コストとして用いる。このように、正規表現化部１２は、２段階の編集距離計算を行うことで、クラスタリングに使用する第１の編集距離を求める。

【0058】

そして、正規表現化部１２は、第１の編集距離を基に、第１挙動グラフのノードラベルをクラスタリングしたクラスタ集合を求め、各クラスタについて、クラスタに含まれるノードラベルの文字列すべてを正規表現化する。この際、正規表現化部１２は、各クラスタについて、ノードラベルの二つの文字列を基に、二つの文字列の両方を表す文字列を生成し、生成した文字列を、所定のルールにしたがって、正規表現に変換する。

【0059】

図６は、図２に示す正規表現化部１２が実行する処理の例を示すフローチャートである。

【0060】

正規表現化部１２は、グラフ変換部１１が変換した第１の挙動グラフの集合Sを入力として受け付ける（ステップＳ２１）。正規表現化部１２は、ステップＳ２１において取得した第１の挙動グラフの各ノードタイプTについて、以下に示すステップＳ２２～ステップＳ３５を実行した後、出力S（第２の挙動グラフの集合）を返す（ステップＳ３６）。

【0061】

正規表現化部１２は、まず、ステップＳ２１で取得した第１の挙動グラフの集合Sの各ノードタイプTについて、第１の挙動グラフの集合Sに属するグラフに含まれるノードタイプTのノードのノードラベルのうち、複数のグラフに現れないノードラベル全てをノードラベルの集合Lとして抽出する（ステップＳ２３）。

【0062】

正規表現化部１２は、ノードラベルの集合Ｌを、DBSCAN（Density-based spatial clustering of applications with noise）アルゴリズムを用いてクラスタリングした結果のクラスタ集合をCSとして求める（ステップＳ２４）。正規表現化部１２は、クラスタリングの際に用いる距離関数として、後述するDistanceサブルーチンを用いる。

【0063】

正規表現化部１２は、CS内の各クラスタCについて、以下のステップＳ２５～ステップＳ３４を繰り返し行う。まず、各クラスタC内の任意のラベルの１つをpとする（ステップＳ２６）。

【0064】

そして、正規表現化部１２は、各クラスタC内の各ラベルlについて、以下のステップＳ２７～ステップＳ２９を繰り返し行う。正規表現化部１２は、各クラスタC内の各ラベルlについて、pとlとを入力としてCSR（Contiguous Substrings Rewarded）アルゴリズム（非特許文献３）を実行した実行結果をpとして取得する（ステップＳ２８）。CSRアルゴリズムは、二つの文字列p，lを入力とし、pとlとの両方を表すような文字列を出力するアルゴリズムである。このCSRアルゴリズムでは、ステップＳ２７～ステップＳ２９の処理において生成されうるワイルドカードとして、シンボル「*」、シンボル「?」を、入力文字列に含めることができる。

【0065】

正規表現化部１２は、ステップＳ２７～ステップＳ２９のループが終了すると、CSRアルゴリズムの実行結果pを、正規表現rに変換する（r=Convert（p））（ステップＳ３０）。

【0066】

正規表現化部１２は、C内の各ラベルlについて、以下のステップＳ３１～ステップＳ３３を繰り返し行う。正規表現化部１２は、C内の各ラベルlについて、Sに属するグラフに含まれるノードタイプTのノードでラベルがlであるものすべてについて、ラベルを正規表現rで置換する（ステップＳ３２）。

【0067】

図６では、クラスタリングとしてDBSCANアルゴリズムを用いた場合を例に説明したが、これに限らない。

【0068】

例えば、実施の形態では、クラスタリングとして、クラスタ数の指定を必要とせず、外れ値（いずれのクラスタにも属さないデータ点）を判定でき、かつ、複数の互いに素な部分集合の集合を出力するようなアルゴリズムであれば他のものを用いてもよい。例えば、実施の形態では、クラスタリングとして、X-meansやOPTICSを適用することも可能である。

【0069】

また、実施の形態では、正規表現化としてSRE（Simplified Regular Expression）（非特許文献３）のCSRアルゴリズムを用いた場合を例に説明したが、これに限らない。実施の形態では、正規表現化には、３つ以上の文字列から、それらすべてを表現する正規表現を生成する任意の手法を適用することも可能である。

【0070】

［Distanceサブルーチン］
実施の形態では、クラスタリング（ステップＳ２４）に用いる距離関数として、Distanceサブルーチンを用いる。そこで、ステップＳ２４において距離関数として用いる、Distanceサブルーチンについて説明する。図７は、Distanceサブルーチンの処理手順を示すフローチャートである。

【0071】

Distanceサブルーチンでは、２つの文字列X, Yを入力として（ステップＳ４１）、標準化編集距離Dを表す0以上1以下の実数を出力する（ステップＳ４６）。

【0072】

Distanceサブルーチンでは、文字列X, Yがともにファイルパスであるか、ともにレジストリパスであるかを判定する（ステップＳ４２）。

【0073】

Distanceサブルーチンでは、文字列X, Yがともにファイルパスであるか、ともにレジストリパスである場合（ステップＳ４２：Ｙｅｓ）、パスセパレーター文字を用いてX, Yを分割した結果（配列）をそれぞれLX, LYとする（ステップＳ４３）。

【0074】

具体的に、図１を参照して、説明する。例えば、パス文字列A「C:/superstar.exe」は、パスセパレーター文字（/）で、２つのコンポーネントA1「C:」，A2「superstar.exe」に区切られる。パス文字列B「C:/super/tar.exe」は、パスセパレーター文字で、３つのコンポーネントB1「C:」，B2「super」，B3「tar.exe」に区切られる。パス文字列C「C:/super/7zip.exe」は、パスセパレーター文字で、３つのコンポーネントC1「C:」，C2「super」，C3「7zip.exe」に区切られる。

【0075】

Distanceサブルーチンでは、配列の各要素（ワードと呼ぶ）を１文字とみなして、LXとLYとの標準化編集距離D（第１の編集距離）を計算する（ステップＳ４４）。

【0076】

例えば、パス文字列Aについては、コンポーネントA1を１文字目とし、コンポーネントA2を２文字目とした、２文字の文字列LAとする。パス文字列Bについては、コンポーネントB1を１文字目とし、B2を２文字目とし、コンポーネントB3を３文字目とした、３文字の文字列LBとする。パス文字列Cについては、コンポーネントC1を１文字目とし、C2を２文字目とし、コンポーネントC3を３文字目とした、３文字の文字列LCとする。そして、文字列LA，LB，LC間の標準編集化距離（第１の編集距離）を計算する。

【0077】

ここで、標準化編集距離は、編集距離を0以上1以下の値にスケーリングしたものをいい、編集距離を、２つの入力文字列の長さのうち長い方で除算して得られる値を指す。編集距離は、編集コストをパラメータとして指定することができる。具体的には、置換コスト、挿入コスト、削除コストである。編集距離は、入力文字列の片方をもう片方と一致させるために必要な編集操作（文字の置換か挿入か削除）の合計コストの最小値で定義される。

【0078】

さらに、ステップＳ４４では、置換コストを、置換されるワードと置換後のワードのWord Distance（第２の編集距離）とし、挿入コストを１とし、削除コストを１としている。ここで、第２の編集距離は、後述するように、Word Distanceサブルーチンを用いて計算した、各コンポーネント間の編集距離に基づく値である。

【0079】

ステップＳ４３，Ｓ４４の処理によって、図１の例では、パス文字列Bについては、同じ３文字で構成されるパス文字列Cとの標準化編集距離D（例えば、0.17）の方が、２文字で構成されるパス文字列Aとの標準化編集距離D（例えば、0.49）よりも近くなる。このため、パス文字列Bとパス文字列Cとが同一のクラスタに入りやすくなる。

【0080】

一方、Distanceサブルーチンでは、文字列X, Yがともにファイルパスでない、かつ、レジストリパスでない場合（ステップＳ４２：Ｎｏ）、文字列Xと文字列Yとの標準化編集距離Dを計算する（ステップＳ４５）。

【0081】

そして、Distanceサブルーチンでは、ステップＳ４４またはステップＳ４５において計算した標準化編集距離Dを出力して（ステップＳ４６）、処理を終了する。

【0082】

このDistanceサブルーチンは、標準化編集距離に基づいている。本実施の形態で使用するDistanceサブルーチンでは、パスセパレーター文字で区切られた部分をそれぞれ１文字とみなすことが特徴となる。

【0083】

［Word Distanceサブルーチンの処理］
図７のステップＳ４４に示すWord Distanceサブルーチンの処理について説明する。Word Distance サブルーチンは、２つの文字列X, Yを入力として、距離を表す0以上1以下の実数を出力する。

【0084】

ステップＳ４４では、Word Distanceの出力は、以下のパラメータで計算した文字列Xと文字列Yの標準化編集距離（第２の編集距離）である。
置換コスト：1
挿入コスト：1
削除コスト：1

【0085】

例えば、ノードラベルが、図１のパス文字列A，B，Cである場合、パスセパレーター文字で区切られた各コンポーネントA1，A2，B1～B3，C1～C3が、Word Distanceサブルーチンの入力となる。

【0086】

Word Distanceサブルーチンでは、コンポーネントA1，A2，B1～B3，C1～C3の各組合せにおいて、各文字同士を比較して、標準化編集距離を計算する。そして、それぞれ計算した標準化編集距離を、ステップＳ４４の置換コストとする。例えば、コンポーネントA1，A2と、コンポーネントB1～B3との各組合せの標準化編集距離をそれぞれ計算し、それらを、文字列LA，LB間の標準編集化距離を計算する際の置換コストとする。

【0087】

［Convertサブルーチン］
図６のステップＳ３０に示すConvertサブルーチンについて説明する。Convertサブルーチンは、ワイルドカードを含む文字列Xを入力とし、次の処理を行う。

【0088】

まず、Convertサブルーチンでは、文字列Xを、同等の正規表現rに変換する。

【0089】

文字列のうち、シンボル「*」は任意の１文字または０文字を表し、シンボル「?」は任意の１文字を表す。正規表現rへの変換は、具体的には、文字列Xのうち、シンボル「*」は「.?」とし、シンボル「?」は「.」とする。

【0090】

Convertサブルーチンでは、ワイルドカードが複数連続している場合、Convertサブルーチン「.{n}」または「.{n,m}」を用いてまとめる。Convertサブルーチンでは、例えば、「x??***c??」は「x.{2,5}c.{2}」に変換する。

【0091】

そして、Convertサブルーチンでは、エスケープ処理が必要な非ワイルドカード文字はエスケープする。必要な非ワイルドカード文字を、例えば、「.」を「＼.」に変換する。どの文字のエスケープが必要かは、検知時に正規表現のマッチングを行う正規表現エンジンの実装に依存する。

【0092】

Convertサブルーチンでは、変換した正規表現rを出力する。

【0093】

［抽出部］
抽出部１３は、ノードラベルを正規表現化した第２の挙動グラフを基にシグネチャグラフを生成する。図８は、図２に示す抽出部１３が実行する処理の例を示すフローチャートである。

【0094】

抽出部１３は、第２の挙動グラフの集合Sを入力として受け付ける（ステップＳ５１）。抽出部１３は、集合Sの中のうち、positive検体に相当する挙動グラフP、集合Sの中のうち、negative検体に相当する挙動グラフNを抽出する（ステップＳ５２）。

【0095】

抽出部１３は、挙動グラフPをpositive examples、挙動グラフNをnegative examplesとして、グラフマイニングであるSubdueCL（非特許文献４）を実行して抽出した結果の部分グラフ集合SGを生成する（ステップＳ５３）。

【0096】

抽出部１３は、部分グラフ集合SG内の各部分グラフgに対して、gが（root）ラベルのノードを含む場合には、そのラベルを正規表現「.*」で置き換える（ステップＳ５４）。そして、抽出部１３は、部分グラフ集合SGを、シグネチャグラフとして出力する（ステップＳ５５）。

【0097】

このように、抽出部１３は、入力である第２の挙動グラフの集合Sの中のpositive検体に頻繁に現れ、negative検体にはほとんど現れない部分グラフをいくつか抽出する。

【0098】

抽出部１３では、抽出方法として、SubdueCLというグラフマイニング手法を用いる。これは入力として、positive examplesとnegative examplesという２つのグラフ集合をとる。出力は、positive examplesに多く現れ、negative examplesにあまり現れないような部分グラフである。positive examplesとしてpositive検体のグラフを、negative examplesとしてnegative検体のグラフを入力することで、できるだけpositiveのファミリの検体にのみマッチするような部分グラフを作ることができる。

【0099】

［シグネチャグラフの一例］
図９は、生成装置１０が出力するシグネチャグラフの一例を示す図である。なお、実際に出力されるシグネチャグラフのラベルは、他の類似した検体と比較してどの部分が実際に共通しているかに依存する。図９に示すように、実行ログにおける操作の主体であるrootラベルのノードは、ステップＳ５４の処理において、ラベルが正規表現「.*」に置き換えられている。

【0100】

そして、「.*」ラベルのノードと接続する、ノードのラベル「C:＼Temp＼Ddcu49＼logger.exe」は、「Ddcu49」部を正規表現「.{6}」に変換した「C:＼＼Temp＼＼.{6}＼＼logger＼.exe」と表現される。

【0101】

また、「.*」ラベルのノードと接続する、ノードのラベル「"C:＼Temp＼Ddcu49＼logger.exe" --detach」は、「Ddcu49」部を正規表現「.{6}」に変換した「"C:＼＼Temp＼＼.{6}＼＼logger＼.exe" －－detach」と表現される。

【0102】

なお、ノードのラベル「"C:＼＼Temp＼＼.{6}＼＼logger＼.exe" －－detach」と接続する、ノードのラベル「C:＼Temp＼logs.txt」は、他の挙動グラフによって決まり、図9の例では、「C:＼Temp＼logs.txt」のままである。

【0103】

［実施の形態の効果］
図９に例示する様に、実施の形態に係る生成装置１０は、痕跡のバリエーションを正規表現として表現したシグネチャグラフを自動生成することができる。

【0104】

生成装置１０は、シグネチャグラフを生成する際に、入力の各実行ログを変換した挙動グラフについて、ノードラベルの正規表現化を行い（図６）、バリエーションを除去した上で、グラフマイニングを行うことで、痕跡のバリエーションを内包したパターンを抽出できる。

【0105】

そして、生成装置１０は、クラスタリングに用いる距離関数は、パスセパレーター（/）を意識するように改変した編集距離アルゴリズム（Distanceサブルーチン）を使用する。生成装置１０が使用する編集距離アルゴリズム（Distanceサブルーチン）は、パスセパレーター文字で区切られたコンポーネントを、長さに関わらず「１文字」と扱って第１の編集距離を計算するものである。

【0106】

これによって、生成装置１０は、長いフォルダ名やファイル名が過度に距離に影響することを防ぐ。これによって、実施の形態では、図１に示すように、あるパスの２つの連続するコンポーネントが別のパスの１つのコンポーネントに偶然ほぼマッチして距離が短くなることを防ぐことができる。

【0107】

さらに、生成装置１０が使用する編集距離アルゴリズム（Distanceサブルーチン）は、第１の編集距離の置換コストとして、各コンポーネント間の第２の編集距離を使用する。これによって、例えば、フォルダが類似していないパス文字列間の編集距離よりも、フォルダが同一または類似するパス文字列間の距離が近くなるように、計算することができる。

【0108】

したがって、生成装置１０は、痕跡のバリエーションを正規表現として表現するシグネチャグラフを、自動で生成することができる。生成装置１０は、痕跡のバリエーションを正規表現で吸収し、より多くの検体を表現するシグネチャグラフを生成できる。分析側（例えば、検知装置２０）は、このシグネチャグラフを基に、より多くの未知の検体が検知できるようになる。

【0109】

さらに、生成装置１０では、痕跡にバリエーションのある似た検体に対してそれぞれシグネチャグラフを作るのではなく、１つのシグネチャグラフで多くの検体を表現することができ、検知の計算負荷削減や、分析官にとっての分かりやすさが向上する。

【0110】

［実施の形態のシステム構成について］
生成装置１０の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、生成装置１０の機能の分散及び統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。

【0111】

また、生成装置１０においておこなわれる各処理は、全部または任意の一部が、ＣＰＵ、ＧＰＵ（Graphics Processing Unit）、及び、ＣＰＵ、ＧＰＵにより解析実行されるプログラムにて実現されてもよい。また、生成装置１０において行われる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。

【0112】

また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。

【0113】

［プログラム］
図１０は、プログラムが実行されることにより、生成装置１０が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

【0114】

メモリ１０１０は、ＲＯＭ１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

【0115】

ハードディスクドライブ１０９０は、例えば、ＯＳ（Operating System）１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、生成装置１０の各処理を規定するプログラムは、コンピュータ１０００により実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、生成装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

【0116】

また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

【0117】

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

【0118】

以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

【符号の説明】

【0119】

１０生成装置
１１グラフ変換部
１２正規表現化部
１３抽出部

【図1】