(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024057557
(43)【公開日】2024-04-24
(54)【発明の名称】情報セキュリティ保護検知ルールの表記方法、及びTTP表記装置
(51)【国際特許分類】
G06F 21/55 20130101AFI20240417BHJP
G06F 40/279 20200101ALI20240417BHJP
G06F 21/57 20130101ALI20240417BHJP
G06F 16/35 20190101ALI20240417BHJP
【FI】
G06F21/55
G06F40/279
G06F21/57
G06F16/35
【審査請求】有
【請求項の数】16
【出願形態】OL
(21)【出願番号】P 2022183165
(22)【出願日】2022-11-16
(31)【優先権主張番号】111138541
(32)【優先日】2022-10-12
(33)【優先権主張国・地域又は機関】TW
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.WINDOWS
(71)【出願人】
【識別番号】599060434
【氏名又は名称】財團法人資訊工業策進會
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】李 宗峻
(72)【発明者】
【氏名】林 聖翔
(72)【発明者】
【氏名】▲呉▼ 東杰
【テーマコード(参考)】
5B091
5B175
【Fターム(参考)】
5B091AA15
5B091AB17
5B091CA01
5B091CC01
5B091CC04
5B175DA01
5B175FA03
5B175HB03
(57)【要約】
【課題】本発明は、情報セキュリティ検知ルールの表記方法とその情報セキュリティ脅威ポリシー、テクニック、および攻撃手順表記装置を開示する。
【解決手段】表記方法は、TTPの定義に関連する複数の文献を取得し、それらを分類してコーパスを生成すること、キーワードシソーラスを作成すること、表記対象の検出ルールを複数取得し、それらからキーワードと比較してキー情報フィールドを抽出し、表記対象の検出ルールに表記すること、キー情報フィールドとコーパス間でテキスト類似度計算を行って、類似度が最も高いコーパスにラベルを付けること、ラベル付き検出ルールおよびコーパスを訓練データとして用いること、から構成されている。表記されていないものについては、キー情報フィールドとコーパスのテキストの類似度を計算し、類似度の高いコーパスを用いて表記を行う。表記済検知ルールとコーパスを訓練データセットとして、TTP表記モデルを生成し、現在表記すべき検出ルールを入力して、TTP表記結果を生成する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
プロセッサとストレージユニットを含む情報セキュリティ保護のための戦術、テクニック、手順(TTP)表記装置に適する、情報セキュリティ保護検知ルールの表記方法であって、
前記プロセッサは、
TTPの定義に関連する複数の参照文書を取得し、前記参照文書が属する情報セキュリティ戦術及び情報セキュリティテクニックに従って前記参照文書を分類して、複数の情報セキュリティ戦術、及び前記複数の情報セキュリティテクニックに従って分類された複数の攻撃手口を含む複数のコーパス(Corpus)を生成し、
前記情報セキュリティ戦術及び/または前記情報セキュリティテクニックに対応する複数のキーワードを含む、キーワードシソーラスを作成し、
複数の表記対象検知ルールを取得し、前記複数の表記対象検知ルールに対して、
前記複数の表記対象検知ルールから少なくとも1つのキー情報フィールドを抽出し、
前記少なくとも1つのキー情報フィールドを前記複数のキーワードと比較し、前記複数の表記対象検知ルールに対し表記を付け、
表記付けされていない表記対象検知ルールに対して、抽出された少なくとも1つのキー情報フィールドのフィールドコンテンツを取得し、前記フィールドコンテンツと前記複数のコーパスに対してテキスト類似度計算を実行することで、前記複数のコーパスと前記フィールドコンテンツとの間の複数のテキスト類似度を取得し、
テキスト類似度が最も高いコーパスに対応した前記情報セキュリティ戦術及び前記情報セキュリティテクニックによって、前記表記付けされていない表記対象検知ルールに対し表記を付けるように、
複数の表記済検知ルールを生成し、
前記複数の表記済検知ルールと前記複数のコーパスを訓練データセットとして、訓練対象TTP表記モデルを訓練し、TTP表記モデルを生成し、
前記TTP表記モデルに現在の表記対象検知ルールを入力することで、TTP表記結果を生成し、前記TTP表記結果によって前記複数のコーパスを更新する、
ことを特徴とする、情報セキュリティ保護検知ルールの表記方法。
【請求項2】
前記複数の表記対象検知ルールのそれぞれに対して、
前記少なくとも1つのキー情報フィールドと前記複数のキーワードとを比較し、前記複数のキーワードのいずれかが現れたことに応答して、対応的な前記情報セキュリティ戦術及び前記情報セキュリティテクニックで、当該表記対象検知ルールを表記する、キーワードに基づく表記ステップ(Rules-based Labeling)を行う、ように構成される、
請求項1に記載の情報セキュリティ保護検知ルールの表記方法。
【請求項3】
前記参照文書が属する情報セキュリティ戦術及び情報セキュリティテクニックに従って前記参照文書を分類して、対応する前記複数のコーパスを生成することは、
テクニックプラットフォームに従って、検知ルールタイプの表記に適した複数の技術項目のそれぞれが対応した参照文書を抽出する、第1のデータ前処理ステップと、
同じ情報セキュリティ戦術に属する全ての技術項目に関わる参照文書を組み合わせてからそれが属した情報セキュリティ戦術に従って分類することで、前記複数のコーパスを生成する、TTPテキスト分類ステップと、
を実行するように行われる、
請求項1に記載の情報セキュリティ保護検知ルールの表記方法。
【請求項4】
抽出された少なくとも1つのキー情報フィールドのフィールドコンテンツを取得することは、
前記キー情報フィールド及び前記複数のコーパスにおける参照文書に対して、ストップワード(stopword)を削除し見出し語化(Lemmatisation)を行う、第2のデータ前処理ステップをさらに含む、
請求項1に記載の情報セキュリティ保護検知ルールの表記方法。
【請求項5】
前記第2のデータ前処理ステップは、セキュリティ関連の略語を完全な用語に変換することをさらに含む、
請求項4に記載の情報セキュリティ保護検知ルールの表記方法。
【請求項6】
抽出された少なくとも1つのキー情報フィールドのフィールドコンテンツを取得することでは、
第1の用語頻度逆文書頻度(term frequency-inverse document frequency, TF-IDF)ベクトル化器が実行されることで、前記複数の表記対象検知ルールにおける、前記フィールドコンテンツと前記複数のコーパスとの各テキスト内の単語とについて、当該単語が対応的なテキストでの重要度を算出し、当該重要度を当該テキストに対応する特徴ベクトルに変換することによって、前記複数の表記対象検知ルールに対応する第1のルール特徴ベクトルと前記複数のコーパスに対応する複数の第1のTTP特徴ベクトルを取得すること、をさらに含む、
請求項3に記載の情報セキュリティ保護検知ルールの表記方法。
【請求項7】
前記複数の表記済検知ルールと前記複数のコーパスを訓練データセットとすることは、
第2の用語頻度逆文書頻度(term frequency-inverse document frequency, TF-IDF)ベクトル化器が実行されることで、前記複数の表記済検知ルールにおける、前記フィールドコンテンツと前記複数のコーパスとの各テキスト内の単語とについて、当該単語が対応的なテキストでの重要度を算出し、当該重要度を当該テキストに対応する特徴ベクトルに変換することによって、前記複数の表記済検知ルールに対応する第2のルール特徴ベクトルと前記複数のコーパスに対応する複数の第2のTTP特徴ベクトルを取得すること、をさらに含む、
請求項1に記載の情報セキュリティ保護検知ルールの表記方法。
【請求項8】
前記訓練するTTP表記モデルは機械訓練分類アルゴリズムであり、前記機械訓練分類アルゴリズムを訓練する際、各前記第2のルール特徴ベクトルと複数の前記第2のTTP特徴ベクトルとを比較してテキストの類似度を算出し、前記テキストの類似度のうち最も高いものに対応した前記第2のTTP特徴ベクトルが対応するテキストにより前記複数の表記済検知ルールを表記することで、訓練結果をフィードバックする、
請求項7に記載の情報セキュリティ保護検知ルールの表記方法。
【請求項9】
プロセッサと、前記プロセッサに電気的接続するストレージユニットとを含む情報セキュリティ保護のための戦術、テクニック、手順(TTP)表記装置であって、
TTPの定義に関連する複数の参照文書を取得し、前記参照文書が属する情報セキュリティ戦術及び情報セキュリティテクニックに従って前記参照文書を分類して、複数の情報セキュリティ戦術、及び前記複数の情報セキュリティテクニックに従って分類された複数の攻撃手口を含む複数のコーパス(Corpus)を生成し、
前記情報セキュリティ戦術及び/または前記情報セキュリティテクニックに対応する複数のキーワードを含む、キーワードシソーラスを作成し、
複数の表記対象検知ルールを取得し、前記複数の表記対象検知ルールに対して、
前記複数の表記対象検知ルールから少なくとも1つのキー情報フィールドを抽出し、
前記少なくとも1つのキー情報フィールドを前記複数のキーワードと比較し、前記複数の表記対象検知ルールに対し表記を付け、
表記付けされていない表記対象検知ルールに対して、抽出された少なくとも1つのキー情報フィールドのフィールドコンテンツを取得し、前記フィールドコンテンツと前記複数のコーパスに対してテキスト類似度計算を実行することで、前記複数のコーパスと前記フィールドコンテンツとの間の複数のテキスト類似度を取得し、
テキスト類似度が最も高いコーパスに対応した前記情報セキュリティ戦術及び前記情報セキュリティテクニックによって、前記表記付けされていない表記対象検知ルールに対し表記を付けるように、
複数の表記済検知ルールを生成し、
前記複数の表記済検知ルールと前記複数のコーパスを訓練データセットとして、訓練対象TTP表記モデルを訓練し、TTP表記モデルを生成し、
前記TTP表記モデルに現在の表記対象検知ルールを入力することで、TTP表記結果を生成し、前記TTP表記結果によって前記複数のコーパスを更新する、ことを実行するように前記プロセッサが構成される、
ことを特徴とする、TTP表記装置。
【請求項10】
前記複数の表記対象検知ルールのそれぞれに対して、
前記少なくとも1つのキー情報フィールドと前記複数のキーワードとを比較し、前記複数のキーワードのいずれかが現れたことに応答して、対応的な前記情報セキュリティ戦術及び前記情報セキュリティテクニックで、当該表記対象検知ルールを表記する、キーワードに基づく表記ステップ(Rules-based Labeling)を行う、
ことを実行するように前記プロセッサが構成される、
請求項9に記載のTTP表記装置。
【請求項11】
前記参照文書が属する情報セキュリティ戦術及び情報セキュリティテクニックに従って前記参照文書を分類して、対応する前記複数のコーパスを生成することは、
テクニックプラットフォームに従って、検知ルールタイプの表記に適した複数の技術項目のそれぞれが対応した参照文書を抽出する、第1のデータ前処理ステップと、
同じ情報セキュリティ戦術に属する全ての技術項目に関わる参照文書を組み合わせてからそれが属した情報セキュリティ戦術に従って分類することで、前記複数のコーパスを生成する、TTPテキスト分類ステップと、
をさらに実行するように前記プロセッサが構成される、
請求項9に記載のTTP表記装置。
【請求項12】
抽出された少なくとも1つのキー情報フィールドのフィールドコンテンツを取得することは、
前記キー情報フィールド及び前記複数のコーパスにおける参照文書に対して、ストップワード(stopword)を削除し見出し語化(Lemmatisation)を行う、第2のデータ前処理ステップを、
さらに実行するように前記プロセッサが構成される、
請求項9に記載のTTP表記装置。
【請求項13】
前記第2のデータ前処理ステップは、セキュリティ関連の略語を完全な用語に変換することをさらに含む、
請求項12に記載のTTP表記装置。
【請求項14】
抽出された少なくとも1つのキー情報フィールドのフィールドコンテンツを取得する際、
第1の用語頻度逆文書頻度(term frequency-inverse document frequency, TF-IDF)ベクトル化器が実行されることで、前記複数の表記対象検知ルールにおける、前記フィールドコンテンツと前記複数のコーパスとの各テキスト内の単語とについて、当該単語が対応的なテキストでの重要度を算出し、当該重要度を当該テキストに対応する特徴ベクトルに変換することによって、前記複数の表記対象検知ルールに対応する第1のルール特徴ベクトルと前記複数のコーパスに対応する複数の第1のTTP特徴ベクトルを取得する、
ことをさらに実行するように前記プロセッサが構成される、
請求項11に記載のTTP表記装置。
【請求項15】
前記複数の表記済検知ルールと前記複数のコーパスを訓練データセットとすることは、
第2の用語頻度逆文書頻度(term frequency-inverse document frequency, TF-IDF)ベクトル化器が実行されることで、前記複数の表記済検知ルールにおける、前記フィールドコンテンツと前記複数のコーパスとの各テキスト内の単語とについて、当該単語が対応的なテキストでの重要度を算出し、当該重要度を当該テキストに対応する特徴ベクトルに変換することによって、前記複数の表記済検知ルールに対応する第2のルール特徴ベクトルと前記複数のコーパスに対応する複数の第2のTTP特徴ベクトルを取得し、それによって訓練対象TTP表記モデルに対し訓練すること、
をさらに実行するように前記プロセッサが構成される、
請求項9に記載のTTP表記装置。
【請求項16】
前記訓練するTTP表記モデルは機械訓練分類アルゴリズムであり、前記機械訓練分類アルゴリズムを訓練する際、各前記第2のルール特徴ベクトルと複数の前記第2のTTP特徴ベクトルとを比較してテキストの類似度を算出し、前記テキストの類似度のうち最も高いものに対応した前記第2のTTP特徴ベクトルが対応するテキストにより前記複数の表記済検知ルールを表記することで、訓練結果をフィードバックする、
をさらに実行するように前記プロセッサが構成される、
請求項15に記載のTTP表記装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、表記方法及び表記装置に関し、情報セキュリティ保護検知ルールの表記方法、及び情報セキュリティ保護のための戦術、テクニック、および攻撃(Tactic、Technique、Procedure, TTP)フロー表記装置に関する。
【背景技術】
【0002】
情報セキュリティインシデントにおける攻撃手法の高度化に伴い、侵入検知・防御のためのルールが増加している。現在の情報セキュリティの脅威検知テクニックでは、侵入指標を用いたシングルポイント検知が多く用いられている。しかし、この方法では大量のアラートが生成されるため、本当のキルチェーンの高リスクの挙動に即座に対応することは難しく、攻撃者の意図を知ることもできない。
【0003】
多数のアラームからキルチェーンの高リスクの挙動を迅速に把握することを支援するために、キルチェーンという戦術、テクニック、および攻撃(Tactic, Technique, Procedure, TTP)を用いたアラーム相関テクニックは、現在では一般的かつ効果的な防御方法である。そのため、侵入検知・防御ルールに対して体系的かつ継続的にTTP分析を行い、ポイント(侵入指標)、ライン(狙撃チェーン)、サーフェス(高度持続的脅威(APT))におけるハッカーの足跡と意図のマルチアングル検知を促進するツールが急務となっている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明が解決しようとする技術的課題は、既存技術の欠点に鑑み、訓練データセットを迅速に拡張し、TTP表記の精度を高めることができるセキュリティ検出ルールの表記方法及びTTP表記装置を提供することである。
【0005】
上記の課題を解決するために、本発明による技術的手段の1つとしては、プロセッサとストレージユニットを含む情報セキュリティ保護のための戦術、テクニック、手順(TTP)表記装置に適する、情報セキュリティ保護検知ルールの表記方法を提供することである。前記プロセッサは、TTPの定義に関連する複数の参照文書を取得し、前記参照文書が属する情報セキュリティ戦術及び情報セキュリティテクニックに従って前記参照文書を分類して、複数の情報セキュリティ戦術、及び前記複数の情報セキュリティテクニックに従って分類された複数の攻撃手口を含む複数のコーパス(Corpus)を生成する。前記プロセッサは、前記情報セキュリティ戦術及び/または前記情報セキュリティテクニックに対応する複数のキーワードを含む、キーワードシソーラスを作成する。前記プロセッサは、複数の表記対象検知ルールを取得し、前記複数の表記対象検知ルールに対して、前記複数の表記対象検知ルールから少なくとも1つのキー情報フィールドを抽出し、前記少なくとも1つのキー情報フィールドを前記複数のキーワードと比較し、前記複数の表記対象検知ルールに対し表記を付け、表記付けされていない表記対象検知ルールに対して、抽出された少なくとも1つのキー情報フィールドのフィールドコンテンツを取得し、前記フィールドコンテンツと前記複数のコーパスに対してテキスト類似度計算を実行することで、前記複数のコーパスと前記フィールドコンテンツとの間の複数のテキスト類似度を取得し、テキスト類似度が最も高いコーパスに対応した前記情報セキュリティ戦術及び前記情報セキュリティテクニックによって、前記表記付けされていない表記対象検知ルールに対し表記を付けるように、複数の表記済検知ルールを生成する。前記プロセッサは、前記複数の表記済検知ルールと前記複数のコーパスを訓練データセットとして、訓練対象TTP表記モデルを訓練し、TTP表記モデルを生成する。前記プロセッサは、前記TTP表記モデルに現在の表記対象検知ルールを入力することで、TTP表記結果を生成し、前記TTP表記結果によって前記複数のコーパスを更新する。
【0006】
上記の課題を解決するために、本発明による技術的手段の1つとしては、プロセッサと、前記プロセッサに電気的接続するストレージユニットとを含む情報セキュリティ保護のための戦術、テクニック、手順(TTP)表記装置を提供することである。前記プロセッサは、TTPの定義に関連する複数の参照文書を取得し、前記参照文書が属する情報セキュリティ戦術及び情報セキュリティテクニックに従って前記参照文書を分類して、複数の情報セキュリティ戦術、及び前記複数の情報セキュリティテクニックに従って分類された複数の攻撃手口を含む複数のコーパス(Corpus)を生成する。前記プロセッサは、前記情報セキュリティ戦術及び/または前記情報セキュリティテクニックに対応する複数のキーワードを含む、キーワードシソーラスを作成する。前記プロセッサは、複数の表記対象検知ルールを取得し、前記複数の表記対象検知ルールに対して、前記複数の表記対象検知ルールから少なくとも1つのキー情報フィールドを抽出し、前記少なくとも1つのキー情報フィールドを前記複数のキーワードと比較し、前記複数の表記対象検知ルールに対し表記を付け、表記付けされていない表記対象検知ルールに対して、抽出された少なくとも1つのキー情報フィールドのフィールドコンテンツを取得し、前記フィールドコンテンツと前記複数のコーパスに対してテキスト類似度計算を実行することで、前記複数のコーパスと前記フィールドコンテンツとの間の複数のテキスト類似度を取得し、テキスト類似度が最も高いコーパスに対応した前記情報セキュリティ戦術及び前記情報セキュリティテクニックによって、前記表記付けされていない表記対象検知ルールに対し表記を付けるように、複数の表記済検知ルールを生成する。前記プロセッサは、前記複数の表記済検知ルールと前記複数のコーパスを訓練データセットとして、訓練対象TTP表記モデルを訓練し、TTP表記モデルを生成する。前記プロセッサは、前記TTP表記モデルに現在の表記対象検知ルールを入力することで、TTP表記結果を生成し、前記TTP表記結果によって前記複数のコーパスを更新する。
【0007】
本発明の特徴と技術的内容をよりよく理解するため、以下の本発明に関する詳細な説明と図面を参照されたい。ただし、提供する図面は参考及び説明のため用いるに過ぎず、本発明を限定するためのものではない。
【図面の簡単な説明】
【0008】
【
図1】本発明に係る実施形態の情報セキュリティ保護検知ルールに用いられる戦術、テクニック、手順(TTP)表記装置の機能ブロック図である。
【
図2】本発明の実施形態の情報セキュリティ検出ルールの表記方法のフローチャートである。
【
図3】
図2のステップS10の詳細フロー図である。
【
図4】
図2のステップS13の詳細フロー図である。
【
図5】
図2のステップS14の詳細フロー図である。
【
図6】
図2のステップS16の詳細フロー図である。
【
図7】本発明の本実施形態において訓練対象TTP表記モデルの訓練過程を示す模式図である。
【発明を実施するための形態】
【0009】
下記より、具体的な実施例で本発明が開示する「情報セキュリティ保護検知ルールの表記方法、及びTTP表記装置」に係る実施形態を説明する。当業者は本明細書の公開内容により本発明のメリット及び効果を理解し得る。本発明は他の異なる実施形態により実行又は応用できる。本明細書における各細節も様々な観点又は応用に基づいて、本発明の精神を逸脱しない限り、均等の変形と変更を行うことができる。また、本発明の図面は簡単で模式的に説明するためのものであり、実際的な寸法を示すものではない。以下の実施形態において、さらに本発明に係る技術事項を説明するが、公開された内容は本発明を限定するものではない。
【0010】
図1は、本発明に係るセキュリティ検出ルールの実施形態のTTP(Tactic、Technique、Procedure)表記装置の機能ブロック図である。
【0011】
図1を参照すると、本発明の一実施形態は、プロセッサ100、通信インターフェース102、およびストレージユニット104を含むTTP表記装置10を提供する。プロセッサ100は、通信インターフェース102及びストレージユニット104に接続される。ストレージユニット104は、例えば、ハードディスク、ソリッドステートハードディスク、またはデータを格納するために使用できる他のストレージユニットとすることができるが、これらに限定されず、少なくとも複数のコンピュータ読み取り可能命令D1、コーパスD2、キーワードシソーラスD3、表記対象検知ルールD4、用語頻度逆文書頻度アルゴリズムD5、機械訓練分類アルゴリズムD6およびモデル訓練データD7を格納するように構成される。通信インターフェース102は、例えば、プロセッサ100の制御下でネットワーク12にアクセスするように構成されたネットワークインターフェースカードとすることができる。
【0012】
図2は、本発明の一実施形態の情報セキュリティ検知ルールの表記方法のフローチャートである。
図2を参照すると、本発明の実施形態は、前述のTTP表記装置10に適用され、少なくともプロセッサ100による複数のコンピュータ読み取り可能命令D1の実行後に、以下のステップを実行する情報セキュリティ検出ルールを表記する方法を提供する。
【0013】
ステップS10:TTPの定義に関連する複数の参照文書を入手し、それらが属する情報セキュリティ戦術及び情報セキュリティテクニックによって分類し、複数の情報セキュリティ戦術と前記複数の情報セキュリティテクニックに対応する複数のコーパスを生成する。
【0014】
詳細には、本ステップは、TTPの定義内容を収集するものである。例えば、情報セキュリティ機関(MITRE ATT&CK(R)等)から提供されるTTPの定義に関する参考文書14をネットワーク12を介して収集し、参考文書14のグループの内容を、参考文書が属する情報セキュリティ戦術及び情報セキュリティテクニックに応じてデータセットに分類することができる。ステップS10が実行された後、複数の情報セキュリティ戦術と前記複数の情報セキュリティテクニックに対応する複数のコーパスD2を取得することができる。
【0015】
図2のステップS10の詳細なフロー図については、
図3を参照されたい。
【0016】
図3に示すように、ステップS10はさらにステップS100およびステップS101を含む。ステップS100:テクニックプラットフォームに従って検知ルールタイプの表記に適した複数の技術項目のそれぞれが対応した参照文書を抽出する第1のデータ前処理ステップを実行する。ステップS101:同じ情報セキュリティ戦術に属する全ての技術項目に関わる参照文書を組み合わせてからそれが属した情報セキュリティ戦術に従って分類することで、前記複数のコーパスを生成する、TTPテキスト分類ステップを実行する。なかでは、複数のコーパスには、複数の脅威戦略と、脅威戦略に基づく複数の攻撃フローが含まれる。
【0017】
詳細には、
図3の実施形態において、情報セキュリティ脅威ポリシーと情報セキュリティ脅威テクニックを定義するために情報セキュリティ組織(MITREなど)が提供する記事の内容を、ウェブクローラーによって取得することが可能である。次に、得られた記事の内容に対して最初のデータ前処理を行い、表記タイプの検出ルールに適した技術項目を選択する。例えば、ネットワーク型侵入検知システム(Network-based Intrusion Detection System, NIDS)技術の技術プラットフォームはネットワークでなければならず、ホスト型侵入検知システム(Host-based Intrusion Detection System, HIDS)技術の技術プラットフォームはWindowsオペレーティングシステムでなければならない。選択後、選択された技術項目に対してテクストグループ化((Text Grouping)を実行し、同じ戦術に属する全ての技術項目(例えば、TTP定義記事)の参照文書を接続し、接続した参照文書を対応する戦術に従って分類し、複数のコーパスを生成する。
【0018】
ステップS11:キーワードシソーラスを作成する。このステップでは、複数のキーワードを含むキーワードシソーラスD3を専門家の知識によって作成し、キーワードシソーラスD3は、キーワードごとにセキュリティ脅威戦略及び/又はセキュリティ脅威テクニックを定義しているので、以降のステップでセキュリティ脅威戦略及び/又はセキュリティ脅威テクニックを決定することが可能である。
【0019】
ステップS12:表記する複数の検出ルールを取得する。例えば、表記対象検知ルールD4は、既存のSnortやSuricataの検出ルールから引用することができる。例えば、ネットワーク上の異常なパケットを検知するネットワーク侵入検知システム「Snort」。Snortは、プロトコル解析、コンテンツの検索/比較、さまざまな攻撃方法の検知、攻撃の警告をリアルタイムに行うことができる。検出ルールはオープンな形で開発されているため、検出ルールの追加も可能である。
【0020】
次に、以下のステップを実行することで、表記対象検知ルールD4について、複数の表記される検出ルールを生成することができる。
【0021】
ステップS13:表記対象検知ルールからキー情報フィールドを抽出し、キー情報フィールドとキーワードを比較して、表記対象検知ルールを表記する。
【0022】
図2のステップS13の詳細なフロー図については、
図4を参照されたい。
【0023】
図4に示すように、ステップS13は、さらにステップS130~S132からなる。ステップS130:表記対象検知ルールのそれぞれについて、キー情報フィールドとキーワードを比較するルールベース表記ステップを実行する。ステップS131:いずれかのキーワードが存在するかどうかを判断する。是の場合、ステップS132に進み、表記対象検知ルールに、存在するキーワードに対応するセキュリティ脅威ポリシーおよび/またはセキュリティ脅威テクニックを表記する。否の場合は、ステップS130に戻り、表記対象検知ルールを比較する。
【0024】
詳細には、ステップS131は、前のステップで作成されたキーワードシソーラスD3と、表記対象検知ルールD4のキーワードフィールドとを比較して、一致する単語があるかどうか、ある場合には、専門家が定義した対応策および/またはテクニックを表記とする。
【0025】
図2を参照すると、ステップS13の比較の後、表記対象検知ルールD4の中に、表記されていないものがある場合があり、その場合、表記方法は、ステップS14に進み、表記されていない表記対象検知ルールについて、抽出したキー情報フィールドのフィールドコンテンツを取得し、フィールドコンテンツとコーパスとのテキスト類似度計算を行って、複数のコーパスとフィールドコンテンツ間のテキストの類似性を取得する。詳細には、表記対象検知ルールD4のキー情報フィールドとコーパスD2の用語は、テキスト表現が異なるために単語や略語が異なる場合があるので、このステップではステップS13で網羅的に比較できないので、この状況を減らすために既存のテキストをさらに処理する。
【0026】
さらに、
図2のステップS14の詳細な流れ図を示す
図5を参照することができる。
【0027】
ステップS140:コーパスの主要な情報フィールドと文献に対して、ストップワード(stopword)の除去、見出し語化(Lemmatisation)の実行、セキュリティ関連の略語の完全な用語への変換を行う第2の事前データ処理ステップを実行する。
【0028】
ステップS141:第1用語頻度逆文書頻度(TF-IDF)ベクトル化器を実行し、表記対象検知ルールのフィールドの内容およびコーパスのテキスト中の各単語について、対応するテキスト中の単語の重要度を計算する。これを対応するテキストの特徴ベクトルに変換し、表記対象検知ルールに対する第1のルール特徴ベクトルの数と、コーパスに対する第1のTTP特徴ベクトルの数を得ることができる。なお、用語頻度逆文書頻度アルゴリズムD5は、表記対象検知ルールD4のフィールド内容とコーパスD2に対して実行し、フィールド内容に含まれる単語のコーパスD2中の1つのファイルに対する重要度を評価する。
【0029】
ステップS142:第1のルール特徴ベクトルと第1のTTP特徴ベクトルに対してテキスト類似度計算を行い、コーパスとフィールドコンテンツとの複数のテキスト類似度を求める。
【0030】
再び
図2を参照すると、ステップS14の計算後、表記方法は、ステップS15に進むことが可能である。ステップS15:テキストの類似度の最も高いものを有するコーパスに対応する戦術及び手順で表記されていない表記対象検知ルールを表記する。
【0031】
検出ルールのためにTTP表記を体系的かつ一貫して表記するためには、限られたデータセットとクロスセキュリティアプリケーションのためのサポートが不十分という問題を克服する必要がある。特に、侵入検知保護ルールのTTP表記については、一般に公開されているデータセットがないため、人手による表記は限られた量しか行えない。また、表記テクニックは、特定の情報セキュリティアプリケーションへの依存から脱却できるものでなければならない。しかし、TTP表記の限られたデータセットで、本発明は、情報セキュリティ検出ルールのための多数の表記を持つ専門家を支援することができる。このように、本発明は、機械訓練モデルの訓練に必要な大規模なデータセットを提供することに加え、OSCEが定義するTTPの枠組みの中で、信頼性の高い表記結果を得ることを可能にする。ステップS13からS15の後、多数の表記済検知ルールが得られ、これらは機械訓練ベースの表記済検知ルールのその後の訓練のために、エキスパートによって検証されるか、または訓練データセットに直接追加されることが可能である。
【0032】
表記方法は、ステップS16に進み、表記済検知ルールとコーパスを訓練データセットとして、訓練対象TTP表記モデルを生成するために訓練対象TTP表記モデルに対し訓練を行う。
【0033】
さらに、
図2のステップS16の詳細な流れ図を示す
図6を参照することができる。
【0034】
ステップS160:表記済検知ルールにおける複数のキー情報フィールドやコーパスの参照文書に対して、それぞれ第3のデータ前処理ステップを実行することで、ストップワード(stopword)の除去、見出し語化(Lemmatisation)の実行、セキュリティ関連の略語の完全な用語への変換を行う。
【0035】
ステップS161:第2の用語頻度逆文書頻度ベクトル化器を実行し、前記複数の表記済検知ルールにおける、前記フィールドコンテンツと前記複数のコーパスとの各テキスト内の単語とについて、当該単語が対応的なテキストでの重要度を算出し、当該重要度を当該テキストに対応する特徴ベクトルに変換することによって、前記複数の表記済検知ルールに対応する第2のルール特徴ベクトルと前記複数のコーパスに対応する複数の第2のTTP特徴ベクトルを取得し、それによって訓練対象TTP表記モデルを訓練する。
【0036】
なお、訓練対象TTP表記モデルは、例えば、機械訓練分類アルゴリズムD6とすることができ、例えば、サポートベクターマシン(Support Vector Machine,SVM)を主モデルとすることができる。訓練処理では、ステップS162を実行することができる:第2のルール特徴ベクトルおよび第2の特徴ベクトルを訓練データとして用いて、TTP表記モデルを訓練することができる。
【0037】
さらに、本発明の本実施形態において訓練対象TTP表記モデル訓練対象TTP表記モデルの訓練過程を示す模式図である
図7を参照することができる。上記ステップS162と同様に、訓練段階では、表記済検知ルール70とコーパス71とを訓練データセットとして用いて訓練対象TTP表記モデル72を訓練し(モデル訓練データD7として格納することができる)、その訓練結果をデータ前処理およびTF-IDFベクトル化器による特徴ベクトルへの変換後にTTP表記モデル73として格納する。
【0038】
次に、モデル訓練中のテストフェーズでは、ステップS12で得られた表記対象ルールを前処理およびTF-IDFベクトル化器により特徴ベクトルに変換し、TTP表記モデル73に入力して表記結果74を生成し、表記済検知ルール70の表記方法と比較し精度を判定する。訓練とテストの段階を繰り返すことにより、TTP表記モデル73を削除し、目標精度に達したときに、後続の検出ルールの自動表記を行うようにする。
【0039】
ステップS17:TTP表記モデルに表記する現在の表記対象検知ルールを入力してTTP表記結果を生成し、TTP表記結果でデータベースを更新する。なお、本発明の表記方法は、表記済検知ルールをフィードバック機構を介してTTPコーパスに拡張するために用いることも可能である。
【0040】
本発明が提供する情報セキュリティ検出ルールの表記方法の実験結果を示す以下の表1を参照することができる。
【0041】
【0042】
表1に示すように、提案する情報セキュリティ脅威の戦略・テクニックに対する情報セキュリティ検知ルールの表記手法は、Valentine Legoyらが発表したAutomated Retrieval of ATT & CK Tactics and Techniques for Cyber Threat Reportsに比べて、Precision、Recall、F1スコア評価で94%以上を達成し、より重要度が低い情報のTTPルールに対する表記に適していることが分かった。2020年のValentine Legoyらの論文Retrieval of ATT & CK Tactics and Techniques for Cyber Threat Reportsで用いられたrcATT手法と比較すると、重要度の低い情報が表記される検知ルールTTP表記に適している。
【0043】
本発明の有益な効果の一つは、情報セキュリティ検出ルールと情報セキュリティ脅威ポリシー、テクニック及び攻撃手順表記装置を表記する方法を提供し、多数の検出ルールを効率的に表記でき、異なる情報セキュリティアプリケーションのルールにも適用でき、アナリストが多数のアラームマーカーのTTPから攻撃イベントに関するより多くの情報を取得し、攻撃イベントの全体像を相関させて現在を理解することを支援することである。また、この攻撃ステージは、さまざまな情報セキュリティのアプリケーションに適用することができる。
【0044】
また、本発明は、情報セキュリティ組織が定義するTTP条文を参照ベースとして、情報セキュリティの検知ルールを表記する方法及び情報セキュリティの脅威戦略・テクニック・攻撃手順を表記する装置を提供する。専門家が大量のルールを素早く表記し、その後の機械訓練フェーズに必要なTTP訓練データセットを蓄積するのに役立つ。
【0045】
また、本発明が提供する情報セキュリティ検知ルールの表記方法及び情報セキュリティ脅威ポリシー・テクニック・攻撃手順の表記装置では、表記結果を訓練データセットとして、機械訓練の分類アルゴリズムを用いてTTP表記モデルを構築することができるので、表記精度を効果的に向上させることができる。
【符号の説明】
【0046】
10:TTP表記装置
100:プロセッサ
102:通信インターフェース
104:ストレージユニット
12:ネットワーク
14:参照文書
D1:コンピュータ読み取り可能命令
D2、71:コーパス
D3:キーワードシソーラス
D4:表記対象検知ルール
D5:用語頻度逆文書頻度アルゴリズム
D6:機械訓練分類アルゴリズム
D7:モデル訓練データ
70:表記済検知ルール
72:訓練対象TTP表記モデル
73:TTP表記モデル
74:表記結果
S10~S17、S100、S101、S130-S132、S140-S142、S160-S162:ステップ