IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 南京郵電大学の特許一覧

特表2024-526480ELM及びディープフォレストに基づく混合モデルの異常トラフィック検出システム及び方法
<>
  • 特表-ELM及びディープフォレストに基づく混合モデルの異常トラフィック検出システム及び方法 図1
  • 特表-ELM及びディープフォレストに基づく混合モデルの異常トラフィック検出システム及び方法 図2
  • 特表-ELM及びディープフォレストに基づく混合モデルの異常トラフィック検出システム及び方法 図3
  • 特表-ELM及びディープフォレストに基づく混合モデルの異常トラフィック検出システム及び方法 図4
  • 特表-ELM及びディープフォレストに基づく混合モデルの異常トラフィック検出システム及び方法 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-19
(54)【発明の名称】ELM及びディープフォレストに基づく混合モデルの異常トラフィック検出システム及び方法
(51)【国際特許分類】
   G06N 20/00 20190101AFI20240711BHJP
【FI】
G06N20/00
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023528213
(86)(22)【出願日】2022-10-24
(85)【翻訳文提出日】2023-05-11
(86)【国際出願番号】 CN2022126962
(87)【国際公開番号】W WO2024000944
(87)【国際公開日】2024-01-04
(31)【優先権主張番号】202210783769.X
(32)【優先日】2022-06-28
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】518371489
【氏名又は名称】南京郵電大学
【氏名又は名称原語表記】NANJING UNIVERSITY OF POSTS AND TELECOMMUNICATIONS
【住所又は居所原語表記】No.66 Xin Mofan Road, Gulou Nanjing, Jiangsu 210003 China
(74)【代理人】
【識別番号】110000291
【氏名又は名称】弁理士法人コスモス国際特許商標事務所
(72)【発明者】
【氏名】王 攀
(72)【発明者】
【氏名】羊 亜紅
(57)【要約】
本発明はELM及びディープフォレストに基づく混合モデルの異常トラフィック検出システム及び方法を提供し、システムは、リアルタイムトラフィックに対して特徴抽出・次元削減を行い、次元削減後のトラフィック特徴に対してELM及びディープフォレストモデルに基づく混合検出を行い、該検出方法は主に、無線センサネットワークにおけるメンバーノードにデプロイされたELMアルゴリズムによってトラフィックを迅速に検出し、メンバーノードの上位層ノードSinkノードにおいてディープフォレストモデルを用いてメンバーノードが検出した異常トラフィックに対して二次検出を行って、最終的に異常トラフィック検出結果を取得し、最後に管理ノードにおいて該トラフィックデータを一時データベースに記憶し、生データセット及び新規データセットを用いて精度及びAUCなどの評価指標を参照してディープフォレストモデルをチューニングすることを含む。本発明は無線センサなどのリソース制限ノードにおける異常トラフィックの検出を完了することができ、各ノードでの異常検出のためのエネルギー消費を低減するとともに、異常検出結果の精度を向上させることもできる。
【選択図】 図1
【特許請求の範囲】
【請求項1】
ELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法であって、
無線センサのリソース制限ノードにおける最下層メンバーノードが収集したリアルタイムトラフィックデータに対してデータ洗浄、特徴抽出及びデータ次元削減を行うステップ1と、
無線センサネットワークにおける異なるノードに極限学習機械(ELM)モデル及びディープフォレストモデルをデプロイし、混合異常トラフィックの検出を行って、異常トラフィック検出結果を出力するステップ2と、
無線センサにおける管理ノードが精度、AUCを評価指標として更新されたデータセットに対してディープフォレストモデルの再訓練を行い、AUCがROC曲線における面積であるステップ3と、を含むことを特徴とするELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法。
【請求項2】
ステップ1は具体的に、
リアルタイムトラフィックデータに存在する非数値及び無限大数値などのダーティリードを除去するS1-1と、
捕捉された完全ネットワーク情報から、BOT-IOTデータセットを参照して異常トラフィックの検出に大きく影響する30次元データを選択し、30次元特徴を基礎として、主に各送信元/送信先IPの総パケット数などの統計データである14次元新規特徴を新たに追加するS1-2と、
処理後のデータに対して正規化・標準化操作を行って、計54次元特徴のある前処理後のトラフィックデータを形成するS1-3と、を含むことを特徴とする請求項1に記載のELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法。
【請求項3】
ステップ2は具体的に、
無線センサにおける管理ノードによってメンバーノードにELMモデルをデプロイするステップ2-1と、
無線センサにおける管理ノードによってシンクノードにディープフォレストモデルをデプロイするステップ2-2と、
メンバーノードにおいて次元削減後のリアルタイムトラフィックデータに対してELM迅速検出を行って、検出結果に基づいて該トラフィックデータにデータ特徴を追加し、検出結果が正常トラフィックである場合、そのデータ特徴を正常値としてラベリングして通過させ、検出結果が異常トラフィックである場合、そのデータ特徴を異常値としてラベリングするステップ2-3と、
シンクノードから異常トラフィックのデータ特徴ラベルを削除し、そして、ディープフォレストモデルを用いて上記異常トラフィックに対して二次検出を行って、二次検出結果に基づいて該トラフィックデータにデータ特徴をその最終的な特徴値として追加し、且つデータをまとめて管理ノードに融合するステップ2-4と、を含むことを特徴とする請求項1に記載のELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法。
【請求項4】
ステップ2-1においてデプロイされたELMモデルの事前訓練過程は、
訓練サンプルXtrainを入力し、サンプルサイズを[row,col0]とし、ステップ1における前処理後のBOT-IOTデータセットを8:2の割合で訓練セット及びテストセットに分け、Xtrainを訓練セットとし、rowを訓練サンプルの数とし、colを訓練サンプルの特徴次元とし、隠れ層ユニットの個数をnとし、nを正の整数とするステップ2-1-1と、
ELMモデルの重みw及び偏差bを初期化し、wの値範囲を[col,n]とし、bの値範囲を[row,n]とするステップ2-1-2と、
公式h=g(w・Xtrain+b)に基づいてELMモデルの非線形マッピングを計算し、g(x)を活性化関数とし、hをELMモデルの非線形マッピングとし、Xtrainを訓練サンプルとし、hの逆行列Hを求めることで隠れ層の出力を取得し、Hの大きさを[n,row]とするステップ2-1-3と、
データセットにおけるデータラベルに対してワンホット符号化を行って、β=H・Tを計算して取得し、データラベルは該データが異常トラフィックであるかどうかを示し、Tがラベルデータのワンホット符号化後の値であり、βは出力重みを示し、その大きさが[n,2]であるステップ2-1-4と、
入力されたリアルタイムトラフィックデータXtestに対してh=g(w・Xtest+b)を計算し、hがテストするリアルタイムトラフィックデータのELMモデルにおける非線形マッピングであり、且つβに乗じてトラフィック検出結果を取得し、計算公式がresult=h・βであるステップ2-1-5と、
取得されたトラフィック検出結果を分類して、異常トラフィック及び正常トラフィックを取得するステップ2-1-6と、
訓練後の重みw、偏差b及び逆行列Hを、ELMモデルをデプロイするために必要なパラメータとして保存するステップ2-1-7と、を含むことを特徴とする請求項3に記載のELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法。
【請求項5】
ステップ2-2においてデプロイされたディープフォレストモデルの事前訓練過程は、
XGBoost分類器、ランダムフォレスト分類器及び極端ランダムツリー分類器それぞれをディープフォレスト分類器として選択し、XGBoost分類器の最大深さを5、目標を多分類、学習速度を0.1として設定し、ランダムフォレスト分類器と極端ランダムツリー分類器はデフォルトパラメータを用いて設定するステップ2-2-1と、
処理後のBOT-IOTモデルを用いてディープフォレスト訓練を行って、ディープフォレスト訓練結果を保存するステップ2-2-2と、を含むことを特徴とする請求項1に記載のELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法。
【請求項6】
ステップ3は具体的に、
ユーザー向けの管理ノードにおいて最適化されたディープフォレストモデルをデプロイして、ディープフォレストパラメータを設定するステップ3-1と、
各シンクノードからのラベリングされたトラフィックデータを一時データベースに予め記憶して、データ記憶の上限を設定するステップ3-2と、
予め記憶された数が記憶の上限に達した後、データ特徴をラベルとして抽出し、生データセットと混合してから訓練セット及びテストセットに分け、且つ精度、AUCを評価指標としてディープフォレストモデルのチューニングを行うステップ3-3と、
管理ノードがチューニングされたモデルをsinkノードにロードするステップ3-4と、を含むことを特徴とする請求項1に記載のELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法。
【請求項7】
ステップ3-3におけるディープフォレストモデルのチューニングはKフォールドクロス検証法を用い、具体的に、
生データセットをバックアップするステップ3-3-1と、
生データセットが訓練セット及びテストセットに分けられ、一時データベースにおけるデータがデータ特徴をラベルセットとして取り出し、ラベルセットと生データセットにおける訓練セットとを新規データセットとして融合するステップ3-3-2と、
新規データセットをk組に均等に分け、その中の1組を検証セット、残りのk-1組を訓練セットとして選択するステップ3-3-3と、
ランダムフォレスト分類器、XGBoost分類器、極端ランダムツリー分類器及びロジスティック回帰分類器からなるディープフォレストを用いてディープフォレストアルゴリズムモデルを構築するステップ3-3-4と、
k-1フォールドにおける各フォールドの検証セットにおける誤差が最も小さいモデルを探し、訓練の回数がk回よりも小さい場合、ステップ3-3-3に戻るステップ3-3-5と、
各フォールドの検証セットにおける誤差が最も小さいモデルを取り出してテストセットに入れて誤差をテストし、テストセットにおける各回の性能の平均値を計算して取得するステップ3-3-6と、
評価値は精度及びAUC値を選択し、新規モデルの平均値を元モデルの性能と比較し、性能が向上すればディープフォレストモデルを更新してデータセットを更新し、そうでなければ元ディープフォレストモデルを使用し続け、今回記憶されたデータを削除するステップ3-3-7と、を含むことを特徴とする請求項6に記載のELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法。
【請求項8】
請求項1~7のいずれか1項に記載のELM及びディープフォレストに基づく混合モデルの異常トラフィック検出システムであって、
無線センサのリソース制限ノードにおける最下層メンバーノードが収集したリアルタイムトラフィックデータに対してデータ洗浄、特徴抽出及びデータ次元削減を行うためのリアルタイムトラフィックデータ特徴抽出及び次元削減モジュールと、
無線センサネットワークにおける異なるノードにELMモデル及びディープフォレストモデルをデプロイし、混合異常トラフィックの検出を行って異常トラフィック検出結果を出力するための異常トラフィック検出モジュールと、
無線センサにおける管理ノードが精度、AUCを評価指標として更新されたデータセットに対してディープフォレストモデルの再訓練を行うためのものであり、AUCがROC曲線における面積であるディープフォレストモデル訓練モジュールと、を備えることを特徴とするELM及びディープフォレストに基づく混合モデルの異常トラフィック検出システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明はネットワークセキュリティ検出の技術分野に関し、具体的にELM及びディープフォレストに基づく混合モデルの異常トラフィック検出システム及び方法に関するが、それらに限らない。
【背景技術】
【0002】
インターネットセキュリティ脅威レポート(ISTRと略称される)によれば、現段階ではインターネット環境において一部の暗号化ハイジャック犯罪者がスクリプトを暗号化することで、いくつかの装置はCPUの占有率が高いため使用できなくなることをもたらし、ネットワーク攻撃が頻繁に発生し、防ぐに防ぎきれず、また、モノのインターネットシステムが普及するにつれて、多くの無線センサのようなリソース制限端末からなるモノのインターネットシステムは大規模に使用され、及び環境が長期間にわたって開放されるため、悪意のある第三者の攻撃目標となる場合が多くなり、ますます多くの迅速な低消費電力の異常トラフィック検出ニーズがある。
【0003】
既存の侵入検出は一般的に従来の機械学習及び深層学習アルゴリズムによって異常検出を2値分類の問題として正常データ及び異常データにより監督があり、半監督又は無監督の学習モデルを確立し、良い効果を取得し、特に視覚タスクにおいて成功した深層学習アルゴリズムは近年以来中国国内外の関連する研究所で多く試みて異常トラフィック分野に応用されている。
【0004】
深層学習は、複数の単層非線形ネットワークを訓練して問題の内部の複雑な構造特徴を発見し描写することを採用するため、データの本質的な特徴を表現でき、強い汎化能力を有し、且つ異常トラフィック検出の精度がますます高くなる。しかしながら、所要の計算オーバーヘッドがますます大きくなるとともに、多すぎるハイパーパラメータを有し、学習性能が注意深いパラメータチューニングに大きく依存し、訓練干渉要素が多すぎて、大量の訓練データを必要とし、収束速度がより遅く、かかった時間がより長く、小規模の訓練データのみを有するタスクに応用されにくい。
【0005】
上記問題に対して、ディープフォレストはディープニューラルネットワークよりもハイパーパラメータが少なく、ハイパーパラメータの設定にもロバスト性が高い優位性を有する。ディープフォレストは非微分可能なモジュールに基づいて確立された深層モデルであり、1層ずつの処理、モデル内の特徴変換及び十分なモデルの複雑性の3種の特徴を有するディープフォレストを生成する。多くの場合には、異なる分野における異なるデータにおいても、同じデフォルト設定によって優れた性能を実現することもできる。
【0006】
極限学習機械(ELM)は所要のパラメータが少なく、占有するリソースが少なく、訓練速度が速く、学習効率が高いという優位性を有する。ELMは単一隠れ層フィードフォワードニューラルネット(SLFNs)学習アルゴリズムであり、学習能力が強く及び複雑な非線形関数に近づくという利点を有し、直接解くことができ、最終的な解く過程は1つの行列のMoore-Penrose一般化逆行列を解く問題となり、隠れ層ニューロンの個数を設定すればモデルを訓練し始めることができる。応用から言えば、ELMは比較的高い検出率を確保する上で、エネルギー消費を低減することができ、リソースが制限された無線センサネットワークに一層適する。
【発明の概要】
【発明が解決しようとする課題】
【0007】
従来技術における1つ又は複数の問題に対して、本発明はELM及びディープフォレストに基づく混合モデルの異常トラフィック検出システム及び方法を提供し、無線センサなどのリソース制限ノードにおける異常トラフィック検出を完了し、比較的高い検出効率及び精度を有する。
【課題を解決するための手段】
【0008】
本発明の目的を実現する技術的解決手段は以下のとおりである。
【0009】
ELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法であって、
無線センサのリソース制限ノードにおける最下層メンバーノードが収集したリアルタイムトラフィックデータに対してデータ洗浄、特徴抽出及びデータ次元削減を行うステップ1と、
無線センサネットワークにおける異なるノードに極限学習機械(ELM)モデル及びディープフォレストモデルをデプロイし、混合異常トラフィックの検出を行って、異常トラフィック検出結果を出力するステップ2と、
無線センサにおける管理ノードが精度、AUCを評価指標として更新されたデータセットに対してディープフォレストモデルの再訓練を行い、AUCがROC曲線における面積であるステップ3と、を含むことを特徴とする。
【0010】
更に、本発明に係るELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法において、ステップ1は具体的に、
リアルタイムトラフィックデータに存在する非数値NAN及び無限大数値Infinityなどのダーティリードを除去するS1-1と、
捕捉された完全ネットワーク情報から、ニューサウスウェールズ大学におけるキャンベラネットワーク範囲実験室で発表されたモノのインターネット向けのボットネットデータセット(BOT-IOTデータセット)を参照して異常トラフィックの検出に大きく影響する30次元データを選択し、30次元特徴を基礎として、主に各送信元/送信先IPの総パケット数などの統計データである14次元新規特徴を新たに追加するS1-2と、
処理後のデータに対して正規化・標準化操作を行って、計54次元特徴のある前処理後のトラフィックデータを形成するS1-3と、を含む。
【0011】
更に、本発明に係るELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法において、ステップ2は具体的に、
無線センサにおける管理ノードによってメンバーノードにELMモデルをデプロイするステップ2-1と、
無線センサにおける管理ノードによってシンクノード(sinkノード)にディープフォレストモデルをデプロイするステップ2-2と、
メンバーノードにおいて次元削減後のリアルタイムトラフィックデータに対してELM迅速検出を行って、検出結果に基づいて該トラフィックデータにデータ特徴を追加し、検出結果が正常トラフィックである場合、そのデータ特徴を正常値としてラベリングして通過させ、検出結果が異常トラフィックである場合、そのデータ特徴を異常値としてラベリングするステップ2-3と、
sinkノードから異常トラフィックのデータ特徴ラベルを削除し、そして、ディープフォレストモデルを用いて上記異常トラフィックに対して二次検出を行って、二次検出結果に基づいて該トラフィックデータにデータ特徴をその最終的な特徴値として追加し、且つデータをまとめて管理ノードに融合するステップ2-4と、を含む。
【0012】
更に、本発明に係るELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法において、ステップ2-1においてデプロイされたELMモデルの事前訓練過程は、
訓練サンプルXtrainを入力し、サンプルサイズを[row,col]とし、ステップ1における前処理後のBOT-IOTデータセットを8:2の割合で訓練セット及びテストセットに分け、Xtrainを訓練セットとし、rowを訓練サンプルの数とし、colを訓練サンプルの特徴次元とし、隠れ層ユニットの個数をnとし、nを正の整数とするステップ2-1-1と、
ELMモデルの重みw及び偏差bを初期化し、wの値範囲を[col,n]とし、bの値範囲を[row,n]とするステップ2-1-2と、
公式h=g(w・Xtrain+b)に基づいてELMモデルの非線形マッピングを計算し、g(x)を活性化関数とし、hをELMモデルの非線形マッピングとし、Xtrainを訓練サンプルとし、hの逆行列Hを求めることで隠れ層の出力を取得し、Hの大きさを[n,row]とするステップ2-1-3と、
データセットにおけるデータラベルに対してワンホット符号化を行って、β=H・Tを計算して取得し、データラベルは該データが異常トラフィックであるかどうかを示し、Tはラベルデータのワンホット符号化後の値であり、βは出力重みを示し、その大きさが[n,2]であるステップ2-1-4と、
入力されたリアルタイムトラフィックデータXtestに対してh=g(w・Xtest+b)を計算し、hがテストするリアルタイムトラフィックデータのELMモデルにおける非線形マッピングであり、且つβに乗じてトラフィック検出結果を取得し、計算公式がresult=h・βであるステップ2-1-5と、
取得されたトラフィック検出結果を分類して、異常トラフィック及び正常トラフィックを取得するステップ2-1-6と、
訓練後の重みw、偏差b及び逆行列Hを、ELMモデルをデプロイするために必要なパラメータとして保存するステップ2-1-7と、を含む。
【0013】
更に、本発明に係るELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法において、ステップ2-2においてデプロイされたディープフォレストモデルの事前訓練過程は、
XGBoost分類器、ランダムフォレスト分類器及び極端ランダムツリー分類器それぞれをディープフォレスト分類器として選択し、XGBoost分類器の最大深さを5、目標を多分類、学習速度を0.1として設定し、ランダムフォレスト分類器と極端ランダムツリー分類器はデフォルトパラメータを用いて設定するステップ2-2-1と、
処理後のBOT-IOTモデルを用いてディープフォレスト訓練を行って、ディープフォレスト訓練結果を保存するステップ2-2-2と、を含む。
【0014】
更に、本発明に係るELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法において、ステップ3は具体的に、
ユーザー向けの管理ノードにおいて最適化されたディープフォレストモデルをデプロイして、ディープフォレストパラメータを設定するステップ3-1と、
各sinkノードからのラベリングされたトラフィックデータを一時データベースに予め記憶して、データ記憶の上限を設定するステップ3-2と、
予め記憶された数が記憶の上限に達した後、データ特徴をラベルとして抽出し、生データセットと混合してから訓練セット及びテストセットに分け、且つ精度、AUCを評価指標としてディープフォレストモデルのチューニングを行うステップ3-3と、
管理ノードがチューニングされたモデルをsinkノードにロードするステップ3-4と、を含む。
【0015】
更に、本発明に係るELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法において、ステップ3-3におけるディープフォレストモデルのチューニングはKフォールドクロス検証法を用い、具体的に、
生データセットをバックアップするステップ3-3-1と、
生データセットが訓練セット及びテストセットに分けられ、一時データベースにおけるデータがデータ特徴をラベルセットとして取り出し、ラベルセットと生データセットにおける訓練セットとを新規データセットとして融合するステップ3-3-2と、
新規データセットをk組に均等に分け、その中の1組を検証セット、残りのk-1組を訓練セットとして選択するステップ3-3-3と、
ランダムフォレスト分類器、XGBoost分類器、極端ランダムツリー分類器及びロジスティック回帰分類器からなるディープフォレストを用いてディープフォレストアルゴリズムモデルを構築するステップ3-3-4と、
k-1フォールドにおける各フォールドの検証セットにおける誤差が最も小さいモデルを探し、訓練の回数がk回よりも小さい場合、ステップ3-3-3に戻るステップ3-3-5と、
各フォールドの検証セットにおける誤差が最も小さいモデルを取り出してテストセットに入れて誤差をテストし、テストセットにおける各回の性能の平均値を計算して取得するステップ3-3-6と、
評価値は精度及びAUC値を選択し、新規モデルの平均値を元モデルの性能と比較し、性能が向上すればディープフォレストモデルを更新してデータセットを更新し、そうでなければ元ディープフォレストモデルを使用し続け、今回記憶されたデータを削除するステップ3-3-7と、を含む。
【0016】
上記いずれか1つの検出方法を用いるELM及びディープフォレストに基づく混合モデルの異常トラフィック検出システムであって、
無線センサのリソース制限ノードにおける最下層メンバーノードが収集したリアルタイムトラフィックデータに対してデータ洗浄、特徴抽出及びデータ次元削減を行うためのリアルタイムトラフィックデータ特徴抽出及び次元削減モジュールと、
無線センサネットワークにおける異なるノードにELMモデル及びディープフォレストモデルをデプロイし、混合異常トラフィックの検出を行って、異常トラフィック検出結果を出力するための異常トラフィック検出モジュールと、
無線センサにおける管理ノードが精度、AUCを評価指標として更新されたデータセットに対してディープフォレストモデルの再訓練を行うためのものであり、AUCがROC曲線における面積であるディープフォレストモデル訓練モジュールと、を備える。
【発明の効果】
【0017】
従来技術に比べて、本発明が用いる上記技術案は以下の技術的効果を有する。
【0018】
本発明に係るELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法は、無線センサなどのリソース制限ノードに使用され、前処理後のトラフィック特徴に対してELM及びディープフォレストモデルに基づく混合検出を行い、無線センサネットワークにおいて、異なるノードのネットワークにおける異なる役割に応じてそれぞれELM及びディープフォレストモデルをデプロイして、複数の層が協働し、各ノードでの異常検出のためのエネルギー消費を大幅に低減するとともに、異常検出結果の精度を向上させることもできる。
【0019】
図面は本発明の更なる理解を提供するためのものであって、説明的な記述とともに本発明の実施例を解釈するためのものであり、本発明を制限するものではない。
【図面の簡単な説明】
【0020】
図1図1は本発明に係るELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法のフローチャートである。
図2図2は本発明に係るELM及びディープフォレストに基づく混合モデルの異常トラフィック検出システムのアーキテクチャ図である。
図3図3は本発明に係るELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法におけるELMモデル模式図である。
図4図4は本発明に係るELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法におけるディープフォレストモデル模式図である。
図5図5は本発明に係るELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法におけるkフォールド交差検証図である。
【発明を実施するための形態】
【0021】
本発明を更に理解するために、以下に実施例を結び付けて本発明の好適な実施形態を説明するが、理解すべきこととして、これらの説明は単に本発明の特徴及び利点を更に説明するためのものであって、本発明の特許請求の範囲を制限するものではない。
【0022】
該部分の説明は単にいくつかの代表的な実施例についてのものであり、本発明は実施例に説明される範囲に限定されるものではない。異なる実施例の組み合わせ、異なる実施例におけるいくつかの技術的特徴を互いに置換するもの、同様又は類似の既存の技術的手段と実施例におけるいくつかの技術的特徴を互いに置換するものも本発明の説明及び保護範囲内に含まれる。
【0023】
ELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法であって、図1に示すように、リアルタイムトラフィックデータ特徴抽出及び次元削減モジュール、異常トラフィック検出モジュール、ディープフォレストモデル訓練モジュールなどの3つのモジュールにより実現され、具体的に下記S1~S3を含む。
【0024】
S1 リアルタイムトラフィックデータ特徴抽出及び次元削減モジュールは、まず無線センサなどのリソース制限ノードにおける最下層メンバーノードが収集したリアルタイムトラフィックデータに対してデータ洗浄を行い、次に特徴抽出、データ次元削減を行う。具体的に下記S11~S13を含む。
【0025】
S11 リアルタイムトラフィックに存在する非数値NAN及び無限大数値Infinityダーティリードを除去する処理を行う。
【0026】
S12 捕捉された完全ネットワーク情報から、BOT-IOTデータセットを参照して異常トラフィックの検出に大きく影響する30次元データ、例えばネットワークトラフィックにおけるトランザクションプロトコルのテキスト表示、送信元IPアドレス、送信先IPアドレスなどを選択し、分類器の検出能力を向上させるために、30次元特徴を基礎として、主に各送信元/送信先IPの総パケット数などの統計データである14次元新規特徴を新たに追加する。
【0027】
S13 処理後のデータに対して正規化・標準化操作を行って、計54次元特徴のある前処理後のトラフィックデータを形成する。
【0028】
S2 異常トラフィック検出モジュールは、無線センサネットワークにおける異なるノードにELM及びディープフォレストモデルをデプロイすることにより、混合異常トラフィックの検出を行って異常トラフィック検出結果を出力する。具体的に下記S21~S24を含む。
【0029】
S21 無線センサにおける管理ノードによってメンバーノードにELMモデルをデプロイする。
【0030】
好ましくは、デプロイされたELMモデルの事前訓練過程は下記ステップa1~a7を含む。
【0031】
ステップa1 訓練サンプルXtrainを入力し、サンプルサイズを[row,col]とし、隠れ層ユニットの個数をnとし、ここでサンプルサイズを[4000000,54]とし、テストによって隠れ層ユニットの個数nを109として選択する。
【0032】
ステップa2 ELMモデルの重みw及び偏差bを初期化し、このとき、wの大きさが[col,n]であり、bの大きさが[row,n]である。wの内容が範囲におけるランダム数であり、bを全て0の配列に初期化し、
ステップa3 公式h=g(w・Xtrain+b)に基づいてELMの非線形マッピングを取得し、ここで、g(x)が活性化関数であって、sigmoid、Gaussian、multiquadricなどの活性化関数を用いて、hの逆行列Hを求めることで隠れ層の出力を取得することができ、Hの大きさが[n,row]であり、
前記multiquadric活性化関数も動径基底関数であって、遠点からの距離のみによって値を取る実数値関数であり、逆二次関数及び逆多重二次関数を
【数1】
として選択してもよく、今回の事前訓練は逆多重二次関数を選択する。
【0033】
ステップa4 データセットにおけるデータラベルに対してワンホット符号化を行って、大きさが[row,2]であるTを取得し、ステップa3におけるHを利用して公式に基づいてβ=H・Tを取得し、βの大きさが[n,2]であり、
ステップa5 入力されたリアルタイムトラフィックXtestに対してh=g(w・Xtest+b)を計算し、且つβに乗じてトラフィック検出結果result=h・βを取得する。
【0034】
ステップa6 取得された結果に対してresult=[item.tolist().index(max(item.tolist()))for item in result]を行って、異常トラフィック及び正常トラフィックに分類する。
【0035】
ステップa7 訓練後のw、b、Hを保存し、これらがELMモデルをデプロイするために必要なパラメータである。
【0036】
S22 無線センサにおける管理ノードによってsinkノードにディープフォレストモデルをデプロイする。
【0037】
好ましくは、デプロイされたディープフォレストモデルの事前訓練過程は下記ステップb1及びステップb2を含む。
【0038】
ステップb1 XGBoost分類器、ランダムフォレスト分類器及び極端ランダムツリー分類器それぞれをディープフォレスト分類器として選択し、XGBoost分類器の最大深さを5、目標を多分類、学習速度を0.1として設定し、ランダムフォレスト分類器と極端ランダムツリー分類器はデフォルトパラメータを用いて設定する。
【0039】
ステップb2 処理後のBOT-IOTモデルを用いてディープフォレスト訓練を行って、ディープフォレスト訓練結果を保存する。
【0040】
S23 次元削減後のトラフィックデータについて、まずメンバーノードにおいてELM迅速検出を行い、検出結果に基づいてトラフィックデータに1つのデータ特徴detection_resultを追加し、検出結果が正常トラフィックである場合、detection_resultを正常値‘0’としてラベリングして通過させ、異常トラフィックを検出した場合、異常‘1’としてラベリングする。
【0041】
S24 sinkノードにおいて異常トラフィックとしてラベリングされたデータが識別された後、まずdetection_result特徴値を削除し、ディープフォレストモデルを用いて二次検出を行い、結果に基づいてdetection_result値を決定し、且つデータをまとめて管理ノードに融合して処理する。
【0042】
S3 ディープフォレストモデル訓練モジュールは、無線センサにおける管理ノードが精度、AUCなどの評価指標に基づいて更新されたデータセットに対してディープフォレストモデルの再訓練を行う。
【0043】
好ましくは、ディープフォレストモデル訓練モジュールは具体的に下記S31~S33を実行する。
【0044】
S31 ユーザー向けの管理ノードにおいて最適化されたディープフォレストアルゴリズムをデプロイして、ディープフォレストパラメータを設定する。
【0045】
S32 各sinkノードからのラベリングされたトラフィックデータを一時データベースに予め記憶して、データ記憶の上限を10000本として設定する。
【0046】
S33 予め記憶される数が設定された閾値に達した後、detection_result特徴をラベルとして抽出して生データセットと混合した後に訓練セット及びテストセットに分割し、精度及びAUCなどの評価指標に基づいてディープフォレストモデルのチューニングを行う。
【0047】
好ましくは、本実例が用いるチューニングアルゴリズムはKフォールドクロス検証法であり、図5に示すように、
生データセットをバックアップするステップc1と、
生データセットが訓練セット及びテストセットに分けられ、一時データベースにおけるデータがdetection_result特徴をラベルセットとして取り出し、次にそれと生データセットにおける訓練セットとを新規データセットとして融合するステップc2と、
新規データセットをk組に均等に分け、その中の1組を検証セット、残りのk-1組のサブセットを訓練セットとして選択し、kが10を取るステップc3と、
ランダムフォレスト分類器、XGBoost分類器、極端ランダムツリー分類器及びロジスティック回帰分類器からなるディープフォレストを用いてディープフォレストアルゴリズムモデルを構築するステップc4と、
k-1フォールドにおける各フォールドの検証セットにおける誤差が最も小さいモデルを探し、訓練の回数がk回よりも小さい場合、ステップc3に戻るステップc5と、
各フォールドの検証セットにおける誤差が最も小さいモデルを取り出してテストセットに入れて誤差をテストし、テストセットにおける各回の性能の平均値を計算して取得するステップc6と、
評価値は精度及びAUC値を選択し、新規モデルの平均値を元モデルの性能と比較し、性能が向上すればディープフォレストモデルを更新してデータセットを更新し、そうでなければ元ディープフォレストモデルを使用し続け、今回記憶された新規データを削除するステップc7と、を含む。
【0048】
前記評価指標は、
精度
【数2】
であって、モデルがテストセットを分類し、正しく分類されたサンプルの個数ncorrectが総サンプルNtotalを占める割合であるものと、
回収率
【数3】
であって、正しく分類されたすべての正サンプル数TPがすべての正サンプル数(TP+FN)を占める割合であり、正サンプルが正例データ即ち異常トラフィック数であり、即ちすべての異常トラフィックのうちの何割が検出されたかであるものと、
精確率
【数4】
であって、正しく分類されたすべての正サンプル数が正例として予測されたすべてのサンプル数(TP+FP)を占める割合であり、即ち選ばれたトラフィックのうちの何割が異常トラフィックであるかであるものと、
【数5】
であって、精確率と回収率が一般的に同時に使用され、F1が両方をまとめて評価するものと、
AUCであって、ROC曲線における面積であり、ROC曲線が真の正例率と偽りの正例率との変化関係を説明し、高ければ高いほど良くなり、
【数6】
であるものと、
平方根誤差
【数7】
であって、yiが真値であり、
【数8】
が予測値であり、nがサンプル数であって、ユークリッド距離を用いるものと、
平均二乗偏差
【数9】
と、を含む。
【0049】
S34 管理ノードがチューニングされたモデルをsinkノードにロードする。
【0050】
本発明は無線センサなどのリソース制限ノードに異常トラフィックの検出システム及び方法を提供し、前処理後のトラフィック特徴に対してELM及びディープフォレストモデルに基づく混合検出を行い、無線センサネットワークにおいて、異なるノードのネットワークにおける役割に応じてそれぞれELM及びディープフォレストモデルをデプロイし、複数の層が協働し、各ノードでの異常検出のためのエネルギー消費を大幅に低減するとともに、異常検出結果の精度を向上させることもできる。
【0051】
ここの本発明の説明及び応用は説明的なものであって、本発明の範囲を上記実施例に制限することを意図しない。明細書に関わる効果又は利点などの関連説明は具体的な条件パラメータの不確定性又は他の要素に影響されて実際の実験例において体現できない恐れがあり、効果又は利点などの関連説明は発明の範囲を制限するためのものではない。ここに開示された実施例の変形及び変化が可能であり、当業者にとって実施例の置換及び様々な均等部材は公知のものである。当業者であれば分かるように、本発明の主旨又は本質的な特徴を逸脱しない限り、本発明は他の形式、構造、配置、割合、並びに他のアセンブリ、材料及び部材で実現されてもよい。本発明の範囲及び主旨を逸脱しない限り、ここに開示された実施例に対して他の変形及び変化を行うことができる。
図1
図2
図3
図4
図5
【手続補正書】
【提出日】2023-05-11
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法であって、
無線センサのリソース制限ノードにおける最下層メンバーノードが収集したリアルタイムトラフィックデータに対してデータ洗浄、特徴抽出及びデータ次元削減を行うステップ1と、
無線センサネットワークにおける異なるノードに極限学習機械(ELM)モデル及びディープフォレストモデルをデプロイし、混合異常トラフィックの検出を行って、異常トラフィック検出結果を出力するステップ2と、
無線センサにおける管理ノードが精度、AUCを評価指標として更新されたデータセットに対してディープフォレストモデルの再訓練を行い、AUCがROC曲線における面積であるステップ3と、を含み、
ステップ1は具体的に、
リアルタイムトラフィックデータに存在する非数値及び無限大数値などのダーティリードを除去するS1-1と、
捕捉された完全ネットワーク情報から、BOT-IOTデータセットを参照して異常トラフィックの検出に大きく影響する30次元データを選択し、30次元特徴を基礎として、主に各送信元/送信先IPの総パケット数などの統計データである14次元新規特徴を新たに追加するS1-2と、
処理後のデータに対して正規化・標準化操作を行って、計54次元特徴のある前処理後のトラフィックデータを形成するS1-3と、を含むことを特徴とするELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法。
【請求項2】
ステップ2は具体的に、
無線センサにおける管理ノードによってメンバーノードにELMモデルをデプロイするステップ2-1と、
無線センサにおける管理ノードによってシンクノードにディープフォレストモデルをデプロイするステップ2-2と、
メンバーノードにおいて次元削減後のリアルタイムトラフィックデータに対してELM迅速検出を行って、検出結果に基づいて該トラフィックデータにデータ特徴を追加し、検出結果が正常トラフィックである場合、そのデータ特徴を正常値としてラベリングして通過させ、検出結果が異常トラフィックである場合、そのデータ特徴を異常値としてラベリングするステップ2-3と、
シンクノードから異常トラフィックのデータ特徴ラベルを削除し、そして、ディープフォレストモデルを用いて上記異常トラフィックに対して二次検出を行って、二次検出結果に基づいて該トラフィックデータにデータ特徴をその最終的な特徴値として追加し、且つデータをまとめて管理ノードに融合するステップ2-4と、を含むことを特徴とする請求項1に記載のELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法。
【請求項3】
ステップ2-1においてデプロイされたELMモデルの事前訓練過程は、
訓練サンプルXtrainを入力し、サンプルサイズを[row,col0]とし、ステップ1における前処理後のBOT-IOTデータセットを8:2の割合で訓練セット及びテストセットに分け、Xtrainを訓練セットとし、rowを訓練サンプルの数とし、colを訓練サンプルの特徴次元とし、隠れ層ユニットの個数をnとし、nを正の整数とするステップ2-1-1と、
ELMモデルの重みw及び偏差bを初期化し、wの値範囲を[col,n]とし、bの値範囲を[row,n]とするステップ2-1-2と、
公式h=g(w・Xtrain+b)に基づいてELMモデルの非線形マッピングを計算し、g(x)を活性化関数とし、hをELMモデルの非線形マッピングとし、Xtrainを訓練サンプルとし、hの逆行列Hを求めることで隠れ層の出力を取得し、Hの大きさを[n,row]とするステップ2-1-3と、
データセットにおけるデータラベルに対してワンホット符号化を行って、β=H・Tを計算して取得し、データラベルは該データが異常トラフィックであるかどうかを示し、Tがラベルデータのワンホット符号化後の値であり、βは出力重みを示し、その大きさが[n,2]であるステップ2-1-4と、
入力されたリアルタイムトラフィックデータXtestに対してh=g(w・Xtest+b)を計算し、hがテストするリアルタイムトラフィックデータのELMモデルにおける非線形マッピングであり、且つβに乗じてトラフィック検出結果を取得し、計算公式がresult=h・βであるステップ2-1-5と、
取得されたトラフィック検出結果を分類して、異常トラフィック及び正常トラフィックを取得するステップ2-1-6と、
訓練後の重みw、偏差b及び逆行列Hを、ELMモデルをデプロイするために必要なパラメータとして保存するステップ2-1-7と、を含むことを特徴とする請求項に記載のELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法。
【請求項4】
ステップ2-2においてデプロイされたディープフォレストモデルの事前訓練過程は、
XGBoost分類器、ランダムフォレスト分類器及び極端ランダムツリー分類器それぞれをディープフォレスト分類器として選択し、XGBoost分類器の最大深さを5、目標を多分類、学習速度を0.1として設定し、ランダムフォレスト分類器と極端ランダムツリー分類器はデフォルトパラメータを用いて設定するステップ2-2-1と、
処理後のBOT-IOTモデルを用いてディープフォレスト訓練を行って、ディープフォレスト訓練結果を保存するステップ2-2-2と、を含むことを特徴とする請求項1に記載のELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法。
【請求項5】
ステップ3は具体的に、
ユーザー向けの管理ノードにおいて最適化されたディープフォレストモデルをデプロイして、ディープフォレストパラメータを設定するステップ3-1と、
各シンクノードからのラベリングされたトラフィックデータを一時データベースに予め記憶して、データ記憶の上限を設定するステップ3-2と、
予め記憶された数が記憶の上限に達した後、データ特徴をラベルとして抽出し、生データセットと混合してから訓練セット及びテストセットに分け、且つ精度、AUCを評価指標としてディープフォレストモデルのチューニングを行うステップ3-3と、
管理ノードがチューニングされたモデルをsinkノードにロードするステップ3-4と、を含むことを特徴とする請求項1に記載のELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法。
【請求項6】
ステップ3-3におけるディープフォレストモデルのチューニングはKフォールドクロス検証法を用い、具体的に、
生データセットをバックアップするステップ3-3-1と、
生データセットが訓練セット及びテストセットに分けられ、一時データベースにおけるデータがデータ特徴をラベルセットとして取り出し、ラベルセットと生データセットにおける訓練セットとを新規データセットとして融合するステップ3-3-2と、
新規データセットをk組に均等に分け、その中の1組を検証セット、残りのk-1組を訓練セットとして選択するステップ3-3-3と、
ランダムフォレスト分類器、XGBoost分類器、極端ランダムツリー分類器及びロジスティック回帰分類器からなるディープフォレストを用いてディープフォレストアルゴリズムモデルを構築するステップ3-3-4と、
k-1フォールドにおける各フォールドの検証セットにおける誤差が最も小さいモデルを探し、訓練の回数がk回よりも小さい場合、ステップ3-3-3に戻るステップ3-3-5と、
各フォールドの検証セットにおける誤差が最も小さいモデルを取り出してテストセットに入れて誤差をテストし、テストセットにおける各回の性能の平均値を計算して取得するステップ3-3-6と、
評価値は精度及びAUC値を選択し、新規モデルの平均値を元モデルの性能と比較し、性能が向上すればディープフォレストモデルを更新してデータセットを更新し、そうでなければ元ディープフォレストモデルを使用し続け、今回記憶されたデータを削除するステップ3-3-7と、を含むことを特徴とする請求項に記載のELM及びディープフォレストに基づく混合モデルの異常トラフィック検出方法。
【請求項7】
請求項1~のいずれか1項に記載のELM及びディープフォレストに基づく混合モデルの異常トラフィック検出システムであって、
無線センサのリソース制限ノードにおける最下層メンバーノードが収集したリアルタイムトラフィックデータに対してデータ洗浄、特徴抽出及びデータ次元削減を行うためのリアルタイムトラフィックデータ特徴抽出及び次元削減モジュールと、
無線センサネットワークにおける異なるノードにELMモデル及びディープフォレストモデルをデプロイし、混合異常トラフィックの検出を行って異常トラフィック検出結果を出力するための異常トラフィック検出モジュールと、
無線センサにおける管理ノードが精度、AUCを評価指標として更新されたデータセットに対してディープフォレストモデルの再訓練を行うためのものであり、AUCがROC曲線における面積であるディープフォレストモデル訓練モジュールと、を備えることを特徴とするELM及びディープフォレストに基づく混合モデルの異常トラフィック検出システム。
【国際調査報告】