特許第6541482号(P6541482)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

<>
  • 特許6541482-検証装置、検証方法及び検証プログラム 図000002
  • 特許6541482-検証装置、検証方法及び検証プログラム 図000003
  • 特許6541482-検証装置、検証方法及び検証プログラム 図000004
  • 特許6541482-検証装置、検証方法及び検証プログラム 図000005
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6541482
(24)【登録日】2019年6月21日
(45)【発行日】2019年7月10日
(54)【発明の名称】検証装置、検証方法及び検証プログラム
(51)【国際特許分類】
   H04L 12/70 20130101AFI20190628BHJP
【FI】
   H04L12/70 100Z
【請求項の数】10
【全頁数】10
(21)【出願番号】特願2015-139498(P2015-139498)
(22)【出願日】2015年7月13日
(65)【公開番号】特開2017-22593(P2017-22593A)
(43)【公開日】2017年1月26日
【審査請求日】2018年2月23日
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100106002
【弁理士】
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100120891
【弁理士】
【氏名又は名称】林 一好
(72)【発明者】
【氏名】三家 祥平
(72)【発明者】
【氏名】トラン ミン クウアン
【審査官】 宮島 郁美
(56)【参考文献】
【文献】 特開2015−036962(JP,A)
【文献】 特開2013−127504(JP,A)
【文献】 特開2015−050473(JP,A)
【文献】 国際公開第2015/023256(WO,A1)
【文献】 北村 強 Tsutomu KITAMURA,フロー挙動分析技術に基づくアプリケーション識別手法 Application Classification Method based on Flow Behavior Analysis,電子情報通信学会技術研究報告 Vol.105 No.470 IEICE Technical Report,日本,社団法人電子情報通信学会 The Institute of Electronics,Information and Communication Engineers,2005年12月 8日,第105巻,第13-16頁
(58)【調査した分野】(Int.Cl.,DB名)
H04L12/00−12/26,12/50−12/955
(57)【特許請求の範囲】
【請求項1】
トラヒックのフロー毎の複数種類の特徴量のうち、第1の特徴量群に基づいて、当該フローの種別を識別する識別機から、識別結果を取得する取得部と、
前記識別結果が得られた同一フローにおける、前記複数種類の特徴量のうち前記第1の特徴量群とは異なる種類の第2の特徴量群を選択する選択部と、
前記第2の特徴量群に基づいて、前記識別結果である前記種別毎のフローの集合から外れ値を検出する検出部と、を備える検証装置。
【請求項2】
前記検出部は、IQR(Inter Quatile Range)に基づいて、前記外れ値を検出する請求項1に記載の検証装置。
【請求項3】
前記選択部は、前記複数種類の特徴量のうち、互いの相関の平均値が低くなる特徴量を選択する請求項1又は請求項2に記載の検証装置。
【請求項4】
前記選択部は、前記複数種類の特徴量の線形結合を含んで前記第2の特徴量群を選択する請求項1から請求項3のいずれかに記載の検証装置。
【請求項5】
前記第2の特徴量群に基づいて、複数のフローの同質性を評価する評価部と、
前記同質性の変化量に基づいて、前記外れ値を前記識別結果とは異なる種別にマージして前記識別結果を調整する調整部と、を備える請求項1から請求項4のいずれかに記載の検証装置。
【請求項6】
前記調整部は、前記外れ値を前記同質性によりクラスタ化し、クラスタ単位で前記マージの処理を行う請求項5に記載の検証装置。
【請求項7】
前記調整部は、前記マージの処理後のクラスタを、前記同質性により更にクラスタ化し、最大のクラスタを調整結果として出力する請求項6に記載の検証装置。
【請求項8】
前記調整部は、前記最大のクラスタ以外のクラスタを、新たな種別として報知する請求項7に記載の検証装置。
【請求項9】
コンピュータの制御部が、
トラヒックのフロー毎の複数種類の特徴量のうち、第1の特徴量群に基づいて、当該フローの種別を識別する識別機から、識別結果を取得する取得ステップと、
前記識別結果が得られた同一フローにおける、前記複数種類の特徴量のうち前記第1の特徴量群とは異なる種類の第2の特徴量群を選択する選択ステップと、
前記第2の特徴量群に基づいて、前記識別結果である前記種別毎のフローの集合から外れ値を検出する検出ステップと、を実行する検証方法。
【請求項10】
コンピュータの制御部に、
トラヒックのフロー毎の複数種類の特徴量のうち、第1の特徴量群に基づいて、当該フローの種別を識別する識別機から、識別結果を取得する取得ステップと、
前記識別結果が得られた同一フローにおける、前記複数種類の特徴量のうち前記第1の特徴量群とは異なる種類の第2の特徴量群を選択する選択ステップと、
前記第2の特徴量群に基づいて、前記識別結果である前記種別毎のフローの集合から外れ値を検出する検出ステップと、を実行させるための検証プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、識別機による識別結果を検証する検証装置、検証方法及び検証プログラムに関する。
【背景技術】
【0002】
従来、通信のネットワークを運用管理する場合、このネットワークの利用状況の変化に応じて設備の増設等が図られる。このとき、ネットワークの利用用途の種別を判別することにより、適切な設備構成によってネットワークの効率的な利用が促進される。
【0003】
ネットワークの利用用途の種別としては、例えば、フォアグラウンド通信とバックグラウンド通信との区別、又はテキスト、動画、音声等のトラヒックのデータ種別等が挙げられる。
このようなトラヒックの識別には、トラヒックデータから抽出される特徴に基づく機械学習が適用可能である(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2013−127504号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、機械学習に高い精度が求められる場合、誤りのない教師データセットが必要になる。しかしながら、効率化のため実験環境において教師データの収集を行う場合には、この環境に依存した偏ったデータとなりやすい。また、想定外のアプリケーションによる通信が発生し、教師データとして正しくないトラヒックデータが混入することがある。
【0006】
したがって、収集された教師データの種別として付与されるラベルが正しいとは限らず、特に、トラヒックが暗号化されている場合には、内容の確認が困難であるため、誤ったラベルが含まれてしまう。誤ったラベルを含む教師データは、機械学習による識別性能の低下につながっていた。
【0007】
本発明は、識別機によるトラヒックフローの識別結果を自己検証できる検証装置、検証方法及び検証プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明に係る検証装置は、トラヒックのフロー毎の複数の特徴量のうち、第1の特徴量群に基づいて、当該フローの種別を識別する識別機から、識別結果を取得する取得部と、前記識別結果が得られた同一フローにおける第2の特徴量群を選択する選択部と、前記第2の特徴量群に基づいて、前記識別結果に対する外れ値を検出する検出部と、を備える。
【0009】
前記検出部は、IQR(Inter Quatile Range)に基づいて、前記外れ値を検出してもよい。
【0010】
前記選択部は、前記複数の特徴量のうち、互いの相関の平均値が低くなる特徴量を選択してもよい。
【0011】
前記選択部は、複数の特徴量の線形結合を含んで前記第2の特徴量群を選択してもよい。
【0012】
前記検証装置は、前記第2の特徴量群に基づいて、複数のフローの同質性を評価する評価部と、前記同質性の変化量に基づいて、前記外れ値を前記識別結果とは異なる種別にマージして前記識別結果を調整する調整部と、を備えてもよい。
【0013】
前記調整部は、前記外れ値を前記同質性によりクラスタ化し、クラスタ単位で前記マージの処理を行ってもよい。
【0014】
前記調整部は、前記マージの処理後のクラスタを、前記同質性により更にクラスタ化し、最大のクラスタを調整結果として出力してもよい。
【0015】
前記調整部は、前記最大のクラスタ以外のクラスタを、新たな種別として報知してもよい。
【0016】
本発明に係る検証方法は、コンピュータの制御部が、トラヒックのフロー毎の複数の特徴量のうち、第1の特徴量群に基づいて、当該フローの種別を識別する識別機から、識別結果を取得する取得ステップと、前記識別結果が得られた同一フローにおける第2の特徴量群を選択する選択ステップと、前記第2の特徴量群に基づいて、前記識別結果に対する外れ値を検出する検出ステップと、を実行する。
【0017】
本発明に係る検証プログラムは、コンピュータの制御部に、トラヒックのフロー毎の複数の特徴量のうち、第1の特徴量群に基づいて、当該フローの種別を識別する識別機から、識別結果を取得する取得ステップと、前記識別結果が得られた同一フローにおける第2の特徴量群を選択する選択ステップと、前記第2の特徴量群に基づいて、前記識別結果に対する外れ値を検出する検出ステップと、を実行させる。
【発明の効果】
【0018】
本発明によれば、識別機によるトラヒックフローの識別結果を自己検証できる。
【図面の簡単な説明】
【0019】
図1】実施形態に係る検証装置の機能構成を示すブロック図である。
図2】実施形態に係る外れ値の概念を例示する図である。
図3】実施形態に係る識別結果の調整方法を例示する図である。
図4】性能指標の比較結果を示す図である。
【発明を実施するための形態】
【0020】
以下、本発明の実施形態の一例について説明する。
図1は、本実施形態に係る検証装置1の機能構成を示すブロック図である。
検証装置1は、トラヒックのフローデータを入力とし、第1の特徴量群を識別機2へ提供して得られた識別結果と、第2の特徴量群とに基づいて、識別結果を検証する。
検証装置1は、取得部11と、選択部12と、検出部13と、評価部14と、調整部15とを備える。
【0021】
取得部11は、トラヒックのフロー毎の複数の特徴量のうち、第1の特徴量群に基づいて、当該フローの種別を識別する識別機2から、識別結果を取得する。
フロー毎の複数の特徴量としては、例えば、データサイズ、パケット数、パケットサイズ、時間、スループット(サイズ/時間)等が利用される。
【0022】
ここで、識別機2を学習させるための第1の特徴量群の選択には、種別毎にラベルが付与された教師データのクラスと特徴量との相関の平均値が高いこと、及び冗長な特徴量の選択を避けるため特徴量間の相関の平均値が低いことが求められる。このような選択手法として、例えば、「M. A. Hall, “Correlation−based Feature Selection for Machine Learning”, Hamilton, NewZealand, 1999.」において解説されている「CfsSubsetEval」が利用可能である。
また、識別機2は、第1の特徴量群に基づく教師データによって、例えばJ48等のアルゴリズムによって機械学習される。
【0023】
選択部12は、識別機2により識別結果が得られたフローと同一のフローにおける、第1の特徴量群とは異なる第2の特徴量群を選択する。
第2の特徴量群の選択には、ラベルは用いられず、冗長な特徴量の選択を避けるため特徴量間の相関の平均値が低いことが求められる。このような選択手法として、例えば、主成分分析(PCA; Principal Component Analysis)が利用可能である。主成分分析によれば、複数の特徴量の線形結合を含んだ相関の低い第2の特徴量群が選択される。
【0024】
検出部13は、第2の特徴量群に基づいて、識別機2による識別結果に対する外れ値(outliers)を検出する。
【0025】
図2は、本実施形態に係る外れ値の概念を例示する図である。
この例では、第1の特徴量群であるf1及びf2を用いて、教師データによって学習された識別境界線Aによって、各フローデータがフォアグラウンド通信(FG traffic)とバックグラウンド通信(BG traffic)とに識別されている。
【0026】
このとき、図中の網掛けのフローデータが誤って識別されているとする。第1の特徴量群では、この誤りを発見できないが、検出部13は、第1の特徴量群とは異なる第2の特徴量群によって、識別されたクラス内の外れ値として誤り、又は誤りの可能性を検出する。
【0027】
具体的には、検出部13は、IQR(Inter Quatile Range)に基づいて、外れ値を検出する。
例えば、第1四分位値Q1、第3四分位値Q3、及びIQR=Q3−Q1に対して、下側閾値を「Q1−1.5×IQR」、上側閾値を「Q1+1.5×IQR」として、下側閾値より小さい値又は上側閾値より大きい値が外れ値と判定される。
ここで、より確度の高い外れ値を検出するために係数は適宜調整されてよく、例えば、下側閾値を「Q1−3×IQR」、上側閾値を「Q1+3×IQR」としてもよい。
【0028】
評価部14は、第2の特徴量群に基づいて、複数のフローからなる集合の同質性を評価する。具体的には、評価部14は、EM(Expextation Maximization)アルゴリズムによって同質性を評価し、調整部15へ提供する。
【0029】
調整部15は、同質性の変化量に基づいて、検出された外れ値を、識別結果とは異なる種別のクラスにマージして識別結果を調整する。
このとき、調整部15は、演算の効率化のため、複数の外れ値を同質性によりクラスタ化し、クラスタ単位でマージの処理を行ってもよい。
【0030】
ここで、調整部15は、以下の2つの条件を共に満たす場合に、外れ値のクラスタOjをクラスCiにマージすることを適切とみなす。
・クラスタOjの要素xkがクラスCiに属していないこと(For all xk∈Oj, !(xk∈Ci))。
・マージしたクラスの同質性が十分に高い、すなわち、クラスタOjをクラスCiにマージすることにより同質性が向上する、又は同質性の低下率が所定未満であること。
【0031】
このとき、適切にマージできるクラスがない外れ値、又は外れ値のクラスタは、未知のクラスである可能性があるため、調整部15は、これらを新たなクラスの候補として報知する。
【0032】
調整部15は、マージの処理後のクラスタを、同質性により更にクラスタ化し、最大のクラスタを調整結果として出力してもよい。また、調整部15は、この最大のクラスタ以外の小さなクラスタを、新たな種別の可能性があるクラスとして報知してもよい。
【0033】
図3は、本実施形態に係る調整部15による識別結果の調整方法を例示する図である。
この例では、識別機2により、フローデータがC1及びC2の2つのクラスに分類されている。
【0034】
各クラスにおいて、検出部13は、IQRに基づく外れ値を検出する。この結果、クラスC1は、外れ値の集合{Pi}と、外れ値を除いたクラス(C1−{Pi})とに分けられる。同様に、クラスC2は、外れ値の集合{Pj}と、外れ値を除いたクラス(C2−{Pj})とに分けられる。
【0035】
調整部15は、外れ値の集合(例えば{Pi})を、EMアルゴリズムによりクラスタリングし、クラスタ(Cl1、Cl2、・・・)を生成する。調整部15は、これらのクラスタを、他のクラス(例えば、C2−{Pj})とマージすることにより、新たなクラス(例えば、C2_new)を生成する。
【0036】
調整部15は、新たなクラスを、更にEMアルゴリズムによりクラスタリングする。調整部15は、クラスタリングの結果得られた最大のクラスタ(例えば、C2_final)を調整後のクラスとして出力し、最大のクラスタ以外のクラスタ(uk)を未知のクラスとして出力する。
【0037】
[実施例]
本実施形態の効果を、以下の手順により評価した。
【0038】
(1)特徴ベクトルFを持つオリジナルの教師データセットDを用意する。ここでは、教師データセットDは、SNSアプリケーション(種別a)及びブラウジング(種別b)のそれぞれのトラヒックフローから抽出されたものとする。
【0039】
(2)F1特徴量群(第1の特徴量群)を選択し、識別機2の生成と評価を行う。
(2−1)教師データセットDからCfsSubsetEvalにより、F1特徴量群を持つデータセットD’を選択する。
(2−2)D’から各クラス20サンプルずつ抽出し、テスト用データDtest1とする。
(2−3)残りを学習用データDtrainとする(Dtrain=D’−Dtest1)。
(2−4)Dtrainを用いてJ48等により学習を行い、識別機2を得る。
(2−5)識別機2により、Dtest1の識別を行い、識別結果C={C1,C2}を得る。
(2−6)識別結果Cに対して性能指標を算出する。
【0040】
ここで、性能指標は、教師データセットDにおける現実の値(X,!X)と判定結果(X,!X)との以下の組み合わせ毎の数に基づいて算出される、適合率(Precision)、再現率(Recall)、及びF値(F−score)を用いる。
【0041】
・現実の値Xに対して判定結果X: TP(True Positive)
・現実の値!Xに対して判定結果X: FP(False Positive)
・現実の値Xに対して判定結果!X: TP(False Negative)
・現実の値!Xに対して判定結果!X: TP(True Negative)
P(Precision)=TP/(TP+FP)
R(Recall)=TP/(TP+FN)
F−score=2×P×R/(P+R)
【0042】
(3)検証用にF2特徴量群(第2の特徴量群)を選択する。
(3−1)教師データセットDから、主成分分析により、F2特徴量群を持つデータ・セットD”を選択する。
(3−2)D”から20サンプルを抽出し、テスト用データDtest2とする。ここで、D’とD”とは同一のトラヒックフローについてのデータであるが、互いに異なる特徴量を持つ。
【0043】
(4)外れ値を別のクラスにマージして調整する。
(4−1)前述した識別結果の調整方法(図3)により、調整後のクラスC’を得る。
(4−2)C’に対して性能指標の再評価を行う。
(4−3)調整前と調整後との性能指標を比較する。
【0044】
図4は、性能指標の比較結果を示す図である。
上段は、F1特徴量群のみにより識別した場合の評価結果である。具体的には、種別a及び種別bのそれぞれ20サンプル(Dtest1)に対して、識別機2による識別結果(a又はb)、評価指標(P,R,F−score)及びF−scoreの調和平均が記載されている。
【0045】
下段は、F2特徴量群を用いて検証装置1により検証を行い、識別結果を調整した場合の評価結果である。種別a及び種別bのそれぞれについて、識別結果(a又はb)の数が調整され、評価指標が変化している。
【0046】
検証装置1による自己検証の結果、F−scoreが種別a及び種別bで共に向上し、平均F−scoreも向上した。
【0047】
本実施形態によれば、検証装置1は、第1の特徴量群に基づく識別機2による識別結果のクラスそれぞれに対して、第2の特徴量群を用いて外れ値を検出する。したがって、検証装置1は、識別機2によるトラヒックフローの識別結果を自己検証できる。この結果、誤りの可能性がある識別結果又は教師データのラベルを発見できるので、識別機2の精度向上が期待できる。
【0048】
検証装置1は、IQRに基づいて、容易に外れ値を検出できる。
また、検証装置1は、第2の特徴量群として、互いの相関の平均値が低くなる特徴量を選択できるので、検証精度及び処理効率を向上できる。
このとき、検証装置1は、主成分分析を用いることにより、特徴量の線形結合を含んだ第2の特徴量群を選択できる。これにより、検証装置1は、第1の特徴量群と共通の要素を利用して検証用の第2の特徴量群を生成できる。
【0049】
また、検証装置1は、EMアルゴリズムを用いた同質性の評価により、外れ値を識別結果と異なるクラスにマージして調整できる。したがって、検証装置1は、第1の特徴量群のみに基づく識別機2よりも信頼できる識別結果を出力できる。この結果、検証装置1は、たとえ教師データに誤りが含まれている場合にも、識別精度の低下を抑制できる。
【0050】
このとき、検証装置1は、外れ値を同質性によりクラスタ化することにより、処理効率を向上できる。
また、検証装置1は、マージ処理後のクラスタを更にクラスタ化することにより、調整結果の精度を向上できる。さらに、検証装置1は、分離された小さなクラスタを新たな種別の可能性があるクラスとして提示することができる。
【0051】
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。
【0052】
検証装置1による検証方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(検証装置1)にインストールされる。また、これらのプログラムは、CD−ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータ(検証装置1)に提供されてもよい。
【符号の説明】
【0053】
1 検証装置
11 取得部
12 選択部
13 検出部
14 評価部
15 調整部
図1
図2
図3
図4