(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-12
(45)【発行日】2024-11-20
(54)【発明の名称】ネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法
(51)【国際特許分類】
H04B 17/30 20150101AFI20241113BHJP
G06N 3/047 20230101ALI20241113BHJP
【FI】
H04B17/30
G06N3/047
(21)【出願番号】P 2023190619
(22)【出願日】2023-11-08
【審査請求日】2023-11-08
(31)【優先権主張番号】10-2022-0149179
(32)【優先日】2022-11-10
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】516157382
【氏名又は名称】イノワイアレス カンパニー、リミテッド
(74)【代理人】
【識別番号】100121382
【氏名又は名称】山下 託嗣
(72)【発明者】
【氏名】クワク,ヨン ス
(72)【発明者】
【氏名】イ,ソ ジョン
(72)【発明者】
【氏名】クォン,ミョン ミ
(72)【発明者】
【氏名】キム,ウン キュ
(72)【発明者】
【氏名】クォン,オ コル
【審査官】麻生 哲朗
(56)【参考文献】
【文献】国際公開第2021/059302(WO,A2)
【文献】特開2009-237914(JP,A)
【文献】特表2022-539578(JP,A)
【文献】中国特許出願公開第112188534(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04B 17/30
G06N 3/047
(57)【特許請求の範囲】
【請求項1】
通話区間で収集されたネットワーク通信ログデータを非時系列および時系列データに分離する(a)段階と、
非時系列データおよび時系列データの特定パラメータの種類によって欠測値を代替する(b)段階と、
(b)段階で処理されたパラメータ以外のパラメータのうち、非時系列データに対してガウス混合モデル(GMM)を通じて欠測値を代替する(c)段階と、
(b)段階で処理されたパラメータ以外のパラメータのうち、時系列データに対してジョイントアプローチを通じて欠測値を代替する(d)段階と、
を含んでなる、ネットワークログデータの欠測値処理方法。
【請求項2】
サービングPCI(Serving Physical Cell ID)パラメータは、このパラメータを代弁する新しいパラメータを生成して、サービングPCIにデータが存在する場合には1で、データが欠測した場合には0で表記することを特徴とする、請求項1に記載のネットワークログデータの欠測値処理方法。
【請求項3】
RSRP(Reference Signals Received Power)、RSRQ(Reference Signal Received Quality)およびSINR(Signal to Interference plus Noise Ratio)を含んだRF関連パラメータの場合、欠測値が存在するデータサンプルがあればこれを除くことを特徴とする、請求項1に記載のネットワークログデータの欠測値処理方法。
【請求項4】
PDCP/RLC要約統計(Packet Data Convergence Protocol/Radio Link Control statistics summary)パラメータで欠測した値が0と同じ意味を有する場合、欠測値を0で代替することを特徴とする、請求項1に記載のネットワークログデータの欠測値処理方法。
【請求項5】
(b)段階で処理されたパラメータ以外のパラメータは、PCell Estimated Distance、KPI PCell PDSCH & PUSCH BLER[%]、PHY R-BLER Info PDSCH Total Info DL R-BLER[%]およびTotal Info PHY R-BLER Info PUSCH UL R-BLER[%]を含むことを特徴とする、請求項1に記載のネットワークログデータの欠測値処理方法。
【請求項6】
(c)段階は、非時系列データを欠測値がないデータセット(D
y:無欠測値データセット)と欠測値があるデータセット(D
n:有欠測値データセット)に分ける(c1)段階と、
無欠測値データセット(D
y)をGMM基盤のEMアルゴリズムを通じてクラスタリングし、各クラスタの中心を求めてユークリッド距離が最も近いクラスタに各インスタンスを割り当てる(c2)段階と、
(c2)段階のクラスタリング結果に基づいて有欠測値データセット(D
n)をクラスタリングした後、各インスタンスのクラスタを探す(c3)段階と、
(c3)段階で探した各クラスタでユークリッド距離を基準として欠測値を有したインスタンスと最も近い完全インスタンスを探す(c4)段階と、
(c4)段階で探した完全インスタンスの平均値で欠測値を代替する(c5)段階と、
を含んでなる、請求項1に記載のネットワークログデータの欠測値処理方法。
【請求項7】
(d)段階は、欠測値が存在する既存時系列データを再構成する過程の損失値と欠測値をランダムに代替した時に発生する損失値を最小化するように、反復訓練する過程を通じて二つの前記損失値が最小化される方向に欠測値を代替することを特徴とする、請求項1に記載のネットワークログデータの欠測値処理方法。
【請求項8】
欠測値が存在する既存時系列データでランダムに所定比率のデータを人為的にマスクして仮想の欠測値を生成する(d1)段階と、
代替モデルがすべての欠測値を代替した後、MAE(mean absolute error)で人為的に生成された前記欠測値と代替値の間の代替損失値を計算する(d2)段階と、
既存データに存在する観測データを、モデリングプロセッシングを通じて再構成し、観測データと再構成されたデータの間の差をMAEで計算して損失値を求める(d3)段階と、
を含んでなることを特徴とする、請求項7に記載のネットワークログデータの欠測値処理方法。
【請求項9】
人為的に生成された前記欠測値を認知するために人為的にマスクされた値を1で、その他のすべての他の値を0で表記するインジケーティングマスク(Indicating Mask)を活用することを特徴とする、請求項8に記載のネットワークログデータの欠測値処理方法。
【請求項10】
前記代替モデルとして、時系列データの全体的なデータの流れを考慮できる自己回帰(autoregressive)モデルに基づいて構成されたLATC(Low-Rank Autoregressive Tensor Completion)が適用され、この過程で多変量時系列データを3次元のテンソル(tensor)に変換して自己回帰モデルに適用することを特徴とする、請求項9に記載のネットワークログデータの欠測値処理方法。
【請求項11】
請求項6に記載された方法によって欠測値が代替された非時系列データでFCNN(Fully Connected Neural Network)を学習させて最適なパラメータを備えたモデルを確保した後、これを通じて非時系列データに対する欠陥の根本を分類する、ネットワークログデータの欠測値処理を通じての欠陥の根本分類方法。
【請求項12】
請求項7に記載された方法によって欠測値が代替された時系列データで1D-CNN(1-Dimensional Convolutional Neural Network)を学習させて最適なパラメータを備えたモデルを確保した後、これを通じて時系列データに対する欠陥の根本を分類するネットワークログデータの欠測値処理を通じての欠陥の根本分類方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法に関し、特に欠測値が存在するパラメータの特性に合わせて適切な代替値を求めて完全なデータセットを確保した状態で、マシンラーニングやディープラーニング技術を活用してネットワーク環境で発生する多様な欠陥の根本を分析できるようにしたネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法に関する。
【背景技術】
【0002】
Root Cause Analysis(RCA)は、ネットワーク通信欠陥の根本原因(root cause:以下、簡単に「根本」という)を判別して、ネットワーク事業者がネットワーク最適化を実行するのに必要な情報を提供する。既存のRCA技術では、通話(call)状態で多様なネットワークパラメータを測定し、このように測定された値と種々のパラメータ間の相関性に基づいて専門家が設定するロジックを通じて欠陥の根本を判別するので、多くの限界点が存在する。
【0003】
具体的には、既存の根本判別方式は、欠陥が発生した通話区間(通話時間)に測定されたパラメータ値を人が設定したロジックのしきい値(threshold)と比較して該当欠陥の根本を判別する。まず、欠陥を広い範囲のRCAカテゴリーに分類した後、各RCAカテゴリーの原因(reason group)に分け、測定されたデータを該当ロジックのしきい値と比較して該当する根本カテゴリーに細分化する。このような既存の方式には次のような限界が存在する。
【0004】
まず、通信ネットワーク内の多様な原因によってネットワーク環境を表現するパラメータデータに欠測値が存在し、多様なケースが十分に考慮されていないためロジックに限界が存在する可能性が高い。
【0005】
また、ロジックを設定する過程とロジックを通じて判別する過程ですべて制限されたデータのみを活用すると、結局欠陥の根本を区分できずに「未知(unknown)」と判別してしまう問題が発生する。このため、完全なデータが与えられなくても多様なケースを考慮して既存のロジックの限界を補完する方法が必要である。
【0006】
その他にも、人が設定したロジックは、欠陥が発生したネットワーク環境を見る専門家の観点に限定され得る。既存のロジックで、各根本の要因として指定されたパラメータの関係としきい値の他にも、根本を判別できる他の要因が存在したりしきい値の調整が必要であり得る。例えば、既存のロジックでは根本が「未知」と判別されたケースも、適切なしきい値の調整を通じて最も近い根本に分類され得るであろう。
【0007】
また、設計されたロジックで特定の根本を分類するためには、ネットワークパラメータを測定した値の形態をそのまま使用できず、順序型または範疇型の形態にデータを変換させなければならない場合がある。このような場合、データ値をそのまま使った場合には、特定の根本の要因として感知できるパラメータ間の相互関係を認知できない場合があり得る。
【0008】
これを補完するために、膨大な測定データを基盤としたマシンラーニング(machine learning)やディープラーニング(deep learning)を活用して、多様なパラメータ間の相関性を認識して欠陥の根本を判別する技術が提示されている。
【0009】
その他にも、現実的にフィールドで収集される完全でないデータセットの問題を解決する方案も提示されている。例えば、データセットに欠測値が存在するとの問題は、たびたび発生する主要な限界であって、欠陥の根本を分類するのに多くの困難な点を発生させる。
【0010】
具体的には、RCAに使われるネットワーク通信ログデータには、多様な技術的または環境的な理由によって特定パラメータが測定できないため欠測した欠測値が存在するが、欠測値の類型としては大きく三つが存在する。最も発生範囲が広い欠測値データの類型として、ランダムな欠測(MAR:Missing at Random)がある。この類型は、欠測値データが全体で占める比率がデータセットの観測(observed)データと関連性がある場合である。すなわち、ある特定パラメータに対して欠測した欠測値が存在する場合がデータセット内の他のパラメータと関連がある場合である。
【0011】
ランダムな欠測と反対の類型として、ランダムではない欠測(MNAR:Missing Not at Random)がある。この類型は、欠測した欠測値が無作為で発生するのではない、欠測したパラメータ値が欠測した理由と関連がある場合を意味する。最後の類型である完全にランダムな欠測(MCAR:Missing Completely at Random)は、欠測値が全体で占める比率が他のデータと何の関連もない場合である。この類型は任意のパラメータがデータセット全体に亘って無作為に欠測した場合であり、パラメータの種類および値にかかわらず、類似した分布でデータが欠測した場合である。
【0012】
一方、RCA分析にマシンラーニングやディープラーニングアルゴリズムを適用するためには、欠測値データの適切な処理を実行しなければならない。一般に、欠測値を処理する方式は、二つに大別される。一つは、欠測値が存在する不完全なパラメータまたはサンプルを除去するか、または、適切な値で欠測値を代替することである。MCARの場合には、欠測値が発生したパラメータまたはデータサンプルを削除して完全なデータセットを確保することができるが、MARまたはMNARの場合には欠測値の置き換えが必要である。
【0013】
このように、MARまたはNMARの場合、パラメータまたはサンプルを除去する方式は、データ内の情報を部分的に失うようにさせて一側に偏った分析結果を招き得る危険があるため、データセット内の観測データに基づいて欠測値を推定する多様な方法が開発されている。
【先行技術文献】
【特許文献】
【0014】
【文献】韓国特許公開第10-2021-101557号公報(発明の名称:油井ログデータの欠測区間推定方法およびその装置)
【文献】韓国登録特許第10-2059112号公報(発明の名称:事物インターネットストリームデータ品質測定指標およびプロファイリング方法およびそのシステム)
【文献】韓国特許公開第10-2015-38905号公報(発明の名称:データ前処理装置および方法)
【発明の概要】
【発明が解決しようとする課題】
【0015】
本発明は、前述した問題点を解決するために創出されたもので、欠測値が存在するパラメータの特性に合わせて適切な代替値を求めて完全なデータセットを確保した状態で、マシンラーニングやディープラーニング技術を活用してネットワーク環境で発生する多様な欠陥の根本を分析できるようにした、ネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法を提供することを目的とする。
【課題を解決するための手段】
【0016】
前述した目的を達成するための本発明のネットワークログデータの欠測値処理方法は、通話区間で収集されたネットワーク通信ログデータを非時系列および時系列データに分離する(a)段階と、非時系列データおよび時系列データの特定パラメータ種類によって欠測値を代替する(b)段階と、(b)段階で処理されたパラメータ以外のパラメータのうち、非時系列データに対してガウス混合モデル(GMM)を通じて欠測値を代替する(c)段階と、(b)段階で処理されたパラメータ以外のパラメータのうち、時系列データに対してジョイントアプローチを通じて欠測値を代替する(d)段階と、を含んでなる。
【0017】
前述した構成で、サービングPCI(Serving Physical Cell ID)パラメータは、このパラメータを代弁する新しいパラメータを生成して、サービングPCIにデータが存在する場合には1で、データが欠測した場合には0で表記する。
【0018】
RSRP(Reference Signals Received Power)、RSRQ(Reference Signal Received Quality)およびSINR(Signal to Interference plus Noise Ratio)を含んだRF関連パラメータの場合、欠測値が存在するデータサンプルがあればこれを除く。
【0019】
PDCP/RLC要約統計(Packet Data Convergence Protocol/Radio Link Control statistics summary)パラメータで欠測した値が0と同じ意味を有する場合、欠測値を0で代替する。
【0020】
(b)段階で処理されたパラメータ以外のパラメータは、PCell Estimated Distance、KPI PCell PDSCH & PUSCH BLER[%]、PHY R-BLER Info PDSCH Total Info DL R-BLER[%]およびTotal Info PHY R-BLER Info PUSCH UL R-BLER[%]を含む。
【0021】
(c)段階は、非時系列データを欠測値がないデータセット(Dy:無欠測値データセット)と欠測値があるデータセット(Dn:有欠測値データセット)に分ける(c1)段階と、無欠測値データセット(Dy)をGMM基盤のEMアルゴリズムを通じてクラスタリングし、各クラスタの中心を求めてユークリッド距離が最も近いクラスタに各インスタンスを割り当てる(c2)段階と、(c2)段階のクラスタリング結果に基づいて有欠測値データセット(Dn)をクラスタリングした後、各インスタンスのクラスタを探す(c3)段階と、(c3)段階で探した各クラスタでユークリッド距離を基準として欠測値を有したインスタンスと最も近い完全インスタンスを探す(c4)段階と、(c4)段階で探した完全インスタンスの平均値で欠測値を代替する(c5)段階を含んでなる。
【0022】
(d)段階は、欠測値が存在する既存時系列データを再構成する過程の損失値と欠測値をランダムに代替した時に発生する損失値を最小化するように、反復訓練する過程を通じて二つの損失値が最小化される方向に欠測値を代替する。
【0023】
欠測値が存在する既存時系列データでランダムに所定比率のデータを人為的にマスクして仮想の欠測値を生成する(d1)段階と、代替モデルがすべての欠測値を代替した後、MAE(mean absolute error)で人為的に生成された前記欠測値と代替値の間の代替損失値を計算する(d2)段階と、既存データに存在する観測データを、モデリングプロセッシングを通じて再構成し、観測データと再構成されたデータの間の差をMAEで計算して損失値を求める(d3)段階と、を含んでなる。
【0024】
人為的に生成された前記欠測値を認知するために、人為的にマスクされた値を1で、その他のすべての他の値を0で表記するインジケーティングマスク(Indicating Mask)を活用する。
【0025】
前記代替モデルとしては時系列データの全体的なデータの流れを考慮できる自己回帰(autoregressive)モデルに基づいて構成されたLATC(Low-Rank Autoregressive Tensor Completion)が適用され、この過程で多変量時系列データを3次元のテンソル(tensor)に変換して自己回帰モデルに適用する。
【0026】
前述した通り、欠測値が代替された非時系列データでFCNN(Fully Connected Neural Network)を学習させて最適なパラメータを備えたモデルを確保した後、これを通じて非時系列データに対する欠陥の根本を分類する。
【0027】
前述した通り、欠測値が代替された時系列データで1D-CNN(1-Dimensional Convolutional Neural Network)を学習させて最適なパラメータを備えたモデルを確保した後、これを通じて時系列データに対する欠陥の根本を分類する。
【発明の効果】
【0028】
本発明のネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法によると、ネットワークログデータに対して適切なデータ前処理を進めてその限界点を補完し、膨大な量のデータの学習を実行したディープラーニングアルゴリズムを通じて通信欠陥の多様な根本を判別することによって、従来欠測値の比重が大きいため欠陥と判定されたネットワークログデータで根本が明確に判別できない場合を顕著に減少させることができる。
【図面の簡単な説明】
【0029】
【
図1】本発明のネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法の全体的なフローチャートである。
【
図2】本発明の方法で非時系列的データの欠測値代替過程を説明するためのフローチャートである。
【
図3】本発明の方法でジョイントアプローチ基盤の時系列データの欠測値代替過程を説明するためのシーケンスチャートである。
【
図4】本発明のネットワークログデータの欠測値処理およびこれを通じての欠陥の根本分類方法で非時系列的データ学習過程を説明するためのフローチャートである。
【
図5】本発明のネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法で時系列データ学習過程を説明するためのフローチャートである。
【発明を実施するための形態】
【0030】
以下では、添付した図面を参照して本発明のネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法の好ましい実施例について詳細に説明する。
【0031】
本発明は、ネットワーク環境を測定したデータセットの欠測値問題を補完してディープラーニングアルゴリズムを学習させてパラメータ間の多次元(multi-dimensional)の関係を把握し、根本の分類問題を解決することが目的である。欠測値問題を解決するために、データセットまたは各パラメータの特性に合う適切な値で欠測値を代替する。
【0032】
以後、このように改善されたデータセットに対して教師あり学習(supervised learning)方式でディープラーニングアルゴリズムを学習させ、学習されたアルゴリズムを通じて根本を分類する多重クラス分類モデル(multi class classification model)を確保することができる。大量のデータで訓練して非常に多様なパターンを学習した場合、前記モデルが種々のネットワークパラメータ間の多次元関係を認識し、これに基づいて既存のロジックでは分類することが困難であった欠陥の根本も判別することができる。
【0033】
以下、本発明で使われる用語について概略的に説明する。
【0034】
インピュテーション(Imputation):欠測値の代替を意味する。マシンラーニング学習でデータを使うためには、欠測値が特定値で代替されなければならない。データセットで欠測値が発生する原因または欠測値の比重によって欠測の類型を判断でき、このような欠測値の特性を把握して適切な代替値を設定しなければならない。
【0035】
ガウス混合(Gaussian mixture):k個のガウス分布(Gaussian distribution)を有する混合である。k個のクラスタ(cluster)に分類できるデータセットの特性を分析する時に活用することができる。それぞれのガウス分布は、クラスタの中心を意味する平均(mean)、分布の幅(width)を意味する共分散(covariance)、およびガウス関数がどれほど大きいか小さいかを意味する混合確率(mixing probability)で表現される。
【0036】
ガウス混合モデル(GMM;Gaussian Mixture Model):データの確率分布(probability distribution)に基づいて、データをそれぞれのカテゴリーに分類できるマシンラーニングアルゴリズムの中の一つである。期待(expectation)と最大化(maximization)からなる反復(iterative)方式のEM(Expectation-Maximization)アルゴリズムを通じて最適なGMMパラメータを探すことができる。
【0037】
FCNN(Fully Connected Neural Network):ニューラルネットワーク(neural network)を構成するレイヤ(layer)の連結方式が「緻密」な(dense)形態のニューラルネットワークである。すなわち、それぞれのレイヤを構成するニューロンがすべて連結されているニューラルネットワークである。
【0038】
1D-CNN(1-Dimensional Convolutional Neural Network):1次元の畳み込み層(convolutional layer)を通じてデータの特徴(feature)を抽出するニューラルネットワークである。ニューラルネットワークが学習するデータの形態がシーケンスや自然語のように時系列データで1次元である場合にデータの特性を抽出するのに適合である。
【0039】
図1は、本発明のネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法の全体的なフローチャートであり、前処理を通じてのデータセットの補完と根本分類のための教師あり学習アルゴリズム訓練を進行する全体的な過程を示している。
【0040】
図1に図示した通り、本発明のネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法によると、まず段階S100で、欠陥の根本を選別するために活用される通話区間(通話時間)のネットワークログデータを非時系列データと時系列データに分ける。
【0041】
非時系列データの場合、一つの根本は、一つの特徴セット(set of features)関数であるF={feature1、feature2、・・・、featuren}に区分される。一方、時系列データの場合、一つの根本を判別する特徴がそれぞれ時間間隔(time interval)と同じ長さのシーケンスである。非時系列データと時系列データの例示はそれぞれ下記の表1および表2の通りである。
【0042】
【0043】
【0044】
次に、段階S200で、非時系列データと時系列データのそれぞれのパラメータ別に適切な根拠に基づいてその欠測値を処理する。
【0045】
例えば、サービングPCI(Serving Physical Cell ID)パラメータは、値そのものより値の存在の有無のみが意味を有するため、このパラメータを代弁する新しいパラメータを生成して、サービングPCIにデータが存在する場合には1で、データが欠測した場合には0で表記する。
【0046】
RSRP(Reference Signals Received Power)、RSRQ(Reference Signal Received Quality)またはSINR(Signal to Interference plus Noise Ratio)のような、通信環境の状態を知らせるRF関連パラメータは、通信環境を表現する敏感なパラメータであるため。欠測値が存在するデータサンプルがあればこれを除く。
【0047】
PDCP/RLC要約統計(Packet Data Convergence Protocol/Radio Link Control statistics summary)のように、欠測した値が0と同じ意味を有する場合、欠測値を0で代替する。
【0048】
そして、前述したパラメータ別条件に該当しないパラメータ(例えば、PCell Estimated Distance、KPI PCell PDSCH & PUSCH BLER[%]、PHY R-BLER Info PDSCH Total Info DL R-BLER[%]、Total Info PHY R-BLER Info PUSCH UL R-BLER[%]など)は、段階S300および段階S500のように、非時系列データと時系列データに分けてそれぞれの代替技法を適用する。
【0049】
まず、非時系列データは、データセット内の観測データに基づいて代替値を生成するが、例えばガウス混合モデル(GMM)を通じて観測データのクラスタリングに基づいて欠測値の代替値を探す。
図2は、本発明の方法で非時系列的データの欠測値代替過程を説明するためのフローチャートである。
【0050】
まず、段階S310で、データセットを欠測値がないデータセット(Dy:無欠測値データセット)と欠測値があるデータセット(Dn:有欠測値データセット)に分ける。
【0051】
次に、段階S320で、無欠測値データセット(Dy)をGMM基盤のEMアルゴリズムを通じてクラスタリングし、各クラスタの中心(center)を求めてユークリッド距離(Euclidean distance)が最も近いクラスタに各インスタンス(instance)を割り当てる。
【0052】
次に、段階S330で、段階S320のクラスタリング結果に基づいて有欠測値データセット(Dn)をクラスタリングした後、各インスタンスのクラスタを探す。
【0053】
次に、段階S340で、各クラスタでユークリッド距離を基準として欠測値を有したインスタンスと最も近い完全インスタンス(欠測値がない観測インスタンス)を探す。
【0054】
最後に、段階S350で、段階S340で探した完全インスタンスの平均値(mean)で欠測値を代替する。
【0055】
再び
図1に戻って、段階S500で、ジョイントアプローチ(Joint-approach)基盤で時系列データを代替するが、存在するデータを「再構成」(reconstruct)する過程の損失値と欠測値をランダムに代替した時に発生する損失値を最小化するように、反復的な訓練過程を通じて二つの損失値を最小化する方向に欠測値を代替する。
【0056】
図3は、本発明でジョイントアプローチ基盤の時系列データの欠測値代替過程を説明するためのシーケンスチャートであるところ、二つの訓練方式で構成されている。
【0057】
まず、欠測値が存在する既存時系列データでランダムに所定比率、例えば20%程度のデータを人為的にマスク(artificially mask)して仮想の欠測値を生成する。
図3において、既存データには存在するが人為的なマスクで欠測値に変わったデータは緑色(太線)で表示される。代替モデルがすべての欠測値を代替するが、この時、MAE(mean absolute error)で人為的に生成された欠測値と代替値の間の代替損失率を計算する(A過程)。人為的にマスクされた値を認知するために人為的マスクで遮られた値を1で、その他のすべての他の値を0で表記するインジケーティングマスク(Indicating Mask)を活用する。
【0058】
既存データに存在する観測データをモデリングプロセッシングを通じて再構成(reconstruct)する。元の観測データと再構成されたデータの間の差をMAEで計算して損失値を求める(B過程)。
【0059】
前記A過程とB過程はそれぞれの役割が異なる。A過程はモデルが欠測値に最も適切な値を探すように方向を導き、B過程は代替値を探すモデルが既存観測データの分布に収束するように方向を導く。
図3において青色で表示された「代替モデル(Imputation Model)」としては、時系列欠測値を代替するモデルが多様に適用され得る。
【0060】
例えば、時系列データの全体的なデータの流れを考慮できる自己回帰(autoregressive)モデルに基づいて構成されたLATC(Low-Rank Autoregressive Tensor Completion)が適用され得るが、この過程で多変量時系列データを3次元のテンソル(tensor)に変換して自己回帰モデルに適用する。
【0061】
次に、段階S300および段階S500を通じて前処理された、すなわち欠測値問題が補完されたデータセットが確保された状態で、段階S400および段階S600で、ディープラーニングアルゴリズムを活用して欠陥の根本を分類する。
【0062】
具体的には、非時系列データセットと時系列データセットそれぞれのデータ形態に適合なディープラーニングアルゴリズムを訓練させるが、各データセットを訓練(train)、検証(validation)およびテスト(test)に分けて多数のエポック(epoch)が反復される間、訓練および検証データセットでアルゴリズムの訓練と検証を進行する。反復的な訓練と検証を通じてニューラルネットワークのハイパーパラメータを調整(tuning)し、最適なパラメータを備えたモデルを確保する。
【0063】
最後のモデルの根本分類性能は、テストデータで分類して正確度(accuracy)、再現率(recall)および精密度(precision)のような指標で確認する。各データセットに適合なディープラーニングニューラルネットワークは次の通りである。
【0064】
図4は、本発明のネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法で非時系列的データ学習過程を説明するためのフローチャートである。
図4に図示した通り、まず、非時系列データでFCNN(Fully Connected Neural Network)を学習させる。FCNNは、ANN(artificial neural network)の一種で、MLP(multi-layer perceptron)のように、多数個の隠れ層(hidden layer)がニューラルネットワークの入力と出力の間を形成し、各レイヤを構成するニューロンがすべて連結されている。
【0065】
このように緻密なニューラルネットワークで、過剰適合(overfitting)が発生することを防止するために、ドロップアウト(dropout)と配置正規化(batch normalization)を隠れ層に追加してニューラルネットワークを形成する。それぞれの隠れ層では、入力または以前のレイヤで伝達されるデータに指定する重み(weights)と偏り(bias)を設定して、活性化関数を通じてスケール(scale)した後、出力または次のレイヤに伝達する。
【0066】
最後の出力は、ソフトマックス(softmax)関数を通じて各ターゲットクラス(target class)別確率を求める。多重クラス分類(Multi class classification)の問題であるので、モデルの予測とターゲットクラス(すなわち、正解)の間の差を、交差エントロピー誤差(CrossEntropyLoss)関数を通じて求め、アダム最適化(Adam optimizer)を通じて損失を最小化する方向に訓練を進行する。この過程で指定したエポック回数に到達し、指定した反復回数の間持続的に最小損失値が確認されるのであれば訓練を終了する。
【0067】
図5は、本発明のネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法で時系列データ学習過程を説明するためのフローチャートである。
図5に図示した通り、時系列データで1D-CNN(1-Dimensional Convolutional Neural Network)を学習させる。1D-CNN時系列分類を実現する方法は、大きく二つのステージ(stage)で実現されるが、第1ステージでは、分類しようとする時系列の差を測定しデータを特徴ベクトル(feature vectors)に変換させる。
【0068】
次に、第2ステージでは、分類作業を実行する。ここで使用できるアルゴリズムは、主要マシンラーニングアルゴリズムであるk近傍法(k-nearest neighbors)アルゴリズムやSVMアルゴリズムからディープラーニングニューラルネットワークまで非常に多様である。
【0069】
1D-CNN分類モデルの全般的な構造は次の通りである。
【0070】
時系列データ内のパターンを特徴として抽出する畳み込み層(convolutional layer)と抽出した特徴をベクトルで圧縮するマックスプーリング(max pooling)段階を経る。その後、抽出および精製された特徴ベクトルを分類作業ができる完全連結階層(fully connected layer)に入力する。完全連結階層を通じて適切な加重値と偏向値を確保して最後のソフトマックス関数を通じて分類しようとする根本クラスの確率を出力として確保する。「完全連結」部分は前記FCNNと同一に進行される。交差エントロピー誤差関数とアダム最適化を通じてモデルの予測とターゲットの間の差を最小化する方向に訓練を進行する。
【0071】
以上、本発明のネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法について詳細に説明したが、本発明は前述した実施例に限定されず、本発明の技術思想が許容する範囲内で多様に変形して実施することができる。