特許7587662 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ イノワイアレス　カンパニー、リミテッドの特許一覧

特許7587662ネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-12

(45)【発行日】2024-11-20

(54)【発明の名称】ネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法

(51)【国際特許分類】

H04B 17/30 20150101AFI20241113BHJP

G06N 3/047 20230101ALI20241113BHJP

【ＦＩ】

H04B17/30

G06N3/047

【請求項の数】 12

(21)【出願番号】P 2023190619

(22)【出願日】2023-11-08

(65)【公開番号】P2024070250

(43)【公開日】2024-05-22

【審査請求日】2023-11-08

(31)【優先権主張番号】10-2022-0149179

(32)【優先日】2022-11-10

(33)【優先権主張国・地域又は機関】KR

(73)【特許権者】

【識別番号】516157382

【氏名又は名称】イノワイアレスカンパニー、リミテッド

(74)【代理人】

【識別番号】100121382

【弁理士】

【氏名又は名称】山下託嗣

(72)【発明者】

【氏名】クワク，ヨンス

(72)【発明者】

【氏名】イ，ソジョン

(72)【発明者】

【氏名】クォン，ミョンミ

(72)【発明者】

【氏名】キム，ウンキュ

(72)【発明者】

【氏名】クォン，オコル

【審査官】麻生哲朗

(56)【参考文献】

【文献】国際公開第２０２１／０５９３０２（ＷＯ，Ａ２）

【文献】特開２００９－２３７９１４（ＪＰ，Ａ）

【文献】特表２０２２－５３９５７８（ＪＰ，Ａ）

【文献】中国特許出願公開第１１２１８８５３４（ＣＮ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｂ１７／３０

Ｇ０６Ｎ３／０４７

(57)【特許請求の範囲】

【請求項1】

通話区間で収集されたネットワーク通信ログデータを非時系列および時系列データに分離する（ａ）段階と、
非時系列データおよび時系列データの特定パラメータの種類によって欠測値を代替する（ｂ）段階と、
（ｂ）段階で処理されたパラメータ以外のパラメータのうち、非時系列データに対してガウス混合モデル（ＧＭＭ）を通じて欠測値を代替する（ｃ）段階と、
（ｂ）段階で処理されたパラメータ以外のパラメータのうち、時系列データに対してジョイントアプローチを通じて欠測値を代替する（ｄ）段階と、
を含んでなる、ネットワークログデータの欠測値処理方法。

【請求項2】

サービングＰＣＩ（ＳｅｒｖｉｎｇＰｈｙｓｉｃａｌＣｅｌｌＩＤ）パラメータは、このパラメータを代弁する新しいパラメータを生成して、サービングＰＣＩにデータが存在する場合には１で、データが欠測した場合には０で表記することを特徴とする、請求項１に記載のネットワークログデータの欠測値処理方法。

【請求項3】

ＲＳＲＰ（ＲｅｆｅｒｅｎｃｅＳｉｇｎａｌｓＲｅｃｅｉｖｅｄＰｏｗｅｒ）、ＲＳＲＱ（ＲｅｆｅｒｅｎｃｅＳｉｇｎａｌＲｅｃｅｉｖｅｄＱｕａｌｉｔｙ）およびＳＩＮＲ（ＳｉｇｎａｌｔｏＩｎｔｅｒｆｅｒｅｎｃｅｐｌｕｓＮｏｉｓｅＲａｔｉｏ）を含んだＲＦ関連パラメータの場合、欠測値が存在するデータサンプルがあればこれを除くことを特徴とする、請求項１に記載のネットワークログデータの欠測値処理方法。

【請求項4】

ＰＤＣＰ／ＲＬＣ要約統計（ＰａｃｋｅｔＤａｔａＣｏｎｖｅｒｇｅｎｃｅＰｒｏｔｏｃｏｌ／ＲａｄｉｏＬｉｎｋＣｏｎｔｒｏｌｓｔａｔｉｓｔｉｃｓｓｕｍｍａｒｙ）パラメータで欠測した値が０と同じ意味を有する場合、欠測値を０で代替することを特徴とする、請求項１に記載のネットワークログデータの欠測値処理方法。

【請求項5】

（ｂ）段階で処理されたパラメータ以外のパラメータは、ＰＣｅｌｌＥｓｔｉｍａｔｅｄＤｉｓｔａｎｃｅ、ＫＰＩＰＣｅｌｌＰＤＳＣＨ＆ＰＵＳＣＨＢＬＥＲ［％］、ＰＨＹＲ－ＢＬＥＲＩｎｆｏＰＤＳＣＨＴｏｔａｌＩｎｆｏＤＬＲ－ＢＬＥＲ［％］およびＴｏｔａｌＩｎｆｏＰＨＹＲ－ＢＬＥＲＩｎｆｏＰＵＳＣＨＵＬＲ－ＢＬＥＲ［％］を含むことを特徴とする、請求項１に記載のネットワークログデータの欠測値処理方法。

【請求項6】

（ｃ）段階は、非時系列データを欠測値がないデータセット（Ｄ_ｙ：無欠測値データセット）と欠測値があるデータセット（Ｄ_ｎ：有欠測値データセット）に分ける（ｃ１）段階と、
無欠測値データセット（Ｄ_ｙ）をＧＭＭ基盤のＥＭアルゴリズムを通じてクラスタリングし、各クラスタの中心を求めてユークリッド距離が最も近いクラスタに各インスタンスを割り当てる（ｃ２）段階と、
（ｃ２）段階のクラスタリング結果に基づいて有欠測値データセット（Ｄ_ｎ）をクラスタリングした後、各インスタンスのクラスタを探す（ｃ３）段階と、
（ｃ３）段階で探した各クラスタでユークリッド距離を基準として欠測値を有したインスタンスと最も近い完全インスタンスを探す（ｃ４）段階と、
（ｃ４）段階で探した完全インスタンスの平均値で欠測値を代替する（ｃ５）段階と、
を含んでなる、請求項１に記載のネットワークログデータの欠測値処理方法。

【請求項7】

（ｄ）段階は、欠測値が存在する既存時系列データを再構成する過程の損失値と欠測値をランダムに代替した時に発生する損失値を最小化するように、反復訓練する過程を通じて二つの前記損失値が最小化される方向に欠測値を代替することを特徴とする、請求項１に記載のネットワークログデータの欠測値処理方法。

【請求項8】

欠測値が存在する既存時系列データでランダムに所定比率のデータを人為的にマスクして仮想の欠測値を生成する（ｄ１）段階と、
代替モデルがすべての欠測値を代替した後、ＭＡＥ（ｍｅａｎａｂｓｏｌｕｔｅｅｒｒｏｒ）で人為的に生成された前記欠測値と代替値の間の代替損失値を計算する（ｄ２）段階と、
既存データに存在する観測データを、モデリングプロセッシングを通じて再構成し、観測データと再構成されたデータの間の差をＭＡＥで計算して損失値を求める（ｄ３）段階と、
を含んでなることを特徴とする、請求項７に記載のネットワークログデータの欠測値処理方法。

【請求項9】

人為的に生成された前記欠測値を認知するために人為的にマスクされた値を１で、その他のすべての他の値を０で表記するインジケーティングマスク（ＩｎｄｉｃａｔｉｎｇＭａｓｋ）を活用することを特徴とする、請求項８に記載のネットワークログデータの欠測値処理方法。

【請求項10】

前記代替モデルとして、時系列データの全体的なデータの流れを考慮できる自己回帰（ａｕｔｏｒｅｇｒｅｓｓｉｖｅ）モデルに基づいて構成されたＬＡＴＣ（Ｌｏｗ－ＲａｎｋＡｕｔｏｒｅｇｒｅｓｓｉｖｅＴｅｎｓｏｒＣｏｍｐｌｅｔｉｏｎ）が適用され、この過程で多変量時系列データを３次元のテンソル（ｔｅｎｓｏｒ）に変換して自己回帰モデルに適用することを特徴とする、請求項９に記載のネットワークログデータの欠測値処理方法。

【請求項11】

請求項６に記載された方法によって欠測値が代替された非時系列データでＦＣＮＮ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＮｅｕｒａｌＮｅｔｗｏｒｋ）を学習させて最適なパラメータを備えたモデルを確保した後、これを通じて非時系列データに対する欠陥の根本を分類する、ネットワークログデータの欠測値処理を通じての欠陥の根本分類方法。

【請求項12】

請求項７に記載された方法によって欠測値が代替された時系列データで１Ｄ－ＣＮＮ（１－ＤｉｍｅｎｓｉｏｎａｌＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を学習させて最適なパラメータを備えたモデルを確保した後、これを通じて時系列データに対する欠陥の根本を分類するネットワークログデータの欠測値処理を通じての欠陥の根本分類方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法に関し、特に欠測値が存在するパラメータの特性に合わせて適切な代替値を求めて完全なデータセットを確保した状態で、マシンラーニングやディープラーニング技術を活用してネットワーク環境で発生する多様な欠陥の根本を分析できるようにしたネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法に関する。

【背景技術】

【0002】

ＲｏｏｔＣａｕｓｅＡｎａｌｙｓｉｓ（ＲＣＡ）は、ネットワーク通信欠陥の根本原因（ｒｏｏｔｃａｕｓｅ：以下、簡単に「根本」という）を判別して、ネットワーク事業者がネットワーク最適化を実行するのに必要な情報を提供する。既存のＲＣＡ技術では、通話（ｃａｌｌ）状態で多様なネットワークパラメータを測定し、このように測定された値と種々のパラメータ間の相関性に基づいて専門家が設定するロジックを通じて欠陥の根本を判別するので、多くの限界点が存在する。

【0003】

具体的には、既存の根本判別方式は、欠陥が発生した通話区間（通話時間）に測定されたパラメータ値を人が設定したロジックのしきい値（ｔｈｒｅｓｈｏｌｄ）と比較して該当欠陥の根本を判別する。まず、欠陥を広い範囲のＲＣＡカテゴリーに分類した後、各ＲＣＡカテゴリーの原因（ｒｅａｓｏｎｇｒｏｕｐ）に分け、測定されたデータを該当ロジックのしきい値と比較して該当する根本カテゴリーに細分化する。このような既存の方式には次のような限界が存在する。

【0004】

まず、通信ネットワーク内の多様な原因によってネットワーク環境を表現するパラメータデータに欠測値が存在し、多様なケースが十分に考慮されていないためロジックに限界が存在する可能性が高い。

【0005】

また、ロジックを設定する過程とロジックを通じて判別する過程ですべて制限されたデータのみを活用すると、結局欠陥の根本を区分できずに「未知（ｕｎｋｎｏｗｎ）」と判別してしまう問題が発生する。このため、完全なデータが与えられなくても多様なケースを考慮して既存のロジックの限界を補完する方法が必要である。

【0006】

その他にも、人が設定したロジックは、欠陥が発生したネットワーク環境を見る専門家の観点に限定され得る。既存のロジックで、各根本の要因として指定されたパラメータの関係としきい値の他にも、根本を判別できる他の要因が存在したりしきい値の調整が必要であり得る。例えば、既存のロジックでは根本が「未知」と判別されたケースも、適切なしきい値の調整を通じて最も近い根本に分類され得るであろう。

【0007】

また、設計されたロジックで特定の根本を分類するためには、ネットワークパラメータを測定した値の形態をそのまま使用できず、順序型または範疇型の形態にデータを変換させなければならない場合がある。このような場合、データ値をそのまま使った場合には、特定の根本の要因として感知できるパラメータ間の相互関係を認知できない場合があり得る。

【0008】

これを補完するために、膨大な測定データを基盤としたマシンラーニング（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）やディープラーニング（ｄｅｅｐｌｅａｒｎｉｎｇ）を活用して、多様なパラメータ間の相関性を認識して欠陥の根本を判別する技術が提示されている。

【0009】

その他にも、現実的にフィールドで収集される完全でないデータセットの問題を解決する方案も提示されている。例えば、データセットに欠測値が存在するとの問題は、たびたび発生する主要な限界であって、欠陥の根本を分類するのに多くの困難な点を発生させる。

【0010】

具体的には、ＲＣＡに使われるネットワーク通信ログデータには、多様な技術的または環境的な理由によって特定パラメータが測定できないため欠測した欠測値が存在するが、欠測値の類型としては大きく三つが存在する。最も発生範囲が広い欠測値データの類型として、ランダムな欠測（ＭＡＲ：ＭｉｓｓｉｎｇａｔＲａｎｄｏｍ）がある。この類型は、欠測値データが全体で占める比率がデータセットの観測（ｏｂｓｅｒｖｅｄ）データと関連性がある場合である。すなわち、ある特定パラメータに対して欠測した欠測値が存在する場合がデータセット内の他のパラメータと関連がある場合である。

【0011】

ランダムな欠測と反対の類型として、ランダムではない欠測（ＭＮＡＲ：ＭｉｓｓｉｎｇＮｏｔａｔＲａｎｄｏｍ）がある。この類型は、欠測した欠測値が無作為で発生するのではない、欠測したパラメータ値が欠測した理由と関連がある場合を意味する。最後の類型である完全にランダムな欠測（ＭＣＡＲ：ＭｉｓｓｉｎｇＣｏｍｐｌｅｔｅｌｙａｔＲａｎｄｏｍ）は、欠測値が全体で占める比率が他のデータと何の関連もない場合である。この類型は任意のパラメータがデータセット全体に亘って無作為に欠測した場合であり、パラメータの種類および値にかかわらず、類似した分布でデータが欠測した場合である。

【0012】

一方、ＲＣＡ分析にマシンラーニングやディープラーニングアルゴリズムを適用するためには、欠測値データの適切な処理を実行しなければならない。一般に、欠測値を処理する方式は、二つに大別される。一つは、欠測値が存在する不完全なパラメータまたはサンプルを除去するか、または、適切な値で欠測値を代替することである。ＭＣＡＲの場合には、欠測値が発生したパラメータまたはデータサンプルを削除して完全なデータセットを確保することができるが、ＭＡＲまたはＭＮＡＲの場合には欠測値の置き換えが必要である。

【0013】

このように、ＭＡＲまたはＮＭＡＲの場合、パラメータまたはサンプルを除去する方式は、データ内の情報を部分的に失うようにさせて一側に偏った分析結果を招き得る危険があるため、データセット内の観測データに基づいて欠測値を推定する多様な方法が開発されている。

【先行技術文献】

【特許文献】

【0014】

【文献】韓国特許公開第１０－２０２１－１０１５５７号公報（発明の名称：油井ログデータの欠測区間推定方法およびその装置）

【文献】韓国登録特許第１０－２０５９１１２号公報（発明の名称：事物インターネットストリームデータ品質測定指標およびプロファイリング方法およびそのシステム）

【文献】韓国特許公開第１０－２０１５－３８９０５号公報（発明の名称：データ前処理装置および方法）

【発明の概要】

【発明が解決しようとする課題】

【0015】

本発明は、前述した問題点を解決するために創出されたもので、欠測値が存在するパラメータの特性に合わせて適切な代替値を求めて完全なデータセットを確保した状態で、マシンラーニングやディープラーニング技術を活用してネットワーク環境で発生する多様な欠陥の根本を分析できるようにした、ネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法を提供することを目的とする。

【課題を解決するための手段】

【0016】

前述した目的を達成するための本発明のネットワークログデータの欠測値処理方法は、通話区間で収集されたネットワーク通信ログデータを非時系列および時系列データに分離する（ａ）段階と、非時系列データおよび時系列データの特定パラメータ種類によって欠測値を代替する（ｂ）段階と、（ｂ）段階で処理されたパラメータ以外のパラメータのうち、非時系列データに対してガウス混合モデル（ＧＭＭ）を通じて欠測値を代替する（ｃ）段階と、（ｂ）段階で処理されたパラメータ以外のパラメータのうち、時系列データに対してジョイントアプローチを通じて欠測値を代替する（ｄ）段階と、を含んでなる。

【0017】

前述した構成で、サービングＰＣＩ（ＳｅｒｖｉｎｇＰｈｙｓｉｃａｌＣｅｌｌＩＤ）パラメータは、このパラメータを代弁する新しいパラメータを生成して、サービングＰＣＩにデータが存在する場合には１で、データが欠測した場合には０で表記する。

【0018】

【0019】

ＰＤＣＰ／ＲＬＣ要約統計（ＰａｃｋｅｔＤａｔａＣｏｎｖｅｒｇｅｎｃｅＰｒｏｔｏｃｏｌ／ＲａｄｉｏＬｉｎｋＣｏｎｔｒｏｌｓｔａｔｉｓｔｉｃｓｓｕｍｍａｒｙ）パラメータで欠測した値が０と同じ意味を有する場合、欠測値を０で代替する。

【0020】

【0021】

（ｃ）段階は、非時系列データを欠測値がないデータセット（Ｄ_ｙ：無欠測値データセット）と欠測値があるデータセット（Ｄ_ｎ：有欠測値データセット）に分ける（ｃ１）段階と、無欠測値データセット（Ｄ_ｙ）をＧＭＭ基盤のＥＭアルゴリズムを通じてクラスタリングし、各クラスタの中心を求めてユークリッド距離が最も近いクラスタに各インスタンスを割り当てる（ｃ２）段階と、（ｃ２）段階のクラスタリング結果に基づいて有欠測値データセット（Ｄ_ｎ）をクラスタリングした後、各インスタンスのクラスタを探す（ｃ３）段階と、（ｃ３）段階で探した各クラスタでユークリッド距離を基準として欠測値を有したインスタンスと最も近い完全インスタンスを探す（ｃ４）段階と、（ｃ４）段階で探した完全インスタンスの平均値で欠測値を代替する（ｃ５）段階を含んでなる。

【0022】

（ｄ）段階は、欠測値が存在する既存時系列データを再構成する過程の損失値と欠測値をランダムに代替した時に発生する損失値を最小化するように、反復訓練する過程を通じて二つの損失値が最小化される方向に欠測値を代替する。

【0023】

欠測値が存在する既存時系列データでランダムに所定比率のデータを人為的にマスクして仮想の欠測値を生成する（ｄ１）段階と、代替モデルがすべての欠測値を代替した後、ＭＡＥ（ｍｅａｎａｂｓｏｌｕｔｅｅｒｒｏｒ）で人為的に生成された前記欠測値と代替値の間の代替損失値を計算する（ｄ２）段階と、既存データに存在する観測データを、モデリングプロセッシングを通じて再構成し、観測データと再構成されたデータの間の差をＭＡＥで計算して損失値を求める（ｄ３）段階と、を含んでなる。

【0024】

人為的に生成された前記欠測値を認知するために、人為的にマスクされた値を１で、その他のすべての他の値を０で表記するインジケーティングマスク（ＩｎｄｉｃａｔｉｎｇＭａｓｋ）を活用する。

【0025】

前記代替モデルとしては時系列データの全体的なデータの流れを考慮できる自己回帰（ａｕｔｏｒｅｇｒｅｓｓｉｖｅ）モデルに基づいて構成されたＬＡＴＣ（Ｌｏｗ－ＲａｎｋＡｕｔｏｒｅｇｒｅｓｓｉｖｅＴｅｎｓｏｒＣｏｍｐｌｅｔｉｏｎ）が適用され、この過程で多変量時系列データを３次元のテンソル（ｔｅｎｓｏｒ）に変換して自己回帰モデルに適用する。

【0026】

前述した通り、欠測値が代替された非時系列データでＦＣＮＮ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＮｅｕｒａｌＮｅｔｗｏｒｋ）を学習させて最適なパラメータを備えたモデルを確保した後、これを通じて非時系列データに対する欠陥の根本を分類する。

【0027】

前述した通り、欠測値が代替された時系列データで１Ｄ－ＣＮＮ（１－ＤｉｍｅｎｓｉｏｎａｌＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を学習させて最適なパラメータを備えたモデルを確保した後、これを通じて時系列データに対する欠陥の根本を分類する。

【発明の効果】

【0028】

本発明のネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法によると、ネットワークログデータに対して適切なデータ前処理を進めてその限界点を補完し、膨大な量のデータの学習を実行したディープラーニングアルゴリズムを通じて通信欠陥の多様な根本を判別することによって、従来欠測値の比重が大きいため欠陥と判定されたネットワークログデータで根本が明確に判別できない場合を顕著に減少させることができる。

【図面の簡単な説明】

【0029】

【図1】本発明のネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法の全体的なフローチャートである。

【図2】本発明の方法で非時系列的データの欠測値代替過程を説明するためのフローチャートである。

【図3】本発明の方法でジョイントアプローチ基盤の時系列データの欠測値代替過程を説明するためのシーケンスチャートである。

【図4】本発明のネットワークログデータの欠測値処理およびこれを通じての欠陥の根本分類方法で非時系列的データ学習過程を説明するためのフローチャートである。

【図5】本発明のネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法で時系列データ学習過程を説明するためのフローチャートである。

【発明を実施するための形態】

【0030】

以下では、添付した図面を参照して本発明のネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法の好ましい実施例について詳細に説明する。

【0031】

本発明は、ネットワーク環境を測定したデータセットの欠測値問題を補完してディープラーニングアルゴリズムを学習させてパラメータ間の多次元（ｍｕｌｔｉ－ｄｉｍｅｎｓｉｏｎａｌ）の関係を把握し、根本の分類問題を解決することが目的である。欠測値問題を解決するために、データセットまたは各パラメータの特性に合う適切な値で欠測値を代替する。

【0032】

以後、このように改善されたデータセットに対して教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）方式でディープラーニングアルゴリズムを学習させ、学習されたアルゴリズムを通じて根本を分類する多重クラス分類モデル（ｍｕｌｔｉｃｌａｓｓｃｌａｓｓｉｆｉｃａｔｉｏｎｍｏｄｅｌ）を確保することができる。大量のデータで訓練して非常に多様なパターンを学習した場合、前記モデルが種々のネットワークパラメータ間の多次元関係を認識し、これに基づいて既存のロジックでは分類することが困難であった欠陥の根本も判別することができる。

【0033】

以下、本発明で使われる用語について概略的に説明する。

【0034】

インピュテーション（Ｉｍｐｕｔａｔｉｏｎ）：欠測値の代替を意味する。マシンラーニング学習でデータを使うためには、欠測値が特定値で代替されなければならない。データセットで欠測値が発生する原因または欠測値の比重によって欠測の類型を判断でき、このような欠測値の特性を把握して適切な代替値を設定しなければならない。

【0035】

ガウス混合（Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅ）：ｋ個のガウス分布（Ｇａｕｓｓｉａｎｄｉｓｔｒｉｂｕｔｉｏｎ）を有する混合である。ｋ個のクラスタ（ｃｌｕｓｔｅｒ）に分類できるデータセットの特性を分析する時に活用することができる。それぞれのガウス分布は、クラスタの中心を意味する平均（ｍｅａｎ）、分布の幅（ｗｉｄｔｈ）を意味する共分散（ｃｏｖａｒｉａｎｃｅ）、およびガウス関数がどれほど大きいか小さいかを意味する混合確率（ｍｉｘｉｎｇｐｒｏｂａｂｉｌｉｔｙ）で表現される。

【0036】

ガウス混合モデル（ＧＭＭ；ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）：データの確率分布（ｐｒｏｂａｂｉｌｉｔｙｄｉｓｔｒｉｂｕｔｉｏｎ）に基づいて、データをそれぞれのカテゴリーに分類できるマシンラーニングアルゴリズムの中の一つである。期待（ｅｘｐｅｃｔａｔｉｏｎ）と最大化（ｍａｘｉｍｉｚａｔｉｏｎ）からなる反復（ｉｔｅｒａｔｉｖｅ）方式のＥＭ（Ｅｘｐｅｃｔａｔｉｏｎ－Ｍａｘｉｍｉｚａｔｉｏｎ）アルゴリズムを通じて最適なＧＭＭパラメータを探すことができる。

【0037】

ＦＣＮＮ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＮｅｕｒａｌＮｅｔｗｏｒｋ）：ニューラルネットワーク（ｎｅｕｒａｌｎｅｔｗｏｒｋ）を構成するレイヤ（ｌａｙｅｒ）の連結方式が「緻密」な（ｄｅｎｓｅ）形態のニューラルネットワークである。すなわち、それぞれのレイヤを構成するニューロンがすべて連結されているニューラルネットワークである。

【0038】

１Ｄ－ＣＮＮ（１－ＤｉｍｅｎｓｉｏｎａｌＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）：１次元の畳み込み層（ｃｏｎｖｏｌｕｔｉｏｎａｌｌａｙｅｒ）を通じてデータの特徴（ｆｅａｔｕｒｅ）を抽出するニューラルネットワークである。ニューラルネットワークが学習するデータの形態がシーケンスや自然語のように時系列データで１次元である場合にデータの特性を抽出するのに適合である。

【0039】

図１は、本発明のネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法の全体的なフローチャートであり、前処理を通じてのデータセットの補完と根本分類のための教師あり学習アルゴリズム訓練を進行する全体的な過程を示している。

【0040】

図１に図示した通り、本発明のネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法によると、まず段階Ｓ１００で、欠陥の根本を選別するために活用される通話区間（通話時間）のネットワークログデータを非時系列データと時系列データに分ける。

【0041】

非時系列データの場合、一つの根本は、一つの特徴セット（ｓｅｔｏｆｆｅａｔｕｒｅｓ）関数であるＦ＝｛ｆｅａｔｕｒｅ_１、ｆｅａｔｕｒｅ_２、・・・、ｆｅａｔｕｒｅ_ｎ｝に区分される。一方、時系列データの場合、一つの根本を判別する特徴がそれぞれ時間間隔（ｔｉｍｅｉｎｔｅｒｖａｌ）と同じ長さのシーケンスである。非時系列データと時系列データの例示はそれぞれ下記の表１および表２の通りである。

【0042】

【表1】

【0043】

【表2】

【0044】

次に、段階Ｓ２００で、非時系列データと時系列データのそれぞれのパラメータ別に適切な根拠に基づいてその欠測値を処理する。

【0045】

例えば、サービングＰＣＩ（ＳｅｒｖｉｎｇＰｈｙｓｉｃａｌＣｅｌｌＩＤ）パラメータは、値そのものより値の存在の有無のみが意味を有するため、このパラメータを代弁する新しいパラメータを生成して、サービングＰＣＩにデータが存在する場合には１で、データが欠測した場合には０で表記する。

【0046】

ＲＳＲＰ（ＲｅｆｅｒｅｎｃｅＳｉｇｎａｌｓＲｅｃｅｉｖｅｄＰｏｗｅｒ）、ＲＳＲＱ（ＲｅｆｅｒｅｎｃｅＳｉｇｎａｌＲｅｃｅｉｖｅｄＱｕａｌｉｔｙ）またはＳＩＮＲ（ＳｉｇｎａｌｔｏＩｎｔｅｒｆｅｒｅｎｃｅｐｌｕｓＮｏｉｓｅＲａｔｉｏ）のような、通信環境の状態を知らせるＲＦ関連パラメータは、通信環境を表現する敏感なパラメータであるため。欠測値が存在するデータサンプルがあればこれを除く。

【0047】

ＰＤＣＰ／ＲＬＣ要約統計（ＰａｃｋｅｔＤａｔａＣｏｎｖｅｒｇｅｎｃｅＰｒｏｔｏｃｏｌ／ＲａｄｉｏＬｉｎｋＣｏｎｔｒｏｌｓｔａｔｉｓｔｉｃｓｓｕｍｍａｒｙ）のように、欠測した値が０と同じ意味を有する場合、欠測値を０で代替する。

【0048】

そして、前述したパラメータ別条件に該当しないパラメータ（例えば、ＰＣｅｌｌＥｓｔｉｍａｔｅｄＤｉｓｔａｎｃｅ、ＫＰＩＰＣｅｌｌＰＤＳＣＨ＆ＰＵＳＣＨＢＬＥＲ［％］、ＰＨＹＲ－ＢＬＥＲＩｎｆｏＰＤＳＣＨＴｏｔａｌＩｎｆｏＤＬＲ－ＢＬＥＲ［％］、ＴｏｔａｌＩｎｆｏＰＨＹＲ－ＢＬＥＲＩｎｆｏＰＵＳＣＨＵＬＲ－ＢＬＥＲ［％］など）は、段階Ｓ３００および段階Ｓ５００のように、非時系列データと時系列データに分けてそれぞれの代替技法を適用する。

【0049】

まず、非時系列データは、データセット内の観測データに基づいて代替値を生成するが、例えばガウス混合モデル（ＧＭＭ）を通じて観測データのクラスタリングに基づいて欠測値の代替値を探す。図２は、本発明の方法で非時系列的データの欠測値代替過程を説明するためのフローチャートである。

【0050】

まず、段階Ｓ３１０で、データセットを欠測値がないデータセット（Ｄ_ｙ：無欠測値データセット）と欠測値があるデータセット（Ｄ_ｎ：有欠測値データセット）に分ける。

【0051】

次に、段階Ｓ３２０で、無欠測値データセット（Ｄ_ｙ）をＧＭＭ基盤のＥＭアルゴリズムを通じてクラスタリングし、各クラスタの中心（ｃｅｎｔｅｒ）を求めてユークリッド距離（Ｅｕｃｌｉｄｅａｎｄｉｓｔａｎｃｅ）が最も近いクラスタに各インスタンス（ｉｎｓｔａｎｃｅ）を割り当てる。

【0052】

次に、段階Ｓ３３０で、段階Ｓ３２０のクラスタリング結果に基づいて有欠測値データセット（Ｄ_ｎ）をクラスタリングした後、各インスタンスのクラスタを探す。

【0053】

次に、段階Ｓ３４０で、各クラスタでユークリッド距離を基準として欠測値を有したインスタンスと最も近い完全インスタンス（欠測値がない観測インスタンス）を探す。

【0054】

最後に、段階Ｓ３５０で、段階Ｓ３４０で探した完全インスタンスの平均値（ｍｅａｎ）で欠測値を代替する。

【0055】

再び図１に戻って、段階Ｓ５００で、ジョイントアプローチ（Ｊｏｉｎｔ－ａｐｐｒｏａｃｈ）基盤で時系列データを代替するが、存在するデータを「再構成」（ｒｅｃｏｎｓｔｒｕｃｔ）する過程の損失値と欠測値をランダムに代替した時に発生する損失値を最小化するように、反復的な訓練過程を通じて二つの損失値を最小化する方向に欠測値を代替する。

【0056】

図３は、本発明でジョイントアプローチ基盤の時系列データの欠測値代替過程を説明するためのシーケンスチャートであるところ、二つの訓練方式で構成されている。

【0057】

まず、欠測値が存在する既存時系列データでランダムに所定比率、例えば２０％程度のデータを人為的にマスク（ａｒｔｉｆｉｃｉａｌｌｙｍａｓｋ）して仮想の欠測値を生成する。図３において、既存データには存在するが人為的なマスクで欠測値に変わったデータは緑色（太線）で表示される。代替モデルがすべての欠測値を代替するが、この時、ＭＡＥ（ｍｅａｎａｂｓｏｌｕｔｅｅｒｒｏｒ）で人為的に生成された欠測値と代替値の間の代替損失率を計算する（Ａ過程）。人為的にマスクされた値を認知するために人為的マスクで遮られた値を１で、その他のすべての他の値を０で表記するインジケーティングマスク（ＩｎｄｉｃａｔｉｎｇＭａｓｋ）を活用する。

【0058】

既存データに存在する観測データをモデリングプロセッシングを通じて再構成（ｒｅｃｏｎｓｔｒｕｃｔ）する。元の観測データと再構成されたデータの間の差をＭＡＥで計算して損失値を求める（Ｂ過程）。

【0059】

前記Ａ過程とＢ過程はそれぞれの役割が異なる。Ａ過程はモデルが欠測値に最も適切な値を探すように方向を導き、Ｂ過程は代替値を探すモデルが既存観測データの分布に収束するように方向を導く。図３において青色で表示された「代替モデル（ＩｍｐｕｔａｔｉｏｎＭｏｄｅｌ）」としては、時系列欠測値を代替するモデルが多様に適用され得る。

【0060】

例えば、時系列データの全体的なデータの流れを考慮できる自己回帰（ａｕｔｏｒｅｇｒｅｓｓｉｖｅ）モデルに基づいて構成されたＬＡＴＣ（Ｌｏｗ－ＲａｎｋＡｕｔｏｒｅｇｒｅｓｓｉｖｅＴｅｎｓｏｒＣｏｍｐｌｅｔｉｏｎ）が適用され得るが、この過程で多変量時系列データを３次元のテンソル（ｔｅｎｓｏｒ）に変換して自己回帰モデルに適用する。

【0061】

次に、段階Ｓ３００および段階Ｓ５００を通じて前処理された、すなわち欠測値問題が補完されたデータセットが確保された状態で、段階Ｓ４００および段階Ｓ６００で、ディープラーニングアルゴリズムを活用して欠陥の根本を分類する。

【0062】

具体的には、非時系列データセットと時系列データセットそれぞれのデータ形態に適合なディープラーニングアルゴリズムを訓練させるが、各データセットを訓練（ｔｒａｉｎ）、検証（ｖａｌｉｄａｔｉｏｎ）およびテスト（ｔｅｓｔ）に分けて多数のエポック（ｅｐｏｃｈ）が反復される間、訓練および検証データセットでアルゴリズムの訓練と検証を進行する。反復的な訓練と検証を通じてニューラルネットワークのハイパーパラメータを調整（ｔｕｎｉｎｇ）し、最適なパラメータを備えたモデルを確保する。

【0063】

最後のモデルの根本分類性能は、テストデータで分類して正確度（ａｃｃｕｒａｃｙ）、再現率（ｒｅｃａｌｌ）および精密度（ｐｒｅｃｉｓｉｏｎ）のような指標で確認する。各データセットに適合なディープラーニングニューラルネットワークは次の通りである。

【0064】

図４は、本発明のネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法で非時系列的データ学習過程を説明するためのフローチャートである。図４に図示した通り、まず、非時系列データでＦＣＮＮ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＮｅｕｒａｌＮｅｔｗｏｒｋ）を学習させる。ＦＣＮＮは、ＡＮＮ（ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）の一種で、ＭＬＰ（ｍｕｌｔｉ－ｌａｙｅｒｐｅｒｃｅｐｔｒｏｎ）のように、多数個の隠れ層（ｈｉｄｄｅｎｌａｙｅｒ）がニューラルネットワークの入力と出力の間を形成し、各レイヤを構成するニューロンがすべて連結されている。

【0065】

このように緻密なニューラルネットワークで、過剰適合（ｏｖｅｒｆｉｔｔｉｎｇ）が発生することを防止するために、ドロップアウト（ｄｒｏｐｏｕｔ）と配置正規化（ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ）を隠れ層に追加してニューラルネットワークを形成する。それぞれの隠れ層では、入力または以前のレイヤで伝達されるデータに指定する重み（ｗｅｉｇｈｔｓ）と偏り（ｂｉａｓ）を設定して、活性化関数を通じてスケール（ｓｃａｌｅ）した後、出力または次のレイヤに伝達する。

【0066】

最後の出力は、ソフトマックス（ｓｏｆｔｍａｘ）関数を通じて各ターゲットクラス（ｔａｒｇｅｔｃｌａｓｓ）別確率を求める。多重クラス分類（Ｍｕｌｔｉｃｌａｓｓｃｌａｓｓｉｆｉｃａｔｉｏｎ）の問題であるので、モデルの予測とターゲットクラス（すなわち、正解）の間の差を、交差エントロピー誤差（ＣｒｏｓｓＥｎｔｒｏｐｙＬｏｓｓ）関数を通じて求め、アダム最適化（Ａｄａｍｏｐｔｉｍｉｚｅｒ）を通じて損失を最小化する方向に訓練を進行する。この過程で指定したエポック回数に到達し、指定した反復回数の間持続的に最小損失値が確認されるのであれば訓練を終了する。

【0067】

図５は、本発明のネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法で時系列データ学習過程を説明するためのフローチャートである。図５に図示した通り、時系列データで１Ｄ－ＣＮＮ（１－ＤｉｍｅｎｓｉｏｎａｌＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を学習させる。１Ｄ－ＣＮＮ時系列分類を実現する方法は、大きく二つのステージ（ｓｔａｇｅ）で実現されるが、第１ステージでは、分類しようとする時系列の差を測定しデータを特徴ベクトル（ｆｅａｔｕｒｅｖｅｃｔｏｒｓ）に変換させる。

【0068】

次に、第２ステージでは、分類作業を実行する。ここで使用できるアルゴリズムは、主要マシンラーニングアルゴリズムであるｋ近傍法（ｋ－ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｓ）アルゴリズムやＳＶＭアルゴリズムからディープラーニングニューラルネットワークまで非常に多様である。

【0069】

１Ｄ－ＣＮＮ分類モデルの全般的な構造は次の通りである。

【0070】

時系列データ内のパターンを特徴として抽出する畳み込み層（ｃｏｎｖｏｌｕｔｉｏｎａｌｌａｙｅｒ）と抽出した特徴をベクトルで圧縮するマックスプーリング（ｍａｘｐｏｏｌｉｎｇ）段階を経る。その後、抽出および精製された特徴ベクトルを分類作業ができる完全連結階層（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）に入力する。完全連結階層を通じて適切な加重値と偏向値を確保して最後のソフトマックス関数を通じて分類しようとする根本クラスの確率を出力として確保する。「完全連結」部分は前記ＦＣＮＮと同一に進行される。交差エントロピー誤差関数とアダム最適化を通じてモデルの予測とターゲットの間の差を最小化する方向に訓練を進行する。

【0071】

以上、本発明のネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法について詳細に説明したが、本発明は前述した実施例に限定されず、本発明の技術思想が許容する範囲内で多様に変形して実施することができる。

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版