特開2024-178731 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人　東京大学の特許一覧

特開2024-178731ネットワーク障害箇所特定装置、ネットワーク障害箇所特定方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024178731

(43)【公開日】2024-12-25

(54)【発明の名称】ネットワーク障害箇所特定装置、ネットワーク障害箇所特定方法、及びプログラム

(51)【国際特許分類】

H04L 43/10 20220101AFI20241218BHJP

H04L 43/0811 20220101ALI20241218BHJP

【ＦＩ】

H04L43/10

H04L43/0811

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2023097100

(22)【出願日】2023-06-13

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(71)【出願人】

【識別番号】504137912

【氏名又は名称】国立大学法人東京大学

(74)【代理人】

【識別番号】110004381

【氏名又は名称】弁理士法人ＩＴＯＨ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100124844

【弁理士】

【氏名又は名称】石原隆治

(72)【発明者】

【氏名】池内光希

(72)【発明者】

【氏名】斎藤洋

(57)【要約】

【課題】ネットワーク構成要素が確率的な挙動を示す状況下において限られた回数の測定でできるだけ正確に障害箇所を特定する。
【解決手段】確率的に疎通状態が変動するネットワーク構成要素を有する対象ネットワークの障害箇所を特定するためのネットワーク障害箇所特定装置であって、確率値で表されるネットワーク状態の候補を事前に削減する状態数削減部と、前記状態数削減部により削減が行われたネットワーク状態の候補に基づいて、前記対象ネットワークに対して実行すべき最適なパス測定のテストを算出するテスト最適化部と、前記対象ネットワークに対してテストを実行するテスト実行部と、前記テスト実行部によるテストの結果に応じてネットワーク状態を絞り込むテスト結果分析部とを備える。
【選択図】図４

【特許請求の範囲】

【請求項1】

確率的に疎通状態が変動するネットワーク構成要素を有する対象ネットワークの障害箇所を特定するためのネットワーク障害箇所特定装置であって、
確率値で表されるネットワーク状態の候補を事前に削減する状態数削減部と、
前記状態数削減部により削減が行われたネットワーク状態の候補に基づいて、前記対象ネットワークに対して実行すべき最適なパス測定のテストを算出するテスト最適化部と、
前記対象ネットワークに対してテストを実行するテスト実行部と、
前記テスト実行部によるテストの結果に応じてネットワーク状態を絞り込むテスト結果分析部と
を備えるネットワーク障害箇所特定装置。

【請求項2】

前記ネットワーク状態は、前記ネットワーク構成要素における疎通確率を用いて表される
請求項１に記載のネットワーク障害箇所特定装置。

【請求項3】

前記状態数削減部は、ある計測の実行結果を表す確率変数とネットワーク状態を表す確率変数との間の相互情報量を、近似的又は厳密に最大化するような計測を含むテストを前記テスト実行部により実際に実施し、そのテストの結果に基づいて計算される事後分布に基づいて、ネットワーク状態の削減を行う
請求項１に記載のネットワーク障害箇所特定装置。

【請求項4】

確率的に疎通状態が変動するネットワーク構成要素を有する対象ネットワークの障害箇所を特定するためのネットワーク障害箇所特定装置が実行するネットワーク障害箇所特定方法であって、
確率値で表されるネットワーク状態の候補を事前に削減する状態数削減ステップと、
前記状態数削減ステップにより削減が行われたネットワーク状態の候補に基づいて、前記対象ネットワークに対して実行すべき最適なパス測定のテストを算出するテスト最適化ステップと、
前記対象ネットワークに対してテストを実行するテスト実行ステップと
前記テスト実行ステップによるテストの結果に応じてネットワーク状態を絞り込むテスト結果分析ステップと
を備えるネットワーク障害箇所特定方法。

【請求項5】

コンピュータを、請求項１ないし３のうちいずれか１項に記載のネットワーク障害箇所特定装置における各部として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ネットワークにおける障害箇所を特定するための技術に関連するものである。

【背景技術】

【0002】

以下の説明において、参考文献については、［１］などのように番号で記載し、番号に対応する文献名を明細書の最後に記載した。

【0003】

近年、通信ネットワークの内部状態を把握するための手段として「ネットワークトモグラフィー」が注目されている。ネットワークトモグラフィーでは、限られたｅｎｄ－ｔｏ－ｅｎｄのトラヒック計測値を基に、ネットワーク構成要素であるリンクやノードのレベルで、遅延、パケット損失、輻輳、障害などの特性を推定することができる。

【0004】

近年の複雑なＩＣＴシステムでは、デバイス単位で監視してもアラームが発生しないようなサイレント障害や、デバイス層のログに現れないソフトウェア由来の障害など、特定・局在化が困難な障害が数多く存在する。このような状況において、ｅｎｄ－ｔｏ－ｅｎｄの実測結果に基づくネットワークトモグラフィーでは、異常を正確に検知・特定することができ、ネットワーク運用の品質と安定性を大きく向上させることができる。

【0005】

特に、各ネットワーク構成要素（ノード、リンク）のバイナリ状態（障害がある／ない）を推定するものは、バイナリネットワークトモグラフィーとも呼ばれ、盛んに研究されている［１］。

【0006】

ネットワークトモグラフィーにおいては、環境が確率的な振る舞いを見せる状況を想定することが重要である。実際、負荷分散メカニズムや、ウェイトが等しいパスに分散してトラヒックを送るＥＣＭＰなどのプロトコルにおいては、ルーティングが確率的に振る舞う状況が生ずる。また、正常状態であっても確率的に疎通が失敗してしまったり、断続的に不通が顕在化する間欠故障が発生したりするなど、ルーティングの他にもネットワーク構成要素単位で確率的な挙動を示す。

【0007】

確率環境下におけるネットワークトモグラフィーについても、少数ではあるが既存手法が存在する。特に、非特許文献１（参考文献［２］）には、確率ルーティング下において限られた回数のパス測定でできるだけ正確に障害箇所を特定するために、相互情報量が大きい、すなわち障害箇所が最も絞り込めると見込めるパス測定を優先的に実施し、ベイズ推定の枠組みに沿ってネットワーク構成要素のバイナリ状態を推定する方法が開示されている。

【先行技術文献】

【非特許文献】

【0008】

【非特許文献1】Ikeuchi, Hiroki, Hiroshi Saito, and Kotaro Matsuda. "Network Tomography based on Adaptive Measurements in Probabilistic Routing." IEEE INFOCOM 2022-IEEE Conference on Computer Communications. IEEE, 2022.

【発明の概要】

【発明が解決しようとする課題】

【0009】

確率環境下では、ルーティングの不確定性、及び、ネットワーク構成要素の状態の不確定性のため、正しく障害箇所を特定するには大量のパス測定が必要となる。一般に大量のパス測定は、障害箇所特定までが長期化したり、ネットワークに大きな負荷がかかったりするため、できる限り避けるべきである。したがって、少数のパス測定で障害特定を行う既存のネットワークトモグラフィー手法（非特許文献１）は有用である。

【0010】

しかしながら、この手法は確率ルーティングには適用できるものの、ネットワーク構成要素の確率的な挙動、すなわち、リンクの疎通性が確率的に変動するようなケースには適用できない。

【0011】

本発明は上記の点に鑑みてなされたものであり、ネットワーク構成要素が確率的な挙動を示す状況下において限られた回数の測定でできるだけ正確に障害箇所を特定するための障害箇所特定技術を提供することを目的とする。

【課題を解決するための手段】

【0012】

開示の技術によれば、確率的に疎通状態が変動するネットワーク構成要素を有する対象ネットワークの障害箇所を特定するためのネットワーク障害箇所特定装置であって、
確率値で表されるネットワーク状態の候補を事前に削減する状態数削減部と、
前記状態数削減部により削減が行われたネットワーク状態の候補に基づいて、前記対象ネットワークに対して実行すべき最適なパス測定のテストを算出するテスト最適化部と、
前記対象ネットワークに対してテストを実行するテスト実行部と、
前記テスト実行部によるテストの結果に応じてネットワーク状態を絞り込むテスト結果分析部と
を備えるネットワーク障害箇所特定装置が提供される。

【発明の効果】

【0013】

開示の技術によれば、ネットワーク構成要素が確率的な挙動を示す状況下において限られた回数の測定でできるだけ正確に障害箇所を特定するための障害箇所特定技術が提供される。

【図面の簡単な説明】

【0014】

【図1】本発明の実施の形態におけるシステム構成図である。

【図2】Algorithm1を示す図である。

【図3】Procedure2を示す図である。

【図4】ネットワーク障害箇所特定装置１００の構成例を示す図である。

【図5】ネットワーク障害箇所特定装置１００の処理手順を示すフローチャートである。

【図6】評価に用いたトポロジーを示す図である。

【図7】評価結果を示す図である。

【図8】評価結果を示す図である。

【図9】評価結果を示す図である。

【図10】評価結果を示す図である。

【図11】評価結果を示す図である。

【図12】評価結果を示す図である。

【図13】ネットワーク障害箇所特定装置１００のハードウェア構成例を示す図である。

【発明を実施するための形態】

【0015】

以下、図面を参照して本発明の実施の形態（本実施の形態）を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。

【0016】

（システム全体構成、動作概要）
図１に、本実施の形態におけるシステムの全体構成例を示す。図１に示すように、本システムは、ネットワーク障害箇所特定装置１００が、ネットワーク障害箇所を特定する対象となるネットワークである対象ネットワーク２００に接続された構成を備える。ネットワーク障害箇所特定装置１００は、対象ネットワーク２００におけるルーティングのトポロジー情報、動的に変化しうるルーティング情報、及びパス測定装置の制約情報に加え、確率的に疎通状態が変動するネットワーク構成要素のパラメータ情報に基づいて、上記パス測定装置がパス測定に関するテストを実施しその結果を得る工程を１回以上繰り返すことで障害箇所を特定する。なお、図１において、ネットワーク障害箇所特定装置１００がパス測定装置を有していてもよいし、対象ネットワーク２００にパス測定装置が備えられていて、ネットワーク障害箇所特定装置１００がパス測定装置にパス測定指示をすることとしてもよい。

【0017】

対象ネットワーク２００は、複数のノードと複数のリンクを有し、確率ルーティングによりデータ送受信がなされている。また、リンク及びノードはそれぞれ確率的に疎通状態が変動する。なお、リンクを枝あるいはエッジと呼んでもよい。

【0018】

本実施の形態では、ネットワーク障害箇所特定装置１００が、確率ルーティングに加えて、ネットワーク構成要素が確率的な挙動を示す状況下において限られた回数のパス測定でできるだけ正確に障害箇所を特定する。ネットワーク障害箇所特定装置１００は、確率的な環境下であっても、障害特定に有効なパス測定を優先的に行うため、障害特定までに要するパス測定が少数に抑えられ、障害特定の短期化、ネットワーク負荷の削減が期待できる。

【0019】

上記のような障害箇所の特定を実現するために、ネットワーク障害箇所特定装置１００は、ネットワーク状態として、各リンクの疎通確率を並べたベクトルを採用したモデル化を行う。これにより、ルーティングの確率的挙動に加え、ネットワーク構成要素が持つ内在的な確率性も表現できる。このモデル化を実施することで、従来手法［２］にある相互情報量に基づく優先的なパスの選択方法を援用する形で、障害特定まで行うことが可能となる。

【0020】

以下、ネットワーク障害箇所特定装置１００が実行する処理内容を詳細に説明する。

【0021】

（問題設定）
まず、本実施の形態における問題の定式化について説明する。ただし、本実施の形態に係る技術は厳格に以下の定義に従わない状況でも適用可能なものである。例えば、以下ではリンク故障の特定に関する定式化を行っているが、ノード故障の特定に関しても同様に本実施の形態に係る技術を適用できる。

【0022】

なお、記載の便宜上、本明細書のテキスト（画像イメージではないテキスト）において、一般的には太字で示されるベクトルや行列の文字を、通常の字体で示している。通常の字体でも、文脈から、それがベクトルや行列を示す文字であることは明らかである。その他、集合を表す文字等についても、明細書のテキストにおいては通常の字体を使用する。

【0023】

対象とするネットワークを無向グラフＧ（Ｖ，Ｅ）とする。Ｖ＝｛ｖ_ｉ｝_ｉは頂点集合、Ｅ＝｛ｅ_ｊ｝_ｊは枝集合である。「ネットワーク状態」あるいは単に「状態」は候補集合Ｓ＝｛１，・・・，｜Ｓ｜｝のうちどれか一つをとるとする。ここでネットワークは潜在的に離散個の状態をとると仮定しており、Ｓはその全集合で、その要素である自然数１，・・・，｜Ｓ｜は（任意に附番した）状態を表す。各状態ｓ∈Ｓは、確率値を並べたベクトルｑ_ｓ＝（ｑ_ｓ１，・・・，ｑ_ｓ｜Ｅ｜）∈［０，１］^｜Ｅ｜）に対応する。ここでｑ_ｓｊは枝ｅ_ｊが状態ｓの下で不通である確率を表す。枝ｅ_ｊを通る各パケットが破棄されるか否かは、ベルヌーイ分布Ｂｅｒ（ｑ_ｓｊ）に従いそれぞれ独立に決定されるものとする。

【0024】

上記の例では、状態ｓ∈Ｓをアプリオリに定義したが、実現しうる離散個の確率を並べたベクトル｛ｑ_ｓ｝_ｓが先にあって、それらを規定する潜在的なネットワーク状態にｓ∈Ｓというｉｎｄｅｘを振ったと考えてもよい。

【0025】

監視パス集合Ａ＝｛ａ_１，・・・，ａ_｜Ａ｜｝はバイナリベクトルａ_ｋ＝（ａ_ｋ１，・・・，ａ_ｋ｜Ｅ｜）∈｛０，１｝^｜Ｅ｜で表される「監視パス」の集合である。監視パスは連結するいくつかの枝からなるパスであり、それに沿って測定パケットを流すことを意味する。ａ_ｋｊ＝１であれば、監視パスａ_ｋが枝ｅ_ｊを含むことを表す。監視パスは単に枝の集合と見なせるため、ループありのパスも許容する。

【0026】

監視パスａ_ｋのテストが実行されたとき、ａ_ｋ内の枝が一本でも異常であれば結果１を、全ての枝が正常であれば結果０を得る。すなわち結果１とはその監視パスが不通であったことを表し、結果０とはその監視パスが疎通できたことを表す。本実施の形態では、確率ルーティングを想定しているため、ａ_ｋを直接指定することはできず、ソース頂点（Ｓノード）とデスティネーション頂点（Ｄノード）を同じくする複数の監視パスの「グループ」を指定できるだけである。

【0027】

グループｃ∈Ｃ＝｛１，・・・，｜Ｃ｜｝が指定されると、監視パスａ_ｋのテストが独立に確率ｐ_ｃｋ（ｃ＝１，・・・，｜Ｃ｜，ｋ＝１，・・・，｜Ａ｜）で実行されるとする。ここで下記の式が成り立つ。

【0028】

【数1】

事前にルーティングの統計を解析しておくことにより、（ｐ_ｃｋ）_ｃ，ｋは既知と見なせる。状態ｓの下でｃが実行されると、下記の確率で結果１を得る。

【0029】

【数2】

ｕ_ｃｓを行列表示したものをＵ＝（ｕ_ｃｓ）_ｃ，ｓと表し、これをＵ行列と呼ぶことにする。

【0030】

実際のネットワーク運用では、同時に複数の方向にプローブパケットを送信したり、統計値を得るために同じ方向に対して複数パケットを一度に送ったりできるように、監視システムが設計されていることもある。このような状況を考慮して、「プローブテスト」あるいは単に「テスト」ξ_ｘ∈Ｘ＝｛ξ_１，・・・，ξ_｜Ｘ｜｝を定める。本実施の形態において、ξ_ｘ＝（ξ_ｘ１，・・・，ξ_ｘ｜Ｃ｜）∈Ｚ_＋ ^｜Ｃ｜を実行すると、ｃがξ_ｘｃ回実行される（ｃ＝１，・・・，｜Ｃ｜）。ここでＺ_＋は非負整数全体の集合を表す。すなわち、ξ_ｘは異なるノードペア間の同時測定や、複数回測定を一つのテストとしてパッケージ化したものである。一度のテストに同数の測定が含まれるように、｜ξ_ｘ｜＝Σ_ｃξ_ｘｃをｘによらない定数とするのが自然である。

【0031】

本実施の形態における問題は以下の通りである。

【0032】

今、状態ｓ∈Ｓが未知とする。またｓの事前分布と実施可能なテストξの回数Ｎが与えられたとする。このとき、Ｎ回のテストの実施でできるだけ高確度で真の状態を特定するためには、どのような戦略でテストを実施する（各テストをどのタイミングでどのくらいの回数実施する）のが効率的だろうか。またテストの実施結果に応じて、どのように真の状態を推定すればよいだろうか。

【0033】

以上の問題設定において、本実施の形態では、状態を表す確率値を並べたベクトルｑ_ｓを導入した点が重要である。既存技術［２］では、このベクトルがバイナリベクトル（各成分が０または１のみをとるベクトル）であったため、各枝は確定的な状態しかとれなかった。一方、本実施の形態における定式化では、各成分が不通確率に対応した０から１までの任意の実数をとることができるため、確率的な振る舞いを表現できる。

【0034】

さて、後述するネットワークトモグラフィー手法は、任意の確率値を並べたベクトルの有限集合｛ｑ_ｓ｝_ｓに対して適用可能である。しかし現実には、ネットワーク状態について以下の（ｉ）、（ｉｉ）の仮定を置けることも多い。

【0035】

（ｉ）各枝は「よい状態」（ほぼ正常に動作する状態）か「悪い状態」（輻輳や障害により正常に動作しにくい状態）のどちらかになると見なせる、（ｉｉ）複数の枝が同時に「悪い状態」になることは少ない。

【0036】

上記の観点から、ネットワーク状態｛ｑ_ｓ｝_ｓを以下のように限定して定義するのも有効である。

【0037】

まず、枝の２値状態を表すベクトルの集合（下記の式）を定義する。

【0038】

【数3】

ここで^～ｑ_ｊ＝１（０）は枝ｅ_ｊが悪い状態（よい状態）にあることを意味し、また悪い状態である枝の数は高々ｋ_ｆ本である。なお、「^～ｑ」は、「^～」をｑの頭の上に置くことを意図している。

【0039】

各^～ｑ_ｓ＝（^～ｑ_ｓ１，・・・，^～ｑ_ｓ｜Ｅ｜）に対して、ネットワーク状態ｑ_ｓ＝（ｑ_ｓ１，・・・，ｑ_ｓ｜Ｅ｜）を、^～ｑ_ｓｊ＝１ならｑ_ｓｊ＝ε、^～ｑ_ｓｊ＝０ならｑ_ｓｊ＝１－εとなるように定める。ここでε＜＜１は既知の小さな実数である。εは枝の状態の揺らぎの程度と解釈することができる（ε＝０とおけば、参考文献［２］における確定的な状態の議論に帰着する）。後述する「実施の形態の効果」では、ここで説明した方法でネットワーク状態を定義する。

【0040】

（ネットワーク障害箇所特定装置１００による処理内容の詳細）
ネットワーク障害箇所特定装置１００により実行されるネットワークトモグラフィー手法の詳細を説明する。

【0041】

本手法そのものは、前処理を除き参考文献［２］で開示されているものをそのまま用いることができる。参考文献［２］に開示されている近似保証もそのまま成立する。以下では、参考文献［２］に開示されている従来技術と重複する部分に関しては要点のみを説明し、前処理については本実施の形態に係る技術の独創的な箇所であるため詳述する。

【0042】

本実施の形態では「アダプティブ測定」のアプローチをとる。これは、ネットワーク障害箇所特定装置１００が、現状で得られているテストの結果に応じて次に実施するテストを逐次的に決定していくものである。具体的には以下のようなバッチ処理として定式化する。

【0043】

Ｎ回のテストをサイズＮ_ＢのＢ個のバッチに分ける。すなわちＮ_Ｂ×Ｂ＝Ｎが成り立つ。ｂ回目のバッチ（（ｂ∈［１，Ｂ］∩Ｚ_＋））では、下記のテスト設計を決定する。

【0044】

【数4】

これはテストξ_ｘ（ｘ＝１，・・・，｜Ｘ｜）を実施する回数を表したものであり、｜ｍ_ｂ｜＝Ｎ_Ｂである。ｍ_ｂを決定した後、それを実行して、下記の結果を得る。

【0045】

【数5】

ここで、

【0046】

【数6】

上記の式は、グループｃの下記の回数の実行の中で、結果１を得た回数を表している。

【0047】

【数7】

ｂ＜Ｂ（つまり最終バッチ以外）のときは、ｙ^ｍ＿ｂとそれ以前のバッチの結果に基づき、次のテスト設計ｍ_ｂ＋１を決定していくこととなる。本実施の形態では前述の通り確率モデルに基づく定式化を行っているため、各バッチ実行後にはその結果に基づいて事後分布の計算を行うことができる。したがってこれから考えるべき問題は、「各バッチにおいて、状態を効率的に絞り込む上で、（直前までの計測実行結果で得られた事後分布を元に）どのようにｍ_ｂを設計するか」である。なおバッチサイズとバッチ回数（Ｎ，Ｂ_Ｎ）に関しては、運用の実態（一回のテスト実行に要する時間や許容されるネットワーク負荷など）に応じて決定されるハイパーパラメータである。

【0048】

ｍ（ｍの添え字ｂは適宜省略する）を設計するにあたっては、ｍの「よさ」を定量的に表さなければならない。本実施の形態では、ｍの実行により得られるｙ^ｍがもたらす有効性の指標として、Ｙ^ｍとＳの間の相互情報量Ｉ（Ｓ；Ｙ^ｍ）を用いることにする（ｙ^ｍやｓを確率変数と見なす際は、Ｙ^ｍ、Ｓのように大文字を用いる）。これにより本実施の形態で考える問題を以下のように記述することができる。

【0049】

［問題］：事前分布Ｐｒ（ｓ）と（ｂ－１）回目のバッチまでに得られる下記の測定結果が与えられたとき、

【0050】

【数8】

下記の解ｍ_ｂ ^＊を求めよ。

【0051】

【数9】

ここでＩ（Ｓ；Ｙ^ｍ｜Ｄ_ｂ－１）はＤ_ｂ－１が与えられたときのＹ^ｍとＳの間の相互情報量であり、下記の数式１のように与えられる。

【0052】

【数10】

また数式１右辺の各量は、下記の数式２，３で与えられる。

【0053】

【数11】

【0054】

【数12】

本実施の形態におけるネットワーク障害箇所特定装置１００は、この「問題」の求解、得られた解ｍ_ｂ ^＊の実行、結果に基づく事後分布計算という工程をバッチ回数分繰り返すことになる。

【0055】

上記の「問題」は、組合せ最適化問題であり、ＮＰ困難であることが示せる。これを解くのに本実施の形態では任意の近似最適化手法や最適化手法を用いてよいが、一例として参考文献［２］に開示された方法を適用できる。

【0056】

ネットワーク障害箇所特定装置１００により実行される全ての処理の手順（アルゴリズム）を、図１にAlgorithm1として示す。

【0057】

まず２行目で状態の候補を削減する前処理（StateSpaceReduction）があるが、これに関しては参考文献［２］のものを適用できないため、後で詳述する。

【0058】

５行目から始まるバッチ処理では、６～１０行目でｍを貪欲法に基づき作成する（ここが上記の「問題」の近似解法に相当している）。８行目に相互情報量の計算CalcMIがあるが、これは参考文献［２］に開示された方法で計算できる。whileループ内ではＩ（Ｓ；Ｙ^ｍ｜Ｄ_ｂ－１）の増分が最も大きいようなξ_{ｘ＿ｍａｘ}を逐次的に選択し、ｍの第ｘ_ｍａｘ成分をインクリメントしている。ｍを作成した後、それを実行して、ｙ^ｍを取得し、１１～１３行目で事後分布Ｐｒ（ｓ｜Ｄ_ｂ）の更新を行う。以上の工程をバッチ回数分繰り返す（４行目のfor文に対応）。最終的な事後分布を最大化する状態を推定状態として出力する（１４行目）。

【0059】

Algorithm1は貪欲法に基づく近似アルゴリズムであるが、以下のように相互情報量最大化の意味で定数の近似度を持っていることが示せる。すなわち、最悪ケースであっても、相互情報量が一定値以上であることが保証されている。

【0060】

［定理］：Ｎ_ｙが十分大きいときAlgorithm1で得られるｍ_ｂを^～ｍ_ｂとし、最適なｍ_ｂを下記のとおりとする。

【0061】

【数13】

このとき、下記の式が成り立つ。

【0062】

【数14】

ここで、Algorithm1の２行目にあった前処理（StateSpaceReduction）について説明を行う。この処理は、あらかじめあり得ない状態をＳから取り除いておくことで、Algorithm1の実行時間を短縮するためのものである。

【0063】

類似の処理は参考文献［２］にもあったが、その手法はＵ行列が０または１を値に持つ成分を多く含んでいることを用いたものだった。これはネットワーク構成要素の状態が確定的である（ε＝０である）ことを利用したものであり、本実施の形態の問題設定においては適用することができない。以下ではＵ行列の詳細に依存せず一般的に適用できる前処理手法について説明する。

【0064】

ネットワーク障害箇所特定装置１００が実行する前処理手順を、図３のProcedure2に示す（この処理はAlgorithm1の内部に組み込まれているため、AlgorithmではなくProcedureと呼称を区別している）。

【0065】

Procedure2の基本的な考え方は、グループｃの１回の実行結果を表す確率変数Ｙ^ｃ（０または１の値をとる）とネットワーク状態を表す確率変数Ｓとの相互情報量Ｉ（Ｓ；Ｙ^ｃ）に基づいて、状態特定に有用であると考えられるグループｃを見つけることである。

【0066】

そのために、まず、確率分布Ｐｒ（ｓ）に従ってＮ個の状態｛ｓ_（ｌ）｝_ｌをサンプリングする。各サンプルｓ_（ｌ）に対して、各ｃを１回実行したときの測定結果（１または０）を乱数シミュレーションにより生成する。これをデータセットとして、相互情報量の近似値＾Ｉ（Ｓ；Ｙ_ｃ）を算出する。この近似値の算出には、例えば参考文献［４］に記載の方法を用いればよい。

【0067】

この処理により、各グループｃが状態特定にどの程度有効であるかを定量的に評価することができる。そして、この相互情報量を最大化するグループｃ_ｍａｘを含むようなξ_ｘを任意に一つ選択して実行する（４～５行目）。その結果を使いBayes推定に基づいて状態の分布Ｐｒ（ｓ）を更新する。以上の処理をある回数Ｎ_ｉｔｅｒ回繰り返した後、確率が閾値δよりも小さい状態を削除する。また対応するＵ行列の列も削除する（８行目）。

【0068】

この前処理により多くの状態の候補を大きく削減できるため、続く図２のアルゴリズムの処理が高速化される。なお、事前分布Ｐｒ（ｓ）が定かでない場合は、事前知識（複合障害は単一の障害よりも起こりづらいなど）を使い設計したり、一様分布を用いたりすればよい。

【0069】

（実施例）
上述した処理の実施例として、ネットワーク障害箇所特定装置１００の構成例と、その構成を用いた処理手順例を説明する。

【0070】

図４に、ネットワーク障害箇所特定装置１００の構成例を示す。図４に示すように、ネットワーク障害箇所特定装置１００は、入力用ＵＩ１１０、状態数削減部１２０、テスト実行部１３０、テスト最適化部１４０、テスト結果分析部１５０、出力用ＵＩ１６０を有する。状態数削減部１２０、テスト結果分析部１５０は、図示のとおりに対象ネットワーク２００と接続している。

【0071】

上記の構成を備えるネットワーク障害箇所特定装置１００の処理手順を図５のフローチャートを参照して説明する。

【0072】

Ｓ１０１において、まず入力用ＵＩ１１０にアルゴリズム実行に必要なデータやパラメータ（事前分布Ｐｒ（ｓ），Ｕ，Ｎ_Ｂ，Ｂ，εなど）を入力する。Ｓ１０２において、状態数削減部１２０は、これらを基にAlgorithm 1の2行目=Procedure 2に従いξを決定し、それをテスト実行部１３０に渡す。

【0073】

Ｓ１０３において、テスト実行部１３０は、ｐｉｎｇを始めとする疎通性確認プログラムなどを用いて、テストを対象ネットワークで実行する。再びＳ１０２において、状態数削減部１２０が、得られた結果を基に、Procedure 2に従って、次のξを決定する。

【0074】

Ｓ１０２～Ｓ１０３を定められた回数実施したら、次に、Ｓ１０４において、テスト最適化部１４０が、Algorithm1の５～１０行目の貪欲法または別の最適化アルゴリズムに従ってｍを作成する。これをテスト実行部１３０に渡して、Ｓ１０５において、対象ネットワークでテストを実行する（Algorithm1の１１行目に相当）。

【0075】

その結果はテスト結果分析部１５０に渡され、Ｓ１０６において、ベイズ推定の枠組みに従って事後分布を計算する（Algorithm1の１３行目に相当）。

【0076】

得られた事後分布は、テスト最適化部１４０エンジンに渡され、Algorithm1のループまたは別の最適化アルゴリズムに従い、以上の工程（Ｓ１０４～Ｓ１０６）を繰り返す。決められた回数実施したら、最終的な事後分布から、最尤値として推定状態を出力用ＵＩ１６０に出力する。Ｓ１０７において、出力用ＵＩ１６０が推定状態を出力する。

【0077】

（実施の形態のまとめ）
以上説明したとおり、本実施の形態に係るネットワーク障害箇所特定装置１００は、ネットワークのルーティングのトポロジー情報、動的に変化しうるルーティング情報、及びパス測定装置の制約情報に加え、確率的に疎通状態が変動するネットワーク構成要素のパラメータ情報に基づいて、上記パス測定装置がパス測定に関するテストを実施しその結果を得る工程を１回以上繰り返すことで障害箇所を特定する。

【0078】

ネットワーク障害箇所特定装置１００は、計算量削減のためネットワーク状態の候補を事前に削減するための状態数削減部１２０と、実行すべき最適なパス測定のテストを算出するテスト最適化部１４０と、実際にテストを実行するテスト実行部１３０と、テストの結果に応じてネットワークの状態を絞り込むテスト結果分析部１５０とを有する。

【0079】

ネットワーク構成要素のパラメータ情報として、例えば、各リンクあるいは各ノードの疎通確率、又は、それら疎通確率の組として表現されるベクトルを用いることができる。

【0080】

状態数削減部１２０は、例えば、ある計測の実行結果を表す確率変数とネットワークの状態を表す確率変数の間の相互情報量を求め、その相互情報量を近似的または厳密に最大化するような計測を含むテストを実際に実施し、その結果計算される事後分布に基づいて状態削減を行う。

【0081】

（実施の形態の効果について）
以上説明した本実施の形態に係る技術により、確率ルーティングに加えて、ネットワーク構成要素が確率的な挙動を示す状況下において限られた回数のパス測定でできるだけ正確に障害箇所を特定することが可能となる。本技術では、確率的な環境下であっても、障害特定に有効なパス測定を優先的に行うため、障害特定までに要するパス測定が少数に抑えられ、障害特定の短期化、ネットワーク負荷の削減が期待できる。

【0082】

図６の３つのネットワークデータ［５］を用いて評価を行った。図６における#bad edgesは同時に悪い状態となる枝数を表し、｜Ｓ｜はあり得る状態の総数である。またε＝０．０１とε＝０．０５の二つのケースを考えた。各ネットワークに対し以下のような設定を考える。

【0083】

グループ数は｜Ｃ｜＝３｜Ｖ｜で、各ノードに対して、それをＳノードとしたとき、ランダムに選んだ３つのノードをＤノードとして、ノードペア（グループ）を決めた。各ノードペアに対して、最短パス、二番目に短いパス、三番目に短いパスを監視パスとみなした（｜Ａ｜＝９｜Ｖ｜）。各グループに対してｉ番目に短いパスは下記の確率で選択されるようにした（ｌ_ｉはパスの長さ）。

【0084】

【数15】

Ｓノードを同じくする３つのグループを一度ずつ実行するものを一つのプローブテストξとみなし、全部で｜Ｘ｜＝｜Ｖ｜パターンのテストを考えた。初期状態分布Ｐｒ（ｓ）は一様とし、Ｎ_ｙ＝３０とした。また、Procedure2による状態削減はＮ_ｉｔｅｒ＝２０として実施した。

【0085】

本実施の形態に係る技術（ＰＭと記す）の他に、比較として、Ｒａｎｄｏｍ、ＬＳ［６］、ＬＡＳＳＯ［７］を実施した。Ｒａｎｄｏｍは本発明の手法において、相互情報量を用いずに、ランダムにξを選択したものである。

【0086】

ＬＳとＬＡＳＳＯは確率ルーティングにおけるネットワークトモグラフィーとして提案された非アダプティブなアプローチによる既存手法である。ＬＡＳＳＯに関してはハイパーパラメータλを０．０００１、０．００１、０．０１と変えた場合に実施した。

【0087】

評価指標としては正答率を用いた。悪い状態の枝が２本ある状態に対しては、２つとも特定して初めて正解とした。ランダムに選択した真の状態３０パターンに対して実験を行い、正答率を算出した。

【0088】

実験の結果を図７～図１２に示す。各図において、横軸が総テスト数Ｎ、縦軸が正答率である。本実施の形態に係る方法ＰＭが既存手法ＬＳ、ＬＡＳＳＯよりも高い性能を示していることがわかる。例えば正答率０．９を超すのに、ε＝０．０１のケースでは、最善の既存手法で１６０（Ｍｉｓｓｏｕｒｉ）、３２０（ＩＯＮ）、３２０（Ｎｔｅｌｏｓ）のテスト数を要しているのに対し、ＰＭではそれぞれ２６、２６、２６のテスト数で十分である。また、ε＝０．０５のケースでは、最善の既存手法で６４０（Ｍｉｓｓｏｕｒｉ）、１２８０（ＩＯＮ）、６４０（Ｎｔｅｌｏｓ）のテスト数を要しているのに対し、ＰＭではそれぞれ２６、６８、６８のテスト数で十分である。

【0089】

（ハードウェア構成例）
ネットワーク障害箇所特定装置１００は、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。

【0090】

すなわち、ネットワーク障害箇所特定装置１００は、コンピュータに内蔵されるＣＰＵやメモリ等のハードウェア資源を用いて、ネットワーク障害箇所特定装置１００で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体（可搬メモリ等）に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。

【0091】

図１３は、上記コンピュータのハードウェア構成例を示す図である。図１３のコンピュータは、それぞれバスＢＳで相互に接続されているドライブ装置１０００、補助記憶装置１００２、メモリ装置１００３、ＣＰＵ１００４、インタフェース装置１００５、表示装置１００６、入力装置１００７、出力装置１００８等を有する。

【0092】

当該コンピュータでの処理を実現するプログラムは、例えば、ＣＤ－ＲＯＭ又はメモリカード等の記録媒体１００１によって提供される。プログラムを記憶した記録媒体１００１がドライブ装置１０００にセットされると、プログラムが記録媒体１００１からドライブ装置１０００を介して補助記憶装置１００２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１００１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１００２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

【0093】

メモリ装置１００３は、プログラムの起動指示があった場合に、補助記憶装置１００２からプログラムを読み出して格納する。ＣＰＵ１００４は、メモリ装置１００３に格納されたプログラムに従って、ネットワーク障害箇所特定装置１００に係る機能を実現する。インタフェース装置１００５は、ネットワーク等に接続するためのインタフェースとして用いられる。表示装置１００６はプログラムによるＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）等を表示する。入力装置１００７はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置１００８は演算結果を出力する。

【0094】

以上の実施形態に関し、更に以下の付記を開示する。

【0095】

＜付記＞
（付記項１）
確率的に疎通状態が変動するネットワーク構成要素を有する対象ネットワークの障害箇所を特定するためのネットワーク障害箇所特定装置であって、
確率値で表されるネットワーク状態の候補を事前に削減する状態数削減部と、
前記状態数削減部により削減が行われたネットワーク状態の候補に基づいて、前記対象ネットワークに対して実行すべき最適なパス測定のテストを算出するテスト最適化部と、
前記対象ネットワークに対してテストを実行するテスト実行部と、
前記テスト実行部によるテストの結果に応じてネットワーク状態を絞り込むテスト結果分析部と
を備えるネットワーク障害箇所特定装置。
（付記項２）
前記ネットワーク状態は、前記ネットワーク構成要素における疎通確率を用いて表される
付記項１に記載のネットワーク障害箇所特定装置。
（付記項３）
前記状態数削減部は、ある計測の実行結果を表す確率変数とネットワーク状態を表す確率変数との間の相互情報量を、近似的又は厳密に最大化するような計測を含むテストを前記テスト実行部により実際に実施し、そのテストの結果に基づいて計算される事後分布に基づいて、ネットワーク状態の削減を行う
付記項１又は２に記載のネットワーク障害箇所特定装置。
（付記項４）
確率的に疎通状態が変動するネットワーク構成要素を有する対象ネットワークの障害箇所を特定するためのネットワーク障害箇所特定装置が実行するネットワーク障害箇所特定方法であって、
確率値で表されるネットワーク状態の候補を事前に削減する状態数削減ステップと、
前記状態数削減ステップにより削減が行われたネットワーク状態の候補に基づいて、前記対象ネットワークに対して実行すべき最適なパス測定のテストを算出するテスト最適化ステップと、
前記対象ネットワークに対してテストを実行するテスト実行ステップと
前記テスト実行ステップによるテストの結果に応じてネットワーク状態を絞り込むテスト結果分析ステップと
を備えるネットワーク障害箇所特定方法。
（付記項５）
コンピュータを、付記項１ないし３のうちいずれか１項に記載のネットワーク障害箇所特定装置における各部として機能させるためのプログラムを記憶した非一時的記憶媒体。

【0096】

以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
［参考文献］
[1] N. Duffield, "Simple network performance tomography," in Proceedings of the 3rd ACM SIGCOMM conference on Internet measurement. ACM, 2003, pp. 210-215.
[2] Ikeuchi, Hiroki, Hiroshi Saito, and Kotaro Matsuda. "Network Tomography based on Adaptive Measurements in Probabilistic Routing." IEEE INFOCOM 2022-IEEE Conference on Computer Communications. IEEE, 2022.
[4] Ross, Brian C. "Mutual information between discrete and continuous data sets." PloS one 9.2 (2014): e87357.
[5] S. Knight, H. X. Nguyen, N. Falkner, R. Bowden, and M. Roughan, "The internet topology zoo," IEEE Journal on Selected Areas in Communications, vol. 29, no. 9, pp. 1765-1775, 2011.
[6] H. Herodotou, B. Ding, S. Balakrishnan, G. Outhred, and P. Fitter, "Scalable near real-time failure localization of data center networks," in Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2014, pp. 1689-1698.
[7] R. Tagyo, D. Ikegami, and R. Kawahara, "Network tomography using routing probability for undeterministic routing," IEICE Transactions on Communications, vol. E104.B, no. 7, pp. 837-848, 2021.

【符号の説明】

【0097】

１００ネットワーク障害箇所特定装置
１１０入力用ＵＩ
１２０状態数削減部
１３０テスト実行部
１４０テスト最適化部
１５０テスト結果分析部
１６０出力用ＵＩ
２００対象ネットワーク
１０００ドライブ装置
１００１記録媒体
１００２補助記憶装置
１００３メモリ装置
１００４ＣＰＵ
１００５インタフェース装置
１００６表示装置
１００７入力装置
１００８出力装置

【図1】