特開2023-82481 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人　東京大学の特許一覧

特開2023-82481ネットワーク障害箇所特定装置、ネットワーク障害箇所特定方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023082481

(43)【公開日】2023-06-14

(54)【発明の名称】ネットワーク障害箇所特定装置、ネットワーク障害箇所特定方法、及びプログラム

(51)【国際特許分類】

H04L 43/0811 20220101AFI20230607BHJP

【ＦＩ】

H04L43/0811

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2021196292

(22)【出願日】2021-12-02

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(71)【出願人】

【識別番号】504137912

【氏名又は名称】国立大学法人東京大学

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100124844

【弁理士】

【氏名又は名称】石原隆治

(72)【発明者】

【氏名】池内光希

(72)【発明者】

【氏名】松田康太郎

(72)【発明者】

【氏名】斎藤洋

(57)【要約】

【課題】確率ルーティング下において限られた回数のパス測定でできるだけ正確に障害箇所を特定する。
【解決手段】対象ネットワークの障害箇所を特定するためのネットワーク障害箇所特定装置において、前記対象ネットワークに対して実行すべき最適なパス測定のテストを算出するテスト最適化部と、前記テスト最適化部により算出されたテストを前記対象ネットワークに対して実行するテスト実行部と、前記テスト実行部によるテストの結果に応じてネットワークの状態を絞り込むテスト結果分析部と、を備え、前記テスト最適化部が、前記テスト結果分析部により得られた分析結果を用いてテストを算出し、前記テスト実行部がテストを実行し、前記テスト結果分析部が、テストの結果に応じてネットワークの状態を絞り込む処理を、１回以上繰り返す。
【選択図】図５

【特許請求の範囲】

【請求項1】

対象ネットワークの障害箇所を特定するためのネットワーク障害箇所特定装置であって、
前記対象ネットワークに対して実行すべき最適なパス測定のテストを算出するテスト最適化部と、
前記テスト最適化部により算出されたテストを前記対象ネットワークに対して実行するテスト実行部と、
前記テスト実行部によるテストの結果に応じてネットワークの状態を絞り込むテスト結果分析部と、を備え、
前記テスト最適化部が、前記テスト結果分析部により得られた分析結果を用いてテストを算出し、前記テスト実行部がテストを実行し、前記テスト結果分析部が、テストの結果に応じてネットワークの状態を絞り込む処理を、１回以上繰り返す
ネットワーク障害箇所特定装置。

【請求項2】

前記対象ネットワークにおけるルーティング情報は、発着ノードに対してそれらを結ぶパスが一意に定まらず、確率的に決定され、テストにおいてどのパスが選択されたかは観測できず、その確率分布のみ利用可能である
請求項１に記載のネットワーク障害箇所特定装置。

【請求項3】

前記テスト最適化部は、テストの実行結果を表す確率変数と前記対象ネットワークの状態を表す確率変数の間の相互情報量の最大化問題の最適解あるいは近似最適解であるテストを選出する
請求項１又は２に記載のネットワーク障害箇所特定装置。

【請求項4】

前記テスト最適化部は、テストの実行結果に基づいて、候補として除外できるネットワーク状態の個数の期待値が大きくなるようなテストを選出する
請求項１ないし３のうちいずれか１項に記載のネットワーク障害箇所特定装置。

【請求項5】

前記テスト結果分析部は、ネットワーク状態を表す確率分布を、テストの実行結果に基づいて、ベイズ推定の枠組みに従って更新する
請求項１ないし４のうちいずれか１項に記載のネットワーク障害箇所特定装置。

【請求項6】

対象ネットワークの障害箇所を特定するためのネットワーク障害箇所特定装置が実行するネットワーク障害箇所特定方法であって、
前記対象ネットワークに対して実行すべき最適なパス測定のテストを算出するテスト最適化ステップと、
前記テスト最適化ステップにより算出されたテストを前記対象ネットワークに対して実行するテスト実行ステップと、
前記テスト実行ステップによるテストの結果に応じてネットワークの状態を絞り込むテスト結果分析ステップと、を備え、
前記テスト結果分析ステップにより得られた分析結果を用いて前記テスト最適化ステップによりテストを算出し、前記テスト実行ステップによりテストを実行し、前記テスト結果分析ステップによりテストの結果に応じてネットワークの状態を絞り込む処理を、１回以上繰り返す
ネットワーク障害箇所特定方法。

【請求項7】

コンピュータを、請求項１ないし５のうちいずれか１項に記載のネットワーク障害箇所特定装置における各部として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ネットワークにおける障害箇所を特定する技術に関連するものである。

【背景技術】

【0002】

近年、ネットワークの複雑化が進み、ネットワーク機器が出力するログやメトリクスなどのデータだけに依存した従来の方法だけでは検知できないような障害が発生するようになった。

【0003】

このような障害を検知する手段として「ネットワークトモグラフィー」と呼ばれる手段が注目されている。ネットワークトモグラフィーは、複数の離れたノード間のｅｎｄ－ｔｏ－ｅｎｄの通信状況を測定（これをパス測定と呼ぶ）し、その疎通性に関する記録を統合することで、障害箇所（障害ノードや障害リンク）を特定する手段である。

【0004】

特に、各ネットワークコンポーネント（ノード、リンク）のバイナリ状態（障害がある／ない）を推定するものは、バイナリネットワークトモグラフィーとも呼ばれ、盛んに研究されている［非特許文献１］。

【0005】

バイナリネットワークトモグラフィーの既存技術の多くは、ルーティングが確定的であることを仮定している。しかし、現実には負荷分散メカニズムや、ウェイトが等しいパスに分散してトラヒックを送るＥＣＭＰなどのプロトコルが存在し、ルーティングが確率的に振る舞う状況が生ずる。確率ルーティング下におけるネットワークトモグラフィーについても、少数ではあるが既存手法［非特許文献２，３］が存在する。

【先行技術文献】

【非特許文献】

【0006】

【非特許文献1】N. Duffield, "Simple network performance tomography," in Proceedings of the 3rd ACM SIGCOMM conference on Internet measurement. ACM, 2003, pp. 210-215.

【非特許文献2】H. Herodotou, B. Ding, S. Balakrishnan, G. Outhred, and P. Fitter, "Scalable near real-time failure localization of data center networks," in Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2014, pp. 1689-1698.

【非特許文献3】R. Tagyo, D. Ikegami, and R. Kawahara, "Network tomography using routing probability for undeterministic routing," IEICE Transactions on Communications, vol. E104.B, no. 7, pp. 837-848, 2021.

【非特許文献4】T. Soma and Y. Yoshida, "Maximizing monotone submodular functions over the integer lattice," Mathematical Programming, vol. 172, no. 1, pp. 539-563, 2018.

【非特許文献5】T. Soma, N. Kakimura, K. Inaba, and K.-i. Kawarabayashi, "Optimal budget allocation: Theoretical guarantee and efficient algorithm," in Proceedings of International Conference on Machine Learning (ICML). PMLR, 2014, pp. 351-359.

【非特許文献6】S. Knight, H. X. Nguyen, N. Falkner, R. Bowden, and M. Roughan, "The internet topology zoo," IEEE Journal on Selected Areas in Communications, vol. 29, no. 9, pp. 1765-1775, 2011.

【発明の概要】

【発明が解決しようとする課題】

【0007】

確率ルーティングでは、ノードペアが決まっても、それを結ぶパスが一意に定まらないため、正しく障害箇所を特定するには大量のパス測定が必要となる。一般に大量のパス測定は、障害箇所特定までが長期化したり、ネットワークに大きな負荷がかかったりするため、できる限り避けるべきである。

【0008】

しかしながら、確率ルーティング下における既存のネットワークトモグラフィー手法［非特許文献２、３］では、既に大量のパス測定データが得られていることを仮定しており、不必要に多くのパス測定が実施されてしまう可能性がある。

【0009】

本発明は上記の点に鑑みてなされたものであり、確率ルーティング下において限られた回数のパス測定でできるだけ正確に障害箇所を特定するための障害箇所特定技術を提供することを目的とする。

【課題を解決するための手段】

【0010】

開示の技術によれば、対象ネットワークの障害箇所を特定するためのネットワーク障害箇所特定装置であって、
前記対象ネットワークに対して実行すべき最適なパス測定のテストを算出するテスト最適化部と、
前記テスト最適化部により算出されたテストを前記対象ネットワークに対して実行するテスト実行部と、
前記テスト実行部によるテストの結果に応じてネットワークの状態を絞り込むテスト結果分析部と、を備え、
前記テスト最適化部が、前記テスト結果分析部により得られた分析結果を用いてテストを算出し、前記テスト実行部がテストを実行し、前記テスト結果分析部が、テストの結果に応じてネットワークの状態を絞り込む処理を、１回以上繰り返す
ネットワーク障害箇所特定装置が提供される。

【発明の効果】

【0011】

開示の技術によれば、確率ルーティング下において限られた回数のパス測定でできるだけ正確に障害箇所を特定することが可能となる。

【図面の簡単な説明】

【0012】

【図1】本発明の実施の形態におけるシステム構成図である。

【図2】Ａｌｇｏｒｉｔｈｍ１を示す図である。

【図3】Ｐｒｏｃｅｄｕｒｅ２を示す図である。

【図4】Ｐｒｏｃｅｄｕｒｅ３を示す図である。

【図5】ネットワーク障害箇所特定装置１００の構成例を示す図である。

【図6】ネットワーク障害箇所特定装置１００の処理手順を示すフローチャートである。

【図7】評価に用いたトポロジーを示す図である。

【図8】Ｍｉｓｓｏｕｒｉの評価結果を示す図である。

【図9】ＩＯＮの評価結果を示す図である。

【図10】Ｎｔｅｌｏｓの評価結果を示す図である。

【図11】装置のハードウェア構成例を示す図である。

【発明を実施するための形態】

【0013】

以下、図面を参照して本発明の実施の形態（本実施の形態）を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。

【0014】

（システム全体構成、動作概要）
図１に、本実施の形態におけるシステムの全体構成例を示す。図１に示すように、本システムは、ネットワーク障害箇所特定装置１００が、ネットワーク障害箇所を特定する対象となるネットワークである対象ネットワーク２００に接続された構成を備える。ネットワーク障害箇所特定装置１００は、対象ネットワーク２００のルーティングのトポロジー情報や動的に変化しうるルーティング情報や、パス測定装置の制約情報などに基づいて、上記パス測定装置がパス測定に関するテストを実施しその結果を得る工程を１回以上繰り返すことで障害箇所を特定する。

【0015】

対象ネットワーク２００は、複数のノードと複数のリンクを有し、確率ルーティングによりデータ送受信がなされている。なお、リンクを枝あるいはエッジと呼んでもよい。

【0016】

本実施の形態では、ネットワーク障害箇所特定装置１００が、確率ルーティング下において限られた回数のパス測定でできるだけ正確に障害箇所を特定する。そのためのネットワーク障害箇所特定装置１００の動作概要は下記のとおりである。

【0017】

本実施の形態では、ネットワーク障害箇所特定装置１００が、障害箇所を絞り込むにあたってパス測定の有効性を「相互情報量」を用いて表現する。相互情報量は確率ルーティングであっても自然に定義できる。相互情報量が大きい、すなわち障害箇所が最も絞り込めると見込めるパス測定を優先的に実施し、測定データを得る。

【0018】

ネットワーク障害箇所特定装置１００は、この測定データに従い、障害箇所の可能性を表した確率分布をベイズ推定の枠組みで更新する。これらの手順を繰り返すことにより、段階的に障害箇所を絞り込んでいく。

【0019】

本実施の形態では、ネットワーク障害箇所特定装置１００は、有効性の高いパス測定を利用すること、ベイズ推定に従い実施すべき測定を逐次的に決定することで、少数の測定で効率的に障害箇所を絞り込み、上記の課題を解決している。

【0020】

以下、ネットワーク障害箇所特定装置１００が実行する処理内容を詳細に説明する。

【0021】

（問題設定）
まず、本実施の形態における問題の定式化について説明する。ただし、本実施の形態に係る技術は厳格に以下の定義に従わない状況でも適用可能なものである。例えば、以下ではリンク故障の特定に関する定式化を行っているが、ノード故障の特定に関しても同様に本実施の形態に係る技術を適用できる。

【0022】

対象とするネットワークを無向グラフＧ（Ｖ，Ｅ）とする。Ｖ＝｛ｖ_ｉ｝_ｉは頂点集合、Ｅ＝｛ｅ_ｊ｝_ｊは枝集合である。「ネットワーク状態」あるいは単に「状態」をバイナリベクトルｓ＝（ｓ_１，・・・，ｓ_｜Ｅ｜）∈Ｓ⊂｛０，１｝^｜Ｅ｜で表す。ここでｓ_ｊ＝１（ｓ_ｊ＝０）は枝ｅ_ｊが異常（正常）であることを表し、Ｓはあり得る全状態の集合を表す。

【0023】

監視パス集合Ａ＝｛ａ１，・・・，ａ｜Ａ｜｝は、バイナリベクトルａ_ｊ＝（ａ_ｊ１，・・・，ａ_ｊ｜Ｅ｜）∈｛０，１｝^｜Ｅ｜で表される「監視パス」の集合である。ａ_ｊｌ＝１であれば、監視パスａ_ｊが枝ｅ_ｌを含むことを表す。監視パスは単に枝の集合と見なせるため、ループありのパスも許容する。

【0024】

監視パスａ_ｊのテストが実行されたとき、ａ_ｊ内の枝が一本でも異常であれば結果１を、全ての枝が正常であれば結果０を得る。すなわち結果１とはその監視パスが不通であったことを表し、結果０とはその監視パスが疎通できたことを表す。本実施の形態では、確率ルーティングを想定しているため、ａ_ｊを直接指定することはできず、ソース頂点（Ｓノード）とデスティネーション頂点（Ｄノード）を同じくする複数の監視パスの「グループ」を指定できるだけである。

【0025】

グループｃ_ｉ∈Ｃが指定されると、監視パスａ_ｊのテストが独立に確率ｐ_ｉｊ（ｉ＝１，・・・，｜Ｃ｜，ｊ＝１，・・・，｜Ａ｜）で実行されるとする。ここで

【0026】

【数1】

が成り立つ。事前にルーティングの統計を解析しておくことにより、（ｐ_ｉｊ）_ｉ，ｊは既知と見なせる。状態ｓの下でｃ_ｉが実行されると、確率

【0027】

【数2】

で結果１を得る。ここで

【0028】

【数3】

は引数が真であれば１を、偽であれば０を返す指示関数である。ｕ_ｉ（ｓ）を行列表示したものをＵ＝（ｕ_ｉ（ｓ））_ｉ，ｓと表す。実際のネットワーク運用では、パス測定装置が同時に複数の方向にプローブパケットを送信したり、統計値を得るために同じ方向に対して複数パケットを一度に送ったりできるように、監視システムが設計されていることもある。

【0029】

このような状況を考慮して、「プローブテスト」あるいは単に「テスト」ξ_ｉ∈Ｘ＝｛ξ_１，・・・，ξ_｜Ｘ｜｝を定める。本実施の形態において、

【0030】

【数4】

を実行すると、ｃ_ｊがξ_ｉｊ回実行される（ｊ＝１，・・・，｜Ｃ｜）。ここでＺ_＋は非負整数全体の集合を表す。すなわち、ξ_ｉは異なるノードペア間の同時測定や、複数回測定を一つのテストとしてパッケージ化したものである。一度のテストに同数の測定が含まれるように、｜ξ_ｉ｜＝Σ_ｊξ_ｉｊをｉによらない定数とするのが自然である。

【0031】

本実施の形態における問題は以下の通りである。

【0032】

今、状態ｓ∈Ｓが未知とする。またｓの事前分布と実施可能なテストξの回数Ｎが与えられたとする。このとき、Ｎ回のテストの実施でできるだけ高確度で真の状態を特定するためには、どのような戦略でテストを実施する（各テストをどのタイミングでどのくらいの回数実施する）のが効率的だろうか。またテストの実施結果に応じて、どのように真の状態を推定すればよいだろうか。なお、以下の説明では状態ｓは動的に変化しないとしているが、途中で変化する場合であっても本実施の形態に係る技術は適用可能である。

【0033】

（ネットワーク障害箇所特定装置１００による処理内容の詳細）
本実施の形態では「アダプティブ測定」のアプローチをとる。これは、ネットワーク障害箇所特定装置１００が、現状で得られているテストの結果に応じて次に実施するテストを逐次的に決定していくものである。アダプティブ測定は、一度にＮ回分のテストを全て決めてしまう非アダプティブなアプローチに比べて、実装が複雑になるが、最適なテストの決定に際して使える情報が段階的に増えていくため、結果として少数のテスト回数で高精度な状態特定が可能となることが見込める。

【0034】

具体的には以下のようなバッチ処理として定式化する。

【0035】

Ｎ回のテストをサイズＮ_ＢのＢ個のバッチに分ける。すなわちＮ_Ｂ×Ｂ＝Ｎが成り立つ。ｂ回目のバッチ（（ｂ∈［１，Ｂ］∩Ｚ_＋））では、テスト設計

【0036】

【数5】

を決定する。これはテストξ_ｉ（ｉ＝１，・・・，｜Ｘ｜）を実施する回数を表したものであり、｜Ｍ_ｂ｜＝Ｎ_Ｂである。Ｍ_ｂを決定した後、それを実行して、結果

【0037】

【数6】

を得る。ここで

【0038】

【数7】

は、グループｃ_ｉの

【0039】

【数8】

回の実行の中で、結果１を得た回数を表している。ｂ＜Ｂ（つまり最終バッチ以外）のときは、ｙ^Ｍ＿ｂとそれ以前のバッチの結果に基づき、次のテスト設計Ｍ_ｂ＋１を決定していくこととなる。以上より、考えるべき問題は、各バッチにおいて状態を効率的に絞り込む上で、どのようにＭ_ｂを設計するかである。なおバッチサイズとバッチ回数（Ｎ，Ｂ_Ｎ）に関しては、運用の実態（一回のテスト実行に要する時間や許容されるネットワーク負荷など）に応じて決定されるハイパーパラメータである。

【0040】

Ｍ（Ｍ_ｂの添え字ｂは適宜省略する）を設計するにあたっては、Ｍの「よさ」を定量的に表さなければならない。真の状態を特定するのが目的であるから、状態の確率分布をできるだけ先鋭化する、すなわちエントロピーを下げるのが自然な戦略である。

【0041】

そこで本実施の形態では、Ｍの実行により得られるｙ^Ｍがもたらす有効性の指標として、Ｙ^ＭとＳの間の相互情報量Ｉ（Ｓ；Ｙ^Ｍ）を用いることにする（ｙ^Ｍやｓを確率変数と見なす際は、Ｙ^Ｍ、Ｓのように大文字を用いる）。Ｉ（Ｓ；Ｙ^Ｍ）は、状態分布のエントロピーがＹ^Ｍを観測することで平均的にどのくらい減少するかを表す。これにより本実施の形態で考える問題を以下のように記述することができる。

【0042】

［問題］：事前分布Ｐｒ（ｓ）と（ｂ－１）回目のバッチまでに得られる測定結果

【0043】

【数9】

が与えられたとき、

【0044】

【数10】

を求めよ。

【0045】

ここでＩ（Ｓ；Ｙ^Ｍ｜Ｄ_ｂ－１）はＤ_ｂ－１が与えられたときのＹ^ＭとＳの間の相互情報量であり、下記の数式１のように与えられる。

【0046】

【数11】

また数式１右辺の各量は、下記の数式２、３で与えられる。

【0047】

【数12】

【0048】

【数13】

上記の問題は、組合せ最適化問題であり、ＮＰ困難であることが示せる。従って、ネットワーク障害箇所特定装置１００は、一例として以下に示す貪欲法に基づくアルゴリズムによって近似解を求める。

【0049】

ただし、本実施の形態に係る技術は、貪欲法に閉じるものではなく、他の近似最適化手法や最適化手法を用いることも可能である。またここではルーティング確率が動的に変化しない場合を述べているが、それが変化する場合であってもその情報が取得できるのならば、本実施の形態に係る技術を適用可能である。

【0050】

ネットワーク障害箇所特定装置１００により実行される処理の手順（アルゴリズム）を図２のＡｌｇｏｒｉｔｈｍ１に示す。まず２行目であり得る状態を削減するＳｔａｔｅＳｐａｃｅＲｅｄｕｃｔｉｏｎの処理があるが、これに関しては後述する。

【0051】

５行目から始まるバッチ処理では、６～１０行目でＭを貪欲法に基づき作成する。ｗｈｉｌｅループ内ではＩ（Ｓ；Ｙ^Ｍ｜Ｄ_ｂ－１）の増分が最も大きいようなξ_{ｉ＿ｍａｘ}を逐次的に選択し、Ｍの第ｉ_ｍａｘ成分をインクリメントしている。Ｍを作成した後、それを実行して、ｙ^Ｍを取得し、１１～１３行目で事後分布Ｐｒ（ｓ｜Ｄ_ｂ）の更新を行う。

【0052】

続いて８行目の相互情報量の計算方法について説明する。相互情報量は図３に示したＰｒｏｃｅｄｕｒｅ２に基づく。基本的には数式１のＩ（Ｓ；Ｙ^Ｍ｜Ｄ_ｂ－１）の数式に基づくが、数式３内のｙ^Ｍに関する和は指数個の項の和となるため、厳密な実行が難しい。そこで以下のようにモンテカルロサンプリングを行う。

【0053】

まず、ｙ^ＭのＮ_ｙ個のサンプリングを二項分布に従い４行目で取得する。各サンプルに対して、６～７行目で、後述の方法で事後分布を計算し、そのエントロピーを計算する。そして８行目でそれらの平均をとる。Ｐｒｏｃｅｄｕｒｅ２では、すべての可能な状態ｓが列挙可能であることを仮定しているが、｜Ｓ｜が大きい場合には、ｓに関する和もサンプル平均に置き換えてもよい。

【0054】

次にＡｌｇｏｒｉｔｈｍ１の１３行目、Ｐｒｏｃｅｄｕｒｅ２の２、６、８行目に現れる事後分布Ｐｒ（ｓ｜Ｄ_ｂ）（Ｐｒ（ｓ｜Ｄ_ｂ－１）なども同様）に関する計算について説明する。Ｐｒ（ｓ｜Ｄ_ｂ）は

【0055】

【数14】

と記述することができる。ここでベイズの定理と、ｓが与えられた下でｙ^Ｍ＿ｂとＤ_ｂ－１が条件付き独立であることを用いた。Ｐｒ（ｓ｜Ｄ_ｂ－１）は既知であり、Ｐｒ（ｙ^Ｍ＿ｂ）｜ｓ）は下記の数式４により計算することができる。

【0056】

【数15】

実装する際は、ｌｏｇｕ_ｉ（ｓ）、ｌｏｇ（１－ｕ_ｉ（ｓ））やコンビネーションのｌｏｇの値をメモ化して、

【0057】

【数16】

の代わりに

【0058】

【数17】

を計算するとよい。

【0059】

さて、Ａｌｇｏｒｉｔｈｍ１は貪欲法に基づく近似アルゴリズムであるが、以下のように相互情報量最大化の意味で定数の近似度を持っていることが示せる。すなわち、最悪ケースであっても、相互情報量が一定値以上であることが保証されている。

【0060】

［定理］：Ｎ_ｙが十分大きいときＡｌｇｏｒｉｔｈｍ１で得られるＭ_ｂを^～Ｍ_ｂとし、最適なＭ_ｂを

【0061】

【数18】

とする。このとき、

【0062】

【数19】

が成り立つ。

【0063】

（略証）
ルーティングの確率が互いに独立であることを用いると、相互情報量Ｉ（Ｓ；Ｙ^Ｍ｜Ｄ_ｂ－１）は

【0064】

【数20】

の関数として単調ＤＲ劣モジュラ［非特許文献４］という性質を持つことが示せる。一般に単調ＤＲ劣モジュラ関数の最大化問題は貪欲法により（１－１／ｅ）－近似を達成できることが知られている［非特許文献５］。（証終）
最後に、Ａｌｇｏｒｉｔｈｍ１の２行目にあったＳｔａｔｅＳｐａｃｅＲｅｄｕｃｔｉｏｎの処理について説明を行う。この処理は、あらかじめあり得ない状態をＳから取り除いておくことで、Ａｌｇｏｒｉｔｈｍ１の実行時間を短縮するためのものである。一般に行列Ｕには０や１を値に持つ成分が多く含まれている。

【0065】

実際、一つのグループｃは、ネットワーク全体のうちごく一部の枝しか含まないのが通常であるので０の成分が多く、また同一グループ内の監視パスは一部で共通の枝を経由していることも多いから１の成分が多くなる。加えて、次のような自明な命題も成り立つ：「ｕ_ｉ（ｓ）＝１（０）とする。このとき、もしグループｃ_ｉが実行されて結果が１（０）であったならば、真の状態はｓではない」。以上を踏まえて、次の定義を導入する。

【0066】

［定義］（除去可能な状態）：グループｃ_ｉを実行し結果１（０）が得られたとき、ｕ_ｉ（ｓ）＝０（１）を満たす状態ｓは除去可能である。

【0067】

明らかに除去可能な状態は状態空間Ｓから除外してよい。また次の補題が成り立つ。

【0068】

［補題］：テストξを実行したとき除去可能な状態の個数の期待値Ｒ（Ｕ，ξ）は下記の数式５で与えられる。

【0069】

【数21】

ここでδ_ｄ（ｘ）＝１（ｘ＝ｄ）、δ_ｄ（ｘ）＝０（その他）であり（ｄ＝０，１）、０^０＝１である。特にξ＝ｅ_ｌ（第ｌ成分のみが１であるような単位ベクトル）のときは下記の数式６となる。

【0070】

【数22】

ここで、

【0071】

【数23】

である。

【0072】

（略証）
期待値の線形性より

【0073】

【数24】

となる。各グループの実行がベルヌーイ試行であることを踏まえると、

【0074】

【数25】

と記述できるので、これの余事象をとってｉについて和を取ればよい。数式６はξ＝ｅ_ｌを代入して計算し、不等式は

【0075】

【数26】

から得られる。（証終）
上の補題を基に、ＳｔａｔｅＳｐａｃｅＲｅｄｕｃｔｉｏｎの処理をまとめたものが、図４のＰｒｏｃｅｄｕｒｅ３である。各グループｃ_ｌに対して数式６を計算し、それを最大化するｃ_{ｌ＿ｍａｘ}を得る。次にｃ_{ｌ＿ｍａｘ}を含むようなテストξを任意に選んで実行する。実行結果に応じて除去可能な状態をＳから除外し、行列Ｕも小さくする。以上の工程をＮ_ｉｔｅｒ回繰り返す。

【0076】

なお、数式６の代わりに数式５を最大化するξを任意に選んで実行するようにしてもよい。数式５や数式６は相互情報量の計算よりも軽量なので、結果的にＡｌｇｏｒｉｔｈｍ１の総計算時間が小さくなる。

【0077】

（実施例）
上記の処理の実施例として、ネットワーク障害箇所特定装置１００の構成例と、その構成を用いた処理手順例を説明する。

【0078】

図５に、ネットワーク障害箇所特定装置１００の構成例を示す。図５に示すように、ネットワーク障害箇所特定装置１００は、入力用ＵＩ１１０、状態数削減部１２０、テスト実行部１３０、相互情報量最大化部１４０、事後分布計算部１５０、出力用ＵＩ１６０を有する。状態数削減部１２０、テスト実行部１３０、事後分布計算部１５０は、図示のとおりに対象ネットワーク２００と接続している。なお、「状態数削減部１２０＋相互情報量最大化部１４０」をテスト最適化部と呼んでもよい。また、事後分布計算部１５０をテスト結果分析部と呼んでもよい。

【0079】

上記の構成を備えるネットワーク障害箇所特定装置１００の処理手順を図６のフローチャートを参照して説明する。

【0080】

Ｓ１０１において、まず入力用ＵＩ１１０にアルゴリズム実行に必要なデータやパラメータ（事前分布Ｐｒ（ｓ）、Ｕ、Ｎ_Ｂ、Ｂなど）を入力する。Ｓ１０２において、これらを基に状態数削減部１２０がＰｒｏｃｅｄｕｒｅ３に従いξを決定し、それをテスト実行部１３０に渡す。

【0081】

Ｓ１０３において、テスト実行部１３０は、ｐｉｎｇを始めとする疎通性確認プログラムなどを用いて、テストを対象ネットワーク２００で実行する。再びＳ１０２において、状態数削減部１２０が、得られた結果を基に、Ｐｒｏｃｅｄｕｒｅ３に従って、次のξを決定する。

【0082】

Ｓ１０２～Ｓ１０３を定められた回数実施したら、次に、Ｓ１０４において、相互情報量最大化部１４０が、Ａｌｇｏｒｉｔｈｍ１の貪欲法に従ってＭを作成する。これをテスト実行部１３０に渡して、Ｓ１０５において対象ネットワーク２００でテストを実行する。

【0083】

その結果は事後分布計算部１５０に渡され、Ｓ１０６において、ベイズ推定の枠組みに従って事後分布を計算する。得られた事後分布は、相互情報量最大化部１４０に渡され、Ａｌｇｏｒｉｔｈｍ１のループに従い、以上の工程（Ｓ１０４～Ｓ１０６）を繰り返す。決められた回数実施したら、最終的な事後分布から、最尤値として推定状態を出力用ＵＩ１６０に出力する。Ｓ１０７において、出力用ＵＩが推定状態を出力する。

【0084】

（効果について）
以上説明した本実施の形態に係る技術により、確率ルーティング下において限られた回数のパス測定でできるだけ正確に障害箇所を特定することが可能となる。当該技術では、障害特定に有効なパス測定を優先的に行うため、障害特定までに要するパス測定が少数に抑えられ、障害特定の短期化、ネットワーク負荷の削減が期待できる。

【0085】

図７の３つのネットワークデータ［非特許文献６］を用いて評価を行った。図７における＃ｆａｉｌｕｒｅｓは同時に故障する枝数を表し、｜Ｓ_ｋ｜はあり得る状態の総数である。各ネットワークに対し以下のような設定を考える。

【0086】

グループ数は｜Ｃ｜＝３｜Ｖ｜で、各ノードに対して、それをＳノードとしたとき、ランダムに選んだ３つのノードをＤノードとして、ノードペア（グループ）を決めた。各ノードペアに対して、最短パス、二番目に短いパス、三番目に短いパスを監視パスとみなした（｜Ａ｜＝９｜Ｖ｜）。各グループに対してｉ番目に短いパスは確率

【0087】

【数27】

で選択されるようにした（ｌ_ｉはパスの長さ）。Ｓノードを同じくする３つのグループを一度ずつ実行するものを一つのプローブテストξとみなし、全部で｜Ｘ｜＝｜Ｖ｜パターンのテストを考えた。初期状態分布Ｐｒ（ｓ）は一様とし、Ｎ_ｙ＝３０とした。また、Ｐｒｏｃｅｄｕｒｅ３による状態削減はＮ_ｉｔｅｒ＝１０として実施した。

【0088】

本実施の形態に係る技術（ＰＭと記す）の他に、比較として、Ｒａｎｄｏｍ、ＬＳ［非特許文献２］、ＬＡＳＳＯ［非特許文献３］を実施した。Ｒａｎｄｏｍは本実施の形態の手法において、相互情報量を用いずに、ランダムにξを選択したものである。

【0089】

ＬＳとＬＡＳＳＯは確率ルーティングにおけるネットワークトモグラフィーとして提案された非アダプティブなアプローチによる既存手法である。ＬＡＳＳＯに関してはハイパーパラメータλを０．０００１、０．００１、０．０１と変えた場合に実施した。

【0090】

評価指標としては正答率を用いた。故障枝が２本ある状態に対しては、２つとも特定して初めて正解とした。Ｍｉｓｓｏｕｒｉについては真の状態全パターンに対して、ＩＯＮとＮｔｅｌｏｓについては、真の状態５０パターン（ランダムに選択）に対して、実験を行い、正答率を算出した。

【0091】

実験の結果を図８～図１０に示す。各図において横軸が総テスト数Ｎ、縦軸が正答率である。本実施の形態に係る方法ＰＭが既存手法ＬＳ、ＬＡＳＳＯよりも高い性能を示していることがわかる。例えば正答率０．９６を超すのに、最善の既存手法では１６０（Ｍｉｓｓｏｕｒｉ）、３２０（ＩＯＮ）、６４０（Ｎｔｅｌｏｓ）のテスト数を要しているのに対し、ＰＭではそれぞれ２２、３４、３４のテスト数で十分である。また、ＰＭはＲａｎｄｏｍの結果も上回っており、相互情報量を用いることの有用性がわかる。

【0092】

（ハードウェア構成例）
ネットワーク障害箇所特定装置１００は、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。

【0093】

すなわち、ネットワーク障害箇所特定装置１００は、コンピュータに内蔵されるＣＰＵやメモリ等のハードウェア資源を用いて、ネットワーク障害箇所特定装置１００で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体（可搬メモリ等）に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。

【0094】

図１１は、上記コンピュータのハードウェア構成例を示す図である。図１１のコンピュータは、それぞれバスＢＳで相互に接続されているドライブ装置１０００、補助記憶装置１００２、メモリ装置１００３、ＣＰＵ１００４、インタフェース装置１００５、表示装置１００６、入力装置１００７、出力装置１００８等を有する。

【0095】

当該コンピュータでの処理を実現するプログラムは、例えば、ＣＤ－ＲＯＭ又はメモリカード等の記録媒体１００１によって提供される。プログラムを記憶した記録媒体１００１がドライブ装置１０００にセットされると、プログラムが記録媒体１００１からドライブ装置１０００を介して補助記憶装置１００２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１００１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１００２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

【0096】

メモリ装置１００３は、プログラムの起動指示があった場合に、補助記憶装置１００２からプログラムを読み出して格納する。ＣＰＵ１００４は、メモリ装置１００３に格納されたプログラムに従って、ライトタッチ維持装置１００に係る機能を実現する。インタフェース装置１００５は、ネットワーク等に接続するためのインタフェースとして用いられる。表示装置１００６はプログラムによるＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）等を表示する。入力装置１００７はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置１００８は演算結果を出力する。

【0097】

（付記）
本明細書には、少なくとも下記各項のネットワーク障害箇所特定装置、ネットワーク障害箇所特定方法、及びプログラムが開示されている。
（第１項）
対象ネットワークの障害箇所を特定するためのネットワーク障害箇所特定装置であって、
前記対象ネットワークに対して実行すべき最適なパス測定のテストを算出するテスト最適化部と、
前記テスト最適化部により算出されたテストを前記対象ネットワークに対して実行するテスト実行部と、
前記テスト実行部によるテストの結果に応じてネットワークの状態を絞り込むテスト結果分析部と、を備え、
前記テスト最適化部が、前記テスト結果分析部により得られた分析結果を用いてテストを算出し、前記テスト実行部がテストを実行し、前記テスト結果分析部が、テストの結果に応じてネットワークの状態を絞り込む処理を、１回以上繰り返す
ネットワーク障害箇所特定装置。
（第２項）
前記対象ネットワークにおけるルーティング情報は、発着ノードに対してそれらを結ぶパスが一意に定まらず、確率的に決定され、テストにおいてどのパスが選択されたかは観測できず、その確率分布のみ利用可能である
第１項に記載のネットワーク障害箇所特定装置。
（第３項）
前記テスト最適化部は、テストの実行結果を表す確率変数と前記対象ネットワークの状態を表す確率変数の間の相互情報量の最大化問題の最適解あるいは近似最適解であるテストを選出する
第１項又は第２項に記載のネットワーク障害箇所特定装置。
（第４項）
前記テスト最適化部は、テストの実行結果に基づいて、候補として除外できるネットワーク状態の個数の期待値が大きくなるようなテストを選出する
第１項ないし第３項のうちいずれか１項に記載のネットワーク障害箇所特定装置。
（第５項）
前記テスト結果分析部は、ネットワーク状態を表す確率分布を、テストの実行結果に基づいて、ベイズ推定の枠組みに従って更新する
第１項ないし第３項のうちいずれか１項に記載のネットワーク障害箇所特定装置。
（第６項）
対象ネットワークの障害箇所を特定するためのネットワーク障害箇所特定装置が実行するネットワーク障害箇所特定方法であって、
前記対象ネットワークに対して実行すべき最適なパス測定のテストを算出するテスト最適化ステップと、
前記テスト最適化ステップにより算出されたテストを前記対象ネットワークに対して実行するテスト実行ステップと、
前記テスト実行ステップによるテストの結果に応じてネットワークの状態を絞り込むテスト結果分析ステップと、を備え、
前記テスト結果分析ステップにより得られた分析結果を用いて前記テスト最適化ステップによりテストを算出し、前記テスト実行ステップによりテストを実行し、前記テスト結果分析ステップによりテストの結果に応じてネットワークの状態を絞り込む処理を、１回以上繰り返す
ネットワーク障害箇所特定方法。
（第７項）
コンピュータを、第１項ないし第５項のうちいずれか１項に記載のネットワーク障害箇所特定装置における各部として機能させるためのプログラム。

【0098】

以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

【符号の説明】

【0099】

１００ネットワーク障害箇所特定装置
１１０入力用ＵＩ
１２０状態数削減部
１３０テスト実行部
１４０相互情報量最大化部
１５０事後分布計算部
１６０出力用ＵＩ
１０００ドライブ装置
１００１記録媒体
１００２補助記憶装置
１００３メモリ装置
１００４ＣＰＵ
１００５インタフェース装置
１００６表示装置
１００７入力装置
１００８出力装置

【図1】