特許7506229 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ソフトバンクモバイル株式会社の特許一覧 ▶ 国立大学法人大阪大学の特許一覧

特許7506229診断装置、診断方法、診断プログラム、及び診断システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2024-06-17

(45)【発行日】2024-06-25

(54)【発明の名称】診断装置、診断方法、診断プログラム、及び診断システム

(51)【国際特許分類】

H04L 41/0631 20220101AFI20240618BHJP

H04L 41/16 20220101ALI20240618BHJP

【ＦＩ】

H04L41/0631

H04L41/16

【請求項の数】 10

(21)【出願番号】P 2023113966

(22)【出願日】2023-07-11

【審査請求日】2023-10-17

(73)【特許権者】

【識別番号】501440684

【氏名又は名称】ソフトバンク株式会社

(73)【特許権者】

【識別番号】504176911

【氏名又は名称】国立大学法人大阪大学

(74)【代理人】

【識別番号】100079108

【弁理士】

【氏名又は名称】稲葉良幸

(74)【代理人】

【識別番号】100109346

【弁理士】

【氏名又は名称】大貫敏史

(74)【代理人】

【識別番号】100117189

【弁理士】

【氏名又は名称】江口昭彦

(74)【代理人】

【識別番号】100134120

【弁理士】

【氏名又は名称】内藤和彦

(72)【発明者】

【氏名】山内啓嗣

(72)【発明者】

【氏名】梶井宏孝

(72)【発明者】

【氏名】木村達明

【審査官】和平悠希

(56)【参考文献】

【文献】特開２０２３－００３９１６（ＪＰ，Ａ）

【文献】特開２０２０－０６８５１０（ＪＰ，Ａ）

【文献】特開２０１９－１８５１８３（ＪＰ，Ａ）

【文献】特開２０１５－１９２１６３（ＪＰ，Ａ）

【文献】国際公開第２０１４／１１２１６２（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｌ１２／００－１２／６６

Ｈ０４Ｌ４１／００－１０１／６９５

(57)【特許請求の範囲】

【請求項1】

通信ネットワークに含まれる複数の通信装置の中から、所定の通信サービスを収容する所定の通信装置群を特定する特定部と、
前記特定された所定の通信装置群に基づいて、該通信装置群に含まれる所定の通信装置に実行させるコマンド系列を生成するコマンド生成部と、
前記生成されたコマンド系列を前記所定の通信装置に実行させ、該所定の通信装置の動作状態を示す所定のコマンド応答を収集する収集部と、
前記所定のコマンド応答に基づいて、前記所定の通信サービスにおける故障種別を判別する判別部と、を備え、
前記コマンド生成部は、深層強化学習によって学習された学習済モデルに、前記特定された所定の通信装置群を与えて前記コマンド系列を得る、
診断装置。

【請求項2】

前記学習済モデルは、それぞれがディープニューラルネットワークである、前記通信ネットワークにおける通信サービスを収容する複数の通信装置から収集されたコマンド応答に基づく状態空間ベクトルを入力として、前記コマンド系列に含まれるコマンドを決定するための価値ネットワークと、複数の前記状態空間ベクトルに対して最大遅延報酬を推定するための目標価値ネットワークと、を用いて学習される、
請求項１に記載の診断装置。

【請求項3】

前記学習済モデルは、前記価値ネットワークにおける重みが更新される周期と異なる周期において、前記目標価値ネットワークを前記価値ネットワークで更新するように、複数の状態空間ベクトルを用いて学習される、
請求項２に記載の診断装置。

【請求項4】

前記価値ネットワークにおける重みは、前記複数の状態空間ベクトルのそれぞれにおいて更新され、前記目標価値ネットワークは、前記複数の状態空間ベクトルごとに前記価値ネットワークで更新される、
請求項３に記載の診断装置。

【請求項5】

前記通信ネットワークにおける通信サービスを収容する所定の通信装置群を環境として与えられた深層強化学習により、前記学習済モデルを生成する学習部をさらに備える、
請求項１に記載の診断装置。

【請求項6】

判別部は、前記通信ネットワークにおける通信サービスを収容する複数の通信装置から収集されたコマンド応答に基づいて生成された特徴ベクトルと、該特徴ベクトルに対応する故障種別を示すラベルと、を対応づけた教師データを用いて学習された判別用学習済モデルに、前記所定のコマンド応答に基づいて生成された所定の特徴ベクトルを入力し、前記判別用学習済モデルから出力される故障種別を示すラベルを取得する、
請求項１に記載の診断装置。

【請求項7】

前記判別された故障種別に関する情報を出力する出力部をさらに備える、
請求項１に記載の診断装置。

【請求項8】

通信ネットワークに含まれる複数の通信装置の中から、所定の通信サービスを収容する所定の通信装置群を特定するステップと、
前記特定された所定の通信装置群に基づいて、該所定の通信装置群に含まれる所定の通信装置に実行させるコマンド系列を生成するステップと、
前記生成されたコマンド系列を前記所定の通信装置に実行させ、該所定の通信装置の動作状態を示す所定のコマンド応答を収集するステップと、
前記所定のコマンド応答に基づいて、前記所定の通信サービスにおける故障種別を判別するステップと、を備え、
前記コマンド系列を生成するステップは、深層強化学習によって学習された学習済モデルに、前記特定された所定の通信装置群を与えて前記コマンド系列を得ることを含む、
診断方法。

【請求項9】

コンピュータに実行させるための診断プログラムであって、
通信ネットワークに含まれる複数の通信装置の中から、所定の通信サービスを収容する所定の通信装置群を特定するステップと、
前記特定された所定の通信装置群に基づいて、該所定の通信装置群に含まれる所定の通信装置に実行させるコマンド系列を生成するステップと、
前記生成されたコマンド系列を前記所定の通信装置に実行させ、該所定の通信装置の動作状態を示す所定のコマンド応答を収集するステップと、
前記所定のコマンド応答に基づいて、前記所定の通信サービスにおける故障種別を判別するステップと、を備え、
前記コマンド系列を生成するステップは、深層強化学習によって学習された学習済モデルに、前記特定された所定の通信装置群を与えて前記コマンド系列を得ることを含む、
診断プログラム。

【請求項10】

通信ネットワークに含まれる複数の通信装置と診断装置とを備える診断システムであって、
前記通信装置は、
前記通信装置の動作状態を管理する管理部と、
前記通信装置の動作状態を示すコマンド応答を前記診断装置に送信する送信部と、
を備え、
前記診断装置は、
前記複数の通信装置の中から、所定の通信サービスを収容する所定の通信装置群を特定する特定部と、
前記特定された所定の通信装置群に基づいて、該所定の通信装置群に含まれる所定の通信装置に実行させるコマンド系列を生成するコマンド生成部と、
前記生成されたコマンド系列を前記所定の通信装置に実行させ、該所定の通信装置の動作状態を示す所定のコマンド応答を収集する収集部と、
前記所定のコマンド応答に基づいて、前記所定の通信サービスにおける故障種別を判別する判別部と、
を備え、
前記コマンド生成部は、深層強化学習によって学習された学習済モデルに、前記特定された所定の通信装置群を与えて前記コマンド系列を得る、
診断システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、診断装置、診断方法、診断プログラム、及び診断システムに関する。

【背景技術】

【0002】

例えば、特許文献１には、通信事業者（キャリア）が管理するＩＰ中継網で利用するネ
ットワーク装置及びその通信経路の監視技術が開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２００５－１８４６３８号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

通信事業者は、通信ができない等の申告をユーザから受けた場合、通信ネットワークを構成する各通信機器に対して様々なコマンドを投入し、その応答結果を確認することで、故障診断を行っている。

【0005】

しかしながら、近年における通信ネットワークの規模及びサービスの拡大に応じて、通信ネットワークを構成する通信機器の数及び種別が多様化している。更に、通信機器ごとに診断方法も異なっていることから、通信事業者が行う故障診断業務は、非常に煩雑化している。

【0006】

本発明はこのような事情に鑑みてなされたものであり、通信ネットワークにおける故障診断を効率的に行うことのできる診断装置、診断方法、診断プログラム、及び診断システムを提供することを目的の１つとする。

【課題を解決するための手段】

【0007】

本発明の一側面に係る診断装置は、通信ネットワークに含まれる複数の通信装置の中から、所定の通信サービスを収容する所定の通信装置群を特定する特定部と、特定された所定の通信装置群に基づいて、該通信装置群に含まれる所定の通信装置に実行させるコマンド系列を生成するコマンド生成部と、生成されたコマンド系列を前記所定の通信装置に実行させ、該所定の通信装置の動作状態を示す所定のコマンド応答を収集する収集部と、所定のコマンド応答に基づいて、所定の通信サービスにおける故障種別を判別する判別部と、を備え、コマンド生成部は、深層強化学習によって学習された学習済モデルに、特定された所定の通信装置群を与えてコマンド系列を得る。

【0008】

本発明の一側面に係る診断方法は、通信ネットワークに含まれる複数の通信装置の中から、所定の通信サービスを収容する所定の通信装置群を特定するステップと、特定された所定の通信装置群に基づいて、該所定の通信装置群に含まれる所定の通信装置に実行させるコマンド系列を生成するステップと、生成されたコマンド系列を所定の通信装置に実行させ、該所定の通信装置の動作状態を示す所定のコマンド応答を収集するステップと、所定のコマンド応答に基づいて、所定の通信サービスにおける故障種別を判別するステップと、を備え、コマンド系列を生成するステップは、深層強化学習によって学習された学習済モデルに、特定された所定の通信装置群を与えてコマンド系列を得ることを含む。

【0009】

本発明の一側面に係る診断プログラムは、コンピュータに実行させるための診断プログラムであって、通信ネットワークに含まれる複数の通信装置の中から、所定の通信サービスを収容する所定の通信装置群を特定するステップと、特定された所定の通信装置群に基づいて、該所定の通信装置群に含まれる所定の通信装置に実行させるコマンド系列を生成するステップと、生成されたコマンド系列を所定の通信装置に実行させ、該所定の通信装置の動作状態を示す所定のコマンド応答を収集するステップと、所定のコマンド応答に基づいて、所定の通信サービスにおける故障種別を判別するステップと、を備え、コマンド系列を生成するステップは、深層強化学習によって学習された学習済モデルに、特定された所定の通信装置群を与えてコマンド系列を得ることを含む。

【0010】

本発明の一側面に係る診断システムは、通信ネットワークに含まれる複数の通信装置と診断装置とを備える診断システムであって、通信装置は、通信装置の動作状態を管理する管理部と、通信装置の動作状態を示すコマンド応答を前記診断装置に送信する送信部と、を備え、診断装置は、複数の通信装置の中から、所定の通信サービスを収容する所定の通信装置群を特定する特定部と、特定された所定の通信装置群に基づいて、該所定の通信装置群に含まれる所定の通信装置に実行させるコマンド系列を生成するコマンド生成部と、生成されたコマンド系列を前記所定の通信装置に実行させ、該所定の通信装置の動作状態を示す所定のコマンド応答を収集する収集部と、所定のコマンド応答に基づいて、所定の通信サービスにおける故障種別を判別する判別部と、を備え、コマンド生成部は、深層強化学習によって学習された学習済モデルに、特定された所定の通信装置群を与えて前記コマンド系列を得る。

【発明の効果】

【0011】

本発明によれば、通信ネットワークにおける故障診断を効率的に行うことができる。

【図面の簡単な説明】

【0012】

【図1】図１は、一実施形態における診断システムの概略構成の一例を示す構成図である。

【図2】図２は、一実施形態における診断装置及び通信装置のハードウェア構成の一例を示す構成図である。

【図3】図３は、一実施形態における通信装置の機能ブロック構成の一例を示す構成図である。

【図4】図４は、一実施形態における診断装置の機能ブロック構成の一例を示す構成図である。

【図5】図５は、ＮＷ構成の一例を示す図である。

【図6】図６は、通信装置で実行されるコマンド及び確認ルールの一例を示す図である。

【図7】図７は、状態ベクトルを説明するための図である。

【図8】図８は、状態ベクトルに付与されたラベルの一例を示す図である。

【図9】図９は、一実施形態における診断装置が行う学習済モデル生成処理の一例を説明するためのフローチャートである。

【図10】図１０は、特徴ベクトルを可視化した例を示す図である。

【図11】図１１は、学習済モデル生成処理における繰り返しの流れを説明する図である。

【図12】図１２は、状態空間ベクトルを説明するための図である。

【図13】図１３は、経験リプレイ処理を説明するための図である。

【図14】図１４は、コマンド決定処理の一例を説明するためのフローチャートである。

【図15】図１５は、エミュレータ実行処理の一例を説明するためのフローチャートである。

【図16】図１６は、学習済モデルを生成するときの深層強化学習におけるＱ値の一例を示す図である。

【図17】図１７は、コマンド系列の探索スコアの分布の一例を示すグラフである。

【図18】図１８は、一実施形態における診断装置が行う故障種別判別処理の一例を説明するためのフローチャートである。

【発明を実施するための形態】

【0013】

以下に本発明の実施形態を説明する。以下の図面の記載において、同一または類似の部分には同一または類似の符号で表している。但し、図面は模式的なものである。従って、具体的な寸法等は以下の説明を照らし合わせて判断するべきものである。また、図面相互間においても互いの寸法の関係や比率が異なる部分が含まれていることは勿論である。さらに、本発明の技術的範囲は、当該実施形態に限定して解するべきではない。

【0014】

＜診断システム構成＞
まず、図１を参照しつつ、一実施形態に従う診断システムの概略構成について説明する。図１は、一実施形態における診断システム１の概略構成の一例を示す構成図である。

【0015】

図１に示すように、診断システム１は、診断装置１０と、複数の通信ネットワークＮ１からＮ４と、ユーザネットワークＵと、を含む。

【0016】

通信ネットワークＮ１からＮ４は、それぞれ、通信事業者が管理する通信ネットワークである。通信ネットワークＮ１からＮ４は、通信事業者が管理する施設に配置される複数の通信装置２０－１から２０－１７により構成されている。通信装置２０は、例えば、ルータ、スイッチ、ハブ、ファイアウォール、ＯＮＵ（Optical Network Unit）等のネットワーク機器である。

【0017】

以下の説明において、複数の通信装置２０－１から２０－１７を区別しない場合、通信装置２０と記載する。なお、通信ネットワークＮ１からＮ４に含まれる通信装置２０の数は、図１に示す例に限定されない。通信ネットワークＮ１～Ｎ４を構成する通信装置２０の数は、制限されるものではなく、例えば、１つであってもよいし、２以上の複数であってもよい。また、図１に示す例では、通信事業者が管理する通信ネットワークとして通信ネットワークＮ１からＮ４の４つが図示されているが、通信ネットワークの数は、この例に限定されない。通信事業者が管理する通信ネットワークの数は、制限されるものではなく、例えば１つ、２つ、３つ、又は５つ以上であってもよい。以下の説明において、通信ネットワークＮ１からＮ４を区別しない場合、通信ネットワークＮと記載する。図示を省略するが、通信ネットワークＮのうちの少なくとも１つ、例えば通信ネットワークＮ４は、インターネットに接続されていてもよい。

【0018】

ユーザネットワークＵは、通信事業者が提供するサービスのユーザが管理する通信ネットワークである。ユーザが管理する通信ネットワークには、例えば、個人ユーザの宅内における無線ＬＡＮ通信環境や、企業ユーザのネットワーク等が含まれる。図１の例では、ユーザネットワークＵのみが図示されているが、ユーザネットワークの数に制限はない。

【0019】

通信ネットワークＮ１は、ユーザネットワークＵと接続することから、アクセスネットワーク又はアクセス網と呼ばれることがある。一方、通信ネットワークＮ２からＮ４は、コアネットワーク又はコア網と呼ばれることがある。

【0020】

診断装置１０は、通信事業者が管理する通信ネットワークＮ１からＮ４を構成する複数の通信装置２０の動作状態を監視する装置である。より具体的には、診断装置１０は、各通信装置２０から受信したコマンド応答に基づいて、通信装置２０が有する各インタフェースの状態や、通信装置２０本体の処理負荷等を監視する。通信装置２０が備えるインタフェースとは、ケーブルを接続する物理的なインタフェース、及び／又は、物理的なインタフェース内に作成される論理的なインタフェースを意味する。論理的なインタフェースは、仮想的なインタフェースと呼ばれることもある。また、通信装置２０から受信するコマンド応答は、診断装置１０が生成したコマンドを通信装置２０において実行することで得られるものであり、当該コマンドに対する通信装置２０の応答結果である。

【0021】

ここで、現在、広く行われている、ネットワーク運用業務における通信サービス故障対応業務の概要について説明する。まず、通信サービス故障を検知したユーザは、通信事業者の窓口に対して、各ユーザに割り振られたサービスＩＤを含んだ申告を行う。通信事業者のオペレータは、サービスＩＤをキーにデータベース等を検索し、ユーザが利用する通信サービスを収容する通信ネットワーク、例えばアクセスネットワークや中継ネットワーク等、及び当該通信ネット―ワークに含まれる通信装置２０を確認する。次に、オペレータは、情報処理装置等を用いて、通信装置２０に対して遠隔ログインして故障診断を行うためのコマンドを実行する。そして、オペレータは、実行したコマンドに対する応答結果を複数の通信装置２０のそれぞれから受信し、故障被疑箇所を特定する。

【0022】

さらに、オペレータは、故障対応システムを用いて、故障復旧対応に関する作業者手配や現地における復旧作業指示、正常性確認結果等の情報連携を、作業者が利用する端末との間で行う。

【0023】

一般的に、故障診断を行うためのコマンドは、多種多様なものが存在しており、各コマンドには、応答結果をもとに故障診断を行うための確認ルールが存在する。確認ルールは、通信ネットワークによって確認内容が異なっており、それに応じて各通信ネットワーク及び各通信装置２０で実行すべきコマンドも異なってくる。このため、ある故障に対して、故障箇所、及び／又は、故障原因の特定といった故障診断を行うためには、ユーザの通信サービスが収容される全ての通信装置２０に関するコマンドの応答結果を確認し、その結果をもとに判断する必要がある。また、通信装置２０ごとに実行すべきコマンドは、通常、１つだけではなく大量に存在し、またその応答結果も目視で判断することを前提とした複雑なテキストメッセージである。従って、現状の故障診断業務は、オペレータの専門知識、熟練の技能、長年の経験等に依存する手作業を中心としたものとなっている。

【0024】

（診断システムの概要）
診断装置１０は、通信事業者が提供するサービスを利用するユーザから、例えば電話やメール等を介して通信ができない等の申告を受け付けると、申告されたサービスＩＤをキーに、通信ネットワークＮ１からＮ３に含まれる複数の通信装置２０の中から、当該ユーザの通信サービスを収容する複数の通信装置２０を特定する。具体的には、図１に示す例では、ユーザの通信サービスが通る経路は、太線で表されている。よって、ユーザの通信サービスを収容する複数の通信装置２０は、通信装置２０－３、２０－４、２０－８、２０－９、及び２０－１３である。次に、診断装置１０は、特定された、当該ユーザの通信サービスを収容する複数の通信装置２０に実行させ、通信装置２０の動作状態を確認するコマンドを含むコマンド系列を生成する。そして、診断装置１０は、当該複数の通信装置２０のそれぞれに遠隔ログインし、通信装置２０の動作状態を確認するコマンドを実行することで、各通信装置２０から、各通信装置２０の動作状態を示すコマンド応答を収集する。次に、診断装置１０は、収集したコマンド応答結果に基づいて、故障種別を判別する。

【0025】

なお、本実施形態において、「故障事象」は、後述する状態ベクトルを構成するものであり、「故障種別」は、各故障事象に付与され、推定されるものである。言い換えると、「故障事象」は、“実際に生じた”故障の内容を意味しており、「故障種別」は、“推定される”故障の内容を意味する。

【0026】

＜ハードウェア構成＞
次に、図２を参照しつつ、一実施形態に従う診断装置及び通信装置のハードウェア構成について説明する。図２は、一実施形態における診断装置１０及び通信装置２０のハードウェア構成の一例を示す構成図である。

【0027】

図２に示すように、診断装置１０及び通信装置２０は、それぞれ、例えば、プロセッサ３１、メモリ３２、記憶装置３３、通信装置３４、入力装置３５、及び出力装置３６を備える。

【0028】

プロセッサ３１は、診断装置１０又は通信装置２０の各部の動作を制御するように構成されている。プロセッサ３１は、例えば、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＡＰＵ（Accelerated Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）、ＦＰＧＡ（Field Programmable Gate Array）、ＳｏＣ（System-on-a-chip）等の集積回路を含んで構成される。

【0029】

メモリ３２及び記憶装置３３は、それぞれ、プログラムやデータ等を記憶するように構成されている。メモリ３２は、例えば、ＲＯＭ（Read Only Memory）、ＥＰＲＯＭ（Erasable Programmable ROM）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ROM）及び／又はＲＡＭ（Random Access Memory）等から構成される。記憶装置３３は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）及び／又はｅＭＭＣ（embedded Multi Media Card）等のストレージから構成される。

【0030】

通信装置３４は、有線及び／又は無線ネットワークを介して通信を行うように構成されている。通信装置２４は、例えば、ネットワークカード、通信モジュール等を含んで構成される。また、診断装置１０及び通信装置２０の少なくとも一方が、図示を省略するアンテナを備える場合、通信装置３４は、アンプ、無線信号に関する処理を行うＲＦ（Radio Frequency）装置と、ベースバンド信号処理を行うＢＢ（BaseBand）装置とを含んで構成されていてもよい。

【0031】

ＲＦ装置は、例えば、ＢＢ装置から受信したデジタルベースバンド信号に対して、Ｄ／Ａ（Digital to Analog）変換、変調、周波数変換、電力増幅等を行うことで、アンテナから送信する無線信号を生成する。また、ＲＦ装置は、アンテナから受信した無線信号に対して、周波数変換、復調、Ａ／Ｄ（Analog to Digital）変換等を行うことでデジタルベースバンド信号を生成してＢＢ装置に送信する。ＢＢ装置は、デジタルベースバンド信号をＩＰパケットに変換する処理、及び、ＩＰパケットをデジタルベースバンド信号に変換する処理を行う。

【0032】

入力装置３５は、ユーザの操作により情報を入力できるように構成されている。入力装置３５は、例えば、キーボード、タッチパネル、マウス、及び／又はマイク等を含んで構成される。

【0033】

出力装置３６は、情報を出力するように構成されている。出力装置３６は、例えば液晶ディスプレイ、ＥＬ(Electro Luminescence)ディスプレイ、ＬＥＤ(Light Emitting Diode)ディスプレイ等の表示装置、及び／又はスピーカ等を含んで構成される。

【0034】

また、診断装置１０及び通信装置２０のそれぞれは、図示を省略するが、例えば、ＧＰＳ（Global Positioning System）受信機、方位センサ、重力センサ、温度センサ、加速度センサ等の各種のセンサ、指紋、網膜、虹彩、顔、声紋等の各種の生体認証機能、カメラ、マイク、スピーカ、ライト等の各種のデバイス、接続端子を含む入出力インタフェース等のうち、少なくとも１つをさらに備えていてもよい。

【0035】

＜機能ブロック構成＞
（通信装置）
次に、図３を参照しつつ、一実施形態に従う通信装置の機能ブロック構成について説明する。図３は、一実施形態における通信装置２０の機能ブロック構成の一例を示す構成図である。なお、図３は、本実施形態において説明する機能ブロックを示すためのものであり、通信装置２０が図示以外の機能ブロックを備えることを排除するものではない。

【0036】

図３に示すように、通信装置２０は、機能ブロックとして、記憶部２００と、通信処理部２０１と、管理部２０２と、入力部２０３と、出力部２０４と、を備える。

【0037】

記憶部２００は、ルーティングテーブルや各種の設定情報等、通信装置２０の動作に必要な各種の情報を記憶する。通信処理部２０１は、ルーティングテーブル等に基づいて、受信したデータのルーティングを行う。管理部２０２は、通信装置２０の動作状態、具体的には、ＣＰＵ使用率、メモリ使用率、各インタフェースの状態、データの送受信状態な等、を管理する。入力部２０３は、通信装置２０が備えるコマンド等の入力を受け付ける。出力部２０４は、通信装置２０の動作状態を示すコマンド応答を診断装置１０に送信する。

【0038】

なお、記憶部２００は、通信装置２０が備えるメモリ３２及び記憶装置３３の少なくとも一方を用いて実現されてもよい。また、通信処理部２０１は、通信装置２０が備える通信装置３４を用いて実現されてもよい。また、管理部２０２と、入力部２０３と、出力部２０４とは、通信装置２０のプロセッサ３１が、記憶装置３３に記憶されたプログラムを実行することにより実現されてもよい。また、当該プログラムは、記憶媒体に格納することができる。当該プログラムを格納した記憶媒体は、コンピュータ読み取り可能な非一時的な記憶媒体（Non-transitory computer readable medium）であってもよい。非一時的な記憶媒体は、特に限定されないが、例えば、ＵＳＢ（Universal Serial Bus）メモリ、又はＣＤ－ＲＯＭ（Compact Disc ROM）等の記憶媒体であってもよい。

【0039】

（診断装置）
次に、図４から図８を参照しつつ、一実施形態に従う診断装置の機能ブロック構成について説明する。図４は、一実施形態における診断装置１０の機能ブロック構成の一例を示す構成図である。図５は、ＮＷ構成ＤＢ１００ａの一例を示す図である。図６は、通信装置２０で実行されるコマンド及び確認ルールの一例を示す図である。図７は、状態ベクトルを説明するための図である。図８は、状態ベクトルに付与されたラベルの一例を示す図である。なお、図４は、本実施形態において説明する機能ブロックを示すためのものであり、診断装置１０が図示以外の機能ブロックを備えることを排除するものではない。

【0040】

図４に示すように、診断装置１０は、機能ブロックとして、記憶部１００と、特定部１０１と、コマンド生成部１０２と、収集部１０３と、前処理部１０４と、判別部１０５と、出力部１０６と、学習部１０７と、を備える。

【0041】

記憶部１００は、ＮＷ（Network）構成ＤＢ（Data Base）１００ａ、学習済モデル１００ｂ、コマンド応答ＤＢ１００ｃ、判別用学習済モデル１００ｄ、及び教師データＤＢ１００ｅを記憶するように、構成されている。

【0042】

ＮＷ構成ＤＢ１００ａは、通信ネットワークＮを構成する各通信装置２０に関する情報を格納するためのデータベースである。ＮＷ構成ＤＢ１００ａには、例えば、各通信装置２０の接続関係、通信装置２０の機種、各ユーザの通信サービスを収容する通信装置２０、各通信装置２０において各ユーザの通信サービスを収容するインタフェース及びポートの識別子を示す情報等が格納されている。

【0043】

図５に示す例において、ＮＷ構成ＤＢ１００ａは、各サービスＩＤで特定される通信サービスのトラフィックが、各通信ネットワークＮ１からＮ４において、どの通信装置２０をどの順に通るのかを示す情報を格納している。例えば、サービスＩＤ１の通信サービスのトラフィックは、通信ネットワークＮ１からＮ４において、“Ａ１”、“Ａ２”、“Ｂ１”、“Ｂ２”、“Ｃ１”、“Ｃ２”、“Ｄ１”、及び、“Ｄ２”のそれぞれに対応付けられた、複数の通信装置２０を通ることを示している。なお、図５は一例に過ぎず、各ユーザの通信サービスは、更に多くの通信ネットワークＮや通信装置２０を通過することもあり得る。また、各通信ネットワークＮを構築する通信装置２０には異なる機種の通信装置２０が含まれていてもよい。また、ＮＷ構成ＤＢ１００ａには、各通信装置２０において、サービスＩＤで特定される通信サービスを収容する物理ポート番号又は仮想ポート番号、並びにインタフェース番号等が、サービスＩＤと対応づけて格納されていてもよい。

【0044】

コマンド応答ＤＢ１００ｂは、通信事業者のオペレータ等が故障事象を特定した際に、ユーザの通信サービスを収容する複数の通信装置２０にコマンドを送信することで収集されたコマンド応答を格納する。コマンド応答ＤＢ１００ｂには、過去に故障診断を行った際に収集されたコマンド応答が大量に格納されている。コマンド応答ＤＢ１００ｂは、後述する深層強化学習において、故障事象として使用することを想定している。

【0045】

学習済モデル１００ｃは、コマンド系列を出力するように、深層強化学習により学習されたモデルである。コマンド系列は、故障診断に必要な一連のコマンドであって、１つ以上のコマンドを含んでいる。学習済モデル１００ｃの詳細については、後述する。

【0046】

なお、学習済モデル１００ｃは、後述する学習部１０７によって生成されてもよいし、図示しない他の情報処理装置が生成したものを、受信する等して記憶部１００に記憶されていてもよい。以下の説明では、特に明示する場合を除き、学習済モデル１００ｃは、学習部１０７によって生成されたものとする。

【0047】

判別用学習済モデル１００ｄは、複数の通信装置２０から収集されたコマンド応答に基づいて生成された状態ベクトルを入力すると、推定される故障種別を示すラベルを出力するように学習されたモデルである。判別用学習済モデル１００ｄは、通信ネットワークＮにおける通信サービスを収容する複数の通信装置２０から収集されたコマンド応答に基づいて生成された状態ベクトルと、当該特徴ベクトルに対応する故障種別を示すラベルと、を対応づけた教師データを用いて学習することで生成される。

【0048】

判別用学習済モデル１００ｄには、例えば、決定木（例えばCART、XG Boost等）、ＳＶＭ（サポートベクターマシン）、ニューラルネットワーク、多層ニューラルネットワーク、ランダムフォレスト、ロジスティック回帰分析等、どのようなモデルが利用されてもよい。

【0049】

なお、判別用学習済モデル１００ｄは、学習済モデル１００ｃと同様に、後述する学習部１０７によって生成されてもよいし、図示しない他の情報処理装置が生成したものを、受信する等して記憶部１００に記憶されていてもよい。以下の説明では、特に明示する場合を除き、判別用学習済モデル１００ｄは、学習部１０７によって生成されたものとする。

【0050】

教師データＤＢ１００ｅは、ユーザの通信サービスを収容する複数の通信装置２０から得られたコマンド応答に基づいて生成された状態ベクトルと、故障種別の正解を示すラベルとを対応づけた、教師データを格納する。前述した判別用学習済モデル１００ｄは、当該教師データＤＢ１００ｅを用いて学習されたものであってもよい。教師データＤＢ１００ｅに格納される教師データは、過去の故障診断業務を通じて予め生成されたものであってもよいし、過去に収集された各通信装置２０からの多数のコマンド応答に基づいて生成した特徴ベクトルを、教師なし学習を用いてクラスタリングすることで状態ベクトルを複数のクラスに分類し、各クラスに対し故障種別を示すラベルを付与することで生成されたラベル付き状態ベクトルを利用して生成されたものであってもよい。

【0051】

特定部１０１は、通信ネットワークＮに含まれる複数の通信装置２０の中から、所定の通信サービスを収容する所定の通信装置群を特定するように、構成されている。所定の通信サービスは、診断装置１０が故障種別を調査する対象の通信サービスであり、例えば、ユーザから故障申告を受けたときの当該ユーザの通信サービスであってもよい。

【0052】

所定の通信サービスは、どのような通信サービスも含まれるが、例えば、ユーザネットワークＵから通信ネットワークＮを通ってインターネットに抜ける通信サービス、あるいはその逆、又は、あるユーザネットワークＵ、例えばユーザ企業の拠点Ａから通信ネットワークＮを通って他のユーザネットワークＵ、例えば同一ユーザ企業の拠点Ｂに向ける通信サービス、あるいはその逆、等が挙げられる。

【0053】

コマンド生成部１０２は、特定された所定の通信装置群に基づいて、当該通信装置群に含まれる所定の通信装置２０に実行させるコマンド系列を生成するように、構成されている。所定の通信装置群は、通信ネットワークＮに存在する多数の通信装置２０の中から、調査対象の通信サービスを流れるデータが通過する１つ以上の通信装置２０を意味する。コマンド系列は、故障診断を行うために、所定の通信装置群に含まれる１つ以上の以上の通信装置２０に実行させる、１つ以上のコマンドを含んでいる。

【0054】

より詳細には、コマンド生成部１０２は、学習済モデル１００ｃを用いてコマンド系列を生成するように構成されている。学習済モデル１００ｃは、故障診断に用いる全てのコマンドの種別（以下、「コマンド種別」ともいう）について、それぞれのコマンドの応答結果を含むデータセットを学習することによって生成される。なお、データセットの詳細については、後述する。

【0055】

収集部１０３は、コマンド生成部１０２で特定された所定の通信装置群に含まれる通信装置２０に、コマンド生成部１０２で生成されたコマンド系列を実行させ、所定の通信装置群に含まれる当該通信装置２０の動作状態を示す所定のコマンド応答を収集するように、構成されている。

【0056】

前処理部１０４は、収集部１０３で収集された所定のコマンド応答に基づいて、状態ベクトルを生成するように構成されている。状態ベクトルは、故障診断のために、ユーザの通信サービスを収納する通信装置２０において実行し得る全てのコマンドについて、それぞれのコマンド応答を要素とするベクトルである。前処理部１０４は、収集部１０３で収集された所定のコマンド応答が複数のコマンド応答である場合、コマンド応答ごとに、状態ベクトルを生成する。状態ベクトルの詳細については、後述する。

【0057】

判別部１０５は、収集部１０３で収集された所定のコマンド応答に基づいて、所定の通信サービスにおける故障種別を判別するように構成されている。

【0058】

より詳細には、判別部１０５は、前処理部１０４によって生成された状態ベクトルを判別用学習済モデル１００ｄに入力し、判別用学習済モデル１００ｄから出力される故障種別を示すラベルを取得するように、構成されている。収集部１０３で収集された所定のコマンド応答が複数のコマンド応答であり、前処理部１０４がコマンド応答ごとに状態ベクトルを生成する場合、判別部１０５は、生成された複数の状態ベクトルを判別用学習済モデル１００ｄに入力する。これにより、所定の通信サービスにおける故障種別が判別される。

【0059】

このように、判別用学習済モデル１００ｄに、所定のコマンド応答に基づいて生成された所定の特徴ベクトルを入力し、判別用学習済モデル１００ｄから出力される故障種別を示すラベルを取得することにより、故障種別を容易に判別することができる。

【0060】

出力部１０６は、判別部１０５によって判別された故障種別に関する情報を出力するように構成されている。例えば、出力部１０６は、診断装置１０又は診断装置１０に接続される装置が備えるディスプレイに、当該故障種別を識別子である故障種別ＩＤや故障種別の内容を表す文言等を表示させるようにしてもよい。

【0061】

このように、判別部１０５によって判別された故障種別に関する情報が出力される。これにより、判別種別に関する情報を、診断装置１０のオペレータに容易に通知することができる。

【0062】

学習部１０７は、通信ネットワークおける通信サービスを収容する所定の通信装置群を環境として与えられた深層強化学習により、学習済モデル１００ｃを生成するように構成されている。なお、深層強化学習の詳細については後述する。これにより、特定された所定の通信装置群に含まれる所定の通信装置２０に実行させるコマンド系列を生成する学習済モデルを容易に生成することができる。

【0063】

また、学習部１０７は、教師データＤＢ１００ｅを用いてモデルを学習させることで、判別用学習済モデル１００ｄを生成するように、構成されている。

【0064】

前述したように、コマンド生成部１０２は、特定された、ユーザの通信サービスを収容する複数の通信装置２０に実行させる、故障診断に必要なコマンド系列を生成する。図６に示す例では、通信装置２０ごとにあらかじめ定められた確認ルールに対応する複数のコマンドを含むコマンド系列が生成される。

【0065】

ここで、各ユーザの通信サービスを収容する通信装置２０に対して実行するコマンドの種別は、通信装置２０によって異なる。更に、各ユーザの通信サービスを収容する通信装置２０は、ユーザごとに異なる。

【0066】

そこで、本実施形態では、状態ベクトルの次元が、全てのユーザにおいて同一次元となるようにするため、診断装置１０が管理する、各ユーザの通信サービスを収容する全ての通信装置２０の全てのコマンド数を、状態ベクトルの次元数とする。例えば、各ユーザの通信サービスを収容する全ての通信装置２０の全てのコマンドを合計すると、１２１個のコマンドが存在している場合、状態ベクトルは、１２１次元のベクトルになる。

【0067】

また、通信装置２０からのコマンド応答は、人間が目視で判断することを前提とした複雑なテキストメッセージで構成されている。一方、モデルを学習させて学習済モデル１００ｃを生成するために、コマンド応答を学習用のデータセットとして扱えるようにする必要がある。そこで、診断装置１０の前処理部１０４は、各通信装置２０のコマンドの応答結果と、事前に定義された確認ルールとを照合し、各コマンドの応答内容に対する確認結果を実数に変換することで、状態ベクトルを生成する。実数は、例えば、正常を表す“０”と、異常を表す“１”の２つであってもよいし、更に複数の数値に分類されてもよい。

【0068】

図７に示すように、「通信ネットワーク」は、各ユーザの通信サービスを収容する全ての通信ネットワークＮであり、「通信装置」は、各通信装置２０に設置されている、各ユーザの通信サービスを収容する全ての通信装置２０である。また、「コマンドＩＤ」は、各ユーザの通信サービスを収容する全ての通信装置２０の全てのコマンドを一意に識別する識別子である。例えば、各ユーザの通信サービスを収容する全ての通信装置２０の全てのコマンドの合計が１２１コマンドである場合、Ｃｎ＝Ｃ１２１になる。なお、図７に示す例では、通信ネットワークＮ１～Ｎ４が図示されているが、状態ベクトルを説明する便宜上、図示したものであり、通信ネットワークＮの数は、この例に限定されるものではない。

【0069】

１つの状態ベクトルは、コマンドＣ１～Ｃｎのコマンド応答を、事前に定義された確認ルールに従って“０”又は“１”に変換することで生成される。例えば、コマンドＣ１のコマンド応答が“０”に、コマンドＣ２のコマンド応答が“０”に、コマンドＣ３のコマンド応答が“１”に、・・・、コマンドＣ１２１のコマンド応答が“０”に、それぞれ変換された場合、状態ベクトルは、（Ｃ１、Ｃ２、Ｃ３、・・・・、Ｃ１２１）＝（０、０、１、・・・、０）の形式になる。

【0070】

前述したように、教師データＤＢ１００ｄに格納される教師データは、状態ベクトルにラベルが付与されたラベル付き状態ベクトルである。図８は、状態ベクトルに付与されたラベルを、例えば“１”から“９”の９種類のラベルＩＤとそのラベルＩＤが表す故障種別とを含む表形式で、示している。この場合、ラベル付き状態ベクトルは、例えば、（ラベルＩＤ、Ｃ１、Ｃ２、Ｃ３、・・・・、Ｃ１２１）＝（５、０、０、１、・・・、０）といった形式の状態ベクトルになる。

【0071】

ここで、故障診断業務の処理時間を短縮するために、モデルは、過去の故障診断に使用したコマンド及びそのコマンド応答から、故障診断に用いるコマンド系列が得られるように学習されてよい。この場合、得られるコマンド系列が、より少ない、あるいは、小さい数のコマンドを含むコマンド系列が得られるように学習されてよい。その結果、故障個所や故障原因をより早く特定することができ、処理時間の短縮化が可能となる。

【0072】

そのような学習方法として、エージェント（「学習者」ともいう）にデータを与えて学習させる機械学習の１つである強化学習を採用することが考えられる。強化学習では、与えられたデータを、長期的に価値を最大化することを重視して学習させる、という特徴を有する。強化学習において、エージェントは「環境」（「前提条件」ともいう）に対して「行動」を起こし、その結果によって「報酬」を得るサイクルを繰り返し、最適な行動を学習する。そのため、十分な強化学習が行われると、エージェントが、様々な行動を起こして試行錯誤しながら結果を記憶し、ある前提条件が与えられたときに、最も価値の高い行動はどれかをエージェントが判断できる状態になる。

【0073】

一般的に、強化学習では、代表的なアルゴリズムとして、Ｑ学習が用いられる。Ｑ学習は、ある行動を取るたびにＱテーブルにその行動の価値（「Ｑ値」ともいう）を入力し、新しく行動するたびに値を更新する学習である。

【0074】

しかしながら、大規模かつ複雑化しつつある通信サービスにおけるコマンド系列について、過去の状態、つまり、コマンド系列に含まれるコマンドの数が大きくなると、状態空間が膨大になる。例えば、通信サービスを収容する全ての通信装置２０の全てのコマンドの合計が１２１コマンド、つまり、行動空間が１２１である場合、それぞれのコマンドの応答内容を正常と異常との２つの状態で表すと、状態空間は２の１２１乗（＝２¹²¹）となる。そのため、Ｑ学習では、学習時の計算リソースは、取り扱うことが困難なデータ量に増加、拡大してしまう。

【0075】

これに対し、本実施形態では、コマンド生成部１０２は、深層強化学習によって学習された学習済モデル１００ｃに、特定された所定の通信装置群を与えてコマンド系列を得るように構成されている。すなわち、学習済モデル１００ｃは、強化学習と深層学習（「ディープラーニング」ともいう）とを組み合わせた深層強化学習によって生成されている。そして、コマンド生成部１０２は、深層強化学習によって生成された学習済モデル１００ｃに、環境として、特定された所定の通信装置群を与えることで、行動としてコマンド系列を得る。

【0076】

このように、深層強化学習によって生成された学習済モデル１００ｃに、特定された所定の通信装置群を与えてコマンド系列を得ることにより、最も価値の高い行動、すなわち、含まれるコマンドの数が削減されたコマンド系列を得ることが可能になる。従って、故障個所や故障原因を短時間で特定することができ、通信ネットワークにおける故障診断を効率的に行うことができる。

【0077】

また、学習済モデル１００ｃは、それぞれがディープニューラルネットワークである、通信ネットワークにおける通信サービスを収容する複数の通信装置から収集されたコマンド応答に基づく状態空間ベクトルを入力として、コマンド系列に含まれるコマンドを決定するための価値ネットワークと、複数の状態空間ベクトルに対して最大遅延報酬を推定するための目標価値ネットワークと、を用いて学習される。なお、状態空間ベクトルの詳細については、後述する。このように、２つのニューラルネットワークを用いることで、複雑かつ多岐にわたる状態空間を近似することができ、膨大な過去の履歴を強化学習することが可能となる。

【0078】

また、学習済モデルは、価値ネットワークにおける重みが更新される周期と異なる周期において、目標価値ネットワークを価値ネットワークで更新するように、複数の状態空間ベクトルを用いて学習される。これにより、目標価値ネットワークによる予測値である遅延報酬について、発散や振動を抑制することが可能となる。

【0079】

さらに、価値ネットワークにおける重みは、複数の状態空間ベクトルのそれぞれにおいて更新され、目標価値ネットワークは、複数の状態空間ベクトルごとに前記価値ネットワークで更新される。これにより、目標関数を故障事象ごとに共通する深層強化学習を行うことができる。

【0080】

なお、記憶部１００は、診断装置１０が備えるメモリ３２及び記憶装置３３の少なくとも一方を用いて実現されてもよい。また、特定部１０１と、コマンド生成部１０２と、収集部１０３と、前処理部１０４と、判別部１０５と、出力部１０６と、学習部１０７とは、診断装置１０のプロセッサ３１が、記憶装置３３に記憶されたプログラムを実行することにより実現されてもよい。また、当該プログラムは、記憶媒体に格納することができる。当該プログラムを格納した記憶媒体は、コンピュータ読み取り可能な非一時的な記憶媒体であってもよい。非一時的な記憶媒体は特に限定されないが、例えば、ＵＳＢメモリ又はＣＤ－ＲＯＭ等の記憶媒体であってもよい。

【0081】

＜学習済モデル生成の処理手順＞
次に、図９から図１５を参照しつつ、一実施形態に従う診断装置が行う学習済モデル生成の処理手順について説明する。図９は、一実施形態における診断装置１０が行う学習済モデル生成処理Ｓ１１０の一例を説明するためのフローチャートである。図１０は、特徴ベクトルを可視化した例を示す図である。図１１は、学習済モデル生成処理Ｓ１１０における繰り返しの流れを説明する図である。図１２は、状態空間ベクトルを説明するための図である。図１３は、経験リプレイ処理Ｓ１１６を説明するための図である。図１４は、コマンド決定処理Ｓ１３０の一例を説明するためのフローチャートである。図１５は、エミュレータ実行処理Ｓ１４０の一例を説明するためのフローチャートである。なお、図１０において、縦軸はコマンド種別に対応し、横軸は各故障事象に対応している。

【0082】

以下の説明では、特に明示する場合を除き、故障事象数Ｊに“３００”が、最大学習数Ｍに“４０”が、あらかじめ設定されているものとする。

【0083】

（学習済モデル生成処理）
図９に示すように、学習部１０７は、まず、処理処理を行う（Ｓ１１１）．初期処理は、変数への初期値の設定と、使用するデータ領域や深層強化学習に用いる２つのニューラルネットワークの初期化とを含む。変数は、具体的は、選択されている故障事象を示す指標である変数ｊ、状態数を示す指標である変数ｎ、学習回数を示す指標である変数ｍ等である。学習部１０７は、変数ｊ、変数ｎ、及び変数ｍの初期値として、例えば“０”を設定する。

【0084】

前述したように、深層強化学習に用いるデータセットは、状態ベクトルである。図１０に示すように、特徴ベクトルは、全てのコマンド種別の合計数、例えば１２１次元を有する。点が存在する場所は、当該コマンド種別のコマンド応答が“異常”であることを示している。図１０から明らかなように、過去の故障事象全体において、コマンド応答が“異常”となるコマンド種別の頻度は、全てのコマンド種別に対して低いという特性があることが分かる。

【0085】

本実施形態では、この状態ベクトルの特性を利用し、各故障事象において、コマンド応答が“異常”となるコマンドを優先的に実行することで、学習上の近似を行っている。

【0086】

ここで、学習済モデル生成処理Ｓ１１０における繰り返しの流れは、図１１に示すようになる。すなわち、故障事象ごとに、あるコマンドを実行してコマンド応答を得た状態を１つのステップ（"step"とも表記する）とし、終了判定の条件が成立するまで、各ステップを繰り返し行う。図１１に示す例では、１つの故障事象に対し、ｎ個（ｎは２以上の整数）のコマンドをそれぞれ実行して“step１"から“stepｎ"までのｎステップを行い、コマンドを探索している。なお、図示及び説明の便宜上、図１１では、各故障事象において、同じｎステップを行う例を示したが、これに限定されるものではない。行われるステップ数は、故障事象ごとに異なっていてもよい。

【0087】

そして、全ての故障事象について探索が終了すると、これを１回とする学習を複数回、例えば学習数ｍ（ｍは２以上の整数）まで繰り返し行う。

【0088】

前述したように、各ステップは、コマンドを実行してコマンド応答を得た状態であるから、状態ベクトルで表すことができる。また、一般に、あるステップ、例えば、ｎ番目のステップｎは、それよりも前に、１番目のステップから（ｎ－１）番目までのステップのｎ－１個のステップが行われている。そのため、図１２に示すように、ｎ番目のステップｎは、当該ステップを行ったときの状態ベクトルと、過去の（ｎ－１）個の状態ベクトルとを含む状態空間ベクトルで表すことができる。以下において、状態空間ベクトルに含まれる過去の状態ベクトルの数を履歴数ともいう。

【0089】

図９の説明に戻ると、学習部１０７は、初期処理Ｓ１１１の後、変数ｍを更新する（Ｓ１１２）。例えば、学習部１０７は、変数ｍに“１”を加算して更新する。

【0090】

次に、学習部１０７は、変数ｊを更新する（Ｓ１１３）。例えば、学習部１０７は、変数ｍに“１”を加算して更新する。そして、学習部１０７は、更新された変数ｊをキーとして、コマンド応答ＤＢ１００ｂから変数ｊに対応する故障事象を読み出して選択する（Ｓ１１４）。学習部１０７は、選択した故障事象を状態ベクトルに変換する。また、学習部１０７は、変換した状態ベクトルの要素に対応する数の配列を用意する。このステップＳ１１４では、学習部１０７は、全ての配列に対して未実行を表す“０”を設定し、いわゆるゼロ埋めを行う。

【0091】

次に、学習部１０７は、コマンド決定処理を行う（Ｓ１３０）。コマンド決定処理Ｓ１３０では、強化学習の手法の１つであるε－グリーディ方策を採用し、次に実行するコマンドを決定する。コマンド決定処理Ｓ１３０の詳細については、後述する。

【0092】

次に、学習部１０７は、エミュレータ実行処理を行う（Ｓ１３０）。エミュレータ実行処理Ｓ１４０では、コマンド決定処理Ｓ１３０によって決定されたコマンドに対して、報酬（「即時報酬」ともいう）を算出し、終了判定を行う。エミュレータ実行処理Ｓ１４０の詳細については、後述する。

【0093】

次に、学習部１０７は、ステップＳ１１４でゼロ埋めした配列において、エミュレータ実行処理Ｓ１４０により報酬を付与したコマンドに対応する配列に、当該コマンドのコマンド応答を反映する（Ｓ１１５）。コマンド応答は、例えば“１”又は“０”であるから、対応する配列を参照することで、あるコマンドが実行済であるか、あるいは、未実行であるかを判別することができる。

【0094】

次に、学習部１０７は、経験リプレイ処理を行う（Ｓ１１６）。図１３の上段に示すように、経験リプレイ処理Ｓ１１６では、初期処理Ｓ１１１で初期化したデータ領域に、複数の状態空間ベクトルが格納される。各状態空間ベクトルは、複数の状態ベクトルを連結したものである。例えば、１行目の状態空間ベクトルは、コマンド系列におけるｎ番目のコマンドを実行した状態ベクトルである“状態ｎ”と、コマンド系列における（ｎ－１）回分の過去のコマンドを実行した状態ベクトルである“状態１”から“状態ｎ－１”とを含んでいる。また、当該状態空間ベクトルは、コマンド決定処理Ｓ１３０において決定されたコマンドのコマンド種別を示す“コマンドｎ”と、エミュレータ実行処理Ｓ１４０において当該コマンドに付与された報酬を示す“報酬ｎ”とをさらに含んでいる。

【0095】

このような状態空間ベクトルが、図１３に示す例ではｍ個（ｍは２以上の整数）、データ領域にキューイングされている。なお、キューイングされる状態空間ベクトルの数は、割り当てられたデータ領域のサイズに依存する。

【0096】

また、経験リプレイ処理Ｓ１１６では、図１３の下段に示すように、ｍ個の状態空間ベクトルのうちののいくつかを、取り出す。図１３に示す例では、キューイングされているｌ個（ｌは２以上ｍ以下の整数）の状態空間ベクトルが取り出されている。そして、取り出される状態空間ベクトルの数は、メモリブロックのサイズに依存する。

【0097】

そして、取り出された複数の状態空間ベクトルのうち、過去履歴に相当する部分の状態ベクトルを連結して新たな状態空間ベクトルとし、目標価値ネットワークに入力する。目標価値ネットワークによって推定された出力を、最大の遅延報酬（「最大遅延報酬」ともいう）とする。一方、取り出された複数の状態空間ベクトルのうちの即時報酬を、この最大遅延報酬に加算したものを価値ネットワークに入力する。

【0098】

図９の説明に戻ると、次に、学習部１０７は、価値ネットワークを更新する（Ｓ１１７）。具体的には、図１３の下段に示す、取り出された複数の状態空間ベクトルのうちの即時報酬と、最大遅延報酬とが加算され、価値ネットワークに入力されると、価値ネットワークは、取り出された複数の状態空間ベクトルにフィッティングされる。その結果、価値ネットワークにおける重みが更新され、価値ネットワークは更新される。このように、価値ネットワークの重みは、状態ごと、すなわち、実行コマンドを決定するごとに、更新される。なお、ステップＳ１１７における価値ネットワークの更新は、経験リプレイ処理Ｓ１１６において行ってもよい。

【0099】

次に、学習部１０７は、状態空間ベクトルを更新する（Ｓ１１８）。例えば、図１３の上段に示す１行目の状態空間ベクトルから２行目の状態空間ベクトルに更新する場合、１行目の状態空間ベクトルにおける２番目の状態ベクトルから（ｎ－１）番目の過去の状態ベクトルと、ｎ番目の現在の状態ベクトルとを連結して、２行目の状態空間ベクトルを生成する。なお、更新された状態空間ベクトルは、この時点では、実行される（ｎ＋１）番目のコマンド、（ｎ＋１）番目の状態ベクトル、及びその報酬は、未決である。

【0100】

次に、学習部１０７は、終了判定フラグＦＬが“１”であるか否かを判定する（Ｓ１１９）。終了判定フラグＦＬは、エミュレータ実行処理Ｓ１４０で設定される。

【0101】

ステップＳ１１９の判定の結果、終了判定フラグＦＬが“１”でない場合、終了判定フラグＦＬが“１”になるまで、コマンド決定処理Ｓ１３０からステップＳ１１９までが繰り返される。

【0102】

一方、ステップＳ１１９の判定の結果、終了判定フラグＦＬが“１”である場合、ステップＳ１１４において選択された故障事象について、価値ネットワークの重みの更新が完了したものと考えられる。よって、学習部１０７は、価値ネットワークで目標価値ネットワークを更新する（Ｓ１２０）。このように、目標価値ネットワークは、価値ネットワークの重みが更新される周期と異なる周期で更新され、更新が完了した価値ネットワークの重みが目標価値ネットワークに反映される。

【0103】

次に、学習部１０７は、変数ｊが故障事象数Ｊ以上であるか否かを判定する（Ｓ１２１）。ステップＳ１２１の判定の結果、変数ｊが故障事象数Ｊ以上でない、つまり、故障事象数Ｊ未満である場合、変数ｊが故障事象数Ｊ以上になるまで、ステップＳ１１３からステップＳ１２１までが繰り返される。

【0104】

一方、ステップＳ１２１の判定の結果、変数ｊが故障事象数Ｊ以上である場合、用意された全ての故障事象について、深層強化学習が１回行われたものと考えられる。次に、学習部１０７は、変数ｍが最大学習数Ｍ以上であるか否かを判定する（Ｓ１２２）。ステップＳ１２２の判定の結果、変数ｍが最大学習数Ｍ以上でない、つまり、最大学習数Ｍである場合、変数ｍが最大学習数Ｍ以上になるまで、ステップＳ１１２からステップＳ１２２までが繰り返される。

【0105】

一方、ステップＳ１２２の判定の結果、変数ｍが最大学習数Ｍ以上である場合、用意された全ての故障事象について、深層強化学習が最大学習数Ｍの回数行われたものと考えられる。よって、学習部１０７は、学習済モデル生成処理Ｓ１１０を終了する。

【0106】

（コマンド実行処理）
図１４に示すように、学習部１０７は、まず、状態空間ベクトルにおいて、決定しようとするコマンドの順番が、所定の過去の状態数より小さいか否かを判定する（Ｓ１３１）。具体的には、例えば、図１２に示す状態空間ベクトルにおいて、連結される過去の状態数が５つ、つまり、“状態（ｎー１）”における（ｎ－１）が５である場合、決定しようとするコマンドの順番が６番目以降であるか否か、つまり“コマンドｎ”におけるｎが６以上であるか否かが判定される。

【0107】

ステップＳ１３１の判定の結果、決定しようとするコマンドの順番が過去の状態数より小さい場合、過去の状態ベクトルとして既に十分な数が存在し、これらの複数の状態ベクトルを連結して状態空間ベクトルに変換可能である、と考えられる。この場合、学習部１０７は、状態数が増えるにつれて減衰する減衰値εを算出する（Ｓ１３２）。このような減衰値εは、様々な計算方法で算出可能である。減衰値εは、例えば、初期値ｉｎｉｔ、下限値ｍｉｎ、選択された故障事象における総コマンド数ｅｐｉ＿ｓｔ、現在コマンドの順番ｓｔ、及び定数ε０を用い、以下の式（１）で算出される。
ε＝ε０－｛（ｉｎｉｔ－ｍｉｎ）／ｅｐｉ＿ｓｔ｝×ｓｔ …（１）

【0108】

ステップＳ１３２の後、学習部１０７は、算出された減衰値εがランダム値以上であるか否かを判定する（Ｓ１３３）。ランダム値は、０以上１以下の乱数であり、ステップＳ１３２を行うたびに、新たなランダム値が生成される。

【0109】

ステップＳ１３３の判定の結果、減衰値εがランダム値以上である場合、学習部１０７は、過去の複数の状態ベクトルを連結して状態空間ベクトルに変換する（Ｓ１３４）。連結された過去の複数の状態ベクトルは、例えば、図１２に示す例において、“状態１”から“状態ｎ－１”の状態ベクトルに相当する。

【0110】

ステップＳ１３４の後、学習部１０７は、変換された状態空間ベクトルを価値ネットワークに入力し、価値ネットワークから出力されたコマンドを、実行するコマンドに決定する（Ｓ１３５）。決定されたコマンドは、例えば、図１２に示す例において、“コマンドｎ”のコマンドに相当する。

【0111】

ステップＳ１３５の後、学習部１０７は、コマンド決定処理Ｓ１３０を終了する。

【0112】

一方、ステップＳ１３１の判定の結果、決定しようとするコマンドの順番が過去の状態数よりも大きくない、つまり、過去の状態数以下である場合、あるいは、ステップＳ１３３の判定の結果、減衰値εがランダム値以上でない、つまり、ランダム値未満である場合、学習部１０７は、未実行のコマンドの中からランダムに選択したコマンドを、実行するコマンドに決定する（Ｓ１３６）。決定されたコマンドは、例えば、図１２に示す例において、“コマンドｎ”のコマンドに相当する。

【0113】

ステップＳ１３６の後、学習部１０７は、コマンド決定処理Ｓ１３０を終了する。

【0114】

（エミュレータ実行処理）
図１５に示すように、学習部１０７は、まず、終了判定フラグＦＬに初期値を設定する（Ｓ１４１）。設定する初期値は、例えば“０”である。

【0115】

次に、学習部１０７は、ステップＳ１１４で決定された故障事象と、コマンド決定処理Ｓ１３０により決定されたコマンドとに基づいて、新たな状態ベクトルを生成する（Ｓ１４２）。生成された状態ベクトルは、例えば、図１２に示す例において、“状態ｎ”の状態ベクトルに相当する。

【0116】

次に、学習部１０７は、ステップＳ１１４で決定された故障事象におけるコマンド応答に基づいて、コマンド決定処理Ｓ１３０により決定されたコマンドに対して報酬を付与する（Ｓ１４３）。例えば、コマンド応答が異常を示す“１”である場合は報酬として“１００”を付与し、コマンド応答が正常を示す“０”である場合は報酬として“－１”を付与する。このように、コマンド応答が異常を示すコマンドに対し、ポジティブな高い報酬を設定することで、故障種別を判別し得るコマンドの探索に寄与することが可能となる。

【0117】

次に、学習部１０７は、実行すべきコマンドの探索を終了するか否かを判定する終了判定処理を行う（Ｓ１４４）。終了判定処理では、ステップＳ１１５でコマンド応答を反映した配列に基づいて、ステップＳ１１４で決定された故障事象のうち、コマンド応答が異常であったコマンドの全てが実行済みであるか否かを判定する。コマンド応答が異常であったコマンドの全てが実行済みである場合、終了判定フラグに“１”を設定する。

【0118】

そして、終了判定処理Ｓ１４４の後、学習部１０７は、エミュレータ実行処理Ｓ１４０を終了する。

【0119】

このように、それぞれがディープニューラルネットワークである価値ネットワーク及び目標価値ネットワークを用いて、深層強化学習によって学習することにより、コマンド系列を生成する学習済モデル１００ｃが生成される。

【0120】

＜探索性能の評価＞
次に、図１６及び図１７を参照しつつ、一実施形態に従う診断装置が生成するコマンド系列の探索性能について説明する。図１６は、学習済モデル１００ｃを生成するときの深層強化学習におけるＱ値の一例を示す図である。図１７は、コマンド系列の探索スコアの分布の一例を示すグラフである。なお、図１６において、縦軸は故障事象に対応し、横軸は探索学習におけるステップ数に対応し、各プロットはグラフ右側に示すカラースケールの色によって表されるＱ値に対応している。また、図１６及び図１７は、前述した学習済モデル生成処理Ｓ１１０において、最大学習数Ｍを１０に、状態空間ベクトルに含まれる過去の状態ベクトルの数、つまり、履歴数を３に、それぞれ設定したときのものである。

【0121】

図１６に示すように、深層強化学習は、図における左上から右下の方向に進んでいる。コマンド決定処理Ｓ１３０におけるε減衰に従い、価値ネットワークによってコマンドが獲得され、当該コマンドがエミュレータ実行処理Ｓ１４０で実行されていく。深層強化学習の繰り返し数である変数ｍが増えるに従い、次第にプロットの色が濃くなり、Ｑ値が上昇している。図１６から、Ｑ値が高いコマンドを実行しながら、故障事象ごとに、コマンドを探索する様子が見て取れる。

【0122】

図１７は、１０００回の故障事象に対して、故障種別を判別し得るコマンド系列の探索を行ったときの探索スコアの分布を示している。この探索は、探索テストともいう。探索スコアは、探索テストにおいて、全てのコマンド実行ごとに得られた正常（又はＯＫ）、あるいは、異常（又はＮＧ）を示す値の配列に対して故障種別の推定を行い、ラベルとして付与された正解の故障種別に収束したコマンド系列に含まれるコマンド数を、全コマンド数、例えば１２１で正規化した値である。すなわち、探索スコアが小さいほど、より少ないコマンド数、もしくは、より短いコマンド系列で、正解の故障種別を判別することができたことを意味する。

【0123】

図１７の右側に示すグラフは、全てのコマンドからランダムに生成したコマンド系列を用いた場合の探索スコアの分布である。この場合、１０００回の故障事象は、探索スコアが相対的に広い範囲に分布しており、平均の探索スコアは０．４１であった。

【0124】

これに対し、図１７の左側に示すグラフは、深層強化学習によって学習された学習済モデル１００ｃによって得たコマンド系列を用いた場合の探索スコアの分布である。この場合、１０００回の故障事象は、探索スコアが相対的に狭い範囲、具体的には、主に０より大きく０．２以下の範囲に分布しており、平均の探索スコアは０．１２であった。その結果、深層強化学習によって学習された学習済モデル１００ｃを備える故障診断装置２０は、全コマンド数が１２１、故障種別が９種類（９クラス）の規模に対して、１５コマンド程度を含むコマンド系列で故障内容を推定することができ、探索性能の改善効果を確認することができた。

【0125】

＜故障種別判別の処理手順＞
次に、図１８を参照しつつ、一実施形態に従う診断装置が行う故障種別判別の処理手順について説明する。図１８５は、一実施形態における診断装置１０が行う故障種別判別処理Ｓ１５０の一例を説明するためのフローチャートである。

【0126】

以下の説明では、学習済モデル１００ｃが記憶部１００にあらかじめ記憶されているものとする。

【0127】

ユーザから故障申告を受けると、図１８に示すように、特定部１０１は、ＮＷ構成ＤＢ１００ａを参照し、申告を受けたユーザの通信サービスを収容する複数の通信装置２０を特定する（Ｓ１５１）。

【0128】

次に、コマンド生成部１０２は、特定された、ユーザの通信サービスを収容する複数の通信装置２０に基づいて、故障診断に必要なコマンド系列を生成する（Ｓ１５２）。より詳細には、コマンド生成部１０２は、学習済モデル１００ｃに、ステップＳ１５１で特定された複数の通信装置２０を環境として与えてコマンド系列を得る。このようにして得られたコマンド系列が、ユーザの通信サービスを収容する複数の通信装置２０に実行させる一連のコマンドとなる。

【0129】

次に、収集部１０３は、ステップＳ１５１において特定された各通信装置２０にログインし、ステップＳ１５２において生成されたコマンド系列を実行して、コマンド応答を収集する（Ｓ１５３）。

【0130】

次に、前処理部１０４は、ステップＳ１５４において収集されたコマンド応答に基づいて、状態ベクトルに変換する（Ｓ１５４）。より詳細には、前処理部１０４は、受信したコマンド応答群を、事前に定義された確認ルールに従い、正常を示す“０”又は異常を示す“１”に変換することで、状態ベクトルを生成する。ここで、前処理部１０４は、Ｃ１からＣｎを要素とする状態ベクトルにおいて、受信したコマンド応答には含まれていないコマンドＩＤに対応する次元については、“０”を設定する。例えば、状態ベクトルが、Ｃ１からＣ１２１の１２１次元であるときに、コマンド応答に、コマンドＩＤが１から４０まで、及び、６１から１００までの合計８０個のコマンド応答が含まれていたものとする。この場合、前処理部１０４は、状態ベクトルのＣ１からＣ１２１までのうち、コマンドＩＤが、４１から６０まで、及び、１０１から１２１までに対応する次元については、「０」を設定する。

【0131】

次に、判別部１０５は、ステップＳ１５４において生成された状態ベクトルを判別用学習済モデル１００ｄに入力し、当該判別用学習済モデル１００ｄから出力される、故障種別を示すラベルを取得し、故障種別を判別する（Ｓ１５５）。これにより、ユーザから申告があった故障の故障種別が判別される。

【0132】

次に、出力部１０６は、ステップＳ１５５において取得された故障種別に関する情報を、ディスプレイ等に出力する（Ｓ１５６）。故障種別に関する情報は、例えば故障種別の内容を記述した文言等である。

【0133】

そして、診断装置１０は、ステップＳ１５６の後、故障種別判別処理Ｓ１５０を終了する。

【0134】

なお、本実施形態で説明したシーケンス及びフローチャートは、処理に矛盾が生じない限り、順序を入れ替えてもよい。

【0135】

また、本実施形態で説明した処理は、装置におけるハードウェアにより実現されてもよいし、プロセッサが記憶装置に記憶されたプログラムを実行することにより実現されてもよい。プログラムを実行する場合、当該プログラムは、記憶媒体に格納されていてもよい。当該プログラムを格納した記憶媒体は、コンピュータ読み取り可能な非一時的な記憶媒体であってもよい。非一時的な記憶媒体は、特に限定されないが、例えば、ＵＳＢメモリ、又はＣＤ－ＲＯＭ等の記憶媒体であってもよい。

【0136】

以上、本発明の例示的な実施形態について説明した。本実施形態の診断装置１０、診断方法、診断プログラム、及び診断システム１によれば、深層強化学習によって生成された学習済モデル１００ｃに、特定された所定の通信装置群を与えてコマンド系列が得られる。これにより、最も価値の高い行動、すなわち、含まれるコマンドの数が削減されたコマンド系列を得ることが可能になる。従って、故障個所や故障原因を短時間で特定することができ、通信ネットワークにおける故障診断を効率的に行うことができる。そのため、本実施形態に係る技術は、持続可能な開発目標（ＳＤＧｓ）の目標９「産業と技術革新の基盤をつくろう」の達成に貢献できる。

【0137】

なお、以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく、変更／改良され得るとともに、本発明にはその等価物も含まれる。即ち、各実施形態に当業者が適宜設計変更を加えたものも、本発明の特徴を備えている限り、本発明の範囲に包含される。例えば、実施形態が備える各要素及びその配置、材料、条件、形状、サイズなどは、例示したものに限定されるわけではなく適宜変更することができる。また、各実施形態は例示であり、異なる実施形態で示した構成の部分的な置換又は組み合わせが可能であることは言うまでもなく、これらも本発明の特徴を含む限り本発明の範囲に包含される。

【符号の説明】

【0138】

１…診断システム、１０…診断装置、２０…通信装置、３１…プロセッサ、３２…メモリ、３３…記憶装置、３４…通信装置、３４…出力装置、３５…入力装置、３６…出力装置、１００…記憶部、１００…無線通信システム、１００ａ…ＮＷ構成ＤＢ、１００ｂ…コマンド応答ＤＢ、１００ｃ…学習済モデル、１００ｄ…判別用学習済モデル、１００ｅ…教師データＤＢ、１０１…特定部、１０２…コマンド生成部、１０３…収集部、１０４…前処理部、１０５…判別部、１０６…出力部、１０７…学習部、１０７…学習部、２００…記憶部、２０１…通信処理部、２０２…管理部、２０３…入力部、２０４…出力部、Ｓ１１０…学習済モデル生成処理、Ｓ１１６…経験リプレイ処理、Ｓ１３０…コマンド決定処理、Ｓ１４０…エミュレータ実行処理、Ｓ１５０…故障種別判別処理。

【要約】

【課題】通信ネットワークにおける故障診断を効率的に行うことのできる診断装置、診断方法、診断プログラム、及び診断システムを提供する。
【解決手段】診断装置は、通信ネットワークに含まれる複数の通信装置の中から、所定の通信サービスを収容する所定の通信装置群を特定する特定部と、特定された所定の通信装置群に基づいて、該通信装置群に含まれる所定の通信装置に実行させるコマンド系列を生成するコマンド生成部と、生成されたコマンド系列を所定の通信装置に実行させ、該所定の通信装置の動作状態を示す所定のコマンド応答を収集する収集部と、所定のコマンド応答に基づいて、所定の通信サービスにおける故障種別を判別する判別部と、を備え、コマンド生成部は、深層強化学習によって学習された学習済モデルに、特定された所定の通信装置群を与えてコマンド系列を得る。
【選択図】図４