特開2024-126067 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＫＤＤＩ株式会社の特許一覧

特開2024-126067強化学習を用いた、ネットワークシステムに対する自律型セキュリティ検証のための行動選択装置、学習装置、行動選択方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024126067

(43)【公開日】2024-09-20

(54)【発明の名称】強化学習を用いた、ネットワークシステムに対する自律型セキュリティ検証のための行動選択装置、学習装置、行動選択方法及びプログラム

(51)【国際特許分類】

G06F 21/57 20130101AFI20240912BHJP

G06N 20/00 20190101ALI20240912BHJP

G06N 3/092 20230101ALI20240912BHJP

G06N 3/044 20230101ALI20240912BHJP

【ＦＩ】

G06F21/57 370

G06N20/00

G06N3/092

G06N3/044

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2023034209

(22)【出願日】2023-03-07

(71)【出願人】

【識別番号】000208891

【氏名又は名称】ＫＤＤＩ株式会社

(74)【代理人】

【識別番号】100106002

【弁理士】

【氏名又は名称】正林真之

(74)【代理人】

【識別番号】100120891

【弁理士】

【氏名又は名称】林一好

(72)【発明者】

【氏名】長谷川健人

(72)【発明者】

【氏名】披田野清良

(72)【発明者】

【氏名】福島和英

(57)【要約】

【課題】ネットワークシステムを対象としたセキュリティ検証において、より大きな状態、行動空間を的確に表現する手法や、ネットワークトポロジやホストの数が異なる場合にも同じモデルで入力としてこれらを受け取ることができる手法を提供すること。
【解決手段】
強化学習を用いたセキュリティ検証において、ネットワークシステムの状態をグラフとして観測し、内部でホスト、行動種別を分割して処理することで、次に採るべき行動を出力する方策モデルを採用する。
【選択図】図３

【特許請求の範囲】

【請求項1】

セキュリティ検証の対象となるネットワークシステムの状態を、前記ネットワークシステムにおけるホストに対応するノードの集合と、前記ホストの接続関係に対応するエッジの集合と、前記ホストの各々の属性情報を示す特徴ベクトルに対応するノードの特徴ベクトルの集合との３つ組みによって表すグラフを入力として受け取り、前記グラフ全体の特徴を表すベクトルを出力するグラフ処理部と、
前記グラフ全体の特徴を表すベクトルと、前記グラフのノードの特徴ベクトルの集合とを入力として受け取り、前記グラフの局所的な特徴を考慮したベクトルを出力する局所的特徴処理部と、
前記グラフの局所的な特徴を考慮したベクトルを入力として受け取り、前記ネットワークシステムの過去の状態を考慮したベクトルを出力する再帰型学習処理部と、
前記過去の状態を考慮したベクトルを入力として受け取り、次に採るべきセキュリティ検証のための行動の確率を示すベクトルを出力するホスト・行動種別選択処理部と、
を備える行動選択装置。

【請求項2】

前記再帰型学習処理部は、前記グラフの局所的な特徴を考慮したベクトルに加え、隠れベクトルを入力として受け取り、過去の状態を考慮したベクトルに加え、更新された隠れベクトルを出力し、当該更新された隠れベクトルを次の時刻の処理における隠れ状態ベクトルとして受け取る、請求項１に記載の行動選択装置。

【請求項3】

前記ホスト・行動種別選択処理部は、前記過去の状態を考慮したベクトルを、ホストを表すベクトルと行動種別を表すベクトルに分解し、これらの行列積により前記ホストと前記行動種別の両者を含む値を取得し、これをもとに行動の確率を示すベクトルを得る、請求項１又は請求項２に記載の行動選択装置。

【請求項4】

ネットワークシステムを対象とするセキュリティ検証のために採るべき行動を示す関数を最適化するための強化学習を行う学習装置であって、
前記関数は、引数としてセキュリティ検証の対象となる前記ネットワークシステムの状態を表すグラフの局所的な特徴を考慮した状態を受け取り、前記ネットワークシステムの過去の状態を考慮してセキュリティ検証のために次に採るべき行動の確率を返す方策関数である、学習装置。

【請求項5】

セキュリティ検証の対象となるネットワークシステムの状態を、前記ネットワークシステムにおけるホストに対応するノードの集合と、前記ホストの接続関係に対応するエッジの集合と、前記ホストの各々の属性情報を示す特徴ベクトルに対応するノードの特徴ベクトルの集合との３つ組みによって表すグラフを入力として受け取り、前記グラフ全体の特徴を表すベクトルを出力するグラフ処理ステップと、
前記グラフ全体の特徴を表すベクトルと、前記グラフのノードの特徴ベクトルの集合とを入力として受け取り、前記グラフの局所的な特徴を考慮したベクトルを出力する局所的特徴処理ステップと、
前記グラフの局所的な特徴を考慮したベクトルを入力として受け取り、前記ネットワークシステムの過去の状態を考慮したベクトルを出力する再帰型学習処理ステップと、
前記過去の状態を考慮したベクトルを入力として受け取り、次に採るべきセキュリティ検証のための行動の確率を示すベクトルを出力するホスト・行動種別選択処理ステップと、
を含む行動選択方法。

【請求項6】

前記再帰型学習処理ステップは、前記グラフの局所的な特徴を考慮したベクトルに加え、隠れベクトルを入力として受け取り、過去の状態を考慮したベクトルに加え、更新された隠れベクトルを出力し、当該更新された隠れベクトルを次の時刻の処理における隠れ状態ベクトルとして受け取る、請求項５に記載の行動選択方法。

【請求項7】

前記ホスト・行動種別選択処理ステップは、前記過去の状態を考慮したベクトルを、ホストを表すベクトルと行動種別を表すベクトルに分解し、これらの行列積により前記ホストと前記行動種別の両者を含む値を取得し、これをもとに行動の確率を示すベクトルを得る、請求項５又は請求項６に記載の行動選択方法。

【請求項8】

請求項１又は請求項２に記載の行動選択装置としてコンピュータを機能させるための行動選択プログラム。

【請求項9】

請求項３に記載の行動選択装置としてコンピュータを機能させるための行動選択プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、強化学習を用いた、ネットワークシステムに対する自律的なセキュリティ検証のための行動選択装置、学習装置、行動選択方法及びプログラムに関する。

【背景技術】

【0002】

ネットワークシステムに対する脆弱性検査では、検査対象となるネットワークシステムの状態の観測と、その観測した状態にもとづく脆弱性検査の行動の選択を繰り返し行う場合があり、このようにして行われる脆弱性検査は、マルコフ決定過程モデルの一例といえる。この場合、マルコフ決定過程における状態空間をネットワークシステムの状態、行動空間を脆弱性検査のための行動と対応づけることで、脆弱性検査に強化学習を適用することができる。そして、ネットワークシステムに対する脆弱性検査に強化学習を適用することにより検査を効率的に行い得るとの期待がある。

【0003】

また、ネットワークシステムのセキュリティ検証では、近年、セキュリティの専門家集団が攻撃チームを作り、検証対象システムに対して物理／仮想を問わず現実に近い各種攻撃を仕掛けることによりセキュリティ対応能力等の検査を行う、レッドチーム演習（Red Teaming Operation）が行われるようになっている。このようなレッドチーム演習の場面において、攻撃チーム（レッドチーム）を担当する専門家には高度な知識が要求されるため、演習を完全に自動化することは難しかった。
しかしながら、ＩｏＴの進展等により、ますます高度に情報化・ネットワーク化が進みつつある昨今では、あらゆる機器に対するセキュリティ検証が必要不可欠となるであろうところ、ＡＩの導入により検証を自動化し得るとの期待がある。

【0004】

非特許文献１は、外部から攻撃を仕掛けてシステムに侵入しコンピュータやネットワークの脆弱性を検査する侵入テスト（Penetration Testing）の自動化に関する研究を開示しており、行動空間を階層化し、各エージェントが出力する行動の数を抑制することで、強化学習を高速かつ安定的に進めるモデルを提案している。
しかしながら、このモデルでは、環境から取得する状態の数がホストマシンやサブネットの数が増えるにしたがって増加する。加えて、現実的には検査対象となるマシンで稼働するＯＳやサービス等の情報が重要であるにも関わらず、非特許文献１の研究では各マシンで稼働するサービスの状態までは考慮していない。したがって、このモデルを現実的なネットワークシステムに適用することは困難である。

【0005】

なお、一般に、侵入テストは脆弱性検査の手法の一つであり、脆弱性検査はセキュリティを検証するための具体的行動と位置付けられる。なお、本明細書で用いる「セキュリティ検証」という用語の厳密な定義については後述する。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特願２０２２－１２９９９６（出願日：２０２２年８月１７日、発明の名称：状態表現装置、学習装置、状態表現方法及び状態表現プログラム）

【非特許文献】

【0007】

【非特許文献1】K. Tran et al., “Deep hierarchical reinforcement agents for automated penetration testing,” Proc. International Workshop on Adaptive Cyber Defense, 2021.

【発明の概要】

【発明が解決しようとする課題】

【0008】

既存の研究では、環境から観測する状態空間やエージェントが選択する行動空間については限定的な設定しか検討されていない。そのため、より大きな状態、行動空間への適用が課題となっている。また、既存の研究では、学習したネットワークシステムと同一の環境にしか対応できなかった。そのため、ネットワークトポロジやホストの数が異なる場合はモデルの構造から変更する必要があった。
これらの課題を解決するために、より大きな状態、行動空間を的確に表現する手法や、ネットワークトポロジやホストの数が異なる場合にも同じモデルでこれらを入力として受け取ることができる手法の開発が望まれている。

【0009】

なお、先述の特許文献１（先願）は、ネットワークシステムの状態を示す効率的な表現（グラフ）を得るための装置等を提案しており、当該装置等を用いることにより強化学習の収束性が改善され得ることを示唆しているが、ネットワークシステムのセキュリティを検証するための具体的な手法を開示するものではない。

【0010】

本発明は、先述の課題を解決するために、より大きな状態、行動空間を的確に表現する手法や、ネットワークトポロジやホストの数が異なる場合にも同じモデルで入力としてこれらを受け取ることができる手法を提供することを目的とする。そのために、本発明は、強化学習を用いたセキュリティ検証において、ネットワークシステムの状態をグラフとして観測し、前記グラフの局所的な特徴を考慮し、また、前記ネットワークシステムの過去の状態を考慮し、さらに、内部でホスト、行動種別を分割して処理することで、次に採るべき行動を出力するモデルを提供することを目的とする。

【課題を解決するための手段】

【0011】

本発明に係る行動選択装置は、セキュリティ検証の対象となるネットワークシステムの状態を、前記ネットワークシステムにおけるホストに対応するノードの集合と、前記ホストの接続関係に対応するエッジの集合と、前記ホストの各々の属性情報を示す特徴ベクトルに対応するノードの特徴ベクトルの集合との３つ組みによって表すグラフを入力として受け取り、前記グラフ全体の特徴を表すベクトルを出力するグラフ処理部と、前記グラフ全体の特徴を表すベクトルと、前記グラフのノードの特徴ベクトルの集合とを入力として受け取り、前記グラフの局所的な特徴を考慮したベクトルを出力する局所的特徴処理部と、前記グラフの局所的な特徴を考慮したベクトルを入力として受け取り、前記ネットワークシステムの過去の状態を考慮したベクトルを出力する再帰型学習処理部と、前記過去の状態を考慮したベクトルを入力として受け取り、次に採るべきセキュリティ検証のための行動の確率を示すベクトルを出力するホスト・行動種別選択処理部と、を備える。

【0012】

前記再帰型学習処理部は、前記グラフの局所的な特徴を考慮したベクトルに加え、隠れベクトルを入力として受け取り、過去の状態を考慮したベクトルに加え、更新された隠れベクトルを出力し、当該更新された隠れベクトルを次の時刻の処理における隠れ状態ベクトルとして受け取るようにしてもよい。

【0013】

前記ホスト・行動種別選択処理部は、前記過去の状態を考慮したベクトルを、ホストを表すベクトルと行動種別を表すベクトルに分解し、これらの行列積により、前記ホストと前記行動種別の両者を含む値を取得し、これをもとに行動の確率を示すベクトルを得るようにしてもよい。

【0014】

また、本発明に係る学習装置は、ネットワークシステムを対象とするセキュリティ検証のために採るべき行動を示す関数を最適化するための強化学習を行う学習装置であって、前記関数は、引数としてセキュリティ検証の対象となる前記ネットワークシステムの状態を表すグラフの局所的な特徴を考慮した状態を受け取り、前記ネットワークシステムの過去の状態を考慮してセキュリティ検証のために次に採るべき行動の確率を返す方策関数である。

【0015】

また、本発明に係る行動選択方法は、セキュリティ検証の対象となるネットワークシステムの状態を、前記ネットワークシステムにおけるホストに対応するノードの集合と、前記ホストの接続関係に対応するエッジの集合と、前記ホストの各々の属性情報を示す特徴ベクトルに対応するノードの特徴ベクトルの集合との３つ組みによって表すグラフを入力として受け取り、前記グラフ全体の特徴を表すベクトルを出力するグラフ処理ステップと、前記グラフ全体の特徴を表すベクトルと、前記グラフのノードの特徴ベクトルの集合とを入力として受け取り、前記グラフの局所的な特徴を考慮したベクトルを出力する局所的特徴処理ステップと、前記グラフの局所的な特徴を考慮したベクトルを入力として受け取り、前記ネットワークシステムの過去の状態を考慮したベクトルを出力する再帰型学習処理ステップと、前記過去の状態を考慮したベクトルを入力として受け取り、次に採るべきセキュリティ検証のための行動の確率を示すベクトルを出力するホスト・行動種別選択処理ステップと、を含む。

【0016】

前記再帰型学習処理ステップは、前記グラフの局所的な特徴を考慮したベクトルに加え、隠れベクトルを入力として受け取り、過去の状態を考慮したベクトルに加え、更新された隠れベクトルを出力し、当該更新された隠れベクトルを次の時刻の処理における隠れ状態ベクトルとして受け取るようにしてもよい。

【0017】

前記ホスト・行動種別選択処理ステップは、前記過去の状態を考慮したベクトルを、ホストを表すベクトルと行動種別を表すベクトルに分解し、これらの行列積により、前記ホストと前記行動種別の両者を含む値を取得し、これをもとに行動の確率を示すベクトルを得るようにしてもよい。

【0018】

さらに、本発明に係る行動選択プログラムは、先述の行動選択装置としてコンピュータを機能させるためのプログラムであってよい。

【発明の効果】

【0019】

本発明によれば、グラフ処理部を設けることで、セキュリティ検証の対象となるネットワークの状態を詳細に表現することが可能となる。その上で、局所的特徴処理部と再帰型学習処理部により、グラフ処理を含む複雑な学習を安定化することが可能となる。また、ホスト・行動種別選択処理部において行動の対象となるホストと、行動種別とを異なる関数で判定するため、それぞれの関数で学習する重みと行動との対応づけが明確化され、学習がさらに安定する。学習を安定化させることで、既存手法では学習が難しい、より大規模なネットワークへの対応も可能となる。

【図面の簡単な説明】

【0020】

【図1】本発明の実施形態における行動選択装置の機能構成例を示すブロック図である。

【図2】本発明の実施形態における行動選択方法の手順例を示すフローチャートである。

【図3】本発明の実施形態における方策モデルの一例を示す図である。

【発明を実施するための形態】

【0021】

以下、本発明の実施形態の一例について説明する。
始めに、本発明の実施形態を説明するために用いる用語の定義を以下に示す。

【0022】

「セキュリティ検証」とは、あるシステムに存在する脆弱性などの不具合の発見や、それらが攻撃として成立するかを評価するため、システムのスキャンや侵入、コマンドの実行を試みる操作を指す。

【0023】

「環境」とは、セキュリティ検証の対象となるネットワークシステムを指す。環境は、後述するエージェントから行動（コマンド）を受け取り、環境内部でその行動を実行した後、環境の内部を表現する状態とその時の報酬をエージェントに返す。なお、報酬は、例えば、攻撃が成功したかどうかを示す値である。

【0024】

「エージェント」とは、環境から受け取った状態と報酬にもとづき、次の行動（環境に対するコマンド）を選択する行動主体である。エージェントには、引数として状態を受け取り、次に採るべき行動（あるいは、その確率）を返す関数が存在する。この関数を最適化するため、強化学習アルゴリズムが用いられる。なお、引数として状態を受け取り、次に採るべき行動の確率を返す関数は、「方策関数」と呼ばれる。

【0025】

「強化学習アルゴリズム」は、一連の状態、行動が採られるときの、累積される報酬の期待値を最大化するよう、行動を選択する関数（具体例として、方策関数）を最適化するアルゴリズムを指す。

【0026】

「セキュリティ検証のための行動」の集合は、環境に存在するホストと、それぞれのホストに対して実行可能な行動種別との直積により構成される。具体例として、３種類のホストＨ_ａ、Ｈ_ｂ、Ｈ_ｃと、２種類の行動種別Ａ_１、Ａ_２が存在するものとする。ここで、ホストはシステムに存在するホストマシン、行動種別は各ホストに対して実行する行動である。行動種別は、より具体的にはポートスキャンや権限昇格コマンドの実行などに対応する。この例における行動の集合Ａは、ホストと行動種別の直積により、要素が６つの集合
Ａ＝｛（Ｈ_ａ，Ａ_１），（Ｈ_ａ，Ａ_２），（Ｈ_ｂ，Ａ_１），（Ｈ_ｂ，Ａ_２），（Ｈ_ｃ，Ａ_１），（Ｈ_ｃ，Ａ_２）}
となる。

【0027】

本発明では、強化学習を用いたセキュリティ検証において、ネットワークシステムの現在の状態をグラフとして表現してモデルに入力するため、モデル内でＧＮＮ（Graph Neural Network）を利用している。このとき、学習を安定させるため、局所的特徴の処理や再帰型学習の処理を行う機構を導入し、さらに、行動の対象となるホストと行動種別とを異なる関数で処理する機構を設けている。これらの処理は、後述する各々の処理部（機能ブロック）において実施される。

【0028】

図１は、本実施形態における行動選択装置１の機能構成を示すブロック図である。
行動選択装置１は、入力部１０、制御部２０、記憶部３０及び出力部３０の他、図示を省略した通信部等を備えた情報処理装置（コンピュータ）である。

【0029】

制御部２０は、行動選択装置１の全体を制御する部分であり、記憶部３０に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機構を実現する。制御部２０は、ＣＰＵであってよい。

【0030】

記憶部３０は、ハードウェア群を行動選択装置１として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ＲＯＭ、ＲＡＭ、フラッシュメモリ、ハードディスクドライブ（ＨＤＤ）又はソリッドステートドライブ（ＳＳＤ）等であってよい。

【0031】

制御部２０は、グラフ処理部２１と、局所的特徴処理部２２と、再帰型学習処理部２３と、ホスト・行動種別選択処理部２４とを備える。図１に示すように、各処理部は、制御部２０における機能ブロックとして実装されており、各処理部における処理は、ＣＰＵが対応するプログラムを読み出して実行する。

【0032】

図２は、本実施形態における行動選択方法の手順を示すフローチャートである。
ステップＳ１において、行動選択装置１は、環境の状態を表すグラフを入力として受け取る。
ステップＳ２において、行動選択装置１は、受け取ったグラフ全体の特徴を表すベクトルを出力するグラフ処理を行う。

【0033】

ステップＳ３において、行動選択装置１は、前記グラフ全体の特徴を表すベクトルとグラフのノードの特徴ベクトルの集合とに基づき、グラフの局所的な特徴を考慮したベクトルを出力する局所的特徴処理を行う。
ステップＳ４において、行動選択装置１は、再帰型学習処理を行う。

【0034】

ステップＳ５において、行動選択装置１は、ホスト・行動種別選択処理を行う。
ステップＳ６において、ホスト・行動種別選択処理の結果を出力する。
なお、各処理部及び各処理ステップにおける処理の具体例については、後述する方策モデルにおける提案手法の中で説明する。

【0035】

強化学習を用いたセキュリティ検証では、環境とエージェントの相互作用を通じて、強化学習アルゴリズムがセキュリティ検証のための行動を選択する関数を、効率的に検証が進むよう最適化する。

【0036】

本発明は、方策関数を用いる強化学習アルゴリズムを対象とし、方策関数のモデルを方策モデルと呼ぶ。なお、図１の行動選択装置１は、方策モデルを装置として具体化したものである。方策モデル（方策関数）の引数には、環境から受け取る状態を含む。状態は、セキュリティ検査対象のネットワークシステムの、その時点における性質を表す値やその集合である。ここでは、ネットワークシステムに含まれるホストマシンの数や接続関係、各ホストマシンで動作するオペレーティングシステムやアプリケーションの情報を、数値化してベクトルとして表現した値を指す。

【0037】

方策モデルの出力は、セキュリティ検証のために次に採るべき行動とその確率である。具体例として、採り得る行動の数と同数の要素から構成されるベクトルで表現されることがある。この場合、ベクトルの各要素の合計は１となり、各要素は対応する行動を取る確率を表す。
方策モデルの出力から得られた値をもとに、実際の行動、すなわち、セキュリティ検証のために次に採る行動を決定する。通常は、ベクトルの各要素の値のうち最も大きい値に対応する行動（確率が最も高い行動）を選択する。

【0038】

方策モデルは、４種類の処理部、すなわち、グラフ処理部、局所的特徴処理部、再帰型学習処理部及びホスト・行動種別選択処理部から構成される。以下、方策モデルにおける提案手法を示す図３を参照しつつ、各処理部における処理の具体例を説明する。

【0039】

グラフ処理部（図３のグラフ処理部２１）は、検査対象となるネットワークシステムである環境の状態をグラフＧ＝（Ｖ，Ｅ，Ｘ）として受け取り、グラフ全体の特徴を表すベクトルｈ_Ｇとして出力する。ここで、Ｖはグラフのノードの集合であり、ネットワークシステムにおけるホストの集合に対応し、Ｅはグラフのエッジの集合であり、ホストの接続関係の集合に対応し、Ｘはノードの特徴ベクトルの集合であり、各ホストの属性情報を示す特徴ベクトルの集合に対応する。属性情報には、各ホストに搭載されるＯＳやアプリケーション等の情報を含む。加えて、脆弱性検査の途中経過（例えば、ポートスキャンを実施済みか、既に侵入に成功しているか、等）の情報も含むことができる。

【0040】

なお、検査対象となるネットワークシステムである環境の状態を示す表現（グラフ）は、例えば、先述の特許文献１（先願）で提案している装置等を用いることにより、効率的に得ることができる。

【0041】

局所的特徴処理部（図３の局所的特徴処理部２２）は、グラフ処理部から出力された、グラフ全体の特徴を表すｈ_Ｇと、ノードの特徴ベクトルの集合を表すＸを入力として受け取り、グラフの局所的な特徴を考慮したベクトルｃ_Ｇを出力する。ここでは、Ｘの値を参照することで、ｈ_Ｇに各ノードの局所的な特徴を考慮した値を付与（重み付け）する。具体的な局所的特徴処理の例として、注意機構（Attention機構又はAttentionとも呼ばれる。）や、クラスタリングを用いた処理等が挙げられる。図３は、局所的特徴処理として注意機構を用いた場合を示している。

【0042】

再帰型学習処理部（図３の再帰型学習処理部２３）は、局所的特徴処理部から出力されたベクトルｃ_Ｇと、隠れ状態ベクトルｇを受け取り、過去の状態を考慮したベクトルｚ_Ｇと、更新された隠れ状態ベクトルｇ′を出力する。ここで、入力される隠れ状態ベクトルｇは、前の時刻の処理において出力された隠れ状態ベクトルｇ′であり、要するに、１つ前の処理における隠れ状態ベクトルを受け取って更新する。なお、初めての処理の場合、隠れ状態ベクトルｇには任意の値が設定される。
隠れ状態ベクトルを用いて過去の状態を記録することで、過去に観測した状態（過去の履歴）を基にした新たな表現を獲得することができる。これにより、例えば同じ状態を繰り返し観測したとしても、異なる行動を出力することが可能となる。

【0043】

再帰型学習処理部における具体的な処理の例としては、ＬＳＴＭ（Long Short-Term Memory）や、ＧＲＵ（Gated Recurrent Unit）、ＲＮＮ（Recurrent Neural Network）が挙げられる。図３は、再帰型学習処理としてＧＲＵを用いた場合を示している。

【0044】

なお、図３に示されたｇとｇ′は、外部との入出力ではなく、同じ方策モデルにおける前後の時刻の処理との間で受け渡される隠れ状態ベクトルであることに注意されたい。先述のとおり、図３に示されたｇは、前の時刻の処理において出力された隠れ状態ベクトルｇ′を受け取ったものであり、また、図３に示されたｇ′は、後の時刻の処理に渡されて隠れ状態ベクトルｇとなる。

【0045】

ホスト・行動種別選択処理部（図３のホスト・行動種別選択処理部２４）は、ベクトルｚ_Ｇを受け取り、次の行動の確率を示すベクトルａを出力する。このとき、内部では、ベクトルｚ_Ｇを、ホストを表すベクトルｖ_ｈと行動種別を表すベクトルｖ_ａに分解（分割）する。これらの行列積ｖ_ｈ ^Ｔ×ｖ_ａにより、ホストと行動種別の両者を含む値を取得する。これをもとに、行動の確率を示すベクトルａを得る。

【0046】

図３では、ホスト・行動種別選択処理部２４が、ベクトルｚ_Ｇをホストを表すベクトルｖ_ｈと行動種別を表すベクトルｖ_ａに分解することを示すとともに、これらの行列積ｖ_ｈ ^Ｔ×ｖ_ａにより、行動（ホストと行動種別）の確率を示すベクトルａを得ていることを示している。

【0047】

なお、ホスト・行動種別選択処理部のうち、特に行動種別選択を処理する部分は、階層化して構成することが可能である。具体例として、行動種別を、「戦略」と「戦術」に階層化する方法が挙げられる。ここで、「戦略」は大局的な行動方針であり、セキュリティ検証における具体例としてスキャンや侵入が挙げられる。「戦術」は具体的な行動内容であり、セキュリティ検証における具体例として、スキャンに対応するポートスキャンやプロセススキャンの実行、侵入に対応するＳＭＢ（Server Message Block）やＲＤＰ（Remote Desktop Protocol）サービス経由の侵入コマンドの実行が挙げられる。

【0048】

また、ベクトルｖ_ｈとｖ_ａは、それぞれ行列に拡張してもよい。加えて、ベクトル（又は拡張された行列）ｖ_ｈとｖ_ａは、直交になるように制約を加えてもよい。例えば、ｖ_ｈとｖ_ａの次元数を強制的に揃えてもよい。ｖ_ｈとｖ_ａが直交であれば、ホストと行動種別をそれぞれ独立して表現することができるため、さらに性能が向上する可能性がある。

【0049】

なお、本実施形態により、例えば、セキュリティ検証の対象となるネットワークシステムの状態を詳細に表現することが可能となるとともに、セキュリティ検証のための行動を選択する方策関数を最適化するための学習を安定化させることでより大規模なネットワークへの対応も可能となることから、国連が主導する持続可能な開発目標（ＳＤＧｓ）の目標９「レジリエントなインフラを整備し、持続可能な産業化を推進すると共に、イノベーションの拡大を図る」に貢献することが可能となる。

【0050】

以上、本発明の実施形態について説明したが、本発明は、前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。

【0051】

例えば、図１ないし図３は、局所的特徴処理部、再帰型学習処理部、ホスト・行動種別選択処理部が直列に接続されるとともに、各処理部における処理が接続された順番どおりに行われる実施形態を示しているが、これに限られない。例えば、ホスト・行動種別選択処理部において、局所的特徴処理や再帰型学習処理を再度行うようにし、それにより学習のさらなる安定化を図るようにしてもよい。
また、処理部に、正規化処理や線形変換など、その処理部の外部からは引数を受け取らない関数を含むようにしてもよい。

【符号の説明】

【0052】

１行動選択装置（学習装置）
１０入力部
２０制御部
２１グラフ処理部
２２局所的特徴処理部
２３再帰型学習処理部
２４ホスト・行動種別選択処理部
３０記憶部

【図1】

【図2】

【図3】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版