特許7236708 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人京都大学の特許一覧 ▶ 株式会社国際電気通信基礎技術研究所の特許一覧

特許7236708制御装置、それを備えた基地局、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-03-02

(45)【発行日】2023-03-10

(54)【発明の名称】制御装置、それを備えた基地局、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体

(51)【国際特許分類】

H04W 72/50 20230101AFI20230303BHJP

H04W 84/12 20090101ALI20230303BHJP

H04W 72/0446 20230101ALI20230303BHJP

H04W 72/52 20230101ALI20230303BHJP

H04W 72/541 20230101ALI20230303BHJP

【ＦＩ】

H04W72/50 110

H04W84/12

H04W72/0446

H04W72/52

H04W72/541

【請求項の数】 18

(21)【出願番号】P 2020151896

(22)【出願日】2020-09-10

(65)【公開番号】P2022046051

(43)【公開日】2022-03-23

【審査請求日】2022-05-11

【国等の委託研究の成果に係る記載事項】（出願人による申告）「令和２年度総務省「電波利活用強靭化に向けた周波数創造技術に関する研究開発及び人材育成プログラム」委託研究、産業技術力強化法第１７条の適用を受ける特許出願

(73)【特許権者】

【識別番号】504132272

【氏名又は名称】国立大学法人京都大学

(73)【特許権者】

【識別番号】393031586

【氏名又は名称】株式会社国際電気通信基礎技術研究所

(74)【代理人】

【識別番号】100112715

【弁理士】

【氏名又は名称】松山隆夫

(72)【発明者】

【氏名】山本高至

(72)【発明者】

【氏名】香田優介

(72)【発明者】

【氏名】紀平悠人

(72)【発明者】

【氏名】矢野一人

【審査官】桑原聡一

(56)【参考文献】

【文献】特開２０２０－１７９３８（ＪＰ，Ａ）

【文献】特開２０１３－１０６２０２（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１９／０２４５８８２（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｂ７／２４－７／２６

Ｈ０４Ｗ４／００－９９／００

(57)【特許請求の範囲】

【請求項1】

各々が基地局と端末装置とを含み、かつ、タイムスロットを用いてフレームを無線通信によって送受信する複数のサービスセットのうちの任意の１つのサービスセットである制御対象サービスセットを制御する制御装置であって、
前記制御対象サービスセットに含まれる基地局である制御対象基地局によるフレームの送信スケジュールである第１の送信スケジュールと、前記制御対象基地局によるフレームの送信区間である第１の送信区間と、前記制御対象基地局によるフレームの送信が成功したか失敗したかを示す成功／失敗情報と、前記制御対象基地局による無線通信を妨害する基地局である敵対基地局によるフレームの送信区間である第２の送信区間と、前記複数のサービスセットのうちの前記制御対象サービスセット以外の１個以上のサービスセットであり、かつ、前記制御対象サービスセットと協調して無線通信を行う協調サービスセットに含まれる基地局である協調基地局によるフレームの送信スケジュールである第２の送信スケジュールとを収集する収集手段と、
前記制御対象基地局による無線通信への前記敵対基地局による妨害行動を固定して、前記成功／失敗情報と前記第１および第２の送信区間とに基づいて、前記敵対基地局による妨害が存在する通信環境において前記制御対象基地局の無線通信性能を維持する性能維持行動を学習する第１の敵対的強化学習をＮ_０（Ｎ_０は、１以上の整数）個のタイムスロットにおいて繰り返し実行して前記第１の敵対的強化学習の結果を出力する第１の学習器と、
前記制御対象基地局の前記性能維持行動を固定して、前記敵対基地局の前記妨害行動を学習する第２の敵対的強化学習を前記Ｎ_０個のタイムスロットと異なるＮ_１（Ｎ_１は、１以上の整数）個のタイムスロットにおいて繰り返し実行して前記第２の敵対的強化学習の結果を出力する第２の学習器と、
前記第１の送信スケジュールに基づいて前記制御対象基地局による前記フレームの送信タイミングになったことを検知すると、前記第１の学習器から受けた前記第１の敵対的強化学習の結果と前記第２の送信スケジュールとに基づいて前記制御対象基地局の行動を制御する制御手段とを備え、
前記第１の学習器は、前記第２の学習器から前記妨害行動を受けると、その受けた妨害行動を固定して、前記Ｎ_０個のタイムスロットにおける前記第１の敵対的強化学習をＮ_ｉｔｃｒ（Ｎ_ｉｔｃｒは、（Ｎ_０＋Ｎ_１）の自然数倍の整数）個のタイムスロット内の前記Ｎ_０個のタイムスロットごとに繰り返し実行して前記性能維持行動を更新し、前記Ｎ_０個のタイムスロットにおいて前記性能維持行動を最終的に更新するごとに前記最終的に更新した前記性能維持行動を前記第２の学習器へ出力するとともに、前記第１の送信スケジュールに基づいて前記制御対象基地局による前記フレームの送信タイミングになったことを検知すると、前記第１の敵対的強化学習の結果を前記制御手段へ出力し、
前記第２の学習器は、前記第１の学習器から前記性能維持行動を受けると、その受けた性能維持行動を固定して、前記Ｎ_１個のタイムスロットにおける前記第２の敵対的強化学習を前記Ｎ_ｉｔｃｒ個のタイムスロット内の前記Ｎ_１個のタイムスロットごとに繰り返し実行して前記妨害行動を更新し、前記Ｎ_１個のタイムスロットにおいて前記妨害行動を最終的に更新するごとに前記最終的に更新した前記妨害行動を前記第１の学習器へ出力し、
前記第１の学習器は、前記Ｎ_ｉｔｃｒ個のタイムスロットにおいて、前記Ｎ_０個のタイムスロットにおける前記第１の敵対的強化学習を前記Ｎ_１個のタイムスロットにおける前記第２の学習器による前記第２の敵対的強化学習と交互に実行する、制御装置。

【請求項2】

前記第１の学習器は、前記第１の敵対的強化学習において、前記制御対象基地局が前記フレームを送信する予定であるタイムスロットにおいて取得し得る報酬を累積した期待累積報酬が最大になるように第１の行動価値関数をＱ学習によって更新する第１の更新処理を前記Ｎ_ｉｔｃｒ個のタイムスロット内の前記Ｎ_０個のタイムスロットごとに繰り返し実行し、前記Ｑ学習におけるＱ値が最大になるときの前記第１の行動価値関数の行動を前記性能維持行動として前記第２の学習器へ出力するとともに、前記第１の送信スケジュールに基づいて前記制御対象基地局による前記フレームの送信タイミングになったことを検知すると、前記フレームの送信タイミングになったときの前記Ｑ学習におけるＱテーブルを前記第１の敵対的強化学習の結果として前記制御手段へ出力し、
前記第２の学習器は、前記第２の敵対的強化学習において、前記期待累積報酬が最小になるように第２の行動価値関数をＱ学習によって更新する第２の更新処理を前記Ｎ_ｉｔｃｒ個のタイムスロット内の前記Ｎ_１個のタイムスロットごとに繰り返し実行し、前記Ｑ学習におけるＱ値が最小になるときの前記第２の行動価値関数の行動を前記妨害行動として前記第１の学習器へ出力し、
前記第１の行動価値関数は、前記制御対象基地局が自己の行動を選択することである方策に基づいて、前記協調基地局による前記フレームの送信有無の状態を示す第１の状態と、前記制御対象基地局および前記敵対基地局の過去の所定数のタイムスロットにおける前記フレームの送信有無の履歴の状態を示す第２の状態とから状態集合のうちの１つの状態において前記制御対象基地局が実行可能な行動集合のうちの１つの行動を実行するときの価値を表し、
前記第２の行動価値関数は、前記敵対基地局が自己の行動を選択することである方策に基づいて、前記状態集合のうちの１つの状態において前記敵対基地局が前記フレームの送信を行う行動と前記敵対基地局が前記フレームの送信を行わない行動とのうちの１つの行動を実行するときの価値を表す、請求項１に記載の制御装置。

【請求項3】

前記第１の学習器は、前記第１の更新処理において、所定の確率によって前記制御対象基地局の行動を選択し、その選択した前記制御対象基地局の行動に基づいて前記第１の行動価値関数を前記Ｑ学習によって更新し、
前記第２の学習器は、前記第２の更新処理において、前記所定の確率によって前記敵対基地局の行動を選択し、その選択した前記敵対基地局の行動に基づいて前記第２の行動価値関数を前記Ｑ学習によって更新する、請求項２に記載の制御装置。

【請求項4】

前記第１の行動価値関数に含まれる報酬は、
各タイムスロットにおいて前記制御対象基地局が前記フレームを送信したときに得られる第１の報酬と、
各タイムスロットにおいて前記制御対象基地局が前記フレームを送信しなかったときに得られる第２の報酬とを含む、請求項２または請求項３に記載の制御装置。

【請求項5】

前記第１の報酬は、前記制御対象基地局が前記敵対基地局による前記フレームの送信有無に関わらず前記フレームを送信するときの前記タイムスロット当たりの零以上のデータ量からなる、請求項４に記載の制御装置。

【請求項6】

前記第２の報酬は、前記制御対象基地局が前記敵対基地局による前記フレームの送信有無に関わらず前記フレームを送信しないときの正の一定値または負の一定値からなる、請求項４に記載の制御装置。

【請求項7】

前記第２の行動価値関数に含まれる報酬は、前記第１の行動価値関数に含まれる報酬の符号を反転した報酬である、請求項４から請求項６のいずれか１項に記載の制御装置。

【請求項8】

前記第１の学習器は、
前記敵対基地局によるフレームの送信確率がしきい値よりも大きいとき、前記第１の敵対的強化学習を前記Ｎ_ｉｔｃｒ個のタイムスロット内の前記Ｎ_０個のタイムスロットごとに繰り返し実行して前記性能維持行動を更新し、前記Ｎ_０個のタイムスロットにおいて前記性能維持行動を最終的に更新するごとに前記最終的に更新した前記性能維持行動を前記第２の学習器へ出力するとともに、前記第１の送信スケジュールに基づいて前記制御対象基地局による前記フレームの送信タイミングになったことを検知すると、前記第１の敵対的強化学習の結果を前記制御手段へ出力し、
前記フレームの送信確率が前記しきい値以下であるとき、更に、前記成功／失敗情報および前記第１の送信区間に基づいて、前記敵対基地局による妨害が存在しない通信環境において前記制御対象基地局による無線通信のスループットが最大になるスループット最大行動を学習する強化学習をＮ’_ｉｔｃｒ（Ｎ’_ｉｔｃｒは、Ｎ_０の自然数倍の整数）個のタイムスロットにおいて繰り返し実行して前記スループット最大行動を更新し、前記第１の送信スケジュールに基づいて前記制御対象基地局による前記フレームの送信タイミングになったことを検知すると、前記第１の敵対的強化学習の結果に代えて前記強化学習の結果を前記制御手段へ出力し、
前記第２の学習器は、前記第１の学習器が前記強化学習を実行するとき、前記第２の敵対的強化学習を停止し、前記第１の学習器から前記性能維持行動を受けると、前記第２の敵対的強化学習を実行する、請求項１から請求項７のいずれか１項に記載の制御装置。

【請求項9】

請求項１から請求項８のいずれか１項に記載の制御装置を備える基地局。

【請求項10】

各々が基地局と端末装置とを含み、かつ、タイムスロットを用いてフレームを無線通信によって送受信する複数のサービスセットのうちの任意の１つのサービスセットである制御対象サービスセットの制御をコンピュータに実行させるためのプログラムであって、
収集手段が、前記制御対象サービスセットに含まれる基地局である制御対象基地局によるフレームの送信スケジュールである第１の送信スケジュールと、前記制御対象基地局によるフレームの送信区間である第１の送信区間と、前記制御対象基地局によるフレームの送信が成功したか失敗したかを示す成功／失敗情報と、前記制御対象基地局による無線通信を妨害する基地局である敵対基地局によるフレームの送信区間である第２の送信区間と、前記複数のサービスセットのうちの前記制御対象サービスセット以外の１個以上のサービスセットであり、かつ、前記制御対象サービスセットと協調して無線通信を行う協調サービスセットに含まれる基地局である協調基地局によるフレームの送信スケジュールである第２の送信スケジュールとを収集する第１のステップと、
第１の学習器が、前記制御対象基地局による無線通信への前記敵対基地局による妨害行動を固定して、前記成功／失敗情報と前記第１および第２の送信区間とに基づいて、前記敵対基地局による妨害が存在する通信環境において前記制御対象基地局の無線通信性能を維持する性能維持行動を学習する第１の敵対的強化学習をＮ_０（Ｎ_０は、１以上の整数）個のタイムスロットにおいて繰り返し実行して前記第１の敵対的強化学習の結果を出力する第２のステップと、
第２の学習器が、前記制御対象基地局の前記性能維持行動を固定して、前記敵対基地局の前記妨害行動を学習する第２の敵対的強化学習を前記Ｎ_０個のタイムスロットと異なるＮ_１（Ｎ_１は、１以上の整数）個のタイムスロットにおいて繰り返し実行して前記第２の敵対的強化学習の結果を出力する第３のステップと、
制御手段が、前記第１の送信スケジュールに基づいて前記制御対象基地局による前記フレームの送信タイミングになったことを検知すると、前記第１の学習器から受けた前記第１の敵対的強化学習の結果と前記第２の送信スケジュールとに基づいて前記制御対象基地局の行動を制御する第４のステップとをコンピュータに実行させ、
前記第１の学習器は、前記第２のステップにおいて、前記第２の学習器から前記妨害行動を受けると、その受けた妨害行動を固定して、前記Ｎ_０個のタイムスロットにおける前記第１の敵対的強化学習をＮ_ｉｔｃｒ（Ｎ_ｉｔｃｒは、（Ｎ_０＋Ｎ_１）の自然数倍の整数）個のタイムスロット内の前記Ｎ_０個のタイムスロットごとに繰り返し実行して前記性能維持行動を更新し、前記Ｎ_０個のタイムスロットにおいて前記性能維持行動を最終的に更新するごとに前記最終的に更新した前記性能維持行動を前記第２の学習器へ出力するとともに、前記第１の送信スケジュールに基づいて前記制御対象基地局による前記フレームの送信タイミングになったことを検知すると、前記第１の敵対的強化学習の結果を前記制御手段へ出力し、
前記第２の学習器は、前記第３のステップにおいて、前記第１の学習器から前記性能維持行動を受けると、その受けた性能維持行動を固定して、前記Ｎ_１個のタイムスロットにおける前記第２の敵対的強化学習を前記Ｎ_ｉｔｃｒ個のタイムスロット内の前記Ｎ_１個のタイムスロットごとに繰り返し実行して前記妨害行動を更新し、前記Ｎ_１個のタイムスロットにおいて前記妨害行動を最終的に更新するごとに前記最終的に更新した前記妨害行動を前記第１の学習器へ出力し、
前記第２のステップは、前記Ｎ_ｉｔｃｒ個のタイムスロットにおいて、前記第３のステップと交互に実行される、コンピュータに実行させるためのプログラム。

【請求項11】

前記第１の学習器は、前記第２のステップの前記第１の敵対的強化学習において、前記制御対象基地局が前記フレームを送信する予定であるタイムスロットにおいて取得し得る報酬を累積した期待累積報酬が最大になるように第１の行動価値関数をＱ学習によって更新する第１の更新処理を前記Ｎ_ｉｔｃｒ個のタイムスロット内の前記Ｎ_０個のタイムスロットごとに繰り返し実行し、前記Ｑ学習におけるＱ値が最大になるときの前記第１の行動価値関数の行動を前記性能維持行動として前記第２の学習器へ出力するとともに、前記第１の送信スケジュールに基づいて前記制御対象基地局による前記フレームの送信タイミングになったことを検知すると、前記フレームの送信タイミングになったときの前記Ｑ学習におけるＱテーブルを前記第１の敵対的強化学習の結果として前記制御手段へ出力し、
前記第２の学習器は、前記第３のステップの前記第２の敵対的強化学習において、前記期待累積報酬が最小になるように第２の行動価値関数をＱ学習によって更新する第２の更新処理を前記Ｎ_ｉｔｃｒ個のタイムスロット内の前記Ｎ_１個のタイムスロットごとに繰り返し実行し、前記Ｑ学習におけるＱ値が最小になるときの前記第２の行動価値関数の行動を前記妨害行動として前記第１の学習器へ出力し、
前記第１の行動価値関数は、前記制御対象基地局が自己の行動を選択することである方策に基づいて前記協調基地局による前記フレームの送信有無の状態を示す第１の状態と、前記制御対象基地局および前記敵対基地局の過去の所定数のタイムスロットにおける前記フレームの送信有無の履歴の状態を示す第２の状態とから状態集合のうちの１つの状態において前記制御対象基地局が実行可能な行動集合のうちの１つの行動を実行するときの価値を表し、
前記第２の行動価値関数は、前記敵対基地局が自己の行動を選択することである方策に基づいて前記状態集合のうちの１つの状態において前記敵対基地局が前記フレームの送信を行う行動と前記敵対基地局が前記フレームの送信を行わない行動とのうちの１つの行動を実行するときの価値を表す、請求項１０に記載のコンピュータに実行させるためのプログラム。

【請求項12】

前記第１の学習器は、前記第２のステップの前記第１の更新処理において、所定の確率によって前記制御対象基地局の行動を選択し、その選択した前記制御対象基地局の行動に基づいて前記第１の行動価値関数を前記Ｑ学習によって更新し、
前記第２の学習器は、前記第３のステップの前記第２の更新処理において、前記所定の確率によって前記敵対基地局の行動を選択し、その選択した前記敵対基地局の行動に基づいて前記第２の行動価値関数を前記Ｑ学習によって更新する、請求項１１に記載のコンピュータに実行させるためのプログラム。

【請求項13】

前記第１の行動価値関数に含まれる報酬は、
各タイムスロットにおいて前記制御対象基地局が前記フレームを送信したときに得られる第１の報酬と、
各タイムスロットにおいて前記制御対象基地局が前記フレームを送信しなかったときに得られる第２の報酬とを含む、請求項１１または請求項１２に記載のコンピュータに実行させるためのプログラム。

【請求項14】

前記第１の報酬は、前記制御対象基地局が前記敵対基地局による前記フレームの送信有無に関わらず前記フレームを送信するときの前記タイムスロット当たりの零以上のデータ量からなる、請求項１３に記載のコンピュータに実行させるためのプログラム。

【請求項15】

前記第２の報酬は、前記制御対象基地局が前記敵対基地局による前記フレームの送信有無に関わらず前記フレームを送信しないときの正の一定値または負の一定値からなる、請求項１３に記載のコンピュータに実行させるためのプログラム。

【請求項16】

前記第２の行動価値関数に含まれる報酬は、前記第１の行動価値関数に含まれる報酬の符号を反転した報酬である、請求項１３から請求項１５のいずれか１項に記載のコンピュータに実行させるためのプログラム。

【請求項17】

前記第１の学習器は、前記第２のステップにおいて、
前記敵対基地局によるフレームの送信確率がしきい値よりも大きいとき、前記第１の敵対的強化学習を前記Ｎ_ｉｔｃｒ個のタイムスロット内の前記Ｎ_０個のタイムスロットごとに繰り返し実行して前記性能維持行動を更新し、前記Ｎ_０個のタイムスロットにおいて前記性能維持行動を最終的に更新するごとに前記最終的に更新した前記性能維持行動を前記第２の学習器へ出力するとともに、前記第１の送信スケジュールに基づいて前記制御対象基地局による前記フレームの送信タイミングになったことを検知すると、前記第１の敵対的強化学習の結果を前記制御手段へ出力し、
前記フレームの送信確率が前記しきい値以下であるとき、更に、前記成功／失敗情報および前記第１の送信区間に基づいて、前記敵対基地局による妨害が存在しない通信環境において前記制御対象基地局による無線通信のスループットが最大になるスループット最大行動を学習する強化学習をＮ’_ｉｔｃｒ（Ｎ’_ｉｔｃｒは、Ｎ_０の自然数倍の整数）個のタイムスロットにおいて繰り返し実行して前記スループット最大行動を更新し、前記第１の送信スケジュールに基づいて前記制御対象基地局による前記フレームの送信タイミングになったことを検知すると、前記第１の敵対的強化学習の結果に代えて前記強化学習の結果を前記制御手段へ出力し、
前記第２の学習器は、前記第３のステップにおいて、前記第１の学習器が前記強化学習を実行するとき、前記第２の敵対的強化学習を停止し、前記第１の学習器から前記性能維持行動を受けると、前記第２の敵対的強化学習を実行する、請求項１０から請求項１６のいずれか１項に記載のコンピュータに実行させるためのプログラム。

【請求項18】

請求項１０から請求項１７のいずれか１項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。

【発明の詳細な説明】

【技術分野】

【0001】

この発明は、制御装置、それを備えた基地局、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体に関するものである。

【背景技術】

【0002】

最近、無線通信は、急速に普及しており、それにより、無線デバイスが稠密に配置されるようになっている。このため、無線デバイスは、その通信機会を求めて競合を起こしている。無線通信では、このような状況でも通信が行えるようにＣＳＭＡ／ＣＡ（Carrier Sense Multiple Access with Collision Avoidance）によるアクセス制御を行っているが、この方式では、無線デバイスが稠密であればあるほど近くのＡＰ（Access Point）と干渉が起こり易くなり、結果として、フレーム損失が発生し、スループットが大幅に低下してしまう。

【0003】

このような問題を解決するために、無線ＬＡＮ（Local Area Network）における複数のＡＰを協調させ、複数のＡＰのフレーム送信情報を集約することと、強化学習により集約した情報を活用することが提案されている（非特許文献１）。

【0004】

具体的には、他のＡＰの過去・未来の送信区間情報を収集することで他のＡＰの通信によって受ける干渉の程度や通信失敗要因を推定し、その推定に基づいて適切な通信タイミングや伝送速度の選択を行う。これにより、他の通信からの干渉により通信失敗が起こらない中で最大の伝送速度を選択することができ、結果として周波数利用効率を改善することができる。

【先行技術文献】

【非特許文献】

【0005】

【文献】山本高至、紀平悠人、香田優介、西尾理志、守倉正博, “無線ＬＡＮにおける冗長検査情報による通信品質要因解析，”２０２０年電子情報通信学会総合大会，Ｂ－５－１４７， p. ４３５．

【文献】L. Pinto, J. Davidson, R. Sukthankar, and A. Gupta, “Robust adversarial reinforcement learning," Proc. ICML, pp.2817-2826, Sydney, Australia, Aug. 2017.

【文献】M.L. Littman, “Markov games as a framework for multiagent reinforcement learning," Proc. ICML-94, pp.157-163, New Brunswick, NJ, USA, Jul. 1994.

【文献】J. Perolat, B. Scherrer, and O. Pietquin, “Approximate dynamic programming for two-player zero-sum markov games," Proc. ICML, pp.1321-1329, Lille, France, Jul. 2015.

【文献】R.S. Sutton and Andrew G.Barto, Reinforcement Learning:An Introduction, MIT, Cambridge, 1998.

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかし、非特許文献１における方式においては、運用段階において通信環境に存在する全てのＡＰが協調するとは限らず、制御対象のＡＰの付近に制御外のＡＰが存在する可能性がある。このような場合、非特許文献１における方式においては、協調しているＡＰ群から収集した情報に基づいて通信失敗要因を推定するため、制御外のＡＰが原因で通信に失敗した場合、推定と通信の成否の結果が一致せず、学習が不安定になってしまうという問題がある。また、学習を行うことで制御外のＡＰが存在する場合に適応したとしても、通信環境（制御外のＡＰのフレーム送出確率など）が変化すると、獲得していた方策では新たな通信環境に即座に対応することができず、パフォーマンスが低下してしまうという問題もある。

【0007】

そこで、この発明の実施の形態によれば、制御外のＡＰが存在しても無線通信におけるスループットを向上させる制御を実行する制御装置を提供する。

【0008】

また、この発明の実施の形態によれば、制御外のＡＰが存在しても無線通信におけるスループットを向上させる制御を実行する制御装置を備える基地局を提供する。

【0009】

更に、この発明の実施の形態によれば、制御外のＡＰが存在しても無線通信におけるスループットを向上させる制御をコンピュータに実行させるためのプログラムを提供する。

【0010】

更に、この発明の実施の形態によれば、制御外のＡＰが存在しても無線通信におけるスループットを向上させる制御をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供する。

【課題を解決するための手段】

【0011】

（構成１）
この発明の実施の形態によれば、制御装置は、各々が基地局と端末装置とを含み、かつ、タイムスロットを用いてフレームを無線通信によって送受信する複数のサービスセットのうちの任意の１つのサービスセットである制御対象サービスセットを制御する制御装置であって、収集手段と、第１および第２の学習器と、制御手段とを備える。収集手段は、制御対象サービスセットに含まれる基地局である制御対象基地局によるフレームの送信スケジュールである第１の送信スケジュールと、制御対象基地局によるフレームの送信区間である第１の送信区間と、制御対象基地局によるフレームの送信が成功したか失敗したかを示す成功／失敗情報と、制御対象基地局による無線通信を妨害する基地局である敵対基地局によるフレームの送信区間である第２の送信区間と、複数のサービスセットのうちの制御対象サービスセット以外の１個以上のサービスセットであり、かつ、制御対象サービスセットと協調して無線通信を行う協調サービスセットに含まれる基地局である協調基地局によるフレームの送信スケジュールである第２の送信スケジュールとを収集する。第１の学習器は、制御対象基地局による無線通信への敵対基地局による妨害行動を固定して、成功／失敗情報と第１および第２の送信区間とに基づいて、敵対基地局による妨害が存在する通信環境において制御対象基地局の無線通信性能を維持する性能維持行動を学習する第１の敵対的強化学習をＮ_０（Ｎ_０は、１以上の整数）個のタイムスロットにおいて繰り返し実行して第１の敵対的強化学習の結果を出力する。第２の学習器は、制御対象基地局の性能維持行動を固定して、敵対基地局の妨害行動を学習する第２の敵対的強化学習をＮ_０個のタイムスロットと異なるＮ_１（Ｎ_１は、１以上の整数）個のタイムスロットにおいて繰り返し実行して第２の敵対的強化学習の結果を出力する。制御手段は、第１の送信スケジュールに基づいて制御対象基地局によるフレームの送信タイミングになったことを検知すると、第１の学習器から受けた第１の敵対的強化学習の結果と第２の送信スケジュールとに基づいて制御対象基地局の行動を制御する。そして、第１の学習器は、第２の学習器から妨害行動を受けると、その受けた妨害行動を固定して、Ｎ_０個のタイムスロットにおける第１の敵対的強化学習をＮ_ｉｔｃｒ（Ｎ_ｉｔｃｒは、（Ｎ_０＋Ｎ_１）の自然数倍の整数）個のタイムスロット内のＮ_０個のタイムスロットごとに繰り返し実行して性能維持行動を更新し、Ｎ_０個のタイムスロットにおいて性能維持行動を最終的に更新するごとに最終的に更新した性能維持行動を第２の学習器へ出力するとともに、第１の送信スケジュールに基づいて制御対象基地局によるフレームの送信タイミングになったことを検知すると、第１の敵対的強化学習の結果を制御手段へ出力する。また、第２の学習器は、第１の学習器から性能維持行動を受けると、その受けた性能維持行動を固定して、Ｎ_１個のタイムスロットにおける第２の敵対的強化学習をＮ_ｉｔｃｒ個のタイムスロット内のＮ_１個のタイムスロットごとに繰り返し実行して妨害行動を更新し、Ｎ_１個のタイムスロットにおいて妨害行動を最終的に更新するごとに最終的に更新した妨害行動を第１の学習器へ出力する。第１の学習器は、Ｎ_ｉｔｃｒ個のタイムスロットにおいて、Ｎ_０個のタイムスロットにおける第１の敵対的強化学習をＮ_１個のタイムスロットにおける第２の学習器による第２の敵対的強化学習と交互に実行する。

【0012】

（構成２）
構成１において、第１の学習器は、第１の敵対的強化学習において、制御対象基地局がフレームを送信する予定であるタイムスロットにおいて取得し得る報酬を累積した期待累積報酬が最大になるように第１の行動価値関数をＱ学習によって更新する第１の更新処理をＮ_ｉｔｃｒ個のタイムスロット内のＮ_０個のタイムスロットごとに繰り返し実行し、Ｑ学習におけるＱ値が最大になるときの第１の行動価値関数の行動を性能維持行動として第２の学習器へ出力するとともに、第１の送信スケジュールに基づいて制御対象基地局によるフレームの送信タイミングになったことを検知すると、フレームの送信タイミングになったときのＱ学習におけるＱテーブルを第１の敵対的強化学習の結果として制御手段へ出力する。第２の学習器は、第２の敵対的強化学習において、期待累積報酬が最小になるように第２の行動価値関数をＱ学習によって更新する第２の更新処理をＮ_ｉｔｃｒ個のタイムスロット内のＮ_１個のタイムスロットごとに繰り返し実行し、Ｑ学習におけるＱ値が最小になるときの第２の行動価値関数の行動を妨害行動として第１の学習器へ出力する。第１の行動価値関数は、制御対象基地局が自己の行動を選択することである方策に基づいて協調基地局によるフレームの送信有無の状態を示す第１の状態と、制御対象基地局および敵対基地局の過去の所定数のタイムスロットにおけるフレームの送信有無の履歴の状態を示す第２の状態とから状態集合のうちの１つの状態において制御対象基地局が実行可能な行動集合のうちの１つの行動を実行するときの価値を表す。第２の行動価値関数は、敵対基地局が自己の行動を選択することである方策に基づいて状態集合のうちの１つの状態において敵対基地局がフレームの送信を行う行動と敵対基地局がフレームの送信を行わない行動とのうちの１つの行動を実行するときの価値を表す。

【0013】

（構成３）
構成２において、第１の学習器は、第１の更新処理において、所定の確率によって制御対象基地局の行動を選択し、その選択した制御対象基地局の行動に基づいて第１の行動価値関数をＱ学習によって更新する。第２の学習器は、第２の更新処理において、所定の確率によって敵対基地局の行動を選択し、その選択した敵対基地局の行動に基づいて第２の行動価値関数をＱ学習によって更新する。

【0014】

（構成４）
構成２または構成３において、第１の行動価値関数に含まれる報酬は、各タイムスロットにおいて制御対象基地局がフレームを送信したときに得られる第１の報酬と、各タイムスロットにおいて制御対象基地局がフレームを送信しなかったときに得られる第２の報酬とを含む。

【0015】

（構成５）
構成４において、第１の報酬は、制御対象基地局が敵対基地局によるフレームの送信有無に関わらずフレームを送信するときのタイムスロット当たりの零以上のデータ量からなる。

【0016】

（構成６）
構成４において、第２の報酬は、制御対象基地局が敵対基地局によるフレームの送信有無に関わらずフレームを送信しないときの正の一定値または負の一定値からなる。

【0017】

（構成７）
構成４から構成６のいずれかにおいて、第２の行動価値関数に含まれる報酬は、第１の行動価値関数に含まれる報酬の符号を反転した報酬である。

【0018】

（構成８）
構成１から構成７のいずれかにおいて、第１の学習器は、敵対基地局によるフレームの送信確率がしきい値よりも大きいとき、第１の敵対的強化学習をＮ_ｉｔｃｒ個のタイムスロット内のＮ_０個のタイムスロットごとに繰り返し実行して性能維持行動を更新し、Ｎ_０個のタイムスロットにおいて性能維持行動を最終的に更新するごとに最終的に更新した性能維持行動を第２の学習器へ出力するとともに、第１の送信スケジュールに基づいて制御対象基地局によるフレームの送信タイミングになったことを検知すると、第１の敵対的強化学習の結果を制御手段へ出力し、フレームの送信確率がしきい値以下であるとき、更に、成功／失敗情報および第１の送信区間に基づいて、敵対基地局による妨害が存在しない通信環境において制御対象基地局による無線通信のスループットが最大になるスループット最大行動を学習する強化学習をＮ’_ｉｔｃｒ（Ｎ’_ｉｔｃｒは、Ｎ_０の自然数倍の整数）個のタイムスロットにおいて繰り返し実行してスループット最大行動を更新し、第１の送信スケジュールに基づいて制御対象基地局によるフレームの送信タイミングになったことを検知すると、第１の敵対的強化学習の結果に代えて強化学習の結果を制御手段へ出力する。第２の学習器は、第１の学習器が強化学習を実行するとき、第２の敵対的強化学習を停止し、第１の学習器から性能維持行動を受けると、第２の敵対的強化学習を実行する。

【0019】

（構成９）
また、この発明の実施の形態によれば、基地局は、構成１から構成８のいずれかに記載の制御装置を備える。

【0020】

（構成１０）
更に、この発明の実施の形態によれば、プログラムは、各々が基地局と端末装置とを含み、かつ、タイムスロットを用いてフレームを無線通信によって送受信する複数のサービスセットのうちの任意の１つのサービスセットである制御対象サービスセットの制御をコンピュータに実行させるためのプログラムであって、
収集手段が、制御対象サービスセットに含まれる基地局である制御対象基地局によるフレームの送信スケジュールである第１の送信スケジュールと、制御対象基地局によるフレームの送信区間である第１の送信区間と、制御対象基地局によるフレームの送信が成功したか失敗したかを示す成功／失敗情報と、制御対象基地局による無線通信を妨害する基地局である敵対基地局によるフレームの送信区間である第２の送信区間と、複数のサービスセットのうちの制御対象サービスセット以外の１個以上のサービスセットであり、かつ、制御対象サービスセットと協調して無線通信を行う協調サービスセットに含まれる基地局である協調基地局によるフレームの送信スケジュールである第２の送信スケジュールとを収集する第１のステップと、
第１の学習器が、制御対象基地局による無線通信への敵対基地局による妨害行動を固定して、成功／失敗情報と第１および第２の送信区間とに基づいて、敵対基地局による妨害が存在する通信環境において制御対象基地局の無線通信性能を維持する性能維持行動を学習する第１の敵対的強化学習をＮ_０（Ｎ_０は、１以上の整数）個のタイムスロットにおいて繰り返し実行して第１の敵対的強化学習の結果を出力する第２のステップと、
第２の学習器が、制御対象基地局の性能維持行動を固定して、敵対基地局の妨害行動を学習する第２の敵対的強化学習をＮ_０個のタイムスロットと異なるＮ_１（Ｎ_１は、１以上の整数）個のタイムスロットにおいて繰り返し実行して第２の敵対的強化学習の結果を出力する第３のステップと、
制御手段が、第１の送信スケジュールに基づいて制御対象基地局によるフレームの送信タイミングになったことを検知すると、第１の学習器から受けた第１の敵対的強化学習の結果と第２の送信スケジュールとに基づいて制御対象基地局の行動を制御する第４のステップとをコンピュータに実行させ、
第１の学習器は、第２のステップにおいて、第２の学習器から妨害行動を受けると、その受けた妨害行動を固定して、Ｎ_０個のタイムスロットにおける第１の敵対的強化学習をＮ_ｉｔｃｒ（Ｎ_ｉｔｃｒは、（Ｎ_０＋Ｎ_１）の自然数倍の整数）個のタイムスロット内のＮ_０個のタイムスロットごとに繰り返し実行して性能維持行動を更新し、Ｎ_０個のタイムスロットにおいて性能維持行動を最終的に更新するごとに最終的に更新した性能維持行動を第２の学習器へ出力するとともに、第１の送信スケジュールに基づいて制御対象基地局によるフレームの送信タイミングになったことを検知すると、第１の敵対的強化学習の結果を制御手段へ出力し、
第２の学習器は、第３のステップにおいて、第１の学習器から性能維持行動を受けると、その受けた性能維持行動を固定して、Ｎ_１個のタイムスロットにおける第２の敵対的強化学習をＮ_ｉｔｃｒ個のタイムスロット内のＮ_１個のタイムスロットごとに繰り返し実行して妨害行動を更新し、Ｎ_１個のタイムスロットにおいて妨害行動を最終的に更新するごとに最終的に更新した妨害行動を第１の学習器へ出力し、
第２のステップは、Ｎ_ｉｔｃｒ個のタイムスロットにおいて、第３のステップと交互に実行される、コンピュータに実行させるためのプログラムである。

【0021】

（構成１１）
構成１０において、第１の学習器は、第２のステップの第１の敵対的強化学習において、制御対象基地局がフレームを送信する予定であるタイムスロットにおいて取得し得る報酬を累積した期待累積報酬が最大になるように第１の行動価値関数をＱ学習によって更新する第１の更新処理をＮ_ｉｔｃｒ個のタイムスロット内のＮ_０個のタイムスロットごとに繰り返し実行し、Ｑ学習におけるＱ値が最大になるときの第１の行動価値関数の行動を性能維持行動として第２の学習器へ出力するとともに、第１の送信スケジュールに基づいて制御対象基地局によるフレームの送信タイミングになったことを検知すると、フレームの送信タイミングになったときのＱ学習におけるＱテーブルを第１の敵対的強化学習の結果として制御手段へ出力する。第２の学習器は、第３のステップの第２の敵対的強化学習において、期待累積報酬が最小になるように第２の行動価値関数をＱ学習によって更新する第２の更新処理をＮ_ｉｔｃｒ個のタイムスロット内のＮ_１個のタイムスロットごとに繰り返し実行し、Ｑ学習におけるＱ値が最小になるときの第２の行動価値関数の行動を妨害行動として第１の学習器へ出力する。第１の行動価値関数は、制御対象基地局が自己の行動を選択することである方策に基づいて協調基地局によるフレームの送信有無の状態を示す第１の状態と、制御対象基地局および敵対基地局の過去の所定数のタイムスロットにおけるフレームの送信有無の履歴の状態を示す第２の状態とから状態集合のうちの１つの状態において制御対象基地局が実行可能な行動集合のうちの１つの行動を実行するときの価値を表す。第２の行動価値関数は、敵対基地局が自己の行動を選択することである方策に基づいて状態集合のうちの１つの状態において敵対基地局がフレームの送信を行う行動と敵対基地局がフレームの送信を行わない行動とのうちの１つの行動を実行するときの価値を表す。

【0022】

（構成１２）
構成１１において、第１の学習器は、第２のステップの第１の更新処理において、所定の確率によって制御対象基地局の行動を選択し、その選択した制御対象基地局の行動に基づいて第１の行動価値関数をＱ学習によって更新する。第２の学習器は、第３のステップの第２の更新処理において、所定の確率によって敵対基地局の行動を選択し、その選択した敵対基地局の行動に基づいて第２の行動価値関数をＱ学習によって更新する。

【0023】

（構成１３）
構成１１または構成１２において、第１の行動価値関数に含まれる報酬は、各タイムスロットにおいて制御対象基地局がフレームを送信したときに得られる第１の報酬と、各タイムスロットにおいて制御対象基地局がフレームを送信しなかったときに得られる第２の報酬とを含む。

【0024】

（構成１４）
構成１３において、第１の報酬は、制御対象基地局が敵対基地局によるフレームの送信有無に関わらずフレームを送信するときのタイムスロット当たりの零以上のデータ量からなる。

【0025】

（構成１５）
構成１３において、第２の報酬は、制御対象基地局が敵対基地局によるフレームの送信有無に関わらずフレームを送信しないときの正の一定値または負の一定値からなる。

【0026】

（構成１６）
構成１３から構成１５のいずれかにおいて、第２の行動価値関数に含まれる報酬は、第１の行動価値関数に含まれる報酬の符号を反転した報酬である。

【0027】

（構成１７）
構成１０から構成１６のいずれかにおいて、第１の学習器は、第２のステップにおいて、敵対基地局によるフレームの送信確率がしきい値よりも大きいとき、第１の敵対的強化学習をＮ_ｉｔｃｒ個のタイムスロット内のＮ_０個のタイムスロットごとに繰り返し実行して性能維持行動を更新し、Ｎ_０個のタイムスロットにおいて性能維持行動を最終的に更新するごとに最終的に更新した性能維持行動を第２の学習器へ出力するとともに、第１の送信スケジュールに基づいて制御対象基地局によるフレームの送信タイミングになったことを検知すると、第１の敵対的強化学習の結果を制御手段へ出力し、フレームの送信確率がしきい値以下であるとき、更に、成功／失敗情報および第１の送信区間に基づいて、敵対基地局による妨害が存在しない通信環境において制御対象基地局による無線通信のスループットが最大になるスループット最大行動を学習する強化学習をＮ’_ｉｔｃｒ（Ｎ’_ｉｔｃｒは、Ｎ_０の自然数倍の整数）個のタイムスロットにおいて繰り返し実行してスループット最大行動を更新し、第１の送信スケジュールに基づいて制御対象基地局によるフレームの送信タイミングになったことを検知すると、１の敵対的強化学習の結果に代えて強化学習の結果を制御手段へ出力する。第２の学習器は、第３のステップにおいて、第１の学習器が強化学習を実行するとき、第２の敵対的強化学習を停止し、第１の学習器から性能維持行動を受けると、第２の敵対的強化学習を実行する。

【0028】

（構成１８）
更に、この発明の実施の形態によれば、記録媒体は、構成１０から構成１７のいずれかに記載のプログラムを記録したコンピュータ読み取り可能な記録媒体である。

【発明の効果】

【0029】

制御外のＡＰが存在しても無線通信におけるスループットを向上できる。

【図面の簡単な説明】

【0030】

【図1】この発明の実施の形態による通信システムの概略図である。

【図2】図１に示す制御装置の概略図である。

【図3】制御対象のアクセスポイントから収集した情報を記憶する対応表の概念図である。

【図4】制御対象のアクセスポイントによる無線通信を妨害するアクセスポイントのフレームの送信区間を記憶する対応表の概念図である。

【図5】協調ＡＰであるアクセスポイントの送信スケジュールを記憶する対応表の概念図である。

【図6】敵対的強化学習の方法を説明するための図である。

【図7】協調アクセスポイントの状態を説明するための図である。

【図8】協調ＡＰであるアクセスポイントＡＰ＿１，ＡＰ＿２の状態と、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの直近Ｘスロットにおけるフレームの送信有無の履歴Ｓ_{ｈｉｓｔｏｒｙ}の状態とを示す図である。

【図9】協調ＡＰであるアクセスポイントＡＰ＿１，ＡＰ＿２の状態と、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの直近Ｘスロットにおけるフレームの送信有無の履歴Ｓ_{ｈｉｓｔｏｒｙ}の状態とを示す図である。

【図10】協調ＡＰであるアクセスポイントＡＰ＿１，ＡＰ＿２の状態と、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの直近Ｘスロットにおけるフレームの送信有無の履歴Ｓ_{ｈｉｓｔｏｒｙ}の状態とを示す図である。

【図11】制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）をＱ学習によって更新するときのＱテーブルの概念図である。

【図12】敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）をＱ学習によって更新するときのＱテーブルの概念図である。

【図13】Ｑテーブルの更新方法を説明するための第１の概略図である。

【図14】Ｑテーブルの更新方法を説明するための第２の概略図である。

【図15】Ｑテーブルの更新方法を説明するための第３の概略図である。

【図16】Ｑテーブルの更新方法を説明するための第４の概略図である。

【図17】Ｑテーブルの更新方法を説明するための第５の概略図である。

【図18】Ｑテーブルの更新方法を説明するための第６の概略図である。

【図19】Ｑテーブルの更新方法を説明するための第７の概略図である。

【図20】制御対象のアクセスポイントおよび敵対アクセスポイントの通信の履歴を示す図である。

【図21】図１に示す制御装置の動作を説明するためのフローチャートである。

【図22】図２１のステップＳ７の詳細な動作を説明するためのフローチャートである。

【図23】図２２のステップＳ７４の詳細な動作を説明するためのフローチャートである。

【図24】図２２のステップＳ７７の詳細な動作を説明するためのフローチャートである。

【図25】敵対的強化学習と制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶによる無線通信との関係を示す図である。

【図26】図１に示す通信システムの動作を説明するためのフローチャートである。

【図27】制御対象のアクセスポイントおよび協調外のアクセスポイントのスループットの和と、協調外のアクセスポイントによるフレームの送信確率との関係を示す図である。

【図28】制御対象のアクセスポイントの送信確率と協調外のアクセスポイントによるフレームの送信確率との関係を示す図である。

【図29】図１に示す制御装置の別の概略図である。

【図30】敵対アクセスポイント無しの強化学習におけるＱテーブルの概念図である。

【図31】敵対アクセスポイント無しの強化学習におけるＱテーブルの更新方法を説明するための第１の概略図である。

【図32】敵対アクセスポイント無しの強化学習におけるＱテーブルの更新方法を説明するための第２の概略図である。

【図33】敵対アクセスポイント無しの強化学習におけるＱテーブルの更新方法を説明するための第３の概略図である。

【図34】図２９に示す制御装置の動作を説明するためのフローチャートである。

【図35】図３４のステップＳ１１の詳細な動作を説明するためのフローチャートである。

【図36】図３５のステップＳ１１５の詳細な動作を説明するためのフローチャートである。

【図37】図１に示す制御装置を備えるアクセスポイントの概略図である。

【発明を実施するための形態】

【0031】

本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。

【0032】

図１は、この発明の実施の形態による通信システムの概略図である。図１を参照して、この発明の実施の形態による通信システム１００は、制御装置１０と、ＢＳＳ＿１～ＢＳＳ＿Ｎ（Ｎは、２以上の整数）と、ＢＳＳ＿ＵＮＣＯＯＲＤとを備える。

【0033】

ＢＳＳ＿１～ＢＳＳ＿Ｎ，ＢＳＳ＿ＵＮＣＯＯＲＤの各々は、アクセスポイントＡＰと端末装置ＴＭとからなるＢＳＳ（Basic Service Set）である。以下、ＢＳＳを「サービスセット」と言う。

【0034】

サービスセットＢＳＳ＿１は、アクセスポイントＡＰ＿１と端末装置ＴＭ＿１とからなる。サービスセットＢＳＳ＿２は、アクセスポイントＡＰ＿２と端末装置ＴＭ＿２とからなる。以下、同様にして、サービスセットＢＳＳ＿Ｎ－１は、アクセスポイントＡＰ＿Ｎ－１と端末装置ＴＭ＿Ｎ－１とからなり、サービスセットＢＳＳ＿Ｎは、アクセスポイントＡＰ＿Ｎと端末装置ＴＭ＿Ｎとからなる。サービスセットＢＳＳ＿ＵＮＣＯＯＲＤは、アクセスポイントＡＰ＿ＵＮＣＯＯＲＤと端末装置ＴＭ＿ＵＮＣＯＯＲＤとからなる。

【0035】

サービスセットＢＳＳ＿１～ＢＳＳ＿Ｎは、フレームの送信情報を共有し、相互に協調して無線通信を行うサービスセットである。サービスセットＢＳＳ＿ＵＮＣＯＯＲＤは、サービスセットＢＳＳ＿１～ＢＳＳ＿Ｎにおける無線通信を妨害するサービスセットである。

【0036】

アクセスポイントＡＰ＿１～ＡＰ＿Ｎは、それぞれ、タイムスロットを用いて端末装置ＴＭ＿１～ＴＭ＿Ｎと相互に無線通信を行う。アクセスポイントＡＰ＿ＵＮＣＯＯＲＤは、アクセスポイントＡＰ＿１～ＡＰ＿Ｎのうちの制御対象のアクセスポイントＡＰ＿ＣＴＬにおける無線通信を妨害するように、タイムスロットを用いて端末装置ＴＭ＿ＵＮＣＯＯＲＤと相互に無線通信を行う。

【0037】

制御対象のアクセスポイントＡＰ＿ＣＴＬは、アクセスポイントＡＰ＿１～ＡＰ＿Ｎのうちの任意の１つのアクセスポイントＡＰからなる。アクセスポイントＡＰ＿１～ＡＰ＿Ｎのうちの制御対象のアクセスポイントＡＰ＿ＣＴＬ以外のアクセスポイントＡＰは、協調ＡＰである。

【0038】

以下においては、例えば、アクセスポイントＡＰ＿Ｎを制御対象のアクセスポイントＡＰ＿ＣＴＬとし、アクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１を協調ＡＰとする。そして、アクセスポイントＡＰ＿ＵＮＣＯＯＲＤは、制御対象のアクセスポイントＡＰ＿ＣＴＬと協調して無線通信を行わない協調外のアクセスポイントである。

【0039】

制御対象のアクセスポイントＡＰ＿ＣＴＬであるアクセスポイントＡＰ＿Ｎは、フレームを端末装置ＴＭ＿Ｎへ送信し、その後、端末装置ＴＭ＿ＮからＡＣＫを受信したか否かによってフレームの端末装置ＴＭ＿Ｎへの送信が成功したか失敗したかを判定することによってフレームの端末装置ＴＭ＿Ｎへの送信が成功したか失敗したかを示す成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}を検出する。この場合、アクセスポイントＡＰ＿Ｎは、端末装置ＴＭ＿ＮからＡＣＫを受信したとき、フレームの端末装置ＴＭ＿Ｎへの送信が成功したと判定し、端末装置ＴＭ＿ＮからＡＣＫを受信しないとき、フレームの端末装置ＴＭ＿Ｎへの送信が失敗したと判定する。

【0040】

また、アクセスポイントＡＰ＿Ｎは、フレームの送信に用いた送信区間ＴＲＳ＿ＣＴＬと、各送信区間ＴＲＳ＿ＣＴＬにおけるフレームの伝送速度ＴＲＤ＿ＣＴＬとを検出する。

【0041】

更に、アクセスポイントＡＰ＿Ｎは、フレームの送信を予定する送信スケジュールＳＣＨ＿ＣＴＬを生成する。

【0042】

そして、アクセスポイントＡＰ＿Ｎは、送信者としての自己のＭＡＣアドレスＡｄｄ＿ＡＰ＿Ｎ、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}、送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬおよび送信スケジュールＳＣＨ＿ＣＴＬを制御装置１０へ送信する。

【0043】

更に、アクセスポイントＡＰ＿Ｎは、アクセスポイントＡＰ＿ＵＮＣＯＯＲＤと端末装置ＴＭ＿ＵＮＣＯＯＲＤとの無線通信を検知したとき、アクセスポイントＡＰ＿ＵＮＣＯＯＲＤおよび端末装置ＴＭ＿ＵＮＣＯＯＲＤが相互に無線通信を行った送信区間ＴＲＳ＿ＵＮＣＯＯＲＤを検出する。そして、アクセスポイントＡＰ＿Ｎは、アクセスポイントＡＰ＿ＵＮＣＯＯＲＤのＭＡＣアドレスＡｄｄ＿ＡＰ＿ＵＮＣＯＯＲＤと送信区間ＴＲＳ＿ＵＮＣＯＯＲＤとを制御装置１０へ送信する。

【0044】

協調ＡＰであるアクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１は、アクセスポイントＡＰ＿Ｎ（＝制御対象のアクセスポイントＡＰ＿ＣＴＬ）とフレーム送信情報を共有し、アクセスポイントＡＰ＿Ｎ（＝制御対象のアクセスポイントＡＰ＿ＣＴＬ）と協調して、それぞれ、端末装置ＴＭ＿１～ＴＭ＿Ｎ－１と相互に無線通信を行う。

【0045】

そして、アクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１は、それぞれ、フレームの送信を予定する送信スケジュールＳＣＨ＿ＣＯＯＲＤ＿１～ＳＣＨ＿ＣＯＯＲＤ＿Ｎ－１を生成し、その生成した送信スケジュールＳＣＨ＿ＣＯＯＲＤ＿１～ＳＣＨ＿ＣＯＯＲＤ＿Ｎ－１とＭＡＣアドレスＡｄｄ＿ＡＰ＿１～Ａｄｄ＿ＡＰ＿Ｎ－１とを制御装置１０へ送信する。

【0046】

アクセスポイントＡＰ＿ＵＮＣＯＯＲＤは、アクセスポイントＡＰ＿Ｎ（＝制御対象のアクセスポイントＡＰ＿ＣＴＬ）とフレーム送信情報を共有することなく、アクセスポイントＡＰ＿Ｎ（＝制御対象のアクセスポイントＡＰ＿ＣＴＬ）による無線通信を妨害するように端末装置ＴＭ＿ＵＮＣＯＯＲＤと相互に無線通信を行う。

【0047】

なお、図１においては、サービスセットＢＳＳ＿１～ＢＳＳ＿Ｎ，ＢＳＳ＿ＵＮＣＯＯＲＤの各々は、１つのアクセスポイントＡＰと１つの端末装置ＴＭとからなるように示されているが、この発明の実施の形態においては、これに限らず、サービスセットＢＳＳ＿１～ＢＳＳ＿Ｎ，ＢＳＳ＿ＵＮＣＯＯＲＤの各々は、１つのアクセスポイントＡＰと複数の端末装置ＴＭとからなっていてもよい。

【0048】

制御装置１０は、有線ケーブルを介してアクセスポイントＡＰ＿１～ＡＰ＿Ｎと接続されている。そして、制御装置１０は、有線ケーブルを介して制御対象のアクセスポイントＡＰ＿ＮからＭＡＣアドレスＡｄｄ＿ＡＰ＿Ｎ、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}、送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬ、送信スケジュールＳＣＨ＿ＣＴＬ、ＭＡＣアドレスＡｄｄ＿ＡＰ＿ＵＮＣＯＯＲＤおよび送信区間ＴＲＳ＿ＵＮＣＯＯＲＤを収集し、協調ＡＰのアクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１からそれぞれＭＡＣアドレスＡｄｄ＿ＡＰ＿１～Ａｄｄ＿ＡＰ＿Ｎ－１および送信スケジュールＳＣＨ＿ＣＯＯＲＤ＿１～ＳＣＨ＿ＣＯＯＲＤ＿Ｎ－１を収集する。

【0049】

制御装置１０は、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}、送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬ、送信スケジュールＳＣＨ＿ＣＴＬ、送信区間ＴＲＳ＿ＵＮＣＯＯＲＤおよび送信スケジュールＳＣＨ＿ＣＯＯＲＤ（＝ＳＣＨ＿ＣＯＯＲＤ＿１～ＳＣＨ＿ＣＯＯＲＤ＿Ｎ－１）に基づいて、後述する方法によって、敵対的強化学習を実行して、アクセスポイントＡＰ＿Ｎと端末装置ＴＭ＿Ｎとの無線通信へのアクセスポイントＡＰ＿ＵＮＣＯＯＲＤによる妨害が存在する通信環境において、アクセスポイントＡＰ＿Ｎの無線通信性能を維持するアクセスポイントＡＰ＿Ｎの行動（「性能維持行動」と言う。）を生成し、その生成した性能維持行動を行うように制御対象のアクセスポイントＡＰ＿Ｎを制御する。

【0050】

図２は、図１に示す制御装置１０の概略図である。図２を参照して、制御装置１０は、収集手段１と、データベース２と、制御手段３と、学習器４，５とを備える。

【0051】

収集手段１は、有線ケーブル６を介して制御対象のアクセスポイントＡＰ＿ＮからＭＡＣアドレスＡｄｄ＿ＡＰ＿Ｎ、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}、送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬ、送信スケジュールＳＣＨ＿ＣＴＬ、ＭＡＣアドレスＡｄｄ＿ＡＰ＿ＵＮＣＯＯＲＤおよび送信区間ＴＲＳ＿ＵＮＣＯＯＲＤを受信し、協調ＡＰのアクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１からそれぞれＭＡＣアドレスＡｄｄ＿ＡＰ＿１～Ａｄｄ＿ＡＰ＿Ｎ－１および送信スケジュールＳＣＨ＿ＣＯＯＲＤ＿１～ＳＣＨ＿ＣＯＯＲＤ＿Ｎ－１を受信する。

【0052】

そして、収集手段１は、その受信したＭＡＣアドレスＡｄｄ＿ＡＰ＿Ｎ、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}、送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬ、送信スケジュールＳＣＨ＿ＣＴＬ、ＭＡＣアドレスＡｄｄ＿ＡＰ＿ＵＮＣＯＯＲＤ、送信区間ＴＲＳ＿ＵＮＣＯＯＲＤ、ＭＡＣアドレスＡｄｄ＿ＡＰ＿１～Ａｄｄ＿ＡＰ＿Ｎ－１および送信スケジュールＳＣＨ＿ＣＯＯＲＤ＿１～ＳＣＨ＿ＣＯＯＲＤ＿Ｎ－１をデータベース２に格納する。

【0053】

データベース２は、ＭＡＣアドレスＡｄｄ＿ＡＰ＿Ｎ、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}、送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬ、送信スケジュールＳＣＨ＿ＣＴＬ、ＭＡＣアドレスＡｄｄ＿ＡＰ＿ＵＮＣＯＯＲＤ、送信区間ＴＲＳ＿ＵＮＣＯＯＲＤ、ＭＡＣアドレスＡｄｄ＿ＡＰ＿１～Ａｄｄ＿ＡＰ＿Ｎ－１および送信スケジュールＳＣＨ＿ＣＯＯＲＤ（＝ＳＣＨ＿ＣＯＯＲＤ＿１～ＳＣＨ＿ＣＯＯＲＤ＿Ｎ－１）を記憶する。

【0054】

制御手段３は、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}、送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬ、送信スケジュールＳＣＨ＿ＣＴＬ、送信区間ＴＲＳ＿ＵＮＣＯＯＲＤおよび送信スケジュールＳＣＨ＿ＣＯＯＲＤをデータベース２から読み出す。そして、制御手段３は、アクセスポイントＡＰ＿Ｎが制御対象のアクセスポイントＡＰ＿ＣＴＬであることを示す信号Ｓ＿ＣＴＬ＿ＡＰ（ＡＰ＿Ｎ）を生成する。その後、制御手段３は、後述する方法によって、送信区間ＴＲＳ＿ＣＴＬおよび送信区間ＴＲＳ＿ＵＮＣＯＯＲＤに基づいて、直近Ｘスロットにおける制御対象のアクセスポイントＡＰ＿Ｎおよび協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤによるフレームの送信有無の履歴Ｓ_{ｈｉｓｔｏｒｙ}を生成する。そうすると、制御手段３は、信号Ｓ＿ＣＴＬ＿ＡＰ（ＡＰ＿Ｎ）、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}、送信区間ＴＲＳ＿ＣＴＬ、送信区間ＴＲＳ＿ＵＮＣＯＯＲＤ、伝送速度ＴＲＤ＿ＣＴＬ、送信スケジュールＳＣＨ＿ＣＴＬ，ＳＣＨ＿ＣＯＯＲＤおよび履歴Ｓ_{ｈｉｓｔｏｒｙ}を学習器４，５へ出力する。

【0055】

また、制御手段３は、制御対象のアクセスポイントＡＰ＿Ｎが次にフレームを送信するタイミングになると、敵対的強化学習の結果を学習器４から受け、その受けた敵対的強化学習の結果に基づいて、次にフレームを送信するタイムスロットにおける制御対象のアクセスポイントＡＰ＿Ｎの行動を制御する。

【0056】

更に、制御手段３は、制御対象のアクセスポイントＡＰ＿Ｎが次にフレームを送信するタイミングになると、敵対的強化学習の結果を学習器５から受け、その受けた敵対的強化学習の結果に基づいて、次にフレームを送信するタイムスロットにおける協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤの行動を制御する。

【0057】

学習器４は、信号Ｓ＿ＣＴＬ＿ＡＰ（ＡＰ＿Ｎ）、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}、送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬ、送信スケジュールＳＣＨ＿ＣＴＬ，ＳＣＨ＿ＣＯＯＲＤおよび履歴Ｓ_{ｈｉｓｔｏｒｙ}を制御手段３から受ける。そして、学習器４は、信号Ｓ＿ＣＴＬ＿ＡＰ（ＡＰ＿Ｎ）に基づいて、アクセスポイントＡＰ＿Ｎが制御対象のアクセスポイントＡＰ＿ＣＴＬであり、アクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１が協調ＡＰであることを検知する。また、学習器４は、アクセスポイントＡＰ＿ＵＮＣＯＯＲＤの行動価値関数ＦＵＮＣＴＩＯＮ＿ＵＮＣＯＯＲＤを学習器５から受ける。

【0058】

そうすると、学習器４は、送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬ、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}、送信スケジュールＳＣＨ＿ＣＴＬ，ＳＣＨ＿ＣＯＯＲＤおよび履歴Ｓ_{ｈｉｓｔｏｒｙ}を入力情報として、後述する方法によって、アクセスポイントＡＰ＿ＵＮＣＯＯＲＤの行動価値関数ＦＵＮＣＴＩＯＮ＿ＵＮＣＯＯＲＤを固定して敵対的強化学習をＮ_０（Ｎ_０は、１以上の整数）個のタイムスロットにおいて繰り返し実行することによって制御対象のアクセスポイントＡＰ＿Ｎの期待累積報酬が最大になるように制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数ＦＵＮＣＴＩＯＮ＿ＣＴＬを繰り返し更新し、その更新した行動価値関数ＦＵＮＣＴＩＯＮ＿ＣＴＬを学習器５へ出力することをＮ_ｉｔｃｒ個のタイムスロット内のＮ_０個のタイムスロットごとに繰り返し実行する。

【0059】

また、学習器４は、送信スケジュールＳＣＨ＿ＣＴＬに基づいて制御対象のアクセスポイントＡＰ＿Ｎが次にフレームを送信するタイミングになったことを検知すると、制御対象のアクセスポイントＡＰ＿Ｎが次にフレームを送信するタイミングになったときの敵対的強化学習の結果を制御手段３へ出力する。

【0060】

学習器５は、信号Ｓ＿ＣＴＬ＿ＡＰ（ＡＰ＿Ｎ）、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}、送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬ、送信スケジュールＳＣＨ＿ＣＴＬ，ＳＣＨ＿ＣＯＯＲＤおよび履歴Ｓ_{ｈｉｓｔｏｒｙ}を制御手段３から受ける。そして、学習器５は、信号Ｓ＿ＣＴＬ＿ＡＰ（ＡＰ＿Ｎ）に基づいて、アクセスポイントＡＰ＿Ｎが制御対象のアクセスポイントＡＰ＿ＣＴＬであり、アクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１が協調ＡＰであることを検知する。また、学習器５は、制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数ＦＵＮＣＴＩＯＮ＿ＣＴＬを学習器４から受ける。

【0061】

そうすると、学習器５は、制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数ＦＵＮＣＴＩＯＮ＿ＣＴＬを固定して敵対的強化学習をＮ_１（Ｎ_１は、１以上の整数）個のタイムスロットにおいて繰り返し実行することによって制御対象のアクセスポイントＡＰ＿Ｎの期待累積報酬が最小になるようにアクセスポイントＡＰ＿ＵＮＣＯＯＲＤの行動価値関数ＦＵＮＣＴＩＯＮ＿ＵＮＣＯＯＲＤを繰り返し更新し、その更新した行動価値関数ＦＵＮＣＴＩＯＮ＿ＵＮＣＯＯＲＤを学習器４へ出力することをＮ_ｉｔｃｒ個のタイムスロット内のＮ_１個のタイムスロットごとに繰り返し実行する。

【0062】

また、学習器５は、送信スケジュールＳＣＨ＿ＣＴＬに基づいて制御対象のアクセスポイントＡＰ＿Ｎが次にフレームを送信するタイミングになったことを検知すると、制御対象のアクセスポイントＡＰ＿Ｎが次にフレームを送信するタイミングになったときの敵対的強化学習の結果を制御手段３へ出力する。

【0063】

このように、学習器４は、学習器５から出力されるアクセスポイントＡＰ＿ＵＮＣＯＯＲＤの行動価値関数ＦＵＮＣＴＩＯＮ＿ＵＮＣＯＯＲＤを固定して敵対的強化学習を実行し、学習器５は、学習器４から出力されるアクセスポイントＡＰ＿Ｎの行動価値関数ＦＵＮＣＴＩＯＮ＿ＣＴＬを固定して敵対的強化学習する。つまり、学習器４，５は、それぞれＮ_０個のタイムスロットおよびＮ_１個のタイムスロットにおいて敵対的強化学習を交互に実行することをＮ_ｉｔｃｒ個のタイムスロットにおいて実行する。従って、Ｎ_ｉｔｃｒは、（Ｎ_０＋Ｎ_１）を自然数倍した整数からなる。

【0064】

また、学習器４，５は、制御対象のアクセスポイントＡＰ＿Ｎの送信スケジュールＳＣＨ＿ＣＴＬに基づいて制御対象のアクセスポイントＡＰ＿Ｎによるフレームの送信タイミングになったことを検知すると、制御対象のアクセスポイントＡＰ＿Ｎによるフレームの送信タイミングにおける敵対的強化学習の最新の結果を制御手段３へ出力する。

【0065】

図３は、制御対象のアクセスポイントＡＰ＿Ｎから収集した情報を記憶する対応表の概念図である。

【0066】

図３を参照して、テーブルＴＢＬ１－１は、名前と、送信者と、送信区間と、伝送速度と、成功／失敗情報と、送信スケジュールとを含む。

【0067】

名前、送信者、送信区間、伝送速度、成功／失敗情報および送信スケジュールは、相互に対応付けられる。

【0068】

送信者は、制御対象であるアクセスポイントＡＰ＿ＮのＭＡＣアドレスＡｄｄ＿ＡＰ＿Ｎからなる。送信区間は、過去の直近Ｘスロットにおいて、アクセスポイントＡＰ＿Ｎがフレームの送信に用いたタイムスロットの開始時刻および終了時刻［ｔ_{ＳＴＡＲＴ＿Ｎ＿１}，ｔ_{ＥＮＤ＿Ｎ＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ＿２}，ｔ_{ＥＮＤ＿Ｎ＿２}］，・・・からなる。その結果、開始時刻および終了時刻［ｔ_{ＳＴＡＲＴ＿Ｎ＿１}，ｔ_{ＥＮＤ＿Ｎ＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ＿２}，ｔ_{ＥＮＤ＿Ｎ＿２}］，・・・で表される送信区間以外の送信区間は、過去の直近Ｘスロットにおいて、アクセスポイントＡＰ＿Ｎがフレームを送信しなかったタイムスロットを表す。伝送速度は、ＴＲ＿ｒａｔｅ＿Ｎ＿１，ＴＲ＿ｒａｔｅ＿Ｎ＿２，・・・からなる。そして、伝送速度ＴＲ＿ｒａｔｅ＿Ｎ＿１，ＴＲ＿ｒａｔｅ＿Ｎ＿２，・・・は、それぞれ、送信区間［ｔ_{ＳＴＡＲＴ＿Ｎ＿１}，ｔ_{ＥＮＤ＿Ｎ＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ＿２}，ｔ_{ＥＮＤ＿Ｎ＿２}］，・・・に対応付けられる。

【0069】

成功／失敗情報は、“０”または“１”（＝０／１）からなる。“０”は、フレームの送信が失敗したことを表し、“１”は、フレームの送信が成功したことを表す。そして、各成功／失敗情報は、それぞれ、送信区間［ｔ_{ＳＴＡＲＴ＿Ｎ＿１}，ｔ_{ＥＮＤ＿Ｎ＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ＿２}，ｔ_{ＥＮＤ＿Ｎ＿２}］，・・・および伝送速度ＴＲ＿ｒａｔｅ＿Ｎ＿１，ＴＲ＿ｒａｔｅ＿Ｎ＿２，・・・に対応付けられる。

【0070】

送信スケジュールＳＣＨ＿ＣＴＬは、制御対象のアクセスポイントＡＰ＿Ｎがフレームの送信を予定するタイムスロットの開始時刻および終了時刻［ｔ_{ＳＴＡＲＴ＿ＳＣＨ＿Ｎ＿１}，ｔ_{ＥＮＤ＿ＳＣＨ＿Ｎ＿１}］，［ｔ_{ＳＴＡＲＴ＿ＳＣＨ＿Ｎ＿２}，ｔ_{ＥＮＤ＿ＳＣＨ＿Ｎ＿２}］，・・・からなる。そして、送信スケジュールＳＣＨ＿ＣＴＬは、送信者Ａｄｄ＿ＡＰ＿Ｎに対応付けられる。

【0071】

収集手段１は、アクセスポイントＡＰ＿ＮからＭＡＣアドレスＡｄｄ＿ＡＰ＿Ｎ、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}、送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬおよび送信スケジュールＳＣＨ＿ＣＴＬを受信すると、ＭＡＣアドレスＡｄｄ＿ＡＰ＿Ｎ、送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬ、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}および送信スケジュールＳＣＨ＿ＣＴＬをデータベース２内の対応表ＴＢＬ１－１に格納する。

【0072】

図４は、制御対象のアクセスポイントＡＰ＿Ｎによる無線通信を妨害するアクセスポイントＡＰ＿ＵＮＣＯＯＲＤのフレームの送信区間ＴＲＳ＿ＵＮＣＯＯＲＤを記憶する対応表の概念図である。

【0073】

図４を参照して、対応表ＴＢＬ１－２は、名前と、送信者と、送信区間とを含む。名前、送信者および送信区間は、相互に対応付けられる。

【0074】

送信者は、アクセスポイントＡＰ＿ＵＮＣＯＯＲＤのＭＡＣアドレスＡｄｄ＿ＡＰ＿ＵＮＣＯＯＲＤからなる。送信区間ＴＲＳ＿ＵＮＣＯＯＲＤは、過去の直近Ｘスロットにおいて、アクセスポイントＡＰ＿ＵＮＣＯＯＲＤがフレームを送信したタイムスロットの開始時刻および終了時刻［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿１}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿１}］，［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿２}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿２}］，・・・，［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿ｄ}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿ｄ}］からなる。ｄは、アクセスポイントＡＰ＿ＵＮＣＯＯＲＤがフレームを送信した直近のタイムスロットの個数を表し、０以上の整数からなる。その結果、開始時刻および終了時刻［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿１}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿１}］，［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿２}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿２}］，・・・，［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿ｄ}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿ｄ}］で表される送信区間以外の送信区間は、過去の直近Ｘスロットにおいて、アクセスポイントＡＰ＿ＵＮＣＯＯＲＤがフレームを送信しなかったタイムスロットを表す。

【0075】

対応表ＴＢＬ１－２における送信区間［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿１}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿１}］，［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿２}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿２}］，・・・，［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿ｄ}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿ｄ}］の引数１，２，・・・，ｄは、アクセスポイントＡＰ＿ＵＮＣＯＯＲＤがフレームを送信した直近のタイムスロットの個数を表すため、対応表ＴＢＬ１－１における送信区間［ｔ_{ＳＴＡＲＴ＿Ｎ＿１}，ｔ_{ＥＮＤ＿Ｎ＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ＿２}，ｔ_{ＥＮＤ＿Ｎ＿２}］，・・・の引数１，２，・・・と同じである場合もあれば、異なる場合もある。

【0076】

収集手段１は、アクセスポイントＡＰ＿ＮからＭＡＣアドレスＡｄｄ＿ＡＰ＿ＵＮＣＯＯＲＤおよび送信区間ＴＲＳ＿ＵＮＣＯＯＲＤを受信すると、ＭＡＣアドレスＡｄｄ＿ＡＰ＿ＵＮＣＯＯＲＤおよび送信区間ＴＲＳ＿ＵＮＣＯＯＲＤを対応表ＴＢＬ１－２に格納する。

【0077】

図５は、協調ＡＰであるアクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１の送信スケジュールを記憶する対応表の概念図である。

【0078】

図５を参照して、テーブルＴＢＬ２－１は、名前と、送信者と、送信スケジュールとを含む。名前、送信者および送信スケジュールは、相互に対応付けられる。

【0079】

送信者は、協調ＡＰであるアクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１のＭＡＣアドレスＡｄｄ＿ＡＰ＿１～Ａｄｄ＿ＡＰ＿Ｎ－１からなる。

【0080】

送信スケジュールは、タイムスロットの開始時刻および終了時刻“［ｔ_{ＳＴＡＲＴ＿１＿１}，ｔ_{ＥＮＤ＿１＿１}］，［ｔ_{ＳＴＡＲＴ＿１＿２}，ｔ_{ＥＮＤ＿１＿２}］，・・・”、“［ｔ_{ＳＴＡＲＴ＿２＿１}，ｔ_{ＥＮＤ＿２＿１}］，［ｔ_{ＳＴＡＲＴ＿２＿２}，ｔ_{ＥＮＤ＿２＿２}］，・・・”、“［ｔ_{ＳＴＡＲＴ＿３＿１}，ｔ_{ＥＮＤ＿３＿１}］，［ｔ_{ＳＴＡＲＴ＿３＿２}，ｔ_{ＥＮＤ＿３＿２}］，・・・”、・・・、“［ｔ_{ＳＴＡＲＴ＿Ｎ－１＿１}，ｔ_{ＥＮＤ＿Ｎ－１＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ－１＿２}，ｔ_{ＥＮＤ＿Ｎ－１＿２}］，・・・”からなる。

【0081】

送信スケジュール［ｔ_{ＳＴＡＲＴ＿１＿１}，ｔ_{ＥＮＤ＿１＿１}］，［ｔ_{ＳＴＡＲＴ＿１＿２}，ｔ_{ＥＮＤ＿１＿２}］，・・・は、送信者Ａｄｄ＿ＡＰ＿１に対応付けられ、送信スケジュール［ｔ_{ＳＴＡＲＴ＿２＿１}，ｔ_{ＥＮＤ＿２＿１}］，［ｔ_{ＳＴＡＲＴ＿２＿２}，ｔ_{ＥＮＤ＿２＿２}］，・・・は、送信者Ａｄｄ＿ＡＰ＿２に対応付けられ、送信スケジュール［ｔ_{ＳＴＡＲＴ＿３＿１}，ｔ_{ＥＮＤ＿３＿１}］，［ｔ_{ＳＴＡＲＴ＿３＿２}，ｔ_{ＥＮＤ＿３＿２}］，・・・は、送信者Ａｄｄ＿ＡＰ＿３に対応付けられ、以下、同様にして、送信スケジュール［ｔ_{ＳＴＡＲＴ＿Ｎ－１＿１}，ｔ_{ＥＮＤ＿Ｎ－１＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ－１＿２}，ｔ_{ＥＮＤ＿Ｎ－１＿２}］，・・・は、送信者Ａｄｄ＿ＡＰ＿Ｎ－１に対応付けられる。

【0082】

収集手段１は、アクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１からそれぞれＭＡＣアドレスＡｄｄ＿ＡＰ＿１～Ａｄｄ＿ＡＰ＿Ｎ－１および送信スケジュールＳＣＨ＿ＣＯＯＲＤ＿１～ＳＣＨ＿ＣＯＯＲＤ＿Ｎ－１を受信すると、ＭＡＣアドレスＡｄｄ＿ＡＰ＿１～Ａｄｄ＿ＡＰ＿Ｎ－１および送信スケジュールＳＣＨ＿ＣＯＯＲＤ＿１～ＳＣＨ＿ＣＯＯＲＤ＿Ｎ－１を対応表ＴＢＬ２－１に格納する。

【0083】

学習器４，５における敵対的強化学習（非特許文献２）について説明する。この発明の実施の形態においては、学習器４は、フレームの送信タイミングにおける制御対象のアクセスポイントＡＰ＿Ｎの方策（即ち、制御対象のアクセスポイントＡＰ＿Ｎが行動を選択すること）を獲得するため、学習段階において制御対象のアクセスポイントＡＰ＿Ｎの無線通信を妨害する仮想的なアクセスポイントである敵対アクセスポイントＡＰ＿ＡＤＶの存在下において敵対的強化学習を実行する。従って、上述したアクセスポイントＡＰ＿ＵＮＣＯＯＲＤは、学習段階においては、敵対アクセスポイントＡＰ＿ＡＤＶからなる。

【0084】

学習器５は、制御対象のアクセスポイントＡＰ＿Ｎによる無線通信をより効果的に妨害するような敵対アクセスポイントＡＰ＿ＡＤＶの方策を獲得しようと学習する。

【0085】

一方、学習器４は、制御対象のアクセスポイントＡＰ＿Ｎが妨害に晒されたとしても無線通信の性能を維持できるような方策を獲得しようと学習する。

【0086】

学習段階において、主体エージェント（制御対象のアクセスポイントＡＰ＿Ｎ）と敵対者（敵対アクセスポイントＡＰ＿ＡＤＶ）が競争を行うシナリオを考える際、この二者の競争を２プレーヤーゼロサムマルコフゲーム（非特許文献３，４）で表現する。

【0087】

マルコフゲームは、（Ｓ，Ａ_ｐ，Ａ_ａ，Ｔ，ｒ，γ，Ｐ）によって表すことができる。Ｓは、状態空間を表し、Ａ_ｐは、主体エージェントの行動空間を表し、Ａ_ａは、敵対者の行動空間を表し、Ｔは、Ｓ×Ａ_ｐ×Ａ_ａ×Ｓからなり、状態遷移確率を表し、ｒは、Ｓ×Ａ_ｐ×Ａ_ａからなり、報酬を表し、γは、割引率を表し、Ｐは、初期状態の確率分布を表す。なお、γは、０≦γ≦１を満たす実数からなる。

【0088】

制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶは、各タイムスロットにおいて同じ状態（＝状態空間Ｓのうちの１つの状態）を観測する。この状態は、（１）協調ＡＰであるアクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１のフレームの送信有無の状態と、（２）制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの直近Ｘスロットにおけるフレームの送信有無の履歴とからなる。なお、Ｘは、１以上の整数である。

【0089】

従って、状態空間Ｓは、次式によって表される。

【0090】

【数1】

【0091】

式（１）において、Ｓ_ｉ（ｉ＝１，２，・・・，Ｎ－１）は、協調ＡＰであるアクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１のフレームの送信有無の状態を表し、次式によって定義される。

【0092】

【数2】

【0093】

式（２）において、“－１”は、１つのタイムスロットにおいてフレームを送信していない状態を表し、“１”は、１つのタイムスロットにおいてフレームを送信している状態を表す。

【0094】

また、式（１）において、Ｓ_{ｈｉｓｔｏｒｙ}は、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの直近Ｘスロットにおけるフレームの送信有無の履歴を表しており、次式によって定義される。

【0095】

【数3】

【0096】

式（３）において、Ｓ_０は、０以上の整数である。また、ｘ_１，ｘ_２，ｘ_３は、直近Ｘスロットの間にそれぞれのタイムスロットに対応する制御対象のアクセスポイントＡＰ＿Ｎと敵対アクセスポイントＡＰ＿ＡＤＶとの行動組のスロット数を表す。

【0097】

そして、ｘ_１は、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの両者が共にフレームを送信していたスロット数を表し、ｘ_２は、制御対象のアクセスポイントＡＰ＿Ｎがフレームの送信を行っていたが、敵対アクセスポイントＡＰ＿ＡＤＶがフレームの送信を行っていなかったスロット数を表し、ｘ_３は、敵対アクセスポイントＡＰ＿ＡＤＶのフレームの送信の有無に関わらず、制御対象のアクセスポイントＡＰ＿Ｎがフレームの送信を行っていなかったスロット数を表す。なお、初期状態Ｓ_０のうち、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの直近Ｘスロットの通信履歴によって決定されるＳ_{０，ｈｉｓｔｏｒｙ}∈Ｓ_{ｈｉｓｔｏｒｙ}は、一様分布によって決定される。

【0098】

制御手段３は、データベース２の対応表ＴＢＬ１－１から送信区間［ｔ_{ＳＴＡＲＴ＿Ｎ＿１}，ｔ_{ＥＮＤ＿Ｎ＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ＿２}，ｔ_{ＥＮＤ＿Ｎ＿２}］，・・・を読み出し、データベース２の対応表ＴＢＬ１－２から送信区間［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿１}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿１}］，［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿２}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿２}］，・・・，［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿ｄ}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿ｄ}］を読み出す。

【0099】

そして、制御手段３は、送信区間［ｔ_{ＳＴＡＲＴ＿Ｎ＿１}，ｔ_{ＥＮＤ＿Ｎ＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ＿２}，ｔ_{ＥＮＤ＿Ｎ＿２}］，・・・と送信区間［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿１}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿１}］，［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿２}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿２}］，・・・，［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿ｄ}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿ｄ}］とにおいて、相互に一致する送信区間を検出し、その検出した送信区間の個数をスロット数ｘ_１とする。

【0100】

また、制御手段３は、送信区間［ｔ_{ＳＴＡＲＴ＿Ｎ＿１}，ｔ_{ＥＮＤ＿Ｎ＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ＿２}，ｔ_{ＥＮＤ＿Ｎ＿２}］，・・・から、送信区間［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿１}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿１}］，［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿２}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿２}］，・・・，［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿ｄ}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿ｄ}］のいずれとも一致しない送信区間を検出し、その検出した送信区間の個数をスロット数ｘ_２とする。送信区間［ｔ_{ＳＴＡＲＴ＿Ｎ＿１}，ｔ_{ＥＮＤ＿Ｎ＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ＿２}，ｔ_{ＥＮＤ＿Ｎ＿２}］，・・・のうち、送信区間［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿１}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿１}］，［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿２}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿２}］，・・・，［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿ｄ}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿ｄ}］のいずれとも一致しない送信区間は、制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信し、かつ、敵対アクセスポイントＡＰ＿ＡＤＶがフレームを送信しなかった送信区間を表すからである。

【0101】

更に、制御手段３は、送信区間［ｔ_{ＳＴＡＲＴ＿Ｎ＿１}，ｔ_{ＥＮＤ＿Ｎ＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ＿２}，ｔ_{ＥＮＤ＿Ｎ＿２}］，・・・と異なる送信区間（制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信しなかった区間）のうちで、送信区間［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿１}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿１}］，［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿２}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿２}］，・・・，［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿ｄ}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿ｄ}］のいずれかと一致する送信区間と、送信区間［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿１}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿１}］，［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿２}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿２}］，・・・，［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿ｄ}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿ｄ}］と異なる送信区間（アクセスポイントＡＰ＿ＵＮＣＯＯＲＤがフレームを送信しなかった送信区間）のいずれかと一致する送信区間とを検出し、その検出した２つの送信区間の個数をスロット数ｘ_３とする。制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信しなかった区間のうちで、送信区間［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿１}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿１}］，［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿２}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿２}］，・・・，［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿ｄ}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿ｄ}］のいずれかと一致する送信区間は、制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信せず、かつ、敵対アクセスポイントＡＰ＿ＡＤＶがフレームを送信した送信区間ＴＲＳ＿１を表し、制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信しなかった区間のうちで、アクセスポイントＡＰ＿ＵＮＣＯＯＲＤがフレームを送信しなかった送信区間のいずれかと一致する送信区間は、制御対象のアクセスポイントＡＰ＿ＮおよびアクセスポイントＡＰ＿ＵＮＣＯＯＲＤの両方がフレームを送信しなかった区間ＴＲＳ＿２を表すので、上記の２つの区間ＴＲＳ＿１，ＴＲＳ＿２は、敵対アクセスポイントＡＰ＿ＡＤＶのフレームの送信の有無に関わらず、制御対象のアクセスポイントＡＰ＿Ｎがフレームの送信を行っていなかったスロット数を表すからである。

【0102】

このように、制御手段３は、送信区間［ｔ_{ＳＴＡＲＴ＿Ｎ＿１}，ｔ_{ＥＮＤ＿Ｎ＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ＿２}，ｔ_{ＥＮＤ＿Ｎ＿２}］，・・・と送信区間［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿１}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿１}］，［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿２}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿２}］，・・・，［ｔ_{ＳＴＡＲＴ＿ＵＮＣＯＯＲＤ＿ｄ}，ｔ_{ＥＮＤ＿ＵＮＣＯＯＲＤ＿ｄ}］とに基づいて、スロット数ｘ_１，ｘ_２，ｘ_３を生成する。即ち、制御手段３は、制御対象のアクセスポイントＡＰ＿Ｎの送信区間ＴＲＳ＿ＣＴＬとアクセスポイントＡＰ＿ＵＮＣＯＯＲＤの送信区間ＴＲＳ＿ＵＮＣＯＯＲＤとに基づいて直近Ｘスロット（Ｘ＝ｘ_１＋ｘ_２＋ｘ_３）におけるフレームの送信有無の履歴Ｓ_{ｈｉｓｔｏｒｙ}を生成する。

【0103】

次に、行動空間について説明する。各タイムスロットにおいて、制御対象のアクセスポイントＡＰ＿Ｎは、獲得した方策に基づいてフレームを送信するか否かを決定する。そして、制御対象のアクセスポイントＡＰ＿Ｎは、フレームを送信する場合、ＭＣＳ（Modulation and coding scheme）ｉｎｄｅｘ（以下、「ＭＣＳインデックス」と言う。）に基づいてフレームの伝送速度ＴＲＤ＿ＣＴＬを決定する。つまり、制御対象のアクセスポイントＡＰ＿Ｎの行動空間Ａ_ｐは、次式によって表される。

【0104】

【数4】

【0105】

式（４）において、“－１”は、フレームを送信しないことを表し、Ｍは、フレームを送信する場合に選択できるＭＣＳインデックスの集合を表す。

【0106】

ＭＣＳインデックスの集合Ｍは、次式によって表される。

【0107】

【数5】

【0108】

式（５）の右辺の各数字は、制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信する場合に選択するＭＣＳインデックスの値を表す。ここで、式（５）の右辺の数字が大きい方がより速い伝送速度でフレームを送信する行動を表し、数字が小さい方がより遅い伝送速度でフレームを送信する行動を表してもよく、数字が大きい方がより遅い伝送速度でフレームを送信する行動を表し、数字が小さい方がより速い伝送速度でフレームを送信する行動を表してもよく、一般的には、数字が異なれば、異なる伝送速度でフレームを送信することを表していればよい。

【0109】

敵対アクセスポイントＡＰ＿ＡＤＶは、フレームを送信するか送信しないかのみを決定する。従って、敵対アクセスポイントＡＰ＿ＡＤＶの行動空間Ａ_ａは、次式によって表される。

【0110】

【数6】

【0111】

式（６）において、“－１”は、フレームを送信しないことを表し、“１”は、フレームを送信することを表す。

【0112】

次に、制御対象のアクセスポイントＡＰ＿Ｎが獲得する報酬ｒについて説明する。制御対象のアクセスポイントＡＰ＿Ｎの報酬および敵対アクセスポイントＡＰ＿ＡＤＶの報酬は、互いに符号を反転させた関係を有する。従って、学習器５は、制御対象のアクセスポイントＡＰ＿Ｎが獲得する報酬が小さくなるように、即ち、制御対象のアクセスポイントＡＰ＿Ｎの無線通信を妨害するように学習する。

【0113】

制御対象のアクセスポイントＡＰ＿Ｎが獲得する報酬ｒは、次式によって表される。

【0114】

【数7】

【0115】

式（７）において、ａ_ｐは、制御対象のアクセスポイントＡＰ＿Ｎの行動を表し、ａ_ａは、敵対アクセスポイントＡＰ＿ＡＤＶの行動を表す。また、ｃは、正の整数である。そして、制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信する行動（ａ_ｐ＝“１”）は、式（５）に示す集合Ｍの１つの要素（集合Ｍの１つのＭＣＳインデックスで表される伝送速度でフレームを送信する行動）からなる。

【0116】

式（７Ａ）は、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの両方がフレームを送信した場合に制御対象のアクセスポイントＡＰ＿Ｎが得られる報酬を表す。式（７Ａ）においては、制御対象のアクセスポイントＡＰ＿Ｎがフレームの送信に成功したとき、報酬ｒは、タイムスロット当たりの“０”よりも大きいデータ量（Ｄａｔａ／ｓｌｏｔ（＞０））からなり、制御対象のアクセスポイントＡＰ＿Ｎがフレームの送信に失敗したとき、報酬ｒは、“０”からなる。従って、式（７Ａ）においては、制御対象のアクセスポイントＡＰ＿Ｎが得られる報酬ｒをタイムスロット当たりの“０”以上のデータ量（Ｄａｔａ／ｓｌｏｔ（≧０））としている。

【0117】

また、式（７Ｂ）は、制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信せず、かつ、敵対アクセスポイントＡＰ＿ＡＤＶがフレームを送信した場合に制御対象のアクセスポイントＡＰ＿Ｎが得られる報酬ｒを表す。

【0118】

更に、式（７Ｃ）は、制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信し、かつ、敵対アクセスポイントＡＰ＿ＡＤＶがフレームを送信しなかった場合に制御対象のアクセスポイントＡＰ＿Ｎが得られる報酬ｒを表す。式（７Ｃ）においては、制御対象のアクセスポイントＡＰ＿Ｎがフレームの送信に成功したとき、報酬ｒは、タイムスロット当たりの“０”よりも大きいデータ量（Ｄａｔａ／ｓｌｏｔ（＞０））からなり、制御対象のアクセスポイントＡＰ＿Ｎがフレームの送信に失敗したとき、報酬ｒは、“０”からなる。つまり、敵対アクセスポイントＡＰ＿ＡＤＶがフレームを送信しない場合、制御対象のアクセスポイントＡＰ＿Ｎは、必ずしも、フレームの送信に成功するということはなく、例えば、伝送速度が速過ぎたためにフレームの送信に失敗することもある。従って、式（７Ｃ）においても、制御対象のアクセスポイントＡＰ＿Ｎが得られる報酬ｒをタイムスロット当たりの“０”以上のデータ量（Ｄａｔａ／ｓｌｏｔ（≧０））としている。

【0119】

なお、式（７Ａ）によって得られる報酬ｒと式（７Ｃ）によって得られる報酬ｒとを比較した場合、一般的には、式（７Ａ）によって得られる報酬ｒは、式（７Ｃ）によって得られる報酬ｒよりも小さくなる。式（７Ａ）においては、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの両方がフレームを送信するので、制御対象のアクセスポイントＡＰ＿Ｎによるフレームの送信が敵対アクセスポイントＡＰ＿ＡＤＶによるフレームの送信と衝突し、制御対象のアクセスポイントＡＰ＿Ｎがフレームの送信に失敗する場合があるが、式（７Ｃ）においては、敵対アクセスポイントＡＰ＿ＡＤＶがフレームを送信しないので、制御対象のアクセスポイントＡＰ＿Ｎによるフレームの送信と敵対アクセスポイントＡＰ＿ＡＤＶによるフレームの送信との衝突によって制御対象のアクセスポイントＡＰ＿Ｎがフレームの送信に失敗する場合が無いからである。つまり、式（７Ｃ）の場合の方が式（７Ａ）の場合よりも制御対象のアクセスポイントＡＰ＿Ｎがフレームの送信に成功する可能性が大きくなるからである。

【0120】

このように、式（７Ａ）によって得られる報酬ｒは、式（７Ｃ）によって得られる報酬ｒよりも小さくなるので、制御対象のアクセスポイントＡＰ＿Ｎは、敵対アクセスポイントＡＰ＿ＡＤＶとの衝突を避ける行動を取るようになる。

【0121】

更に、式（７Ｄ）は、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの両方がフレームを送信しなかった場合に制御対象のアクセスポイントＡＰ＿Ｎが得られる報酬ｒを表す。

【0122】

従って、制御対象のアクセスポイントＡＰ＿Ｎが式（７）によって得る報酬ｒは、各タイムスロットにおいて制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信したときに得られる第１の報酬（式（７Ａ）または式（７Ｃ）によって得られる報酬）と、各タイムスロットにおいて制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信しなかったときに得られる第２の報酬（式（７Ｂ）または式（７Ｄ）によって得られる報酬）とを含む。

【0123】

式（７）において、式（７Ｄ）によって得られる報酬ｒ（＝－ｃ）を式（７Ｂ）によって得られる報酬ｒ（＝ｃ）よりも小さく設定することによって、敵対アクセスポイントＡＰ＿ＡＤＶがフレームを送信する場合と比較して、敵対アクセスポイントＡＰ＿ＡＤＶがフレームを送信しない場合に制御対象のアクセスポイントＡＰ＿Ｎの報酬ｒがより小さくなるため（つまり、制御対象のアクセスポイントによる無線通信を妨害できるため）、敵対アクセスポイントＡＰ＿ＡＤＶが常にフレームを送信するようになることを回避できる。

【0124】

このように、報酬ｒは、協調外の敵対アクセスポイントＡＰ＿ＡＤＶの行動にも依存するため、制御対象のアクセスポイントＡＰ＿Ｎは、後述する運用段階において、敵対アクセスポイントＡＰ＿ＡＤＶのような外部のアクセスポイントとの衝突を避けようとするようになる。

【0125】

なお、式（７）においては、式（７Ｂ）において、制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信せず、かつ、敵対アクセスポイントＡＰ＿ＡＤＶがフレームを送信したときに制御対象のアクセスポイントＡＰ＿Ｎが得られる報酬ｒをＧ（＞０）とし、式（７Ｄ）において、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの両方がフレームを送信しなかったときに制御対象のアクセスポイントＡＰ＿Ｎが得られる報酬ｒを－Ｙ（Ｙ＞０）としてもよい。この場合、Ｇは、式（７Ｂ）に示す“ｃ”と同じ値であってもよく、“ｃ”と異なる値であってもよい。また、－Ｙは、式（７Ｄ）に示す“－ｃ”と同じ値であってもよく、“－ｃ”と異なる値であってもよい。その結果、Ｇは、Ｙと同じ値であることもあれば、Ｙと異なる値であることもある。

【0126】

敵対アクセスポイントＡＰ＿ＡＤＶは、制御対象のアクセスポイントＡＰ＿Ｎによる無線通信を妨害する。つまり、敵対アクセスポイントＡＰ＿ＡＤＶは、制御対象のアクセスポイントＡＰ＿Ｎが取得する報酬ｒが少なくなる行動を取ろうとする。従って、制御対象のアクセスポイントＡＰ＿Ｎによる無線通信を妨害する観点からすれば、敵対アクセスポイントＡＰ＿ＡＤＶは、制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信しないとき、自己もフレームを送信しない行動（ａ_ａ＝－１）を取ることによって、制御対象のアクセスポイントＡＰ＿Ｎが取得する報酬ｒを最も少なくできる（ｒ＝－ｃ）。

【0127】

また、敵対アクセスポイントＡＰ＿ＡＤＶは、制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信するとき（ａ_ｐ＝１）、自己もフレームを送信する行動（ａ_ａ＝１）を取って制御対象のアクセスポイントＡＰ＿Ｎによるフレームの送信を失敗させることによって、または制御対象のアクセスポイントＡＰ＿Ｎによるフレームの送信が失敗することが無くても制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信するときの伝送速度を低下させることによって制御対象のアクセスポイントＡＰ＿Ｎが取得する報酬ｒを２番目に少なくできる（ｒ≧０）。

【0128】

制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信せず、かつ、敵対アクセスポイントＡＰ＿ＡＤＶがフレームを送信する場合（ａ_ｐ＝－１，ａ_ａ＝１）、および制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信し、かつ、敵対アクセスポイントＡＰ＿ＡＤＶがフレームを送信しない場合（ａ_ｐ＝１，ａ_ａ＝－１）においては、ｃの具体的な値によって、報酬ｒ＝ｃと報酬ｒ＝データ量／Ｓｌｏｔとの大小関係が決まる。

【0129】

従って、ｃ＞データ量／Ｓｌｏｔであるとき、敵対アクセスポイントＡＰ＿ＡＤＶは、制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信すれば（ａ_ｐ＝１）、フレームを送信しない行動（ａ_ａ＝－１）を制御対象のアクセスポイントＡＰ＿Ｎの無線通信を妨害する行動として３番目に取る。そして、敵対アクセスポイントＡＰ＿ＡＤＶは、制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信しないとき（ａ_ｐ＝－１）、自己がフレームを送信する行動（ａ_ａ＝１）を制御対象のアクセスポイントＡＰ＿Ｎの無線通信を妨害する行動として４番目に取る。

【0130】

また、データ量／Ｓｌｏｔ＞ｃであるとき、敵対アクセスポイントＡＰ＿ＡＤＶは、制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信しないとき（ａ_ｐ＝－１）、自己がフレームを送信する行動（ａ_ａ＝１）を制御対象のアクセスポイントＡＰ＿Ｎの無線通信を妨害する行動として３番目に取る。そして、敵対アクセスポイントＡＰ＿ＡＤＶは、制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信すれば（ａ_ｐ＝１）、フレームを送信しない行動（ａ_ａ＝－１）を制御対象のアクセスポイントＡＰ＿Ｎの無線通信を妨害する行動として４番目に取る。データ量／Ｓｌｏｔ＞ｃであるときに敵対アクセスポイントＡＰ＿ＡＤＶが１番目および２番目に取る行動は、ｃ＞データ量／Ｓｌｏｔであるときと同じである。

【0131】

一方、制御対象のアクセスポイントＡＰ＿Ｎが敵対アクセスポイントＡＰ＿ＡＤＶによる妨害が存在する通信環境において自己の無線通信の性能を維持する観点からは、制御対象のアクセスポイントＡＰ＿Ｎは、できるだけ多くの報酬ｒを取得できる行動を取ろうとする。

【0132】

従って、データ量／Ｓｌｏｔ＞ｃであるとき、制御対象のアクセスポイントＡＰ＿Ｎは、敵対アクセスポイントＡＰ＿ＡＤＶがフレームを送信しないとき（ａ_ａ＝－１）、フレームを送信する行動（ａ_ｐ＝１）を１番目に取る。そして、制御対象のアクセスポイントＡＰ＿Ｎは、敵対アクセスポイントＡＰ＿ＡＤＶがフレームを送信するとき（ａ_ａ＝１）、フレームを送信する行動（ａ_ｐ＝１）を２番目に取る。また、制御対象のアクセスポイントＡＰ＿Ｎは、敵対アクセスポイントＡＰ＿ＡＤＶがフレームを送信するとき（ａ_ａ＝１）、フレームを送信しない行動（ａ_ｐ＝－１）を３番目に取る。更に、制御対象のアクセスポイントＡＰ＿Ｎは、敵対アクセスポイントＡＰ＿ＡＤＶがフレームを送信しないとき（ａ_ａ＝－１）、フレームを送信しない行動（ａ_ｐ＝－１）を４番目に取る。

【0133】

一方、ｃ＞データ量／Ｓｌｏｔであるとき、制御対象のアクセスポイントＡＰ＿Ｎは、敵対アクセスポイントＡＰ＿ＡＤＶがフレームを送信するとき（ａ_ａ＝１）、フレームを送信しない行動（ａ_ｐ＝－１）を１番目に取る。そして、制御対象のアクセスポイントＡＰ＿Ｎは、敵対アクセスポイントＡＰ＿ＡＤＶがフレームを送信しないとき（ａ_ａ＝－１）、フレームを送信する行動（ａ_ｐ＝１）を２番目に取る。また、制御対象のアクセスポイントＡＰ＿Ｎは、敵対アクセスポイントＡＰ＿ＡＤＶがフレームを送信するとき（ａ_ａ＝１）、フレームを送信する行動（ａ_ｐ＝１）を３番目に取る。更に、制御対象のアクセスポイントＡＰ＿Ｎは、敵対アクセスポイントＡＰ＿ＡＤＶがフレームを送信しないとき（ａ_ａ＝－１）、フレームを送信しない行動（ａ_ｐ＝－１）を４番目に取る。

【0134】

図６は、敵対的強化学習の方法を説明するための図である。図６を参照して、学習器４は、敵対アクセスポイントＡＰ＿ＡＤＶの方策を固定した状態で制御対象のアクセスポイントＡＰ＿Ｎの方策をＮ_０個のタイムスロットにおいて学習する。

【0135】

次に、学習器５は、制御対象のアクセスポイントＡＰ＿Ｎの方策を固定した状態で敵対アクセスポイントＡＰ＿ＡＤＶの方策をＮ_１個のタイムスロットにおいて学習する。

【0136】

以後、学習器４，５は、それぞれ、Ｎ_０個のタイムスロットにおいて制御対象のアクセスポイントＡＰ＿Ｎの方策を学習することと、Ｎ_１個のタイムスロットにおいて敵対アクセスポイントＡＰ＿ＡＤＶの方策を学習することとを交互にＮ_ｉｔｃｒ個のタイムスロットにおいて繰り返し実行する。即ち、学習器４は、Ｎ_ｉｔｃｒ個のタイムスロットにおいて、Ｎ_０個のタイムスロットごとに、敵対アクセスポイントＡＰ＿ＡＤＶの方策を固定した状態で制御対象のアクセスポイントＡＰ＿Ｎの方策を学習し、学習器５は、Ｎ_ｉｔｃｒ個のタイムスロットにおいて、Ｎ_１個のタイムスロットごとに、制御対象のアクセスポイントＡＰ＿Ｎの方策を固定した状態で敵対アクセスポイントＡＰ＿ＡＤＶの方策を学習する。なお、Ｎ_０は、Ｎ_１と同じであってもよく、Ｎ_１と異なっていてもよい。

【0137】

学習器４，５がそれぞれ制御対象のアクセスポイントＡＰ＿Ｎの方策および敵対アクセスポイントＡＰ＿ＡＤＶの方策を交互に更新することによって、制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）および敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）が最適化されて行く。

【0138】

ここで、行動価値関数Ｑ^π _ｉ（ｓ，ａ），ｉ∈｛ｐ，ａ｝は、エージェントｉが方策πに基づいて状態ｓで行動ａを取る場合の価値を表し、次式によって表される。

【0139】

【数8】

【0140】

式（８）において、ｓ_０は、初期の状態を表し、ａ_０は、初期の行動を表す。また、式（８）において、ｒ＿｛ｉ，ｔ＋１｝は、制御対象のアクセスポイントＡＰ＿Ｎの報酬ｒ＿｛ｐ，ｔ＋１｝または敵対アクセスポイントＡＰ＿ＡＤＶの報酬ｒ＿｛ａ，ｔ＋１｝である。

【0141】

学習器４は、最初のＮ_０個のタイムスロットにおいて、敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を固定して、次式に示す期待累積報酬Ｒが最大になるように制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）を更新する。

【0142】

【数9】

【0143】

式（９）において、ｒ_ｋは、制御対象のアクセスポイントＡＰ＿Ｎがｋスロット先に観測する報酬を表す。その結果、式（９）は、制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信する予定であるタイムスロットにおいて取得し得る報酬を累積した期待累積報酬を表す。

【0144】

学習器４は、敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を固定した状態で、Ｎ_０個のタイムスロットの各タイムスロットにおいて、式（９）に示す期待累積報酬Ｒが最大になるように制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）をＱ学習（非特許文献５）によって次式のように更新する。

【0145】

【数10】

【0146】

式（１０）において、αは、学習率であり、０＜α＜１を満たす実数である。また、ｓ’は、次のタイムスロットにおける状態を表す。

【0147】

次に、学習器５は、制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）を固定した状態で、Ｎ_１個のタイムスロットの各タイムスロットにおいて、式（９）に示す期待累積報酬Ｒが最小になるように敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）をＱ学習によって次式のように更新する。

【0148】

【数11】

【0149】

式（１１）に示すように、敵対アクセスポイントＡＰ＿ＡＤＶが取得する報酬（＝－ｒ）は、式（１０）に示す制御対象のアクセスポイントＡＰ＿Ｎが取得する報酬ｒの符号を反転させた報酬である。

【0150】

学習器４，５は、それぞれ、式（１０）に示す行動価値関数Ｑ^π _ｐ（ｓ，ａ）の更新と式（１１）に示す行動価値関数Ｑ^π _ａ（ｓ，ａ）の更新とを交互にＮ_ｉｔｃｒ個のタイムスロットにおいて繰り返し実行する。

【0151】

制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶは、それぞれ、自己の行動価値関数Ｑ^π _ｐ（ｓ，ａ），Ｑ^π _ａ（ｓ，ａ）に基づいて行動を選択する場合、ソフトマックス（Ｓｏｆｔｍａｘ）行動選択則（非特許文献５）またはε－ｇｒｅｅｄｙ行動則（非特許文献５）に従って行動ａ_ｐ，ａ_ａを選択する。

【0152】

ソフトマックス（Ｓｏｆｔｍａｘ）行動選択則によって行動を選択する場合、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶは、それぞれ、自己の行動ａ_ｐ，ａ_ａを次式に示す確率で選択する。

【0153】

【数12】

【0154】

式（１２）において、Ｑ（ｓ，ｂ）は、行動価値関数を表し、式（１２）の分母のシグマは、全ての行動ｂに対する和を表す。τは、温度と呼ばれる正の数である。τが高くなれば、全ての行動がほぼ同じ確率で選択されるようになり、τが低くなれば、価値の高い行動が選ばれ易くなる。

【0155】

また、ε－ｇｒｅｅｄｙ行動則によって行動を選択する場合、制御対象のアクセスポイントＡＰ＿Ｎは、確率１－εで行動価値関数Ｑ^π _ｐ（ｓ，ａ）が最大になる行動ａ_ｐを選択し、確率εで行動ａ_ｐをランダムに選択する。一方、敵対アクセスポイントＡＰ＿ＡＤＶは、確率１－εで行動価値関数Ｑ^π _ａ（ｓ，ａ）が最小になる行動ａ_ａを選択し、確率εで行動ａ_ａをランダムに選択する。εは、例えば、０．３に設定される。

【0156】

図７は、協調アクセスポイントの状態を説明するための図である。図７を参照して、時刻ｔ１～ｔ２のタイムスロットＳｌｏｔ＿１においては、協調ＡＰであるアクセスポイントＡＰ＿１が送信を行っている状態であり、時刻ｔ２～ｔ３のタイムスロットＳｌｏｔ＿２においては、協調ＡＰであるアクセスポイントＡＰ＿Ｎ－１が送信を行っている状態である。

【0157】

また、時刻ｔ３～ｔ４のタイムスロットＳｌｏｔ＿３においては、協調ＡＰであるアクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１の全てが送信を行っていない状態であり、時刻ｔ４～ｔ５のタイムスロットＳｌｏｔ＿４においては、協調ＡＰであるアクセスポイントＡＰ＿１，ＡＰ＿Ｎ－１が送信を行っている状態である。

【0158】

従って、協調ＡＰであるアクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１から収集した送信スケジュールＳＣＨ＿ＣＯＯＲＤを参照すれば、各タイムスロットＳｌｏｔにおいて、協調ＡＰであるアクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１の状態（＝“－１”または“１”）を容易に決定することができる。

【0159】

制御対象のアクセスポイントＡＰ＿Ｎは、タイムスロットＳｌｏｔ＿１において、協調ＡＰであるアクセスポイントＡＰ＿１がフレームの送信を行っている状態で３Ｍｂｉｔ／ｓｌｏｔの伝送速度でフレームを送信し、端末装置ＴＭ＿ＮからのＡＣＫの有無によってフレームの送信が成功したか失敗したかを示す成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}を検出する。そして、制御対象のアクセスポイントＡＰ＿Ｎは、その検出した成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}を制御装置１０へ送信する。

【0160】

また、制御対象のアクセスポイントＡＰ＿Ｎは、タイムスロットＳｌｏｔ＿３において、協調ＡＰであるアクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１の全てがフレームの送信を行っていない状態で１Ｍｂｉｔ／ｓｌｏｔの伝送速度でフレームを送信し、端末装置ＴＭ＿ＮからのＡＣＫの有無によってフレームの送信が成功したか失敗したかを示す成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}を検出する。そして、制御対象のアクセスポイントＡＰ＿Ｎは、その検出した成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}を制御装置１０へ送信する。

【0161】

更に、制御対象のアクセスポイントＡＰ＿Ｎは、タイムスロットＳｌｏｔ＿４において、協調ＡＰであるアクセスポイントＡＰ＿１，ＡＰ＿Ｎ－１がフレームの送信を行っている状態で２Ｍｂｉｔ／ｓｌｏｔの伝送速度でフレームを送信し、端末装置ＴＭ＿ＮからのＡＣＫの有無によってフレームの送信が成功したか失敗したかを示す成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}を検出する。そして、制御対象のアクセスポイントＡＰ＿Ｎは、その検出した成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}を制御装置１０へ送信する。

【0162】

この発明の実施の形態においては、式（７Ａ）および式（７Ｃ）における“０”よりも大きい報酬ｒは、ある１つのタイムスロットにおいて制御対象のアクセスポイントＡＰ＿Ｎがフレームの送信に成功したときのデータ量である。

【0163】

従って、式（７Ａ）および式（７Ｃ）における“０”よりも大きい報酬ｒは、図３に示す対応表ＴＢＬ１－１の送信区間、伝送速度および成功／失敗情報に基づいて算出される。より具体的には、成功／失敗情報が“１”からなる場合、式（７Ａ）および式（７Ｃ）における“０”よりも大きい報酬ｒは、ｒ＝送信区間の時間長（＝ｔ_{ＥＮＤ＿Ｎ}－ｔ_{ＳＴＡＲＴ＿Ｎ}）×伝送速度によって算出され、成功／失敗情報が“０”からなる場合、報酬ｒは、ｒ＝０である。

【0164】

以下においては、協調ＡＰであるアクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１を２個のアクセスポイント（＝アクセスポイントＡＰ＿１，ＡＰ＿２）に設定し、制御対象のアクセスポイントＡＰ＿Ｎが取り得る行動ａ_ｐを、フレームを送信しない行動（＝“－１”）、ＭＣＳインデックスが“１”である伝送速度でフレームを送信する行動（＝“１”）、ＭＣＳインデックスが“２”である伝送速度でフレームを送信する行動（＝“２”）、およびＭＣＳインデックスが“３”である伝送速度でフレームを送信する行動（＝“３”）の４個に設定して、Ｑ学習の方法について説明する。

【0165】

図８から図１０は、協調ＡＰであるアクセスポイントＡＰ＿１，ＡＰ＿２の状態と、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの直近Ｘスロットにおけるフレームの送信有無の履歴Ｓ_{ｈｉｓｔｏｒｙ}の状態とを示す図である。

【0166】

図８は、Ｘ（＝ｘ_１＋ｘ_２＋ｘ_３）が“１”であるときの協調ＡＰであるアクセスポイントＡＰ＿１，ＡＰ＿２の状態と、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの直近Ｘスロットにおけるフレームの送信有無の履歴Ｓ_{ｈｉｓｔｏｒｙ}の状態とを示す。

【0167】

図９は、Ｘ（＝ｘ_１＋ｘ_２＋ｘ_３）が“２”であるときの協調ＡＰであるアクセスポイントＡＰ＿１，ＡＰ＿２の状態と、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの直近Ｘスロットにおけるフレームの送信有無の履歴Ｓ_{ｈｉｓｔｏｒｙ}の状態とを示す。

【0168】

図１０は、Ｘ（＝ｘ_１＋ｘ_２＋ｘ_３）が“３”であるときの協調ＡＰであるアクセスポイントＡＰ＿１，ＡＰ＿２の状態と、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの直近Ｘスロットにおけるフレームの送信有無の履歴Ｓ_{ｈｉｓｔｏｒｙ}の状態とを示す。

【0169】

図８から図１０においては、協調ＡＰであるアクセスポイントＡＰ＿１，ＡＰ＿２の状態を２ビットの数値［ｎ_１，ｎ_２］で表し、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの直近Ｘスロットにおけるフレームの送信有無の履歴Ｓ_{ｈｉｓｔｏｒｙ}の状態を式（３）に示すように３個の数値［ｘ_１，ｘ_２，ｘ_３］で表す。ｘ_１は、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの両方がフレームを送信したスロット数を表し、ｘ_２は、制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信し、かつ、敵対アクセスポイントＡＰ＿ＡＤＶがフレームを送信しなかったスロット数を表し、ｘ_３は、敵対アクセスポイントＡＰ＿ＡＤＶのフレームの送信有無に関わらず、制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信しなかったスロット数を表す。

【0170】

その結果、協調ＡＰであるアクセスポイントＡＰ＿１，ＡＰ＿２の状態と、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの直近Ｘスロットにおけるフレームの送信有無の履歴Ｓ_{ｈｉｓｔｏｒｙ}の状態とは、２ビットの数値［ｎ_１，ｎ_２］と３個の数値［ｘ_１，ｘ_２，ｘ_３］とからなる状態［ｎ_１，ｎ_２，ｘ_１，ｘ_２，ｘ_３］で表される。

【0171】

図８を参照して、Ｘ（＝ｘ_１＋ｘ_２＋ｘ_３）が“１”であるとき、ｘ_１，ｘ_２，ｘ_３のうちの１つが“１”であり、残りの２つが“０”であるので、ｘ_１，ｘ_２，ｘ_３の状態［ｘ_１，ｘ_２，ｘ_３］は、［１，０，０］，［０，１，０］，［０，０，１］の３通りである。そして、アクセスポイントＡＰ＿１，ＡＰ＿２の状態［ｎ_１，ｎ_２］は、ｎ_１，ｎ_２の各々がフレームを送信する状態（＝“１”）とフレームを送信しない状態（＝“－１”）とからなるので、［－１，－１］，［１，－１］，［－１，１］，［１，１］の４通りである。その結果、３通りの状態［ｘ_１，ｘ_２，ｘ_３］は、アクセスポイントＡＰ＿１，ＡＰ＿２の４通りの状態［ｎ_１，ｎ_２］の各々に対して存在するので、アクセスポイントＡＰ＿１，ＡＰ＿２の状態と、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの直近Ｘスロットにおけるフレームの送信有無の履歴Ｓ_{ｈｉｓｔｏｒｙ}の状態とを示す［ｎ_１，ｎ_２，ｘ_１，ｘ_２，ｘ_３］は、１２（＝４×３）通りである。

【0172】

図９を参照して、Ｘ（＝ｘ_１＋ｘ_２＋ｘ_３）が“２”であるとき、ｘ_１，ｘ_２，ｘ_３のうちの１つが“２”であり、残りの２つが“０”である場合と、ｘ_１，ｘ_２，ｘ_３のうちの２つが“１”であり、残りの１つが“０”である場合とがあるので、ｘ_１，ｘ_２，ｘ_３の状態［ｘ_１，ｘ_２，ｘ_３］は、［２，０，０］，［０，２，０］，［０，０，２］，［１，１，０］，［１，０，１］，［０，１，１］の６通りである。その結果、アクセスポイントＡＰ＿１，ＡＰ＿２の状態［ｎ_１，ｎ_２］が４通りであり、６通りの状態［ｘ_１，ｘ_２，ｘ_３］がアクセスポイントＡＰ＿１，ＡＰ＿２の４通りの状態［ｎ_１，ｎ_２］の各々に対して存在するので、アクセスポイントＡＰ＿１，ＡＰ＿２の状態と、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの直近Ｘスロットにおけるフレームの送信有無の履歴Ｓ_{ｈｉｓｔｏｒｙ}の状態とを示す［ｎ_１，ｎ_２，ｘ_１，ｘ_２，ｘ_３］は、２４（＝４×６）通りである。

【0173】

図１０を参照して、Ｘ（＝ｘ_１＋ｘ_２＋ｘ_３）が“３”であるとき、ｘ_１，ｘ_２，ｘ_３のうちの１つが“３”であり、残りの２つが“０”である場合と、ｘ_１，ｘ_２，ｘ_３のうちの１つが“２”であり、別の１つが“１”であり、残りの１つが“０”である場合と、ｘ_１，ｘ_２，ｘ_３の各々が“１”である場合とがあるので、ｘ_１，ｘ_２，ｘ_３の状態［ｘ_１，ｘ_２，ｘ_３］は、［３，０，０］，［０，３，０］，［０，０，３］，［２，１，０］，［２，０，１］，［０，２，１］，［１，２，０］，［１，０，２］，［０，１，２］，［１，１，１］の１０通りである。その結果、アクセスポイントＡＰ＿１，ＡＰ＿２の状態［ｎ_１，ｎ_２］が４通りであり、１０通りの状態［ｘ_１，ｘ_２，ｘ_３］がアクセスポイントＡＰ＿１，ＡＰ＿２の４通りの状態［ｎ_１，ｎ_２］の各々に対して存在するので、アクセスポイントＡＰ＿１，ＡＰ＿２の状態と、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの直近Ｘスロットにおけるフレームの送信有無の履歴Ｓ_{ｈｉｓｔｏｒｙ}の状態とを示す［ｎ_１，ｎ_２，ｘ_１，ｘ_２，ｘ_３］は、４０（＝４×１０）通りである。

【0174】

図８から図１０において説明したように、スロット数ｘ_１，ｘ_２，ｘ_３のうちの１つによってＸを構成する場合と、スロット数ｘ_１，ｘ_２，ｘ_３のうちの２つによってＸを構成する場合と、スロット数ｘ_１，ｘ_２，ｘ_３の全てによってＸを構成する場合とについて、スロット数ｘ_１，ｘ_２，ｘ_３の各々がとり得る値を決定することによって履歴Ｓ_{ｈｉｓｔｏｒｙ}の状態が何通りあるかを決定し、その決定した履歴Ｓ_{ｈｉｓｔｏｒｙ}の状態の通り数を協調ＡＰであるアクセスポイントＡＰ＿１，ＡＰ＿２の各状態に適用してアクセスポイントＡＰ＿１，ＡＰ＿２および履歴Ｓ_{ｈｉｓｔｏｒｙ}の状態を求める。

【0175】

Ｘが“４”以上である場合について、［ｎ_１，ｎ_２，ｘ_１，ｘ_２，ｘ_３］の通り数は、次の方法によって求める。ｘ_１がＸである場合には、ｘ_２，ｘ_３の状態［ｘ_２，ｘ_３］は、［０，０］の１通り、ｘ_１がＸ－１である場合には、ｘ_２，ｘ_３の状態［ｘ_２，ｘ_３］は、［０，１］，［１，０］の２通り、ｘ_１がＸ－２である場合には、ｘ_２，ｘ_３の状態［ｘ_２，ｘ_３］は、［０，２］，［１，１］，［２，０］の３通り、・・・、ｘ_１が０である場合には、ｘ_２，ｘ_３の状態［ｘ_２，ｘ_３］は、［０，Ｘ］，［１，Ｘ－１］，…，［Ｘ，０］のＸ＋１通りあり、これらの合計１＋２＋…＋（Ｘ＋１）＝（Ｘ＋１）（Ｘ＋２）／２通りの状態がアクセスポイントＡＰ＿１，ＡＰ＿２の４通りの状態［ｎ_１，ｎ_２］の各々に対して存在するので、アクセスポイントＡＰ＿１，ＡＰ＿２の状態と、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの直近Ｘスロットにおけるフレームの送信有無の履歴Ｓ_{ｈｉｓｔｏｒｙ}の状態とを示す［ｎ_１，ｎ_２，ｘ_１，ｘ_２，ｘ_３］は、２（Ｘ＋１）（Ｘ＋２）（＝（Ｘ＋１）（Ｘ＋２）／２×４）通りである。

【0176】

従って、Ｘが“４”以上である場合も、アクセスポイントＡＰ＿１，ＡＰ＿２の状態と、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの直近Ｘスロットにおけるフレームの送信有無の履歴Ｓ_{ｈｉｓｔｏｒｙ}の状態とを示す［ｎ_１，ｎ_２，ｘ_１，ｘ_２，ｘ_３］を求めることができる。

【0177】

以下においては、Ｘ（＝ｘ_１＋ｘ_２＋ｘ_３）が“２”であるときを例として制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの敵対的強化学習を説明する。

【0178】

図１１は、制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）をＱ学習によって更新するときのＱテーブルの概念図である。

【0179】

図１１を参照して、制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）をＱ学習によって更新するときのＱテーブルＴＢＬ－Ｑ１は、協調ＡＰであるアクセスポイントＡＰ＿１，ＡＰ＿２および直近Ｘスロットにおけるフレームの送信有無の履歴Ｓ_{ｈｉｓｔｏｒｙ}の状態と、制御対象のアクセスポイントＡＰ＿Ｎの行動とによって構成される。

【0180】

Ｘ＝２であるので、ＱテーブルＴＢＬ－Ｑ１における協調ＡＰであるアクセスポイントＡＰ＿１，ＡＰ＿２およびＳ_{ｈｉｓｔｏｒｙ}の状態は、図９に示すアクセスポイントＡＰ＿１，ＡＰ＿２およびＳ_{ｈｉｓｔｏｒｙ}の状態からなる。

【0181】

制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐは、上述したように、［－１，１，２，３］の４個であるので、ＱテーブルＴＢＬ－Ｑ１における行動は、４個の行動からなる。

【0182】

従って、ＱテーブルＴＢＬ－Ｑ１は、２４行×４列の行列によって表され、９６個のＱ値（＝Ｑ_１，１～Ｑ_２４，４）を含む。そして、９６個のＱ値（＝Ｑ_１，１～Ｑ_２４，４）の初期値は、“０”である。

【0183】

図１２は、敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）をＱ学習によって更新するときのＱテーブルの概念図である。

【0184】

図１２を参照して、敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）をＱ学習によって更新するときのＱテーブルＴＢＬ－Ｑ２は、協調ＡＰであるアクセスポイントＡＰ＿１，ＡＰ＿２および履歴Ｓ_{ｈｉｓｔｏｒｙ}の状態と、敵対アクセスポイントＡＰ＿ＡＤＶの行動とによって構成される。

【0185】

協調ＡＰであるアクセスポイントＡＰ＿１，ＡＰ＿２および履歴Ｓ_{ｈｉｓｔｏｒｙ}の状態は、図１１において説明した通りである。

【0186】

敵対アクセスポイントＡＰ＿ＡＤＶの行動空間Ａ_ａは、式（６）に示すように、フレームを送信する（＝“１”）と、フレームを送信しない（＝“－１”）とからなるので、敵対アクセスポイントＡＰ＿ＡＤＶが取り得る行動ａ_ａは、２個である。

【0187】

従って、ＱテーブルＴＢＬ－Ｑ２は、２４行×２列の行列によって表され、４８個のＱ値（＝Ｑ_１，１～Ｑ_２４，２）を含む。そして、４８個のＱ値（＝Ｑ_１，１～Ｑ_２４，２）の初期値は、“０”である。

【0188】

図１３から図１９は、それぞれ、Ｑテーブルの更新方法を説明するための第１から第７の概略図である。また、図２０は、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの通信の履歴を示す図である。なお、図２０において、“－１／１”は、敵対アクセスポイントＡＰ＿ＡＤＶがフレームを送信する行動およびフレームを送信しない行動のうちのいずれかの行動を実行したことを示す。

【0189】

図１３を参照して、Ｑ学習の初期状態においては、ＱテーブルＴＢＬ－Ｑ１＿１の全てのＱ値（Ｑ_１，１～Ｑ_２４，４）は、“０”である（図１３の（ａ）参照）。

【0190】

そして、学習器４は、アクセスポイントＡＰ＿１，ＡＰ＿２の状態、および制御手段３から受けた履歴Ｓ_{ｈｉｓｔｏｒｙ}に基づいてアクセスポイントＡＰ＿１，ＡＰ＿２および履歴Ｓ_{ｈｉｓｔｏｒｙ}の状態ｓ_ｔを決定する。

【0191】

図２０に示すように、制御対象のアクセスポイントＡＰ＿Ｎは、タイムスロットＳｌｏｔ＿５においてフレームを送信し、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}を取得する。また、制御対象のアクセスポイントＡＰ＿Ｎは、タイムスロットＳｌｏｔ＿５において、敵対アクセスポイントＡＰ＿ＡＤＶがフレームを送信したことを観測する。そして、制御対象のアクセスポイントＡＰ＿Ｎは、タイムスロットＳｌｏｔ＿５において、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}と、自己の送信区間ＴＲＳ＿ＣＴＬ（＝タイムスロットＳｌｏｔ＿５の開始時刻および終了時刻）と、自己の伝送速度ＴＲＤ＿ＣＴＬと、敵対アクセスポイントＡＰ＿ＡＤＶの送信区間ＴＲＳ＿ＡＤＶ（＝タイムスロットＳｌｏｔ＿５の開始時刻および終了時刻）とを制御装置１０へ送信する。

【0192】

更に、タイムスロットＳｌｏｔ＿６において、敵対アクセスポイントＡＰ＿ＡＤＶは、フレームを送信する行動およびフレームを送信しない行動のうちのいずれかを実行し、制御対象のアクセスポイントＡＰ＿Ｎは、フレームを送信しなかった。その結果、タイムスロットＳｌｏｔ＿６は、敵対アクセスポイントＡＰ＿ＡＤＶがフレームを送信する行動およびフレームを送信しない行動のうちのいずれを実行したかに関らず、制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信しなかったタイムスロットを示す。

【0193】

従って、制御手段３は、制御対象のアクセスポイントＡＰ＿Ｎの送信区間ＴＲＤ＿ＣＴＬ（＝タイムスロットＳｌｏｔ＿５の開始時刻および終了時刻）と、敵対アクセスポイントＡＰ＿ＡＤＶの送信区間ＴＲＳ＿ＡＤＶ（＝タイムスロットＳｌｏｔ＿５の開始時刻および終了時刻）とに基づいて、タイムスロットＳｌｏｔ＿５がスロット数ｘ_１（＝１）に該当し、タイムスロットＳｌｏｔ＿６がスロットｘ_３（＝１）に該当することを検知するとともに、タイムスロットＳｌｏｔ＿５，Ｓｌｏｔ＿６に基づいて、履歴Ｓ_{ｈｉｓｔｏｒｙ}の状態［１，０，１］を生成する。

【0194】

そして、学習器４は、制御手段３から受けた履歴Ｓ_{ｈｉｓｔｏｒｙ}の状態［１，０，１］を含む［－１，－１，１，０，１］，［１，－１，１，０，１］，［－１，１，１，０，１］，［１，１，１，０，１］の状態［ｎ_１，ｎ_２，ｘ_１，ｘ_２，ｘ_３］において、ソフトマックス行動選択則またはε－ｇｒｅｅｄｙ行動則に従って制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐを選択する。この場合、学習器４は、例えば、［－１，－１，１，０，１］の状態［ｎ_１，ｎ_２，ｘ_１，ｘ_２，ｘ_３］において、制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐとして“２”（ＭＣＳインデックスが“２”である伝送速度でフレームを送信する行動）を選択したものとする。

【0195】

そうすると、学習器４は、敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）（即ち、Ｑ値）を固定してＱ学習によって制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）を更新する。

【0196】

より具体的には、学習器４は、制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐが“２”（ＭＣＳインデックスが“２”である伝送速度でフレームを送信する行動）であるので、敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）から検出した敵対アクセスポイントＡＰ＿ＡＤＶの行動ａ_ａに応じて式（７Ａ）または式（７Ｃ）に基づいて報酬ｒを算出する。この場合、式（７Ａ）または式（７Ｃ）によって得られる報酬ｒは、共に“０”以上のデータ量／Ｓｌｏｔであるが、上述したように、一般的には、式（７Ｃ）によって得られる報酬ｒは、式（７Ａ）によって得られる報酬ｒよりも大きい。

【0197】

その後、学習器４は、次のタイムスロットにおける状態ｓ_ｐ（＝ｓ’）において、制御対象のアクセスポイントＡＰ＿Ｎが行動空間Ａ_ｐの全ての行動ａ_ｐを取ったときの行動価値関数Ｑ^π _ｐ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ｐ（ｓ’，ａ）（ａ∈Ａ_ｐ）（＝最大のＱ値））を算出する。この場合、ＱテーブルＴＢＬ－Ｑ１において、全てのＱ値が“０”であるので、行動価値関数Ｑ^π _ｐ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ｐ（ｓ’，ａ）（ａ∈Ａ_ｐ）（＝最大のＱ値））は、“０”からなる。

【0198】

引き続いて、学習器４は、算出した報酬ｒと、予め設定されたα，γと、算出した行動価値関数Ｑ^π _ｐ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ｐ（ｓ’，ａ）（ａ∈Ａ_ｐ）（＝最大のＱ値））と、行動価値関数Ｑ^π _ｐ（ｓ，ａ）（＝Ｑ値）とを式（１０）に代入して行動価値関数Ｑ^π _ｐ（ｓ，ａ）を更新する。この場合、ＱテーブルＴＢＬ－Ｑ１の全てのＱ値が“０”であるので、行動価値関数Ｑ^π _ｐ（ｓ，ａ）（＝Ｑ値）は、“０”からなる。その結果、式（１０）の右辺は、０＋α［ｒ＋γ×０－０］＝αｒとなるので、更新された行動価値関数Ｑ^π _ｐ（ｓ，ａ）は、Ｑ値（ｑ_５，３＝αｒ）からなる。これによって、図１３の（ａ）に示すＱテーブルＴＢＬ－Ｑ１＿１は、図１４に示すＱテーブルＴＢＬ－Ｑ１＿２に更新される。

【0199】

引き続いて、Ｎ_０個のタイムスロットの２番目のタイムスロットにおいて、学習器４は、ソフトマックス行動選択則またはε－ｇｒｅｅｄｙ行動則に従って、状態ｓ_ｐ（＝［－１，１，１，０，１］）における制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐを選択する。この場合、学習器４は、例えば、制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐとして“－１”（フレームを送信しない行動）を選択したものとする。

【0200】

【0201】

より具体的には、学習器４は、制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐが“－１”（フレームを送信しない行動）であるので、敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）から検出した敵対アクセスポイントＡＰ＿ＡＤＶの行動ａ_ａに応じて式（７Ｂ）または式（７Ｄ）に基づいて報酬ｒを算出する。この場合、学習器４は、敵対アクセスポイントＡＰ＿ＡＤＶの行動ａ_ａが“１”（フレームを送信する行動）であれば、式（７Ｂ）に基づいて報酬ｒ（＝ｃ）を算出し、敵対アクセスポイントＡＰ＿ＡＤＶの行動ａ_ａが“－１”（フレームを送信しない行動）であれば、式（７Ｄ）に基づいて報酬ｒ（＝－ｃ）を算出する。

【0202】

その後、学習器４は、次のタイムスロットにおける状態ｓ_ｐ（＝ｓ’）において、制御対象のアクセスポイントＡＰ＿Ｎが行動空間Ａ_ｐの全ての行動ａ_ｐを取ったときの行動価値関数Ｑ^π _ｐ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ｐ（ｓ’，ａ）（ａ∈Ａ_ｐ）（＝最大のＱ値））を算出する。この場合、次のタイムスロットにおける状態ｓ_ｐ（＝ｓ’）が［－１，－１，１，０，１］であるとき、行動価値関数Ｑ^π _ｐ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ｐ（ｓ’，ａ）（ａ∈Ａ_ｐ）（＝最大のＱ値））は、ｑ_５，３からなり、次のタイムスロットにおける状態ｓ_ｐ（＝ｓ’）が［－１，－１，１，０，１］以外であるとき、行動価値関数Ｑ^π _ｐ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ｐ（ｓ’，ａ）（ａ∈Ａ_ｐ）（＝最大のＱ値））は、“０”からなる（図１４のＱテーブルＴＢＬ－Ｑ２参照）。

【0203】

引き続いて、学習器４は、算出した報酬ｒと、予め設定されたα，γと、算出した行動価値関数Ｑ^π _ｐ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ｐ（ｓ’，ａ）（ａ∈Ａ_ｐ）（＝最大のＱ値））と、行動価値関数Ｑ^π _ｐ（ｓ，ａ）（＝Ｑ値）とを式（１０）に代入して行動価値関数Ｑ^π _ｐ（ｓ，ａ）を更新する。この場合、行動価値関数Ｑ^π _ｐ（ｓ，ａ）（＝Ｑ値）は、ｑ_５，３からなる。その結果、式（１０）の右辺は、ｑ_５，３＋α［ｒ＋γ×ｑ_５，３－ｑ_５，３］またはｑ_５，３＋α［ｒ＋γ×０－ｑ_５，３］＝ｑ_５，３＋α［ｒ－ｑ_５，３］となる。即ち、更新された行動価値関数Ｑ^π _ｐ（ｓ，ａ）のＱ値は、ｑ_１７，１（＝ｑ_５，３＋α［ｒ＋γ×ｑ_５，３－ｑ_５，３］またはｑ_５，３＋α［ｒ－ｑ_５，３］）からなる。これによって、図１４に示すＱテーブルＴＢＬ－Ｑ１＿２は、図１５に示すＱテーブルＴＢＬ－Ｑ１＿３に更新される。

【0204】

その後、学習器４は、Ｎ_０個のタイムスロットの最後のタイムスロットまで、上述した方法によって、敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）（即ち、Ｑ値）を固定してＱ学習によって制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）を繰り返し更新する。

【0205】

そして、Ｎ_０個のタイムスロットの最後のタイムスロットにおいて、制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）を更新すると、図１５に示すＱテーブルＴＢＬ－Ｑ１＿３は、図１６に示すＱテーブルＴＢＬ－Ｑ１＿４に更新される。

【0206】

学習器４は、Ｎ_０個のタイムスロットにおいて制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）を繰り返し更新すると、行動価値関数Ｑ^π _ｐ（ｓ，ａ）を最終的に更新したときのＱテーブルＴＢＬ－Ｑ１＿４に含まれる最大のＱ値（＝ｑ_５，２，ｑ_５，３，ｑ_１１，２，ｑ_１１，４，ｑ_１７，１，ｑ_１７，３，ｑ_２３，１，ｑ_２３，２のうちの最大のＱ値）を有する行動価値関数Ｑ^π _ｐ（ｓ，ａ）を学習器５へ出力する。また、学習器４は、Ｎ_０個のタイムスロットにおける敵対的強化学習（上述した方法による行動価値関数Ｑ^π _ｐ（ｓ，ａ）の更新）を実行中に、制御対象のアクセスポイントＡＰ＿Ｎの送信スケジュールＳＣＨ＿ＣＴＬに基づいて制御対象のアクセスポイントＡＰ＿Ｎによるフレームの送信タイミングｔｇ＿ＴＲになったことを検知すると、送信タイミングｔｇ＿ＴＲになったときのＱテーブルＴＢＬ－Ｑ１を制御手段３へ出力する。

【0207】

なお、学習器４がＮ_０個のタイムスロットにおいて制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）を繰り返し更新する間、学習器５が実行するＱ学習のＱテーブルＴＢＬ－Ｑ２は、一定に維持される。

【0208】

学習器４によるＮ_０個のタイムスロットにおける敵対的強化学習が終了すると、学習器５は、行動価値関数Ｑ^π _ｐ（ｓ，ａ）（＝ｑ_５，２，ｑ_５，３，ｑ_１１，２，ｑ_１１，４，ｑ_１７，１，ｑ_１７，３，ｑ_２３，１，ｑ_２３，２のうちの最大のＱ値を有する行動価値関数Ｑ^π _ｐ（ｓ，ａ））を学習器４から受ける。

【0209】

そして、学習器５は、行動価値関数Ｑ^π _ｐ（ｓ，ａ）（＝ｑ_５，２，ｑ_５，３，ｑ_１１，２，ｑ_１１，４，ｑ_１７，１，ｑ_１７，３，ｑ_２３，１，ｑ_２３，２のうちの最大のＱ値を有する行動価値関数Ｑ^π _ｐ（ｓ，ａ））を固定して、式（１１）によって、敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）をＮ_１個のタイムスロットにおいて繰り返し更新する。

【0210】

学習器５は、行動価値関数Ｑ^π _ｐ（ｓ，ａ）（＝ｑ_５，２，ｑ_５，３，ｑ_１１，２，ｑ_１１，４，ｑ_１７，１，ｑ_１７，３，ｑ_２３，１，ｑ_２３，２のうちの最大のＱ値を有する行動価値関数Ｑ^π _ｐ（ｓ，ａ））を学習器４から受けると、行動価値関数Ｑ^π _ｐ（ｓ，ａ）（＝ｑ_５，２，ｑ_５，３，ｑ_１１，２，ｑ_１１，４，ｑ_１７，１，ｑ_１７，３，ｑ_２３，１，ｑ_２３，２のうちの最大のＱ値を有する行動価値関数Ｑ^π _ｐ（ｓ，ａ））の状態ｓ_ｐ、行動ａ_ｐおよび報酬ｒを検出する。即ち、学習器５は、行動価値関数Ｑ^π _ｐ（ｓ，ａ）の状態ｓ_ｐ（＝ｑ_５，２，ｑ_５，３，ｑ_１１，２，ｑ_１１，４，ｑ_１７，１，ｑ_１７，３，ｑ_２３，１，ｑ_２３，２のうちの最大のＱ値が得られるときの状態）と、行動ａ_ｐ（＝ｑ_５，２，ｑ_５，３，ｑ_１１，２，ｑ_１１，４，ｑ_１７，１，ｑ_１７，３，ｑ_２３，１，ｑ_２３，２のうちの最大のＱ値が得られるときの行動ａ_ｐ）と、報酬ｒ（＝ｑ_５，２，ｑ_５，３，ｑ_１１，２，ｑ_１１，４，ｑ_１７，１，ｑ_１７，３，ｑ_２３，１，ｑ_２３，２のうちの最大のＱ値が得られるときの報酬ｒ）とを検出する。

【0211】

そして、学習器５は、敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を更新する場合、制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）の状態ｓ_ｐ（＝ｑ_５，２，ｑ_５，３，ｑ_１１，２，ｑ_１１，４，ｑ_１７，１，ｑ_１７，３，ｑ_２３，１，ｑ_２３，２のうちの最大のＱ値が得られるときの状態）と同じ状態において敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を更新する。

【0212】

ここで、制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）の状態ｓ_ｐ（＝ｑ_５，２，ｑ_５，３，ｑ_１１，２，ｑ_１１，４，ｑ_１７，１，ｑ_１７，３，ｑ_２３，１，ｑ_２３，２のうちの最大のＱ値が得られるときの状態）は、例えば、状態［１，１，１，０，１］であるものとする。

【0213】

従って、学習器５は、Ｎ_１個のタイムスロットの最初のタイムスロットにおいて、アクセスポイントＡＰ＿１，ＡＰ＿２および履歴Ｓ_{ｈｉｓｔｏｒｙ}の状態ｓ_ａを状態［１，１，１，０，１］に決定する。

【0214】

そして、学習器５は、ソフトマックス行動選択則またはε－ｇｒｅｅｄｙ行動則に従って敵対アクセスポイントＡＰ＿ＡＤＶの行動ａ_ａを選択する。敵対アクセスポイントＡＰ＿ＡＤＶの行動空間Ａ_ａは、式（６）に示すように、フレームを送信する行動（＝“１”）と、フレームを送信しない行動（＝“－１”）との２つの行動からなる。

【0215】

従って、学習器５は、行動価値関数Ｑ^π _ｐ（ｓ，ａ）の行動ａ_ｐ（＝ｑ_５，２，ｑ_５，３，ｑ_１１，２，ｑ_１１，４，ｑ_１７，１，ｑ_１７，３，ｑ_２３，１，ｑ_２３，２のうちの最大のＱ値が得られるときの行動ａ_ｐ）を妨害するために、状態ｓ_ｐ（＝［１，１，１，０，１］）において、敵対アクセスポイントＡＰ＿ＡＤＶの行動ａ_ａとして、“１”（＝フレームを送信する行動）を選択する。

【0216】

この行動（＝“１”）を選択するのは、次の理由による。ＱテーブルＴＢＬ－Ｑ１＿４のＱ値（＝ｑ_５，２，ｑ_５，３，ｑ_１１，２，ｑ_１１，４，ｑ_１７，１，ｑ_１７，３，ｑ_２３，１，ｑ_２３，２）は、実質的に報酬ｒに等しく、報酬ｒは、制御対象のアクセスポイントＡＰ＿Ｎがフレームの送信に成功したときに大きくなるので、ｑ_５，２，ｑ_５，３，ｑ_１１，２，ｑ_１１，４，ｑ_１７，１，ｑ_１７，３，ｑ_２３，１，ｑ_２３，２のうちの最大のＱ値は、制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信するときに得られる。そこで、敵対アクセスポイントＡＰ＿ＡＤＶがフレームを送信することによって、制御対象のアクセスポイントＡＰ＿Ｎによるフレームの送信と衝突させ、報酬ｒを低下させることが制御対象のアクセスポイントＡＰ＿Ｎによる無線通信を妨害することになるからである。

【0217】

学習器５は、敵対アクセスポイントＡＰ＿ＡＤＶの行動（＝“１”）を選択すると、次のタイムスロットにおける状態ｓ_ａ（＝ｓ’）において、敵対アクセスポイントＡＰ＿ＡＤＶが行動空間Ａ_ａの全ての行動ａ_ａを取ったときの行動価値関数Ｑ^π _ａ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ａ（ｓ’，ａ）（ａ∈Ａ_ａ）（＝最大のＱ値））を算出する。この場合、図１３の（ｂ）に示すＱテーブルＴＢＬ－Ｑ２＿１において、全てのＱ値が“０”であるので、行動価値関数Ｑ^π _ａ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ａ（ｓ’，ａ）（ａ∈Ａ_ａ）（＝最大のＱ値））は、“０”からなる。

【0218】

引き続いて、学習器５は、検出した報酬ｒと、予め設定されたα，γと、算出した行動価値関数Ｑ^π _ａ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ａ（ｓ’，ａ）（ａ∈Ａ_ａ）（＝最大のＱ値））と、行動価値関数Ｑ^π _ａ（ｓ，ａ）（＝Ｑ値）とを式（１１）に代入して行動価値関数Ｑ^π _ａ（ｓ，ａ）を更新する。この場合、図１３の（ｂ）に示すＱテーブルＴＢＬ－Ｑ２＿１の全てのＱ値が“０”であるので、行動価値関数Ｑ^π _ａ（ｓ，ａ）（＝Ｑ値）は、“０”からなる。また、報酬ｒを式（１１）のｒに代入することによって行動価値関数Ｑ^π _ａ（ｓ，ａ）における報酬は、－ｒになる。その結果、式（１１）の右辺は、０＋α［－ｒ＋γ×０－０］＝－αｒとなるので、更新された行動価値関数Ｑ^π _ａ（ｓ，ａ）は、Ｑ値（ｑ_２３，２＝－αｒ）からなる。これによって、図１３の（ｂ）に示すＱテーブルＴＢＬ－Ｑ２＿１は、図１７に示すＱテーブルＴＢＬ－Ｑ２＿２に更新される。

【0219】

その後、Ｎ_１個のタイムスロットの２番目のタイムスロットにおいて、学習器５は、ソフトマックス行動選択則またはε－ｇｒｅｅｄｙ行動則に従って、状態ｓ_ａ（＝［１，１，１，０，１］）における敵対アクセスポイントＡＰ＿ＡＤＶの行動ａ_ａを選択する。

【0220】

この場合、制御対象のアクセスポイントＡＰ＿Ｎが得る報酬ｒを“－ｃ”にするために（即ち、制御対象のアクセスポイントＡＰ＿Ｎを妨害するために）、学習器５は、敵対アクセスポイントＡＰ＿ＡＤＶの行動ａ_ａとして“－１”（＝フレームを送信しない行動）を選択する。

【0221】

また、学習器５は、更新された行動価値関数Ｑ^π _ａ（ｓ，ａ）（＝ｑ_２３，２＝－αｒ）から報酬ｒを検出する。

【0222】

更に、学習器５は、次のタイムスロットにおける状態ｓ_ａ（＝ｓ’）において、敵対アクセスポイントＡＰ＿ＡＤＶが行動空間Ａ_ａの全ての行動ａ_ａを取ったときの行動価値関数Ｑ^π _ａ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ａ（ｓ’，ａ）（ａ∈Ａ_ａ）（＝最大のＱ値））を算出する。この場合、次のタイムスロットにおける状態ｓ_ａ（＝ｓ’）が状態［１，１，１，０，１］であるとき、状態［１，１，１，０，１］に対応する２つのＱ値（“０”，ｑ_２３，２（＝－αｒ））のうちの最大値が“０”であるので、行動価値関数Ｑ^π _ａ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ａ（ｓ’，ａ）（ａ∈Ａ_ａ）（＝最大のＱ値））は、“０”からなる（図１７のＱテーブルＴＢＬ－Ｑ２＿２参照）。一方、次のタイムスロットにおける状態ｓ_ａ（＝ｓ’）が状態［１，１，１，０，１］以外であるとき、状態［１，１，１，０，１］以外の状態に対応する全てのＱ値が“０”であるので、行動価値関数Ｑ^π _ａ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ａ（ｓ’，ａ）（ａ∈Ａ_ａ）（＝最大のＱ値））は、“０”からなる（図１７のＱテーブルＴＢＬ－Ｑ２＿２参照）。従って、次のタイムスロットにおける状態ｓ_ａ（＝ｓ’）が状態［１，１，１，０，１］であるか否かに関わらず、行動価値関数Ｑ^π _ａ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ａ（ｓ’，ａ）（ａ∈Ａ_ａ）（＝最大のＱ値））は、“０”からなる。

【0223】

そうすると、学習器５は、検出した報酬ｒと、予め設定されたα，γと、算出した行動価値関数Ｑ^π _ａ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ａ（ｓ’，ａ）（ａ∈Ａ_ａ）（＝最大のＱ値））と、更新された行動価値関数Ｑ^π _ａ（ｓ，ａ）（＝ｑ_２３，２）とを式（１１）に代入して行動価値関数Ｑ^π _ａ（ｓ，ａ）を更新する。この場合、式（１１）の右辺は、ｑ_２３，２＋α［－ｒ＋γ×０－ｑ_２３，２］＝ｑ_２３，２＋α［－ｒ－ｑ_２３，２］となる。その結果、更新された行動価値関数Ｑ^π _ａ（ｓ，ａ）は、ｑ_２３，１＝ｑ_２３，２＋α［－ｒ－ｑ_２３，２］からなる。これによって、図１７に示すＱテーブルＴＢＬ－Ｑ２＿２は、図１８に示すＱテーブルＴＢＬ－Ｑ２＿３に更新される。

【0224】

その後、学習器５は、Ｎ_１個のタイムスロットの最後のタイムスロットまで、上述した方法によって、制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）（即ち、Ｑ値）を固定してＱ学習によって敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を繰り返し更新する。

【0225】

そして、Ｎ_１個のタイムスロットの最後のタイムスロットにおいて、敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を更新すると、図１８に示すＱテーブルＴＢＬ－Ｑ２＿３は、図１９に示すＱテーブルＴＢＬ－Ｑ２＿４に更新される。

【0226】

学習器５は、Ｎ_１個のタイムスロットにおいて敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を繰り返し更新すると、最終的に更新した行動価値関数Ｑ^π _ａ（ｓ，ａ）（＝ＱテーブルＴＢＬ－Ｑ２＿４に含まれる最小のＱ値（＝ｑ’_２３，１，ｑ”_２３，２のうちの最小のＱ値）を有する行動価値関数）を学習器４へ出力する。

【0227】

学習器５は、Ｎ_１個のタイムスロットにおける敵対的強化学習（上述した方法による行動価値関数Ｑ^π _ａ（ｓ，ａ）の更新）を実行中に、制御対象のアクセスポイントＡＰ＿Ｎの送信スケジュールＳＣＨ＿ＣＴＬに基づいて制御対象のアクセスポイントＡＰ＿Ｎによるフレームの送信タイミングｔｇ＿ＴＲになったことを検知すると、送信タイミングｔｇ＿ＴＲになったときのＱテーブルＴＢＬ－Ｑ２を制御手段３へ出力する。

【0228】

なお、学習器５がＮ_１個のタイムスロットにおいて敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を繰り返し更新する間、学習器４が実行するＱ学習のＱテーブルＴＢＬ－Ｑ１は、一定（図１６に示すＱテーブルＴＢＬ－Ｑ１＿４）に維持される。

【0229】

学習器５が上述した方法によってＮ_１個のタイムスロットにおいて敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を繰り返し更新すると、その後、学習器４が上述した方法によってＮ_０個のタイムスロットにおいて制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）を繰り返し更新する学習と、学習器５が上述した方法によってＮ_１個のタイムスロットにおいて敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を繰り返し更新する学習とが交互にＮ_ｉｔｃｒ個のタイムスロットにおいて繰り返し実行される。

【0230】

学習器４が２回目にＮ_０個のタイムスロットにおいて制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）を繰り返し更新するとき、図１６に示すＱテーブルＴＢＬ－Ｑ１＿４において、図１３から図１６において説明した方法によってＱ値を順次更新することによって制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）を繰り返し更新する。そして、学習器４がｍ（ｍは、２以上の整数）回目にＮ_０個のタイムスロットにおいて制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）を繰り返し更新するとき、（ｍ－１）回目にＮ_０個のタイムスロットにおいて制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）を繰り返し更新したときの最終的に更新されたＱテーブルにおいて、図１３から図１６において説明した方法によってＱ値を順次更新することによって制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）を繰り返し更新する。

【0231】

また、学習器５が２回目にＮ_１個のタイムスロットにおいて敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を繰り返し更新するとき、図１９に示すＱテーブルＴＢＬ－Ｑ２－４において、図１３、図１７から図１９において説明した方法によってＱ値を順次更新することによって敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を繰り返し更新する。そして、学習器５がｍ回目にＮ_１個のタイムスロットにおいて敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を繰り返し更新するとき、（ｍ－１）回目にＮ_１個のタイムスロットにおいて敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を繰り返し更新したときの最終的に更新されたＱテーブルにおいて、図１３、図１７から図１９において説明した方法によってＱ値を順次更新することによって敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を繰り返し更新する。

【0232】

その結果、学習器４は、ＱテーブルＴＢＬ－Ｑ１におけるＱ値が大きくなるようにＱ学習を実行し、学習器５は、ＱテーブルＴＢＬ－Ｑ２におけるＱ値が小さくなるようにＱ学習を実行する。

【0233】

従って、制御対象のアクセスポイントＡＰ＿Ｎは、ＱテーブルＴＢＬ－Ｑ１においてＱ値が最大になるときの行動ａ_ｐを実行することによって自己の無線通信に対する敵対アクセスポイントＡＰ＿ＡＤＶの妨害を克服する方策を取ることができる。

【0234】

一方、敵対アクセスポイントＡＰ＿ＡＤＶは、ＱテーブルＴＢＬ－Ｑ２においてＱ値が最小になるときの行動ａ_ａを実行することによって制御対象のアクセスポイントＡＰ＿Ｎによる無線通信を妨害する方策を取ることができる。

【0235】

図２０を参照して、タイミングＴ１になると、制御手段３は、学習器４から最終的に更新されたＱテーブルＴＢＬ－Ｑ１を受け、学習器５から最終的に更新されたＱテーブルＴＢＬ－Ｑ２を受ける。

【0236】

そして、制御手段３は、ＱテーブルＴＢＬ－Ｑ１において、最大のＱ値が得られるときの制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐを検出し、ＱテーブルＴＢＬ－Ｑ２において、最小のＱ値が得られるときの敵対アクセスポイントＡＰ＿ＡＤＶの行動ａ_ａを検出する。

【0237】

そうすると、制御手段３は、タイムスロットＳｌｏｔ＿７におけるアクセスポイントＡＰ＿１，ＡＰ＿２のフレームの送信スケジュール（アクセスポイントＡＰ＿１がフレームを送信し、アクセスポイントＡＰ＿２がフレームを送信しないスケジュール）と、検出した行動ａ_ｐとに基づいて、フレームを送信する行動を実行するように制御対象のアクセスポイントＡＰ＿Ｎを制御する。また、制御手段３は、検出した行動ａ_ａ（＝フレームを送信しない行動）を実行するように敵対アクセスポイントＡＰ＿ＡＤＶを制御する。

【0238】

なお、タイミングＴ１の時点で、学習器４が制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）を上述した方法によって繰り返し更新しているとき、制御手段３は、Ｎ_０個のタイムスロットにおいて敵対的強化学習を実行中のＱテーブルＴＢＬ－Ｑ１を学習器４から受け、Ｎ_０個のタイムスロットよりも１つ前のＮ_１個のタイムスロットにおいて実行された敵対的強化学習によって最終的に更新されたＱテーブルＴＢＬ－Ｑ２を学習器５から受ける。

【0239】

一方、タイミングＴ１の時点で、学習器５が敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を上述した方法によって繰り返し更新しているとき、制御手段３は、Ｎ_１個のタイムスロットにおいて敵対的強化学習を実行中のＱテーブルＴＢＬ－Ｑ２を学習器５から受け、Ｎ_１個のタイムスロットよりも１つ前のＮ_０個のタイムスロットにおいて実行された敵対的強化学習によって最終的に更新されたＱテーブルＴＢＬ－Ｑ１を学習器４から受ける。

【0240】

そして、タイムスロットＳｌｏｔ＿７において、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶがそれぞれ上述した行動を実行すると、直近Ｘスロット（Ｘ＝２）は、タイムスロットＳｌｏｔ＿５，Ｓｌｏｔ＿６からタイムスロットＳｌｏｔ＿６，Ｓｌｏｔ＿７に更新される。即ち、履歴Ｓ_{ｈｉｓｔｏｒｙ}は、履歴Ｓ_{ｈｉｓｔｏｒｙ＿１}から履歴Ｓ_{ｈｉｓｔｏｒｙ＿２}に更新される。

【0241】

その後、タイムスロットＳｌｏｔ＿６，Ｓｌｏｔ＿７における制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの行動に基づいて、上述した方法によって、直近Ｘスロット（Ｘ＝２）における履歴Ｓ_{ｈｉｓｔｏｒｙ＿２}の状態［ｘ_１，ｘ_２，ｘ_３］（＝［０，１，１］）が決定される。この場合、タイムスロットＳｌｏｔ＿６は、ｘ_３に該当し、タイムスロットＳｌｏｔ＿７は、ｘ_２に該当する。そして、学習器４，５は、決定された履歴Ｓ_{ｈｉｓｔｏｒｙ＿２}の状態［０，１，１］を用いて、上述した方法によって、それぞれ、行動価値関数Ｑ^π _ｐ（ｓ，ａ）および行動価値関数Ｑ^π _ａ（ｓ，ａ）を繰り返し更新し、タイミングＴ２になると、それぞれ、ＱテーブルＴＢＬ－Ｑ１およびＱテーブルＴＢＬ－Ｑ２を制御手段３へ出力する。

【0242】

制御手段３は、タイミングＴ２において、ＱテーブルＴＢＬ－Ｑ１およびＱテーブルＴＢＬ－Ｑ２をそれぞれ学習器４，５から受けると、その受けたＱテーブルＴＢＬ－Ｑ１，ＴＢＬ－Ｑ２およびタイムスロットＳｌｏｔ＿８におけるアクセスポイントＡＰ＿１，ＡＰ＿２のフレームの送信スケジュールに基づいて、上述した方法によって、タイムスロットＳｌｏｔ＿８において、フレームを送信しない行動を実行するように制御対象のアクセスポイントＡＰ＿Ｎを制御するとともに、フレームを送信する行動とフレームを送信しない行動とのいずれの行動を実行してもよいように敵対アクセスポイントＡＰ＿ＡＤＶを制御する。

【0243】

そして、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶがそれぞれ制御手段３による制御に従って上述した行動を実行すると、直近Ｘスロット（Ｘ＝２）は、タイムスロットＳｌｏｔ＿６，Ｓｌｏｔ＿７からタイムスロットＳｌｏｔ＿７，Ｓｌｏｔ＿８に更新される。即ち、履歴Ｓ_{ｈｉｓｔｏｒｙ}は、履歴Ｓ_{ｈｉｓｔｏｒｙ＿２}から履歴Ｓ_{ｈｉｓｔｏｒｙ＿３}に更新される。なお、履歴Ｓ_{ｈｉｓｔｏｒｙ＿３}は、［ｘ_１，ｘ_２，ｘ_３］＝［０，１，１］からなる。

【0244】

以後、上述した動作が繰り返され、タイミングＴ３になると、タイムスロットＳｌｏｔ＿９において、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶは、履歴Ｓ_{ｈｉｓｔｏｒｙ＿３}を用いて学習された行動を実行する。即ち、タイムスロットＳｌｏｔ＿９において、制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信する行動を実行し、かつ、敵対アクセスポイントＡＰ＿ＡＤＶがフレームを送信しない行動を実行する。

【0245】

また、タイミングＴ４になると、タイムスロットＳｌｏｔ＿１０において、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶは、履歴Ｓ_{ｈｉｓｔｏｒｙ＿４}を用いて学習された行動を実行する。即ち、タイムスロットＳｌｏｔ＿１０において、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの両方がフレームを送信する行動を実行する。なお、履歴Ｓ_{ｈｉｓｔｏｒｙ＿４}は、［ｘ_１，ｘ_２，ｘ_３］＝［０，１，１］からなる。

【0246】

このように、履歴Ｓ_{ｈｉｓｔｏｒｙ}は、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶが各タイムスロットＳｌｏｔ＿７，Ｓｌｏｔ＿８，Ｓｌｏｔ＿９において、それぞれ学習器４，５によって学習された行動ａ_ｐ，ａ_ａに基づいて決定された行動を実行することによって更新される。

【0247】

上記においては、直近Ｘスロットが“２”である場合について学習器４による敵対的強化学習および学習器５による敵対的強化学習を説明したが、直近Ｘスロットが“１”，“３”，“４”，・・・である場合についても、上述した方法によって、学習器４による敵対的強化学習および学習器５による敵対的強化学習を実行することができる。

【0248】

図２１は、図１に示す制御装置１０の動作を説明するためのフローチャートである。図２１を参照して、制御装置１０の動作が開始されると、収集手段１は、有線ケーブル６を介して制御対象のアクセスポイントＡＰ＿ＮからＭＡＣアドレスＡｄｄ＿ＡＰ＿Ｎ、フレームの送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬ、フレームの成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}、フレームの送信スケジュールＳＣＨ＿ＣＴＬ、ＭＡＣアドレスＡｄｄ＿ＡＰ＿ＡＤＶおよび送信区間ＴＲＳ＿ＡＤＶを収集する（ステップＳ１）。ここで、学習段階では、アクセスポイントＡＰ＿ＵＮＣＯＯＲＤは、敵対アクセスポイントＡＰ＿ＡＤＶからなるので、収集手段１は、敵対アクセスポイントＡＰ＿ＡＤＶのＭＡＣアドレスＡｄｄ＿ＡＰ＿ＡＤＶを収集する。その結果、送信区間ＴＲＳ＿ＡＤＶは、敵対アクセスポイントＡＰ＿ＡＤＶの送信区間である。

【0249】

ステップＳ１の後、収集手段１は、有線ケーブル６を介して協調アクセスポイント（アクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１）から協調アクセスポイント（アクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１）のＭＡＣアドレスＡｄｄ＿ＡＰ＿１～Ａｄｄ＿ＡＰ＿Ｎ－１およびフレームの送信スケジュールＳＣＨ＿ＣＯＯＲＤを収集する（ステップＳ２）。

【0250】

その後、収集手段１は、その収集したＭＡＣアドレスＡｄｄ＿ＡＰ＿Ｎ、送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬ、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}、および送信スケジュールＳＣＨ＿ＣＴＬをデータベース２の対応表ＴＢＬ１－１に格納するとともに、ＭＡＣアドレスＡｄｄ＿ＡＰ＿ＡＤＶおよび送信区間ＴＲＳ＿ＡＤＶをデータベース２の対応表ＴＢＬ１－２に格納する（ステップＳ３）。

【0251】

引き続いて、収集手段１は、ＭＡＣアドレスＡｄｄ＿ＡＰ＿１～Ａｄｄ＿ＡＰ＿Ｎ－１およびフレームの送信スケジュールＳＣＨ＿ＣＯＯＲＤをデータベース２の対応表ＴＢＬ２－１に格納する（ステップＳ４）。

【0252】

その後、制御手段３は、データベース２の対応表ＴＢＬ１－１から送信区間ＴＲＳ＿ＣＴＬを読み出し、データベース２の対応表ＴＢＬ１－２から送信区間ＴＲＳ＿ＡＤＶを読み出す。そして、制御手段３は、送信区間ＴＲＳ＿ＣＴＬおよび送信区間ＴＲＳ＿ＡＤＶに基づいて、上述した方法によって、直近Ｘスロットにおける制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶによるフレームの送信有無の履歴Ｓ_{ｈｉｓｔｏｒｙ}を生成する（ステップＳ５）。

【0253】

引き続いて、制御手段３は、データベース２の対応表ＴＢＬ１－１から伝送速度ＴＲＤ＿ＣＴＬ、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}および送信スケジュールＳＣＨ＿ＣＴＬを読み出し、データベース２の対応表ＴＢＬ２－１から送信スケジュールＳＣＨ＿ＣＯＯＲＤを読み出す。また、制御手段３は、制御対象のアクセスポイントを示す信号Ｓ＿ＣＴＬ＿ＡＰ（ＡＰ＿Ｎ）を生成する。そして、制御手段３は、制御対象のアクセスポイントを示す信号Ｓ＿ＣＴＬ＿ＡＰ（ＡＰ＿Ｎ）、送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬ、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}、送信スケジュールＳＣＨ＿ＣＴＬ，ＳＣＨ＿ＣＯＯＲＤおよび履歴Ｓ_{ｈｉｓｔｏｒｙ}を学習器４，５へ出力する（ステップＳ６）。

【0254】

学習器４，５は、制御手段３から制御対象のアクセスポイントを示す信号Ｓ＿ＣＴＬ＿ＡＰ（ＡＰ＿Ｎ）、送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬ、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}、送信スケジュールＳＣＨ＿ＣＴＬ，ＳＣＨ＿ＣＯＯＲＤおよび履歴Ｓ_{ｈｉｓｔｏｒｙ}を受ける。そして、学習器４，５は、制御対象のアクセスポイントを示す信号Ｓ＿ＣＴＬ＿ＡＰ（ＡＰ＿Ｎ）に基づいて、アクセスポイントＡＰ＿Ｎが制御対象のアクセスポイントであり、アクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１が協調ＡＰであることを検知する。そうすると、学習器４，５は、送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬ、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}、送信スケジュールＳＣＨ＿ＣＴＬ，ＳＣＨ＿ＣＯＯＲＤおよび履歴Ｓ_{ｈｉｓｔｏｒｙ}に基づいて敵対的強化学習を実行しながら、所定のタイミングで、それぞれ、ＱテーブルＴＢＬ－Ｑ１，ＴＢＬ－Ｑ２を制御手段３へ出力する（ステップＳ７）。

【0255】

制御手段３は、学習器４，５からそれぞれＱテーブルＴＢＬ－Ｑ１，ＴＢＬ－Ｑ２を受けると、ＱテーブルＴＢＬ－Ｑ１および協調ＡＰであるアクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１のフレームの送信スケジュールＳＣＨ＿ＣＯＯＲＤに基づいて制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐを制御し、ＱテーブルＴＢＬ－Ｑ２に基づいて敵対アクセスポイントＡＰ＿ＡＤＶの行動ａ_ａを制御する（ステップＳ８）。これによって、制御装置１０の動作が終了する。

【0256】

ステップＳ８において、ＱテーブルＴＢＬ－Ｑ１とアクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１の送信スケジュールＳＣＨ＿ＣＯＯＲＤとに基づいて制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐを制御するのは、制御対象のアクセスポイントＡＰ＿ＮおよびアクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１は、フレーム送出情報を共有し、相互に協調的な制御を行うからである。

【0257】

図２２は、図２１のステップＳ７の詳細な動作を説明するためのフローチャートである。図２２を参照して、図２１のステップＳ６の後、学習器４，５は、制御対象のアクセスポイントを示す信号Ｓ＿ＣＴＬ＿ＡＰ（ＡＰ＿Ｎ）、送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬ、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}、送信スケジュールＳＣＨ＿ＣＴＬ，ＳＣＨ＿ＣＯＯＲＤおよび履歴Ｓ_{ｈｉｓｔｏｒｙ}を制御手段３から受ける（ステップＳ７１）。

【0258】

そして、学習器４，５は、制御対象のアクセスポイントを示す信号Ｓ＿ＣＴＬ＿ＡＰ（ＡＰ＿Ｎ）に基づいて、アクセスポイントＡＰ＿１～ＡＰ＿Ｎのうち、アクセスポイントＡＰ＿Ｎが制御対象のアクセスポイントであり、アクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１が協調アクセスポイントであることを検知する（ステップＳ７２）。

【0259】

その後、学習器４，５は、ｉ＝１を設定する（ステップＳ７３）。ここで、ｉは、敵対的強化学習におけるタイムスロットの引数を表し、１≦ｉ≦Ｎ_ｉｔｃｒを満たす整数である。

【0260】

ステップＳ７３の後、学習器４は、送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬ、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}および履歴Ｓ_{ｈｉｓｔｏｒｙ}に基づいて、敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を固定して、敵対アクセスポイントＡＰ＿ＡＤＶによる妨害が存在する通信環境において制御対象のアクセスポイントＡＰ＿Ｎによる無線通信の性能を維持する行動を学習する敵対的強化学習をＮ_０個のタイムスロットにおいて実行する（ステップＳ７４）。そして、学習器４は、ステップＳ７４における敵対的強化学習の終了時点における制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）を学習器５へ出力する。

【0261】

また、学習器４，５は、ステップＳ７４における学習器４による敵対的強化学習の実行と並行して、送信スケジュールＳＣＨ＿ＣＴＬに基づいてタイミングｔｇが制御対象のアクセスポイントＡＰ＿Ｎによるフレームの送信タイミングｔｇ＿ＴＲになったことを検知すると（ステップＳ７５）、それぞれ、ＱテーブルＴＢＬ－Ｑ１，ＴＢＬ－Ｑ２を制御手段３へ出力する（ステップＳ７６）。

【0262】

ステップＳ７５においては、学習器４，５は、制御対象のアクセスポイントＡＰ＿Ｎのフレームの送信スケジュールＳＣＨ＿ＣＴＬに基づいて制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信する次のタイムスロットＳｌｏｔ＿Ｎｅｘｔを検出し、タイミングｔｇが次のタイムスロットＳｌｏｔ＿Ｎｅｘｔの開始時になったことを検知したとき（例えば、図２０のタイムスロットＳｌｏｔ＿７の開始時になったことを検知したとき）、送信スケジュールＳＣＨ＿ＣＴＬに基づいてタイミングｔｇが制御対象のアクセスポイントＡＰ＿Ｎによるフレームの送信タイミングｔｇ＿ＴＲになったことを検知し、タイミングｔｇが次のタイムスロットＳｌｏｔ＿Ｎｅｘｔの開始時になったことを検知しないとき、送信スケジュールＳＣＨ＿ＣＴＬに基づいてタイミングｔｇが制御対象のアクセスポイントＡＰ＿Ｎによるフレームの送信タイミングｔｇ＿ＴＲになったことを検知しない。

【0263】

また、ステップＳ７６においては、学習器４，５は、それぞれ、送信タイミングｔｇ＿ＴＲにおいて、敵対的強化学習（＝Ｑ学習）における最新のＱテーブルＴＢＬ－Ｑ１，ＴＢＬ－Ｑ２を制御手段３へ出力する。より具体的には、学習器４は、ステップＳ７４のＮ_０個のタイムスロットにおいて実行されている敵対的強化学習によって送信タイミングｔｇ＿ＴＲの時点までに更新された最新のＱテーブルＴＢＬ－Ｑ１を制御手段３へ出力し、学習器５は、ステップＳ７４のＮ_０個のタイムスロットよりも１つ前のＮ_１個のタイムスロットにおいて実行された敵対的強化学習によって最終的に更新されたＱテーブルＴＢＬ－Ｑ２を制御手段３へ出力する。

【0264】

ステップＳ７６の後、一連の動作は、ステップＳ７４および図２１のステップＳ８へ移行する。

【0265】

そして、ステップＳ７４の後、学習器５は、学習器４から受けた制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）の状態ｓ（＝ｓ_ｐ）を検出し、その検出した状態ｓ（＝ｓ_ｐ）において、制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）を固定して、制御対象のアクセスポイントＡＰ＿Ｎによる無線通信を妨害する行動を学習する敵対的強化学習をＮ_１個のタイムスロットにおいて実行する（ステップＳ７７）。そして、学習器５は、ステップＳ７７における敵対的強化学習の終了時点における敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を学習器４へ出力する。

【0266】

また、学習器４，５は、ステップＳ７７における敵対的強化学習の実行と並行して、送信スケジュールＳＣＨ＿ＣＴＬに基づいてタイミングｔｇが制御対象のアクセスポイントＡＰ＿Ｎによるフレームの送信タイミングｔｇ＿ＴＲになったことを検知すると（ステップＳ７８）、それぞれ、ＱテーブルＴＢＬ－Ｑ１，ＴＢＬ－Ｑ２を制御手段３へ出力する（ステップＳ７９）。

【0267】

ステップＳ７８において、学習器４，５は、ステップＳ７５における方法と同じ方法によって、タイミングｔｇが送信タイミングｔｇ＿ＴＲになったことを検知する。

【0268】

また、ステップＳ７９においては、学習器４，５は、それぞれ、送信タイミングｔｇ＿ＴＲにおいて、敵対的強化学習（＝Ｑ学習）における最新のＱテーブルＴＢＬ－Ｑ１，ＴＢＬ－Ｑ２を制御手段３へ出力する。より具体的には、学習器４は、ステップＳ７７のＮ_１個のタイムスロットよりも１つ前のＮ_０個のタイムスロットにおいて実行された敵対的強化学習によって最終的に更新されたＱテーブルＴＢＬ－Ｑ１を制御手段３へ出力し、学習器５は、ステップＳ７７のＮ_１個のタイムスロットにおいて実行されている敵対的強化学習によって送信タイミングｔｇ＿ＴＲの時点までに更新された最新のＱテーブルＴＢＬ－Ｑ２を制御手段３へ出力する。

【0269】

ステップＳ７９の後、一連の動作は、ステップＳ７７および図２１のステップＳ８へ移行する。

【0270】

そして、ステップＳ７７の後、学習器４，５は、ｉ＝Ｎ_ｉｔｃｒであるか否かを判定する（ステップＳ８０）。ステップＳ８０において、ｉ＝Ｎ_ｉｔｃｒでないと判定されたとき、学習器４，５は、ｉ＝ｉ＋１を設定する（ステップＳ８１）。その後、一連の動作は、ステップＳ７４，Ｓ７５へ移行し、ステップＳ８０において、ｉ＝Ｎ_ｉｔｃｒであると判定されるまで、ステップＳ７４～ステップＳ８１が繰り返し実行される。

【0271】

そして、ステップＳ８０において、ｉ＝Ｎ_ｉｔｃｒであると判定されると、学習器４，５は、敵対的強化学習を終了するか否かを判定する（ステップＳ８２）。この場合、学習器４，５は、Ｎ_ｉｔｃｒが規定値（予め決定された（Ｎ_０＋Ｎ_１）の自然数倍からなる数値）に一致するとき、敵対的強化学習を終了すると判定し、Ｎ_ｉｔｃｒが規定値に一致しないとき、敵対的強化学習を終了しないと判定する。なお、規定値は、例えば、Ｎ_０＝Ｎ_１＝１００であるとき、１０００００に設定される。

【0272】

ステップＳ８２において、敵対的強化学習を終了しないと判定されたとき、一連の動作は、ステップＳ７３へ移行し、ステップＳ８２において、敵対的強化学習を終了すると判定されるまで、ステップＳ７３～ステップＳ８２が繰り返し実行される。

【0273】

そして、ステップＳ８２において、敵対的強化学習を終了すると判定されると、学習器４，５は、敵対的強化学習を停止する（ステップＳ８３）。

【0274】

図２２に示すフローチャートによれば、学習器４が、Ｎ_０個のタイムスロットにおいて、制御対象のアクセスポイントＡＰ＿Ｎによる無線通信の性能を維持する行動を学習する敵対的強化学習（Ｑ学習）を実行するステップＳ７４と、学習器５が、Ｎ_１個のタイムスロットにおいて、制御対象のアクセスポイントＡＰ＿Ｎによる無線通信を妨害する行動を学習する敵対的強化学習（Ｑ学習）を実行するステップＳ７７とが、ｉ＝Ｎ_ｉｔｃｒになるまで繰り返し交互に実行される（ステップＳ７４，Ｓ７７，Ｓ８０，Ｓ８１参照）。

【0275】

そして、学習器４，５は、ステップＳ７４またはステップＳ７７に並行して、送信スケジュールＳＣＨ＿ＣＴＬに基づいてタイミングｔｇが送信タイミングｔｇ＿ＴＲになったことを検知すると、それぞれ、送信タイミングｔｇ＿ＴＲになったときの最新のＱテーブルＴＢＬ－Ｑ１，ＴＢＬ－Ｑ２を制御手段３へ出力する（ステップＳ７６，Ｓ７９参照）。

【0276】

なお、ステップＳ７５，Ｓ７６がステップＳ７４と並行して実行される場合、タイミングｔｇがステップＳ７４における敵対的強化学習の終了時点において送信タイミングｔｇ＿ＴＲになるまでは、ＱテーブルＴＢＬ－Ｑ１，ＴＢＬ－Ｑ２は、ステップＳ７６において制御手段３へ出力される。また、ステップＳ７８，Ｓ７９がステップＳ７７と並行して実行される場合、タイミングｔｇがステップＳ７７における敵対的強化学習の終了時点において送信タイミングｔｇ＿ＴＲになるまでは、ＱテーブルＴＢＬ－Ｑ１，ＴＢＬ－Ｑ２は、ステップＳ７９において制御手段３へ出力される。

【0277】

また、図２２に示すフローチャートによれば、ステップＳ７６またはステップＳ７９において、ＱテーブルＴＢＬ－Ｑ１，ＴＢＬ－Ｑ２が制御手段３へ出力された後、図２１のステップＳ８が実行されるので、学習器４，５は、制御手段３の動作と並行してステップＳ７４の敵対的強化学習とステップＳ７７の敵対的強化学習とを交互に繰り返し実行する。つまり、学習器４，５は、ステップＳ８２において、学習を終了すると判定されるまでは、制御手段３の動作と並行してステップＳ７４の敵対的強化学習とステップＳ７７の敵対的強化学習とを交互に繰り返し実行する。

【0278】

図２３は、図２２のステップＳ７４の詳細な動作を説明するためのフローチャートである。

【0279】

図２３を参照して、図２２のステップＳ７３の後、学習器４は、ｉ_ｐ＝１を設定する（ステップＳ７４１）。ここで、ｉ_ｐは、Ｎ_ｉｔｃｒ個のタイムスロットにおけるＮ_０個のタイムスロットの引数を表し、１≦ｉ_ｐ≦Ｎ_０を満たす整数である。

【0280】

ステップＳ７４１の後、学習器４は、履歴Ｓ_{ｈｉｓｔｏｒｙ}に基づいて、ｉ_ｐ番目のタイムスロットにおける協調アクセスポイント（アクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１）および履歴Ｓ_{ｈｉｓｔｏｒｙ}の状態ｓ_ｐ（＝［ｎ_１，ｎ_２，・・・，ｎ_Ｎ－１，ｘ_１，ｘ_２，ｘ_３］）を決定する（ステップＳ７４２）。

【0281】

そして、学習器４は、状態ｓ_ｐ（＝［ｎ_１，ｎ_２，・・・，ｎ_Ｎ－１，ｘ_１，ｘ_２，ｘ_３］）のうちの１つの状態において、所定の行動選択則（ソフトマックス行動選択則またはε－ｇｒｅｅｄｙ行動則）に従って、Ｑ学習におけるＱ値が最大になるように、ｉ_ｐ番目のタイムスロットにおける制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐを選択する（ステップＳ７４３）。

【0282】

その後、学習器４は、固定した敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）に基づいて敵対アクセスポイントＡＰ＿ＡＤＶの行動ａ_ａを検出する（ステップＳ７４４）。

【0283】

引き続いて、学習器４は、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}、送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬ、および敵対アクセスポイントＡＰ＿ＡＤＶの行動ａ_ａに基づいて、状態ｓ_ｐにおいて、制御対象のアクセスポイントＡＰ＿Ｎが行動ａ_ｐを実行したときのｉ_ｐ番目のタイムスロットにおける報酬ｒ_ｐ（＝ｒ）を算出する（ステップＳ７４５）。この場合、学習器４は、制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐおよび敵対アクセスポイントＡＰ＿ＡＤＶの行動ａ_ａに基づいて式（７）によって報酬ｒ_ｐ（＝ｒ）を算出する。

【0284】

ステップＳ７４５の後、学習器４は、次のタイムスロット（＝（ｉ_ｐ＋１）番目のタイムスロット）の状態ｓ’において、制御対象のアクセスポイントＡＰ＿Ｎが取り得る全ての行動を取ったときの行動価値関数Ｑ^π _ｐ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ｐ（ｓ’，ａ）（ａ∈Ａ_ｐ））を算出する（ステップＳ７４６）。

【0285】

そうすると、学習器４は、報酬ｒ_ｐ（＝ｒ）および行動価値関数Ｑ^π _ｐ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ｐ（ｓ’，ａ）（ａ∈Ａ_ｐ））を用いて、状態ｓ_ｐおよび行動ａ_ｐに対応する制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）を制御対象のアクセスポイントＡＰ＿Ｎの期待累積報酬Ｒが最大になるようにＱ学習によって更新する（ステップＳ７４７）。即ち、学習器４は、Ｑ学習に基づいて期待累積報酬Ｒが最大になるように制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）を式（１０）によって更新する。

【0286】

そして、ステップＳ７４７の後、学習器４は、ｉ_ｐ＝Ｎ_０であるか否かを判定する（ステップＳ７４８）。

【0287】

ステップＳ７４８において、ｉ_ｐ＝Ｎ_０でないと判定されたとき、学習器４は、ｉ_ｐ＝ｉ_ｐ＋１を設定する（ステップＳ７４９）。その後、一連の動作は、ステップＳ７４２へ移行し、ステップＳ７４８において、ｉ_ｐ＝Ｎ_０であると判定されるまで、ステップＳ７４２～ステップＳ７４９が繰り返し実行される。

【0288】

そして、ステップＳ７４８において、ｉ_ｐ＝Ｎ_０であると判定されると、学習器４は、制御対象のアクセスポイントＡＰ＿Ｎの最終的に更新された行動価値関数Ｑ^π _ｐ（ｓ，ａ）を学習器５へ出力する（ステップＳ７５０）。

【0289】

その後、学習器４は、ｉ＝Ｎ_０を設定する（ステップＳ７５１）。そして、一連の動作は、図２２のステップＳ７７，Ｓ７８へ移行する。

【0290】

図２３に示すフローチャートにおいて、ステップＳ７４２～ステップＳ７４７を［Ｎ_ｉｔｃｒ／（Ｎ_０＋Ｎ_１）］回繰り返し実行することは、敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を固定して（即ち、敵対アクセスポイントＡＰ＿ＡＤＶの妨害行動を固定して）、Ｎ_０個のタイムスロットにおける学習器４による敵対的強化学習をＮ_ｉｔｃｒ個のタイムスロット内のＮ_０個のタイムスロットごとに繰り返し実行して性能維持行動を更新することに相当する。学習器４が敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を固定して敵対的強化学習を実行するのは、敵対アクセスポイントＡＰ＿ＡＤＶによる妨害行動を克服する制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐ（＝性能維持行動）を学習するためであるからである。

【0291】

図２４は、図２２のステップＳ７７の詳細な動作を説明するためのフローチャートである。

【0292】

図２４を参照して、図２２のステップＳ７４の後、学習器５は、制御対象のアクセスポイントＡＰ＿Ｎの最終的に更新された行動価値関数Ｑ^π _ｐ（ｓ，ａ）を学習器４から受ける。

【0293】

そして、学習器５は、ｉ_ａ＝１を設定する（ステップＳ７７１）。ここで、ｉ_ａは、Ｎ_ｉｔｃｒ個のタイムスロットにおけるＮ_１個のタイムスロットの引数を表し、１≦ｉ_ａ≦Ｎ_１を満たす整数である。

【0294】

ステップＳ７７１の後、学習器５は、制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）から状態ｓ_ｐを検出し、その検出した状態ｓ_ｐをｉ_ａ番目のタイムスロットにおける敵対的アクセスポイントＡＰ＿ＡＤＶの状態ｓ_ａとして決定する（ステップＳ７７２）。

【0295】

そして、学習器５は、状態ｓ_ａにおいて、所定の行動選択則（ソフトマックス行動選択則またはε－ｇｒｅｅｄｙ行動則）に従って、Ｑ学習におけるＱ値が最小になるように、ｉ_ａ番目のタイムスロットにおける敵対アクセスポイントＡＰ＿ＡＤＶの行動ａ_ａを選択する（ステップＳ７７３）。

【0296】

その後、学習器５は、制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）に含まれる報酬ｒの符号を反転して、状態ｓ_ａにおいて、敵対アクセスポイントＡＰ＿ＡＤＶが行動ａ_ａを実行したときのｉ_ａ番目のタイムスロットにおける報酬ｒ_ａ（＝－ｒ）を算出する（ステップＳ７７４）。

【0297】

引き続いて、学習器５は、次のタイムスロット（＝（ｉ_ａ＋１）番目のタイムスロット）の状態ｓ’において、敵対アクセスポイントＡＰ＿ＡＤＶが取り得る全ての行動を取ったときの行動価値関数Ｑ^π _ａ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ａ（ｓ’，ａ）（ａ∈Ａ_ａ））を算出する（ステップＳ７７５）。

【0298】

そうすると、学習器５は、報酬ｒ_ａおよび行動価値関数Ｑ^π _ａ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ａ（ｓ’，ａ）（ａ∈Ａ_ａ））を用いて、状態ｓ_ａおよび行動ａ_ａに対応する敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を制御対象のアクセスポイントＡＰ＿Ｎの期待累積報酬Ｒが最小になるようにＱ学習によって更新する（ステップＳ７７６）。即ち、学習器５は、Ｑ学習に基づいて期待累積報酬Ｒが最小になるように敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を式（１１）によって更新する。

【0299】

そして、ステップＳ７７６の後、学習器５は、ｉ_ａ＝Ｎ_１であるか否かを判定する（ステップＳ７７７）。

【0300】

ステップＳ７７７において、ｉ_ａ＝Ｎ_１でないと判定されたとき、学習器５は、ｉ_ａ＝ｉ_ａ＋１を設定する（ステップＳ７７８）。その後、一連の動作は、ステップＳ７７２へ移行し、ステップＳ７７７において、ｉ_ａ＝Ｎ_１であると判定されるまで、ステップＳ７７２～ステップＳ７７８が繰り返し実行される。

【0301】

そして、ステップＳ７７７において、ｉ_ａ＝Ｎ_１であると判定されると、学習器５は、敵対アクセスポイントＡＰ＿ＡＤＶの最終的に更新された行動価値関数Ｑ^π _ａ（ｓ，ａ）を学習器４へ出力する（ステップＳ７７９）。

【0302】

その後、学習器５は、ｉ＝Ｎ_０＋Ｎ_１を設定する（ステップＳ７８０）。そして、一連の動作は、図２２のステップＳ８０へ移行する。

【0303】

図２４に示すフローチャートにおいて、ステップＳ７７２～ステップＳ７７６を［Ｎ_ｉｔｃｒ／（Ｎ_０＋Ｎ_１）］回繰り返し実行することは、制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）を固定して（即ち、制御対象のアクセスポイントＡＰ＿Ｎの性能維持行動を固定して）、Ｎ_１個のタイムスロットにおける学習器５による敵対的強化学習をＮ_ｉｔｃｒ個のタイムスロット内のＮ_１個のタイムスロットごとに繰り返し実行して敵対アクセスポイントＡＰ＿ＡＤＶの妨害行動を更新することに相当する。学習器５が行動価値関数Ｑ^π _ｐ（ｓ，ａ）を固定して敵対的強化学習を実行するのは、制御対象のアクセスポイントＡＰ＿Ｎの性能維持行動を妨害する敵対アクセスポイントＡＰ＿ＡＤＶの行動ａ_ａ（＝妨害行動）を学習するためであるからである。

【0304】

なお、ステップＳ７８０において、ｉ＝Ｎ_０＋Ｎ_１を設定するのは、図２２のステップＳ７４の詳細な動作を説明する図２３のフローチャートのステップＳ７５１において、ｉ＝Ｎ_０が設定されており、図２４のステップＳ７７９に至った時点でステップＳ７７２～ステップＳ７７８がＮ_１回実行されているので、図２２のステップＳ７４に示す敵対的強化学習およびステップＳ７７に示す敵対的強化学習に用いられたスロット数ｉが（Ｎ_０＋Ｎ_１）個になるからである。

【0305】

そして、図２２のステップＳ７４（＝図２３に示すフローチャート）および図２２のステップＳ７７（＝図２４に示すフローチャート）がＷ（Ｗは、Ｗ＝Ｎ_ｉｔｃｒ／（Ｎ_０＋Ｎ_１）を満たす自然数）回実行されると、ｉ＝Ｎ_ｉｔｃｒになる。従って、学習器４は、学習器５から引数ｉを受け、その受けた引数ｉを（Ｎ_０＋Ｎ_１）で除算した除算結果がＷに一致すれば、図２２のステップＳ８０において、ｉ＝Ｎ_ｉｔｃｒであると判定し、学習器５から受けた引数ｉを（Ｎ_０＋Ｎ_１）で除算した除算結果がＷに一致しなければ、図２２のステップＳ８０において、ｉ＝Ｎ_ｉｔｃｒでないと判定する。

【0306】

図２３に示すフローチャートにおいては、学習器４は、Ｑ学習のＱ値が最大になるように制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐを選択し（ステップＳ７４３参照）、敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）に基づいて敵対アクセスポイントＡＰ＿ＡＤＶの行動ａ_ａを検出し（ステップＳ７４４参照）、敵対アクセスポイントＡＰ＿ＡＤＶの行動ａ_ａに基づいて報酬ｒ_ｐ（＝ｒ）を算出し（ステップＳ７４５参照）、制御対象のアクセスポイントＡＰ＿Ｎの期待累積報酬Ｒが最大になるように制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）を更新するので（ステップＳ７４７）、図２３に示すフローチャートに従って行動価値関数Ｑ^π _ｐ（ｓ，ａ）を繰り返し更新することによって、敵対アクセスポイントＡＰ＿ＡＤＶによる妨害行動を克服する制御対象のアクセスポイントＡＰ＿Ｎの行動を学習できる。

【0307】

また、図２４に示すフローチャートにおいては、学習器５は、Ｑ学習のＱ値が最小になるように敵対アクセスポイントＡＰ＿ＡＤＶの行動ａ_ａを選択し（ステップＳ７７３参照）、制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）の状態ｓ_ｐを敵対アクセスポイントＡＰ＿ＡＤＶについてのＱ学習のＱテーブルにおける状態ｓ_ａとして決定し（ステップＳ７７２参照）、制御対象のアクセスポイントＡＰ＿Ｎの報酬ｒの符号を反転して敵対アクセスポイントＡＰ＿ＡＤＶの報酬ｒ_ａ（＝－ｒ）を算出し（ステップＳ７７４参照）、制御対象のアクセスポイントＡＰ＿Ｎの期待累積報酬Ｒが最小になるように敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を更新するので（ステップＳ７７６）、図２４に示すフローチャートに従って行動価値関数Ｑ^π _ａ（ｓ，ａ）を繰り返し更新することによって、制御対象のアクセスポイントＡＰ＿Ｎによる無線通信を妨害する敵対アクセスポイントＡＰ＿ＡＤＶの行動を学習できる。

【0308】

そして、図２３に示すフローチャートおよび図２４に示すフローチャートは、ｉ＝Ｎ_ｉｔｃｒになるまで、交互に実行されるので（図２２のステップＳ７４，Ｓ７７，Ｓ８０，Ｓ８１参照）、学習器４は、敵対アクセスポイントＡＰ＿ＡＤＶによる妨害行動を克服する制御対象のアクセスポイントＡＰ＿Ｎのより強い行動を学習し、学習器５は、制御対象のアクセスポイントＡＰ＿Ｎによる無線通信を妨害する敵対アクセスポイントＡＰ＿ＡＤＶのより強い行動を学習する。即ち、Ｎ_ｉｔｃｒ個のタイムスロットにおいて、学習器４による敵対的強化学習と学習器５による敵対的強化学習とを交互に繰り返し実行することによって、学習器４は、敵対アクセスポイントＡＰ＿ＡＤＶによる妨害を克服する制御対象のアクセスポイントＡＰ＿Ｎの行動を取得する。従って、学習器４は、敵対アクセスポイントＡＰ＿ＡＤＶによる妨害が存在する通信環境において制御対象のアクセスポイントＡＰ＿Ｎによる無線通信の性能を維持する性能維持行動を取得できる。その結果、制御対象のアクセスポイントＡＰ＿Ｎは、敵対アクセスポイントＡＰ＿ＡＤＶが存在する通信環境において無線通信のスループットを向上できる。

【0309】

図２５は、敵対的強化学習と制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶによる無線通信との関係を示す図である。

【0310】

図２５を参照して、タイムスロットＳｌｏｔ＿７の開始時点において、学習器４がＮ_０個のタイムスロットＮ_０＿１において上述した敵対的強化学習を実行しているとき、学習器４は、タイムスロットＳｌｏｔ＿７の開始時点において、Ｎ_０個のタイムスロットＮ_０＿１における敵対的強化学習の最新のＱテーブルＴＢＬ－Ｑ１を制御手段３へ出力し、学習器５は、Ｎ_０個のタイムスロットＮ_０＿１よりも１つ前のＮ_１個のタイムスロットＮ_１＿１における敵対的強化学習の最新のＱテーブルＴＢＬ－Ｑ２を制御手段３へ出力する。

【0311】

また、タイムスロットＳｌｏｔ＿７の開始時点において、学習器５がＮ_１個のタイムスロットＮ_１＿２において、上述した敵対的強化学習を実行しているとき、学習器４は、Ｎ_１個のタイムスロットＮ_１＿２よりも１つ前のＮ_０個のタイムスロットＮ_０＿２における敵対的強化学習の最新のＱテーブルＴＢＬ－Ｑ１を制御手段３へ出力し、学習器５は、タイムスロットＳｌｏｔ＿７の開始時点において、Ｎ_１個のタイムスロットＮ_１＿２における敵対的強化学習の最新のＱテーブルＴＢＬ－Ｑ２を制御手段３へ出力する。

【0312】

制御手段３は、タイムスロットＳｌｏｔ＿７の開始時点において、それぞれ、学習器４，５からＱテーブルＴＢＬ－Ｑ１，ＴＢＬ－Ｑ２を受け、その受けたＱテーブルＴＢＬ－Ｑ１および協調ＡＰであるアクセスポイントＡＰ＿１，ＡＰ＿２のタイムスロットＳｌｏｔ＿７における送信スケジュールに基づいて、フレームを送信する行動を実行するように制御対象のアクセスポイントＡＰ＿Ｎを制御するとともに、ＱテーブルＴＢＬ－Ｑ２に基づいて、フレームを送信しない行動を実行するように敵対アクセスポイントＡＰ＿ＡＤＶを制御する。そして、制御対象のアクセスポイントＡＰ＿Ｎは、タイムスロットＳｌｏｔ＿７において、制御手段３による制御に従って、フレームを送信し、敵対アクセスポイントＡＰ＿ＡＤＶは、タイムスロットＳｌｏｔ＿７において、制御手段３による制御に従って、フレームを送信しない。

【0313】

各タイムスロットＳｌｏｔ＿８，Ｓｌｏｔ＿９，Ｓｌｏｔ＿１０の開始時点においても、上述した動作と同様な動作が実行される。

【0314】

このように、制御手段３は、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶによる無線通信とは別に実行されている学習器４，５による敵対的強化学習の結果（ＱテーブルＴＢＬ－Ｑ１，ＴＢＬ－Ｑ２）に基づいて制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶを制御し、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶは、学習器４，５による敵対的強化学習とは別に、制御手段３による制御に従ってフレームを送信する行動、またはフレームを送信しない行動を実行する。

【0315】

なお、この発明の実施の形態においては、制御装置１０の動作は、ソフトウェアによって実現されてもよい。この場合、制御装置１０は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only memory）およびＲＡＭ（Random Access Memory）を備える。そして、ＲＯＭは、図２１に示すフローチャート（図２２から図２４に示すフローチャートを含む）の各ステップからなるプログラムＰｒｏｇ＿Ａを記憶する。

【0316】

ＣＰＵは、ＲＯＭからプログラムＰｒｏｇ＿Ａを読み出し、その読み出したプログラムＰｒｏｇ＿Ａを実行して、制御対象のアクセスポイントＡＰ＿ＣＴＬおよび敵対アクセスポイントＡＰ＿ＡＤＶを制御する。

【0317】

また、プログラムＰｒｏｇ＿Ａは、ＣＤ，ＤＶＤ等の記録媒体に記録されて流通してもよい。プログラムＰｒｏｇ＿Ａを記録した記録媒体がコンピュータに装着されると、コンピュータは、記録媒体からプログラムＰｒｏｇ＿Ａを読み出して実行し、制御対象のアクセスポイントＡＰ＿ＣＴＬおよび敵対アクセスポイントＡＰ＿ＡＤＶを制御する。

【0318】

従って、プログラムＰｒｏｇ＿Ａを記録した記録媒体は、コンピュータ読み取り可能な記録媒体である。

【0319】

上述したように、学習段階においては、制御装置１０は、協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤとして敵対アクセスポイントＡＰ＿ＡＤＶを仮想的に想定し、上述した方法によって、制御対象のアクセスポイントＡＰ＿Ｎの性能維持行動を学習する。

【0320】

そして、実際の運用段階においては、協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤとして制御外のアクセスポイントＡＰ＿ＯＵＴを想定して、制御対象のアクセスポイントＡＰ＿Ｎが性能維持行動を実行して制御外のアクセスポイントＡＰ＿ＯＵＴによる妨害を克服して無線通信を行う。

【0321】

図２６は、図１に示す通信システム１００の動作を説明するためのフローチャートである。

【0322】

図２６を参照して、通信システム１００の動作が開始されると、学習段階に入り、制御装置１０は、ｉ＝１を設定する（ステップＳ２０１）。

【0323】

そして、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶは、協調アクセスポイント（アクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１）の通信の有無を観測する（ステップＳ２０２）。制御対象のアクセスポイントＡＰ＿Ｎは、協調アクセスポイント（アクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１）の通信有無の観測結果に基づいて協調アクセスポイント（アクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１）のフレームの送信区間ＴＲＳ＿ＣＯＯＲＤを生成して制御装置１０へ送信する。

【0324】

その後、制御装置１０は、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶによる協調アクセスポイント（アクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１）の通信の有無の観測結果に基づいて、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの状態を更新する（ステップＳ２０３）。

【0325】

引き続いて、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶは、自己の通信の有無および伝送速度を決定する（ステップＳ２０４）。

【0326】

そして、制御対象のアクセスポイントＡＰ＿Ｎは、端末装置ＴＭ＿ＮからＡＣＫを受信したか否かによって通信の成否を観測する（ステップＳ２０５）。

【0327】

そうすると、制御装置１０は、制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶの通信の成否および行動対に基づいて制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）および敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を更新する（ステップＳ２０６）。ここで、行動対は、制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐと敵対アクセスポイントＡＰ＿ＡＤＶの行動ａ_ａとの対である。

【0328】

そして、ステップＳ２０６の後、制御装置１０は、ｉ＝Ｎ_ｉｔｃｒであるか否かを判定する（ステップＳ２０７）。

【0329】

ステップＳ２０７において、ｉ＝Ｎ_ｉｔｃｒでないと判定されたとき、制御装置１０は、ｉ＝ｉ＋１を設定する（ステップＳ２０８）。その後、一連の動作は、ステップＳ２０２へ移行し、ステップＳ２０７において、ｉ＝Ｎ_ｉｔｃｒであると判定されるまで、ステップＳ２０２～ステップＳ２０８が繰り返し実行される。

【0330】

そして、ステップＳ２０７において、ｉ＝Ｎ_ｉｔｃｒであると判定されると、一連の動作は、運用段階に移行する。そして、制御対象のアクセスポイントＡＰ＿Ｎは、運用段階に移行すると、ｉ＝１を設定する（ステップＳ２０９）。

【0331】

その後、制御対象のアクセスポイントＡＰ＿Ｎは、協調アクセスポイント（アクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１）の通信の有無を観測する（ステップＳ２１０）。制御対象のアクセスポイントＡＰ＿Ｎは、協調アクセスポイント（アクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１）の通信有無の観測結果に基づいて協調アクセスポイント（アクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１）のフレームの送信区間ＴＲＳ＿ＣＯＯＲＤを生成して制御装置１０へ送信する。

【0332】

引き続いて、制御対象のアクセスポイントＡＰ＿Ｎは、協調アクセスポイント（アクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１）の通信の有無の観測結果に基づいて状態を更新する（ステップＳ２１１）。

【0333】

そして、制御対象のアクセスポイントＡＰ＿Ｎおよび制御外のアクセスポイントＡＰ＿ＯＵＴは、自己の通信の有無および伝送速度を決定する（ステップＳ２１２）。

【0334】

その後、制御対象のアクセスポイントＡＰ＿Ｎは、通信の成否を観測する（ステップＳ２１３）。

【0335】

そうすると、制御対象のアクセスポイントＡＰ＿Ｎは、ｉ＝Ｎ_ｉｔｃｒであるか否かを判定する（ステップＳ２１４）。

【0336】

ステップＳ２１４において、ｉ＝Ｎ_ｉｔｃｒでないと判定されたとき、制御対象のアクセスポイントＡＰ＿Ｎは、ｉ＝ｉ＋１を設定する（ステップＳ２１５）。その後、一連の動作は、ステップＳ２１０へ移行し、ステップＳ２１４において、ｉ＝Ｎ_ｉｔｃｒであると判定されるまで、ステップＳ２１０～ステップＳ２１５が繰り返し実行される。

【0337】

そして、ステップＳ２１４において、ｉ＝Ｎ_ｉｔｃｒであると判定されると、一連の動作は、終了する。

【0338】

なお、図２６に示すフローチャートにおいては、ステップＳ２０９，Ｓ２１４，Ｓ２１５を削除し、ステップＳ２０７において、ｉ＝Ｎ_ｉｔｃｒであると判定されたとき、ステップＳ２１０～ステップＳ２１３が無限に繰り返し実行されるようにしてもよい。

【0339】

図２６に示すフローチャートによれば、学習段階（ステップＳ２０１～ステップＳ２０８）において、制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）および敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）がＮ_ｉｔｃｒ個のタイムスロットにおいて繰り返し更新され、制御対象のアクセスポイントＡＰ＿Ｎの性能維持行動が取得される。

【0340】

そして、運用段階（ステップＳ２０９～ステップＳ２１５）に入ると、敵対アクセスポイントＡＰ＿ＡＤＶに代えて制御外のアクセスポイントＡＰ＿ＯＵＴが導入され、制御対象のアクセスポイントＡＰ＿Ｎは、協調アクセスポイント（アクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１）の通信の有無を観測し、その観測結果に基づいて自己の状態を更新する（ステップＳ２１０，Ｓ２１１参照）。

【0341】

その後、制御対象のアクセスポイントＡＰ＿Ｎおよび制御外のアクセスポイントＡＰ＿ＯＵＴは、自己の通信の有無および伝送速度を決定し（ステップＳ２１２参照）、制御対象のアクセスポイントＡＰ＿Ｎは、運用段階において、制御外のアクセスポイントＡＰ＿ＯＵＴの存在を認識せずに、学習段階で取得した性能維持行動によってフレームを送信したときの通信の成否を観測する（ステップＳ２１３参照）。

【0342】

従って、制御対象のアクセスポイントＡＰ＿Ｎは、運用段階において、制御外のアクセスポイントＡＰ＿ＯＵＴの存在を認識せずに、制御外のアクセスポイントＡＰ＿ＯＵＴによる妨害が存在する通信環境において端末装置ＴＭ＿Ｎへのフレームの送信に成功する確率を高くできる。その結果、運用段階において、制御対象のアクセスポイントＡＰ＿Ｎは、認識していない制御外のアクセスポイントＡＰ＿ＯＵＴが存在する通信環境において無線通信のスループットを向上できる。

【0343】

上述した方法によって制御対象のアクセスポイントＡＰ＿Ｎを制御したときのシミュレーションについて説明する。

【0344】

シミュレーションにおいては、以下の２つの方式について、協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤと制御対象のアクセスポイントＡＰ＿ＣＴＬとの合計スループットの比較を行う。
（１）理想的な方式
この方式では、制御対象のアクセスポイントＡＰ＿ＣＴＬは、協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤを含む全てのアクセスポイントのフレームの送信状態を得ることができると仮定する。この方式は、あくまで理想的な場合であり、この方式によって得られるスループットが上限値となる。
（２）敵対者無しの強化学習方式
この方式では、制御対象のアクセスポイントＡＰ＿ＣＴＬは、学習段階において敵対アクセスポイントＡＰ＿ＡＤＶと競争を行うことなく、単独で学習（Ｑ学習）を行う。よって、運用段階において、制御対象のアクセスポイントＡＰ＿ＣＴＬは、協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤとのフレーム衝突の影響を考えることなくフレームを送信する。その結果、協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤのフレームの送信確率が高い場合には、頻繁にフレーム衝突が起こることが予想される。

【0345】

シミュレーションの諸元を表１に示す。

【0346】

【表1】

【0347】

シミュレーションにおいては、制御対象のアクセスポイントＡＰ＿ＣＴＬが選択できるＭＣＳインデックスは、Ｍ＝｛１，２，３｝とする。ここで、“１”は、１Ｍｂｉｔ／ｓｌｏｔの伝送速度を表し、“２”は、２Ｍｂｉｔ／ｓｌｏｔの伝送速度を表し、“３”は、３Ｍｂｉｔ／ｓｌｏｔの伝送速度を表す。また、協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤの伝送速度は、３Ｍｂｉｔ／ｓｌｏｔに固定されており、協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤは、各タイムスロットごとにある決まった確率でフレームを送信する。

【0348】

全てのアクセスポイントＡＰおよび端末装置ＴＭの位置を固定とすることによって、制御対象のアクセスポイントＡＰ＿ＣＴＬの通信が他のアクセスポイントＡＰから受ける干渉の度合いは、各アクセスポイントＡＰごとに決まっている。

【0349】

学習段階において、制御対象のアクセスポイントＡＰ＿ＣＴＬは、協調アクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１からの情報に基づいて、それぞれの干渉度合いに応じてフレーム衝突を避けることのできるＭＣＳインデックスを学習している。制御対象のアクセスポイントＡＰ＿ＣＴＬと協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤとは、互いに強く干渉し合うとし、伝送速度に関わらず通信が失敗する。また、この発明の実施の形態による学習段階において、制御対象のアクセスポイントＡＰ＿ＣＴＬと敵対アクセスポイントＡＰ＿ＡＤＶとは、１００スロットごとに敵対的強化学習を交互に行う。

【0350】

図２７は、制御対象のアクセスポイントおよび協調外のアクセスポイントのスループットの和と、協調外のアクセスポイントによるフレームの送信確率との関係を示す図である。図２７において、縦軸は、制御対象のアクセスポイントおよび協調外のアクセスポイントのスループットの和を表し、横軸は、協調外のアクセスポイントによるフレームの送信確率を表す。また、曲線ｋ１は、理想的な方式における制御対象のアクセスポイントおよび協調外のアクセスポイントのスループットの和と、協調外のアクセスポイントによるフレームの送信確率との関係を示し、曲線ｋ２は、この発明の実施の形態による方式における制御対象のアクセスポイントおよび協調外のアクセスポイントのスループットの和と、協調外のアクセスポイントによるフレームの送信確率との関係を示し、曲線ｋ３は、敵対者無しの強化学習方式における制御対象のアクセスポイントおよび協調外のアクセスポイントのスループットの和と、協調外のアクセスポイントによるフレームの送信確率との関係を示す。

【0351】

図２８は、制御対象のアクセスポイントの送信確率と協調外のアクセスポイントによるフレームの送信確率との関係を示す図である。図２８において、縦軸は、制御対象のアクセスポイントＡＰ＿ＣＴＬの送信確率を表し、横軸は、協調外のアクセスポイントによるフレームの送信確率を表す。また、曲線ｋ４は、理想的な方式における制御対象のアクセスポイントＡＰ＿ＣＴＬの送信確率と、協調外のアクセスポイントによるフレームの送信確率との関係を示し、曲線ｋ５は、この発明の実施の形態による方式における制御対象のアクセスポイントＡＰ＿ＣＴＬの送信確率と、協調外のアクセスポイントによるフレームの送信確率との関係を示し、曲線ｋ６は、敵対者無しの強化学習方式における制御対象のアクセスポイントＡＰ＿ＣＴＬの送信確率と、協調外のアクセスポイントによるフレームの送信確率との関係を示す。

【0352】

図２７を参照して、協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤによるフレームの送信確率が高いときの合計スループットに注目すると、敵対的強化学習を行った方式（この発明の実施の形態による方式（曲線ｋ２参照））の方が敵対者無しで強化学習を行った方式（曲線ｋ３参照）に比べて高くなっていることが分かる。

【0353】

一方、協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤによるフレームの送信確率が低いとき、敵対的強化学習を行った方式（曲線ｋ２参照）の方が敵対者無しで強化学習を行った方式（曲線ｋ３参照）よりも低くなっていることが分かる。

【0354】

また、図２７の曲線ｋ２に注目すると、協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤによるフレームの送信確率がどのような確率であったとしても、ある程度のスループットを維持していることが分かる。これは、図２８に示されているように、制御対象のアクセスポイントＡＰ＿ＣＴＬが自身のフレーム送信確率を未知である協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤのフレーム送信確率に適応して変化させているからだと考えられる（曲線ｋ４，ｋ５参照）。この意味では、この発明の実施の形態による方式を用いることで制御対象のアクセスポイントＡＰ＿ＣＴＬは、協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤのフレーム送信確率の変化に対してロバストな方策を獲得できたと言える。対照的に、敵対者無しの強化学習を行った場合、協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤのフレーム送信確率が高い場合に合計スループットが著しく低下してしまっているのが分かる（曲線ｋ３参照）。

【0355】

これは、協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤとのフレーム衝突の影響を考えることなく制御対象のアクセスポイントＡＰ＿ＣＴＬが高確率でフレーム送信を行うため、頻繁にフレーム衝突が起こるからだと考えられる。

【0356】

しかし、協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤのフレーム送出確率が低いときでは、この発明の実施の形態による方式の方が敵対者無しの強化学習を行った場合に比べて合計スループットが低くなっている（曲線ｋ２，ｋ３参照）。これは、制御対象のアクセスポイントＡＰ＿ＣＴＬの学習不足が原因であると考えられる。学習段階において、敵対アクセスポイントＡＰ＿ＡＤＶは、妨害のために制御対象のアクセスポイントＡＰ＿ＣＴＬにとって厳しい状態になるような行動を取ろうと学習する。従って、制御対象のアクセスポイントＡＰ＿ＣＴＬの通信を妨害するために、フレームを送信しない行動を避けるようになる。その結果、制御対象のアクセスポイントＡＰ＿ＣＴＬは、協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤのフレームが少ないという状態に対する学習が不足し、適切な行動を取り難くなっているからであると考えられる。この学習不足から制御対象のアクセスポイントＡＰ＿ＣＴＬは、過去にフレーム損失があまり起こっておらず、協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤのフレーム送信確率が低い場合でも、自身のフレーム送信確率を上げられず、合計スループットが低くなったと考えられる。

【0357】

一方、学習段階において敵対者無しの強化学習を行った場合、制御対象のアクセスポイントＡＰ＿ＣＴＬは、協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤとの衝突によってフレーム損失が起こるという可能性を考慮せずに、最もデータが送れるような行動選択を行うようになる。これにより、図２８に示されるように、協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤの送信確率に関わらず、ほぼ、１００％の確率で送信を行っていることが分かる（曲線ｋ６参照）。よって、協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤが、殆ど、通信を行わない場合には、この発明の実施の形態による方式よりも合計スループットが大きくなったと考えられる。

【0358】

図２８により、この発明の実施の形態による方式では、制御対象のアクセスポイントＡＰ＿ＣＴＬがフレーム送信確率を理想的な場合に沿うように変化させていることが分かる（曲線ｋ４，ｋ５参照）。

【0359】

一方、敵対者無しの強化学習を用いた場合、制御対象のアクセスポイントＡＰ＿ＣＴＬのフレーム送信確率は、ほぼ、一定であることが分かる（曲線ｋ６）。しかし、協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤのフレーム送信確率が低い場合には、この発明の実施の形態による方式と理想的な方式の間には乖離が見られるようになる（曲線ｋ４，ｋ５参照）。これは、上述と同様に、制御対象のアクセスポイントＡＰ＿ＣＴＬが協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤのフレーム送信確率が低い場合に対する学習が不足しているからだと考えられる。

【0360】

図２９は、図１に示す制御装置１０の別の概略図である。この発明の実施の形態による制御装置は、図２９に示す制御装置１０Ａであってもよい。

【0361】

図２９を参照して、制御装置１０Ａは、図２に示す制御装置１０の制御手段３および学習器４をそれぞれ制御手段３Ａおよび学習器４Ａに変えたものであり、その他は、制御装置１０と同じである。

【0362】

制御手段３Ａは、図２７に示す曲線ｋ２と曲線ｋ３との交点における協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤによるフレームの送信確率をしきい値ＴＲＰ＿ｔｈとして予め保持する。

【0363】

また、制御手段３Ａは、データベース２の対応表ＴＢＬ１－１に格納された成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}に基づいて敵対アクセスポイントＡＰ＿ＡＤＶによるフレームの送信確率を算出する。より具体的には、制御手段３Ａは、対応表ＴＢＬ１－１に格納された複数の成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}を検出し、その検出した複数の成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}に基づいて、“０”からなる成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}を検出する。

【0364】

そして、制御手段３Ａは、“０”からなる成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}の個数を複数の成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}の総数で除算して敵対アクセスポイントＡＰ＿ＡＤＶによるフレームの送信確率ＴＲＰ＿ＡＤＶを算出する。成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}が“０”からなるとき、制御対象のアクセスポイントＡＰ＿Ｎによって送信されたフレームが敵対アクセスポイントＡＰ＿ＡＤＶによって送信されたフレームと衝突したと考えることができる。従って、“０”からなる成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}の個数を成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}の総数で除算することによって敵対アクセスポイントＡＰ＿ＡＤＶによるフレームの送信確率ＴＲＰ＿ＡＤＶを算出することができる。

【0365】

制御手段３Ａは、フレームの送信確率ＴＲＰ＿ＡＤＶを算出すると、その算出したフレームの送信確率ＴＲＰ＿ＡＤＶをしきい値ＴＲＰ＿ｔｈと比較する。そして、フレームの送信確率ＴＲＰ＿ＡＤＶがしきい値ＴＲＰ＿ｔｈ以下であるとき、制御手段３Ａは、敵対アクセスポイントＡＰ＿ＡＤＶ無しの強化学習（Ｑ学習）（＝「敵対者無しの強化学習」）を実行するための指示信号ＩＮＳ１を生成して学習器４Ａへ出力する。

【0366】

また、制御手段３Ａは、フレームの送信確率ＴＲＰ＿ＡＤＶがしきい値ＴＲＰ＿ｔｈ以下であるとき、データベース２の対応表ＴＢＬ１－１から制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信したときの送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬ、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}および送信スケジュールＳＣＨ＿ＣＴＬを読み出すとともにデータベース２の対応表ＴＢＬ２－１から送信スケジュールＳＣＨ＿ＣＯＯＲＤを読み出し、その読み出した送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬ、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}および送信スケジュールＳＣＨ＿ＣＴＬ，ＳＣＨ＿ＣＯＯＲＤを学習器４Ａへ出力する。

【0367】

一方、フレームの送信確率ＴＲＰ＿ＡＤＶがしきい値ＴＲＰ＿ｔｈよりも大きいとき、制御手段３Ａは、上述した敵対的強化学習（Ｑ学習）を実行するための指示信号ＩＮＳ２を生成して学習器４Ａへ出力する。

【0368】

そして、制御手段３Ａは、学習器４Ａから制御対象のアクセスポイントＡＰ＿Ｎについての強化学習または敵対的強化学習の結果を受け、その受けた結果に基づいて制御対象のアクセスポイントＡＰ＿Ｎを制御する。

【0369】

制御手段３Ａは、その他、制御手段３と同じ機能を果たす。

【0370】

学習器４Ａは、制御手段３Ａから指示信号ＩＮＳ１を受けると、敵対アクセスポイントＡＰ＿ＡＤＶ無しの強化学習を実行する。より具体的には、学習器４Ａは、学習器５と行動価値関数Ｑ^π _ｐ（ｓ，ａ），Ｑ^π _ａ（ｓ，ａ）のやり取りをせずに、単独で、敵対アクセスポイントＡＰ＿ＡＤＶ無しの強化学習をＱ学習によってＮ’_ｉｔｃｒ個のタイムスロットにおいて実行し、期待累積報酬Ｒが最大になるように制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）を繰り返し更新する。そして、学習器４Ａは、送信スケジュールＳＣＨ＿ＣＴＬに基づいてタイミングｔｇが制御対象のアクセスポイントＡＰ＿Ｎによるフレームの送信タイミングｔｇ＿ＴＲになったことを検知すると、送信タイミングｔｇ＿ＴＲになったときの強化学習（Ｑ学習）の結果（＝ＱテーブルＴＢＬ－Ｑ３）を制御手段３Ａへ出力する。

【0371】

また、学習器４Ａは、制御手段３Ａから指示信号ＩＮＳ２を受けると、学習器５と共に、上述した敵対的強化学習（Ｑ学習）を実行し、送信スケジュールＳＣＨ＿ＣＴＬに基づいてタイミングｔｇが制御対象のアクセスポイントＡＰ＿Ｎによるフレームの送信タイミングｔｇ＿ＴＲになったことを検知すると、送信タイミングｔｇ＿ＴＲになったときの敵対的強化学習（Ｑ学習）の結果（＝ＱテーブルＴＢＬ－Ｑ１）を制御手段３Ａへ出力する。

【0372】

学習器４Ａは、その他、学習器４と同じ機能を果たす。

【0373】

学習器４Ａにおける敵対アクセスポイントＡＰ＿ＡＤＶ無しの強化学習（Ｑ学習）について説明する。

【0374】

図３０は、敵対アクセスポイントＡＰ＿ＡＤＶ無しの強化学習におけるＱテーブルの概念図である。

【0375】

図３０を参照して、制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）を敵対アクセスポイントＡＰ＿ＡＤＶ無しの強化学習（Ｑ学習）によって更新するときのＱテーブルＴＢＬ－Ｑ３は、協調ＡＰであるアクセスポイントＡＰ＿１，ＡＰ＿２の状態と、制御対象のアクセスポイントＡＰ＿Ｎの行動とによって構成される。

【0376】

協調ＡＰであるアクセスポイントＡＰ＿１，ＡＰ＿２の状態を２ビットの数値［ｎ_１，ｎ_２］によって表せば、［－１，－１］～［１，１］の４個である。

【0377】

一方、制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐは、図１１において説明した通り、４個の行動からなる。

【0378】

従って、ＱテーブルＴＢＬ－Ｑ３は、４行×４列の行列によって表され、１６個のＱ値（＝Ｑ_１，１～Ｑ_４，４）を含む。そして、１６個のＱ値（＝Ｑ_１，１～Ｑ_４，４）の初期値は、“０”である。

【0379】

図３１から図３３は、それぞれ、敵対アクセスポイントＡＰ＿ＡＤＶ無しの強化学習におけるＱテーブルの更新方法を説明するための第１から第３の概略図である。

【0380】

図３１を参照して、Ｑ学習の初期状態においては、ＱテーブルＴＢＬ－Ｑ３＿１の全てのＱ値（Ｑ_１，１～Ｑ_４，４）は、“０”である（図３１の（ａ）参照）。

【0381】

そして、学習器４Ａは、Ｑ学習において最大のＱ値を得るためのアクセスポイントＡＰ＿１，ＡＰ＿２の状態ｓ_ｐを決定する。１６個のＱ値（＝Ｑ_１，１～Ｑ_４，４）の全ての初期値が“０”であるので、学習器４Ａは、例えば、アクセスポイントＡＰ＿１，ＡＰ＿２の状態ｓ_ｐを［－１，－１］に決定したものとする。

【0382】

学習器４Ａは、アクセスポイントＡＰ＿１，ＡＰ＿２の状態ｓ_ｐを決定すると、所定の行動選択則（ソフトマックス行動選択則またはε－ｇｒｅｅｄｙ行動則）に従って制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐを選択する。この場合、Ｑテーブルの全てのＱ値（Ｑ_１，１～Ｑ_４，４）が“０”であるので、学習器４Ａは、ランダムに制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐを選択する。そして、学習器４Ａは、例えば、制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐとして“１”（１Ｍｂｉｔ／ｓｌｏｔの伝送速度でフレームを送信する行動）を選択したものとする。

【0383】

そうすると、学習器４Ａは、制御手段３Ａから受けた送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬおよび成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}に基づいて制御対象のアクセスポイントＡＰ＿Ｎの報酬ｒを算出する。この場合、敵対アクセスポイントＡＰ＿ＡＤＶが存在しないので、学習器４Ａは、伝送速度×ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}×［送信区間ＴＲＳ＿ＣＴＬの時間長］によって報酬ｒを算出する。より具体的には、学習器４Ａは、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}が“１”からなるとき、ｒ＝１Ｍｂｉｔ／ｓｌｏｔ×［送信区間ＴＲＳ＿ＣＴＬの時間長］によって報酬ｒを算出し、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}が“０”からなるとき、報酬ｒをｒ＝０と算出する。

【0384】

また、学習器４Ａは、次のタイムスロットにおける状態ｓ（＝ｓ’）において制御対象のアクセスポイントＡＰ＿Ｎが行動空間Ａ_ｐの全ての行動を取ったときの行動価値関数Ｑ^π _ｐ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ｐ（ｓ’，ａ）（ａ∈Ａ_ｐ））を算出する。この場合、ＱテーブルＴＢＬ－Ｑ３－１において、１６個のＱ値（＝Ｑ_１，１～Ｑ_４，４）の全ての初期値が“０”であるので、行動価値関数Ｑ^π _ｐ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ｐ（ｓ’，ａ）（ａ∈Ａ_ｐ））は、“０”である。

【0385】

その後、学習器４Ａは、算出した報酬ｒおよび行動価値関数Ｑ^π _ｐ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ｐ（ｓ’，ａ）（ａ∈Ａ_ｐ））と、予め設定されたα，γと、行動価値関数Ｑ^π _ｐ（ｓ，ａ）（＝Ｑ値）とを式（１０）に代入して行動価値関数Ｑ^π _ｐ（ｓ，ａ）を更新する。この場合、ＱテーブルＴＢＬ－Ｑ３＿１の全てのＱ値が“０”であるので、行動価値関数Ｑ^π _ｐ（ｓ，ａ）（＝Ｑ値）は、“０”からなる。その結果、式（１０）の右辺は、０＋α［ｒ＋γ×０－０］＝αｒとなるので、更新された行動価値関数Ｑ^π _ｐ（ｓ，ａ）は、Ｑ値（ｑ_１，２＝αｒ）からなる。これによって、ＱテーブルＴＢＬ－Ｑ３＿１は、ＱテーブルＴＢＬ－Ｑ３＿２に更新される（図３１の（ｂ）参照）。

【0386】

引き続いて、学習器４Ａは、例えば、協調ＡＰのアクセスポイントＡＰ＿１，ＡＰ＿２の状態ｓ_ｐを［－１，１］に決定する。そして、学習器４Ａは、最大のＱ値を得るために、所定の行動選択則（ソフトマックス行動選択則またはε－ｇｒｅｅｄｙ行動則）に従って、状態ｓ_ｐ（＝［－１，１］）における制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐを選択する。この場合、学習器４Ａは、例えば、制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐとして“－１”（フレームを送信しない行動）を選択したものとする。

【0387】

そうすると、学習器４Ａは、上述した方法によって制御対象のアクセスポイントＡＰ＿Ｎの報酬ｒを算出する。この場合、制御対象のアクセスポイントＡＰ＿Ｎは、“－１”（フレームを送信しない行動）を選択したので、報酬ｒは、“０”である。

【0388】

また、学習器４Ａは、次のタイムスロットにおける状態ｓ（＝ｓ’）において制御対象のアクセスポイントＡＰ＿Ｎが行動空間Ａ_ｐの全ての行動を取ったときの行動価値関数Ｑ^π _ｐ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ｐ（ｓ’，ａ）（ａ∈Ａ_ｐ））を算出する。この場合、次のタイムスロットにおける状態ｓ（＝ｓ’）が状態［－１，－１］であるとき、行動価値関数Ｑ^π _ｐ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ｐ（ｓ’，ａ）（ａ∈Ａ_ｐ））は、ｑ_１，２（＝αｒ）からなり、次のタイムスロットにおける状態ｓ（＝ｓ’）が状態［－１，－１］以外であるとき、状態［－１，－１］以外の状態に対応するＱ値の全てが“０”であるので（図３１の（ｂ）に示すＱテーブルＴＢＬ－Ｑ３＿２参照）、行動価値関数Ｑ^π _ｐ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ｐ（ｓ’，ａ）（ａ∈Ａ_ｐ））は、“０”からなる（図３１のＱテーブルＴＢＬ－Ｑ３＿２参照）。従って、行動価値関数Ｑ^π _ｐ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ｐ（ｓ’，ａ）（ａ∈Ａ_ｐ））は、ｑ_１，２（＝αｒ）または“０”からなる。

【0389】

学習器４Ａは、行動価値関数Ｑ^π _ｐ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ｐ（ｓ’，ａ）（ａ∈Ａ_ｐ））を算出すると、算出した報酬ｒおよび行動価値関数Ｑ^π _ｐ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ｐ（ｓ’，ａ）（ａ∈Ａ_ｐ））と、予め設定されたα，γと、行動価値関数Ｑ^π _ｐ（ｓ，ａ）（＝Ｑ値＝ｑ_１，２）とを式（１０）に代入して行動価値関数Ｑ^π _ｐ（ｓ，ａ）を更新する。この場合、式（１０）の右辺は、ｑ_１，２＋α［ｒ＋γ×ｑ_１，２－ｑ_１，２］またはｑ_１，２＋α［ｒ＋γ×０－ｑ_１，２］＝ｑ_１，２＋α［ｒ－ｑ_１，２］となるので、更新された行動価値関数Ｑ^π _ｐ（ｓ，ａ）は、Ｑ値（ｑ_３，１＝ｑ_１，２＋α［ｒ＋γ×ｑ_１，２－ｑ_１，２］またはｑ_１，２＋α［ｒ－ｑ_１，２］）からなる。これによって、ＱテーブルＴＢＬ－Ｑ３＿２は、ＱテーブルＴＢＬ－Ｑ３＿３に更新される（図３２の（ａ）参照）。

【0390】

なお、学習器４Ａは、ε－ｇｒｅｅｄｙ行動則によって制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐを選択した場合において、発生した乱数がε以下でないとき、制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐとしてＱ値が最大である行動を選択する。この時点では、ＱテーブルＴＢＬ－Ｑ３は、図３１の（ｂ）に示す状態になっているので、最大のＱ値は、ｑ_１，２になる。従って、学習器４Ａは、制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐとして“１”（１Ｍｂｉｔ／ｓｌｏｔの伝送速度でフレームを送信する行動）を選択する。

【0391】

そして、学習器４Ａは、制御対象のアクセスポイントＡＰ＿Ｎが行動“１”（１Ｍｂｉｔ／ｓｌｏｔの伝送速度でフレームを送信する行動）を実行したときの報酬ｒを上述した方法によって算出し、その算出した報酬ｒを用いて式（１０）によってＱ値（＝ｑ_１，２）をＱ値（＝ｑ’_１，２）に更新する（図３２の（ｂ）参照）。これによって、ＱテーブルＴＢＬ－Ｑ３－２は、ＱテーブルＴＢＬ－Ｑ３－４に更新される。

【0392】

以後、学習器４Ａは、Ｎ’_ｉｔｃｒ個のタイムスロットの全てについて、上述した動作を繰り返し実行してＱテーブルＴＢＬ－Ｑ３のＱ値を更新する。

【0393】

そして、Ｎ’_ｉｔｃｒ個のタイムスロットの全てについてＱテーブルＴＢＬ－Ｑ３のＱ値を更新したとき、ＱテーブルＴＢＬ－Ｑ３は、例えば、図３３に示すＱテーブルＴＢＬ－Ｑ３－５に更新されている。

【0394】

学習器４Ａは、Ｎ’_ｉｔｃｒ個のタイムスロットの全てについてＱテーブルＴＢＬ－Ｑ３のＱ値を更新すると、制御対象のアクセスポイントＡＰ＿Ｎによるフレームの送信タイミングｔｇ＿ＴＲにおいて、最終的に更新されたＱテーブルＴＢＬ－Ｑ３－５（図３３参照）を制御手段３Ａへ出力する。

【0395】

そして、図３１から図３３において更新されたＱ値は、実質的に報酬ｒを累積した値からなり、報酬ｒは、制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐに応じて決定される（式（７）参照）ので、最大のＱ値が得られるときの制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐは、制御対象のアクセスポイントＡＰ＿Ｎがフレームを送信すするときのスループットを最大にする行動（「スループット最大行動」と言う。）からなる。

【0396】

なお、学習器４Ａが敵対アクセスポイントＡＰ＿ＡＤＶ無しの強化学習を実行している間、学習器５は、敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を更新する敵対的強化学習を停止する。そして、学習器５は、制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）を学習器４Ａから受けると、上述した方法によって、敵対アクセスポイントＡＰ＿ＡＤＶの行動価値関数Ｑ^π _ａ（ｓ，ａ）を更新する敵対的強化学習を実行する。

【0397】

図３４は、図２９に示す制御装置１０Ａの動作を説明するためのフローチャートである。図３４に示すフローチャートは、図２１に示すフローチャートのステップＳ５～ステップＳ８をステップＳ９～ステップＳ１３に変えたものであり、その他は、図２１に示すフローチャートと同じである。

【0398】

図３４を参照して、制御装置１０Ａの動作が開始されると、上述したステップＳ１～ステップＳ４が順次実行される。

【0399】

そして、ステップＳ４の後、制御手段３Ａは、データベース２の対応表ＴＢＬ１－１に格納された複数の成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}を読み出し、その読み出した複数の成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}に基づいて、上述した方法によって、敵対アクセスポイントＡＰ＿ＡＤＶによるフレームの送信確率ＴＲＰ＿ＡＤＶを算出する（ステップＳ９）。

【0400】

その後、制御手段３Ａは、フレームの送信確率ＴＲＰ＿ＡＤＶがしきい値ＴＲＰ＿ｔｈ以下であるか否かを判定する（ステップＳ１０）。

【0401】

ステップＳ１０において、フレームの送信確率ＴＲＰ＿ＡＤＶがしきい値ＴＲＰ＿ｔｈ以下であると判定されたとき、制御手段３Ａは、信号ＩＮＳ１および制御対象のアクセスポイントを示す信号Ｓ＿ＣＴＬ＿ＡＰ（ＡＰ＿Ｎ）を生成し、その生成した信号ＩＮＳ１および制御対象のアクセスポイントを示す信号Ｓ＿ＣＴＬ＿ＡＰ（ＡＰ＿Ｎ）を学習器４Ａへ出力する。

【0402】

学習器４Ａは、制御手段３Ａから信号ＩＮＳ１および制御対象のアクセスポイントを示す信号Ｓ＿ＣＴＬ＿ＡＰ（ＡＰ＿Ｎ）を受けると、制御対象のアクセスポイントを示す信号Ｓ＿ＣＴＬ＿ＡＰ（ＡＰ＿Ｎ）に基づいて、アクセスポイントＡＰ＿Ｎが制御対象のアクセスポイントであり、アクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１が協調ＡＰであることを検知する。そして、学習器４Ａは、制御手段３Ａから受けた信号ＩＮＳ１に基づいて、敵対アクセスポイントＡＰ＿ＡＤＶ無しの強化学習を実行する（ステップＳ１１）。

【0403】

一方、ステップＳ１０において、フレームの送信確率ＴＲＰ＿ＡＤＶがしきい値ＴＲＰ＿ｔｈ以下でないと判定されたとき、制御手段３Ａは、信号ＩＮＳ２を生成し、その生成した信号ＩＮＳ２を学習器４Ａ，５へ出力する。

【0404】

学習器４Ａ，５は、制御手段３Ａから信号ＩＮＳ２を受けると、その受けた信号ＩＮＳ２に基づいて、図２１のステップＳ５～ステップＳ７を順次実行することによって敵対アクセスポイントＡＰ＿ＡＤＶ有りの敵対的強化学習を実行する（ステップＳ１２）。なお、ステップＳ１２において実行されるステップＳ７の詳細な動作は、上述した図２２から図２４に示すフローチャートに従って実行される。

【0405】

そして、制御手段３Ａは、ステップＳ１１またはステップＳ１２の後、強化学習によって得られたＱテーブルＴＢＬ－Ｑ３または敵対的強化学習によって得られたＱテーブルＴＢＬ－Ｑ１と、協調ＡＰであるアクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１のフレームの送信スケジュールとに基づいて制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐを制御し、敵対的強化学習によって得られたＱテーブルＴＢＬ－Ｑ２に基づいて敵対アクセスポイントＡＰ＿ＡＤＶの行動ａ_ａを制御する（ステップＳ１３）。これによって、制御装置１０Ａの動作が終了する。

【0406】

なお、図３４に示すフローチャートにおいては、ステップＳ１１からステップＳ１３へ移行した場合、制御手段３Ａは、敵対アクセスポイントＡＰ＿ＡＤＶ無しの強化学習によって得られたＱテーブルＴＢＬ－Ｑ３とアクセスポイントＡＰ＿１，ＡＰ＿２のフレームの送信スケジュールとに基づいて制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐを制御する。

【0407】

一方、ステップＳ１２からステップＳ１３へ移行した場合、制御手段３Ａは、敵対アクセスポイントＡＰ＿ＡＤＶ有りの敵対的強化学習によって得られたＱテーブルＴＢＬ－Ｑ１とアクセスポイントＡＰ＿１，ＡＰ＿２のフレームの送信スケジュールとに基づいて制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐを制御し、敵対アクセスポイントＡＰ＿ＡＤＶ有りの敵対的強化学習によって得られたＱテーブルＴＢＬ－Ｑ２に基づいて敵対アクセスポイントＡＰ＿ＡＤＶの行動ａ_ａを制御する。

【0408】

また、ステップＳ１３において、ＱテーブルＴＢＬ－Ｑ１（またはＱテーブルＴＢＬ－Ｑ３）とアクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１のフレームの送信スケジュールとに基づいて制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐを制御するのは、制御対象のアクセスポイントＡＰ＿ＮおよびアクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１は、フレーム送出情報を共有し、相互に協調的な制御を行うからである。

【0409】

図３５は、図３４のステップＳ１１の詳細な動作を説明するためのフローチャートである。

【0410】

図３５を参照して、図３４のステップＳ１０において、フレームの送信確率ＴＲＰ＿ＡＤＶがしきい値ＴＲＰ＿ｔｈ以下であると判定されたとき、学習器４Ａは、信号ＩＮＳ１、制御対象のアクセスポイントを示す信号Ｓ＿ＣＴＬ＿ＡＰ（ＡＰ＿Ｎ）、送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬ、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}、および送信スケジュールＳＣＨ＿ＣＴＬ，ＳＣＨ＿ＣＯＯＲＤを制御手段３Ａから受ける（ステップＳ１１１）。

【0411】

そして、学習器４Ａは、信号ＩＮＳ１に基づいて、敵対アクセスポイントＡＰ＿ＡＤＶ無しの強化学習（Ｑ学習）を実行することを検知する（ステップＳ１１２）。

【0412】

引き続いて、学習器４Ａは、制御対象のアクセスポイントを示す信号Ｓ＿ＣＴＬ＿ＡＰ（ＡＰ＿Ｎ）に基づいて、アクセスポイントＡＰ＿１～ＡＰ＿Ｎのうち、アクセスポイントＡＰ＿Ｎが制御対象のアクセスポイントであり、アクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１が協調アクセスポイントであることを検知する（ステップＳ１１３）。

【0413】

そうすると、学習器４Ａは、ｉ＝１を設定する（ステップＳ１１４）。そして、学習器４Ａは、送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬ、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}、および送信スケジュールＳＣＨ＿ＣＴＬ，ＳＣＨ＿ＣＯＯＲＤに基づいて強化学習（Ｑ学習）をＮ_０個のタイムスロットにおいて実行する（ステップＳ１１５）。

【0414】

また、学習器４Ａは、ステップＳ１１５における強化学習の実行と並行して、送信スケジュールＳＣＨ＿ＣＴＬに基づいてタイミングｔｇが制御対象のアクセスポイントＡＰ＿Ｎによるフレームの送信タイミングｔｇ＿ＴＲになったことを検知すると（ステップＳ１１６）、ＱテーブルＴＢＬ－Ｑ３を制御手段３Ａへ出力する（ステップＳ１１７）。

【0415】

ステップＳ１１６においては、学習器４Ａは、上述した図２２のステップＳ７５における方法と同じ方法によって、タイミングｔｇが送信タイミングｔｇ＿ＴＲになったことを検知する。

【0416】

また、ステップＳ１１７においては、学習器４Ａは、送信タイミングｔｇ＿ＴＲにおいて、強化学習（＝Ｑ学習）における最新のＱテーブルＴＢＬ－Ｑ３を制御手段３Ａへ出力する。より具体的には、学習器４Ａは、ステップＳ１１５において実行されている強化学習によって送信タイミングｔｇ＿ＴＲの時点までに更新された最新のＱテーブルＴＢＬ－Ｑ３を制御手段３Ａへ出力する。

【0417】

ステップＳ１１７の後、一連の動作は、ステップＳ１１５および図３４のステップＳ１３へ移行する。

【0418】

ステップＳ１１５の後、学習器４Ａは、ｉ＝Ｎ’_ｉｔｃｒであるか否かを判定する（ステップＳ１１８）。ここで、Ｎ’_ｉｔｃｒは、Ｎ_０の自然数倍の整数である。なお、Ｎ’_ｉｔｃｒは、Ｎ_ｉｔｃｒと同じであってもよく、Ｎ_ｉｔｃｒと異なっていてもよい。

【0419】

ステップＳ１１８において、ｉ＝Ｎ’_ｉｔｃｒでないと判定されたとき、学習器４Ａは、ｉ＝ｉ＋１を設定する（ステップＳ１１９）。その後、一連の動作は、ステップＳ１１５，Ｓ１１６へ移行し、ステップＳ１１８において、ｉ＝Ｎ’_ｉｔｃｒであると判定されるまで、ステップＳ１１５～ステップＳ１１９が繰り返し実行される。

【0420】

そして、ステップＳ１１８において、ｉ＝Ｎ’_ｉｔｃｒであると判定されると、学習器４Ａは、上述した図２２のステップＳ８２における方法と同じ方法によって、強化学習を終了するか否かを判定する（ステップＳ１２０）。

【0421】

ステップＳ１２０において、強化学習を終了しないと判定されたとき、一連の動作は、ステップＳ１１４へ移行し、ステップＳ１２０において、強化学習を終了すると判定されるまで、ステップＳ１１４～ステップＳ１２０が繰り返し実行される。

【0422】

そして、ステップＳ１２０において、強化学習を終了すると判定されると、学習器４Ａは、強化学習を停止する（ステップＳ１２１）。

【0423】

図３５に示すフローチャートによれば、学習器４Ａが、Ｎ_０個のタイムスロットにおいて、制御対象のアクセスポイントＡＰ＿Ｎの行動を学習する強化学習（Ｑ学習）を実行するステップＳ１１５が、ｉ＝Ｎ’_ｉｔｃｒになるまで繰り返し実行される（ステップＳ１１５，Ｓ１１８，Ｓ１１９参照）。

【0424】

そして、学習器４Ａは、ステップＳ１１５に並行して、送信スケジュールＳＣＨ＿ＣＴＬに基づいてタイミングｔｇが送信タイミングｔｇ＿ＴＲになったことを検知すると、送信タイミングｔｇ＿ＴＲにおける最新のＱテーブルＴＢＬ－Ｑ３を制御手段３Ａへ出力する（ステップＳ１１６，Ｓ１１７参照）。

【0425】

また、図３５に示すフローチャートによれば、ステップＳ１１７において、ＱテーブルＴＢＬ－Ｑ３が制御手段３Ａへ出力された後、図３４のステップＳ１３が実行されるので、学習器４Ａは、制御手段３Ａの動作と並行してステップＳ１１５の強化学習を繰り返し実行する。つまり、学習器４Ａは、ステップＳ１２０において、学習を終了すると判定されるまでは、制御手段３Ａの動作と並行してステップＳ１１５の強化学習を繰り返し実行する。

【0426】

図３６は、図３５のステップＳ１１５の詳細な動作を説明するためのフローチャートである。

【0427】

図３６を参照して、図３５のステップＳ１１４の後、学習器４Ａは、ｉ_ｐ＝１を設定し（ステップＳ１１５１）、ｉ_ｐ番目のタイムスロットにおける協調ＡＰのアクセスポイントＡＰ＿１～ＡＰ＿Ｎ－１の状態ｓ_ｐを決定する（ステップＳ１１５２）。

【0428】

引き続いて、学習器４Ａは、所定の行動選択則（ソフトマックス行動選択則またはε－ｇｒｅｅｄｙ行動則）に従って、Ｑ値が最大になるようにｉ_ｐ番目のタイムスロットにおける制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐを選択する（ステップＳ１１５３）。

【0429】

そして、学習器４Ａは、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}、送信区間ＴＲＳ＿ＣＴＬおよび伝送速度ＴＲＤ＿ＣＴＬに基づいて、状態ｓ_ｐにおいて、制御対象のアクセスポイントＡＰ＿Ｎが行動ａ_ｐを実行したときのｉ_ｐ番目のタイムスロットにおける報酬ｒを上述した方法によって算出する（ステップＳ１１５４）。

【0430】

その後、学習器４Ａは、次のタイムスロット（＝（ｉ_ｐ＋１）番目のタイムスロット）の状態ｓ’において、制御対象のアクセスポイントＡＰ＿Ｎが取り得る全ての行動を取ったときの行動価値関数Ｑ^π _ｐ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ｐ（ｓ’，ａ）（ａ∈Ａ_ｐ））を算出する（ステップＳ１１５５）。

【0431】

そうすると、学習器４Ａは、式（１０）によって、報酬ｒおよび行動価値関数Ｑ^π _ｐ（ｓ’，ａ）の最大値（＝ｍａｘＱ^π _ｐ（ｓ’，ａ）（ａ∈Ａ_ｐ））を用いて、状態ｓ_ｐおよび行動ａ_ｐに対応する制御対象のアクセスポイントＡＰ＿Ｎの行動価値関数Ｑ^π _ｐ（ｓ，ａ）を制御対象のアクセスポイントＡＰ＿Ｎの期待累積報酬Ｒが最大になるように更新する（ステップＳ１１５６）。

【0432】

その後、学習器４Ａは、ｉ_ｐ＝Ｎ_０であるか否かを判定する（ステップＳ１１５７）。

【0433】

ステップＳ１１５７において、ｉ_ｐ＝Ｎ_０でないと判定されたとき、学習器４Ａは、ｉ_ｐ＝ｉ_ｐ＋１を設定する（ステップＳ１１５８）。その後、一連の動作は、ステップＳ１１５２へ移行し、ステップＳ１１５７において、ｉ_ｐ＝Ｎ_０であると判定されるまで、ステップＳ１１５２～ステップＳ１１５８が繰り返し実行される。

【0434】

そして、ステップＳ１１５７において、ｉ_ｐ＝Ｎ_０であると判定されると、学習器４Ａは、ｉ＝ｕ×Ｎ_０を設定する（ステップＳ１１５９）。ここで、ｕは、ステップＳ１１５７において、ｉ_ｐ＝Ｎ_０であると判定された回数を示し、ｕ＝１，２，３，・・・，Ｎ’_ｉｔｃｒ／Ｎ_０である。ステップＳ１１５９の後、一連の動作は、図３５のステップＳ１１８へ移行する。

【0435】

図３６のステップＳ１１５２～ステップＳ１１５８がＮ_０回実行されると、ｉ_ｐ＝Ｎ_０となり、ステップＳ１１５７において、ｉ_ｐ＝Ｎ_０であると判定され、ステップＳ１１５９において、ｉ＝ｕ×Ｎ_０が設定される。そして、図３５のステップＳ１１８において、ｉ＝Ｎ’_ｉｔｃｒであるか否かが判定される。上述したように、Ｎ’_ｉｔｃｒは、Ｎ_０の自然数倍の整数であり、ｕ＝１，２，３，・・・，Ｎ’_ｉｔｃｒ／Ｎ_０であるので、ステップＳ１１５９におけるｕがｕ＝Ｎ’_ｉｔｃｒ／Ｎ_０になると、ｉ＝Ｎ’_ｉｔｃｒとなる。

【0436】

従って、図３５に示すフローチャートに整合して図３６に示すフローチャートを実行できる。

【0437】

制御装置１０Ａの動作が図３４に示すフローチャート（図２２から図２４に示すフローチャートおよび図３５，３６に示すフローチャートを含む）に従って実行されることによって、敵対アクセスポイントＡＰ＿ＡＤＶによるフレームの送信確率ＴＲＰ＿ＡＤＶがしきい値ＴＲＰ＿ｔｈ以下であるとき、敵対アクセスポイントＡＰ＿ＡＤＶ無しの強化学習が実行され（図３４のステップＳ１１参照）、フレームの送信確率ＴＲＰ＿ＡＤＶがしきい値ＴＲＰ＿ｔｈよりも大きいとき、敵対アクセスポイントＡＰ＿ＡＤＶ有りの敵対的強化学習が実行される（図３４のステップＳ１２参照）。

【0438】

その結果、図２７に示す制御対象のアクセスポイントＡＰ＿Ｎおよび協調外のアクセスポイントのスループットの和は、フレームの送信確率ＴＲＰ＿ＡＤＶがしきい値ＴＲＰ＿ｔｈ以下であるとき（即ち、協調外のアクセスポイントの送信確率が曲線ｋ２と曲線ｋ３との交点に対応する送信確率以下であるとき）、協調外のアクセスポイントの送信確率に対して曲線ｋ３に従って変化し（即ち、曲線ｋ２に従って変化する場合よりも大きくなり）、フレームの送信確率ＴＲＰ＿ＡＤＶがしきい値ＴＲＰ＿ｔｈよりも大きいとき（即ち、協調外のアクセスポイントの送信確率が曲線ｋ２と曲線ｋ３との交点に対応する送信確率よりも大きいとき）、協調外のアクセスポイントの送信確率に対して曲線ｋ２に従って変化する。

【0439】

従って、敵対アクセスポイントＡＰ＿ＡＤＶ有りの敵対的強化学習のみを実行した場合（曲線ｋ２）よりも、協調外のアクセスポイントの全ての送信確率に対して制御対象のアクセスポイントＡＰ＿Ｎおよび協調外のアクセスポイントのスループットの和を大きくできる。

【0440】

なお、制御装置１０Ａの動作は、ソフトウェアによって実現されてもよい。この場合、制御装置１０Ａは、ＣＰＵ、ＲＯＭおよびＲＡＭを備える。そして、ＲＯＭは、図３４に示すフローチャート（図２２から図２４に示すフローチャートおよび図３５，３６に示すフローチャートを含む）の各ステップからなるプログラムＰｒｏｇ＿Ｂを記憶する。

【0441】

ＣＰＵは、ＲＯＭからプログラムＰｒｏｇ＿Ｂを読み出し、その読み出したプログラムＰｒｏｇ＿Ｂを実行して、強化学習または敵対的強化学習を実行して制御対象のアクセスポイントＡＰ＿Ｎ、または制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶを制御する。

【0442】

また、プログラムＰｒｏｇ＿Ｂは、ＣＤ，ＤＶＤ等の記録媒体に記録されて流通してもよい。プログラムＰｒｏｇ＿Ｂを記録した記録媒体がコンピュータに装着されると、コンピュータは、記録媒体からプログラムＰｒｏｇ＿Ｂを読み出して実行し、強化学習または敵対的強化学習を実行して制御対象のアクセスポイントＡＰ＿Ｎ、または制御対象のアクセスポイントＡＰ＿Ｎおよび敵対アクセスポイントＡＰ＿ＡＤＶを制御する。

【0443】

従って、プログラムＰｒｏｇ＿Ｂを記録した記録媒体は、コンピュータ読み取り可能な記録媒体である。

【0444】

また、通信システム１００が制御装置１０に代えて制御装置１０Ａを備える場合、通信システム１００の動作は、フレームの送信確率ＴＲＰ＿ＡＤＶがしきい値ＴＲＰ＿ｔｈよりも大きいとき、図２６に示すフローチャートに従って実行され、フレームの送信確率ＴＲＰ＿ＡＤＶがしきい値ＴＲＰ＿ｔｈ以下であるとき、図２６に示すフローチャートのステップＳ２０６を「制御対象のアクセスポイントＡＰ＿Ｎの通信の成否および行動に基づいて行動価値関数Ｑ^π _ｐ（ｓ，ａ）（＝Ｑ値）を更新するステップ」に変えたフローチャートに従って実行される。

【0445】

この発明の実施の形態においては、各アクセスポイントＡＰ＿１～ＡＰ＿Ｎは、上述した制御装置１０を備えていてもよい。図３７は、図１に示す制御装置１０を備えるアクセスポイントの概略図である。

【0446】

図３７を参照して、アクセスポイント２０は、制御装置１０と、アンテナ２１と、通信手段２２と、ホストシステム２３とを備える。

【0447】

制御装置１０は、有線ケーブル６を介して、アクセスポイント２０以外のアクセスポイントから送信スケジュールＳＣＨ＿ＣＯＯＲＤを収集するとともに、ホストシステム２３からアクセスポイント２０の送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬ、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}および送信スケジュールＳＣＨ＿ＣＴＬを受けるとともに、協調外のアクセスポイントＡＰ＿ＵＮＣＯＯＲＤの送信区間ＴＲＳ＿ＵＮＣＯＯＲＤを受ける。

【0448】

そして、制御装置１０は、送信区間ＴＲＳ＿ＣＴＬ、伝送速度ＴＲＤ＿ＣＴＬ、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}、送信スケジュールＳＣＨ＿ＣＴＬ，ＳＣＨ＿ＣＯＯＲＤおよび送信区間ＴＲＳ＿ＵＮＣＯＯＲＤに基づいて，上述した方法によって敵対的強化学習を実行し、ＱテーブルＴＢＬ－Ｑ１をホストシステム２３へ出力する。

【0449】

通信手段２２は、フレームおよび通信条件（フレームを送信するタイムスロットおよび伝送速度）をホストシステム２３から受け、その受けた通信条件でフレームをアンテナ２１を介して端末装置へ送信する。そして、通信手段２２は、端末装置からＡＣＫを受信し、その受信したＡＣＫをホストシステム２３へ出力する。

【0450】

また、通信手段２２は、アンテナ２１を介して端末装置からフレームを受信し、その受信したフレームをホストシステム２３へ出力する。

【0451】

ホストシステム２３は、ＱテーブルＴＢＬ－Ｑ１を制御装置１０から受ける。そして、ホストシステム２３は、ＱテーブルＴＢＬ－Ｑ１に基づいてフレームを送信するか否かを決定し、フレームを送信するとき、フレームと、フレームを送信するタイムスロットおよび伝送速度とを通信手段２２へ出力する。

【0452】

ホストシステム２３は、フレーム等を通信手段２２へ出力した後、通信手段２２からＡＣＫを受けると、フレームの送信に成功したと判定する。一方、ホストシステム２３は、フレーム等を通信手段２２へ出力した後、一定時間が経過しても、通信手段２２からＡＣＫを受けないとき、フレームの送信に失敗したと判定する。そして、ホストシステム２３は、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}を生成して制御装置１０へ出力する。

【0453】

また、ホストシステム２３は、フレームを通信手段２２から受ける。

【0454】

なお、アクセスポイント２０は、制御装置１０に代えて図２９に示す制御装置１０Ａを備えていてもよい。

【0455】

この場合、制御装置１０Ａは、敵対アクセスポイントＡＰ＿ＡＤＶによるフレームの送信確率ＴＲＰ＿ＡＤＶがしきい値ＴＲＰ＿ｔｈ以下であるとき、上述した方法によって、敵対アクセスポイントＡＰ＿ＡＤＶ無しの強化学習を実行してＱテーブルＴＢＬ－Ｑ３をホストシステム２３へ出力する。

【0456】

一方、フレームの送信確率ＴＲＰ＿ＡＤＶがしきい値ＴＲＰ＿ｔｈよりも大きいとき、制御装置１０Ａは、上述した方法によって敵対的強化学習を実行し、ＱテーブルＴＢＬ－Ｑ１をホストシステム２３へ出力する。

【0457】

ホストシステム２３は、ＱテーブルＴＢＬ－Ｑ１またはＱテーブルＴＢＬ－Ｑ３を制御装置１０Ａから受け、その受けたＱテーブルＴＢＬ－Ｑ１またはＱテーブルＴＢＬ－Ｑ３に基づいてフレームを送信するか否かを決定し、フレームを送信するとき、フレームと、フレームを送信するタイムスロットおよび伝送速度とを通信手段２２へ出力する。

【0458】

この発明の実施の形態においては、サービスセットＢＳＳ＿１～ＢＳＳ＿Ｎは、「複数のサービスセット」を構成し、サービスセットＢＳＳ＿１～ＢＳＳ＿Ｎのうちの任意の１つのサービスセットは、「制御対象サービスセット」を構成し、サービスセットＢＳＳ＿１～ＢＳＳ＿Ｎのうちの制御対象サービスセット以外の１個以上のサービスセットは、「協調サービスセット」を構成する。

【0459】

また、この発明の実施の形態においては、制御対象サービスセットに含まれるアクセスポイントＡＰは、「制御対象基地局」を構成し、協調サービスセットに含まれるアクセスポイントＡＰは、「協調基地局」を構成し、敵対アクセスポイントＡＰ＿ＡＤＶは、「敵対基地局」を構成する。

【0460】

更に、この発明の実施の形態においては、送信区間ＴＲＳ＿ＣＴＬは、「第１の送信区間」を構成し、送信区間ＴＲＳ＿ＡＤＶは、「第２の送信区間」を構成する。

【0461】

更に、この発明の実施の形態においては、送信スケジュールＳＣＨ＿ＣＴＬは、「第１の送信スケジュール」を構成し、送信スケジュールＳＣＨ＿ＣＯＯＲＤは、「第２の送信スケジュール」を構成する。

【0462】

更に、この発明の実施の形態においては、学習器４，４Ａが実行する敵対的強化学習は、「第１の敵対的強化学習」を構成し、学習器５が実行する敵対的強化学習は、「第２の敵対的強化学習」を構成する。

【0463】

更に、この発明の実施の形態においては、学習器４，４Ａが行動価値関数Ｑ^π _ａ（ｓ，ａ）を固定して敵対的強化学習を実行することは、「敵対基地局による妨害行動を固定して第１の敵対的強化学習を実行する」ことに相当する。制御対象のアクセスポイントＡＰ＿Ｎが取得する報酬ｒは、敵対アクセスポイントＡＰ＿ＡＤＶの妨害行動ａ_ａにも応じて決定されるので（式（７）参照）、学習器４，４Ａは、この妨害行動ａ_ａを固定して、制御対象のアクセスポイントＡＰ＿Ｎが更に多くの報酬ｒを得ることができる行動ａ_ｐ（即ち、妨害行動ａ_ａを克服できる行動ａ_ｐ）を敵対的強化学習によって学習するからである。

【0464】

更に、この発明の実施の形態においては、学習器５が行動価値関数Ｑ^π _ｐ（ｓ，ａ）を固定して敵対的強化学習を実行することは、「制御対象のアクセスポイントＡＰ＿Ｎの性能維持行動を固定して第２の敵対的強化学習を実行する」ことに相当する。制御対象のアクセスポイントＡＰ＿Ｎが取得する報酬ｒは、制御対象のアクセスポイントＡＰ＿Ｎの性能維持行動ａ_ｐ（＝フレームの送信に成功する行動）に応じて決定されるので、学習器５は、この性能維持行動を固定して、敵対アクセスポイントＡＰ＿ＡＤＶが報酬ｒを少なくできる行動ａ_ａ（即ち、制御対象のアクセスポイントＡＰ＿Ｎの行動ａ_ｐを妨害する妨害行動）を敵対的強化学習によって学習するからである。

【0465】

更に、この発明の実施の形態においては、行動価値関数Ｑ^π _ｐ（ｓ，ａ）は、「第１の行動価値関数」を構成し、行動価値関数Ｑ^π _ａ（ｓ，ａ）は、「第２の行動価値関数」を構成する。

【0466】

更に、この発明の実施の形態においては、ＱテーブルＴＢＬ－Ｑ１は、「第１の敵対的強化学習の結果」を構成し、ＱテーブルＴＢＬ－Ｑ２は、「第２の敵対的強化学習の結果」を構成し、ＱテーブルＴＢＬ－Ｑ３は、「強化学習の結果」を構成する。

【0467】

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

【産業上の利用可能性】

【0468】

この発明は、制御装置、それを備えた基地局、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体に適用される。

【符号の説明】

【0469】

１収集手段、２データベース、３，３Ａ制御手段、４，４Ａ，５学習器、６有線ケーブル、１０，１０Ａ制御装置、２０アクセスポイント、２１アンテナ、２２通信手段、２３ホストシステム、１００通信システム。