(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-13
(45)【発行日】2023-10-23
(54)【発明の名称】ネットワーク最適化方法、装置、および記憶媒体
(51)【国際特許分類】
H04W 16/18 20090101AFI20231016BHJP
【FI】
H04W16/18
(21)【出願番号】P 2021578169
(86)(22)【出願日】2020-06-22
(86)【国際出願番号】 CN2020097554
(87)【国際公開番号】W WO2021000757
(87)【国際公開日】2021-01-07
【審査請求日】2021-12-28
(31)【優先権主張番号】201910591464.7
(32)【優先日】2019-07-02
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】511151662
【氏名又は名称】中興通訊股▲ふん▼有限公司
【氏名又は名称原語表記】ZTE CORPORATION
【住所又は居所原語表記】ZTE Plaza,Keji Road South,Hi-Tech Industrial Park,Nanshan Shenzhen,Guangdong 518057 China
(74)【代理人】
【識別番号】100112656
【氏名又は名称】宮田 英毅
(74)【代理人】
【識別番号】100089118
【氏名又は名称】酒井 宏明
(72)【発明者】
【氏名】謝勤政
【審査官】永井 啓司
(56)【参考文献】
【文献】米国特許出願公開第2019/0014488(US,A1)
【文献】特開2013-106202(JP,A)
【文献】特開2013-026980(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04B 7/24- 7/26
H04W 4/00-99/00
(57)【特許請求の範囲】
【請求項1】
ネットワーク最適化方法であって、
前記ネットワーク最適化方法は、
第1領域に含まれるセルのうち、存在する問題が同じ問題種類に属するセルの占める割合が既定閾値以上であり、含まれるセルの地理的位置が連続しており、かつ、
前記第1領域の輪郭が凸図形であるように、前記第1領域を決定することと、
前記第1領域のセルに存在する問題に基づいて、
エージェントの生成方法、前記エージェントの状態の定義方法、前記エージェントの動作の定義方法、前記エージェントの報酬関数の定義方法、及び前記エージェントの動作選択のための初期ポリシーの定義方法を含むエージェントに関する方法と、強化学習方法を用いて動作選択のための初期ポリシーを調整する方法を含む、強化学習のための訓練調整方法とを決定することと、
前記エージェントの生成方法に基づいて、1以上の整数であるN個の前記エージェントを生成することと、
各エージェントに対して、エージェントの訓練後のモデルに基づいてエージェントに対応するセルに対してネットワーク最適化を行うことと、
を含み、
前記エージェントの生成方法に基づいてN個の前記エージェントを生成することは、
前記第1領域内のセルに存在する問題が複数のセル間の協調動作に関係しない場合、前記第1領域内の1つの前記セルを1つの前記エージェントとし、異なる前記セルは異なる前記エージェントに対応することと、
前記第1領域内のセルに存在する問題が複数のセル間の協調動作に関係する場合、前記第1領域内の隣接関係を有する1つのセルペアを1つの前記エージェントとして、隣接関係を有する異なるセルペアは異なる前記エージェントに対応することと、
の何れか一つまたは複数を含み、
前記エージェントの訓練後のモデルは、
前記エージェントの動作選択のための初期ポリシーの定義方法に基づいて前記エージェントの動作選択のための初期ポリシーを決定し、前記エージェントの動作選択のための初期ポリシーを前記エージェントの初期モデルとすることと、
前記エージェントの状態の定義方法、前記エージェントの動作の定義方法、前記エージェントの報酬関数の定義方法、及び前記訓練調整方法に基づいて、強化学習方法を用いてエージェントの初期モデルを訓練することと、によって得られる
ネットワーク最適化方法。
【請求項2】
前記第1領域のセルに存在する問題に基づいて、エージェントに関する方法と強化学習のための訓練調整方法を決定することは、
予め設定された問題種類と、エージェントに関する方法と、訓練調整方法との対応関係から、前記第1領域に含まれるセルに存在する問題が属する問題種類に対応するエージェントに関する方法と訓練調整方法を調べることを含む、
請求項1に記載の方法。
【請求項3】
前記第1領域を決定することは、
ネットワーク内のすべてのセルの履歴性能データを取得することと、
各前記セルについて、前記セルの履歴性能データに基づいて、前記セルが正常セルか問題セルかを判定することと、
問題セルのうち、存在する問題が属する問題種類が同じであるセルを同一の第2領域として区分することと、
各前記第2領域について、前記第2領域に含まれるセルの地理的位置関係と前記第2領域の輪郭とに基づいて前記第1領域を決定することと、
を含む請求項1に記載の方法。
【請求項4】
前記第2領域に含まれるセルの地理的位置関係と前記第2領域の輪郭とに基づいて前記第1領域を決定することは、
前記第2領域に含まれるセルの地理的位置が連続しており、かつ、前記第2領域の輪郭が凸図形である場合、前記第2領域を前記第1領域とすることと、
前記第2領域に含まれるセルの地理的位置が不連続である場合、または前記第2領域の輪郭が凸図形でない場合、前記第1領域に含まれるセルの地理的位置が連続し、かつ前記第1領域の輪郭が凸図形となるように、前記第2領域と、前記第2領域に含まれるセル以外の最小数の他のセルとを前記第1領域に追加することと、
の何れか一つまたは複数を含む請求項
3に記載の方法。
【請求項5】
前記エージェントの状態の定義方法、前記エージェントの動作の定義方法、前記エージェントの報酬関数の定義方法、及び前記訓練調整方法に基づいて、強化学習方法を用いてエージェントの初期モデルを訓練することは、
i回目の反復において、収束条件を満たさない場合、
第1確率でランダム動作を選択し、前記ランダム動作が前記エージェントに対応するセルで有効になるように前記ランダム動作を発行し、
第2確率で前記エージェントのi回目の反復に対応する性能データと前記エージェントの状態の定義方法に基づいて、前記エージェントのi回目の反復に対応する状態を特定し、前記エージェントの(i-1)回目の反復に対応する状態と、i回目の反復に対応する状態と、前記訓練調整方法とに基づいて、前記エージェントの(i-1)回目の反復で調整された後のポリシーを調整し、前記エージェントのi回目の反復に対応する状態と、前記エージェントの第1データと、前記エージェントの動作の定義方法とに基づいて、エージェントのi回目の反復に対応する最適動作を計算し、前記エージェントのi回目の反復に対応する最適動作が前記エージェントに対応するセルで有効になるように、エージェントのi回目の反復に対応する最適動作を発行することを含み、
ただし、第1確率と第2確率の和は1であり、iは1以上の整数であり、
前記エージェントの第1データは、
前記エージェントのi回目の反復で調整された後のポリシー、または、
前記エージェントのi回目の反復で調整された後のポリシーおよび隣接エージェントの平均動作を含む
請求項1に記載の方法。
【請求項6】
(i-1)回目の反復に対応する状態と、i回目の反復に対応する状態と、訓練調整方法とに基づいて、エージェントの(i-1)回目の反復で調整された後のポリシーを調整することは、
(i-1)回目の反復に対応する状態と、i回目の反復に対応する状態と、前記エージェントの報酬関数値の定義方法とに基づいて、(i-1)回目の反復に対応する報酬関数値を算出し、(i-1)回目の反復に対応する報酬関数値に基づいて、前記エージェントの(i-1)回目の反復で調整された後のポリシーを調整することを含む
請求項
5に記載の方法。
【請求項7】
前記i回目の反復において、前記エージェントに対応するセルのi回目の反復に対応する性能データが、(i-1)回目の反復に対応する性能データに対して、既定幅を超える劣化を有しない場合、第1確率でランダム動作を前記エージェントのi回目の反復に対応する最適動作として選択するステップか、または、第2確率でエージェントのi回目の反復に対応する性能データと前記エージェントの状態の定義方法とに基づいてエージェントのi回目の反復に対応する状態を特定するステップを、引き続き実行する
請求項
5に記載の方法。
【請求項8】
1回目の反復の前に、前記方法はさらに、前記エージェントに対応するセルの設定パラメータを保存することを含み、
前記方法はさらに、
前記i回目の反復において、前記エージェントのi回目の反復に対応する性能データが、(i-1)回目の反復に対応する性能データに対して、既定幅を超える劣化を有する場合、前記エージェントに対応するセルの設定パラメータを保存された設定パラメータに戻すことを含む
請求項
5に記載の方法。
【請求項9】
エージェントの訓練後のモデルに基づいてエージェントに対応するセルに対してネットワーク最適化を行うことは、
j回目の反復において、前記エージェントのj回目の反復に対応する性能データと前記エージェントの状態の定義方法に基づいて、前記エージェントのj回目の反復に対応する状態を特定し、前記エージェントのj回目の反復に対応する状態と、前記エージェントの第2データと、前記エージェントの動作の定義方法とに基づいて、エージェントのj回目の反復に対応する最適動作を計算し、エージェントのj回目の反復に対応する最適動作がエージェントに対応するセルで有効になるように、エージェントのj回目の反復に対応する最適動作を発行することを含み、ただし、jは1以上の整数、または(M+1)以上の整数であり、Mはモデル訓練を行う最大反復回数であり、
前記エージェントの第2データは、
前記エージェントの訓練後のポリシー、または、
前記エージェントの訓練後のポリシーと隣接エージェントの平均動作を含む
請求項1に記載の方法。
【請求項10】
前記j回目の反復において、前記エージェントに対応するセルのj回目の反復に対応する性能データが、(j-1)回目の反復に対応する性能データに対して、既定幅を超える劣化を有しない場合、前記エージェントのj回目の反復に対応する状態と前記エージェントの第2データとに基づいてエージェントのj回目の反復に対応する最適動作を計算するステップを引き続き実行する
請求項
9に記載の方法。
【請求項11】
1回目の反復の前に、前記方法はさらに、前記エージェントに対応するセルの設定パラメータを保存することを含み、
前記方法はさらに、
前記j回目の反復において、前記エージェントのj回目の反復に対応する性能データが、(j-1)回目の反復に対応する性能データに対して、既定幅を超える劣化を有する場合、前記エージェントに対応するセルの設定パラメータを保存された設定パラメータに戻すことを含む
請求項
9に記載の方法。
【請求項12】
プロセッサとコンピュータ読み取り可能な記憶媒体を含み、前記コンピュータ読み取り可能な記憶媒体には命令が記憶されており、前記命令が前記プロセッサにより実行された時、請求項1から
11の何れか一項に記載のネットワーク最適化方法を実現する
ネットワーク最適化装置。
【請求項13】
コンピュータプログラムが記憶されており、前記コンピュータプログラムがプロセッサによって実行された時、請求項1から
11の何れか一項に記載のネットワーク最適化方法のステップを実現する
コンピュータ読み取り可能な記憶媒体。
【請求項14】
ネットワーク最適化装置であって、
前記ネットワーク最適化装置は、モデル化モジュールと訓練最適化モジュールとを含み、
前記モデル化モジュールは、
第1領域に含まれるセルのうち、存在する問題が同じ問題種類に属するセルの占める割合が既定閾値以上であり、含まれるセルの地理的位置が連続しており、かつ、
前記第1領域の輪郭が凸図形であるように、前記第1領域を決定し、
前記第1領域のセルに存在する問題に基づいて、
エージェントの生成方法、前記エージェントの状態の定義方法、前記エージェントの動作の定義方法、前記エージェントの報酬関数の定義方法、及び前記エージェントの動作選択のための初期ポリシーの定義方法を含むエージェントに関する方法と、強化学習方法を用いて動作選択のための初期ポリシーを調整する方法を含む、強化学習のための訓練調整方法とを決定し、
前記エージェントの生成方法に基づいて、1以上の整数であるN個の前記エージェントを生成する、ように構成され、
前記エージェントの生成方法に基づいてN個の前記エージェントを生成することは、
前記第1領域内のセルに存在する問題が複数のセル間の協調動作に関係しない場合、前記第1領域内の1つの前記セルを1つの前記エージェントとし、異なる前記セルは異なる前記エージェントに対応することと、
前記第1領域内のセルに存在する問題が複数のセル間の協調動作に関係する場合、前記第1領域内の隣接関係を有する1つのセルペアを1つの前記エージェントとして、隣接関係を有する異なるセルペアは異なる前記エージェントに対応することと、
の何れか一つまたは複数を含み、
前記訓練最適化モジュールは、
各エージェントに対して、エージェントの訓練後のモデルに基づいてエージェントに対応するセルに対してネットワーク最適化を行うように構成され、
前記エージェントの訓練後のモデルは、
前記エージェントの動作選択のための初期ポリシーの定義方法に基づいて前記エージェントの動作選択のための初期ポリシーを決定し、前記エージェントの動作選択のための初期ポリシーを前記エージェントの初期モデルとすることと、
前記エージェントの状態の定義方法、前記エージェントの動作の定義方法、前記エージェントの報酬関数の定義方法、及び前記訓練調整方法に基づいて、強化学習方法を用いてエージェントの初期モデルを訓練することと、によって得られる
ネットワーク最適化装置。
【発明の詳細な説明】
【技術分野】
【0001】
本願は出願番号が201910591464.7で、出願日が2019年7月2日である中国特許出願に基づいて提出され、その中国特許出願の優先権を主張し、その中国特許出願の全文を参考として本願に援用する。
【0002】
本開示の実施例は、移動通信の分野に関するが、それに限定されず、特にネットワーク最適化方法、装置、および記憶媒体に関する。
【背景技術】
【0003】
現在では、長期的発展(LTE:Long Term Evolution)における自己組織化ネットワーク(SON:Self-Organizing Network)で実用化されている自己最適化方法の多くは、人為的に設定された専門家規則に基づいている。ネットワークの自己最適化の目的を達成するように、ネットワーク中のセルの性能指標がある条件を満たした場合、自動的にある調整動作を行い、セルのパラメータを修正する。
【0004】
現在、既存の無線ネットワーク自己最適化アルゴリズムは、従来のネットワーク自己最適化アルゴリズムと人工知能に基づいたネットワーク自己最適化アルゴリズムとの二つの種類にそれぞれ分類できる。
【0005】
その中で、従来のネットワーク自己最適化アルゴリズムは主に人が作成した規則表に頼ってネットワーク自己最適化を行っている。すなわち、自己最適化をオンにした場合、様々なネットワーク状態や、専門家が作成した規則表に基づいてどのように調整すべきかを調べる。こういった自己最適化方法は自己最適化に関与するすべての機器に一連の同じ規則を適用するが、実際には各基地局が置かれている環境、基地局の性能などの条件に大きな違いがある可能性があり、その結果、異なる機器での自己最適化の効果はまちまちである。例えば、特許番号がCN106714239Aである特許に開示された負荷均衡アルゴリズムでは、固定の制限条件、規則、閾値を用いており、性能や設置環境が異なるセルに対して個別化された調整ができず、設置環境が比較的特殊であったり、機器性能が不足していたりするセルや基地局の自己最適化調整効果がよくない。
【0006】
人工知能に基づいたネットワーク自己最適化アルゴリズムは、人工知能アルゴリズムをネットワーク自己最適化の分野に取り入れたが、現在その多くは実験室環境に限られており、既存ネットワークの負荷環境を有効にモデル化したり、既存ネットワークの膨大な機器数によるマルチエージェント収束問題を解決したりすることができず、単一エージェントモデルしか使用できず、その結果、すべての機器が同じエージェントを共有し、個性化された調整ができない。例えば、「Fuzzy Rule-Based Reinforcement Learning for Load Balancing Techniques in Enterprise LTE Femtocells」という題名の論文で提案された強化学習を用いて負荷を分散させる自己最適化方法は、シミュレーション環境である3階建てビルにおける6つのマイクロセルでアルゴリズムの収束を達成し、通話切断率(CDR:Call Dropping Ratio)の低減という利益を得た。しかし、それは干渉を完全に排除し、機器の性能が全く同じである実験室の場合に限られている上に、この論文では単一エージェントのモデルのみを利用しており、自己最適化に関与するすべての機器が単一エージェントモデルを共有しており、個別化された訓練と調整ができない。
【発明の概要】
【発明が解決しようとする課題】
【0007】
本開示の実施例は異なる機器に対して個別化された訓練および/または自己最適化調整を行い、自己最適化の効果を高めることができるネットワーク最適化方法および装置を提供する。
【課題を解決するための手段】
【0008】
本開示の実施例はネットワーク最適化方法を提供し、前記ネットワーク最適化方法は、第1領域内のセルに存在する問題をモデル化して、N個のエージェントと、モデル化方法と訓練方法とを得るステップであって、前記第1領域に含まれるセルのうち、存在する問題が同じ問題種類に属するセルの占める割合が既定閾値以上であり、含まれるセルの地理的位置が連続しており、かつ、第1領域の輪郭が凸図形であり、Nが1以上の整数である、ステップと、各エージェントに対して、モデル化方法と訓練方法とに基づいて前記エージェントの初期モデルを決定し、モデル化方法と訓練方法とに基づいて強化学習方法を用いてエージェントの初期モデルを訓練し、または、エージェントの訓練後のモデルに基づいてエージェントに対応するセルに対してネットワーク最適化を行い、または、モデル化方法と訓練方法とに基づいて前記エージェントの初期モデルを決定し、モデル化方法と訓練方法とに基づいて強化学習方法を用いてエージェントの初期モデルを訓練し、エージェントの訓練後のモデルに基づいてエージェントに対応するセルに対してネットワーク最適化を行うステップと、を含む。
【0009】
本開示の実施例はネットワーク最適化装置を提供し、前記ネットワーク最適化装置はプロセッサとコンピュータ読み取り可能な記憶媒体とを含み、前記コンピュータ読み取り可能な記憶媒体には命令が記憶されており、前記命令が前記プロセッサにより実行された時に上記の何れか一つのネットワーク最適化方法を実現する。
【0010】
本開示の実施例はコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体にはコンピュータプログラムが記憶されており、前記コンピュータプログラムがプロセッサによって実行された時に本開示の実施例が提供するネットワーク最適化方法のステップを実現する。
【0011】
本開示の実施例はネットワーク最適化装置を提供し、前記ネットワーク最適化装置は、第1領域内のセルに存在する問題をモデル化してN個のエージェントと、モデル化方法と訓練方法とを得るように構成されたモデル化モジュールであって、前記第1領域に含まれるセルのうち、存在する問題が同じ問題種類に属するセルの占める割合が既定閾値以上であり、含まれるセルの地理的位置が連続しており、かつ、第1領域の輪郭が凸図形であり、Nが1以上の整数である、モデル化モジュールと、各エージェントに対して、モデル化方法と訓練方法とに基づいて前記エージェントの初期モデルを決定し、モデル化方法と訓練方法とに基づいて強化学習方法を用いてエージェントの初期モデルを訓練し、または、エージェントの訓練後のモデルに基づいてエージェントに対応するセルに対してネットワーク最適化を行い、または、モデル化方法と訓練方法とに基づいて前記エージェントの初期モデルを決定し、モデル化方法と訓練方法とに基づいて強化学習方法を用いてエージェントの初期モデルを訓練し、エージェントの訓練後のモデルに基づいてエージェントに対応するセルに対してネットワーク最適化を行うように構成された訓練最適化モジュールと、を含む。
【0012】
本開示の実施例の他の特徴及び利点は、後の明細書において説明され、明細書から部分的に明らかになるか、または本開示の実施例を実施することによって理解されるであろう。本開示の実施例の目的及び他の利点は、明細書、特許請求の範囲及び図面において特別に指摘される構成によって達成し、得ることができる。
【図面の簡単な説明】
【0013】
添付図面は、本開示の実施例の技術案の更なる理解を提供するものであり、明細書の一部を構成し、本開示の実施例と共に本開示の実施例の技術案を解釈するために使用され、本開示の実施例の技術案に対する制限を構成するものではない。
【0014】
【
図1】本開示の一実施例によって提案されるネットワーク最適化方法のフローチャートである。
【
図2(a)】本開示の実施例において第1領域内のセルをエージェントとする模式図である。
【
図2(b)】本開示の実施例において第1領域内のセルペアをエージェントとする模式図である。
【
図3】本開示の実施例における隣接エージェントの模式図である。
【
図4】本開示の実施例における報酬分配の模式図である。
【
図5(a)】本開示の実施例において問題セルに存在する問題が属する問題種類が同じであるセルを、同一の第2領域として区分する模式図である。
【
図5(b)】本開示の実施例において
図5(a)における第2領域に基づいて決定された第1領域の模式図である。
【
図6】本開示のもう一つの実施例によって提案されるネットワーク最適化方法のフローチャートである。
【
図7】本開示のもう一つの実施例によって提案されるネットワーク最適化方法のフローチャートである。
【
図8】本開示の実施例において深層Q学習(DQN:Deep Q-Learning)アルゴリズムを用いてモデル訓練を行う模式フローチャートである。
【
図9】本開示の実施例におけるネットワーク最適化装置の配置構造の模式図である。
【
図10】本開示のもう一つの実施例によって提案されるネットワーク最適化装置の構造構成模式図である。
【
図11】本開示の実施例によって提案されるネットワーク最適化装置の一つの例示的な実例の構造構成模式図である。
【
図12】本開示の実施例におけるマルチエージェント強化学習シナリオにおける1回の反復の模式図である。
【
図13】本開示の実施例におけるマルチエージェント環境において単一エージェントの1回の反復の模式図である。
【
図14】本開示の実施例においてDQNで実現された強化学習モジュールのサブモジュールの構造構成模式図である。
【
図15】本開示のもう一つの実施例によって提案されるネットワーク最適化装置の構造構成模式図である。
【発明を実施するための形態】
【0015】
以下、添付図面を合わせて本開示の実施例を詳しく説明する。矛盾しない限り、本開示における実施例及び実施例における特徴は互いと任意に組み合わせてもよい。
【0016】
添付図面のフローチャートに示されたステップは、一組のコンピュータ実行可能命令のようなコンピュータシステム内で実行することができる。また、フローチャートには論理的順序が示されているが、いくつかの場合では、こことは異なる順序で図示または説明されたステップを実行してもよい。
【0017】
図1を参照して、本開示の一実施例はネットワーク最適化方法を提供し、前記ネットワーク最適化方法は以下のステップを含む。
【0018】
ステップ100、第1領域内のセルに存在する問題をモデル化してN個のエージェントと、モデル化方法および訓練方法を得る。ただし、前記第1領域に含まれるセルのうち、存在する問題が同じ問題種類に属するセルの占める割合が既定閾値以上で、含まれるセルの地理的位置が連続しており、かつ、第1領域の輪郭が凸図形であり、Nが1以上の整数である。
【0019】
本開示の実施例において、ネットワーク全体のセルをモデル化するのではなく、第1領域内のセルをモデル化する理由は、ネットワーク全体のセル数が非常に膨大であり、すべてのセルに対してすべてのモデル訓練および/またはネットワーク最適化を行うと、計算オーバーヘッドが非常に大きくなり、必要もないからである。
【0020】
一つの例示的な実例において、次の方法でモデル化することが可能である。
問題種類、モデル化方法と訓練方法の対応関係を事前に設定しておく。
対応関係から、第1領域に含まれるセルに存在する問題が属する問題種類に対応するモデル化方法と訓練方法を調べ、見つけられたモデル化方法と訓練方法を、モデル化とモデルの強化学習訓練に用いる。前記モデル化方法は、前記エージェントの生成方法、前記エージェントの状態の定義方法、前記エージェントの動作の定義方法、前記エージェントの報酬関数の定義方法、及び前記エージェントの動作選択のための初期ポリシーの定義方法を含み、前記訓練方法は、強化学習方法を用いて動作選択のための初期ポリシーを調整する方法を含む。
前記エージェントの生成方法に基づいてN個の前記エージェントを生成する。
【0021】
本開示の実施例において、エージェントの生成方法に基づいてN個の前記エージェントを生成することは以下のうちの何れか一つまたは複数を含む。
前記第1領域内のセルに存在する問題が複数のセル間の協調動作(例えば、カバー問題)に関係しない場合、前記第1領域内の1つの前記セルを1つの前記エージェントとし、異なる前記セルは異なる前記エージェントに対応し、すなわち、Nが第1領域に含まれるセルの数であり、N個のエージェントは第1領域に含まれるN個のセルであり、
図2(a)に示すように、第1領域にセル1、セル2、セル3、セル4、セル5、セル6が含まれると仮定すると、セルのそれぞれを一つの独立したエージェントとして、異なるエージェント同士は重ならない。
前記第1領域内のセルに存在する問題が複数のセル間の協調動作(例えば、容量問題、負荷均衡問題)に関係する場合、前記第1領域内の、隣接関係を有する1つのセルペアを、1つの前記エージェントとする。隣接関係を有する異なるセルペアは異なる前記エージェントに対応する。
【0022】
一つの例示的な実例において、第1領域内のセルの地理的位置情報、セル間のハンドオーバ頻度、およびセルの設定パラメータに基づいて、2つのセル間に隣接関係があるかどうかを判定する。例えば、一つのセルの設定パラメータにおける主要な隣接セルがもう一つのセルを含み、2つのセルの地理的位置が隣接しており、かつ2つのセル間のハンドオーバ頻度が最も高い場合、2つのセル間に隣接関係があると判定し、2つのセルの地理的位置が隣接していない場合、または2つのセル間のハンドオーバ頻度が最も高い頻度ではない場合、2つのセル間に隣接関係がないと判定する。
【0023】
例えば、
図2(b)に示すように、第1領域にセル1、セル2、セル3、セル4、セル5、セル6が含まれ、セル間の地理的位置関係は
図2(b)に示すとおりであると仮定すると、この場合、セルペア1-3、セルペア1-2、セルペア1-5などをそれぞれエージェントとすることができ、異なるエージェント同士は部分的に重なることになる。
【0024】
セルの地理的位置情報、セル間のハンドオーバ頻度、およびセルの設定パラメータはいずれも、ネットワーク管理システムから取得することも、基地局から直接取得することもできる。
【0025】
ステップ101、各エージェントに対して、モデル化方法と訓練方法とに基づいて前記エージェントの初期モデルを決定し、モデル化方法と訓練方法とに基づいて強化学習方法を用いてエージェントの初期モデルを訓練する。
【0026】
本開示の実施例において、エージェントの性能データとは、エージェントが対応するセルの性能データであり、セルの性能データはネットワーク管理システムから取得してもよいし、基地局から直接取得してもよい。本開示の実施例では、セルの性能データの具体的な取得方式について限定しない。
【0027】
本開示の実施例において、前記エージェントの動作選択のための初期ポリシーの定義方法に基づいて前記エージェントの動作選択のための初期ポリシーを決定し、前記エージェントの動作選択のための初期ポリシーを前記エージェントの初期モデルとする。
【0028】
本開示の実施例において、モデル化方法と訓練方法とに基づいて強化学習方法を用いてエージェントの初期モデルを訓練することは、
i回目の反復において、収束条件を満たさない場合、
第1確率でランダム動作を選択し、ランダム動作がエージェントに対応するセルで有効になるように、ランダム動作を発行し、強化学習方法内の実行されていない動作を探索することで強化学習方法を最適化し、このランダム動作は新しい最適解を探索することで、訓練精度を向上させるためのものであり、
第2確率で前記エージェントのi回目の反復に対応する性能データと前記エージェントの状態の定義方法に基づいて、前記エージェントのi回目の反復に対応する状態を特定し、前記エージェントの(i-1)回目の反復に対応する状態と、i回目の反復に対応する状態と、前記訓練方法とに基づいて、前記エージェントの(i-1)回目の反復で調整された後のポリシーを調整し、前記エージェントのi回目の反復に対応する状態と、前記エージェントの第1データと、前記エージェントの動作の定義方法とに基づいて、エージェントのi回目の反復に対応する最適動作を計算し、エージェントのi回目の反復に対応する最適動作がエージェントの対応するセルで有効になるように、エージェントのi回目の反復に対応する最適動作を発行することを含み、
ただし、第1確率と第2確率の和は1で、iは1以上の整数であり、前記エージェントの第1データは、前記エージェントのi回目の反復で調整された後のポリシー、または、前記エージェントのi回目の反復で調整された後のポリシーと隣接エージェントの平均動作を含む。
【0029】
なお、1回目の反復において、エージェントの1回目の反復に対応する状態と訓練方法とに基づいてエージェントの初期ポリシーを調整する。
【0030】
一つの例示的な実例において、(i-1)回目の反復に対応する状態と、i回目の反復に対応する状態と、訓練方法とに基づいて、エージェントのポリシーを調整することは、(i-1)回目の反復に対応する状態と、i回目の反復に対応する状態と、前記エージェントの報酬関数値の定義方法に基づいて、(i-1)回目の反復に対応する報酬関数値を算出し、(i-1)回目の反復に対応する報酬関数値に基づいて、前記エージェントの(i-1)回目の反復で調整された後のポリシーを調整することを含む。
【0031】
一つの例示的な実例において、セルをエージェントとする場合、例えば、カバー問題については、エージェントの(i-1)回目の反復に対応する報酬関数値は、エージェントの(i-1)回目の反復に対応するカバー状況から算出することができ、カバー状況が良いほど、報酬関数値が高くなり、その他の問題については、報酬関数値の算出方法は問題種類によって異なり、
セルペアをエージェントとする場合、エージェント中のセルの状態の変化はすべてエージェントの動作によるものではなく、隣接エージェントの動作にも影響されるため、隣接エージェントの数、隣接エージェントの平均動作幅、およびエージェント自身の動作幅に基づいて報酬関数値を算出することができる。すなわち、(i-1)回目の反復に対応する報酬関数値は、エージェントが対応するすべてのセルの状態変化におけるエージェントの(i-1)番目の反復に対応する動作による割合によって算出できる。
【0032】
例えば、負荷均衡化の自己最適化を行う場合、動作はセル間のハンドオーバパラメータを調節するものであり、セルペアをエージェントとし、ある反復においてセルペア1-2と隣接エージェントの動作方向および幅は
図4に示すとおりである。
図4において、矢印はハンドオーバ方向を表し、矢印上方の文字はハンドオーバパラメータの調整幅を表す。セル1のユーザは他のセルにオフロードされ、セル2が隣接セルからオフロードされたユーザを受け入れる場合、セル1の状態変化においてセルペア1ー2の動作による割合はR
1-2/1であり、その計算方法は次のとおりである。
【数1】
【0033】
すなわち、セル1の状態変化のうち、0.25の割合はセルペア1-2の動作によるものである。同様にセル2の状態変化におけるセルペア1-2の動作による割合を算出し、さらにセルペア1-2の動作による報酬関数値、すなわちセル1の状態変化におけるセルペア1-2の動作による割合とセル2の状態変化におけるセルペア1-2の動作による割合の和を算出することができる。
【0034】
一つの例示的な実例において、セルをエージェントとする場合、隣接エージェントとは、対応するセルが地理的位置で隣接するエージェントを指す。
図3に示すように、第1領域にそれぞれセル1、セル2、セル3、セル4、セル5、セル6、セル7、およびセル8である8つのセルが含まれると仮定すると、セル2の地理的位置に隣接するセルはセル1、セル4、およびセル6を含むため、セル2に対応するエージェントの隣接エージェントは、セル1、セル4、およびセル6に対応するエージェントを含む。すると、セル2に対応するエージェントの隣接エージェントの平均動作を計算する場合、セル1、セル4、およびセル6に対応するエージェントの平均動作を計算すべきである。
【0035】
セルペアをエージェントとする場合、隣接エージェントとは、対応するセルペアに含まれるセルとの積集合が空でないエージェントである。
図3に示すように、第1領域にそれぞれセル1、セル2、セル3、セル4、セル5、セル6、セル7、およびセル8である8つのセルが含まれると仮定すると、セルペア1-2について、セルペア1-2は、それぞれセルペア1-3、セルペア1-8、セルペア2-4、およびセルペア2-6に含まれるセルとの積集合が空ではないため、セルペア1-2に対応するエージェントの隣接エージェントはセルペア1-3、セルペア1-8、セルペア2-4、およびセルペア2-6に対応するエージェントを含む。すると、セルペア1-2に対応するエージェントの隣接エージェントの平均動作を計算する場合、セルペア1-3、セルペア1-8、セルペア2-4、およびセルペア2-6対応するエージェントの平均動作、すなわち、a13、a18、a24、a26の平均値を計算すべきである。
【0036】
一つの例示的な実例において、隣接エージェントの平均動作は、平均場理論に基づいて算出できる。具体的には、隣接エージェントの平均動作とは、隣接エージェントのi回目の反復に対応する状態と、隣接エージェントのi回目の反復で調整された後のポリシーに基づいて算出された隣接エージェントのi回目の反復に対応する初期動作の平均値としてもよく、あるいは、隣接エージェントのi回目の反復に対応する最適動作の平均値を指してもよい。
【0037】
場合によっては、ある一つのエージェントの最適動作を計算する際に、隣接エージェントの最適動作がまだ計算されていない場合、隣接エージェントの平均動作に基づいて計算するのではなく、隣接エージェントのi回目の反復に対応する状態と、隣接エージェントのi回目の反復で調整された後のポリシーのみに基づいて算出し、あるいは、隣接エージェントのi回目の反復に対応する状態と、隣接エージェントのi回目の反復で調整された後のポリシーと、隣接エージェントのi回目の反復に対応する初期動作の平均値とに基づいて算出する。
【0038】
一部の隣接エージェントの最適動作のみが既に計算された場合、隣接エージェントのi回目の反復に対応する状態と、隣接エージェントのi回目の反復で調整された後のポリシーと、既に計算された一部の隣接エージェントの平均動作に基づいて算出する。あるいは、隣接エージェントのi回目の反復に対応する状態と、隣接エージェントのi回目の反復で調整された後のポリシーと、既に計算された一部の隣接エージェントの平均動作と、その他の部分の隣接エージェントのi回目の反復に対応する初期動作の平均値とに基づいて算出する。
【0039】
全ての隣接エージェントの最適動作が既に計算された場合、隣接エージェントのi回目の反復に対応する状態と、隣接エージェントのi回目の反復で調整された後のポリシーと、全ての隣接エージェントの平均動作とに基づいて算出する。
【0040】
本開示の実施例において、無線ネットワークにおいて、各セル、各セルペア、各基地局間の相互の影響が大きいため、すなわち、各エージェントの動作が相互に大きな影響を及ぼすため、従来のモデル訓練は無線ネットワーク環境では収束しにくい。本開示の実施例では、平均場理論に基づいて、隣接エージェントの動作を平均動作に簡略化して計算に組み込み、モデル訓練の収束性を高め、収束速度を速くする。
【0041】
一つの例示的な実例において、エージェントのi回目の反復に対応する最適動作またはランダム動作を発行することは、以下の方法で実現することができる。
エージェントのi回目の反復に対応する最適動作またはランダム動作をネットワーク管理システムに発行し、ネットワーク管理システムはエージェントのi回目の反復に対応する最適動作またはランダム動作に基づいてエージェントに対応するセルの設定パラメータを修正してかつ有効にする。
あるいは、エージェントのi回目の反復に対応する最適動作またはランダム動作に基づいて、調整すべきエージェントに対応するセルの設定パラメータおよび調整値を決定し、調整すべきエージェントに対応するセルの設定パラメータおよび調整値をネットワーク管理システムに送信し、ネットワーク管理システムは調整すべきエージェントに対応するセルの設定パラメータおよび調整値に応じてエージェントに対応するセルの設定パラメータを修正してかつ有効にする。
あるいは、他の方法で実現してもよい。
【0042】
本開示のもう一つの実施例において、1回目の反復の前に、この方法はさらに、前記エージェントに対応するセルの設定パラメータを保存することを含む。この方法はさらに、
前記i回目の反復において、前記エージェントに対応するセルのi回目の反復に対応する性能データが(i-1)回目の反復に対応する性能データに対して、既定幅を超える劣化を有しない場合、前記第1確率でランダム動作を前記エージェントのi回目の反復に対応する最適動作として選択するステップか、または、第2確率でエージェントのi回目の反復に対応する性能データに基づいてエージェントのi回目の反復に対応する状態を特定するステップを引き続き実行し、
前記エージェントのi回目の反復に対応する性能データが(i-1)回目の反復に対応する性能データに対して、既定幅を超える劣化を有する場合、前記エージェントに対応するセルの設定パラメータを保存された設定パラメータに戻すことを含む。
【0043】
本開示の実施例において、モデル訓練中に、新しい動作を探索することでネットワークに対して効果の悪い調整が行われる可能性があるが、上記の方法により、ネットワークの性能に既定幅を超える悪化が発生した場合に、速やかにネットワークを元の状態に戻すことができる。
【0044】
本開示のもう一つの実施例において、エージェントを生成する前に、この方法はさらに、第1領域に含まれるセルを決定するか、または、第1領域を決定することを含む。
【0045】
具体的には、ネットワーク内のすべてのセルの履歴性能データを取得し、各セルについて、前記セルの履歴性能データに基づいて、前記セルが正常セルか問題セルかを判定し、問題セルに存在する問題が属する問題種類が同じであるセルを同一の第2領域として区分し、各前記第2領域について、前記第2領域に含まれるセルの地理的位置関係と前記第2領域の輪郭とに基づいて前記第1領域を決定する。
【0046】
本開示の実施例において、セルの履歴性能データはネットワーク管理システムから取得してもよいし、基地局から直接取得してもよい。本開示の実施例では、セルの履歴性能データの具体的な取得方式について限定しない。
【0047】
本開示の実施例において、セルの履歴性能データに基づいて根本原因分析法を用いてセルが正常セルか問題セルかを判定し、問題セルの場合、問題セルに存在する問題を特定し、存在する問題が属する問題種類ごとに問題セルを分類して、各問題種類に対応する第2領域を得ることができる。例えば、容量問題セル、カバー問題セルなどに分ける。根本原因分析法は、既存ネットワークにおける既存の根本原因分析法を再利用することができるが、もちろん他の根本原因分析法を採用することもできる。本開示の実施例は根本原因分析法の具体的な実現を限定しない。
【0048】
本開示の実施例において、第2領域に含まれるセルの地理的位置関係と前記第2領域の輪郭とに基づいて前記第1領域を決定することは以下の何れか一つまたは複数を含む。
前記第2領域に含まれるセルの地理的位置が連続しており、かつ、前記第2領域の輪郭が凸図形である場合、前記第2領域を前記第1領域とし、
前記第2領域に含まれるセルの地理的位置が不連続である場合、または前記第2領域の輪郭が凸図形でない場合、前記第1領域に含まれるセルの地理的位置が連続し、かつ前記第1領域の輪郭が凸図形となるように、前記第2領域と前記第2領域に含まれるセル以外の最小数の他のセルを前記第1領域に追加する。
【0049】
第1領域の輪郭が凸図形ではなく、例えば凹図形である場合、自己最適化の効果が悪くなり、自己最適化後の効果に対する評価が客観的でなくなり、強化学習方法の訓練効果が悪くなる。例えば、
図5(a)のような条件を満たさない領域に対して、負荷均衡自己最適化を行うと、セル3のユーザはセル4にしかアンロードできず、セル5、セル6にも同様の問題がある。調整効果を評価する際、セル1、セル2は最適化領域に取り入れられていないため、評価範囲にも取り入れられないが、セル1、セル2は最適化領域と密接に関連しており(最適化対象セルに取り囲まれており)、可能な最適化領域の調整はセル1、セル2の性能を損なうことを代償とするが、セル1、セル2は最適化領域に編入されていないため、この影響は無視され、強化学習訓練に影響してしまう。
【0050】
一つの例示的な実例において、第1領域に追加された他のセルは、通常のセルであってもよいし、存在する問題が属する問題種類が、第2領域に含まれるセルに存在する問題が属する問題種類と異なるセルであってもよい。他のセルを第1領域に追加するのは、第1領域内の問題セルに対してより良いモデル訓練および/またはネットワーク最適化を行うためである。
【0051】
本開示の実施例において、
図5(a)に示すように、セル3、セル4、セル5、およびセル6に容量問題が存在し、セル1、セル2に容量問題がないため、セル3、セル4、セル5、およびセル6を同一の第2領域として区分し、セル3、セル4、セル5、およびセル6で構成される第2領域の輪郭が凹図形であるため、
図5(b)に示すように、第1領域の輪郭を凸図形にするために、セル1とセル2を第1領域に合併する必要がある。
【0052】
本開示の実施例は、N個のエージェントを生成し、異なるエージェントに対してそれぞれ異なるモデル訓練および/またはネットワーク最適化を行うことで、マルチエージェントを用いて異なるセル(すなわち異なる機器)のモデル訓練および/またはネットワーク最適化を実現し、それぞれのエージェントが様々な状況で自身の実際の状況に最も合った自己最適化調整を行うことができるようにし、全体的な自己最適化効果を高める。
【0053】
図6を参照して、本開示のもう一つの実施例はネットワーク最適化方法を提供し、前記ネットワーク最適化方法は以下のステップを含む。
ステップ600、第1領域内のセルに存在する問題をモデル化してN個のエージェントと、モデル化方法および訓練方法を得る。ただし、前記第1領域に含まれるセルのうち、存在する問題が同じ問題種類に属するセルの占める割合が既定閾値以上で、含まれるセルの地理的位置が連続しており、かつ、第1領域の輪郭が凸図形であり、Nが1以上の整数である。
【0054】
ステップ600の具体的な実現過程は、前述の実施例のステップ100の具体的な実現過程と同じであるため、ここでは説明を省略する。
【0055】
ステップ601、各エージェントに対して、エージェントの訓練後のモデルに基づいてエージェントに対応するセルに対してネットワーク最適化を行う。
【0056】
本開示の実施例において、エージェントの訓練後のモデルに基づいてエージェントに対応するセルに対してネットワーク最適化を行うことは、以下のことを含む。
j回目の反復において、前記エージェントのj回目の反復に対応する性能データと前記エージェントの状態の定義方法に基づいて、前記エージェントのj回目の反復に対応する状態を特定し、前記エージェントのj回目の反復に対応する状態と、前記エージェントの第2データと前記エージェントの動作の定義方法とに基づいて、エージェントのj回目の反復に対応する最適動作を計算し、エージェントのj回目の反復に対応する最適動作がエージェントの対応するセルで有効になるように、エージェントのj回目の反復に対応する最適動作を発行し、ただし、jは1以上の整数であり、
前記エージェントの第2データは、前記エージェントの訓練後のポリシー(すなわち、訓練後のモデルであって、最終回の反復で調整された後のポリシー)、または、前記エージェントの訓練後のポリシーと隣接エージェントの平均動作を含む。
【0057】
本開示の実施例において、隣接エージェントの平均動作の計算方法は前述の実施例と同様であるので、ここでは説明を省略する。
【0058】
本開示の実施例において、エージェントのj回目の反復に対応する最適動作を計算する具体的な過程は前述の実施形態と似ているが、唯一の違いは、本実施例において、各反復においてエージェントのポリシーを更新する必要がなく、各反復で同じポリシー、すなわち訓練後のポリシーを使用することである。
【0059】
本開示の実施例において、エージェントの性能データとは、エージェントが対応するセルの性能データであり、セルの性能データはネットワーク管理システムから取得してもよいし、基地局から直接取得してもよい。本開示の実施例では、セルの性能データの具体的な取得方式について限定しない。
【0060】
本開示のもう一つの実施例において、1回目の反復の前に、この方法はさらに、前記エージェントに対応するセルの設定パラメータを保存することを含む。この方法はさらに、
前記j回目の反復において、前記エージェントのj回目の反復に対応する性能データが(j-1)回目の反復に対応する性能データに対して、既定幅を超える劣化を有する場合、前記エージェントに対応するセルの設定パラメータを保存された設定パラメータに戻し、
前記j回目の反復において、前記エージェントに対応するセルのj回目の反復に対応する性能データが(j-1)回目の反復に対応する性能データに対して、既定幅を超える劣化を有しない場合、前記の前記エージェントのj回目の反復に対応する状態と前記エージェントの第2データとに基づいてエージェントのj回目の反復に対応する最適動作を計算するステップを引き続き実行することを含む。
【0061】
本開示のもう一つの実施例において、エージェントを生成する前に、この方法はさらに、第1領域に含まれるセルを決定するか、または、第1領域を決定することを含む。
【0062】
本開示の実施例において、第1領域を決定する方法は前述の実施例と同様であるので、ここでは説明を省略する。
【0063】
本開示の実施例は、N個のエージェントを生成し、異なるエージェントに対してそれぞれ異なるモデル訓練および/またはネットワーク最適化を行うことで、マルチエージェントを用いて異なるセル(すなわち異なる機器)のモデル訓練および/またはネットワーク最適化を実現し、それぞれのエージェントが様々な状況で自身の実際の状況に最も合った自己最適化調整を行うことができるようにし、全体的な自己最適化効果を高める。
【0064】
図7を参照して、本開示のもう一つの実施例はネットワーク最適化方法を提供し、前記ネットワーク最適化方法は以下のステップを含む。
【0065】
ステップ700、第1領域内のセルに存在する問題をモデル化してN個のエージェントと、モデル化方法および訓練方法を得る。前記第1領域に含まれるセルのうち、存在する問題が同じ問題種類に属するセルの占める割合が既定閾値以上で、含まれるセルの地理的位置が連続しており、かつ、第1領域の輪郭が凸図形であり、Nが1以上の整数である。
【0066】
ステップ700の具体的な実現過程は、前述の実施例のステップ100の具体的な実現過程と同じであるため、ここでは説明を省略する。
【0067】
ステップ701、各エージェントに対して、モデル化方法と訓練方法とに基づいて前記エージェントの初期モデルを決定し、モデル化方法と訓練方法とに基づいて強化学習方法を用いてエージェントの初期モデルを訓練し、エージェントの訓練後のモデルに基づいてエージェントに対応するセルに対してネットワーク最適化を行う。
【0068】
本開示の実施例において、モデル化方法と訓練方法とに基づいて前記エージェントの初期モデルを決定し、モデル化方法と訓練方法とに基づいて強化学習方法を用いてエージェントの初期モデルを訓練する具体的な実現過程は前述の実施例のステップ101の具体的な実現過程と同様であり、ここでは説明を省略する。
【0069】
エージェントの訓練後のモデルに基づいてエージェントに対応するセルに対してネットワーク最適化を行うことは、前述の実施例のステップ601の具体的な実現過程と同様であるが、唯一の違いはjが(M+1)以上の整数で、Mがモデル訓練を行う最大反復回数であることである。
【0070】
本開示のもう一つの実施例において、エージェントを生成する前に、この方法はさらに、第1領域に含まれるセルを決定するか、または、第1領域を決定することを含む。
【0071】
本開示の実施例において、第1領域を決定する方法は前述の実施例と同様であるので、ここでは説明を省略する。
【0072】
本開示の実施例は、N個のエージェントを生成し、異なるエージェントに対してそれぞれ異なるモデル訓練および/またはネットワーク最適化を行うことで、マルチエージェントを用いて異なるセル(すなわち異なる機器)のモデル訓練および/またはネットワーク最適化を実現し、それぞれのエージェントが様々な状況で自身の実際の状況に最も合った自己最適化調整を行うことができるようにし、全体的な自己最適化効果を高める。
【0073】
以下に2つの実例を挙げて、本開示の実施例のネットワーク最適化方法の具体的な実現過程を詳細に説明する。挙げられる実例は説明の便宜上のものであり、本開示の実施例の保護範囲を限定するものではない。
【0074】
実例1
ステップ1、サーバを構築し、ネットワーク管理システムに接続し、
図11に示すようなアルゴリズムの各モジュールをサーバ上に配置する。
【0075】
ステップ2、データ収集モジュールはネットワーク管理システムからネットワーク内のすべてのセルの履歴性能データを取得し、領域区分モジュールはすべてのセルの履歴性能データを分析し、問題領域(すなわち第1領域)を区分する。ネットワーク管理システムから問題領域内のすべてのセルのリアルタイム性能データを取得し、また、ネットワーク管理システムから例えばハンドオーバデータ(ハンドオーバ頻度を含む)や設定パラメータなどの他のデータを取得することもできる。本実例で例示する問題領域Aは、20個のセルを含み、負荷が不均衡であるという問題が存在し、領域内のセル間で負荷が大きく異なる。
【0076】
ステップ3、エージェント生成モジュールは、データ収集モジュールによって得られたデータと領域区分モジュールによって区分された問題領域の結果を取得する。エージェント生成モジュールは、上記データに基づいて、この問題領域に存在する問題が複数のセル間の協調動作に関係すると判断し、エージェントとしてセルペアを選択し、セル間のハンドオーバデータ、セルの地理的位置情報などのデータから、問題領域内のセルペアのリスト、すなわちエージェントリストを算出する。また、エージェント間の隣接関係を保存する。
【0077】
ステップ4、安全ロールバックモジュールはデータ収集モジュール、領域区分モジュールの出力を取得し、最適化前の問題領域のすべての設定パラメータを記録し、対象領域の重要指標の監視を開始する。本実施例において問題領域に負荷不均衡の問題が存在し、問題領域内のセルペア間のハンドオーバパラメータを最適化するため、監視するデータ指標には、セルのハンドオーバ記録データ、領域の全体ハンドオーバ記録、セルの平均チャネル品質指示(CQI:Channel Quality Indicator)、サービスユーザの信号対干渉雑音比(SINR:Signal to Interference Plus Noise Ratio)などの指標が含まれる。これらの関連指標が大幅に悪化した時に、強化学習の繰返しを中止し、強化学習動作の発行を中止するようにパラメータ発行モジュールに通知し、以前に記憶した問題領域の元の設定パラメータを発行する。
【0078】
ステップ5、強化学習モジュールは他のモジュールが提供するデータを取得する。1回目の反復が開始される前に、強化学習モジュールは他のモジュールが提供する情報に基づいて問題をモデル化する。
【0079】
本実例において、問題領域には主に負荷不均衡の問題が存在するため、強化学習モジュールは負荷均衡化を調整手段として定義する。
【0080】
エージェント生成モジュールは、セルペアをエージェントとするエージェント区分結果を出力し、問題領域内のエージェントのリスト(すなわちセルペアのリスト)を出力した。
【0081】
エージェント内の2つのセル間のハンドオーバパラメータ(主に隣接セルのセル個別のオフセット(OCN:Cell Individual Offset))を変更することを調整動作として定義する。
【0082】
セルペアの状態にはセルペア内の2つのセルの物理リソースブロック(PRB:Physical Resource Block)利用率の差、2つのセル間のアクティブユーザ数の差、および2つのセルの平均CQIが含まれると定義する。
【0083】
ここで、PRB利用率の差とアクティブユーザ数の差は、一つのエージェントにおける負荷の不均衡程度を特徴付けるためのもので、平均CQIはその中のユーザの平均チャネル品質レベルを特徴付ける。本実例において、強化学習の目的は、CQIを大幅に悪化させることなく、負荷不均衡程度を特徴付ける最初の2つの指標をできるだけ好転させることである。
【0084】
エージェントの報酬関数を次のように定義する。
【数2】
ここで、R
agentはエージェント自身の報酬値、Rはエージェントの報酬関数値、αはエージェント自身の報酬値の重み係数、βはグローバル報酬値の重み係数、R
globalはグローバル報酬値である。R
agentはエージェントの状態変化から計算され、その計算方法は次のとおりである。
【数3】
【0085】
ここで、1番目の項における
【数4】
はPRB利用率の差がある設定した閾値より小さいか否かを計算し、そうであれば、PRB利用率の差が大きくないということになり、この数値からこの部分の報酬を計算する。2番目の項における関数
【数5】
f2は、アクティブユーザ数の差が閾値より小さいか否かを計算し、そうであれば、負荷の差が大きくないということになり、報酬を計算し、3番目の項の関数
【数6】
f3はCQIの変化を計算し、一度調整した後にCQIが大幅に悪化すれば、電波品質の悪いセルに移転されたユーザが多すぎるということになり、その場合はその部分の罰を計算する。上記の3つの項は、a1、a2、a3の3つの係数によって、報酬における割合が設定される。また、R
globalはグローバルな報酬値であり、グローバルな報酬によって領域内の複数のエージェントを連携させる。その計算方法は次のとおりである。
【数7】
【0086】
その中で、1番目の項における関数
【数8】
f4は領域内のPRB利用率とアクティブユーザ数の標準偏差の変化を計算する。この二つの標準偏差が減少した場合、領域内の負荷がより均衡であるということになり、幅に応じて報酬を計算する。2番目の項における関数
【数9】
f5は、領域内の全体CQIの変化を計算するものであり、エリア内のCQIが全体的に悪くなった場合、大量のユーザが電波の悪いセルに調整されたということになり、この場合、罰を計算する。3番目の項の
【数10】
f6は領域内全体のハンドオーバ回数を計算するものであり、領域全体のハンドオーバ回数が大幅に上昇した場合、罰を計算する。上記の3つの項は、b1、b2、b3の3つの係数によって、全体の報酬における割合が設定される。本実施例において、セルペアをエージェントとしているため、報酬を計算する際に報酬分配の問題があり、比例係数を計算することでこの問題を解決する。
【0087】
ステップ6、強化学習モジュールは、問題をモデル化してから、強化学習反復計算を開始する。本実施例において、DQN強化学習アルゴリズムを用いて反復訓練を行うが、反復プロセスは
図8に示すように、各回の反復において、アルゴリズムはエージェントの現在の状態を取得し、各エージェントのポリシーネットワークを用いてその状態での最適動作を計算し、また、一定の確率でランダム動作を選択して新たな良い解を探索する。周囲の平均動作と合わせて、各エージェントの発行動作を算出する。毎回の反復において現在の動作を計算して発行する以外に、各エージェントについて、アルゴリズムはその前回の反復の状態と現在の状態の違いを計算し、それに基づいて報酬を計算し、前回の反復での当該エージェントの動作を踏まえて、強化学習の反復に必要な四元集合(S,A,R,S’)(すなわち状態、動作、報酬、次の状態)を獲得し、DQNアルゴリズムは四元集合を当該エージェントの経験再生ライブラリに保存し、各エージェントのニューラルネットワークに対し経験再生訓練を行う。本実施例における強化学習によって生成されたエージェントの動作は、ステップ5で述べたように、セルペアにおけるハンドオーバパラメータ(主にOCN)である。
【0088】
ステップ7、動作発行モジュールは、強化学習モジュールから出力されたエージェントの動作パラメータを受信し、ネットワーク管理システムに発行する。ステップ6から、動作パラメータを発行して有効になるまでが1回の反復である。DQNアルゴリズムの収束条件が満たされるまで、ステップ6に戻って繰り返し、反復する。
【0089】
ステップ8、収束するまで反復すると、反復において報酬を計算したりニューラルネットワークのパラメータを変更したりしなくなり、反復においてランダム動作を用いた探索も行われなくなる。各回の反復時に、各エージェントの状態を収集し、訓練されたポリシーネットワークを用いて動作を計算し、平均動作を考慮して発行動作を計算し、ネットワーク管理システムに発行して最適化調整を行う。
【0090】
実例2
ステップ11、サーバを構築し、ネットワーク管理システムに接続し、
図11に示すようなアルゴリズムの各モジュールをサーバ上に配置する。
【0091】
ステップ12、データ収集モジュールはネットワーク管理システムからネットワーク内のすべてのセルの履歴性能データを取得し、領域区分モジュールはすべてのセルの履歴性能データを分析し、問題領域(すなわち第1領域)を区分する。ネットワーク管理システムから問題領域内のすべてのセルのリアルタイム性能データを取得し、また、ネットワーク管理システムから例えばハンドオーバデータ(ハンドオーバ頻度を含む)や設定パラメータなどの他のデータを取得することもできる。本実例で例示する問題領域Bは、12のセルを含み、カバー問題が存在し、一部のユーザの電波が悪く、セルのアンテナのダウンチルト角と送信電力を調整する必要がある。
【0092】
ステップ13、エージェント生成モジュールは、問題領域にカバー問題が存在し、セルのアンテナチルト角と送信電力を調整する必要があるという、領域区分モジュールが出力した結果を取得し、セルをエージェントとして定義し、領域内エージェントリスト(セルリスト)を出力する。また、エージェント生成モジュールはさらに、エージェント間の隣接関係、本実施例ではセル間の隣接関係を計算するが、重複カバレッジと領域区分モジュールが出力した地理的位置情報から計算する。
【0093】
ステップ14、安全ロールバックモジュールは、データ収集モジュールから現在の設定パラメータを取得して保存する。当該領域に対する性能指標の監視を開始し、監視指標は測定報告(MR:Measurement Report)データにおける当該領域内に滞留するユーザのリファレンス信号受信電力(RSRP:Reference Signal Receiving Power)値、ネットワーク管理システム性能データにおける領域内のセルの平均CQI、セルのスループット率を含み、領域性能の悪化が設定された閾値を超えた場合、強化学習による調整を中止し、かつ、記憶されている元の設定パラメータを発行する。
【0094】
ステップ15、強化学習モジュールは、1回目の反復が始まる前に問題シナリオをモデル化する。
【0095】
領域区分モジュールとエージェント生成モジュールが出力した、カバー問題を解決する必要があり、各セルをエージェントとする、という結果を受信する。
【0096】
エージェントの状態にはセル内のユーザの平均RSRP(MRデータ統計に基づく)、セル平均CQI、セルスループット率、セル現在の送信電力、現在のアンテナダウンチルト角が含まれると定義する。
【0097】
エージェントの動作にはセルアンテナダウンチルト角の調節、セル送信電力の調節が含まれると定義する。
【0098】
エージェントの報酬には個体報酬と全体報酬との2つの部分が含まれると定義する。個体報酬には当該エージェント内に滞留するユーザの平均RSRP改善度、セル平均値CQI改善度、セルスループット率の向上幅が含まれ、また、アンテナダウンチルト:セル送信電力増加幅という罰項が含まれる。以上の4つの項は4つの設定可能な係数によってそれぞれの割合が調節される。全体報酬は最適化領域の全体状況を特徴付け、領域内のすべてのユーザの平均RSRP変化、領域内のすべてのセルの平均CQI変化、領域全体のスループット率変化、及び領域全体の送信電力の変化が含まれ、最初の3つの項は報酬を計算するためのもので、送信電力変化は罰値を計算するためのものである。この報酬設計によって、強化学習アルゴリズムは送信電力をできるだけ増大させることなく、領域内のカバー状況を改善する。
【0099】
ステップ16、強化学習モジュールはモデル化が完了した後に、反復訓練を開始する。本実施例において、DQN強化学習アルゴリズムを用いて実現する例を示す。DQNが本実施例を実現するフローを
図8に示す。モデル化部分は既にステップ15で完成した。DQNアルゴリズムは各エージェントに対してそのポリシーニューラルネットワークを初期化する。反復開始後、各回の反復において、各エージェントについて、一定の確率でランダム動作をとり、そうでなければ、そのエージェントの状態に応じてそのポリシーネットワークを通じて最適動作を生成し、そのエージェントの周囲の平均動作を考慮してその発行動作を決定する。平均動作の計算範囲は、エージェント生成モジュールが生成するエージェント間の隣接関係に基づいて決定される。毎回の反復において、一つのエージェントに対して、アルゴリズムは前回の反復状態、前回の反復動作、現在の状態をすべて収集し、その動作報酬を計算し、強化学習の反復訓練に必要な四元集合のデータを得て、それを各エージェントそれぞれの経験ライブラリに追加する。DQNアルゴリズムは、各エージェントの経験ライブラリを用いて、各エージェントのニューラルネットワークに対して経験再生訓練を行う。
【0100】
ステップ17、動作発行モジュールは、強化学習モジュールから出力された動作を受信し、動作データを統合してパラメータテーブルに埋め戻し、かつ、ネットワーク管理システムに発行する。安全ロールバックモジュールから発行されたロールバック命令を受信した場合、動作発行モジュールは強化学習モジュールが生成したすべての動作の発行を停止し、直ちに安全ロールバックモジュールが記憶している元の設定パラメータを発行する。ステップ16とステップ17とは一つの反復であり、DQNアルゴリズムが収束するまでステップ16に戻って反復する。
【0101】
ステップ18、DQNアルゴリズムが収束条件に達した後、反復では訓練を行わなくなる。すなわち、動作を生成する際に、ランダム動作を採用せず、すべての動作は状態に応じてポリシーネットワークを通して平均動作を考慮して生成される最適動作である。また、毎回の反復において、報酬の計算とニューラルネットワークパラメータの更新を行わなくなり、最適動作の発行のみを行う。
【0102】
本開示のもう一つの実施例はネットワーク最適化装置を提案する。
図15に示すように、前記ネットワーク最適化装置はプロセッサ1501とコンピュータ読み取り可能な記憶媒体1502とを含み、前記コンピュータ読み取り可能な記憶媒体1502には命令が記憶されており、前記命令が前記プロセッサ1501により実行された時に上記の何れか一つのネットワーク最適化方法を実現する。
【0103】
図9に示すように、本開示の実施例のネットワーク最適化装置は、ネットワーク管理システムに接続されたサーバ内に設置されていてもよいし、ネットワーク内の独立機器であってもよく、本開示の実施例はネットワーク最適化装置の具体的な存在形態を限定しない。
【0104】
本開示のもう一つの実施例はコンピュータ読み取り可能な記憶媒体を提案する。前記コンピュータ読み取り可能な記憶媒体にはコンピュータプログラムが記憶されており、前記コンピュータプログラムがプロセッサによって実行された時に上記の何れか一つのネットワーク最適化方法のステップを実現する。
【0105】
図10を参照して、本開示のもう一つの実施例はネットワーク最適化装置を提供し、前記ネットワーク最適化装置は、
第1領域内のセルに存在する問題をモデル化してN個のエージェントと、モデル化方法および訓練方法を得るように構成されたモデル化モジュール1001であって、前記第1領域に含まれるセルに存在する問題が同じ問題種類に属するセルの占める割合が既定閾値以上で、含まれるセルの地理的位置が連続しており、かつ、第1領域の輪郭が凸図形であり、Nが1以上の整数であるモデル化モジュール1001と、
各エージェントに対して、モデル化方法と訓練方法とに基づいて前記エージェントの初期モデルを決定し、モデル化方法と訓練方法とに基づいて強化学習方法を用いてエージェントの初期モデルを訓練し、または、エージェントの訓練後のモデルに基づいてエージェントに対応するセルに対してネットワーク最適化を行い、または、モデル化方法と訓練方法とに基づいて前記エージェントの初期モデルを決定し、モデル化方法と訓練方法とに基づいて強化学習方法を用いてエージェントの初期モデルを訓練し、エージェントの訓練後のモデルに基づいてエージェントに対応するセルに対してネットワーク最適化を行うように構成された訓練最適化モジュール1002と、を含む。
【0106】
本開示の実施例において、モデル化モジュール1001は具体的に、
予め設定された問題種類と、モデル化方法と訓練方法との対応関係から、前記第1領域に含まれるセルに存在する問題が属する問題種類に対応するモデル化方法と訓練方法を調べるように構成され、
前記モデル化方法は、前記エージェントの生成方法、前記エージェントの状態の定義方法、前記エージェントの動作の定義方法、前記エージェントの報酬関数の定義方法、及び前記エージェントの動作選択のための初期ポリシーの定義方法を含み、前記訓練方法は、強化学習方法を用いて動作選択のための初期ポリシーを調整する方法を含み、
前記エージェントの生成方法に基づいてN個の前記エージェントを生成する。
【0107】
本開示の実施例において、モデル化モジュール1001はさらに、
ネットワーク内のすべてのセルの履歴性能データを取得し、
各セルについて、前記セルの履歴性能データに基づいて、前記セルが正常セルか問題セルかを判定し、
問題セルに存在する問題が属する問題種類が同じであるセルを同一の第2領域として区分し、
各前記第2領域について、前記第2領域に含まれるセルの地理的位置関係と前記第2領域の輪郭とに基づいて前記第1領域を決定するように構成されている。
【0108】
本開示の実施例において、モデル化モジュール1001は具体的に、以下の何れか一つまたは複数の方法によって、前記の第2領域に含まれるセルの地理的位置関係と前記第2領域の輪郭とに基づいて前記第1領域を決定することを実現するように構成されている。
前記第2領域に含まれるセルの地理的位置が連続しており、かつ、前記第2領域の輪郭が凸図形である場合、前記第2領域を前記第1領域とする。
前記第2領域に含まれるセルの地理的位置が不連続である場合、または前記第2領域の輪郭が凸図形でない場合、前記第1領域に含まれるセルの地理的位置が連続し、かつ前記第1領域の輪郭が凸図形となるように、前記第2領域と前記第2領域に含まれるセル以外の最小数の他のセルを前記第1領域に追加する。
【0109】
本開示の実施例において、モデル化モジュール1001は具体的に、以下の何れか一つまたは複数の方法によってエージェントの生成方法に基づいてN個の前記エージェントを生成することを実現するように構成されている。
前記第1領域内のセルに存在する問題が複数のセル間の協調動作に関係しない場合、前記第1領域内の1つの前記セルを1つの前記エージェントとし、異なる前記セルは異なる前記エージェントに対応し、
前記第1領域内のセルに存在する問題が複数のセル間の協調動作に関係する場合、前記第1領域内の隣接関係を有する1つのセルペアを1つの前記エージェントとして、隣接関係を有する異なるセルペアは異なる前記エージェントに対応する。
【0110】
本開示の実施例において、訓練最適化モジュール1002は具体的に、以下の方法によって、モデル化方法と訓練方法とに基づいて前記エージェントのモデルを決定することを実現するように構成されている。
前記エージェントの動作選択のためのポリシーの定義方法に基づいて前記エージェントの動作選択のためのポリシーを決定し、前記エージェントの動作選択のためのポリシーを前記エージェントのモデルとする。
【0111】
訓練最適化モジュール1002は具体的に、以下の方法によって強化学習方法を用いてエージェントのモデルを訓練することを実現するように構成されている。
i回目の反復において、収束条件を満たさない場合、
第1確率でランダム動作を選択し、前記ランダム動作が前記エージェントの対応するセルで有効になるように前記ランダム動作を発行し、
第2確率で前記エージェントのi回目の反復に対応する性能データと前記エージェントの状態の定義方法に基づいて、前記エージェントのi回目の反復に対応する状態を特定し、前記エージェントの(i-1)回目の反復に対応する状態と、i回目の反復に対応する状態と、前記訓練方法とに基づいて、前記エージェントの(i-1)回目の反復で調整された後のポリシーを調整し、前記エージェントのi回目の反復に対応する状態と、前記エージェントの第1データと、前記エージェントの動作の定義方法とに基づいて、エージェントのi回目の反復に対応する最適動作を計算し、前記エージェントのi回目の反復に対応する最適動作が前記エージェントの対応するセルで有効になるように、エージェントのi回目の反復に対応する最適動作を発行する。
ただし、第1確率と第2確率の和は1で、iは1以上の整数であり、
前記エージェントの第1データは、前記エージェントのi回目の反復で調整された後のポリシー、または、前記エージェントのi回目の反復で調整された後のポリシーと隣接エージェントの平均動作を含む。
【0112】
本開示の実施例において、訓練最適化モジュール1002は具体的に、以下の方法によって前記の(i-1)回目の反復に対応する状態と、i回目の反復に対応する状態と、訓練方法とに基づいて、エージェントの(i-1)回目の反復において調整された後のポリシーを調整するように構成されている。
(i-1)回目の反復に対応する状態と、i回目の反復に対応する状態と、前記エージェントの動作の定義方法とに基づいて、(i-1)回目の反復に対応する報酬関数値を算出し、(i-1)回目の反復に対応する報酬関数値に基づいて、前記エージェントの(i-1)回目の反復で調整された後のポリシーを調整する。
【0113】
本開示の実施例において、訓練最適化モジュール1002はさらに、
前記i回目の反復において、前記エージェントに対応するセルのi回目の反復に対応する性能データが、(i-1)回目の反復に対応する性能データに対して、既定幅を超える劣化を有しない場合、前記第1確率でランダム動作を前記エージェントのi回目の反復に対応する最適動作として選択し、または、第2確率でエージェントのi回目の反復に対応する性能データに基づいてエージェントのi回目の反復に対応する状態を特定するステップを引き続き実行するように構成されている。
【0114】
本開示の実施例において、訓練最適化モジュール1002はさらに、
1回目の反復の前に、前記エージェントに対応するセルの設定パラメータを保存し、
前記i回目の反復において、前記エージェントのi回目の反復に対応する性能データが(i-1)回目の反復に対応する性能データに対して、既定幅を超える劣化を有する場合、前記エージェントに対応するセルの設定パラメータを保存された設定パラメータに戻すように構成されている。
【0115】
本開示の実施例において、訓練最適化モジュール1002は具体的に、以下の方法によって前記のエージェントの訓練後のモデルに基づいてエージェントに対応するセルに対してネットワーク最適化を行うことを実現するように構成されている。
j回目の反復において、前記エージェントのj回目の反復に対応する性能データと前記エージェントの状態の定義方法に基づいて、前記エージェントのj回目の反復に対応する状態を特定し、前記エージェントのj回目の反復に対応する状態と、前記エージェントの第2データと前記エージェントの動作の定義方法とに基づいて、エージェントのj回目の反復に対応する最適動作を計算し、エージェントのj回目の反復に対応する最適動作がエージェントの対応するセルで有効になるように、エージェントのj回目の反復に対応する最適動作を発行する。ただし、jは1以上の整数、または(M+1)以上の整数であり、Mはモデル訓練を行う最大反復回数であり、
前記エージェントの第2データは、前記エージェントの訓練後のポリシー、または、前記エージェントの訓練後のポリシーと隣接エージェントの平均動作を含む。
【0116】
本開示の実施例において、最適化モジュール1002はさらに、
前記j回目の反復において、前記エージェントに対応するセルのj回目の反復に対応する性能データが、(j-1)回目の反復に対応する性能データに対して、既定幅を超える劣化を有しない場合、前記の前記エージェントのj回目の反復に対応する状態と前記エージェントの第2データとに基づいてエージェントのj回目の反復に対応する最適動作を計算するステップを引き続き実行するように構成されている。
【0117】
本開示の実施例において、最適化モジュール1002はさらに、
1回目の反復の前に、前記エージェントに対応するセルの設定パラメータを保存し、
前記j回目の反復において、前記エージェントのj回目の反復に対応する性能データが、(j-1)回目の反復に対応する性能データに対して、既定幅を超える劣化を有する場合、前記エージェントに対応するセルの設定パラメータを保存された設定パラメータに戻すように構成されている。
【0118】
上記のネットワーク最適化装置の具体的な実現過程は、前述の実施例のネットワーク最適化方法の具体的な実現過程と同様なので、ここでは説明を省略する。
【0119】
一つの例示的な実例において、
図11に示すように、本開示の実施例のネットワーク最適化装置には以下のことが含まれる。
(1)本開示はマルチエージェントの強化学習に基づいて無線ネットワークのパラメータ最適化を行い、主なプログラムはサーバに配置されている。ネットワーク管理システムからリアルタイムネットワーク管理性能データを取得し、最適化動作を生成してネットワーク管理システムに発行し、配置構造は
図9に示されている。
【0120】
(2)本開示の実施例のネットワーク最適化装置に含まれる主なモジュールは、
図11に示すように、データ収集モジュール、エージェント生成モジュール、領域区分モジュール、強化学習モジュール、動作発行モジュール、および安全ロールバックモジュールである。その中で、強化学習モジュールは本アルゴリズムの中核である。
【0121】
(3)データ収集モジュールはアルゴリズム全体の入力であり、当該モジュールはネットワーク管理システムからデータを取得し(データのソースはネットワーク管理システムに限定されなくてもよい)、他のモジュールにデータを提供する。セル性能データ、ハンドオーバデータ、設定パラメータなどのデータが含まれる。
【0122】
(4)領域区分モジュールは自己最適化対象領域を区分する役割を果たす。既存ネットワークのセル数は非常に膨大であるため、すべてのセルに対してすべての自己最適化訓練を行うと計算オーバーヘッドが膨大になり、その必要もない。領域区分モジュールは、無線ネットワークから問題が存在する領域を区分する役割を果たす。後続の強化学習に基づく自己最適化アルゴリズムは、領域区分モジュールが出力する問題領域内で行われる。
【0123】
このモジュールのプロセスは、履歴データのまとめ、根本原因分析、地理的位置分析の3つの主なステップに分けられる。まず、履歴データのまとめにおいて、ネットワーク内の各セルの履歴データを収集して保存し、つぎに、根本原因分析において、各セルの履歴データに基づいて、すべてのセルを問題セルと正常セルに分けて、かつ、問題セルを問題種類ごとに分類し、例えば、容量問題セル、カバー問題セルなどに分け、根本原因分析部分は既存ネットワークにおける既存の根本原因分析法を再利用することができる(他の根本原因分析法を選択してもよい)。そして、地理的位置分析において、問題セルの種類と位置分布とに基づいて、地図と結び付けて問題領域を区分し、区分された問題領域は地理的に連続していることが要求される。
図5(a)と
図5(b)に示すように、セル1、2、3、4、5、6は地理的に近接しており、セル3、4、5、6に容量問題が存在する場合、問題領域は、問題領域の地理的位置が連続するように、Aのようにセル1とセル2を含めて区分すべきであり、Bのように区分して領域を地理的に不連続にすべきではない。領域区分モジュールは最終的に、問題領域と、問題領域の根本原因分析結果を出力する。領域区分モジュールは問題領域を突き止めて、強化学習自己最適化の範囲を狭め、不要な訓練による時間と計算オーバーヘッドを減らすことができる。
【0124】
(5)エージェント生成モジュールはエージェントを生成する役割を果たす。エージェント生成モジュールは、データ収集モジュールが出力したネットワーク管理データと領域区分モジュールが出力した問題領域及びそれに存在する問題を取得する。エージェント生成モジュールは、問題領域に存在する問題に基づいて、セルまたはセルペアをエージェントとして選択する。問題領域に存在する問題が複数のセル間の協調動作に関係する場合、セルペアをエージェントとして使用し、問題領域に存在する問題が複数のセル間の協調動作に関係しない場合、セルをエージェントとして使用する。セルをエージェントとして使用する場合、エージェント生成モジュールが出力するエージェントは問題領域に含まれるセルであり、セルペアをエージェントとして使用する場合、エージェント生成モジュールが出力するエージェントは問題領域に含まれるセルペアである。それぞれセル、セルペアをエージェントとした場合のエージェント間の関係は
図2(a)、
図2(b)に示されている。それから、エージェント生成モジュールは、セルの位置情報、セルハンドオーバ関係、パラメータ設定などのデータに基づいて、各セル間の隣接関係を計算し、セルペアリストを生成する。
【0125】
(6)(オプション)安全ロールバックモジュールはアルゴリズムの安全対策である。アルゴリズムの実行が開始され、1回目の調整が行われる前に、安全ロールバックモジュールはアルゴリズムに関連するすべてのネットワーク管理設定パラメータを記録して保存する。アルゴリズムの反復調整プロセスにおいて、安全ロールバックモジュールは最適化領域の性能パラメータに継続的に注目し、既定幅を超える性能劣化が発生した場合、安全ロールバックモジュールは最適化領域の最適化動作発行を終止し、当該領域の設定パラメータを保存された調整前の設定パラメータに戻す。強化学習アルゴリズムは、新しい動作を探索することでネットワークを悪く調整してしまう可能性があり、安全ロールバックモジュールは、ネットワークの性能に閾値を超える劣化が発生した場合に、すぐにネットワークの元の状態に戻すことができる。
【0126】
(7)強化学習モジュールは本方法の中核となるモジュールである。強化学習モジュールの2つの主要なステップはそれぞれ、問題領域に対してマルチエージェントモデル化を行うことと、領域内のすべてのエージェントに対して反復訓練を行うことである。
【0127】
強化学習モジュールはまず、領域区分モジュールの出力を受信し、一つの問題領域(いくつかのセルを含む)と、その問題領域に存在する問題を得て、その領域の主な問題に基づいて自己最適化の対象を決定する。強化学習モジュールは、領域区分モジュールから自己最適化の対象セルリストを取得し、エージェント生成モジュールから、セルまたはセルペアをエージェントとすることと、エージェントリストとを含むエージェント情報を取得する。領域内のすべてのセルペアが共同でマルチエージェントを構成するシナリオにおいて、エージェントを定義した後、強化学習モジュールは問題種類に応じてエージェントの状態、調整動作、報酬関数を定義する。
【0128】
マルチエージェント強化学習のシナリオは
図12に示されている。各回の反復において、アルゴリズムはリアルタイムのネットワーク管理性能データを取得し、各エージェントはその中から本エージェントの性能データを取得し、状態の定義に従って性能データに基づいて本エージェントの現在の状態を識別する。本アルゴリズムでは、マルチエージェント間の動作と状態が互いにとって可視であり、各エージェントは、エージェント間の隣接関係に基づいて、本エージェントに隣接するすべてのエージェントの動作を調べ、平均場理論に基づいて隣接エージェントの平均動作を計算する。平均動作の計算範囲は
図3に示されている。各エージェントは、自身のポリシーに基づいて、自身の状態および周囲の平均動作に基づいて、現在の最適動作を計算し、動作データを動作発行モジュールに出力する。アルゴリズムは、パラメータが発行された後もエージェントの状態変化に注目し続け、報酬を計算する方法で発行された動作を評価し、それに基づいてエージェントの動作を選択するポリシーを修正する。
図13は、各エージェントが1回の反復内の様子である。
【0129】
セルペアをエージェントとする場合、エージェントの報酬を計算するには比例係数を参照する必要がある。あるセルペア内の2つのセルの性能状態の変化はすべてそのエージェントの動作によるものではなく、隣接する他のエージェントの動作の影響をも受けるため、隣接エージェントの数、平均動作、および自身の動作幅に基づいて比例係数、すなわちセルの性能状態の変化におけるそのエージェントの動作結果の占める割合を算出する。例を挙げて以下のように説明する。負荷均衡化の自己最適化を行う場合、動作はセル間のハンドオーバパラメータを調節するものであり、セルペアをエージェントとし、1回の反復においてセルペア1-2とそれに隣接するエージェントの動作方向および幅は
図8に示すとおりであり、セル1のユーザは他のセルにオフロードされ、セル2が隣接セルからオフロードされたユーザを受け入れる場合、セル1の性能指標変化においてセルペア1ー2の動作による割合はR
1-2/1であり、その計算方法は次のとおりである。
【数11】
【0130】
すなわち、セル1の状態変化のうち、0.25の割合はセルペア1-2の動作によるものである。同様にセル2の状態変化におけるセルペア1-2の動作による割合を算出し、さらにセルペア1-2の動作による報酬関数値、すなわちセル1の状態変化におけるセルペア1-2の動作による割合とセル2の状態変化におけるセルペア1-2の動作による割合の和を算出することができる。
【0131】
図8は、DQN強化学習アルゴリズムを用いて上記のマルチエージェント強化学習を実現するフローチャートである(他の強化学習アルゴリズムを用いてもよい)。
図8に示すように、フローはマルチエージェントモデル化(
図8の前半のフロー)と、強化学習反復訓練(
図8の繰り返し部分のフロー)の2つの主な部分に分けることができる。このアルゴリズムでは、各エージェントは決定するための1つのニューラルネットワークを維持し、ニューラルネットワークのパラメータを更新することで動作選択のポリシーを最適化する。このような強化学習アルゴリズムを用いて実現する場合、強化学習モジュールはオンライン推論モジュール、経験プール、オフライン訓練モジュール、永続化モジュールなどいくつかのサブモジュールを含み、そのアーキテクチャ図は
図14に示されている。このうち、オンライン推論モジュールは、各エージェントのポリシーに従って推論し、報酬も含めて記録を経験プールに保存する。オフライン訓練モジュールは、
図12で説明したシナリオに従って、
図4で説明した反復プロセスに従って各エージェントを反復して訓練し、永続化モジュールを通してパラメータが更新されたエージェントをオンライン推論モジュールに更新する。
【0132】
(8)動作発行モジュールは主にパラメータをネットワーク管理システムに発行する役割を果たす。
図11に示すように、動作発行モジュールは強化学習モジュールの出力と安全ロールバックモジュールの出力を受信する。動作発行モジュールが発行するパラメータは大きく分けて二つの種類があり、一つ目は正常な強化学習が反復して発行する動作パラメータで、このような発行は毎回の反復で行われる。二つ目は、安全ロールバックモジュールから発行されたパラメータである。安全ロールバックモジュールは、調整領域のネットワーク管理性能指標の劣化が既定閾値を超えたことを検出すると、調整前に記憶したすべてのネットワーク管理設定パラメータを動作発行モジュールに出力して発行させ、調整エリアのすべてのネットワーク管理設定パラメータを調整前の状態にロールバックする。
【0133】
本開示の実施例は以下のことを含む。第1領域内のセルに存在する問題をモデル化してN個のエージェントと、モデル化方法および訓練方法を得るステップであって、前記第1領域に含まれるセルに存在する問題が同じ問題種類に属するセルの占める割合が既定閾値以上で、含まれるセルの地理的位置が連続しており、かつ、第1領域の輪郭が凸図形であり、Nが1以上の整数であるステップと、各エージェントに対して、モデル化方法と訓練方法とに基づいて前記エージェントの初期モデルを決定し、モデル化方法と訓練方法とに基づいて強化学習方法を用いてエージェントの初期モデルを訓練し、または、エージェントの訓練後のモデルに基づいてエージェントに対応するセルに対してネットワーク最適化を行い、または、モデル化方法と訓練方法とに基づいて前記エージェントの初期モデルを決定し、モデル化方法と訓練方法とに基づいて強化学習方法を用いてエージェントの初期モデルを訓練し、エージェントの訓練後のモデルに基づいてエージェントに対応するセルに対してネットワーク最適化を行うステップとを含む。本発明の実施例は、モデル化によってN個のエージェントを得て、異なるエージェントに対してそれぞれ異なる訓練および/またはネットワーク最適化を行うことで、マルチエージェントを用いて異なるセル(すなわち異なる機器)の訓練および/またはネットワーク最適化を実現し、それぞれのエージェントが様々な状況で自身の実際の状況に最も合った自己最適化調整を行うことができるようにし、全体的な自己最適化効果を高める。
【0134】
当業者であれば、上記で開示された方法のすべてまたはいくつかのステップ、システム、装置内の機能モジュール/ユニットは、ソフトウェア、ファームウェア、ハードウェア、及びそれらの適切な組み合わせとして実施できることを理解できるであろう。ハードウェアによる実施形態では、上記説明で言及された機能モジュール/ユニット間の区分は、物理的組立体の区分に必ずしも対応しているとは限らず、例えば、一つの物理的組立体は複数の機能を有することができ、または、一つの機能またはステップはいくつかの物理的組立体によって協働して実行されることができる。いくつかの組立体またはすべての組立体は、デジタルシグナルプロセッサまたはマイクロプロセッサのようなプロセッサによって実行されるソフトウェアとして、或いはハードウェアとして、或いは特定用途向け集積回路のような集積回路として実施することができる。そういったソフトウェアは、コンピュータ読み取り可能な媒体上に分散することができ、コンピュータ読み取り可能な媒体はコンピュータ記憶媒体(または非一時的な媒体)及び通信媒体(または一時的な媒体)を含むことができる。コンピュータ記憶媒体という用語は、情報(コンピュータ読み取り可能な命令、データ構造、プログラムモジュール又は他のデータ)を記憶するための任意の方法または技術において実現される、揮発性及び不揮発性、取り外し可能及び取り外し不可能な媒体を含むことは、当業者にとって周知のことである。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)または他の光ディスク記憶装置、磁気カートリッジ、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、または所望の情報を記憶するために使用することができ、コンピュータによってアクセスすることができる任意の他の媒体を含むが、これらに限定されない。さらに、通信媒体は通常、計算機読み取り可能な命令、データ構造、プログラムモジュール、または搬送波または他の伝送メカニズムのような変調データ信号中の他のデータを含み、任意の情報伝送媒体を含むことができることは、当業者にとって周知のことである。
【0135】
本開示の実施の形態に開示された実施の形態は以上の通りであるが、上記の内容は本開示の実施例の理解を容易にするために採用された実施の形態であり、本開示の実施例を限定するためのものではない。本開示の実施例が属する分野の当業者であれば、本開示の実施例によって明らかにされた精神と範囲を逸脱することなく、実施の形態及び詳細に任意の修正及び変更を加えることができるが、本開示の実施例の特許保護の範囲は、添付された特許請求の範囲によって定められる範囲に準じなければならない。