IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 中興通訊股▲ふん▼有限公司の特許一覧

特許7436747OTNネットワークリソース最適化方法および装置、コンピュータデバイスと記憶媒体
<>
  • 特許-OTNネットワークリソース最適化方法および装置、コンピュータデバイスと記憶媒体 図1
  • 特許-OTNネットワークリソース最適化方法および装置、コンピュータデバイスと記憶媒体 図2
  • 特許-OTNネットワークリソース最適化方法および装置、コンピュータデバイスと記憶媒体 図3
  • 特許-OTNネットワークリソース最適化方法および装置、コンピュータデバイスと記憶媒体 図4
  • 特許-OTNネットワークリソース最適化方法および装置、コンピュータデバイスと記憶媒体 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-13
(45)【発行日】2024-02-22
(54)【発明の名称】OTNネットワークリソース最適化方法および装置、コンピュータデバイスと記憶媒体
(51)【国際特許分類】
   H04L 41/0823 20220101AFI20240214BHJP
   H04L 41/142 20220101ALI20240214BHJP
【FI】
H04L41/0823
H04L41/142
【請求項の数】 14
(21)【出願番号】P 2023504457
(86)(22)【出願日】2021-08-06
(65)【公表番号】
(43)【公表日】2023-08-15
(86)【国際出願番号】 CN2021111209
(87)【国際公開番号】W WO2022042262
(87)【国際公開日】2022-03-03
【審査請求日】2023-01-20
(31)【優先権主張番号】202010899413.3
(32)【優先日】2020-08-31
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】511151662
【氏名又は名称】中興通訊股▲ふん▼有限公司
【氏名又は名称原語表記】ZTE CORPORATION
【住所又は居所原語表記】ZTE Plaza,Keji Road South,Hi-Tech Industrial Park,Nanshan Shenzhen,Guangdong 518057 China
(74)【代理人】
【識別番号】100112656
【弁理士】
【氏名又は名称】宮田 英毅
(74)【代理人】
【識別番号】100089118
【弁理士】
【氏名又は名称】酒井 宏明
(72)【発明者】
【氏名】王大江
(72)【発明者】
【氏名】叶友道
(72)【発明者】
【氏名】王振宇
【審査官】和平 悠希
(56)【参考文献】
【文献】特開2019-169804(JP,A)
【文献】特開2018-207180(JP,A)
【文献】特開2017-158050(JP,A)
【文献】国際公開第2020/001220(WO,A1)
【文献】国際公開第2019/229801(WO,A1)
【文献】米国特許出願公開第2019/0138948(US,A1)
【文献】中国特許出願公開第110458429(CN,A)
【文献】中国特許出願公開第103051565(CN,A)
【文献】中国特許出願公開第101909223(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04L 12/00-12/66
H04L 41/00-101/695
(57)【特許請求の範囲】
【請求項1】
動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、1つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、
予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、
前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定するステップと、
各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新するステップと、を含む
OTNネットワークリソース最適化方法。
【請求項2】
各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新する前記ステップは、
次の業務生成状態後の各業務生成状態でのスポットボーナスに基づいて現在の業務生成状態での予期リターンを計算するステップと、
前記現在の業務生成状態での予期リターンに基づいて現在の業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、を含む
請求項1に記載の方法。
【請求項3】
【請求項4】
各ラウンドにおける最後の業務生成状態での予期リターンは前記ラウンドの実際の総リターンであり、前記方法はさらに、
各ラウンドにおける最後の業務生成状態での実際の総リターンを計算した後、各ラウンドにおける最後の業務生成状態での最適化目標ポリシーパラメータを計算する前に、前記実際の総リターン、予め設定された閾値と予め設定された規定外のリターンに基づいて前記実際の総リターンを更新するステップを含み、
実際の総リターンが前記閾値以上であれば、実際の総リターンは実際の総リターンと前記規定外のリターンとの和に等しく、実際の総リターンが前記閾値よりも小さければ、実際の総リターンは実際の総リターンと前記規定外のリターンとの差に等しい
請求項2に記載の方法。
【請求項5】
【請求項6】
【請求項7】
【請求項8】
動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定する前記ステップは、
現在の業務生成状態で各生成対象業務を選択する確率を計算するステップと、
前記現在の業務生成状態で各生成対象業務を選択する確率に基づいて1つの生成対象業務を確定するステップと、
予め設定されたOTNネットワーク最適化目標関数に基づいて、確定された生成対象業務の候補ルートを配列させるステップと、
前記配列における候補ルートの数に基づいて、前記配列における各候補ルートの選択確率をそれぞれ計算するステップと、
前記配列における各候補ルートの選択確率に基づいて1つの候補ルートを確定し、現在の業務生成状態での生成対象業務のルートとするステップと、を含む
請求項1~7のいずれか1項に記載の方法。
【請求項9】
【請求項10】
前記OTNネットワーク最適化目標関数は、OTNネットワーク業務ルートコストが最小であるかまたはOTNネットワーク業務の遅延が最短であることを含む
請求項8に記載の方法。
【請求項11】
【請求項12】
第1処理モジュール、第2処理モジュール、更新モジュールを含み、
前記第1処理モジュールは、動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、1つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新し、予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新するように配置され、
前記第2処理モジュールは、前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定するように配置され、
前記更新モジュールは、各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新するように配置される
OTNネットワークリソース最適化装置。
【請求項13】
1つまたは複数のプロセッサと、
1つまたは複数のプログラムが記憶されている記憶装置と、を含み、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサにて実行される時、前記1つまたは複数のプロセッサに請求項1~11のいずれか1項に記載のOTNネットワークリソース最適化方法を実現させる
コンピュータデバイス。
【請求項14】
コンピュータプログラムが記憶されており、前記コンピュータプログラムが実行される時、請求項1~11のいずれか1項に記載のOTNネットワークリソース最適化方法を実現する
コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2020年8月31日に提出された中国特許出願No.202010899413.3の優先権を主張し、当該中国特許出願の内容を参照により本願に援用する。
【0002】
本公開は自動制御技術分野に関わり、具体的にOTNネットワークリソース最適化方法および装置、コンピュータデバイスとコンピュータ可読記憶媒体に関するものである。
【背景技術】
【0003】
人工知能技術の発展に伴い、強化学習技術の応用はますます各分野と業界に幅広く重視されている。強化学習(Reinforcement Learning)は、再励起学習、評価学習とも呼ばれ、重要な機械学習方法であり、知能制御ロボットやネットワーク分析予測などの分野に多くの応用がある。接続主義機械学習流派では、学習アルゴリズムを教師なし学習(unsupervised learning)、教師あり学習(supervised leaning)、強化学習という3つの類型に分類する。
【発明の概要】
【発明が解決しようとする課題】
【0004】
強化学習はエージェント(Agent)が「試行錯誤」という方式で学習し、環境との相互作用により獲得する奨励指導行為であり、目標はエージェントに最大の奨励を獲得させることである。強化学習は接続主義学習における教師あり学習とは異なり、主に強化信号に現れ、強化学習において環境により提供される強化信号は動作発生の良否を評価するものであり(通常はスカラー信号である)、強化学習システム(Reinforcement Learning System,RLS)に正しい動作を如何に生成するかを教えるのではない。外部環境から提供される情報は少ないため、RLSは自身の経験に基づいて学習しなければならず、このような方法により、RLSは行動-評価という環境において知識を得て、環境に適応するように行動案を改善する。
【0005】
近年、強化学習という技術の応用と普及に伴い、どのように当該技術の利点をOTN(Optical Transport Network、光伝送ネットワーク)ネットワークのインテリジェント化管理制御と運営・メンテナンスの分野に応用するか、特に強化学習のOTNネットワークリソース最適化における応用がOTN分野の専門家に広く注目されている。
【課題を解決するための手段】
【0006】
1つの態様において本公開の実施例は、動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、1つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定するステップと、各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新するステップと、を含むOTNネットワークリソース最適化方法を提供する。
【0007】
もう1つの態様において、本公開の実施例は、第1処理モジュール、第2処理モジュール、更新モジュールを含み、前記第1処理モジュールは、動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、1つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新し、予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新するように配置され、前記第2処理モジュールは、前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定するように配置され、前記更新モジュールは、各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新するように配置されるOTNネットワークリソース最適化装置をさらに提供する。
【0008】
もう1つの態様において本公開の実施例は、1つまたは複数のプロセッサと、1つまたは複数のプログラムが記憶されている記憶装置と、を含み、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサにて実行される時、前記1つまたは複数のプロセッサに上述のOTNネットワークリソース最適化方法を実現させるコンピュータデバイスをさらに提供する。
【0009】
もう1つの態様において、本公開の実施例は、コンピュータプログラムが記憶されており、前記コンピュータプログラムが実行される時、上述のOTNネットワークリソース最適化方法を実現するコンピュータ可読記憶媒体をさらに提供する。
【図面の簡単な説明】
【0010】
図1図1は本公開の実施例が提供するSDONアーキテクチャでの全ネットワークリソース最適化の概念図である。
図2図2は本公開の実施例が提供するOTNネットワークリソース最適化のフロー概念図である。
図3図3は本公開の実施例が提供する、最適化目標ポリシーパラメータを計算するフロー概念図である。
図4図4は本公開の実施例が提供する、現在の業務生成状態での生成対象業務を確定するフロー概念図である。
図5図5は本公開の実施例が提供するOTNネットワークリソース最適化装置の構造概念図である。
【発明を実施するための形態】
【0011】
以下では図面を参考にして例示的な実施例をより十分に説明するが、例示的な実施例は、異なる形式で体現することができ、本文で述べた実施例に限定されると解釈すべきではない。これらの実施例を提供する目的は、本公開を詳らかにかつ完全にし、当業者に本公開の範囲を十分に理解させることである。
【0012】
本文で使用する「および/または」という用語は1つまたは複数の関連列挙項目のいずれかとすべての組み合わせを含む。
【0013】
本文で使用する用語は特定の実施例を説明するためのものにすぎず、本公開を限定することを意図するものではない。前後の文で特に明瞭に指摘しない限り、本文で使用する「1つ」および「当該」という単数形も複数形を含むことを意図している。また、本明細書で「含む」および/または「……によって形成される」という用語を使用する場合は、特定の特徴、実体、ステップ、操作、部材および/または構成要素が存在するが、1つまたは複数の他の特徴、実体、ステップ、操作、部材、構成要素および/またはそのグループの存在または追加を排除しないということを示す。
【0014】
本文に記載の実施例は、本公開の理想的な概略図を用いて平面図および/または断面図を参照して説明することができる。したがって、製造技術および/または許容範囲に基づいて例示的な図面を修正することができるため、実施例は図面に示す実施例に限らず、製造プロセスに基づいて形成された配置修正を含む。よって、図面に例示された領域は概略的な属性を有し、図面に示された領域の形状は部材の領域の具体的な形状を例示しているが、限定することを意図しない。
【0015】
特に限定しない限り、本文で使用するすべての用語(技術と科学用語を含む)の意味は、当業者が通常理解しているものと同じである。例えば、常用辞書において限定されているような用語は、その関連技術および本公開の背景での意味と一致する意味を有すると解釈されるべきであり、本文が明確にそのように限定しない限り、理想化されたものまたは過度な形式上の意味を有すると解釈されないとも理解される。
【0016】
SDON(Software Defined Optical Network、ソフトウェアにより定義された光ネットワーク)アーキテクチャに基づく全ネットワークリソース最適化(Global Co-current Optimization, GCO)方案は図1に示す通りであり、GCOの主な目的は、OTNネットワークリソースの分配過程において、OTNネットワーク業務の開通に対して計画または一括生成を行う際に、各業務ルーティングとリソースの分配が阻害されるのを回避することを前提として、各業務が計算により得たルートとリソース占有の総和は、ユーザ(ネットワークサービスオペレータ)のネットワーク業務全体に対する既定のリソース分配の最適化目標を最大限満たす必要がある。全ネットワークリソース最適化技術によりユーザの運行維持コストCAPEX(資本的支出)/OPEX(運営コスト)を最大限低減し、運行維持収益を高め、伝送性能と品質を最適化することができ、このことはユーザネットワーク運営の経済効果に直接関わるため、当該技術はユーザの高度な重視を得ており、如何にしてOTNネットワークリソースの最適化を実現するかは意義が大きい。
【0017】
OTNネットワーク業務の配置では通常、運営の需要に応じて各業務へ対応するOTNネットワークリソース(例えば、帯域幅、スペクトル、波長、変調フォーマット、ルートなど)を分配して、業務全体の指定された最適化ポリシーでのリソース最適化を満たす必要がある。最適化ポリシーは、業務全体の遅延が最短であること、ルートコストが最小であることなどを含む。同時に、運営収益の最大化、業務性能の最適化、最低限のCAPEX/OPEX投入などの点から考慮すると、OTN業務運営は既定の最適化ポリシーをめぐって、OTNネットワーク業務のネットワークリソース使用上の全体最適化を満たす必要もあり、例えば、OTNネットワーク業務の遅延が最小であり、OTNネットワークルートコストが最小であり、またはOTNネットワーク業務の帯域幅利用率が最高であるなどの事項を含む。このことは、OTNネットワーク業務が生成過程において、自らの業務リソースの最適化を満たす必要があるとともに、すべての業務の生成順序を編成することで、業務のOTNネットワークリソースの使用に対するグローバル最適化を満たす必要がある。
【0018】
OTNネットワーク業務の生成過程は通常、同時生成、即ち、ある時点で複数の業務を一括生成するという方法を用い、業務生成過程は実際のところすべての業務の生成順序を確定するものであって、OTNネットワーク業務の生成順序はOTNネットワークリソースに対する占用形態とOTNネットワークリソース分配の最適化状態を決定する。OTNネットワーク業務に対する生成順序を業務生成編成ポリシー(即ち、動作ポリシー)と呼び、良好な業務生成編成ポリシーは、OTNネットワーク業務のネットワークリソース使用に対する最適化ポリシーを満たすことができる。
【0019】
初期化段階では、OTNネットワークトポロジ構造(mesh、星型などの構造類型を含む)の環境条件に基づいてOTN業務をn個生成し、ネットワーク環境状態、動作空間、動作最適化目標ポリシー、動作ポリシーを初期化する。強化学習アルゴリズムの関連パラメータは以下のように定義される。
【0020】
【0021】
【0022】
【0023】
【0024】
【0025】
【0026】
【0027】
【0028】
【0029】
【0030】
【0031】
【0032】
【0033】
【0034】
【0035】
【0036】
【0037】
【0038】
3.ラウンド(Episode)を定義する
ある動作ポリシーを用いて、OTNネットワーク業務の順次生成を完了し、1つのEpisodeと定義される。
【0039】
【0040】
【0041】
本公開の実施例はOTNネットワークリソース最適化方法を提供し、図2に示すように、前記方法は以下のステップS11~S14を含む。
【0042】
ステップS11:動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、1つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新する。
【0043】
本ステップでは、1つのラウンドにおいて、動作ポリシーに基づいて生成対象業務を確定し(当該生成対象業務のルートの確定を含む)、当該生成対象業務を生成した後、当該業務生成状態でのスポットボーナスを計算し、現在の業務生成状態が終了し、次の業務生成状態に移行する。上記ステップに従って、1つのラウンドにおける各業務生成状態に対して生成対象業務をそれぞれ生成して、1つのラウンドが終わるまで対応する業務生成状態でのスポットボーナスを計算し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新する。
【0044】
本ステップでは、異なるアルゴリズムを用いて最適化目標ポリシーパラメータを計算、更新することができる。なお、用いるアルゴリズムが異なるため、最適化目標ポリシーパラメータも異なり、後続にて各種アルゴリズムについて詳細に説明する。
【0045】
ステップS12:予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新する。
【0046】
本ステップでは、ステップS11を繰り返して実行し、予め設定された数のラウンドを反複することで、各ラウンドにおける各業務生成状態での最適化目標ポリシーパラメータを計算、更新する。
【0047】
ステップS13:前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定する。
【0048】
本ステップでは、各業務生成状態に対して異なるラウンドの最適化目標ポリシーパラメータから当該業務生成状態での最適な最適化目標ポリシーパラメータを確定する。なお、用いるアルゴリズムが異なるため、最適な最適化目標ポリシーパラメータの確定方式も異なる。本ステップを経て、OTNネットワークのすべての生成対象業務に対応するすべての業務生成状態での最適な最適化目標ポリシーパラメータが得られる。
【0049】
ステップS14:各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新する。
【0050】
【0051】
本公開の実施例が提供するOTNネットワークリソース最適化方法は、動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、1つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定するステップと、各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新するステップと、を含み、本公開の実施例は強化学習アルゴリズムの賞罰メカニズムを利用してOTNネットワーク業務生成の順序を最適化し、得られた動作ポリシーは収束性が好ましく、厳密性と信頼性が高く、OTNネットワークリソースの最適化の問題をOTNネットワーク業務生成順序の問題に帰結し、最適化された動作ポリシーを得ることにより、OTNネットワークリソースのグローバル最適化を実現する。
【0052】
【0053】
一部の実施の形態では、図3に示すように、前記の各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップは以下のステップS21、S22を含む。
【0054】
ステップS21:次の業務生成状態後の各業務生成状態でのスポットボーナスに基づいて現在の業務生成状態での予期リターンを計算する。
【0055】
【0056】
なお、最後の業務生成状態での予期リターンは、当該業務生成状態でのスポットボーナスである。
【0057】
ステップS22:前記現在の業務生成状態での予期リターンに基づいて現在の業務生成状態での最適化目標ポリシーパラメータを計算して更新する。
【0058】
ステップS21~S22により、強化アルゴリズムの賞罰メカニズムを用いて最適化目標ポリシーパラメータの最適化を実現する。
【0059】
【0060】
【0061】
一部の実施の形態では、図4に示すように、前記動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定するステップは、以下のステップS31~S35を含む。
【0062】
ステップS31:現在の業務生成状態で各生成対象業務を選択する確率を計算する。
【0063】
【0064】
ステップS32:前記現在の業務生成状態で各生成対象業務を選択する確率に基づいて生成対象業務を確定する。
【0065】
なお、強化学習のexploration(探索)構想に基づき、生成対象業務の選択についてはポリシーのランダム性に従う。
【0066】
ステップS33:予め設定されたOTNネットワーク最適化目標関数に基づいて、確定された生成対象業務の候補ルートを配列させる。
【0067】
前記OTNネットワーク最適化目標関数は、OTNネットワーク業務ルートコストが最小であること、またはOTNネットワーク業務遅延が最短であることを含む。
【0068】
選択される生成対象業務の候補ルートの選択については、貪欲なポリシー(greedy)の原則に従い、すべての候補ルートはOTNネットワーク最適化目標関数に従って配列する。例えば、OTNネットワーク最適化目標関数はルートコストが最小であるというものであれば、ルートコストが最小であるというポリシーに基づいて、KSP(K最適経路アルゴリズム)+RWA(ルート波長分配アルゴリズム)+RSA(非対称暗号アルゴリズム)から確定した生成対象業務のすべての候補ルートを、それぞれのルートコストの小さいものから大きいものへという順で配列する。
【0069】
ステップS34:前記配列における候補ルートの数に応じて前記配列における各候補ルートの選択確率をそれぞれ計算する。
【0070】
【0071】
ステップS35:前記配列における各候補ルートの選択確率から1つの候補ルートを確定し、現在の業務生成状態での生成対象業務のルートとする。
【0072】
【0073】
【0074】
【0075】
【0076】
【0077】
以下では、モンテカルロアルゴリズム、Q-Learningアルゴリズム、SASAアルゴリズム、動的計画法がOTNネットワークリソース最適化を実現する過程についてそれぞれ説明する。
【0078】
(1)探索性初期化モンテカルロアルゴリズムを用いてOTNネットワークリソース最適化を実現する処理過程は以下の通りである。
【0079】
【0080】
【0081】
以下の処理を重複循環(repeat)する。
【0082】
【0083】
(2)Q-Learning(即ち、異なるポリシーのTD-Error)アルゴリズムを用いてOTNネットワークリソース最適化を実現する処理過程は以下の通りである。
【0084】
【0085】
各Episodeに対して以下の処理を循環重複(Repeat)する。
【0086】
【0087】
【0088】
【0089】
(3)SARSA(即ち、同一ポリシーのTD-Error)アルゴリズムを用いてOTNネットワークリソース最適化を実現する処理過程は以下の通りである。
【0090】
【0091】
【0092】
(4)ポリシーに基づいて反復する動的計画法を用いてOTNネットワークリソース最適化を実現する処理過程は以下の通りである。
【0093】
ステップ1:ネットワークトポロジ環境全体を初期化する。
【0094】
【0095】
ステップ2:ポリシーを評価する。
【0096】
【0097】
以下の処理を循環重複(Repeat)する。
【0098】
【0099】
【0100】
【0101】
同一の技術思想に基づき、本公開の実施例はOTNネットワークリソース最適化装置をさらに提供する。図5に示すように、前記OTNネットワークリソース最適化装置は、第1処理モジュール101、第2処理モジュール102、更新モジュール103を含む。
【0102】
第1処理モジュール101は動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成し、現在の業務生成状態でのスポットボーナスを計算して、1つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新し、予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新するように配置される。
【0103】
第2処理モジュール102は前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定するように配置される。
【0104】
更新モジュール103は各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新するように配置される。
【0105】
一部の実施の形態において、第1処理モジュール101は次の業務生成状態後の各業務生成状態でのスポットボーナスに基づいて現在の業務生成状態での予期リターンを計算し、前記現在の業務生成状態での予期リターンに基づいて現在の業務生成状態での最適化目標ポリシーパラメータを計算して更新するように配置される。
【0106】
【0107】
一部の実施の形態において、各ラウンドにおいて最後の業務生成状態での予期リターンは前記ラウンドの実際の総リターンであり、第1処理モジュール101は各ラウンドにおける最後の業務生成状態での実際の総リターンを計算した後、各ラウンドにおける最後の業務生成状態での最適化目標ポリシーパラメータを計算する前に、前記実際の総リターン、予め設定された閾値と予め設定された規定外のリターンに基づいて前記実際の総リターンを更新するようにさらに配置される。実際の総リターンが前記閾値以上である場合、実際の総リターン=実際の総リターン+前記規定外のリターンであり、実際の総リターンが前記閾値よりも小さい場合、実際の総リターン=実際の総リターン-前記規定外のリターンである。
【0108】
【0109】
【0110】
【0111】
【0112】
【0113】
一部の実施の形態において、第1処理モジュール101は現在の業務生成状態で各生成対象業務を選択する確率を計算し、前記現在の業務生成状態で各生成対象業務を選択する確率に基づいて生成対象業務を確定し、予め設定されたOTNネットワーク最適化目標関数に基づいて、確定された生成対象業務の候補ルートを配列し、前記配列における候補ルートの数に基づいて、前記配列における各候補ルートの選択確率をそれぞれ計算し、前記配列における各候補ルートの選択確率に基づいて1つの候補ルートを確定し、現在の業務生成状態での生成対象業務のルートとするように配置される。
【0114】
【0115】
一部の実施の形態において、前記OTNネットワーク最適化目標関数はOTNネットワーク業務ルートコストが最小であるということ、またはOTNネットワーク業務遅延が最短であるということを含む。
【0116】
【0117】
本公開の実施例は、1つまたは複数のプロセッサと、1つまたは複数のプログラムが記憶されている記憶装置と、を含み、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサにて実行される時、前記1つまたは複数のプロセッサに前記各実施例が提供するOTNネットワークリソース最適化方法を実現させる、コンピュータデバイスをさらに提供する。
【0118】
本公開の実施例は、コンピュータプログラムが記憶されており、当該コンピュータプログラムがプロセッサにて実行される時、前記各実施例が提供するOTNネットワークリソース最適化方法を実現する、コンピュータ可読記憶媒体をさらに提供する。
【0119】
上文で開示した方法のすべてまたは一部のステップ、装置における機能モジュール/手段はソフトウェア、ファームウェア、ハードウェア、およびこれらの適切な組み合わせとして実施することができると当業者は理解できる。ハードウェアの実施形態において、上記の説明で言及した機能モジュール/手段との間の区分は必ずしも物理コンポーネントの区分に対応せず、例えば、1つの物理コンポーネントは複数の機能を有してもよく、あるいは1つの機能またはステップは若干のコンポーネントにより連携して実行することができる。一部の物理コンポーネントまたはすべての物理コンポーネントは、プロセッサ(例えば、中央処理器、デジタル信号処理器またはマイクロプロセッサ)によって実行されるソフトウェアとして実施されるか、またはハードウェアとして実施されるか、あるいは専用集積回路のような集積回路として実施されてよい。このようなソフトウェアは、コンピュータ記憶媒体(または非一時的媒体)と通信媒体(または一時的媒体)とを含むことができるコンピュータ可読媒体に配置することができる。当業者が周知しているように、コンピュータ記憶媒体という用語は、情報(例えば、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータ)を記憶するための任意の方法または技術において実施される揮発性および不揮発性、取り外し可能および取り外し不可能な媒体を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多機能ディスク(DVD)または他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、または所望の情報を記憶するのに用いられ、且つコンピュータにてアクセスされ得る他の任意の媒体を含むが、これらに限らない。このほか、通信媒体は通常、コンピュータ可読命令、データ構造、プログラムモジュール、もしくは搬送波または他の送信メカニズムといった変調データ信号内の他のデータを含み、任意の情報配信媒体を含むことができるということは当業者の公知事項である。
【0120】
本文では例示的な実施の形態を開示し、具体的な用語を採用しているが、これらは一般的な例示的な意味としてのみ使用、解釈すべきであり、かつ限定的な目的のためのものではない。一部の実例では、別途明確に指摘しない限り、特定の実施の形態を組み合わせて説明した特徴、特性および/または元素を単独で使用してもよく、または他の実施の形態を組み合わせて説明した特徴、特性および/または部材を組み合わせて使用してもよいことは、当業者にとって明らかである。したがって、添付の請求項に記載の本公開の範囲を逸脱しない限り、様々な形式および詳細に関する変更を行うことができると当業者は理解できる。
図1
図2
図3
図4
図5