IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ノキア ソリューションズ アンド ネットワークス オサケユキチュアの特許一覧

特開2023-66415無線アクセスネットワークにおける電力節約
<>
  • 特開-無線アクセスネットワークにおける電力節約 図1
  • 特開-無線アクセスネットワークにおける電力節約 図2
  • 特開-無線アクセスネットワークにおける電力節約 図3
  • 特開-無線アクセスネットワークにおける電力節約 図4
  • 特開-無線アクセスネットワークにおける電力節約 図5
  • 特開-無線アクセスネットワークにおける電力節約 図6
  • 特開-無線アクセスネットワークにおける電力節約 図7
  • 特開-無線アクセスネットワークにおける電力節約 図8
  • 特開-無線アクセスネットワークにおける電力節約 図9
  • 特開-無線アクセスネットワークにおける電力節約 図10
  • 特開-無線アクセスネットワークにおける電力節約 図11
  • 特開-無線アクセスネットワークにおける電力節約 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023066415
(43)【公開日】2023-05-15
(54)【発明の名称】無線アクセスネットワークにおける電力節約
(51)【国際特許分類】
   H04W 28/16 20090101AFI20230508BHJP
   H04W 24/02 20090101ALI20230508BHJP
   H04W 16/32 20090101ALI20230508BHJP
   H04W 52/00 20090101ALI20230508BHJP
   H04W 16/04 20090101ALI20230508BHJP
【FI】
H04W28/16
H04W24/02
H04W16/32
H04W52/00
H04W16/04
【審査請求】有
【請求項の数】17
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2022172404
(22)【出願日】2022-10-27
(31)【優先権主張番号】20216111
(32)【優先日】2021-10-28
(33)【優先権主張国・地域又は機関】FI
(71)【出願人】
【識別番号】513311642
【氏名又は名称】ノキア ソリューションズ アンド ネットワークス オサケユキチュア
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【弁理士】
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100141162
【弁理士】
【氏名又は名称】森 啓
(72)【発明者】
【氏名】バイブハブ シン
(72)【発明者】
【氏名】アナンド ベデッカー
(72)【発明者】
【氏名】ホー チュン
【テーマコード(参考)】
5K067
【Fターム(参考)】
5K067AA43
(57)【要約】
【課題】無線アクセスネットワークにおける電力節約。
【解決手段】セルを備える無線アクセスネットワークにおける電力節約を最大化するために、1つ以上のセルをスイッチオンすること、1つ以上のセルをスイッチオフすること、および何もしないことを含むアクションの中での最適アクションはスループットと電力との間のトレードオフに対する長期的な報酬を最大化する、訓練されたモデルを使用して決定され、訓練されたモデルは負荷推定値を入力とする。トレーニングされたモデルは、負荷、スループット、および電力消費に関する測定結果を使用してオンラインで更新され得る。
【選択図】図2
【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサと
コンピュータプログラムコードを含む少なくとも1つのメモリと、
を備える、装置であって、
前記少なくとも1つのメモリと、前記コンピュータプログラムコードとは、前記少なくとも1つのプロセッサを用いて、前記装置に、少なくとも、無線アクセスネットワーク内のセルのグループについて、第1訓練済モデルを使用して、最適アクションを決定するステップであって、
該第1訓練済モデルは、強化学習に基づいて、セルのグループ内のスループットと省電力との間のトレードオフに関する長期的な報酬を最大化し、
該第1訓練済モデルは状態の入力とし、
前記最適アクションは、少なくとも1つ以上のセルの電力設定を変更すること、1つ以上のセルをスイッチオンすること、1つ以上のセルをスイッチオフすること、および、セルの前記グループのセル内の現在セル状態を保持すること、のうちの少なくとも1つを含み、前記状態は、負荷推定値と、セルの前記グループ内のセルごとに、現在セル状態とのうちの少なくとも1つを含む、
ステップと、
前記最適アクションが、1つ以上のセルの電力設定を変更する、または、1つ以上のセルをスイッチオンする、または、1つ以上のセルをスイッチオフする、のいずれかであることに応答して、前記最適アクションを実行させるステップと、
を実行させるように構成される、装置。
【請求項2】
前記少なくとも1つのメモリと、コンピュータプログラムコードとは、前記少なくとも1つのプロセッサを用いて、前記装置に、少なくとも、
1つ以上のセルに対して、1つ以上のセルのスイッチをオンにするか、または、1つ以上のセルのスイッチをオフにするかのいずれかの最適アクションを実行させた後、該1つ以上のセルのうちのセルごとに、フリーズタイムを適用するステップであって、
該フリーズタイムの間に、該1つ以上のセルをスイッチオンにするか、または、該1つ以上のセルをスイッチオフにすることは不可能である、
ステップ
を実行させるように構成される、請求項1に記載の装置。
【請求項3】
前記少なくとも1つのメモリと、コンピュータプログラムコードとは、前記少なくとも1つのプロセッサを用いて、前記装置に、少なくとも、
スイッチオンされたセルの負荷と性能のメトリックと、スイッチオンされた該セルによって消費される電力と受信するステップと、
スイッチオンされたセルの受信負荷と性能のメトリック、および、スイッチオンされた前記セルによって消費される電力に応答して、前記第1訓練済モデルを更新するステップと、
を実行させるように構成される、請求項1または2に記載の装置。
【請求項4】
前記少なくとも1つのメモリと、コンピュータプログラムコードとは、前記少なくとも1つのプロセッサを用いて、前記装置に、さらに、少なくとも、
新たな負荷推定として、前記装置または別の装置に、前記無線アクセスネットワークからの少なくとも測定された負荷データを入力として使用して、周期的に出力する第2訓練済モデルを含む前記第2訓練済モデルからの新たな負荷予測を受信することに応答して、負荷推定の前記決定を実行させるように構成される、請求項1、2または3に記載の装置。
【請求項5】
前記少なくとも1つのメモリと、コンピュータプログラムコードとは、前記少なくとも1つのプロセッサを用いて、前記装置に、少なくとも、
リアルタイムプラットフォームに近い無線インテリジェントコントローラの上でサービスとして、少なくとも前記第1訓練済モデルをインスタンス化するステップと、
前記最適アクションが実行させるとき、リアルタイムプラットフォームに近い前記無線インテリジェントコントローラのデータ書き込みアプリケーションプログラミング・インターフェースを使用するステップと、
を実行させるように構成される、請求項1ないし4のいずれか1項に記載の装置。
【請求項6】
少なくとも1つのプロセッサと
コンピュータプログラムコードを含む少なくとも1つのメモリと、を備える、装置であって、前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサを用いて、前記装置に、少なくとも、
セルを備える無線アクセスネットワークにおけるスループットと省電力との間のトレードオフに関する長期的な報酬を最大化し、第1訓練可能モデルが最適アクションを出力する第1訓練可能モデルの初期化するステップであって、
前記最適アクションは、1つ以上のセルの電力設定を変更すること、1つ以上のセルをスイッチオンすること、1つ以上のセルをスイッチオフすること、および、現在セル状態を保持すること、を少なくとも含むアクションのうちの1つである、
ステップと、
少なくとも負荷データの変化を示す複数の時系列、電力消費データ、および、無線アクセスネットワークにおけるセルのスループットデータを含む履歴データを取得するステップであって、時系列は複数のタイムステップを含む、ステップと、
強化学習を使用し、前記複数の時系列を反復し、時系列ごとに、前記複数のタイムステップを反復することによって、前記第1訓練可能モデルを第1訓練済モデルに訓練するステップと、
を実行させるように構成される、装置。
【請求項7】
前記少なくとも1つのメモリと、コンピュータプログラムコードとは、前記少なくとも1つのプロセッサを用いて、前記装置に、少なくとも、前記強化学習としてQ学習を使用するステップを実行させるように構成される、請求項1ないし6のいずれか1項に記載の装置。
【請求項8】
無線アクセスネットワーク内のセルのグループについて、第1訓練済モデルを使用して、最適アクションを決定するステップであって、
該第1訓練済モデルは、強化学習に基づいて、セルのグループ内のスループットと省電力との間のトレードオフに関する長期的な報酬を最大化し、
該第1訓練済モデルは状態の入力とし、
前記最適アクションは、少なくとも1つ以上のセルの電力設定を変更すること、1つ以上のセルをスイッチオンすること、1つ以上のセルをスイッチオフすること、セルの前記グループのセル内の現在セル状態を保持すること、のうちの少なくとも1つを含み、
前記状態は、負荷推定値と、セルの前記グループ内のセルごとに、現在セル状態とのうちの少なくとも1つを含む、
ステップと、
前記最適アクションが、1つ以上のセルの電力設定を変更すること、1つ以上のセルをスイッチオンする、または、1つ以上のセルをスイッチオフする、のいずれかであることに応答して、最適アクションを実行させるステップと、
を含む、装置の方法。
【請求項9】
1つ以上のセルのスイッチをオンにするか、または、1つ以上のセルのスイッチをオフにするかのいずれかの最適アクションを実行させた後、フリーズタイムを適用するステップであって、該フリーズタイムの間に、該1つ以上のセルをスイッチオンにするか、または、該1つ以上のセルをスイッチオフにすることは不可能である、ステップを更に含む、請求項8の方法。
【請求項10】
スイッチオンされたセルの負荷と性能のメトリックと、スイッチオンされた該セルによって消費される電力と受信するステップと、
スイッチオンされたセルの受信負荷と性能のメトリック、および、スイッチオンされた前記セルによって消費される電力に応答して、前記第1訓練済モデルを更新するステップと、
をさらに含む、請求項8または9に記載の方法。
【請求項11】
新たな負荷推定として、前記装置または別の装置に、前記無線アクセスネットワークからの少なくとも測定された負荷データを入力として使用して、周期的に出力する第2訓練済モデルを含む該第2訓練済モデルからの新たな負荷予測を受信することに応答して、負荷推定の前記決定を実行するステップをさらに含む、請求項8ないし10のいずれか1項に記載の方法。
【請求項12】
前記方法は、
リアルタイムプラットフォームに近い無線インテリジェントコントローラの上でサービスとして、少なくとも前記第1訓練済モデルをインスタンス化するステップと、
前記最適アクションが実行させるとき、リアルタイムプラットフォームに近い前記無線インテリジェントコントローラのデータ書き込みアプリケーションプログラミング・インターフェースを使用するステップと、
をさらに含む、請求項8ないし11のいずれか1項に記載の方法。
【請求項13】
セルを備える無線アクセスネットワークにおけるスループットと省電力との間のトレードオフに関する長期的な報酬を最大化し、第1訓練可能モデルが最適アクションを出力する第1訓練可能モデルの初期化するステップであって、
前記最適アクションは、1つ以上のセルの電力設定を変更すること、1つ以上のセルをスイッチオンすること、1つ以上のセルをスイッチオフすること、および、現在セル状態を保持すること、のうちの少なくとも1つを含む、
ステップと、
少なくとも負荷データの変化を示す複数の時系列、電力消費データ、および、無線アクセスネットワークにおけるセルのスループットデータを含む履歴データを取得するステップであって、時系列は複数のタイムステップを含む、ステップと、
強化学習を使用し、前記複数の時系列を反復し、時系列ごとに、前記複数のタイムステップを反復することによって、前記第1訓練可能モデルを第1訓練済モデルに訓練するステップと、
を含む方法。
【請求項14】
前記強化学習としてQ学習を使用するステップをさらに含む、請求項8ないし13のいずれか1項に記載の方法。
【請求項15】
装置に、第1プロセスおよび第2プロセスのうちの少なくとも1つを実行させるためのプログラム命令を備えるコンピュータ可読メディアであって、
前記第1プロセスは、少なくとも、
無線アクセスネットワーク内のセルのグループについて、強化学習に基づいて、第1訓練済モデルを使用して、最適アクションを決定するステップであって、
セルのグループ内のスループットと省電力との間のトレードオフに関する長期的な報酬を最大化し、
該第1訓練済モデルは状態の入力とし、
前記最適アクションは、少なくとも1つ以上のセルの電力設定を変更すること、1つ以上のセルをスイッチオンすること、1つ以上のセルをスイッチオフすること、および、セルの前記グループのセル内の現在セル状態を保持すること、のうちの少なくとも1つを含み、前記状態は、負荷推定値と、セルの前記グループ内のセルごとに、現在セル状態とのうちの少なくとも1つを含む、
ステップと、
前記最適アクションが、1つ以上のセルの電力設定を変更すること、または、1つ以上のセルをスイッチオンすること、または、1つ以上のセルをスイッチオフすること、のいずれかであることに応答して、最適アクションを実行させるステップと、
を含み、
前記第2プロセスは、少なくとも、
セルを備える無線アクセスネットワークにおけるスループットと省電力との間のトレードオフに関する長期的な報酬を最大化し、第1訓練可能モデルが最適アクションを出力する第1訓練可能モデルの初期化するステップであって、
前記最適アクションは、1つ以上のセルの電力設定を変更すること、1つ以上のセルをスイッチオンすること、1つ以上のセルをスイッチオフすること、および、現在セル状態を保持すること、を少なくとも含むアクションのうちの1つである、
ステップと、
少なくとも負荷データの変化を示す複数の時系列、電力消費データ、および、無線アクセスネットワークにおけるセルのスループットデータを含む履歴データを取得するステップであって、時系列は複数のタイムステップを含む、ステップと、
強化学習を使用し、前記複数の時系列を反復し、時系列ごとに、前記複数のタイムステップを反復することによって、前記第1訓練可能モデルを第1訓練済モデルに訓練するステップと、を含む、
コンピュータ可読メディア。
【請求項16】
前記コンピュータ可読メディアは、非一時的コンピュータ可読メディアである、請求項15に記載のコンピュータ可読メディア。
【請求項17】
装置に、少なくとも、第1プロセスおよび第2プロセスのうちの少なくとも1つを実行させるための命令を含むコンピュータプログラムであって、
前記第1プロセスは、少なくとも、
無線アクセスネットワーク内のセルのグループについて、第1訓練済モデルを使用して、最適アクションを決定するステップであって、
該第1訓練済モデルは、強化学習に基づいて、セルのグループ内のスループットと省電力との間のトレードオフに関する長期的な報酬を最大化し、
該第1訓練済モデルは状態の入力とし、
前記最適アクションは、1つ以上のセルの電力設定を変更することと、1つ以上のセルをスイッチオンすること、1つ以上のセルをスイッチオフすること、および、セルの前記グループのセル内の現在セル状態を保持すること、を少なくとも含むアクションのうちの1つであり、
前記状態は、負荷推定値と、セルの前記グループ内のセルごとに、現在セル状態とのうちの少なくとも1つを含む、
ステップと、
前記最適アクションが、1つ以上のセルの電力設定を変更すること、または、1つ以上のセルをスイッチオンすること、または、1つ以上のセルをスイッチオフすること、のいずれかであることに応答して、最適アクションを実行させる
ステップと、を含み、
前記第2プロセスは、少なくとも、
セルを備える無線アクセスネットワークにおけるスループットと省電力との間のトレードオフに関する長期的な報酬を最大化し、第1訓練可能モデルが最適アクションを出力する第1訓練可能モデルの初期化するステップであって、
前記最適アクションは、1つ以上のセルの電力設定を変更すること、1つ以上のセルをスイッチオンすること、1つ以上のセルをスイッチオフすること、および、前記現在セル状態を保持すること、を少なくとも含むアクションのうちの1つである、
ステップと、
少なくとも負荷データの変化を示す複数の時系列、電力消費データ、および、無線アクセスネットワークにおけるセルのスループットデータを含む履歴データを取得するステップであって、時系列は複数のタイムステップを含む、ステップと、
強化学習を使用し、前記複数の時系列を反復し、時系列ごとに、前記複数のタイムステップを反復することによって、前記第1訓練可能モデルを第1訓練済モデルに訓練するステップと、
を含む、
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
各種例示的な実施形態は、無線通信に関する。
【背景技術】
【0002】
無線通信システムは常に開発が進められている。例えば、セルサイズを縮小し、セル密度を増加させることが、ネットワークスループットを向上させる主な源であった。副作用は、電力消費が増加したことである。省電力を可能にするために、セルのいくつかは、ネットワーク内の負荷が十分に低い場合、ネットワークスループットに影響を及ぼすことなくスイッチオフされ得、より多くの負荷がある場合、スイッチオンされ得る。通常、セルをオンまたはオフに切り替える決定は、受信された負荷情報および事前設定された閾値に基づいて行われる。電力節約を最大にし、かつネットワークスループットに影響を与えないように事前設定閾値を決定することは、困難である。
【発明の概要】
【0003】
一態様によれば、少なくとも1つのプロセッサと、コンピュータ・プログラム・コードを含む少なくとも1つのメモリと、を備える装置であって、前記少なくとも1つのメモリおよび前記コンピュータプログラムコードが、前記少なくとも1つのプロセッサを用いて、前記装置に、少なくとも、無線アクセスネットワーク内のセルのグループについて、第1訓練済モデルを使用して、最適アクションを決定するステップであって、該第1訓練済モデルは、強化学習に基づいて、セルのグループ内のスループットと省電力との間のトレードオフに関する長期的な報酬を最大化し、該第1訓練済モデルは状態の入力とし、前記最適アクションは、1つ以上のセルをスイッチオンすること、1つ以上のセルをスイッチオフすること、セルの前記グループのセル内の前記現在セル状態を保持すること、を少なくとも含むアクションのうちの1つであり、前記状態は、負荷推定値と、セルの前記グループ内のセルごとに、現在セル状態とのうちの少なくとも1つを含む、ステップと、前記最適アクションが、1つ以上のセルをスイッチオンするか、または、1つ以上のセルをスイッチオフするかのいずれかであることに応答して、最適アクションを実行させるステップと、を実行させるように構成される、装置が提供される。
【0004】
一実施形態では、前記少なくとも1つのメモリと、コンピュータプログラムコードとは、前記少なくとも1つのプロセッサを用いて、前記装置に、少なくとも、1つ以上のセルのスイッチをオンにするか、または、1つ以上のセルのスイッチをオフにするかのいずれかの最適アクションを実行させた後、フリーズタイムを適用するステップであって、該フリーズタイムの間に、該1つ以上のセルをスイッチオンにするか、または、該1つ以上のセルをスイッチオフにすることは不可能である、ステップを実行させるように構成される。
【0005】
実施形態では、前記少なくとも1つのメモリと、コンピュータプログラムコードとは、前記少なくとも1つのプロセッサを用いて、前記装置に、少なくとも、スイッチオンされたセルの負荷と性能のメトリックと、スイッチオンされた該セルによって消費される電力と受信するステップステップと、スイッチオンされたセルの前記受信負荷と性能のメトリック、および、スイッチオンされた前記セルによって消費される電力に応答して、前記第1訓練済モデルを更新するステップと、を実行させるように構成される。
【0006】
いくつかの実施形態では、前記少なくとも1つのメモリと、コンピュータプログラムコードとは、前記少なくとも1つのプロセッサを用いて、前記装置に、さらに、少なくとも、新たな負荷推定として、前記装置または別の装置に、前記無線アクセスネットワークからの少なくとも測定された負荷データを入力として使用して、周期的に出力する前記第2の訓練されたモデルを含む第2の訓練されたモデルからの新たな負荷予測を受信することに応答して、負荷推定の前記決定を実行させるように構成される。
【0007】
いくつかの実施形態では、少なくとも1つのメモリおよびコンピュータプログラムコードは、少なくとも1つのプロセッサを用いて、装置に、少なくとも、無線インテリジェントコントローラニアリアルタイムプラットフォームの上でサービスとして第1訓練済モデルをインスタンス化し、実行させること、および、最適アクションを実行させるときに、無線インテリジェントコントローラニアリアルタイムプラットフォームのデータ書き込みアプリケーションプログラミングインターフェースを使用することをさらに実行させるように構成される。
【0008】
一態様によれば、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリとを備える装置が提供され、該少なくとも1つのメモリおよび該コンピュータプログラムコードは、前記少なくとも1つのプロセッサを用いて、前記装置に、少なくとも、セルを備える無線アクセスネットワークにおけるスループットと省電力との間のトレードオフに関する長期的な報酬を最大化し、第1訓練可能モデルが最適アクションを出力する第1訓練可能モデルの初期化するステップであって、前記最適アクションは、1つ以上のセルをスイッチオンすること、1つ以上のセルをスイッチオフすること、を少なくとも含むアクションのうちの1つであり、および、前記現在セル状態を保持することである、ステップと、少なくとも負荷データの変化を示す複数の時系列、電力消費データ、
および、無線アクセスネットワークにおけるセルのスループットデータを含む履歴データを取得するステップであって、時系列は複数のタイムステップを含む、ステップと、強化学習を使用し、前記複数の時系列を反復し、時系列ごとに、前記複数のタイムステップを反復することによって、前記第1訓練可能モデルを第1訓練済モデルに訓練するステップと、を実行させるように構成される、装置が提供される。
【0009】
実施形態では、少なくとも1つのメモリおよびコンピュータプログラムコードが、少なくとも1つのプロセッサを用いて、装置に、強化学習としてQ学習を使用することをさらに少なくとも実行させるように構成される。
【0010】
実施形態では、アクションが1つ以上のセルの電力設定を変更することをさらに含む。
【0011】
一態様によれば、無線アクセスネットワーク内のセルのグループについて、第1訓練済モデルを使用して、最適アクションを決定するステップであって、該第1訓練済モデルは、強化学習に基づいて、セルのグループ内のスループットと省電力との間のトレードオフに関する長期的な報酬を最大化し、該第1訓練済モデルは状態の入力とし、前記最適アクションは、1つ以上のセルを少なくともスイッチオンすること、1つ以上のセルをスイッチオフすること、セルの前記グループのセル内の前記現在セル状態を保持すること、のうちの少なくとも1つを含み、前記状態は、負荷推定値と、セルの前記グループ内のセルごとに、現在セル状態とのうちの少なくとも1つを含む、ステップと、前記最適アクションが、1つ以上のセルをスイッチオンするか、または、1つ以上のセルをスイッチオフするかのいずれかであることに応答して、最適アクションを実行させるステップと、を含む方法が提供される。
【0012】
一実施形態では、本願方法は、1つ以上のセルのスイッチをオンにするか、または、1つ以上のセルのスイッチをオフにするかのいずれかの最適アクションを実行させた後、フリーズタイムを適用するステップであって、該フリーズタイムの間に、該1つ以上のセルをスイッチオンにするか、または、該1つ以上のセルをスイッチオフにすることは不可能である、ステップをさらに含む。
【0013】
実施形態では、本願方法は、スイッチオンされたセルの負荷と性能のメトリックと、スイッチオンされた該セルによって消費される電力とを受信するステップと、スイッチオンされたセルの前記受信負荷と性能のメトリック、および、スイッチオンされた前記セルによって消費される電力に応答して、前記第1訓練済モデルを更新するステップと、をさらに含む。
【0014】
いくつかの実施形態では、本願方法は、新たな負荷推定として、前記装置または別の装置に、前記無線アクセスネットワークからの少なくとも測定された負荷データを入力として使用して、周期的に出力する前記第2の訓練されたモデルを含む第2の訓練されたモデルからの新たな負荷予測を受信することに応答して、負荷推定の前記決定を実行するステップをさらに備える。
【0015】
いくつかの実施形態では、本願方法は、無線インテリジェントコントローラニアリアルタイムプラットフォームの上にサービスとして第1訓練済モデルをインスタンス化して実行することと、最適アクションを実行させるときに、無線インテリジェントコントローラニアリアルタイムプラットフォームのデータ書き込みアプリケーションプログラミングインターフェースを使用することとをさらに含む。
【0016】
一態様によれば、セルを備える無線アクセスネットワークにおけるスループットと省電力との間のトレードオフに関する長期的な報酬を最大化し、第1訓練可能モデルが最適アクションを出力する第1訓練可能モデルの初期化することであって、前記最適アクションは、1つ以上のセルをスイッチオンすること、1つ以上のセルをスイッチオフすること、および、前記現在セル状態を保持すること、を少なくとも含むアクションのうちの1つである、
ステップと、少なくとも負荷データの変化を示す複数の時系列、電力消費データ、および、無線アクセスネットワークにおけるセルのスループットデータを含む履歴データを取得するステップであって、時系列は複数のタイムステップを含む、ステップと、強化学習を使用し、前記複数の時系列を反復し、および、時系列ごとに、前記複数のタイムステップを反復することによって、前記第1訓練可能モデルを第1訓練済モデルに訓練することと、を含む方法が提供される。
【0017】
実施形態では、前記方法は、前記強化学習としてQ学習を使用するステップをさらに含む。
【0018】
本方法のための実施形態では、アクションが1つ以上のセルの電力設定を変更することをさらに含む。
【0019】
一態様によれば、装置に、第1プロセスおよび第2プロセスのうちの少なくとも1つを実行させるためのプログラム命令を備えるコンピュータ可読メディアが提供され、前記第1プロセスは、少なくとも、無線アクセスネットワーク内のセルのグループについて、第1訓練済モデルを使用して、最適アクションを決定するステップであって、該第1訓練済モデルは、強化学習に基づいて、セルのグループ内のスループットと省電力との間のトレードオフに関する長期的な報酬を最大化し、該第1訓練済モデルは状態の入力とし、前記最適アクションは、1つ以上のセルを少なくともスイッチオンすること、1つ以上のセルをスイッチオフすること、および、セルの前記グループのセル内の前記現在セル状態を保持すること、のうちの少なくとも1つを含み、前記状態は、負荷推定値と、セルの前記グループ内のセルごとに、現在セル状態とのうちの少なくとも1つを含む、ステップと、前記最適アクションが、1つ以上のセルをスイッチオンするか、または、1つ以上のセルをスイッチオフするかのいずれかであることに応答して、最適アクションを実行させるステップと、を含み、前記第2プロセスは、少なくとも、セルを備える無線アクセスネットワークにおけるスループットと省電力との間のトレードオフに関する長期的な報酬を最大化し、第1訓練可能モデルが最適アクションを出力する第1訓練可能モデルの初期化するステップであって、前記最適アクションは、1つ以上のセルをスイッチオンすること、1つ以上のセルをスイッチオフすること、および、前記現在セル状態を保持すること、を少なくとも含むアクションのうちの1つである、ステップと、少なくとも負荷データの変化を示す複数の時系列、電力消費データ、および、無線アクセスネットワークにおけるセルのスループットデータを含む履歴データを取得するステップであって、時系列は複数のタイムステップを含む、ステップと、強化学習を使用し、前記複数の時系列を反復し、時系列ごとに、前記複数のタイムステップを反復することによって、前記第1訓練可能モデルを第1訓練済モデルに訓練するステップと、を含む。
【0020】
一実施形態では、コンピュータ可読メディアが非一時的コンピュータ可読メディアである。
【0021】
一態様によれば、装置に、第1プロセスおよび第2プロセスのうちの少なくとも1つを実行させるための命令を備えるコンピュータプログラムが提供され、前記第1プロセスは、少なくとも、無線アクセスネットワーク内のセルのグループについて、第1訓練済モデルを使用して、最適アクションを決定するステップであって、該第1訓練済モデルは、強化学習に基づいて、セルのグループ内のスループットと省電力との間のトレードオフに関する長期的な報酬を最大化し、該第1訓練済モデルは状態の入力とし、前記最適アクションは、1つ以上のセルをスイッチオンするか、または、1つ以上のセルをスイッチオフするか、セルの前記グループのセル内の前記現在セル状態を保持すること、を少なくとも含むアクションのうちの1つであり、前記状態は、負荷推定値と、セルの前記グループ内のセルごとに、現在セル状態とのうちの少なくとも1つを含む、ステップと、前記最適アクションが、1つ以上のセルをスイッチオンするか、または、1つ以上のセルをスイッチオフするかのいずれかであることに応答して、最適アクションを実行させるステップと、を含み、前記第2プロセスは、少なくとも、セルを備える無線アクセスネットワークにおけるスループットと省電力との間のトレードオフに関する長期的な報酬を最大化し、第1訓練可能モデルが最適アクションを出力する第1訓練可能モデルの初期化するステップであって、前記最適アクションは、1つ以上のセルを少なくともスイッチオンすること、1つ以上のセルをスイッチオフすること、および、前記現在セル状態を保持すること、のうちの少なくとも1つを含み、少なくとも負荷データの変化を示す複数の時系列、電力消費データ、および、無線アクセスネットワークにおけるセルのスループットデータを含む履歴データを取得するステップであって、時系列は複数のタイムステップを含む、ステップと、強化学習を使用し、前記複数の時系列を反復し、時系列ごとに、前記複数のタイムステップを反復することによって、前記第1訓練可能モデルを第1訓練済モデルに訓練するステップと、を含む。
【図面の簡単な説明】
【0022】
実施形態は単なる例として、添付の図面を参照して以下に説明される。
図1図1は例示的な無線通信システムを示す。
図2図2は、例示的なオープン無線アクセスネットワークアーキテクチャを示す。
図3図3は、ニューラルネットワークの一例を示すブロック図である。
図4図4は、計算ノードの一例を示すブロック図である。
図5図5は例示的な機能を示す。
図6図6は、情報交換の例を示す。
図7図7ないし図10は例示的な機能を示すフローチャートである。
図8図7ないし図10は例示的な機能を示すフローチャートである。
図9図7ないし図10は例示的な機能を示すフローチャートである。
図10図7ないし図10は例示的な機能を示すフローチャートである。
図11図11および図12は、概略ブロック図である。
図12図11および図12は、概略ブロック図である。
【発明を実施するための形態】
【0023】
以下の実施形態は一例である。本明細書はいくつかの場所で「1つの」、または「いくつかの」実施形態に言及することがあるが、これは必ずしも、そのような参照の各々が同じ実施形態にあること、または特徴が単一の実施形態にのみ適用されることを意味しない。異なる実施形態の単一の特徴を組み合わせて、他の実施形態を提供することもできる。さらに、「包含する」および「含む」という単語は、記載された実施形態を、言及された特徴のみからなるように限定するものではなく、そのような実施形態は具体的に言及されていない特徴/構造も含み得るものと理解されるべきである。また、様々な要素を説明するために「第1」、「第2」等の序数を含む用語を用いてもよいが、これらの用語に限定されるものではない。これらの用語は、単に要素を他の要素と区別する目的で使用される。例えば、第1の信号は第2の信号と呼ぶことができ、同様に、第2の信号は、本開示の技術的範囲から逸脱することなく、第1の信号と呼ぶこともできる。
【0024】
以下では、実施形態が適用され得るアクセスアーキテクチャの例として、ロングタームエボリューションアドバンスト(LTE Advanced、LTE-A)または新しい無線(NR、5G)に基づく無線アクセスアーキテクチャを使用して、異なる例示的な実施形態について説明するが、実施形態はそのようなアーキテクチャに限定されない。また、パラメータや手続きを適宜調整することにより、好適な手段を有する他の通信網に適用してもよい。他のシステムに適したオプションの例としては、汎用移動体通信システム(UMTS)無線アクセスネットワーク(UTRANまたはE-UTRAN)、長期進化(LTE、E-UTRAと同じ)、無線ローカルエリアネットワーク(WLANまたはWiFi)、マイクロ波アクセス(WiMAX)、Bluetooth(登録商標)R、パーソナル通信サービス(PCS)、ZigBee(登録商標)R、広帯域符号分割多元接続(WCDMA(登録商標))、超広帯域(UWB)技術を使用するシステム、センサネットワーク、移動アドホックネットワーク(MANET)およびインターネットプロトコルマルチメディアサブシステム(IMS)またはそれらの組み合わせがある。
【0025】
図1はいくつかの素子および機能エンティティのみを示す簡略化されたシステムアーキテクチャの例を示しており、すべてが論理ユニットであり、その実装は、示されているものとは異なり得る。図1に示す接続は論理的な接続であり、実際の物理接続は異なる場合がある。システムは、典型的には図1に示されるもの以外の他の機能および構造も備えることが当業者には明らかである。
【0026】
しかしながら、実施形態は、例として与えられたシステムに限定されず、当業者は必要な特性を備えた他の通信システムに解決策を適用することができる。
【0027】
図1の例は、例示的な無線アクセスネットワークの一部を示す。
【0028】
図1は、装置100および102を示す。装置100および102はたとえば、ユーザ装置であり得る。装置100および102は、ノード104との1つ以上の通信チャネル上でワイヤレス接続するように構成される。ノード104はさらに、コアネットワーク110に接続される。一例では、ノード104がセル内のデバイスを提供またはサービングする(e/g)NodeBなどのアクセスノードであり得る。一例では、ノード104が非3GPP(登録商標)アクセスノードであり得る。デバイスから(e/g)NodeBへの物理リンクはアップリンクまたは逆方向リンクと呼ばれ、(e/g)NodeBからデバイスへの物理リンクはダウンリンクまたは順方向リンクと呼ばれる。(e/g)ノードBまたはそれらの機能は、そのような使用に適した任意のノード、ホスト、サーバ、またはアクセスポイントなどのエンティティを使用することによって実装され得ることを理解されたい。
【0029】
通信システムは、典型的には2つ以上の(e/g)ノードBを備え、その場合、(e/g)ノードBはまた、その目的のために設計された有線または無線のリンクを介して互いに通信するように構成することができる。これらのリンクは、シグナリング目的のために使用することができる。(e/g)NodeBは、それが結合される通信システムの無線リソースを制御するように構成されるコンピューティングデバイスである。NodeBは、基地局、アクセスポイント、またはワイヤレス環境においてアクションすることが可能な中継局を含む任意の他のタイプのインターフェースデバイスと呼ばれることもある。(e/g)ノードBは、トランシーバを含むか、またはトランシーバに結合される。(e/g)NodeBのトランシーバから、デバイスへの双方向無線リンクを確立するアンテナユニットへの接続が提供される。アンテナユニットは、複数のアンテナまたはアンテナ素子を備えてもよい。(e/g)NodeBはさらに、コアネットワーク110(CNまたは次世代コアNGC)に接続される。システムに応じて、CN側の対応物は、サービングゲートウェイ(S-GW、ユーザデータパケットのルーティングおよび転送)、パケットデータネットワークゲートウェイ(P-GW)、外部パケットデータネットワーク、またはモバイル管理エンティティ(MME)、またはアクセスおよびモビリティ管理機能(AMF)などへのデバイス(UE)の接続性を提供するためのものであり得る。
【0030】
デバイス(ユーザデバイス、UE、ユーザ機器、ユーザ端末、端末デバイスなどとも呼ばれる)は、エアインターフェース上のリソースが割り振られ、割り当てられる装置の1つのタイプを示し、したがって、デバイスを用いて本明細書で説明する任意の特徴は、リレーノードなどの対応する装置を用いて実装され得る。そのようなリレーノードの例は、基地局に向かうレイヤ3リレー(セルフバックホールリレー)である。
【0031】
デバイスは、典型的には、加入者識別モジュール(SIM)の有無にかかわらずアクションするワイヤレスモバイル通信デバイスを含むデバイス(たとえば、ポータブルまたは非ポータブルコンピューティングデバイス)を指し、モバイル局(モバイルフォン)、スマートフォン、携帯情報端末(PDA)、ハンドセット、ワイヤレスモデムを使用するデバイス(アラームまたは測定デバイスなど)、ラップトップおよび/またはタッチスクリーンコンピュータ、タブレット、ゲームコンソール、ノートブック、およびマルチメディアデバイスのタイプのデバイスを含むが、これらに限定されない。装置はまた、ほぼ排他的なアップリンクのみの装置であり得、その例は、ネットワークに画像またはビデオクリップをロードするカメラまたはビデオカメラであることを理解されたい。装置は、また、モノのインターネット(IoT)ネットワークにおいてアクションする能力を有する装置であってもよく、これは、オブジェクトが、例えば、スマート電力グリッドおよび接続された車両において使用されるために、人間対人間または人間対コンピュータの相互作用を必要とすることなく、ネットワークを介してデータを転送する能力を備えているシナリオである。装置はまた、クラウドを利用してもよい。いくつかの用途では装置が無線部品(腕時計、イヤホン、または眼鏡など)を有する利用者ポータブル装置を備え得、計算はクラウド内で実行される。デバイス(またはいくつかの実施形態では、レイヤ3中継ノード)がユーザ機器機能のうちの1つ以上を実行するように構成される。デバイスは、また、ほんのいくつかの名前または装置を挙げると、加入者ユニット、移動局、リモート端末、アクセス端末、ユーザ端末、またはユーザ機器(UE)と呼ばれ得る。
【0032】
本明細書で説明する様々な技術は、サイバー物理システム(CPS)(物理エンティティを制御する計算要素を協働させるシステム)にも適用され得る。CPSは、異なる場所にある物理的オブジェクトに埋め込まれた大量の相互接続されたICT装置(センサ、アクチュエータ、プロセッサマイクロコントローラなど)の実装および活用を可能にし得る。問題の物理システムが固有のモビリティを有するモバイルサイバー物理システムは、サイバー物理システムのサブカテゴリである。移動物理的システムの例は、人間または動物によって輸送される移動ロボットおよび電子機器を含む。
【0033】
さらに、装置は単一のエンティティとして示されているが、異なるユニット、プロセッサ、および/またはメモリユニット(図1にすべてが示されているわけではない)が実装され得る。
【0034】
5Gは、マルチ入力マルチ出力(MIMO)アンテナ、LTE(いわゆるスモールセル概念)よりも多くの基地局またはノードを使用することを可能にし、より小さい局と協働してアクションし、サービスニーズ、使用事例、および/または利用可能なスペクトルに応じて様々な無線技術を採用するマクロサイトを含む。5Gモバイル通信は、ビデオストリーミング、拡張現実、データ共有の異なる方法、および車両安全性、異なるセンサ、およびリアルタイム制御を含む(大規模)装置タイプ通信(mMTC)などの様々な形態の装置タイプアプリケーションを含む、広範囲のユースケースおよび関連アプリケーションをサポートする。5Gは、複数の無線インターフェース、すなわち、6GHz未満、cmWaveおよびmmWaveを有し、また、LTEなどの既存のレガシー無線アクセス技術と一体化可能であることが期待される。LTEとの統合は、少なくとも初期段階において、マクロカバレージがLTEによって提供され、5G無線インターフェースアクセスがLTEへの凝集によってスモールセルからもたらされるシステムとして実装され得る。
言い換えれば、5Gは、(LTE-5Gなどの)RAT間操作性と、(6GHz未満cmWave、6GHz未満-cmWave-mmWaveなどの)RI間操作性との両方をサポートするように計画される。5Gネットワークで使用されると考えられる概念の1つは、待ち時間、信頼性、スループット、およびモビリティに関する異なる要件を有するサービスを実行するために、複数の独立した専用の仮想サブネットワーク(ネットワークインスタンス)を同じインフラストラクチャ内で作成することができるネットワークスライシングである。
【0035】
LTEネットワークにおける現在のアーキテクチャは、無線において完全に分散され、コアネットワークにおいて完全に集中化される。5Gにおける低レイテンシのアプリケーションおよびサービスは含有量を無線に近づけることを必要とし、これは、ローカルブレイクアウトおよびマルチアクセスエッジコンピューティング(MEC)をもたらす。5Gは、データのソースにおいて分析および知識生成を行うことを可能にする。このアプローチは、ラップトップ、スマートフォン、タブレット、およびセンサなどのネットワークに連続的に接続され得ないリソースを活用することを必要とする。MECは、アプリケーションおよびサービスホスティングのための分散コンピューティング環境を提供する。それはまた、より速い応答時間のために、セルラー加入者にごく接近して含有量を記憶し、処理する能力を有する。エッジコンピューティングは、ワイヤレスセンサネットワーク、モバイルデータ取得、モバイルシグネチャ分析、協調分散ピアツーピアアドホックネットワーキング、ならびにローカルクラウド/フォグコンピューティングおよびグリッド/メッシュコンピューティング、デューコンピューティング、モバイルエッジコンピューティング、クラウドレット、分散データ記憶および検索、自律自己修復ネットワーク、リモートクラウドサービス、拡張および仮想現実、データキャッシング、モノのインターネット(大規模な接続性および/または待ち時間クリティカル)、クリティカル通信(自律車両、交通安全、リアルタイム分析、タイムクリティカル制御、ヘルスケアアプリケーション)などの広範囲の技術をカバーする。
【0036】
通信システムはまた、公衆交換電話網またはインターネット112などの他のネットワークと通信するか、またはそれらによって提供されるサービスを利用することができる。通信ネットワークはまた、クラウドサービスの使用をサポートすることが可能であり、例えば、コアネットワークアクションの少なくとも一部は、クラウドサービスとして実行され得る(これは「クラウド」114によって図1に示される)。通信システムはまた、例えばスペクトル共有において協働するために異なる操作者のネットワークのための設備を提供する中央制御エンティティなどを備えることができる。
【0037】
エッジクラウドの技術は、ネットワーク機能仮想化(NVF)およびソフトウェア定義ネットワーキング(SDN)を利用することによって、無線アクセスネットワーク(RAN)にもたらされ得る。エッジクラウドの技術を使用することは、少なくとも部分的に、無線部品を備える遠隔無線ヘッドまたは基地局にアクション可能に結合されたサーバ、ホスト、またはノードにおいて実行されるアクセスノードアクションを意味し得る。ノードアクションは、複数のサーバ、ノード、またはホストの間で分散されることも可能である。cloudRANアーキテクチャの適用は、RAN側で実行されるRANリアルタイム機能(分散ユニット、DU104において)および非リアルタイム機能が集中的に実行されること(集中ユニット、CU108において)を可能にする。
【0038】
また、コアネットワークアクションと基地局アクションとの間の労働の分布は、LTEのものとは異なり得るか、または存在しないことさえあり得ることを理解されたい。おそらく使用されるいくつかの他の技術の進歩はビッグデータおよびオールIPであり、これは、ネットワークが構築および管理される方法を変更し得る。5G(または新しい無線、NR)ネットワークは複数の階層をサポートするように設計されており、MECサーバは、コアと基地局またはノードB(gNB)との間に配置され得る。MECは、4Gネットワークにも適用することができることを理解されたい。
【0039】
5Gはまた、たとえばバックホールを提供することによって、5Gサービスのカバレージを強化または補完するために衛星通信を利用し得る。可能なユースケースは、マシンツーマシン(M2M)またはモノのインターネット(IoT)装置またはビヒクルに乗っている乗客のためのサービス継続性を提供すること、または重要な通信、および将来の鉄道/海上/航空通信のためのサービス利用可能性を保証することである。衛星通信は静止地球軌道(GEO)衛星システムを利用することができるが、低地球軌道(LEO)衛星システム、特にメガコンステレーション(数百の(ナノ)衛星が展開されるシステム)も利用することができる。メガコンステレーション内の各衛星106は、地上セルを作成するいくつかの衛星対応ネットワークエンティティをカバーすることができる。地上セルは、地上リレーノード104を介して、または地上または衛星内に位置するgNBによって生成され得る。
【0040】
描写されたシステムは無線アクセスシステムの一部の例にすぎず、実際にはシステムが複数の(e/g)NodeBを備え得、デバイスは複数の無線セルへのアクセスを有し得、システムは物理レイヤ中継ノードまたは他のネットワーク素子などの他の装置も備えることができることは、当業者にとって明らかである。(e/g)ノードBのうちの少なくとも1つは、ホーム(e/g)ノードBであり得る。また、無線通信システムの地理的エリアには、複数の無線セルだけでなく、複数の異なる種類の無線セルが設けられてもよい。無線セルは、通常、最大数十キロメートルの直径を有する大セルであるマクロセル(またはアンブレラセル)、またはマイクロセル、フェムトセル、もしくはピコセルなどのより小さいセルであり得る。図1(e/g)ノードBは、任意の種類のこれらのセルを提供することができる。セルラ無線システムは、数種類のセルを含む多層ネットワークとして実現されてもよい。典型的には、多層ネットワークでは1つのアクセスノードが1つ以上のセルの1つの種類を提供し、したがって、そのようなネットワーク構造を提供するために複数の(e/g)ノードBが必要とされる。
【0041】
通信システムの展開および性能を改善する必要性を満たすために、「プラグアンドプレイ」(e/g)ノードBの概念が導入された。典型的には、「プラグアンドプレイ」(e/g)ノードBを使用することができるネットワークが、ホーム(e/g)ノードB(H(e/g)ノードB)、ホームノードBゲートウェイ、またはHNB-GW(図1には示されていない)に加えて、を含む。通常、オペレータのネットワーク内にインストールされるHNBゲートウェイ(HNB-GW)は、多数のHNBからコアネットワークに戻るトラフィックを集約することができる。
【0042】
図2は、1つ以上のセルのステータスを変更するかどうか、すなわち、1つ以上のセルをオンまたはオフに切り替えるかどうか、またはそれらを現在のステータスに保持するかどうかを決定するための、ニューラルネットワークベースのソリューションを示す。図2の解決策は例えば、5G以降の無線アクセスネットワークアーキテクチャであるオープン無線アクセスネットワーク、O-RANに実装される。O-RANアーキテクチャの高レベルビューは、ネットワーク機能と、ネットワーク機能を管理するためのサービス管理およびオーケストレーションフレームワーク(SMO)と、クラウド化されたネットワーク機能をホストするためのO-クラウド(O-RANクラウド)とを備える。しかしながら、図2は、アクションエンティティを開示するオープン無線アクセスネットワーク論理アーキテクチャの非常に単純化された例を提供する。
【0043】
図2を参照すると、O-RAN 200は無線アクセスネットワーク、例えば、無線アクセスネットワークノード230の挙動を相互作用し、案内するためのオープンプラットフォームを備える。無線アクセスネットワークノードは、例のいくつかに言及すると、gNB(基地局)または分散ユニットでありうる。オープンプラットフォームはxRANコントローラまたは無線インテリジェントコントローラ(RIC)と呼ばれることがあり、非リアルタイム部分(RIC-non-RT)210およびニアリアルタイム部分(RIC-near-RT)220を備える。非リアルタイム部分210はサービス管理およびオーケストレーションフレームワークの一部であってもよく、ニアリアルタイム部分220は無線アクセス側にあってもよい(無線アクセス側は、無線アクセスネットワークノードを含む)。非リアルタイム部210とニアリアルタイム部220との間のインタフェースがA1インタフェースである。ニアリアルタイム部分220と無線アクセスネットワークノード230との間のインタフェースは、E2インタフェースである。非リアルタイム部分210と無線アクセスネットワークノード230との間のインタフェースは、O2インタフェースである。さらに、異なるアルゴリズム、例えば、最適化アルゴリズムおよびサービスを、基礎となる無線インテリジェントコントローラ(オープンプラットフォーム)の上に用途としてインスタンス化することができる。「xApp」と呼ぶことができる用途は、「API X」と呼ぶことができ、自由に定義することができる1つ以上の用途プログラミングインターフェースの手段によって、無線インテリジェントコントローラと対話することができる。
【0044】
図2に示される例では、モデルを特定の例に限定することなく、負荷予測モデルおよびQ学習と名付けられた2つの異なるモデルがある。図2に示す例では、負荷予測モデル(ブロック201)を無線インテリジェントコントローラの非リアルタイム部分210において訓練し、Q学習(ブロック202)、訓練された負荷予測モデルを使用して周期的に負荷を予測し(ブロック203)、最適アクションを決定する(ブロック204)ことが、無線インテリジェントコントローラのニアリアルタイム部分220において実行される。無線アクセスネットワークノード230は、決定されたアクションを実行し(ブロック205)、負荷およびハイスループットメトリックを測定し(ブロック206)、消費電力を測定する(ブロック207)。より正確には、無線アクセスネットワークノード230が、そのトランシーバ、送信機、受信機、または他の無線部、またはセル/セルを提供し、そのステータスが変更されるか、または電力設定が変更される無線ヘッドに対して、決定されたアクションを実行する。しかしながら、本明細書では、「セル」という用語が明確にするために使用され、電波でデータを送信および/または受信するための異なる電子機器をカバーし、それによって、通信ネットワークにアクセスするサーブドデバイスを提供する。実装に応じて、実行される決定されたアクションは、ステータス変化(セルをオフに切り替えること、または、セルをオンに切り替えること)、またはセルのステータス変化および電力設定の変化のうちの1つ、であり得る。さらに、無線アクセスネットワークノード230は、測定された負荷およびハイスループットメトリックをブロック201、202、および203に報告する。負荷予測モデルのトレーニング(ブロック201)は、
無線インテリジェントコントローラのニアリアルタイム部分220および/または無線アクセスネットワークノードにおいて実行されてもよく、および/または最適アクションの決定(ブロック204)は、たとえば、無線アクセスネットワークノードにおいて実行されてもよいことを理解されたい。
【0045】
負荷予測モデルのトレーニング(ブロック201)およびQ学習(ブロック202)はオフラインで実行され得るが、他の機能はオンライン機能であり得る。周期的に予測する負荷(ブロック203)は訓練された負荷予測モデルを示し、最適アクションを決定する(ブロック204)ことは訓練された省電力モデルを示し、両方のモデルは対応するニューラルネットワークベースのモデルを再訓練した後に更新可能である。例えば、Q学習は、ディープQ学習または基本Q学習であってもよい。基本的なQ学習はトレーニング可能なQ機能を使用し、これは、任意の所与の状態と行動の対に値を提供する。ディープQ学習では、学習可能なQ機能を模倣する(近似する)ためにニューラルネットワークモデルが学習される。
【0046】
Q学習は、Q学習に対する解を限定することなく、強化学習の一例として使用されることを理解されたい。
【0047】
負荷予測モデルは、機械学習ベースのモデルであってもよく、負荷推定モデルとも呼ばれてもよい。さらに、いくつかの実装形態では予測負荷を有するために機械学習ベースの負荷予測モデルは使用されないが、測定負荷に基づいて負荷が推定されることを理解されたい。本明細書では「負荷推定」という用語が両方をカバーするために使用され、「負荷推定」および「負荷予測」という用語は互換的に使用することができる。
【0048】
図3は1つの隠れ層を有するニューラルネットワーク330の実施形態を示し、図4は、計算ノードの実施形態を示す。
【0049】
ディープラーニング(ディープストラクチャードラーニングまたは階層的ラーニングとしても知られる)は、人工ニューラルネットワークで使用される層に基づく機械学習方法のより広いファミリーの一部である。
【0050】
人工ニューラルネットワーク(ANN)330は、回帰、分類、クラスタリング、およびパターン認識などのタスクを実行するように設計されたルールのセットを備える。ANNは学習手順を用いてそのような目的を達成し、そこでは、所望の出力と共に、入力データの様々な例が示される。これにより、トレーニングデータマニホールド内の任意の入力に対して適切な出力を識別することが学習される。深層学習は、通常、大量の入力データを必要とする。ラベルを用いた学習は教師あり学習と呼ばれ、ラベルを用いない学習は教師なし学習と呼ばれる。さらに、さらなる学習方法はラベルを使用しない強化学習であり、焦点は、(未知の領域の)探索と(現在の知識の)探索との間のバランスを見つけることにある。Q学習は、強化学習アルゴリズムである。
【0051】
ディープニューラルネットワーク(DNN)330は、入力層300と出力層314との間に複数の隠れ層302を備える人工ニューラルネットワークである。DNNの訓練は、関係が非常に非線形および/または複雑であるときでさえ、入力を適切な出力に変換するための正しい数学的操作を見つけることを可能にする。ディープQ学習では、DNNへの入力は状態ベクトルであり、出力はその状態に対するすべての可能なアクションに対するQのベクトルである。
【0052】
各隠れ層302は、計算が行われるノード304、306、308、310、312を含む。図4に示されるように、各ノード304は、入力データ300を、その入力300を増幅または減衰させる係数または重み400の設定と組み合わせ、それによって、アルゴリズムが学習しようとしているタスクに関して入力300に有意性を割り当てる。入力重み積が加算され(402)、合計が活性化機能404に通され、信号がネットワーク330を通ってさらに進み、分類行為などの最終結果に影響を及ぼすべきかどうか、およびどの程度まで進むべきかが決定される。このプロセスでは、ニューラルネットワークが一定の関連する特徴と最適な結果との間の相関を認識することを学習する。
【0053】
分類の場合、深層学習ネットワーク330の出力は、この場合、データパケットの復号成功の確率など、特定の結果の尤度と見なされ得る。この場合、層302の数は、使用される入力データ300の数に比例して変化し得る。しかしながら、入力データ300の数が多い場合、結果314の精度はより信頼できる。一方、より少ない層302が存在するとき、計算はより少ない時間を要し、それによって、待ち時間を低減し得る。しかしながら、これは、特定のDNNアーキテクチャおよび/または計算リソースに大きく依存する。
【0054】
モデルの初期重み400は、様々な代替方法で設定することができる。訓練段階中、それらは、意思決定における誤りを分析することに基づいて、プロセスの精度を改善するように適合される。モデルを訓練することは、基本的に試行錯誤活性である。原則として、ニューラルネットワーク330の各ノード304、306、308、310、312は決定(入力*重み)を行い、次いで、この決定を収集されたデータと比較して、収集されたデータとの差を見つけ出す。言い換えれば、それは、重み400が調整されることに基づいて、誤差を決定する。したがって、モデルのトレーニングは、補正フィードバックループと考えることができる。
【0055】
典型的には、ニューラルネットワークモデルが逆伝播アルゴリズムを使用して勾配が計算される確率的勾配降下最適化アルゴリズムを使用して訓練される。勾配降下アルゴリズムは次の評価が誤差を低減するように重み400を変更しようとし、これは、最適化アルゴリズムが誤差の勾配(または勾配)を下方にナビゲートしていることを意味する。十分に正確な重み400を提供する場合、任意の他の適切な最適化アルゴリズムを使用することも可能である。その結果、ニューラルネットワーク330の訓練されたパラメータ332は、重み400を含むことができる。
【0056】
最適化アルゴリズムの文脈では候補解(すなわち、重みのセット)を評価するために使用される関数は目的関数と呼ばれる。典型的には、目標が誤差を最小化することであるニューラルネットワークでは目的関数がしばしば、コスト関数または損失関数と呼ばれる。重み400を調整する際に、損失関数として任意の適切な方法を使用することができ、いくつかの例は、平均二乗誤差(MSE)、最尤(MLE)、およびクロスエントロピーである。
【0057】
ノード304のアクティブ化機能404に関しては、入力または入力のセット300が与えられたときのそのノード304の出力314を定義する。ノード304は入力の加重和を計算し、おそらくバイアスを加え、次いで、バイナリアクティブ化としての決定閾値に基づいて、または非線形決定機能を与えるアクティブ化機能404を使用して、「アクティブ化」または「非アクティブ化」として決定を行う。任意の適切な活性化関数404、例えば、シグモイド、整流線形ユニット(ReLU)、正規化指数関数(softmax)、sotfplus、tanhなどを使用することができる。ディープラーニングでは、活性化関数404が通常、層レベルに設定され、その層内のすべてのニューロンに適用される。次いで、出力314は、元の問題に対する所望の解が見つかるまで、次のノードなどのための入力として使用される。
【0058】
以下の例では、セルの順序付きリスト、例えば、C1、C2…CNがあると仮定し、セルは、C1、C2、…CN、の順にオンに切り替えることができる。CN…C2,C1,1~Nの順に切り替わり、1~Nはセル数であり、Nは最大セル数を示す。本明細書ではセルが無線アクセスネットワークノードの同じセクタ内の異なるキャリアもカバーし、すなわち、キャリアは本明細書ではセルと同義語である。さらに、少なくとも履歴負荷データ(負荷トレース)が利用可能であると仮定する。さらに別の仮定は、セル内で提供される物理リソースブロックがセル内で利用可能なリソースとして使用されることである。説明を明確にするために、以下の例では、アクションがセルに対して実行されると仮定する。しかしながら、複数のセルに対してアクションが実行されてもよい。
【0059】
履歴負荷データは例えば、ストリーミングオーディオ、ビデオ、および/またはデータ上で収集されたリアルタイムメッセージングプロトコル(RTMP)データであり得る。履歴負荷データを含む負荷データは、負荷の様々なメトリックを含むことができる。各種メトリックの例の非限定的なリストは、ダウンリンクおよび/またはアップリンク(たとえば、バイト単位またはメガバイト単位で測定される)で各種セルに到着するか、または各種セルによって配信されるトラフィックの量、トラフィックを配信するために必要なエアインターフェースリソース、たとえば、物理リソースブロック(PRB)またはデータチャネルリソース、または制御チャネルリソース、アップリンクまたはダウンリンク送信によって消費される時間/周波数リソースの割合、各種セルに接続される装置の数、活性装置の数、配信する準備ができているデータを有する装置である活性装置、メガヘルツまたはPRBで表される、活性装置のシステム帯域幅に対する比、複数のセルにわたる装置の分散または負荷分散を考慮に入れ得る装置の有効数を含む。負荷データはまた、セルハイスループットの測定値、および/または装置ハイスループットの幾何平均などの装置ハイスループットの測定値を含み得る。負荷は、負荷の様々なメトリックのうちの1つ以上を備えるベクトルまたはタプルを備えることができる。負荷メトリックのいずれか1つは、一定の時間隔、例えば100ミリ秒、1秒、1分、または15分にわたって測定することができることが理解されるべきである。負荷メトリックは、その間隔にわたる平均、または間隔内の測定された負荷メトリックのパーセンタイル(たとえば、90パーセンタイル)、または間隔内に到達した最大値などであり得る。負荷データの履歴トレースまたは時間トレースは、たとえば24時間にわたる時間範囲にわたって、時間隔の時間範囲にわたって負荷メトリック値の配列を備え得、配列中の各負荷メトリックは1秒または1分などの時間隔にわたって計算される。時間隔の持続時間および過去の負荷トレースまたは負荷の時間トレースによって及ぶ時間の範囲は、柔軟に決定され得る。十分に長い時間範囲にわたって収集された負荷メトリックの時間トレースまたは履歴トレースは、所与の時間隔にわたって負荷を予測するためのモデルをトレーニングするために使用することができる。この予測は例えば、過去の負荷値の移動平均に基づいて、または単に最近観測された負荷値に基づいて、または、適切な形態の訓練されたニューラルネットワークによって、または他の非ニューラルネットワーク機械学習モデルなどによって決定されたフォワードルッキング予測であり得る。
【0060】
さらに、セルステータスが変更されたとき、すなわち、セルがスイッチオンまたはスイッチオフされたとき、サーブドデバイスは知られているように、アクティブセル間で再分配されることを理解されたい。本明細書では、用語「サーブドデバイス」がユーザ機器と同様に、デバイスに加えて、すなわち、用語「サーブドデバイス」はサーブドデバイスのトラフィックを指すデバイスへの/からのフロー、ストリーム、およびベアラもカバーすることにも留意されたい。サーブドデバイスは、1つのフロー、または複数のフロー、および/または1つのストリーム、または複数のストリーム、および/または1つのベアラ、または複数のベアラを有し得る。言い換えれば、「サーブドデバイス」は、前記サーブドデバイスの、ユーザデータおよび制御データを含む、データトラフィック全体を指し得、または前記サーブドデバイスのデータトラフィックの一部を指し得る。
【0061】
図5は訓練された節電モデルまたは訓練された節電モデルを含む装置の基本的な機能性を示し、例えば、長期の報酬が最大になるように、1つ以上のセルをいつオンまたはオフにするかを決定すること、すなわち、スループット(容量)がバランスされることを保証することに対する、節電の長期目標を示す。さらに、図5の例では、1つ以上のセルをスイッチオンまたはスイッチオフさせるアクションの後、いわゆるフリーズタイムがスイッチオンまたはスイッチオフされるセルごとに設定され、その間、セルはスイッチオンまたはスイッチオフされることを許可されないと仮定される。つまり、セルのフリーズタイム中は、セルの状態を変更することはできない。実装形態に応じて、セルがスイッチオンされた後のフリーズタイムは、セルがスイッチオフされた後のフリーズタイムとは異なり得るか、または同じフリーズタイムが両方のアクションの後に使用することができる。しかしながら、機能は、フリーズタイムなしに実装され得ることを理解されたい。さらに別の仮定は、負荷推定値が周期的に受信されることである。負荷推定のための時間隔は例えば、1分または15分であるように自由に設定され得る。同じことが凍結時間にも当てはまり、5分または10分または30分に自由に設定することができる。
【0062】
図5を参照すると、新しい負荷推定値が受信されるかどうかが監視される(ブロック501)。新しい負荷推定値は、負荷予測器モデルから受信され得るか、または負荷推定値はランダムアクセスネットワークノードによって測定された負荷データに基づいて、装置によって、または省電力モデルによって決定され得るか、または負荷推定値は負荷予測と測定された負荷データとの組合せであり得る。負荷推定値としての負荷予測の使用は、1つ以上のセルの事前のスイッチングオン/オフを容易にする。さらに、最適な行動が決定される時間tにおける負荷値は、行動が実行される前に測定可能ではない場合がある。
【0063】
新しい負荷推定が受信された場合(ブロック501:イエス)、ブロック502において、すべてのセルにフリーズタイムが残っているかどうか、すなわち、そのフリーズタイムが経過したので、オンまたはオフに切り替えることができるセルがあるかどうかがチェックされる。全てのセルは、フリーズタイムが残っている場合(ブロック502:イエス)、ステータス変更は不可能であり、プロセスはブロック501に戻り、新しい負荷推定値が受信されたかどうかを監視する。
【0064】
フリーズタイムが経過した1つ以上のセル、すなわち、状態が変更可能な1つ以上のセルが存在する場合、ブロック503において、負荷推定およびトレードオフ機能を使用することによって、例示された実例において「スイッチオン」、「スイッチオフ」、および「何もしない」(現行の状態が保持される手段に何もしない)で考えられるアクションの間の最適アクションが決定される。一実装形態では候補セルは、最適アクションが決定される前に決定され得、可能なアクションは候補セルに制限され得る。候補セルは、フリーズタイムが経過したセルである。
【0065】
トレードオフ関数は可能な行動ごとに長期報酬を定義することができ、最適な行動は、最大の報酬を提供する行動である。トレードオフ機能は、1つ以上のセルのオンまたはオフの切り替えに関連する相反する目的を考慮に入れる。一方では、1つ以上のセルをスイッチオフすることにより、電力消費を低減することができる。一方、1つ以上のセルをオフに切り替えることは、サービスを受けるデバイスとの間で送受信するために利用可能なエア・インターフェース・リソースを減少させる可能性があり、これにより、サービスを受けるデバイスのユーザーが経験するスループットが低下する。ネットワークオペレータは電力消費を低減することを望むかもしれないが、ハイスループットに高い衝撃を及ぼすことを望まないかもしれない。したがって、ネットワークオペレータはトレードオフに直面する-1つ以上のセルをスイッチオフすることによって電力消費を低減することは、スループットへの影響を犠牲にし得るが、スループットを増大させることは1つ以上の追加のセルをスイッチオンすることによって追加の電力を消費することを必要とし得る。トレードオフ関数は、スループットを改善し、電力消費を低減するという2つの相反する目的に対してネットワークオペレータによって与えられる相対的重要性を定量化する方法を表す。一実装形態では、トレードオフ機能が、達成されたスループット、消費された電力、ならびにスループット機能および電力消費機能の相対的重要性を表す相対的重みの機能として計算され得る。別の実装形態では、トレードオフ機能が、トレードオフを計算する際に使用するスループットの機能、電力消費の機能、および相対的重みを指定することによって、ポリシー入力としてネットワークオペレータによって提供され得る。スループットの機能は利益機能として考えることができ、電力消費の機能は、ペナルティ機能として考えることができる。利益関数は例えば、サーブドデバイス当たりの有効スループットの効用関数であってもよい。一実装形態では、利益関数がスケーリングまたは正規化定数と物理リソースブロックの数とを乗算された、対象デバイスごとのスループットの対数であり得る。一実装形態では、トレードオフ関数が実行されるべき最適アクションを決定するための強化学習に使用される報酬計算の基礎を形成することができる。報酬は例えば、単純な報酬関数(式1)を用いて算出することができる。
【数1】
ここで、Rは報酬であり、loadは負荷の推定値、current_cellsは現在アクティブなセルのセットであり、すなわち、以前にスイッチオンされ、そのフリーズタイムが経過したセルである(フリーズタイムが使用される場合)。アクションは{switch_on_new_cell、switch_off_cell、do_nothing}のいずれかである。Fはスループットに対する利益関数である。new_cellsは、アクションを実行した後のアクティブなセルのセットである(アクションがdo_nothingの場合、current_cellsと同じになる)。βは、ポリシーまたは構成入力として受け取られる相対的な重みである。電力は、電力消費に対するペナルティ関数である。
【0066】
相対重みβは、好ましくは正の数である。例えば、0より大きく1以下の値を有する実数、または1以上の整数、または1~100の整数などの範囲の整数であり、単に相対重みの非限定的な例を与える。例えば、利益関数Fが、例えば正規化(例えば、最大スループットで達成される最大値に対して)を実行することによって、結果が0と1との間である機能であり、消費される電力が最大電力消費によって正規化され、その結果、電力も0と1との間の数として表され、0と1との間の実数としての相対的重みを有する実装では、スループットおよび電力に対する利益関数の範囲(電力消費に対するペナルティ機能)に相応する相対的重み付けが提供される。
【0067】
以下の式(2)は別の報酬関数を定義し、ブロック503において使用され得る
【数2】
ここで、
【数3】
である。
ここで、
Rは、状態S(t)において行動A(t)をとるための報酬である。F1は、アクションを取った後にアクティブセルによって提供されるハイスループットに基づいて利益を捕捉する。F2は、セルをアクティブに保つための電力消費のペナルティを捕捉する。cはセル及びセルの順序を示し、1,2,..N_max_cells(すなわち、最大セル数)である。tは現在時刻である。S(t)は、現在時刻における状態である。A(t)は状態S(t)で取られたアクション{switch_on_new_cell、switch_off_cell、do_nothing}であり、N_cells(t)は、アクションを取った後に瞬時に起こると仮定され、PRB_eff(t,c)はアクションを取った後にアクティブセルc内のユーザデータのために使用されるアクティブセルの物理リソースブロックであり、N_eff(t,c)はアクションを取った後にアクティブセルc内の有効な新しいサーブされた装置の数であり、等しく分散されたストリーム(アクティブセルの数が変化した後)を仮定する。N_active(t,c)はアクションを取る前の時間tにおけるセルc内の活性サーブされた装置の数であり、T_cell(t,c)は時刻tにおけるセルcのアクティブスループットであり、βは相対的な重みであり、Pは、アクションを起こした後のアクティブセルの集合の消費電力である。
【0068】
時間tにおけるセルcにおける活性ハイスループット、すなわち、t_cell(t,c)は1つ以上の無線アクセスノードから受信された負荷測定報告、すなわち、負荷データに基づいて決定され得ることを理解されたい。時間tにおけるセルcにおける活性ハイスループットは、サーブドデバイスの分布およびセルにおける干渉に依存する。式(2)の仮定はセル内のサーブドデバイスの空間分布および他のセルによって引き起こされる干渉を含むセルスループットが別のセルのステータスを変更した後に変化しないが、セル内のサーブドデバイスの有効数が変化すると仮定される粗い近似を使用する。当然、時間tにおけるセルcにおける活性ハイスループットを決定するためのより正確な方法が使用され得、例えば、セルハイスループットに加えて、サーブドデバイスハイスループットに関する報告を受信する。
【0069】
電力消費は、1つ以上の無線アクセスノードから受信された電力測定報告に基づくことができる。無線アクセスノードは時間隔ごとに消費される電力を監視し、報告することができる。したがって、過去の電力測定報告に基づいて、アクション後のアクティブセルの新しいセットが知られているので、アクションを行った後の電力消費量を推定(または予測)することは比較的簡単である。基本的に、セルの電力消費は主に、セルが送信している時間/周波数リソースの数に依存する。
【0070】
最も単純な状態S(t)は、ブロック502においてフリーズタイムが考慮されるので、current_cellsまたは(load、current_cells)であり得る。しかし、状態は(current_cells、freeze_state)、または(load、current_cells、freeze_state)であってもよく、freeze_stateはスイッチのオン/オフが許可、たとえば、freeze_state=1である限り、それ以上のスイッチのオン/オフアクションは許可されない。
【0071】
選択されたアクションがセルオンである場合(ブロック504:イエス)、すなわち、セルをスイッチオンする場合、ブロック505において、セルのスイッチオンが引き起こされ、ブロック506において、フリーズタイムの経過の監視が開始される。次いで、プロセスはブロック501に戻り、新しい負荷推定値が受信されたかどうかを監視する。処理が装置以外の装置、例えば、基地局で実行され、セルを提供する場合、アクションを実行する指令がセルを提供する前記装置に送信されるという手段を実行する。
【0072】
選択されたアクションがセルオフ、すなわち、オフセルである場合(ブロック504:ノー、ブロック507:イエス)、ブロック508において、セルのスイッチオフが引き起こされ、ブロック506において、フリーズタイムの経過の監視が開始される。
次いで、プロセスはブロック501に戻り、新しい負荷推定値が受信されたかどうかを監視する。処理が装置以外の装置、例えば、基地局で実行され、セルを提供する場合、アクションを実行する指令がセルを提供する前記装置に送信されるという手段を実行する。
【0073】
選択されたアクションが「何もしない」場合(ブロック504:いいえ、ブロック507:いいえ)、プロセスはブロック501に戻り、新しい負荷推定値が受信されるかどうかを監視する。
【0074】
可能な最適アクションが1つ以上のセルの電力設定を変更することも含む実装形態では、ブロック502が依然としてフリーズタイムが残っている(フリーズタイムが経過していない)間にセルの電力設定を変更することを可能にする実装形態では省略され得る。
【0075】
図5のプロセスは、新しい負荷推定値を受信する以外の別の事象によってもトリガされ得ることを理解されたい。プロセスはたとえば、1つ以上のセルのフリーズタイムが経過したときにもトリガされ得る。
【0076】
図6は、無線アクセスノードRAN-nと、省電力モデルPSMと、負荷予測モデルLPMとの間の情報交換の例を示す。説明を簡潔に保つために、情報交換は省電力最適化に特有の新しい機能に焦点を当て、測定およびそれらがどのように構成されるかに関する詳細はたとえそれらが実行されたとしても、議論されない。さらに、RAN-nは、本明細書では複数のRAN-nsを示すことを理解されたい。
【0077】
図6を参照すると、PSMは、メッセージ6-1において、ポリシーAPI(アプリケーションプログラミングインターフェース)の手段によって、PSMのポリシーを受信する。ポリシーは例えば、相対的重み及びフリーズタイム(フリーズ状態持続時間)を含むことができる。
【0078】
次に、PSMは、省電力APIの手段によってメッセージ6-2を送信することによって、LPMを開始する。メッセージ6-2は、追加の属性を有する特定のセル/セルに対する負荷予測要求または負荷推定要求である。追加の属性は例えば、予測区間、および/または平均ウィンドウの持続時間(移動平均が使用される場合)、および/または予測の種類、予測平均負荷および予測90パーセンタイル負荷等を含む種類の例を含むことができる。上記は、追加の属性の網羅的なリストではないことを理解されたい。
【0079】
LPMはブロック6-3において、負荷予測を予測し、すなわち、負荷予測を出力し、メッセージ6-4において、負荷予測、または負荷推定を、負荷予測APIの手段によってPSMに送信する。(負荷予測のためにLPMがRAN-nから負荷データをどのように受信するかの詳細はPSM機能性に重要ではなく、したがって、本明細書でより詳細にそれを説明する必要はない。知られているように、負荷データを伝達するためのいくつかの方法がある。)
【0080】
PSMは、ブロック6-5において、取られるべきアクションを決定する。PSMは例えば、図5で上述したようなQ学習を使用する強化学習ベースのモデルであってもよい。
【0081】
図示の実施形態では、決定された最適アクションがセルのスイッチオンまたはセルのスイッチオフのいずれかであり、したがって、PSMはデータライトAPIの手段によってセルオン/オフ決定をRAN-nに送信する(6-6)。
【0082】
RAN-nはブロック6-7においてアクションを実行し、すなわち、セルをオンまたはオフに切り替える。また、RAN-nは要求/構成(図6に示されていない要求)としてブロック6~7で監視を行い、RANデータ(周期的RANデータ)の送信を継続し、ここでのロードデータ、消費電力等を対象とするRANデータを、要求された時間の粒度で、メッセージ6~8で、例えば1分間に1回、15分間に1回等(1/15分間等)、データ書込APIの手段により、RAN-nで報告する。RANデータは、PSM、すなわち省電力Q学習モデル(省電力Q機能)、およびLPM、すなわち負荷モデルを更新するために必要な、それぞれの負荷KPI(主要性能指標)および性能(スループット)に対応する。たとえば、RAN-nはセルc状態、および時間単位t状態に、Active_state(t,c)、PRB(t,c)、N_eff(t,c)、Power_consumed(t,c)、T_cell(t,c)、T_user(t,c)、freeze_state(t,c)などのものを監視および報告することができる。時間単位tの値はRANデータの周期性と同じであってもよいし、それより小さくてもよい。図示の例では、PSMがブロック6-9において、追加のデータ、すなわち、メッセージ6-8内のデータを使用して、省電力Q学習モデルを再トレーニングする。初期Q学習モデルは、おそらくはネットワークの他のいくつかの他のセル部分についてであり得るトレーニング履歴データを使用することによって取得することができ、したがって、初期Q機能はQ機能を適用する特定のセルを正確には表さないことがある。したがって、最初のQ機能から開始し、それに基づいてアクションを決定するが、問題の特定のセルからのRANデータも観察し、観察されたデータに基づいてQ機能を更新/再訓練する。
【0083】
予測のための時間隔が経過すると、LPMは新たな負荷予測を実行し(ブロック6-3)、情報交換は上述したことに従って、そこから継続する。ブロック6~3および6~9は、省電力決定および学習の1つのインスタンスを説明する。
【0084】
省電力決定および学習の第1のインスタンスでは、初期Q学習モデルが使用されるとき、Q学習モデルは、ブロック6-3において、モデルが特定のセルを正確に表すとは限らないことがあり、それは初期Q学習モデルがいくつかの他のセルまたは無線アクセスネットワークの他の部分の履歴データを使用するオフライントレーニングの結果であり得るからである。しかしながら、特定のセルのRANデータを使用して、ブロック6~9においてより頻繁に再トレーニングするほど、再トレーニングされたQ学習モデルは、特定のセルをより良く表す。図7および図9は、マルチエピソードシミュレーションを使用して、初期Q学習モデル、すなわちフィードバック(無線アクセスネットワークノードからの報告)を使用してまだ更新/再訓練されていない省電力モデルを訓練するための様々な方法を示す。
【0085】
両方の実例において、履歴データはロードデータの展開(例えば、使用されている活性サーブドデバイスの個数、および/または物理リソースブロックの手段による)、電力消耗データ、およびセルスループットデータを提供する複数の時系列を含むオフラインデータであると仮定される。負荷データは、状態、および達成可能な報酬を識別するためのスループット/電力関連メトリックを識別するために使用される。いくつかの実装形態では、履歴データがサーブドデバイス(複数可)スループットデータの発展を提供する複数の時系列を備えることができる。履歴データは、例えば、1時間の持続時間の時系列であってもよく、1つの時系列は複数のタイムステップ、例えば、複数の1つの微小粒度負荷試料を含むことができる。たとえば、1 週間の間に履歴データを収集すると、1 時間の時系列から168 時間の時系列が生成される。タイムステップごとのスループットも知られているか、または履歴データに基づいて決定可能でさらなる仮定がなされる。例えば、負荷時系列における試料ごとに、セルごとに、活性サーブドデバイスの数と、時間隔、時間隔、複数の時間隔内のタイムステップであり得る所与の時間期間における物理リソースブロック(PRB)利用とを表すタプルを備えることができる。タプルはまた、所与の時間隔におけるセルスループットを備えることができる。ロードのためのタプルは例えば、ロード(タプル)成分の平均および分散、またはロード成分の平均およびXパーセンタイルに拡張され得る。
【0086】
アクティブ数のセルが1つ以上のセルをスイッチオンまたはスイッチオフすることによって変化するとき、サーブドデバイスは、新しいセルのセットにわたって分散され、アクションをとった後の新しいハイスループットまたは負荷は、アクションの前のハイスループットに、アクションの前の数のセルを掛け、アクションの後の数のセルで割ったものであると仮定される。他の実装形態では、負荷がどのように分散されるか、およびセルをオンまたはオフに切り替えた後にどのくらいのスループットが得られるかを予測するための負荷分散モデルが使用することができる。
【0087】
1つの時系列、例えば、1時間のサンプルは、訓練のためのエピソードとして、またはQ学習モデルのための水平線のように考えられ得る。
【0088】
通常、オフラインデータは1つ以上のセルのスイッチオンまたはオフを考慮に入れずに、固定数のセルを有する履歴データを表す。そのようなデータセットの使用は、負荷のベースライン変動および結果として生じるスループットを捕捉する。Q学習モデルについて、ベースライン変動を捕捉するデータセットは、良好なトレーニングデータを提供する。
【0089】
図7を参照すると、訓練プロセスはブロック701において、Q学習モデルを初期化し、ブロック702において、履歴負荷データを取得することによって開始する。モデルはブロック701において、例えば、全てのペア(状態、アクション)に対するQ関数の初期値を0に設定することによって初期化されてもよい。ブロック701においてモデルがどのように初期化され得るかの別の非限定的な例は、すべての(状態、アクション)対について高い一定数に初期値を設定することを含み、その結果、学習プロセスの初期において、まだ試行されていないアクションがより高い尤度で選択されることになる。これにより、トレーニングフェーズの初期段階での探索を増やすことができ、Q ラーニングのスピードアップが可能になる。
【0090】
次いで、ブロック703において、1つの時系列が処理されると見なされ、ブロック704において、1つの時系列から処理されると見なされる。次いで、Q学習モデルにおける現在知られているQ値およびイプシロン・グリーディ探索に基づいて、アクションが選択される。次いで、報酬はブロック706において、選択されたアクション、負荷サンプル、例えば、タイムステップのスループット、および電力消費のペナルティに基づいて評価される。例えば、式(2)は、報酬を評価するためにブロック706において使用されてもよく、行動から生じる報酬の評価が決定される。その後、Q学習モデルにおけるQ値は、それに応じてブロック707において更新される。
【0091】
その後、ブロック708において、処理されるブロック703において取得された時系列内のすべてのタイムステップが処理されたかどうかがチェックされる。そうでない場合(ブロック708:ノー)、プロセスはブロック704に進み、処理されるべき次のタイムステップを行う。
【0092】
前記時系列内のすべての時系列が処理された場合(ブロック708:イエス)、ブロック709において、履歴データ内のすべての時系列が処理されたかどうかがチェックされる。そうでない場合(ブロック709:ノー)、プロセスはブロック703に進み、次の時系列を処理する。
【0093】
すべての時系列が処理されている場合(ブロック709:イエス)、初期Q学習モデルは上述され、図8を用いて説明されるように、訓練され、使用のために準備され(ブロック710)、使用中に再訓練される。
【0094】
図7のトレーニングは、各時系列にわたって(複数のエピソードにわたって)、および複数のタイムステップにわたって反復することが分かる。
【0095】
現在使用されているQ学習モデルは、オンラインで(再)訓練されてもよい。再訓練は、図6で説明したように、RANデータを含む報告が無線アクセスネットワークノードから受信されたとき、または、無線アクセスネットワークノードがQ学習モデルを含む場合、たとえば、報告の準備ができており、それによってRANデータが受信されたときにトリガされ得る。再訓練をトリガすることができるさらなる例は、RANデータに基づいて十分な量のデータ(例えば、1日などの一定の持続時間にわたって)が蓄積されたことを検出すること、または、観測されたスループットが報酬を計算するために使用された想定スループットから、事前設定閾値(または事前プリセット時間事前設定閾値)を超えて発散したことを検出することを含む。
【0096】
図8を参照すると、RANデータがブロック801において受信されるとき、図7の上記のブロック705、706、707は、ブロック802において、報告において使用される時間単位ごとに実行される。言い換えれば、時間ユニットは、初期Q学習モデルを訓練する際に使用されるタイムステップに対応する。しかし、タイムステップと時間ユニットの持続時間は異なっていてもよい。より正確には、図7のブロック705、706、707はすべてのRANデータが使用されるように、最も古いRANデータから始まるブロック802において繰り返される。例えば、報告周期が15分であり、時間単位が3分である場合、図7のブロック705、706、707は5回繰り返される。次に、使用中のQ学習モデルは、ブロック802の最終結果に対応するように更新される。
【0097】
図9を参照すると、訓練プロセスは、ブロック901において、例えば図7で説明したように、Q学習テーブル(Q学習モデル)を初期化し、ブロック902において履歴データを取得することによって開始する。Q学習テーブルサイズを小さく保つために、ブロック901において、負荷、すなわちL(t)を量子化することができる。
【0098】
次いで、ブロック903において、1つの時系列が処理されるようにされ、時系列のすべてのセルのセル状態が、ブロック904において、対応するアクションで初期化される。例えば、デフォルト値を使用することができる。(ブロック903において、負荷、すなわちL(t)も量子化され得る。そして、時系列から、ブロック905において1つのタイムステップが処理されるようになり、例えば、以下の式(3)を用いて、タイムステップtについて状態が決定される。
【数4】
であり、ここで、N_cells(t-1)は、前のタイムステップで選択されたアクションから得られたアクティブセルの数である。
【0099】
次いで、ブロック907において、フリーズ(t)の値に基づいて、許可されたアクションが決定される。
【数5】
ここで、A(t)はタイムステップにおけるアクションを示し、確率εは、タイムステップ反復中に定数値または減衰する値のいずれかである。確率εの値はデフォルト値、例えば、Q学習テーブルの初期化中に設定される値であってもよい。
【0100】
アクションが選択されると、アクションが実行された後のアクティブセルの数(N_cells(t))がブロック909において決定され、ブロック909において、選択されたアクションに従うようにフリーズが設定される。例えば、フリーズタイムTがタイムステップtよりも長く持続すると仮定すると、擬似コードにおける以下のロジックに従うことができる。
【数6】
【0101】
次いで、報酬はブロック910において、選択されたアクション、負荷サンプル、例えば、タイムステップのスループット、および電力消費のペナルティに基づいて計算される。例えば、式(2)は、ブロック910において、報酬を計算するために使用されてもよく、その結果、タイムステップについて値R(S(t),A(t))を報酬とする。その後、Q学習アルゴリズムは、ブロック911において、例えば以下の式(4)を用いて更新される。
【数7】
ここで、tは選択されたアクションが発生する前の状況を示し、t+1は、選択されたアクションが発生した後の状況を示す。α=学習率、γ= 割引率である。学習率及び割引率は、例えばQ学習テーブルの初期化時に設定されるデフォルト値であってもよい。
【0102】
Q学習アルゴリズムを更新した後、ブロック912で、処理されるブロック903で取得された時系列内のすべてのタイムステップが処理されたかどうかがチェックされる。そうでない場合(ブロック912:ノー)、プロセスはブロック905に進み、処理されるべき次のタイムステップを行う。
【0103】
前記時系列内のすべての時系列が処理された場合(ブロック912:イエス)、
ブロック913において、履歴データ内のすべての時系列が処理されたかどうかがチェックされる。そうでない場合(ブロック913:ノー)、プロセスはブロック903に進み、次の時系列を処理する。
【0104】
すべての時系列が処理されている場合(ブロック913:イエス)、Q学習モデルは上述のように、訓練され、使用の準備ができており(ブロック914)、使用中に再訓練される。
【0105】
図9の訓練はまた、各時系列にわたって(複数のエピソードにわたって)、および複数のタイムステップにわたって反復する。
【0106】
別の実装形態では、状態-アクション対が個々のタイムステップを処理する前に、すべての時系列について初期化される。言い換えれば、ブロック904は、ブロック903が実行される前に時系列に対して実行される。
【0107】
現在使用されているQ学習モデルは、オンラインで(再)訓練されてもよい。再訓練は、図6で説明したように、RANデータを含む報告が無線アクセスネットワークノードから受信されたとき、または、無線アクセスネットワークノードがQ学習モデルを含む場合、たとえば、報告の準備ができており、それによってRANデータが受信されたときにトリガされ得る。再訓練をトリガすることができるさらなる例は、RANデータに基づいて十分な量のデータ(例えば、1日などの一定の持続時間にわたって)が蓄積されたことを検出すること、または、観測されたスループットが報酬を計算するために使用された想定スループットから、事前設定閾値(または事前プリセット時間事前設定閾値)を超えて発散したことを検出することを含む。
【0108】
図10を参照すると、RANデータがブロック1001で受信されると、図9の上記のブロック906~911は、ブロック1002で、報告で使用される時間単位ごとに実行される。言い換えれば、時間ユニットは、初期Q学習モデルを訓練する際に使用されるタイムステップに対応する。しかし、タイムステップと時間ユニットの持続時間は異なっていてもよい。より正確には、図9のブロック906~911がすべてのRANデータが使用されるように、最も古いRANデータから始まるブロック1002において繰り返される。例えば、報告周期が15分であり、時間単位が3分である場合、図9のブロック906~911は5回繰り返される。次に、使用中のQ学習モデルは、ブロック1002の最終結果に対応するように更新される。
【0109】
上記の例から分かるように、いかなるスループット/電力モデルも想定せず、環境から学習することなく、省電力とスループット性能とのバランスを取ることが可能である。さらに、セルがいつオンまたはオフに切り換えられることができるかを決定するために、事前設定された閾値が必要とされない。長期的な報酬が最大化(最適化)されると、ネットワーク性能を向上させることができる。
【0110】
図2図10の手段によって上述したブロック、関連する機能、および情報交換は絶対的な時系列順ではなく、それらのうちのいくつかは、同時に、または所与の順序とは異なる順序で実行され得る。他の機能もそれらの間で、またはそれらの中で実行することができ、他の情報を送信することができ、および/または他の機械学習方法を適用することができる。ブロックの一部またはブロックの一部または1つ以上の情報は、また、除外されるか、またはブロックの対応するブロックもしくは一部または1つ以上の情報によって置き換えられ得る。
【0111】
図10および11は、少なくとも1つのプロセッサまたは処理回路などの通信コントローラ1010、1110と、コンピュータプログラムコード(ソフトウェア、アルゴリズム)ALG.1021、1121を含む少なくとも1つのメモリ1020、1120とを備える装置を示す。ここで、前記少なくとも1つのメモリおよび前記コンピュータプログラムコード(ソフトウェア、アルゴリズム)は前記少なくとも1つのプロセッサを用いて、前記それぞれの装置に、上述の実施形態、例、および実装形態のうちのいずれか1つを実行させるように構成される。図10は、訓練されたモデルを使用することによって、セルのグループのための最適アクションを少なくとも決定するように構成された装置を示し、図11は、訓練されたモデルを訓練および/または再訓練するように構成された装置を示す。当然のことながら、装置はマージされてもよく、すなわち、装置は訓練されたモデルを使用することによって、セルのグループのための最適アクションを決定し、少なくともモデルを再訓練するように構成されてもよい。図10および図11の装置は、電子デバイスであり得る。そのような装置の異なる例は、上に与えられている。
【0112】
図10および図11を参照すると、メモリ1020、1120は、半導体ベースのメモリ、フラッシュメモリ、磁気メモリおよびシステム、光メモリおよびシステム、固定メモリおよびリムーバブルメモリなど、任意の適切なデータ記憶技術を使用して実装され得る。メモリは、構成記憶CONF.1021, 1121、例えば、構成データベースはRANデータ、すなわち、セル上で受信されたレポートを備えることができる。および/または、ポリシー定義、例えば、相対的重みおよびフリーズタイム設定、および/またはトレーニングのためのデフォルト値などを少なくとも一時的に記憶するためのものである。メモリ1020、1120は、他の情報、たとえばxAPI定義をさらに記憶することができる。
【0113】
図10を参照すると、装置1000は、少なくとも1つ以上の無線通信プロトコルに従って通信接続を実現するためのハードウェアおよび/またはソフトウェアを備える通信インタフェース1030をさらに備えることができる。通信インタフェース1030は、ワイヤレスネットワークの1つ以上の基地局(アクセスノード)との、有線接続を介した、および/または無線接続を介した、通信能力を装置に提供できる。通信インターフェースは、増幅器、フィルタ、周波数変換器および回路、アナログ領域とデジタル領域との間の信号を変換する変換回路、ならびに1つ以上のアンテナなどの標準的な周知のアナログ無線構成要素を備えることができる。信号の伝達および/または受信に関するデジタル信号処理は、通信コントローラ1010において実行され得る。
【0114】
装置1000は、O-RANのオープンプラットフォームと対話するために1つ以上のコンピュータプログラムアプリケーションを実行するアプリケーションプロセッサ(図10に図示せず)をさらに備えることができる。アプリケーションプロセッサは、装置の主要な機能を形成するコンピュータプログラムを実行することができる。装置がアクセスノードである場合、アプリケーションプロセッサは、アクセスアプリケーションを実行し得る。一実施形態では、図10の装置の機能の少なくともいくつかは1つのアクションエンティティを形成する2つの物理的に別個のデバイス間で共有され得る。したがって、装置は、装置内の省電力モジュールに関して説明されたプロセスのうちの少なくともいくつかを実行するための1つ以上の物理的に別個のデバイスを備えるアクションエンティティを描写するように、またはRIC-non-RT内の装置として、見ることができる。
【0115】
通信コントローラ1010は、上述の実施形態/例/実装形態のうちのいずれか1つに従って実行されるべき最適アクションを少なくとも決定するように構成された1つ以上の訓練されたモデル(PSM)1011を備えることができる。
【0116】
図11を参照すると、トレーニングのための装置は、1つ以上の通信プロトコルに従って通信接続性を実現するためのハードウェアおよび/またはソフトウェアを備える通信インタフェース1130を備える。通信インタフェース1130は、最適アクションを決定するための訓練されたモデルを備える1つ以上の装置、および/またはワイヤレスネットワークの1つ以上の基地局(アクセスノード)を備える1つ以上の装置との通信能力を装置に提供することができる。通信インターフェースは、増幅器、フィルタ、周波数変換器、(逆)変調器、およびエンコーダ/デコーダ回路、ならびに1つ以上のアンテナなどの標準的な周知の構成要素を備えることができる。
【0117】
通信コントローラ1110は、上述の実施形態/例/実装形態のいずれか1つに従って、最適アクションを決定するための訓練されたモデルを少なくとも最初に訓練するために、1つ以上の訓練可能な機能を訓練するように構成されたトレーナ回路TRAINER1111を備える。
【0118】
一実施形態では、図11の装置の機能の少なくともいくつかは1つのアクションエンティティを形成する2つの物理的に別個のデバイス間で共有され得る。したがって、装置は、トレーニングに関して説明されたプロセスのうちの少なくともいくつかを実行するための1つ以上の物理的に別個のデバイスを備えるアクションエンティティを示すと見なすことができる。
【0119】
本出願で使用される場合、「回路」という用語は、以下のすべてを指す。
(a)アナログおよび/またはデジタル回路のみにおける実装などのハードウェア専用回路実装、および
(b)回路およびソフトウェア(および/またはファームウェア)の組み合わせ、例えば(適用可能):
(i)装置に様々な機能を実行させるために共に働くプロセッサ(複数可)またはプロセッサ(複数可)/ソフトウェア(複数可)の部分の組み合わせ、ソフトウェア、およびメモリ(複数可)、ならびに
(c)ソフトウェアまたはファームウェアが物理的に存在しない場合であっても、アクションのためにソフトウェアまたはファームウェアを必要とするマイクロプロセッサ(複数可)またはマイクロプロセッサ(複数可)の部分などの回路。
「回路」のこの定義は、本出願におけるこの用語の全ての使用に適用される。さらなる例として、本出願で使用されるように、用語「回路」は、単にプロセッサ(または複数のプロセッサ)またはプロセッサの一部、およびそれに付随するソフトウェアおよび/またはファームウェアの実装も包含する。用語「回路」は、また、例えば、特定の要素、ベースバンド集積回路、またはモバイルフォン(スマートフォン)のためのアプリケーションプロセッサ集積回路、またはサーバ、セルラーネットワークデバイス、または別のネットワークデバイスにおける同様の集積回路に適用可能である場合を含む。
【0120】
一実施形態では、図2図10に関連して説明されたプロセスの少なくともいくつかは、
説明されたプロセスの少なくともいくつかを実行するための対応する手段を備える装置によって実行され得る。装置はプロセスの別々の段階のための別々の手段を備えてもよく、または手段はいくつかの段階またはプロセス全体を実行してもよい。処理を実行するためのいくつかの例示的な手段は、検出器、プロセッサ(デュアルコアおよびマルチコアプロセッサを含む)、デジタルシグナルプロセッサ、コントローラ、受信機、送信機、エンコーダ、復号器、メモリ、RAM、ROM、ソフトウェア、ファームウェア、ディスプレイ、ユーザインターフェース、ディスプレイ回路、ユーザインターフェース回路、ユーザインターフェースソフトウェア、ディスプレイソフトウェア、回路、アンテナ、アンテナ回路、および回路のうちの少なくとも1つを含むことができる。一実施形態では、少なくとも1つのプロセッサ、メモリ、およびコンピュータプログラムコード形成処理手段は、本明細書で説明する実施形態/例/実装形態のいずれか1つによる1つ以上のアクションを実行するための1つ以上のコンピュータプログラムコード部を備える。
【0121】
さらに別の実施形態によれば、実施形態を実行する装置は、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリとを含む回路を備える。アクティブ化されると、回路は装置に、図2図10の実施形態/実施例/実装のいずれか1つによる機能性の少なくともいくつか、またはそれらのアクションを実行させる。
【0122】
本明細書で説明する技術および方法は、様々な手段によって実装され得る。たとえば、これらの技術は、ハードウェア(1つ以上のデバイス)、ファームウェア(1つ以上のデバイス)、ソフトウェア(1つ以上のモジュール)、またはそれらの組み合わせで実装され得る。ハードウェア実装の場合、実施形態の装置は、1つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブル論理デバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、本明細書で説明する機能を実行するように設計された他の電子ユニット、またはそれらの組み合わせ内で実装され得る。ファームウェアまたはソフトウェアの場合、実装は本明細書で説明する機能を実行する少なくとも1つのチップセット(たとえば、プロシージャ、機能など)の部を通して実行され得る。ソフトウェアコードは、メモリユニットに記憶され、プロセッサによって実行され得る。メモリユニットは、プロセッサ内に実装されてもよく、またはプロセッサの外部に実装されてもよい。後者の場合、当技術分野で知られているように、様々な手段を介してプロセッサに通信可能に結合することができる。さらに、本明細書で説明するシステム(装置)の構成要素は、それに関して説明する種々の態様などの達成を容易にするために、追加の構成要素によって再構成および/または補完されることができ、それらは、当業者によって理解されるように、所与の図面に記載される正確な構成に限定されない。
【0123】
説明されるような実施形態/例/実装形態は、コンピュータプログラムまたはその一部によって定義されるコンピュータプロセスの形態で実行されてもよい。図2図10に関連して説明される方法の実施形態は、対応する命令を備えるコンピュータプログラムの少なくとも一部分を実行することによって実行され得る。コンピュータプログラムは、ソースコード形態、オブジェクトコード形態、またはいくつかの中間形態であり得、プログラムを搬送することが可能な任意のエンティティまたはデバイスであり得る、いくつかの種類のキャリアに記憶されることができる。例えば、コンピュータプログラムは、コンピュータまたはプロセッサによって読み取り可能なコンピュータプログラム配布メディアに記憶されてもよい。コンピュータプログラムメディアは、例えば、記録メディア、コンピュータメモリ、読み出し専用メモリ、電気キャリア信号、電気通信信号、およびソフトウェア配布パッケージであってもよいが、これらに限定されない。コンピュータプログラムメディアは例えば、非一時的メディアであってもよい。図示され説明された実施形態を実行するためのソフトウェアの符号化は、十分に当業者の範囲内である。一実施形態では、コンピュータ可読メディアが前記コンピュータプログラムを含む。
【0124】
本発明は添付の図面による実施例を参照して上述されたが、本発明はそれに限定されず、添付の特許請求の範囲内でいくつかの方法で変更され得ることが明らかである。したがって、すべての単語および発現は広く解釈されるべきであり、それらは、実施形態を例示することを意図し、限定することを意図しない。技術が進歩することにつれて、本発明の概念が様々な方法で実施され得ることは、当業者には明らかである。さらに、記載された実施形態は様々な方法で他の実施形態と組み合わせることができるが、必要ではないことが、当業者には明らかである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
【外国語明細書】