IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 中国電力科学研究院有限公司の特許一覧 ▶ 山東大学の特許一覧 ▶ 上海交通大学の特許一覧

特開2024-68611ネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法及びシステム
<>
  • 特開-ネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法及びシステム 図1
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024068611
(43)【公開日】2024-05-20
(54)【発明の名称】ネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法及びシステム
(51)【国際特許分類】
   G06N 20/00 20190101AFI20240513BHJP
【FI】
G06N20/00
【審査請求】有
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2023072062
(22)【出願日】2023-04-26
(11)【特許番号】
(45)【特許公報発行日】2023-11-16
(31)【優先権主張番号】202211388054.0
(32)【優先日】2022-11-08
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】518119238
【氏名又は名称】中国電力科学研究院有限公司
【氏名又は名称原語表記】China Electric Power Research Institute Company Limited
【住所又は居所原語表記】No.15 Xiaoying East Road, Qinghe, Haidian Distict, Beijing 100192, China
(71)【出願人】
【識別番号】521017642
【氏名又は名称】山東大学
【氏名又は名称原語表記】SHANDONG UNIVERSITY
【住所又は居所原語表記】No.17923, Jingshi Road, Lixia District Jinan, Shandong 250061, China
(71)【出願人】
【識別番号】507190994
【氏名又は名称】上海交通大学
【氏名又は名称原語表記】SHANGHAI JIAO TONG UNIVERSITY
【住所又は居所原語表記】800 Dongchuan Rd.,Minhang District,Shanghai,200240,P.R.CHINA
(74)【代理人】
【識別番号】100146374
【弁理士】
【氏名又は名称】有馬 百子
(72)【発明者】
【氏名】呂 天光
(72)【発明者】
【氏名】李 競
(72)【発明者】
【氏名】盛 万興
(72)【発明者】
【氏名】李 蕊
(72)【発明者】
【氏名】程 浩源
(72)【発明者】
【氏名】艾 ▲セン▼
(72)【発明者】
【氏名】楊 明
(72)【発明者】
【氏名】王 飛
(72)【発明者】
【氏名】韓 学山
(72)【発明者】
【氏名】鄒 貴彬
(72)【発明者】
【氏名】王 成福
(57)【要約】      (修正有)
【課題】ネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法及びシステムを提供する。
【解決手段】方法は、時間変動インパクトモデルを構築し、各エージェントユーザーがデマンドレスポンスに参加する能力を説明するステップと、時間変動インパクトモデルに基づく自己組織インセンティブメカニズムを構築するステップと、分散型ネットワークマネージャーにおけるパラメータサーバーを基に、1つのネストされた連合学習最適計算フレームワークを構築し、ユーザープライバシーを保証する前提で、このフレームワークが、自己組織体における各エージェント効用の最適収束値を算出し、さらに分散型ネットワークマネージャーからこの情報を取得するステップと、最後に、パラメータサーバーが、モデルを統合しエージェントに戻して、効率的で経済的なデマンドレスポンス管理を実現するステップと、を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
ネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法であって、
反復回数、プライバシーバジェット及びデマンドレスポンス能力を初期化し、貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するステップ1と、
貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出してパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得するステップであって、前記パラメータサーバー側は、インフルエンス値に基づいてそれぞれのユーザー側が自己組織体に加入するか否かを判断し、ユーザー側のインフルエンス値が高いほど、自己組織体に加入する可能性が高くなるステップ2と、
自己組織体に加入するというフィードバックを受信した後、トレニンーグサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに加入する1組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するステップ3と、
平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するステップ4と、
最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償コストを取得するステップ5と、
結果が収束するか否かを判断し、結果が収束しない場合に、ステップ3に戻り、結果が収束する場合に、自己組織体のうち、デマンドレスポンスに参加する最終的な自己組織体メンバーを特定し、参加能力基準値及びプライバシーバジェット基準値を更新し、反復回数を増加させ、ステップ2に戻るステップ6と、を含む
ことを特徴とするネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法。
【請求項2】
ユーザー側iの効用Ui,tとしては、
ことを特徴とする請求項1に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法。
【請求項3】
分散型ネットワークマネージャーの効用は、連合学習トレニンーグモデルの性能と分散型ネットワークマネージャーのコストの2部分に決められる
ことを特徴とする請求項1に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法。
【請求項4】
前記分散型ネットワークマネージャーのコストは、デマンドレスポンスプロセスにおける応答コストと、連合学習プロセスにおける総プライバシー補償コストとに決められる
ことを特徴とする請求項3に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法。
【請求項5】
結果が収束するか否かを判断する方法としては、ユーザー側及び分散型ネットワークマネージャーの最大効用はいずれも唯一であれば、収束する
ことを特徴とする請求項1に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法。
【請求項6】
前記プライバシーバジェットとプライバシーバジェット基準値とは比例する
ことを特徴とする請求項1に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法。
【請求項7】
ネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンスシステムであって、
反復回数、プライバシーバジェット及びデマンドレスポンス能力を初期化し、貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するように配置される初期化モジュールと、
貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出してパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得するように配置されるものであって、前記パラメータサーバー側は、インフルエンス値に基づいてそれぞれのユーザー側が自己組織体に加入するか否かを判断し、ユーザー側のインフルエンス値が高いほど、自己組織体に加入する可能性が高くなるインフルエンス値算出モジュールと、
自己組織体に加入するというフィードバックを受信した後、トレニンーグサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに加入する1組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するように配置される内層連合学習モジュールと、
平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するように配置される外層連合学習モジュールと、
最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償コストを取得するように配置される総プライバシー補償コスト更新モジュールと、
結果が収束するか否かを判断し、結果が収束しない場合に内層連合学習モジュールに戻り、結果が収束する場合に、自己組織体のうち、デマンドレスポンスに参加する最終的な自己組織体メンバーを特定し、参加能力基準値及びプライバシーバジェット基準値を更新し、反復回数を増加させ、外層連合学習モジュールに戻るように配置される自己組織体特定モジュールと、を含む
ことを特徴とするネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンスシステム。
【請求項8】
コンピュータプログラムが記憶され、このプログラムがプロセッサによって実行される場合に、請求項1から6のいずれか一項に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法におけるステップを実現する
ことを特徴とするコンピュータ読み取り可能な記憶媒体。
【請求項9】
メモリ、プロセッサ、及びメモリに記憶されプロセッサで実行可能なコンピュータプログラムを含むコンピュータ機器であって、前記プロセッサは、前記プログラムを実行する場合に、請求項1から6のいずれか一項に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法におけるステップを実現する
ことを特徴とするコンピュータ機器。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は電力システムデマンドレスポンス技術分野に属し、特にネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法及びシステムに関する。
【背景技術】
【0002】
本部分の陳述は、本発明に関連する背景技術を提供するだけであり、従来技術を必然的に構成するものではない。
【0003】
配電システムに分散型発電機や負荷などのリソースの数が多くない場合に、制御センターはすべてのリソースの特徴を十分に統合し、その後、集中的な決済によりリソースの統合的なスケジューリングを実現することができる。配電システムの快速な発展に伴って、新型配電システムにおいて通常に大量の分散型電源、エネルギー貯蔵装置、柔軟な負荷などのエージェントが存在し、従来モードの制御センターがすべてのリソースに接することができないという特徴によっては、集中スケジューリングの効果がよくない可能性がある。同時に、従来の電力市場では、良好なインセンティブメカニズムが欠如し、かつ需要側電力消費特性の認識が不正確であるため、市場取引やスケジューリングプロセスの効率が比較的低い。
【0004】
従来のデマンドレスポンス方法は、クライアントがTOU価格シグナル又はリアルタイムスケジューリング指令に応答するようにするメカニズムであり、電力消費行動を動的に変化させることで、臨界ピーク需要を削減したり、時間帯別の電力消費を転移させることができる。しかし、従来のデマンドレスポンス方法は、从ユーザーの電力需要特性及び市場運営のルールに基づくが、このような方法によっては、ユーザーの個人情報が完全に漏洩してしまう。
【発明の概要】
【0005】
上記背景技術に存在する技術課題を解決するために、本発明は、ネストされた連合学習アルゴリズムを提出し、算出プロセスにおいて、自己組織化体の進化を十分に取り入れ、エージェントの特徴に応じてグループ化して、スケジューリングプロセスにおけるエージェントの反応率を向上させ、エージェントに対するより正確な制御を実現し、スケジューリングコストを低減させるネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法及びシステムを提供する。
【0006】
上記目的を達成するために、本発明は以下の技術的解決手段を採用し、
本発明の第1態様は、
反復回数、プライバシーバジェット及びデマンドレスポンス能力を初期化し、貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するステップ1と、
貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出してパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得するステップ2と、
【0007】
自己組織体に加入するというフィードバックを受信した後、トレニンーグサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに参加する1組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するステップ3と、
【0008】
平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するステップ4と、
【0009】
最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償コストを取得するステップ5と、
【0010】
結果が収束するか否かを判断し、結果が収束しない場合にステップ3に戻り、結果が収束する場合に、自己組織体のうち、デマンドレスポンスに参加する最終的な自己組織体メンバーを特定し、参加能力基準値及びプライバシーバジェット基準値を更新し、反復回数を増加させ、ステップ2に戻るステップ6と、を含むネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法を提供する。
【0011】
さらには、前記パラメータサーバー側は、インフルエンス値に基づいて、各ユーザー側が自己組織体に加入するか否かを判断し、ユーザー側のインフルエンス値が高いほど、自己組織体に加入する可能性が高くなる。
【0012】
さらには、ユーザー側iの効用Ui,tとしては、
である。

【0013】
【0014】
さらには、分散型ネットワークマネージャーの効用は、連合学習トレニンーグモデルの性能と、分散型ネットワークマネージャーのコストの2部分に決められる。
【0015】
さらには、前記分散型ネットワークマネージャーのコストは、デマンドレスポンスプロセスにおける応答コストと、連合学習プロセスにおける総プライバシー補償コストとに決められる。
【0016】
さらには、結果が収束するか否かを判断する方法としては、ユーザー側及び分散型ネットワークマネージャーの最大効用はいずれも唯一であれば、収束する。
【0017】
さらには、前記プライバシーバジェットとプライバシーバジェット基準値とは比例する。
【0018】
本発明の第2態様は、
反復回数、プライバシーバジェット及びデマンドレスポンス能力を初期化し、貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するように配置される初期化モジュールと、
貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出してパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得するように配置されるインフルエンス値算出モジュールと、
自己組織体に加入するというフィードバックを受信した後、トレニンーグサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに加入する1組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するように配置される内層連合学習モジュールと、
平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するように配置される外層連合学習モジュールと、
最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償コストを取得するように配置される総プライバシー補償コスト更新モジュールと、
結果が収束するか否かを判断し、結果が収束しない場合に、内層連合学習モジュールに戻り、結果が収束する場合に、自己組織体のうち、デマンドレスポンスに参加する最終的な自己組織体メンバーを特定し、参加能力基準値及びプライバシーバジェット基準値を更新し、反復回数を増加させ、外層連合学習モジュールに戻るように配置される自己組織体特定モジュールと、を含むネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンスシステムを提供する。
【0019】
本発明の第3様態は、コンピュータプログラムが記憶され、このプログラムがプロセッサによって実行される場合に、上記したネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法におけるステップを実現するコンピュータ読み取り可能な記憶媒体を提供する。
【0020】
本発明の第4様態は、メモリ、プロセッサ、及びメモリに記憶されプロセッサで実行可能なコンピュータプログラムを含み、前記プロセッサが前記プログラムを実行する場合に、上記したネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法におけるステップを実現するコンピュータ機器を提供する。
【0021】
従来技術に比べて、本発明の有益な効果として、下記の通りである。
【0022】
本発明は、ネストされた連合学習アルゴリズムを提出し、算出プロセスにおいて、自己組織化体の進化を十分に取り入れ、エージェントの特徴に応じてグループ化して、スケジューリングプロセスにおけるエージェントの反応率を向上させ、エージェントに対するより正確な制御を実現し、スケジューリングコストを低減させ、収束性及びユーザープライバシーを保証する前提で効率的で経済的なデマンドレスポンス管理を実現するネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法を提供する。
【0023】
本発明は、時間変動インパクトモデルを構築し、各エージェントの特性を十分に反映し、ユーザーが自分のインフルエンス値を自動的に更新することを選択するようにし、マルチエージェントの自己組織解決手段へ正確な参照を提供することができるネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法を提供する。
【0024】
本発明は、自己組織インセンティブメカニズムを提出して、自己組織体における最適実行者を選択し、自己組織体の安定性を向上させると同時に、利用可能なすべてのリソースをスケジューリングしてデマンドレスポンスに参加させるネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法を提供する。
【図面の簡単な説明】
【0025】
本発明の一部を構成する明細書図面は、本発明に対するさらなる理解を提供するためのものであり、本発明の例示的な実施例及びその説明は、本発明を解釈するためのものであり、本発明を不当に限定するものではない。
【0026】
図1】本発明の実施例1のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法のフローチャートである。
【発明を実施するための形態】
【0027】
以下に図面及び実施例を参照して本発明をさらに説明する。
【0028】
指摘すべきこととして、以下の詳細な説明は例示的なものであり、本発明にさらなる説明を提供することを目的とする。特に明示しない限り、本明細書で使用される全ての技術及び科学的用語は本発明の当業者によって一般的に理解される意味と同じものを有する。
実施例1
【0029】
本実施は、ネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法を提供し、図1に示すように、具体的に下記のステップを含む。
【0030】
ステップ1:ユーザー側及びパラメータサーバー側はそれぞれパラメータ初期化を行う。
【0031】
ここで、ユーザー側(エージェント)iが、パラメータ初期化を行う具体的な方法としては、反復回数t=1を初期化し、エージェントiが貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するとともに、インフルエンス値Ii,tを算出し、プライバシーバジェットβi,t及びデマンドレスポンス能力(応答能力と略称する)PDR,i,tを初期化する。Iは、i番目のエージェントのt世代におけるインフルエンス値であり、βi,tは、i番目のエージェントのt世代のプライバシーバジェット金額実際値であり、β>0であり、PDR,i,tはi番目のエージェントのt世代における応答能力である。
【0032】
ここで、分散型ネットワークマネージャーにおけるパラメータサーバー側は、反復回数t=1及び総プライバシー補償コストRを初期化する。Rは、t回目の反復の総プライバシー補償コストである。
【0033】
具体的には、インパクトモデル(時間変動インパクトモデル)を構築して各エージェントの特性を十分に説明し、構築したインパクトモデルで、エージェントiのインフルエンス値Ii,tは、貢献能力、参加能力、アクティブ及びプライバシーバジェットの4部分が重み付けして取得される。ここで、貢献能力とは、エージェントiの最大貢献値、即ち最大調整可能容量を指し、貢献能力の重みが最大であり、参加能力とは、ユーザー側iの意思決定に影響する外部環境条件を指し、外部環境が市場政策、天気、システム安定性などの要素によって影響され、環境が優しいほど、参加能力の値が大きくなり、アクティブは、ユーザー側iの履歴影響性能を表し、これによって不正データの生成を回避し、インパクトモデルに時間属性を付与し、履歴インフルエンス値が大きいほど、この部分の値が大きくなるが、ユーザーがデマンドレスポンスプロセスに参加することを励すために、この部分の重みは、高すぎず、低すぎなく、プライバシーバジェットは、ユーザー側iから提供される個人データに関連付けられ、デマンドレスポンスが分散型ネットワークマネージャーによって開始されると仮定すると、インセンティブメカニズムにおいて、分散型ネットワークマネージャーは、ユーザー側iのプライバシーバジェットに基づいてユーザー側iから提供された個人データをリターンし、プライバシーバジェット値が高いほどのユーザー側iは、分散型ネットワークマネージャーから取得するリターンが高くなり、これは、ユーザーがさらに連合学習プロセスに参加することの奨励に寄与し、ユーザーは、自分のプライバシーバジェットを設計することにより自分の効用を最大化する。
【0034】
Nがエージェント数の合計であると仮定すると、エージェントiのインフルエンス値Ii,tは、
=aC,i,t+bP,i,t+cA,i,t+dB,i,t (1)として記載されてもよい。
【0035】
【0036】
即ちβi,tとIB,i,tは比例する。具体的には、貢献能力基準値IC,i,tは、ユーザーの最大調整可能容量を表すためのものであり、その値がデータ収集装置によりユーザーの実際状況に応じて取得されてから0-1標準化が行われ、参加能力基準値IP,i,tは、ユーザー側の意思決定に影響する外部環境条件を表すためのものであり、市場政策、天気、システム安定性等の要素によって影響され、その値がデータ収集装置によって市場政策、天気、システム安定性等の環境条件に応じて取得され、0-1標準化が行われ、環境が優しいほど、参加能力基準値が大きくなり、アクティブ基準値IA,i,tは、ユーザー側がデマンドレスポンスに参加する履歴パフォーマンスを表すものであり、インパクトモデルに時間属性が付与され、不正データの生成を回避することができ、その値がデータ収集装置によってユーザーの履歴パフォーマンスに応じて取得され、0-1標準化が実行され、履歴パフォーマンスがよいほど、アクティブ基準値が大きくなり、プライバシーバジェット基準値IB,i,tがユーザー側iから提供された個人データに基づいて0-1標準化した後に取得されたものである。デマンドレスポンスが分散型ネットワークマネージャーによって開始されると仮定すると、インセンティブメカニズムにおいて、分散型ネットワークマネージャーは、ユーザー側iのプライバシーバジェット基準値IB,i,tに基づいてユーザー側iから提供された個人データをリターンし、プライバシーバジェット基準値が高いほどのユーザー側iは、分散型ネットワークマネージャーから取得するリターンが高くなり、これは、ユーザーがさらに連合学習プロセスに参加することの奨励に寄与し、ユーザーは、自分のプライバシーバジェットを設計することにより自分の効用を最大化することができる。すると、エージェントiの特性は、[IC,i,t,IP,i,t,IA,i,t,IB,i,tとして表されることができる。4つの線形重みパラメータは、各エージェント特性に基づいて設定され、ここで、貢献能力の重みが最も大きく、アクティブの重みが高すぎず、低すぎなく、履歴パフォーマンスにより不正データをフィルタすると同時に、ユーザーがデマンドレスポンスプロセスに参加することを奨励し、且つa+b+c+d=1を満たす。異なるエージェントの線形重みパラメータは、異なる可能性がある。
【0037】
インパクトモデルのインフルエンス値が高いほど、自己組織体を形成する場合に、エージェントが自己組織体に加入する優先度が高くなる。
【0038】
ユーザー自己組織化法は、エージェントが動的仮想発電所として自動集約する原則に基づくものであり、これによって算出圧力及びデマンドレスポンスプロセスに制御必要なエージェント数を低減させることができる。これまでの分析によれば、インフルエンス値が高いエージェントは、自己組織に参加する可能性がより高く、その目的としては、自分の効用の最適化である。


【0039】
【0040】
ステップ2:ユーザー側iは、貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出して、インフルエンス値をパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得する。
【0041】
パラメータサーバー側は、インフルエンス値Iに基づいてそれぞれのエージェントが予自己組織体に加入するか否かを判断し(インパクトモデルの4つの部分に対する分析から分かるように、IB,i,tが高いほど、自己組織に加入する可能性が高くなり、他のエージェントの利益を低下することなく、少なくとも1つのエージェントが自己組織により自分の利益を向上できることがあれば、予自己組織体に加入することができ、すべての自己組織に参加するエージェントがネストされた連合学習に参加する)、エージェントiが自己組織(予自己組織体)の参加条件を満たせば、
パラメータサーバー側は、自己組織に加入するエージェントiへフィードバックするとともに、すべてのエージェントiのアクティブ基準値IA,i,t+1を更新する(エージェントiが自己組織に加入した後、パラメータサーバーはエージェントiへフィードバックし、エージェントiのデータ収集装置が、フィードバック情報を受信した後にユーザーの履歴パフォーマンスを更新し、ユーザーが自己組織に参加するため、そのアクティブ基準値が増加する)。
【0042】
【0043】
【0044】
ユーザー側iの目標としては、プライバシーバジェットβi,t及びインフルエンス値Iを設定することによって自分の効用Ui,tを最大化することにあり、ユーザー側iのプライバシーコストは、c(v,βi,t)として表され、v>0がプライバシー値パラメータを表し、ユーザー側iの効用Ui,tは、
【0045】
【0046】
【0047】
ここで、qは設定値であり、0.5として設定されてもよく、τ=t-1である。
【0048】
【0049】
【0050】
分散型ネットワークマネージャーの目標としては、その効用UDNM,tを最大化するように、1つの適当な奨励R値を選択する。分散型ネットワークマネージャーの効用は、連合学習トレニンーグモデルの性能PFL,t及び分散型ネットワークマネージャーのコストという2つの部分によって決められ、分散型ネットワークマネージャーのコストは、デマンドレスポンスプロセスにおける応答コストξ1,tDR,t及び連合学習プロセスにおける総プライバシー補償コストRによって決められるので、分散型ネットワークマネージャーの効用UDNM,tは、下記式に示す。
【0051】
【0052】
連合学習トレニンーグモデルの性能PFL,tは、下記の式に示す通りである。
【0053】
ここで、Hは、連合学習プロセスに参加する1組のユーザー、即ち自己組織体を表し、βi,tはユーザー側iのプライバシーバジェットを表し、重みパラメータλ>1であり、ηは学習率を表し、mは、ユーザー側iのデータセットの大きさ、即ちユーザー側iにおけるトレニンーグサンプルの数を表し、Lは損失関数を表す。
【0054】
【0055】
ここで、σi,tは、ユーザー側iのt番目反復におけるノイズを表す。式(6)及び(7)に示すように、ガウスノイズσの幅値が増える場合に、連合学習トレニンーグモデルの精度は低下する。
【0056】
【0057】
【0058】
プライバシー補償コストRは、連合学習参加者に支払う奨励を表し、ガウスノイズ式から分かるように、プライバシーバジェットは、連合学習トレニンーグモデルの精度に影響するので、プライバシー補償コストと連合学習トレニンーグモデルの性能との間にカップリング関係があり、プライバシーバジェットによる連合学習トレニンーグモデル収束特性への影響を分析することによって、連合学習の初期段階で連合学習トレニンーグモデルの精度を初期化、推定することができる。
【0059】
【0060】
ステップ5:ユーザー側は、最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償費用を取得する。
【0061】
【0062】
【0063】
分散型ネットワークマネージャーは、ユーザー側iからフィードバックされたプライバシーバジェットβi,t+1に基づいて、式(2)により、Rt+1を更新する。
【0064】
【0065】
【0066】
本実施例で、内層連合学習及び外層連合学習の作動メカニズムは一致するが、単に入力、出力が異なる。
【0067】
連合学習の特徴により、連合学習のパラメータサーバーは、ユーザーの情報を収集することができ、ユーザープライバシーと通信効率を考慮するうえで、ユーザーは、準同形暗号化を用いてその情報(即ちインフルエンス値)をサーバーにおける暗号化スペースにマップする。連合学習の作動メカニズムとしては、
【0068】
故に、データセットxを有するユーザー側iの損失関数は、
【0069】
【0070】
【0071】
本実施例における内層連合学習及び外層連合学習は、いずれも適応型モーション推定連合学習アルゴリズムを採用し、適応型モーション推定連合学習アルゴリズムの具体的なステップとしては、
【0072】
【0073】
本実施例で提供されるネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法は、デマンドレスポンスの視点から、ユーザーの通信コスト及びプライバシー保護を考慮して、1つの時間変動インパクトモデルを構築し、各エージェントユーザーがデマンドレスポンスに参加する能力を説明し、この上で、時間変動インパクトモデルに基づく自己組織インセンティブメカニズムを構築し、その後、分散型ネットワークマネージャーにおけるパラメータサーバーを基に、1つのネストされた連合学習最適計算フレームワークを構築し、ユーザープライバシーを保証する前提で、このフレームワークが、自己組織体における各エージェント効用の最適収束値を算出し、さらに分散型ネットワークマネージャーからこの情報を取得し、最後に、パラメータサーバーが、モデルを統合しエージェントに戻して、効率的で経済的なデマンドレスポンス管理を実現する。
【0074】
本発明で提供されるネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法は、時間変動インパクトモデルを構築し、各エージェントの特性を十分に反映し、ユーザーが自分のインフルエンス値を自動的に更新することを選択するようにし、マルチエージェントの自己組織解決手段へ正確な参照を提供することができる。
【0075】
本発明で提供されるネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法は、自己組織インセンティブメカニズムを提出して、自己組織体における最適実行者を選択し、自己組織体の安定性を向上させると同時に、利用可能なすべてのリソースをスケジューリングしてデマンドレスポンスに参加させる。
【0076】
本発明で提出されるネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法は、ネストされた連合学習アルゴリズムを提出し、算出プロセスにおいて、自己組織化体の進化を十分に取り入れ、エージェントの特徴に応じてグループ化して、スケジューリングプロセスにおけるエージェントの反応率を向上させ、エージェントに対するより正確な制御を実現し、スケジューリングコストを低減させ、収束性及びユーザープライバシーを保証する前提で効率的で経済的なデマンドレスポンス管理を実現する。
実施例2
【0077】
本実施例は、具体的に、
反復回数、プライバシーバジェット及びデマンドレスポンス能力を初期化し、貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するように配置される初期化モジュールと、
貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出してパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得するように配置されるインフルエンス値算出モジュールと、
自己組織体に加入するというフィードバックを受信した後、トレニンーグサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに加入する1組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するように配置される内層連合学習モジュールと、
平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するように配置される外層連合学習モジュールと、
最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償コストを取得するように配置される総プライバシー補償コスト更新モジュールと、
結果が収束するか否かを判断し、結果が収束しない場合に内層連合学習モジュールに戻り、結果が収束する場合に、自己組織体のうち、デマンドレスポンスに参加する最終的な自己組織体メンバーを特定し、参加能力基準値及びプライバシーバジェット基準値を更新し、反復回数を増加させ、外層連合学習モジュールに戻るように配置される自己組織体特定モジュールと、を含むネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンスシステムを提供する。
【0078】
ここで説明する必要があるのは、本実施例の各モジュールが実施例1の各ステップに一対一で対応し、その具体的な実施プロセスが同じであるため、ここで重複に説明しない。
実施例3
【0079】
本実施例は、コンピュータプログラムが記憶され、このプログラムがプロセッサによって実行される場合に、上記実施例1に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法におけるステップを実現するコンピュータ読み取り可能な記憶媒体を提供する。
実施例4
【0080】
本実施例は、メモリ、プロセッサ、及びメモリに記憶されプロセッサで実行可能なコンピュータプログラムを含み、前記プロセッサが前記プログラムを実行する場合に、上記実施例1に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法におけるステップを実現するコンピュータ機器を提供する。
【0081】
当業者は、本発明の実施例が方法、システム又はコンピュータプログラム製品として提供されることができると理解すべきである。故に、本発明は、ハードウェア実施例、ソフトウェア実施例、又はソフトウェアとハードウェアとを組み合わせた実施例の形式を採用してもよい。そして、本発明は、コンピュータ利用可能プログラムコードが含まれた1つまたは複数のコンピュータ利用可能記憶媒体(磁気ディスクメモリと光学メモリ等を含むが、それらに限定されない)に実行されるコンピュータプログラム製品の形式を採用することができる。
【0082】
上記は、本発明の好ましい実施例に過ぎなく、本発明を制限するものではなく、当業者にとって、本発明は様々の変更及び変化を行うことができる。本発明の思想と原則で行われたいかなる修正、同等置換、改善などは、いずれも本発明の保護範囲内に含まれるべきである。
図1
【手続補正書】
【提出日】2023-08-25
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法であって、
反復回数、プライバシーバジェット及びデマンドレスポンス能力を初期化し、貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するステップ1と、
貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出してパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得するステップであって、前記パラメータサーバー側は、インフルエンス値に基づいてそれぞれのユーザー側が自己組織体に加入するか否かを判断し、ユーザー側のインフルエンス値が高いほど、自己組織体に加入する可能性が高くなるステップ2と、
自己組織体に加入するというフィードバックを受信した後、トレーニングサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレーニングパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに加入する1組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するステップ3と、
平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレーニングパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するステップ4と、
最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償コストを取得するステップ5と、
結果が収束するか否かを判断し、結果が収束しない場合に、ステップ3に戻り、結果が収束する場合に、自己組織体のうち、デマンドレスポンスに参加する最終的な自己組織体メンバーを特定し、参加能力基準値及びプライバシーバジェット基準値を更新し、反復回数を増加させ、ステップ2に戻るステップ6と、を含む
ことを特徴とするネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法。
【請求項2】
ユーザー側iの効用Ui,tとしては、
ことを特徴とする請求項1に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法。
【請求項3】
分散型ネットワークマネージャーの効用は、連合学習トレーニングモデルの性能と分散型ネットワークマネージャーのコストの2部分に決められる
ことを特徴とする請求項1に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法。
【請求項4】
前記分散型ネットワークマネージャーのコストは、デマンドレスポンスプロセスにおける応答コストと、連合学習プロセスにおける総プライバシー補償コストとに決められる
ことを特徴とする請求項3に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法。
【請求項5】
結果が収束するか否かを判断する方法としては、ユーザー側及び分散型ネットワークマネージャーの最適効用はいずれも唯一であれば、収束する
ことを特徴とする請求項1に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法。
【請求項6】
前記プライバシーバジェットとプライバシーバジェット基準値とは比例する
ことを特徴とする請求項1に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法。
【請求項7】
ネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンスシステムであって、
反復回数、プライバシーバジェット及びデマンドレスポンス能力を初期化し、貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するように配置される初期化モジュールと、
貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出してパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得するように配置されるものであって、前記パラメータサーバー側は、インフルエンス値に基づいてそれぞれのユーザー側が自己組織体に加入するか否かを判断し、ユーザー側のインフルエンス値が高いほど、自己組織体に加入する可能性が高くなるインフルエンス値算出モジュールと、
自己組織体に加入するというフィードバックを受信した後、トレーニングサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレーニングパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに加入する1組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するように配置される内層連合学習モジュールと、
平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレーニングパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するように配置される外層連合学習モジュールと、
最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償コストを取得するように配置される総プライバシー補償コスト更新モジュールと、
結果が収束するか否かを判断し、結果が収束しない場合に内層連合学習モジュールに戻り、結果が収束する場合に、自己組織体のうち、デマンドレスポンスに参加する最終的な自己組織体メンバーを特定し、参加能力基準値及びプライバシーバジェット基準値を更新し、反復回数を増加させ、外層連合学習モジュールに戻るように配置される自己組織体特定モジュールと、を含む
ことを特徴とするネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンスシステム。
【請求項8】
コンピュータプログラムが記憶され、このプログラムがプロセッサによって実行される場合に、請求項1から6のいずれか一項に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法におけるステップを実現する
ことを特徴とするコンピュータ読み取り可能な記憶媒体。
【請求項9】
メモリ、プロセッサ、及びメモリに記憶されプロセッサで実行可能なコンピュータプログラムを含むコンピュータ機器であって、前記プロセッサは、前記プログラムを実行する場合に、請求項1から6のいずれか一項に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法におけるステップを実現する
ことを特徴とするコンピュータ機器。

【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0007
【補正方法】変更
【補正の内容】
【0007】
自己組織体に加入するというフィードバックを受信した後、トレーニングサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレーニングパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに参加する1組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するステップ3と、
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0008
【補正方法】変更
【補正の内容】
【0008】
平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレーニングパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するステップ4と、
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0014
【補正方法】変更
【補正の内容】
【0014】
さらには、分散型ネットワークマネージャーの効用は、連合学習トレーニングモデルの性能と、分散型ネットワークマネージャーのコストの2部分に決められる。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0016
【補正方法】変更
【補正の内容】
【0016】
さらには、結果が収束するか否かを判断する方s法としては、ユーザー側及び分散型ネットワークマネージャーの最適効用はいずれも唯一であれば、収束する。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0018
【補正方法】変更
【補正の内容】
【0018】
本発明の第2態様は、
反復回数、プライバシーバジェット及びデマンドレスポンス能力を初期化し、貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するように配置される初期化モジュールと、
貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出してパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得するように配置されるインフルエンス値算出モジュールと、
自己組織体に加入するというフィードバックを受信した後、トレーニングサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレーニングパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに加入する1組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するように配置される内層連合学習モジュールと、
平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレーニングパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するように配置される外層連合学習モジュールと、
最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償コストを取得するように配置される総プライバシー補償コスト更新モジュールと、
結果が収束するか否かを判断し、結果が収束しない場合に、内層連合学習モジュールに戻り、結果が収束する場合に、自己組織体のうち、デマンドレスポンスに参加する最終的な自己組織体メンバーを特定し、参加能力基準値及びプライバシーバジェット基準値を更新し、反復回数を増加させ、外層連合学習モジュールに戻るように配置される自己組織体特定モジュールと、を含むネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンスシステムを提供する。
【手続補正7】
【補正対象書類名】明細書
【補正対象項目名】0050
【補正方法】変更
【補正の内容】
【0050】
分散型ネットワークマネージャーの目標としては、その効用UDNM,tを最大化するように、1つの適当な奨励R値を選択する。分散型ネットワークマネージャーの効用は、連合学習トレーニングモデルの性能PFL,t及び分散型ネットワークマネージャーのコストという2つの部分によって決められ、分散型ネットワークマネージャーのコストは、デマンドレスポンスプロセスにおける応答コストξ1,tDR,t及び連合学習プロセスにおける総プライバシー補償コストRによって決められるので、分散型ネットワークマネージャーの効用UDNM,tは、下記式に示す。
【手続補正8】
【補正対象書類名】明細書
【補正対象項目名】0052
【補正方法】変更
【補正の内容】
【0052】
連合学習トレーニングモデルの性能PFL,tは、下記の式に示す通りである。
【手続補正9】
【補正対象書類名】明細書
【補正対象項目名】0053
【補正方法】変更
【補正の内容】
【0053】
ここで、Hは、連合学習プロセスに参加する1組のユーザー、即ち自己組織体を表し、βi,tはユーザー側iのプライバシーバジェットを表し、重みパラメータλ>1であり、ηは学習率を表し、mは、ユーザー側iのデータセットの大きさ、即ちユーザー側iにおけるトレーニングサンプルの数を表し、Lは損失関数を表す。
【手続補正10】
【補正対象書類名】明細書
【補正対象項目名】0055
【補正方法】変更
【補正の内容】
【0055】
ここで、σi,tは、ユーザー側iのt番目反復におけるノイズを表す。式(6)及び(7)に示すように、ガウスノイズσの幅値が増える場合に、連合学習トレーニングモデルの精度は低下する。
【手続補正11】
【補正対象書類名】明細書
【補正対象項目名】0058
【補正方法】変更
【補正の内容】
【0058】
プライバシー補償コストRは、連合学習参加者に支払う奨励を表し、ガウスノイズ式から分かるように、プライバシーバジェットは、連合学習トレーニングモデルの精度に影響するので、プライバシー補償コストと連合学習トレーニングモデルの性能との間にカップリング関係があり、プライバシーバジェットによる連合学習トレーニングモデル収束特性への影響を分析することによって、連合学習の初期段階で連合学習トレーニングモデルの精度を初期化、推定することができる。
【手続補正12】
【補正対象書類名】明細書
【補正対象項目名】0077
【補正方法】変更
【補正の内容】
【0077】
本実施例は、具体的に、
反復回数、プライバシーバジェット及びデマンドレスポンス能力を初期化し、貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するように配置される初期化モジュールと、
貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出してパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得するように配置されるインフルエンス値算出モジュールと、
自己組織体に加入するというフィードバックを受信した後、トレーニングサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレーニングパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに加入する1組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するように配置される内層連合学習モジュールと、
平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレーニングパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するように配置される外層連合学習モジュールと、
最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償コストを取得するように配置される総プライバシー補償コスト更新モジュールと、
結果が収束するか否かを判断し、結果が収束しない場合に内層連合学習モジュールに戻り、結果が収束する場合に、自己組織体のうち、デマンドレスポンスに参加する最終的な自己組織体メンバーを特定し、参加能力基準値及びプライバシーバジェット基準値を更新し、反復回数を増加させ、外層連合学習モジュールに戻るように配置される自己組織体特定モジュールと、を含むネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンスシステムを提供する。