(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023083276
(43)【公開日】2023-06-15
(54)【発明の名称】充電ステーションの情報調整モデルを訓練するための方法と装置、及び製品
(51)【国際特許分類】
G06N 3/092 20230101AFI20230608BHJP
G06N 20/00 20190101ALI20230608BHJP
G06Q 10/04 20230101ALI20230608BHJP
G06Q 50/06 20120101ALI20230608BHJP
G06Q 50/10 20120101ALI20230608BHJP
【FI】
G06N3/092
G06N20/00
G06Q10/04
G06Q50/06
G06Q50/10
【審査請求】有
【請求項の数】17
【出願形態】OL
【外国語出願】
【公開請求】
(21)【出願番号】P 2023041642
(22)【出願日】2023-03-16
(31)【優先権主張番号】202210955011.X
(32)【優先日】2022-08-10
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000796
【氏名又は名称】弁理士法人三枝国際特許事務所
(72)【発明者】
【氏名】張韋嘉
(72)【発明者】
【氏名】張楽
(72)【発明者】
【氏名】劉浩
(72)【発明者】
【氏名】韓金棟
(72)【発明者】
【氏名】秦川
(72)【発明者】
【氏名】祝恒書
(72)【発明者】
【氏名】熊輝
(57)【要約】
【課題】充電ステーションが目標動作情報を決定するリアルタイム性、合理性、及び充電ステーション間の協調性を向上させることができる充電ステーションの情報調整モデルを訓練するための方法を提供する。
【解決手段】上記方法は、充電要求を取得し、充電ステーション集合内の各充電ステーションに対応する環境状態情報を決定し、初期ポリシーネットワークを介して、各充電ステーションに対応する環境状態情報に基づいて、充電要求に対する充電ステーションの目標動作情報を決定し、初期バリューネットワークを介して、各充電ステーションに対応する環境状態情報と目標動作情報に基づいて、充電要求に対応する累積報酬の期待値を決定し、深層決定方策勾配法を用いて、初期ポリシーネットワークと初期バリューネットワークを訓練し、訓練されたポリシーネットワークを、充電ステーションに対応する情報調整モデルとして決定することを含む。
【選択図】
図2
【特許請求の範囲】
【請求項1】
充電要求を取得し、充電ステーション集合内の各充電ステーションに対応する環境状態情報を決定するステップと、
初期ポリシーネットワークを介して、前記充電ステーション集合内の各充電ステーションに対応する環境状態情報に基づいて、前記充電要求に対する前記充電ステーション集合内の各充電ステーションの目標動作情報を決定するステップと、
初期バリューネットワークを介して、前記充電ステーション集合内の各充電ステーションに対応する環境状態情報と目標動作情報に基づいて、前記充電要求に対応する累積報酬の期待値を決定するステップと、
深層決定方策勾配法を用いて、前記初期ポリシーネットワークと前記初期バリューネットワークを訓練することで、訓練されたポリシーネットワークとバリューネットワークを得、訓練プロセスの中で、前記初期バリューネットワークを時間差分法で更新し、充電要求に対応する累積報酬の期待値を最大化することを目標として前記初期ポリシーネットワークを更新するステップと、
前記訓練されたポリシーネットワークを、前記充電ステーション集合内の各充電ステーションに対応する情報調整モデルとして決定するステップと、を含む充電ステーションの情報調整モデルを訓練するための方法。
【請求項2】
前記初期バリューネットワークを介して、前記充電ステーション集合内の各充電ステーションに対応する環境状態情報と目標動作情報に基づいて、前記充電要求に対応する累積報酬の期待値を決定するステップは、
エージェントプーリングモジュールを介して、前記充電ステーション集合内の各充電ステーションに対応する環境状態情報と目標動作情報に基づいて、前記充電ステーション集合内のすべての充電ステーションを特徴づける統合表示情報を決定するステップと、
前記初期バリューネットワークを介して、前記統合表示情報に基づいて、前記充電要求に対応する累積報酬の期待値を決定するステップと、を含む請求項1に記載の充電ステーションの情報調整モデルを訓練するための方法。
【請求項3】
前記エージェントプーリングモジュールを介して、前記充電ステーション集合内の各充電ステーションに対応する環境状態情報と目標動作情報に基づいて、前記充電ステーション集合内のすべての充電ステーションを特徴づける統合表示情報を決定するステップは、
マッピングベクトルにより、前記充電ステーション集合内の各充電ステーションに対応する環境状態情報と目標動作情報を、充電ステーションの重要性を特徴づけるスコア特徴としてマッピングするステップと、
前記スコア特徴に基づいて、前記充電ステーション集合から予め設定された数の充電ステーションを決定し、前記予め設定された数の充電ステーションに対応する環境状態情報、目標動作情報及びスコア特徴を決定するステップと、
前記予め設定された数の充電ステーションに対応するスコア特徴を正規化して、ゲート制御ベクトルを得るステップと、
前記予め設定された数の充電ステーションに対応する環境状態情報、目標動作情報及びゲート制御ベクトルに基づいて、ゲート制御特徴を決定するステップと、
前記ゲート制御特徴に基づいて、前記充電ステーション集合内のすべての充電ステーションの統合表示情報を決定するステップと、を含む請求項2に記載の充電ステーションの情報調整モデルを訓練するための方法。
【請求項4】
前記深層決定方策勾配法を用いて、前記初期ポリシーネットワークと前記初期バリューネットワークを訓練するステップは、
前記初期バリューネットワークに対応する第1損失を前記時間差分法で決定するステップと、
前記エージェントプーリングモジュールに対応する第2損失を自己教師あり比較学習法で決定するステップと、
前記第1損失と前記第2損失に基づいて、前記初期バリューネットワークと前記エージェントプーリングモジュールを更新するステップと、
充電要求に対応する累積報酬の期待値を最大化することを目標として前記初期ポリシーネットワークを更新するステップと、を含む請求項2に記載の充電ステーションの情報調整モデルを訓練するための方法。
【請求項5】
前記エージェントプーリングモジュールに対応する第2損失を前記自己教師あり比較学習法で決定するステップは、
前記充電ステーション集合内の各充電ステーションに対応する環境状態情報と目標動作情報を含む共同特徴の第1サブ集合について、前記エージェントプーリングモジュールを介して、第1統合表示情報を決定するステップと、
前記共同特徴の第2サブ集合について、前記エージェントプーリングモジュールを介して、第2統合表示情報を決定するステップと、
前記充電要求と異なる他の充電要求に対応する共同特徴の第3サブ集合について、前記エージェントプーリングモジュールを介して、第3統合表示情報を決定するステップと、
前記第1統合表示情報、前記第2統合表示情報及び前記第3統合表示情報に基づいて、決定された自己教師あり比較学習損失を、前記第2損失として使用するステップと、を含む請求項4に記載の充電ステーションの情報調整モデルを訓練するための方法。
【請求項6】
前記前記初期バリューネットワークに対応する第1損失を前記時間差分法で決定するステップは、
予め設定された報酬関数により、前記充電要求に対応する充電対象の充電動作に基づいて、報酬情報を決定するステップであって、前記充電ステーション集合内の各充電ステーションは前記報酬情報を共有し、前記予め設定された報酬関数は、異なる充電動作に対して報酬が異なるステップと、
前記時間差分アルゴリズムにより、前記充電要求に対応する累積報酬の期待値、前記充電要求に対応する報酬及び前記充電要求の次の充電要求に対応する累積報酬の期待値に基づいて、前記初期バリューネットワークに対応する第1損失を決定するステップと、を含む請求項4に記載の充電ステーションの情報調整モデルを訓練するための方法。
【請求項7】
充電要求を取得するステップと、
充電ステーション集合内の各充電ステーションに対応する環境状態情報を決定するステップと、
前記充電ステーション集合内の各充電ステーションについて、当該充電ステーションに対応する、訓練された情報調整モデルにより、当該充電ステーションに対応する環境状態情報に基づいて、前記充電要求に対する当該充電ステーションの目標動作情報を決定するステップであって、前記情報調整モデルは、前記充電ステーション集合内の充電ステーション間で互いの環境状態情報を感知した上で、深層決定方策勾配法に基づいて、マルチエージェント強化学習を実行して得られるステップと、
前記充電要求に対する前記充電ステーション集合内の各充電ステーションの目標動作情報を表示するステップと、
選択指令を受信し、前記選択指令に基づいて、前記充電ステーション集合から目標充電ステーションを決定するステップと、を含む充電ステーションを選択するための方法。
【請求項8】
充電要求を取得し、充電ステーション集合内の各充電ステーションに対応する環境状態情報を決定するように構成される第1決定ユニットと、
初期ポリシーネットワークを介して、前記充電ステーション集合内の各充電ステーションに対応する環境状態情報に基づいて、前記充電要求に対する前記充電ステーション集合内の各充電ステーションの目標動作情報を決定するように構成される第2決定ユニットと、
初期バリューネットワークを介して、前記充電ステーション集合内の各充電ステーションに対応する環境状態情報と目標動作情報に基づいて、前記充電要求に対応する累積報酬の期待値を決定するように構成される第3決定ユニットと、
前記訓練ユニットは、深層決定方策勾配法を用いて、前記初期ポリシーネットワークと前記初期バリューネットワークを訓練することで、訓練されたポリシーネットワークとバリューネットワークを得るように構成される訓練ユニットであって、訓練プロセスの中で、前記初期バリューネットワークを時間差分法で更新し、充電要求に対応する累積報酬の期待値を最大化することを目標として前記初期ポリシーネットワークを更新する訓練ユニットと、
前記訓練されたポリシーネットワークを、前記充電ステーション集合内の各充電ステーションに対応する情報調整モデルとして決定するように構成される第4決定ユニットと、を含む充電ステーションの情報調整モデルを訓練するための装置。
【請求項9】
前記第3決定ユニットは、
エージェントプーリングモジュールを介して、前記充電ステーション集合内の各充電ステーションに対応する環境状態情報と目標動作情報に基づいて、前記充電ステーション集合内のすべての充電ステーションを特徴づける統合表示情報を決定し、
前記初期バリューネットワークを介して、前記統合表示情報に基づいて、前記充電要求に対応する累積報酬の期待値を決定するようにさらに構成される請求項8に記載の充電ステーションの情報調整モデルを訓練するための装置。
【請求項10】
前記第3決定ユニットは、
マッピングベクトルにより、前記充電ステーション集合内の各充電ステーションに対応する環境状態情報と目標動作情報を、充電ステーションの重要性を特徴づけるスコア特徴としてマッピングし、
前記スコア特徴に基づいて、前記充電ステーション集合から予め設定された数の充電ステーションを決定し、前記予め設定された数の充電ステーションに対応する環境状態情報、目標動作情報及びスコア特徴を決定し、
前記予め設定された数の充電ステーションに対応するスコア特徴を正規化して、ゲート制御ベクトルを得、
前記予め設定された数の充電ステーションに対応する環境状態情報、目標動作情報及びゲート制御ベクトルに基づいて、ゲート制御特徴を決定し、
前記ゲート制御特徴に基づいて、前記充電ステーション集合内のすべての充電ステーションの統合表示情報を決定するようにさらに構成される請求項9に記載の充電ステーションの情報調整モデルを訓練するための装置。
【請求項11】
前記訓練ユニットは、
前記初期バリューネットワークに対応する第1損失を前記時間差分法で決定し、
前記エージェントプーリングモジュールに対応する第2損失を自己教師あり比較学習法で決定し、
前記第1損失と前記第2損失に基づいて、前記初期バリューネットワークと前記エージェントプーリングモジュールを更新し、
充電要求に対応する累積報酬の期待値を最大化することを目標として前記初期ポリシーネットワークを更新するようにさらに構成される請求項9に記載の充電ステーションの情報調整モデルを訓練するための装置。
【請求項12】
前記訓練ユニットは、
共同特徴の第1サブ集合について、前記エージェントプーリングモジュールを介して、第1統合表示情報を決定し、前記共同特徴は、前記充電ステーション集合内の各充電ステーションに対応する環境状態情報と目標動作情報を含み、
前記共同特徴の第2サブ集合について、前記エージェントプーリングモジュールを介して、第2統合表示情報を決定し、
前記充電要求と異なる他の充電要求に対応する共同特徴の第3サブ集合について、前記エージェントプーリングモジュールを介して、第3統合表示情報を決定し、
前記第1統合表示情報、前記第2統合表示情報及び前記第3統合表示情報に基づいて決定された自己教師あり比較学習損失を、前記第2損失とするようにさらに構成される請求項11に記載の充電ステーションの情報調整モデルを訓練するための装置。
【請求項13】
前記訓練ユニットは、
予め設定された報酬関数により、前記充電要求に対応する充電対象の充電動作に基づいて、報酬情報を決定し、前記充電ステーション集合内の各充電ステーションは前記報酬情報を共有し、前記予め設定された報酬関数は異なる充電動作に対して報酬が異なり、
前記時間差分アルゴリズムにより、前記充電要求に対応する累積報酬の期待値、前記充電要求に対応する報酬及び前記充電要求の次の充電要求に対応する累積報酬の期待値に基づいて、前記初期バリューネットワークに対応する第1損失を決定するようにさらに構成される請求項11に記載の充電ステーションの情報調整モデルを訓練するための装置。
【請求項14】
充電要求を取得するように構成される取得ユニットと、
充電ステーション集合内の各充電ステーションに対応する環境状態情報を決定するように構成される第5決定ユニットと、
前記第6決定ユニットは、前記充電ステーション集合内の各充電ステーションについて、当該充電ステーションに対応する、訓練された情報調整モデルにより、当該充電ステーションに対応する環境状態情報に基づいて、前記充電要求に対する当該充電ステーションの目標動作情報を決定するように構成される第6決定ユニットであって、前記情報調整モデルは、前記充電ステーション集合内の充電ステーション間で互いの環境状態情報を感知した上で、深層決定方策勾配法に基づいて、マルチエージェント強化学習を実行して得られる第6決定ユニットと、
前記充電要求に対する前記充電ステーション集合内の各充電ステーションの目標動作情報を表示するように構成される表示ユニットと、
選択指令を受信し、前記選択指令に基づいて、前記充電ステーション集合から目標充電ステーションを決定するように構成される受信ユニットと、を含む充電ステーションを選択するための装置。
【請求項15】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、ここで、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な指令が記憶され、前記指令は、前記少なくとも1つのプロセッサが請求項1~7のいずれか1項に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される電子デバイス。
【請求項16】
前記コンピュータに請求項1~7のいずれか1項に記載の方法を実行させるためのコンピュータ指令が記憶された非一時的なコンピュータ可読記憶媒体。
【請求項17】
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行されるとき、請求項1~7のいずれか1項に記載の方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能技術の分野に関し、具体的にはマルチエージェント強化学習技術の分野に関し、特に充電ステーションの情報調整モデルを訓練するための方法と装置、並びに充電ステーションの充電シナリオで使用できる充電ステーションを選択するための方法、装置、電子デバイス、記憶媒体及びコンピュータプログラムに関する。
【背景技術】
【0002】
クリーンエネルギーと環境保護問題に対する社会的関心の向上につれて、より多くの人が充電自動車(rechargeable vehicles)を選択するようになりつつある。都市部では、日に日に増大する充電の需要に応えるために、多くの公共充電ステーションが建設されているが、これらの充電ステーションは、一般的に固定時間(たとえば、1時間)おきに、一律の動的価格調整が行われるため、普遍的に充電需要の不均衡と低利用率の問題に直面し、充電自動車のドライバーの充電体験が悪くなる。充電ステーションの低利用率が、オペレータによる充電ステーションの建設の妨げとなり、充電自動車のさらなる普及が妨げられてしまう。
【発明の概要】
【課題を解決するための手段】
【0003】
本開示は、充電ステーションの情報調整モデルを訓練するための方法と装置、並びに充電ステーションを選択するための方法、装置、電子デバイス、記憶媒体及びコンピュータプログラムを提供する。
【0004】
第1態様によれば、充電ステーションの情報調整モデルを訓練するための方法を提供し、当該方法は、
充電要求を取得し、充電ステーション集合内の各充電ステーションに対応する環境状態情報を決定するステップと、
初期ポリシーネットワークを介して、充電ステーション集合内の各充電ステーションに対応する環境状態情報に基づいて、充電要求に対する充電ステーション集合内の各充電ステーションの目標動作情報を決定するステップと、
初期バリューネットワークを介して、充電ステーション集合内の各充電ステーションに対応する環境状態情報と目標動作情報に基づいて、充電要求に対応する累積報酬の期待値を決定するステップと、
深層決定方策勾配法を用いて、初期ポリシーネットワークと初期バリューネットワークを訓練することで、訓練されたポリシーネットワークとバリューネットワークを得、ここで、訓練プロセスの中で、初期バリューネットワークを時間差分法で更新し、充電要求に対応する累積報酬の期待値を最大化することを目標として初期ポリシーネットワークを更新するステップと、
訓練されたポリシーネットワークを、充電ステーション集合内の各充電ステーションに対応する情報調整モデルとして決定するステップと、を含む。
【0005】
第2態様によれば、充電ステーションを選択するための方法を提供し、当該方法は、
充電要求を取得するステップと、
充電ステーション集合内の各充電ステーションに対応する環境状態情報を決定するステップと、
当該充電ステーションに対応する訓練された情報調整モデルにより、当該充電ステーションに対応する環境状態情報に基づいて、充電要求に対する当該充電ステーションの目標動作情報を決定し、ここで、情報調整モデルは、充電ステーション集合内の充電ステーション間で互いの環境状態情報を感知した上で、深層決定方策勾配法に基づいて、マルチエージェント強化学習を実行して得られるステップと、
充電要求に対する充電ステーション集合内の各充電ステーションの目標動作情報を表示するステップと、
選択指令を受信し、選択指令に基づいて、充電ステーション集合から目標充電ステーションを決定するステップと、を含む。
【0006】
第3態様によれば、充電ステーションの情報調整モデルを訓練するための装置を提供し、当該装置は、
充電要求を取得し、充電ステーション集合内の各充電ステーションに対応する環境状態情報を決定するように構成される第1決定ユニットと、
初期ポリシーネットワークを介して、充電ステーション集合内の各充電ステーションに対応する環境状態情報に基づいて、充電要求に対する充電ステーション集合内の各充電ステーションの目標動作情報を決定するように構成される第2決定ユニットと、
初期バリューネットワークを介して、充電ステーション集合内の各充電ステーションに対応する環境状態情報と目標動作情報に基づいて、充電要求に対応する累積報酬の期待値を決定するように構成される第3決定ユニットと、
訓練ユニットであって、前記訓練ユニットは、深層決定方策勾配法を用いて、初期ポリシーネットワークと初期バリューネットワークを訓練することで、訓練されたポリシーネットワークとバリューネットワークを得るように構成され、ここで、訓練プロセスの中で、初期バリューネットワークを時間差分法で更新し、充電要求に対応する累積報酬の期待値を最大化することを目標として初期ポリシーネットワークを更新する訓練ユニットと、
訓練されたポリシーネットワークを、充電ステーション集合内の各充電ステーションに対応する情報調整モデルとして決定するように構成される第4決定ユニットと、を含む。
【0007】
第4態様によれば、充電ステーションを選択するための装置を提供し、当該装置は、
充電要求を取得するように構成される取得ユニットと、
充電ステーション集合内の各充電ステーションに対応する環境状態情報を決定するように構成される第5決定ユニットと、
第6決定ユニットであって、前記第6決定ユニットは、前記充電ステーション集合内の各充電ステーションについて、当該充電ステーションに対応する、訓練された情報調整モデルにより、当該充電ステーションに対応する環境状態情報に基づいて、充電要求に対する当該充電ステーションの目標動作情報を決定するように構成され、ここで、情報調整モデルは、充電ステーション集合内の充電ステーション間で互いの環境状態情報を感知した上で、深層決定方策勾配法に基づいて、マルチエージェント強化学習を実行して得られる第6決定ユニットと、
充電要求に対する充電ステーション集合内の各充電ステーションの目標動作情報を表示するように構成される表示ユニットと、
選択指令を受信し、選択指令に基づいて、充電ステーション集合から目標充電ステーションを決定するように構成される受信ユニットと、を含む。
【0008】
第5態様によれば、電子デバイスを提供し、当該電子デバイスは、
少なくとも1つのプロセッサと、
少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
ここで、メモリには、少なくとも1つのプロセッサによって実行可能な指令が記憶され、当該指令は、少なくとも1つのプロセッサが第1態様、第2態様のいずれか実現方法で説明した方法を実行できるように、少なくとも1つのプロセッサによって実行される。
【0009】
第6態様によれば、コンピュータに第1態様、第2態様のいずれか実現方法で説明した方法を実行させるためのコンピュータ指令が記憶された非一時的なコンピュータ可読記憶媒体を提供する。
【0010】
第7態様によれば、プロセッサによって実行されるとき、第1態様、第2態様のいずれかの実現方法で説明した方法を実現する、コンピュータプログラムを含むコンピュータプログラムを提供する。
【0011】
本開示の技術によれば、充電ステーションの情報調整モデルを訓練するための方法を提供し、当該方法において、充電ステーションをエージェントとし、深層決定方策勾配法に基づいて、マルチエージェント強化学習を実行し、訓練により、目標動作情報をリアルタイムに決定できるポリシーネットワークを情報調整モデルとして得ることができるため、充電ステーションが目標動作情報を決定するリアルタイム性と合理性を向上させることができ、モデル訓練段階では、充電ステーション集合全体の累積報酬を最大化することを目標とし、エージェントが互いに環境全体の情報を感知することができ、充電ステーション集合内の充電ステーション間の協調性を向上させることができるため、充電ステーション間の充電の協調性が悪いという問題の解決の助けとなり、充電ステーションの利用率を向上させることができる。
【0012】
なお、この部分に記載されている内容は、本開示の実施例の主要な又は重要な特徴を特定することを意図するものではなく、本開示の範囲を限定するものでもないことが理解されるべきである。本開示の他の特徴は、以下の説明を通じて理解が容易になる。
【図面の簡単な説明】
【0013】
図面は、本スキームをよりよく理解するために使用されるものであり、本開示の限定を構成するものではない。ここで、
【0014】
【
図1】本開示に係る一実施例が適用され得る例示的なシステムアーキテクチャ図である。
【
図2】本開示に係る充電ステーションの情報調整モデルを訓練するための方法の一実施例のフローチャートである。
【
図3】本実施例に係る充電ステーションの情報調整モデルを訓練するための方法の適用シナリオの概略図である。
【
図4】本実施例に係るエージェントプーリングモジュールの処理フローの概略図である。
【
図5】本実施例に係る充電ステーション集合からサブ集合を選択するものを示す概略図である。
【
図6】本開示に係る充電ステーションの情報調整モデルを訓練するための方法のさらに他の実施例のフローチャートである。
【
図7】本開示に係る充電ステーションを選択するための方法の一実施例のフローチャートである。
【
図8】本開示に係る充電ステーションの情報調整モデルを訓練するための装置の一実施例の構造図である。
【
図9】本開示に係る充電ステーションを選択するための装置の一実施例の構造図である。
【
図10】本開示の実施例を実現するのに適したコンピュータシステムの構造概略図である。
【発明を実施するための形態】
【0015】
以下、図面を参照して本開示の例示的な実施例を説明し、理解を容易にするために、本開示の実施例の様々な詳細が含まれ、それらは単なる例示的なものと理解すべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識すべきである。同様に、明確及び簡潔にするために、以下の説明では、公知の機能及び構造の説明を省略する。
【0016】
本開示の技術的解決手段において、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供及び開示などの処理は、すべて関連する法律法規の規定に適合し、且つ公序良俗に反しない。
【0017】
図1は、本開示を適用できる充電ステーションの情報調整モデルを訓練するための方法と装置、並びに充電ステーションを選択するための方法と装置の例示的なアーキテクチャ100を示す。
【0018】
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104及びサーバ105を含んでもよい。端末装置101、102、103間は通信可能に接続されてトポロジネットワークを構成し、ネットワーク104は、端末装置101、102、103とサーバ105との間の通信リンクの媒体を提供するために使用される。ネットワーク104は、有線、無線通信リンク又は光ファイバケーブルなどの様々な接続タイプを含んでもよい。
【0019】
端末装置101、102、103は、ネットワーク接続をサポートしてデータのやりとりとデータ処理を実行するハードウェアデバイス又はソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合は、スマートフォン、タブレット、車載コンピュータ、電子書籍リーダー、ラップトップポータブルコンピュータ及びデスクトップコンピュータなどを含むが、これらに限定されない、ネットワーク接続、情報取得、やりとり、表示、処理などの機能をサポートする様々な電子デバイスであってもよい。端末装置101、102、103がソフトウェアである場合は、上記に挙げた電子デバイスにインストールすることができる。分散型サービスを提供するために使用される複数のソフトウェア又はソフトウェアモジュールとして実装されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実装されてもよい。ここでは特に限定しない。
【0020】
サーバ105は、たとえば、端末装置101、102、103が提供する訓練サンプルに基づいて、深層決定方策勾配法を用いて、マルチエージェント強化学習を実行することで、各充電ステーションに対応する訓練された情報調整モデルのバックグラウンド処理サーバを得るような様々なサービスを提供するサーバであってもよい。別の例として、端末装置101、102、103が提供する充電要求に基づいて、目標充電ステーションについて、当該目標充電ステーションに対応する情報調整モデルにより、充電要求に対する目標動作情報を決定することで、ユーザが、目標動作情報に基づいて、充電ステーション集合から目標充電ステーションのバックグラウンド処理サーバを選択することができるようにする。一例として、サーバ105は、クラウドサーバであってもよい。
【0021】
なお、サーバは、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバがハードウェアである場合、複数のサーバからなる分散型サーバクラスタとして実現されてもよく、単一のサーバとして実現されてもよい。サーバがソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール(たとえば、分散型サービスを提供するためのソフトウェア又はソフトウェアモジュール)として実現されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよい。ここでは特に限定しない。
【0022】
なお、本開示の実施例が提供する充電ステーションの情報調整モデルを訓練するための方法、及び充電ステーションを選択するための方法は、サーバによって実行されてもよいし、端末装置によって実行されてもよいし、サーバと端末装置が協力して実行されてもよい。対応して、充電ステーションの情報調整モデルを訓練するための装置、及び充電ステーションを選択するための装置に含まれる各部(たとえば、各ユニット)は、すべてサーバに設けられてもよいし、すべて端末装置に設けられてもよいし、サーバと端末装置にそれぞれ設けられてもよい。
【0023】
図1の端末装置、ネットワーク及びサーバの数は、単なる例示的であることを理解すべきである。実装の必要に応じて、任意の数の端末装置、ネットワーク及びサーバを有してもよい。充電ステーションの情報調整モデルを訓練するための方法、及び充電ステーションを選択するための方法が実行されている電子デバイスが他の電子デバイスとデータ伝送する必要がない場合、当該システムアーキテクチャは、充電ステーションの情報調整モデルを訓練するための方法、及び充電ステーションを選択するための方法が実行されている電子デバイス(たとえば、サーバ又は端末装置)のみを含んでもよい。
【0024】
図2を参照すると、
図2は、本開示の実施例が提供する充電ステーションの情報調整モデルを訓練するための方法のフローチャートであり、ここで、フロー200は、以下のステップを含む。
【0025】
ステップ201:充電要求を取得し、充電ステーション集合内の各充電ステーションに対応する環境状態情報を決定する。
【0026】
本実施例では、充電ステーションの情報調整モデルを訓練するための方法の実行主体(たとえば、
図1の端末装置又はサーバ)は、有線ネットワーク接続方式又は無線ネットワーク接続方式に基づいて、遠隔から、又はローカルから充電要求を取得し、充電ステーション集合内の各充電ステーションに対応する環境状態情報を決定することができる。
【0027】
充電要求は、充電自動車内のユーザがスマートフォンや車載コンピュータなどの端末装置を介して発行した、充電自動車は充電が必要であることを特徴づける要求であってもよい。充電自動車は充電需要がある場合、対応するドライバー、乗客などのユーザは、充電プラットフォームで充電要求を開始し、
【数1】
(充電要求に対応する充電自動車は、充電に成功した場合、又は充電に失敗した場合、当該充電要求が完了したとする)。
【0028】
受信した充電要求について、ユーザがフィードバックされた目標動作情報に基づいて、充電ステーション集合から充電ステーションを選択できるように、充電ステーション集合内の各充電ステーションの目標動作情報をユーザにフィードバックする必要がある。
【0029】
ステップ202:初期ポリシーネットワークを介して、充電ステーション集合内の各充電ステーションに対応する環境状態情報に基づいて、充電要求に対する充電ステーション集合内の各充電ステーションの目標動作情報を決定する。
【0030】
本実施例では、上記実行主体は、初期ポリシーネットワークを介して、充電ステーション集合内の各充電ステーションに対応する環境状態情報に基づいて、充電要求に対する充電ステーション集合内の各充電ステーションの目標動作情報を決定することができる。
【0031】
目標動作情報は、充電ステーションの動作中に調整可能な任意の動作情報であってもよく、一例として、目標動作情報は、充電ステーションの価格情報、充電時間情報、充電速度情報などの動作情報であってもよい。
【0032】
価格情報を例にとると、具体的には充電単価であってもよい。充電単価は、充電ステーションの1kWhあたりの電気料金単価とサービス料単価を含む、充電ステーションの1kWhあたりの充電価格を特徴づける。
【0033】
【0034】
さらに、充電ステーション集合内の複数の充電ステーションの総利益は、すべての充電要求に対応する利益の合計である。
【0035】
充電ステーション集合は複数の充電ステーションを含み、一例として、充電ステーション集合は、予め設定された分割領域(たとえば、行政区域によって分割されて得られるか、又は指定された面積によって分割されて得られる)内のすべての充電ステーションである。各充電ステーションは、1つのエージェントとすることができ、
【数3】
【0036】
【0037】
本実施例では、actor(ポリシーネットワーク)-critic(バリューネットワーク)アーキテクチャを用いる。ここで、ポリシーネットワークは、充電ステーション集合内の各充電ステーションに対応する環境状態情報に基づいて、動作情報、すなわち、充電要求に対する充電ステーション集合内の各充電ステーションの目標動作情報を決定するために使用される。
【0038】
【0039】
【0040】
ここで、ポリシーネットワークは、深層ニューラルネットワーク、たとえば、深層畳み込みネットワーク、残差ネットワークなどのネットワークモデルを用いてもよい。
【0041】
ステップ203:初期バリューネットワークを介して、充電ステーション集合内の各充電ステーションに対応する環境状態情報と目標動作情報に基づいて、充電要求に対応する累積報酬の期待値を決定する。
【0042】
本実施例では、上記実行主体は、初期バリューネットワークを介して、充電ステーション集合内の各充電ステーションに対応する環境状態情報と目標動作情報に基づいて、充電要求に対応する累積報酬の期待値を決定することができる。累積報酬の期待値は、ポリシーネットワークによって決定された充電ステーションの目標動作情報のスコアとすることができ、数値が高いほど、ポリシーネットワークを特徴づける目標動作情報が良い。
【0043】
【0044】
【0045】
本実施例では、バリューネットワークは、深層ニューラルネットワーク、たとえば、深層畳み込みネットワーク、残差ネットワークなどのネットワークモデルを用いてもよい。ここで、バリューネットワークは、ポリシーネットワークと同じネットワーク構造を用いてもよいし、ポリシーネットワークと異なるネットワーク構造を用いてもよい。
【0046】
ステップ204:深層決定方策勾配法を用いて、初期ポリシーネットワークと初期バリューネットワークを訓練することで、訓練されたポリシーネットワークとバリューネットワークを得る。
【0047】
本実施例では、上記実行主体は、深層決定方策勾配法を用いて、初期ポリシーネットワークと初期バリューネットワークを訓練することで、訓練されたポリシーネットワークとバリューネットワークを得ることができる。ここで、訓練プロセスの中で、初期バリューネットワークを時間差分法で更新し、充電要求に対応する累積報酬の期待値を最大化することを目標として初期ポリシーネットワークを更新する。
【0048】
深層決定方策勾配(Deep Deterministic Policy Gradient、DDPG)アルゴリズムは、深層学習ニューラルネットワークをDPG(Deterministic Policy Gradient、決定方策勾配)に組み込んだ方策学習方法である。DPGアルゴリズムに比べて、DDPGアルゴリズムは、方策関数とバリュー関数のシミュレーションとして深層ニューラルネットワークを用い、次に、深層学習の方法を使用して方策関数とバリュー関数を訓練する。
【0049】
一例として、
【数9】
ステップ202、203を実行することで、充電要求に対する充電ステーション集合内の各充電ステーションの目標動作情報、及び充電要求に対応する累積報酬の期待値を決定し、さらに、初期バリューネットワークを時間差分(Temporal Difference、TD)方法で更新し、更新された初期バリューネットワークについて、充電要求に対応する累積報酬の期待値を最大化することを目標として初期ポリシーネットワークを更新して、更新された初期ポリシーネットワークを得る。各充電要求について、予め設定された終了条件に達するまで、上記訓練プロセスを反復的に実行することで、訓練されたポリシーネットワークとバリューネットワークを得ることができる。ここで、予め設定された終了条件は、たとえば、訓練時間が予め設定された時間閾値を超えること、訓練回数が予め設定された回数閾値を超えること、及び訓練損失が収斂に向かっていることであってもよい。
【0050】
ステップ205:訓練されたポリシーネットワークを、充電ステーション集合内の各充電ステーションに対応する情報調整モデルとして決定する。
【0051】
本実施例では、上記実行主体は、訓練されたポリシーネットワークを、充電ステーション集合内の各充電ステーションに対応する情報調整モデルとして決定することができる。
【0052】
一例として、充電ステーション集合内の各充電ステーションについて、受信した充電要求に基づいて、目標動作情報をリアルタイムに決定するために、情報調整モデルを配置することができる。
【0053】
引き続き
図3を参照すると、
図3は、本実施例に係る充電ステーションの情報調整モデルを訓練するための方法の適用シーンの概略
図300である。
図3の適用シーンでは、まず、サーバ301は、端末装置302から充電要求を取得し、充電ステーション集合303内の各充電ステーションに対応する環境状態情報を決定し、次に、初期ポリシーネットワーク304を介して、充電ステーション集合303内の各充電ステーションに対応する環境状態情報に基づいて、充電要求に対する充電ステーション集合内の各充電ステーションの目標動作情報を決定し、初期バリューネットワーク305を介して、充電ステーション集合303内の各充電ステーションに対応する環境状態情報と目標動作情報に基づいて、充電要求に対応する累積報酬の期待値を決定し、深層決定方策勾配法を用いて、初期ポリシーネットワークと初期バリューネットワークを訓練することで、訓練されたポリシーネットワーク306とバリューネットワーク307を得ることができ、ここで、訓練プロセスの中で、初期バリューネットワークを時間差分法で更新し、充電要求に対応する累積報酬の期待値を最大化することを目標として初期ポリシーネットワークを更新し、訓練されたポリシーネットワーク306を、充電ステーション集合内の各充電ステーションに対応する情報調整モデルとして決定する。
【0054】
本実施例では、充電ステーションの情報調整モデルを訓練するための方法を提供し、当該方法において、充電ステーションをエージェントとし、深層決定方策勾配法に基づいて、マルチエージェント強化学習を実行し、訓練により、目標動作情報をリアルタイムに決定できるポリシーネットワークを情報調整モデルとして得ることができるため、充電ステーションが目標動作情報を決定するリアルタイム性と合理性を向上させることができ、モデル訓練段階では、充電ステーション集合全体の累積報酬を最大化することを目標とし、エージェントが互いに環境全体の情報を感知することができ、充電ステーション集合内の充電ステーション間の協調性を向上させることができるため、充電ステーション間の充電が協調されていないという問題の解決の助けとなり、充電ステーションの利用率を向上させることができる。
【0055】
本実施例のいくつかのオプション的な実現方法では、上記実行主体は、以下のステップにより、上記ステップ203を実行することができる。
【0056】
第1ステップ:エージェントプーリングモジュールを介して、充電ステーション集合内の各充電ステーションに対応する環境状態情報と目標動作情報に基づいて、充電ステーション集合内のすべての充電ステーションを特徴づける統合表示情報を決定する。
【0057】
第2ステップ:初期バリューネットワークを介して、統合表示情報に基づいて、充電要求に対応する累積報酬の期待値を決定する。
【0058】
【0059】
本実現方法では、エージェントプーリングモジュールを介して、充電ステーション集合内のすべての充電ステーションに対応する環境状態情報と目標動作情報を次元削減することで、集中型訓練プロセスに充電ステーションが多すぎることによるベクトルの次元誘爆の問題を解決することができるため、訓練プロセスの適用性と訓練効率を向上させることができる。
【0060】
本実施例のいくつかのオプション的な実現方法では、
上記実行主体は、
まず、マッピングベクトルにより、充電ステーション集合内の各充電ステーションに対応する環境状態情報と目標動作情報を、充電ステーションの重要性を特徴づけるスコア特徴としてマッピングするステップ、
次に、スコア特徴に基づいて、充電ステーション集合から予め設定された数の充電ステーションを決定し、予め設定された数の充電ステーションに対応する環境状態情報、目標動作情報及びスコア特徴を決定するステップ、
次に、予め設定された数の充電ステーションに対応するスコア特徴を正規化して、ゲート制御ベクトルを得るステップ、
次に、予め設定された数の充電ステーションに対応する環境状態情報、目標動作情報及びゲート制御ベクトルに基づいて、ゲート制御特徴を決定するステップ、及び
最後に、ゲート制御特徴に基づいて、充電ステーション集合内のすべての充電ステーションの統合表示情報を決定するステップにより、上記第1ステップを実行することができる。
【0061】
図4に示すように、
図4は、エージェントプーリングモジュールの処理フローの概略図を示す。具体的には、
【数11】
【0062】
【0063】
【0064】
次に、以下の式で、ゲート制御メカニズムを用いて知識の保持を制御する。
【数14】
【0065】
【0066】
本実現方法では、エージェントプーリングモジュールの具体動作フローを提供し、充電ステーションのフィルタリングに基づいて、充電要求に対して重要な充電ステーションを決定し、ゲート制御メカニズムに基づいて、知識の保持を制御し、エージェントプーリングモジュールによって決定された統合表示情報の精度、及び訓練プロセスの訓練効率をさらに向上させることができる。
【0067】
本実施例のいくつかのオプション的な実現方法では、上記実行主体は、以下のステップにより、上記ステップ204を実行することができる。
【0068】
第1ステップ:初期バリューネットワークに対応する第1損失を時間差分法で決定する。
【0069】
時間差分法は、on-policyのSarsa法とoff-policyのQ-Learning法を含み、本実現方法では、初期バリューネットワークに対応する第1損失をいずれかの時間差分法で決定することができる。
【0070】
第2ステップ:エージェントプーリングモジュールに対応する第2損失を自己教師あり比較学習法で決定する。
【0071】
【数16】
より識別力のあるインスタンスの表現の学習の促進になる。
【0072】
本実現方法では、エージェントプーリングモジュールが表す充電ステーション集合に対応する統合表示情報をクエリ例とし、統合表示情報に対応する正の例示と負の例示を決定することにより、統合表示情報に対応するポジティブインスタンスとネガティブインスタンスとの間の自己教師あり比較学習損失InfoNCEを第2損失として決定することができる。
【0073】
第3ステップ:第1損失と第2損失に基づいて、第1初期バリューネットワークとエージェントプーリングモジュールを更新する。
【0074】
本実現方法では、上記実行主体は、合計、加重合計などの方法に基づいて、第1損失と第2損失に基づいて総損失を決定し、さらに総損失に基づいて勾配を決定し、それにより勾配降下法に基づいて、第1初期バリューネットワークとエージェントプーリングモジュールを更新することができる。
【0075】
第4ステップ:充電要求に対応する累積報酬の期待値を最大化することを目標として初期ポリシーネットワークを更新する。
【0076】
【数17】
訓練サンプルセットには、すべての充電ステーションの共同観測、共同動作及び報酬情報を含んでもよい。
【0077】
本実現方法では、ポリシーネットワーク、プーリングモジュール及びバリューネットワークの特定の訓練プロセスが提供され、訓練で得られたポリシーネットワーク、プーリングモジュール及びバリューネットワークの精度を向上させる助けとなる。
【0078】
本実施例のいくつかのオプション的な実現方法では、上記実行主体は、上記第2ステップを以下のように実行することができる。
【0079】
まず、共同特徴の第1サブ集合について、エージェントプーリングモジュールを介して、第1統合表示情報を決定し、ここで、共同特徴は充電ステーション集合内の各充電ステーションに対応する環境状態情報と目標動作情報を含み、次に、共同特徴の第2サブ集合について、エージェントプーリングモジュールを介して、第2統合表示情報を決定し、次に、充電要求と異なる他の充電要求に対応する共同特徴の第3サブ集合について、エージェントプーリングモジュールを介して、第3統合表示情報を決定し、最後に、第1統合表示情報、第2統合表示情報及び第3統合表示情報に基づいて決定した自己教師あり比較学習損失を第2損失として使用する。
【0080】
本実現方法では、解決すべき問題の1つとして、訓練されたエージェントプーリングモジュールを介して、効果的な大規模エージェントの潜在表現を得るために、上記エージェントプーリングモジュールをどのように訓練するかということである。簡単な方法としては、強化学習の最適化目標によりエージェントプーリングモジュールを更新することである。しかし、強化学習アルゴリズムは、環境のフィードバック報酬によりエージェントのポリシーを最適化するもので、この種の最適化方法は、教師あり学習よりも制御がはるかに難しい。強化学習にとって、高次元の入力から効果的な潜在表現を学習することは非常に困難であることが想像できる。ここで、本実現方法は、エージェントプーリングモジュールによる大規模エージェントの表現学習を促進するための補助タスクとして比較学習目標を提案する。
【0081】
【0082】
【0083】
【0084】
次に、InfoNCE損失を用いて比較学習目標を最適化する。
【0085】
【0086】
本実現方法では、自己教師あり比較学習の方法でエージェントプーリングモジュールの損失を決定するため、強化学習アルゴリズムを用いて環境のフィードバック報酬によりエージェントを最適化するポリシーに比べて、訓練の難易度を低くし、訓練効率を向上させることができる。
【0087】
本実施例のいくつかのオプション的な実現方法では、上記実行主体は、上記第1ステップを次のように実行することで、第1損失を得ることができる。
【0088】
まず、予め設定された報酬関数により、充電要求に対応する充電対象の充電動作に基づいて報酬情報を決定する。ここで、充電ステーション集合内の各充電ステーションは報酬情報を共有し、予め設定された報酬関数は異なる充電動作に対して報酬が異なる。次に、時間差分アルゴリズムにより、充電要求に対応する累積報酬の期待値、充電要求に対応する報酬及び充電要求の次の充電要求に対応する累積報酬の期待値に基づいて、初期バリューネットワークに対応する第1損失を決定する。
【0089】
【0090】
【0091】
また、本実現方法では、充電ステーション集合内のすべての充電ステーションは、同じ報酬を共有するため、これらの充電ステーションが互いに協力して総利益を最大化するように奨励することができる。
【0092】
さらに、以下の式により第1損失を決定する。
【0093】
【0094】
【0095】
本実現方法では、設計された予め設定された報酬関数により、異なる充電要求に対応する報酬を決定し、さらに第1損失を時間差分法で決定するため、第1損失の精度を向上させることができ、予め設定された報酬関数によって得られた報酬は、充電ステーション集合内の充電ステーション間で共有されるため、これらの充電ステーションの相互協力の奨励に役立ち、充電ステーション間の協調性を向上させることができる。
【0096】
本実現方法では、上記実行主体は、第1損失と第2損失の加重和を以下の式で決定することができる。
【0097】
【0098】
図6を引き続き参照すると、
図6は、本開示に係る充電ステーションの情報調整モデルを訓練するための方法のさらに他の実施例の例示的フロー600を示し、以下のステップを含む。
【0099】
ステップ601:充電要求を取得し、充電ステーション集合内の各充電ステーションに対応する環境状態情報を決定する。
【0100】
ステップ602:初期ポリシーネットワークを介して、充電ステーション集合内の各充電ステーションに対応する環境状態情報に基づいて、充電要求に対する充電ステーション集合内の各充電ステーションの目標動作情報を決定する。
【0101】
ステップ603:マッピングベクトルにより、充電ステーション集合内の各充電ステーションに対応する環境状態情報と目標動作情報を、充電ステーションの重要性を特徴づけるスコア特徴としてマッピングする。
【0102】
ステップ604:スコア特徴に基づいて、充電ステーション集合から予め設定された数の充電ステーションを決定し、予め設定された数の充電ステーションに対応する環境状態情報、目標動作情報及びスコア特徴を決定する。
【0103】
ステップ605:予め設定された数の充電ステーションに対応するスコア特徴を正規化して、ゲート制御ベクトルを得る。
【0104】
ステップ606:予め設定された数の充電ステーションに対応する環境状態情報、目標動作情報及びゲート制御ベクトルに基づいて、ゲート制御特徴を決定する。
【0105】
ステップ607:ゲート制御特徴に基づいて、充電ステーション集合内のすべての充電ステーションの統合表示情報を決定する。
【0106】
ステップ608:初期バリューネットワークを介して、統合表示情報に基づいて、充電要求に対応する累積報酬の期待値を決定する。
【0107】
ステップ609:初期バリューネットワークに対応する第1損失を時間差分法で決定する。
【0108】
ステップ610:エージェントプーリングモジュールに対応する第2損失を自己教師あり比較学習法で決定する。
【0109】
ステップ611:第1損失と第2損失に基づいて、第1初期バリューネットワークとエージェントプーリングモジュールを更新し、充電要求に対応する累積報酬の期待値を最大化することを目標として初期ポリシーネットワークを更新することで、訓練されたポリシーネットワークとバリューネットワークを得る。
【0110】
ステップ612:訓練されたポリシーネットワークを、充電ステーション集合内の各充電ステーションに対応する情報調整モデルとして決定する。
【0111】
本実施例から分かるように、本実施例における充電ステーションの情報調整モデルを訓練するための方法のフロー600は、
図2に対応する実施例と比較して、エージェントプーリングモジュールによる処理プロセス、及びマルチエージェント強化学習プロセスを具体的に説明しており、充電ステーション集合内の充電ステーション間の協調性をさらに向上させ、充電ステーションが目標動作情報を決定するリアルタイム性と合理性を向上させることができる。
【0112】
引き続き
図7を参照すると、
図7は、本開示に係る充電ステーションを選択するための方法の一実施例の例示的フロー700を示し、以下のステップを含む。
【0113】
ステップ701:充電要求を取得する。
【0114】
本実施例では、充電ステーションを選択するための方法の実行主体(たとえば、
図1の端末装置又はサーバ)は、有線ネットワーク接続方法又は無線ネットワーク接続方法に基づいて、遠隔から、又はローカルから充電要求を取得することができる。
【0115】
充電要求は、充電自動車内のユーザがスマートフォン、車載コンピュータなどの端末装置を介して発行した充電自動車は充電が必要であることを特徴づける要求であってもよい。充電自動車は充電需要がある場合、対応するドライバー、乗客などのユーザは、充電プラットフォームで充電要求を開始し、
【数27】
【0116】
ステップ702:充電ステーション集合内の各充電ステーションに対応する環境状態情報を決定する。
【0117】
本実施例では、上記実行主体は、目標充電ステーションに対応する環境状態情報を決定することができる。
【0118】
充電ステーション集合は複数の充電ステーションを含み、一例として、充電ステーション集合は、予め設定された分割領域(たとえば、行政区域によって分割された、又は指定された面積によって分割された)内のすべての充電ステーションである。各充電ステーションは、エージェントとすることができ、
【数28】
充電要求について、それに対応する充電ステーション集合内のすべての充電ステーションで構成される位置範囲は、充電要求の送信位置を含む。
【0119】
【0120】
ステップ703:充電ステーション集合内の各充電ステーションについて、当該充電ステーションに対応する訓練された情報調整モデルにより、当該充電ステーションに対応する環境状態情報に基づいて、充電要求に対する当該充電ステーションの目標動作情報を決定する。
【0121】
本実施例では、充電ステーション集合内の各充電ステーションについて、上記実行主体は、当該充電ステーションに対応する訓練された情報調整モデルにより、当該充電ステーションに対応する環境状態情報に基づいて、充電要求に対する当該充電ステーションの目標動作情報を決定することができる。ここで、情報調整モデルは、充電ステーション集合内の充電ステーション間で互いの環境状態情報を感知した上で、深層決定方策勾配法に基づいて、マルチエージェント強化学習を実行して得られる。具体的には、情報調整モデルは、上記実施例200、600によって訓練して得られる。
【0122】
【0123】
ステップ704:充電要求に対する充電ステーション集合内の各充電ステーションの目標動作情報を表示する。
【0124】
本実施例では、上記実行主体は、充電要求に対する充電ステーション集合内の各充電ステーションの目標動作情報を表示することができる。
【0125】
一例として、充電プラットフォームを介して、充電要求を送信するユーザに、充電要求に対する充電ステーション集合内の各充電ステーションの目標動作情報を表示することができる。
【0126】
ステップ705:選択指令を受信し、選択指令に基づいて、充電ステーション集合から目標充電ステーションを決定する。
【0127】
一例として、充電要求を送信するユーザは、表示された各充電ステーションの目標動作情報に基づいて、適切な充電ステーションを目標充電ステーションとして選択し、タッチ、クリックなどの動作指令、音声指令などにより選択指令を送信することができ、さらに、上記実行主体は、選択指令に基づいて、目標充電ステーションを決定することができる。
【0128】
当該目標充電ステーションを決定した後、上記実行主体は、ナビゲーションアプリケーションに基づいて、現在位置から目標充電ステーションまでのナビゲーション動作を実行することもできる。
【0129】
本実施例では、訓練された情報調整モデルにより、充電ステーションのリアルタイムの目標動作情報を決定するため、目標動作情報のリアルタイム性と合理性を向上させると同時に、充電ステーション集合内の充電ステーション間の協調性を向上させることができるため、充電ステーション間の充電の協調性が悪いという問題を解決するのに役立ち、充電ステーションの利用率を向上させることができる。
【0130】
引き続き
図8を参照すると、上記各図に示す方法の実現として、本開示は、充電ステーションの情報調整モデルを訓練するための装置の一実施例を提供し、当該装置の実施例は、
図2に示す方法の実施例に対応し、当該装置は、様々な電子デバイスに具体的に適用することができる。
【0131】
図8に示すように、充電ステーションの情報調整モデルを訓練するための装置800は、
充電要求を取得し、充電ステーション集合内の各充電ステーションに対応する環境状態情報を決定するように構成される第1決定ユニット801と、
初期ポリシーネットワークを介して、充電ステーション集合内の各充電ステーションに対応する環境状態情報に基づいて、充電要求に対する充電ステーション集合内の各充電ステーションの目標動作情報を決定するように構成される第2決定ユニット802と、
初期バリューネットワークを介して、充電ステーション集合内の各充電ステーションに対応する環境状態情報と目標動作情報に基づいて、充電要求に対応する累積報酬の期待値を決定するように構成される第3決定ユニット803と、
訓練ユニット804であって、前記訓練ユニット804は、深層決定方策勾配法を用いて、初期ポリシーネットワークと初期バリューネットワークを訓練することで、訓練されたポリシーネットワークとバリューネットワークを得るように構成され、ここで、訓練プロセスの中で、初期バリューネットワークを時間差分法で更新し、充電要求に対応する累積報酬の期待値を最大化することを目標として初期ポリシーネットワークを更新する訓練ユニット804と、
訓練されたポリシーネットワークを、充電ステーション集合内の各充電ステーションに対応する情報調整モデルとして決定するように構成される第4決定ユニット805と、を含む。
【0132】
本実施例のいくつかのオプション的な実現方法では、
第3決定ユニット803は、
エージェントプーリングモジュールを介して、充電ステーション集合内の各充電ステーションに対応する環境状態情報と目標動作情報に基づいて、充電ステーション集合内のすべての充電ステーションを特徴づける統合表示情報を決定し、
初期バリューネットワークを介して、統合表示情報に基づいて、充電要求に対応する累積報酬の期待値を決定するようにさらに構成される。
【0133】
本実施例のいくつかのオプション的な実現方法では、
第3決定ユニット803は、
マッピングベクトルにより、充電ステーション集合内の各充電ステーションに対応する環境状態情報と目標動作情報を、充電ステーションの重要性を特徴づけるスコア特徴としてマッピングし、
スコア特徴に基づいて、充電ステーション集合から予め設定された数の充電ステーションを決定し、予め設定された数の充電ステーションに対応する環境状態情報、目標動作情報及びスコア特徴を決定し、
予め設定された数の充電ステーションに対応するスコア特徴を正規化して、ゲート制御ベクトルを得、
予め設定された数の充電ステーションに対応する環境状態情報、目標動作情報及びゲート制御ベクトルに基づいて、ゲート制御特徴を決定し、
ゲート制御特徴に基づいて、充電ステーション集合内のすべての充電ステーションの統合表示情報を決定するようにさらに構成される。
【0134】
本実施例のいくつかのオプション的な実現方法では、
訓練ユニット804は、
初期バリューネットワークに対応する第1損失を時間差分法で決定し、
エージェントプーリングモジュールに対応する第2損失を自己教師あり比較学習法で決定し、
第1損失と第2損失に基づいて、第1初期バリューネットワークとエージェントプーリングモジュールを更新し、
充電要求に対応する累積報酬の期待値を最大化することを目標として初期ポリシーネットワークを更新するようにさらに構成される。
【0135】
本実施例のいくつかのオプション的な実現方法では、
訓練ユニット804は、
充電ステーション集合内の各充電ステーションに対応する環境状態情報と目標動作情報を含む共同特徴の第1サブ集合について、エージェントプーリングモジュールを介して、第1統合表示情報を決定し、
共同特徴の第2サブ集合について、エージェントプーリングモジュールを介して、第2統合表示情報を決定し、
充電要求と異なる他の充電要求に対応する共同特徴の第3サブ集合について、エージェントプーリングモジュールを介して、第3統合表示情報を決定し、
第1統合表示情報、第2統合表示情報及び第3統合表示情報に基づいて、決定された自己教師あり比較学習損失を、第2損失として使用するようにさらに構成される。
【0136】
本実施例のいくつかのオプション的な実現方法では、
訓練ユニット804は、
予め設定された報酬関数により、充電要求に対応する充電対象の充電動作に基づいて報酬情報を決定し、ここで、充電ステーション集合内の各充電ステーションは報酬情報を共有し、予め設定された報酬関数は異なる充電動作に対して報酬が異なり、
時間差分アルゴリズムにより、充電要求に対応する累積報酬の期待値、充電要求に対応する報酬及び充電要求の次の充電要求に対応する累積報酬の期待値に基づいて、初期バリューネットワークに対応する第1損失を決定するようにさらに構成される。
【0137】
本実施例では、充電ステーションの情報調整モデルを訓練するための方法を提供し、当該方法において、充電ステーションをエージェントとし、深層決定方策勾配法に基づいて、マルチエージェント強化学習を実行し、訓練により、目標動作情報をリアルタイムに決定できるポリシーネットワークを情報調整モデルとして得ることができるため、充電ステーションが目標動作情報を決定するリアルタイム性と合理性を向上させることができ、モデル訓練段階では、充電ステーション集合全体の累積報酬を最大化することを目標とし、エージェントが互いに環境全体の情報を感知することができ、充電ステーション集合内の充電ステーション間の協調性を向上させることができるため、充電ステーション間の充電の協調性が悪いという問題を解決するのに役立ち、それにより充電ステーションの利用率を向上させることができる。
【0138】
引き続き
図9を参照すると、上記各図に示す方法の実現として、本開示は、充電ステーションを選択するための装置の一実施例を提供し、当該装置の実施例は、
図7に示す方法の実施例に対応し、当該装置は様々な電子デバイスに具体的に適用することができる。
【0139】
図9に示すように、充電ステーションを選択するための装置900は、
充電要求を取得するように構成される取得ユニット901と、
充電ステーション集合内の各充電ステーションに対応する環境状態情報を決定するように構成される第5決定ユニット902と、
第6決定ユニット903であって、前記第6決定ユニット903は、前記充電ステーション集合内の各充電ステーションについて、当該充電ステーションに対応する、訓練された情報調整モデルにより、当該充電ステーションに対応する環境状態情報に基づいて、充電要求に対する当該充電ステーションの目標動作情報を決定するように構成され、ここで、情報調整モデルは、充電ステーション集合内の充電ステーション間で互いの環境状態情報を感知した上で、深層決定方策勾配法に基づいて、マルチエージェント強化学習を実行して得られる第6決定ユニット903と、
充電要求に対する充電ステーション集合内の各充電ステーションの目標動作情報を表示するように構成される表示ユニット904と、
選択指令を受信し、選択指令に基づいて、充電ステーション集合から目標充電ステーションを決定するように構成される受信ユニット905と、を含む。
【0140】
本実施例では、訓練された情報調整モデルにより、充電ステーションの目標動作情報をリアルタイムに決定するため、目標動作情報のリアルタイム性と合理性を向上させると同時に、充電ステーション集合内の充電ステーション間の協調性を向上させることができるため、充電ステーション間の充電の協調性が悪いという問題の解決に役立ち、充電ステーションの利用率を向上させることができる。
【0141】
本開示の実施例によれば、本開示は、電子デバイスをさらに提供し、
当該電子デバイスは、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、ここで、
メモリには、少なくとも1つのプロセッサによって実行可能な指令が記憶され、当該指令は、少なくとも1つのプロセッサが実行されるとき、上記いずれか実施例で説明した充電ステーションの情報調整モデルを訓練するための方法と充電ステーションを選択するための方法を実現できるように、少なくとも1つのプロセッサによって実行される。
【0142】
本開示の実施例によれば、本開示は、可読記憶媒体をさらに提供し、当該可読記憶媒体には、コンピュータに実行させるとき、上記いずれか実施例で説明した充電ステーションの情報調整モデルを訓練するための方法と充電ステーションを選択するための方法を実現できるためのコンピュータ指令が記憶される。
【0143】
本開示の実施例は、コンピュータプログラムを提供し、当該コンピュータプログラムは、プロセッサによって実行されるとき、上記いずれかの実施例で説明した充電ステーションの情報調整モデルを訓練するための方法と充電ステーションを選択するための方法を実現することができる。
【0144】
図10は、本開示の実施例を実施するために使用され得る例示的な電子デバイス1000の概略ブロック図を示す。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなど、様々な形式のデジタルコンピュータを表すことを目的としている。電子デバイスは、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス及び他の類似のコンピューティングデバイスなど、様々な形式のモバイルデバイスを表すこともできる。本明細書に示されるコンポーネント、それらの接続及び関係、ならびにそれらの機能は、単なる例であり、本明細書に記載及び/又は請求される本開示の実現を制限することを意図するものではない。
【0145】
図10に示すように、デバイス1000は、計算ユニット1001を含み、それは、読み取り専用メモリ(ROM)1002に記憶されたコンピュータプログラム、又は記憶ユニット1008からランダムアクセスメモリ(RAM)1003にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。RAM1003には、デバイス1000の操作に必要な様々なプログラム及びデータを記憶することもできる。計算ユニット1001、ROM1002及びRAM1003は、バス1004を介して、互いに接続される。入出力(I/O)インターフェース1005もバス1004に接続される。
【0146】
デバイス1000内の複数のコンポーネントは、I/Oインターフェース1005に接続され、当該複数のコンポーネントは、キーボード、マウスなどの入力ユニット1006と、様々なタイプのディスプレイ、スピーカなどの出力ユニット1007と、磁気ディスク、光ディスクなどの記憶ユニット1008と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット1009と、を含む。通信ユニット1009は、デバイス1000がインターネットなどのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して、他のデバイスと情報/データを交換することを可能にする。
【0147】
計算ユニット1001は、処理能力及び計算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット1001のいくつかの例は、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用な人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムの計算ユニット、デジタルシグナルプロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット1001は、充電ステーションの情報調整モデルを訓練するための方法などの上述した様々な方法及び処理を実行する。たとえば、いくつかの実施例では、充電ステーションの情報調整モデルを訓練するための方法は、記憶ユニット1008などの機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ROM1002及び/又は通信ユニット1009を介して、デバイス1000にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM1003にロードされ、計算ユニット1001によって実行されるとき、上述した充電ステーションの情報調整モデルを訓練するための方法の1つ又は複数のステップが実行されるようにしてもよい。あるいは、他の実施例では、計算ユニット1001は、他の任意の適切な手段によって(たとえば、ファームウェアによって)充電ステーションの情報調整モデルを訓練するための方法を実行するように設定されてもよい。
【0148】
上述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準部品(ASSP)、システムオンチップのシステム(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムに実施され、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び/又は解釈されてもよく、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び指令を受信し、データ及び指令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができることを含んでもよい。
【0149】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによりプログラムコードがプロセッサ又はコントローラによって実行されるとき、フローチャート及び/又はブロック図で規定された機能/動作が実施される。プログラムコードは、機械で完全に実行されてもよいし、機械で部分的に実行されるようにしてもよいし、独立なパッケージとして機械で部分的に実行され且つ遠隔制御による機械で部分的に実行され、又は遠隔制御による機械又はサーバで完全に実行されてもよい。
【0150】
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、当該機械可読媒体は、指令実行システム、装置又はデバイスによって使用される、又は指令実行システム、装置又はデバイスと組み合わせて使用されるプログラムを含む又は記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線的、又は半導体のシステム、装置又はデバイス、又は上記内容の任意の適切な組み合わせを含み得るが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のワイヤに基づく電気接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読取専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯型コンパクトディスクリードオンリーメモリ(CD-ROM)、光記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。
【0151】
ユーザとのやりとりを提供するために、ここで説明したシステム及び技術は、当該コンピュータは、ユーザに情報を表示するための表示装置(たとえば、CRT(ブラウン管)又はLCD(液晶ディスプレイ)モニター)と、ユーザが入力をコンピュータに提供するためのキーボード及びポインティング装置(たとえば、マウス又はトラックボール)と、を有するコンピュータに実施されてもよい。他の種類の装置は、ユーザとのやりとりを提供することもでき、たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚的なフィードバック(たとえば、視覚的なフィードバック、聴覚的なフィードバック、又は触覚的なフィードバック)であってもよく、任意の形態(声入力、音声入力又は触覚入力を含む)でユーザからの入力を受け取ってもよい。
【0152】
ここで説明したシステム及び技術は、バックエンドコンポーネントを含む計算システム(たとえば、データサーバとして)、又はミドルウェアコンポーネントを含む計算システム(たとえば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含む計算システム(たとえば、ユーザがここで説明したシステム及び技術の実施形態とやりとりできる、グラフィカルユーザインターフェース又はネットワークブラウザを有するユーザコンピュータ)、又は当該バックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含む計算システムに実施されてもよい。システムのコンポーネントは、任意の形式又は媒体のデジタルデータ通信(たとえば、通信ネットワーク)を介して、相互に接続されてもよい。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを含む。
【0153】
コンピュータシステムは、クライアントとサーバを含んでもよい。クライアントとサーバは、一般的に互いに離れており、且つ通常に通信ネットワークを介してやりとりをする。クライアントとサーバとの関係は、対応するコンピュータによって実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムを介して生成される。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストともいい、クラウドコンピューティングサービスシステムにおける1つのホストであり、それにより従来の物理ホストと仮想プライベートサーバ(VPS、Virtual Private Server)サービスに存在する管理難度が大きく、サービス拡張性が弱いという欠陥を解決することができる。サーバは、分散型システムのサーバであってもよく、又はブロックチェーンと組み合わせたサーバであってもよい。
【0154】
本開示の実施例の技術的解決手段によれば、充電ステーションの情報調整モデルを訓練するための方法を提供し、当該方法において、充電ステーションをエージェントとし、深層決定方策勾配法に基づいて、マルチエージェント強化学習を実行し、訓練により、目標動作情報をリアルタイムに決定できるポリシーネットワークを情報調整モデルとして得ることができるため、充電ステーションが目標動作情報を決定するリアルタイム性と合理性を向上させることができ、モデル訓練段階では、充電ステーション集合全体の累積報酬を最大化することを目標とし、エージェントが互いに環境全体の情報を感知することができ、充電ステーション集合内の充電ステーション間の協調性を向上させることができるため、充電ステーション間の充電の協調性が悪いという問題の解決の助けになり、充電ステーションの利用率を向上させることができる。
【0155】
以上に示された様々な形式のプロセスを使用して、ステップを並べ替えたり、追加したり、削除したりすることができることを理解すべきである。たとえば、本開示に記載されている各ステップは、並行に実行されてもよいし、順次に実行されてもよく、異なる順序で実行されてもよく、本開示によって提供される技術的解決手段の所望の結果を実現できる限り、ここで制限はしない。
【0156】
上記特定の実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に応じて、さまざまな修正、組み合わせ、サブコンビネーション及び置換を行うことができることを理解すべきである。本開示の精神及び原則内で行われる任意の修正、均等な置換及び改善などはいずれも、本開示の保護範囲内に含まれるべきである。
【外国語明細書】