特許7380585 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 株式会社ＧＳユアサの特許一覧

特許7380585蓄電素子評価装置、コンピュータプログラム、蓄電素子評価方法、学習方法及び生成方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-11-07

(45)【発行日】2023-11-15

(54)【発明の名称】蓄電素子評価装置、コンピュータプログラム、蓄電素子評価方法、学習方法及び生成方法

(51)【国際特許分類】

G01R 31/367 20190101AFI20231108BHJP

G01R 31/392 20190101ALI20231108BHJP

H01M 10/48 20060101ALI20231108BHJP

H02J 7/00 20060101ALI20231108BHJP

H02J 13/00 20060101ALI20231108BHJP

B60L 3/00 20190101ALI20231108BHJP

B60L 50/60 20190101ALI20231108BHJP

B60L 58/16 20190101ALI20231108BHJP

G16Y 10/40 20200101ALI20231108BHJP

G16Y 20/30 20200101ALI20231108BHJP

【ＦＩ】

G01R31/367

G01R31/392

H01M10/48 P

H01M10/48 301

H02J7/00 Y

H02J13/00 301A

B60L3/00 S

B60L50/60

B60L58/16

G16Y10/40

G16Y20/30

【請求項の数】 20

(21)【出願番号】P 2020554018

(86)(22)【出願日】2019-10-31

(86)【国際出願番号】 JP2019042707

(87)【国際公開番号】W WO2020090949

(87)【国際公開日】2020-05-07

【審査請求日】2022-09-08

(31)【優先権主張番号】P 2018205734

(32)【優先日】2018-10-31

(33)【優先権主張国・地域又は機関】JP

(73)【特許権者】

【識別番号】507151526

【氏名又は名称】株式会社ＧＳユアサ

(74)【代理人】

【識別番号】100114557

【弁理士】

【氏名又は名称】河野英仁

(74)【代理人】

【識別番号】100078868

【弁理士】

【氏名又は名称】河野登夫

(72)【発明者】

【氏名】鵜久森南

【審査官】永井皓喜

(56)【参考文献】

【文献】特開２０１６－７７１３９（ＪＰ，Ａ）

【文献】特開２０１１－９１０２６（ＪＰ，Ａ）

【文献】国際公開第２０１４／０４６１７９（ＷＯ，Ａ１）

【文献】特開２０１２－２９４５１（ＪＰ，Ａ）

【文献】国際公開第２０１４／０８３８５６（ＷＯ，Ａ１）

【文献】特開２００４－１３０９０９（ＪＰ，Ａ）

【文献】特開２０１６－７３０４２（ＪＰ，Ａ）

【文献】特開２０１５－９２３２８（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０１Ｒ３１／３６

Ｈ０１Ｍ１０／４８

Ｈ０２Ｊ７／００

Ｇ０６Ｑ１０／０４

Ｂ６０Ｌ５０／５０

(57)【特許請求の範囲】

【請求項1】

蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択する行動選択部と、
前記行動選択部で選択した行動を実行したときの前記蓄電素子の状態を取得する状態取得部と、
前記行動選択部で選択した行動を実行したときの報酬を取得する報酬取得部と、
前記状態取得部で取得した状態及び前記報酬取得部で取得した報酬に基づいて、前記行動評価情報を更新する更新部と、
を備え、
強化学習を用いて、前記行動選択部による選択処理、前記状態取得部による取得処理、前記報酬取得部による取得処理、及び前記更新部による更新処理を繰り返すことにより、報酬を最大化できる前記行動評価情報を学習し、
さらに、
前記更新部で更新した行動評価情報に基づく行動を実行して、前記蓄電素子の状態を評価する評価部を備える蓄電素子評価装置。

【請求項2】

前記蓄電素子を搭載した移動体を、複数の移動エリアのうちの一の移動エリア内で移動するようにしてあり、
前記行動は、
前記移動体が移動する移動エリアから当該移動エリアと異なる他の移動エリアへの切替を含む請求項１に記載の蓄電素子評価装置。

【請求項3】

前記移動エリアの切替に伴う移動体エリア間の距離に基づく報酬を算出する第１報酬算出部を備え、
前記報酬取得部は、
前記第１報酬算出部で算出した報酬を取得する請求項２に記載の蓄電素子評価装置。

【請求項4】

前記行動は、
前記蓄電素子が移動体に搭載された搭載状態と移動体から取り外された保管状態との切替を含む請求項１に記載の蓄電素子評価装置。

【請求項5】

前記蓄電素子は、複数の負荷のうちの一の負荷に接続してあり、
前記行動は、
前記蓄電素子に接続された負荷から当該負荷と異なる他の負荷への切替を含む請求項１に記載の蓄電素子評価装置。

【請求項6】

前記切替の回数に基づく報酬を算出する第２報酬算出部を備え、
前記報酬取得部は、
前記第２報酬算出部で算出した報酬を取得する請求項２から請求項５のいずれか一項に記載の蓄電素子評価装置。

【請求項7】

前記蓄電素子のＳＯＨの低下の度合いに基づく報酬を算出する第３報酬算出部を備え、
前記報酬取得部は、
前記第３報酬算出部で算出した報酬を取得する請求項１から請求項６のいずれか一項に記載の蓄電素子評価装置。

【請求項8】

前記蓄電素子の状態が寿命に到達したか否かに基づいて報酬を算出する第４報酬算出部を備え、
前記報酬取得部は、
前記第４報酬算出部で算出した報酬を取得する請求項１から請求項７のいずれか一項に記載の蓄電素子評価装置。

【請求項9】

前記蓄電素子の負荷電力情報を取得する電力情報取得部と、
前記電力情報取得部で取得した負荷電力情報及び前記行動選択部で選択した行動に基づいて前記蓄電素子のＳＯＣの推移を推定するＳＯＣ推移推定部と、
前記ＳＯＣ推移推定部で推定したＳＯＣの推移に基づいて前記蓄電素子のＳＯＨを推定するＳＯＨ推定部と
を備え、
前記評価部は、
前記ＳＯＨ推定部が推定したＳＯＨに基づいて前記蓄電素子のＳＯＨを含む状態を評価する請求項１から請求項８のいずれか一項に記載の蓄電素子評価装置。

【請求項10】

前記蓄電素子の負荷電力情報を取得する電力情報取得部と、
前記蓄電素子のＳＯＨを取得するＳＯＨ取得部と、
前記電力情報取得部で取得した負荷電力情報及び前記ＳＯＨ取得部で取得したＳＯＨに基づいて、前記蓄電素子のＳＯＨを推定するＳＯＨ推定部を生成する生成部と
を備え、
前記評価部は、
前記生成部が生成したＳＯＨ推定部のＳＯＨ推定に基づいて前記蓄電素子のＳＯＨを含む状態を評価する請求項１から請求項８のいずれか一項に記載の蓄電素子評価装置。

【請求項11】

前記蓄電素子の環境温度情報を取得する温度情報取得部を備え、
前記ＳＯＨ推定部は、
前記環境温度情報に基づいて前記蓄電素子のＳＯＨを推定する請求項９又は請求項１０に記載の蓄電素子評価装置。

【請求項12】

前記蓄電素子の設計パラメータを取得するパラメータ取得部を備え、
前記評価部は、
前記パラメータ取得部で取得した設計パラメータに応じて前記蓄電素子の状態を評価する請求項１から請求項１１のいずれか一項に記載の蓄電素子評価装置。

【請求項13】

前記評価部での前記蓄電素子の状態の評価結果に基づいて、前記蓄電素子の負荷状態の変更を含む行動の指令を出力する出力部を備える請求項１から請求項１２のいずれか一項に記載の蓄電素子評価装置。

【請求項14】

コンピュータに、
蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択する処理と、
選択した行動を実行したときの前記蓄電素子の状態を取得する処理と、
選択した行動を実行したときの報酬を取得する処理と、
取得した状態及び報酬に基づいて、前記行動評価情報を更新する処理と、
強化学習を用いて、前記行動を選択する処理、前記状態を取得する処理、前記報酬を取得する処理、及び前記行動評価情報を更新する処理を繰り返すことにより、報酬を最大化できる前記行動評価情報を学習する処理と、
更新した行動評価情報に基づく行動を実行して、前記蓄電素子の状態を評価する処理と、
を実行させるコンピュータプログラム。

【請求項15】

蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択し、
選択された行動を実行したときの前記蓄電素子の状態を取得し、
選択された行動を実行したときの報酬を取得し、
取得された状態及び報酬に基づいて、前記行動評価情報を更新し、
強化学習を用いて、前記行動を選択するステップ、前記状態を取得するステップ、前記報酬を取得するステップ、及び前記行動評価情報を更新するステップを繰り返すことにより、報酬を最大化できる前記行動評価情報を学習し、
更新された行動評価情報に基づく行動を実行して、前記蓄電素子の状態を評価する蓄電素子評価方法。

【請求項16】

蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択し、
選択された行動を実行したときの前記蓄電素子の状態を取得し、
選択された行動を実行したときの報酬を取得し、
取得された報酬に基づいて、前記行動評価情報を更新して、前記蓄電素子の状態に対応する行動を学習する学習方法。

【請求項17】

蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択し、
選択された行動を実行したときの前記蓄電素子の状態を取得し、
選択された行動を実行したときの報酬を取得し、
取得された報酬に基づいて、前記行動評価情報を更新し、
前記蓄電素子の設計パラメータを取得して前記行動評価情報を生成する生成方法。

【請求項18】

蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択する行動選択部と、
前記行動選択部で選択した行動を実行したときの前記蓄電素子の状態を取得する状態取得部と、
前記行動選択部で選択した行動を実行したときの報酬を取得する報酬取得部と、
前記状態取得部で取得した状態及び前記報酬取得部で取得した報酬に基づいて、前記行動評価情報を更新する更新部と、
前記更新部で更新した行動評価情報に基づく行動を実行して、前記蓄電素子の状態を評価する評価部を備え、
前記蓄電素子を搭載した移動体を、複数の移動エリアのうちの一の移動エリア内で移動するようにしてあり、
前記行動は、
前記移動体が移動する移動エリアから当該移動エリアと異なる他の移動エリアへの切替を含む蓄電素子評価装置。

【請求項19】

蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択する行動選択部と、
前記行動選択部で選択した行動を実行したときの前記蓄電素子の状態を取得する状態取得部と、
前記行動選択部で選択した行動を実行したときの報酬を取得する報酬取得部と、
前記状態取得部で取得した状態及び前記報酬取得部で取得した報酬に基づいて、前記行動評価情報を更新する更新部と、
前記更新部で更新した行動評価情報に基づく行動を実行して、前記蓄電素子の状態を評価する評価部を備え、
前記蓄電素子は、複数の負荷のうちの一の負荷に接続してあり、
前記行動は、
前記蓄電素子に接続された負荷から当該負荷と異なる他の負荷への切替を含み、
前記切替の回数に基づく報酬を算出する第２報酬算出部を備え、
前記報酬取得部は、
前記第２報酬算出部で算出した報酬を取得する蓄電素子評価装置。

【請求項20】

蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択する行動選択部と、
前記行動選択部で選択した行動を実行したときの前記蓄電素子の状態を取得する状態取得部と、
前記行動選択部で選択した行動を実行したときの報酬を取得する報酬取得部と、
前記状態取得部で取得した状態及び前記報酬取得部で取得した報酬に基づいて、前記行動評価情報を更新する更新部と、
前記更新部で更新した行動評価情報に基づく行動を実行して、前記蓄電素子の状態を評価する評価部を備え、
前記蓄電素子を搭載した移動体を、複数の移動エリアのうちの一の移動エリア内で移動するようにしてあり、
前記行動は、
前記移動体が移動する移動エリアから当該移動エリアと異なる他の移動エリアへの切替を含み、
前記切替の回数に基づく報酬を算出する第２報酬算出部をさらに備え、
前記報酬取得部は、
前記第２報酬算出部で算出した報酬を取得する蓄電素子評価装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、蓄電素子評価装置、コンピュータプログラム、蓄電素子評価方法、学習方法及び生成方法に関する。

【背景技術】

【0002】

輸送業界、物流業界又は運送業界などの様々な業界で、車両やフライイングビークルを含む移動体の電動化が検討されている。多くの電動ビークルを保有する事業主体としては、電動ビークルに搭載された蓄電素子（Energy Storage Device）が早期に劣化することは避けたい。

【0003】

特許文献１には、車載蓄電池を活用したエネルギーマネージメントにおいて車載蓄電池の利用率を高める技術が開示されている。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０１７－４６４９８号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

蓄電素子の劣化は、蓄電素子が使用される環境（電動ビークルの場合には、走行状態、飛行状態や使用環境）によって変化する。特定の電動ビークルが過度に使用されると、当該電動ビークルに搭載された蓄電素子が早期に劣化する。

【0006】

本発明は、蓄電素子の劣化を考慮して負荷を最適に分散できる蓄電素子評価装置、コンピュータプログラム、蓄電素子評価方法、学習方法及び生成方法を提供することを目的とする。

【課題を解決するための手段】

【0007】

蓄電素子評価装置は、蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択する行動選択部と、前記行動選択部で選択した行動を実行したときの前記蓄電素子の状態を取得する状態取得部と、前記行動選択部で選択した行動を実行したときの報酬を取得する報酬取得部と、前記状態取得部で取得した状態及び前記報酬取得部で取得した報酬に基づいて、前記行動評価情報を更新する更新部と、前記更新部で更新した行動評価情報に基づく行動を実行して、前記蓄電素子の状態を評価する評価部とを備える。

【0008】

コンピュータプログラムは、コンピュータに、蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択する処理と、選択した行動を実行したときの前記蓄電素子の状態を取得する処理と、選択した行動を実行したときの報酬を取得する処理と、取得した状態及び報酬に基づいて、前記行動評価情報を更新する処理と、更新した行動評価情報に基づく行動を実行して、前記蓄電素子の状態を評価する処理とを実行させる。

【0009】

蓄電素子評価方法は、蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択し、選択された行動を実行したときの前記蓄電素子の状態を取得し、選択された行動を実行したときの報酬を取得し、取得された状態及び報酬に基づいて、前記行動評価情報を更新し、更新された行動評価情報に基づく行動を実行して、前記蓄電素子の状態を評価する。

【0010】

学習方法は、蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択し、選択された行動を実行したときの前記蓄電素子の状態を取得し、選択された行動を実行したときの報酬を取得し、取得された報酬に基づいて、前記行動評価情報を更新して、前記蓄電素子の状態に対応する行動を学習する。

【0011】

生成方法は、蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択し、選択された行動を実行したときの前記蓄電素子の状態を取得し、選択された行動を実行したときの報酬を取得し、取得された報酬に基づいて、前記行動評価情報を更新して前記行動評価情報を生成する。

【発明の効果】

【0012】

上記の構成により、蓄電素子の劣化を考慮して負荷を最適に分散できる。

【図面の簡単な説明】

【0013】

【図1】蓄電素子評価システムの構成の一例を示す模式図である。

【図2】蓄電素子評価サーバの構成の一例を示すブロック図である。

【図3A】蓄電素子の負荷電力の例を示す模式図である。

【図3B】蓄電素子の負荷電力の例を示す模式図である。

【図4】蓄電素子の環境温度の一例を示す模式図である。

【図5】ＳＯＨ推定部の動作を示す模式図である。

【図6】蓄電素子のＳＯＣの推移の一例を示す模式図である。

【図7】強化学習の一例を示す模式図である。

【図8】物流・運送サービスのサービスエリアの一例を示す模式図である。

【図9】地域毎の電動車両の配車状態の一例を示す模式図である。

【図10】電動車両と電動車両に搭載されている蓄電素子との関係を示す模式図である。

【図11】評価値テーブルの構成の一例を示す模式図である。

【図12】評価値テーブルの評価値の一例を示す模式図である。

【図13】本実施の形態のニューラルネットワークモデルの構成の一例を示す模式図である。

【図14】電動車両が配車される地域の切替の一例を示す模式図である。

【図15】蓄電素子交換サービスのサービス内容の一例を示す模式図である。

【図16】蓄電素子の交換の一例を示す模式図である。

【図17】据置蓄電素子運用監視サービスでの蓄電素子の負荷状態の変更の一例を示す模式図である。

【図18】負荷の切替の一例を示す模式図である。

【図19】強化学習の状態遷移の様子の第１例を示す模式図である。

【図20】強化学習の状態遷移の様子の第２例を示す模式図である。

【図21】運用開始前からＳＯＨ推定部を用いる場合の、強化学習によって得られた運用方法によるＳＯＨの推移の一例を示す模式図である。

【図22】運用初期段階のデータを用いて寿命予測シミュレータを生成する場合の、強化学習によって得られた運用方法によるＳＯＨの推移の一例を示す模式図である。

【図23】寿命予測シミュレータを用いない場合の、強化学習によって得られた運用方法によるＳＯＨの推移の一例を示す模式図である。

【図24】強化学習の処理手順の一例を示すフローチャートである。

【発明を実施するための形態】

【0014】

【0015】

【0016】

【0017】

【0018】

【0019】

行動選択部は、蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択する。行動評価情報は、強化学習において、環境のある状態での行動の評価値を定める行動価値関数又はテーブル（表）であり、Ｑ学習では、Ｑ値又はＱ関数を意味する。蓄電素子の負荷状態は、蓄電素子の充電時又は放電時の電流、電圧、電力などの物理量を含む。また、負荷状態に、蓄電素子の温度を含めることもできる。負荷状態の変更は、電流、電圧、電力又は温度などの変化パターン（変動幅、平均値、ピーク値などを含む）、蓄電素子の使用場所の変更、使用状態の変更（例えば、使用状態と保管状態との間の変更）などを含む。複数の蓄電素子それぞれに個別の負荷状態が存在することを考慮すると、蓄電素子の負荷状態の変更は、負荷の分散に相当する。行動選択部は、強化学習でのエージェントに相当し、行動評価情報において最も評価の高い行動を選択することができる。

【0020】

状態取得部は、行動選択部で選択した行動を実行したときの蓄電素子の状態を取得する。行動選択部によって選択された行動が実行されると、環境の状態は変化する。状態取得部は、変化した状態を取得する。蓄電素子の状態は、ＳＯＨ（State Of Health）であってもよいし、ＳＯＨの先行指標である、ある時点における電流、電圧、温度、電池厚みやその時系列データや各指標の組み合わせであってもよい。本明細書において、ＳＯＨとは、初期状態の値と比較した、放電可能な電気容量維持率や内部抵抗増大率、放電可能な電力容量維持率などやそれらの値の組み合わせや時系列の推移のことを指す。ＳＯＨは実測値を用いることが望ましいが、先行指標や前回実測したＳＯＨから推定した値であっても良い。特に推定値である場合は、ＳＯＨを確率分布として表現することが望ましい。

【0021】

報酬取得部は、行動選択部で選択した行動を実行したときの報酬を取得する。報酬取得部は、行動選択部が環境に対して望ましい結果を作用させたときに高い値（正値）を取得する。報酬が０のときは、報酬なしであり、報酬が負値のときはペナルティとなる。

【0022】

更新部は、取得した状態及び報酬に基づいて、行動評価情報を更新する。より具体的には、更新部は、強化学習でのエージェントに相当し、行動に対する報酬を最大化する方向へ行動評価情報を更新する。これにより、環境のある状態において最大の価値が期待される行動を学習できる。

【0023】

評価部は、更新部で更新した行動評価情報に基づく行動を実行して、蓄電素子の状態を評価する。これにより、蓄電素子の、例えば、ＳＯＨに対して、負荷状態の変更を含む行動が強化学習によって得られ、負荷状態の変更を含む行動の結果として蓄電素子のＳＯＨを評価することができる。複数の蓄電素子それぞれに対する評価を行うことによって、蓄電素子の劣化を考慮の上で蓄電素子の負荷を最適に分散し、全体としてコストを低減することができる。

【0024】

蓄電素子評価装置は、前記蓄電素子を搭載した移動体を、複数の移動エリアのうちの一の移動エリア内で移動するようにしてあり、前記行動は、前記移動体が移動する移動エリアから当該移動エリアと異なる他の移動エリアへの切替を含むことができる。

【0025】

蓄電素子を搭載した移動体を、複数の移動エリアのうちの一の移動エリア内で移動するようにしてある。例えば、物流業界又は運送業界などにおいて、サービス提供エリアを複数の移動エリアで区分しておき、移動エリア毎に、サービスに供する移動体（例えば、電動車両）を定めておくことができる。例えば、移動エリアＡには、移動体ａ１、ａ２、…を配車しておき、移動エリアＢには、移動体ｂ１、ｂ２、…を配車しておくことができる。他の移動エリアについて同様である。

【0026】

行動は、移動体が移動する移動エリアから当該移動エリアと異なる他の移動エリアへの切替を含む。道路網を複数の移動エリアで区分した場合、ある特定の移動エリアでは、坂道が多いとか、信号機が設置された交差点が多いとか、高速道路が多いとか、他の移動エリアと環境が異なると考えられ、移動体に搭載された蓄電素子の負荷状態も異なると考えられる。移動エリアに配車された移動体をその移動エリア内で移動させると、移動エリア毎に蓄電素子に対する負荷の軽重が異なり、特定の移動エリア内の移動体の蓄電素子の劣化が早まる可能性がある。

【0027】

移動体が移動する移動エリアの切替を強化学習で学習することにより、移動エリアの切替の結果として蓄電素子のＳＯＨを評価することができる。複数の蓄電素子それぞれに対する評価を行うことによって、蓄電素子の劣化を考慮の上で蓄電素子の負荷を最適に分散し、全体としてコストを低減することができる。

【0028】

蓄電素子評価装置は、前記移動エリアの切替に伴う移動体エリア間の距離に基づく報酬を算出する第１報酬算出部を備え、前記報酬取得部は、前記第１報酬算出部で算出した報酬を取得することができる。

【0029】

第１報酬算出部は、移動エリアの切替に伴う移動体エリア間の距離に基づく報酬を算出する。報酬取得部は、第１報酬算出部で算出した報酬を取得する。例えば、距離が長いほど、移動エリアの切替に伴うコストが高くなる傾向があると考えられるので、距離が長いほど報酬を小さく、あるいは負の報酬（ペナルティ）となるように算出することができる。これにより、複数の蓄電素子を含むシステム全体のコストの増大を抑制することができる。

【0030】

蓄電素子評価装置において、前記行動は、前記蓄電素子が移動体に搭載された搭載状態と移動体から取り外された保管状態との切替を含むことができる。

【0031】

行動は、蓄電素子が移動体に搭載された搭載状態と移動体から取り外された保管状態との切替を含む。例えば、蓄電素子の交換サービスでは、予め複数の蓄電素子を保管しておき、移動体に搭載された蓄電素子の充電率（ＳＯＣ：State of Charge）が低下したときに、移動体の蓄電素子が満充電された蓄電素子と交換される。搭載状態と保管状態とでは、蓄電素子の負荷状態の軽重が異なる。

【0032】

搭載状態と保管状態との切替を強化学習で学習することにより、搭載状態と保管状態との切替の結果として蓄電素子のＳＯＨを評価することができる。複数の蓄電素子それぞれに対する評価を行うことによって、蓄電素子の劣化を考慮の上で蓄電素子の負荷を最適に分散し、全体としてコストを低減することができる。

【0033】

蓄電素子評価装置において、前記蓄電素子は、複数の負荷のうちの一の負荷に接続してあり、前記行動は、前記蓄電素子に接続された負荷から当該負荷と異なる他の負荷への切替を含むことができる。

【0034】

蓄電素子は、複数の負荷のうちの一の負荷に接続してある。すなわち、発電設備又は電力需要設備内の複数の蓄電素子それぞれには別個の負荷が接続されている。蓄電素子の負荷となる電気設備は、動作状態や環境状態によって必要とする電力が変動し、蓄電素子に要求される電力も変動するので、蓄電素子に接続される負荷に応じて、蓄電素子の負荷状態の軽重が異なる。複数の蓄電素子それぞれに固定的に負荷を接続すると、負荷に応じて、蓄電素子に対する負荷の軽重が異なり、特定の蓄電素子の劣化が早まる可能性がある。

【0035】

行動は、蓄電素子に接続された負荷から当該負荷と異なる他の負荷への切替を含む。負荷の切替を強化学習で学習することにより、負荷の切替の結果として蓄電素子のＳＯＨを評価することができる。複数の蓄電素子それぞれに対する評価を行うことによって、蓄電素子の劣化を考慮の上で蓄電素子の負荷を最適に分散し、全体としてコストを低減することができる。

【0036】

蓄電素子評価装置は、前記切替の回数に基づく報酬を算出する第２報酬算出部を備え、前記報酬取得部は、前記第２報酬算出部で算出した報酬を取得することができる。

【0037】

第２報酬算出部は、切替の回数に基づく報酬を算出する。報酬取得部は、第２報酬算出部で算出した報酬を取得する。例えば、複数の蓄電素子を含むシステム全体として蓄電素子の平均ＳＯＨを高く維持する運用を優先する場合には、切替回数の増大による若干のコスト高を犠牲にして、切替の回数が多くても報酬が小さくならないように、あるいは負（ペナルティ）にならないように算出することができる。一方、複数の蓄電素子を含むシステム全体として切替コストを低減する運用を優先する場合には、切替回数の減少による蓄電素子の平均ＳＯＨの若干の低下を犠牲にして、切替の回数が少ないほど比較的大きな値の報酬となるように算出することができる。これにより、最適な運用を実現することができる。

【0038】

蓄電素子評価装置は、前記蓄電素子のＳＯＨの低下の度合いに基づく報酬を算出する第３報酬算出部を備え、前記報酬取得部は、前記第３報酬算出部で算出した報酬を取得することができる。

【0039】

第３報酬算出部は、蓄電素子のＳＯＨの低下の度合いに基づく報酬を算出する。報酬取得部は、第３報酬算出部で算出した報酬を取得する。ＳＯＨの低下の度合いは、例えば、過去のＳＯＨに対して、現在のＳＯＨがどの程度減少したか減少率とすることができる。例えば、ＳＯＨの低下の度合いが閾値より大きい場合（減少率が大きい場合）、報酬を負値（ペナルティ）とすることができる。また、ＳＯＨの低下の度合いが閾値より小さい場合（減少率が小さい場合）、報酬を正値とすることができる。これにより、蓄電素子のＳＯＨの低下を抑制しつつ蓄電素子の最適な運用を実現することができる。

【0040】

蓄電素子評価装置は、前記蓄電素子の状態が寿命に到達したか否かに基づいて報酬を算出する第４報酬算出部を備え、前記報酬取得部は、前記第４報酬算出部で算出した報酬を取得することができる。

【0041】

第４報酬算出部は、蓄電素子の状態が寿命に到達したか否かに基づいて報酬を算出する。報酬取得部は、第４報酬算出部で算出した報酬を取得する。例えば、蓄電素子のＳＯＨがＥＯＬ（End Of Life）を下回らないときは、報酬を正値とし、ＳＯＨがＥＯＬ以下になったときは、報酬を負値（ペナルティ）とすることができる。これにより、蓄電素子の期待寿命（例えば、１０年、１５年など）に達するような最適な運用を実現することができる。

【0042】

蓄電素子評価装置は、前記蓄電素子の負荷電力情報を取得する電力情報取得部と、前記電力情報取得部で取得した負荷電力情報及び前記行動選択部で選択した行動に基づいて前記蓄電素子のＳＯＣの推移を推定するＳＯＣ推移推定部と、前記ＳＯＣ推移推定部で推定したＳＯＣの推移に基づいて前記蓄電素子のＳＯＨを推定するＳＯＨ推定部とを備え、前記評価部は、前記ＳＯＨ推定部が推定したＳＯＨに基づいて前記蓄電素子のＳＯＨを含む状態を評価することができる。

【0043】

電力情報取得部は、蓄電素子の負荷電力情報を取得する。負荷電力情報は、所定期間に亘る負荷電力の推移を表す情報であり、蓄電素子が充電される場合は、充電電力を含み、蓄電素子が放電するときは、放電電力を含む。所定期間は、１日、１週間、１月、春夏秋冬、１年などの期間とすることができる。

【0044】

ＳＯＣ推移推定部は、電力情報取得部で取得した負荷電力情報及び行動選択部で選択した行動に基づいて蓄電素子のＳＯＣの推移を推定する。所定期間において、蓄電素子の充電が行われるときは、ＳＯＣは増加する。一方、蓄電素子の放電が行われるとき、ＳＯＣは減少する。所定期間においては、蓄電素子の充放電が行われないときもある（例えば、夜間など）。これにより、所定期間に亘ってＳＯＣの推移を推定することができる。

【0045】

ＳＯＨ推定部は、推定されたＳＯＣの推移に基づいて蓄電素子のＳＯＨを推定する。評価部は、ＳＯＨ推定部が推定したＳＯＨに基づいて蓄電素子のＳＯＨを含む状態を評価する。蓄電素子の所定期間後の劣化値Ｑｄｅｇは、通電劣化値Ｑｃｕｒと非通電劣化値Ｑｃｎｄとの和で表すことができる。経過時間をｔで表すと、非通電劣化値Ｑｃｎｄは、例えば、Ｑｃｎｄ＝Ｋ１×√（ｔ）で求めることができる。ここで、係数Ｋ１は、ＳＯＣの関数である。また、通電劣化値Ｑｃｕｒは、例えば、Ｑｃｕｒ＝Ｋ２×（ＳＯＣの変動量）で求めることができる。ここで、係数Ｋ２は、ＳＯＣの関数である。所定期間の始点でのＳＯＨをＳＯＨ１とし、終点でのＳＯＨをＳＯＨ２とすると、ＳＯＨ２＝ＳＯＨ１－ＱｄｅｇによりＳＯＨを推定することができる。

【0046】

なお、前述のＳＯＣ推移推定部及びＳＯＨ推定部は、複数の蓄電素子を含むシステムの運用開始前に予め準備しておくことができる。

【0047】

これにより、将来の所定期間経過後のＳＯＨを推定することができる。また、推定したＳＯＨに基づいて、さらに所定期間経過後の劣化値を算出すれば、当該所定期間経過後のＳＯＨをさらに推定することができる。ＳＯＨの推定を所定期間経過毎に繰り返すことにより、蓄電素子の期待寿命（例えば、１０年、１５年など）時に蓄電素子が寿命に達しているのか否か（ＳＯＨがＥＯＬ以下であるか否か）も推定することができる。

【0048】

蓄電素子評価装置は、前記蓄電素子の負荷電力情報を取得する電力情報取得部と、前記蓄電素子のＳＯＨを取得するＳＯＨ取得部と、前記電力情報取得部で取得した負荷電力情報及び前記ＳＯＨ取得部で取得したＳＯＨに基づいて、前記蓄電素子のＳＯＨを推定するＳＯＨ推定部を生成する生成部とを備え、前記評価部は、前記生成部が生成したＳＯＨ推定部のＳＯＨ推定に基づいて前記蓄電素子のＳＯＨを含む状態を評価することができる。

【0049】

電力情報取得部は、蓄電素子の負荷電力情報を取得する。負荷電力情報は、所定期間に亘る負荷電力の推移を表す情報であり、蓄電素子が充電される場合は、充電電力を含み、蓄電素子が放電するときは、放電電力を含む。所定期間は、１日、１週間、１月、春夏秋冬、１年などの期間とすることができる。ＳＯＨ取得部は、蓄電素子のＳＯＨを取得する。

【0050】

生成部は、電力情報取得部で取得した負荷電力情報及びＳＯＨ取得部で取得したＳＯＨに基づいて、蓄電素子のＳＯＨを推定するＳＯＨ推定部を生成する。評価部は、生成部が生成したＳＯＨ推定部のＳＯＨ推定に基づいて蓄電素子のＳＯＨを含む状態を評価する。例えば、複数の蓄電素子を含むシステムの運用開始後に、取得した負荷電力情報及び蓄電素子のＳＯＨを収集し、収集した負荷電力情報に対して収集した蓄電素子のＳＯＨを含む状態を推定するようなＳＯＨ推定部を生成する。具体的には、ＳＯＨを推定するためのパラメータを設定する。例えば、蓄電素子の所定期間後の劣化値Ｑｄｅｇは、通電劣化値Ｑｃｕｒと非通電劣化値Ｑｃｎｄとの和で表すことができ、経過時間をｔで表すと、非通電劣化値Ｑｃｎｄは、例えば、Ｑｃｎｄ＝Ｋ１×√（ｔ）で求めることができる。また、通電劣化値Ｑｃｕｒは、例えば、Ｑｃｕｒ＝Ｋ２×√（ｔ）で求めることができる。ここで、設定するパラメータは、係数Ｋ１、係数Ｋ２であり、ＳＯＣの関数で表される。

【0051】

これにより、システムの運用前に蓄電素子のＳＯＨを推定するＳＯＨ推定部（例えば、ＳＯＨシミュレータ）を開発する手間を省くことができる。また、システムの運用開始後の負荷電力情報及び蓄電素子のＳＯＨを含む状態を収集してＳＯＨ推定部を生成するので、運用環境に合わせた高精度のＳＯＨ推定部（例えば、ＳＯＨシミュレータ）の開発が期待できる。

【0052】

また、ＳＯＨ推定部を生成した後は、将来の所定期間経過後のＳＯＨを推定することができる。また、推定したＳＯＨに基づいて、さらに所定期間経過後の劣化値を算出すれば、当該所定期間経過後のＳＯＨをさらに推定することができる。ＳＯＨの推定を所定期間経過毎に繰り返すことにより、蓄電素子の期待寿命（例えば、１０年、１５年など）時に蓄電素子が寿命に達しているのか否か（ＳＯＨがＥＯＬ以下であるか否か）も推定することができる。

【0053】

蓄電素子評価装置は、前記蓄電素子の環境温度情報を取得する温度情報取得部を備え、前記ＳＯＨ推定部は、前記環境温度情報に基づいて前記蓄電素子のＳＯＨを推定することができる。

【0054】

温度情報取得部は、蓄電素子の環境温度情報を取得する。環境温度情報は、所定期間に亘る環境温度の推移を表す情報である。

【0055】

ＳＯＨ推定部は、環境温度情報に基づいて蓄電素子のＳＯＨを推定する。蓄電素子の所定期間後の劣化値Ｑｄｅｇは、通電劣化値Ｑｃｕｒと非通電劣化値Ｑｃｎｄとの和で表すことができる。経過時間をｔで表すと、非通電劣化値Ｑｃｎｄは、例えば、Ｑｃｎｄ＝Ｋ１×√（ｔ）で求めることができる。ここで、係数Ｋ１は、ＳＯＣ及び温度Ｔの関数である。また、通電劣化値Ｑｃｕｒは、例えば、Ｑｃｕｒ＝Ｋ２×√（ｔ）で求めることができる。ここで、係数Ｋ２は、ＳＯＣ及び温度Ｔの関数である。所定期間の始点でのＳＯＨをＳＯＨ１とし、終点でのＳＯＨをＳＯＨ２とすると、ＳＯＨ２＝ＳＯＨ１－ＱｄｅｇによりＳＯＨを推定することができる。

【0056】

【0057】

蓄電素子評価装置は、前記蓄電素子の設計パラメータを取得するパラメータ取得部を備え、前記評価部は、前記パラメータ取得部で取得した設計パラメータに応じて前記蓄電素子の状態を評価することができる。

【0058】

パラメータ取得部は、蓄電素子の設計パラメータを取得する。評価部は、パラメータ取得部で取得した設計パラメータに応じて蓄電素子の状態を評価する。蓄電素子の設計パラメータは、システムの実際の運用に先立って、蓄電素子の種類、数、定格などのシステム設計に必要な種々のパラメータを含む。設計パラメータに応じて蓄電素子の状態を評価することにより、例えば、どのような設計パラメータを採用すれば、蓄電素子の劣化を考慮した、システム全体の最適な運用方法が得られるかを把握することができる。

【0059】

蓄電素子評価装置は、前記評価部での前記蓄電素子の状態の評価結果に基づいて、前記蓄電素子の負荷状態の変更を含む行動の指令を出力する出力部を備えることができる。

【0060】

出力部は、評価部での蓄電素子の状態の評価結果に基づいて、蓄電素子の負荷状態の変更を含む行動の指令を出力する。これにより、蓄電素子の状態に対して、負荷状態の変更を含む行動が強化学習によって得られ、指令に基づいて蓄電素子の負荷状態の変更を行うことにより、蓄電素子の劣化を考慮の上で蓄電素子の負荷を最適に分散し、全体としてコストを低減することができる。

【0061】

以下、本実施の形態に係る蓄電素子評価装置、コンピュータプログラム、蓄電素子評価方法及び学習方法を図面に基づいて説明する。図１は、蓄電素子評価システムの構成の一例を示す模式図である。蓄電素子評価システムは、蓄電素子評価装置としての蓄電素子評価サーバ５０を備え、蓄電素子の状態を評価する。蓄電素子は、輸送・物流・運送サービス１００に供される移動体としてのバス１１０、トラック１２０、タクシー１３０、フライイングビークル１４０などに搭載される蓄電素子、蓄電素子交換サービス２００の対象となる移動体としてのバイク２１０、レンタカー２２０などに搭載される蓄電素子、及び据置蓄電素子運用監視サービス３００の対象となる発電設備３１０、電力需要設備３２０内で使用される蓄電素子を含んでもよい。バス１１０、トラック１２０、タクシー１３０、フライイングビークル１４０、バイク２１０、レンタカー２２０、発電設備３１０、電力需要設備３２０、サーバ１０１、２０１、３０１は、通信を行うための通信機能を備える。本実施の形態において、バス１１０、トラック１２０、タクシー１３０、フライイングビークル１４０、バイク２１０、レンタカー２２０は、電動ビークル（ＥＶ）又はハイブリッド電動ビークル（ＨＥＶ）であって、駆動用の蓄電素子を搭載している。輸送・物流・運送サービス１００に供される電動車両に搭載される蓄電素子のサイズは比較的大きい。蓄電素子交換サービス２００の対象となる電動車両に搭載される蓄電素子のサイズは比較的小さく、交換の対象とすることができる。図１では、バス１１０、トラック１２０、タクシー１３０、バイク２１０、レンタカー２２０、発電設備３１０、電力需要設備３２０を１つ図示しているが、それらが複数存在してもよい。蓄電素子は、鉛蓄電池及びリチウムイオン電池のような二次電池や、キャパシタのような、再充電可能なものであることが好ましい。

【0062】

蓄電素子評価サーバ５０は、インターネットなどの通信ネットワーク１に接続されている。通信ネットワーク１には、サーバ１０１、２０１、３０１が接続されている。サーバ１０１は、輸送・物流・運送サービス１００に供され、バス１１０、トラック１２０、タクシー１３０、フライイングビークル１４０に搭載される蓄電素子の状態（例えば、電圧、電流、電力、温度、充電状態（ＳＯＣ：State Of Charge））を収集し、収集した状態を蓄電素子評価サーバ５０へ送信する。サーバ２０１は、蓄電素子交換サービス２００の対象であるバイク２１０、レンタカー２２０に搭載される蓄電素子の状態（例えば、電圧、電流、電力、温度、充電状態（ＳＯＣ）を収集し、収集した状態を蓄電素子評価サーバ５０へ送信する。サーバ３０１は、据置蓄電素子運用監視サービス３００の対象である発電設備３１０、電力需要設備３２０内で使用される蓄電素子の状態（例えば、電圧、電流、電力、温度、充電状態（ＳＯＣ）を収集し、収集した状態を蓄電素子評価サーバ５０へ送信する。図１の例では、サーバ１０１、２０１、３０１を１つ図示しているが、それらが複数設けられてもよい。蓄電素子の状態は、サーバ１０１、２０１、３０１を経由せずに、直接、蓄電素子評価サーバ５０へ送信されてもよい。

【0063】

輸送・物流・運送サービス１００、蓄電素子交換サービス２００及び据置蓄電素子運用監視サービス３００の詳細は後述する。

【0064】

図２は、蓄電素子評価サーバ５０の構成の一例を示すブロック図である。蓄電素子評価サーバ５０は、サーバ全体を制御する制御部５１、通信部５２、記憶部５３、記録媒体読取部５４、及び処理部６０を備える。処理部６０は、ＳＯＨ推定部６１、報酬算出部６２、行動選択部６３、及び評価値テーブル６４を備える。ＳＯＨ推定部６１として、計算ベースの寿命予測シミュレータを用いてもよい。

【0065】

制御部５１は、例えば、ＣＰＵで構成することができ、内蔵するＲＯＭ及びＲＡＭ等のメモリを用い、サーバ全体を制御する。制御部５１は、記憶部５３に記憶されているサーバプログラムに基づく情報処理を実行する。

【0066】

通信部５２は、通信ネットワーク１を介してサーバ１０１、２０１、３０１との間でデータの送受信を行う。また、通信部５２は、通信ネットワーク１を介して電動車両との間でデータの送受信を行う。

【0067】

通信部５２は、制御部５１の制御の下、電動車両に搭載された蓄電素子の状態（例えば、電圧、電流、電力、温度、ＳＯＣなどのデータを受信（取得）し、受信したデータを記憶部５３に記憶する。また、通信部５２は、サーバ３０１を介して、据置蓄電素子運用監視サービス３００の発電設備３１０、電力需要設備３２０内で使用される蓄電素子の状態（例えば、電圧、電流、電力、温度、ＳＯＣ）を受信（取得）し、受信したデータを記憶部５３に記憶する。

【0068】

記憶部５３は、例えばハードディスク又はフラッシュメモリ等の不揮発性メモリを用いることができる。記憶部５３は、通信部５２で受信したデータを記憶することができる。

【0069】

図３Ａ及び図３Ｂは、蓄電素子の負荷電力の例を示す模式図である。図において、縦軸は電力を示し、０を基準として正側は充電時の電力を表し、負側は放電時の電力を表す。横軸は時間を示す。朝８時から夜１８時までの時間が図示されているが、横軸の時間幅は図の例に限定されるものではなく、例えば、０時から２４時までの1日でもよく、１週間、１か月、春夏秋冬、１年などでもよい。

【0070】

図３Ａは負荷が重負荷である場合を示し、図３Ｂは負荷が軽負荷である場合を示す。重負荷である場合は、軽負荷である場合に比べて、電力の平均値、電力の変動幅、ピーク値が大きいことが分かる。このため、重負荷の場合の方が、軽負荷の場合に比べて、蓄電素子の劣化に及ぼす影響が大きいと考えられる。図３Ａ及び図３Ｂに示す電力は一例であって、電動車両に搭載される蓄電素子や発電設備３１０又は電力需要設備３２０内で使用される蓄電素子の負荷電力は、使用状況に応じて異なる。

【0071】

記憶部５３は、電動車両に搭載された蓄電素子、及び発電設備３１０又は電力需要設備３２０内で使用される蓄電素子の負荷電力に関する情報を蓄電素子毎に区分して記憶することができる。

【0072】

図４は、蓄電素子の環境温度の一例を示す模式図である。図４において、縦軸は温度を示し、横軸は時間を示す。朝８時から夜１８時までの時間が図示されているが、横軸の時間幅は図の例に限定されるものではなく、例えば、０時から２４時までの1日でもよく、１週間、１か月、春夏秋冬、１年などでもよい。図４に示す環境温度は一例であって、電動車両に搭載される蓄電素子や発電設備３１０又は電力需要設備３２０内で使用される蓄電素子の負荷電力は、使用状況に応じて異なる。

【0073】

記憶部５３は、電動車両に搭載された蓄電素子、及び発電設備３１０又は電力需要設備３２０内で使用される蓄電素子の環境温度に関する情報を蓄電素子毎に区分して記憶することができる。

【0074】

次に、処理部６０について説明する。

【0075】

処理部６０において、報酬算出部６２、行動選択部６３及び評価値テーブル６４は、強化学習を行う機能を構成する。処理部６０は、ＳＯＨ推定部６１が出力する蓄電素子の劣化値（蓄電素子のＳＯＨ（State Of Health）に置き換えることが可能）を用いて強化学習させることにより、蓄電素子の期待寿命（例えば、１０年、１５年など）に達するような最適な運用条件を求めることができる。以下、処理部６０の詳細について説明する。

【0076】

図５は、ＳＯＨ推定部６１の動作を示す模式図である。ＳＯＨ推定部６１は、センサデータなどの履歴から計算ベースでＳＯＨを推定する寿命予測シミュレータでもよく、あるいは短期のセンサデータを用いて実測ベースでＳＯＨを推定するものでもよい。ＳＯＨ推定部６１は、複数の蓄電素子それぞれの負荷パターン（例えば、図３の負荷電力情報）、及び温度パターン（例えば、図４の環境温度情報）を入力データとして取得する。ＳＯＨ推定部６１は、蓄電素子のＳＯＣ推移を推定するとともに、蓄電素子の劣化値を推定（算出）する。また、ＳＯＨ推定部６１は、行動選択部６３が選択した行動を取得し、蓄電素子のＳＯＣ推移を推定するとともに、蓄電素子の劣化値を推定する。ＳＯＣの推移は、例えば、蓄電素子に流れる充放電電流を積算することにより算出することができる。

【0077】

時点ｔでのＳＯＨ（健康度ともいう）をＳＯＨ_tとし、時点ｔ＋１でのＳＯＨをＳＯＨ_t+1とすると、劣化値は（ＳＯＨ_t－ＳＯＨ_t+1）となる。ここで、時点は、現在又は将来のある時点とすることができ、時点ｔ＋１は、時点ｔから将来に向かって所要の時間が経過した時点とすることができる。時点ｔと時点ｔ＋１との時間差は、ＳＯＨ推定部６１の寿命予測対象期間であり、どの程度の将来に対して寿命を予測するかに応じて適宜設定できる。時点ｔと時点ｔ＋１との時間差は、例えば、１か月、半年、１年、２年などの所要の時間とすることができる。

【0078】

負荷パターン又は温度パターンの始点から終点までの期間が、ＳＯＨ推定部６１の寿命予測対象期間よりも短い場合には、例えば、負荷パターン又は温度パターンを寿命予測対象期間に亘って繰り返し用いることができる。

【0079】

ＳＯＨ推定部６１は、ＳＯＣ推移推定部としての機能を有し、負荷パターン及び行動選択部６３が選択した行動に基づいて蓄電素子のＳＯＣの推移を推定する。寿命予測対象期間において、蓄電素子の充電が行われるときは、ＳＯＣは増加する。一方、蓄電素子の放電が行われるときは、ＳＯＣは減少する。寿命予測対象期間においては、蓄電素子の充放電が行われないときもある（例えば、夜間など）。ＳＯＨ推定部６１は、寿命予測対象期間に亘ってＳＯＣの推移を推定する。電動車両内、発電設備３１０内又は電力需要設備３２０内のバッテリ管理装置（不図示）によって、ＳＯＣの変動は、ＳＯＣの上限値と下限値とによって制限することができる。

【0080】

図６は、蓄電素子のＳＯＣの推移の一例を示す模式図である。図６において、縦軸はＳＯＣを示し、横軸は時間を示す。朝８時から夜１８時までの時間が図示されているが、横軸の時間幅は図の例に限定されるものではなく、例えば、０時から２４時までの１日でもよく、１週間、１か月、春夏秋冬、１年などでもよい。図６に示すＳＯＣは一例であって、実際は蓄電素子毎に異なる。電動車両に搭載される蓄電素子や発電設備３１０又は電力需要設備３２０内で使用される蓄電素子の負荷電力は、使用状況に応じて異なる。

【0081】

ＳＯＨ推定部６１は、蓄電素子の環境温度に基づいて蓄電素子の温度を推定することができる。

【0082】

ＳＯＨ推定部６１は、ＳＯＨ推定部としての機能を有し、推定したＳＯＣの推移及び蓄電素子の温度に基づいて蓄電素子のＳＯＨを推定する。蓄電素子の寿命予測対象期間（例えば、時点ｔから時点ｔ＋１まで）経過後の劣化値Ｑｄｅｇは、Ｑｄｅｇ＝Ｑｃｎｄ＋Ｑｃｕｒという式によって算出することができる。

【0083】

ここで、Ｑｃｎｄは非通電劣化値であり、Ｑｃｕｒは通電劣化値である。非通電劣化値Ｑｃｎｄは、例えば、Ｑｃｎｄ＝Ｋ１×√（ｔ）で求めることができる。ここで、係数Ｋ１は、ＳＯＣ及び温度Ｔの関数である。ｔは経過時間であり、例えば、時点ｔから時点ｔ＋１までの時間である。通電劣化値Ｑｃｕｒは、例えば、Ｑｃｕｒ＝Ｋ２×（ＳＯＣの変動量）で求めることができる。ここで、係数Ｋ２は、ＳＯＣ及び温度Ｔの関数である。時点ｔでのＳＯＨをＳＯＨ_ｔとし、時点ｔ＋でのＳＯＨをＳＯＨ_t+1とすると、ＳＯＨ_t+1＝ＳＯＨ_ｔ－ＱｄｅｇによりＳＯＨを推定することができる。

【0084】

係数Ｋ１は、劣化係数であり、ＳＯＣ及び温度Ｔと係数Ｋ１との対応関係を演算で求めてもよく、あるいはテーブル形式で記憶しておくことができる。数Ｋ２についても、係数Ｋ１と同様である。

【0085】

上述のように、ＳＯＨ推定部６１は、将来の寿命予測対象期間経過後のＳＯＨを推定することができる。推定したＳＯＨに基づいて、さらに寿命予測対象期間経過後の劣化値を算出すれば、当該寿命予測対象期間経過後のＳＯＨをさらに推定することができる。ＳＯＨの推定を寿命予測対象期間経過毎に繰り返すことにより、蓄電素子の期待寿命（例えば、１０年、１５年など）時に蓄電素子が寿命に達しているのか否か（ＳＯＨがＥＯＬ以下であるか否か）も推定することができる。

【0086】

本実施の形態での強化学習は、行動として、蓄電素子の負荷状態をどのように変更すれば（複数の蓄電素子の負荷をどのように分散させれば）、特定の蓄電素子の早期の劣化を防止して、システム全体の蓄電素子の平均ＳＯＨの低下を抑制できる、あるいは運用コストを低減できる、最適な運用方法を学習する。以下、強化学習の詳細について説明する。

【0087】

図７は、本実施の形態の強化学習の一例を示す模式図である。強化学習は、ある環境下に置かれたエージェントが環境に対して行動をし、得られる報酬が最大化されるような方策（エージェントが行動する際の指標となるルール）を求める機械学習アルゴリズムである。強化学習において、エージェントは、環境に対して行動を起こす学習者のようなものであり、学習対象である。環境は、エージェントの行動に対して状態の更新と報酬の付与を行う。行動は、環境のある状態に対してエージェントが取ることができる行動である。状態は、環境が保持する環境の様子である。報酬は、エージェントが環境に対して望ましい結果を作用させたときにエージェントに付与される。報酬は、例えば、正、負、０の値とすることができ、正の場合は報酬そのものであり、負の場合はペナルティとなり、０の場合は報酬なしとなる。行動評価関数は、ある状態での行動の評価値を定める関数であり、表のようなテーブル形式で表すこともでき、Ｑ学習においては、Ｑ関数、Ｑ値、評価値などという。Ｑ学習は、強化学習の中でよく用いられている手法の一つである。以下では、Ｑ学習について説明するが、強化学習は代替的にＱ学習と異なるものでもよい。

【0088】

本実施の形態の処理部６０においては、ＳＯＨ推定部６１及び報酬算出部６２が、環境に相当し、行動選択部６３及び評価値テーブル６４がエージェントに相当する。評価値テーブル６４は、上述のＱ関数に相当するものであり、行動評価情報ともいう。なお、エージェントは１つに限らす、複数のエージェントを用いることもできる。これにより、大規模で複雑な環境（サービス環境）でも、最適なシステム運用方法を探索することが可能となる。

【0089】

行動選択部６３は、評価値テーブル６４に基づいて蓄電素子のＳＯＨ（State Of Health）を含む状態に対する、蓄電素子の負荷状態の変更を含む行動を選択する。蓄電素子の負荷状態は、蓄電素子の充電時又は放電時の電流、電圧、電力などの物理量を含む。負荷状態に、蓄電素子の温度を含めることもできる。負荷状態の変更は、電流、電圧、電力又は温度などの変化パターン（変動幅、平均値、ピーク値などを含む）、蓄電素子の使用場所の変更、使用状態の変更（例えば、使用状態と保管状態との間の変更）などを含む。複数の蓄電素子それぞれに個別の負荷状態が存在することを考慮すると、蓄電素子の負荷状態の変更は、負荷の分散に相当する。

【0090】

図７の例では、行動選択部６３は、ＳＯＨ推定部６１から時点ｔでの状態ｓ_ｔ（例えば、ＳＯＨ_ｔ）を取得し、行動ａ_ｔを選択して出力している。行動選択部６３は、評価値テーブル６４において、最も評価の高い（例えば、Ｑ値が最も大きい）行動を選択することができる。行動の詳細については後述する。

【0091】

行動選択部６３は、状態取得部としての機能を有し、選択した行動を実行したときの蓄電素子の状態（ＳＯＨ）を取得する。行動選択部６３によって選択された行動に基づいて蓄電素子の負荷電力情報がＳＯＨ推定部６１に与えられると、ＳＯＨ推定部６１は、時点ｔ＋１での状態ｓ_t+1（例えば、ＳＯＨ_t+1）を出力し、状態はｓ_ｔからｓ_t+1に更新される。行動選択部６３は、更新された状態を取得する。行動選択部６３は、報酬取得部としての機能を有し、報酬算出部６２が算出した報酬を取得する。

【0092】

報酬算出部６２は、選択した行動が実行されたときの報酬を算出する。行動選択部６３がＳＯＨ推定部６１に対して望ましい結果を作用させたときに高い値（正値）が算出される。報酬が０のときは、報酬なしであり、報酬が負値のときはペナルティとなる。図７の例では、報酬算出部６２は、報酬ｒ_t+1を行動選択部６３に付与している。報酬算出の詳細は後述する。

【0093】

行動選択部６３は、更新部としての機能を有し、取得した状態ｓ_t+1及び報酬ｒ_t+1に基づいて、評価値テーブル６４を更新する。より具体的には、行動選択部６３は、行動に対する報酬を最大化する方向へ評価値テーブル６４を更新する。これにより、環境のある状態において最大の価値が期待される行動を学習できる。

【0094】

上述の処理を繰り返して、評価値テーブル６４の更新を繰り返すことにより、報酬を最大化できる評価値テーブル６４を学習することができる。

【0095】

処理部６０は、評価部としての機能を有し、更新した評価値テーブル６４（すなわち学習済の評価値テーブル２７）に基づいて、蓄電素子の負荷状態の変更を含む行動を実行して、蓄電素子のＳＯＨを含む状態を評価することができる。これにより、蓄電素子のＳＯＨを含む状態に対して、負荷状態の変更を含む行動が強化学習によって得られ、負荷状態の変更を含む行動の結果として蓄電素子のＳＯＨを評価することができる。複数の蓄電素子それぞれに対する評価を行うことによって、蓄電素子の劣化を考慮の上で蓄電素子の負荷を最適に分散し、全体としてコストを低減することができる。

【0096】

Ｑ学習でのＱ関数の更新は、式（１）により行うことができる。

【0097】

【数1】

【0098】

ここで、Ｑは、状態ｓでの行動ａの評価を格納する関数又はテーブル（例えば、評価値テーブル６４）であり、例えば、各状態ｓを行、各行動ａを列とする行列形式で表すことができる。

【0099】

式（１）において、ｓ_ｔは時点ｔでの状態を示し、ａ_ｔは状態ｓ_ｔで取ることができる行動を示し、αは学習率（ただし、０＜α＜１）を示し、γは割引率（ただし、０＜γ＜１）を示す。学習率αは学習係数とも称され、学習の速度（ステップサイズ）を決定するパラメータである。すなわち、学習率αは評価値テーブル６４の更新量を調整するパラメータである。割引率γは、評価値テーブル６４を更新する際に、未来の状態の評価（報酬又はペナルティ）をどれだけ割り引いて考慮するかを決定するパラメータである。すなわち、ある状態での評価が、過去の状態での評価と繋がっている場合、どの程度報酬やペナルティを割り引くかを定めるパラメータである。

【0100】

式（１）において、ｒ_t+1は行動の結果得られた報酬であり、報酬が得られない場合は０となり、ペナルティの場合は負値となる。Ｑ学習では、式（１）の第２項、{ｒ_t+1＋γ・ｍａｘＱ（ｓ_t+1,ａ_t+1）－Ｑ（ｓ_t,ａ_t）}が０になるように、すなわち、評価値テーブル６４の値Ｑ（ｓ_t,ａ_t）が、報酬（ｒ_t+1）と、次の状態ｓ_t+1で可能な行動の中で最大の価値（γ・ｍａｘＱ（ｓ_t+1,ａ_t+1））との和になるように評価値テーブル６４を更新する。報酬の期待値と現在の行動評価との誤差を０に近づけるように評価値テーブル６４が更新される。別言すれば、（γ・ｍａｘＱ（ｓ_t+1,ａ_t+1））の値は、現在のＱ（ｓ_t,ａ_t）の値と、行動ａ_tを実行した後の状態ｓ_t+1で実行可能な行動の中で得られる最大の評価値に基づいて修正される。

【0101】

ある状態において行動を実行したときに、必ず報酬が得られるとは限らない。例えば、行動を何回か繰り返した後に報酬が得られる場合もある。式（２）は、報酬が得られたときのＱ関数の更新式を表し、式（３）は報酬が得られなかったときのＱ関数の更新式を表す。

【0102】

Ｑ学習の初期の状態では、評価値テーブル６４のＱ値は、例えば、乱数で初期化することができる。Ｑ学習の初期段階で一旦報酬の期待値に差が生じると、未だ経験したことがない状態に遷移することができず、目標に到達することができない事態が起こり得る。そこで、ある状態に対する行動を決定する場合に、確率εを用いることができる。具体的には、ある確率εで全ての行動の中からランダムに行動を選択して実行し、確率（１－ε）でＱ値が最大の行動を選択して実行することができる。これにより、Ｑ値の初期状態によらず適切に学習を進めることができる。

【0103】

次に、輸送・物流・運送サービス１００、蓄電素子交換サービス２００及び据置蓄電素子運用監視サービス３００それぞれについて、強化学習及び蓄電素子の評価について説明する。まず、輸送・物流・運送サービス１００について説明する。

【0104】

図８は、輸送・物流・運送サービス１００のサービスエリアの一例を示す模式図である。サービスエリアとは、電動車両を用いて物流・運送サービスを行うエリアを意味する。図８の例では、道路網を１０個の地域（移動エリア）Ｃ１、…、Ｃ１０で区分しているが、代替的に、ｎ個の地域Ｃ１、Ｃ２、…、Ｃｎであってもよい。

【0105】

図９は、地域毎の電動車両の配車状態の一例を示す模式図である。図９に示すように、地域Ｃ１には、車両ＩＤがＶ０００１～Ｖ０１００の電動車両が割り当てられている。すなわち、車両ＩＤがＶ０００１～Ｖ０１００の電動車両は、地域Ｃ１内で物流・運送サービスに用いられる。同様に、地域Ｃ２には、車両ＩＤがＶ０１０１～Ｖ０２００の電動車両が割り当てられている。すなわち、車両ＩＤがＶ０１０１～Ｖ０２００の電動車両は、地域Ｃ２内で物流・運送サービスに用いられる。他の地域も同様である。すなわち、蓄電素子を搭載した電動車両を、道路網を複数の地域で区分したうちの一の地域内で移動するようにしてある。

【0106】

図１０は、電動車両と電動車両に搭載されている蓄電素子との関係を示す模式図である。図１０に示すように、車両ＩＤと蓄電素子を識別する蓄電素子ＩＤとが対応付けられている。図８のように、道路網を複数の地域で区分した場合、ある特定の地域では、坂道が多いとか、信号機が設置された交差点が多いとか、高速道路が多いとか、他の地域と環境が異なると考えられ、電動車両に搭載された蓄電素子の負荷状態も異なると考えられる。図１０に示すような関係を予め準備しておくことにより、各蓄電素子が、どの地域で使用されているかを把握することができる。図９及び図１０に示す情報は記憶部５３に記憶しておくことができる。

【0107】

図１１は、評価値テーブル６４の構成の一例を示す模式図である。評価値テーブル６４は、蓄電素子の各状態と各行動とで構成される行列形式で表され、行列形式の各要素には、各状態でその行動を取ったときの評価値が格納されている。状態は、ＳＯＨＡ{ＳＯＨ₁、ＳＯＨ₂、ＳＯＨ₃、…、ＳＯＨ_n}、ＳＯＨＢ{ＳＯＨ₁、ＳＯＨ₂、ＳＯＨ₃、…、ＳＯＨ_n}、…、ＳＯＨｍ{ＳＯＨ₁、ＳＯＨ₂、ＳＯＨ₃、…、ＳＯＨ_n}のように表すことができる。ここで、ＳＯＨ₁は、行動前に地域Ｃ１に配置されていた蓄電素子のＳＯＨであり、ＳＯＨ₂は、行動前に地域Ｃ２に配置されていた蓄電素子のＳＯＨであり、以下同様に、ＳＯＨ_nは、行動前に地域Ｃｎに配置されていた蓄電素子のＳＯＨである。すなわち、状態は、各配置場所にある蓄電素子全てのＳＯＨである。ＳＯＨＡとＳＯＨＢにおいて、各場所に配置された蓄電素子のＳＯＨは異なる。例えば、ＳＯＨＡ{ＳＯＨ₁、ＳＯＨ₂、ＳＯＨ₃、…、ＳＯＨ_n}のＳＯＨ₁と、ＳＯＨＢ{ＳＯＨ₁、ＳＯＨ₂、ＳＯＨ₃、…、ＳＯＨ_n}のＳＯＨ₁とは異なる。なお、ＳＯＨＡとＳＯＨＢにおいて、{ＳＯＨ₁、ＳＯＨ₂、ＳＯＨ₃、…、ＳＯＨ_n}の一部が同じＳＯＨとなってもよい。

【0108】

行動は、配置ａ{Ｃ２、Ｃ１、Ｃ３、…、Ｃｎ}、配置ｂ{Ｃ３、Ｃ２、Ｃ１、…、Ｃｎ}、…のように表すことができる。行動前の配置を{Ｃ１、Ｃ２、Ｃ３、…、Ｃｎ}とするので、配置ａは、地域Ｃ１に配置されていた蓄電素子を地域Ｃ２に配置し、地域Ｃ２に配置されていた蓄電素子を地域Ｃ１に配置することを意味する。また、配置ｂは、地域Ｃ１に配置されていた蓄電素子を地域Ｃ３に配置し、地域Ｃ３に配置されていた蓄電素子を地域Ｃ１に配置することを意味する。行動は、負荷（配置）と各ＳＯＨの蓄電素子の組み合わせを変える（切替）ことを意味する。行動は、輸送・物流・運送サービス１００では、地域の切替（配置パターンの変更）である。後述するように、行動は、蓄電素子交換サービス２００では、保管状態の切替（配置パターンの変更）であり、据置蓄電素子運用監視サービス３００では、異なる他の負荷への切替（配置パターンの変更）である。

【0109】

図１２は、評価値テーブル６４の評価値の一例を示す模式図である。図１２の例では、地域をＣ１、Ｃ２、Ｃ３、Ｃ４、Ｃ５とする。行動前の状態ＳＯＨＡは、ＳＯＨＡ{１００、９０、１００、９８、９９}であるとする。すなわち、行動前に地域Ｃ１、Ｃ２、Ｃ３、Ｃ４、Ｃ５にそれぞれ配置されていた蓄電素子のＳＯＨは、１００、９０、１００、９８、９９である。地域Ｃ１は負荷が軽く、地域Ｃ２は負荷が重い場合、地域の切替がないと、状態ＳＯＨＡのように、地域Ｃ２の蓄電素子のＳＯＨ（９０）が他の蓄電素子のＳＯＨに比べて低い状態となる。

【0110】

状態ＳＯＨＡにおいて、配置ａの行動が選択されると、Ｃ１に配置されていた蓄電素子が地域Ｃ２に配置され、地域Ｃ２に配置されていた蓄電素子が地域Ｃ１に配置されるので、行動後の蓄電素子のＳＯＨの組み合わせは、{９０、１００、１００、９８、９９}となり、負荷が重い地域Ｃ２へＳＯＨの高い蓄電素子が配置されるため、蓄電素子全体としてのＳＯＨは高く維持される。

【0111】

状態ＳＯＨＡにおいて、配置ｂの行動が選択されると、Ｃ１に配置されていた蓄電素子が地域Ｃ３に配置され、地域Ｃ３に配置されていた蓄電素子が地域Ｃ１に配置されるので、行動後の蓄電素子のＳＯＨの組み合わせは、{１００、９０、１００、９８、９９}となり、負荷が重い地域Ｃ２へＳＯＨの低い蓄電素子が配置されたままとなるため、蓄電素子全体としてのＳＯＨを高く維持できない。従って、この時点における蓄電素子全体のＳＯＨに対する報酬のみを考慮した場合、評価値ＱＡａは、ＱＡｂよりも高い値となる。

【0112】

Ｑ学習では、（状態数ｓ×行動数ａ）のサイズの評価値テーブル６４（Ｑテーブルとも称する）を更新することができるが、代替的にＱ関数をニューラルネットワークで表現する手法を採用することができる。

【0113】

図１３は、本実施の形態のニューラルネットワークモデルの構成の一例を示す模式図である。ニューラルネットワークモデルは、処理部６０を表したものである。図１３に示す例は、図１１に示す評価値テーブル６４に対応している。ニューラルネットワークモデルは、入力層６０１、中間層６０２及び出力層６０３を有する。入力層６０１の入力ニューロンの数は、蓄電素子の状態の数（例えば、ＳＯＨＡ、ＳＯＨＢ、…、ＳＯＨｍの場合、ｍ個）とすることができ、入力層６０１の入力ニューロンには、蓄電素子の状態（例えば、ＳＯＨＡ、ＳＯＨＢ、…、ＳＯＨｍ）が入力される。

【0114】

出力層６０３の出力ニューロンの数は、行動の選択肢の数とすることができる。図１３では、出力ニューロンは、配置パターンａに変更したときのＱ関数の値、配置パターンｂに変更したときのＱ関数の値、…、を出力する。

【0115】

ニューラルネットワークモデルを用いた機械学習（深層強化学習）は、次のようにすることができる。すなわち、ニューラルネットワークモデルの入力ニューロンに状態ｓ_tを入力すると、出力ニューロンは、Ｑ（ｓ_t,ａ_t）を出力する。ここで、Ｑは、状態ｓでの行動ａの評価を格納する関数である。Ｑ関数の更新は、前述の式（１）により行うことができる。

【0116】

式（１）において、ｒ_t+1は行動の結果得られた報酬であり、報酬が得られない場合は０となり、ペナルティの場合は負値となる。Ｑ学習では、式（１）の第２項、{ｒ_t+1＋γ・ｍａｘＱ（ｓ_t+1,ａ_t+1）－Ｑ（ｓ_t,ａ_t）}が０になるように、すなわち、Ｑ関数のＱ（ｓ_t,ａ_t）が、報酬（ｒ_t+1）と、次の状態ｓ_t+1で可能な行動の中で最大の価値（γ・ｍａｘＱ（ｓ_t+1,ａ_t+1））との和になるようにニューラルネットワークモデルのパラメータを学習する。報酬の期待値と現在の行動評価との誤差を０に近づけるように、ニューラルネットワークモデルのパラメータが更新される。別言すれば、（γ・ｍａｘＱ（ｓ_t+1,ａ_t+1））の値は、現在のＱ（ｓ_t,ａ_t）の値と、行動ａ_tを実行した後の状態ｓ_t+1で実行可能な行動の中で得られる最大の評価値に基づいて修正される。

【0117】

ある状態において行動を実行したときに、必ず報酬が得られるとは限らない。例えば、行動を何回か繰り返した後に報酬が得られる場合もある。式（２）は、式（１）において、発散の問題を回避して、報酬が得られたときのＱ関数の更新式を表す。式（３）は、式（１）において、報酬が得られなかったときのＱ関数の更新式を表す。

【0118】

図１１に示すような評価値テーブル６４を用いるか、図１３に示すようなニューラルネットワークモデルを用いるかは、適宜決定することができる。

【0119】

輸送・物流・運送サービス１００での強化学習及び蓄電素子の評価では、行動は、電動車両が移動する地域から当該地域と異なる他の地域への切替を含む。行動には、地域を切り替えない場合も含む。

【0120】

制御部５１は、出力部としての機能を備え、蓄電素子のＳＯＨを含む状態の評価結果に基づいて、蓄電素子の負荷状態の変更を含む行動の指令を出力する。この場合、指令は、サーバ１０１へ出力してもよく、あるいは各電動車両へ出力してもよい。指令は、具体的には、蓄電素子を搭載した電動車両を現在の地域からどの地域で移動するかの切替指示を含む。これにより、蓄電素子のＳＯＨを含む状態に対して、負荷状態の変更を含む行動が強化学習によって得られ、指令に基づいて蓄電素子の負荷状態の変更を行うことにより、蓄電素子の劣化を考慮の上で蓄電素子の負荷を最適に分散し、全体としてコストを低減することができる。

【0121】

図１４は、電動車両が配車される地域の切替の一例を示す模式図である。図１４は、制御部５１が出力する指令に基づいて、ある電動車両、すなわち当該電動車両に搭載された蓄電素子の負荷状態の変更を示す。図１４に示すように、切替情報は、蓄電素子（電動車両）毎に、切替日、切替前配置パターン、切替後配置パターン、配置パターン間距離、切替回数などの情報を含む。配置パターン間距離は、切替前配置パターンと切替後配置パターンとの間での移動距離であり、距離算出の地域内の基準点は、道路網を考慮して適宜定めることができる。例えば、交通量の最も多い交差点を基準としてもよい。

【0122】

この場合、報酬算出部６２は、第１報酬算出部としての機能を有し、配置パターンの切替に伴う地域間の移動距離に基づく報酬を算出することができる。例えば、移動距離が長いほど、電動車両の配車を変更して地域の切替に伴うコストが高くなる傾向があると考えられるので、移動距離が長いほど報酬を小さく、あるいは負の報酬（ペナルティ）となるように算出することができる。これにより、複数の蓄電素子を含むシステム全体のコストの増大を抑制することができる。

【0123】

また、報酬算出部６２は、第２報酬算出部としての機能を有し、切替の回数に基づく報酬を算出することができる。例えば、複数の蓄電素子を含むシステム全体として蓄電素子の平均ＳＯＨを高く維持する運用を優先する場合には、切替回数の増大による若干のコスト高を犠牲にして、切替の回数が多くても報酬が小さくならないように、あるいは負（ペナルティ）にならないように算出することができる。一方、複数の蓄電素子を含むシステム全体として切替コストを低減する運用を優先する場合には、切替回数の減少による蓄電素子の平均ＳＯＨの若干の低下を犠牲にして、切替の回数が少ないほど比較的大きな値の報酬となるように算出することができる。これにより、最適な運用を実現することができる。

【0124】

行動選択部６３は、取得した状態ｓ_t+1及び報酬ｒ_t+1に基づいて、図１１に示すような評価値テーブル６４を更新する。より具体的には、行動選択部６３は、行動に対する報酬を最大化する方向へ評価値テーブル６４を更新する。これにより、環境のある状態において最大の価値が期待される行動を学習できる。

【0125】

上述の処理を繰り返して、評価値テーブル６４の更新を繰り返すことにより、報酬を最大化できる評価値テーブル６４を学習することができる。

【0126】

処理部６０は、更新した評価値テーブル６４（すなわち学習済の評価値テーブル２７）に基づいて、蓄電素子の負荷状態の変更を含む行動を実行して、蓄電素子のＳＯＨを含む状態を評価することができる。ある地域に配車された電動車両をその地域内で移動させると、地域毎に蓄電素子に対する負荷の軽重が異なり、特定の地域内の電動車両の蓄電素子の劣化が早まる可能性がある。

【0127】

電動車両が移動する地域の切替を強化学習で学習することにより、地域の切替（配置パターンの変更）の結果として蓄電素子のＳＯＨを評価することができる。複数の蓄電素子それぞれに対する評価を行うことによって、蓄電素子の劣化を考慮の上で蓄電素子の負荷を最適に分散し、全体としてコストを低減することができる。

【0128】

次に、蓄電素子交換サービス２００について説明する。

【0129】

図１５は、蓄電素子交換サービス２００のサービス内容の一例を示す模式図である。交換サービス拠点には、蓄電素子の充電設備が設けられ、充電完了（例えば、ＳＯＣ＝１００％、９５％など）となった蓄電素子が保管されている。ユーザは、例えば、ＳＯＣが低下した蓄電素子（Ｂ００６１）が搭載された電動車両（Ｖ００３０）を交換サービス拠点に持って来ると、ＳＯＣが低下した蓄電素子（Ｂ００６１）を満充電された蓄電素子（Ｂ０７００）と交換するサービスの提供を受けることができる。電動車両（Ｖ００３０）から取り外された蓄電素子（Ｂ００６１）は、充電設備によって満充電となるまで充電され、保管される。図示していないが、蓄電素子交換サービス２００には、宅配便を利用して蓄電素子の交換を行うサービスも含めることができる。

【0130】

蓄電素子交換サービス２００においても、図１１に例示した評価値テーブル６４を用いることができる。蓄電素子交換サービス２００の場合には、地域{Ｃ１、Ｃ２、Ｃ３、…、Ｃｎ}に代えて、{Ｃ１、Ｃ２、…、Ｃ（ｎ－４）}を搭載状態とし、{Ｃ（ｎ－３）、Ｃ（ｎ－２）、Ｃ（ｎ－１）、Ｃｎ}を保管状態とすることにより、配置ａ、配置ｂ、…により、搭載状態と保管状態との切替を表現することができる。他は図１１の例と同様であるので、説明は省略する。

【0131】

評価値テーブル６４に代えて、図１３で例示したニューラルネットワークモデルを用いてＱ関数を更新してもよい。この場合、出力ニューロンは、搭載状態に切り替えたときのＱ関数の値、保管状態に切り替えたときのＱ関数の値を出力する。

【0132】

蓄電素子交換サービス２００での強化学習及び蓄電素子の評価では、行動は、蓄電素子が電動車両に搭載された搭載状態と電動車両から取り外された保管状態との切替を含む。

【0133】

制御部５１は、蓄電素子のＳＯＨを含む状態の評価結果に基づいて、蓄電素子の負荷状態の変更を含む行動の指令を出力することができる。

【0134】

図１６は、蓄電素子の交換の一例を示す模式図である。図１６は、制御部５１が出力する指令に基づいて、電動車両に搭載された蓄電素子の負荷状態の変更を示す。図１６に示すように、交換情報、すなわち、搭載状態と保管状態との間の切替情報は、蓄電素子（電動車両）毎に、切替日、状態、期間、切替回数などの情報を含む。期間は、状態が「搭載」である場合、搭載状態での期間であり、状態が「保管」である場合、保管状態での期間である。

【0135】

報酬算出部６２は、切替の回数に基づく報酬を算出することができる。例えば、複数の蓄電素子を含むシステム全体として蓄電素子の平均ＳＯＨを高く維持する運用を優先する場合には、切替回数の増大による若干のコスト高を犠牲にして、切替の回数が多くても報酬が小さくならないように、あるいは負（ペナルティ）にならないように算出することができる。一方、複数の蓄電素子を含むシステム全体として切替コストを低減する運用を優先する場合には、切替回数の減少による蓄電素子の平均ＳＯＨの若干の低下を犠牲にして、切替の回数が少ないほど比較的大きな値の報酬となるように算出することができる。これにより、最適な運用を実現することができる。

【0136】

行動選択部６３は、取得した状態ｓ_t+1及び報酬ｒ_t+1に基づいて、評価値テーブル６４を更新する。より具体的には、行動選択部６３は、行動に対する報酬を最大化する方向へ評価値テーブル６４を更新する。これにより、環境のある状態において最大の価値が期待される行動を学習できる。

【0137】

上述の処理を繰り返して、評価値テーブル６４の更新を繰り返すことにより、報酬を最大化できる評価値テーブル６４を学習することができる。

【0138】

処理部６０は、更新した評価値テーブル６４（すなわち学習済の評価値テーブル２７）に基づいて、蓄電素子の負荷状態の変更を含む行動を実行して、蓄電素子のＳＯＨを含む状態を評価することができる。搭載状態と保管状態とでは、蓄電素子の負荷状態の軽重が異なる。

【0139】

【0140】

次に、据置蓄電素子運用監視サービス３００について説明する。

【0141】

図１７は、据置蓄電素子運用監視サービス３００での蓄電素子の負荷状態の変更の一例を示す模式図である。図１７に示すように、複数の蓄電素子（Ｂ０４０、…、Ｂ０４４）が、切替回路を介して、複数の負荷（Ｌ１、…、Ｌ５）に接続されている。例えば、蓄電素子（Ｂ０４０）は負荷（Ｌ１）に接続され、蓄電素子（Ｂ０４１）は負荷（Ｌ２）に接続され、蓄電素子（Ｂ０４２）は負荷（Ｌ３）に接続され、蓄電素子（Ｂ０４３）は負荷（Ｌ４）に接続され、蓄電素子（Ｂ０４４）は負荷（Ｌ５）に接続されているとする。すなわち、蓄電素子は、複数の負荷のうちの一の負荷に接続してある。負荷（Ｌ１、…、Ｌ５）は、例えば、電気設備などである。

【0142】

電気設備（負荷）は、動作状態や環境状態によって必要とする電力が変動し、蓄電素子に要求される電力も変動するので、蓄電素子に接続される個々の負荷に応じて、蓄電素子の負荷状態の軽重が異なる。複数の蓄電素子それぞれに固定的に負荷を接続すると、負荷に応じて、蓄電素子に対する負荷の軽重が異なり、特定の蓄電素子の劣化が早まる可能性がある。

【0143】

据置蓄電素子運用監視サービス３００においても、図１１に例示した評価値テーブル６４を用いることができる。据置蓄電素子運用監視サービス３００の場合には、地域{Ｃ１、Ｃ２、Ｃ３、…、Ｃｎ}に代えて、{Ｃ１、Ｃ２、Ｃ３、…、Ｃｎ}をそれぞれ負荷{Ｌ１、Ｌ２、Ｌ３、…、Ｌｎ}とすればよい。配置ａ、配置ｂ、…により、負荷の切替を表現することができる。各状態ＳＯＨＡ、ＳＯＨＢ、…、において、ＳＯＨ₁は、行動前に負荷Ｌ１に接続されていた蓄電素子のＳＯＨであり、ＳＯＨ₂は、行動前に負荷Ｌ２に接続されていた蓄電素子のＳＯＨであり、以下同様に、ＳＯＨ_nは、行動前に負荷Ｌｎに接続されていた蓄電素子のＳＯＨである。他は図１１の例と同様であるので、説明は省略する。

【0144】

評価値テーブル６４に代えて、図１３で例示したニューラルネットワークモデルを用いてＱ関数を更新してもよい。この場合、出力ニューロンは、負荷Ｌ１に接続したときのＱ関数の値、負荷Ｌ２に接続したときのＱ関数の値、…、負荷Ｌｎに接続したときのＱ関数の値を出力する。

【0145】

据置蓄電素子運用監視サービス３００での強化学習及び蓄電素子の評価では、行動は、蓄電素子に接続された負荷から当該負荷と異なる他の負荷への切替を含む。

【0146】

図１８は、負荷の切替の一例を示す模式図である。図１８は、制御部５１が出力する指令に基づく蓄電素子の負荷状態の変更を示す。図１８に示すように、切替情報は、蓄電素子毎に、切替日、切替前負荷、切替後負荷、使用期間、切替回数などの情報を含む。使用期間は、蓄電素子を切替前の負荷に接続した状態で使用した期間である。

【0147】

【0148】

【0149】

上述の処理を繰り返して、評価値テーブル６４の更新を繰り返すことにより、報酬を最大化できる評価値テーブル６４を学習することができる。

【0150】

処理部６０は、更新した評価値テーブル６４（すなわち学習済の評価値テーブル２７）に基づいて、蓄電素子の負荷状態の変更を含む行動を実行して、蓄電素子のＳＯＨを含む状態を評価することができる。負荷の切替を強化学習で学習することにより、負荷の切替の結果として蓄電素子のＳＯＨを評価することができる。複数の蓄電素子それぞれに対する評価を行うことによって、蓄電素子の劣化を考慮の上で蓄電素子の負荷を最適に分散し、全体としてコストを低減することができる。

【0151】

輸送・物流・運送サービス１００、蓄電素子交換サービス２００及び据置蓄電素子運用監視サービス３００のいずれについても、報酬算出部６２は、第３報酬算出部としての機能を有し、蓄電素子のＳＯＨの低下の度合いに基づいて報酬を算出することができる。

【0152】

図１９は、強化学習の状態遷移の様子の第１例を示す模式図である。図１９において、縦軸はＳＯＨを示し、横軸は時間を示す。ＳＯＨは、蓄電素子全てのＳＯＨを表す。図１９では、便宜上、時点ｔｎ、ｔ（ｎ＋１）の２個の時点を図示している。符号Ａ、Ｂは学習過程の一例を示す。ＳＯＨの低下の度合いは、例えば、過去のＳＯＨ（図１９の例では時点ｔｎでのＳＯＨ）に対して、現在のＳＯＨ（図１９の例では時点ｔ（ｎ＋１）でのＳＯＨ）がどの程度減少したか減少率とすることができる。例えば、符号Ｂで示すように、ＳＯＨの低下の度合いが閾値Ｔｈ（ｔ）より大きい場合（減少率が大きい場合）、報酬を負値（ペナルティ）とすることができる。また、符号Ａで示すように、ＳＯＨの低下の度合いが閾値Ｔｈ（ｔ）より小さい場合（減少率が小さい場合）、報酬を正値とすることができる。これにより、蓄電素子のＳＯＨの低下を抑制しつつ蓄電素子の最適な運用を実現することができる。

【0153】

図２０は、強化学習の状態遷移の様子の第２例を示す模式図である。図２０では、便宜上、時点ｔ０、ｔ１、ｔ２、…、ｔ７の８個の時点を図示している。ＳＯＨは、蓄電素子全てのＳＯＨを表す。実際の強化学習では、時点の数には代替的に図２０の例以外のものも含まれる。符号Ｓ１、Ｓ２、Ｓ３は学習過程の一例を示し、符号Ｓ１の学習は、時点ｔ７において、ＳＯＨがＥＯＬに達していない場合（時点毎に行動が選択されて実行された結果の状態）を示し、符号Ｓ２の学習は、時点ｔ６ではＳＯＨがＥＯＬに達していなかったが時点ｔ７ではＥＯＬを下回った場合を示し、符号Ｓ３の学習は、時点ｔ５でＳＯＨがＥＯＬを下回り、一旦学習が終了した場合を示す。強化学習により、符号Ｓ２及びＳ３で学習した行動は採用されず、符号Ｓ１で学習した行動を運用方法の一例として採用することになる。

【0154】

図２１は、運用開始前からＳＯＨ推定部６１を用いる場合の、強化学習によって得られた運用方法によるＳＯＨの推移の一例を示す模式図である。図２１は、運用開始時からＳＯＨ推定部６１を用いた場合を示す。ＳＯＨは、蓄電素子全てのＳＯＨを表す。図２１の例では、期待寿命は１０年としている。図において、「切替数多（ＳＯＨ優先）」で示すグラフは、複数の蓄電素子を含むシステム全体としての蓄電素子の平均ＳＯＨが高く維持できるように運用する場合を示す。また、「切替数少（コスト優先）」で示すグラフは、複数の蓄電素子それぞれの負荷状態の切替（変更）を少なくして切替コストを低減できるように運用する場合を示す。運用開始時からＳＯＨ推定部６１を用いるため、運用前に最適な運用方法を推定することができる。また、負荷や環境の切替に大きなコストが生じる場合、当該コストを報酬（ペナルティ）として強化学習することにより、切替に要するコストを含めた最適運用方法を求めることができる。更に、最適運用における各システムの評価（例えば、１０年後のＳＯＨなど）を比較することにより、運用当初に、最適なシステム設計を選定することができる。ここで、システム設計とは、例えば、システム全体の中で用いられる蓄電素子の種類、数、定格などの設計を含み、種々のパラメータなども含む。

【0155】

図２２は、運用初期段階のデータを用いて寿命予測シミュレータを生成する場合の、強化学習によって得られた運用方法によるＳＯＨの推移の一例を示す模式図である。ＳＯＨは、蓄電素子全てのＳＯＨを表す。図２２に示す、寿命予測シミュレータ生成期間において、制御部５１は、蓄電素子の負荷電力情報及びＳＯＨを取得（収集）する。

【0156】

制御部５１は、生成部としての機能を有し、取得した負荷電力情報及びＳＯＨに基づいて、寿命予測シミュレータ（ＳＯＨシミュレータともいう）を生成する。例えば、複数の蓄電素子を含むシステムの運用開始後に、取得した負荷電力情報及び蓄電素子のＳＯＨを収集し、収集した負荷電力情報に対して収集した蓄電素子のＳＯＨを含む状態を推定するようなＳＯＨシミュレータを生成する。具体的には、ＳＯＨを推定するためのパラメータを設定する。例えば、蓄電素子の所定期間後の劣化値Ｑｄｅｇは、通電劣化値Ｑｃｕｒと非通電劣化値Ｑｃｎｄとの和で表すことができ、経過時間をｔで表すと、非通電劣化値Ｑｃｎｄは、例えば、Ｑｃｎｄ＝Ｋ１×√（ｔ）で求めることができる。通電劣化値Ｑｃｕｒは、例えば、Ｑｃｕｒ＝Ｋ２×（ＳＯＣの変動量）で求めることができる。ここで、設定するパラメータは、係数Ｋ１、係数Ｋ２であり、ＳＯＣの関数で表される。ＳＯＨシミュレータの生成は、蓄電素子評価サーバ５０とは別の開発環境で生成してもよい。

【0157】

これにより、システムの運用前に蓄電素子のＳＯＨを推定するＳＯＨシミュレータを開発する手間を省くことができる。また、システムの運用開始後の負荷電力情報及び蓄電素子のＳＯＨを含む状態を収集してＳＯＨシミュレータを生成するので、運用環境に合わせた高精度のＳＯＨシミュレータの開発が期待できる。

【0158】

また、ＳＯＨシミュレータを生成した後は、将来の所定期間経過後のＳＯＨを推定することができる。また、推定したＳＯＨに基づいて、さらに所定期間経過後の劣化値を算出すれば、当該所定期間経過後のＳＯＨをさらに推定することができる。ＳＯＨの推定を所定期間経過毎に繰り返すことにより、蓄電素子の期待寿命（例えば、１０年、１５年など）時に蓄電素子が寿命に達しているのか否か（ＳＯＨがＥＯＬ以下であるか否か）も推定することができる。

【0159】

図２３は、寿命予測シミュレータを用いない場合の、強化学習によって得られた運用方法によるＳＯＨの推移の一例を示す模式図である。ＳＯＨは、蓄電素子全てのＳＯＨを表す。寿命予測シミュレータ（ＳＯＨシミュレータ）を開発する手間を省くことが可能となる。ＳＯＨシミュレータを用いないため、ＳＯＨシミュレータの精度に依存せずに蓄電素子のＳＯＨを評価することができる。一方で、運用開始前に最適な運用方法を探索することができないので、運用開始前に最適なシステム設計を行うことができない。運用初期段階では、強化学習のみによる運用探索となるため、場合によっては、蓄電素子のＳＯＨの低下の度合いが大きくなるような、望ましくない運用方法を選択する可能性がある。しかし、運用方法についてのユーザの選択肢を広げることができる。

【0160】

次に、本実施の形態の強化学習の処理について説明する。

【0161】

図２４は、本実施の形態の強化学習の処理手順の一例を示すフローチャートである。処理部６０は、評価値テーブル６４の評価値（Ｑ値）を初期値に設定する（Ｓ１１）。初期値の設定は、例えば、乱数を用いることができる。処理部６０は、状態ｓ_tを取得し（Ｓ１２）、状態ｓ_tで取ることのできる行動ａ_tを選択して実行する（Ｓ１３）。処理部６０は、行動ａ_tの結果得られる状態ｓ_t+1を取得し（Ｓ１４）、報酬ｒ_t+1を取得する（Ｓ１５）。なお、報酬は０（報酬なし）の場合もある。

【0162】

処理部６０は、前述の式（２）又は式（３）を用いて、評価値テーブル６４の評価値を更新し（Ｓ１６）、蓄電素子の運用結果が得られたか否かを判定する（Ｓ１７）。蓄電素子の運用結果が得られていない場合（Ｓ１７でＮＯ）、処理部６０は、状態ｓ_t+1を状態ｓ_tとし（Ｓ１８）、ステップＳ１３以降の処理を続ける。蓄電素子の運用結果が得られた場合（Ｓ１７でＹＥＳ）、処理部６０は、蓄電素子の評価結果を出力し（Ｓ１９）、処理を終了する。

【0163】

図２４に示す処理は、蓄電素子のシステム設計パラメータを変更する都度、変更されたシステム設計パラメータを用いて繰り返し実施することができる。すなわち、処理部６０は、蓄電素子のシステム設計パラメータを取得することができる。蓄電素子のシステム設計パラメータは、システム全体の中で用いられる蓄電素子の種類、数、定格などを含み、例えば、蓄電モジュールの構成又は数、バンクの構成又は数などのシステム設計に必要な種々のパラメータを含む。蓄電素子の設計パラメータは、システムの実際の運用に先立って、予め設定される。設計パラメータに応じて蓄電素子のＳＯＨを含む状態を評価することにより、例えば、どのような設計パラメータを採用すれば、蓄電素子の劣化を考慮した、システム全体の最適な運用方法が得られるかを把握することができる。

【0164】

処理部６０は、例えば、ＣＰＵ（例えば、複数のプロセッサコアを実装したマルチ・プロセッサなど）、ＧＰＵ（Graphics Processing Units）、ＤＳＰ（Digital Signal Processors）、ＦＰＧＡ（Field-Programmable Gate Arrays）などのハードウェアを組み合わせることによって構成することができる。処理部６０は、仮想マシン又は量子コンピュータなどで構成してもよい。エージェントは、コンピュータ上に存在する仮想的なマシンであり、エージェントの状態はパラメータ等によって変更される。

【0165】

本実施の形態の制御部５１及び処理部６０は、ＣＰＵ（プロセッサ）、ＧＰＵ、ＲＡＭ（メモリ）などを備えた汎用コンピュータを用いて実現することもできる。例えば、図２に示すような記録媒体ＭＲ（例えば、ＣＤ－ＲＯＭ等の光学可読ディスク記憶媒体）に記録されたコンピュータプログラムやデータ（例えば、学習済のＱ関数又はＱ値など）を記録媒体読取部５４（例えば、光学ディスクドライブ）で読み取ってＲＡＭに格納することができる。ハードディスク（図示しない）に格納しコンピュータプログラム実行時にＲＡＭに格納してもよい。図２４に示すような、各処理の手順を定めたコンピュータプログラムをコンピュータに備えられたＲＡＭ（メモリ）にロードし、コンピュータプログラムをＣＰＵ（プロセッサ）で実行することにより、コンピュータ上で制御部５１及び処理部６０を実現することができる。本実施の形態による強化学習アルゴリズムを定めたコンピュータプログラム及び強化学習によって得られたＱ関数又はＱ値は記録媒体に記録され流通されてもよく、あるいは、通信ネットワーク１で所要の装置に配信してインストールすることもできる。

【0166】

上述の実施の形態では、強化学習の一例として、Ｑ学習について説明したが、代替的に、別のＴＤ学習（Temporal Difference Learning）などの他の強化学習アルゴリズムを用いてもよい。例えば、Ｑ学習のように、行動の価値を更新するのではなく状態の価値の更新を行う学習方法を用いてもよい。この方法では、現在の状態Ｓｔの価値Ｖ（ｓ_t）を、Ｖ（ｓ_t）＜－Ｖ（ｓ_t）＋α・δｔという式で更新する。ここで、δｔ＝r_t+1＋γ・Ｖ（ｓ_t+1）－Ｖ（ｓ_t）であり、αは学習率、δｔはＴＤ誤差である。

【0167】

上述の実施の形態では、輸送・物流・運送サービス１００、蓄電素子交換サービス２００及び据置蓄電素子運用監視サービス３００で使用される複数の蓄電素子を含むシステムの最適運用方法を探索する構成であったが、本実施の形態は、エネルギー管理システム（ＥＭＳ：Energy Management System）にも提供することができる。ＥＭＳでは、電力制御の目標値を達成するために、ＥＭＳ内の複数の蓄電素子の充放電アルゴリズムが必要となる。ＥＭＳには、主な範囲として、町や地域を管理するＣＥＭＳ（Community Energy Management System）、ビル全体のＢＥＭＳ（Building Energy Management System）、工場のＦＥＭＳ（Factory Energy Management System）、家庭のＨＥＭＳ（Home Energy Management System）等がある。本実施の形態を、これらの各種ＥＭＳに適用することにより、ＥＭＳで使用される蓄電素子のＳＯＨを含む状態に対して、負荷状態の変更（例えば、充放電アルゴリズム）を含む行動が強化学習によって得られ、負荷状態の変更を含む行動の結果として蓄電素子のＳＯＨを評価することができる。複数の蓄電素子それぞれに対する評価を行うことによって、蓄電素子の劣化を考慮の上で蓄電素子の負荷を最適に分散し、各ＥＭＳ全体としてコストを低減することができる。

【0168】

実施の形態は、すべての点で例示であって制限的なものではない。本発明の範囲は、請求の範囲によって示され、請求の範囲と均等の意味及び範囲内でのすべての変更が含まれる。

【符号の説明】

【0169】

５０蓄電素子評価サーバ
５１制御部
５２通信部
５３記憶部
５４記録媒体読取部
６０処理部
６１ＳＯＨ推定部
６２報酬算出部
６３行動選択部
６４評価値テーブル

【図1】