(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-07
(45)【発行日】2023-11-15
(54)【発明の名称】蓄電素子評価装置、コンピュータプログラム、蓄電素子評価方法、学習方法及び生成方法
(51)【国際特許分類】
G01R 31/367 20190101AFI20231108BHJP
G01R 31/392 20190101ALI20231108BHJP
H01M 10/48 20060101ALI20231108BHJP
H02J 7/00 20060101ALI20231108BHJP
H02J 13/00 20060101ALI20231108BHJP
B60L 3/00 20190101ALI20231108BHJP
B60L 50/60 20190101ALI20231108BHJP
B60L 58/16 20190101ALI20231108BHJP
G16Y 10/40 20200101ALI20231108BHJP
G16Y 20/30 20200101ALI20231108BHJP
【FI】
G01R31/367
G01R31/392
H01M10/48 P
H01M10/48 301
H02J7/00 Y
H02J13/00 301A
B60L3/00 S
B60L50/60
B60L58/16
G16Y10/40
G16Y20/30
(21)【出願番号】P 2020554018
(86)(22)【出願日】2019-10-31
(86)【国際出願番号】 JP2019042707
(87)【国際公開番号】W WO2020090949
(87)【国際公開日】2020-05-07
【審査請求日】2022-09-08
(31)【優先権主張番号】P 2018205734
(32)【優先日】2018-10-31
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】507151526
【氏名又は名称】株式会社GSユアサ
(74)【代理人】
【識別番号】100114557
【氏名又は名称】河野 英仁
(74)【代理人】
【識別番号】100078868
【氏名又は名称】河野 登夫
(72)【発明者】
【氏名】鵜久森 南
【審査官】永井 皓喜
(56)【参考文献】
【文献】特開2016-77139(JP,A)
【文献】特開2011-91026(JP,A)
【文献】国際公開第2014/046179(WO,A1)
【文献】特開2012-29451(JP,A)
【文献】国際公開第2014/083856(WO,A1)
【文献】特開2004-130909(JP,A)
【文献】特開2016-73042(JP,A)
【文献】特開2015-92328(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G01R 31/36
H01M 10/48
H02J 7/00
G06Q 10/04
B60L 50/50
(57)【特許請求の範囲】
【請求項1】
蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択する行動選択部と、
前記行動選択部で選択した行動を実行したときの前記蓄電素子の状態を取得する状態取得部と、
前記行動選択部で選択した行動を実行したときの報酬を取得する報酬取得部と、
前記状態取得部で取得した状態及び前記報酬取得部で取得した報酬に基づいて、前記行動評価情報を更新する更新部と、
を備え、
強化学習を用いて、前記行動選択部による選択処理、前記状態取得部による取得処理、前記報酬取得部による取得処理、及び前記更新部による更新処理を繰り返すことにより、報酬を最大化できる前記行動評価情報を学習し、
さらに、
前記更新部で更新した行動評価情報に基づく行動を実行して、前記蓄電素子の状態を評価する評価
部を備える蓄電素子評価装置。
【請求項2】
前記蓄電素子を搭載した移動体を、複数の移動エリアのうちの一の移動エリア内で移動するようにしてあり、
前記行動は、
前記移動体が移動する移動エリアから当該移動エリアと異なる他の移動エリアへの切替を含む請求項1に記載の蓄電素子評価装置。
【請求項3】
前記移動エリアの切替に伴う移動体エリア間の距離に基づく報酬を算出する第1報酬算出部を備え、
前記報酬取得部は、
前記第1報酬算出部で算出した報酬を取得する請求項2に記載の蓄電素子評価装置。
【請求項4】
前記行動は、
前記蓄電素子が移動体に搭載された搭載状態と移動体から取り外された保管状態との切替を含む請求項1に記載の蓄電素子評価装置。
【請求項5】
前記蓄電素子は、複数の負荷のうちの一の負荷に接続してあり、
前記行動は、
前記蓄電素子に接続された負荷から当該負荷と異なる他の負荷への切替を含む請求項1に記載の蓄電素子評価装置。
【請求項6】
前記切替の回数に基づく報酬を算出する第2報酬算出部を備え、
前記報酬取得部は、
前記第2報酬算出部で算出した報酬を取得する請求項2から請求項5のいずれか一項に記載の蓄電素子評価装置。
【請求項7】
前記蓄電素子のSOHの低下の度合いに基づく報酬を算出する第3報酬算出部を備え、
前記報酬取得部は、
前記第3報酬算出部で算出した報酬を取得する請求項1から請求項6のいずれか一項に記載の蓄電素子評価装置。
【請求項8】
前記蓄電素子の状態が寿命に到達したか否かに基づいて報酬を算出する第4報酬算出部を備え、
前記報酬取得部は、
前記第4報酬算出部で算出した報酬を取得する請求項1から請求項7のいずれか一項に記載の蓄電素子評価装置。
【請求項9】
前記蓄電素子の負荷電力情報を取得する電力情報取得部と、
前記電力情報取得部で取得した負荷電力情報及び前記行動選択部で選択した行動に基づいて前記蓄電素子のSOCの推移を推定するSOC推移推定部と、
前記SOC推移推定部で推定したSOCの推移に基づいて前記蓄電素子のSOHを推定するSOH推定部と
を備え、
前記評価部は、
前記SOH推定部が推定したSOHに基づいて前記蓄電素子のSOHを含む状態を評価する請求項1から請求項8のいずれか一項に記載の蓄電素子評価装置。
【請求項10】
前記蓄電素子の負荷電力情報を取得する電力情報取得部と、
前記蓄電素子のSOHを取得するSOH取得部と、
前記電力情報取得部で取得した負荷電力情報及び前記SOH取得部で取得したSOHに基づいて、前記蓄電素子のSOHを推定するSOH推定部を生成する生成部と
を備え、
前記評価部は、
前記生成部が生成したSOH推定部のSOH推定に基づいて前記蓄電素子のSOHを含む状態を評価する請求項1から請求項8のいずれか一項に記載の蓄電素子評価装置。
【請求項11】
前記蓄電素子の環境温度情報を取得する温度情報取得部を備え、
前記SOH推定部は、
前記環境温度情報に基づいて前記蓄電素子のSOHを推定する請求項9又は請求項10に記載の蓄電素子評価装置。
【請求項12】
前記蓄電素子の設計パラメータを取得するパラメータ取得部を備え、
前記評価部は、
前記パラメータ取得部で取得した設計パラメータに応じて前記蓄電素子の状態を評価する請求項1から請求項11のいずれか一項に記載の蓄電素子評価装置。
【請求項13】
前記評価部での前記蓄電素子の状態の評価結果に基づいて、前記蓄電素子の負荷状態の変更を含む行動の指令を出力する出力部を備える請求項1から請求項12のいずれか一項に記載の蓄電素子評価装置。
【請求項14】
コンピュータに、
蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択する処理と、
選択した行動を実行したときの前記蓄電素子の状態を取得する処理と、
選択した行動を実行したときの報酬を取得する処理と、
取得した状態及び報酬に基づいて、前記行動評価情報を更新する処理と、
強化学習を用いて、前記行動を選択する処理、前記状態を取得する処理、前記報酬を取得する処理、及び前記行動評価情報を更新する処理を繰り返すことにより、報酬を最大化できる前記行動評価情報を学習する処理と、
更新した行動評価情報に基づく行動を実行して、前記蓄電素子の状態を評価する処理と
、
を実行させるコンピュータプログラム。
【請求項15】
蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択し、
選択された行動を実行したときの前記蓄電素子の状態を取得し、
選択された行動を実行したときの報酬を取得し、
取得された状態及び報酬に基づいて、前記行動評価情報を更新し、
強化学習を用いて、前記行動を選択するステップ、前記状態を取得するステップ、前記報酬を取得するステップ、及び前記行動評価情報を更新するステップを繰り返すことにより、報酬を最大化できる前記行動評価情報を学習し、
更新された行動評価情報に基づく行動を実行
して、前記蓄電素子の状態を評価する蓄電素子評価方法。
【請求項16】
蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択し、
選択された行動を実行したときの前記蓄電素子の状態を取得し、
選択された行動を実行したときの報酬を取得し、
取得された報酬に基づいて、前記行動評価情報を更新して、前記蓄電素子の状態に対応する行動を学習する学習方法。
【請求項17】
蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択し、
選択された行動を実行したときの前記蓄電素子の状態を取得し、
選択された行動を実行したときの報酬を取得し、
取得された報酬に基づいて、前記行動評価情報を更新し、
前記蓄電素子の設計パラメータを取得して前記行動評価情報を生成する生成方法。
【請求項18】
蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択する行動選択部と、
前記行動選択部で選択した行動を実行したときの前記蓄電素子の状態を取得する状態取得部と、
前記行動選択部で選択した行動を実行したときの報酬を取得する報酬取得部と、
前記状態取得部で取得した状態及び前記報酬取得部で取得した報酬に基づいて、前記行動評価情報を更新する更新部と、
前記更新部で更新した行動評価情報に基づく行動を実行して、前記蓄電素子の状態を評価する評価部を備え、
前記蓄電素子を搭載した移動体を、複数の移動エリアのうちの一の移動エリア内で移動するようにしてあり、
前記行動は、
前記移動体が移動する移動エリアから当該移動エリアと異なる他の移動エリアへの切替を含む蓄電素子評価装置。
【請求項19】
蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択する行動選択部と、
前記行動選択部で選択した行動を実行したときの前記蓄電素子の状態を取得する状態取得部と、
前記行動選択部で選択した行動を実行したときの報酬を取得する報酬取得部と、
前記状態取得部で取得した状態及び前記報酬取得部で取得した報酬に基づいて、前記行動評価情報を更新する更新部と、
前記更新部で更新した行動評価情報に基づく行動を実行して、前記蓄電素子の状態を評価する評価部を備え、
前記蓄電素子は、複数の負荷のうちの一の負荷に接続してあり、
前記行動は、
前記蓄電素子に接続された負荷から当該負荷と異なる他の負荷への切替を含み、
前記切替の回数に基づく報酬を算出する第2報酬算出部を備え、
前記報酬取得部は、
前記第2報酬算出部で算出した報酬を取得する蓄電素子評価装置。
【請求項20】
蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択する行動選択部と、
前記行動選択部で選択した行動を実行したときの前記蓄電素子の状態を取得する状態取得部と、
前記行動選択部で選択した行動を実行したときの報酬を取得する報酬取得部と、
前記状態取得部で取得した状態及び前記報酬取得部で取得した報酬に基づいて、前記行動評価情報を更新する更新部と、
前記更新部で更新した行動評価情報に基づく行動を実行して、前記蓄電素子の状態を評価する評価部を備え、
前記蓄電素子を搭載した移動体を、複数の移動エリアのうちの一の移動エリア内で移動するようにしてあり、
前記行動は、
前記移動体が移動する移動エリアから当該移動エリアと異なる他の移動エリアへの切替を含み、
前記切替の回数に基づく報酬を算出する第2報酬算出部をさらに備え、
前記報酬取得部は、
前記第2報酬算出部で算出した報酬を取得する蓄電素子評価装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、蓄電素子評価装置、コンピュータプログラム、蓄電素子評価方法、学習方法及び生成方法に関する。
【背景技術】
【0002】
輸送業界、物流業界又は運送業界などの様々な業界で、車両やフライイングビークルを含む移動体の電動化が検討されている。多くの電動ビークルを保有する事業主体としては、電動ビークルに搭載された蓄電素子(Energy Storage Device)が早期に劣化することは避けたい。
【0003】
特許文献1には、車載蓄電池を活用したエネルギーマネージメントにおいて車載蓄電池の利用率を高める技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
蓄電素子の劣化は、蓄電素子が使用される環境(電動ビークルの場合には、走行状態、飛行状態や使用環境)によって変化する。特定の電動ビークルが過度に使用されると、当該電動ビークルに搭載された蓄電素子が早期に劣化する。
【0006】
本発明は、蓄電素子の劣化を考慮して負荷を最適に分散できる蓄電素子評価装置、コンピュータプログラム、蓄電素子評価方法、学習方法及び生成方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
蓄電素子評価装置は、蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択する行動選択部と、前記行動選択部で選択した行動を実行したときの前記蓄電素子の状態を取得する状態取得部と、前記行動選択部で選択した行動を実行したときの報酬を取得する報酬取得部と、前記状態取得部で取得した状態及び前記報酬取得部で取得した報酬に基づいて、前記行動評価情報を更新する更新部と、前記更新部で更新した行動評価情報に基づく行動を実行して、前記蓄電素子の状態を評価する評価部とを備える。
【0008】
コンピュータプログラムは、コンピュータに、蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択する処理と、選択した行動を実行したときの前記蓄電素子の状態を取得する処理と、選択した行動を実行したときの報酬を取得する処理と、取得した状態及び報酬に基づいて、前記行動評価情報を更新する処理と、更新した行動評価情報に基づく行動を実行して、前記蓄電素子の状態を評価する処理とを実行させる。
【0009】
蓄電素子評価方法は、蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択し、選択された行動を実行したときの前記蓄電素子の状態を取得し、選択された行動を実行したときの報酬を取得し、取得された状態及び報酬に基づいて、前記行動評価情報を更新し、更新された行動評価情報に基づく行動を実行して、前記蓄電素子の状態を評価する。
【0010】
学習方法は、蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択し、選択された行動を実行したときの前記蓄電素子の状態を取得し、選択された行動を実行したときの報酬を取得し、取得された報酬に基づいて、前記行動評価情報を更新して、前記蓄電素子の状態に対応する行動を学習する。
【0011】
生成方法は、蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択し、選択された行動を実行したときの前記蓄電素子の状態を取得し、選択された行動を実行したときの報酬を取得し、取得された報酬に基づいて、前記行動評価情報を更新して前記行動評価情報を生成する。
【発明の効果】
【0012】
上記の構成により、蓄電素子の劣化を考慮して負荷を最適に分散できる。
【図面の簡単な説明】
【0013】
【
図1】蓄電素子評価システムの構成の一例を示す模式図である。
【
図2】蓄電素子評価サーバの構成の一例を示すブロック図である。
【
図3A】蓄電素子の負荷電力の例を示す模式図である。
【
図3B】蓄電素子の負荷電力の例を示す模式図である。
【
図4】蓄電素子の環境温度の一例を示す模式図である。
【
図6】蓄電素子のSOCの推移の一例を示す模式図である。
【
図8】物流・運送サービスのサービスエリアの一例を示す模式図である。
【
図9】地域毎の電動車両の配車状態の一例を示す模式図である。
【
図10】電動車両と電動車両に搭載されている蓄電素子との関係を示す模式図である。
【
図11】評価値テーブルの構成の一例を示す模式図である。
【
図12】評価値テーブルの評価値の一例を示す模式図である。
【
図13】本実施の形態のニューラルネットワークモデルの構成の一例を示す模式図である。
【
図14】電動車両が配車される地域の切替の一例を示す模式図である。
【
図15】蓄電素子交換サービスのサービス内容の一例を示す模式図である。
【
図16】蓄電素子の交換の一例を示す模式図である。
【
図17】据置蓄電素子運用監視サービスでの蓄電素子の負荷状態の変更の一例を示す模式図である。
【
図19】強化学習の状態遷移の様子の第1例を示す模式図である。
【
図20】強化学習の状態遷移の様子の第2例を示す模式図である。
【
図21】運用開始前からSOH推定部を用いる場合の、強化学習によって得られた運用方法によるSOHの推移の一例を示す模式図である。
【
図22】運用初期段階のデータを用いて寿命予測シミュレータを生成する場合の、強化学習によって得られた運用方法によるSOHの推移の一例を示す模式図である。
【
図23】寿命予測シミュレータを用いない場合の、強化学習によって得られた運用方法によるSOHの推移の一例を示す模式図である。
【
図24】強化学習の処理手順の一例を示すフローチャートである。
【発明を実施するための形態】
【0014】
蓄電素子評価装置は、蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択する行動選択部と、前記行動選択部で選択した行動を実行したときの前記蓄電素子の状態を取得する状態取得部と、前記行動選択部で選択した行動を実行したときの報酬を取得する報酬取得部と、前記状態取得部で取得した状態及び前記報酬取得部で取得した報酬に基づいて、前記行動評価情報を更新する更新部と、前記更新部で更新した行動評価情報に基づく行動を実行して、前記蓄電素子の状態を評価する評価部とを備える。
【0015】
コンピュータプログラムは、コンピュータに、蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択する処理と、選択した行動を実行したときの前記蓄電素子の状態を取得する処理と、選択した行動を実行したときの報酬を取得する処理と、取得した状態及び報酬に基づいて、前記行動評価情報を更新する処理と、更新した行動評価情報に基づく行動を実行して、前記蓄電素子の状態を評価する処理とを実行させる。
【0016】
蓄電素子評価方法は、蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択し、選択された行動を実行したときの前記蓄電素子の状態を取得し、選択された行動を実行したときの報酬を取得し、取得された状態及び報酬に基づいて、前記行動評価情報を更新し、更新された行動評価情報に基づく行動を実行して、前記蓄電素子の状態を評価する。
【0017】
学習方法は、蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択し、選択された行動を実行したときの前記蓄電素子の状態を取得し、選択された行動を実行したときの報酬を取得し、取得された報酬に基づいて、前記行動評価情報を更新して、前記蓄電素子の状態に対応する行動を学習する。
【0018】
生成方法は、蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択し、選択された行動を実行したときの前記蓄電素子の状態を取得し、選択された行動を実行したときの報酬を取得し、取得された報酬に基づいて、前記行動評価情報を更新して前記行動評価情報を生成する。
【0019】
行動選択部は、蓄電素子の負荷状態の変更を含む行動を、行動評価情報に基づいて選択する。行動評価情報は、強化学習において、環境のある状態での行動の評価値を定める行動価値関数又はテーブル(表)であり、Q学習では、Q値又はQ関数を意味する。蓄電素子の負荷状態は、蓄電素子の充電時又は放電時の電流、電圧、電力などの物理量を含む。また、負荷状態に、蓄電素子の温度を含めることもできる。負荷状態の変更は、電流、電圧、電力又は温度などの変化パターン(変動幅、平均値、ピーク値などを含む)、蓄電素子の使用場所の変更、使用状態の変更(例えば、使用状態と保管状態との間の変更)などを含む。複数の蓄電素子それぞれに個別の負荷状態が存在することを考慮すると、蓄電素子の負荷状態の変更は、負荷の分散に相当する。行動選択部は、強化学習でのエージェントに相当し、行動評価情報において最も評価の高い行動を選択することができる。
【0020】
状態取得部は、行動選択部で選択した行動を実行したときの蓄電素子の状態を取得する。行動選択部によって選択された行動が実行されると、環境の状態は変化する。状態取得部は、変化した状態を取得する。蓄電素子の状態は、SOH(State Of Health)であってもよいし、SOHの先行指標である、ある時点における電流、電圧、温度、電池厚みやその時系列データや各指標の組み合わせであってもよい。本明細書において、SOHとは、初期状態の値と比較した、放電可能な電気容量維持率や内部抵抗増大率、放電可能な電力容量維持率などやそれらの値の組み合わせや時系列の推移のことを指す。SOHは実測値を用いることが望ましいが、先行指標や前回実測したSOHから推定した値であっても良い。特に推定値である場合は、SOHを確率分布として表現することが望ましい。
【0021】
報酬取得部は、行動選択部で選択した行動を実行したときの報酬を取得する。報酬取得部は、行動選択部が環境に対して望ましい結果を作用させたときに高い値(正値)を取得する。報酬が0のときは、報酬なしであり、報酬が負値のときはペナルティとなる。
【0022】
更新部は、取得した状態及び報酬に基づいて、行動評価情報を更新する。より具体的には、更新部は、強化学習でのエージェントに相当し、行動に対する報酬を最大化する方向へ行動評価情報を更新する。これにより、環境のある状態において最大の価値が期待される行動を学習できる。
【0023】
評価部は、更新部で更新した行動評価情報に基づく行動を実行して、蓄電素子の状態を評価する。これにより、蓄電素子の、例えば、SOHに対して、負荷状態の変更を含む行動が強化学習によって得られ、負荷状態の変更を含む行動の結果として蓄電素子のSOHを評価することができる。複数の蓄電素子それぞれに対する評価を行うことによって、蓄電素子の劣化を考慮の上で蓄電素子の負荷を最適に分散し、全体としてコストを低減することができる。
【0024】
蓄電素子評価装置は、前記蓄電素子を搭載した移動体を、複数の移動エリアのうちの一の移動エリア内で移動するようにしてあり、前記行動は、前記移動体が移動する移動エリアから当該移動エリアと異なる他の移動エリアへの切替を含むことができる。
【0025】
蓄電素子を搭載した移動体を、複数の移動エリアのうちの一の移動エリア内で移動するようにしてある。例えば、物流業界又は運送業界などにおいて、サービス提供エリアを複数の移動エリアで区分しておき、移動エリア毎に、サービスに供する移動体(例えば、電動車両)を定めておくことができる。例えば、移動エリアAには、移動体a1、a2、…を配車しておき、移動エリアBには、移動体b1、b2、…を配車しておくことができる。他の移動エリアについて同様である。
【0026】
行動は、移動体が移動する移動エリアから当該移動エリアと異なる他の移動エリアへの切替を含む。道路網を複数の移動エリアで区分した場合、ある特定の移動エリアでは、坂道が多いとか、信号機が設置された交差点が多いとか、高速道路が多いとか、他の移動エリアと環境が異なると考えられ、移動体に搭載された蓄電素子の負荷状態も異なると考えられる。移動エリアに配車された移動体をその移動エリア内で移動させると、移動エリア毎に蓄電素子に対する負荷の軽重が異なり、特定の移動エリア内の移動体の蓄電素子の劣化が早まる可能性がある。
【0027】
移動体が移動する移動エリアの切替を強化学習で学習することにより、移動エリアの切替の結果として蓄電素子のSOHを評価することができる。複数の蓄電素子それぞれに対する評価を行うことによって、蓄電素子の劣化を考慮の上で蓄電素子の負荷を最適に分散し、全体としてコストを低減することができる。
【0028】
蓄電素子評価装置は、前記移動エリアの切替に伴う移動体エリア間の距離に基づく報酬を算出する第1報酬算出部を備え、前記報酬取得部は、前記第1報酬算出部で算出した報酬を取得することができる。
【0029】
第1報酬算出部は、移動エリアの切替に伴う移動体エリア間の距離に基づく報酬を算出する。報酬取得部は、第1報酬算出部で算出した報酬を取得する。例えば、距離が長いほど、移動エリアの切替に伴うコストが高くなる傾向があると考えられるので、距離が長いほど報酬を小さく、あるいは負の報酬(ペナルティ)となるように算出することができる。これにより、複数の蓄電素子を含むシステム全体のコストの増大を抑制することができる。
【0030】
蓄電素子評価装置において、前記行動は、前記蓄電素子が移動体に搭載された搭載状態と移動体から取り外された保管状態との切替を含むことができる。
【0031】
行動は、蓄電素子が移動体に搭載された搭載状態と移動体から取り外された保管状態との切替を含む。例えば、蓄電素子の交換サービスでは、予め複数の蓄電素子を保管しておき、移動体に搭載された蓄電素子の充電率(SOC:State of Charge)が低下したときに、移動体の蓄電素子が満充電された蓄電素子と交換される。搭載状態と保管状態とでは、蓄電素子の負荷状態の軽重が異なる。
【0032】
搭載状態と保管状態との切替を強化学習で学習することにより、搭載状態と保管状態との切替の結果として蓄電素子のSOHを評価することができる。複数の蓄電素子それぞれに対する評価を行うことによって、蓄電素子の劣化を考慮の上で蓄電素子の負荷を最適に分散し、全体としてコストを低減することができる。
【0033】
蓄電素子評価装置において、前記蓄電素子は、複数の負荷のうちの一の負荷に接続してあり、前記行動は、前記蓄電素子に接続された負荷から当該負荷と異なる他の負荷への切替を含むことができる。
【0034】
蓄電素子は、複数の負荷のうちの一の負荷に接続してある。すなわち、発電設備又は電力需要設備内の複数の蓄電素子それぞれには別個の負荷が接続されている。蓄電素子の負荷となる電気設備は、動作状態や環境状態によって必要とする電力が変動し、蓄電素子に要求される電力も変動するので、蓄電素子に接続される負荷に応じて、蓄電素子の負荷状態の軽重が異なる。複数の蓄電素子それぞれに固定的に負荷を接続すると、負荷に応じて、蓄電素子に対する負荷の軽重が異なり、特定の蓄電素子の劣化が早まる可能性がある。
【0035】
行動は、蓄電素子に接続された負荷から当該負荷と異なる他の負荷への切替を含む。負荷の切替を強化学習で学習することにより、負荷の切替の結果として蓄電素子のSOHを評価することができる。複数の蓄電素子それぞれに対する評価を行うことによって、蓄電素子の劣化を考慮の上で蓄電素子の負荷を最適に分散し、全体としてコストを低減することができる。
【0036】
蓄電素子評価装置は、前記切替の回数に基づく報酬を算出する第2報酬算出部を備え、前記報酬取得部は、前記第2報酬算出部で算出した報酬を取得することができる。
【0037】
第2報酬算出部は、切替の回数に基づく報酬を算出する。報酬取得部は、第2報酬算出部で算出した報酬を取得する。例えば、複数の蓄電素子を含むシステム全体として蓄電素子の平均SOHを高く維持する運用を優先する場合には、切替回数の増大による若干のコスト高を犠牲にして、切替の回数が多くても報酬が小さくならないように、あるいは負(ペナルティ)にならないように算出することができる。一方、複数の蓄電素子を含むシステム全体として切替コストを低減する運用を優先する場合には、切替回数の減少による蓄電素子の平均SOHの若干の低下を犠牲にして、切替の回数が少ないほど比較的大きな値の報酬となるように算出することができる。これにより、最適な運用を実現することができる。
【0038】
蓄電素子評価装置は、前記蓄電素子のSOHの低下の度合いに基づく報酬を算出する第3報酬算出部を備え、前記報酬取得部は、前記第3報酬算出部で算出した報酬を取得することができる。
【0039】
第3報酬算出部は、蓄電素子のSOHの低下の度合いに基づく報酬を算出する。報酬取得部は、第3報酬算出部で算出した報酬を取得する。SOHの低下の度合いは、例えば、過去のSOHに対して、現在のSOHがどの程度減少したか減少率とすることができる。例えば、SOHの低下の度合いが閾値より大きい場合(減少率が大きい場合)、報酬を負値(ペナルティ)とすることができる。また、SOHの低下の度合いが閾値より小さい場合(減少率が小さい場合)、報酬を正値とすることができる。これにより、蓄電素子のSOHの低下を抑制しつつ蓄電素子の最適な運用を実現することができる。
【0040】
蓄電素子評価装置は、前記蓄電素子の状態が寿命に到達したか否かに基づいて報酬を算出する第4報酬算出部を備え、前記報酬取得部は、前記第4報酬算出部で算出した報酬を取得することができる。
【0041】
第4報酬算出部は、蓄電素子の状態が寿命に到達したか否かに基づいて報酬を算出する。報酬取得部は、第4報酬算出部で算出した報酬を取得する。例えば、蓄電素子のSOHがEOL(End Of Life)を下回らないときは、報酬を正値とし、SOHがEOL以下になったときは、報酬を負値(ペナルティ)とすることができる。これにより、蓄電素子の期待寿命(例えば、10年、15年など)に達するような最適な運用を実現することができる。
【0042】
蓄電素子評価装置は、前記蓄電素子の負荷電力情報を取得する電力情報取得部と、前記電力情報取得部で取得した負荷電力情報及び前記行動選択部で選択した行動に基づいて前記蓄電素子のSOCの推移を推定するSOC推移推定部と、前記SOC推移推定部で推定したSOCの推移に基づいて前記蓄電素子のSOHを推定するSOH推定部とを備え、前記評価部は、前記SOH推定部が推定したSOHに基づいて前記蓄電素子のSOHを含む状態を評価することができる。
【0043】
電力情報取得部は、蓄電素子の負荷電力情報を取得する。負荷電力情報は、所定期間に亘る負荷電力の推移を表す情報であり、蓄電素子が充電される場合は、充電電力を含み、蓄電素子が放電するときは、放電電力を含む。所定期間は、1日、1週間、1月、春夏秋冬、1年などの期間とすることができる。
【0044】
SOC推移推定部は、電力情報取得部で取得した負荷電力情報及び行動選択部で選択した行動に基づいて蓄電素子のSOCの推移を推定する。所定期間において、蓄電素子の充電が行われるときは、SOCは増加する。一方、蓄電素子の放電が行われるとき、SOCは減少する。所定期間においては、蓄電素子の充放電が行われないときもある(例えば、夜間など)。これにより、所定期間に亘ってSOCの推移を推定することができる。
【0045】
SOH推定部は、推定されたSOCの推移に基づいて蓄電素子のSOHを推定する。評価部は、SOH推定部が推定したSOHに基づいて蓄電素子のSOHを含む状態を評価する。蓄電素子の所定期間後の劣化値Qdegは、通電劣化値Qcurと非通電劣化値Qcndとの和で表すことができる。経過時間をtで表すと、非通電劣化値Qcndは、例えば、Qcnd=K1×√(t)で求めることができる。ここで、係数K1は、SOCの関数である。また、通電劣化値Qcurは、例えば、Qcur=K2×(SOCの変動量)で求めることができる。ここで、係数K2は、SOCの関数である。所定期間の始点でのSOHをSOH1とし、終点でのSOHをSOH2とすると、SOH2=SOH1-QdegによりSOHを推定することができる。
【0046】
なお、前述のSOC推移推定部及びSOH推定部は、複数の蓄電素子を含むシステムの運用開始前に予め準備しておくことができる。
【0047】
これにより、将来の所定期間経過後のSOHを推定することができる。また、推定したSOHに基づいて、さらに所定期間経過後の劣化値を算出すれば、当該所定期間経過後のSOHをさらに推定することができる。SOHの推定を所定期間経過毎に繰り返すことにより、蓄電素子の期待寿命(例えば、10年、15年など)時に蓄電素子が寿命に達しているのか否か(SOHがEOL以下であるか否か)も推定することができる。
【0048】
蓄電素子評価装置は、前記蓄電素子の負荷電力情報を取得する電力情報取得部と、前記蓄電素子のSOHを取得するSOH取得部と、前記電力情報取得部で取得した負荷電力情報及び前記SOH取得部で取得したSOHに基づいて、前記蓄電素子のSOHを推定するSOH推定部を生成する生成部とを備え、前記評価部は、前記生成部が生成したSOH推定部のSOH推定に基づいて前記蓄電素子のSOHを含む状態を評価することができる。
【0049】
電力情報取得部は、蓄電素子の負荷電力情報を取得する。負荷電力情報は、所定期間に亘る負荷電力の推移を表す情報であり、蓄電素子が充電される場合は、充電電力を含み、蓄電素子が放電するときは、放電電力を含む。所定期間は、1日、1週間、1月、春夏秋冬、1年などの期間とすることができる。SOH取得部は、蓄電素子のSOHを取得する。
【0050】
生成部は、電力情報取得部で取得した負荷電力情報及びSOH取得部で取得したSOHに基づいて、蓄電素子のSOHを推定するSOH推定部を生成する。評価部は、生成部が生成したSOH推定部のSOH推定に基づいて蓄電素子のSOHを含む状態を評価する。例えば、複数の蓄電素子を含むシステムの運用開始後に、取得した負荷電力情報及び蓄電素子のSOHを収集し、収集した負荷電力情報に対して収集した蓄電素子のSOHを含む状態を推定するようなSOH推定部を生成する。具体的には、SOHを推定するためのパラメータを設定する。例えば、蓄電素子の所定期間後の劣化値Qdegは、通電劣化値Qcurと非通電劣化値Qcndとの和で表すことができ、経過時間をtで表すと、非通電劣化値Qcndは、例えば、Qcnd=K1×√(t)で求めることができる。また、通電劣化値Qcurは、例えば、Qcur=K2×√(t)で求めることができる。ここで、設定するパラメータは、係数K1、係数K2であり、SOCの関数で表される。
【0051】
これにより、システムの運用前に蓄電素子のSOHを推定するSOH推定部(例えば、SOHシミュレータ)を開発する手間を省くことができる。また、システムの運用開始後の負荷電力情報及び蓄電素子のSOHを含む状態を収集してSOH推定部を生成するので、運用環境に合わせた高精度のSOH推定部(例えば、SOHシミュレータ)の開発が期待できる。
【0052】
また、SOH推定部を生成した後は、将来の所定期間経過後のSOHを推定することができる。また、推定したSOHに基づいて、さらに所定期間経過後の劣化値を算出すれば、当該所定期間経過後のSOHをさらに推定することができる。SOHの推定を所定期間経過毎に繰り返すことにより、蓄電素子の期待寿命(例えば、10年、15年など)時に蓄電素子が寿命に達しているのか否か(SOHがEOL以下であるか否か)も推定することができる。
【0053】
蓄電素子評価装置は、前記蓄電素子の環境温度情報を取得する温度情報取得部を備え、前記SOH推定部は、前記環境温度情報に基づいて前記蓄電素子のSOHを推定することができる。
【0054】
温度情報取得部は、蓄電素子の環境温度情報を取得する。環境温度情報は、所定期間に亘る環境温度の推移を表す情報である。
【0055】
SOH推定部は、環境温度情報に基づいて蓄電素子のSOHを推定する。蓄電素子の所定期間後の劣化値Qdegは、通電劣化値Qcurと非通電劣化値Qcndとの和で表すことができる。経過時間をtで表すと、非通電劣化値Qcndは、例えば、Qcnd=K1×√(t)で求めることができる。ここで、係数K1は、SOC及び温度Tの関数である。また、通電劣化値Qcurは、例えば、Qcur=K2×√(t)で求めることができる。ここで、係数K2は、SOC及び温度Tの関数である。所定期間の始点でのSOHをSOH1とし、終点でのSOHをSOH2とすると、SOH2=SOH1-QdegによりSOHを推定することができる。
【0056】
これにより、将来の所定期間経過後のSOHを推定することができる。また、推定したSOHに基づいて、さらに所定期間経過後の劣化値を算出すれば、当該所定期間経過後のSOHをさらに推定することができる。SOHの推定を所定期間経過毎に繰り返すことにより、蓄電素子の期待寿命(例えば、10年、15年など)時に蓄電素子が寿命に達しているのか否か(SOHがEOL以下であるか否か)も推定することができる。
【0057】
蓄電素子評価装置は、前記蓄電素子の設計パラメータを取得するパラメータ取得部を備え、前記評価部は、前記パラメータ取得部で取得した設計パラメータに応じて前記蓄電素子の状態を評価することができる。
【0058】
パラメータ取得部は、蓄電素子の設計パラメータを取得する。評価部は、パラメータ取得部で取得した設計パラメータに応じて蓄電素子の状態を評価する。蓄電素子の設計パラメータは、システムの実際の運用に先立って、蓄電素子の種類、数、定格などのシステム設計に必要な種々のパラメータを含む。設計パラメータに応じて蓄電素子の状態を評価することにより、例えば、どのような設計パラメータを採用すれば、蓄電素子の劣化を考慮した、システム全体の最適な運用方法が得られるかを把握することができる。
【0059】
蓄電素子評価装置は、前記評価部での前記蓄電素子の状態の評価結果に基づいて、前記蓄電素子の負荷状態の変更を含む行動の指令を出力する出力部を備えることができる。
【0060】
出力部は、評価部での蓄電素子の状態の評価結果に基づいて、蓄電素子の負荷状態の変更を含む行動の指令を出力する。これにより、蓄電素子の状態に対して、負荷状態の変更を含む行動が強化学習によって得られ、指令に基づいて蓄電素子の負荷状態の変更を行うことにより、蓄電素子の劣化を考慮の上で蓄電素子の負荷を最適に分散し、全体としてコストを低減することができる。
【0061】
以下、本実施の形態に係る蓄電素子評価装置、コンピュータプログラム、蓄電素子評価方法及び学習方法を図面に基づいて説明する。
図1は、蓄電素子評価システムの構成の一例を示す模式図である。蓄電素子評価システムは、蓄電素子評価装置としての蓄電素子評価サーバ50を備え、蓄電素子の状態を評価する。蓄電素子は、輸送・物流・運送サービス100に供される移動体としてのバス110、トラック120、タクシー130、フライイングビークル140などに搭載される蓄電素子、蓄電素子交換サービス200の対象となる移動体としてのバイク210、レンタカー220などに搭載される蓄電素子、及び据置蓄電素子運用監視サービス300の対象となる発電設備310、電力需要設備320内で使用される蓄電素子を含んでもよい。バス110、トラック120、タクシー130、フライイングビークル140、バイク210、レンタカー220、発電設備310、電力需要設備320、サーバ101、201、301は、通信を行うための通信機能を備える。本実施の形態において、バス110、トラック120、タクシー130、フライイングビークル140、バイク210、レンタカー220は、電動ビークル(EV)又はハイブリッド電動ビークル(HEV)であって、駆動用の蓄電素子を搭載している。輸送・物流・運送サービス100に供される電動車両に搭載される蓄電素子のサイズは比較的大きい。蓄電素子交換サービス200の対象となる電動車両に搭載される蓄電素子のサイズは比較的小さく、交換の対象とすることができる。
図1では、バス110、トラック120、タクシー130、バイク210、レンタカー220、発電設備310、電力需要設備320を1つ図示しているが、それらが複数存在してもよい。蓄電素子は、鉛蓄電池及びリチウムイオン電池のような二次電池や、キャパシタのような、再充電可能なものであることが好ましい。
【0062】
蓄電素子評価サーバ50は、インターネットなどの通信ネットワーク1に接続されている。通信ネットワーク1には、サーバ101、201、301が接続されている。サーバ101は、輸送・物流・運送サービス100に供され、バス110、トラック120、タクシー130、フライイングビークル140に搭載される蓄電素子の状態(例えば、電圧、電流、電力、温度、充電状態(SOC:State Of Charge))を収集し、収集した状態を蓄電素子評価サーバ50へ送信する。サーバ201は、蓄電素子交換サービス200の対象であるバイク210、レンタカー220に搭載される蓄電素子の状態(例えば、電圧、電流、電力、温度、充電状態(SOC)を収集し、収集した状態を蓄電素子評価サーバ50へ送信する。サーバ301は、据置蓄電素子運用監視サービス300の対象である発電設備310、電力需要設備320内で使用される蓄電素子の状態(例えば、電圧、電流、電力、温度、充電状態(SOC)を収集し、収集した状態を蓄電素子評価サーバ50へ送信する。
図1の例では、サーバ101、201、301を1つ図示しているが、それらが複数設けられてもよい。蓄電素子の状態は、サーバ101、201、301を経由せずに、直接、蓄電素子評価サーバ50へ送信されてもよい。
【0063】
輸送・物流・運送サービス100、蓄電素子交換サービス200及び据置蓄電素子運用監視サービス300の詳細は後述する。
【0064】
図2は、蓄電素子評価サーバ50の構成の一例を示すブロック図である。蓄電素子評価サーバ50は、サーバ全体を制御する制御部51、通信部52、記憶部53、記録媒体読取部54、及び処理部60を備える。処理部60は、SOH推定部61、報酬算出部62、行動選択部63、及び評価値テーブル64を備える。SOH推定部61として、計算ベースの寿命予測シミュレータを用いてもよい。
【0065】
制御部51は、例えば、CPUで構成することができ、内蔵するROM及びRAM等のメモリを用い、サーバ全体を制御する。制御部51は、記憶部53に記憶されているサーバプログラムに基づく情報処理を実行する。
【0066】
通信部52は、通信ネットワーク1を介してサーバ101、201、301との間でデータの送受信を行う。また、通信部52は、通信ネットワーク1を介して電動車両との間でデータの送受信を行う。
【0067】
通信部52は、制御部51の制御の下、電動車両に搭載された蓄電素子の状態(例えば、電圧、電流、電力、温度、SOCなどのデータを受信(取得)し、受信したデータを記憶部53に記憶する。また、通信部52は、サーバ301を介して、据置蓄電素子運用監視サービス300の発電設備310、電力需要設備320内で使用される蓄電素子の状態(例えば、電圧、電流、電力、温度、SOC)を受信(取得)し、受信したデータを記憶部53に記憶する。
【0068】
記憶部53は、例えばハードディスク又はフラッシュメモリ等の不揮発性メモリを用いることができる。記憶部53は、通信部52で受信したデータを記憶することができる。
【0069】
図3A及び
図3Bは、蓄電素子の負荷電力の例を示す模式図である。図において、縦軸は電力を示し、0を基準として正側は充電時の電力を表し、負側は放電時の電力を表す。横軸は時間を示す。朝8時から夜18時までの時間が図示されているが、横軸の時間幅は図の例に限定されるものではなく、例えば、0時から24時までの1日でもよく、1週間、1か月、春夏秋冬、1年などでもよい。
【0070】
図3Aは負荷が重負荷である場合を示し、
図3Bは負荷が軽負荷である場合を示す。重負荷である場合は、軽負荷である場合に比べて、電力の平均値、電力の変動幅、ピーク値が大きいことが分かる。このため、重負荷の場合の方が、軽負荷の場合に比べて、蓄電素子の劣化に及ぼす影響が大きいと考えられる。
図3A及び
図3Bに示す電力は一例であって、電動車両に搭載される蓄電素子や発電設備310又は電力需要設備320内で使用される蓄電素子の負荷電力は、使用状況に応じて異なる。
【0071】
記憶部53は、電動車両に搭載された蓄電素子、及び発電設備310又は電力需要設備320内で使用される蓄電素子の負荷電力に関する情報を蓄電素子毎に区分して記憶することができる。
【0072】
図4は、蓄電素子の環境温度の一例を示す模式図である。
図4において、縦軸は温度を示し、横軸は時間を示す。朝8時から夜18時までの時間が図示されているが、横軸の時間幅は図の例に限定されるものではなく、例えば、0時から24時までの1日でもよく、1週間、1か月、春夏秋冬、1年などでもよい。
図4に示す環境温度は一例であって、電動車両に搭載される蓄電素子や発電設備310又は電力需要設備320内で使用される蓄電素子の負荷電力は、使用状況に応じて異なる。
【0073】
記憶部53は、電動車両に搭載された蓄電素子、及び発電設備310又は電力需要設備320内で使用される蓄電素子の環境温度に関する情報を蓄電素子毎に区分して記憶することができる。
【0074】
次に、処理部60について説明する。
【0075】
処理部60において、報酬算出部62、行動選択部63及び評価値テーブル64は、強化学習を行う機能を構成する。処理部60は、SOH推定部61が出力する蓄電素子の劣化値(蓄電素子のSOH(State Of Health)に置き換えることが可能)を用いて強化学習させることにより、蓄電素子の期待寿命(例えば、10年、15年など)に達するような最適な運用条件を求めることができる。以下、処理部60の詳細について説明する。
【0076】
図5は、SOH推定部61の動作を示す模式図である。SOH推定部61は、センサデータなどの履歴から計算ベースでSOHを推定する寿命予測シミュレータでもよく、あるいは短期のセンサデータを用いて実測ベースでSOHを推定するものでもよい。SOH推定部61は、複数の蓄電素子それぞれの負荷パターン(例えば、
図3の負荷電力情報)、及び温度パターン(例えば、
図4の環境温度情報)を入力データとして取得する。SOH推定部61は、蓄電素子のSOC推移を推定するとともに、蓄電素子の劣化値を推定(算出)する。また、SOH推定部61は、行動選択部63が選択した行動を取得し、蓄電素子のSOC推移を推定するとともに、蓄電素子の劣化値を推定する。SOCの推移は、例えば、蓄電素子に流れる充放電電流を積算することにより算出することができる。
【0077】
時点tでのSOH(健康度ともいう)をSOHt とし、時点t+1でのSOHをSOHt+1 とすると、劣化値は(SOHt -SOHt+1 )となる。ここで、時点は、現在又は将来のある時点とすることができ、時点t+1は、時点tから将来に向かって所要の時間が経過した時点とすることができる。時点tと時点t+1との時間差は、SOH推定部61の寿命予測対象期間であり、どの程度の将来に対して寿命を予測するかに応じて適宜設定できる。時点tと時点t+1との時間差は、例えば、1か月、半年、1年、2年などの所要の時間とすることができる。
【0078】
負荷パターン又は温度パターンの始点から終点までの期間が、SOH推定部61の寿命予測対象期間よりも短い場合には、例えば、負荷パターン又は温度パターンを寿命予測対象期間に亘って繰り返し用いることができる。
【0079】
SOH推定部61は、SOC推移推定部としての機能を有し、負荷パターン及び行動選択部63が選択した行動に基づいて蓄電素子のSOCの推移を推定する。寿命予測対象期間において、蓄電素子の充電が行われるときは、SOCは増加する。一方、蓄電素子の放電が行われるときは、SOCは減少する。寿命予測対象期間においては、蓄電素子の充放電が行われないときもある(例えば、夜間など)。SOH推定部61は、寿命予測対象期間に亘ってSOCの推移を推定する。電動車両内、発電設備310内又は電力需要設備320内のバッテリ管理装置(不図示)によって、SOCの変動は、SOCの上限値と下限値とによって制限することができる。
【0080】
図6は、蓄電素子のSOCの推移の一例を示す模式図である。
図6において、縦軸はSOCを示し、横軸は時間を示す。朝8時から夜18時までの時間が図示されているが、横軸の時間幅は図の例に限定されるものではなく、例えば、0時から24時までの1日でもよく、1週間、1か月、春夏秋冬、1年などでもよい。
図6に示すSOCは一例であって、実際は蓄電素子毎に異なる。電動車両に搭載される蓄電素子や発電設備310又は電力需要設備320内で使用される蓄電素子の負荷電力は、使用状況に応じて異なる。
【0081】
SOH推定部61は、蓄電素子の環境温度に基づいて蓄電素子の温度を推定することができる。
【0082】
SOH推定部61は、SOH推定部としての機能を有し、推定したSOCの推移及び蓄電素子の温度に基づいて蓄電素子のSOHを推定する。蓄電素子の寿命予測対象期間(例えば、時点tから時点t+1まで)経過後の劣化値Qdegは、Qdeg=Qcnd+Qcurという式によって算出することができる。
【0083】
ここで、Qcndは非通電劣化値であり、Qcurは通電劣化値である。非通電劣化値Qcndは、例えば、Qcnd=K1×√(t)で求めることができる。ここで、係数K1は、SOC及び温度Tの関数である。tは経過時間であり、例えば、時点tから時点t+1までの時間である。通電劣化値Qcurは、例えば、Qcur=K2×(SOCの変動量)で求めることができる。ここで、係数K2は、SOC及び温度Tの関数である。時点tでのSOHをSOHtとし、時点t+でのSOHをSOHt+1 とすると、SOHt+1=SOHt-QdegによりSOHを推定することができる。
【0084】
係数K1は、劣化係数であり、SOC及び温度Tと係数K1との対応関係を演算で求めてもよく、あるいはテーブル形式で記憶しておくことができる。数K2についても、係数K1と同様である。
【0085】
上述のように、SOH推定部61は、将来の寿命予測対象期間経過後のSOHを推定することができる。推定したSOHに基づいて、さらに寿命予測対象期間経過後の劣化値を算出すれば、当該寿命予測対象期間経過後のSOHをさらに推定することができる。SOHの推定を寿命予測対象期間経過毎に繰り返すことにより、蓄電素子の期待寿命(例えば、10年、15年など)時に蓄電素子が寿命に達しているのか否か(SOHがEOL以下であるか否か)も推定することができる。
【0086】
本実施の形態での強化学習は、行動として、蓄電素子の負荷状態をどのように変更すれば(複数の蓄電素子の負荷をどのように分散させれば)、特定の蓄電素子の早期の劣化を防止して、システム全体の蓄電素子の平均SOHの低下を抑制できる、あるいは運用コストを低減できる、最適な運用方法を学習する。以下、強化学習の詳細について説明する。
【0087】
図7は、本実施の形態の強化学習の一例を示す模式図である。強化学習は、ある環境下に置かれたエージェントが環境に対して行動をし、得られる報酬が最大化されるような方策(エージェントが行動する際の指標となるルール)を求める機械学習アルゴリズムである。強化学習において、エージェントは、環境に対して行動を起こす学習者のようなものであり、学習対象である。環境は、エージェントの行動に対して状態の更新と報酬の付与を行う。行動は、環境のある状態に対してエージェントが取ることができる行動である。状態は、環境が保持する環境の様子である。報酬は、エージェントが環境に対して望ましい結果を作用させたときにエージェントに付与される。報酬は、例えば、正、負、0の値とすることができ、正の場合は報酬そのものであり、負の場合はペナルティとなり、0の場合は報酬なしとなる。行動評価関数は、ある状態での行動の評価値を定める関数であり、表のようなテーブル形式で表すこともでき、Q学習においては、Q関数、Q値、評価値などという。Q学習は、強化学習の中でよく用いられている手法の一つである。以下では、Q学習について説明するが、強化学習は代替的にQ学習と異なるものでもよい。
【0088】
本実施の形態の処理部60においては、SOH推定部61及び報酬算出部62が、環境に相当し、行動選択部63及び評価値テーブル64がエージェントに相当する。評価値テーブル64は、上述のQ関数に相当するものであり、行動評価情報ともいう。なお、エージェントは1つに限らす、複数のエージェントを用いることもできる。これにより、大規模で複雑な環境(サービス環境)でも、最適なシステム運用方法を探索することが可能となる。
【0089】
行動選択部63は、評価値テーブル64に基づいて蓄電素子のSOH(State Of Health)を含む状態に対する、蓄電素子の負荷状態の変更を含む行動を選択する。蓄電素子の負荷状態は、蓄電素子の充電時又は放電時の電流、電圧、電力などの物理量を含む。負荷状態に、蓄電素子の温度を含めることもできる。負荷状態の変更は、電流、電圧、電力又は温度などの変化パターン(変動幅、平均値、ピーク値などを含む)、蓄電素子の使用場所の変更、使用状態の変更(例えば、使用状態と保管状態との間の変更)などを含む。複数の蓄電素子それぞれに個別の負荷状態が存在することを考慮すると、蓄電素子の負荷状態の変更は、負荷の分散に相当する。
【0090】
図7の例では、行動選択部63は、SOH推定部61から時点tでの状態s
t(例えば、SOH
t)を取得し、行動a
tを選択して出力している。行動選択部63は、評価値テーブル64において、最も評価の高い(例えば、Q値が最も大きい)行動を選択することができる。行動の詳細については後述する。
【0091】
行動選択部63は、状態取得部としての機能を有し、選択した行動を実行したときの蓄電素子の状態(SOH)を取得する。行動選択部63によって選択された行動に基づいて蓄電素子の負荷電力情報がSOH推定部61に与えられると、SOH推定部61は、時点t+1での状態st+1(例えば、SOHt+1)を出力し、状態はstからst+1に更新される。行動選択部63は、更新された状態を取得する。行動選択部63は、報酬取得部としての機能を有し、報酬算出部62が算出した報酬を取得する。
【0092】
報酬算出部62は、選択した行動が実行されたときの報酬を算出する。行動選択部63がSOH推定部61に対して望ましい結果を作用させたときに高い値(正値)が算出される。報酬が0のときは、報酬なしであり、報酬が負値のときはペナルティとなる。
図7の例では、報酬算出部62は、報酬r
t+1を行動選択部63に付与している。報酬算出の詳細は後述する。
【0093】
行動選択部63は、更新部としての機能を有し、取得した状態st+1及び報酬rt+1に基づいて、評価値テーブル64を更新する。より具体的には、行動選択部63は、行動に対する報酬を最大化する方向へ評価値テーブル64を更新する。これにより、環境のある状態において最大の価値が期待される行動を学習できる。
【0094】
上述の処理を繰り返して、評価値テーブル64の更新を繰り返すことにより、報酬を最大化できる評価値テーブル64を学習することができる。
【0095】
処理部60は、評価部としての機能を有し、更新した評価値テーブル64(すなわち学習済の評価値テーブル27)に基づいて、蓄電素子の負荷状態の変更を含む行動を実行して、蓄電素子のSOHを含む状態を評価することができる。これにより、蓄電素子のSOHを含む状態に対して、負荷状態の変更を含む行動が強化学習によって得られ、負荷状態の変更を含む行動の結果として蓄電素子のSOHを評価することができる。複数の蓄電素子それぞれに対する評価を行うことによって、蓄電素子の劣化を考慮の上で蓄電素子の負荷を最適に分散し、全体としてコストを低減することができる。
【0096】
Q学習でのQ関数の更新は、式(1)により行うことができる。
【0097】
【0098】
ここで、Qは、状態sでの行動aの評価を格納する関数又はテーブル(例えば、評価値テーブル64)であり、例えば、各状態sを行、各行動aを列とする行列形式で表すことができる。
【0099】
式(1)において、stは時点tでの状態を示し、atは状態stで取ることができる行動を示し、αは学習率(ただし、0<α<1)を示し、γは割引率(ただし、0<γ<1)を示す。学習率αは学習係数とも称され、学習の速度(ステップサイズ)を決定するパラメータである。すなわち、学習率αは評価値テーブル64の更新量を調整するパラメータである。割引率γは、評価値テーブル64を更新する際に、未来の状態の評価(報酬又はペナルティ)をどれだけ割り引いて考慮するかを決定するパラメータである。すなわち、ある状態での評価が、過去の状態での評価と繋がっている場合、どの程度報酬やペナルティを割り引くかを定めるパラメータである。
【0100】
式(1)において、rt+1 は行動の結果得られた報酬であり、報酬が得られない場合は0となり、ペナルティの場合は負値となる。Q学習では、式(1)の第2項、{rt+1 +γ・maxQ(st+1 ,at+1 )-Q(st ,at )}が0になるように、すなわち、評価値テーブル64の値Q(st ,at )が、報酬(rt+1 )と、次の状態st+1 で可能な行動の中で最大の価値(γ・maxQ(st+1 ,at+1 ))との和になるように評価値テーブル64を更新する。報酬の期待値と現在の行動評価との誤差を0に近づけるように評価値テーブル64が更新される。別言すれば、(γ・maxQ(st+1 ,at+1 ))の値は、現在のQ(st ,at )の値と、行動atを実行した後の状態st+1 で実行可能な行動の中で得られる最大の評価値に基づいて修正される。
【0101】
ある状態において行動を実行したときに、必ず報酬が得られるとは限らない。例えば、行動を何回か繰り返した後に報酬が得られる場合もある。式(2)は、報酬が得られたときのQ関数の更新式を表し、式(3)は報酬が得られなかったときのQ関数の更新式を表す。
【0102】
Q学習の初期の状態では、評価値テーブル64のQ値は、例えば、乱数で初期化することができる。Q学習の初期段階で一旦報酬の期待値に差が生じると、未だ経験したことがない状態に遷移することができず、目標に到達することができない事態が起こり得る。そこで、ある状態に対する行動を決定する場合に、確率εを用いることができる。具体的には、ある確率εで全ての行動の中からランダムに行動を選択して実行し、確率(1-ε)でQ値が最大の行動を選択して実行することができる。これにより、Q値の初期状態によらず適切に学習を進めることができる。
【0103】
次に、輸送・物流・運送サービス100、蓄電素子交換サービス200及び据置蓄電素子運用監視サービス300それぞれについて、強化学習及び蓄電素子の評価について説明する。まず、輸送・物流・運送サービス100について説明する。
【0104】
図8は、輸送・物流・運送サービス100のサービスエリアの一例を示す模式図である。サービスエリアとは、電動車両を用いて物流・運送サービスを行うエリアを意味する。
図8の例では、道路網を10個の地域(移動エリア)C1、…、C10で区分しているが、代替的に、n個の地域C1、C2、…、Cnであってもよい。
【0105】
図9は、地域毎の電動車両の配車状態の一例を示す模式図である。
図9に示すように、地域C1には、車両IDがV0001~V0100の電動車両が割り当てられている。すなわち、車両IDがV0001~V0100の電動車両は、地域C1内で物流・運送サービスに用いられる。同様に、地域C2には、車両IDがV0101~V0200の電動車両が割り当てられている。すなわち、車両IDがV0101~V0200の電動車両は、地域C2内で物流・運送サービスに用いられる。他の地域も同様である。すなわち、蓄電素子を搭載した電動車両を、道路網を複数の地域で区分したうちの一の地域内で移動するようにしてある。
【0106】
図10は、電動車両と電動車両に搭載されている蓄電素子との関係を示す模式図である。
図10に示すように、車両IDと蓄電素子を識別する蓄電素子IDとが対応付けられている。
図8のように、道路網を複数の地域で区分した場合、ある特定の地域では、坂道が多いとか、信号機が設置された交差点が多いとか、高速道路が多いとか、他の地域と環境が異なると考えられ、電動車両に搭載された蓄電素子の負荷状態も異なると考えられる。
図10に示すような関係を予め準備しておくことにより、各蓄電素子が、どの地域で使用されているかを把握することができる。
図9及び
図10に示す情報は記憶部53に記憶しておくことができる。
【0107】
図11は、評価値テーブル64の構成の一例を示す模式図である。評価値テーブル64は、蓄電素子の各状態と各行動とで構成される行列形式で表され、行列形式の各要素には、各状態でその行動を取ったときの評価値が格納されている。状態は、SOHA{SOH
1 、SOH
2 、SOH
3 、…、SOH
n }、SOHB{SOH
1 、SOH
2 、SOH
3 、…、SOH
n }、…、SOHm{SOH
1 、SOH
2 、SOH
3 、…、SOH
n }のように表すことができる。ここで、SOH
1 は、行動前に地域C1に配置されていた蓄電素子のSOHであり、SOH
2 は、行動前に地域C2に配置されていた蓄電素子のSOHであり、以下同様に、SOH
n は、行動前に地域Cnに配置されていた蓄電素子のSOHである。すなわち、状態は、各配置場所にある蓄電素子全てのSOHである。SOHAとSOHBにおいて、各場所に配置された蓄電素子のSOHは異なる。例えば、SOHA{SOH
1 、SOH
2 、SOH
3 、…、SOH
n }のSOH
1と、SOHB{SOH
1 、SOH
2 、SOH
3 、…、SOH
n }のSOH
1とは異なる。なお、SOHAとSOHBにおいて、{SOH
1 、SOH
2 、SOH
3 、…、SOH
n }の一部が同じSOHとなってもよい。
【0108】
行動は、配置a{C2、C1、C3、…、Cn}、配置b{C3、C2、C1、…、Cn}、…のように表すことができる。行動前の配置を{C1、C2、C3、…、Cn}とするので、配置aは、地域C1に配置されていた蓄電素子を地域C2に配置し、地域C2に配置されていた蓄電素子を地域C1に配置することを意味する。また、配置bは、地域C1に配置されていた蓄電素子を地域C3に配置し、地域C3に配置されていた蓄電素子を地域C1に配置することを意味する。行動は、負荷(配置)と各SOHの蓄電素子の組み合わせを変える(切替)ことを意味する。行動は、輸送・物流・運送サービス100では、地域の切替(配置パターンの変更)である。後述するように、行動は、蓄電素子交換サービス200では、保管状態の切替(配置パターンの変更)であり、据置蓄電素子運用監視サービス300では、異なる他の負荷への切替(配置パターンの変更)である。
【0109】
図12は、評価値テーブル64の評価値の一例を示す模式図である。
図12の例では、地域をC1、C2、C3、C4、C5とする。行動前の状態SOHAは、SOHA{100、90、100、98、99}であるとする。すなわち、行動前に地域C1、C2、C3、C4、C5にそれぞれ配置されていた蓄電素子のSOHは、100、90、100、98、99である。地域C1は負荷が軽く、地域C2は負荷が重い場合、地域の切替がないと、状態SOHAのように、地域C2の蓄電素子のSOH(90)が他の蓄電素子のSOHに比べて低い状態となる。
【0110】
状態SOHAにおいて、配置aの行動が選択されると、C1に配置されていた蓄電素子が地域C2に配置され、地域C2に配置されていた蓄電素子が地域C1に配置されるので、行動後の蓄電素子のSOHの組み合わせは、{90、100、100、98、99}となり、負荷が重い地域C2へSOHの高い蓄電素子が配置されるため、蓄電素子全体としてのSOHは高く維持される。
【0111】
状態SOHAにおいて、配置bの行動が選択されると、C1に配置されていた蓄電素子が地域C3に配置され、地域C3に配置されていた蓄電素子が地域C1に配置されるので、行動後の蓄電素子のSOHの組み合わせは、{100、90、100、98、99}となり、負荷が重い地域C2へSOHの低い蓄電素子が配置されたままとなるため、蓄電素子全体としてのSOHを高く維持できない。従って、この時点における蓄電素子全体のSOHに対する報酬のみを考慮した場合、評価値QAaは、QAbよりも高い値となる。
【0112】
Q学習では、(状態数s×行動数a)のサイズの評価値テーブル64(Qテーブルとも称する)を更新することができるが、代替的にQ関数をニューラルネットワークで表現する手法を採用することができる。
【0113】
図13は、本実施の形態のニューラルネットワークモデルの構成の一例を示す模式図である。ニューラルネットワークモデルは、処理部60を表したものである。
図13に示す例は、
図11に示す評価値テーブル64に対応している。ニューラルネットワークモデルは、入力層601、中間層602及び出力層603を有する。入力層601の入力ニューロンの数は、蓄電素子の状態の数(例えば、SOHA、SOHB、…、SOHmの場合、m個)とすることができ、入力層601の入力ニューロンには、蓄電素子の状態(例えば、SOHA、SOHB、…、SOHm)が入力される。
【0114】
出力層603の出力ニューロンの数は、行動の選択肢の数とすることができる。
図13では、出力ニューロンは、配置パターンaに変更したときのQ関数の値、配置パターンbに変更したときのQ関数の値、…、を出力する。
【0115】
ニューラルネットワークモデルを用いた機械学習(深層強化学習)は、次のようにすることができる。すなわち、ニューラルネットワークモデルの入力ニューロンに状態st を入力すると、出力ニューロンは、Q(st ,at )を出力する。ここで、Qは、状態sでの行動aの評価を格納する関数である。Q関数の更新は、前述の式(1)により行うことができる。
【0116】
式(1)において、rt+1 は行動の結果得られた報酬であり、報酬が得られない場合は0となり、ペナルティの場合は負値となる。Q学習では、式(1)の第2項、{rt+1 +γ・maxQ(st+1 ,at+1 )-Q(st ,at )}が0になるように、すなわち、Q関数のQ(st ,at )が、報酬(rt+1 )と、次の状態st+1 で可能な行動の中で最大の価値(γ・maxQ(st+1 ,at+1 ))との和になるようにニューラルネットワークモデルのパラメータを学習する。報酬の期待値と現在の行動評価との誤差を0に近づけるように、ニューラルネットワークモデルのパラメータが更新される。別言すれば、(γ・maxQ(st+1 ,at+1 ))の値は、現在のQ(st ,at )の値と、行動atを実行した後の状態st+1 で実行可能な行動の中で得られる最大の評価値に基づいて修正される。
【0117】
ある状態において行動を実行したときに、必ず報酬が得られるとは限らない。例えば、行動を何回か繰り返した後に報酬が得られる場合もある。式(2)は、式(1)において、発散の問題を回避して、報酬が得られたときのQ関数の更新式を表す。式(3)は、式(1)において、報酬が得られなかったときのQ関数の更新式を表す。
【0118】
図11に示すような評価値テーブル64を用いるか、
図13に示すようなニューラルネットワークモデルを用いるかは、適宜決定することができる。
【0119】
輸送・物流・運送サービス100での強化学習及び蓄電素子の評価では、行動は、電動車両が移動する地域から当該地域と異なる他の地域への切替を含む。行動には、地域を切り替えない場合も含む。
【0120】
制御部51は、出力部としての機能を備え、蓄電素子のSOHを含む状態の評価結果に基づいて、蓄電素子の負荷状態の変更を含む行動の指令を出力する。この場合、指令は、サーバ101へ出力してもよく、あるいは各電動車両へ出力してもよい。指令は、具体的には、蓄電素子を搭載した電動車両を現在の地域からどの地域で移動するかの切替指示を含む。これにより、蓄電素子のSOHを含む状態に対して、負荷状態の変更を含む行動が強化学習によって得られ、指令に基づいて蓄電素子の負荷状態の変更を行うことにより、蓄電素子の劣化を考慮の上で蓄電素子の負荷を最適に分散し、全体としてコストを低減することができる。
【0121】
図14は、電動車両が配車される地域の切替の一例を示す模式図である。
図14は、制御部51が出力する指令に基づいて、ある電動車両、すなわち当該電動車両に搭載された蓄電素子の負荷状態の変更を示す。
図14に示すように、切替情報は、蓄電素子(電動車両)毎に、切替日、切替前配置パターン、切替後配置パターン、配置パターン間距離、切替回数などの情報を含む。配置パターン間距離は、切替前配置パターンと切替後配置パターンとの間での移動距離であり、距離算出の地域内の基準点は、道路網を考慮して適宜定めることができる。例えば、交通量の最も多い交差点を基準としてもよい。
【0122】
この場合、報酬算出部62は、第1報酬算出部としての機能を有し、配置パターンの切替に伴う地域間の移動距離に基づく報酬を算出することができる。例えば、移動距離が長いほど、電動車両の配車を変更して地域の切替に伴うコストが高くなる傾向があると考えられるので、移動距離が長いほど報酬を小さく、あるいは負の報酬(ペナルティ)となるように算出することができる。これにより、複数の蓄電素子を含むシステム全体のコストの増大を抑制することができる。
【0123】
また、報酬算出部62は、第2報酬算出部としての機能を有し、切替の回数に基づく報酬を算出することができる。例えば、複数の蓄電素子を含むシステム全体として蓄電素子の平均SOHを高く維持する運用を優先する場合には、切替回数の増大による若干のコスト高を犠牲にして、切替の回数が多くても報酬が小さくならないように、あるいは負(ペナルティ)にならないように算出することができる。一方、複数の蓄電素子を含むシステム全体として切替コストを低減する運用を優先する場合には、切替回数の減少による蓄電素子の平均SOHの若干の低下を犠牲にして、切替の回数が少ないほど比較的大きな値の報酬となるように算出することができる。これにより、最適な運用を実現することができる。
【0124】
行動選択部63は、取得した状態s
t+1及び報酬r
t+1に基づいて、
図11に示すような評価値テーブル64を更新する。より具体的には、行動選択部63は、行動に対する報酬を最大化する方向へ評価値テーブル64を更新する。これにより、環境のある状態において最大の価値が期待される行動を学習できる。
【0125】
上述の処理を繰り返して、評価値テーブル64の更新を繰り返すことにより、報酬を最大化できる評価値テーブル64を学習することができる。
【0126】
処理部60は、更新した評価値テーブル64(すなわち学習済の評価値テーブル27)に基づいて、蓄電素子の負荷状態の変更を含む行動を実行して、蓄電素子のSOHを含む状態を評価することができる。ある地域に配車された電動車両をその地域内で移動させると、地域毎に蓄電素子に対する負荷の軽重が異なり、特定の地域内の電動車両の蓄電素子の劣化が早まる可能性がある。
【0127】
電動車両が移動する地域の切替を強化学習で学習することにより、地域の切替(配置パターンの変更)の結果として蓄電素子のSOHを評価することができる。複数の蓄電素子それぞれに対する評価を行うことによって、蓄電素子の劣化を考慮の上で蓄電素子の負荷を最適に分散し、全体としてコストを低減することができる。
【0128】
次に、蓄電素子交換サービス200について説明する。
【0129】
図15は、蓄電素子交換サービス200のサービス内容の一例を示す模式図である。交換サービス拠点には、蓄電素子の充電設備が設けられ、充電完了(例えば、SOC=100%、95%など)となった蓄電素子が保管されている。ユーザは、例えば、SOCが低下した蓄電素子(B0061)が搭載された電動車両(V0030)を交換サービス拠点に持って来ると、SOCが低下した蓄電素子(B0061)を満充電された蓄電素子(B0700)と交換するサービスの提供を受けることができる。電動車両(V0030)から取り外された蓄電素子(B0061)は、充電設備によって満充電となるまで充電され、保管される。図示していないが、蓄電素子交換サービス200には、宅配便を利用して蓄電素子の交換を行うサービスも含めることができる。
【0130】
蓄電素子交換サービス200においても、
図11に例示した評価値テーブル64を用いることができる。蓄電素子交換サービス200の場合には、地域{C1、C2、C3、…、Cn}に代えて、{C1、C2、…、C(n-4)}を搭載状態とし、{C(n-3)、C(n-2)、C(n-1)、Cn}を保管状態とすることにより、配置a、配置b、…により、搭載状態と保管状態との切替を表現することができる。他は
図11の例と同様であるので、説明は省略する。
【0131】
評価値テーブル64に代えて、
図13で例示したニューラルネットワークモデルを用いてQ関数を更新してもよい。この場合、出力ニューロンは、搭載状態に切り替えたときのQ関数の値、保管状態に切り替えたときのQ関数の値を出力する。
【0132】
蓄電素子交換サービス200での強化学習及び蓄電素子の評価では、行動は、蓄電素子が電動車両に搭載された搭載状態と電動車両から取り外された保管状態との切替を含む。
【0133】
制御部51は、蓄電素子のSOHを含む状態の評価結果に基づいて、蓄電素子の負荷状態の変更を含む行動の指令を出力することができる。
【0134】
図16は、蓄電素子の交換の一例を示す模式図である。
図16は、制御部51が出力する指令に基づいて、電動車両に搭載された蓄電素子の負荷状態の変更を示す。
図16に示すように、交換情報、すなわち、搭載状態と保管状態との間の切替情報は、蓄電素子(電動車両)毎に、切替日、状態、期間、切替回数などの情報を含む。期間は、状態が「搭載」である場合、搭載状態での期間であり、状態が「保管」である場合、保管状態での期間である。
【0135】
報酬算出部62は、切替の回数に基づく報酬を算出することができる。例えば、複数の蓄電素子を含むシステム全体として蓄電素子の平均SOHを高く維持する運用を優先する場合には、切替回数の増大による若干のコスト高を犠牲にして、切替の回数が多くても報酬が小さくならないように、あるいは負(ペナルティ)にならないように算出することができる。一方、複数の蓄電素子を含むシステム全体として切替コストを低減する運用を優先する場合には、切替回数の減少による蓄電素子の平均SOHの若干の低下を犠牲にして、切替の回数が少ないほど比較的大きな値の報酬となるように算出することができる。これにより、最適な運用を実現することができる。
【0136】
行動選択部63は、取得した状態st+1及び報酬rt+1に基づいて、評価値テーブル64を更新する。より具体的には、行動選択部63は、行動に対する報酬を最大化する方向へ評価値テーブル64を更新する。これにより、環境のある状態において最大の価値が期待される行動を学習できる。
【0137】
上述の処理を繰り返して、評価値テーブル64の更新を繰り返すことにより、報酬を最大化できる評価値テーブル64を学習することができる。
【0138】
処理部60は、更新した評価値テーブル64(すなわち学習済の評価値テーブル27)に基づいて、蓄電素子の負荷状態の変更を含む行動を実行して、蓄電素子のSOHを含む状態を評価することができる。搭載状態と保管状態とでは、蓄電素子の負荷状態の軽重が異なる。
【0139】
搭載状態と保管状態との切替を強化学習で学習することにより、搭載状態と保管状態との切替の結果として蓄電素子のSOHを評価することができる。複数の蓄電素子それぞれに対する評価を行うことによって、蓄電素子の劣化を考慮の上で蓄電素子の負荷を最適に分散し、全体としてコストを低減することができる。
【0140】
次に、据置蓄電素子運用監視サービス300について説明する。
【0141】
図17は、据置蓄電素子運用監視サービス300での蓄電素子の負荷状態の変更の一例を示す模式図である。
図17に示すように、複数の蓄電素子(B040、…、B044)が、切替回路を介して、複数の負荷(L1、…、L5)に接続されている。例えば、蓄電素子(B040)は負荷(L1)に接続され、蓄電素子(B041)は負荷(L2)に接続され、蓄電素子(B042)は負荷(L3)に接続され、蓄電素子(B043)は負荷(L4)に接続され、蓄電素子(B044)は負荷(L5)に接続されているとする。すなわち、蓄電素子は、複数の負荷のうちの一の負荷に接続してある。負荷(L1、…、L5)は、例えば、電気設備などである。
【0142】
電気設備(負荷)は、動作状態や環境状態によって必要とする電力が変動し、蓄電素子に要求される電力も変動するので、蓄電素子に接続される個々の負荷に応じて、蓄電素子の負荷状態の軽重が異なる。複数の蓄電素子それぞれに固定的に負荷を接続すると、負荷に応じて、蓄電素子に対する負荷の軽重が異なり、特定の蓄電素子の劣化が早まる可能性がある。
【0143】
据置蓄電素子運用監視サービス300においても、
図11に例示した評価値テーブル64を用いることができる。据置蓄電素子運用監視サービス300の場合には、地域{C1、C2、C3、…、Cn}に代えて、{C1、C2、C3、…、Cn}をそれぞれ負荷{L1、L2、L3、…、Ln}とすればよい。配置a、配置b、…により、負荷の切替を表現することができる。各状態SOHA、SOHB、…、において、SOH
1 は、行動前に負荷L1に接続されていた蓄電素子のSOHであり、SOH
2 は、行動前に負荷L2に接続されていた蓄電素子のSOHであり、以下同様に、SOH
n は、行動前に負荷Lnに接続されていた蓄電素子のSOHである。他は
図11の例と同様であるので、説明は省略する。
【0144】
評価値テーブル64に代えて、
図13で例示したニューラルネットワークモデルを用いてQ関数を更新してもよい。この場合、出力ニューロンは、負荷L1に接続したときのQ関数の値、負荷L2に接続したときのQ関数の値、…、負荷Lnに接続したときのQ関数の値を出力する。
【0145】
据置蓄電素子運用監視サービス300での強化学習及び蓄電素子の評価では、行動は、蓄電素子に接続された負荷から当該負荷と異なる他の負荷への切替を含む。
【0146】
図18は、負荷の切替の一例を示す模式図である。
図18は、制御部51が出力する指令に基づく蓄電素子の負荷状態の変更を示す。
図18に示すように、切替情報は、蓄電素子毎に、切替日、切替前負荷、切替後負荷、使用期間、切替回数などの情報を含む。使用期間は、蓄電素子を切替前の負荷に接続した状態で使用した期間である。
【0147】
報酬算出部62は、切替の回数に基づく報酬を算出することができる。例えば、複数の蓄電素子を含むシステム全体として蓄電素子の平均SOHを高く維持する運用を優先する場合には、切替回数の増大による若干のコスト高を犠牲にして、切替の回数が多くても報酬が小さくならないように、あるいは負(ペナルティ)にならないように算出することができる。一方、複数の蓄電素子を含むシステム全体として切替コストを低減する運用を優先する場合には、切替回数の減少による蓄電素子の平均SOHの若干の低下を犠牲にして、切替の回数が少ないほど比較的大きな値の報酬となるように算出することができる。これにより、最適な運用を実現することができる。
【0148】
行動選択部63は、取得した状態st+1及び報酬rt+1に基づいて、評価値テーブル64を更新する。より具体的には、行動選択部63は、行動に対する報酬を最大化する方向へ評価値テーブル64を更新する。これにより、環境のある状態において最大の価値が期待される行動を学習できる。
【0149】
上述の処理を繰り返して、評価値テーブル64の更新を繰り返すことにより、報酬を最大化できる評価値テーブル64を学習することができる。
【0150】
処理部60は、更新した評価値テーブル64(すなわち学習済の評価値テーブル27)に基づいて、蓄電素子の負荷状態の変更を含む行動を実行して、蓄電素子のSOHを含む状態を評価することができる。負荷の切替を強化学習で学習することにより、負荷の切替の結果として蓄電素子のSOHを評価することができる。複数の蓄電素子それぞれに対する評価を行うことによって、蓄電素子の劣化を考慮の上で蓄電素子の負荷を最適に分散し、全体としてコストを低減することができる。
【0151】
輸送・物流・運送サービス100、蓄電素子交換サービス200及び据置蓄電素子運用監視サービス300のいずれについても、報酬算出部62は、第3報酬算出部としての機能を有し、蓄電素子のSOHの低下の度合いに基づいて報酬を算出することができる。
【0152】
図19は、強化学習の状態遷移の様子の第1例を示す模式図である。
図19において、縦軸はSOHを示し、横軸は時間を示す。SOHは、蓄電素子全てのSOHを表す。
図19では、便宜上、時点tn、t(n+1)の2個の時点を図示している。符号A、Bは学習過程の一例を示す。SOHの低下の度合いは、例えば、過去のSOH(
図19の例では時点tnでのSOH)に対して、現在のSOH(
図19の例では時点t(n+1)でのSOH)がどの程度減少したか減少率とすることができる。例えば、符号Bで示すように、SOHの低下の度合いが閾値Th(t)より大きい場合(減少率が大きい場合)、報酬を負値(ペナルティ)とすることができる。また、符号Aで示すように、SOHの低下の度合いが閾値Th(t)より小さい場合(減少率が小さい場合)、報酬を正値とすることができる。これにより、蓄電素子のSOHの低下を抑制しつつ蓄電素子の最適な運用を実現することができる。
【0153】
図20は、強化学習の状態遷移の様子の第2例を示す模式図である。
図20では、便宜上、時点t0、t1、t2、…、t7の8個の時点を図示している。SOHは、蓄電素子全てのSOHを表す。実際の強化学習では、時点の数には代替的に
図20の例以外のものも含まれる。符号S1、S2、S3は学習過程の一例を示し、符号S1の学習は、時点t7において、SOHがEOLに達していない場合(時点毎に行動が選択されて実行された結果の状態)を示し、符号S2の学習は、時点t6ではSOHがEOLに達していなかったが時点t7ではEOLを下回った場合を示し、符号S3の学習は、時点t5でSOHがEOLを下回り、一旦学習が終了した場合を示す。強化学習により、符号S2及びS3で学習した行動は採用されず、符号S1で学習した行動を運用方法の一例として採用することになる。
【0154】
図21は、運用開始前からSOH推定部61を用いる場合の、強化学習によって得られた運用方法によるSOHの推移の一例を示す模式図である。
図21は、運用開始時からSOH推定部61を用いた場合を示す。SOHは、蓄電素子全てのSOHを表す。
図21の例では、期待寿命は10年としている。図において、「切替数多(SOH優先)」で示すグラフは、複数の蓄電素子を含むシステム全体としての蓄電素子の平均SOHが高く維持できるように運用する場合を示す。また、「切替数少(コスト優先)」で示すグラフは、複数の蓄電素子それぞれの負荷状態の切替(変更)を少なくして切替コストを低減できるように運用する場合を示す。運用開始時からSOH推定部61を用いるため、運用前に最適な運用方法を推定することができる。また、負荷や環境の切替に大きなコストが生じる場合、当該コストを報酬(ペナルティ)として強化学習することにより、切替に要するコストを含めた最適運用方法を求めることができる。更に、最適運用における各システムの評価(例えば、10年後のSOHなど)を比較することにより、運用当初に、最適なシステム設計を選定することができる。ここで、システム設計とは、例えば、システム全体の中で用いられる蓄電素子の種類、数、定格などの設計を含み、種々のパラメータなども含む。
【0155】
図22は、運用初期段階のデータを用いて寿命予測シミュレータを生成する場合の、強化学習によって得られた運用方法によるSOHの推移の一例を示す模式図である。SOHは、蓄電素子全てのSOHを表す。
図22に示す、寿命予測シミュレータ生成期間において、制御部51は、蓄電素子の負荷電力情報及びSOHを取得(収集)する。
【0156】
制御部51は、生成部としての機能を有し、取得した負荷電力情報及びSOHに基づいて、寿命予測シミュレータ(SOHシミュレータともいう)を生成する。例えば、複数の蓄電素子を含むシステムの運用開始後に、取得した負荷電力情報及び蓄電素子のSOHを収集し、収集した負荷電力情報に対して収集した蓄電素子のSOHを含む状態を推定するようなSOHシミュレータを生成する。具体的には、SOHを推定するためのパラメータを設定する。例えば、蓄電素子の所定期間後の劣化値Qdegは、通電劣化値Qcurと非通電劣化値Qcndとの和で表すことができ、経過時間をtで表すと、非通電劣化値Qcndは、例えば、Qcnd=K1×√(t)で求めることができる。通電劣化値Qcurは、例えば、Qcur=K2×(SOCの変動量)で求めることができる。ここで、設定するパラメータは、係数K1、係数K2であり、SOCの関数で表される。SOHシミュレータの生成は、蓄電素子評価サーバ50とは別の開発環境で生成してもよい。
【0157】
これにより、システムの運用前に蓄電素子のSOHを推定するSOHシミュレータを開発する手間を省くことができる。また、システムの運用開始後の負荷電力情報及び蓄電素子のSOHを含む状態を収集してSOHシミュレータを生成するので、運用環境に合わせた高精度のSOHシミュレータの開発が期待できる。
【0158】
また、SOHシミュレータを生成した後は、将来の所定期間経過後のSOHを推定することができる。また、推定したSOHに基づいて、さらに所定期間経過後の劣化値を算出すれば、当該所定期間経過後のSOHをさらに推定することができる。SOHの推定を所定期間経過毎に繰り返すことにより、蓄電素子の期待寿命(例えば、10年、15年など)時に蓄電素子が寿命に達しているのか否か(SOHがEOL以下であるか否か)も推定することができる。
【0159】
図23は、寿命予測シミュレータを用いない場合の、強化学習によって得られた運用方法によるSOHの推移の一例を示す模式図である。SOHは、蓄電素子全てのSOHを表す。寿命予測シミュレータ(SOHシミュレータ)を開発する手間を省くことが可能となる。SOHシミュレータを用いないため、SOHシミュレータの精度に依存せずに蓄電素子のSOHを評価することができる。一方で、運用開始前に最適な運用方法を探索することができないので、運用開始前に最適なシステム設計を行うことができない。運用初期段階では、強化学習のみによる運用探索となるため、場合によっては、蓄電素子のSOHの低下の度合いが大きくなるような、望ましくない運用方法を選択する可能性がある。しかし、運用方法についてのユーザの選択肢を広げることができる。
【0160】
次に、本実施の形態の強化学習の処理について説明する。
【0161】
図24は、本実施の形態の強化学習の処理手順の一例を示すフローチャートである。処理部60は、評価値テーブル64の評価値(Q値)を初期値に設定する(S11)。初期値の設定は、例えば、乱数を用いることができる。処理部60は、状態s
t を取得し(S12)、状態s
t で取ることのできる行動a
t を選択して実行する(S13)。処理部60は、行動a
t の結果得られる状態s
t+1 を取得し(S14)、報酬r
t+1 を取得する(S15)。なお、報酬は0(報酬なし)の場合もある。
【0162】
処理部60は、前述の式(2)又は式(3)を用いて、評価値テーブル64の評価値を更新し(S16)、蓄電素子の運用結果が得られたか否かを判定する(S17)。蓄電素子の運用結果が得られていない場合(S17でNO)、処理部60は、状態st+1 を状態st とし(S18)、ステップS13以降の処理を続ける。蓄電素子の運用結果が得られた場合(S17でYES)、処理部60は、蓄電素子の評価結果を出力し(S19)、処理を終了する。
【0163】
図24に示す処理は、蓄電素子のシステム設計パラメータを変更する都度、変更されたシステム設計パラメータを用いて繰り返し実施することができる。すなわち、処理部60は、蓄電素子のシステム設計パラメータを取得することができる。蓄電素子のシステム設計パラメータは、システム全体の中で用いられる蓄電素子の種類、数、定格などを含み、例えば、蓄電モジュールの構成又は数、バンクの構成又は数などのシステム設計に必要な種々のパラメータを含む。蓄電素子の設計パラメータは、システムの実際の運用に先立って、予め設定される。設計パラメータに応じて蓄電素子のSOHを含む状態を評価することにより、例えば、どのような設計パラメータを採用すれば、蓄電素子の劣化を考慮した、システム全体の最適な運用方法が得られるかを把握することができる。
【0164】
処理部60は、例えば、CPU(例えば、複数のプロセッサコアを実装したマルチ・プロセッサなど)、GPU(Graphics Processing Units)、DSP(Digital Signal Processors)、FPGA(Field-Programmable Gate Arrays)などのハードウェアを組み合わせることによって構成することができる。処理部60は、仮想マシン又は量子コンピュータなどで構成してもよい。エージェントは、コンピュータ上に存在する仮想的なマシンであり、エージェントの状態はパラメータ等によって変更される。
【0165】
本実施の形態の制御部51及び処理部60は、CPU(プロセッサ)、GPU、RAM(メモリ)などを備えた汎用コンピュータを用いて実現することもできる。例えば、
図2に示すような記録媒体MR(例えば、CD-ROM等の光学可読ディスク記憶媒体)に記録されたコンピュータプログラムやデータ(例えば、学習済のQ関数又はQ値など)を記録媒体読取部54(例えば、光学ディスクドライブ)で読み取ってRAMに格納することができる。ハードディスク(図示しない)に格納しコンピュータプログラム実行時にRAMに格納してもよい。
図24に示すような、各処理の手順を定めたコンピュータプログラムをコンピュータに備えられたRAM(メモリ)にロードし、コンピュータプログラムをCPU(プロセッサ)で実行することにより、コンピュータ上で制御部51及び処理部60を実現することができる。本実施の形態による強化学習アルゴリズムを定めたコンピュータプログラム及び強化学習によって得られたQ関数又はQ値は記録媒体に記録され流通されてもよく、あるいは、通信ネットワーク1で所要の装置に配信してインストールすることもできる。
【0166】
上述の実施の形態では、強化学習の一例として、Q学習について説明したが、代替的に、別のTD学習(Temporal Difference Learning)などの他の強化学習アルゴリズムを用いてもよい。例えば、Q学習のように、行動の価値を更新するのではなく状態の価値の更新を行う学習方法を用いてもよい。この方法では、現在の状態Stの価値V(st )を、V(st )<-V(st )+α・δtという式で更新する。ここで、δt=rt+1 +γ・V(st+1 )-V(st )であり、αは学習率、δtはTD誤差である。
【0167】
上述の実施の形態では、輸送・物流・運送サービス100、蓄電素子交換サービス200及び据置蓄電素子運用監視サービス300で使用される複数の蓄電素子を含むシステムの最適運用方法を探索する構成であったが、本実施の形態は、エネルギー管理システム(EMS:Energy Management System)にも提供することができる。EMSでは、電力制御の目標値を達成するために、EMS内の複数の蓄電素子の充放電アルゴリズムが必要となる。EMSには、主な範囲として、町や地域を管理するCEMS(Community Energy Management System)、ビル全体のBEMS(Building Energy Management System)、工場のFEMS(Factory Energy Management System)、家庭のHEMS(Home Energy Management System)等がある。本実施の形態を、これらの各種EMSに適用することにより、EMSで使用される蓄電素子のSOHを含む状態に対して、負荷状態の変更(例えば、充放電アルゴリズム)を含む行動が強化学習によって得られ、負荷状態の変更を含む行動の結果として蓄電素子のSOHを評価することができる。複数の蓄電素子それぞれに対する評価を行うことによって、蓄電素子の劣化を考慮の上で蓄電素子の負荷を最適に分散し、各EMS全体としてコストを低減することができる。
【0168】
実施の形態は、すべての点で例示であって制限的なものではない。本発明の範囲は、請求の範囲によって示され、請求の範囲と均等の意味及び範囲内でのすべての変更が含まれる。
【符号の説明】
【0169】
50 蓄電素子評価サーバ
51 制御部
52 通信部
53 記憶部
54 記録媒体読取部
60 処理部
61 SOH推定部
62 報酬算出部
63 行動選択部
64 評価値テーブル