(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-21
(45)【発行日】2024-01-04
(54)【発明の名称】学習システム、学習方法及び学習プログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20231222BHJP
【FI】
G06N20/00
(21)【出願番号】P 2020019844
(22)【出願日】2020-02-07
【審査請求日】2023-01-17
(73)【特許権者】
【識別番号】000006208
【氏名又は名称】三菱重工業株式会社
(73)【特許権者】
【識別番号】304021277
【氏名又は名称】国立大学法人 名古屋工業大学
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】松波 夏樹
(72)【発明者】
【氏名】伊藤 孝行
(72)【発明者】
【氏名】丹田 尋
【審査官】千葉 久博
(56)【参考文献】
【文献】特開2019-28899(JP,A)
【文献】米国特許出願公開第2014/0101079(US,A1)
【文献】保知良暢、外3名,外部評価機構を導入したマルチエージェント強化学習における過去の事象に基づく報酬配分,電子情報通信学会論文誌(J87-D-I),日本,社団法人電子情報通信学会,2004年12月01日,第12号,pp.1119-1127
【文献】柴田克成、外2名,強化学習による個性・社会性の発現・分化モデル,計測自動制御学会論文集,日本,社団法人計測自動制御学会,2003年05月31日,第39巻 第5号,pp.494-502
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
複数のエージェント間における協調動作を行うマルチエージェントシステムにおいて、複数の前記エージェントの協調動作を強化学習させるための学習システムであって、
複数の前記エージェントと、
複数の前記エージェントに対してリワードを付与するリワード付与部と、を備え、
複数の前記エージェントのそれぞれは、
前記エージェントのステートを取得するステート取得部と、
前記リワード付与部から前記リワードを取得するリワード取得部と、
前記ステートと前記リワードとに基づいて、アクションを選択するための意思決定モデルを用いて、前記アクションを選択する処理部と、
前記処理部によって選択された前記アクションを実行する動作部と、を有し、
前記リワード付与部は、
前記リワードを与える対象となる対象エージェントがいるときの他の前記エージェントの協調動作に関する評価値を第1評価値として算出する第1のステップと、
前記対象エージェントがいないときの他の前記エージェントの協調動作に関する評価値を第2評価値として算出する第2のステップと、
前記第1評価値と前記第2評価値との差分を、前記対象エージェントの迷惑料として算出し、前記迷惑料に基づいて、前記対象エージェントに付与する前記リワードを算出する第3のステップと、を実行し、
前記対象エージェントは、前記リワード付与部から付与される前記リワードに基づいて、前記意思決定モデルの学習を実行する学習システム。
【請求項2】
前記第1評価値は、
前記対象エージェントがいるときの他の前記エージェントのアクション実行後における協調動作に関する評価値の合算値から、
前記対象エージェントがいるときの他の前記エージェントのアクション実行前における協調動作に関する評価値の合算値を引いた差分である増加量となっており、
前記第2評価値は、
前記対象エージェントがいないときの他の前記エージェントのアクション実行後における協調動作に関する評価値の合算値から、
前記対象エージェントがいないときの他の前記エージェントのアクション実行前における協調動作に関する評価値の合算値を引いた差分である増加量となっている請求項1に記載の学習システム。
【請求項3】
前記リワード付与部は、
前記複数のエージェントに協調動作の実行の可否に係る重み付け投票を実行させる第4のステップと、
前記対象エージェントがいるときの投票結果に対して、前記対象エージェントがいないときの投票結果が覆る場合、前記対象エージェントに対して付与するリワードから、前記対象エージェントがいないときの投票結果に基づくリワード分だけ減額する第5のステップと、をさらに実行する請求項1または2に記載の学習システム。
【請求項4】
複数のエージェント間における協調動作を行うマルチエージェントシステムにおいて、複数の前記エージェントの協調動作を強化学習させるための学習システムであって、
複数の前記エージェントと、
複数の前記エージェントに対してリワードを付与するリワード付与部と、を備え、
複数の前記エージェントのそれぞれは、
前記エージェントのステートを取得するステート取得部と、
前記リワード付与部から前記リワードを取得するリワード取得部と、
前記ステートと前記リワードとに基づいて、アクションを選択するための意思決定モデルを用いて、前記アクションを選択する処理部と、
前記処理部によって選択された前記アクションを実行する動作部と、を有し、
前記リワード付与部は、
前記複数のエージェントに協調動作の実行の可否に係る重み付け投票を実行させる第4のステップと、
前記リワードを与える対象となる対象エージェントがいるときの投票結果に対して、前記対象エージェントがいないときの投票結果が覆る場合、前記対象エージェントに対して付与する前記リワードから、前記対象エージェントがいないときの投票結果に基づく前記リワード分だけ減額する第5のステップと、を実行し、
前記対象エージェントは、前記リワード付与部から付与される前記リワードに基づいて、前記意思決定モデルの学習を実行する学習システム。
【請求項5】
前記エージェントは、移動体である請求項1から4のいずれか1項に記載の学習システム。
【請求項6】
複数のエージェント間における協調動作を行うマルチエージェントシステムにおいて、複数の前記エージェントの協調動作を強化学習させるための学習方法であって、
複数の前記エージェントのそれぞれは、
前記エージェントのステートを取得するステート取得部と、
リワードを付与するリワード付与部から前記リワードを取得するリワード取得部と、
前記ステートと前記リワードとに基づいて、アクションを選択するための意思決定モデルを用いて、前記アクションを選択する処理部と、
前記処理部によって選択された前記アクションを実行する動作部と、を有し、
前記リワードを与える対象となる対象エージェントがいるときの他の前記エージェントの協調動作に関する評価値を第1評価値として算出する第1のステップと、
前記対象エージェントがいないときの他の前記エージェントの協調動作に関する評価値を第2評価値として算出する第2のステップと、
前記第1評価値と前記第2評価値との差分を、前記対象エージェントの迷惑料として算出し、前記迷惑料に基づいて、前記対象エージェントに付与する前記リワードを算出する第3のステップと、
前記リワード付与部から付与される前記リワードに基づいて、前記対象エージェントの前記意思決定モデルの学習を実行するステップと、を備える学習方法。
【請求項7】
複数のエージェント間における協調動作を行うマルチエージェントシステムにおいて、複数の前記エージェントの協調動作を強化学習させるための学習方法であって、
複数の前記エージェントのそれぞれは、
前記エージェントのステートを取得するステート取得部と、
リワードを付与するリワード付与部から前記リワードを取得するリワード取得部と、
前記ステートと前記リワードとに基づいて、アクションを選択するための意思決定モデルを用いて、前記アクションを選択する処理部と、
前記処理部によって選択された前記アクションを実行する動作部と、を有し、
前記複数のエージェントに協調動作の実行の可否に係る重み付け投票を実行させる第4のステップと、
前記リワードを与える対象となる対象エージェントがいるときの投票結果に対して、前記対象エージェントがいないときの投票結果が覆る場合、前記対象エージェントに対して付与する前記リワードから、前記対象エージェントがいないときの投票結果に基づく前記リワード分だけ減額する第5のステップと、
前記リワード付与部から付与される前記リワードに基づいて、前記対象エージェントの前記意思決定モデルの学習を実行するステップと、を備える学習方法。
【請求項8】
複数のエージェント間における協調動作を行うマルチエージェントシステムにおいて、複数の前記エージェントの協調動作を強化学習させるための学習プログラムであって、
複数の前記エージェントのそれぞれは、
前記エージェントのステートを取得するステート取得部と、
リワードを付与するリワード付与部から前記リワードを取得するリワード取得部と、
前記ステートと前記リワードとに基づいて、アクションを選択するための意思決定モデルを用いて、前記アクションを選択する処理部と、
前記処理部によって選択された前記アクションを実行する動作部と、を有し、
複数の前記エージェントに対してリワードを付与するリワード付与部に、
前記リワードを与える対象となる対象エージェントがいるときの他の前記エージェントの協調動作に関する評価値を第1評価値として算出する第1のステップと、
前記対象エージェントがいないときの他の前記エージェントの協調動作に関する評価値を第2評価値として算出する第2のステップと、
前記第1評価値と前記第2評価値との差分を、前記対象エージェントの迷惑料として算出し、前記迷惑料に基づいて、前記対象エージェントに付与する前記リワードを算出する第3のステップと、を実行させ、
前記対象エージェントに、
前記リワード付与部から付与される前記リワードに基づいて、前記対象エージェントの前記意思決定モデルの学習を実行させる学習プログラム。
【請求項9】
複数のエージェント間における協調動作を行うマルチエージェントシステムにおいて、複数の前記エージェントの協調動作を強化学習させるための学習プログラムであって、
複数の前記エージェントのそれぞれは、
前記エージェントのステートを取得するステート取得部と、
リワードを与える対象となるリワード付与部から前記リワードを取得するリワード取得部と、
前記ステートと前記リワードとに基づいて、アクションを選択するための意思決定モデルを用いて、前記アクションを選択する処理部と、
前記処理部によって選択された前記アクションを実行する動作部と、を有し、
複数の前記エージェントに対してリワードを付与するリワード付与部に、
前記複数のエージェントに協調動作の実行の可否に係る重み付け投票を実行させる第4のステップと、
前記リワードを与える対象となる対象エージェントがいるときの投票結果に対して、前記対象エージェントがいないときの投票結果が覆る場合、前記対象エージェントに対して付与する前記リワードから、前記対象エージェントがいないときの投票結果に基づく前記リワード分だけ減額する第5のステップと、を実行させ、
前記対象エージェントに、
前記リワード付与部から付与される前記リワードに基づいて、前記対象エージェントの前記意思決定モデルの学習を実行させる学習プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、マルチエージェントの学習システム、学習方法及び学習プログラムに関するものである。
【背景技術】
【0002】
従来、マルチエージェントの強化学習において、各エージェントに対して適切に報酬を分配するための装置が知られている(例えば、特許文献1参照)。この装置は、複数の情報供給エージェントのそれぞれから受け取る情報を利用して、対象エージェントが得た報酬に基づいて、複数の情報供給エージェントのそれぞれが提供する情報によって得られる仮想収益を推定し、推定した仮想収益に基づいて、複数の情報供給エージェントに対する情報の価格を判定している。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、マルチエージェントシステムでは、複数のエージェントによる協調動作が行われる。マルチエージェントの強化学習では、各エージェントが、自己の報酬を最大化するように学習を実行する。このため、各エージェントに対する報酬の分配によっては、各エージェントの自己の報酬を最大化するための動作を行うこととなってしまい、協調動作に関する学習が進みにくいことがある。
【0005】
そこで、本開示は、複数のエージェントによる協調動作を適切に学習可能な報酬を付与することができる学習システム、学習方法及び学習プログラムを提供することを課題とする。
【課題を解決するための手段】
【0006】
本開示の学習システムは、複数のエージェント間における協調動作を行うマルチエージェントシステムにおいて、複数の前記エージェントの協調動作を強化学習させるための学習システムであって、複数の前記エージェントと、複数の前記エージェントに対してリワードを付与するリワード付与部と、を備え、複数の前記エージェントのそれぞれは、前記エージェントのステートを取得するステート取得部と、前記リワード付与部から前記リワードを取得するリワード取得部と、前記ステートと前記リワードとに基づいて、アクションを選択するための意思決定モデルを用いて、前記アクションを選択する処理部と、前記処理部によって選択された前記アクションを実行する動作部と、を有し、前記リワード付与部は、前記リワードを与える対象となる対象エージェントがいるときの他の前記エージェントの協調動作に関する評価値を第1評価値として算出する第1のステップと、前記対象エージェントがいないときの他の前記エージェントの協調動作に関する評価値を第2評価値として算出する第2のステップと、前記第1評価値と前記第2評価値との差分を、前記対象エージェントの迷惑料として算出し、前記迷惑料に基づいて、前記対象エージェントに付与する前記リワードを算出する第3のステップと、を実行し、前記対象エージェントは、前記リワード付与部から付与される前記リワードに基づいて、前記意思決定モデルの学習を実行する。
【0007】
本開示の他の学習システムは、複数のエージェント間における協調動作を行うマルチエージェントシステムにおいて、複数の前記エージェントの協調動作を強化学習させるための学習システムであって、複数の前記エージェントと、複数の前記エージェントに対してリワードを付与するリワード付与部と、を備え、複数の前記エージェントのそれぞれは、前記エージェントのステートを取得するステート取得部と、前記リワード付与部から前記リワードを取得するリワード取得部と、前記ステートと前記リワードとに基づいて、アクションを選択するための意思決定モデルを用いて、前記アクションを選択する処理部と、前記処理部によって選択された前記アクションを実行する動作部と、を有し、前記リワード付与部は、前記複数のエージェントに協調動作の実行の可否に係る重み付け投票を実行させる第4のステップと、前記リワードを与える対象となる対象エージェントがいるときの投票結果に対して、前記対象エージェントがいないときの投票結果が覆る場合、前記対象エージェントに対して付与する前記リワードから、前記対象エージェントがいないときの投票結果に基づく前記リワード分だけ減額する第5のステップと、を実行し、前記対象エージェントは、前記リワード付与部から付与される前記リワードに基づいて、前記意思決定モデルの学習を実行する。
【0008】
本開示の学習方法は、複数のエージェント間における協調動作を行うマルチエージェントシステムにおいて、複数の前記エージェントの協調動作を強化学習させるための学習方法であって、複数の前記エージェントのそれぞれは、前記エージェントのステートを取得するステート取得部と、前記リワード付与部から前記リワードを取得するリワード取得部と、前記ステートと前記リワードとに基づいて、アクションを選択するための意思決定モデルを用いて、前記アクションを選択する処理部と、前記処理部によって選択された前記アクションを実行する動作部と、を有し、前記リワードを与える対象となる対象エージェントがいるときの他の前記エージェントの協調動作に関する評価値を第1評価値として算出する第1のステップと、前記対象エージェントがいないときの他の前記エージェントの協調動作に関する評価値を第2評価値として算出する第2のステップと、前記第1評価値と前記第2評価値との差分を、前記対象エージェントの迷惑料として算出し、前記迷惑料に基づいて、前記対象エージェントに付与する前記リワードを算出する第3のステップと、前記リワード付与部から付与される前記リワードに基づいて、前記対象エージェントの前記意思決定モデルの学習を実行するステップと、を備える。
【0009】
本開示の他の学習方法は、複数のエージェント間における協調動作を行うマルチエージェントシステムにおいて、複数の前記エージェントの協調動作を強化学習させるための学習方法であって、複数の前記エージェントのそれぞれは、前記エージェントのステートを取得するステート取得部と、リワードを付与するリワード付与部から前記リワードを取得するリワード取得部と、前記ステートと前記リワードとに基づいて、アクションを選択するための意思決定モデルを用いて、前記アクションを選択する処理部と、前記処理部によって選択された前記アクションを実行する動作部と、を有し、前記複数のエージェントに協調動作の実行の可否に係る重み付け投票を実行させる第4のステップと、前記リワードを与える対象となる対象エージェントがいるときの投票結果に対して、前記対象エージェントがいないときの投票結果が覆る場合、前記対象エージェントに対して付与する前記リワードから、前記対象エージェントがいないときの投票結果に基づく前記リワード分だけ減額する第5のステップと、前記リワード付与部から付与される前記リワードに基づいて、前記対象エージェントの前記意思決定モデルの学習を実行するステップと、を備える。
【0010】
本開示の学習プログラムは、複数のエージェント間における協調動作を行うマルチエージェントシステムにおいて、複数の前記エージェントの協調動作を強化学習させるための学習プログラムであって、複数の前記エージェントのそれぞれは、前記エージェントのステートを取得するステート取得部と、リワードを付与するリワード付与部から前記リワードを取得するリワード取得部と、前記ステートと前記リワードとに基づいて、アクションを選択するための意思決定モデルを用いて、前記アクションを選択する処理部と、前記処理部によって選択された前記アクションを実行する動作部と、を有し、複数の前記エージェントに対してリワードを付与するリワード付与部に、前記リワードを与える対象となる対象エージェントがいるときの他の前記エージェントの協調動作に関する評価値を第1評価値として算出する第1のステップと、前記対象エージェントがいないときの他の前記エージェントの協調動作に関する評価値を第2評価値として算出する第2のステップと、前記第1評価値と前記第2評価値との差分を、前記対象エージェントの迷惑料として算出し、前記迷惑料に基づいて、前記対象エージェントに付与する前記リワードを算出する第3のステップと、を実行させ、前記対象エージェントに、前記リワード付与部から付与される前記リワードに基づいて、前記対象エージェントの前記意思決定モデルの学習を実行させる。
【0011】
本開示の他の学習プログラムは、複数のエージェント間における協調動作を行うマルチエージェントシステムにおいて、複数の前記エージェントの協調動作を強化学習させるための学習プログラムであって、複数の前記エージェントのそれぞれは、前記エージェントのステートを取得するステート取得部と、リワードを与える対象となるリワード付与部から前記リワードを取得するリワード取得部と、前記ステートと前記リワードとに基づいて、アクションを選択するための意思決定モデルを用いて、前記アクションを選択する処理部と、前記処理部によって選択された前記アクションを実行する動作部と、を有し、複数の前記エージェントに対してリワードを付与するリワード付与部に、前記複数のエージェントに協調動作の実行の可否に係る重み付け投票を実行させる第4のステップと、前記リワードを与える対象となる対象エージェントがいるときの投票結果に対して、前記対象エージェントがいないときの投票結果が覆る場合、前記対象エージェントに対して付与する前記リワードから、前記対象エージェントがいないときの投票結果に基づく前記リワード分だけ減額する第5のステップと、を実行させ、前記対象エージェントに、前記リワード付与部から付与される前記リワードに基づいて、前記対象エージェントの前記意思決定モデルの学習を実行させる。
【発明の効果】
【0012】
本開示によれば、複数のエージェントによる協調動作を適切に学習可能な報酬を付与することができる。
【図面の簡単な説明】
【0013】
【
図1】
図1は、実施形態1に係る学習システムを模式的に表した図である。
【
図2】
図2は、実施形態1に係る学習システムの報酬の算出に関するフローを示す図である。
【
図3】
図3は、実施形態1に係る学習システムの学習に関する説明図である。
【
図4】
図4は、実施形態1に係る学習方法に関するフローを示す図である。
【
図5】
図5は、実施形態2に係る学習システムの学習に関する説明図である。
【発明を実施するための形態】
【0014】
以下に、本発明に係る実施形態を図面に基づいて詳細に説明する。なお、この実施形態によりこの発明が限定されるものではない。また、下記実施形態における構成要素には、当業者が置換可能かつ容易なもの、あるいは実質的に同一のものが含まれる。さらに、以下に記載した構成要素は適宜組み合わせることが可能であり、また、実施形態が複数ある場合には、各実施形態を組み合わせることも可能である。
【0015】
[実施形態1]
実施形態1に係る学習システム1は、協調動作を行う複数のエージェント5、すなわち、マルチエージェントを強化学習するシステムとなっている。エージェント5は、例えば、車両、船舶または航空機等の移動体が適用される。
【0016】
図1は、実施形態1に係る学習システムを模式的に表した図である。
図2は、実施形態1に係る学習システムの報酬の算出に関するフローを示す図である。
図3は、実施形態1に係る学習システムの学習に関する説明図である。
図4は、実施形態1に係る学習方法に関するフローを示す図である。
【0017】
(学習システム)
学習システム1は、例えば、コンピュータを用いて構成され、仮想空間となるマルチエージェント環境(Environment)下において、複数のエージェント5の強化学習を実行する。
図1に示すように、学習システム1は、複数のエージェント5と、複数のエージェント5に対して報酬(リワード)を付与する報酬付与部(リワード付与部)6とを備えている。複数のエージェント5と報酬付与部6とは、コンピュータ上において動作する。学習システム1では、報酬付与部6から各エージェント5に報酬を付与することで、各エージェント5が報酬に基づく学習を実行する。具体的に、各エージェント5は、報酬が最大化するように学習を実行する。
【0018】
(エージェント)
複数のエージェント5は、マルチエージェント環境(Environment)下に設けられている。エージェント5は、学習部(処理部、リワード取得部)10と、センサ11と、動作部12とを有する。センサ11は、エージェント5の状態(ステート)を取得するステート取得部として機能する。センサ11は、学習部10に接続されており、取得したステートを学習部10へ向けて出力する。センサ11は、例えば、速度センサ、加速度センサ等である。学習部10は、報酬付与部6からリワード(報酬)が入力されることで、リワードを取得するリワード取得部として機能する。また、学習部10には、センサ11からステートが入力される。学習部10は、ステートとリワードとに基づいて、意思決定モデルを用いてアクション(動作)を選択する処理部として機能している。また、学習部10は、強化学習時において、リワードが最大となるように、意思決定モデルの学習を実行する。学習部10は、動作部12に接続されており、意思決定モデルを用いて選択したアクションを、動作部12へ向けて出力する。動作部12は、学習部10から入力されるアクションを実行する。動作部12は、例えば、アクチュエータである。
【0019】
エージェント5は、強化学習時において、ステートとリワードとを取得すると、学習部10において、取得したステート及びリワードに基づいて、意思決定モデルからアクションを選択する。エージェント5は、選択したアクションを実行する。なお、強化学習後のエージェント5の意思決定モデル(学習部10)は、現実の移動体に搭載されることで、協調動作を実行可能となる。
【0020】
(報酬付与部)
報酬付与部6は、マルチエージェント環境に基づいて、各エージェント5に付与するリワードを算出し、算出したリワードを各エージェント5へ向けて付与する。報酬付与部6は、リワードを付与する対象となる対象エージェント5がいるときの評価と、対象エージェント5がいないときの評価とに基づいて、リワードを算出している。具体的に、報酬付与部6は、下記する(1)式に基づいて、リワードを算出する。
【0021】
【0022】
ここで、対象エージェントをiとし、その他のエージェントをlとする。rは、リワード(reward function)である。αは、従来の報酬(conventional reward)である。vlは、エージェントlの評価値(agent l’s value)である。slは、エージェントlのステート(state)であり、s-iは、対象エージェントiを除くエージェントlのステートである。alは、エージェントlのアクション(agent l’s action)である。
【0023】
(1)式において、右式の第2項は、対象エージェントiがいるときの他のエージェントlの協調動作に関する評価値(第1評価値)である。具体的に、第1評価値は、対象エージェントiがいるときの他のエージェントlのアクション実行後における協調動作に関する評価値の合算値から、対象エージェントiがいるときの他のエージェントlのアクション実行前における協調動作に関する評価値の合算値を引いた差分である増加量となっている。
【0024】
(1)式において、右式の第3項は、対象エージェントiがいないときの他のエージェントlの協調動作に関する評価値(第2評価値)である。具体的に、第2評価値は、対象エージェントiがいないときの他のエージェントlのアクション実行後における協調動作に関する評価値の合算値から、対象エージェントiがいないときの他のエージェントlのアクション実行前における協調動作に関する評価値の合算値を引いた差分である増加量となっている。
【0025】
そして、(1)式において、右式の第2項から第3項を引いた値、すなわち、第1評価値と第2評価値との差分は、迷惑料として算出される。そして、対象エージェントiに付与される報酬は、迷惑料を含んで算出される。
【0026】
ここで、
図3を参照して、(1)式における右式の第2項及び第3項、つまり、迷惑料について説明する。
【0027】
(1)式における右式の第2項について、
図3に示すように、複数のエージェント5として、例えば、エージェントA~Dがある。このとき、エージェントAを対象エージェントiとし、エージェントB~Dを他のエージェントlとする。協調動作としては、例えば、エージェントA~Dが同じ速度で並んで走行する動作とする。このとき、対象エージェントiのステートである速度は、「2」となっている。一方で、他のエージェントlのステートである速度は、「1」となっている。この場合、他のエージェントlであるエージェントB~Dは、協調動作を行うべく、意思決定モデルにより選択される動作として、例えば、エージェントB及びエージェントCは、速度「2」への加速を実行する一方で、エージェントDは、速度「1」への維持を実行する。
【0028】
この場合、対象エージェントiがいるときの他のエージェントlのアクション実行後における最大評価値としては、最大速度「2」となり、最小評価値としては、最小速度「1」となる。一方で、対象エージェントiがいるときの他のエージェントlのアクション実行前における最大評価値としては、最大速度「1」となり、最小評価値としては、最小速度「1」となる。このため、右式の第2項により算出される第1評価値としての増加量は、「-{(2-1)-(1-1)}=-1」となる。
【0029】
(1)式における右式の第3項について、対象エージェントiがいない場合、他のエージェントlは、同じ速度で並んで走行していることから、意思決定モデルにより選択される動作としては、他のエージェントlであるエージェントB~Dは、速度「1」への維持を実行する。
【0030】
この場合、対象エージェントiがいないときの他のエージェントlのアクション実行後における最大評価値としては、最大速度「1」となり、最小評価値としては、最小速度「1」となる。また、対象エージェントiがいないときの他のエージェントlのアクション実行前における最大評価値としては、最大速度「1」となり、最小評価値としては、最小速度「1」となる。このため、右式の第3項により算出される第2評価値としての増加量は、「-{(1-1)-(1-1)}=0」となる。
【0031】
そして、迷惑料は、第1評価値から第2評価値を引いた差分となるため、「-1-0=-1」となり、対象エージェントiは、迷惑料「-1」に基づいて、「r=α-1」の報酬が算出される。
【0032】
次に、
図2を参照して、報酬付与部6による報酬の算出について説明する。報酬付与部6は、(1)式に基づく報酬を算出する場合、先ず、(1)式における右式の第2項に基づいて、第1評価値を算出する(ステップS1:第1のステップ)。続いて、報酬付与部6は、(1)式における右式の第3項に基づいて、第2評価値を算出する(ステップS2:第2のステップ)。この後、報酬付与部6は、予め設定された従来の報酬αと、第1評価値と、第2評価値とに基づいて、(1)式からリワードを算出する(ステップS3:第3のステップ)。
【0033】
次に、
図4を参照して、報酬付与部6により算出した報酬に基づく、複数のエージェント5の強化学習について説明する。
図4に示すように、学習システム1は、各エージェント5のセンサ11から、マルチエージェント環境下におけるエージェント5のステートを取得する(ステップS11a)。また、学習システム1は、報酬付与部6から、
図2の算出方法によって算出されたリワードを取得する(ステップS12a)。つまり、学習システム1は、ステート及びリワードを含む観測情報を収集する(collect Observation)。
【0034】
続いて、学習システム1では、各エージェント5が、取得したステート及びリワードに基づいて、意思決定モデルを用いたアクションを選択して実行する(ステップS13a)。これにより、アクションを実行した後のマルチエージェント環境が更新される(ステップS14a)。
【0035】
学習システム1は、ステップS11からステップS14を繰り返し実行することで、各エージェント5の意思決定モデルが、報酬が最大化するようなアクションを選択するように、最適化される。このように、学習システム1は、
図2及び
図4に示すステップを行う学習プログラムを実行することにより、複数のエージェント5の強化学習を実行する。
【0036】
[実施形態2]
次に、
図5を参照して、実施形態2に係る学習システム1について説明する。なお、実施形態2では、重複した記載を避けるべく、実施形態1と異なる部分について説明し、実施形態1と同様の構成である部分については、同じ符号を付して説明する。
図5は、実施形態2に係る学習システムの学習に関する説明図である。
【0037】
実施形態2の学習システム1は、実施形態1の報酬付与部6の報酬の算出に用いた迷惑料に代えて、課税を適用している。具体的に、
図5に示すように、複数のエージェント5として、例えば、エージェントA~Cがある。このとき、エージェントAを対象エージェントiとし、エージェントB~Cを他のエージェントlとする。協調動作としては、例えば、エージェントA~Cの全員で加速する動作とする。
【0038】
報酬付与部6は、報酬を算出するにあたり、複数のエージェント5に協調動作の実行の可否に係る重み付け投票を実行させる(ステップS21:第4のステップ)。ここで、
図5に示すように、重み付け投票は、協調動作の実行に賛成する、または、協調動作の実行に賛成する投票となっており、また、賛成及び反対に対して重み付けが付与されている。例えば、エージェントAは、賛成しており、重み付けが「4」となっている。エージェントBは、賛成しており、重み付けが「1」となっている。エージェントCは、反対しており、重み付けが「3」となっている。
【0039】
報酬付与部6は、ステップS21の実行後、対象エージェントiがいるときの投票結果に対して、対象エージェントiがいないときの投票結果が覆る場合、対象エージェントiに対して付与するリワードから、対象エージェントiがいないときの投票結果に基づくリワード分だけ減額する(ステップS22:第5のステップ)。具体的に、ステップS22では、対象エージェントiであるエージェントAがいるときの投票結果が、「2」となり加速を実行する投票結果となる。一方で、対象エージェントiであるエージェントAがいないときの投票結果が、「2」となり加速を実行しない投票結果となる。この場合、投票結果が覆ることから、報酬付与部6は、「-2」の投票結果に基づくリワード分だけ減額する。つまり、報酬付与部6は、報酬に対して「2」を課税することにより、「r=α-2」の報酬が算出される。このように、学習システム1は、
図5に示すステップを行う学習プログラムを実行することにより、複数のエージェント5の強化学習を実行する。
【0040】
なお、実施形態2では、実施形態1の迷惑料に代えて、課税を適用したが、迷惑料と課税とを用いて報酬を算出してもよい。つまり、実施形態1と実施形態2とを組み合わせた報酬の算出を行ってもよい。
【0041】
以上のように、本実施形態に記載の学習システム1、学習方法及び学習プログラムは、例えば、以下のように把握される。
【0042】
第1の態様に係る学習システム1は、複数のエージェント5間における協調動作を行うマルチエージェントシステムにおいて、複数の前記エージェント5の協調動作を強化学習させるための学習システムであって、複数の前記エージェント5と、複数の前記エージェント5に対してリワードを付与するリワード付与部(報酬付与部)6と、を備え、複数の前記エージェント5のそれぞれは、前記エージェント5のステートを取得するステート取得部(センサ)11と、前記リワード付与部6から前記リワードを取得するリワード取得部(学習部)10と、前記ステートと前記リワードとに基づいて、アクションを選択するための意思決定モデルを用いて、前記アクションを選択する処理部(学習部)10と、前記処理部10によって選択された前記アクションを実行する動作部12と、を有し、前記リワード付与部6は、前記リワードを与える対象となる対象エージェントiがいるときの他の前記エージェントlの協調動作に関する評価値を第1評価値として算出する第1のステップ(ステップS1)と、前記対象エージェントiがいないときの他の前記エージェントlの協調動作に関する評価値を第2評価値として算出する第2のステップ(ステップS2)と、前記第1評価値と前記第2評価値との差分を、前記対象エージェントiの迷惑料として算出し、前記迷惑料に基づいて、前記対象エージェントiに付与する前記リワードを算出する第3のステップ(ステップS3)と、を実行し、前記対象エージェントiは、前記リワード付与部6から付与される前記リワードに基づいて、前記意思決定モデルの学習を実行する。
【0043】
第6の態様に係る学習方法は、複数のエージェント5間における協調動作を行うマルチエージェントシステムにおいて、複数の前記エージェント5の協調動作を強化学習させるための学習方法であって、複数の前記エージェント5のそれぞれは、前記エージェント5のステートを取得するステート取得部(センサ)11と、前記リワード付与部6から前記リワードを取得するリワード取得部(学習部)10と、前記ステートと前記リワードとに基づいて、アクションを選択するための意思決定モデルを用いて、前記アクションを選択する処理部(学習部)10と、前記処理部10によって選択された前記アクションを実行する動作部12と、を有し、前記リワードを与える対象となる対象エージェントiがいるときの他の前記エージェントlの協調動作に関する評価値を第1評価値として算出する第1のステップ(ステップS1)と、前記対象エージェントiがいないときの他の前記エージェントlの協調動作に関する評価値を第2評価値として算出する第2のステップ(ステップS2)と、前記第1評価値と前記第2評価値との差分を、前記対象エージェントiの迷惑料として算出し、前記迷惑料に基づいて、前記対象エージェントiに付与する前記リワードを算出する第3のステップ(ステップS3)と、前記リワード付与部6から付与される前記リワードに基づいて、前記対象エージェントiの前記意思決定モデルの学習を実行するステップ(ステップS13)と、を備える。
【0044】
第8の態様に係る学習プログラムは、複数のエージェント5間における協調動作を行うマルチエージェントシステムにおいて、複数の前記エージェント5の協調動作を強化学習させるための学習プログラムであって、複数の前記エージェント5のそれぞれは、前記エージェント5のステートを取得するステート取得部(センサ)11と、前記リワード付与部6から前記リワードを取得するリワード取得部(学習部)10と、前記ステートと前記リワードとに基づいて、アクションを選択するための意思決定モデルを用いて、前記アクションを選択する処理部(学習部)10と、前記処理部10によって選択された前記アクションを実行する動作部12と、を有し、複数の前記エージェント5に対してリワードを付与するリワード付与部6に、前記リワードを与える対象となる対象エージェントiがいるときの他の前記エージェントlの協調動作に関する評価値を第1評価値として算出する第1のステップ(ステップS1)と、前記対象エージェントiがいないときの他の前記エージェントlの協調動作に関する評価値を第2評価値として算出する第2のステップ(ステップS2)と、前記第1評価値と前記第2評価値との差分を、前記対象エージェントiの迷惑料として算出し、前記迷惑料に基づいて、前記対象エージェントiに付与する前記リワードを算出する第3のステップ(ステップS3)と、を実行させ、前記対象エージェントiに、前記リワード付与部6から付与される前記リワードに基づいて、前記対象エージェントiの前記意思決定モデルの学習を実行させる。
【0045】
これらの構成によれば、リワード付与部6は、対象エージェントiが、他のエージェントlに与える迷惑料に基づいて、報酬を算出することができる。このため、複数のエージェント5による協調動作を実行する場合であっても、対象エージェントiのみの報酬が多くなる動作を抑制することができるため、マルチエージェントの協調動作に対して適切に学習可能な報酬を付与することができる。
【0046】
第2の態様として、前記第1評価値は、前記対象エージェントiがいるときの他の前記エージェントlのアクション実行後における協調動作に関する評価値の合算値から、前記対象エージェントiがいるときの他の前記エージェントlのアクション実行前における協調動作に関する評価値の合算値を引いた差分である増加量((1)式の右辺の第2項)となっており、前記第2評価値は、前記対象エージェントiがいないときの他の前記エージェントlのアクション実行後における協調動作に関する評価値の合算値から、前記対象エージェントiがいないときの他の前記エージェントlのアクション実行前における協調動作に関する評価値の合算値を引いた差分である増加量((1)式の右辺の第3項)となっている。
【0047】
この構成によれば、エージェント5のアクションの実行前後における増加量に基づいて、迷惑料を算出することができる。このため、マルチエージェント環境の経時的な変化に基づく迷惑料を算出することができる。
【0048】
第3の態様として、前記リワード付与部6は、前記複数のエージェント5に協調動作の実行の可否に係る重み付け投票を実行させる第4のステップ(ステップS21)と、前記対象エージェントiがいるときの投票結果に対して、前記対象エージェントiがいないときの投票結果が覆る場合、前記対象エージェントiに対して付与するリワードから、前記対象エージェントiがいないときの投票結果に基づくリワード分だけ減額(課税)する第5のステップ(ステップS22)と、をさらに実行する。
【0049】
この構成によれば、リワード付与部6は、対象エージェントiが、他のエージェントlに与える影響に応じた課税を含む報酬を算出することができる。このため、複数のエージェント5による協調動作を実行する場合であっても、対象エージェントiが課税を考慮した動作とすることができるため、マルチエージェントの協調動作に対して適切に学習可能な報酬を付与することができる。
【0050】
第4の態様に係る学習システム1は、複数のエージェント5間における協調動作を行うマルチエージェントシステムにおいて、複数の前記エージェント5の協調動作を強化学習させるための学習システムであって、複数の前記エージェント5と、複数の前記エージェント5に対してリワードを付与するリワード付与部(報酬付与部)6と、を備え、複数の前記エージェント5のそれぞれは、前記エージェント5のステートを取得するステート取得部(センサ)11と、前記リワード付与部6から前記リワードを取得するリワード取得部(学習部)10と、前記ステートと前記リワードとに基づいて、アクションを選択するための意思決定モデルを用いて、前記アクションを選択する処理部(学習部)10と、前記処理部10によって選択された前記アクションを実行する動作部12と、を有し、前記リワード付与部6は、前記複数のエージェント5に協調動作の実行の可否に係る重み付け投票を実行させる第4のステップ(ステップS21)と、前記対象エージェントiがいるときの投票結果に対して、前記対象エージェントiがいないときの投票結果が覆る場合、前記対象エージェントiに対して付与するリワードから、前記対象エージェントiがいないときの投票結果に基づくリワード分だけ減額(課税)する第5のステップ(ステップS22)と、を実行し、前記対象エージェントiは、前記リワード付与部6から付与される前記リワードに基づいて、前記意思決定モデルの学習を実行する。
【0051】
第7の態様に係る学習方法は、複数のエージェント5間における協調動作を行うマルチエージェントシステムにおいて、複数の前記エージェント5の協調動作を強化学習させるための学習方法であって、複数の前記エージェント5のそれぞれは、前記エージェント5のステートを取得するステート取得部(センサ)11と、前記リワード付与部6から前記リワードを取得するリワード取得部(学習部)10と、前記ステートと前記リワードとに基づいて、アクションを選択するための意思決定モデルを用いて、前記アクションを選択する処理部(学習部)10と、前記処理部10によって選択された前記アクションを実行する動作部12と、を有し、前記複数のエージェント5に協調動作の実行の可否に係る重み付け投票を実行させる第4のステップ(ステップS21)と、前記対象エージェントiがいるときの投票結果に対して、前記対象エージェントiがいないときの投票結果が覆る場合、前記対象エージェントiに対して付与するリワードから、前記対象エージェントiがいないときの投票結果に基づくリワード分だけ減額(課税)する第5のステップ(ステップS22)と、前記リワード付与部6から付与される前記リワードに基づいて、前記対象エージェントiの前記意思決定モデルの学習を実行するステップ(ステップS13)と、を備える。
【0052】
第9の態様に係る学習プログラムは、複数のエージェント5間における協調動作を行うマルチエージェントシステムにおいて、複数の前記エージェント5の協調動作を強化学習させるための学習プログラムであって、複数の前記エージェント5のそれぞれは、前記エージェント5のステートを取得するステート取得部(センサ)11と、前記リワード付与部6から前記リワードを取得するリワード取得部(学習部)10と、前記ステートと前記リワードとに基づいて、アクションを選択するための意思決定モデルを用いて、前記アクションを選択する処理部(学習部)10と、前記処理部10によって選択された前記アクションを実行する動作部12と、を有し、複数の前記エージェント5に対してリワードを付与するリワード付与部6に、前記複数のエージェント5に協調動作の実行の可否に係る重み付け投票を実行させる第4のステップ(ステップS21)と、前記対象エージェントiがいるときの投票結果に対して、前記対象エージェントiがいないときの投票結果が覆る場合、前記対象エージェントiに対して付与するリワードから、前記対象エージェントiがいないときの投票結果に基づくリワード分だけ減額(課税)する第5のステップ(ステップS22)と、を実行させ、前記対象エージェントiに、前記リワード付与部6から付与される前記リワードに基づいて、前記対象エージェントiの前記意思決定モデルの学習を実行させる。
【0053】
これらの構成によれば、リワード付与部6は、対象エージェントiが、他のエージェントlに与える影響に応じた課税を含む報酬を算出することができる。このため、複数のエージェント5による協調動作を実行する場合であっても、対象エージェントiが課税を考慮した動作とすることができるため、マルチエージェントの協調動作に対して適切に学習可能な報酬を付与することができる。
【0054】
第5の態様として、前記エージェントは、移動体である。
【0055】
この構成によれば、移動体の協調動作に対して適切に学習可能な報酬を付与することができる。
【符号の説明】
【0056】
1 学習システム
5 エージェント
6 報酬付与部
10 学習部
11 センサ
12 動作部