(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024005890
(43)【公開日】2024-01-17
(54)【発明の名称】学習装置、および学習方法
(51)【国際特許分類】
G06N 20/00 20190101AFI20240110BHJP
【FI】
G06N20/00
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2022106325
(22)【出願日】2022-06-30
(71)【出願人】
【識別番号】000005326
【氏名又は名称】本田技研工業株式会社
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100126664
【弁理士】
【氏名又は名称】鈴木 慎吾
(74)【代理人】
【識別番号】100154852
【弁理士】
【氏名又は名称】酒井 太一
(74)【代理人】
【識別番号】100194087
【弁理士】
【氏名又は名称】渡辺 伸一
(72)【発明者】
【氏名】長 隆之
(72)【発明者】
【氏名】林 昭伸
(57)【要約】
【課題】強化学習における課題を軽減することができる学習装置、および学習方法を提供することを目的とする。
【解決手段】学習装置は、方策を学習する対象である状態情報と行動情報からなるデータセットを取得するデータセット取得部と、状態情報と行動情報から特徴の性質を表す離散潜在変数を推定する離散潜在変数推定部と、状態情報と離散潜在変数を用いて最適な行動を学習する最適行動学習部と、状態情報と行動情報から行動価値を学習する価値関数推定部と、最適行動学習部の結果と価値関数推定部の結果を用いて行動価値が最大となる前記離散潜在変数を同定する同定部と、を備える。
【選択図】
図3
【特許請求の範囲】
【請求項1】
方策を学習する対象である状態情報と行動情報からなるデータセットを取得するデータセット取得部と、
前記状態情報と前記行動情報から特徴の性質を表す離散潜在変数を推定する離散潜在変数推定部と、
前記状態情報と前記離散潜在変数を用いて最適な行動を学習する最適行動学習部と、
前記状態情報と前記行動情報から行動価値を学習する価値関数推定部と、
前記最適行動学習部の結果と前記価値関数推定部の結果を用いて行動価値が最大となる前記離散潜在変数を同定する同定部と、
を備える学習装置。
【請求項2】
方策を学習する対象である状態情報と行動情報からなるデータセットを取得する取得ステップと、
前記データセットに含まれる前記状態情報と前記行動情報から、前記データセットの特徴の性質を表す離散潜在変数を推定する推定ステップと、
前記状態情報と、推定された前記離散潜在変数とを用いて最適な行動を学習する第1学習ステップと、
前記状態情報と前記行動情報から行動価値を学習する第2学習ステップと、
前記第1学習ステップで学習した結果と、前記第2学習ステップで学習した結果を用いて行動価値が最大となる前記離散潜在変数を同定する同定ステップと、
を含む学習方法。
【請求項3】
同定された前記離散潜在変数を、前記第2学習ステップに入れて価値関数を更新する価値関数更新ステップと、
更新された前記価値関数を、前記推定ステップと前記第1学習ステップとに入れて、前記離散潜在変数と前記最適な行動を更新する潜在変数行動更新ステップと、
前記価値関数更新ステップと潜在変数行動更新ステップとを繰り返して、前記離散潜在変数と、前記最適な行動を学習する第3学習ステップと、
を含む、請求項2に記載の学習方法。
【請求項4】
学習した方策の実行時には、前記第1学習ステップが全て活性化されるわけではなく、状況に応じた前記離散潜在変数が推定され、推定された前記離散潜在変数に対応する下位方策が逐次、選択され活性化する、
請求項2または請求項3に記載の学習方法。
【請求項5】
zは前記離散潜在変数であり、z’は次の前記離散潜在変数であり、sは状態であり、s’は次の状態であり、Q
wはベクトルwでパラメータ化されたQ値の推定値であり、yはターゲット値であり、rは学習における報酬であり、γは割引係数であり、θは方策のパラメータを表すベクトルであり、φは事後分泌のモデルのパラメータを表すベクトルであり、(z
~)’は推定された次の前記離散潜在変数であり、f
πは方策πの性能を定量化する関数であり、l
cvaeは変分下限であり、aは行動であり、
前記推定ステップは、次式を用いて潜在変数を計算し、
【数1】
前記価値関数更新ステップは、次式を用いてターゲット値yを計算し、
【数2】
前記価値関数更新ステップは、次式を最小化するcriticを更新することで行価値関数を更新し、
【数3】
前記潜在変数行動更新ステップは、次式を最大化するようにActorと事後分布を更新することで第1のモデルを更新する、
【数4】
請求項3に記載の学習方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習装置、および学習方法に関する。
【背景技術】
【0002】
強化学習は、様々なアプリケーションで目覚しい成果を上げているが、これらの成功の多くは強化学習エージェントが学習過程において環境と相互作用するオンライン学習環境において達成されたものである。強化学習では、例えば複数の入力パラメータを用いて予測モデルを生成する(例えば特許文献1参照)。
【0003】
強化学習では、環境との相互作用させる時間と計算コストがかかる。このため、相互作用の回数を減らすため、バッチ強化学習とも呼ばれるオフライン強化学習に注目が集まっている(例えば非特許文献1参照)。オフライン強化学習では、任意かつ未知のプロセスで収集されたデータセットから最適な方策を学習することが目標となる。近年の研究により、オフライン強化学習は、満足な性能を得るために必要な環境との相互作用の回数を大幅に削減できることが示された。
【先行技術文献】
【特許文献】
【0004】
【非特許文献】
【0005】
【非特許文献1】Ashvin Nair, Abhishek Gupta, Murtaza Dalal,他、 “AWAC: Accelerating Online Reinforcement Learning with Offline Datasets”、Machine Learning (cs.LG); Robotics (cs.RO); Machine Learning (stat.ML)、arXiv:2006.09359 [cs.LG] 、2006
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、従来のオフライン強化学習アルゴリズムによって得られる方策の性能は、与えられたデータセットの質に大きく依存する。最近の研究において、オフライン強化学習では、対象の環境とのオンラインでの相互作用がないため,価値関数の近似誤差や外挿誤差などに課題があることが報告されている。
【0007】
本発明は、上記の問題点に鑑みてなされたものであって、強化学習における課題を軽減することができる学習装置、および学習方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
(1)上記目的を達成するため、本発明の一態様に係る学習装置は、方策を学習する対象である状態情報と行動情報からなるデータセットを取得するデータセット取得部と、前記状態情報と前記行動情報から特徴の性質を表す離散潜在変数を推定する離散潜在変数推定部と、前記状態情報と前記離散潜在変数を用いて最適な行動を学習する最適行動学習部と、前記状態情報と前記行動情報から行動価値を学習する価値関数推定部と、前記最適行動学習部の結果と前記価値関数推定部の結果を用いて行動価値が最大となる前記離散潜在変数を同定する同定部と、を備える。
【0009】
(2)上記目的を達成するため、本発明の一態様に係る学習方法は、方策を学習する対象である状態情報と行動情報からなるデータセットを取得する取得ステップと、前記データセットに含まれる前記状態情報と前記行動情報から、前記データセットの特徴の性質を表す離散潜在変数を推定する推定ステップと、前記状態情報と、推定された前記離散潜在変数とを用いて最適な行動を学習する第1学習ステップと、前記状態情報と前記行動情報から行動価値を学習する第2学習ステップと、前記第1学習ステップで学習した結果と、前記第2学習ステップで学習した結果を用いて行動価値が最大となる前記離散潜在変数を同定する同定ステップと、を含む。
【0010】
(3)また、本発明の一態様に係る学習方法において、同定された前記離散潜在変数を、前記第2学習ステップに入れて価値関数を更新する価値関数更新ステップと、更新された前記価値関数を、前記推定ステップと前記第1学習ステップとに入れて、前記離散潜在変数と前記最適な行動を更新する潜在変数行動更新ステップと、前記価値関数更新ステップと潜在変数行動更新ステップとを繰り返して、前記離散潜在変数と、前記最適な行動を学習する第3学習ステップと、を含むようにしてもよい。
【0011】
(4)また、本発明の一態様に係る学習方法において、学習した方策の実行時には、前記第1学習ステップが全て活性化されるわけではなく、状況に応じた前記離散潜在変数が推定され、推定された前記離散潜在変数に対応する下位方策が逐次、選択され活性化するようにしてもよい。
【0012】
(5)また、本発明の一態様に係る学習方法において、zは前記離散潜在変数であり、z’は次の前記離散潜在変数であり、sは状態であり、s’は次の状態であり、Q
wはベクトルwでパラメータ化されたQ値の推定値であり、yはターゲット値であり、rは学習における報酬であり、γは割引係数であり、θは方策のパラメータを表すベクトルであり、φは事後分泌のモデルのパラメータを表すベクトルであり、(z
~)’は推定された次の前記離散潜在変数であり、f
πは方策πの性能を定量化する関数であり、l
cvaeは変分下限であり、aは行動であり、前記推定ステップは、次式を用いて潜在変数を計算し、
【数1】
前記価値関数更新ステップは、次式を用いてターゲット値yを計算し、
【数2】
前記価値関数更新ステップは、次式を最小化するcriticを更新することで行価値関数を更新し、
【数3】
前記潜在変数行動更新ステップは、次式を最大化するようにActorと事後分布を更新することで第1のモデルを更新する、
【数4】
ようにしてもよい。
【発明の効果】
【0013】
(1)~(5)によれば、強化学習における課題を軽減することができる。
(1)~(5)によれば、離散変数および混合方策を学習することにより、学習性能向上できる。
【図面の簡単な説明】
【0014】
【
図2】実施形態で用いるモデルを説明するための図である。
【
図3】実施形態に係る学習装置の構成例を示す図である。
【
図4】実施形態で用いるデータセットの例を示す図である。
【
図5】実施形態に係る学習処理の手順概要例のフローチャートである。
【
図6】実施形態に係る学習処理の手順例のフローチャートである。
【
図7】実施形態に係る学習済みのモデルを用いて行動を推定する場合の処理手順例のフローチャートである。
【
図8】実施形態に係る学習時のアルゴリズムの一例を示す図である。
【
図10】離散潜在変数の次元数の影響を評価した結果を示す図である。
【
図11】Mujocoタスクにおける本実施形態の手法であるV2AEと、ベースライン手法との比較を示す図である。
【
図12】KitchenとAdroitタスクにおける本実施形態の手法であるV2AEと、ベースライン手法との比較を示す図である。
【
図13】ペン人間-v0タスクにおける状態-行動の組を可視化した例を示す図である。
【
図14】pen-human-v0タスクにおける下位方策の活性化の様子であり、20、40、60、80回目の時間ステップにおける状態を示す図である。
【
図15】pen-human-v0タスクにおける下位方策の活性化の様子であり、各状態における各サブポリシーの作用値を示す図である。
【
図16】実施形態の手法であるV2AEと、比較例の手法のAWACを用いた学習時の正規化スコアとcritic loss関数の値を示す図である。
【
図17】pen-human-v0タスクにおける下位方策の活性化を第1のエピソードの結果を示す図である。
【
図18】pen-human-v0タスクにおける下位方策の活性化を第2のエピソードの結果を示す図である。
【
図19】pen-human-v0タスクにおける下位方策の活性化を第3のエピソードの結果を示す図である。
【発明を実施するための形態】
【0015】
以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の説明に用いる図面では、各部材を認識可能な大きさとするため、各部材の縮尺を適宜変更している。
なお、実施形態を説明するための全図において、同一の機能を有するものは同一符号を用い、繰り返しの説明は省略する。
また、本願でいう「XXに基づいて」とは、「少なくともXXに基づく」ことを意味し、XXに加えて別の要素に基づく場合も含む。また、「XXに基づいて」とは、XXを直接に用いる場合に限定されず、XXに対して演算や加工が行われたものに基づく場合も含む。「XX」は、任意の要素(例えば、任意の情報)である。
【0016】
[強化学習の概要]
まず、強化学習の概要を説明する。
図1は、強化学習の概要を説明するための図である。
図1のように、強化学習では、例えば、環境から「状態」を取得して、取得した「状態」と「報酬」を方策へ入力する。そして、強化学習では、入力された「状態」と「報酬」に基づいて、方策が「行動」を推定する。そして、強化学習では、推定された「行動」を環境で行わせ、その状態を再び取得する。
【0017】
[モデルの説明]
本実施形態では、強化学習に、以下のような3つのモデルを用いる。
図2は、本実施形態で用いるモデルを説明するための図である。符号g11は、第1のモデルであるエンコーダの入出力を示す画像である。符号g11のように、エンコーダは、状態と行動が入力され、与えられた状態と行動に対して離散潜在変数(例えば[0,0,1,0])を推定して出力する。なお、以下の説明では、「離散潜在変数」を「潜在変数」ともいう。
【0018】
符号g12は、第2のモデルである下位方策の入出力を示す画像である。符号g12のように、下位方策は、推定された潜在変数と、状態が入力され、与えられた状態と潜在変数に対して最適な行動を推定して出力する。
【0019】
符号g13は、第3のモデルである行動価値関数の入出力を示す画像である。符号g13のように、行動価値関数は、状態と行動が入力され、与えられた状態と行動に対して
行動価値を推定して出力する。
【0020】
[学習装置の構成例]
次に、学習を行う学習装置1の構成例を説明する。
図3は、本実施形態に係る学習装置の構成例を示す図である。
図3のように、学習装置1は、例えば、取得部11、記憶部12、離散潜在変数推定部13、最適行動学習部14、価値関数推定部15、同定部16、および処理部17を備える。
【0021】
取得部11は、報酬と、方策を学習する対象である状態情報と行動情報からなるデータセットを取得する。なお、データセットに報酬が含まれていない場合は、学習したいタスクに応じて報酬だけ計算しなおすことが必要となる。
【0022】
記憶部12は、データセットを記憶する。記憶部12は、処理部117が処理に用いるプログラム、所定回数等を記憶する。
【0023】
離散潜在変数推定部13は、第1のモデル(エンコーダ)131を備える。離散潜在変数推定部13は、状態情報と前記行動情報から特徴の性質を表す離散潜在変数を推定する。
【0024】
最適行動学習部14は、第2のモデル(下位方策)141を備える。最適行動学習部14は、状態情報と離散潜在変数を用いて、行動を推定する第2のモデル141で推定することで、最適な行動を学習する。
【0025】
価値関数推定部15は、第3のモデル(行動価値関数)151を備える。価値関数推定部15は、状態情報と行動情報から、行動価値を推定する、第3のモデル151を更新することで行動価値を学習する。
【0026】
同定部16は、最適行動学習部の結果と価値関数推定部の結果を用いて、行動価値が最大となる離散潜在変数を同定する。
【0027】
処理部17は、学習開始時に第1のモデル131、第2のモデル141、第3のモデル151を初期化する。処理部17は、データセットから状態s、行動a、次の状態s’、報酬rの組の一部を抜き出す。
【0028】
[データセットの例]
次に、データセットの例を説明する。
図4は、本実施形態で用いるデータセットの例を示す図である。
図4のように、データセットは、例えば、状態s、行動a、次の状態s’、および報酬rの4つの要素の組からなる。
【0029】
[学習処理手順例]
次に、学習処理の手順例を説明する。まず、学習の概要処理を、
図2を参照しつつ、
図5を用いて説明する。
図5は、本実施形態に係る学習処理の手順概要例のフローチャートである。
【0030】
(ステップS1)取得部11は、方策を学習する対象である状態情報と行動情報からなるデータセットを予め取得し、記憶部12に取得したデータセットを記憶させる(取得ステップ)。
【0031】
(ステップS2)処理部17は、第1のモデル131と、第2のモデル141と、第3のモデル151を初期化する。
【0032】
(ステップS3)離散潜在変数推定部13は、データセットに含まれる状態情報と行動情報と、第1モデル131を用いて、特徴の性質を表す離散潜在変数を推定する(推定ステップ)。
【0033】
(ステップS4)最適行動学習部14は、状態情報と、推定された離散潜在変数と、第2のモデル141を用いて、最適な行動を学習する(第1学習ステップ)。
【0034】
(ステップS5)価値関数推定部15は、状態情報と行動情報と、第3のモデル151を用いて、行動価値を学習する(第2学習ステップ)。
【0035】
(ステップS6)同定部16は、ステップS4で学習した結果と、ステップS5で学習した結果を用いて、行動価値が最大となる離散潜在変数を同定する(同定ステップ)。
【0036】
次に、モデルの更新を含めた学習の処理手順例を説明する。
図6は、本実施形態に係る学習処理の手順例のフローチャートである。なお、学習装置1は、行動毎に以下の処理によって学習を行う。また、学習装置1は、以下の処理を所定回数繰り返す。
【0037】
(ステップS11)取得部11は、予めデータセットを取得し、記憶部12に取得したデータセットを記憶させる(取得ステップ)。
【0038】
(ステップS12)処理部17は、第1のモデル131と、第2のモデル141と、第3のモデル151を初期化する。
【0039】
(ステップS13)処理部17は、データセットから状態s、行動a、次の状態s’、報酬rの組の一部を抜き出す。処理部17は、例えば、256組から1024組程度の数の複数の組を選ぶ。
【0040】
(ステップS14)同定部16は、状態sに対し,行動価値を最大化する潜在変数zを同定する。
【0041】
(ステップS15)価値関数推定部15は、ステップS13で同定された潜在変数zを使いて、第3のモデル151(行動価値関数)を学習させて更新する。
【0042】
(ステップS16)離散潜在変数推定部13は、状態s、行動aに対応する潜在変数を推定する第1のモデル131(エンコーダ)を学習させて更新する。
【0043】
(ステップS17)離散潜在変数推定部13は、状態s、行動aに対応する潜在変数zを第1のモデル131で推定する。
【0044】
(ステップS18)最適行動学習部14は、状態sと、ステップS16で推定された潜在変数を用いて、第2のモデル141(下位方策)を学習させて更新する。
【0045】
なお、ステップS14~18で用いる状態sは、ステップS13で選んだものを使い続ける。処理では、複数のsに対して同時に同じ作業を行い、その結果を踏まえてそれぞれのモデルを更新する。
【0046】
[使用時の処理手順例]
次に、学習済みのモデルを用いて行動を推定する場合の処理手順例を説明する。
図7は、本実施形態に係る学習済みのモデルを用いて行動を推定する場合の処理手順例のフローチャートである。
【0047】
(ステップS21)学習装置1は、観測された状態に対して、学習済みの第1のモデル131を用いて行動価値を最大化する潜在変数を決定する。
【0048】
(ステップS22)学習装置1は、決定された潜在変数をもとに、学習済みの第2のモデル141を用いて行動を決定する。
【0049】
[学習手法の説明]
以下では、本実施形態で用いる学習手法の原理等を説明する。
まず、次式(1)の組で定義されるマルコフ決定過程(MDP)の元での強化学習について考える。
【0050】
【0051】
なお、以下の説明において。式(1)において、明細書中では1つめをS、2つめをA、3つめをPで表す。Sは状態空間であり、Aは行動空間であり、P(st+1|st,at)は遷移確率密度であり、r(s,a)は報酬関数であり、γは割引係数であり、d(s0)は初期状態の確率密度である。
【0052】
次式(2)の方策π(a|s)は、与えられた状態に対する行動の条件付き確率密度関数と定義される。なお、二重線文字Rは、実施全体の集合である。
【0053】
【0054】
強化学習の目的は、期待される次式(3)の累積割引報酬を最大化する方策を同定することである。
【0055】
【0056】
ここで、Rtは次式(4)である。
【0057】
【0058】
また、Q関数Qπ(s,a)は、与えられたマルコフ決定過程のもとで、状態sから出発し行動aをとり方策πに従ったときの報酬の期待値である。オフライン強化学習では、未知の方策によって収集された状態、行動、報酬からなる次式(5)のデータセットを仮定する。
【0059】
【0060】
オフライン強化学習の目標は、データセットDを用いて報酬の期待値を最大化する方策を得ることである。
【0061】
ここで、オフライン強化学習の課題を以下のように定式化する。データセットD(式(5))が与えられ、学習過程では、環境と相互作用することなく、環境との相互作用によって得られる報酬を最大化する方策πを得ることが目標である。
オフライン強化学習では、報酬の期待値は与えられたデータセットに格納されている状態に関して評価される。したがって、目的関数は次式(6)で与えられる。
【0062】
【0063】
式(6)において、fπは方策πの性能を定量化する関数である。強化学習では、参考文献1に示されているように、fにはいくつかの選択肢がある。例えば、TD3手法(例えば参考文献2参照)では行動関数fπ(s,a)=Qπ(s,a)を採用し、A2C(Advantage Actor Critic)手法では、優位関数fπ(s,a)=Aπ(s,a)を採用している。なお、A2C手法は、A3Cのバリアントであり、A3C(Asynchronous Actor Critic)から非同期(Asynchronous)要素を除いた手法である。
【0064】
参考文献1;John Schulman, Philipp Moritz, Sergey Levine, Michael Jordan, and Pieter Abbeel, “High-dimensional continuous control using generalized advantage estimation”, In Proceedings of the International Conference on Learning Representations (ICLR), 2016.
【0065】
参考文献2;Scott Fujimoto and Shixiang Shane Gu, “A minimalist approach to offline reinforcement learning”, Advances in Neural Information Processing Systems (NeurIPS), 2021.
【0066】
その他の先行研究では、指数関数を伴う計算を採用しており、次式(7)または次式(8)で表される。
【0067】
【0068】
【0069】
一般性を損なわず、目的関数は式(6)で与えられると仮定する。先行研究では、正則化項を追加して方策を学習する目的関数を提案することが多いが、本実施形態では、目的関数をオフライン強化学習のシンプルな目的関数である(1)の変分下界として導出する。
【0070】
[混合方策]
本実施形態では、多峰性を持つ分布で表現できる次式(9)のモデルを導入する。次式(9)で与えられるモデルは、方策の混合モデルである。
【0071】
【0072】
式(9)において、zは離散的な潜在変数、π(s|a)は潜在変数を決定する上位方策、π(s|a,z)は与えられたsとzに対する行動を決定する下位方策である。下位方策π(s|a,z)は決定的な方策であると仮定する。このため、下位方策は、与えられたsとzに対する行動をa=μθ(s,z)として決定的に決める。なお、μθ(s,z)はベクトルθでパラメータ化されたものである。さらに上位方策π(s|a)が潜在変数を、次式(10)のように決定する。
【0073】
【0074】
式(10)において、Qw(s,z)は、ベクトルwでパラメータ化されたQ値の推定値である。
【0075】
[変分下界の最大化による混合ポリシーの学習]
ここで、任意のsとaに対してfπ(s,a)>0のとき、Jensenの不等式を用いてlog(J(π))の変分下界を次式(11)~次式(13)のように求めることができる。
【0076】
【0077】
【0078】
【0079】
式(13)の第2稿は方策πから独立している。したがって、J(π)の変化下界を最大化するには、次式(14)式を最大化すればよい。
【0080】
【0081】
fπ(s,a)=exp(Aπ(s,a))を採用し、方策がガウス分布の場合、結果として得られるアルゴリズムはAWAC(非特許文献1)と等価である。離散的な潜在変数を用いた混合方策を採用するために,式(13)の目的関数をさらに分析すると、次式(15)のようになる。
【0082】
【0083】
式(15)において、DKL(q(z|s,a)||p(z|s,a))>0であるので、条件付きVAE(参考文献3参照)でしようされているように変分下界を変形すると次式(16)が得られる。なお、p、qは確率である。なお、qΦ(z|si,ai)の項は、qがΦ(変分パラメータ)でパラメータ化されていることを表している。また、πθ(ai|si,z)の項は、πがθでパラメータ化されていることを表している。
【0084】
【0085】
参考文献3;Kihyuk Sohn, Honglak Lee, and Xinchen Yan, “Learning structured output representation using deep conditional generative models”, In Advances in Neural Information Processing Systems(NeurIPS), 2015.
【0086】
先行研究では,zがsから統計的に独立であると仮定されることが多い。すなわち、先行研究ではp(z|s)=p(z),p(z|s)とすることが多い。これに対して、本実施形態のフレームワークにおいては、式(10)の上位方策πθ(z|s)の振る舞いを表す必要がある。しかしながら式(10)の上位方策πθ(z|s)を正確に表現することは困難であるため、本実施形態では次式(16)で与えられるソフトマックス分布で近似する。
【0087】
【0088】
ダブルクリップQ学習(参考文献4参照)を採用したため、次式(18)となる。
【0089】
参考文献4;Scott Fujimoto, Herke van Hoof, and David Meger, “Addressing function approximation error in actor-critic methods”, In Proceedings of the International Conference on Machine Learning(ICML), pages 1587-1596, 2018.
【0090】
【0091】
ここで、式(16)の第2項は、VAEの標準的な実装と同様に平均二乗誤差として近似される。式(13)と式(16)に基づいて、実施形態では、混合した決定論的方策を最大化することによって次式(19)のように訓練する。なお、式(19)において、θは方策のパラメータを表すベクトルあり、φは事後分布のモデルのパラメータを表すベクトルであり、fπは方策πの性能を定量化する関数であり、lcvaeは(条件付き)変分下限((conditinal) variational lower bound)であり、aは行動である。
【0092】
【0093】
この目的関数は、重み付き最尤法と見なすことができる。従来の手法の例えばBCQ(参考文献5参照)やFischerBRC(参考文献6参照)のオフライン強化学習では、データセットに制約されたポリシーを得るために変分オートエンコーダ(VAE)を利用して、データセットに制約された方策を得ている。これらの手法で使用されるVAEによって学習される潜在的変数は、与えられたデータセットにおける状態と行動のペアの密度に基づく。
【0094】
参考文献5;Scott Fujimoto, David Meger, and Doina Precup, “ Off-policy deep reinforcement learning without exploration”, In Proceedings of the International Conference on Machine Learning(ICML), pages 2052-2062, 2019.
参考文献6;Ilya Kostrikov, Rob Fergus, Jonathan Tompson, and Ofir Nachum, “Offline reinforcement learning with fisher divergence critic regularization”, In Proceedings of the International Conference on Machine Learning (ICML), 2021.
【0095】
これに対して、本実施形態のアプローチは、目的関数の下限を最大化する潜在変数を学習する。したがって、本実施形態の手法は、従来の手法とは、学習される潜在変数の意味が異なる。また、従来手法では連続な潜在変数を学習するが、本実施形態の手法では離散的な潜在変数を学習する。
【0096】
また、本実施形態のアプローチは、離散的な潜在変数を学習することによって状態-行動空間を分割していると見做すことができる。
なお、従来手法のTD3-BC(非特許文献1参照)では、与えられたデータセットに含まれる行動の質に関わらず、その行動を模倣するような方策が推奨されている。
【0097】
しかしながら、オフライン強化学習では、与えられたデータセットに多様な行動によって得られたサンプルが含まれている可能性があり、データセット中の任意の行動を再現するようにポリシーを強制することは不適切である。
このため、本実施形態において、方策πθ(a|s,z)は、zの値が同じである状態と行動のペアを模倣することを促す。したがって、本実施形態において、方策πθ(a|s,z)は、zの値が同じである行動を模倣することを強制されることはない。
【0098】
そして、本実施形態の目的関数は、状態と行動ペアを適応的な重みで再構成する項で構成されており、従来手法のTD3-BCにおける次式(20)のような外挿につながる項は持っていない。したがって,本実施形態では、与えられたデータの分布内で行動をサンプリングおよび評価し,与えられたデータの分布から外れる行動は評価しない。
【0099】
【0100】
[混合方策のためのQ関数の推定]
次に、混合方策のためのQ関数の推定手法を説明する。
式(9)では混合政策を採用しているので、Q関数の推定は演算子に基づいている。これは、標準的なベルマン演算子とは若干異なる。本実施形態のフレームワークにおけるCriticの学習は、次式(21)の演算子に基づいて行う。
【0101】
【0102】
式(21)において、Tz演算子をlatent-max-Q演算子と呼ぶことにする。本実施形態のアルゴリズムを支持する以下の第1の定理と第2の定理を、以下のように証明することができる。
【0103】
I.第1の定理
表形式設定において、Tz演算子はL∞ノルムにおける収縮演算子である。したがって、Tz演算子の繰り返し適用により、任意の初期Q関数は一意の固定点に収束する。
【0104】
II.第2の定理
第1の定理で得られた一意な固定点をQzとし、潜在変数zを次式(22)として選び、μ(s,z)で与えられた行動を出力する方策をπzとする。このとき,Qzはπzに対応するQ関数である。
【0105】
【0106】
ここで、第2の定理の証明を説明する。式(21)を並べ替えると次式(23)のようになる。
【0107】
【0108】
このように定義から、QzはTzのユニークな固定点である。
【0109】
第2の定理に基づいて、latent-max-Qオペレータを適用してQ関数を推定する。本実施形態では、上述したようにダブルクリップQ学習を採用した。このように、データセットDが与えられたとき、Criticは次式(24)を最小化することにより学習する。
【0110】
【0111】
J=1,2に対して、ターゲット値は次式(25)のように計算される。
【0112】
【0113】
[実装]
以下、本実施形態の手法をValue-Weighted Variational Auto-Encoder(V2AE)という。このアルゴリズムは、
図8にまとめられる。
図8は、本実施形態に係る学習時のアルゴリズムの一例を示す図である。
図8において、符号g21の処理は、
図6のステップS12の処理に対応する。符号g22の処理は、
図6のステップS13の処理に対応する。符号g23の処理は、
図6のステップS14の処理に対応し、次式(26)を用いて潜在変数を計算する。符号g24の処理は、
図6のステップS15の処理に対応し、次式(27)を用いてターゲット値yを計算し、次式(28)を最小化するcriticを更新する。符号g25の処理は、
図6のステップS15の処理に対応し、次式(29)を最大化するようにActorと事後分布を更新する。なお、式(26)において、(z
~)’は、取り得る離散潜在変数の全てに対してmaxを考えるために用いた符号であり、推定された次の潜在変数である。
【0114】
【0115】
【0116】
【0117】
【0118】
このように、本実施形態では、離散潜在変数推定部13が式(26)を用いて潜在変数を計算し、価値関数推定部15が式(27)を用いてターゲット値yを計算し、次式(28)を最小化するcriticを更新することで行動価値関数の第3のモデルを更新し、式(29)を最大化するようにActorと事後分布を更新することで第1のモデルを更新する。
なお、
図8に示したアルゴリズムは一例であり、これに限らない。
【0119】
TD3と同様に、actorはCriticの解新後に一回ずつ更新される。また、アルゴリズムでは、dinterval=2とした。離散潜在変数のモデリングには、例えばGumbel-softmax法(例えば参考文献7参照)を用いた。また、TD3+BCで用いた状態の正規化を用いた。
【0120】
参考文献7;Eric Jang, Shixiang Gu, and Ben Poole, “Categorical reparameterization with gumbel-softmax”, In Proceedings of the International Conference on Learning Representations (ICLR), 2017.
【0121】
予備実験の結果、式(19)のfπ(s,a)=exp(βAπ(s,a))のとき、スケーリング係数は、性能に自明ではない影響を与え、βの最適な値はタスクごとに異なることがわかった。このため、タスクごとにスケーリングパラメータを変更することを避けるため、次式(26)のようにアドバンテージ関数の正規化を用いた。
【0122】
【0123】
式(26)において、Dbatchは与えられたデータセットDからサンプリングされたミニバッチで、定数であり、ここではα=10に設定した。
本実施形態の手法のV2AEでは、方策が決定論的な回方策の混合で与えられる。下位方策は、式(10)のように決定論的な方法で選択される。したがって、本実施形態のフレームワークにおける混合ポリシーは決定論的である。決定論的な方針を用いた場合は、狭いピークにCriticが過剰にフィットしてしまう可能性がある。これに対して、本実施形態の方策は決定論的であるため、TD3で使用されているターゲットポリシースムージングという手法も採用した。
これにより、式(25)の目標値は、次式(27)のように修正される。
【0124】
【0125】
式(27)において、εclipは、次式(28)で与えられる。
【0126】
【0127】
式(28)において、定数cはノイズの範囲を定義する。
【0128】
[評価]
次に、本実施形態の手法による混合ポリシーの学習効果、Criticのドロップアウト層の効果を確認した結果例を説明する。評価では、ワークステーション、物理シミュレータを使用した。
【0129】
まず、本実施形態の手法をD4RL(参考文献8参照)のベンチマークタスクで評価した。ベースラインとして、TD3-BC、CQL(参考文献9参照)、AWAC(非特許文献1参照)、easyBCQ(参考文献10参照)、EDAC(参考文献11参照)を評価対象とした。なお、AWACの実装では、TD3+BCと同様に状態の正規化とダブルクリップQ学習を用い、優位関数の正規化も行った。
【0130】
参考文献8;Justin Fu, Aviral Kumar, Ofir Nachum, George Tucker, and Sergey Levine, “D4rl: Datasets for deep data-driven reinforcement learning”, arXiv, 2020
参考文献9;Aviral Kumar, Aurick Zhou, George Tucker, and Sergey Levine, “Conservative q-learning for offline reinforcement learning”, In Advances in Neural Information Processing Systems(NeurIPS), 2020.
参考文献10;David Brandfonbrener, William F. Whitney, Rajesh Ranganath, and Joan Bruna, “Offline rl without off-policy evaluation”, In Advances in Neural Information Processing Systems (NeurIPS), 2021.
参考文献11;Gaon An, Seungyong Moon, Jang-Hyun Kim, and Hyun Oh Song, “Uncertainty-based offline reinforcement learning with diversified q-ensemble”, In Advances in Neural Information Processing Systems (NeurIPS), 2021.
【0131】
このように、評価におけるAWACと本実施形態の手法のV2AEの差は、方策のモデルの違いを表している。なお、ダブルクリッピングQ-learningは、easyBCQにも用いられている。
図9は、比較に用いた手法の違いを示す図である。なお、評価では、D4RL-v0データセットでベースライン手法を再実行した。なお、EDAC手法のKitchenとAdroitタスクの結果は省略した。
【0132】
まず、離散潜在変数の次元数の影響を評価した。
図10は、離散潜在変数の次元数の影響を評価した結果を示す図である。
図10の評価は、過去10回のテストエピソードにおける平均正規化スコアと5つのシード(seeds)であり、100万回更新後の性能を示す。横軸は潜在変数zの絶対値、縦軸は平均正規化スコアである。
【0133】
グラフg101は、D4RL-v0データセットの「walker2d-expert」に対する平均正規化スコアであるグラフg102は、D4RL-v0データセットの「walker2d-medium-expert」に対する平均正規化スコアである。グラフg103は、D4RL-v0データセットの「walker2d-medium」に対する平均正規化スコアである。グラフg104は、D4RL-v0データセットの「walker2d-medium-replay」に対する平均正規化スコアである。
図10のように、潜在変数の絶対値|Z|=8が一貫して満足のいく性能を示したので、以下の評価では|Z|=8を採用した。
【0134】
本実施形態の手法であるV2AEと、ベースライン手法との比較を
図11、
図12に示す。なお、以下の評価でもD4RL-v0データセットを用いている。
図11は、Mujocoタスクにおける本実施形態の手法であるV2AEと、ベースライン手法との比較を示す図である。なお、
図11において、HCheetahはHalf Cheetahの略である。なお、Half Cheetah、Hopper,Walker2d等は、非特許文献1参照。また、
図11の結果は、過去10回のテストエピソードと5つのシードの平均正規化スコア テストエピソードと5つのシードの平均正規化スコアを示している。
【0135】
図12は、KitchenとAdroitタスクにおける本実施形態の手法であるV2AEと、ベースライン手法との比較を示す図である。なお、
図12では、Kitchenタスクを「Kitch.」と省略し、humanタスクを「Hum.」と省略している。また、「complete」、「partial」、「mixed」は、Mujocoタスクの難易度を表し、「complete」が一番難易度が高く、「mixed」が一番難易度が低い。また、「pen」、「Hammer」、「door」、「relocate」はデータセットを表す(例えば参考文献12参照)。また、
図12の結果は、キッチンタスクとアドロイトタスクの結果であり、過去10回のテストエピソードにおける平均正規化スコアと5つのシードである。kitchen-complete-v0と*-human-v0については、データ点数が約1万点であるため、10,000回更新後の性能を表示している。これらのデータセットではデータ点数が約10,000点であるため、10,000回更新後の性能を示している。それ以外のデータセットについては、1000,000回更新後の性能を示している。
【0136】
参考文献12;Wenxuan Zhou, Sujay Bajracharya, David Held, “PLAS: Latent Action Space for Offline Reinforcement Learning”, 4th Conference on Robot Learning (CoRL 2020), Cambridge MA, USA, 2020
【0137】
図11のように、Mujocoタスクにおいて、本実施形態の手法のV2AEは、最新のオフライン強化学習の手法であるTD3+BCやEDACに匹敵する性能を達成した。
また、
図12のように、本実施形態の手法のV2AEの優位性は、KitchenタスクやAdroitタスクでより顕著に現れる。本実施形態の手法のV2AEは、これらのタスクにおいてベースライン法を明らかに上回っている。なお、AWACとV2AEの差は、方策の表現の違いによる影響によるものである。本実施形態の手法のV2AEはAWACと比較して、同等もしくはそれ以上の性能を示した。
【0138】
図11、
図12の結果から、強化学習において混合ポリシーの利用が有効であることがわかる。特に、本実施形態の手法のV2AEは、AdroitタスクやKitchenタスクにおいて最も良い性能を示した。
【0139】
[学習した潜在変数の可視化]
次に、学習した潜在変数を可視化した例を説明する。
図13は、ペン人間-v0タスクにおける状態-行動の組を可視化した例を示す図である。
図13において、丸の濃淡は、潜在変数の値を示す。画像g151は、q
φ(s,a)からサンプリングされた潜在変数の分布を可視化した例である。画像g152は、z=arg max{Q
w(s,μ(s,z))}で与えられる潜在変数の分布を可視化した例である。
【0140】
なお、状態行動ペアの次元は、t-SNE[36]を用いて次元削減した。潜在変数の値の分布は、ステート・アクション空間がどのように分割されているかを示している。目的関数の一部としてKL情報量DKL(q(z|s,a)||p(z|s))を最小化するようにした。このため、q(z|s,a)とp(z|s)から生成されるサンプルは類似しているはずである。
【0141】
pen-human-v0タスクにおける下位方策の活性化の様子を
図14~
図16に示す。なお、タスクは、ペンを正しい角度で把持するタスクである。
図14は、pen-human-v0タスクにおける下位方策の活性化の様子であり、20、40、60、80回目の時間ステップにおける状態を示す図である。
図15は、pen-human-v0タスクにおける下位方策の活性化の様子であり、各状態における各サブポリシーの作用値を示す図である。
図14、
図15において、画像g201とg251は20回目の時間ステップにおける状態、画像g202とg252は40回目の時間ステップにおける状態、画像g203とg253は60回目の時間ステップにおける状態、画像g203とg254は80回目の時間ステップにおける状態である。また、
図15において、横軸は、潜在変数z(0~7,8通り)、縦軸はQ(s,a,z)-min
z(Q(s,a,z))の値である。
【0142】
ここで、オプションフレームワークに関する先行研究では、既存の手法の課題として、一部のオプションのみが活性化され、残りのオプションは有用でない可能性があることが報告されている。
これに対して、
図15のように、20回目の時間ステップにおいては潜在変数z=4が最大であり、40回目の時間ステップにおいては潜在変数z=5が最大であり、60回目の時間ステップにおいては潜在変数z=3が最大であり、80回目の時間ステップにおいては潜在変数z=3が最大であった。このように、本実施形態では、
図15のように、各下位方策の値が時間と共に変化し、実行中に様々な下位方策が活性化されることを示している。このように、本実施形態の手法によれば、従来手法の課題を解決できる。
【0143】
次に、関数の推定誤差について説明する。
図16は、本実施形態の手法であるV2AEと、比較例の手法のAWACを用いた学習時の正規化スコアとcritic loss関数の値を示す図である。
図16において、横軸は時間ステップ(1e6)、縦軸は正規化したスコアである。また、グラフg301~g304において、線g311は本実施形態の手法のV2AEであり、線g312は比較例のAWACである。また、グラフg301は、halfcheetah-medium-v0に対する正規化スコアとcritic loss関数の値である。グラフg302は、halfcheetah-medium-v0に対する正規化スコアとcritic loss関数の値である。グラフg303は、walker2d-medium-replay-v0に対する正規化スコアとcritic loss関数の値である。グラフg304は、walker2d-medium-replay-v0に対する正規化スコアとcritic loss関数の値である。なお、critic損失として、式(24)で与えられるcritic損失の値を5000回更新するごとにプロットしている。
【0144】
先行研究では、Q関数の推定誤差が学習の繰り返しによって蓄積されることが示されている。
図15のように、HalfCheetahのmedium-v0タスクの比較例の従来手法AWACにおいて、関数近似の誤差が蓄積していることが確認できる。これに対して、本実施形態の手法V2AEでは、関数近似誤差が明らかに小さく、比較例の手法AWACよりもポリシーの性能が向上していることが
図15よりわかる。
【0145】
比較例の手法AWACと、本実施形態の手法V2AEとの違いは、方策の表現である。このため、これらの結果は、本実施形態のように混合ポリシーを用いることで、混合方策を学習することにより、Q関数の推定誤差が累積する問題が軽減され、学習性能が向上することを示唆している。
【0146】
以上のように、本実施形態では、混合方策の学習のための手法V2AEを用いるようにした。本実施形態の手法V2AEは、離散的な潜在変数の学習により状態作用空間を分割し、各領域で対応する下位方策を学習するアプローチと解釈することができる。評価の結果、本実施形態のアプローチはオフライン強化学習における外挿誤差を軽減できる。また、本実施形態の手法V2AEは、D4RLのいくつかのベンチマークタスクにおいて最高性能を示すことが確認された。
【0147】
このように、本実施形態の手法で学習した方策の実行時には、すべての下位方策が活性化されるわけではなく、状況に応じた離散潜在変数が推定され、それに対応する下位方策が逐次、選択され活性化する。
これにより、本実施形態によれば、あるデータセットが多様な質のサンプルを含んでいる場合、潜在変数の一部は低性能な行動のサンプルと関連し、対応する下位方策の性能も低くなるため,そのような下位方策は実行時に活性化されない。本実施形態によれば、逆にデータセット内の高性能な行動サンプルの情報は積極的に活用される。
【0148】
本実施形態によれば、離散変数および混合方策を学習することにより、学習性能向上が確認された。具体的には、Datasets for Deep Data-Driven Reinforcement Learning(D4RL)と呼ばれる既存のベンチマークタスクのいくつかにおいて既存手法を上回る性能を示すことが確認され。価値関数の推定誤差が累積する問題や,外挿誤差が軽減された。
【0149】
なお、以下の説明では、強化学習をオフラインで行う例を説明するが、本実施形態の手法や構成は、オンラインにも適用可能である。
【0150】
<付記>
[第1の定理の証明]
ここで、第1の定理の証明を説明する。次式(29)で与えられる演算子Tzについて考える。
【0151】
【0152】
Tzの縮約性を証明するために、次式(30)、次式(31)で与えられる無限大ノルムを用いる。
【0153】
【0154】
【0155】
[潜在条件付きポリシーの活性化に関する追加結果]
図17は、pen-human-v0タスクにおける下位方策の活性化を第1のエピソードの結果を示す図である。
図18は、pen-human-v0タスクにおける下位方策の活性化を第2のエピソードの結果を示す図である。
図19は、pen-human-v0タスクにおける下位方策の活性化を第3のエピソードの結果を示す図である。なお、
図17~18において、グラフg405~g408、g415~g418、g425~g428の横軸と縦軸は、
図15と同様である。
図17~18において、画像g401~g404、g411~g414、g421~g424の画像は、タスクにおけるハンドと物体の状態を示している。
図17~18において、画像g409、g419、g429の横軸はサンプリング時間である。画像g409、g419、g429は、各エピソードにおいて、20、40、60、および80回での最も大きい潜在変数zの変化を表している。また、
図17~
図19では、1万回の更新で学習させた同じ方策を用いた。
【0156】
図17~
図19のように、各エピソードで物体の目標姿勢が異なり、与えられた目標を達成するために異なるサブポリシーが活性化されていることが分かる。この定性的な結果は、異なる振る舞いがそれぞれのサブポリシーに符号化されているという主張を支持するものである。
【0157】
[ハイパーパラメータと実装の詳細]
以下では、評価等で用いたハイパーパラメータと実装の詳細について説明する。
評価では、TD3+BC、CQL、EDACについて、各論文の著者の実装を使用した。
また、easyBCQとAWACは、本実施形態の手法V2AEとの公平な比較のため、独自に実装した。easyBCQとAWACの実装では、ダブルクリッピングQ学習が採用されている。
【0158】
本実施形態の手法V2AEでは,上位方策π(z|s)と下位方策π(a|s,z)の両方が決定論的であるため、方策は決定論的である。したがって,状態値関数は、次式(32)で与えられる。
【0159】
【0160】
したがって、アドバンテージ関数は次式(33)で与えられる。
【0161】
【0162】
方策の更新では,次式(34)の第2項のターゲットactorを使用した。このため、本実施形態の手法の実装では、アドバンテージ関数は、次式(34)以下のように近似される。
【0163】
【0164】
なお、本発明における学習装置1の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより学習装置1が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0165】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0166】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。
【符号の説明】
【0167】
1…学習装置、11…取得部、12…記憶部、13…離散潜在変数推定部、14…最適行動学習部、15…価値関数推定部、16…同定部、17…処理部、131…第1のモデル、141…第2のモデル、151…第3のモデル