特開2024-5890 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 本田技研工業株式会社の特許一覧

特開2024-5890学習装置、および学習方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024005890

(43)【公開日】2024-01-17

(54)【発明の名称】学習装置、および学習方法

(51)【国際特許分類】

G06N 20/00 20190101AFI20240110BHJP

【ＦＩ】

G06N20/00

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2022106325

(22)【出願日】2022-06-30

(71)【出願人】

【識別番号】000005326

【氏名又は名称】本田技研工業株式会社

(74)【代理人】

【識別番号】100165179

【弁理士】

【氏名又は名称】田▲崎▼ 聡

(74)【代理人】

【識別番号】100126664

【弁理士】

【氏名又は名称】鈴木慎吾

(74)【代理人】

【識別番号】100154852

【弁理士】

【氏名又は名称】酒井太一

(74)【代理人】

【識別番号】100194087

【弁理士】

【氏名又は名称】渡辺伸一

(72)【発明者】

【氏名】長隆之

(72)【発明者】

【氏名】林昭伸

(57)【要約】

【課題】強化学習における課題を軽減することができる学習装置、および学習方法を提供することを目的とする。
【解決手段】学習装置は、方策を学習する対象である状態情報と行動情報からなるデータセットを取得するデータセット取得部と、状態情報と行動情報から特徴の性質を表す離散潜在変数を推定する離散潜在変数推定部と、状態情報と離散潜在変数を用いて最適な行動を学習する最適行動学習部と、状態情報と行動情報から行動価値を学習する価値関数推定部と、最適行動学習部の結果と価値関数推定部の結果を用いて行動価値が最大となる前記離散潜在変数を同定する同定部と、を備える。
【選択図】図３

【特許請求の範囲】

【請求項1】

方策を学習する対象である状態情報と行動情報からなるデータセットを取得するデータセット取得部と、
前記状態情報と前記行動情報から特徴の性質を表す離散潜在変数を推定する離散潜在変数推定部と、
前記状態情報と前記離散潜在変数を用いて最適な行動を学習する最適行動学習部と、
前記状態情報と前記行動情報から行動価値を学習する価値関数推定部と、
前記最適行動学習部の結果と前記価値関数推定部の結果を用いて行動価値が最大となる前記離散潜在変数を同定する同定部と、
を備える学習装置。

【請求項2】

方策を学習する対象である状態情報と行動情報からなるデータセットを取得する取得ステップと、
前記データセットに含まれる前記状態情報と前記行動情報から、前記データセットの特徴の性質を表す離散潜在変数を推定する推定ステップと、
前記状態情報と、推定された前記離散潜在変数とを用いて最適な行動を学習する第１学習ステップと、
前記状態情報と前記行動情報から行動価値を学習する第２学習ステップと、
前記第１学習ステップで学習した結果と、前記第２学習ステップで学習した結果を用いて行動価値が最大となる前記離散潜在変数を同定する同定ステップと、
を含む学習方法。

【請求項3】

同定された前記離散潜在変数を、前記第２学習ステップに入れて価値関数を更新する価値関数更新ステップと、
更新された前記価値関数を、前記推定ステップと前記第１学習ステップとに入れて、前記離散潜在変数と前記最適な行動を更新する潜在変数行動更新ステップと、
前記価値関数更新ステップと潜在変数行動更新ステップとを繰り返して、前記離散潜在変数と、前記最適な行動を学習する第３学習ステップと、
を含む、請求項２に記載の学習方法。

【請求項4】

学習した方策の実行時には、前記第１学習ステップが全て活性化されるわけではなく、状況に応じた前記離散潜在変数が推定され、推定された前記離散潜在変数に対応する下位方策が逐次、選択され活性化する、
請求項２または請求項３に記載の学習方法。

【請求項5】

ｚは前記離散潜在変数であり、ｚ’は次の前記離散潜在変数であり、ｓは状態であり、ｓ’は次の状態であり、Ｑ_ｗはベクトルｗでパラメータ化されたＱ値の推定値であり、ｙはターゲット値であり、ｒは学習における報酬であり、γは割引係数であり、θは方策のパラメータを表すベクトルであり、φは事後分泌のモデルのパラメータを表すベクトルであり、（ｚ^～）’は推定された次の前記離散潜在変数であり、ｆ^πは方策πの性能を定量化する関数であり、ｌ_ｃｖａｅは変分下限であり、ａは行動であり、
前記推定ステップは、次式を用いて潜在変数を計算し、

【数1】

前記価値関数更新ステップは、次式を用いてターゲット値ｙを計算し、

【数2】

前記価値関数更新ステップは、次式を最小化するｃｒｉｔｉｃを更新することで行価値関数を更新し、

【数3】

前記潜在変数行動更新ステップは、次式を最大化するようにＡｃｔｏｒと事後分布を更新することで第１のモデルを更新する、

【数4】

請求項３に記載の学習方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、学習装置、および学習方法に関する。

【背景技術】

【0002】

強化学習は、様々なアプリケーションで目覚しい成果を上げているが、これらの成功の多くは強化学習エージェントが学習過程において環境と相互作用するオンライン学習環境において達成されたものである。強化学習では、例えば複数の入力パラメータを用いて予測モデルを生成する（例えば特許文献１参照）。

【0003】

強化学習では、環境との相互作用させる時間と計算コストがかかる。このため、相互作用の回数を減らすため、バッチ強化学習とも呼ばれるオフライン強化学習に注目が集まっている（例えば非特許文献１参照）。オフライン強化学習では、任意かつ未知のプロセスで収集されたデータセットから最適な方策を学習することが目標となる。近年の研究により、オフライン強化学習は、満足な性能を得るために必要な環境との相互作用の回数を大幅に削減できることが示された。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０２０－１４８４１号公報

【非特許文献】

【0005】

【非特許文献1】Ashvin Nair, Abhishek Gupta, Murtaza Dalal,他、 “AWAC: Accelerating Online Reinforcement Learning with Offline Datasets”、Machine Learning (cs.LG); Robotics (cs.RO); Machine Learning (stat.ML)、arXiv:2006.09359 [cs.LG] 、2006

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、従来のオフライン強化学習アルゴリズムによって得られる方策の性能は、与えられたデータセットの質に大きく依存する。最近の研究において、オフライン強化学習では、対象の環境とのオンラインでの相互作用がないため，価値関数の近似誤差や外挿誤差などに課題があることが報告されている。

【0007】

本発明は、上記の問題点に鑑みてなされたものであって、強化学習における課題を軽減することができる学習装置、および学習方法を提供することを目的とする。

【課題を解決するための手段】

【0008】

（１）上記目的を達成するため、本発明の一態様に係る学習装置は、方策を学習する対象である状態情報と行動情報からなるデータセットを取得するデータセット取得部と、前記状態情報と前記行動情報から特徴の性質を表す離散潜在変数を推定する離散潜在変数推定部と、前記状態情報と前記離散潜在変数を用いて最適な行動を学習する最適行動学習部と、前記状態情報と前記行動情報から行動価値を学習する価値関数推定部と、前記最適行動学習部の結果と前記価値関数推定部の結果を用いて行動価値が最大となる前記離散潜在変数を同定する同定部と、を備える。

【0009】

（２）上記目的を達成するため、本発明の一態様に係る学習方法は、方策を学習する対象である状態情報と行動情報からなるデータセットを取得する取得ステップと、前記データセットに含まれる前記状態情報と前記行動情報から、前記データセットの特徴の性質を表す離散潜在変数を推定する推定ステップと、前記状態情報と、推定された前記離散潜在変数とを用いて最適な行動を学習する第１学習ステップと、前記状態情報と前記行動情報から行動価値を学習する第２学習ステップと、前記第１学習ステップで学習した結果と、前記第２学習ステップで学習した結果を用いて行動価値が最大となる前記離散潜在変数を同定する同定ステップと、を含む。

【0010】

（３）また、本発明の一態様に係る学習方法において、同定された前記離散潜在変数を、前記第２学習ステップに入れて価値関数を更新する価値関数更新ステップと、更新された前記価値関数を、前記推定ステップと前記第１学習ステップとに入れて、前記離散潜在変数と前記最適な行動を更新する潜在変数行動更新ステップと、前記価値関数更新ステップと潜在変数行動更新ステップとを繰り返して、前記離散潜在変数と、前記最適な行動を学習する第３学習ステップと、を含むようにしてもよい。

【0011】

（４）また、本発明の一態様に係る学習方法において、学習した方策の実行時には、前記第１学習ステップが全て活性化されるわけではなく、状況に応じた前記離散潜在変数が推定され、推定された前記離散潜在変数に対応する下位方策が逐次、選択され活性化するようにしてもよい。

【0012】

（５）また、本発明の一態様に係る学習方法において、ｚは前記離散潜在変数であり、ｚ’は次の前記離散潜在変数であり、ｓは状態であり、ｓ’は次の状態であり、Ｑ_ｗはベクトルｗでパラメータ化されたＱ値の推定値であり、ｙはターゲット値であり、ｒは学習における報酬であり、γは割引係数であり、θは方策のパラメータを表すベクトルであり、φは事後分泌のモデルのパラメータを表すベクトルであり、（ｚ^～）’は推定された次の前記離散潜在変数であり、ｆ^πは方策πの性能を定量化する関数であり、ｌ_ｃｖａｅは変分下限であり、ａは行動であり、前記推定ステップは、次式を用いて潜在変数を計算し、

【数1】

前記価値関数更新ステップは、次式を用いてターゲット値ｙを計算し、

【数2】

前記価値関数更新ステップは、次式を最小化するｃｒｉｔｉｃを更新することで行価値関数を更新し、

【数3】

前記潜在変数行動更新ステップは、次式を最大化するようにＡｃｔｏｒと事後分布を更新することで第１のモデルを更新する、

【数4】

ようにしてもよい。

【発明の効果】

【0013】

（１）～（５）によれば、強化学習における課題を軽減することができる。
（１）～（５）によれば、離散変数および混合方策を学習することにより、学習性能向上できる。

【図面の簡単な説明】

【0014】

【図1】強化学習の概要を説明するための図である。

【図2】実施形態で用いるモデルを説明するための図である。

【図3】実施形態に係る学習装置の構成例を示す図である。

【図4】実施形態で用いるデータセットの例を示す図である。

【図5】実施形態に係る学習処理の手順概要例のフローチャートである。

【図6】実施形態に係る学習処理の手順例のフローチャートである。

【図7】実施形態に係る学習済みのモデルを用いて行動を推定する場合の処理手順例のフローチャートである。

【図8】実施形態に係る学習時のアルゴリズムの一例を示す図である。

【図9】比較に用いた手法の違いを示す図である。

【図10】離散潜在変数の次元数の影響を評価した結果を示す図である。

【図11】Ｍｕｊｏｃｏタスクにおける本実施形態の手法であるＶ２ＡＥと、ベースライン手法との比較を示す図である。

【図12】ＫｉｔｃｈｅｎとＡｄｒｏｉｔタスクにおける本実施形態の手法であるＶ２ＡＥと、ベースライン手法との比較を示す図である。

【図13】ペン人間－ｖ０タスクにおける状態－行動の組を可視化した例を示す図である。

【図14】ｐｅｎ－ｈｕｍａｎ－ｖ０タスクにおける下位方策の活性化の様子であり、２０、４０、６０、８０回目の時間ステップにおける状態を示す図である。

【図15】ｐｅｎ－ｈｕｍａｎ－ｖ０タスクにおける下位方策の活性化の様子であり、各状態における各サブポリシーの作用値を示す図である。

【図16】実施形態の手法であるＶ２ＡＥと、比較例の手法のＡＷＡＣを用いた学習時の正規化スコアとｃｒｉｔｉｃｌｏｓｓ関数の値を示す図である。

【図17】ｐｅｎ－ｈｕｍａｎ－ｖ０タスクにおける下位方策の活性化を第１のエピソードの結果を示す図である。

【図18】ｐｅｎ－ｈｕｍａｎ－ｖ０タスクにおける下位方策の活性化を第２のエピソードの結果を示す図である。

【図19】ｐｅｎ－ｈｕｍａｎ－ｖ０タスクにおける下位方策の活性化を第３のエピソードの結果を示す図である。

【発明を実施するための形態】

【0015】

以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の説明に用いる図面では、各部材を認識可能な大きさとするため、各部材の縮尺を適宜変更している。
なお、実施形態を説明するための全図において、同一の機能を有するものは同一符号を用い、繰り返しの説明は省略する。
また、本願でいう「ＸＸに基づいて」とは、「少なくともＸＸに基づく」ことを意味し、ＸＸに加えて別の要素に基づく場合も含む。また、「ＸＸに基づいて」とは、ＸＸを直接に用いる場合に限定されず、ＸＸに対して演算や加工が行われたものに基づく場合も含む。「ＸＸ」は、任意の要素（例えば、任意の情報）である。

【0016】

［強化学習の概要］
まず、強化学習の概要を説明する。
図１は、強化学習の概要を説明するための図である。図１のように、強化学習では、例えば、環境から「状態」を取得して、取得した「状態」と「報酬」を方策へ入力する。そして、強化学習では、入力された「状態」と「報酬」に基づいて、方策が「行動」を推定する。そして、強化学習では、推定された「行動」を環境で行わせ、その状態を再び取得する。

【0017】

［モデルの説明］
本実施形態では、強化学習に、以下のような３つのモデルを用いる。
図２は、本実施形態で用いるモデルを説明するための図である。符号ｇ１１は、第１のモデルであるエンコーダの入出力を示す画像である。符号ｇ１１のように、エンコーダは、状態と行動が入力され、与えられた状態と行動に対して離散潜在変数（例えば［０，０，１，０］）を推定して出力する。なお、以下の説明では、「離散潜在変数」を「潜在変数」ともいう。

【0018】

符号ｇ１２は、第２のモデルである下位方策の入出力を示す画像である。符号ｇ１２のように、下位方策は、推定された潜在変数と、状態が入力され、与えられた状態と潜在変数に対して最適な行動を推定して出力する。

【0019】

符号ｇ１３は、第３のモデルである行動価値関数の入出力を示す画像である。符号ｇ１３のように、行動価値関数は、状態と行動が入力され、与えられた状態と行動に対して
行動価値を推定して出力する。

【0020】

［学習装置の構成例］
次に、学習を行う学習装置１の構成例を説明する。
図３は、本実施形態に係る学習装置の構成例を示す図である。図３のように、学習装置１は、例えば、取得部１１、記憶部１２、離散潜在変数推定部１３、最適行動学習部１４、価値関数推定部１５、同定部１６、および処理部１７を備える。

【0021】

取得部１１は、報酬と、方策を学習する対象である状態情報と行動情報からなるデータセットを取得する。なお、データセットに報酬が含まれていない場合は、学習したいタスクに応じて報酬だけ計算しなおすことが必要となる。

【0022】

記憶部１２は、データセットを記憶する。記憶部１２は、処理部１１７が処理に用いるプログラム、所定回数等を記憶する。

【0023】

離散潜在変数推定部１３は、第１のモデル（エンコーダ）１３１を備える。離散潜在変数推定部１３は、状態情報と前記行動情報から特徴の性質を表す離散潜在変数を推定する。

【0024】

最適行動学習部１４は、第２のモデル（下位方策）１４１を備える。最適行動学習部１４は、状態情報と離散潜在変数を用いて、行動を推定する第２のモデル１４１で推定することで、最適な行動を学習する。

【0025】

価値関数推定部１５は、第３のモデル（行動価値関数）１５１を備える。価値関数推定部１５は、状態情報と行動情報から、行動価値を推定する、第３のモデル１５１を更新することで行動価値を学習する。

【0026】

同定部１６は、最適行動学習部の結果と価値関数推定部の結果を用いて、行動価値が最大となる離散潜在変数を同定する。

【0027】

処理部１７は、学習開始時に第１のモデル１３１、第２のモデル１４１、第３のモデル１５１を初期化する。処理部１７は、データセットから状態ｓ、行動ａ、次の状態ｓ’、報酬ｒの組の一部を抜き出す。

【0028】

［データセットの例］
次に、データセットの例を説明する。
図４は、本実施形態で用いるデータセットの例を示す図である。図４のように、データセットは、例えば、状態ｓ、行動ａ、次の状態ｓ’、および報酬ｒの４つの要素の組からなる。

【0029】

［学習処理手順例］
次に、学習処理の手順例を説明する。まず、学習の概要処理を、図２を参照しつつ、図５を用いて説明する。図５は、本実施形態に係る学習処理の手順概要例のフローチャートである。

【0030】

（ステップＳ１）取得部１１は、方策を学習する対象である状態情報と行動情報からなるデータセットを予め取得し、記憶部１２に取得したデータセットを記憶させる（取得ステップ）。

【0031】

（ステップＳ２）処理部１７は、第１のモデル１３１と、第２のモデル１４１と、第３のモデル１５１を初期化する。

【0032】

（ステップＳ３）離散潜在変数推定部１３は、データセットに含まれる状態情報と行動情報と、第１モデル１３１を用いて、特徴の性質を表す離散潜在変数を推定する（推定ステップ）。

【0033】

（ステップＳ４）最適行動学習部１４は、状態情報と、推定された離散潜在変数と、第２のモデル１４１を用いて、最適な行動を学習する（第１学習ステップ）。

【0034】

（ステップＳ５）価値関数推定部１５は、状態情報と行動情報と、第３のモデル１５１を用いて、行動価値を学習する（第２学習ステップ）。

【0035】

（ステップＳ６）同定部１６は、ステップＳ４で学習した結果と、ステップＳ５で学習した結果を用いて、行動価値が最大となる離散潜在変数を同定する（同定ステップ）。

【0036】

次に、モデルの更新を含めた学習の処理手順例を説明する。
図６は、本実施形態に係る学習処理の手順例のフローチャートである。なお、学習装置１は、行動毎に以下の処理によって学習を行う。また、学習装置１は、以下の処理を所定回数繰り返す。

【0037】

（ステップＳ１１）取得部１１は、予めデータセットを取得し、記憶部１２に取得したデータセットを記憶させる（取得ステップ）。

【0038】

（ステップＳ１２）処理部１７は、第１のモデル１３１と、第２のモデル１４１と、第３のモデル１５１を初期化する。

【0039】

（ステップＳ１３）処理部１７は、データセットから状態ｓ、行動ａ、次の状態ｓ’、報酬ｒの組の一部を抜き出す。処理部１７は、例えば、２５６組から１０２４組程度の数の複数の組を選ぶ。

【0040】

（ステップＳ１４）同定部１６は、状態ｓに対し，行動価値を最大化する潜在変数ｚを同定する。

【0041】

（ステップＳ１５）価値関数推定部１５は、ステップＳ１３で同定された潜在変数ｚを使いて、第３のモデル１５１（行動価値関数）を学習させて更新する。

【0042】

（ステップＳ１６）離散潜在変数推定部１３は、状態ｓ、行動ａに対応する潜在変数を推定する第１のモデル１３１（エンコーダ）を学習させて更新する。

【0043】

（ステップＳ１７）離散潜在変数推定部１３は、状態ｓ、行動ａに対応する潜在変数ｚを第１のモデル１３１で推定する。

【0044】

（ステップＳ１８）最適行動学習部１４は、状態ｓと、ステップＳ１６で推定された潜在変数を用いて、第２のモデル１４１（下位方策）を学習させて更新する。

【0045】

なお、ステップＳ１４～１８で用いる状態ｓは、ステップＳ１３で選んだものを使い続ける。処理では、複数のｓに対して同時に同じ作業を行い、その結果を踏まえてそれぞれのモデルを更新する。

【0046】

［使用時の処理手順例］
次に、学習済みのモデルを用いて行動を推定する場合の処理手順例を説明する。
図７は、本実施形態に係る学習済みのモデルを用いて行動を推定する場合の処理手順例のフローチャートである。

【0047】

（ステップＳ２１）学習装置１は、観測された状態に対して、学習済みの第１のモデル１３１を用いて行動価値を最大化する潜在変数を決定する。

【0048】

（ステップＳ２２）学習装置１は、決定された潜在変数をもとに、学習済みの第２のモデル１４１を用いて行動を決定する。

【0049】

［学習手法の説明］
以下では、本実施形態で用いる学習手法の原理等を説明する。
まず、次式（１）の組で定義されるマルコフ決定過程（MDP）の元での強化学習について考える。

【0050】

【数5】

【0051】

なお、以下の説明において。式（１）において、明細書中では１つめをＳ、２つめをＡ、３つめをＰで表す。Ｓは状態空間であり、Ａは行動空間であり、Ｐ（ｓ_ｔ＋１｜ｓ_ｔ，ａ_ｔ）は遷移確率密度であり、ｒ（ｓ，ａ）は報酬関数であり、γは割引係数であり、ｄ（ｓ_０）は初期状態の確率密度である。

【0052】

次式（２）の方策π（ａ｜ｓ）は、与えられた状態に対する行動の条件付き確率密度関数と定義される。なお、二重線文字Ｒは、実施全体の集合である。

【0053】

【数6】

【0054】

強化学習の目的は、期待される次式（３）の累積割引報酬を最大化する方策を同定することである。

【0055】

【数7】

【0056】

ここで、Ｒ_ｔは次式（４）である。

【0057】

【数8】

【0058】

また、Ｑ関数Ｑ^π（ｓ，ａ）は、与えられたマルコフ決定過程のもとで、状態ｓから出発し行動ａをとり方策πに従ったときの報酬の期待値である。オフライン強化学習では、未知の方策によって収集された状態、行動、報酬からなる次式（５）のデータセットを仮定する。

【0059】

【数9】

【0060】

オフライン強化学習の目標は、データセットＤを用いて報酬の期待値を最大化する方策を得ることである。

【0061】

ここで、オフライン強化学習の課題を以下のように定式化する。データセットＤ（式（５））が与えられ、学習過程では、環境と相互作用することなく、環境との相互作用によって得られる報酬を最大化する方策πを得ることが目標である。
オフライン強化学習では、報酬の期待値は与えられたデータセットに格納されている状態に関して評価される。したがって、目的関数は次式（６）で与えられる。

【0062】

【数10】

【0063】

式（６）において、ｆ^πは方策πの性能を定量化する関数である。強化学習では、参考文献１に示されているように、ｆにはいくつかの選択肢がある。例えば、ＴＤ３手法（例えば参考文献２参照）では行動関数ｆ^π（ｓ，ａ）＝Ｑ^π（ｓ，ａ）を採用し、Ａ２Ｃ（Advantage Actor Critic）手法では、優位関数ｆ^π（ｓ，ａ）＝Ａ^π（ｓ，ａ）を採用している。なお、Ａ２Ｃ手法は、Ａ３Ｃのバリアントであり、Ａ３Ｃ（Asynchronous Actor Critic）から非同期（Asynchronous）要素を除いた手法である。

【0064】

参考文献１；John Schulman, Philipp Moritz, Sergey Levine, Michael Jordan, and Pieter Abbeel, “High-dimensional continuous control using generalized advantage estimation”, In Proceedings of the International Conference on Learning Representations (ICLR), 2016.

【0065】

参考文献２；Scott Fujimoto and Shixiang Shane Gu, “A minimalist approach to offline reinforcement learning”, Advances in Neural Information Processing Systems (NeurIPS), 2021.

【0066】

その他の先行研究では、指数関数を伴う計算を採用しており、次式（７）または次式（８）で表される。

【0067】

【数11】

【0068】

【数12】

【0069】

一般性を損なわず、目的関数は式（６）で与えられると仮定する。先行研究では、正則化項を追加して方策を学習する目的関数を提案することが多いが、本実施形態では、目的関数をオフライン強化学習のシンプルな目的関数である（１）の変分下界として導出する。

【0070】

［混合方策］
本実施形態では、多峰性を持つ分布で表現できる次式（９）のモデルを導入する。次式（９）で与えられるモデルは、方策の混合モデルである。

【0071】

【数13】

【0072】

式（９）において、ｚは離散的な潜在変数、π（ｓ｜ａ）は潜在変数を決定する上位方策、π（ｓ｜ａ，ｚ）は与えられたｓとｚに対する行動を決定する下位方策である。下位方策π（ｓ｜ａ，ｚ）は決定的な方策であると仮定する。このため、下位方策は、与えられたｓとｚに対する行動をａ＝μ_θ（ｓ，ｚ）として決定的に決める。なお、μ_θ（ｓ，ｚ）はベクトルθでパラメータ化されたものである。さらに上位方策π（ｓ｜ａ）が潜在変数を、次式（１０）のように決定する。

【0073】

【数14】

【0074】

式（１０）において、Ｑ_ｗ（ｓ，ｚ）は、ベクトルｗでパラメータ化されたＱ値の推定値である。

【0075】

［変分下界の最大化による混合ポリシーの学習］
ここで、任意のｓとａに対してｆ^π（ｓ，ａ）＞０のとき、Ｊｅｎｓｅｎの不等式を用いてｌｏｇ（Ｊ（π））の変分下界を次式（１１）～次式（１３）のように求めることができる。

【0076】

【数15】

【0077】

【数16】

【0078】

【数17】

【0079】

式（１３）の第２稿は方策πから独立している。したがって、Ｊ（π）の変化下界を最大化するには、次式（１４）式を最大化すればよい。

【0080】

【数18】

【0081】

ｆ^π（ｓ，ａ）＝ｅｘｐ（Ａ^π（ｓ，ａ））を採用し、方策がガウス分布の場合、結果として得られるアルゴリズムはＡＷＡＣ（非特許文献１）と等価である。離散的な潜在変数を用いた混合方策を採用するために，式（１３）の目的関数をさらに分析すると、次式（１５）のようになる。

【0082】

【数19】

【0083】

式（１５）において、Ｄ_ＫＬ（ｑ（ｚ｜ｓ，ａ）｜｜ｐ（ｚ｜ｓ，ａ））＞０であるので、条件付きＶＡＥ（参考文献３参照）でしようされているように変分下界を変形すると次式（１６）が得られる。なお、ｐ、ｑは確率である。なお、ｑ_Φ（ｚ｜ｓ_ｉ，ａ_ｉ）の項は、ｑがΦ（変分パラメータ）でパラメータ化されていることを表している。また、π_θ（ａ_ｉ｜ｓｉ，ｚ）の項は、πがθでパラメータ化されていることを表している。

【0084】

【数20】

【0085】

参考文献３；Kihyuk Sohn, Honglak Lee, and Xinchen Yan, “Learning structured output representation using deep conditional generative models”, In Advances in Neural Information Processing Systems(NeurIPS), 2015.

【0086】

先行研究では，ｚがｓから統計的に独立であると仮定されることが多い。すなわち、先行研究ではｐ（ｚ｜ｓ）＝ｐ（ｚ），ｐ（ｚ｜ｓ）とすることが多い。これに対して、本実施形態のフレームワークにおいては、式（１０）の上位方策π_θ（ｚ｜ｓ）の振る舞いを表す必要がある。しかしながら式（１０）の上位方策π_θ（ｚ｜ｓ）を正確に表現することは困難であるため、本実施形態では次式（１６）で与えられるソフトマックス分布で近似する。

【0087】

【数21】

【0088】

ダブルクリップＱ学習（参考文献４参照）を採用したため、次式（１８）となる。

【0089】

参考文献４；Scott Fujimoto, Herke van Hoof, and David Meger, “Addressing function approximation error in actor-critic methods”, In Proceedings of the International Conference on Machine Learning(ICML), pages 1587-1596, 2018.

【0090】

【数22】

【0091】

ここで、式（１６）の第２項は、ＶＡＥの標準的な実装と同様に平均二乗誤差として近似される。式（１３）と式（１６）に基づいて、実施形態では、混合した決定論的方策を最大化することによって次式（１９）のように訓練する。なお、式（１９）において、θは方策のパラメータを表すベクトルあり、φは事後分布のモデルのパラメータを表すベクトルであり、ｆ^πは方策πの性能を定量化する関数であり、ｌ_ｃｖａｅは（条件付き）変分下限（（conditinal） variational lower bound）であり、ａは行動である。

【0092】

【数23】

【0093】

この目的関数は、重み付き最尤法と見なすことができる。従来の手法の例えばＢＣＱ（参考文献５参照）やＦｉｓｃｈｅｒＢＲＣ（参考文献６参照）のオフライン強化学習では、データセットに制約されたポリシーを得るために変分オートエンコーダ（VAE）を利用して、データセットに制約された方策を得ている。これらの手法で使用されるＶＡＥによって学習される潜在的変数は、与えられたデータセットにおける状態と行動のペアの密度に基づく。

【0094】

参考文献５；Scott Fujimoto, David Meger, and Doina Precup, “ Off-policy deep reinforcement learning without exploration”, In Proceedings of the International Conference on Machine Learning(ICML), pages 2052-2062, 2019.
参考文献６；Ilya Kostrikov, Rob Fergus, Jonathan Tompson, and Ofir Nachum, “Offline reinforcement learning with fisher divergence critic regularization”, In Proceedings of the International Conference on Machine Learning (ICML), 2021.

【0095】

これに対して、本実施形態のアプローチは、目的関数の下限を最大化する潜在変数を学習する。したがって、本実施形態の手法は、従来の手法とは、学習される潜在変数の意味が異なる。また、従来手法では連続な潜在変数を学習するが、本実施形態の手法では離散的な潜在変数を学習する。

【0096】

また、本実施形態のアプローチは、離散的な潜在変数を学習することによって状態－行動空間を分割していると見做すことができる。
なお、従来手法のＴＤ３－ＢＣ（非特許文献１参照）では、与えられたデータセットに含まれる行動の質に関わらず、その行動を模倣するような方策が推奨されている。

【0097】

しかしながら、オフライン強化学習では、与えられたデータセットに多様な行動によって得られたサンプルが含まれている可能性があり、データセット中の任意の行動を再現するようにポリシーを強制することは不適切である。
このため、本実施形態において、方策π_θ（ａ｜ｓ，ｚ）は、ｚの値が同じである状態と行動のペアを模倣することを促す。したがって、本実施形態において、方策π_θ（ａ｜ｓ，ｚ）は、ｚの値が同じである行動を模倣することを強制されることはない。

【0098】

そして、本実施形態の目的関数は、状態と行動ペアを適応的な重みで再構成する項で構成されており、従来手法のＴＤ３－ＢＣにおける次式（２０）のような外挿につながる項は持っていない。したがって，本実施形態では、与えられたデータの分布内で行動をサンプリングおよび評価し，与えられたデータの分布から外れる行動は評価しない。

【0099】

【数24】

【0100】

［混合方策のためのＱ関数の推定］
次に、混合方策のためのＱ関数の推定手法を説明する。
式（９）では混合政策を採用しているので、Ｑ関数の推定は演算子に基づいている。これは、標準的なベルマン演算子とは若干異なる。本実施形態のフレームワークにおけるＣｒｉｔｉｃの学習は、次式（２１）の演算子に基づいて行う。

【0101】

【数25】

【0102】

式（２１）において、Ｔ_ｚ演算子をｌａｔｅｎｔ－ｍａｘ－Ｑ演算子と呼ぶことにする。本実施形態のアルゴリズムを支持する以下の第１の定理と第２の定理を、以下のように証明することができる。

【0103】

Ｉ．第１の定理
表形式設定において、Ｔ_ｚ演算子はＬ_∞ノルムにおける収縮演算子である。したがって、Ｔ_ｚ演算子の繰り返し適用により、任意の初期Ｑ関数は一意の固定点に収束する。

【0104】

ＩＩ．第２の定理
第１の定理で得られた一意な固定点をＱ_ｚとし、潜在変数ｚを次式（２２）として選び、μ（ｓ，ｚ）で与えられた行動を出力する方策をπ_ｚとする。このとき，Ｑ_ｚはπ_ｚに対応するＱ関数である。

【0105】

【数26】

【0106】

ここで、第２の定理の証明を説明する。式（２１）を並べ替えると次式（２３）のようになる。

【0107】

【数27】

【0108】

このように定義から、Ｑ_ｚはＴ_ｚのユニークな固定点である。

【0109】

第２の定理に基づいて、ｌａｔｅｎｔ－ｍａｘ－Ｑオペレータを適用してＱ関数を推定する。本実施形態では、上述したようにダブルクリップＱ学習を採用した。このように、データセットＤが与えられたとき、Ｃｒｉｔｉｃは次式（２４）を最小化することにより学習する。

【0110】

【数28】

【0111】

Ｊ＝１，２に対して、ターゲット値は次式（２５）のように計算される。

【0112】

【数29】

【0113】

［実装］
以下、本実施形態の手法をＶａｌｕｅ－ＷｅｉｇｈｔｅｄＶａｒｉａｔｉｏｎａｌＡｕｔｏ－Ｅｎｃｏｄｅｒ（V2AE）という。このアルゴリズムは、図８にまとめられる。
図８は、本実施形態に係る学習時のアルゴリズムの一例を示す図である。図８において、符号ｇ２１の処理は、図６のステップＳ１２の処理に対応する。符号ｇ２２の処理は、図６のステップＳ１３の処理に対応する。符号ｇ２３の処理は、図６のステップＳ１４の処理に対応し、次式（２６）を用いて潜在変数を計算する。符号ｇ２４の処理は、図６のステップＳ１５の処理に対応し、次式（２７）を用いてターゲット値ｙを計算し、次式（２８）を最小化するｃｒｉｔｉｃを更新する。符号ｇ２５の処理は、図６のステップＳ１５の処理に対応し、次式（２９）を最大化するようにＡｃｔｏｒと事後分布を更新する。なお、式（２６）において、（ｚ^～）’は、取り得る離散潜在変数の全てに対してｍａｘを考えるために用いた符号であり、推定された次の潜在変数である。

【0114】

【数30】

【0115】

【数31】

【0116】

【数32】

【0117】

【数33】

【0118】

このように、本実施形態では、離散潜在変数推定部１３が式（２６）を用いて潜在変数を計算し、価値関数推定部１５が式（２７）を用いてターゲット値ｙを計算し、次式（２８）を最小化するｃｒｉｔｉｃを更新することで行動価値関数の第３のモデルを更新し、式（２９）を最大化するようにＡｃｔｏｒと事後分布を更新することで第１のモデルを更新する。
なお、図８に示したアルゴリズムは一例であり、これに限らない。

【0119】

ＴＤ３と同様に、ａｃｔｏｒはＣｒｉｔｉｃの解新後に一回ずつ更新される。また、アルゴリズムでは、ｄｉｎｔｅｒｖａｌ＝２とした。離散潜在変数のモデリングには、例えばＧｕｍｂｅｌ－ｓｏｆｔｍａｘ法（例えば参考文献７参照）を用いた。また、ＴＤ３＋ＢＣで用いた状態の正規化を用いた。

【0120】

参考文献７；Eric Jang, Shixiang Gu, and Ben Poole, “Categorical reparameterization with gumbel-softmax”, In Proceedings of the International Conference on Learning Representations (ICLR), 2017.

【0121】

予備実験の結果、式（１９）のｆ^π（ｓ，ａ）＝ｅｘｐ（βＡ^π（ｓ，ａ））のとき、スケーリング係数は、性能に自明ではない影響を与え、βの最適な値はタスクごとに異なることがわかった。このため、タスクごとにスケーリングパラメータを変更することを避けるため、次式（２６）のようにアドバンテージ関数の正規化を用いた。

【0122】

【数34】

【0123】

式（２６）において、Ｄ_{ｂａｔｃｈ}は与えられたデータセットＤからサンプリングされたミニバッチで、定数であり、ここではα＝１０に設定した。
本実施形態の手法のＶ２ＡＥでは、方策が決定論的な回方策の混合で与えられる。下位方策は、式（１０）のように決定論的な方法で選択される。したがって、本実施形態のフレームワークにおける混合ポリシーは決定論的である。決定論的な方針を用いた場合は、狭いピークにＣｒｉｔｉｃが過剰にフィットしてしまう可能性がある。これに対して、本実施形態の方策は決定論的であるため、ＴＤ３で使用されているターゲットポリシースムージングという手法も採用した。
これにより、式（２５）の目標値は、次式（２７）のように修正される。

【0124】

【数35】

【0125】

式（２７）において、ε_ｃｌｉｐは、次式（２８）で与えられる。

【0126】

【数36】

【0127】

式（２８）において、定数ｃはノイズの範囲を定義する。

【0128】

［評価］
次に、本実施形態の手法による混合ポリシーの学習効果、Ｃｒｉｔｉｃのドロップアウト層の効果を確認した結果例を説明する。評価では、ワークステーション、物理シミュレータを使用した。

【0129】

まず、本実施形態の手法をＤ４ＲＬ（参考文献８参照）のベンチマークタスクで評価した。ベースラインとして、ＴＤ３－ＢＣ、ＣＱＬ（参考文献９参照）、ＡＷＡＣ（非特許文献１参照）、ｅａｓｙＢＣＱ（参考文献１０参照）、ＥＤＡＣ（参考文献１１参照）を評価対象とした。なお、ＡＷＡＣの実装では、ＴＤ３＋ＢＣと同様に状態の正規化とダブルクリップＱ学習を用い、優位関数の正規化も行った。

【0130】

参考文献８；Justin Fu, Aviral Kumar, Ofir Nachum, George Tucker, and Sergey Levine, “D4rl: Datasets for deep data-driven reinforcement learning”, arXiv, 2020
参考文献９；Aviral Kumar, Aurick Zhou, George Tucker, and Sergey Levine, “Conservative q-learning for offline reinforcement learning”, In Advances in Neural Information Processing Systems(NeurIPS), 2020.
参考文献１０；David Brandfonbrener, William F. Whitney, Rajesh Ranganath, and Joan Bruna, “Offline rl without off-policy evaluation”, In Advances in Neural Information Processing Systems (NeurIPS), 2021.
参考文献１１；Gaon An, Seungyong Moon, Jang-Hyun Kim, and Hyun Oh Song, “Uncertainty-based offline reinforcement learning with diversified q-ensemble”, In Advances in Neural Information Processing Systems (NeurIPS), 2021.

【0131】

このように、評価におけるＡＷＡＣと本実施形態の手法のＶ２ＡＥの差は、方策のモデルの違いを表している。なお、ダブルクリッピングＱ－ｌｅａｒｎｉｎｇは、ｅａｓｙＢＣＱにも用いられている。
図９は、比較に用いた手法の違いを示す図である。なお、評価では、Ｄ４ＲＬ－ｖ０データセットでベースライン手法を再実行した。なお、ＥＤＡＣ手法のＫｉｔｃｈｅｎとＡｄｒｏｉｔタスクの結果は省略した。

【0132】

まず、離散潜在変数の次元数の影響を評価した。
図１０は、離散潜在変数の次元数の影響を評価した結果を示す図である。図１０の評価は、過去１０回のテストエピソードにおける平均正規化スコアと５つのシード（ｓｅｅｄｓ）であり、１００万回更新後の性能を示す。横軸は潜在変数ｚの絶対値、縦軸は平均正規化スコアである。

【0133】

グラフｇ１０１は、Ｄ４ＲＬ－ｖ０データセットの「ｗａｌｋｅｒ２ｄ－ｅｘｐｅｒｔ」に対する平均正規化スコアであるグラフｇ１０２は、Ｄ４ＲＬ－ｖ０データセットの「ｗａｌｋｅｒ２ｄ－ｍｅｄｉｕｍ－ｅｘｐｅｒｔ」に対する平均正規化スコアである。グラフｇ１０３は、Ｄ４ＲＬ－ｖ０データセットの「ｗａｌｋｅｒ２ｄ－ｍｅｄｉｕｍ」に対する平均正規化スコアである。グラフｇ１０４は、Ｄ４ＲＬ－ｖ０データセットの「ｗａｌｋｅｒ２ｄ－ｍｅｄｉｕｍ－ｒｅｐｌａｙ」に対する平均正規化スコアである。
図１０のように、潜在変数の絶対値｜Ｚ｜＝８が一貫して満足のいく性能を示したので、以下の評価では｜Ｚ｜＝８を採用した。

【0134】

本実施形態の手法であるＶ２ＡＥと、ベースライン手法との比較を図１１、図１２に示す。なお、以下の評価でもＤ４ＲＬ－ｖ０データセットを用いている。
図１１は、Ｍｕｊｏｃｏタスクにおける本実施形態の手法であるＶ２ＡＥと、ベースライン手法との比較を示す図である。なお、図１１において、ＨＣｈｅｅｔａｈはＨａｌｆＣｈｅｅｔａｈの略である。なお、ＨａｌｆＣｈｅｅｔａｈ、Ｈｏｐｐｅｒ，Ｗａｌｋｅｒ２ｄ等は、非特許文献１参照。また、図１１の結果は、過去１０回のテストエピソードと５つのシードの平均正規化スコアテストエピソードと５つのシードの平均正規化スコアを示している。

【0135】

図１２は、ＫｉｔｃｈｅｎとＡｄｒｏｉｔタスクにおける本実施形態の手法であるＶ２ＡＥと、ベースライン手法との比較を示す図である。なお、図１２では、Ｋｉｔｃｈｅｎタスクを「Ｋｉｔｃｈ．」と省略し、ｈｕｍａｎタスクを「Ｈｕｍ．」と省略している。また、「ｃｏｍｐｌｅｔｅ」、「ｐａｒｔｉａｌ」、「ｍｉｘｅｄ」は、Ｍｕｊｏｃｏタスクの難易度を表し、「ｃｏｍｐｌｅｔｅ」が一番難易度が高く、「ｍｉｘｅｄ」が一番難易度が低い。また、「ｐｅｎ」、「Ｈａｍｍｅｒ」、「ｄｏｏｒ」、「ｒｅｌｏｃａｔｅ」はデータセットを表す（例えば参考文献１２参照）。また、図１２の結果は、キッチンタスクとアドロイトタスクの結果であり、過去１０回のテストエピソードにおける平均正規化スコアと５つのシードである。ｋｉｔｃｈｅｎ－ｃｏｍｐｌｅｔｅ－ｖ０と＊－ｈｕｍａｎ－ｖ０については、データ点数が約１万点であるため、１０，０００回更新後の性能を表示している。これらのデータセットではデータ点数が約１０，０００点であるため、１０，０００回更新後の性能を示している。それ以外のデータセットについては、１０００，０００回更新後の性能を示している。

【0136】

参考文献１２；Wenxuan Zhou, Sujay Bajracharya, David Held, “PLAS: Latent Action Space for Offline Reinforcement Learning”, 4th Conference on Robot Learning (CoRL 2020), Cambridge MA, USA, 2020

【0137】

図１１のように、Ｍｕｊｏｃｏタスクにおいて、本実施形態の手法のＶ２ＡＥは、最新のオフライン強化学習の手法であるＴＤ３＋ＢＣやＥＤＡＣに匹敵する性能を達成した。
また、図１２のように、本実施形態の手法のＶ２ＡＥの優位性は、ＫｉｔｃｈｅｎタスクやＡｄｒｏｉｔタスクでより顕著に現れる。本実施形態の手法のＶ２ＡＥは、これらのタスクにおいてベースライン法を明らかに上回っている。なお、ＡＷＡＣとＶ２ＡＥの差は、方策の表現の違いによる影響によるものである。本実施形態の手法のＶ２ＡＥはＡＷＡＣと比較して、同等もしくはそれ以上の性能を示した。

【0138】

図１１、図１２の結果から、強化学習において混合ポリシーの利用が有効であることがわかる。特に、本実施形態の手法のＶ２ＡＥは、ＡｄｒｏｉｔタスクやＫｉｔｃｈｅｎタスクにおいて最も良い性能を示した。

【0139】

［学習した潜在変数の可視化］
次に、学習した潜在変数を可視化した例を説明する。
図１３は、ペン人間－ｖ０タスクにおける状態－行動の組を可視化した例を示す図である。図１３において、丸の濃淡は、潜在変数の値を示す。画像ｇ１５１は、ｑ_φ（ｓ，ａ）からサンプリングされた潜在変数の分布を可視化した例である。画像ｇ１５２は、ｚ＝ａｒｇｍａｘ｛Ｑ_ｗ（ｓ，μ（ｓ，ｚ））｝で与えられる潜在変数の分布を可視化した例である。

【0140】

なお、状態行動ペアの次元は、ｔ－ＳＮＥ［３６］を用いて次元削減した。潜在変数の値の分布は、ステート・アクション空間がどのように分割されているかを示している。目的関数の一部としてＫＬ情報量ＤＫＬ（ｑ（ｚ｜ｓ,ａ）｜｜ｐ（ｚ｜ｓ））を最小化するようにした。このため、ｑ（ｚ｜ｓ,ａ）とｐ（ｚ｜ｓ）から生成されるサンプルは類似しているはずである。

【0141】

ｐｅｎ－ｈｕｍａｎ－ｖ０タスクにおける下位方策の活性化の様子を図１４～図１６に示す。なお、タスクは、ペンを正しい角度で把持するタスクである。図１４は、ｐｅｎ－ｈｕｍａｎ－ｖ０タスクにおける下位方策の活性化の様子であり、２０、４０、６０、８０回目の時間ステップにおける状態を示す図である。図１５は、ｐｅｎ－ｈｕｍａｎ－ｖ０タスクにおける下位方策の活性化の様子であり、各状態における各サブポリシーの作用値を示す図である。図１４、図１５において、画像ｇ２０１とｇ２５１は２０回目の時間ステップにおける状態、画像ｇ２０２とｇ２５２は４０回目の時間ステップにおける状態、画像ｇ２０３とｇ２５３は６０回目の時間ステップにおける状態、画像ｇ２０３とｇ２５４は８０回目の時間ステップにおける状態である。また、図１５において、横軸は、潜在変数ｚ（０～７，８通り）、縦軸はＱ（ｓ，ａ，ｚ）－ｍｉｎ_ｚ（Ｑ（ｓ，ａ，ｚ））の値である。

【0142】

ここで、オプションフレームワークに関する先行研究では、既存の手法の課題として、一部のオプションのみが活性化され、残りのオプションは有用でない可能性があることが報告されている。
これに対して、図１５のように、２０回目の時間ステップにおいては潜在変数ｚ＝４が最大であり、４０回目の時間ステップにおいては潜在変数ｚ＝５が最大であり、６０回目の時間ステップにおいては潜在変数ｚ＝３が最大であり、８０回目の時間ステップにおいては潜在変数ｚ＝３が最大であった。このように、本実施形態では、図１５のように、各下位方策の値が時間と共に変化し、実行中に様々な下位方策が活性化されることを示している。このように、本実施形態の手法によれば、従来手法の課題を解決できる。

【0143】

次に、関数の推定誤差について説明する。
図１６は、本実施形態の手法であるＶ２ＡＥと、比較例の手法のＡＷＡＣを用いた学習時の正規化スコアとｃｒｉｔｉｃｌｏｓｓ関数の値を示す図である。図１６において、横軸は時間ステップ（１ｅ６）、縦軸は正規化したスコアである。また、グラフｇ３０１～ｇ３０４において、線ｇ３１１は本実施形態の手法のＶ２ＡＥであり、線ｇ３１２は比較例のＡＷＡＣである。また、グラフｇ３０１は、ｈａｌｆｃｈｅｅｔａｈ－ｍｅｄｉｕｍ－ｖ０に対する正規化スコアとｃｒｉｔｉｃｌｏｓｓ関数の値である。グラフｇ３０２は、ｈａｌｆｃｈｅｅｔａｈ－ｍｅｄｉｕｍ－ｖ０に対する正規化スコアとｃｒｉｔｉｃｌｏｓｓ関数の値である。グラフｇ３０３は、ｗａｌｋｅｒ２ｄ－ｍｅｄｉｕｍ－ｒｅｐｌａｙ－ｖ０に対する正規化スコアとｃｒｉｔｉｃｌｏｓｓ関数の値である。グラフｇ３０４は、ｗａｌｋｅｒ２ｄ－ｍｅｄｉｕｍ－ｒｅｐｌａｙ－ｖ０に対する正規化スコアとｃｒｉｔｉｃｌｏｓｓ関数の値である。なお、ｃｒｉｔｉｃ損失として、式（２４）で与えられるｃｒｉｔｉｃ損失の値を５０００回更新するごとにプロットしている。

【0144】

先行研究では、Ｑ関数の推定誤差が学習の繰り返しによって蓄積されることが示されている。
図１５のように、ＨａｌｆＣｈｅｅｔａｈのｍｅｄｉｕｍ－ｖ０タスクの比較例の従来手法ＡＷＡＣにおいて、関数近似の誤差が蓄積していることが確認できる。これに対して、本実施形態の手法Ｖ２ＡＥでは、関数近似誤差が明らかに小さく、比較例の手法ＡＷＡＣよりもポリシーの性能が向上していることが図１５よりわかる。

【0145】

比較例の手法ＡＷＡＣと、本実施形態の手法Ｖ２ＡＥとの違いは、方策の表現である。このため、これらの結果は、本実施形態のように混合ポリシーを用いることで、混合方策を学習することにより、Ｑ関数の推定誤差が累積する問題が軽減され、学習性能が向上することを示唆している。

【0146】

以上のように、本実施形態では、混合方策の学習のための手法Ｖ２ＡＥを用いるようにした。本実施形態の手法Ｖ２ＡＥは、離散的な潜在変数の学習により状態作用空間を分割し、各領域で対応する下位方策を学習するアプローチと解釈することができる。評価の結果、本実施形態のアプローチはオフライン強化学習における外挿誤差を軽減できる。また、本実施形態の手法Ｖ２ＡＥは、Ｄ４ＲＬのいくつかのベンチマークタスクにおいて最高性能を示すことが確認された。

【0147】

このように、本実施形態の手法で学習した方策の実行時には、すべての下位方策が活性化されるわけではなく、状況に応じた離散潜在変数が推定され、それに対応する下位方策が逐次、選択され活性化する。
これにより、本実施形態によれば、あるデータセットが多様な質のサンプルを含んでいる場合、潜在変数の一部は低性能な行動のサンプルと関連し、対応する下位方策の性能も低くなるため，そのような下位方策は実行時に活性化されない。本実施形態によれば、逆にデータセット内の高性能な行動サンプルの情報は積極的に活用される。

【0148】

本実施形態によれば、離散変数および混合方策を学習することにより、学習性能向上が確認された。具体的には、Datasets for Deep Data-Driven Reinforcement Learning（D4RL）と呼ばれる既存のベンチマークタスクのいくつかにおいて既存手法を上回る性能を示すことが確認され。価値関数の推定誤差が累積する問題や，外挿誤差が軽減された。

【0149】

なお、以下の説明では、強化学習をオフラインで行う例を説明するが、本実施形態の手法や構成は、オンラインにも適用可能である。

【0150】

＜付記＞
［第１の定理の証明］
ここで、第１の定理の証明を説明する。次式（２９）で与えられる演算子Ｔ_ｚについて考える。

【0151】

【数37】

【0152】

Ｔ_ｚの縮約性を証明するために、次式（３０）、次式（３１）で与えられる無限大ノルムを用いる。

【0153】

【数38】

【0154】

【数39】

【0155】

［潜在条件付きポリシーの活性化に関する追加結果］
図１７は、ｐｅｎ－ｈｕｍａｎ－ｖ０タスクにおける下位方策の活性化を第１のエピソードの結果を示す図である。図１８は、ｐｅｎ－ｈｕｍａｎ－ｖ０タスクにおける下位方策の活性化を第２のエピソードの結果を示す図である。図１９は、ｐｅｎ－ｈｕｍａｎ－ｖ０タスクにおける下位方策の活性化を第３のエピソードの結果を示す図である。なお、図１７～１８において、グラフｇ４０５～ｇ４０８、ｇ４１５～ｇ４１８、ｇ４２５～ｇ４２８の横軸と縦軸は、図１５と同様である。図１７～１８において、画像ｇ４０１～ｇ４０４、ｇ４１１～ｇ４１４、ｇ４２１～ｇ４２４の画像は、タスクにおけるハンドと物体の状態を示している。図１７～１８において、画像ｇ４０９、ｇ４１９、ｇ４２９の横軸はサンプリング時間である。画像ｇ４０９、ｇ４１９、ｇ４２９は、各エピソードにおいて、２０、４０、６０、および８０回での最も大きい潜在変数ｚの変化を表している。また、図１７～図１９では、１万回の更新で学習させた同じ方策を用いた。

【0156】

図１７～図１９のように、各エピソードで物体の目標姿勢が異なり、与えられた目標を達成するために異なるサブポリシーが活性化されていることが分かる。この定性的な結果は、異なる振る舞いがそれぞれのサブポリシーに符号化されているという主張を支持するものである。

【0157】

［ハイパーパラメータと実装の詳細］
以下では、評価等で用いたハイパーパラメータと実装の詳細について説明する。
評価では、ＴＤ３＋ＢＣ、ＣＱＬ、ＥＤＡＣについて、各論文の著者の実装を使用した。
また、ｅａｓｙＢＣＱとＡＷＡＣは、本実施形態の手法Ｖ２ＡＥとの公平な比較のため、独自に実装した。ｅａｓｙＢＣＱとＡＷＡＣの実装では、ダブルクリッピングＱ学習が採用されている。

【0158】

本実施形態の手法Ｖ２ＡＥでは，上位方策π（ｚ｜ｓ）と下位方策π（ａ｜ｓ，ｚ）の両方が決定論的であるため、方策は決定論的である。したがって，状態値関数は、次式（３２）で与えられる。

【0159】

【数40】

【0160】

したがって、アドバンテージ関数は次式（３３）で与えられる。

【0161】

【数41】

【0162】

方策の更新では，次式（３４）の第２項のターゲットａｃｔｏｒを使用した。このため、本実施形態の手法の実装では、アドバンテージ関数は、次式（３４）以下のように近似される。

【0163】

【数42】

【0164】

なお、本発明における学習装置１の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより学習装置１が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

【0165】

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

【0166】

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。

【符号の説明】

【0167】

１…学習装置、１１…取得部、１２…記憶部、１３…離散潜在変数推定部、１４…最適行動学習部、１５…価値関数推定部、１６…同定部、１７…処理部、１３１…第１のモデル、１４１…第２のモデル、１５１…第３のモデル

【図1】