特表2021-527289 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ パラマス，パーヴォの特許一覧

特表2021-527289総和確率的勾配推定方法、装置、およびコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5A
5B
5C
5D
5E
5F
6A
6B
7A
7B
8
9
10A
10B
11A
11B
12
13
14
15A
15B
15C
16
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】特表2021-527289(P2021-527289A)

(43)【公表日】2021年10月11日

(54)【発明の名称】総和確率的勾配推定方法、装置、およびコンピュータプログラム

(51)【国際特許分類】

G06N 99/00 20190101AFI20210913BHJP

【ＦＩ】

G06N99/00 180

【審査請求】未請求

【予備審査請求】未請求

【全頁数】32

(21)【出願番号】特願2021-518295(P2021-518295)

(86)(22)【出願日】2019年6月5日

(85)【翻訳文提出日】2021年1月28日

(86)【国際出願番号】JP2019022431

(87)【国際公開番号】WO2019235551

(87)【国際公開日】20191212

(31)【優先権主張番号】62/680,791

(32)【優先日】2018年6月5日

(33)【優先権主張国】US

(31)【優先権主張番号】62/749,908

(32)【優先日】2018年10月24日

(33)【優先権主張国】US

(81)【指定国】 AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JO,JP,KE,KG,KH,KN,KP,KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT

(71)【出願人】

【識別番号】520479906

【氏名又は名称】パラマス，パーヴォ

(74)【代理人】

【識別番号】100114557

【弁理士】

【氏名又は名称】河野英仁

(74)【代理人】

【識別番号】100078868

【弁理士】

【氏名又は名称】河野登夫

(72)【発明者】

【氏名】パラマス，パーヴォ

(57)【要約】

【課題】勾配推定方法、勾配推定装置、およびコンピュータプログラムを提供する。
【解決手段】勾配推定方法は、計算グラフを含み、計算グラフ中の一の変数に対する他の変数の勾配を推定する勾配推定方法であって、計算グラフ中のいくつかのノードで、異なる勾配推定量を用いて同じ勾配の２つ以上の異なる推定を実行し、初期推定数よりも少なくなるように異なる推定値を結合し、結合した推定値を計算グラフ中の異なるノードに受け渡し、勾配推定値は更なる計算に使用される。

【特許請求の範囲】

【請求項1】

計算グラフを含み、前記計算グラフ中の一の変数に対する他の変数の勾配を推定する勾配推定方法であって、
前記計算グラフ中のいくつかのノードで、異なる勾配推定量を用いて同じ勾配の２つ以上の異なる推定を実行し、初期の推定値の数よりも少なくなるように異なる推定値を結合し、結合した推定値を前記計算グラフ中の異なるノードに受け渡し、勾配推定値は更なる計算に使用される、勾配推定方法。

【請求項2】

前記勾配の前記異なる推定値は、加重平均に基づいて結合され、前記加重平均の重みは、前記計算グラフ中のいくつかの変数に対する前記計算グラフ中の他のいくつかの変数の勾配推定の分散の明示的または暗示的な推定値に基づいて計算される、請求項１に記載の勾配推定方法。

【請求項3】

前記重みは、前記分散の逆数の大きさに比例して設定される、請求項２に記載の勾配推定方法。

【請求項4】

前記勾配推定量は、尤度比および再パラメータ化勾配推定量である、請求項１から請求項３のいずれか一項に記載の勾配推定方法。

【請求項5】

前記勾配は、前記計算グラフ中のパラメータの最適化に使用される、請求項１から４のいずれか一項に記載の勾配推定方法。

【請求項6】

計算グラフを含み、前記計算グラフ中の変数に対するある変数の勾配を推定する勾配推定方法であって、前記計算グラフ中のいくつかのノードで、尤度比および再パラメータ化の方法の両方に対する目的関数の勾配を推定し、両方の推定量を用いて前記計算グラフ中のパラメータを最適化する、勾配推定方法。

【請求項7】

前記尤度比および再パラメータ化の勾配推定量は、加重平均に基づいて結合され、重みは、それぞれの勾配推定量の分散の逆数に比例する、請求項６に記載の勾配推定方法。

【請求項8】

前記計算グラフは、ポリシー探索、強化学習、機械学習、またはニューラルネットワークの計算グラフに対応する、請求項１から請求項７のいずれか一項に記載の勾配推定方法。

【請求項9】

結合した推定値は、前記計算グラフ中の先行ノードに受け渡される、請求項１から請求項８のいずれか一項に記載の勾配推定方法。

【請求項10】

前記パラメータの最適化法は、勾配降下または上昇最適化法である、請求項６から請求項９のいずれか一項に記載の勾配推定方法。

【請求項11】

前記更なる計算は、いくつかの変数に対する他のいくつかの変数の更なる勾配推定である、請求項１から請求項１０のいずれか一項に記載の勾配推定方法。

【請求項12】

前記勾配推定値の結合は、以前の最適化ステップによる勾配に基づいて決定される、請求項５から請求項１１のいずれか一項に記載の勾配推定方法。

【請求項13】

計算グラフを含み、前記計算グラフ中の一の変数に対する他の変数の勾配を推定する勾配推定方法であって、前記勾配推定方法は、前記計算グラフ中のいくつかのノードで、前記ノードにおける確率密度のパラメトリック形式を仮定し、前記計算グラフ中のサンプリングされた計算から前記確率密度のパラメータを推定し、現在の変数に依存したノードの期待変数の勾配を推定し、期待値は推定分布全体にわたって得られ、更に、前記勾配を前記ノードにおけるいくつかの統計値と掛け合わせてスカラー変数を求め、前記スカラー変数を用いて尤度比勾配推定量を求める、勾配推定方法。

【請求項14】

確率分布の前記パラメトリック形式は、ガウス分布である、請求項１３に記載の勾配推定方法。

【請求項15】

推定パラメトリック確率分布に対する前記勾配との掛け合わせに先立って尤度比勾配推定が実行されるように、前記勾配を前記統計値と掛け合わせることおよび前記尤度比勾配推定値を求めることの順序が入れ替えられる、請求項１３または請求項１４に記載の勾配推定方法。

【請求項16】

請求項１から１２のいずれか一項に記載の勾配推定方法と、請求項１３、１４または１５に記載の勾配推定方法とを組み合わせて実行する、勾配推定方法。

【請求項17】

請求項１から１６のいずれか一項に記載の勾配推定方法を実行する装置。

【請求項18】

請求項１から１６のいずれか一項に記載の勾配推定方法を実行させるコンピュータプログラム。

【請求項19】

強化学習におけるポリシー探索方法であって、
ポリシーパラメータに対する平均総報酬の勾配を推定することであり、ポリシーおよびダイナミクスに従って状態遷移が発生する方向と反対の勾配逆伝播ステップそれぞれにおいて、再パラメータ化法および尤度比法を組み合わせることにより、ポリシーパラメータに対する平均総報酬の勾配を推定し、
評価結果に従って、前記ポリシーパラメータを更新する、
ポリシー探索方法。

【請求項20】

更に、前記ポリシーパラメータに対する目的の勾配の分散に基づいて、加重平均の重みを設定する、
請求項１９に記載のポリシー探索方法。

【請求項21】

前記再パラメータ化法および前記尤度比法に従って勾配推定量に割り当てられる前記重みは、それぞれの勾配推定量の分散の逆数の大きさに比例して設定される、
請求項２０に記載のポリシー探索方法。

【請求項22】

強化学習におけるポリシー探索装置であって、
離散時間システムにおける状態を計算し、
ポリシーおよびダイナミクスに従って状態遷移が発生する方向と反対の勾配逆伝播ステップそれぞれにおいて、再パラメータ化法および尤度比法を組み合わせることにより、ポリシーパラメータに対する平均総報酬の勾配を推定し、
評価結果に従って、前記ポリシーパラメータを更新する、
ポリシー探索装置。

【請求項23】

更に、前記ポリシーパラメータに対する目的の勾配の分散に基づいて、加重平均の重みを設定する、
請求項２２に記載のポリシー探索装置。

【請求項24】

前記再パラメータ化法および前記尤度比法に従って勾配推定量に割り当てられる前記重みは、それぞれの勾配推定量の分散の逆数の大きさに比例して設定される、
請求項２３に記載のポリシー探索装置。

【請求項25】

コンピュータに、
離散時間システムにおける状態を計算し、
ポリシーおよびダイナミクスに従って状態遷移が発生する方向と反対の勾配逆伝播ステップそれぞれにおいて、再パラメータ化法および尤度比法を組み合わせることにより、ポリシーパラメータに対する平均総報酬の勾配を推定し、
評価結果に従って、前記ポリシーパラメータを更新する、
処理をコンピュータに実行させるためのコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、計算グラフにおいて定義された変数の勾配を推定する方法、上記推定を行う装置、およびコンピュータプログラムに関する。

【背景技術】

【0002】

ほとんどの機械学習問題には、何らかのデータ生成分布ｐ_Ｄａｔａ（ｘ）全体の目的関数Ｊ（ｘ；θ）の期待値の最適化を伴うが、この分布は、サンプルデータ点｛ｘ_ｉ｝を通じてのみアクセス可能である。

【0003】

最も一般的な最適化方法は、逆伝播により計算されるＰａｔｈｗｉｓｅ導関数（ｐａｔｈｗｉｓｅｄｅｒｉｖａｔｉｖｅ）を用いた勾配降下法である。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】Bengio, Y., Simard, P., and Frasconi, P. Learning long-term dependencies with gradient descent is difficult. IEEE transactions on neural networks, 5(2):157-166, 1994

【非特許文献2】Deisenroth, Marc Peter, Neumann, Gerhard, Peters, Jan, らによるA survey on policy search for robotics. Foundations and Trends in Robotics, 2(1-2):1-142, 2013

【非特許文献3】Deisenroth, Marc Peter, Fox, Dieter, and Rasmussen, Carl Edward. Gaussian processes for data-efficient learning in robotics and control. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(2):408-423, 2015

【発明の概要】

【発明が解決しようとする課題】

【0005】

いくつかの状況（特に、非常に長い計算グラフまたはリカレントな計算グラフを伴う場合）において、この手法は、勾配分散の爆発によって、ランダムウォークに陥る可能性もある。通常、この現象は、ステップの増大および学習の不安定化につながる数値問題と捉えられる（非特許文献１参照）。

【0006】

本発明の目的は、勾配推定に伴う課題を解決することである。本発明は、逆伝播アルゴリズムの代わりとして、任意の計算グラフに使用し得る汎用的な勾配推定方法である。

【課題を解決するための手段】

【0007】

勾配推定方法は、計算グラフを含み、計算グラフ中の他の変数に対するある変数の勾配を推定するものであって、グラフ中のいくつかのノードで、別個の勾配推定量を用いて同じ勾配の２つ以上の別個の推定を実行し、初期推定値数よりも少なくなるように別個の推定値を結合し、結合した推定値をグラフ中の異なるノードに受け渡し、勾配推定値が、さらなる計算に使用される。

【発明の効果】

【0008】

本出願によれば、より正確で、勾配の爆発に悩まされない勾配評価の代替的な柔軟性のあるフレームワークを提供することが可能である。

【図面の簡単な説明】

【0009】

【図1】本実施形態に係る、コンピューティングデバイス１のハードウェア構成を示すブロック図である。

【図2】ＰＩＬＣＯによるポリシー勾配評価アルゴリズムを説明する図である。

【図3】総和伝播アルゴリズムを説明する図である。

【図4】本実施形態に係る、コンピューティングデバイス１により実行される手順を説明するフローチャートである。

【図5A】実験結果を示す図である。

【図5B】実験結果を示す図である。

【図5C】実験結果を示す図である。

【図5D】実験結果を示す図である。

【図5E】実験結果を示す図である。

【図5F】実験結果を示す図である。

【図6A】分散のグラフである。

【図6B】分散のグラフである。

【図7A】実験結果を示す図である。

【図7B】実験結果を示す図である。

【図8】実験結果を示す図である。

【図9】実験結果を示す図である。

【図10A】数式１１における経路の例を示す図である。

【図10B】数式１１における経路の例を示す図である。

【図11A】モデル基準およびモデルなしのＬＲ勾配推定の確率計算グラフを示す図である。

【図11B】モデル基準およびモデルなしのＬＲ勾配推定の確率計算グラフを示す図である。

【図12】総和伝播と適合する様子を詳しく説明するためのアルゴリズム３を示す図である。

【図13】ガウス成形勾配における計算経路を示す図である。

【図14】実験結果を示す図である。

【図15A】実験結果を示す図である。

【図15B】実験結果を示す図である。

【図15C】実験結果を示す図である。

【図16】アルゴリズムの一般形態を示す図である。

【図17】機械学習における全てのニューラルネットワークアプリケーションの他、その他多くのアプリケーションにおいて使用される逆伝播アルゴリズムを示す図である。

【図18】単一の勾配推定量となるように尤度比および再パラメータ化勾配推定量を結合することにより勾配推定が実行される場合の総和伝播アルゴリズムを示す図である。

【発明を実施するための形態】

【0010】

（実施形態１）
図１は、本実施形態に係る、コンピューティングデバイス１のハードウェア構成を示すブロック図である。本実施形態に係るコンピューティングデバイス１は、パソコン、サーバ装置等の情報処理装置である。コンピューティングデバイス１は、制御ユニット１１、記憶ユニット１２、入力ユニット１３、通信ユニット１４、操作ユニット１５、および表示ユニット１６を具備する。コンピューティングデバイス１は、本発明者らによる「PIPPS: Flexible Model-Based Policy Search Robust to the Curse of Chaos」、「Total Propagation Algorithm: Supplementary notes」、および「Total stochastic gradient algorithms and applications in reinforcement learning」において開示された方法を実装している。

【0011】

制御ユニット１１は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等を具備する。制御ユニット１１のＲＯＭには、ハードウェアの各部の動作を制御する制御プログラム等が記憶されている。制御ユニット１１のＣＰＵは、ＲＯＭに記憶された制御プログラムおよび後述する記憶ユニット１２に記憶された種々プログラムを実行して、前述の論文に開示の方法のように、ハードウェアの動作を制御する。制御ユニット１１のＲＡＭには、種々プログラムの実行に際して一時的に使用されるデータが記憶されている。

【0012】

なお、制御ユニット１１は、上記構成に限定されず、シングルコアＣＰＵ、マルチコアＣＰＵ、ＧＰＵ（Graphics Processing Unit）、マイクロコンピュータ、揮発性または不揮発性メモリを含む１つまたは複数の処理回路または演算回路であってもよい。また、制御ユニット１１は、データおよび時間の情報を出力するクロック、測定開始命令の適用から測定終了命令が与えられるまでの経過時間を測定するタイマー、計数用のカウンタ等の機能を含んでいてもよい。

【0013】

記憶ユニット１２は、ＳＲＡＭ（Static Random Access Memory）、フラッシュメモリ、ハードディスク等を用いた記憶装置を含む。記憶ユニット１２は、制御ユニット１１により実行される種々のプログラム、種々のプログラムの実行に必要なデータ等を記憶する。記憶ユニット１２に記憶されるプログラムとしては、たとえば上記論文に開示の技術を実装したコンピュータプログラムが挙げられる。

【0014】

記憶ユニット１２に記憶されたプログラムは、プログラムが可読記録された記録媒体Ｍにより提供されるようになっていてもよい。記録媒体Ｍは、ＳＤ（Secure Digital）カード、マイクロＳＤカード、コンパクトフラッシュ（登録商標）等の携帯型メモリである。この場合、制御ユニット１１は、読み出し装置（図示せず）を用いて記録媒体Ｍからプログラムを読み出し、この読み出したプログラムを記憶ユニット１２にインストールすることができる。さらに、記憶ユニット１２に記憶されたプログラムは、通信ユニット１４を介して、通信により提供されるようになっていてもよい。この場合、制御ユニット１１は、通信ユニット１４を通じてプログラムを取得し、この取得したプログラムを記憶ユニット１２にインストールすることができる。

【0015】

入力ユニット１３は、種々データを装置に入力するための入力インターフェースを有する。制御ユニット１１は、入力ユニット１３を通じて、処理対象のデータを取得する。

【0016】

通信ユニット１４は、インターネット等の通信ネットワーク（図示せず）に接続するための通信インターフェースを含み、外部に通知されるさまざまな種類の情報を送信し、外部から送信されたさまざまな種類の情報を受信する。本実施形態においては、入力ユニット１３を通じて処理対象のデータが取得されるが、通信ユニット１４を通じて処理対象のデータが取得されるようになっていてもよい。

【0017】

操作ユニット１５は、キーボードおよびタッチパネル等のユーザインターフェースを含み、さまざまな操作情報および設定情報を受け付ける。制御ユニット１１は、操作ユニット１５から入力された操作情報に基づいて適当な制御を実行し、必要に応じて、設定情報を記憶ユニット１２に記憶する。

【0018】

表示ユニット１６は、液晶表示パネルおよび有機ＥＬ（Electro Luminescence）表示パネル等の表示装置を含み、制御ユニット１１から出力された制御信号に基づいて、ユーザに通知される情報を表示する。

【0019】

本実施形態において、上記論文に開示の構成は、制御ユニット１１により実行されるソフトウェア処理によって実現されるが、ＬＳＩ（Large Scale integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Arra）等が制御ユニット１１と別個に搭載されていてもよい。この場合、制御ユニット１１は、入力ユニット１３から入力された処理対象のデータをハードウェアに送ることにより、上記論文に開示の方法をハードウェア内で実現する。

【0020】

さらに、本実施形態において、コンピューティングデバイス１は、簡素化のため単一の装置として記載しているが、複数のコンピューティングデバイスにより構成されていてもよいし、１つまたは複数の仮想マシンにより構成されていてもよい。

【0021】

本実施形態においては、コンピューティングデバイス１が操作ユニット１５および表示ユニット１６を具備するが、操作ユニット１５および表示ユニット１６は、必須ではない。たとえば、コンピューティングデバイス１は、外部接続されたコンピュータを通じて操作を受け付け、外部コンピュータに通知される情報を出力するようにしてもよい。

【0022】

以下、本発明の勾配推定方法について説明する。以下の式では、小文字がスカラーを表し、太字がベクトルまたは行列を表す。ただし、以下の説明においては、小文字と太字とを区別なく示している。また、以下の説明において、「Ｃ＿＾」は、ハット付き文字を表し、「Ｃ＿〜」は、チルダ付き文字を表す。

【0023】

（２．１ポリシー探索）
ポリシー探索方法の総括としては、非特許文献２が参照される。なお、ポリシー探索は、アルゴリズムの１つのアプリケーションに過ぎず、特定の計算グラフには限定されず、如何なる計算グラフにも適用可能である。状態ベクトルｘ_ｔ（たとえば、ロボットの位置および速度）ならびに適用動作／制御ベクトルｕ_ｔ（たとえば、モータトルク）により記述される離散時間系を考える。固定された初期状態分布ｘ_０〜ｐ（ｘ_０）から状態をサンプリングすることによって、エピソードが開始となる。ポリシーπ_θは、適用された動作ｕ_ｔ〜ｐ（ｕ_ｔ）＝π（ｘ_ｔ；θ）を決定する。動作の適用により、未知のダイナミクス関数ｘ_ｔ＋１〜ｐ（ｘ_ｔ＋１）＝ｆ（ｘ_ｔ，ｕ_ｔ）に従って状態が遷移する。ポリシーおよびダイナミクスはいずれも、確率的かつ非線形であってもよい。最大Ｔ時間ステップまで動作および状態遷移が繰り返されて、軌跡τ：（ｘ_０，ｕ_０，ｘ_１，ｕ_１，・・・，ｘ_Ｔ）が生成される。各エピソードは、リターン関数Ｇ（τ）に従ってスコアリングされる。リターンは、時間ステップごとのコストの総和Ｇ（τ）＝Σ_ｔ＝０^Ｔｃ（ｘ_ｔ）（ｔ＝０，・・・，Ｔ）に分解されることが多く、ここで、ｃ（ｘ）はコスト関数である。その目標は、ポリシーパラメータθを最適化して、期待リターンＪ（θ）＝Ｅ_{ｒ〜ｐ（τ；θ）}［Ｇ（τ）］を最小化することである。ここで、値Ｖ_ｈ（ｘ）＝Ｅ_ｔ＝ｈ^Ｔ［Σｃ（ｘ_ｔ）］と定義する。

【0024】

学習は、システム上のポリシーの実行と、その後のθの更新による後続試行上の性能の向上とが交互に発生する。ポリシー勾配法では、目的関数の勾配ｄ／ｄθ・Ｊ（θ）を直接推定し、これを最適化に使用する。一部のモデル基準のポリシー探索方法では、データを全て使用して、ｆ＿＾で示されるｆのモデルを学習し、これを試行間の「メンタルリハーサル」に使用してポリシーを最適化する。現実の試行ごとに何百回もの模擬試行を実行して、データ効率を大幅に向上可能である。ここで、ｆ＿＾の微分によって、モデルなしアルゴリズムよりも優れた勾配推定量を求め得るという事実を利用する。この場合のモデルは、確率論的であり、状態分布を予測する。

【0025】

（確率的勾配推定）
ここで、サンプリング分布のパラメータに対する任意の関数φ（ｘ）の期待値の勾配ｄ／ｄθＥ_{ｘ〜ｐ（ｘ；θ）}［φ（ｘ）］（たとえば、ポリシーパラメータに対する期待リターン）を計算する方法について説明する。

【0026】

（再パラメータ化勾配（ＲＰ））
一変量ガウス分布からのサンプリングを考える。ある手法では、ゼロ平均および単位分散ε〜Ｎ（０，１）でのサンプリングの後、この点をマッピングして、所望の分布からサンプルを複製する（ｘ＝μ＋σε）。ここで、分布パラメータを参照して出力を微分するのは容易である。すなわち、ｄｘ／ｄμ＝１およびｄｘ／ｄσ＝εである。サンプルの平均化ｄφ／ｄｘ・ｄｘ／ｄθによって、期待値の勾配の不偏推定値が与えられる。これは、正規分布のＲＰ勾配である。多変量ガウス分布の場合は、σの代わりに、共分散行列のコレスキー因子（Ｌ、ｓ．ｔ．Σ＝ＬＬ^Ｔ）を使用可能である。

【0027】

（尤度比勾配（ＬＲ））
所望の勾配は、ｄ／ｄθ・Ｅ_{ｘ〜ｐ（ｘ；θ）}［φ（ｘ）］＝∫ｄｐ（ｘ；θ）／ｄθφ（ｘ）として記述可能である。一般に、∫φ（ｘ）ｄｘ＝∫ｑ（ｘ）φ（ｘ）／ｑ（ｘ）ｄｘ＝Ｅ_ｘ〜ｑ［φ（ｘ）／ｑ（ｘ）］の実行によって、分布ｑ（ｘ）からサンプリングすることにより如何なる関数も積分可能である。尤度比勾配は、ｑ（ｘ）＝ｐ（ｘ）を抜き取って、以下のように直接積分する。

【0028】

【数1】

【0029】

ＬＲ勾配は、高分散の場合が多く、制御変量として知られる分散低減技術と組み合わせる必要がある（Greensmithら、2004）。一般的な手法では、関数値から一定基準値ｂを減算して、推定量Ｅ_ｘ〜ｐ［ｄ／ｄθ・（ｌｏｇｐ（ｘ；θ））（φ（ｘ）−ｂ）］を求める。ｂがサンプルと無関係の場合は、これによって、バイアスの導入なく、分散を大幅に低減可能である。実際には、サンプル平均が良い選択である（ｂ＝Ｅ［φ（ｘ）］）。バッチから勾配を推定する場合は、各点の一個抜き基準値を推定することによって、不偏勾配推定量を求めることができる。すなわち、ｂ_ｉ＝Σ_ｊ≠ｉ^Ｐφ（ｘ_ｊ）／（Ｐ−１）である。

【0030】

（軌跡勾配推定）
特定の軌跡を観測する確率密度ｐ（τ）＝ｐ（ｘ_０，ｕ_０，ｘ_１，ｕ_１，・・・，ｘ_Ｔ）は、ｐ（ｘ_０）π（ｕ_０｜ｘ_０）ｐ（ｘ_１｜ｘ_０，ｕ_０）・・・ｐ（ｘ_Ｔ｜ｘ_Ｔ−１，ｕ_Ｔ−１）として記述可能である。

【0031】

ＲＰ勾配を使用するには、ダイナミクスｐ（ｘ_ｔ＋１｜ｘ_ｔ｜ｕ_ｔ）を把握または推定する必要がある。言い換えると、モデル基準の場合に適用可能である。このようなモデルによれば、連鎖律を用いて、予測軌跡を微分可能である。

【0032】

なお、ＬＲ勾配を使用するには、ｐ（τ）が積であることから、ｌｏｇｐ（τ）を総和に変換可能である。Ｇ_ｈ（τ）＝Σ_ｔ＝ｈ^Ｔｃ（ｘ_ｔ）と表す。なお、（１）動作分布のみがポリシーパラメータによって決まり、（２）過去の時間ステップで求められたコストに動作は影響せず、以下のような勾配推定量が得られる。

【0033】

【数2】

【0034】

（ＰＩＬＣＯ）
図２は、ＰＩＬＣＯによるポリシー勾配評価アルゴリズムを説明した図である。ここでは元のＰＩＬＣＯに従うが、これは、ガウス過程ダイナミクスモデルを使用して、ある時間ステップから次の時間ステップまでの状態の変化を予測する。すなわち、ｐ（Δｘ_ｔ＋１^ａ）＝ｇＰ（ｘ_ｔ，ｕ_ｔ）（ただし、ｘ∈Ｒ^Ｄ、ｕ∈Ｒ^Ｆ、Δｘ_ｔ＋１^ａ＝ｘ_ｔ＋１^ａ−ｘ_ｔ^ａ）である。各次元ａに対して、別個のガウス過程が学習される。ここでは、二乗指数共分散関数ｋ_ａ（ｘ＿〜，ｘ’＿〜）＝ｓ_ａ^２ｅｘｐ（−（ｘ＿〜−ｘ’＿〜）^ＴΛ_ａ^−１（ｘ＿〜−ｘ’＿〜））を使用する。ただし、ｓ_ａおよびΛ＝ｄｉａｇ（［ｌ_ａ１，ｌ_ａ２，・・・，ｌ_ａＤ＋Ｆ］）はそれぞれ、関数分散および長さスケールのハイパーパラメータである。また、ノイズハイパーパラメータがσ_ｎのガウス尤度関数を使用する。ハイパーパラメータは、訓練によって、周辺尤度を最大化する。これらのモデルからのサンプリングに際して、予測は、ｙ＝ｆ＿＾（ｘ）＋ε（ただし、ε〜Ｎ（０，σ_ｆ^２（ｘ）＋σ_ｎ^２））という形態を有する。ここで、σ_ｆ^２は、モデルの不確実性を表し、領域中のデータの欠如に起因する。一方、σ_ｎ^２は、学習済みの固有モデルノイズである。学習済みモデルノイズは、システム中の実観測ノイズσ_ｏ^２と必ずしも同じではない。実際、潜在状態はモデル化されておらず、システムは、現在の観測を所与として、次の観測を予測することにより近似される。さらに、軌跡には、付加的な分散源が存在し、開始位置が異なれば軌跡も異なる。

【0035】

（モーメントマッチング予測）
一般的に、ガウス分布が非線形関数によってマッピングされた場合、出力は、扱いにくく、非ガウス分布である。ただし、出力分布のモーメントを解析的に評価できる場合もある。モーメントマッチング（ＭＭ）は、平均および分散を真のモーメントとマッチングさせることにより、出力分布をガウス分布として近似する。なお、状態次元が別個の関数ｆａ＿＾でモデル化されていても、ＭＭは一体的に実行され、状態分布が共分散を含み得る。

【0036】

（パーティクル予測）
一般的に、パーティクル軌跡予測は単純で、全てのパーティクル位置での予測、出力分布からのサンプリング、繰り返しを行う。ただし、ガウス再サンプリング（ＧＲ）に基づく方式との比較により、ＰＩＬＣＯへのニューラルネットワークダイナミクスモデルの適用も行う。

【0037】

（ガウス再サンプリング（ＧＲ））
ＭＭは、確率的に複製可能である。各時間ステップにおいて、パーティクルの平均μ＿＾＝Σ_ｉ＝１^Ｐｘ_ｉ／Ｐおよび分散Σ＿＾＝Σ_ｉ＝１^Ｐ（ｘ_ｉ−μ＿＾）（ｘ_ｉ−μ＿＾）^Ｔ／（Ｐ−１）が推定される。その後、パーティクルは、適合分布ｘ’_ｉ〜μ＿＾＋Ｌｚ_ｉ｜ｚ_ｉ〜Ｎ（０，Ｉ）（ただし、ＬはΣ＿＾のコレスキー因子）から再サンプリングされる。勾配ｄＬ＝ｄΣ＿＾を求めることは、容易ではない。ここでは、与えられた記号表現を使用する。

【0038】

（ハイブリッド勾配推定技術）
本発明の場合には、ＲＰ勾配を使用可能である。ただし、驚くべきことに、ＲＰ勾配は絶望的に不正確である（図５Ｄ参照）。この問題を解決するため、モデル導関数をＬＲ勾配と結合した新たな勾配推定量を得た。特に、本発明の手法では、バッチ内重点サンプリングによって、サンプリング効率の向上を可能にした。

【0039】

（モデル基準のＬＲ）
予測軌跡上の分布は、ｐ（τ）＝ｐ（ｘ_０）π（ｕ_０｜ｘ_０）ｆ＿＾（ｘ_１｜ｘ_０，ｕ_０）・・・ｆ＿＾（ｘ_Ｔ｜ｘ_Ｔ−１，ｕ_Ｔ−１）として記述可能である。また、決定論的ポリシーによって、ｐ（ｘ_ｔ＋１｜ｘ_ｔ）＝ｆ＿＾（ｘ_ｔ＋１｜ｘ_ｔ，π（ｘ_ｔ；θ））のように、モデルとポリシーとを結合可能であるが、これは、微分可能である（ｄｐ_ｔ＋１／ｄθ＝ｄｐ_ｔ＋１／ｄｕ_ｔ・ｄｕ_ｔ／ｄθ）。モデル基準の勾配は、以下のように導かれる。

【0040】

【数3】

【0041】

（バッチ重点加重ＬＲ（ＢＩＷ−ＬＲ））
ここでは、並列計算を使用して、複数のパーティクルを同時にサンプリングする。状態分布は、混合分布ｑ（ｘ_ｔ＋１）＝Σ_ｉ＝１^Ｐｐ（ｘ_ｔ＋１｜ｘ_ｉ，ｔ；θ）／Ｐとして表される。ＬＲの導出と同様に、各時間ステップについて、バッチ内の重点サンプリングにより低分散推定量を以下のように導出可能である。

【0042】

【数4】

【0043】

以下の方程式により、正規化重点サンプリングによって、リターンの一個抜き平均を推定するようにする。

【0044】

【数5】

【0045】

ただし、ｃ_{ｊ，ｔ＋１}＝ｐ（ｘ_{ｊ，ｔ＋１}｜ｘ_ｉ，ｔ）／Σ_ｋ＝１^Ｐｐ（ｘ_{ｊ，ｔ＋１}｜ｘ_ｋ，ｔ）である。正規化がなければ、基準値推定の高分散によって、ＬＲ勾配が不十分となる。なお、時間ステップごとにＰ基準値を計算する一方で、勾配推定量には、Ｐ^２成分が存在する。真の不偏勾配を求めるには、Ｐ^２の一個抜き基準値（分布の各混合成分のパーティクルごとに１つ）を計算するものとする。本明細書には、ここに提示の基準値のみを用いた評価を含む（これにより、バイアスのほとんどを除去済みであることが分かっている）。

【0046】

（ＲＰ／ＬＲ加重平均）
計算の大部分は、ｄｐ（ｘ_ｔ＋１｜ｘ_ｔ；θ）／ｄθ項に費やされる。これらの項は、ＬＲおよびＲＰの両勾配に必要なため、両推定量の結合には如何なるペナルティも存在しない。周知の統計学的結果によれば、独立した推定量に関して、重みが逆分散に比例する場合は、最適な加重平均推定値が実現される。すなわち、μ＝μ_ＬＲｋ_ＬＲ＋μ_ＲＰｋ_ＲＰ（ただし、ｋ_ＬＲ＝σ_ＬＲ＿＾^−２／（σ_ＬＲ＿＾^−２＋σ_ＲＰ＿＾^−２）およびｋ_ＲＰ＝１−ｋ_ＬＲ）である。

【0047】

単純結合方式であれば、両推定量について、全軌跡の勾配を別個に計算した後、それらを結合することになるが、この手法では、軌跡の短い部分に再パラメータ化勾配を使用して、より優れた勾配推定値を求める機会が無視されてしまう。本発明の新たな総和伝播アルゴリズム（ＴＰ）は、この単純法に優る。ＴＰでは、単一の後方パスによって、全ての考え得るＲＰ深度にわたる和集合を計算するため、低分散の推定量に大きな重みが自動的に付与される。

【0048】

図３は、総和伝播アルゴリズムを説明した図である。アルゴリズム２においては、各後方ステップにおいて、ＬＲおよびＲＰの両方法を用いることにより、ポリシーパラメータに対して勾配を評価する。また、ポリシーパラメータ空間における分散に基づいて比を評価するが、この分散は、ポリシー勾配推定量の分散に比例する。勾配は結合され、分布パラメータ空間における最良の推定値が過去の時間ステップに受け渡される。このアルゴリズムにおいては、Ｖ演算子が異なるパーティクルから勾配推定値のサンプル分散を取り出すが、他の分散推定方式も考えられ、たとえば、勾配の大きさの移動平均から分散を推定することも可能であるし、分散に対して異なる統計学的推定量を使用することも可能であるし、ポリシーパラメータの部分集合のみを使用することも可能である。このアルゴリズムは、ＲＬ問題に限定されず、一般的な確率的計算グラフにも適用可能であり、確率論的モデル、確率的ニューラルネットワーク等の訓練に使用することも可能である。一般的な計算グラフ設定においては、勾配をグラフ中で後方に伝播させることにより、グラフ中のいくつかのノードで複数の勾配推定量を結合するようにしてもよい。この場合に、時間ステップパラメータｔを１だけ小さくすれば、これは、グラフ中でのノードの後方移動の一方、勾配の伝播に対応することになる。勾配推定量の結合方式での決定に用いられる分散等の統計値は、計算グラフ中のその他任意のノードから求められるようになっていてもよい。

【0049】

図４は、本実施形態に係る、コンピューティングデバイス１により実行される手順を説明したフローチャートである。コンピューティングデバイス１は、アルゴリズム２に従って、以下のプロセスを実行する。

【0050】

制御ユニット１１は、種々パラメータを初期化する（ステップＳ１０１）。具体的には、制御ユニット１１は、ｄＧ_Ｔ＋１／ｄζ_Ｔ＋１＝０、ｄＪ／ｄθ＝０、Ｇ_Ｔ＋１＝０と設定する。ただし、ζは、分布パラメータ（たとえば、μおよびσ）である。

【0051】

制御ユニット１１は、時間（時間ステップ）ｔをＴに設定し（ステップＳ１０２）、パーティクルｉごとに以下の計算を実行する（ステップＳ１０３）。ただし、ｃ_ｔは、時間ｔにおけるコストである。

【0052】

【数6】

【0053】

制御ユニット１１は、数式６の計算結果を用いて、以下の計算を実行する（ステップＳ１０４）。

【0054】

【数7】

【0055】

さらに、制御ユニット１１は、数式６の計算結果を用いて、パーティクルｉごとに、以下の計算を実行する（ステップＳ１０５）。

【0056】

【数8】

【0057】

次に、制御ユニット１１は、時間ｔが所定の時間１に達したかを判定する（ステップＳ１０６）。時間ｔが時間１になっていない場合（Ｓ１０６：ＮＯ）、制御ユニット１１は、時間ｔを１だけ減らし（ステップＳ１０７）、プロセスをステップＳ１０３に戻す。

【0058】

（ポリシー最適化）
なお、勾配に基づく任意の最適化手順を使用することも可能であるが、本実施形態においては、ＲＭＳｐｒｏｐのような確率的勾配降下法を使用する（ＲＭＳｐｒｏｐに由来するアルゴリズムを使用する）。ＲＭＳｐｒｏｐでは、勾配の二乗の移動平均を利用して、そのＳＧＤステップを正規化する。本発明の場合は、バッチサイズが大きいため、ｚ＝Ｅ［ｇ^２］＝Ｅ［ｇ］^２＋Ｖ［ｇ］（ただし、ｇが勾配）によって、バッチから二乗の期待値を直接推定する。また、平均の分散を使用する。すなわち、Ｖ［ｇ］は、パーティクル数Ｐにより除された分散である。勾配ステップは、ｇ／ｚ^１／２になる。また、パラメータγのモーメンタムを使用する。完全更新された方程式は、以下のようになる。

【0059】

【数9】

【0060】

乱数シードの固定によって、確率的問題を決定論的に変えることができ、ＲＬコミュニティにおいてはＰＥＧＡＳＵＳトリックとしても知られている。シードが固定された場合は、ＲＰ勾配が対象の厳密な勾配であり、ＢＦＧＳ等の決定論的疑似ニュートンオプティマイザを使用可能である。

【0061】

（実験）
２つの目的で、実験を行った：（１）ＲＰ勾配が十分ではない理由を説明するため、（２）本発明の新たに開発された方法が学習効率の点でＰＩＬＣＯに匹敵し得ることを示すため。

【0062】

（値ランドスケープをプロットする）
図５Ａ〜図５Ｆは実験結果を図示している。ランダムに選択された固定方向にポリシーパラメータθを摂動させ、目的関数および、射影勾配の大きさをΔθの関数としてプロットする。この実験の結果は、恐らくは本明細書において最も斬新な部分であり、「カオスの呪い（ｔｈｅｃｕｒｓｅｏｆｃｈａｏｓ）」という用語を思いついた。

【0063】

プロットは、非線形のｃａｒｔ−ｐｏｌｅのタスクで、生成された。１０００パーティクルを使用し、一方で図５Ｄの高分散が乱数性によって生じるのではなく、システムのカオスのような特性によるものであることを実証するために乱数シードは固定し続けた。信頼区間は、Ｖａｒ／Ｐによって推定され、ここで、Ｖａｒはサンプル分散であり、Ｐはパーティクル数である。後述するように、より原理的な手法を使用して分散のＰに対する依存性をプロットする。

【0064】

図５Ｄには、特異な結果が含まれており、ある領域ではＲＰ勾配が良好な振る舞いをしているが、ポリシーパラメータが摂動されると相遷移のような変化により分散が爆発している。Δθ＝１．５における分散は、Δθ＝０の〜４×１０^５倍であり、この領域でＲＰ勾配が正確となるためには４×１０^８パーティクルが必要であることを意味している。実用に際しては、ＲＰ勾配で最適化することにより単純なランダムウォークが導かれる。

【0065】

シードが固定されているため、図５ＤのＲＰ勾配は図５Ａの値の厳密な勾配である。したがって、図５Ａの右に極微小の決定論的な「ノイズ」が存在する。しかし１０００パーティクルにわたって平均化される値は、真の目的ではないが、無限数のパーティクルを平均化する必要がある。無限数のパーティクルを平均化した場合、まだ「ノイズ」が存在するだろうか？または、関数が滑らかになるだろうか？

【0066】

図５Ｅおよび図５Ｆの新たな勾配推定量は、真の目的が確かに滑らかであることを示唆している。さらなるエビデンスを与えるために、「ノイズ」を無視できるように、θにおいて十分に大きな摂動を使用して図５Ａの値の有限差分から勾配の大きさを推定した。２つの別個の手法（１つはポリシーパラメータθを変化させる、もう１つはθを固定し続けるが軌跡から勾配を推定する）が合致するという事実は、真の目的が滑らかであるという説得力のあるエビデンスを与える。

【0067】

図５Ｂおよび図５Ｃは、ＲＰ勾配を使用する際の、分散の爆発の理由を説明している。図５Ｂは、最も左のパラメータ設定に対応し、図５Ｃは最も右のパラメータ設定に対応している。プロットは、値Ｖ（ｘ；θ）（残存累積コスト）が位置ｘの関数としてどのように変化するかを示している。なお、乱数シードが固定されているため、値Ｖは残存リターンＧと同一である。図面は、異なる固定シードで４パーティクルについて各点の軌跡を予測し、軌跡のコストを平均化することによって作成された。１パーティクルを試した後に、４パーティクルを予測するようにし、それについては値が階段のような部分を含むように見えたが、それ以外は現在の図面と比べてあまり興味深くはなかった。４パーティクルの平均値は不安定であるため、４パーティクルのうちの少なくとも１つは示される領域内で非常に不安定であったに違いない。

【0068】

初期状態分布の中央から平均予測に四角が中央に位置付けられる。四角の軸は、わずかに異なっているが、θが変わると予測される位置ｐ（ｘ１；θ）が変わるからである。辺の長さはガウス分布ｐ（ｘ１；θ）の４標準偏差に対応している。速度は平均値に固定し続けた。

【0069】

ＲＰはｄ／ｄθ ∫ｐ（ｘ_１；θ）Ｖ（ｘ_１）ｄｘを推定する。これは四角内部の点をサンプリングし、勾配ｄＶ／ｄθ＝ｄＶ／ｄｘ・ｄｘ／ｄθを計算して、サンプルとともに平均化する。図５Ｃでは、Ｖを微分することで期待値の勾配を見出すことは全く絶望的である。対照的に、ＬＲ勾配（図５Ｅ）は、値Ｖの微分ではなく値Ｖだけを使用しており、この問題を被っていない。ＴＰ（図５Ｆ）は、両方の推定量を効果的に結合している。

【0070】

ガウス再サンプリングの場合についてプロット値と勾配を示すことはしないが、最終的に、これらの両方が固定された乱数シードに対して滑らかな関数であった。したがって、再サンプリングも「カオスの呪い」に対して有効である。

【0071】

図６Ａおよび図６Ｂは、分散のグラフである。図６Ａおよび図６Ｂでは、Δθ＝０およびΔθ＝１．５における勾配推定量の分散がパーティクル数Ｐにどのように依存するかをプロットした。分散は、多数回、推定量を繰り返しサンプリングし、評価の集合からの分散を計算することによって計算された。ＲＰ、ＴＰならびにＬＲ勾配を、バッチ重点加重（ＢＩＷ）のある時とない時の両方とで比較して、本発明の重点サンプリング方式が分散を低減させることを示す。重点サンプリング基準値を使用した−実際には、通常のＬＲ勾配はより単純な基準値を使用し、ずっと高い分散を有する。図６ＢではＲＰ勾配が省略されているが、分散が１０^８〜１０^１５の間にあったためである。ＴＰ勾配が、ＢＩＷ−ＬＲ、およびＲＰ勾配を結合した。

【0072】

結果により、ＢＩＷが著しく分散を低減していることが確認される。さらに、本発明のＴＰアルゴリズムが最良であった。重要なことに、図６Ｂでは全軌跡についてのＲＰ勾配の分散は他の推定量よりも１０^６大きいが、ＴＰは短い経路長のＲＰ勾配を利用して２５０より少ないパーティクルについて１０〜５０％低減した分散を得ている。これは注目すべき結果であるが、勾配推定量が別個に計算される場合、結合された推定量についての最高の可能な精度は別個の推定量の精度の総和となるからである。しかしながら、本発明の総和伝播アルゴリズムは、計算のグラフ構造を利用しているため、総和よりも高い精度を実現している。

【0073】

（学習実験）
エピソード的な学習タスクでのＰＩＬＣＯを以下のパーティクル基準の方法と比較する：ＲＰ、固定シードでのＲＰ（ＲＰＦＳ）、ガウス再サンプリング（ＧＲ）、固定シードでのＧＲ（ＧＲＦＳ）、モデル基準のバッチ重点加重尤度比（ＬＲ）、および総和伝播（ＴＰ）。さらに、パーティクル予測の２つのバリエーションを評価する。（１）モデルの不確実性を無視する一方で、各時間ステップにおいてノイズのみを加算するＴＰ（ＴＰ−σ_ｆ）。（２）予測ノイズが増加させたＴＰ（ＴＰ＋σ_ｎ）。全ての場合で３００パーティクルを使用した。

【0074】

最近のＰＩＬＣＯの論文（非特許文献３）：カートポールのスイングアップおよびバランス、ならびに一輪車のバランス、より学習タスクを実行した。シミュレーションダイナミクスは同一に設定し、他の態様は元のＰＩＬＣＯと同様にした。図７Ａ、図７Ｂ、図８および図９は実験結果を図示している。

【0075】

オプティマイザを、各試行間で６００ポリシー評価について、実行した。ＳＧＤ学習速度およびモーメンタムパラメータは、α＝５×１０^−４およびγ＝０．９であった。エピソード長は、カートポールでは３ｓ、一輪車では２ｓであった。なお、一輪車タスクについては、ポリシーを長い試行に一般化するためには２ｓでは十分ではないが、それでもＰＩＬＣＯと比較することはできる。制御周波数は１０Ｈｚであった。コストは、タイプ１−ｅｘｐ（−（ｘ−ｔ）^ＴＱ（ｘ−ｔ））であり、ここでｔはターゲットである。ポリシー＿（ｘ）からの出力は飽和関数ｓａｔ（ｕ）＝９ｓｉｎ（ｕ）／８＋ｓｉｎ（３ｕ）／８によって制約され、ここでｕ＝π＿〜（ｘ）である。１つの実験は（１；５）ランダム試行から構成され、カートと一輪車のタスクそれぞれについて学習済み試行（１５；３０）が続く。各実験は１００回繰り返され、平均化した。各試行は、ポリシーを３０回実行して平均化することにより評価したが、これは評価目的のためのみに実行したことに留意されたい（アルゴリズムのアクセスは１試行だけである）。最終試行のリターンが閾値を下回ったどうかによって、成功を判断した。

【0076】

（カート−ポールのスイングアップおよびバランス）
これは標準的な制御セオリーのベンチマーク課題である。タスクは、カートを前後に押して、直立に取り付けられた振り子を揺らしてそのバランスを保つことから構成される。状態空間は、ｘ＝［ｓ，β，ｄｓ／ｄｔ，ｄβ／ｄｔ］と表現され、ここでｓはカート位置であり、βはポール角度である。基準のノイズレベルはσ_ｓ＝０．０１ｍ、β＝１ｄｅｇ、σ_{ｄｓ／ｄｔ}＝０．１ｍ／ｓ、σ_{ｄβ／ｄｔ}＝１０ｄｅｇ／ｓである。ノイズは、異なる実験では乗数ｋ：σ_２＝ｋσ_ｂａｓｅ^２によって修正される。元の論文では、真の状態への直接アクセスが考慮されている。類似の設定を求めるために、ｋ＝１０^−２と設定したが、やはりｋ∈｛１，４，９，１６｝を試験した。ポリシーπ＿〜は、５０基底関数を伴う動径基底関数ネットワーク（ガウシアンの総和）である。２つのコスト関数を考える。１つは、元のＰＩＬＣＯと同じものであり、ｘがサインとコサインを含み、振り子がバランスをとっている時の振り子の先端（Ｔｉｐ）と先端の位置との間の距離に依存している（ＴｉｐＣｏｓｔ）。もう１つのコストは、生の角度を使用し、Ｑ＝ｄｉａｇ（［１，１，０，０］）であった（ＡｎｇｌｅＣｏｓｔ）。このコストはＴｉｐＣｏｓｔとは概念的に異なっており、振り子をスイングアップする正しい方向が１つだけであるからである。

【0077】

（一輪車のバランス）
タスクは、一輪車ロボットがバランスをとることから構成され、状態次元Ｄ＝１２、および制御次元Ｆ＝２である。ノイズは低い値に設定した。制御を与えるπ＿〜は線形である。

【0078】

（学習実験）
ＰＩＬＣＯは、ノイズのないシナリオでは良好に実行されるが、ノイズが加わると、結果が悪化する。この悪化は、ＭＭ近似における誤りの累積によって最も生じやすく、以前、予測に求積を使用したVinogradskaら、(2016)によって観測されている。パーティクルはこの問題を被っておらず、ＴＰ勾配を使用することは、高ノイズ状態で常にＰＩＬＣＯより優れている。

【0079】

一方、低いノイズレベルでは、ＴＰならびにＬＲのパフォーマンスは低下している。パーティクルの全てが、小さな領域からサンプリングされる場合、リターンの変化から勾配を推定することが困難になる（デルタ分散の極限では、ＬＲ勾配は評価すらできない）。ＴＰ勾配はこの問題をそれほど被らないが、ＲＰからの情報を組み込むからである。最終的に、予測の不確実性が非常に低い場合（たとえばｋ＝１０^−２）、モデルノイズを学習に影響するパラメータとして考え、より正確な勾配を得るためにそれを大きくすることができる。ＴＰ＋σ_ｎを参照されたい。ただし、モデルノイズ分散は１００で乗じた。

【0080】

とりわけ、ＰＩＬＣＯなどのＭＭを使用する手法、およびＧＲは、ＴｉｐＣｏｓｔを使用する場合、他よりも優れている。理由としては、目的のマルチモダリティを挙げることができる−ＴｉｐＣｏｓｔでは、振り子はタスクを解決するためにいずれの方向からもスイングアップされ得る；ＡｎｇｌｅＣｏｓｔでは、正しい方向は、１つだけである。ＭＭを実行することは、アルゴリズムにユニモーダルな経路に沿うよう強制するが、それにもかかわらずパーティクル手法は、一部のパーティクルが一方から来てもう一方で止まるバイモーダルなスイングアップを試行する可能性がある。したがって、ＭＭは最適化問題を簡略化する一種の「分布報酬成形」を実行している場合がある。そのような説明は、以前にGalら、(2016)によってなされている。

【0081】

最終的に、驚くべきＴＰ−σ_ｆ実験を指摘する。予測はモデルの不確実性を無視しているが、方法は９３％の成功率を達成する。なぜ学習がうまくいったのかの説明は困難であるが、成功がＧＰのゼロ事前平均に関連し得るとの仮説を立てている。データがない領域では、ＧＰダイナミクスモデルの平均は０に向かい、これは入力制御信号がパーティクルに対して効果がないことを意味している。したがって、ポリシー最適化を成功させるためには、パーティクルがデータの存在する領域に留まるように制御しなければならない。なお、同様の結果が、進化型アルゴリズムを使用して、モデル不確実性を無視する場合でもカート−ポールタスクで８５〜９０％の成功率を達成したChatzilygeroudisら、(2017)により見出されている。

【0082】

ほとんどの機械学習問題には、何らかのデータ生成分布ｐ_Ｄａｔａ（ｘ）に対する目的関数Ｊ（ｘ；θ）の期待値の最適化を伴うが、この分布は、サンプルデータ点｛ｘ_ｉ｝を通じてのみアクセス可能である。本発明の予測的フレームワークは、深層モデルに類似している：ｐ（ｘ_０）は、データ生成分布であり、ｐ（ｘ_ｔ；θ）はモデルレイヤにｐ_Ｄａｔａ（ｘ）を通すことにより求められる。最も一般的な最適化方法は、逆伝播により計算されるＰａｔｈｗｉｓｅ導関数を用いたＳＧＤである。本発明の結果は、いくつかの状況（特に、非常に深いまたはリカレントなモデルの場合）において、この手法は、勾配分散の爆発によって、ランダムウォークに陥る可能性もあることを示唆している。

【0083】

勾配の爆発は、深層学習の研究において、長年観測されている（Doya, 1993; Bengioら、1994）。通常、この現象は、ステップの増大および学習の不安定化につながる数値問題と見なされる。一般的な対策としては、勾配のクリッピング、ＲｅＬＵ活性化関数（Nair & Hinton, 2010）、およびスマート初期化が挙げられる。この問題に対する本発明の説明は異なる：勾配は、大きくなるだけではなく、勾配分散は爆発し、これはｘ_ｉ〜ｐ_Ｄａｔａからのあらゆるサンプルが、モデルパラメータθをどのように変えて分布全体Ｅ_{ｐＤａｔａ}［Ｊ（ｘ）］についての目的の期待値を大きくするかについての情報を本質的に与えないことを意味している。良好な初期化を選択することがこの問題に対処する一手法である一方で、これはシステムが学習中にカオスにならないことを保証することは困難と思われる。たとえば計量経済学では、最適なポリシーがカオス的なダイナミクスをもたらす場合すらある（Deneckere & Pelikan, 1986）。勾配クリッピングにより、大きなパラメータステップを止めることができるが、勾配がランダムになれば根本的に問題を解決することにはならない。線形系ではカオスが生じないことを考慮して（Alligoodら、1996）、本発明の解析は、ＲｅＬＵなどのカオスの影響を受けにくい区分線形活性化が深層学習でうまくいく理由を示唆している。

【0084】

本発明の深層的な仮説をなお計算機的に確認しなければならない一方で、いくつかの研究によりニューラルネットワークにおけるカオスが調査されているが（Kolen & Pollack, 1991; Sompolinskyら、1988）、やはり本発明が初めて、カオスは逆伝播を使用して計算されると勾配を縮退させ得ることを示唆していると信じている。とりわけ、Pooleら、(2016)はそのような特性が「指数関数的な表現力」をもたらすことを示唆したが、この現象が呪いの代わりとなり得ると信じている。

【0085】

（結論と今後の研究）
逆伝播により計算されるものなど、Ｐａｔｈｗｉｓｅ導関数を使用する期待値を最適化することの限界を説明した。さらに、計算にノイズを投入すること、および尤度比のトリックを使用することにより、この呪いに拮抗する方法を示す。本発明の総和伝播アルゴリズムは、任意の確率的計算グラフに対する再パラメータ化勾配を、あらゆる量の他の勾配推定量（値関数を使用して計算された勾配すら使用することができる）と結合するための効率的な方法を提供する。本発明の研究を拡張する数え切れないほどの方法がある：よりよい最適化、自然な勾配の組み込みなど。本発明の方法の柔軟な性質により、これらの拡大が容易になるはずである。

【0086】

（実施形態２）
確率論的な計算グラフ（ＰＣＧ）の定義を提供する。なお、ＰＣＧの概念は、総和伝播アルゴリズムを説明するために使用した計算グラフの概念とは異なっているが、代わりに勾配推定量についての理由に関するフレームワークを説明している。定義は、標準的な有向グラフ的なモデルの定義と全く等価であるが、本発明の方法により注目するものであり、推論を実行するのではなく勾配を計算することにおける本発明の興味を強調している。主な違いは、たとえばガウシアンについての分布パラメータζ、平均μ、および共分散Σの明示的な包含である。

【0087】

定義１（確率論的計算グラフ（ＰＣＧ））
ノード／頂点ＶおよびエッジＥを有する非巡回グラフは、以下の特性を満足する：
１．各ノードｉ∈Ｖは、周辺同時確率密度ｐ（ｘ_ｉ；ζ_ｉ）を有するランダムな変数の集合に対応し、ここでζ_ｉは分布の恐らく無限なパラメータ。なお、パラメータ化は一意ではなく、あらゆるパラメータ化が受け入れ可能である。
２．各ノードの確率密度は条件的に親ノードに依存し、ｐ（ｘ_ｉ｜Ｐａ_ｉ）である。ここでＰａ_ｉは、ノードｉの直接の親におけるランダム変数である。
３．同時確率密度はｐ（ｘ_１，・・・，ｘ_ｎ）＝Π_ｉ＝１^ｎｐ（ｘ_ｉ｜Ｐａ_ｉ）を満足する。
４．各ζ_ｉは、その親の関数であり、ζ_ｉ＝ｆ（Ｐｚ_ｉ）。ここで、Ｐｚ_ｉはノードｉの親における分布パラメータである。特に、ｐ（ｘ_ｉ；ζ_ｉ＝∫ｐ（ｘ_ｉ｜Ｐａ_ｉ）ｐ（Ｐａ_ｉ；Ｐｚ_ｉ）ｄＰａ_ｉである。

【0088】

本発明の数式化においては、確率的なことがないことを強調したい。各計算は解析的に扱いにくい場合があるが、決定論的である。さらに、この定義は決定論的なノードを除外するものではない、すなわちノードにおける分布はディラックのデルタ分散（質点）であり得ることを強調する。後に、勾配の確率的推定値を導出するためにこの数式化を使用する。

【0089】

（定理の導出）
興味の対象は、あるノードζ_ｉにおける分布パラメータの、別のノードｄζ_ｉ／ｄζ_ｊにおけるパラメータに対する全微分を計算することである。全微分の規則をイテレートすることにより、ノードｊからノードｉまでの経路にわたる総和が導かれ、以下の通りである。

【0090】

【数10】

【0091】

この等式は、あらゆる決定論的な計算グラフに当てはまり、またたとえばＯＪＡコミュニティで周知でもある。この等式は自明に本発明の確率的勾配定理を導き、ＡからＢへの経路にわたる総和が、Ａから中間ノードおよび中間ノードからＢへの経路の総和として書くことができることを説明している。図１０Ａおよび図１０Ｂは、数式１１における経路の例を図示している。

【0092】

定理１（総和確率的勾配定理）
ある確率的計算グラフにおいてｉとｊを異なるノードとし、ＩＮを中間ノードの任意の集合とし、これはｊからｉへの経路をブロックする、すなわちＩＮはｊからｉへの経路が存在しないようにするためのものであり、ＩＮ中でノードを通過しない。｛ａ→ｂ｝をａからｂへの経路の集合で表し、｛ａ→ｂ｝／ｃはａからｂへの経路の集合であり、ｂを除いて経路に沿うノードを集合ｃに含めることはできない。この場合、全微分ｄζ_ｉ／ｄζ_ｊは次の等式で書くことができる。

【0093】

【数11】

【0094】

数式１０および数式１１を結合して次を与えることができる。

【0095】

【数12】

【0096】

なお、ｒ∈｛ｊ→ｍ｝／ＩＮとｓ∈｛ｊ→ｍ｝／ＩＮとをそれぞれスワップすることにより、類似の定理を導くことができる。これは次の等式を導く。

【0097】

【数13】

【0098】

後半、および前半分の総和勾配等式として、それぞれ数式１２および数式１３を参照する。

【0099】

（グラフ上での勾配推定）
前セクションでは、グラフ全体に対する勾配計算を分解してより狭いグラフに対する勾配計算とする手段を与え、またサブグラフに対して勾配を推定する方法を与えた。ここで、サブグラフに対する勾配をどのように結合してグラフ全体に対する勾配のための推定量とすることができるかの手法を明らかにする。タスクは、ノードｊにおけるパラメータに対する遠位のノードｉにおける期待値の導関数を推定することである：ｄ／ｄζ_ｊＥ_{ｘｉ〜ｐ（ｘｉ；ζｉ）}［ｘｉ］。真のζは、扱いにくいため、サンプリング基準の推定を行う。ｐ（ｘ；ζ）のサブ分散をサンプリングすることを考える。すなわち、ｐ（ｘ；ζ）＝∫ｐ（ｘ；ζ＿＾）ｐ（ζ＿＾）ｄζ＿＾となるようにζ＿＾をサンプリングする。これは次のように書くことができる。

【0100】

【数14】

【0101】

ζ＿＾は伝承サンプリング手順では自然に生じる。説明の簡素化のため、サンプリングは再パラメータ化可能である、すなわち、ｐ（ζ_ｍ＿＾；ζ_ｊ）＝ｆ（ζ_ｍ＿＾；ζ_ｊ，ｚ_ｍ）ｐ（ｚ_ｍ）とさらに想定する。これは次のように書くことができる。

【0102】

【数15】

【0103】

項ｄζ_ｍ＿＾／ｄζｊは、Ｐａｔｈｗｉｓｅ導関数推定量により推定される。残りの項ｄ／ｄζ_ｍ＿＾Ｅｘ_{ｉ〜ｐ（ｘｉ；ζｉ＿＾）}［ｘｉ］は、任意の他の推定量により推定され、たとえばジャンプ推定量を使用することができる。第２の推定量がやはり不偏であるとすれば、推定量全体が不偏となる。

【0104】

要約すると、グラフ全体に対して、ｊからｉまでの勾配推定量を作成する手順は以下の通りである：
１．経路ｊからｉまでをブロックする中間ノードＩＮの集合を選択する。
２．ｊから中間ノードＩＮまでのＰａｔｈｗｉｓｅ導関数推定量を構築する。
３．ＩＮからｉまでの全微分推定量を構築して、ｉからｊまでの連鎖律を適用する。

【0105】

（ポリシー勾配定理に対する関係性）
典型的なモデルなしＲＬの問題では、エージェントは確率的ポリシーπに従って動作ｕ〜π（ｕ_ｔ｜ｘ_ｔ；θ）を実行し、状態ｘ_ｔを遷移して、コストｃ_ｔを求める（または、逆に報酬を求める）。エージェントのゴールは、ポリシーパラメータθを見つけることであり、これは各エピソードの期待リターンＧ＝Σ_ｔ＝０^Ｈｃ_ｔを最適化する。図１１Ａおよび図１１Ｂはモデル基準およびモデルなしのＬＲ勾配推定の確率計算グラフを図示している。文献では、ポリシー勾配定理および決定論的ポリシー勾配定理の２つの「勾配定理」が全般的に適用される。

【0106】

【数16】

【0107】

【数17】

【0108】

Ｑｔ＿＾は、動作ｕを選択した場合の特定の状態ｘからの残存リターンΣ_ｈ＝ｔ^Ｈ−１ｃ_ｈ＋１の推定量に対応する。数式１６について、任意の推定量が受け入れ可能であり、サンプリング基準の推定すら使用可能である。数式１７については、Ｑ＿＾は通常微分可能なサロゲートモデルである。重要なことに、上の等式が有効であるためには、Ｑ＿＾が推定量でなければならず、真のＱではない。すなわち、勾配を推定する際、ポリシーパラメータは現在の時間ステップについて変更されるだけであり、後続の時間ステップについては固定され続けることを想定しなければならない。図１１Ａは、これらの２つの定理が同一の確率論的計算グラフにどのように対応するかを示している。中間ノードは、各時間ステップで選択された動作である。中間ノードに続く全微分を推定するためのジャンプ推定量の選択に差異が存在する−ポリシー勾配定理はＬＲ勾配を使用するが、決定論的なポリシー勾配定理はＰａｔｈｗｉｓｅ導関数をサロゲートモデルに対して使用する。

【0109】

（新規なアルゴリズム）
典型的にＰＣＧに対して勾配を推定する際は、グラフ全体を通じて伝承サンプリングを実行して１サンプルを求め、たとえばＲＬ問題については軌跡をサンプリングする。そのようなサンプルをパーティクルと呼ぶ。そのようなサンプリングのバッチを使用して、勾配推定量を求めることができる。あるノードにおける推定される分布パラメータは、各サンプリングされたパーティクルζ＿＾＝｛ζ_ｉ＿＾｝_ｉ^Ｐについての分布パラメータの集合によって与えられ、ここでＰはパーティクル数である。たとえば、ＰＣＧがガウス分布からの順次的なサンプリングから成る場合、ζ_ｉ＿＾は、パーティクルがそのノードでサンプリングされたガウシアンの平均および共分散に対応する。以下のセクションでは、パーティクルの集合を使用して、周辺分布について直接分布パラメータΓの異なる集合を推定するという選択肢を活用する。

【0110】

（密度推定ＬＲ（ＤＥＬ））
以下の説明により、サンプリングされたパーティクルの集合から分布パラメータΓを推定し、推定された分布ζ＿＾を使用してＬＲ勾配を適用することを、試行することができる。特に、平均μ＿＾＝Σ_ｉ^Ｐｘ_ｉ／Ｐおよび分散Σ＿＾＝Σ_ｉ^Ｐ（ｘ_ｉ−μ＿＾）^２／（Ｐ−１）を推定することにより密度をガウシアンとして近似する。次に標準的なＬＲトリックを使用して、勾配ΣｉＰｄｌｏｇｑ（ｘ_ｉ）／ｄθ（Ｇ_ｉ−ｂ）を推定することができ、ここでｑ（ｘ）＝Ｎ（μ＿＾，Σ＿＾）である。この方法を使用するために、パーティクルｘ_ｉに関するμ＿＾およびΣ＿＾の微分を計算し、連鎖律を使用して勾配をポリシーパラメータまで伝えなければならないが、これは容易である。本発明の新たな方法をＤＥＬ推定量と呼ぶ。重要なことに、ｑ（ｘ）は勾配を推定するために使用されるが、如何なる方法でも軌跡サンプリングを修正するために使用されないことに留意されたい。これは、パーティクルがそのようにフィッティングされたガウス分布から再サンプリングされ、軌跡分布を修正するガウス再サンプリングの場合と対照的である。
ＤＥＬの利点：計算にノイズを投入しなくてもＬＲ勾配を使用することができる。
ＤＥＬの不利な点：推定量が不偏であり、密度推定が困難になる可能性がある。

【0111】

（ガウス成形勾配（ＧＳ））
これまで、全てのＲＬ方法が総和勾配等式の後半（数式１２）を使用してきた。等式の前半（数式１３）を使用する推定量を作成できるだろうか？図１３はガウス成形勾配における計算経路を図示している。図１３は、これがどのように行われ得るかの例を与えている。ｘｍにおける密度を、パーティクルに対するガウシアンをフィッティングにより推定することを提案する。次いで、ｄＥ［ｃ_ｍ］＝ｄΓ_ｍ（灰色のエッジ）が、この分布からパーティクルを再サンプリングすることにより（またはあらゆる他の積分の方法により）推定される。これは、ｄΓ_ｍ／ｄθをどのように推定するかという疑問を残す（点線エッジおよび太線エッジ）。ＲＰ方法を使用することが、容易である。ＬＲ方法を使用するためには、まず総和勾配等式の後半をｄΓ_ｍ＝ｄθに対して適用して項Σ_{ｒ∈｛θ→ｋ｝／ＩＮ}Π_{（ｐ，ｔ）∈ｒ}∂ζ_ｔ／∂ζ_ｐ（点線エッジ）およびｄΓｍ／ｄζ_ｋ（太線エッジ）を求める。考慮しているシナリオでは、これらの項の第１は単一の経路であり、ＲＰを使用して推定される。第２の項は、より興味深いもので、これをＬＲ方法を使用して推定する。ガウス近似を使用しているため、分布パラメータΓ_ｍは、ｘ_ｍの平均および分散であり、μ_ｍ＝Ｅ［ｘ_ｍ］およびΣｍ＝Ｅ［ｘ_ｍｘ_ｍ^Ｔ］−μ_ｍμ_ｍ^Ｔとして推定することができる。これらの項のＬＲ勾配推定量は次のように求めることができる。

【0112】

【数18】

【0113】

実際には、サンプリング基準の推定ζ_ｋ＿＾を行い、推定量がサンプルζ_ｋ＿＾に対して条件付きではないかと懸念されるかも知れないが、興味の対象は条件付きではない推定値である。条件付き推定が等価であることを説明する。分散については、μ_ｍは条件付きではない平均の推定であるため、推定全体が、条件付きではない分散の推定に直接対応していることに留意されたい。平均については、イテレートされた期待値の規則を以下の通り適用する。

【0114】

【数19】

【0115】

これにより、条件付き勾配推定量が、条件付きではない平均の勾配についての不偏な推定量であることが明らかである。

【0116】

（勾配を累積するための効率的なアルゴリズム）
具体的な例として、モデル基準のポリシー勾配方法を考え、そのＰＣＧが図１３に与えられる。本発明の以前の研究において、このアルゴリズムが、まず最初に考えられたものであり、ダイナミクスの微分可能な確率論的モデルへのアクセスに決定的に依存している。ＧＳ勾配をこの状況にどのように適用するかを説明する。ｘ_ｋノードごとに、ｋの後の全てのｘ_ｍノードへのＬＲジャンプを実施し、ノードｍにおける分布のガウス近似で勾配を計算したい。逆伝播のようなやり方で後方パスの間、全てのノードを累積する。なお、ｋおよび経路ごとに、勾配をｄＥ［ｃ_ｍ］／ｄΓ_ｍｄΓ_ｍ／ｄζ_ｋ（ｄζ_ｋ／ｄｕ_ｋ−１ｄｕ_ｋ−１／ｄθ）と書くことができる。項ｄＥ［ｃ_ｍ］／ｄΓ_ｍ・ｄΓ_ｍ／ｄζ_ｋはｄＥ［ｃ_ｍ］／ｄΓ_ｍｚ_ｍｄｌｏｇｐ（ｘ_ｋ；ζ_ｋ）／ｄζ_ｋとして推定され、ここでｚｍは上の項ｘ_ｍ−ｂ_μなどを要約しているベクトルに対応する。なお、ｄＥ［ｃ_ｍ］／ｄΓ_ｍｚ_ｍはただのスカラー量ｇ_ｍである。したがって、後方パスの間の全てのｇの合計を累積して、各ｋノードにおける全てのｍノードを合計するアルゴリズムを使用する。図１２は総和伝播と適合する様子を詳しく説明するためのアルゴリズム３を図示している。最終的なアルゴリズムは本質的には通常のコスト／報酬を修正された値で置換するだけであり、そのような手法はさらに、確率的ポリシーおよびＬＲ勾配を使用してモデルなしポリシー勾配アルゴリズムに適用可能である。ＧＳの２つの解釈：１．あるノードにおいて、周辺分布のガウス近似を行う。２．パーティクルの分布に基づいて、あるタイプの報酬成形を行う。特に、パーティクルの全てが複数の報酬の領域間で分布が分かれるのではなく報酬の１つの「島」に集中するよう軌跡分布をユニモーダルに保つよう本質的に推進する−これにより最適化が単純になる場合がある。

【0117】

（実験）
ＰＩＬＣＯの論文により、モデル基準のＲＬ模擬実験を行った。本発明のＧＳ手法ならびに総和伝播との結合を試験するために、カート−ポールのスイングアップ、およびバランスの課題を試験した。さらに、この考えの実現性を示すために、より単純なカート−ポールの、バランスだけの課題に対して、ＤＥＬ手法を試験した。本発明の新たな推定量を伴うパーティクル基準の勾配をＰＩＬＣＯと比較した。本発明の以前の研究において、パーティクルを使用して信頼できる結果を求めるためにコスト関数を変更しなければならなかった−現在の実験の主な動機の１つは、元のＰＩＬＣＯが使用したのと同じコストを使用してＰＩＬＣＯの結果とマッチングさせることである（これは、後にさらに詳述する）。

【0118】

（モデル基準のポリシー探索バックグラウンド）
モデルなしポリシー探索方法に対するモデル基準のアナログを考える。対応する確率論的計算グラフを図１１Ｂに与える。表記は本発明の以前の研究に従う。各エピソードの後、ｐ（Δｘ_ｔ＋１^ａ）＝ｇＰ（ｘ_ｔ＿〜），となるよう、データの全てを使用してダイナミクスの各次元の別個のガウス過程モデルを学習する。ここでｘ＿〜＝［ｘ_ｔ^Ｔ，ｕ_ｔ^Ｔ］かつｘ∈Ｒ^Ｄ、ｕ∈Ｒ^Ｆである。次いで、このモデルを使用して、勾配降下法によりポリシーを最適化するためにエピソード間で「メンタルシミュレーション」を実行する。二乗指数共分散関数ｋ_ａ（ｘ＿〜，ｘ’＿〜）＝ｓ_ａ^２ｅｘｐ（−（ｘ＿〜−ｘ’＿〜）^ＴΛ_ａ^−１（ｘ＿〜−ｘ’＿〜））を使用した。また、ノイズハイパーパラメータがσ_ｎ，２^２のガウス尤度関数を使用する。ハイパーパラメータ｛ｓ，Λ，σ_ｎ｝は、周辺尤度を最大化することにより訓練される。予測はｐ（ｘ_ｔ＋１^ａ）＝Ｎ（μ（ｘ_ｔ＿〜），σ_ｆ^２（ｘ_ｔ＿〜）＋σ_ｎ^２）の形態を取り、ここでσ_ｆ^２（ｘ_ｔ＿〜）はモデルについての不確実性であり、状態空間の領域内内のデータの可用性に依存している。図１１Ｂでは、θから中間ノードまでの偏微分がＰａｔｈｗｉｓｅ導関数で推定され、中間ノードに続く全微分がジャンプ推定量で推定される。

【0119】

（セットアップ）
カート−ポールは、前後に押すことができるカートと、取り付けられたポールから成る。状態空間は、［ｓ，β，ｄｓ／ｄｔ，ｄβ／ｄｔ］であり、ここでｓはカート位置であり、βは角度である。制御は、カートに対する水平方向の力である。ダイナミクスは、ＰＩＬＣＯの論文と同様であった。セットアップは本発明の以前の研究に従う。

【0120】

（タスクにおける共通の特性）
実験は１ランダムエピソード、続いて学習済ポリシーを有する１５エピソードから成り、ポリシーはエピソード間で最適化される。各エピソード長は３ｓであり、制御周波数は１０Ｈｚであった。各タスクは再現性を試験するために異なる乱数シードで別個に１００回評価した。乱数シードは、異なるアルゴリズム同士で共有した。各エピソードは３０回評価し、コストを平均化したが、これは評価目的のためのみに行ったことに留意されたい−アルゴリズムのアクセスは１エピソードだけである。ポリシーは、本発明の以前の研究によるＲＭＳｐｒｏｐのような学習規則を使用して最適化され、これは勾配を異なるパーティクルからの勾配のサンプリング分散を使用して勾配を正規化する。モデル基準のポリシー最適化では、ポリシー勾配評価ごとに３００パーティクルを使用して６００勾配ステップを実行した。学習速度およびモーメンタムパラメータはそれぞれ、α＝５×１０^−４、γ＝０：９であり、本発明の以前の研究と同じである。ポリシーからの出力はｓａｔ（ｕ）＝９ｓｉｎ（ｕ）／８＋ｓｉｎ（３ｕ）／８によって飽和され、ここでｕ＝π＿〜（ｘ）である。ポリシーπ＿〜は、５０基底関数および２５４パラメータの総和を伴う動径基底関数ネットワーク（ガウシアンの総和）である。コスト関数は、タイプ１−ｅｘｐ（−（ｘ−ｔ）^ＴＱ（ｘ−ｔ））であり、ここでｔはターゲットである。２つのタイプのコスト関数を考える：１）ＡｎｇｌｅＣｏｓｔ、Ｑ＝ｄｉａｇ（［１，１，０，０］）であるコストが対角行列である、２）ＴｉｐＣｏｓｔ、元のＰＩＬＣＯの論文からのコストであり、バランスが取れている時の、振り子の先端から先端の位置までの距離に依存する。これらのコスト関数は概念的に異なっている−ＴｉｐＣｏｓｔでは、振り子はいずれの方向からもスイングアップすることができ、ＡｎｇｌｅＣｏｓｔでは、正しい方向は、１つだけである。基準の観測ノイズレベルは、σ_ｓ＝０．０１ｍ、σ_β＝１ｄｅｇ、σ_{ｄｓ／ｄｔ}＝０．１ｍ／ｓ、σ_{ｄβ／ｄｔ}＝１０ｄｅｇ／ｓ、またこれらはσ^２＝ｋσ_ｂａｓｅ^２となるように乗数ｋ∈｛１０^−２，１｝で修正される。

【0121】

（カート−ポールのスイングアップおよびバランス）
このタスクでは、振り子は最初下方向にぶら下がっており、そしてスイングしてバランスを取らなければならない。本発明の以前の研究から、一部の結果を得た：１）ＰＩＬＣＯ、２）再パラメータ化法勾配（ＲＰ）、３）ガウス再サンプリング（ＧＲ）、４）バッチ重点加重基準値を伴うバッチ重点加重ＬＲ（ＬＲ）、５）ＬＲとＲＰを結合する総和伝播（ＴＰ）。新たな方法と比較した：６）ＬＲ成分だけを使用するガウス成形勾配（ＧＬＲ）、７）総和伝播を使用してＬＲとＲＰ変量の両方を結合するガウス成形勾配（ＧＴＰ）。総和伝播アルゴリズムの説明については、計算のグラフに対する複数の勾配推定量を効果的に結合する方法である本発明の以前の研究を参照されたい。さらには、モデルノイズ分散に２５を乗じた場合のＧＴＰを試験した（ＧＴＰ＋σｎ）。

【0122】

（ＤＥＬ推定量でのカート−ポールのバランス）
このタスクはずっと単純である−ポールは最初直立しており、そしてバランスを取らなければならない。実験は、ＤＥＬが実現可能であり、さらに開発されれば有用な場合があることを示すために工夫された。ＡｎｇｌｅＣｏｓｔおよび基準ノイズレベルが使用された。

【0123】

（結果）
図１４および図１５は実験結果を図示している。本発明の以前の研究と同様、ノイズが低い場合、ＬＲ成分を含む方法はうまくいかない。しかしながら、ＧＴＰ＋σｎの実験はノイズをモデル予測に投入することが問題を解決できることを示している。主な重要な結果は、ＴｉｐＣｏｓｔシナリオではＧＴＰがＰＩＬＣＯと一致することである。本発明の以前の研究では、懸念の１つは、このシナリオではＴＰがＰＩＬＣＯと一致しないことであった。図１５Ｂおよび図１５Ｃのコストを見ることだけでは、適切に差異が示されない。対照的に、成功率はＴＰもうまくいかなかったことを示している。成功率は、本発明の以前の研究で校正された閾値（１５を下回る最終損失）ならびに全ての実験実行を視覚的に分類することの両方によって測定された。両方の方法が一致した。最終エピソードにおけるピークパフォーマの損失はＴＰであった：１１．１４±１．７３、ＧＴＰ：９．７８±０．４０、ＰＩＬＣＯ：９．１０±０．２２、これはやはりＴＰが著しく悪かったことを示している。ピークパフォーマがなお改善している間、残存実験は収束した。ＰＩＬＣＯはなお、わずかによりデータ効率的に見えるが、必要とされるデータ量が少ないため、差異に実用的な有意性はほとんどない。図１５ＢではＴＰの分散はより小さいことにも留意されたい。ＧＴＰおよびＰＩＬＣＯの大きな分散は、大きな損失を伴う外れ値により生ずる。これらの外れ値は、局所的最小値に収束し、これは状態分布のガウス近似のテールを利用している−これは、ＰＩＬＣＯがガウス近似のテールを使用して探索を行う以前の示唆とは対照的である。

【0124】

（実施形態３）
総和伝播アルゴリズムは、逆伝播と同様に、計算グラフに対する汎用的な勾配推定アルゴリズムであるが、勾配が爆発する問題を克服するものである。アルゴリズムにおける重要な考え方は、勾配計算の後方パスの間に勾配推定の複数の方法を組み合わせることである。重要なことに、複数の勾配推定値は勾配推定量のより小さな集合にアグリゲートされ（たとえば全ての勾配推定量は単一の最良の勾配の推定に結合される）、また勾配推定量の全てが別個にではなく、この勾配推定量の小さな集合が後方に渡される。そのような方法により、後方に渡される勾配推定量の増殖を招くことなく、計算のグラフにおける勾配推定の精度を高めるために多数の勾配推定技術を結合することができ、それにより良好な計算効率を実現する。

【0125】

（フレームワークとアルゴリズムの説明）
計算グラフはノード／頂点Ｖと有向エッジＥの集合であり、頂点にある変数同士の計算上の関係を定義している。各ノードｉはその親ノードＰａ_ｉからの変数を入力として受け取り、出力ｘ_ｉ＝ｆ（Ｐａ_ｉ）を計算し、ここで関数ｆは確率的であることもできる。Ｐａ_ｉおよびｘ_ｉは１つまたは複数の変数の集合を表現しているため、ベクトル値化またはテンソル値化されている場合がある。変数ｘ_ｉはノードｉの子ノードに渡され、Ｃｈ_ｉと表記される。図１６はアルゴリズムの一般形態を図示している。アルゴリズムの一般形態は、アルゴリズム４に提示されており、ここで重要な新規性は、ステップ５および６を含む組み合わせである。総和伝播は逆伝播アルゴリズムに類似しており、連鎖法則を適用することにより計算した勾配をグラフの後方に送ることで、グラフ全体で勾配を計算する。標準的な逆伝播を図１７に図示する。総和伝播は、いくつかのノードにおいて複数の勾配推定を実行すること、勾配推定量を結合すること、および結合した推定量を後方に送ること図１８によりこの手順を修正する。

【0126】

図１７は、機械学習における全てのニューラルネットワークアプリケーションの他、その他多くのアプリケーションにおいて使用される逆伝播アルゴリズムを図示している。総和伝播アルゴリズムは、異なる勾配推定技術を使用してｄＬ／ｄｚ_２の複数の推定値を求めること（たとえば、再パラメータ化法および尤度比法）、これらの推定値をより小さな勾配推定量の集合に結合すること、およびこれらを計算グラフの後方に渡すことにより、この手順を修正する。

【0127】

図１８は、単一の勾配推定量となるように尤度比および再パラメータ化勾配推定量を結合することにより勾配推定が実行される場合の総和伝播アルゴリズムを図示している。これは、３つ以上の勾配推定量を勾配推定量の総和数よりも少ない数に結合すること、および結合した勾配推定量を後方に送ることを、簡単に一般化する。

【図1】