(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】特表2021-527289(P2021-527289A)
(43)【公表日】2021年10月11日
(54)【発明の名称】総和確率的勾配推定方法、装置、およびコンピュータプログラム
(51)【国際特許分類】
G06N 99/00 20190101AFI20210913BHJP
【FI】
G06N99/00 180
【審査請求】未請求
【予備審査請求】未請求
【全頁数】32
(21)【出願番号】特願2021-518295(P2021-518295)
(86)(22)【出願日】2019年6月5日
(85)【翻訳文提出日】2021年1月28日
(86)【国際出願番号】JP2019022431
(87)【国際公開番号】WO2019235551
(87)【国際公開日】20191212
(31)【優先権主張番号】62/680,791
(32)【優先日】2018年6月5日
(33)【優先権主張国】US
(31)【優先権主張番号】62/749,908
(32)【優先日】2018年10月24日
(33)【優先権主張国】US
(81)【指定国】
AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JO,JP,KE,KG,KH,KN,KP,KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT
(71)【出願人】
【識別番号】520479906
【氏名又は名称】パラマス,パーヴォ
(74)【代理人】
【識別番号】100114557
【弁理士】
【氏名又は名称】河野 英仁
(74)【代理人】
【識別番号】100078868
【弁理士】
【氏名又は名称】河野 登夫
(72)【発明者】
【氏名】パラマス,パーヴォ
(57)【要約】
【課題】勾配推定方法、勾配推定装置、およびコンピュータプログラムを提供する。
【解決手段】勾配推定方法は、計算グラフを含み、計算グラフ中の一の変数に対する他の変数の勾配を推定する勾配推定方法であって、計算グラフ中のいくつかのノードで、異なる勾配推定量を用いて同じ勾配の2つ以上の異なる推定を実行し、初期推定数よりも少なくなるように異なる推定値を結合し、結合した推定値を計算グラフ中の異なるノードに受け渡し、勾配推定値は更なる計算に使用される。
【特許請求の範囲】
【請求項1】
計算グラフを含み、前記計算グラフ中の一の変数に対する他の変数の勾配を推定する勾配推定方法であって、
前記計算グラフ中のいくつかのノードで、異なる勾配推定量を用いて同じ勾配の2つ以上の異なる推定を実行し、初期の推定値の数よりも少なくなるように異なる推定値を結合し、結合した推定値を前記計算グラフ中の異なるノードに受け渡し、勾配推定値は更なる計算に使用される、勾配推定方法。
【請求項2】
前記勾配の前記異なる推定値は、加重平均に基づいて結合され、前記加重平均の重みは、前記計算グラフ中のいくつかの変数に対する前記計算グラフ中の他のいくつかの変数の勾配推定の分散の明示的または暗示的な推定値に基づいて計算される、請求項1に記載の勾配推定方法。
【請求項3】
前記重みは、前記分散の逆数の大きさに比例して設定される、請求項2に記載の勾配推定方法。
【請求項4】
前記勾配推定量は、尤度比および再パラメータ化勾配推定量である、請求項1から請求項3のいずれか一項に記載の勾配推定方法。
【請求項5】
前記勾配は、前記計算グラフ中のパラメータの最適化に使用される、請求項1から4のいずれか一項に記載の勾配推定方法。
【請求項6】
計算グラフを含み、前記計算グラフ中の変数に対するある変数の勾配を推定する勾配推定方法であって、前記計算グラフ中のいくつかのノードで、尤度比および再パラメータ化の方法の両方に対する目的関数の勾配を推定し、両方の推定量を用いて前記計算グラフ中のパラメータを最適化する、勾配推定方法。
【請求項7】
前記尤度比および再パラメータ化の勾配推定量は、加重平均に基づいて結合され、重みは、それぞれの勾配推定量の分散の逆数に比例する、請求項6に記載の勾配推定方法。
【請求項8】
前記計算グラフは、ポリシー探索、強化学習、機械学習、またはニューラルネットワークの計算グラフに対応する、請求項1から請求項7のいずれか一項に記載の勾配推定方法。
【請求項9】
結合した推定値は、前記計算グラフ中の先行ノードに受け渡される、請求項1から請求項8のいずれか一項に記載の勾配推定方法。
【請求項10】
前記パラメータの最適化法は、勾配降下または上昇最適化法である、請求項6から請求項9のいずれか一項に記載の勾配推定方法。
【請求項11】
前記更なる計算は、いくつかの変数に対する他のいくつかの変数の更なる勾配推定である、請求項1から請求項10のいずれか一項に記載の勾配推定方法。
【請求項12】
前記勾配推定値の結合は、以前の最適化ステップによる勾配に基づいて決定される、請求項5から請求項11のいずれか一項に記載の勾配推定方法。
【請求項13】
計算グラフを含み、前記計算グラフ中の一の変数に対する他の変数の勾配を推定する勾配推定方法であって、前記勾配推定方法は、前記計算グラフ中のいくつかのノードで、前記ノードにおける確率密度のパラメトリック形式を仮定し、前記計算グラフ中のサンプリングされた計算から前記確率密度のパラメータを推定し、現在の変数に依存したノードの期待変数の勾配を推定し、期待値は推定分布全体にわたって得られ、更に、前記勾配を前記ノードにおけるいくつかの統計値と掛け合わせてスカラー変数を求め、前記スカラー変数を用いて尤度比勾配推定量を求める、勾配推定方法。
【請求項14】
確率分布の前記パラメトリック形式は、ガウス分布である、請求項13に記載の勾配推定方法。
【請求項15】
推定パラメトリック確率分布に対する前記勾配との掛け合わせに先立って尤度比勾配推定が実行されるように、前記勾配を前記統計値と掛け合わせることおよび前記尤度比勾配推定値を求めることの順序が入れ替えられる、請求項13または請求項14に記載の勾配推定方法。
【請求項16】
請求項1から12のいずれか一項に記載の勾配推定方法と、請求項13、14または15に記載の勾配推定方法とを組み合わせて実行する、勾配推定方法。
【請求項17】
請求項1から16のいずれか一項に記載の勾配推定方法を実行する装置。
【請求項18】
請求項1から16のいずれか一項に記載の勾配推定方法を実行させるコンピュータプログラム。
【請求項19】
強化学習におけるポリシー探索方法であって、
ポリシーパラメータに対する平均総報酬の勾配を推定することであり、ポリシーおよびダイナミクスに従って状態遷移が発生する方向と反対の勾配逆伝播ステップそれぞれにおいて、再パラメータ化法および尤度比法を組み合わせることにより、ポリシーパラメータに対する平均総報酬の勾配を推定し、
評価結果に従って、前記ポリシーパラメータを更新する、
ポリシー探索方法。
【請求項20】
更に、前記ポリシーパラメータに対する目的の勾配の分散に基づいて、加重平均の重みを設定する、
請求項19に記載のポリシー探索方法。
【請求項21】
前記再パラメータ化法および前記尤度比法に従って勾配推定量に割り当てられる前記重みは、それぞれの勾配推定量の分散の逆数の大きさに比例して設定される、
請求項20に記載のポリシー探索方法。
【請求項22】
強化学習におけるポリシー探索装置であって、
離散時間システムにおける状態を計算し、
ポリシーおよびダイナミクスに従って状態遷移が発生する方向と反対の勾配逆伝播ステップそれぞれにおいて、再パラメータ化法および尤度比法を組み合わせることにより、ポリシーパラメータに対する平均総報酬の勾配を推定し、
評価結果に従って、前記ポリシーパラメータを更新する、
ポリシー探索装置。
【請求項23】
更に、前記ポリシーパラメータに対する目的の勾配の分散に基づいて、加重平均の重みを設定する、
請求項22に記載のポリシー探索装置。
【請求項24】
前記再パラメータ化法および前記尤度比法に従って勾配推定量に割り当てられる前記重みは、それぞれの勾配推定量の分散の逆数の大きさに比例して設定される、
請求項23に記載のポリシー探索装置。
【請求項25】
コンピュータに、
離散時間システムにおける状態を計算し、
ポリシーおよびダイナミクスに従って状態遷移が発生する方向と反対の勾配逆伝播ステップそれぞれにおいて、再パラメータ化法および尤度比法を組み合わせることにより、ポリシーパラメータに対する平均総報酬の勾配を推定し、
評価結果に従って、前記ポリシーパラメータを更新する、
処理をコンピュータに実行させるためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、計算グラフにおいて定義された変数の勾配を推定する方法、上記推定を行う装置、およびコンピュータプログラムに関する。
【背景技術】
【0002】
ほとんどの機械学習問題には、何らかのデータ生成分布p
Data(x)全体の目的関数J(x;θ)の期待値の最適化を伴うが、この分布は、サンプルデータ点{x
i}を通じてのみアクセス可能である。
【0003】
最も一般的な最適化方法は、逆伝播により計算されるPathwise導関数(pathwise derivative)を用いた勾配降下法である。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Bengio, Y., Simard, P., and Frasconi, P. Learning long-term dependencies with gradient descent is difficult. IEEE transactions on neural networks, 5(2):157-166, 1994
【非特許文献2】Deisenroth, Marc Peter, Neumann, Gerhard, Peters, Jan, らによるA survey on policy search for robotics. Foundations and Trends in Robotics, 2(1-2):1-142, 2013
【非特許文献3】Deisenroth, Marc Peter, Fox, Dieter, and Rasmussen, Carl Edward. Gaussian processes for data-efficient learning in robotics and control. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(2):408-423, 2015
【発明の概要】
【発明が解決しようとする課題】
【0005】
いくつかの状況(特に、非常に長い計算グラフまたはリカレントな計算グラフを伴う場合)において、この手法は、勾配分散の爆発によって、ランダムウォークに陥る可能性もある。通常、この現象は、ステップの増大および学習の不安定化につながる数値問題と捉えられる(非特許文献1参照)。
【0006】
本発明の目的は、勾配推定に伴う課題を解決することである。本発明は、逆伝播アルゴリズムの代わりとして、任意の計算グラフに使用し得る汎用的な勾配推定方法である。
【課題を解決するための手段】
【0007】
勾配推定方法は、計算グラフを含み、計算グラフ中の他の変数に対するある変数の勾配を推定するものであって、グラフ中のいくつかのノードで、別個の勾配推定量を用いて同じ勾配の2つ以上の別個の推定を実行し、初期推定値数よりも少なくなるように別個の推定値を結合し、結合した推定値をグラフ中の異なるノードに受け渡し、勾配推定値が、さらなる計算に使用される。
【発明の効果】
【0008】
本出願によれば、より正確で、勾配の爆発に悩まされない勾配評価の代替的な柔軟性のあるフレームワークを提供することが可能である。
【図面の簡単な説明】
【0009】
【
図1】本実施形態に係る、コンピューティングデバイス1のハードウェア構成を示すブロック図である。
【
図2】PILCOによるポリシー勾配評価アルゴリズムを説明する図である。
【
図4】本実施形態に係る、コンピューティングデバイス1により実行される手順を説明するフローチャートである。
【
図10A】数式11における経路の例を示す図である。
【
図10B】数式11における経路の例を示す図である。
【
図11A】モデル基準およびモデルなしのLR勾配推定の確率計算グラフを示す図である。
【
図11B】モデル基準およびモデルなしのLR勾配推定の確率計算グラフを示す図である。
【
図12】総和伝播と適合する様子を詳しく説明するためのアルゴリズム3を示す図である。
【
図13】ガウス成形勾配における計算経路を示す図である。
【
図17】機械学習における全てのニューラルネットワークアプリケーションの他、その他多くのアプリケーションにおいて使用される逆伝播アルゴリズムを示す図である。
【
図18】単一の勾配推定量となるように尤度比および再パラメータ化勾配推定量を結合することにより勾配推定が実行される場合の総和伝播アルゴリズムを示す図である。
【発明を実施するための形態】
【0010】
(実施形態1)
図1は、本実施形態に係る、コンピューティングデバイス1のハードウェア構成を示すブロック図である。本実施形態に係るコンピューティングデバイス1は、パソコン、サーバ装置等の情報処理装置である。コンピューティングデバイス1は、制御ユニット11、記憶ユニット12、入力ユニット13、通信ユニット14、操作ユニット15、および表示ユニット16を具備する。コンピューティングデバイス1は、本発明者らによる「PIPPS: Flexible Model-Based Policy Search Robust to the Curse of Chaos」、「Total Propagation Algorithm: Supplementary notes」、および「Total stochastic gradient algorithms and applications in reinforcement learning」において開示された方法を実装している。
【0011】
制御ユニット11は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等を具備する。制御ユニット11のROMには、ハードウェアの各部の動作を制御する制御プログラム等が記憶されている。制御ユニット11のCPUは、ROMに記憶された制御プログラムおよび後述する記憶ユニット12に記憶された種々プログラムを実行して、前述の論文に開示の方法のように、ハードウェアの動作を制御する。制御ユニット11のRAMには、種々プログラムの実行に際して一時的に使用されるデータが記憶されている。
【0012】
なお、制御ユニット11は、上記構成に限定されず、シングルコアCPU、マルチコアCPU、GPU(Graphics Processing Unit)、マイクロコンピュータ、揮発性または不揮発性メモリを含む1つまたは複数の処理回路または演算回路であってもよい。また、制御ユニット11は、データおよび時間の情報を出力するクロック、測定開始命令の適用から測定終了命令が与えられるまでの経過時間を測定するタイマー、計数用のカウンタ等の機能を含んでいてもよい。
【0013】
記憶ユニット12は、SRAM(Static Random Access Memory)、フラッシュメモリ、ハードディスク等を用いた記憶装置を含む。記憶ユニット12は、制御ユニット11により実行される種々のプログラム、種々のプログラムの実行に必要なデータ等を記憶する。記憶ユニット12に記憶されるプログラムとしては、たとえば上記論文に開示の技術を実装したコンピュータプログラムが挙げられる。
【0014】
記憶ユニット12に記憶されたプログラムは、プログラムが可読記録された記録媒体Mにより提供されるようになっていてもよい。記録媒体Mは、SD(Secure Digital)カード、マイクロSDカード、コンパクトフラッシュ(登録商標)等の携帯型メモリである。この場合、制御ユニット11は、読み出し装置(図示せず)を用いて記録媒体Mからプログラムを読み出し、この読み出したプログラムを記憶ユニット12にインストールすることができる。さらに、記憶ユニット12に記憶されたプログラムは、通信ユニット14を介して、通信により提供されるようになっていてもよい。この場合、制御ユニット11は、通信ユニット14を通じてプログラムを取得し、この取得したプログラムを記憶ユニット12にインストールすることができる。
【0015】
入力ユニット13は、種々データを装置に入力するための入力インターフェースを有する。制御ユニット11は、入力ユニット13を通じて、処理対象のデータを取得する。
【0016】
通信ユニット14は、インターネット等の通信ネットワーク(図示せず)に接続するための通信インターフェースを含み、外部に通知されるさまざまな種類の情報を送信し、外部から送信されたさまざまな種類の情報を受信する。本実施形態においては、入力ユニット13を通じて処理対象のデータが取得されるが、通信ユニット14を通じて処理対象のデータが取得されるようになっていてもよい。
【0017】
操作ユニット15は、キーボードおよびタッチパネル等のユーザインターフェースを含み、さまざまな操作情報および設定情報を受け付ける。制御ユニット11は、操作ユニット15から入力された操作情報に基づいて適当な制御を実行し、必要に応じて、設定情報を記憶ユニット12に記憶する。
【0018】
表示ユニット16は、液晶表示パネルおよび有機EL(Electro Luminescence)表示パネル等の表示装置を含み、制御ユニット11から出力された制御信号に基づいて、ユーザに通知される情報を表示する。
【0019】
本実施形態において、上記論文に開示の構成は、制御ユニット11により実行されるソフトウェア処理によって実現されるが、LSI(Large Scale integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Arra)等が制御ユニット11と別個に搭載されていてもよい。この場合、制御ユニット11は、入力ユニット13から入力された処理対象のデータをハードウェアに送ることにより、上記論文に開示の方法をハードウェア内で実現する。
【0020】
さらに、本実施形態において、コンピューティングデバイス1は、簡素化のため単一の装置として記載しているが、複数のコンピューティングデバイスにより構成されていてもよいし、1つまたは複数の仮想マシンにより構成されていてもよい。
【0021】
本実施形態においては、コンピューティングデバイス1が操作ユニット15および表示ユニット16を具備するが、操作ユニット15および表示ユニット16は、必須ではない。たとえば、コンピューティングデバイス1は、外部接続されたコンピュータを通じて操作を受け付け、外部コンピュータに通知される情報を出力するようにしてもよい。
【0022】
以下、本発明の勾配推定方法について説明する。以下の式では、小文字がスカラーを表し、太字がベクトルまたは行列を表す。ただし、以下の説明においては、小文字と太字とを区別なく示している。また、以下の説明において、「C_^」は、ハット付き文字を表し、「C_〜」は、チルダ付き文字を表す。
【0023】
(2.1 ポリシー探索)
ポリシー探索方法の総括としては、非特許文献2が参照される。なお、ポリシー探索は、アルゴリズムの1つのアプリケーションに過ぎず、特定の計算グラフには限定されず、如何なる計算グラフにも適用可能である。状態ベクトルx
t(たとえば、ロボットの位置および速度)ならびに適用動作/制御ベクトルu
t(たとえば、モータトルク)により記述される離散時間系を考える。固定された初期状態分布x
0〜p(x
0)から状態をサンプリングすることによって、エピソードが開始となる。ポリシーπ
θは、適用された動作u
t〜p(u
t)=π(x
t;θ)を決定する。動作の適用により、未知のダイナミクス関数x
t+1〜p(x
t+1)=f(x
t,u
t)に従って状態が遷移する。ポリシーおよびダイナミクスはいずれも、確率的かつ非線形であってもよい。最大T時間ステップまで動作および状態遷移が繰り返されて、軌跡τ:(x
0,u
0,x
1,u
1,・・・,x
T)が生成される。各エピソードは、リターン関数G(τ)に従ってスコアリングされる。リターンは、時間ステップごとのコストの総和G(τ)=Σ
t=0Tc(x
t)(t=0,・・・,T)に分解されることが多く、ここで、c(x)はコスト関数である。その目標は、ポリシーパラメータθを最適化して、期待リターンJ(θ)=E
r〜p(τ;θ)[G(τ)]を最小化することである。ここで、値V
h(x)=E
t=hT[Σc(x
t)]と定義する。
【0024】
学習は、システム上のポリシーの実行と、その後のθの更新による後続試行上の性能の向上とが交互に発生する。ポリシー勾配法では、目的関数の勾配d/dθ・J(θ)を直接推定し、これを最適化に使用する。一部のモデル基準のポリシー探索方法では、データを全て使用して、f_^で示されるfのモデルを学習し、これを試行間の「メンタルリハーサル」に使用してポリシーを最適化する。現実の試行ごとに何百回もの模擬試行を実行して、データ効率を大幅に向上可能である。ここで、f_^の微分によって、モデルなしアルゴリズムよりも優れた勾配推定量を求め得るという事実を利用する。この場合のモデルは、確率論的であり、状態分布を予測する。
【0025】
(確率的勾配推定)
ここで、サンプリング分布のパラメータに対する任意の関数φ(x)の期待値の勾配d/dθE
x〜p(x;θ)[φ(x)](たとえば、ポリシーパラメータに対する期待リターン)を計算する方法について説明する。
【0026】
(再パラメータ化勾配(RP))
一変量ガウス分布からのサンプリングを考える。ある手法では、ゼロ平均および単位分散ε〜N(0,1)でのサンプリングの後、この点をマッピングして、所望の分布からサンプルを複製する(x=μ+σε)。ここで、分布パラメータを参照して出力を微分するのは容易である。すなわち、dx/dμ=1およびdx/dσ=εである。サンプルの平均化dφ/dx・dx/dθによって、期待値の勾配の不偏推定値が与えられる。これは、正規分布のRP勾配である。多変量ガウス分布の場合は、σの代わりに、共分散行列のコレスキー因子(L、s.t.Σ=LL
T)を使用可能である。
【0027】
(尤度比勾配(LR))
所望の勾配は、d/dθ・E
x〜p(x;θ)[φ(x)]=∫dp(x;θ)/dθφ(x)として記述可能である。一般に、∫φ(x)dx=∫q(x)φ(x)/q(x)dx=E
x〜q[φ(x)/q(x)]の実行によって、分布q(x)からサンプリングすることにより如何なる関数も積分可能である。尤度比勾配は、q(x)=p(x)を抜き取って、以下のように直接積分する。
【0029】
LR勾配は、高分散の場合が多く、制御変量として知られる分散低減技術と組み合わせる必要がある(Greensmithら、2004)。一般的な手法では、関数値から一定基準値bを減算して、推定量E
x〜p[d/dθ・(log p(x;θ))(φ(x)−b)]を求める。bがサンプルと無関係の場合は、これによって、バイアスの導入なく、分散を大幅に低減可能である。実際には、サンプル平均が良い選択である(b=E[φ(x)])。バッチから勾配を推定する場合は、各点の一個抜き基準値を推定することによって、不偏勾配推定量を求めることができる。すなわち、b
i=Σ
j≠iPφ(x
j)/(P−1)である。
【0030】
(軌跡勾配推定)
特定の軌跡を観測する確率密度p(τ)=p(x
0,u
0,x
1,u
1,・・・,x
T)は、p(x
0)π(u
0|x
0)p(x
1|x
0,u
0)・・・p(x
T|x
T−1,u
T−1)として記述可能である。
【0031】
RP勾配を使用するには、ダイナミクスp(x
t+1|x
t|u
t)を把握または推定する必要がある。言い換えると、モデル基準の場合に適用可能である。このようなモデルによれば、連鎖律を用いて、予測軌跡を微分可能である。
【0032】
なお、LR勾配を使用するには、p(τ)が積であることから、log p(τ)を総和に変換可能である。G
h(τ)=Σ
t=hTc(x
t)と表す。なお、(1)動作分布のみがポリシーパラメータによって決まり、(2)過去の時間ステップで求められたコストに動作は影響せず、以下のような勾配推定量が得られる。
【0034】
(PILCO)
図2は、PILCOによるポリシー勾配評価アルゴリズムを説明した図である。ここでは元のPILCOに従うが、これは、ガウス過程ダイナミクスモデルを使用して、ある時間ステップから次の時間ステップまでの状態の変化を予測する。すなわち、p(Δx
t+1a)=gP(x
t,u
t)(ただし、x∈R
D、u∈R
F、Δx
t+1a=x
t+1a−x
ta)である。各次元aに対して、別個のガウス過程が学習される。ここでは、二乗指数共分散関数k
a(x_〜,x’_〜)=s
a2exp(−(x_〜−x’_〜)
TΛ
a−1(x_〜−x’_〜))を使用する。ただし、s
aおよびΛ=diag([l
a1,l
a2,・・・,l
aD+F])はそれぞれ、関数分散および長さスケールのハイパーパラメータである。また、ノイズハイパーパラメータがσ
nのガウス尤度関数を使用する。ハイパーパラメータは、訓練によって、周辺尤度を最大化する。これらのモデルからのサンプリングに際して、予測は、y=f_^(x)+ε(ただし、ε〜N(0,σ
f2(x)+σ
n2))という形態を有する。ここで、σ
f2は、モデルの不確実性を表し、領域中のデータの欠如に起因する。一方、σ
n2は、学習済みの固有モデルノイズである。学習済みモデルノイズは、システム中の実観測ノイズσ
o2と必ずしも同じではない。実際、潜在状態はモデル化されておらず、システムは、現在の観測を所与として、次の観測を予測することにより近似される。さらに、軌跡には、付加的な分散源が存在し、開始位置が異なれば軌跡も異なる。
【0035】
(モーメントマッチング予測)
一般的に、ガウス分布が非線形関数によってマッピングされた場合、出力は、扱いにくく、非ガウス分布である。ただし、出力分布のモーメントを解析的に評価できる場合もある。モーメントマッチング(MM)は、平均および分散を真のモーメントとマッチングさせることにより、出力分布をガウス分布として近似する。なお、状態次元が別個の関数fa_^でモデル化されていても、MMは一体的に実行され、状態分布が共分散を含み得る。
【0036】
(パーティクル予測)
一般的に、パーティクル軌跡予測は単純で、全てのパーティクル位置での予測、出力分布からのサンプリング、繰り返しを行う。ただし、ガウス再サンプリング(GR)に基づく方式との比較により、PILCOへのニューラルネットワークダイナミクスモデルの適用も行う。
【0037】
(ガウス再サンプリング(GR))
MMは、確率的に複製可能である。各時間ステップにおいて、パーティクルの平均μ_^=Σ
i=1Px
i/Pおよび分散Σ_^=Σ
i=1P(x
i−μ_^)(x
i−μ_^)
T/(P−1)が推定される。その後、パーティクルは、適合分布x’
i〜μ_^+Lz
i|z
i〜N(0,I)(ただし、LはΣ_^のコレスキー因子)から再サンプリングされる。勾配dL=dΣ_^を求めることは、容易ではない。ここでは、与えられた記号表現を使用する。
【0038】
(ハイブリッド勾配推定技術)
本発明の場合には、RP勾配を使用可能である。ただし、驚くべきことに、RP勾配は絶望的に不正確である(
図5D参照)。この問題を解決するため、モデル導関数をLR勾配と結合した新たな勾配推定量を得た。特に、本発明の手法では、バッチ内重点サンプリングによって、サンプリング効率の向上を可能にした。
【0039】
(モデル基準のLR)
予測軌跡上の分布は、p(τ)=p(x
0)π(u
0|x
0)f_^(x
1|x
0,u
0)・・・f_^(x
T|x
T−1,u
T−1)として記述可能である。また、決定論的ポリシーによって、p(x
t+1|x
t)=f_^(x
t+1|x
t,π(x
t;θ))のように、モデルとポリシーとを結合可能であるが、これは、微分可能である(dp
t+1/dθ=dp
t+1/du
t・du
t/dθ)。モデル基準の勾配は、以下のように導かれる。
【0041】
(バッチ重点加重LR(BIW−LR))
ここでは、並列計算を使用して、複数のパーティクルを同時にサンプリングする。状態分布は、混合分布q(x
t+1)=Σ
i=1Pp(x
t+1|x
i,t;θ)/Pとして表される。LRの導出と同様に、各時間ステップについて、バッチ内の重点サンプリングにより低分散推定量を以下のように導出可能である。
【0043】
以下の方程式により、正規化重点サンプリングによって、リターンの一個抜き平均を推定するようにする。
【0045】
ただし、c
j,t+1=p(x
j,t+1|x
i,t)/Σ
k=1Pp(x
j,t+1|x
k,t)である。正規化がなければ、基準値推定の高分散によって、LR勾配が不十分となる。なお、時間ステップごとにP基準値を計算する一方で、勾配推定量には、P
2成分が存在する。真の不偏勾配を求めるには、P
2の一個抜き基準値(分布の各混合成分のパーティクルごとに1つ)を計算するものとする。本明細書には、ここに提示の基準値のみを用いた評価を含む(これにより、バイアスのほとんどを除去済みであることが分かっている)。
【0046】
(RP/LR加重平均)
計算の大部分は、dp(x
t+1|x
t;θ)/dθ項に費やされる。これらの項は、LRおよびRPの両勾配に必要なため、両推定量の結合には如何なるペナルティも存在しない。周知の統計学的結果によれば、独立した推定量に関して、重みが逆分散に比例する場合は、最適な加重平均推定値が実現される。すなわち、μ=μ
LRk
LR+μ
RPk
RP(ただし、k
LR=σ
LR_^
−2/(σ
LR_^
−2+σ
RP_^
−2)およびk
RP=1−k
LR)である。
【0047】
単純結合方式であれば、両推定量について、全軌跡の勾配を別個に計算した後、それらを結合することになるが、この手法では、軌跡の短い部分に再パラメータ化勾配を使用して、より優れた勾配推定値を求める機会が無視されてしまう。本発明の新たな総和伝播アルゴリズム(TP)は、この単純法に優る。TPでは、単一の後方パスによって、全ての考え得るRP深度にわたる和集合を計算するため、低分散の推定量に大きな重みが自動的に付与される。
【0048】
図3は、総和伝播アルゴリズムを説明した図である。アルゴリズム2においては、各後方ステップにおいて、LRおよびRPの両方法を用いることにより、ポリシーパラメータに対して勾配を評価する。また、ポリシーパラメータ空間における分散に基づいて比を評価するが、この分散は、ポリシー勾配推定量の分散に比例する。勾配は結合され、分布パラメータ空間における最良の推定値が過去の時間ステップに受け渡される。このアルゴリズムにおいては、V演算子が異なるパーティクルから勾配推定値のサンプル分散を取り出すが、他の分散推定方式も考えられ、たとえば、勾配の大きさの移動平均から分散を推定することも可能であるし、分散に対して異なる統計学的推定量を使用することも可能であるし、ポリシーパラメータの部分集合のみを使用することも可能である。このアルゴリズムは、RL問題に限定されず、一般的な確率的計算グラフにも適用可能であり、確率論的モデル、確率的ニューラルネットワーク等の訓練に使用することも可能である。一般的な計算グラフ設定においては、勾配をグラフ中で後方に伝播させることにより、グラフ中のいくつかのノードで複数の勾配推定量を結合するようにしてもよい。この場合に、時間ステップパラメータtを1だけ小さくすれば、これは、グラフ中でのノードの後方移動の一方、勾配の伝播に対応することになる。勾配推定量の結合方式での決定に用いられる分散等の統計値は、計算グラフ中のその他任意のノードから求められるようになっていてもよい。
【0049】
図4は、本実施形態に係る、コンピューティングデバイス1により実行される手順を説明したフローチャートである。コンピューティングデバイス1は、アルゴリズム2に従って、以下のプロセスを実行する。
【0050】
制御ユニット11は、種々パラメータを初期化する(ステップS101)。具体的には、制御ユニット11は、dG
T+1/dζ
T+1=0、dJ/dθ=0、G
T+1=0と設定する。ただし、ζは、分布パラメータ(たとえば、μおよびσ)である。
【0051】
制御ユニット11は、時間(時間ステップ)tをTに設定し(ステップS102)、パーティクルiごとに以下の計算を実行する(ステップS103)。ただし、c
tは、時間tにおけるコストである。
【0053】
制御ユニット11は、数式6の計算結果を用いて、以下の計算を実行する(ステップS104)。
【0055】
さらに、制御ユニット11は、数式6の計算結果を用いて、パーティクルiごとに、以下の計算を実行する(ステップS105)。
【0057】
次に、制御ユニット11は、時間tが所定の時間1に達したかを判定する(ステップS106)。時間tが時間1になっていない場合(S106:NO)、制御ユニット11は、時間tを1だけ減らし(ステップS107)、プロセスをステップS103に戻す。
【0058】
(ポリシー最適化)
なお、勾配に基づく任意の最適化手順を使用することも可能であるが、本実施形態においては、RMSpropのような確率的勾配降下法を使用する(RMSpropに由来するアルゴリズムを使用する)。RMSpropでは、勾配の二乗の移動平均を利用して、そのSGDステップを正規化する。本発明の場合は、バッチサイズが大きいため、z=E[g
2]=E[g]
2+V[g](ただし、gが勾配)によって、バッチから二乗の期待値を直接推定する。また、平均の分散を使用する。すなわち、V[g]は、パーティクル数Pにより除された分散である。勾配ステップは、g/z
1/2になる。また、パラメータγのモーメンタムを使用する。完全更新された方程式は、以下のようになる。
【0060】
乱数シードの固定によって、確率的問題を決定論的に変えることができ、RLコミュニティにおいてはPEGASUSトリックとしても知られている。シードが固定された場合は、RP勾配が対象の厳密な勾配であり、BFGS等の決定論的疑似ニュートンオプティマイザを使用可能である。
【0061】
(実験)
2つの目的で、実験を行った:(1)RP勾配が十分ではない理由を説明するため、(2)本発明の新たに開発された方法が学習効率の点でPILCOに匹敵し得ることを示すため。
【0062】
(値ランドスケープをプロットする)
図5A〜
図5Fは実験結果を図示している。ランダムに選択された固定方向にポリシーパラメータθを摂動させ、目的関数および、射影勾配の大きさをΔθの関数としてプロットする。この実験の結果は、恐らくは本明細書において最も斬新な部分であり、「カオスの呪い(the curse of chaos)」という用語を思いついた。
【0063】
プロットは、非線形のcart−poleのタスクで、生成された。1000パーティクルを使用し、一方で
図5Dの高分散が乱数性によって生じるのではなく、システムのカオスのような特性によるものであることを実証するために乱数シードは固定し続けた。信頼区間は、V ar / Pによって推定され、ここで、V arはサンプル分散であり、Pはパーティクル数である。後述するように、より原理的な手法を使用して分散のPに対する依存性をプロットする。
【0064】
図5Dには、特異な結果が含まれており、ある領域ではRP勾配が良好な振る舞いをしているが、ポリシーパラメータが摂動されると相遷移のような変化により分散が爆発している。Δθ=1.5における分散は、Δθ=0の〜4×10
5倍であり、この領域でRP勾配が正確となるためには4×10
8パーティクルが必要であることを意味している。実用に際しては、RP勾配で最適化することにより単純なランダムウォークが導かれる。
【0065】
シードが固定されているため、
図5DのRP勾配は
図5Aの値の厳密な勾配である。したがって、
図5Aの右に極微小の決定論的な「ノイズ」が存在する。しかし1000パーティクルにわたって平均化される値は、真の目的ではないが、無限数のパーティクルを平均化する必要がある。無限数のパーティクルを平均化した場合、まだ「ノイズ」が存在するだろうか?または、関数が滑らかになるだろうか?
【0066】
図5Eおよび
図5Fの新たな勾配推定量は、真の目的が確かに滑らかであることを示唆している。さらなるエビデンスを与えるために、「ノイズ」を無視できるように、θにおいて十分に大きな摂動を使用して
図5Aの値の有限差分から勾配の大きさを推定した。2つの別個の手法(1つはポリシーパラメータθを変化させる、もう1つはθを固定し続けるが軌跡から勾配を推定する)が合致するという事実は、真の目的が滑らかであるという説得力のあるエビデンスを与える。
【0067】
図5Bおよび
図5Cは、RP勾配を使用する際の、分散の爆発の理由を説明している。
図5Bは、最も左のパラメータ設定に対応し、
図5Cは最も右のパラメータ設定に対応している。プロットは、値V(x;θ)(残存累積コスト)が位置xの関数としてどのように変化するかを示している。なお、乱数シードが固定されているため、値Vは残存リターンGと同一である。図面は、異なる固定シードで4パーティクルについて各点の軌跡を予測し、軌跡のコストを平均化することによって作成された。1パーティクルを試した後に、4パーティクルを予測するようにし、それについては値が階段のような部分を含むように見えたが、それ以外は現在の図面と比べてあまり興味深くはなかった。4パーティクルの平均値は不安定であるため、4パーティクルのうちの少なくとも1つは示される領域内で非常に不安定であったに違いない。
【0068】
初期状態分布の中央から平均予測に四角が中央に位置付けられる。四角の軸は、わずかに異なっているが、θが変わると予測される位置p(x1;θ)が変わるからである。辺の長さはガウス分布p(x1;θ)の4標準偏差に対応している。速度は平均値に固定し続けた。
【0069】
RPはd/dθ ∫p(x
1;θ)V(x
1)dxを推定する。これは四角内部の点をサンプリングし、勾配dV/dθ=dV/dx・dx/dθを計算して、サンプルとともに平均化する。
図5Cでは、Vを微分することで期待値の勾配を見出すことは全く絶望的である。対照的に、LR勾配(
図5E)は、値Vの微分ではなく値Vだけを使用しており、この問題を被っていない。TP(
図5F)は、両方の推定量を効果的に結合している。
【0070】
ガウス再サンプリングの場合についてプロット値と勾配を示すことはしないが、最終的に、これらの両方が固定された乱数シードに対して滑らかな関数であった。したがって、再サンプリングも「カオスの呪い」に対して有効である。
【0071】
図6Aおよび
図6Bは、分散のグラフである。
図6Aおよび
図6Bでは、Δθ=0およびΔθ=1.5における勾配推定量の分散がパーティクル数Pにどのように依存するかをプロットした。分散は、多数回、推定量を繰り返しサンプリングし、評価の集合からの分散を計算することによって計算された。RP、TPならびにLR勾配を、バッチ重点加重(BIW)のある時とない時の両方とで比較して、本発明の重点サンプリング方式が分散を低減させることを示す。重点サンプリング基準値を使用した−実際には、通常のLR勾配はより単純な基準値を使用し、ずっと高い分散を有する。
図6BではRP勾配が省略されているが、分散が10
8〜10
15の間にあったためである。TP勾配が、BIW−LR、およびRP勾配を結合した。
【0072】
結果により、BIWが著しく分散を低減していることが確認される。さらに、本発明のTPアルゴリズムが最良であった。重要なことに、
図6Bでは全軌跡についてのRP勾配の分散は他の推定量よりも10
6大きいが、TPは短い経路長のRP勾配を利用して250より少ないパーティクルについて10〜50%低減した分散を得ている。これは注目すべき結果であるが、勾配推定量が別個に計算される場合、結合された推定量についての最高の可能な精度は別個の推定量の精度の総和となるからである。しかしながら、本発明の総和伝播アルゴリズムは、計算のグラフ構造を利用しているため、総和よりも高い精度を実現している。
【0073】
(学習実験)
エピソード的な学習タスクでのPILCOを以下のパーティクル基準の方法と比較する:RP、固定シードでのRP(RPFS)、ガウス再サンプリング(GR)、固定シードでのGR(GRFS)、モデル基準のバッチ重点加重尤度比(LR)、および総和伝播(TP)。さらに、パーティクル予測の2つのバリエーションを評価する。(1)モデルの不確実性を無視する一方で、各時間ステップにおいてノイズのみを加算するTP(TP−σ
f)。(2)予測ノイズが増加させたTP(TP+σ
n)。全ての場合で300パーティクルを使用した。
【0074】
最近のPILCOの論文(非特許文献3):カートポールのスイングアップおよびバランス、ならびに一輪車のバランス、より学習タスクを実行した。シミュレーションダイナミクスは同一に設定し、他の態様は元のPILCOと同様にした。
図7A、
図7B、
図8および
図9は実験結果を図示している。
【0075】
オプティマイザを、各試行間で600ポリシー評価について、実行した。SGD学習速度およびモーメンタムパラメータは、α=5×10
−4およびγ=0.9であった。エピソード長は、カートポールでは3s、一輪車では2sであった。なお、一輪車タスクについては、ポリシーを長い試行に一般化するためには2sでは十分ではないが、それでもPILCOと比較することはできる。制御周波数は10Hzであった。コストは、タイプ1−exp(−(x−t)
TQ(x−t))であり、ここでtはターゲットである。ポリシー_(x)からの出力は飽和関数sat(u)=9sin(u)/8+sin(3u)/8によって制約され、ここでu=π_〜(x)である。1つの実験は(1;5)ランダム試行から構成され、カートと一輪車のタスクそれぞれについて学習済み試行(15;30)が続く。各実験は100回繰り返され、平均化した。各試行は、ポリシーを30回実行して平均化することにより評価したが、これは評価目的のためのみに実行したことに留意されたい(アルゴリズムのアクセスは1試行だけである)。最終試行のリターンが閾値を下回ったどうかによって、成功を判断した。
【0076】
(カート−ポールのスイングアップおよびバランス)
これは標準的な制御セオリーのベンチマーク課題である。タスクは、カートを前後に押して、直立に取り付けられた振り子を揺らしてそのバランスを保つことから構成される。状態空間は、x=[s,β,ds/dt,dβ/dt]と表現され、ここでsはカート位置であり、βはポール角度である。基準のノイズレベルはσ
s=0.01m、β=1deg、σ
ds/dt=0.1m/s、σ
dβ/dt=10deg/sである。ノイズは、異なる実験では乗数k:σ
2=kσ
base2によって修正される。元の論文では、真の状態への直接アクセスが考慮されている。類似の設定を求めるために、k=10
−2と設定したが、やはりk∈{1,4,9,16}を試験した。ポリシーπ_〜は、50基底関数を伴う動径基底関数ネットワーク(ガウシアンの総和)である。2つのコスト関数を考える。1つは、元のPILCOと同じものであり、xがサインとコサインを含み、振り子がバランスをとっている時の振り子の先端(Tip)と先端の位置との間の距離に依存している(Tip Cost)。もう1つのコストは、生の角度を使用し、Q=diag([1,1,0,0])であった(Angle Cost)。このコストはTip Costとは概念的に異なっており、振り子をスイングアップする正しい方向が1つだけであるからである。
【0077】
(一輪車のバランス)
タスクは、一輪車ロボットがバランスをとることから構成され、状態次元D=12、および制御次元F=2である。ノイズは低い値に設定した。制御を与えるπ_〜は線形である。
【0078】
(学習実験)
PILCOは、ノイズのないシナリオでは良好に実行されるが、ノイズが加わると、結果が悪化する。この悪化は、MM近似における誤りの累積によって最も生じやすく、以前、予測に求積を使用したVinogradskaら、(2016)によって観測されている。パーティクルはこの問題を被っておらず、TP勾配を使用することは、高ノイズ状態で常にPILCOより優れている。
【0079】
一方、低いノイズレベルでは、TPならびにLRのパフォーマンスは低下している。パーティクルの全てが、小さな領域からサンプリングされる場合、リターンの変化から勾配を推定することが困難になる(デルタ分散の極限では、LR勾配は評価すらできない)。TP勾配はこの問題をそれほど被らないが、RPからの情報を組み込むからである。最終的に、予測の不確実性が非常に低い場合(たとえばk=10
−2)、モデルノイズを学習に影響するパラメータとして考え、より正確な勾配を得るためにそれを大きくすることができる。TP+σ
nを参照されたい。ただし、モデルノイズ分散は100で乗じた。
【0080】
とりわけ、PILCOなどのMMを使用する手法、およびGRは、Tip Costを使用する場合、他よりも優れている。理由としては、目的のマルチモダリティを挙げることができる−Tip Costでは、振り子はタスクを解決するためにいずれの方向からもスイングアップされ得る;Angle Costでは、正しい方向は、1つだけである。MMを実行することは、アルゴリズムにユニモーダルな経路に沿うよう強制するが、それにもかかわらずパーティクル手法は、一部のパーティクルが一方から来てもう一方で止まるバイモーダルなスイングアップを試行する可能性がある。したがって、MMは最適化問題を簡略化する一種の「分布報酬成形」を実行している場合がある。そのような説明は、以前にGalら、(2016)によってなされている。
【0081】
最終的に、驚くべきTP−σ
f実験を指摘する。予測はモデルの不確実性を無視しているが、方法は93%の成功率を達成する。なぜ学習がうまくいったのかの説明は困難であるが、成功がGPのゼロ事前平均に関連し得るとの仮説を立てている。データがない領域では、GPダイナミクスモデルの平均は0に向かい、これは入力制御信号がパーティクルに対して効果がないことを意味している。したがって、ポリシー最適化を成功させるためには、パーティクルがデータの存在する領域に留まるように制御しなければならない。なお、同様の結果が、進化型アルゴリズムを使用して、モデル不確実性を無視する場合でもカート−ポールタスクで85〜90%の成功率を達成したChatzilygeroudisら、(2017)により見出されている。
【0082】
ほとんどの機械学習問題には、何らかのデータ生成分布p
Data(x)に対する目的関数J(x;θ)の期待値の最適化を伴うが、この分布は、サンプルデータ点{x
i}を通じてのみアクセス可能である。本発明の予測的フレームワークは、深層モデルに類似している:p(x
0)は、データ生成分布であり、p(x
t;θ)はモデルレイヤにp
Data(x)を通すことにより求められる。最も一般的な最適化方法は、逆伝播により計算されるPathwise導関数を用いたSGDである。本発明の結果は、いくつかの状況(特に、非常に深いまたはリカレントなモデルの場合)において、この手法は、勾配分散の爆発によって、ランダムウォークに陥る可能性もあることを示唆している。
【0083】
勾配の爆発は、深層学習の研究において、長年観測されている(Doya, 1993; Bengioら、1994)。通常、この現象は、ステップの増大および学習の不安定化につながる数値問題と見なされる。一般的な対策としては、勾配のクリッピング、ReLU活性化関数(Nair & Hinton, 2010)、およびスマート初期化が挙げられる。この問題に対する本発明の説明は異なる:勾配は、大きくなるだけではなく、勾配分散は爆発し、これはx
i〜p
Dataからのあらゆるサンプルが、モデルパラメータθをどのように変えて分布全体E
pData[J(x)]についての目的の期待値を大きくするかについての情報を本質的に与えないことを意味している。良好な初期化を選択することがこの問題に対処する一手法である一方で、これはシステムが学習中にカオスにならないことを保証することは困難と思われる。たとえば計量経済学では、最適なポリシーがカオス的なダイナミクスをもたらす場合すらある(Deneckere & Pelikan, 1986)。勾配クリッピングにより、大きなパラメータステップを止めることができるが、勾配がランダムになれば根本的に問題を解決することにはならない。線形系ではカオスが生じないことを考慮して(Alligoodら、1996)、本発明の解析は、ReLUなどのカオスの影響を受けにくい区分線形活性化が深層学習でうまくいく理由を示唆している。
【0084】
本発明の深層的な仮説をなお計算機的に確認しなければならない一方で、いくつかの研究によりニューラルネットワークにおけるカオスが調査されているが(Kolen & Pollack, 1991; Sompolinskyら、1988)、やはり本発明が初めて、カオスは逆伝播を使用して計算されると勾配を縮退させ得ることを示唆していると信じている。とりわけ、Pooleら、(2016)はそのような特性が「指数関数的な表現力」をもたらすことを示唆したが、この現象が呪いの代わりとなり得ると信じている。
【0085】
(結論と今後の研究)
逆伝播により計算されるものなど、Pathwise導関数を使用する期待値を最適化することの限界を説明した。さらに、計算にノイズを投入すること、および尤度比のトリックを使用することにより、この呪いに拮抗する方法を示す。本発明の総和伝播アルゴリズムは、任意の確率的計算グラフに対する再パラメータ化勾配を、あらゆる量の他の勾配推定量(値関数を使用して計算された勾配すら使用することができる)と結合するための効率的な方法を提供する。本発明の研究を拡張する数え切れないほどの方法がある:よりよい最適化、自然な勾配の組み込みなど。本発明の方法の柔軟な性質により、これらの拡大が容易になるはずである。
【0086】
(実施形態2)
確率論的な計算グラフ(PCG)の定義を提供する。なお、PCGの概念は、総和伝播アルゴリズムを説明するために使用した計算グラフの概念とは異なっているが、代わりに勾配推定量についての理由に関するフレームワークを説明している。定義は、標準的な有向グラフ的なモデルの定義と全く等価であるが、本発明の方法により注目するものであり、推論を実行するのではなく勾配を計算することにおける本発明の興味を強調している。主な違いは、たとえばガウシアンについての分布パラメータζ、平均μ、および共分散Σの明示的な包含である。
【0087】
定義1(確率論的計算グラフ(PCG))
ノード/頂点VおよびエッジEを有する非巡回グラフは、以下の特性を満足する:
1.各ノードi∈Vは、周辺同時確率密度p(x
i;ζ
i)を有するランダムな変数の集合に対応し、ここでζ
iは分布の恐らく無限なパラメータ。なお、パラメータ化は一意ではなく、あらゆるパラメータ化が受け入れ可能である。
2.各ノードの確率密度は条件的に親ノードに依存し、p(x
i|Pa
i)である。ここでPa
iは、ノードiの直接の親におけるランダム変数である。
3.同時確率密度はp(x
1,・・・,x
n)=Π
i=1np(x
i|Pa
i)を満足する。
4.各ζ
iは、その親の関数であり、ζ
i=f(Pz
i)。ここで、Pz
iはノードiの親における分布パラメータである。特に、p(x
i;ζ
i=∫p(x
i|Pa
i)p(Pa
i;Pz
i)dPa
iである。
【0088】
本発明の数式化においては、確率的なことがないことを強調したい。各計算は解析的に扱いにくい場合があるが、決定論的である。さらに、この定義は決定論的なノードを除外するものではない、すなわちノードにおける分布はディラックのデルタ分散(質点)であり得ることを強調する。後に、勾配の確率的推定値を導出するためにこの数式化を使用する。
【0089】
(定理の導出)
興味の対象は、あるノードζ
iにおける分布パラメータの、別のノードdζ
i/dζ
jにおけるパラメータに対する全微分を計算することである。全微分の規則をイテレートすることにより、ノードjからノードiまでの経路にわたる総和が導かれ、以下の通りである。
【0091】
この等式は、あらゆる決定論的な計算グラフに当てはまり、またたとえばOJAコミュニティで周知でもある。この等式は自明に本発明の確率的勾配定理を導き、AからBへの経路にわたる総和が、Aから中間ノードおよび中間ノードからBへの経路の総和として書くことができることを説明している。
図10Aおよび
図10Bは、数式11における経路の例を図示している。
【0092】
定理1(総和確率的勾配定理)
ある確率的計算グラフにおいてiとjを異なるノードとし、INを中間ノードの任意の集合とし、これはjからiへの経路をブロックする、すなわちINはjからiへの経路が存在しないようにするためのものであり、IN中でノードを通過しない。{a→b}をaからbへの経路の集合で表し、{a→b}/cはaからbへの経路の集合であり、bを除いて経路に沿うノードを集合cに含めることはできない。この場合、全微分dζ
i/dζ
jは次の等式で書くことができる。
【0094】
数式10および数式11を結合して次を与えることができる。
【0096】
なお、r∈{j→m}/INとs∈{j→m}/INとをそれぞれスワップすることにより、類似の定理を導くことができる。これは次の等式を導く。
【0098】
後半、および前半分の総和勾配等式として、それぞれ数式12および数式13を参照する。
【0099】
(グラフ上での勾配推定)
前セクションでは、グラフ全体に対する勾配計算を分解してより狭いグラフに対する勾配計算とする手段を与え、またサブグラフに対して勾配を推定する方法を与えた。ここで、サブグラフに対する勾配をどのように結合してグラフ全体に対する勾配のための推定量とすることができるかの手法を明らかにする。タスクは、ノードjにおけるパラメータに対する遠位のノードiにおける期待値の導関数を推定することである:d/dζ
jE
xi〜p(xi;ζi)[xi]。真のζは、扱いにくいため、サンプリング基準の推定を行う。p(x;ζ)のサブ分散をサンプリングすることを考える。すなわち、p(x;ζ)=∫p(x;ζ_^)p(ζ_^)dζ_^となるようにζ_^をサンプリングする。これは次のように書くことができる。
【0101】
ζ_^は伝承サンプリング手順では自然に生じる。説明の簡素化のため、サンプリングは再パラメータ化可能である、すなわち、p(ζ
m_^;ζ
j)=f(ζ
m_^;ζ
j,z
m)p(z
m)とさらに想定する。これは次のように書くことができる。
【0103】
項dζ
m_^/dζjは、Pathwise導関数推定量により推定される。残りの項d/dζ
m_^Ex
i〜p(xi;ζi_^)[xi]は、任意の他の推定量により推定され、たとえばジャンプ推定量を使用することができる。第2の推定量がやはり不偏であるとすれば、推定量全体が不偏となる。
【0104】
要約すると、グラフ全体に対して、jからiまでの勾配推定量を作成する手順は以下の通りである:
1.経路jからiまでをブロックする中間ノードINの集合を選択する。
2.jから中間ノードINまでのPathwise導関数推定量を構築する。
3.INからiまでの全微分推定量を構築して、iからjまでの連鎖律を適用する。
【0105】
(ポリシー勾配定理に対する関係性)
典型的なモデルなしRLの問題では、エージェントは確率的ポリシーπに従って動作u〜π(u
t|x
t;θ)を実行し、状態x
tを遷移して、コストc
tを求める(または、逆に報酬を求める)。エージェントのゴールは、ポリシーパラメータθを見つけることであり、これは各エピソードの期待リターンG=Σ
t=0Hc
tを最適化する。
図11Aおよび
図11Bはモデル基準およびモデルなしのLR勾配推定の確率計算グラフを図示している。文献では、ポリシー勾配定理および決定論的ポリシー勾配定理の2つの「勾配定理」が全般的に適用される。
【0108】
Qt_^は、動作uを選択した場合の特定の状態xからの残存リターンΣ
h=tH−1c
h+1の推定量に対応する。数式16について、任意の推定量が受け入れ可能であり、サンプリング基準の推定すら使用可能である。数式17については、Q_^は通常微分可能なサロゲートモデルである。重要なことに、上の等式が有効であるためには、Q_^が推定量でなければならず、真のQではない。すなわち、勾配を推定する際、ポリシーパラメータは現在の時間ステップについて変更されるだけであり、後続の時間ステップについては固定され続けることを想定しなければならない。
図11Aは、これらの2つの定理が同一の確率論的計算グラフにどのように対応するかを示している。中間ノードは、各時間ステップで選択された動作である。中間ノードに続く全微分を推定するためのジャンプ推定量の選択に差異が存在する−ポリシー勾配定理はLR勾配を使用するが、決定論的なポリシー勾配定理はPathwise導関数をサロゲートモデルに対して使用する。
【0109】
(新規なアルゴリズム)
典型的にPCGに対して勾配を推定する際は、グラフ全体を通じて伝承サンプリングを実行して1サンプルを求め、たとえばRL問題については軌跡をサンプリングする。そのようなサンプルをパーティクルと呼ぶ。そのようなサンプリングのバッチを使用して、勾配推定量を求めることができる。あるノードにおける推定される分布パラメータは、各サンプリングされたパーティクルζ_^={ζ
i_^}
iPについての分布パラメータの集合によって与えられ、ここでPはパーティクル数である。たとえば、PCGがガウス分布からの順次的なサンプリングから成る場合、ζ
i_^は、パーティクルがそのノードでサンプリングされたガウシアンの平均および共分散に対応する。以下のセクションでは、パーティクルの集合を使用して、周辺分布について直接分布パラメータΓの異なる集合を推定するという選択肢を活用する。
【0110】
(密度推定LR(DEL))
以下の説明により、サンプリングされたパーティクルの集合から分布パラメータΓを推定し、推定された分布ζ_^を使用してLR勾配を適用することを、試行することができる。特に、平均μ_^=Σ
iPx
i/Pおよび分散Σ_^=Σ
iP(x
i−μ_^)
2/(P−1)を推定することにより密度をガウシアンとして近似する。次に標準的なLRトリックを使用して、勾配ΣiP dlogq(x
i)/dθ(G
i−b)を推定することができ、ここでq(x)=N(μ_^,Σ_^)である。この方法を使用するために、パーティクルx
iに関するμ_^およびΣ_^の微分を計算し、連鎖律を使用して勾配をポリシーパラメータまで伝えなければならないが、これは容易である。本発明の新たな方法をDEL推定量と呼ぶ。重要なことに、q(x)は勾配を推定するために使用されるが、如何なる方法でも軌跡サンプリングを修正するために使用されないことに留意されたい。これは、パーティクルがそのようにフィッティングされたガウス分布から再サンプリングされ、軌跡分布を修正するガウス再サンプリングの場合と対照的である。
DELの利点:計算にノイズを投入しなくてもLR勾配を使用することができる。
DELの不利な点:推定量が不偏であり、密度推定が困難になる可能性がある。
【0111】
(ガウス成形勾配(GS))
これまで、全てのRL方法が総和勾配等式の後半(数式12)を使用してきた。等式の前半(数式13)を使用する推定量を作成できるだろうか?
図13はガウス成形勾配における計算経路を図示している。
図13は、これがどのように行われ得るかの例を与えている。xmにおける密度を、パーティクルに対するガウシアンをフィッティングにより推定することを提案する。次いで、dE[c
m]=dΓ
m(灰色のエッジ)が、この分布からパーティクルを再サンプリングすることにより(またはあらゆる他の積分の方法により)推定される。これは、dΓ
m/dθをどのように推定するかという疑問を残す(点線エッジおよび太線エッジ)。RP方法を使用することが、容易である。LR方法を使用するためには、まず総和勾配等式の後半をdΓ
m=dθに対して適用して項Σ
r∈{θ→k}/INΠ
(p,t)∈r∂ζ
t/∂ζ
p(点線エッジ)およびdΓm/dζ
k(太線エッジ)を求める。考慮しているシナリオでは、これらの項の第1は単一の経路であり、RPを使用して推定される。第2の項は、より興味深いもので、これをLR方法を使用して推定する。ガウス近似を使用しているため、分布パラメータΓ
mは、x
mの平均および分散であり、μ
m=E[x
m]およびΣm=E[x
mx
mT]−μ
mμ
mTとして推定することができる。これらの項のLR勾配推定量は次のように求めることができる。
【0113】
実際には、サンプリング基準の推定ζ
k_^を行い、推定量がサンプルζ
k_^に対して条件付きではないかと懸念されるかも知れないが、興味の対象は条件付きではない推定値である。条件付き推定が等価であることを説明する。分散については、μ
mは条件付きではない平均の推定であるため、推定全体が、条件付きではない分散の推定に直接対応していることに留意されたい。平均については、イテレートされた期待値の規則を以下の通り適用する。
【0115】
これにより、条件付き勾配推定量が、条件付きではない平均の勾配についての不偏な推定量であることが明らかである。
【0116】
(勾配を累積するための効率的なアルゴリズム)
具体的な例として、モデル基準のポリシー勾配方法を考え、そのPCGが
図13に与えられる。本発明の以前の研究において、このアルゴリズムが、まず最初に考えられたものであり、ダイナミクスの微分可能な確率論的モデルへのアクセスに決定的に依存している。GS勾配をこの状況にどのように適用するかを説明する。x
kノードごとに、kの後の全てのx
mノードへのLRジャンプを実施し、ノードmにおける分布のガウス近似で勾配を計算したい。逆伝播のようなやり方で後方パスの間、全てのノードを累積する。なお、kおよび経路ごとに、勾配をdE[c
m]/dΓ
mdΓ
m/dζ
k(dζ
k/du
k−1du
k−1/dθ)と書くことができる。項dE[c
m]/dΓ
m・dΓ
m/dζ
kはdE[c
m]/dΓ
mz
md logp(x
k;ζ
k)/dζ
kとして推定され、ここでzmは上の項x
m−b
μなどを要約しているベクトルに対応する。なお、dE[c
m]/dΓ
mz
mはただのスカラー量g
mである。したがって、後方パスの間の全てのgの合計を累積して、各kノードにおける全てのmノードを合計するアルゴリズムを使用する。
図12は総和伝播と適合する様子を詳しく説明するためのアルゴリズム3を図示している。最終的なアルゴリズムは本質的には通常のコスト/報酬を修正された値で置換するだけであり、そのような手法はさらに、確率的ポリシーおよびLR勾配を使用してモデルなしポリシー勾配アルゴリズムに適用可能である。GSの2つの解釈:1.あるノードにおいて、周辺分布のガウス近似を行う。2.パーティクルの分布に基づいて、あるタイプの報酬成形を行う。特に、パーティクルの全てが複数の報酬の領域間で分布が分かれるのではなく報酬の1つの「島」に集中するよう軌跡分布をユニモーダルに保つよう本質的に推進する−これにより最適化が単純になる場合がある。
【0117】
(実験)
PILCOの論文により、モデル基準のRL模擬実験を行った。本発明のGS手法ならびに総和伝播との結合を試験するために、カート−ポールのスイングアップ、およびバランスの課題を試験した。さらに、この考えの実現性を示すために、より単純なカート−ポールの、バランスだけの課題に対して、DEL手法を試験した。本発明の新たな推定量を伴うパーティクル基準の勾配をPILCOと比較した。本発明の以前の研究において、パーティクルを使用して信頼できる結果を求めるためにコスト関数を変更しなければならなかった−現在の実験の主な動機の1つは、元のPILCOが使用したのと同じコストを使用してPILCOの結果とマッチングさせることである(これは、後にさらに詳述する)。
【0118】
(モデル基準のポリシー探索バックグラウンド)
モデルなしポリシー探索方法に対するモデル基準のアナログを考える。対応する確率論的計算グラフを
図11Bに与える。表記は本発明の以前の研究に従う。各エピソードの後、p(Δx
t+1a)=gP(x
t_〜),となるよう、データの全てを使用してダイナミクスの各次元の別個のガウス過程モデルを学習する。ここでx_〜=[x
tT,u
tT]かつx∈R
D、u∈R
Fである。次いで、このモデルを使用して、勾配降下法によりポリシーを最適化するためにエピソード間で「メンタルシミュレーション」を実行する。二乗指数共分散関数k
a(x_〜,x’_〜)=s
a2exp(−(x_〜−x’_〜)
TΛ
a−1(x_〜−x’_〜))を使用した。また、ノイズハイパーパラメータがσ
n,22のガウス尤度関数を使用する。ハイパーパラメータ{s,Λ,σ
n}は、周辺尤度を最大化することにより訓練される。予測はp(x
t+1a)=N(μ(x
t_〜),σ
f2(x
t_〜)+σ
n2)の形態を取り、ここでσ
f2(x
t_〜)はモデルについての不確実性であり、状態空間の領域内内のデータの可用性に依存している。
図11Bでは、θから中間ノードまでの偏微分がPathwise導関数で推定され、中間ノードに続く全微分がジャンプ推定量で推定される。
【0119】
(セットアップ)
カート−ポールは、前後に押すことができるカートと、取り付けられたポールから成る。状態空間は、[s,β,ds/dt,dβ/dt]であり、ここでsはカート位置であり、βは角度である。制御は、カートに対する水平方向の力である。ダイナミクスは、PILCOの論文と同様であった。セットアップは本発明の以前の研究に従う。
【0120】
(タスクにおける共通の特性)
実験は1ランダムエピソード、続いて学習済ポリシーを有する15エピソードから成り、ポリシーはエピソード間で最適化される。各エピソード長は3sであり、制御周波数は10Hzであった。各タスクは再現性を試験するために異なる乱数シードで別個に100回評価した。乱数シードは、異なるアルゴリズム同士で共有した。各エピソードは30回評価し、コストを平均化したが、これは評価目的のためのみに行ったことに留意されたい−アルゴリズムのアクセスは1エピソードだけである。ポリシーは、本発明の以前の研究によるRMSpropのような学習規則を使用して最適化され、これは勾配を異なるパーティクルからの勾配のサンプリング分散を使用して勾配を正規化する。モデル基準のポリシー最適化では、ポリシー勾配評価ごとに300パーティクルを使用して600勾配ステップを実行した。学習速度およびモーメンタムパラメータはそれぞれ、α=5×10
−4、γ=0:9であり、本発明の以前の研究と同じである。ポリシーからの出力はsat(u)=9sin(u)/8+sin(3u)/8によって飽和され、ここでu=π_〜(x)である。ポリシーπ_〜は、50基底関数および254パラメータの総和を伴う動径基底関数ネットワーク(ガウシアンの総和)である。コスト関数は、タイプ1−exp(−(x−t)
TQ(x−t))であり、ここでtはターゲットである。2つのタイプのコスト関数を考える:1)Angle Cost、Q=diag([1,1,0,0])であるコストが対角行列である、2)Tip Cost、元のPILCOの論文からのコストであり、バランスが取れている時の、振り子の先端から先端の位置までの距離に依存する。これらのコスト関数は概念的に異なっている−Tip Costでは、振り子はいずれの方向からもスイングアップすることができ、Angle Costでは、正しい方向は、1つだけである。基準の観測ノイズレベルは、σ
s=0.01m、σ
β=1deg、σ
ds/dt=0.1m/s、σ
dβ/dt=10deg/s、またこれらはσ
2=kσ
base2となるように乗数k∈{10
−2,1}で修正される。
【0121】
(カート−ポールのスイングアップおよびバランス)
このタスクでは、振り子は最初下方向にぶら下がっており、そしてスイングしてバランスを取らなければならない。本発明の以前の研究から、一部の結果を得た:1)PILCO、2)再パラメータ化法勾配(RP)、3)ガウス再サンプリング(GR)、4)バッチ重点加重基準値を伴うバッチ重点加重LR(LR)、5)LRとRPを結合する総和伝播(TP)。新たな方法と比較した:6)LR成分だけを使用するガウス成形勾配(GLR)、7)総和伝播を使用してLRとRP変量の両方を結合するガウス成形勾配(GTP)。総和伝播アルゴリズムの説明については、計算のグラフに対する複数の勾配推定量を効果的に結合する方法である本発明の以前の研究を参照されたい。さらには、モデルノイズ分散に25を乗じた場合のGTPを試験した(GTP+σn)。
【0122】
(DEL推定量でのカート−ポールのバランス)
このタスクはずっと単純である−ポールは最初直立しており、そしてバランスを取らなければならない。実験は、DELが実現可能であり、さらに開発されれば有用な場合があることを示すために工夫された。Angle Costおよび基準ノイズレベルが使用された。
【0123】
(結果)
図14および
図15は実験結果を図示している。本発明の以前の研究と同様、ノイズが低い場合、LR成分を含む方法はうまくいかない。しかしながら、GTP+σnの実験はノイズをモデル予測に投入することが問題を解決できることを示している。主な重要な結果は、Tip CostシナリオではGTPがPILCOと一致することである。本発明の以前の研究では、懸念の1つは、このシナリオではTPがPILCOと一致しないことであった。
図15Bおよび
図15Cのコストを見ることだけでは、適切に差異が示されない。対照的に、成功率はTPもうまくいかなかったことを示している。成功率は、本発明の以前の研究で校正された閾値(15を下回る最終損失)ならびに全ての実験実行を視覚的に分類することの両方によって測定された。両方の方法が一致した。最終エピソードにおけるピークパフォーマの損失はTPであった:11.14±1.73、GTP:9.78±0.40、PILCO:9.10±0.22、これはやはりTPが著しく悪かったことを示している。ピークパフォーマがなお改善している間、残存実験は収束した。PILCOはなお、わずかによりデータ効率的に見えるが、必要とされるデータ量が少ないため、差異に実用的な有意性はほとんどない。
図15BではTPの分散はより小さいことにも留意されたい。GTPおよびPILCOの大きな分散は、大きな損失を伴う外れ値により生ずる。これらの外れ値は、局所的最小値に収束し、これは状態分布のガウス近似のテールを利用している−これは、PILCOがガウス近似のテールを使用して探索を行う以前の示唆とは対照的である。
【0124】
(実施形態3)
総和伝播アルゴリズムは、逆伝播と同様に、計算グラフに対する汎用的な勾配推定アルゴリズムであるが、勾配が爆発する問題を克服するものである。アルゴリズムにおける重要な考え方は、勾配計算の後方パスの間に勾配推定の複数の方法を組み合わせることである。重要なことに、複数の勾配推定値は勾配推定量のより小さな集合にアグリゲートされ(たとえば全ての勾配推定量は単一の最良の勾配の推定に結合される)、また勾配推定量の全てが別個にではなく、この勾配推定量の小さな集合が後方に渡される。そのような方法により、後方に渡される勾配推定量の増殖を招くことなく、計算のグラフにおける勾配推定の精度を高めるために多数の勾配推定技術を結合することができ、それにより良好な計算効率を実現する。
【0125】
(フレームワークとアルゴリズムの説明)
計算グラフはノード/頂点Vと有向エッジEの集合であり、頂点にある変数同士の計算上の関係を定義している。各ノードiはその親ノードPa
iからの変数を入力として受け取り、出力x
i=f(Pa
i)を計算し、ここで関数fは確率的であることもできる。Pa
iおよびx
iは1つまたは複数の変数の集合を表現しているため、ベクトル値化またはテンソル値化されている場合がある。変数x
iはノードiの子ノードに渡され、Ch
iと表記される。
図16はアルゴリズムの一般形態を図示している。アルゴリズムの一般形態は、アルゴリズム4に提示されており、ここで重要な新規性は、ステップ5および6を含む組み合わせである。総和伝播は逆伝播アルゴリズムに類似しており、連鎖法則を適用することにより計算した勾配をグラフの後方に送ることで、グラフ全体で勾配を計算する。標準的な逆伝播を
図17に図示する。総和伝播は、いくつかのノードにおいて複数の勾配推定を実行すること、勾配推定量を結合すること、および結合した推定量を後方に送ること
図18によりこの手順を修正する。
【0126】
図17は、機械学習における全てのニューラルネットワークアプリケーションの他、その他多くのアプリケーションにおいて使用される逆伝播アルゴリズムを図示している。総和伝播アルゴリズムは、異なる勾配推定技術を使用してdL/dz
2の複数の推定値を求めること(たとえば、再パラメータ化法および尤度比法)、これらの推定値をより小さな勾配推定量の集合に結合すること、およびこれらを計算グラフの後方に渡すことにより、この手順を修正する。
【0127】
図18は、単一の勾配推定量となるように尤度比および再パラメータ化勾配推定量を結合することにより勾配推定が実行される場合の総和伝播アルゴリズムを図示している。これは、3つ以上の勾配推定量を勾配推定量の総和数よりも少ない数に結合すること、および結合した勾配推定量を後方に送ることを、簡単に一般化する。
【国際調査報告】