(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022182602
(43)【公開日】2022-12-08
(54)【発明の名称】強化学習装置、強化学習方法及びプログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20221201BHJP
【FI】
G06N20/00
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2021090257
(22)【出願日】2021-05-28
(71)【出願人】
【識別番号】000003333
【氏名又は名称】ボッシュ株式会社
(72)【発明者】
【氏名】中里 研一
(57)【要約】
【課題】模倣すべきエキスパートの行動以外の行動も選択する方策の学習。
【解決手段】環境とともに与えられたエキスパートの行動である第1の軌跡(Sg)に基づいて、方策(π)を強化学習により決定する強化学習装置(10)は、第1の軌跡(Sg)のグループにノイズ(Sn)を混合し、第2の軌跡(Sc)のグループを生成する軌跡制御部(114)と、第2の軌跡(Sc)のグループに基づいて行動の方策(π)を決定し、方策(π)によって計算される期待報酬(J)が最大化するように、方策(π)を更新する方策更新部(113)と、を備える。軌跡制御部(114)は、前記方策(π)の更新回数に対して、第1の軌跡(Sg)へのノイズ(Sn)の混合比(T)を変更し、第2の軌跡(Sc)のグループを生成する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
環境とともに与えられたエキスパートの行動である第1の軌跡(Sg)に基づいて、前記環境における行動の方策(π)を強化学習により決定する強化学習装置(10)において、
前記第1の軌跡(Sg)のグループにノイズ(Sn)を混合し、第2の軌跡(Sc)のグループを生成する軌跡制御部(114)と、
前記第2の軌跡(Sc)のグループが生成されるごとに、前記第2の軌跡(Sc)のグループに基づいて行動の方策(π)を決定し、前記方策(π)によって計算される期待報酬(J)が最大化するように、前記方策(π)を更新する方策更新部(113)と、を備え、
前記軌跡制御部(114)は、前記方策(π)の更新回数に対して、前記第1の軌跡(Sg)へのノイズ(Sn)の混合比(T)を変更し、前記第2の軌跡(Sc)のグループを生成する
強化学習装置(10)。
【請求項2】
前記軌跡制御部(114)は、前記方策(π)の更新回数が増えるにつれて、前記混合比(T)を減らす
請求項1に記載の強化学習装置(10)。
【請求項3】
前記軌跡制御部(114)は、前記方策(π)の更新回数に対して、前記混合比(T)を減らす割合を調整する
請求項2に記載の強化学習装置(10)。
【請求項4】
前記方策更新部(113)は、前記第1の軌跡(Sg)から状態遷移モデルを生成し、前記状態遷移モデルから前記方策(π)を決定し、
前記軌跡制御部(114)は、
前記状態遷移モデルに基づいて第3の軌跡(Sv)を生成し、
下記式(7)に示すように、前記第3の軌跡(Sv)と前記第1の軌跡(Sg)とを混合したグループに、前記ノイズ(Sn)を前記混合比(T)で混合することにより、前記第2の軌跡(Sc)のグループを生成する
請求項1~3のいずれか一項に記載の強化学習装置(10)。
(7) Sc=T・Sn+(1-T)・{β・Sv+(1-β)・Sg}
〔Sg、Sc及びSvは、それぞれ第1の軌跡、第2の軌跡及び第3の軌跡を表す。Snはノイズを表す。Tはノイズの混合比を表す。βは第3の軌跡の混合比を表す。〕
【請求項5】
前記方策更新部(113)は、
前記期待報酬(J)を、下記式(1)に示すようにパラメータ(θ)を有するニューラルネットワークとして定義し、前記パラメータ(θ)を更新することによって、前記計算された行動価値(Q)に対して前記期待報酬(J)が最大化するように前記方策(π)を更新し、
前記パラメータ(θ)の更新に用いる前記期待報酬(J)の勾配(∇
θJ(θ))を、下記式(2)に示すように、前記方策(π)と、付加価値(R)が混合された前記行動価値(Q)とを用いて計算し、
前記付加価値(R)を、前記行動価値(Q)を近似するように、前記環境から付与される報酬(r)を用いて計算する
請求項1~4のいずれか一項に記載の強化学習装置(10)。
【数1】
〔π(s|a,θ)は、状態(s)における行動(a)を選択する方策(π)を表す。Q(s,a)は、状態(s)において選択された行動(s)を評価する行動価値(Q)を表す。∇
θJ(θ)は期待報酬(J)の勾配を表す。Rは付加価値を表す。τは0≦τ≦1を満たす係数を表す。〕
【請求項6】
前記方策更新部(113)は、下記式(3)に示すように、前記行動価値(Q)を近似する前記付加価値(R)を、前記報酬(r)を用いて計算する
請求項5に記載の強化学習装置(10)。
【数2】
〔τ
P、τ
D及びτ
Iは、それぞれ0以上1以下の係数を表す。r
*は、時間tの状態(s)における行動(a)に対して付与される報酬(r)を表す。dr/dtは、時間tより前の状態から時間tの状態までの間に付与される報酬(r)の微分値を表す。γ
Eは割引率を表し、0<γ
E≦1を満たす。t
eは最終状態における時間を表す。〕
【請求項7】
環境とともに与えられたエージェントの行動である第1の軌跡(Sg)に基づいて、前記環境における行動の方策(π)を強化学習により決定する強化学習方法において、
前記第1の軌跡(Sg)のグループにノイズ(Sn)を混合し、第2の軌跡(Sc)のグループを生成するステップと、
前記第2の軌跡(Sc)のグループが生成されるごとに、前記第2の軌跡(Sc)のグループに基づいて行動の方策(π)を決定し、前記方策(π)によって計算される期待報酬(J)が最大化するように、前記方策(π)を更新するステップと、
前記方策(π)の更新回数に対して、前記第1の軌跡(Sg)へのノイズ(Sn)の混合比(T)を変更し、前記第2の軌跡(Sc)のグループを生成するステップと、を含む
強化学習方法。
【請求項8】
環境とともに与えられたエージェントの行動である第1の軌跡(Sg)に基づいて、前記環境における行動の方策(π)を強化学習により決定する強化学習方法を、コンピュータに実行させるためのプログラムであって、
前記強化学習方法は、
前記第1の軌跡(Sg)のグループにノイズ(Sn)を混合し、第2の軌跡(Sc)のグループを生成するステップと、
前記第2の軌跡(Sc)のグループが生成されるごとに、前記第2の軌跡(Sc)のグループに基づいて行動の方策(π)を決定し、前記方策(π)によって計算される期待報酬(J)が最大化するように、前記方策(π)を更新するステップと、
前記方策(π)の更新回数に対して、前記第1の軌跡(Sg)へのノイズ(Sn)の混合比(T)を変更し、前記第2の軌跡(Sc)のグループを生成するステップと、を含む
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、強化学習装置、強化学習方法及びプログラムに関する。
【背景技術】
【0002】
従来、与えられたタスクを達成するために強化学習が用いられている。強化学習は、タスクが与えられた環境におけるエージェントの行動を、環境から付与される報酬によって評価し、一連の行動の累積報酬が最大化するように方策を学習する方法である。例えば、強化学習は、ゲームやモータの制御、又は車両の自動運転制御等に応用されている(特許文献1及び2参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2018-63602号公報
【特許文献2】特開2020-144483号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
強化学習は、エキスパートの技術の模倣にも用いられている。エキスパートの行動の軌跡は状態の価値が高く、報酬が期待されるため、エキスパートの行動の軌跡から累積報酬が高い行動の方策を学習することができる。このような強化学習は、模倣学習と呼ばれることがある。
【0005】
しかし、エキスパートの行動のみによって強化学習を行うと、エージェントがエキスパートの行動に執着し、より高い報酬を得るための試行錯誤が減る傾向がある。一方、エージェントの試行錯誤が多すぎると、学習時間が長くなりやすい。
【0006】
このようなトレードオフの程度を調整する方法としては、ε-greedy法が知られている。ε-greedy法によれば、エージェントは、エキスパートの行動のように期待報酬が高い行動を選択しつつ、時には新しい行動も選択する。このように、行動の選択にある程度の自由度が望まれている。
【0007】
本発明は、模倣すべきエキスパートの行動以外の行動も選択する方策の学習を目的とする。
【課題を解決するための手段】
【0008】
本発明の一態様は、環境とともに与えられたエキスパートの行動である第1の軌跡(Sg)に基づいて、前記環境における行動の方策(π)を強化学習により決定する強化学習装置(10)において、前記第1の軌跡(Sg)のグループにノイズ(Sn)を混合し、第2の軌跡(Sc)のグループを生成する軌跡制御部(114)と、前記第2の軌跡(Sc)のグループが生成されるごとに、前記第2の軌跡(Sc)のグループに基づいて行動の方策(π)を決定し、前記方策(π)によって計算される期待報酬(J)が最大化するように、前記方策(π)を更新する方策更新部(113)と、を備える。前記軌跡制御部(114)は、前記方策(π)の更新回数に対して、前記第1の軌跡(Sg)へのノイズ(Sn)の混合比(T)を変更し、前記第2の軌跡(Sc)のグループを生成する。
【0009】
本発明の他の一態様は、環境とともに与えられたエージェントの行動である第1の軌跡(Sg)に基づいて、前記環境における行動の方策(π)を強化学習により決定する強化学習方法である。前記強化学習方法は、前記第1の軌跡(Sg)のグループにノイズ(Sn)を混合し、第2の軌跡(Sc)のグループを生成するステップと、前記第2の軌跡(Sc)のグループが生成されるごとに、前記第2の軌跡(Sc)のグループに基づいて行動の方策(π)を決定し、前記方策(π)によって計算される期待報酬(J)が最大化するように、前記方策(π)を更新するステップと、前記方策(π)の更新回数に対して、前記第1の軌跡(Sg)へのノイズ(Sn)の混合比(T)を変更し、前記第2の軌跡(Sc)のグループを生成するステップと、を含む。
【0010】
本発明の他の一態様は、環境とともに与えられたエージェントの行動である第1の軌跡(Sg)に基づいて、前記環境における行動の方策(π)を強化学習により決定する強化学習方法を、コンピュータに実行させるためのプログラムである。前記強化学習方法は、前記第1の軌跡(Sg)のグループにノイズ(Sn)を混合し、第2の軌跡(Sc)のグループを生成するステップと、前記第2の軌跡(Sc)のグループが生成されるごとに、前記第2の軌跡(Sc)のグループに基づいて行動の方策(π)を決定し、前記方策(π)によって計算される期待報酬(J)が最大化するように、前記方策(π)を更新するステップと、前記方策(π)の更新回数に対して、前記第1の軌跡(Sg)へのノイズ(Sn)の混合比(T)を変更し、前記第2の軌跡(Sc)のグループを生成するステップと、を含む。
【発明の効果】
【0011】
本発明によれば、模倣すべきエキスパートの行動以外の行動も選択する方策を学習できる。
【図面の簡単な説明】
【0012】
【
図1】本実施形態の強化学習装置の構成を示すブロック図である。
【
図3】エキスパートの行動の第1の軌跡とノイズの一例を示す図である。
【発明を実施するための形態】
【0013】
以下、本発明の強化学習装置、強化学習方法及びプログラムの一実施形態について、図面を参照して説明する。以下の説明は本発明の一例(代表例)であり、本発明はこれに限定されない。
【0014】
図1は、本発明の一実施形態の強化学習装置10の構成を示す。
強化学習装置10は、CPU(Central Processing Unit)11及び記憶部12を備える。強化学習装置10は、操作部13、表示部14及び通信部15をさらに備えてもよい。
【0015】
CPU11は、記憶部12からプログラムを読み出して実行することにより、後述する強化学習処理を実行する。強化学習処理において、CPU11は、行動選択部111、計算処理部112、方策更新部113及び軌跡制御部114として機能する。
【0016】
行動選択部111は、タスクが与えられた環境において、方策(π)にしたがってエージェントの行動を選択する。計算処理部112は、行動選択部111により選択された行動を評価するための行動価値(Q)を、当該行動に対して付与される報酬(r)を用いて計算する。方策更新部113は、与えられたエキスパートの行動の軌跡に基づいて方策(π)を決定し、この方策(π)を計算された行動価値(Q)により更新する。軌跡制御部114は、エキスパートの軌跡のグループにノイズを混合し、方策の更新回数に対してノイズの混合比を調整する。
【0017】
記憶部12は、CPU11が読み取り可能なプログラム、及びプログラムの実行に用いられるデータ等を記憶する。記憶部12としては、例えばハードディスク等の記録媒体を用いることができる。
【0018】
操作部13は、キーボード、又はマウス等である。操作部13は、ユーザの操作を受け付けて、その操作内容をCPU11に出力する。
【0019】
表示部14は、ディスプレイ等である。表示部14は、CPU11からの表示指示にしたがって、操作画面やCPU11の処理結果等を表示する。
【0020】
通信部15は、ネットワークを介して外部のコンピュータと通信するインターフェイスである。
【0021】
強化学習装置10には、ある環境における模倣すべきエキスパートの行動の軌跡が与えられる。強化学習装置10は、このエキスパートの行動の軌跡から、環境に与えられたタスクを達成するための方策を強化学習により決定することができる。本実施形態では、強化学習のアルゴリズムの1つであるアクタークリティック(actor-critic)の例を説明する。アクタークリティックは、与えられた環境におけるエージェントの行動を方策(π)にしたがって選択し、その行動を評価する行動価値(Q)に基づいて方策(π)を更新する手法である。
【0022】
環境の状態(s)は、エージェントの行動(a)によって遷移する。方策(π)は、各状態(s)において選択される行動(a)の確率分布である。環境の初期状態(s0)から最終状態(se)までのエージェントの一連の行動(a)は、エピソードと呼ばれる。状態(s)を遷移させる行動(a)に対して、環境からは報酬(r)が付与される。アクタークリティックにおいて、方策(π)は期待報酬(J)が最大化するように更新される。期待報酬(J)とは、1エピソードで獲得が期待される累積報酬をいう。
【0023】
期待報酬(J)は、式(1)に示すように、方策(π)及び行動価値(Q)によって求められる。本実施形態において、期待報酬(J)は、パラメータθを有するニューラルネットワークとして定義されている。パラメータとは、ニューラルネットワークに設定される重み又はバイアス等をいう。
【数1】
【0024】
J(θ)は、パラメータθを有するニューラルネットワークにより出力される期待報酬を表す。sは状態を表し、aは行動を表す。π(s|a,θ)は、状態(s)における行動(a)を選択する方策を表し、パラメータθの最適化にともなって更新される。Q(s,a)は、状態(s)で選択された行動(a)を評価する行動価値(Q)を表す。
【0025】
図2は、強化学習処理のフローチャートである。
まず、軌跡制御部114は、与えられたエキスパートの行動の軌跡(以下、第1の軌跡(Sg)という)に対するノイズ(Sn)の混合比(T)を初期化する。ノイズ(Sn)とは、タスクを達成する行動の軌跡であって、エキスパートの行動の第1の軌跡(Sg)とは異なる軌跡をいう。混合比(T)は0≦T≦1を満たす係数であるが、初期化によりT=1に設定される(ステップS1)。
【0026】
次に、軌跡制御部114は、環境とともに与えられる第1の軌跡(Sg)のグループを取得する。軌跡制御部114は、第1の軌跡(Sg)のグループを、記憶部12から取得してもよいし、ネットワーク上の外部装置から取得してもよい。第1の軌跡(Sg)は、式(7)に示すように、一連の行動により遷移した環境の状態(s)の集合として表される。
(7) Sg={(s0,s1,・・・,sn)}
【0027】
軌跡制御部114は、式(8)に示すように、取得した第1の軌跡(Sg)のグループにノイズ(Sn)を混合比(T)で混合し、第2の軌跡(Sc)のグループを生成する(ステップS2)。
(8) Sc=T・Sn+(1-T)・Sg
【0028】
具体的には、軌跡制御部114は、グループを構成する1又は複数の第1の軌跡(Sg)を混合比(T)でノイズ(Sn)に置き換える。これにより、軌跡制御部114は、エキスパートの第1の軌跡(Sg)とノイズ(Sn)とを含む第2の軌跡(Sc)のグループを生成する)。最初はT=1であるので、ノイズ(Sn)のみからなる第2の軌跡(Sc)のグループが生成される。
【0029】
図3は、第1の軌跡(Sg)とノイズ(Sn)の一例を示す。
図3に例示される軌跡L1は、迷路内のスタート地点Psからゴール地点Pgまでをエキスパートが移動した経路である。迷路は、複数ブロックのエリア30からなり、そこでは1ブロックずつ移動できる。移動は、ブロック間に配置された壁によって阻まれることがある。ここで、エリア30は与えられた環境であり、各ブロックは環境の状態(s)に相当する。
【0030】
一方、軌跡L2はノイズ(Sn)であり、軌跡L1と同様にスタート地点Psからゴール地点Pgに至るが、軌跡L1とは異なる経路である。軌跡L2のようなノイズ(Sn)は、外部から与えられてもよいし、軌跡制御部114によって生成されてもよい。
【0031】
次に、方策更新部113が、第2の軌跡(Sc)のグループから状態遷移モデルを生成する。状態遷移モデルは、環境のある状態(s)から次の状態(s)への遷移確率の分布である。例えば、状態遷移モデルは、遷移確率がテーブル化された状態遷移マトリックスとして生成される。方策更新部113は、この状態遷移モデルを基に方策(π)を決定する(ステップS3)。方策(π)は、各状態(s)において選択される行動(a)の確率分布である。
【0032】
図4は、状態遷移モデルを説明する図である。
上述した迷路において軌跡L1及び軌跡L2上のブロックは、状態(s)の価値が高い。
図4において、各ブロックに配置された円は状態(s)の価値を表し、円の濃度が高いほど状態(s)の価値が高いことを意味する。方策更新部113は、軌跡L1上のブロックへ遷移する確率が高くなるように、各ブロック(状態)から次のブロック(状態)への遷移確率を決定できる。
【0033】
次に、行動選択部111が、決定された方策(π)にしたがって、現在の状態(s)においてとり得る行動(a)のなかから、エージェントの行動(a)を選択する(ステップS4)。
【0034】
計算処理部112は、選択された行動(a)に対する行動価値(Q)を計算する(ステップS5)。行動価値(Q)は、式(4)に示すように、計算される。計算処理部112は、計算された行動価値(Q)を行動(a)に関連付けて記憶部12に保存する。これをQテーブルという。
【数2】
【0035】
stは時間tにおける環境の状態(s)を表す。st+1は、状態(st)における行動(a)によって遷移した1ステップ後の状態(s)を表す。rt+1は、状態(st)における行動(a)に応じて環境から付与される報酬(r)を表す。αは学習率を表し、0<α≦1を満たす。γは割引率を表し、0<γ≦1を満たす。maxQ(st+1,a)は、状態(st+1)においてとり得るいくつかの行動(a)の価値Q(st+1,a)のなかから最大値を出力する関数を表す。
【0036】
行動後の環境が最終状態(se)に至らない場合(ステップS6:NO)、行動(a)の選択(ステップS4)と行動価値(Q)の計算(ステップS5)とが繰り返される。これにより、Qテーブルに行動価値(Q)が保存されていく。そして、環境が最終状態(se)に至ると(ステップS6:YES)、方策更新部113は方策(π)を更新する(ステップS7)。
【0037】
方策(π)の更新時、まず、方策更新部113は式(1)中の行動価値(Q)を最適化する。方策更新部113は、Qテーブルに保存された行動価値(Q)を最適化された行動価値(Q)として取得すればよい。
【0038】
なお、方策更新部113は、パラメータφを有するニューラルネットワークとして行動価値(Q
φ)を定義し、式(5)に示す損失関数Lが最小化するようにパラメータφを更新することにより、行動価値(Q)を最適化することもできる。
【数3】
【0039】
次に、方策更新部113は、最適化された行動価値(Q)に対して、期待報酬(J)を最大化させる方策(π)を決定する。期待報酬(J)の最大化は、式(6)に示すように、期待報酬の勾配(∇θJ)を用いたパラメータ(θ)の更新によって行われる。
【0040】
【0041】
本実施形態において、期待報酬の勾配(∇θJ)は式(2)に示すように定義される。式(2)に示すように、勾配(∇θJ)の計算には、最適化された行動価値(Q)をそのまま使用するのではなく、付加価値(R)が混合された行動価値(Q)が使用される。付加価値(R)は、式(3)に示すように、行動価値(Q)を近似するように報酬(r)を用いて計算される。
【0042】
【0043】
τ、τP、τD及びτIは、それぞれ0以上1以下の係数を表す。γEは、各行動(a)に付与される報酬(r)の割引率を表し、0<γE≦1を満たす。teは、最終状態(se)における時間を表す。式(3)において、係数τPを含む項を比例項、係数τDを含む項を微分項、係数τIを含む項を積分項という。
【0044】
比例項において係数τPが乗算されるr*は、1エピソード中の時間tの状態(s)における行動(a)に対して付与される報酬(r)を表す。例えば、t=5の場合、方策更新部113は、状態(s5)における行動(a)に対して付与される報酬(r)を比例項に用いることができる。
【0045】
微分項において係数τDが乗算されるdr/dtは、1エピソードにおいて時間tより前の状態から時間tの状態(s)までの一定時間内に付与される報酬(r)の微分値を表す。微分項の加算により、報酬(r)の時間変化を考慮して付加価値(R)を決定することができる。例えば、方策更新部113は、t=5の場合、3~5ステップの状態(s3)から状態(s5)までの間に付与された報酬(r)の微分値を微分項に用いることができる。
【0046】
積分項において係数τIが乗算されるrの積分値は、1エピソードの間に付与された報酬(r)の累積値を表す。この累積値において各状態での行動(a)に対する報酬(r)は割引率γEにより割り引かれる。割引率γEは(te-t)乗され、最終状態(se)に近いほど報酬(r)の割引率が小さくなる。
【0047】
方策更新部113は、各係数τP、τD及びτIを調整することにより、比例項、微分項及び積分項の割合を調整でき、割合を0にすることも可能である。例えば、τP=0、τD=0、τI=1と設定することにより、積分項のみ、つまり累積報酬を付加価値(R)に混合することができる。時間tの状態(s)を重視したい場合は、τP=1に設定することにより比例項を加算し、時間変化を考慮したい場合は、τD=1に設定することにより微分項を加算すればよい。
【0048】
このような付加価値(R)を混合することにより、行動価値(Q)を重み付けることができ、期待報酬(J)の最大化が加速する。期待報酬(J)を最大化させる方策(π)に収束するまでの学習時間が短くなるため、学習効率が向上する。
【0049】
また、付加価値(R)は、過去のエピソードにおいて累積価値が高かった一連の行動に対する行動価値(Q)を高め、逆に累積価値が低かった一連の行動に対する行動価値(Q)を低くする。よって、過去にタスクの失敗に至る行動(a)を避け、タスクの成功に至る行動(a)を選択するよう、方策(π)を決定することができる。これにより、リスクの低い方策(π)の学習が可能である。
【0050】
方策更新部113は、方策(π)の更新回数が増えるにつれて、行動価値(Q)に付加価値(R)を加算する割合(τ)を減らすことが好ましい。方策更新部113は、割合(τ)を最終的に0まで減らすことができる。割合(τ)を減らすことにより、学習時間を短縮化しつつ、通常の行動価値(Q)のみを用いる場合と同様の学習結果に収束させることができる。
【0051】
方策更新部113は、割合(τ)を単調減少させてもよいし、更新回数に対して減少させる割合を任意に決定してもよい。また、方策更新部113は、割合(τ)を減らす過程において一時的に増やしてもよい。
【0052】
方策(π)の更新後、混合比(T)がT=0に至っていない場合(ステップS8:NO)、軌跡制御部114は混合比(T)を減らす(ステップS9)。その後、減らした混合比(T)により、上記ステップS2~S7の処理が繰り返される。つまり、混合比(T)が異なる第2の軌跡(Sc)のグループが新たに生成され、そのグループに基づいてQテーブル及び方策(π)が更新される。混合比(T)がT=0に至ると(ステップS8:YES)、強化学習処理が終了する。
【0053】
以上のように、本実施形態によれば、エキスパートの行動である第1の軌跡(Sg)のグループにノイズ(Sn)が混合される。このノイズ(Sn)を含む第2の軌跡(Sc)のグループに基づいて、期待報酬(J)を最大化するように方策(π)が更新される。ノイズ(Sn)の混合により、エキスパートの第1の軌跡(Sg)以外の状態の価値が高まるため、期待報酬(J)が高いことが判明している第1の軌跡(Sg)上の行動(a)だけでなく、それ以外の行動(a)も選択されやすい方策(π)に更新することができる。強化学習の際、ε-greedy法などを適用しなくとも、方策(π)によって、エキスパートの行動(a)とそれ以外の試行錯誤による行動(a)の両立が可能である。
【0054】
また、本実施形態では、ノイズ(Sn)のみの第2の軌跡(Sc)のグループから強化学習が開始され、方策(π)の更新回数が増えるにつれてノイズ(Sn)の混合比(T)が減らされる。これにより、方策(π)の更新時、局所最適解ではなく、大域最適解が得られやすい。
【0055】
目的関数の勾配にしたがってニューラルネットワークのパラメータ(θ)を最適化した場合、大域最適解ではなく局所最適解に陥ることがある。これは誤差が最小となる状態(解)を求めるために、常に目的関数の勾配が最も小さくなる方向へと状態を更新していくと、局所最適解から抜け出せないためである。これを回避するための方法として疑似焼きなまし(シュミレーテッドアニーリング:Simulated Annealing)法が知られている。
【0056】
疑似焼きなまし法は、誤差が増大する状態への更新を許容する。誤差が増大する状態への更新を許容する度合を制御するパラメータは、“温度”と呼ばれる。誤差の増加を許容する“高温”の状態から、誤差の増加を許容しない“低温”へと徐々に冷やしていくことで、局所最適解に陥ることなく大域最適解に到達することが可能である。
【0057】
訓練用の第1の軌道(Sg)と異なるノイズ(Sn)は、誤差が増大する状態への更新を許容する。また、ノイズ(Sn)の混合比(T)が大きいほど、誤差は増大しやすい。したがって、混合比(T)は疑似焼きなましにおける温度パラメータに相当し、混合比(T)を変更しながら方策(π)の更新を繰り返すことにより、本実施形態の強化学習処理においても疑似焼きなましを実現している。これにより、大域最適解である方策(π)を求めることができる。
【0058】
以上、本発明の好ましい実施形態について説明したが、本発明は、これらの実施形態に限定されない。本発明の範囲内で種々の変形が可能であり、以下にいくつかの変形例を挙げる。各変形例は組み合わせてもよい。
【0059】
(変形例1)
上記実施形態では、方策(π)を更新するごとに混合比(T)を減らした。しかし、混合比(T)を減らす間隔はこれに限定されない。例えば、方策(π)が複数回更新されるごとに混合比(T)を減らしてもよい。このように、軌跡制御部114は、方策(π)の更新回数に対して混合比(T)を減らす割合を調整することができる。
【0060】
何回更新したときにどれだけ混合比(T)を減らすのか、あらかじめ更新回数に対して減らす混合比(T)が定められたスケジュールにしたがって、軌跡制御部114が混合比(T)を減少させてもよい。例えば、1回目の更新後に-10%、2回目の更新後に-20%と、学習のたびに混合比(T)を減らす割合がスケジュールされてもよい。また、混合比(T)は、1及び2回目の学習後は0%、3回目の学習後に-10%、4回目の学習後は0%、5回目の学習後に-50%と、ある一定回数の学習が行われるごとに減らされるようにスケジュールされてもよい。
【0061】
少ない更新回数で急激に混合比(T)を減らすと、解の探索時間が短縮化されるが、探索領域が狭くなる傾向がある。一方、多くの学習回数を経て混合比(T)を徐々に減らすと、解の探索時間が長くなるが、大域最適解に収束する確率が高まる傾向にある。軌跡制御部114によれば、大域最適解に短時間で収束するように、更新回数に対する混合比(T)を減らす割合を調整することができる。
【0062】
なお、混合比(T)を徐々に減らす例を説明したが、一時的に混合比(T)を増やすように、混合比(T)の変更プロセスがスケジューリングされてもよい。
【0063】
(変形例2)
上記実施形態では、1エピソードごとに方策(π)が更新された。しかし、軌跡制御部114は所定数のエピソードを実施するごとに方策(π)を更新することもできる。
また、1グループではなく、複数グループの第1の軌跡(Sg)から状態遷移モデルを生成し、方策(π)を決定することもできる。
ニューラルネットワークを用いて強化学習する場合は、上記のように複数のエピソード又は軌跡のグループをまとめて強化学習する方が、最適解が得られやすいことがある。
【0064】
(変形例3)
軌跡制御部114は、式(7)に示すように、状態遷移モデルを基に生成された行動の軌跡である第3の軌跡(Sv)と第1の軌跡(Sg)とを混合したグループを生成し、当該グループにノイズ(Sn)を混合比(T)で混合することにより、第2の軌跡(Sc)のグループを生成してもよい。
(7) Sc=T・Sn+(1-T)・{β・Sv+(1-β)・Sg}
【0065】
Sg、Sc及びSvは、それぞれ第1の軌跡、第2の軌跡及び第3の軌跡を表す。βは、第3の軌跡(Sv)と第1の軌跡(Sg)の混合比を表し、0≦β≦1を満たす。軌跡制御部114は、混合比(β)を任意に調整することができる。第3の軌跡(Sv)は、例えば初期状態(s0)から最終状態(se)まで、状態価値(V)が高い状態(s)を連続させることにより、生成することができる。
【0066】
状態遷移モデルでは、エキスパートの第1の軌跡(Sg)へと遷移する状態(s)の価値が高い。よって、軌跡制御部114は、状態遷移モデルを基に、エキスパートの第1の軌跡(Sg)とは異なるが、当該第1の軌跡(Sg)に類似する第3の軌跡(Sv)を生成することができる。このような第3の軌跡(Sv)によれば、エキスパートの行動とは異なるが、状態(s)の価値が高い行動も選択しやすい方策(π)に更新することができる。
【0067】
(変形例4)
軌跡制御部114は、エキスパートの第1の軌跡(Sg)の一部を変更してノイズ(Sn)を生成してもよい。これにより学習する第1の軌跡(Sg)がわずかに変化した軌跡に対しても最適解の行動が選択されるように、方策(π)が更新される。したがって、模倣すべき軌道(Sg)からわずかにそれた行動も選択できる方策(π)を提供することができる。
【0068】
(その他の変形例)
上記実施形態において、式(3)によって付加価値(R)を定義したが、報酬(r)を用いて行動価値(Q)を近似できるのであれば、これに限定されない。
【0069】
行動価値(Q)は報酬(r)によって計算されるため、式(3)においてdr/dtの代わりに、dQ/dt又はQ(st,a)-Q(s,a)が用いられてもよい。dQ/dtは、時間tよりも前の状態から時間tの状態(s)までの一定時間内における行動価値(Q)の微分値を表す。また、Q(st,a)-Q(s,a)は、時間tより前の状態から時間tの状態(s)までの行動価値(Q)の変化を表す。
【0070】
また、上記実施形態では、記憶部12がQテーブルを記憶したが、これらはサーバ等の外部装置に保存されていてもよい。通信部15によって外部装置と通信することにより、Qテーブルのダウンロード又はアップロードを行うことができる。
【0071】
強化学習装置10は、様々な方策の決定に用いることができ、その技術分野は特に限定されない。例えば、危険物を回避して車両の走行経路を決定する自動運転制御、モータの駆動制御、ゲームのキャラクタの制御等に強化学習装置10を利用可能である。
【0072】
また、本発明の強化学習方法をコンピュータに実行させるプログラムが記録された記録媒体が提供されてもよい。記録媒体としては、CPU等のコンピュータが読み取り可能な記録媒体であれば特に限定されず、半導体メモリ、磁気ディスク、光ディスク等を使用可能である。
【符号の説明】
【0073】
10・・・強化学習装置、11・・・CPU、111・・・行動選択部、112・・・計算処理部、113・・・方策更新部、114・・・軌跡制御部、12・・・記憶部