特開2022-182602 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ボッシュ株式会社の特許一覧

特開2022-182602強化学習装置、強化学習方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022182602

(43)【公開日】2022-12-08

(54)【発明の名称】強化学習装置、強化学習方法及びプログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20221201BHJP

【ＦＩ】

G06N20/00

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2021090257

(22)【出願日】2021-05-28

(71)【出願人】

【識別番号】000003333

【氏名又は名称】ボッシュ株式会社

(72)【発明者】

【氏名】中里研一

(57)【要約】

【課題】模倣すべきエキスパートの行動以外の行動も選択する方策の学習。
【解決手段】環境とともに与えられたエキスパートの行動である第１の軌跡（Ｓｇ）に基づいて、方策（π）を強化学習により決定する強化学習装置（１０）は、第１の軌跡（Ｓｇ）のグループにノイズ（Ｓｎ）を混合し、第２の軌跡（Ｓｃ）のグループを生成する軌跡制御部（１１４）と、第２の軌跡（Ｓｃ）のグループに基づいて行動の方策（π）を決定し、方策（π）によって計算される期待報酬（Ｊ）が最大化するように、方策（π）を更新する方策更新部（１１３）と、を備える。軌跡制御部（１１４）は、前記方策（π）の更新回数に対して、第１の軌跡（Ｓｇ）へのノイズ（Ｓｎ）の混合比（Ｔ）を変更し、第２の軌跡（Ｓｃ）のグループを生成する。
【選択図】図１

【特許請求の範囲】

【請求項1】

環境とともに与えられたエキスパートの行動である第１の軌跡（Ｓｇ）に基づいて、前記環境における行動の方策（π）を強化学習により決定する強化学習装置（１０）において、
前記第１の軌跡（Ｓｇ）のグループにノイズ（Ｓｎ）を混合し、第２の軌跡（Ｓｃ）のグループを生成する軌跡制御部（１１４）と、
前記第２の軌跡（Ｓｃ）のグループが生成されるごとに、前記第２の軌跡（Ｓｃ）のグループに基づいて行動の方策（π）を決定し、前記方策（π）によって計算される期待報酬（Ｊ）が最大化するように、前記方策（π）を更新する方策更新部（１１３）と、を備え、
前記軌跡制御部（１１４）は、前記方策（π）の更新回数に対して、前記第１の軌跡（Ｓｇ）へのノイズ（Ｓｎ）の混合比（Ｔ）を変更し、前記第２の軌跡（Ｓｃ）のグループを生成する
強化学習装置（１０）。

【請求項2】

前記軌跡制御部（１１４）は、前記方策（π）の更新回数が増えるにつれて、前記混合比（Ｔ）を減らす
請求項１に記載の強化学習装置（１０）。

【請求項3】

前記軌跡制御部（１１４）は、前記方策（π）の更新回数に対して、前記混合比（Ｔ）を減らす割合を調整する
請求項２に記載の強化学習装置（１０）。

【請求項4】

前記方策更新部（１１３）は、前記第１の軌跡（Ｓｇ）から状態遷移モデルを生成し、前記状態遷移モデルから前記方策(π)を決定し、
前記軌跡制御部（１１４）は、
前記状態遷移モデルに基づいて第３の軌跡（Ｓｖ）を生成し、
下記式（７）に示すように、前記第３の軌跡（Ｓｖ）と前記第１の軌跡（Ｓｇ）とを混合したグループに、前記ノイズ（Ｓｎ）を前記混合比（Ｔ）で混合することにより、前記第２の軌跡（Ｓｃ）のグループを生成する
請求項１～３のいずれか一項に記載の強化学習装置（１０）。
（７）Ｓｃ＝Ｔ・Ｓｎ＋（１－Ｔ）・｛β・Ｓｖ＋（１－β）・Ｓｇ｝
〔Ｓｇ、Ｓｃ及びＳｖは、それぞれ第１の軌跡、第２の軌跡及び第３の軌跡を表す。Ｓｎはノイズを表す。Ｔはノイズの混合比を表す。βは第３の軌跡の混合比を表す。〕

【請求項5】

前記方策更新部（１１３）は、
前記期待報酬（Ｊ）を、下記式（１）に示すようにパラメータ（θ）を有するニューラルネットワークとして定義し、前記パラメータ（θ）を更新することによって、前記計算された行動価値（Ｑ）に対して前記期待報酬（Ｊ）が最大化するように前記方策（π）を更新し、
前記パラメータ（θ）の更新に用いる前記期待報酬（Ｊ）の勾配（∇_θＪ（θ））を、下記式（２）に示すように、前記方策（π）と、付加価値（Ｒ）が混合された前記行動価値（Ｑ）とを用いて計算し、
前記付加価値（Ｒ）を、前記行動価値（Ｑ）を近似するように、前記環境から付与される報酬（ｒ）を用いて計算する
請求項１～４のいずれか一項に記載の強化学習装置（１０）。

【数1】

〔π（ｓ｜ａ，θ）は、状態（ｓ）における行動（ａ）を選択する方策（π）を表す。Ｑ（ｓ，ａ）は、状態（ｓ）において選択された行動（ｓ）を評価する行動価値（Ｑ）を表す。∇_θＪ（θ）は期待報酬（Ｊ）の勾配を表す。Ｒは付加価値を表す。τは０≦τ≦１を満たす係数を表す。〕

【請求項6】

前記方策更新部（１１３）は、下記式（３）に示すように、前記行動価値（Ｑ）を近似する前記付加価値（Ｒ）を、前記報酬（ｒ）を用いて計算する
請求項５に記載の強化学習装置（１０）。

【数2】

〔τ_Ｐ、τ_Ｄ及びτ_Ｉは、それぞれ０以上１以下の係数を表す。ｒ^＊は、時間ｔの状態（ｓ）における行動（ａ）に対して付与される報酬（ｒ）を表す。ｄｒ／ｄｔは、時間ｔより前の状態から時間ｔの状態までの間に付与される報酬（ｒ）の微分値を表す。γ_Ｅは割引率を表し、０＜γ_Ｅ≦１を満たす。ｔ_ｅは最終状態における時間を表す。〕

【請求項7】

環境とともに与えられたエージェントの行動である第１の軌跡（Ｓｇ）に基づいて、前記環境における行動の方策（π）を強化学習により決定する強化学習方法において、
前記第１の軌跡（Ｓｇ）のグループにノイズ（Ｓｎ）を混合し、第２の軌跡（Ｓｃ）のグループを生成するステップと、
前記第２の軌跡（Ｓｃ）のグループが生成されるごとに、前記第２の軌跡（Ｓｃ）のグループに基づいて行動の方策（π）を決定し、前記方策（π）によって計算される期待報酬（Ｊ）が最大化するように、前記方策（π）を更新するステップと、
前記方策（π）の更新回数に対して、前記第１の軌跡（Ｓｇ）へのノイズ（Ｓｎ）の混合比（Ｔ）を変更し、前記第２の軌跡（Ｓｃ）のグループを生成するステップと、を含む
強化学習方法。

【請求項8】

環境とともに与えられたエージェントの行動である第１の軌跡（Ｓｇ）に基づいて、前記環境における行動の方策（π）を強化学習により決定する強化学習方法を、コンピュータに実行させるためのプログラムであって、
前記強化学習方法は、
前記第１の軌跡（Ｓｇ）のグループにノイズ（Ｓｎ）を混合し、第２の軌跡（Ｓｃ）のグループを生成するステップと、
前記第２の軌跡（Ｓｃ）のグループが生成されるごとに、前記第２の軌跡（Ｓｃ）のグループに基づいて行動の方策（π）を決定し、前記方策（π）によって計算される期待報酬（Ｊ）が最大化するように、前記方策（π）を更新するステップと、
前記方策（π）の更新回数に対して、前記第１の軌跡（Ｓｇ）へのノイズ（Ｓｎ）の混合比（Ｔ）を変更し、前記第２の軌跡（Ｓｃ）のグループを生成するステップと、を含む
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、強化学習装置、強化学習方法及びプログラムに関する。

【背景技術】

【0002】

従来、与えられたタスクを達成するために強化学習が用いられている。強化学習は、タスクが与えられた環境におけるエージェントの行動を、環境から付与される報酬によって評価し、一連の行動の累積報酬が最大化するように方策を学習する方法である。例えば、強化学習は、ゲームやモータの制御、又は車両の自動運転制御等に応用されている（特許文献１及び２参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１８－６３６０２号公報

【特許文献2】特開２０２０－１４４４８３号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

強化学習は、エキスパートの技術の模倣にも用いられている。エキスパートの行動の軌跡は状態の価値が高く、報酬が期待されるため、エキスパートの行動の軌跡から累積報酬が高い行動の方策を学習することができる。このような強化学習は、模倣学習と呼ばれることがある。

【0005】

しかし、エキスパートの行動のみによって強化学習を行うと、エージェントがエキスパートの行動に執着し、より高い報酬を得るための試行錯誤が減る傾向がある。一方、エージェントの試行錯誤が多すぎると、学習時間が長くなりやすい。

【0006】

このようなトレードオフの程度を調整する方法としては、ε－greedy法が知られている。ε－greedy法によれば、エージェントは、エキスパートの行動のように期待報酬が高い行動を選択しつつ、時には新しい行動も選択する。このように、行動の選択にある程度の自由度が望まれている。

【0007】

本発明は、模倣すべきエキスパートの行動以外の行動も選択する方策の学習を目的とする。

【課題を解決するための手段】

【0008】

本発明の一態様は、環境とともに与えられたエキスパートの行動である第１の軌跡（Ｓｇ）に基づいて、前記環境における行動の方策（π）を強化学習により決定する強化学習装置（１０）において、前記第１の軌跡（Ｓｇ）のグループにノイズ（Ｓｎ）を混合し、第２の軌跡（Ｓｃ）のグループを生成する軌跡制御部（１１４）と、前記第２の軌跡（Ｓｃ）のグループが生成されるごとに、前記第２の軌跡（Ｓｃ）のグループに基づいて行動の方策（π）を決定し、前記方策（π）によって計算される期待報酬（Ｊ）が最大化するように、前記方策（π）を更新する方策更新部（１１３）と、を備える。前記軌跡制御部（１１４）は、前記方策（π）の更新回数に対して、前記第１の軌跡（Ｓｇ）へのノイズ（Ｓｎ）の混合比（Ｔ）を変更し、前記第２の軌跡（Ｓｃ）のグループを生成する。

【0009】

本発明の他の一態様は、環境とともに与えられたエージェントの行動である第１の軌跡（Ｓｇ）に基づいて、前記環境における行動の方策（π）を強化学習により決定する強化学習方法である。前記強化学習方法は、前記第１の軌跡（Ｓｇ）のグループにノイズ（Ｓｎ）を混合し、第２の軌跡（Ｓｃ）のグループを生成するステップと、前記第２の軌跡（Ｓｃ）のグループが生成されるごとに、前記第２の軌跡（Ｓｃ）のグループに基づいて行動の方策（π）を決定し、前記方策（π）によって計算される期待報酬（Ｊ）が最大化するように、前記方策（π）を更新するステップと、前記方策（π）の更新回数に対して、前記第１の軌跡（Ｓｇ）へのノイズ（Ｓｎ）の混合比（Ｔ）を変更し、前記第２の軌跡（Ｓｃ）のグループを生成するステップと、を含む。

【0010】

本発明の他の一態様は、環境とともに与えられたエージェントの行動である第１の軌跡（Ｓｇ）に基づいて、前記環境における行動の方策（π）を強化学習により決定する強化学習方法を、コンピュータに実行させるためのプログラムである。前記強化学習方法は、前記第１の軌跡（Ｓｇ）のグループにノイズ（Ｓｎ）を混合し、第２の軌跡（Ｓｃ）のグループを生成するステップと、前記第２の軌跡（Ｓｃ）のグループが生成されるごとに、前記第２の軌跡（Ｓｃ）のグループに基づいて行動の方策（π）を決定し、前記方策（π）によって計算される期待報酬（Ｊ）が最大化するように、前記方策（π）を更新するステップと、前記方策（π）の更新回数に対して、前記第１の軌跡（Ｓｇ）へのノイズ（Ｓｎ）の混合比（Ｔ）を変更し、前記第２の軌跡（Ｓｃ）のグループを生成するステップと、を含む。

【発明の効果】

【0011】

本発明によれば、模倣すべきエキスパートの行動以外の行動も選択する方策を学習できる。

【図面の簡単な説明】

【0012】

【図1】本実施形態の強化学習装置の構成を示すブロック図である。

【図2】強化学習処理を示すフローチャートである。

【図3】エキスパートの行動の第１の軌跡とノイズの一例を示す図である。

【図4】状態遷移モデルを説明する図である。

【発明を実施するための形態】

【0013】

以下、本発明の強化学習装置、強化学習方法及びプログラムの一実施形態について、図面を参照して説明する。以下の説明は本発明の一例（代表例）であり、本発明はこれに限定されない。

【0014】

図１は、本発明の一実施形態の強化学習装置１０の構成を示す。
強化学習装置１０は、ＣＰＵ（Central Processing Unit）１１及び記憶部１２を備える。強化学習装置１０は、操作部１３、表示部１４及び通信部１５をさらに備えてもよい。

【0015】

ＣＰＵ１１は、記憶部１２からプログラムを読み出して実行することにより、後述する強化学習処理を実行する。強化学習処理において、ＣＰＵ１１は、行動選択部１１１、計算処理部１１２、方策更新部１１３及び軌跡制御部１１４として機能する。

【0016】

行動選択部１１１は、タスクが与えられた環境において、方策（π）にしたがってエージェントの行動を選択する。計算処理部１１２は、行動選択部１１１により選択された行動を評価するための行動価値（Ｑ）を、当該行動に対して付与される報酬（ｒ）を用いて計算する。方策更新部１１３は、与えられたエキスパートの行動の軌跡に基づいて方策（π）を決定し、この方策（π）を計算された行動価値（Ｑ）により更新する。軌跡制御部１１４は、エキスパートの軌跡のグループにノイズを混合し、方策の更新回数に対してノイズの混合比を調整する。

【0017】

記憶部１２は、ＣＰＵ１１が読み取り可能なプログラム、及びプログラムの実行に用いられるデータ等を記憶する。記憶部１２としては、例えばハードディスク等の記録媒体を用いることができる。

【0018】

操作部１３は、キーボード、又はマウス等である。操作部１３は、ユーザの操作を受け付けて、その操作内容をＣＰＵ１１に出力する。

【0019】

表示部１４は、ディスプレイ等である。表示部１４は、ＣＰＵ１１からの表示指示にしたがって、操作画面やＣＰＵ１１の処理結果等を表示する。

【0020】

通信部１５は、ネットワークを介して外部のコンピュータと通信するインターフェイスである。

【0021】

強化学習装置１０には、ある環境における模倣すべきエキスパートの行動の軌跡が与えられる。強化学習装置１０は、このエキスパートの行動の軌跡から、環境に与えられたタスクを達成するための方策を強化学習により決定することができる。本実施形態では、強化学習のアルゴリズムの１つであるアクタークリティック（actor-critic）の例を説明する。アクタークリティックは、与えられた環境におけるエージェントの行動を方策（π）にしたがって選択し、その行動を評価する行動価値（Ｑ）に基づいて方策（π）を更新する手法である。

【0022】

環境の状態（ｓ）は、エージェントの行動（ａ）によって遷移する。方策（π）は、各状態（ｓ）において選択される行動（ａ）の確率分布である。環境の初期状態（ｓ_０）から最終状態（ｓ_ｅ）までのエージェントの一連の行動（ａ）は、エピソードと呼ばれる。状態（ｓ）を遷移させる行動（ａ）に対して、環境からは報酬（ｒ）が付与される。アクタークリティックにおいて、方策（π）は期待報酬（Ｊ）が最大化するように更新される。期待報酬（Ｊ）とは、１エピソードで獲得が期待される累積報酬をいう。

【0023】

期待報酬（Ｊ）は、式（１）に示すように、方策（π）及び行動価値（Ｑ）によって求められる。本実施形態において、期待報酬（Ｊ）は、パラメータθを有するニューラルネットワークとして定義されている。パラメータとは、ニューラルネットワークに設定される重み又はバイアス等をいう。

【数1】

【0024】

J（θ）は、パラメータθを有するニューラルネットワークにより出力される期待報酬を表す。ｓは状態を表し、ａは行動を表す。π（ｓ｜ａ，θ）は、状態（ｓ）における行動（ａ）を選択する方策を表し、パラメータθの最適化にともなって更新される。Ｑ（ｓ，ａ）は、状態（ｓ）で選択された行動（ａ）を評価する行動価値（Ｑ）を表す。

【0025】

図２は、強化学習処理のフローチャートである。
まず、軌跡制御部１１４は、与えられたエキスパートの行動の軌跡（以下、第１の軌跡（Ｓｇ）という）に対するノイズ（Ｓｎ）の混合比（Ｔ）を初期化する。ノイズ（Ｓｎ）とは、タスクを達成する行動の軌跡であって、エキスパートの行動の第１の軌跡（Ｓｇ）とは異なる軌跡をいう。混合比（Ｔ）は０≦Ｔ≦１を満たす係数であるが、初期化によりＴ＝１に設定される（ステップＳ１）。

【0026】

次に、軌跡制御部１１４は、環境とともに与えられる第１の軌跡（Ｓｇ）のグループを取得する。軌跡制御部１１４は、第１の軌跡（Ｓｇ）のグループを、記憶部１２から取得してもよいし、ネットワーク上の外部装置から取得してもよい。第１の軌跡（Ｓｇ）は、式（７）に示すように、一連の行動により遷移した環境の状態（ｓ）の集合として表される。
（７）Ｓｇ＝｛（ｓ_０，ｓ_１，・・・，ｓ_ｎ）｝

【0027】

軌跡制御部１１４は、式（８）に示すように、取得した第１の軌跡（Ｓｇ）のグループにノイズ（Ｓｎ）を混合比（Ｔ）で混合し、第２の軌跡（Ｓｃ）のグループを生成する（ステップＳ２）。
（８）Ｓｃ＝Ｔ・Ｓｎ＋（１－Ｔ）・Ｓｇ

【0028】

具体的には、軌跡制御部１１４は、グループを構成する１又は複数の第１の軌跡（Ｓｇ）を混合比（Ｔ）でノイズ（Ｓｎ）に置き換える。これにより、軌跡制御部１１４は、エキスパートの第１の軌跡（Ｓｇ）とノイズ（Ｓｎ）とを含む第２の軌跡（Ｓｃ）のグループを生成する）。最初はＴ＝１であるので、ノイズ（Ｓｎ）のみからなる第２の軌跡（Ｓｃ）のグループが生成される。

【0029】

図３は、第１の軌跡（Ｓｇ）とノイズ（Ｓｎ）の一例を示す。
図３に例示される軌跡Ｌ１は、迷路内のスタート地点Ｐｓからゴール地点Ｐｇまでをエキスパートが移動した経路である。迷路は、複数ブロックのエリア３０からなり、そこでは１ブロックずつ移動できる。移動は、ブロック間に配置された壁によって阻まれることがある。ここで、エリア３０は与えられた環境であり、各ブロックは環境の状態（ｓ）に相当する。

【0030】

一方、軌跡Ｌ２はノイズ（Ｓｎ）であり、軌跡Ｌ１と同様にスタート地点Ｐｓからゴール地点Ｐｇに至るが、軌跡Ｌ１とは異なる経路である。軌跡Ｌ２のようなノイズ（Ｓｎ）は、外部から与えられてもよいし、軌跡制御部１１４によって生成されてもよい。

【0031】

次に、方策更新部１１３が、第２の軌跡（Ｓｃ）のグループから状態遷移モデルを生成する。状態遷移モデルは、環境のある状態（ｓ）から次の状態（ｓ）への遷移確率の分布である。例えば、状態遷移モデルは、遷移確率がテーブル化された状態遷移マトリックスとして生成される。方策更新部１１３は、この状態遷移モデルを基に方策（π）を決定する（ステップＳ３）。方策（π）は、各状態（ｓ）において選択される行動（ａ）の確率分布である。

【0032】

図４は、状態遷移モデルを説明する図である。
上述した迷路において軌跡Ｌ１及び軌跡Ｌ２上のブロックは、状態（ｓ）の価値が高い。図４において、各ブロックに配置された円は状態（ｓ）の価値を表し、円の濃度が高いほど状態（ｓ）の価値が高いことを意味する。方策更新部１１３は、軌跡Ｌ１上のブロックへ遷移する確率が高くなるように、各ブロック（状態）から次のブロック（状態）への遷移確率を決定できる。

【0033】

次に、行動選択部１１１が、決定された方策（π）にしたがって、現在の状態（ｓ）においてとり得る行動（ａ）のなかから、エージェントの行動（ａ）を選択する（ステップＳ４）。

【0034】

計算処理部１１２は、選択された行動（ａ）に対する行動価値（Ｑ）を計算する（ステップＳ５）。行動価値（Ｑ）は、式（４）に示すように、計算される。計算処理部１１２は、計算された行動価値（Ｑ）を行動（ａ）に関連付けて記憶部１２に保存する。これをＱテーブルという。

【数2】

【0035】

ｓ_ｔは時間ｔにおける環境の状態（ｓ）を表す。ｓ_ｔ＋１は、状態（ｓ_ｔ）における行動（ａ）によって遷移した１ステップ後の状態（ｓ）を表す。ｒ_ｔ＋１は、状態（ｓ_ｔ）における行動（ａ）に応じて環境から付与される報酬（ｒ）を表す。αは学習率を表し、０＜α≦１を満たす。γは割引率を表し、０＜γ≦１を満たす。ｍａｘＱ（ｓ_ｔ＋１，ａ）は、状態（ｓ_ｔ＋１）においてとり得るいくつかの行動（ａ）の価値Ｑ（ｓ_ｔ＋１，ａ）のなかから最大値を出力する関数を表す。

【0036】

行動後の環境が最終状態（ｓ_ｅ）に至らない場合（ステップＳ６：ＮＯ）、行動（ａ）の選択（ステップＳ４）と行動価値（Ｑ）の計算（ステップＳ５）とが繰り返される。これにより、Ｑテーブルに行動価値（Ｑ）が保存されていく。そして、環境が最終状態（ｓ_ｅ）に至ると（ステップＳ６：ＹＥＳ）、方策更新部１１３は方策（π）を更新する（ステップＳ７）。

【0037】

方策（π）の更新時、まず、方策更新部１１３は式（１）中の行動価値（Ｑ）を最適化する。方策更新部１１３は、Ｑテーブルに保存された行動価値（Ｑ）を最適化された行動価値（Ｑ）として取得すればよい。

【0038】

なお、方策更新部１１３は、パラメータφを有するニューラルネットワークとして行動価値（Ｑ_φ）を定義し、式（５）に示す損失関数Ｌが最小化するようにパラメータφを更新することにより、行動価値（Ｑ）を最適化することもできる。

【数3】

【0039】

次に、方策更新部１１３は、最適化された行動価値（Ｑ）に対して、期待報酬（Ｊ）を最大化させる方策（π）を決定する。期待報酬（Ｊ）の最大化は、式（６）に示すように、期待報酬の勾配（∇_θＪ）を用いたパラメータ（θ）の更新によって行われる。

【0040】

【数4】

【0041】

本実施形態において、期待報酬の勾配（∇_θＪ）は式（２）に示すように定義される。式（２）に示すように、勾配（∇_θＪ）の計算には、最適化された行動価値（Ｑ）をそのまま使用するのではなく、付加価値（Ｒ）が混合された行動価値（Ｑ）が使用される。付加価値（Ｒ）は、式（３）に示すように、行動価値（Ｑ）を近似するように報酬（ｒ）を用いて計算される。

【0042】

【数5】

【0043】

τ、τ_Ｐ、τ_Ｄ及びτ_Ｉは、それぞれ０以上１以下の係数を表す。γ_Ｅは、各行動（ａ）に付与される報酬（ｒ）の割引率を表し、０＜γ_Ｅ≦１を満たす。ｔ_ｅは、最終状態（ｓ_ｅ）における時間を表す。式（３）において、係数τ_Ｐを含む項を比例項、係数τ_Ｄを含む項を微分項、係数τ_Ｉを含む項を積分項という。

【0044】

比例項において係数τ_Ｐが乗算されるｒ^＊は、１エピソード中の時間ｔの状態（ｓ）における行動（ａ）に対して付与される報酬（ｒ）を表す。例えば、ｔ＝５の場合、方策更新部１１３は、状態（ｓ_５）における行動（ａ）に対して付与される報酬（ｒ）を比例項に用いることができる。

【0045】

微分項において係数τ_Ｄが乗算されるｄｒ／ｄｔは、１エピソードにおいて時間ｔより前の状態から時間ｔの状態（ｓ）までの一定時間内に付与される報酬（ｒ）の微分値を表す。微分項の加算により、報酬（ｒ）の時間変化を考慮して付加価値（Ｒ）を決定することができる。例えば、方策更新部１１３は、ｔ＝５の場合、３～５ステップの状態（ｓ_３）から状態（ｓ_５）までの間に付与された報酬（ｒ）の微分値を微分項に用いることができる。

【0046】

積分項において係数τ_Ｉが乗算されるｒの積分値は、１エピソードの間に付与された報酬（ｒ）の累積値を表す。この累積値において各状態での行動（ａ）に対する報酬（ｒ）は割引率γ_Ｅにより割り引かれる。割引率γ_Ｅは（ｔ_ｅ－ｔ）乗され、最終状態（ｓ_ｅ）に近いほど報酬（ｒ）の割引率が小さくなる。

【0047】

方策更新部１１３は、各係数τ_Ｐ、τ_Ｄ及びτ_Ｉを調整することにより、比例項、微分項及び積分項の割合を調整でき、割合を０にすることも可能である。例えば、τ_Ｐ＝０、τ_Ｄ＝０、τ_Ｉ＝１と設定することにより、積分項のみ、つまり累積報酬を付加価値（Ｒ）に混合することができる。時間ｔの状態（ｓ）を重視したい場合は、τ_Ｐ＝１に設定することにより比例項を加算し、時間変化を考慮したい場合は、τ_Ｄ＝１に設定することにより微分項を加算すればよい。

【0048】

このような付加価値（Ｒ）を混合することにより、行動価値（Ｑ）を重み付けることができ、期待報酬（Ｊ）の最大化が加速する。期待報酬（Ｊ）を最大化させる方策（π）に収束するまでの学習時間が短くなるため、学習効率が向上する。

【0049】

また、付加価値（Ｒ）は、過去のエピソードにおいて累積価値が高かった一連の行動に対する行動価値（Ｑ）を高め、逆に累積価値が低かった一連の行動に対する行動価値（Ｑ）を低くする。よって、過去にタスクの失敗に至る行動（ａ）を避け、タスクの成功に至る行動（ａ）を選択するよう、方策（π）を決定することができる。これにより、リスクの低い方策（π）の学習が可能である。

【0050】

方策更新部１１３は、方策（π）の更新回数が増えるにつれて、行動価値（Ｑ）に付加価値（Ｒ）を加算する割合（τ）を減らすことが好ましい。方策更新部１１３は、割合（τ）を最終的に０まで減らすことができる。割合（τ）を減らすことにより、学習時間を短縮化しつつ、通常の行動価値（Ｑ）のみを用いる場合と同様の学習結果に収束させることができる。

【0051】

方策更新部１１３は、割合（τ）を単調減少させてもよいし、更新回数に対して減少させる割合を任意に決定してもよい。また、方策更新部１１３は、割合（τ）を減らす過程において一時的に増やしてもよい。

【0052】

方策（π）の更新後、混合比（Ｔ）がＴ＝０に至っていない場合（ステップＳ８：ＮＯ）、軌跡制御部１１４は混合比（Ｔ）を減らす（ステップＳ９）。その後、減らした混合比（Ｔ）により、上記ステップＳ２～Ｓ７の処理が繰り返される。つまり、混合比（Ｔ）が異なる第２の軌跡（Ｓｃ）のグループが新たに生成され、そのグループに基づいてＱテーブル及び方策（π）が更新される。混合比（Ｔ）がＴ＝０に至ると（ステップＳ８：ＹＥＳ）、強化学習処理が終了する。

【0053】

以上のように、本実施形態によれば、エキスパートの行動である第１の軌跡（Ｓｇ）のグループにノイズ（Ｓｎ）が混合される。このノイズ（Ｓｎ）を含む第２の軌跡（Ｓｃ）のグループに基づいて、期待報酬（Ｊ）を最大化するように方策（π）が更新される。ノイズ（Ｓｎ）の混合により、エキスパートの第１の軌跡（Ｓｇ）以外の状態の価値が高まるため、期待報酬（Ｊ）が高いことが判明している第１の軌跡（Ｓｇ）上の行動（ａ）だけでなく、それ以外の行動（ａ）も選択されやすい方策（π）に更新することができる。強化学習の際、ε－ｇｒｅｅｄｙ法などを適用しなくとも、方策（π）によって、エキスパートの行動（ａ）とそれ以外の試行錯誤による行動（ａ）の両立が可能である。

【0054】

また、本実施形態では、ノイズ（Ｓｎ）のみの第２の軌跡（Ｓｃ）のグループから強化学習が開始され、方策（π）の更新回数が増えるにつれてノイズ（Ｓｎ）の混合比（Ｔ）が減らされる。これにより、方策（π）の更新時、局所最適解ではなく、大域最適解が得られやすい。

【0055】

目的関数の勾配にしたがってニューラルネットワークのパラメータ（θ）を最適化した場合、大域最適解ではなく局所最適解に陥ることがある。これは誤差が最小となる状態（解）を求めるために、常に目的関数の勾配が最も小さくなる方向へと状態を更新していくと、局所最適解から抜け出せないためである。これを回避するための方法として疑似焼きなまし（シュミレーテッドアニーリング：Simulated Annealing）法が知られている。

【0056】

疑似焼きなまし法は、誤差が増大する状態への更新を許容する。誤差が増大する状態への更新を許容する度合を制御するパラメータは、“温度”と呼ばれる。誤差の増加を許容する“高温”の状態から、誤差の増加を許容しない“低温”へと徐々に冷やしていくことで、局所最適解に陥ることなく大域最適解に到達することが可能である。

【0057】

訓練用の第１の軌道（Ｓｇ）と異なるノイズ（Ｓｎ）は、誤差が増大する状態への更新を許容する。また、ノイズ（Ｓｎ）の混合比（Ｔ）が大きいほど、誤差は増大しやすい。したがって、混合比（Ｔ）は疑似焼きなましにおける温度パラメータに相当し、混合比（Ｔ）を変更しながら方策（π）の更新を繰り返すことにより、本実施形態の強化学習処理においても疑似焼きなましを実現している。これにより、大域最適解である方策（π）を求めることができる。

【0058】

以上、本発明の好ましい実施形態について説明したが、本発明は、これらの実施形態に限定されない。本発明の範囲内で種々の変形が可能であり、以下にいくつかの変形例を挙げる。各変形例は組み合わせてもよい。

【0059】

（変形例１）
上記実施形態では、方策（π）を更新するごとに混合比（Ｔ）を減らした。しかし、混合比（Ｔ）を減らす間隔はこれに限定されない。例えば、方策（π）が複数回更新されるごとに混合比（Ｔ）を減らしてもよい。このように、軌跡制御部１１４は、方策（π）の更新回数に対して混合比（Ｔ）を減らす割合を調整することができる。

【0060】

何回更新したときにどれだけ混合比（Ｔ）を減らすのか、あらかじめ更新回数に対して減らす混合比（Ｔ）が定められたスケジュールにしたがって、軌跡制御部１１４が混合比（Ｔ）を減少させてもよい。例えば、１回目の更新後に－１０％、２回目の更新後に－２０％と、学習のたびに混合比（Ｔ）を減らす割合がスケジュールされてもよい。また、混合比（Ｔ）は、１及び２回目の学習後は０％、３回目の学習後に－１０％、４回目の学習後は０％、５回目の学習後に－５０％と、ある一定回数の学習が行われるごとに減らされるようにスケジュールされてもよい。

【0061】

少ない更新回数で急激に混合比（Ｔ）を減らすと、解の探索時間が短縮化されるが、探索領域が狭くなる傾向がある。一方、多くの学習回数を経て混合比（Ｔ）を徐々に減らすと、解の探索時間が長くなるが、大域最適解に収束する確率が高まる傾向にある。軌跡制御部１１４によれば、大域最適解に短時間で収束するように、更新回数に対する混合比（Ｔ）を減らす割合を調整することができる。

【0062】

なお、混合比（Ｔ）を徐々に減らす例を説明したが、一時的に混合比（Ｔ）を増やすように、混合比（Ｔ）の変更プロセスがスケジューリングされてもよい。

【0063】

（変形例２）
上記実施形態では、１エピソードごとに方策（π）が更新された。しかし、軌跡制御部１１４は所定数のエピソードを実施するごとに方策（π）を更新することもできる。
また、１グループではなく、複数グループの第１の軌跡（Ｓｇ）から状態遷移モデルを生成し、方策（π）を決定することもできる。
ニューラルネットワークを用いて強化学習する場合は、上記のように複数のエピソード又は軌跡のグループをまとめて強化学習する方が、最適解が得られやすいことがある。

【0064】

（変形例３）
軌跡制御部１１４は、式（７）に示すように、状態遷移モデルを基に生成された行動の軌跡である第３の軌跡（Ｓｖ）と第１の軌跡（Ｓｇ）とを混合したグループを生成し、当該グループにノイズ（Ｓｎ）を混合比（Ｔ）で混合することにより、第２の軌跡（Ｓｃ）のグループを生成してもよい。
（７）Ｓｃ＝Ｔ・Ｓｎ＋（１－Ｔ）・｛β・Ｓｖ＋（１－β）・Ｓｇ｝

【0065】

Ｓｇ、Ｓｃ及びＳｖは、それぞれ第１の軌跡、第２の軌跡及び第３の軌跡を表す。βは、第３の軌跡（Ｓｖ）と第１の軌跡（Ｓｇ）の混合比を表し、０≦β≦１を満たす。軌跡制御部１１４は、混合比（β）を任意に調整することができる。第３の軌跡（Ｓｖ）は、例えば初期状態（ｓ_０）から最終状態（ｓ_ｅ）まで、状態価値（Ｖ）が高い状態（ｓ）を連続させることにより、生成することができる。

【0066】

状態遷移モデルでは、エキスパートの第１の軌跡（Ｓｇ）へと遷移する状態（ｓ）の価値が高い。よって、軌跡制御部１１４は、状態遷移モデルを基に、エキスパートの第１の軌跡（Ｓｇ）とは異なるが、当該第１の軌跡（Ｓｇ）に類似する第３の軌跡（Ｓｖ）を生成することができる。このような第３の軌跡（Ｓｖ）によれば、エキスパートの行動とは異なるが、状態（ｓ）の価値が高い行動も選択しやすい方策（π）に更新することができる。

【0067】

（変形例４）
軌跡制御部１１４は、エキスパートの第１の軌跡（Ｓｇ）の一部を変更してノイズ（Ｓｎ）を生成してもよい。これにより学習する第１の軌跡（Ｓｇ）がわずかに変化した軌跡に対しても最適解の行動が選択されるように、方策（π）が更新される。したがって、模倣すべき軌道（Ｓｇ）からわずかにそれた行動も選択できる方策（π）を提供することができる。

【0068】

（その他の変形例）
上記実施形態において、式（３）によって付加価値（Ｒ）を定義したが、報酬（ｒ）を用いて行動価値（Ｑ）を近似できるのであれば、これに限定されない。

【0069】

行動価値（Ｑ）は報酬（ｒ）によって計算されるため、式（３）においてｄｒ／ｄｔの代わりに、ｄＱ／ｄｔ又はＱ（ｓ_ｔ，ａ）－Ｑ（ｓ，ａ）が用いられてもよい。ｄＱ／ｄｔは、時間ｔよりも前の状態から時間ｔの状態（ｓ）までの一定時間内における行動価値（Ｑ）の微分値を表す。また、Ｑ（ｓ_ｔ，ａ）－Ｑ（ｓ，ａ）は、時間ｔより前の状態から時間ｔの状態（ｓ）までの行動価値（Ｑ）の変化を表す。

【0070】

また、上記実施形態では、記憶部１２がＱテーブルを記憶したが、これらはサーバ等の外部装置に保存されていてもよい。通信部１５によって外部装置と通信することにより、Ｑテーブルのダウンロード又はアップロードを行うことができる。

【0071】

強化学習装置１０は、様々な方策の決定に用いることができ、その技術分野は特に限定されない。例えば、危険物を回避して車両の走行経路を決定する自動運転制御、モータの駆動制御、ゲームのキャラクタの制御等に強化学習装置１０を利用可能である。

【0072】

また、本発明の強化学習方法をコンピュータに実行させるプログラムが記録された記録媒体が提供されてもよい。記録媒体としては、ＣＰＵ等のコンピュータが読み取り可能な記録媒体であれば特に限定されず、半導体メモリ、磁気ディスク、光ディスク等を使用可能である。

【符号の説明】

【0073】

１０・・・強化学習装置、１１・・・ＣＰＵ、１１１・・・行動選択部、１１２・・・計算処理部、１１３・・・方策更新部、１１４・・・軌跡制御部、１２・・・記憶部

【図1】