特許7628037 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツングの特許一覧

特許7628037強化学習装置、強化学習方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-01-30

(45)【発行日】2025-02-07

(54)【発明の名称】強化学習装置、強化学習方法及びプログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20250131BHJP

G06N 3/092 20230101ALI20250131BHJP

【ＦＩ】

G06N20/00

G06N3/092

【請求項の数】 8

(21)【出願番号】P 2021040746

(22)【出願日】2021-03-12

(65)【公開番号】P2022140092

(43)【公開日】2022-09-26

【審査請求日】2024-02-16

(73)【特許権者】

【識別番号】591245473

【氏名又は名称】ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング

【氏名又は名称原語表記】ＲＯＢＥＲＴＢＯＳＣＨＧＭＢＨ

(74)【代理人】

【識別番号】100177839

【弁理士】

【氏名又は名称】大場玲児

(74)【代理人】

【識別番号】100172340

【弁理士】

【氏名又は名称】高橋始

(74)【代理人】

【識別番号】100182626

【弁理士】

【氏名又は名称】八島剛

(72)【発明者】

【氏名】中里研一

【審査官】多賀実

(56)【参考文献】

【文献】国際公開第２０１８／１５０６５４（ＷＯ，Ａ１）

【文献】特開２０２１－０３５７１４（ＪＰ，Ａ）

【文献】増田直之, 潮俊光，「階層型深層強化学習を用いた車両系の最適経路探索」，人工知能の導入による生産性、効率性の向上、新製品開発への活用，オンデマンド版第1版，株式会社技術情報協会，2019年03月27日，pp.215-221，ISBN: 978-4-86104-755-8

【文献】XIE, Jiexin et al.，"Deep Reinforcement Learning With Optimized Reward Functions for Robotic Trajectory Planning"，IEEE Access [online]，IEEE，2019年，Volume 7，pp.105669-105679，[検索日 2024.12.20], インターネット:<URL: https://ieeexplore.ieee.org/abstract/document/8782495>，DOI: 10.1109/ACCESS.2019.2932257

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

(57)【特許請求の範囲】

【請求項1】

与えられた環境においてタスクを達成するまで、エージェントの行動を選択するエピソードを繰り返し実施し、１エピソードにおける一連の行動の累積価値が最大化するように前記エージェントの行動を学習する強化学習装置（１０）において、
前記エージェントの行動を繰り返し選択する行動選択部（１１１）と、
前記行動が選択されるごとに、前記選択された行動に対して付与される報酬（Ｒ）を用いて、前記選択された行動の価値（Ｑ）を計算する計算処理部（１１２）と、
前記タスクから１又は複数のサブタスクを定義するとともに、前記サブタスクの達成度に応じて付与する第２の報酬（Ｍ）を定義するタスク制御部（１１３）と、を備え、
前記計算処理部（１１２）は、前記選択された行動に対して定義された前記第２の報酬（Ｍ）と前記環境から付与される第１の報酬（ｒ）とを取得し、前記第１の報酬（ｒ）に前記第２の報酬（Ｍ）を加えることにより、前記報酬（Ｒ）を計算する
強化学習装置（１０）。

【請求項2】

前記計算処理部（１１２）は、前記第２の報酬（Ｍ）を加える割合（τ）を調整する
請求項１に記載の強化学習装置（１０）。

【請求項3】

前記計算処理部（１１２）は、前記エピソードの実施回数が増えるにつれて、前記第２の報酬（Ｍ）を加える割合（τ）を減らす
請求項２に記載の強化学習装置（１０）。

【請求項4】

前記タスク制御部（１１３）は、前記サブタスクごとに独立して前記第２の報酬（Ｍ）を定義する
請求項１～３のいずれか一項に記載の強化学習装置（１０）。

【請求項5】

前記タスク制御部（１１３）は、前記サブタスクの有効化又は無効化を選択する
請求項１～４のいずれか一項に記載の強化学習装置（１０）。

【請求項6】

前記行動選択部（１１１）は、前記サブタスクの有効化又は無効化を前記エージェントの行動の１つとして選択する
請求項１～４に記載の強化学習装置（１０）。

【請求項7】

与えられた環境においてタスクを達成するまで、エージェントの行動を選択するエピソードを繰り返し実施し、１エピソードにおける一連の行動の累積価値が最大化するように前記エージェントの行動を学習する強化学習方法において、
前記エージェントの行動を繰り返し選択するステップと、
前記行動が選択されるごとに、前記選択された行動に対して付与される報酬（Ｒ）を用いて、前記選択された行動の価値（Ｑ）を計算するステップと、
前記タスクから１又は複数のサブタスクを定義するとともに、前記サブタスクの達成度に応じて付与する第２の報酬（Ｍ）を定義するステップと、を含み、
前記価値（Ｑ）を計算するステップは、
前記選択された行動に対して定義された前記第２の報酬（Ｍ）と前記環境から付与される第１の報酬（ｒ）とを取得するステップと、
前記第１の報酬（ｒ）に前記第２の報酬（Ｍ）を加えることにより、前記報酬（Ｒ）を計算するステップと、を含む
強化学習方法。

【請求項8】

与えられた環境においてタスクを達成するまで、エージェントの行動を選択するエピソードを繰り返し実施し、１エピソードにおける一連の行動の累積価値が最大化するように前記エージェントの行動を学習する強化学習方法を、コンピュータに実行させるためのプログラムであって、
前記強化学習方法は、
前記エージェントの行動を繰り返し選択するステップと、
前記行動が選択されるごとに、前記選択された行動に対して付与される報酬（Ｒ）を用いて、前記選択された行動の価値（Ｑ）を計算するステップと、
前記タスクから１又は複数のサブタスクを定義するとともに、前記サブタスクの達成度に応じて付与する第２の報酬（Ｍ）を定義するステップと、を含み、
前記価値（Ｑ）を計算するステップは、
前記選択された行動に対して定義された前記第２の報酬（Ｍ）と前記環境から付与される第１の報酬（ｒ）とを取得するステップと、
前記第１の報酬（ｒ）に前記第２の報酬（Ｍ）を加えることにより、前記報酬（Ｒ）を計算するステップと、を含む
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、強化学習装置、強化学習方法及びプログラムに関する。

【背景技術】

【0002】

従来、与えられたタスクを達成するために強化学習が用いられている。強化学習は、タスクが与えられた環境においてエージェントの一連の行動の累積価値が最大化するように、エージェントの行動を学習する方法である。例えば、強化学習は、ゲームやモータの制御、又は車両の自動運転制御等に応用されている（特許文献１及び２参照。）。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１８－６３６０２号公報

【文献】特開２０２０－１４４４８３号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

一般的な強化学習は、エージェントの行動をランダムに又は確率的に選択して試行錯誤を繰り返す。累積価値が最大値付近に収束するまでの学習時間が長くなりやすいため、学習の効率化が求められている。

【0005】

特に、エージェントの行動に対して、タスクを達成するまで報酬が付与されない環境下では、学習時間が長くなりやすい。エージェントの行動の価値は、その行動に対して環境から付与される報酬によって計算され、計算された価値がその後のエージェントの行動を選択する指針となる。しかし、タスクを達成するまでの過程において報酬が付与されない場合、その間の行動の価値が変化せず、行動を選択する指針が得られずに試行錯誤が増えるためである。

【0006】

本発明は、強化学習の学習効率を高めることを目的とする。

【課題を解決するための手段】

【0007】

本発明の一態様は、与えられた環境においてタスクを達成するまで、エージェントの行動を選択するエピソードを繰り返し実施し、１エピソードにおける一連の行動の累積価値が最大化するように前記エージェントの行動を学習する強化学習装置（１０）である。強化学習装置（１０）は、前記エージェントの行動を繰り返し選択する行動選択部（１１１）と、前記行動が選択されるごとに、前記選択された行動に対して付与される報酬（Ｒ）を用いて、前記選択された行動の価値（Ｑ）を計算する計算処理部（１１２）と、前記タスクから１又は複数のサブタスクを定義するとともに、前記サブタスクの達成度に応じて付与する第２の報酬（Ｍ）を定義するタスク制御部（１１３）と、を備える。前記計算処理部（１１２）は、前記選択された行動に対して定義された前記第２の報酬（Ｍ）と前記環境から付与される第１の報酬（ｒ）とを取得し、前記第１の報酬（ｒ）に前記第２の報酬（Ｍ）を加えることにより、前記報酬（Ｒ）を計算する。

【0008】

本発明の他の一態様は、与えられた環境においてタスクを達成するまで、エージェントの行動を選択するエピソードを繰り返し実施し、１エピソードにおける一連の行動の累積価値が最大化するように前記エージェントの行動を学習する強化学習方法である。前記強化学習方法は、前記エージェントの行動を繰り返し選択するステップと、前記行動が選択されるごとに、前記選択された行動に対して付与される報酬（Ｒ）を用いて、前記選択された行動の価値（Ｑ）を計算するステップと、前記タスクから１又は複数のサブタスクを定義するとともに、前記サブタスクの達成度に応じて付与する第２の報酬（Ｍ）を定義するステップと、を含む。前記価値（Ｑ）を計算するステップは、前記選択された行動に対して定義された前記第２の報酬（Ｍ）と前記環境から付与される第１の報酬（ｒ）とを取得するステップと、前記第１の報酬（ｒ）に前記第２の報酬（Ｍ）を加えることにより、前記報酬（Ｒ）を計算するステップと、を含む。

【0009】

本発明の他の一態様は、与えられた環境においてタスクを達成するまで、エージェントの行動を選択するエピソードを繰り返し実施し、１エピソードにおける一連の行動の累積価値が最大化するように前記エージェントの行動を学習する強化学習方法を、コンピュータに実行させるためのプログラムである。前記強化学習方法は、前記エージェントの行動を繰り返し選択するステップと、前記行動が選択されるごとに、前記選択された行動に対して付与される報酬（Ｒ）を用いて、前記選択された行動の価値（Ｑ）を計算するステップと、前記タスクから１又は複数のサブタスクを定義するとともに、前記サブタスクの達成度に応じて付与する第２の報酬（Ｍ）を定義するステップと、を含む。前記価値（Ｑ）を計算するステップは、前記選択された行動に対して定義された前記第２の報酬（Ｍ）と前記環境から付与される第１の報酬（ｒ）とを取得するステップと、前記第１の報酬（ｒ）に前記第２の報酬（Ｍ）を加えることにより、前記報酬（Ｒ）を計算するステップと、を含む。

【発明の効果】

【0010】

本発明によれば、強化学習の学習効率を高めることができる。

【図面の簡単な説明】

【0011】

【図1】本実施形態の強化学習装置の構成を示すブロック図である。

【図2】強化学習装置において実行される強化学習処理を示すフローチャートである。

【図3】環境の一例であるゲームエリアを示す図である。

【図4】サブタスクの一例を示す図である。

【図5】第２の報酬のテーブルの一例を示す図である。

【図6】第２の報酬のテーブルの他の一例を示す図である。

【図7】価値のテーブルの一例を示す図である。

【図8】サブタスクごとに計算された価値のテーブルの一例を示す図である。

【発明を実施するための形態】

【0012】

以下、本発明の強化学習装置、強化学習方法及びプログラムの一実施形態について、図面を参照して説明する。以下の説明は本発明の一例（代表例）であり、本発明はこれに限定されない。

【0013】

図１は、本発明の一実施形態の強化学習装置１０の構成を示す。
強化学習装置１０は、ＣＰＵ（Central Processing Unit）１１及び記憶部１２を備える。強化学習装置１０は、操作部１３、表示部１４及び通信部１５をさらに備えてもよい。

【0014】

ＣＰＵ１１は、記憶部１２からプログラムを読み出して実行することにより、後述する強化学習処理を実行する。強化学習処理において、ＣＰＵ１１は、行動選択部１１１、計算処理部１１２及びタスク制御部１１３として機能する。

【0015】

行動選択部１１１は、タスクが与えられた環境においてエージェントの行動を選択する。計算処理部１１２は、行動選択部１１１により選択された行動の価値を、当該行動に対して付与される報酬を用いて計算する。タスク制御部１１３は、与えられたタスクからサブタスクを定義する。

【0016】

記憶部１２は、ＣＰＵ１１が読み取り可能なプログラム、及びプログラムの実行に用いられるテーブル等を記憶する。記憶部１２としては、例えばハードディスク等の記録媒体を用いることができる。

【0017】

操作部１３は、キーボード、又はマウス等である。操作部１３は、ユーザの操作を受け付けて、その操作内容をＣＰＵ１１に出力する。

【0018】

表示部１４は、ディスプレイ等である。表示部１４は、ＣＰＵ１１からの表示指示にしたがって、操作画面やＣＰＵ１１の処理結果等を表示する。

【0019】

通信部１５は、ネットワークを介して外部のコンピュータと通信するインターフェイスである。

【0020】

強化学習装置１０において、ＣＰＵ１１は、与えられたタスクを達成するための方策を強化学習により決定することができる。本実施形態では、強化学習の１つであるＱ学習の例を説明する。

【0021】

（一般的な強化学習方法）
Ｑ学習では、タスクが与えられた環境にエージェントが配置される。エージェントとは行動主体をいう。エージェントは、環境のある状態（ｓ_ｔ）においてとり得る複数の行動（ａ）から１つの行動（ａ）を選択する。選択された行動（ａ）によって環境の状態（ｓ_ｔ）は状態（ｓ_ｔ＋１）に遷移する。

【0022】

エージェントの各行動（ａ）には、その行動（ａ）を評価する価値（Ｑ）が関連付けられる。価値（Ｑ）は、下記式（１０）により表される行動価値関数Ｑによって計算される。

【数1】

【0023】

式（１０）において、ｓ_ｔは時間ｔにおける環境の状態（ｓ）を表す。ｓ_ｔ＋１は、状態（ｓ_ｔ）における行動（ａ）によって遷移した１ステップ後の状態（ｓ）を表す。ｒ_ｔ＋１は状態（ｓ_ｔ）における行動（ａ）に応じて環境から付与される報酬（ｒ）を表す。αは学習率を表し、０＜α≦１を満たす。γは割引率を表し、０＜γ≦１を満たす。ｍａｘＱ（ｓ_ｔ＋１，ａ）は、状態（ｓ_ｔ＋１）においてとり得るいくつかの行動（ａ）の価値Ｑ（ｓ_ｔ＋１，ａ）のなかから最大値を出力する関数を表す。

【0024】

環境が初期状態（ｓ_０）から最終状態（ｓ_ｅ）に遷移するまで、エージェントは行動（ａ）を続ける。この初期状態（ｓ_０）から最終状態（ｓ_ｅ）までのエージェントの一連の行動（ａ）は、エピソードと呼ばれる。エピソードを繰り返し実施することにより、各状態（ｓ）における行動（ａ）の価値（Ｑ）が順次計算され、更新されていく。一定数のエピソードを実施したときの累積価値が最も大きくなる一連の行動を、与えられた環境に対する最適な行動として学習することができる。

【0025】

一般的なＱ学習では、累積価値が最大値付近に収束するまで、エピソードを繰り返し、試行錯誤する必要がある。そのため、学習時間が長くなりやすい。特に、タスクが達成されるまで報酬（ｒ）が付与されない環境下では学習時間が長くなりやすい。価値（Ｑ）は、報酬（ｒ）によって重み付けられ、その後のエージェントの行動（ａ）の選択の指針となる。しかし、タスクの達成まで付与される報酬（ｒ）が０であると、タスクが達成されるまでの間、行動（ａ）の価値（Ｑ）の変化がなく、試行錯誤が増えるためである。

【0026】

これに対し、本実施形態の強化学習装置１０は、与えられたタスクの一部であるサブタスクを定義し、当該サブタスクを達成する行動（ａ）に応じて報酬を付与する。つまり、強化学習装置１０は、価値（Ｑ）の計算に、環境から与えられる報酬（ｒ）だけではなく、サブタスクの達成度に応じた報酬を用いる。タスクを達成するまでの間も行動（ａ）の選択の指針となる価値（Ｑ）を重み付け、試行錯誤を減らすことにより、学習の効率化を図る。以下、環境から与えられる従来の報酬（ｒ）を第１の報酬（ｒ）といい、この第１の報酬（ｒ）に追加される報酬を第２の報酬（Ｍ）という。

【0027】

（本実施形態の強化学習方法）
図２は、強化学習装置１０における強化学習処理の流れを示す。この強化学習処理は、ＣＰＵ１１が記憶部１２のプログラムを読み取ることにより実行される。
以下、強化学習処理に与えられるタスクの一例として、ゲームを説明する。図３は、ゲームの環境として与えられる６×６ブロックのゲームエリア３０を示す。

【0028】

図３において、各ブロックはブロック番号（ｉｊ）により区別される。ｉはゲームエリア３０の行を表す０～５の数値である。ｊはゲームエリア３０の列を表す０～５の数値である。例えば、２行目かつ１列目のブロックはブロック（１０）と表される。

【0029】

ゲームエリア３０には、ブラシ２０が配置される。ブラシ２０は、現在のブロック（ｉｊ）から上下左右に１ブロックずつ移動し、移動後のブロック（ｉｊ）を掃除することができる。掃除されたブロック（ｉｊ）の色は、黒から白に変化する。

【0030】

このゲームのタスクは、すべてのブロック（ｉｊ）の色を黒から白に変えることである。ブラシ２０の総移動距離が短いほど、タスクを効率的に達成することができる。すべてのブロック（ｉｊ）が白に変わったときにゲームエリア３０から付与される第１の報酬（ｒ）は１００ポイントである。黒のブロック（ｉｊ）がある間は、どのような行動（ａ）に対しても付与される第１の報酬（ｒ）は０ポイントである。第１の報酬（ｒ）の情報は、ゲームエリア３０とともに与えられ、記憶部１２に保存される。

【0031】

このタスクにおいて、ゲームエリア３０は与えられた環境である。環境の初期状態（ｓ_０）は、白のブロック数が０であり、黒のブロックの残数が３６の状態である。ブラシ２０を移動する行動（ａ）によって、環境の状態（ｓ）、すなわちブロック（ｉｊ）の色の状態（ｓ）が遷移していく。タスクの達成によってゲームが終了するため、環境の最終状態（ｓ_ｅ）は、全ブロックが白の状態、つまり白のブロック数が３６であり、黒のブロックの残数が０の状態である。

【0032】

強化学習装置１０は、ゲームのプレイヤーとしてブラシ２０を移動するエージェントの行動（ａ）を選択し、その価値（Ｑ）を計算することを繰り返す。これにより、強化学習装置１０は、すべてのブロック（ｉｊ）の色が黒から白へ変わるまでの一連の行動（ａ）に対して計算される価値（Ｑ）の累積値が最大化する行動（ａ）を探索する。

【0033】

まず、ＣＰＵ１１のタスク制御部１１３が、与えられたタスク（以下、メインタスクという）から１又は複数のサブタスクを定義する（ステップＳ１）。サブタスクはメインタスクの一部である。つまり、サブタスクの達成によりメインタスクの一部が達成される。

【0034】

図４は、サブタスクの一例を示す。
この例において、タスク制御部１１３は、６×６ブロックのゲームエリア３０の色を変えるメインタスクから、３つのサブタスクを定義し、０１、０２及び０３のＩＤを付与する。ＩＤ＝０１のサブタスクは、４×２ブロックのエリア３１の色を変えることである。ＩＤ＝０２のサブタスクは、２×４ブロックのエリア３２の色を変えることである。ＩＤ＝０３のサブタスクは、３×４ブロックのエリア３３の色を変えることである。

【0035】

各サブタスクの一部は、他のサブタスクの一部と重複してもよい。図４の例では、ＩＤ＝０２のサブタスクのエリア３２は、ＩＤ＝０３のサブタスクのエリア３３と部分的に重複している。なお、メインタスクをいくつかに分割することにより、重複のない複数のサブタスクが定義されてもよい。

【0036】

サブタスクの定義により、環境は、メインタスクにおける状態（ｓ）と各サブタスクにおける状態（ｍ）とを有する。状態（ｓ）は、メインタスクの状態を表す複数の要素を有し、ｓ＝｛ｘ_１，ｘ_２，・・・，ｘ_ｎ｝と表される。状態（ｍ）は、サブタスクの状態を表す複数の要素を有し、ｍ＝｛ｙ_１，ｙ_２，・・・，ｙ_ｎ｝と表される。各要素は任意に決定され得る。例えば、メインタスクの状態（ｓ）の要素ｘ_ｎは、ゲームエリア３０内において、ブラシ２０の移動により白に変化したブロック番号（ｉｊ）、黒のブロックの残数等を含む。また、サブタスクの状態（ｍ）の要素ｙ_ｎは、各サブタスクのエリア内において、白に変化したブロック番号（ｉｊ）、黒のブロックの残数等を含む。

【0037】

例えば、図４に示すゲームエリア３０においてメインタスクは、白に変化したブロック番号が００及び０１であり、黒のブロックの残数が３４の状態（ｓ）にある。また、ＩＤ＝０１のサブタスクは、エリア３１において白に変化したブロック番号はまだなく、黒のブロックの残数が８の状態（ｍ）にある。ＩＤ＝０３のサブタスクも、エリア３３において白に変化したブロック番号がなく、黒のブロックの残数が１２の状態（ｍ）にある。ＩＤ＝０２のサブタスクは、エリア３２内で白に変化したブロック番号が００及び０１であり、黒のブロックの残数が６の状態（ｍ）にある。

【0038】

次に、タスク制御部１１３は、エージェントの行動（ａ）に対し、サブタスクの達成度に応じて付与される第２の報酬（Ｍ）を定義する（ステップＳ２）。タスク制御部１１３は、定義された第２の報酬（Ｍ）を記憶部１２に保存する。

【0039】

タスク制御部１１３は、サブタスクごとに独立して第２の報酬（Ｍ）を定義することができる。各サブタスクの第２の報酬（Ｍ）は同じ定義であってもよいし、異なる定義であってもよい。

【0040】

図５は、ＩＤ＝０１のサブタスクに対して定義された第２の報酬（Ｍ）を保持するテーブルＴ３１の例を示す。図５において、状態（ｓ_ｔ，ｍ）及び（ｓ_ｔ＋１，ｍ）の項目は、状態を示す各要素のうち、エリア３１内の黒のブロックの残数のみを示す。

【0041】

テーブルＴ３１において、ある状態（ｓ_ｔ，ｍ）から状態（ｓ_ｔ＋１，ｍ）へ遷移する行動（ａ）であって、ブロックの色を変える行動（ａ）に対しては、３ポイントの第２の報酬（Ｍ）が関連付けられる。例えば、エリア３１内の黒のブロックの残数が８の状態（ｓ_ｔ，ｍ）から７の状態（ｓ_ｔ＋１，ｍ）に遷移する行動（ａ）には、３ポイントの第２の報酬（Ｍ）が関連付けられている。

【0042】

一方、ブロックの残数に変わりがない行動（ａ）に対しては０ポイントの第２の報酬（Ｍ）が関連付けられている。この定義によれば、ブラシ２０を移動する行動（ａ）によりエリア３１内で黒のブロックの残数が１減るごとに、第２の報酬（Ｍ）が３ポイントずつ付与される。

【0043】

本実施形態において、ＩＤ＝０２のサブタスクに対する第２の報酬（Ｍ）の定義は、ＩＤ＝０１のサブタスクと同じである。よって、ＩＤ＝０２のサブタスクに対する第２の報酬（Ｍ）のテーブルＴ３２の構成は、テーブルＴ３１と同じである。

【0044】

図６は、ＩＤ＝０３のサブタスクに対して定義された第２の報酬（Ｍ）を保持するテーブルＴ３３の例を表す。図６において、状態（ｓ_ｔ，ｍ）及び（ｓ_ｔ＋１，ｍ）の項目は、サブタスクの状態を示す各要素のうち、エリア３３内の黒のブロックの残数のみを示す。
テーブルＴ３３において、エリア３３内の黒のブロックの残数が１の状態（ｓ_ｔ，ｍ）から０の状態（ｓ_ｔ＋１，ｍ）へ遷移する行動（ａ）に対しては、３６ポイントの第２の報酬（Ｍ）が関連付けられる。それ以外の行動（ａ）に対しては、０ポイントの第２の報酬（Ｍ）が関連付けられる。

【0045】

この定義によれば、エリア３３内の一部を白に変える行動（ａ）に対して付与される第２の報酬（Ｍ）は０ポイントである。最後の黒の１ブロックを白に変える行動（ａ）に対して、３６ポイントの第２の報酬（Ｍ）が付与される。つまり、各ブロックの色が変わるごとに第２の報酬（Ｍ）が付与されるのではなく、全ブロックの色が変わるときにまとめて第２の報酬（Ｍ）が付与される。

【0046】

なお、図５及び図６は、第２の報酬（Ｍ）の定義の一例を示すのであって、第２の報酬（Ｍ）の定義方法はこれに限定されない。タスクの内容に応じて他の定義方法を採用することができる。

【0047】

サブタスク及び第２の報酬（Ｍ）の定義が終了すると、行動選択部１１１がゲームを初期化し、エピソードを開始する（ステップＳ３）。初期化により、環境は初期状態（ｓ_０）にリセットされる。つまり、全ブロックの色が白から黒へ変わり、黒のブロックの残数が３６の状態にリセットされる。

【0048】

行動選択部１１１は、エージェントが現在の状態（ｓ_ｔ，ｍ）においてとり得る行動（ａ）のなかから１つの行動（ａ）を選択する（ステップＳ４）。選択した行動（ａ）により、ゲームエリア３０が状態（ｓ_ｔ，ｍ）から状態（ｓ_ｔ＋１，ｍ）へと変化する。

【0049】

例えば、図３に示すように、初期状態（ｓ_０）において、ブロック（００）にブラシ２０を配置する行動（ａ）が選択される。ブロック（００）の色が白に変わるため、環境は、黒のブロックの残数が３６の状態（ｓ_０，ｍ）から、黒のブロックの残数が３５の状態（ｓ_１，ｍ）へと変化する。

【0050】

本実施形態において、行動（ａ）の選択はε－ｇｒｅｅｄｙ法により確率的に行われる。具体的には、行動選択部１１１が、一定の確率εで、状態（ｓ_ｔ，ｍ）においてとり得る行動（ａ）のうちの１つをランダムに選択する。また、行動選択部１１１は、確率（１－ε）で、状態（ｓ_ｔ，ｍ）においてとり得る行動（ａ）のうち、次の状態（ｓ_ｔ＋１，ｍ）における行動の価値（Ｑ）が最も大きい行動（ａ）を選択する。つまり、ｍａｘＱ（ｓ_ｔ＋１，ｍ，ａ）が得られる行動（ａ）が選択される。

【0051】

ｍａｘＱ（ｓ_ｔ＋１，ｍ，ａ）が得られる行動（ａ）を常に選択すると、学習が停滞することがある。それは、価値（Ｑ）が低い行動（ａ）を排除すると、その後のより価値（Ｑ）が高い行動（ａ）を選択し損ねることがあるからである。ε－ｇｒｅｅｄｙ法は、あえて価値（Ｑ）が低い行動（ａ）を含むランダムな行動（ａ）を一定確率で選択する。これにより、行動の選択の可能性が広がり、学習を効率化することができる。
なお、行動（ａ）の選択手法としては、上記ε－ｇｒｅｅｄｙ法に限らず、softmax法等の他の手法を目的に応じて採用することができる。

【0052】

行動（ａ）が選択されると、計算処理部１１２は、状態（ｓ_ｔ，ｍ）において選択した行動（ａ）の価値（Ｑ）を計算する（ステップＳ５）。
下記式（１）は、本実施形態において価値（Ｑ）の計算に用いられる行動価値関数Ｑを示す。式（１）中のＲは、状態（ｓ_ｔ，ｍ）において選択された行動（ａ）に対して付与される報酬を表す。下記式（２）は、報酬（Ｒ）の計算に用いられる報酬関数を示す。

【0053】

【数2】

【0054】

式（２）において、ｒ_ｔ＋１は、状態（ｓ_ｔ）における行動（ａ）に関連付けられた第１の報酬（ｒ）を表す。Ｍ（ｓ_ｔ＋１，ｍ）は、状態（ｓ_ｔ）における行動（ａ）に関連付けられた第２の報酬（Ｍ）を表す。τは０≦τ≦１を満たす係数を表す。γ、α及びｍａｘの定義は、式（１０）と同じである。

【0055】

まず、計算処理部１１２は、価値（Ｑ）の計算に使用する第１の報酬（ｒ）及び第２の報酬（Ｍ）を取得する。計算処理部１１２は、取得した第１の報酬（ｒ）に第２の報酬（Ｍ）を加えることにより、報酬（Ｒ）を計算する。計算処理部１１２は、複数のサブタスクから第２の報酬（Ｍ）が付与される場合は、それらを合算して報酬（Ｒ）の計算に用いる。

【0056】

例えば、ブロック（００）からブロック（０１）にブラシ２０を移動する行動（ａ）により、環境から付与される第１の報酬（ｒ）は０ポイントである。一方、この行動（ａ）によりエリア３２における黒のブロックの残数は７から６へ変化し、テーブルＴ３１から３ポイントの第２の報酬（Ｍ）が取得される。ブロックの色が変化しないエリア３２及び３３のサブタスクから得られる第２の報酬（Ｍ）は０ポイントである。よって、報酬（Ｒ）は３ポイントと計算される。

【0057】

次に、計算処理部１１２は、計算された報酬（Ｒ）を用いて、式（１）に示すように、価値（Ｑ）を計算する。計算処理部１１２は、計算した価値（Ｑ）を記憶部１２に保存する。

【0058】

図７は、記憶部１２において価値（Ｑ）を保持するテーブルＴｑの例を示す。
テーブルＴｑにおいて、各行動（ａ）に計算された価値（Ｑ）が関連付けられる。また、各行動（ａ）には、その行動（ａ）により遷移した後の状態（ｓ_ｔ＋１）として、白に変化したブロック番号（ｉｊ）と、ゲームエリア３０内の黒のブロックの残数ｎとが関連付けられる。これらは、各行動（ａ）が選択され、価値（Ｑ）が計算されるごとに書き込まれていく。

【0059】

選択した行動（ａ）により環境が最終状態（ｓ_ｅ）に至っていない場合（ステップＳ６：ＮＯ）、行動選択部１１１は、行動（ａ）により遷移した状態（ｓ_ｔ＋１，ｍ）を現在の状態（ｓ_ｔ，ｍ）に設定する（ステップＳ７）。その後、ステップＳ４及びＳ５の処理が繰り返される。つまり、最終状態（ｓ_ｅ）に至るまで、行動（ａ）の選択とその行動の価値（Ｑ）の計算とが繰り返される。その結果、テーブルＴｑに計算された価値（Ｑ）が順次保存されていく。

【0060】

選択した行動（ａ）により環境が最終状態（ｓ_ｅ）に至った場合（ステップＳ６：ＹＥＳ）、１エピソードが終了する。一定数のエピソードが実施された場合は（ステップＳ８：ＹＥＳ）、強化学習処理が終了する。一定数は任意に設定され得る。

【0061】

一方、一定数のエピソードが実施されていない場合（ステップＳ８：ＮＯ）、ステップＳ３の処理に戻り、新たなエピソードが開始される。つまり、一定数のエピソードを実施するまでステップＳ３～Ｓ７の処理が繰り返され、実施されたエピソード中の一連の行動によって価値（Ｑ）が更新されていく。

【0062】

このように、サブタスクの達成度に応じて付与される第２の報酬（Ｍ）によって、報酬（Ｒ）が高くなり、計算される価値（Ｑ）も高くなっていく。第１の報酬（ｒ）によって価値（Ｑ）が変化しない間も、第２の報酬（Ｍ）によって価値（Ｑ）が変化し、行動（ａ）を評価できる。これにより試行錯誤が減り、タスクを達成できる行動（ａ）を効率的に学習することができる。

【0063】

報酬（Ｒ）を計算する際、計算処理部１１２は、係数τの値を変更することにより、第２の報酬（Ｍ）を加える割合（τ）を調整することができる。割合（τ）が大きいほど第１の報酬（ｒ）に追加される第２の報酬（Ｍ）の割合が増える。計算処理部１１２は、第２の報酬（Ｍ）による学習の効率化を優先する場合は割合（τ）を増やし、試行錯誤による学習を優先する場合は割合（τ）を減らすことができる。

【0064】

計算処理部１１２は、エピソードの実施回数が増えるにつれて、割合（τ）を減らすことが好ましい。第２の報酬（Ｍ）の付与はサブタスクを達成するようにエージェントの行動（ａ）を誘導するが、新たな行動（ａ）の選択が減り、エージェントの行動（ａ）が第２の報酬（Ｍ）が付与される行動（ａ）に偏りやすい。よって、エピソード数が少ない間は第２の報酬（Ｍ）の割合（τ）を増やすことにより、学習を効率化することができる。エピソード数がある程度実施された後は第２の報酬（Ｍ）の割合（τ）を減らして、あえてランダムに行動することにより、より価値（Ｑ）の高い行動（ａ）の学習が可能となり、学習の効率化を図ることができる。

【0065】

計算処理部１１２は、割合（τ）を最終的に０まで減らすことができる。これにより、通常のＱ学習と同様の結果に収束させることができる。計算処理部１１２は、割合（τ）を単調減少させてもよいが、減らす過程において一時的に増やしてもよい。

【0066】

以上のように、本実施形態によれば、エピソードを繰り返し実施して、１エピソードにおけるエージェントの一連の行動の累積価値が最大化するように、エージェントの行動（ａ）を学習する。このような強化学習において、行動選択部１１１は、エージェントの行動（ａ）を繰り返し選択する。計算処理部１１２は、行動（ａ）が選択されるごとに、選択された行動（ａ）に対して付与される報酬（Ｒ）を用いて行動（ａ）の価値（Ｑ）を計算する。

【0067】

通常のＱ学習において価値（Ｑ）の計算に使用される報酬（Ｒ）は、式（１０）に示したように第１の報酬（ｒ）のみである。第１の報酬（ｒ）は、環境において予め定義される定数である。全ブロックの色が変化したときのみ高い第１の報酬（ｒ）が付与されるような環境下では、それまでの間、行動（ａ）の指標となる第１の報酬（ｒ）が得られない。全ブロックの色が変化するまで試行錯誤を繰り返す必要があるため、価値（Ｑ）が最大化するまでに必要なエピソードの実施数が増え、学習に時間を要する。

【0068】

これに対し、本実施形態におけるタスク制御部１１３は、メインタスクからサブタスクとサブタスクの達成度に応じて付与される第２の報酬（Ｍ）とを定義する。計算処理部１１２は、第１の報酬（ｒ）に第２の報酬（Ｍ）を加えることにより報酬（Ｒ）を得る。このような第２の報酬（Ｍ）の加算により重み付けられた報酬（Ｒ）は、サブタスクを達成する一連の行動の価値（Ｑ）を高める。よって、サブタスクを達成しながら最終的にメインタスクを達成する行動（ａ）へとエージェントを誘導することができる。

【0069】

行動（ａ）の誘導により試行錯誤が減る。また、価値（Ｑ）の最大化を加速させることができる。これにより、学習時間が短くなるため、強化学習の学習効率を高めることができる。

【0070】

強化学習装置１０は、様々な方策の決定に用いることができ、その技術分野は特に限定されない。例えば、危険物を回避して車両の走行経路を決定する自動運転制御、モータの駆動制御、ゲームのキャラクタの制御等に強化学習装置１０を利用可能である。

【0071】

以上、本発明の好ましい実施形態について説明したが、本発明は、これらの実施形態に限定されない。本発明の範囲内で種々の変形が可能であり、以下にいくつかの変形例を挙げる。各変形例は組み合わせてもよい。

【0072】

（変形例１）
タスク制御部１１３は、各サブタスクの有効化又は無効化を選択することができる。タスク制御部１１３は、サブタスクの有効化又は無効化をエピソードごとに切り替えることもできるし、１エピソードのなかでも環境の状態（ｓ）に応じて切り替えることもできる。

【0073】

例えば、タスク制御部１１３は、１エピソードにおいてゲームエリア３０の半分の色が変わるまで、ＩＤが０２のサブタスクを無効化し、ＩＤが０１及び０３のサブタスクを有効化することを選択できる。この場合、ゲームの前半はエリア３２のブロックよりもエリア３１及び３３の色を変える行動（ａ）が選択されやすくなる。エリア３２の色が変化しても第２の報酬（Ｍ）が得られず、第２の報酬（Ｍ）が得られるエリア３１及び３３の色を変える行動（ａ）の方が、価値（Ｑ）が高くなるためであるよって、先にエリア３１及び３３の色を変え、次にエリア３２の色を変えるよう、行動（ａ）をスケジュールすることができる。

【0074】

サブタスクの有効化又は無効化が選択される場合、計算処理部１１２は、有効化された各サブタスクの第２の報酬（Ｍ）のすべてを合算して報酬（Ｒ）を計算し、当該報酬（Ｒ）を用いて価値（Ｑ）を計算してもよい。

【0075】

あるいは、計算処理部１１２は、サブタスクごとの価値（Ｑ）をまず計算し、有効化された各サブタスクの価値（Ｑ）の平均値を、行動（ａ）の価値（Ｑ）として計算してもよい。具体的には、計算処理部１１２は、ＩＤ＝０１のサブタスクのみが有効化された場合の価値（Ｑ）、ＩＤ＝０２のサブタスクのみが有効化された場合の価値（Ｑ）及びＩＤ＝０３のサブタスクのみが有効化された場合の価値（Ｑ）をそれぞれ計算する。すなわち、各サブタスクから付与される第２の報酬（Ｍ）のみを用いて３つの価値（Ｑ）を計算する。

【0076】

図８は、サブタスクごとに計算された価値（Ｑ）のテーブルＴｑ１～Ｔｑ３の例を示す。
テーブルＴｑ１は、ＩＤ＝０１のサブタスクの第２の報酬（Ｍ）のみを用いて計算される価値（Ｑ）を保持する。同様に、テーブルＴｑ２は、ＩＤ＝０２のサブタスクの第２の報酬（Ｍ）のみを用いて計算される価値（Ｑ）を保持する。テーブルＴｑ３は、ＩＤ＝０３のサブタスクの第２の報酬（Ｍ）のみを用いて計算される価値（Ｑ）を保持する。

【0077】

計算処理部１１２は、３つの価値（Ｑ）のうち、有効化されたサブタスクの価値（Ｑ）の平均値を計算する。例えば、ＩＤが０１及び０２のサブタスクが有効化され、ＩＤが０３のサブタスクが無効化された場合、計算処理部１１２は、テーブルＴｑ１及びＴｑ２に保持された価値（Ｑ）の平均値を計算する。この平均値が、選択された行動（ａ）に関連付けて、テーブルＴｑに保持される。

【0078】

（変形例２）
行動選択部１１１が、上記サブタスクの有効化又は無効化をエージェントの行動（ａ）の１つとして選択してもよい。これにより、サブタスクを達成する行動（ａ）のスケジュールも学習することができる。

【0079】

タスク制御部１１３は、各サブタスクの有効化又は無効化を選択する行動（ａ）に対し、第２の報酬（Ｍ）を定義することができる。第２の報酬（Ｍ）によって、行動（ａ）のスケジュールをより効率的に学習可能である。

【0080】

（変形例３）
タスク制御部１１３は、予め与えられた環境に関する情報に基づいて、第２の報酬（Ｍ）を定義することができる。
例えば、避けるべき環境の状態（ｓ）や経由すべき状態（ｓ）が事前に判明している場合、計算処理部１１２はその情報に基づいて第２の報酬（Ｍ）を定義することができる。

【0081】

ゲームエリア３０のいくつかのブロック（ｉｊ）にトラップが配置される例を説明する。ブラシ２０がトラップに到達すると、ゲームオーバーに至り、タスクは失敗する。このトラップの位置情報が予め与えられた場合、タスク制御部１１３は、このトラップが配置されたブロック（ｉｊ）にブラシ２０を移動する行動（ａ）に対して－１００ポイントのような、他の行動（ａ）よりも低い第２の報酬（Ｍ）を定義することができる。

【0082】

このような低い値の第２の報酬（Ｍ）が定義されると、その状態（ｓ）に至る行動（ａ）を選択した場合に式（２）により計算される報酬（Ｒ）が小さくなり、結果として価値（Ｑ）も小さくなる。これにより、トラップを避けるようにエージェントの行動（ａ）を誘導することができる。

【0083】

強化学習を用いる制御内容によっては、タスクを効率的に達成できる行動（ａ）であるだけではなく、リスクが低い行動（ａ）が求められる。例えば、最短経路でタスクを達成する行動（ａ）であっても、リスクの高い地点に近づく行動（ａ）は避けた方がよい。この場合は、上述のようにして第２の報酬（Ｍ）を定義することにより、学習する行動のリスクを減らすことができる。

【0084】

（変形例４）
上記実施形態における第２の報酬（Ｍ）は、サブタスクとともに定義される定数である。しかし、第２の報酬（Ｍ）は、これからの行動（ａ）により付与される報酬（Ｒ）の期待値に応じて、更新される変数であってもよい。

【0085】

下記式（３）は、更新後の第２の報酬（Ｍ）の計算に用いられる報酬関数Ｍ（ｓ，ｍ）の一例を示す。式（３）において、Ｒ_ｅはサブタスクを達成した場合に付与される報酬（Ｒ）の期待値を表す。期待値（Ｒ_ｅ）は、式（４）により計算される。計算処理部１１２は、１又は複数の行動（ａ）が選択されるごとに、更新後の第２の報酬（Ｍ）を計算し、テーブルＴ３１～Ｔ３３を更新することができる。更新後の第２の報酬（Ｍ）が、報酬（Ｒ）の計算に用いられる。

【0086】

【数3】

式（３）において、λは０＜λ≦１を満たす係数である。式（４）において、Ｅ[]は、[]内の期待値を出力する関数を示す。

【0087】

例えば、現在の環境が、エリア３１の全ブロックの色が変わったが、エリア３２及び３３の色が変わっていない状態（ｓ）にある。この状態（ｓ）においてどのような行動（ａ）が選択されても得られる第１の報酬（ｒ）は０ポイントである。また、ＩＤが０１のサブタスクはすでに達成されているため、その達成により今後得られる報酬（Ｒ）の期待値（Ｒ_ｅ）は０ポイントである。

【0088】

一方、ＩＤが０２及び０３のサブタスクの達成により、各サブタスクに対して定義された第２の報酬（Ｍ）の累積値が報酬（Ｒ）として期待される。式（３）及び式（４）によれば、ＩＤが０１のサブタスクよりも、ＩＤが０２及び０３のサブタスクを達成する行動（ａ）に対して付与される第２の報酬（Ｍ）が高くなる。その結果、その行動（ａ）の価値（Ｑ）が高まるため、ＩＤが０２及び０３のサブタスクを達成するように、エージェントの行動（ａ）を誘導することができる。

【0089】

更新後の第２の報酬（Ｍ）を計算する際、計算処理部１１２は、係数λの値を変更することにより、更新後の第２の報酬（Ｍ）における報酬（Ｒ）の期待値（Ｒ_ｅ）の割合（λ）を調整することができる。割合（λ）が大きいほど、元の第２の報酬（Ｍ）から報酬（Ｒ）の期待値（Ｒ_ｅ）へのシフトが加速化される。よって、計算処理部１１２は割合（λ）を増やすことにより、実際の行動（ａ）による結果をその後の行動（ａ）へより早く反映させることができる。

【0090】

（変形例５）
第２の報酬（Ｍ）は、式（３）に代えて、下記式（５）に示す報酬関数Ｍ_γ（ｓ，ｍ）により計算されてもよい。式（５）によれば、更新後の第２の報酬（Ｍ）は、１エピソードにおいて選択された各行動（ａ）に至るまでに得られる報酬（Ｒ）の期待値（Ｅ）であり、各報酬（Ｒ）を足し合わせることにより計算される。ここで、各行動（ａ）に付与される報酬（Ｒ）が係数γ_Ｅによって割り引かれている。

【0091】

【数4】

式（５）において、E[]は、[]内の期待値を出力する関数を表す。

【0092】

γ_Ｅは、各行動（ａ）に付与される報酬（Ｒ）の割引率を表し、０＜γ_Ｅ≦１を満たす。割引率γ_Ｅは（ｅ－ｔ）乗されるため、最終状態（ｓ_ｅ）から初期状態（ｓ_０）へ近づくほど、報酬（Ｒ）の割引率が小さくなる。この報酬関数Ｍ_γ（ｓ，ｍ）によれば、初期状態（ｓ_０）より最終状態（ｓ_ｅ）に近い過去の行動に誘導しやすくなる。よって、メインタスクを達成する最後の行動（ａ）に第１の報酬（ｒ）が付与される環境に適している。また、γ_Ｅ ^{（ｅ－ｔ）}が１より小さいと、少ない行動（ａ）で期待値（Ｅ）が高い行動（ａ）が選択されやすくなる。よって、累積報酬（Ｒ_ｅ）が得られるまでの時間平均を考慮してγ_Ｅを設定することができる。

【0093】

例えば、状態（ｓ_ｔ，ｍ）から状態（ｓ_ｔ＋３，ｍ）まで遷移した場合、各行動（ａ）に至るまでの各報酬（Ｒ）の期待値（Ｅ）は次のように計算される。
Ｍ_γ（ｓ，ｍ）＝γ_Ｅ ^３Ｒ（ｓ_ｔ，ｍ）＋γ_Ｅ ^２Ｒ（ｓ_ｔ＋１，ｍ）
＋γ_ＥＲ（ｓ_ｔ＋２，ｍ）＋Ｒ（ｓ_ｔ＋３，ｍ）

【0094】

（変形例６）
タスク制御部１１３は、各サブタスク間で第２の報酬（Ｍ）に差を設けてもよい。これにより、サブタスクが達成される順番の制御が容易となる。例えば、タスク制御部１１３は、ＩＤが０１のサブタスクの第２の報酬（Ｍ）が、ＩＤが０２及び０３のサブタスクよりも大きくなるように、各サブタスクの第２の報酬（Ｍ）を定義することができる。この場合、ＩＤが０２及び０３よりもＩＤが０１のサブタスクを先に達成するように、行動（ａ）が誘導される。

【0095】

（変形例７）
タスク制御部１１３は、サブタスクのなかでも先に達成すべき一部があれば、この一部を他のサブタスクの一部と重なるように定義することができる。
例えば、図４中のブロック（１２）及び（１３）のように、複数のサブタスクのエリアが重なるブロックの色が変わる場合、価値（Ｑ）の計算に、各サブタスクの第２の報酬（Ｑ）が用いられる。その結果、エリアが重なるブロックにブラシ２０を移動する行動（ａ）の価値（Ｑ）は、重なっていないブロックに移動する行動（ａ）よりも高くなりやすい。したがって、エリアが重なるブロックの色が先に変わるよう、行動（ａ）を誘導することが可能である。

【0096】

なお、上記実施形態では、記憶部１２が各テーブルＴ３１～Ｔ３３、Ｔｑ及びＴｑ１～Ｔｑ３を記憶したが、これらはサーバ等の外部装置に保存されていてもよい。通信部１５によって外部装置と通信することにより、テーブルＴ３１～Ｔ３３、Ｔｑ及びＴｑ１～Ｔｑ３のダウンロード又はアップロードを行うことができる。

【0097】

また、Ｑ学習の例を説明したが、報酬を用いてエージェントの行動の価値を計算する強化学習であれば、本発明を適用することができる。例えば、ＳＡＲＳＡ、マルコフ決定過程(MDP : Markov decision process)、又はＤＱＮ（Deep Q-Network）等においても、本発明を適用可能である。

【0098】

また、本発明の強化学習方法をコンピュータに実行させるプログラムが記録された記録媒体が提供されてもよい。記録媒体としては、ＣＰＵ等のコンピュータが読み取り可能な記録媒体であれば特に限定されず、半導体メモリ、磁気ディスク、光ディスク等を使用可能である。

【符号の説明】

【0099】

１０・・・強化学習装置、１１・・・ＣＰＵ、１１１・・・行動選択部、１１２・・・計算処理部、１１３・・・タスク制御部、１２・・・記憶部

【図1】