特開2024-162483 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 株式会社東芝の特許一覧

特開2024-162483機械学習プログラム、機械学習方法、および機械学習装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5A
5B
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024162483

(43)【公開日】2024-11-21

(54)【発明の名称】機械学習プログラム、機械学習方法、および機械学習装置

(51)【国際特許分類】

G06N 20/00 20190101AFI20241114BHJP

B23K 26/21 20140101ALN20241114BHJP

【ＦＩ】

G06N20/00

B23K26/21 A

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2023078022

(22)【出願日】2023-05-10

(71)【出願人】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】金子敏充

(72)【発明者】

【氏名】皆本岳

【テーマコード（参考）】

4E168

【Ｆターム（参考）】

4E168BA74

4E168CA06

4E168CA11

4E168DA32

(57)【要約】

【課題】速度制御を含む制御対象点の目標に対する平均誤差の最小化を図る。
【解決手段】制御対象時刻における制御対象点の速度に関する情報を含む観測情報を取得する取得ステップと、観測情報および制御方策に応じて決定された、制御対象点の速度制御に関する情報を含む制御情報を出力する出力ステップと、観測情報から導出される速度以外の指標の値の評価指標と目標との誤差が小さいほど高い報酬を、観測情報に含まれる制御対象点の速度に応じて補正した補正報酬を決定する補正報酬決定ステップと、観測情報および補正報酬から制御方策を強化学習する学習ステップと、をコンピュータに実行させるための機械学習プログラム。
【選択図】図６

【特許請求の範囲】

【請求項1】

制御対象時刻における制御対象点の速度に関する情報を含む観測情報を取得する取得ステップと、
前記観測情報および制御方策に応じて決定された、前記制御対象点の速度制御に関する情報を含む制御情報を出力する出力ステップと、
前記観測情報から導出される速度以外の指標の値の評価指標と目標との誤差が小さいほど高い報酬を、前記観測情報に含まれる前記制御対象点の速度に応じて補正した補正報酬を決定する補正報酬決定ステップと、
前記観測情報および前記補正報酬から前記制御方策を強化学習する学習ステップと、
をコンピュータに実行させるための機械学習プログラム。

【請求項2】

前記補正報酬決定ステップは、
前記報酬を前記制御対象点の速度が速いほど低くなるように補正した前記補正報酬を決定する、
請求項１に記載の機械学習プログラム。

【請求項3】

前記補正報酬の割引率を前記観測情報から導出される前記制御対象点の速度に応じて補正した補正割引率を決定する補正割引率決定ステップを備え、
前記学習ステップは、
前記観測情報、前記補正報酬、および前記補正割引率から、前記制御方策を強化学習する、
請求項１に記載の機械学習プログラム。

【請求項4】

前記補正割引率決定ステップは、
前記制御対象点の速度が速いほど前記割引率の値が小さくなるように補正した前記補正割引率を決定する、
請求項３に記載の機械学習プログラム。

【請求項5】

前記補正割引率決定ステップは、
入力を受付けた入力速度に対する入力割引率に応じた前記割引率を、前記制御対象点の速度に応じて補正した前記補正割引率を決定する
請求項３に記載の機械学習プログラム。

【請求項6】

取得した前記観測情報から導出される前記評価指標を含む第１の経験データ、および該観測情報とは前記制御対象時刻の異なる１または複数の他の前記観測情報から導出される前記評価指標をそれぞれ含む１または複数の第２の経験データ、の群に基づいて、前記群に含まれる複数の前記評価指標から選択した複数の前記評価指標を、前記目標として設定する目標設定ステップを含み、
前記補正報酬決定ステップは、
設定された複数の前記目標の各々ごとに、取得した前記観測情報から導出される前記評価指標と複数の前記目標の各々との誤差が小さいほど高い報酬を、前記観測情報に含まれる前記制御対象点の速度に応じて補正した前記補正報酬を決定する、
請求項１に記載の機械学習プログラム。

【請求項7】

前記目標設定ステップは、
前記第１の経験データに含まれる前記評価指標と、前記第２の経験データに含まれる前記評価指標にノイズを加えたノイズ付加評価指標と、を前記目標として設定する、
請求項６に記載の機械学習プログラム。

【請求項8】

前記目標設定ステップは、
ユーザによって選択された目標選択方法に応じて前記目標を設定する、
請求項６に記載の機械学習プログラム。

【請求項9】

前記目標設定ステップは、
ユーザによって選択された数の前記目標を設定する、
請求項６に記載の機械学習プログラム。

【請求項10】

【請求項11】

制御対象時刻における制御対象点の速度に関する情報を含む観測情報を取得する取得部と、
前記観測情報および制御方策に応じて決定された、前記制御対象点の速度制御に関する情報を含む制御情報を出力する出力部と、
前記観測情報から導出される速度以外の指標の値の評価指標と目標との誤差が小さいほど高い報酬を、前記観測情報に含まれる前記制御対象点の速度に応じて補正した補正報酬を決定する補正報酬決定部と、
前記観測情報および前記補正報酬から前記制御方策を強化学習する学習部と、
を備える機械学習装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、機械学習プログラム、機械学習方法、および機械学習装置に関する。

【背景技術】

【0002】

強化学習を様々な制御の学習に適用する試みがなされている。特許文献１には、指令経路からの逸脱に基づいて報酬を算出して強化学習を行うことで、指令経路からの逸脱をできるだけ少なくするように速度制御を学習する方法が開示されている。非特許文献１には、レーザー溶接に於いて、所望のビード幅と生成されたビード幅との差に基づいて報酬を算出し、溶接速度を含む溶接制御を強化学習で学習する方法が開示されている。非許文献２には、与えられた目標を満たすようにシステムを制御する場合に、蓄積した経験データの目標を差し替えて学習に用いることで制御方策を学習する方法が開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特許第６０７７６１７号公報

【非特許文献】

【0004】

【非特許文献1】M. Schmitz, F. Pinsker, あ. Ruhri, B. Jiang and G. Safronov, “Enabling Rewards for Reinforcement Learning in Laser Beam Welding processes through Deep Learning,” 19th IEEE International Conference on Machine Learning and Applications (ICMLA), 14-17 December, 2020.

【発明の概要】

【発明が解決しようとする課題】

【0005】

強化学習は割引累積報酬の期待値を最大化する方策を学習する手法である。割引累積報酬は、現在時刻以降に得られる報酬を、現在時刻からの時間差が大きいほど小さな重みを乗じて総和を取ったものである。特許文献１や非特許文献１のように誤差に基づいて算出される報酬を用いて強化学習を行えば、誤差を小さくする制御方法を学習することができる。しかし、制御対象点の速度が変化する場合、速度によって単位時間あたりの移動距離が変動するため、軌跡によって計算される誤差だけでなく速度によっても割引累積誤差が変動する。このため従来技術では、速度制御を含む制御対象点の軌跡の目標軌跡に対する平均誤差の最小化を図ることは困難であった。

【0006】

本発明が解決しようとする課題は、速度制御を含む制御対象点の目標に対する平均誤差の最小化を図ることができる、機械学習プログラム、機械学習方法、および機械学習装置を提供することである。

【課題を解決するための手段】

【0007】

実施形態の機械学習プログラムは、制御対象時刻における制御対象点の速度に関する情報を含む観測情報を取得する取得ステップと、前記観測情報および制御方策に応じて決定された、前記制御対象点の速度制御に関する情報を含む制御情報を出力する出力ステップと、前記観測情報から導出される速度以外の指標の値の評価指標と目標との誤差が小さいほど高い報酬を、前記観測情報に含まれる前記制御対象点の速度に応じて補正した補正報酬を決定する補正報酬決定ステップと、前記観測情報および前記補正報酬から前記制御方策を強化学習する学習ステップと、をコンピュータに実行させるための機械学習プログラムである。

【図面の簡単な説明】

【0008】

【図1】学習システムの模式図。

【図2】制御対象点の位置における評価指標の目標と、実際に達成された評価指標と、の対応関係を示す図。

【図3】機械学習装置の機能ブロック図。

【図4】表示画面の模式図。

【図5A】表示画面の模式図。

【図5B】表示画面の模式図。

【図6】情報処理の流れを示すフローチャート。

【図7】ハードウェア。

【発明を実施するための形態】

【0009】

以下に添付図面を参照して、本実施形態の機械学習プログラム、機械学習方法、および機械学習装置を詳細に説明する。

【0010】

図１は、本実施形態の学習システム１の一例の模式図である。

【0011】

学習システム１は、機械学習装置１０と、制御対象装置２０と、を備える。機械学習装置１０と制御対象装置２０とは、通信可能に接続されている。

【0012】

機械学習装置１０は、強化学習を行う情報処理装置である。言い換えると、機械学習装置１０は学習の主体となるエージェントである。機械学習装置１０は、本実施形態の機械学習プログラムを実行するためのコンピュータである。

【0013】

制御対象装置２０は、機械学習装置１０による制御対象物である。言い換えると、制御対象装置２０は、機械学習装置１０が学習した制御方策に応じて決定される制御情報の適用対象である。

【0014】

制御対象装置２０は、例えば、直交座標ロボットや多関節ロボット等のロボット、レーザー加工またはレーザー溶接等の工作機械、および、無人搬送機やドローン等の無人移動体、などの機器である。制御対象装置２０は、これらの機器の動作をシミュレートする計算機シミュレータであってもよい。

【0015】

機械学習装置１０は、制御対象装置２０よって制御される制御対象点が評価指標における目標を達成するように制御方策を学習する。すなわち、機械学習装置１０は、目標に対する制御対象点の平均誤差を最小化する制御方策を学習する。

【0016】

制御対象点とは、時系列に沿って連続する制御対象時刻の各々で制御対象となるポイントである。制御対象装置２０がロボットである場合には、制御対象点は、例えば、ロボットアームの先端やエンドエフェクタの特定位置である。また、制御対象装置２０がレーザー加工またはレーザー溶接等の工作機器である場合には、制御対象点は、例えば、レーザー加工時のレーザー照射点である。また、制御対象装置２０が無人搬送機やドローン等の無人移動体である場合には、制御対象点は、例えば、無人移動体の重心である。

【0017】

強化学習においては、学習の主体となる機械学習装置１０と、制御対象となる制御対象装置２０とのやりとりにより、機械学習装置１０の学習が進められる。

【0018】

具体的には、制御対象装置２０は、各制御対象時刻における制御対象点の観測情報を機械学習装置１０へ出力する。機械学習装置１０は、制御対象装置２０から取得した観測情報および制御方策に応じて行動を表す制御情報を決定し、制御対象装置２０へ出力する。これらの一連の流れの処理が繰り返されることで機械学習装置１０の学習が進められる。

【0019】

観測情報とは、制御対象時刻における制御対象点の状態を表す情報であり、制御対象装置２０の制御に必要な情報である。本実施形態では、観測情報は、制御対象時刻における制御対象点の速度に関する情報を少なくとも含む。

【0020】

制御対象点の速度に関する情報は、制御対象時刻における制御対象点の速度を特定可能な情報であればよい。制御対象点の速度に関する情報は、詳細には、制御対象時刻における制御対象点の位置、速度、加速度、単位時間当たりの移動距離、の少なくとも１つを表す情報である。

【0021】

制御情報とは、制御対象点の行動の制御に用いられる情報である。本実施形態では、制御情報は、制御対象点の速度制御に関する情報を少なくとも含む。

【0022】

具体的には、制御対象装置２０がドローンである場合には、制御情報は前後左右上下の各々の方向の速度または加速度などであり、観測情報はドローンの位置、速度、および周囲の情報等のドローンの制御に必要な情報である。周囲の情報は、例えば、カメラで撮影した周囲の画像、距離画像、および占有グリッドマップ等である。

【0023】

制御対象装置２０が多関節ロボットである場合には、制御情報は各関節のトルク、角度、制御対象点の位置・姿勢・速度などである。観測情報は各関節の角度・角速度、制御対象点の位置・姿勢・速度、作業環境の情報などの多関節ロボットの制御に必要な情報である。作業環境の情報は、例えば、カメラで撮影した周囲の画像、距離画像、等である。

【0024】

制御対象装置２０がレーザー溶接機である場合には、制御情報は溶接速度、溶接加速度、レーザーパワー、スポット径などである。観測情報はレーザーの照射位置、照射速度、スポット径、材料間のギャップ、ビードまたは溶融池の幅、溶接位置周辺の情報等の、レーザー溶接機の制御に必要な情報である。溶接位置周辺の情報は、例えば、カメラで撮影した溶接位置周囲の画像、温度分布等である。

【0025】

次に、強化学習の基本的な概念について説明する。本実施形態では、強化学習として、目標条件付き強化学習を用いる形態を説明する。

【0026】

目標条件付き強化学習とは、目標ｇが与えられているときに、ある制御対象時刻ｔにおいて入力された状態ｓ_ｔから、行動ａ_ｔを決定する制御方策を学習する方法である。

【0027】

状態ｓ_ｔは、制御対象時刻ｔにおける観測情報またはその一部に相当する。行動ａ_ｔは、制御情報に相当する。

【0028】

制御方策は、π（ａ_ｔ｜ｓ_ｔ，ｇ）によって表される確率分布である。制御方策π（ａ_ｔ｜ｓ_ｔ，ｇ）は、例えば、確率値または確率モデルのパラメータを出力するニューラルネットワークで学習される。

【0029】

目標条件付き強化学習は、下記式（１）によって表される割引累積報酬の期待値を最大化する制御方策π（ａ_ｔ｜ｓ_ｔ，ｇ）を学習することを目的とする学習である。割引累積報酬は、現在時刻以降に得られる報酬を、現在時刻からの時間差が大きいほど小さな重みを乗じて総和を取ったものである。

【0030】

【数1】

【0031】

式（１）中、ｒ（ｓ_ｔ，ａ_ｔ，ｇ）は、目標ｇが与えられているときに、状態ｓ_ｔにおいて行動ａ_ｔを行った結果、時刻ｔ＋１に算出された報酬を表す。式（１）中、γは割引率を表す。ｋは、０以上の整数である。

【0032】

割引率γとは、遠い将来の報酬をどれだけ考慮して行動を決定するかを調整する、０以上１以下のパラメータである。言い換えると、割引率γは、どこまでの将来を考慮するかを調整するためのハイパーパラメーターである。割引率γには、遠い将来に得られる報酬ほど割り引いて評価するためのパラメータが用いられる。割引率γは、学習を安定化させる正則化の役割も果たしている。

【0033】

強化学習には様々なアルゴリズムが知られている。その多くは、価値関数Ｖ（ｓ_ｔ，ｇ）や行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ，ｇ）の学習ステップを含む。

【0034】

価値関数Ｖ（ｓ_ｔ，ｇ）は、目標ｇが与えられたときに、状態ｓ_ｔから現在の制御方策π（ａ_ｔ｜ｓ_ｔ，ｇ）に従って行動して得られる割引累積報酬の推定値である。価値関数Ｖ（ｓ_ｔ，ｇ）の値は、ＴＤ（ＴｅｍｐｏｒａｌＤｉｆｆｅｒｅｎｃｅ）学習と呼ばれる手法を用いる場合、以下の式（２）によって表される更新式により更新（学習）される。

【0035】

【数2】

【0036】

式（２）中、αは学習率を表す。

【0037】

行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ，ｇ）は、目標ｇが与えられたときに、状態ｓ_ｔにおいて行動ａ_ｔを取った後に現在の制御方策π（ａ_ｔ｜ｓ_ｔ，ｇ）に従って行動した場合に得られる割引累積報酬の推定値である。行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ，ｇ）の値は、ＴＤ学習では、以下の式（３）によって表される更新式により更新（学習）される。

【0038】

【数3】

【0039】

式（３）中、以下式（４）は、一般に計算が困難である。

【0040】

【数4】

【0041】

このため、式（３）中の式（４）に替えて、価値関数Ｖ（ｓ_ｔ，ｇ）を用いたり、制御方策π（ａ｜ｓ_ｔ＋１，ｇ）に従ってサンプリングした行動ａのみの行動価値関数Ｑ（ｓ_ｔ＋１，ａ，ｇ）を用いたりする。

【0042】

価値関数Ｖ（ｓ_ｔ，ｇ）および行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ，ｇ）は、例えば、線形モデルやニューラルネットワークで学習される。

【0043】

次に、目標条件付き強化学習を用いて、制御対象が評価指標における目標を達成するような制御方策を学習する方法を説明する。

【0044】

図２は、制御対象点の位置ｘにおける評価指標の目標ｇと、実際に達成された評価指標ｆ（ｘ）と、の対応関係の一例を示す図である。

【0045】

位置ｘは、事前に予定された制御対象点の軌跡上の、基準位置からの距離である。制御対象点の軌跡は、事前に予定された制御対象時刻の各々における制御対象点の軌跡である。予定された制御対象点の軌跡が直線である場合には、基準位置を原点として予定された軌跡をそのままｘ軸とすればよい。

【0046】

目標とは、評価指標ｆ（ｘ）の目標となる値である。

【0047】

評価指標ｆ（ｘ）とは、観測情報から導出される、速度以外の指標の値であり、実際に達成された指標である。導出とは、算出、演算、決定、特定、読取、の何れかを意味する。上述したように、観測情報は、例えば、制御対象装置２０の種類に応じて、ドローンの位置、速度、周囲の情報等のドローンの制御に必要な情報、各関節の角度・角速度、制御対象点の位置・姿勢・速度、作業環境の情報などの多関節ロボットの制御に必要な情報、溶接速度、溶接加速度、レーザーパワー、スポット径などである。観測情報はレーザーの照射位置、照射速度、スポット径、材料間のギャップ、ビードまたは溶融池の幅、溶接位置周辺の情報等の、レーザー溶接機の制御に必要な情報、等を含む。評価指標ｆ（ｘ）は、観測情報から導出されるこれらの指標の内、速度以外の指標の値である。

【0048】

具体的には、評価指標ｆ（ｘ）および目標ｇとしては、例えばドローン制御の場合、事前に設定された制御対象点の軌跡である設定軌跡と現在の制御対象点の位置との距離を評価指標ｆ（ｘ）とし、目標ｇとして該距離０（ゼロ）を与える。レーザー溶接制御の場合には、ビード幅もしくは溶け込み深さを評価指標ｆ（ｘ）とし、目標ｇとして正の定数を与える。

【0049】

目標条件付き強化学習では、目標を達成するように強化学習を行う。このため、目標ｇと実際に達成された評価指標ｆ（ｘ）との誤差ｄ（ｘ）が小さいほど大きな報酬ｒ（ｓ_ｔ，ａ_ｔ，ｇ）が与えられるように報酬を定義する。誤差ｄ（ｘ）としては、例えばＬ１距離やＬ２距離を用いることができる。目標条件付き強化学習では、時刻ｔからｔ＋１の間で誤差ｄ（ｘ）を積分し、－１を乗じて、以下の（５）式のように報酬ｒ（ｓ_ｔ，ａ_ｔ，ｇ）を定義して学習する。

【0050】

【数5】

【0051】

式（５）中、ｘ（ｔ）は、時刻ｔにおける制御対象点の位置を表す。時刻ｔは、制御対象時刻ｔと同じ意味である。

【0052】

式（５）によって表される報酬の定義は、下記式（６）によって表される目的関数の期待値を最小化する制御方策π（ａ_ｔ｜ｓ_ｔ，ｇ）の学習を意味する。

【0053】

【数6】

【0054】

式（６）は、制御対象点の目標に対する平均誤差を表す目的関数である。詳細には、式（６）によって表される平均誤差は、事前に予定された制御対象点の軌跡である目標の軌跡と、実際の制御対象点の軌跡との誤差ｄ（ｘ）を、目標の軌跡に沿って積分した積分値を表す。

【0055】

また、式（５）によって表される報酬の定義の近似として、時刻ｔ＋１における誤差ｄ（ｘ）のみを用いて、報酬ｒ（ｓ_ｔ，ａ_ｔ，ｇ）を、ｒ（ｓ_ｔ，ａ_ｔ，ｇ）＝ｄ（ｘ（ｔ+１））と定義する方法も行われている。この式によって表される報酬の定義は、上記式（６）を離散的に計算した下記式（７）によって表される目的関数の期待値を最小化する制御方策π（ａ_ｔ｜ｓ_ｔ，ｇ）の学習に相当する。

【0056】

【数7】

【0057】

ドローン等の制御対象装置２０の制御において、事前に予定された制御対象点の軌跡と実際の軌跡との差分を最小化したい場合、強化学習で学習するための割引率γを導入した目的関数は下記式（８）によって表される。

【0058】

【数8】

【0059】

式（８）は、制御対象点の目標に対する平均誤差を表す目的関数である。詳細には、式（８）によって表される平均誤差は、事前に予定された制御対象点の軌跡である目標の軌跡と、実際の制御対象点の軌跡との誤差ｄ（ｘ）を、目標の軌跡に沿って積分した積分値を表す。

【0060】

レーザー溶接等の制御対象装置２０において、ビード幅もしくは溶け込み深さを事前に予定された値にしたい場合も、同じく式（８）が目的関数となる。

【0061】

ここで、制御対象点の速度が一定の場合、上記式（６）によって表される目的関数の期待値の最小化は、上記式（８）によって表される目的関数の最小化と同じである。しかし、制御対象点の速度が一定ではない場合には、上記式（６）によって表される目的関数の期待値の最小化と、上記式（８）によって表される目的関数の最小化と、は異なるものとなる。詳細には、例えば、誤差ｄ（ｘ）の値が大きい場合、速度が小さい場合に比べて速度が大きい場合のほうが目標ｇとのずれが大きく、式（８）への影響が大きくなる。しかし、式（６）は時間に対して誤差ｄ（ｘ）を積算しているため、速度の影響が考慮されない。

【0062】

このため、従来の強化学習では、速度制御を含む制御対象点の制御方策を強化学習により学習する場合、本来の目的関数である式（８）を最適化する強化学習を行うことはできなかった。すなわち、従来の強化学習では、速度制御を含む制御対象点の制御方策を強化学習により学習する際、目標に対する制御対象点の平均誤差を最小化することは困難であった。

【0063】

そこで、本実施形態の機械学習装置１０では、観測情報に含まれる制御対象点の速度に応じて報酬を補正した補正報酬を用いて、制御方策を強化学習する。補正報酬を用いることで、本実施形態の機械学習装置１０は、速度の変化が平均誤差の値に影響を与えないようにすることができ、平均誤差が最小となる制御方策を学習することができる。

【0064】

また、本実施形態の機械学習装置１０は、更に、報酬の割引率に替えて、報酬の割引率を制御対象点の移動距離に応じて補正した補正割引率を用いて、制御方策を強化学習する。補正割引率を用いることで、本実施形態の機械学習装置１０は、速度の変化が割引累積報酬の値に影響を与えないようにすることができ、平均誤差が最小となる制御方策を学習することができる。

【0065】

すなわち、本実施形態の機械学習装置１０では、速度影響を考慮して上記式（８）によって表される平均誤差を最小化する制御方策を学習する方法を提供する。

【0066】

そのため、本実施形態では、報酬を下記式（９）で定義する。

【0067】

【数9】

【0068】

上記式（９）によって表される報酬により、上記式（８）は、以下式（１０）によって表される。

【0069】

【数10】

【0070】

上述したように、目標条件付き強化学習は、上記式（１）によって表される割引累積報酬の期待値を最大化する制御方策π（ａ_ｔ｜ｓ_ｔ，ｇ）を学習することを目的とする学習である。このため、上記式（１０）によって表される割引累積報酬の期待値を最大化するためには、時刻ｔ＋ｋの割引率γ^ｋを、下記式（１１）に置き換える必要がある。

【0071】

【数11】

【0072】

よって、本実施形態においては、価値関数Ｖ（ｓ_ｔ，ｇ）のＴＤ学習は、下記式（１２）によって表される更新式により決定される。

【0073】

【数12】

【0074】

また、本実施形態においては、行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ，ｇ）のＴＤ学習は、下記式（１３）によって表される更新式により決定される。

【0075】

【数13】

【0076】

すなわち、本実施形態では、価値関数Ｖ（ｓ_ｔ，ｇ）の更新式である上記式（２）、および行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ，ｇ）の更新式である上記式（３）の割引率γに替えて、割引率γを速度で補正した補正割引率を用いる。補正割引率は、以下式（１４）によって表される。

【0077】

【数14】

【0078】

式（１４）中、ｘ_{（ｔ＋１）}－ｘ_（ｔ）は、時刻ｔの速度ｖ（ｔ）と制御周期δ_Ｔと、を用いてｖ（ｔ）δ_Ｔとして計算することもできる。すなわち、補正割引率は、以下式（１５）で表すこともできる。

【0079】

【数15】

【0080】

また、本実施形態では、観測情報に含まれる制御対象点の速度に応じて報酬を補正した補正報酬として、上記式（９）または上記式（９）の近似計算である例えば下記式（１６）～式（１９）等を用いる。

【0081】

【数16】

【0082】

すなわち、本実施形態の機械学習装置１０では、観測情報に含まれる制御対象点の速度に応じて報酬を補正した補正報酬を用いて、制御方策を強化学習する。補正報酬を用いることで、本実施形態の機械学習装置１０は、平均誤差が最小となる制御方策を学習することができる。

【0083】

【0084】

ここで、目標条件付き強化学習の問題点は、学習初期において目標ｇを達成する行動系列がなかなか得られないため、学習に非常に多くの行動探索が必要になることである。そこで、本実施形態の機械学習装置１０では、更に、目標条件付き強化学習を効率化するため、目標を達成できなかった行動系列の目標を差し替えることにより、目標を達成した行動系列として学習に用いる。例えば、目標ｇの達成に向けて行動系列ａ_０，ａ_１，ａ_２，・・・・ａ_ｔを実行した結果、残念ながら目標ｇは達成されずに別の目標ｇ’を達成してしまったものする。このとき、目標ｇに対して行動系列ａ_０，ａ_１，ａ_２，・・・・ａ_ｔは失敗事例となるが、目標を別の目標ｇ’に差し替えれば成功事例として学習に使うことができる。このように、失敗事例をそのまま失敗事例として学習するだけでなく、目標を差し替えることで成功事例を作り出し、学習に用いることで学習を効率化することができる。

【0085】

このため、本実施形態の機械学習装置１０では、複数の評価指標を目標として設定することで、効率良く制御方策を学習することができる。

【0086】

次に、本実施形態における機械学習装置１０の構成について詳細に説明する。

【0087】

図３は、本実施形態の機械学習装置１０の一例の機能ブロック図である。

【0088】

機械学習装置１０は、通信部１２と、ＵＩ（ユーザ・インターフェース）部１４と、記憶部１６と、を備える。通信部１２、ＵＩ部１４、記憶部１６、および制御部１８は、バス１９などを介して通信可能に接続されている。

【0089】

通信部１２は、ネットワーク等を介して制御対象装置２０等の外部の情報処理装置と通信する。ＵＩ部１４は、表示機能と、入力機能と、を有する。表示機能は、各種の情報を表示する。表示機能は、例えば、ディスプレイ、投影装置、などである。入力機能は、ユーザによる操作入力を受付ける。入力機能は、例えば、マウスおよびタッチパッドなどのポインティングデバイス、キーボード、などである。表示機能と入力機能とを一体的に構成したタッチパネルとしてもよい。記憶部１６は、各種の情報を記憶する。

【0090】

ＵＩ部１４および記憶部１６は、有線または無線で制御部１８に通信可能に接続された構成であればよい。ＵＩ部１４および記憶部１６の少なくとも一方と制御部１８とをネットワーク等を介して接続してもよい。

【0091】

また、ＵＩ部１４および記憶部１６の少なくとも一方は、機械学習装置１０の外部に設けられていてもよい。また、ＵＩ部１４、記憶部１６、および制御部１８に含まれる１または複数の機能部の少なくとも１つを、ネットワーク等を介して機械学習装置１０に通信可能に接続された外部の情報処理装置に搭載した構成としてもよい。

【0092】

制御部１８は、機械学習装置１０において情報処理を実行する。制御部１８は、取得部１８Ａと、学習部１８Ｂと、出力部１８Ｃと、経験データ編集部１８Ｄと、目標設定部１８Ｅと、補正報酬決定部１８Ｆと、補正割引率決定部１８Ｇと、を備える。

【0093】

取得部１８Ａ、学習部１８Ｂ、出力部１８Ｃ、経験データ編集部１８Ｄ、目標設定部１８Ｅ、補正報酬決定部１８Ｆ、および補正割引率決定部１８Ｇは、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（tral Processing Unit）など）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣなどのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

【0094】

取得部１８Ａは、観測情報を取得する。観測情報は、上述したように、制御対象時刻ｔにおける制御対象点の状態を表す情報であり、制御対象時刻ｔにおける制御対象点の速度に関する情報を含む。また、観測情報には、評価指標に対する目標ｇも含まれる。取得部１８Ａは、制御対象装置２０から制御対象時刻ｔごとに順次出力される観測情報を順次取得する。取得部１８Ａは、制御対象時刻ｔの観測情報を取得するごとに、取得した観測情報を学習部１８Ｂへ出力する。

【0095】

学習部１８Ｂは、取得部１８Ａから受付けた制御対象時刻ｔの観測情報に対して、一部データの抽出、スケーリング、クリッピング等の処理を行うことで、該観測情報を、強化学習に用いる状態ｓ_ｔに変換する。観測情報に画像が含まれている場合には、学習部１８Ｂは、画像処理や画像認識処理を行ってもよい。

【0096】

次に、学習部１８Ｂは、取得部１８Ａから受付けた制御対象時刻ｔの観測情報に対して、現在の制御方策π（ａ_ｔ｜ｓ_ｔ，ｇ）を用いて、行動ａ_ｔを決定する。

【0097】

詳細には、学習部１８Ｂは、観測情報から目標ｇを抽出することで、制御方策π（ａ_ｔ｜ｓ_ｔ，ｇ）を特定する。そして、学習部１８Ｂは、確率分布によって表される制御方策π（ａ_ｔ｜ｓ_ｔ，ｇ）に従って、行動ａ_ｔをサンプリングする。学習部１８Ｂは、確率が最大となる行動ａ_ｔを決定してもよい。状態ｓ_ｔと目標ｇから直接行動ａ_ｔを出力するよう制御方策π（ａ_ｔ｜ｓ_ｔ，ｇ）が構成されている場合には、学習部１８Ｂは、状態ｓ_ｔと目標ｇと制御方策π（ａ_ｔ｜ｓ_ｔ，ｇ）とを用いて、直接行動ａ_ｔを決定してもよい。また、学習部１８Ｂは、開始から一定期間は制御方策π（ａ_ｔ｜ｓ_ｔ，ｇ）を使わずに、ランダムに行動ａ_ｔをサンプリングしてもよい。

【0098】

学習部１８Ｂは、これらの処理により決定した行動ａ_ｔを、出力部１８Ｃへ出力する。

【0099】

出力部１８Ｃは、観測情報および制御方策に応じて決定された、制御対象点の速度制御に関する情報を含む制御情報を出力する。詳細には、出力部１８Ｃは、学習部１８Ｂから行動ａ_ｔを受付ける。出力部１８Ｃは、学習部１８Ｂから受付けた行動ａ_ｔにスケーリングなどの処理を行うことで、該行動ａ_ｔを制御情報に変換し、制御対象装置２０に出力する。

【0100】

また、学習部１８Ｂは、学習に用いるデータを経験データとし、記憶部１６に記憶する。詳細には、学習部１８Ｂは、制御対象時刻ｔに対応する経験データとして、目標ｇと、達成された評価指標ｆ（ｘ（ｔ））と、制御対象点の速度ｖ（ｔ）または速度ｘ（ｔ）－ｘ（ｔ－１）と、１制御時刻前の状態ｓ_ｔ－１と、１制御時刻前の行動ａ_ｔ－１と、を含む経験データを、記憶部１６に記憶する。

【0101】

使用する強化学習アルゴリズムにより、学習部１８Ｂは、状態ｓ_ｔ、価値関数の値Ｖ（ｓ_ｔ，ｇ）、行動価値関数の値Ｑ（ｓ_ｔ，ａ_ｔ，ｇ）、行動ａ_ｔ－１の確率値π（ａ_ｔ－１｜ｓ_ｔ－１，ｇ）等を経験データに更に含めて記憶部１６に記憶してもよい。

【0102】

学習部１８Ｂは、更に、一定の頻度で、制御方策π（ａ_ｔ｜ｓ_ｔ，ｇ）、価値関数Ｖ（ｓ_ｔ，ｇ）、および行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ，ｇ）を更新する処理を行う。この更新処理が、学習に相当する。この学習については詳細を後述する。

【0103】

記憶部１６は、学習部１８Ｂから入力された経験データを、予め定められた経験データ数の最大値まで記憶する。制御部１８は、記憶部１６に記憶される経験データが最大値を超えた場合には、古い経験データから廃棄する。

【0104】

学習部１８Ｂが制御方策π（ａ_ｔ｜ｓ_ｔ，ｇ）、価値関数Ｖ（ｓ_ｔ，ｇ）、および行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ，ｇ）の更新処理を行う際には、経験データ編集部１８Ｄは、一定数（Ｍ個）の経験データを記憶部１６からランダムにサンプリングする。Ｍは１以上の整数である。また、経験データ編集部１８Ｄは、サンプリングしたＭ個の経験データの各々に対応する制御対象時刻ｔを基準とし、該基準とした制御対象時刻ｔから予め定めた期間内の他の制御対象時刻ｔ’に対応する他の経験データを、Ｍ個の経験データの各々に対応する周辺の経験データ系列として特定する。

【0105】

そして、経験データ編集部１８Ｄは、サンプリングしたＭ個の経験データと、Ｍ個の経験データの各々に対応する周辺の経験データ系列と、を用いて、学習部１８Ｂが学習に用いる編集済経験データをＭＫ個生成する。Ｋは、１以上の整数である。

【0106】

詳細には、経験データ編集部１８Ｄは、サンプリングしたＭ個の経験データと、Ｍ個の経験データの各々に対応する周辺の経験データ系列とを、目標設定部１８Ｅへ出力する。

【0107】

目標設定部１８Ｅは、取得部１８Ａで取得した観測情報から導出される評価指標ｆ（ｘ（ｔ））を含む第１の経験データ、および該観測情報とは異なる制御対象時刻ｔ’の１または複数の他の観測情報から導出される評価指標ｆ（ｘ（ｔ’））をそれぞれ含む１または複数の第２の経験データ、の群に基づいて、該群に含まれる複数の評価指標から選択した複数の評価指標を、目標ｇ_ｊとして設定する。

【0108】

第１の経験データは、サンプリングしたＭ個の経験データに相当する。第２の経験データは、Ｍ個の経験データの各々に対応する周辺の経験データ系列に相当する。

【0109】

詳細には、目標設定部１８Ｅは、経験データ編集部１８Ｄから受付けたＭ個の経験データの各々に対して、Ｋ個の目標ｇ_ｊを決定する。ｊは、下記式（２０）によって表される。

【0110】

【数17】

【0111】

まず、目標設定部１８Ｅは、Ｍ個の経験データの各々に対して、該経験データに含まれる目標ｇを、目標ｇ_０（ｊ＝０）として設定する。次に、目標設定部１８Ｅは、Ｍ個の経験データの各々に対応する周辺の経験データ系列を構成する経験データである第２の経験データに含まれる評価指標ｆ（ｘ（ｔ’））をランダムにＫ－１個サンプリングし、Ｋ－１個の目標ｇ_ｊ（ｊ＝１，２，．．．，Ｋ－１）を決定する。これらの処理により、目標設定部１８Ｅは、Ｍ個の経験データの各々に対して、Ｋ個の目標ｇ_ｊ（ｊ＝０，１，２，．．．，Ｋ－１）を設定する。

【0112】

目標設定部１８Ｅは、Ｋ－１個の評価指標ｆ（ｘ（ｔ’））サンプリング範囲を、経験データの制御対象時刻ｔより未来の制御対象時刻ｔ’に達成された評価指標ｆ（ｘ（ｔ’））に限定してもよい。

【0113】

また、目標設定部１８Ｅは、第２経験データに含まれる評価指標ｆ（ｘ（ｔ’））からサンプリングしたＫ－１個の評価指標ｆ（ｘ（ｔ’））の各々に、ノイズを加えたノイズ付加評価指標を、Ｋ－１個の目標ｇ_ｊ（ｊ＝１，２，．．．，Ｋ－１）として設定してもよい。ノイズには、ガウス分布や一様分布等の確率分布に従って生成されたノイズを用いればよい。

【0114】

また、目標設定部１８Ｅは、Ｍ個の経験データ（第１の経験データ）の各々に対応する周辺の経験データ系列を構成する経験データである第２の経験データに替えて、Ｍ個の経験データの各々に含まれる評価指標ｆ（ｘ（ｔ））の取りうる範囲内からランダムに選択した値を、Ｋ－１個の目標ｇ_ｊ（ｊ＝１，２，．．．，Ｋ－１）として設定してもよい。

【0115】

なお、目標設定部１８Ｅは、ユーザによって選択された目標選択方法に応じてＫ個の目標ｇ_ｊ（ｊ＝１，２，．．．，Ｋ－１）を設定してもよい。また、目標設定部１８Ｅは、ユーザによって選択された数であるＫ－１個の目標ｇ_ｊ（ｊ＝１，２，．．．，Ｋ－１）をサンプリングしてもよい。

【0116】

例えば、目標設定部１８Ｅは、目標選択方法および目標の選択数の入力を受付けるための表示画面をＵＩ部１４に表示する。

【0117】

図４は、表示画面３０の一例の模式図である。例えば、目標設定部１８Ｅは、表示画面３０をＵＩ部１４に表示する。

【0118】

表示画面３０は、目標選択方法の選択欄と、目標ｇ_ｊの選択数の入力欄と、を含む。

【0119】

目標選択方法には、例えば、「追加なし」、「ランダム」、「未来」、「未来（ノイズ付与）」、等が挙げられる。「追加なし」は、経験データに含まれる目標ｇ以外の新たな目標ｇ_ｊの追加無しを表す。「ランダム」は、ランダムな選択を表す。「未来」は、経験データに対応する制御対象時刻ｔより未来の制御対象時刻ｔ’に対応する第２の経験データに含まれる評価指標ｆ（ｘ（ｔ’））からの選択を表す。「未来（ノイズ付与）」は、未来の制御対象時刻ｔ’に対応する第２の経験データに含まれる評価指標ｆ（ｘ（ｔ’））にノイズを付与することを表す。

【0120】

表示画面３０に含まれる目標ｇ_ｊの選択数の入力欄は、第２の経験データの評価指標から選択するＫ－１個の選択数を表す。

【0121】

ユーザは、表示画面３０を視認しながらＵＩ部１４を操作することで、所望の目標選択方法および目標の選択数を入力する。目標設定部１８Ｅは、表示画面３０を介してユーザによって選択された目標選択方法に応じて、ユーザによって入力されたＫ－１個の目標ｇ_ｊを第２の経験データの評価指標から選択すればよい。

【0122】

例えば、表示画面３０を介して、「追加なし」がユーザによって選択された場面を想定する。この場合、この場合、目標設定部１８Ｅは、Ｍ個の経験データに含まれている目標ｇだけを目標ｇ_ｊとして選択し、それ以外の目標を選択しない。このため、この場合には、強制的にＫ＝１となる。

【0123】

また、「ランダム」がユーザによって選択された場面を想定する。この場合、目標設定部１８Ｅは、Ｍ個の経験データ（第１の経験データ）の各々に対応する周辺の経験データ系列を構成する経験データである第２の経験データの各々に含まれる達成された評価指標ｆ（ｘ（ｔ’））を、ランダムにＫ－１個サンプリングすればよい。そして、目標設定部１８Ｅは、サンプリングした評価指標ｆ（ｘ（ｔ’））を、目標ｊ（ｊ＝１，２，．．．，Ｋ－１）として加えればよい。

【0124】

また、「未来」がユーザによって選択された場面を想定する。この場合、目標設定部１８Ｅは、Ｍ個の経験データ（第１の経験データ）に対して該経験データより未来の制御対象時刻ｔ’の経験データ（第２の経験データ）において達成された評価指標ｆ（ｘ（ｔ’））をランダムにＫ－１個サンプリングすればよい。そして、目標設定部１８Ｅは、サンプリングした評価指標ｆ（ｘ（ｔ’））を、目標ｊ（ｊ＝１，２，．．．，Ｋ－１）として加えればよい。

【0125】

また、「未来（ノイズ付与）」がユーザによって選択された場面を想定する。この場合、目標設定部１８Ｅは、Ｍ個の経験データ（第１の経験データ）に対して該経験データより未来の制御対象時刻ｔ’の経験データ（第２の経験データ）において達成された評価指標ｆ（ｘ（ｔ’））をランダムにＫ－１個サンプリングする。そして、目標設定部１８Ｅは、サンプリングした評価指標ｆ（ｘ（ｔ’））にノイズを加えたノイズ付き評価指標を、目標ｊ（ｊ＝１，２，．．．，Ｋ－１）として加えればよい。ノイズとしては、上述したように、ガウス分布等の確率分布に従って生成したノイズを用いればよい。

【0126】

目標設定部１８Ｅで選択された目標ｇ_ｊが、第１の経験データに含まれる目標ｇに類似する物ばかりである場合には学習効率向上への寄与が低下する。しかし、ノイズ付き評価指標を目標ｊとして加えることで、目標ｇ_ｊの値のバリエーションを増やすことができ、学習効率の向上を図ることができる。

【0127】

また、上述したように、表示画面３０に含まれる目標ｇ_ｊの選択数の入力欄は、第２の経験データの評価指標から選択するＫ－１個の選択数を表す。目標設定部１８Ｅは、表示画面３０を介してユーザによって入力された選択数であるＫ―１個の目標ｇ_ｊを第２の経験データの評価指標から選択することで、Ｋ－１個の目標ｇ_ｊ（ｊ＝１，２，．．．，Ｋ－１）をサンプリングすればよい。

【0128】

図３に戻り説明を続ける。目標設定部１８Ｅによる上記処理によって、Ｍ個の経験データの各々に対して、Ｋ個の目標ｇ_ｊ（ｊ＝０，１，２，．．．，Ｋ－１）が設定される。

【0129】

目標設定部１８Ｅは、Ｍ個の経験データの各々に対して設定したＫ個の目標ｇ_ｊ（ｊ＝０，１，２，．．．，Ｋ－１）、すなわち、ＭＫ個の目標ｇ_ｊを経験データ編集部１８Ｄに出力する。

【0130】

経験データ編集部１８Ｄは、Ｍ個の経験データの各々ごとに、Ｍ個の経験データの各々に含まれる評価指標ｆ（ｘ（ｔ＋１））および速度情報ｖ（ｔ＋１）または速度情報ｘ（ｔ＋１）－ｘ（ｔ）と、目標設定部１８Ｅから受付けたＫ個の目標ｇ_ｊ（ｊ＝０，１，２，．．．，Ｋ－１）と、を補正報酬決定部１８Ｆへ出力する。

【0131】

補正報酬決定部１８Ｆは、観測情報から導出される速度以外の指標の値の評価指標ｆ（ｘ（ｔ＋１））と目標ｇ_ｊとの誤差が小さいほど高い報酬を、観測情報に含まれる制御対象点の速度に応じて補正した補正報酬を決定する。

【0132】

詳細には、補正報酬決定部１８Ｆは、報酬を制御対象点の速度が速いほど低くなるように補正した補正報酬を決定する。

【0133】

本実施形態では、補正報酬決定部１８Ｆは、目標設定部１８Ｅで設定されたＫ個の目標ｇ_ｊ（ｊ＝０，１，２，．．．，Ｋ－１）の各々ごとに、取得した観測情報から導出される評価指標ｆ（ｘ（ｔ＋１））とＫ個の目標ｇ_ｊ（ｊ＝０，１，２，．．．，Ｋ－１）の各々との誤差が小さいほど高い報酬を計算する。そして、補正報酬決定部１８Ｆは、計算した報酬を、観測情報に含まれる制御対象点の速度情報に応じて補正した補正報酬を決定する。

【0134】

具体的には、補正報酬決定部１８Ｆは、経験データ編集部１８Ｄから受付けた、経験データに含まれる評価指標ｆ（ｘ（ｔ＋１））および速度情報ｖ（ｔ＋１）または速度情報ｘ（ｔ＋１）－ｘ（ｔ）と、該経験データに対応するＫ個の目標ｇ_ｊ（ｊ＝０，１，２，．．．，Ｋ－１）と、を用いて、補正報酬を算出する。

【0135】

補正報酬の算出には、上記式（９）または上記式（９）の近似計算である例えば上記式（１６）～式（１９）等を用いる。補正報酬決定部１８Ｆは、目標ｇ_ｊ（ｊ＝０，１，２，．．．，Ｋ－１）の各々と、経験データに含まれる評価指標ｆ（ｘ（ｔ＋１））と、のＬ１距離またはＬ２距離等により、これらの式中のｄ（ｘ（ｔ+１））を算出すればよい。

【0136】

補正報酬決定部１８Ｆは、補正報酬を計算することで、補正報酬を決定する。なお、補正報酬決定部１８Ｆは、上記補正報酬を計算する外部装置等で計算された補正報酬を受付けることで、補正報酬を決定してもよい。

【0137】

補正報酬決定部１８Ｆは、Ｍ個の経験データごとに決定した、Ｋ個の目標ｇ_ｊ（ｊ＝０，１，２，．．．，Ｋ－１）の各々に応じた補正報酬ｒ（ｓ_ｔ，ａ_ｔ，ｇ_ｊ）を、経験データ編集部１８Ｄへ出力する。

【0138】

経験データ編集部１８Ｄは、Ｍ個の経験データの各々ごとに、該経験データに含まれる状態ｓ_ｔ、行動ａ_ｔ、評価指標ｆ（ｘ（ｔ＋１））、および速度情報ｖ（ｔ＋１）または速度情報ｘ（ｔ＋１）－ｘ（ｔ）と、目標設定部１８Ｅから受付けた目標ｇ_ｊと、補正報酬決定部１８Ｆから受付けた該目標ｇ_ｊに応じた補正報酬ｒ（ｓ_ｔ，ａ_ｔ，ｇ_ｊ）と、を含む編集済経験データを生成する。すなわち、経験データ編集部１８Ｄは、１つの経験データに対して、目標ｇに替えてＫ個の目標ｇ_ｊが設定され、該Ｋ個の目標ｇ_ｊの各々応じた補正報酬ｒ（ｓ_ｔ，ａ_ｔ，ｇ_ｊ）が更に設定された、Ｋ個の編集済経験データを生成する。そして、経験データ編集部１８Ｄは、Ｍ個の経験データから生成したＭＫ個の編集済経験データを、学習部１８Ｂへ出力する。

【0139】

学習部１８Ｂは、観測情報および補正報酬ｒ（ｓ_ｔ，ａ_ｔ，ｇ_ｊ）から制御方策π（ａ_ｔ｜ｓ_ｔ，ｇ）を強化学習する。

【0140】

すなわち、学習部１８Ｂは、経験データ編集部１８Ｄから受付けたＭＫ個の編集済経験データを用いて、制御方策π（ａ_ｔ｜ｓ_ｔ，ｇ）、価値関数Ｖ（ｓ_ｔ，ｇ）、および行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ，ｇ）を更新する処理を行う。

【0141】

まず、学習部１８Ｂは、経験データ編集部１８Ｄから受付けたＭＫ個の編集済経験データの各々に含まれる速度情報ｖ（ｔ＋１）または速度情報ｘ（ｔ＋１）－ｘ（ｔ）を、補正割引率決定部１８Ｇへ出力する。

【0142】

補正割引率決定部１８Ｇは、補正報酬の割引率γを観測情報から導出される制御対象点の速度に応じて補正した補正割引率を決定する。詳細には、補正割引率決定部１８Ｇは、制御対象点の速度が速いほど大きく割り引く（すなわち、割引率γの値が小さくなる）ように補正した補正割引率を決定する。

【0143】

具体的には、補正割引率決定部１８Ｇは、速度情報ｖ（ｔ＋１）または速度情報ｘ（ｔ＋１）－ｘ（ｔ）を累乗の指数とした割引率γの累乗を、補正割引率として計算する。すなわち、補正割引率決定部１８Ｇは、制御対象時刻ｔ＋１における補正割引率を、下記式（２１）または式（２２）により計算する。

【0144】

【数18】

【0145】

なお、補正割引率決定部１８Ｇは、入力を受付けた入力速度に対する入力割引率に応じた割引率を、制御対象点の速度に応じて補正した補正割引率を決定してもよい。

【0146】

ユーザは、ＵＩ部１４を操作することで入力割引率を直接入力してもよいが、直感的にどの程度報酬が割り引かれるかがわかりにくい。そこで、補正割引率決定部１８Ｇは、より直観的に入力割引率を設定可能な表示画面をＵＩ部１４に表示することが好ましい。

【0147】

図５Ａは、表示画面３２の一例の模式図である。補正割引率決定部１８Ｇは、表示画面３２をＵＩ部１４に表示する。表示画面３２には、単位時間当たりの移動距離の入力欄、および該移動距離のときの入力割引率の入力欄（表示画面３２では「割引率」と表示されている）が含まれる。図５Ａには、入力速度の入力欄として、単位時間当たりの移動距離の入力欄を一例として示す。しかし、表示画面３２には、単位時間当たりの移動距離の入力欄に替えて、速度の入力欄を設けてもよい。表示画面３２に、入力割引率と共に、単位時間当たりの移動距離または速度などの入力速度の入力欄を設けることで、速度に対してどれだけ報酬が割り引かれるのかがわかるため、ユーザは、より直観的に速度（単位時間当たりの移動距離）に対する所望の割引率を入力することができる。

【0148】

ユーザは、表示画面３２を視認しながらＵＩ部１４を操作することで、単位時間当たりの移動距離と、該移動距離において誤差および報酬が割り引かれる割合である入力割引率と、を入力する。

【0149】

ユーザによるＵＩ部１４の操作指示によって、移動距離Ｘと、該移動距離Ｘに対するユーザ所望の入力割引率Ｇと、が入力された場面を想定する。

【0150】

この場合、補正割引率決定部１８Ｇは、該移動距離Ｘにおける該入力割引率Ｇから、下記式（２３）により割引率γを計算する。

【0151】

【数19】

【0152】

そして、補正割引率決定部１８Ｇは、式（２３）によって計算した割引率γと、上記式（１４）または式（１５）と、を用いて補正割引率を計算すればよい。これらの計算により、補正割引率決定部１８Ｇは、補正割引率を決定する。

【0153】

また、確認のため、補正割引率決定部１８Ｇは、決定した補正割引率と単位時間当たりの移動距離との対応を表す対応情報をＵＩ部１４に表示してもよい。

【0154】

図５Ｂは、表示画面３４の一例の模式図である。例えば、補正割引率決定部１８Ｇは、表示画面３４をＵＩ部１４に表示する。表示画面３４は、補正割引率と移動距離との対応を表す線図ＤＣを含むグラフを対応情報として含む。なお、対応情報は、補正割引率と移動距離との対応を表す情報であればよく、グラフに限定されない。

【0155】

このように、補正割引率決定部１８Ｇは、ユーザによる入力を受付けた入力速度に対する入力割引率に応じた割引率γを、制御対象点の速度に応じて補正した補正割引率を決定してもよい。無人移動体やロボットの環境、レーザー溶接の材料など、制御対象装置２０の条件が変化した場合には、適切な割引率も変化すると考えられる。このため、割引率をユーザによって設定および変更可能とすることで、補正割引率決定部１８Ｇは、制御対象装置２０の条件に応じた補正割引率の決定が可能となる。

【0156】

図３に戻り説明を続ける。補正割引率決定部１８Ｇは、計算した補正割引率を学習部１８Ｂへ出力する。

【0157】

学習部１８Ｂは、経験データ編集部１８Ｄから受付けたＭＫ個の編集済経験データ、および補正割引率決定部１８Ｇから受付けた補正割引率を用いて、制御方策π（ａ_ｔ｜ｓ_ｔ，ｇ）、価値関数Ｖ（ｓ_ｔ，ｇ）、および行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ，ｇ）を更新(学習)する処理を行う。

【0158】

方策オン型と呼ばれる強化学習アルゴリズムを用いる場合、学習部１８Ｂは、一定数の経験データが記憶部１６に記憶されたタイミング、または、ドローンの飛行や溶接が終了したタイミング等のタイミングで、上述した経験データのサンプリングを行い、経験データに基づいて生成された編集済経験データを用いて、更新処理を行ってよい。

【0159】

一方、方策オフ型と呼ばれる強化学習アルゴリズムを用いる場合、学習部１８Ｂは、毎回もしくは数回に一回の割合で一定数の経験データを記憶部１６からサンプリングし、経験データに基づいて生成された編集済経験データを用いて、更新処理を行ってよい。方策オフ型の場合には、予め定められた経験データ数の最大値となるまで記憶部１６に経験データを記憶し、最大値を超えた場合には古い経験データから廃棄してよい。

【0160】

学習部１８Ｂは、制御方策π（ａ_ｔ｜ｓ_ｔ，ｇ）、価値関数Ｖ（ｓ_ｔ，ｇ）、および行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ，ｇ）の更新には、任意の強化学習アルゴリズムを使うことができる。本実施形態では、学習部１８Ｂは、割引率γに替えて、補正割引率決定部１８Ｇから受付けた補正割引率を用いて、これらの更新処理を行うことが好ましい。例えば、ＴＤ学習により価値関数Ｖ（ｓ_ｔ，ｇ）および行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ，ｇ）の少なくとも一方を学習する場合には、学習部１８Ｂは、上記式（２）および式（３）を用いて価値関数Ｖ（ｓ_ｔ，ｇ）および行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ，ｇ）を更新すればよい。

【0161】

学習部１８Ｂは、割引率γに替えて補正割引率を用いる点以外は、使用する強化学習アルゴリズムに沿って処理を行えばよい。

【0162】

次に、本実施形態の機械学習装置１０が実行する情報処理の流れの一例を説明する。

【0163】

図６は、本実施形態の機械学習装置１０が実行する情報処理の流れの一例を示すフローチャートである。

【0164】

取得部１８Ａが、制御対象装置２０から制御対象時刻ｔの観測情報を取得する（ステップＳ１００）。

【0165】

学習部１８Ｂは、ステップＳ１００で取得した観測情報から状態ｓ_ｔおよび目標ｇを算出し、行動ａ_ｔを決定する（ステップＳ１０２）。出力部１８Ｃは、ステップＳ１０２で決定した行動ａ_ｔを制御情報に変換し、制御対象装置２００に出力する（ステップＳ１０４）。

【0166】

学習部１８Ｂは、ステップＳ１００で取得した制御対象時刻ｔの観測情報に応じたデータを記憶部１６に記憶する（ステップＳ１０６）。上述したように、経験データは、目標ｇと、達成された評価指標ｆ（ｘ（ｔ））と、制御対象点の速度情報である速度ｖ（ｔ）または速度（１制御周期を単位とする単位時間あたりの移動距離によって表される速度）ｘ（ｔ）－ｘ（ｔ－１）、および１制御時刻前の状態ｓ_ｔ－１と、行動ａ_ｔ－１と、を含む。

【0167】

学習部１８Ｂは、学習を実行するタイミングであるか否かを判断する（ステップＳ１０８）。すなわち、学習部１８Ｂは、制御方策π（ａ_ｔ｜ｓ_ｔ，ｇ）、価値関数Ｖ（ｓ_ｔ，ｇ）、および行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ，ｇ）の更新処理を行うタイミングであるか否を判断する。例えば、学習部１８Ｂは、一定の制御対象時刻ごとに更新処理を実行する。このため、学習部１８Ｂは、前回の学習実行から一定の制御対象時刻分の期間を経過したか否かを判別することで、ステップＳ１０８の判断を行う。

【0168】

ステップＳ１０８で否定判断すると（ステップＳ１０８：Ｎｏ）、ステップＳ１１０へ進む。ステップＳ１１０では、制御部１８は処理を終了するか否かを判断する（ステップＳ１１０）。ステップＳ１１０で肯定判断すると（ステップＳ１１０：Ｙｅｓ）、本ルーチンを終了する。ステップＳ１１０で否定判断すると（ステップＳ１１０：Ｎｏ）、上記ステップＳ１００へ戻る。

【0169】

一方、学習部１８Ｂが学習を実行するタイミングであると判断すると（ステップＳ１０８：Ｙｅｓ）、ステップＳ１１２へ進む。

【0170】

ステップＳ１１２では、経験データ編集部１８Ｄは、一定数（Ｍ個）の経験データを記憶部１６からランダムにサンプリングすることで、Ｍ個の経験データを取得する（ステップＳ１１２）。経験データ編集部１８Ｄは、サンプリングしたＭ個の経験データと、Ｍ個の経験データの各々に対応する周辺の経験データ系列とを、目標設定部１８Ｅへ出力する。

【0171】

目標設定部１８Ｅは、ステップＳ１１２で取得したＭ個の経験データである第１の経験データと、Ｍ個の経験データの各々に対応する周辺の経験データ系列を構成する第２の経験データと、の群に基づいて、該群に含まれる複数の評価指標から選択したＫの評価指標を、Ｋ個の目標ｇ_ｊ（ｊ＝０，１，２，．．．，Ｋ－１）として設定する（ステップＳ１１４）。

【0172】

【0173】

補正報酬決定部１８Ｆは、ステップＳ１１２で取得した経験データに含まれる評価指標ｆ（ｘ（ｔ＋１））および速度情報ｖ（ｔ＋１）または速度情報ｘ（ｔ＋１）－ｘ（ｔ）と、該経験データに対応するステップ１１４で設定されたＫ個の目標ｇ_ｊ（ｊ＝０，１，２，．．．，Ｋ－１）と、を用いて、補正報酬ｒ（ｓ_ｔ，ａ_ｔ，ｇ_ｊ）を決定する（ステップＳ１１６）。

【0174】

経験データ編集部１８Ｄは、Ｍ個の経験データの各々ごとに、該経験データに含まれる状態ｓ_ｔ、行動ａ_ｔ、評価指標ｆ（ｘ（ｔ＋１））、および速度情報ｖ（ｔ＋１）または速度情報ｘ（ｔ＋１）－ｘ（ｔ）と、目標設定部１８Ｅから受付けた目標ｇ_ｊと、補正報酬決定部１８Ｆから受付けた該目標ｇ_ｊに応じた補正報酬ｒ（ｓ_ｔ，ａ_ｔ，ｇ_ｊ）と、を含む編集済経験データを生成する。そして、経験データ編集部１８Ｄは、Ｍ個の経験データから生成したＭＫ個の編集済経験データを、学習部１８Ｂへ出力する。学習部１８Ｂは、経験データ編集部１８Ｄから受付けたＭＫ個の編集済経験データの各々に含まれる速度情報ｖ（ｔ＋１）または速度情報ｘ（ｔ＋１）－ｘ（ｔ）を、補正割引率決定部１８Ｇへ出力する。

【0175】

補正割引率決定部１８Ｇは、学習部１８Ｂから受付けた速度情報ｖ（ｔ＋１）または速度情報ｘ（ｔ＋１）－ｘ（ｔ）を累乗の指数とした割引率γの累乗を、補正割引率として決定する（ステップＳ１１８）。

【0176】

学習部１８Ｂは、経験データ編集部１８Ｄから受付けたＭＫ個の編集済経験データ、および補正割引率決定部１８Ｇから受付けた補正割引率を用いて、制御方策π（ａ_ｔ｜ｓ_ｔ，ｇ）、価値関数Ｖ（ｓ_ｔ，ｇ）、および行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ，ｇ）を更新(学習)する処理を行う（ステップＳ１２０）。そして、上記ステップＳ１１０へ進む。

【0177】

以上説明したように、本実施形態の機械学習装置１０は、取得部１８Ａと、出力部１８Ｃと、補正報酬決定部１８Ｆと、学習部１８Ｂと、を備える。取得部１８Ａは、制御対象時刻における制御対象点の速度に関する情報を含む観測情報を取得する。出力部１８Ｃは、観測情報および制御方策に応じて決定された、制御対象点の速度制御に関する情報を含む制御情報を出力する。補正報酬決定部１８Ｆは、観測情報から導出される速度以外の指標の値の評価指標と目標との誤差が小さいほど高い報酬を、観測情報に含まれる制御対象点の速度に応じて補正した補正報酬を決定する。学習部１８Ｂは、観測情報および補正報酬から制御方策を強化学習する。

【0178】

このように、本実施形態の機械学習装置１０は、観測情報に含まれる制御対象点の速度に応じて報酬を補正した補正報酬を用いて、制御方策を強化学習する。速度に応じて補正された補正報酬を用いることで、本実施形態の機械学習装置１０は、速度制御を含む制御対象点の目標に対する平均誤差が最小となる制御方策を学習することができる。

【0179】

従って、本実施形態の機械学習装置１０は、速度制御を含む制御対象点の目標に対する平均誤差の最小化を図ることができる。

【0180】

【0181】

また、本実施形態の機械学習装置１０は、更に、目標設定部１８Ｅを含む。目標設定部１８Ｅは、取得した観測情報から導出される評価指標を含む第１の経験データ、および該観測情報とは制御対象時刻の異なる１または複数の他の観測情報から導出される評価指標をそれぞれ含む１または複数の第２の経験データ、の群に基づいて、該群に含まれる複数の評価指標から選択したＫ個の評価指標を、Ｋ個の目標ｇ_ｊとして設定する。

【0182】

そして、補正報酬決定部１８Ｆは、設定されたＫ個の目標ｇ_ｊの各々ごとに、取得した観測情報から導出される評価指標とＫ個の目標ｇ_ｊの各々との誤差が小さいほど高い報酬を、制御対象点の速度に応じて補正した補正報酬を決定する。そして、学習部１８Ｂは、目標設定部１８Ｅから受付けた目標ｇ_ｊと、補正報酬決定部１８Ｆから受付けた該目標ｇ_ｊに応じた補正報酬ｒ（ｓ_ｔ，ａ_ｔ，ｇ_ｊ）と、を含む編集済経験データに基づいて強化学習を行う。

【0183】

このため、学習部１８Ｂは、行動ａ_ｔを決定する際に設定されていた目標ｇだけではなく、結果的に達成された評価指標を目標ｇ_ｊとした編集済経験データを学習に用いることができる。このため、本実施形態の機械学習装置１０は、上記効果に加えて、学習効率を大幅に高めることができる。

【0184】

（変形例）
なお、上記実施形態では、制御部１８が、目標設定部１８Ｅと、補正割引率決定部１８Ｇと、を備えた構成である形態を一例として説明した。しかし、制御部１８は、目標設定部１８Ｅおよび補正割引率決定部１８Ｇの少なくとも一方を備えない構成であってもよい。

【0185】

目標設定部１８Ｅを備えない構成の場合、補正報酬決定部１８Ｆは、Ｋ個の目標ｇ_ｊ（ｊ＝０，１，２，．．．，Ｋ－１）に替えて、経験データ編集部１８Ｄで取得したＭ個の経験データの各々に含まれる目標ｇを用いて、Ｍ個の経験データの各々ごとに補正報酬を決定すればよい。

【0186】

また、補正割引率決定部１８Ｇを備えない構成の場合、学習部１８Ｂは、補正割引率に替えて、補正前の割引率である割引率γを用いて、制御方策π（ａ_ｔ｜ｓ_ｔ，ｇ）、価値関数Ｖ（ｓ_ｔ，ｇ）、および行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ，ｇ）を更新(学習)する処理を行えばよい。詳細には、この場合、学習部１８Ｂは、価値関数Ｖ（ｓ_ｔ，ｇ）および行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ，ｇ）の更新に、上記式（２）および式（３）を用いればよい。これは、上記式（１２）および式（１３）をそれぞれ上記式（２）および式（３）に代用して近似する方法であり、速度の変化が少ない場合に有効である。この方法は、既存の強化学習処理がそのまま適用できるという利点がある。

【0187】

次に、上記実施形態の機械学習装置１０のハードウェア構成の一例を説明する。

【0188】

図７は、上記実施形態の機械学習装置１０の一例のハードウェア構成図である。

【0189】

上記実施形態の機械学習装置１０は、ＣＰＵ（Central Processing Unit）９０Ｂなどの制御装置と、ＲＯＭ（Read Only Memory）９０ＣやＲＡＭ（Random Access Memory）９０ＤやＨＤＤ（ハードディスクドライブ）９０Ｅなどの記憶装置と、各種機器とのインターフェースであるＩ／Ｆ部９０Ａと、各部を接続するバス９０Ｆとを備えており、通常のコンピュータを利用したハードウェア構成となっている。

【0190】

上記実施形態の機械学習装置１０では、ＣＰＵ９０Ｂが、ＲＯＭ９０ＣからプログラムをＲＡＭ９０Ｄ上に読み出して実行することにより、上記各部がコンピュータ上で実現される。

【0191】

なお、上記実施形態の機械学習装置１０で実行される上記各処理を実行するためのプログラムは、ＨＤＤ９０Ｅに記憶されていてもよい。また、上記実施形態の機械学習装置１０で実行される上記各処理を実行するためのプログラムは、ＲＯＭ９０Ｃに予め組み込まれて提供されていてもよい。

【0192】

また、上記実施形態の機械学習装置１０で実行される上記処理を実行するためのプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ、ＣＤ－Ｒ、メモリカード、ＤＶＤ（Digital Versatile Disc）、フレキシブルディスク（ＦＤ）等のコンピュータで読み取り可能な記憶媒体に記憶されてコンピュータプログラムプロダクトとして提供されるようにしてもよい。また、上記実施形態の機械学習装置１０で実行される上記処理を実行するためのプログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するようにしてもよい。また、上記実施形態の機械学習装置１０で実行される上記処理を実行するためのプログラムを、インターネットなどのネットワーク経由で提供または配布するようにしてもよい。

【0193】

なお、上記には、本発明の実施形態を説明したが、上記実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0194】

１０機械学習装置
１４ＵＩ部
１８Ａ取得部
１８Ｂ学習部
１８Ｃ出力部
１８Ｅ目標設定部
１８Ｆ補正報酬決定部
１８Ｇ補正割引率決定部
２０制御対象装置

【図1】