IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

<>
  • 特開-学習装置、学習方法、及び、記録媒体 図1
  • 特開-学習装置、学習方法、及び、記録媒体 図2
  • 特開-学習装置、学習方法、及び、記録媒体 図3
  • 特開-学習装置、学習方法、及び、記録媒体 図4
  • 特開-学習装置、学習方法、及び、記録媒体 図5
  • 特開-学習装置、学習方法、及び、記録媒体 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024069862
(43)【公開日】2024-05-22
(54)【発明の名称】学習装置、学習方法、及び、記録媒体
(51)【国際特許分類】
   G06N 20/00 20190101AFI20240515BHJP
【FI】
G06N20/00
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2022180115
(22)【出願日】2022-11-10
(71)【出願人】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100107331
【弁理士】
【氏名又は名称】中村 聡延
(74)【代理人】
【識別番号】100104765
【弁理士】
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100131015
【弁理士】
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】中口 悠輝
(72)【発明者】
【氏名】窪田 大
(57)【要約】
【課題】強化学習における方策の模倣学習において、生徒モデルの最適方策を学習可能とする。
【解決手段】学習装置において、取得手段は、行動の実行結果として、次の状態と報酬とを取得する。算出手段は、次の状態と教師モデルの状態価値関数とを用いて、次の状態の状態価値を算出する。生成手段は、状態価値から成形報酬を生成する。方策更新手段は、成形報酬と、学習対象である生徒モデルの割引因子とを用いて、生徒モデルの方策を更新する。パラメータ更新手段は、割引因子を更新する。
【選択図】図4
【特許請求の範囲】
【請求項1】
行動の実行結果として、次の状態と報酬とを取得する取得手段と、
次の状態と教師モデルの状態価値関数とを用いて、次の状態の状態価値を算出する算出手段と、
前記状態価値から成形報酬を生成する生成手段と、
前記成形報酬と、学習対象である生徒モデルの割引因子とを用いて、生徒モデルの方策を更新する方策更新手段と、
前記割引因子を更新するパラメータ更新手段と、
を備える学習装置。
【請求項2】
前記生徒モデルの目的関数はエントロピー正則化項を含み、
前記エントロピー正則化項は、正則化の程度を示す係数である逆温度を含み、
前記方策更新手段は、前記成形報酬と、前記割引因子と、前記逆温度とを用いて前記生徒モデルの方策を更新し、
前記パラメータ更新手段は、前記逆温度を更新する請求項1に記載の学習装置。
【請求項3】
前記パラメータ更新手段は、前記割引因子を、予め決められた真の値に近づけるように更新する請求項1に記載の学習装置。
【請求項4】
前記生成手段は、前記割引因子として前記真の値を用いて成形報酬を生成する請求項3に記載の学習装置。
【請求項5】
コンピュータにより実行され、
行動の実行結果として、次の状態と報酬とを取得し、
次の状態と教師モデルの状態価値関数とを用いて、次の状態の状態価値を算出し、
前記状態価値から成形報酬を生成し、
前記成形報酬と、学習対象である生徒モデルの割引因子とを用いて、生徒モデルの方策を更新し、
前記割引因子を更新する学習方法。
【請求項6】
行動の実行結果として、次の状態と報酬とを取得し、
次の状態と教師モデルの状態価値関数とを用いて、次の状態の状態価値を算出し、
前記状態価値から成形報酬を生成し、
前記成形報酬と、学習対象である生徒モデルの割引因子とを用いて、生徒モデルの方策を更新し、
前記割引因子を更新する処理をコンピュータに実行させるプログラムを記録した記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、強化学習における模倣学習に関する。
【背景技術】
【0002】
強化学習において、方策の学習に模倣学習を用いる手法が提案されている。模倣学習は、方策を学習する技術である。方策とは、ある状態に対して、次の行動を決定するモデルである。模倣学習の中でも、インタラクティブ模倣学習は、行動データではなく、教師モデルを参考にして方策の学習を行う。インタラクティブ模倣学習としてはいくつかの手法が提案されており、例えば、教師の方策を教師モデルとして用いる手法や、教師の価値関数を教師モデルとして用いる手法がある。また、教師の価値関数を教師モデルとして用いる手法においても、価値関数として、状態の関数である状態価値を用いる手法や、状態と行動の関数である行動価値を用いる手法がある。
【0003】
インタラクティブ模倣学習の一例として、非特許文献1は、期待割引報酬和を計算する際、特定の報酬を切り捨てるパラメータkを導入し、教師モデルを用いて同時に報酬成形を行うことで方策を学習する手法を提案している。
【先行技術文献】
【特許文献】
【0004】
【非特許文献1】Wen Sun, J. Andrew Bagnell, Byron Boots, "Truncated Horizon Policy Search: Combining Reinforcement Learning & Imitation Learning”, ICLR 2018
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、非特許文献1の手法では、方策の模倣学習において、最適な生徒モデルを学習することができないという課題がある。また、パラメータkが離散変数であるため、パラメータkを適切に調整するためには演算コストが大きくなってしまうという課題もある。
【0006】
本開示の1つの目的は、強化学習における方策のインタラクティブ模倣学習において、生徒モデルの最適方策を学習可能とすることにある。
【課題を解決するための手段】
【0007】
本開示の一つの観点では、学習装置は、
行動の実行結果として、次の状態と報酬とを取得する取得手段と、
次の状態と教師モデルの状態価値関数とを用いて、次の状態の状態価値を算出する算出手段と、
前記状態価値から成形報酬を生成する生成手段と、
前記成形報酬と、学習対象である生徒モデルの割引因子とを用いて、生徒モデルの方策を更新する方策更新手段と、
前記割引因子を更新するパラメータ更新手段と、
を備える。
【0008】
本開示の他の観点では、学習方法は、コンピュータにより実行され、
行動の実行結果として、次の状態と報酬とを取得し、
次の状態と教師モデルの状態価値関数とを用いて、次の状態の状態価値を算出し、
前記状態価値から成形報酬を生成し、
前記成形報酬と、学習対象である生徒モデルの割引因子とを用いて、生徒モデルの方策を更新し、
前記割引因子を更新する。
【0009】
本開示のさらに他の観点では、記録媒体は、
行動の実行結果として、次の状態と報酬とを取得し、
次の状態と教師モデルの状態価値関数とを用いて、次の状態の状態価値を算出し、
前記状態価値から成形報酬を生成し、
前記成形報酬と、学習対象である生徒モデルの割引因子とを用いて、生徒モデルの方策を更新し、
前記割引因子を更新する処理をコンピュータに実行させるプログラムを記録する。
【発明の効果】
【0010】
本開示によれば、強化学習における方策の模倣学習において、生徒モデルの最適方策を学習することが可能となる。
【図面の簡単な説明】
【0011】
図1】第1実施形態に係る学習装置のハードウェア構成を示すブロック図である。
図2】第1実施形態に係る学習装置の機能構成を示すブロック図である。
図3】学習装置による生徒モデルの学習を模式的に示す図である。
図4】学習装置による生徒モデル学習処理のフローチャートである。
図5】第2実施形態の学習装置の機能構成を示すブロック図である。
図6】第2実施形態の学習装置による処理のフローチャートである。
【発明を実施するための形態】
【0012】
以下、図面を参照して、本開示の好適な実施形態について説明する。
<原理説明>
(1)模倣学習
強化学習の問題において、模倣学習は、お手本である教師モデルからの情報を活用して、方策を求める生徒モデルを学習する。この場合、教師モデルは、人間や動物、アルゴリズム等何でもよい。模倣学習の典型的手法である行動クローニングは、教師モデルの状態や行動の履歴データのみを使うため、データが少ない又は無い状態に弱い。このため、学習した生徒モデルを実際に動かしてみると、教師モデルとのずれが時間とともに増幅してしまい、短期的な問題にしか利用できない。
【0013】
インタラクティブ模倣学習は、教師の履歴データの代わりに、教師モデルからのオンラインフィードバックを学習中の生徒に与えることにより、上記の問題を解決するものである。インタラクティブ模倣学習の例としては、DAgger、AggreVaTe、AggreVaTeDなどが挙げられる。これらのインタラクティブ模倣学習を以下「既存のインタラクティブ模倣学習」と呼ぶ。既存のインタラクティブ模倣学習では、学習したい生徒モデルの最適方策が教師モデルからずれている場合、生徒モデルの最適方策を学習することはできない。
【0014】
(2)用語説明
以下、本実施形態の手法を説明するに先立ち、関連する用語を説明しておく。
(2-1)強化学習の目的関数と最適方策
強化学習の目的関数としては、典型的には式(1)に示す期待割引報酬和J[π]が使用される。
【0015】
【数1】
式(1)において、以下の報酬関数rは、状態sにおいて行動aが行われたときに得られる報酬rの期待値である。
【0016】
【数2】
また、以下の割引因子γは、未来の報酬値を現在で評価する際に値を割り引く係数である。
【0017】
【数3】
また、以下に示す最適方策は、目的関数Jを最大化する方策である。
【0018】
【数4】
【0019】
(2-2)価値関数
価値関数とは、目的関数J[π]を初期状態sや初期行動aの関数として捉えたものである。価値関数は、その状態や行動を取った場合に将来得られる期待割引報酬和を表す。状態価値関数及び行動価値関数は以下の式(2)、(3)で表される。なお、後述するように、目的関数J[π]にエントロピー正則化を導入した場合の状態価値関数及び行動価値関数は、以下の式(2x)、(3x)で表される。
【0020】
【数5】
また、最適価値関数は、以下の式により得られる。
【数6】
【0021】
(2-3)報酬成形
報酬成形とは、状態sの任意の関数Φ(s)(「ポテンシャル」と呼ぶ。)を用いて報酬関数を変換しても、目的関数Jが定数しかずれず、最適方策πが変わらないことを利用して学習を加速させる手法である。報酬関数の変形式を以下に示す。ポテンシャルΦ(s)が最適状態価値関数V(s)に近いほど学習を加速させることができる。
【0022】
【数7】
(3)THORの手法
既存のインタラクティブ模倣学習より進んだインタラクティブ模倣学習の一例が以下の文献(非特許文献1)に記載されている。この文献の手法を、以下「THOR(Truncated HORizon Policy Search)」と呼ぶ。なお、この文献を参照として本明細書に取り込む。
Wen Sun, J. Andrew Bagnell, Byron Boots, "Truncated Horizon Policy Search: Combining Reinforcement Learning & Imitation Learning”, ICLR 2018
【0023】
THORでは、強化学習における目的関数を以下のように定義する。
【数8】
THORは、目的関数の時間和をある有限値k(「ホライゾン」と呼ぶ。)で打ち切る点、及び、教師モデルの状態価値関数VをポテンシャルΦとして報酬成形する点に特徴を有する。
【0024】
目的関数の時間和を有限値で打ち切らない場合、即ち、ホライゾンk=∞の場合、得られる最適方策は生徒モデルの最適方策と一致する。しかし、目的関数の時間和を有限のホライゾンk<∞で打ち切る場合、報酬成形が目的関数を変え、最適方策が生徒の最適からずれてしまう。特に、THORでは、ホライゾンk=0で報酬成形すると、既存のインタラクティブ模倣学習(AggreVaTeD)の目的関数となることが示されている。
【0025】
また、THORでは、ホライゾンkを0と無限大の中間の値0<k<∞として報酬成形された目的関数を使えば、ホライゾンkが大きいほど、最適方策が既存のインタラクティブ模倣学習(k=0)から強化学習(k=∞と同等)へ、つまり生徒の最適方策へと近づくことが示されている。
【0026】
また、THORでは、ホライゾンk(即ち、何ステップ先まで考慮するか)が小さいほど学習が簡単なので、既存のインタラクティブ模倣学習(k=0)と同様に、強化学習(k=∞と同等)よりも学習が簡単になる。
【0027】
THORではホライゾンk>0であるので、既存のインタラクティブ模倣学習(k=0)とは異なり、最適方策を生徒の最適方策に近づけることはできる。しかし、ホライゾンkは学習中は固定されていて動かすことができず、k<∞のままなので、最適方策を生徒の最適方策に近づけることはできても生徒の最適方策に到達させることはできない。
【0028】
具体的に、THORの最適方策
【0029】
【数9】
は、生徒の最適方策
【0030】
【数10】
よりも目的関数Jの値が
【0031】
【数11】
だけ低い。なお、「ε」は、教師の価値Vと生徒の最適価値Vとの差であり、以下の式で表される。
【0032】
【数12】
【0033】
よって、ホライゾンkが大きいほどΔJが0に近づき、最適方策が生徒の最適方策に近づくが、教師の価値関数が生徒の最適価値関数と一致(ε=0)していない限り、THORの最適方策π は生徒の最適方策πよりΔJだけ性能が低いことになる。
【0034】
THORでは、ホライゾンkが大きいほど最適方策を生徒の最適方策に近づけることができる一方、学習が難しくなる。よって、THORの最適方策を生徒の最適方策に到達させるためには、ホライゾンkを変えてゼロから学習し直すことを繰り返して問題ごとに適したホライゾンkを見つける必要があり、データ量や演算量が膨大になってしまうという課題がある。
【0035】
詳しくは、ホライゾンkは離散的なパラメータであるので連続的に変更することができない。ホライゾンkを変更するたびに目的関数や最適価値関数が大きく変わってしまう。THORや強化学習などの最適方策を学習するアルゴリズムの多くは最適価値関数の推定や目的関数の勾配の推定に基づくため、学習中にホライゾンkを変更することができない。
【0036】
(4)本実施形態の手法
本開示に係る発明者等は、THORと同様に教師の状態価値関数VをポテンシャルΦとして報酬成形するとき、ホライゾンkを∞から0に下げる代わりに、割引因子γを真の値(以下、「γ」とする。)から0に下げても、既存のインタラクティブ模倣学習の目的関数になることを発見した。
【0037】
よって、本実施形態の手法では、THORのように目的関数の時間和を有限のホライゾン0<k<∞で打ち切る代わりに、割引因子0<γ<γを使って、最適方策を生徒の最適方策に近づける。具体的に、本実施形態の手法では、以下の目的関数を用いる。
【0038】
【数13】
【0039】
また、本実施形態の手法では、報酬成形において以下の変換式(式(4))を用いる。ただし、報酬成形の一般論に従い、実用上、状態s’に関する期待値は、状態s’での実現値で代用する。なお、上記の目的関数では割引因子γを使用するが、式(4)に示す報酬成形の変換式では真の割引因子γを用いる点に留意を要する。
【数14】
【0040】
本実施形態の手法では、割引因子γが大きいほど、最適方策が既存のインタラクティブ模倣学習(γ=0)から強化学習(γ=∞と同等)へ、つまり生徒の最適方策へと近づくことを証明できる。これは、最適方策
【0041】
【数15】
は生徒の最適方策
【0042】
【数16】
よりも目的関数Jの値が
【0043】
【数17】
だけ低いが、割引因子γを真の割引因子γに到達させる(γ→γ)ことにより、ΔJをゼロにする(ΔJ→0)ことができるからである。
【0044】
THORにおけるホライゾンkと同様に、割引因子γも小さいほど学習が簡単である。よって、本実施形態の手法は、既存のインタラクティブ模倣学習(γ=0)と同様に、強化学習(γ=γと同等)よりも学習が簡単である。さらに、割引因子γは連続的なパラメータであり、学習を安定させながら学習中に割引因子γを連続的に変更することができるので、THORのようにホライゾンkを変えるたびにゼロから学習し直す必要は生じない。
【0045】
本実施形態の手法では、最大エントロピー強化学習を適用することができる。最大エントロピー強化学習とは、目的関数にエントロピー正則化を足し、学習を改善する手法である。具体的に、目的関数は以下で表される。
【0046】
【数18】
なお、状態sでの方策πのエントロピーは以下で表される。
【0047】
【数19】
エントロピーは乱雑なほど大きいので、方策がより幅広い行動を取るようになる。逆温度βは、正則化の弱さを指定するハイパーパラメータであり、β∈[0,∞]である。逆温度β=∞で正則化なしとなる。
【0048】
エントロピー正則化の適用により、学習をより安定させることができる。割引因子γを0から真の割引因子γへ連続的に上げていくことで、学習を安定させながら強化学習の目的関数へ移動でき、生徒の最適方策に到達することができる。本実施形態の手法は、THORのように問題ごとに適したホライゾンkを見つける必要もなく、THORの上位互換になっていると言える。なお、本実施形態の手法において、エントロピー正則化の適用は任意であり、必須ではない。
【0049】
本実施形態の手法では、割引因子γが微小変化しても目的変数や最適価値関数は微小しか変化しないことを示すことができる。さらに、以下の式に表すように、エントロピー正則化を適用することで、割引因子γを変化させても最適方策は微小しか変化しないことを示すことができる。
【数20】
よって、学習を安定させながら、学習中に割引因子γを連続的に変えることができる。
【0050】
また、本実施形態の手法では、逆温度βが微小変化しても目的関数や最適価値関数、最適方策が微小しか変化しないことを示せるので、学習を安定させながら学習中に連続的に逆温度βを連続的に変えて、エントロピー正則化を導入したり除去したりすることができる。よって、学習の安定化のためにエントロピー正則化を導入する場合でも、もし最終的にエントロピー正則化なしの最適方策が欲しければ、エントロピー正則化ありで割引因子γを真の割引因子γに上げた後にエントロピー正則化を除去すればよい。
【0051】
<第1実施形態>
次に、第1実施形態に係る学習装置について説明する。第1実施形態に係る学習装置100は、上述した手法を用いて生徒モデルを学習する装置である。
【0052】
[ハードウェア構成]
図1は、第1実施形態に係る学習装置100のハードウェア構成を示すブロック図である。図示のように、学習装置100は、インタフェース(I/F)11と、プロセッサ12と、メモリ13と、記録媒体14と、データベース(DB)15と、を備える。
【0053】
I/F11は、外部装置との間でデータの入出力を行う。例えば、本実施形態の強化学習によるエージェントを自動運転車両に適用する場合、I/F11は、車両に取り付けられた各種のセンサの出力などを環境における状態として取得し、車両の走行を制御する各種のアクチュエータに対して行動を出力する。
【0054】
プロセッサ12は、CPU(Central Processing Unit)などのコンピュータであり、予め用意されたプログラムを実行することにより学習装置100の全体を制御する。なお、プロセッサ12は、GPU(Graphics Processing Unit)またはFPGA(Field-Programmable Gate Array)であってもよい。プロセッサ12は、後述する生徒モデル学習処理を実行する。
【0055】
メモリ13は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ13は、プロセッサ12による各種の処理の実行中に作業メモリとしても使用される。
【0056】
記録媒体14は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、学習装置100に対して着脱可能に構成される。記録媒体14は、プロセッサ12が実行する各種のプログラムを記録している。学習装置100が各種の処理を実行する際には、記録媒体14に記録されているプログラムがメモリ13にロードされ、プロセッサ12により実行される。
【0057】
DB15は、学習装置100が学習に使用するデータを記憶する。例えば、DB15には、学習に使用される教師モデルに関連するデータが記憶される。また、DB15には、I/F11を通じて入力された、対象となる環境の状態を示すセンサ出力などのデータが記憶される。
【0058】
(機能構成)
図2は、第1実施形態に係る学習装置100の機能構成を示すブロック図である。学習装置100は、機能的には、状態・報酬取得部21と、状態価値算出部22と、報酬成形部23と、方策更新部24と、パラメータ更新部25と、を備える。
【0059】
(学習方法)
図3は、学習装置100による生徒モデルの学習を模式的に示す図である。図示のように、学習装置100は、環境及び教師モデルとの相互作用により生徒モデルを学習する。基本的な動作として、学習装置100は、現在の生徒モデルの方策πに基づいて行動aを生成して環境へ入力する。そして、学習装置100は、その行動に対する状態sと報酬rとを環境から取得する。次に、学習装置100は、環境から取得した状態sを教師モデルに入力し、教師モデルから教師の状態価値Vを取得する。そして、学習装置100は、取得した教師の状態価値Vを用いて方策πを更新する。学習装置100は、所定の学習終了条件が具備されるまで、この処理を繰り返し実行する。
【0060】
(生徒モデル学習処理)
図4は、学習装置100による生徒モデル学習処理のフローチャートである。この処理は、図1に示すプロセッサ12が予め用意されたプログラムなどを実行し、図2に示す各要素として動作することにより実現される。
【0061】
まず、状態・報酬取得部21は、その時点の方策πに基づいて行動aを生成して環境に入力し、環境から次の状態st+1と報酬rとを取得する(ステップS11)。
【0062】
次に、状態価値算出部22は、状態st+1を教師モデルに入力し、教師モデルから教師の状態価値V(st+1)を取得する(ステップS12)。例えば、状態価値算出部22は、教師モデルとして与えられている教師の学習済みの状態価値関数を用いて教師の状態価値V(st+1)を取得する。
【0063】
次に、報酬成形部23は、環境から取得した報酬rと、教師モデルから取得した教師の状態価値V(s)、V(st+1)とを用いて、成形報酬r ,tを計算する(ステップS13)。具体的に、報酬成形部23は、先の式(4)を用いて成形報酬を計算する。
【0064】
次に、方策更新部24は、割引因子γと成形報酬r ,tを用い、方策πをπt+1に更新する(ステップS14)。ここで方策を更新する方法としては、強化学習において一般的に使用されている各種の方法を用いることができる。
【0065】
次に、パラメータ更新部25は、割引因子γをγt+1に更新する(ステップS15)。ここで、パラメータ更新部25は、前述のように割引因子γを真の割引因子γへ近づけるように更新する。1つの方法としては、パラメータ更新部25は、割引因子γの値を予め時間tの関数として決定しておき、その関数を用いて割引因子γを更新してもよい。また、他の方法として、パラメータ更新部25は、生徒モデルの学習の進み具合に応じて割引因子γを更新してもよい。
【0066】
次に、学習装置100は、学習が終了したか否かを判定する(ステップS16)。具体的には、学習装置100は、所定の学習終了条件が具備されたか否かを判定する。学習が終了していない場合(ステップS16:No)、処理はステップS11へ戻り、ステップS11~S15の処理が繰り返される。一方、学習が終了した場合(ステップS16:Yes)、生徒モデルの学習処理は終了する。
【0067】
なお、上記の処理はエントロピー正則化を導入しない場合の処理であるが、エントロピー正則化を導入する場合、ステップS12において、状態価値算出部22は、前述の式(2)や式(2x)に示す状態価値関数を用いて教師の状態価値V(st+1)を取得する。また、ステップS14において、方策更新部24は、割引因子γと逆温度βと成形報酬r ,tとを用いて方策πをπt+1に更新する。さらに、ステップS15において、パラメータ更新部25は、割引因子γをγt+1に更新するとともに、逆温度βをβt+1に更新する。このように、エントロピー正則化を導入する場合、学習装置100は、割引因子γに加えて、逆温度βを更新しつつ学習を行う。
【0068】
[効果]
本実施形態の手法によれば、既存のインタラクティブ模倣学習と同様に教師モデルの情報を生かして生徒モデルを効率的に学習できる。これに加え、本実施形態の手法では、既存のインタラクティブ模倣学習とは異なり、生徒モデルの最適方策を学習することも可能となる。
【0069】
また、前述のTHORでは、離散変数であるホライゾンkを変更してゼロから学習し直すことを繰り返し、問題ごとに適したホライゾンkを見つける必要があった。これに対し、本実施形態の手法によれば、連続変数である割引因子γを更新するために学習をゼロからやり直す必要は無く、効率的な学習が可能となる。
【0070】
特に、本実施形態の手法は、例えば問題が厳密には一致しないが類似している場合など、最適方策とは異なる、又は、最適方策と同じか否かが不明であるが、振る舞いが参考になる教師モデルが手に入る場合に、最適方策を効率的に学習できるという利点がある。
【0071】
一例として、入力情報が不完全で直接強化学習するのが不可能又は困難な場合が考えられる。入力情報が不完全な場合とは、例えば、観測できない変数がある場合、観測にノイズが入っている場合などである。そのような場合でも、本実施形態の手法では、入力情報が完全であり、より簡単な状況において一旦強化学習を行い、それを教師モデルとして不完全な状況の生徒モデルを模倣学習することができる。
【0072】
他の例として、センサを変更するなど、入力情報の形式が変わった場合、新たな入力情報でゼロから強化学習を行うためには大量なデータと時間が必要となる。そのような場合、本実施形態の手法では、形式が変わる前の入力情報を用いて強化学習済みのモデルを教師モデルとして模倣学習することにより、学習に必要なデータや時間を減らすことができる。
【0073】
<第2実施形態>
図5は、第2実施形態の学習装置の機能構成を示すブロック図である。図示のように、学習装置70は、取得手段71と、算出手段72と、生成手段73と、方策更新手段74と、パラメータ更新手段75と、を備える。
【0074】
図6は、第2実施形態の学習装置による処理のフローチャートである。取得手段71は、行動の実行結果として、次の状態と報酬とを取得する(ステップS71)。算出手段72は、次の状態と教師モデルの状態価値関数とを用いて、次の状態の状態価値を算出する(ステップS72)。生成手段73は、状態価値から成形報酬を生成する(ステップS73)。方策更新手段74は、成形報酬と、学習対象である生徒モデルの割引因子とを用いて、生徒モデルの方策を更新する(ステップS74)。パラメータ更新手段75は、割引因子を更新する(ステップS75)。
【0075】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0076】
(付記1)
行動の実行結果として、次の状態と報酬とを取得する取得手段と、
次の状態と教師モデルの状態価値関数とを用いて、次の状態の状態価値を算出する算出手段と、
前記状態価値から成形報酬を生成する生成手段と、
前記成形報酬と、学習対象である生徒モデルの割引因子とを用いて、生徒モデルの方策を更新する方策更新手段と、
前記割引因子を更新するパラメータ更新手段と、
を備える学習装置。
【0077】
(付記2)
前記生徒モデルの目的関数はエントロピー正則化項を含み、
前記エントロピー正則化項は、正則化の程度を示す係数である逆温度を含み、
前記方策更新手段は、前記成形報酬と、前記割引因子と、前記逆温度とを用いて前記生徒モデルの方策を更新し、
前記パラメータ更新手段は、前記逆温度を更新する付記1に記載の学習装置。
【0078】
(付記3)
前記パラメータ更新手段は、前記割引因子を、予め決められた真の値に近づけるように更新する付記1に記載の学習装置。
【0079】
(付記4)
前記生成手段は、前記割引因子として前記真の値を用いて成形報酬を生成する付記3に記載の学習装置。
【0080】
(付記5)
コンピュータにより実行され、
行動の実行結果として、次の状態と報酬とを取得し、
次の状態と教師モデルの状態価値関数とを用いて、次の状態の状態価値を算出し、
前記状態価値から成形報酬を生成し、
前記成形報酬と、学習対象である生徒モデルの割引因子とを用いて、生徒モデルの方策を更新し、
前記割引因子を更新する学習方法。
【0081】
(付記6)
行動の実行結果として、次の状態と報酬とを取得し、
次の状態と教師モデルの状態価値関数とを用いて、次の状態の状態価値を算出し、
前記状態価値から成形報酬を生成し、
前記成形報酬と、学習対象である生徒モデルの割引因子とを用いて、生徒モデルの方策を更新し、
前記割引因子を更新する処理をコンピュータに実行させるプログラムを記録した記録媒体。
【0082】
以上、実施形態及び実施例を参照して本開示を説明したが、本開示は上記実施形態及び実施例に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0083】
12 プロセッサ
21 状態・報酬取得部
22 状態価値算出部
23 報酬成形部
24 方策更新部
25 パラメータ更新部
図1
図2
図3
図4
図5
図6