特開2024-76801 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-76801情報処理プログラム、情報処理方法及び情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024076801

(43)【公開日】2024-06-06

(54)【発明の名称】情報処理プログラム、情報処理方法及び情報処理装置

(51)【国際特許分類】

G06N 20/00 20190101AFI20240530BHJP

【ＦＩ】

G06N20/00

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022188571

(22)【出願日】2022-11-25

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】市丸和人

(57)【要約】

【課題】学習効率を向上させる情報処理プログラム、情報処理方法及び情報処理装置を提供する。
【解決手段】所定環境におけるエージェントによる所定環境の観測データ及び行動を示す行動データ、並びに、行動に対する報酬を示す報酬データを含む学習データに基づいて第１学習を行った場合の第１ロスと第１学習とは異なるアルゴリズムに基づく第２学習を行った場合の第２ロスとの少なくとも一方に重みを与えて組み合わせた結合ロスに基づいて機械学習モデル１１０のパラメータを更新し、第２ロスの重みを減衰させて、パラメータの更新を繰り返させて機械学習モデル１１０の学習を行う処理をコンピュータに実行させる。
【選択図】図１

【特許請求の範囲】

【請求項1】

所定環境におけるエージェントによる前記所定環境の観測データ及び行動を示す行動データ、並びに、前記行動に対する報酬を示す報酬データを含む学習データに基づいて第１学習を行った場合の第１ロスと前記第１学習とは異なるアルゴリズムに基づく第２学習を行った場合の第２ロスとの少なくとも一方に重みを与えて前記第１ロスと組み合わせた結合ロスに基づいて機械学習モデルのパラメータを更新し、
前記第２ロスの重みを減衰させて、前記パラメータの更新を繰り返させて前記機械学習モデルの学習を行う
処理をコンピュータに実行させることを特徴とする情報処理プログラム。

【請求項2】

前記所定環境を構築してエージェントに観測及び行動を行わせることで得られる前記観測データ及び前記行動データ、並びに、前記行動データから算出される前記報酬データを基に学習データを生成することを特徴とする請求項１に記載の情報処理プログラム。

【請求項3】

前記第１学習は、前記機械学習モデルに前記行動データを入力した場合の出力に対して与えられる報酬の時間累積和が最大となるように前記行動データにより示される行動を選択する学習であり、
前記第２学習は、所定の行動系列を模倣するように前記行動データで示される行動を選択する学習である
ことを特徴とする請求項１に記載の情報処理プログラム。

【請求項4】

所定の行動系列における行動を示す所定行動データを前記機械学習モデルに入力した場合に得られる第１出力と前記行動データを前記機械学習モデルに入力した場合に得られる第２出力との誤差を基に前記第２ロスを算出することを特徴とする請求項３に記載の情報処理プログラム。

【請求項5】

最適行動の行動価値と前記行動データを入力した場合の行動価値との誤差を基に前記第１ロスを算出することを特徴とする請求項１に記載の情報処理プログラム。

【請求項6】

情報処理装置が、
所定環境におけるエージェントによる前記所定環境の観測データ及び行動を示す行動データ、並びに、前記行動に対する報酬を示す報酬データを含む学習データに基づいて、第１学習を行った場合の第１ロスと前記第１学習とは異なるアルゴリズムに基づく第２学習を行った場合の第２ロスとの少なくとも一方に重みを与えて前記第１ロスと組み合わせた結合ロスに基づいて機械学習モデルのパラメータを更新し、
前記第２ロスの重みを減衰させて、前記パラメータの更新を繰り返させて前記機械学習モデルの学習を行う
処理を実行することを特徴とする情報処理方法。

【請求項7】

機械学習モデルと、
所定環境におけるエージェントによる前記所定環境の観測データ及び行動を示す行動データ、並びに、前記行動に対する報酬を示す報酬データを含む学習データに基づいて、第１学習を行った場合の第１ロスと前記第１学習とは異なるアルゴリズムに基づく第２学習を行った場合の第２ロスとの少なくとも一方に重みを与えて組み合わせた結合ロスに基づいて前記機械学習モデルのパラメータを更新し、且つ、前記第２ロスの前記重みを減衰させて、前記パラメータの更新を繰り返して前記機械学習モデルの学習を行う学習部と
を備えたことを特徴とする情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理プログラム、情報処理方法及び情報処理装置に関する。

【背景技術】

【0002】

近年、電子ゲームにおけるＡＩ（Artificial Intelligence：人工知能）、車両の自動運転制御、ロボットの自立制御といった様々な分野で、強化学習と呼ばれる機械学習の導入が盛んである。強化学習では、与えられた環境の中においてエージェントと呼ばれる動作主体による行動に対して与えられる報酬を最大化するように学習が行われる。

【0003】

一方、人間などのいわゆるエキスパート（専門家）の行動系列が与えられ、その行動系列を模倣するように学習を行う模倣学習と呼ばれる機械学習が存在する。模倣学習においては、エキスパートが行った行動を最適な行動であると仮定して、エージェントの行動がエキスパートの振る舞いに近づくように学習が行われる。

【0004】

さらに、より学習を効率化するために、模倣学習と強化学習とを融合させた機械学習が研究されている。例えば、模倣学習と強化学習とを用いる学習方法として、模倣学習によって得られた重みを初期値にして強化学習を実行すると、多くの場合効率的に学習が行えることが知られている。

【0005】

ただし、模倣学習を行うにあたり、エキスパートの行動が必ずしも最適でない場合が存在する。そのような場合に模倣学習によって得られた重みを初期値にして強化学習を実行すると、強化学習の最適解と模倣学習の最適解とが大きく異なる関係が強化学習と機械学習との間に発生する。そのような関係性の下、模倣学習によって得られた重みを初期値にして強化学習を実行すると、強化学習を開始した直後に模倣学習済みの方策が崩壊して、模倣学習及び強化学習の双方を使用することによる効率化の効果が消滅するおそれがある。一方、強化学習の最適解と模倣学習の最適解とが大きく異なる場合でもエキスパートの行動系列は何らかの有益な情報を含んでいることが多く、これを参考に学習することで、学習が効率化する余地は残っている。

【0006】

そこで、エキスパートの行動が必ずしも最適でない場合にも効率化の効果を維持するために、模倣学習と強化学習とを並行して実施し、それぞれのロスを一定の係数で足し合わせた値を方策更新のための目的関数とする従来技術が提案されている。

【0007】

他にも、自由エネルギー最小化によりエキスパートを通じて世界モデルを獲得し、獲得した世界モデルをベースにした自由エネルギーの最小化により探索及び報酬最大化の合目的行動を獲得させる従来技術が提案されている。また、熟練したオペレータの操作を学習して工程毎の模倣モデルを構築し、模倣モデルの学習が完了すると、強化学習により模倣モデルの追加学習を行わせる技術が提案されている。

【先行技術文献】

【特許文献】

【0008】

【特許文献1】特開２０２０－１９１０２２号公報

【特許文献2】特開２０２１－１９２１４１号公報

【特許文献3】特開２０１８－２０６２８６号公報

【発明の概要】

【発明が解決しようとする課題】

【0009】

しかしながら、模倣学習と強化学習とを並行して実施してそれぞれのロスを用いて目的関数を算出する従来技術では、最終的な性能が純粋な強化学習に対して劣る可能性がある。これは、一定の重みづけ係数を使っている関係で最適でないかもしれないエキスパート系列による模倣学習の影響を、強化学習において最後まで受け続けるためと考えられる。また、他の技術を用いても、エキスパートの行動が必ずしも最適でない場合の強化学習の最適解と模倣学習の最適解とが大きく異なることによる学習効率の低下を軽減することは困難である。

【0010】

開示の技術は、上記に鑑みてなされたものであって、学習効率を向上させる情報処理プログラム、情報処理方法及び情報処理装置を提供することを目的とする。

【課題を解決するための手段】

【0011】

本願の開示する情報処理プログラム、情報処理方法及び情報処理装置の一つの態様において、所定環境におけるエージェントによる前記所定環境の観測データ及び行動を示す行動データ、並びに、前記行動に対する報酬を示す報酬データを含む学習データに基づいて第１学習を行った場合の第１ロスと前記第１学習とは異なるアルゴリズムに基づく第２学習を行った場合の第２ロスとの少なくとも一方に重みを与えて組み合わせた結合ロスに基づいて機械学習モデルのパラメータを更新し、前記第２ロスの重みを減衰させて、前記パラメータの更新を繰り返させて前記機械学習モデルの学習を行う処理をコンピュータに実行させる。

【発明の効果】

【0012】

１つの側面では、本発明は、学習効率を向上させることができる。

【図面の簡単な説明】

【0013】

【図1】図１は、実施例に係る機械学習システムのブロック図である。

【図2】図２は、実施例に係る機械学習の概念図である。

【図3】図３は、実施例に係る情報処理装置による機械学習処理のフローチャートである。

【図4】図４は、実施例に係る機械学習システムのハードウェア構成図である。

【発明を実施するための形態】

【0014】

以下に、本願の開示する情報処理プログラム、情報処理方法及び情報処理装置の実施例を図面に基づいて詳細に説明する。なお、以下の実施例により本願の開示する情報処理プログラム、情報処理方法及び情報処理装置が限定されるものではない。

【実施例0015】

図１は、実施例に係る機械学習システムのブロック図である。本実施例に係る機械学習システムは、情報処理装置１０及び複数の情報処理装置２０を有する。情報処理装置１０とそれぞれの情報処理装置２０とはネットワークで接続される。

【0016】

情報処理装置１０は、情報処理装置２０から得られる学習データを用いて、働きかけの対象とする環境に対して働きかけを行う主体であり且つ学習の対象となるエージェントの行動の学習を実行する。学習データには、働きかけの対象とする環境におけるエージェントの経験の情報が含まれる。情報処理装置２０は、環境を保持し、環境におけるエージェントの行動による結果を得て、エージェントの行動の学習に用いる学習データを生成する。

【0017】

図２は、実施例に係る機械学習の概念図である。マスタノード１１は、情報処理装置１０の機械学習時の役割を示す。ノード２１は、それぞれの情報処理装置２０の機械学習時の役割を示す。図２では、情報処理装置２０のそれぞれが有するデータ生成部２００をまとめて１つのデータ生成部２００とし、その中で複数のノード２１が動作するように図示した。

【0018】

ノード２１は、それぞれが環境及びエージェントを有する。そして、ノード２１は、保持する環境の中でエージェントを行動させる。データ生成部２００は、各ノード２１が提供する環境においてエージェントが行動したことにより得られたエージェントの経験をマスタノード１１へ送信する。

【0019】

マスタノード１１は、各ノード２１において得られるエージェントの経験を収集して、機械学習モデル１１０の学習を行う。例えば、マスタノード１１の学習部１００は、機械学習モデル１１０の学習を行うための強化学習アルゴリズム１２０を有する。この強化学習アルゴリズム１２０は、模倣学習と強化学習とを融合させた学習アルゴリズムである。

【0020】

学習部１００は、各ノード２１により提供される環境におけるエージェントの行動により得られた経験をデータ生成部２００から収集する。また、学習部１００は、エージェントが行動した環境と同様の環境におけるエキスパートによる観測結果及び行動を示すエキスパートデータを取得する。そして、学習部１００は、エージェントの経験及びエキスパートデータを基に、強化学習アルゴリズムを用いて強化学習によるロスＬ１及び模倣学習におけるロスＬ２を計算する。さらに、学習部１００は、強化学習によるロスＬ１と模倣学習におけるロスＬ２を用いて目的関数重み付け和Ｌを算出する。ここで、学習部１００は、目的関数重み付け和Ｌの算出に当たり、ロスＬ２に重み係数ｋを付加してロスＬ１に対する比率を調整する。学習部１００は、目的関数重み付け和Ｌを用いて機械学習モデル１１０のパラメータを更新して、機械学習モデル１１０を更新する。

【0021】

学習部１００は、遷移する環境におけるエージェントの経験を順次収集して、機械学習モデル１１０の更新を繰り返す。この繰り返しの際に、学習部１００は、重み係数ｋを徐々に減衰させて目的関数重み付け和Ｌを算出していく。すなわち、学習部１００は、ロスＬ１に対するロス２の比率を減衰させていき、模倣学習の影響を徐々に小さくしながら学習を進める。

【0022】

図１に戻って、情報処理装置１０及び情報処理装置２０の詳細について説明する。情報処理装置２０は、それぞれデータ生成部２００を有する。各情報処理装置２０のデータ生成部２００は、同じ環境データの入力を情報処理装置１０から受ける。

【0023】

データ生成部２００は、環境データから環境を構築する。そして、データ生成部２００は、構築した環境においてエージェントに観測を行わせる。さらに、データ生成部２００は、エージェントの行動を決定して、エージェントに決定した行動を構築した環境で行わせる。そして、データ生成部２００は、環境に対するエージェントによる観測の情報を示す観測データ及びエージェントが行った行動を示す行動データを取得する。さらに、データ生成部２００は、エージェントの行動後の遷移後の環境の状態を示す環境データを取得する。さらに、データ生成部２００は、エージェントが行った行動に対して与えられる報酬を算出して報酬を示す報酬データを生成する。データ生成部２００は、遷移後の環境に対する、観測データ、行動データ、遷移後の環境データ及び報酬データの生成を、環境を遷移させながら繰り返す。

【0024】

例えば、それぞれのデータ生成部２００は、機械学習モデル１１０と同様の機械学習モデルを有する。この機械学習モデルは、機械学習モデル１１０と同様のパラメータを使用して機械学習モデル１１０と同様にエージェントの行動の選択を行う。データ生成部２００は、取得した環境データを機械学習モデルに入力して、行動前の観測データ、行動データ、遷移後の環境データ、行動後の観測データを取得する。さらに、データ生成部２００は、エージェントが行った行動に対して与えられる報酬を算出して報酬を示す報酬データを生成する。

【0025】

その後、データ生成部２００は、観測データ、行動データ、遷移後の環境データ及び報酬データを含む学習データを情報処理装置１０へ出力する。すなわち、各データ生成部２００から出力された学習データをまとめたものが、機械学習モデル１１０の学習に用いるエージェントの経験の集合である。

【0026】

ここで、学習データは、同じ環境においてエージェントが様々な行動をした場合についてのなるべく多くの経験を含むことが好ましい。そのため、複数のデータ生成部２００で異なる行動を行った場合に関して並列に学習データの生成を実施することで、多数の経験を含む学習データの生成を短時間で行うことができる。ただし、学習データの生成時間が長くなることが許容できるのであれば、１つの情報処理装置２０のデータ生成部２００を用いてエージェントの経験を得ることを繰り替えして学習データを生成することも可能である。

【0027】

情報処理装置１０は、図１に示すように、学習部１００及び機械学習モデル１１０を有する。機械学習モデル１１０は、与えられた環境においてエージェントがどのような行動を実行するかを決定するためのモデルである。すなわち、機械学習モデル１１０は、環境データを入力として最適と考えられる行動を出力する。

【0028】

学習部１００は、機械学習モデル１１０の学習を実行する。学習部１００は、図１に示すように、第１目的関数算出部１０１、重み付け和算出部１０２、第２目的関数算出部１０３、モデル更新部１０４、記憶部１０５、確率密度関数算出部１０６及びデータ入力部１０７を有する。

【0029】

記憶部１０５は、エージェントの働きかけの対象となる環境の情報を含む環境データを保持する。また、記憶部１０５は、各環境におけるエキスパートの観測結果を示す観測データとその観測時のエキスパートの行動を示す行動データとの双方を含むエキスパートデータを格納する。

【0030】

データ入力部１０７は、エージェントの働きかけの対象となる環境の状態を含む環境データを記憶部１０５から取得する。そして、データ入力部１０７は、同じ環境データを各情報処理装置２０のデータ生成部２００へ送信する。

【0031】

第１目的関数算出部１０１は、学習データをそれぞれの情報処理装置２０のデータ生成部２００から取得する。次に、第１目的関数算出部１０１は、取得した学習データに対する強化学習の目的関数であるロスＬ１を算出する。その後、第１目的関数算出部１０１は、算出したロスＬ１を重み付け和算出部１０２へ出力する。

【0032】

強化学習が「第１学習」の一例にあたり、機械学習モデル１１０に行動データを入力した場合の出力に対して与えられる報酬の時間累積和が最大となるように行動データで示される行動を選択する学習である。またロスＬ１が「第１ロス」の一例にあたる。そして、第１目的関数算出部１０１は、学習データに基づいて第１学習を行った場合の第１ロスを算出する。

【0033】

強化学習の目的関数の計算方式は、強化学習の手法によって異なるが、本実施例に係る第１目的関数算出部１０１は、どの様な計算方式を用いてもよい。以下に、第１目的関数算出部１０１によるロスＬ１の算出方法の例をいくつか説明する。

【0034】

１つの方法としては、第１目的関数算出部１０１は、価値反復法を用いてロスＬ１を算出することができる。例えば、第１目的関数算出部１０１は、次の数式（１）を用いてロスＬ１を算出する。

【0035】

【数1】

【0036】

ここで、Ｄは、学習に用いる経験の集合であり学習データの集合である。ｏ_ｔは、時刻ｔにおける環境のエージェントによる観測である。ａ_ｔは、時刻ｔにおいて実際に取った行動であり、行動データで示される。ｒｔは、時刻ｔにおいて行動ａ_ｔを行った結果得られた報酬であり、報酬データで示される。ｏ_ｔは、時刻ｔ＋１において行動ａ_ｔを行った結果遷移した結果遷移した後の環境のエージェントによる観測である。ａ_ｔ＋１は、時刻ｔ＋１においてエージェントがとるべき最適な行動である。γは、割引率である。γ＝１のとき長期利益が最も重視され、γ＝０のとき短期利益が最も重視される。また、Ｑ_θは、パラメータθで表現された行動価値関数である。「｜｜_２」は、二乗ノルムである。

【0037】

この場合、Ｌ_ＴＤは誤差を表すので、機械学習モデル１１０の学習においてはロスＬ１を最小化することが求められる。

【0038】

また、他の方法としては、第１目的関数算出部１０１は、方策勾配法を用いてロスＬ１を算出することができる。例えば、第１目的関数算出部１０１は、次の数式（２）を用いてＬ１を算出する。

【0039】

【数2】

【0040】

ここで、Ｄは、学習に用いる経験の集合であり学習データの集合である。ｏ_ｔは、時刻ｔにおける環境のエージェントによる観測である。ａ_ｔは、時刻ｔにおいて実際に取った行動であり、行動データで示される。また、π_θは、パラメータθで表現された方策関数である。βは、重みづけ係数である。また、パラメータθは、方策関数πと行動価値関数Ｑとで共通とされることが多いが、第１目的関数算出部１０１は、方策関数πと行動価値関数Ｑとを完全に分離して異なるＤＮＮ（Deep Neural Network）を用いて更新を行ってもよい。その場合、πはＬ_ＰＧで更新され、ＱはＬ_ＴＤで更新される。

【0041】

以上のように、本実施例に係る第１目的関数算出部１０１は、最適行動の行動価値と行動データを入力した場合の行動価値との誤差を基に第１ロスを算出する。

【0042】

確率密度関数算出部１０６は、記憶部１０５に格納されたエキスパートデータの中から、学習データを生成した環境と同様の環境におけるエキスパートデータを選択して取得する。そして、確率密度関数算出部１０６は、エキスパートの観測データを機械学習モデル１１０に入力して、エキスパートの行動の確率密度関数を計算する。その後、確率密度関数算出部１０６は、エキスパートの行動の確率密度関数及びエキスパートの行動データを第２目的関数算出部１０３へ出力する。

【0043】

第２目的関数算出部１０３は、エキスパートの行動の確率密度関数及びエキスパートの行動データの入力を確率密度関数算出部１０６から受ける。また、第２目的関数算出部１０３は、学習データを各情報処理装置２０のデータ生成部２００から受信する。次に、第２目的関数算出部１０３は、エキスパートの行動の確率密度関数及びエキスパートの行動データを用いて、尤度を最大化するように学習データに含まれる行動データに対する模倣学習の目的関数であるロスＬ２を算出する。すなわち、第２目的関数算出部１０３は、エキスパートが実際にとった特定の行動をとり易くするようにロスＬ２を算出する。その後、第２目的関数算出部１０３は、算出したロスＬ２を重み付け和算出部１０２へ出力する。

【0044】

ここで、模倣学習が、「第２学習」の一例にあたり、所定の行動系列を模倣するように行動データにより示される行動を選択する学習である。また、ロスＬ２が、「第２ロス」の一例にあたる。そして、第２目的関数算出部１０３は、所定の行動系列における行動を示す所定行動データを機械学習モデルに入力した場合に得られる第１出力と行動データを機械学習モデルに入力した場合に得られる第２出力との誤差を基に前記第２ロスを算出する。以下に、第２目的関数算出部１０３によるロスＬ２の算出方法の例をいくつか説明する。

【0045】

１つの方法としては、第２目的関数算出部１０３は、価値反復法を用いてロスＬ２を算出することができる。この場合、第２目的関数算出部１０３は、方策関数πを定義する次の数式（３）を保持する。

【0046】

【数3】

【0047】

そして、第２目的関数算出部１０３は、次の数式（４）を用いてロスＬ２を算出する。

【0048】

【数4】

【0049】

また、他の方法としては、第２目的関数算出部１０３は、豊作勾配法を用いてロスＬ２を算出することができる。この倍、第２目的関数算出部１０３は、ＤＮＮにより直接定義された既存の方策関数πを用いて、数式（４）によりロスＬ２を算出する。

【0050】

ここで、ロスＬ２はエキスパートと同じ行動をとる尤度を表すので、機械学習モデル１１０の学習では最大化することが求められる。

【0051】

重み付け和算出部１０２は、ロスＬ１の入力を第１目的関数算出部１０１から受ける。また、重み付け和算出部１０２は、ロスＬ２の入力を第２目的関数算出部１０３から受ける。そして、重み付け和算出部１０２は、ロスＬ１とロスＬ２とのバランスを取り、且つ、ロスＬ２を徐々に減衰させるための係数である重み付け係数ｋをロスＬ２に乗算して、ロスＬ１に加算することで、目的関数重み付け和Ｌを算出する。すなわち、重み付け和算出部１０２は、Ｌ＝Ｌ１＋ｋＬ２により目的関数重み付け和Ｌを算出する。

【0052】

ここで、機械学習モデル１１０は、ロスＬ１及びロスＬ２、並びに、目的関数重み付け和Ｌの算出が繰り返され、順次算出された目的関数重み付け和Ｌを用いて、更新が繰り返される。そして、重み付け和算出部１０２は、特定の目的関数重み付け和Ｌを用いた更新の次の目的関数重み付け和Ｌの算出において、特定の目的関数重み付け和Ｌの算出に用いた重み付け係数ｋを減衰させて次の目的関数重み付け和Ｌを算出する。重み付け和算出部１０２による重み付け係数ｋの減衰のさせ方は、どの程度長くエキスパートデータの影響を残したいかによって決定されるものであり、特に制限はない。例えば、重み付け和算出部１０２は、線型的に重み付け係数ｋを減衰させることなどができる。

【0053】

その後、重み付け和算出部１０２は、算出した目的関数重み付け和Ｌをモデル更新部１０４へ出力する。ここで、本実施例では、ロスＬ２に重みを付加したが、これに限らず、ロスＬ１に重みを付加してもよいし、ロスＬ１及びロスＬ２の双方に重みを付加してもよい。いずれの場合も、重み付け和算出部１０２は、学習の繰り返しにしたがってロスＬ２の重みが減衰するように重みを変化させる。例えば、ロスＬ１に重みを付加した場合、重み付け和算出部１０２は、ロスＬ１の重みを増やすことでロスＬ２の重みを減衰させることができる。

【0054】

モデル更新部１０４は、目的関数重み付け和Ｌの入力を重み付け和算出部１０２から受ける。そして、モデル更新部１０４は、目的関数重み付け和Ｌを用いて機械学習モデル１１０を更新する。例えば、モデル更新部１０４は、機械学習モデル１１０に含まれるパラメータを微分してパラメータの変更により目的関数重み付け和Ｌが大きくなるか小さくなるかを判定する。そして、モデル更新部１０４は、目的関数重み付け和Ｌが大きくなるようにパラメータを調整して機械学習モデル１１０を更新する。

【0055】

そして、モデル更新部１０４は、学習完了条件が満たされたか否かを判定する。モデル更新部１０４は、学習完了条件を、例えば更新回数が所定回数に達した場合や、重み付け係数ｋが所定値に達した場合などとすることができる。学習完了条件が満たされていない場合、学習部１００は、機械学習モデル１１０の更新を繰り返す。これに対して、学習完了条件が満たされた場合、学習部１００は、機械学習モデル１１０の学習を終了する。

【0056】

図３は、実施例に係る情報処理装置による機械学習処理のフローチャートである。次に、図３を参照して、本実施例に係る情報処理装置１０による機械学習処理の流れを説明する。

【0057】

データ入力部１０７は、エージェントが働きかける環境の特定の状態を表す環境データを記憶部１０５から取得する。そして、データ入力部１０７は、同じ環境データを全ての情報処理装置２０のデータ生成部２００へ送信する（ステップＳ１）。

【0058】

情報処理装置２０のデータ生成部２００は、受信した環境データを用いて構築される環境において、エージェントに行動を行わせて、行動前の観測データ、遷移後の環境データ及び行動後の観測データを取得する。さらに、データ生成部２００は、行動に対する報酬を算出して報酬データを生成する。そして、データ生成部２００は、行動前の観測データ、行動データ、遷移後の環境データ、行動後の観測データ及び報酬データ含む学習データＤを情報処理装置１０へ出力する。第１目的関数算出部１０１及び第２目的関数算出部１０３は、学習データＤを各情報処理装置２０のデータ生成部２００から取得する（ステップＳ２）。

【0059】

第１目的関数算出部１０１は、取得した学習データＤに対する強化学習のロスＬ１を算出する（ステップＳ３）。

【0060】

確率密度関数算出部１０６は、取得した学習データＤで用いられた環境におけるエキスパートの観測ｏｅ及び行動ａｅを含むエキスパートデータＤｅを記憶部１０５が保持するエキスパートデータの中から選択して取得する（ステップＳ４）。ここでは、Ｄｅ＝（ｏｅ，ａｅ）と表す。

【0061】

次に、確率密度関数算出部１０６は、エキスパートの観測ｏｅを機械学習モデル１１０に入力してエキスパートの行動の確率密度関数ｆｏｅを計算する（ステップＳ５）。

【0062】

第２目的関数算出部１０３は、確率密度関数算出部１０６により計算された確率密度関数ｆｏｅを用いて、尤度であるｆｏｅ（ａｅ）を最大化する、取得した学習データＤに対するロスＬ２を算出する（ステップＳ６）。

【0063】

重み付け和算出部１０２は、重み係数ｋを乗算したロスＬ２にロスＬ１を加算して、目的関数重み付け和Ｌを算出する（ステップＳ７）。すなわち、重み付け和算出部１０２は、Ｌ＝Ｌ１＋ｋＬ２とする。

【0064】

モデル更新部１０４は、目的関数重み付け和Ｌを用いて機械学習モデル１１０を更新する（ステップＳ８）。

【0065】

その後、重み付け和算出部１０２は、重み係数ｋを減衰させる（ステップＳ９）。

【0066】

モデル更新部１０４は、学習完了条件が満たされたか否かを判定する（ステップＳ１０）。学習完了条件が満たされていない場合（ステップＳ１０：否定）、学習部１００は、ステップＳ１へ戻り、機械学習モデル１１０の更新を繰り返す。これに対して、学習完了条件が満たされた場合（ステップＳ１０：肯定）、学習部１００は、機械学習モデル１１０の学習を終了する。

【0067】

以上に説明したように、本実施例に係る情報処理装置は、模倣学習と強化学習とを融合させて機械学習を行い、且つ、学習を進めるにしたがって模倣学習の影響を減衰させて、エキスパートの行動の影響を徐々に軽減させる。これにより、エキスパートの行動系列が最適なものから遠い場合でも、学習の安定性を損なうことなく模倣学習の恩恵を得ることができ、強化学習の効率化に寄与することができる。したがって、学習効率を向上させることが可能となる。

【0068】

（ハードウェア構成）
図４は、実施例に係る機械学習システムのハードウェア構成図である。次に、図４を参照して、本実施例に係る機械学習システム１のハードウェア構成の一例について説明する。

【0069】

情報処理装置１０は、図４に示すように、ＣＰＵ（Central Processing Unit）９１１、ＲＡＭ（Random Access Memory）９１２、ＧＰＵ（Graphics Processing Unit）９１３及びハードディスク９１４を有する。ＣＰＵ９１１は、バスによりＲＡＭ９１２、ＧＰＵ９１３及びハードディスク９１４と接続される。

【0070】

ハードディスク９１４は、補助記憶装置である。ハードディスク９１４は、図１に例示した、記憶部１０５の機能を実現する。だだし、記憶部１０５は、情報処理装置１０が有さなくてもよく、外部装置が保持してもよい。また、ハードディスク９１４は、図１に例示した機械学習モデル１１０を格納してもよい。また、ハードディスク９１４は、図１に例示した学習部１００の機能を実現するためのプログラムを含む各種プログラムを格納する。ハードディスク９１４の代わりにＳＳＤ（Solid State Drive）などを用いることも可能である。

【0071】

ＧＰＵ９１３は、機械学習における所定の演算を実行する。ただし、機械学習の速度が遅くてもよい場合、ＧＰＵ９１３は設けなくてもよい。

【0072】

ＣＰＵ９１１は、ハードディスク９１４から各種プログラムを読み出してＲＡＭ９１２に展開して実行する。これにより、ＣＰＵ９１１は、図１に例示した学習部１００の機能を実現する。ＣＰＵ９１１は、機械学習における演算をＧＰＵ９１３に行わせてもよい。

【0073】

情報処理装置２０は、図４に示すように、複数台が情報処理装置１０に接続されてクラスタ構成を有する。ただし、解く問題の規模によってはクラスタ構成でなくてもよく、情報処理装置２０は１台でもよいし、情報処理装置１０の中に情報処理装置２０の機能を含めてもよい。

【0074】

情報処理装置２０は、図４に示すように、ＣＰＵ９２１、ＲＡＭ９２２及びハードディスク９２３を有する。ＣＰＵ９２１は、バスによりＲＡＭ９２２及びハードディスク９２３と接続される。

【0075】

ハードディスク９２３は、補助記憶装置である。ハードディスク９２３は、図１に例示した、データ生成部２００の機能を実現するためのプログラムを含む各種プログラムを格納する。

【0076】

ＣＰＵ９２１は、ハードディスク９２３から各種プログラムを読み出してＲＡＭ９２２に展開して実行する。これにより、ＣＰＵ９２１は、図１に例示したデータ生成部２００の機能を実現する。

【符号の説明】

【0077】

１機械学習システム
１０情報処理装置
２０情報処理装置
１００学習部
１０１第１目的関数算出部
１０２重み付け和算出部
１０３第２目的関数算出部
１０４モデル更新部
１０５記憶部
１０６確率密度関数算出部
１０７データ入力部
１１０機械学習モデル
２００データ生成部

【図1】

【図2】

【図3】

【図4】

IP Force 特許公報掲載プロジェクト 2022.1.31 β版