IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7452228多目的モデルを訓練する訓練装置及び訓練方法
<>
  • 特許-多目的モデルを訓練する訓練装置及び訓練方法 図1
  • 特許-多目的モデルを訓練する訓練装置及び訓練方法 図2
  • 特許-多目的モデルを訓練する訓練装置及び訓練方法 図3
  • 特許-多目的モデルを訓練する訓練装置及び訓練方法 図4
  • 特許-多目的モデルを訓練する訓練装置及び訓練方法 図5
  • 特許-多目的モデルを訓練する訓練装置及び訓練方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-11
(45)【発行日】2024-03-19
(54)【発明の名称】多目的モデルを訓練する訓練装置及び訓練方法
(51)【国際特許分類】
   G06N 20/00 20190101AFI20240312BHJP
   G06N 3/092 20230101ALI20240312BHJP
【FI】
G06N20/00
G06N3/092
【請求項の数】 10
(21)【出願番号】P 2020078405
(22)【出願日】2020-04-27
(65)【公開番号】P2020187742
(43)【公開日】2020-11-19
【審査請求日】2023-01-12
(31)【優先権主張番号】201910384143.X
(32)【優先日】2019-05-09
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】ジョオン・チャオリアン
(72)【発明者】
【氏名】夏 文升
(72)【発明者】
【氏名】シ・ズチアン
(72)【発明者】
【氏名】孫 俊
【審査官】坂庭 剛史
(56)【参考文献】
【文献】米国特許出願公開第2019/0130312(US,A1)
【文献】国際公開第2019/021401(WO,A1)
【文献】森本 淳、銅谷賢治,階層型強化学習を用いた3リンク2関節ロボットによる起立運動の獲得,日本ロボット学会誌,日本,社団法人日本ロボット学会,2001年07月15日,第19巻, 第5号(通巻129号),pp.32-37,ISSN 0289-1824
【文献】SCHAUL, Tom et al.,PRIORITIZED EXPERIENCE REPLAY,arXiv.org [online],米国,Cornell University,2016年02月25日,[retrieved on 2024-01-25], pp.1-21,Retrieved from the Internet: <URL: https://arxiv.org/pdf/1511.05952.pdf>
【文献】ANDRYCHOWICZ, Marcin et al.,HINDSIGHT EXPERIENCE REPLAY,arXiv.org [online],米国,Cornell University,2018年02月23日,[retrieved on 2024-01-25], pp.1-15,Retrieved from the Internet: <URL: https://arxiv.org/pdf/1707.01495.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
G06N 3/092
(57)【特許請求の範囲】
【請求項1】
目的空間内の目的に基づいて多目的モデルを訓練する訓練装置であって、
前記目的空間を設定し、異なる難易度レベルを有する複数のサブ目的空間を取得する目的空間設定部と、
処理すべきサブ目的空間を現在のサブ目的空間からより高い難易度レベルを有する次のサブ目的空間に変更する目的空間変更部と、
少なくとも現在のサブ目的空間から目的をサンプリング目的として選択し、行動を実行して前記サンプリング目的に関する遷移を取得するサンプリング部と、
前記遷移に基づいて前記多目的モデルを訓練する訓練部と、
現在のサブ目的空間内の目的を達成する成功率を計算し、前記多目的モデルを評価する評価部と、を含み、
前記目的空間変更部は、前記成功率が所定閾値よりも大きい場合、処理すべきサブ目的空間を現在のサブ目的空間からより高い難易度レベルを有する次のサブ目的空間に変更する、訓練装置。
【請求項2】
前記目的空間設定部は、前記目的空間を予め分割し、異なる難易度レベルを有する前記複数のサブ目的空間を取得する、請求項1に記載の訓練装置。
【請求項3】
前記目的空間設定部は、前記成功率が所定閾値よりも大きい場合、達成された目的の分布を計算し、前記目的空間内の前記分布の中心から所定距離に位置する目的を用いて次のサブ目的空間を取得する、請求項1に記載の訓練装置。
【請求項4】
前記サンプリング部は、処理されたサブ目的空間から目的をサンプリング目的として選択する、請求項1乃至3の何れかに記載の訓練装置。
【請求項5】
前記サンプリング部は、第1確率及び第2確率で現在のサブ目的空間及び処理されたサブ目的空間から目的をサンプリング目的として選択し、
前記第1確率と前記第2確率の和は100%である、請求項4に記載の訓練装置。
【請求項6】
より高い難易度係数を有する目的に対応する遷移がより高い優先度を有するように、前記遷移について優先度を設定する優先度設定部、をさらに含み、
前記訓練部は、前記遷移の優先度に基づいて、前記多目的モデルを訓練するための遷移を選択する、請求項1乃至3の何れかに記載の訓練装置。
【請求項7】
前記優先度設定部は、前記遷移の時間差分誤差、及び前記遷移に対応する目的の難易度係数に基づいて、前記遷移の優先度を設定する、請求項6に記載の訓練装置。
【請求項8】
前記優先度設定部は、前記遷移に対応する目的の難易度係数に基づいて、前記遷移の優先度を設定する、請求項6に記載の訓練装置。
【請求項9】
目的空間内の目的に基づいて多目的モデルを訓練する訓練方法であって、
前記目的空間を設定し、異なる難易度レベルを有する複数のサブ目的空間を取得する目的空間設定ステップと、
少なくとも現在のサブ目的空間から目的をサンプリング目的として選択し、行動を実行して前記サンプリング目的に関する遷移を取得するサンプリングステップと、
前記遷移に基づいて前記多目的モデルを訓練する訓練ステップと、
現在のサブ目的空間内の目的を達成する成功率を計算し、前記多目的モデルを評価する評価ステップと、
処理すべきサブ目的空間を現在のサブ目的空間からより高い難易度レベルを有する次のサブ目的空間に変更する目的空間変更ステップと、を含み、
前記目的空間変更ステップにおいて、前記成功率が所定閾値よりも大きい場合、処理すべきサブ目的空間を現在のサブ目的空間からより高い難易度レベルを有する次のサブ目的空間に変更する、訓練方法。
【請求項10】
より高い難易度係数を有する目的に対応する遷移がより高い優先度を有するように、前記遷移について優先度を設定する優先度設定ステップ、をさらに含み、
前記訓練ステップにおいて、前記遷移の優先度に基づいて、前記多目的モデルを訓練するための遷移を選択する、請求項9に記載の訓練方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理の分野に関し、具体的には、目的空間内の目的に基づいて多目的モデルを訓練する訓練装置に関する。
【背景技術】
【0002】
強化学習は、インテリジェントな意思決定の問題を解決することを目的とする。強化学習の仕組みでは、エージェントと環境がある。エージェントは、その方策及び現在の状態に基づいて最適な行動を決定し、環境とのインタラクションを行う。行動を実行した後に、環境は、報酬をフィードバックし、その状態遷移確率に基づいて新しい状態に切り替わる。そして、エージェントは、累積した報酬の期待値を最大化することで、その方策を最適化する。
【0003】
例えばHER(Hindsight Experience Replay)などの従来の多目的強化学習方法では、タスクを解決するために、単一の目的空間のみを用いてエージェントを訓練する。通常、目的空間は、難易度レベルが異なる目的を含む。難易度レベルが高い目的の場合、従来の多目的強化学習方法により生成可能な、該目的を達成するサンプルは非常に少ない。従って、従来の多目的強化学習方法では、エージェントを訓練して困難な目的を達成するために、長時間及び大量の訓練サンプルが必要である。
【発明の概要】
【発明が解決しようとする課題】
【0004】
以下は、本開示の態様を基本的に理解させるために、本開示の簡単な概要を説明する。なお、この簡単な概要は、本開示を網羅的な概要ではなく、本開示のポイント又は重要な部分を意図的に特定するものではなく、本開示の範囲を意図的に限定するものではなく、後述するより詳細的な説明の前文として、単なる概念を簡単な形で説明することを目的とする。
【0005】
上記の問題点を鑑み、本開示は、従来技術の1つ又は複数の欠点を解決することができる訓練装置及び訓練方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示の1つの態様では、目的空間内の目的に基づいて多目的モデルを訓練する訓練装置であって、前記目的空間を設定し、異なる難易度レベルを有する複数のサブ目的空間を取得する目的空間設定部と、処理すべきサブ目的空間を現在のサブ目的空間からより高い難易度レベルを有する次のサブ目的空間に変更する目的空間変更部と、少なくとも現在のサブ目的空間から目的をサンプリング目的として選択し、行動を実行して前記サンプリング目的に関する遷移を取得するサンプリング部と、前記遷移に基づいて前記多目的モデルを訓練する訓練部と、現在のサブ目的空間内の目的を達成する成功率を計算し、前記多目的モデルを評価する評価部と、を含み、前記目的空間変更部は、前記成功率が所定閾値よりも大きい場合、処理すべきサブ目的空間を現在のサブ目的空間からより高い難易度レベルを有する次のサブ目的空間に変更する、訓練装置を提供する。
【0007】
本開示のもう1つの態様では、目的空間内の目的に基づいて多目的モデルを訓練する訓練方法であって、前記目的空間を設定し、異なる難易度レベルを有する複数のサブ目的空間を取得する目的空間設定ステップと、少なくとも現在のサブ目的空間から目的をサンプリング目的として選択し、行動を実行して前記サンプリング目的に関する遷移を取得するサンプリングステップと、前記遷移に基づいて前記多目的モデルを訓練する訓練ステップと、現在のサブ目的空間内の目的を達成する成功率を計算し、前記多目的モデルを評価する評価ステップと、処理すべきサブ目的空間を現在のサブ目的空間からより高い難易度レベルを有する次のサブ目的空間に変更する目的空間変更ステップと、を含み、前記目的空間変更ステップにおいて、前記成功率が所定閾値よりも大きい場合、処理すべきサブ目的空間を現在のサブ目的空間からより高い難易度レベルを有する次のサブ目的空間に変更する、訓練方法を提供する。
【0008】
本開示の他の態様では、上記の本開示の方法を実現するためのコンピュータプログラムコード及びコンピュータプログラムプロダクト、並びに上記の本開示の方法を実現するためのコンピュータプログラムコードが記録されているコンピュータ読み取り可能な記憶媒体をさらに提供する。
【0009】
以下は、本開示の実施例の他の態様を説明し、特に本開示の好ましい実施例を詳細に説明するが、本開示はこれらの実施例に限定されない。
【図面の簡単な説明】
【0010】
本開示の原理及び利点を理解させるために、図面を参照しながら本開示の各実施例を説明する。全ての図面において、同一又は類似の符号で同一又は類似の構成部を示している。ここで説明される図面は、好ましい実施例を例示するためのものであり、全ての可能な実施例ではなく、本開示の範囲を限定するものではない。
図1】本開示の実施例に係る訓練装置の機能的構成の例を示すブロック図である。
図2】本開示の実施例に係る目的空間の分割の例を示す図である。
図3】本開示の他の実施例に係る訓練装置の機能的構成の例を示すブロック図である。
図4】本開示の実施例に係る訓練方法の流れの例を示すフローチャートである。
図5】本開示の他の実施例に係る訓練方法の流れの例を示すフローチャートである。
図6】本開示の実施例に適用可能なパーソナルコンピュータの例示的な構成を示すブロック図である。
【発明を実施するための形態】
【0011】
以下、図面を参照しながら本開示の例示的な実施例を詳細に説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、実際に実施する際に、開発者の具体的な目標を実現するために、特定の実施形態を変更してもよい、例えばシステム及び業務に関する制限条件に応じて実施形態を変更してもよい。また、開発作業が非常に複雑であり、且つ時間がかかるが、本公開の当業者にとって、この開発作業は単なる例の作業である。
【0012】
なお、本開示を明確にするために、図面には本開示に密に関連する装置の構成要件又は処理のステップのみが示され、本開示と関係のない細部が省略されている。
【0013】
以下は、図面を参照しながら、本開示の実施例を詳細に説明する。
【0014】
まず、図1を参照しながら、本開示の実施例に係る訓練装置100を説明する。図1は、本開示の実施例に係る訓練装置100の機能的構成の例を示すブロック図である。図1に示すように、本開示の実施例に係る訓練装置100は、目的空間設定部102、目的空間変更部104、サンプリング部106、訓練部108及び評価部110を含んでもよい。
【0015】
目的空間設定部102は、目的空間を設定し、異なる難易度レベルを有する複数のサブ目的空間を取得してもよい。例えば、サブ目的空間の難易度レベルは、サブ目的空間内の目的を達成する難易度を表し、サブ目的空間の難易度レベルが高いほど、サブ目的空間内の目的を達成する難易度(難しさ)が高い。
【0016】
限定的でない一例として、物体を持ち上げるように機械アームを訓練するための訓練プロセスでは、サブ目的空間の難易度レベルは、持ち上げ高さにより決定されてもよい。また、限定的でない一例として、自動運転及び/又は運転支援の車両の訓練プロセスでは、サブ目的空間の難易度レベルは、道路交通状況により決定されてもよい。他の訓練プロセスでは、当業者が実際の要求に応じてサブ目的空間の難易度レベルを決定してもよく、ここでその説明を省略する。
【0017】
目的空間変更部104は、処理すべきサブ目的空間を現在のサブ目的空間からより高い難易度レベルを有する次のサブ目的空間に変更してもよい。
【0018】
サンプリング部106は、少なくとも現在のサブ目的空間から目的をサンプリング目的として選択し、行動を実行してサンプリング目的に関する遷移(transition)、即ちサンプルを取得してもよい。
【0019】
例えば、サンプリング部106は、選択されたサンプリング目的について、多目的モデル及びノイズモデルに基づいて行動を実行して環境とのインタラクションを行い、サンプリング目的に関する遷移を取得してもよい。限定的でない一例として、ε貪欲方策(ε-greedy strategy)を用いてノイズモデルを決定してもよい。当業者が実際の要求に応じて他の方法を用いてノイズ関数を決定してもよく、ここでその説明を省略する。
【0020】
訓練部108は、遷移に基づいて多目的モデル(即ち方策)を訓練してもよい。一例として、訓練部108は、多目的モデルを訓練するための遷移をランダムに選択し、或いは遷移の時間差分誤差(temporal difference error)に基づいて多目的モデルを訓練するための遷移を選択してもよい。なお、多目的モデルを訓練するための遷移を選択する方法は、これに限定されない。
【0021】
限定的でない一例として、訓練部108は、HERアルゴリズムを用いて遷移に基づいて多目的モデルを訓練してもよい。HERアルゴリズムを用いて多目的モデルを訓練する場合、四つ組(quadruple)(s||g,a,r,st+1||g)を用いて遷移を表してもよく、ここで、sは時間ステップtにおける状態を表し、aは時間ステップtにおいて実行される行動を表し、rは時間ステップtにおいて行動を実行して得られた報酬を表し、st+1は時間ステップt+1における状態を表し、gはサンプリング目的を表す。
【0022】
評価部110は、現在のサブ目的空間内の目的を達成する成功率を計算し、前記多目的モデルを評価してもよい。一例として、評価部110は、ノイズがない場合、行動を実行して複数の実行結果、例えばエピソード(episode)を取得し、成功率を計算してもよい。この場合、成功率としては、成功したエピソードの数と取得された全てのエピソードの数との比率を計算してもよい。
【0023】
具体的には、目的空間の訓練を開始する際に、処理すべきサブ目的空間は、最も低い難易度レベルを有するサブ目的空間と設定されてもよい。評価部110により算出された現在のサブ目的空間内の目的を達成する成功率が所定閾値よりも大きい場合、目的空間変更部104は、処理すべきサブ目的空間を現在のサブ目的空間からより高い難易度レベルを有する次のサブ目的空間に変更してもよい。評価部110により算出された現在のサブ目的空間内の目的を達成する成功率が所定閾値以下である場合、例えば現在のサブ目的空間についての処理を実行し続けてもよい。例えば、現在のサブ目的空間が難易度レベルが1のサブ目的空間1である場合、現在のサブ目的空間1内の目的を達成する成功率が所定閾値よりも大きいとき、目的空間変更部104は、処理すべきサブ目的空間を現在のサブ目的空間1からより難易度レベルが2のサブ目的空間2に変更してもよく、現在のサブ目的空間1内の目的を達成する成功率が所定閾値以下であるとき、例えば現在のサブ目的空間1についての処理を実行し続けてもよい。
【0024】
限定的でない一例として、現在のサブ目的空間内の目的を達成する成功率が所定閾値よりも大きい場合、目的空間変更部104は、処理すべきサブ目的空間を現在のサブ目的空間からより高い難易度レベルを有する次のサブ目的空間に自動的に変更してもよい。
【0025】
また、次のサブ目的空間の処理を開始する前に、ノイズモデルの関連パラメータを再初期化してもよい。例えば、ε貪欲方策を用いてノイズモデルを決定する場合、εを1に再初期化してもよい。
【0026】
一例として、目的空間設定部102は、目的空間を予め分割し、異なる難易度レベルを有する複数のサブ目的空間を取得してもよい。例えば、目的空間設定部102は、目的空間を予め分割し、難易度レベルが1のサブ目的空間1、難易度レベルが2のサブ目的空間2、…、難易度レベルがnのサブ目的空間nを取得してもよく、ここで、nは2以上の正整数である。限定的でない一例として、物体を持ち上げるように機械アームを訓練する訓練プロセスでは、目的空間設定部102は、持ち上げ高さに基づいて目的空間を予め分割し、異なる難易度レベルを有する複数のサブ目的空間を取得してもよい。例えば、図2は、本開示の実施例に係る目的空間の分割の例を示す図である。図2では、持ち上げ高さzに基づいて目的空間を5つの目的空間、即ち難易度レベルが1のサブ目的空間1(z=0m)、難易度レベルが2のサブ目的空間2(0m<z≦0.01m)、難易度レベルが3のサブ目的空間3(0.01m<z≦0.02m)、難易度レベルが4のサブ目的空間4(0.02m<z≦0.04m)及び難易度レベルが5のサブ目的空間5(0.04m<z≦0.08m)に分割する。
【0027】
もう1つの例として、目的空間設定部102は、現在のサブ目的空間内の目的を達成する成功率が所定閾値よりも大きい場合、達成された目的の分布を計算し、目的空間内の該分布の中心から所定距離に位置する目的を用いて次のサブ目的空間を取得してもよい。また、当業者が他の方法を用いて設定を行い、異なる難易度レベルを有する複数のサブ目的空間を取得してもよく、ここでその説明を省略する。
【0028】
目的空間設定部102が達成された目的の分布を計算し、目的空間内の該分布の中心から所定距離に位置する目的を用いて次のサブ目的空間を取得する場合、次のサブ目的空間を取得する際に目的空間外の異常値を除去するように、目的空間の具体的な範囲を指定してもよい。例えば、目的空間が円形又は球形として構成された場合、次のサブ目的空間を取得する際に目的空間の円心からの距離が最大半径よりも大きい異常値を除去するように、目的空間の最大半径を指定してもよい。
【0029】
限定的でない一例として、目的空間の具体的な範囲に基づいて所定距離を決定してもよい。また、異なるサブ目的空間を取得するための所定距離は、同一であってもよいし、異なってもよい。
【0030】
好ましくは、サンプリング部106は、処理されたサブ目的空間から目的をサンプリング目的として選択してもよい。言い換えれば、サンプリング部106は、現在のサブ目的空間及び処理されたサブ目的空間の両方から目的をサンプリング目的として選択してもよい。例えば、処理されたサブ目的空間は、訓練プロセスが既に実行されたサブ目的空間である。好ましくは、処理されたサブ目的空間は、訓練プロセスが既に実行されており、且つ該サブ目的空間内の目的を達成する成功率が所定閾値よりも大きいサブ目的空間である。限定的でない一例として、現在のサブ目的空間がサブ目的空間3である場合、サンプリング部106は、現在のサブ目的空間3、並びに処理されたサブ目的空間1及びサブ目的空間2から目的をサンプリング目的として選択してもよい。現在のサブ目的空間及び処理されたサブ目的空間の両方から目的をサンプリング目的として選択することで、学習をより円滑化することができる。
【0031】
一例として、サンプリング部106は、第1確率及び第2確率で現在のサブ目的空間及び処理されたサブ目的空間から目的をサンプリング目的として選択してもよい。ここで、第1確率と第2確率の和は100%である。限定的でない一例として、第1確率及び第2確率は、それぞれ50%及び50%であってもよい。なお、当業者が実際の要求に応じて他の適切な第1確率及び第2確率を選択してもよい。
【0032】
本開示の本実施例に係る訓練装置は、目的空間を設定し、異なる難易度レベルを有する複数のサブ目的空間を取得し、取得された複数のサブ目的空間を難易度レベルに応じて順次処理することで、多目的モデルを訓練するために必要な遷移及び時間を低減させることができるため、訓練効率を向上させることができる。
【0033】
次に、図3を参照しながら、本開示の他の実施例に係る訓練装置300を説明する。図3は、本開示の他の実施例に係る訓練装置300の機能的構成の例を示すブロック図である。図3に示すように、本開示の他の実施例に係る訓練装置300は、目的空間設定部302、目的空間変更部304、サンプリング部306、訓練部308、評価部310及び優先度設定部312を含んでもよい。
【0034】
本開示の本実施例に係る訓練装置300に含まれる目的空間設定部302、目的空間変更部304、サンプリング部306及び評価部310は、本開示の上記の実施例に係る訓練装置100に含まれる目的空間設定部102、目的空間変更部104、サンプリング部106及び評価部110と類似するため、説明の便宜上、ここでその説明を省略する。
【0035】
優先度設定部312は、より高い難易度係数を有する目的に対応する(目的を達成する)遷移がより高い優先度を有するように、遷移について優先度を設定してもよい。
【0036】
一例として、優先度設定部312は、遷移に対応する目的の難易度係数に基づいて、遷移の優先度を設定してもよい。例えば、遷移に対応する目的の難易度係数が高いほど、遷移の優先度が高くなる。例えば、遷移に対応する目的の難易度係数は該目的の所在するサブ目的空間の難易度レベルに関連してもよく、同一のサブ目的空間内の目的は異なる難易度係数を有してもよい。それに応じて、例えば、同一のサブ目的空間内の目的に対応する遷移は、異なる優先度を有してもよい。また、例えば、難易度レベルの低いサブ目的空間内の各目的の難易度係数は、難易度レベルの高いサブ目的空間内の全ての目的の難易度係数よりも低くてもよい。それに応じて、例えば、難易度レベルの低いサブ目的空間内の目的に対応する各遷移の優先度は、難易度レベルの高いサブ目的空間内の目的に対応する全ての遷移の優先度よりも低くてもよい。
【0037】
限定的でない一例として、物体を持ち上げるように機械アームを訓練する訓練プロセスでは、優先度設定部312は、遷移に対応する目的(目標)持ち上げ高さに応じて遷移の優先度を設定してもよい。例えば、優先度設定部312は、遷移の優先度を遷移に対応する目的持ち上げ高さに設定してもよい。例えば、遷移に対応する目的持ち上げ高さが0.01mである場合、優先度設定部312は、遷移の優先度を0.01に設定し、遷移に対応する目的持ち上げ高さが0.02mである場合、優先度設定部312は、遷移の優先度を0.02に設定し、遷移に対応する目的持ち上げ高さが0.04mである場合、優先度設定部312は、遷移の優先度を0.04に設定し、遷移に対応する目的持ち上げ高さが0.08mである場合、優先度設定部312は、遷移の優先度を0.08に設定してもよく、他の場合も同様である。
【0038】
もう1つの例として、優先度設定部312は、遷移の時間差分誤差、及び前記遷移に対応する目的の難易度係数に基づいて、遷移の優先度を設定してもよい。例えば、以下の式(1)に従って、遷移の優先度Pを計算してもよい。
【数1】
【0039】
ここで、δは遷移の時間差分誤差を表し、dは遷移に対応する目的の難易度係数を表し、0≦λ≦1。実際の要求に応じてλの値を設定してもよい。λが小さいほど、優先度を設定する際に遷移に対応する目的の難易度係数による決定重要度が大きくなることを意味する。λが0の場合、遷移の優先度は、遷移に対応する目的の難易度係数にのみ関連付けられ、λが1の場合、移行の優先度は、遷移の時間差分誤差にのみ関連付けられる。
【0040】
訓練部308は、遷移の優先度に基づいて、多目的モデルを訓練するための遷移を選択してもよい。例えば、優先度が高いほど、多目的モデルを訓練するために遷移を選択する確率が高くなる。一例として、訓練部308は、現在の目的空間に関する全ての遷移の優先度に基づいて遷移tの優先度分布係数を計算し、遷移tの優先度分布係数に基づいて、多目的モデルを訓練するための遷移を選択してもよい。例えば、遷移tの優先度分布係数が大きいほど、多目的モデルを訓練するために遷移tを選択する確率が高くなる。例えば、訓練部308は、以下の式(2)に従って、遷移tの優先度分布係数P(t)を計算してもよい。
【数2】
【0041】
ここで、αは優先度係数を表し、α≧0。実際の要求に応じてαの値を設定してもよい。αが大きいほど、多目的モデルを訓練するための遷移を選択する際に優先度により決定重要度が大きくなることを意味する。αが0の場合、訓練部308は、本開示の上記の実施例に係る訓練装置100における訓練部108と同様に、遷移の優先度に関わらず、多目的モデルを訓練するための遷移を選択する。
【0042】
本開示の本実施例に係る訓練装置は、本開示の上記の実施例に係る訓練装置と同様に、目的空間を設定し、異なる難易度レベルを有する複数のサブ目的空間を取得し、取得された複数のサブ目的空間を難易度レベルに応じて順次処理することで、多目的モデルを訓練するために必要な遷移及び時間を低減させることができるため、訓練効率を向上させることができる。また、本開示の本実施例に係る訓練装置は、より高い難易度係数を有する目的に対応する遷移がより高い優先度を有するように、遷移について優先度を設定し、遷移の優先度に基づいて多目的モデルを訓練するための遷移を選択することで、より高い難易度係数を有する目的に対応する遷移が多目的モデルを訓練するための遷移として選択される可能性がより大きいため、訓練効率をさらに向上させることができる。
【0043】
上記の多目的モデルを訓練する装置の実施例と同様に、本開示は、多目的モデルを訓練する方法の実施例をさらに提供する。
【0044】
図4は、本開示の実施例に係る訓練方法400の流れの例を示すフローチャートである。図4に示すように、本開示の実施例に係る訓練方法400は、開始ステップS401、目的空間設定ステップS402、サンプリングステップS406、訓練ステップS408、評価ステップS410、目的空間変更ステップS404及び終了ステップS412を含んでもよい。
【0045】
目的空間設定ステップS402において、目的空間を設定し、異なる難易度レベルを有する複数のサブ目的空間を取得する。ここで、サブ目的空間の難易度レベルは、サブ目的空間内の目的を達成する難易度を表し、サブ目的空間の難易度レベルが高いほど、サブ目的空間内の目的を達成する難易度(難しさ)が高い。
【0046】
限定的でない一例として、物体を持ち上げるように機械アームを訓練するための訓練プロセスでは、サブ目的空間の難易度レベルは、持ち上げ高さにより決定されてもよい。また、限定的でない一例として、自動運転及び/又は運転支援の車両の訓練プロセスでは、サブ目的空間の難易度レベルは、道路交通状況により決定されてもよい。他の訓練プロセスでは、当業者が実際の要求に応じてサブ目的空間の難易度レベルを決定してもよく、ここでその説明を省略する。
【0047】
サンプリングステップS404において、少なくとも現在のサブ目的空間から目的をサンプリング目的として選択し、行動を実行してサンプリング目的に関する遷移、即ちサンプルを取得する。
【0048】
具体的には、サンプリングステップS404において、選択されたサンプリング目的について、多目的モデル及びノイズモデルに基づいて行動を実行して環境とのインタラクションを行い、サンプリング目的に関する遷移を取得してもよい。限定的でない一例として、ε貪欲方策を用いてノイズモデルを決定してもよい。当業者が実際の要求に応じて他の方法を用いてノイズ関数を決定してもよく、ここでその説明を省略する。
【0049】
訓練ステップS406において、遷移に基づいて多目的モデル(即ち方策)を訓練する。一例として、訓練ステップS406において、多目的モデルを訓練するための遷移をランダムに選択し、或いは遷移の時間差分誤差に基づいて多目的モデルを訓練するための遷移を選択してもよい。なお、多目的モデルを訓練するための遷移を選択する方法は、これに限定されない。
【0050】
限定的でない一例として、訓練ステップS406において、HERアルゴリズムを用いて遷移に基づいて多目的モデルを訓練してもよい。HERアルゴリズムを用いて多目的モデルを訓練する場合、四つ組(s||g,a,r,st+1||g)を用いて遷移を表してもよく、ここで、sは時間ステップtにおける状態を表し、aは時間ステップtにおいて実行される行動を表し、rは時間ステップtにおいて行動を実行して得られた報酬を表し、st+1は時間ステップt+1における状態を表し、gはサンプリング目的を表す。
【0051】
評価ステップS408において、現在のサブ目的空間内の目的を達成する成功率を計算し、前記多目的モデルを評価する。一例として、評価ステップS408において、ノイズがない場合、行動を実行して複数の実行結果、例えばエピソードを取得し、成功率を計算してもよい。この場合、成功率としては、成功したエピソードの数と取得された全てのエピソードの数との比率を計算してもよい。
【0052】
目的空間変更ステップS410において、現在のサブ目的空間内の目的を達成する成功率が所定閾値よりも大きい場合、処理すべきサブ目的空間を現在のサブ目的空間からより高い難易度レベルを有する次のサブ目的空間に変更する。現在のサブ目的空間内の目的を達成する成功率が所定閾値以下である場合、例えば現在のサブ目的空間についての処理を実行し続けてもよい。
【0053】
具体的には、目的空間の訓練を開始する際に、処理すべきサブ目的空間は、最も低い難易度レベルを有するサブ目的空間と設定されてもよい。評価ステップS408において算出された現在のサブ目的空間内の目的を達成する成功率が所定閾値よりも大きい場合、処理すべきサブ目的空間を現在のサブ目的空間からより高い難易度レベルを有する次のサブ目的空間に変更してもよい。例えば、現在のサブ目的空間が難易度レベルが1のサブ目的空間1である場合、現在のサブ目的空間1内の目的を達成する成功率が所定閾値よりも大きいとき、処理すべきサブ目的空間を現在のサブ目的空間1からより難易度レベルが2のサブ目的空間2に変更してもよい。
【0054】
限定的でない一例として、現在のサブ目的空間内の目的を達成する成功率が所定閾値よりも大きい場合、処理すべきサブ目的空間を現在のサブ目的空間からより高い難易度レベルを有する次のサブ目的空間に自動的に変更してもよい。
【0055】
また、次のサブ目的空間の処理を開始する前に、ノイズモデルの関連パラメータを再初期化してもよい。例えば、ε貪欲方策を用いてノイズモデルを決定する場合、εを1に再初期化してもよい。
【0056】
一例として、目的空間設定ステップS402において、目的空間を予め分割し、異なる難易度レベルを有する複数のサブ目的空間を取得してもよい。例えば、目的空間設定ステップS402において、目的空間を予め分割し、難易度レベルが1のサブ目的空間1、難易度レベルが2のサブ目的空間2、…、難易度レベルがnのサブ目的空間nを取得してもよく、ここで、nは2以上の正整数である。限定的でない一例として、物体を持ち上げるように機械アームを訓練する訓練プロセスでは、目的空間設定ステップS402において、持ち上げ高さに基づいて目的空間を予め分割し、異なる難易度レベルを有する複数のサブ目的空間を取得してもよい。例えば、図2に示す本開示の実施例に係る目的空間の分割の例を参照する。
【0057】
もう1つの例として、現在のサブ目的空間内の目的を達成する成功率が所定閾値よりも大きい場合、目的空間設定ステップS402において、達成された目的の分布を計算し、目的空間内の該分布の中心から所定距離に位置する目的を用いて次のサブ目的空間を取得してもよい。また、当業者が他の方法を用いて設定を行い、異なる難易度レベルを有する複数のサブ目的空間を取得してもよく、ここでその説明を省略する。
【0058】
達成された目的の分布を計算し、目的空間内の該分布の中心から所定距離に位置する目的を用いて次のサブ目的空間を取得する場合、次のサブ目的空間を取得する際に目的空間外の異常値を除去するように、目的空間の具体的な範囲を指定してもよい。例えば、目的空間が円形又は球形として構成された場合、次のサブ目的空間を取得する際に目的空間の円心からの距離が最大半径よりも大きい異常値を除去するように、目的空間の最大半径を指定してもよい。
【0059】
限定的でない一例として、目的空間の具体的な範囲に基づいて所定距離を決定してもよい。また、異なるサブ目的空間を取得するための所定距離は、同一であってもよいし、異なってもよい。
【0060】
好ましくは、サンプリングステップS404において、処理されたサブ目的空間から目的をサンプリング目的として選択してもよい。言い換えれば、サンプリングステップS404において、現在のサブ目的空間及び処理されたサブ目的空間の両方から目的をサンプリング目的として選択してもよい。例えば、処理されたサブ目的空間は、訓練プロセスが既に実行されたサブ目的空間である。好ましくは、処理されたサブ目的空間は、訓練プロセスが既に実行されており、且つ該サブ目的空間内の目的を達成する成功率が所定閾値よりも大きいサブ目的空間である。限定的でない一例として、現在のサブ目的空間がサブ目的空間3である場合、現在のサブ目的空間3、並びに処理されたサブ目的空間1及びサブ目的空間2から目的をサンプリング目的として選択してもよい。現在のサブ目的空間及び処理されたサブ目的空間の両方から目的をサンプリング目的として選択することで、学習をより円滑化することができる。
【0061】
一例として、サンプリングステップS404において、第1確率及び第2確率で現在のサブ目的空間及び処理されたサブ目的空間から目的をサンプリング目的として選択してもよい。ここで、第1確率と第2確率の和は100%である。限定的でない一例として、第1確率及び第2確率は、それぞれ50%及び50%であってもよい。なお、当業者が実際の要求に応じて他の適切な第1確率及び第2確率を選択してもよい。
【0062】
本開示の本実施例に係る訓練方法は、目的空間を設定し、異なる難易度レベルを有する複数のサブ目的空間を取得し、取得された複数のサブ目的空間を難易度レベルに応じて順次処理することで、多目的モデルを訓練するために必要な遷移及び時間を低減させることができるため、訓練効率を向上させることができる。
【0063】
次に、図5を参照しながら、本開示の他の実施例に係る訓練方法を説明する。図5は、本開示の他の実施例に係る訓練方法の流れの例を示すフローチャートである。図5に示すように、本開示の他の実施例に係る訓練方法500は、開始ステップS501、目的空間設定ステップS502、サンプリングステップS504、優先度設定ステップS505、訓練ステップS506、評価ステップS508、目的空間変更ステップS510及び終了ステップS512を含んでもよい。
【0064】
本開示の本実施例に係る訓練方法500に含まれる目的空間設定ステップS502、サンプリングステップS504、評価ステップS508、目的空間変更ステップS510における処理は、本開示の上記の実施例に係る訓練方法400に含まれる目的空間設定ステップS402、サンプリングステップS404、評価ステップS408及び目的空間変更ステップS410における処理と類似するため、説明の便宜上、ここでその説明を省略する。
【0065】
優先度設定ステップS505において、より高い難易度係数を有する目的に対応する(目的を達成する)遷移がより高い優先度を有するように、遷移について優先度を設定する。
【0066】
一例として、優先度設定ステップS505において、遷移に対応する目的の難易度係数に基づいて、遷移の優先度を設定してもよい。例えば、遷移に対応する目的の難易度係数が高いほど、遷移の優先度が高くなる。例えば、遷移に対応する目的の難易度係数は該目的の所在するサブ目的空間の難易度レベルに関連してもよく、同一のサブ目的空間内の目的は異なる難易度係数を有してもよい。それに応じて、例えば、同一のサブ目的空間内の目的に対応する遷移は、異なる優先度を有してもよい。また、例えば、難易度レベルの低いサブ目的空間内の各目的の難易度係数は、難易度レベルの高いサブ目的空間内の全ての目的の難易度係数よりも低くてもよい。それに応じて、例えば、難易度レベルの低いサブ目的空間内の目的に対応する各遷移の優先度は、難易度レベルの高いサブ目的空間内の目的に対応する全ての遷移の優先度よりも低くてもよい。
【0067】
一例として、物体を持ち上げるように機械アームを訓練する訓練プロセスでは、優先度設定ステップS505において、遷移に対応する目的(目標)持ち上げ高さに応じて遷移の優先度を設定してもよい。例えば、優先度設定ステップS505において、遷移の優先度を遷移に対応する目的持ち上げ高さに設定してもよい。例えば、遷移に対応する目的持ち上げ高さが0.01mである場合、優先度設定部312は、遷移の優先度を0.01に設定し、遷移に対応する目的持ち上げ高さが0.02mである場合、優先度設定部312は、遷移の優先度を0.02に設定し、遷移に対応する目的持ち上げ高さが0.04mである場合、優先度設定部312は、遷移の優先度を0.04に設定し、遷移に対応する目的持ち上げ高さが0.08mである場合、優先度設定部312は、遷移の優先度を0.08に設定してもよく、他の場合も同様である。
【0068】
もう1つの例として、優先度設定ステップS505において、遷移の時間差分誤差、及び前記遷移に対応する目的の難易度係数に基づいて、遷移の優先度を設定してもよい。例えば、上記の装置の実施例に説明された式(1)に従って、遷移の優先度Pを計算してもよい。
【0069】
実際の要求に応じてλの値を設定してもよい。λが小さいほど、優先度を設定する際に遷移に対応する目的の難易度係数による決定重要度が大きくなることを意味する。λが0の場合、遷移の優先度は、遷移に対応する目的の難易度係数にのみ関連付けられ、λが1の場合、移行の優先度は、遷移の時間差分誤差にのみ関連付けられる。
【0070】
訓練ステップS506において、遷移の優先度に基づいて、多目的モデルを訓練するための遷移を選択してもよい。一例として、訓練ステップS506において、現在の目的空間に関する全ての遷移の優先度に基づいて遷移tの優先度分布係数を計算し、遷移tの優先度分布係数に基づいて、多目的モデルを訓練するための遷移を選択してもよい。ここで、遷移tの優先度分布係数P(t)が大きいほど、多目的モデルを訓練するために遷移tを選択する確率が高くなる。例えば、訓練ステップS506において、上記の装置の実施例に説明された式(2)に従って、遷移tの優先度分布係数P(t)を計算してもよい。
【0071】
実際の要求に応じてαの値を設定してもよい。αが大きいほど、多目的モデルを訓練するための遷移を選択する際に優先度により決定重要度が大きくなることを意味する。αが0の場合、訓練ステップS506において、本開示の上記の実施例に係る訓練方法400における訓練ステップS406と同様に、遷移の優先度に関わらず、多目的モデルを訓練するための遷移を選択する。
【0072】
本開示の本実施例に係る訓練方法は、本開示の上記の実施例に係る訓練方法と同様に、目的空間を設定し、異なる難易度レベルを有する複数のサブ目的空間を取得し、取得された複数のサブ目的空間を難易度レベルに応じて順次処理することで、多目的モデルを訓練するために必要な遷移及び時間を低減させることができるため、訓練効率を向上させることができる。また、本開示の本実施例に係る訓練方法は、より高い難易度係数を有する目的に対応する遷移がより高い優先度を有するように、遷移について優先度を設定し、遷移の優先度に基づいて多目的モデルを訓練するための遷移を選択することで、より高い難易度係数を有する目的に対応する遷移が多目的モデルを訓練するための遷移として選択される可能性がより大きいため、訓練効率をさらに向上させることができる。
【0073】
なお、以上は本開示の実施例に係る訓練装置及び訓練方法の機能的構成及び動作を説明しているが、該機能的構成及び動作は単なる例示的なものであり、本開示を限定するものではない。当業者は、本開示の原理に従って上記実施例を修正してもよく、例えば各実施例における機能的モジュールを追加、削除又は組み合わせてもよく、これらの修正は本開示の範囲に含まれるものである。
【0074】
また、ここの装置の実施例は上記方法の実施例に対応するため、装置の実施例に詳細に説明されていない内容は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。
【0075】
また、本開示は記憶媒体及びプログラムプロダクトをさらに提供する。本開示の実施例に係る記憶媒体及びプログラムプロダクトにおける機器が実行可能な命令は上記方法を実行してもよく、ここで詳細に説明されていない内容は、上記方法の実施例の対応説明を参照してもよく、ここでその説明を省略する。
【0076】
それに応じて、本開示は、機器が実行可能な命令を含むプログラムプロダクトが記録されている記憶媒体をさらに含む。該記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカード、メモリスティック等を含むが、これらに限定されない。
【0077】
なお、上記処理及び装置はソフトウェア及び/又はファームウェアにより実現されてもよい。ソフトウェア及び/又はファームウェアにより実施されている場合、記憶媒体又はネットワークから専用のハードウェア構成を有するコンピュータ、例えば図6示されている汎用パーソナルコンピュータ600に上記方法を実施するためのソフトウェアを構成するプログラムをインストールしてもよく、該コンピュータは各種のプログラムがインストールされている場合は各種の機能などを実行できる。
【0078】
図6において、中央処理部(CPU)601は、読み出し専用メモリ(ROM)602に記憶されているプログラム、又は記憶部608からランダムアクセスメモリ(RAM)603にロードされたプログラムにより各種の処理を実行する。RAM603には、必要に応じて、CPU601が各種の処理を実行するに必要なデータが記憶されている。
【0079】
CPU601、ROM602、及びRAM603は、バス604を介して互いに接続されている。入力/出力インターフェース605もバス604に接続されている。
【0080】
入力部606(キーボード、マウスなどを含む)、出力部607(ディスプレイ、例えばブラウン管(CRT)、液晶ディスプレイ(LCD)など、及びスピーカなどを含む)、記憶部608(例えばハードディスクなどを含む)、通信部609(例えばネットワークのインタフェースカード、例えばLANカード、モデムなどを含む)は、入力/出力インターフェース605に接続されている。通信部609は、ネットワーク、例えばインターネットを介して通信処理を実行する。
【0081】
必要に応じて、ドライバ610は、入力/出力インターフェース605に接続されてもよい。取り外し可能な媒体611は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライバ610にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部608にインストールされている。
【0082】
ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体611を介してソフトウェアを構成するプログラムをインストールする。
【0083】
なお、これらの記憶媒体は、図6に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する取り外し可能な媒体611に限定されない。取り外し可能な媒体611は、例えば磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(光ディスク-読み出し専用メモリ(CD-ROM)、及びデジタル多目的ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標))及び半導体メモリを含む。或いは、記憶媒体は、ROM602、記憶部608に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。
【0084】
以上は図面を参照しながら本開示の好ましい実施例を説明しているが、上記実施例及び例は例示的なものであり、制限的なものではない。当業者は、特許請求の範囲の主旨及び範囲内で本開示に対して各種の修正、改良、均等的なものに変更してもよい。これらの修正、改良又は均等的なものに変更することは本開示の保護範囲に含まれるものである。
【0085】
例えば、上記実施例の1つのユニットに含まれる機能は別々の装置により実現されてもよい。また、上記実施例の複数のユニットにより実現される複数の機能は別々の装置によりそれぞれ実現されてもよい。さらに、以上の機能の1つは複数のユニットにより実現されてもよい。なお、これらの構成は本開示の範囲内のものである。
【0086】
また、本開示の方法は、明細書に説明された時間的順序で実行するものに限定されず、他の時間的順序で順次、並行、又は独立して実行されてもよい。このため、本明細書に説明された方法の実行順序は、本開示の技術的な範囲を限定するものではない。
【0087】
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示するが、これらの付記に限定されない。
(付記1)
目的空間内の目的に基づいて多目的モデルを訓練する訓練装置であって、
前記目的空間を設定し、異なる難易度レベルを有する複数のサブ目的空間を取得する目的空間設定部と、
処理すべきサブ目的空間を現在のサブ目的空間からより高い難易度レベルを有する次のサブ目的空間に変更する目的空間変更部と、
少なくとも現在のサブ目的空間から目的をサンプリング目的として選択し、行動を実行して前記サンプリング目的に関する遷移を取得するサンプリング部と、
前記遷移に基づいて前記多目的モデルを訓練する訓練部と、
現在のサブ目的空間内の目的を達成する成功率を計算し、前記多目的モデルを評価する評価部と、を含み、
前記目的空間変更部は、前記成功率が所定閾値よりも大きい場合、処理すべきサブ目的空間を現在のサブ目的空間からより高い難易度レベルを有する次のサブ目的空間に変更する、訓練装置。
(付記2)
前記目的空間設定部は、前記目的空間を予め分割し、異なる難易度レベルを有する前記複数のサブ目的空間を取得する、付記1に記載の訓練装置。
(付記3)
前記目的空間設定部は、前記成功率が所定閾値よりも大きい場合、達成された目的の分布を計算し、前記目的空間内の前記分布の中心から所定距離に位置する目的を用いて次のサブ目的空間を取得する、付記1に記載の訓練装置。
(付記4)
前記サンプリング部は、処理されたサブ目的空間から目的をサンプリング目的として選択する、付記1乃至3の何れかに記載の訓練装置。
(付記5)
前記サンプリング部は、第1確率及び第2確率で現在のサブ目的空間及び処理されたサブ目的空間から目的をサンプリング目的として選択し、
前記第1確率と前記第2確率の和は100%である、付記4に記載の訓練装置。
(付記6)
より高い難易度係数を有する目的に対応する遷移がより高い優先度を有するように、前記遷移について優先度を設定する優先度設定部、をさらに含み、
前記訓練部は、前記遷移の優先度に基づいて、前記多目的モデルを訓練するための遷移を選択する、付記1乃至3の何れかに記載の訓練装置。
(付記7)
前記優先度設定部は、前記遷移の時間差分誤差、及び前記遷移に対応する目的の難易度係数に基づいて、前記遷移の優先度を設定する、付記6に記載の訓練装置。
(付記8)
前記優先度設定部は、前記遷移に対応する目的の難易度係数に基づいて、前記遷移の優先度を設定する、付記6に記載の訓練装置。
(付記9)
より高い難易度係数を有する目的に対応する遷移がより高い優先度を有するように、前記遷移について優先度を設定する優先度設定部、をさらに含み、
前記訓練部は、前記遷移の優先度に基づいて、前記多目的モデルを訓練するための遷移を選択する、付記4に記載の訓練装置。
(付記10)
前記優先度設定部は、前記遷移の時間差分誤差、及び前記遷移に対応する目的の難易度係数に基づいて、前記遷移の優先度を設定する、付記9に記載の訓練装置。
(付記11)
前記優先度設定部は、前記遷移に対応する目的の難易度係数に基づいて、前記遷移の優先度を設定する、付記9に記載の訓練装置。
(付記12)
目的空間内の目的に基づいて多目的モデルを訓練する訓練方法であって、
前記目的空間を設定し、異なる難易度レベルを有する複数のサブ目的空間を取得する目的空間設定ステップと、
少なくとも現在のサブ目的空間から目的をサンプリング目的として選択し、行動を実行して前記サンプリング目的に関する遷移を取得するサンプリングステップと、
前記遷移に基づいて前記多目的モデルを訓練する訓練ステップと、
現在のサブ目的空間内の目的を達成する成功率を計算し、前記多目的モデルを評価する評価ステップと、
処理すべきサブ目的空間を現在のサブ目的空間からより高い難易度レベルを有する次のサブ目的空間に変更する目的空間変更ステップと、を含み、
前記目的空間変更ステップにおいて、前記成功率が所定閾値よりも大きい場合、処理すべきサブ目的空間を現在のサブ目的空間からより高い難易度レベルを有する次のサブ目的空間に変更する、訓練方法。
(付記13)
前記目的空間設定ステップにおいて、前記目的空間を予め分割し、異なる難易度レベルを有する前記複数のサブ目的空間を取得する、付記12に記載の訓練方法。
(付記14)
前記目的空間設定ステップにおいて、前記成功率が所定閾値よりも大きい場合、達成された目的の分布を計算し、前記目的空間内の前記分布の中心から所定距離に位置する目的を用いて次のサブ目的空間を取得する、付記12に記載の訓練方法。
(付記15)
前記サンプリングステップにおいて、処理されたサブ目的空間から目的をサンプリング目的として選択する、付記12乃至14の何れかに記載の訓練方法。
(付記16)
前記サンプリングステップにおいて、第1確率及び第2確率で現在のサブ目的空間及び処理されたサブ目的空間から目的をサンプリング目的として選択し、
前記第1確率と前記第2確率の和は100%である、付記15に記載の訓練方法。
(付記17)
より高い難易度係数を有する目的に対応する遷移がより高い優先度を有するように、前記遷移について優先度を設定する優先度設定ステップ、をさらに含み、
前記訓練ステップにおいて、前記遷移の優先度に基づいて、前記多目的モデルを訓練するための遷移を選択する、付記12乃至14の何れかに記載の訓練方法。
(付記18)
前記優先度設定ステップにおいて、前記遷移の時間差分誤差、及び前記遷移に対応する目的の難易度係数に基づいて、前記遷移の優先度を設定する、付記17に記載の訓練方法。
(付記19)
前記優先度設定ステップにおいて、前記遷移に対応する目的の難易度係数に基づいて、前記遷移の優先度を設定する、付記17に記載の訓練方法。
(付記20)
プログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記プログラム命令がコンピュータにより実行される際に、付記12乃至19の何れかに記載の訓練方法を実行する、記憶媒体。
【0088】
以上は本開示の具体的な実施例を説明しているが、上記実施例及び例は例示的なものであり、制限的なものではない。当業者は、特許請求の範囲の主旨及び範囲内で本開示に対して各種の修正、改良、均等的なものに変更してもよい。これらの修正、改良又は均等的なものに変更することは本開示の保護範囲に含まれるものである。
図1
図2
図3
図4
図5
図6